diff --git a/.asf.yaml b/.asf.yaml
index 2c66ce5be63..4596f7ac5d0 100644
--- a/.asf.yaml
+++ b/.asf.yaml
@@ -18,9 +18,15 @@
 github:
   description: "Apache Arrow is a multi-language toolbox for accelerated data interchange and in-memory processing"
   homepage: https://arrow.apache.org/
+  collaborators:
+    - assignUser
+    - benibus
+    - milesgranger
+    - toddfarmer
 
 notifications:
   commits:      commits@arrow.apache.org
+  issues_status: issues@arrow.apache.org
   issues:       github@arrow.apache.org
   pullrequests: github@arrow.apache.org
   jira_options: link label worklog
diff --git a/.dockerignore b/.dockerignore
index 5d6d171fdec..3791cca95e3 100644
--- a/.dockerignore
+++ b/.dockerignore
@@ -61,3 +61,5 @@
 !rust/datafusion/Cargo.toml
 !rust/datafusion/benches
 !rust/integration-testing/Cargo.toml
+!go/go.mod
+!go/go.sum
\ No newline at end of file
diff --git a/.env b/.env
index 2f06cca474b..d93eab06ffb 100644
--- a/.env
+++ b/.env
@@ -47,24 +47,27 @@ ULIMIT_CORE=-1
 
 # Default versions for platforms
 ALMALINUX=8
+ALPINE_LINUX=3.16
 DEBIAN=11
 FEDORA=35
 UBUNTU=20.04
 
 # Default versions for various dependencies
-CLANG_TOOLS=12
-CUDA=9.1
+CLANG_TOOLS=14
+CUDA=11.0.3
 DASK=latest
 DOTNET=6.0
 GCC_VERSION=""
-GO=1.16
+GO=1.17
+STATICCHECK=v0.2.2
 HDFS=3.2.1
 JDK=8
 KARTOTHEK=latest
 # LLVM 12 and GCC 11 reports -Wmismatched-new-delete.
-LLVM=13
+LLVM=14
 MAVEN=3.5.4
 NODE=16
+NUMBA=latest
 NUMPY=latest
 PANDAS=latest
 PYTHON=3.8
@@ -83,8 +86,8 @@ ARROW_R_DEV=TRUE
 R_PRUNE_DEPS=FALSE
 TZ=UTC
 
-# -1 does not attempt to install a devtoolset version, any positive integer will install devtoolset-n
-DEVTOOLSET_VERSION=-1
+# Any non-empty string will install devtoolset-${DEVTOOLSET_VERSION}
+DEVTOOLSET_VERSION=
 
 # Used through docker-compose.yml and serves as the default version for the
 # ci/scripts/install_vcpkg.sh script. Prefer to use short SHAs to keep the
@@ -93,7 +96,8 @@ DEVTOOLSET_VERSION=-1
 # Please also update the crossbow configuration in order to keep the github
 # actions cache up to date for the macOS wheels:
 #   https://github.com/ursacomputing/crossbow/blob/master/.github/workflows/cache_vcpkg.yml
-VCPKG="38bb87c"
+# vcpkg minimum version "09adfdc8cdad76345b7cc7f3305899e1cbd66297" due to CVE-2022-3786
+VCPKG="2871ddd918cecb9cb642bcb9c56897f397283192"
 
 # This must be updated when we update
 # ci/docker/python-wheel-windows-vs2017.dockerfile.
diff --git a/.github/CONTRIBUTING.md b/.github/CONTRIBUTING.md
index bbabe358579..249f159ec48 100644
--- a/.github/CONTRIBUTING.md
+++ b/.github/CONTRIBUTING.md
@@ -23,7 +23,7 @@ There are many ways to contribute to Apache Arrow:
 
 * Contributing code (we call them "patches")
 * Writing documentation (another form of code, in a way)
-* Participating in discussions on JIRA or the mailing list
+* Participating in discussions on GitHub issues or the mailing list
 * Helping users of the libraries
 
 ## Reporting bugs and asking questions
diff --git a/.github/ISSUE_TEMPLATE/bug_report.yaml b/.github/ISSUE_TEMPLATE/bug_report.yaml
new file mode 100644
index 00000000000..bea5b96ada4
--- /dev/null
+++ b/.github/ISSUE_TEMPLATE/bug_report.yaml
@@ -0,0 +1,65 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+name: Bug Report
+description: File a bug report
+labels: ["Type: bug"]
+assignees: []
+body:
+  - type: textarea
+    id: description
+    attributes:
+      label: Describe the bug, including details regarding any error messages, version, and platform.
+      description: Please include what you expected.
+    validations:
+      required: true
+  - type: dropdown
+    id: component
+    attributes:
+      label: Component(s)
+      multiple: true
+      options:
+        - Archery
+        - Benchmarking
+        - C
+        - C#
+        - C++
+        - C++ - Gandiva
+        - C++ - Plasma
+        - Continuous Integration
+        - Developer Tools
+        - Documentation
+        - FlightRPC
+        - Format
+        - GLib
+        - Go
+        - GPU
+        - Integration
+        - Java
+        - JavaScript
+        - MATLAB
+        - Packaging
+        - Parquet
+        - Python
+        - R
+        - Release
+        - Ruby
+        - Swift
+        - Website
+        - Other
+    validations:
+      required: true
diff --git a/.github/ISSUE_TEMPLATE/config.yml b/.github/ISSUE_TEMPLATE/config.yml
index 5a050121362..960a754a28d 100644
--- a/.github/ISSUE_TEMPLATE/config.yml
+++ b/.github/ISSUE_TEMPLATE/config.yml
@@ -16,7 +16,4 @@
 # under the License.
 
 blank_issues_enabled: false
-contact_links:
-  - name: Report an issue
-    url: https://issues.apache.org/jira/browse/ARROW
-    about: Please report bugs and request features on JIRA.
+
diff --git a/.github/ISSUE_TEMPLATE/feature_request.yaml b/.github/ISSUE_TEMPLATE/feature_request.yaml
new file mode 100644
index 00000000000..1be5d1191d1
--- /dev/null
+++ b/.github/ISSUE_TEMPLATE/feature_request.yaml
@@ -0,0 +1,68 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+name: Enhancement Request
+description: Request an enhancement to the project
+labels: ["Type: enhancement"]
+assignees: []
+body:
+  - type: markdown
+    attributes:
+      value: |
+        Thanks for taking the time to share your feedback on ways Apache Arrow can be improved!
+  - type: textarea
+    id: description
+    attributes:
+      label: Describe the enhancement requested
+    validations:
+      required: true
+  - type: dropdown
+    id: component
+    attributes:
+      label: Component(s)
+      multiple: true
+      options:
+        - Archery
+        - Benchmarking
+        - C
+        - C#
+        - C++
+        - C++ - Gandiva
+        - C++ - Plasma
+        - Continuous Integration
+        - Developer Tools
+        - Documentation
+        - FlightRPC
+        - Format
+        - GLib
+        - Go
+        - GPU
+        - Integration
+        - Java
+        - JavaScript
+        - MATLAB
+        - Packaging
+        - Parquet
+        - Python
+        - R
+        - Release
+        - Ruby
+        - Swift
+        - Website
+        - Other
+    validations:
+      required: true
diff --git a/.github/ISSUE_TEMPLATE/question.md b/.github/ISSUE_TEMPLATE/question.md
deleted file mode 100644
index 9c4b89c5697..00000000000
--- a/.github/ISSUE_TEMPLATE/question.md
+++ /dev/null
@@ -1,26 +0,0 @@
----
-name: Ask a question
-about: Please ask questions at user@arrow.apache.org
----
-
-STOP! Are you reporting a bug, a possible bug, or requesting a
-feature? If so, please report under the ARROW project on the ASF JIRA
-server https://issues.apache.org/jira/browse/ARROW. This JIRA server
-is free to use and open to the public, but you must create an account
-if it is your first time.
-
-See our contribution guidelines for more information:
-http://arrow.apache.org/docs/developers/contributing.html
-
-We have GitHub issues available as a way for new contributors and
-passers-by who are unfamiliar with Apache Software Foundation projects
-to ask questions and interact with the project. Do not be surprised if
-the first response is to open a JIRA issue or to write an e-mail to
-one of the public mailing lists:
-
-* Development discussions: dev@arrow.apache.org (first subscribe by
-  sending an e-mail to dev-subscribe@arrow.apache.org).
-* User discussions: user@arrow.apache.org (first subscribe by
-  sending an e-mail to user-subscribe@arrow.apache.org).
-
-Thank you!
diff --git a/.github/ISSUE_TEMPLATE/usage_question.yaml b/.github/ISSUE_TEMPLATE/usage_question.yaml
new file mode 100644
index 00000000000..0cec8bf10b4
--- /dev/null
+++ b/.github/ISSUE_TEMPLATE/usage_question.yaml
@@ -0,0 +1,88 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+name: Usage Question
+description: Ask a question
+labels: ["Type: usage"]
+assignees: []
+body:
+  - type: markdown
+    attributes:
+      value: >
+        While we enable issues as a mechanism for new contributors and passers-by who 
+        are unfamiliar with Apache Software Foundation projects to ask questions and 
+        interact with the project, we encourage users to ask such questions on public 
+        mailing lists:
+        
+        * Development discussions: dev@arrow.apache.org (first subscribe by sending an 
+        e-mail to dev-subscribe@arrow.apache.org).
+        
+        * User discussions: user@arrow.apache.org (first subscribe by sending an e-mail 
+        to user-subscribe@arrow.apache.org).
+        
+        * Mailing list archives: https://arrow.apache.org/community/
+        
+        
+        Do not be surprised by responses to issues raised here directing you to those 
+        mailing lists, or to report a bug or feature request here.
+
+
+        Thank you!
+  - type: textarea
+    id: description
+    attributes:
+      label: > 
+        Describe the usage question you have. Please include as many useful details as 
+        possible.
+    validations:
+      required: true
+  - type: dropdown
+    id: component
+    attributes:
+      label: Component(s)
+      multiple: true
+      options:
+        - Archery
+        - Benchmarking
+        - C
+        - C#
+        - C++
+        - C++ - Gandiva
+        - C++ - Plasma
+        - Continuous Integration
+        - Developer Tools
+        - Documentation
+        - FlightRPC
+        - Format
+        - GLib
+        - Go
+        - GPU
+        - Integration
+        - Java
+        - JavaScript
+        - MATLAB
+        - Packaging
+        - Parquet
+        - Python
+        - R
+        - Release
+        - Ruby
+        - Swift
+        - Website
+        - Other
+    validations:
+      required: true
diff --git a/.github/pull_request_template.md b/.github/pull_request_template.md
new file mode 100644
index 00000000000..62878045451
--- /dev/null
+++ b/.github/pull_request_template.md
@@ -0,0 +1,59 @@
+
+<!--
+Thanks for opening a pull request!
+If this is your first pull request you can find detailed information on how 
+to contribute here:
+  * [New Contributor's Guide](https://arrow.apache.org/docs/dev/developers/guide/step_by_step/pr_lifecycle.html#reviews-and-merge-of-the-pull-request)
+  * [Contributing Overview](https://arrow.apache.org/docs/dev/developers/overview.html)
+
+
+If this is not a [minor PR](https://github.com/apache/arrow/blob/master/CONTRIBUTING.md#Minor-Fixes). Could you open an issue for this pull request on GitHub? https://github.com/apache/arrow/issues/new/choose
+
+Opening GitHub issues ahead of time contributes to the [Openness](http://theapacheway.com/open/#:~:text=Openness%20allows%20new%20users%20the,must%20happen%20in%20the%20open.) of the Apache Arrow project.
+
+Then could you also rename the pull request title in the following format?
+
+    GH-${GITHUB_ISSUE_ID}: [${COMPONENT}] ${SUMMARY}
+
+or
+
+    MINOR: [${COMPONENT}] ${SUMMARY}
+
+In the case of PARQUET issues on JIRA the title also supports:
+
+    PARQUET-${JIRA_ISSUE_ID}: [${COMPONENT}] ${SUMMARY}
+
+-->
+
+### Rationale for this change
+
+<!--
+ Why are you proposing this change? If this is already explained clearly in the issue then this section is not needed.
+ Explaining clearly why changes are proposed helps reviewers understand your changes and offer better suggestions for fixes.  
+-->
+
+### What changes are included in this PR?
+
+<!--
+There is no need to duplicate the description in the issue here but it is sometimes worth providing a summary of the individual changes in this PR.
+-->
+
+### Are these changes tested?
+
+<!--
+We typically require tests for all PRs in order to:
+1. Prevent the code from being accidentally broken by subsequent changes
+2. Serve as another way to document the expected behavior of the code
+
+If tests are not included in your PR, please explain why (for example, are they covered by existing tests)?
+-->
+
+### Are there any user-facing changes?
+
+<!--
+If there are user-facing changes then we may require documentation to be updated before approving the PR.
+-->
+
+<!--
+If there are any breaking changes to public APIs, please add the `breaking-change` label.
+-->
\ No newline at end of file
diff --git a/.github/workflows/archery.yml b/.github/workflows/archery.yml
index ce5092c8fee..d337ec797cf 100644
--- a/.github/workflows/archery.yml
+++ b/.github/workflows/archery.yml
@@ -31,10 +31,16 @@ on:
       - 'dev/tasks/**'
       - 'docker-compose.yml'
 
+env:
+  ARCHERY_DEFAULT_BRANCH: ${{ github.event.repository.default_branch }}
+
 concurrency:
   group: ${{ github.repository }}-${{ github.head_ref || github.sha }}-${{ github.workflow }}
   cancel-in-progress: true
 
+permissions:
+  contents: read
+  
 jobs:
 
   test:
@@ -49,9 +55,7 @@ jobs:
           fetch-depth: 0
       - name: Git Fixup
         shell: bash
-        run: |
-          DEFAULT_BRANCH=${{ github.event.repository.default_branch }}
-          git branch $DEFAULT_BRANCH origin/$DEFAULT_BRANCH || true
+        run: git branch $ARCHERY_DEFAULT_BRANCH origin/$ARCHERY_DEFAULT_BRANCH || true
       - name: Setup Python
         uses: actions/setup-python@v4
         with:
diff --git a/.github/workflows/comment_bot.yml b/.github/workflows/comment_bot.yml
index d473593adfc..0711a23f753 100644
--- a/.github/workflows/comment_bot.yml
+++ b/.github/workflows/comment_bot.yml
@@ -24,6 +24,10 @@ on:
       - created
       - edited
 
+permissions:
+  contents: read
+  pull-requests: write
+  
 jobs:
   crossbow:
     name: Listen!
@@ -66,8 +70,9 @@ jobs:
           DEFAULT_BRANCH=${{ github.event.repository.default_branch }}
           git remote add upstream https://github.com/apache/arrow
           git fetch upstream
+
           changed() {
-            git diff --name-only HEAD..upstream/$DEFAULT_BRANCH | grep -e "$1" >/dev/null 2>&1
+            git diff --name-only upstream/$DEFAULT_BRANCH... | grep -e "$1" >/dev/null 2>&1
           }
           if changed '^r/.*\.R$'; then
             echo "R_DOCS=true" >> $GITHUB_ENV
@@ -82,7 +87,7 @@ jobs:
           if changed '^r/src'; then
             echo "CLANG_FORMAT_R=true" >> $GITHUB_ENV
           fi
-      - name: Ensure clang-format has the appropriate versoin
+      - name: Ensure clang-format has the appropriate version
         if: env.CMAKE_FORMAT == 'true' ||
           env.CLANG_FORMAT_CPP == 'true' ||
           env.CLANG_FORMAT_R == 'true' ||
@@ -124,18 +129,16 @@ jobs:
         run: |
           source("ci/etc/rprofile")
           install.packages(c("remotes", "roxygen2"))
-          # We currently need dev roxygen2 (> 7.1.1) until they release
-          remotes::install_github("r-lib/roxygen2")
           remotes::install_deps("r")
           roxygen2::roxygenize("r")
       - name: Style R code
         if: env.R_CODE == 'true' || endsWith(github.event.comment.body, 'everything')
         shell: Rscript {0}
         run: |
-          changed_files <- system("git diff --name-only HEAD..upstream/${{ github.event.repository.default_branch }} 2>&1", intern = TRUE)
+          changed_files <- system("git diff --name-only upstream/${{ github.event.repository.default_branch }}... 2>&1", intern = TRUE)
           # only grab the .R files under r/
           changed_files <- grep('^r/.*\\.R$', changed_files, value = TRUE)
-          # remove latin1 which is unstylable due to encoding and codegen.R which is unique
+          # remove codegen.R and other possible exclusions
           changed_files <- changed_files[!changed_files %in% file.path("r", source("r/.styler_excludes.R")$value)]
           source("ci/etc/rprofile")
           install.packages(c("remotes", "styler"))
@@ -171,3 +174,21 @@ jobs:
         with:
           repo-token: ${{ secrets.GITHUB_TOKEN }}
           args: "--force"
+
+  issue_assign:
+    name: "Assign issue"
+    permissions:
+      issues: write
+    if: github.event.comment.body == 'take'
+    runs-on: ubuntu-latest
+    steps:
+      - uses: actions/github-script@v3
+        with:
+          github-token: ${{ secrets.GITHUB_TOKEN }}
+          script: |
+            github.issues.addAssignees({
+                owner: context.repo.owner,
+                repo: context.repo.repo,
+                issue_number: context.payload.issue.number,
+                assignees: context.payload.comment.user.login
+            });
diff --git a/.github/workflows/cpp.yml b/.github/workflows/cpp.yml
index ba95fcd509c..4959197fcd9 100644
--- a/.github/workflows/cpp.yml
+++ b/.github/workflows/cpp.yml
@@ -45,18 +45,19 @@ concurrency:
   group: ${{ github.repository }}-${{ github.head_ref || github.sha }}-${{ github.workflow }}
   cancel-in-progress: true
 
+permissions:
+  contents: read
+
 env:
   ARROW_ENABLE_TIMING_TESTS: OFF
   DOCKER_VOLUME_PREFIX: ".docker/"
-  ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
-  ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
 
 jobs:
   docker:
     name: ${{ matrix.title }}
     runs-on: ubuntu-latest
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
-    timeout-minutes: 60
+    timeout-minutes: 75
     strategy:
       fail-fast: false
       matrix:
@@ -67,7 +68,9 @@ jobs:
           - image: conda-cpp
             title: AMD64 Conda C++
           - image: ubuntu-cpp-sanitizer
-            title: AMD64 Ubuntu 20.04 C++ ASAN UBSAN
+            title: AMD64 Ubuntu 22.04 C++ ASAN UBSAN
+    env:
+      UBUNTU: "22.04"
     steps:
       - name: Checkout Arrow
         uses: actions/checkout@v3
@@ -75,7 +78,7 @@ jobs:
           fetch-depth: 0
           submodules: recursive
       - name: Cache Docker Volumes
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: .docker
           key: ${{ matrix.image }}-${{ hashFiles('cpp/**') }}
@@ -87,12 +90,18 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: |
           sudo sysctl -w kernel.core_pattern="core.%e.%p"
           ulimit -c unlimited
           archery docker run ${{ matrix.image }}
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         run: archery docker push ${{ matrix.image }}
 
@@ -101,8 +110,6 @@ jobs:
     runs-on: ubuntu-latest
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
     timeout-minutes: 45
-    strategy:
-      fail-fast: false
     steps:
       - name: Checkout Arrow
         uses: actions/checkout@v3
@@ -119,12 +126,10 @@ jobs:
           docker-compose run --rm minimal
 
   macos:
-    name: AMD64 MacOS 10.15 C++
+    name: AMD64 macOS 12 C++
     runs-on: macos-latest
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
-    timeout-minutes: 60
-    strategy:
-      fail-fast: false
+    timeout-minutes: 75
     env:
       ARROW_BUILD_TESTS: ON
       ARROW_DATASET: ON
@@ -146,8 +151,7 @@ jobs:
       ARROW_WITH_SNAPPY: ON
       ARROW_WITH_ZLIB: ON
       ARROW_WITH_ZSTD: ON
-      # System Abseil installed by Homebrew uses C++ 17
-      CMAKE_CXX_STANDARD: 17
+      GTest_SOURCE: BUNDLED
     steps:
       - name: Checkout Arrow
         uses: actions/checkout@v3
@@ -156,9 +160,12 @@ jobs:
           submodules: recursive
       - name: Install Dependencies
         run: |
-          rm -f /usr/local/bin/2to3
+          rm -f /usr/local/bin/2to3* || :
+          rm -f /usr/local/bin/idle3* || :
+          rm -f /usr/local/bin/pydoc3* || :
+          rm -f /usr/local/bin/python3* || :
+          rm -f /usr/local/bin/python3-config || :
           brew update --preinstall
-          brew install --overwrite git
           brew bundle --file=cpp/Brewfile
       - name: Install MinIO
         run: |
@@ -172,15 +179,16 @@ jobs:
       - name: ccache info
         id: ccache-info
         run: |
-          echo "::set-output name=cache-dir::$(ccache --get-config cache_dir)"
+          echo "cache-dir=$(ccache --get-config cache_dir)" >> $GITHUB_OUTPUT
       - name: Cache ccache
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: ${{ steps.ccache-info.outputs.cache-dir }}
           key: cpp-ccache-macos-${{ hashFiles('cpp/**') }}
           restore-keys: cpp-ccache-macos-
       - name: Build
-        run: ci/scripts/cpp_build.sh $(pwd) $(pwd)/build
+        run: |
+          ci/scripts/cpp_build.sh $(pwd) $(pwd)/build
       - name: Test
         shell: bash
         run: |
@@ -193,7 +201,7 @@ jobs:
     name: AMD64 ${{ matrix.name }} C++17
     runs-on: ${{ matrix.os }}
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
-    timeout-minutes: 45
+    timeout-minutes: 60
     strategy:
       fail-fast: false
       matrix:
@@ -202,20 +210,19 @@ jobs:
         include:
           - os: windows-2019
             name: Windows 2019
-            generator: Visual Studio 16 2019
     env:
       ARROW_BOOST_USE_SHARED: OFF
       ARROW_BUILD_BENCHMARKS: ON
       ARROW_BUILD_SHARED: ON
       ARROW_BUILD_STATIC: OFF
       ARROW_BUILD_TESTS: ON
-      ARROW_CXXFLAGS: "/std:c++17"
       ARROW_DATASET: ON
       ARROW_FLIGHT: OFF
       ARROW_HDFS: ON
       ARROW_HOME: /usr
       ARROW_JEMALLOC: OFF
       ARROW_MIMALLOC: ON
+      ARROW_ORC: ON
       ARROW_PARQUET: ON
       ARROW_USE_GLOG: OFF
       ARROW_VERBOSE_THIRDPARTY_BUILD: OFF
@@ -227,11 +234,13 @@ jobs:
       ARROW_WITH_ZLIB: ON
       ARROW_WITH_ZSTD: ON
       BOOST_SOURCE: BUNDLED
-      CMAKE_ARGS: '-A x64 -DOPENSSL_ROOT_DIR=C:\Program Files\OpenSSL-Win64'
-      CMAKE_GENERATOR: ${{ matrix.generator }}
+      CMAKE_CXX_STANDARD: "17"
+      CMAKE_GENERATOR: Ninja
       CMAKE_INSTALL_LIBDIR: bin
       CMAKE_INSTALL_PREFIX: /usr
       CMAKE_UNITY_BUILD: ON
+      OPENSSL_ROOT_DIR: >-
+        C:\Program Files\OpenSSL-Win64
       NPROC: 3
     steps:
       - name: Disable Crash Dialogs
@@ -254,26 +263,56 @@ jobs:
       - name: Download Timezone Database
         shell: bash
         run: ci/scripts/download_tz_database.sh
-      - name: Build
+      - name: Install ccache
+        shell: bash
+        run: |
+          ci/scripts/install_ccache.sh 4.6.3 /usr
+      - name: Setup ccache
+        shell: bash
+        run: |
+          ci/scripts/ccache_setup.sh
+      - name: ccache info
+        id: ccache-info
         shell: bash
-        run: ci/scripts/cpp_build.sh $(pwd) $(pwd)/build
+        run: |
+          echo "cache-dir=$(ccache --get-config cache_dir)" >> $GITHUB_OUTPUT
+      - name: Cache ccache
+        uses: actions/cache@v3
+        with:
+          path: ${{ steps.ccache-info.outputs.cache-dir }}
+          key: cpp-ccache-windows-${{ env.CACHE_VERSION }}-${{ hashFiles('cpp/**') }}
+          restore-keys: cpp-ccache-windows-${{ env.CACHE_VERSION }}-
+        env:
+          # We can invalidate the current cache by updating this.
+          CACHE_VERSION: "2022-09-13"
+      - name: Build
+        shell: cmd
+        run: |
+          call "C:\Program Files (x86)\Microsoft Visual Studio\2019\Enterprise\VC\Auxiliary\Build\vcvarsall.bat" x64
+          bash -c "ci/scripts/cpp_build.sh $(pwd) $(pwd)/build"
       - name: Test
         shell: bash
-        run: ci/scripts/cpp_test.sh $(pwd) $(pwd)/build
+        run: |
+          # For ORC
+          export TZDIR=/c/msys64/usr/share/zoneinfo
+          ci/scripts/cpp_test.sh $(pwd) $(pwd)/build
 
   windows-mingw:
-    name: AMD64 Windows MinGW ${{ matrix.mingw-n-bits }} C++
+    name: AMD64 Windows MinGW ${{ matrix.msystem_upper }} C++
     runs-on: windows-2019
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
-    # Build may take 1h+ without cache and installing Google Cloud
-    # Storage Testbench may take 20m+ without cache.
+    # Build may take 1h+ without cache.
     timeout-minutes: 120
     strategy:
       fail-fast: false
       matrix:
-        mingw-n-bits:
-          - 32
-          - 64
+        include:
+          - msystem_lower: mingw32
+            msystem_upper: MINGW32
+          - msystem_lower: mingw64
+            msystem_upper: MINGW64
+          - msystem_lower: clang64
+            msystem_upper: CLANG64
     env:
       ARROW_BUILD_SHARED: ON
       ARROW_BUILD_STATIC: OFF
@@ -285,10 +324,9 @@ jobs:
       ARROW_GANDIVA: ON
       ARROW_GCS: ON
       ARROW_HDFS: OFF
-      ARROW_HOME: /mingw${{ matrix.mingw-n-bits }}
+      ARROW_HOME: /${{ matrix.msystem_lower}}
       ARROW_JEMALLOC: OFF
       ARROW_PARQUET: ON
-      ARROW_PYTHON: ON
       ARROW_S3: ON
       ARROW_USE_GLOG: OFF
       ARROW_VERBOSE_THIRDPARTY_BUILD: OFF
@@ -303,11 +341,12 @@ jobs:
       # -DBoost_NO_BOOST_CMAKE=ON
       BOOST_ROOT: ""
       CMAKE_ARGS: >-
-        -DARROW_PACKAGE_PREFIX=/mingw${{ matrix.mingw-n-bits }}
+        -DARROW_PACKAGE_PREFIX=/${{ matrix.msystem_lower}}
         -DBoost_NO_BOOST_CMAKE=ON
       # We can't use unity build because we don't have enough memory on
       # GitHub Actions.
       # CMAKE_UNITY_BUILD: ON
+      GTest_SOURCE: BUNDLED
     steps:
       - name: Disable Crash Dialogs
         run: |
@@ -324,17 +363,17 @@ jobs:
           submodules: recursive
       - uses: msys2/setup-msys2@v2
         with:
-          msystem: MINGW${{ matrix.mingw-n-bits }}
+          msystem: ${{ matrix.msystem_upper }}
           update: true
       - name: Setup MSYS2
         shell: msys2 {0}
         run: ci/scripts/msys2_setup.sh cpp
       - name: Cache ccache
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: ccache
-          key: cpp-ccache-mingw${{ matrix.mingw-n-bits }}-${{ hashFiles('cpp/**') }}
-          restore-keys: cpp-ccache-mingw${{ matrix.mingw-n-bits }}-
+          key: cpp-ccache-${{ matrix.msystem_lower}}-${{ hashFiles('cpp/**') }}
+          restore-keys: cpp-ccache-${{ matrix.msystem_lower}}-
       - name: Build
         shell: msys2 {0}
         run: |
@@ -351,23 +390,13 @@ jobs:
             --output-document /usr/local/bin/minio.exe \
             https://dl.min.io/server/minio/release/windows-amd64/archive/minio.RELEASE.2022-05-26T05-48-41Z
           chmod +x /usr/local/bin/minio.exe
-      - name: Cache Python wheels
-        uses: actions/cache@v2
-        with:
-          path: "${{ env.PIP_CACHE_DIR }}"
-          key: cpp-wheels-mingw${{ matrix.mingw-n-bits }}-${{ hashFiles('ci/scripts/install_gcs_testbench.sh') }}
-          restore-keys: cpp-wheels-mingw${{ matrix.mingw-n-bits }}-
       - name: Install Google Cloud Storage Testbench
-        shell: msys2 {0}
+        shell: bash
         run: |
           ci/scripts/install_gcs_testbench.sh default
+          echo "PYTHON_BIN_DIR=$(cygpath --windows $(dirname $(which python3.exe)))" >> $GITHUB_ENV
       - name: Test
         shell: msys2 {0}
         run: |
-          python_version=$(python3 -c "import sys; print('.'.join(map(str, sys.version_info[0:2])))")
-          export PYTHONHOME="$(cygpath --windows ${MINGW_PREFIX})\lib\python${python_version}"
-          PYTHONPATH="${PYTHONHOME}"
-          PYTHONPATH="${PYTHONPATH};${PYTHONHOME}\lib-dynload"
-          PYTHONPATH="${PYTHONPATH};${PYTHONHOME}\site-packages"
-          export PYTHONPATH
+          PATH="$(cygpath --unix ${PYTHON_BIN_DIR}):${PATH}"
           ci/scripts/cpp_test.sh "$(pwd)" "$(pwd)/build"
diff --git a/.github/workflows/csharp.yml b/.github/workflows/csharp.yml
index 385c081cc6c..5968dded43c 100644
--- a/.github/workflows/csharp.yml
+++ b/.github/workflows/csharp.yml
@@ -33,6 +33,9 @@ concurrency:
   group: ${{ github.repository }}-${{ github.head_ref || github.sha }}-${{ github.workflow }}
   cancel-in-progress: true
 
+permissions:
+  contents: read
+
 jobs:
 
   ubuntu:
@@ -46,7 +49,7 @@ jobs:
         dotnet: ['6.0.x']
     steps:
       - name: Install C#
-        uses: actions/setup-dotnet@v1
+        uses: actions/setup-dotnet@v2
         with:
           dotnet-version: ${{ matrix.dotnet }}
       - name: Checkout Arrow
@@ -74,7 +77,7 @@ jobs:
         dotnet: ['6.0.x']
     steps:
       - name: Install C#
-        uses: actions/setup-dotnet@v1
+        uses: actions/setup-dotnet@v2
         with:
           dotnet-version: ${{ matrix.dotnet }}
       - name: Checkout Arrow
@@ -91,7 +94,7 @@ jobs:
         run: ci/scripts/csharp_test.sh $(pwd)
 
   macos:
-    name: AMD64 MacOS 10.15 C# ${{ matrix.dotnet }}
+    name: AMD64 macOS 11 C# ${{ matrix.dotnet }}
     runs-on: macos-latest
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
     timeout-minutes: 15
@@ -101,7 +104,7 @@ jobs:
         dotnet: ['6.0.x']
     steps:
       - name: Install C#
-        uses: actions/setup-dotnet@v1
+        uses: actions/setup-dotnet@v2
         with:
           dotnet-version: ${{ matrix.dotnet }}
       - name: Checkout Arrow
diff --git a/.github/workflows/dev.yml b/.github/workflows/dev.yml
index 0cff0724424..271a05979a5 100644
--- a/.github/workflows/dev.yml
+++ b/.github/workflows/dev.yml
@@ -26,9 +26,8 @@ concurrency:
   group: ${{ github.repository }}-${{ github.head_ref || github.sha }}-${{ github.workflow }}
   cancel-in-progress: true
 
-env:
-  ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
-  ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
+permissions:
+  contents: read
 
 jobs:
 
@@ -48,12 +47,18 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: |
           sudo sysctl -w kernel.core_pattern="core.%e.%p"
           ulimit -c unlimited
           archery docker run -e GITHUB_ACTIONS=true ubuntu-lint
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         run: archery docker push ubuntu-lint
 
@@ -93,8 +98,11 @@ jobs:
       - name: Install Dependencies
         shell: bash
         run: |
+          gem install test-unit
           pip install cython setuptools six pytest jira
       - name: Run Release Test
+        env:
+          ARROW_GITHUB_API_TOKEN: ${{ secrets.GITHUB_TOKEN }}
         shell: bash
         run: |
           ci/scripts/release_test.sh $(pwd)
diff --git a/.github/workflows/dev_pr.yml b/.github/workflows/dev_pr.yml
index e39dd3f0f4d..1de6cf1b017 100644
--- a/.github/workflows/dev_pr.yml
+++ b/.github/workflows/dev_pr.yml
@@ -29,9 +29,15 @@ on:
       - edited
       - synchronize
 
-# NOTE: not using the "cancel-in-progress" feature here as the group key
-# does not have enough information for linking it to a particular PR
+concurrency:
+  group: ${{ github.workflow }}-${{ github.repository }}-${{ github.event.number }}
+  cancel-in-progress: true
 
+permissions:
+  contents: read
+  pull-requests: write
+  issues: write
+  
 jobs:
   process:
     name: Process
@@ -41,9 +47,8 @@ jobs:
 
       - name: Comment JIRA link
         if: |
-          github.event_name == 'pull_request_target' &&
-            (github.event.action == 'opened' ||
-             github.event.action == 'edited')
+          (github.event.action == 'opened' ||
+           github.event.action == 'edited')
         uses: actions/github-script@v3
         with:
           github-token: ${{ secrets.GITHUB_TOKEN }}
@@ -53,9 +58,8 @@ jobs:
 
       - name: Check title
         if: |
-          github.event_name == 'pull_request_target' &&
-            (github.event.action == 'opened' ||
-             github.event.action == 'edited')
+          (github.event.action == 'opened' ||
+           github.event.action == 'edited')
         uses: actions/github-script@v3
         with:
           github-token: ${{ secrets.GITHUB_TOKEN }}
@@ -63,25 +67,23 @@ jobs:
             const script = require(`${process.env.GITHUB_WORKSPACE}/.github/workflows/dev_pr/title_check.js`);
             script({github, context});
 
-      - name: Check Jira Issue
+      - name: Check Issue
         if: |
-          github.event_name == 'pull_request_target' &&
-            (github.event.action == 'opened' ||
-             github.event.action == 'edited')
+          (github.event.action == 'opened' ||
+           github.event.action == 'edited')
         uses: actions/github-script@v3
         with:
           debug: true
           github-token: ${{ secrets.GITHUB_TOKEN }}
           script: |
-            const script = require(`${process.env.GITHUB_WORKSPACE}/.github/workflows/dev_pr/jira_check.js`);
+            const script = require(`${process.env.GITHUB_WORKSPACE}/.github/workflows/dev_pr/issue_check.js`);
             script({github, context});
 
       - name: Assign GitHub labels
         if: |
-          github.event_name == 'pull_request_target' &&
-            (github.event.action == 'opened' ||
-             github.event.action == 'synchronize')
-        uses: actions/labeler@2.2.0
+          (github.event.action == 'opened' ||
+           github.event.action == 'synchronize')
+        uses: actions/labeler@v4
         with:
           repo-token: ${{ secrets.GITHUB_TOKEN }}
           configuration-path: .github/workflows/dev_pr/labeler.yml
diff --git a/.github/workflows/dev_pr/helpers.js b/.github/workflows/dev_pr/helpers.js
index d5f275d27f1..634a0cbce8b 100644
--- a/.github/workflows/dev_pr/helpers.js
+++ b/.github/workflows/dev_pr/helpers.js
@@ -18,34 +18,33 @@
 const https = require('https');
 
 /**
- * Given the title of a PullRequest return the ID of the JIRA issue
+ * Given the title of a PullRequest return the Issue
+ *
  * @param {String} title 
- * @returns {String} the ID of the associated JIRA issue
+ * @returns {Issue} or null if no issue detected.
+ *
+ * @typedef {Object} Issue
+ * @property {string} kind - The kind of issue: minor, jira or github
+ * @property {string} id   - The id of the issue:
+ *                            PARQUET-XXXX for jira
+ *                            The numeric issue id for github
  */
-function detectJIRAID(title) {
+function detectIssue(title) {
     if (!title) {
         return null;
     }
-    const matched = /^(WIP:?\s*)?((ARROW|PARQUET)-\d+)/.exec(title);
-    if (!matched) {
-        return null;
+    if (title.startsWith("MINOR: ")) {
+        return {"kind": "minor"};
     }
-    return matched[2];
-}
-
-/**
- * Given the title of a PullRequest checks if it contains a JIRA issue ID
- * @param {String} title 
- * @returns {Boolean} true if it starts with a JIRA ID or MINOR:
- */
-function haveJIRAID(title) {
-    if (!title) {
-      return false;
+    const matched_jira = /^(WIP:?\s*)?((PARQUET)-\d+)/.exec(title);
+    if (matched_jira) {
+        return {"kind": "jira", "id": matched_jira[2]};
     }
-    if (title.startsWith("MINOR: ")) {
-      return true;
+    const matched_gh = /^(WIP:?\s*)?GH-(\d+)/.exec(title);
+    if (matched_gh) {
+        return {"kind": "github", "id": matched_gh[2]};
     }
-    return /^(WIP:?\s*)?(ARROW|PARQUET)-\d+/.test(title);
+    return null;
 }
 
 /**
@@ -69,8 +68,27 @@ async function getJiraInfo(jiraID) {
     });
 }
 
+/**
+ * Retrieves information about a GitHub issue.
+ * @param {String} issueID
+ * @returns {Object} the information about a GitHub issue.
+ */
+ async function getGitHubInfo(github, context, issueID, pullRequestNumber) {
+    try {
+        const response = await github.issues.get({
+            issue_number: issueID,
+            owner: context.repo.owner,
+            repo: context.repo.repo,
+        })
+        return response.data
+    } catch (error) {
+        console.log(`${error.name}: ${error.code}`);
+        return false
+    }
+}
+
 module.exports = {
-    detectJIRAID,
-    haveJIRAID,
-    getJiraInfo
+    detectIssue,
+    getJiraInfo,
+    getGitHubInfo
 };
\ No newline at end of file
diff --git a/.github/workflows/dev_pr/jira_check.js b/.github/workflows/dev_pr/issue_check.js
similarity index 51%
rename from .github/workflows/dev_pr/jira_check.js
rename to .github/workflows/dev_pr/issue_check.js
index 3c294f8c7a0..3dff23f53ed 100644
--- a/.github/workflows/dev_pr/jira_check.js
+++ b/.github/workflows/dev_pr/issue_check.js
@@ -17,6 +17,16 @@
 
 const helpers = require("./helpers.js");
 
+/**
+ * Performs checks on the JIRA Issue:
+ * - The issue is started in JIRA.
+ * - The issue contains components.
+ *
+ * @param {Object} github
+ * @param {Object} context
+ * @param {String} pullRequestNumber
+ * @param {String} jiraID
+ */
 async function verifyJIRAIssue(github, context, pullRequestNumber, jiraID) {
     const ticketInfo = await helpers.getJiraInfo(jiraID);
     if(!ticketInfo["fields"]["components"].length) {
@@ -30,6 +40,13 @@ async function verifyJIRAIssue(github, context, pullRequestNumber, jiraID) {
     }
 }
 
+/**
+ * Adds a comment to add components on the JIRA ticket.
+ *
+ * @param {Object} github
+ * @param {Object} context
+ * @param {String} pullRequestNumber
+ */
 async function commentMissingComponents(github, context, pullRequestNumber) {
     const {data: comments} = await github.issues.listComments({
         owner: context.repo.owner,
@@ -54,6 +71,13 @@ async function commentMissingComponents(github, context, pullRequestNumber) {
     }
 }
 
+/**
+ * Adds a comment to start the ticket in JIRA.
+ *
+ * @param {Object} github
+ * @param {Object} context
+ * @param {String} pullRequestNumber
+ */
 async function commentNotStartedTicket(github, context, pullRequestNumber) {
     const {data: comments} = await github.issues.listComments({
         owner: context.repo.owner,
@@ -78,11 +102,72 @@ async function commentNotStartedTicket(github, context, pullRequestNumber) {
     }
 }
 
+/**
+ * Assigns the Github Issue to the PR creator.
+ *
+ * @param {Object} github
+ * @param {Object} context
+ * @param {String} pullRequestNumber
+ * @param {Object} issueInfo
+ */
+async function assignGitHubIssue(github, context, pullRequestNumber, issueInfo) {
+    await github.issues.addAssignees({
+        owner: context.repo.owner,
+        repo: context.repo.repo,
+        issue_number: issueInfo.number,
+        assignees: context.payload.pull_request.user.login
+    });
+    await github.issues.createComment({
+        owner: context.repo.owner,
+        repo: context.repo.repo,
+        issue_number: pullRequestNumber,
+        body: ":warning: GitHub issue #" + issueInfo.number + " **has been automatically assigned in GitHub** to PR creator."
+    });
+}
+
+/**
+ * Performs checks on the GitHub Issue:
+ * - The issue is assigned to someone. If not assign it gets automatically
+ *   assigned to the PR creator.
+ * - The issue contains any label.
+ *
+ * @param {Object} github
+ * @param {Object} context
+ * @param {String} pullRequestNumber
+ * @param {String} issueID
+ */
+async function verifyGitHubIssue(github, context, pullRequestNumber, issueID) {
+    const issueInfo = await helpers.getGitHubInfo(github, context, issueID, pullRequestNumber);
+    if (!issueInfo) {
+        await github.issues.createComment({
+            owner: context.repo.owner,
+            repo: context.repo.repo,
+            issue_number: pullRequestNumber,
+            body: ":x: GitHub issue #" + issueID + " could not be retrieved."
+        })
+    }
+    if (!issueInfo.assignees.length) {
+        await assignGitHubIssue(github, context, pullRequestNumber, issueInfo);
+    }
+    if(!issueInfo.labels.filter((label) => label.name.startsWith("Component:")).length) {
+        await github.issues.createComment({
+            owner: context.repo.owner,
+            repo: context.repo.repo,
+            issue_number: pullRequestNumber,
+            body: ":warning: GitHub issue #" + issueID + " **has no components**, please add labels for components."
+        })
+    }
+}
+
 module.exports = async ({github, context}) => {
     const pullRequestNumber = context.payload.number;
     const title = context.payload.pull_request.title;
-    const jiraID = helpers.detectJIRAID(title);
-    if (jiraID) {
-          await verifyJIRAIssue(github, context, pullRequestNumber, jiraID);
+    const issue = helpers.detectIssue(title)
+    if (issue){
+        if (issue.kind == "jira") {
+            await verifyJIRAIssue(github, context, pullRequestNumber, issue.id);
+      } else if(issue.kind == "github") {
+          await verifyGitHubIssue(github, context, pullRequestNumber, issue.id);
+      }
     }
 };
diff --git a/.github/workflows/dev_pr/labeler.yml b/.github/workflows/dev_pr/labeler.yml
index 05d16486b76..a9a13e82a9d 100644
--- a/.github/workflows/dev_pr/labeler.yml
+++ b/.github/workflows/dev_pr/labeler.yml
@@ -15,53 +15,53 @@
 # specific language governing permissions and limitations
 # under the License.
 
-"lang-c++":
+"Component: C++":
   - cpp/**/*
 
-lang-c-glib:
+"Component: GLib":
   - c_glib/**/*
 
-lang-csharp:
+"Component: C#":
   - csharp/**/*
 
-lang-go:
+"Component: Go":
   - go/**/*
 
-lang-java:
+"Component: Java":
   - java/**/*
 
-lang-js:
+"Component: JavaScript":
   - js/**/*
 
-lang-matlab:
+"Component: MATLAB":
   - matlab/**/*
 
-lang-python:
+"Component: Python":
   - python/**/*
 
-lang-R:
+"Component: R":
   - r/**/*
 
-lang-ruby:
+"Component: Ruby":
   - ruby/**/*
 
-flight:
+"Component: FlightRPC":
   - cpp/src/arrow/flight/**/*
   - r/R/flight.*
   - python/pyarrow/*flight.*
 
-gandiva:
+"Component: C++ - Gandiva":
   - c_glib/gandiva-glib/**/*
   - cpp/src/gandiva/**/*
   - ruby/red-gandiva/**/*
   - python/pyarrow/gandiva.*
 
-parquet:
+"Component: Parquet":
   - c_glib/parquet-glib/**/*
   - cpp/src/parquet/**/*
   - r/R/parquet.*
   - ruby/red-parquet/**/*
 
-docs:
+"Component: Documentation":
   - docs/**/*
   - "**/*.{md, rst, Rmd, Rd}"
diff --git a/.github/workflows/dev_pr/link.js b/.github/workflows/dev_pr/link.js
index 404ff46436f..1fbd0447175 100644
--- a/.github/workflows/dev_pr/link.js
+++ b/.github/workflows/dev_pr/link.js
@@ -18,7 +18,16 @@
 const helpers = require("./helpers.js");
 
 
-async function haveComment(github, context, pullRequestNumber, body) {
+/**
+ * Checks whether message is present on Pull Request list of comments.
+ *
+ * @param {Object} github
+ * @param {Object} context
+ * @param {String} pullRequestNumber
+ * @param {String} message
+ * @returns {Boolean} true if message was found.
+ */
+async function haveComment(github, context, pullRequestNumber, message) {
   const options = {
     owner: context.repo.owner,
     repo: context.repo.repo,
@@ -27,7 +36,7 @@ async function haveComment(github, context, pullRequestNumber, body) {
   };
   while (true) {
     const response = await github.issues.listComments(options);
-    if (response.data.some(comment => comment.body === body)) {
+    if (response.data.some(comment => comment.body === message)) {
       return true;
     }
     if (!/;\s*rel="next"/.test(response.headers.link || "")) {
@@ -38,24 +47,70 @@ async function haveComment(github, context, pullRequestNumber, body) {
   return false;
 }
 
+/**
+ * Adds a comment on the Pull Request linking the JIRA issue.
+ *
+ * @param {Object} github
+ * @param {Object} context
+ * @param {String} pullRequestNumber
+ * @param {String} jiraID
+ */
 async function commentJIRAURL(github, context, pullRequestNumber, jiraID) {
+  const issueInfo = await helpers.getJiraInfo(jiraID);
   const jiraURL = `https://issues.apache.org/jira/browse/${jiraID}`;
   if (await haveComment(github, context, pullRequestNumber, jiraURL)) {
     return;
   }
-  await github.issues.createComment({
-    owner: context.repo.owner,
-    repo: context.repo.repo,
-    issue_number: pullRequestNumber,
-    body: jiraURL
-  });
+  if (issueInfo){
+    await github.issues.createComment({
+      owner: context.repo.owner,
+      repo: context.repo.repo,
+      issue_number: pullRequestNumber,
+      body: jiraURL
+    });
+  }
+}
+
+/**
+ * Adds a comment on the Pull Request linking the GitHub issue.
+ *
+ * @param {Object} github
+ * @param {Object} context
+ * @param {String} pullRequestNumber - String containing numeric id of PR
+ * @param {String} issueID - String containing numeric id of the github issue
+ */
+async function commentGitHubURL(github, context, pullRequestNumber, issueID) {
+  // Make the call to ensure issue exists before adding comment
+  const issueInfo = await helpers.getGitHubInfo(github, context, issueID, pullRequestNumber);
+  const message = "* Closes: #" + issueInfo.number
+  if (await haveComment(github, context, pullRequestNumber, message)) {
+    return;
+  }
+  if (issueInfo){
+    await github.pulls.update({
+      owner: context.repo.owner,
+      repo: context.repo.repo,
+      pull_number: pullRequestNumber,
+      body: (context.payload.pull_request.body || "") + "\n" + message
+    });
+    await github.issues.createComment({
+      owner: context.repo.owner,
+      repo: context.repo.repo,
+      issue_number: pullRequestNumber,
+      body: message
+    });
+  }
 }
 
 module.exports = async ({github, context}) => {
   const pullRequestNumber = context.payload.number;
   const title = context.payload.pull_request.title;
-  const jiraID = helpers.detectJIRAID(title);
-  if (jiraID) {
-    await commentJIRAURL(github, context, pullRequestNumber, jiraID);
+  const issue = helpers.detectIssue(title);
+  if (issue){
+    if (issue.kind == "jira") {
+      await commentJIRAURL(github, context, pullRequestNumber, issue.id);
+    } else if (issue.kind == "github") {
+      await commentGitHubURL(github, context, pullRequestNumber, issue.id);
+    }
   }
 };
diff --git a/.github/workflows/dev_pr/title_check.js b/.github/workflows/dev_pr/title_check.js
index 392108269d8..1b7a6c5c888 100644
--- a/.github/workflows/dev_pr/title_check.js
+++ b/.github/workflows/dev_pr/title_check.js
@@ -18,7 +18,7 @@
 const fs = require("fs");
 const helpers = require("./helpers.js");
 
-async function commentOpenJIRAIssue(github, context, pullRequestNumber) {
+async function commentOpenGitHubIssue(github, context, pullRequestNumber) {
   const {data: comments} = await github.issues.listComments({
     owner: context.repo.owner,
     repo: context.repo.repo,
@@ -41,7 +41,8 @@ async function commentOpenJIRAIssue(github, context, pullRequestNumber) {
 module.exports = async ({github, context}) => {
   const pullRequestNumber = context.payload.number;
   const title = context.payload.pull_request.title;
-  if (!helpers.haveJIRAID(title)) {
-    await commentOpenJIRAIssue(github, context, pullRequestNumber);
+  const issue = helpers.detectIssue(title)
+  if (!issue) {
+    await commentOpenGitHubIssue(github, context, pullRequestNumber);
   }
 };
diff --git a/.github/workflows/dev_pr/title_check.md b/.github/workflows/dev_pr/title_check.md
index 1db9fcf637b..479a1f76c7d 100644
--- a/.github/workflows/dev_pr/title_check.md
+++ b/.github/workflows/dev_pr/title_check.md
@@ -19,18 +19,22 @@
 
 Thanks for opening a pull request!
 
-If this is not a [minor PR](https://github.com/apache/arrow/blob/master/CONTRIBUTING.md#Minor-Fixes). Could you open an issue for this pull request on JIRA? https://issues.apache.org/jira/browse/ARROW
+If this is not a [minor PR](https://github.com/apache/arrow/blob/master/CONTRIBUTING.md#Minor-Fixes). Could you open an issue for this pull request on GitHub? https://github.com/apache/arrow/issues/new/choose
 
-Opening JIRAs ahead of time contributes to the [Openness](http://theapacheway.com/open/#:~:text=Openness%20allows%20new%20users%20the,must%20happen%20in%20the%20open.) of the Apache Arrow project.
+Opening GitHub issues ahead of time contributes to the [Openness](http://theapacheway.com/open/#:~:text=Openness%20allows%20new%20users%20the,must%20happen%20in%20the%20open.) of the Apache Arrow project.
 
-Then could you also rename pull request title in the following format?
+Then could you also rename the pull request title in the following format?
 
-    ARROW-${JIRA_ID}: [${COMPONENT}] ${SUMMARY}
+    GH-${GITHUB_ISSUE_ID}: [${COMPONENT}] ${SUMMARY}
 
 or
 
     MINOR: [${COMPONENT}] ${SUMMARY}
 
+In the case of PARQUET issues on JIRA the title also supports:
+
+    PARQUET-${JIRA_ISSUE_ID}: [${COMPONENT}] ${SUMMARY}
+
 See also:
 
   * [Other pull requests](https://github.com/apache/arrow/pulls/)
diff --git a/.github/workflows/docs.yml b/.github/workflows/docs.yml
index 07fc2968143..27968ad28c8 100644
--- a/.github/workflows/docs.yml
+++ b/.github/workflows/docs.yml
@@ -20,11 +20,12 @@ name: Docs
 on:
   push:
 
+permissions:
+  contents: read
+  
 env:
   ARROW_ENABLE_TIMING_TESTS: OFF
   DOCKER_VOLUME_PREFIX: ".docker/"
-  ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
-  ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
 
 jobs:
 
@@ -41,7 +42,7 @@ jobs:
         with:
           fetch-depth: 0
       - name: Cache Docker Volumes
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: .docker
           key: ubuntu-docs-${{ hashFiles('cpp/**') }}
@@ -53,8 +54,14 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: archery docker run ubuntu-docs
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         run: archery docker push ubuntu-docs
diff --git a/.github/workflows/docs_light.yml b/.github/workflows/docs_light.yml
index eee778e6999..ed8cd12ca36 100644
--- a/.github/workflows/docs_light.yml
+++ b/.github/workflows/docs_light.yml
@@ -28,11 +28,12 @@ on:
       - 'ci/scripts/cpp_build.sh'
       - 'ci/scripts/python_build.sh'
 
+permissions:
+  contents: read
+  
 env:
   ARROW_ENABLE_TIMING_TESTS: OFF
   DOCKER_VOLUME_PREFIX: ".docker/"
-  ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
-  ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
 
 jobs:
 
@@ -49,7 +50,7 @@ jobs:
         with:
           fetch-depth: 0
       - name: Cache Docker Volumes
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: .docker
           key: conda-docs-${{ hashFiles('cpp/**') }}
@@ -61,4 +62,7 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: archery docker run conda-python-docs
diff --git a/.github/workflows/go.yml b/.github/workflows/go.yml
index cbbe067007d..2e973a2c709 100644
--- a/.github/workflows/go.yml
+++ b/.github/workflows/go.yml
@@ -36,9 +36,8 @@ concurrency:
   group: ${{ github.repository }}-${{ github.head_ref || github.sha }}-${{ github.workflow }}
   cancel-in-progress: true
 
-env:
-  ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
-  ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
+permissions:
+  contents: read
 
 jobs:
 
@@ -46,13 +45,19 @@ jobs:
     name: AMD64 Debian 11 Go ${{ matrix.go }}
     runs-on: ubuntu-latest
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
-    timeout-minutes: 15
+    timeout-minutes: 60
     strategy:
       fail-fast: false
       matrix:
-        go: [1.16]
+        go: [1.17, 1.18]
+        include:
+          - go: 1.17
+            staticcheck: v0.2.2
+          - go: 1.18
+            staticcheck: latest
     env:
       GO: ${{ matrix.go }}
+      STATICCHECK: ${{ matrix.staticcheck }}
     steps:
       - name: Checkout Arrow
         uses: actions/checkout@v3
@@ -62,15 +67,38 @@ jobs:
       - name: Setup Python
         uses: actions/setup-python@v4
         with:
-          python-version: 3.8
+          python-version: '3.10'
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: archery docker run debian-go
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         run: archery docker push debian-go
+      - name: Install Go ${{ matrix.go }} for Benchmarks
+        if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        uses: actions/setup-go@v3
+        with:
+          go-version: ${{ matrix.go }}
+          cache: true
+          cache-dependency-path: go/go.sum
+      - name: Run Benchmarks
+        if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          CONBENCH_URL: https://conbench.ursa.dev
+          CONBENCH_EMAIL: ${{ secrets.CONBENCH_EMAIL }}
+          CONBENCH_PASSWORD: ${{ secrets.CONBENCH_PASS }}
+          CONBENCH_REF: ${{ github.ref_name }}
+        run: |
+          pip install benchadapt@git+https://github.com/conbench/conbench.git@main#subdirectory=benchadapt/python
+          python ci/scripts/go_bench_adapt.py
 
   docker_cgo:
     name: AMD64 Debian 11 GO ${{ matrix.go }} - CGO
@@ -80,9 +108,15 @@ jobs:
     strategy:
       fail-fast: false
       matrix:
-        go: [1.16]
+        go: [1.17, 1.18]
+        include:
+          - go: 1.17
+            staticcheck: v0.2.2
+          - go: 1.18
+            staticcheck: latest
     env:
       GO: ${{ matrix.go }}
+      STATICCHECK: ${{ matrix.staticcheck }}
     steps:
       - name: Checkout Arrow
         uses: actions/checkout@v3
@@ -96,9 +130,15 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: archery docker run debian-go-cgo
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         run: archery docker push debian-go-cgo
 
@@ -111,9 +151,15 @@ jobs:
     strategy:
       fail-fast: false
       matrix:
-        go: [1.16]
+        go: [1.17, 1.18]
+        include:
+          - go: 1.17
+            staticcheck: v0.2.2
+          - go: 1.18
+            staticcheck: latest
     env:
       GO: ${{ matrix.go }}
+      STATICCHECK: ${{ matrix.staticcheck }}
     steps:
       - name: Checkout Arrow
         uses: actions/checkout@v3
@@ -126,9 +172,15 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: archery docker run debian-go-cgo-python
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         run: archery docker push debian-go-cgo-python
 
@@ -140,19 +192,26 @@ jobs:
     strategy:
       fail-fast: false
       matrix:
-        go: [1.16]
+        go: [1.17, 1.18]
+        include:
+          - go: 1.17
+            staticcheck: v0.2.2
+          - go: 1.18
+            staticcheck: latest
     steps:
-      - name: Install go
-        uses: actions/setup-go@v1
-        with:
-          go-version: ${{ matrix.go }}
       - name: Checkout Arrow
         uses: actions/checkout@v3
         with:
           fetch-depth: 0
           submodules: recursive
+      - name: Install go
+        uses: actions/setup-go@v3
+        with:
+          go-version: ${{ matrix.go }}
+          cache: true
+          cache-dependency-path: go/go.sum
       - name: Install staticcheck
-        run: go install honnef.co/go/tools/cmd/staticcheck@v0.2.2
+        run: go install honnef.co/go/tools/cmd/staticcheck@${{ matrix.staticcheck }}
       - name: Build
         shell: bash
         run: ci/scripts/go_build.sh $(pwd)
@@ -161,59 +220,90 @@ jobs:
         run: ci/scripts/go_test.sh $(pwd)
 
   macos:
-    name: AMD64 MacOS 10.15 Go ${{ matrix.go }}
+    name: AMD64 macOS 11 Go ${{ matrix.go }}
     runs-on: macos-latest
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
-    timeout-minutes: 15
+    timeout-minutes: 60
     strategy:
       fail-fast: false
       matrix:
-        go: [1.16]
+        go: [1.17, 1.18]
+        include:
+          - go: 1.17
+            staticcheck: v0.2.2
+          - go: 1.18
+            staticcheck: latest
     steps:
-      - name: Install go
-        uses: actions/setup-go@v1
-        with:
-          go-version: ${{ matrix.go }}
       - name: Checkout Arrow
         uses: actions/checkout@v3
         with:
           fetch-depth: 0
           submodules: recursive
+      - name: Install go
+        uses: actions/setup-go@v3
+        with:
+          go-version: ${{ matrix.go }}
+          cache: true
+          cache-dependency-path: go/go.sum
       - name: Install staticcheck
-        run: go install honnef.co/go/tools/cmd/staticcheck@v0.2.2
+        run: go install honnef.co/go/tools/cmd/staticcheck@${{ matrix.staticcheck }}
       - name: Build
         shell: bash
         run: ci/scripts/go_build.sh $(pwd)
       - name: Test
         shell: bash
         run: ci/scripts/go_test.sh $(pwd)
+      - name: Setup Python
+        if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        uses: actions/setup-python@v4
+        with:
+          python-version: '3.10'
+      - name: Run Benchmarks
+        if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        shell: bash
+        env:
+          CONBENCH_URL: 'https://conbench.ursa.dev'
+          CONBENCH_EMAIL: ${{ secrets.CONBENCH_EMAIL }}
+          CONBENCH_PASSWORD: ${{ secrets.CONBENCH_PASS }}
+          CONBENCH_REF: ${{ github.ref_name }}
+        run: |
+          pip install benchadapt@git+https://github.com/conbench/conbench.git@main#subdirectory=benchadapt/python
+          python ci/scripts/go_bench_adapt.py
+
 
   macos-cgo:
-    name: AMD64 MacOS 10.15 Go ${{ matrix.go }} - CGO
+    name: AMD64 macOS 11 Go ${{ matrix.go }} - CGO
     runs-on: macos-latest
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
     timeout-minutes: 60
     strategy:
       fail-fast: false
       matrix:
-        go: [1.16]
+        go: [1.17, 1.18]
+        include:
+          - go: 1.17
+            staticcheck: v0.2.2
+          - go: 1.18
+            staticcheck: latest
     env:
       ARROW_GO_TESTCGO: "1"
     steps:
-      - name: Install go
-        uses: actions/setup-go@v1
-        with:
-          go-version: ${{ matrix.go }}
       - name: Checkout Arrow
         uses: actions/checkout@v3
         with:
           fetch-depth: 0
           submodules: recursive
+      - name: Install go
+        uses: actions/setup-go@v3
+        with:
+          go-version: ${{ matrix.go }}
+          cache: true
+          cache-dependency-path: go/go.sum
       - name: Brew Install Arrow
         shell: bash
         run: brew install apache-arrow
       - name: Install staticcheck
-        run: go install honnef.co/go/tools/cmd/staticcheck@v0.2.2
+        run: go install honnef.co/go/tools/cmd/staticcheck@${{ matrix.staticcheck }}
       - name: Build
         shell: bash
         run: ci/scripts/go_build.sh $(pwd)
@@ -264,11 +354,13 @@ jobs:
           echo "CGO_LDFLAGS=-g -O2 -L$(cygpath --windows ${MINGW_PREFIX}/lib) -L$(cygpath --windows ${MINGW_PREFIX}/bin)" >> $GITHUB_ENV
           echo "MINGW_PREFIX=$(cygpath --windows ${MINGW_PREFIX})" >> $GITHUB_ENV
       - name: Install go
-        uses: actions/setup-go@v2
+        uses: actions/setup-go@v3
         with:
-          go-version: '1.17'
+          go-version: '1.18'
+          cache: true
+          cache-dependency-path: go/go.sum
       - name: Install staticcheck
-        run: go install honnef.co/go/tools/cmd/staticcheck@v0.2.2
+        run: go install honnef.co/go/tools/cmd/staticcheck@latest
       - name: Build
         shell: bash
         run: ci/scripts/go_build.sh $(pwd)
diff --git a/.github/workflows/integration.yml b/.github/workflows/integration.yml
index 566d43db7a9..e94eb764fd6 100644
--- a/.github/workflows/integration.yml
+++ b/.github/workflows/integration.yml
@@ -45,10 +45,11 @@ concurrency:
   group: ${{ github.repository }}-${{ github.head_ref || github.sha }}-${{ github.workflow }}
   cancel-in-progress: true
 
+permissions:
+  contents: read
+
 env:
   DOCKER_VOLUME_PREFIX: ".docker/"
-  ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
-  ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
 
 jobs:
 
@@ -69,7 +70,7 @@ jobs:
           repository: apache/arrow-rs
           path: rust
       - name: Cache Docker Volumes
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: .docker
           key: conda-${{ hashFiles('cpp/**') }}
@@ -81,8 +82,18 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
-        run: archery docker run -e ARCHERY_INTEGRATION_WITH_RUST=1 conda-integration
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
+        run: >
+          archery docker run \
+            -e ARCHERY_DEFAULT_BRANCH=${{ github.event.repository.default_branch }} \
+            -e ARCHERY_INTEGRATION_WITH_RUST=1 \
+            conda-integration
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         run: archery docker push conda-integration
diff --git a/.github/workflows/issue_bot.yml b/.github/workflows/issue_bot.yml
new file mode 100644
index 00000000000..d513f79c9fa
--- /dev/null
+++ b/.github/workflows/issue_bot.yml
@@ -0,0 +1,63 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+name: Issue Bot
+
+on:
+  issues:
+    types:
+      - opened
+
+permissions:
+  contents: read
+  issues: write
+
+jobs:
+  label_components:
+    name: Label Components
+    if: github.event.issue.pull_request == null
+    runs-on: ubuntu-latest
+    steps:
+      - uses: actions/github-script@v6
+        with:
+          script: |
+            let split_body = context.payload.issue.body.split('### Component(s)');
+            if (split_body.length != 2) throw new Error('No components found!');
+
+            let component_labels = split_body[1]
+              .split(',')
+              .map(component => component.trim())
+              .map(component => "Component: " + component);
+
+            let repo_labels = await github.rest.issues.listLabelsForRepo({
+              "owner": context.repo.owner,
+              "repo": context.repo.repo,
+            });
+
+            // this removes non-existent labels
+            component_labels = component_labels.filter(
+              label => repo_labels.data.some(repo_label => repo_label.name === label)
+            );
+          
+            if (component_labels.length == 0) throw new Error('No components found!');
+
+            await github.rest.issues.addLabels({
+              "owner": context.repo.owner,
+              "repo": context.repo.repo,
+              "issue_number": context.payload.issue.number,
+              "labels": component_labels,
+            });
\ No newline at end of file
diff --git a/.github/workflows/java.yml b/.github/workflows/java.yml
index 1cba0104899..86b5799a013 100644
--- a/.github/workflows/java.yml
+++ b/.github/workflows/java.yml
@@ -39,10 +39,11 @@ concurrency:
   group: ${{ github.repository }}-${{ github.head_ref || github.sha }}-${{ github.workflow }}
   cancel-in-progress: true
 
+permissions:
+  contents: read
+
 env:
   DOCKER_VOLUME_PREFIX: ".docker/"
-  ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
-  ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
 
 jobs:
 
@@ -82,7 +83,7 @@ jobs:
           fetch-depth: 0
           submodules: recursive
       - name: Cache Docker Volumes
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: .docker
           key: maven-${{ hashFiles('java/**') }}
@@ -94,14 +95,20 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: archery docker run ${{ matrix.image }}
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         run: archery docker push ${{ matrix.image }}
 
   macos:
-    name: AMD64 MacOS 10.15 Java JDK ${{ matrix.jdk }}
+    name: AMD64 macOS 11 Java JDK ${{ matrix.jdk }}
     runs-on: macos-latest
     if: github.event_name == 'push'
     timeout-minutes: 30
@@ -111,9 +118,37 @@ jobs:
         jdk: [11]
     steps:
       - name: Set up Java
-        uses: actions/setup-java@v1
+        uses: actions/setup-java@v3
+        with:
+          distribution: 'zulu'
+          java-version: ${{ matrix.jdk }}
+      - name: Checkout Arrow
+        uses: actions/checkout@v3
+        with:
+          fetch-depth: 0
+          submodules: recursive
+      - name: Build
+        shell: bash
+        run: ci/scripts/java_build.sh $(pwd) $(pwd)/build
+      - name: Test
+        shell: bash
+        run: ci/scripts/java_test.sh $(pwd) $(pwd)/build
+
+  windows:
+    name: AMD64 Windows Server 2022 Java JDK ${{ matrix.jdk }}
+    runs-on: windows-latest
+    if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
+    timeout-minutes: 30
+    strategy:
+      fail-fast: false
+      matrix:
+        jdk: [11]
+    steps:
+      - name: Set up Java
+        uses: actions/setup-java@v3
         with:
           java-version: ${{ matrix.jdk }}
+          distribution: 'temurin'
       - name: Checkout Arrow
         uses: actions/checkout@v3
         with:
diff --git a/.github/workflows/java_jni.yml b/.github/workflows/java_jni.yml
index 07cc3b12652..ee80c2c9d96 100644
--- a/.github/workflows/java_jni.yml
+++ b/.github/workflows/java_jni.yml
@@ -39,15 +39,16 @@ concurrency:
   group: ${{ github.repository }}-${{ github.head_ref || github.sha }}-${{ github.workflow }}
   cancel-in-progress: true
 
+permissions:
+  contents: read
+
 env:
   DOCKER_VOLUME_PREFIX: ".docker/"
-  ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
-  ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
 
 jobs:
 
   docker:
-    name: AMD64 Debian 9 Java JNI (Gandiva, Plasma, ORC, Dataset)
+    name: AMD64 manylinux2014 Java JNI
     runs-on: ubuntu-latest
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
     timeout-minutes: 90
@@ -58,11 +59,11 @@ jobs:
           fetch-depth: 0
           submodules: recursive
       - name: Cache Docker Volumes
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: .docker
-          key: maven-${{ hashFiles('java/**') }}
-          restore-keys: maven-
+          key: java-jni-manylinux-2014-${{ hashFiles('cpp/**', 'java/**') }}
+          restore-keys: java-jni-manylinux-2014-
       - name: Setup Python
         uses: actions/setup-python@v4
         with:
@@ -70,14 +71,20 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
-        run: archery docker run debian-java-jni
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
+        run: archery docker run java-jni-manylinux-2014
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
-        run: archery docker push debian-java-jni
+        run: archery docker push java-jni-manylinux-2014
 
   docker_integration_python:
-    name: AMD64 Debian 9 Java C Data Interface Integration
+    name: AMD64 Conda Java C Data Interface Integration
     runs-on: ubuntu-latest
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
     timeout-minutes: 90
@@ -88,7 +95,7 @@ jobs:
           fetch-depth: 0
           submodules: recursive
       - name: Cache Docker Volumes
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: .docker
           key: maven-${{ hashFiles('java/**') }}
@@ -100,8 +107,14 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: archery docker run conda-python-java-integration
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         run: archery docker push conda-python-java-integration
diff --git a/.github/workflows/java_nightly.yml b/.github/workflows/java_nightly.yml
index 17a49990027..24d8c7c54ee 100644
--- a/.github/workflows/java_nightly.yml
+++ b/.github/workflows/java_nightly.yml
@@ -24,10 +24,19 @@ on:
         description: Job prefix to use.
         required: false
         default: ''
+      keep:
+        description: Number of versions to keep.
+        required: false
+        default: 14
   schedule:
     - cron: '0 14 * * *'
+
+permissions:
+  contents: read
+
 jobs:
   upload:
+    if: github.repository == 'apache/arrow'
     env:
       PREFIX: ${{ github.event.inputs.prefix || ''}}
       CROSSBOW_GITHUB_TOKEN: ${{ github.token }}
@@ -64,30 +73,73 @@ jobs:
           fi
           echo $PREFIX
           archery crossbow download-artifacts -f java-jars -t binaries  $PREFIX
+      - name: Cache Repo
+        uses: actions/cache@v3
+        with:
+          path: repo
+          key: java-nightly-${{ github.run_id }}
+          restore-keys: java-nightly
+      - name: Sync from Remote
+        uses: ./arrow/.github/actions/sync-nightlies
+        with:
+          switches: -avzh --update --delete --progress
+          local_path: repo
+          remote_path: ${{ secrets.NIGHTLIES_RSYNC_PATH }}/arrow/java
+          remote_host: ${{ secrets.NIGHTLIES_RSYNC_HOST }}
+          remote_port: ${{ secrets.NIGHTLIES_RSYNC_PORT }}
+          remote_user: ${{ secrets.NIGHTLIES_RSYNC_USER }}
+          remote_key: ${{ secrets.NIGHTLIES_RSYNC_KEY }}
+          remote_host_key: ${{ secrets.NIGHTLIES_RSYNC_HOST_KEY }}
+      - shell: bash
+        name: Show local repo sync from remote
+        run: |
+          for i in `ls -t repo/org/apache/arrow`; do
+            echo "- $i: $(find repo/org/apache/arrow/$i -mindepth 1 -maxdepth 1 -type d \
+            | wc -l \
+            | xargs) versions available"
+          done
       - shell: bash
         name: Build Repository
         run: |
+          DATE=$(date +%Y-%m-%d)
           if [ -z $PREFIX ]; then
-            PREFIX=nightly-packaging-$(date +%Y-%m-%d)-0
+            PREFIX=nightly-packaging-${DATE}-0
           fi
-          PATTERN_TO_GET_LIB_AND_VERSION='([a-z].+)-([0-9].[0-9].[0-9].dev[0-9]+)'
+          PATTERN_TO_GET_LIB_AND_VERSION='([a-z].+)-([0-9]+.[0-9]+.[0-9]+-SNAPSHOT)'
           mkdir -p repo/org/apache/arrow/
-          for LIBRARY in $(ls binaries/$PREFIX/java-jars | grep -E '.jar|.pom' | grep dev); do
+          for LIBRARY in $(ls binaries/$PREFIX/java-jars | grep -E '.jar|.json|.pom|.xml' | grep SNAPSHOT); do
             [[ $LIBRARY =~ $PATTERN_TO_GET_LIB_AND_VERSION ]]
             mkdir -p repo/org/apache/arrow/${BASH_REMATCH[1]}/${BASH_REMATCH[2]}
+            mkdir -p repo/org/apache/arrow/${BASH_REMATCH[1]}/${DATE}
+            # Copy twice to maintain a latest snapshot and some earlier versions
             cp binaries/$PREFIX/java-jars/$LIBRARY repo/org/apache/arrow/${BASH_REMATCH[1]}/${BASH_REMATCH[2]}
+            touch repo/org/apache/arrow/${BASH_REMATCH[1]}/${BASH_REMATCH[2]}
+            cp binaries/$PREFIX/java-jars/$LIBRARY repo/org/apache/arrow/${BASH_REMATCH[1]}/${DATE}
             echo "Artifacts $LIBRARY configured"
           done
+      - name: Prune Repository
+        shell: bash
+        env:
+          KEEP: ${{ github.event.inputs.keep || 14 }}
+        run: |
+          for i in `ls -t repo/org/apache/arrow`; do
+            find repo/org/apache/arrow/$i -mindepth 1 -maxdepth 1 -type d -print0 \
+            | xargs -0 ls -t -d \
+            | tail -n +$((KEEP + 1)) \
+            | xargs rm -rf
+          done
       - name: Show repo contents
         run: tree repo
-      - name: Upload Files
+      - name: Sync to Remote
         if: ${{ github.repository == 'apache/arrow' }}
-        uses: burnett01/rsync-deployments@5.2
+        uses: ./arrow/.github/actions/sync-nightlies
         with:
-          switches: -avzr
-          path: repo/*
+          upload: true
+          switches: -avzh --update --delete --progress
+          local_path: repo
           remote_path: ${{ secrets.NIGHTLIES_RSYNC_PATH }}/arrow/java
           remote_host: ${{ secrets.NIGHTLIES_RSYNC_HOST }}
           remote_port: ${{ secrets.NIGHTLIES_RSYNC_PORT }}
           remote_user: ${{ secrets.NIGHTLIES_RSYNC_USER }}
           remote_key: ${{ secrets.NIGHTLIES_RSYNC_KEY }}
+          remote_host_key: ${{ secrets.NIGHTLIES_RSYNC_HOST_KEY }}
diff --git a/.github/workflows/js.yml b/.github/workflows/js.yml
index 18d54c5b4ef..239de36eee8 100644
--- a/.github/workflows/js.yml
+++ b/.github/workflows/js.yml
@@ -35,9 +35,8 @@ concurrency:
   group: ${{ github.repository }}-${{ github.head_ref || github.sha }}-${{ github.workflow }}
   cancel-in-progress: true
 
-env:
-  ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
-  ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
+permissions:
+  contents: read
 
 jobs:
 
@@ -58,17 +57,23 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: |
           sudo sysctl -w kernel.core_pattern="core.%e.%p"
           ulimit -c unlimited
           archery docker run debian-js
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         run: archery docker push debian-js
 
   macos:
-    name: AMD64 MacOS 10.15 NodeJS ${{ matrix.node }}
+    name: AMD64 macOS 11 NodeJS ${{ matrix.node }}
     runs-on: macos-latest
     if: github.event_name == 'push'
     timeout-minutes: 60
@@ -82,7 +87,7 @@ jobs:
         with:
           fetch-depth: 0
       - name: Install NodeJS
-        uses: actions/setup-node@v1
+        uses: actions/setup-node@v3
         with:
           node-version: ${{ matrix.node }}
       - name: Build
@@ -106,7 +111,7 @@ jobs:
         with:
           fetch-depth: 0
       - name: Install NodeJS
-        uses: actions/setup-node@v1
+        uses: actions/setup-node@v3
         with:
           node-version: ${{ matrix.node }}
       - name: Build
diff --git a/.github/workflows/matlab.yml b/.github/workflows/matlab.yml
index 3780ba113ab..541ffcea831 100644
--- a/.github/workflows/matlab.yml
+++ b/.github/workflows/matlab.yml
@@ -35,6 +35,9 @@ concurrency:
   group: ${{ github.repository }}-${{ github.head_ref || github.sha }}-${{ github.workflow }}
   cancel-in-progress: true
 
+permissions:
+  contents: read
+
 jobs:
 
   ubuntu:
@@ -69,11 +72,11 @@ jobs:
         with:
           select-by-folder: matlab/test
   macos:
-    name: AMD64 MacOS 10.15 MATLAB
+    name: AMD64 macOS 11 MATLAB
     runs-on: macos-latest
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
     steps:
-      - name: Check out repository        
+      - name: Check out repository
         uses: actions/checkout@v3
         with:
           fetch-depth: 0
diff --git a/.github/workflows/python.yml b/.github/workflows/python.yml
index fe834a55e6e..d6ab4006d64 100644
--- a/.github/workflows/python.yml
+++ b/.github/workflows/python.yml
@@ -35,10 +35,11 @@ concurrency:
   group: ${{ github.repository }}-${{ github.head_ref || github.sha }}-${{ github.workflow }}
   cancel-in-progress: true
 
+permissions:
+  contents: read
+
 env:
   DOCKER_VOLUME_PREFIX: ".docker/"
-  ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
-  ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
 
 jobs:
 
@@ -53,7 +54,7 @@ jobs:
         name:
           - conda-python-docs
           - conda-python-3.8-nopandas
-          - conda-python-3.7-pandas-0.23
+          - conda-python-3.7-pandas-1.0
           - conda-python-3.9-pandas-latest
         include:
           - name: conda-python-docs
@@ -66,12 +67,12 @@ jobs:
             image: conda-python
             title: AMD64 Conda Python 3.8 Without Pandas
             python: 3.8
-          - name: conda-python-3.7-pandas-0.23
+          - name: conda-python-3.7-pandas-1.0
             cache: conda-python-3.7
             image: conda-python-pandas
-            title: AMD64 Conda Python 3.7 Pandas 0.23
+            title: AMD64 Conda Python 3.7 Pandas 1.0
             python: 3.7
-            pandas: 0.23
+            pandas: 1.0
             numpy: 1.16
           - name: conda-python-3.9-pandas-latest
             cache: conda-python-3.9
@@ -91,7 +92,7 @@ jobs:
           fetch-depth: 0
           submodules: recursive
       - name: Cache Docker Volumes
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: .docker
           key: ${{ matrix.cache }}-${{ hashFiles('cpp/**') }}
@@ -103,17 +104,23 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: |
           sudo sysctl -w kernel.core_pattern="core.%e.%p"
           ulimit -c unlimited
           archery docker run ${{ matrix.image }}
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         run: archery docker push ${{ matrix.image }}
 
   macos:
-    name: AMD64 MacOS 10.15 Python 3
+    name: AMD64 macOS 12 Python 3
     runs-on: macos-latest
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
     timeout-minutes: 60
@@ -139,29 +146,38 @@ jobs:
       ARROW_WITH_SNAPPY: ON
       ARROW_WITH_BROTLI: ON
       ARROW_BUILD_TESTS: OFF
-      CMAKE_ARGS: "-DPython3_EXECUTABLE=/usr/local/bin/python3"
       PYARROW_TEST_LARGE_MEMORY: ON
+      # Current oldest supported version according to https://endoflife.date/macos
+      MACOSX_DEPLOYMENT_TARGET: 10.15
     steps:
       - name: Checkout Arrow
         uses: actions/checkout@v3
         with:
           fetch-depth: 0
           submodules: recursive
+      - name: Setup Python
+        uses: actions/setup-python@v4
+        with:
+          python-version: '3.11'
       - name: Install Dependencies
         shell: bash
         run: |
-          rm -f /usr/local/bin/2to3
+          rm -f /usr/local/bin/2to3* || :
+          rm -f /usr/local/bin/idle3* || :
+          rm -f /usr/local/bin/pydoc3* || :
+          rm -f /usr/local/bin/python3* || :
+          rm -f /usr/local/bin/python3-config || :
           brew update --preinstall
           brew install --overwrite git
           brew bundle --file=cpp/Brewfile
           brew install coreutils
-          python3 -mpip install \
+          python -m pip install \
             -r python/requirements-build.txt \
             -r python/requirements-test.txt
       - name: Build
         shell: bash
         run: |
-          export PYTHON=python3
+          python -m pip install wheel
           ci/scripts/cpp_build.sh $(pwd) $(pwd)/build
           ci/scripts/python_build.sh $(pwd) $(pwd)/build
       - name: Test
diff --git a/.github/workflows/r.yml b/.github/workflows/r.yml
index 4f706e3e5b1..e7b1ee06e97 100644
--- a/.github/workflows/r.yml
+++ b/.github/workflows/r.yml
@@ -43,10 +43,11 @@ concurrency:
   group: ${{ github.repository }}-${{ github.head_ref || github.sha }}-${{ github.workflow }}
   cancel-in-progress: true
 
+permissions:
+  contents: read
+
 env:
   DOCKER_VOLUME_PREFIX: ".docker/"
-  ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
-  ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
 
 jobs:
   ubuntu:
@@ -59,7 +60,7 @@ jobs:
       matrix:
         r: ["4.2"]
         ubuntu: [20.04]
-        force-tests: ["true", "false"]
+        force-tests: ["true"]
     env:
       R: ${{ matrix.r }}
       UBUNTU: ${{ matrix.ubuntu }}
@@ -68,8 +69,9 @@ jobs:
         uses: actions/checkout@v3
         with:
           fetch-depth: 0
+          submodules: recursive
       - name: Cache Docker Volumes
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: .docker
           # As this key is identical on both matrix builds only one will be able to successfully cache,
@@ -87,6 +89,9 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: |
           sudo sysctl -w kernel.core_pattern="core.%e.%p"
           ulimit -c unlimited
@@ -101,12 +106,15 @@ jobs:
         if: always()
       - name: Save the test output
         if: always()
-        uses: actions/upload-artifact@v2
+        uses: actions/upload-artifact@v3
         with:
           name: test-output
           path: r/check/arrow.Rcheck/tests/testthat.Rout*
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         run: archery docker push ubuntu-r
 
@@ -119,17 +127,18 @@ jobs:
       fail-fast: false
       matrix:
         config:
-          - { org: "rstudio", image: "r-base", tag: "4.0-centos7" }
-          - { org: "rhub", image: "debian-gcc-devel", tag: "latest" }
+          - { org: "rhub", image: "debian-gcc-devel", tag: "latest", devtoolset: "" }
     env:
       R_ORG: ${{ matrix.config.org }}
       R_IMAGE: ${{ matrix.config.image }}
       R_TAG: ${{ matrix.config.tag }}
+      DEVTOOLSET_VERSION: ${{ matrix.config.devtoolset }}
     steps:
       - name: Checkout Arrow
         uses: actions/checkout@v3
         with:
           fetch-depth: 0
+          submodules: recursive
       - name: Setup Python
         uses: actions/setup-python@v4
         with:
@@ -137,6 +146,9 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: |
           sudo sysctl -w kernel.core_pattern="core.%e.%p"
           ulimit -c unlimited
@@ -152,12 +164,15 @@ jobs:
         if: always()
       - name: Save the test output
         if: always()
-        uses: actions/upload-artifact@v2
+        uses: actions/upload-artifact@v3
         with:
           name: test-output
           path: r/check/arrow.Rcheck/tests/testthat.Rout*
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         run: archery docker push r
 
@@ -170,10 +185,6 @@ jobs:
       fail-fast: false
       matrix:
         config:
-        - { rtools: 35, arch: 'mingw32' }
-        - { rtools: 35, arch: 'mingw64' }
-        - { rtools: 40, arch: 'mingw32' }
-        - { rtools: 40, arch: 'mingw64' }
         - { rtools: 40, arch: 'ucrt64' }
     steps:
       - run: git config --global core.autocrlf false
@@ -186,51 +197,32 @@ jobs:
         run: |
           ci/scripts/ccache_setup.sh
           echo "CCACHE_DIR=$(cygpath --absolute --windows ccache)" >> $GITHUB_ENV
-      # We must enable actions/cache before r-lib/actions/setup-r to ensure
-      # using system tar instead of tar provided by Rtools.
-      # We can use tar provided by Rtools when we drop support for Rtools 3.5.
-      # Because Rtools 4.0 or later has zstd. actions/cache requires zstd
-      # when tar is GNU tar.
       - name: Cache ccache
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: ccache
           key: r-${{ matrix.config.rtools }}-ccache-mingw-${{ matrix.config.arch }}-${{ hashFiles('cpp/src/**/*.cc','cpp/src/**/*.h)') }}-${{ github.run_id }}
           restore-keys: |
             r-${{ matrix.config.rtools }}-ccache-mingw-${{ matrix.config.arch }}-${{ hashFiles('cpp/src/**/*.cc','cpp/src/**/*.h)') }}-
             r-${{ matrix.config.rtools }}-ccache-mingw-${{ matrix.config.arch }}-
-      # We use the makepkg-mingw setup that is included in rtools40 even when
-      # we use the rtools35 compilers, so we always install R 4.0/Rtools40
       - uses: r-lib/actions/setup-r@v2
         with:
           r-version: "4.1"
           rtools-version: 40
           Ncpus: 2
-      - uses: r-lib/actions/setup-r@v2
-        if: ${{ matrix.config.rtools == 35 }}
-        with:
-          rtools-version: 35
-          r-version: "3.6"
-          Ncpus: 2
       - name: Build Arrow C++
         shell: bash
         env:
-          RTOOLS_VERSION: ${{ matrix.config.rtools }}
           MINGW_ARCH: ${{ matrix.config.arch }}
         run: ci/scripts/r_windows_build.sh
       - name: Rename libarrow.zip
         # So that they're unique when multiple are downloaded in the next step
         shell: bash
         run: mv libarrow.zip libarrow-rtools${{ matrix.config.rtools }}-${{ matrix.config.arch }}.zip
-      - uses: actions/upload-artifact@v1
+      - uses: actions/upload-artifact@v3
         with:
           name: libarrow-rtools${{ matrix.config.rtools }}-${{ matrix.config.arch }}.zip
           path: libarrow-rtools${{ matrix.config.rtools }}-${{ matrix.config.arch }}.zip
-      # We can remove this when we drop support for Rtools 3.5.
-      - name: Ensure using system tar in actions/cache
-        run: |
-          Write-Output "${Env:windir}\System32" | `
-            Out-File -FilePath $env:GITHUB_PATH -Encoding utf8 -Append
 
   windows-r:
     needs: [windows-cpp]
@@ -242,8 +234,6 @@ jobs:
       fail-fast: false
       matrix:
         config:
-        - { rtools: 35, rversion: "3.6" }
-        - { rtools: 40, rversion: "4.1" }
         - { rtools: 42, rversion: "4.2" }
         - { rtools: 42, rversion: "devel" }
     env:
@@ -256,21 +246,9 @@ jobs:
         with:
           fetch-depth: 0
       - run: mkdir r/windows
-      - name: Download artifacts
-        if: ${{ matrix.config.rtools != 42 }}
-        uses: actions/download-artifact@v2
-        with:
-          name: libarrow-rtools${{ matrix.config.rtools }}-mingw32.zip
-          path: r/windows
-      - name: Download artifacts
-        if: ${{ matrix.config.rtools !=42 }}
-        uses: actions/download-artifact@v2
-        with:
-          name: libarrow-rtools${{ matrix.config.rtools }}-mingw64.zip
-          path: r/windows
       - name: Download artifacts
         if: ${{ matrix.config.rtools == 42 }}
-        uses: actions/download-artifact@v2
+        uses: actions/download-artifact@v3
         with:
           name: libarrow-rtools40-ucrt64.zip
           path: r/windows
@@ -284,8 +262,6 @@ jobs:
         with:
           r-version: ${{ matrix.config.rversion }}
           rtools-version: ${{ matrix.config.rtools }}
-          # RSPM keeps install times short for 3.6
-          use-public-rspm: true
           Ncpus: 2
       - uses: r-lib/actions/setup-r-dependencies@v2
         env:
@@ -297,6 +273,19 @@ jobs:
           working-directory: 'r'
           extra-packages: |
             any::rcmdcheck
+      - name: Install MinIO
+        shell: bash
+        run: |
+          mkdir -p "$HOME/.local/bin"
+          curl \
+            --output "$HOME/.local/bin/minio.exe" \
+            https://dl.min.io/server/minio/release/windows-amd64/archive/minio.RELEASE.2022-05-26T05-48-41Z
+          chmod +x "$HOME/.local/bin/minio.exe"
+          echo "$HOME/.local/bin" >> $GITHUB_PATH
+      # TODO(ARROW-17149): figure out why the GCS tests are hanging on Windows
+      # - name: Install Google Cloud Storage Testbench
+      #   shell: bash
+      #   run: ci/scripts/install_gcs_testbench.sh default
       - name: Check
         shell: Rscript {0}
         run: |
diff --git a/.github/workflows/r_nightly.yml b/.github/workflows/r_nightly.yml
index a47f69136f8..8d10bee30d0 100644
--- a/.github/workflows/r_nightly.yml
+++ b/.github/workflows/r_nightly.yml
@@ -20,10 +20,6 @@ name: Upload R Nightly builds
 # to nightlies.apache.org. Due to authorization requirements, this upload can't be done 
 # from the crossbow repository.
 
-# This removes all permissions from the token
-permissions:
-  contents: none
-
 on:
   workflow_dispatch:
     inputs:
@@ -40,6 +36,9 @@ on:
     #Crossbow packaging runs at 0 8 * * *
     - cron: '0 14 * * *'
 
+permissions:
+  contents: read
+
 jobs:
   upload:
     if: github.repository == 'apache/arrow'
diff --git a/.github/workflows/ruby.yml b/.github/workflows/ruby.yml
index bf49376c6fd..453c5a6edd2 100644
--- a/.github/workflows/ruby.yml
+++ b/.github/workflows/ruby.yml
@@ -47,10 +47,11 @@ concurrency:
   group: ${{ github.repository }}-${{ github.head_ref || github.sha }}-${{ github.workflow }}
   cancel-in-progress: true
 
+permissions:
+  contents: read
+
 env:
   DOCKER_VOLUME_PREFIX: ".docker/"
-  ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
-  ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
 
 jobs:
 
@@ -73,7 +74,7 @@ jobs:
           fetch-depth: 0
           submodules: recursive
       - name: Cache Docker Volumes
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: .docker
           key: ubuntu-${{ matrix.ubuntu }}-ruby-${{ hashFiles('cpp/**') }}
@@ -85,6 +86,9 @@ jobs:
       - name: Setup Archery
         run: pip install -e dev/archery[docker]
       - name: Execute Docker Build
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         run: |
           sudo sysctl -w kernel.core_pattern="core.%e.%p"
           ulimit -c unlimited
@@ -97,17 +101,18 @@ jobs:
             ubuntu-ruby
       - name: Docker Push
         if: success() && github.event_name == 'push' && github.repository == 'apache/arrow'
+        env:
+          ARCHERY_DOCKER_USER: ${{ secrets.DOCKERHUB_USER }}
+          ARCHERY_DOCKER_PASSWORD: ${{ secrets.DOCKERHUB_TOKEN }}
         continue-on-error: true
         shell: bash
         run: archery docker push ubuntu-ruby
 
   macos:
-    name: AMD64 MacOS 10.15 GLib & Ruby
+    name: AMD64 macOS 12 GLib & Ruby
     runs-on: macos-latest
     if: ${{ !contains(github.event.pull_request.title, 'WIP') }}
     timeout-minutes: 60
-    strategy:
-      fail-fast: false
     env:
       ARROW_BUILD_STATIC: OFF
       ARROW_BUILD_TESTS: OFF
@@ -137,7 +142,11 @@ jobs:
       - name: Install Homebrew Dependencies
         shell: bash
         run: |
-          rm -f /usr/local/bin/2to3
+          rm -f /usr/local/bin/2to3* || :
+          rm -f /usr/local/bin/idle3* || :
+          rm -f /usr/local/bin/pydoc3* || :
+          rm -f /usr/local/bin/python3* || :
+          rm -f /usr/local/bin/python3-config || :
           brew update --preinstall
           brew install --overwrite git
           brew bundle --file=cpp/Brewfile
@@ -156,9 +165,9 @@ jobs:
       - name: ccache info
         id: ccache-info
         run: |
-          echo "::set-output name=cache-dir::$(ccache --get-config cache_dir)"
+          echo "cache-dir=$(ccache --get-config cache_dir)" >> $GITHUB_OUTPUT
       - name: Cache ccache
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: ${{ steps.ccache-info.outputs.cache-dir }}
           key: ruby-ccache-macos-${{ hashFiles('cpp/**') }}
@@ -195,7 +204,8 @@ jobs:
       ARROW_BUILD_TYPE: release
       ARROW_FLIGHT: ON
       ARROW_FLIGHT_SQL: ON
-      ARROW_GANDIVA: ON
+      # ARROW-17728: SEGV on MinGW
+      ARROW_GANDIVA: OFF
       ARROW_GCS: ON
       ARROW_HDFS: OFF
       ARROW_HOME: /ucrt${{ matrix.mingw-n-bits }}
@@ -246,7 +256,7 @@ jobs:
         run: |
           ridk exec bash ci\scripts\msys2_setup.sh ruby
       - name: Cache ccache
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: ccache
           key: ruby-ccache-ucrt${{ matrix.mingw-n-bits }}-${{ hashFiles('cpp/**') }}
@@ -268,9 +278,10 @@ jobs:
       - name: RubyGems info
         id: rubygems-info
         run: |
-          Write-Output "::set-output name=gem-dir::$(ridk exec gem env gemdir)"
+          Write-Output "gem-dir=$(ridk exec gem env gemdir)" | `
+            Out-File -FilePath $env:GITHUB_OUTPUT -Encoding utf8 -Append
       - name: Cache RubyGems
-        uses: actions/cache@v2
+        uses: actions/cache@v3
         with:
           path: ${{ steps.rubygems-info.outputs.gem-dir }}
           key: ruby-rubygems-ucrt${{ matrix.mingw-n-bits }}-${{ hashFiles('**/Gemfile', 'ruby/*/*.gemspec') }}
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
index 7311b5a9a3f..926be8b5175 100644
--- a/.pre-commit-config.yaml
+++ b/.pre-commit-config.yaml
@@ -46,3 +46,4 @@ repos:
           - file
           - python
         exclude: vendored
+        args: [--config, python/setup.cfg]
diff --git a/.travis.yml b/.travis.yml
index 5038f66181a..6a4c2d3c9fc 100644
--- a/.travis.yml
+++ b/.travis.yml
@@ -66,6 +66,7 @@ jobs:
           "
         # The LLVM's APT repository doesn't provide arm64 binaries.
         # We should use LLVM provided by Ubuntu.
+        CLANG_TOOLS: "10"
         LLVM: "10"
         UBUNTU: "20.04"
 
@@ -109,6 +110,7 @@ jobs:
           "
         # The LLVM's APT repository causes download error for s390x binary
         # We should use the LLVM provided by the default APT repository
+        CLANG_TOOLS: "10"
         LLVM: "10"
         UBUNTU: "20.04"
 
@@ -158,9 +160,16 @@ jobs:
           -e Protobuf_SOURCE=BUNDLED
           -e gRPC_SOURCE=BUNDLED
           "
+        # The LLVM's APT repository causes download error for s390x binary
+        # We should use the LLVM provided by the default APT repository
+        CLANG_TOOLS: "10"
+        LLVM: "10"
+        UBUNTU: "20.04"
 
   allow_failures:
     - name: "Java on s390x"
+    - name: "C++ on s390x"
+    - name: "Python on s390x"
 
 before_install:
   - eval "$(python ci/detect-changes.py)"
@@ -182,6 +191,7 @@ install:
   - sudo -H pip3 install -e dev/archery[docker]
 
 script:
+  - export ARCHERY_DEFAULT_BRANCH=$(git rev-parse --abbrev-ref origin/HEAD | sed s@origin/@@)
   - |
     archery docker run \
       ${DOCKER_RUN_ARGS} \
diff --git a/CHANGELOG.md b/CHANGELOG.md
index 4ecdf628355..e7103035204 100644
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -1,4 +1,435 @@
 
+# Apache Arrow 11.0.0 (2023-01-16 08:00:00)
+
+## New Features and Improvements
+
+* [ARROW-4709](https://issues.apache.org/jira/browse/ARROW-4709) - [C++] Optimize for ordered JSON fields (#14100)
+* [ARROW-11776](https://issues.apache.org/jira/browse/ARROW-11776) - [C++][Java] Support parquet write from ArrowReader to file (#14151)
+* [ARROW-13938](https://issues.apache.org/jira/browse/ARROW-13938) - [C++] Date and datetime types should autocast from strings
+* [ARROW-13980](https://issues.apache.org/jira/browse/ARROW-13980) - [Go] Implement Scalar ApproxEquals (#14543)
+* [ARROW-14161](https://issues.apache.org/jira/browse/ARROW-14161) - [C++][Docs] Improve Parquet C++ docs (#14018)
+* [ARROW-14832](https://issues.apache.org/jira/browse/ARROW-14832) - [R] Implement bindings for stringr::str_remove and stringr::str_remove_all (#14644)
+* [ARROW-14999](https://issues.apache.org/jira/browse/ARROW-14999) - [C++] Optional field name equality checks for map and list type (#14847)
+* [ARROW-15006](https://issues.apache.org/jira/browse/ARROW-15006) - [Python][Doc] Add five more numpydoc checks to CI (#15214)
+* [ARROW-15006](https://issues.apache.org/jira/browse/ARROW-15006) - [Python][CI][Doc] Enable numpydoc check PR03 (#13983)
+* [ARROW-15206](https://issues.apache.org/jira/browse/ARROW-15206) - [Ruby] Add support for `Arrow::Table.load(uri, schema:)` (#15148)
+* [ARROW-15460](https://issues.apache.org/jira/browse/ARROW-15460) - [R] Add as.data.frame.Dataset method (#14461)
+* [ARROW-15470](https://issues.apache.org/jira/browse/ARROW-15470) - [R] Set null value in CSV writer (#14679)
+* [ARROW-15538](https://issues.apache.org/jira/browse/ARROW-15538) - [C++] Expanding coverage of math functions from Substrait to Acero (#14434)
+* [ARROW-15592](https://issues.apache.org/jira/browse/ARROW-15592) - [C++] Add support for custom output field names in a substrait::PlanRel (#14292)
+* [ARROW-15691](https://issues.apache.org/jira/browse/ARROW-15691) - [Dev] Update archery to work with either master or main as default branch (#14033)
+* [ARROW-15732](https://issues.apache.org/jira/browse/ARROW-15732) - [C++] Do not use any CPU threads in execution plan when use_threads is false (#15104)
+* [ARROW-15812](https://issues.apache.org/jira/browse/ARROW-15812) - [R] Accept col_names in open_dataset for CSV (#14705)
+* [ARROW-16266](https://issues.apache.org/jira/browse/ARROW-16266) - [R] Add StructArray$create() (#14922)
+* [ARROW-16337](https://issues.apache.org/jira/browse/ARROW-16337) - [Python] Expose flag to enable/disable storing Arrow schema in Parquet metadata (#13000)
+* [ARROW-16430](https://issues.apache.org/jira/browse/ARROW-16430) - [Python] Add support for reading record batch custom metadata API (#13041)
+* [ARROW-16480](https://issues.apache.org/jira/browse/ARROW-16480) - [R] Update read_csv_arrow and open_dataset parse_options, read_options, and convert_options to take lists (#15270)
+* [ARROW-16616](https://issues.apache.org/jira/browse/ARROW-16616) - [Python] Add lazy Dataset.filter() method (#13409)
+* [ARROW-16673](https://issues.apache.org/jira/browse/ARROW-16673) - [Java] Integrate C Data into allocator hierarchy (#14506)
+* [ARROW-16728](https://issues.apache.org/jira/browse/ARROW-16728) - [Python] ParquetDataset to still take legacy code path when old filesystem is passed (#15269)
+* [ARROW-16728](https://issues.apache.org/jira/browse/ARROW-16728) - [Python] Switch default and deprecate use_legacy_dataset=True in ParquetDataset (#14052)
+* [ARROW-16782](https://issues.apache.org/jira/browse/ARROW-16782) - [Format] Add REE definitions to FlatBuffers (#14176)
+* [ARROW-17025](https://issues.apache.org/jira/browse/ARROW-17025) - [Dev] Remove github user name links from merge commit message (#14458)
+* [ARROW-17144](https://issues.apache.org/jira/browse/ARROW-17144) - [C++][Gandiva] Add sqrt function (#13656)
+* [ARROW-17187](https://issues.apache.org/jira/browse/ARROW-17187) - [R] Improve lazy ALTREP implementation for String (#14271)
+* [ARROW-17212](https://issues.apache.org/jira/browse/ARROW-17212) - [Python] Support lazy Dataset.filter
+* [ARROW-17301](https://issues.apache.org/jira/browse/ARROW-17301) - [C++] Implement compute function "binary_slice" (#14550)
+* [ARROW-17302](https://issues.apache.org/jira/browse/ARROW-17302) - [R] Configure curl timeout policy for S3 (#15166)
+* [ARROW-17360](https://issues.apache.org/jira/browse/ARROW-17360) - [Python] Order of columns in pyarrow.feather.read_table (#14528)
+* [ARROW-17416](https://issues.apache.org/jira/browse/ARROW-17416) - [R] Implement lubridate::with\_tz and lubridate::force\_tz
+* [ARROW-17425](https://issues.apache.org/jira/browse/ARROW-17425) - [R] `lubridate::as_datetime()` in dplyr query should be able to handle time in sub seconds (#13890)
+* [ARROW-17462](https://issues.apache.org/jira/browse/ARROW-17462) - [R] Cast scalars to type of field in Expression building (#13985)
+* [ARROW-17509](https://issues.apache.org/jira/browse/ARROW-17509) - [C++] Simplify async scheduler by removing the need to call End (#14524)
+* [ARROW-17520](https://issues.apache.org/jira/browse/ARROW-17520) - [C++] Implement SubStrait SetRel (UnionAll) (#14186)
+* [ARROW-17610](https://issues.apache.org/jira/browse/ARROW-17610) - [C++] Support additional source types in SourceNode (#14207)
+* [ARROW-17613](https://issues.apache.org/jira/browse/ARROW-17613) - [C++] Add function execution API for a preconfigured kernel (#14043)
+* [ARROW-17640](https://issues.apache.org/jira/browse/ARROW-17640) - [C++] Add File Handling Test cases for GlobFile handling in Substrait Read (#14132)
+* [ARROW-17662](https://issues.apache.org/jira/browse/ARROW-17662) - [R] Facilitate offline installation from binaries (#14086)
+* [ARROW-17726](https://issues.apache.org/jira/browse/ARROW-17726) - [CI] Enable sccache on more builds
+* [ARROW-17731](https://issues.apache.org/jira/browse/ARROW-17731) - [Website] Add blog post about Flight SQL JDBC driver
+* [ARROW-17732](https://issues.apache.org/jira/browse/ARROW-17732) - [Docs][Java] Add minimal JDBC driver docs (#14137)
+* [ARROW-17751](https://issues.apache.org/jira/browse/ARROW-17751) - [Go][Benchmarking] Add Go Benchmark Script (#14148)
+* [ARROW-17777](https://issues.apache.org/jira/browse/ARROW-17777) - [Dev] Update the pull request merge script to work with master or main
+* [ARROW-17798](https://issues.apache.org/jira/browse/ARROW-17798) - [C++][Parquet] Add DELTA_BINARY_PACKED encoder to Parquet writer (#14191)
+* [ARROW-17812](https://issues.apache.org/jira/browse/ARROW-17812) - [Gandiva][Docs] Add C++ Gandiva User Guide (#14200)
+* [ARROW-17825](https://issues.apache.org/jira/browse/ARROW-17825) - [C++] Allow the possibility to write several tables in ORCFileWriter (#14219)
+* [ARROW-17832](https://issues.apache.org/jira/browse/ARROW-17832) - [Python] Construct MapArray from sequence of dicts (instead of list of tuples) (#14547)
+* [ARROW-17836](https://issues.apache.org/jira/browse/ARROW-17836) - [C++] Allow specifying alignment of buffers (#14225)
+* [ARROW-17837](https://issues.apache.org/jira/browse/ARROW-17837) - [C++][Acero] Create ExecPlan-owned QueryContext that will store a plan's shared data structures (#14227)
+* [ARROW-17838](https://issues.apache.org/jira/browse/ARROW-17838) - [Python] Unify CMakeLists.txt in python/ (#14925)
+* [ARROW-17859](https://issues.apache.org/jira/browse/ARROW-17859) - [C++] Use self-pipe in signal-receiving StopSource (#14250)
+* [ARROW-17867](https://issues.apache.org/jira/browse/ARROW-17867) - [C++][FlightRPC] Expose bulk parameter binding in Flight SQL (#14266)
+* [ARROW-17870](https://issues.apache.org/jira/browse/ARROW-17870) - [Go] Add Scalar Binary Arithmetic
+* [ARROW-17871](https://issues.apache.org/jira/browse/ARROW-17871) - [Go] initial binary arithmetic implementation (#14255)
+* [ARROW-17887](https://issues.apache.org/jira/browse/ARROW-17887) - [R][Doc] Improve readability of the Get Started and README pages (#14514)
+* [ARROW-17892](https://issues.apache.org/jira/browse/ARROW-17892) - [CI] Use Python 3.10 in AppVeyor build (#14307)
+* [ARROW-17899](https://issues.apache.org/jira/browse/ARROW-17899) - [Go][CSV] Add Decimal support to CSV reader (#14504)
+* [ARROW-17932](https://issues.apache.org/jira/browse/ARROW-17932) - [C++] Implement streaming RecordBatchReader for JSON (#14355)
+* [ARROW-17949](https://issues.apache.org/jira/browse/ARROW-17949) - [C++][Docs] Remove the use of clcache from Windows dev docs (#14529)
+* [ARROW-17953](https://issues.apache.org/jira/browse/ARROW-17953) - [Archery] Add archery docker info command (#14345)
+* [ARROW-17960](https://issues.apache.org/jira/browse/ARROW-17960) - [C++][Python] Implement list_slice kernel (#14395)
+* [ARROW-17966](https://issues.apache.org/jira/browse/ARROW-17966) - [C++] Adjust to new format for Substrait optional arguments (#14415)
+* [ARROW-17972](https://issues.apache.org/jira/browse/ARROW-17972) - [CI] Update CUDA docker jobs (#14362)
+* [ARROW-17975](https://issues.apache.org/jira/browse/ARROW-17975) - [C++] Create at-fork facility (#14594)
+* [ARROW-17980](https://issues.apache.org/jira/browse/ARROW-17980) - [C++] As-of-Join Substrait extension (#14485)
+* [ARROW-17989](https://issues.apache.org/jira/browse/ARROW-17989) - [C++][Python] Enable struct_field kernel to accept string field names (#14495)
+* [ARROW-18008](https://issues.apache.org/jira/browse/ARROW-18008) - [Python][C++] Add use\_threads to run\_substrait\_query
+* [ARROW-18012](https://issues.apache.org/jira/browse/ARROW-18012) - [R] Make map_batches .lazy = TRUE by default (#14521)
+* [ARROW-18014](https://issues.apache.org/jira/browse/ARROW-18014) - [Java] Implement copy functions for vectors and Table (#14389)
+* [ARROW-18016](https://issues.apache.org/jira/browse/ARROW-18016) - [CI] Add sccache to r jobs (#14570)
+* [ARROW-18033](https://issues.apache.org/jira/browse/ARROW-18033) - [CI] Use $GITHUB_OUTPUT instead of set-output (#14409)
+* [ARROW-18042](https://issues.apache.org/jira/browse/ARROW-18042) - [Java] Distribute Apple M1 compatible JNI libraries via mavencentral (#14472)
+* [ARROW-18043](https://issues.apache.org/jira/browse/ARROW-18043) - [R] Properly instantiate empty arrays of extension types in Table__from_schema (#14519)
+* [ARROW-18051](https://issues.apache.org/jira/browse/ARROW-18051) - [C++] Enable tests skipped by ARROW-16392 (#14425)
+* [ARROW-18075](https://issues.apache.org/jira/browse/ARROW-18075) - [Website] Update install page for 9.0.0
+* [ARROW-18081](https://issues.apache.org/jira/browse/ARROW-18081) - [Go] Add Scalar Boolean functions (#14442)
+* [ARROW-18095](https://issues.apache.org/jira/browse/ARROW-18095) - [CI][C++][MinGW] All tests exited with 0xc0000139
+* [ARROW-18108](https://issues.apache.org/jira/browse/ARROW-18108) - [Go] More scalar binary arithmetic (Multiply and Divide) (#14544)
+* [ARROW-18109](https://issues.apache.org/jira/browse/ARROW-18109) - [Go] Initial Unary Arithmetic (#14605)
+* [ARROW-18110](https://issues.apache.org/jira/browse/ARROW-18110) - [Go] Scalar Comparisons (#14669)
+* [ARROW-18111](https://issues.apache.org/jira/browse/ARROW-18111) - [Go] Remaining scalar binary arithmetic (shifts, power, bitwise) (#14703)
+* [ARROW-18112](https://issues.apache.org/jira/browse/ARROW-18112) - [Go] Remaining Scalar Arithmetic (#14777)
+* [ARROW-18113](https://issues.apache.org/jira/browse/ARROW-18113) - [C++] Add RandomAccessFile::ReadManyAsync (#14723)
+* [ARROW-18120](https://issues.apache.org/jira/browse/ARROW-18120) - [Release][Dev] Automate running binaries/wheels verifications (#14469)
+* [ARROW-18121](https://issues.apache.org/jira/browse/ARROW-18121) - [Release][CI] Use Ubuntu 22.04 for verifying binaries (#14470)
+* [ARROW-18122](https://issues.apache.org/jira/browse/ARROW-18122) - [Release][Dev] Update expected vote e-mail (#14548)
+* [ARROW-18122](https://issues.apache.org/jira/browse/ARROW-18122) - [Release][Dev] Add verification PR URL to vote email (#14471)
+* [ARROW-18135](https://issues.apache.org/jira/browse/ARROW-18135) - [C++] Avoid warnings that ExecBatch::length may be uninitialized (#14480)
+* [ARROW-18137](https://issues.apache.org/jira/browse/ARROW-18137) - [Python][Docs] adding info about TableGroupBy.aggregation with empty list (#14482)
+* [ARROW-18144](https://issues.apache.org/jira/browse/ARROW-18144) - [C++] Improve JSONTypeError error message in testing (#14486)
+* [ARROW-18147](https://issues.apache.org/jira/browse/ARROW-18147) - [Go] Add Scalar Add/Sub for Decimal types (#14489)
+* [ARROW-18151](https://issues.apache.org/jira/browse/ARROW-18151) - [CI] Avoid unnecessary redirect for some conda URLs  (#14494)
+* [ARROW-18152](https://issues.apache.org/jira/browse/ARROW-18152) - [Python] DataFrame Interchange Protocol for pyarrow Table
+* [ARROW-18169](https://issues.apache.org/jira/browse/ARROW-18169) - [Website] Don't run dev docs update on fork repositories
+* [ARROW-18173](https://issues.apache.org/jira/browse/ARROW-18173) - [Python] Drop older versions of Pandas (<1.0) (#14631)
+* [ARROW-18174](https://issues.apache.org/jira/browse/ARROW-18174) - [R] Fix compile of altrep.cpp on some builds (#14530)
+* [ARROW-18177](https://issues.apache.org/jira/browse/ARROW-18177) - [Go] Add Add/Sub for Temporal types (#14532)
+* [ARROW-18178](https://issues.apache.org/jira/browse/ARROW-18178) - [Java] ArrowVectorIterator incorrectly closes Vectors (#14534)
+* [ARROW-18184](https://issues.apache.org/jira/browse/ARROW-18184) - [C++] Improve JSON parser benchmarks (#14552)
+* [ARROW-18203](https://issues.apache.org/jira/browse/ARROW-18203) - [R] Refactor to remove unnecessary uses of build_expr (#14553)
+* [ARROW-18206](https://issues.apache.org/jira/browse/ARROW-18206) - [C++][CI] Add a nightly build for C++20 compilation (#14571)
+* [ARROW-18220](https://issues.apache.org/jira/browse/ARROW-18220) - [Dev] Remove a magic number for the default parallel level in downloader (#14563)
+* [ARROW-18221](https://issues.apache.org/jira/browse/ARROW-18221) - [Release][Dev] Add support for customizing arrow-site dir (#14564)
+* [ARROW-18222](https://issues.apache.org/jira/browse/ARROW-18222) - [Release][MSYS2] Detect reverse dependencies automatically (#14565)
+* [ARROW-18223](https://issues.apache.org/jira/browse/ARROW-18223) - [Release][Homebrew] Detect reverse dependencies automatically (#14566)
+* [ARROW-18224](https://issues.apache.org/jira/browse/ARROW-18224) - [Release][jar] Use temporary directory for download (#14567)
+* [ARROW-18230](https://issues.apache.org/jira/browse/ARROW-18230) - [Python] Pass Cmake args to Python CPP 
+* [ARROW-18233](https://issues.apache.org/jira/browse/ARROW-18233) - [Release][JS] don't install yarn to system (#14577)
+* [ARROW-18235](https://issues.apache.org/jira/browse/ARROW-18235) - [C++][Gandiva] Fix the like function implementation for escape chars (#14579)
+* [ARROW-18237](https://issues.apache.org/jira/browse/ARROW-18237) - [Java] Extend Table code (#14573)
+* [ARROW-18238](https://issues.apache.org/jira/browse/ARROW-18238) - [Docs][Python] Improve docs for S3FileSystem (#14599)
+* [ARROW-18240](https://issues.apache.org/jira/browse/ARROW-18240) - [R] head() is crashing on some nightly builds (#14582)
+* [ARROW-18243](https://issues.apache.org/jira/browse/ARROW-18243) - [R] Sanitizer nightly failure pointing to mixup between TimestampType and DurationType
+* [ARROW-18248](https://issues.apache.org/jira/browse/ARROW-18248) - [CI][Release] Use GitHub token to avoid API rate limit (#14588)
+* [ARROW-18249](https://issues.apache.org/jira/browse/ARROW-18249) - [C++] Update vcpkg port to arrow 10.0.0
+* [ARROW-18253](https://issues.apache.org/jira/browse/ARROW-18253) - [C++][Parquet] Add additional bounds safety checks (#14592)
+* [ARROW-18259](https://issues.apache.org/jira/browse/ARROW-18259) - [C++][CMake] Add support for system Thrift CMake package (#14597)
+* [ARROW-18264](https://issues.apache.org/jira/browse/ARROW-18264) - [Python] Add missing value accessor to temporal types (#14746)
+* [ARROW-18264](https://issues.apache.org/jira/browse/ARROW-18264) - [Python] Expose time32/time64 scalar values (#14637)
+* [ARROW-18270](https://issues.apache.org/jira/browse/ARROW-18270) - [Python] Remove gcc 4.9 compatibility code (#14602)
+* [ARROW-18278](https://issues.apache.org/jira/browse/ARROW-18278) - [Java] Adjust path in Maven generate-libs-jni-macos-linux (#14623)
+* [ARROW-18280](https://issues.apache.org/jira/browse/ARROW-18280) - [C++][Python] Support slicing to end in list_slice kernel (#14749)
+* [ARROW-18282](https://issues.apache.org/jira/browse/ARROW-18282) - [C++][Python] Support step >= 1 in list_slice kernel (#14696)
+* [ARROW-18287](https://issues.apache.org/jira/browse/ARROW-18287) - [C++][CMake] Add support for Brotli/utf8proc provided by vcpkg (#14609)
+* [ARROW-18289](https://issues.apache.org/jira/browse/ARROW-18289) - [Release][vcpkg] Add a script to update vcpkg's arrow port (#14610)
+* [ARROW-18291](https://issues.apache.org/jira/browse/ARROW-18291) - [Release][Docs] Update how to release (#14612)
+* [ARROW-18292](https://issues.apache.org/jira/browse/ARROW-18292) - [Release][Python] Upload .wheel/.tar.gz for release not RC (#14708)
+* [ARROW-18303](https://issues.apache.org/jira/browse/ARROW-18303) - [Go] Allow easy compute module importing (#14690)
+* [ARROW-18306](https://issues.apache.org/jira/browse/ARROW-18306) - [R] Failing test after compute function updates (#14620)
+* [ARROW-18318](https://issues.apache.org/jira/browse/ARROW-18318) - [Python] Expose Scalar.validate() (#15149)
+* [ARROW-18321](https://issues.apache.org/jira/browse/ARROW-18321) - [R] Add tests for binary_slice kernel (#14647)
+* [ARROW-18323](https://issues.apache.org/jira/browse/ARROW-18323) - Enabling issue templates in GitHub issues (#14675)
+* [ARROW-18332](https://issues.apache.org/jira/browse/ARROW-18332) - [Go] Cast Dictionary types to value type (#14650)
+* [ARROW-18333](https://issues.apache.org/jira/browse/ARROW-18333) - [Go][Docs] Update compute function docs (#14815)
+* [ARROW-18336](https://issues.apache.org/jira/browse/ARROW-18336) - [Release][Docs] Don't update versions not in major release (#14653)
+* [ARROW-18337](https://issues.apache.org/jira/browse/ARROW-18337) - [R] Possible undesirable handling of POSIXlt objects (#15277)
+* [ARROW-18340](https://issues.apache.org/jira/browse/ARROW-18340) - [Python] PyArrow C++ header files no longer always included in installed pyarrow (#14656)
+* [ARROW-18341](https://issues.apache.org/jira/browse/ARROW-18341) - [Doc][Python] Update note about bundling Arrow C++ on Windows (#14660)
+* [ARROW-18342](https://issues.apache.org/jira/browse/ARROW-18342) - [C++] AsofJoinNode support for Boolean data field (#14658)
+* [ARROW-18345](https://issues.apache.org/jira/browse/ARROW-18345) - [R] Create a CRAN-specific packaging checklist that lives in the R package directory (#14678)
+* [ARROW-18348](https://issues.apache.org/jira/browse/ARROW-18348) - [CI][Release][Yum] redhat-rpm-config is needed on AlmaLinux 9 (#14661)
+* [ARROW-18350](https://issues.apache.org/jira/browse/ARROW-18350) - [C++] Use std::to_chars instead of std::to_string (#14666)
+* [ARROW-18358](https://issues.apache.org/jira/browse/ARROW-18358) - [R] Implement new function open\_dataset\_csv with signature more closely matching read\_csv\_arrow
+* [ARROW-18361](https://issues.apache.org/jira/browse/ARROW-18361) - [CI][Conan] Merge upstream changes (#14671)
+* [ARROW-18363](https://issues.apache.org/jira/browse/ARROW-18363) - [Docs] Include warning when viewing old docs (redirecting to stable/dev docs) (#14839)
+* [ARROW-18366](https://issues.apache.org/jira/browse/ARROW-18366) - [Packaging][RPM][Gandiva] Fix link error on AlmaLinux 9 (#14680)
+* [ARROW-18367](https://issues.apache.org/jira/browse/ARROW-18367) - [C++] Enable the creation of named table relations (#14681)
+* [ARROW-18373](https://issues.apache.org/jira/browse/ARROW-18373) - Fix component drop-down, add license text (#14688)
+* [ARROW-18377](https://issues.apache.org/jira/browse/ARROW-18377) - MIGRATION: Automate component labels from issue form content (#15245)
+* [ARROW-18380](https://issues.apache.org/jira/browse/ARROW-18380) - [Dev] Update dev_pr GitHub workflows to accept both GitHub issues and JIRA (#14731)
+* [ARROW-18384](https://issues.apache.org/jira/browse/ARROW-18384) - [Release][MSYS2] Show pull request title (#14709)
+* [ARROW-18391](https://issues.apache.org/jira/browse/ARROW-18391) - [R] Fix the version selector dropdown in the dev docs (#14800)
+* [ARROW-18395](https://issues.apache.org/jira/browse/ARROW-18395) - [C++] Move select-k implementation into separate module
+* [ARROW-18399](https://issues.apache.org/jira/browse/ARROW-18399) - [Python] Reduce warnings during tests (#14729)
+* [ARROW-18401](https://issues.apache.org/jira/browse/ARROW-18401) - [R] Failing test on test-r-rhub-ubuntu-gcc-release-latest (#14894)
+* [ARROW-18402](https://issues.apache.org/jira/browse/ARROW-18402) - [C++] Expose `DeclarationInfo` (#14765)
+* [ARROW-18406](https://issues.apache.org/jira/browse/ARROW-18406) - [C++] Can't build Arrow with Substrait on Ubuntu 20.04 (#14735)
+* [ARROW-18407](https://issues.apache.org/jira/browse/ARROW-18407) - [Release][Website] Use UTC for release date (#14737)
+* [ARROW-18409](https://issues.apache.org/jira/browse/ARROW-18409) - [GLib][Plasma] Suppress deprecated warning in building plasma-glib (#14739)
+* [ARROW-18410](https://issues.apache.org/jira/browse/ARROW-18410) - [Packaging][Ubuntu] Add support for Ubuntu 22.10 (#14740)
+* [ARROW-18413](https://issues.apache.org/jira/browse/ARROW-18413) - [C++][Parquet] Expose page index info from ColumnChunkMetaData (#14742)
+* [ARROW-18418](https://issues.apache.org/jira/browse/ARROW-18418) - [Website] do not delete /datafusion-python
+* [ARROW-18419](https://issues.apache.org/jira/browse/ARROW-18419) - [C++] Update vendored fast_float (#14817)
+* [ARROW-18420](https://issues.apache.org/jira/browse/ARROW-18420) - [C++][Parquet] Introduce ColumnIndex & OffsetIndex (#14803)
+* [ARROW-18421](https://issues.apache.org/jira/browse/ARROW-18421) - [C++][ORC] Add accessor for stripe information in reader (#14806)
+* [ARROW-18423](https://issues.apache.org/jira/browse/ARROW-18423) - [Python] Expose reading a schema from an IPC message (#14831)
+* [ARROW-18426](https://issues.apache.org/jira/browse/ARROW-18426) - Update committers and PMC members on website
+* [ARROW-18427](https://issues.apache.org/jira/browse/ARROW-18427) - [C++] Support negative tolerance in `AsofJoinNode` (#14934)
+* [ARROW-18428](https://issues.apache.org/jira/browse/ARROW-18428) - [Website] Enable github issues on arrow-site repo
+* [ARROW-18435](https://issues.apache.org/jira/browse/ARROW-18435) - [C++][Java] Update ORC to 1.8.1 (#14942)
+* [GH-14474](https://github.com/apache/arrow/issues/14474) - Opportunistically delete R references to shared pointers where possible (#15278)
+* [GH-14720](https://github.com/apache/arrow/issues/14720) - [Dev] Update merge_arrow_pr script to accept GitHub issues (#14750)
+* [GH-14755](https://github.com/apache/arrow/issues/14755) - [Python] Expose QuotingStyle to Python (#14722)
+* [GH-14761](https://github.com/apache/arrow/issues/14761) - [Dev] Update labels on PR labeler to use new Component ones (#14762)
+* [GH-14778](https://github.com/apache/arrow/issues/14778) - [Python] Add (Chunked)Array sort() method (#14781)
+* [GH-14784](https://github.com/apache/arrow/issues/14784) - [Dev] Add possibility to autoassign on GitHub issue comment (#14785)
+* [GH-14786](https://github.com/apache/arrow/issues/14786) - [Java][Doc] Replace in-folder documentation (#14789)
+* [GH-14787](https://github.com/apache/arrow/issues/14787) - [Java][Doc] Update table.rst (#14794)
+* [GH-14809](https://github.com/apache/arrow/issues/14809) - [Dev] Add created GitHub issues to issues@arrow.apache.org (#14811)
+* [GH-14816](https://github.com/apache/arrow/issues/14816) - [Release] Make dev/release/06-java-upload.sh reusable from other project (#14830)
+* [GH-14824](https://github.com/apache/arrow/issues/14824) - [CI] r-binary-packages should only upload artifacts if all tests succeed  (#14841)
+* [GH-14844](https://github.com/apache/arrow/issues/14844) - [Java] Short circuit null checks when comparing non null field types (#15106)
+* [GH-14846](https://github.com/apache/arrow/issues/14846) - [Dev] Support GitHub Releases in download_rc_binaries.py (#14848)
+* [GH-14854](https://github.com/apache/arrow/issues/14854) - Make changes to .md pages (#14852)
+* [GH-14869](https://github.com/apache/arrow/issues/14869) - [C++] Add Cflags.private defining <lib>_STATIC to <lib>.pc.in. (#14900)
+* [GH-14873](https://github.com/apache/arrow/issues/14873) - [Java] DictionaryEncoder can decode without building a DictionaryHashTable (#14874)
+* [GH-14885](https://github.com/apache/arrow/issues/14885) - [Docs] Make changes to the New Contrib Guide (Jira -> GitHub) (#14889)
+* [GH-14901](https://github.com/apache/arrow/issues/14901) - [Java] ListSubfieldEncoder and StructSubfieldEncoder can decode without DictionaryHashTable (#14902)
+* [GH-14918](https://github.com/apache/arrow/issues/14918) - [Docs] Make changes to developers section of the docs (Jira -> GitHub) (#14919)
+* [GH-14920](https://github.com/apache/arrow/issues/14920) - [C++][CMake] Add missing -latomic to Arrow CMake package (#15251)
+* [GH-14937](https://github.com/apache/arrow/issues/14937) - [C++] Add rank kernel benchmarks (#14938)
+* [GH-14951](https://github.com/apache/arrow/issues/14951) - [C++][Parquet] Add benchmarks for DELTA_BINARY_PACKED encoding (#15140)
+* [GH-14961](https://github.com/apache/arrow/issues/14961) - [Ruby] Use newer extpp for C++17 (#14962)
+* [GH-14975](https://github.com/apache/arrow/issues/14975) - [Python] Dataset.sort_by (#14976)
+* [GH-14976](https://github.com/apache/arrow/issues/14976) - [Python] Avoid dependency on exec plan in Table.sort_by to fix minimal tests (#15268)
+* [GH-14977](https://github.com/apache/arrow/issues/14977) - [Dev][CI] Add notify-token-expiration to archery (#14978)
+* [GH-14981](https://github.com/apache/arrow/issues/14981) - [R] Forward compatibility with dplyr::join_by()  (#33664)
+* [GH-14986](https://github.com/apache/arrow/issues/14986) - [Release] Don't detect previous version on maint-X.Y.Z branch (#14987)
+* [GH-14992](https://github.com/apache/arrow/issues/14992) - [Packaging] Make dev/release/binary-task.rb reusable from other project (#14994)
+* [GH-14997](https://github.com/apache/arrow/issues/14997) - [Release] Ensure archery release tasks works with both new style GitHub issues and old style JIRA issues (#33615)
+* [GH-14999](https://github.com/apache/arrow/issues/14999) - [Release][Archery] Update archery release changelog to support GitHub issues
+* [GH-15002](https://github.com/apache/arrow/issues/15002) - [Release][Archery] Update archery release cherry-pick to support GitHub issues
+* [GH-15005](https://github.com/apache/arrow/issues/15005) - [Go] Add scalar.Append to append scalars to builder (#15006)
+* [GH-15009](https://github.com/apache/arrow/issues/15009) - [R] stringr 1.5.0 with the str_like function is already released (#15010)
+* [GH-15012](https://github.com/apache/arrow/issues/15012) - [Packaging][deb] Use system Protobuf for Debian GNU/Linux bookworm (#15013)
+* [GH-15035](https://github.com/apache/arrow/issues/15035) - [CI] Remove unsupported turbodbc jobs and scripts from CI (#15036)
+* [GH-15050](https://github.com/apache/arrow/issues/15050) - [Java][Docs] Update and consolidate Memory documentation (#15051)
+* [GH-15072](https://github.com/apache/arrow/issues/15072) - [C++] Move the round functionality into a separate module (#15073)
+* [GH-15074](https://github.com/apache/arrow/issues/15074) - [Parquet][C++] change 16-bit page_ordinal to 32-bit (#15182)
+* [GH-15081](https://github.com/apache/arrow/issues/15081) - [Release] Add support for using custom artifacts directory in dev/release/05-binary-upload.sh (#15082)
+* [GH-15084](https://github.com/apache/arrow/issues/15084) - [Ruby] Use common keys when keys.nil? in Table#join (#15088)
+* [GH-15085](https://github.com/apache/arrow/issues/15085) - [Ruby] Add ColumnContainable#column_names (#15089)
+* [GH-15087](https://github.com/apache/arrow/issues/15087) - [Release] Slow down downloading RC binaries from GitHub (#15090)
+* [GH-15096](https://github.com/apache/arrow/issues/15096) - [C++] Substrait ProjectRel Emit Optimization (#15097)
+* [GH-15100](https://github.com/apache/arrow/issues/15100) - [C++][Parquet] Add benchmark for reading strings from Parquet (#15101)
+* [GH-15119](https://github.com/apache/arrow/issues/15119) - [Release][Docs][R] Update version information in patch release (#15120)
+* [GH-15134](https://github.com/apache/arrow/issues/15134) - [Ruby] Specify -mmacox-version-min=10.14 explicitly for old Xcode (#15135)
+* [GH-15146](https://github.com/apache/arrow/issues/15146) - [GLib] Add `GADatasetFinishOptions` (#15147)
+* [GH-15151](https://github.com/apache/arrow/issues/15151) - [C++] Adding RecordBatchReaderSource to solve an issue in R API (#15183)
+* [GH-15168](https://github.com/apache/arrow/issues/15168) - [GLib] Add support for half float (#15169)
+* [GH-15174](https://github.com/apache/arrow/issues/15174) - [Go][FlightRPC] Expose Flight Server Desc and RegisterFlightService (#15177)
+* [GH-15185](https://github.com/apache/arrow/issues/15185) - [C++][Parquet] Improve documentation for Parquet Reader column_indices (#15184)
+* [GH-15199](https://github.com/apache/arrow/issues/15199) - [C++][Substrait] Allow AGGREGATION_INVOCATION_UNSPECIFIED as valid invocation (#15198)
+* [GH-15200](https://github.com/apache/arrow/issues/15200) - [C++] Created benchmarks for round kernels. (#15201)
+* [GH-15205](https://github.com/apache/arrow/issues/15205) - [R] Fix a parquet-fixture finding in R tests (#15207)
+* [GH-15216](https://github.com/apache/arrow/issues/15216) - [C++][Parquet] Parquet writer accepts RecordBatch (#15240)
+* [GH-15218](https://github.com/apache/arrow/issues/15218) - [Python] Remove auto generated pyarrow_api.h and pyarrow_lib.h (#15219)
+* [GH-15226](https://github.com/apache/arrow/issues/15226) - [C++] Add DurationType to hash kernels (#33685)
+* [GH-15237](https://github.com/apache/arrow/issues/15237) - [C++] Add ::arrow::Unreachable() using std::string_view (#15238)
+* [GH-15239](https://github.com/apache/arrow/issues/15239) - [C++][Parquet] Parquet writer writes decimal as int32/64 (#15244)
+* [GH-15249](https://github.com/apache/arrow/issues/15249) - [Documentation] Add PR template (#15250)
+* [GH-15257](https://github.com/apache/arrow/issues/15257) - [GLib][Dataset] Add GADatasetHivePartitioning (#15272)
+* [GH-15265](https://github.com/apache/arrow/issues/15265) - [Java] Publish SBOM artifacts (#15267)
+* [GH-15289](https://github.com/apache/arrow/issues/15289) - [Ruby] Return self when saving Table to csv (#33653)
+* [GH-15290](https://github.com/apache/arrow/issues/15290) - [C++][Compute] Optimize IfElse kernel AAS/ASA case when the scalar is null (#15291)
+* [GH-33607](https://github.com/apache/arrow/issues/33607) - [C++] Support optional additional arguments for inline visit functions (#33608)
+* [GH-33610](https://github.com/apache/arrow/issues/33610) - [Dev] Do not allow ARROW prefixed tickets to be merged nor used on PR titles (#33611)
+* [GH-33619](https://github.com/apache/arrow/issues/33619) - [Documentation] Update PR template (#33620)
+* [GH-33657](https://github.com/apache/arrow/issues/33657) - [C++] arrow-dataset.pc doesn't depend on parquet.pc without ARROW_PARQUET=ON (#33665)
+* [GH-33670](https://github.com/apache/arrow/issues/33670) - [GLib] Add `GArrowProjectNodeOptions` (#33677)
+* [GH-33671](https://github.com/apache/arrow/issues/33671) - [GLib] Add `garrow_chunked_array_new_empty()` (#33675)
+* [PARQUET-2179](https://issues.apache.org/jira/browse/PARQUET-2179) - [C++][Parquet] Add a test for skipping repeated fields (#14366)
+* [PARQUET-2188](https://issues.apache.org/jira/browse/PARQUET-2188) - [parquet-cpp] Add SkipRecords API to RecordReader (#14142)
+* [PARQUET-2204](https://issues.apache.org/jira/browse/PARQUET-2204) - [parquet-cpp] TypedColumnReaderImpl::Skip should reuse scratch space (#14509)
+* [PARQUET-2206](https://issues.apache.org/jira/browse/PARQUET-2206) - [parquet-cpp] Microbenchmark for ColumnReader ReadBatch and Skip (#14523)
+* [PARQUET-2209](https://issues.apache.org/jira/browse/PARQUET-2209) - [parquet-cpp] Optimize skip for the case that number of values to skip equals page size (#14545)
+* [PARQUET-2210](https://issues.apache.org/jira/browse/PARQUET-2210) - [C++][Parquet] Skip pages based on header metadata using a callback (#14603)
+* [PARQUET-2211](https://issues.apache.org/jira/browse/PARQUET-2211) - [C++] Print ColumnMetaData.encoding_stats field (#14556)
+
+
+## Bug Fixes
+
+* [ARROW-11631](https://issues.apache.org/jira/browse/ARROW-11631) - [R] Implement RPrimitiveConverter for Decimal type
+* [ARROW-15026](https://issues.apache.org/jira/browse/ARROW-15026) - [Python] Error if datetime.timedelta to pyarrow.duration conversion overflows (#13718)
+* [ARROW-15328](https://issues.apache.org/jira/browse/ARROW-15328) - [C++][Docs] Streaming CSV reader missing from documentation (#14452)
+* [ARROW-15822](https://issues.apache.org/jira/browse/ARROW-15822) - [C++] Cast duration to string (thus CSV writing) not supported (#14450)
+* [ARROW-16464](https://issues.apache.org/jira/browse/ARROW-16464) - [C++][CI][GPU] Add CUDA CI (#14497)
+* [ARROW-16471](https://issues.apache.org/jira/browse/ARROW-16471) - [Go] RecordBuilder UnmarshalJSON handle complex values (#14560)
+* [ARROW-16547](https://issues.apache.org/jira/browse/ARROW-16547) - [Python] to_pandas fails with FixedOffset timezones when timestamp_as_object is used (#14448)
+* [ARROW-16795](https://issues.apache.org/jira/browse/ARROW-16795) - [C#][Flight] Nightly verify-rc-source-csharp-macos-arm64 fails (#15235)
+* [ARROW-16817](https://issues.apache.org/jira/browse/ARROW-16817) - [C++] Test ORC writer errors with invalid types (#14638)
+* [ARROW-17054](https://issues.apache.org/jira/browse/ARROW-17054) - [R] Creating an Array from an object bigger than 2^31 results in an Array of length 0 (#14929)
+* [ARROW-17192](https://issues.apache.org/jira/browse/ARROW-17192) - [Python] Pass **kwargs in read_feather to to_pandas() (#14492)
+* [ARROW-17332](https://issues.apache.org/jira/browse/ARROW-17332) - [R] error parsing folder path with accent ('c:/Público') in read_csv_arrow (#14930)
+* [ARROW-17361](https://issues.apache.org/jira/browse/ARROW-17361) - [R] dplyr::summarize fails with division when divisor is a variable (#14933)
+* [ARROW-17374](https://issues.apache.org/jira/browse/ARROW-17374) - [C++] Snappy package may be built without CMAKE_BUILD_TYPE (#14818)
+* [ARROW-17458](https://issues.apache.org/jira/browse/ARROW-17458) - [C++] Cast between decimal and string (#14232)
+* [ARROW-17538](https://issues.apache.org/jira/browse/ARROW-17538) - [C++] Import schema when importing array stream (#15037)
+* [ARROW-17637](https://issues.apache.org/jira/browse/ARROW-17637) - [R][us][s] (#14935)
+* [ARROW-17692](https://issues.apache.org/jira/browse/ARROW-17692) - [R] Add support for building with system AWS SDK C++ (#14235)
+* [ARROW-17772](https://issues.apache.org/jira/browse/ARROW-17772) - [Doc] Sphinx / reST markup error
+* [ARROW-17774](https://issues.apache.org/jira/browse/ARROW-17774) - [Python] Add python test for decimals to csv (#14525)
+* [ARROW-17858](https://issues.apache.org/jira/browse/ARROW-17858) - [C++] Compilating warning in arrow/csv/parser.h (#14445)
+* [ARROW-17893](https://issues.apache.org/jira/browse/ARROW-17893) - [Python] Test that reading of timedelta is stable (read_feather/to_pandas) (#14531)
+* [ARROW-17985](https://issues.apache.org/jira/browse/ARROW-17985) - [C++][Python] Improve s3fs error message when wrong region (#14601)
+* [ARROW-17991](https://issues.apache.org/jira/browse/ARROW-17991) - [Python][C++] Adding support for IpcWriteOptions to the dataset ipc file writer (#14414)
+* [ARROW-18052](https://issues.apache.org/jira/browse/ARROW-18052) - [Python] Support passing create_dir thru pq.write_to_dataset (#14459)
+* [ARROW-18068](https://issues.apache.org/jira/browse/ARROW-18068) - [Dev][Archery][Crossbow] Comment bot only waits for task if link is not available (#14429)
+* [ARROW-18070](https://issues.apache.org/jira/browse/ARROW-18070) - [C++] Invoke google::protobuf::ShutdownProtobufLibrary for substrait tests (#14508)
+* [ARROW-18086](https://issues.apache.org/jira/browse/ARROW-18086) - [Ruby] Add support for HalfFloat (#15204)
+* [ARROW-18087](https://issues.apache.org/jira/browse/ARROW-18087) - [C++] RecordBatch::Equals should not ignore field names (#14451)
+* [ARROW-18088](https://issues.apache.org/jira/browse/ARROW-18088) - [CI][Python] Fix pandas master/nightly build failure related to timedelta (#14460)
+* [ARROW-18101](https://issues.apache.org/jira/browse/ARROW-18101) - [R] RecordBatchReaderHead from ExecPlan with UDF cannot be read (#14518)
+* [ARROW-18106](https://issues.apache.org/jira/browse/ARROW-18106) - [C++] JSON reader ignores explicit schema with default unexpected_field_behavior="infer" (#14741)
+* [ARROW-18117](https://issues.apache.org/jira/browse/ARROW-18117) - [C++] Fix static bundle build (#14465)
+* [ARROW-18118](https://issues.apache.org/jira/browse/ARROW-18118) - [Release][Dev] Fix problems in 02-source.sh/03-binary-submit.sh for 10.0.0-rc0 (#14468)
+* [ARROW-18123](https://issues.apache.org/jira/browse/ARROW-18123) - [Python] Fix writing files with multi-byte characters in file name (#14764)
+* [ARROW-18125](https://issues.apache.org/jira/browse/ARROW-18125) - [Python] Handle pytest 8 deprecations about pytest.warns(None) 
+* [ARROW-18126](https://issues.apache.org/jira/browse/ARROW-18126) - [Python] Remove ARROW_BUILD_DIR in building pyarrow C++ (#14498)
+* [ARROW-18128](https://issues.apache.org/jira/browse/ARROW-18128) - [Java][CI] Update timestamp of Java Nightlies X.Y.Z-SNAPSHOT folder (#14496)
+* [ARROW-18149](https://issues.apache.org/jira/browse/ARROW-18149) - [C++] fix build failure of `join_example` (#14490)
+* [ARROW-18157](https://issues.apache.org/jira/browse/ARROW-18157) - [Dev][Archery] "archery docker run" sets env var to None when inherited (#14501)
+* [ARROW-18158](https://issues.apache.org/jira/browse/ARROW-18158) - [CI] Use default Python version when installing conda cpp environment to fix conda builds (#14500)
+* [ARROW-18159](https://issues.apache.org/jira/browse/ARROW-18159) - [Go][Release] Add `go install` to verify-release script (#14503)
+* [ARROW-18161](https://issues.apache.org/jira/browse/ARROW-18161) - [Ruby] Refer source input in sub objects (#15217)
+* [ARROW-18164](https://issues.apache.org/jira/browse/ARROW-18164) - [Python] Honor default memory pool in Dataset scanning (#14516)
+* [ARROW-18167](https://issues.apache.org/jira/browse/ARROW-18167) - [Go][Release] update go.work with release (#14522)
+* [ARROW-18172](https://issues.apache.org/jira/browse/ARROW-18172) - [CI][Release] Source Release and Merge Script jobs fail on master
+* [ARROW-18183](https://issues.apache.org/jira/browse/ARROW-18183) - [C++] cpp-micro benchmarks are failing on mac arm machine (#14562)
+* [ARROW-18188](https://issues.apache.org/jira/browse/ARROW-18188) - [CI] CUDA nightly docker upload fails due to wrong tag (#14538)
+* [ARROW-18195](https://issues.apache.org/jira/browse/ARROW-18195) - [C++] Fix case_when produces bad data when condition has nulls (#15131)
+* [ARROW-18202](https://issues.apache.org/jira/browse/ARROW-18202) - [C++] Reallow regexp replace on empty string (#15132)
+* [ARROW-18205](https://issues.apache.org/jira/browse/ARROW-18205) - [C++] Substrait consumer is not converting right side references correctly on joins (#14558)
+* [ARROW-18207](https://issues.apache.org/jira/browse/ARROW-18207) - [Ruby] RubyGems for 10.0.0 aren't updated yet
+* [ARROW-18209](https://issues.apache.org/jira/browse/ARROW-18209) - [Java] Make ComplexCopier agnostic of specific implementation of MapWriter (UnionMapWriter) (#14557)
+* [ARROW-18212](https://issues.apache.org/jira/browse/ARROW-18212) - [C++] NumericBuilder::Reset() doesn't reset all members (#14559)
+* [ARROW-18225](https://issues.apache.org/jira/browse/ARROW-18225) - [Python] Fully support filesystem in parquet.write_metadata (#14574)
+* [ARROW-18227](https://issues.apache.org/jira/browse/ARROW-18227) - [CI][Packaging] Do not fail conda-clean if conda search raises PackagesNotFound (#14569)
+* [ARROW-18229](https://issues.apache.org/jira/browse/ARROW-18229) - [Python] Check schema argument type in RecordBatchReader.from_batches (#14583)
+* [ARROW-18231](https://issues.apache.org/jira/browse/ARROW-18231) - [C++][CMake] Add support for overriding optimization level (#15022)
+* [ARROW-18246](https://issues.apache.org/jira/browse/ARROW-18246) - [Python][Docs] PyArrow table join docstring typos for left and right suffix arguments (#14591)
+* [ARROW-18247](https://issues.apache.org/jira/browse/ARROW-18247) - [JS] fix: RangeError crash in Vector.toArray() (#14587)
+* [ARROW-18256](https://issues.apache.org/jira/browse/ARROW-18256) - [C++][Windows] Use IMPORTED_IMPLIB for external shared Thrift (#14595)
+* [ARROW-18257](https://issues.apache.org/jira/browse/ARROW-18257) - [Python] pass back time types with correct type class (#14633)
+* [ARROW-18269](https://issues.apache.org/jira/browse/ARROW-18269) - [C++] Handle slash character in Hive-style partition values (#14646)
+* [ARROW-18272](https://issues.apache.org/jira/browse/ARROW-18272) - [Python] Support filesystem parameter in ParquetFile (#14717)
+* [ARROW-18284](https://issues.apache.org/jira/browse/ARROW-18284) - [Python][Docs] Add missing CMAKE_PREFIX_PATH to allow setup.py CMake invocations to find Arrow CMake package (#14586)
+* [ARROW-18290](https://issues.apache.org/jira/browse/ARROW-18290) - [C++] Escape all special chars in URI-encoding (#14645)
+* [ARROW-18309](https://issues.apache.org/jira/browse/ARROW-18309) - [Go] Fix delta bit packing decode panic (#14649)
+* [ARROW-18320](https://issues.apache.org/jira/browse/ARROW-18320) - [C++][FlightRPC] Fix improper Status/Result conversion in Flight client (#14859)
+* [ARROW-18334](https://issues.apache.org/jira/browse/ARROW-18334) - [C++] Handle potential non-commutativity by rebinding (#14659)
+* [ARROW-18339](https://issues.apache.org/jira/browse/ARROW-18339) - [Python][CI] Add DYLD_LIBRARY_PATH to avoid requiring PYARROW_BUNDLE_ARROW_CPP on macOS job (#14643)
+* [ARROW-18343](https://issues.apache.org/jira/browse/ARROW-18343) - [C++] Remove AllocateBitmap() with out parameter (#14657)
+* [ARROW-18351](https://issues.apache.org/jira/browse/ARROW-18351) - [C++][FlightRPC] Fix crash in DoExchange with UCX (#15031)
+* [ARROW-18353](https://issues.apache.org/jira/browse/ARROW-18353) - [C++][FlightRPC] Prevent concurrent Finish in UCX (#15034)
+* [ARROW-18360](https://issues.apache.org/jira/browse/ARROW-18360) - [Python] Don't crash when schema=None in FlightClient.do_put (#14698)
+* [ARROW-18374](https://issues.apache.org/jira/browse/ARROW-18374) - [Go][CI][Benchmarking] Fix Go benchmark github info (#14691)
+* [ARROW-18374](https://issues.apache.org/jira/browse/ARROW-18374) - [Go][CI][Benchmarking] Fix Go Bench Script after Conbench change (#14689)
+* [ARROW-18379](https://issues.apache.org/jira/browse/ARROW-18379) - [Python] Change warnings to _warnings in _plasma_store_entry_point (#14695)
+* [ARROW-18382](https://issues.apache.org/jira/browse/ARROW-18382) - [C++] Set ADDRESS_SANITIZER in fuzzing builds (#14702)
+* [ARROW-18383](https://issues.apache.org/jira/browse/ARROW-18383) - [C++] Avoid global variables for thread pools and at-fork handlers (#14704)
+* [ARROW-18389](https://issues.apache.org/jira/browse/ARROW-18389) - [CI][Python] Update nightly test-conda-python-3.7-pandas-0.24 to pandas >= 1.0 (#14714)
+* [ARROW-18390](https://issues.apache.org/jira/browse/ARROW-18390) - [CI][Python] Update spark test modules to match spark master (#14715)
+* [ARROW-18392](https://issues.apache.org/jira/browse/ARROW-18392) - [Python] Fix test_s3fs_wrong_region; set anonymous=True (#14716)
+* [ARROW-18394](https://issues.apache.org/jira/browse/ARROW-18394) - [Python][CI] Fix nightly job using pandas dev (temporarily skip tests) (#15048)
+* [ARROW-18397](https://issues.apache.org/jira/browse/ARROW-18397) - [C++] Clear S3 region resolver client at S3 shutdown (#14718)
+* [ARROW-18400](https://issues.apache.org/jira/browse/ARROW-18400) - [Python] Quadratic memory usage of Table.to\_pandas with nested data
+* [ARROW-18405](https://issues.apache.org/jira/browse/ARROW-18405) - [Ruby] Avoid rebuilding chunked arrays in Arrow::Table.new (#14738)
+* [ARROW-18412](https://issues.apache.org/jira/browse/ARROW-18412) - [C++][R] Windows build fails because of missing ChunkResolver symbols (#14774)
+* [ARROW-18424](https://issues.apache.org/jira/browse/ARROW-18424) - [C++] Fix Doxygen error on ARROW_ENGINE_EXPORT (#14845)
+* [ARROW-18429](https://issues.apache.org/jira/browse/ARROW-18429) - [R] : Bump dev version following 10.0.1 patch release (#14887)
+* [ARROW-18436](https://issues.apache.org/jira/browse/ARROW-18436) - [C++] Ensure correct (un)escaping of special characters in URI paths (#14974)
+* [ARROW-18437](https://issues.apache.org/jira/browse/ARROW-18437) - [C++][Parquet] Fix encoder for DELTA_BINARY_PACKED when flushing more than once (#14959)
+* [GH-14745](https://github.com/apache/arrow/issues/14745) - [R] {rlang} dependency must be at least version 1.0.0 because of check_dots_empty (#14744)
+* [GH-14775](https://github.com/apache/arrow/issues/14775) - [Go] Fix UnionBuilder.Len implementations (#14776)
+* [GH-14780](https://github.com/apache/arrow/issues/14780) - [Go] Fix issues with IPC writing of sliced map/list arrays (#14793)
+* [GH-14791](https://github.com/apache/arrow/issues/14791) - [JS] Fix BitmapBufferBuilder size truncation (#14881)
+* [GH-14805](https://github.com/apache/arrow/issues/14805) - [Format] C Data Interface: clarify nullability of buffer pointers (#14808)
+* [GH-14819](https://github.com/apache/arrow/issues/14819) - [CI][RPM] Add workaround for build failure on CentOS 9 Stream (#14820)
+* [GH-14828](https://github.com/apache/arrow/issues/14828) - [CI][Conda] Sync with conda-forge, fix nightly jobs (#14832)
+* [GH-14842](https://github.com/apache/arrow/issues/14842) - [C++] Propagate some errors in JSON chunker (#14843)
+* [GH-14849](https://github.com/apache/arrow/issues/14849) - [CI] R install-local builds sometimes fail because sccache times out (#14850)
+* [GH-14855](https://github.com/apache/arrow/issues/14855) - [C++] Support importing zero-case unions (#14857)
+* [GH-14856](https://github.com/apache/arrow/issues/14856) - [CI] Azure builds fail with docker permission error (#14858)
+* [GH-14865](https://github.com/apache/arrow/issues/14865) - [Go][Parquet] Address several memory leaks of buffers in pqarrow (#14878)
+* [GH-14872](https://github.com/apache/arrow/issues/14872) - [R] arrow returns wrong variable content when multiple group_by/summarise statements are used (#14905)
+* [GH-14875](https://github.com/apache/arrow/issues/14875) - [C++] C Data Interface: check imported buffer for non-null (#14814)
+* [GH-14876](https://github.com/apache/arrow/issues/14876) - [Go] Handling Crashes in C Data interface (#14877)
+* [GH-14883](https://github.com/apache/arrow/issues/14883) - [Go] Fix IPC encoding empty maps (#14904)
+* [GH-14883](https://github.com/apache/arrow/issues/14883) - [Go] ipc.Writer leaks memory when compressing body (#14892)
+* [GH-14884](https://github.com/apache/arrow/issues/14884) - [CI] R install resource may got 404 (#14893)
+* [GH-14890](https://github.com/apache/arrow/issues/14890) - [Java] Fix memory leak of DictionaryEncoder when exception thrown (#14891)
+* [GH-14907](https://github.com/apache/arrow/issues/14907) - [R] right_join() function does not produce the expected outcome (#15077)
+* [GH-14909](https://github.com/apache/arrow/issues/14909) - [Java] Prevent potential memory leak of ListSubfieldEncoder and StructSubfieldEncoder (#14910)
+* [GH-14916](https://github.com/apache/arrow/issues/14916) - [C++] Remove the API declaration about "ConcatenateBuffers" (#14915)
+* [GH-14927](https://github.com/apache/arrow/issues/14927) - [Dev] Crossbow submit does not work with fine grained PATs  (#14928)
+* [GH-14940](https://github.com/apache/arrow/issues/14940) - [Go][Parquet] Fix Encryption Column writing (#14954)
+* [GH-14943](https://github.com/apache/arrow/issues/14943) - [Python] Fix pyarrow.get_libraries() order (#14944)
+* [GH-14945](https://github.com/apache/arrow/issues/14945) - [Ruby] Add support for macOS 12 / Xcode 14 (#14960)
+* [GH-14947](https://github.com/apache/arrow/issues/14947) - [R] Compatibility with dplyr 1.1.0 (#14948)
+* [GH-14949](https://github.com/apache/arrow/issues/14949) - [CI][Release] Output script's stdout on failure (#14957)
+* [GH-14967](https://github.com/apache/arrow/issues/14967) - [R] Minimal nightly builds are failing (#14972)
+* [GH-14968](https://github.com/apache/arrow/issues/14968) - [Python] Fix segfault for dataset ORC write (#15049)
+* [GH-14990](https://github.com/apache/arrow/issues/14990) - [C++][Skyhook] Follow FileFormat API change (#15086)
+* [GH-14993](https://github.com/apache/arrow/issues/14993) - [CI][Conda] Fix missing RECIPE_ROOT variable now expected by conda build (#15014)
+* [GH-14995](https://github.com/apache/arrow/issues/14995) - [Go][FlightSQL] Fix Supported Unions Constant (#15003)
+* [GH-15001](https://github.com/apache/arrow/issues/15001) - [R] Fix Parquet datatype test failure (#15197)
+* [GH-15007](https://github.com/apache/arrow/issues/15007) - [CI][RPM] Ignore import failed key (#15008)
+* [GH-15023](https://github.com/apache/arrow/issues/15023) - [CI][Packaging][Java] Force to use libz3.a with Homebrew (#15024)
+* [GH-15025](https://github.com/apache/arrow/issues/15025) - [CI][C++][Homebrew] Ensure removing Python related commands (#15026)
+* [GH-15028](https://github.com/apache/arrow/issues/15028) - [R][Docs] `NOT_CRAN` should be `"true"` instead of `TRUE` in R (#15029)
+* [GH-15040](https://github.com/apache/arrow/issues/15040) - [C++] Improve pkg-config support for ARROW_BUILD_SHARED=OFF (#15075)
+* [GH-15042](https://github.com/apache/arrow/issues/15042) - [C++][Parquet] Update stats on subsequent batches of dictionaries (#15179)
+* [GH-15043](https://github.com/apache/arrow/issues/15043) - [Python][Docs] Update docstring for pyarrow.decompress (#15061)
+* [GH-15052](https://github.com/apache/arrow/issues/15052) - [C++][Parquet] Fix DELTA_BINARY_PACKED decoder when reading only one value (#15124)
+* [GH-15062](https://github.com/apache/arrow/issues/15062) - [C++] Simplify EnumParser behavior (#15063)
+* [GH-15064](https://github.com/apache/arrow/issues/15064) - [Python][CI] Dask nightly tests are failing due to fsspec bug (#15065)
+* [GH-15069](https://github.com/apache/arrow/issues/15069) - [C++][Python][FlightRPC] Make DoAction truly streaming (#15118)
+* [GH-15080](https://github.com/apache/arrow/issues/15080) - [CI][R] Re-enable binary package job for R 4.1 on Windows (#25359)
+* [GH-15092](https://github.com/apache/arrow/issues/15092) - [CI][C++][Homebrew] Ensure removing Python related commands (again) (#15093)
+* [GH-15094](https://github.com/apache/arrow/issues/15094) - [CI][Release][Ruby] Install Bundler by APT (#15095)
+* [GH-15110](https://github.com/apache/arrow/issues/15110) - [R][CI] Windows build fails in packaging job (#15111)
+* [GH-15114](https://github.com/apache/arrow/issues/15114) - [R][C++][CI] Homebrew can't install Python 3.11 on GHA runners (#15116)
+* [GH-15115](https://github.com/apache/arrow/issues/15115) - [R][CI] pyarrow tests fail on macos 10.13 due to missing pyarrow wheel (#15117)
+* [GH-15122](https://github.com/apache/arrow/issues/15122) - [Benchmarking][Python] Set ARROW_INSTALL_NAME_RPATH=ON for benchmark builds (#15123)
+* [GH-15126](https://github.com/apache/arrow/issues/15126) - [R] purrr::rerun was deprecated in purrr 1.0.0 (#15127)
+* [GH-15136](https://github.com/apache/arrow/issues/15136) - [Python][macOS] Use `@rpath` for libarrow_python.dylib (#15143)
+* [GH-15141](https://github.com/apache/arrow/issues/15141) - [C++] fix for unstable test due to unstable sort (#15142)
+* [GH-15150](https://github.com/apache/arrow/issues/15150) - [C++][FlightRPC] Wait for side effects in DoAction (#15152)
+* [GH-15156](https://github.com/apache/arrow/issues/15156) - [JS] Fix can't find variable: BigInt64Array (#15157)
+* [GH-15172](https://github.com/apache/arrow/issues/15172) - [Python] Docstring test failure (#15186)
+* [GH-15176](https://github.com/apache/arrow/issues/15176) - Fix various issues introduced in the asof-join benchmark by ARROW-17980 and ARROW-15732 (#15190)
+* [GH-15189](https://github.com/apache/arrow/issues/15189) - [R] Skip S3 tests on MacOS 10.13 (#33613)
+* [GH-15243](https://github.com/apache/arrow/issues/15243) - [C++] fix for potential deadlock in the group-by node (#33700)
+* [GH-15254](https://github.com/apache/arrow/issues/15254) - [GLib] garrow_execute_plain_wait() checks the finished status (#15255)
+* [GH-15259](https://github.com/apache/arrow/issues/15259) - [CI] component assignment fails due to typo (#15260)
+* [GH-15264](https://github.com/apache/arrow/issues/15264) - [C++] Add scanner tests for disabling readahead and fix relevant bugs (#29185)
+* [GH-15274](https://github.com/apache/arrow/issues/15274) - [Java][FlightRPC] handle null keystore password (#15276)
+* [GH-15282](https://github.com/apache/arrow/issues/15282) - [CI][C++] add CLANG_TOOLS variable in .travis.yaml (#32972)
+* [GH-15292](https://github.com/apache/arrow/issues/15292) - [C++] Typeclass alias is missing in ExtensionArray (#15293)
+* [GH-25633](https://github.com/apache/arrow/issues/25633) - [CI][Java][macOS] Ensure using bundled RE2 (#33711)
+* [GH-26209](https://github.com/apache/arrow/issues/26209) - [Ruby] Add support for Ruby 2.5 (#33602)
+* [GH-26394](https://github.com/apache/arrow/issues/26394) - [Python] Don't use target_include_directories() for imported target (#33606)
+* [GH-33626](https://github.com/apache/arrow/issues/33626) - [Packaging][RPM] Don't remove metadata for non-target arch (#33672)
+* [GH-33638](https://github.com/apache/arrow/issues/33638) - [C++] Removing ExecPlan::Make deprecation warning (#33658)
+* [GH-33643](https://github.com/apache/arrow/issues/33643) - [C++] Remove implicit = capture of this which is not valid in c++20 (#33644)
+* [GH-33666](https://github.com/apache/arrow/issues/33666) - [R] Remove extraneous argument to semi_join (#33693)
+* [GH-33667](https://github.com/apache/arrow/issues/33667) - [C++][CI] Use Ubuntu 22.04 for ASAN (#33669)
+* [GH-33687](https://github.com/apache/arrow/issues/33687) - [Dev] Fix commit message generation in merge script (#33691)
+* [GH-33705](https://github.com/apache/arrow/issues/33705) - [R] Fix link on README (#33706)
+
+
+
 # Apache Arrow 6.0.1 (2021-11-18)
 
 ## Bug Fixes
diff --git a/CONTRIBUTING.md b/CONTRIBUTING.md
index 55e9891945d..a1c473a24bf 100644
--- a/CONTRIBUTING.md
+++ b/CONTRIBUTING.md
@@ -21,42 +21,35 @@
 
 ## Did you find a bug?
 
-The Arrow project uses JIRA as a bug tracker.  To report a bug, you'll have
-to first create an account on the
-[Apache Foundation JIRA](https://issues.apache.org/jira/).  The JIRA server
-hosts bugs and issues for multiple Apache projects.  The JIRA project name
-for Arrow is "ARROW".
-
-To be assigned to an issue, ask an Arrow JIRA admin to go to
-[Arrow Roles](https://issues.apache.org/jira/plugins/servlet/project-config/ARROW/roles),
-click "Add users to a role," and add you to the "Contributor" role.  Most
-committers are authorized to do this; if you're a committer and aren't
-able to load that project admin page, have someone else add you to the
-necessary role.
-
-Before you create a new bug entry, we recommend you first
-[search](https://issues.apache.org/jira/projects/ARROW/issues/ARROW-5140?filter=allopenissues)
-among existing Arrow issues.
-
-When you create a new JIRA entry, please don't forget to fill the "Component"
-field.  Arrow has many subcomponents and this helps triaging and filtering
-tremendously.  Also, we conventionally prefix the issue title with the component
-name in brackets, such as "[C++] Crash in Array::Frobnicate()", so as to make
-lists more easy to navigate, and we'd be grateful if you did the same.
+The Arrow project uses GitHub as a bug tracker.  To report a bug, sign in to
+your GitHub account, navigate to [GitHub issues](https://github.com/apache/arrow/issues)
+and click on **New issue** .
+
+To be assigned to an issue, add a comment "take" to that issue.
+
+Before you create a new bug entry, we recommend you first search among existing
+Arrow issues in
+[Jira](https://issues.apache.org/jira/issues/?jql=project%20%3D%20ARROW%20AND%20status%20%3D%20Open)
+or [GitHub](https://github.com/apache/arrow/issues).
+
+We conventionally prefix the issue title with the component
+name in brackets, such as "[C++][Python] Ensure no validity bitmap in
+UnionArray::SetData", so as to make lists more easy to navigate, and
+we'd be grateful if you did the same.
 
 ## Did you write a patch that fixes a bug or brings an improvement?
 
-First create a JIRA entry as described above.  Then, submit your changes
-as a GitHub Pull Request.  We'll ask you to prefix the pull request title
-with the JIRA issue number and the component name in brackets.
-(for example: "ARROW-2345: [C++] Fix crash in Array::Frobnicate()").
-Respecting this convention makes it easier for us to process the backlog
-of submitted Pull Requests.
+First create a GitHub issue as described above, selecting **Bug Report** or
+**Enhancement Request**. Then, submit your changes as a GitHub Pull Request.
+We'll ask you to prefix the pull request title with the GitHub issue number
+and the component name in brackets. (for example: "GH-14736: [C++][Python]
+Ensure no validity bitmap in UnionArray::SetData"). Respecting this convention
+makes it easier for us to process the backlog of submitted Pull Requests.
 
 ### Minor Fixes
 
-Any functionality change should have a JIRA opened.  For minor changes that
-affect documentation, you do not need to open up a JIRA.  Instead you can
+Any functionality change should have a GitHub issue opened. For minor changes that
+affect documentation, you do not need to open up a GitHub issue. Instead you can
 prefix the title of your PR with "MINOR: " if meets the following guidelines:
 
 *  Grammar, usage and spelling fixes that affect no more than 2 files
diff --git a/LICENSE.txt b/LICENSE.txt
index 843cf4f6a5e..86cfaf546ca 100644
--- a/LICENSE.txt
+++ b/LICENSE.txt
@@ -653,34 +653,6 @@ SOFTWARE.
 
 --------------------------------------------------------------------------------
 
-The file cpp/src/arrow/vendored/string_view.hpp has the following license
-
-Boost Software License - Version 1.0 - August 17th, 2003
-
-Permission is hereby granted, free of charge, to any person or organization
-obtaining a copy of the software and accompanying documentation covered by
-this license (the "Software") to use, reproduce, display, distribute,
-execute, and transmit the Software, and to prepare derivative works of the
-Software, and to permit third-parties to whom the Software is furnished to
-do so, all subject to the following:
-
-The copyright notices in the Software and this entire statement, including
-the above license grant, this restriction and the following disclaimer,
-must be included in all copies of the Software, in whole or in part, and
-all derivative works of the Software, unless such copies or derivative
-works are solely in the form of machine-executable object code generated by
-a source language processor.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE, TITLE AND NON-INFRINGEMENT. IN NO EVENT
-SHALL THE COPYRIGHT HOLDERS OR ANYONE DISTRIBUTING THE SOFTWARE BE LIABLE
-FOR ANY DAMAGES OR OTHER LIABILITY, WHETHER IN CONTRACT, TORT OR OTHERWISE,
-ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
-DEALINGS IN THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
 The files in cpp/src/arrow/vendored/xxhash/ have the following license
 (BSD 2-Clause License)
 
@@ -1990,12 +1962,14 @@ for PyArrow. Ibis is released under the Apache License, Version 2.0.
 
 This project includes code from the autobrew project.
 
-* r/tools/autobrew and dev/tasks/homebrew-formulae/autobrew/apache-arrow.rb
-  are based on code from the autobrew project.
+The following files are based on code from the autobrew project:
+* r/tools/autobrew
+* dev/tasks/homebrew-formulae/autobrew/apache-arrow.rb
+* dev/tasks/homebrew-formulae/autobrew/apache-arrow-static.rb 
 
 Copyright (c) 2019, Jeroen Ooms
 License: MIT
-Homepage: https://github.com/jeroen/autobrew
+Homepage: https://github.com/autobrew/
 
 --------------------------------------------------------------------------------
 
@@ -2057,34 +2031,6 @@ René Nyffenegger rene.nyffenegger@adp-gmbh.ch
 
 --------------------------------------------------------------------------------
 
-The file cpp/src/arrow/vendored/optional.hpp has the following license
-
-Boost Software License - Version 1.0 - August 17th, 2003
-
-Permission is hereby granted, free of charge, to any person or organization
-obtaining a copy of the software and accompanying documentation covered by
-this license (the "Software") to use, reproduce, display, distribute,
-execute, and transmit the Software, and to prepare derivative works of the
-Software, and to permit third-parties to whom the Software is furnished to
-do so, all subject to the following:
-
-The copyright notices in the Software and this entire statement, including
-the above license grant, this restriction and the following disclaimer,
-must be included in all copies of the Software, in whole or in part, and
-all derivative works of the Software, unless such copies or derivative
-works are solely in the form of machine-executable object code generated by
-a source language processor.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE, TITLE AND NON-INFRINGEMENT. IN NO EVENT
-SHALL THE COPYRIGHT HOLDERS OR ANYONE DISTRIBUTING THE SOFTWARE BE LIABLE
-FOR ANY DAMAGES OR OTHER LIABILITY, WHETHER IN CONTRACT, TORT OR OTHERWISE,
-ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
-DEALINGS IN THE SOFTWARE.
-
---------------------------------------------------------------------------------
-
 This project includes code from Folly.
 
  * cpp/src/arrow/vendored/ProducerConsumerQueue.h
diff --git a/README.md b/README.md
index 7d10b81c6e4..9c4c143e6ca 100644
--- a/README.md
+++ b/README.md
@@ -93,12 +93,12 @@ integrations in other projects, we'd be happy to have you involved:
 - Join the mailing list: send an email to
   [dev-subscribe@arrow.apache.org][1]. Share your ideas and use cases for the
   project.
-- [Follow our activity on JIRA][3]
+- Follow our activity on [GitHub issues][3]
 - [Learn the format][2]
 - Contribute code to one of the reference implementations
 
 [1]: mailto:dev-subscribe@arrow.apache.org
 [2]: https://github.com/apache/arrow/tree/master/format
-[3]: https://issues.apache.org/jira/browse/ARROW
+[3]: https://github.com/apache/arrow/issues
 [4]: https://github.com/apache/arrow
 [5]: https://github.com/apache/arrow/blob/master/docs/source/developers/contributing.rst
diff --git a/appveyor.yml b/appveyor.yml
index 03a3597c9b7..fafc6952d87 100644
--- a/appveyor.yml
+++ b/appveyor.yml
@@ -16,7 +16,7 @@
 # under the License.
 
 # Operating system (build VM template)
-os: Visual Studio 2017
+os: Visual Studio 2019
 
 only_commits:
   # Skip commits not related to Python or C++
@@ -29,42 +29,24 @@ only_commits:
     - python/
 
 cache:
-  - C:\Users\Appveyor\clcache1
+  - C:\Users\appveyor\AppData\Local\ccache
 
 matrix:
   fast_finish: true
 
 environment:
   global:
-    # Make these variables visible in all jobs and build steps
-    MSVC_DEFAULT_OPTIONS: ON
     APPVEYOR_SAVE_CACHE_ON_ERROR: true
-    # Change the clcache dir to reset caches everywhere when a setting
-    # is changed incompatibly (e.g. CLCACHE_COMPRESS).
-    CLCACHE_DIR: C:\Users\Appveyor\clcache1
-    CLCACHE_SERVER: 1
-    CLCACHE_COMPRESS: 1
-    CLCACHE_COMPRESSLEVEL: 6
-    ARROW_BUILD_FLIGHT: "OFF"
-    ARROW_BUILD_FLIGHT_SQL: "OFF"
-    ARROW_BUILD_GANDIVA: "OFF"
-    ARROW_LLVM_VERSION: "7.0.*"
-    ARROW_S3: "OFF"
-    PYTHON: "3.8"
-    ARCH: "64"
+    MSVC_DEFAULT_OPTIONS: ON
 
-  matrix:
-    # NOTE: clcache seems to work best with Ninja and worst with msbuild
-    # (as generated by cmake)
-    - JOB: "Toolchain"
-      GENERATOR: Ninja
-      ARROW_GCS: "ON"
-      ARROW_S3: "ON"
-      ARROW_BUILD_FLIGHT: "ON"
-      ARROW_BUILD_FLIGHT_SQL: "ON"
-      ARROW_BUILD_GANDIVA: "ON"
-    - JOB: "Build_Debug"
-      GENERATOR: Ninja
+    ARCH: "64"
+    ARROW_BUILD_FLIGHT: "ON"
+    ARROW_BUILD_FLIGHT_SQL: "ON"
+    ARROW_BUILD_GANDIVA: "ON"
+    ARROW_GCS: "ON"
+    ARROW_S3: "ON"
+    GENERATOR: Ninja
+    PYTHON: "3.10"
 
 before_build:
   - call ci\appveyor-cpp-setup.bat
@@ -76,4 +58,4 @@ build_script:
 test: off
 
 after_build:
-  - clcache -s
+  - ccache -s
diff --git a/c_glib/Brewfile b/c_glib/Brewfile
index b743508f400..5ab50203696 100644
--- a/c_glib/Brewfile
+++ b/c_glib/Brewfile
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-brew "autoconf-archive"
-brew "glib-utils"
 brew "gobject-introspection"
 brew "gtk-doc"
 brew "libtool"
diff --git a/c_glib/arrow-dataset-glib/dataset-factory.cpp b/c_glib/arrow-dataset-glib/dataset-factory.cpp
index 1e532760a27..97cab555420 100644
--- a/c_glib/arrow-dataset-glib/dataset-factory.cpp
+++ b/c_glib/arrow-dataset-glib/dataset-factory.cpp
@@ -19,6 +19,7 @@
 
 #include <arrow-glib/error.hpp>
 #include <arrow-glib/file-system.hpp>
+#include <arrow-glib/schema.hpp>
 
 #include <arrow-dataset-glib/dataset-factory.hpp>
 #include <arrow-dataset-glib/dataset.hpp>
@@ -33,6 +34,8 @@ G_BEGIN_DECLS
  * @title: Dataset factory related classes
  * @include: arrow-dataset-glib/arrow-dataset-glib.h
  *
+ * #GADatasetFinishOptions is a class for gadataset_factory_finish().
+ *
  * #GADatasetDatasetFactory is a base class for dataset factories.
  *
  * #GADatasetFileSystemDatasetFactory is a class for
@@ -41,6 +44,203 @@ G_BEGIN_DECLS
  * Since: 5.0.0
  */
 
+struct GADatasetFinishOptionsPrivate {
+  arrow::dataset::FinishOptions options;
+  GArrowSchema *schema;
+};
+
+enum {
+  PROP_FINISH_OPTIONS = 1,
+  PROP_SCHEMA,
+  PROP_INSPECT_N_FRAGMENTS,
+  PROP_VALIDATE_FRAGMENTS,
+};
+
+G_DEFINE_TYPE_WITH_PRIVATE(GADatasetFinishOptions,
+                           gadataset_finish_options,
+                           G_TYPE_OBJECT)
+
+#define GADATASET_FINISH_OPTIONS_GET_PRIVATE(obj)        \
+  static_cast<GADatasetFinishOptionsPrivate *>(          \
+    gadataset_finish_options_get_instance_private(       \
+      GADATASET_FINISH_OPTIONS(obj)))
+
+static void
+gadataset_finish_options_finalize(GObject *object)
+{
+  auto priv = GADATASET_FINISH_OPTIONS_GET_PRIVATE(object);
+  priv->options.~FinishOptions();
+  G_OBJECT_CLASS(gadataset_finish_options_parent_class)->finalize(object);
+}
+
+static void
+gadataset_finish_options_dispose(GObject *object)
+{
+  auto priv = GADATASET_FINISH_OPTIONS_GET_PRIVATE(object);
+  if (priv->schema) {
+    g_object_unref(priv->schema);
+    priv->schema = nullptr;
+  }
+  G_OBJECT_CLASS(gadataset_finish_options_parent_class)->dispose(object);
+}
+
+static void
+gadataset_finish_options_set_property(GObject *object,
+                                      guint prop_id,
+                                      const GValue *value,
+                                      GParamSpec *pspec)
+{
+  auto priv = GADATASET_FINISH_OPTIONS_GET_PRIVATE(object);
+
+  switch (prop_id) {
+  case PROP_FINISH_OPTIONS:
+    {
+      auto arrow_finish_options =
+        static_cast<arrow::dataset::FinishOptions *>(g_value_get_pointer(value));
+      if (arrow_finish_options) {
+        priv->options = *arrow_finish_options;
+        if (priv->options.schema) {
+          priv->schema = garrow_schema_new_raw(&(priv->options.schema));
+        }
+      }
+    }
+    break;
+  case PROP_SCHEMA:
+    if (priv->schema != g_value_get_object(value)) {
+      auto schema_previous = priv->schema;
+      auto schema = g_value_dup_object(value);
+      if (schema) {
+        priv->schema = GARROW_SCHEMA(schema);
+        priv->options.schema = garrow_schema_get_raw(priv->schema);
+      } else {
+        priv->schema = nullptr;
+        priv->options.schema = nullptr;
+      }
+      if (schema_previous) {
+        g_object_unref(schema_previous);
+      }
+    }
+    break;
+  case PROP_INSPECT_N_FRAGMENTS:
+    priv->options.inspect_options.fragments = g_value_get_int(value);
+    break;
+  case PROP_VALIDATE_FRAGMENTS:
+    priv->options.validate_fragments = g_value_get_boolean(value);
+    break;
+  default:
+    G_OBJECT_WARN_INVALID_PROPERTY_ID(object, prop_id, pspec);
+    break;
+  }
+}
+
+static void
+gadataset_finish_options_get_property(GObject *object,
+                                      guint prop_id,
+                                      GValue *value,
+                                      GParamSpec *pspec)
+{
+  auto priv = GADATASET_FINISH_OPTIONS_GET_PRIVATE(object);
+
+  switch (prop_id) {
+  case PROP_SCHEMA:
+    g_value_set_object(value, priv->schema);
+    break;
+  case PROP_INSPECT_N_FRAGMENTS:
+    g_value_set_int(value, priv->options.inspect_options.fragments);
+    break;
+  case PROP_VALIDATE_FRAGMENTS:
+    g_value_set_boolean(value, priv->options.validate_fragments);
+    break;
+  default:
+    G_OBJECT_WARN_INVALID_PROPERTY_ID(object, prop_id, pspec);
+    break;
+  }
+}
+
+static void
+gadataset_finish_options_init(GADatasetFinishOptions *object)
+{
+  auto priv = GADATASET_FINISH_OPTIONS_GET_PRIVATE(object);
+  new(&priv->options) arrow::dataset::FinishOptions;
+}
+
+static void
+gadataset_finish_options_class_init(GADatasetFinishOptionsClass *klass)
+{
+  auto gobject_class = G_OBJECT_CLASS(klass);
+  gobject_class->finalize = gadataset_finish_options_finalize;
+  gobject_class->dispose = gadataset_finish_options_dispose;
+  gobject_class->set_property = gadataset_finish_options_set_property;
+  gobject_class->get_property = gadataset_finish_options_get_property;
+
+  GParamSpec *spec;
+  spec = g_param_spec_pointer("finish-options",
+                              "Finish options",
+                              "The raw arrow::dataset::FinishOptions *",
+                              static_cast<GParamFlags>(G_PARAM_WRITABLE |
+                                                       G_PARAM_CONSTRUCT_ONLY));
+  g_object_class_install_property(gobject_class, PROP_FINISH_OPTIONS, spec);
+
+  /**
+   * GADatasetFinishOptions:schema:
+   *
+   * The schema to finalize the dataset's schema.
+   *
+   * Since: 11.0.0
+   */
+  spec = g_param_spec_object("schema",
+                             "Schema",
+                             "The schema to finalize the dataset's schema",
+                             GARROW_TYPE_SCHEMA,
+                             static_cast<GParamFlags>(G_PARAM_READWRITE));
+  g_object_class_install_property(gobject_class, PROP_SCHEMA, spec);
+
+  arrow::dataset::FinishOptions finish_options;
+  /**
+   * GADatasetFinishOptions:inspect-n-fragments:
+   *
+   * The number of fragments to be used to inspect schema.
+   *
+   * Since: 11.0.0
+   */
+  spec = g_param_spec_int("inspect-n-fragments",
+                          "Inspect N fragments",
+                          "The number of fragments to be used to inspect schema",
+                          arrow::dataset::InspectOptions::kInspectAllFragments,
+                          G_MAXINT,
+                          finish_options.inspect_options.fragments,
+                          static_cast<GParamFlags>(G_PARAM_READWRITE));
+  g_object_class_install_property(gobject_class, PROP_INSPECT_N_FRAGMENTS, spec);
+
+  /**
+   * GADatasetFinishOptions:validate-fragments:
+   *
+   * Whether validate fragments against the given schema or not.
+   *
+   * Since: 11.0.0
+   */
+  spec = g_param_spec_boolean("validate-fragments",
+                              "Validate fragments",
+                              "Whether validate fragments or not",
+                              finish_options.validate_fragments,
+                              static_cast<GParamFlags>(G_PARAM_READWRITE));
+  g_object_class_install_property(gobject_class, PROP_VALIDATE_FRAGMENTS, spec);
+}
+
+/**
+ * gadataset_finish_options_new:
+ *
+ * Returns: A newly created #GADatasetDataset.
+ *
+ * Since: 11.0.0
+ */
+GADatasetFinishOptions *
+gadataset_finish_options_new(void)
+{
+  return gadataset_finish_options_new_raw(nullptr);
+}
+
+
 typedef struct GADatasetDatasetFactoryPrivate_ {
   std::shared_ptr<arrow::dataset::DatasetFactory> factory;
 } GADatasetDatasetFactoryPrivate;
@@ -118,6 +318,7 @@ gadataset_dataset_factory_class_init(GADatasetDatasetFactoryClass *klass)
 /**
  * gadataset_dataset_factory_finish:
  * @factory: A #GADatasetDatasetFactory.
+ * @options: (nullable): A #GADatasetFinishOptions.
  * @error: (nullable): Return location for a #GError or %NULL.
  *
  * Returns: (transfer full) (nullable):
@@ -127,10 +328,15 @@ gadataset_dataset_factory_class_init(GADatasetDatasetFactoryClass *klass)
  */
 GADatasetDataset *
 gadataset_dataset_factory_finish(GADatasetDatasetFactory *factory,
+                                 GADatasetFinishOptions *options,
                                  GError **error)
 {
   auto arrow_factory = gadataset_dataset_factory_get_raw(factory);
-  auto arrow_dataset_result = arrow_factory->Finish();
+  arrow::dataset::FinishOptions arrow_options;
+  if (options) {
+    arrow_options = *gadataset_finish_options_get_raw(options);
+  }
+  auto arrow_dataset_result = arrow_factory->Finish(arrow_options);
   if (garrow::check(error, arrow_dataset_result, "[dataset-factory][finish]")) {
     auto arrow_dataset = *arrow_dataset_result;
     return gadataset_dataset_new_raw(&arrow_dataset);
@@ -474,6 +680,7 @@ gadataset_file_system_dataset_factory_add_path(
 /**
  * gadataset_file_system_dataset_factory_finish:
  * @factory: A #GADatasetFileSystemDatasetFactory.
+ * @options: (nullable): A #GADatasetFinishOptions.
  * @error: (nullable): Return location for a #GError or %NULL.
  *
  * Returns: (transfer full) (nullable):
@@ -484,6 +691,7 @@ gadataset_file_system_dataset_factory_add_path(
 GADatasetFileSystemDataset *
 gadataset_file_system_dataset_factory_finish(
   GADatasetFileSystemDatasetFactory *factory,
+  GADatasetFinishOptions *options,
   GError **error)
 {
   const gchar *context = "[file-system-dataset-factory][finish]";
@@ -527,7 +735,11 @@ gadataset_file_system_dataset_factory_finish(
   if (!garrow::check(error, arrow_factory_result, context)) {
     return NULL;
   }
-  auto arrow_dataset_result = (*arrow_factory_result)->Finish();
+  arrow::dataset::FinishOptions arrow_options;
+  if (options) {
+    arrow_options = *gadataset_finish_options_get_raw(options);
+  }
+  auto arrow_dataset_result = (*arrow_factory_result)->Finish(arrow_options);
   if (!garrow::check(error, arrow_dataset_result, context)) {
     return NULL;
   }
@@ -544,6 +756,21 @@ gadataset_file_system_dataset_factory_finish(
 
 G_END_DECLS
 
+GADatasetFinishOptions *
+gadataset_finish_options_new_raw(arrow::dataset::FinishOptions *options)
+{
+  return GADATASET_FINISH_OPTIONS(g_object_new(GADATASET_TYPE_FINISH_OPTIONS,
+                                               "finish-options", options,
+                                               NULL));
+}
+
+arrow::dataset::FinishOptions *
+gadataset_finish_options_get_raw(GADatasetFinishOptions *options)
+{
+  auto priv = GADATASET_FINISH_OPTIONS_GET_PRIVATE(options);
+  return &(priv->options);
+}
+
 std::shared_ptr<arrow::dataset::DatasetFactory>
 gadataset_dataset_factory_get_raw(GADatasetDatasetFactory *factory)
 {
diff --git a/c_glib/arrow-dataset-glib/dataset-factory.h b/c_glib/arrow-dataset-glib/dataset-factory.h
index e2ee3ed9806..292a9ca70dd 100644
--- a/c_glib/arrow-dataset-glib/dataset-factory.h
+++ b/c_glib/arrow-dataset-glib/dataset-factory.h
@@ -23,6 +23,21 @@
 
 G_BEGIN_DECLS
 
+#define GADATASET_TYPE_FINISH_OPTIONS (gadataset_finish_options_get_type())
+G_DECLARE_DERIVABLE_TYPE(GADatasetFinishOptions,
+                         gadataset_finish_options,
+                         GADATASET,
+                         FINISH_OPTIONS,
+                         GObject)
+struct _GADatasetFinishOptionsClass
+{
+  GObjectClass parent_class;
+};
+
+GARROW_AVAILABLE_IN_11_0
+GADatasetFinishOptions *
+gadataset_finish_options_new(void);
+
 #define GADATASET_TYPE_DATASET_FACTORY (gadataset_dataset_factory_get_type())
 G_DECLARE_DERIVABLE_TYPE(GADatasetDatasetFactory,
                          gadataset_dataset_factory,
@@ -37,6 +52,7 @@ struct _GADatasetDatasetFactoryClass
 GARROW_AVAILABLE_IN_5_0
 GADatasetDataset *
 gadataset_dataset_factory_finish(GADatasetDatasetFactory *factory,
+                                 GADatasetFinishOptions *options,
                                  GError **error);
 
 
@@ -92,6 +108,7 @@ GARROW_AVAILABLE_IN_5_0
 GADatasetFileSystemDataset *
 gadataset_file_system_dataset_factory_finish(
   GADatasetFileSystemDatasetFactory *factory,
+  GADatasetFinishOptions *options,
   GError **error);
 
 
diff --git a/c_glib/arrow-dataset-glib/dataset-factory.hpp b/c_glib/arrow-dataset-glib/dataset-factory.hpp
index 114db35bc59..6ff68945ad1 100644
--- a/c_glib/arrow-dataset-glib/dataset-factory.hpp
+++ b/c_glib/arrow-dataset-glib/dataset-factory.hpp
@@ -23,5 +23,10 @@
 
 #include <arrow-dataset-glib/dataset-factory.h>
 
+GADatasetFinishOptions *
+gadataset_finish_options_new_raw(arrow::dataset::FinishOptions *arrow_options);
+arrow::dataset::FinishOptions *
+gadataset_finish_options_get_raw(GADatasetFinishOptions *options);
+
 std::shared_ptr<arrow::dataset::DatasetFactory>
 gadataset_dataset_factory_get_raw(GADatasetDatasetFactory *factory);
diff --git a/c_glib/arrow-dataset-glib/partitioning.cpp b/c_glib/arrow-dataset-glib/partitioning.cpp
index bce33671a35..296895ebaab 100644
--- a/c_glib/arrow-dataset-glib/partitioning.cpp
+++ b/c_glib/arrow-dataset-glib/partitioning.cpp
@@ -32,67 +32,80 @@ G_BEGIN_DECLS
  * @title: Partitioning classes
  * @include: arrow-dataset-glib/arrow-dataset-glib.h
  *
- * #GADatasetPartitioningOptions is a class for partitioning options.
+ * #GADatasetPartitioningFactoryOptions is a class for partitioning
+ * factory options.
  *
  * #GADatasetPartitioning is a base class for partitioning classes
  * such as #GADatasetDirectoryPartitioning.
  *
+ * #GADatasetDefaultPartitioning is a class for partitioning that
+ * doesn't partition.
+ *
+ * #GADatasetKeyValuePartitioningOptions is a class for key-value
+ * partitioning options.
+ *
  * #GADatasetKeyValuePartitioning is a base class for key-value style
  * partitioning classes such as #GADatasetDirectoryPartitioning.
  *
  * #GADatasetDirectoryPartitioning is a class for partitioning that
  * uses directory structure.
  *
+ * #GADatasetHivePartitioningOptions is a class for Hive-style
+ * partitioning options.
+ *
+ * #GADatasetHivePartitioning is a class for partitioning that
+ * uses Hive-style partitioning.
+ *
  * Since: 6.0.0
  */
 
-typedef struct GADatasetPartitioningOptionsPrivate_ {
+struct GADatasetPartitioningFactoryOptionsPrivate {
   gboolean infer_dictionary;
   GArrowSchema *schema;
   GADatasetSegmentEncoding segment_encoding;
-} GADatasetPartitioningOptionsPrivate;
+};
 
 enum {
-  PROP_INFER_DICTIONARY = 1,
-  PROP_SCHEMA,
-  PROP_SEGMENT_ENCODING,
+  PROP_FACTORY_OPTIONS_INFER_DICTIONARY = 1,
+  PROP_FACTORY_OPTIONS_SCHEMA,
+  PROP_FACTORY_OPTIONS_SEGMENT_ENCODING,
 };
 
-G_DEFINE_TYPE_WITH_PRIVATE(GADatasetPartitioningOptions,
-                           gadataset_partitioning_options,
+G_DEFINE_TYPE_WITH_PRIVATE(GADatasetPartitioningFactoryOptions,
+                           gadataset_partitioning_factory_options,
                            G_TYPE_OBJECT)
 
-#define GADATASET_PARTITIONING_OPTIONS_GET_PRIVATE(obj)         \
-  static_cast<GADatasetPartitioningOptionsPrivate *>(           \
-    gadataset_partitioning_options_get_instance_private(        \
-      GADATASET_PARTITIONING_OPTIONS(obj)))
+#define GADATASET_PARTITIONING_FACTORY_OPTIONS_GET_PRIVATE(obj)         \
+  static_cast<GADatasetPartitioningFactoryOptionsPrivate *>(            \
+    gadataset_partitioning_factory_options_get_instance_private(        \
+      GADATASET_PARTITIONING_FACTORY_OPTIONS(obj)))
 
 static void
-gadataset_partitioning_options_dispose(GObject *object)
+gadataset_partitioning_factory_options_dispose(GObject *object)
 {
-  auto priv = GADATASET_PARTITIONING_OPTIONS_GET_PRIVATE(object);
+  auto priv = GADATASET_PARTITIONING_FACTORY_OPTIONS_GET_PRIVATE(object);
 
   if (priv->schema) {
     g_object_unref(priv->schema);
     priv->schema = nullptr;
   }
 
-  G_OBJECT_CLASS(gadataset_partitioning_options_parent_class)->dispose(object);
+  G_OBJECT_CLASS(gadataset_partitioning_factory_options_parent_class)->dispose(object);
 }
 
 static void
-gadataset_partitioning_options_set_property(GObject *object,
-                                            guint prop_id,
-                                            const GValue *value,
-                                            GParamSpec *pspec)
+gadataset_partitioning_factory_options_set_property(GObject *object,
+                                                    guint prop_id,
+                                                    const GValue *value,
+                                                    GParamSpec *pspec)
 {
-  auto priv = GADATASET_PARTITIONING_OPTIONS_GET_PRIVATE(object);
+  auto priv = GADATASET_PARTITIONING_FACTORY_OPTIONS_GET_PRIVATE(object);
 
   switch (prop_id) {
-  case PROP_INFER_DICTIONARY:
+  case PROP_FACTORY_OPTIONS_INFER_DICTIONARY:
     priv->infer_dictionary = g_value_get_boolean(value);
     break;
-  case PROP_SCHEMA:
+  case PROP_FACTORY_OPTIONS_SCHEMA:
     {
       auto schema = g_value_get_object(value);
       if (priv->schema == schema) {
@@ -103,14 +116,14 @@ gadataset_partitioning_options_set_property(GObject *object,
         g_object_ref(schema);
         priv->schema = GARROW_SCHEMA(schema);
       } else {
-        priv->schema = NULL;
+        priv->schema = nullptr;
       }
       if (old_schema) {
         g_object_unref(old_schema);
       }
     }
     break;
-  case PROP_SEGMENT_ENCODING:
+  case PROP_FACTORY_OPTIONS_SEGMENT_ENCODING:
     priv->segment_encoding =
       static_cast<GADatasetSegmentEncoding>(g_value_get_enum(value));
     break;
@@ -121,21 +134,21 @@ gadataset_partitioning_options_set_property(GObject *object,
 }
 
 static void
-gadataset_partitioning_options_get_property(GObject *object,
-                                            guint prop_id,
-                                            GValue *value,
-                                            GParamSpec *pspec)
+gadataset_partitioning_factory_options_get_property(GObject *object,
+                                                    guint prop_id,
+                                                    GValue *value,
+                                                    GParamSpec *pspec)
 {
-  auto priv = GADATASET_PARTITIONING_OPTIONS_GET_PRIVATE(object);
+  auto priv = GADATASET_PARTITIONING_FACTORY_OPTIONS_GET_PRIVATE(object);
 
   switch (prop_id) {
-  case PROP_INFER_DICTIONARY:
+  case PROP_FACTORY_OPTIONS_INFER_DICTIONARY:
     g_value_set_boolean(value, priv->infer_dictionary);
     break;
-  case PROP_SCHEMA:
+  case PROP_FACTORY_OPTIONS_SCHEMA:
     g_value_set_object(value, priv->schema);
     break;
-  case PROP_SEGMENT_ENCODING:
+  case PROP_FACTORY_OPTIONS_SEGMENT_ENCODING:
     g_value_set_enum(value, priv->segment_encoding);
     break;
   default:
@@ -145,24 +158,27 @@ gadataset_partitioning_options_get_property(GObject *object,
 }
 
 static void
-gadataset_partitioning_options_init(GADatasetPartitioningOptions *object)
+gadataset_partitioning_factory_options_init(
+  GADatasetPartitioningFactoryOptions *object)
 {
 }
 
 static void
-gadataset_partitioning_options_class_init(
-  GADatasetPartitioningOptionsClass *klass)
+gadataset_partitioning_factory_options_class_init(
+  GADatasetPartitioningFactoryOptionsClass *klass)
 {
   auto gobject_class = G_OBJECT_CLASS(klass);
 
-  gobject_class->dispose = gadataset_partitioning_options_dispose;
-  gobject_class->set_property = gadataset_partitioning_options_set_property;
-  gobject_class->get_property = gadataset_partitioning_options_get_property;
+  gobject_class->dispose = gadataset_partitioning_factory_options_dispose;
+  gobject_class->set_property =
+    gadataset_partitioning_factory_options_set_property;
+  gobject_class->get_property =
+    gadataset_partitioning_factory_options_get_property;
 
   arrow::dataset::PartitioningFactoryOptions default_options;
   GParamSpec *spec;
   /**
-   * GADatasetPartitioningOptions:infer-dictionary:
+   * GADatasetPartitioningFactoryOptions:infer-dictionary:
    *
    * When inferring a schema for partition fields, yield dictionary
    * encoded types instead of plain. This can be more efficient when
@@ -170,7 +186,7 @@ gadataset_partitioning_options_class_init(
    * finished Partitioning will include dictionaries of all unique
    * inspected values for each field.
    *
-   * Since: 6.0.0
+   * Since: 11.0.0
    */
   spec = g_param_spec_boolean("infer-dictionary",
                               "Infer dictionary",
@@ -178,16 +194,18 @@ gadataset_partitioning_options_class_init(
                               "dictionary",
                               default_options.infer_dictionary,
                               static_cast<GParamFlags>(G_PARAM_READWRITE));
-  g_object_class_install_property(gobject_class, PROP_INFER_DICTIONARY, spec);
+  g_object_class_install_property(gobject_class,
+                                  PROP_FACTORY_OPTIONS_INFER_DICTIONARY,
+                                  spec);
 
   /**
-   * GADatasetPartitioningOptions:schema:
+   * GADatasetPartitioningFactoryOptions:schema:
    *
    * Optionally, an expected schema can be provided, in which case
    * inference will only check discovered fields against the schema
    * and update internal state (such as dictionaries).
    *
-   * Since: 6.0.0
+   * Since: 11.0.0
    */
   spec = g_param_spec_object("schema",
                              "Schema",
@@ -195,15 +213,17 @@ gadataset_partitioning_options_class_init(
                              "against the schema and update internal state",
                              GARROW_TYPE_SCHEMA,
                              static_cast<GParamFlags>(G_PARAM_READWRITE));
-  g_object_class_install_property(gobject_class, PROP_SCHEMA, spec);
+  g_object_class_install_property(gobject_class,
+                                  PROP_FACTORY_OPTIONS_SCHEMA,
+                                  spec);
 
   /**
-   * GADatasetPartitioningOptions:segment-encoding:
+   * GADatasetPartitioningFactoryOptions:segment-encoding:
    *
    * After splitting a path into components, decode the path
    * components before parsing according to this scheme.
    *
-   * Since: 6.0.0
+   * Since: 11.0.0
    */
   spec = g_param_spec_enum("segment-encoding",
                            "Segment encoding",
@@ -214,36 +234,38 @@ gadataset_partitioning_options_class_init(
                            static_cast<GADatasetSegmentEncoding>(
                              default_options.segment_encoding),
                            static_cast<GParamFlags>(G_PARAM_READWRITE));
-  g_object_class_install_property(gobject_class, PROP_SEGMENT_ENCODING, spec);
+  g_object_class_install_property(gobject_class,
+                                  PROP_FACTORY_OPTIONS_SEGMENT_ENCODING,
+                                  spec);
 }
 
 /**
- * gadataset_partitioning_options_new:
+ * gadataset_partitioning_factory_options_new:
  *
- * Returns: The newly created #GADatasetPartitioningOptions.
+ * Returns: The newly created #GADatasetPartitioningFactoryOptions.
  *
- * Since: 6.0.0
+ * Since: 11.0.0
  */
-GADatasetPartitioningOptions *
-gadataset_partitioning_options_new(void)
+GADatasetPartitioningFactoryOptions *
+gadataset_partitioning_factory_options_new(void)
 {
-  return GADATASET_PARTITIONING_OPTIONS(
-    g_object_new(GADATASET_TYPE_PARTITIONING_OPTIONS,
-                 NULL));
+  return GADATASET_PARTITIONING_FACTORY_OPTIONS(
+    g_object_new(GADATASET_TYPE_PARTITIONING_FACTORY_OPTIONS,
+                 nullptr));
 }
 
 
-typedef struct GADatasetPartitioningPrivate_ {
+struct GADatasetPartitioningPrivate {
   std::shared_ptr<arrow::dataset::Partitioning> partitioning;
-} GADatasetPartitioningPrivate;
+};
 
 enum {
   PROP_PARTITIONING = 1,
 };
 
-G_DEFINE_TYPE_WITH_PRIVATE(GADatasetPartitioning,
-                           gadataset_partitioning,
-                           G_TYPE_OBJECT)
+G_DEFINE_ABSTRACT_TYPE_WITH_PRIVATE(GADatasetPartitioning,
+                                    gadataset_partitioning,
+                                    G_TYPE_OBJECT)
 
 #define GADATASET_PARTITIONING_GET_PRIVATE(obj)         \
   static_cast<GADatasetPartitioningPrivate *>(          \
@@ -303,24 +325,6 @@ gadataset_partitioning_class_init(GADatasetPartitioningClass *klass)
   g_object_class_install_property(gobject_class, PROP_PARTITIONING, spec);
 }
 
-/**
- * gadataset_partitioning_new:
- *
- * Returns: The newly created #GADatasetPartitioning that doesn't
- *   partition.
- *
- * Since: 6.0.0
- */
-GADatasetPartitioning *
-gadataset_partitioning_new(void)
-{
-  auto arrow_partitioning = arrow::dataset::Partitioning::Default();
-  return GADATASET_PARTITIONING(
-    g_object_new(GADATASET_TYPE_PARTITIONING,
-                 "partitioning", &arrow_partitioning,
-                 NULL));
-}
-
 /**
  * gadataset_partitioning_get_type_name:
  * @partitioning: A #GADatasetPartitioning.
@@ -341,10 +345,153 @@ gadataset_partitioning_get_type_name(GADatasetPartitioning *partitioning)
 }
 
 
-G_DEFINE_TYPE(GADatasetKeyValuePartitioning,
-              gadataset_key_value_partitioning,
+G_DEFINE_TYPE(GADatasetDefaultPartitioning,
+              gadataset_default_partitioning,
               GADATASET_TYPE_PARTITIONING)
 
+static void
+gadataset_default_partitioning_init(GADatasetDefaultPartitioning *object)
+{
+}
+
+static void
+gadataset_default_partitioning_class_init(
+  GADatasetDefaultPartitioningClass *klass)
+{
+}
+
+/**
+ * gadataset_default_partitioning_new:
+ *
+ * Returns: The newly created #GADatasetDefaultPartitioning that
+ *   doesn't partition.
+ *
+ * Since: 11.0.0
+ */
+GADatasetDefaultPartitioning *
+gadataset_default_partitioning_new(void)
+{
+  auto arrow_partitioning = arrow::dataset::Partitioning::Default();
+  return GADATASET_DEFAULT_PARTITIONING(
+    gadataset_partitioning_new_raw(&arrow_partitioning));
+}
+
+
+struct GADatasetKeyValuePartitioningOptionsPrivate {
+  GADatasetSegmentEncoding segment_encoding;
+};
+
+enum {
+  PROP_OPTIONS_SEGMENT_ENCODING = 1,
+};
+
+G_DEFINE_TYPE_WITH_PRIVATE(GADatasetKeyValuePartitioningOptions,
+                           gadataset_key_value_partitioning_options,
+                           G_TYPE_OBJECT)
+
+#define GADATASET_KEY_VALUE_PARTITIONING_OPTIONS_GET_PRIVATE(obj)       \
+  static_cast<GADatasetKeyValuePartitioningOptionsPrivate *>(           \
+    gadataset_key_value_partitioning_options_get_instance_private(      \
+      GADATASET_KEY_VALUE_PARTITIONING_OPTIONS(obj)))
+
+static void
+gadataset_key_value_partitioning_options_set_property(GObject *object,
+                                                      guint prop_id,
+                                                      const GValue *value,
+                                                      GParamSpec *pspec)
+{
+  auto priv = GADATASET_KEY_VALUE_PARTITIONING_OPTIONS_GET_PRIVATE(object);
+
+  switch (prop_id) {
+  case PROP_OPTIONS_SEGMENT_ENCODING:
+    priv->segment_encoding =
+      static_cast<GADatasetSegmentEncoding>(g_value_get_enum(value));
+    break;
+  default:
+    G_OBJECT_WARN_INVALID_PROPERTY_ID(object, prop_id, pspec);
+    break;
+  }
+}
+
+static void
+gadataset_key_value_partitioning_options_get_property(GObject *object,
+                                                      guint prop_id,
+                                                      GValue *value,
+                                                      GParamSpec *pspec)
+{
+  auto priv = GADATASET_KEY_VALUE_PARTITIONING_OPTIONS_GET_PRIVATE(object);
+
+  switch (prop_id) {
+  case PROP_OPTIONS_SEGMENT_ENCODING:
+    g_value_set_enum(value, priv->segment_encoding);
+    break;
+  default:
+    G_OBJECT_WARN_INVALID_PROPERTY_ID(object, prop_id, pspec);
+    break;
+  }
+}
+
+static void
+gadataset_key_value_partitioning_options_init(
+  GADatasetKeyValuePartitioningOptions *object)
+{
+}
+
+static void
+gadataset_key_value_partitioning_options_class_init(
+  GADatasetKeyValuePartitioningOptionsClass *klass)
+{
+  auto gobject_class = G_OBJECT_CLASS(klass);
+
+  gobject_class->set_property =
+    gadataset_key_value_partitioning_options_set_property;
+  gobject_class->get_property =
+    gadataset_key_value_partitioning_options_get_property;
+
+  arrow::dataset::KeyValuePartitioningOptions default_options;
+  GParamSpec *spec;
+  /**
+   * GADatasetKeyValuePartitioningOptions:segment-encoding:
+   *
+   * After splitting a path into components, decode the path
+   * components before parsing according to this scheme.
+   *
+   * Since: 11.0.0
+   */
+  spec = g_param_spec_enum("segment-encoding",
+                           "Segment encoding",
+                           "After splitting a path into components, "
+                           "decode the path components before "
+                           "parsing according to this scheme",
+                           GADATASET_TYPE_SEGMENT_ENCODING,
+                           static_cast<GADatasetSegmentEncoding>(
+                             default_options.segment_encoding),
+                           static_cast<GParamFlags>(G_PARAM_READWRITE));
+  g_object_class_install_property(gobject_class,
+                                  PROP_OPTIONS_SEGMENT_ENCODING,
+                                  spec);
+}
+
+/**
+ * gadataset_key_value_partitioning_options_new:
+ *
+ * Returns: The newly created #GADatasetKeyValuePartitioningOptions.
+ *
+ * Since: 11.0.0
+ */
+GADatasetKeyValuePartitioningOptions *
+gadataset_key_value_partitioning_options_new(void)
+{
+  return GADATASET_KEY_VALUE_PARTITIONING_OPTIONS(
+    g_object_new(GADATASET_TYPE_KEY_VALUE_PARTITIONING_OPTIONS,
+                 nullptr));
+}
+
+
+G_DEFINE_ABSTRACT_TYPE(GADatasetKeyValuePartitioning,
+                       gadataset_key_value_partitioning,
+                       GADATASET_TYPE_PARTITIONING)
+
 static void
 gadataset_key_value_partitioning_init(GADatasetKeyValuePartitioning *object)
 {
@@ -356,6 +503,34 @@ gadataset_key_value_partitioning_class_init(
 {
 }
 
+G_END_DECLS
+template <typename Partitioning, typename PartitioningOptions>
+GADatasetPartitioning *
+garrow_key_value_partitioning_new(
+  GArrowSchema *schema,
+  GList *dictionaries,
+  PartitioningOptions &arrow_options,
+  GError **error)
+{
+  auto arrow_schema = garrow_schema_get_raw(schema);
+  std::vector<std::shared_ptr<arrow::Array>> arrow_dictionaries;
+  for (auto node = dictionaries; node; node = node->next) {
+    auto dictionary = GARROW_ARRAY(node->data);
+    if (dictionary) {
+      arrow_dictionaries.push_back(garrow_array_get_raw(dictionary));
+    } else {
+      arrow_dictionaries.push_back(nullptr);
+    }
+  }
+  auto arrow_partitioning =
+    std::static_pointer_cast<arrow::dataset::Partitioning>(
+      std::make_shared<Partitioning>(
+        arrow_schema,
+        arrow_dictionaries,
+        arrow_options));
+  return gadataset_partitioning_new_raw(&arrow_partitioning);
+}
+G_BEGIN_DECLS
 
 G_DEFINE_TYPE(GADatasetDirectoryPartitioning,
               gadataset_directory_partitioning,
@@ -377,7 +552,7 @@ gadataset_directory_partitioning_class_init(
  * @schema: A #GArrowSchema that describes all partitioned segments.
  * @dictionaries: (nullable) (element-type GArrowArray): A list of #GArrowArray
  *   for dictionary data types in @schema.
- * @options: (nullable): A #GADatasetPartitioningOptions.
+ * @options: (nullable): A #GADatasetKeyValuePartitioningOptions.
  * @error: (nullable): Return location for a #GError or %NULL.
  *
  * Returns: The newly created #GADatasetDirectoryPartitioning on success,
@@ -386,52 +561,269 @@ gadataset_directory_partitioning_class_init(
  * Since: 6.0.0
  */
 GADatasetDirectoryPartitioning *
-gadataset_directory_partitioning_new(GArrowSchema *schema,
-                                     GList *dictionaries,
-                                     GADatasetPartitioningOptions *options,
-                                     GError **error)
+gadataset_directory_partitioning_new(
+  GArrowSchema *schema,
+  GList *dictionaries,
+  GADatasetKeyValuePartitioningOptions *options,
+  GError **error)
 {
-  auto arrow_schema = garrow_schema_get_raw(schema);
-  std::vector<std::shared_ptr<arrow::Array>> arrow_dictionaries;
-  for (auto node = dictionaries; node; node = node->next) {
-    auto dictionary = GARROW_ARRAY(node->data);
-    if (dictionary) {
-      arrow_dictionaries.push_back(garrow_array_get_raw(dictionary));
-    } else {
-      arrow_dictionaries.push_back(nullptr);
+  arrow::dataset::KeyValuePartitioningOptions arrow_options;
+  if (options) {
+    arrow_options = gadataset_key_value_partitioning_options_get_raw(options);
+  }
+  return GADATASET_DIRECTORY_PARTITIONING(
+    garrow_key_value_partitioning_new<arrow::dataset::DirectoryPartitioning>(
+      schema, dictionaries, arrow_options, error));
+}
+
+
+struct GADatasetHivePartitioningOptionsPrivate {
+  gchar *null_fallback;
+};
+
+enum {
+  PROP_OPTIONS_NULL_FALLBACK = 1,
+};
+
+G_DEFINE_TYPE_WITH_PRIVATE(GADatasetHivePartitioningOptions,
+                           gadataset_hive_partitioning_options,
+                           GADATASET_TYPE_KEY_VALUE_PARTITIONING_OPTIONS)
+
+#define GADATASET_HIVE_PARTITIONING_OPTIONS_GET_PRIVATE(obj)        \
+  static_cast<GADatasetHivePartitioningOptionsPrivate *>(           \
+    gadataset_hive_partitioning_options_get_instance_private(       \
+      GADATASET_HIVE_PARTITIONING_OPTIONS(obj)))
+
+static void
+gadataset_hive_partitioning_options_finalize(GObject *object)
+{
+  auto priv = GADATASET_HIVE_PARTITIONING_OPTIONS_GET_PRIVATE(object);
+
+  if (priv->null_fallback) {
+    g_free(priv->null_fallback);
+    priv->null_fallback = nullptr;
+  }
+
+  G_OBJECT_CLASS(gadataset_hive_partitioning_options_parent_class)->finalize(object);
+}
+
+static void
+gadataset_hive_partitioning_options_set_property(GObject *object,
+                                                 guint prop_id,
+                                                 const GValue *value,
+                                                 GParamSpec *pspec)
+{
+  auto priv = GADATASET_HIVE_PARTITIONING_OPTIONS_GET_PRIVATE(object);
+
+  switch (prop_id) {
+  case PROP_OPTIONS_NULL_FALLBACK:
+    if (priv->null_fallback == g_value_get_string(value)) {
+      break;
     }
+    if (priv->null_fallback) {
+      g_free(priv->null_fallback);
+    }
+    priv->null_fallback = g_value_dup_string(value);
+    break;
+  default:
+    G_OBJECT_WARN_INVALID_PROPERTY_ID(object, prop_id, pspec);
+    break;
   }
-  arrow::dataset::KeyValuePartitioningOptions arrow_options;
+}
+
+static void
+gadataset_hive_partitioning_options_get_property(GObject *object,
+                                                 guint prop_id,
+                                                 GValue *value,
+                                                 GParamSpec *pspec)
+{
+  auto priv = GADATASET_HIVE_PARTITIONING_OPTIONS_GET_PRIVATE(object);
+
+  switch (prop_id) {
+  case PROP_OPTIONS_NULL_FALLBACK:
+    g_value_set_string(value, priv->null_fallback);
+    break;
+  default:
+    G_OBJECT_WARN_INVALID_PROPERTY_ID(object, prop_id, pspec);
+    break;
+  }
+}
+
+static void
+gadataset_hive_partitioning_options_init(
+  GADatasetHivePartitioningOptions *object)
+{
+}
+
+static void
+gadataset_hive_partitioning_options_class_init(
+  GADatasetHivePartitioningOptionsClass *klass)
+{
+  auto gobject_class = G_OBJECT_CLASS(klass);
+
+  gobject_class->finalize = gadataset_hive_partitioning_options_finalize;
+  gobject_class->set_property = gadataset_hive_partitioning_options_set_property;
+  gobject_class->get_property = gadataset_hive_partitioning_options_get_property;
+
+  arrow::dataset::HivePartitioningOptions default_options;
+  GParamSpec *spec;
+  /**
+   * GADatasetHivePartitioningOptions:null-fallback:
+   *
+   * The fallback string for null. This is used only by
+   * #GADatasetHivePartitioning.
+   *
+   * Since: 11.0.0
+   */
+  spec = g_param_spec_string("null-fallback",
+                             "Null fallback",
+                             "The fallback string for null",
+                             default_options.null_fallback.c_str(),
+                             static_cast<GParamFlags>(G_PARAM_READWRITE));
+  g_object_class_install_property(gobject_class,
+                                  PROP_OPTIONS_NULL_FALLBACK,
+                                  spec);
+}
+
+/**
+ * gadataset_hive_partitioning_options_new:
+ *
+ * Returns: The newly created #GADatasetHivePartitioningOptions.
+ *
+ * Since: 11.0.0
+ */
+GADatasetHivePartitioningOptions *
+gadataset_hive_partitioning_options_new(void)
+{
+  return GADATASET_HIVE_PARTITIONING_OPTIONS(
+    g_object_new(GADATASET_TYPE_HIVE_PARTITIONING_OPTIONS,
+                 nullptr));
+}
+
+
+G_DEFINE_TYPE(GADatasetHivePartitioning,
+              gadataset_hive_partitioning,
+              GADATASET_TYPE_KEY_VALUE_PARTITIONING)
+
+static void
+gadataset_hive_partitioning_init(GADatasetHivePartitioning *object)
+{
+}
+
+static void
+gadataset_hive_partitioning_class_init(
+  GADatasetHivePartitioningClass *klass)
+{
+}
+
+/**
+ * gadataset_hive_partitioning_new:
+ * @schema: A #GArrowSchema that describes all partitioned segments.
+ * @dictionaries: (nullable) (element-type GArrowArray): A list of #GArrowArray
+ *   for dictionary data types in @schema.
+ * @options: (nullable): A #GADatasetHivePartitioningOptions.
+ * @error: (nullable): Return location for a #GError or %NULL.
+ *
+ * Returns: The newly created #GADatasetHivePartitioning on success,
+ *   %NULL on error.
+ *
+ * Since: 11.0.0
+ */
+GADatasetHivePartitioning *
+gadataset_hive_partitioning_new(GArrowSchema *schema,
+                                GList *dictionaries,
+                                GADatasetHivePartitioningOptions *options,
+                                GError **error)
+{
+  arrow::dataset::HivePartitioningOptions arrow_options;
   if (options) {
-    arrow_options =
-      gadataset_partitioning_options_get_raw_key_value_partitioning_options(
-        options);
+    arrow_options = gadataset_hive_partitioning_options_get_raw(options);
   }
+  return GADATASET_HIVE_PARTITIONING(
+    garrow_key_value_partitioning_new<arrow::dataset::HivePartitioning>(
+      schema, dictionaries, arrow_options, error));
+}
+
+/**
+ * gadataset_hive_partitioning_get_null_fallback:
+ *
+ * Returns: The fallback string for null.
+ *
+ *   It should be freed with g_free() when no longer needed.
+ *
+ * Since: 11.0.0
+ */
+gchar *
+gadataset_hive_partitioning_get_null_fallback(
+  GADatasetHivePartitioning *partitioning)
+{
   auto arrow_partitioning =
-    std::make_shared<arrow::dataset::DirectoryPartitioning>(
-      arrow_schema,
-      arrow_dictionaries,
-      arrow_options);
-  return GADATASET_DIRECTORY_PARTITIONING(
-    g_object_new(GADATASET_TYPE_DIRECTORY_PARTITIONING,
-                 "partitioning", &arrow_partitioning,
-                 NULL));
+    std::static_pointer_cast<arrow::dataset::HivePartitioning>(
+      gadataset_partitioning_get_raw(GADATASET_PARTITIONING(partitioning)));
+  return g_strdup(arrow_partitioning->null_fallback().c_str());
 }
 
 
 G_END_DECLS
 
+arrow::dataset::PartitioningFactoryOptions
+gadataset_partitioning_factory_options_get_raw(
+  GADatasetPartitioningFactoryOptions *options)
+{
+  auto priv = GADATASET_PARTITIONING_FACTORY_OPTIONS_GET_PRIVATE(options);
+  arrow::dataset::PartitioningFactoryOptions arrow_options;
+  arrow_options.infer_dictionary = priv->infer_dictionary;
+  if (priv->schema) {
+    arrow_options.schema = garrow_schema_get_raw(priv->schema);
+  }
+  arrow_options.segment_encoding =
+    static_cast<arrow::dataset::SegmentEncoding>(priv->segment_encoding);
+  return arrow_options;
+}
+
 arrow::dataset::KeyValuePartitioningOptions
-gadataset_partitioning_options_get_raw_key_value_partitioning_options(
-  GADatasetPartitioningOptions *options)
+gadataset_key_value_partitioning_options_get_raw(
+  GADatasetKeyValuePartitioningOptions *options)
 {
-  auto priv = GADATASET_PARTITIONING_OPTIONS_GET_PRIVATE(options);
+  auto priv = GADATASET_KEY_VALUE_PARTITIONING_OPTIONS_GET_PRIVATE(options);
   arrow::dataset::KeyValuePartitioningOptions arrow_options;
   arrow_options.segment_encoding =
     static_cast<arrow::dataset::SegmentEncoding>(priv->segment_encoding);
   return arrow_options;
 }
 
+arrow::dataset::HivePartitioningOptions
+gadataset_hive_partitioning_options_get_raw(
+  GADatasetHivePartitioningOptions *options)
+{
+  auto priv = GADATASET_HIVE_PARTITIONING_OPTIONS_GET_PRIVATE(options);
+  auto arrow_key_value_options =
+    gadataset_key_value_partitioning_options_get_raw(
+      GADATASET_KEY_VALUE_PARTITIONING_OPTIONS(options));
+  arrow::dataset::HivePartitioningOptions arrow_options;
+  arrow_options.segment_encoding = arrow_key_value_options.segment_encoding;
+  arrow_options.null_fallback = priv->null_fallback;
+  return arrow_options;
+}
+
+GADatasetPartitioning *
+gadataset_partitioning_new_raw(
+  std::shared_ptr<arrow::dataset::Partitioning> *arrow_partitioning)
+{
+  GType type = GADATASET_TYPE_PARTITIONING;
+  const auto arrow_type_name = (*arrow_partitioning)->type_name();
+  if (arrow_type_name == "default") {
+    type = GADATASET_TYPE_DEFAULT_PARTITIONING;
+  } else if (arrow_type_name == "directory") {
+    type = GADATASET_TYPE_DIRECTORY_PARTITIONING;
+  } else if (arrow_type_name == "hive") {
+    type = GADATASET_TYPE_HIVE_PARTITIONING;
+  }
+  return GADATASET_PARTITIONING(g_object_new(type,
+                                             "partitioning", arrow_partitioning,
+                                             nullptr));
+}
+
 std::shared_ptr<arrow::dataset::Partitioning>
 gadataset_partitioning_get_raw(GADatasetPartitioning *partitioning)
 {
diff --git a/c_glib/arrow-dataset-glib/partitioning.h b/c_glib/arrow-dataset-glib/partitioning.h
index d408d9bd502..5872735d202 100644
--- a/c_glib/arrow-dataset-glib/partitioning.h
+++ b/c_glib/arrow-dataset-glib/partitioning.h
@@ -38,21 +38,21 @@ typedef enum {
 } GADatasetSegmentEncoding;
 
 
-#define GADATASET_TYPE_PARTITIONING_OPTIONS   \
-  (gadataset_partitioning_options_get_type())
-G_DECLARE_DERIVABLE_TYPE(GADatasetPartitioningOptions,
-                         gadataset_partitioning_options,
+#define GADATASET_TYPE_PARTITIONING_FACTORY_OPTIONS   \
+  (gadataset_partitioning_factory_options_get_type())
+G_DECLARE_DERIVABLE_TYPE(GADatasetPartitioningFactoryOptions,
+                         gadataset_partitioning_factory_options,
                          GADATASET,
-                         PARTITIONING_OPTIONS,
+                         PARTITIONING_FACTORY_OPTIONS,
                          GObject)
-struct _GADatasetPartitioningOptionsClass
+struct _GADatasetPartitioningFactoryOptionsClass
 {
   GObjectClass parent_class;
 };
 
-GARROW_AVAILABLE_IN_6_0
-GADatasetPartitioningOptions *
-gadataset_partitioning_options_new(void);
+GARROW_AVAILABLE_IN_11_0
+GADatasetPartitioningFactoryOptions *
+gadataset_partitioning_factory_options_new(void);
 
 
 #define GADATASET_TYPE_PARTITIONING (gadataset_partitioning_get_type())
@@ -66,14 +66,45 @@ struct _GADatasetPartitioningClass
   GObjectClass parent_class;
 };
 
-GARROW_AVAILABLE_IN_6_0
-GADatasetPartitioning *
-gadataset_partitioning_new(void);
 GARROW_AVAILABLE_IN_6_0
 gchar *
 gadataset_partitioning_get_type_name(GADatasetPartitioning *partitioning);
 
 
+#define GADATASET_TYPE_DEFAULT_PARTITIONING     \
+  (gadataset_default_partitioning_get_type())
+G_DECLARE_DERIVABLE_TYPE(GADatasetDefaultPartitioning,
+                         gadataset_default_partitioning,
+                         GADATASET,
+                         DEFAULT_PARTITIONING,
+                         GADatasetPartitioning)
+struct _GADatasetDefaultPartitioningClass
+{
+  GADatasetPartitioningClass parent_class;
+};
+
+GARROW_AVAILABLE_IN_11_0
+GADatasetDefaultPartitioning *
+gadataset_default_partitioning_new(void);
+
+
+#define GADATASET_TYPE_KEY_VALUE_PARTITIONING_OPTIONS   \
+  (gadataset_key_value_partitioning_options_get_type())
+G_DECLARE_DERIVABLE_TYPE(GADatasetKeyValuePartitioningOptions,
+                         gadataset_key_value_partitioning_options,
+                         GADATASET,
+                         KEY_VALUE_PARTITIONING_OPTIONS,
+                         GObject)
+struct _GADatasetKeyValuePartitioningOptionsClass
+{
+  GObjectClass parent_class;
+};
+
+GARROW_AVAILABLE_IN_11_0
+GADatasetKeyValuePartitioningOptions *
+gadataset_key_value_partitioning_options_new(void);
+
+
 #define GADATASET_TYPE_KEY_VALUE_PARTITIONING   \
   (gadataset_key_value_partitioning_get_type())
 G_DECLARE_DERIVABLE_TYPE(GADatasetKeyValuePartitioning,
@@ -101,10 +132,52 @@ struct _GADatasetDirectoryPartitioningClass
 
 GARROW_AVAILABLE_IN_6_0
 GADatasetDirectoryPartitioning *
-gadataset_directory_partitioning_new(GArrowSchema *schema,
-                                     GList *dictionaries,
-                                     GADatasetPartitioningOptions *options,
-                                     GError **error);
+gadataset_directory_partitioning_new(
+  GArrowSchema *schema,
+  GList *dictionaries,
+  GADatasetKeyValuePartitioningOptions *options,
+  GError **error);
+
+
+#define GADATASET_TYPE_HIVE_PARTITIONING_OPTIONS   \
+  (gadataset_hive_partitioning_options_get_type())
+G_DECLARE_DERIVABLE_TYPE(GADatasetHivePartitioningOptions,
+                         gadataset_hive_partitioning_options,
+                         GADATASET,
+                         HIVE_PARTITIONING_OPTIONS,
+                         GADatasetKeyValuePartitioningOptions)
+struct _GADatasetHivePartitioningOptionsClass
+{
+  GADatasetKeyValuePartitioningOptionsClass parent_class;
+};
+
+GARROW_AVAILABLE_IN_11_0
+GADatasetHivePartitioningOptions *
+gadataset_hive_partitioning_options_new(void);
+
+
+#define GADATASET_TYPE_HIVE_PARTITIONING        \
+  (gadataset_hive_partitioning_get_type())
+G_DECLARE_DERIVABLE_TYPE(GADatasetHivePartitioning,
+                         gadataset_hive_partitioning,
+                         GADATASET,
+                         HIVE_PARTITIONING,
+                         GADatasetKeyValuePartitioning)
+struct _GADatasetHivePartitioningClass
+{
+  GADatasetKeyValuePartitioningClass parent_class;
+};
+
+GARROW_AVAILABLE_IN_11_0
+GADatasetHivePartitioning *
+gadataset_hive_partitioning_new(GArrowSchema *schema,
+                                GList *dictionaries,
+                                GADatasetHivePartitioningOptions *options,
+                                GError **error);
+GARROW_AVAILABLE_IN_11_0
+gchar *
+gadataset_hive_partitioning_get_null_fallback(
+  GADatasetHivePartitioning *partitioning);
 
 
 G_END_DECLS
diff --git a/c_glib/arrow-dataset-glib/partitioning.hpp b/c_glib/arrow-dataset-glib/partitioning.hpp
index 2481ecb3340..4ce8667e789 100644
--- a/c_glib/arrow-dataset-glib/partitioning.hpp
+++ b/c_glib/arrow-dataset-glib/partitioning.hpp
@@ -23,9 +23,21 @@
 
 #include <arrow-dataset-glib/partitioning.h>
 
+arrow::dataset::PartitioningFactoryOptions
+gadataset_partitioning_factory_options_get_raw(
+  GADatasetPartitioningFactoryOptions *options);
+
 arrow::dataset::KeyValuePartitioningOptions
-gadataset_partitioning_options_get_raw_key_value_partitioning_options(
-  GADatasetPartitioningOptions *options);
+gadataset_key_value_partitioning_options_get_raw(
+  GADatasetKeyValuePartitioningOptions *options);
+
+arrow::dataset::HivePartitioningOptions
+gadataset_hive_partitioning_options_get_raw(
+  GADatasetHivePartitioningOptions *options);
+
+GADatasetPartitioning *
+gadataset_partitioning_new_raw(
+  std::shared_ptr<arrow::dataset::Partitioning> *arrow_partitioning);
 
 std::shared_ptr<arrow::dataset::Partitioning>
 gadataset_partitioning_get_raw(GADatasetPartitioning *partitioning);
diff --git a/c_glib/arrow-flight-glib/server.cpp b/c_glib/arrow-flight-glib/server.cpp
index 40bad8b496f..4af1bf60d47 100644
--- a/c_glib/arrow-flight-glib/server.cpp
+++ b/c_glib/arrow-flight-glib/server.cpp
@@ -17,7 +17,7 @@
  * under the License.
  */
 
-#include <arrow/util/make_unique.h>
+#include <memory>
 
 #include <arrow-glib/arrow-glib.hpp>
 
@@ -239,7 +239,7 @@ gaflight_record_batch_stream_new(GArrowRecordBatchReader *reader,
   } else {
     arrow_options = &arrow_options_default;
   }
-  auto stream = arrow::internal::make_unique<
+  auto stream = std::make_unique<
     arrow::flight::RecordBatchStream>(arrow_reader, *arrow_options);
   return static_cast<GAFlightRecordBatchStream *>(
     g_object_new(GAFLIGHT_TYPE_RECORD_BATCH_STREAM,
@@ -484,7 +484,7 @@ namespace gaflight {
         g_object_unref(gaflight);
       }
       g_list_free(gaflights);
-      *listing = arrow::internal::make_unique<
+      *listing = std::make_unique<
         arrow::flight::SimpleFlightListing>(flights);
       return arrow::Status::OK();
     }
@@ -507,7 +507,7 @@ namespace gaflight {
                                       arrow::StatusCode::UnknownError,
                                       "[flight-server][get-flight-info]");
       }
-      *info = arrow::internal::make_unique<arrow::flight::FlightInfo>(
+      *info = std::make_unique<arrow::flight::FlightInfo>(
         *gaflight_info_get_raw(gainfo));
       g_object_unref(gainfo);
       return arrow::Status::OK();
@@ -531,7 +531,7 @@ namespace gaflight {
                                       arrow::StatusCode::UnknownError,
                                       "[flight-server][do-get]");
       }
-      *stream = arrow::internal::make_unique<DataStream>(gastream);
+      *stream = std::make_unique<DataStream>(gastream);
       return arrow::Status::OK();
     }
 
diff --git a/c_glib/arrow-flight-sql-glib/server.cpp b/c_glib/arrow-flight-sql-glib/server.cpp
index 32fdc85e9bf..51cdb22ab5d 100644
--- a/c_glib/arrow-flight-sql-glib/server.cpp
+++ b/c_glib/arrow-flight-sql-glib/server.cpp
@@ -17,7 +17,7 @@
  * under the License.
  */
 
-#include <arrow/util/make_unique.h>
+#include <memory>
 
 #include <arrow-glib/arrow-glib.hpp>
 #include <arrow-flight-glib/common.hpp>
@@ -225,7 +225,7 @@ namespace gaflightsql {
                                       arrow::StatusCode::UnknownError,
                                       context);
       }
-      return arrow::internal::make_unique<arrow::flight::FlightInfo>(
+      return std::make_unique<arrow::flight::FlightInfo>(
         *gaflight_info_get_raw(gainfo));
     }
 
@@ -247,7 +247,7 @@ namespace gaflightsql {
                                       arrow::StatusCode::UnknownError,
                                       "[flight-sql-server][do-get-statement]");
       }
-      return arrow::internal::make_unique<gaflight::DataStream>(gastream);
+      return std::make_unique<gaflight::DataStream>(gastream);
     }
 
   private:
diff --git a/c_glib/arrow-glib/array-builder.cpp b/c_glib/arrow-glib/array-builder.cpp
index 3483dfe2095..aa7bee20e98 100644
--- a/c_glib/arrow-glib/array-builder.cpp
+++ b/c_glib/arrow-glib/array-builder.cpp
@@ -402,6 +402,9 @@ G_BEGIN_DECLS
  * #GArrowUInt64ArrayBuilder is the class to create a new
  * #GArrowUInt64Array.
  *
+ * #GArrowHalfFloatArrayBuilder is the class to creating a new
+ * #GArrowHalfFloatArray.
+ *
  * #GArrowFloatArrayBuilder is the class to creating a new
  * #GArrowFloatArray.
  *
@@ -2599,6 +2602,99 @@ garrow_uint64_array_builder_append_nulls(GArrowUInt64ArrayBuilder *builder,
 }
 
 
+G_DEFINE_TYPE(GArrowHalfFloatArrayBuilder,
+              garrow_half_float_array_builder,
+              GARROW_TYPE_ARRAY_BUILDER)
+
+static void
+garrow_half_float_array_builder_init(GArrowHalfFloatArrayBuilder *builder)
+{
+}
+
+static void
+garrow_half_float_array_builder_class_init(
+  GArrowHalfFloatArrayBuilderClass *klass)
+{
+}
+
+/**
+ * garrow_half_float_array_builder_new:
+ *
+ * Returns: A newly created #GArrowHalfFloatArrayBuilder.
+ *
+ * Since: 11.0.0
+ */
+GArrowHalfFloatArrayBuilder *
+garrow_half_float_array_builder_new(void)
+{
+  auto builder = garrow_array_builder_new(arrow::float16(),
+                                          nullptr,
+                                          "[half-float-array-builder][new]");
+  return GARROW_HALF_FLOAT_ARRAY_BUILDER(builder);
+}
+
+/**
+ * garrow_half_float_array_builder_append_value:
+ * @builder: A #GArrowHalfFloatArrayBuilder.
+ * @value: A 16-bit float value.
+ * @error: (nullable): Return location for a #GError or %NULL.
+ *
+ * Returns: %TRUE on success, %FALSE if there was an error.
+ *
+ * Since: 11.0.0
+ */
+gboolean
+garrow_half_float_array_builder_append_value(
+  GArrowHalfFloatArrayBuilder *builder,
+  guint16 value,
+  GError **error)
+{
+  return garrow_array_builder_append_value<arrow::HalfFloatBuilder *>
+    (GARROW_ARRAY_BUILDER(builder),
+     value,
+     error,
+     "[half-float-array-builder][append-value]");
+}
+
+/**
+ * garrow_half_float_array_builder_append_values:
+ * @builder: A #GArrowHalfFloatArrayBuilder.
+ * @values: (array length=values_length): The array of 16-bit float.
+ * @values_length: The length of `values`.
+ * @is_valids: (nullable) (array length=is_valids_length): The array of
+ *   boolean that shows whether the Nth value is valid or not. If the
+ *   Nth `is_valids` is %TRUE, the Nth `values` is valid value. Otherwise
+ *   the Nth value is null value.
+ * @is_valids_length: The length of `is_valids`.
+ * @error: (nullable): Return location for a #GError or %NULL.
+ *
+ * Append multiple values at once. It's more efficient than multiple
+ * `append` and `append_null` calls.
+ *
+ * Returns: %TRUE on success, %FALSE if there was an error.
+ *
+ * Since: 11.0.0
+ */
+gboolean
+garrow_half_float_array_builder_append_values(
+  GArrowHalfFloatArrayBuilder *builder,
+  const guint16 *values,
+  gint64 values_length,
+  const gboolean *is_valids,
+  gint64 is_valids_length,
+  GError **error)
+{
+  return garrow_array_builder_append_values<arrow::HalfFloatBuilder *>
+    (GARROW_ARRAY_BUILDER(builder),
+     values,
+     values_length,
+     is_valids,
+     is_valids_length,
+     error,
+     "[half-float-array-builder][append-values]");
+}
+
+
 G_DEFINE_TYPE(GArrowFloatArrayBuilder,
               garrow_float_array_builder,
               GARROW_TYPE_ARRAY_BUILDER)
@@ -6494,6 +6590,9 @@ garrow_array_builder_new_raw(arrow::ArrayBuilder *arrow_builder,
     case arrow::Type::type::INT64:
       type = GARROW_TYPE_INT64_ARRAY_BUILDER;
       break;
+    case arrow::Type::type::HALF_FLOAT:
+      type = GARROW_TYPE_HALF_FLOAT_ARRAY_BUILDER;
+      break;
     case arrow::Type::type::FLOAT:
       type = GARROW_TYPE_FLOAT_ARRAY_BUILDER;
       break;
diff --git a/c_glib/arrow-glib/array-builder.h b/c_glib/arrow-glib/array-builder.h
index aa7d36cfbe1..741390739f7 100644
--- a/c_glib/arrow-glib/array-builder.h
+++ b/c_glib/arrow-glib/array-builder.h
@@ -550,6 +550,38 @@ gboolean garrow_uint64_array_builder_append_nulls(GArrowUInt64ArrayBuilder *buil
 #endif
 
 
+#define GARROW_TYPE_HALF_FLOAT_ARRAY_BUILDER    \
+  (garrow_half_float_array_builder_get_type())
+G_DECLARE_DERIVABLE_TYPE(GArrowHalfFloatArrayBuilder,
+                         garrow_half_float_array_builder,
+                         GARROW,
+                         HALF_FLOAT_ARRAY_BUILDER,
+                         GArrowArrayBuilder)
+struct _GArrowHalfFloatArrayBuilderClass
+{
+  GArrowArrayBuilderClass parent_class;
+};
+
+GARROW_AVAILABLE_IN_11_0
+GArrowHalfFloatArrayBuilder *
+garrow_half_float_array_builder_new(void);
+
+GARROW_AVAILABLE_IN_11_0
+gboolean
+garrow_half_float_array_builder_append_value(
+  GArrowHalfFloatArrayBuilder *builder,
+  guint16 value,
+  GError **error);
+GARROW_AVAILABLE_IN_11_0
+gboolean garrow_half_float_array_builder_append_values(
+  GArrowHalfFloatArrayBuilder *builder,
+  const guint16 *values,
+  gint64 values_length,
+  const gboolean *is_valids,
+  gint64 is_valids_length,
+  GError **error);
+
+
 #define GARROW_TYPE_FLOAT_ARRAY_BUILDER (garrow_float_array_builder_get_type())
 G_DECLARE_DERIVABLE_TYPE(GArrowFloatArrayBuilder,
                          garrow_float_array_builder,
diff --git a/c_glib/arrow-glib/basic-array.cpp b/c_glib/arrow-glib/basic-array.cpp
index ee2197fad69..388f5cc168c 100644
--- a/c_glib/arrow-glib/basic-array.cpp
+++ b/c_glib/arrow-glib/basic-array.cpp
@@ -1844,6 +1844,83 @@ garrow_uint64_array_get_values(GArrowUInt64Array *array,
 }
 
 
+G_DEFINE_TYPE(GArrowHalfFloatArray,
+              garrow_half_float_array,
+              GARROW_TYPE_NUMERIC_ARRAY)
+
+static void
+garrow_half_float_array_init(GArrowHalfFloatArray *object)
+{
+}
+
+static void
+garrow_half_float_array_class_init(GArrowHalfFloatArrayClass *klass)
+{
+}
+
+/**
+ * garrow_half_float_array_new:
+ * @length: The number of elements.
+ * @data: The binary data in Arrow format of the array.
+ * @null_bitmap: (nullable): The bitmap that shows null elements. The
+ *   N-th element is null when the N-th bit is 0, not null otherwise.
+ *   If the array has no null elements, the bitmap must be %NULL and
+ *   @n_nulls is 0.
+ * @n_nulls: The number of null elements. If -1 is specified, the
+ *   number of nulls are computed from @null_bitmap.
+ *
+ * Returns: A newly created #GArrowHalfFloatArray.
+ *
+ * Since: 11.0.0
+ */
+GArrowHalfFloatArray *
+garrow_half_float_array_new(gint64 length,
+                            GArrowBuffer *data,
+                            GArrowBuffer *null_bitmap,
+                            gint64 n_nulls)
+{
+  auto array = garrow_primitive_array_new<arrow::HalfFloatType>(length,
+                                                                data,
+                                                                null_bitmap,
+                                                                n_nulls);
+  return GARROW_HALF_FLOAT_ARRAY(array);
+}
+
+/**
+ * garrow_half_float_array_get_value:
+ * @array: A #GArrowHalfFloatArray.
+ * @i: The index of the target value.
+ *
+ * Returns: The @i-th value.
+ *
+ * Since: 11.0.0
+ */
+guint16
+garrow_half_float_array_get_value(GArrowHalfFloatArray *array,
+                                  gint64 i)
+{
+  auto arrow_array = garrow_array_get_raw(GARROW_ARRAY(array));
+  return std::static_pointer_cast<arrow::HalfFloatArray>(arrow_array)->Value(i);
+}
+
+/**
+ * garrow_half_float_array_get_values:
+ * @array: A #GArrowHalfFloatArray.
+ * @length: (out): The number of values.
+ *
+ * Returns: (array length=length): The raw values.
+ *
+ * Since: 11.0.0
+ */
+const guint16 *
+garrow_half_float_array_get_values(GArrowHalfFloatArray *array,
+                                   gint64 *length)
+{
+  auto arrow_array = garrow_array_get_raw(GARROW_ARRAY(array));
+  return garrow_array_get_values_raw<arrow::HalfFloatType>(arrow_array, length);
+}
+
+
 G_DEFINE_TYPE(GArrowFloatArray,
               garrow_float_array,
               GARROW_TYPE_NUMERIC_ARRAY)
@@ -3490,6 +3567,9 @@ garrow_array_new_raw_valist(std::shared_ptr<arrow::Array> *arrow_array,
   case arrow::Type::type::INT64:
     type = GARROW_TYPE_INT64_ARRAY;
     break;
+  case arrow::Type::type::HALF_FLOAT:
+    type = GARROW_TYPE_HALF_FLOAT_ARRAY;
+    break;
   case arrow::Type::type::FLOAT:
     type = GARROW_TYPE_FLOAT_ARRAY;
     break;
diff --git a/c_glib/arrow-glib/basic-array.h b/c_glib/arrow-glib/basic-array.h
index d8104ddb245..1a846c2320a 100644
--- a/c_glib/arrow-glib/basic-array.h
+++ b/c_glib/arrow-glib/basic-array.h
@@ -345,6 +345,35 @@ const guint64 *garrow_uint64_array_get_values(GArrowUInt64Array *array,
                                               gint64 *length);
 
 
+#define GARROW_TYPE_HALF_FLOAT_ARRAY (garrow_half_float_array_get_type())
+G_DECLARE_DERIVABLE_TYPE(GArrowHalfFloatArray,
+                         garrow_half_float_array,
+                         GARROW,
+                         HALF_FLOAT_ARRAY,
+                         GArrowNumericArray)
+struct _GArrowHalfFloatArrayClass
+{
+  GArrowNumericArrayClass parent_class;
+};
+
+
+GARROW_AVAILABLE_IN_11_0
+GArrowHalfFloatArray *
+garrow_half_float_array_new(gint64 length,
+                            GArrowBuffer *data,
+                            GArrowBuffer *null_bitmap,
+                            gint64 n_nulls);
+
+GARROW_AVAILABLE_IN_11_0
+guint16
+garrow_half_float_array_get_value(GArrowHalfFloatArray *array,
+                                  gint64 i);
+GARROW_AVAILABLE_IN_11_0
+const guint16*
+garrow_half_float_array_get_values(GArrowHalfFloatArray *array,
+                                   gint64 *length);
+
+
 #define GARROW_TYPE_FLOAT_ARRAY (garrow_float_array_get_type())
 G_DECLARE_DERIVABLE_TYPE(GArrowFloatArray,
                          garrow_float_array,
diff --git a/c_glib/arrow-glib/basic-data-type.cpp b/c_glib/arrow-glib/basic-data-type.cpp
index a94759f79c9..7e4841032fd 100644
--- a/c_glib/arrow-glib/basic-data-type.cpp
+++ b/c_glib/arrow-glib/basic-data-type.cpp
@@ -58,6 +58,9 @@ G_BEGIN_DECLS
  *
  * #GArrowUInt64DataType is a class for the 64-bit unsigned integer data type.
  *
+ * #GArrowHalfFloatDataType is a class for the 16-bit floating point
+ * data type.
+ *
  * #GArrowFloatDataType is a class for the 32-bit floating point data
  * type.
  *
@@ -741,6 +744,39 @@ garrow_floating_point_data_type_class_init(GArrowFloatingPointDataTypeClass *kla
 }
 
 
+G_DEFINE_TYPE(GArrowHalfFloatDataType,
+              garrow_half_float_data_type,
+              GARROW_TYPE_FLOATING_POINT_DATA_TYPE)
+
+static void
+garrow_half_float_data_type_init(GArrowHalfFloatDataType *object)
+{
+}
+
+static void
+garrow_half_float_data_type_class_init(GArrowHalfFloatDataTypeClass *klass)
+{
+}
+
+/**
+ * garrow_half_float_data_type_new:
+ *
+ * Returns: The newly created half float data type.
+ *
+ * Since: 11.0.0
+ */
+GArrowHalfFloatDataType *
+garrow_half_float_data_type_new(void)
+{
+  auto arrow_data_type = arrow::float16();
+  auto data_type =
+    GARROW_HALF_FLOAT_DATA_TYPE(g_object_new(GARROW_TYPE_HALF_FLOAT_DATA_TYPE,
+                                             "data-type", &arrow_data_type,
+                                             NULL));
+  return data_type;
+}
+
+
 G_DEFINE_TYPE(GArrowFloatDataType,
               garrow_float_data_type,
               GARROW_TYPE_FLOATING_POINT_DATA_TYPE)
@@ -2114,6 +2150,9 @@ garrow_data_type_new_raw(std::shared_ptr<arrow::DataType> *arrow_data_type)
   case arrow::Type::type::INT64:
     type = GARROW_TYPE_INT64_DATA_TYPE;
     break;
+  case arrow::Type::type::HALF_FLOAT:
+    type = GARROW_TYPE_HALF_FLOAT_DATA_TYPE;
+    break;
   case arrow::Type::type::FLOAT:
     type = GARROW_TYPE_FLOAT_DATA_TYPE;
     break;
diff --git a/c_glib/arrow-glib/basic-data-type.h b/c_glib/arrow-glib/basic-data-type.h
index 82fe251d31d..affbfcf13c2 100644
--- a/c_glib/arrow-glib/basic-data-type.h
+++ b/c_glib/arrow-glib/basic-data-type.h
@@ -254,6 +254,21 @@ struct _GArrowFloatingPointDataTypeClass
 };
 
 
+#define GARROW_TYPE_HALF_FLOAT_DATA_TYPE (garrow_half_float_data_type_get_type())
+G_DECLARE_DERIVABLE_TYPE(GArrowHalfFloatDataType,
+                         garrow_half_float_data_type,
+                         GARROW,
+                         HALF_FLOAT_DATA_TYPE,
+                         GArrowFloatingPointDataType)
+struct _GArrowHalfFloatDataTypeClass
+{
+  GArrowFloatingPointDataTypeClass parent_class;
+};
+
+GARROW_AVAILABLE_IN_11_0
+GArrowHalfFloatDataType *garrow_half_float_data_type_new(void);
+
+
 #define GARROW_TYPE_FLOAT_DATA_TYPE (garrow_float_data_type_get_type())
 G_DECLARE_DERIVABLE_TYPE(GArrowFloatDataType,
                          garrow_float_data_type,
diff --git a/c_glib/arrow-glib/chunked-array.cpp b/c_glib/arrow-glib/chunked-array.cpp
index 51ca416938a..6e627239728 100644
--- a/c_glib/arrow-glib/chunked-array.cpp
+++ b/c_glib/arrow-glib/chunked-array.cpp
@@ -35,13 +35,14 @@ G_BEGIN_DECLS
  * makes a list of #GArrowArrays one logical large array.
  */
 
-typedef struct GArrowChunkedArrayPrivate_ {
+struct GArrowChunkedArrayPrivate {
   std::shared_ptr<arrow::ChunkedArray> chunked_array;
-} GArrowChunkedArrayPrivate;
+  GArrowDataType *data_type;
+};
 
 enum {
-  PROP_0,
-  PROP_CHUNKED_ARRAY
+  PROP_CHUNKED_ARRAY = 1,
+  PROP_DATA_TYPE,
 };
 
 G_DEFINE_TYPE_WITH_PRIVATE(GArrowChunkedArray,
@@ -53,6 +54,19 @@ G_DEFINE_TYPE_WITH_PRIVATE(GArrowChunkedArray,
      garrow_chunked_array_get_instance_private(       \
        GARROW_CHUNKED_ARRAY(obj)))
 
+static void
+garrow_chunked_array_dispose(GObject *object)
+{
+  auto priv = GARROW_CHUNKED_ARRAY_GET_PRIVATE(object);
+
+  if (priv->data_type) {
+    g_object_unref(priv->data_type);
+    priv->data_type = nullptr;
+  }
+
+  G_OBJECT_CLASS(garrow_chunked_array_parent_class)->dispose(object);
+}
+
 static void
 garrow_chunked_array_finalize(GObject *object)
 {
@@ -76,6 +90,9 @@ garrow_chunked_array_set_property(GObject *object,
     priv->chunked_array =
       *static_cast<std::shared_ptr<arrow::ChunkedArray> *>(g_value_get_pointer(value));
     break;
+  case PROP_DATA_TYPE:
+    priv->data_type = GARROW_DATA_TYPE(g_value_dup_object(value));
+    break;
   default:
     G_OBJECT_WARN_INVALID_PROPERTY_ID(object, prop_id, pspec);
     break;
@@ -110,6 +127,7 @@ garrow_chunked_array_class_init(GArrowChunkedArrayClass *klass)
 
   gobject_class = G_OBJECT_CLASS(klass);
 
+  gobject_class->dispose      = garrow_chunked_array_dispose;
   gobject_class->finalize     = garrow_chunked_array_finalize;
   gobject_class->set_property = garrow_chunked_array_set_property;
   gobject_class->get_property = garrow_chunked_array_get_property;
@@ -120,16 +138,26 @@ garrow_chunked_array_class_init(GArrowChunkedArrayClass *klass)
                               static_cast<GParamFlags>(G_PARAM_WRITABLE |
                                                        G_PARAM_CONSTRUCT_ONLY));
   g_object_class_install_property(gobject_class, PROP_CHUNKED_ARRAY, spec);
+
+  spec = g_param_spec_object("data-type",
+                             "Data type",
+                             "The data type of this chunked array",
+                             GARROW_TYPE_DATA_TYPE,
+                             static_cast<GParamFlags>(G_PARAM_WRITABLE |
+                                                      G_PARAM_CONSTRUCT_ONLY));
+  g_object_class_install_property(gobject_class, PROP_DATA_TYPE, spec);
 }
 
 /**
  * garrow_chunked_array_new:
  * @chunks: (element-type GArrowArray): The array chunks.
+ * @error: (nullable): Return location for a #GError or %NULL.
  *
- * Returns: A newly created #GArrowChunkedArray.
+ * Returns: (nullable):
+ *   A newly created #GArrowChunkedArray or %NULL on error.
  */
 GArrowChunkedArray *
-garrow_chunked_array_new(GList *chunks)
+garrow_chunked_array_new(GList *chunks, GError **error)
 {
   std::vector<std::shared_ptr<arrow::Array>> arrow_chunks;
   for (GList *node = chunks; node; node = node->next) {
@@ -137,9 +165,37 @@ garrow_chunked_array_new(GList *chunks)
     arrow_chunks.push_back(garrow_array_get_raw(chunk));
   }
 
-  auto arrow_chunked_array =
-    std::make_shared<arrow::ChunkedArray>(arrow_chunks);
-  return garrow_chunked_array_new_raw(&arrow_chunked_array);
+  auto arrow_chunked_array_result = arrow::ChunkedArray::Make(arrow_chunks);
+  if (garrow::check(error, arrow_chunked_array_result, "[chunked-array][new]")) {
+    auto arrow_chunked_array = *arrow_chunked_array_result;
+    return garrow_chunked_array_new_raw(&arrow_chunked_array);
+  } else {
+    return nullptr;
+  }
+}
+
+/**
+ * garrow_chunked_array_new_empty:
+ * @data_type: The #GArrowDataType of this chunked array.
+ * @error: (nullable): Return location for a #GError or %NULL.
+ *
+ * Returns: (nullable):
+ *   A newly created empty #GArrowChunkedArray or %NULL on error.
+ *
+ * Since: 11.0.0
+ */
+GArrowChunkedArray *
+garrow_chunked_array_new_empty(GArrowDataType *data_type, GError **error)
+{
+  auto arrow_data_type = garrow_data_type_get_raw(data_type);
+  auto arrow_chunked_array_result =
+    arrow::ChunkedArray::MakeEmpty(arrow_data_type);
+  if (garrow::check(error, arrow_chunked_array_result, "[chunked-array][new]")) {
+    auto arrow_chunked_array = *arrow_chunked_array_result;
+    return garrow_chunked_array_new_raw(&arrow_chunked_array);
+  } else {
+    return nullptr;
+  }
 }
 
 /**
@@ -174,9 +230,14 @@ garrow_chunked_array_equal(GArrowChunkedArray *chunked_array,
 GArrowDataType *
 garrow_chunked_array_get_value_data_type(GArrowChunkedArray *chunked_array)
 {
-  auto arrow_chunked_array = garrow_chunked_array_get_raw(chunked_array);
-  auto arrow_type = arrow_chunked_array->type();
-  return garrow_data_type_new_raw(&arrow_type);
+  auto priv = GARROW_CHUNKED_ARRAY_GET_PRIVATE(chunked_array);
+  if (!priv->data_type) {
+    auto arrow_chunked_array = garrow_chunked_array_get_raw(chunked_array);
+    auto arrow_type = arrow_chunked_array->type();
+    priv->data_type = garrow_data_type_new_raw(&arrow_type);
+  }
+  g_object_ref(priv->data_type);
+  return priv->data_type;
 }
 
 /**
@@ -353,11 +414,21 @@ garrow_chunked_array_combine(GArrowChunkedArray *chunked_array, GError **error)
 G_END_DECLS
 
 GArrowChunkedArray *
-garrow_chunked_array_new_raw(std::shared_ptr<arrow::ChunkedArray> *arrow_chunked_array)
+garrow_chunked_array_new_raw(
+  std::shared_ptr<arrow::ChunkedArray> *arrow_chunked_array)
+{
+  return garrow_chunked_array_new_raw(arrow_chunked_array, nullptr);
+}
+
+GArrowChunkedArray *
+garrow_chunked_array_new_raw(
+  std::shared_ptr<arrow::ChunkedArray> *arrow_chunked_array,
+  GArrowDataType *data_type)
 {
   auto chunked_array =
     GARROW_CHUNKED_ARRAY(g_object_new(GARROW_TYPE_CHUNKED_ARRAY,
                                       "chunked-array", arrow_chunked_array,
+                                      "data-type", data_type,
                                       NULL));
   return chunked_array;
 }
diff --git a/c_glib/arrow-glib/chunked-array.h b/c_glib/arrow-glib/chunked-array.h
index 528be28ad3e..e8a2df931f4 100644
--- a/c_glib/arrow-glib/chunked-array.h
+++ b/c_glib/arrow-glib/chunked-array.h
@@ -24,7 +24,13 @@
 
 G_BEGIN_DECLS
 
-GArrowChunkedArray *garrow_chunked_array_new(GList *chunks);
+GArrowChunkedArray *
+garrow_chunked_array_new(GList *chunks,
+                         GError **error);
+GARROW_AVAILABLE_IN_11_0
+GArrowChunkedArray *
+garrow_chunked_array_new_empty(GArrowDataType *data_type,
+                               GError **error);
 
 gboolean garrow_chunked_array_equal(GArrowChunkedArray *chunked_array,
                                     GArrowChunkedArray *other_chunked_array);
diff --git a/c_glib/arrow-glib/chunked-array.hpp b/c_glib/arrow-glib/chunked-array.hpp
index ec5068adc07..06802366ec1 100644
--- a/c_glib/arrow-glib/chunked-array.hpp
+++ b/c_glib/arrow-glib/chunked-array.hpp
@@ -23,5 +23,12 @@
 
 #include <arrow-glib/chunked-array.h>
 
-GArrowChunkedArray *garrow_chunked_array_new_raw(std::shared_ptr<arrow::ChunkedArray> *arrow_chunked_array);
-std::shared_ptr<arrow::ChunkedArray> garrow_chunked_array_get_raw(GArrowChunkedArray *chunked_array);
+GArrowChunkedArray *
+garrow_chunked_array_new_raw(
+  std::shared_ptr<arrow::ChunkedArray> *arrow_chunked_array);
+GArrowChunkedArray *
+garrow_chunked_array_new_raw(
+  std::shared_ptr<arrow::ChunkedArray> *arrow_chunked_array,
+  GArrowDataType *data_type);
+std::shared_ptr<arrow::ChunkedArray>
+garrow_chunked_array_get_raw(GArrowChunkedArray *chunked_array);
diff --git a/c_glib/arrow-glib/compute.cpp b/c_glib/arrow-glib/compute.cpp
index f3a29be5e43..27e49b0027d 100644
--- a/c_glib/arrow-glib/compute.cpp
+++ b/c_glib/arrow-glib/compute.cpp
@@ -26,6 +26,7 @@
 #include <arrow-glib/datum.hpp>
 #include <arrow-glib/enums.h>
 #include <arrow-glib/error.hpp>
+#include <arrow-glib/expression.hpp>
 #include <arrow-glib/reader.hpp>
 #include <arrow-glib/record-batch.hpp>
 #include <arrow-glib/scalar.hpp>
@@ -109,7 +110,6 @@ namespace {
     return
       (sort_key.target == other_sort_key.target) &&
       (sort_key.order == other_sort_key.order);
-
   }
 }
 
@@ -136,6 +136,8 @@ G_BEGIN_DECLS
  *
  * #GArrowSourceNodeOptions is a class to customize a source node.
  *
+ * #GArrowProjectNodeOptions is a class to customize a project node.
+ *
  * #GArrowAggregation is a class to specify how to aggregate.
  *
  * #GArrowAggregateNodeOptions is a class to customize an aggregate node.
@@ -938,7 +940,7 @@ garrow_source_node_options_new_record_batch_reader(
     arrow_reader->schema(),
     [arrow_reader]() {
       using ExecBatch = arrow::compute::ExecBatch;
-      using ExecBatchOptional = arrow::util::optional<ExecBatch>;
+      using ExecBatchOptional = std::optional<ExecBatch>;
       auto arrow_record_batch_result = arrow_reader->Next();
       if (!arrow_record_batch_result.ok()) {
         return arrow::AsyncGeneratorEnd<ExecBatchOptional>();
@@ -979,7 +981,7 @@ garrow_source_node_options_new_record_batch(GArrowRecordBatch *record_batch)
     state->record_batch->schema(),
     [state]() {
       using ExecBatch = arrow::compute::ExecBatch;
-      using ExecBatchOptional = arrow::util::optional<ExecBatch>;
+      using ExecBatchOptional = std::optional<ExecBatch>;
       if (!state->generated) {
         state->generated = true;
         return arrow::Future<ExecBatchOptional>::MakeFinished(
@@ -1014,6 +1016,61 @@ garrow_source_node_options_new_table(GArrowTable *table)
 }
 
 
+G_DEFINE_TYPE(GArrowProjectNodeOptions,
+              garrow_project_node_options,
+              GARROW_TYPE_EXECUTE_NODE_OPTIONS)
+
+static void
+garrow_project_node_options_init(GArrowProjectNodeOptions *object)
+{
+}
+
+static void
+garrow_project_node_options_class_init(GArrowProjectNodeOptionsClass *klass)
+{
+}
+
+/**
+ * garrow_project_node_options_new:
+ * @expressions: (element-type GArrowExpression):
+ *   A list of #GArrowExpression to be executed.
+ * @names: (nullable) (array length=n_names):
+ *   A list of output column names of @expressions. If @names is %NULL,
+ *   the string representations of @expressions will be used.
+ * @n_names: The number of @names.
+ *
+ * Returns: A newly created #GArrowProjectNodeOptions.
+ *
+ * Since: 11.0.0
+ */
+GArrowProjectNodeOptions *
+garrow_project_node_options_new(GList *expressions,
+                                gchar **names,
+                                gsize n_names)
+{
+  std::vector<arrow::compute::Expression> arrow_expressions;
+  std::vector<std::string> arrow_names;
+  for (auto node = expressions; node; node = g_list_next(node)) {
+    auto expression = GARROW_EXPRESSION(node->data);
+    arrow_expressions.push_back(*garrow_expression_get_raw(expression));
+  }
+  for (gsize i = 0; i < n_names; ++i) {
+    arrow_names.emplace_back(names[i]);
+  }
+  if (!arrow_names.empty()) {
+    for (size_t i = arrow_names.size(); i < arrow_expressions.size(); ++i) {
+      arrow_names.push_back(arrow_expressions[i].ToString());
+    }
+  }
+  auto arrow_options =
+    new arrow::compute::ProjectNodeOptions(arrow_expressions, arrow_names);
+  auto options = g_object_new(GARROW_TYPE_PROJECT_NODE_OPTIONS,
+                              "options", arrow_options,
+                              NULL);
+  return GARROW_PROJECT_NODE_OPTIONS(options);
+}
+
+
 typedef struct GArrowAggregationPrivate_ {
   gchar *function;
   GArrowFunctionOptions *options;
@@ -1296,7 +1353,7 @@ garrow_aggregate_node_options_new(GList *aggregations,
 
 
 typedef struct GArrowSinkNodeOptionsPrivate_ {
-  arrow::AsyncGenerator<arrow::util::optional<arrow::compute::ExecBatch>> generator;
+  arrow::AsyncGenerator<std::optional<arrow::compute::ExecBatch>> generator;
   GArrowRecordBatchReader *reader;
 } GArrowSinkNodeOptionsPrivate;
 
@@ -1333,7 +1390,7 @@ garrow_sink_node_options_init(GArrowSinkNodeOptions *object)
 {
   auto priv = GARROW_SINK_NODE_OPTIONS_GET_PRIVATE(object);
   new(&(priv->generator))
-    arrow::AsyncGenerator<arrow::util::optional<arrow::compute::ExecBatch>>();
+    arrow::AsyncGenerator<std::optional<arrow::compute::ExecBatch>>();
 }
 
 static void
@@ -1771,6 +1828,39 @@ garrow_execute_plan_build_source_node(GArrowExecutePlan *plan,
                                         error);
 }
 
+/**
+ * garrow_execute_plan_build_project_node:
+ * @plan: A #GArrowExecutePlan.
+ * @input: A #GArrowExecuteNode.
+ * @options: A #GArrowProjectNodeOptions.
+ * @error: (nullable): Return location for a #GError or %NULL.
+ *
+ * This is a shortcut of garrow_execute_plan_build_node() for project
+ * node.
+ *
+ * Returns: (transfer full): A newly built and added #GArrowExecuteNode
+ *   for project on success, %NULL on error.
+ *
+ * Since: 11.0.0
+ */
+GArrowExecuteNode *
+garrow_execute_plan_build_project_node(GArrowExecutePlan *plan,
+                                       GArrowExecuteNode *input,
+                                       GArrowProjectNodeOptions *options,
+                                       GError **error)
+{
+  GList *inputs = nullptr;
+  inputs = g_list_prepend(inputs, input);
+  auto node =
+    garrow_execute_plan_build_node(plan,
+                                   "project",
+                                   inputs,
+                                   GARROW_EXECUTE_NODE_OPTIONS(options),
+                                   error);
+  g_list_free(inputs);
+  return node;
+}
+
 /**
  * garrow_execute_plan_build_aggregate_node:
  * @plan: A #GArrowExecutePlan.
@@ -1931,16 +2021,21 @@ garrow_execute_plan_stop(GArrowExecutePlan *plan)
 /**
  * garrow_execute_plan_wait:
  * @plan: A #GArrowExecutePlan.
+ * @error: (nullable): Return location for a #GError or %NULL.
  *
  * Waits for finishing this plan.
  *
+ * Returns: %TRUE on success, %FALSE on error.
+ *
  * Since: 6.0.0
  */
-void
-garrow_execute_plan_wait(GArrowExecutePlan *plan)
+gboolean
+garrow_execute_plan_wait(GArrowExecutePlan *plan, GError **error)
 {
   auto arrow_plan = garrow_execute_plan_get_raw(plan);
   arrow_plan->finished().Wait();
+  return garrow::check(error, arrow_plan->finished().status(),
+                       "[execute-plan][wait]");
 }
 
 
@@ -5121,7 +5216,7 @@ GArrowFunctionOptions *
 garrow_function_options_new_raw(
   const arrow::compute::FunctionOptions *arrow_options)
 {
-  arrow::util::string_view arrow_type_name(arrow_options->type_name());
+  std::string_view arrow_type_name(arrow_options->type_name());
   if (arrow_type_name == "CastOptions") {
     auto arrow_cast_options =
       static_cast<const arrow::compute::CastOptions *>(arrow_options);
diff --git a/c_glib/arrow-glib/compute.h b/c_glib/arrow-glib/compute.h
index a9ba6c2af94..1ac1d05258c 100644
--- a/c_glib/arrow-glib/compute.h
+++ b/c_glib/arrow-glib/compute.h
@@ -156,6 +156,24 @@ GArrowSourceNodeOptions *
 garrow_source_node_options_new_table(GArrowTable *table);
 
 
+#define GARROW_TYPE_PROJECT_NODE_OPTIONS (garrow_project_node_options_get_type())
+G_DECLARE_DERIVABLE_TYPE(GArrowProjectNodeOptions,
+                         garrow_project_node_options,
+                         GARROW,
+                         PROJECT_NODE_OPTIONS,
+                         GArrowExecuteNodeOptions)
+struct _GArrowProjectNodeOptionsClass
+{
+  GArrowExecuteNodeOptionsClass parent_class;
+};
+
+GARROW_AVAILABLE_IN_11_0
+GArrowProjectNodeOptions *
+garrow_project_node_options_new(GList *expressions,
+                                gchar **names,
+                                gsize n_names);
+
+
 #define GARROW_TYPE_AGGREGATION (garrow_aggregation_get_type())
 G_DECLARE_DERIVABLE_TYPE(GArrowAggregation,
                          garrow_aggregation,
@@ -321,6 +339,12 @@ GArrowExecuteNode *
 garrow_execute_plan_build_source_node(GArrowExecutePlan *plan,
                                       GArrowSourceNodeOptions *options,
                                       GError **error);
+GARROW_AVAILABLE_IN_11_0
+GArrowExecuteNode *
+garrow_execute_plan_build_project_node(GArrowExecutePlan *plan,
+                                       GArrowExecuteNode *input,
+                                       GArrowProjectNodeOptions *options,
+                                       GError **error);
 GARROW_AVAILABLE_IN_6_0
 GArrowExecuteNode *
 garrow_execute_plan_build_aggregate_node(GArrowExecutePlan *plan,
@@ -352,8 +376,9 @@ GARROW_AVAILABLE_IN_6_0
 void
 garrow_execute_plan_stop(GArrowExecutePlan *plan);
 GARROW_AVAILABLE_IN_6_0
-void
-garrow_execute_plan_wait(GArrowExecutePlan *plan);
+gboolean
+garrow_execute_plan_wait(GArrowExecutePlan *plan,
+                         GError **error);
 
 
 GArrowCastOptions *garrow_cast_options_new(void);
diff --git a/c_glib/arrow-glib/input-stream.cpp b/c_glib/arrow-glib/input-stream.cpp
index e1e46c7df10..844c83d629b 100644
--- a/c_glib/arrow-glib/input-stream.cpp
+++ b/c_glib/arrow-glib/input-stream.cpp
@@ -20,7 +20,6 @@
 #include <arrow/io/interfaces.h>
 #include <arrow/io/memory.h>
 #include <arrow/ipc/reader.h>
-#include <arrow/util/string_view.h>
 
 #include <arrow-glib/buffer.hpp>
 #include <arrow-glib/codec.hpp>
@@ -34,6 +33,7 @@
 #include <arrow-glib/tensor.hpp>
 
 #include <mutex>
+#include <string_view>
 
 G_BEGIN_DECLS
 
@@ -855,7 +855,7 @@ namespace garrow {
       }
     }
 
-    arrow::Result<arrow::util::string_view> Peek(int64_t nbytes) override {
+    arrow::Result<std::string_view> Peek(int64_t nbytes) override {
       if (!G_IS_BUFFERED_INPUT_STREAM(input_stream_)) {
         std::string message("[gio-input-stream][peek] "
                             "not peekable input stream: <");
@@ -882,8 +882,7 @@ namespace garrow {
       if (data_size > static_cast<gsize>(nbytes)) {
         data_size = nbytes;
       }
-      return arrow::util::string_view(static_cast<const char *>(data),
-                                      data_size);
+      return std::string_view(static_cast<const char *>(data), data_size);
     }
 
     arrow::Status Seek(int64_t position) override {
diff --git a/c_glib/arrow-glib/scalar.cpp b/c_glib/arrow-glib/scalar.cpp
index f8699f34eea..24f9b2caad5 100644
--- a/c_glib/arrow-glib/scalar.cpp
+++ b/c_glib/arrow-glib/scalar.cpp
@@ -57,6 +57,8 @@ G_BEGIN_DECLS
  *
  * #GArrowUInt64Scalar is a class for a 64-bit unsigned integer scalar.
  *
+ * #GArrowHalfFloatScalar is a class for a 16-bit floating point scalar.
+ *
  * #GArrowFloatScalar is a class for a 32-bit floating point scalar.
  *
  * #GArrowDoubleScalar is a class for a 64-bit floating point scalar.
@@ -250,9 +252,8 @@ garrow_scalar_parse(GArrowDataType *data_type,
                     GError **error)
 {
   const auto arrow_data_type = garrow_data_type_get_raw(data_type);
-  auto arrow_data =
-    arrow::util::string_view(reinterpret_cast<const char *>(data),
-                             size);
+  auto arrow_data = std::string_view(reinterpret_cast<const char *>(data),
+                                     size);
   auto arrow_scalar_result = arrow::Scalar::Parse(arrow_data_type, arrow_data);
   if (garrow::check(error, arrow_scalar_result, "[scalar][parse]")) {
     auto arrow_scalar = *arrow_scalar_result;
@@ -868,6 +869,55 @@ garrow_uint64_scalar_get_value(GArrowUInt64Scalar *scalar)
 }
 
 
+G_DEFINE_TYPE(GArrowHalfFloatScalar,
+              garrow_half_float_scalar,
+              GARROW_TYPE_SCALAR)
+
+static void
+garrow_half_float_scalar_init(GArrowHalfFloatScalar *object)
+{
+}
+
+static void
+garrow_half_float_scalar_class_init(GArrowHalfFloatScalarClass *klass)
+{
+}
+
+/**
+ * garrow_half_float_scalar_new:
+ * @value: The value of this scalar.
+ *
+ * Returns: A newly created #GArrowHalfFloatScalar.
+ *
+ * Since: 11.0.0
+ */
+GArrowHalfFloatScalar *
+garrow_half_float_scalar_new(guint16 value)
+{
+  auto arrow_scalar =
+    std::static_pointer_cast<arrow::Scalar>(
+      std::make_shared<arrow::HalfFloatScalar>(value));
+  return GARROW_HALF_FLOAT_SCALAR(garrow_scalar_new_raw(&arrow_scalar));
+}
+
+/**
+ * garrow_half_float_scalar_get_value:
+ * @scalar: A #GArrowHalfFloatScalar.
+ *
+ * Returns: The value of this scalar.
+ *
+ * Since: 11.0.0
+ */
+guint16
+garrow_half_float_scalar_get_value(GArrowHalfFloatScalar *scalar)
+{
+  const auto arrow_scalar =
+    std::static_pointer_cast<arrow::HalfFloatScalar>(
+      garrow_scalar_get_raw(GARROW_SCALAR(scalar)));
+  return arrow_scalar->value;
+}
+
+
 G_DEFINE_TYPE(GArrowFloatScalar,
               garrow_float_scalar,
               GARROW_TYPE_SCALAR)
@@ -2552,6 +2602,9 @@ garrow_scalar_new_raw_valist(std::shared_ptr<arrow::Scalar> *arrow_scalar,
   case arrow::Type::type::UINT64:
     type = GARROW_TYPE_UINT64_SCALAR;
     break;
+  case arrow::Type::type::HALF_FLOAT:
+    type = GARROW_TYPE_HALF_FLOAT_SCALAR;
+    break;
   case arrow::Type::type::FLOAT:
     type = GARROW_TYPE_FLOAT_SCALAR;
     break;
diff --git a/c_glib/arrow-glib/scalar.h b/c_glib/arrow-glib/scalar.h
index 3fa00597ca1..f90160e35e0 100644
--- a/c_glib/arrow-glib/scalar.h
+++ b/c_glib/arrow-glib/scalar.h
@@ -256,6 +256,25 @@ guint64
 garrow_uint64_scalar_get_value(GArrowUInt64Scalar *scalar);
 
 
+#define GARROW_TYPE_HALF_FLOAT_SCALAR (garrow_half_float_scalar_get_type())
+G_DECLARE_DERIVABLE_TYPE(GArrowHalfFloatScalar,
+                         garrow_half_float_scalar,
+                         GARROW,
+                         HALF_FLOAT_SCALAR,
+                         GArrowScalar)
+struct _GArrowHalfFloatScalarClass
+{
+  GArrowScalarClass parent_class;
+};
+
+GARROW_AVAILABLE_IN_11_0
+GArrowHalfFloatScalar *
+garrow_half_float_scalar_new(guint16 value);
+GARROW_AVAILABLE_IN_11_0
+guint16
+garrow_half_float_scalar_get_value(GArrowHalfFloatScalar *scalar);
+
+
 #define GARROW_TYPE_FLOAT_SCALAR (garrow_float_scalar_get_type())
 G_DECLARE_DERIVABLE_TYPE(GArrowFloatScalar,
                          garrow_float_scalar,
diff --git a/c_glib/arrow-glib/tensor.cpp b/c_glib/arrow-glib/tensor.cpp
index 7e6dc80f5dd..ddbf1189b91 100644
--- a/c_glib/arrow-glib/tensor.cpp
+++ b/c_glib/arrow-glib/tensor.cpp
@@ -162,7 +162,7 @@ garrow_tensor_class_init(GArrowTensorClass *klass)
  * @n_strides: The number of strides.
  * @dimension_names: (array length=n_dimension_names) (nullable): A list of
  *   dimension names.
- * @n_dimension_names: The number of dimension names
+ * @n_dimension_names: A list of dimension names
  *
  * Returns: The newly created #GArrowTensor.
  *
diff --git a/c_glib/arrow-glib/version.h.in b/c_glib/arrow-glib/version.h.in
index 74c54b998d6..bd67ed6b8b9 100644
--- a/c_glib/arrow-glib/version.h.in
+++ b/c_glib/arrow-glib/version.h.in
@@ -110,6 +110,24 @@
 #  define GARROW_UNAVAILABLE(major, minor) G_UNAVAILABLE(major, minor)
 #endif
 
+/**
+ * GARROW_VERSION_11_0:
+ *
+ * You can use this macro value for compile time API version check.
+ *
+ * Since: 11.0.0
+ */
+#define GARROW_VERSION_11_0 G_ENCODE_VERSION(11, 0)
+
+/**
+ * GARROW_VERSION_10_0:
+ *
+ * You can use this macro value for compile time API version check.
+ *
+ * Since: 10.0.0
+ */
+#define GARROW_VERSION_10_0 G_ENCODE_VERSION(10, 0)
+
 /**
  * GARROW_VERSION_9_0:
  *
@@ -301,6 +319,34 @@
 
 #define GARROW_AVAILABLE_IN_ALL
 
+#if GARROW_VERSION_MIN_REQUIRED >= GARROW_VERSION_11_0
+#  define GARROW_DEPRECATED_IN_11_0                GARROW_DEPRECATED
+#  define GARROW_DEPRECATED_IN_11_0_FOR(function)  GARROW_DEPRECATED_FOR(function)
+#else
+#  define GARROW_DEPRECATED_IN_11_0
+#  define GARROW_DEPRECATED_IN_11_0_FOR(function)
+#endif
+
+#if GARROW_VERSION_MAX_ALLOWED < GARROW_VERSION_11_0
+#  define GARROW_AVAILABLE_IN_11_0 GARROW_UNAVAILABLE(11, 0)
+#else
+#  define GARROW_AVAILABLE_IN_11_0
+#endif
+
+#if GARROW_VERSION_MIN_REQUIRED >= GARROW_VERSION_10_0
+#  define GARROW_DEPRECATED_IN_10_0                GARROW_DEPRECATED
+#  define GARROW_DEPRECATED_IN_10_0_FOR(function)  GARROW_DEPRECATED_FOR(function)
+#else
+#  define GARROW_DEPRECATED_IN_10_0
+#  define GARROW_DEPRECATED_IN_10_0_FOR(function)
+#endif
+
+#if GARROW_VERSION_MAX_ALLOWED < GARROW_VERSION_10_0
+#  define GARROW_AVAILABLE_IN_10_0 GARROW_UNAVAILABLE(10, 0)
+#else
+#  define GARROW_AVAILABLE_IN_10_0
+#endif
+
 #if GARROW_VERSION_MIN_REQUIRED >= GARROW_VERSION_9_0
 #  define GARROW_DEPRECATED_IN_9_0                GARROW_DEPRECATED
 #  define GARROW_DEPRECATED_IN_9_0_FOR(function)  GARROW_DEPRECATED_FOR(function)
diff --git a/c_glib/doc/arrow-dataset-glib/arrow-dataset-glib-docs.xml b/c_glib/doc/arrow-dataset-glib/arrow-dataset-glib-docs.xml
index b13195b0703..e6066379ceb 100644
--- a/c_glib/doc/arrow-dataset-glib/arrow-dataset-glib-docs.xml
+++ b/c_glib/doc/arrow-dataset-glib/arrow-dataset-glib-docs.xml
@@ -68,6 +68,10 @@
     <title>Index of deprecated API</title>
     <xi:include href="xml/api-index-deprecated.xml"><xi:fallback /></xi:include>
   </index>
+  <index id="api-index-11-0-0" role="11.0.0">
+    <title>Index of new symbols in 11.0.0</title>
+    <xi:include href="xml/api-index-11.0.0.xml"><xi:fallback /></xi:include>
+  </index>
   <index id="api-index-6-0-0" role="6.0.0">
     <title>Index of new symbols in 6.0.0</title>
     <xi:include href="xml/api-index-6.0.0.xml"><xi:fallback /></xi:include>
diff --git a/c_glib/doc/arrow-glib/arrow-glib-docs.xml b/c_glib/doc/arrow-glib/arrow-glib-docs.xml
index 2ad1135bc69..e6990af5593 100644
--- a/c_glib/doc/arrow-glib/arrow-glib-docs.xml
+++ b/c_glib/doc/arrow-glib/arrow-glib-docs.xml
@@ -193,6 +193,14 @@
     <title>Index of deprecated API</title>
     <xi:include href="xml/api-index-deprecated.xml"><xi:fallback /></xi:include>
   </index>
+  <index id="api-index-11-0-0" role="11.0.0">
+    <title>Index of new symbols in 11.0.0</title>
+    <xi:include href="xml/api-index-11.0.0.xml"><xi:fallback /></xi:include>
+  </index>
+  <index id="api-index-10-0-0" role="10.0.0">
+    <title>Index of new symbols in 10.0.0</title>
+    <xi:include href="xml/api-index-10.0.0.xml"><xi:fallback /></xi:include>
+  </index>
   <index id="api-index-9-0-0" role="9.0.0">
     <title>Index of new symbols in 9.0.0</title>
     <xi:include href="xml/api-index-9.0.0.xml"><xi:fallback /></xi:include>
diff --git a/c_glib/gandiva-glib/node.cpp b/c_glib/gandiva-glib/node.cpp
index d42d4801b7e..1ced7754a70 100644
--- a/c_glib/gandiva-glib/node.cpp
+++ b/c_glib/gandiva-glib/node.cpp
@@ -29,7 +29,7 @@ ggandiva_literal_node_get(GGandivaLiteralNode *node)
 {
   auto gandiva_literal_node =
     std::static_pointer_cast<gandiva::LiteralNode>(ggandiva_node_get_raw(GGANDIVA_NODE(node)));
-  return arrow::util::get<Type>(gandiva_literal_node->holder());
+  return std::get<Type>(gandiva_literal_node->holder());
 }
 
 G_BEGIN_DECLS
diff --git a/c_glib/meson.build b/c_glib/meson.build
index 85d3a75d423..57a0e74d95e 100644
--- a/c_glib/meson.build
+++ b/c_glib/meson.build
@@ -21,10 +21,10 @@ project('arrow-glib', 'c', 'cpp',
         license: 'Apache-2.0',
         default_options: [
           'c_std=c99',
-          'cpp_std=c++11',
+          'cpp_std=c++17',
         ])
 
-version = '10.0.0-SNAPSHOT'
+version = '11.0.0'
 if version.endswith('-SNAPSHOT')
   version_numbers = version.split('-')[0].split('.')
   version_tag = version.split('-')[1]
diff --git a/c_glib/parquet-glib/arrow-file-writer.cpp b/c_glib/parquet-glib/arrow-file-writer.cpp
index c53bb94cebd..537e8330532 100644
--- a/c_glib/parquet-glib/arrow-file-writer.cpp
+++ b/c_glib/parquet-glib/arrow-file-writer.cpp
@@ -422,25 +422,24 @@ gparquet_arrow_file_writer_new_arrow(GArrowSchema *schema,
   auto arrow_output_stream = garrow_output_stream_get_raw(sink);
   auto arrow_memory_pool = arrow::default_memory_pool();
   std::unique_ptr<parquet::arrow::FileWriter> parquet_arrow_file_writer;
-  arrow::Status status;
+  arrow::Result<std::unique_ptr<parquet::arrow::FileWriter>> maybe_writer;
   if (writer_properties) {
     auto parquet_writer_properties = gparquet_writer_properties_get_raw(writer_properties);
-    status = parquet::arrow::FileWriter::Open(*arrow_schema,
-                                              arrow_memory_pool,
-                                              arrow_output_stream,
-                                              parquet_writer_properties,
-                                              &parquet_arrow_file_writer);
+    maybe_writer = parquet::arrow::FileWriter::Open(*arrow_schema,
+                                                    arrow_memory_pool,
+                                                    arrow_output_stream,
+                                                    parquet_writer_properties);
   } else {
     auto parquet_writer_properties = parquet::default_writer_properties();
-    status = parquet::arrow::FileWriter::Open(*arrow_schema,
-                                              arrow_memory_pool,
-                                              arrow_output_stream,
-                                              parquet_writer_properties,
-                                              &parquet_arrow_file_writer);
+    maybe_writer = parquet::arrow::FileWriter::Open(*arrow_schema,
+                                                    arrow_memory_pool,
+                                                    arrow_output_stream,
+                                                    parquet_writer_properties);
   }
-  if (garrow_error_check(error,
-                         status,
-                         "[parquet][arrow][file-writer][new-arrow]")) {
+  if (garrow::check(error,
+                    maybe_writer,
+                    "[parquet][arrow][file-writer][new-arrow]")) {
+    parquet_arrow_file_writer = std::move(*maybe_writer);
     return gparquet_arrow_file_writer_new_raw(parquet_arrow_file_writer.release());
   } else {
     return NULL;
@@ -477,25 +476,24 @@ gparquet_arrow_file_writer_new_path(GArrowSchema *schema,
     arrow_file_output_stream.ValueOrDie();
   auto arrow_memory_pool = arrow::default_memory_pool();
   std::unique_ptr<parquet::arrow::FileWriter> parquet_arrow_file_writer;
-  arrow::Status status;
+  arrow::Result<std::unique_ptr<parquet::arrow::FileWriter>> maybe_writer;
   if (writer_properties) {
     auto parquet_writer_properties = gparquet_writer_properties_get_raw(writer_properties);
-    status = parquet::arrow::FileWriter::Open(*arrow_schema,
-                                              arrow_memory_pool,
-                                              arrow_output_stream,
-                                              parquet_writer_properties,
-                                              &parquet_arrow_file_writer);
+    maybe_writer = parquet::arrow::FileWriter::Open(*arrow_schema,
+                                                    arrow_memory_pool,
+                                                    arrow_output_stream,
+                                                    parquet_writer_properties);
   } else {
     auto parquet_writer_properties = parquet::default_writer_properties();
-    status = parquet::arrow::FileWriter::Open(*arrow_schema,
-                                              arrow_memory_pool,
-                                              arrow_output_stream,
-                                              parquet_writer_properties,
-                                              &parquet_arrow_file_writer);
+    maybe_writer = parquet::arrow::FileWriter::Open(*arrow_schema,
+                                                    arrow_memory_pool,
+                                                    arrow_output_stream,
+                                                    parquet_writer_properties);
   }
   if (garrow::check(error,
-                    status,
+                    maybe_writer,
                     "[parquet][arrow][file-writer][new-path]")) {
+    parquet_arrow_file_writer = std::move(*maybe_writer);
     return gparquet_arrow_file_writer_new_raw(parquet_arrow_file_writer.release());
   } else {
     return NULL;
diff --git a/c_glib/plasma-glib/client.cpp b/c_glib/plasma-glib/client.cpp
index 26476f4d6b5..1cc3b6a80a6 100644
--- a/c_glib/plasma-glib/client.cpp
+++ b/c_glib/plasma-glib/client.cpp
@@ -35,6 +35,9 @@ G_BEGIN_DECLS
  * @title: Client related classes
  * @include: plasma-glib/plasma-glib.h
  *
+ * Apache Arrow Plasma C GLib is deprecated since 10.0.0. This will be
+ * removed from 12.0.0 or so.
+ *
  * #GPlasmaClientOptions is a class for customizing plasma store
  * connection.
  *
diff --git a/c_glib/plasma-glib/meson.build b/c_glib/plasma-glib/meson.build
index cf811d42b72..50b0be0b31d 100644
--- a/c_glib/plasma-glib/meson.build
+++ b/c_glib/plasma-glib/meson.build
@@ -17,6 +17,9 @@
 # specific language governing permissions and limitations
 # under the License.
 
+warning('Apache Arrow Plasma C GLib is deprecated since 10.0.0. ' +
+        'This will be removed from 12.0.0 or so.')
+
 project_name = 'plasma-glib'
 
 sources = files(
@@ -46,6 +49,7 @@ dependencies = [
 ]
 cpp_args = [
   '-DG_LOG_DOMAIN="Plasma"',
+  '-D_PLASMA_NO_DEPRECATE',
 ]
 pkg_config_requires = [
   'plasma',
diff --git a/c_glib/plasma-glib/object.cpp b/c_glib/plasma-glib/object.cpp
index 121afb1cf84..8bf0d4b0772 100644
--- a/c_glib/plasma-glib/object.cpp
+++ b/c_glib/plasma-glib/object.cpp
@@ -30,6 +30,9 @@ G_BEGIN_DECLS
  * @title: Object related classes
  * @include: plasma-glib/plasma-glib.h
  *
+ * Apache Arrow Plasma C GLib is deprecated since 10.0.0. This will be
+ * removed from 12.0.0 or so.
+ *
  * #GPlasmaObjectID is a class for an object ID.
  *
  * #GPlasmaObject is a base class for an object stored in plasma store.
diff --git a/c_glib/test/dataset/test-file-system-dataset-factory.rb b/c_glib/test/dataset/test-file-system-dataset-factory.rb
index bca9e72418c..30944ccd3bb 100644
--- a/c_glib/test/dataset/test-file-system-dataset-factory.rb
+++ b/c_glib/test/dataset/test-file-system-dataset-factory.rb
@@ -70,4 +70,51 @@ def test_directory
     assert_equal(@table1.concatenate([@table2]),
                  dataset.to_table)
   end
+
+  sub_test_case("#finish") do
+    def setup
+      super do
+        @factory = ArrowDataset::FileSystemDatasetFactory.new(@format)
+        @factory.file_system_uri = build_file_uri(@path1)
+        yield
+      end
+    end
+
+    def test_schema
+      options = ArrowDataset::FinishOptions.new
+      options.schema = build_schema(visible: Arrow::BooleanDataType.new,
+                                    point: Arrow::Int16DataType.new)
+      dataset = @factory.finish(options)
+      assert_equal(build_table(visible: [
+                                 build_boolean_array([true, false, true]),
+                                 build_boolean_array([false, true, false, true]),
+                               ],
+                               point: [
+                                 build_int16_array([1, 2, 3]),
+                                 build_int16_array([-1, -2, -3, -4]),
+                               ]),
+                   dataset.to_table)
+    end
+
+    def test_inspect_n_fragments
+      options = ArrowDataset::FinishOptions.new
+      options.inspect_n_fragments = -1
+      dataset = @factory.finish(options)
+      assert_equal(@table1, dataset.to_table)
+    end
+
+    def test_validate_fragments
+      options = ArrowDataset::FinishOptions.new
+      options.schema = build_schema(visible: Arrow::BooleanDataType.new,
+                                    point: Arrow::Int16DataType.new)
+      options.validate_fragments = true
+      message = "[file-system-dataset-factory][finish]: " +
+                "Invalid: Unable to merge: " +
+                "Field point has incompatible types: int16 vs int32"
+      error = assert_raise(Arrow::Error::Invalid) do
+        @factory.finish(options)
+      end
+      assert_equal(message, error.message.lines(chomp: true).first)
+    end
+  end
 end
diff --git a/c_glib/test/dataset/test-partitioning-options.rb b/c_glib/test/dataset/test-partitioning-factory-options.rb
similarity index 92%
rename from c_glib/test/dataset/test-partitioning-options.rb
rename to c_glib/test/dataset/test-partitioning-factory-options.rb
index 9ff585aa7cf..7e751d77895 100644
--- a/c_glib/test/dataset/test-partitioning-options.rb
+++ b/c_glib/test/dataset/test-partitioning-factory-options.rb
@@ -15,12 +15,12 @@
 # specific language governing permissions and limitations
 # under the License.
 
-class TestDatasetPartitioningOptions < Test::Unit::TestCase
+class TestDatasetPartitioningFactoryOptions < Test::Unit::TestCase
   include Helper::Buildable
 
   def setup
     omit("Arrow Dataset is required") unless defined?(ArrowDataset)
-    @options = ArrowDataset::PartitioningOptions.new
+    @options = ArrowDataset::PartitioningFactoryOptions.new
   end
 
   def test_infer_dictionary
diff --git a/c_glib/test/dataset/test-partitioning.rb b/c_glib/test/dataset/test-partitioning.rb
index 2b33b1eaaac..a74a9bb7273 100644
--- a/c_glib/test/dataset/test-partitioning.rb
+++ b/c_glib/test/dataset/test-partitioning.rb
@@ -23,7 +23,7 @@ def setup
   end
 
   def test_default
-    assert_equal("default", ArrowDataset::Partitioning.new.type_name)
+    assert_equal("default", ArrowDataset::DefaultPartitioning.new.type_name)
   end
 
   def test_directory
@@ -31,4 +31,31 @@ def test_directory
     partitioning = ArrowDataset::DirectoryPartitioning.new(schema)
     assert_equal("directory", partitioning.type_name)
   end
+
+  def test_directory_options
+    schema = build_schema(year: Arrow::UInt16DataType.new)
+    options = ArrowDataset::KeyValuePartitioningOptions.new
+    options.segment_encoding = :none
+    partitioning = ArrowDataset::DirectoryPartitioning.new(schema,
+                                                           nil,
+                                                           options)
+    assert_equal("directory", partitioning.type_name)
+  end
+
+  def test_hive
+    schema = build_schema(year: Arrow::UInt16DataType.new)
+    partitioning = ArrowDataset::HivePartitioning.new(schema)
+    assert_equal("hive", partitioning.type_name)
+  end
+
+  def test_hive_options
+    schema = build_schema(year: Arrow::UInt16DataType.new)
+    options = ArrowDataset::HivePartitioningOptions.new
+    options.segment_encoding = :none
+    options.null_fallback = "NULL"
+    partitioning = ArrowDataset::HivePartitioning.new(schema,
+                                                      nil,
+                                                      options)
+    assert_equal("NULL", partitioning.null_fallback)
+  end
 end
diff --git a/c_glib/test/helper/buildable.rb b/c_glib/test/helper/buildable.rb
index 3a1240cfa1f..29d7b6ba03b 100644
--- a/c_glib/test/helper/buildable.rb
+++ b/c_glib/test/helper/buildable.rb
@@ -72,6 +72,10 @@ def build_uint64_array(values)
       build_array(Arrow::UInt64ArrayBuilder.new, values)
     end
 
+    def build_half_float_array(values)
+      build_array(Arrow::HalfFloatArrayBuilder.new, values)
+    end
+
     def build_float_array(values)
       build_array(Arrow::FloatArrayBuilder.new, values)
     end
diff --git a/c_glib/test/test-chunked-array.rb b/c_glib/test/test-chunked-array.rb
index 8f912ac846b..86bd23af6f5 100644
--- a/c_glib/test/test-chunked-array.rb
+++ b/c_glib/test/test-chunked-array.rb
@@ -18,6 +18,12 @@
 class TestChunkedArray < Test::Unit::TestCase
   include Helper::Buildable
 
+  def test_empty
+    chunked_array = Arrow::ChunkedArray.new(Arrow::BooleanDataType.new)
+    assert_equal(Arrow::BooleanDataType.new,
+                 chunked_array.value_data_type)
+  end
+
   def test_equal
     chunks1 = [
       build_boolean_array([true, false]),
diff --git a/c_glib/test/test-half-float-array.rb b/c_glib/test/test-half-float-array.rb
new file mode 100644
index 00000000000..776efe631a9
--- /dev/null
+++ b/c_glib/test/test-half-float-array.rb
@@ -0,0 +1,66 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+class TestHalfFloatArray < Test::Unit::TestCase
+  include Helper::Buildable
+  include Helper::Omittable
+
+  def setup
+    @one = 0x3c00
+    @zero = 0x0000
+    @positive_infinity = 0x8c00
+  end
+
+  def test_new
+    values = [@one, @zero, @positive_infinity, nil]
+    data = values[0..-2].pack("S*")
+    null_bitmap = [0b0111].pack("C*")
+    assert_equal(build_half_float_array(values),
+                 Arrow::HalfFloatArray.new(4,
+                                           Arrow::Buffer.new(data),
+                                           Arrow::Buffer.new(null_bitmap),
+                                           -1))
+  end
+
+  def test_buffer
+    builder = Arrow::HalfFloatArrayBuilder.new
+    builder.append_value(@one)
+    builder.append_value(@zero)
+    builder.append_value(@positive_infinity)
+    array = builder.finish
+    assert_equal([@one, @zero, @positive_infinity].pack("S*"),
+                 array.buffer.data.to_s)
+  end
+
+  def test_value
+    builder = Arrow::HalfFloatArrayBuilder.new
+    builder.append_value(@one)
+    array = builder.finish
+    assert_in_delta(@one, array.get_value(0))
+  end
+
+  def test_values
+    require_gi_bindings(3, 1, 7)
+    builder = Arrow::HalfFloatArrayBuilder.new
+    builder.append_value(@one)
+    builder.append_value(@zero)
+    builder.append_value(@positive_infinity)
+    array = builder.finish
+    assert_equal([@one, @zero, @positive_infinity],
+                 array.values)
+  end
+end
diff --git a/c_glib/test/test-half-float-data-type.rb b/c_glib/test/test-half-float-data-type.rb
new file mode 100644
index 00000000000..8656fb9309a
--- /dev/null
+++ b/c_glib/test/test-half-float-data-type.rb
@@ -0,0 +1,33 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+class TestHalfFloatDataType < Test::Unit::TestCase
+  def test_type
+    data_type = Arrow::HalfFloatDataType.new
+    assert_equal(Arrow::Type::HALF_FLOAT, data_type.id)
+  end
+
+  def test_name
+    data_type = Arrow::HalfFloatDataType.new
+    assert_equal("halffloat", data_type.name)
+  end
+
+  def test_to_s
+    data_type = Arrow::HalfFloatDataType.new
+    assert_equal("halffloat", data_type.to_s)
+  end
+end
diff --git a/cpp/src/arrow/python/ArrowPythonConfig.cmake.in b/c_glib/test/test-half-float-scalar.rb
similarity index 53%
rename from cpp/src/arrow/python/ArrowPythonConfig.cmake.in
rename to c_glib/test/test-half-float-scalar.rb
index 4cae0c2df5c..ac41f91ece6 100644
--- a/cpp/src/arrow/python/ArrowPythonConfig.cmake.in
+++ b/c_glib/test/test-half-float-scalar.rb
@@ -14,23 +14,37 @@
 # KIND, either express or implied.  See the License for the
 # specific language governing permissions and limitations
 # under the License.
-#
-# This config sets the following variables in your project::
-#
-#   ArrowPython_FOUND - true if Arrow Python found on the system
-#
-# This config sets the following targets in your project::
-#
-#   arrow_python_shared - for linked as shared library if shared library is built
-#   arrow_python_static - for linked as static library if static library is built
 
-@PACKAGE_INIT@
+class TestHalfFloatScalar < Test::Unit::TestCase
+  def setup
+    @half_float = 0x3c01 # 1.0009765625
+    @scalar = Arrow::HalfFloatScalar.new(@half_float)
+  end
+
+  def test_data_type
+    assert_equal(Arrow::HalfFloatDataType.new,
+                 @scalar.data_type)
+  end
+
+  def test_valid?
+    assert do
+      @scalar.valid?
+    end
+  end
+
+  def test_equal
+    options = Arrow::EqualOptions.new
+    options.approx = true
+    assert do
+      @scalar.equal_options(Arrow::HalfFloatScalar.new(@half_float), options)
+    end
+  end
 
-include(CMakeFindDependencyMacro)
-find_dependency(Arrow)
+  def test_to_s
+    assert_equal("[\n  #{@half_float}\n]", @scalar.to_s)
+  end
 
-# Load targets only once. If we load targets multiple times, CMake reports
-# already existent target error.
-if(NOT (TARGET arrow_python_shared OR TARGET arrow_python_static))
-  include("${CMAKE_CURRENT_LIST_DIR}/ArrowPythonTargets.cmake")
-endif()
+  def test_value
+    assert_in_delta(@half_float, @scalar.value)
+  end
+end
diff --git a/c_glib/test/test-orc-file-reader.rb b/c_glib/test/test-orc-file-reader.rb
index 38900cf12f3..6626c67c3ab 100644
--- a/c_glib/test/test-orc-file-reader.rb
+++ b/c_glib/test/test-orc-file-reader.rb
@@ -185,8 +185,8 @@ def all_columns
     test("select fields") do
       require_gi_bindings(3, 2, 6)
       @reader.field_indices = [1, 3]
-      assert_equal(build_table("boolean1" => build_boolean_array([false, true]),
-                               "short1" => build_int16_array([1024, 2048])),
+      assert_equal(build_table("byte1" => build_int8_array([1, 100]),
+                               "int1" => build_int32_array([65536, 65536])),
                    @reader.read_stripes)
     end
   end
@@ -200,10 +200,8 @@ def all_columns
     test("select fields") do
       require_gi_bindings(3, 2, 6)
       @reader.field_indices = [1, 3]
-      boolean1 = build_boolean_array([false, true])
-      short1 = build_int16_array([1024, 2048])
-      assert_equal(build_record_batch("boolean1" => boolean1,
-                                      "short1" => short1),
+      assert_equal(build_record_batch("byte1" => build_int8_array([1, 100]),
+                                      "int1" => build_int32_array([65536, 65536])),
                    @reader.read_stripe(0))
     end
   end
diff --git a/c_glib/test/test-project-node.rb b/c_glib/test/test-project-node.rb
new file mode 100644
index 00000000000..758f2254530
--- /dev/null
+++ b/c_glib/test/test-project-node.rb
@@ -0,0 +1,83 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+class TestProjectNode < Test::Unit::TestCase
+  include Helper::Buildable
+
+  def execute_plan(options)
+    plan = Arrow::ExecutePlan.new
+    numbers = build_int8_array([1, 2, 3, 4, 5])
+    strings = build_string_array(["a", "b", "a", "b", "a"])
+    table = build_table(number: numbers,
+                        string: strings)
+    source_node_options = Arrow::SourceNodeOptions.new(table)
+    source_node = plan.build_source_node(source_node_options)
+    project_node = plan.build_project_node(source_node, options)
+    sink_node_options = Arrow::SinkNodeOptions.new
+    sink_node = plan.build_sink_node(project_node,
+                                     sink_node_options)
+    plan.validate
+    plan.start
+    plan.wait
+    reader = sink_node_options.get_reader(project_node.output_schema)
+    table = reader.read_all
+    plan.stop
+    table
+  end
+
+  def test_expressions
+    three_scalar = Arrow::Int8Scalar.new(3)
+    three_datum = Arrow::ScalarDatum.new(three_scalar)
+    expressions = [
+      Arrow::FieldExpression.new("number"),
+      Arrow::CallExpression.new("multiply",
+                                [
+                                  Arrow::FieldExpression.new("number"),
+                                  Arrow::LiteralExpression.new(three_datum),
+                                ]),
+    ]
+    options = Arrow::ProjectNodeOptions.new(expressions)
+    assert_equal(build_table("number" => [
+                               build_int8_array([1, 2, 3, 4, 5]),
+                             ],
+                             "multiply(number, 3)" => [
+                               build_int8_array([3, 6, 9, 12, 15]),
+                             ]),
+                 execute_plan(options))
+  end
+
+  def test_names
+    three_scalar = Arrow::Int8Scalar.new(3)
+    three_datum = Arrow::ScalarDatum.new(three_scalar)
+    expressions = [
+      Arrow::CallExpression.new("multiply",
+                                [
+                                  Arrow::FieldExpression.new("number"),
+                                  Arrow::LiteralExpression.new(three_datum),
+                                ]),
+      Arrow::FieldExpression.new("number"),
+    ]
+    options = Arrow::ProjectNodeOptions.new(expressions, ["number * 3"])
+    assert_equal(build_table("number * 3" => [
+                               build_int8_array([3, 6, 9, 12, 15]),
+                             ],
+                             "number" => [
+                               build_int8_array([1, 2, 3, 4, 5]),
+                             ]),
+                 execute_plan(options))
+  end
+end
diff --git a/ci/appveyor-cpp-build.bat b/ci/appveyor-cpp-build.bat
index e2c2d800d0f..0faac67a14a 100644
--- a/ci/appveyor-cpp-build.bat
+++ b/ci/appveyor-cpp-build.bat
@@ -31,51 +31,13 @@ set ARROW_DEBUG_MEMORY_POOL=trap
 set CMAKE_BUILD_PARALLEL_LEVEL=%NUMBER_OF_PROCESSORS%
 set CTEST_PARALLEL_LEVEL=%NUMBER_OF_PROCESSORS%
 
-@rem
-@rem In the configurations below we disable building the Arrow static library
-@rem to save some time.  Unfortunately this will still build the Parquet static
-@rem library because of PARQUET-1420 (Thrift-generated symbols not exported in DLL).
-@rem
-if "%JOB%" == "Build_Debug" (
-  mkdir cpp\build-debug
-  pushd cpp\build-debug
-
-  cmake -G "%GENERATOR%" ^
-        -DARROW_BOOST_USE_SHARED=OFF ^
-        -DARROW_BUILD_EXAMPLES=ON ^
-        -DARROW_BUILD_STATIC=OFF ^
-        -DARROW_BUILD_TESTS=ON ^
-        -DARROW_CXXFLAGS="/MP" ^
-        -DARROW_ENABLE_TIMING_TESTS=OFF ^
-        -DARROW_USE_PRECOMPILED_HEADERS=OFF ^
-        -DARROW_VERBOSE_THIRDPARTY_BUILD=OFF ^
-        -DCMAKE_BUILD_TYPE="Debug" ^
-        -DCMAKE_UNITY_BUILD=ON ^
-        .. || exit /B
-
-  cmake --build . --config Debug || exit /B
-  ctest --output-on-failure || exit /B
-  popd
-
-  @rem Finish Debug build successfully
-  exit /B 0
-)
 
 call activate arrow
 
-@rem Use Boost from Anaconda
-set BOOST_ROOT=%CONDA_PREFIX%\Library
-set BOOST_LIBRARYDIR=%CONDA_PREFIX%\Library\lib
-
 @rem The "main" C++ build script for Windows CI
 @rem (i.e. for usual configurations)
 
-if "%JOB%" == "Toolchain" (
-  set CMAKE_ARGS=-DARROW_DEPENDENCY_SOURCE=CONDA -DARROW_WITH_BZ2=ON
-) else (
-  @rem We're in a conda environment but don't want to use it for the dependencies
-  set CMAKE_ARGS=-DARROW_DEPENDENCY_SOURCE=AUTO
-)
+set CMAKE_ARGS=-DARROW_DEPENDENCY_SOURCE=CONDA -DARROW_WITH_BZ2=ON
 
 @rem Enable warnings-as-errors
 set ARROW_CXXFLAGS=/WX /MP
@@ -98,16 +60,20 @@ cmake -G "%GENERATOR%" %CMAKE_ARGS% ^
       -DARROW_BUILD_EXAMPLES=ON ^
       -DARROW_BUILD_STATIC=OFF ^
       -DARROW_BUILD_TESTS=ON ^
+      -DARROW_COMPUTE=ON ^
       -DARROW_CSV=ON ^
       -DARROW_CXXFLAGS="%ARROW_CXXFLAGS%" ^
       -DARROW_DATASET=ON ^
       -DARROW_ENABLE_TIMING_TESTS=OFF ^
+      -DARROW_FILESYSTEM=ON ^
       -DARROW_FLIGHT=%ARROW_BUILD_FLIGHT% ^
       -DARROW_FLIGHT_SQL=%ARROW_BUILD_FLIGHT_SQL% ^
       -DARROW_GANDIVA=%ARROW_BUILD_GANDIVA% ^
+      -DARROW_HDFS=ON ^
+      -DARROW_JSON=ON ^
       -DARROW_MIMALLOC=ON ^
+      -DARROW_ORC=ON ^
       -DARROW_PARQUET=ON ^
-      -DARROW_PYTHON=ON ^
       -DARROW_S3=%ARROW_S3% ^
       -DARROW_SUBSTRAIT=ON ^
       -DARROW_VERBOSE_THIRDPARTY_BUILD=OFF ^
@@ -117,8 +83,8 @@ cmake -G "%GENERATOR%" %CMAKE_ARGS% ^
       -DARROW_WITH_ZLIB=ON ^
       -DARROW_WITH_ZSTD=ON ^
       -DCMAKE_BUILD_TYPE="Release" ^
-      -DCMAKE_CXX_COMPILER=clcache ^
       -DCMAKE_CXX_FLAGS_RELEASE="/MD /Od /UNDEBUG" ^
+      -DCMAKE_CXX_STANDARD=17 ^
       -DCMAKE_INSTALL_PREFIX=%CONDA_PREFIX%\Library ^
       -DCMAKE_UNITY_BUILD=ON ^
       -DCMAKE_VERBOSE_MAKEFILE=OFF ^
@@ -127,13 +93,11 @@ cmake -G "%GENERATOR%" %CMAKE_ARGS% ^
       ..  || exit /B
 cmake --build . --target install --config Release || exit /B
 
-@rem Needed so arrow-python-test.exe works
-set OLD_PYTHONHOME=%PYTHONHOME%
-set PYTHONHOME=%CONDA_PREFIX%
+@rem For ORC C++
+set TZDIR=%CONDA_PREFIX%\share\zoneinfo
 
 ctest --output-on-failure || exit /B
 
-set PYTHONHOME=%OLD_PYTHONHOME%
 popd
 
 @rem
@@ -153,6 +117,7 @@ set PYARROW_WITH_PARQUET=ON
 set PYARROW_WITH_PARQUET_ENCRYPTION=ON
 set PYARROW_WITH_S3=%ARROW_S3%
 set PYARROW_WITH_STATIC_BOOST=ON
+set PYARROW_WITH_SUBSTRAIT=ON
 
 set ARROW_HOME=%CONDA_PREFIX%\Library
 @rem ARROW-3075; pkgconfig is broken for Parquet for now
diff --git a/ci/appveyor-cpp-setup.bat b/ci/appveyor-cpp-setup.bat
index 1fa126cb0d2..64f930a1613 100644
--- a/ci/appveyor-cpp-setup.bat
+++ b/ci/appveyor-cpp-setup.bat
@@ -17,9 +17,7 @@
 
 @echo on
 
-set "PATH=C:\Miniconda37-x64;C:\Miniconda37-x64\Scripts;C:\Miniconda37-x64\Library\bin;%PATH%"
-set BOOST_ROOT=C:\Libraries\boost_1_67_0
-set BOOST_LIBRARYDIR=C:\Libraries\boost_1_67_0\lib64-msvc-14.0
+set "PATH=C:\Miniconda38-x64;C:\Miniconda38-x64\Scripts;C:\Miniconda38-x64\Library\bin;%PATH%"
 
 @rem
 @rem Avoid picking up AppVeyor-installed OpenSSL (linker errors with gRPC)
@@ -31,6 +29,8 @@ rd /s /q C:\OpenSSL-v11-Win32
 rd /s /q C:\OpenSSL-v11-Win64
 rd /s /q C:\OpenSSL-v111-Win32
 rd /s /q C:\OpenSSL-v111-Win64
+rd /s /q C:\OpenSSL-v30-Win32
+rd /s /q C:\OpenSSL-v30-Win64
 
 @rem
 @rem Configure miniconda
@@ -46,15 +46,14 @@ conda info -a
 @rem
 @rem Install mamba to the base environment
 @rem
-conda install -q -y -c conda-forge mamba python=3.9 || exit /B
+conda install -q -y -c conda-forge mamba python=%PYTHON% || exit /B
 
 @rem Update for newer CA certificates
 mamba update -q -y -c conda-forge --all || exit /B
 
 @rem
-@rem Create conda environment for Build and Toolchain jobs
+@rem Create conda environment
 @rem
-@rem Avoid Boost 1.70 because of https://github.com/boostorg/process/issues/85
 
 set CONDA_PACKAGES=
 
@@ -62,54 +61,33 @@ if "%ARROW_BUILD_GANDIVA%" == "ON" (
   @rem Install llvmdev in the toolchain if building gandiva.dll
   set CONDA_PACKAGES=%CONDA_PACKAGES% --file=ci\conda_env_gandiva_win.txt
 )
-if "%JOB%" == "Toolchain" (
-  @rem Install pre-built "toolchain" packages for faster builds
-  set CONDA_PACKAGES=%CONDA_PACKAGES% --file=ci\conda_env_cpp.txt
-)
-if "%JOB%" NEQ "Build_Debug" (
-  @rem Arrow conda environment is only required for the Build and Toolchain jobs
-  mamba create -n arrow -q -y -c conda-forge ^
-    --file=ci\conda_env_python.txt ^
-    %CONDA_PACKAGES%  ^
-    "cmake" ^
-    "ninja" ^
-    "nomkl" ^
-    "pandas" ^
-    "fsspec" ^
-    "python=%PYTHON%" ^
-    || exit /B
-)
+@rem Install pre-built "toolchain" packages for faster builds
+set CONDA_PACKAGES=%CONDA_PACKAGES% --file=ci\conda_env_cpp.txt
+@rem Arrow conda environment
+mamba create -n arrow -q -y -c conda-forge ^
+  --file=ci\conda_env_python.txt ^
+  %CONDA_PACKAGES%  ^
+  "ccache" ^
+  "cmake" ^
+  "ninja" ^
+  "nomkl" ^
+  "pandas" ^
+  "fsspec" ^
+  "python=%PYTHON%" ^
+  || exit /B
 
 @rem
 @rem Configure compiler
 @rem
-if "%GENERATOR%"=="Ninja" set need_vcvarsall=1
-if defined need_vcvarsall (
-    if "%APPVEYOR_BUILD_WORKER_IMAGE%" NEQ "Visual Studio 2017" (
-        @rem ARROW-14070 Visual Studio 2015 no longer supported
-        exit /B
-    )
-    call "C:\Program Files (x86)\Microsoft Visual Studio\2017\Community\VC\Auxiliary\Build\vcvarsall.bat" amd64
-    set CC=cl.exe
-    set CXX=cl.exe
-)
-
-@rem
-@rem Use clcache for faster builds
-@rem
-
-pip install -q git+https://github.com/Nuitka/clcache.git || exit /B
-@rem Limit cache size to 500 MB
-clcache -M 500000000
-clcache -c
-clcache -s
-powershell.exe -Command "Start-Process clcache-server" || exit /B
+call "C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Auxiliary\Build\vcvarsall.bat" amd64
+set CC=cl.exe
+set CXX=cl.exe
 
 @rem
 @rem Download Minio somewhere on PATH, for unit tests
 @rem
 if "%ARROW_S3%" == "ON" (
-    appveyor DownloadFile https://dl.min.io/server/minio/release/windows-amd64/archive/minio.RELEASE.2022-05-26T05-48-41Z -FileName C:\Windows\Minio.exe || exit /B
+  appveyor DownloadFile https://dl.min.io/server/minio/release/windows-amd64/archive/minio.RELEASE.2022-05-26T05-48-41Z -FileName C:\Windows\Minio.exe || exit /B
 )
 
 
diff --git a/ci/conan/all/conandata.yml b/ci/conan/all/conandata.yml
index 942a3eba7a6..a446cf7e3b9 100644
--- a/ci/conan/all/conandata.yml
+++ b/ci/conan/all/conandata.yml
@@ -21,6 +21,9 @@
 # SOFTWARE.
 
 sources:
+  "10.0.0":
+    url: "https://github.com/apache/arrow/archive/apache-arrow-10.0.0.tar.gz"
+    sha256: "2852b21f93ee84185a9d838809c9a9c41bf6deca741bed1744e0fdba6cc19e3f"
   "8.0.1":
     url: "https://github.com/apache/arrow/archive/apache-arrow-8.0.1.tar.gz"
     sha256: "e4c86329be769f2c8778aacc8d6220a9a13c90d59d4988f9349d51299dacbd11"
@@ -37,60 +40,66 @@ sources:
     url: "https://github.com/apache/arrow/archive/apache-arrow-1.0.0.tar.gz"
     sha256: "08fbd4c633c08939850d619ca0224c75d7a0526467c721c0838b8aa7efccb270"
 patches:
+  "10.0.0":
+    - patch_file: "patches/10.0.0-0001-mallctl-takes-size_t.patch"
+      patch_description: "use size_t instead of ssize_t"
+      patch_type: "backport"
+    - patch_file: "patches/10.0.0-0002-fix-cmake.patch"
+      patch_description: "use cci package"
+      patch_type: "conan"
   "8.0.1":
-    - base_path: "source_subfolder"
-      patch_file: "patches/8.0.0-0001-cmake.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/8.0.0-0002-jemalloc.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/8.0.0-0003-mallctl-takes-size_t.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/8.0.0-0004-use-find-package.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/8.0.0-0005-install-utils.patch"
+    - patch_file: "patches/8.0.0-0003-mallctl-takes-size_t.patch"
+      patch_description: "use size_t instead of ssize_t"
+      patch_type: "backport"
+    - patch_file: "patches/8.0.0-0005-install-utils.patch"
+      patch_description: "enable utilis installation"
+      patch_type: "conan"
+    - patch_file: "patches/8.0.0-0006-fix-cmake.patch"
+      patch_description: "use cci package"
+      patch_type: "conan"
   "8.0.0":
-    - base_path: "source_subfolder"
-      patch_file: "patches/8.0.0-0001-cmake.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/8.0.0-0002-jemalloc.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/8.0.0-0003-mallctl-takes-size_t.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/8.0.0-0004-use-find-package.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/8.0.0-0005-install-utils.patch"
+    - patch_file: "patches/8.0.0-0003-mallctl-takes-size_t.patch"
+      patch_description: "use size_t instead of ssize_t"
+      patch_type: "backport"
+    - patch_file: "patches/8.0.0-0005-install-utils.patch"
+      patch_description: "enable utilis installation"
+      patch_type: "conan"
+    - patch_file: "patches/8.0.0-0006-fix-cmake.patch"
+      patch_description: "use cci package"
+      patch_type: "conan"
   "7.0.0":
-    - base_path: "source_subfolder"
-      patch_file: "patches/7.0.0-0001-cmake.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/7.0.0-0002-jemalloc.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/7.0.0-0003-mallctl-takes-size_t.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/7.0.0-0005-use-find-package.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/7.0.0-0006-install-utils.patch"
+    - patch_file: "patches/7.0.0-0003-mallctl-takes-size_t.patch"
+      patch_description: "use size_t instead of ssize_t"
+      patch_type: "backport"
+    - patch_file: "patches/7.0.0-0006-install-utils.patch"
+      patch_description: "enable utilis installation"
+      patch_type: "conan"
+    - patch_file: "patches/7.0.0-0007-fix-cmake.patch"
+      patch_description: "use cci package"
+      patch_type: "conan"
   "2.0.0":
-    - base_path: "source_subfolder"
-      patch_file: "patches/2.0.0-0001-cmake.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/2.0.0-0002-jemalloc.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/2.0.0-0003-fix-shared-msvc.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/1.0.0-0004-mallctl-takes-size_t.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/2.0.0-0005-gandiva-engine.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/2.0.0-0006-gandiva-llvm-re2.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/2.0.0-0007-fix-protoc-cmake.patch"
+    - patch_file: "patches/2.0.0-0003-fix-shared-msvc.patch"
+      patch_description: "make shared enabled in msvc"
+      patch_type: "backport"
+    - patch_file: "patches/1.0.0-0004-mallctl-takes-size_t.patch"
+      patch_description: "use size_t instead of ssize_t"
+      patch_type: "backport"
+    - patch_file: "patches/2.0.0-0005-gandiva-engine.patch"
+      patch_description: "fix grandiva compilation error"
+      patch_type: "backport"
+    - patch_file: "patches/2.0.0-0008-fix-cmake.patch"
+      patch_description: "use cci package"
+      patch_type: "conan"
   "1.0.0":
-    - base_path: "source_subfolder"
-      patch_file: "patches/1.0.0-0001-cmake.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/1.0.0-0002-jemalloc.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/1.0.0-0003-fix-shared-msvc.patch"
-    - base_path: "source_subfolder"
-      patch_file: "patches/1.0.0-0004-mallctl-takes-size_t.patch"
+    - patch_file: "patches/1.0.0-0003-fix-shared-msvc.patch"
+      patch_description: "make shared enabled in msvc"
+      patch_type: "backport"
+    - patch_file: "patches/1.0.0-0004-mallctl-takes-size_t.patch"
+      patch_description: "use size_t instead of ssize_t"
+      patch_type: "backport"
+    - patch_file: "patches/1.0.0-0005-fix-make12-namespace.patch"
+      patch_description: "fix ambiguous `make12` function between std and date"
+      patch_type: "backport"
+    - patch_file: "patches/1.0.0-0006-fix-cmake.patch"
+      patch_description: "use cci package"
+      patch_type: "conan"
diff --git a/ci/conan/all/conanfile.py b/ci/conan/all/conanfile.py
index a87478d6e40..1489040ff76 100644
--- a/ci/conan/all/conanfile.py
+++ b/ci/conan/all/conanfile.py
@@ -20,13 +20,18 @@
 # OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
 # SOFTWARE.
 
-from conans import ConanFile, tools, CMake
-from conans.errors import ConanInvalidConfiguration
+from conan import ConanFile
+from conan.errors import ConanInvalidConfiguration
+from conan.tools.microsoft import is_msvc_static_runtime, is_msvc, check_min_vs
+from conan.tools.files import export_conandata_patches, apply_conandata_patches, get, copy, rmdir
+from conan.tools.build import check_min_cppstd, cross_building
+from conan.tools.scm import Version
+from conan.tools.cmake import CMake, CMakeDeps, CMakeToolchain, cmake_layout
+
 import os
 import glob
 
-required_conan_version = ">=1.33.0"
-
+required_conan_version = ">=1.53.0"
 
 class ArrowConan(ConanFile):
     name = "arrow"
@@ -64,6 +69,7 @@ class ArrowConan(ConanFile):
         "with_glog": ["auto", True, False],
         "with_grpc": ["auto", True, False],
         "with_jemalloc": ["auto", True, False],
+        "with_mimalloc": ["auto", True, False],
         "with_json": [True, False],
         "with_llvm": ["auto", True, False],
         "with_openssl": ["auto", True, False],
@@ -108,6 +114,7 @@ class ArrowConan(ConanFile):
         "with_gcs": False,
         "with_gflags": "auto",
         "with_jemalloc": "auto",
+        "with_mimalloc": False,
         "with_glog": "auto",
         "with_grpc": "auto",
         "with_json": False,
@@ -124,40 +131,61 @@ class ArrowConan(ConanFile):
         "with_zlib": False,
         "with_zstd": False,
     }
-    generators = "cmake", "cmake_find_package_multi"
     short_paths = True
 
-    _cmake = None
+    @property
+    def _minimum_cpp_standard(self):
+        # arrow >= 10.0.0 requires C++17.
+        # https://github.com/apache/arrow/pull/13991
+        return 11 if Version(self.version) < "10.0.0" else 17
 
     @property
-    def _source_subfolder(self):
-        return "source_subfolder"
+    def _compilers_minimum_version(self):
+        return {
+            "gcc": "8",
+            "clang": "7",
+            "apple-clang": "10",
+        }
 
     def export_sources(self):
-        self.copy("CMakeLists.txt")
-        for patch in self.conan_data.get("patches", {}).get(self.version, []):
-            self.copy(patch["patch_file"])
+        export_conandata_patches(self)
 
     def config_options(self):
         if self.settings.os == "Windows":
             del self.options.fPIC
-        if tools.Version(self.version) < "2.0.0":
+        if Version(self.version) < "2.0.0":
             del self.options.simd_level
             del self.options.runtime_simd_level
-        elif tools.Version(self.version) < "6.0.0":
+        elif Version(self.version) < "6.0.0":
             self.options.simd_level = "sse4_2"
-        if tools.Version(self.version) < "6.0.0":
+        if Version(self.version) < "6.0.0":
             del self.options.with_gcs
-        if tools.Version(self.version) < "7.0.0":
+        if Version(self.version) < "7.0.0":
             del self.options.skyhook
             del self.options.with_flight_sql
             del self.options.with_opentelemetry
-        if tools.Version(self.version) < "8.0.0":
+        if Version(self.version) < "8.0.0":
             del self.options.substrait
 
+    def configure(self):
+        if self.options.shared:
+            self.options.rm_safe("fPIC")
+
     def validate(self):
-        if self.settings.compiler == "clang" and self.settings.compiler.version <= tools.Version("3.9"):
-            raise ConanInvalidConfiguration("This recipe does not support this compiler version")
+        if self.info.settings.compiler.cppstd:
+            check_min_cppstd(self, self._minimum_cpp_standard)
+
+        if self._minimum_cpp_standard == 11:
+            if self.info.settings.compiler == "clang" and self.info.settings.compiler.version <= Version("3.9"):
+                raise ConanInvalidConfiguration("This recipe does not support this compiler version")
+        else:
+            check_min_vs(self, 191)
+            if not is_msvc(self):
+                minimum_version = self._compilers_minimum_version.get(str(self.info.settings.compiler), False)
+                if minimum_version and Version(self.info.settings.compiler.version) < minimum_version:
+                    raise ConanInvalidConfiguration(
+                        f"{self.ref} requires C++{self._minimum_cpp_standard}, which your compiler does not support."
+                    )
 
         if self.options.shared:
             del self.options.fPIC
@@ -186,7 +214,7 @@ def validate(self):
         if self.options.with_openssl == False and self._with_openssl(True):
             raise ConanInvalidConfiguration("with_openssl options is required (or choose auto)")
         if self.options.with_llvm == False and self._with_llvm(True):
-            raise ConanInvalidConfiguration("with_openssl options is required (or choose auto)")
+            raise ConanInvalidConfiguration("with_llvm options is required (or choose auto)")
         if self.options.with_cuda:
             raise ConanInvalidConfiguration("CCI has no cuda recipe (yet)")
         if self.options.with_orc:
@@ -198,8 +226,11 @@ def validate(self):
             if self.options["jemalloc"].enable_cxx:
                 raise ConanInvalidConfiguration("jemmalloc.enable_cxx of a static jemalloc must be disabled")
 
-        if tools.Version(self.version) < "6.0.0" and self.options.get_safe("simd_level") == "default":
-            raise ConanInvalidConfiguration("In {}/{}, simd_level options is not supported `default` value.".format(self.name, self.version))
+        if Version(self.version) < "6.0.0" and self.options.get_safe("simd_level") == "default":
+            raise ConanInvalidConfiguration(f"In {self.ref}, simd_level options is not supported `default` value.")
+
+    def layout(self):
+        cmake_layout(self, src_folder="src")
 
     def _compute(self, required=False):
         if required or self.options.compute == "auto":
@@ -227,7 +258,11 @@ def _with_jemalloc(self, required=False):
 
     def _with_re2(self, required=False):
         if required or self.options.with_re2 == "auto":
-            return bool(self.options.gandiva) or bool(self._compute())
+            if self.options.gandiva or self.options.parquet:
+                return True
+            if Version(self) >= "7.0.0" and (self._compute() or self._dataset_modules()):
+                return True
+            return False
         else:
             return bool(self.options.with_re2)
 
@@ -265,12 +300,12 @@ def _with_boost(self, required=False):
         if required or self.options.with_boost == "auto":
             if self.options.gandiva:
                 return True
-            version = tools.Version(self.version)
+            version = Version(self.version)
             if version.major == "1":
-                if self._parquet() and self.settings.compiler == "gcc" and self.settings.compiler.version < tools.Version("4.9"):
+                if self._parquet() and self.settings.compiler == "gcc" and self.settings.compiler.version < Version("4.9"):
                     return True
             elif version.major >= "2":
-                if self.settings.compiler == "Visual Studio":
+                if is_msvc(self):
                     return True
             return False
         else:
@@ -298,15 +333,24 @@ def _with_openssl(self, required=False):
         else:
             return bool(self.options.with_openssl)
 
+    def _with_rapidjson(self):
+        if self.options.with_json:
+            return True
+        if Version(self.version) >= "7.0.0" and self.options.encryption:
+            return True
+        return False
+
     def requirements(self):
         if self._with_thrift():
-            self.requires("thrift/0.16.0")
+            self.requires("thrift/0.17.0")
         if self._with_protobuf():
-            self.requires("protobuf/3.21.1")
+            self.requires("protobuf/3.21.4")
         if self._with_jemalloc():
-            self.requires("jemalloc/5.2.1")
+            self.requires("jemalloc/5.3.0")
+        if self.options.with_mimalloc:
+            self.requires("mimalloc/1.7.6")
         if self._with_boost():
-            self.requires("boost/1.79.0")
+            self.requires("boost/1.80.0")
         if self._with_gflags():
             self.requires("gflags/2.2.2")
         if self._with_glog():
@@ -314,19 +358,19 @@ def requirements(self):
         if self.options.get_safe("with_gcs"):
             self.requires("google-cloud-cpp/1.40.1")
         if self._with_grpc():
-            self.requires("grpc/1.47.0")
-        if self.options.with_json:
+            self.requires("grpc/1.50.0")
+        if self._with_rapidjson():
             self.requires("rapidjson/1.1.0")
         if self._with_llvm():
             self.requires("llvm-core/13.0.0")
         if self._with_openssl():
-            # aws-sdk-cpp/grpc requires openssl/1.1.1. it uses deprecated functions in openssl/3.0.0
-            if self.options.with_s3 or self._with_flight_rpc():
-                self.requires("openssl/1.1.1q")
+            # aws-sdk-cpp requires openssl/1.1.1. it uses deprecated functions in openssl/3.0.0
+            if self.options.with_s3:
+                self.requires("openssl/1.1.1s")
             else:
-                self.requires("openssl/3.0.5")
+                self.requires("openssl/1.1.1s")
         if self.options.get_safe("with_opentelemetry"):
-            self.requires("opentelemetry-cpp/1.4.1")
+            self.requires("opentelemetry-cpp/1.7.0")
         if self.options.with_s3:
             self.requires("aws-sdk-cpp/1.9.234")
         if self.options.with_brotli:
@@ -334,21 +378,21 @@ def requirements(self):
         if self.options.with_bz2:
             self.requires("bzip2/1.0.8")
         if self.options.with_lz4:
-            self.requires("lz4/1.9.3")
+            self.requires("lz4/1.9.4")
         if self.options.with_snappy:
             self.requires("snappy/1.1.9")
-        if tools.Version(self.version) >= "6.0.0" and \
+        if Version(self.version) >= "6.0.0" and \
             self.options.get_safe("simd_level") != None or \
             self.options.get_safe("runtime_simd_level") != None:
-            self.requires("xsimd/8.1.0")
+            self.requires("xsimd/9.0.1")
         if self.options.with_zlib:
-            self.requires("zlib/1.2.12")
+            self.requires("zlib/1.2.13")
         if self.options.with_zstd:
             self.requires("zstd/1.5.2")
         if self._with_re2():
-            self.requires("re2/20220201")
+            self.requires("re2/20220601")
         if self._with_utf8proc():
-            self.requires("utf8proc/2.7.0")
+            self.requires("utf8proc/2.8.0")
         if self.options.with_backtrace:
             self.requires("libbacktrace/cci.20210118")
 
@@ -360,9 +404,9 @@ def source(self):
             import shutil
             top_level = os.environ.get("ARROW_HOME")
             shutil.copytree(os.path.join(top_level, "cpp"),
-                            os.path.join(self._source_subfolder, "cpp"))
+                            os.path.join(self.source_folder, "cpp"))
             shutil.copytree(os.path.join(top_level, "format"),
-                            os.path.join(self._source_subfolder, "format"))
+                            os.path.join(self.source_folder, "format"))
             top_level_files = [
                 ".env",
                 "LICENSE.txt",
@@ -370,175 +414,176 @@ def source(self):
             ]
             for top_level_file in top_level_files:
                 shutil.copy(os.path.join(top_level, top_level_file),
-                            self._source_subfolder)
+                            self.source_folder)
             return
         # END
-        tools.get(**self.conan_data["sources"][self.version],
-                  destination=self._source_subfolder, strip_root=True)
-
-    def _configure_cmake(self):
-        if self._cmake:
-            return self._cmake
-        self._cmake = CMake(self)
-        self._cmake.definitions["CMAKE_FIND_PACKAGE_PREFER_CONFIG"] = True
-        if tools.cross_building(self):
+        get(self, **self.conan_data["sources"][self.version],
+                  destination=self.source_folder, strip_root=True)
+
+    def generate(self):
+        # BUILD_SHARED_LIBS and POSITION_INDEPENDENT_CODE are automatically parsed when self.options.shared or self.options.fPIC exist
+        tc = CMakeToolchain(self)
+        if cross_building(self):
             cmake_system_processor = {
                 "armv8": "aarch64",
                 "armv8.3": "aarch64",
             }.get(str(self.settings.arch), str(self.settings.arch))
-            self._cmake.definitions["CMAKE_SYSTEM_PROCESSOR"] = cmake_system_processor
-        if self.settings.compiler == "Visual Studio":
-            self._cmake.definitions["ARROW_USE_STATIC_CRT"] = "MT" in str(self.settings.compiler.runtime)
-        self._cmake.definitions["ARROW_DEFINE_OPTIONS"] = True
-        self._cmake.definitions["ARROW_DEPENDENCY_SOURCE"] = "SYSTEM"
-        self._cmake.definitions["ARROW_GANDIVA"] = self.options.gandiva
-        self._cmake.definitions["ARROW_PARQUET"] = self._parquet()
-        self._cmake.definitions["ARROW_SUBSTRAIT"] = self.options.get_safe("substrait", False)
-        self._cmake.definitions["ARROW_PLASMA"] = self.options.plasma
-        self._cmake.definitions["ARROW_DATASET"] = self._dataset_modules()
-        self._cmake.definitions["ARROW_FILESYSTEM"] = self.options.filesystem_layer
-        self._cmake.definitions["PARQUET_REQUIRE_ENCRYPTION"] = self.options.encryption
-        self._cmake.definitions["ARROW_HDFS"] = self.options.hdfs_bridgs
-        self._cmake.definitions["ARROW_VERBOSE_THIRDPARTY_BUILD"] = True
-        self._cmake.definitions["ARROW_BUILD_SHARED"] = self.options.shared
-        self._cmake.definitions["ARROW_BUILD_STATIC"] = not self.options.shared
-        self._cmake.definitions["ARROW_NO_DEPRECATED_API"] = not self.options.deprecated
-        self._cmake.definitions["ARROW_FLIGHT"] = self._with_flight_rpc()
-        self._cmake.definitions["ARROW_FLIGHT_SQL"] = self.options.get_safe("with_flight_sql", False)
-        self._cmake.definitions["ARROW_COMPUTE"] = self._compute()
-        self._cmake.definitions["ARROW_CSV"] = self.options.with_csv
-        self._cmake.definitions["ARROW_CUDA"] = self.options.with_cuda
-        self._cmake.definitions["ARROW_JEMALLOC"] = self._with_jemalloc()
-        self._cmake.definitions["jemalloc_SOURCE"] = "SYSTEM"
-        self._cmake.definitions["ARROW_JSON"] = self.options.with_json
-
-        self._cmake.definitions["BOOST_SOURCE"] = "SYSTEM"
-        self._cmake.definitions["Protobuf_SOURCE"] = "SYSTEM"
+            tc.variables["CMAKE_SYSTEM_PROCESSOR"] = cmake_system_processor
+            if cmake_system_processor == "aarch64":
+                tc.variables["ARROW_CPU_FLAG"] = "armv8"
+        if is_msvc(self):
+            tc.variables["ARROW_USE_STATIC_CRT"] = is_msvc_static_runtime(self)
+        tc.variables["ARROW_DEPENDENCY_SOURCE"] = "SYSTEM"
+        tc.variables["ARROW_PACKAGE_KIND"] = "conan"
+        tc.variables["ARROW_GANDIVA"] = bool(self.options.gandiva)
+        tc.variables["ARROW_PARQUET"] = self._parquet()
+        tc.variables["ARROW_SUBSTRAIT"] = bool(self.options.get_safe("substrait", False))
+        tc.variables["ARROW_PLASMA"] = bool(self.options.plasma)
+        tc.variables["ARROW_DATASET"] = self._dataset_modules()
+        tc.variables["ARROW_FILESYSTEM"] = bool(self.options.filesystem_layer)
+        tc.variables["PARQUET_REQUIRE_ENCRYPTION"] = bool(self.options.encryption)
+        tc.variables["ARROW_HDFS"] = bool(self.options.hdfs_bridgs)
+        tc.variables["ARROW_VERBOSE_THIRDPARTY_BUILD"] = True
+        tc.variables["ARROW_BUILD_SHARED"] = bool(self.options.shared)
+        tc.variables["ARROW_BUILD_STATIC"] = not bool(self.options.shared)
+        tc.variables["ARROW_NO_DEPRECATED_API"] = not bool(self.options.deprecated)
+        tc.variables["ARROW_FLIGHT"] = self._with_flight_rpc()
+        tc.variables["ARROW_FLIGHT_SQL"] = bool(self.options.get_safe("with_flight_sql", False))
+        tc.variables["ARROW_COMPUTE"] = self._compute()
+        tc.variables["ARROW_CSV"] = bool(self.options.with_csv)
+        tc.variables["ARROW_CUDA"] = bool(self.options.with_cuda)
+        tc.variables["ARROW_JEMALLOC"] = self._with_jemalloc()
+        tc.variables["ARROW_MIMALLOC"] = bool(self.options.with_mimalloc)
+        tc.variables["jemalloc_SOURCE"] = "SYSTEM"
+        tc.variables["ARROW_JSON"] = bool(self.options.with_json)
+        tc.variables["google_cloud_cpp_SOURCE"] = "SYSTEM"
+        tc.variables["ARROW_GCS"] = bool(self.options.get_safe("with_gcs", False))
+        tc.variables["BOOST_SOURCE"] = "SYSTEM"
+        tc.variables["Protobuf_SOURCE"] = "SYSTEM"
         if self._with_protobuf():
-            self._cmake.definitions["ARROW_PROTOBUF_USE_SHARED"] = self.options["protobuf"].shared
-        self._cmake.definitions["gRPC_SOURCE"] = "SYSTEM"
+            tc.variables["ARROW_PROTOBUF_USE_SHARED"] = bool(self.options["protobuf"].shared)
+        tc.variables["gRPC_SOURCE"] = "SYSTEM"
         if self._with_grpc():
-            self._cmake.definitions["ARROW_GRPC_USE_SHARED"] = self.options["grpc"].shared
-        self._cmake.definitions["ARROW_HDFS"] = self.options.hdfs_bridgs
-        self._cmake.definitions["ARROW_USE_GLOG"] = self._with_glog()
-        self._cmake.definitions["GLOG_SOURCE"] = "SYSTEM"
-        self._cmake.definitions["ARROW_WITH_BACKTRACE"] = self.options.with_backtrace
-        self._cmake.definitions["ARROW_WITH_BROTLI"] = self.options.with_brotli
-        self._cmake.definitions["Brotli_SOURCE"] = "SYSTEM"
+            tc.variables["ARROW_GRPC_USE_SHARED"] = bool(self.options["grpc"].shared)
+
+        tc.variables["ARROW_USE_GLOG"] = self._with_glog()
+        tc.variables["GLOG_SOURCE"] = "SYSTEM"
+        tc.variables["ARROW_WITH_BACKTRACE"] = bool(self.options.with_backtrace)
+        tc.variables["ARROW_WITH_BROTLI"] = bool(self.options.with_brotli)
+        tc.variables["brotli_SOURCE"] = "SYSTEM"
         if self.options.with_brotli:
-            self._cmake.definitions["ARROW_BROTLI_USE_SHARED"] = self.options["brotli"].shared
-        self._cmake.definitions["gflags_SOURCE"] = "SYSTEM"
+            tc.variables["ARROW_BROTLI_USE_SHARED"] = bool(self.options["brotli"].shared)
+        tc.variables["gflags_SOURCE"] = "SYSTEM"
         if self._with_gflags():
-            self._cmake.definitions["ARROW_GFLAGS_USE_SHARED"] = self.options["gflags"].shared
-        self._cmake.definitions["ARROW_WITH_BZ2"] = self.options.with_bz2
-        self._cmake.definitions["BZip2_SOURCE"] = "SYSTEM"
+            tc.variables["ARROW_GFLAGS_USE_SHARED"] = bool(self.options["gflags"].shared)
+        tc.variables["ARROW_WITH_BZ2"] = bool(self.options.with_bz2)
+        tc.variables["BZip2_SOURCE"] = "SYSTEM"
         if self.options.with_bz2:
-            self._cmake.definitions["ARROW_BZ2_USE_SHARED"] = self.options["bzip2"].shared
-        self._cmake.definitions["ARROW_WITH_LZ4"] = self.options.with_lz4
-        if tools.Version(self.version) >= "9.0.0":
-            self._cmake.definitions["lz4_SOURCE"] = "SYSTEM"
-        else:
-            self._cmake.definitions["Lz4_SOURCE"] = "SYSTEM"
+            tc.variables["ARROW_BZ2_USE_SHARED"] = bool(self.options["bzip2"].shared)
+        tc.variables["ARROW_WITH_LZ4"] = bool(self.options.with_lz4)
+        tc.variables["lz4_SOURCE"] = "SYSTEM"
         if self.options.with_lz4:
-            self._cmake.definitions["ARROW_LZ4_USE_SHARED"] = self.options["lz4"].shared
-        self._cmake.definitions["ARROW_WITH_SNAPPY"] = self.options.with_snappy
-        self._cmake.definitions["Snappy_SOURCE"] = "SYSTEM"
+            tc.variables["ARROW_LZ4_USE_SHARED"] = bool(self.options["lz4"].shared)
+        tc.variables["ARROW_WITH_SNAPPY"] = bool(self.options.with_snappy)
+        tc.variables["RapidJSON_SOURCE"] = "SYSTEM"
+        tc.variables["Snappy_SOURCE"] = "SYSTEM"
         if self.options.with_snappy:
-            self._cmake.definitions["ARROW_SNAPPY_USE_SHARED"] = self.options["snappy"].shared
-        self._cmake.definitions["ARROW_WITH_ZLIB"] = self.options.with_zlib
-        self._cmake.definitions["RE2_SOURCE"] = "SYSTEM"
-        self._cmake.definitions["ZLIB_SOURCE"] = "SYSTEM"
-
-        self._cmake.definitions["ARROW_WITH_ZSTD"] = self.options.with_zstd
-        if tools.Version(self.version) >= "2.0":
-            self._cmake.definitions["zstd_SOURCE"] = "SYSTEM"
-            self._cmake.definitions["ARROW_SIMD_LEVEL"] = str(self.options.simd_level).upper()
-            self._cmake.definitions["ARROW_RUNTIME_SIMD_LEVEL"] = str(self.options.runtime_simd_level).upper()
+            tc.variables["ARROW_SNAPPY_USE_SHARED"] = bool(self.options["snappy"].shared)
+        tc.variables["ARROW_WITH_ZLIB"] = bool(self.options.with_zlib)
+        tc.variables["re2_SOURCE"] = "SYSTEM"
+        tc.variables["ZLIB_SOURCE"] = "SYSTEM"
+        tc.variables["xsimd_SOURCE"] = "SYSTEM"
+        tc.variables["ARROW_WITH_ZSTD"] = bool(self.options.with_zstd)
+        if Version(self.version) >= "2.0":
+            tc.variables["zstd_SOURCE"] = "SYSTEM"
+            tc.variables["ARROW_SIMD_LEVEL"] = str(self.options.simd_level).upper()
+            tc.variables["ARROW_RUNTIME_SIMD_LEVEL"] = str(self.options.runtime_simd_level).upper()
         else:
-            self._cmake.definitions["ZSTD_SOURCE"] = "SYSTEM"
+            tc.variables["ZSTD_SOURCE"] = "SYSTEM"
         if self.options.with_zstd:
-            self._cmake.definitions["ARROW_ZSTD_USE_SHARED"] = self.options["zstd"].shared
-        self._cmake.definitions["ORC_SOURCE"] = "SYSTEM"
-        self._cmake.definitions["ARROW_WITH_THRIFT"] = self._with_thrift()
-        self._cmake.definitions["Thrift_SOURCE"] = "SYSTEM"
+            tc.variables["ARROW_ZSTD_USE_SHARED"] = bool(self.options["zstd"].shared)
+        tc.variables["ORC_SOURCE"] = "SYSTEM"
+        tc.variables["ARROW_WITH_THRIFT"] = self._with_thrift()
+        tc.variables["Thrift_SOURCE"] = "SYSTEM"
         if self._with_thrift():
-            self._cmake.definitions["THRIFT_VERSION"] = self.deps_cpp_info["thrift"].version # a recent thrift does not require boost
-            self._cmake.definitions["ARROW_THRIFT_USE_SHARED"] = self.options["thrift"].shared
-        self._cmake.definitions["ARROW_USE_OPENSSL"] = self._with_openssl()
+            tc.variables["THRIFT_VERSION"] = bool(self.deps_cpp_info["thrift"].version) # a recent thrift does not require boost
+            tc.variables["ARROW_THRIFT_USE_SHARED"] = bool(self.options["thrift"].shared)
+        tc.variables["ARROW_USE_OPENSSL"] = self._with_openssl()
         if self._with_openssl():
-            self._cmake.definitions["OPENSSL_ROOT_DIR"] = self.deps_cpp_info["openssl"].rootpath.replace("\\", "/")
-            self._cmake.definitions["ARROW_OPENSSL_USE_SHARED"] = self.options["openssl"].shared
+            tc.variables["OPENSSL_ROOT_DIR"] = self.deps_cpp_info["openssl"].rootpath.replace("\\", "/")
+            tc.variables["ARROW_OPENSSL_USE_SHARED"] = bool(self.options["openssl"].shared)
         if self._with_boost():
-            self._cmake.definitions["ARROW_BOOST_USE_SHARED"] = self.options["boost"].shared
-        self._cmake.definitions["ARROW_S3"] = self.options.with_s3
-        self._cmake.definitions["AWSSDK_SOURCE"] = "SYSTEM"
-
-        self._cmake.definitions["ARROW_BUILD_UTILITIES"] = self.options.cli
-        self._cmake.definitions["ARROW_BUILD_INTEGRATION"] = False
-        self._cmake.definitions["ARROW_INSTALL_NAME_RPATH"] = False
-        self._cmake.definitions["ARROW_BUILD_EXAMPLES"] = False
-        self._cmake.definitions["ARROW_BUILD_TESTS"] = False
-        self._cmake.definitions["ARROW_ENABLE_TIMING_TESTS"] = False
-        self._cmake.definitions["ARROW_BUILD_BENCHMARKS"] = False
-        self._cmake.definitions["LLVM_SOURCE"] = "SYSTEM"
-        self._cmake.definitions["ARROW_WITH_UTF8PROC"] = self._with_utf8proc()
-        self._cmake.definitions["utf8proc_SOURCE"] = "SYSTEM"
+            tc.variables["ARROW_USE_BOOST"] = True
+            tc.variables["ARROW_BOOST_USE_SHARED"] = bool(self.options["boost"].shared)
+        tc.variables["ARROW_S3"] = bool(self.options.with_s3)
+        tc.variables["AWSSDK_SOURCE"] = "SYSTEM"
+        tc.variables["ARROW_BUILD_UTILITIES"] = bool(self.options.cli)
+        tc.variables["ARROW_BUILD_INTEGRATION"] = False
+        tc.variables["ARROW_INSTALL_NAME_RPATH"] = False
+        tc.variables["ARROW_BUILD_EXAMPLES"] = False
+        tc.variables["ARROW_BUILD_TESTS"] = False
+        tc.variables["ARROW_ENABLE_TIMING_TESTS"] = False
+        tc.variables["ARROW_BUILD_BENCHMARKS"] = False
+        tc.variables["LLVM_SOURCE"] = "SYSTEM"
+        tc.variables["ARROW_WITH_UTF8PROC"] = self._with_utf8proc()
+        tc.variables["ARROW_BOOST_REQUIRED"] = self._with_boost()
+        tc.variables["utf8proc_SOURCE"] = "SYSTEM"
         if self._with_utf8proc():
-            self._cmake.definitions["ARROW_UTF8PROC_USE_SHARED"] = self.options["utf8proc"].shared
-        self._cmake.definitions["BUILD_WARNING_LEVEL"] = "PRODUCTION"
-        if self.settings.compiler == "Visual Studio":
-            self._cmake.definitions["ARROW_USE_STATIC_CRT"] = "MT" in str(self.settings.compiler.runtime)
-
+            tc.variables["ARROW_UTF8PROC_USE_SHARED"] = bool(self.options["utf8proc"].shared)
+        tc.variables["BUILD_WARNING_LEVEL"] = "PRODUCTION"
+        if is_msvc(self):
+            tc.variables["ARROW_USE_STATIC_CRT"] = "MT" in str(self.settings.compiler.runtime)
         if self._with_llvm():
-            self._cmake.definitions["LLVM_DIR"] = self.deps_cpp_info["llvm-core"].rootpath.replace("\\", "/")
-        self._cmake.configure()
-        return self._cmake
+            tc.variables["LLVM_DIR"] = self.deps_cpp_info["llvm-core"].rootpath.replace("\\", "/")
+        tc.generate()
+
+        deps = CMakeDeps(self)
+        deps.generate()
 
     def _patch_sources(self):
-        for patch in self.conan_data.get("patches", {}).get(self.version, []):
-            tools.patch(**patch)
-        # if tools.Version(self.version) >= "7.0.0":
-        #     for filename in glob.glob(os.path.join(self._source_subfolder, "cpp", "cmake_modules", "Find*.cmake")):
-        #         if os.path.basename(filename) not in [
-        #             "FindArrow.cmake",
-        #             "FindArrowCUDA.cmake",
-        #             "FindArrowDataset.cmake",
-        #             "FindArrowFlight.cmake",
-        #             "FindArrowFlightSql.cmake",
-        #             "FindArrowFlightTesting.cmake",
-        #             "FindArrowPython.cmake",
-        #             "FindArrowPythonFlight.cmake",
-        #             "FindArrowSubstrait.cmake",
-        #             "FindArrowTesting.cmake",
-        #             "FindGandiva.cmake",
-        #             "FindParquet.cmake",
-        #             "FindPlasma.cmake",
-        #         ]:
-        #             os.remove(filename)
+        apply_conandata_patches(self)
+        if Version(self.version) >= "7.0.0" and Version(self.version) < "11.0.0":
+            for filename in glob.glob(os.path.join(self.source_folder, "cpp", "cmake_modules", "Find*.cmake")):
+                if os.path.basename(filename) not in [
+                    "FindArrow.cmake",
+                    "FindArrowCUDA.cmake",
+                    "FindArrowDataset.cmake",
+                    "FindArrowFlight.cmake",
+                    "FindArrowFlightSql.cmake",
+                    "FindArrowFlightTesting.cmake",
+                    "FindArrowPython.cmake",
+                    "FindArrowPythonFlight.cmake",
+                    "FindArrowSubstrait.cmake",
+                    "FindArrowTesting.cmake",
+                    "FindGandiva.cmake",
+                    "FindParquet.cmake",
+                    "FindPlasma.cmake",
+                ]:
+                    os.remove(filename)
 
     def build(self):
         self._patch_sources()
-        cmake = self._configure_cmake()
+        cmake =CMake(self)
+        cmake.configure(build_script_folder=os.path.join(self.source_folder, "cpp"))
         cmake.build()
 
     def package(self):
-        self.copy("LICENSE.txt", src=self._source_subfolder, dst="licenses")
-        self.copy("NOTICE.txt", src=self._source_subfolder, dst="licenses")
-        cmake = self._configure_cmake()
+        copy(self, pattern="LICENSE.txt", dst=os.path.join(self.package_folder, "licenses"), src=self.source_folder)
+        copy(self, pattern="NOTICE.txt", dst=os.path.join(self.package_folder, "licenses"), src=self.source_folder)
+        cmake =CMake(self)
         cmake.install()
 
-        tools.rmdir(os.path.join(self.package_folder, "lib", "cmake"))
-        tools.rmdir(os.path.join(self.package_folder, "lib", "pkgconfig"))
-        tools.rmdir(os.path.join(self.package_folder, "share"))
+        rmdir(self, os.path.join(self.package_folder, "lib", "cmake"))
+        rmdir(self, os.path.join(self.package_folder, "lib", "pkgconfig"))
+        rmdir(self, os.path.join(self.package_folder, "share"))
 
     def _lib_name(self, name):
-        if self.settings.compiler == "Visual Studio" and not self.options.shared:
+        if is_msvc(self) and not self.options.shared:
             return "{}_static".format(name)
         else:
             return "{}".format(name)
 
     def package_id(self):
-        self.info.options.with_jemalloc = self._with_jemalloc()
         self.info.options.with_gflags = self._with_gflags()
         self.info.options.with_protobuf = self._with_protobuf()
         self.info.options.with_re2 = self._with_re2()
@@ -607,16 +652,16 @@ def package_info(self):
 
         if (self.options.cli and (self.options.with_cuda or self._with_flight_rpc() or self._parquet())) or self.options.plasma:
             binpath = os.path.join(self.package_folder, "bin")
-            self.output.info("Appending PATH env var: {}".format(binpath))
+            self.output.info(f"Appending PATH env var: {binpath}")
             self.env_info.PATH.append(binpath)
 
         if self._with_boost():
             if self.options.gandiva:
                 # FIXME: only filesystem component is used
                 self.cpp_info.components["libgandiva"].requires.append("boost::boost")
-            if self._parquet() and self.settings.compiler == "gcc" and self.settings.compiler.version < tools.Version("4.9"):
+            if self._parquet() and self.settings.compiler == "gcc" and self.settings.compiler.version < Version("4.9"):
                 self.cpp_info.components["libparquet"].requires.append("boost::boost")
-            if tools.Version(self.version) >= "2.0":
+            if Version(self.version) >= "2.0":
                 # FIXME: only headers components is used
                 self.cpp_info.components["libarrow"].requires.append("boost::boost")
         if self._with_openssl():
@@ -627,6 +672,8 @@ def package_info(self):
             self.cpp_info.components["libarrow"].requires.append("glog::glog")
         if self._with_jemalloc():
             self.cpp_info.components["libarrow"].requires.append("jemalloc::jemalloc")
+        if self.options.with_mimalloc:
+            self.cpp_info.components["libarrow"].requires.append("mimalloc::mimalloc")
         if self._with_re2():
             self.cpp_info.components["libgandiva"].requires.append("re2::re2")
         if self._with_llvm():
@@ -641,7 +688,7 @@ def package_info(self):
             self.cpp_info.components["libarrow"].requires.append("libbacktrace::libbacktrace")
         if self.options.with_cuda:
             self.cpp_info.components["libarrow"].requires.append("cuda::cuda")
-        if self.options.with_json:
+        if self._with_rapidjson():
             self.cpp_info.components["libarrow"].requires.append("rapidjson::rapidjson")
         if self.options.with_s3:
             self.cpp_info.components["libarrow"].requires.append("aws-sdk-cpp::s3")
@@ -665,6 +712,9 @@ def package_info(self):
             self.cpp_info.components["libarrow"].requires.append("zlib::zlib")
         if self.options.with_zstd:
             self.cpp_info.components["libarrow"].requires.append("zstd::zstd")
+        if self._with_boost():
+            self.cpp_info.components["libarrow"].requires.append("boost::boost")
+        if self._with_grpc():
+            self.cpp_info.components["libarrow"].requires.append("grpc::grpc")
         if self._with_flight_rpc():
-            self.cpp_info.components["libarrow_flight"].requires.append("grpc::grpc")
             self.cpp_info.components["libarrow_flight"].requires.append("protobuf::protobuf")
diff --git a/ci/conan/all/patches/1.0.0-0001-cmake.patch b/ci/conan/all/patches/1.0.0-0001-cmake.patch
deleted file mode 100644
index 9da894a127b..00000000000
--- a/ci/conan/all/patches/1.0.0-0001-cmake.patch
+++ /dev/null
@@ -1,114 +0,0 @@
-MIT License
-
-Copyright (c) 2019 Conan.io
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---- cpp/cmake_modules/DefineOptions.cmake
-+++ cpp/cmake_modules/DefineOptions.cmake
-@@ -76,7 +76,7 @@ macro(define_option_string name description default)
- endmacro()
- 
- # Top level cmake dir
--if("${CMAKE_SOURCE_DIR}" STREQUAL "${CMAKE_CURRENT_SOURCE_DIR}")
-+if(1)
-   #----------------------------------------------------------------------
-   set_option_category("Compile and link")
- 
---- cpp/cmake_modules/ThirdpartyToolchain.cmake
-+++ cpp/cmake_modules/ThirdpartyToolchain.cmake
-@@ -854,7 +854,7 @@ if(ARROW_WITH_SNAPPY)
-     # location.
-     # https://bugzilla.redhat.com/show_bug.cgi?id=1679727
-     # https://src.fedoraproject.org/rpms/snappy/pull-request/1
--    find_package(Snappy QUIET HINTS "${CMAKE_ROOT}/Modules/")
-+    find_package(Snappy REQUIRED)
-     if(NOT Snappy_FOUND)
-       find_package(SnappyAlt)
-     endif()
-@@ -866,7 +866,7 @@
-   elseif(Snappy_SOURCE STREQUAL "SYSTEM")
-     # SnappyConfig.cmake is not installed on Ubuntu/Debian
-     # TODO: Make a bug report upstream
--    find_package(Snappy HINTS "${CMAKE_ROOT}/Modules/")
-+    find_package(Snappy REQUIRED)
-     if(NOT Snappy_FOUND)
-       find_package(SnappyAlt REQUIRED)
-     endif()
-@@ -1139,8 +1139,8 @@
-     build_gflags()
-   elseif(gflags_SOURCE STREQUAL "SYSTEM")
--    # gflagsConfig.cmake is not installed on Ubuntu/Debian
--    # TODO: Make a bug report upstream
--    find_package(gflags ${ARROW_GFLAGS_REQUIRED_VERSION})
-+    find_package(gflags REQUIRED)
-+    add_library(gflags-shared INTERFACE)
-+    target_link_libraries(gflags-shared INTERFACE gflags::gflags)
-     if(NOT gflags_FOUND)
-       find_package(gflagsAlt ${ARROW_GFLAGS_REQUIRED_VERSION} REQUIRED)
-     endif()
-@@ -1329,6 +1329,6 @@ macro(build_protobuf)
- endmacro()
--
- if(ARROW_WITH_PROTOBUF)
-+  find_package(Protobuf REQUIRED)
-   if(ARROW_WITH_GRPC)
-     # gRPC 1.21.0 or later require Protobuf 3.7.0 or later.
-     set(ARROW_PROTOBUF_REQUIRED_VERSION "3.7.0")
-@@ -1365,9 +1365,9 @@ if(ARROW_WITH_PROTOBUF)
-     set(ARROW_PROTOBUF_LIBPROTOC arrow::protobuf::libprotoc)
-   else()
-     if(NOT TARGET protobuf::libprotoc)
-+      set(Protobuf_PROTOC_LIBRARY protoc)
-       if(PROTOBUF_PROTOC_LIBRARY AND NOT Protobuf_PROTOC_LIBRARY)
--        # Old CMake versions have a different casing.
--        set(Protobuf_PROTOC_LIBRARY ${PROTOBUF_PROTOC_LIBRARY})
-+        set(Protobuf_PROTOC_LIBRARY protoc)
-       endif()
-       if(NOT Protobuf_PROTOC_LIBRARY)
-         message(FATAL_ERROR "libprotoc was set to ${Protobuf_PROTOC_LIBRARY}")
-@@ -1802,7 +1802,7 @@ if(ARROW_WITH_RAPIDJSON)
-   elseif(RapidJSON_SOURCE STREQUAL "SYSTEM")
-     # Fedora packages place the package information at the wrong location.
-     # https://bugzilla.redhat.com/show_bug.cgi?id=1680400
--    find_package(RapidJSON ${ARROW_RAPIDJSON_REQUIRED_VERSION} HINTS "${CMAKE_ROOT}")
-+    find_package(RapidJSON REQUIRED)
-     if(RapidJSON_FOUND)
-       set(RAPIDJSON_INCLUDE_DIR ${RAPIDJSON_INCLUDE_DIRS})
-     else()
-@@ -2088,7 +2088,7 @@ if(ARROW_WITH_BZ2)
-                           PROPERTIES IMPORTED_LOCATION "${BZIP2_LIBRARIES}"
-                                      INTERFACE_INCLUDE_DIRECTORIES "${BZIP2_INCLUDE_DIR}")
-   endif()
--  include_directories(SYSTEM "${BZIP2_INCLUDE_DIR}")
-+  include_directories(SYSTEM "${BZip2_INCLUDE_DIR}")
- endif()
- 
- macro(build_utf8proc)
---- cpp/cmake_modules/SetupCxxFlags.cmake
-+++ cpp/cmake_modules/SetupCxxFlags.cmake
-@@ -188,7 +188,7 @@
- message(STATUS "Arrow build warning level: ${BUILD_WARNING_LEVEL}")
- 
- macro(arrow_add_werror_if_debug)
--  if("${CMAKE_BUILD_TYPE}" STREQUAL "DEBUG")
-+  if(0)
-     # Treat all compiler warnings as errors
-     if(MSVC)
-       set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} /WX")
diff --git a/ci/conan/all/patches/1.0.0-0002-jemalloc.patch b/ci/conan/all/patches/1.0.0-0002-jemalloc.patch
deleted file mode 100644
index 30402fd4b0f..00000000000
--- a/ci/conan/all/patches/1.0.0-0002-jemalloc.patch
+++ /dev/null
@@ -1,65 +0,0 @@
-MIT License
-
-Copyright (c) 2019 Conan.io
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---- cpp/cmake_modules/ThirdpartyToolchain.cmake
-+++ cpp/cmake_modules/ThirdpartyToolchain.cmake
-@@ -1407,6 +1407,6 @@ endif()
- # jemalloc - Unix-only high-performance allocator
--
- if(ARROW_JEMALLOC)
-+if(0)
-   message(STATUS "Building (vendored) jemalloc from source")
-   # We only use a vendored jemalloc as we want to control its version.
-   # Also our build of jemalloc is specially prefixed so that it will not
-@@ -1465,6 +1465,8 @@ if(ARROW_JEMALLOC)
-   add_dependencies(jemalloc::jemalloc jemalloc_ep)
- 
-   list(APPEND ARROW_BUNDLED_STATIC_LIBS jemalloc::jemalloc)
-+else()
-+  find_package(jemalloc REQUIRED)
-+endif()
- endif()
--
- # ----------------------------------------------------------------------
- # mimalloc - Cross-platform high-performance allocator, from Microsoft
---- cpp/src/arrow/CMakeLists.txt
-+++ cpp/src/arrow/CMakeLists.txt
-@@ -292,7 +292,7 @@
- 
- set(_allocator_dependencies "") # Empty list
- if(ARROW_JEMALLOC)
--  list(APPEND _allocator_dependencies jemalloc_ep)
-+  list(APPEND _allocator_dependencies jemalloc::jemalloc)
- endif()
- if(ARROW_MIMALLOC)
-   list(APPEND _allocator_dependencies mimalloc_ep)
---- cpp/src/arrow/memory_pool.cc
-+++ cpp/src/arrow/memory_pool.cc
-@@ -31,7 +31,7 @@
- // Needed to support jemalloc 3 and 4
- #define JEMALLOC_MANGLE
- // Explicitly link to our version of jemalloc
--#include "jemalloc_ep/dist/include/jemalloc/jemalloc.h"
-+#include "jemalloc/jemalloc.h"
- #endif
- 
- #ifdef ARROW_MIMALLOC
diff --git a/ci/conan/all/patches/1.0.0-0005-fix-make12-namespace.patch b/ci/conan/all/patches/1.0.0-0005-fix-make12-namespace.patch
new file mode 100644
index 00000000000..199804bff00
--- /dev/null
+++ b/ci/conan/all/patches/1.0.0-0005-fix-make12-namespace.patch
@@ -0,0 +1,44 @@
+MIT License
+
+Copyright (c) 2019 Conan.io
+
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.
+
+diff --git a/cpp/src/arrow/vendored/datetime/date.h b/cpp/src/arrow/vendored/datetime/date.h
+index 02a4909..2b168d2 100644
+--- a/cpp/src/arrow/vendored/datetime/date.h
++++ b/cpp/src/arrow/vendored/datetime/date.h
+@@ -5152,7 +5152,7 @@ to_stream(std::basic_ostream<CharT, Traits>& os, const CharT* fmt,
+                     if (modified == CharT{})
+ #endif
+                     {
+-                        auto h = *fmt == CharT{'I'} ? make12(hms.hours()) : hms.hours();
++                        auto h = *fmt == CharT{'I'} ? arrow_vendored::date::make12(hms.hours()) : hms.hours();
+                         if (h < hours{10})
+                             os << CharT{'0'};
+                         os << h.count();
+@@ -5366,7 +5366,7 @@ to_stream(std::basic_ostream<CharT, Traits>& os, const CharT* fmt,
+                     save_ostream<CharT, Traits> _(os);
+                     os.fill('0');
+                     os.width(2);
+-                    os << make12(tod.hours()).count() << CharT{':'};
++                    os << arrow_vendored::date::make12(tod.hours()).count() << CharT{':'};
+                     os.width(2);
+                     os << tod.minutes().count() << CharT{':'};
+                     os.width(2);
diff --git a/ci/conan/all/patches/1.0.0-0006-fix-cmake.patch b/ci/conan/all/patches/1.0.0-0006-fix-cmake.patch
new file mode 100644
index 00000000000..3ecd0bf9f39
--- /dev/null
+++ b/ci/conan/all/patches/1.0.0-0006-fix-cmake.patch
@@ -0,0 +1,355 @@
+MIT License
+
+Copyright (c) 2019 Conan.io
+
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.
+
+diff --git a/cpp/CMakeLists.txt b/cpp/CMakeLists.txt
+index 300f043..0127a7a 100644
+--- a/cpp/CMakeLists.txt
++++ b/cpp/CMakeLists.txt
+@@ -654,7 +654,7 @@ endif()
+ 
+ if(ARROW_WITH_BROTLI)
+   # Order is important for static linking
+-  set(ARROW_BROTLI_LIBS Brotli::brotlienc Brotli::brotlidec Brotli::brotlicommon)
++  set(ARROW_BROTLI_LIBS brotli::brotlienc brotli::brotlidec brotli::brotlicommon)
+   list(APPEND ARROW_LINK_LIBS ${ARROW_BROTLI_LIBS})
+   list(APPEND ARROW_STATIC_LINK_LIBS ${ARROW_BROTLI_LIBS})
+ endif()
+@@ -664,7 +664,7 @@ if(ARROW_WITH_BZ2)
+ endif()
+ 
+ if(ARROW_WITH_LZ4)
+-  list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4)
++  list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4_static)
+ endif()
+ 
+ if(ARROW_WITH_SNAPPY)
+@@ -800,8 +800,11 @@ endif()
+ 
+ if(ARROW_MIMALLOC)
+   add_definitions(-DARROW_MIMALLOC)
+-  list(APPEND ARROW_LINK_LIBS mimalloc::mimalloc)
+-  list(APPEND ARROW_STATIC_LINK_LIBS mimalloc::mimalloc)
++  if (TARGET mimalloc-static)
++    list(APPEND ARROW_LINK_LIBS mimalloc-static)
++  else()
++    list(APPEND ARROW_STATIC_LINK_LIBS mimalloc)
++  endif()
+ endif()
+ 
+ # ----------------------------------------------------------------------
+diff --git a/cpp/cmake_modules/BuildUtils.cmake b/cpp/cmake_modules/BuildUtils.cmake
+index eb10ebe..9c81017 100644
+--- a/cpp/cmake_modules/BuildUtils.cmake
++++ b/cpp/cmake_modules/BuildUtils.cmake
+@@ -165,10 +165,10 @@ function(create_merged_static_lib output_target)
+     set(ar_script_path ${CMAKE_BINARY_DIR}/${ARG_NAME}.ar)
+ 
+     file(WRITE ${ar_script_path}.in "CREATE ${output_lib_path}\n")
+-    file(APPEND ${ar_script_path}.in "ADDLIB $<TARGET_FILE:${ARG_ROOT}>\n")
++    file(APPEND ${ar_script_path}.in "ADDLIB $<TARGET_LINKER_FILE:${ARG_ROOT}>\n")
+ 
+     foreach(lib ${ARG_TO_MERGE})
+-      file(APPEND ${ar_script_path}.in "ADDLIB $<TARGET_FILE:${lib}>\n")
++      file(APPEND ${ar_script_path}.in "ADDLIB $<TARGET_LINKER_FILE:${lib}>\n")
+     endforeach()
+ 
+     file(APPEND ${ar_script_path}.in "SAVE\nEND\n")
+diff --git a/cpp/cmake_modules/ThirdpartyToolchain.cmake b/cpp/cmake_modules/ThirdpartyToolchain.cmake
+index 807e2b9..016c8db 100644
+--- a/cpp/cmake_modules/ThirdpartyToolchain.cmake
++++ b/cpp/cmake_modules/ThirdpartyToolchain.cmake
+@@ -154,16 +154,7 @@ macro(build_dependency DEPENDENCY_NAME)
+ endmacro()
+ 
+ macro(resolve_dependency DEPENDENCY_NAME)
+-  if(${DEPENDENCY_NAME}_SOURCE STREQUAL "AUTO")
+-    find_package(${DEPENDENCY_NAME} MODULE)
+-    if(NOT ${${DEPENDENCY_NAME}_FOUND})
+-      build_dependency(${DEPENDENCY_NAME})
+-    endif()
+-  elseif(${DEPENDENCY_NAME}_SOURCE STREQUAL "BUNDLED")
+-    build_dependency(${DEPENDENCY_NAME})
+-  elseif(${DEPENDENCY_NAME}_SOURCE STREQUAL "SYSTEM")
+-    find_package(${DEPENDENCY_NAME} REQUIRED)
+-  endif()
++  find_package(${DEPENDENCY_NAME} REQUIRED)
+ endmacro()
+ 
+ macro(resolve_dependency_with_version DEPENDENCY_NAME REQUIRED_VERSION)
+@@ -765,6 +756,7 @@ endif()
+ # - Tests need Boost at runtime.
+ # - S3FS and Flight benchmarks need Boost at runtime.
+ if(ARROW_BUILD_INTEGRATION
++   OR ARROW_BOOST_REQUIRED
+    OR ARROW_BUILD_TESTS
+    OR ARROW_GANDIVA
+    OR (ARROW_FLIGHT AND ARROW_BUILD_BENCHMARKS)
+@@ -785,7 +777,7 @@ if(ARROW_BOOST_REQUIRED)
+   elseif(BOOST_SOURCE STREQUAL "BUNDLED")
+     build_boost()
+   elseif(BOOST_SOURCE STREQUAL "SYSTEM")
+-    find_package(BoostAlt ${ARROW_BOOST_REQUIRED_VERSION} REQUIRED)
++    find_package(Boost ${ARROW_BOOST_REQUIRED_VERSION} REQUIRED)
+   endif()
+ 
+   if(TARGET Boost::system)
+@@ -936,11 +928,11 @@ macro(build_brotli)
+ endmacro()
+ 
+ if(ARROW_WITH_BROTLI)
+-  resolve_dependency(Brotli)
++  resolve_dependency(brotli)
+   # TODO: Don't use global includes but rather target_include_directories
+-  get_target_property(BROTLI_INCLUDE_DIR Brotli::brotlicommon
++  get_target_property(BROTLI_INCLUDE_DIR brotli::brotlicommon
+                       INTERFACE_INCLUDE_DIRECTORIES)
+-  include_directories(SYSTEM ${BROTLI_INCLUDE_DIR})
++  include_directories(SYSTEM ${brotli_INCLUDE_DIR})
+ endif()
+ 
+ if(PARQUET_REQUIRE_ENCRYPTION AND NOT ARROW_PARQUET)
+@@ -1146,9 +1138,10 @@ if(ARROW_NEED_GFLAGS)
+     endif()
+   endif()
+   # TODO: Don't use global includes but rather target_include_directories
+-  include_directories(SYSTEM ${GFLAGS_INCLUDE_DIR})
++  include_directories(SYSTEM ${gflags_INCLUDE_DIR})
++  set(GFLAGS_LIBRARIES ${gflags_LIBRARIES})
+ 
+-  if(NOT TARGET ${GFLAGS_LIBRARIES})
++  if(0)
+     if(TARGET gflags-shared)
+       set(GFLAGS_LIBRARIES gflags-shared)
+     elseif(TARGET gflags_shared)
+@@ -1237,12 +1230,13 @@ endmacro()
+ if(ARROW_WITH_THRIFT)
+   # We already may have looked for Thrift earlier, when considering whether
+   # to build Boost, so don't look again if already found.
+-  if(NOT Thrift_FOUND AND NOT THRIFT_FOUND)
++  if(0)
+     # Thrift c++ code generated by 0.13 requires 0.11 or greater
+     resolve_dependency_with_version(Thrift 0.11.0)
+   endif()
++  find_package(Thrift CONFIG REQUIRED)
+   # TODO: Don't use global includes but rather target_include_directories
+-  include_directories(SYSTEM ${THRIFT_INCLUDE_DIR})
++  include_directories(SYSTEM ${Thrift_INCLUDE_DIR})
+ endif()
+ 
+ # ----------------------------------------------------------------------
+@@ -1407,6 +1401,7 @@ endif()
+ # jemalloc - Unix-only high-performance allocator
+ 
+ if(ARROW_JEMALLOC)
++if(0)
+   message(STATUS "Building (vendored) jemalloc from source")
+   # We only use a vendored jemalloc as we want to control its version.
+   # Also our build of jemalloc is specially prefixed so that it will not
+@@ -1465,12 +1460,18 @@ if(ARROW_JEMALLOC)
+   add_dependencies(jemalloc::jemalloc jemalloc_ep)
+ 
+   list(APPEND ARROW_BUNDLED_STATIC_LIBS jemalloc::jemalloc)
++else()
++  find_package(jemalloc REQUIRED CONFIG)
++  include_directories(SYSTEM "${jemalloc_INCLUDE_DIR}")
++  list(APPEND ARROW_BUNDLED_STATIC_LIBS  ${jemalloc_LIBRARIES_TARGETS} )
++endif()
+ endif()
+ 
+ # ----------------------------------------------------------------------
+ # mimalloc - Cross-platform high-performance allocator, from Microsoft
+ 
+ if(ARROW_MIMALLOC)
++if(0)
+   message(STATUS "Building (vendored) mimalloc from source")
+   # We only use a vendored mimalloc as we want to control its build options.
+ 
+@@ -1518,6 +1519,11 @@ if(ARROW_MIMALLOC)
+   add_dependencies(toolchain mimalloc_ep)
+ 
+   list(APPEND ARROW_BUNDLED_STATIC_LIBS mimalloc::mimalloc)
++else()
++  find_package(mimalloc REQUIRED CONFIG)
++  include_directories(SYSTEM "${mimalloc_INCLUDE_DIR}")
++  list(APPEND ARROW_BUNDLED_STATIC_LIBS  ${mimalloc_LIBRARIES_TARGETS} )
++endif()
+ endif()
+ 
+ # ----------------------------------------------------------------------
+@@ -1918,11 +1924,16 @@ macro(build_lz4)
+ endmacro()
+ 
+ if(ARROW_WITH_LZ4)
+-  resolve_dependency(Lz4)
++  resolve_dependency(lz4)
+ 
+   # TODO: Don't use global includes but rather target_include_directories
+-  get_target_property(LZ4_INCLUDE_DIR LZ4::lz4 INTERFACE_INCLUDE_DIRECTORIES)
+-  include_directories(SYSTEM ${LZ4_INCLUDE_DIR})
++  if(TARGET LZ4::lz4_static)
++    get_target_property(LZ4_INCLUDE_DIR LZ4::lz4_static INTERFACE_INCLUDE_DIRECTORIES)
++  else()
++    get_target_property(LZ4_INCLUDE_DIR LZ4::lz4_shared INTERFACE_INCLUDE_DIRECTORIES)
++  endif()
++  include_directories(SYSTEM ${lz4_INCLUDE_DIR})
++  list(APPEND ARROW_BUNDLED_STATIC_LIBS  ${lz4_LIBRARIES_TARGETS} )
+ endif()
+ 
+ macro(build_zstd)
+@@ -2037,10 +2048,10 @@ macro(build_re2)
+ endmacro()
+ 
+ if(ARROW_GANDIVA)
+-  resolve_dependency(RE2)
++  resolve_dependency(re2)
+ 
+   # TODO: Don't use global includes but rather target_include_directories
+-  get_target_property(RE2_INCLUDE_DIR RE2::re2 INTERFACE_INCLUDE_DIRECTORIES)
++  get_target_property(RE2_INCLUDE_DIR re2::re2 INTERFACE_INCLUDE_DIRECTORIES)
+   include_directories(SYSTEM ${RE2_INCLUDE_DIR})
+ endif()
+ 
+@@ -2480,17 +2491,24 @@ if(ARROW_WITH_GRPC)
+   endif()
+ 
+   # TODO: Don't use global includes but rather target_include_directories
+-  get_target_property(GRPC_INCLUDE_DIR gRPC::grpc INTERFACE_INCLUDE_DIRECTORIES)
++  # get_target_property(GRPC_INCLUDE_DIR gRPC::grpc INTERFACE_INCLUDE_DIRECTORIES)
++  if(grpc_INCLUDE_DIRS_RELEASE)
++    set(GRPC_INCLUDE_DIR ${grpc_INCLUDE_DIRS_RELEASE})
++  elseif(grpc_INCLUDE_DIRS_DEBUG)
++    set(GRPC_INCLUDE_DIR ${grpc_INCLUDE_DIRS_DEBUG})
++  endif()
+   include_directories(SYSTEM ${GRPC_INCLUDE_DIR})
++  include_directories(SYSTEM ${absl_INCLUDE_DIR})
++  include_directories(SYSTEM ${protobuf_INCLUDE_DIR})
+ 
+   if(GRPC_VENDORED)
+     set(GRPCPP_PP_INCLUDE TRUE)
+   else()
+     # grpc++ headers may reside in ${GRPC_INCLUDE_DIR}/grpc++ or ${GRPC_INCLUDE_DIR}/grpcpp
+     # depending on the gRPC version.
+-    if(EXISTS "${GRPC_INCLUDE_DIR}/grpcpp/impl/codegen/config_protobuf.h")
++    if(EXISTS ${GRPC_INCLUDE_DIR}/grpcpp/impl/codegen/config_protobuf.h)
+       set(GRPCPP_PP_INCLUDE TRUE)
+-    elseif(EXISTS "${GRPC_INCLUDE_DIR}/grpc++/impl/codegen/config_protobuf.h")
++    elseif(EXISTS ${GRPC_INCLUDE_DIR}/grpc++/impl/codegen/config_protobuf.h)
+       set(GRPCPP_PP_INCLUDE FALSE)
+     else()
+       message(FATAL_ERROR "Cannot find grpc++ headers in ${GRPC_INCLUDE_DIR}")
+diff --git a/cpp/src/arrow/CMakeLists.txt b/cpp/src/arrow/CMakeLists.txt
+index 5797a78..da6bd4d 100644
+--- a/cpp/src/arrow/CMakeLists.txt
++++ b/cpp/src/arrow/CMakeLists.txt
+@@ -292,10 +292,15 @@ set(ARROW_TESTING_SRCS
+ 
+ set(_allocator_dependencies "") # Empty list
+ if(ARROW_JEMALLOC)
+-  list(APPEND _allocator_dependencies jemalloc_ep)
++  list(APPEND _allocator_dependencies jemalloc::jemalloc)
+ endif()
++
+ if(ARROW_MIMALLOC)
+-  list(APPEND _allocator_dependencies mimalloc_ep)
++  if (TARGET mimalloc-static)
++    list(APPEND _allocator_dependencies mimalloc-static)
++  else()
++    list(APPEND _allocator_dependencies mimalloc)
++  endif()
+ endif()
+ 
+ if(_allocator_dependencies)
+diff --git a/cpp/src/arrow/memory_pool.cc b/cpp/src/arrow/memory_pool.cc
+index 784bf7b..8f005a5 100644
+--- a/cpp/src/arrow/memory_pool.cc
++++ b/cpp/src/arrow/memory_pool.cc
+@@ -31,7 +31,7 @@
+ // Needed to support jemalloc 3 and 4
+ #define JEMALLOC_MANGLE
+ // Explicitly link to our version of jemalloc
+-#include "jemalloc_ep/dist/include/jemalloc/jemalloc.h"
++#include "jemalloc/jemalloc.h"
+ #endif
+ 
+ #ifdef ARROW_MIMALLOC
+diff --git a/cpp/src/gandiva/CMakeLists.txt b/cpp/src/gandiva/CMakeLists.txt
+index 85e8db6..cd70c63 100644
+--- a/cpp/src/gandiva/CMakeLists.txt
++++ b/cpp/src/gandiva/CMakeLists.txt
+@@ -25,7 +25,7 @@ add_custom_target(gandiva-benchmarks)
+ 
+ add_dependencies(gandiva-all gandiva gandiva-tests gandiva-benchmarks)
+ 
+-find_package(LLVMAlt REQUIRED)
++find_package(LLVM REQUIRED)
+ 
+ if(LLVM_VERSION_MAJOR LESS "10")
+   set(GANDIVA_CXX_STANDARD ${CMAKE_CXX_STANDARD})
+@@ -88,9 +88,16 @@ set(SRC_FILES
+     random_generator_holder.cc
+     ${GANDIVA_PRECOMPILED_CC_PATH})
+ 
+-set(GANDIVA_SHARED_PRIVATE_LINK_LIBS arrow_shared LLVM::LLVM_INTERFACE RE2::re2)
+ 
+-set(GANDIVA_STATIC_LINK_LIBS arrow_static LLVM::LLVM_INTERFACE RE2::re2)
++  function(get_all_targets var)
++    set(targets)
++    get_all_targets_recursive(targets ${CMAKE_CURRENT_SOURCE_DIR})
++    set(${var} ${targets} PARENT_SCOPE)
++endfunction()
++
++set(GANDIVA_SHARED_PRIVATE_LINK_LIBS arrow_shared llvm-core::llvm-core re2::re2)
++
++set(GANDIVA_STATIC_LINK_LIBS arrow_static llvm-core::llvm-core re2::re2)
+ 
+ if(ARROW_GANDIVA_STATIC_LIBSTDCPP
+    AND (CMAKE_COMPILER_IS_GNUCC OR CMAKE_COMPILER_IS_GNUCXX))
+@@ -131,7 +138,7 @@ add_arrow_lib(gandiva
+               arrow_dependencies
+               precompiled
+               EXTRA_INCLUDES
+-              $<TARGET_PROPERTY:LLVM::LLVM_INTERFACE,INTERFACE_INCLUDE_DIRECTORIES>
++              $<TARGET_PROPERTY:llvm-core::llvm-core,INTERFACE_INCLUDE_DIRECTORIES>
+               SHARED_LINK_FLAGS
+               ${GANDIVA_SHARED_LINK_FLAGS}
+               SHARED_LINK_LIBS
+@@ -203,7 +210,7 @@ endfunction()
+ 
+ set(GANDIVA_INTERNALS_TEST_ARGUMENTS)
+ if(WIN32)
+-  list(APPEND GANDIVA_INTERNALS_TEST_ARGUMENTS EXTRA_LINK_LIBS LLVM::LLVM_INTERFACE)
++  list(APPEND GANDIVA_INTERNALS_TEST_ARGUMENTS EXTRA_LINK_LIBS llvm-core::llvm-core)
+ endif()
+ add_gandiva_test(internals-test
+                  SOURCES
+@@ -225,9 +232,9 @@ add_gandiva_test(internals-test
+                  decimal_type_util_test.cc
+                  random_generator_holder_test.cc
+                  EXTRA_DEPENDENCIES
+-                 LLVM::LLVM_INTERFACE
++                 llvm-core::llvm-core
+                  EXTRA_INCLUDES
+-                 $<TARGET_PROPERTY:LLVM::LLVM_INTERFACE,INTERFACE_INCLUDE_DIRECTORIES>
++                 $<TARGET_PROPERTY:llvm-core::llvm-core,INTERFACE_INCLUDE_DIRECTORIES>
+                  ${GANDIVA_INTERNALS_TEST_ARGUMENTS})
+ 
+ if(ARROW_GANDIVA_JAVA)
diff --git a/ci/conan/all/patches/8.0.0-0001-cmake.patch b/ci/conan/all/patches/10.0.0-0001-mallctl-takes-size_t.patch
similarity index 65%
rename from ci/conan/all/patches/8.0.0-0001-cmake.patch
rename to ci/conan/all/patches/10.0.0-0001-mallctl-takes-size_t.patch
index 9e67f4a1912..3428797472c 100644
--- a/ci/conan/all/patches/8.0.0-0001-cmake.patch
+++ b/ci/conan/all/patches/10.0.0-0001-mallctl-takes-size_t.patch
@@ -20,16 +20,16 @@ LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
 OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
 SOFTWARE.
 
-diff --git a/cpp/cmake_modules/DefineOptions.cmake b/cpp/cmake_modules/DefineOptions.cmake
-index ab7d2ed..6f1e411 100644
---- a/cpp/cmake_modules/DefineOptions.cmake
-+++ b/cpp/cmake_modules/DefineOptions.cmake
-@@ -82,7 +82,7 @@ macro(define_option_string name description default)
- endmacro()
+diff --git a/cpp/src/arrow/memory_pool_jemalloc.cc b/cpp/src/arrow/memory_pool_jemalloc.cc
+index c7d73c8..34c7c63 100644
+--- a/cpp/src/arrow/memory_pool_jemalloc.cc
++++ b/cpp/src/arrow/memory_pool_jemalloc.cc
+@@ -140,7 +140,7 @@ void JemallocAllocator::ReleaseUnused() {
+   } while (0)
  
- # Top level cmake dir
--if("${CMAKE_SOURCE_DIR}" STREQUAL "${CMAKE_CURRENT_SOURCE_DIR}")
-+if(1)
-   #----------------------------------------------------------------------
-   set_option_category("Compile and link")
+ Status jemalloc_set_decay_ms(int ms) {
+-  ssize_t decay_time_ms = static_cast<ssize_t>(ms);
++  size_t decay_time_ms = static_cast<ssize_t>(ms);
  
+   int err = mallctl("arenas.dirty_decay_ms", nullptr, nullptr, &decay_time_ms,
+                     sizeof(decay_time_ms));
diff --git a/ci/conan/all/patches/10.0.0-0002-fix-cmake.patch b/ci/conan/all/patches/10.0.0-0002-fix-cmake.patch
new file mode 100644
index 00000000000..15d197836ec
--- /dev/null
+++ b/ci/conan/all/patches/10.0.0-0002-fix-cmake.patch
@@ -0,0 +1,333 @@
+MIT License
+
+Copyright (c) 2019 Conan.io
+
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.
+
+diff --git a/cpp/CMakeLists.txt b/cpp/CMakeLists.txt
+index 029f13f..3518a23 100644
+--- a/cpp/CMakeLists.txt
++++ b/cpp/CMakeLists.txt
+@@ -659,7 +659,7 @@ endif()
+ 
+ if(ARROW_WITH_BROTLI)
+   # Order is important for static linking
+-  set(ARROW_BROTLI_LIBS Brotli::brotlienc Brotli::brotlidec Brotli::brotlicommon)
++  set(ARROW_BROTLI_LIBS brotli::brotlienc brotli::brotlidec brotli::brotlicommon)
+   list(APPEND ARROW_SHARED_LINK_LIBS ${ARROW_BROTLI_LIBS})
+   list(APPEND ARROW_STATIC_LINK_LIBS ${ARROW_BROTLI_LIBS})
+   if(Brotli_SOURCE STREQUAL "SYSTEM")
+@@ -675,14 +675,21 @@ if(ARROW_WITH_BZ2)
+ endif()
+ 
+ if(ARROW_WITH_LZ4)
+-  list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4)
++if (TARGET LZ4::lz4_static)
++  list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4_static)
+   if(lz4_SOURCE STREQUAL "SYSTEM")
+-    list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS LZ4::lz4)
++    list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS LZ4::lz4_static)
+   endif()
++else()
++  list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4_shared)
++  if(lz4_SOURCE STREQUAL "SYSTEM")
++    list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS LZ4::lz4_shared)
++  endif()
++endif()
+ endif()
+ 
+ if(ARROW_WITH_SNAPPY)
+-  list(APPEND ARROW_STATIC_LINK_LIBS ${Snappy_TARGET})
++  list(APPEND ARROW_STATIC_LINK_LIBS Snappy::snappy)
+   if(Snappy_SOURCE STREQUAL "SYSTEM")
+     list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS ${Snappy_TARGET})
+   endif()
+diff --git a/cpp/cmake_modules/ThirdpartyToolchain.cmake b/cpp/cmake_modules/ThirdpartyToolchain.cmake
+index b7cd31f..78f3df3 100644
+--- a/cpp/cmake_modules/ThirdpartyToolchain.cmake
++++ b/cpp/cmake_modules/ThirdpartyToolchain.cmake
+@@ -1162,10 +1162,12 @@ endmacro()
+ 
+ if(ARROW_WITH_SNAPPY)
+   resolve_dependency(Snappy
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      PC_PACKAGE_NAMES
+                      snappy)
++
++  if(0)
+   if(${Snappy_SOURCE} STREQUAL "SYSTEM" AND NOT snappy_PC_FOUND)
+     get_target_property(SNAPPY_TYPE ${Snappy_TARGET} TYPE)
+     if(NOT SNAPPY_TYPE STREQUAL "INTERFACE_LIBRARY")
+@@ -1180,6 +1182,9 @@ if(ARROW_WITH_SNAPPY)
+       string(APPEND ARROW_PC_LIBS_PRIVATE " ${SNAPPY_LIB}")
+     endif()
+   endif()
++  else()
++  string(APPEND ARROW_PC_LIBS_PRIVATE " ${Snappy_LIBRARIES}")
++  endif()
+ endif()
+ 
+ # ----------------------------------------------------------------------
+@@ -1242,7 +1247,7 @@ macro(build_brotli)
+ endmacro()
+ 
+ if(ARROW_WITH_BROTLI)
+-  resolve_dependency(Brotli PC_PACKAGE_NAMES libbrotlidec libbrotlienc)
++  resolve_dependency(brotli PC_PACKAGE_NAMES libbrotlidec libbrotlienc)
+ endif()
+ 
+ if(PARQUET_REQUIRE_ENCRYPTION AND NOT ARROW_PARQUET)
+@@ -1256,7 +1261,7 @@ if(PARQUET_REQUIRE_ENCRYPTION
+    OR ARROW_GANDIVA)
+   set(OpenSSL_SOURCE "SYSTEM")
+   resolve_dependency(OpenSSL
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      REQUIRED_VERSION
+                      ${ARROW_OPENSSL_REQUIRED_VERSION})
+@@ -1399,22 +1404,14 @@ endmacro()
+ if(ARROW_NEED_GFLAGS)
+   set(ARROW_GFLAGS_REQUIRED_VERSION "2.1.0")
+   resolve_dependency(gflags
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      REQUIRED_VERSION
+                      ${ARROW_GFLAGS_REQUIRED_VERSION}
+                      IS_RUNTIME_DEPENDENCY
+                      FALSE)
+ 
+-  if(NOT TARGET ${GFLAGS_LIBRARIES})
+-    if(TARGET gflags::gflags_shared)
+-      set(GFLAGS_LIBRARIES gflags::gflags_shared)
+-    elseif(TARGET gflags-shared)
+-      set(GFLAGS_LIBRARIES gflags-shared)
+-    elseif(TARGET gflags_shared)
+-      set(GFLAGS_LIBRARIES gflags_shared)
+-    endif()
+-  endif()
++  set(GFLAGS_LIBRARIES gflags::gflags)
+ endif()
+ 
+ # ----------------------------------------------------------------------
+@@ -1638,7 +1635,7 @@ if(ARROW_WITH_PROTOBUF)
+     set(ARROW_PROTOBUF_REQUIRED_VERSION "2.6.1")
+   endif()
+   resolve_dependency(Protobuf
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      REQUIRED_VERSION
+                      ${ARROW_PROTOBUF_REQUIRED_VERSION}
+@@ -1770,7 +1767,7 @@ macro(build_substrait)
+ 
+   add_custom_target(substrait_gen ALL DEPENDS ${SUBSTRAIT_PROTO_GEN_ALL})
+ 
+-  set(SUBSTRAIT_INCLUDES ${SUBSTRAIT_CPP_DIR} ${PROTOBUF_INCLUDE_DIR})
++  set(SUBSTRAIT_INCLUDES ${SUBSTRAIT_CPP_DIR} ${protobuf_INCLUDE_DIR})
+ 
+   add_library(substrait STATIC ${SUBSTRAIT_SOURCES})
+   set_target_properties(substrait PROPERTIES POSITION_INDEPENDENT_CODE ON)
+@@ -1781,6 +1778,8 @@ macro(build_substrait)
+   list(APPEND ARROW_BUNDLED_STATIC_LIBS substrait)
+ endmacro()
+ 
++set(CMAKE_VERBOSE_MAKEFILE ON)
++
+ if(ARROW_SUBSTRAIT)
+   # Currently, we can only build Substrait from source.
+   set(Substrait_SOURCE "BUNDLED")
+@@ -1866,7 +1865,10 @@ macro(build_jemalloc)
+ endmacro()
+ 
+ if(ARROW_JEMALLOC)
+-  resolve_dependency(jemalloc)
++  #resolve_dependency(jemalloc)
++  find_package(jemalloc REQUIRED CONFIG)
++  include_directories(SYSTEM "${jemalloc_INCLUDE_DIR}")
++  list(APPEND ARROW_BUNDLED_STATIC_LIBS  ${jemalloc_LIBRARIES_TARGETS})
+ endif()
+ 
+ # ----------------------------------------------------------------------
+@@ -2186,7 +2188,7 @@ endmacro()
+ if(ARROW_WITH_RAPIDJSON)
+   set(ARROW_RAPIDJSON_REQUIRED_VERSION "1.1.0")
+   resolve_dependency(RapidJSON
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      REQUIRED_VERSION
+                      ${ARROW_RAPIDJSON_REQUIRED_VERSION}
+@@ -2334,19 +2336,29 @@ macro(build_lz4)
+                       BUILD_BYPRODUCTS ${LZ4_STATIC_LIB})
+ 
+   file(MAKE_DIRECTORY "${LZ4_PREFIX}/include")
+-  add_library(LZ4::lz4 STATIC IMPORTED)
+-  set_target_properties(LZ4::lz4
+-                        PROPERTIES IMPORTED_LOCATION "${LZ4_STATIC_LIB}"
+-                                   INTERFACE_INCLUDE_DIRECTORIES "${LZ4_PREFIX}/include")
+-  add_dependencies(toolchain lz4_ep)
+-  add_dependencies(LZ4::lz4 lz4_ep)
+-
+-  list(APPEND ARROW_BUNDLED_STATIC_LIBS LZ4::lz4)
++  if (TARGET LZ4::lz4_static)
++    add_library(LZ4::lz4_static STATIC IMPORTED)
++    set_target_properties(LZ4::lz4_static
++                          PROPERTIES IMPORTED_LOCATION "${LZ4_STATIC_LIB}"
++                                     INTERFACE_INCLUDE_DIRECTORIES "${LZ4_PREFIX}/include")
++    add_dependencies(toolchain lz4_ep)
++    add_dependencies(LZ4::lz4_static lz4_ep)
++    list(APPEND ARROW_BUNDLED_STATIC_LIBS LZ4::lz4_static)
++  else()
++    add_library(LZ4::lz4_shared STATIC IMPORTED)
++    set_target_properties(LZ4::lz4_shared
++                          PROPERTIES IMPORTED_LOCATION "${LZ4_SHARED_LIB}"
++                                     INTERFACE_INCLUDE_DIRECTORIES "${LZ4_PREFIX}/include")
++    add_dependencies(toolchain lz4_ep)
++    add_dependencies(LZ4::lz4_shared lz4_ep)
++    list(APPEND ARROW_BUNDLED_STATIC_LIBS LZ4::lz4_shared)
++  endif()
++
+ endmacro()
+ 
+ if(ARROW_WITH_LZ4)
+   resolve_dependency(lz4
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      PC_PACKAGE_NAMES
+                      liblz4)
+@@ -2415,7 +2427,7 @@ endmacro()
+ if(ARROW_WITH_ZSTD)
+   # ARROW-13384: ZSTD_minCLevel was added in v1.4.0, required by ARROW-13091
+   resolve_dependency(zstd
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      PC_PACKAGE_NAMES
+                      libzstd
+@@ -2477,7 +2489,7 @@ if(ARROW_WITH_RE2)
+   # Don't specify "PC_PACKAGE_NAMES re2" here because re2.pc may
+   # include -std=c++11. It's not compatible with C source and C++
+   # source not uses C++ 11.
+-  resolve_dependency(re2 HAVE_ALT TRUE)
++  resolve_dependency(re2 USE_CONFIG TRUE)
+   if(${re2_SOURCE} STREQUAL "SYSTEM")
+     get_target_property(RE2_TYPE re2::re2 TYPE)
+     if(NOT RE2_TYPE STREQUAL "INTERFACE_LIBRARY")
+@@ -3922,7 +3934,7 @@ if(ARROW_WITH_GRPC)
+     set(gRPC_SOURCE "${Protobuf_SOURCE}")
+   endif()
+   resolve_dependency(gRPC
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      REQUIRED_VERSION
+                      ${ARROW_GRPC_REQUIRED_VERSION}
+@@ -3939,9 +3951,9 @@ if(ARROW_WITH_GRPC)
+     get_target_property(GRPC_INCLUDE_DIR gRPC::grpc++ INTERFACE_INCLUDE_DIRECTORIES)
+     if(GRPC_INCLUDE_DIR MATCHES "^\\$<"
+        OR # generator expression
+-          EXISTS "${GRPC_INCLUDE_DIR}/grpcpp/impl/codegen/config_protobuf.h")
++          EXISTS ${GRPC_INCLUDE_DIR}/grpcpp/impl/codegen/config_protobuf.h)
+       set(GRPCPP_PP_INCLUDE TRUE)
+-    elseif(EXISTS "${GRPC_INCLUDE_DIR}/grpc++/impl/codegen/config_protobuf.h")
++    elseif(EXISTS ${GRPC_INCLUDE_DIR}/grpc++/impl/codegen/config_protobuf.h)
+       set(GRPCPP_PP_INCLUDE FALSE)
+     else()
+       message(FATAL_ERROR "Cannot find grpc++ headers in ${GRPC_INCLUDE_DIR}")
+@@ -4282,8 +4294,11 @@ macro(build_orc)
+   get_target_property(ORC_SNAPPY_INCLUDE_DIR ${Snappy_TARGET}
+                       INTERFACE_INCLUDE_DIRECTORIES)
+   get_filename_component(ORC_SNAPPY_ROOT "${ORC_SNAPPY_INCLUDE_DIR}" DIRECTORY)
+-
+-  get_target_property(ORC_LZ4_ROOT LZ4::lz4 INTERFACE_INCLUDE_DIRECTORIES)
++  if (TARGET LZ4::lz4_static)
++    get_target_property(ORC_LZ4_ROOT LZ4::lz4_static INTERFACE_INCLUDE_DIRECTORIES)
++  else()
++    get_target_property(ORC_LZ4_ROOT LZ4::lz4_shared INTERFACE_INCLUDE_DIRECTORIES)
++  endif()
+   get_filename_component(ORC_LZ4_ROOT "${ORC_LZ4_ROOT}" DIRECTORY)
+ 
+   get_target_property(ORC_ZSTD_ROOT ${ARROW_ZSTD_LIBZSTD} INTERFACE_INCLUDE_DIRECTORIES)
+@@ -4321,16 +4336,29 @@ macro(build_orc)
+   # Work around CMake bug
+   file(MAKE_DIRECTORY ${ORC_INCLUDE_DIR})
+ 
+-  externalproject_add(orc_ep
+-                      URL ${ORC_SOURCE_URL}
+-                      URL_HASH "SHA256=${ARROW_ORC_BUILD_SHA256_CHECKSUM}"
+-                      BUILD_BYPRODUCTS ${ORC_STATIC_LIB}
+-                      CMAKE_ARGS ${ORC_CMAKE_ARGS} ${EP_LOG_OPTIONS}
+-                      DEPENDS ${ARROW_PROTOBUF_LIBPROTOBUF}
+-                              ${ARROW_ZSTD_LIBZSTD}
+-                              ${Snappy_TARGET}
+-                              LZ4::lz4
+-                              ZLIB::ZLIB)
++  if (TARGET LZ4::lz4_static)
++    externalproject_add(orc_ep
++                        URL ${ORC_SOURCE_URL}
++                        URL_HASH "SHA256=${ARROW_ORC_BUILD_SHA256_CHECKSUM}"
++                        BUILD_BYPRODUCTS ${ORC_STATIC_LIB}
++                        CMAKE_ARGS ${ORC_CMAKE_ARGS} ${EP_LOG_OPTIONS}
++                        DEPENDS ${ARROW_PROTOBUF_LIBPROTOBUF}
++                                ${ARROW_ZSTD_LIBZSTD}
++                                ${Snappy_TARGET}
++                                LZ4::lz4_static
++                                ZLIB::ZLIB)
++  else()
++    externalproject_add(orc_ep
++                        URL ${ORC_SOURCE_URL}
++                        URL_HASH "SHA256=${ARROW_ORC_BUILD_SHA256_CHECKSUM}"
++                        BUILD_BYPRODUCTS ${ORC_STATIC_LIB}
++                        CMAKE_ARGS ${ORC_CMAKE_ARGS} ${EP_LOG_OPTIONS}
++                        DEPENDS ${ARROW_PROTOBUF_LIBPROTOBUF}
++                                ${ARROW_ZSTD_LIBZSTD}
++                                ${Snappy_TARGET}
++                                LZ4::lz4_shared
++                                ZLIB::ZLIB)
++  endif()
+ 
+   set(ORC_VENDORED 1)
+ 
+@@ -4338,7 +4366,11 @@ macro(build_orc)
+   set_target_properties(orc::liborc
+                         PROPERTIES IMPORTED_LOCATION "${ORC_STATIC_LIB}"
+                                    INTERFACE_INCLUDE_DIRECTORIES "${ORC_INCLUDE_DIR}")
+-  set(ORC_LINK_LIBRARIES LZ4::lz4 ZLIB::ZLIB ${ARROW_ZSTD_LIBZSTD} ${Snappy_TARGET})
++  if (TARGET LZ4::lz4_static)
++    set(ORC_LINK_LIBRARIES LZ4::lz4_static ZLIB::ZLIB ${ARROW_ZSTD_LIBZSTD} ${Snappy_TARGET})
++  else()
++    set(ORC_LINK_LIBRARIES LZ4::lz4_shared ZLIB::ZLIB ${ARROW_ZSTD_LIBZSTD} ${Snappy_TARGET})
++  endif()
+   if(NOT MSVC)
+     if(NOT APPLE)
+       list(APPEND ORC_LINK_LIBRARIES Threads::Threads)
+@@ -4765,7 +4797,7 @@ macro(build_awssdk)
+ endmacro()
+ 
+ if(ARROW_S3)
+-  resolve_dependency(AWSSDK HAVE_ALT TRUE)
++  resolve_dependency(AWSSDK USE_CONFIG TRUE)
+ 
+   message(STATUS "Found AWS SDK headers: ${AWSSDK_INCLUDE_DIR}")
+   message(STATUS "Found AWS SDK libraries: ${AWSSDK_LINK_LIBRARIES}")
diff --git a/ci/conan/all/patches/2.0.0-0001-cmake.patch b/ci/conan/all/patches/2.0.0-0001-cmake.patch
deleted file mode 100644
index a41b8e5d20c..00000000000
--- a/ci/conan/all/patches/2.0.0-0001-cmake.patch
+++ /dev/null
@@ -1,41 +0,0 @@
-MIT License
-
-Copyright (c) 2019 Conan.io
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---- cpp/cmake_modules/DefineOptions.cmake
-+++ cpp/cmake_modules/DefineOptions.cmake
-@@ -76,7 +76,7 @@ macro(define_option_string name description default)
- endmacro()
- 
- # Top level cmake dir
--if("${CMAKE_SOURCE_DIR}" STREQUAL "${CMAKE_CURRENT_SOURCE_DIR}")
-+if(1)
-   #----------------------------------------------------------------------
-   set_option_category("Compile and link")
- 
---- cpp/cmake_modules/ThirdpartyToolchain.cmake
-+++ cpp/cmake_modules/ThirdpartyToolchain.cmake
-@@ -1856,3 +1856,3 @@
--    find_package(RapidJSON ${ARROW_RAPIDJSON_REQUIRED_VERSION} HINTS "${CMAKE_ROOT}")
-+    find_package(RapidJSON ${ARROW_RAPIDJSON_REQUIRED_VERSION} HINTS "${CMAKE_ROOT}" REQUIRED)
-     if(RapidJSON_FOUND)
--      set(RAPIDJSON_INCLUDE_DIR ${RAPIDJSON_INCLUDE_DIRS})
-+      set(RAPIDJSON_INCLUDE_DIR ${RapidJSON_INCLUDE_DIRS})
diff --git a/ci/conan/all/patches/2.0.0-0002-jemalloc.patch b/ci/conan/all/patches/2.0.0-0002-jemalloc.patch
deleted file mode 100644
index f1ff9eee78b..00000000000
--- a/ci/conan/all/patches/2.0.0-0002-jemalloc.patch
+++ /dev/null
@@ -1,65 +0,0 @@
-MIT License
-
-Copyright (c) 2019 Conan.io
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---- cpp/cmake_modules/ThirdpartyToolchain.cmake
-+++ cpp/cmake_modules/ThirdpartyToolchain.cmake
-@@ -1461,6 +1461,6 @@
- # jemalloc - Unix-only high-performance allocator
--
- if(ARROW_JEMALLOC)
-+if(0)
-   message(STATUS "Building (vendored) jemalloc from source")
-   # We only use a vendored jemalloc as we want to control its version.
-   # Also our build of jemalloc is specially prefixed so that it will not
-@@ -1519,6 +1519,8 @@
-   add_dependencies(jemalloc::jemalloc jemalloc_ep)
- 
-   list(APPEND ARROW_BUNDLED_STATIC_LIBS jemalloc::jemalloc)
-+else()
-+  find_package(jemalloc REQUIRED)
-+endif()
- endif()
--
- # ----------------------------------------------------------------------
- # mimalloc - Cross-platform high-performance allocator, from Microsoft
---- cpp/src/arrow/CMakeLists.txt
-+++ cpp/src/arrow/CMakeLists.txt
-@@ -307,7 +307,7 @@
- 
- set(_allocator_dependencies "") # Empty list
- if(ARROW_JEMALLOC)
--  list(APPEND _allocator_dependencies jemalloc_ep)
-+  list(APPEND _allocator_dependencies jemalloc::jemalloc)
- endif()
- if(ARROW_MIMALLOC)
-   list(APPEND _allocator_dependencies mimalloc_ep)
---- cpp/src/arrow/memory_pool.cc
-+++ cpp/src/arrow/memory_pool.cc
-@@ -31,7 +31,7 @@
- // Needed to support jemalloc 3 and 4
- #define JEMALLOC_MANGLE
- // Explicitly link to our version of jemalloc
--#include "jemalloc_ep/dist/include/jemalloc/jemalloc.h"
-+#include "jemalloc/jemalloc.h"
- #endif
- 
- #ifdef ARROW_MIMALLOC
diff --git a/ci/conan/all/patches/2.0.0-0006-gandiva-llvm-re2.patch b/ci/conan/all/patches/2.0.0-0006-gandiva-llvm-re2.patch
deleted file mode 100644
index 5e87d541a9d..00000000000
--- a/ci/conan/all/patches/2.0.0-0006-gandiva-llvm-re2.patch
+++ /dev/null
@@ -1,100 +0,0 @@
-MIT License
-
-Copyright (c) 2019 Conan.io
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---- cpp/CMakeLists.txt
-+++ cpp/CMakeLists.txt
-@@ -109,7 +109,7 @@ set(BUILD_SUPPORT_DIR "${CMAKE_SOURCE_DIR}/build-support")
- set(ARROW_CMAKE_INSTALL_DIR "${CMAKE_INSTALL_LIBDIR}/cmake/${PROJECT_NAME}")
- set(ARROW_DOC_DIR "share/doc/${PROJECT_NAME}")
- 
--set(ARROW_LLVM_VERSIONS "10" "9" "8" "7")
-+set(ARROW_LLVM_VERSIONS "12" "11" "10" "9" "8" "7")
- list(GET ARROW_LLVM_VERSIONS 0 ARROW_LLVM_VERSION_PRIMARY)
- string(REGEX
-        REPLACE "^([0-9]+)(\\..+)?" "\\1" ARROW_LLVM_VERSION_PRIMARY_MAJOR
-
---- cpp/cmake_modules/ThirdpartyToolchain.cmake
-+++ cpp/cmake_modules/ThirdpartyToolchain.cmake
-@@ -2092,10 +2092,11 @@ macro(build_re2)
- endmacro()
- 
- if(ARROW_GANDIVA)
--  resolve_dependency(RE2)
-+  find_package(re2 REQUIRED)
-+  resolve_dependency(re2)
- 
-   # TODO: Don't use global includes but rather target_include_directories
--  get_target_property(RE2_INCLUDE_DIR RE2::re2 INTERFACE_INCLUDE_DIRECTORIES)
-+  get_target_property(RE2_INCLUDE_DIR re2::re2 INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${RE2_INCLUDE_DIR})
- endif()
- 
---- cpp/src/gandiva/CMakeLists.txt
-+++ cpp/src/gandiva/CMakeLists.txt
-@@ -25,8 +25,14 @@ add_custom_target(gandiva-benchmarks)
- 
- add_dependencies(gandiva-all gandiva gandiva-tests gandiva-benchmarks)
- 
-+# Now LLVMAlt is only for finding clang/llvm-link
- find_package(LLVMAlt REQUIRED)
- 
-+find_package(llvm-core REQUIRED)
-+
-+string(REPLACE "." ";" VERSION_LIST ${llvm-core_VERSION})
-+list(GET VERSION_LIST 0 LLVM_VERSION_MAJOR)
-+
- if(LLVM_VERSION_MAJOR LESS "10")
-   set(GANDIVA_CXX_STANDARD ${CMAKE_CXX_STANDARD})
- else()
-@@ -88,9 +94,9 @@ set(SRC_FILES
-     random_generator_holder.cc
-     ${GANDIVA_PRECOMPILED_CC_PATH})
- 
--set(GANDIVA_SHARED_PRIVATE_LINK_LIBS arrow_shared LLVM::LLVM_INTERFACE RE2::re2)
-+set(GANDIVA_SHARED_PRIVATE_LINK_LIBS arrow_shared llvm-core::llvm-core re2::re2)
- 
--set(GANDIVA_STATIC_LINK_LIBS arrow_static LLVM::LLVM_INTERFACE RE2::re2)
-+set(GANDIVA_STATIC_LINK_LIBS arrow_static llvm-core::llvm-core re2::re2)
- 
- if(ARROW_GANDIVA_STATIC_LIBSTDCPP
-    AND (CMAKE_COMPILER_IS_GNUCC OR CMAKE_COMPILER_IS_GNUCXX))
-@@ -131,7 +137,7 @@ add_arrow_lib(gandiva
-               arrow_dependencies
-               precompiled
-               EXTRA_INCLUDES
--              $<TARGET_PROPERTY:LLVM::LLVM_INTERFACE,INTERFACE_INCLUDE_DIRECTORIES>
-+              $<TARGET_PROPERTY:llvm-core::core,INTERFACE_INCLUDE_DIRECTORIES>
-               SHARED_LINK_FLAGS
-               ${GANDIVA_SHARED_LINK_FLAGS}
-               SHARED_LINK_LIBS
-@@ -225,9 +231,9 @@ add_gandiva_test(internals-test
-                  decimal_type_util_test.cc
-                  random_generator_holder_test.cc
-                  EXTRA_DEPENDENCIES
--                 LLVM::LLVM_INTERFACE
-+                 llvm-core::llvm-core
-                  EXTRA_INCLUDES
--                 $<TARGET_PROPERTY:LLVM::LLVM_INTERFACE,INTERFACE_INCLUDE_DIRECTORIES>
-+                 $<TARGET_PROPERTY:llvm-core::core,INTERFACE_INCLUDE_DIRECTORIES>
-                  ${GANDIVA_INTERNALS_TEST_ARGUMENTS})
- 
- if(ARROW_GANDIVA_JAVA)
diff --git a/ci/conan/all/patches/2.0.0-0007-fix-protoc-cmake.patch b/ci/conan/all/patches/2.0.0-0007-fix-protoc-cmake.patch
deleted file mode 100644
index c7157f06e0c..00000000000
--- a/ci/conan/all/patches/2.0.0-0007-fix-protoc-cmake.patch
+++ /dev/null
@@ -1,33 +0,0 @@
-MIT License
-
-Copyright (c) 2019 Conan.io
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
---- cpp/cmake_modules/ThirdpartyToolchain.cmake
-+++ cpp/cmake_modules/ThirdpartyToolchain.cmake
-@@ -1452,7 +1452,7 @@ if(ARROW_WITH_PROTOBUF)
-   message(STATUS "Found protoc: ${PROTOBUF_PROTOC_EXECUTABLE}")
-   # Protobuf_PROTOC_LIBRARY is set by all versions of FindProtobuf.cmake
-   message(STATUS "Found libprotoc: ${Protobuf_PROTOC_LIBRARY}")
--  get_target_property(PROTOBUF_LIBRARY ${ARROW_PROTOBUF_LIBPROTOBUF} IMPORTED_LOCATION)
-+  # get_target_property(PROTOBUF_LIBRARY ${ARROW_PROTOBUF_LIBPROTOBUF} IMPORTED_LOCATION)
-   message(STATUS "Found libprotobuf: ${PROTOBUF_LIBRARY}")
-   message(STATUS "Found protobuf headers: ${PROTOBUF_INCLUDE_DIR}")
- endif()
diff --git a/ci/conan/all/patches/2.0.0-0008-fix-cmake.patch b/ci/conan/all/patches/2.0.0-0008-fix-cmake.patch
new file mode 100644
index 00000000000..abdcf7a0fa3
--- /dev/null
+++ b/ci/conan/all/patches/2.0.0-0008-fix-cmake.patch
@@ -0,0 +1,295 @@
+MIT License
+
+Copyright (c) 2019 Conan.io
+
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.
+
+diff --git a/cpp/CMakeLists.txt b/cpp/CMakeLists.txt
+index 515e6af..7488161 100644
+--- a/cpp/CMakeLists.txt
++++ b/cpp/CMakeLists.txt
+@@ -109,7 +109,7 @@ set(BUILD_SUPPORT_DIR "${CMAKE_SOURCE_DIR}/build-support")
+ set(ARROW_CMAKE_INSTALL_DIR "${CMAKE_INSTALL_LIBDIR}/cmake/${PROJECT_NAME}")
+ set(ARROW_DOC_DIR "share/doc/${PROJECT_NAME}")
+ 
+-set(ARROW_LLVM_VERSIONS "10" "9" "8" "7")
++set(ARROW_LLVM_VERSIONS "13" "12" "11" "10" "9" "8" "7")
+ list(GET ARROW_LLVM_VERSIONS 0 ARROW_LLVM_VERSION_PRIMARY)
+ string(REGEX
+        REPLACE "^([0-9]+)(\\..+)?" "\\1" ARROW_LLVM_VERSION_PRIMARY_MAJOR
+@@ -667,7 +667,7 @@ endif()
+ 
+ if(ARROW_WITH_BROTLI)
+   # Order is important for static linking
+-  set(ARROW_BROTLI_LIBS Brotli::brotlienc Brotli::brotlidec Brotli::brotlicommon)
++  set(ARROW_BROTLI_LIBS brotli::brotlienc brotli::brotlidec brotli::brotlicommon)
+   list(APPEND ARROW_LINK_LIBS ${ARROW_BROTLI_LIBS})
+   list(APPEND ARROW_STATIC_LINK_LIBS ${ARROW_BROTLI_LIBS})
+   if(Brotli_SOURCE STREQUAL "SYSTEM")
+@@ -683,9 +683,9 @@ if(ARROW_WITH_BZ2)
+ endif()
+ 
+ if(ARROW_WITH_LZ4)
+-  list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4)
++  list(APPEND ARROW_STATIC_LINK_LIBS lz4::lz4)
+   if(Lz4_SOURCE STREQUAL "SYSTEM")
+-    list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS LZ4::lz4)
++    list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS lz4::lz4)
+   endif()
+ endif()
+ 
+@@ -842,8 +842,14 @@ endif()
+ 
+ if(ARROW_MIMALLOC)
+   add_definitions(-DARROW_MIMALLOC)
+-  list(APPEND ARROW_LINK_LIBS mimalloc::mimalloc)
+-  list(APPEND ARROW_STATIC_LINK_LIBS mimalloc::mimalloc)
++  if (TARGET mimalloc-static)
++    list(APPEND ARROW_LINK_LIBS mimalloc-static)
++    list(APPEND ARROW_STATIC_LINK_LIBS mimalloc-static)
++    else()
++    list(APPEND ARROW_LINK_LIBS mimalloc)
++    list(APPEND ARROW_STATIC_LINK_LIBS mimalloc)
++  endif()
++
+ endif()
+ 
+ # ----------------------------------------------------------------------
+diff --git a/cpp/cmake_modules/ThirdpartyToolchain.cmake b/cpp/cmake_modules/ThirdpartyToolchain.cmake
+index cc37a3c..8fe6db9 100644
+--- a/cpp/cmake_modules/ThirdpartyToolchain.cmake
++++ b/cpp/cmake_modules/ThirdpartyToolchain.cmake
+@@ -171,6 +171,7 @@ macro(provide_find_module DEPENDENCY_NAME)
+ endmacro()
+ 
+ macro(resolve_dependency DEPENDENCY_NAME)
++if(0)
+   set(options)
+   set(one_value_args REQUIRED_VERSION)
+   cmake_parse_arguments(ARG
+@@ -207,6 +208,14 @@ macro(resolve_dependency DEPENDENCY_NAME)
+     provide_find_module(${DEPENDENCY_NAME})
+     list(APPEND ARROW_SYSTEM_DEPENDENCIES ${DEPENDENCY_NAME})
+   endif()
++else()
++  if(ARG_REQUIRED_VERSION)
++    find_package(${DEPENDENCY_NAME} ${ARG_REQUIRED_VERSION} REQUIRED)
++  else()
++    find_package(${DEPENDENCY_NAME} REQUIRED)
++  endif()
++  list(APPEND ARROW_SYSTEM_DEPENDENCIES ${DEPENDENCY_NAME})
++endif()
+ endmacro()
+ 
+ # ----------------------------------------------------------------------
+@@ -826,6 +835,7 @@ endif()
+ # - Tests need Boost at runtime.
+ # - S3FS and Flight benchmarks need Boost at runtime.
+ if(ARROW_BUILD_INTEGRATION
++   OR ARROW_BOOST_REQUIRED
+    OR ARROW_BUILD_TESTS
+    OR ARROW_GANDIVA
+    OR (ARROW_FLIGHT AND ARROW_BUILD_BENCHMARKS)
+@@ -846,7 +856,7 @@ if(ARROW_BOOST_REQUIRED)
+   elseif(BOOST_SOURCE STREQUAL "BUNDLED")
+     build_boost()
+   elseif(BOOST_SOURCE STREQUAL "SYSTEM")
+-    find_package(BoostAlt ${ARROW_BOOST_REQUIRED_VERSION} REQUIRED)
++    find_package(Boost ${ARROW_BOOST_REQUIRED_VERSION} REQUIRED)
+   endif()
+ 
+   if(TARGET Boost::system)
+@@ -973,11 +983,11 @@ macro(build_brotli)
+ endmacro()
+ 
+ if(ARROW_WITH_BROTLI)
+-  resolve_dependency(Brotli)
++  resolve_dependency(brotli)
+   # TODO: Don't use global includes but rather target_include_directories
+-  get_target_property(BROTLI_INCLUDE_DIR Brotli::brotlicommon
++  get_target_property(BROTLI_INCLUDE_DIR brotli::brotlicommon
+                       INTERFACE_INCLUDE_DIRECTORIES)
+-  include_directories(SYSTEM ${BROTLI_INCLUDE_DIR})
++  include_directories(SYSTEM ${brotli_INCLUDE_DIR})
+ endif()
+ 
+ if(PARQUET_REQUIRE_ENCRYPTION AND NOT ARROW_PARQUET)
+@@ -1200,9 +1210,10 @@ if(ARROW_NEED_GFLAGS)
+     endif()
+   endif()
+   # TODO: Don't use global includes but rather target_include_directories
+-  include_directories(SYSTEM ${GFLAGS_INCLUDE_DIR})
++  include_directories(SYSTEM ${gflags_INCLUDE_DIR})
++  set(GFLAGS_LIBRARIES ${gflags_LIBRARIES})
+ 
+-  if(NOT TARGET ${GFLAGS_LIBRARIES})
++  if(0)
+     if(TARGET gflags-shared)
+       set(GFLAGS_LIBRARIES gflags-shared)
+     elseif(TARGET gflags_shared)
+@@ -1291,12 +1302,13 @@ endmacro()
+ if(ARROW_WITH_THRIFT)
+   # We already may have looked for Thrift earlier, when considering whether
+   # to build Boost, so don't look again if already found.
+-  if(NOT Thrift_FOUND AND NOT THRIFT_FOUND)
++  if(0)
+     # Thrift c++ code generated by 0.13 requires 0.11 or greater
+     resolve_dependency(Thrift REQUIRED_VERSION 0.11.0)
+   endif()
++  find_package(Thrift CONFIG REQUIRED)
+   # TODO: Don't use global includes but rather target_include_directories
+-  include_directories(SYSTEM ${THRIFT_INCLUDE_DIR})
++  include_directories(SYSTEM ${Thrift_INCLUDE_DIR})
+ endif()
+ 
+ # ----------------------------------------------------------------------
+@@ -1461,6 +1473,7 @@ endif()
+ # jemalloc - Unix-only high-performance allocator
+ 
+ if(ARROW_JEMALLOC)
++if(0)
+   message(STATUS "Building (vendored) jemalloc from source")
+   # We only use a vendored jemalloc as we want to control its version.
+   # Also our build of jemalloc is specially prefixed so that it will not
+@@ -1519,12 +1532,18 @@ if(ARROW_JEMALLOC)
+   add_dependencies(jemalloc::jemalloc jemalloc_ep)
+ 
+   list(APPEND ARROW_BUNDLED_STATIC_LIBS jemalloc::jemalloc)
++else()
++  find_package(jemalloc REQUIRED CONFIG)
++  include_directories(SYSTEM "${jemalloc_INCLUDE_DIR}")
++  list(APPEND ARROW_BUNDLED_STATIC_LIBS  ${jemalloc_LIBRARIES_TARGETS} )
++endif()
+ endif()
+ 
+ # ----------------------------------------------------------------------
+ # mimalloc - Cross-platform high-performance allocator, from Microsoft
+ 
+ if(ARROW_MIMALLOC)
++if(0)
+   message(STATUS "Building (vendored) mimalloc from source")
+   # We only use a vendored mimalloc as we want to control its build options.
+ 
+@@ -1572,6 +1591,11 @@ if(ARROW_MIMALLOC)
+   add_dependencies(toolchain mimalloc_ep)
+ 
+   list(APPEND ARROW_BUNDLED_STATIC_LIBS mimalloc::mimalloc)
++else()
++  find_package(mimalloc REQUIRED CONFIG)
++  include_directories(SYSTEM "${mimalloc_INCLUDE_DIR}")
++  list(APPEND ARROW_BUNDLED_STATIC_LIBS  ${mimalloc_LIBRARIES_TARGETS} )
++endif()
+ endif()
+ 
+ # ----------------------------------------------------------------------
+@@ -1971,11 +1995,16 @@ macro(build_lz4)
+ endmacro()
+ 
+ if(ARROW_WITH_LZ4)
+-  resolve_dependency(Lz4)
++  resolve_dependency(lz4)
+ 
+   # TODO: Don't use global includes but rather target_include_directories
+-  get_target_property(LZ4_INCLUDE_DIR LZ4::lz4 INTERFACE_INCLUDE_DIRECTORIES)
+-  include_directories(SYSTEM ${LZ4_INCLUDE_DIR})
++  if(TARGET LZ4::lz4_static)
++    get_target_property(LZ4_INCLUDE_DIR LZ4::lz4_static INTERFACE_INCLUDE_DIRECTORIES)
++  else()
++    get_target_property(LZ4_INCLUDE_DIR LZ4::lz4_shared INTERFACE_INCLUDE_DIRECTORIES)
++  endif()
++  include_directories(SYSTEM ${lz4_INCLUDE_DIR})
++  list(APPEND ARROW_BUNDLED_STATIC_LIBS  ${lz4_LIBRARIES_TARGETS} )
+ endif()
+ 
+ macro(build_zstd)
+@@ -2090,10 +2119,10 @@ macro(build_re2)
+ endmacro()
+ 
+ if(ARROW_GANDIVA)
+-  resolve_dependency(RE2)
++  resolve_dependency(re2)
+ 
+   # TODO: Don't use global includes but rather target_include_directories
+-  get_target_property(RE2_INCLUDE_DIR RE2::re2 INTERFACE_INCLUDE_DIRECTORIES)
++  get_target_property(RE2_INCLUDE_DIR re2::re2 INTERFACE_INCLUDE_DIRECTORIES)
+   include_directories(SYSTEM ${RE2_INCLUDE_DIR})
+ endif()
+ 
+@@ -2541,17 +2570,24 @@ if(ARROW_WITH_GRPC)
+   endif()
+ 
+   # TODO: Don't use global includes but rather target_include_directories
+-  get_target_property(GRPC_INCLUDE_DIR gRPC::grpc INTERFACE_INCLUDE_DIRECTORIES)
++  if(grpc_INCLUDE_DIRS_RELEASE)
++    set(GRPC_INCLUDE_DIR ${grpc_INCLUDE_DIRS_RELEASE})
++  elseif(grpc_INCLUDE_DIRS_DEBUG)
++    set(GRPC_INCLUDE_DIR ${grpc_INCLUDE_DIRS_DEBUG})
++  endif()
++
+   include_directories(SYSTEM ${GRPC_INCLUDE_DIR})
++  include_directories(SYSTEM ${absl_INCLUDE_DIR})
++  include_directories(SYSTEM ${protobuf_INCLUDE_DIR})
+ 
+   if(GRPC_VENDORED)
+     set(GRPCPP_PP_INCLUDE TRUE)
+   else()
+     # grpc++ headers may reside in ${GRPC_INCLUDE_DIR}/grpc++ or ${GRPC_INCLUDE_DIR}/grpcpp
+     # depending on the gRPC version.
+-    if(EXISTS "${GRPC_INCLUDE_DIR}/grpcpp/impl/codegen/config_protobuf.h")
++    if(EXISTS ${gRPC_INCLUDE_DIR}/grpcpp/impl/codegen/config_protobuf.h)
+       set(GRPCPP_PP_INCLUDE TRUE)
+-    elseif(EXISTS "${GRPC_INCLUDE_DIR}/grpc++/impl/codegen/config_protobuf.h")
++    elseif(EXISTS ${gRPC_INCLUDE_DIR}/grpc++/impl/codegen/config_protobuf.h)
+       set(GRPCPP_PP_INCLUDE FALSE)
+     else()
+       message(FATAL_ERROR "Cannot find grpc++ headers in ${GRPC_INCLUDE_DIR}")
+diff --git a/cpp/src/arrow/CMakeLists.txt b/cpp/src/arrow/CMakeLists.txt
+index 2751254..842fc9e 100644
+--- a/cpp/src/arrow/CMakeLists.txt
++++ b/cpp/src/arrow/CMakeLists.txt
+@@ -307,10 +307,14 @@ set(ARROW_TESTING_SRCS
+ 
+ set(_allocator_dependencies "") # Empty list
+ if(ARROW_JEMALLOC)
+-  list(APPEND _allocator_dependencies jemalloc_ep)
++  list(APPEND _allocator_dependencies jemalloc::jemalloc)
+ endif()
+ if(ARROW_MIMALLOC)
+-  list(APPEND _allocator_dependencies mimalloc_ep)
++  if (TARGET mimalloc-static)
++    list(APPEND _allocator_dependencies mimalloc-static)
++  else()
++    list(APPEND _allocator_dependencies mimalloc)
++  endif()
+ endif()
+ 
+ if(_allocator_dependencies)
+diff --git a/cpp/src/arrow/memory_pool.cc b/cpp/src/arrow/memory_pool.cc
+index 784bf7b..8f005a5 100644
+--- a/cpp/src/arrow/memory_pool.cc
++++ b/cpp/src/arrow/memory_pool.cc
+@@ -31,7 +31,7 @@
+ // Needed to support jemalloc 3 and 4
+ #define JEMALLOC_MANGLE
+ // Explicitly link to our version of jemalloc
+-#include "jemalloc_ep/dist/include/jemalloc/jemalloc.h"
++#include "jemalloc/jemalloc.h"
+ #endif
+ 
+ #ifdef ARROW_MIMALLOC
diff --git a/ci/conan/all/patches/7.0.0-0001-cmake.patch b/ci/conan/all/patches/7.0.0-0001-cmake.patch
deleted file mode 100644
index 0c7638d67ab..00000000000
--- a/ci/conan/all/patches/7.0.0-0001-cmake.patch
+++ /dev/null
@@ -1,35 +0,0 @@
-MIT License
-
-Copyright (c) 2019 Conan.io
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
-diff --git a/cpp/cmake_modules/DefineOptions.cmake b/cpp/cmake_modules/DefineOptions.cmake
-index 0a43ec1..c468d48 100644
---- a/cpp/cmake_modules/DefineOptions.cmake
-+++ b/cpp/cmake_modules/DefineOptions.cmake
-@@ -82,7 +82,7 @@ macro(define_option_string name description default)
- endmacro()
-
- # Top level cmake dir
--if("${CMAKE_SOURCE_DIR}" STREQUAL "${CMAKE_CURRENT_SOURCE_DIR}")
-+if(1)
-   #----------------------------------------------------------------------
-   set_option_category("Compile and link")
-
diff --git a/ci/conan/all/patches/7.0.0-0002-jemalloc.patch b/ci/conan/all/patches/7.0.0-0002-jemalloc.patch
deleted file mode 100644
index 0deaba80a87..00000000000
--- a/ci/conan/all/patches/7.0.0-0002-jemalloc.patch
+++ /dev/null
@@ -1,48 +0,0 @@
-MIT License
-
-Copyright (c) 2019 Conan.io
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
-diff --git a/cpp/src/arrow/CMakeLists.txt b/cpp/src/arrow/CMakeLists.txt
-index b984bc1..84975e2 100644
---- a/cpp/src/arrow/CMakeLists.txt
-+++ b/cpp/src/arrow/CMakeLists.txt
-@@ -323,7 +323,7 @@ set(ARROW_TESTING_SRCS
- 
- set(_allocator_dependencies "") # Empty list
- if(ARROW_JEMALLOC)
--  list(APPEND _allocator_dependencies jemalloc_ep)
-+  list(APPEND _allocator_dependencies jemalloc::jemalloc)
- endif()
- if(ARROW_MIMALLOC)
-   list(APPEND _allocator_dependencies mimalloc_ep)
-diff --git a/cpp/src/arrow/memory_pool.cc b/cpp/src/arrow/memory_pool.cc
-index cf8bf64..cf8966b 100644
---- a/cpp/src/arrow/memory_pool.cc
-+++ b/cpp/src/arrow/memory_pool.cc
-@@ -48,7 +48,7 @@
- // Needed to support jemalloc 3 and 4
- #define JEMALLOC_MANGLE
- // Explicitly link to our version of jemalloc
--#include "jemalloc_ep/dist/include/jemalloc/jemalloc.h"
-+#include "jemalloc/jemalloc.h"
- #endif
- 
- #ifdef ARROW_MIMALLOC
diff --git a/ci/conan/all/patches/7.0.0-0004-remove-find-modules.patch b/ci/conan/all/patches/7.0.0-0004-remove-find-modules.patch
deleted file mode 100644
index f0b299479e2..00000000000
--- a/ci/conan/all/patches/7.0.0-0004-remove-find-modules.patch
+++ /dev/null
@@ -1,22 +0,0 @@
-MIT License
-
-Copyright (c) 2019 Conan.io
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
diff --git a/ci/conan/all/patches/7.0.0-0005-use-find-package.patch b/ci/conan/all/patches/7.0.0-0005-use-find-package.patch
deleted file mode 100644
index 0759339c23a..00000000000
--- a/ci/conan/all/patches/7.0.0-0005-use-find-package.patch
+++ /dev/null
@@ -1,440 +0,0 @@
-MIT License
-
-Copyright (c) 2019 Conan.io
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
-diff --git a/cpp/CMakeLists.txt b/cpp/CMakeLists.txt
-index 2d7baf1..c2e86e0 100644
---- a/cpp/CMakeLists.txt
-+++ b/cpp/CMakeLists.txt
-@@ -715,7 +715,7 @@ if(ARROW_WITH_BZ2)
- endif()
- 
- if(ARROW_WITH_LZ4)
--  list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4)
-+  list(APPEND ARROW_STATIC_LINK_LIBS lz4::lz4)
-   if(Lz4_SOURCE STREQUAL "SYSTEM")
-     list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS LZ4::lz4)
-   endif()
-@@ -901,8 +901,8 @@ endif()
- if(ARROW_JEMALLOC)
-   add_definitions(-DARROW_JEMALLOC)
-   add_definitions(-DARROW_JEMALLOC_INCLUDE_DIR=${JEMALLOC_INCLUDE_DIR})
--  list(APPEND ARROW_LINK_LIBS jemalloc::jemalloc)
--  list(APPEND ARROW_STATIC_LINK_LIBS jemalloc::jemalloc)
-+  list(APPEND ARROW_LINK_LIBS jemalloc)
-+  list(APPEND ARROW_STATIC_LINK_LIBS jemalloc)
- endif()
- 
- if(ARROW_MIMALLOC)
-diff --git a/cpp/cmake_modules/ThirdpartyToolchain.cmake b/cpp/cmake_modules/ThirdpartyToolchain.cmake
-index bc38952..84fc279 100644
---- a/cpp/cmake_modules/ThirdpartyToolchain.cmake
-+++ b/cpp/cmake_modules/ThirdpartyToolchain.cmake
-@@ -953,14 +953,7 @@ else()
- endif()
- 
- if(ARROW_BOOST_REQUIRED)
--  resolve_dependency(Boost
--                     HAVE_ALT
--                     TRUE
--                     REQUIRED_VERSION
--                     ${ARROW_BOOST_REQUIRED_VERSION}
--                     IS_RUNTIME_DEPENDENCY
--                     # libarrow.so doesn't depend on libboost*.
--                     FALSE)
-+  find_package(Boost CONFIG REQUIRED)
- 
-   if(TARGET Boost::system)
-     set(BOOST_SYSTEM_LIBRARY Boost::system)
-@@ -1038,6 +1031,7 @@ macro(build_snappy)
- endmacro()
- 
- if(ARROW_WITH_SNAPPY)
-+  if(0)
-   resolve_dependency(Snappy PC_PACKAGE_NAMES snappy)
-   if(${Snappy_SOURCE} STREQUAL "SYSTEM" AND NOT snappy_PC_FOUND)
-     get_target_property(SNAPPY_LIB Snappy::snappy IMPORTED_LOCATION)
-@@ -1046,6 +1040,8 @@ if(ARROW_WITH_SNAPPY)
-   # TODO: Don't use global includes but rather target_include_directories
-   get_target_property(SNAPPY_INCLUDE_DIRS Snappy::snappy INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${SNAPPY_INCLUDE_DIRS})
-+  endif()
-+  find_package(Snappy REQUIRED)
- endif()
- 
- # ----------------------------------------------------------------------
-@@ -1108,7 +1104,7 @@ macro(build_brotli)
- endmacro()
- 
- if(ARROW_WITH_BROTLI)
--  resolve_dependency(Brotli PC_PACKAGE_NAMES libbrotlidec libbrotlienc)
-+  find_package(Brotli REQUIRED)
-   # TODO: Don't use global includes but rather target_include_directories
-   get_target_property(BROTLI_INCLUDE_DIR Brotli::brotlicommon
-                       INTERFACE_INCLUDE_DIRECTORIES)
-@@ -1156,6 +1152,15 @@ if(PARQUET_REQUIRE_ENCRYPTION
-     set(OpenSSL_USE_STATIC_LIBS ON)
-     set(OPENSSL_USE_STATIC_LIBS ON)
-     find_package(OpenSSL ${ARROW_OPENSSL_REQUIRED_VERSION} REQUIRED)
-+    find_package(OpenSSL REQUIRED CONFIG)
-+    message("OPENSSL_FOUND: ${OPENSSL_FOUND}")
-+    message("OPENSSL_INCLUDE_DIR: ${OPENSSL_INCLUDE_DIR}")
-+    message("OPENSSL_CRYPTO_LIBRARY: ${OPENSSL_CRYPTO_LIBRARY}")
-+    message("OPENSSL_CRYPTO_LIBRARIES: ${OPENSSL_CRYPTO_LIBRARIES}")
-+    message("OPENSSL_SSL_LIBRARY: ${OPENSSL_SSL_LIBRARY}")
-+    message("OPENSSL_SSL_LIBRARIES: ${OPENSSL_SSL_LIBRARIES}")
-+    message("OPENSSL_LIBRARIES: ${OPENSSL_LIBRARIES}")
-+    message("OPENSSL_VERSION: ${OPENSSL_VERSION}")
-   endif()
-   set(ARROW_USE_OPENSSL ON)
- endif()
-@@ -1228,10 +1233,13 @@ macro(build_glog)
- endmacro()
- 
- if(ARROW_USE_GLOG)
-+  if(0)
-   resolve_dependency(GLOG PC_PACKAGE_NAMES libglog)
-   # TODO: Don't use global includes but rather target_include_directories
-   get_target_property(GLOG_INCLUDE_DIR glog::glog INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${GLOG_INCLUDE_DIR})
-+  endif()
-+  find_package(glog REQUIRED)
- endif()
- 
- # ----------------------------------------------------------------------
-@@ -1300,17 +1308,11 @@ macro(build_gflags)
- endmacro()
- 
- if(ARROW_NEED_GFLAGS)
--  set(ARROW_GFLAGS_REQUIRED_VERSION "2.1.0")
--  resolve_dependency(gflags
--                     HAVE_ALT
--                     TRUE
--                     REQUIRED_VERSION
--                     ${ARROW_GFLAGS_REQUIRED_VERSION}
--                     IS_RUNTIME_DEPENDENCY
--                     FALSE)
-+  find_package(gflags REQUIRED)
-   # TODO: Don't use global includes but rather target_include_directories
-   include_directories(SYSTEM ${GFLAGS_INCLUDE_DIR})
- 
-+if(0)
-   if(NOT TARGET ${GFLAGS_LIBRARIES})
-     if(TARGET gflags-shared)
-       set(GFLAGS_LIBRARIES gflags-shared)
-@@ -1318,6 +1320,10 @@ if(ARROW_NEED_GFLAGS)
-       set(GFLAGS_LIBRARIES gflags_shared)
-     endif()
-   endif()
-+else()
-+  set(GFLAGS_LIBRARIES gflags::gflags)
-+endif()
-+
- endif()
- 
- # ----------------------------------------------------------------------
-@@ -1400,6 +1406,7 @@ macro(build_thrift)
- endmacro()
- 
- if(ARROW_WITH_THRIFT)
-+if (0)
-   # We already may have looked for Thrift earlier, when considering whether
-   # to build Boost, so don't look again if already found.
-   if(NOT Thrift_FOUND)
-@@ -1412,6 +1419,9 @@ if(ARROW_WITH_THRIFT)
-   endif()
-   # TODO: Don't use global includes but rather target_include_directories
-   include_directories(SYSTEM ${THRIFT_INCLUDE_DIR})
-+else()
-+  find_package(Thrift REQUIRED CONFIG)
-+endif()
- 
-   string(REPLACE "." ";" VERSION_LIST ${THRIFT_VERSION})
-   list(GET VERSION_LIST 0 THRIFT_VERSION_MAJOR)
-@@ -1606,7 +1616,7 @@ if(ARROW_JEMALLOC)
-   # conflict with the default allocator as well as other jemalloc
-   # installations.
-   # find_package(jemalloc)
--
-+  if (0)
-   set(ARROW_JEMALLOC_USE_SHARED OFF)
-   set(JEMALLOC_PREFIX
-       "${CMAKE_CURRENT_BINARY_DIR}/jemalloc_ep-prefix/src/jemalloc_ep/dist/")
-@@ -1664,6 +1674,9 @@ if(ARROW_JEMALLOC)
-                                    "${CMAKE_CURRENT_BINARY_DIR}/jemalloc_ep-prefix/src")
-   add_dependencies(jemalloc::jemalloc jemalloc_ep)
- 
-+  endif()
-+  find_package(jemalloc REQUIRED)
-+
-   list(APPEND ARROW_BUNDLED_STATIC_LIBS jemalloc::jemalloc)
- endif()
- 
-@@ -1671,6 +1684,8 @@ endif()
- # mimalloc - Cross-platform high-performance allocator, from Microsoft
- 
- if(ARROW_MIMALLOC)
-+  if (0)
-+
-   message(STATUS "Building (vendored) mimalloc from source")
-   # We only use a vendored mimalloc as we want to control its build options.
- 
-@@ -1715,6 +1730,13 @@ if(ARROW_MIMALLOC)
-   add_dependencies(mimalloc::mimalloc mimalloc_ep)
-   add_dependencies(toolchain mimalloc_ep)
- 
-+  else()
-+  
-+  find_package(mimalloc CONFIG REQUIRED)
-+  add_dependencies(toolchain mimalloc::mimalloc)
-+  
-+  endif()
-+
-   list(APPEND ARROW_BUNDLED_STATIC_LIBS mimalloc::mimalloc)
- endif()
- 
-@@ -1999,6 +2021,7 @@ macro(build_rapidjson)
- endmacro()
- 
- if(ARROW_WITH_RAPIDJSON)
-+if(0)
-   set(ARROW_RAPIDJSON_REQUIRED_VERSION "1.1.0")
-   resolve_dependency(RapidJSON
-                      HAVE_ALT
-@@ -2011,6 +2034,10 @@ if(ARROW_WITH_RAPIDJSON)
-   if(RapidJSON_INCLUDE_DIR)
-     set(RAPIDJSON_INCLUDE_DIR "${RapidJSON_INCLUDE_DIR}")
-   endif()
-+else()
-+  find_package(RapidJSON REQUIRED)
-+  set(RAPIDJSON_INCLUDE_DIR "${RapidJSON_INCLUDE_DIR}")
-+endif()
- 
-   # TODO: Don't use global includes but rather target_include_directories
-   include_directories(SYSTEM ${RAPIDJSON_INCLUDE_DIR})
-@@ -2036,10 +2063,21 @@ macro(build_xsimd)
-   set(XSIMD_VENDORED TRUE)
- endmacro()
- 
--if((NOT ARROW_SIMD_LEVEL STREQUAL "NONE") OR (NOT ARROW_RUNTIME_SIMD_LEVEL STREQUAL "NONE"
--                                             ))
-+if((NOT ARROW_SIMD_LEVEL STREQUAL "NONE") OR (NOT ARROW_RUNTIME_SIMD_LEVEL STREQUAL "NONE"))
-+
-+  if (0)
-+
-   set(xsimd_SOURCE "BUNDLED")
-   resolve_dependency(xsimd)
-+
-+  else()
-+
-+  find_package(xsimd)
-+  set(XSIMD_INCLUDE_DIR "${xsimd_INCLUDE_DIR}")
-+  add_dependencies(toolchain xsimd)
-+
-+  endif()
-+
-   # TODO: Don't use global includes but rather target_include_directories
-   include_directories(SYSTEM ${XSIMD_INCLUDE_DIR})
- endif()
-@@ -2082,11 +2120,14 @@ macro(build_zlib)
- endmacro()
- 
- if(ARROW_WITH_ZLIB)
-+  if(0)
-   resolve_dependency(ZLIB PC_PACKAGE_NAMES zlib)
- 
-   # TODO: Don't use global includes but rather target_include_directories
-   get_target_property(ZLIB_INCLUDE_DIR ZLIB::ZLIB INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${ZLIB_INCLUDE_DIR})
-+  endif()
-+  find_package(ZLIB REQUIRED)
- endif()
- 
- macro(build_lz4)
-@@ -2140,11 +2181,14 @@ macro(build_lz4)
- endmacro()
- 
- if(ARROW_WITH_LZ4)
-+  if(0)
-   resolve_dependency(Lz4 PC_PACKAGE_NAMES liblz4)
- 
-   # TODO: Don't use global includes but rather target_include_directories
-   get_target_property(LZ4_INCLUDE_DIR LZ4::lz4 INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${LZ4_INCLUDE_DIR})
-+  endif()
-+  find_package(lz4 REQUIRED)
- endif()
- 
- macro(build_zstd)
-@@ -2205,6 +2249,7 @@ macro(build_zstd)
- endmacro()
- 
- if(ARROW_WITH_ZSTD)
-+  if(0)
-   # ARROW-13384: ZSTD_minCLevel was added in v1.4.0, required by ARROW-13091
-   resolve_dependency(zstd
-                      PC_PACKAGE_NAMES
-@@ -2232,6 +2277,8 @@ if(ARROW_WITH_ZSTD)
-   get_target_property(ZSTD_INCLUDE_DIR ${ARROW_ZSTD_LIBZSTD}
-                       INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${ZSTD_INCLUDE_DIR})
-+  endif()
-+  find_package(zstd REQUIRED)
- endif()
- 
- # ----------------------------------------------------------------------
-@@ -2271,6 +2318,7 @@ macro(build_re2)
- endmacro()
- 
- if(ARROW_WITH_RE2)
-+  if(0)
-   # Don't specify "PC_PACKAGE_NAMES re2" here because re2.pc may
-   # include -std=c++11. It's not compatible with C source and C++
-   # source not uses C++ 11.
-@@ -2284,6 +2332,8 @@ if(ARROW_WITH_RE2)
-   # TODO: Don't use global includes but rather target_include_directories
-   get_target_property(RE2_INCLUDE_DIR re2::re2 INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${RE2_INCLUDE_DIR})
-+  endif()
-+  find_package(re2 REQUIRED)
- endif()
- 
- macro(build_bzip2)
-@@ -2335,10 +2385,7 @@ macro(build_bzip2)
- endmacro()
- 
- if(ARROW_WITH_BZ2)
--  resolve_dependency(BZip2)
--  if(${BZip2_SOURCE} STREQUAL "SYSTEM")
--    string(APPEND ARROW_PC_LIBS_PRIVATE " ${BZIP2_LIBRARIES}")
--  endif()
-+  find_package(BZip2 REQUIRED)
- 
-   if(NOT TARGET BZip2::BZip2)
-     add_library(BZip2::BZip2 UNKNOWN IMPORTED)
-@@ -2390,11 +2437,7 @@ macro(build_utf8proc)
- endmacro()
- 
- if(ARROW_WITH_UTF8PROC)
--  resolve_dependency(utf8proc
--                     REQUIRED_VERSION
--                     "2.2.0"
--                     PC_PACKAGE_NAMES
--                     libutf8proc)
-+  find_package(utf8proc REQUIRED CONFIG)
- 
-   add_definitions(-DARROW_WITH_UTF8PROC)
- 
-@@ -3554,33 +3597,12 @@ if(ARROW_WITH_GRPC)
-     message(STATUS "Forcing gRPC_SOURCE to Protobuf_SOURCE (${Protobuf_SOURCE})")
-     set(gRPC_SOURCE "${Protobuf_SOURCE}")
-   endif()
--  resolve_dependency(gRPC
--                     HAVE_ALT
--                     TRUE
--                     REQUIRED_VERSION
--                     ${ARROW_GRPC_REQUIRED_VERSION}
--                     PC_PACKAGE_NAMES
--                     grpc++)
-+  find_package(gRPC CONFIG REQUIRED)
- 
-   # TODO: Don't use global includes but rather target_include_directories
-   get_target_property(GRPC_INCLUDE_DIR gRPC::grpc++ INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${GRPC_INCLUDE_DIR})
- 
--  if(GRPC_VENDORED)
--    set(GRPCPP_PP_INCLUDE TRUE)
--    # Examples need to link to static Arrow if we're using static gRPC
--    set(ARROW_GRPC_USE_SHARED OFF)
--  else()
--    # grpc++ headers may reside in ${GRPC_INCLUDE_DIR}/grpc++ or ${GRPC_INCLUDE_DIR}/grpcpp
--    # depending on the gRPC version.
--    if(EXISTS "${GRPC_INCLUDE_DIR}/grpcpp/impl/codegen/config_protobuf.h")
--      set(GRPCPP_PP_INCLUDE TRUE)
--    elseif(EXISTS "${GRPC_INCLUDE_DIR}/grpc++/impl/codegen/config_protobuf.h")
--      set(GRPCPP_PP_INCLUDE FALSE)
--    else()
--      message(FATAL_ERROR "Cannot find grpc++ headers in ${GRPC_INCLUDE_DIR}")
--    endif()
--  endif()
- endif()
- 
- # ----------------------------------------------------------------------
-@@ -3770,7 +3792,12 @@ macro(build_google_cloud_cpp_storage)
- endmacro()
- 
- if(ARROW_WITH_GOOGLE_CLOUD_CPP)
-+if(0)
-   resolve_dependency(google_cloud_cpp_storage)
-+else()
-+  find_package(google-cloud-cpp REQUIRED)
-+endif()
-+
-   get_target_property(google_cloud_cpp_storage_INCLUDE_DIR google-cloud-cpp::storage
-                       INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${google_cloud_cpp_storage_INCLUDE_DIR})
-@@ -4097,11 +4124,15 @@ macro(build_opentelemetry)
- endmacro()
- 
- if(ARROW_WITH_OPENTELEMETRY)
-+if(0)
-   set(opentelemetry-cpp_SOURCE "AUTO")
-   resolve_dependency(opentelemetry-cpp)
-   get_target_property(OPENTELEMETRY_INCLUDE_DIR opentelemetry-cpp::api
-                       INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${OPENTELEMETRY_INCLUDE_DIR})
-+else()
-+  find_package(opentelemetry-cpp REQUIRED)
-+endif()
-   message(STATUS "Found OpenTelemetry headers: ${OPENTELEMETRY_INCLUDE_DIR}")
- endif()
- 
-diff --git a/cpp/src/arrow/CMakeLists.txt b/cpp/src/arrow/CMakeLists.txt
-index 84975e2..7779c08 100644
---- a/cpp/src/arrow/CMakeLists.txt
-+++ b/cpp/src/arrow/CMakeLists.txt
-@@ -575,6 +575,10 @@ foreach(LIB_TARGET ${ARROW_LIBRARIES})
-   target_compile_definitions(${LIB_TARGET} PRIVATE ARROW_EXPORTING)
- endforeach()
- 
-+if(ARROW_BUILD_SHARED AND WIN32)
-+  target_compile_definitions(arrow_shared PRIVATE ARROW_EXPORTING)
-+endif()
-+
- if(ARROW_WITH_BACKTRACE)
-   find_package(Backtrace)
- 
-@@ -585,6 +589,7 @@ if(ARROW_WITH_BACKTRACE)
-   endforeach()
- endif()
- 
-+if(0)
- if(ARROW_BUILD_BUNDLED_DEPENDENCIES)
-   arrow_car(_FIRST_LIB ${ARROW_BUNDLED_STATIC_LIBS})
-   arrow_cdr(_OTHER_LIBS ${ARROW_BUNDLED_STATIC_LIBS})
-@@ -596,6 +601,7 @@ if(ARROW_BUILD_BUNDLED_DEPENDENCIES)
-                            TO_MERGE
-                            ${_OTHER_LIBS})
- endif()
-+endif()
- 
- if(ARROW_TESTING)
-   # that depend on gtest
diff --git a/ci/conan/all/patches/7.0.0-0007-fix-cmake.patch b/ci/conan/all/patches/7.0.0-0007-fix-cmake.patch
new file mode 100644
index 00000000000..eb2acb1523f
--- /dev/null
+++ b/ci/conan/all/patches/7.0.0-0007-fix-cmake.patch
@@ -0,0 +1,369 @@
+MIT License
+
+Copyright (c) 2019 Conan.io
+
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.
+
+diff --git a/cpp/CMakeLists.txt b/cpp/CMakeLists.txt
+index 2d7baf1..dff5b1a 100644
+--- a/cpp/CMakeLists.txt
++++ b/cpp/CMakeLists.txt
+@@ -699,7 +699,7 @@ endif()
+ 
+ if(ARROW_WITH_BROTLI)
+   # Order is important for static linking
+-  set(ARROW_BROTLI_LIBS Brotli::brotlienc Brotli::brotlidec Brotli::brotlicommon)
++  set(ARROW_BROTLI_LIBS brotli::brotlienc brotli::brotlidec brotli::brotlicommon)
+   list(APPEND ARROW_LINK_LIBS ${ARROW_BROTLI_LIBS})
+   list(APPEND ARROW_STATIC_LINK_LIBS ${ARROW_BROTLI_LIBS})
+   if(Brotli_SOURCE STREQUAL "SYSTEM")
+@@ -715,10 +715,17 @@ if(ARROW_WITH_BZ2)
+ endif()
+ 
+ if(ARROW_WITH_LZ4)
+-  list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4)
+-  if(Lz4_SOURCE STREQUAL "SYSTEM")
+-    list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS LZ4::lz4)
+-  endif()
++  if (TARGET LZ4::lz4_static)
++    list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4_static)
++    if(Lz4_SOURCE STREQUAL "SYSTEM")
++      list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS LZ4::lz4_static)
++    endif()
++  else()
++    list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4_shared)
++    if(Lz4_SOURCE STREQUAL "SYSTEM")
++      list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS LZ4::lz4_shared)
++    endif()
++endif()
+ endif()
+ 
+ if(ARROW_WITH_SNAPPY)
+@@ -907,8 +914,13 @@ endif()
+ 
+ if(ARROW_MIMALLOC)
+   add_definitions(-DARROW_MIMALLOC)
+-  list(APPEND ARROW_LINK_LIBS mimalloc::mimalloc)
+-  list(APPEND ARROW_STATIC_LINK_LIBS mimalloc::mimalloc)
++  if (TARGET mimalloc-static)
++    list(APPEND ARROW_LINK_LIBS mimalloc-static)
++    list(APPEND ARROW_STATIC_LINK_LIBS mimalloc-static)
++    else()
++    list(APPEND ARROW_LINK_LIBS mimalloc)
++    list(APPEND ARROW_STATIC_LINK_LIBS mimalloc)
++  endif()
+ endif()
+ 
+ # ----------------------------------------------------------------------
+diff --git a/cpp/cmake_modules/ThirdpartyToolchain.cmake b/cpp/cmake_modules/ThirdpartyToolchain.cmake
+index bc38952..62bf314 100644
+--- a/cpp/cmake_modules/ThirdpartyToolchain.cmake
++++ b/cpp/cmake_modules/ThirdpartyToolchain.cmake
+@@ -954,7 +954,7 @@ endif()
+ 
+ if(ARROW_BOOST_REQUIRED)
+   resolve_dependency(Boost
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      REQUIRED_VERSION
+                      ${ARROW_BOOST_REQUIRED_VERSION}
+@@ -965,7 +965,7 @@ if(ARROW_BOOST_REQUIRED)
+   if(TARGET Boost::system)
+     set(BOOST_SYSTEM_LIBRARY Boost::system)
+     set(BOOST_FILESYSTEM_LIBRARY Boost::filesystem)
+-  elseif(BoostAlt_FOUND)
++  elseif(Boost_FOUND)
+     set(BOOST_SYSTEM_LIBRARY ${Boost_SYSTEM_LIBRARY})
+     set(BOOST_FILESYSTEM_LIBRARY ${Boost_FILESYSTEM_LIBRARY})
+   else()
+@@ -1108,9 +1108,9 @@ macro(build_brotli)
+ endmacro()
+ 
+ if(ARROW_WITH_BROTLI)
+-  resolve_dependency(Brotli PC_PACKAGE_NAMES libbrotlidec libbrotlienc)
++  resolve_dependency(brotli PC_PACKAGE_NAMES libbrotlidec libbrotlienc)
+   # TODO: Don't use global includes but rather target_include_directories
+-  get_target_property(BROTLI_INCLUDE_DIR Brotli::brotlicommon
++  get_target_property(BROTLI_INCLUDE_DIR brotli::brotlicommon
+                       INTERFACE_INCLUDE_DIRECTORIES)
+   include_directories(SYSTEM ${BROTLI_INCLUDE_DIR})
+ endif()
+@@ -1302,22 +1302,17 @@ endmacro()
+ if(ARROW_NEED_GFLAGS)
+   set(ARROW_GFLAGS_REQUIRED_VERSION "2.1.0")
+   resolve_dependency(gflags
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      REQUIRED_VERSION
+                      ${ARROW_GFLAGS_REQUIRED_VERSION}
+                      IS_RUNTIME_DEPENDENCY
+                      FALSE)
+   # TODO: Don't use global includes but rather target_include_directories
+-  include_directories(SYSTEM ${GFLAGS_INCLUDE_DIR})
++  include_directories(SYSTEM ${gflags_INCLUDE_DIR})
+ 
+-  if(NOT TARGET ${GFLAGS_LIBRARIES})
+-    if(TARGET gflags-shared)
+-      set(GFLAGS_LIBRARIES gflags-shared)
+-    elseif(TARGET gflags_shared)
+-      set(GFLAGS_LIBRARIES gflags_shared)
+-    endif()
+-  endif()
++  list(APPEND ARROW_BUNDLED_STATIC_LIBS ${gflags_LIBRARIES_TARGETS})
++  set(GFLAGS_LIBRARIES gflags::gflags)
+ endif()
+ 
+ # ----------------------------------------------------------------------
+@@ -1411,9 +1406,9 @@ if(ARROW_WITH_THRIFT)
+                        thrift)
+   endif()
+   # TODO: Don't use global includes but rather target_include_directories
+-  include_directories(SYSTEM ${THRIFT_INCLUDE_DIR})
++  include_directories(SYSTEM ${Thrift_INCLUDE_DIR})
+ 
+-  string(REPLACE "." ";" VERSION_LIST ${THRIFT_VERSION})
++  string(REPLACE "." ";" VERSION_LIST ${Thrift_VERSION})
+   list(GET VERSION_LIST 0 THRIFT_VERSION_MAJOR)
+   list(GET VERSION_LIST 1 THRIFT_VERSION_MINOR)
+   list(GET VERSION_LIST 2 THRIFT_VERSION_PATCH)
+@@ -1528,6 +1523,7 @@ if(ARROW_WITH_PROTOBUF)
+     set(ARROW_PROTOBUF_REQUIRED_VERSION "2.6.1")
+   endif()
+   resolve_dependency(Protobuf
++                     USE_CONFIG
+                      REQUIRED_VERSION
+                      ${ARROW_PROTOBUF_REQUIRED_VERSION}
+                      PC_PACKAGE_NAMES
+@@ -1538,7 +1534,7 @@ if(ARROW_WITH_PROTOBUF)
+   endif()
+ 
+   # TODO: Don't use global includes but rather target_include_directories
+-  include_directories(SYSTEM ${PROTOBUF_INCLUDE_DIR})
++  include_directories(SYSTEM ${protobuf_INCLUDE_DIR})
+ 
+   if(TARGET arrow::protobuf::libprotobuf)
+     set(ARROW_PROTOBUF_LIBPROTOBUF arrow::protobuf::libprotobuf)
+@@ -1547,9 +1543,9 @@ if(ARROW_WITH_PROTOBUF)
+     if(NOT TARGET protobuf::libprotobuf)
+       add_library(protobuf::libprotobuf UNKNOWN IMPORTED)
+       set_target_properties(protobuf::libprotobuf
+-                            PROPERTIES IMPORTED_LOCATION "${PROTOBUF_LIBRARY}"
++                            PROPERTIES IMPORTED_LOCATION "${Protobuf_LIBRARY}"
+                                        INTERFACE_INCLUDE_DIRECTORIES
+-                                       "${PROTOBUF_INCLUDE_DIR}")
++                                       "${Protobuf_INCLUDE_DIR}")
+     endif()
+     set(ARROW_PROTOBUF_LIBPROTOBUF protobuf::libprotobuf)
+   endif()
+@@ -1569,7 +1565,7 @@ if(ARROW_WITH_PROTOBUF)
+       set_target_properties(protobuf::libprotoc
+                             PROPERTIES IMPORTED_LOCATION "${Protobuf_PROTOC_LIBRARY}"
+                                        INTERFACE_INCLUDE_DIRECTORIES
+-                                       "${PROTOBUF_INCLUDE_DIR}")
++                                       "${Protobuf_INCLUDE_DIR}")
+     endif()
+     set(ARROW_PROTOBUF_LIBPROTOC protobuf::libprotoc)
+   endif()
+@@ -1600,6 +1596,7 @@ endif()
+ # jemalloc - Unix-only high-performance allocator
+ 
+ if(ARROW_JEMALLOC)
++if(0)
+   message(STATUS "Building (vendored) jemalloc from source")
+   # We only use a vendored jemalloc as we want to control its version.
+   # Also our build of jemalloc is specially prefixed so that it will not
+@@ -1665,12 +1662,18 @@ if(ARROW_JEMALLOC)
+   add_dependencies(jemalloc::jemalloc jemalloc_ep)
+ 
+   list(APPEND ARROW_BUNDLED_STATIC_LIBS jemalloc::jemalloc)
++else()
++  find_package(jemalloc REQUIRED CONFIG)
++  include_directories(SYSTEM "${jemalloc_INCLUDE_DIR}")
++  list(APPEND ARROW_BUNDLED_STATIC_LIBS  ${jemalloc_LIBRARIES_TARGETS})
++endif()
+ endif()
+ 
+ # ----------------------------------------------------------------------
+ # mimalloc - Cross-platform high-performance allocator, from Microsoft
+ 
+ if(ARROW_MIMALLOC)
++if(0)
+   message(STATUS "Building (vendored) mimalloc from source")
+   # We only use a vendored mimalloc as we want to control its build options.
+ 
+@@ -1716,6 +1719,11 @@ if(ARROW_MIMALLOC)
+   add_dependencies(toolchain mimalloc_ep)
+ 
+   list(APPEND ARROW_BUNDLED_STATIC_LIBS mimalloc::mimalloc)
++else()
++  find_package(mimalloc REQUIRED CONFIG)
++  include_directories(SYSTEM "${mimalloc_INCLUDE_DIR}")
++  list(APPEND ARROW_BUNDLED_STATIC_LIBS  ${mimalloc_LIBRARIES_TARGETS} )
++endif()
+ endif()
+ 
+ # ----------------------------------------------------------------------
+@@ -2001,7 +2009,7 @@ endmacro()
+ if(ARROW_WITH_RAPIDJSON)
+   set(ARROW_RAPIDJSON_REQUIRED_VERSION "1.1.0")
+   resolve_dependency(RapidJSON
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      REQUIRED_VERSION
+                      ${ARROW_RAPIDJSON_REQUIRED_VERSION}
+@@ -2038,10 +2046,9 @@ endmacro()
+ 
+ if((NOT ARROW_SIMD_LEVEL STREQUAL "NONE") OR (NOT ARROW_RUNTIME_SIMD_LEVEL STREQUAL "NONE"
+                                              ))
+-  set(xsimd_SOURCE "BUNDLED")
+   resolve_dependency(xsimd)
+   # TODO: Don't use global includes but rather target_include_directories
+-  include_directories(SYSTEM ${XSIMD_INCLUDE_DIR})
++  include_directories(SYSTEM ${xsimd_INCLUDE_DIR})
+ endif()
+ 
+ macro(build_zlib)
+@@ -2140,10 +2147,14 @@ macro(build_lz4)
+ endmacro()
+ 
+ if(ARROW_WITH_LZ4)
+-  resolve_dependency(Lz4 PC_PACKAGE_NAMES liblz4)
++  resolve_dependency(lz4)
+ 
+   # TODO: Don't use global includes but rather target_include_directories
+-  get_target_property(LZ4_INCLUDE_DIR LZ4::lz4 INTERFACE_INCLUDE_DIRECTORIES)
++  if (TARGET LZ4::lz4_static)
++    get_target_property(LZ4_INCLUDE_DIR LZ4::lz4_static INTERFACE_INCLUDE_DIRECTORIES)
++  else()
++    get_target_property(LZ4_INCLUDE_DIR LZ4::lz4_shared INTERFACE_INCLUDE_DIRECTORIES)
++  endif()
+   include_directories(SYSTEM ${LZ4_INCLUDE_DIR})
+ endif()
+ 
+@@ -2274,7 +2285,7 @@ if(ARROW_WITH_RE2)
+   # Don't specify "PC_PACKAGE_NAMES re2" here because re2.pc may
+   # include -std=c++11. It's not compatible with C source and C++
+   # source not uses C++ 11.
+-  resolve_dependency(re2 HAVE_ALT TRUE)
++  resolve_dependency(re2 USE_CONFIG TRUE)
+   if(${re2_SOURCE} STREQUAL "SYSTEM")
+     get_target_property(RE2_LIB re2::re2 IMPORTED_LOCATION)
+     string(APPEND ARROW_PC_LIBS_PRIVATE " ${RE2_LIB}")
+@@ -2337,7 +2348,7 @@ endmacro()
+ if(ARROW_WITH_BZ2)
+   resolve_dependency(BZip2)
+   if(${BZip2_SOURCE} STREQUAL "SYSTEM")
+-    string(APPEND ARROW_PC_LIBS_PRIVATE " ${BZIP2_LIBRARIES}")
++    string(APPEND ARROW_PC_LIBS_PRIVATE " ${BZip2_LIBRARIES}")
+   endif()
+ 
+   if(NOT TARGET BZip2::BZip2)
+@@ -2346,7 +2357,7 @@ if(ARROW_WITH_BZ2)
+                           PROPERTIES IMPORTED_LOCATION "${BZIP2_LIBRARIES}"
+                                      INTERFACE_INCLUDE_DIRECTORIES "${BZIP2_INCLUDE_DIR}")
+   endif()
+-  include_directories(SYSTEM "${BZIP2_INCLUDE_DIR}")
++  include_directories(SYSTEM "${BZip2_INCLUDE_DIR}")
+ endif()
+ 
+ macro(build_utf8proc)
+@@ -3555,7 +3566,7 @@ if(ARROW_WITH_GRPC)
+     set(gRPC_SOURCE "${Protobuf_SOURCE}")
+   endif()
+   resolve_dependency(gRPC
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      REQUIRED_VERSION
+                      ${ARROW_GRPC_REQUIRED_VERSION}
+@@ -3573,9 +3584,9 @@ if(ARROW_WITH_GRPC)
+   else()
+     # grpc++ headers may reside in ${GRPC_INCLUDE_DIR}/grpc++ or ${GRPC_INCLUDE_DIR}/grpcpp
+     # depending on the gRPC version.
+-    if(EXISTS "${GRPC_INCLUDE_DIR}/grpcpp/impl/codegen/config_protobuf.h")
++    if(EXISTS ${gRPC_INCLUDE_DIR}/grpcpp/impl/codegen/config_protobuf.h)
+       set(GRPCPP_PP_INCLUDE TRUE)
+-    elseif(EXISTS "${GRPC_INCLUDE_DIR}/grpc++/impl/codegen/config_protobuf.h")
++    elseif(EXISTS ${gPC_INCLUDE_DIR}/grpc++/impl/codegen/config_protobuf.h)
+       set(GRPCPP_PP_INCLUDE FALSE)
+     else()
+       message(FATAL_ERROR "Cannot find grpc++ headers in ${GRPC_INCLUDE_DIR}")
+@@ -4097,9 +4108,9 @@ macro(build_opentelemetry)
+ endmacro()
+ 
+ if(ARROW_WITH_OPENTELEMETRY)
+-  set(opentelemetry-cpp_SOURCE "AUTO")
++  set(opentelemetry-cpp_SOURCE "SYSTEM")
+   resolve_dependency(opentelemetry-cpp)
+-  get_target_property(OPENTELEMETRY_INCLUDE_DIR opentelemetry-cpp::api
++  get_target_property(OPENTELEMETRY_INCLUDE_DIR opentelemetry-cpp::opentelemetry_common
+                       INTERFACE_INCLUDE_DIRECTORIES)
+   include_directories(SYSTEM ${OPENTELEMETRY_INCLUDE_DIR})
+   message(STATUS "Found OpenTelemetry headers: ${OPENTELEMETRY_INCLUDE_DIR}")
+diff --git a/cpp/src/arrow/CMakeLists.txt b/cpp/src/arrow/CMakeLists.txt
+index b984bc1..2c78cd9 100644
+--- a/cpp/src/arrow/CMakeLists.txt
++++ b/cpp/src/arrow/CMakeLists.txt
+@@ -323,10 +323,14 @@ set(ARROW_TESTING_SRCS
+ 
+ set(_allocator_dependencies "") # Empty list
+ if(ARROW_JEMALLOC)
+-  list(APPEND _allocator_dependencies jemalloc_ep)
++  list(APPEND _allocator_dependencies jemalloc::jemalloc)
+ endif()
+ if(ARROW_MIMALLOC)
+-  list(APPEND _allocator_dependencies mimalloc_ep)
++  if (TARGET mimalloc-static)
++    list(APPEND _allocator_dependencies mimalloc-static)
++  else()
++    list(APPEND _allocator_dependencies mimalloc)
++  endif()
+ endif()
+ 
+ if(_allocator_dependencies)
+diff --git a/cpp/src/arrow/flight/CMakeLists.txt b/cpp/src/arrow/flight/CMakeLists.txt
+index 2cf8c99..90ebb9a 100644
+--- a/cpp/src/arrow/flight/CMakeLists.txt
++++ b/cpp/src/arrow/flight/CMakeLists.txt
+@@ -17,6 +17,9 @@
+ 
+ add_custom_target(arrow_flight)
+ 
++# TODO: This is a temporary workaround. absl should be LINKED as TARGET.
++include_directories(SYSTEM ${absl_INCLUDE_DIR})
++
+ arrow_install_all_headers("arrow/flight")
+ 
+ set(ARROW_FLIGHT_LINK_LIBS gRPC::grpc++ ${ARROW_PROTOBUF_LIBPROTOBUF})
+diff --git a/cpp/src/arrow/memory_pool.cc b/cpp/src/arrow/memory_pool.cc
+index 2dcfb01..0394c01 100644
+--- a/cpp/src/arrow/memory_pool.cc
++++ b/cpp/src/arrow/memory_pool.cc
+@@ -48,7 +48,7 @@
+ // Needed to support jemalloc 3 and 4
+ #define JEMALLOC_MANGLE
+ // Explicitly link to our version of jemalloc
+-#include "jemalloc_ep/dist/include/jemalloc/jemalloc.h"
++#include "jemalloc/jemalloc.h"
+ #endif
+ 
+ #ifdef ARROW_MIMALLOC
diff --git a/ci/conan/all/patches/8.0.0-0002-jemalloc.patch b/ci/conan/all/patches/8.0.0-0002-jemalloc.patch
deleted file mode 100644
index 99b92e3308f..00000000000
--- a/ci/conan/all/patches/8.0.0-0002-jemalloc.patch
+++ /dev/null
@@ -1,48 +0,0 @@
-MIT License
-
-Copyright (c) 2019 Conan.io
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
-diff --git a/cpp/src/arrow/CMakeLists.txt b/cpp/src/arrow/CMakeLists.txt
-index 690c51a..c518b7d 100644
---- a/cpp/src/arrow/CMakeLists.txt
-+++ b/cpp/src/arrow/CMakeLists.txt
-@@ -326,7 +326,7 @@ set(ARROW_TESTING_SRCS
- 
- set(_allocator_dependencies "") # Empty list
- if(ARROW_JEMALLOC)
--  list(APPEND _allocator_dependencies jemalloc_ep)
-+  list(APPEND _allocator_dependencies jemalloc::jemalloc)
- endif()
- if(ARROW_MIMALLOC)
-   list(APPEND _allocator_dependencies mimalloc_ep)
-diff --git a/cpp/src/arrow/memory_pool.cc b/cpp/src/arrow/memory_pool.cc
-index 2fab6f3..1f8f896 100644
---- a/cpp/src/arrow/memory_pool.cc
-+++ b/cpp/src/arrow/memory_pool.cc
-@@ -52,7 +52,7 @@
- // Needed to support jemalloc 3 and 4
- #define JEMALLOC_MANGLE
- // Explicitly link to our version of jemalloc
--#include "jemalloc_ep/dist/include/jemalloc/jemalloc.h"
-+#include "jemalloc/jemalloc.h"
- #endif
- 
- #ifdef ARROW_MIMALLOC
diff --git a/ci/conan/all/patches/8.0.0-0004-use-find-package.patch b/ci/conan/all/patches/8.0.0-0004-use-find-package.patch
deleted file mode 100644
index e7bc2320c76..00000000000
--- a/ci/conan/all/patches/8.0.0-0004-use-find-package.patch
+++ /dev/null
@@ -1,401 +0,0 @@
-MIT License
-
-Copyright (c) 2019 Conan.io
-
-Permission is hereby granted, free of charge, to any person obtaining a copy
-of this software and associated documentation files (the "Software"), to deal
-in the Software without restriction, including without limitation the rights
-to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
-copies of the Software, and to permit persons to whom the Software is
-furnished to do so, subject to the following conditions:
-
-The above copyright notice and this permission notice shall be included in all
-copies or substantial portions of the Software.
-
-THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
-IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
-FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
-AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
-LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
-OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
-SOFTWARE.
-
-diff --git a/cpp/CMakeLists.txt b/cpp/CMakeLists.txt
-index aba18c8..bb463d0 100644
---- a/cpp/CMakeLists.txt
-+++ b/cpp/CMakeLists.txt
-@@ -721,7 +721,7 @@ if(ARROW_WITH_BZ2)
- endif()
- 
- if(ARROW_WITH_LZ4)
--  list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4)
-+  list(APPEND ARROW_STATIC_LINK_LIBS lz4::lz4)
-   if(Lz4_SOURCE STREQUAL "SYSTEM")
-     list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS LZ4::lz4)
-   endif()
-@@ -907,8 +907,8 @@ endif()
- if(ARROW_JEMALLOC)
-   add_definitions(-DARROW_JEMALLOC)
-   add_definitions(-DARROW_JEMALLOC_INCLUDE_DIR=${JEMALLOC_INCLUDE_DIR})
--  list(APPEND ARROW_LINK_LIBS jemalloc::jemalloc)
--  list(APPEND ARROW_STATIC_LINK_LIBS jemalloc::jemalloc)
-+  list(APPEND ARROW_LINK_LIBS jemalloc)
-+  list(APPEND ARROW_STATIC_LINK_LIBS jemalloc)
- endif()
- 
- if(ARROW_MIMALLOC)
-diff --git a/cpp/cmake_modules/ThirdpartyToolchain.cmake b/cpp/cmake_modules/ThirdpartyToolchain.cmake
-index f070323..2e2a03b 100644
---- a/cpp/cmake_modules/ThirdpartyToolchain.cmake
-+++ b/cpp/cmake_modules/ThirdpartyToolchain.cmake
-@@ -974,6 +974,7 @@ else()
- endif()
- 
- if(ARROW_BOOST_REQUIRED)
-+if(0)
-   resolve_dependency(Boost
-                      HAVE_ALT
-                      TRUE
-@@ -982,6 +983,9 @@ if(ARROW_BOOST_REQUIRED)
-                      IS_RUNTIME_DEPENDENCY
-                      # libarrow.so doesn't depend on libboost*.
-                      FALSE)
-+else()
-+  find_package(Boost REQUIRED CONFIG)
-+endif()
- 
-   if(TARGET Boost::system)
-     set(BOOST_SYSTEM_LIBRARY Boost::system)
-@@ -1059,6 +1063,7 @@ macro(build_snappy)
- endmacro()
- 
- if(ARROW_WITH_SNAPPY)
-+if(0)
-   resolve_dependency(Snappy PC_PACKAGE_NAMES snappy)
-   if(${Snappy_SOURCE} STREQUAL "SYSTEM" AND NOT snappy_PC_FOUND)
-     get_target_property(SNAPPY_LIB Snappy::snappy IMPORTED_LOCATION)
-@@ -1067,6 +1072,9 @@ if(ARROW_WITH_SNAPPY)
-   # TODO: Don't use global includes but rather target_include_directories
-   get_target_property(SNAPPY_INCLUDE_DIRS Snappy::snappy INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${SNAPPY_INCLUDE_DIRS})
-+else()
-+  find_package(Snappy REQUIRED)
-+endif()
- endif()
- 
- # ----------------------------------------------------------------------
-@@ -1129,7 +1137,7 @@ macro(build_brotli)
- endmacro()
- 
- if(ARROW_WITH_BROTLI)
--  resolve_dependency(Brotli PC_PACKAGE_NAMES libbrotlidec libbrotlienc)
-+  find_package(Brotli REQUIRED)
-   # TODO: Don't use global includes but rather target_include_directories
-   get_target_property(BROTLI_INCLUDE_DIR Brotli::brotlicommon
-                       INTERFACE_INCLUDE_DIRECTORIES)
-@@ -1169,8 +1177,16 @@ if(PARQUET_REQUIRE_ENCRYPTION
-     set(BUILD_SHARED_LIBS_KEEP ${BUILD_SHARED_LIBS})
-     set(BUILD_SHARED_LIBS ON)
- 
--    find_package(OpenSSL ${ARROW_OPENSSL_REQUIRED_VERSION} REQUIRED)
--    set(BUILD_SHARED_LIBS ${BUILD_SHARED_LIBS_KEEP})
-+    find_package(OpenSSL REQUIRED CONFIG)
-+    message("OPENSSL_FOUND: ${OPENSSL_FOUND}")
-+    message("OPENSSL_INCLUDE_DIR: ${OPENSSL_INCLUDE_DIR}")
-+    message("OPENSSL_CRYPTO_LIBRARY: ${OPENSSL_CRYPTO_LIBRARY}")
-+    message("OPENSSL_CRYPTO_LIBRARIES: ${OPENSSL_CRYPTO_LIBRARIES}")
-+    message("OPENSSL_SSL_LIBRARY: ${OPENSSL_SSL_LIBRARY}")
-+    message("OPENSSL_SSL_LIBRARIES: ${OPENSSL_SSL_LIBRARIES}")
-+    message("OPENSSL_LIBRARIES: ${OPENSSL_LIBRARIES}")
-+    message("OPENSSL_VERSION: ${OPENSSL_VERSION}")
-+        set(BUILD_SHARED_LIBS ${BUILD_SHARED_LIBS_KEEP})
-     unset(BUILD_SHARED_LIBS_KEEP)
-   else()
-     # Find static OpenSSL headers and libs
-@@ -1249,10 +1265,14 @@ macro(build_glog)
- endmacro()
- 
- if(ARROW_USE_GLOG)
-+if(0)
-   resolve_dependency(GLOG PC_PACKAGE_NAMES libglog)
-   # TODO: Don't use global includes but rather target_include_directories
-   get_target_property(GLOG_INCLUDE_DIR glog::glog INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${GLOG_INCLUDE_DIR})
-+else()
-+  find_package(glog REQUIRED)
-+endif()
- endif()
- 
- # ----------------------------------------------------------------------
-@@ -1321,6 +1341,7 @@ macro(build_gflags)
- endmacro()
- 
- if(ARROW_NEED_GFLAGS)
-+if(0)
-   set(ARROW_GFLAGS_REQUIRED_VERSION "2.1.0")
-   resolve_dependency(gflags
-                      HAVE_ALT
-@@ -1339,6 +1360,10 @@ if(ARROW_NEED_GFLAGS)
-       set(GFLAGS_LIBRARIES gflags_shared)
-     endif()
-   endif()
-+else()
-+  find_package(gflags REQUIRED)
-+  set(GFLAGS_LIBRARIES gflags::gflags)
-+endif()
- endif()
- 
- # ----------------------------------------------------------------------
-@@ -1718,6 +1756,7 @@ if(ARROW_JEMALLOC)
-   # installations.
-   # find_package(jemalloc)
- 
-+if(0)
-   set(ARROW_JEMALLOC_USE_SHARED OFF)
-   set(JEMALLOC_PREFIX
-       "${CMAKE_CURRENT_BINARY_DIR}/jemalloc_ep-prefix/src/jemalloc_ep/dist/")
-@@ -1778,6 +1817,9 @@ if(ARROW_JEMALLOC)
-                                    INTERFACE_INCLUDE_DIRECTORIES
-                                    "${CMAKE_CURRENT_BINARY_DIR}/jemalloc_ep-prefix/src")
-   add_dependencies(jemalloc::jemalloc jemalloc_ep)
-+else()
-+  find_package(jemalloc REQUIRED)
-+endif()
- 
-   list(APPEND ARROW_BUNDLED_STATIC_LIBS jemalloc::jemalloc)
- endif()
-@@ -1786,6 +1828,7 @@ endif()
- # mimalloc - Cross-platform high-performance allocator, from Microsoft
- 
- if(ARROW_MIMALLOC)
-+if(0)
-   message(STATUS "Building (vendored) mimalloc from source")
-   # We only use a vendored mimalloc as we want to control its build options.
- 
-@@ -1834,6 +1877,10 @@ if(ARROW_MIMALLOC)
-   endif()
-   add_dependencies(mimalloc::mimalloc mimalloc_ep)
-   add_dependencies(toolchain mimalloc_ep)
-+else()
-+  find_package(mimalloc REQUIRED CONFIG)
-+  add_dependencies(toolchain mimalloc::mimalloc)
-+endif()
- 
-   list(APPEND ARROW_BUNDLED_STATIC_LIBS mimalloc::mimalloc)
- endif()
-@@ -2119,6 +2166,7 @@ macro(build_rapidjson)
- endmacro()
- 
- if(ARROW_WITH_RAPIDJSON)
-+if(0)
-   set(ARROW_RAPIDJSON_REQUIRED_VERSION "1.1.0")
-   resolve_dependency(RapidJSON
-                      HAVE_ALT
-@@ -2131,6 +2179,10 @@ if(ARROW_WITH_RAPIDJSON)
-   if(RapidJSON_INCLUDE_DIR)
-     set(RAPIDJSON_INCLUDE_DIR "${RapidJSON_INCLUDE_DIR}")
-   endif()
-+else()
-+  find_package(RapidJSON REQUIRED)
-+  set(RAPIDJSON_INCLUDE_DIR "${RapidJSON_INCLUDE_DIR}")
-+endif()
- 
-   # TODO: Don't use global includes but rather target_include_directories
-   include_directories(SYSTEM ${RAPIDJSON_INCLUDE_DIR})
-@@ -2158,8 +2210,14 @@ endmacro()
- 
- if((NOT ARROW_SIMD_LEVEL STREQUAL "NONE") OR (NOT ARROW_RUNTIME_SIMD_LEVEL STREQUAL "NONE"
-                                              ))
-+if(0)
-   set(xsimd_SOURCE "BUNDLED")
-   resolve_dependency(xsimd)
-+else()
-+  find_package(xsimd)
-+  set(XSIMD_INCLUDE_DIR "${xsimd_INCLUDE_DIR}")
-+  add_dependencies(toolchain xsimd)
-+endif()
-   # TODO: Don't use global includes but rather target_include_directories
-   include_directories(SYSTEM ${XSIMD_INCLUDE_DIR})
- endif()
-@@ -2202,11 +2260,15 @@ macro(build_zlib)
- endmacro()
- 
- if(ARROW_WITH_ZLIB)
-+if(0)
-   resolve_dependency(ZLIB PC_PACKAGE_NAMES zlib)
- 
-   # TODO: Don't use global includes but rather target_include_directories
-   get_target_property(ZLIB_INCLUDE_DIR ZLIB::ZLIB INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${ZLIB_INCLUDE_DIR})
-+else()
-+  find_package(ZLIB REQUIRED)
-+endif()
- endif()
- 
- macro(build_lz4)
-@@ -2260,11 +2322,15 @@ macro(build_lz4)
- endmacro()
- 
- if(ARROW_WITH_LZ4)
-+if(0)
-   resolve_dependency(Lz4 PC_PACKAGE_NAMES liblz4)
- 
-   # TODO: Don't use global includes but rather target_include_directories
-   get_target_property(LZ4_INCLUDE_DIR LZ4::lz4 INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${LZ4_INCLUDE_DIR})
-+else()
-+  find_package(lz4 REQUIRED)
-+endif()
- endif()
- 
- macro(build_zstd)
-@@ -2325,6 +2391,7 @@ macro(build_zstd)
- endmacro()
- 
- if(ARROW_WITH_ZSTD)
-+if(0)
-   # ARROW-13384: ZSTD_minCLevel was added in v1.4.0, required by ARROW-13091
-   resolve_dependency(zstd
-                      PC_PACKAGE_NAMES
-@@ -2352,6 +2419,9 @@ if(ARROW_WITH_ZSTD)
-   get_target_property(ZSTD_INCLUDE_DIR ${ARROW_ZSTD_LIBZSTD}
-                       INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${ZSTD_INCLUDE_DIR})
-+else()
-+  find_package(zstd REQUIRED)
-+endif()
- endif()
- 
- # ----------------------------------------------------------------------
-@@ -2391,6 +2461,7 @@ macro(build_re2)
- endmacro()
- 
- if(ARROW_WITH_RE2)
-+if(0)
-   # Don't specify "PC_PACKAGE_NAMES re2" here because re2.pc may
-   # include -std=c++11. It's not compatible with C source and C++
-   # source not uses C++ 11.
-@@ -2411,6 +2482,9 @@ if(ARROW_WITH_RE2)
-   # TODO: Don't use global includes but rather target_include_directories
-   get_target_property(RE2_INCLUDE_DIR re2::re2 INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${RE2_INCLUDE_DIR})
-+else()
-+  find_package(re2 REQUIRED)
-+endif()
- endif()
- 
- macro(build_bzip2)
-@@ -2462,6 +2536,7 @@ macro(build_bzip2)
- endmacro()
- 
- if(ARROW_WITH_BZ2)
-+if(0)
-   resolve_dependency(BZip2)
-   if(${BZip2_SOURCE} STREQUAL "SYSTEM")
-     string(APPEND ARROW_PC_LIBS_PRIVATE " ${BZIP2_LIBRARIES}")
-@@ -2474,6 +2549,9 @@ if(ARROW_WITH_BZ2)
-                                      INTERFACE_INCLUDE_DIRECTORIES "${BZIP2_INCLUDE_DIR}")
-   endif()
-   include_directories(SYSTEM "${BZIP2_INCLUDE_DIR}")
-+else()
-+  find_package(BZip2 REQUIRED)
-+endif()
- endif()
- 
- macro(build_utf8proc)
-@@ -2517,6 +2595,7 @@ macro(build_utf8proc)
- endmacro()
- 
- if(ARROW_WITH_UTF8PROC)
-+if(0)
-   resolve_dependency(utf8proc
-                      REQUIRED_VERSION
-                      "2.2.0"
-@@ -2538,6 +2617,10 @@ if(ARROW_WITH_UTF8PROC)
-   get_target_property(UTF8PROC_INCLUDE_DIR utf8proc::utf8proc
-                       INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${UTF8PROC_INCLUDE_DIR})
-+else()
-+  find_package(utf8proc REQUIRED CONFIG)
-+  add_definitions(-DARROW_WITH_UTF8PROC)
-+endif()
- endif()
- 
- macro(build_cares)
-@@ -3702,6 +3785,7 @@ macro(build_grpc)
- endmacro()
- 
- if(ARROW_WITH_GRPC)
-+if(0)
-   set(ARROW_GRPC_REQUIRED_VERSION "1.17.0")
-   if(NOT Protobuf_SOURCE STREQUAL gRPC_SOURCE)
-     # ARROW-15495: Protobuf/gRPC must come from the same source
-@@ -3735,6 +3819,9 @@ if(ARROW_WITH_GRPC)
-       message(FATAL_ERROR "Cannot find grpc++ headers in ${GRPC_INCLUDE_DIR}")
-     endif()
-   endif()
-+else()
-+  find_package(gRPC REQUIRED CONFIG)
-+endif()
- endif()
- 
- # ----------------------------------------------------------------------
-@@ -3937,10 +4024,14 @@ macro(build_google_cloud_cpp_storage)
- endmacro()
- 
- if(ARROW_WITH_GOOGLE_CLOUD_CPP)
-+if(0)
-   resolve_dependency(google_cloud_cpp_storage)
-   get_target_property(google_cloud_cpp_storage_INCLUDE_DIR google-cloud-cpp::storage
-                       INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${google_cloud_cpp_storage_INCLUDE_DIR})
-+else()
-+  find_package(google-cloud-cpp REQUIRED)
-+endif()
-   get_target_property(absl_base_INCLUDE_DIR absl::base INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${absl_base_INCLUDE_DIR})
-   message(STATUS "Found google-cloud-cpp::storage headers: ${google_cloud_cpp_storage_INCLUDE_DIR}"
-@@ -4261,6 +4352,7 @@ macro(build_opentelemetry)
- endmacro()
- 
- if(ARROW_WITH_OPENTELEMETRY)
-+if(0)
-   # cURL is required whether we build from source or use an existing installation
-   # (OTel's cmake files do not call find_curl for you)
-   find_curl()
-@@ -4269,7 +4361,10 @@ if(ARROW_WITH_OPENTELEMETRY)
-   get_target_property(OPENTELEMETRY_INCLUDE_DIR opentelemetry-cpp::api
-                       INTERFACE_INCLUDE_DIRECTORIES)
-   include_directories(SYSTEM ${OPENTELEMETRY_INCLUDE_DIR})
--  message(STATUS "Found OpenTelemetry headers: ${OPENTELEMETRY_INCLUDE_DIR}")
-+else()
-+  find_package(opentelemetry-cpp REQUIRED)
-+endif()
-+    message(STATUS "Found OpenTelemetry headers: ${OPENTELEMETRY_INCLUDE_DIR}")
- endif()
- 
- # ----------------------------------------------------------------------
-diff --git a/cpp/src/arrow/CMakeLists.txt b/cpp/src/arrow/CMakeLists.txt
-index c518b7d..40b4853 100644
---- a/cpp/src/arrow/CMakeLists.txt
-+++ b/cpp/src/arrow/CMakeLists.txt
-@@ -584,6 +584,10 @@ foreach(LIB_TARGET ${ARROW_LIBRARIES})
-   target_compile_definitions(${LIB_TARGET} PRIVATE ARROW_EXPORTING)
- endforeach()
- 
-+if(ARROW_BUILD_SHARED AND WIN32)
-+  target_compile_definitions(arrow_shared PRIVATE ARROW_EXPORTING)
-+endif()
-+
- if(ARROW_WITH_BACKTRACE)
-   find_package(Backtrace)
- 
-@@ -594,7 +598,7 @@ if(ARROW_WITH_BACKTRACE)
-   endforeach()
- endif()
- 
--if(ARROW_BUILD_BUNDLED_DEPENDENCIES)
-+if(0)
-   arrow_car(_FIRST_LIB ${ARROW_BUNDLED_STATIC_LIBS})
-   arrow_cdr(_OTHER_LIBS ${ARROW_BUNDLED_STATIC_LIBS})
-   create_merged_static_lib(arrow_bundled_dependencies
diff --git a/ci/conan/all/patches/8.0.0-0006-fix-cmake.patch b/ci/conan/all/patches/8.0.0-0006-fix-cmake.patch
new file mode 100644
index 00000000000..7be516e1b48
--- /dev/null
+++ b/ci/conan/all/patches/8.0.0-0006-fix-cmake.patch
@@ -0,0 +1,447 @@
+MIT License
+
+Copyright (c) 2019 Conan.io
+
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.
+
+diff --git a/cpp/CMakeLists.txt b/cpp/CMakeLists.txt
+index bb463d0..ce2d1df 100644
+--- a/cpp/CMakeLists.txt
++++ b/cpp/CMakeLists.txt
+@@ -705,7 +705,7 @@ endif()
+ 
+ if(ARROW_WITH_BROTLI)
+   # Order is important for static linking
+-  set(ARROW_BROTLI_LIBS Brotli::brotlienc Brotli::brotlidec Brotli::brotlicommon)
++  set(ARROW_BROTLI_LIBS brotli::brotlienc brotli::brotlidec brotli::brotlicommon)
+   list(APPEND ARROW_LINK_LIBS ${ARROW_BROTLI_LIBS})
+   list(APPEND ARROW_STATIC_LINK_LIBS ${ARROW_BROTLI_LIBS})
+   if(Brotli_SOURCE STREQUAL "SYSTEM")
+@@ -721,11 +721,18 @@ if(ARROW_WITH_BZ2)
+ endif()
+ 
+ if(ARROW_WITH_LZ4)
+-  list(APPEND ARROW_STATIC_LINK_LIBS lz4::lz4)
+-  if(Lz4_SOURCE STREQUAL "SYSTEM")
+-    list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS LZ4::lz4)
++  if (TARGET LZ4::lz4_static)
++    list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4_static)
++    if(Lz4_SOURCE STREQUAL "SYSTEM")
++      list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS LZ4::lz4_static)
++    endif()
++  else()
++    list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4_shared)
++    if(Lz4_SOURCE STREQUAL "SYSTEM")
++      list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS LZ4::lz4_shared)
+   endif()
+ endif()
++endif()
+ 
+ if(ARROW_WITH_SNAPPY)
+   list(APPEND ARROW_STATIC_LINK_LIBS Snappy::snappy)
+@@ -913,8 +920,13 @@ endif()
+ 
+ if(ARROW_MIMALLOC)
+   add_definitions(-DARROW_MIMALLOC)
+-  list(APPEND ARROW_LINK_LIBS mimalloc::mimalloc)
+-  list(APPEND ARROW_STATIC_LINK_LIBS mimalloc::mimalloc)
++  if (TARGET mimalloc-static)
++    list(APPEND ARROW_LINK_LIBS mimalloc-static)
++    list(APPEND ARROW_STATIC_LINK_LIBS mimalloc-static)
++  else()
++    list(APPEND ARROW_LINK_LIBS mimalloc)
++    list(APPEND ARROW_STATIC_LINK_LIBS mimalloc)
++  endif()
+ endif()
+ 
+ # ----------------------------------------------------------------------
+diff --git a/cpp/cmake_modules/ThirdpartyToolchain.cmake b/cpp/cmake_modules/ThirdpartyToolchain.cmake
+index f070323..16faf73 100644
+--- a/cpp/cmake_modules/ThirdpartyToolchain.cmake
++++ b/cpp/cmake_modules/ThirdpartyToolchain.cmake
+@@ -959,6 +959,7 @@ endif()
+ # - Tests need Boost at runtime.
+ # - S3FS and Flight benchmarks need Boost at runtime.
+ if(ARROW_BUILD_INTEGRATION
++   OR ARROW_BOOST_REQUIRED
+    OR ARROW_BUILD_TESTS
+    OR (ARROW_FLIGHT AND ARROW_BUILD_BENCHMARKS)
+    OR (ARROW_S3 AND ARROW_BUILD_BENCHMARKS))
+@@ -975,7 +976,7 @@ endif()
+ 
+ if(ARROW_BOOST_REQUIRED)
+   resolve_dependency(Boost
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      REQUIRED_VERSION
+                      ${ARROW_BOOST_REQUIRED_VERSION}
+@@ -986,7 +987,7 @@ if(ARROW_BOOST_REQUIRED)
+   if(TARGET Boost::system)
+     set(BOOST_SYSTEM_LIBRARY Boost::system)
+     set(BOOST_FILESYSTEM_LIBRARY Boost::filesystem)
+-  elseif(BoostAlt_FOUND)
++  elseif(Boost_FOUND)
+     set(BOOST_SYSTEM_LIBRARY ${Boost_SYSTEM_LIBRARY})
+     set(BOOST_FILESYSTEM_LIBRARY ${Boost_FILESYSTEM_LIBRARY})
+   else()
+@@ -1129,9 +1130,9 @@ macro(build_brotli)
+ endmacro()
+ 
+ if(ARROW_WITH_BROTLI)
+-  resolve_dependency(Brotli PC_PACKAGE_NAMES libbrotlidec libbrotlienc)
++  resolve_dependency(brotli PC_PACKAGE_NAMES libbrotlidec libbrotlienc)
+   # TODO: Don't use global includes but rather target_include_directories
+-  get_target_property(BROTLI_INCLUDE_DIR Brotli::brotlicommon
++  get_target_property(BROTLI_INCLUDE_DIR brotli::brotlicommon
+                       INTERFACE_INCLUDE_DIRECTORIES)
+   include_directories(SYSTEM ${BROTLI_INCLUDE_DIR})
+ endif()
+@@ -1323,22 +1324,16 @@ endmacro()
+ if(ARROW_NEED_GFLAGS)
+   set(ARROW_GFLAGS_REQUIRED_VERSION "2.1.0")
+   resolve_dependency(gflags
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      REQUIRED_VERSION
+                      ${ARROW_GFLAGS_REQUIRED_VERSION}
+                      IS_RUNTIME_DEPENDENCY
+                      FALSE)
+   # TODO: Don't use global includes but rather target_include_directories
+-  include_directories(SYSTEM ${GFLAGS_INCLUDE_DIR})
+-
+-  if(NOT TARGET ${GFLAGS_LIBRARIES})
+-    if(TARGET gflags-shared)
+-      set(GFLAGS_LIBRARIES gflags-shared)
+-    elseif(TARGET gflags_shared)
+-      set(GFLAGS_LIBRARIES gflags_shared)
+-    endif()
+-  endif()
++  include_directories(SYSTEM ${gflags_INCLUDE_DIR})
++  list(APPEND ARROW_BUNDLED_STATIC_LIBS ${gflags_LIBRARIES_TARGETS})
++  set(GFLAGS_LIBRARIES gflags::gflags)
+ endif()
+ 
+ # ----------------------------------------------------------------------
+@@ -1432,9 +1427,9 @@ if(ARROW_WITH_THRIFT)
+                        thrift)
+   endif()
+   # TODO: Don't use global includes but rather target_include_directories
+-  include_directories(SYSTEM ${THRIFT_INCLUDE_DIR})
++  include_directories(SYSTEM ${Thrift_INCLUDE_DIR})
+ 
+-  string(REPLACE "." ";" VERSION_LIST ${THRIFT_VERSION})
++  string(REPLACE "." ";" VERSION_LIST ${Thrift_VERSION})
+   list(GET VERSION_LIST 0 THRIFT_VERSION_MAJOR)
+   list(GET VERSION_LIST 1 THRIFT_VERSION_MINOR)
+   list(GET VERSION_LIST 2 THRIFT_VERSION_PATCH)
+@@ -1557,6 +1552,7 @@ if(ARROW_WITH_PROTOBUF)
+     set(ARROW_PROTOBUF_REQUIRED_VERSION "2.6.1")
+   endif()
+   resolve_dependency(Protobuf
++                     USE_CONFIG
+                      REQUIRED_VERSION
+                      ${ARROW_PROTOBUF_REQUIRED_VERSION}
+                      PC_PACKAGE_NAMES
+@@ -1567,7 +1563,7 @@ if(ARROW_WITH_PROTOBUF)
+   endif()
+ 
+   # TODO: Don't use global includes but rather target_include_directories
+-  include_directories(SYSTEM ${PROTOBUF_INCLUDE_DIR})
++  include_directories(SYSTEM ${protobuf_INCLUDE_DIR})
+ 
+   if(TARGET arrow::protobuf::libprotobuf)
+     set(ARROW_PROTOBUF_LIBPROTOBUF arrow::protobuf::libprotobuf)
+@@ -1576,9 +1572,9 @@ if(ARROW_WITH_PROTOBUF)
+     if(NOT TARGET protobuf::libprotobuf)
+       add_library(protobuf::libprotobuf UNKNOWN IMPORTED)
+       set_target_properties(protobuf::libprotobuf
+-                            PROPERTIES IMPORTED_LOCATION "${PROTOBUF_LIBRARY}"
++                            PROPERTIES IMPORTED_LOCATION "${Protobuf_LIBRARY}"
+                                        INTERFACE_INCLUDE_DIRECTORIES
+-                                       "${PROTOBUF_INCLUDE_DIR}")
++                                       "${Protobuf_INCLUDE_DIR}")
+     endif()
+     set(ARROW_PROTOBUF_LIBPROTOBUF protobuf::libprotobuf)
+   endif()
+@@ -1598,7 +1594,7 @@ if(ARROW_WITH_PROTOBUF)
+       set_target_properties(protobuf::libprotoc
+                             PROPERTIES IMPORTED_LOCATION "${Protobuf_PROTOC_LIBRARY}"
+                                        INTERFACE_INCLUDE_DIRECTORIES
+-                                       "${PROTOBUF_INCLUDE_DIR}")
++                                       "${Protobuf_INCLUDE_DIR}")
+     endif()
+     set(ARROW_PROTOBUF_LIBPROTOC protobuf::libprotoc)
+   endif()
+@@ -1690,11 +1686,12 @@ macro(build_substrait)
+ 
+   add_custom_target(substrait_gen ALL DEPENDS ${SUBSTRAIT_PROTO_GEN_ALL})
+ 
+-  set(SUBSTRAIT_INCLUDES ${SUBSTRAIT_CPP_DIR} ${PROTOBUF_INCLUDE_DIR})
++  set(SUBSTRAIT_INCLUDES ${SUBSTRAIT_CPP_DIR} ${protobuf_INCLUDE_DIR})
+ 
+   add_library(substrait STATIC ${SUBSTRAIT_SOURCES})
+   set_target_properties(substrait PROPERTIES POSITION_INDEPENDENT_CODE ON)
+   target_include_directories(substrait PUBLIC ${SUBSTRAIT_INCLUDES})
++  target_include_directories(substrait PUBLIC ${PROTOBUF_INCLUDE_DIR})
+   target_link_libraries(substrait INTERFACE ${ARROW_PROTOBUF_LIBPROTOBUF})
+   add_dependencies(substrait substrait_gen)
+ 
+@@ -1711,6 +1708,7 @@ endif()
+ # jemalloc - Unix-only high-performance allocator
+ 
+ if(ARROW_JEMALLOC)
++if(0)
+   message(STATUS "Building (vendored) jemalloc from source")
+   # We only use a vendored jemalloc as we want to control its version.
+   # Also our build of jemalloc is specially prefixed so that it will not
+@@ -1780,12 +1778,18 @@ if(ARROW_JEMALLOC)
+   add_dependencies(jemalloc::jemalloc jemalloc_ep)
+ 
+   list(APPEND ARROW_BUNDLED_STATIC_LIBS jemalloc::jemalloc)
++else()
++  find_package(jemalloc REQUIRED CONFIG)
++  include_directories(SYSTEM "${jemalloc_INCLUDE_DIR}")
++  list(APPEND ARROW_BUNDLED_STATIC_LIBS  ${jemalloc_LIBRARIES_TARGETS})
++endif()
+ endif()
+ 
+ # ----------------------------------------------------------------------
+ # mimalloc - Cross-platform high-performance allocator, from Microsoft
+ 
+ if(ARROW_MIMALLOC)
++if(0)
+   message(STATUS "Building (vendored) mimalloc from source")
+   # We only use a vendored mimalloc as we want to control its build options.
+ 
+@@ -1836,6 +1840,11 @@ if(ARROW_MIMALLOC)
+   add_dependencies(toolchain mimalloc_ep)
+ 
+   list(APPEND ARROW_BUNDLED_STATIC_LIBS mimalloc::mimalloc)
++else()
++  find_package(mimalloc REQUIRED CONFIG)
++  include_directories(SYSTEM "${mimalloc_INCLUDE_DIR}")
++  list(APPEND ARROW_BUNDLED_STATIC_LIBS  ${mimalloc_LIBRARIES_TARGETS} )
++endif()
+ endif()
+ 
+ # ----------------------------------------------------------------------
+@@ -2121,7 +2130,7 @@ endmacro()
+ if(ARROW_WITH_RAPIDJSON)
+   set(ARROW_RAPIDJSON_REQUIRED_VERSION "1.1.0")
+   resolve_dependency(RapidJSON
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      REQUIRED_VERSION
+                      ${ARROW_RAPIDJSON_REQUIRED_VERSION}
+@@ -2158,10 +2167,10 @@ endmacro()
+ 
+ if((NOT ARROW_SIMD_LEVEL STREQUAL "NONE") OR (NOT ARROW_RUNTIME_SIMD_LEVEL STREQUAL "NONE"
+                                              ))
+-  set(xsimd_SOURCE "BUNDLED")
++  set(xsimd_SOURCE "SYSTEM")
+   resolve_dependency(xsimd)
+   # TODO: Don't use global includes but rather target_include_directories
+-  include_directories(SYSTEM ${XSIMD_INCLUDE_DIR})
++  include_directories(SYSTEM ${xsimd_INCLUDE_DIR})
+ endif()
+ 
+ macro(build_zlib)
+@@ -2260,10 +2269,14 @@ macro(build_lz4)
+ endmacro()
+ 
+ if(ARROW_WITH_LZ4)
+-  resolve_dependency(Lz4 PC_PACKAGE_NAMES liblz4)
++  resolve_dependency(Lz4)
+ 
+   # TODO: Don't use global includes but rather target_include_directories
+-  get_target_property(LZ4_INCLUDE_DIR LZ4::lz4 INTERFACE_INCLUDE_DIRECTORIES)
++  if (TARGET LZ4::lz4_static)
++    get_target_property(LZ4_INCLUDE_DIR LZ4::lz4_static INTERFACE_INCLUDE_DIRECTORIES)
++  else()
++    get_target_property(LZ4_INCLUDE_DIR LZ4::lz4_shared INTERFACE_INCLUDE_DIRECTORIES)
++  endif()
+   include_directories(SYSTEM ${LZ4_INCLUDE_DIR})
+ endif()
+ 
+@@ -2394,7 +2407,7 @@ if(ARROW_WITH_RE2)
+   # Don't specify "PC_PACKAGE_NAMES re2" here because re2.pc may
+   # include -std=c++11. It's not compatible with C source and C++
+   # source not uses C++ 11.
+-  resolve_dependency(re2 HAVE_ALT TRUE)
++  resolve_dependency(re2 USE_CONFIG TRUE)
+   if(${re2_SOURCE} STREQUAL "SYSTEM")
+     get_target_property(RE2_LIB re2::re2 IMPORTED_LOCATION_${UPPERCASE_BUILD_TYPE})
+     if(NOT RE2_LIB)
+@@ -2464,7 +2477,7 @@ endmacro()
+ if(ARROW_WITH_BZ2)
+   resolve_dependency(BZip2)
+   if(${BZip2_SOURCE} STREQUAL "SYSTEM")
+-    string(APPEND ARROW_PC_LIBS_PRIVATE " ${BZIP2_LIBRARIES}")
++    string(APPEND ARROW_PC_LIBS_PRIVATE " ${BZip2_LIBRARIES}")
+   endif()
+ 
+   if(NOT TARGET BZip2::BZip2)
+@@ -2473,7 +2486,7 @@ if(ARROW_WITH_BZ2)
+                           PROPERTIES IMPORTED_LOCATION "${BZIP2_LIBRARIES}"
+                                      INTERFACE_INCLUDE_DIRECTORIES "${BZIP2_INCLUDE_DIR}")
+   endif()
+-  include_directories(SYSTEM "${BZIP2_INCLUDE_DIR}")
++  include_directories(SYSTEM "${BZip2_INCLUDE_DIR}")
+ endif()
+ 
+ macro(build_utf8proc)
+@@ -3709,7 +3722,7 @@ if(ARROW_WITH_GRPC)
+     set(gRPC_SOURCE "${Protobuf_SOURCE}")
+   endif()
+   resolve_dependency(gRPC
+-                     HAVE_ALT
++                     USE_CONFIG
+                      TRUE
+                      REQUIRED_VERSION
+                      ${ARROW_GRPC_REQUIRED_VERSION}
+@@ -3727,9 +3740,9 @@ if(ARROW_WITH_GRPC)
+   else()
+     # grpc++ headers may reside in ${GRPC_INCLUDE_DIR}/grpc++ or ${GRPC_INCLUDE_DIR}/grpcpp
+     # depending on the gRPC version.
+-    if(EXISTS "${GRPC_INCLUDE_DIR}/grpcpp/impl/codegen/config_protobuf.h")
++    if(EXISTS ${gRPC_INCLUDE_DIR}/grpcpp/impl/codegen/config_protobuf.h)
+       set(GRPCPP_PP_INCLUDE TRUE)
+-    elseif(EXISTS "${GRPC_INCLUDE_DIR}/grpc++/impl/codegen/config_protobuf.h")
++    elseif(EXISTS ${gRPC_INCLUDE_DIR}/grpc++/impl/codegen/config_protobuf.h)
+       set(GRPCPP_PP_INCLUDE FALSE)
+     else()
+       message(FATAL_ERROR "Cannot find grpc++ headers in ${GRPC_INCLUDE_DIR}")
+@@ -3937,7 +3950,7 @@ macro(build_google_cloud_cpp_storage)
+ endmacro()
+ 
+ if(ARROW_WITH_GOOGLE_CLOUD_CPP)
+-  resolve_dependency(google_cloud_cpp_storage)
++  resolve_dependency(google_cloud_cpp)
+   get_target_property(google_cloud_cpp_storage_INCLUDE_DIR google-cloud-cpp::storage
+                       INTERFACE_INCLUDE_DIRECTORIES)
+   include_directories(SYSTEM ${google_cloud_cpp_storage_INCLUDE_DIR})
+@@ -4264,9 +4277,9 @@ if(ARROW_WITH_OPENTELEMETRY)
+   # cURL is required whether we build from source or use an existing installation
+   # (OTel's cmake files do not call find_curl for you)
+   find_curl()
+-  set(opentelemetry-cpp_SOURCE "AUTO")
++  set(opentelemetry-cpp_SOURCE "SYSTEM")
+   resolve_dependency(opentelemetry-cpp)
+-  get_target_property(OPENTELEMETRY_INCLUDE_DIR opentelemetry-cpp::api
++  get_target_property(OPENTELEMETRY_INCLUDE_DIR opentelemetry-cpp::opentelemetry_common
+                       INTERFACE_INCLUDE_DIRECTORIES)
+   include_directories(SYSTEM ${OPENTELEMETRY_INCLUDE_DIR})
+   message(STATUS "Found OpenTelemetry headers: ${OPENTELEMETRY_INCLUDE_DIR}")
+diff --git a/cpp/src/arrow/CMakeLists.txt b/cpp/src/arrow/CMakeLists.txt
+index 690c51a..752f3b9 100644
+--- a/cpp/src/arrow/CMakeLists.txt
++++ b/cpp/src/arrow/CMakeLists.txt
+@@ -326,10 +326,14 @@ set(ARROW_TESTING_SRCS
+ 
+ set(_allocator_dependencies "") # Empty list
+ if(ARROW_JEMALLOC)
+-  list(APPEND _allocator_dependencies jemalloc_ep)
++  list(APPEND _allocator_dependencies jemalloc::jemalloc)
+ endif()
+ if(ARROW_MIMALLOC)
+-  list(APPEND _allocator_dependencies mimalloc_ep)
++  if (TARGET mimalloc-static)
++    list(APPEND _allocator_dependencies mimalloc-static)
++  else()
++    list(APPEND _allocator_dependencies mimalloc)
++  endif()
+ endif()
+ 
+ if(_allocator_dependencies)
+diff --git a/cpp/src/arrow/flight/CMakeLists.txt b/cpp/src/arrow/flight/CMakeLists.txt
+index f9d1356..c9bcf79 100644
+--- a/cpp/src/arrow/flight/CMakeLists.txt
++++ b/cpp/src/arrow/flight/CMakeLists.txt
+@@ -17,6 +17,9 @@
+ 
+ add_custom_target(arrow_flight)
+ 
++# TODO: This is a temporary workaround. absl should be LINKED as TARGET.
++include_directories(SYSTEM ${absl_INCLUDE_DIR})
++
+ arrow_install_all_headers("arrow/flight")
+ 
+ set(ARROW_FLIGHT_LINK_LIBS gRPC::grpc++ ${ARROW_PROTOBUF_LIBPROTOBUF})
+diff --git a/cpp/src/arrow/memory_pool.cc b/cpp/src/arrow/memory_pool.cc
+index ed1c2d8..37a89da 100644
+--- a/cpp/src/arrow/memory_pool.cc
++++ b/cpp/src/arrow/memory_pool.cc
+@@ -52,7 +52,7 @@
+ // Needed to support jemalloc 3 and 4
+ #define JEMALLOC_MANGLE
+ // Explicitly link to our version of jemalloc
+-#include "jemalloc_ep/dist/include/jemalloc/jemalloc.h"
++#include "jemalloc/jemalloc.h"
+ #endif
+ 
+ #ifdef ARROW_MIMALLOC
+diff --git a/cpp/src/gandiva/CMakeLists.txt b/cpp/src/gandiva/CMakeLists.txt
+index 71faf9a..3aabea1 100644
+--- a/cpp/src/gandiva/CMakeLists.txt
++++ b/cpp/src/gandiva/CMakeLists.txt
+@@ -25,7 +25,7 @@ add_custom_target(gandiva-benchmarks)
+ 
+ add_dependencies(gandiva-all gandiva gandiva-tests gandiva-benchmarks)
+ 
+-find_package(LLVMAlt REQUIRED)
++find_package(LLVM REQUIRED)
+ 
+ if(LLVM_VERSION_MAJOR LESS "10")
+   set(GANDIVA_CXX_STANDARD ${CMAKE_CXX_STANDARD})
+@@ -40,7 +40,7 @@ endif()
+ 
+ add_definitions(-DGANDIVA_LLVM_VERSION=${LLVM_VERSION_MAJOR})
+ 
+-find_package(OpenSSLAlt REQUIRED)
++find_package(OpenSSL REQUIRED)
+ 
+ # Set the path where the bitcode file generated, see precompiled/CMakeLists.txt
+ set(GANDIVA_PRECOMPILED_BC_PATH "${CMAKE_CURRENT_BINARY_DIR}/irhelpers.bc")
+@@ -98,10 +98,11 @@ set(SRC_FILES
+     random_generator_holder.cc
+     ${GANDIVA_PRECOMPILED_CC_PATH})
+ 
+-set(GANDIVA_SHARED_PRIVATE_LINK_LIBS arrow_shared LLVM::LLVM_INTERFACE
+-                                     ${GANDIVA_OPENSSL_LIBS})
++set(GANDIVA_SHARED_PRIVATE_LINK_LIBS arrow_shared llvm-core::llvm-core NTERFACE
++                                    ${GANDIVA_OPENSSL_LIBS})
++
++set(GANDIVA_STATIC_LINK_LIBS arrow_static llvm-core::llvm-core ${GANDIVA_OPENSSL_LIBS})
+ 
+-set(GANDIVA_STATIC_LINK_LIBS arrow_static LLVM::LLVM_INTERFACE ${GANDIVA_OPENSSL_LIBS})
+ 
+ if(ARROW_GANDIVA_STATIC_LIBSTDCPP AND (CMAKE_COMPILER_IS_GNUCC OR CMAKE_COMPILER_IS_GNUCXX
+                                       ))
+@@ -139,7 +140,7 @@ add_arrow_lib(gandiva
+               arrow_dependencies
+               precompiled
+               EXTRA_INCLUDES
+-              $<TARGET_PROPERTY:LLVM::LLVM_INTERFACE,INTERFACE_INCLUDE_DIRECTORIES>
++              $<TARGET_PROPERTY:llvm-core::llvm-core,INTERFACE_INCLUDE_DIRECTORIES>
+               ${GANDIVA_OPENSSL_INCLUDE_DIR}
+               ${UTF8PROC_INCLUDE_DIR}
+               SHARED_LINK_FLAGS
diff --git a/ci/conan/all/test_package/CMakeLists.txt b/ci/conan/all/test_package/CMakeLists.txt
index 0df89423c14..18761d0f52c 100644
--- a/ci/conan/all/test_package/CMakeLists.txt
+++ b/ci/conan/all/test_package/CMakeLists.txt
@@ -21,14 +21,14 @@
 # SOFTWARE.
 
 cmake_minimum_required(VERSION 3.8)
-project(test_package)
+project(test_package LANGUAGES CXX)
 
-include(${CMAKE_BINARY_DIR}/conanbuildinfo.cmake)
-conan_basic_setup()
-
-find_package(Arrow REQUIRED)
+find_package(Arrow REQUIRED CONFIG)
 
 add_executable(${PROJECT_NAME} test_package.cpp)
-target_link_libraries(${PROJECT_NAME} arrow::arrow)
-target_compile_features(${PROJECT_NAME} PRIVATE cxx_std_11)
-target_compile_definitions(${PROJECT_NAME} PRIVATE WITH_JEMALLOC)
+target_link_libraries(${PROJECT_NAME} PRIVATE arrow::arrow)
+if (${Arrow_VERSION} VERSION_LESS "10.0.0")
+    target_compile_features(${PROJECT_NAME} PRIVATE cxx_std_11)
+else()
+    target_compile_features(${PROJECT_NAME} PRIVATE cxx_std_17)
+endif()
diff --git a/ci/conan/all/test_package/conanfile.py b/ci/conan/all/test_package/conanfile.py
index 8bfa021563a..ce24052acb4 100644
--- a/ci/conan/all/test_package/conanfile.py
+++ b/ci/conan/all/test_package/conanfile.py
@@ -20,13 +20,23 @@
 # OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
 # SOFTWARE.
 
-from conans import ConanFile, CMake, tools
+from conan import ConanFile
+from conan.tools.build import can_run
+from conan.tools.cmake import cmake_layout, CMake
 import os
 
 
+# It will become the standard on Conan 2.x
 class TestPackageConan(ConanFile):
-    settings = "os", "compiler", "build_type", "arch"
-    generators = "cmake", "cmake_find_package"
+    settings = "os", "arch", "compiler", "build_type"
+    generators = "CMakeDeps", "CMakeToolchain", "VirtualRunEnv"
+    test_type = "explicit"
+
+    def requirements(self):
+        self.requires(self.tested_reference_str)
+
+    def layout(self):
+        cmake_layout(self)
 
     def build(self):
         cmake = CMake(self)
@@ -34,6 +44,6 @@ def build(self):
         cmake.build()
 
     def test(self):
-        if not tools.cross_building(self):
-            bin_path = os.path.join("bin", "test_package")
-            self.run(bin_path, run_environment=True)
+        if can_run(self):
+            bin_path = os.path.join(self.cpp.build.bindirs[0], "test_package")
+            self.run(bin_path, env="conanrun")
diff --git a/ci/conan/all/CMakeLists.txt b/ci/conan/all/test_v1_package/CMakeLists.txt
similarity index 83%
rename from ci/conan/all/CMakeLists.txt
rename to ci/conan/all/test_v1_package/CMakeLists.txt
index cb849a6633c..faf547dec70 100644
--- a/ci/conan/all/CMakeLists.txt
+++ b/ci/conan/all/test_v1_package/CMakeLists.txt
@@ -21,9 +21,11 @@
 # SOFTWARE.
 
 cmake_minimum_required(VERSION 3.1)
-project(cmake_wrapper)
 
-include(conanbuildinfo.cmake)
-conan_basic_setup()
+project(test_package)
 
-add_subdirectory(source_subfolder/cpp)
+include(${CMAKE_BINARY_DIR}/conanbuildinfo.cmake)
+conan_basic_setup(TARGETS)
+
+add_subdirectory(${CMAKE_CURRENT_SOURCE_DIR}/../test_package/
+                 ${CMAKE_CURRENT_BINARY_DIR}/test_package/)
diff --git a/ci/conan/all/test_v1_package/conanfile.py b/ci/conan/all/test_v1_package/conanfile.py
new file mode 100644
index 00000000000..4f5cc2b6101
--- /dev/null
+++ b/ci/conan/all/test_v1_package/conanfile.py
@@ -0,0 +1,40 @@
+# MIT License
+#
+# Copyright (c) 2019 Conan.io
+#
+# Permission is hereby granted, free of charge, to any person obtaining a copy
+# of this software and associated documentation files (the "Software"), to deal
+# in the Software without restriction, including without limitation the rights
+# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+# copies of the Software, and to permit persons to whom the Software is
+# furnished to do so, subject to the following conditions:
+#
+# The above copyright notice and this permission notice shall be included in all
+# copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+# SOFTWARE.
+
+from conans import ConanFile, CMake
+from conan.tools.build import cross_building
+import os
+
+
+class TestPackageV1Conan(ConanFile):
+    settings = "os", "arch", "compiler", "build_type"
+    generators = "cmake", "cmake_find_package_multi"
+
+    def build(self):
+        cmake = CMake(self)
+        cmake.configure()
+        cmake.build()
+
+    def test(self):
+        if not cross_building(self):
+            bin_path = os.path.join("bin", "test_package")
+            self.run(bin_path, run_environment=True)
diff --git a/ci/conan/config.yml b/ci/conan/config.yml
index b38fe36930c..4e0975bc59e 100644
--- a/ci/conan/config.yml
+++ b/ci/conan/config.yml
@@ -21,6 +21,8 @@
 # SOFTWARE.
 
 versions:
+  "10.0.0":
+    folder: all
   "8.0.1":
     folder: all
   "8.0.0":
diff --git a/ci/conan/merge_status.sh b/ci/conan/merge_status.sh
index daed3b81eb6..862d27ee3c5 100644
--- a/ci/conan/merge_status.sh
+++ b/ci/conan/merge_status.sh
@@ -15,4 +15,4 @@
 # specific language governing permissions and limitations
 # under the License.
 
-UPSTREAM_REVISION=232a32d832f9754b81dde348e8fd8ded37ad404b
+UPSTREAM_REVISION=5c8f8538e32edd0911fd70710ce2d188bcd409f2
diff --git a/ci/conan/merge_upstream.sh b/ci/conan/merge_upstream.sh
index 3d2c3334250..76af58f70df 100755
--- a/ci/conan/merge_upstream.sh
+++ b/ci/conan/merge_upstream.sh
@@ -37,7 +37,7 @@ git \
   diff \
   ${UPSTREAM_REVISION}..${UPSTREAM_HEAD} \
   recipes/arrow | \
-  (cd "${source_dir}" && patch -p3)
+  (cd "${source_dir}" && patch -p3 || :)
 
 sed \
   -i.bak \
diff --git a/ci/conda_env_cpp.txt b/ci/conda_env_cpp.txt
index dd313f19d70..4ca76a72158 100644
--- a/ci/conda_env_cpp.txt
+++ b/ci/conda_env_cpp.txt
@@ -15,28 +15,26 @@
 # specific language governing permissions and limitations
 # under the License.
 
-aws-sdk-cpp=1.8.186
+aws-sdk-cpp=1.10.13
 benchmark>=1.6.0
 boost-cpp>=1.68.0
 brotli
 bzip2
 c-ares
 cmake
+flatbuffers
 gflags
 glog
 gmock>=1.10.0
 google-cloud-cpp>=1.34.0
-# 1.45.0 appears to segfault on Windows/AppVeyor
-grpc-cpp>=1.27.3,<1.45.0
+grpc-cpp
 gtest>=1.10.0
 libprotobuf
 libutf8proc
 lz4-c
 make
 ninja
-# Required by google-cloud-cpp, the Conda package is missing the dependency:
-#    https://github.com/conda-forge/google-cloud-cpp-feedstock/issues/28
-nlohmann_json
+orc
 pkg-config
 python
 rapidjson
@@ -46,4 +44,3 @@ thrift-cpp>=0.11.0
 xsimd
 zlib
 zstd
-flatbuffers
diff --git a/ci/conda_env_gandiva_win.txt b/ci/conda_env_gandiva_win.txt
index 9098b53d1f5..086ad97d947 100644
--- a/ci/conda_env_gandiva_win.txt
+++ b/ci/conda_env_gandiva_win.txt
@@ -15,6 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-# llvmdev=9 or later require Visual Studio 2017
-clangdev=8
-llvmdev=8
+# ARROW-17830 Temporarily pin LLVM version on Appveyor due to a bug in Conda's packaging of LLVM 15.
+clangdev<15
+llvmdev<15
diff --git a/ci/docker/almalinux-8-verify-rc.dockerfile b/ci/docker/almalinux-8-verify-rc.dockerfile
index 94e8a1133db..e9544e6becc 100644
--- a/ci/docker/almalinux-8-verify-rc.dockerfile
+++ b/ci/docker/almalinux-8-verify-rc.dockerfile
@@ -18,40 +18,7 @@
 ARG arch=amd64
 FROM ${arch}/almalinux:8
 
-# A script to install dependencies required for release
-# verification Red Hat Enterprise Linux 8 clones in particular
-# on AlmaLinux 8 and Rocky Linux 8
-
-RUN dnf -y install 'dnf-command(config-manager)' && \
-    dnf config-manager --set-enabled powertools && \
-    dnf -y update && \
-    dnf -y module disable nodejs && \
-    dnf -y module enable nodejs:16 && \
-    dnf -y module disable ruby && \
-    dnf -y module enable ruby:2.7 && \
-    dnf -y groupinstall "Development Tools" && \
-    dnf -y install \
-        cmake \
-        git \
-        gobject-introspection-devel \
-        java-1.8.0-openjdk-devel \
-        libcurl-devel \
-        llvm-devel \
-        llvm-toolset \
-        maven \
-        ncurses-devel \
-        ninja-build \
-        nodejs \
-        openssl-devel \
-        python38-devel \
-        python38-pip \
-        ruby-devel \
-        sqlite-devel \
-        wget \
-        which && \
+COPY dev/release/setup-rhel-rebuilds.sh /
+RUN /setup-rhel-rebuilds.sh && \
+    rm /setup-rhel-rebuilds.sh && \
     dnf -y clean all
-
-RUN python3 -m pip install -U pip && \
-    alternatives --set python /usr/bin/python3
-
-RUN npm install -g yarn
diff --git a/ci/docker/alpine-linux-3.16-cpp.dockerfile b/ci/docker/alpine-linux-3.16-cpp.dockerfile
new file mode 100644
index 00000000000..4e25a9cbdbb
--- /dev/null
+++ b/ci/docker/alpine-linux-3.16-cpp.dockerfile
@@ -0,0 +1,101 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+ARG arch=amd64
+FROM ${arch}/alpine:3.16
+
+RUN apk add \
+        bash \
+        benchmark-dev \
+        boost-dev \
+        brotli-dev \
+        bzip2-dev \
+        c-ares-dev \
+        ccache \
+        clang \
+        cmake \
+        curl-dev \
+        g++ \
+        gcc \
+        gdb \
+        gflags-dev \
+        git \
+        glog-dev \
+        gmock \
+        grpc-dev \
+        gtest-dev \
+        libxml2-dev \
+        llvm13-dev \
+        llvm13-static \
+        lz4-dev \
+        make \
+        musl-locales \
+        nlohmann-json \
+        openssl-dev \
+        perl \
+        pkgconfig \
+        protobuf-dev \
+        py3-pip \
+        py3-numpy-dev \
+        python3-dev \
+        rapidjson-dev \
+        re2-dev \
+        rsync \
+        samurai \
+        snappy-dev \
+        sqlite-dev \
+        thrift-dev \
+        tzdata \
+        utf8proc-dev \
+        zlib-dev \
+        zstd-dev && \
+    rm -rf /var/cache/apk/* && \
+    ln -s /usr/share/zoneinfo/Etc/UTC /etc/localtime && \
+    echo "Etc/UTC" > /etc/timezone
+
+COPY ci/scripts/install_minio.sh /arrow/ci/scripts/
+RUN /arrow/ci/scripts/install_minio.sh latest /usr/local
+
+COPY ci/scripts/install_gcs_testbench.sh /arrow/ci/scripts/
+RUN /arrow/ci/scripts/install_gcs_testbench.sh default
+
+ENV ARROW_BUILD_TESTS=ON \
+    ARROW_DATASET=ON \
+    ARROW_DEPENDENCY_SOURCE=SYSTEM \
+    ARROW_FLIGHT=ON \
+    ARROW_FLIGHT_SQL=ON \
+    ARROW_GANDIVA=ON \
+    ARROW_GCS=ON \
+    ARROW_HOME=/usr/local \
+    ARROW_ORC=ON \
+    ARROW_PARQUET=ON \
+    ARROW_PLASMA=ON \
+    ARROW_S3=ON \
+    ARROW_USE_CCACHE=ON \
+    ARROW_WITH_BROTLI=ON \
+    ARROW_WITH_BZ2=ON \
+    ARROW_WITH_LZ4=ON \
+    ARROW_WITH_OPENTELEMETRY=OFF \
+    ARROW_WITH_MUSL=ON \
+    ARROW_WITH_SNAPPY=ON \
+    ARROW_WITH_ZLIB=ON \
+    ARROW_WITH_ZSTD=ON \
+    AWSSDK_SOURCE=BUNDLED \
+    google_cloud_cpp_storage_SOURCE=BUNDLED \
+    ORC_SOURCE=BUNDLED \
+    PATH=/usr/lib/ccache/:$PATH \
+    xsimd_SOURCE=BUNDLED
diff --git a/ci/docker/centos-7-cpp.dockerfile b/ci/docker/centos-7-cpp.dockerfile
index 09a3234e3f8..f4e0430aad6 100644
--- a/ci/docker/centos-7-cpp.dockerfile
+++ b/ci/docker/centos-7-cpp.dockerfile
@@ -18,21 +18,27 @@
 FROM centos:centos7
 
 RUN yum install -y \
-        diffutils \
-        gcc-c++ \
-        libcurl-devel \
-        make \
-        openssl-devel \
-        wget \
-        which
+  centos-release-scl \
+  curl \
+  diffutils \
+  gcc-c++ \
+  libcurl-devel \
+  make \
+  openssl-devel \
+  wget \
+  which
+
+# devtoolset is required for C++17
+RUN yum install -y devtoolset-8
 
 # yum install cmake version is too old
 ARG cmake=3.23.1
 RUN mkdir /opt/cmake-${cmake}
 RUN wget -nv -O - https://github.com/Kitware/CMake/releases/download/v${cmake}/cmake-${cmake}-Linux-x86_64.tar.gz | \
-    tar -xzf -  --strip-components=1 -C /opt/cmake-${cmake}
-ENV PATH=/opt/cmake-${cmake}/bin:$PATH
-ENV CC=/usr/bin/gcc
-ENV CXX=/usr/bin/g++
-ENV EXTRA_CMAKE_FLAGS="-DCMAKE_C_COMPILER=$CC -DCMAKE_CXX_COMPILER=$CXX"
-ENV ARROW_R_DEV=TRUE
+  tar -xzf -  --strip-components=1 -C /opt/cmake-${cmake}
+
+COPY ci/scripts/install_sccache.sh /arrow/ci/scripts/
+RUN bash /arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
+
+ENV PATH=/opt/cmake-${cmake}/bin:$PATH \
+  ARROW_R_DEV=TRUE 
diff --git a/ci/docker/conda-cpp.dockerfile b/ci/docker/conda-cpp.dockerfile
index 72a839cf57c..c3db8cd2c4d 100644
--- a/ci/docker/conda-cpp.dockerfile
+++ b/ci/docker/conda-cpp.dockerfile
@@ -22,6 +22,10 @@ FROM ${repo}:${arch}-conda
 COPY ci/scripts/install_minio.sh /arrow/ci/scripts
 RUN /arrow/ci/scripts/install_minio.sh latest /opt/conda
 
+# Unless overriden use Python 3.10
+# Google GCS fails building with Python 3.11 at the moment.
+ARG python=3.10
+
 # install the required conda packages into the test environment
 COPY ci/conda_env_cpp.txt \
      ci/conda_env_gandiva.txt \
@@ -31,6 +35,7 @@ RUN mamba install -q -y \
         --file arrow/ci/conda_env_gandiva.txt \
         compilers \
         doxygen \
+        python=${python} \
         valgrind && \
     mamba clean --all
 
@@ -38,6 +43,9 @@ RUN mamba install -q -y \
 COPY ci/scripts/install_gcs_testbench.sh /arrow/ci/scripts
 RUN /arrow/ci/scripts/install_gcs_testbench.sh default
 
+COPY ci/scripts/install_sccache.sh /arrow/ci/scripts/
+RUN /arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
+
 ENV ARROW_BUILD_TESTS=ON \
     ARROW_DATASET=ON \
     ARROW_DEPENDENCY_SOURCE=CONDA \
@@ -59,7 +67,6 @@ ENV ARROW_BUILD_TESTS=ON \
     ARROW_WITH_SNAPPY=ON \
     ARROW_WITH_ZLIB=ON \
     ARROW_WITH_ZSTD=ON \
-    CMAKE_CXX_STANDARD=17 \
     GTest_SOURCE=BUNDLED \
     PARQUET_BUILD_EXAMPLES=ON \
     PARQUET_BUILD_EXECUTABLES=ON \
diff --git a/ci/docker/conda-integration.dockerfile b/ci/docker/conda-integration.dockerfile
index 8bcf5954d1d..a455ce381e9 100644
--- a/ci/docker/conda-integration.dockerfile
+++ b/ci/docker/conda-integration.dockerfile
@@ -27,6 +27,7 @@ ARG go=1.15
 
 # Install Archery and integration dependencies
 COPY ci/conda_env_archery.txt /arrow/ci/
+
 RUN mamba install -q -y \
         --file arrow/ci/conda_env_archery.txt \
         "python>=3.7" \
@@ -62,6 +63,7 @@ ENV ARROW_BUILD_INTEGRATION=ON \
     ARROW_DATASET=OFF \
     ARROW_FILESYSTEM=OFF \
     ARROW_FLIGHT=ON \
+    ARROW_FLIGHT_SQL=ON \
     ARROW_GANDIVA=OFF \
     ARROW_HDFS=OFF \
     ARROW_JEMALLOC=OFF \
diff --git a/ci/docker/conda-python-hdfs.dockerfile b/ci/docker/conda-python-hdfs.dockerfile
index 30056ea42cf..94da3e2e094 100644
--- a/ci/docker/conda-python-hdfs.dockerfile
+++ b/ci/docker/conda-python-hdfs.dockerfile
@@ -42,12 +42,16 @@ COPY ci/etc/hdfs-site.xml $HADOOP_HOME/etc/hadoop/
 # build cpp with tests
 ENV CC=gcc \
     CXX=g++ \
+    ARROW_BUILD_TESTS=ON \
+    ARROW_COMPUTE=ON \
+    ARROW_CSV=ON \
+    ARROW_DATASET=ON \
+    ARROW_FILESYSTEM=ON \
     ARROW_FLIGHT=OFF \
     ARROW_GANDIVA=OFF \
-    ARROW_PLASMA=OFF \
-    ARROW_PARQUET=ON \
-    PARQUET_REQUIRE_ENCRYPTION=ON \
-    ARROW_ORC=OFF \
     ARROW_HDFS=ON \
-    ARROW_PYTHON=ON \
-    ARROW_BUILD_TESTS=ON
+    ARROW_JSON=ON \
+    ARROW_ORC=OFF \
+    ARROW_PARQUET=ON \
+    ARROW_PLASMA=OFF \
+    PARQUET_REQUIRE_ENCRYPTION=ON
diff --git a/ci/docker/conda-python-kartothek.dockerfile b/ci/docker/conda-python-kartothek.dockerfile
deleted file mode 100644
index 72b7628c23c..00000000000
--- a/ci/docker/conda-python-kartothek.dockerfile
+++ /dev/null
@@ -1,47 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-ARG repo
-ARG arch=amd64
-ARG python=3.8
-FROM ${repo}:${arch}-conda-python-${python}
-
-# install kartothek dependencies from conda-forge
-RUN mamba install -c conda-forge -q -y \
-        attrs \
-        click \
-        cloudpickle \
-        dask \
-        decorator \
-        deprecation \
-        freezegun \
-        msgpack-python \
-        prompt-toolkit \
-        pytest-mock \
-        pytest-xdist \
-        pyyaml \
-        simplejson \
-        simplekv \
-        storefact \
-        toolz \
-        urlquote \
-        zstandard && \
-    mamba clean --all
-
-ARG kartothek=latest
-COPY ci/scripts/install_kartothek.sh /arrow/ci/scripts/
-RUN /arrow/ci/scripts/install_kartothek.sh ${kartothek} /kartothek
diff --git a/ci/docker/conda-python-spark.dockerfile b/ci/docker/conda-python-spark.dockerfile
index 95f85ef8ee2..861d83fe607 100644
--- a/ci/docker/conda-python-spark.dockerfile
+++ b/ci/docker/conda-python-spark.dockerfile
@@ -37,7 +37,11 @@ RUN /arrow/ci/scripts/install_spark.sh ${spark} /spark
 # build cpp with tests
 ENV CC=gcc \
     CXX=g++ \
-    ARROW_PYTHON=ON \
-    ARROW_HDFS=ON \
     ARROW_BUILD_TESTS=OFF \
+    ARROW_COMPUTE=ON \
+    ARROW_CSV=ON \
+    ARROW_DATASET=ON \
+    ARROW_FILESYSTEM=ON \
+    ARROW_HDFS=ON \
+    ARROW_JSON=ON \
     SPARK_VERSION=${spark}
diff --git a/ci/docker/conda-python-turbodbc.dockerfile b/ci/docker/conda-python-turbodbc.dockerfile
deleted file mode 100644
index 15eecfe2fb3..00000000000
--- a/ci/docker/conda-python-turbodbc.dockerfile
+++ /dev/null
@@ -1,50 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-ARG repo
-ARG arch=amd64
-ARG python=3.8
-FROM ${repo}:${arch}-conda-python-${python}
-
-RUN export DEBIAN_FRONTEND=noninteractive && \
-    apt-get update -y -q && \
-    apt-get install -y -q --no-install-recommends \
-        odbc-postgresql \
-        postgresql \
-        sudo && \
-    apt-get clean && \
-    rm -rf /var/lib/apt/lists/*
-
-# install turbodbc dependencies from conda-forge
-RUN mamba install -c conda-forge -q -y \
-        pybind11 \
-        pytest-cov \
-        mock \
-        unixodbc && \
-    mamba clean --all
-
-RUN service postgresql start && \
-    sudo -u postgres psql -U postgres -c \
-        "CREATE DATABASE test_db;" && \
-    sudo -u postgres psql -U postgres -c \
-        "ALTER USER postgres WITH PASSWORD 'password';"
-
-ARG turbodbc=latest
-COPY ci/scripts/install_turbodbc.sh /arrow/ci/scripts/
-RUN /arrow/ci/scripts/install_turbodbc.sh ${turbodbc} /turbodbc
-
-ENV TURBODBC_TEST_CONFIGURATION_FILES "query_fixtures_postgresql.json"
diff --git a/ci/docker/conda-python.dockerfile b/ci/docker/conda-python.dockerfile
index 865a44a9182..85cf5f3a93b 100644
--- a/ci/docker/conda-python.dockerfile
+++ b/ci/docker/conda-python.dockerfile
@@ -37,10 +37,14 @@ RUN mamba install -q -y \
 COPY ci/scripts/install_gcs_testbench.sh /arrow/ci/scripts
 RUN /arrow/ci/scripts/install_gcs_testbench.sh default
 
-ENV ARROW_PYTHON=ON \
-    ARROW_BUILD_STATIC=OFF \
+ENV ARROW_BUILD_STATIC=OFF \
     ARROW_BUILD_TESTS=OFF \
     ARROW_BUILD_UTILITIES=OFF \
+    ARROW_COMPUTE=ON \
+    ARROW_CSV=ON \
+    ARROW_DATASET=ON \
+    ARROW_FILESYSTEM=ON \
+    ARROW_HDFS=ON \
+    ARROW_JSON=ON \
     ARROW_TENSORFLOW=ON \
-    ARROW_USE_GLOG=OFF \
-    ARROW_HDFS=ON
+    ARROW_USE_GLOG=OFF
diff --git a/ci/docker/conda.dockerfile b/ci/docker/conda.dockerfile
index d0545e3bf84..af7a2eceab9 100644
--- a/ci/docker/conda.dockerfile
+++ b/ci/docker/conda.dockerfile
@@ -21,7 +21,7 @@ FROM ${arch}/ubuntu:18.04
 # install build essentials
 RUN export DEBIAN_FRONTEND=noninteractive && \
     apt-get update -y -q && \
-    apt-get install -y -q wget tzdata libc6-dbg gdb \
+    apt-get install -y -q curl wget tzdata libc6-dbg gdb \
     && apt-get clean \
     && rm -rf /var/lib/apt/lists/*
 
diff --git a/ci/docker/debian-10-cpp.dockerfile b/ci/docker/debian-10-cpp.dockerfile
index a0872928c57..411fd52d3c3 100644
--- a/ci/docker/debian-10-cpp.dockerfile
+++ b/ci/docker/debian-10-cpp.dockerfile
@@ -25,21 +25,34 @@ RUN \
     /etc/apt/sources.list.d/backports.list
 
 ARG llvm
+# We can't use LLVM 14 or later from apt.llvm.org on i386 because LLVM
+# 14 or later dropped support for i386.
 RUN apt-get update -y -q && \
+    apt-get install -y -q --no-install-recommends \
+        dpkg-dev && \
+    latest_available_llvm_i386=13 && \
+    if [ $(dpkg-architecture -qDEB_HOST_ARCH) = "i386" -a \
+         "${llvm}" -gt "${latest_available_llvm_i386}" ]; then \
+        available_llvm="${latest_available_llvm_i386}"; \
+    else \
+        available_llvm="${llvm}"; \
+    fi && \
+    apt-get update -y -q && \
     apt-get install -y -q --no-install-recommends \
         apt-transport-https \
         ca-certificates \
         gnupg \
         wget && \
     wget -O - https://apt.llvm.org/llvm-snapshot.gpg.key | apt-key add - && \
-    echo "deb https://apt.llvm.org/buster/ llvm-toolchain-buster-${llvm} main" > \
+    echo "deb https://apt.llvm.org/buster/ llvm-toolchain-buster-${available_llvm} main" > \
         /etc/apt/sources.list.d/llvm.list && \
     apt-get update -y -q && \
     apt-get install -y -q --no-install-recommends \
         autoconf \
         ccache \
-        clang-${llvm} \
+        clang-${available_llvm} \
         cmake \
+        curl \
         g++ \
         gcc \
         gdb \
@@ -59,7 +72,7 @@ RUN apt-get update -y -q && \
         libssl-dev \
         libthrift-dev \
         libutf8proc-dev \
-        llvm-${llvm}-dev \
+        llvm-${available_llvm}-dev \
         make \
         ninja-build \
         nlohmann-json3-dev \
@@ -76,6 +89,9 @@ RUN apt-get update -y -q && \
 COPY ci/scripts/install_minio.sh /arrow/ci/scripts/
 RUN /arrow/ci/scripts/install_minio.sh latest /usr/local
 
+COPY ci/scripts/install_sccache.sh /arrow/ci/scripts/
+RUN /arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
+
 ENV absl_SOURCE=BUNDLED \
     ARROW_BUILD_TESTS=ON \
     ARROW_DATASET=ON \
diff --git a/ci/docker/debian-10-go.dockerfile b/ci/docker/debian-10-go.dockerfile
index f0c0522081d..8d964c76a66 100644
--- a/ci/docker/debian-10-go.dockerfile
+++ b/ci/docker/debian-10-go.dockerfile
@@ -16,12 +16,15 @@
 # under the License.
 
 ARG arch=amd64
-ARG go=1.15
+ARG go=1.17
+ARG staticcheck=v0.2.2
 FROM ${arch}/golang:${go}-buster
 
-RUN GO111MODULE=on go install honnef.co/go/tools/cmd/staticcheck@v0.2.2
+# FROM collects all the args, get back the staticcheck version arg
+ARG staticcheck
 
-# TODO(kszucs):
-# 1. add the files required to install the dependencies to .dockerignore
-# 2. copy these files to their appropriate path
-# 3. download and compile the dependencies
+RUN GO111MODULE=on go install honnef.co/go/tools/cmd/staticcheck@${staticcheck}
+
+# Copy the go.mod and go.sum over and pre-download all the dependencies
+COPY go/ /arrow/go
+RUN cd /arrow/go && go mod download
diff --git a/ci/docker/debian-11-cpp.dockerfile b/ci/docker/debian-11-cpp.dockerfile
index a403df2368f..5f9fbb2afb6 100644
--- a/ci/docker/debian-11-cpp.dockerfile
+++ b/ci/docker/debian-11-cpp.dockerfile
@@ -22,21 +22,34 @@ ARG arch
 ENV DEBIAN_FRONTEND noninteractive
 
 ARG llvm
+# We can't use LLVM 14 or later from apt.llvm.org on i386 because LLVM
+# 14 or later dropped support for i386.
 RUN apt-get update -y -q && \
+    apt-get install -y -q --no-install-recommends \
+        dpkg-dev && \
+    latest_available_llvm_i386=13 && \
+    if [ $(dpkg-architecture -qDEB_HOST_ARCH) = "i386" -a \
+         "${llvm}" -gt "${latest_available_llvm_i386}" ]; then \
+        available_llvm="${latest_available_llvm_i386}"; \
+    else \
+        available_llvm="${llvm}"; \
+    fi && \
+    apt-get update -y -q && \
     apt-get install -y -q --no-install-recommends \
         apt-transport-https \
         ca-certificates \
         gnupg \
         wget && \
     wget -O - https://apt.llvm.org/llvm-snapshot.gpg.key | apt-key add - && \
-    echo "deb https://apt.llvm.org/bullseye/ llvm-toolchain-bullseye-${llvm} main" > \
+    echo "deb https://apt.llvm.org/bullseye/ llvm-toolchain-bullseye-${available_llvm} main" > \
         /etc/apt/sources.list.d/llvm.list && \
     apt-get update -y -q && \
     apt-get install -y -q --no-install-recommends \
         autoconf \
         ccache \
-        clang-${llvm} \
+        clang-${available_llvm} \
         cmake \
+        curl \
         g++ \
         gcc \
         gdb \
@@ -58,7 +71,7 @@ RUN apt-get update -y -q && \
         libthrift-dev \
         libutf8proc-dev \
         libzstd-dev \
-        llvm-${llvm}-dev \
+        llvm-${available_llvm}-dev \
         make \
         ninja-build \
         nlohmann-json3-dev \
@@ -78,6 +91,9 @@ RUN /arrow/ci/scripts/install_minio.sh latest /usr/local
 COPY ci/scripts/install_gcs_testbench.sh /arrow/ci/scripts/
 RUN /arrow/ci/scripts/install_gcs_testbench.sh default
 
+COPY ci/scripts/install_sccache.sh /arrow/ci/scripts/
+RUN /arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
+
 ENV absl_SOURCE=BUNDLED \
     ARROW_BUILD_TESTS=ON \
     ARROW_DATASET=ON \
@@ -102,6 +118,7 @@ ENV absl_SOURCE=BUNDLED \
     CC=gcc \
     CXX=g++ \
     google_cloud_cpp_storage_SOURCE=BUNDLED \
+    GTest_SOURCE=BUNDLED \
     ORC_SOURCE=BUNDLED \
     PATH=/usr/lib/ccache/:$PATH \
     Protobuf_SOURCE=BUNDLED \
diff --git a/ci/docker/debian-11-go.dockerfile b/ci/docker/debian-11-go.dockerfile
index 33f523e36aa..9f75bf23fdd 100644
--- a/ci/docker/debian-11-go.dockerfile
+++ b/ci/docker/debian-11-go.dockerfile
@@ -16,12 +16,14 @@
 # under the License.
 
 ARG arch=amd64
-ARG go=1.16
+ARG go=1.17
+ARG staticcheck=v0.2.2
 FROM ${arch}/golang:${go}-bullseye
 
-RUN GO111MODULE=on go install honnef.co/go/tools/cmd/staticcheck@v0.2.2
+# FROM collects all the args, get back the staticcheck version arg
+ARG staticcheck
+RUN GO111MODULE=on go install honnef.co/go/tools/cmd/staticcheck@${staticcheck}
 
-# TODO(kszucs):
-# 1. add the files required to install the dependencies to .dockerignore
-# 2. copy these files to their appropriate path
-# 3. download and compile the dependencies
+# Copy the go.mod and go.sum over and pre-download all the dependencies
+COPY go/ /arrow/go
+RUN cd /arrow/go && go mod download
diff --git a/ci/docker/fedora-35-cpp.dockerfile b/ci/docker/fedora-35-cpp.dockerfile
index ce9c8857c85..aeb7c5b7951 100644
--- a/ci/docker/fedora-35-cpp.dockerfile
+++ b/ci/docker/fedora-35-cpp.dockerfile
@@ -30,6 +30,7 @@ RUN dnf update -y && \
         ccache \
         clang-devel \
         cmake \
+        curl \
         curl-devel \
         flatbuffers-devel \
         gcc \
@@ -71,12 +72,14 @@ RUN /arrow/ci/scripts/install_minio.sh latest /usr/local
 COPY ci/scripts/install_gcs_testbench.sh /arrow/ci/scripts/
 RUN /arrow/ci/scripts/install_gcs_testbench.sh default
 
+COPY ci/scripts/install_sccache.sh /arrow/ci/scripts/
+RUN /arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
+
 ENV absl_SOURCE=BUNDLED \
     ARROW_BUILD_TESTS=ON \
     ARROW_DEPENDENCY_SOURCE=SYSTEM \
     ARROW_DATASET=ON \
     ARROW_FLIGHT=ON \
-    ARROW_GANDIVA_JAVA=ON \
     ARROW_GANDIVA=ON \
     ARROW_GCS=ON \
     ARROW_HOME=/usr/local \
diff --git a/ci/docker/java-jni-manylinux-201x.dockerfile b/ci/docker/java-jni-manylinux-201x.dockerfile
index 52bdb9b923d..b3ecbf00a92 100644
--- a/ci/docker/java-jni-manylinux-201x.dockerfile
+++ b/ci/docker/java-jni-manylinux-201x.dockerfile
@@ -24,6 +24,7 @@ RUN vcpkg install \
         --clean-after-build \
         --x-install-root=${VCPKG_ROOT}/installed \
         --x-manifest-root=/arrow/ci/vcpkg \
+        --x-feature=dev \
         --x-feature=flight \
         --x-feature=gcs \
         --x-feature=json \
@@ -33,5 +34,12 @@ RUN vcpkg install \
 
 # Install Java
 ARG java=1.8.0
-RUN yum install -y java-$java-openjdk-devel && yum clean all
+RUN yum install -y java-$java-openjdk-devel rh-maven35 && yum clean all
 ENV JAVA_HOME=/usr/lib/jvm/java-$java-openjdk/
+
+# For ci/scripts/{cpp,java}_*.sh
+ENV ARROW_HOME=/tmp/local \
+    ARROW_JAVA_CDATA=ON \
+    ARROW_JAVA_JNI=ON \
+    ARROW_PLASMA=ON \
+    ARROW_USE_CCACHE=ON
diff --git a/ci/docker/java-jni-manylinux-aarch64-201x.dockerfile b/ci/docker/java-jni-manylinux-aarch64-201x.dockerfile
new file mode 100644
index 00000000000..52bdb9b923d
--- /dev/null
+++ b/ci/docker/java-jni-manylinux-aarch64-201x.dockerfile
@@ -0,0 +1,37 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+ARG base
+FROM ${base}
+
+# Install the libaries required by the Gandiva to run
+# Use enable llvm[enable-rtti] in the vcpkg.json to avoid link problems in Gandiva
+RUN vcpkg install \
+        --clean-after-build \
+        --x-install-root=${VCPKG_ROOT}/installed \
+        --x-manifest-root=/arrow/ci/vcpkg \
+        --x-feature=flight \
+        --x-feature=gcs \
+        --x-feature=json \
+        --x-feature=parquet \
+        --x-feature=gandiva \
+        --x-feature=s3
+
+# Install Java
+ARG java=1.8.0
+RUN yum install -y java-$java-openjdk-devel && yum clean all
+ENV JAVA_HOME=/usr/lib/jvm/java-$java-openjdk/
diff --git a/ci/docker/linux-apt-docs.dockerfile b/ci/docker/linux-apt-docs.dockerfile
index a415f1d5a45..9b27358a69a 100644
--- a/ci/docker/linux-apt-docs.dockerfile
+++ b/ci/docker/linux-apt-docs.dockerfile
@@ -96,10 +96,15 @@ RUN /arrow/ci/scripts/r_deps.sh /arrow && \
 ENV ARROW_BUILD_STATIC=OFF \
     ARROW_BUILD_TESTS=OFF \
     ARROW_BUILD_UTILITIES=OFF \
+    ARROW_COMPUTE=ON \
+    ARROW_CSV=ON \
+    ARROW_DATASET=ON \
+    ARROW_FILESYSTEM=ON \
     ARROW_FLIGHT=ON \
     ARROW_GCS=ON \
     ARROW_GLIB_VAPI=false \
-    ARROW_PYTHON=ON \
+    ARROW_HDFS=ON \
+    ARROW_JSON=ON \
     ARROW_S3=ON \
     ARROW_USE_GLOG=OFF \
     CMAKE_UNITY_BUILD=ON
diff --git a/ci/docker/linux-apt-jni.dockerfile b/ci/docker/linux-apt-jni.dockerfile
index 92b6cf9a9fc..7b3e1b8416b 100644
--- a/ci/docker/linux-apt-jni.dockerfile
+++ b/ci/docker/linux-apt-jni.dockerfile
@@ -73,11 +73,10 @@ ENV PATH=/opt/cmake-${cmake}-Linux-x86_64/bin:$PATH
 ENV ARROW_BUILD_TESTS=ON \
     ARROW_DATASET=ON \
     ARROW_FLIGHT=OFF \
-    ARROW_GANDIVA_JAVA=ON \
     ARROW_GANDIVA=ON \
     ARROW_HOME=/usr/local \
     ARROW_JAVA_CDATA=ON \
-    ARROW_JNI=ON \
+    ARROW_JAVA_JNI=ON \
     ARROW_ORC=ON \
     ARROW_PARQUET=ON \
     ARROW_PLASMA_JAVA_CLIENT=ON \
diff --git a/ci/docker/linux-apt-python-3.dockerfile b/ci/docker/linux-apt-python-3.dockerfile
index ece7cf09129..19f3666ced4 100644
--- a/ci/docker/linux-apt-python-3.dockerfile
+++ b/ci/docker/linux-apt-python-3.dockerfile
@@ -39,8 +39,19 @@ RUN pip install \
     -r arrow/python/requirements-build.txt \
     -r arrow/python/requirements-test.txt
 
-ENV ARROW_PYTHON=ON \
-    ARROW_BUILD_STATIC=OFF \
+ARG numba
+COPY ci/scripts/install_numba.sh /arrow/ci/scripts/
+RUN if [ "${numba}" != "" ]; then \
+        /arrow/ci/scripts/install_numba.sh ${numba} \
+    ; fi
+
+ENV ARROW_BUILD_STATIC=OFF \
     ARROW_BUILD_TESTS=OFF \
     ARROW_BUILD_UTILITIES=OFF \
-    ARROW_USE_GLOG=OFF \
+    ARROW_COMPUTE=ON \
+    ARROW_CSV=ON \
+    ARROW_DATASET=ON \
+    ARROW_FILESYSTEM=ON \
+    ARROW_HDFS=ON \
+    ARROW_JSON=ON \
+    ARROW_USE_GLOG=OFF
diff --git a/ci/docker/linux-apt-r.dockerfile b/ci/docker/linux-apt-r.dockerfile
index 7083bfa3d95..971078b3601 100644
--- a/ci/docker/linux-apt-r.dockerfile
+++ b/ci/docker/linux-apt-r.dockerfile
@@ -103,13 +103,18 @@ ENV \
     ARROW_BUILD_STATIC=OFF \
     ARROW_BUILD_TESTS=OFF \
     ARROW_BUILD_UTILITIES=OFF \
+    ARROW_COMPUTE=ON \
+    ARROW_CSV=ON \
+    ARROW_DATASET=ON \
+    ARROW_FILESYSTEM=ON \
     ARROW_FLIGHT=OFF \
     ARROW_GANDIVA=OFF \
+    ARROW_HDFS=OFF \
+    ARROW_JSON=ON \
     ARROW_NO_DEPRECATED_API=ON \
     ARROW_ORC=OFF \
     ARROW_PARQUET=ON \
     ARROW_PLASMA=OFF \
-    ARROW_PYTHON=ON \
     ARROW_S3=ON \
     ARROW_USE_CCACHE=ON \
     ARROW_USE_GLOG=OFF \
diff --git a/ci/docker/linux-dnf-python-3.dockerfile b/ci/docker/linux-dnf-python-3.dockerfile
index 62dc72899e7..c37febb4e00 100644
--- a/ci/docker/linux-dnf-python-3.dockerfile
+++ b/ci/docker/linux-dnf-python-3.dockerfile
@@ -36,8 +36,13 @@ RUN pip install \
     -r arrow/python/requirements-build.txt \
     -r arrow/python/requirements-test.txt
 
-ENV ARROW_PYTHON=ON \
-    ARROW_BUILD_STATIC=OFF \
+ENV ARROW_BUILD_STATIC=OFF \
     ARROW_BUILD_TESTS=OFF \
     ARROW_BUILD_UTILITIES=OFF \
-    ARROW_USE_GLOG=OFF \
+    ARROW_COMPUTE=ON \
+    ARROW_CSV=ON \
+    ARROW_DATASET=ON \
+    ARROW_FILESYSTEM=ON \
+    ARROW_HDFS=ON \
+    ARROW_JSON=ON \
+    ARROW_USE_GLOG=OFF
diff --git a/ci/docker/linux-r.dockerfile b/ci/docker/linux-r.dockerfile
index 804fb09f09c..d368a6629c5 100644
--- a/ci/docker/linux-r.dockerfile
+++ b/ci/docker/linux-r.dockerfile
@@ -27,7 +27,7 @@ ENV R_BIN=${r_bin}
 ARG r_dev=FALSE
 ENV ARROW_R_DEV=${r_dev}
 
-ARG devtoolset_version=-1
+ARG devtoolset_version=
 ENV DEVTOOLSET_VERSION=${devtoolset_version}
 
 ARG r_prune_deps=FALSE
@@ -45,13 +45,14 @@ ENV PATH "${RPREFIX}/bin:${PATH}"
 # Patch up some of the docker images
 COPY ci/scripts/r_docker_configure.sh /arrow/ci/scripts/
 COPY ci/etc/rprofile /arrow/ci/etc/
+COPY ci/scripts/r_install_system_dependencies.sh /arrow/ci/scripts/
 COPY ci/scripts/install_minio.sh /arrow/ci/scripts/
 COPY ci/scripts/install_gcs_testbench.sh /arrow/ci/scripts/
 RUN /arrow/ci/scripts/r_docker_configure.sh
 
-# Set up Python 3 and its dependencies
-RUN ln -s /usr/bin/python3 /usr/local/bin/python && \
-    ln -s /usr/bin/pip3 /usr/local/bin/pip
+# this has to come after r_docker_configure to ensure curl is installed
+COPY ci/scripts/install_sccache.sh /arrow/ci/scripts/
+RUN /arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
 
 COPY ci/scripts/r_deps.sh /arrow/ci/scripts/
 COPY r/DESCRIPTION /arrow/r/
diff --git a/ci/docker/python-wheel-manylinux-201x.dockerfile b/ci/docker/python-wheel-manylinux-201x.dockerfile
index 4f74b8b1c59..adab10da623 100644
--- a/ci/docker/python-wheel-manylinux-201x.dockerfile
+++ b/ci/docker/python-wheel-manylinux-201x.dockerfile
@@ -75,8 +75,7 @@ RUN vcpkg install \
         --x-feature=flight \
         --x-feature=gcs \
         --x-feature=json \
-        --x-feature=parquet \
-        --x-feature=s3
+        --x-feature=parquet
 
 ARG python=3.8
 ENV PYTHON_VERSION=${python}
diff --git a/ci/docker/python-wheel-windows-test-vs2017.dockerfile b/ci/docker/python-wheel-windows-test-vs2017.dockerfile
new file mode 100644
index 00000000000..a4c836ef4f0
--- /dev/null
+++ b/ci/docker/python-wheel-windows-test-vs2017.dockerfile
@@ -0,0 +1,44 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+# NOTE: You must update PYTHON_WHEEL_WINDOWS_IMAGE_REVISION in .env
+# when you update this file.
+
+# based on mcr.microsoft.com/windows/servercore:ltsc2019
+# contains choco and vs2017 preinstalled
+FROM abrarov/msvc-2017:2.11.0
+
+# Add unix tools to path
+RUN setx path "%path%;C:\Program Files\Git\usr\bin"
+
+# Remove previous installations of python from the base image
+# NOTE: a more recent base image (tried with 2.12.1) comes with python 3.9.7
+# and the msi installers are failing to remove pip and tcl/tk "products" making
+# the subsequent choco python installation step failing for installing python
+# version 3.9.* due to existing python version
+RUN wmic product where "name like 'python%%'" call uninstall /nointeractive && \
+    rm -rf Python*
+
+# Define the full version number otherwise choco falls back to patch number 0 (3.7 => 3.7.0)
+ARG python=3.8
+RUN (if "%python%"=="3.7" setx PYTHON_VERSION "3.7.9" && setx PATH "%PATH%;C:\Python37;C:\Python37\Scripts") & \
+    (if "%python%"=="3.8" setx PYTHON_VERSION "3.8.10" && setx PATH "%PATH%;C:\Python38;C:\Python38\Scripts") & \
+    (if "%python%"=="3.9" setx PYTHON_VERSION "3.9.13" && setx PATH "%PATH%;C:\Python39;C:\Python39\Scripts") & \
+    (if "%python%"=="3.10" setx PYTHON_VERSION "3.10.8" && setx PATH "%PATH%;C:\Python310;C:\Python310\Scripts") & \
+    (if "%python%"=="3.11" setx PYTHON_VERSION "3.11.0" && setx PATH "%PATH%;C:\Python311;C:\Python311\Scripts")
+RUN choco install -r -y --no-progress python --version=%PYTHON_VERSION%
+RUN python -m pip install -U pip setuptools
diff --git a/ci/docker/python-wheel-windows-vs2017.dockerfile b/ci/docker/python-wheel-windows-vs2017.dockerfile
index 247f13a15cf..f82a47a0576 100644
--- a/ci/docker/python-wheel-windows-vs2017.dockerfile
+++ b/ci/docker/python-wheel-windows-vs2017.dockerfile
@@ -80,8 +80,9 @@ RUN wmic product where "name like 'python%%'" call uninstall /nointeractive && \
 ARG python=3.8
 RUN (if "%python%"=="3.7" setx PYTHON_VERSION "3.7.9" && setx PATH "%PATH%;C:\Python37;C:\Python37\Scripts") & \
     (if "%python%"=="3.8" setx PYTHON_VERSION "3.8.10" && setx PATH "%PATH%;C:\Python38;C:\Python38\Scripts") & \
-    (if "%python%"=="3.9" setx PYTHON_VERSION "3.9.7" && setx PATH "%PATH%;C:\Python39;C:\Python39\Scripts") & \
-    (if "%python%"=="3.10" setx PYTHON_VERSION "3.10.2" && setx PATH "%PATH%;C:\Python310;C:\Python310\Scripts")
+    (if "%python%"=="3.9" setx PYTHON_VERSION "3.9.13" && setx PATH "%PATH%;C:\Python39;C:\Python39\Scripts") & \
+    (if "%python%"=="3.10" setx PYTHON_VERSION "3.10.8" && setx PATH "%PATH%;C:\Python310;C:\Python310\Scripts") & \
+    (if "%python%"=="3.11" setx PYTHON_VERSION "3.11.0" && setx PATH "%PATH%;C:\Python311;C:\Python311\Scripts")
 RUN choco install -r -y --no-progress python --version=%PYTHON_VERSION%
 RUN python -m pip install -U pip setuptools
 
diff --git a/ci/docker/ubuntu-18.04-cpp.dockerfile b/ci/docker/ubuntu-18.04-cpp.dockerfile
index 0e20b7c6a83..715cc3424f0 100644
--- a/ci/docker/ubuntu-18.04-cpp.dockerfile
+++ b/ci/docker/ubuntu-18.04-cpp.dockerfile
@@ -30,26 +30,40 @@ ENV DEBIAN_FRONTEND=noninteractive
 # while debugging package list with docker build.
 ARG clang_tools
 ARG llvm
-RUN apt-get update -y -q && \
+# We can't use LLVM 14 from apt.llvm.org because LLVM 14 requires libgcc-s1
+# but libgcc-s1 is available since Ubuntu 20.04.
+RUN latest_available_llvm=13 && \
+    if [ "${llvm}" -gt "${latest_available_llvm}" ]; then \
+      available_llvm="${latest_available_llvm}"; \
+    else \
+      available_llvm="${llvm}"; \
+    fi && \
+    if [ "${clang_tools}" -gt "${latest_available_llvm}" ]; then \
+      available_clang_tools="${latest_available_llvm}"; \
+    else \
+      available_clang_tools="${clang_tools}"; \
+    fi && \
+    apt-get update -y -q && \
     apt-get install -y -q --no-install-recommends \
        apt-transport-https \
        ca-certificates \
        gnupg \
        wget && \
     wget -O - https://apt.llvm.org/llvm-snapshot.gpg.key | apt-key add - && \
-    echo "deb https://apt.llvm.org/bionic/ llvm-toolchain-bionic-${llvm} main" > \
+    echo "deb https://apt.llvm.org/bionic/ llvm-toolchain-bionic-${available_llvm} main" > \
        /etc/apt/sources.list.d/llvm.list && \
-    if [ "${clang_tools}" != "${llvm}" -a "${clang_tools}" -ge 10 ]; then \
-      echo "deb https://apt.llvm.org/bionic/ llvm-toolchain-bionic-${clang_tools} main" > \
+    if [ "${available_clang_tools}" -ne "${available_llvm}" -a \
+         "${available_clang_tools}" -ge 10 ]; then \
+      echo "deb https://apt.llvm.org/bionic/ llvm-toolchain-bionic-${available_clang_tools} main" > \
          /etc/apt/sources.list.d/clang-tools.list; \
     fi && \
     apt-get update -y -q && \
     apt-get install -y -q --no-install-recommends \
-        clang-${clang_tools} \
-        clang-${llvm} \
-        clang-format-${clang_tools} \
-        clang-tidy-${clang_tools} \
-        llvm-${llvm}-dev && \
+        clang-${available_clang_tools} \
+        clang-${available_llvm} \
+        clang-format-${available_clang_tools} \
+        clang-tidy-${available_clang_tools} \
+        llvm-${available_llvm}-dev && \
     apt-get clean && \
     rm -rf /var/lib/apt/lists*
 
@@ -60,6 +74,7 @@ RUN apt-get update -y -q && \
         ca-certificates \
         ccache \
         cmake \
+        curl \
         g++ \
         gcc \
         gdb \
@@ -73,11 +88,19 @@ RUN apt-get update -y -q && \
         libcurl4-openssl-dev \
         libgflags-dev \
         libgoogle-glog-dev \
+        libidn2-dev \
+        libkrb5-dev \
+        libldap-dev \
         liblz4-dev \
+        libnghttp2-dev \
         libprotobuf-dev \
         libprotoc-dev \
+        libpsl-dev \
         libre2-dev \
+        librtmp-dev \
         libsnappy-dev \
+        libssh-dev \
+        libssh2-1-dev \
         libssl-dev \
         ninja-build \
         pkg-config \
@@ -100,6 +123,10 @@ RUN apt-get update -y -q && \
 # - s3 tests would require boost-asio that is included since Boost 1.66.0
 # ARROW-17051: this build uses static Protobuf, so we must also use
 # static Arrow to run Flight/Flight SQL tests
+
+COPY ci/scripts/install_sccache.sh /arrow/ci/scripts/
+RUN /arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
+
 ENV ARROW_BUILD_STATIC=ON \
     ARROW_BUILD_TESTS=ON \
     ARROW_DATASET=ON \
diff --git a/ci/docker/ubuntu-20.04-cpp-minimal.dockerfile b/ci/docker/ubuntu-20.04-cpp-minimal.dockerfile
index f77ff40e5fb..ca2be2873d6 100644
--- a/ci/docker/ubuntu-20.04-cpp-minimal.dockerfile
+++ b/ci/docker/ubuntu-20.04-cpp-minimal.dockerfile
@@ -28,6 +28,7 @@ RUN apt-get update -y -q && \
         build-essential \
         ccache \
         cmake \
+        curl \
         git \
         libssl-dev \
         libcurl4-openssl-dev \
@@ -70,6 +71,9 @@ RUN /arrow/ci/scripts/install_minio.sh latest /usr/local
 COPY ci/scripts/install_gcs_testbench.sh /arrow/ci/scripts/
 RUN /arrow/ci/scripts/install_gcs_testbench.sh default
 
+COPY ci/scripts/install_sccache.sh /arrow/ci/scripts/
+RUN /arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
+
 ENV ARROW_BUILD_TESTS=ON \
     ARROW_DATASET=ON \
     ARROW_FLIGHT=ON \
diff --git a/ci/docker/ubuntu-20.04-cpp.dockerfile b/ci/docker/ubuntu-20.04-cpp.dockerfile
index dd36aff84c5..6cf48c56aa4 100644
--- a/ci/docker/ubuntu-20.04-cpp.dockerfile
+++ b/ci/docker/ubuntu-20.04-cpp.dockerfile
@@ -68,6 +68,7 @@ RUN apt-get update -y -q && \
         ca-certificates \
         ccache \
         cmake \
+        curl \
         g++ \
         gcc \
         gdb \
@@ -81,12 +82,20 @@ RUN apt-get update -y -q && \
         libcurl4-openssl-dev \
         libgflags-dev \
         libgoogle-glog-dev \
+        libidn2-dev \
+        libkrb5-dev \
+        libldap-dev \
         liblz4-dev \
+        libnghttp2-dev \
         libprotobuf-dev \
         libprotoc-dev \
+        libpsl-dev \
         libradospp-dev \
         libre2-dev \
+        librtmp-dev \
         libsnappy-dev \
+        libssh-dev \
+        libssh2-1-dev \
         libssl-dev \
         libthrift-dev \
         libutf8proc-dev \
@@ -116,6 +125,9 @@ RUN /arrow/ci/scripts/install_gcs_testbench.sh default
 COPY ci/scripts/install_ceph.sh /arrow/ci/scripts/
 RUN /arrow/ci/scripts/install_ceph.sh
 
+COPY ci/scripts/install_sccache.sh /arrow/ci/scripts/
+RUN /arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
+
 # Prioritize system packages and local installation
 # The following dependencies will be downloaded due to missing/invalid packages
 # provided by the distribution:
diff --git a/ci/docker/ubuntu-22.04-cpp-minimal.dockerfile b/ci/docker/ubuntu-22.04-cpp-minimal.dockerfile
index 8bc5ab3e484..f0dc76c65f9 100644
--- a/ci/docker/ubuntu-22.04-cpp-minimal.dockerfile
+++ b/ci/docker/ubuntu-22.04-cpp-minimal.dockerfile
@@ -28,6 +28,7 @@ RUN apt-get update -y -q && \
         build-essential \
         ccache \
         cmake \
+        curl \
         git \
         libssl-dev \
         libcurl4-openssl-dev \
@@ -70,6 +71,9 @@ RUN /arrow/ci/scripts/install_minio.sh latest /usr/local
 COPY ci/scripts/install_gcs_testbench.sh /arrow/ci/scripts/
 RUN /arrow/ci/scripts/install_gcs_testbench.sh default
 
+COPY ci/scripts/install_sccache.sh /arrow/ci/scripts/
+RUN /arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
+
 ENV ARROW_BUILD_TESTS=ON \
     ARROW_DATASET=ON \
     ARROW_FLIGHT=ON \
diff --git a/ci/docker/ubuntu-22.04-cpp.dockerfile b/ci/docker/ubuntu-22.04-cpp.dockerfile
index 05aca53151b..d47614ed2c9 100644
--- a/ci/docker/ubuntu-22.04-cpp.dockerfile
+++ b/ci/docker/ubuntu-22.04-cpp.dockerfile
@@ -68,6 +68,7 @@ RUN apt-get update -y -q && \
         ca-certificates \
         ccache \
         cmake \
+        curl \
         gdb \
         git \
         libbenchmark-dev \
@@ -80,13 +81,21 @@ RUN apt-get update -y -q && \
         libgflags-dev \
         libgoogle-glog-dev \
         libgrpc++-dev \
+        libidn2-dev \
+        libkrb5-dev \
+        libldap-dev \
         liblz4-dev \
+        libnghttp2-dev \
         libprotobuf-dev \
         libprotoc-dev \
+        libpsl-dev \
         libre2-dev \
+        librtmp-dev \
         libsnappy-dev \
-        libssl-dev \
         libsqlite3-dev \
+        libssh-dev \
+        libssh2-1-dev \
+        libssl-dev \
         libthrift-dev \
         libutf8proc-dev \
         libzstd-dev \
@@ -112,7 +121,7 @@ RUN if [ "${gcc_version}" = "" ]; then \
           g++ \
           gcc; \
     else \
-      if [ "${gcc_version}" -gt "11" ]; then \
+      if [ "${gcc_version}" -gt "12" ]; then \
           apt-get update -y -q && \
           apt-get install -y -q --no-install-recommends software-properties-common && \
           add-apt-repository ppa:ubuntu-toolchain-r/volatile; \
@@ -143,6 +152,9 @@ RUN /arrow/ci/scripts/install_minio.sh latest /usr/local
 COPY ci/scripts/install_gcs_testbench.sh /arrow/ci/scripts/
 RUN /arrow/ci/scripts/install_gcs_testbench.sh default
 
+COPY ci/scripts/install_sccache.sh /arrow/ci/scripts/
+RUN /arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
+
 # Prioritize system packages and local installation
 # The following dependencies will be downloaded due to missing/invalid packages
 # provided by the distribution:
diff --git a/ci/scripts/PKGBUILD b/ci/scripts/PKGBUILD
index f0a09bab7f0..dcb4154cc14 100644
--- a/ci/scripts/PKGBUILD
+++ b/ci/scripts/PKGBUILD
@@ -18,7 +18,7 @@
 _realname=arrow
 pkgbase=mingw-w64-${_realname}
 pkgname="${MINGW_PACKAGE_PREFIX}-${_realname}"
-pkgver=9.0.0.9000
+pkgver=11.0.0
 pkgrel=8000
 pkgdesc="Apache Arrow is a cross-language development platform for in-memory data (mingw-w64)"
 arch=("any")
@@ -73,26 +73,8 @@ build() {
   # set the appropriate compiler definition.
   export CPPFLAGS="-DUTF8PROC_STATIC"
 
-  # This is the difference between rtools-packages and rtools-backports
-  # Remove this when submitting to rtools-packages
-  if [ "$RTOOLS_VERSION" = "35" ]; then
-    export CC="/C/Rtools${MINGW_PREFIX/mingw/mingw_}/bin/gcc"
-    export CXX="/C/Rtools${MINGW_PREFIX/mingw/mingw_}/bin/g++"
-    export PATH="/C/Rtools${MINGW_PREFIX/mingw/mingw_}/bin:$PATH"
-    export CPPFLAGS="${CPPFLAGS} -I${MINGW_PREFIX}/include"
-    export LIBS="-L${MINGW_PREFIX}/libs"
-    export ARROW_GCS=OFF
-    export ARROW_S3=OFF
-    export ARROW_WITH_RE2=OFF
-    # Without this, some dataset functionality segfaults
-    export CMAKE_UNITY_BUILD=ON
-  else
-    export ARROW_GCS=ON
-    export ARROW_S3=ON
-    export ARROW_WITH_RE2=ON
-    # Without this, some compute functionality segfaults in tests
-    export CMAKE_UNITY_BUILD=OFF
-  fi
+  # CMAKE_UNITY_BUILD is set to OFF as otherwise some compute functionality
+  # segfaults in tests
 
   MSYS2_ARG_CONV_EXCL="-DCMAKE_INSTALL_PREFIX=" \
     ${MINGW_PREFIX}/bin/cmake.exe \
@@ -105,7 +87,7 @@ build() {
     -DARROW_CSV=ON \
     -DARROW_DATASET=ON \
     -DARROW_FILESYSTEM=ON \
-    -DARROW_GCS="${ARROW_GCS}" \
+    -DARROW_GCS=ON \
     -DARROW_HDFS=OFF \
     -DARROW_JEMALLOC=OFF \
     -DARROW_JSON=ON \
@@ -113,13 +95,13 @@ build() {
     -DARROW_MIMALLOC=ON \
     -DARROW_PACKAGE_PREFIX="${MINGW_PREFIX}" \
     -DARROW_PARQUET=ON \
-    -DARROW_S3="${ARROW_S3}" \
+    -DARROW_S3=ON \
     -DARROW_SNAPPY_USE_SHARED=OFF \
     -DARROW_USE_GLOG=OFF \
     -DARROW_UTF8PROC_USE_SHARED=OFF \
     -DARROW_VERBOSE_THIRDPARTY_BUILD=ON \
     -DARROW_WITH_LZ4=ON \
-    -DARROW_WITH_RE2="${ARROW_WITH_RE2}" \
+    -DARROW_WITH_RE2=ON \
     -DARROW_WITH_SNAPPY=ON \
     -DARROW_WITH_ZLIB=ON \
     -DARROW_WITH_ZSTD=ON \
@@ -129,7 +111,7 @@ build() {
     -DARROW_CXXFLAGS="${CPPFLAGS}" \
     -DCMAKE_BUILD_TYPE="release" \
     -DCMAKE_INSTALL_PREFIX=${MINGW_PREFIX} \
-    -DCMAKE_UNITY_BUILD=${CMAKE_UNITY_BUILD} \
+    -DCMAKE_UNITY_BUILD=OFF \
     -DCMAKE_VERBOSE_MAKEFILE=ON
 
   make -j3
diff --git a/ci/scripts/conan_build.sh b/ci/scripts/conan_build.sh
index 3b1d9b6c977..3bdd6a0bd5f 100755
--- a/ci/scripts/conan_build.sh
+++ b/ci/scripts/conan_build.sh
@@ -46,6 +46,9 @@ fi
 if [ -n "${ARROW_CONAN_WITH_JEMALLOC:-}" ]; then
   conan_args+=(--options arrow:with_jemalloc=${ARROW_CONAN_WITH_JEMALLOC})
 fi
+if [ -n "${ARROW_CONAN_WITH_JSON:-}" ]; then
+  conan_args+=(--options arrow:with_json=${ARROW_CONAN_WITH_JSON})
+fi
 if [ -n "${ARROW_CONAN_WITH_LZ4:-}" ]; then
   conan_args+=(--options arrow:with_lz4=${ARROW_CONAN_WITH_LZ4})
 fi
diff --git a/ci/scripts/cpp_build.sh b/ci/scripts/cpp_build.sh
index 738f3d26470..b3d9e0d3ec1 100755
--- a/ci/scripts/cpp_build.sh
+++ b/ci/scripts/cpp_build.sh
@@ -91,23 +91,19 @@ cmake \
   -DARROW_FLIGHT=${ARROW_FLIGHT:-OFF} \
   -DARROW_FLIGHT_SQL=${ARROW_FLIGHT_SQL:-OFF} \
   -DARROW_FUZZING=${ARROW_FUZZING:-OFF} \
-  -DARROW_GANDIVA_JAVA=${ARROW_GANDIVA_JAVA:-OFF} \
   -DARROW_GANDIVA_PC_CXX_FLAGS=${ARROW_GANDIVA_PC_CXX_FLAGS:-} \
   -DARROW_GANDIVA=${ARROW_GANDIVA:-OFF} \
   -DARROW_GCS=${ARROW_GCS:-OFF} \
   -DARROW_HDFS=${ARROW_HDFS:-ON} \
   -DARROW_INSTALL_NAME_RPATH=${ARROW_INSTALL_NAME_RPATH:-ON} \
   -DARROW_JEMALLOC=${ARROW_JEMALLOC:-ON} \
-  -DARROW_JNI=${ARROW_JNI:-OFF} \
   -DARROW_JSON=${ARROW_JSON:-ON} \
   -DARROW_LARGE_MEMORY_TESTS=${ARROW_LARGE_MEMORY_TESTS:-OFF} \
   -DARROW_MIMALLOC=${ARROW_MIMALLOC:-OFF} \
   -DARROW_NO_DEPRECATED_API=${ARROW_NO_DEPRECATED_API:-OFF} \
   -DARROW_ORC=${ARROW_ORC:-OFF} \
   -DARROW_PARQUET=${ARROW_PARQUET:-OFF} \
-  -DARROW_PLASMA_JAVA_CLIENT=${ARROW_PLASMA_JAVA_CLIENT:-OFF} \
   -DARROW_PLASMA=${ARROW_PLASMA:-OFF} \
-  -DARROW_PYTHON=${ARROW_PYTHON:-OFF} \
   -DARROW_RUNTIME_SIMD_LEVEL=${ARROW_RUNTIME_SIMD_LEVEL:-MAX} \
   -DARROW_S3=${ARROW_S3:-OFF} \
   -DARROW_SKYHOOK=${ARROW_SKYHOOK:-OFF} \
@@ -127,6 +123,7 @@ cmake \
   -DARROW_WITH_BZ2=${ARROW_WITH_BZ2:-OFF} \
   -DARROW_WITH_LZ4=${ARROW_WITH_LZ4:-OFF} \
   -DARROW_WITH_OPENTELEMETRY=${ARROW_WITH_OPENTELEMETRY:-OFF} \
+  -DARROW_WITH_MUSL=${ARROW_WITH_MUSL:-OFF} \
   -DARROW_WITH_SNAPPY=${ARROW_WITH_SNAPPY:-OFF} \
   -DARROW_WITH_UTF8PROC=${ARROW_WITH_UTF8PROC:-ON} \
   -DARROW_WITH_ZLIB=${ARROW_WITH_ZLIB:-OFF} \
@@ -141,7 +138,7 @@ cmake \
   -DCMAKE_VERBOSE_MAKEFILE=${CMAKE_VERBOSE_MAKEFILE:-OFF} \
   -DCMAKE_C_FLAGS="${CFLAGS:-}" \
   -DCMAKE_CXX_FLAGS="${CXXFLAGS:-}" \
-  -DCMAKE_CXX_STANDARD="${CMAKE_CXX_STANDARD:-11}" \
+  -DCMAKE_CXX_STANDARD="${CMAKE_CXX_STANDARD:-17}" \
   -DCMAKE_INSTALL_LIBDIR=${CMAKE_INSTALL_LIBDIR:-lib} \
   -DCMAKE_INSTALL_PREFIX=${CMAKE_INSTALL_PREFIX:-${ARROW_HOME}} \
   -DCMAKE_UNITY_BUILD=${CMAKE_UNITY_BUILD:-OFF} \
@@ -172,7 +169,7 @@ time cmake --build . --target install
 popd
 
 if [ -x "$(command -v ldconfig)" ]; then
-  ldconfig
+  ldconfig ${ARROW_HOME}/${CMAKE_INSTALL_LIBDIR:-lib}
 fi
 
 if [ "${ARROW_USE_CCACHE}" == "ON" ]; then
@@ -180,6 +177,11 @@ if [ "${ARROW_USE_CCACHE}" == "ON" ]; then
     ccache -s
 fi
 
+if command -v sccache &> /dev/null; then
+  echo "=== sccache stats after the build ==="
+  sccache --show-stats
+fi
+
 if [ "${BUILD_DOCS_CPP}" == "ON" ]; then
   pushd ${source_dir}/apidoc
   doxygen
diff --git a/ci/scripts/cpp_test.sh b/ci/scripts/cpp_test.sh
index 2bd7db8b2c4..2d829411b16 100755
--- a/ci/scripts/cpp_test.sh
+++ b/ci/scripts/cpp_test.sh
@@ -55,22 +55,20 @@ case "$(uname)" in
     exclude_tests="gandiva-internals-test"
     exclude_tests="${exclude_tests}|gandiva-projector-test"
     exclude_tests="${exclude_tests}|gandiva-utf8-test"
-    if [ "${MSYSTEM}" = "MINGW32" ]; then
-      exclude_tests="${exclude_tests}|gandiva-binary-test"
-      exclude_tests="${exclude_tests}|gandiva-boolean-expr-test"
-      exclude_tests="${exclude_tests}|gandiva-date-time-test"
-      exclude_tests="${exclude_tests}|gandiva-decimal-single-test"
-      exclude_tests="${exclude_tests}|gandiva-decimal-test"
-      exclude_tests="${exclude_tests}|gandiva-filter-project-test"
-      exclude_tests="${exclude_tests}|gandiva-filter-test"
-      exclude_tests="${exclude_tests}|gandiva-hash-test"
-      exclude_tests="${exclude_tests}|gandiva-if-expr-test"
-      exclude_tests="${exclude_tests}|gandiva-in-expr-test"
-      exclude_tests="${exclude_tests}|gandiva-literal-test"
-      exclude_tests="${exclude_tests}|gandiva-null-validity-test"
-      exclude_tests="${exclude_tests}|gandiva-precompiled-test"
-      exclude_tests="${exclude_tests}|gandiva-projector-test"
-    fi
+    exclude_tests="${exclude_tests}|gandiva-binary-test"
+    exclude_tests="${exclude_tests}|gandiva-boolean-expr-test"
+    exclude_tests="${exclude_tests}|gandiva-date-time-test"
+    exclude_tests="${exclude_tests}|gandiva-decimal-single-test"
+    exclude_tests="${exclude_tests}|gandiva-decimal-test"
+    exclude_tests="${exclude_tests}|gandiva-filter-project-test"
+    exclude_tests="${exclude_tests}|gandiva-filter-test"
+    exclude_tests="${exclude_tests}|gandiva-hash-test"
+    exclude_tests="${exclude_tests}|gandiva-if-expr-test"
+    exclude_tests="${exclude_tests}|gandiva-in-expr-test"
+    exclude_tests="${exclude_tests}|gandiva-literal-test"
+    exclude_tests="${exclude_tests}|gandiva-null-validity-test"
+    exclude_tests="${exclude_tests}|gandiva-precompiled-test"
+    exclude_tests="${exclude_tests}|gandiva-projector-test"
     ctest_options+=(--exclude-regex "${exclude_tests}")
     ;;
   *)
@@ -80,14 +78,14 @@ esac
 
 pushd ${build_dir}
 
-if ! which python > /dev/null 2>&1; then
-  export PYTHON=python3
+if [ -z "${PYTHON}" ] && ! which python > /dev/null 2>&1; then
+  export PYTHON="${PYTHON:-python3}"
 fi
 ctest \
     --label-regex unittest \
     --output-on-failure \
     --parallel ${n_jobs} \
-    --timeout 300 \
+    --timeout ${ARROW_CTEST_TIMEOUT:-300} \
     "${ctest_options[@]}" \
     $@
 
diff --git a/ci/scripts/download_tz_database.sh b/ci/scripts/download_tz_database.sh
old mode 100644
new mode 100755
diff --git a/ci/scripts/go_bench.sh b/ci/scripts/go_bench.sh
new file mode 100644
index 00000000000..523acdd9764
--- /dev/null
+++ b/ci/scripts/go_bench.sh
@@ -0,0 +1,54 @@
+#!/usr/bin/env bash
+#
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+# this will output the benchmarks to STDOUT but if `-json` is passed
+# as the second argument, it will create a file "bench_stats.json"
+# in the directory this is called from containing a json representation
+
+set -ex
+
+# simplistic semver comparison
+verlte() {
+    [ "$1" = "`echo -e "$1\n$2" | sort -V | head -n1`" ]
+}
+verlt() {
+    [ "$1" = "$2" ] && return 1 || verlte $1 $2
+}
+
+ver=`go env GOVERSION`
+
+source_dir=${1}/go
+
+export PARQUET_TEST_DATA=${1}/cpp/submodules/parquet-testing/data
+pushd ${source_dir}
+
+# lots of benchmarks, they can take a while
+# the timeout is for *ALL* benchmarks together,
+# not per benchmark
+go test -bench=. -benchmem -timeout 20m -run=^$ ./... | tee bench_stat.dat
+
+popd
+
+if [[ "$2" = "-json" ]]; then
+    go install go.bobheadxi.dev/gobenchdata@latest
+    export PATH=`go env GOPATH`/bin:$PATH
+    cat ${source_dir}/bench_*.dat | gobenchdata --json bench_stats.json
+fi    
+
+rm ${source_dir}/bench_*.dat
\ No newline at end of file
diff --git a/ci/scripts/go_bench_adapt.py b/ci/scripts/go_bench_adapt.py
new file mode 100644
index 00000000000..a0f4a1dc19c
--- /dev/null
+++ b/ci/scripts/go_bench_adapt.py
@@ -0,0 +1,102 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+import json
+import os
+import uuid
+import logging
+from pathlib import Path
+from typing import List
+
+from benchadapt import BenchmarkResult
+from benchadapt.adapters import BenchmarkAdapter
+from benchadapt.log import log
+
+log.setLevel(logging.DEBUG)
+
+ARROW_ROOT = Path(__file__).parent.parent.parent.resolve()
+SCRIPTS_PATH = ARROW_ROOT / "ci" / "scripts"
+
+if os.environ.get("CONBENCH_REF") == "master":
+    github = {
+        "repository": os.environ["GITHUB_REPOSITORY"],
+        "commit": os.environ["GITHUB_SHA"],
+        "pr_number": None,  # implying default branch
+    }
+    run_reason = "commit"
+else:
+    github = None  # scrape github info from the local repo
+    run_reason = "branch"
+
+class GoAdapter(BenchmarkAdapter):
+    result_file = "bench_stats.json"
+    command = ["bash", SCRIPTS_PATH / "go_bench.sh", ARROW_ROOT, "-json"]
+
+    def __init__(self, *args, **kwargs) -> None:
+        super().__init__(command=self.command, *args, **kwargs)
+
+    def _transform_results(self) -> List[BenchmarkResult]:
+        with open(self.result_file, "r") as f:
+            raw_results = json.load(f)
+
+        run_id = uuid.uuid4().hex
+        parsed_results = []
+        for suite in raw_results[0]["Suites"]:
+            batch_id = uuid.uuid4().hex
+            pkg = suite["Pkg"]
+
+            for benchmark in suite["Benchmarks"]:
+                data = benchmark["Mem"]["MBPerSec"] * 1e6
+                time = 1 / benchmark["NsPerOp"] * 1e9
+
+                name = benchmark["Name"].removeprefix('Benchmark')
+                ncpu = name[name.rfind('-')+1:]
+                pieces = name[:-(len(ncpu)+1)].split('/')
+
+                parsed = BenchmarkResult(
+                    run_id=run_id,
+                    batch_id=batch_id,
+                    stats={
+                        "data": [data],
+                        "unit": "b/s",
+                        "times": [time],
+                        "time_unit": "i/s",
+                        "iterations": benchmark["Runs"],
+                    },
+                    context={
+                        "benchmark_language": "Go",
+                        "goos": suite["Goos"],
+                        "goarch": suite["Goarch"],
+                    },
+                    tags={
+                        "pkg": pkg,
+                        "num_cpu": ncpu,
+                        "name": pieces[0],
+                        "params": '/'.join(pieces[1:]),
+                    },
+                    run_reason=run_reason,
+                    github=github,
+                )
+                parsed.run_name = f"{parsed.run_reason}: {parsed.github['commit']}"
+                parsed_results.append(parsed)
+
+        return parsed_results
+
+
+if __name__ == "__main__":
+    go_adapter = GoAdapter(result_fields_override={"info":{}})
+    go_adapter()
diff --git a/ci/scripts/go_build.sh b/ci/scripts/go_build.sh
index 20879cc0e70..c113bbd320e 100755
--- a/ci/scripts/go_build.sh
+++ b/ci/scripts/go_build.sh
@@ -22,7 +22,7 @@ set -ex
 source_dir=${1}/go
 ARCH=`uname -m`
 
-# Arm64 CI is triggered by travis and run in arm64v8/golang:1.16-bullseye
+# Arm64 CI is triggered by travis and run in arm64v8/golang:1.17-bullseye
 if [ "aarch64" == "$ARCH" ]; then
 # Install `staticcheck`
   GO111MODULE=on go install honnef.co/go/tools/cmd/staticcheck@v0.2.2
@@ -36,17 +36,15 @@ if [[ -n "${ARROW_GO_TESTCGO}" ]]; then
         go clean -cache
         go clean -testcache        
     fi
-    TAGS="-tags assert,test,ccalloc"
+    TAGS="-tags assert,test,ccalloc"    
 fi
 
-go get -d -t -v ./...
 go install $TAGS -v ./...
 
 popd
 
 pushd ${source_dir}/parquet
 
-go get -d -t -v ./...
 go install -v ./...
 
 popd
diff --git a/ci/scripts/go_test.sh b/ci/scripts/go_test.sh
index 760aa149aa9..e0a632dc069 100755
--- a/ci/scripts/go_test.sh
+++ b/ci/scripts/go_test.sh
@@ -19,10 +19,24 @@
 
 set -ex
 
+# simplistic semver comparison
+verlte() {
+    [ "$1" = "`echo -e "$1\n$2" | sort -V | head -n1`" ]
+}
+verlt() {
+    [ "$1" = "$2" ] && return 1 || verlte $1 $2
+}
+
+ver=`go env GOVERSION`
+
 source_dir=${1}/go
 
-# when we upgrade to at least go1.18, we can add the new -asan option here
 testargs="-race"
+if verlte "1.18" "${ver#go}" && [ "$(go env GOOS)" != "darwin" ]; then
+    # asan not supported on darwin/amd64
+    testargs="-asan"
+fi
+
 case "$(uname)" in
     MINGW*)
         # -asan and -race don't work on windows currently
@@ -45,9 +59,9 @@ fi
 pushd ${source_dir}/arrow
 
 TAGS="assert,test"
-if [[ -n "${ARROW_GO_TESTCGO}" ]]; then    
+if [[ -n "${ARROW_GO_TESTCGO}" ]]; then
     if [[ "${MSYSTEM}" = "MINGW64" ]]; then
-        export PATH=${MINGW_PREFIX}/bin:$PATH        
+        export PATH=${MINGW_PREFIX}\\bin:${MINGW_PREFIX}\\lib:$PATH
     fi
     TAGS="${TAGS},ccalloc"
 fi
@@ -57,18 +71,19 @@ fi
 # tag in order to run its tests so that the testing functions implemented
 # in .c files don't get included in non-test builds.
 
-for d in $(go list ./... | grep -v vendor); do
-    go test $testargs -tags $TAGS $d
-done
+go test $testargs -tags $TAGS ./...
+
+# only test compute when Go is >= 1.18
+if verlte "1.18" "${ver#go}"; then
+    go test $testargs -tags $TAGS ./compute/...
+fi
 
 popd
 
 export PARQUET_TEST_DATA=${1}/cpp/submodules/parquet-testing/data
-
+export ARROW_TEST_DATA=${1}/testing/data
 pushd ${source_dir}/parquet
 
-for d in $(go list ./... | grep -v vendor); do
-    go test $testargs -tags assert $d
-done
+go test $testargs -tags assert ./...
 
 popd
diff --git a/ci/scripts/install_ccache.sh b/ci/scripts/install_ccache.sh
index 8c64fe56c41..7d39e18ebe5 100755
--- a/ci/scripts/install_ccache.sh
+++ b/ci/scripts/install_ccache.sh
@@ -26,20 +26,33 @@ fi
 
 version=$1
 prefix=$2
-url="https://github.com/ccache/ccache/archive/v${version}.tar.gz"
 
-mkdir /tmp/ccache
-wget -q ${url} -O - | tar -xzf - --directory /tmp/ccache --strip-components=1
+mkdir -p /tmp/ccache
+case $(uname) in
+  MINGW64*)
+    url="https://github.com/ccache/ccache/releases/download/v${version}/ccache-${version}-windows-x86_64.zip"
+    pushd /tmp/ccache
+    curl --fail --location --remote-name ${url}
+    unzip -j ccache-${version}-windows-x86_64.zip
+    chmod +x ccache.exe
+    mv ccache.exe ${prefix}/bin/
+    popd
+    ;;
+  *)
+    url="https://github.com/ccache/ccache/archive/v${version}.tar.gz"
 
-mkdir /tmp/ccache/build
-pushd /tmp/ccache/build
-cmake \
-  -GNinja \
-  -DCMAKE_BUILD_TYPE=Release \
-  -DCMAKE_INSTALL_PREFIX=${prefix} \
-  -DZSTD_FROM_INTERNET=ON \
-  ..
-ninja install
-popd
+    wget -q ${url} -O - | tar -xzf - --directory /tmp/ccache --strip-components=1
 
+    mkdir /tmp/ccache/build
+    pushd /tmp/ccache/build
+    cmake \
+      -GNinja \
+      -DCMAKE_BUILD_TYPE=Release \
+      -DCMAKE_INSTALL_PREFIX=${prefix} \
+      -DZSTD_FROM_INTERNET=ON \
+      ..
+    ninja install
+    popd
+    ;;
+esac
 rm -rf /tmp/ccache
diff --git a/ci/scripts/install_dask.sh b/ci/scripts/install_dask.sh
index eb9c4e3dd42..8d712a88a6a 100755
--- a/ci/scripts/install_dask.sh
+++ b/ci/scripts/install_dask.sh
@@ -26,7 +26,7 @@ fi
 
 dask=$1
 
-if [ "${dask}" = "master" ]; then
+if [ "${dask}" = "upstream_devel" ]; then
   pip install https://github.com/dask/dask/archive/main.tar.gz#egg=dask[dataframe]
 elif [ "${dask}" = "latest" ]; then
   pip install dask[dataframe]
diff --git a/ci/scripts/install_gcs_testbench.sh b/ci/scripts/install_gcs_testbench.sh
index f7fa6e611d4..0109ea607ff 100755
--- a/ci/scripts/install_gcs_testbench.sh
+++ b/ci/scripts/install_gcs_testbench.sh
@@ -34,24 +34,9 @@ case "$(uname -m)" in
     ;;
 esac
 
-case "$(uname -s)-$(uname -m)" in
-  Darwin-arm64)
-    # Workaround for https://github.com/grpc/grpc/issues/28387 .
-    # Build grpcio instead of using wheel.
-    # storage-testbench 0.16.0 pins grpcio to 1.44.0.
-    ${PYTHON:-python3} -m pip install --no-binary :all: "grpcio==1.44.0"
-    ;;
-  *_NT-*)
-    # Mingw-w64: MSYS_NT-10.0-19043, MINGW32_NT-10.0-19043, MINGW64_NT-10.0-19043
-    # Don't use the "/MT" option because g++ doesn't recognize it.
-    # "/MT" is for Visual Studio.
-    GRPC_PYTHON_CFLAGS=" " ${PYTHON:-python3} -m pip install "grpcio==1.44.0"
-    ;;
-esac
-
 version=$1
 if [[ "${version}" -eq "default" ]]; then
-  version="v0.16.0"
+  version="v0.32.0"
 fi
 
 ${PYTHON:-python3} -m pip install \
diff --git a/ci/scripts/install_turbodbc.sh b/ci/scripts/install_numba.sh
similarity index 64%
rename from ci/scripts/install_turbodbc.sh
rename to ci/scripts/install_numba.sh
index e9ac26c2cc8..470f291ba80 100755
--- a/ci/scripts/install_turbodbc.sh
+++ b/ci/scripts/install_numba.sh
@@ -19,23 +19,17 @@
 
 set -e
 
-if [ "$#" -ne 2 ]; then
-  echo "Usage: $0 <turbodbc version> <target directory>"
+if [ "$#" -ne 1 ]; then
+  echo "Usage: $0 <numba version>"
   exit 1
 fi
 
-turbodbc=$1
-target=$2
+numba=$1
 
-git clone --recurse-submodules https://github.com/blue-yonder/turbodbc "${target}"
-if [ "${turbodbc}" = "latest" ]; then
-  git -C "${target}" checkout $(git describe --tags);
+if [ "${numba}" = "master" ]; then
+  pip install https://github.com/numba/numba/archive/main.tar.gz#egg=numba
+elif [ "${numba}" = "latest" ]; then
+  pip install numba
 else
-  git -C "${target}" checkout ${turbodbc};
+  pip install numba==${numba}
 fi
-
-pushd ${target}
-wget -q https://github.com/pybind/pybind11/archive/v2.6.2.tar.gz
-tar xvf v2.6.2.tar.gz
-mv pybind11-2.6.2 pybind11
-popd
diff --git a/ci/scripts/install_osx_sdk.sh b/ci/scripts/install_osx_sdk.sh
deleted file mode 100755
index 896d084e0b9..00000000000
--- a/ci/scripts/install_osx_sdk.sh
+++ /dev/null
@@ -1,41 +0,0 @@
-#!/usr/bin/env bash
-
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-set -ex
-
-if [ ${using_homebrew} != "yes" ]; then
-  export MACOSX_DEPLOYMENT_TARGET="10.9"
-  export CONDA_BUILD_SYSROOT="$(xcode-select -p)/Platforms/MacOSX.platform/Developer/SDKs/MacOSX${MACOSX_DEPLOYMENT_TARGET}.sdk"
-
-  if [[ ! -d ${CONDA_BUILD_SYSROOT} || "$OSX_FORCE_SDK_DOWNLOAD" == "1" ]]; then
-    echo "downloading ${macosx_deployment_target} sdk"
-    curl -L -O https://github.com/phracker/MacOSX-SDKs/releases/download/10.13/MacOSX${MACOSX_DEPLOYMENT_TARGET}.sdk.tar.xz
-    tar -xf MacOSX${MACOSX_DEPLOYMENT_TARGET}.sdk.tar.xz -C "$(dirname "$CONDA_BUILD_SYSROOT")"
-    # set minimum sdk version to our target
-    plutil -replace MinimumSDKVersion -string ${MACOSX_DEPLOYMENT_TARGET} $(xcode-select -p)/Platforms/MacOSX.platform/Info.plist
-    plutil -replace DTSDKName -string macosx${MACOSX_DEPLOYMENT_TARGET}internal $(xcode-select -p)/Platforms/MacOSX.platform/Info.plist
-  fi
-
-  if [ -d "${CONDA_BUILD_SYSROOT}" ]; then
-    echo "Found CONDA_BUILD_SYSROOT: ${CONDA_BUILD_SYSROOT}"
-  else
-    echo "Missing CONDA_BUILD_SYSROOT: ${CONDA_BUILD_SYSROOT}"
-    exit 1
-  fi
-fi
diff --git a/ci/scripts/install_pandas.sh b/ci/scripts/install_pandas.sh
index 5aca65f825a..f0cb76fb663 100755
--- a/ci/scripts/install_pandas.sh
+++ b/ci/scripts/install_pandas.sh
@@ -35,8 +35,8 @@ else
   pip install numpy==${numpy}
 fi
 
-if [ "${pandas}" = "master" ]; then
-  pip install git+https://github.com/pandas-dev/pandas.git --no-build-isolation
+if [ "${pandas}" = "upstream_devel" ]; then
+  pip install git+https://github.com/pandas-dev/pandas.git
 elif [ "${pandas}" = "nightly" ]; then
   pip install --extra-index-url https://pypi.anaconda.org/scipy-wheels-nightly/simple --pre pandas
 elif [ "${pandas}" = "latest" ]; then
diff --git a/ci/scripts/install_python.sh b/ci/scripts/install_python.sh
index 7a18cd83243..d64318751c9 100755
--- a/ci/scripts/install_python.sh
+++ b/ci/scripts/install_python.sh
@@ -27,8 +27,9 @@ platforms=([windows]=Windows
 declare -A versions
 versions=([3.7]=3.7.9
           [3.8]=3.8.10
-          [3.9]=3.9.9
-          [3.10]=3.10.1)
+          [3.9]=3.9.13
+          [3.10]=3.10.8
+          [3.11]=3.11.0)
 
 if [ "$#" -ne 2 ]; then
   echo "Usage: $0 <platform> <version>"
@@ -45,7 +46,7 @@ full_version=${versions[$2]}
 if [ $platform = "MacOSX" ]; then
     echo "Downloading Python installer..."
 
-    if [ "$(uname -m)" = "arm64" ] || [ "$version" = "3.10" ]; then
+    if [ "$(uname -m)" = "arm64" ] || [ "$version" = "3.10" ] || [ "$version" = "3.11" ]; then
         fname="python-${full_version}-macos11.pkg"
     else
         fname="python-${full_version}-macosx10.9.pkg"
diff --git a/ci/scripts/install_sccache.sh b/ci/scripts/install_sccache.sh
new file mode 100755
index 00000000000..2ee3486699a
--- /dev/null
+++ b/ci/scripts/install_sccache.sh
@@ -0,0 +1,68 @@
+#!/usr/bin/env bash
+#
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+set -e
+
+if [  "$#" -lt 1 -o "$#" -gt 3 ]; then
+    echo "Usage: $0 <build> <prefix> <version>"
+    echo "Will default to version=0.3.0 "
+    exit 1
+fi
+
+BUILD=$1
+PREFIX=$2
+VERSION=${3:-0.3.0}
+ARCH=$(uname -m)
+
+if [ "${ARCH}" != x86_64 ] && [ "${ARCH}" != aarch64 ]; then
+    echo "Skipped sccache installation on unsupported arch: ${ARCH}"
+    exit 0
+fi
+
+SCCACHE_URL="https://github.com/mozilla/sccache/releases/download/v$VERSION/sccache-v$VERSION-$ARCH-$BUILD.tar.gz"
+SCCACHE_ARCHIVE=sccache.tar.gz
+
+# Download archive and checksum
+curl -L $SCCACHE_URL --output $SCCACHE_ARCHIVE
+curl -L $SCCACHE_URL.sha256 --output $SCCACHE_ARCHIVE.sha256
+echo "  $SCCACHE_ARCHIVE" >> $SCCACHE_ARCHIVE.sha256
+
+SHA_ARGS="--check --status"
+
+# Busybox sha256sum uses different flags
+if sha256sum --version 2>&1 | grep -q BusyBox; then
+  SHA_ARGS="-sc"
+fi
+
+sha256sum $SHA_ARGS $SCCACHE_ARCHIVE.sha256
+
+if [ ! -d $PREFIX ]; then
+    mkdir -p $PREFIX
+fi
+
+# Extract only the sccache binary into $PREFIX and ignore README and LCIENSE.
+# --wildcards doesn't work on busybox.
+tar -xzvf $SCCACHE_ARCHIVE --strip-component=1 --directory $PREFIX --exclude="sccache*/*E*E*"
+chmod u+x $PREFIX/sccache
+
+if [ "${GITHUB_ACTIONS}" = "true" ]; then
+    echo "$PREFIX" >> $GITHUB_PATH
+    # Add executable for windows as mingw workaround.
+    echo "SCCACHE_PATH=$PREFIX/sccache.exe" >> $GITHUB_ENV
+fi
diff --git a/ci/scripts/integration_dask.sh b/ci/scripts/integration_dask.sh
index eeaba715b6a..02977585910 100755
--- a/ci/scripts/integration_dask.sh
+++ b/ci/scripts/integration_dask.sh
@@ -33,6 +33,7 @@ python -c "import dask.dataframe"
 
 pytest -v --pyargs dask.dataframe.tests.test_dataframe
 pytest -v --pyargs dask.dataframe.io.tests.test_orc
-pytest -v --pyargs dask.dataframe.io.tests.test_parquet
+# skip test until new fsspec release is out (https://github.com/fsspec/filesystem_spec/pull/1139)
+pytest -v --pyargs dask.dataframe.io.tests.test_parquet -k "not test_pyarrow_filesystem_option"
 # this file contains parquet tests that use S3 filesystem
 pytest -v --pyargs dask.bytes.tests.test_s3
diff --git a/ci/scripts/integration_spark.sh b/ci/scripts/integration_spark.sh
index 90ecbce397b..6e20e770329 100755
--- a/ci/scripts/integration_spark.sh
+++ b/ci/scripts/integration_spark.sh
@@ -30,7 +30,7 @@ spark_version=${SPARK_VERSION:-master}
 # Use old behavior that always dropped tiemzones.
 export PYARROW_IGNORE_TIMEZONE=1
 
-if [ "${SPARK_VERSION:0:2}" == "2." ]; then
+if [ "${SPARK_VERSION:1:2}" == "2." ]; then
   # https://github.com/apache/spark/blob/master/docs/sql-pyspark-pandas-with-arrow.md#compatibility-setting-for-pyarrow--0150-and-spark-23x-24x
   export ARROW_PRE_0_15_IPC_FORMAT=1
 fi
@@ -73,14 +73,35 @@ pushd ${spark_dir}
 
   # Run pyarrow related Python tests only
   spark_python_tests=(
-    "pyspark.sql.tests.test_arrow"
-    "pyspark.sql.tests.test_pandas_map"
-    "pyspark.sql.tests.test_pandas_cogrouped_map"
-    "pyspark.sql.tests.test_pandas_grouped_map"
-    "pyspark.sql.tests.test_pandas_udf"
-    "pyspark.sql.tests.test_pandas_udf_scalar"
-    "pyspark.sql.tests.test_pandas_udf_grouped_agg"
-    "pyspark.sql.tests.test_pandas_udf_window")
+    "pyspark.sql.tests.test_arrow")
+
+  case "${SPARK_VERSION}" in
+    v1.*|v2.*|v3.0.*|v3.1.*|v3.2.*|v3.3.*)
+      old_test_modules=true
+      ;;
+    *)
+      old_test_modules=false
+      ;;
+  esac
+  if [ "${old_test_modules}" == "true" ]; then
+    spark_python_tests+=(
+      "pyspark.sql.tests.test_pandas_grouped_map"
+      "pyspark.sql.tests.test_pandas_map"
+      "pyspark.sql.tests.test_pandas_cogrouped_map"
+      "pyspark.sql.tests.test_pandas_udf"
+      "pyspark.sql.tests.test_pandas_udf_scalar"
+      "pyspark.sql.tests.test_pandas_udf_grouped_agg"
+      "pyspark.sql.tests.test_pandas_udf_window")
+  else
+    spark_python_tests+=(
+      "pyspark.sql.tests.pandas.test_pandas_grouped_map"
+      "pyspark.sql.tests.pandas.test_pandas_map"
+      "pyspark.sql.tests.pandas.test_pandas_cogrouped_map"
+      "pyspark.sql.tests.pandas.test_pandas_udf"
+      "pyspark.sql.tests.pandas.test_pandas_udf_scalar"
+      "pyspark.sql.tests.pandas.test_pandas_udf_grouped_agg"
+      "pyspark.sql.tests.pandas.test_pandas_udf_window")
+  fi
 
   (echo "Testing PySpark:"; IFS=$'\n'; echo "${spark_python_tests[*]}")
   python/run-tests --testnames "$(IFS=,; echo "${spark_python_tests[*]}")" --python-executables python
diff --git a/ci/scripts/java_build.sh b/ci/scripts/java_build.sh
index b0362868b0a..3ea6fe28d63 100755
--- a/ci/scripts/java_build.sh
+++ b/ci/scripts/java_build.sh
@@ -18,10 +18,13 @@
 
 set -ex
 
+if [[ "${ARROW_JAVA_BUILD:-ON}" != "ON" ]]; then
+  exit
+fi
+
 arrow_dir=${1}
 source_dir=${1}/java
 build_dir=${2}
-cpp_build_dir=${build_dir}/cpp/${ARROW_BUILD_TYPE:-debug}
 java_jni_dist_dir=${3}
 
 : ${BUILD_DOCS_JAVA:=OFF}
@@ -64,6 +67,11 @@ if [[ "$(uname -s)" == "Linux" ]] && [[ "$(uname -m)" == "s390x" ]]; then
 fi
 
 mvn="mvn -B -DskipTests -Drat.skip=true -Dorg.slf4j.simpleLogger.log.org.apache.maven.cli.transfer.Slf4jMavenTransferListener=warn"
+
+if [ $ARROW_JAVA_SKIP_GIT_PLUGIN ]; then
+  mvn="${mvn} -Dmaven.gitcommitid.skip=true"
+fi
+
 # Use `2 * ncores` threads
 mvn="${mvn} -T 2C"
 
@@ -79,13 +87,13 @@ if [ "${ARROW_JAVA_CDATA}" = "ON" ]; then
   ${mvn} -Darrow.c.jni.dist.dir=${java_jni_dist_dir} -Parrow-c-data install
 fi
 
-if [ "${ARROW_GANDIVA_JAVA}" = "ON" ]; then
-  ${mvn} -Darrow.cpp.build.dir=${cpp_build_dir} -Parrow-jni install
+if [ "${ARROW_JAVA_JNI}" = "ON" ]; then
+  ${mvn} -Darrow.cpp.build.dir=${java_jni_dist_dir} -Parrow-jni install
 fi
 
 if [ "${ARROW_PLASMA}" = "ON" ]; then
   pushd ${source_dir}/plasma
-  ${mvn} clean install
+  ${mvn} -Darrow.cpp.build.dir=${java_jni_dist_dir} clean install
   popd
 fi
 
diff --git a/ci/scripts/java_full_build.sh b/ci/scripts/java_full_build.sh
index 1c07971bcc6..2734f3e9dbe 100755
--- a/ci/scripts/java_full_build.sh
+++ b/ci/scripts/java_full_build.sh
@@ -65,7 +65,13 @@ find . \
      -exec echo {} ";" \
      -exec cp {} $dist_dir ";"
 find ~/.m2/repository/org/apache/arrow \
-     "(" -name "*.jar" -o -name "*.zip" -o -name "*.pom" ")" \
+     "(" \
+     -name "*.jar" -o \
+     -name "*.json" -o \
+     -name "*.pom" -o \
+     -name "*.xml" -o \
+     -name "*.zip" \
+     ")" \
      -exec echo {} ";" \
      -exec cp {} $dist_dir ";"
 
diff --git a/ci/scripts/java_gandiva_build.sh b/ci/scripts/java_gandiva_build.sh
new file mode 100644
index 00000000000..9cbcc9e68b0
--- /dev/null
+++ b/ci/scripts/java_gandiva_build.sh
@@ -0,0 +1,75 @@
+#!/usr/bin/env bash
+#
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+set -e
+
+arrow_dir=${1}
+dist_dir=${2}
+
+export ARROW_TEST_DATA=${arrow_dir}/testing/data
+
+pushd ${arrow_dir}/java
+
+# Ensure that there is no old jar
+# inside the maven repository
+maven_repo=~/.m2/repository/org/apache/arrow
+if [ -d $maven_repo ]; then
+    find $maven_repo \
+      "(" -name "*.jar" -o -name "*.zip" -o -name "*.pom" ")" \
+      -exec echo {} ";" \
+      -exec rm -rf {} ";"
+fi
+
+# generate dummy GPG key for -Papache-release.
+# -Papache-release generates signs (*.asc) of artifacts.
+# We don't use these signs in our release process.
+(echo "Key-Type: RSA"; \
+ echo "Key-Length: 4096"; \
+ echo "Name-Real: Build"; \
+ echo "Name-Email: build@example.com"; \
+ echo "%no-protection") | \
+  gpg --gen-key --batch
+
+# build the entire project
+mvn clean \
+    install \
+    assembly:single \
+    source:jar \
+    javadoc:jar \
+    -DskipTests \
+    -Papache-release \
+    -Parrow-c-data \
+    -Parrow-jni \
+    -Darrow.cpp.build.dir=$dist_dir \
+    -Darrow.c.jni.dist.dir=$dist_dir \
+    -DdescriptorId=source-release \
+    --projects gandiva \
+    --also-make
+
+# copy all jar, zip and pom files to the distribution folder
+find . \
+     "(" -name "*-javadoc.jar" -o -name "*-sources.jar" ")" \
+     -exec echo {} ";" \
+     -exec cp {} $dist_dir ";"
+find ~/.m2/repository/org/apache/arrow \
+     "(" -name "*.jar" -o -name "*.zip" -o -name "*.pom" ")" \
+     -exec echo {} ";" \
+     -exec cp {} $dist_dir ";"
+
+popd
diff --git a/ci/scripts/java_jni_build.sh b/ci/scripts/java_jni_build.sh
index 0f19e614133..53838ba77c6 100755
--- a/ci/scripts/java_jni_build.sh
+++ b/ci/scripts/java_jni_build.sh
@@ -20,9 +20,12 @@
 set -ex
 
 arrow_dir=${1}
-build_dir=${2}/java_jni
+arrow_install_dir=${2}
+build_dir=${3}/java_jni
 # The directory where the final binaries will be stored when scripts finish
-dist_dir=${3}
+dist_dir=${4}
+
+prefix_dir="${build_dir}/java-jni"
 
 echo "=== Clear output directories and leftovers ==="
 # Clear output directories and leftovers
@@ -32,11 +35,49 @@ echo "=== Building Arrow Java C Data Interface native library ==="
 mkdir -p "${build_dir}"
 pushd "${build_dir}"
 
+case "$(uname)" in
+  Linux)
+    n_jobs=$(nproc)
+    ;;
+  Darwin)
+    n_jobs=$(sysctl -n hw.ncpu)
+    ;;
+  *)
+    n_jobs=${NPROC:-1}
+    ;;
+esac
+
+: ${ARROW_JAVA_BUILD_TESTS:=${ARROW_BUILD_TESTS:-OFF}}
+: ${CMAKE_BUILD_TYPE:=release}
 cmake \
-  -DCMAKE_BUILD_TYPE=${ARROW_BUILD_TYPE:-release} \
-  -DCMAKE_INSTALL_PREFIX=${dist_dir} \
+  -DARROW_JAVA_JNI_ENABLE_DATASET=${ARROW_DATASET:-OFF} \
+  -DARROW_JAVA_JNI_ENABLE_GANDIVA=${ARROW_GANDIVA:-OFF} \
+  -DARROW_JAVA_JNI_ENABLE_ORC=${ARROW_ORC:-OFF} \
+  -DARROW_JAVA_JNI_ENABLE_PLASMA=${ARROW_PLASMA:-OFF} \
+  -DBUILD_TESTING=${ARROW_JAVA_BUILD_TESTS} \
+  -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_TYPE} \
+  -DCMAKE_PREFIX_PATH=${arrow_install_dir} \
+  -DCMAKE_INSTALL_LIBDIR=lib \
+  -DCMAKE_INSTALL_PREFIX=${prefix_dir} \
   -DCMAKE_UNITY_BUILD=${CMAKE_UNITY_BUILD:-OFF} \
+  -GNinja \
   ${JAVA_JNI_CMAKE_ARGS:-} \
   ${arrow_dir}/java
-cmake --build . --target install --config ${ARROW_BUILD_TYPE:-release}
+export CMAKE_BUILD_PARALLEL_LEVEL=${n_jobs}
+cmake --build . --config ${CMAKE_BUILD_TYPE}
+if [ "${ARROW_JAVA_BUILD_TESTS}" = "ON" ]; then
+  ctest \
+    --output-on-failure \
+    --parallel ${n_jobs} \
+    --timeout 300
+fi
+cmake --build . --config ${CMAKE_BUILD_TYPE} --target install
 popd
+
+mkdir -p ${dist_dir}
+# For Windows. *.dll are installed into bin/ on Windows.
+if [ -d "${prefix_dir}/bin" ]; then
+  mv ${prefix_dir}/bin/* ${dist_dir}/
+else
+  mv ${prefix_dir}/lib/* ${dist_dir}/
+fi
diff --git a/ci/scripts/java_jni_macos_build.sh b/ci/scripts/java_jni_macos_build.sh
index 590c469e398..187de0c6037 100755
--- a/ci/scripts/java_jni_macos_build.sh
+++ b/ci/scripts/java_jni_macos_build.sh
@@ -21,28 +21,44 @@ set -ex
 
 arrow_dir=${1}
 build_dir=${2}
+normalized_arch=$(arch)
+case ${normalized_arch} in
+  arm64)
+    normalized_arch=aarch_64
+    ;;
+  i386)
+    normalized_arch=x86_64
+    ;;
+esac
 # The directory where the final binaries will be stored when scripts finish
-dist_dir=${3}
+dist_dir=${3}/${normalized_arch}
 
 echo "=== Clear output directories and leftovers ==="
 # Clear output directories and leftovers
 rm -rf ${build_dir}
 
 echo "=== Building Arrow C++ libraries ==="
-: ${ARROW_BUILD_TESTS:=OFF}
+install_dir=${build_dir}/cpp-install
+: ${ARROW_BUILD_TESTS:=ON}
 : ${ARROW_DATASET:=ON}
-: ${ARROW_FILESYSTEM:=ON}
-: ${ARROW_GANDIVA_JAVA:=ON}
+export ARROW_DATASET
 : ${ARROW_GANDIVA:=ON}
+export ARROW_GANDIVA
 : ${ARROW_ORC:=ON}
+export ARROW_ORC
 : ${ARROW_PARQUET:=ON}
-: ${ARROW_PLASMA_JAVA_CLIENT:=ON}
 : ${ARROW_PLASMA:=ON}
-: ${ARROW_PYTHON:=OFF}
+export ARROW_PLASMA
 : ${ARROW_S3:=ON}
+: ${ARROW_USE_CCACHE:=OFF}
 : ${CMAKE_BUILD_TYPE:=Release}
 : ${CMAKE_UNITY_BUILD:=ON}
 
+if [ "${ARROW_USE_CCACHE}" == "ON" ]; then
+  echo "=== ccache statistics before build ==="
+  ccache -s
+fi
+
 export ARROW_TEST_DATA="${arrow_dir}/testing/data"
 export PARQUET_TEST_DATA="${arrow_dir}/cpp/submodules/parquet-testing/data"
 export AWS_EC2_METADATA_DISABLED=TRUE
@@ -51,37 +67,24 @@ mkdir -p "${build_dir}/cpp"
 pushd "${build_dir}/cpp"
 
 cmake \
-  -DARROW_BOOST_USE_SHARED=OFF \
-  -DARROW_BROTLI_USE_SHARED=OFF \
+  -DARROW_BUILD_SHARED=OFF \
   -DARROW_BUILD_TESTS=${ARROW_BUILD_TESTS} \
-  -DARROW_BUILD_UTILITIES=OFF \
-  -DARROW_BZ2_USE_SHARED=OFF \
+  -DARROW_CSV=${ARROW_DATASET} \
   -DARROW_DATASET=${ARROW_DATASET} \
-  -DARROW_FILESYSTEM=${ARROW_FILESYSTEM} \
+  -DARROW_DEPENDENCY_USE_SHARED=OFF \
   -DARROW_GANDIVA=${ARROW_GANDIVA} \
-  -DARROW_GANDIVA_JAVA=${ARROW_GANDIVA_JAVA} \
   -DARROW_GANDIVA_STATIC_LIBSTDCPP=ON \
-  -DARROW_GFLAGS_USE_SHARED=OFF \
-  -DARROW_GRPC_USE_SHARED=OFF \
-  -DARROW_JNI=ON \
-  -DARROW_LZ4_USE_SHARED=OFF \
-  -DARROW_OPENSSL_USE_SHARED=OFF \
   -DARROW_ORC=${ARROW_ORC} \
   -DARROW_PARQUET=${ARROW_PARQUET} \
   -DARROW_PLASMA=${ARROW_PLASMA} \
-  -DARROW_PLASMA_JAVA_CLIENT=${ARROW_PLASMA_JAVA_CLIENT} \
-  -DARROW_PROTOBUF_USE_SHARED=OFF \
-  -DARROW_PYTHON=${ARROW_PYTHON} \
   -DARROW_S3=${ARROW_S3} \
-  -DARROW_SNAPPY_USE_SHARED=OFF \
-  -DARROW_THRIFT_USE_SHARED=OFF \
-  -DARROW_UTF8PROC_USE_SHARED=OFF \
-  -DARROW_ZSTD_USE_SHARED=OFF \
+  -DARROW_USE_CCACHE=${ARROW_USE_CCACHE} \
   -DAWSSDK_SOURCE=BUNDLED \
   -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_TYPE} \
   -DCMAKE_INSTALL_LIBDIR=lib \
-  -DCMAKE_INSTALL_PREFIX=${build_dir}/cpp \
+  -DCMAKE_INSTALL_PREFIX=${install_dir} \
   -DCMAKE_UNITY_BUILD=${CMAKE_UNITY_BUILD} \
+  -DGTest_SOURCE=BUNDLED \
   -DPARQUET_BUILD_EXAMPLES=OFF \
   -DPARQUET_BUILD_EXECUTABLES=OFF \
   -DPARQUET_REQUIRE_ENCRYPTION=OFF \
@@ -91,7 +94,16 @@ cmake \
 cmake --build . --target install
 
 if [ "${ARROW_BUILD_TESTS}" == "ON" ]; then
-  ctest
+  # MinIO is required
+  exclude_tests="arrow-s3fs-test"
+  # unstable
+  exclude_tests="${exclude_tests}|arrow-compute-hash-join-node-test"
+  ctest \
+    --exclude-regex "${exclude_tests}" \
+    --label-regex unittest \
+    --output-on-failure \
+    --parallel $(sysctl -n hw.ncpu) \
+    --timeout 300
 fi
 
 popd
@@ -99,18 +111,17 @@ popd
 
 ${arrow_dir}/ci/scripts/java_jni_build.sh \
   ${arrow_dir} \
+  ${install_dir} \
   ${build_dir} \
   ${dist_dir}
 
+if [ "${ARROW_USE_CCACHE}" == "ON" ]; then
+  echo "=== ccache statistics after build ==="
+  ccache -s
+fi
 
-echo "=== Copying libraries to the distribution folder ==="
-mkdir -p "${dist_dir}"
-cp -L ${build_dir}/cpp/lib/libgandiva_jni.dylib ${dist_dir}
-cp -L ${build_dir}/cpp/lib/libarrow_dataset_jni.dylib ${dist_dir}
-cp -L ${build_dir}/cpp/lib/libarrow_orc_jni.dylib ${dist_dir}
 
 echo "=== Checking shared dependencies for libraries ==="
-
 pushd ${dist_dir}
 archery linking check-dependencies \
   --allow CoreFoundation \
@@ -122,9 +133,13 @@ archery linking check-dependencies \
   --allow libcurl \
   --allow libgandiva_jni \
   --allow libncurses \
+  --allow libobjc \
+  --allow libplasma_java \
   --allow libz \
+  --allow libzstd \
   libarrow_cdata_jni.dylib \
   libarrow_dataset_jni.dylib \
   libarrow_orc_jni.dylib \
-  libgandiva_jni.dylib
+  libgandiva_jni.dylib \
+  libplasma_java.dylib
 popd
diff --git a/ci/scripts/java_jni_manylinux_aarch64_build.sh b/ci/scripts/java_jni_manylinux_aarch64_build.sh
new file mode 100644
index 00000000000..b5c28f42685
--- /dev/null
+++ b/ci/scripts/java_jni_manylinux_aarch64_build.sh
@@ -0,0 +1,133 @@
+#!/usr/bin/env bash
+
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+set -ex
+
+arrow_dir=${1}
+build_dir=${2}
+# The directory where the final binaries will be stored when scripts finish
+dist_dir=${3}/$(arch)
+
+echo "=== Clear output directories and leftovers ==="
+# Clear output directories and leftovers
+rm -rf ${build_dir}
+
+echo "=== Building Arrow C++ libraries ==="
+devtoolset_version=$(rpm -qa "devtoolset-*-gcc" --queryformat %{VERSION} | \
+                       grep -o "^[0-9]*")
+devtoolset_include_cpp="/opt/rh/devtoolset-${devtoolset_version}/root/usr/include/c++/${devtoolset_version}"
+: ${ARROW_DATASET:=ON}
+: ${ARROW_GANDIVA:=ON}
+: ${ARROW_GANDIVA_JAVA:=ON}
+: ${ARROW_FILESYSTEM:=ON}
+: ${ARROW_JEMALLOC:=ON}
+: ${ARROW_RPATH_ORIGIN:=ON}
+: ${ARROW_ORC:=ON}
+: ${ARROW_PARQUET:=ON}
+: ${ARROW_PLASMA:=ON}
+: ${ARROW_PLASMA_JAVA_CLIENT:=ON}
+: ${ARROW_PYTHON:=OFF}
+: ${ARROW_S3:=ON}
+: ${ARROW_BUILD_TESTS:=OFF}
+: ${CMAKE_BUILD_TYPE:=Release}
+: ${CMAKE_UNITY_BUILD:=ON}
+: ${VCPKG_ROOT:=/opt/vcpkg}
+: ${VCPKG_FEATURE_FLAGS:=-manifests}
+: ${VCPKG_TARGET_TRIPLET:=${VCPKG_DEFAULT_TRIPLET:-x64-linux-static-${CMAKE_BUILD_TYPE}}}
+: ${GANDIVA_CXX_FLAGS:=-isystem;${devtoolset_include_cpp};-isystem;${devtoolset_include_cpp}/aarch64-redhat-linux;-isystem;-lpthread}
+
+export ARROW_TEST_DATA="${arrow_dir}/testing/data"
+export PARQUET_TEST_DATA="${arrow_dir}/cpp/submodules/parquet-testing/data"
+export AWS_EC2_METADATA_DISABLED=TRUE
+
+mkdir -p "${build_dir}/cpp"
+pushd "${build_dir}/cpp"
+
+cmake \
+  -DARROW_BOOST_USE_SHARED=OFF \
+  -DARROW_BROTLI_USE_SHARED=OFF \
+  -DARROW_BUILD_SHARED=ON \
+  -DARROW_BUILD_TESTS=${ARROW_BUILD_TESTS} \
+  -DARROW_BUILD_UTILITIES=OFF \
+  -DARROW_BZ2_USE_SHARED=OFF \
+  -DARROW_DATASET=${ARROW_DATASET} \
+  -DARROW_DEPENDENCY_SOURCE="VCPKG" \
+  -DARROW_FILESYSTEM=${ARROW_FILESYSTEM} \
+  -DARROW_GANDIVA_JAVA=${ARROW_GANDIVA_JAVA} \
+  -DARROW_GANDIVA_PC_CXX_FLAGS=${GANDIVA_CXX_FLAGS} \
+  -DARROW_GANDIVA=${ARROW_GANDIVA} \
+  -DARROW_GRPC_USE_SHARED=OFF \
+  -DARROW_JEMALLOC=${ARROW_JEMALLOC} \
+  -DARROW_JNI=ON \
+  -DARROW_LZ4_USE_SHARED=OFF \
+  -DARROW_OPENSSL_USE_SHARED=OFF \
+  -DARROW_ORC=${ARROW_ORC} \
+  -DARROW_PARQUET=${ARROW_PARQUET} \
+  -DARROW_PLASMA_JAVA_CLIENT=${ARROW_PLASMA_JAVA_CLIENT} \
+  -DARROW_PLASMA=${ARROW_PLASMA} \
+  -DARROW_PROTOBUF_USE_SHARED=OFF \
+  -DARROW_PYTHON=${ARROW_PYTHON} \
+  -DARROW_RPATH_ORIGIN=${ARROW_RPATH_ORIGIN} \
+  -DARROW_S3=${ARROW_S3} \
+  -DARROW_SNAPPY_USE_SHARED=OFF \
+  -DARROW_THRIFT_USE_SHARED=OFF \
+  -DARROW_UTF8PROC_USE_SHARED=OFF \
+  -DARROW_ZSTD_USE_SHARED=OFF \
+  -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_TYPE} \
+  -DCMAKE_INSTALL_LIBDIR=lib \
+  -DCMAKE_INSTALL_PREFIX=${build_dir}/cpp \
+  -DCMAKE_UNITY_BUILD=${CMAKE_UNITY_BUILD} \
+  -DORC_SOURCE=BUNDLED \
+  -DORC_PROTOBUF_EXECUTABLE=${VCPKG_ROOT}/installed/${VCPKG_TARGET_TRIPLET}/tools/protobuf/protoc \
+  -DPARQUET_BUILD_EXAMPLES=OFF \
+  -DPARQUET_BUILD_EXECUTABLES=OFF \
+  -DPARQUET_REQUIRE_ENCRYPTION=OFF \
+  -DPythonInterp_FIND_VERSION_MAJOR=3 \
+  -DPythonInterp_FIND_VERSION=ON \
+  -DVCPKG_MANIFEST_MODE=OFF \
+  -DVCPKG_TARGET_TRIPLET=${VCPKG_TARGET_TRIPLET} \
+  -GNinja \
+  ${arrow_dir}/cpp
+ninja install
+
+if [ $ARROW_BUILD_TESTS = "ON" ]; then
+  ctest \
+    --label-regex unittest \
+    --output-on-failure \
+    --parallel $(nproc) \
+    --timeout 300
+fi
+
+popd
+
+
+JAVA_JNI_CMAKE_ARGS=""
+JAVA_JNI_CMAKE_ARGS="${JAVA_JNI_CMAKE_ARGS} -DVCPKG_MANIFEST_MODE=OFF"
+JAVA_JNI_CMAKE_ARGS="${JAVA_JNI_CMAKE_ARGS} -DVCPKG_TARGET_TRIPLET=${VCPKG_TARGET_TRIPLET}"
+export JAVA_JNI_CMAKE_ARGS
+bash ${arrow_dir}/ci/scripts/java_jni_build.sh \
+  ${arrow_dir} \
+  ${build_dir} \
+  ${dist_dir}
+
+
+echo "=== Copying libraries to the distribution folder ==="
+cp -L ${build_dir}/cpp/lib/libgandiva_jni.so ${dist_dir}
+cp -L ${build_dir}/cpp/lib/libarrow_dataset_jni.so ${dist_dir}
+cp -L ${build_dir}/cpp/lib/libarrow_orc_jni.so ${dist_dir}
diff --git a/ci/scripts/java_jni_manylinux_build.sh b/ci/scripts/java_jni_manylinux_build.sh
index 008f19140ee..051ebe41d0d 100755
--- a/ci/scripts/java_jni_manylinux_build.sh
+++ b/ci/scripts/java_jni_manylinux_build.sh
@@ -22,7 +22,7 @@ set -ex
 arrow_dir=${1}
 build_dir=${2}
 # The directory where the final binaries will be stored when scripts finish
-dist_dir=${3}
+dist_dir=${3}/$(arch)
 
 echo "=== Clear output directories and leftovers ==="
 # Clear output directories and leftovers
@@ -32,26 +32,32 @@ echo "=== Building Arrow C++ libraries ==="
 devtoolset_version=$(rpm -qa "devtoolset-*-gcc" --queryformat %{VERSION} | \
                        grep -o "^[0-9]*")
 devtoolset_include_cpp="/opt/rh/devtoolset-${devtoolset_version}/root/usr/include/c++/${devtoolset_version}"
+: ${ARROW_BUILD_TESTS:=ON}
 : ${ARROW_DATASET:=ON}
+export ARROW_DATASET
 : ${ARROW_GANDIVA:=ON}
-: ${ARROW_GANDIVA_JAVA:=ON}
-: ${ARROW_FILESYSTEM:=ON}
+export ARROW_GANDIVA
 : ${ARROW_JEMALLOC:=ON}
 : ${ARROW_RPATH_ORIGIN:=ON}
 : ${ARROW_ORC:=ON}
+export ARROW_ORC
 : ${ARROW_PARQUET:=ON}
 : ${ARROW_PLASMA:=ON}
-: ${ARROW_PLASMA_JAVA_CLIENT:=ON}
-: ${ARROW_PYTHON:=OFF}
+export ARROW_PLASMA
 : ${ARROW_S3:=ON}
-: ${ARROW_BUILD_TESTS:=OFF}
-: ${CMAKE_BUILD_TYPE:=Release}
+: ${ARROW_USE_CCACHE:=OFF}
+: ${CMAKE_BUILD_TYPE:=release}
 : ${CMAKE_UNITY_BUILD:=ON}
 : ${VCPKG_ROOT:=/opt/vcpkg}
 : ${VCPKG_FEATURE_FLAGS:=-manifests}
 : ${VCPKG_TARGET_TRIPLET:=${VCPKG_DEFAULT_TRIPLET:-x64-linux-static-${CMAKE_BUILD_TYPE}}}
 : ${GANDIVA_CXX_FLAGS:=-isystem;${devtoolset_include_cpp};-isystem;${devtoolset_include_cpp}/x86_64-redhat-linux;-isystem;-lpthread}
 
+if [ "${ARROW_USE_CCACHE}" == "ON" ]; then
+  echo "=== ccache statistics before build ==="
+  ccache -s
+fi
+
 export ARROW_TEST_DATA="${arrow_dir}/testing/data"
 export PARQUET_TEST_DATA="${arrow_dir}/cpp/submodules/parquet-testing/data"
 export AWS_EC2_METADATA_DISABLED=TRUE
@@ -60,54 +66,47 @@ mkdir -p "${build_dir}/cpp"
 pushd "${build_dir}/cpp"
 
 cmake \
-  -DARROW_BOOST_USE_SHARED=OFF \
-  -DARROW_BROTLI_USE_SHARED=OFF \
-  -DARROW_BUILD_SHARED=ON \
-  -DARROW_BUILD_TESTS=${ARROW_BUILD_TESTS} \
-  -DARROW_BUILD_UTILITIES=OFF \
-  -DARROW_BZ2_USE_SHARED=OFF \
+  -DARROW_BUILD_SHARED=OFF \
+  -DARROW_BUILD_TESTS=ON \
+  -DARROW_CSV=${ARROW_DATASET} \
   -DARROW_DATASET=${ARROW_DATASET} \
   -DARROW_DEPENDENCY_SOURCE="VCPKG" \
-  -DARROW_FILESYSTEM=${ARROW_FILESYSTEM} \
-  -DARROW_GANDIVA_JAVA=${ARROW_GANDIVA_JAVA} \
+  -DARROW_DEPENDENCY_USE_SHARED=OFF \
   -DARROW_GANDIVA_PC_CXX_FLAGS=${GANDIVA_CXX_FLAGS} \
   -DARROW_GANDIVA=${ARROW_GANDIVA} \
-  -DARROW_GRPC_USE_SHARED=OFF \
   -DARROW_JEMALLOC=${ARROW_JEMALLOC} \
-  -DARROW_JNI=ON \
-  -DARROW_LZ4_USE_SHARED=OFF \
-  -DARROW_OPENSSL_USE_SHARED=OFF \
   -DARROW_ORC=${ARROW_ORC} \
   -DARROW_PARQUET=${ARROW_PARQUET} \
-  -DARROW_PLASMA_JAVA_CLIENT=${ARROW_PLASMA_JAVA_CLIENT} \
   -DARROW_PLASMA=${ARROW_PLASMA} \
-  -DARROW_PROTOBUF_USE_SHARED=OFF \
-  -DARROW_PYTHON=${ARROW_PYTHON} \
   -DARROW_RPATH_ORIGIN=${ARROW_RPATH_ORIGIN} \
   -DARROW_S3=${ARROW_S3} \
-  -DARROW_SNAPPY_USE_SHARED=OFF \
-  -DARROW_THRIFT_USE_SHARED=OFF \
-  -DARROW_UTF8PROC_USE_SHARED=OFF \
-  -DARROW_ZSTD_USE_SHARED=OFF \
+  -DARROW_USE_CCACHE=${ARROW_USE_CCACHE} \
   -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_TYPE} \
   -DCMAKE_INSTALL_LIBDIR=lib \
-  -DCMAKE_INSTALL_PREFIX=${build_dir}/cpp \
+  -DCMAKE_INSTALL_PREFIX=${ARROW_HOME} \
   -DCMAKE_UNITY_BUILD=${CMAKE_UNITY_BUILD} \
+  -DGTest_SOURCE=BUNDLED \
   -DORC_SOURCE=BUNDLED \
   -DORC_PROTOBUF_EXECUTABLE=${VCPKG_ROOT}/installed/${VCPKG_TARGET_TRIPLET}/tools/protobuf/protoc \
   -DPARQUET_BUILD_EXAMPLES=OFF \
   -DPARQUET_BUILD_EXECUTABLES=OFF \
   -DPARQUET_REQUIRE_ENCRYPTION=OFF \
-  -DPythonInterp_FIND_VERSION_MAJOR=3 \
-  -DPythonInterp_FIND_VERSION=ON \
   -DVCPKG_MANIFEST_MODE=OFF \
   -DVCPKG_TARGET_TRIPLET=${VCPKG_TARGET_TRIPLET} \
   -GNinja \
   ${arrow_dir}/cpp
 ninja install
 
-if [ $ARROW_BUILD_TESTS = "ON" ]; then
+if [ "${ARROW_BUILD_TESTS}" = "ON" ]; then
+  # MinIO is required
+  exclude_tests="arrow-s3fs-test"
+  # unstable
+  exclude_tests="${exclude_tests}|arrow-compute-hash-join-node-test"
+  exclude_tests="${exclude_tests}|arrow-dataset-scanner-test"
+  # strptime
+  exclude_tests="${exclude_tests}|arrow-utility-test"
   ctest \
+    --exclude-regex "${exclude_tests}" \
     --label-regex unittest \
     --output-on-failure \
     --parallel $(nproc) \
@@ -118,22 +117,22 @@ popd
 
 
 JAVA_JNI_CMAKE_ARGS=""
-JAVA_JNI_CMAKE_ARGS="${JAVA_JNI_CMAKE_ARGS} -DVCPKG_MANIFEST_MODE=OFF"
+JAVA_JNI_CMAKE_ARGS="${JAVA_JNI_CMAKE_ARGS} -DCMAKE_TOOLCHAIN_FILE=${VCPKG_ROOT}/scripts/buildsystems/vcpkg.cmake"
 JAVA_JNI_CMAKE_ARGS="${JAVA_JNI_CMAKE_ARGS} -DVCPKG_TARGET_TRIPLET=${VCPKG_TARGET_TRIPLET}"
 export JAVA_JNI_CMAKE_ARGS
 ${arrow_dir}/ci/scripts/java_jni_build.sh \
   ${arrow_dir} \
+  ${ARROW_HOME} \
   ${build_dir} \
   ${dist_dir}
 
+if [ "${ARROW_USE_CCACHE}" == "ON" ]; then
+  echo "=== ccache statistics after build ==="
+  ccache -s
+fi
 
-echo "=== Copying libraries to the distribution folder ==="
-cp -L ${build_dir}/cpp/lib/libgandiva_jni.so ${dist_dir}
-cp -L ${build_dir}/cpp/lib/libarrow_dataset_jni.so ${dist_dir}
-cp -L ${build_dir}/cpp/lib/libarrow_orc_jni.so ${dist_dir}
 
 echo "=== Checking shared dependencies for libraries ==="
-
 pushd ${dist_dir}
 archery linking check-dependencies \
   --allow ld-linux-x86-64 \
@@ -149,5 +148,6 @@ archery linking check-dependencies \
   libarrow_cdata_jni.so \
   libarrow_dataset_jni.so \
   libarrow_orc_jni.so \
-  libgandiva_jni.so
+  libgandiva_jni.so \
+  libplasma_java.so
 popd
diff --git a/ci/scripts/java_jni_windows_build.sh b/ci/scripts/java_jni_windows_build.sh
new file mode 100755
index 00000000000..ce445db578f
--- /dev/null
+++ b/ci/scripts/java_jni_windows_build.sh
@@ -0,0 +1,118 @@
+#!/usr/bin/env bash
+#
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+set -ex
+
+arrow_dir=${1}
+build_dir=${2}
+# The directory where the final binaries will be stored when scripts finish
+dist_dir=${3}/x86_64
+
+echo "=== Clear output directories and leftovers ==="
+# Clear output directories and leftovers
+rm -rf ${build_dir}
+
+echo "=== Building Arrow C++ libraries ==="
+install_dir=${build_dir}/cpp-install
+: ${ARROW_BUILD_TESTS:=ON}
+: ${ARROW_DATASET:=ON}
+export ARROW_DATASET
+: ${ARROW_ORC:=ON}
+export ARROW_ORC
+: ${ARROW_PARQUET:=ON}
+: ${ARROW_S3:=ON}
+: ${ARROW_USE_CCACHE:=OFF}
+: ${CMAKE_BUILD_TYPE:=release}
+: ${CMAKE_UNITY_BUILD:=ON}
+
+if [ "${ARROW_USE_CCACHE}" == "ON" ]; then
+  echo "=== ccache statistics before build ==="
+  ccache -s
+fi
+
+export ARROW_TEST_DATA="${arrow_dir}/testing/data"
+export PARQUET_TEST_DATA="${arrow_dir}/cpp/submodules/parquet-testing/data"
+export AWS_EC2_METADATA_DISABLED=TRUE
+
+mkdir -p "${build_dir}/cpp"
+pushd "${build_dir}/cpp"
+
+cmake \
+  -DARROW_BUILD_SHARED=OFF \
+  -DARROW_BUILD_TESTS=ON \
+  -DARROW_CSV=${ARROW_DATASET} \
+  -DARROW_DATASET=${ARROW_DATASET} \
+  -DARROW_DEPENDENCY_USE_SHARED=OFF \
+  -DARROW_ORC=${ARROW_ORC} \
+  -DARROW_PARQUET=${ARROW_PARQUET} \
+  -DARROW_S3=${ARROW_S3} \
+  -DARROW_USE_CCACHE=${ARROW_USE_CCACHE} \
+  -DARROW_WITH_BROTLI=ON \
+  -DARROW_WITH_LZ4=ON \
+  -DARROW_WITH_SNAPPY=ON \
+  -DARROW_WITH_ZSTD=ON \
+  -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_TYPE} \
+  -DCMAKE_INSTALL_LIBDIR=lib \
+  -DCMAKE_INSTALL_PREFIX=${install_dir} \
+  -DCMAKE_UNITY_BUILD=${CMAKE_UNITY_BUILD} \
+  -GNinja \
+  ${arrow_dir}/cpp
+ninja install
+
+if [ "${ARROW_BUILD_TESTS}" = "ON" ]; then
+  # MinIO is required
+  exclude_tests="arrow-s3fs-test"
+  # unstable
+  exclude_tests="${exclude_tests}|arrow-compute-hash-join-node-test"
+  exclude_tests="${exclude_tests}|arrow-dataset-scanner-test"
+  # strptime
+  exclude_tests="${exclude_tests}|arrow-utility-test"
+  ctest \
+    --exclude-regex "${exclude_tests}" \
+    --label-regex unittest \
+    --output-on-failure \
+    --parallel $(nproc) \
+    --timeout 300
+fi
+
+popd
+
+
+${arrow_dir}/ci/scripts/java_jni_build.sh \
+  ${arrow_dir} \
+  ${install_dir} \
+  ${build_dir} \
+  ${dist_dir}
+
+if [ "${ARROW_USE_CCACHE}" == "ON" ]; then
+  echo "=== ccache statistics after build ==="
+  ccache -s
+fi
+
+
+echo "=== Checking shared dependencies for libraries ==="
+pushd ${dist_dir}
+# TODO
+# archery linking check-dependencies \
+#   --allow libm \
+#   --allow librt \
+#   --allow libz \
+#   libarrow_cdata_jni.dll \
+#   libarrow_dataset_jni.dll \
+popd
diff --git a/ci/scripts/java_test.sh b/ci/scripts/java_test.sh
index 83ef26fdb1a..46577b69625 100755
--- a/ci/scripts/java_test.sh
+++ b/ci/scripts/java_test.sh
@@ -18,9 +18,12 @@
 
 set -ex
 
+if [[ "${ARROW_JAVA_TEST:-ON}" != "ON" ]]; then
+  exit
+fi
+
 arrow_dir=${1}
 source_dir=${1}/java
-cpp_build_dir=${2}/cpp/${ARROW_BUILD_TYPE:-debug}
 java_jni_dist_dir=${3}
 
 # For JNI and Plasma tests
@@ -35,20 +38,36 @@ pushd ${source_dir}
 
 ${mvn} test
 
-if [ "${ARROW_JNI}" = "ON" ]; then
-  ${mvn} test -Parrow-jni -pl adapter/orc,gandiva,dataset -Darrow.cpp.build.dir=${cpp_build_dir}
+projects=()
+if [ "${ARROW_DATASET}" = "ON" ]; then
+  projects+=(gandiva)
+fi
+if [ "${ARROW_GANDIVA}" = "ON" ]; then
+  projects+=(gandiva)
+fi
+if [ "${ARROW_ORC}" = "ON" ]; then
+  projects+=(adapter/orc)
+fi
+if [ "${ARROW_PLASMA}" = "ON" ]; then
+  projects+=(plasma)
 fi
+if [ "${#projects[@]}" -gt 0 ]; then
+  ${mvn} test \
+         -Parrow-jni \
+         -pl $(IFS=,; echo "${projects[*]}") \
+         -Darrow.cpp.build.dir=${java_jni_dist_dir}
 
-if [ "${ARROW_JAVA_CDATA}" = "ON" ]; then
-  ${mvn} test -Parrow-c-data -pl c -Darrow.c.jni.dist.dir=${java_jni_dist_dir}
+  if [ "${ARROW_PLASMA}" = "ON" ]; then
+    pushd ${source_dir}/plasma
+    java -cp target/test-classes:target/classes \
+         -Djava.library.path=${java_jni_dist_dir}/$(arch) \
+         org.apache.arrow.plasma.PlasmaClientTest
+    popd
+  fi
 fi
 
-if [ "${ARROW_PLASMA}" = "ON" ]; then
-  pushd ${source_dir}/plasma
-  java -cp target/test-classes:target/classes \
-       -Djava.library.path=${cpp_build_dir} \
-       org.apache.arrow.plasma.PlasmaClientTest
-  popd
+if [ "${ARROW_JAVA_CDATA}" = "ON" ]; then
+  ${mvn} test -Parrow-c-data -pl c -Darrow.c.jni.dist.dir=${java_jni_dist_dir}
 fi
 
 popd
diff --git a/ci/scripts/msys2_setup.sh b/ci/scripts/msys2_setup.sh
index fba0fa26045..60c77499b9a 100755
--- a/ci/scripts/msys2_setup.sh
+++ b/ci/scripts/msys2_setup.sh
@@ -27,29 +27,31 @@ case "${target}" in
     packages+=(${MINGW_PACKAGE_PREFIX}-aws-sdk-cpp)
     packages+=(${MINGW_PACKAGE_PREFIX}-boost)
     packages+=(${MINGW_PACKAGE_PREFIX}-brotli)
+    packages+=(${MINGW_PACKAGE_PREFIX}-bzip2)
+    packages+=(${MINGW_PACKAGE_PREFIX}-c-ares)
+    packages+=(${MINGW_PACKAGE_PREFIX}-cc)
     packages+=(${MINGW_PACKAGE_PREFIX}-ccache)
     packages+=(${MINGW_PACKAGE_PREFIX}-clang)
     packages+=(${MINGW_PACKAGE_PREFIX}-cmake)
-    packages+=(${MINGW_PACKAGE_PREFIX}-gcc)
+    packages+=(${MINGW_PACKAGE_PREFIX}-double-conversion)
+    packages+=(${MINGW_PACKAGE_PREFIX}-flatbuffers)
     packages+=(${MINGW_PACKAGE_PREFIX}-gflags)
     packages+=(${MINGW_PACKAGE_PREFIX}-grpc)
     packages+=(${MINGW_PACKAGE_PREFIX}-gtest)
     packages+=(${MINGW_PACKAGE_PREFIX}-libutf8proc)
     packages+=(${MINGW_PACKAGE_PREFIX}-libxml2)
     packages+=(${MINGW_PACKAGE_PREFIX}-lz4)
-    packages+=(${MINGW_PACKAGE_PREFIX}-make)
     packages+=(${MINGW_PACKAGE_PREFIX}-ninja)
     packages+=(${MINGW_PACKAGE_PREFIX}-nlohmann-json)
+    packages+=(${MINGW_PACKAGE_PREFIX}-openssl)
     packages+=(${MINGW_PACKAGE_PREFIX}-protobuf)
-    packages+=(${MINGW_PACKAGE_PREFIX}-python-cffi)
-    packages+=(${MINGW_PACKAGE_PREFIX}-python-numpy)
-    packages+=(${MINGW_PACKAGE_PREFIX}-python-pip)
-    packages+=(${MINGW_PACKAGE_PREFIX}-python-wheel)
     packages+=(${MINGW_PACKAGE_PREFIX}-rapidjson)
     packages+=(${MINGW_PACKAGE_PREFIX}-re2)
     packages+=(${MINGW_PACKAGE_PREFIX}-snappy)
+    packages+=(${MINGW_PACKAGE_PREFIX}-sqlite3)
     packages+=(${MINGW_PACKAGE_PREFIX}-thrift)
     packages+=(${MINGW_PACKAGE_PREFIX}-xsimd)
+    packages+=(${MINGW_PACKAGE_PREFIX}-uriparser)
     packages+=(${MINGW_PACKAGE_PREFIX}-zlib)
     packages+=(${MINGW_PACKAGE_PREFIX}-zstd)
   ;;
diff --git a/ci/scripts/python_test.sh b/ci/scripts/python_test.sh
index 4e2990b84d6..2d5bd5dd9ff 100755
--- a/ci/scripts/python_test.sh
+++ b/ci/scripts/python_test.sh
@@ -20,11 +20,13 @@
 set -ex
 
 arrow_dir=${1}
+test_dir=${1}/python/build/dist
 
 export ARROW_SOURCE_DIR=${arrow_dir}
 export ARROW_TEST_DATA=${arrow_dir}/testing/data
 export PARQUET_TEST_DATA=${arrow_dir}/cpp/submodules/parquet-testing/data
 export LD_LIBRARY_PATH=${ARROW_HOME}/lib:${LD_LIBRARY_PATH}
+export DYLD_LIBRARY_PATH=${ARROW_HOME}/lib:${DYLD_LIBRARY_PATH:+:${DYLD_LIBRARY_PATH}}
 export ARROW_GDB_SCRIPT=${arrow_dir}/cpp/gdb_arrow.py
 
 # Enable some checks inside Python itself
@@ -54,4 +56,5 @@ export PYARROW_TEST_ORC
 export PYARROW_TEST_PARQUET
 export PYARROW_TEST_S3
 
-pytest -r s -v ${PYTEST_ARGS} --pyargs pyarrow
+# Testing PyArrow
+pytest -r s ${PYTEST_ARGS} --pyargs pyarrow
diff --git a/ci/scripts/python_wheel_macos_build.sh b/ci/scripts/python_wheel_macos_build.sh
index a6e763b6523..7c7ef7745c0 100755
--- a/ci/scripts/python_wheel_macos_build.sh
+++ b/ci/scripts/python_wheel_macos_build.sh
@@ -34,15 +34,13 @@ rm -rf ${source_dir}/python/pyarrow/*.so.*
 
 echo "=== (${PYTHON_VERSION}) Set SDK, C++ and Wheel flags ==="
 export _PYTHON_HOST_PLATFORM="macosx-${MACOSX_DEPLOYMENT_TARGET}-${arch}"
-export MACOSX_DEPLOYMENT_TARGET=${MACOSX_DEPLOYMENT_TARGET:-10.9}
+export MACOSX_DEPLOYMENT_TARGET=${MACOSX_DEPLOYMENT_TARGET:-10.14}
 export SDKROOT=${SDKROOT:-$(xcrun --sdk macosx --show-sdk-path)}
 
 if [ $arch = "arm64" ]; then
   export CMAKE_OSX_ARCHITECTURES="arm64"
 elif [ $arch = "x86_64" ]; then
   export CMAKE_OSX_ARCHITECTURES="x86_64"
-elif [ $arch = "universal2" ]; then
-  export CMAKE_OSX_ARCHITECTURES="x86_64;arm64"
 else
   echo "Unexpected architecture: $arch"
   exit 1
@@ -58,7 +56,7 @@ pip install \
   --target $PIP_SITE_PACKAGES \
   --platform $PIP_TARGET_PLATFORM \
   -r ${source_dir}/python/requirements-wheel-build.txt
-pip install "delocate>=0.9"
+pip install "delocate>=0.10.3"
 
 echo "=== (${PYTHON_VERSION}) Building Arrow C++ libraries ==="
 : ${ARROW_DATASET:=ON}
@@ -96,25 +94,27 @@ cmake \
     -DARROW_BUILD_SHARED=ON \
     -DARROW_BUILD_STATIC=OFF \
     -DARROW_BUILD_TESTS=OFF \
+    -DARROW_COMPUTE=ON \
+    -DARROW_CSV=ON \
     -DARROW_DATASET=${ARROW_DATASET} \
     -DARROW_DEPENDENCY_SOURCE="VCPKG" \
     -DARROW_DEPENDENCY_USE_SHARED=OFF \
+    -DARROW_FILESYSTEM=ON \
     -DARROW_FLIGHT=${ARROW_FLIGHT} \
     -DARROW_GANDIVA=${ARROW_GANDIVA} \
     -DARROW_GCS=${ARROW_GCS} \
     -DARROW_HDFS=${ARROW_HDFS} \
     -DARROW_JEMALLOC=${ARROW_JEMALLOC} \
+    -DARROW_JSON=ON \
     -DARROW_MIMALLOC=${ARROW_MIMALLOC} \
     -DARROW_ORC=${ARROW_ORC} \
     -DARROW_PACKAGE_KIND="python-wheel-macos" \
     -DARROW_PARQUET=${ARROW_PARQUET} \
-    -DPARQUET_REQUIRE_ENCRYPTION=${PARQUET_REQUIRE_ENCRYPTION} \
     -DARROW_PLASMA=${ARROW_PLASMA} \
-    -DARROW_PYTHON=ON \
     -DARROW_RPATH_ORIGIN=ON \
-    -DARROW_SUBSTRAIT=${ARROW_SUBSTRAIT} \
     -DARROW_S3=${ARROW_S3} \
     -DARROW_SIMD_LEVEL=${ARROW_SIMD_LEVEL} \
+    -DARROW_SUBSTRAIT=${ARROW_SUBSTRAIT} \
     -DARROW_TENSORFLOW=${ARROW_TENSORFLOW} \
     -DARROW_USE_CCACHE=ON \
     -DARROW_WITH_BROTLI=${ARROW_WITH_BROTLI} \
@@ -129,9 +129,9 @@ cmake \
     -DCMAKE_INSTALL_PREFIX=${build_dir}/install \
     -DCMAKE_OSX_ARCHITECTURES=${CMAKE_OSX_ARCHITECTURES} \
     -DCMAKE_UNITY_BUILD=${CMAKE_UNITY_BUILD} \
-    -DOPENSSL_USE_STATIC_LIBS=ON \
     -DORC_PROTOBUF_EXECUTABLE=${VCPKG_ROOT}/installed/${VCPKG_TARGET_TRIPLET}/tools/protobuf/protoc \
     -DORC_SOURCE=BUNDLED \
+    -DPARQUET_REQUIRE_ENCRYPTION=${PARQUET_REQUIRE_ENCRYPTION} \
     -DVCPKG_MANIFEST_MODE=OFF \
     -DVCPKG_TARGET_TRIPLET=${VCPKG_TARGET_TRIPLET} \
     -G ${CMAKE_GENERATOR} \
@@ -156,8 +156,9 @@ export PYARROW_WITH_PLASMA=${ARROW_PLASMA}
 export PYARROW_WITH_SUBSTRAIT=${ARROW_SUBSTRAIT}
 export PYARROW_WITH_S3=${ARROW_S3}
 export PYARROW_CMAKE_OPTIONS="-DCMAKE_OSX_ARCHITECTURES=${CMAKE_OSX_ARCHITECTURES} -DARROW_SIMD_LEVEL=${ARROW_SIMD_LEVEL}"
+export ARROW_HOME=${build_dir}/install
 # PyArrow build configuration
-export PKG_CONFIG_PATH=/usr/lib/pkgconfig:${build_dir}/install/lib/pkgconfig
+export CMAKE_PREFIX_PATH=${build_dir}/install
 # Set PyArrow version explicitly
 export SETUPTOOLS_SCM_PRETEND_VERSION=${PYARROW_VERSION}
 
diff --git a/ci/scripts/python_wheel_manylinux_build.sh b/ci/scripts/python_wheel_manylinux_build.sh
index af17606199e..2aea55ed70f 100755
--- a/ci/scripts/python_wheel_manylinux_build.sh
+++ b/ci/scripts/python_wheel_manylinux_build.sh
@@ -85,45 +85,49 @@ fi
 mkdir /tmp/arrow-build
 pushd /tmp/arrow-build
 
+# ARROW-17501: We can remove -DAWSSDK_SOURCE=BUNDLED once
+# https://github.com/aws/aws-sdk-cpp/issues/1809 is fixed and vcpkg
+# ships the fix.
 cmake \
-    -DARROW_BROTLI_USE_SHARED=OFF \
     -DARROW_BUILD_SHARED=ON \
     -DARROW_BUILD_STATIC=OFF \
     -DARROW_BUILD_TESTS=OFF \
+    -DARROW_COMPUTE=ON \
+    -DARROW_CSV=ON \
     -DARROW_DATASET=${ARROW_DATASET} \
     -DARROW_DEPENDENCY_SOURCE="VCPKG" \
     -DARROW_DEPENDENCY_USE_SHARED=OFF \
+    -DARROW_FILESYSTEM=ON \
     -DARROW_FLIGHT=${ARROW_FLIGHT} \
     -DARROW_GANDIVA=${ARROW_GANDIVA} \
     -DARROW_GCS=${ARROW_GCS} \
     -DARROW_HDFS=${ARROW_HDFS} \
     -DARROW_JEMALLOC=${ARROW_JEMALLOC} \
+    -DARROW_JSON=ON \
     -DARROW_MIMALLOC=${ARROW_MIMALLOC} \
     -DARROW_ORC=${ARROW_ORC} \
     -DARROW_PACKAGE_KIND="python-wheel-manylinux${MANYLINUX_VERSION}" \
     -DARROW_PARQUET=${ARROW_PARQUET} \
-    -DPARQUET_REQUIRE_ENCRYPTION=${PARQUET_REQUIRE_ENCRYPTION} \
     -DARROW_PLASMA=${ARROW_PLASMA} \
-    -DARROW_PYTHON=ON \
     -DARROW_RPATH_ORIGIN=ON \
-    -DARROW_SUBSTRAIT=${ARROW_SUBSTRAIT} \
     -DARROW_S3=${ARROW_S3} \
+    -DARROW_SUBSTRAIT=${ARROW_SUBSTRAIT} \
     -DARROW_TENSORFLOW=${ARROW_TENSORFLOW} \
     -DARROW_USE_CCACHE=ON \
-    -DARROW_UTF8PROC_USE_SHARED=OFF \
     -DARROW_WITH_BROTLI=${ARROW_WITH_BROTLI} \
     -DARROW_WITH_BZ2=${ARROW_WITH_BZ2} \
     -DARROW_WITH_LZ4=${ARROW_WITH_LZ4} \
     -DARROW_WITH_SNAPPY=${ARROW_WITH_SNAPPY} \
     -DARROW_WITH_ZLIB=${ARROW_WITH_ZLIB} \
     -DARROW_WITH_ZSTD=${ARROW_WITH_ZSTD} \
+    -DAWSSDK_SOURCE=BUNDLED \
     -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_TYPE} \
     -DCMAKE_INSTALL_LIBDIR=lib \
     -DCMAKE_INSTALL_PREFIX=/tmp/arrow-dist \
     -DCMAKE_UNITY_BUILD=${CMAKE_UNITY_BUILD} \
-    -DOPENSSL_USE_STATIC_LIBS=ON \
     -DORC_PROTOBUF_EXECUTABLE=${VCPKG_ROOT}/installed/${VCPKG_TARGET_TRIPLET}/tools/protobuf/protoc \
     -DORC_SOURCE=BUNDLED \
+    -DPARQUET_REQUIRE_ENCRYPTION=${PARQUET_REQUIRE_ENCRYPTION} \
     -DVCPKG_MANIFEST_MODE=OFF \
     -DVCPKG_TARGET_TRIPLET=${VCPKG_TARGET_TRIPLET} \
     ${ARROW_EXTRA_CMAKE_FLAGS} \
@@ -151,8 +155,9 @@ export PYARROW_WITH_PARQUET_ENCRYPTION=${PARQUET_REQUIRE_ENCRYPTION}
 export PYARROW_WITH_PLASMA=${ARROW_PLASMA}
 export PYARROW_WITH_SUBSTRAIT=${ARROW_SUBSTRAIT}
 export PYARROW_WITH_S3=${ARROW_S3}
+export ARROW_HOME=/tmp/arrow-dist
 # PyArrow build configuration
-export PKG_CONFIG_PATH=/usr/lib/pkgconfig:/tmp/arrow-dist/lib/pkgconfig
+export CMAKE_PREFIX_PATH=/tmp/arrow-dist
 
 pushd /arrow/python
 python setup.py bdist_wheel
diff --git a/ci/scripts/python_wheel_windows_build.bat b/ci/scripts/python_wheel_windows_build.bat
index fb776185a5f..d137cd8a985 100644
--- a/ci/scripts/python_wheel_windows_build.bat
+++ b/ci/scripts/python_wheel_windows_build.bat
@@ -62,21 +62,23 @@ cmake ^
     -DARROW_BUILD_SHARED=ON ^
     -DARROW_BUILD_STATIC=OFF ^
     -DARROW_BUILD_TESTS=OFF ^
+    -DARROW_COMPUTE=ON ^
+    -DARROW_CSV=ON ^
     -DARROW_CXXFLAGS="/MP" ^
     -DARROW_DATASET=%ARROW_DATASET% ^
     -DARROW_DEPENDENCY_SOURCE=VCPKG ^
     -DARROW_DEPENDENCY_USE_SHARED=OFF ^
+    -DARROW_FILESYSTEM=ON ^
     -DARROW_FLIGHT=%ARROW_FLIGHT% ^
     -DARROW_GANDIVA=%ARROW_GANDIVA% ^
     -DARROW_HDFS=%ARROW_HDFS% ^
+    -DARROW_JSON=ON ^
     -DARROW_MIMALLOC=%ARROW_MIMALLOC% ^
     -DARROW_ORC=%ARROW_ORC% ^
     -DARROW_PACKAGE_KIND="python-wheel-windows" ^
     -DARROW_PARQUET=%ARROW_PARQUET% ^
-    -DPARQUET_REQUIRE_ENCRYPTION=%PARQUET_REQUIRE_ENCRYPTION% ^
-    -DARROW_PYTHON=ON ^
-    -DARROW_SUBSTRAIT=%ARROW_SUBSTRAIT% ^
     -DARROW_S3=%ARROW_S3% ^
+    -DARROW_SUBSTRAIT=%ARROW_SUBSTRAIT% ^
     -DARROW_TENSORFLOW=%ARROW_TENSORFLOW% ^
     -DARROW_WITH_BROTLI=%ARROW_WITH_BROTLI% ^
     -DARROW_WITH_BZ2=%ARROW_WITH_BZ2% ^
@@ -90,6 +92,7 @@ cmake ^
     -DCMAKE_INSTALL_PREFIX=C:\arrow-dist ^
     -DCMAKE_UNITY_BUILD=%CMAKE_UNITY_BUILD% ^
     -DMSVC_LINK_VERBOSE=ON ^
+    -DPARQUET_REQUIRE_ENCRYPTION=%PARQUET_REQUIRE_ENCRYPTION% ^
     -DVCPKG_MANIFEST_MODE=OFF ^
     -DVCPKG_TARGET_TRIPLET=%VCGPK_TARGET_TRIPLET% ^
     -G "%CMAKE_GENERATOR%" ^
@@ -113,6 +116,7 @@ set PYARROW_WITH_PARQUET_ENCRYPTION=%PARQUET_REQUIRE_ENCRYPTION%
 set PYARROW_WITH_SUBSTRAIT=%ARROW_SUBSTRAIT%
 set PYARROW_WITH_S3=%ARROW_S3%
 set ARROW_HOME=C:\arrow-dist
+set CMAKE_PREFIX_PATH=C:\arrow-dist
 
 pushd C:\arrow\python
 @REM bundle the msvc runtime
diff --git a/ci/scripts/python_wheel_windows_test.bat b/ci/scripts/python_wheel_windows_test.bat
index 2b7aad3abe9..2abf8ca50fe 100755
--- a/ci/scripts/python_wheel_windows_test.bat
+++ b/ci/scripts/python_wheel_windows_test.bat
@@ -17,7 +17,7 @@
 
 @echo on
 
-set PYARROW_TEST_CYTHON=OFF
+set PYARROW_TEST_CYTHON=ON
 set PYARROW_TEST_DATASET=ON
 set PYARROW_TEST_FLIGHT=ON
 set PYARROW_TEST_GANDIVA=OFF
diff --git a/ci/scripts/r_docker_configure.sh b/ci/scripts/r_docker_configure.sh
index 2bc5a4806f5..1cbd5f0b5ea 100755
--- a/ci/scripts/r_docker_configure.sh
+++ b/ci/scripts/r_docker_configure.sh
@@ -57,7 +57,7 @@ if [ ${R_CUSTOM_CCACHE} = "true" ]; then
 CCACHE=ccache
 CC=\$(CCACHE) gcc\$(VER)
 CXX=\$(CCACHE) g++\$(VER)
-CXX11=\$(CCACHE) g++\$(VER)" >> ~/.R/Makevars
+CXX17=\$(CCACHE) g++\$(VER)" >> ~/.R/Makevars
 
   mkdir -p ~/.ccache/
   echo "max_size = 5.0G
@@ -67,52 +67,32 @@ sloppiness = include_file_ctime
 hash_dir = false" >> ~/.ccache/ccache.conf
 fi
 
-
-# Special hacking to try to reproduce quirks on fedora-clang-devel on CRAN
-# which uses a bespoke clang compiled to use libc++
-# https://www.stats.ox.ac.uk/pub/bdr/Rconfig/r-devel-linux-x86_64-fedora-clang
-if [ "$RHUB_PLATFORM" = "linux-x86_64-fedora-clang" ]; then
-  dnf install -y libcxx-devel
-  sed -i.bak -E -e 's/(CXX1?1? =.*)/\1 -stdlib=libc++/g' $(${R_BIN} RHOME)/etc/Makeconf
-  rm -rf $(${R_BIN} RHOME)/etc/Makeconf.bak
-
-  sed -i.bak -E -e 's/(\-std=gnu\+\+)/-std=c++/g' $(${R_BIN} RHOME)/etc/Makeconf
-  rm -rf $(${R_BIN} RHOME)/etc/Makeconf.bak
-
-  sed -i.bak -E -e 's/(CXXFLAGS = )(.*)/\1 -g -O3 -Wall -pedantic -frtti -fPIC/' $(${R_BIN} RHOME)/etc/Makeconf
-  rm -rf $(${R_BIN} RHOME)/etc/Makeconf.bak
-
-  sed -i.bak -E -e 's/(LDFLAGS =.*)/\1 -stdlib=libc++/g' $(${R_BIN} RHOME)/etc/Makeconf
-  rm -rf $(${R_BIN} RHOME)/etc/Makeconf.bak
-fi
-
 # Special hacking to try to reproduce quirks on centos using non-default build
 # tooling.
-if [[ "$DEVTOOLSET_VERSION" -gt 0 ]]; then
+if [[ -n "$DEVTOOLSET_VERSION" ]]; then
   $PACKAGE_MANAGER install -y centos-release-scl
   $PACKAGE_MANAGER install -y "devtoolset-$DEVTOOLSET_VERSION"
-fi
-
-if [ "$ARROW_S3" == "ON" ] || [ "$ARROW_GCS" == "ON" ] || [ "$ARROW_R_DEV" == "TRUE" ]; then
-  # Install curl and openssl for S3/GCS support
-  if [ "$PACKAGE_MANAGER" = "apt-get" ]; then
-    apt-get install -y libcurl4-openssl-dev libssl-dev
-  else
-    $PACKAGE_MANAGER install -y libcurl-devel openssl-devel
-  fi
 
-  # The Dockerfile should have put this file here
-  if [ -f "${ARROW_SOURCE_HOME}/ci/scripts/install_minio.sh" ] && [ "`which wget`" ]; then
-    ${ARROW_SOURCE_HOME}/ci/scripts/install_minio.sh latest /usr/local
+  # Enable devtoolset here so that `which gcc` finds the right compiler below
+  source /opt/rh/devtoolset-${DEVTOOLSET_VERSION}/enable
+
+  # Build images which require the devtoolset don't have CXX17 variables
+  # set as the system compiler doesn't support C++17
+  if [ ! "`{R_BIN} CMD config CXX17`" ]; then
+    mkdir -p ~/.R
+    echo "CC = $(which gcc) -fPIC" >> ~/.R/Makevars
+    echo "CXX17 = $(which g++) -fPIC" >> ~/.R/Makevars
+    echo "CXX17STD = -std=c++17" >> ~/.R/Makevars
+    echo "CXX17FLAGS = ${CXX11FLAGS}" >> ~/.R/Makevars
   fi
+fi
 
-  if [ -f "${ARROW_SOURCE_HOME}/ci/scripts/install_gcs_testbench.sh" ] && [ "`which pip`" ]; then
-    ${ARROW_SOURCE_HOME}/ci/scripts/install_gcs_testbench.sh default
-  fi
+if [ -f "${ARROW_SOURCE_HOME}/ci/scripts/r_install_system_dependencies.sh" ]; then
+  "${ARROW_SOURCE_HOME}/ci/scripts/r_install_system_dependencies.sh"
 fi
 
-# Install rsync for bundling cpp source
-$PACKAGE_MANAGER install -y rsync
+# Install rsync for bundling cpp source and curl to make sure it is installed on all images
+$PACKAGE_MANAGER install -y rsync curl
 
 # Workaround for html help install failure; see https://github.com/r-lib/devtools/issues/2084#issuecomment-530912786
 Rscript -e 'x <- file.path(R.home("doc"), "html"); if (!file.exists(x)) {dir.create(x, recursive=TRUE); file.copy(system.file("html/R.css", package="stats"), x)}'
diff --git a/ci/scripts/r_install_system_dependencies.sh b/ci/scripts/r_install_system_dependencies.sh
new file mode 100755
index 00000000000..d824c3e81ed
--- /dev/null
+++ b/ci/scripts/r_install_system_dependencies.sh
@@ -0,0 +1,69 @@
+#!/usr/bin/env bash
+#
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+set -ex
+
+: ${ARROW_SOURCE_HOME:=/arrow}
+
+if [ "$ARROW_S3" == "ON" ] || [ "$ARROW_GCS" == "ON" ] || [ "$ARROW_R_DEV" == "TRUE" ]; then
+  # Figure out what package manager we have
+  if [ "`which dnf`" ]; then
+    PACKAGE_MANAGER=dnf
+  elif [ "`which yum`" ]; then
+    PACKAGE_MANAGER=yum
+  elif [ "`which zypper`" ]; then
+    PACKAGE_MANAGER=zypper
+  else
+    PACKAGE_MANAGER=apt-get
+    apt-get update
+  fi
+
+  # Install curl and OpenSSL for S3/GCS support
+  case "$PACKAGE_MANAGER" in
+    apt-get)
+      apt-get install -y libcurl4-openssl-dev libssl-dev
+      ;;
+    *)
+      $PACKAGE_MANAGER install -y libcurl-devel openssl-devel
+      ;;
+  esac
+
+  # The Dockerfile should have put this file here
+  if [ "$ARROW_S3" == "ON" ] && [ -f "${ARROW_SOURCE_HOME}/ci/scripts/install_minio.sh" ] && [ "`which wget`" ]; then
+    "${ARROW_SOURCE_HOME}/ci/scripts/install_minio.sh" latest /usr/local
+  fi
+
+  if [ "$ARROW_GCS" == "ON" ] && [ -f "${ARROW_SOURCE_HOME}/ci/scripts/install_gcs_testbench.sh" ]; then
+    case "$PACKAGE_MANAGER" in
+      zypper)
+        # python3 is Python 3.6 on OpenSUSE 15.3.
+        # PyArrow supports Python 3.7 or later.
+        $PACKAGE_MANAGER install -y python39-pip
+        ln -s /usr/bin/python3.9 /usr/local/bin/python
+        ln -s /usr/bin/pip3.9 /usr/local/bin/pip
+        ;;
+      *)
+        $PACKAGE_MANAGER install -y python3-pip
+        ln -s /usr/bin/python3 /usr/local/bin/python
+        ln -s /usr/bin/pip3 /usr/local/bin/pip
+        ;;
+    esac
+    "${ARROW_SOURCE_HOME}/ci/scripts/install_gcs_testbench.sh" default
+  fi
+fi
diff --git a/ci/scripts/r_revdepcheck.sh b/ci/scripts/r_revdepcheck.sh
index b0a2bab64e3..f7527aed89c 100755
--- a/ci/scripts/r_revdepcheck.sh
+++ b/ci/scripts/r_revdepcheck.sh
@@ -19,11 +19,45 @@
 set -ex
 
 : ${R_BIN:=R}
-
+# When revdep runs with > 1 worker the checks for {targets} time out for 
+# some reason. 
+: ${ARROW_REVDEP_WORKERS:=1}
+# But we do want to use all cores while building arrow to speed up the 
+# installation so this is used to set MAKEFLAGS
+: ${N_JOBS:=$(nproc)}
 source_dir=${1}/r
 
 # cpp building dependencies
-apt install -y cmake
+# TODO(assignUser) consolidate cpp system reqs across docker files
+apt update -y -q && \
+apt install -y \
+  cmake \
+  libbrotli-dev \
+  libbz2-dev \
+  libc-ares-dev \
+  libcurl4-openssl-dev \
+  libgflags-dev \
+  libgoogle-glog-dev \
+  liblz4-dev \
+  libprotobuf-dev \
+  libprotoc-dev \
+  libradospp-dev \
+  libre2-dev \
+  libsnappy-dev \
+  libssl-dev \
+  libthrift-dev \
+  libutf8proc-dev \
+  libzstd-dev \
+  nlohmann-json3-dev \
+  pkg-config \
+  protobuf-compiler \
+  python3-dev \
+  python3-pip \
+  python3-rados \
+  rados-objclass-dev \
+  rapidjson-dev \
+  tzdata \
+  wget
 
 # system dependencies needed for arrow's reverse dependencies
 apt install -y libxml2-dev \
@@ -42,16 +76,27 @@ apt install -y libxml2-dev \
   libgeos-dev \
   libproj-dev
 
-pushd ${source_dir}
+
+# We have to be in source_dir so that cpp source detection works
+pushd $source_dir
 
 printenv
 
+# copy over cpp source
+make sync-cpp
+
 # By default, aws-sdk tries to contact a non-existing local ip host
 # to retrieve metadata. Disable this so that S3FileSystem tests run faster.
 export AWS_EC2_METADATA_DISABLED=TRUE
 
 # Set crancache dir so we can cache it
-export CRANCACHE_DIR="/arrow/.crancache"
+export CRANCACHE_DIR="${1}/.crancache"
+
+# One of the revdeps/system reqs creates an incomplete boost install 
+# in the cmake search path which breaks our build, so we don't use system boost 
+export EXTRA_CMAKE_FLAGS='-DBoost_SOURCE=BUNDLED'
+
+export MAKEFLAGS=-j$N_JOBS
 
 SCRIPT="
     # We can't use RSPM binaries because we need source packages
@@ -65,13 +110,12 @@ SCRIPT="
     revdepcheck::revdep_check(
     quiet = FALSE,
     timeout = as.difftime(120, units = 'mins'),
-    num_workers = 1,
+    num_workers = $ARROW_REVDEP_WORKERS,
     env = c(
         ARROW_R_DEV = '$ARROW_R_DEV',
-        LIBARROW_DOWNLOAD = TRUE,
-        LIBARROW_MINIMAL = FALSE,
         revdepcheck::revdep_env_vars()
     ))
+
     revdepcheck::revdep_report(all = TRUE)
 
     # Go through the summary and fail if any of the statuses include -
diff --git a/ci/scripts/r_test.sh b/ci/scripts/r_test.sh
index 0328df2384b..d7df44e2e43 100755
--- a/ci/scripts/r_test.sh
+++ b/ci/scripts/r_test.sh
@@ -27,7 +27,7 @@ pushd ${source_dir}
 printenv
 
 # Run the nixlibs.R test suite, which is not included in the installed package
- ${R_BIN} -e 'setwd("tools"); testthat::test_dir(".")'
+${R_BIN} -e 'setwd("tools"); testthat::test_dir(".")'
 
 # Before release, we always copy the relevant parts of the cpp source into the
 # package. In some CI checks, we will use this version of the source:
@@ -77,11 +77,6 @@ export ARROW_DEBUG_MEMORY_POOL=trap
 export TEXMFCONFIG=/tmp/texmf-config
 export TEXMFVAR=/tmp/texmf-var
 
-if [[ "$DEVTOOLSET_VERSION" -gt 0 ]]; then
-  # enable the devtoolset version to use it
-  source /opt/rh/devtoolset-$DEVTOOLSET_VERSION/enable
-fi
-
 # Make sure we aren't writing to the home dir (CRAN _hates_ this but there is no official check)
 BEFORE=$(ls -alh ~/)
 
@@ -92,14 +87,6 @@ SCRIPT="as_cran <- !identical(tolower(Sys.getenv('NOT_CRAN')), 'true')
   } else {
     args <- c('--no-manual', '--ignore-vignettes')
     build_args <- '--no-build-vignettes'
-
-    if (nzchar(Sys.which('minio'))) {
-      message('Running minio for S3 tests (if build supports them)')
-      minio_dir <- tempfile()
-      dir.create(minio_dir)
-      pid_minio <- sys::exec_background('minio', c('server', minio_dir))
-      on.exit(tools::pskill(pid_minio), add = TRUE)
-    }
   }
 
   if (requireNamespace('reticulate', quietly = TRUE) && reticulate::py_module_available('pyarrow')) {
diff --git a/ci/scripts/r_windows_build.sh b/ci/scripts/r_windows_build.sh
index c361af1d267..c9395eb243f 100755
--- a/ci/scripts/r_windows_build.sh
+++ b/ci/scripts/r_windows_build.sh
@@ -23,26 +23,15 @@ set -ex
 # Make sure it is absolute and exported
 export ARROW_HOME="$(cd "${ARROW_HOME}" && pwd)"
 
-if [ "$RTOOLS_VERSION" = "35" ]; then
-  # Use rtools-backports if building with rtools35
-  curl https://raw.githubusercontent.com/r-windows/rtools-backports/master/pacman.conf > /etc/pacman.conf
-  pacman --noconfirm -Syy
-  # lib-4.9.3 is for libraries compiled with gcc 4.9 (Rtools 3.5)
-  RWINLIB_LIB_DIR="lib-4.9.3"
-  # This is the default (will build for each arch) but we can set up CI to
-  # do these in parallel
-  : ${MINGW_ARCH:="mingw32 mingw64"}
-else
-  # Uncomment L38-41 if you're testing a new rtools dependency that hasn't yet sync'd to CRAN
-  # curl https://raw.githubusercontent.com/r-windows/rtools-packages/master/pacman.conf > /etc/pacman.conf
-  # curl -OSsl "http://repo.msys2.org/msys/x86_64/msys2-keyring-r21.b39fb11-1-any.pkg.tar.xz"
-  # pacman -U --noconfirm msys2-keyring-r21.b39fb11-1-any.pkg.tar.xz && rm msys2-keyring-r21.b39fb11-1-any.pkg.tar.xz
-  # pacman --noconfirm -Scc
-
-  pacman --noconfirm -Syy
-  RWINLIB_LIB_DIR="lib"
-  : ${MINGW_ARCH:="mingw32 mingw64 ucrt64"}
-fi
+# Uncomment L38-41 if you're testing a new rtools dependency that hasn't yet sync'd to CRAN
+# curl https://raw.githubusercontent.com/r-windows/rtools-packages/master/pacman.conf > /etc/pacman.conf
+# curl -OSsl "http://repo.msys2.org/msys/x86_64/msys2-keyring-r21.b39fb11-1-any.pkg.tar.xz"
+# pacman -U --noconfirm msys2-keyring-r21.b39fb11-1-any.pkg.tar.xz && rm msys2-keyring-r21.b39fb11-1-any.pkg.tar.xz
+# pacman --noconfirm -Scc
+
+pacman --noconfirm -Syy
+RWINLIB_LIB_DIR="lib"
+: ${MINGW_ARCH:="mingw32 mingw64 ucrt64"}
 
 export MINGW_ARCH
 
@@ -78,26 +67,19 @@ fi
 if [ -d mingw64/lib/ ]; then
   ls $MSYS_LIB_DIR/mingw64/lib/
   # Make the rest of the directory structure
-  # lib-4.9.3 is for libraries compiled with gcc 4.9 (Rtools 3.5)
-  mkdir -p $DST_DIR/${RWINLIB_LIB_DIR}/x64
-  # lib is for the new gcc 8 toolchain (Rtools 4.0)
   mkdir -p $DST_DIR/lib/x64
   # Move the 64-bit versions of libarrow into the expected location
-  mv mingw64/lib/*.a $DST_DIR/${RWINLIB_LIB_DIR}/x64
-  # These may be from https://dl.bintray.com/rtools/backports/
-  cp $MSYS_LIB_DIR/mingw64/lib/lib{thrift,snappy}.a $DST_DIR/${RWINLIB_LIB_DIR}/x64
+  mv mingw64/lib/*.a $DST_DIR/lib/x64
   # These are from https://dl.bintray.com/rtools/mingw{32,64}/
-  cp $MSYS_LIB_DIR/mingw64/lib/lib{zstd,lz4,brotli*,bz2,crypto,curl,ss*,utf8proc,re2,aws*}.a $DST_DIR/lib/x64
+  cp $MSYS_LIB_DIR/mingw64/lib/lib{thrift,snappy,zstd,lz4,brotli*,bz2,crypto,curl,ss*,utf8proc,re2,aws*,nghttp2}.a $DST_DIR/lib/x64
 fi
 
 # Same for the 32-bit versions
 if [ -d mingw32/lib/ ]; then
   ls $MSYS_LIB_DIR/mingw32/lib/
-  mkdir -p $DST_DIR/${RWINLIB_LIB_DIR}/i386
   mkdir -p $DST_DIR/lib/i386
-  mv mingw32/lib/*.a $DST_DIR/${RWINLIB_LIB_DIR}/i386
-  cp $MSYS_LIB_DIR/mingw32/lib/lib{thrift,snappy}.a $DST_DIR/${RWINLIB_LIB_DIR}/i386
-  cp $MSYS_LIB_DIR/mingw32/lib/lib{zstd,lz4,brotli*,bz2,crypto,curl,ss*,utf8proc,re2,aws*}.a $DST_DIR/lib/i386
+  mv mingw32/lib/*.a $DST_DIR/lib/i386
+  cp $MSYS_LIB_DIR/mingw32/lib/lib{thrift,snappy,zstd,lz4,brotli*,bz2,crypto,curl,ss*,utf8proc,re2,aws*,nghttp2}.a $DST_DIR/lib/i386
 fi
 
 # Do the same also for ucrt64
@@ -105,7 +87,7 @@ if [ -d ucrt64/lib/ ]; then
   ls $MSYS_LIB_DIR/ucrt64/lib/
   mkdir -p $DST_DIR/lib/x64-ucrt
   mv ucrt64/lib/*.a $DST_DIR/lib/x64-ucrt
-  cp $MSYS_LIB_DIR/ucrt64/lib/lib{thrift,snappy,zstd,lz4,brotli*,bz2,crypto,curl,ss*,utf8proc,re2,aws*}.a $DST_DIR/lib/x64-ucrt
+  cp $MSYS_LIB_DIR/ucrt64/lib/lib{thrift,snappy,zstd,lz4,brotli*,bz2,crypto,curl,ss*,utf8proc,re2,aws*,nghttp2}.a $DST_DIR/lib/x64-ucrt
 fi
 
 # Create build artifact
diff --git a/ci/vcpkg/ports.patch b/ci/vcpkg/ports.patch
index b2eed47466d..c873bfbb06a 100644
--- a/ci/vcpkg/ports.patch
+++ b/ci/vcpkg/ports.patch
@@ -1,100 +1,28 @@
-diff --git a/ports/abseil/fix-universal2.patch b/ports/abseil/fix-universal2.patch
-new file mode 100644
-index 0000000000..c729e7ae48
---- /dev/null
-+++ b/ports/abseil/fix-universal2.patch
-@@ -0,0 +1,55 @@
-+diff --git a/absl/copts/AbseilConfigureCopts.cmake b/absl/copts/AbseilConfigureCopts.cmake
-+index 942ce90a4..15d6c895f 100644
-+--- a/absl/copts/AbseilConfigureCopts.cmake
-++++ b/absl/copts/AbseilConfigureCopts.cmake
-+@@ -12,7 +12,49 @@ else()
-+   set(ABSL_BUILD_DLL FALSE)
-+ endif()
-+
-+-if(CMAKE_SYSTEM_PROCESSOR MATCHES "x86_64|amd64|AMD64")
-++if(APPLE AND CMAKE_CXX_COMPILER_ID MATCHES [[Clang]])
-++  # Some CMake targets (not known at the moment of processing) could be set to
-++  # compile for multiple architectures as specified by the OSX_ARCHITECTURES
-++  # property, which is target-specific.  We should neither inspect nor rely on
-++  # any CMake property or variable to detect an architecture, in particular:
-++  #
-++  #   - CMAKE_OSX_ARCHITECTURES
-++  #     is just an initial value for OSX_ARCHITECTURES; set too early.
-++  #
-++  #   - OSX_ARCHITECTURES
-++  #     is a per-target property; targets could be defined later, and their
-++  #     properties could be modified any time later.
-++  #
-++  #   - CMAKE_SYSTEM_PROCESSOR
-++  #     does not reflect multiple architectures at all.
-++  #
-++  # When compiling for multiple architectures, a build system can invoke a
-++  # compiler either
-++  #
-++  #   - once: a single command line for multiple architectures (Ninja build)
-++  #   - twice: two command lines per each architecture (Xcode build system)
-++  #
-++  # If case of Xcode, it would be possible to set an Xcode-specific attributes
-++  # like XCODE_ATTRIBUTE_OTHER_CPLUSPLUSFLAGS[arch=arm64] or similar.
-++  #
-++  # In both cases, the viable strategy is to pass all arguments at once, allowing
-++  # the compiler to dispatch arch-specific arguments to a designated backend.
-++  set(ABSL_RANDOM_RANDEN_COPTS "")
-++  foreach(_arch IN ITEMS "x86_64" "arm64")
-++    string(TOUPPER "${_arch}" _arch_uppercase)
-++    string(REPLACE "X86_64" "X64" _arch_uppercase ${_arch_uppercase})
-++    foreach(_flag IN LISTS ABSL_RANDOM_HWAES_${_arch_uppercase}_FLAGS)
-++      list(APPEND ABSL_RANDOM_RANDEN_COPTS "-Xarch_${_arch}" "${_flag}")
-++    endforeach()
-++  endforeach()
-++  # If a compiler happens to deal with an argument for a currently unused
-++  # architecture, it will warn about an unused command line argument.
-++  option(ABSL_RANDOM_RANDEN_COPTS_WARNING OFF
-++         "Warn if one of ABSL_RANDOM_RANDEN_COPTS is unused")
-++  if(ABSL_RANDOM_RANDEN_COPTS AND NOT ABSL_RANDOM_RANDEN_COPTS_WARNING)
-++    list(APPEND ABSL_RANDOM_RANDEN_COPTS "-Wno-unused-command-line-argument")
-++  endif()
-++elseif(CMAKE_SYSTEM_PROCESSOR MATCHES "x86_64|amd64|AMD64")
-+   if (MSVC)
-+     set(ABSL_RANDOM_RANDEN_COPTS "${ABSL_RANDOM_HWAES_MSVC_X64_FLAGS}")
-+   else()
-diff --git a/ports/abseil/portfile.cmake b/ports/abseil/portfile.cmake
-index 1289eed36a..b010a69f13 100644
---- a/ports/abseil/portfile.cmake
-+++ b/ports/abseil/portfile.cmake
-@@ -15,6 +15,7 @@ vcpkg_from_github(
-         # detection can cause ABI issues depending on which compiler options
-         # are enabled for consuming user code
- 	    fix-cxx-standard.patch
-+        fix-universal2.patch
- )
- 
- vcpkg_check_features(OUT_FEATURE_OPTIONS FEATURE_OPTIONS
 diff --git a/ports/curl/portfile.cmake b/ports/curl/portfile.cmake
-index f81d0c491d..e5ea9cef57 100644
+index 5a14562..924b1b7 100644
 --- a/ports/curl/portfile.cmake
 +++ b/ports/curl/portfile.cmake
-@@ -88,6 +88,10 @@ vcpkg_cmake_configure(
-         -DCMAKE_DISABLE_FIND_PACKAGE_Perl=ON
-         -DENABLE_DEBUG=ON
+@@ -87,8 +87,11 @@ vcpkg_cmake_configure(
+         -DENABLE_MANUAL=OFF
          -DCURL_CA_FALLBACK=ON
+         -DCURL_USE_LIBPSL=OFF
 +        -DCURL_CA_PATH=none
 +        -DCURL_CA_BUNDLE=none
-+    OPTIONS_DEBUG
-+        ${EXTRA_ARGS_DEBUG}
-     OPTIONS_RELEASE
-         ${OPTIONS_RELEASE}
      OPTIONS_DEBUG
+         -DENABLE_DEBUG=ON
++        ${EXTRA_ARGS_DEBUG}
+ )
+ vcpkg_cmake_install()
+ vcpkg_copy_pdbs()
 diff --git a/ports/snappy/portfile.cmake b/ports/snappy/portfile.cmake
-index 45b8c706db..b409d8a7be 100644
+index df95a08..d740ce7 100644
 --- a/ports/snappy/portfile.cmake
 +++ b/ports/snappy/portfile.cmake
-@@ -4,6 +4,7 @@ vcpkg_from_github(
-     REF 1.1.9
-     SHA512 f1f8a90f5f7f23310423574b1d8c9acb84c66ea620f3999d1060395205e5760883476837aba02f0aa913af60819e34c625d8308c18a5d7a9c4e190f35968b024
+@@ -9,6 +9,7 @@ vcpkg_from_github(
      HEAD_REF master
-+    PATCHES "snappy-disable-bmi.patch"
+     PATCHES
+         fix_clang-cl_build.patch
++        "snappy-disable-bmi.patch"
  )
  
  vcpkg_cmake_configure(
@@ -123,3 +51,16 @@ index 0000000000..a57ce0c22f
 + }
 + 
 + static inline bool LeftShiftOverflows(uint8_t value, uint32_t shift) {
+diff --git a/scripts/cmake/vcpkg_find_acquire_program.cmake b/scripts/cmake/vcpkg_find_acquire_program.cmake
+index 4611af6..d11936f 100644
+--- a/scripts/cmake/vcpkg_find_acquire_program.cmake
++++ b/scripts/cmake/vcpkg_find_acquire_program.cmake
+@@ -239,7 +239,7 @@ function(vcpkg_find_acquire_program program)
+             set(paths_to_search "${DOWNLOADS}/tools/python/${tool_subdirectory}")
+             vcpkg_list(SET post_install_command "${CMAKE_COMMAND}" -E rm python310._pth)
+         else()
+-            set(program_name python3)
++            set(program_name python)
+             set(brew_package_name "python")
+             set(apt_package_name "python3")
+         endif()
diff --git a/ci/vcpkg/universal2-osx-static-debug.cmake b/ci/vcpkg/universal2-osx-static-debug.cmake
index 29e4b0e63c5..580b4604d52 100644
--- a/ci/vcpkg/universal2-osx-static-debug.cmake
+++ b/ci/vcpkg/universal2-osx-static-debug.cmake
@@ -21,6 +21,6 @@ set(VCPKG_LIBRARY_LINKAGE static)
 
 set(VCPKG_CMAKE_SYSTEM_NAME Darwin)
 set(VCPKG_OSX_ARCHITECTURES "x86_64;arm64")
-set(VCPKG_OSX_DEPLOYMENT_TARGET "10.13")
+set(VCPKG_OSX_DEPLOYMENT_TARGET "10.14")
 
 set(VCPKG_BUILD_TYPE debug)
diff --git a/ci/vcpkg/universal2-osx-static-release.cmake b/ci/vcpkg/universal2-osx-static-release.cmake
index 8111169fab2..7247d0af351 100644
--- a/ci/vcpkg/universal2-osx-static-release.cmake
+++ b/ci/vcpkg/universal2-osx-static-release.cmake
@@ -21,6 +21,6 @@ set(VCPKG_LIBRARY_LINKAGE static)
 
 set(VCPKG_CMAKE_SYSTEM_NAME Darwin)
 set(VCPKG_OSX_ARCHITECTURES "x86_64;arm64")
-set(VCPKG_OSX_DEPLOYMENT_TARGET "10.13")
+set(VCPKG_OSX_DEPLOYMENT_TARGET "10.14")
 
 set(VCPKG_BUILD_TYPE release)
diff --git a/ci/vcpkg/vcpkg.json b/ci/vcpkg/vcpkg.json
index d9d074e99b0..71c23165e61 100644
--- a/ci/vcpkg/vcpkg.json
+++ b/ci/vcpkg/vcpkg.json
@@ -43,6 +43,7 @@
       "description": "Development dependencies",
       "dependencies": [
         "benchmark",
+        "boost-process",
         "gtest"
       ]
     },
diff --git a/cpp/Brewfile b/cpp/Brewfile
index 01149cf85fa..66f1bd332bb 100644
--- a/cpp/Brewfile
+++ b/cpp/Brewfile
@@ -15,7 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-brew "automake"
 brew "aws-sdk-cpp"
 brew "bash"
 brew "boost"
@@ -26,12 +25,11 @@ brew "cmake"
 brew "flatbuffers"
 brew "git"
 brew "glog"
+brew "googletest"
 brew "grpc"
-brew "llvm"
 brew "llvm@14"
 brew "lz4"
 brew "ninja"
-brew "numpy"
 brew "openssl@1.1"
 brew "protobuf"
 brew "python"
@@ -39,4 +37,5 @@ brew "rapidjson"
 brew "snappy"
 brew "thrift"
 brew "wget"
+brew "xsimd"
 brew "zstd"
diff --git a/cpp/CMakeLists.txt b/cpp/CMakeLists.txt
index 9cc51737373..15bb7dcf84c 100644
--- a/cpp/CMakeLists.txt
+++ b/cpp/CMakeLists.txt
@@ -47,7 +47,7 @@ if(POLICY CMP0074)
   cmake_policy(SET CMP0074 NEW)
 endif()
 
-set(ARROW_VERSION "10.0.0-SNAPSHOT")
+set(ARROW_VERSION "11.0.0")
 
 string(REGEX MATCH "^[0-9]+\\.[0-9]+\\.[0-9]+" ARROW_BASE_VERSION "${ARROW_VERSION}")
 
@@ -122,12 +122,13 @@ endif()
 set(ARROW_GDB_DIR "${CMAKE_INSTALL_DATADIR}/${PROJECT_NAME}/gdb")
 set(ARROW_FULL_GDB_DIR "${CMAKE_INSTALL_FULL_DATADIR}/${PROJECT_NAME}/gdb")
 set(ARROW_GDB_AUTO_LOAD_DIR "${CMAKE_INSTALL_DATADIR}/gdb/auto-load")
-set(ARROW_CMAKE_DIR "${CMAKE_INSTALL_LIBDIR}/cmake/${PROJECT_NAME}")
+set(ARROW_CMAKE_DIR "${CMAKE_INSTALL_LIBDIR}/cmake")
 set(ARROW_DOC_DIR "share/doc/${PROJECT_NAME}")
 
 set(BUILD_SUPPORT_DIR "${CMAKE_SOURCE_DIR}/build-support")
 
 set(ARROW_LLVM_VERSIONS
+    "15.0"
     "14.0"
     "13.0"
     "12.0"
@@ -137,9 +138,6 @@ set(ARROW_LLVM_VERSIONS
     "9"
     "8"
     "7")
-list(GET ARROW_LLVM_VERSIONS 0 ARROW_LLVM_VERSION_PRIMARY)
-string(REGEX REPLACE "^([0-9]+)(\\..+)?" "\\1" ARROW_LLVM_VERSION_PRIMARY_MAJOR
-                     "${ARROW_LLVM_VERSION_PRIMARY}")
 
 file(READ ${CMAKE_CURRENT_SOURCE_DIR}/../.env ARROW_ENV)
 string(REGEX MATCH "CLANG_TOOLS=[^\n]+" ARROW_ENV_CLANG_TOOLS_VERSION "${ARROW_ENV}")
@@ -148,30 +146,6 @@ string(REGEX REPLACE "^CLANG_TOOLS=" "" ARROW_CLANG_TOOLS_VERSION
 string(REGEX REPLACE "^([0-9]+)(\\..+)?" "\\1" ARROW_CLANG_TOOLS_VERSION_MAJOR
                      "${ARROW_CLANG_TOOLS_VERSION}")
 
-if(APPLE)
-  find_program(BREW_BIN brew)
-  if(BREW_BIN)
-    execute_process(COMMAND ${BREW_BIN} --prefix
-                            "llvm@${ARROW_LLVM_VERSION_PRIMARY_MAJOR}"
-                    OUTPUT_VARIABLE LLVM_BREW_PREFIX
-                    OUTPUT_STRIP_TRAILING_WHITESPACE)
-    if(NOT LLVM_BREW_PREFIX)
-      execute_process(COMMAND ${BREW_BIN} --prefix llvm
-                      OUTPUT_VARIABLE LLVM_BREW_PREFIX
-                      OUTPUT_STRIP_TRAILING_WHITESPACE)
-    endif()
-
-    execute_process(COMMAND ${BREW_BIN} --prefix "llvm@${ARROW_CLANG_TOOLS_VERSION_MAJOR}"
-                    OUTPUT_VARIABLE CLANG_TOOLS_BREW_PREFIX
-                    OUTPUT_STRIP_TRAILING_WHITESPACE)
-    if(NOT CLANG_TOOLS_BREW_PREFIX)
-      execute_process(COMMAND ${BREW_BIN} --prefix llvm
-                      OUTPUT_VARIABLE CLANG_TOOLS_BREW_PREFIX
-                      OUTPUT_STRIP_TRAILING_WHITESPACE)
-    endif()
-  endif()
-endif()
-
 if(WIN32 AND NOT MINGW)
   # This is used to handle builds using e.g. clang in an MSVC setting.
   set(MSVC_TOOLCHAIN TRUE)
@@ -190,16 +164,6 @@ if("$ENV{CMAKE_EXPORT_COMPILE_COMMANDS}" STREQUAL "1"
   set(CMAKE_EXPORT_COMPILE_COMMANDS 1)
 endif()
 
-# ----------------------------------------------------------------------
-# cmake options
-include(DefineOptions)
-
-if(ARROW_BUILD_SHARED AND NOT ARROW_POSITION_INDEPENDENT_CODE)
-  message(WARNING "Can't disable position-independent code to build shared libraries, enabling"
-  )
-  set(ARROW_POSITION_INDEPENDENT_CODE ON)
-endif()
-
 # Needed for linting targets, etc.
 if(${CMAKE_VERSION} VERSION_LESS "3.12.0")
   find_package(PythonInterp)
@@ -215,10 +179,49 @@ else()
   set(PYTHON_EXECUTABLE ${Python3_EXECUTABLE})
 endif()
 
+# ----------------------------------------------------------------------
+# cmake options
+include(DefineOptions)
+
+if(ARROW_BUILD_SHARED AND NOT ARROW_POSITION_INDEPENDENT_CODE)
+  message(WARNING "Can't disable position-independent code to build shared libraries, enabling"
+  )
+  set(ARROW_POSITION_INDEPENDENT_CODE ON)
+endif()
+
+if(ARROW_USE_SCCACHE
+   AND NOT CMAKE_C_COMPILER_LAUNCHER
+   AND NOT CMAKE_CXX_COMPILER_LAUNCHER)
+
+  find_program(SCCACHE_FOUND sccache)
+
+  if(NOT SCCACHE_FOUND AND DEFINED ENV{SCCACHE_PATH})
+    # cmake has problems finding sccache from within mingw
+    message(STATUS "Did not find sccache, using envvar fallback.")
+    set(SCCACHE_FOUND $ENV{SCCACHE_PATH})
+  endif()
+
+  # Only use sccache if a storage backend is configured
+  if(SCCACHE_FOUND
+     AND (DEFINED ENV{SCCACHE_AZURE_BLOB_CONTAINER}
+          OR DEFINED ENV{SCCACHE_BUCKET}
+          OR DEFINED ENV{SCCACHE_DIR}
+          OR DEFINED ENV{SCCACHE_GCS_BUCKET}
+          OR DEFINED ENV{SCCACHE_MEMCACHED}
+          OR DEFINED ENV{SCCACHE_REDIS}
+         ))
+    message(STATUS "Using sccache: ${SCCACHE_FOUND}")
+    set(CMAKE_C_COMPILER_LAUNCHER ${SCCACHE_FOUND})
+    set(CMAKE_CXX_COMPILER_LAUNCHER ${SCCACHE_FOUND})
+  endif()
+endif()
+
 if(ARROW_USE_CCACHE
    AND NOT CMAKE_C_COMPILER_LAUNCHER
    AND NOT CMAKE_CXX_COMPILER_LAUNCHER)
+
   find_program(CCACHE_FOUND ccache)
+
   if(CCACHE_FOUND)
     message(STATUS "Using ccache: ${CCACHE_FOUND}")
     set(CMAKE_C_COMPILER_LAUNCHER ${CCACHE_FOUND})
@@ -226,7 +229,7 @@ if(ARROW_USE_CCACHE
     # ARROW-3985: let ccache preserve C++ comments, because some of them may be
     # meaningful to the compiler
     set(ENV{CCACHE_COMMENTS} "1")
-  endif(CCACHE_FOUND)
+  endif()
 endif()
 
 if(ARROW_USE_PRECOMPILED_HEADERS AND ${CMAKE_VERSION} VERSION_LESS "3.16.0")
@@ -344,88 +347,6 @@ if(UNIX)
   add_custom_target(iwyu-all ${BUILD_SUPPORT_DIR}/iwyu/iwyu.sh all)
 endif(UNIX)
 
-#
-# Set up various options
-#
-
-if(ARROW_BUILD_BENCHMARKS
-   OR ARROW_BUILD_TESTS
-   OR ARROW_BUILD_INTEGRATION
-   OR ARROW_FUZZING)
-  set(ARROW_JSON ON)
-  set(ARROW_TESTING ON)
-endif()
-
-if(ARROW_GANDIVA)
-  set(ARROW_WITH_RE2 ON)
-endif()
-
-if(ARROW_BUILD_INTEGRATION AND ARROW_FLIGHT)
-  set(ARROW_FLIGHT_SQL ON)
-endif()
-
-if(ARROW_FLIGHT_SQL)
-  set(ARROW_FLIGHT ON)
-endif()
-
-if(ARROW_CUDA
-   OR ARROW_FLIGHT
-   OR ARROW_PARQUET
-   OR ARROW_BUILD_TESTS
-   OR ARROW_BUILD_BENCHMARKS)
-  set(ARROW_IPC ON)
-endif()
-
-if(ARROW_SUBSTRAIT)
-  set(ARROW_PARQUET ON)
-  set(ARROW_IPC ON)
-  set(ARROW_COMPUTE ON)
-  set(ARROW_DATASET ON)
-endif()
-
-if(ARROW_SKYHOOK)
-  set(ARROW_DATASET ON)
-  set(ARROW_PARQUET ON)
-  set(ARROW_WITH_LZ4 ON)
-  set(ARROW_WITH_SNAPPY ON)
-endif()
-
-if(ARROW_DATASET)
-  set(ARROW_COMPUTE ON)
-  set(ARROW_FILESYSTEM ON)
-endif()
-
-if(ARROW_PARQUET)
-  set(ARROW_COMPUTE ON)
-endif()
-
-if(ARROW_PYTHON)
-  set(ARROW_COMPUTE ON)
-  set(ARROW_CSV ON)
-  set(ARROW_DATASET ON)
-  set(ARROW_FILESYSTEM ON)
-  set(ARROW_HDFS ON)
-  set(ARROW_JSON ON)
-endif()
-
-if(MSVC_TOOLCHAIN)
-  # ORC doesn't build on windows
-  set(ARROW_ORC OFF)
-  # Plasma using glog is not fully tested on windows.
-  set(ARROW_USE_GLOG OFF)
-endif()
-
-if(ARROW_JNI)
-  set(ARROW_BUILD_STATIC ON)
-endif()
-
-if(ARROW_ORC)
-  set(ARROW_WITH_LZ4 ON)
-  set(ARROW_WITH_SNAPPY ON)
-  set(ARROW_WITH_ZLIB ON)
-  set(ARROW_WITH_ZSTD ON)
-endif()
-
 # datetime code used by iOS requires zlib support
 if(IOS)
   set(ARROW_WITH_ZLIB ON)
@@ -463,8 +384,9 @@ if(NOT ARROW_BUILD_EXAMPLES)
   set(NO_EXAMPLES 1)
 endif()
 
-if(NOT ARROW_FUZZING)
-  set(NO_FUZZING 1)
+if(ARROW_FUZZING)
+  # Fuzzing builds enable ASAN without setting our home-grown option for it.
+  add_definitions(-DADDRESS_SANITIZER)
 endif()
 
 if(ARROW_LARGE_MEMORY_TESTS)
@@ -567,10 +489,11 @@ endif()
 include(BuildUtils)
 enable_testing()
 
-# For arrow.pc. Requires.private and Libs.private are used when
-# "pkg-config --libs --static arrow" is used.
-set(ARROW_PC_REQUIRES_PRIVATE)
-set(ARROW_PC_LIBS_PRIVATE)
+# For arrow.pc. Cflags.private, Libs.private and Requires.private are
+# used when "pkg-config --cflags --libs --static arrow" is used.
+set(ARROW_PC_CFLAGS_PRIVATE " -DARROW_STATIC")
+set(ARROW_PC_LIBS_PRIVATE "")
+set(ARROW_PC_REQUIRES_PRIVATE "")
 
 include(ThirdpartyToolchain)
 
@@ -582,10 +505,10 @@ set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${ARROW_CXXFLAGS}")
 # C++ specific flags.
 set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} ${CXX_COMMON_FLAGS} ${ARROW_CXXFLAGS}")
 
-# Remove --std=c++11 to avoid errors from C compilers
-string(REPLACE "-std=c++11" "" CMAKE_C_FLAGS ${CMAKE_C_FLAGS})
+# Remove --std=c++17 to avoid errors from C compilers
+string(REPLACE "-std=c++17" "" CMAKE_C_FLAGS ${CMAKE_C_FLAGS})
 
-# Add C++-only flags, like -std=c++11
+# Add C++-only flags, like -std=c++17
 set(CMAKE_CXX_FLAGS "${CXX_ONLY_FLAGS} ${CMAKE_CXX_FLAGS}")
 
 # ASAN / TSAN / UBSAN
@@ -603,6 +526,10 @@ endif()
 # CMAKE_CXX_FLAGS now fully assembled
 message(STATUS "CMAKE_C_FLAGS: ${CMAKE_C_FLAGS}")
 message(STATUS "CMAKE_CXX_FLAGS: ${CMAKE_CXX_FLAGS}")
+message(STATUS "CMAKE_C_FLAGS_${UPPERCASE_BUILD_TYPE}: ${CMAKE_C_FLAGS_${UPPERCASE_BUILD_TYPE}}"
+)
+message(STATUS "CMAKE_CXX_FLAGS_${UPPERCASE_BUILD_TYPE}: ${CMAKE_CXX_FLAGS_${UPPERCASE_BUILD_TYPE}}"
+)
 
 include_directories(${CMAKE_CURRENT_BINARY_DIR}/src)
 include_directories(src)
@@ -719,18 +646,19 @@ endif()
 # Note that arrow::hadoop is a header only target that refers
 # cpp/thirdparty/hadoop/include/. See
 # cpp/cmake_modules/ThirdpartyToolchain.cmake for details.
-set(ARROW_LINK_LIBS arrow::flatbuffers arrow::hadoop)
+set(ARROW_SHARED_LINK_LIBS arrow::flatbuffers arrow::hadoop)
+set(ARROW_SHARED_INSTALL_INTERFACE_LIBS)
 set(ARROW_STATIC_LINK_LIBS arrow::flatbuffers arrow::hadoop)
 set(ARROW_STATIC_INSTALL_INTERFACE_LIBS)
 
 if(ARROW_USE_BOOST)
-  list(APPEND ARROW_LINK_LIBS Boost::headers)
+  list(APPEND ARROW_SHARED_LINK_LIBS Boost::headers)
   list(APPEND ARROW_STATIC_LINK_LIBS Boost::headers)
 endif()
 
 if(ARROW_USE_OPENSSL)
   set(ARROW_OPENSSL_LIBS OpenSSL::Crypto OpenSSL::SSL)
-  list(APPEND ARROW_LINK_LIBS ${ARROW_OPENSSL_LIBS})
+  list(APPEND ARROW_SHARED_LINK_LIBS ${ARROW_OPENSSL_LIBS})
   list(APPEND ARROW_STATIC_LINK_LIBS ${ARROW_OPENSSL_LIBS})
   list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS ${ARROW_OPENSSL_LIBS})
 endif()
@@ -738,7 +666,7 @@ endif()
 if(ARROW_WITH_BROTLI)
   # Order is important for static linking
   set(ARROW_BROTLI_LIBS Brotli::brotlienc Brotli::brotlidec Brotli::brotlicommon)
-  list(APPEND ARROW_LINK_LIBS ${ARROW_BROTLI_LIBS})
+  list(APPEND ARROW_SHARED_LINK_LIBS ${ARROW_BROTLI_LIBS})
   list(APPEND ARROW_STATIC_LINK_LIBS ${ARROW_BROTLI_LIBS})
   if(Brotli_SOURCE STREQUAL "SYSTEM")
     list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS ${ARROW_BROTLI_LIBS})
@@ -753,9 +681,9 @@ if(ARROW_WITH_BZ2)
 endif()
 
 if(ARROW_WITH_LZ4)
-  list(APPEND ARROW_STATIC_LINK_LIBS lz4::lz4)
+  list(APPEND ARROW_STATIC_LINK_LIBS LZ4::lz4)
   if(lz4_SOURCE STREQUAL "SYSTEM")
-    list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS lz4::lz4)
+    list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS LZ4::lz4)
   endif()
 endif()
 
@@ -781,7 +709,7 @@ if(ARROW_WITH_ZSTD)
 endif()
 
 if(ARROW_ORC)
-  list(APPEND ARROW_LINK_LIBS orc::liborc ${ARROW_PROTOBUF_LIBPROTOBUF})
+  list(APPEND ARROW_SHARED_LINK_LIBS orc::liborc ${ARROW_PROTOBUF_LIBPROTOBUF})
   list(APPEND ARROW_STATIC_LINK_LIBS orc::liborc ${ARROW_PROTOBUF_LIBPROTOBUF})
   if(ORC_SOURCE STREQUAL "SYSTEM")
     list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS orc::liborc
@@ -790,7 +718,7 @@ if(ARROW_ORC)
 endif()
 
 if(ARROW_GCS)
-  list(APPEND ARROW_LINK_LIBS google-cloud-cpp::storage)
+  list(APPEND ARROW_SHARED_LINK_LIBS google-cloud-cpp::storage)
   list(APPEND ARROW_STATIC_LINK_LIBS google-cloud-cpp::storage)
   if(google_cloud_cpp_storage_SOURCE STREQUAL "SYSTEM")
     list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS google-cloud-cpp::storage)
@@ -798,7 +726,7 @@ if(ARROW_GCS)
 endif()
 
 if(ARROW_USE_GLOG)
-  list(APPEND ARROW_LINK_LIBS glog::glog)
+  list(APPEND ARROW_SHARED_LINK_LIBS glog::glog)
   list(APPEND ARROW_STATIC_LINK_LIBS glog::glog)
   if(GLOG_SOURCE STREQUAL "SYSTEM")
     list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS glog::glog)
@@ -807,13 +735,26 @@ if(ARROW_USE_GLOG)
 endif()
 
 if(ARROW_S3)
-  list(APPEND ARROW_LINK_LIBS ${AWSSDK_LINK_LIBRARIES})
+  list(APPEND ARROW_SHARED_LINK_LIBS ${AWSSDK_LINK_LIBRARIES})
   list(APPEND ARROW_STATIC_LINK_LIBS ${AWSSDK_LINK_LIBRARIES})
+  if(AWSSDK_SOURCE STREQUAL "SYSTEM")
+    list(APPEND
+         ARROW_STATIC_INSTALL_INTERFACE_LIBS
+         aws-cpp-sdk-identity-management
+         aws-cpp-sdk-sts
+         aws-cpp-sdk-cognito-identity
+         aws-cpp-sdk-s3
+         aws-cpp-sdk-core)
+  elseif(AWSSDK_SOURCE STREQUAL "BUNDLED")
+    if(UNIX)
+      list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS CURL::libcurl)
+    endif()
+  endif()
 endif()
 
 if(ARROW_WITH_OPENTELEMETRY)
   list(APPEND
-       ARROW_LINK_LIBS
+       ARROW_SHARED_LINK_LIBS
        opentelemetry-cpp::trace
        opentelemetry-cpp::ostream_span_exporter
        opentelemetry-cpp::otlp_http_exporter)
@@ -822,10 +763,21 @@ if(ARROW_WITH_OPENTELEMETRY)
        opentelemetry-cpp::trace
        opentelemetry-cpp::ostream_span_exporter
        opentelemetry-cpp::otlp_http_exporter)
+  if(opentelemetry_SOURCE STREQUAL "SYSTEM")
+    list(APPEND
+         ARROW_STATIC_INSTALL_INTERFACE_LIBS
+         opentelemetry-cpp::trace
+         opentelemetry-cpp::ostream_span_exporter
+         opentelemetry-cpp::otlp_http_exporter)
+  endif()
+  if(Protobuf_SOURCE STREQUAL "SYSTEM")
+    list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS ${ARROW_PROTOBUF_LIBPROTOBUF})
+  endif()
+  list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS CURL::libcurl)
 endif()
 
 if(ARROW_WITH_UTF8PROC)
-  list(APPEND ARROW_LINK_LIBS utf8proc::utf8proc)
+  list(APPEND ARROW_SHARED_LINK_LIBS utf8proc::utf8proc)
   list(APPEND ARROW_STATIC_LINK_LIBS utf8proc::utf8proc)
   if(utf8proc_SOURCE STREQUAL "SYSTEM")
     list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS utf8proc::utf8proc)
@@ -833,7 +785,7 @@ if(ARROW_WITH_UTF8PROC)
 endif()
 
 if(ARROW_WITH_RE2)
-  list(APPEND ARROW_LINK_LIBS re2::re2)
+  list(APPEND ARROW_SHARED_LINK_LIBS re2::re2)
   list(APPEND ARROW_STATIC_LINK_LIBS re2::re2)
   if(re2_SOURCE STREQUAL "SYSTEM")
     list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS re2::re2)
@@ -841,12 +793,12 @@ if(ARROW_WITH_RE2)
 endif()
 
 if(ARROW_WITH_RAPIDJSON)
-  list(APPEND ARROW_LINK_LIBS rapidjson::rapidjson)
+  list(APPEND ARROW_SHARED_LINK_LIBS rapidjson::rapidjson)
   list(APPEND ARROW_STATIC_LINK_LIBS rapidjson::rapidjson)
 endif()
 
 if(ARROW_USE_XSIMD)
-  list(APPEND ARROW_LINK_LIBS xsimd)
+  list(APPEND ARROW_SHARED_LINK_LIBS xsimd)
   list(APPEND ARROW_STATIC_LINK_LIBS xsimd)
 endif()
 
@@ -863,6 +815,9 @@ add_dependencies(arrow_test_dependencies toolchain-tests)
 if(ARROW_STATIC_LINK_LIBS)
   add_dependencies(arrow_dependencies ${ARROW_STATIC_LINK_LIBS})
   if(ARROW_HDFS OR ARROW_ORC)
+    if(Protobuf_SOURCE STREQUAL "SYSTEM")
+      list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS ${ARROW_PROTOBUF_LIBPROTOBUF})
+    endif()
     if(NOT MSVC_TOOLCHAIN)
       list(APPEND ARROW_STATIC_LINK_LIBS ${CMAKE_DL_LIBS})
       list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS ${CMAKE_DL_LIBS})
@@ -873,8 +828,7 @@ endif()
 set(ARROW_SHARED_PRIVATE_LINK_LIBS ${ARROW_STATIC_LINK_LIBS})
 
 if(NOT MSVC_TOOLCHAIN)
-  list(APPEND ARROW_LINK_LIBS ${CMAKE_DL_LIBS})
-  list(APPEND ARROW_SHARED_INSTALL_INTERFACE_LIBS ${CMAKE_DL_LIBS})
+  list(APPEND ARROW_SHARED_LINK_LIBS ${CMAKE_DL_LIBS})
 endif()
 
 set(ARROW_TEST_LINK_TOOLCHAIN arrow::flatbuffers GTest::gtest_main GTest::gtest
@@ -890,11 +844,11 @@ if(ARROW_BUILD_BENCHMARKS)
                    toolchain-benchmarks)
 endif()
 
-set(ARROW_TEST_STATIC_LINK_LIBS arrow_testing_static arrow_static ${ARROW_LINK_LIBS}
-                                ${ARROW_TEST_LINK_TOOLCHAIN})
+set(ARROW_TEST_STATIC_LINK_LIBS arrow_testing_static arrow_static
+                                ${ARROW_SHARED_LINK_LIBS} ${ARROW_TEST_LINK_TOOLCHAIN})
 
-set(ARROW_TEST_SHARED_LINK_LIBS arrow_testing_shared arrow_shared ${ARROW_LINK_LIBS}
-                                ${ARROW_TEST_LINK_TOOLCHAIN})
+set(ARROW_TEST_SHARED_LINK_LIBS arrow_testing_shared arrow_shared
+                                ${ARROW_SHARED_LINK_LIBS} ${ARROW_TEST_LINK_TOOLCHAIN})
 
 if(NOT MSVC)
   set(ARROW_TEST_SHARED_LINK_LIBS ${ARROW_TEST_SHARED_LINK_LIBS} ${CMAKE_DL_LIBS})
@@ -934,13 +888,13 @@ if(ARROW_BUILD_BENCHMARKS)
 endif()
 
 if(ARROW_JEMALLOC)
-  list(APPEND ARROW_LINK_LIBS jemalloc)
-  list(APPEND ARROW_STATIC_LINK_LIBS jemalloc)
+  list(APPEND ARROW_SHARED_LINK_LIBS jemalloc::jemalloc)
+  list(APPEND ARROW_STATIC_LINK_LIBS jemalloc::jemalloc)
 endif()
 
 if(ARROW_MIMALLOC)
   add_definitions(-DARROW_MIMALLOC)
-  list(APPEND ARROW_LINK_LIBS mimalloc::mimalloc)
+  list(APPEND ARROW_SHARED_LINK_LIBS mimalloc::mimalloc)
   list(APPEND ARROW_STATIC_LINK_LIBS mimalloc::mimalloc)
 endif()
 
@@ -964,7 +918,7 @@ if(NOT WIN32 AND NOT APPLE)
   list(APPEND ARROW_SYSTEM_LINK_LIBS rt)
 endif()
 
-list(APPEND ARROW_LINK_LIBS ${ARROW_SYSTEM_LINK_LIBS})
+list(APPEND ARROW_SHARED_LINK_LIBS ${ARROW_SYSTEM_LINK_LIBS})
 list(APPEND ARROW_STATIC_LINK_LIBS ${ARROW_SYSTEM_LINK_LIBS})
 list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS ${ARROW_SYSTEM_LINK_LIBS})
 
@@ -986,15 +940,6 @@ if(ARROW_PARQUET)
   endif()
 endif()
 
-if(ARROW_JNI)
-  if(ARROW_ORC)
-    add_subdirectory(../java/adapter/orc/src/main/cpp ./java/orc/jni)
-  endif()
-  if(ARROW_DATASET)
-    add_subdirectory(../java/dataset/src/main/cpp ./java/dataset/jni)
-  endif()
-endif()
-
 if(ARROW_GANDIVA)
   add_subdirectory(src/gandiva)
 endif()
diff --git a/cpp/CMakePresets.json b/cpp/CMakePresets.json
index 46eef600024..8adbb53bb86 100644
--- a/cpp/CMakePresets.json
+++ b/cpp/CMakePresets.json
@@ -117,12 +117,48 @@
         "ARROW_GANDIVA": "ON"
       }
     },
+    {
+      "name": "features-python-minimal",
+      "inherits": [
+	  "features-minimal"
+      ],
+      "hidden": true,
+      "cacheVariables": {
+        "ARROW_COMPUTE": "ON",
+        "ARROW_CSV": "ON",
+        "ARROW_FILESYSTEM": "ON",
+        "ARROW_JSON": "ON"
+      }
+    },
     {
       "name": "features-python",
-      "inherits": "features-main",
+      "inherits": [
+	  "features-main"
+      ],
       "hidden": true,
       "cacheVariables": {
-        "ARROW_PYTHON": "ON"
+        "ARROW_COMPUTE": "ON",
+        "ARROW_CSV": "ON",
+        "ARROW_DATASET": "ON",
+        "ARROW_FILESYSTEM": "ON",
+        "ARROW_JSON": "ON",
+        "ARROW_ORC": "ON"
+      }
+    },
+    {
+      "name": "features-python-maximal",
+      "inherits": [
+	  "features-cuda",
+	  "features-filesystems",
+	  "features-flight",
+	  "features-gandiva",
+	  "features-main",
+	  "features-python-minimal"
+      ],
+      "hidden": true,
+      "cacheVariables": {
+        "ARROW_ORC": "ON",
+        "PARQUET_REQUIRE_ENCRYPTION": "ON"
       }
     },
     {
@@ -133,10 +169,9 @@
         "features-filesystems",
         "features-flight",
         "features-gandiva",
-        "features-python"
+        "features-python-maximal"
       ],
       "hidden": true,
-      "displayName": "Debug build with everything enabled (except benchmarks and CUDA)",
       "cacheVariables": {
         "ARROW_BUILD_EXAMPLES": "ON",
         "ARROW_BUILD_UTILITIES": "ON",
@@ -194,10 +229,22 @@
       "displayName": "Debug build with tests and Gandiva",
       "cacheVariables": {}
     },
+    {
+      "name": "ninja-debug-python-minimal",
+      "inherits": ["base-debug", "features-python-minimal"],
+      "displayName": "Debug build for PyArrow with minimal features",
+      "cacheVariables": {}
+    },
     {
       "name": "ninja-debug-python",
       "inherits": ["base-debug", "features-python"],
-      "displayName": "Debug build with tests and Python support",
+      "displayName": "Debug build for PyArrow with common features (for backward compatibility)",
+      "cacheVariables": {}
+    },
+    {
+      "name": "ninja-debug-python-maximal",
+      "inherits": ["base-debug", "features-python-maximal"],
+      "displayName": "Debug build for PyArrow with everything enabled (except CUDA)",
       "cacheVariables": {}
     },
     {
@@ -243,10 +290,22 @@
       "displayName": "Release build with Gandiva",
       "cacheVariables": {}
     },
+    {
+      "name": "ninja-release-python-minimal",
+      "inherits": ["base-release", "features-python-minimal"],
+      "displayName": "Release build for PyArrow with minimal features",
+      "cacheVariables": {}
+    },
     {
       "name": "ninja-release-python",
       "inherits": ["base-release", "features-python"],
-      "displayName": "Release build with Python support",
+      "displayName": "Release build for PyArrow with common features (for backward compatibility)",
+      "cacheVariables": {}
+    },
+    {
+      "name": "ninja-release-python-maximal",
+      "inherits": ["base-release", "features-python-maximal"],
+      "displayName": "Release build for PyArrow with everything enabled (except CUDA)",
       "cacheVariables": {}
     },
     {
diff --git a/cpp/apidoc/Doxyfile b/cpp/apidoc/Doxyfile
index 8978dba534b..dabf8cf8c0b 100644
--- a/cpp/apidoc/Doxyfile
+++ b/cpp/apidoc/Doxyfile
@@ -2169,9 +2169,12 @@ INCLUDE_FILE_PATTERNS  =
 PREDEFINED             = __attribute__(x)= \
                          __declspec(x)= \
                          PARQUET_EXPORT= \
+                         GANDIVA_EXPORT= \
                          ARROW_EXPORT= \
                          ARROW_DS_EXPORT= \
+                         ARROW_ENGINE_EXPORT= \
                          ARROW_FLIGHT_EXPORT= \
+                         ARROW_FLIGHT_SQL_EXPORT= \
                          ARROW_EXTERN_TEMPLATE= \
                          ARROW_DEPRECATED(x)=
 
diff --git a/cpp/build-support/cpplint.py b/cpp/build-support/cpplint.py
index a40c538e79c..cf1859bb6d4 100755
--- a/cpp/build-support/cpplint.py
+++ b/cpp/build-support/cpplint.py
@@ -41,6 +41,11 @@
 same line, but it is far from perfect (in either direction).
 """
 
+# cpplint predates fstrings
+# pylint: disable=consider-using-f-string
+
+# pylint: disable=invalid-name
+
 import codecs
 import copy
 import getopt
@@ -52,46 +57,40 @@
 import sre_compile
 import string
 import sys
+import sysconfig
 import unicodedata
 import xml.etree.ElementTree
 
-# if empty, use defaults
-_header_extensions = set([])
-
 # if empty, use defaults
 _valid_extensions = set([])
 
+__VERSION__ = '1.6.1'
 
-# Files with any of these extensions are considered to be
-# header files (and will undergo different style checks).
-# This set can be extended by using the --headers
-# option (also supported in CPPLINT.cfg)
-def GetHeaderExtensions():
-  if not _header_extensions:
-    return set(['h', 'hpp', 'hxx', 'h++', 'cuh'])
-  return _header_extensions
-
-# The allowed extensions for file names
-# This is set by --extensions flag
-def GetAllExtensions():
-  if not _valid_extensions:
-    return GetHeaderExtensions().union(set(['c', 'cc', 'cpp', 'cxx', 'c++', 'cu']))
-  return _valid_extensions
-
-def GetNonHeaderExtensions():
-  return GetAllExtensions().difference(GetHeaderExtensions())
+try:
+  #  -- pylint: disable=used-before-assignment
+  xrange          # Python 2
+except NameError:
+  #  -- pylint: disable=redefined-builtin
+  xrange = range  # Python 3
 
 
 _USAGE = """
-Syntax: cpplint.py [--verbose=#] [--output=emacs|eclipse|vs7|junit]
+Syntax: cpplint.py [--verbose=#] [--output=emacs|eclipse|vs7|junit|sed|gsed]
                    [--filter=-x,+y,...]
-                   [--counting=total|toplevel|detailed] [--repository=path]
-                   [--root=subdir] [--linelength=digits] [--recursive]
+                   [--counting=total|toplevel|detailed] [--root=subdir]
+                   [--repository=path]
+                   [--linelength=digits] [--headers=x,y,...]
+                   [--recursive]
                    [--exclude=path]
-                   [--headers=ext1,ext2]
                    [--extensions=hpp,cpp,...]
+                   [--includeorder=default|standardcfirst]
+                   [--quiet]
+                   [--version]
         <file> [file] ...
 
+  Style checker for C/C++ source files.
+  This is a fork of the Google style checker with minor extensions.
+
   The style guidelines this tries to follow are those in
     https://google.github.io/styleguide/cppguide.html
 
@@ -110,11 +109,16 @@ def GetNonHeaderExtensions():
 
   Flags:
 
-    output=emacs|eclipse|vs7|junit
-      By default, the output is formatted to ease emacs parsing.  Output
-      compatible with eclipse (eclipse), Visual Studio (vs7), and JUnit
-      XML parsers such as those used in Jenkins and Bamboo may also be
-      used.  Other formats are unsupported.
+    output=emacs|eclipse|vs7|junit|sed|gsed
+      By default, the output is formatted to ease emacs parsing.  Visual Studio
+      compatible output (vs7) may also be used.  Further support exists for
+      eclipse (eclipse), and JUnit (junit). XML parsers such as those used
+      in Jenkins and Bamboo may also be used.
+      The sed format outputs sed commands that should fix some of the errors.
+      Note that this requires gnu sed. If that is installed as gsed on your
+      system (common e.g. on macOS with homebrew) you can use the gsed output
+      format. Sed commands are written to stdout, not stderr, so you should be
+      able to pipe output straight to a shell to run the fixes.
 
     verbose=#
       Specify a number 0-5 to restrict errors to certain verbosity levels.
@@ -122,19 +126,18 @@ def GetNonHeaderExtensions():
       likely to be false positives.
 
     quiet
-      Suppress output other than linting errors, such as information about
-      which files have been processed and excluded.
+      Don't print anything if no errors are found.
 
     filter=-x,+y,...
       Specify a comma-separated list of category-filters to apply: only
       error messages whose category names pass the filters will be printed.
       (Category names are printed with the message and look like
       "[whitespace/indent]".)  Filters are evaluated left to right.
-      "-FOO" and "FOO" means "do not print categories that start with FOO".
+      "-FOO" means "do not print categories that start with FOO".
       "+FOO" means "do print categories that start with FOO".
 
       Examples: --filter=-whitespace,+whitespace/braces
-                --filter=whitespace,runtime/printf,+runtime/printf_format
+                --filter=-whitespace,-runtime/printf,+runtime/printf_format
                 --filter=-,+build/include_what_you_use
 
       To see a list of all the categories used in cpplint, pass no arg:
@@ -172,19 +175,21 @@ def GetNonHeaderExtensions():
         Bob   => SRC_CHROME_BROWSER_UI_BROWSER_H_
 
     root=subdir
-      The root directory used for deriving header guard CPP variables. This
-      directory is relative to the top level directory of the repository which
-      by default is determined by searching for a directory that contains .git,
-      .hg, or .svn but can also be controlled with the --repository flag. If
-      the specified directory does not exist, this flag is ignored.
+      The root directory used for deriving header guard CPP variable.
+      This directory is relative to the top level directory of the repository
+      which by default is determined by searching for a directory that contains
+      .git, .hg, or .svn but can also be controlled with the --repository flag.
+      If the specified directory does not exist, this flag is ignored.
 
       Examples:
-        Assuming that src is the top level directory of the repository, the
-        header guard CPP variables for src/chrome/browser/ui/browser.h are:
+        Assuming that src is the top level directory of the repository (and
+        cwd=top/src), the header guard CPP variables for
+        src/chrome/browser/ui/browser.h are:
 
         No flag => CHROME_BROWSER_UI_BROWSER_H_
         --root=chrome => BROWSER_UI_BROWSER_H_
         --root=chrome/browser => UI_BROWSER_H_
+        --root=.. => SRC_CHROME_BROWSER_UI_BROWSER_H_
 
     linelength=digits
       This is the allowed line length for the project. The default value is
@@ -216,13 +221,24 @@ def GetNonHeaderExtensions():
       Examples:
         --extensions=%s
 
-    headers=extension,extension,...
-      The allowed header extensions that cpplint will consider to be header files
-      (by default, only files with extensions %s
-      will be assumed to be headers)
+    includeorder=default|standardcfirst
+      For the build/include_order rule, the default is to blindly assume angle
+      bracket includes with file extension are c-system-headers (default),
+      even knowing this will have false classifications.
+      The default is established at google.
+      standardcfirst means to instead use an allow-list of known c headers and
+      treat all others as separate group of "other system headers". The C headers
+      included are those of the C-standard lib and closely related ones.
+
+    headers=x,y,...
+      The header extensions that cpplint will treat as .h in checks. Values are
+      automatically added to --extensions list.
+     (by default, only files with extensions %s will be assumed to be headers)
 
       Examples:
         --headers=%s
+        --headers=hpp,hxx
+        --headers=hpp
 
     cpplint.py supports per-directory configurations specified in CPPLINT.cfg
     files. CPPLINT.cfg file can contain a number of key=value pairs.
@@ -233,6 +249,7 @@ def GetNonHeaderExtensions():
       exclude_files=regex
       linelength=80
       root=subdir
+      headers=x,y,...
 
     "set noparent" option prevents cpplint from traversing directory tree
     upwards looking for more .cfg files in parent directories. This option
@@ -246,13 +263,16 @@ def GetNonHeaderExtensions():
     a file name. If the expression matches, the file is skipped and not run
     through the linter.
 
-    "linelength" specifies the allowed line length for the project.
+    "linelength" allows to specify the allowed line length for the project.
 
     The "root" option is similar in function to the --root flag (see example
-    above).
+    above). Paths are relative to the directory of the CPPLINT.cfg.
+
+    The "headers" option is similar in function to the --headers flag
+    (see example above).
 
     CPPLINT.cfg has an effect on files in the same directory and all
-    subdirectories, unless overridden by a nested configuration file.
+    sub-directories, unless overridden by a nested configuration file.
 
       Example file:
         filter=-build/include_order,+build/include_alpha
@@ -261,11 +281,8 @@ def GetNonHeaderExtensions():
     The above example disables build/include_order warning and enables
     build/include_alpha as well as excludes all .cc from being
     processed by linter, in the current directory (where the .cfg
-    file is located) and all subdirectories.
-""" % (list(GetAllExtensions()),
-       ','.join(list(GetAllExtensions())),
-       GetHeaderExtensions(),
-       ','.join(GetHeaderExtensions()))
+    file is located) and all sub-directories.
+"""
 
 # We categorize each error message we print.  Here are the categories.
 # We want an explicit list so we can list them all in cpplint --filter=.
@@ -286,6 +303,7 @@ def GetNonHeaderExtensions():
     'build/include_alpha',
     'build/include_order',
     'build/include_what_you_use',
+    'build/namespaces_headers',
     'build/namespaces_literals',
     'build/namespaces',
     'build/printf_format',
@@ -342,6 +360,13 @@ def GetNonHeaderExtensions():
     'whitespace/todo',
     ]
 
+# keywords to use with --outputs which generate stdout for machine processing
+_MACHINE_OUTPUTS = [
+  'junit',
+  'sed',
+  'gsed'
+]
+
 # These error categories are no longer enforced by cpplint, but for backwards-
 # compatibility they may still appear in NOLINT comments.
 _LEGACY_ERROR_CATEGORIES = [
@@ -349,6 +374,12 @@ def GetNonHeaderExtensions():
     'readability/function',
     ]
 
+# These prefixes for categories should be ignored since they relate to other
+# tools which also use the NOLINT syntax, e.g. clang-tidy.
+_OTHER_NOLINT_CATEGORY_PREFIXES = [
+    'clang-analyzer',
+    ]
+
 # The default state of the category filter. This is overridden by the --filter=
 # flag. By default all errors are on, so only add here categories that should be
 # off by default (i.e., categories that must be enabled by the --filter= flags).
@@ -477,6 +508,18 @@ def GetNonHeaderExtensions():
     'utility',
     'valarray',
     'vector',
+    # 17.6.1.2 C++14 headers
+    'shared_mutex',
+    # 17.6.1.2 C++17 headers
+    'any',
+    'charconv',
+    'codecvt',
+    'execution',
+    'filesystem',
+    'memory_resource',
+    'optional',
+    'string_view',
+    'variant',
     # 17.6.1.2 C++ headers for C library facilities
     'cassert',
     'ccomplex',
@@ -506,6 +549,186 @@ def GetNonHeaderExtensions():
     'cwctype',
     ])
 
+# C headers
+_C_HEADERS = frozenset([
+    # System C headers
+    'assert.h',
+    'complex.h',
+    'ctype.h',
+    'errno.h',
+    'fenv.h',
+    'float.h',
+    'inttypes.h',
+    'iso646.h',
+    'limits.h',
+    'locale.h',
+    'math.h',
+    'setjmp.h',
+    'signal.h',
+    'stdalign.h',
+    'stdarg.h',
+    'stdatomic.h',
+    'stdbool.h',
+    'stddef.h',
+    'stdint.h',
+    'stdio.h',
+    'stdlib.h',
+    'stdnoreturn.h',
+    'string.h',
+    'tgmath.h',
+    'threads.h',
+    'time.h',
+    'uchar.h',
+    'wchar.h',
+    'wctype.h',
+    # additional POSIX C headers
+    'aio.h',
+    'arpa/inet.h',
+    'cpio.h',
+    'dirent.h',
+    'dlfcn.h',
+    'fcntl.h',
+    'fmtmsg.h',
+    'fnmatch.h',
+    'ftw.h',
+    'glob.h',
+    'grp.h',
+    'iconv.h',
+    'langinfo.h',
+    'libgen.h',
+    'monetary.h',
+    'mqueue.h',
+    'ndbm.h',
+    'net/if.h',
+    'netdb.h',
+    'netinet/in.h',
+    'netinet/tcp.h',
+    'nl_types.h',
+    'poll.h',
+    'pthread.h',
+    'pwd.h',
+    'regex.h',
+    'sched.h',
+    'search.h',
+    'semaphore.h',
+    'setjmp.h',
+    'signal.h',
+    'spawn.h',
+    'strings.h',
+    'stropts.h',
+    'syslog.h',
+    'tar.h',
+    'termios.h',
+    'trace.h',
+    'ulimit.h',
+    'unistd.h',
+    'utime.h',
+    'utmpx.h',
+    'wordexp.h',
+    # additional GNUlib headers
+    'a.out.h',
+    'aliases.h',
+    'alloca.h',
+    'ar.h',
+    'argp.h',
+    'argz.h',
+    'byteswap.h',
+    'crypt.h',
+    'endian.h',
+    'envz.h',
+    'err.h',
+    'error.h',
+    'execinfo.h',
+    'fpu_control.h',
+    'fstab.h',
+    'fts.h',
+    'getopt.h',
+    'gshadow.h',
+    'ieee754.h',
+    'ifaddrs.h',
+    'libintl.h',
+    'mcheck.h',
+    'mntent.h',
+    'obstack.h',
+    'paths.h',
+    'printf.h',
+    'pty.h',
+    'resolv.h',
+    'shadow.h',
+    'sysexits.h',
+    'ttyent.h',
+    # Additional linux glibc headers
+    'dlfcn.h',
+    'elf.h',
+    'features.h',
+    'gconv.h',
+    'gnu-versions.h',
+    'lastlog.h',
+    'libio.h',
+    'link.h',
+    'malloc.h',
+    'memory.h',
+    'netash/ash.h',
+    'netatalk/at.h',
+    'netax25/ax25.h',
+    'neteconet/ec.h',
+    'netipx/ipx.h',
+    'netiucv/iucv.h',
+    'netpacket/packet.h',
+    'netrom/netrom.h',
+    'netrose/rose.h',
+    'nfs/nfs.h',
+    'nl_types.h',
+    'nss.h',
+    're_comp.h',
+    'regexp.h',
+    'sched.h',
+    'sgtty.h',
+    'stab.h',
+    'stdc-predef.h',
+    'stdio_ext.h',
+    'syscall.h',
+    'termio.h',
+    'thread_db.h',
+    'ucontext.h',
+    'ustat.h',
+    'utmp.h',
+    'values.h',
+    'wait.h',
+    'xlocale.h',
+    # Hardware specific headers
+    'arm_neon.h',
+    'emmintrin.h',
+    'xmmintin.h',
+    ])
+
+# Folders of C libraries so commonly used in C++,
+# that they have parity with standard C libraries.
+C_STANDARD_HEADER_FOLDERS = frozenset([
+    # standard C library
+    "sys",
+    # glibc for linux
+    "arpa",
+    "asm-generic",
+    "bits",
+    "gnu",
+    "net",
+    "netinet",
+    "protocols",
+    "rpc",
+    "rpcsvc",
+    "scsi",
+    # linux kernel header
+    "drm",
+    "linux",
+    "misc",
+    "mtd",
+    "rdma",
+    "sound",
+    "video",
+    "xen",
+  ])
+
 # Type names
 _TYPES = re.compile(
     r'^(?:'
@@ -592,9 +815,10 @@ def GetNonHeaderExtensions():
 # _IncludeState.CheckNextIncludeOrder().
 _C_SYS_HEADER = 1
 _CPP_SYS_HEADER = 2
-_LIKELY_MY_HEADER = 3
-_POSSIBLE_MY_HEADER = 4
-_OTHER_HEADER = 5
+_OTHER_SYS_HEADER = 3
+_LIKELY_MY_HEADER = 4
+_POSSIBLE_MY_HEADER = 5
+_OTHER_HEADER = 6
 
 # These constants define the current inline assembly state
 _NO_ASM = 0       # Outside of inline assembly block
@@ -614,6 +838,22 @@ def GetNonHeaderExtensions():
 # Match string that indicates we're working on a Linux Kernel file.
 _SEARCH_KERNEL_FILE = re.compile(r'\b(?:LINT_KERNEL_FILE)')
 
+# Commands for sed to fix the problem
+_SED_FIXUPS = {
+  'Remove spaces around =': r's/ = /=/',
+  'Remove spaces around !=': r's/ != /!=/',
+  'Remove space before ( in if (': r's/if (/if(/',
+  'Remove space before ( in for (': r's/for (/for(/',
+  'Remove space before ( in while (': r's/while (/while(/',
+  'Remove space before ( in switch (': r's/switch (/switch(/',
+  'Should have a space between // and comment': r's/\/\//\/\/ /',
+  'Missing space before {': r's/\([^ ]\){/\1 {/',
+  'Tab found, replace by spaces': r's/\t/  /g',
+  'Line ends in whitespace.  Consider deleting these extra spaces.': r's/\s*$//',
+  'You don\'t need a ; after a }': r's/};/}/',
+  'Missing space after ,': r's/,\([^ ]\)/, \1/g',
+}
+
 _regexp_compile_cache = {}
 
 # {str, set(int)}: a map from error categories to sets of linenumbers
@@ -623,6 +863,7 @@ def GetNonHeaderExtensions():
 # The root directory used for deriving header guard CPP variable.
 # This is set by --root flag.
 _root = None
+_root_debug = False
 
 # The top level repository directory. If set, _root is calculated relative to
 # this directory instead of the directory containing version control artifacts.
@@ -632,27 +873,26 @@ def GetNonHeaderExtensions():
 # Files to exclude from linting. This is set by the --exclude flag.
 _excludes = None
 
-# Whether to suppress PrintInfo messages
+# Whether to supress all PrintInfo messages, UNRELATED to --quiet flag
 _quiet = False
 
 # The allowed line length of files.
 # This is set by --linelength flag.
 _line_length = 80
 
-try:
-  xrange(1, 0)
-except NameError:
-  #  -- pylint: disable=redefined-builtin
-  xrange = range
+# This allows to use different include order rule than default
+_include_order = "default"
 
 try:
+  #  -- pylint: disable=used-before-assignment
   unicode
 except NameError:
   #  -- pylint: disable=redefined-builtin
   basestring = unicode = str
 
 try:
-  long(2)
+  #  -- pylint: disable=used-before-assignment
+  long
 except NameError:
   #  -- pylint: disable=redefined-builtin
   long = int
@@ -673,12 +913,58 @@ def unicode_escape_decode(x):
   else:
     return x
 
+# Treat all headers starting with 'h' equally: .h, .hpp, .hxx etc.
+# This is set by --headers flag.
+_hpp_headers = set([])
+
 # {str, bool}: a map from error categories to booleans which indicate if the
 # category should be suppressed for every line.
 _global_error_suppressions = {}
 
+def ProcessHppHeadersOption(val):
+  global _hpp_headers
+  try:
+    _hpp_headers = {ext.strip() for ext in val.split(',')}
+  except ValueError:
+    PrintUsage('Header extensions must be comma separated list.')
+
+def ProcessIncludeOrderOption(val):
+  if val is None or val == "default":
+    pass
+  elif val == "standardcfirst":
+    global _include_order
+    _include_order = val
+  else:
+    PrintUsage('Invalid includeorder value %s. Expected default|standardcfirst')
 
+def IsHeaderExtension(file_extension):
+  return file_extension in GetHeaderExtensions()
 
+def GetHeaderExtensions():
+  if _hpp_headers:
+    return _hpp_headers
+  if _valid_extensions:
+    return {h for h in _valid_extensions if 'h' in h}
+  return set(['h', 'hh', 'hpp', 'hxx', 'h++', 'cuh'])
+
+# The allowed extensions for file names
+# This is set by --extensions flag
+def GetAllExtensions():
+  return GetHeaderExtensions().union(_valid_extensions or set(
+    ['c', 'cc', 'cpp', 'cxx', 'c++', 'cu']))
+
+def ProcessExtensionsOption(val):
+  global _valid_extensions
+  try:
+    extensions = [ext.strip() for ext in val.split(',')]
+    _valid_extensions = set(extensions)
+  except ValueError:
+    PrintUsage('Extensions should be a comma-separated list of values;'
+               'for example: extensions=hpp,cpp\n'
+               'This could not be parsed: "%s"' % (val,))
+
+def GetNonHeaderExtensions():
+  return GetAllExtensions().difference(GetHeaderExtensions())
 
 def ParseNolintSuppressions(filename, raw_line, linenum, error):
   """Updates the global list of line error-suppressions.
@@ -707,6 +993,9 @@ def ParseNolintSuppressions(filename, raw_line, linenum, error):
         category = category[1:-1]
         if category in _ERROR_CATEGORIES:
           _error_suppressions.setdefault(category, set()).add(suppressed_line)
+        elif any(c for c in _OTHER_NOLINT_CATEGORY_PREFIXES if category.startswith(c)):
+          # Ignore any categories from other tools.
+          pass
         elif category not in _LEGACY_ERROR_CATEGORIES:
           error(filename, linenum, 'readability/nolint', 5,
                 'Unknown NOLINT error category: %s' % category)
@@ -812,11 +1101,13 @@ class _IncludeState(object):
   _MY_H_SECTION = 1
   _C_SECTION = 2
   _CPP_SECTION = 3
-  _OTHER_H_SECTION = 4
+  _OTHER_SYS_SECTION = 4
+  _OTHER_H_SECTION = 5
 
   _TYPE_NAMES = {
       _C_SYS_HEADER: 'C system header',
       _CPP_SYS_HEADER: 'C++ system header',
+      _OTHER_SYS_HEADER: 'other system header',
       _LIKELY_MY_HEADER: 'header this file implements',
       _POSSIBLE_MY_HEADER: 'header this file may implement',
       _OTHER_HEADER: 'other header',
@@ -826,6 +1117,7 @@ class _IncludeState(object):
       _MY_H_SECTION: 'a header this file implements',
       _C_SECTION: 'C system header',
       _CPP_SECTION: 'C++ system header',
+      _OTHER_SYS_SECTION: 'other system header',
       _OTHER_H_SECTION: 'other header',
       }
 
@@ -939,6 +1231,12 @@ def CheckNextIncludeOrder(self, header_type):
       else:
         self._last_header = ''
         return error_message
+    elif header_type == _OTHER_SYS_HEADER:
+      if self._section <= self._OTHER_SYS_SECTION:
+        self._section = self._OTHER_SYS_SECTION
+      else:
+        self._last_header = ''
+        return error_message
     elif header_type == _LIKELY_MY_HEADER:
       if self._section <= self._MY_H_SECTION:
         self._section = self._MY_H_SECTION
@@ -973,12 +1271,15 @@ def __init__(self):
     self._filters_backup = self.filters[:]
     self.counting = 'total'  # In what way are we counting errors?
     self.errors_by_category = {}  # string to int dict storing error counts
+    self.quiet = False  # Suppress non-error messagess?
 
     # output format:
     # "emacs" - format that emacs can parse (default)
     # "eclipse" - format that eclipse can parse
     # "vs7" - format that Microsoft Visual Studio 7 can parse
     # "junit" - format that Jenkins, Bamboo, etc can parse
+    # "sed" - returns a gnu sed command to fix the problem
+    # "gsed" - like sed, but names the command gsed, e.g. for macOS homebrew users
     self.output_format = 'emacs'
 
     # For JUnit output, save errors and failures until the end so that they
@@ -990,6 +1291,12 @@ def SetOutputFormat(self, output_format):
     """Sets the output format for errors."""
     self.output_format = output_format
 
+  def SetQuiet(self, quiet):
+    """Sets the module's quiet settings, and returns the previous setting."""
+    last_quiet = self.quiet
+    self.quiet = quiet
+    return last_quiet
+
   def SetVerboseLevel(self, level):
     """Sets the module's verbosity, and returns the previous setting."""
     last_verbose_level = self.verbose_level
@@ -1061,8 +1368,10 @@ def PrintErrorCounts(self):
       self.PrintInfo('Total errors found: %d\n' % self.error_count)
 
   def PrintInfo(self, message):
-    if not _quiet and self.output_format != 'junit':
-      sys.stderr.write(message)
+    # _quiet does not represent --quiet flag.
+    # Hide infos from stdout to keep stdout pure for machine consumption
+    if not _quiet and self.output_format not in _MACHINE_OUTPUTS:
+      sys.stdout.write(message)
 
   def PrintError(self, message):
     if self.output_format == 'junit':
@@ -1079,9 +1388,9 @@ def FormatJUnitXML(self):
     num_failures = len(self._junit_failures)
 
     testsuite = xml.etree.ElementTree.Element('testsuite')
-    testsuite.attrib['name'] = 'cpplint'
     testsuite.attrib['errors'] = str(num_errors)
     testsuite.attrib['failures'] = str(num_failures)
+    testsuite.attrib['name'] = 'cpplint'
 
     if num_errors == 0 and num_failures == 0:
       testsuite.attrib['tests'] = str(1)
@@ -1130,6 +1439,14 @@ def _SetOutputFormat(output_format):
   """Sets the module's output format."""
   _cpplint_state.SetOutputFormat(output_format)
 
+def _Quiet():
+  """Return's the module's quiet setting."""
+  return _cpplint_state.quiet
+
+def _SetQuiet(quiet):
+  """Set the module's quiet status, and return previous setting."""
+  return _cpplint_state.SetQuiet(quiet)
+
 
 def _VerboseLevel():
   """Returns the module's verbosity setting."""
@@ -1267,7 +1584,7 @@ def RepositoryName(self):
     If we have a real absolute path name here we can try to do something smart:
     detecting the root of the checkout and truncating /path/to/checkout from
     the name so that we get header guards that don't include things like
-    "C:\Documents and Settings\..." or "/home/username/..." in them and thus
+    "C:\\Documents and Settings\\..." or "/home/username/..." in them and thus
     people on different computers who have checked the source out to different
     locations won't see bogus errors.
     """
@@ -1405,14 +1722,21 @@ def Error(filename, linenum, category, confidence, message):
   if _ShouldPrintError(category, confidence, linenum):
     _cpplint_state.IncrementErrorCount(category)
     if _cpplint_state.output_format == 'vs7':
-      _cpplint_state.PrintError('%s(%s): warning: %s  [%s] [%d]\n' % (
-          filename, linenum, message, category, confidence))
+      _cpplint_state.PrintError('%s(%s): error cpplint: [%s] %s [%d]\n' % (
+          filename, linenum, category, message, confidence))
     elif _cpplint_state.output_format == 'eclipse':
       sys.stderr.write('%s:%s: warning: %s  [%s] [%d]\n' % (
           filename, linenum, message, category, confidence))
     elif _cpplint_state.output_format == 'junit':
-        _cpplint_state.AddJUnitFailure(filename, linenum, message, category,
-            confidence)
+      _cpplint_state.AddJUnitFailure(filename, linenum, message, category,
+          confidence)
+    elif _cpplint_state.output_format in ['sed', 'gsed']:
+      if message in _SED_FIXUPS:
+        sys.stdout.write(_cpplint_state.output_format + " -i '%s%s' %s # %s  [%s] [%d]\n" % (
+            linenum, _SED_FIXUPS[message], filename, message, category, confidence))
+      else:
+        sys.stderr.write('# %s:%s:  "%s"  [%s] [%d]\n' % (
+            filename, linenum, message, category, confidence))
     else:
       final_message = '%s:%s:  %s  [%s] [%d]\n' % (
           filename, linenum, message, category, confidence)
@@ -1553,7 +1877,7 @@ def FindNextMultiLineCommentEnd(lines, lineix):
 
 def RemoveMultiLineCommentsFromRange(lines, begin, end):
   """Clears a range of lines for multi-line comments."""
-  # Having // dummy comments makes the lines non-empty, so we will not get
+  # Having // <empty> comments makes the lines non-empty, so we will not get
   # unnecessary blank line warnings later in the code.
   for i in range(begin, end):
     lines[i] = '/**/'
@@ -1608,6 +1932,7 @@ def __init__(self, lines):
     self.raw_lines = lines
     self.num_lines = len(lines)
     self.lines_without_raw_strings = CleanseRawStrings(lines)
+    # # pylint: disable=consider-using-enumerate
     for linenum in range(len(self.lines_without_raw_strings)):
       self.lines.append(CleanseComments(
           self.lines_without_raw_strings[linenum]))
@@ -1927,8 +2252,8 @@ def CheckForCopyright(filename, lines, error):
   """Logs an error if no Copyright message appears at the top of the file."""
 
   # We'll say it should occur by line 10. Don't forget there's a
-  # dummy line at the front.
-  for line in range(1, min(len(lines), 11)):
+  # placeholder line at the front.
+  for line in xrange(1, min(len(lines), 11)):
     if re.search(r'Copyright', lines[line], re.I): break
   else:                       # means no copyright line was found
     error(filename, 0, 'legal/copyright', 5,
@@ -1951,6 +2276,30 @@ def GetIndentLevel(line):
   else:
     return 0
 
+def PathSplitToList(path):
+  """Returns the path split into a list by the separator.
+
+  Args:
+    path: An absolute or relative path (e.g. '/a/b/c/' or '../a')
+
+  Returns:
+    A list of path components (e.g. ['a', 'b', 'c]).
+  """
+  lst = []
+  while True:
+    (head, tail) = os.path.split(path)
+    if head == path:  # absolute paths end
+      lst.append(head)
+      break
+    if tail == path:  # relative paths end
+      lst.append(tail)
+      break
+
+    path = head
+    lst.append(tail)
+
+  lst.reverse()
+  return lst
 
 def GetHeaderGuardCPPVariable(filename):
   """Returns the CPP variable that should be used as a header guard.
@@ -1973,13 +2322,59 @@ def GetHeaderGuardCPPVariable(filename):
 
   fileinfo = FileInfo(filename)
   file_path_from_root = fileinfo.RepositoryName()
-  if _root:
-    suffix = os.sep
-    # On Windows using directory separator will leave us with
-    # "bogus escape error" unless we properly escape regex.
-    if suffix == '\\':
-      suffix += '\\'
-    file_path_from_root = re.sub('^' + _root + suffix, '', file_path_from_root)
+
+  def FixupPathFromRoot():
+    if _root_debug:
+      sys.stderr.write("\n_root fixup, _root = '%s', repository name = '%s'\n"
+          % (_root, fileinfo.RepositoryName()))
+
+    # Process the file path with the --root flag if it was set.
+    if not _root:
+      if _root_debug:
+        sys.stderr.write("_root unspecified\n")
+      return file_path_from_root
+
+    def StripListPrefix(lst, prefix):
+      # f(['x', 'y'], ['w, z']) -> None  (not a valid prefix)
+      if lst[:len(prefix)] != prefix:
+        return None
+      # f(['a, 'b', 'c', 'd'], ['a', 'b']) -> ['c', 'd']
+      return lst[(len(prefix)):]
+
+    # root behavior:
+    #   --root=subdir , lstrips subdir from the header guard
+    maybe_path = StripListPrefix(PathSplitToList(file_path_from_root),
+                                 PathSplitToList(_root))
+
+    if _root_debug:
+      sys.stderr.write(("_root lstrip (maybe_path=%s, file_path_from_root=%s," +
+          " _root=%s)\n") % (maybe_path, file_path_from_root, _root))
+
+    if maybe_path:
+      return os.path.join(*maybe_path)
+
+    #   --root=.. , will prepend the outer directory to the header guard
+    full_path = fileinfo.FullName()
+    # adapt slashes for windows
+    root_abspath = os.path.abspath(_root).replace('\\', '/')
+
+    maybe_path = StripListPrefix(PathSplitToList(full_path),
+                                 PathSplitToList(root_abspath))
+
+    if _root_debug:
+      sys.stderr.write(("_root prepend (maybe_path=%s, full_path=%s, " +
+          "root_abspath=%s)\n") % (maybe_path, full_path, root_abspath))
+
+    if maybe_path:
+      return os.path.join(*maybe_path)
+
+    if _root_debug:
+      sys.stderr.write("_root ignore, returning %s\n" % (file_path_from_root))
+
+    #   --root=FAKE_DIR is ignored
+    return file_path_from_root
+
+  file_path_from_root = FixupPathFromRoot()
   return re.sub(r'[^a-zA-Z0-9]', '_', file_path_from_root).upper() + '_'
 
 
@@ -2095,22 +2490,28 @@ def CheckHeaderFileIncluded(filename, include_state, error):
     return
 
   for ext in GetHeaderExtensions():
-      basefilename = filename[0:len(filename) - len(fileinfo.Extension())]
-      headerfile = basefilename + '.' + ext
-      if not os.path.exists(headerfile):
-        continue
-      headername = FileInfo(headerfile).RepositoryName()
-      first_include = None
-      for section_list in include_state.include_list:
-        for f in section_list:
-          if headername in f[0] or f[0] in headername:
-            return
-          if not first_include:
-            first_include = f[1]
+    basefilename = filename[0:len(filename) - len(fileinfo.Extension())]
+    headerfile = basefilename + '.' + ext
+    if not os.path.exists(headerfile):
+      continue
+    headername = FileInfo(headerfile).RepositoryName()
+    first_include = None
+    include_uses_unix_dir_aliases = False
+    for section_list in include_state.include_list:
+      for f in section_list:
+        include_text = f[0]
+        if "./" in include_text:
+          include_uses_unix_dir_aliases = True
+        if headername in include_text or include_text in headername:
+          return
+        if not first_include:
+          first_include = f[1]
+
+    message = '%s should include its header file %s' % (fileinfo.RepositoryName(), headername)
+    if include_uses_unix_dir_aliases:
+      message += ". Relative paths like . and .. are not allowed."
 
-      error(filename, first_include, 'build/include', 5,
-            '%s should include its header file %s' % (fileinfo.RepositoryName(),
-                                                      headername))
+    error(filename, first_include, 'build/include', 5, message)
 
 
 def CheckForBadCharacters(filename, lines, error):
@@ -2761,7 +3162,7 @@ def Update(self, filename, clean_lines, linenum, error):
     #   };
     class_decl_match = Match(
         r'^(\s*(?:template\s*<[\w\s<>,:=]*>\s*)?'
-        r'(class|struct)\s+(?:[A-Z_]+\s+)*(\w+(?:::\w+)*))'
+        r'(class|struct)\s+(?:[a-zA-Z0-9_]+\s+)*(\w+(?:::\w+)*))'
         r'(.*)$', line)
     if (class_decl_match and
         (not self.stack or self.stack[-1].open_parentheses == 0)):
@@ -2983,7 +3384,8 @@ def CheckForNonStandardConstructs(filename, clean_lines, linenum,
   # Look for single-argument constructors that aren't marked explicit.
   # Technically a valid construct, but against style.
   explicit_constructor_match = Match(
-      r'\s+(?:inline\s+)?(explicit\s+)?(?:inline\s+)?%s\s*'
+      r'\s+(?:(?:inline|constexpr)\s+)*(explicit\s+)?'
+      r'(?:(?:inline|constexpr)\s+)*%s\s*'
       r'\(((?:[^()]|\([^()]*\))*)\)'
       % re.escape(base_classname),
       line)
@@ -3028,7 +3430,8 @@ def CheckForNonStandardConstructs(filename, clean_lines, linenum,
         Search(r'\bstd\s*::\s*initializer_list\b', constructor_args[0]))
     copy_constructor = bool(
         onearg_constructor and
-        Match(r'(const\s+)?%s(\s*<[^>]*>)?(\s+const)?\s*(?:<\w+>\s*)?&'
+        Match(r'((const\s+(volatile\s+)?)?|(volatile\s+(const\s+)?))?'
+              r'%s(\s*<[^>]*>)?(\s+const)?\s*(?:<\w+>\s*)?&'
               % re.escape(base_classname), constructor_args[0].strip()))
 
     if (not is_marked_explicit and
@@ -3087,7 +3490,7 @@ def CheckSpacingForFunctionCall(filename, clean_lines, linenum, error):
   # Note that we assume the contents of [] to be short enough that
   # they'll never need to wrap.
   if (  # Ignore control structures.
-      not Search(r'\b(if|for|while|switch|return|new|delete|catch|sizeof)\b',
+      not Search(r'\b(if|elif|for|while|switch|return|new|delete|catch|sizeof)\b',
                  fncall) and
       # Ignore pointers/references to functions.
       not Search(r' \([^)]+\)\([^)]*(\)|,$)', fncall) and
@@ -3103,8 +3506,6 @@ def CheckSpacingForFunctionCall(filename, clean_lines, linenum, error):
         not Search(r'_{0,2}asm_{0,2}\s+_{0,2}volatile_{0,2}\s+\(', fncall) and
         not Search(r'#\s*define|typedef|using\s+\w+\s*=', fncall) and
         not Search(r'\w\s+\((\w+::)*\*\w+\)\(', fncall) and
-        not Search(r'\b(' + '|'.join(_ALT_TOKEN_REPLACEMENT.keys()) + r')\b\s+\(',
-                   fncall) and
         not Search(r'\bcase\s+\(', fncall)):
       # TODO(unknown): Space after an operator function seem to be a common
       # error, silence those for now by restricting them to highest verbosity.
@@ -3196,13 +3597,13 @@ def CheckForFunctionLengths(filename, clean_lines, linenum,
 
   if starting_func:
     body_found = False
-    for start_linenum in range(linenum, clean_lines.NumLines()):
+    for start_linenum in xrange(linenum, clean_lines.NumLines()):
       start_line = lines[start_linenum]
       joined_line += ' ' + start_line.lstrip()
       if Search(r'(;|})', start_line):  # Declarations and trivial functions
         body_found = True
         break                              # ... ignore
-      elif Search(r'{', start_line):
+      if Search(r'{', start_line):
         body_found = True
         function = Search(r'((\w|:)*)\(', line).group(1)
         if Match(r'TEST', function):    # Handle TEST... macros
@@ -3281,36 +3682,6 @@ def CheckComment(line, filename, linenum, next_line_start, error):
               'Should have a space between // and comment')
 
 
-def CheckAccess(filename, clean_lines, linenum, nesting_state, error):
-  """Checks for improper use of DISALLOW* macros.
-
-  Args:
-    filename: The name of the current file.
-    clean_lines: A CleansedLines instance containing the file.
-    linenum: The number of the line to check.
-    nesting_state: A NestingState instance which maintains information about
-                   the current stack of nested blocks being parsed.
-    error: The function to call with any errors found.
-  """
-  line = clean_lines.elided[linenum]  # get rid of comments and strings
-
-  matched = Match((r'\s*(DISALLOW_COPY_AND_ASSIGN|'
-                   r'DISALLOW_IMPLICIT_CONSTRUCTORS)'), line)
-  if not matched:
-    return
-  if nesting_state.stack and isinstance(nesting_state.stack[-1], _ClassInfo):
-    if nesting_state.stack[-1].access != 'private':
-      error(filename, linenum, 'readability/constructors', 3,
-            '%s must be in the private: section' % matched.group(1))
-
-  else:
-    # Found DISALLOW* macro outside a class declaration, or perhaps it
-    # was used inside a function when it should have been part of the
-    # class declaration.  We could issue a warning here, but it
-    # probably resulted in a compiler error already.
-    pass
-
-
 def CheckSpacing(filename, clean_lines, linenum, nesting_state, error):
   """Checks for the correctness of various spacing issues in the code.
 
@@ -3425,9 +3796,10 @@ def CheckSpacing(filename, clean_lines, linenum, nesting_state, error):
   # get rid of comments and strings
   line = clean_lines.elided[linenum]
 
-  # You shouldn't have spaces before your brackets, except maybe after
-  # 'delete []' or 'return []() {};'
-  if Search(r'\w\s+\[', line) and not Search(r'(?:delete|return)\s+\[', line):
+  # You shouldn't have spaces before your brackets, except for C++11 attributes
+  # or maybe after 'delete []', 'return []() {};', or 'auto [abc, ...] = ...;'.
+  if (Search(r'\w\s+\[(?!\[)', line) and
+      not Search(r'(?:auto&?|delete|return)\s+\[', line)):
     error(filename, linenum, 'whitespace/braces', 5,
           'Extra space before [')
 
@@ -3945,11 +4317,11 @@ def CheckBraces(filename, clean_lines, linenum, error):
   # its line, and the line after that should have an indent level equal to or
   # lower than the if. We also check for ambiguous if/else nesting without
   # braces.
-  if_else_match = Search(r'\b(if\s*\(|else\b)', line)
+  if_else_match = Search(r'\b(if\s*(|constexpr)\s*\(|else\b)', line)
   if if_else_match and not Match(r'\s*#', line):
     if_indent = GetIndentLevel(line)
     endline, endlinenum, endpos = line, linenum, if_else_match.end()
-    if_match = Search(r'\bif\s*\(', line)
+    if_match = Search(r'\bif\s*(|constexpr)\s*\(', line)
     if if_match:
       # This could be a multiline if condition, so find the end first.
       pos = if_match.end() - 1
@@ -4008,9 +4380,9 @@ def CheckTrailingSemicolon(filename, clean_lines, linenum, error):
 
   # Block bodies should not be followed by a semicolon.  Due to C++11
   # brace initialization, there are more places where semicolons are
-  # required than not, so we use explicitly list the allowed rules
-  # rather than listing the disallowed ones.  These are the places
-  # where "};" should be replaced by just "}":
+  # required than not, so we explicitly list the allowed rules rather
+  # than listing the disallowed ones.  These are the places where "};"
+  # should be replaced by just "}":
   # 1. Some flavor of block following closing parenthesis:
   #    for (;;) {};
   #    while (...) {};
@@ -4434,6 +4806,16 @@ def GetLineWidth(line):
       if unicodedata.east_asian_width(uc) in ('W', 'F'):
         width += 2
       elif not unicodedata.combining(uc):
+        # Issue 337
+        # https://mail.python.org/pipermail/python-list/2012-August/628809.html
+        if (sys.version_info.major, sys.version_info.minor) <= (3, 2):
+          # https://github.com/python/cpython/blob/2.7/Include/unicodeobject.h#L81
+          is_wide_build = sysconfig.get_config_var("Py_UNICODE_SIZE") >= 4
+          # https://github.com/python/cpython/blob/2.7/Objects/unicodeobject.c#L564
+          is_low_surrogate = 0xDC00 <= ord(uc) <= 0xDFFF
+          if not is_wide_build and is_low_surrogate:
+            width -= 1
+
         width += 1
     return width
   else:
@@ -4481,7 +4863,7 @@ def CheckStyle(filename, clean_lines, linenum, file_extension, nesting_state,
   # if(match($0, " <<")) complain = 0;
   # if(match(prev, " +for \\(")) complain = 0;
   # if(prevodd && match(prevprev, " +for \\(")) complain = 0;
-  scope_or_label_pattern = r'\s*\w+\s*:\s*\\?$'
+  scope_or_label_pattern = r'\s*(?:public|private|protected|signals)(?:\s+(?:slots\s*)?)?:\s*\\?$'
   classinfo = nesting_state.InnermostClass()
   initial_spaces = 0
   cleansed_line = clean_lines.elided[linenum]
@@ -4507,7 +4889,7 @@ def CheckStyle(filename, clean_lines, linenum, file_extension, nesting_state,
 
   # Check if the line is a header guard.
   is_header_guard = False
-  if file_extension in GetHeaderExtensions():
+  if IsHeaderExtension(file_extension):
     cppvar = GetHeaderGuardCPPVariable(filename)
     if (line.startswith('#ifndef %s' % cppvar) or
         line.startswith('#define %s' % cppvar) or
@@ -4553,7 +4935,6 @@ def CheckStyle(filename, clean_lines, linenum, file_extension, nesting_state,
   CheckBraces(filename, clean_lines, linenum, error)
   CheckTrailingSemicolon(filename, clean_lines, linenum, error)
   CheckEmptyBlockBody(filename, clean_lines, linenum, error)
-  CheckAccess(filename, clean_lines, linenum, nesting_state, error)
   CheckSpacing(filename, clean_lines, linenum, nesting_state, error)
   CheckOperatorSpacing(filename, clean_lines, linenum, error)
   CheckParenthesisSpacing(filename, clean_lines, linenum, error)
@@ -4606,13 +4987,14 @@ def _DropCommonSuffixes(filename):
   return os.path.splitext(filename)[0]
 
 
-def _ClassifyInclude(fileinfo, include, is_system):
+def _ClassifyInclude(fileinfo, include, used_angle_brackets, include_order="default"):
   """Figures out what kind of header 'include' is.
 
   Args:
     fileinfo: The current file cpplint is running over. A FileInfo instance.
     include: The path to a #included file.
-    is_system: True if the #include used <> rather than "".
+    used_angle_brackets: True if the #include used <> rather than "".
+    include_order: "default" or other value allowed in program arguments
 
   Returns:
     One of the _XXX_HEADER constants.
@@ -4622,6 +5004,8 @@ def _ClassifyInclude(fileinfo, include, is_system):
     _C_SYS_HEADER
     >>> _ClassifyInclude(FileInfo('foo/foo.cc'), 'string', True)
     _CPP_SYS_HEADER
+    >>> _ClassifyInclude(FileInfo('foo/foo.cc'), 'foo/foo.h', True, "standardcfirst")
+    _OTHER_SYS_HEADER
     >>> _ClassifyInclude(FileInfo('foo/foo.cc'), 'foo/foo.h', False)
     _LIKELY_MY_HEADER
     >>> _ClassifyInclude(FileInfo('foo/foo_unknown_extension.cc'),
@@ -4632,17 +5016,24 @@ def _ClassifyInclude(fileinfo, include, is_system):
   """
   # This is a list of all standard c++ header files, except
   # those already checked for above.
-  is_cpp_h = include in _CPP_HEADERS
+  is_cpp_header = include in _CPP_HEADERS
+
+  # Mark include as C header if in list or in a known folder for standard-ish C headers.
+  is_std_c_header = (include_order == "default") or (include in _C_HEADERS
+            # additional linux glibc header folders
+            or Search(r'(?:%s)\/.*\.h' % "|".join(C_STANDARD_HEADER_FOLDERS), include))
 
   # Headers with C++ extensions shouldn't be considered C system headers
-  if is_system and os.path.splitext(include)[1] in ['.hpp', '.hxx', '.h++']:
-      is_system = False
+  include_ext = os.path.splitext(include)[1]
+  is_system = used_angle_brackets and not include_ext in ['.hh', '.hpp', '.hxx', '.h++']
 
   if is_system:
-    if is_cpp_h:
+    if is_cpp_header:
       return _CPP_SYS_HEADER
-    else:
+    if is_std_c_header:
       return _C_SYS_HEADER
+    else:
+      return _OTHER_SYS_HEADER
 
   # If the target file and the include we're checking share a
   # basename when we drop common extensions, and the include
@@ -4696,10 +5087,12 @@ def CheckIncludeLine(filename, clean_lines, linenum, include_state, error):
   #
   # We also make an exception for Lua headers, which follow google
   # naming convention but not the include convention.
-  match = Match(r'#include\s*"([^/]+\.h)"', line)
-  if match and not _THIRD_PARTY_HEADERS_PATTERN.match(match.group(1)):
-    error(filename, linenum, 'build/include_subdir', 4,
-          'Include the directory when naming .h files')
+  match = Match(r'#include\s*"([^/]+\.(.*))"', line)
+  if match:
+    if (IsHeaderExtension(match.group(2)) and
+        not _THIRD_PARTY_HEADERS_PATTERN.match(match.group(1))):
+      error(filename, linenum, 'build/include_subdir', 4,
+            'Include the directory when naming header files')
 
   # we shouldn't include a file more than once. actually, there are a
   # handful of instances where doing so is okay, but in general it's
@@ -4707,7 +5100,7 @@ def CheckIncludeLine(filename, clean_lines, linenum, include_state, error):
   match = _RE_PATTERN_INCLUDE.search(line)
   if match:
     include = match.group(2)
-    is_system = (match.group(1) == '<')
+    used_angle_brackets = (match.group(1) == '<')
     duplicate_line = include_state.FindHeader(include)
     if duplicate_line >= 0:
       error(filename, linenum, 'build/include', 4,
@@ -4722,7 +5115,19 @@ def CheckIncludeLine(filename, clean_lines, linenum, include_state, error):
               'Do not include .' + extension + ' files from other packages')
         return
 
-    if not _THIRD_PARTY_HEADERS_PATTERN.match(include):
+    # We DO want to include a 3rd party looking header if it matches the
+    # filename. Otherwise we get an erroneous error "...should include its
+    # header" error later.
+    third_src_header = False
+    for ext in GetHeaderExtensions():
+      basefilename = filename[0:len(filename) - len(fileinfo.Extension())]
+      headerfile = basefilename + '.' + ext
+      headername = FileInfo(headerfile).RepositoryName()
+      if headername in include or include in headername:
+        third_src_header = True
+        break
+
+    if third_src_header or not _THIRD_PARTY_HEADERS_PATTERN.match(include):
       include_state.include_list[-1].append((include, linenum))
 
       # We want to ensure that headers appear in the right order:
@@ -4737,7 +5142,7 @@ def CheckIncludeLine(filename, clean_lines, linenum, include_state, error):
       # track of the highest type seen, and complains if we see a
       # lower type after that.
       error_message = include_state.CheckNextIncludeOrder(
-          _ClassifyInclude(fileinfo, include, is_system))
+          _ClassifyInclude(fileinfo, include, used_angle_brackets, _include_order))
       if error_message:
         error(filename, linenum, 'build/include_order', 4,
               '%s. Should be: %s.h, c system, c++ system, other.' %
@@ -4876,7 +5281,7 @@ def CheckLanguage(filename, clean_lines, linenum, file_extension,
   CheckGlobalStatic(filename, clean_lines, linenum, error)
   CheckPrintf(filename, clean_lines, linenum, error)
 
-  if file_extension in GetHeaderExtensions():
+  if IsHeaderExtension(file_extension):
     # TODO(unknown): check that 1-arg constructors are explicit.
     #                How to tell it's a constructor?
     #                (handled in CheckForNonStandardConstructs for now)
@@ -4988,10 +5393,10 @@ def CheckLanguage(filename, clean_lines, linenum, file_extension,
   # Check for use of unnamed namespaces in header files.  Registration
   # macros are typically OK, so we allow use of "namespace {" on lines
   # that end with backslashes.
-  if (file_extension in GetHeaderExtensions()
+  if (IsHeaderExtension(file_extension)
       and Search(r'\bnamespace\s*{', line)
       and line[-1] != '\\'):
-    error(filename, linenum, 'build/namespaces', 4,
+    error(filename, linenum, 'build/namespaces_headers', 4,
           'Do not use unnamed namespaces in header files.  See '
           'https://google-styleguide.googlecode.com/svn/trunk/cppguide.xml#Namespaces'
           ' for more information.')
@@ -5282,9 +5687,9 @@ def CheckForNonConstReference(filename, clean_lines, linenum,
   # We also accept & in static_assert, which looks like a function but
   # it's actually a declaration expression.
   allowed_functions = (r'(?:[sS]wap(?:<\w:+>)?|'
-                       r'operator\s*[<>][<>]|'
-                       r'static_assert|COMPILE_ASSERT'
-                       r')\s*\(')
+                           r'operator\s*[<>][<>]|'
+                           r'static_assert|COMPILE_ASSERT'
+                           r')\s*\(')
   if Search(allowed_functions, line):
     return
   elif not Search(r'\S+\([^)]*$', line):
@@ -5368,7 +5773,7 @@ def CheckCasts(filename, clean_lines, linenum, error):
 
   if not expecting_function:
     CheckCStyleCast(filename, clean_lines, linenum, 'static_cast',
-                    r'\((int|float|double|bool|char|u?int(16|32|64))\)', error)
+                    r'\((int|float|double|bool|char|u?int(16|32|64)|size_t)\)', error)
 
   # This doesn't catch all cases. Consider (const char * const)"hello".
   #
@@ -5460,7 +5865,8 @@ def CheckCStyleCast(filename, clean_lines, linenum, cast_type, pattern, error):
     return False
 
   # operator++(int) and operator--(int)
-  if context.endswith(' operator++') or context.endswith(' operator--'):
+  if (context.endswith(' operator++') or context.endswith(' operator--') or
+      context.endswith('::operator++') or context.endswith('::operator--')):
     return False
 
   # A single unnamed argument for a function tends to look like old style cast.
@@ -5521,11 +5927,11 @@ def ExpectingFunctionArgs(clean_lines, linenum):
                      )),
     ('<limits>', ('numeric_limits',)),
     ('<list>', ('list',)),
-    ('<map>', ('map', 'multimap',)),
+    ('<map>', ('multimap',)),
     ('<memory>', ('allocator', 'make_shared', 'make_unique', 'shared_ptr',
                   'unique_ptr', 'weak_ptr')),
     ('<queue>', ('queue', 'priority_queue',)),
-    ('<set>', ('set', 'multiset',)),
+    ('<set>', ('multiset',)),
     ('<stack>', ('stack',)),
     ('<string>', ('char_traits', 'basic_string',)),
     ('<tuple>', ('tuple',)),
@@ -5554,11 +5960,21 @@ def ExpectingFunctionArgs(clean_lines, linenum):
 for _header, _templates in _HEADERS_MAYBE_TEMPLATES:
   for _template in _templates:
     # Match max<type>(..., ...), max(..., ...), but not foo->max, foo.max or
-    # type::max().
+    # 'type::max()'.
     _re_pattern_headers_maybe_templates.append(
         (re.compile(r'[^>.]\b' + _template + r'(<.*?>)?\([^\)]'),
             _template,
             _header))
+# Match set<type>, but not foo->set<type>, foo.set<type>
+_re_pattern_headers_maybe_templates.append(
+    (re.compile(r'[^>.]\bset\s*\<'),
+        'set<>',
+        '<set>'))
+# Match 'map<type> var' and 'std::map<type>(...)', but not 'map<type>(...)''
+_re_pattern_headers_maybe_templates.append(
+    (re.compile(r'(std\b::\bmap\s*\<)|(^(std\b::\b)map\b\(\s*\<)'),
+        'map<>',
+        '<map>'))
 
 # Other scripts may reach in and modify this pattern.
 _re_pattern_templates = []
@@ -5604,7 +6020,7 @@ def FilesBelongToSameModule(filename_cc, filename_h):
     return (False, '')
 
   fileinfo_h = FileInfo(filename_h)
-  if not fileinfo_h.Extension().lstrip('.') in GetHeaderExtensions():
+  if not IsHeaderExtension(fileinfo_h.Extension().lstrip('.')):
     return (False, '')
 
   filename_cc = filename_cc[:-(len(fileinfo_cc.Extension()))]
@@ -5641,18 +6057,19 @@ def UpdateIncludeState(filename, include_dict, io=codecs):
   """
   headerfile = None
   try:
-    headerfile = io.open(filename, 'r', 'utf8', 'replace')
+    with io.open(filename, 'r', 'utf8', 'replace') as headerfile:
+      linenum = 0
+      for line in headerfile:
+        linenum += 1
+        clean_line = CleanseComments(line)
+        match = _RE_PATTERN_INCLUDE.search(clean_line)
+        if match:
+          include = match.group(2)
+          include_dict.setdefault(include, linenum)
+    return True
   except IOError:
     return False
-  linenum = 0
-  for line in headerfile:
-    linenum += 1
-    clean_line = CleanseComments(line)
-    match = _RE_PATTERN_INCLUDE.search(clean_line)
-    if match:
-      include = match.group(2)
-      include_dict.setdefault(include, linenum)
-  return True
+
 
 
 def CheckForIncludeWhatYouUse(filename, clean_lines, include_state, error,
@@ -5676,7 +6093,7 @@ def CheckForIncludeWhatYouUse(filename, clean_lines, include_state, error,
   required = {}  # A map of header name to linenumber and the template entity.
                  # Example of required: { '<functional>': (1219, 'less<>') }
 
-  for linenum in range(clean_lines.NumLines()):
+  for linenum in xrange(clean_lines.NumLines()):
     line = clean_lines.elided[linenum]
     if not line or line[0] == '#':
       continue
@@ -6082,10 +6499,10 @@ def ProcessFileData(filename, file_extension, lines, error,
   RemoveMultiLineComments(filename, lines, error)
   clean_lines = CleansedLines(lines)
 
-  if file_extension in GetHeaderExtensions():
+  if IsHeaderExtension(file_extension):
     CheckForHeaderGuard(filename, clean_lines, error)
 
-  for line in range(clean_lines.NumLines()):
+  for line in xrange(clean_lines.NumLines()):
     ProcessLine(filename, file_extension, clean_lines, line,
                 include_state, function_state, nesting_state, error,
                 extra_check_functions)
@@ -6128,7 +6545,7 @@ def ProcessConfigOverrides(filename):
       continue
 
     try:
-      with open(cfg_file) as file_handle:
+      with codecs.open(cfg_file, 'r', 'utf8', 'replace') as file_handle:
         for line in file_handle:
           line, _, _ = line.partition('#')  # Remove comments.
           if not line.strip():
@@ -6151,37 +6568,30 @@ def ProcessConfigOverrides(filename):
             if base_name:
               pattern = re.compile(val)
               if pattern.match(base_name):
-                _cpplint_state.PrintInfo('Ignoring "%s": file excluded by '
-                    '"%s". File path component "%s" matches pattern "%s"\n' %
-                    (filename, cfg_file, base_name, val))
+                if _cpplint_state.quiet:
+                  # Suppress "Ignoring file" warning when using --quiet.
+                  return False
+                _cpplint_state.PrintInfo('Ignoring "%s": file excluded by "%s". '
+                                 'File path component "%s" matches '
+                                 'pattern "%s"\n' %
+                                 (filename, cfg_file, base_name, val))
                 return False
           elif name == 'linelength':
             global _line_length
             try:
-                _line_length = int(val)
+              _line_length = int(val)
             except ValueError:
-                _cpplint_state.PrintError('Line length must be numeric.')
+              _cpplint_state.PrintError('Line length must be numeric.')
           elif name == 'extensions':
-              global _valid_extensions
-              try:
-                  extensions = [ext.strip() for ext in val.split(',')]
-                  _valid_extensions = set(extensions)
-              except ValueError:
-                  sys.stderr.write('Extensions should be a comma-separated list of values;'
-                                   'for example: extensions=hpp,cpp\n'
-                                   'This could not be parsed: "%s"' % (val,))
-          elif name == 'headers':
-              global _header_extensions
-              try:
-                  extensions = [ext.strip() for ext in val.split(',')]
-                  _header_extensions = set(extensions)
-              except ValueError:
-                  sys.stderr.write('Extensions should be a comma-separated list of values;'
-                                   'for example: extensions=hpp,cpp\n'
-                                   'This could not be parsed: "%s"' % (val,))
+            ProcessExtensionsOption(val)
           elif name == 'root':
             global _root
-            _root = val
+            # root directories are specified relative to CPPLINT.cfg dir.
+            _root = os.path.join(os.path.dirname(cfg_file), val)
+          elif name == 'headers':
+            ProcessHppHeadersOption(val)
+          elif name == 'includeorder':
+            ProcessIncludeOrderOption(val)
           else:
             _cpplint_state.PrintError(
                 'Invalid configuration option (%s) in file %s\n' %
@@ -6195,7 +6605,7 @@ def ProcessConfigOverrides(filename):
   # Apply all the accumulated filters in reverse order (top-level directory
   # config options having the least priority).
   for cfg_filter in reversed(cfg_filters):
-     _AddFilters(cfg_filter)
+    _AddFilters(cfg_filter)
 
   return True
 
@@ -6216,6 +6626,7 @@ def ProcessFile(filename, vlevel, extra_check_functions=None):
 
   _SetVerboseLevel(vlevel)
   _BackupFilters()
+  old_errors = _cpplint_state.error_count
 
   if not ProcessConfigOverrides(filename):
     _RestoreFilters()
@@ -6237,7 +6648,8 @@ def ProcessFile(filename, vlevel, extra_check_functions=None):
                                         codecs.getwriter('utf8'),
                                         'replace').read().split('\n')
     else:
-      lines = codecs.open(filename, 'r', 'utf8', 'replace').read().split('\n')
+      with codecs.open(filename, 'r', 'utf8', 'replace') as target_file:
+        lines = target_file.read().split('\n')
 
     # Remove trailing '\r'.
     # The -1 accounts for the extra trailing blank line we get from split()
@@ -6284,7 +6696,10 @@ def ProcessFile(filename, vlevel, extra_check_functions=None):
         Error(filename, linenum, 'whitespace/newline', 1,
               'Unexpected \\r (^M) found; better to use only \\n')
 
-  _cpplint_state.PrintInfo('Done processing %s\n' % filename)
+  # Suppress printing anything if --quiet was passed unless the error
+  # count has increased after processing this file.
+  if not _cpplint_state.quiet or old_errors != _cpplint_state.error_count:
+    _cpplint_state.PrintInfo('Done processing %s\n' % filename)
   _RestoreFilters()
 
 
@@ -6294,13 +6709,21 @@ def PrintUsage(message):
   Args:
     message: The optional error message.
   """
-  sys.stderr.write(_USAGE)
+  sys.stderr.write(_USAGE  % (sorted(list(GetAllExtensions())),
+       ','.join(sorted(list(GetAllExtensions()))),
+       sorted(GetHeaderExtensions()),
+       ','.join(sorted(GetHeaderExtensions()))))
 
   if message:
     sys.exit('\nFATAL ERROR: ' + message)
   else:
     sys.exit(0)
 
+def PrintVersion():
+  sys.stdout.write('Cpplint fork (https://github.com/cpplint/cpplint)\n')
+  sys.stdout.write('cpplint ' + __VERSION__ + '\n')
+  sys.stdout.write('Python ' + sys.version + '\n')
+  sys.exit(0)
 
 def PrintCategories():
   """Prints a list of all the error-categories used by error messages.
@@ -6324,6 +6747,8 @@ def ParseArguments(args):
   """
   try:
     (opts, filenames) = getopt.getopt(args, '', ['help', 'output=', 'verbose=',
+                                                 'v=',
+                                                 'version',
                                                  'counting=',
                                                  'filter=',
                                                  'root=',
@@ -6331,27 +6756,33 @@ def ParseArguments(args):
                                                  'linelength=',
                                                  'extensions=',
                                                  'exclude=',
+                                                 'recursive',
                                                  'headers=',
-                                                 'quiet',
-                                                 'recursive'])
+                                                 'includeorder=',
+                                                 'quiet'])
   except getopt.GetoptError:
     PrintUsage('Invalid arguments.')
 
   verbosity = _VerboseLevel()
   output_format = _OutputFormat()
   filters = ''
+  quiet = _Quiet()
   counting_style = ''
   recursive = False
 
   for (opt, val) in opts:
     if opt == '--help':
       PrintUsage(None)
+    if opt == '--version':
+      PrintVersion()
     elif opt == '--output':
-      if val not in ('emacs', 'vs7', 'eclipse', 'junit'):
+      if val not in ('emacs', 'vs7', 'eclipse', 'junit', 'sed', 'gsed'):
         PrintUsage('The only allowed output formats are emacs, vs7, eclipse '
-                   'and junit.')
+                   'sed, gsed and junit.')
       output_format = val
-    elif opt == '--verbose':
+    elif opt == '--quiet':
+      quiet = True
+    elif opt == '--verbose' or opt == '--v':
       verbosity = int(val)
     elif opt == '--filter':
       filters = val
@@ -6379,22 +6810,13 @@ def ParseArguments(args):
         _excludes = set()
       _excludes.update(glob.glob(val))
     elif opt == '--extensions':
-      global _valid_extensions
-      try:
-        _valid_extensions = set(val.split(','))
-      except ValueError:
-          PrintUsage('Extensions must be comma separated list.')
+      ProcessExtensionsOption(val)
     elif opt == '--headers':
-      global _header_extensions
-      try:
-          _header_extensions = set(val.split(','))
-      except ValueError:
-        PrintUsage('Extensions must be comma separated list.')
+      ProcessHppHeadersOption(val)
     elif opt == '--recursive':
       recursive = True
-    elif opt == '--quiet':
-      global _quiet
-      _quiet = True
+    elif opt == '--includeorder':
+      ProcessIncludeOrderOption(val)
 
   if not filenames:
     PrintUsage('No files were specified.')
@@ -6406,10 +6828,12 @@ def ParseArguments(args):
     filenames = _FilterExcludedFiles(filenames)
 
   _SetOutputFormat(output_format)
+  _SetQuiet(quiet)
   _SetVerboseLevel(verbosity)
   _SetFilters(filters)
   _SetCountingStyle(counting_style)
 
+  filenames.sort()
   return filenames
 
 def _ExpandDirectories(filenames):
@@ -6426,30 +6850,50 @@ def _ExpandDirectories(filenames):
   """
   expanded = set()
   for filename in filenames:
-      if not os.path.isdir(filename):
-        expanded.add(filename)
-        continue
+    if not os.path.isdir(filename):
+      expanded.add(filename)
+      continue
 
-      for root, _, files in os.walk(filename):
-        for loopfile in files:
-          fullname = os.path.join(root, loopfile)
-          if fullname.startswith('.' + os.path.sep):
-            fullname = fullname[len('.' + os.path.sep):]
-          expanded.add(fullname)
+    for root, _, files in os.walk(filename):
+      for loopfile in files:
+        fullname = os.path.join(root, loopfile)
+        if fullname.startswith('.' + os.path.sep):
+          fullname = fullname[len('.' + os.path.sep):]
+        expanded.add(fullname)
 
   filtered = []
   for filename in expanded:
-      if os.path.splitext(filename)[1][1:] in GetAllExtensions():
-          filtered.append(filename)
-
+    if os.path.splitext(filename)[1][1:] in GetAllExtensions():
+      filtered.append(filename)
   return filtered
 
-def _FilterExcludedFiles(filenames):
+def _FilterExcludedFiles(fnames):
   """Filters out files listed in the --exclude command line switch. File paths
   in the switch are evaluated relative to the current working directory
   """
   exclude_paths = [os.path.abspath(f) for f in _excludes]
-  return [f for f in filenames if os.path.abspath(f) not in exclude_paths]
+  # because globbing does not work recursively, exclude all subpath of all excluded entries
+  return [f for f in fnames
+          if not any(e for e in exclude_paths
+                  if _IsParentOrSame(e, os.path.abspath(f)))]
+
+def _IsParentOrSame(parent, child):
+  """Return true if child is subdirectory of parent.
+  Assumes both paths are absolute and don't contain symlinks.
+  """
+  parent = os.path.normpath(parent)
+  child = os.path.normpath(child)
+  if parent == child:
+    return True
+
+  prefix = os.path.commonprefix([parent, child])
+  if prefix != parent:
+    return False
+  # Note: os.path.commonprefix operates on character basis, so
+  # take extra care of situations like '/foo/ba' and '/foo/bar/baz'
+  child_suffix = child[len(prefix):]
+  child_suffix = child_suffix.lstrip(os.sep)
+  return child == os.path.join(prefix, child_suffix)
 
 def main():
   filenames = ParseArguments(sys.argv[1:])
@@ -6462,7 +6906,9 @@ def main():
     _cpplint_state.ResetErrorCounts()
     for filename in filenames:
       ProcessFile(filename, _cpplint_state.verbose_level)
-    _cpplint_state.PrintErrorCounts()
+    # If --quiet is passed, suppress printing error count unless there are errors.
+    if not _cpplint_state.quiet or _cpplint_state.error_count > 0:
+      _cpplint_state.PrintErrorCounts()
 
     if _cpplint_state.output_format == 'junit':
       sys.stderr.write(_cpplint_state.FormatJUnitXML())
diff --git a/cpp/build-support/lint_exclusions.txt b/cpp/build-support/lint_exclusions.txt
index 73cbd884f44..195c3dee36a 100644
--- a/cpp/build-support/lint_exclusions.txt
+++ b/cpp/build-support/lint_exclusions.txt
@@ -1,5 +1,7 @@
-*_generated*
 *.grpc.fb.*
+*.pb.*
+*RcppExports.cpp*
+*_generated*
 *arrowExports.cpp*
 *parquet_constants.*
 *parquet_types.*
@@ -7,7 +9,6 @@
 *pyarrow_lib.h
 *python/config.h
 *python/platform.h
-*RcppExports.cpp*
 *thirdparty/*
 *vendored/*
 *windows_compatibility.h
diff --git a/cpp/build-support/run-test.sh b/cpp/build-support/run-test.sh
index d2d327cfddd..7f68abd31c3 100755
--- a/cpp/build-support/run-test.sh
+++ b/cpp/build-support/run-test.sh
@@ -109,8 +109,7 @@ function run_test() {
   # XML output from gtest. We assume that gtest knows better than us and our
   # regexes in most cases, but for certain errors we delete the resulting xml
   # file and let our own post-processing step regenerate it.
-  export GREP=$(which egrep)
-  if zgrep --silent "ThreadSanitizer|Leak check.*detected leaks" $LOGFILE ; then
+  if grep -E -q "ThreadSanitizer|Leak check.*detected leaks" $LOGFILE ; then
     echo ThreadSanitizer or leak check failures in $LOGFILE
     STATUS=1
     rm -f $XMLFILE
@@ -157,7 +156,7 @@ function post_process_tests() {
   # If we have a LeakSanitizer report, and XML reporting is configured, add a new test
   # case result to the XML file for the leak report. Otherwise Jenkins won't show
   # us which tests had LSAN errors.
-  if zgrep --silent "ERROR: LeakSanitizer: detected memory leaks" $LOGFILE ; then
+  if grep -E -q "ERROR: LeakSanitizer: detected memory leaks" $LOGFILE ; then
       echo Test had memory leaks. Editing XML
       perl -p -i -e '
       if (m#</testsuite>#) {
diff --git a/cpp/build-support/update-flatbuffers.sh b/cpp/build-support/update-flatbuffers.sh
index b1116a1cbf7..52da752068a 100755
--- a/cpp/build-support/update-flatbuffers.sh
+++ b/cpp/build-support/update-flatbuffers.sh
@@ -33,9 +33,6 @@ OUT_DIR="$SOURCE_DIR/generated"
 FILES=($(find $FORMAT_DIR -name '*.fbs'))
 FILES+=("$SOURCE_DIR/arrow/ipc/feather.fbs")
 
-# add compute ir files
-FILES+=($(find "$TOP/experimental/computeir" -name '*.fbs'))
-
 $FLATC --cpp --cpp-std c++11 \
   --scoped-enums \
   -o "$OUT_DIR" \
diff --git a/cpp/cmake_modules/BuildUtils.cmake b/cpp/cmake_modules/BuildUtils.cmake
index 888ca19af58..89172ccf66e 100644
--- a/cpp/cmake_modules/BuildUtils.cmake
+++ b/cpp/cmake_modules/BuildUtils.cmake
@@ -73,7 +73,7 @@ endfunction()
 
 # Based on MIT-licensed
 # https://gist.github.com/cristianadam/ef920342939a89fae3e8a85ca9459b49
-function(create_merged_static_lib output_target)
+function(arrow_create_merged_static_lib output_target)
   set(options)
   set(one_value_args NAME ROOT)
   set(multi_value_args TO_MERGE)
@@ -136,17 +136,37 @@ function(create_merged_static_lib output_target)
     message(FATAL_ERROR "Unknown bundle scenario!")
   endif()
 
-  add_custom_command(COMMAND ${BUNDLE_COMMAND}
-                     OUTPUT ${output_lib_path}
-                     COMMENT "Bundling ${output_lib_path}"
-                     VERBATIM)
+  add_custom_target(${output_target}_merge ALL
+                    ${BUNDLE_COMMAND}
+                    DEPENDS ${ARG_ROOT} ${ARG_TO_MERGE}
+                    BYPRODUCTS ${output_lib_path}
+                    COMMENT "Bundling ${output_lib_path}"
+                    VERBATIM)
 
   message(STATUS "Creating bundled static library target ${output_target} at ${output_lib_path}"
   )
 
-  add_custom_target(${output_target} ALL DEPENDS ${output_lib_path})
-  add_dependencies(${output_target} ${ARG_ROOT} ${ARG_TO_MERGE})
-  install(FILES ${output_lib_path} DESTINATION ${CMAKE_INSTALL_LIBDIR})
+  add_library(${output_target} STATIC IMPORTED)
+  set_target_properties(${output_target} PROPERTIES IMPORTED_LOCATION ${output_lib_path})
+  add_dependencies(${output_target} ${output_target}_merge)
+endfunction()
+
+function(arrow_install_cmake_package PACKAGE_NAME EXPORT_NAME)
+  set(CONFIG_CMAKE "${PACKAGE_NAME}Config.cmake")
+  set(BUILT_CONFIG_CMAKE "${CMAKE_CURRENT_BINARY_DIR}/${CONFIG_CMAKE}")
+  configure_package_config_file("${CONFIG_CMAKE}.in" "${BUILT_CONFIG_CMAKE}"
+                                INSTALL_DESTINATION "${ARROW_CMAKE_DIR}/${PACKAGE_NAME}")
+  set(CONFIG_VERSION_CMAKE "${PACKAGE_NAME}ConfigVersion.cmake")
+  set(BUILT_CONFIG_VERSION_CMAKE "${CMAKE_CURRENT_BINARY_DIR}/${CONFIG_VERSION_CMAKE}")
+  write_basic_package_version_file("${BUILT_CONFIG_VERSION_CMAKE}"
+                                   COMPATIBILITY SameMajorVersion)
+  install(FILES "${BUILT_CONFIG_CMAKE}" "${BUILT_CONFIG_VERSION_CMAKE}"
+          DESTINATION "${ARROW_CMAKE_DIR}/${PACKAGE_NAME}")
+  set(TARGETS_CMAKE "${PACKAGE_NAME}Targets.cmake")
+  install(EXPORT ${EXPORT_NAME}
+          DESTINATION "${ARROW_CMAKE_DIR}/${PACKAGE_NAME}"
+          NAMESPACE "${PACKAGE_NAME}::"
+          FILE "${TARGETS_CMAKE}")
 endfunction()
 
 # \arg OUTPUTS list to append built targets to
@@ -156,9 +176,12 @@ function(ADD_ARROW_LIB LIB_NAME)
       BUILD_SHARED
       BUILD_STATIC
       CMAKE_PACKAGE_NAME
+      INSTALL_ARCHIVE_DIR
+      INSTALL_LIBRARY_DIR
+      INSTALL_RUNTIME_DIR
       PKG_CONFIG_NAME
-      SHARED_LINK_FLAGS
-      PRECOMPILED_HEADER_LIB)
+      PRECOMPILED_HEADER_LIB
+      SHARED_LINK_FLAGS)
   set(multi_value_args
       SOURCES
       PRECOMPILED_HEADERS
@@ -169,6 +192,7 @@ function(ADD_ARROW_LIB LIB_NAME)
       EXTRA_INCLUDES
       PRIVATE_INCLUDES
       DEPENDENCIES
+      DEFINITIONS
       SHARED_INSTALL_INTERFACE_LIBS
       STATIC_INSTALL_INTERFACE_LIBS
       OUTPUT_PATH)
@@ -227,6 +251,9 @@ function(ADD_ARROW_LIB LIB_NAME)
     if(ARG_DEPENDENCIES)
       add_dependencies(${LIB_NAME}_objlib ${ARG_DEPENDENCIES})
     endif()
+    if(ARG_DEFINITIONS)
+      target_compile_definitions(${LIB_NAME}_objlib PRIVATE ${ARG_DEFINITIONS})
+    endif()
     if(ARG_PRECOMPILED_HEADER_LIB)
       reuse_precompiled_header_lib(${LIB_NAME}_objlib ${ARG_PRECOMPILED_HEADER_LIB})
     endif()
@@ -234,7 +261,6 @@ function(ADD_ARROW_LIB LIB_NAME)
       target_precompile_headers(${LIB_NAME}_objlib PRIVATE ${ARG_PRECOMPILED_HEADERS})
     endif()
     set(LIB_DEPS $<TARGET_OBJECTS:${LIB_NAME}_objlib>)
-    set(LIB_INCLUDES)
     set(EXTRA_DEPS)
 
     if(ARG_OUTPUTS)
@@ -247,21 +273,45 @@ function(ADD_ARROW_LIB LIB_NAME)
     if(ARG_PRIVATE_INCLUDES)
       target_include_directories(${LIB_NAME}_objlib PRIVATE ${ARG_PRIVATE_INCLUDES})
     endif()
-    target_link_libraries(${LIB_NAME}_objlib
-                          PRIVATE ${ARG_SHARED_LINK_LIBS} ${ARG_SHARED_PRIVATE_LINK_LIBS}
-                                  ${ARG_STATIC_LINK_LIBS})
+    if(BUILD_SHARED)
+      if(ARG_SHARED_LINK_LIBS)
+        target_link_libraries(${LIB_NAME}_objlib PRIVATE ${ARG_SHARED_LINK_LIBS})
+      endif()
+      if(ARG_SHARED_PRIVATE_LINK_LIBS)
+        target_link_libraries(${LIB_NAME}_objlib PRIVATE ${ARG_SHARED_PRIVATE_LINK_LIBS})
+      endif()
+    endif()
+    if(BUILD_STATIC AND ARG_STATIC_LINK_LIBS)
+      target_link_libraries(${LIB_NAME}_objlib PRIVATE ${ARG_STATIC_LINK_LIBS})
+    endif()
   else()
     # Prepare arguments for separate compilation of static and shared libs below
     # TODO: add PCH directives
     set(LIB_DEPS ${ARG_SOURCES})
     set(EXTRA_DEPS ${ARG_DEPENDENCIES})
+  endif()
 
-    if(ARG_EXTRA_INCLUDES)
-      set(LIB_INCLUDES ${ARG_EXTRA_INCLUDES})
-    endif()
+  if(ARG_EXTRA_INCLUDES)
+    set(LIB_INCLUDES ${ARG_EXTRA_INCLUDES})
+  else()
+    set(LIB_INCLUDES "")
   endif()
 
-  set(RUNTIME_INSTALL_DIR bin)
+  if(ARG_INSTALL_ARCHIVE_DIR)
+    set(INSTALL_ARCHIVE_DIR ${ARG_INSTALL_ARCHIVE_DIR})
+  else()
+    set(INSTALL_ARCHIVE_DIR ${CMAKE_INSTALL_LIBDIR})
+  endif()
+  if(ARG_INSTALL_LIBRARY_DIR)
+    set(INSTALL_LIBRARY_DIR ${ARG_INSTALL_LIBRARY_DIR})
+  else()
+    set(INSTALL_LIBRARY_DIR ${CMAKE_INSTALL_LIBDIR})
+  endif()
+  if(ARG_INSTALL_RUNTIME_DIR)
+    set(INSTALL_RUNTIME_DIR ${ARG_INSTALL_RUNTIME_DIR})
+  else()
+    set(INSTALL_RUNTIME_DIR bin)
+  endif()
 
   if(BUILD_SHARED)
     add_library(${LIB_NAME}_shared SHARED ${LIB_DEPS})
@@ -269,6 +319,10 @@ function(ADD_ARROW_LIB LIB_NAME)
       add_dependencies(${LIB_NAME}_shared ${EXTRA_DEPS})
     endif()
 
+    if(ARG_DEFINITIONS)
+      target_compile_definitions(${LIB_NAME}_shared PRIVATE ${ARG_DEFINITIONS})
+    endif()
+
     if(ARG_PRECOMPILED_HEADER_LIB)
       reuse_precompiled_header_lib(${LIB_NAME}_shared ${ARG_PRECOMPILED_HEADER_LIB})
     endif()
@@ -309,11 +363,9 @@ function(ADD_ARROW_LIB LIB_NAME)
                                      SOVERSION "${ARROW_SO_VERSION}")
 
     target_link_libraries(${LIB_NAME}_shared
-                          LINK_PUBLIC
-                          "$<BUILD_INTERFACE:${ARG_SHARED_LINK_LIBS}>"
-                          "$<INSTALL_INTERFACE:${ARG_SHARED_INSTALL_INTERFACE_LIBS}>"
-                          LINK_PRIVATE
-                          ${ARG_SHARED_PRIVATE_LINK_LIBS})
+                          PUBLIC "$<BUILD_INTERFACE:${ARG_SHARED_LINK_LIBS}>"
+                                 "$<INSTALL_INTERFACE:${ARG_SHARED_INSTALL_INTERFACE_LIBS}>"
+                          PRIVATE ${ARG_SHARED_PRIVATE_LINK_LIBS})
 
     if(USE_OBJLIB)
       # Ensure that dependencies are built before compilation of objects in
@@ -348,9 +400,9 @@ function(ADD_ARROW_LIB LIB_NAME)
 
     install(TARGETS ${LIB_NAME}_shared ${INSTALL_IS_OPTIONAL}
             EXPORT ${LIB_NAME}_targets
-            RUNTIME DESTINATION ${RUNTIME_INSTALL_DIR}
-            LIBRARY DESTINATION ${CMAKE_INSTALL_LIBDIR}
-            ARCHIVE DESTINATION ${CMAKE_INSTALL_LIBDIR}
+            ARCHIVE DESTINATION ${INSTALL_ARCHIVE_DIR}
+            LIBRARY DESTINATION ${INSTALL_LIBRARY_DIR}
+            RUNTIME DESTINATION ${INSTALL_RUNTIME_DIR}
             INCLUDES
             DESTINATION ${CMAKE_INSTALL_INCLUDEDIR})
   endif()
@@ -361,6 +413,10 @@ function(ADD_ARROW_LIB LIB_NAME)
       add_dependencies(${LIB_NAME}_static ${EXTRA_DEPS})
     endif()
 
+    if(ARG_DEFINITIONS)
+      target_compile_definitions(${LIB_NAME}_static PRIVATE ${ARG_DEFINITIONS})
+    endif()
+
     if(ARG_PRECOMPILED_HEADER_LIB)
       reuse_precompiled_header_lib(${LIB_NAME}_static ${ARG_PRECOMPILED_HEADER_LIB})
     endif()
@@ -394,13 +450,14 @@ function(ADD_ARROW_LIB LIB_NAME)
                                      OUTPUT_NAME ${LIB_NAME_STATIC})
 
     if(ARG_STATIC_INSTALL_INTERFACE_LIBS)
-      target_link_libraries(${LIB_NAME}_static LINK_PUBLIC
-                            "$<INSTALL_INTERFACE:${ARG_STATIC_INSTALL_INTERFACE_LIBS}>")
+      target_link_libraries(${LIB_NAME}_static
+                            INTERFACE "$<INSTALL_INTERFACE:${ARG_STATIC_INSTALL_INTERFACE_LIBS}>"
+      )
     endif()
 
     if(ARG_STATIC_LINK_LIBS)
-      target_link_libraries(${LIB_NAME}_static LINK_PRIVATE
-                            "$<BUILD_INTERFACE:${ARG_STATIC_LINK_LIBS}>")
+      target_link_libraries(${LIB_NAME}_static
+                            PUBLIC "$<BUILD_INTERFACE:${ARG_STATIC_LINK_LIBS}>")
       if(USE_OBJLIB)
         # Ensure that dependencies are built before compilation of objects in
         # object library, rather than only before the final link step
@@ -414,34 +471,15 @@ function(ADD_ARROW_LIB LIB_NAME)
 
     install(TARGETS ${LIB_NAME}_static ${INSTALL_IS_OPTIONAL}
             EXPORT ${LIB_NAME}_targets
-            RUNTIME DESTINATION ${RUNTIME_INSTALL_DIR}
-            LIBRARY DESTINATION ${CMAKE_INSTALL_LIBDIR}
-            ARCHIVE DESTINATION ${CMAKE_INSTALL_LIBDIR}
+            ARCHIVE DESTINATION ${INSTALL_ARCHIVE_DIR}
+            LIBRARY DESTINATION ${INSTALL_LIBRARY_DIR}
+            RUNTIME DESTINATION ${INSTALL_RUNTIME_DIR}
             INCLUDES
             DESTINATION ${CMAKE_INSTALL_INCLUDEDIR})
   endif()
 
   if(ARG_CMAKE_PACKAGE_NAME)
-    arrow_install_cmake_find_module("${ARG_CMAKE_PACKAGE_NAME}")
-
-    set(TARGETS_CMAKE "${ARG_CMAKE_PACKAGE_NAME}Targets.cmake")
-    install(EXPORT ${LIB_NAME}_targets
-            FILE "${TARGETS_CMAKE}"
-            DESTINATION "${ARROW_CMAKE_DIR}")
-
-    set(CONFIG_CMAKE "${ARG_CMAKE_PACKAGE_NAME}Config.cmake")
-    set(BUILT_CONFIG_CMAKE "${CMAKE_CURRENT_BINARY_DIR}/${CONFIG_CMAKE}")
-    configure_package_config_file("${CONFIG_CMAKE}.in" "${BUILT_CONFIG_CMAKE}"
-                                  INSTALL_DESTINATION "${ARROW_CMAKE_DIR}")
-    install(FILES "${BUILT_CONFIG_CMAKE}" DESTINATION "${ARROW_CMAKE_DIR}")
-
-    set(CONFIG_VERSION_CMAKE "${ARG_CMAKE_PACKAGE_NAME}ConfigVersion.cmake")
-    set(BUILT_CONFIG_VERSION_CMAKE "${CMAKE_CURRENT_BINARY_DIR}/${CONFIG_VERSION_CMAKE}")
-    write_basic_package_version_file(
-      "${BUILT_CONFIG_VERSION_CMAKE}"
-      VERSION ${${PROJECT_NAME}_VERSION}
-      COMPATIBILITY AnyNewerVersion)
-    install(FILES "${BUILT_CONFIG_VERSION_CMAKE}" DESTINATION "${ARROW_CMAKE_DIR}")
+    arrow_install_cmake_package(${ARG_CMAKE_PACKAGE_NAME} ${LIB_NAME}_targets)
   endif()
 
   if(ARG_PKG_CONFIG_NAME)
@@ -624,7 +662,8 @@ function(ADD_TEST_CASE REL_TEST_NAME)
       LABELS
       EXTRA_LABELS
       TEST_ARGUMENTS
-      PREFIX)
+      PREFIX
+      DEFINITIONS)
   cmake_parse_arguments(ARG
                         "${options}"
                         "${one_value_args}"
@@ -695,6 +734,10 @@ function(ADD_TEST_CASE REL_TEST_NAME)
     add_dependencies(${TEST_NAME} ${ARG_EXTRA_DEPENDENCIES})
   endif()
 
+  if(ARG_DEFINITIONS)
+    target_compile_definitions(${TEST_NAME} PRIVATE ${ARG_DEFINITIONS})
+  endif()
+
   if(ARROW_TEST_MEMCHECK AND NOT ARG_NO_VALGRIND)
     add_test(${TEST_NAME}
              bash
@@ -846,7 +889,7 @@ function(ADD_FUZZ_TARGET REL_FUZZING_NAME)
     message(SEND_ERROR "Error: unrecognized arguments: ${ARG_UNPARSED_ARGUMENTS}")
   endif()
 
-  if(NO_FUZZING)
+  if(NOT ARROW_FUZZING)
     return()
   endif()
 
@@ -901,16 +944,15 @@ function(ARROW_INSTALL_ALL_HEADERS PATH)
 endfunction()
 
 function(ARROW_ADD_PKG_CONFIG MODULE)
-  configure_file(${MODULE}.pc.in "${CMAKE_CURRENT_BINARY_DIR}/${MODULE}.pc" @ONLY)
+  configure_file(${MODULE}.pc.in "${CMAKE_CURRENT_BINARY_DIR}/${MODULE}.pc.generate.in"
+                 @ONLY)
+  file(GENERATE
+       OUTPUT "${CMAKE_CURRENT_BINARY_DIR}/${MODULE}.pc"
+       INPUT "${CMAKE_CURRENT_BINARY_DIR}/${MODULE}.pc.generate.in")
   install(FILES "${CMAKE_CURRENT_BINARY_DIR}/${MODULE}.pc"
           DESTINATION "${CMAKE_INSTALL_LIBDIR}/pkgconfig/")
 endfunction()
 
-function(ARROW_INSTALL_CMAKE_FIND_MODULE MODULE)
-  install(FILES "${ARROW_SOURCE_DIR}/cmake_modules/Find${MODULE}.cmake"
-          DESTINATION "${ARROW_CMAKE_DIR}")
-endfunction()
-
 # Implementations of lisp "car" and "cdr" functions
 macro(ARROW_CAR var)
   set(${var} ${ARGV1})
diff --git a/cpp/cmake_modules/DefineOptions.cmake b/cpp/cmake_modules/DefineOptions.cmake
index d5590a95ee4..040a6f58296 100644
--- a/cpp/cmake_modules/DefineOptions.cmake
+++ b/cpp/cmake_modules/DefineOptions.cmake
@@ -50,6 +50,18 @@ function(list_join lst glue out)
 endfunction()
 
 macro(define_option name description default)
+  set(options)
+  set(one_value_args)
+  set(multi_value_args DEPENDS)
+  cmake_parse_arguments(ARG
+                        "${options}"
+                        "${one_value_args}"
+                        "${multi_value_args}"
+                        ${ARGN})
+  if(ARG_UNPARSED_ARGUMENTS)
+    message(SEND_ERROR "Error: unrecognized arguments: ${ARG_UNPARSED_ARGUMENTS}")
+  endif()
+
   check_description_length(${name} ${description})
   list_join(description "\n" multiline_description)
 
@@ -59,6 +71,7 @@ macro(define_option name description default)
   set("${name}_OPTION_DESCRIPTION" ${description})
   set("${name}_OPTION_DEFAULT" ${default})
   set("${name}_OPTION_TYPE" "bool")
+  set("${name}_OPTION_DEPENDS" ${ARG_DEPENDS})
 endmacro()
 
 macro(define_option_string name description default)
@@ -81,6 +94,48 @@ macro(define_option_string name description default)
   endif()
 endmacro()
 
+# Topological sort by Tarjan's algorithm.
+set(ARROW_BOOL_OPTION_DEPENDENCIES_TSORTED)
+macro(tsort_bool_option_dependencies_visit option_name)
+  if("${${option_name}_TSORT_STATUS}" STREQUAL "VISITING")
+    message(FATAL_ERROR "Cyclic option dependency is detected: ${option_name}")
+  elseif("${${option_name}_TSORT_STATUS}" STREQUAL "")
+    set(${option_name}_TSORT_STATUS "VISITING")
+    foreach(needed_option_name ${${option_name}_OPTION_DEPENDS})
+      tsort_bool_option_dependencies_visit(${needed_option_name})
+    endforeach()
+    set(${option_name}_TSORT_STATUS "VISITED")
+    list(INSERT ARROW_BOOL_OPTION_DEPENDENCIES_TSORTED 0 ${option_name})
+  endif()
+endmacro()
+macro(tsort_bool_option_dependencies)
+  foreach(category ${ARROW_OPTION_CATEGORIES})
+    foreach(option_name ${ARROW_${category}_OPTION_NAMES})
+      if("${${option_name}_OPTION_TYPE}" STREQUAL "bool")
+        if("${${option_name}_TSORT_STATUS}" STREQUAL "")
+          tsort_bool_option_dependencies_visit(${option_name})
+        endif()
+      endif()
+    endforeach()
+  endforeach()
+endmacro()
+
+macro(resolve_option_dependencies)
+  if(MSVC_TOOLCHAIN)
+    # Plasma using glog is not fully tested on windows.
+    set(ARROW_USE_GLOG OFF)
+  endif()
+
+  tsort_bool_option_dependencies()
+  foreach(option_name ${ARROW_BOOL_OPTION_DEPENDENCIES_TSORTED})
+    if(${${option_name}})
+      foreach(depended_option_name ${${option_name}_OPTION_DEPENDS})
+        set(${depended_option_name} ON)
+      endforeach()
+    endif()
+  endforeach()
+endmacro()
+
 # Top level cmake dir
 if("${CMAKE_SOURCE_DIR}" STREQUAL "${CMAKE_CURRENT_SOURCE_DIR}")
   set(ARROW_DEFINE_OPTIONS_DEFAULT ON)
@@ -114,6 +169,9 @@ if(ARROW_DEFINE_OPTIONS)
 
   define_option(ARROW_USE_CCACHE "Use ccache when compiling (if available)" ON)
 
+  define_option(ARROW_USE_SCCACHE "Use sccache when compiling (if available),;\
+takes precedence over ccache if a storage backend is configured" ON)
+
   define_option(ARROW_USE_LD_GOLD "Use ld.gold for linking on Linux (if available)" OFF)
 
   define_option(ARROW_USE_PRECOMPILED_HEADERS "Use precompiled headers when compiling"
@@ -127,6 +185,10 @@ if(ARROW_DEFINE_OPTIONS)
                        "AVX2"
                        "AVX512"
                        "NEON"
+                       "SVE" # size agnostic SVE
+                       "SVE128" # fixed size SVE
+                       "SVE256" # "
+                       "SVE512" # "
                        "DEFAULT")
 
   define_option_string(ARROW_RUNTIME_SIMD_LEVEL
@@ -138,17 +200,6 @@ if(ARROW_DEFINE_OPTIONS)
                        "AVX512"
                        "MAX")
 
-  # Arm64 architectures and extensions can lead to exploding combinations.
-  # So set it directly through cmake command line.
-  #
-  # If you change this, you need to change the definition in
-  # python/CMakeLists.txt too.
-  define_option_string(ARROW_ARMV8_ARCH
-                       "Arm64 arch and extensions"
-                       "armv8-a" # Default
-                       "armv8-a"
-                       "armv8-a+crc+crypto")
-
   define_option(ARROW_ALTIVEC "Build with Altivec if compiler has support" ON)
 
   define_option(ARROW_RPATH_ORIGIN "Build Arrow libraries with RATH set to \$ORIGIN" OFF)
@@ -158,19 +209,34 @@ if(ARROW_DEFINE_OPTIONS)
 
   define_option(ARROW_GGDB_DEBUG "Pass -ggdb flag to debug builds" ON)
 
+  define_option(ARROW_WITH_MUSL "Whether the system libc is musl or not" OFF)
+
   #----------------------------------------------------------------------
   set_option_category("Test and benchmark")
 
   define_option(ARROW_BUILD_EXAMPLES "Build the Arrow examples" OFF)
 
-  define_option(ARROW_BUILD_TESTS "Build the Arrow googletest unit tests" OFF)
+  define_option(ARROW_BUILD_TESTS
+                "Build the Arrow googletest unit tests"
+                OFF
+                DEPENDS
+                ARROW_IPC
+                ARROW_TESTING)
 
   define_option(ARROW_ENABLE_TIMING_TESTS "Enable timing-sensitive tests" ON)
 
-  define_option(ARROW_BUILD_INTEGRATION "Build the Arrow integration test executables"
-                OFF)
+  define_option(ARROW_BUILD_INTEGRATION
+                "Build the Arrow integration test executables"
+                OFF
+                DEPENDS
+                ARROW_TESTING)
 
-  define_option(ARROW_BUILD_BENCHMARKS "Build the Arrow micro benchmarks" OFF)
+  define_option(ARROW_BUILD_BENCHMARKS
+                "Build the Arrow micro benchmarks"
+                OFF
+                DEPENDS
+                ARROW_IPC
+                ARROW_TESTING)
 
   # Reference benchmarks are used to compare to naive implementation, or
   # discover various hardware limits.
@@ -195,7 +261,11 @@ if(ARROW_DEFINE_OPTIONS)
                        "shared"
                        "static")
 
-  define_option(ARROW_FUZZING "Build Arrow Fuzzing executables" OFF)
+  define_option(ARROW_FUZZING
+                "Build Arrow Fuzzing executables"
+                OFF
+                DEPENDS
+                ARROW_TESTING)
 
   define_option(ARROW_LARGE_MEMORY_TESTS "Enable unit tests which use large memory" OFF)
 
@@ -230,20 +300,39 @@ if(ARROW_DEFINE_OPTIONS)
 
   define_option(ARROW_CSV "Build the Arrow CSV Parser Module" OFF)
 
-  define_option(ARROW_CUDA "Build the Arrow CUDA extensions (requires CUDA toolkit)" OFF)
-
-  define_option(ARROW_DATASET "Build the Arrow Dataset Modules" OFF)
+  define_option(ARROW_CUDA
+                "Build the Arrow CUDA extensions (requires CUDA toolkit)"
+                OFF
+                DEPENDS
+                ARROW_IPC)
 
-  define_option(ARROW_SUBSTRAIT "Build the Arrow Substrait Consumer Module" OFF)
+  define_option(ARROW_DATASET
+                "Build the Arrow Dataset Modules"
+                OFF
+                DEPENDS
+                ARROW_COMPUTE
+                ARROW_FILESYSTEM)
 
   define_option(ARROW_FILESYSTEM "Build the Arrow Filesystem Layer" OFF)
 
   define_option(ARROW_FLIGHT
-                "Build the Arrow Flight RPC System (requires GRPC, Protocol Buffers)" OFF)
-
-  define_option(ARROW_FLIGHT_SQL "Build the Arrow Flight SQL extension" OFF)
-
-  define_option(ARROW_GANDIVA "Build the Gandiva libraries" OFF)
+                "Build the Arrow Flight RPC System (requires GRPC, Protocol Buffers)"
+                OFF
+                DEPENDS
+                ARROW_IPC)
+
+  define_option(ARROW_FLIGHT_SQL
+                "Build the Arrow Flight SQL extension"
+                OFF
+                DEPENDS
+                ARROW_FLIGHT)
+
+  define_option(ARROW_GANDIVA
+                "Build the Gandiva libraries"
+                OFF
+                DEPENDS
+                ARROW_WITH_RE2
+                ARROW_WITH_UTF8PROC)
 
   define_option(ARROW_GCS
                 "Build Arrow with GCS support (requires the GCloud SDK for C++)" OFF)
@@ -264,29 +353,66 @@ if(ARROW_DEFINE_OPTIONS)
     define_option(ARROW_JEMALLOC ${ARROW_JEMALLOC_DESCRIPTION} ON)
   endif()
 
-  define_option(ARROW_JNI "Build the Arrow JNI lib" OFF)
-
   define_option(ARROW_JSON "Build Arrow with JSON support (requires RapidJSON)" OFF)
 
   define_option(ARROW_MIMALLOC "Build the Arrow mimalloc-based allocator" OFF)
 
-  define_option(ARROW_PARQUET "Build the Parquet libraries" OFF)
-
-  define_option(ARROW_ORC "Build the Arrow ORC adapter" OFF)
+  define_option(ARROW_PARQUET
+                "Build the Parquet libraries"
+                OFF
+                DEPENDS
+                ARROW_COMPUTE
+                ARROW_IPC)
+
+  define_option(ARROW_ORC
+                "Build the Arrow ORC adapter"
+                OFF
+                DEPENDS
+                ARROW_WITH_LZ4
+                ARROW_WITH_SNAPPY
+                ARROW_WITH_ZLIB
+                ARROW_WITH_ZSTD)
 
   define_option(ARROW_PLASMA "Build the plasma object store along with Arrow" OFF)
 
-  define_option(ARROW_PLASMA_JAVA_CLIENT "Build the plasma object store java client" OFF)
-
-  define_option(ARROW_PYTHON "Build the Arrow CPython extensions" OFF)
+  define_option(ARROW_PYTHON
+                "Build some components needed by PyArrow.;\
+(This is a deprecated option. Use CMake presets instead.)"
+                OFF
+                DEPENDS
+                ARROW_COMPUTE
+                ARROW_CSV
+                ARROW_DATASET
+                ARROW_FILESYSTEM
+                ARROW_HDFS
+                ARROW_JSON)
 
   define_option(ARROW_S3 "Build Arrow with S3 support (requires the AWS SDK for C++)" OFF)
 
-  define_option(ARROW_SKYHOOK "Build the Skyhook libraries" OFF)
+  define_option(ARROW_SKYHOOK
+                "Build the Skyhook libraries"
+                OFF
+                DEPENDS
+                ARROW_DATASET
+                ARROW_PARQUET
+                ARROW_WITH_LZ4
+                ARROW_WITH_SNAPPY)
+
+  define_option(ARROW_SUBSTRAIT
+                "Build the Arrow Substrait Consumer Module"
+                OFF
+                DEPENDS
+                ARROW_DATASET
+                ARROW_IPC
+                ARROW_PARQUET)
 
   define_option(ARROW_TENSORFLOW "Build Arrow with TensorFlow support enabled" OFF)
 
-  define_option(ARROW_TESTING "Build the Arrow testing libraries" OFF)
+  define_option(ARROW_TESTING
+                "Build the Arrow testing libraries"
+                OFF
+                DEPENDS
+                ARROW_JSON)
 
   #----------------------------------------------------------------------
   set_option_category("Thirdparty toolchain")
@@ -465,8 +591,6 @@ Always OFF if building binaries" OFF)
   #----------------------------------------------------------------------
   set_option_category("Gandiva")
 
-  define_option(ARROW_GANDIVA_JAVA "Build the Gandiva JNI wrappers" OFF)
-
   # ARROW-3860: Temporary workaround
   define_option(ARROW_GANDIVA_STATIC_LIBSTDCPP
                 "Include -static-libstdc++ -static-libgcc when linking with;Gandiva static libraries"
@@ -490,6 +614,8 @@ that have not been built"
 
   option(ARROW_BUILD_CONFIG_SUMMARY_JSON "Summarize build configuration in a JSON file"
          ON)
+
+  resolve_option_dependencies()
 endif()
 
 macro(validate_config)
@@ -555,6 +681,9 @@ macro(config_summary_message)
 
   endforeach()
 
+  if(ARROW_PYTHON)
+    message(WARNING "ARROW_PYTHON is deprecated. Use CMake presets instead.")
+  endif()
 endmacro()
 
 macro(config_summary_json)
diff --git a/cpp/cmake_modules/FindAWSSDKAlt.cmake b/cpp/cmake_modules/FindAWSSDKAlt.cmake
new file mode 100644
index 00000000000..611184aa1d1
--- /dev/null
+++ b/cpp/cmake_modules/FindAWSSDKAlt.cmake
@@ -0,0 +1,50 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+set(find_package_args)
+if(AWSSDKAlt_FIND_VERSION)
+  list(APPEND find_package_args ${AWSSDKAlt_FIND_VERSION})
+endif()
+if(AWSSDKAlt_FIND_QUIETLY)
+  list(APPEND find_package_args QUIET)
+endif()
+# See https://aws.amazon.com/blogs/developer/developer-experience-of-the-aws-sdk-for-c-now-simplified-by-cmake/
+# Workaround to force AWS CMake configuration to look for shared libraries
+if(DEFINED ENV{CONDA_PREFIX})
+  if(DEFINED BUILD_SHARED_LIBS)
+    set(BUILD_SHARED_LIBS_WAS_SET TRUE)
+    set(BUILD_SHARED_LIBS_KEEP ${BUILD_SHARED_LIBS})
+  else()
+    set(BUILD_SHARED_LIBS_WAS_SET FALSE)
+  endif()
+  set(BUILD_SHARED_LIBS ON)
+endif()
+find_package(AWSSDK ${find_package_args}
+             COMPONENTS config
+                        s3
+                        transfer
+                        identity-management
+                        sts)
+# Restore previous value of BUILD_SHARED_LIBS
+if(DEFINED ENV{CONDA_PREFIX})
+  if(BUILD_SHARED_LIBS_WAS_SET)
+    set(BUILD_SHARED_LIBS ${BUILD_SHARED_LIBS_KEEP})
+  else()
+    unset(BUILD_SHARED_LIBS)
+  endif()
+endif()
+set(AWSSDKAlt_FOUND ${AWSSDK_FOUND})
diff --git a/cpp/cmake_modules/FindArrow.cmake b/cpp/cmake_modules/FindArrow.cmake
deleted file mode 100644
index 9d2faaf5819..00000000000
--- a/cpp/cmake_modules/FindArrow.cmake
+++ /dev/null
@@ -1,466 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-# - Find Arrow (arrow/api.h, libarrow.a, libarrow.so)
-# This module defines
-#  ARROW_FOUND, whether Arrow has been found
-#  ARROW_FULL_SO_VERSION, full shared object version of found Arrow "100.0.0"
-#  ARROW_IMPORT_LIB, path to libarrow's import library (Windows only)
-#  ARROW_INCLUDE_DIR, directory containing headers
-#  ARROW_LIBS, deprecated. Use ARROW_LIB_DIR instead
-#  ARROW_LIB_DIR, directory containing Arrow libraries
-#  ARROW_SHARED_IMP_LIB, deprecated. Use ARROW_IMPORT_LIB instead
-#  ARROW_SHARED_LIB, path to libarrow's shared library
-#  ARROW_SO_VERSION, shared object version of found Arrow such as "100"
-#  ARROW_STATIC_LIB, path to libarrow.a
-#  ARROW_VERSION, version of found Arrow
-#  ARROW_VERSION_MAJOR, major version of found Arrow
-#  ARROW_VERSION_MINOR, minor version of found Arrow
-#  ARROW_VERSION_PATCH, patch version of found Arrow
-
-if(DEFINED ARROW_FOUND)
-  return()
-endif()
-
-find_package(PkgConfig)
-include(FindPackageHandleStandardArgs)
-
-if(WIN32 AND NOT MINGW)
-  # This is used to handle builds using e.g. clang in an MSVC setting.
-  set(MSVC_TOOLCHAIN TRUE)
-else()
-  set(MSVC_TOOLCHAIN FALSE)
-endif()
-
-set(ARROW_SEARCH_LIB_PATH_SUFFIXES)
-if(CMAKE_LIBRARY_ARCHITECTURE)
-  list(APPEND ARROW_SEARCH_LIB_PATH_SUFFIXES "lib/${CMAKE_LIBRARY_ARCHITECTURE}")
-endif()
-list(APPEND
-     ARROW_SEARCH_LIB_PATH_SUFFIXES
-     "lib64"
-     "lib32"
-     "lib"
-     "bin")
-set(ARROW_CONFIG_SUFFIXES
-    "_RELEASE"
-    "_RELWITHDEBINFO"
-    "_MINSIZEREL"
-    "_DEBUG"
-    "")
-if(CMAKE_BUILD_TYPE)
-  string(TOUPPER ${CMAKE_BUILD_TYPE} ARROW_CONFIG_SUFFIX_PREFERRED)
-  set(ARROW_CONFIG_SUFFIX_PREFERRED "_${ARROW_CONFIG_SUFFIX_PREFERRED}")
-  list(INSERT ARROW_CONFIG_SUFFIXES 0 "${ARROW_CONFIG_SUFFIX_PREFERRED}")
-endif()
-
-if(NOT DEFINED ARROW_MSVC_STATIC_LIB_SUFFIX)
-  if(MSVC_TOOLCHAIN)
-    set(ARROW_MSVC_STATIC_LIB_SUFFIX "_static")
-  else()
-    set(ARROW_MSVC_STATIC_LIB_SUFFIX "")
-  endif()
-endif()
-
-# Internal function.
-#
-# Set shared library name for ${base_name} to ${output_variable}.
-#
-# Example:
-#   arrow_build_shared_library_name(ARROW_SHARED_LIBRARY_NAME arrow)
-#   # -> ARROW_SHARED_LIBRARY_NAME=libarrow.so on Linux
-#   # -> ARROW_SHARED_LIBRARY_NAME=libarrow.dylib on macOS
-#   # -> ARROW_SHARED_LIBRARY_NAME=arrow.dll with MSVC on Windows
-#   # -> ARROW_SHARED_LIBRARY_NAME=libarrow.dll with MinGW on Windows
-function(arrow_build_shared_library_name output_variable base_name)
-  set(${output_variable}
-      "${CMAKE_SHARED_LIBRARY_PREFIX}${base_name}${CMAKE_SHARED_LIBRARY_SUFFIX}"
-      PARENT_SCOPE)
-endfunction()
-
-# Internal function.
-#
-# Set import library name for ${base_name} to ${output_variable}.
-# This is useful only for MSVC build. Import library is used only
-# with MSVC build.
-#
-# Example:
-#   arrow_build_import_library_name(ARROW_IMPORT_LIBRARY_NAME arrow)
-#   # -> ARROW_IMPORT_LIBRARY_NAME=arrow on Linux (meaningless)
-#   # -> ARROW_IMPORT_LIBRARY_NAME=arrow on macOS (meaningless)
-#   # -> ARROW_IMPORT_LIBRARY_NAME=arrow.lib with MSVC on Windows
-#   # -> ARROW_IMPORT_LIBRARY_NAME=libarrow.dll.a with MinGW on Windows
-function(arrow_build_import_library_name output_variable base_name)
-  set(${output_variable}
-      "${CMAKE_IMPORT_LIBRARY_PREFIX}${base_name}${CMAKE_IMPORT_LIBRARY_SUFFIX}"
-      PARENT_SCOPE)
-endfunction()
-
-# Internal function.
-#
-# Set static library name for ${base_name} to ${output_variable}.
-#
-# Example:
-#   arrow_build_static_library_name(ARROW_STATIC_LIBRARY_NAME arrow)
-#   # -> ARROW_STATIC_LIBRARY_NAME=libarrow.a on Linux
-#   # -> ARROW_STATIC_LIBRARY_NAME=libarrow.a on macOS
-#   # -> ARROW_STATIC_LIBRARY_NAME=arrow.lib with MSVC on Windows
-#   # -> ARROW_STATIC_LIBRARY_NAME=libarrow.dll.a with MinGW on Windows
-function(arrow_build_static_library_name output_variable base_name)
-  set(${output_variable}
-      "${CMAKE_STATIC_LIBRARY_PREFIX}${base_name}${ARROW_MSVC_STATIC_LIB_SUFFIX}${CMAKE_STATIC_LIBRARY_SUFFIX}"
-      PARENT_SCOPE)
-endfunction()
-
-# Internal function.
-#
-# Set macro value for ${macro_name} in ${header_content} to ${output_variable}.
-#
-# Example:
-#   arrow_extract_macro_value(version_major
-#                             "ARROW_VERSION_MAJOR"
-#                             "#define ARROW_VERSION_MAJOR 1.0.0")
-#   # -> version_major=1.0.0
-function(arrow_extract_macro_value output_variable macro_name header_content)
-  string(REGEX MATCH "#define +${macro_name} +[^\r\n]+" macro_definition
-               "${header_content}")
-  string(REGEX REPLACE "^#define +${macro_name} +(.+)$" "\\1" macro_value
-                       "${macro_definition}")
-  set(${output_variable}
-      "${macro_value}"
-      PARENT_SCOPE)
-endfunction()
-
-# Internal macro only for arrow_find_package.
-#
-# Find package in HOME.
-macro(arrow_find_package_home)
-  find_path(${prefix}_include_dir "${header_path}"
-            PATHS "${home}"
-            PATH_SUFFIXES "include"
-            NO_DEFAULT_PATH)
-  set(include_dir "${${prefix}_include_dir}")
-  set(${prefix}_INCLUDE_DIR
-      "${include_dir}"
-      PARENT_SCOPE)
-
-  if(MSVC_TOOLCHAIN)
-    set(CMAKE_SHARED_LIBRARY_SUFFIXES_ORIGINAL ${CMAKE_FIND_LIBRARY_SUFFIXES})
-    # .dll isn't found by find_library with MSVC because .dll isn't included in
-    # CMAKE_FIND_LIBRARY_SUFFIXES.
-    list(APPEND CMAKE_FIND_LIBRARY_SUFFIXES "${CMAKE_SHARED_LIBRARY_SUFFIX}")
-  endif()
-  find_library(${prefix}_shared_lib
-               NAMES "${shared_lib_name}"
-               PATHS "${home}"
-               PATH_SUFFIXES ${ARROW_SEARCH_LIB_PATH_SUFFIXES}
-               NO_DEFAULT_PATH)
-  if(MSVC_TOOLCHAIN)
-    set(CMAKE_SHARED_LIBRARY_SUFFIXES ${CMAKE_FIND_LIBRARY_SUFFIXES_ORIGINAL})
-  endif()
-  set(shared_lib "${${prefix}_shared_lib}")
-  set(${prefix}_SHARED_LIB
-      "${shared_lib}"
-      PARENT_SCOPE)
-  if(shared_lib)
-    add_library(${target_shared} SHARED IMPORTED)
-    set_target_properties(${target_shared} PROPERTIES IMPORTED_LOCATION "${shared_lib}")
-    if(include_dir)
-      set_target_properties(${target_shared} PROPERTIES INTERFACE_INCLUDE_DIRECTORIES
-                                                        "${include_dir}")
-    endif()
-    find_library(${prefix}_import_lib
-                 NAMES "${import_lib_name}"
-                 PATHS "${home}"
-                 PATH_SUFFIXES ${ARROW_SEARCH_LIB_PATH_SUFFIXES}
-                 NO_DEFAULT_PATH)
-    set(import_lib "${${prefix}_import_lib}")
-    set(${prefix}_IMPORT_LIB
-        "${import_lib}"
-        PARENT_SCOPE)
-    if(import_lib)
-      set_target_properties(${target_shared} PROPERTIES IMPORTED_IMPLIB "${import_lib}")
-    endif()
-  endif()
-
-  find_library(${prefix}_static_lib
-               NAMES "${static_lib_name}"
-               PATHS "${home}"
-               PATH_SUFFIXES ${ARROW_SEARCH_LIB_PATH_SUFFIXES}
-               NO_DEFAULT_PATH)
-  set(static_lib "${${prefix}_static_lib}")
-  set(${prefix}_STATIC_LIB
-      "${static_lib}"
-      PARENT_SCOPE)
-  if(static_lib)
-    add_library(${target_static} STATIC IMPORTED)
-    set_target_properties(${target_static} PROPERTIES IMPORTED_LOCATION "${static_lib}")
-    if(include_dir)
-      set_target_properties(${target_static} PROPERTIES INTERFACE_INCLUDE_DIRECTORIES
-                                                        "${include_dir}")
-    endif()
-  endif()
-endmacro()
-
-# Internal macro only for arrow_find_package.
-#
-# Find package by CMake package configuration.
-macro(arrow_find_package_cmake_package_configuration)
-  find_package(${cmake_package_name} CONFIG)
-  if(${cmake_package_name}_FOUND)
-    set(${prefix}_USE_CMAKE_PACKAGE_CONFIG
-        TRUE
-        PARENT_SCOPE)
-    if(TARGET ${target_shared})
-      foreach(suffix ${ARROW_CONFIG_SUFFIXES})
-        get_target_property(shared_lib ${target_shared} IMPORTED_LOCATION${suffix})
-        if(shared_lib)
-          # Remove shared library version:
-          #   libarrow.so.100.0.0 -> libarrow.so
-          # Because ARROW_HOME and pkg-config approaches don't add
-          # shared library version.
-          string(REGEX REPLACE "(${CMAKE_SHARED_LIBRARY_SUFFIX})[.0-9]+$" "\\1"
-                               shared_lib "${shared_lib}")
-          set(${prefix}_SHARED_LIB
-              "${shared_lib}"
-              PARENT_SCOPE)
-          break()
-        endif()
-      endforeach()
-    endif()
-    if(TARGET ${target_static})
-      foreach(suffix ${ARROW_CONFIG_SUFFIXES})
-        get_target_property(static_lib ${target_static} IMPORTED_LOCATION${suffix})
-        if(static_lib)
-          set(${prefix}_STATIC_LIB
-              "${static_lib}"
-              PARENT_SCOPE)
-          break()
-        endif()
-      endforeach()
-    endif()
-  endif()
-endmacro()
-
-# Internal macro only for arrow_find_package.
-#
-# Find package by pkg-config.
-macro(arrow_find_package_pkg_config)
-  pkg_check_modules(${prefix}_PC ${pkg_config_name})
-  if(${prefix}_PC_FOUND)
-    set(${prefix}_USE_PKG_CONFIG
-        TRUE
-        PARENT_SCOPE)
-
-    set(include_dir "${${prefix}_PC_INCLUDEDIR}")
-    set(lib_dir "${${prefix}_PC_LIBDIR}")
-    set(shared_lib_paths "${${prefix}_PC_LINK_LIBRARIES}")
-    # Use the first shared library path as the IMPORTED_LOCATION
-    # for ${target_shared}. This assumes that the first shared library
-    # path is the shared library path for this module.
-    list(GET shared_lib_paths 0 first_shared_lib_path)
-    # Use the rest shared library paths as the INTERFACE_LINK_LIBRARIES
-    # for ${target_shared}. This assumes that the rest shared library
-    # paths are dependency library paths for this module.
-    list(LENGTH shared_lib_paths n_shared_lib_paths)
-    if(n_shared_lib_paths LESS_EQUAL 1)
-      set(rest_shared_lib_paths)
-    else()
-      list(SUBLIST
-           shared_lib_paths
-           1
-           -1
-           rest_shared_lib_paths)
-    endif()
-
-    set(${prefix}_VERSION
-        "${${prefix}_PC_VERSION}"
-        PARENT_SCOPE)
-    set(${prefix}_INCLUDE_DIR
-        "${include_dir}"
-        PARENT_SCOPE)
-    set(${prefix}_SHARED_LIB
-        "${first_shared_lib_path}"
-        PARENT_SCOPE)
-
-    add_library(${target_shared} SHARED IMPORTED)
-    set_target_properties(${target_shared}
-                          PROPERTIES INTERFACE_INCLUDE_DIRECTORIES "${include_dir}"
-                                     INTERFACE_LINK_LIBRARIES "${rest_shared_lib_paths}"
-                                     IMPORTED_LOCATION "${first_shared_lib_path}")
-    get_target_property(shared_lib ${target_shared} IMPORTED_LOCATION)
-
-    find_library(${prefix}_static_lib
-                 NAMES "${static_lib_name}"
-                 PATHS "${lib_dir}"
-                 NO_DEFAULT_PATH)
-    set(static_lib "${${prefix}_static_lib}")
-    set(${prefix}_STATIC_LIB
-        "${static_lib}"
-        PARENT_SCOPE)
-    if(static_lib)
-      add_library(${target_static} STATIC IMPORTED)
-      set_target_properties(${target_static}
-                            PROPERTIES INTERFACE_INCLUDE_DIRECTORIES "${include_dir}"
-                                       IMPORTED_LOCATION "${static_lib}")
-    endif()
-  endif()
-endmacro()
-
-function(arrow_find_package
-         prefix
-         home
-         base_name
-         header_path
-         cmake_package_name
-         pkg_config_name)
-  arrow_build_shared_library_name(shared_lib_name ${base_name})
-  arrow_build_import_library_name(import_lib_name ${base_name})
-  arrow_build_static_library_name(static_lib_name ${base_name})
-
-  set(target_shared ${base_name}_shared)
-  set(target_static ${base_name}_static)
-
-  if(home)
-    arrow_find_package_home()
-    set(${prefix}_FIND_APPROACH
-        "HOME: ${home}"
-        PARENT_SCOPE)
-  else()
-    arrow_find_package_cmake_package_configuration()
-    if(${cmake_package_name}_FOUND)
-      set(${prefix}_FIND_APPROACH
-          "CMake package configuration: ${cmake_package_name}"
-          PARENT_SCOPE)
-    else()
-      arrow_find_package_pkg_config()
-      set(${prefix}_FIND_APPROACH
-          "pkg-config: ${pkg_config_name}"
-          PARENT_SCOPE)
-    endif()
-  endif()
-
-  if(NOT include_dir)
-    if(TARGET ${target_shared})
-      get_target_property(include_dir ${target_shared} INTERFACE_INCLUDE_DIRECTORIES)
-    elseif(TARGET ${target_static})
-      get_target_property(include_dir ${target_static} INTERFACE_INCLUDE_DIRECTORIES)
-    endif()
-  endif()
-  if(include_dir)
-    set(${prefix}_INCLUDE_DIR
-        "${include_dir}"
-        PARENT_SCOPE)
-  endif()
-
-  if(shared_lib)
-    get_filename_component(lib_dir "${shared_lib}" DIRECTORY)
-  elseif(static_lib)
-    get_filename_component(lib_dir "${static_lib}" DIRECTORY)
-  else()
-    set(lib_dir NOTFOUND)
-  endif()
-  set(${prefix}_LIB_DIR
-      "${lib_dir}"
-      PARENT_SCOPE)
-  # For backward compatibility
-  set(${prefix}_LIBS
-      "${lib_dir}"
-      PARENT_SCOPE)
-endfunction()
-
-if(NOT "$ENV{ARROW_HOME}" STREQUAL "")
-  file(TO_CMAKE_PATH "$ENV{ARROW_HOME}" ARROW_HOME)
-endif()
-arrow_find_package(ARROW
-                   "${ARROW_HOME}"
-                   arrow
-                   arrow/api.h
-                   Arrow
-                   arrow)
-
-if(ARROW_HOME)
-  if(ARROW_INCLUDE_DIR)
-    file(READ "${ARROW_INCLUDE_DIR}/arrow/util/config.h" ARROW_CONFIG_H_CONTENT)
-    arrow_extract_macro_value(ARROW_VERSION_MAJOR "ARROW_VERSION_MAJOR"
-                              "${ARROW_CONFIG_H_CONTENT}")
-    arrow_extract_macro_value(ARROW_VERSION_MINOR "ARROW_VERSION_MINOR"
-                              "${ARROW_CONFIG_H_CONTENT}")
-    arrow_extract_macro_value(ARROW_VERSION_PATCH "ARROW_VERSION_PATCH"
-                              "${ARROW_CONFIG_H_CONTENT}")
-    if("${ARROW_VERSION_MAJOR}" STREQUAL ""
-       OR "${ARROW_VERSION_MINOR}" STREQUAL ""
-       OR "${ARROW_VERSION_PATCH}" STREQUAL "")
-      set(ARROW_VERSION "0.0.0")
-    else()
-      set(ARROW_VERSION
-          "${ARROW_VERSION_MAJOR}.${ARROW_VERSION_MINOR}.${ARROW_VERSION_PATCH}")
-    endif()
-
-    arrow_extract_macro_value(ARROW_SO_VERSION_QUOTED "ARROW_SO_VERSION"
-                              "${ARROW_CONFIG_H_CONTENT}")
-    string(REGEX REPLACE "^\"(.+)\"$" "\\1" ARROW_SO_VERSION "${ARROW_SO_VERSION_QUOTED}")
-    arrow_extract_macro_value(ARROW_FULL_SO_VERSION_QUOTED "ARROW_FULL_SO_VERSION"
-                              "${ARROW_CONFIG_H_CONTENT}")
-    string(REGEX REPLACE "^\"(.+)\"$" "\\1" ARROW_FULL_SO_VERSION
-                         "${ARROW_FULL_SO_VERSION_QUOTED}")
-  endif()
-else()
-  if(ARROW_USE_CMAKE_PACKAGE_CONFIG)
-    find_package(Arrow CONFIG)
-  elseif(ARROW_USE_PKG_CONFIG)
-    pkg_get_variable(ARROW_SO_VERSION arrow so_version)
-    pkg_get_variable(ARROW_FULL_SO_VERSION arrow full_so_version)
-  endif()
-endif()
-
-set(ARROW_ABI_VERSION ${ARROW_SO_VERSION})
-
-mark_as_advanced(ARROW_ABI_VERSION
-                 ARROW_CONFIG_SUFFIXES
-                 ARROW_FULL_SO_VERSION
-                 ARROW_IMPORT_LIB
-                 ARROW_INCLUDE_DIR
-                 ARROW_LIBS
-                 ARROW_LIB_DIR
-                 ARROW_SEARCH_LIB_PATH_SUFFIXES
-                 ARROW_SHARED_IMP_LIB
-                 ARROW_SHARED_LIB
-                 ARROW_SO_VERSION
-                 ARROW_STATIC_LIB
-                 ARROW_VERSION
-                 ARROW_VERSION_MAJOR
-                 ARROW_VERSION_MINOR
-                 ARROW_VERSION_PATCH)
-
-find_package_handle_standard_args(
-  Arrow
-  REQUIRED_VARS # The first required variable is shown
-                # in the found message. So this list is
-                # not sorted alphabetically.
-                ARROW_INCLUDE_DIR ARROW_LIB_DIR ARROW_FULL_SO_VERSION ARROW_SO_VERSION
-  VERSION_VAR ARROW_VERSION)
-set(ARROW_FOUND ${Arrow_FOUND})
-
-if(Arrow_FOUND AND NOT Arrow_FIND_QUIETLY)
-  message(STATUS "Arrow version: ${ARROW_VERSION} (${ARROW_FIND_APPROACH})")
-  message(STATUS "Arrow SO and ABI version: ${ARROW_SO_VERSION}")
-  message(STATUS "Arrow full SO version: ${ARROW_FULL_SO_VERSION}")
-  message(STATUS "Found the Arrow core shared library: ${ARROW_SHARED_LIB}")
-  message(STATUS "Found the Arrow core import library: ${ARROW_IMPORT_LIB}")
-  message(STATUS "Found the Arrow core static library: ${ARROW_STATIC_LIB}")
-endif()
diff --git a/cpp/cmake_modules/FindArrowCUDA.cmake b/cpp/cmake_modules/FindArrowCUDA.cmake
deleted file mode 100644
index 014386f3012..00000000000
--- a/cpp/cmake_modules/FindArrowCUDA.cmake
+++ /dev/null
@@ -1,88 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-# - Find Arrow CUDA (arrow/gpu/cuda_api.h, libarrow_cuda.a, libarrow_cuda.so)
-#
-# This module requires Arrow from which it uses
-#  arrow_find_package()
-#
-# This module defines
-#  ARROW_CUDA_FOUND, whether Arrow CUDA has been found
-#  ARROW_CUDA_IMPORT_LIB, path to libarrow_cuda's import library (Windows only)
-#  ARROW_CUDA_INCLUDE_DIR, directory containing headers
-#  ARROW_CUDA_LIBS, deprecated. Use ARROW_CUDA_LIB_DIR instead
-#  ARROW_CUDA_LIB_DIR, directory containing Arrow CUDA libraries
-#  ARROW_CUDA_SHARED_IMP_LIB, deprecated. Use ARROW_CUDA_IMPORT_LIB instead
-#  ARROW_CUDA_SHARED_LIB, path to libarrow_cuda's shared library
-#  ARROW_CUDA_STATIC_LIB, path to libarrow_cuda.a
-
-if(DEFINED ARROW_CUDA_FOUND)
-  return()
-endif()
-
-set(find_package_arguments)
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION)
-  list(APPEND find_package_arguments "${${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION}")
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_REQUIRED)
-  list(APPEND find_package_arguments REQUIRED)
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_QUIETLY)
-  list(APPEND find_package_arguments QUIET)
-endif()
-find_package(Arrow ${find_package_arguments})
-
-if(ARROW_FOUND)
-  arrow_find_package(ARROW_CUDA
-                     "${ARROW_HOME}"
-                     arrow_cuda
-                     arrow/gpu/cuda_api.h
-                     ArrowCUDA
-                     arrow-cuda)
-  if(NOT ARROW_CUDA_VERSION)
-    set(ARROW_CUDA_VERSION "${ARROW_VERSION}")
-  endif()
-endif()
-
-if("${ARROW_CUDA_VERSION}" VERSION_EQUAL "${ARROW_VERSION}")
-  set(ARROW_CUDA_VERSION_MATCH TRUE)
-else()
-  set(ARROW_CUDA_VERSION_MATCH FALSE)
-endif()
-
-mark_as_advanced(ARROW_CUDA_IMPORT_LIB
-                 ARROW_CUDA_INCLUDE_DIR
-                 ARROW_CUDA_LIBS
-                 ARROW_CUDA_LIB_DIR
-                 ARROW_CUDA_SHARED_IMP_LIB
-                 ARROW_CUDA_SHARED_LIB
-                 ARROW_CUDA_STATIC_LIB
-                 ARROW_CUDA_VERSION
-                 ARROW_CUDA_VERSION_MATCH)
-
-find_package_handle_standard_args(
-  ArrowCUDA
-  REQUIRED_VARS ARROW_CUDA_INCLUDE_DIR ARROW_CUDA_LIB_DIR ARROW_CUDA_VERSION_MATCH
-  VERSION_VAR ARROW_CUDA_VERSION)
-set(ARROW_CUDA_FOUND ${ArrowCUDA_FOUND})
-
-if(ArrowCUDA_FOUND AND NOT ArrowCUDA_FIND_QUIETLY)
-  message(STATUS "Found the Arrow CUDA by ${ARROW_CUDA_FIND_APPROACH}")
-  message(STATUS "Found the Arrow CUDA shared library: ${ARROW_CUDA_SHARED_LIB}")
-  message(STATUS "Found the Arrow CUDA import library: ${ARROW_CUDA_IMPORT_LIB}")
-  message(STATUS "Found the Arrow CUDA static library: ${ARROW_CUDA_STATIC_LIB}")
-endif()
diff --git a/cpp/cmake_modules/FindArrowDataset.cmake b/cpp/cmake_modules/FindArrowDataset.cmake
deleted file mode 100644
index e6ecc1b43ba..00000000000
--- a/cpp/cmake_modules/FindArrowDataset.cmake
+++ /dev/null
@@ -1,88 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-# - Find Arrow Dataset (arrow/dataset/api.h, libarrow_dataset.a, libarrow_dataset.so)
-#
-# This module requires Arrow from which it uses
-#  arrow_find_package()
-#
-# This module defines
-#  ARROW_DATASET_FOUND, whether Arrow Dataset has been found
-#  ARROW_DATASET_IMPORT_LIB,
-#    path to libarrow_dataset's import library (Windows only)
-#  ARROW_DATASET_INCLUDE_DIR, directory containing headers
-#  ARROW_DATASET_LIB_DIR, directory containing Arrow Dataset libraries
-#  ARROW_DATASET_SHARED_LIB, path to libarrow_dataset's shared library
-#  ARROW_DATASET_STATIC_LIB, path to libarrow_dataset.a
-
-if(DEFINED ARROW_DATASET_FOUND)
-  return()
-endif()
-
-set(find_package_arguments)
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION)
-  list(APPEND find_package_arguments "${${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION}")
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_REQUIRED)
-  list(APPEND find_package_arguments REQUIRED)
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_QUIETLY)
-  list(APPEND find_package_arguments QUIET)
-endif()
-find_package(Arrow ${find_package_arguments})
-
-if(ARROW_FOUND)
-  arrow_find_package(ARROW_DATASET
-                     "${ARROW_HOME}"
-                     arrow_dataset
-                     arrow/dataset/api.h
-                     ArrowDataset
-                     arrow-dataset)
-  if(NOT ARROW_DATASET_VERSION)
-    set(ARROW_DATASET_VERSION "${ARROW_VERSION}")
-  endif()
-endif()
-
-if("${ARROW_DATASET_VERSION}" VERSION_EQUAL "${ARROW_VERSION}")
-  set(ARROW_DATASET_VERSION_MATCH TRUE)
-else()
-  set(ARROW_DATASET_VERSION_MATCH FALSE)
-endif()
-
-mark_as_advanced(ARROW_DATASET_IMPORT_LIB
-                 ARROW_DATASET_INCLUDE_DIR
-                 ARROW_DATASET_LIBS
-                 ARROW_DATASET_LIB_DIR
-                 ARROW_DATASET_SHARED_IMP_LIB
-                 ARROW_DATASET_SHARED_LIB
-                 ARROW_DATASET_STATIC_LIB
-                 ARROW_DATASET_VERSION
-                 ARROW_DATASET_VERSION_MATCH)
-
-find_package_handle_standard_args(
-  ArrowDataset
-  REQUIRED_VARS ARROW_DATASET_INCLUDE_DIR ARROW_DATASET_LIB_DIR
-                ARROW_DATASET_VERSION_MATCH
-  VERSION_VAR ARROW_DATASET_VERSION)
-set(ARROW_DATASET_FOUND ${ArrowDataset_FOUND})
-
-if(ArrowDataset_FOUND AND NOT ArrowDataset_FIND_QUIETLY)
-  message(STATUS "Found the Arrow Dataset by ${ARROW_DATASET_FIND_APPROACH}")
-  message(STATUS "Found the Arrow Dataset shared library: ${ARROW_DATASET_SHARED_LIB}")
-  message(STATUS "Found the Arrow Dataset import library: ${ARROW_DATASET_IMPORT_LIB}")
-  message(STATUS "Found the Arrow Dataset static library: ${ARROW_DATASET_STATIC_LIB}")
-endif()
diff --git a/cpp/cmake_modules/FindArrowFlight.cmake b/cpp/cmake_modules/FindArrowFlight.cmake
deleted file mode 100644
index 805a4ff3803..00000000000
--- a/cpp/cmake_modules/FindArrowFlight.cmake
+++ /dev/null
@@ -1,89 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-# - Find Arrow Flight (arrow/flight/api.h, libarrow_flight.a, libarrow_flight.so)
-#
-# This module requires Arrow from which it uses
-#  arrow_find_package()
-#
-# This module defines
-#  ARROW_FLIGHT_FOUND, whether Flight has been found
-#  ARROW_FLIGHT_IMPORT_LIB,
-#    path to libarrow_flight's import library (Windows only)
-#  ARROW_FLIGHT_INCLUDE_DIR, directory containing headers
-#  ARROW_FLIGHT_LIBS, deprecated. Use ARROW_FLIGHT_LIB_DIR instead
-#  ARROW_FLIGHT_LIB_DIR, directory containing Flight libraries
-#  ARROW_FLIGHT_SHARED_IMP_LIB, deprecated. Use ARROW_FLIGHT_IMPORT_LIB instead
-#  ARROW_FLIGHT_SHARED_LIB, path to libarrow_flight's shared library
-#  ARROW_FLIGHT_STATIC_LIB, path to libarrow_flight.a
-
-if(DEFINED ARROW_FLIGHT_FOUND)
-  return()
-endif()
-
-set(find_package_arguments)
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION)
-  list(APPEND find_package_arguments "${${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION}")
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_REQUIRED)
-  list(APPEND find_package_arguments REQUIRED)
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_QUIETLY)
-  list(APPEND find_package_arguments QUIET)
-endif()
-find_package(Arrow ${find_package_arguments})
-
-if(ARROW_FOUND)
-  arrow_find_package(ARROW_FLIGHT
-                     "${ARROW_HOME}"
-                     arrow_flight
-                     arrow/flight/api.h
-                     ArrowFlight
-                     arrow-flight)
-  if(NOT ARROW_FLIGHT_VERSION)
-    set(ARROW_FLIGHT_VERSION "${ARROW_VERSION}")
-  endif()
-endif()
-
-if("${ARROW_FLIGHT_VERSION}" VERSION_EQUAL "${ARROW_VERSION}")
-  set(ARROW_FLIGHT_VERSION_MATCH TRUE)
-else()
-  set(ARROW_FLIGHT_VERSION_MATCH FALSE)
-endif()
-
-mark_as_advanced(ARROW_FLIGHT_IMPORT_LIB
-                 ARROW_FLIGHT_INCLUDE_DIR
-                 ARROW_FLIGHT_LIBS
-                 ARROW_FLIGHT_LIB_DIR
-                 ARROW_FLIGHT_SHARED_IMP_LIB
-                 ARROW_FLIGHT_SHARED_LIB
-                 ARROW_FLIGHT_STATIC_LIB
-                 ARROW_FLIGHT_VERSION
-                 ARROW_FLIGHT_VERSION_MATCH)
-
-find_package_handle_standard_args(
-  ArrowFlight
-  REQUIRED_VARS ARROW_FLIGHT_INCLUDE_DIR ARROW_FLIGHT_LIB_DIR ARROW_FLIGHT_VERSION_MATCH
-  VERSION_VAR ARROW_FLIGHT_VERSION)
-set(ARROW_FLIGHT_FOUND ${ArrowFlight_FOUND})
-
-if(ArrowFlight_FOUND AND NOT ArrowFlight_FIND_QUIETLY)
-  message(STATUS "Found the Arrow Flight by ${ARROW_FLIGHT_FIND_APPROACH}")
-  message(STATUS "Found the Arrow Flight shared library: ${ARROW_FLIGHT_SHARED_LIB}")
-  message(STATUS "Found the Arrow Flight import library: ${ARROW_FLIGHT_IMPORT_LIB}")
-  message(STATUS "Found the Arrow Flight static library: ${ARROW_FLIGHT_STATIC_LIB}")
-endif()
diff --git a/cpp/cmake_modules/FindArrowFlightSql.cmake b/cpp/cmake_modules/FindArrowFlightSql.cmake
deleted file mode 100644
index cbca81cac44..00000000000
--- a/cpp/cmake_modules/FindArrowFlightSql.cmake
+++ /dev/null
@@ -1,93 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-# - Find Arrow Flight SQL
-#
-# This module requires Arrow from which it uses
-#  arrow_find_package()
-#
-# This module defines
-#  ARROW_FLIGHT_SQL_FOUND, whether Flight has been found
-#  ARROW_FLIGHT_SQL_IMPORT_LIB,
-#    path to libarrow_flight's import library (Windows only)
-#  ARROW_FLIGHT_SQL_INCLUDE_DIR, directory containing headers
-#  ARROW_FLIGHT_SQL_LIBS, deprecated. Use ARROW_FLIGHT_SQL_LIB_DIR instead
-#  ARROW_FLIGHT_SQL_LIB_DIR, directory containing Flight libraries
-#  ARROW_FLIGHT_SQL_SHARED_IMP_LIB, deprecated. Use ARROW_FLIGHT_SQL_IMPORT_LIB instead
-#  ARROW_FLIGHT_SQL_SHARED_LIB, path to libarrow_flight's shared library
-#  ARROW_FLIGHT_SQL_STATIC_LIB, path to libarrow_flight.a
-
-if(DEFINED ARROW_FLIGHT_SQL_FOUND)
-  return()
-endif()
-
-set(find_package_arguments)
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION)
-  list(APPEND find_package_arguments "${${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION}")
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_REQUIRED)
-  list(APPEND find_package_arguments REQUIRED)
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_QUIETLY)
-  list(APPEND find_package_arguments QUIET)
-endif()
-find_package(Arrow ${find_package_arguments})
-
-if(ARROW_FOUND)
-  arrow_find_package(ARROW_FLIGHT_SQL
-                     "${ARROW_HOME}"
-                     arrow_flight_sql
-                     arrow/flight/sql/api.h
-                     ArrowFlightSql
-                     arrow-flight-sql)
-  if(NOT ARROW_FLIGHT_SQL_VERSION)
-    set(ARROW_FLIGHT_SQL_VERSION "${ARROW_VERSION}")
-  endif()
-endif()
-
-if("${ARROW_FLIGHT_SQL_VERSION}" VERSION_EQUAL "${ARROW_VERSION}")
-  set(ARROW_FLIGHT_SQL_VERSION_MATCH TRUE)
-else()
-  set(ARROW_FLIGHT_SQL_VERSION_MATCH FALSE)
-endif()
-
-mark_as_advanced(ARROW_FLIGHT_SQL_IMPORT_LIB
-                 ARROW_FLIGHT_SQL_INCLUDE_DIR
-                 ARROW_FLIGHT_SQL_LIBS
-                 ARROW_FLIGHT_SQL_LIB_DIR
-                 ARROW_FLIGHT_SQL_SHARED_IMP_LIB
-                 ARROW_FLIGHT_SQL_SHARED_LIB
-                 ARROW_FLIGHT_SQL_STATIC_LIB
-                 ARROW_FLIGHT_SQL_VERSION
-                 ARROW_FLIGHT_SQL_VERSION_MATCH)
-
-find_package_handle_standard_args(
-  ArrowFlightSql
-  REQUIRED_VARS ARROW_FLIGHT_SQL_INCLUDE_DIR ARROW_FLIGHT_SQL_LIB_DIR
-                ARROW_FLIGHT_SQL_VERSION_MATCH
-  VERSION_VAR ARROW_FLIGHT_SQL_VERSION)
-set(ARROW_FLIGHT_SQL_FOUND ${ArrowFlightSql_FOUND})
-
-if(ArrowFlightSql_FOUND AND NOT ArrowFlightSql_FIND_QUIETLY)
-  message(STATUS "Found the Arrow Flight SQL by ${ARROW_FLIGHT_SQL_FIND_APPROACH}")
-  message(STATUS "Found the Arrow Flight SQL shared library: ${ARROW_FLIGHT_SQL_SHARED_LIB}"
-  )
-  message(STATUS "Found the Arrow Flight SQL import library: ${ARROW_FLIGHT_SQL_IMPORT_LIB}"
-  )
-  message(STATUS "Found the Arrow Flight SQL static library: ${ARROW_FLIGHT_SQL_STATIC_LIB}"
-  )
-endif()
diff --git a/cpp/cmake_modules/FindArrowFlightTesting.cmake b/cpp/cmake_modules/FindArrowFlightTesting.cmake
deleted file mode 100644
index c0756cf637c..00000000000
--- a/cpp/cmake_modules/FindArrowFlightTesting.cmake
+++ /dev/null
@@ -1,98 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-# - Find Arrow Flight testing library
-#   (arrow/flight/test_util.h,
-#    libarrow_flight_testing.a,
-#    libarrow_flight_testing.so)
-#
-# This module requires Arrow from which it uses
-#  arrow_find_package()
-#
-# This module defines
-#  ARROW_FLIGHT_TESTING_FOUND,
-#    whether Arrow Flight testing library has been found
-#  ARROW_FLIGHT_TESTING_IMPORT_LIB,
-#    path to libarrow_flight_testing's import library (Windows only)
-#  ARROW_FLIGHT_TESTING_INCLUDE_DIR, directory containing headers
-#  ARROW_FLIGHT_TESTING_LIB_DIR, directory containing Arrow testing libraries
-#  ARROW_FLIGHT_TESTING_SHARED_LIB,
-#    path to libarrow_flight_testing's shared library
-#  ARROW_FLIGHT_TESTING_STATIC_LIB, path to libarrow_flight_testing.a
-
-if(DEFINED ARROW_FLIGHT_TESTING_FOUND)
-  return()
-endif()
-
-set(find_package_arguments)
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION)
-  list(APPEND find_package_arguments "${${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION}")
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_REQUIRED)
-  list(APPEND find_package_arguments REQUIRED)
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_QUIETLY)
-  list(APPEND find_package_arguments QUIET)
-endif()
-find_package(ArrowFlight ${find_package_arguments})
-find_package(ArrowTesting ${find_package_arguments})
-
-if(ARROW_TESTING_FOUND AND ARROW_FLIGHT_FOUND)
-  arrow_find_package(ARROW_FLIGHT_TESTING
-                     "${ARROW_HOME}"
-                     arrow_flight_testing
-                     arrow/flight/test_util.h
-                     ArrowFlightTesting
-                     arrow-flight-testing)
-  if(NOT ARROW_FLIGHT_TESTING_VERSION)
-    set(ARROW_FLIGHT_TESTING_VERSION "${ARROW_VERSION}")
-  endif()
-endif()
-
-if("${ARROW_FLIGHT_TESTING_VERSION}" VERSION_EQUAL "${ARROW_VERSION}")
-  set(ARROW_FLIGHT_TESTING_VERSION_MATCH TRUE)
-else()
-  set(ARROW_FLIGHT_TESTING_VERSION_MATCH FALSE)
-endif()
-
-mark_as_advanced(ARROW_FLIGHT_TESTING_IMPORT_LIB
-                 ARROW_FLIGHT_TESTING_INCLUDE_DIR
-                 ARROW_FLIGHT_TESTING_LIBS
-                 ARROW_FLIGHT_TESTING_LIB_DIR
-                 ARROW_FLIGHT_TESTING_SHARED_IMP_LIB
-                 ARROW_FLIGHT_TESTING_SHARED_LIB
-                 ARROW_FLIGHT_TESTING_STATIC_LIB
-                 ARROW_FLIGHT_TESTING_VERSION
-                 ARROW_FLIGHT_TESTING_VERSION_MATCH)
-
-find_package_handle_standard_args(
-  ArrowFlightTesting
-  REQUIRED_VARS ARROW_FLIGHT_TESTING_INCLUDE_DIR ARROW_FLIGHT_TESTING_LIB_DIR
-                ARROW_FLIGHT_TESTING_VERSION_MATCH
-  VERSION_VAR ARROW_FLIGHT_TESTING_VERSION)
-set(ARROW_FLIGHT_TESTING_FOUND ${ArrowFlightTesting_FOUND})
-
-if(ArrowFlightTesting_FOUND AND NOT ArrowFlightTesting_FIND_QUIETLY)
-  message(STATUS "Found the Arrow Flight testing by ${ARROW_FLIGHT_TESTING_FIND_APPROACH}"
-  )
-  message(STATUS "Found the Arrow Flight testing shared library: ${ARROW_FLIGHT_TESTING_SHARED_LIB}"
-  )
-  message(STATUS "Found the Arrow Flight testing import library: ${ARROW_FLIGHT_TESTING_IMPORT_LIB}"
-  )
-  message(STATUS "Found the Arrow Flight testing static library: ${ARROW_FLIGHT_TESTING_STATIC_LIB}"
-  )
-endif()
diff --git a/cpp/cmake_modules/FindArrowPython.cmake b/cpp/cmake_modules/FindArrowPython.cmake
deleted file mode 100644
index b503e6a9e02..00000000000
--- a/cpp/cmake_modules/FindArrowPython.cmake
+++ /dev/null
@@ -1,87 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-# - Find Arrow Python (arrow/python/api.h, libarrow_python.a, libarrow_python.so)
-#
-# This module requires Arrow from which it uses
-#  arrow_find_package()
-#
-# This module defines
-#  ARROW_PYTHON_FOUND, whether Arrow Python has been found
-#  ARROW_PYTHON_IMPORT_LIB,
-#    path to libarrow_python's import library (Windows only)
-#  ARROW_PYTHON_INCLUDE_DIR, directory containing headers
-#  ARROW_PYTHON_LIB_DIR, directory containing Arrow Python libraries
-#  ARROW_PYTHON_SHARED_LIB, path to libarrow_python's shared library
-#  ARROW_PYTHON_STATIC_LIB, path to libarrow_python.a
-
-if(DEFINED ARROW_PYTHON_FOUND)
-  return()
-endif()
-
-set(find_package_arguments)
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION)
-  list(APPEND find_package_arguments "${${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION}")
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_REQUIRED)
-  list(APPEND find_package_arguments REQUIRED)
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_QUIETLY)
-  list(APPEND find_package_arguments QUIET)
-endif()
-find_package(Arrow ${find_package_arguments})
-
-if(ARROW_FOUND)
-  arrow_find_package(ARROW_PYTHON
-                     "${ARROW_HOME}"
-                     arrow_python
-                     arrow/python/api.h
-                     ArrowPython
-                     arrow-python)
-  if(NOT ARROW_PYTHON_VERSION)
-    set(ARROW_PYTHON_VERSION "${ARROW_VERSION}")
-  endif()
-endif()
-
-if("${ARROW_PYTHON_VERSION}" VERSION_EQUAL "${ARROW_VERSION}")
-  set(ARROW_PYTHON_VERSION_MATCH TRUE)
-else()
-  set(ARROW_PYTHON_VERSION_MATCH FALSE)
-endif()
-
-mark_as_advanced(ARROW_PYTHON_IMPORT_LIB
-                 ARROW_PYTHON_INCLUDE_DIR
-                 ARROW_PYTHON_LIBS
-                 ARROW_PYTHON_LIB_DIR
-                 ARROW_PYTHON_SHARED_IMP_LIB
-                 ARROW_PYTHON_SHARED_LIB
-                 ARROW_PYTHON_STATIC_LIB
-                 ARROW_PYTHON_VERSION
-                 ARROW_PYTHON_VERSION_MATCH)
-
-find_package_handle_standard_args(
-  ArrowPython
-  REQUIRED_VARS ARROW_PYTHON_INCLUDE_DIR ARROW_PYTHON_LIB_DIR ARROW_PYTHON_VERSION_MATCH
-  VERSION_VAR ARROW_PYTHON_VERSION)
-set(ARROW_PYTHON_FOUND ${ArrowPython_FOUND})
-
-if(ArrowPython_FOUND AND NOT ArrowPython_FIND_QUIETLY)
-  message(STATUS "Found the Arrow Python by ${ARROW_PYTHON_FIND_APPROACH}")
-  message(STATUS "Found the Arrow Python shared library: ${ARROW_PYTHON_SHARED_LIB}")
-  message(STATUS "Found the Arrow Python import library: ${ARROW_PYTHON_IMPORT_LIB}")
-  message(STATUS "Found the Arrow Python static library: ${ARROW_PYTHON_STATIC_LIB}")
-endif()
diff --git a/cpp/cmake_modules/FindArrowPythonFlight.cmake b/cpp/cmake_modules/FindArrowPythonFlight.cmake
deleted file mode 100644
index 3a639928ce5..00000000000
--- a/cpp/cmake_modules/FindArrowPythonFlight.cmake
+++ /dev/null
@@ -1,94 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-# - Find Arrow Python Flight
-#   (arrow/python/flight.h, libarrow_python_flight.a, libarrow_python_flight.so)
-#
-# This module requires Arrow from which it uses
-#  arrow_find_package()
-#
-# This module defines
-#  ARROW_PYTHON_FLIGHT_FOUND, whether Arrow Python Flight has been found
-#  ARROW_PYTHON_FLIGHT_IMPORT_LIB,
-#    path to libarrow_python_flight's import library (Windows only)
-#  ARROW_PYTHON_FLIGHT_INCLUDE_DIR, directory containing headers
-#  ARROW_PYTHON_FLIGHT_LIB_DIR,
-#    directory containing Arrow Python Flight libraries
-#  ARROW_PYTHON_FLIGHT_SHARED_LIB, path to libarrow_python_flight's shared library
-#  ARROW_PYTHON_FLIGHT_STATIC_LIB, path to libarrow_python_flight.a
-
-if(DEFINED ARROW_PYTHON_FLIGHT_FOUND)
-  return()
-endif()
-
-set(find_package_arguments)
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION)
-  list(APPEND find_package_arguments "${${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION}")
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_REQUIRED)
-  list(APPEND find_package_arguments REQUIRED)
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_QUIETLY)
-  list(APPEND find_package_arguments QUIET)
-endif()
-find_package(ArrowFlight ${find_package_arguments})
-find_package(ArrowPython ${find_package_arguments})
-
-if(ARROW_PYTHON_FOUND AND ARROW_FLIGHT_FOUND)
-  arrow_find_package(ARROW_PYTHON_FLIGHT
-                     "${ARROW_HOME}"
-                     arrow_python_flight
-                     arrow/python/flight.h
-                     ArrowPythonFlight
-                     arrow-python-flight)
-  if(NOT ARROW_PYTHON_FLIGHT_VERSION)
-    set(ARROW_PYTHON_FLIGHT_VERSION "${ARROW_VERSION}")
-  endif()
-endif()
-
-if("${ARROW_PYTHON_FLIGHT_VERSION}" VERSION_EQUAL "${ARROW_VERSION}")
-  set(ARROW_PYTHON_FLIGHT_VERSION_MATCH TRUE)
-else()
-  set(ARROW_PYTHON_FLIGHT_VERSION_MATCH FALSE)
-endif()
-
-mark_as_advanced(ARROW_PYTHON_FLIGHT_IMPORT_LIB
-                 ARROW_PYTHON_FLIGHT_INCLUDE_DIR
-                 ARROW_PYTHON_FLIGHT_LIBS
-                 ARROW_PYTHON_FLIGHT_LIB_DIR
-                 ARROW_PYTHON_FLIGHT_SHARED_IMP_LIB
-                 ARROW_PYTHON_FLIGHT_SHARED_LIB
-                 ARROW_PYTHON_FLIGHT_STATIC_LIB
-                 ARROW_PYTHON_FLIGHT_VERSION
-                 ARROW_PYTHON_FLIGHT_VERSION_MATCH)
-
-find_package_handle_standard_args(
-  ArrowPythonFlight
-  REQUIRED_VARS ARROW_PYTHON_FLIGHT_INCLUDE_DIR ARROW_PYTHON_FLIGHT_LIB_DIR
-                ARROW_PYTHON_FLIGHT_VERSION_MATCH
-  VERSION_VAR ARROW_PYTHON_FLIGHT_VERSION)
-set(ARROW_PYTHON_FLIGHT_FOUND ${ArrowPythonFlight_FOUND})
-
-if(ArrowPythonFlight_FOUND AND NOT ArrowPythonFlight_FIND_QUIETLY)
-  message(STATUS "Found the Arrow Python Flight by ${ARROW_PYTHON_FLIGHT_FIND_APPROACH}")
-  message(STATUS "Found the Arrow Python Flight shared library: ${ARROW_PYTHON_FLIGHT_SHARED_LIB}"
-  )
-  message(STATUS "Found the Arrow Python Flight import library: ${ARROW_PYTHON_FLIGHT_IMPORT_LIB}"
-  )
-  message(STATUS "Found the Arrow Python Flight static library: ${ARROW_PYTHON_FLIGHT_STATIC_LIB}"
-  )
-endif()
diff --git a/cpp/cmake_modules/FindArrowSubstrait.cmake b/cpp/cmake_modules/FindArrowSubstrait.cmake
deleted file mode 100644
index 165a05a0cb8..00000000000
--- a/cpp/cmake_modules/FindArrowSubstrait.cmake
+++ /dev/null
@@ -1,92 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-# - Find Arrow Substrait (libarrow_substrait.so)
-#
-# This module requires Arrow from which it uses
-#  arrow_find_package()
-#
-# This module defines
-#  ARROW_SUBSTRAIT_FOUND, whether Arrow Substrait has been found
-#  ARROW_SUBSTRAIT_IMPORT_LIB,
-#    path to libarrow_substrait's import library (Windows only)
-#  ARROW_SUBSTRAIT_INCLUDE_DIR, directory containing headers
-#  ARROW_SUBSTRAIT_LIB_DIR, directory containing Arrow Substrait libraries
-#  ARROW_SUBSTRAIT_SHARED_LIB, path to libarrow_substrait's shared library
-#  ARROW_SUBSTRAIT_STATIC_LIB, path to libarrow_substrait.a
-
-if(DEFINED ARROW_SUBSTRAIT_FOUND)
-  return()
-endif()
-
-set(find_package_arguments)
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION)
-  list(APPEND find_package_arguments "${${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION}")
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_REQUIRED)
-  list(APPEND find_package_arguments REQUIRED)
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_QUIETLY)
-  list(APPEND find_package_arguments QUIET)
-endif()
-find_package(Arrow ${find_package_arguments})
-find_package(Parquet ${find_package_arguments})
-
-if(ARROW_FOUND AND PARQUET_FOUND)
-  arrow_find_package(ARROW_SUBSTRAIT
-                     "${ARROW_HOME}"
-                     arrow_substrait
-                     arrow/engine/substrait/api.h
-                     ArrowSubstrait
-                     arrow-substrait)
-  if(NOT ARROW_SUBSTRAIT_VERSION)
-    set(ARROW_SUBSTRAIT_VERSION "${ARROW_VERSION}")
-  endif()
-endif()
-
-if("${ARROW_SUBSTRAIT_VERSION}" VERSION_EQUAL "${ARROW_VERSION}")
-  set(ARROW_SUBSTRAIT_VERSION_MATCH TRUE)
-else()
-  set(ARROW_SUBSTRAIT_VERSION_MATCH FALSE)
-endif()
-
-mark_as_advanced(ARROW_SUBSTRAIT_IMPORT_LIB
-                 ARROW_SUBSTRAIT_INCLUDE_DIR
-                 ARROW_SUBSTRAIT_LIBS
-                 ARROW_SUBSTRAIT_LIB_DIR
-                 ARROW_SUBSTRAIT_SHARED_IMP_LIB
-                 ARROW_SUBSTRAIT_SHARED_LIB
-                 ARROW_SUBSTRAIT_STATIC_LIB
-                 ARROW_SUBSTRAIT_VERSION
-                 ARROW_SUBSTRAIT_VERSION_MATCH)
-
-find_package_handle_standard_args(
-  ArrowSubstrait
-  REQUIRED_VARS ARROW_SUBSTRAIT_INCLUDE_DIR ARROW_SUBSTRAIT_LIB_DIR
-                ARROW_SUBSTRAIT_VERSION_MATCH
-  VERSION_VAR ARROW_SUBSTRAIT_VERSION)
-set(ARROW_SUBSTRAIT_FOUND ${ArrowSubstrait_FOUND})
-
-if(ArrowSubstrait_FOUND AND NOT ArrowSubstrait_FIND_QUIETLY)
-  message(STATUS "Found the Arrow Substrait by ${ARROW_SUBSTRAIT_FIND_APPROACH}")
-  message(STATUS "Found the Arrow Substrait shared library: ${ARROW_SUBSTRAIT_SHARED_LIB}"
-  )
-  message(STATUS "Found the Arrow Substrait import library: ${ARROW_SUBSTRAIT_IMPORT_LIB}"
-  )
-  message(STATUS "Found the Arrow Substrait static library: ${ARROW_SUBSTRAIT_STATIC_LIB}"
-  )
-endif()
diff --git a/cpp/cmake_modules/FindArrowTesting.cmake b/cpp/cmake_modules/FindArrowTesting.cmake
deleted file mode 100644
index c405003ad70..00000000000
--- a/cpp/cmake_modules/FindArrowTesting.cmake
+++ /dev/null
@@ -1,89 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-# - Find Arrow testing library
-#   (arrow/testing/util.h, libarrow_testing.a, libarrow_testing.so)
-#
-# This module requires Arrow from which it uses
-#  arrow_find_package()
-#
-# This module defines
-#  ARROW_TESTING_FOUND, whether Arrow testing library has been found
-#  ARROW_TESTING_IMPORT_LIB,
-#    path to libarrow_testing's import library (Windows only)
-#  ARROW_TESTING_INCLUDE_DIR, directory containing headers
-#  ARROW_TESTING_LIB_DIR, directory containing Arrow testing libraries
-#  ARROW_TESTING_SHARED_LIB, path to libarrow_testing's shared library
-#  ARROW_TESTING_STATIC_LIB, path to libarrow_testing.a
-
-if(DEFINED ARROW_TESTING_FOUND)
-  return()
-endif()
-
-set(find_package_arguments)
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION)
-  list(APPEND find_package_arguments "${${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION}")
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_REQUIRED)
-  list(APPEND find_package_arguments REQUIRED)
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_QUIETLY)
-  list(APPEND find_package_arguments QUIET)
-endif()
-find_package(Arrow ${find_package_arguments})
-
-if(ARROW_FOUND)
-  arrow_find_package(ARROW_TESTING
-                     "${ARROW_HOME}"
-                     arrow_testing
-                     arrow/testing/util.h
-                     ArrowTesting
-                     arrow-testing)
-  if(NOT ARROW_TESTING_VERSION)
-    set(ARROW_TESTING_VERSION "${ARROW_VERSION}")
-  endif()
-endif()
-
-if("${ARROW_TESTING_VERSION}" VERSION_EQUAL "${ARROW_VERSION}")
-  set(ARROW_TESTING_VERSION_MATCH TRUE)
-else()
-  set(ARROW_TESTING_VERSION_MATCH FALSE)
-endif()
-
-mark_as_advanced(ARROW_TESTING_IMPORT_LIB
-                 ARROW_TESTING_INCLUDE_DIR
-                 ARROW_TESTING_LIBS
-                 ARROW_TESTING_LIB_DIR
-                 ARROW_TESTING_SHARED_IMP_LIB
-                 ARROW_TESTING_SHARED_LIB
-                 ARROW_TESTING_STATIC_LIB
-                 ARROW_TESTING_VERSION
-                 ARROW_TESTING_VERSION_MATCH)
-
-find_package_handle_standard_args(
-  ArrowTesting
-  REQUIRED_VARS ARROW_TESTING_INCLUDE_DIR ARROW_TESTING_LIB_DIR
-                ARROW_TESTING_VERSION_MATCH
-  VERSION_VAR ARROW_TESTING_VERSION)
-set(ARROW_TESTING_FOUND ${ArrowTesting_FOUND})
-
-if(ArrowTesting_FOUND AND NOT ArrowTesting_FIND_QUIETLY)
-  message(STATUS "Found the Arrow testing by ${ARROW_TESTING_FIND_APPROACH}")
-  message(STATUS "Found the Arrow testing shared library: ${ARROW_TESTING_SHARED_LIB}")
-  message(STATUS "Found the Arrow testing import library: ${ARROW_TESTING_IMPORT_LIB}")
-  message(STATUS "Found the Arrow testing static library: ${ARROW_TESTING_STATIC_LIB}")
-endif()
diff --git a/cpp/cmake_modules/FindBrotli.cmake b/cpp/cmake_modules/FindBrotliAlt.cmake
similarity index 79%
rename from cpp/cmake_modules/FindBrotli.cmake
rename to cpp/cmake_modules/FindBrotliAlt.cmake
index e2670b51a9e..3c90329be96 100644
--- a/cpp/cmake_modules/FindBrotli.cmake
+++ b/cpp/cmake_modules/FindBrotliAlt.cmake
@@ -15,7 +15,42 @@
 #
 # Usage of this module as follows:
 #
-#  find_package(Brotli)
+#  find_package(BrotliAlt)
+
+if(BrotliAlt_FOUND)
+  return()
+endif()
+
+if(ARROW_PACKAGE_KIND STREQUAL "vcpkg" OR ARROW_PACKAGE_KIND STREQUAL "conan")
+  set(find_package_args "")
+  if(BrotliAlt_FIND_VERSION)
+    list(APPEND find_package_args ${BrotliAlt_FIND_VERSION})
+  endif()
+  if(BrotliAlt_FIND_QUIETLY)
+    list(APPEND find_package_args QUIET)
+  endif()
+  if(BrotliAlt_FIND_REQUIRED)
+    list(APPEND find_package_args REQUIRED)
+  endif()
+  if(ARROW_PACKAGE_KIND STREQUAL "vcpkg")
+    find_package(BrotliAlt NAMES unofficial-brotli ${find_package_args})
+  else()
+    find_package(BrotliAlt NAMES brotli ${find_package_args})
+  endif()
+  set(Brotli_FOUND ${BrotliAlt_FOUND})
+  if(BrotliAlt_FOUND)
+    if(ARROW_PACKAGE_KIND STREQUAL "vcpkg")
+      add_library(Brotli::brotlicommon ALIAS unofficial::brotli::brotlicommon)
+      add_library(Brotli::brotlienc ALIAS unofficial::brotli::brotlienc)
+      add_library(Brotli::brotlidec ALIAS unofficial::brotli::brotlidec)
+    else()
+      add_library(Brotli::brotlicommon ALIAS brotli::brotlicommon)
+      add_library(Brotli::brotlienc ALIAS brotli::brotlienc)
+      add_library(Brotli::brotlidec ALIAS brotli::brotlidec)
+    endif()
+    return()
+  endif()
+endif()
 
 if(ARROW_BROTLI_USE_SHARED)
   set(BROTLI_COMMON_LIB_NAMES
@@ -111,10 +146,10 @@ else()
 endif()
 
 find_package_handle_standard_args(
-  Brotli REQUIRED_VARS BROTLI_COMMON_LIBRARY BROTLI_ENC_LIBRARY BROTLI_DEC_LIBRARY
-                       BROTLI_INCLUDE_DIR)
-if(Brotli_FOUND OR BROTLI_FOUND)
-  set(Brotli_FOUND TRUE)
+  BrotliAlt REQUIRED_VARS BROTLI_COMMON_LIBRARY BROTLI_ENC_LIBRARY BROTLI_DEC_LIBRARY
+                          BROTLI_INCLUDE_DIR)
+set(Brotli_FOUND ${BrotliAlt_FOUND})
+if(BrotliAlt_FOUND)
   add_library(Brotli::brotlicommon UNKNOWN IMPORTED)
   set_target_properties(Brotli::brotlicommon
                         PROPERTIES IMPORTED_LOCATION "${BROTLI_COMMON_LIBRARY}"
diff --git a/cpp/cmake_modules/FindClangTools.cmake b/cpp/cmake_modules/FindClangTools.cmake
index da27d2afcdb..a00ff2c939d 100644
--- a/cpp/cmake_modules/FindClangTools.cmake
+++ b/cpp/cmake_modules/FindClangTools.cmake
@@ -41,8 +41,21 @@ set(CLANG_TOOLS_SEARCH_PATHS
     /usr/bin
     "C:/Program Files/LLVM/bin" # Windows, non-conda
     "$ENV{CONDA_PREFIX}/Library/bin") # Windows, conda
-if(CLANG_TOOLS_BREW_PREFIX)
-  list(APPEND CLANG_TOOLS_SEARCH_PATHS "${CLANG_TOOLS_BREW}/bin")
+if(APPLE)
+  find_program(BREW brew)
+  if(BREW)
+    execute_process(COMMAND ${BREW} --prefix "llvm@${ARROW_CLANG_TOOLS_VERSION_MAJOR}"
+                    OUTPUT_VARIABLE CLANG_TOOLS_BREW_PREFIX
+                    OUTPUT_STRIP_TRAILING_WHITESPACE)
+    if(NOT CLANG_TOOLS_BREW_PREFIX)
+      execute_process(COMMAND ${BREW} --prefix llvm
+                      OUTPUT_VARIABLE CLANG_TOOLS_BREW_PREFIX
+                      OUTPUT_STRIP_TRAILING_WHITESPACE)
+    endif()
+    if(CLANG_TOOLS_BREW_PREFIX)
+      list(APPEND CLANG_TOOLS_SEARCH_PATHS "${CLANG_TOOLS_BREW_PREFIX}/bin")
+    endif()
+  endif()
 endif()
 
 function(FIND_CLANG_TOOL NAME OUTPUT VERSION_CHECK_PATTERN)
diff --git a/cpp/cmake_modules/FindGLOG.cmake b/cpp/cmake_modules/FindGLOG.cmake
index d67eb005621..61b7d0694ef 100644
--- a/cpp/cmake_modules/FindGLOG.cmake
+++ b/cpp/cmake_modules/FindGLOG.cmake
@@ -17,6 +17,10 @@
 #
 #  find_package(GLOG)
 
+if(GLOG_FOUND)
+  return()
+endif()
+
 find_package(PkgConfig QUIET)
 pkg_check_modules(GLOG_PC libglog)
 if(GLOG_PC_FOUND)
diff --git a/cpp/cmake_modules/FindGandiva.cmake b/cpp/cmake_modules/FindGandiva.cmake
deleted file mode 100644
index c533abed733..00000000000
--- a/cpp/cmake_modules/FindGandiva.cmake
+++ /dev/null
@@ -1,94 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-# - Find Gandiva (gandiva/arrow.h, libgandiva.a, libgandiva.so)
-#
-# This module requires Arrow from which it uses
-#  arrow_find_package()
-#
-# This module defines
-#  GANDIVA_FOUND, whether Gandiva has been found
-#  GANDIVA_IMPORT_LIB, path to libgandiva's import library (Windows only)
-#  GANDIVA_INCLUDE_DIR, directory containing headers
-#  GANDIVA_LIBS, deprecated. Use GANDIVA_LIB_DIR instead
-#  GANDIVA_LIB_DIR, directory containing Gandiva libraries
-#  GANDIVA_SHARED_IMP_LIB, deprecated. Use GANDIVA_IMPORT_LIB instead
-#  GANDIVA_SHARED_LIB, path to libgandiva's shared library
-#  GANDIVA_SO_VERSION, shared object version of found Gandiva such as "100"
-#  GANDIVA_STATIC_LIB, path to libgandiva.a
-
-if(DEFINED GANDIVA_FOUND)
-  return()
-endif()
-
-set(find_package_arguments)
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION)
-  list(APPEND find_package_arguments "${${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION}")
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_REQUIRED)
-  list(APPEND find_package_arguments REQUIRED)
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_QUIETLY)
-  list(APPEND find_package_arguments QUIET)
-endif()
-find_package(Arrow ${find_package_arguments})
-
-if(ARROW_FOUND)
-  arrow_find_package(GANDIVA
-                     "${ARROW_HOME}"
-                     gandiva
-                     gandiva/arrow.h
-                     Gandiva
-                     gandiva)
-  if(NOT GANDIVA_VERSION)
-    set(GANDIVA_VERSION "${ARROW_VERSION}")
-  endif()
-  set(GANDIVA_ABI_VERSION "${ARROW_ABI_VERSION}")
-  set(GANDIVA_SO_VERSION "${ARROW_SO_VERSION}")
-endif()
-
-if("${GANDIVA_VERSION}" VERSION_EQUAL "${ARROW_VERSION}")
-  set(GANDIVA_VERSION_MATCH TRUE)
-else()
-  set(GANDIVA_VERSION_MATCH FALSE)
-endif()
-
-mark_as_advanced(GANDIVA_ABI_VERSION
-                 GANDIVA_IMPORT_LIB
-                 GANDIVA_INCLUDE_DIR
-                 GANDIVA_LIBS
-                 GANDIVA_LIB_DIR
-                 GANDIVA_SHARED_IMP_LIB
-                 GANDIVA_SHARED_LIB
-                 GANDIVA_SO_VERSION
-                 GANDIVA_STATIC_LIB
-                 GANDIVA_VERSION
-                 GANDIVA_VERSION_MATCH)
-
-find_package_handle_standard_args(
-  Gandiva
-  REQUIRED_VARS GANDIVA_INCLUDE_DIR GANDIVA_LIB_DIR GANDIVA_SO_VERSION
-                GANDIVA_VERSION_MATCH
-  VERSION_VAR GANDIVA_VERSION)
-set(GANDIVA_FOUND ${Gandiva_FOUND})
-
-if(Gandiva_FOUND AND NOT Gandiva_FIND_QUIETLY)
-  message(STATUS "Found the Gandiva by ${GANDIVA_FIND_APPROACH}")
-  message(STATUS "Found the Gandiva shared library: ${GANDIVA_SHARED_LIB}")
-  message(STATUS "Found the Gandiva import library: ${GANDIVA_IMPORT_LIB}")
-  message(STATUS "Found the Gandiva static library: ${GANDIVA_STATIC_LIB}")
-endif()
diff --git a/cpp/cmake_modules/FindLLVMAlt.cmake b/cpp/cmake_modules/FindLLVMAlt.cmake
index e96e89850ae..c44c4802284 100644
--- a/cpp/cmake_modules/FindLLVMAlt.cmake
+++ b/cpp/cmake_modules/FindLLVMAlt.cmake
@@ -19,6 +19,10 @@
 #
 #  find_package(LLVMAlt)
 
+if(LLVMAlt_FOUND)
+  return()
+endif()
+
 if(DEFINED LLVM_ROOT)
   # if llvm source is set to conda then prefer conda llvm over system llvm even
   # if the system one is newer
@@ -36,22 +40,30 @@ if(DEFINED LLVM_ROOT)
 endif()
 
 if(NOT LLVM_FOUND)
-  set(LLVM_HINTS ${LLVM_ROOT} ${LLVM_DIR} /usr/lib /usr/share)
-  if(LLVM_BREW_PREFIX)
-    list(APPEND LLVM_HINTS ${LLVM_BREW_PREFIX})
-  endif()
+  foreach(ARROW_LLVM_VERSION ${ARROW_LLVM_VERSIONS})
+    set(LLVM_HINTS ${LLVM_ROOT} ${LLVM_DIR} /usr/lib /usr/share)
 
-  foreach(HINT ${LLVM_HINTS})
-    foreach(ARROW_LLVM_VERSION ${ARROW_LLVM_VERSIONS})
-      find_package(LLVM
-                   ${ARROW_LLVM_VERSION}
-                   CONFIG
-                   HINTS
-                   ${HINT})
-      if(LLVM_FOUND)
-        break()
+    if(APPLE)
+      find_program(BREW brew)
+      if(BREW)
+        string(REGEX REPLACE "^([0-9]+)(\\..+)?" "\\1" ARROW_LLVM_VERSION_MAJOR
+                             "${ARROW_LLVM_VERSION}")
+        execute_process(COMMAND ${BREW} --prefix "llvm@${ARROW_LLVM_VERSION_MAJOR}"
+                        OUTPUT_VARIABLE LLVM_BREW_PREFIX
+                        OUTPUT_STRIP_TRAILING_WHITESPACE)
+        list(APPEND LLVM_HINTS ${LLVM_BREW_PREFIX})
       endif()
-    endforeach()
+    endif()
+
+    find_package(LLVM
+                 ${ARROW_LLVM_VERSION}
+                 CONFIG
+                 HINTS
+                 ${LLVM_HINTS})
+
+    if(LLVM_FOUND)
+      break()
+    endif()
   endforeach()
 endif()
 
@@ -76,12 +88,14 @@ if(LLVM_FOUND)
                      clang-${LLVM_VERSION_MAJOR} clang
                HINTS ${LLVM_TOOLS_BINARY_DIR})
 
-  add_library(LLVM::LLVM_INTERFACE INTERFACE IMPORTED)
-
-  set_target_properties(LLVM::LLVM_INTERFACE
+  add_library(LLVM::LLVM_HEADERS INTERFACE IMPORTED)
+  set_target_properties(LLVM::LLVM_HEADERS
                         PROPERTIES INTERFACE_INCLUDE_DIRECTORIES "${LLVM_INCLUDE_DIRS}"
-                                   INTERFACE_COMPILE_FLAGS "${LLVM_DEFINITIONS}"
-                                   INTERFACE_LINK_LIBRARIES "${LLVM_LIBS}")
+                                   INTERFACE_COMPILE_FLAGS "${LLVM_DEFINITIONS}")
+
+  add_library(LLVM::LLVM_LIBS INTERFACE IMPORTED)
+  set_target_properties(LLVM::LLVM_LIBS PROPERTIES INTERFACE_LINK_LIBRARIES
+                                                   "${LLVM_LIBS}")
 endif()
 
 mark_as_advanced(CLANG_EXECUTABLE LLVM_LINK_EXECUTABLE)
diff --git a/cpp/cmake_modules/FindNumPy.cmake b/cpp/cmake_modules/FindNumPy.cmake
index c3daba149fd..cdca68a5f24 100644
--- a/cpp/cmake_modules/FindNumPy.cmake
+++ b/cpp/cmake_modules/FindNumPy.cmake
@@ -94,3 +94,13 @@ find_package_message(NUMPY
     "${NUMPY_INCLUDE_DIRS}${NUMPY_VERSION}")
 
 set(NUMPY_FOUND TRUE)
+
+add_library(Python3::NumPy INTERFACE IMPORTED)
+if(CMAKE_VERSION VERSION_LESS 3.11)
+    set_target_properties(Python3::NumPy PROPERTIES
+        INTERFACE_INCLUDE_DIRECTORIES "${NUMPY_INCLUDE_DIRS}"
+        INTERFACE_LINK_LIBRARIES Python3::Module)
+else()
+    target_include_directories(Python3::NumPy INTERFACE ${NUMPY_INCLUDE_DIRS})
+    target_link_libraries(Python3::NumPy INTERFACE Python3::Module)
+endif()
diff --git a/cpp/cmake_modules/FindORC.cmake b/cpp/cmake_modules/FindORC.cmake
index d45b1607833..aca915acc13 100644
--- a/cpp/cmake_modules/FindORC.cmake
+++ b/cpp/cmake_modules/FindORC.cmake
@@ -21,6 +21,10 @@
 #  ORC_STATIC_LIB, path to liborc.a
 #  ORC_FOUND, whether orc has been found
 
+if(ORC_FOUND)
+  return()
+endif()
+
 if(ORC_ROOT)
   find_library(ORC_STATIC_LIB
                NAMES orc
diff --git a/cpp/cmake_modules/FindOpenSSLAlt.cmake b/cpp/cmake_modules/FindOpenSSLAlt.cmake
index 603e7d066ed..f027eb1026d 100644
--- a/cpp/cmake_modules/FindOpenSSLAlt.cmake
+++ b/cpp/cmake_modules/FindOpenSSLAlt.cmake
@@ -15,40 +15,41 @@
 # specific language governing permissions and limitations
 # under the License.
 
-if(ARROW_OPENSSL_USE_SHARED)
-  # Find shared OpenSSL libraries.
-  set(OpenSSL_USE_STATIC_LIBS OFF)
-  set(OPENSSL_USE_STATIC_LIBS OFF)
-  find_package(OpenSSL)
-else()
-  # Find static OpenSSL headers and libs
-  set(OpenSSL_USE_STATIC_LIBS ON)
-  set(OPENSSL_USE_STATIC_LIBS ON)
-  find_package(OpenSSL)
-endif()
-
-if(OPENSSL_FOUND)
-  message(STATUS "OpenSSL found with ${OPENSSL_VERSION} version")
-  if(OPENSSL_VERSION LESS "1.1.0")
-    message(SEND_ERROR "The OpenSSL must be greater than or equal to 1.1.0")
-  endif()
-else()
-  message(SEND_ERROR "Not found the OpenSSL library")
+if(OpenSSLAlt_FOUND)
+  return()
 endif()
 
-if(NOT GANDIVA_OPENSSL_LIBS)
-  if(WIN32)
-    if(CMAKE_VERSION VERSION_LESS 3.18)
-      set(GANDIVA_OPENSSL_LIBS OpenSSL::Crypto OpenSSL::SSL)
+if(APPLE AND NOT OPENSSL_ROOT_DIR)
+  find_program(BREW brew)
+  if(BREW)
+    execute_process(COMMAND ${BREW} --prefix "openssl@1.1"
+                    OUTPUT_VARIABLE OPENSSL11_BREW_PREFIX
+                    OUTPUT_STRIP_TRAILING_WHITESPACE)
+    if(OPENSSL11_BREW_PREFIX)
+      set(OPENSSL_ROOT_DIR ${OPENSSL11_BREW_PREFIX})
     else()
-      set(GANDIVA_OPENSSL_LIBS OpenSSL::Crypto OpenSSL::SSL OpenSSL::applink)
+      execute_process(COMMAND ${BREW} --prefix "openssl"
+                      OUTPUT_VARIABLE OPENSSL_BREW_PREFIX
+                      OUTPUT_STRIP_TRAILING_WHITESPACE)
+      if(OPENSSL_BREW_PREFIX)
+        set(OPENSSL_ROOT_DIR ${OPENSSL_BREW_PREFIX})
+      endif()
     endif()
-  else()
-    set(GANDIVA_OPENSSL_LIBS OpenSSL::Crypto OpenSSL::SSL)
   endif()
 endif()
 
-if(NOT GANDIVA_OPENSSL_INCLUDE_DIR)
-  set(GANDIVA_OPENSSL_INCLUDE_DIR ${OPENSSL_INCLUDE_DIR})
-  message(STATUS "OpenSSL include dir: ${GANDIVA_OPENSSL_INCLUDE_DIR}")
+set(find_package_args)
+if(OpenSSLAlt_FIND_VERSION)
+  list(APPEND find_package_args ${OpenSSLAlt_FIND_VERSION})
 endif()
+if(OpenSSLAlt_FIND_QUIETLY)
+  list(APPEND find_package_args QUIET)
+endif()
+if(ARROW_OPENSSL_USE_SHARED)
+  set(OPENSSL_USE_STATIC_LIBS OFF)
+else()
+  set(OPENSSL_USE_STATIC_LIBS ON)
+endif()
+find_package(OpenSSL ${find_package_args})
+
+set(OpenSSLAlt_FOUND ${OPENSSL_FOUND})
diff --git a/cpp/cmake_modules/FindParquet.cmake b/cpp/cmake_modules/FindParquet.cmake
deleted file mode 100644
index e071fc822b6..00000000000
--- a/cpp/cmake_modules/FindParquet.cmake
+++ /dev/null
@@ -1,126 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-# - Find Parquet (parquet/api/reader.h, libparquet.a, libparquet.so)
-#
-# This module requires Arrow from which it uses
-#  arrow_find_package()
-#
-# This module defines
-#  PARQUET_FOUND, whether Parquet has been found
-#  PARQUET_IMPORT_LIB, path to libparquet's import library (Windows only)
-#  PARQUET_INCLUDE_DIR, directory containing headers
-#  PARQUET_LIBS, deprecated. Use PARQUET_LIB_DIR instead
-#  PARQUET_LIB_DIR, directory containing Parquet libraries
-#  PARQUET_SHARED_IMP_LIB, deprecated. Use PARQUET_IMPORT_LIB instead
-#  PARQUET_SHARED_LIB, path to libparquet's shared library
-#  PARQUET_SO_VERSION, shared object version of found Parquet such as "100"
-#  PARQUET_STATIC_LIB, path to libparquet.a
-
-if(DEFINED PARQUET_FOUND)
-  return()
-endif()
-
-set(find_package_arguments)
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION)
-  list(APPEND find_package_arguments "${${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION}")
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_REQUIRED)
-  list(APPEND find_package_arguments REQUIRED)
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_QUIETLY)
-  list(APPEND find_package_arguments QUIET)
-endif()
-find_package(Arrow ${find_package_arguments})
-
-if(NOT "$ENV{PARQUET_HOME}" STREQUAL "")
-  file(TO_CMAKE_PATH "$ENV{PARQUET_HOME}" PARQUET_HOME)
-endif()
-
-if((NOT PARQUET_HOME) AND ARROW_HOME)
-  set(PARQUET_HOME ${ARROW_HOME})
-endif()
-
-if(ARROW_FOUND)
-  arrow_find_package(PARQUET
-                     "${PARQUET_HOME}"
-                     parquet
-                     parquet/api/reader.h
-                     Parquet
-                     parquet)
-  if(PARQUET_HOME)
-    if(PARQUET_INCLUDE_DIR)
-      file(READ "${PARQUET_INCLUDE_DIR}/parquet/parquet_version.h"
-           PARQUET_VERSION_H_CONTENT)
-      arrow_extract_macro_value(PARQUET_VERSION_MAJOR "PARQUET_VERSION_MAJOR"
-                                "${PARQUET_VERSION_H_CONTENT}")
-      arrow_extract_macro_value(PARQUET_VERSION_MINOR "PARQUET_VERSION_MINOR"
-                                "${PARQUET_VERSION_H_CONTENT}")
-      arrow_extract_macro_value(PARQUET_VERSION_PATCH "PARQUET_VERSION_PATCH"
-                                "${PARQUET_VERSION_H_CONTENT}")
-      if("${PARQUET_VERSION_MAJOR}" STREQUAL ""
-         OR "${PARQUET_VERSION_MINOR}" STREQUAL ""
-         OR "${PARQUET_VERSION_PATCH}" STREQUAL "")
-        set(PARQUET_VERSION "0.0.0")
-      else()
-        set(PARQUET_VERSION
-            "${PARQUET_VERSION_MAJOR}.${PARQUET_VERSION_MINOR}.${PARQUET_VERSION_PATCH}")
-      endif()
-
-      arrow_extract_macro_value(PARQUET_SO_VERSION_QUOTED "PARQUET_SO_VERSION"
-                                "${PARQUET_VERSION_H_CONTENT}")
-      string(REGEX REPLACE "^\"(.+)\"$" "\\1" PARQUET_SO_VERSION
-                           "${PARQUET_SO_VERSION_QUOTED}")
-      arrow_extract_macro_value(PARQUET_FULL_SO_VERSION_QUOTED "PARQUET_FULL_SO_VERSION"
-                                "${PARQUET_VERSION_H_CONTENT}")
-      string(REGEX REPLACE "^\"(.+)\"$" "\\1" PARQUET_FULL_SO_VERSION
-                           "${PARQUET_FULL_SO_VERSION_QUOTED}")
-    endif()
-  else()
-    if(PARQUET_USE_CMAKE_PACKAGE_CONFIG)
-      find_package(Parquet CONFIG)
-    elseif(PARQUET_USE_PKG_CONFIG)
-      pkg_get_variable(PARQUET_SO_VERSION parquet so_version)
-      pkg_get_variable(PARQUET_FULL_SO_VERSION parquet full_so_version)
-    endif()
-  endif()
-  set(PARQUET_ABI_VERSION "${PARQUET_SO_VERSION}")
-endif()
-
-mark_as_advanced(PARQUET_ABI_VERSION
-                 PARQUET_IMPORT_LIB
-                 PARQUET_INCLUDE_DIR
-                 PARQUET_LIBS
-                 PARQUET_LIB_DIR
-                 PARQUET_SHARED_IMP_LIB
-                 PARQUET_SHARED_LIB
-                 PARQUET_SO_VERSION
-                 PARQUET_STATIC_LIB
-                 PARQUET_VERSION)
-
-find_package_handle_standard_args(
-  Parquet
-  REQUIRED_VARS PARQUET_INCLUDE_DIR PARQUET_LIB_DIR PARQUET_SO_VERSION
-  VERSION_VAR PARQUET_VERSION)
-set(PARQUET_FOUND ${Parquet_FOUND})
-
-if(Parquet_FOUND AND NOT Parquet_FIND_QUIETLY)
-  message(STATUS "Parquet version: ${PARQUET_VERSION} (${PARQUET_FIND_APPROACH})")
-  message(STATUS "Found the Parquet shared library: ${PARQUET_SHARED_LIB}")
-  message(STATUS "Found the Parquet import library: ${PARQUET_IMPORT_LIB}")
-  message(STATUS "Found the Parquet static library: ${PARQUET_STATIC_LIB}")
-endif()
diff --git a/cpp/cmake_modules/FindPlasma.cmake b/cpp/cmake_modules/FindPlasma.cmake
deleted file mode 100644
index 2e634844c59..00000000000
--- a/cpp/cmake_modules/FindPlasma.cmake
+++ /dev/null
@@ -1,102 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-# - Find Plasma (plasma/client.h, libplasma.a, libplasma.so)
-#
-# This module requires Arrow from which it uses
-#  arrow_find_package()
-#
-# This module defines
-#  PLASMA_EXECUTABLE, deprecated. Use PLASMA_STORE_SERVER instead
-#  PLASMA_FOUND, whether Plasma has been found
-#  PLASMA_IMPORT_LIB, path to libplasma's import library (Windows only)
-#  PLASMA_INCLUDE_DIR, directory containing headers
-#  PLASMA_LIBS, deprecated. Use PLASMA_LIB_DIR instead
-#  PLASMA_LIB_DIR, directory containing Plasma libraries
-#  PLASMA_SHARED_IMP_LIB, deprecated. Use PLASMA_IMPORT_LIB instead
-#  PLASMA_SHARED_LIB, path to libplasma's shared library
-#  PLASMA_SO_VERSION, shared object version of found Plasma such as "100"
-#  PLASMA_STATIC_LIB, path to libplasma.a
-#  PLASMA_STORE_SERVER, path to plasma-store-server
-
-if(DEFINED PLASMA_FOUND)
-  return()
-endif()
-
-set(find_package_arguments)
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION)
-  list(APPEND find_package_arguments "${${CMAKE_FIND_PACKAGE_NAME}_FIND_VERSION}")
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_REQUIRED)
-  list(APPEND find_package_arguments REQUIRED)
-endif()
-if(${CMAKE_FIND_PACKAGE_NAME}_FIND_QUIETLY)
-  list(APPEND find_package_arguments QUIET)
-endif()
-find_package(Arrow ${find_package_arguments})
-
-if(ARROW_FOUND)
-  arrow_find_package(PLASMA
-                     "${ARROW_HOME}"
-                     plasma
-                     plasma/client.h
-                     Plasma
-                     plasma)
-  if(ARROW_HOME)
-    set(PLASMA_STORE_SERVER
-        ${ARROW_HOME}/bin/plasma-store-server${CMAKE_EXECUTABLE_SUFFIX})
-  else()
-    if(PLASMA_USE_CMAKE_PACKAGE_CONFIG)
-      find_package(Plasma CONFIG)
-    elseif(PLASMA_USE_PKG_CONFIG)
-      pkg_get_variable(PLASMA_STORE_SERVER plasma plasma_store_server)
-    endif()
-  endif()
-  set(PLASMA_VERSION "${ARROW_VERSION}")
-  set(PLASMA_SO_VERSION "${ARROW_SO_VERSION}")
-  set(PLASMA_ABI_VERSION "${PLASMA_SO_VERSION}")
-  # For backward compatibility
-  set(PLASMA_EXECUTABLE "${PLASMA_STORE_SERVER}")
-  set(PLASMA_LIBS "${PLASMA_LIB_DIR}")
-endif()
-
-mark_as_advanced(PLASMA_ABI_VERSION
-                 PLASMA_EXECUTABLE
-                 PLASMA_IMPORT_LIB
-                 PLASMA_INCLUDE_DIR
-                 PLASMA_LIBS
-                 PLASMA_LIB_DIR
-                 PLASMA_SHARED_IMP_LIB
-                 PLASMA_SHARED_LIB
-                 PLASMA_SO_VERSION
-                 PLASMA_STATIC_LIB
-                 PLASMA_STORE_SERVER
-                 PLASMA_VERSION)
-
-find_package_handle_standard_args(
-  Plasma
-  REQUIRED_VARS PLASMA_INCLUDE_DIR PLASMA_LIB_DIR PLASMA_SO_VERSION PLASMA_STORE_SERVER
-  VERSION_VAR PLASMA_VERSION)
-set(PLASMA_FOUND ${Plasma_FOUND})
-
-if(Plasma_FOUND AND NOT Plasma_FIND_QUIETLY)
-  message(STATUS "Found the Plasma by ${PLASMA_FIND_APPROACH}")
-  message(STATUS "Found the plasma-store-server: ${PLASMA_STORE_SERVER}")
-  message(STATUS "Found the Plasma shared library: ${PLASMA_SHARED_LIB}")
-  message(STATUS "Found the Plasma import library: ${PLASMA_IMPORT_LIB}")
-  message(STATUS "Found the Plasma static library: ${PLASMA_STATIC_LIB}")
-endif()
diff --git a/cpp/src/arrow/python/util/CMakeLists.txt b/cpp/cmake_modules/FindProtobufAlt.cmake
similarity index 64%
rename from cpp/src/arrow/python/util/CMakeLists.txt
rename to cpp/cmake_modules/FindProtobufAlt.cmake
index 74141bebc8b..d29f757aeb6 100644
--- a/cpp/src/arrow/python/util/CMakeLists.txt
+++ b/cpp/cmake_modules/FindProtobufAlt.cmake
@@ -15,18 +15,18 @@
 # specific language governing permissions and limitations
 # under the License.
 
-#
-# arrow/python_test_main
-#
-
-if(PYARROW_BUILD_TESTS)
-  add_library(arrow/python_test_main STATIC test_main.cc)
+if(ARROW_PROTOBUF_USE_SHARED)
+  set(Protobuf_USE_STATIC_LIBS OFF)
+else()
+  set(Protobuf_USE_STATIC_LIBS ON)
+endif()
 
-  if(APPLE)
-    target_link_libraries(arrow/python_test_main GTest::gtest dl)
-    set_target_properties(arrow/python_test_main PROPERTIES LINK_FLAGS
-                                                            "-undefined dynamic_lookup")
-  else()
-    target_link_libraries(arrow/python_test_main GTest::gtest pthread dl)
-  endif()
+set(find_package_args)
+if(ProtobufAlt_FIND_VERSION)
+  list(APPEND find_package_args ${ProtobufAlt_FIND_VERSION})
+endif()
+if(ProtobufAlt_FIND_QUIETLY)
+  list(APPEND find_package_args QUIET)
 endif()
+find_package(Protobuf ${find_package_args})
+set(ProtobufAlt_FOUND ${Protobuf_FOUND})
diff --git a/cpp/cmake_modules/FindPython3Alt.cmake b/cpp/cmake_modules/FindPython3Alt.cmake
index b003bb6a46f..0cc7fba3997 100644
--- a/cpp/cmake_modules/FindPython3Alt.cmake
+++ b/cpp/cmake_modules/FindPython3Alt.cmake
@@ -23,6 +23,10 @@
 # - PYTHON_OTHER_LIBS
 # - NUMPY_INCLUDE_DIRS
 
+if(Python3Alt_FOUND)
+  return()
+endif()
+
 set(Python3Alt_FIND_PACKAGE_OPTIONS)
 set(Python3Alt_NumPy_FIND_PACKAGE_OPTIONS)
 if(Python3Alt_FIND_VERSION)
diff --git a/cpp/cmake_modules/FindPythonLibsNew.cmake b/cpp/cmake_modules/FindPythonLibsNew.cmake
index 581bba9d4ca..b13cb35c9c4 100644
--- a/cpp/cmake_modules/FindPythonLibsNew.cmake
+++ b/cpp/cmake_modules/FindPythonLibsNew.cmake
@@ -217,6 +217,16 @@ find_package_message(PYTHON
     "Found PythonLibs: ${PYTHON_LIBRARY}"
     "${PYTHON_EXECUTABLE}${PYTHON_VERSION}")
 
+add_library(Python3::Module SHARED IMPORTED)
+if(CMAKE_VERSION VERSION_LESS 3.11)
+  set_target_properties(Python3::Module PROPERTIES INTERFACE_INCLUDE_DIRECTORIES
+      ${PYTHON_INCLUDE_DIRS})
+else()
+  target_include_directories(Python3::Module INTERFACE ${PYTHON_INCLUDE_DIRS})
+endif()
+set_target_properties(Python3::Module PROPERTIES
+    IMPORTED_LOCATION "${PYTHON_LIBRARIES}"
+    IMPORTED_IMPLIB "${PYTHON_LIBRARIES}")
 
 # PYTHON_ADD_MODULE(<name> src1 src2 ... srcN) is used to build modules for python.
 FUNCTION(PYTHON_ADD_MODULE _NAME )
diff --git a/cpp/cmake_modules/FindRapidJSONAlt.cmake b/cpp/cmake_modules/FindRapidJSONAlt.cmake
index 9a449a5280e..ef5acf18b82 100644
--- a/cpp/cmake_modules/FindRapidJSONAlt.cmake
+++ b/cpp/cmake_modules/FindRapidJSONAlt.cmake
@@ -15,6 +15,10 @@
 # specific language governing permissions and limitations
 # under the License.
 
+if(RapidJSONAlt_FOUND)
+  return()
+endif()
+
 set(find_package_args)
 if(RapidJSONAlt_FIND_VERSION)
   list(APPEND find_package_args ${RapidJSONAlt_FIND_VERSION})
diff --git a/cpp/cmake_modules/FindSQLite3Alt.cmake b/cpp/cmake_modules/FindSQLite3Alt.cmake
index 73a45f098c6..b60939841ef 100644
--- a/cpp/cmake_modules/FindSQLite3Alt.cmake
+++ b/cpp/cmake_modules/FindSQLite3Alt.cmake
@@ -26,6 +26,10 @@
 # Usage of this module as follows:
 # find_package(SQLite3Alt)
 
+if(FindSQLite3Alt_FOUND)
+  return()
+endif()
+
 find_path(SQLite3_INCLUDE_DIR sqlite3.h)
 find_library(SQLite3_LIBRARY NAMES sqlite3)
 
diff --git a/cpp/cmake_modules/FindSnappyAlt.cmake b/cpp/cmake_modules/FindSnappyAlt.cmake
index aee5eac4bc7..4d313400647 100644
--- a/cpp/cmake_modules/FindSnappyAlt.cmake
+++ b/cpp/cmake_modules/FindSnappyAlt.cmake
@@ -15,6 +15,10 @@
 # specific language governing permissions and limitations
 # under the License.
 
+if(SnappyAlt_FOUND)
+  return()
+endif()
+
 set(find_package_args)
 if(SnappyAlt_FIND_VERSION)
   list(APPEND find_package_args ${SnappyAlt_FIND_VERSION})
diff --git a/cpp/cmake_modules/FindThrift.cmake b/cpp/cmake_modules/FindThriftAlt.cmake
similarity index 55%
rename from cpp/cmake_modules/FindThrift.cmake
rename to cpp/cmake_modules/FindThriftAlt.cmake
index 07028971d9f..f3e49021d57 100644
--- a/cpp/cmake_modules/FindThrift.cmake
+++ b/cpp/cmake_modules/FindThriftAlt.cmake
@@ -28,21 +28,56 @@
 #  thrift::thrift, a library target to use Thrift
 #  thrift::compiler, a executable target to use Thrift compiler
 
-function(EXTRACT_THRIFT_VERSION)
-  if(THRIFT_INCLUDE_DIR)
-    file(READ "${THRIFT_INCLUDE_DIR}/thrift/config.h" THRIFT_CONFIG_H_CONTENT)
+if(ThriftAlt_FOUND)
+  return()
+endif()
+
+# There are some problems in ThriftConfig.cmake provided by MSYS2 and
+# conda on Windows:
+#
+#   * https://github.com/conda-forge/thrift-cpp-feedstock/issues/68
+#   * https://github.com/msys2/MINGW-packages/issues/6619#issuecomment-649728718
+#
+# We can remove the following "if(NOT WIN32)" condition once the
+# followings are fixed and a new version that includes these fixes is
+# published by MSYS2 and conda:
+#
+#   * https://github.com/apache/thrift/pull/2725
+#   * https://github.com/apache/thrift/pull/2726
+#   * https://github.com/conda-forge/thrift-cpp-feedstock/issues/68
+if(NOT WIN32)
+  set(find_package_args "")
+  if(ThriftAlt_FIND_VERSION)
+    list(APPEND find_package_args ${ThriftAlt_FIND_VERSION})
+  endif()
+  if(ThriftAlt_FIND_QUIETLY)
+    list(APPEND find_package_args QUIET)
+  endif()
+  find_package(Thrift ${find_package_args})
+  if(Thrift_FOUND)
+    set(ThriftAlt_FOUND TRUE)
+    add_executable(thrift::compiler IMPORTED)
+    set_target_properties(thrift::compiler PROPERTIES IMPORTED_LOCATION
+                                                      "${THRIFT_COMPILER}")
+    return()
+  endif()
+endif()
+
+function(extract_thrift_version)
+  if(ThriftAlt_INCLUDE_DIR)
+    file(READ "${ThriftAlt_INCLUDE_DIR}/thrift/config.h" THRIFT_CONFIG_H_CONTENT)
     string(REGEX MATCH "#define PACKAGE_VERSION \"[0-9.]+\"" THRIFT_VERSION_DEFINITION
                  "${THRIFT_CONFIG_H_CONTENT}")
-    string(REGEX MATCH "[0-9.]+" Thrift_VERSION "${THRIFT_VERSION_DEFINITION}")
-    set(Thrift_VERSION
-        "${Thrift_VERSION}"
+    string(REGEX MATCH "[0-9.]+" ThriftAlt_VERSION "${THRIFT_VERSION_DEFINITION}")
+    set(ThriftAlt_VERSION
+        "${ThriftAlt_VERSION}"
         PARENT_SCOPE)
   else()
-    set(Thrift_VERSION
+    set(ThriftAlt_VERSION
         ""
         PARENT_SCOPE)
   endif()
-endfunction(EXTRACT_THRIFT_VERSION)
+endfunction()
 
 if(MSVC_TOOLCHAIN AND NOT DEFINED THRIFT_MSVC_LIB_SUFFIX)
   if(NOT ARROW_THRIFT_USE_SHARED)
@@ -61,32 +96,30 @@ if(MSVC_TOOLCHAIN AND NOT DEFINED THRIFT_MSVC_LIB_SUFFIX)
     endif()
   endif()
 endif()
-set(THRIFT_LIB_NAME_BASE "thrift${THRIFT_MSVC_LIB_SUFFIX}")
+set(ThriftAlt_LIB_NAME_BASE "thrift${THRIFT_MSVC_LIB_SUFFIX}")
 
 if(ARROW_THRIFT_USE_SHARED)
-  set(THRIFT_LIB_NAMES thrift)
   if(CMAKE_IMPORT_LIBRARY_SUFFIX)
-    list(APPEND
-         THRIFT_LIB_NAMES
-         "${CMAKE_IMPORT_LIBRARY_PREFIX}${THRIFT_LIB_NAME_BASE}${CMAKE_IMPORT_LIBRARY_SUFFIX}"
+    set(ThriftAlt_LIB_NAME
+        "${CMAKE_IMPORT_LIBRARY_PREFIX}${ThriftAlt_LIB_NAME_BASE}${CMAKE_IMPORT_LIBRARY_SUFFIX}"
+    )
+  else()
+    set(ThriftAlt_LIB_NAME
+        "${CMAKE_SHARED_LIBRARY_PREFIX}${ThriftAlt_LIB_NAME_BASE}${CMAKE_SHARED_LIBRARY_SUFFIX}"
     )
   endif()
-  list(APPEND
-       THRIFT_LIB_NAMES
-       "${CMAKE_SHARED_LIBRARY_PREFIX}${THRIFT_LIB_NAME_BASE}${CMAKE_SHARED_LIBRARY_SUFFIX}"
-  )
 else()
-  set(THRIFT_LIB_NAMES
-      "${CMAKE_STATIC_LIBRARY_PREFIX}${THRIFT_LIB_NAME_BASE}${CMAKE_STATIC_LIBRARY_SUFFIX}"
+  set(ThriftAlt_LIB_NAME
+      "${CMAKE_STATIC_LIBRARY_PREFIX}${ThriftAlt_LIB_NAME_BASE}${CMAKE_STATIC_LIBRARY_SUFFIX}"
   )
 endif()
 
 if(Thrift_ROOT)
-  find_library(THRIFT_LIB
-               NAMES ${THRIFT_LIB_NAMES}
+  find_library(ThriftAlt_LIB
+               NAMES ${ThriftAlt_LIB_NAME}
                PATHS ${Thrift_ROOT}
                PATH_SUFFIXES "lib/${CMAKE_LIBRARY_ARCHITECTURE}" "lib")
-  find_path(THRIFT_INCLUDE_DIR thrift/Thrift.h
+  find_path(ThriftAlt_INCLUDE_DIR thrift/Thrift.h
             PATHS ${Thrift_ROOT}
             PATH_SUFFIXES "include")
   find_program(THRIFT_COMPILER thrift
@@ -99,24 +132,24 @@ else()
   find_package(PkgConfig QUIET)
   pkg_check_modules(THRIFT_PC thrift)
   if(THRIFT_PC_FOUND)
-    set(THRIFT_INCLUDE_DIR "${THRIFT_PC_INCLUDEDIR}")
+    set(ThriftAlt_INCLUDE_DIR "${THRIFT_PC_INCLUDEDIR}")
 
     list(APPEND THRIFT_PC_LIBRARY_DIRS "${THRIFT_PC_LIBDIR}")
 
-    find_library(THRIFT_LIB
-                 NAMES ${THRIFT_LIB_NAMES}
+    find_library(ThriftAlt_LIB
+                 NAMES ${ThriftAlt_LIB_NAME}
                  PATHS ${THRIFT_PC_LIBRARY_DIRS}
                  NO_DEFAULT_PATH)
     find_program(THRIFT_COMPILER thrift
                  HINTS ${THRIFT_PC_PREFIX}
                  NO_DEFAULT_PATH
                  PATH_SUFFIXES "bin")
-    set(Thrift_VERSION ${THRIFT_PC_VERSION})
+    set(ThriftAlt_VERSION ${THRIFT_PC_VERSION})
   else()
-    find_library(THRIFT_LIB
-                 NAMES ${THRIFT_LIB_NAMES}
+    find_library(ThriftAlt_LIB
+                 NAMES ${ThriftAlt_LIB_NAME}
                  PATH_SUFFIXES "lib/${CMAKE_LIBRARY_ARCHITECTURE}" "lib")
-    find_path(THRIFT_INCLUDE_DIR thrift/Thrift.h PATH_SUFFIXES "include")
+    find_path(ThriftAlt_INCLUDE_DIR thrift/Thrift.h PATH_SUFFIXES "include")
     find_program(THRIFT_COMPILER thrift PATH_SUFFIXES "bin")
     extract_thrift_version()
   endif()
@@ -129,20 +162,29 @@ else()
 endif()
 
 find_package_handle_standard_args(
-  Thrift
-  REQUIRED_VARS THRIFT_LIB THRIFT_INCLUDE_DIR
-  VERSION_VAR Thrift_VERSION
+  ThriftAlt
+  REQUIRED_VARS ThriftAlt_LIB ThriftAlt_INCLUDE_DIR
+  VERSION_VAR ThriftAlt_VERSION
   HANDLE_COMPONENTS)
 
-if(Thrift_FOUND)
-  if(ARROW_THRIFT_USE_SHARED)
-    add_library(thrift::thrift SHARED IMPORTED)
-  else()
-    add_library(thrift::thrift STATIC IMPORTED)
+if(ThriftAlt_FOUND)
+  set(Thrift_VERSION ${ThriftAlt_VERSION})
+  set(ThriftAlt_IMPORTED_PROPERTY_NAME IMPORTED_LOCATION)
+  # Reuse partially defined thrift::thrift by ThriftConfig.cmake.
+  if(NOT TARGET thrift::thrift)
+    if(ARROW_THRIFT_USE_SHARED)
+      add_library(thrift::thrift SHARED IMPORTED)
+      if(CMAKE_IMPORT_LIBRARY_SUFFIX)
+        set(ThriftAlt_IMPORTED_PROPERTY_NAME IMPORTED_IMPLIB)
+      endif()
+    else()
+      add_library(thrift::thrift STATIC IMPORTED)
+    endif()
   endif()
   set_target_properties(thrift::thrift
-                        PROPERTIES IMPORTED_LOCATION "${THRIFT_LIB}"
-                                   INTERFACE_INCLUDE_DIRECTORIES "${THRIFT_INCLUDE_DIR}")
+                        PROPERTIES ${ThriftAlt_IMPORTED_PROPERTY_NAME} "${ThriftAlt_LIB}"
+                                   INTERFACE_INCLUDE_DIRECTORIES
+                                   "${ThriftAlt_INCLUDE_DIR}")
   if(WIN32 AND NOT MSVC_TOOLCHAIN)
     # We don't need this for Visual C++ because Thrift uses
     # "#pragma comment(lib, "Ws2_32.lib")" in
diff --git a/cpp/cmake_modules/Findc-aresAlt.cmake b/cpp/cmake_modules/Findc-aresAlt.cmake
index 5213e8d12a1..152c843e373 100644
--- a/cpp/cmake_modules/Findc-aresAlt.cmake
+++ b/cpp/cmake_modules/Findc-aresAlt.cmake
@@ -15,6 +15,10 @@
 # specific language governing permissions and limitations
 # under the License.
 
+if(c-aresAlt_FOUND)
+  return()
+endif()
+
 set(find_package_args)
 if(c-aresAlt_FIND_VERSION)
   list(APPEND find_package_args ${c-aresAlt_FIND_VERSION})
diff --git a/cpp/cmake_modules/FindgRPCAlt.cmake b/cpp/cmake_modules/FindgRPCAlt.cmake
index 9bef477c13d..4e38605235b 100644
--- a/cpp/cmake_modules/FindgRPCAlt.cmake
+++ b/cpp/cmake_modules/FindgRPCAlt.cmake
@@ -11,6 +11,10 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+if(gRPCAlt_FOUND)
+  return()
+endif()
+
 set(find_package_args)
 if(gRPCAlt_FIND_VERSION)
   list(APPEND find_package_args ${gRPCAlt_FIND_VERSION})
diff --git a/cpp/cmake_modules/FindgflagsAlt.cmake b/cpp/cmake_modules/FindgflagsAlt.cmake
index e092ea3e9b9..40733ee9bc4 100644
--- a/cpp/cmake_modules/FindgflagsAlt.cmake
+++ b/cpp/cmake_modules/FindgflagsAlt.cmake
@@ -15,6 +15,10 @@
 # specific language governing permissions and limitations
 # under the License.
 
+if(gflagsAlt_FOUND)
+  return()
+endif()
+
 set(find_package_args)
 if(gflagsAlt_FIND_VERSION)
   list(APPEND find_package_args ${gflagsAlt_FIND_VERSION})
diff --git a/cpp/cmake_modules/Findjemalloc.cmake b/cpp/cmake_modules/FindjemallocAlt.cmake
similarity index 55%
rename from cpp/cmake_modules/Findjemalloc.cmake
rename to cpp/cmake_modules/FindjemallocAlt.cmake
index db30f71d251..49616425db4 100644
--- a/cpp/cmake_modules/Findjemalloc.cmake
+++ b/cpp/cmake_modules/FindjemallocAlt.cmake
@@ -14,31 +14,53 @@
 #
 # Usage of this module as follows:
 #
-#  find_package(jemalloc)
+#  find_package(jemallocAlt)
 #
 # This module defines
 #  jemalloc::jemalloc, target to use jemalloc
 
+if(jemallocAlt_FOUND)
+  return()
+endif()
+
+if(ARROW_PACKAGE_KIND STREQUAL "conan")
+  set(find_package_args "")
+  if(jemallocAlt_FIND_VERSION)
+    list(APPEND find_package_args ${jemallocAlt_FIND_VERSION})
+  endif()
+  if(jemallocAlt_FIND_QUIETLY)
+    list(APPEND find_package_args QUIET)
+  endif()
+  if(jemallocAlt_FIND_REQUIRED)
+    list(APPEND find_package_args REQUIRED)
+  endif()
+  find_package(jemallocAlt NAMES jemalloc ${find_package_args})
+  set(jemalloc_FOUND ${jemallocAlt_FOUND})
+  if(jemallocAlt_FOUND)
+    return()
+  endif()
+endif()
+
 if(ARROW_JEMALLOC_USE_SHARED)
-  set(jemalloc_LIB_NAMES)
+  set(jemallocAlt_LIB_NAMES)
   if(CMAKE_IMPORT_LIBRARY_SUFFIX)
-    list(APPEND jemalloc_LIB_NAMES
+    list(APPEND jemallocAlt_LIB_NAMES
          "${CMAKE_IMPORT_LIBRARY_PREFIX}jemalloc${CMAKE_IMPORT_LIBRARY_SUFFIX}")
   endif()
-  list(APPEND jemalloc_LIB_NAMES
+  list(APPEND jemallocAlt_LIB_NAMES
        "${CMAKE_SHARED_LIBRARY_PREFIX}jemalloc${CMAKE_SHARED_LIBRARY_SUFFIX}")
 else()
-  set(jemalloc_LIB_NAMES
+  set(jemallocAlt_LIB_NAMES
       "${CMAKE_STATIC_LIBRARY_PREFIX}jemalloc${CMAKE_STATIC_LIBRARY_SUFFIX}")
 endif()
 
 if(jemalloc_ROOT)
-  find_library(jemalloc_LIB
-               NAMES ${jemallc_LIB_NAMES}
-               PATHS ${jemallc_ROOT}
+  find_library(jemallocAlt_LIB
+               NAMES ${jemallocAlt_LIB_NAMES}
+               PATHS ${jemalloc_ROOT}
                PATH_SUFFIXES ${ARROW_LIBRARY_PATH_SUFFIXES}
                NO_DEFAULT_PATH)
-  find_path(jemalloc_INCLUDE_DIR
+  find_path(jemallocAlt_INCLUDE_DIR
             NAMES jemalloc/jemalloc.h
             PATHS ${jemalloc_ROOT}
             NO_DEFAULT_PATH
@@ -46,29 +68,29 @@ if(jemalloc_ROOT)
 
 else()
   find_package(PkgConfig QUIET)
-  pkg_check_modules(jemalloc_PC jemalloc)
-  if(jemalloc_PC_FOUND)
-    set(jemalloc_INCLUDE_DIR "${jemalloc_PC_INCLUDEDIR}")
-    list(APPEND jemalloc_PC_LIBRARY_DIRS "${jemalloc_PC_LIBDIR}")
-    find_library(jemalloc_LIB
-                 NAMES ${jemalloc_LIB_NAMES}
-                 PATHS ${jemalloc_PC_LIBRARY_DIRS}
+  pkg_check_modules(jemallocAlt_PC jemalloc)
+  if(jemallocAlt_PC_FOUND)
+    set(jemallocAlt_INCLUDE_DIR "${jemallocAlt_PC_INCLUDEDIR}")
+    list(APPEND jemallocAlt_PC_LIBRARY_DIRS "${jemallocAlt_PC_LIBDIR}")
+    find_library(jemallocAlt_LIB
+                 NAMES ${jemallocAlt_LIB_NAMES}
+                 PATHS ${jemallocAlt_PC_LIBRARY_DIRS}
                  NO_DEFAULT_PATH
                  PATH_SUFFIXES ${ARROW_LIBRARY_PATH_SUFFIXES})
   else()
-    find_library(jemalloc_LIB
-                 NAMES ${jemalloc_LIB_NAMES}
+    find_library(jemallocAlt_LIB
+                 NAMES ${jemallocAlt_LIB_NAMES}
                  PATH_SUFFIXES ${ARROW_LIBRARY_PATH_SUFFIXES})
-    find_path(jemalloc_INCLUDE_DIR
+    find_path(jemallocAlt_INCLUDE_DIR
               NAMES jemalloc/jemalloc.h
               PATH_SUFFIXES ${ARROW_INCLUDE_PATH_SUFFIXES})
   endif()
 endif()
 
-find_package_handle_standard_args(jemalloc REQUIRED_VARS jemalloc_LIB
-                                                         jemalloc_INCLUDE_DIR)
-
-if(jemalloc_FOUND)
+find_package_handle_standard_args(jemallocAlt REQUIRED_VARS jemallocAlt_LIB
+                                                            jemallocAlt_INCLUDE_DIR)
+set(jemalloc_FOUND ${jemallocAlt_FOUND})
+if(jemallocAlt_FOUND)
   if(NOT TARGET jemalloc::jemalloc)
     if(ARROW_JEMALLOC_USE_SHARED)
       add_library(jemalloc::jemalloc SHARED IMPORTED)
@@ -76,8 +98,8 @@ if(jemalloc_FOUND)
       add_library(jemalloc::jemalloc STATIC IMPORTED)
     endif()
     set_target_properties(jemalloc::jemalloc
-                          PROPERTIES IMPORTED_LOCATION "${jemalloc_LIB}"
+                          PROPERTIES IMPORTED_LOCATION "${jemallocAlt_LIB}"
                                      INTERFACE_INCLUDE_DIRECTORIES
-                                     "${jemalloc_INCLUDE_DIR}")
+                                     "${jemallocAlt_INCLUDE_DIR}")
   endif()
 endif()
diff --git a/cpp/cmake_modules/Findlibrados.cmake b/cpp/cmake_modules/Findlibrados.cmake
index 695d73fae1c..b993dbff114 100644
--- a/cpp/cmake_modules/Findlibrados.cmake
+++ b/cpp/cmake_modules/Findlibrados.cmake
@@ -15,6 +15,10 @@
 # specific language governing permissions and limitations
 # under the License.
 
+if(librados_FOUND)
+  return()
+endif()
+
 find_path(LIBRADOS_INCLUDE_DIR rados/librados.hpp)
 
 find_library(LIBRADOS_LIBRARY NAMES rados)
diff --git a/cpp/cmake_modules/Findlz4Alt.cmake b/cpp/cmake_modules/Findlz4Alt.cmake
index 186fec7e40a..77a22957f79 100644
--- a/cpp/cmake_modules/Findlz4Alt.cmake
+++ b/cpp/cmake_modules/Findlz4Alt.cmake
@@ -15,6 +15,10 @@
 # specific language governing permissions and limitations
 # under the License.
 
+if(lz4Alt_FOUND)
+  return()
+endif()
+
 set(find_package_args)
 if(lz4Alt_FIND_VERSION)
   list(APPEND find_package_args ${lz4Alt_FIND_VERSION})
@@ -25,6 +29,10 @@ endif()
 find_package(lz4 ${find_package_args})
 if(lz4_FOUND)
   set(lz4Alt_FOUND TRUE)
+  # Conan uses lz4::lz4 not LZ4::lz4
+  if(NOT TARGET LZ4::lz4 AND TARGET lz4::lz4)
+    add_library(LZ4::lz4 ALIAS lz4::lz4)
+  endif()
   return()
 endif()
 
@@ -89,9 +97,9 @@ endif()
 find_package_handle_standard_args(lz4Alt REQUIRED_VARS LZ4_LIB LZ4_INCLUDE_DIR)
 
 if(lz4Alt_FOUND)
-  if(NOT TARGET lz4::lz4)
-    add_library(lz4::lz4 UNKNOWN IMPORTED)
-    set_target_properties(lz4::lz4
+  if(NOT TARGET LZ4::lz4)
+    add_library(LZ4::lz4 UNKNOWN IMPORTED)
+    set_target_properties(LZ4::lz4
                           PROPERTIES IMPORTED_LOCATION "${LZ4_LIB}"
                                      INTERFACE_INCLUDE_DIRECTORIES "${LZ4_INCLUDE_DIR}")
   endif()
diff --git a/cpp/cmake_modules/Findre2Alt.cmake b/cpp/cmake_modules/Findre2Alt.cmake
index f66e35cf046..1fe7a921f6b 100644
--- a/cpp/cmake_modules/Findre2Alt.cmake
+++ b/cpp/cmake_modules/Findre2Alt.cmake
@@ -15,6 +15,10 @@
 # specific language governing permissions and limitations
 # under the License.
 
+if(re2Alt_FOUND)
+  return()
+endif()
+
 set(find_package_args)
 if(re2Alt_FIND_VERSION)
   list(APPEND find_package_args ${re2Alt_FIND_VERSION})
diff --git a/cpp/cmake_modules/Findutf8proc.cmake b/cpp/cmake_modules/Findutf8proc.cmake
index 867361cd104..e3474140905 100644
--- a/cpp/cmake_modules/Findutf8proc.cmake
+++ b/cpp/cmake_modules/Findutf8proc.cmake
@@ -15,6 +15,28 @@
 # specific language governing permissions and limitations
 # under the License.
 
+if(utf8proc_FOUND)
+  return()
+endif()
+
+if(ARROW_PACKAGE_KIND STREQUAL "vcpkg")
+  set(find_package_args "")
+  if(utf8proc_FIND_VERSION)
+    list(APPEND find_package_args ${utf8proc_FIND_VERSION})
+  endif()
+  if(utf8proc_FIND_QUIETLY)
+    list(APPEND find_package_args QUIET)
+  endif()
+  if(utf8proc_FIND_REQUIRED)
+    list(APPEND find_package_args REQUIRED)
+  endif()
+  find_package(utf8proc NAMES unofficial-utf8proc ${find_package_args})
+  if(utf8proc_FOUND)
+    add_library(utf8proc::utf8proc ALIAS utf8proc)
+    return()
+  endif()
+endif()
+
 function(extract_utf8proc_version)
   if(utf8proc_INCLUDE_DIR)
     file(READ "${utf8proc_INCLUDE_DIR}/utf8proc.h" UTF8PROC_H_CONTENT)
diff --git a/cpp/cmake_modules/Findzstd.cmake b/cpp/cmake_modules/FindzstdAlt.cmake
similarity index 59%
rename from cpp/cmake_modules/Findzstd.cmake
rename to cpp/cmake_modules/FindzstdAlt.cmake
index 3fc14ec0d72..980cf265521 100644
--- a/cpp/cmake_modules/Findzstd.cmake
+++ b/cpp/cmake_modules/FindzstdAlt.cmake
@@ -15,6 +15,23 @@
 # specific language governing permissions and limitations
 # under the License.
 
+if(zstdAlt_FOUND)
+  return()
+endif()
+
+set(find_package_args)
+if(zstdAlt_FIND_VERSION)
+  list(APPEND find_package_args ${zstdAlt_FIND_VERSION})
+endif()
+if(zstdAlt_FIND_QUIETLY)
+  list(APPEND find_package_args QUIET)
+endif()
+find_package(zstd ${find_package_args})
+if(zstd_FOUND)
+  set(zstdAlt_FOUND TRUE)
+  return()
+endif()
+
 if(MSVC AND NOT DEFINED ZSTD_MSVC_LIB_PREFIX)
   set(ZSTD_MSVC_LIB_PREFIX "lib")
 endif()
@@ -60,6 +77,7 @@ else()
   find_package(PkgConfig QUIET)
   pkg_check_modules(ZSTD_PC libzstd)
   if(ZSTD_PC_FOUND)
+    set(zstdAlt_VERSION "${ZSTD_PC_VERSION}")
     set(ZSTD_INCLUDE_DIR "${ZSTD_PC_INCLUDEDIR}")
 
     list(APPEND ZSTD_PC_LIBRARY_DIRS "${ZSTD_PC_LIBDIR}")
@@ -79,11 +97,46 @@ else()
   endif()
 endif()
 
-find_package_handle_standard_args(zstd REQUIRED_VARS ZSTD_LIB ZSTD_INCLUDE_DIR)
+if("${zstdAlt_VERSION}" STREQUAL "" AND ZSTD_INCLUDE_DIR)
+  file(READ "${ZSTD_INCLUDE_DIR}/zstd.h" ZSTD_H_CONTENT)
+  string(REGEX MATCH "#define ZSTD_VERSION_MAJOR +([0-9]+)" ZSTD_VERSION_MAJOR_DEFINITION
+               "${ZSTD_H_CONTENT}")
+  string(REGEX REPLACE "^.+ ([0-9]+)$" "\\1" ZSTD_VERSION_MAJOR
+                       "${ZSTD_VERSION_MAJOR_DEFINITION}")
+  string(REGEX MATCH "#define ZSTD_VERSION_MINOR +([0-9]+)" ZSTD_VERSION_MINOR_DEFINITION
+               "${ZSTD_H_CONTENT}")
+  string(REGEX REPLACE "^.+ ([0-9]+)$" "\\1" ZSTD_VERSION_MINOR
+                       "${ZSTD_VERSION_MINOR_DEFINITION}")
+  string(REGEX MATCH "#define ZSTD_VERSION_RELEASE +([0-9]+)"
+               ZSTD_VERSION_RELEASE_DEFINITION "${ZSTD_H_CONTENT}")
+  string(REGEX REPLACE "^.+ ([0-9]+)$" "\\1" ZSTD_VERSION_RELEASE
+                       "${ZSTD_VERSION_RELEASE_DEFINITION}")
+  if("${ZSTD_VERSION_MAJOR}" STREQUAL ""
+     OR "${ZSTD_VERSION_MINOR}" STREQUAL ""
+     OR "${ZSTD_VERSION_RELEASE}" STREQUAL "")
+    set(zstdAlt_VERSION "0.0.0")
+  else()
+    set(zstdAlt_VERSION
+        "${ZSTD_VERSION_MAJOR}.${ZSTD_VERSION_MINOR}.${ZSTD_VERSION_RELEASE}")
+  endif()
+endif()
 
-if(zstd_FOUND)
-  add_library(zstd::libzstd UNKNOWN IMPORTED)
-  set_target_properties(zstd::libzstd
+find_package_handle_standard_args(
+  zstdAlt
+  REQUIRED_VARS ZSTD_LIB ZSTD_INCLUDE_DIR
+  VERSION_VAR zstdAlt_VERSION)
+
+if(zstdAlt_FOUND)
+  if(ARROW_ZSTD_USE_SHARED)
+    set(zstd_TARGET zstd::libzstd_shared)
+    add_library(${zstd_TARGET} SHARED IMPORTED)
+  else()
+    set(zstd_TARGET zstd::libzstd_static)
+    add_library(${zstd_TARGET} STATIC IMPORTED)
+  endif()
+  set_target_properties(${zstd_TARGET}
                         PROPERTIES IMPORTED_LOCATION "${ZSTD_LIB}"
                                    INTERFACE_INCLUDE_DIRECTORIES "${ZSTD_INCLUDE_DIR}")
+  message(STATUS "Zstandard library: ${ZSTD_LIB}")
+  message(STATUS "Zstandard include directory: ${ZSTD_INCLUDE_DIR}")
 endif()
diff --git a/cpp/cmake_modules/SetupCxxFlags.cmake b/cpp/cmake_modules/SetupCxxFlags.cmake
index 0a40ebe48a9..b8ca029c65e 100644
--- a/cpp/cmake_modules/SetupCxxFlags.cmake
+++ b/cpp/cmake_modules/SetupCxxFlags.cmake
@@ -24,16 +24,20 @@ include(CheckCXXSourceCompiles)
 message(STATUS "System processor: ${CMAKE_SYSTEM_PROCESSOR}")
 
 if(NOT DEFINED ARROW_CPU_FLAG)
-  if(CMAKE_SYSTEM_PROCESSOR MATCHES "aarch64|ARM64|arm64")
-    set(ARROW_CPU_FLAG "armv8")
-  elseif(CMAKE_SYSTEM_PROCESSOR MATCHES "armv7")
-    set(ARROW_CPU_FLAG "armv7")
+  if(CMAKE_SYSTEM_PROCESSOR MATCHES "AMD64|X86|x86|i[3456]86|x64")
+    set(ARROW_CPU_FLAG "x86")
+  elseif(CMAKE_SYSTEM_PROCESSOR MATCHES "aarch64|ARM64|arm64")
+    set(ARROW_CPU_FLAG "aarch64")
+  elseif(CMAKE_SYSTEM_PROCESSOR MATCHES "^arm$|armv[4-7]")
+    set(ARROW_CPU_FLAG "aarch32")
   elseif(CMAKE_SYSTEM_PROCESSOR MATCHES "powerpc|ppc")
     set(ARROW_CPU_FLAG "ppc")
   elseif(CMAKE_SYSTEM_PROCESSOR MATCHES "s390x")
     set(ARROW_CPU_FLAG "s390x")
+  elseif(CMAKE_SYSTEM_PROCESSOR MATCHES "riscv64")
+    set(ARROW_CPU_FLAG "riscv64")
   else()
-    set(ARROW_CPU_FLAG "x86")
+    message(FATAL_ERROR "Unknown system processor")
   endif()
 endif()
 
@@ -104,10 +108,10 @@ elseif(ARROW_CPU_FLAG STREQUAL "ppc")
   if(ARROW_SIMD_LEVEL STREQUAL "DEFAULT")
     set(ARROW_SIMD_LEVEL "NONE")
   endif()
-elseif(ARROW_CPU_FLAG STREQUAL "armv8")
+elseif(ARROW_CPU_FLAG STREQUAL "aarch64")
   # Arm64 compiler flags, gcc/clang only
-  set(ARROW_ARMV8_ARCH_FLAG "-march=${ARROW_ARMV8_ARCH}")
-  check_cxx_compiler_flag(${ARROW_ARMV8_ARCH_FLAG} CXX_SUPPORTS_ARMV8_ARCH)
+  set(ARROW_ARMV8_MARCH "armv8-a")
+  check_cxx_compiler_flag("-march=${ARROW_ARMV8_MARCH}+sve" CXX_SUPPORTS_SVE)
   if(ARROW_SIMD_LEVEL STREQUAL "DEFAULT")
     set(ARROW_SIMD_LEVEL "NEON")
   endif()
@@ -118,12 +122,14 @@ if(NOT DEFINED CMAKE_C_STANDARD)
   set(CMAKE_C_STANDARD 11)
 endif()
 
-# This ensures that things like c++11 get passed correctly
+# This ensures that things like c++17 get passed correctly
 if(NOT DEFINED CMAKE_CXX_STANDARD)
-  set(CMAKE_CXX_STANDARD 11)
+  set(CMAKE_CXX_STANDARD 17)
+elseif(${CMAKE_CXX_STANDARD} VERSION_LESS 17)
+  message(FATAL_ERROR "Cannot set a CMAKE_CXX_STANDARD smaller than 17")
 endif()
 
-# We require a C++11 compliant compiler
+# We require a C++17 compliant compiler
 set(CMAKE_CXX_STANDARD_REQUIRED ON)
 
 # ARROW-6848: Do not use GNU (or other CXX) extensions
@@ -201,6 +207,24 @@ if(WIN32)
     #   * https://developercommunity.visualstudio.com/content/problem/1249671/stdc17-generates-warning-compiling-windowsh.html
     set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} /wd5105")
 
+    if(ARROW_USE_CCACHE)
+      foreach(c_flag
+              CMAKE_CXX_FLAGS
+              CMAKE_CXX_FLAGS_RELEASE
+              CMAKE_CXX_FLAGS_DEBUG
+              CMAKE_CXX_FLAGS_MINSIZEREL
+              CMAKE_CXX_FLAGS_RELWITHDEBINFO
+              CMAKE_C_FLAGS
+              CMAKE_C_FLAGS_RELEASE
+              CMAKE_C_FLAGS_DEBUG
+              CMAKE_C_FLAGS_MINSIZEREL
+              CMAKE_C_FLAGS_RELWITHDEBINFO)
+        # ccache doesn't work with /Zi.
+        # See also: https://github.com/ccache/ccache/issues/1040
+        string(REPLACE "/Zi" "/Z7" ${c_flag} "${${c_flag}}")
+      endforeach()
+    endif()
+
     if(ARROW_USE_STATIC_CRT)
       foreach(c_flag
               CMAKE_CXX_FLAGS
@@ -213,7 +237,7 @@ if(WIN32)
               CMAKE_C_FLAGS_DEBUG
               CMAKE_C_FLAGS_MINSIZEREL
               CMAKE_C_FLAGS_RELWITHDEBINFO)
-        string(REPLACE "/MD" "-MT" ${c_flag} "${${c_flag}}")
+        string(REPLACE "/MD" "/MT" ${c_flag} "${${c_flag}}")
       endforeach()
     endif()
 
@@ -259,13 +283,13 @@ string(TOUPPER ${BUILD_WARNING_LEVEL} BUILD_WARNING_LEVEL)
 message(STATUS "Arrow build warning level: ${BUILD_WARNING_LEVEL}")
 
 macro(arrow_add_werror_if_debug)
-  if("${CMAKE_BUILD_TYPE}" STREQUAL "DEBUG")
-    # Treat all compiler warnings as errors
-    if(MSVC)
-      set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} /WX")
-    else()
-      set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} -Werror")
-    endif()
+  # Treat all compiler warnings as errors
+  if(MSVC)
+    string(APPEND CMAKE_C_FLAGS_DEBUG " /WX")
+    string(APPEND CMAKE_CXX_FLAGS_DEBUG " /WX")
+  else()
+    string(APPEND CMAKE_C_FLAGS_DEBUG " -Werror")
+    string(APPEND CMAKE_CXX_FLAGS_DEBUG " -Werror")
   endif()
 endmacro()
 
@@ -376,22 +400,13 @@ elseif(CMAKE_CXX_COMPILER_ID STREQUAL "GNU")
     set(CXX_ONLY_FLAGS "${CXX_ONLY_FLAGS} -Wno-noexcept-type")
   endif()
 
-  if(CMAKE_CXX_COMPILER_VERSION VERSION_GREATER "5.2")
-    # Disabling semantic interposition allows faster calling conventions
-    # when calling global functions internally, and can also help inlining.
-    # See https://stackoverflow.com/questions/35745543/new-option-in-gcc-5-3-fno-semantic-interposition
-    set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} -fno-semantic-interposition")
-  endif()
+  # Disabling semantic interposition allows faster calling conventions
+  # when calling global functions internally, and can also help inlining.
+  # See https://stackoverflow.com/questions/35745543/new-option-in-gcc-5-3-fno-semantic-interposition
+  set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} -fno-semantic-interposition")
 
-  if(CMAKE_CXX_COMPILER_VERSION VERSION_GREATER "4.9")
-    # Add colors when paired with ninja
-    set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fdiagnostics-color=always")
-  endif()
-
-  if(CMAKE_CXX_COMPILER_VERSION VERSION_LESS "6.0")
-    # Work around https://gcc.gnu.org/bugzilla/show_bug.cgi?id=43407
-    set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} -Wno-attributes")
-  endif()
+  # Add colors when paired with ninja
+  set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fdiagnostics-color=always")
 
   if(CMAKE_UNITY_BUILD)
     # Work around issue similar to https://bugs.webkit.org/show_bug.cgi?id=176869
@@ -418,11 +433,11 @@ elseif(CMAKE_CXX_COMPILER_ID STREQUAL "AppleClang" OR CMAKE_CXX_COMPILER_ID STRE
   # Don't complain about optimization passes that were not possible
   set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} -Wno-pass-failed")
 
-  if(CMAKE_CXX_COMPILER_ID STREQUAL "AppleClang")
-    # Depending on the default OSX_DEPLOYMENT_TARGET (< 10.9), libstdc++ may be
-    # the default standard library which does not support C++11. libc++ is the
-    # default from 10.9 onward.
-    set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} -stdlib=libc++")
+  # Avoid clang / libc++ error about C++17 aligned allocation on macOS.
+  # See https://chromium.googlesource.com/chromium/src/+/eee44569858fc650b635779c4e34be5cb0c73186%5E%21/#F0
+  # for details.
+  if(APPLE)
+    set(CXX_ONLY_FLAGS "${CXX_ONLY_FLAGS} -fno-aligned-new")
   endif()
 endif()
 
@@ -469,33 +484,28 @@ if(ARROW_CPU_FLAG STREQUAL "ppc")
   endif()
 endif()
 
-if(ARROW_CPU_FLAG STREQUAL "armv8")
-  if(ARROW_SIMD_LEVEL STREQUAL "NEON")
+if(ARROW_CPU_FLAG STREQUAL "aarch64")
+  if(ARROW_SIMD_LEVEL MATCHES "NEON|SVE[0-9]*")
     set(ARROW_HAVE_NEON ON)
-
-    if(NOT CXX_SUPPORTS_ARMV8_ARCH)
-      message(FATAL_ERROR "Unsupported arch flag: ${ARROW_ARMV8_ARCH_FLAG}.")
-    endif()
-    if(ARROW_ARMV8_ARCH_FLAG MATCHES "native")
-      message(FATAL_ERROR "native arch not allowed, please specify arch explicitly.")
-    endif()
-    set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} ${ARROW_ARMV8_ARCH_FLAG}")
-
     add_definitions(-DARROW_HAVE_NEON)
-
-    if(CMAKE_CXX_COMPILER_ID STREQUAL "GNU" AND CMAKE_CXX_COMPILER_VERSION VERSION_LESS
-                                                "5.4")
-      message(WARNING "Disable Armv8 CRC and Crypto as compiler doesn't support them well."
-      )
-    else()
-      if(ARROW_ARMV8_ARCH_FLAG MATCHES "\\+crypto")
-        add_definitions(-DARROW_HAVE_ARMV8_CRYPTO)
+    if(ARROW_SIMD_LEVEL MATCHES "SVE[0-9]*")
+      if(NOT CXX_SUPPORTS_SVE)
+        message(FATAL_ERROR "SVE required but compiler doesn't support it.")
       endif()
-      # armv8.1+ implies crc support
-      if(ARROW_ARMV8_ARCH_FLAG MATCHES "armv8\\.[1-9]|\\+crc")
-        add_definitions(-DARROW_HAVE_ARMV8_CRC)
+      # -march=armv8-a+sve
+      set(ARROW_ARMV8_MARCH "${ARROW_ARMV8_MARCH}+sve")
+      string(REGEX MATCH "[0-9]+" SVE_VECTOR_BITS ${ARROW_SIMD_LEVEL})
+      if(SVE_VECTOR_BITS)
+        set(ARROW_HAVE_SVE${SVE_VECTOR_BITS} ON)
+        add_definitions(-DARROW_HAVE_SVE${SVE_VECTOR_BITS})
+        # -msve-vector-bits=256
+        set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} -msve-vector-bits=${SVE_VECTOR_BITS}")
+      else()
+        set(ARROW_HAVE_SVE_SIZELESS ON)
+        add_definitions(-DARROW_HAVE_SVE_SIZELSS)
       endif()
     endif()
+    set(CXX_COMMON_FLAGS "${CXX_COMMON_FLAGS} -march=${ARROW_ARMV8_MARCH}")
   elseif(NOT ARROW_SIMD_LEVEL STREQUAL "NONE")
     message(WARNING "ARROW_SIMD_LEVEL=${ARROW_SIMD_LEVEL} not supported by Arm.")
   endif()
@@ -594,57 +604,42 @@ endif()
 # For all builds:
 # For CMAKE_BUILD_TYPE=Debug
 #   -ggdb: Enable gdb debugging
-# For CMAKE_BUILD_TYPE=FastDebug
-#   Same as DEBUG, except with some optimizations on.
 # For CMAKE_BUILD_TYPE=Release
-#   -O3: Enable all compiler optimizations
-#   Debug symbols are stripped for reduced binary size. Add
-#   -DARROW_CXXFLAGS="-g" to add them
+#   -O2 (not -O3): Enable compiler optimizations
+#   Debug symbols are stripped for reduced binary size.
+# For CMAKE_BUILD_TYPE=RelWithDebInfo
+#   Same as Release, except with debug symbols enabled.
+
 if(NOT MSVC)
-  if(ARROW_GGDB_DEBUG)
-    set(ARROW_DEBUG_SYMBOL_TYPE "gdb")
-    set(C_FLAGS_DEBUG "-g${ARROW_DEBUG_SYMBOL_TYPE} -O0")
-    set(C_FLAGS_FASTDEBUG "-g${ARROW_DEBUG_SYMBOL_TYPE} -O1")
-    set(CXX_FLAGS_DEBUG "-g${ARROW_DEBUG_SYMBOL_TYPE} -O0")
-    set(CXX_FLAGS_FASTDEBUG "-g${ARROW_DEBUG_SYMBOL_TYPE} -O1")
-  else()
-    set(C_FLAGS_DEBUG "-g -O0")
-    set(C_FLAGS_FASTDEBUG "-g -O1")
-    set(CXX_FLAGS_DEBUG "-g -O0")
-    set(CXX_FLAGS_FASTDEBUG "-g -O1")
+  set(C_RELEASE_FLAGS "")
+  if(CMAKE_C_FLAGS_RELEASE MATCHES "-O3")
+    string(APPEND C_RELEASE_FLAGS " -O2")
+  endif()
+  set(CXX_RELEASE_FLAGS "")
+  if(CMAKE_CXX_FLAGS_RELEASE MATCHES "-O3")
+    string(APPEND CXX_RELEASE_FLAGS " -O2")
+  endif()
+  if(CMAKE_CXX_COMPILER_ID STREQUAL "GNU")
+    string(APPEND C_RELEASE_FLAGS " -ftree-vectorize")
+    string(APPEND CXX_RELEASE_FLAGS " -ftree-vectorize")
   endif()
 
-  set(C_FLAGS_RELEASE "-O3 -DNDEBUG")
-  set(CXX_FLAGS_RELEASE "-O3 -DNDEBUG")
-endif()
+  set(DEBUG_FLAGS "")
+  if(MSVC)
+    string(APPEND DEBUG_FLAGS " /Od")
+  else()
+    string(APPEND DEBUG_FLAGS " -O0")
+  endif()
+  if(ARROW_GGDB_DEBUG)
+    string(APPEND DEBUG_FLAGS " -ggdb")
+  endif()
 
-set(C_FLAGS_PROFILE_GEN "${CXX_FLAGS_RELEASE} -fprofile-generate")
-set(C_FLAGS_PROFILE_BUILD "${CXX_FLAGS_RELEASE} -fprofile-use")
-set(CXX_FLAGS_PROFILE_GEN "${CXX_FLAGS_RELEASE} -fprofile-generate")
-set(CXX_FLAGS_PROFILE_BUILD "${CXX_FLAGS_RELEASE} -fprofile-use")
-
-# Set compile flags based on the build type.
-message(STATUS "Configured for ${CMAKE_BUILD_TYPE} build (set with cmake -DCMAKE_BUILD_TYPE={release,debug,...})"
-)
-if("${CMAKE_BUILD_TYPE}" STREQUAL "DEBUG")
-  set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} ${C_FLAGS_DEBUG}")
-  set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${CXX_FLAGS_DEBUG}")
-elseif("${CMAKE_BUILD_TYPE}" STREQUAL "RELWITHDEBINFO")
-
-elseif("${CMAKE_BUILD_TYPE}" STREQUAL "FASTDEBUG")
-  set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} ${C_FLAGS_FASTDEBUG}")
-  set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${CXX_FLAGS_FASTDEBUG}")
-elseif("${CMAKE_BUILD_TYPE}" STREQUAL "RELEASE")
-  set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} ${C_FLAGS_RELEASE}")
-  set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${CXX_FLAGS_RELEASE}")
-elseif("${CMAKE_BUILD_TYPE}" STREQUAL "PROFILE_GEN")
-  set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} ${C_FLAGS_PROFILE_GEN}")
-  set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${CXX_FLAGS_PROFILE_GEN}")
-elseif("${CMAKE_BUILD_TYPE}" STREQUAL "PROFILE_BUILD")
-  set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} ${C_FLAGS_PROFILE_BUILD}")
-  set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${CXX_FLAGS_PROFILE_BUILD}")
-else()
-  message(FATAL_ERROR "Unknown build type: ${CMAKE_BUILD_TYPE}")
+  string(APPEND CMAKE_C_FLAGS_RELEASE "${C_RELEASE_FLAGS}")
+  string(APPEND CMAKE_CXX_FLAGS_RELEASE "${CXX_RELEASE_FLAGS}")
+  string(APPEND CMAKE_C_FLAGS_DEBUG "${DEBUG_FLAGS}")
+  string(APPEND CMAKE_CXX_FLAGS_DEBUG "${DEBUG_FLAGS}")
+  string(APPEND CMAKE_C_FLAGS_RELWITHDEBINFO "${C_RELEASE_FLAGS} ${DEBUG_FLAGS}")
+  string(APPEND CMAKE_CXX_FLAGS_RELWITHDEBINFO "${CXX_RELEASE_FLAGS} ${DEBUG_FLAGS}")
 endif()
 
 message(STATUS "Build Type: ${CMAKE_BUILD_TYPE}")
diff --git a/cpp/cmake_modules/ThirdpartyToolchain.cmake b/cpp/cmake_modules/ThirdpartyToolchain.cmake
index 86ad0583531..3eda538fb2e 100644
--- a/cpp/cmake_modules/ThirdpartyToolchain.cmake
+++ b/cpp/cmake_modules/ThirdpartyToolchain.cmake
@@ -40,12 +40,6 @@ set(ARROW_RE2_LINKAGE
     "static"
     CACHE STRING "How to link the re2 library. static|shared (default static)")
 
-if(ARROW_PROTOBUF_USE_SHARED)
-  set(Protobuf_USE_STATIC_LIBS OFF)
-else()
-  set(Protobuf_USE_STATIC_LIBS ON)
-endif()
-
 # ----------------------------------------------------------------------
 # Resolve the dependencies
 
@@ -216,18 +210,25 @@ endmacro()
 
 # Find modules are needed by the consumer in case of a static build, or if the
 # linkage is PUBLIC or INTERFACE.
-macro(provide_find_module PACKAGE_NAME)
+macro(provide_find_module PACKAGE_NAME ARROW_CMAKE_PACKAGE_NAME)
   set(module_ "${CMAKE_SOURCE_DIR}/cmake_modules/Find${PACKAGE_NAME}.cmake")
   if(EXISTS "${module_}")
-    message(STATUS "Providing CMake module for ${PACKAGE_NAME}")
-    install(FILES "${module_}" DESTINATION "${ARROW_CMAKE_DIR}")
+    message(STATUS "Providing CMake module for ${PACKAGE_NAME} as part of ${ARROW_CMAKE_PACKAGE_NAME} CMake package"
+    )
+    install(FILES "${module_}"
+            DESTINATION "${ARROW_CMAKE_DIR}/${ARROW_CMAKE_PACKAGE_NAME}")
   endif()
   unset(module_)
 endmacro()
 
 macro(resolve_dependency DEPENDENCY_NAME)
   set(options)
-  set(one_value_args HAVE_ALT IS_RUNTIME_DEPENDENCY REQUIRED_VERSION USE_CONFIG)
+  set(one_value_args
+      FORCE_ANY_NEWER_VERSION
+      HAVE_ALT
+      IS_RUNTIME_DEPENDENCY
+      REQUIRED_VERSION
+      USE_CONFIG)
   set(multi_value_args COMPONENTS PC_PACKAGE_NAMES)
   cmake_parse_arguments(ARG
                         "${options}"
@@ -247,7 +248,7 @@ macro(resolve_dependency DEPENDENCY_NAME)
     set(PACKAGE_NAME ${DEPENDENCY_NAME})
   endif()
   set(FIND_PACKAGE_ARGUMENTS ${PACKAGE_NAME})
-  if(ARG_REQUIRED_VERSION)
+  if(ARG_REQUIRED_VERSION AND NOT ARG_FORCE_ANY_NEWER_VERSION)
     list(APPEND FIND_PACKAGE_ARGUMENTS ${ARG_REQUIRED_VERSION})
   endif()
   if(ARG_USE_CONFIG)
@@ -258,7 +259,16 @@ macro(resolve_dependency DEPENDENCY_NAME)
   endif()
   if(${DEPENDENCY_NAME}_SOURCE STREQUAL "AUTO")
     find_package(${FIND_PACKAGE_ARGUMENTS})
-    if(${${PACKAGE_NAME}_FOUND})
+    set(COMPATIBLE ${${PACKAGE_NAME}_FOUND})
+    if(COMPATIBLE
+       AND ARG_FORCE_ANY_NEWER_VERSION
+       AND ARG_REQUIRED_VERSION)
+      if(${${PACKAGE_NAME}_VERSION} VERSION_LESS ${ARG_REQUIRED_VERSION})
+        message(DEBUG "Couldn't find ${DEPENDENCY_NAME} >= ${ARG_REQUIRED_VERSION}")
+        set(COMPATIBLE FALSE)
+      endif()
+    endif()
+    if(COMPATIBLE)
       set(${DEPENDENCY_NAME}_SOURCE "SYSTEM")
     else()
       build_dependency(${DEPENDENCY_NAME})
@@ -268,9 +278,14 @@ macro(resolve_dependency DEPENDENCY_NAME)
     build_dependency(${DEPENDENCY_NAME})
   elseif(${DEPENDENCY_NAME}_SOURCE STREQUAL "SYSTEM")
     find_package(${FIND_PACKAGE_ARGUMENTS} REQUIRED)
+    if(ARG_FORCE_ANY_NEWER_VERSION AND ARG_REQUIRED_VERSION)
+      if(${${PACKAGE_NAME}_VERSION} VERSION_LESS ${ARG_REQUIRED_VERSION})
+        message(FATAL_ERROR "Couldn't find ${DEPENDENCY_NAME} >= ${ARG_REQUIRED_VERSION}")
+      endif()
+    endif()
   endif()
   if(${DEPENDENCY_NAME}_SOURCE STREQUAL "SYSTEM" AND ARG_IS_RUNTIME_DEPENDENCY)
-    provide_find_module(${PACKAGE_NAME})
+    provide_find_module(${PACKAGE_NAME} "Arrow")
     list(APPEND ARROW_SYSTEM_DEPENDENCIES ${PACKAGE_NAME})
     find_package(PkgConfig QUIET)
     foreach(ARG_PC_PACKAGE_NAME ${ARG_PC_PACKAGE_NAMES})
@@ -280,7 +295,12 @@ macro(resolve_dependency DEPENDENCY_NAME)
                         NO_CMAKE_ENVIRONMENT_PATH
                         QUIET)
       if(${${ARG_PC_PACKAGE_NAME}_PC_FOUND})
+        message(STATUS "Using pkg-config package for ${ARG_PC_PACKAGE_NAME} for static link"
+        )
         string(APPEND ARROW_PC_REQUIRES_PRIVATE " ${ARG_PC_PACKAGE_NAME}")
+      else()
+        message(STATUS "pkg-config package for ${ARG_PC_PACKAGE_NAME} for static link isn't found"
+        )
       endif()
     endforeach()
   endif()
@@ -632,18 +652,9 @@ endif()
 if(DEFINED ENV{ARROW_SNAPPY_URL})
   set(SNAPPY_SOURCE_URL "$ENV{ARROW_SNAPPY_URL}")
 else()
-  if(CMAKE_CXX_COMPILER_ID STREQUAL "GNU" AND CMAKE_CXX_COMPILER_VERSION VERSION_LESS
-                                              "4.9")
-    # There is a bug in GCC < 4.9 with Snappy 1.1.9, so revert to 1.1.8 "SNAPPY_OLD" for those (ARROW-14661)
-    set_urls(SNAPPY_SOURCE_URL
-             "https://github.com/google/snappy/archive/${ARROW_SNAPPY_OLD_BUILD_VERSION}.tar.gz"
-             "${THIRDPARTY_MIRROR_URL}/snappy-${ARROW_SNAPPY_OLD_BUILD_VERSION}.tar.gz")
-    set(ARROW_SNAPPY_BUILD_SHA256_CHECKSUM ${ARROW_SNAPPY_OLD_BUILD_SHA256_CHECKSUM})
-  else()
-    set_urls(SNAPPY_SOURCE_URL
-             "https://github.com/google/snappy/archive/${ARROW_SNAPPY_BUILD_VERSION}.tar.gz"
-             "${THIRDPARTY_MIRROR_URL}/snappy-${ARROW_SNAPPY_BUILD_VERSION}.tar.gz")
-  endif()
+  set_urls(SNAPPY_SOURCE_URL
+           "https://github.com/google/snappy/archive/${ARROW_SNAPPY_BUILD_VERSION}.tar.gz"
+           "${THIRDPARTY_MIRROR_URL}/snappy-${ARROW_SNAPPY_BUILD_VERSION}.tar.gz")
 endif()
 
 if(DEFINED ENV{ARROW_SUBSTRAIT_URL})
@@ -716,16 +727,25 @@ endif()
 # ----------------------------------------------------------------------
 # ExternalProject options
 
-set(EP_CXX_FLAGS
-    "${CMAKE_CXX_COMPILER_ARG1} ${CMAKE_CXX_FLAGS} ${CMAKE_CXX_FLAGS_${UPPERCASE_BUILD_TYPE}}"
-)
-set(EP_C_FLAGS
-    "${CMAKE_C_COMPILER_ARG1} ${CMAKE_C_FLAGS} ${CMAKE_C_FLAGS_${UPPERCASE_BUILD_TYPE}}")
+set(EP_LIST_SEPARATOR "|")
+set(EP_COMMON_OPTIONS LIST_SEPARATOR ${EP_LIST_SEPARATOR})
 
+set(EP_CXX_FLAGS "${CMAKE_CXX_FLAGS}")
+set(EP_C_FLAGS "${CMAKE_C_FLAGS}")
 if(NOT MSVC_TOOLCHAIN)
   # Set -fPIC on all external projects
-  set(EP_CXX_FLAGS "${EP_CXX_FLAGS} -fPIC")
-  set(EP_C_FLAGS "${EP_C_FLAGS} -fPIC")
+  string(APPEND EP_CXX_FLAGS " -fPIC")
+  string(APPEND EP_C_FLAGS " -fPIC")
+endif()
+
+set(EP_CXX_FLAGS_DEBUG "${CMAKE_CXX_FLAGS_DEBUG}")
+set(EP_C_FLAGS_DEBUG "${CMAKE_C_FLAGS_DEBUG}")
+if(MSVC_TOOLCHAIN)
+  string(REPLACE "/WX" "" EP_CXX_FLAGS_DEBUG "${EP_CXX_FLAGS_DEBUG}")
+  string(REPLACE "/WX" "" EP_C_FLAGS_DEBUG "${EP_C_FLAGS_DEBUG}")
+else()
+  string(APPEND EP_CXX_FLAGS_DEBUG " -Wno-error")
+  string(APPEND EP_C_FLAGS_DEBUG " -Wno-error")
 endif()
 
 # CC/CXX environment variables are captured on the first invocation of the
@@ -733,15 +753,31 @@ endif()
 # directory. This leads to issues if the variables are exported in a subshell
 # and the invocation of make/ninja is in distinct subshell without the same
 # environment (CC/CXX).
-set(EP_COMMON_TOOLCHAIN -DCMAKE_C_COMPILER=${CMAKE_C_COMPILER}
-                        -DCMAKE_CXX_COMPILER=${CMAKE_CXX_COMPILER})
+set(EP_C_COMPILER "${CMAKE_C_COMPILER}")
+if(NOT CMAKE_VERSION VERSION_LESS 3.19)
+  if(CMAKE_C_COMPILER_ARG1)
+    separate_arguments(EP_C_COMPILER_ARGS NATIVE_COMMAND "${CMAKE_C_COMPILER_ARG1}")
+    list(APPEND EP_C_COMPILER ${EP_C_COMPILER_ARGS})
+  endif()
+  string(REPLACE ";" ${EP_LIST_SEPARATOR} EP_C_COMPILER "${EP_C_COMPILER}")
+endif()
+set(EP_CXX_COMPILER "${CMAKE_CXX_COMPILER}")
+if(NOT CMAKE_VERSION VERSION_LESS 3.19)
+  if(CMAKE_CXX_COMPILER_ARG1)
+    separate_arguments(EP_CXX_COMPILER_ARGS NATIVE_COMMAND "${CMAKE_CXX_COMPILER_ARG1}")
+    list(APPEND EP_CXX_COMPILER ${EP_CXX_COMPILER_ARGS})
+  endif()
+  string(REPLACE ";" ${EP_LIST_SEPARATOR} EP_CXX_COMPILER "${EP_CXX_COMPILER}")
+endif()
+set(EP_COMMON_TOOLCHAIN "-DCMAKE_C_COMPILER=${EP_C_COMPILER}"
+                        "-DCMAKE_CXX_COMPILER=${EP_CXX_COMPILER}")
 
 if(CMAKE_AR)
-  set(EP_COMMON_TOOLCHAIN ${EP_COMMON_TOOLCHAIN} -DCMAKE_AR=${CMAKE_AR})
+  list(APPEND EP_COMMON_TOOLCHAIN -DCMAKE_AR=${CMAKE_AR})
 endif()
 
 if(CMAKE_RANLIB)
-  set(EP_COMMON_TOOLCHAIN ${EP_COMMON_TOOLCHAIN} -DCMAKE_RANLIB=${CMAKE_RANLIB})
+  list(APPEND EP_COMMON_TOOLCHAIN -DCMAKE_RANLIB=${CMAKE_RANLIB})
 endif()
 
 # External projects are still able to override the following declarations.
@@ -750,15 +786,24 @@ endif()
 # argument.
 set(EP_COMMON_CMAKE_ARGS
     ${EP_COMMON_TOOLCHAIN}
-    ${EP_COMMON_CMAKE_ARGS}
+    -DBUILD_SHARED_LIBS=OFF
+    -DBUILD_STATIC_LIBS=ON
+    -DBUILD_TESTING=OFF
     -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_TYPE}
-    -DCMAKE_C_FLAGS=${EP_C_FLAGS}
-    -DCMAKE_C_FLAGS_${UPPERCASE_BUILD_TYPE}=${EP_C_FLAGS}
     -DCMAKE_CXX_FLAGS=${EP_CXX_FLAGS}
-    -DCMAKE_CXX_FLAGS_${UPPERCASE_BUILD_TYPE}=${EP_CXX_FLAGS}
+    -DCMAKE_CXX_FLAGS_DEBUG=${EP_CXX_FLAGS_DEBUG}
+    -DCMAKE_CXX_FLAGS_MISIZEREL=${CMAKE_CXX_FLAGS_MINSIZEREL}
+    -DCMAKE_CXX_FLAGS_RELEASE=${CMAKE_CXX_FLAGS_RELEASE}
+    -DCMAKE_CXX_FLAGS_RELWITHDEBINFO=${CMAKE_CXX_FLAGS_RELWITHDEBINFO}
     -DCMAKE_CXX_STANDARD=${CMAKE_CXX_STANDARD}
+    -DCMAKE_C_FLAGS=${EP_C_FLAGS}
+    -DCMAKE_C_FLAGS_DEBUG=${EP_C_FLAGS_DEBUG}
+    -DCMAKE_C_FLAGS_MISIZEREL=${CMAKE_C_FLAGS_MINSIZEREL}
+    -DCMAKE_C_FLAGS_RELEASE=${CMAKE_C_FLAGS_RELEASE}
+    -DCMAKE_C_FLAGS_RELWITHDEBINFO=${CMAKE_C_FLAGS_RELWITHDEBINFO}
     -DCMAKE_EXPORT_NO_PACKAGE_REGISTRY=${CMAKE_EXPORT_NO_PACKAGE_REGISTRY}
     -DCMAKE_FIND_PACKAGE_NO_PACKAGE_REGISTRY=${CMAKE_FIND_PACKAGE_NO_PACKAGE_REGISTRY}
+    -DCMAKE_INSTALL_LIBDIR=lib
     -DCMAKE_VERBOSE_MAKEFILE=${CMAKE_VERBOSE_MAKEFILE})
 
 # Enable s/ccache if set by parent.
@@ -769,20 +814,20 @@ if(CMAKE_C_COMPILER_LAUNCHER AND CMAKE_CXX_COMPILER_LAUNCHER)
 endif()
 
 if(NOT ARROW_VERBOSE_THIRDPARTY_BUILD)
-  set(EP_LOG_OPTIONS
-      LOG_CONFIGURE
-      1
-      LOG_BUILD
-      1
-      LOG_INSTALL
-      1
-      LOG_DOWNLOAD
-      1
-      LOG_OUTPUT_ON_FAILURE
-      1)
+  list(APPEND
+       EP_COMMON_OPTIONS
+       LOG_CONFIGURE
+       1
+       LOG_BUILD
+       1
+       LOG_INSTALL
+       1
+       LOG_DOWNLOAD
+       1
+       LOG_OUTPUT_ON_FAILURE
+       1)
   set(Boost_DEBUG FALSE)
 else()
-  set(EP_LOG_OPTIONS)
   set(Boost_DEBUG TRUE)
 endif()
 
@@ -888,18 +933,19 @@ macro(build_boost)
                        "${Boost_INCLUDE_DIR}")
 
     externalproject_add(boost_ep
+                        ${EP_COMMON_OPTIONS}
                         URL ${BOOST_SOURCE_URL}
                         URL_HASH "SHA256=${ARROW_BOOST_BUILD_SHA256_CHECKSUM}"
                         BUILD_BYPRODUCTS ${BOOST_BUILD_PRODUCTS}
                         BUILD_IN_SOURCE 1
                         CONFIGURE_COMMAND ${BOOST_CONFIGURE_COMMAND}
                         BUILD_COMMAND ${BOOST_BUILD_COMMAND}
-                        INSTALL_COMMAND "" ${EP_LOG_OPTIONS})
+                        INSTALL_COMMAND "")
     add_dependencies(Boost::system boost_ep)
     add_dependencies(Boost::filesystem boost_ep)
   else()
     externalproject_add(boost_ep
-                        ${EP_LOG_OPTIONS}
+                        ${EP_COMMON_OPTIONS}
                         BUILD_COMMAND ""
                         CONFIGURE_COMMAND ""
                         INSTALL_COMMAND ""
@@ -1019,12 +1065,16 @@ if(ARROW_USE_BOOST)
     # Find static boost headers and libs
     set(Boost_USE_STATIC_LIBS ON)
   endif()
+  if(ARROW_BOOST_REQUIRE_LIBRARY)
+    set(ARROW_BOOST_COMPONENTS system filesystem)
+  else()
+    set(ARROW_BOOST_COMPONENTS)
+  endif()
   resolve_dependency(Boost
                      REQUIRED_VERSION
                      ${ARROW_BOOST_REQUIRED_VERSION}
                      COMPONENTS
-                     system
-                     filesystem
+                     ${ARROW_BOOST_COMPONENTS}
                      IS_RUNTIME_DEPENDENCY
                      # libarrow.so doesn't depend on libboost*.
                      FALSE)
@@ -1083,6 +1133,7 @@ endif()
 macro(find_curl)
   if(NOT TARGET CURL::libcurl)
     find_package(CURL REQUIRED)
+    list(APPEND ARROW_SYSTEM_DEPENDENCIES CURL)
     if(NOT TARGET CURL::libcurl)
       # For CMake 3.11 or older
       add_library(CURL::libcurl UNKNOWN IMPORTED)
@@ -1106,14 +1157,11 @@ macro(build_snappy)
   )
 
   set(SNAPPY_CMAKE_ARGS
-      ${EP_COMMON_CMAKE_ARGS}
-      -DCMAKE_INSTALL_LIBDIR=lib
-      -DSNAPPY_BUILD_TESTS=OFF
-      -DSNAPPY_BUILD_BENCHMARKS=OFF
+      ${EP_COMMON_CMAKE_ARGS} -DSNAPPY_BUILD_TESTS=OFF -DSNAPPY_BUILD_BENCHMARKS=OFF
       "-DCMAKE_INSTALL_PREFIX=${SNAPPY_PREFIX}")
 
   externalproject_add(snappy_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       BUILD_IN_SOURCE 1
                       INSTALL_DIR ${SNAPPY_PREFIX}
                       URL ${SNAPPY_SOURCE_URL}
@@ -1149,6 +1197,9 @@ if(ARROW_WITH_SNAPPY)
       if(NOT SNAPPY_LIB)
         get_target_property(SNAPPY_LIB ${Snappy_TARGET} IMPORTED_LOCATION_RELEASE)
       endif()
+      if(NOT SNAPPY_LIB)
+        get_target_property(SNAPPY_LIB ${Snappy_TARGET} IMPORTED_LOCATION_NOCONFIG)
+      endif()
       if(NOT SNAPPY_LIB)
         get_target_property(SNAPPY_LIB ${Snappy_TARGET} IMPORTED_LOCATION)
       endif()
@@ -1164,27 +1215,25 @@ macro(build_brotli)
   message(STATUS "Building brotli from source")
   set(BROTLI_PREFIX "${CMAKE_CURRENT_BINARY_DIR}/brotli_ep/src/brotli_ep-install")
   set(BROTLI_INCLUDE_DIR "${BROTLI_PREFIX}/include")
-  set(BROTLI_LIB_DIR lib)
   set(BROTLI_STATIC_LIBRARY_ENC
-      "${BROTLI_PREFIX}/${BROTLI_LIB_DIR}/${CMAKE_STATIC_LIBRARY_PREFIX}brotlienc-static${CMAKE_STATIC_LIBRARY_SUFFIX}"
+      "${BROTLI_PREFIX}/lib/${CMAKE_STATIC_LIBRARY_PREFIX}brotlienc-static${CMAKE_STATIC_LIBRARY_SUFFIX}"
   )
   set(BROTLI_STATIC_LIBRARY_DEC
-      "${BROTLI_PREFIX}/${BROTLI_LIB_DIR}/${CMAKE_STATIC_LIBRARY_PREFIX}brotlidec-static${CMAKE_STATIC_LIBRARY_SUFFIX}"
+      "${BROTLI_PREFIX}/lib/${CMAKE_STATIC_LIBRARY_PREFIX}brotlidec-static${CMAKE_STATIC_LIBRARY_SUFFIX}"
   )
   set(BROTLI_STATIC_LIBRARY_COMMON
-      "${BROTLI_PREFIX}/${BROTLI_LIB_DIR}/${CMAKE_STATIC_LIBRARY_PREFIX}brotlicommon-static${CMAKE_STATIC_LIBRARY_SUFFIX}"
+      "${BROTLI_PREFIX}/lib/${CMAKE_STATIC_LIBRARY_PREFIX}brotlicommon-static${CMAKE_STATIC_LIBRARY_SUFFIX}"
   )
-  set(BROTLI_CMAKE_ARGS ${EP_COMMON_CMAKE_ARGS} "-DCMAKE_INSTALL_PREFIX=${BROTLI_PREFIX}"
-                        -DCMAKE_INSTALL_LIBDIR=${BROTLI_LIB_DIR})
+  set(BROTLI_CMAKE_ARGS ${EP_COMMON_CMAKE_ARGS} "-DCMAKE_INSTALL_PREFIX=${BROTLI_PREFIX}")
 
   externalproject_add(brotli_ep
+                      ${EP_COMMON_OPTIONS}
                       URL ${BROTLI_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_BROTLI_BUILD_SHA256_CHECKSUM}"
                       BUILD_BYPRODUCTS "${BROTLI_STATIC_LIBRARY_ENC}"
                                        "${BROTLI_STATIC_LIBRARY_DEC}"
                                        "${BROTLI_STATIC_LIBRARY_COMMON}"
                                        ${BROTLI_BUILD_BYPRODUCTS}
-                                       ${EP_LOG_OPTIONS}
                       CMAKE_ARGS ${BROTLI_CMAKE_ARGS}
                       STEP_TARGETS headers_copy)
 
@@ -1217,59 +1266,35 @@ macro(build_brotli)
 endmacro()
 
 if(ARROW_WITH_BROTLI)
-  resolve_dependency(Brotli PC_PACKAGE_NAMES libbrotlidec libbrotlienc)
+  resolve_dependency(Brotli
+                     HAVE_ALT
+                     TRUE
+                     PC_PACKAGE_NAMES
+                     libbrotlidec
+                     libbrotlienc)
 endif()
 
 if(PARQUET_REQUIRE_ENCRYPTION AND NOT ARROW_PARQUET)
   set(PARQUET_REQUIRE_ENCRYPTION OFF)
 endif()
 set(ARROW_OPENSSL_REQUIRED_VERSION "1.0.2")
-if(BREW_BIN AND NOT OPENSSL_ROOT_DIR)
-  execute_process(COMMAND ${BREW_BIN} --prefix "openssl@1.1"
-                  OUTPUT_VARIABLE OPENSSL11_BREW_PREFIX
-                  OUTPUT_STRIP_TRAILING_WHITESPACE)
-  if(OPENSSL11_BREW_PREFIX)
-    set(OPENSSL_ROOT_DIR ${OPENSSL11_BREW_PREFIX})
-  else()
-    execute_process(COMMAND ${BREW_BIN} --prefix "openssl"
-                    OUTPUT_VARIABLE OPENSSL_BREW_PREFIX
-                    OUTPUT_STRIP_TRAILING_WHITESPACE)
-    if(OPENSSL_BREW_PREFIX)
-      set(OPENSSL_ROOT_DIR ${OPENSSL_BREW_PREFIX})
-    endif()
-  endif()
-endif()
-
 set(ARROW_USE_OPENSSL OFF)
 if(PARQUET_REQUIRE_ENCRYPTION
    OR ARROW_FLIGHT
-   OR ARROW_S3)
-  # OpenSSL is required
-  if(ARROW_OPENSSL_USE_SHARED)
-    # Find shared OpenSSL libraries.
-    set(OpenSSL_USE_STATIC_LIBS OFF)
-    # Seems that different envs capitalize this differently?
-    set(OPENSSL_USE_STATIC_LIBS OFF)
-    set(BUILD_SHARED_LIBS_KEEP ${BUILD_SHARED_LIBS})
-    set(BUILD_SHARED_LIBS ON)
-
-    find_package(OpenSSL ${ARROW_OPENSSL_REQUIRED_VERSION} REQUIRED)
-    set(BUILD_SHARED_LIBS ${BUILD_SHARED_LIBS_KEEP})
-    unset(BUILD_SHARED_LIBS_KEEP)
-  else()
-    # Find static OpenSSL headers and libs
-    set(OpenSSL_USE_STATIC_LIBS ON)
-    set(OPENSSL_USE_STATIC_LIBS ON)
-    find_package(OpenSSL ${ARROW_OPENSSL_REQUIRED_VERSION} REQUIRED)
-  endif()
+   OR ARROW_S3
+   OR ARROW_GANDIVA)
+  set(OpenSSL_SOURCE "SYSTEM")
+  resolve_dependency(OpenSSL
+                     HAVE_ALT
+                     TRUE
+                     REQUIRED_VERSION
+                     ${ARROW_OPENSSL_REQUIRED_VERSION})
   set(ARROW_USE_OPENSSL ON)
 endif()
 
 if(ARROW_USE_OPENSSL)
   message(STATUS "Found OpenSSL Crypto Library: ${OPENSSL_CRYPTO_LIBRARY}")
   message(STATUS "Building with OpenSSL (Version: ${OPENSSL_VERSION}) support")
-
-  list(APPEND ARROW_SYSTEM_DEPENDENCIES OpenSSL)
 else()
   message(STATUS "Building without OpenSSL support. Minimum OpenSSL version ${ARROW_OPENSSL_REQUIRED_VERSION} required."
   )
@@ -1290,33 +1315,31 @@ macro(build_glog)
   set(GLOG_STATIC_LIB
       "${GLOG_BUILD_DIR}/lib/${CMAKE_STATIC_LIBRARY_PREFIX}glog${GLOG_LIB_SUFFIX}${CMAKE_STATIC_LIBRARY_SUFFIX}"
   )
-  set(GLOG_CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fPIC")
-  set(GLOG_CMAKE_C_FLAGS "${EP_C_FLAGS} -fPIC")
+  set(GLOG_CMAKE_CXX_FLAGS "${EP_CXX_FLAGS}")
+  set(GLOG_CMAKE_C_FLAGS "${EP_C_FLAGS}")
   if(CMAKE_THREAD_LIBS_INIT)
-    set(GLOG_CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${CMAKE_THREAD_LIBS_INIT}")
-    set(GLOG_CMAKE_C_FLAGS "${EP_C_FLAGS} ${CMAKE_THREAD_LIBS_INIT}")
+    string(APPEND GLOG_CMAKE_CXX_FLAGS " ${CMAKE_THREAD_LIBS_INIT}")
+    string(APPEND GLOG_CMAKE_C_FLAGS " ${CMAKE_THREAD_LIBS_INIT}")
   endif()
 
   if(APPLE)
     # If we don't set this flag, the binary built with 10.13 cannot be used in 10.12.
-    set(GLOG_CMAKE_CXX_FLAGS "${GLOG_CMAKE_CXX_FLAGS} -mmacosx-version-min=10.9")
+    string(APPEND GLOG_CMAKE_CXX_FLAGS " -mmacosx-version-min=10.9")
   endif()
 
   set(GLOG_CMAKE_ARGS
       ${EP_COMMON_CMAKE_ARGS}
       "-DCMAKE_INSTALL_PREFIX=${GLOG_BUILD_DIR}"
-      -DBUILD_SHARED_LIBS=OFF
-      -DBUILD_TESTING=OFF
       -DWITH_GFLAGS=OFF
-      -DCMAKE_CXX_FLAGS_${UPPERCASE_BUILD_TYPE}=${GLOG_CMAKE_CXX_FLAGS}
-      -DCMAKE_C_FLAGS_${UPPERCASE_BUILD_TYPE}=${GLOG_CMAKE_C_FLAGS}
-      -DCMAKE_CXX_FLAGS=${GLOG_CMAKE_CXX_FLAGS})
+      -DCMAKE_CXX_FLAGS=${GLOG_CMAKE_CXX_FLAGS}
+      -DCMAKE_C_FLAGS=${GLOG_CMAKE_C_FLAGS})
   externalproject_add(glog_ep
+                      ${EP_COMMON_OPTIONS}
                       URL ${GLOG_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_GLOG_BUILD_SHA256_CHECKSUM}"
                       BUILD_IN_SOURCE 1
                       BUILD_BYPRODUCTS "${GLOG_STATIC_LIB}"
-                      CMAKE_ARGS ${GLOG_CMAKE_ARGS} ${EP_LOG_OPTIONS})
+                      CMAKE_ARGS ${GLOG_CMAKE_ARGS})
 
   add_dependencies(toolchain glog_ep)
   file(MAKE_DIRECTORY "${GLOG_INCLUDE_DIR}")
@@ -1366,16 +1389,14 @@ macro(build_gflags)
   set(GFLAGS_CMAKE_ARGS
       ${EP_COMMON_CMAKE_ARGS}
       "-DCMAKE_INSTALL_PREFIX=${GFLAGS_PREFIX}"
-      -DBUILD_SHARED_LIBS=OFF
-      -DBUILD_STATIC_LIBS=ON
       -DBUILD_PACKAGING=OFF
-      -DBUILD_TESTING=OFF
       -DBUILD_CONFIG_TESTS=OFF
       -DINSTALL_HEADERS=ON)
 
   file(MAKE_DIRECTORY "${GFLAGS_INCLUDE_DIR}")
   externalproject_add(gflags_ep
-                      URL ${GFLAGS_SOURCE_URL} ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
+                      URL ${GFLAGS_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_GFLAGS_BUILD_SHA256_CHECKSUM}"
                       BUILD_IN_SOURCE 1
                       BUILD_BYPRODUCTS "${GFLAGS_STATIC_LIB}"
@@ -1440,8 +1461,6 @@ macro(build_thrift)
       -DBoost_NO_BOOST_CMAKE=ON
       -DBUILD_COMPILER=OFF
       -DBUILD_EXAMPLES=OFF
-      -DBUILD_SHARED_LIBS=OFF
-      -DBUILD_TESTING=OFF
       -DBUILD_TUTORIALS=OFF
       -DCMAKE_DEBUG_POSTFIX=
       -DWITH_AS3=OFF
@@ -1485,11 +1504,12 @@ macro(build_thrift)
   endif()
 
   externalproject_add(thrift_ep
+                      ${EP_COMMON_OPTIONS}
                       URL ${THRIFT_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_THRIFT_BUILD_SHA256_CHECKSUM}"
                       BUILD_BYPRODUCTS "${THRIFT_LIB}"
                       CMAKE_ARGS ${THRIFT_CMAKE_ARGS}
-                      DEPENDS ${THRIFT_DEPENDENCIES} ${EP_LOG_OPTIONS})
+                      DEPENDS ${THRIFT_DEPENDENCIES})
 
   add_library(thrift::thrift STATIC IMPORTED)
   # The include directory must exist before it is referenced by a target.
@@ -1508,13 +1528,16 @@ macro(build_thrift)
   add_dependencies(toolchain thrift_ep)
   add_dependencies(thrift::thrift thrift_ep)
   set(Thrift_VERSION ${ARROW_THRIFT_BUILD_VERSION})
+  set(THRIFT_VENDORED TRUE)
 
   list(APPEND ARROW_BUNDLED_STATIC_LIBS thrift::thrift)
 endmacro()
 
 if(ARROW_WITH_THRIFT)
-  # Thrift c++ code generated by 0.13 requires 0.11 or greater
+  # Thrift C++ code generated by 0.13 requires 0.11 or greater
   resolve_dependency(Thrift
+                     HAVE_ALT
+                     TRUE
                      REQUIRED_VERSION
                      0.11.0
                      PC_PACKAGE_NAMES
@@ -1578,15 +1601,11 @@ macro(build_protobuf)
     string(REPLACE "-ffat-lto-objects" "" PROTOBUF_CXX_FLAGS "${PROTOBUF_CXX_FLAGS}")
     set(PROTOBUF_CMAKE_ARGS
         ${EP_COMMON_CMAKE_ARGS}
-        -DBUILD_SHARED_LIBS=OFF
-        -DCMAKE_INSTALL_LIBDIR=lib
+        "-DCMAKE_CXX_FLAGS=${PROTOBUF_CXX_FLAGS}"
+        "-DCMAKE_C_FLAGS=${PROTOBUF_C_FLAGS}"
         "-DCMAKE_INSTALL_PREFIX=${PROTOBUF_PREFIX}"
         -Dprotobuf_BUILD_TESTS=OFF
-        -Dprotobuf_DEBUG_POSTFIX=
-        "-DCMAKE_C_FLAGS=${PROTOBUF_C_FLAGS}"
-        "-DCMAKE_CXX_FLAGS=${PROTOBUF_CXX_FLAGS}"
-        "-DCMAKE_C_FLAGS_${UPPERCASE_BUILD_TYPE}=${PROTOBUF_C_FLAGS}"
-        "-DCMAKE_CXX_FLAGS_${UPPERCASE_BUILD_TYPE}=${PROTOBUF_CXX_FLAGS}")
+        -Dprotobuf_DEBUG_POSTFIX=)
     if(MSVC AND NOT ARROW_USE_STATIC_CRT)
       list(APPEND PROTOBUF_CMAKE_ARGS "-Dprotobuf_MSVC_STATIC_RUNTIME=OFF")
     endif()
@@ -1598,9 +1617,8 @@ macro(build_protobuf)
   endif()
 
   externalproject_add(protobuf_ep
-                      ${PROTOBUF_EXTERNAL_PROJECT_ADD_ARGS}
+                      ${EP_COMMON_OPTIONS} ${PROTOBUF_EXTERNAL_PROJECT_ADD_ARGS}
                       BUILD_BYPRODUCTS "${PROTOBUF_STATIC_LIB}" "${PROTOBUF_COMPILER}"
-                                       ${EP_LOG_OPTIONS}
                       BUILD_IN_SOURCE 1
                       URL ${PROTOBUF_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_PROTOBUF_BUILD_SHA256_CHECKSUM}")
@@ -1634,10 +1652,6 @@ if(ARROW_WITH_PROTOBUF)
   if(ARROW_WITH_GRPC)
     # FlightSQL uses proto3 optionals, which require 3.15 or later.
     set(ARROW_PROTOBUF_REQUIRED_VERSION "3.15.0")
-  elseif(ARROW_GANDIVA_JAVA)
-    # google::protobuf::MessageLite::ByteSize() is deprecated since
-    # Protobuf 3.4.0.
-    set(ARROW_PROTOBUF_REQUIRED_VERSION "3.4.0")
   elseif(ARROW_SUBSTRAIT)
     # Substrait protobuf files use proto3 syntax
     set(ARROW_PROTOBUF_REQUIRED_VERSION "3.0.0")
@@ -1645,6 +1659,8 @@ if(ARROW_WITH_PROTOBUF)
     set(ARROW_PROTOBUF_REQUIRED_VERSION "2.6.1")
   endif()
   resolve_dependency(Protobuf
+                     HAVE_ALT
+                     TRUE
                      REQUIRED_VERSION
                      ${ARROW_PROTOBUF_REQUIRED_VERSION}
                      PC_PACKAGE_NAMES
@@ -1722,8 +1738,11 @@ macro(build_substrait)
   # Note: not all protos in Substrait actually matter to plan
   # consumption. No need to build the ones we don't need.
   set(SUBSTRAIT_PROTOS algebra extensions/extensions plan type)
+  set(ARROW_SUBSTRAIT_PROTOS extension_rels)
+  set(ARROW_SUBSTRAIT_PROTOS_DIR "${CMAKE_SOURCE_DIR}/proto")
 
   externalproject_add(substrait_ep
+                      ${EP_COMMON_OPTIONS}
                       CONFIGURE_COMMAND ""
                       BUILD_COMMAND ""
                       INSTALL_COMMAND ""
@@ -1772,6 +1791,27 @@ macro(build_substrait)
 
     list(APPEND SUBSTRAIT_SOURCES "${SUBSTRAIT_PROTO_GEN}.cc")
   endforeach()
+  foreach(ARROW_SUBSTRAIT_PROTO ${ARROW_SUBSTRAIT_PROTOS})
+    set(ARROW_SUBSTRAIT_PROTO_GEN
+        "${SUBSTRAIT_CPP_DIR}/substrait/${ARROW_SUBSTRAIT_PROTO}.pb")
+    foreach(EXT h cc)
+      set_source_files_properties("${ARROW_SUBSTRAIT_PROTO_GEN}.${EXT}"
+                                  PROPERTIES COMPILE_OPTIONS
+                                             "${SUBSTRAIT_SUPPRESSED_FLAGS}"
+                                             GENERATED TRUE
+                                             SKIP_UNITY_BUILD_INCLUSION TRUE)
+      list(APPEND SUBSTRAIT_PROTO_GEN_ALL "${ARROW_SUBSTRAIT_PROTO_GEN}.${EXT}")
+    endforeach()
+    add_custom_command(OUTPUT "${ARROW_SUBSTRAIT_PROTO_GEN}.cc"
+                              "${ARROW_SUBSTRAIT_PROTO_GEN}.h"
+                       COMMAND ${ARROW_PROTOBUF_PROTOC} "-I${SUBSTRAIT_LOCAL_DIR}/proto"
+                               "-I${ARROW_SUBSTRAIT_PROTOS_DIR}"
+                               "--cpp_out=${SUBSTRAIT_CPP_DIR}"
+                               "${ARROW_SUBSTRAIT_PROTOS_DIR}/substrait/${ARROW_SUBSTRAIT_PROTO}.proto"
+                       DEPENDS ${PROTO_DEPENDS} substrait_ep)
+
+    list(APPEND SUBSTRAIT_SOURCES "${ARROW_SUBSTRAIT_PROTO_GEN}.cc")
+  endforeach()
 
   add_custom_target(substrait_gen ALL DEPENDS ${SUBSTRAIT_PROTO_GEN_ALL})
 
@@ -1840,6 +1880,7 @@ macro(build_jemalloc)
     list(APPEND JEMALLOC_BUILD_COMMAND "SDKROOT=${CMAKE_OSX_SYSROOT}")
   endif()
   externalproject_add(jemalloc_ep
+                      ${EP_COMMON_OPTIONS}
                       URL ${JEMALLOC_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_JEMALLOC_BUILD_SHA256_CHECKSUM}"
                       PATCH_COMMAND touch doc/jemalloc.3 doc/jemalloc.html
@@ -1855,15 +1896,15 @@ macro(build_jemalloc)
   set(JEMALLOC_INCLUDE_DIR "${CMAKE_CURRENT_BINARY_DIR}/jemalloc_ep-prefix/src/")
   # The include directory must exist before it is referenced by a target.
   file(MAKE_DIRECTORY "${JEMALLOC_INCLUDE_DIR}")
-  add_library(jemalloc STATIC IMPORTED)
-  set_target_properties(jemalloc
+  add_library(jemalloc::jemalloc STATIC IMPORTED)
+  set_target_properties(jemalloc::jemalloc
                         PROPERTIES INTERFACE_LINK_LIBRARIES Threads::Threads
                                    IMPORTED_LOCATION "${JEMALLOC_STATIC_LIB}"
                                    INTERFACE_INCLUDE_DIRECTORIES
                                    "${JEMALLOC_INCLUDE_DIR}")
-  add_dependencies(jemalloc jemalloc_ep)
+  add_dependencies(jemalloc::jemalloc jemalloc_ep)
 
-  list(APPEND ARROW_BUNDLED_STATIC_LIBS jemalloc)
+  list(APPEND ARROW_BUNDLED_STATIC_LIBS jemalloc::jemalloc)
 
   set(jemalloc_VENDORED TRUE)
   # For config.h.cmake
@@ -1871,7 +1912,7 @@ macro(build_jemalloc)
 endmacro()
 
 if(ARROW_JEMALLOC)
-  resolve_dependency(jemalloc)
+  resolve_dependency(jemalloc HAVE_ALT TRUE)
 endif()
 
 # ----------------------------------------------------------------------
@@ -1895,11 +1936,9 @@ if(ARROW_MIMALLOC)
       "${MIMALLOC_PREFIX}/lib/mimalloc-2.0/${CMAKE_STATIC_LIBRARY_PREFIX}${MIMALLOC_LIB_BASE_NAME}${CMAKE_STATIC_LIBRARY_SUFFIX}"
   )
 
-  # Override CMAKE_INSTALL_LIBDIR to avoid lib64 installation on RedHat derivatives
   set(MIMALLOC_CMAKE_ARGS
       ${EP_COMMON_CMAKE_ARGS}
       "-DCMAKE_INSTALL_PREFIX=${MIMALLOC_PREFIX}"
-      "-DCMAKE_INSTALL_LIBDIR=lib"
       -DMI_OVERRIDE=OFF
       -DMI_LOCAL_DYNAMIC_TLS=ON
       -DMI_BUILD_OBJECT=OFF
@@ -1907,6 +1946,7 @@ if(ARROW_MIMALLOC)
       -DMI_BUILD_TESTS=OFF)
 
   externalproject_add(mimalloc_ep
+                      ${EP_COMMON_OPTIONS}
                       URL ${MIMALLOC_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_MIMALLOC_BUILD_SHA256_CHECKSUM}"
                       CMAKE_ARGS ${MIMALLOC_CMAKE_ARGS}
@@ -1948,12 +1988,15 @@ macro(build_gtest)
   endif()
 
   if(APPLE)
-    set(GTEST_CMAKE_CXX_FLAGS ${GTEST_CMAKE_CXX_FLAGS} -DGTEST_USE_OWN_TR1_TUPLE=1
-                              -Wno-unused-value -Wno-ignored-attributes)
+    string(APPEND
+           GTEST_CMAKE_CXX_FLAGS
+           " -DGTEST_USE_OWN_TR1_TUPLE=1"
+           " -Wno-unused-value"
+           " -Wno-ignored-attributes")
   endif()
 
-  if(MSVC)
-    set(GTEST_CMAKE_CXX_FLAGS "${GTEST_CMAKE_CXX_FLAGS} -DGTEST_CREATE_SHARED_LIBRARY=1")
+  if(WIN32)
+    string(APPEND GTEST_CMAKE_CXX_FLAGS " -DGTEST_CREATE_SHARED_LIBRARY=1")
   endif()
 
   set(GTEST_PREFIX "${CMAKE_CURRENT_BINARY_DIR}/googletest_ep-prefix")
@@ -1961,7 +2004,7 @@ macro(build_gtest)
 
   set(_GTEST_LIBRARY_DIR "${GTEST_PREFIX}/lib")
 
-  if(MSVC)
+  if(WIN32)
     set(_GTEST_IMPORTED_TYPE IMPORTED_IMPLIB)
     set(_GTEST_LIBRARY_SUFFIX
         "${CMAKE_GTEST_DEBUG_EXTENSION}${CMAKE_IMPORT_LIBRARY_SUFFIX}")
@@ -1984,27 +2027,26 @@ macro(build_gtest)
   set(dummy ">")
 
   set(GTEST_CMAKE_ARGS
-      ${EP_COMMON_TOOLCHAIN}
+      ${EP_COMMON_CMAKE_ARGS}
       -DBUILD_SHARED_LIBS=ON
-      -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_TYPE}
+      -DBUILD_STATIC_LIBS=OFF
       -DCMAKE_CXX_FLAGS=${GTEST_CMAKE_CXX_FLAGS}
-      -DCMAKE_CXX_FLAGS_${UPPERCASE_BUILD_TYPE}=${GTEST_CMAKE_CXX_FLAGS}
-      -DCMAKE_INSTALL_LIBDIR=lib
       -DCMAKE_INSTALL_NAME_DIR=${GTEST_INSTALL_NAME_DIR}
       -DCMAKE_INSTALL_PREFIX=${GTEST_PREFIX}
       -DCMAKE_MACOSX_RPATH=OFF)
   set(GMOCK_INCLUDE_DIR "${GTEST_PREFIX}/include")
 
-  if(MSVC AND NOT ARROW_USE_STATIC_CRT)
-    set(GTEST_CMAKE_ARGS ${GTEST_CMAKE_ARGS} -Dgtest_force_shared_crt=ON)
+  if(WIN32 AND NOT ARROW_USE_STATIC_CRT)
+    list(APPEND GTEST_CMAKE_ARGS -Dgtest_force_shared_crt=ON)
   endif()
 
   externalproject_add(googletest_ep
+                      ${EP_COMMON_OPTIONS}
                       URL ${GTEST_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_GTEST_BUILD_SHA256_CHECKSUM}"
                       BUILD_BYPRODUCTS ${GTEST_SHARED_LIB} ${GTEST_MAIN_SHARED_LIB}
                                        ${GMOCK_SHARED_LIB}
-                      CMAKE_ARGS ${GTEST_CMAKE_ARGS} ${EP_LOG_OPTIONS})
+                      CMAKE_ARGS ${GTEST_CMAKE_ARGS})
   if(WIN32)
     # Copy the built shared libraries to the same directory as our
     # test programs because Windows doesn't provided rpath (run-time
@@ -2096,13 +2138,10 @@ macro(build_benchmark)
     message(FATAL_ERROR "Building gbenchmark from source requires at least CMake 3.6")
   endif()
 
-  if(NOT MSVC)
-    set(GBENCHMARK_CMAKE_CXX_FLAGS "${EP_CXX_FLAGS} -std=c++11")
-  endif()
-
+  set(GBENCHMARK_CMAKE_CXX_FLAGS "${EP_CXX_FLAGS}")
   if(APPLE AND (CMAKE_CXX_COMPILER_ID STREQUAL "AppleClang" OR CMAKE_CXX_COMPILER_ID
                                                                STREQUAL "Clang"))
-    set(GBENCHMARK_CMAKE_CXX_FLAGS "${GBENCHMARK_CMAKE_CXX_FLAGS} -stdlib=libc++")
+    string(APPEND GBENCHMARK_CMAKE_CXX_FLAGS " -stdlib=libc++")
   endif()
 
   set(GBENCHMARK_PREFIX
@@ -2115,21 +2154,19 @@ macro(build_benchmark)
       "${GBENCHMARK_PREFIX}/lib/${CMAKE_STATIC_LIBRARY_PREFIX}benchmark_main${CMAKE_STATIC_LIBRARY_SUFFIX}"
   )
   set(GBENCHMARK_CMAKE_ARGS
-      ${EP_COMMON_CMAKE_ARGS}
-      "-DCMAKE_INSTALL_PREFIX=${GBENCHMARK_PREFIX}"
-      -DCMAKE_INSTALL_LIBDIR=lib
-      -DBENCHMARK_ENABLE_TESTING=OFF
-      -DCMAKE_CXX_FLAGS=${GBENCHMARK_CMAKE_CXX_FLAGS})
+      ${EP_COMMON_CMAKE_ARGS} "-DCMAKE_INSTALL_PREFIX=${GBENCHMARK_PREFIX}"
+      -DBENCHMARK_ENABLE_TESTING=OFF -DCMAKE_CXX_FLAGS=${GBENCHMARK_CMAKE_CXX_FLAGS})
   if(APPLE)
     set(GBENCHMARK_CMAKE_ARGS ${GBENCHMARK_CMAKE_ARGS} "-DBENCHMARK_USE_LIBCXX=ON")
   endif()
 
   externalproject_add(gbenchmark_ep
+                      ${EP_COMMON_OPTIONS}
                       URL ${GBENCHMARK_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_GBENCHMARK_BUILD_SHA256_CHECKSUM}"
                       BUILD_BYPRODUCTS "${GBENCHMARK_STATIC_LIB}"
                                        "${GBENCHMARK_MAIN_STATIC_LIB}"
-                      CMAKE_ARGS ${GBENCHMARK_CMAKE_ARGS} ${EP_LOG_OPTIONS})
+                      CMAKE_ARGS ${GBENCHMARK_CMAKE_ARGS})
 
   # The include directory must exist before it is referenced by a target.
   file(MAKE_DIRECTORY "${GBENCHMARK_INCLUDE_DIR}")
@@ -2172,7 +2209,7 @@ macro(build_rapidjson)
       "-DCMAKE_INSTALL_PREFIX=${RAPIDJSON_PREFIX}")
 
   externalproject_add(rapidjson_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       PREFIX "${CMAKE_BINARY_DIR}"
                       URL ${RAPIDJSON_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_RAPIDJSON_BUILD_SHA256_CHECKSUM}"
@@ -2224,7 +2261,7 @@ macro(build_xsimd)
   set(XSIMD_CMAKE_ARGS ${EP_COMMON_CMAKE_ARGS} "-DCMAKE_INSTALL_PREFIX=${XSIMD_PREFIX}")
 
   externalproject_add(xsimd_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       PREFIX "${CMAKE_BINARY_DIR}"
                       URL ${XSIMD_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_XSIMD_BUILD_SHA256_CHECKSUM}"
@@ -2248,7 +2285,11 @@ else()
 endif()
 
 if(ARROW_USE_XSIMD)
-  resolve_dependency(xsimd REQUIRED_VERSION "8.1.0")
+  resolve_dependency(xsimd
+                     REQUIRED_VERSION
+                     "8.1.0"
+                     FORCE_ANY_NEWER_VERSION
+                     TRUE)
 
   if(xsimd_SOURCE STREQUAL "BUNDLED")
     add_library(xsimd INTERFACE IMPORTED)
@@ -2276,11 +2317,11 @@ macro(build_zlib)
     set(ZLIB_STATIC_LIB_NAME libz.a)
   endif()
   set(ZLIB_STATIC_LIB "${ZLIB_PREFIX}/lib/${ZLIB_STATIC_LIB_NAME}")
-  set(ZLIB_CMAKE_ARGS ${EP_COMMON_CMAKE_ARGS} "-DCMAKE_INSTALL_PREFIX=${ZLIB_PREFIX}"
-                      -DBUILD_SHARED_LIBS=OFF)
+  set(ZLIB_CMAKE_ARGS ${EP_COMMON_CMAKE_ARGS} "-DCMAKE_INSTALL_PREFIX=${ZLIB_PREFIX}")
 
   externalproject_add(zlib_ep
-                      URL ${ZLIB_SOURCE_URL} ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
+                      URL ${ZLIB_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_ZLIB_BUILD_SHA256_CHECKSUM}"
                       BUILD_BYPRODUCTS "${ZLIB_STATIC_LIB}"
                       CMAKE_ARGS ${ZLIB_CMAKE_ARGS})
@@ -2306,53 +2347,38 @@ if(ARROW_WITH_ZLIB)
 endif()
 
 macro(build_lz4)
-  message(STATUS "Building lz4 from source")
-  set(LZ4_BUILD_DIR "${CMAKE_CURRENT_BINARY_DIR}/lz4_ep-prefix/src/lz4_ep")
-  set(LZ4_PREFIX "${CMAKE_CURRENT_BINARY_DIR}/lz4_ep-prefix")
-
-  if(MSVC)
-    if(ARROW_USE_STATIC_CRT)
-      if(${UPPERCASE_BUILD_TYPE} STREQUAL "DEBUG")
-        set(LZ4_RUNTIME_LIBRARY_LINKAGE "/p:RuntimeLibrary=MultiThreadedDebug")
-      else()
-        set(LZ4_RUNTIME_LIBRARY_LINKAGE "/p:RuntimeLibrary=MultiThreaded")
-      endif()
-    endif()
-    set(LZ4_STATIC_LIB
-        "${LZ4_BUILD_DIR}/build/VS2010/bin/x64_${CMAKE_BUILD_TYPE}/liblz4_static.lib")
-    set(LZ4_BUILD_COMMAND
-        BUILD_COMMAND msbuild.exe /m /p:Configuration=${CMAKE_BUILD_TYPE} /p:Platform=x64
-        /p:PlatformToolset=v140 ${LZ4_RUNTIME_LIBRARY_LINKAGE} /t:Build
-        ${LZ4_BUILD_DIR}/build/VS2010/lz4.sln)
-  else()
-    set(LZ4_STATIC_LIB "${LZ4_BUILD_DIR}/lib/liblz4.a")
-    # Must explicitly invoke sh on MinGW
-    set(LZ4_BUILD_COMMAND
-        BUILD_COMMAND sh "${CMAKE_CURRENT_SOURCE_DIR}/build-support/build-lz4-lib.sh"
-        "AR=${CMAKE_AR}" "OS=${CMAKE_SYSTEM_NAME}")
+  message(STATUS "Building LZ4 from source")
+  if(CMAKE_VERSION VERSION_LESS 3.7)
+    message(FATAL_ERROR "Building LZ4 using ExternalProject requires at least CMake 3.7")
   endif()
 
+  set(LZ4_PREFIX "${CMAKE_CURRENT_BINARY_DIR}/lz4_ep-install")
+
+  set(LZ4_STATIC_LIB
+      "${LZ4_PREFIX}/lib/${CMAKE_STATIC_LIBRARY_PREFIX}lz4${CMAKE_STATIC_LIBRARY_SUFFIX}")
+
+  set(LZ4_CMAKE_ARGS ${EP_COMMON_CMAKE_ARGS} -DCMAKE_INSTALL_PREFIX=<INSTALL_DIR>
+                     -DLZ4_BUILD_CLI=OFF -DLZ4_BUILD_LEGACY_LZ4C=OFF)
+
   # We need to copy the header in lib to directory outside of the build
   externalproject_add(lz4_ep
-                      URL ${LZ4_SOURCE_URL} ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
+                      CMAKE_ARGS ${LZ4_CMAKE_ARGS}
+                      SOURCE_SUBDIR "build/cmake"
+                      INSTALL_DIR ${LZ4_PREFIX}
+                      URL ${LZ4_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_LZ4_BUILD_SHA256_CHECKSUM}"
-                      UPDATE_COMMAND ${CMAKE_COMMAND} -E copy_directory
-                                     "${LZ4_BUILD_DIR}/lib" "${LZ4_PREFIX}/include"
-                                     ${LZ4_PATCH_COMMAND}
-                      CONFIGURE_COMMAND ""
-                      INSTALL_COMMAND ""
-                      BINARY_DIR ${LZ4_BUILD_DIR}
-                      BUILD_BYPRODUCTS ${LZ4_STATIC_LIB} ${LZ4_BUILD_COMMAND})
+                      BUILD_BYPRODUCTS ${LZ4_STATIC_LIB})
 
   file(MAKE_DIRECTORY "${LZ4_PREFIX}/include")
-  add_library(lz4::lz4 STATIC IMPORTED)
-  set_target_properties(lz4::lz4
+  add_library(LZ4::lz4 STATIC IMPORTED)
+  set_target_properties(LZ4::lz4
                         PROPERTIES IMPORTED_LOCATION "${LZ4_STATIC_LIB}"
                                    INTERFACE_INCLUDE_DIRECTORIES "${LZ4_PREFIX}/include")
   add_dependencies(toolchain lz4_ep)
-  add_dependencies(lz4::lz4 lz4_ep)
+  add_dependencies(LZ4::lz4 lz4_ep)
 
-  list(APPEND ARROW_BUNDLED_STATIC_LIBS lz4::lz4)
+  list(APPEND ARROW_BUNDLED_STATIC_LIBS LZ4::lz4)
 endmacro()
 
 if(ARROW_WITH_LZ4)
@@ -2364,42 +2390,33 @@ if(ARROW_WITH_LZ4)
 endif()
 
 macro(build_zstd)
-  message(STATUS "Building zstd from source")
+  message(STATUS "Building Zstandard from source")
+  if(CMAKE_VERSION VERSION_LESS 3.7)
+    message(FATAL_ERROR "Building Zstandard using ExternalProject requires at least CMake 3.7"
+    )
+  endif()
+
   set(ZSTD_PREFIX "${CMAKE_CURRENT_BINARY_DIR}/zstd_ep-install")
 
   set(ZSTD_CMAKE_ARGS
-      ${EP_COMMON_TOOLCHAIN}
+      ${EP_COMMON_CMAKE_ARGS}
       "-DCMAKE_INSTALL_PREFIX=${ZSTD_PREFIX}"
-      -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_TYPE}
-      -DCMAKE_INSTALL_LIBDIR=${CMAKE_INSTALL_LIBDIR}
-      -DZSTD_BUILD_PROGRAMS=off
-      -DZSTD_BUILD_SHARED=off
-      -DZSTD_BUILD_STATIC=on
-      -DZSTD_MULTITHREAD_SUPPORT=off)
+      -DZSTD_BUILD_PROGRAMS=OFF
+      -DZSTD_BUILD_SHARED=OFF
+      -DZSTD_BUILD_STATIC=ON
+      -DZSTD_MULTITHREAD_SUPPORT=OFF)
 
   if(MSVC)
-    set(ZSTD_STATIC_LIB "${ZSTD_PREFIX}/${CMAKE_INSTALL_LIBDIR}/zstd_static.lib")
+    set(ZSTD_STATIC_LIB "${ZSTD_PREFIX}/lib/zstd_static.lib")
     if(ARROW_USE_STATIC_CRT)
-      set(ZSTD_CMAKE_ARGS ${ZSTD_CMAKE_ARGS} "-DZSTD_USE_STATIC_RUNTIME=on")
+      list(APPEND ZSTD_CMAKE_ARGS "-DZSTD_USE_STATIC_RUNTIME=ON")
     endif()
   else()
-    set(ZSTD_STATIC_LIB "${ZSTD_PREFIX}/${CMAKE_INSTALL_LIBDIR}/libzstd.a")
-    # Only pass our C flags on Unix as on MSVC it leads to a
-    # "incompatible command-line options" error
-    set(ZSTD_CMAKE_ARGS
-        ${ZSTD_CMAKE_ARGS}
-        -DCMAKE_C_COMPILER=${CMAKE_C_COMPILER}
-        -DCMAKE_CXX_COMPILER=${CMAKE_CXX_COMPILER}
-        -DCMAKE_C_FLAGS=${EP_C_FLAGS}
-        -DCMAKE_CXX_FLAGS=${EP_CXX_FLAGS})
-  endif()
-
-  if(CMAKE_VERSION VERSION_LESS 3.7)
-    message(FATAL_ERROR "Building zstd using ExternalProject requires at least CMake 3.7")
+    set(ZSTD_STATIC_LIB "${ZSTD_PREFIX}/lib/libzstd.a")
   endif()
 
   externalproject_add(zstd_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       CMAKE_ARGS ${ZSTD_CMAKE_ARGS}
                       SOURCE_SUBDIR "build/cmake"
                       INSTALL_DIR ${ZSTD_PREFIX}
@@ -2409,39 +2426,41 @@ macro(build_zstd)
 
   file(MAKE_DIRECTORY "${ZSTD_PREFIX}/include")
 
-  add_library(zstd::libzstd STATIC IMPORTED)
-  set_target_properties(zstd::libzstd
+  add_library(zstd::libzstd_static STATIC IMPORTED)
+  set_target_properties(zstd::libzstd_static
                         PROPERTIES IMPORTED_LOCATION "${ZSTD_STATIC_LIB}"
                                    INTERFACE_INCLUDE_DIRECTORIES "${ZSTD_PREFIX}/include")
 
   add_dependencies(toolchain zstd_ep)
-  add_dependencies(zstd::libzstd zstd_ep)
+  add_dependencies(zstd::libzstd_static zstd_ep)
+
+  list(APPEND ARROW_BUNDLED_STATIC_LIBS zstd::libzstd_static)
 
-  list(APPEND ARROW_BUNDLED_STATIC_LIBS zstd::libzstd)
+  set(ZSTD_VENDORED TRUE)
 endmacro()
 
 if(ARROW_WITH_ZSTD)
   # ARROW-13384: ZSTD_minCLevel was added in v1.4.0, required by ARROW-13091
   resolve_dependency(zstd
+                     HAVE_ALT
+                     TRUE
                      PC_PACKAGE_NAMES
                      libzstd
                      REQUIRED_VERSION
                      1.4.0)
 
-  if(TARGET zstd::libzstd)
-    set(ARROW_ZSTD_LIBZSTD zstd::libzstd)
+  if(ZSTD_VENDORED)
+    set(ARROW_ZSTD_LIBZSTD zstd::libzstd_static)
   else()
-    # "SYSTEM" source will prioritize cmake config, which exports
-    # zstd::libzstd_{static,shared}
     if(ARROW_ZSTD_USE_SHARED)
-      if(TARGET zstd::libzstd_shared)
-        set(ARROW_ZSTD_LIBZSTD zstd::libzstd_shared)
-      endif()
+      set(ARROW_ZSTD_LIBZSTD zstd::libzstd_shared)
     else()
-      if(TARGET zstd::libzstd_static)
-        set(ARROW_ZSTD_LIBZSTD zstd::libzstd_static)
-      endif()
+      set(ARROW_ZSTD_LIBZSTD zstd::libzstd_static)
     endif()
+    if(NOT TARGET ${ARROW_ZSTD_LIBZSTD})
+      message(FATAL_ERROR "Zstandard target doesn't exist: ${ARROW_ZSTD_LIBZSTD}")
+    endif()
+    message(STATUS "Found Zstandard: ${ARROW_ZSTD_LIBZSTD}")
   endif()
 endif()
 
@@ -2454,11 +2473,10 @@ macro(build_re2)
   set(RE2_STATIC_LIB
       "${RE2_PREFIX}/lib/${CMAKE_STATIC_LIBRARY_PREFIX}re2${CMAKE_STATIC_LIBRARY_SUFFIX}")
 
-  set(RE2_CMAKE_ARGS ${EP_COMMON_CMAKE_ARGS} "-DCMAKE_INSTALL_PREFIX=${RE2_PREFIX}"
-                     -DCMAKE_INSTALL_LIBDIR=lib)
+  set(RE2_CMAKE_ARGS ${EP_COMMON_CMAKE_ARGS} "-DCMAKE_INSTALL_PREFIX=${RE2_PREFIX}")
 
   externalproject_add(re2_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       INSTALL_DIR ${RE2_PREFIX}
                       URL ${RE2_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_RE2_BUILD_SHA256_CHECKSUM}"
@@ -2524,7 +2542,7 @@ macro(build_bzip2)
   endif()
 
   externalproject_add(bzip2_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       CONFIGURE_COMMAND ""
                       BUILD_IN_SOURCE 1
                       BUILD_COMMAND ${MAKE} libbz2.a ${MAKE_BUILD_ARGS}
@@ -2575,15 +2593,11 @@ macro(build_utf8proc)
     )
   endif()
 
-  set(UTF8PROC_CMAKE_ARGS
-      ${EP_COMMON_TOOLCHAIN}
-      "-DCMAKE_INSTALL_PREFIX=${UTF8PROC_PREFIX}"
-      -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_TYPE}
-      -DCMAKE_INSTALL_LIBDIR=lib
-      -DBUILD_SHARED_LIBS=OFF)
+  set(UTF8PROC_CMAKE_ARGS ${EP_COMMON_CMAKE_ARGS}
+                          "-DCMAKE_INSTALL_PREFIX=${UTF8PROC_PREFIX}")
 
   externalproject_add(utf8proc_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       CMAKE_ARGS ${UTF8PROC_CMAKE_ARGS}
                       INSTALL_DIR ${UTF8PROC_PREFIX}
                       URL ${ARROW_UTF8PROC_SOURCE_URL}
@@ -2624,15 +2638,11 @@ macro(build_cares)
       "${CARES_PREFIX}/lib/${CMAKE_STATIC_LIBRARY_PREFIX}cares${CMAKE_STATIC_LIBRARY_SUFFIX}"
   )
 
-  set(CARES_CMAKE_ARGS
-      "${EP_COMMON_CMAKE_ARGS}"
-      -DCARES_STATIC=ON
-      -DCARES_SHARED=OFF
-      -DCMAKE_INSTALL_LIBDIR=lib
-      "-DCMAKE_INSTALL_PREFIX=${CARES_PREFIX}")
+  set(CARES_CMAKE_ARGS "${EP_COMMON_CMAKE_ARGS}" "-DCMAKE_INSTALL_PREFIX=${CARES_PREFIX}"
+                       -DCARES_SHARED=OFF -DCARES_STATIC=ON)
 
   externalproject_add(cares_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       URL ${CARES_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_CARES_BUILD_SHA256_CHECKSUM}"
                       CMAKE_ARGS ${CARES_CMAKE_ARGS}
@@ -2696,7 +2706,7 @@ macro(build_absl)
   set(ABSL_PREFIX "${CMAKE_CURRENT_BINARY_DIR}/absl_ep-install")
   set(ABSL_INCLUDE_DIR "${ABSL_PREFIX}/include")
   set(ABSL_CMAKE_ARGS "${EP_COMMON_CMAKE_ARGS}" -DABSL_RUN_TESTS=OFF
-                      -DCMAKE_INSTALL_LIBDIR=lib "-DCMAKE_INSTALL_PREFIX=${ABSL_PREFIX}")
+                      "-DCMAKE_INSTALL_PREFIX=${ABSL_PREFIX}")
   set(ABSL_BUILD_BYPRODUCTS)
   set(ABSL_LIBRARIES)
 
@@ -3612,7 +3622,7 @@ macro(build_absl)
   endif()
 
   externalproject_add(absl_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       URL ${ABSL_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_ABSL_BUILD_SHA256_CHECKSUM}"
                       CMAKE_ARGS ${ABSL_CMAKE_ARGS}
@@ -3710,27 +3720,29 @@ macro(build_grpc)
   endif()
 
   # Yuck, see https://stackoverflow.com/a/45433229/776560
-  string(REPLACE ";" "|" GRPC_PREFIX_PATH_ALT_SEP "${GRPC_CMAKE_PREFIX}")
+  string(REPLACE ";" ${EP_LIST_SEPARATOR} GRPC_PREFIX_PATH_ALT_SEP "${GRPC_CMAKE_PREFIX}")
 
   set(GRPC_C_FLAGS "${EP_C_FLAGS}")
   set(GRPC_CXX_FLAGS "${EP_CXX_FLAGS}")
   if(NOT MSVC)
     # Negate warnings that gRPC cannot build under
     # See https://github.com/grpc/grpc/issues/29417
-    set(GRPC_C_FLAGS
-        "${GRPC_C_FLAGS} -Wno-attributes -Wno-format-security -Wno-unknown-warning-option"
-    )
-    set(GRPC_CXX_FLAGS
-        "${GRPC_CXX_FLAGS} -Wno-attributes -Wno-format-security -Wno-unknown-warning-option"
-    )
+    string(APPEND
+           GRPC_C_FLAGS
+           " -Wno-attributes"
+           " -Wno-format-security"
+           " -Wno-unknown-warning-option")
+    string(APPEND
+           GRPC_CXX_FLAGS
+           " -Wno-attributes"
+           " -Wno-format-security"
+           " -Wno-unknown-warning-option")
   endif()
 
   set(GRPC_CMAKE_ARGS
       "${EP_COMMON_CMAKE_ARGS}"
       "-DCMAKE_C_FLAGS=${GRPC_C_FLAGS}"
       "-DCMAKE_CXX_FLAGS=${GRPC_CXX_FLAGS}"
-      "-DCMAKE_C_FLAGS_${UPPERCASE_BUILD_TYPE}=${GRPC_C_FLAGS}"
-      "-DCMAKE_CXX_FLAGS_${UPPERCASE_BUILD_TYPE}=${GRPC_CXX_FLAGS}"
       -DCMAKE_PREFIX_PATH='${GRPC_PREFIX_PATH_ALT_SEP}'
       -DgRPC_ABSL_PROVIDER=package
       -DgRPC_BUILD_CSHARP_EXT=OFF
@@ -3748,9 +3760,7 @@ macro(build_grpc)
       -DgRPC_RE2_PROVIDER=package
       -DgRPC_SSL_PROVIDER=package
       -DgRPC_ZLIB_PROVIDER=package
-      -DCMAKE_INSTALL_PREFIX=${GRPC_PREFIX}
-      -DCMAKE_INSTALL_LIBDIR=lib
-      -DBUILD_SHARED_LIBS=OFF)
+      -DCMAKE_INSTALL_PREFIX=${GRPC_PREFIX})
   if(PROTOBUF_VENDORED)
     list(APPEND GRPC_CMAKE_ARGS -DgRPC_PROTOBUF_PACKAGE_TYPE=CONFIG)
   endif()
@@ -3762,9 +3772,9 @@ macro(build_grpc)
   # Ideally, we should be able to use the tarballs, but they don't contain
   # vendored dependencies such as c-ares...
   externalproject_add(grpc_ep
+                      ${EP_COMMON_OPTIONS}
                       URL ${GRPC_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_GRPC_BUILD_SHA256_CHECKSUM}"
-                      LIST_SEPARATOR |
                       BUILD_BYPRODUCTS ${GRPC_STATIC_LIBRARY_GPR}
                                        ${GRPC_STATIC_LIBRARY_GRPC}
                                        ${GRPC_STATIC_LIBRARY_GRPCPP}
@@ -3772,7 +3782,7 @@ macro(build_grpc)
                                        ${GRPC_STATIC_LIBRARY_GRPCPP_REFLECTION}
                                        ${GRPC_STATIC_LIBRARY_UPB}
                                        ${GRPC_CPP_PLUGIN}
-                      CMAKE_ARGS ${GRPC_CMAKE_ARGS} ${EP_LOG_OPTIONS}
+                      CMAKE_ARGS ${GRPC_CMAKE_ARGS}
                       DEPENDS ${grpc_dependencies})
 
   # Work around https://gitlab.kitware.com/cmake/cmake/issues/15052
@@ -3917,7 +3927,7 @@ macro(build_grpc)
        gRPC::grpc
        gRPC::grpcpp_for_bundling
        gRPC::upb)
-  if(ABS_VENDORED)
+  if(ABSL_VENDORED)
     list(APPEND ARROW_BUNDLED_STATIC_LIBS ${GRPC_GPR_ABSL_LIBRARIES})
   endif()
 endmacro()
@@ -3968,7 +3978,6 @@ macro(build_crc32c_once)
     set(CRC32C_INCLUDE_DIR "${CRC32C_PREFIX}/include")
     set(CRC32C_CMAKE_ARGS
         ${EP_COMMON_CMAKE_ARGS}
-        -DCMAKE_INSTALL_LIBDIR=lib
         "-DCMAKE_INSTALL_PREFIX=<INSTALL_DIR>"
         -DCRC32C_BUILD_TESTS=OFF
         -DCRC32C_BUILD_BENCHMARKS=OFF
@@ -3981,7 +3990,7 @@ macro(build_crc32c_once)
     set(CRC32C_LIBRARIES crc32c)
 
     externalproject_add(crc32c_ep
-                        ${EP_LOG_OPTIONS}
+                        ${EP_COMMON_OPTIONS}
                         INSTALL_DIR ${CRC32C_PREFIX}
                         URL ${CRC32C_SOURCE_URL}
                         URL_HASH "SHA256=${ARROW_CRC32C_BUILD_SHA256_CHECKSUM}"
@@ -4004,13 +4013,13 @@ macro(build_nlohmann_json)
   set(NLOHMANN_JSON_PREFIX "${CMAKE_CURRENT_BINARY_DIR}/nlohmann_json_ep-install")
   set(NLOHMANN_JSON_INCLUDE_DIR "${NLOHMANN_JSON_PREFIX}/include")
   set(NLOHMANN_JSON_CMAKE_ARGS
-      ${EP_COMMON_CMAKE_ARGS} "-DCMAKE_INSTALL_PREFIX=<INSTALL_DIR>" -DBUILD_TESTING=OFF
+      ${EP_COMMON_CMAKE_ARGS} "-DCMAKE_INSTALL_PREFIX=<INSTALL_DIR>"
       -DJSON_BuildTests=OFF)
 
   set(NLOHMANN_JSON_BUILD_BYPRODUCTS ${NLOHMANN_JSON_PREFIX}/include/nlohmann/json.hpp)
 
   externalproject_add(nlohmann_json_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       INSTALL_DIR ${NLOHMANN_JSON_PREFIX}
                       URL ${NLOHMANN_JSON_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_NLOHMANN_JSON_BUILD_SHA256_CHECKSUM}"
@@ -4044,7 +4053,10 @@ macro(build_google_cloud_cpp_storage)
   # Curl is required on all platforms, but building it internally might also trip over S3's copy.
   # For now, force its inclusion from the underlying system or fail.
   find_curl()
-  find_package(OpenSSL ${ARROW_OPENSSL_REQUIRED_VERSION} REQUIRED)
+  if(NOT OpenSSL_FOUND)
+    resolve_dependency(OpenSSL HAVE_ALT REQUIRED_VERSION
+                       ${ARROW_OPENSSL_REQUIRED_VERSION})
+  endif()
 
   # Build google-cloud-cpp, with only storage_client
 
@@ -4058,18 +4070,15 @@ macro(build_google_cloud_cpp_storage)
   list(APPEND GOOGLE_CLOUD_CPP_PREFIX_PATH_LIST ${CRC32C_PREFIX})
   list(APPEND GOOGLE_CLOUD_CPP_PREFIX_PATH_LIST ${NLOHMANN_JSON_PREFIX})
 
-  set(GOOGLE_CLOUD_CPP_PREFIX_PATH_LIST_SEP_CHAR "|")
   # JOIN is CMake >=3.12 only
-  string(REPLACE ";" ${GOOGLE_CLOUD_CPP_PREFIX_PATH_LIST_SEP_CHAR}
-                 GOOGLE_CLOUD_CPP_PREFIX_PATH "${GOOGLE_CLOUD_CPP_PREFIX_PATH_LIST}")
+  string(REPLACE ";" ${EP_LIST_SEPARATOR} GOOGLE_CLOUD_CPP_PREFIX_PATH
+                 "${GOOGLE_CLOUD_CPP_PREFIX_PATH_LIST}")
 
   set(GOOGLE_CLOUD_CPP_INSTALL_PREFIX
       "${CMAKE_CURRENT_BINARY_DIR}/google_cloud_cpp_ep-install")
   set(GOOGLE_CLOUD_CPP_INCLUDE_DIR "${GOOGLE_CLOUD_CPP_INSTALL_PREFIX}/include")
   set(GOOGLE_CLOUD_CPP_CMAKE_ARGS
       ${EP_COMMON_CMAKE_ARGS}
-      -DBUILD_TESTING=OFF
-      -DCMAKE_INSTALL_LIBDIR=lib
       "-DCMAKE_INSTALL_PREFIX=<INSTALL_DIR>"
       -DCMAKE_INSTALL_RPATH=$ORIGIN
       -DCMAKE_PREFIX_PATH=${GOOGLE_CLOUD_CPP_PREFIX_PATH}
@@ -4119,8 +4128,7 @@ macro(build_google_cloud_cpp_storage)
     endif()
   endif()
   externalproject_add(google_cloud_cpp_ep
-                      ${EP_LOG_OPTIONS}
-                      LIST_SEPARATOR ${GOOGLE_CLOUD_CPP_PREFIX_PATH_LIST_SEP_CHAR}
+                      ${EP_COMMON_OPTIONS}
                       INSTALL_DIR ${GOOGLE_CLOUD_CPP_INSTALL_PREFIX}
                       URL ${google_cloud_cpp_storage_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_GOOGLE_CLOUD_CPP_BUILD_SHA256_CHECKSUM}"
@@ -4229,7 +4237,7 @@ macro(build_google_cloud_cpp_storage)
 endmacro()
 
 if(ARROW_WITH_GOOGLE_CLOUD_CPP)
-  resolve_dependency(google_cloud_cpp_storage)
+  resolve_dependency(google_cloud_cpp_storage PC_PACKAGE_NAMES google_cloud_cpp_storage)
   get_target_property(google_cloud_cpp_storage_INCLUDE_DIR google-cloud-cpp::storage
                       INTERFACE_INCLUDE_DIRECTORIES)
   message(STATUS "Found google-cloud-cpp::storage headers: ${google_cloud_cpp_storage_INCLUDE_DIR}"
@@ -4275,6 +4283,8 @@ macro(build_orc)
   set(ORC_STATIC_LIB
       "${ORC_PREFIX}/lib/${CMAKE_STATIC_LIBRARY_PREFIX}orc${CMAKE_STATIC_LIBRARY_SUFFIX}")
 
+  get_target_property(ORC_PROTOBUF_EXECUTABLE ${ARROW_PROTOBUF_PROTOC} IMPORTED_LOCATION)
+
   get_target_property(ORC_PROTOBUF_INCLUDE_DIR ${ARROW_PROTOBUF_LIBPROTOBUF}
                       INTERFACE_INCLUDE_DIRECTORIES)
   get_filename_component(ORC_PROTOBUF_ROOT "${ORC_PROTOBUF_INCLUDE_DIR}" DIRECTORY)
@@ -4286,15 +4296,17 @@ macro(build_orc)
                       INTERFACE_INCLUDE_DIRECTORIES)
   get_filename_component(ORC_SNAPPY_ROOT "${ORC_SNAPPY_INCLUDE_DIR}" DIRECTORY)
 
-  get_target_property(ORC_LZ4_ROOT lz4::lz4 INTERFACE_INCLUDE_DIRECTORIES)
+  get_target_property(ORC_LZ4_ROOT LZ4::lz4 INTERFACE_INCLUDE_DIRECTORIES)
   get_filename_component(ORC_LZ4_ROOT "${ORC_LZ4_ROOT}" DIRECTORY)
 
+  get_target_property(ORC_ZSTD_ROOT ${ARROW_ZSTD_LIBZSTD} INTERFACE_INCLUDE_DIRECTORIES)
+  get_filename_component(ORC_ZSTD_ROOT "${ORC_ZSTD_ROOT}" DIRECTORY)
+
   # Weirdly passing in PROTOBUF_LIBRARY for PROTOC_LIBRARY still results in ORC finding
   # the protoc library.
   set(ORC_CMAKE_ARGS
       ${EP_COMMON_CMAKE_ARGS}
       "-DCMAKE_INSTALL_PREFIX=${ORC_PREFIX}"
-      -DCMAKE_CXX_FLAGS=${EP_CXX_FLAGS}
       -DSTOP_BUILD_ON_WARNING=OFF
       -DBUILD_LIBHDFSPP=OFF
       -DBUILD_JAVA=OFF
@@ -4303,12 +4315,13 @@ macro(build_orc)
       -DINSTALL_VENDORED_LIBS=OFF
       "-DSNAPPY_HOME=${ORC_SNAPPY_ROOT}"
       "-DSNAPPY_INCLUDE_DIR=${ORC_SNAPPY_INCLUDE_DIR}"
+      "-DPROTOBUF_EXECUTABLE=${ORC_PROTOBUF_EXECUTABLE}"
       "-DPROTOBUF_HOME=${ORC_PROTOBUF_ROOT}"
       "-DPROTOBUF_INCLUDE_DIR=${ORC_PROTOBUF_INCLUDE_DIR}"
       "-DPROTOBUF_LIBRARY=${ORC_PROTOBUF_LIBRARY}"
       "-DPROTOC_LIBRARY=${ORC_PROTOBUF_LIBRARY}"
-      "-DLZ4_HOME=${LZ4_HOME}"
-      "-DZSTD_HOME=${ZSTD_HOME}")
+      "-DLZ4_HOME=${ORC_LZ4_ROOT}"
+      "-DZSTD_HOME=${ORZ_ZSTD_ROOT}")
   if(ORC_PROTOBUF_EXECUTABLE)
     set(ORC_CMAKE_ARGS ${ORC_CMAKE_ARGS}
                        "-DPROTOBUF_EXECUTABLE:FILEPATH=${ORC_PROTOBUF_EXECUTABLE}")
@@ -4321,23 +4334,36 @@ macro(build_orc)
   file(MAKE_DIRECTORY ${ORC_INCLUDE_DIR})
 
   externalproject_add(orc_ep
+                      ${EP_COMMON_OPTIONS}
                       URL ${ORC_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_ORC_BUILD_SHA256_CHECKSUM}"
                       BUILD_BYPRODUCTS ${ORC_STATIC_LIB}
-                      CMAKE_ARGS ${ORC_CMAKE_ARGS} ${EP_LOG_OPTIONS})
-
-  add_dependencies(toolchain orc_ep)
+                      CMAKE_ARGS ${ORC_CMAKE_ARGS}
+                      DEPENDS ${ARROW_PROTOBUF_LIBPROTOBUF}
+                              ${ARROW_ZSTD_LIBZSTD}
+                              ${Snappy_TARGET}
+                              LZ4::lz4
+                              ZLIB::ZLIB)
 
   set(ORC_VENDORED 1)
-  add_dependencies(orc_ep ZLIB::ZLIB)
-  add_dependencies(orc_ep lz4::lz4)
-  add_dependencies(orc_ep ${Snappy_TARGET})
-  add_dependencies(orc_ep ${ARROW_PROTOBUF_LIBPROTOBUF})
 
   add_library(orc::liborc STATIC IMPORTED)
   set_target_properties(orc::liborc
                         PROPERTIES IMPORTED_LOCATION "${ORC_STATIC_LIB}"
                                    INTERFACE_INCLUDE_DIRECTORIES "${ORC_INCLUDE_DIR}")
+  set(ORC_LINK_LIBRARIES LZ4::lz4 ZLIB::ZLIB ${ARROW_ZSTD_LIBZSTD} ${Snappy_TARGET})
+  if(NOT MSVC)
+    if(NOT APPLE)
+      list(APPEND ORC_LINK_LIBRARIES Threads::Threads)
+    endif()
+    list(APPEND ORC_LINK_LIBRARIES ${CMAKE_DL_LIBS})
+  endif()
+  if(CMAKE_VERSION VERSION_LESS 3.11)
+    set_target_properties(orc::liborc PROPERTIES INTERFACE_LINK_LIBRARIES
+                                                 "${ORC_LINK_LIBRARIES}")
+  else()
+    target_link_libraries(orc::liborc INTERFACE ${ORC_LINK_LIBRARIES})
+  endif()
 
   add_dependencies(toolchain orc_ep)
   add_dependencies(orc::liborc orc_ep)
@@ -4414,12 +4440,7 @@ macro(build_opentelemetry)
   endforeach()
 
   set(OPENTELEMETRY_CMAKE_ARGS
-      ${EP_COMMON_TOOLCHAIN}
-      "-DCMAKE_INSTALL_PREFIX=${OPENTELEMETRY_PREFIX}"
-      "-DCMAKE_BUILD_TYPE=${CMAKE_BUILD_TYPE}"
-      -DCMAKE_INSTALL_LIBDIR=lib
-      "-DCMAKE_CXX_FLAGS=${EP_CXX_FLAGS}"
-      -DBUILD_TESTING=OFF
+      ${EP_COMMON_CMAKE_ARGS} "-DCMAKE_INSTALL_PREFIX=${OPENTELEMETRY_PREFIX}"
       -DWITH_EXAMPLES=OFF)
 
   set(OPENTELEMETRY_PREFIX_PATH_LIST)
@@ -4456,7 +4477,7 @@ macro(build_opentelemetry)
   # ExternalProject that just fetches the Protobufs, then add a custom step
   # to the main build to copy the Protobufs.
   externalproject_add(opentelemetry_proto_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       URL_HASH "SHA256=${ARROW_OPENTELEMETRY_PROTO_BUILD_SHA256_CHECKSUM}"
                       URL ${OPENTELEMETRY_PROTO_SOURCE_URL}
                       BUILD_COMMAND ""
@@ -4467,19 +4488,17 @@ macro(build_opentelemetry)
   add_dependencies(opentelemetry_dependencies nlohmann_json::nlohmann_json
                    opentelemetry_proto_ep ${ARROW_PROTOBUF_LIBPROTOBUF})
 
-  set(OPENTELEMETRY_PREFIX_PATH_LIST_SEP_CHAR "|")
   # JOIN is CMake >=3.12 only
-  string(REPLACE ";" "${OPENTELEMETRY_PREFIX_PATH_LIST_SEP_CHAR}"
-                 OPENTELEMETRY_PREFIX_PATH "${OPENTELEMETRY_PREFIX_PATH_LIST}")
+  string(REPLACE ";" "${EP_LIST_SEPARATOR}" OPENTELEMETRY_PREFIX_PATH
+                 "${OPENTELEMETRY_PREFIX_PATH_LIST}")
   list(APPEND OPENTELEMETRY_CMAKE_ARGS "-DCMAKE_PREFIX_PATH=${OPENTELEMETRY_PREFIX_PATH}")
 
   if(CMAKE_SYSTEM_PROCESSOR STREQUAL "s390x")
     # OpenTelemetry tries to determine the processor arch for vcpkg, which fails
     # on s390x, even though it doesn't use vcpkg there. Tell it ARCH manually
     externalproject_add(opentelemetry_ep
-                        ${EP_LOG_OPTIONS}
+                        ${EP_COMMON_OPTIONS}
                         URL_HASH "SHA256=${ARROW_OPENTELEMETRY_BUILD_SHA256_CHECKSUM}"
-                        LIST_SEPARATOR ${OPENTELEMETRY_PREFIX_PATH_LIST_SEP_CHAR}
                         CONFIGURE_COMMAND ${CMAKE_COMMAND} -E env ARCH=s390x
                                           ${CMAKE_COMMAND} -G ${CMAKE_GENERATOR}
                                           "<SOURCE_DIR><SOURCE_SUBDIR>"
@@ -4494,9 +4513,8 @@ macro(build_opentelemetry)
                         DEPENDS ${_OPENTELEMETRY_DEPENDENCIES})
   else()
     externalproject_add(opentelemetry_ep
-                        ${EP_LOG_OPTIONS}
+                        ${EP_COMMON_OPTIONS}
                         URL_HASH "SHA256=${ARROW_OPENTELEMETRY_BUILD_SHA256_CHECKSUM}"
-                        LIST_SEPARATOR ${OPENTELEMETRY_PREFIX_PATH_LIST_SEP_CHAR}
                         CMAKE_ARGS ${OPENTELEMETRY_CMAKE_ARGS}
                         URL ${OPENTELEMETRY_SOURCE_URL}
                         BUILD_BYPRODUCTS ${OPENTELEMETRY_BUILD_BYPRODUCTS}
@@ -4548,11 +4566,11 @@ macro(build_opentelemetry)
 
   foreach(_OPENTELEMETRY_LIB ${_OPENTELEMETRY_LIBS})
     add_dependencies(opentelemetry-cpp::${_OPENTELEMETRY_LIB} opentelemetry_ep)
+    list(APPEND ARROW_BUNDLED_STATIC_LIBS opentelemetry-cpp::${_OPENTELEMETRY_LIB})
   endforeach()
 
   # Work around https://gitlab.kitware.com/cmake/cmake/issues/15052
   file(MAKE_DIRECTORY ${OPENTELEMETRY_INCLUDE_DIR})
-
 endmacro()
 
 if(ARROW_WITH_OPENTELEMETRY)
@@ -4571,13 +4589,8 @@ endif()
 
 macro(build_awssdk)
   message(STATUS "Building AWS C++ SDK from source")
-  if(CMAKE_CXX_COMPILER_ID STREQUAL "GNU" AND CMAKE_CXX_COMPILER_VERSION VERSION_LESS
-                                              "4.9")
-    message(FATAL_ERROR "AWS C++ SDK requires gcc >= 4.9")
-  endif()
   set(AWSSDK_PREFIX "${CMAKE_CURRENT_BINARY_DIR}/awssdk_ep-install")
   set(AWSSDK_INCLUDE_DIR "${AWSSDK_PREFIX}/include")
-  set(AWSSDK_LIB_DIR "lib")
 
   if(WIN32)
     # On Windows, need to match build types
@@ -4591,20 +4604,15 @@ macro(build_awssdk)
 
   set(AWSSDK_COMMON_CMAKE_ARGS
       ${EP_COMMON_CMAKE_ARGS}
-      -DBUILD_SHARED_LIBS=OFF
       -DCMAKE_BUILD_TYPE=${AWSSDK_BUILD_TYPE}
-      -DCMAKE_INSTALL_LIBDIR=${AWSSDK_LIB_DIR}
       -DENABLE_TESTING=OFF
       -DENABLE_UNITY_BUILD=ON
       "-DCMAKE_INSTALL_PREFIX=${AWSSDK_PREFIX}"
       "-DCMAKE_PREFIX_PATH=${AWSSDK_PREFIX}")
   if(NOT MSVC)
-    list(APPEND
-         AWSSDK_COMMON_CMAKE_ARGS
+    list(APPEND AWSSDK_COMMON_CMAKE_ARGS
          # Workaround for https://github.com/aws/aws-sdk-cpp/issues/1582
-         "-DCMAKE_CXX_FLAGS=${EP_CXX_FLAGS} -Wno-error=deprecated-declarations"
-         "-DCMAKE_CXX_FLAGS_${UPPERCASE_BUILD_TYPE}=${EP_CXX_FLAGS} -Wno-error=deprecated-declarations"
-    )
+         "-DCMAKE_CXX_FLAGS=${EP_CXX_FLAGS} -Wno-error=deprecated-declarations")
   endif()
 
   # provide hint for AWS SDK to link with the already located openssl
@@ -4651,7 +4659,7 @@ macro(build_awssdk)
     # AWS-C-COMMON -> AWS_C_COMMON
     string(REPLACE "-" "_" _AWSSDK_LIB_NAME_PREFIX ${_AWSSDK_LIB_UPPER})
     set(_AWSSDK_STATIC_LIBRARY
-        "${AWSSDK_PREFIX}/${AWSSDK_LIB_DIR}/${CMAKE_STATIC_LIBRARY_PREFIX}${_AWSSDK_LIB}${CMAKE_STATIC_LIBRARY_SUFFIX}"
+        "${AWSSDK_PREFIX}/lib/${CMAKE_STATIC_LIBRARY_PREFIX}${_AWSSDK_LIB}${CMAKE_STATIC_LIBRARY_SUFFIX}"
     )
     if(${_AWSSDK_LIB} MATCHES "^aws-cpp-sdk-")
       set(_AWSSDK_TARGET_NAME ${_AWSSDK_LIB})
@@ -4668,7 +4676,7 @@ macro(build_awssdk)
   endforeach()
 
   externalproject_add(aws_c_common_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       URL ${AWS_C_COMMON_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_AWS_C_COMMON_BUILD_SHA256_CHECKSUM}"
                       CMAKE_ARGS ${AWSSDK_COMMON_CMAKE_ARGS}
@@ -4676,7 +4684,7 @@ macro(build_awssdk)
   add_dependencies(AWS::aws-c-common aws_c_common_ep)
 
   externalproject_add(aws_checksums_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       URL ${AWS_CHECKSUMS_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_AWS_CHECKSUMS_BUILD_SHA256_CHECKSUM}"
                       CMAKE_ARGS ${AWSSDK_COMMON_CMAKE_ARGS}
@@ -4685,7 +4693,7 @@ macro(build_awssdk)
   add_dependencies(AWS::aws-checksums aws_checksums_ep)
 
   externalproject_add(aws_c_event_stream_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       URL ${AWS_C_EVENT_STREAM_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_AWS_C_EVENT_STREAM_BUILD_SHA256_CHECKSUM}"
                       CMAKE_ARGS ${AWSSDK_COMMON_CMAKE_ARGS}
@@ -4702,7 +4710,7 @@ macro(build_awssdk)
   endif()
 
   externalproject_add(awssdk_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       URL ${AWSSDK_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_AWSSDK_BUILD_SHA256_CHECKSUM}"
                       CMAKE_ARGS ${AWSSDK_CMAKE_ARGS}
@@ -4752,52 +4760,20 @@ macro(build_awssdk)
 endmacro()
 
 if(ARROW_S3)
-  # See https://aws.amazon.com/blogs/developer/developer-experience-of-the-aws-sdk-for-c-now-simplified-by-cmake/
+  resolve_dependency(AWSSDK HAVE_ALT TRUE)
 
-  # Workaround to force AWS CMake configuration to look for shared libraries
-  if(DEFINED ENV{CONDA_PREFIX})
-    if(DEFINED BUILD_SHARED_LIBS)
-      set(BUILD_SHARED_LIBS_WAS_SET TRUE)
-      set(BUILD_SHARED_LIBS_VALUE ${BUILD_SHARED_LIBS})
-    else()
-      set(BUILD_SHARED_LIBS_WAS_SET FALSE)
-    endif()
-    set(BUILD_SHARED_LIBS "ON")
-  endif()
+  message(STATUS "Found AWS SDK headers: ${AWSSDK_INCLUDE_DIR}")
+  message(STATUS "Found AWS SDK libraries: ${AWSSDK_LINK_LIBRARIES}")
 
-  # Need to customize the find_package() call, so cannot call resolve_dependency()
-  if(AWSSDK_SOURCE STREQUAL "AUTO")
-    find_package(AWSSDK
-                 COMPONENTS config
-                            s3
-                            transfer
-                            identity-management
-                            sts)
-    if(NOT AWSSDK_FOUND)
-      build_awssdk()
-    endif()
-  elseif(AWSSDK_SOURCE STREQUAL "BUNDLED")
-    build_awssdk()
-  elseif(AWSSDK_SOURCE STREQUAL "SYSTEM")
-    find_package(AWSSDK REQUIRED
-                 COMPONENTS config
-                            s3
-                            transfer
-                            identity-management
-                            sts)
+  if(${AWSSDK_SOURCE} STREQUAL "SYSTEM")
+    foreach(AWSSDK_LINK_LIBRARY ${AWSSDK_LINK_LIBRARIES})
+      string(APPEND ARROW_PC_LIBS_PRIVATE " $<TARGET_FILE:${AWSSDK_LINK_LIBRARY}>")
+    endforeach()
   endif()
-
-  # Restore previous value of BUILD_SHARED_LIBS
-  if(DEFINED ENV{CONDA_PREFIX})
-    if(BUILD_SHARED_LIBS_WAS_SET)
-      set(BUILD_SHARED_LIBS ${BUILD_SHARED_LIBS_VALUE})
-    else()
-      unset(BUILD_SHARED_LIBS)
-    endif()
+  if(UNIX)
+    string(APPEND ARROW_PC_REQUIRES_PRIVATE " libcurl")
   endif()
-
-  message(STATUS "Found AWS SDK headers: ${AWSSDK_INCLUDE_DIR}")
-  message(STATUS "Found AWS SDK libraries: ${AWSSDK_LINK_LIBRARIES}")
+  string(APPEND ARROW_PC_REQUIRES_PRIVATE " openssl")
 
   if(APPLE)
     # CoreFoundation's path is hardcoded in the CMake files provided by
@@ -4852,7 +4828,7 @@ macro(build_ucx)
   endif()
   set(UCX_BUILD_COMMAND ${MAKE} ${MAKE_BUILD_ARGS})
   externalproject_add(ucx_ep
-                      ${EP_LOG_OPTIONS}
+                      ${EP_COMMON_OPTIONS}
                       URL ${ARROW_UCX_SOURCE_URL}
                       URL_HASH "SHA256=${ARROW_UCX_BUILD_SHA256_CHECKSUM}"
                       CONFIGURE_COMMAND ${UCX_CONFIGURE_COMMAND}
diff --git a/cpp/cmake_modules/UseCython.cmake b/cpp/cmake_modules/UseCython.cmake
index f2025efb4c9..e15ac59490c 100644
--- a/cpp/cmake_modules/UseCython.cmake
+++ b/cpp/cmake_modules/UseCython.cmake
@@ -118,7 +118,7 @@ function(compile_pyx
   get_source_file_property(property_is_public ${pyx_file} CYTHON_PUBLIC)
   get_source_file_property(property_is_api ${pyx_file} CYTHON_API)
   if(${property_is_api})
-    set(_generated_files "${output_file}" "${_name}.h" "${name}_api.h")
+    set(_generated_files "${output_file}" "${_name}.h" "${_name}_api.h")
   elseif(${property_is_public})
     set(_generated_files "${output_file}" "${_name}.h")
   else()
diff --git a/cpp/examples/arrow/CMakeLists.txt b/cpp/examples/arrow/CMakeLists.txt
index 88b760e3978..aa33c18e76e 100644
--- a/cpp/examples/arrow/CMakeLists.txt
+++ b/cpp/examples/arrow/CMakeLists.txt
@@ -36,10 +36,14 @@ if(ARROW_FLIGHT)
   # we'll violate ODR for gRPC symbols
   if(ARROW_GRPC_USE_SHARED)
     set(FLIGHT_EXAMPLES_LINK_LIBS arrow_flight_shared)
-    # We don't directly use symbols from the reflection library, so
-    # ensure the linker still links to it
-    set(GRPC_REFLECTION_LINK_LIBS -Wl,--no-as-needed gRPC::grpc++_reflection
-                                  -Wl,--as-needed)
+    if(APPLE)
+      set(GRPC_REFLECTION_LINK_LIBS gRPC::grpc++_reflection)
+    else()
+      # We don't directly use symbols from the reflection library, so
+      # ensure the linker still links to it
+      set(GRPC_REFLECTION_LINK_LIBS -Wl,--no-as-needed gRPC::grpc++_reflection
+                                    -Wl,--as-needed)
+    endif()
   elseif(NOT ARROW_BUILD_STATIC)
     message(FATAL_ERROR "Statically built gRPC requires ARROW_BUILD_STATIC=ON")
   else()
@@ -114,6 +118,14 @@ if(ARROW_FLIGHT)
   endif()
 endif()
 
+if(ARROW_PARQUET)
+  if(ARROW_BUILD_SHARED)
+    add_arrow_example(parquet_read_write EXTRA_LINK_LIBS parquet_shared)
+  else()
+    add_arrow_example(parquet_read_write EXTRA_LINK_LIBS parquet_static)
+  endif()
+endif()
+
 if(ARROW_PARQUET AND ARROW_DATASET)
   if(ARROW_BUILD_SHARED)
     set(DATASET_EXAMPLES_LINK_LIBS arrow_dataset_shared)
@@ -133,8 +145,10 @@ if(ARROW_PARQUET AND ARROW_DATASET)
                     ${DATASET_EXAMPLES_LINK_LIBS})
   add_dependencies(execution-plan-documentation-examples parquet)
 
-  add_arrow_example(join_example EXTRA_LINK_LIBS ${DATASET_EXAMPLES_LINK_LIBS})
-  add_dependencies(join-example parquet)
+  if(ARROW_CSV)
+    add_arrow_example(join_example EXTRA_LINK_LIBS ${DATASET_EXAMPLES_LINK_LIBS})
+    add_dependencies(join-example parquet)
+  endif()
 
   add_arrow_example(udf_example)
 
@@ -151,3 +165,7 @@ if(ARROW_PARQUET AND ARROW_DATASET)
   endif()
 
 endif()
+
+if(ARROW_GANDIVA)
+  add_arrow_example(gandiva_example EXTRA_LINK_LIBS gandiva_shared)
+endif()
diff --git a/cpp/examples/arrow/compute_register_example.cc b/cpp/examples/arrow/compute_register_example.cc
index 2a76e8595b6..1b96dd42220 100644
--- a/cpp/examples/arrow/compute_register_example.cc
+++ b/cpp/examples/arrow/compute_register_example.cc
@@ -57,7 +57,7 @@ class ExampleFunctionOptions : public cp::FunctionOptions {
 
 std::unique_ptr<cp::FunctionOptions> ExampleFunctionOptionsType::Copy(
     const cp::FunctionOptions&) const {
-  return std::unique_ptr<cp::FunctionOptions>(new ExampleFunctionOptions());
+  return std::make_unique<ExampleFunctionOptions>();
 }
 
 arrow::Status ExampleFunctionImpl(cp::KernelContext* ctx, const cp::ExecSpan& batch,
@@ -149,7 +149,7 @@ arrow::Status RunComputeRegister(int argc, char** argv) {
   ARROW_RETURN_NOT_OK(maybe_plan.status());
   ARROW_ASSIGN_OR_RAISE(auto plan, maybe_plan);
 
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> source_gen, sink_gen;
+  arrow::AsyncGenerator<std::optional<cp::ExecBatch>> source_gen, sink_gen;
   ARROW_RETURN_NOT_OK(
       cp::Declaration::Sequence(
           {
diff --git a/cpp/examples/arrow/engine_substrait_consumption.cc b/cpp/examples/arrow/engine_substrait_consumption.cc
index 9d1fb99dcb5..aef189952c6 100644
--- a/cpp/examples/arrow/engine_substrait_consumption.cc
+++ b/cpp/examples/arrow/engine_substrait_consumption.cc
@@ -32,7 +32,8 @@ class IgnoringConsumer : public cp::SinkNodeConsumer {
   explicit IgnoringConsumer(size_t tag) : tag_{tag} {}
 
   arrow::Status Init(const std::shared_ptr<arrow::Schema>& schema,
-                     cp::BackpressureControl* backpressure_control) override {
+                     cp::BackpressureControl* backpressure_control,
+                     cp::ExecPlan* plan) override {
     return arrow::Status::OK();
   }
 
diff --git a/cpp/examples/arrow/execution_plan_documentation_examples.cc b/cpp/examples/arrow/execution_plan_documentation_examples.cc
index b7c690bb278..a72db97930c 100644
--- a/cpp/examples/arrow/execution_plan_documentation_examples.cc
+++ b/cpp/examples/arrow/execution_plan_documentation_examples.cc
@@ -157,11 +157,11 @@ struct BatchesWithSchema {
   std::shared_ptr<arrow::Schema> schema;
   // This method uses internal arrow utilities to
   // convert a vector of record batches to an AsyncGenerator of optional batches
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> gen() const {
+  arrow::AsyncGenerator<std::optional<cp::ExecBatch>> gen() const {
     auto opt_batches = ::arrow::internal::MapVector(
-        [](cp::ExecBatch batch) { return arrow::util::make_optional(std::move(batch)); },
+        [](cp::ExecBatch batch) { return std::make_optional(std::move(batch)); },
         batches);
-    arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> gen;
+    arrow::AsyncGenerator<std::optional<cp::ExecBatch>> gen;
     gen = arrow::MakeVectorGenerator(std::move(opt_batches));
     return gen;
   }
@@ -256,182 +256,122 @@ arrow::Result<BatchesWithSchema> MakeGroupableBatches(int multiplicity = 1) {
   return out;
 }
 
-arrow::Status ExecutePlanAndCollectAsTable(
-    cp::ExecContext& exec_context, std::shared_ptr<cp::ExecPlan> plan,
-    std::shared_ptr<arrow::Schema> schema,
-    arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen) {
-  // translate sink_gen (async) to sink_reader (sync)
-  std::shared_ptr<arrow::RecordBatchReader> sink_reader =
-      cp::MakeGeneratorReader(schema, std::move(sink_gen), exec_context.memory_pool());
-
-  // validate the ExecPlan
-  ARROW_RETURN_NOT_OK(plan->Validate());
-  std::cout << "ExecPlan created : " << plan->ToString() << std::endl;
-  // start the ExecPlan
-  ARROW_RETURN_NOT_OK(plan->StartProducing());
-
+arrow::Status ExecutePlanAndCollectAsTable(cp::Declaration plan) {
   // collect sink_reader into a Table
   std::shared_ptr<arrow::Table> response_table;
-
-  ARROW_ASSIGN_OR_RAISE(response_table,
-                        arrow::Table::FromRecordBatchReader(sink_reader.get()));
+  ARROW_ASSIGN_OR_RAISE(response_table, cp::DeclarationToTable(std::move(plan)));
 
   std::cout << "Results : " << response_table->ToString() << std::endl;
 
-  // stop producing
-  plan->StopProducing();
-  // plan mark finished
-  auto future = plan->finished();
-  return future.status();
+  return arrow::Status::OK();
 }
 
 // (Doc section: Scan Example)
 
 /// \brief An example demonstrating a scan and sink node
-/// \param exec_context The execution context to run the plan in
 ///
-/// Scan-Sink
+/// Scan-Table
 /// This example shows how scan operation can be applied on a dataset.
 /// There are operations that can be applied on the scan (project, filter)
 /// and the input data can be processed. The output is obtained as a table
-/// via the sink node.
-arrow::Status ScanSinkExample(cp::ExecContext& exec_context) {
-  // Execution plan created
-  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
-
+arrow::Status ScanSinkExample() {
   ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::dataset::Dataset> dataset, GetDataset());
 
   auto options = std::make_shared<arrow::dataset::ScanOptions>();
   options->projection = cp::project({}, {});  // create empty projection
 
   // construct the scan node
-  cp::ExecNode* scan;
   auto scan_node_options = arrow::dataset::ScanNodeOptions{dataset, options};
 
-  ARROW_ASSIGN_OR_RAISE(scan,
-                        cp::MakeExecNode("scan", plan.get(), {}, scan_node_options));
+  cp::Declaration scan{"scan", std::move(scan_node_options)};
 
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen;
-
-  ARROW_RETURN_NOT_OK(
-      cp::MakeExecNode("sink", plan.get(), {scan}, cp::SinkNodeOptions{&sink_gen}));
-
-  return ExecutePlanAndCollectAsTable(exec_context, plan, dataset->schema(), sink_gen);
+  return ExecutePlanAndCollectAsTable(std::move(scan));
 }
 // (Doc section: Scan Example)
 
 // (Doc section: Source Example)
 
 /// \brief An example demonstrating a source and sink node
-/// \param exec_context The execution context to run the plan in
 ///
-/// Source-Sink Example
-/// This example shows how a source and sink can be used
-/// in an execution plan. This includes source node receiving data
-/// and the sink node emits the data as an output represented in
-/// a table.
-arrow::Status SourceSinkExample(cp::ExecContext& exec_context) {
-  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
-
+/// Source-Table Example
+/// This example shows how a custom source can be used
+/// in an execution plan. This includes source node using pregenerated
+/// data and collecting it into a table.
+///
+/// This sort of custom souce is often not needed.  In most cases you can
+/// use a scan (for a dataset source) or a source like table_source, array_vector_source,
+/// exec_batch_source, or record_batch_source (for in-memory data)
+arrow::Status SourceSinkExample() {
   ARROW_ASSIGN_OR_RAISE(auto basic_data, MakeBasicBatches());
 
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen;
-
   auto source_node_options = cp::SourceNodeOptions{basic_data.schema, basic_data.gen()};
 
-  ARROW_ASSIGN_OR_RAISE(cp::ExecNode * source,
-                        cp::MakeExecNode("source", plan.get(), {}, source_node_options));
-
-  ARROW_RETURN_NOT_OK(
-      cp::MakeExecNode("sink", plan.get(), {source}, cp::SinkNodeOptions{&sink_gen}));
+  cp::Declaration source{"source", std::move(source_node_options)};
 
-  return ExecutePlanAndCollectAsTable(exec_context, plan, basic_data.schema, sink_gen);
+  return ExecutePlanAndCollectAsTable(std::move(source));
 }
 // (Doc section: Source Example)
 
 // (Doc section: Table Source Example)
 
 /// \brief An example showing a table source node
-/// \param exec_context The execution context to run the plan in
 ///
-/// TableSource-Sink Example
-/// This example shows how a table_source and sink can be used
+/// TableSource-Table Example
+/// This example shows how a table_source can be used
 /// in an execution plan. This includes a table source node
-/// receiving data from a table and the sink node emits
-/// the data to a generator which we collect into a table.
-arrow::Status TableSourceSinkExample(cp::ExecContext& exec_context) {
-  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
-
+/// receiving data from a table.  This plan simply collects the
+/// data back into a table but nodes could be added that modify
+/// or transform the data as well (as is shown in later examples)
+arrow::Status TableSourceSinkExample() {
   ARROW_ASSIGN_OR_RAISE(auto table, GetTable());
 
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen;
+  arrow::AsyncGenerator<std::optional<cp::ExecBatch>> sink_gen;
   int max_batch_size = 2;
   auto table_source_options = cp::TableSourceNodeOptions{table, max_batch_size};
 
-  ARROW_ASSIGN_OR_RAISE(
-      cp::ExecNode * source,
-      cp::MakeExecNode("table_source", plan.get(), {}, table_source_options));
-
-  ARROW_RETURN_NOT_OK(
-      cp::MakeExecNode("sink", plan.get(), {source}, cp::SinkNodeOptions{&sink_gen}));
+  cp::Declaration source{"table_source", std::move(table_source_options)};
 
-  return ExecutePlanAndCollectAsTable(exec_context, plan, table->schema(), sink_gen);
+  return ExecutePlanAndCollectAsTable(std::move(source));
 }
 // (Doc section: Table Source Example)
 
 // (Doc section: Filter Example)
 
 /// \brief An example showing a filter node
-/// \param exec_context The execution context to run the plan in
 ///
-/// Source-Filter-Sink
+/// Source-Filter-Table
 /// This example shows how a filter can be used in an execution plan,
-/// along with the source and sink operations. The output from the
-/// exeuction plan is obtained as a table via the sink node.
-arrow::Status ScanFilterSinkExample(cp::ExecContext& exec_context) {
-  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
-
+/// to filter data from a source. The output from the exeuction plan
+/// is collected into a table.
+arrow::Status ScanFilterSinkExample() {
   ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::dataset::Dataset> dataset, GetDataset());
 
   auto options = std::make_shared<arrow::dataset::ScanOptions>();
   // specify the filter.  This filter removes all rows where the
   // value of the "a" column is greater than 3.
-  cp::Expression filter_opt = cp::greater(cp::field_ref("a"), cp::literal(3));
+  cp::Expression filter_expr = cp::greater(cp::field_ref("a"), cp::literal(3));
   // set filter for scanner : on-disk / push-down filtering.
   // This step can be skipped if you are not reading from disk.
-  options->filter = filter_opt;
+  options->filter = filter_expr;
   // empty projection
   options->projection = cp::project({}, {});
 
   // construct the scan node
   std::cout << "Initialized Scanning Options" << std::endl;
 
-  cp::ExecNode* scan;
-
   auto scan_node_options = arrow::dataset::ScanNodeOptions{dataset, options};
   std::cout << "Scan node options created" << std::endl;
 
-  ARROW_ASSIGN_OR_RAISE(scan,
-                        cp::MakeExecNode("scan", plan.get(), {}, scan_node_options));
+  cp::Declaration scan{"scan", std::move(scan_node_options)};
 
   // pipe the scan node into the filter node
   // Need to set the filter in scan node options and filter node options.
   // At scan node it is used for on-disk / push-down filtering.
   // At filter node it is used for in-memory filtering.
-  cp::ExecNode* filter;
-  ARROW_ASSIGN_OR_RAISE(filter, cp::MakeExecNode("filter", plan.get(), {scan},
-                                                 cp::FilterNodeOptions{filter_opt}));
+  cp::Declaration filter{
+      "filter", {std::move(scan)}, cp::FilterNodeOptions(std::move(filter_expr))};
 
-  // finally, pipe the filter node into a sink node
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen;
-  ARROW_RETURN_NOT_OK(
-      cp::MakeExecNode("sink", plan.get(), {filter}, cp::SinkNodeOptions{&sink_gen}));
-
-  return ExecutePlanAndCollectAsTable(exec_context, plan, dataset->schema(), sink_gen);
+  return ExecutePlanAndCollectAsTable(std::move(filter));
 }
 
 // (Doc section: Filter Example)
@@ -439,16 +379,12 @@ arrow::Status ScanFilterSinkExample(cp::ExecContext& exec_context) {
 // (Doc section: Project Example)
 
 /// \brief An example showing a project node
-/// \param exec_context The execution context to run the plan in
 ///
-/// Scan-Project-Sink
-/// This example shows how Scan operation can be used to load the data
-/// into the execution plan, how project operation can be applied on the
-/// data stream and how the output is obtained as a table via the sink node.
-arrow::Status ScanProjectSinkExample(cp::ExecContext& exec_context) {
-  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
-
+/// Scan-Project-Table
+/// This example shows how a Scan operation can be used to load the data
+/// into the execution plan, how a project operation can be applied on the
+/// data stream and how the output is collected into a table
+arrow::Status ScanProjectSinkExample() {
   ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::dataset::Dataset> dataset, GetDataset());
 
   auto options = std::make_shared<arrow::dataset::ScanOptions>();
@@ -456,26 +392,13 @@ arrow::Status ScanProjectSinkExample(cp::ExecContext& exec_context) {
   cp::Expression a_times_2 = cp::call("multiply", {cp::field_ref("a"), cp::literal(2)});
   options->projection = cp::project({}, {});
 
-  cp::ExecNode* scan;
-
   auto scan_node_options = arrow::dataset::ScanNodeOptions{dataset, options};
 
-  ARROW_ASSIGN_OR_RAISE(scan,
-                        cp::MakeExecNode("scan", plan.get(), {}, scan_node_options));
-
-  cp::ExecNode* project;
-  ARROW_ASSIGN_OR_RAISE(project, cp::MakeExecNode("project", plan.get(), {scan},
-                                                  cp::ProjectNodeOptions{{a_times_2}}));
-  // schema after projection => multiply(a, 2): int64
-  std::cout << "Schema after projection : \n"
-            << project->output_schema()->ToString() << std::endl;
-
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen;
-  ARROW_RETURN_NOT_OK(
-      cp::MakeExecNode("sink", plan.get(), {project}, cp::SinkNodeOptions{&sink_gen}));
-  auto schema = arrow::schema({arrow::field("a * 2", arrow::int32())});
+  cp::Declaration scan{"scan", std::move(scan_node_options)};
+  cp::Declaration project{
+      "project", {std::move(scan)}, cp::ProjectNodeOptions({a_times_2})};
 
-  return ExecutePlanAndCollectAsTable(exec_context, plan, schema, sink_gen);
+  return ExecutePlanAndCollectAsTable(std::move(project));
 }
 
 // (Doc section: Project Example)
@@ -483,98 +406,70 @@ arrow::Status ScanProjectSinkExample(cp::ExecContext& exec_context) {
 // (Doc section: Scalar Aggregate Example)
 
 /// \brief An example showing an aggregation node to aggregate an entire table
-/// \param exec_context The execution context to run the plan in
 ///
-/// Source-Aggregation-Sink
+/// Source-Aggregation-Table
 /// This example shows how an aggregation operation can be applied on a
-/// execution plan resulting a scalar output. The source node loads the
+/// execution plan resulting in a scalar output. The source node loads the
 /// data and the aggregation (counting unique types in column 'a')
-/// is applied on this data. The output is obtained from the sink node as a table.
-arrow::Status SourceScalarAggregateSinkExample(cp::ExecContext& exec_context) {
-  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
-
+/// is applied on this data. The output is collected into a table (that will
+/// have exactly one row)
+arrow::Status SourceScalarAggregateSinkExample() {
   ARROW_ASSIGN_OR_RAISE(auto basic_data, MakeBasicBatches());
 
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen;
-
   auto source_node_options = cp::SourceNodeOptions{basic_data.schema, basic_data.gen()};
 
-  ARROW_ASSIGN_OR_RAISE(cp::ExecNode * source,
-                        cp::MakeExecNode("source", plan.get(), {}, source_node_options));
+  cp::Declaration source{"source", std::move(source_node_options)};
   auto aggregate_options =
       cp::AggregateNodeOptions{/*aggregates=*/{{"sum", nullptr, "a", "sum(a)"}}};
-  ARROW_ASSIGN_OR_RAISE(
-      cp::ExecNode * aggregate,
-      cp::MakeExecNode("aggregate", plan.get(), {source}, std::move(aggregate_options)));
-
-  ARROW_RETURN_NOT_OK(
-      cp::MakeExecNode("sink", plan.get(), {aggregate}, cp::SinkNodeOptions{&sink_gen}));
-  auto schema = arrow::schema({arrow::field("sum(a)", arrow::int32())});
+  cp::Declaration aggregate{
+      "aggregate", {std::move(source)}, std::move(aggregate_options)};
 
-  return ExecutePlanAndCollectAsTable(exec_context, plan, schema, sink_gen);
+  return ExecutePlanAndCollectAsTable(std::move(aggregate));
 }
 // (Doc section: Scalar Aggregate Example)
 
 // (Doc section: Group Aggregate Example)
 
 /// \brief An example showing an aggregation node to perform a group-by operation
-/// \param exec_context The execution context to run the plan in
 ///
-/// Source-Aggregation-Sink
+/// Source-Aggregation-Table
 /// This example shows how an aggregation operation can be applied on a
-/// execution plan resulting a grouped output. The source node loads the
+/// execution plan resulting in grouped output. The source node loads the
 /// data and the aggregation (counting unique types in column 'a') is
-/// applied on this data. The output is obtained from the sink node as a table.
-arrow::Status SourceGroupAggregateSinkExample(cp::ExecContext& exec_context) {
-  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
-
+/// applied on this data. The output is collected into a table that will contain
+/// one row for each unique combination of group keys.
+arrow::Status SourceGroupAggregateSinkExample() {
   ARROW_ASSIGN_OR_RAISE(auto basic_data, MakeBasicBatches());
 
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen;
+  arrow::AsyncGenerator<std::optional<cp::ExecBatch>> sink_gen;
 
   auto source_node_options = cp::SourceNodeOptions{basic_data.schema, basic_data.gen()};
 
-  ARROW_ASSIGN_OR_RAISE(cp::ExecNode * source,
-                        cp::MakeExecNode("source", plan.get(), {}, source_node_options));
+  cp::Declaration source{"source", std::move(source_node_options)};
   auto options = std::make_shared<cp::CountOptions>(cp::CountOptions::ONLY_VALID);
   auto aggregate_options =
       cp::AggregateNodeOptions{/*aggregates=*/{{"hash_count", options, "a", "count(a)"}},
                                /*keys=*/{"b"}};
-  ARROW_ASSIGN_OR_RAISE(
-      cp::ExecNode * aggregate,
-      cp::MakeExecNode("aggregate", plan.get(), {source}, aggregate_options));
-
-  ARROW_RETURN_NOT_OK(
-      cp::MakeExecNode("sink", plan.get(), {aggregate}, cp::SinkNodeOptions{&sink_gen}));
-  auto schema = arrow::schema({
-      arrow::field("count(a)", arrow::int32()),
-      arrow::field("b", arrow::boolean()),
-  });
+  cp::Declaration aggregate{
+      "aggregate", {std::move(source)}, std::move(aggregate_options)};
 
-  return ExecutePlanAndCollectAsTable(exec_context, plan, schema, sink_gen);
+  return ExecutePlanAndCollectAsTable(std::move(aggregate));
 }
 // (Doc section: Group Aggregate Example)
 
 // (Doc section: ConsumingSink Example)
 
 /// \brief An example showing a consuming sink node
-/// \param exec_context The execution context to run the plan in
 ///
 /// Source-Consuming-Sink
 /// This example shows how the data can be consumed within the execution plan
 /// by using a ConsumingSink node. There is no data output from this execution plan.
-arrow::Status SourceConsumingSinkExample(cp::ExecContext& exec_context) {
-  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
-
+arrow::Status SourceConsumingSinkExample() {
   ARROW_ASSIGN_OR_RAISE(auto basic_data, MakeBasicBatches());
 
   auto source_node_options = cp::SourceNodeOptions{basic_data.schema, basic_data.gen()};
 
-  ARROW_ASSIGN_OR_RAISE(cp::ExecNode * source,
-                        cp::MakeExecNode("source", plan.get(), {}, source_node_options));
+  cp::Declaration source{"source", std::move(source_node_options)};
 
   std::atomic<uint32_t> batches_seen{0};
   arrow::Future<> finish = arrow::Future<>::Make();
@@ -583,7 +478,12 @@ arrow::Status SourceConsumingSinkExample(cp::ExecContext& exec_context) {
         : batches_seen(batches_seen), finish(std::move(finish)) {}
 
     arrow::Status Init(const std::shared_ptr<arrow::Schema>& schema,
-                       cp::BackpressureControl* backpressure_control) override {
+                       cp::BackpressureControl* backpressure_control,
+                       cp::ExecPlan* plan) override {
+      // This will be called as the plan is started (before the first call to Consume)
+      // and provides the schema of the data coming into the node, controls for pausing /
+      // resuming input, and a pointer to the plan itself which can be used to access
+      // other utilities such as the thread indexer or async task scheduler.
       return arrow::Status::OK();
     }
 
@@ -592,7 +492,11 @@ arrow::Status SourceConsumingSinkExample(cp::ExecContext& exec_context) {
       return arrow::Status::OK();
     }
 
-    arrow::Future<> Finish() override { return finish; }
+    arrow::Future<> Finish() override {
+      // Here you can perform whatever (possibly async) cleanup is needed, e.g. closing
+      // output file handles and flushing remaining work
+      return arrow::Future<>::MakeFinished();
+    }
 
     std::atomic<uint32_t>* batches_seen;
     arrow::Future<> finish;
@@ -600,47 +504,64 @@ arrow::Status SourceConsumingSinkExample(cp::ExecContext& exec_context) {
   std::shared_ptr<CustomSinkNodeConsumer> consumer =
       std::make_shared<CustomSinkNodeConsumer>(&batches_seen, finish);
 
-  cp::ExecNode* consuming_sink;
-
-  ARROW_ASSIGN_OR_RAISE(consuming_sink,
-                        MakeExecNode("consuming_sink", plan.get(), {source},
-                                     cp::ConsumingSinkNodeOptions(consumer)));
+  cp::Declaration consuming_sink{"consuming_sink",
+                                 {std::move(source)},
+                                 cp::ConsumingSinkNodeOptions(std::move(consumer))};
 
-  ARROW_RETURN_NOT_OK(consuming_sink->Validate());
+  // Since we are consuming the data within the plan there is no output and we simply
+  // run the plan to completion instead of collecting into a table.
+  ARROW_RETURN_NOT_OK(cp::DeclarationToStatus(std::move(consuming_sink)));
 
-  ARROW_RETURN_NOT_OK(plan->Validate());
-  std::cout << "Exec Plan created: " << plan->ToString() << std::endl;
-  // plan start producing
-  ARROW_RETURN_NOT_OK(plan->StartProducing());
-  // Source should finish fairly quickly
-  ARROW_RETURN_NOT_OK(source->finished().status());
-  std::cout << "Source Finished!" << std::endl;
-  // Mark consumption complete, plan should finish
-  finish.MarkFinished(arrow::Status::OK());
-  ARROW_RETURN_NOT_OK(plan->finished().status());
+  std::cout << "The consuming sink node saw " << batches_seen.load() << " batches"
+            << std::endl;
   return arrow::Status::OK();
 }
 // (Doc section: ConsumingSink Example)
 
 // (Doc section: OrderBySink Example)
 
+arrow::Status ExecutePlanAndCollectAsTableWithCustomSink(
+    std::shared_ptr<cp::ExecPlan> plan, std::shared_ptr<arrow::Schema> schema,
+    arrow::AsyncGenerator<std::optional<cp::ExecBatch>> sink_gen) {
+  // translate sink_gen (async) to sink_reader (sync)
+  std::shared_ptr<arrow::RecordBatchReader> sink_reader =
+      cp::MakeGeneratorReader(schema, std::move(sink_gen), arrow::default_memory_pool());
+
+  // validate the ExecPlan
+  ARROW_RETURN_NOT_OK(plan->Validate());
+  std::cout << "ExecPlan created : " << plan->ToString() << std::endl;
+  // start the ExecPlan
+  ARROW_RETURN_NOT_OK(plan->StartProducing());
+
+  // collect sink_reader into a Table
+  std::shared_ptr<arrow::Table> response_table;
+
+  ARROW_ASSIGN_OR_RAISE(response_table,
+                        arrow::Table::FromRecordBatchReader(sink_reader.get()));
+
+  std::cout << "Results : " << response_table->ToString() << std::endl;
+
+  // stop producing
+  plan->StopProducing();
+  // plan mark finished
+  auto future = plan->finished();
+  return future.status();
+}
+
 /// \brief An example showing an order-by node
-/// \param exec_context The execution context to run the plan in
 ///
 /// Source-OrderBy-Sink
 /// In this example, the data enters through the source node
 /// and the data is ordered in the sink node. The order can be
 /// ASCENDING or DESCENDING and it is configurable. The output
 /// is obtained as a table from the sink node.
-arrow::Status SourceOrderBySinkExample(cp::ExecContext& exec_context) {
+arrow::Status SourceOrderBySinkExample() {
   ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
+                        cp::ExecPlan::Make(*cp::threaded_exec_context()));
 
   ARROW_ASSIGN_OR_RAISE(auto basic_data, MakeSortTestBasicBatches());
 
-  std::cout << "basic data created" << std::endl;
-
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen;
+  arrow::AsyncGenerator<std::optional<cp::ExecBatch>> sink_gen;
 
   auto source_node_options = cp::SourceNodeOptions{basic_data.schema, basic_data.gen()};
   ARROW_ASSIGN_OR_RAISE(cp::ExecNode * source,
@@ -651,7 +572,7 @@ arrow::Status SourceOrderBySinkExample(cp::ExecContext& exec_context) {
       cp::OrderBySinkNodeOptions{
           cp::SortOptions{{cp::SortKey{"a", cp::SortOrder::Descending}}}, &sink_gen}));
 
-  return ExecutePlanAndCollectAsTable(exec_context, plan, basic_data.schema, sink_gen);
+  return ExecutePlanAndCollectAsTableWithCustomSink(plan, basic_data.schema, sink_gen);
 }
 
 // (Doc section: OrderBySink Example)
@@ -659,44 +580,26 @@ arrow::Status SourceOrderBySinkExample(cp::ExecContext& exec_context) {
 // (Doc section: HashJoin Example)
 
 /// \brief An example showing a hash join node
-/// \param exec_context The execution context to run the plan in
 ///
-/// Source-HashJoin-Sink
+/// Source-HashJoin-Table
 /// This example shows how source node gets the data and how a self-join
 /// is applied on the data. The join options are configurable. The output
-/// is obtained as a table via the sink node.
-arrow::Status SourceHashJoinSinkExample(cp::ExecContext& exec_context) {
+/// is collected into a table.
+arrow::Status SourceHashJoinSinkExample() {
   ARROW_ASSIGN_OR_RAISE(auto input, MakeGroupableBatches());
-  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
-
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen;
 
-  cp::ExecNode* left_source;
-  cp::ExecNode* right_source;
-  for (auto source : {&left_source, &right_source}) {
-    ARROW_ASSIGN_OR_RAISE(*source,
-                          MakeExecNode("source", plan.get(), {},
-                                       cp::SourceNodeOptions{input.schema, input.gen()}));
-  }
+  cp::Declaration left{"source", cp::SourceNodeOptions{input.schema, input.gen()}};
+  cp::Declaration right{"source", cp::SourceNodeOptions{input.schema, input.gen()}};
 
   cp::HashJoinNodeOptions join_opts{
       cp::JoinType::INNER,
       /*left_keys=*/{"str"},
       /*right_keys=*/{"str"}, cp::literal(true), "l_", "r_"};
 
-  ARROW_ASSIGN_OR_RAISE(
-      auto hashjoin,
-      cp::MakeExecNode("hashjoin", plan.get(), {left_source, right_source}, join_opts));
-
-  ARROW_RETURN_NOT_OK(
-      cp::MakeExecNode("sink", plan.get(), {hashjoin}, cp::SinkNodeOptions{&sink_gen}));
-  // expected columns i32, str, l_str, r_str
-  auto schema = arrow::schema(
-      {arrow::field("i32", arrow::int32()), arrow::field("str", arrow::utf8()),
-       arrow::field("l_str", arrow::utf8()), arrow::field("r_str", arrow::utf8())});
+  cp::Declaration hashjoin{
+      "hashjoin", {std::move(left), std::move(right)}, std::move(join_opts)};
 
-  return ExecutePlanAndCollectAsTable(exec_context, plan, schema, sink_gen);
+  return ExecutePlanAndCollectAsTable(std::move(hashjoin));
 }
 
 // (Doc section: HashJoin Example)
@@ -704,17 +607,16 @@ arrow::Status SourceHashJoinSinkExample(cp::ExecContext& exec_context) {
 // (Doc section: KSelect Example)
 
 /// \brief An example showing a select-k node
-/// \param exec_context The execution context to run the plan in
 ///
 /// Source-KSelect
 /// This example shows how K number of elements can be selected
 /// either from the top or bottom. The output node is a modified
 /// sink node where output can be obtained as a table.
-arrow::Status SourceKSelectExample(cp::ExecContext& exec_context) {
+arrow::Status SourceKSelectExample() {
   ARROW_ASSIGN_OR_RAISE(auto input, MakeGroupableBatches());
   ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen;
+                        cp::ExecPlan::Make(*cp::threaded_exec_context()));
+  arrow::AsyncGenerator<std::optional<cp::ExecBatch>> sink_gen;
 
   ARROW_ASSIGN_OR_RAISE(
       cp::ExecNode * source,
@@ -729,7 +631,7 @@ arrow::Status SourceKSelectExample(cp::ExecContext& exec_context) {
   auto schema = arrow::schema(
       {arrow::field("i32", arrow::int32()), arrow::field("str", arrow::utf8())});
 
-  return ExecutePlanAndCollectAsTable(exec_context, plan, schema, sink_gen);
+  return ExecutePlanAndCollectAsTableWithCustomSink(plan, schema, sink_gen);
 }
 
 // (Doc section: KSelect Example)
@@ -737,31 +639,23 @@ arrow::Status SourceKSelectExample(cp::ExecContext& exec_context) {
 // (Doc section: Write Example)
 
 /// \brief An example showing a write node
-/// \param exec_context The execution context to run the plan in
 /// \param file_path The destination to write to
 ///
 /// Scan-Filter-Write
 /// This example shows how scan node can be used to load the data
 /// and after processing how it can be written to disk.
-arrow::Status ScanFilterWriteExample(cp::ExecContext& exec_context,
-                                     const std::string& file_path) {
-  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
-
+arrow::Status ScanFilterWriteExample(const std::string& file_path) {
   ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::dataset::Dataset> dataset, GetDataset());
 
   auto options = std::make_shared<arrow::dataset::ScanOptions>();
   // empty projection
   options->projection = cp::project({}, {});
 
-  cp::ExecNode* scan;
-
   auto scan_node_options = arrow::dataset::ScanNodeOptions{dataset, options};
 
-  ARROW_ASSIGN_OR_RAISE(scan,
-                        cp::MakeExecNode("scan", plan.get(), {}, scan_node_options));
+  cp::Declaration scan{"scan", std::move(scan_node_options)};
 
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen;
+  arrow::AsyncGenerator<std::optional<cp::ExecBatch>> sink_gen;
 
   std::string root_path = "";
   std::string uri = "file://" + file_path;
@@ -792,15 +686,13 @@ arrow::Status ScanFilterWriteExample(cp::ExecContext& exec_context,
 
   arrow::dataset::WriteNodeOptions write_node_options{write_options};
 
-  ARROW_RETURN_NOT_OK(cp::MakeExecNode("write", plan.get(), {scan}, write_node_options));
+  cp::Declaration write{"write", {std::move(scan)}, std::move(write_node_options)};
 
-  ARROW_RETURN_NOT_OK(plan->Validate());
-  std::cout << "Execution Plan Created : " << plan->ToString() << std::endl;
-  // // // start the ExecPlan
-  ARROW_RETURN_NOT_OK(plan->StartProducing());
-  auto future = plan->finished();
-  ARROW_RETURN_NOT_OK(future.status());
-  future.Wait();
+  // Since the write node has no output we simply run the plan to completion and the
+  // data should be written
+  ARROW_RETURN_NOT_OK(cp::DeclarationToStatus(std::move(write)));
+
+  std::cout << "Dataset written to " << base_path << std::endl;
   return arrow::Status::OK();
 }
 
@@ -809,41 +701,23 @@ arrow::Status ScanFilterWriteExample(cp::ExecContext& exec_context,
 // (Doc section: Union Example)
 
 /// \brief An example showing a union node
-/// \param exec_context The execution context to run the plan in
 ///
-/// Source-Union-Sink
+/// Source-Union-Table
 /// This example shows how a union operation can be applied on two
-/// data sources. The output is obtained as a table via the sink
-/// node.
-arrow::Status SourceUnionSinkExample(cp::ExecContext& exec_context) {
+/// data sources. The output is collected into a table.
+arrow::Status SourceUnionSinkExample() {
   ARROW_ASSIGN_OR_RAISE(auto basic_data, MakeBasicBatches());
 
-  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen;
-
-  cp::Declaration union_node{"union", cp::ExecNodeOptions{}};
   cp::Declaration lhs{"source",
                       cp::SourceNodeOptions{basic_data.schema, basic_data.gen()}};
   lhs.label = "lhs";
   cp::Declaration rhs{"source",
                       cp::SourceNodeOptions{basic_data.schema, basic_data.gen()}};
   rhs.label = "rhs";
-  union_node.inputs.emplace_back(lhs);
-  union_node.inputs.emplace_back(rhs);
-
-  cp::CountOptions options(cp::CountOptions::ONLY_VALID);
-  ARROW_ASSIGN_OR_RAISE(
-      auto declr, cp::Declaration::Sequence({
-                                                union_node,
-                                                {"sink", cp::SinkNodeOptions{&sink_gen}},
-                                            })
-                      .AddToPlan(plan.get()));
+  cp::Declaration union_plan{
+      "union", {std::move(lhs), std::move(rhs)}, cp::ExecNodeOptions{}};
 
-  ARROW_RETURN_NOT_OK(declr->Validate());
-
-  ARROW_RETURN_NOT_OK(plan->Validate());
-  return ExecutePlanAndCollectAsTable(exec_context, plan, basic_data.schema, sink_gen);
+  return ExecutePlanAndCollectAsTable(std::move(union_plan));
 }
 
 // (Doc section: Union Example)
@@ -851,16 +725,15 @@ arrow::Status SourceUnionSinkExample(cp::ExecContext& exec_context) {
 // (Doc section: Table Sink Example)
 
 /// \brief An example showing a table sink node
-/// \param exec_context The execution context to run the plan in
 ///
 /// TableSink Example
 /// This example shows how a table_sink can be used
 /// in an execution plan. This includes a source node
 /// receiving data as batches and the table sink node
 /// which emits the output as a table.
-arrow::Status TableSinkExample(cp::ExecContext& exec_context) {
+arrow::Status TableSinkExample() {
   ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
+                        cp::ExecPlan::Make(*cp::threaded_exec_context()));
 
   ARROW_ASSIGN_OR_RAISE(auto basic_data, MakeBasicBatches());
 
@@ -886,8 +759,29 @@ arrow::Status TableSinkExample(cp::ExecContext& exec_context) {
   std::cout << "Results : " << output_table->ToString() << std::endl;
   return arrow::Status::OK();
 }
+
 // (Doc section: Table Sink Example)
 
+// (Doc section: RecordBatchReaderSource Example)
+
+/// \brief An example showing the usage of a RecordBatchReader as the data source.
+///
+/// RecordBatchReaderSourceSink Example
+/// This example shows how a record_batch_reader_source can be used
+/// in an execution plan. This includes the source node
+/// receiving data from a TableRecordBatchReader.
+
+arrow::Status RecordBatchReaderSourceSinkExample() {
+  ARROW_ASSIGN_OR_RAISE(auto table, GetTable());
+  std::shared_ptr<arrow::RecordBatchReader> reader =
+      std::make_shared<arrow::TableBatchReader>(table);
+  cp::Declaration reader_source{"record_batch_reader_source",
+                                cp::RecordBatchReaderSourceNodeOptions{reader}};
+  return ExecutePlanAndCollectAsTable(std::move(reader_source));
+}
+
+// (Doc section: RecordBatchReaderSource Example)
+
 enum ExampleMode {
   SOURCE_SINK = 0,
   TABLE_SOURCE_SINK = 1,
@@ -902,11 +796,12 @@ enum ExampleMode {
   KSELECT = 10,
   WRITE = 11,
   UNION = 12,
-  TABLE_SOURCE_TABLE_SINK = 13
+  TABLE_SOURCE_TABLE_SINK = 13,
+  RECORD_BATCH_READER_SOURCE = 14
 };
 
 int main(int argc, char** argv) {
-  if (argc < 2) {
+  if (argc < 3) {
     // Fake success for CI purposes.
     return EXIT_SUCCESS;
   }
@@ -916,64 +811,66 @@ int main(int argc, char** argv) {
   arrow::Status status;
   // ensure arrow::dataset node factories are in the registry
   arrow::dataset::internal::Initialize();
-  // execution context
-  cp::ExecContext exec_context;
   switch (mode) {
     case SOURCE_SINK:
       PrintBlock("Source Sink Example");
-      status = SourceSinkExample(exec_context);
+      status = SourceSinkExample();
       break;
     case TABLE_SOURCE_SINK:
       PrintBlock("Table Source Sink Example");
-      status = TableSourceSinkExample(exec_context);
+      status = TableSourceSinkExample();
       break;
     case SCAN:
       PrintBlock("Scan Example");
-      status = ScanSinkExample(exec_context);
+      status = ScanSinkExample();
       break;
     case FILTER:
       PrintBlock("Filter Example");
-      status = ScanFilterSinkExample(exec_context);
+      status = ScanFilterSinkExample();
       break;
     case PROJECT:
       PrintBlock("Project Example");
-      status = ScanProjectSinkExample(exec_context);
+      status = ScanProjectSinkExample();
       break;
     case GROUP_AGGREGATION:
       PrintBlock("Aggregate Example");
-      status = SourceGroupAggregateSinkExample(exec_context);
+      status = SourceGroupAggregateSinkExample();
       break;
     case SCALAR_AGGREGATION:
       PrintBlock("Aggregate Example");
-      status = SourceScalarAggregateSinkExample(exec_context);
+      status = SourceScalarAggregateSinkExample();
       break;
     case CONSUMING_SINK:
       PrintBlock("Consuming-Sink Example");
-      status = SourceConsumingSinkExample(exec_context);
+      status = SourceConsumingSinkExample();
       break;
     case ORDER_BY_SINK:
       PrintBlock("OrderBy Example");
-      status = SourceOrderBySinkExample(exec_context);
+      status = SourceOrderBySinkExample();
       break;
     case HASHJOIN:
       PrintBlock("HashJoin Example");
-      status = SourceHashJoinSinkExample(exec_context);
+      status = SourceHashJoinSinkExample();
       break;
     case KSELECT:
       PrintBlock("KSelect Example");
-      status = SourceKSelectExample(exec_context);
+      status = SourceKSelectExample();
       break;
     case WRITE:
       PrintBlock("Write Example");
-      status = ScanFilterWriteExample(exec_context, base_save_path);
+      status = ScanFilterWriteExample(base_save_path);
       break;
     case UNION:
       PrintBlock("Union Example");
-      status = SourceUnionSinkExample(exec_context);
+      status = SourceUnionSinkExample();
       break;
     case TABLE_SOURCE_TABLE_SINK:
       PrintBlock("TableSink Example");
-      status = TableSinkExample(exec_context);
+      status = TableSinkExample();
+      break;
+    case RECORD_BATCH_READER_SOURCE:
+      PrintBlock("RecordBatchReaderSource Example");
+      status = RecordBatchReaderSourceSinkExample();
       break;
     default:
       break;
diff --git a/cpp/examples/arrow/gandiva_example.cc b/cpp/examples/arrow/gandiva_example.cc
new file mode 100644
index 00000000000..fb571a7c5a7
--- /dev/null
+++ b/cpp/examples/arrow/gandiva_example.cc
@@ -0,0 +1,139 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements. See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership. The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License. You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied. See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "arrow/api.h"
+#include "arrow/compute/api_vector.h"
+#include "arrow/status.h"
+
+#include "gandiva/filter.h"
+#include "gandiva/projector.h"
+#include "gandiva/selection_vector.h"
+#include "gandiva/tree_expr_builder.h"
+
+#include <iostream>
+
+using arrow::Datum;
+using arrow::Status;
+using arrow::compute::TakeOptions;
+using gandiva::Condition;
+using gandiva::ConfigurationBuilder;
+using gandiva::Expression;
+using gandiva::Filter;
+using gandiva::Node;
+using gandiva::Projector;
+using gandiva::SelectionVector;
+using gandiva::TreeExprBuilder;
+
+Status Example() {
+  //(Doc section: Create expressions)
+  std::shared_ptr<arrow::Field> field_x_raw = arrow::field("x", arrow::int32());
+  std::shared_ptr<Node> field_x = TreeExprBuilder::MakeField(field_x_raw);
+  std::shared_ptr<Node> literal_3 = TreeExprBuilder::MakeLiteral(3);
+  std::shared_ptr<arrow::Field> field_result = arrow::field("result", arrow::int32());
+
+  std::shared_ptr<Node> add_node =
+      TreeExprBuilder::MakeFunction("add", {field_x, literal_3}, arrow::int32());
+  std::shared_ptr<Expression> expression =
+      TreeExprBuilder::MakeExpression(add_node, field_result);
+
+  std::shared_ptr<Node> less_than_node =
+      TreeExprBuilder::MakeFunction("less_than", {field_x, literal_3}, arrow::boolean());
+  std::shared_ptr<Condition> condition = TreeExprBuilder::MakeCondition(less_than_node);
+  //(Doc section: Create expressions)
+
+  //(Doc section: Create projector and filter)
+  std::shared_ptr<arrow::Schema> input_schema = arrow::schema({field_x_raw});
+  std::shared_ptr<arrow::Schema> output_schema = arrow::schema({field_result});
+  std::shared_ptr<Projector> projector;
+  Status status;
+  std::vector<std::shared_ptr<Expression>> expressions = {expression};
+  status = Projector::Make(input_schema, expressions, &projector);
+  ARROW_RETURN_NOT_OK(status);
+
+  std::shared_ptr<Filter> filter;
+  status = Filter::Make(input_schema, condition, &filter);
+  ARROW_RETURN_NOT_OK(status);
+  //(Doc section: Create projector and filter)
+
+  //(Doc section: Evaluate projection)
+  auto pool = arrow::default_memory_pool();
+  int num_records = 4;
+  arrow::Int32Builder builder;
+  int32_t values[4] = {1, 2, 3, 4};
+  ARROW_RETURN_NOT_OK(builder.AppendValues(values, 4));
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::Array> array, builder.Finish());
+  auto in_batch = arrow::RecordBatch::Make(input_schema, num_records, {array});
+
+  arrow::ArrayVector outputs;
+  status = projector->Evaluate(*in_batch, pool, &outputs);
+  ARROW_RETURN_NOT_OK(status);
+  std::shared_ptr<arrow::RecordBatch> result =
+      arrow::RecordBatch::Make(output_schema, outputs[0]->length(), outputs);
+  //(Doc section: Evaluate projection)
+
+  std::cout << "Project result:" << std::endl;
+  std::cout << result->ToString() << std::endl;
+
+  //(Doc section: Evaluate filter)
+  std::shared_ptr<gandiva::SelectionVector> result_indices;
+  // Use 16-bit integers for indices. Result can be no longer than input size,
+  // so use batch num_rows as max_slots.
+  status = gandiva::SelectionVector::MakeInt16(/*max_slots=*/in_batch->num_rows(), pool,
+                                               &result_indices);
+  ARROW_RETURN_NOT_OK(status);
+  status = filter->Evaluate(*in_batch, result_indices);
+  ARROW_RETURN_NOT_OK(status);
+  std::shared_ptr<arrow::Array> take_indices = result_indices->ToArray();
+  Datum maybe_batch;
+  ARROW_ASSIGN_OR_RAISE(maybe_batch,
+                        arrow::compute::Take(Datum(in_batch), Datum(take_indices),
+                                             TakeOptions::NoBoundsCheck()));
+  result = maybe_batch.record_batch();
+  //(Doc section: Evaluate filter)
+
+  std::cout << "Filter result:" << std::endl;
+  std::cout << result->ToString() << std::endl;
+
+  //(Doc section: Evaluate filter and projection)
+  // Make sure the projector is compiled for the appropriate selection vector mode
+  status = Projector::Make(input_schema, expressions, result_indices->GetMode(),
+                           ConfigurationBuilder::DefaultConfiguration(), &projector);
+  ARROW_RETURN_NOT_OK(status);
+
+  arrow::ArrayVector outputs_filtered;
+  status = projector->Evaluate(*in_batch, result_indices.get(), pool, &outputs_filtered);
+  ARROW_RETURN_NOT_OK(status);
+
+  result =
+      arrow::RecordBatch::Make(output_schema, outputs[0]->length(), outputs_filtered);
+  //(Doc section: Evaluate filter and projection)
+
+  std::cout << "Project + filter result:" << std::endl;
+  std::cout << result->ToString() << std::endl;
+
+  return Status::OK();
+}
+
+int main(int argc, char** argv) {
+  arrow::Status status = Example();
+
+  if (!status.ok()) {
+    std::cerr << "Error occurred: " << status.message() << std::endl;
+    return EXIT_FAILURE;
+  }
+  return EXIT_SUCCESS;
+}
diff --git a/cpp/examples/arrow/join_example.cc b/cpp/examples/arrow/join_example.cc
index e531bfbfbf9..eb7a8678a6e 100644
--- a/cpp/examples/arrow/join_example.cc
+++ b/cpp/examples/arrow/join_example.cc
@@ -63,7 +63,7 @@ arrow::Result<std::shared_ptr<arrow::dataset::Dataset>> CreateDataSetFromCSVData
   std::shared_ptr<arrow::io::InputStream> input;
   std::string csv_data = is_left ? kLeftRelationCsvData : kRightRelationCsvData;
   std::cout << csv_data << std::endl;
-  arrow::util::string_view sv = csv_data;
+  std::string_view sv = csv_data;
   input = std::make_shared<arrow::io::BufferReader>(sv);
   auto read_options = arrow::csv::ReadOptions::Defaults();
   auto parse_options = arrow::csv::ParseOptions::Defaults();
@@ -82,18 +82,8 @@ arrow::Result<std::shared_ptr<arrow::dataset::Dataset>> CreateDataSetFromCSVData
 }
 
 arrow::Status DoHashJoin() {
-  cp::ExecContext exec_context;
-
   arrow::dataset::internal::Initialize();
 
-  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<cp::ExecPlan> plan,
-                        cp::ExecPlan::Make(&exec_context));
-
-  arrow::AsyncGenerator<arrow::util::optional<cp::ExecBatch>> sink_gen;
-
-  cp::ExecNode* left_source;
-  cp::ExecNode* right_source;
-
   ARROW_ASSIGN_OR_RAISE(auto l_dataset, CreateDataSetFromCSVData(true));
   ARROW_ASSIGN_OR_RAISE(auto r_dataset, CreateDataSetFromCSVData(false));
 
@@ -111,10 +101,8 @@ arrow::Status DoHashJoin() {
   auto l_scan_node_options = arrow::dataset::ScanNodeOptions{l_dataset, l_options};
   auto r_scan_node_options = arrow::dataset::ScanNodeOptions{r_dataset, r_options};
 
-  ARROW_ASSIGN_OR_RAISE(left_source,
-                        cp::MakeExecNode("scan", plan.get(), {}, l_scan_node_options));
-  ARROW_ASSIGN_OR_RAISE(right_source,
-                        cp::MakeExecNode("scan", plan.get(), {}, r_scan_node_options));
+  arrow::compute::Declaration left{"scan", std::move(l_scan_node_options)};
+  arrow::compute::Declaration right{"scan", std::move(r_scan_node_options)};
 
   arrow::compute::HashJoinNodeOptions join_opts{arrow::compute::JoinType::INNER,
                                                 /*in_left_keys=*/{"lkey"},
@@ -123,26 +111,12 @@ arrow::Status DoHashJoin() {
                                                 /*output_suffix_for_left*/ "_l",
                                                 /*output_suffix_for_right*/ "_r"};
 
-  ARROW_ASSIGN_OR_RAISE(
-      auto hashjoin,
-      cp::MakeExecNode("hashjoin", plan.get(), {left_source, right_source}, join_opts));
+  arrow::compute::Declaration hashjoin{
+      "hashjoin", {std::move(left), std::move(right)}, join_opts};
 
-  ARROW_ASSIGN_OR_RAISE(std::ignore, cp::MakeExecNode("sink", plan.get(), {hashjoin},
-                                                      cp::SinkNodeOptions{&sink_gen}));
   // expected columns l_a, l_b
-  std::shared_ptr<arrow::RecordBatchReader> sink_reader = cp::MakeGeneratorReader(
-      hashjoin->output_schema(), std::move(sink_gen), exec_context.memory_pool());
-
-  // validate the ExecPlan
-  ARROW_RETURN_NOT_OK(plan->Validate());
-  // start the ExecPlan
-  ARROW_RETURN_NOT_OK(plan->StartProducing());
-
-  // collect sink_reader into a Table
-  std::shared_ptr<arrow::Table> response_table;
-
-  ARROW_ASSIGN_OR_RAISE(response_table,
-                        arrow::Table::FromRecordBatchReader(sink_reader.get()));
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::Table> response_table,
+                        arrow::compute::DeclarationToTable(std::move(hashjoin)));
 
   std::cout << "Results : " << response_table->ToString() << std::endl;
 
diff --git a/cpp/examples/arrow/parquet_read_write.cc b/cpp/examples/arrow/parquet_read_write.cc
new file mode 100644
index 00000000000..3b8b4c2212b
--- /dev/null
+++ b/cpp/examples/arrow/parquet_read_write.cc
@@ -0,0 +1,190 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements. See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership. The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License. You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied. See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "arrow/api.h"
+#include "arrow/io/api.h"
+#include "arrow/result.h"
+#include "arrow/util/type_fwd.h"
+#include "parquet/arrow/reader.h"
+#include "parquet/arrow/writer.h"
+
+#include <iostream>
+
+arrow::Status ReadFullFile(std::string path_to_file) {
+  // #include "arrow/io/api.h"
+  // #include "arrow/parquet/arrow/reader.h"
+
+  arrow::MemoryPool* pool = arrow::default_memory_pool();
+  std::shared_ptr<arrow::io::RandomAccessFile> input;
+  ARROW_ASSIGN_OR_RAISE(input, arrow::io::ReadableFile::Open(path_to_file));
+
+  // Open Parquet file reader
+  std::unique_ptr<parquet::arrow::FileReader> arrow_reader;
+  ARROW_RETURN_NOT_OK(parquet::arrow::OpenFile(input, pool, &arrow_reader));
+
+  // Read entire file as a single Arrow table
+  std::shared_ptr<arrow::Table> table;
+  ARROW_RETURN_NOT_OK(arrow_reader->ReadTable(&table));
+  return arrow::Status::OK();
+}
+
+arrow::Status ReadInBatches(std::string path_to_file) {
+  // #include "arrow/io/api.h"
+  // #include "arrow/parquet/arrow/reader.h"
+
+  arrow::MemoryPool* pool = arrow::default_memory_pool();
+
+  // Configure general Parquet reader settings
+  auto reader_properties = parquet::ReaderProperties(pool);
+  reader_properties.set_buffer_size(4096 * 4);
+  reader_properties.enable_buffered_stream();
+
+  // Configure Arrow-specific Parquet reader settings
+  auto arrow_reader_props = parquet::ArrowReaderProperties();
+  arrow_reader_props.set_batch_size(128 * 1024);  // default 64 * 1024
+
+  parquet::arrow::FileReaderBuilder reader_builder;
+  ARROW_RETURN_NOT_OK(
+      reader_builder.OpenFile(path_to_file, /*memory_map=*/false, reader_properties));
+  reader_builder.memory_pool(pool);
+  reader_builder.properties(arrow_reader_props);
+
+  std::unique_ptr<parquet::arrow::FileReader> arrow_reader;
+  ARROW_ASSIGN_OR_RAISE(arrow_reader, reader_builder.Build());
+
+  std::shared_ptr<::arrow::RecordBatchReader> rb_reader;
+  ARROW_RETURN_NOT_OK(arrow_reader->GetRecordBatchReader(&rb_reader));
+
+  for (arrow::Result<std::shared_ptr<arrow::RecordBatch>> maybe_batch : *rb_reader) {
+    // Operate on each batch...
+  }
+  return arrow::Status::OK();
+}
+
+arrow::Result<std::shared_ptr<arrow::Table>> GetTable() {
+  auto builder = arrow::Int32Builder();
+
+  std::shared_ptr<arrow::Array> arr_x;
+  ARROW_RETURN_NOT_OK(builder.AppendValues({1, 3, 5, 7, 1}));
+  ARROW_RETURN_NOT_OK(builder.Finish(&arr_x));
+
+  std::shared_ptr<arrow::Array> arr_y;
+  ARROW_RETURN_NOT_OK(builder.AppendValues({2, 4, 6, 8, 10}));
+  ARROW_RETURN_NOT_OK(builder.Finish(&arr_y));
+
+  auto schema = arrow::schema(
+      {arrow::field("x", arrow::int32()), arrow::field("y", arrow::int32())});
+
+  return arrow::Table::Make(schema, {arr_x, arr_y});
+}
+
+arrow::Result<std::shared_ptr<arrow::TableBatchReader>> GetRBR() {
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::Table> table, GetTable());
+  auto reader = std::make_shared<arrow::TableBatchReader>(table);
+  reader->set_chunksize(10);
+  return reader;
+}
+
+arrow::Status WriteFullFile(std::string path_to_file) {
+  // #include "parquet/arrow/writer.h"
+  // #include "arrow/util/type_fwd.h"
+  using parquet::ArrowWriterProperties;
+  using parquet::WriterProperties;
+
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::Table> table, GetTable());
+
+  // Choose compression
+  std::shared_ptr<WriterProperties> props =
+      WriterProperties::Builder().compression(arrow::Compression::SNAPPY)->build();
+
+  // Opt to store Arrow schema for easier reads back into Arrow
+  std::shared_ptr<ArrowWriterProperties> arrow_props =
+      ArrowWriterProperties::Builder().store_schema()->build();
+
+  std::shared_ptr<arrow::io::FileOutputStream> outfile;
+  ARROW_ASSIGN_OR_RAISE(outfile, arrow::io::FileOutputStream::Open(path_to_file));
+
+  ARROW_RETURN_NOT_OK(parquet::arrow::WriteTable(*table.get(),
+                                                 arrow::default_memory_pool(), outfile,
+                                                 /*chunk_size=*/3, props, arrow_props));
+  return arrow::Status::OK();
+}
+
+arrow::Status WriteInBatches(std::string path_to_file) {
+  // #include "parquet/arrow/writer.h"
+  // #include "arrow/util/type_fwd.h"
+  using parquet::ArrowWriterProperties;
+  using parquet::WriterProperties;
+
+  // Data is in RBR
+  std::shared_ptr<arrow::RecordBatchReader> batch_stream;
+  ARROW_ASSIGN_OR_RAISE(batch_stream, GetRBR());
+
+  // Choose compression
+  std::shared_ptr<WriterProperties> props =
+      WriterProperties::Builder().compression(arrow::Compression::SNAPPY)->build();
+
+  // Opt to store Arrow schema for easier reads back into Arrow
+  std::shared_ptr<ArrowWriterProperties> arrow_props =
+      ArrowWriterProperties::Builder().store_schema()->build();
+
+  // Create a writer
+  std::shared_ptr<arrow::io::FileOutputStream> outfile;
+  ARROW_ASSIGN_OR_RAISE(outfile, arrow::io::FileOutputStream::Open(path_to_file));
+  std::unique_ptr<parquet::arrow::FileWriter> writer;
+  ARROW_ASSIGN_OR_RAISE(
+      writer, parquet::arrow::FileWriter::Open(*batch_stream->schema().get(),
+                                               arrow::default_memory_pool(), outfile,
+                                               props, arrow_props));
+
+  // Write each batch as a row_group
+  for (arrow::Result<std::shared_ptr<arrow::RecordBatch>> maybe_batch : *batch_stream) {
+    ARROW_ASSIGN_OR_RAISE(auto batch, maybe_batch);
+    ARROW_ASSIGN_OR_RAISE(auto table,
+                          arrow::Table::FromRecordBatches(batch->schema(), {batch}));
+    ARROW_RETURN_NOT_OK(writer->WriteTable(*table.get(), batch->num_rows()));
+  }
+
+  // Write file footer and close
+  ARROW_RETURN_NOT_OK(writer->Close());
+
+  return arrow::Status::OK();
+}
+
+arrow::Status RunExamples(std::string path_to_file) {
+  ARROW_RETURN_NOT_OK(WriteFullFile(path_to_file));
+  ARROW_RETURN_NOT_OK(ReadFullFile(path_to_file));
+  ARROW_RETURN_NOT_OK(WriteInBatches(path_to_file));
+  ARROW_RETURN_NOT_OK(ReadInBatches(path_to_file));
+  return arrow::Status::OK();
+}
+
+int main(int argc, char** argv) {
+  if (argc != 2) {
+    // Fake success for CI purposes.
+    return EXIT_SUCCESS;
+  }
+
+  std::string path_to_file = argv[1];
+  arrow::Status status = RunExamples(path_to_file);
+
+  if (!status.ok()) {
+    std::cerr << "Error occurred: " << status.message() << std::endl;
+    return EXIT_FAILURE;
+  }
+  return EXIT_SUCCESS;
+}
diff --git a/cpp/examples/arrow/rapidjson_row_converter.cc b/cpp/examples/arrow/rapidjson_row_converter.cc
index defa6de4610..3907e72121c 100644
--- a/cpp/examples/arrow/rapidjson_row_converter.cc
+++ b/cpp/examples/arrow/rapidjson_row_converter.cc
@@ -97,7 +97,7 @@ class RowBatchBuilder {
     for (int64_t i = 0; i < array.length(); ++i) {
       if (!array.IsNull(i)) {
         rapidjson::Value str_key(field_->name(), rows_[i].GetAllocator());
-        arrow::util::string_view value_view = array.Value(i);
+        std::string_view value_view = array.Value(i);
         rapidjson::Value value;
         value.SetString(value_view.data(),
                         static_cast<rapidjson::SizeType>(value_view.size()),
diff --git a/cpp/examples/minimal_build/CMakeLists.txt b/cpp/examples/minimal_build/CMakeLists.txt
index 420a7666f35..b98f725a4a4 100644
--- a/cpp/examples/minimal_build/CMakeLists.txt
+++ b/cpp/examples/minimal_build/CMakeLists.txt
@@ -24,10 +24,10 @@ option(ARROW_LINK_SHARED "Link to the Arrow shared library" ON)
 find_package(Arrow REQUIRED)
 
 if(NOT DEFINED CMAKE_CXX_STANDARD)
-  set(CMAKE_CXX_STANDARD 11)
+  set(CMAKE_CXX_STANDARD 17)
 endif()
 
-# We require a C++11 compliant compiler
+# We require a C++17 compliant compiler
 set(CMAKE_CXX_STANDARD_REQUIRED ON)
 
 if(NOT DEFINED CMAKE_BUILD_TYPE)
@@ -40,9 +40,7 @@ message(STATUS "Arrow SO version: ${ARROW_FULL_SO_VERSION}")
 add_executable(arrow-example example.cc)
 
 if(ARROW_LINK_SHARED)
-  target_link_libraries(arrow-example PRIVATE arrow_shared)
+  target_link_libraries(arrow-example PRIVATE Arrow::arrow_shared)
 else()
-  set(THREADS_PREFER_PTHREAD_FLAG ON)
-  find_package(Threads REQUIRED)
-  target_link_libraries(arrow-example PRIVATE arrow_static Threads::Threads)
+  target_link_libraries(arrow-example PRIVATE Arrow::arrow_static)
 endif()
diff --git a/cpp/examples/minimal_build/run_static.sh b/cpp/examples/minimal_build/run_static.sh
index cf2a9912f50..619811d09ac 100755
--- a/cpp/examples/minimal_build/run_static.sh
+++ b/cpp/examples/minimal_build/run_static.sh
@@ -102,7 +102,7 @@ echo
 
 rm -rf $EXAMPLE_BUILD_DIR
 mkdir -p $EXAMPLE_BUILD_DIR
-${CXX:-c++} \
+${CXX:-c++} -std=c++17 \
   -o $EXAMPLE_BUILD_DIR/arrow-example \
   $EXAMPLE_DIR/example.cc \
   $(PKG_CONFIG_PATH=$ARROW_BUILD_DIR/lib/pkgconfig \
diff --git a/cpp/examples/parquet/parquet_arrow/CMakeLists.txt b/cpp/examples/parquet/parquet_arrow/CMakeLists.txt
index 32f980060c9..84f9d16e408 100644
--- a/cpp/examples/parquet/parquet_arrow/CMakeLists.txt
+++ b/cpp/examples/parquet/parquet_arrow/CMakeLists.txt
@@ -24,19 +24,22 @@ include(ExternalProject)
 include(FindPkgConfig)
 include(GNUInstallDirs)
 
-set(CMAKE_MODULE_PATH ${CMAKE_MODULE_PATH} "${CMAKE_SOURCE_DIR}/cmake_modules")
+option(PARQUET_LINK_SHARED "Link to the Parquet shared library" ON)
 
-# This ensures that things like gnu++11 get passed correctly
+# This ensures that things like -std=gnu++... get passed correctly
 if(NOT DEFINED CMAKE_CXX_STANDARD)
-  set(CMAKE_CXX_STANDARD 11)
+  set(CMAKE_CXX_STANDARD 17)
 endif()
 
-# We require a C++11 compliant compiler
+# We require a C++17 compliant compiler
 set(CMAKE_CXX_STANDARD_REQUIRED ON)
 
 # Look for installed packages the system
-find_package(Arrow REQUIRED)
 find_package(Parquet REQUIRED)
 
 add_executable(parquet-arrow-example reader_writer.cc)
-target_link_libraries(parquet-arrow-example parquet_shared arrow_shared)
+if(PARQUET_LINK_SHARED)
+  target_link_libraries(parquet-arrow-example Parquet::parquet_shared)
+else()
+  target_link_libraries(parquet-arrow-example Parquet::parquet_static)
+endif()
diff --git a/cpp/examples/parquet/parquet_stream_api/stream_reader_writer.cc b/cpp/examples/parquet/parquet_stream_api/stream_reader_writer.cc
index 64ab7af4962..1f7246b7816 100644
--- a/cpp/examples/parquet/parquet_stream_api/stream_reader_writer.cc
+++ b/cpp/examples/parquet/parquet_stream_api/stream_reader_writer.cc
@@ -135,10 +135,10 @@ struct TestData {
     if (i % 2 == 0) return {};
     return "Str #" + std::to_string(i);
   }
-  static arrow::util::string_view GetStringView(const int i) {
+  static std::string_view GetStringView(const int i) {
     static std::string string;
     string = "StringView #" + std::to_string(i);
-    return arrow::util::string_view(string);
+    return std::string_view(string);
   }
   static const char* GetCharPtr(const int i) {
     static std::string string;
@@ -190,7 +190,7 @@ void WriteParquetFile() {
   os.SetMaxRowGroupSize(1000);
 
   for (auto i = 0; i < TestData::num_rows; ++i) {
-    // Output string using 3 different types: std::string, arrow::util::string_view and
+    // Output string using 3 different types: std::string, std::string_view and
     // const char *.
     switch (i % 3) {
       case 0:
diff --git a/cpp/examples/tutorial_examples/CMakeLists.txt b/cpp/examples/tutorial_examples/CMakeLists.txt
new file mode 100644
index 00000000000..ed399edbd60
--- /dev/null
+++ b/cpp/examples/tutorial_examples/CMakeLists.txt
@@ -0,0 +1,48 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+cmake_minimum_required(VERSION 3.0)
+
+project(ArrowTutorialExamples)
+
+find_package(Arrow REQUIRED)
+
+get_filename_component(ARROW_CONFIG_PATH ${Arrow_CONFIG} DIRECTORY)
+find_package(Parquet REQUIRED HINTS ${ARROW_CONFIG_PATH})
+find_package(ArrowDataset REQUIRED HINTS ${ARROW_CONFIG_PATH})
+
+set(CMAKE_CXX_STANDARD 17)
+set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -Werror -Wall -Wextra")
+
+set(CMAKE_BUILD_TYPE Release)
+
+message(STATUS "Arrow version: ${ARROW_VERSION}")
+message(STATUS "Arrow SO version: ${ARROW_FULL_SO_VERSION}")
+
+add_executable(arrow_example arrow_example.cc)
+target_link_libraries(arrow_example PRIVATE Arrow::arrow_shared)
+
+add_executable(file_access_example file_access_example.cc)
+target_link_libraries(file_access_example PRIVATE Arrow::arrow_shared
+                                                  Parquet::parquet_shared)
+
+add_executable(compute_example compute_example.cc)
+target_link_libraries(compute_example PRIVATE Arrow::arrow_shared)
+
+add_executable(dataset_example dataset_example.cc)
+target_link_libraries(dataset_example PRIVATE Arrow::arrow_shared Parquet::parquet_shared
+                                              ArrowDataset::arrow_dataset_shared)
diff --git a/cpp/examples/tutorial_examples/arrow_example.cc b/cpp/examples/tutorial_examples/arrow_example.cc
new file mode 100644
index 00000000000..45994a46e10
--- /dev/null
+++ b/cpp/examples/tutorial_examples/arrow_example.cc
@@ -0,0 +1,163 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements. See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership. The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License. You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied. See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+// (Doc section: Basic Example)
+
+// (Doc section: Includes)
+#include <arrow/api.h>
+
+#include <iostream>
+// (Doc section: Includes)
+
+// (Doc section: RunMain Start)
+arrow::Status RunMain() {
+  // (Doc section: RunMain Start)
+  // (Doc section: int8builder 1 Append)
+  // Builders are the main way to create Arrays in Arrow from existing values that are not
+  // on-disk. In this case, we'll make a simple array, and feed that in.
+  // Data types are important as ever, and there is a Builder for each compatible type;
+  // in this case, int8.
+  arrow::Int8Builder int8builder;
+  int8_t days_raw[5] = {1, 12, 17, 23, 28};
+  // AppendValues, as called, puts 5 values from days_raw into our Builder object.
+  ARROW_RETURN_NOT_OK(int8builder.AppendValues(days_raw, 5));
+  // (Doc section: int8builder 1 Append)
+
+  // (Doc section: int8builder 1 Finish)
+  // We only have a Builder though, not an Array -- the following code pushes out the
+  // built up data into a proper Array.
+  std::shared_ptr<arrow::Array> days;
+  ARROW_ASSIGN_OR_RAISE(days, int8builder.Finish());
+  // (Doc section: int8builder 1 Finish)
+
+  // (Doc section: int8builder 2)
+  // Builders clear their state every time they fill an Array, so if the type is the same,
+  // we can re-use the builder. We do that here for month values.
+  int8_t months_raw[5] = {1, 3, 5, 7, 1};
+  ARROW_RETURN_NOT_OK(int8builder.AppendValues(months_raw, 5));
+  std::shared_ptr<arrow::Array> months;
+  ARROW_ASSIGN_OR_RAISE(months, int8builder.Finish());
+  // (Doc section: int8builder 2)
+
+  // (Doc section: int16builder)
+  // Now that we change to int16, we use the Builder for that data type instead.
+  arrow::Int16Builder int16builder;
+  int16_t years_raw[5] = {1990, 2000, 1995, 2000, 1995};
+  ARROW_RETURN_NOT_OK(int16builder.AppendValues(years_raw, 5));
+  std::shared_ptr<arrow::Array> years;
+  ARROW_ASSIGN_OR_RAISE(years, int16builder.Finish());
+  // (Doc section: int16builder)
+
+  // (Doc section: Schema)
+  // Now, we want a RecordBatch, which has columns and labels for said columns.
+  // This gets us to the 2d data structures we want in Arrow.
+  // These are defined by schema, which have fields -- here we get both those object types
+  // ready.
+  std::shared_ptr<arrow::Field> field_day, field_month, field_year;
+  std::shared_ptr<arrow::Schema> schema;
+
+  // Every field needs its name and data type.
+  field_day = arrow::field("Day", arrow::int8());
+  field_month = arrow::field("Month", arrow::int8());
+  field_year = arrow::field("Year", arrow::int16());
+
+  // The schema can be built from a vector of fields, and we do so here.
+  schema = arrow::schema({field_day, field_month, field_year});
+  // (Doc section: Schema)
+
+  // (Doc section: RBatch)
+  // With the schema and Arrays full of data, we can make our RecordBatch! Here,
+  // each column is internally contiguous. This is in opposition to Tables, which we'll
+  // see next.
+  std::shared_ptr<arrow::RecordBatch> rbatch;
+  // The RecordBatch needs the schema, length for columns, which all must match,
+  // and the actual data itself.
+  rbatch = arrow::RecordBatch::Make(schema, days->length(), {days, months, years});
+
+  std::cout << rbatch->ToString();
+  // (Doc section: RBatch)
+
+  // (Doc section: More Arrays)
+  // Now, let's get some new arrays! It'll be the same datatypes as above, so we re-use
+  // Builders.
+  int8_t days_raw2[5] = {6, 12, 3, 30, 22};
+  ARROW_RETURN_NOT_OK(int8builder.AppendValues(days_raw2, 5));
+  std::shared_ptr<arrow::Array> days2;
+  ARROW_ASSIGN_OR_RAISE(days2, int8builder.Finish());
+
+  int8_t months_raw2[5] = {5, 4, 11, 3, 2};
+  ARROW_RETURN_NOT_OK(int8builder.AppendValues(months_raw2, 5));
+  std::shared_ptr<arrow::Array> months2;
+  ARROW_ASSIGN_OR_RAISE(months2, int8builder.Finish());
+
+  int16_t years_raw2[5] = {1980, 2001, 1915, 2020, 1996};
+  ARROW_RETURN_NOT_OK(int16builder.AppendValues(years_raw2, 5));
+  std::shared_ptr<arrow::Array> years2;
+  ARROW_ASSIGN_OR_RAISE(years2, int16builder.Finish());
+  // (Doc section: More Arrays)
+
+  // (Doc section: ArrayVector)
+  // ChunkedArrays let us have a list of arrays, which aren't contiguous
+  // with each other. First, we get a vector of arrays.
+  arrow::ArrayVector day_vecs{days, days2};
+  // (Doc section: ArrayVector)
+  // (Doc section: ChunkedArray Day)
+  // Then, we use that to initialize a ChunkedArray, which can be used with other
+  // functions in Arrow! This is good, since having a normal vector of arrays wouldn't
+  // get us far.
+  std::shared_ptr<arrow::ChunkedArray> day_chunks =
+      std::make_shared<arrow::ChunkedArray>(day_vecs);
+  // (Doc section: ChunkedArray Day)
+
+  // (Doc section: ChunkedArray Month Year)
+  // Repeat for months.
+  arrow::ArrayVector month_vecs{months, months2};
+  std::shared_ptr<arrow::ChunkedArray> month_chunks =
+      std::make_shared<arrow::ChunkedArray>(month_vecs);
+
+  // Repeat for years.
+  arrow::ArrayVector year_vecs{years, years2};
+  std::shared_ptr<arrow::ChunkedArray> year_chunks =
+      std::make_shared<arrow::ChunkedArray>(year_vecs);
+  // (Doc section: ChunkedArray Month Year)
+
+  // (Doc section: Table)
+  // A Table is the structure we need for these non-contiguous columns, and keeps them
+  // all in one place for us so we can use them as if they were normal arrays.
+  std::shared_ptr<arrow::Table> table;
+  table = arrow::Table::Make(schema, {day_chunks, month_chunks, year_chunks}, 10);
+
+  std::cout << table->ToString();
+  // (Doc section: Table)
+
+  // (Doc section: Ret)
+  return arrow::Status::OK();
+}
+// (Doc section: Ret)
+
+// (Doc section: Main)
+int main() {
+  arrow::Status st = RunMain();
+  if (!st.ok()) {
+    std::cerr << st << std::endl;
+    return 1;
+  }
+  return 0;
+}
+
+// (Doc section: Main)
+// (Doc section: Basic Example)
diff --git a/cpp/examples/tutorial_examples/build_arrow.sh b/cpp/examples/tutorial_examples/build_arrow.sh
new file mode 100755
index 00000000000..ec72a288c7b
--- /dev/null
+++ b/cpp/examples/tutorial_examples/build_arrow.sh
@@ -0,0 +1,38 @@
+#!/usr/bin/env bash
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+set -ex
+
+NPROC=$(nproc)
+
+mkdir -p $ARROW_BUILD_DIR
+pushd $ARROW_BUILD_DIR
+
+# Enable the CSV reader as it's used by the example third-party build
+cmake /arrow/cpp \
+    -DARROW_CSV=ON \
+    -DARROW_DATASET=ON \
+    -DARROW_FILESYSTEM=ON \
+    -DARROW_PARQUET=ON \
+    -DARROW_JEMALLOC=OFF \
+    $ARROW_CMAKE_OPTIONS
+
+make -j$NPROC
+make install
+
+popd
diff --git a/cpp/src/arrow/python/arrow-python-flight.pc.in b/cpp/examples/tutorial_examples/build_example.sh
old mode 100644
new mode 100755
similarity index 72%
rename from cpp/src/arrow/python/arrow-python-flight.pc.in
rename to cpp/examples/tutorial_examples/build_example.sh
index a98ad1fbf6c..a315755a597
--- a/cpp/src/arrow/python/arrow-python-flight.pc.in
+++ b/cpp/examples/tutorial_examples/build_example.sh
@@ -1,3 +1,4 @@
+#!/usr/bin/env bash
 # Licensed to the Apache Software Foundation (ASF) under one
 # or more contributor license agreements.  See the NOTICE file
 # distributed with this work for additional information
@@ -15,12 +16,12 @@
 # specific language governing permissions and limitations
 # under the License.
 
-prefix=@CMAKE_INSTALL_PREFIX@
-includedir=@ARROW_PKG_CONFIG_INCLUDEDIR@
-libdir=@ARROW_PKG_CONFIG_LIBDIR@
+set -ex
 
-Name: Apache Arrow Python Flight
-Description: Python integration library for Apache Arrow Flight
-Version: @ARROW_VERSION@
-Requires: arrow-python arrow-flight
-Libs: -L${libdir} -larrow_python_flight
+mkdir -p $EXAMPLE_BUILD_DIR
+pushd $EXAMPLE_BUILD_DIR
+
+cmake /io
+make
+
+popd
diff --git a/cpp/examples/tutorial_examples/compute_example.cc b/cpp/examples/tutorial_examples/compute_example.cc
new file mode 100644
index 00000000000..3a65214c0ef
--- /dev/null
+++ b/cpp/examples/tutorial_examples/compute_example.cc
@@ -0,0 +1,138 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements. See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership. The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License. You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied. See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+// (Doc section: Compute Example)
+
+// (Doc section: Includes)
+#include <arrow/api.h>
+#include <arrow/compute/api.h>
+
+#include <iostream>
+// (Doc section: Includes)
+
+// (Doc section: RunMain)
+arrow::Status RunMain() {
+  // (Doc section: RunMain)
+  // (Doc section: Create Tables)
+  // Create a couple 32-bit integer arrays.
+  arrow::Int32Builder int32builder;
+  int32_t some_nums_raw[5] = {34, 624, 2223, 5654, 4356};
+  ARROW_RETURN_NOT_OK(int32builder.AppendValues(some_nums_raw, 5));
+  std::shared_ptr<arrow::Array> some_nums;
+  ARROW_ASSIGN_OR_RAISE(some_nums, int32builder.Finish());
+
+  int32_t more_nums_raw[5] = {75342, 23, 64, 17, 736};
+  ARROW_RETURN_NOT_OK(int32builder.AppendValues(more_nums_raw, 5));
+  std::shared_ptr<arrow::Array> more_nums;
+  ARROW_ASSIGN_OR_RAISE(more_nums, int32builder.Finish());
+
+  // Make a table out of our pair of arrays.
+  std::shared_ptr<arrow::Field> field_a, field_b;
+  std::shared_ptr<arrow::Schema> schema;
+
+  field_a = arrow::field("A", arrow::int32());
+  field_b = arrow::field("B", arrow::int32());
+
+  schema = arrow::schema({field_a, field_b});
+
+  std::shared_ptr<arrow::Table> table;
+  table = arrow::Table::Make(schema, {some_nums, more_nums}, 5);
+  // (Doc section: Create Tables)
+
+  // (Doc section: Sum Datum Declaration)
+  // The Datum class is what all compute functions output to, and they can take Datums
+  // as inputs, as well.
+  arrow::Datum sum;
+  // (Doc section: Sum Datum Declaration)
+  // (Doc section: Sum Call)
+  // Here, we can use arrow::compute::Sum. This is a convenience function, and the next
+  // computation won't be so simple. However, using these where possible helps
+  // readability.
+  ARROW_ASSIGN_OR_RAISE(sum, arrow::compute::Sum({table->GetColumnByName("A")}));
+  // (Doc section: Sum Call)
+  // (Doc section: Sum Datum Type)
+  // Get the kind of Datum and what it holds -- this is a Scalar, with int64.
+  std::cout << "Datum kind: " << sum.ToString()
+            << " content type: " << sum.type()->ToString() << std::endl;
+  // (Doc section: Sum Datum Type)
+  // (Doc section: Sum Contents)
+  // Note that we explicitly request a scalar -- the Datum cannot simply give what it is,
+  // you must ask for the correct type.
+  std::cout << sum.scalar_as<arrow::Int64Scalar>().value << std::endl;
+  // (Doc section: Sum Contents)
+
+  // (Doc section: Add Datum Declaration)
+  arrow::Datum element_wise_sum;
+  // (Doc section: Add Datum Declaration)
+  // (Doc section: Add Call)
+  // Get element-wise sum of both columns A and B in our Table. Note that here we use
+  // CallFunction(), which takes the name of the function as the first argument.
+  ARROW_ASSIGN_OR_RAISE(element_wise_sum, arrow::compute::CallFunction(
+                                              "add", {table->GetColumnByName("A"),
+                                                      table->GetColumnByName("B")}));
+  // (Doc section: Add Call)
+  // (Doc section: Add Datum Type)
+  // Get the kind of Datum and what it holds -- this is a ChunkedArray, with int32.
+  std::cout << "Datum kind: " << element_wise_sum.ToString()
+            << " content type: " << element_wise_sum.type()->ToString() << std::endl;
+  // (Doc section: Add Datum Type)
+  // (Doc section: Add Contents)
+  // This time, we get a ChunkedArray, not a scalar.
+  std::cout << element_wise_sum.chunked_array()->ToString() << std::endl;
+  // (Doc section: Add Contents)
+
+  // (Doc section: Index Datum Declare)
+  // Use an options struct to set up searching for 2223 in column A (the third item).
+  arrow::Datum third_item;
+  // (Doc section: Index Datum Declare)
+  // (Doc section: IndexOptions Declare)
+  // An options struct is used in lieu of passing an arbitrary amount of arguments.
+  arrow::compute::IndexOptions index_options;
+  // (Doc section: IndexOptions Declare)
+  // (Doc section: IndexOptions Assign)
+  // We need an Arrow Scalar, not a raw value.
+  index_options.value = arrow::MakeScalar(2223);
+  // (Doc section: IndexOptions Assign)
+  // (Doc section: Index Call)
+  ARROW_ASSIGN_OR_RAISE(
+      third_item, arrow::compute::CallFunction("index", {table->GetColumnByName("A")},
+                                               &index_options));
+  // (Doc section: Index Call)
+  // (Doc section: Index Inspection)
+  // Get the kind of Datum and what it holds -- this is a Scalar, with int64
+  std::cout << "Datum kind: " << third_item.ToString()
+            << " content type: " << third_item.type()->ToString() << std::endl;
+  // We get a scalar -- the location of 2223 in column A, which is 2 in 0-based indexing.
+  std::cout << third_item.scalar_as<arrow::Int64Scalar>().value << std::endl;
+  // (Doc section: Index Inspection)
+  // (Doc section: Ret)
+  return arrow::Status::OK();
+}
+// (Doc section: Ret)
+
+// (Doc section: Main)
+int main() {
+  arrow::Status st = RunMain();
+  if (!st.ok()) {
+    std::cerr << st << std::endl;
+    return 1;
+  }
+  return 0;
+}
+// (Doc section: Main)
+
+// (Doc section: Compute Example)
diff --git a/cpp/examples/tutorial_examples/dataset_example.cc b/cpp/examples/tutorial_examples/dataset_example.cc
new file mode 100644
index 00000000000..005cdc324d0
--- /dev/null
+++ b/cpp/examples/tutorial_examples/dataset_example.cc
@@ -0,0 +1,244 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements. See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership. The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License. You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied. See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+// (Doc section: Dataset Example)
+
+// (Doc section: Includes)
+#include <arrow/api.h>
+#include <arrow/dataset/api.h>
+// We use Parquet headers for setting up examples; they are not required for using
+// datasets.
+#include <parquet/arrow/reader.h>
+#include <parquet/arrow/writer.h>
+
+#include <iostream>
+// (Doc section: Includes)
+
+// (Doc section: Helper Functions)
+// Generate some data for the rest of this example.
+arrow::Result<std::shared_ptr<arrow::Table>> CreateTable() {
+  // This code should look familiar from the basic Arrow example, and is not the
+  // focus of this example. However, we need data to work on it, and this makes that!
+  auto schema =
+      arrow::schema({arrow::field("a", arrow::int64()), arrow::field("b", arrow::int64()),
+                     arrow::field("c", arrow::int64())});
+  std::shared_ptr<arrow::Array> array_a;
+  std::shared_ptr<arrow::Array> array_b;
+  std::shared_ptr<arrow::Array> array_c;
+  arrow::NumericBuilder<arrow::Int64Type> builder;
+  ARROW_RETURN_NOT_OK(builder.AppendValues({0, 1, 2, 3, 4, 5, 6, 7, 8, 9}));
+  ARROW_RETURN_NOT_OK(builder.Finish(&array_a));
+  builder.Reset();
+  ARROW_RETURN_NOT_OK(builder.AppendValues({9, 8, 7, 6, 5, 4, 3, 2, 1, 0}));
+  ARROW_RETURN_NOT_OK(builder.Finish(&array_b));
+  builder.Reset();
+  ARROW_RETURN_NOT_OK(builder.AppendValues({1, 2, 1, 2, 1, 2, 1, 2, 1, 2}));
+  ARROW_RETURN_NOT_OK(builder.Finish(&array_c));
+  return arrow::Table::Make(schema, {array_a, array_b, array_c});
+}
+
+// Set up a dataset by writing two Parquet files.
+arrow::Result<std::string> CreateExampleParquetDataset(
+    const std::shared_ptr<arrow::fs::FileSystem>& filesystem,
+    const std::string& root_path) {
+  // Much like CreateTable(), this is utility that gets us the dataset we'll be reading
+  // from. Don't worry, we also write a dataset in the example proper.
+  auto base_path = root_path + "parquet_dataset";
+  ARROW_RETURN_NOT_OK(filesystem->CreateDir(base_path));
+  // Create an Arrow Table
+  ARROW_ASSIGN_OR_RAISE(auto table, CreateTable());
+  // Write it into two Parquet files
+  ARROW_ASSIGN_OR_RAISE(auto output,
+                        filesystem->OpenOutputStream(base_path + "/data1.parquet"));
+  ARROW_RETURN_NOT_OK(parquet::arrow::WriteTable(
+      *table->Slice(0, 5), arrow::default_memory_pool(), output, 2048));
+  ARROW_ASSIGN_OR_RAISE(output,
+                        filesystem->OpenOutputStream(base_path + "/data2.parquet"));
+  ARROW_RETURN_NOT_OK(parquet::arrow::WriteTable(
+      *table->Slice(5), arrow::default_memory_pool(), output, 2048));
+  return base_path;
+}
+
+arrow::Status PrepareEnv() {
+  // Get our environment prepared for reading, by setting up some quick writing.
+  ARROW_ASSIGN_OR_RAISE(auto src_table, CreateTable())
+  std::shared_ptr<arrow::fs::FileSystem> setup_fs;
+  // Note this operates in the directory the executable is built in.
+  char setup_path[256];
+  char* result = getcwd(setup_path, 256);
+  if (result == NULL) {
+    return arrow::Status::IOError("Fetching PWD failed.");
+  }
+
+  ARROW_ASSIGN_OR_RAISE(setup_fs, arrow::fs::FileSystemFromUriOrPath(setup_path));
+  ARROW_ASSIGN_OR_RAISE(auto dset_path, CreateExampleParquetDataset(setup_fs, ""));
+
+  return arrow::Status::OK();
+}
+// (Doc section: Helper Functions)
+
+// (Doc section: RunMain)
+arrow::Status RunMain() {
+  // (Doc section: RunMain)
+  // (Doc section: PrepareEnv)
+  ARROW_RETURN_NOT_OK(PrepareEnv());
+  // (Doc section: PrepareEnv)
+
+  // (Doc section: FileSystem Declare)
+  // First, we need a filesystem object, which lets us interact with our local
+  // filesystem starting at a given path. For the sake of simplicity, that'll be
+  // the current directory.
+  std::shared_ptr<arrow::fs::FileSystem> fs;
+  // (Doc section: FileSystem Declare)
+
+  // (Doc section: FileSystem Init)
+  // Get the CWD, use it to make the FileSystem object.
+  char init_path[256];
+  char* result = getcwd(init_path, 256);
+  if (result == NULL) {
+    return arrow::Status::IOError("Fetching PWD failed.");
+  }
+  ARROW_ASSIGN_OR_RAISE(fs, arrow::fs::FileSystemFromUriOrPath(init_path));
+  // (Doc section: FileSystem Init)
+
+  // (Doc section: FileSelector Declare)
+  // A file selector lets us actually traverse a multi-file dataset.
+  arrow::fs::FileSelector selector;
+  // (Doc section: FileSelector Declare)
+  // (Doc section: FileSelector Config)
+  selector.base_dir = "parquet_dataset";
+  // Recursive is a safe bet if you don't know the nesting of your dataset.
+  selector.recursive = true;
+  // (Doc section: FileSelector Config)
+  // (Doc section: FileSystemFactoryOptions)
+  // Making an options object lets us configure our dataset reading.
+  arrow::dataset::FileSystemFactoryOptions options;
+  // We'll use Hive-style partitioning. We'll let Arrow Datasets infer the partition
+  // schema. We won't set any other options, defaults are fine.
+  options.partitioning = arrow::dataset::HivePartitioning::MakeFactory();
+  // (Doc section: FileSystemFactoryOptions)
+  // (Doc section: File Format Setup)
+  auto read_format = std::make_shared<arrow::dataset::ParquetFileFormat>();
+  // (Doc section: File Format Setup)
+  // (Doc section: FileSystemDatasetFactory Make)
+  // Now, we get a factory that will let us get our dataset -- we don't have the
+  // dataset yet!
+  ARROW_ASSIGN_OR_RAISE(auto factory, arrow::dataset::FileSystemDatasetFactory::Make(
+                                          fs, selector, read_format, options));
+  // (Doc section: FileSystemDatasetFactory Make)
+  // (Doc section: FileSystemDatasetFactory Finish)
+  // Now we build our dataset from the factory.
+  ARROW_ASSIGN_OR_RAISE(auto read_dataset, factory->Finish());
+  // (Doc section: FileSystemDatasetFactory Finish)
+  // (Doc section: Dataset Fragments)
+  // Print out the fragments
+  ARROW_ASSIGN_OR_RAISE(auto fragments, read_dataset->GetFragments());
+  for (const auto& fragment : fragments) {
+    std::cout << "Found fragment: " << (*fragment)->ToString() << std::endl;
+    std::cout << "Partition expression: "
+              << (*fragment)->partition_expression().ToString() << std::endl;
+  }
+  // (Doc section: Dataset Fragments)
+  // (Doc section: Read Scan Builder)
+  // Scan dataset into a Table -- once this is done, you can do
+  // normal table things with it, like computation and printing. However, now you're
+  // also dedicated to being in memory.
+  ARROW_ASSIGN_OR_RAISE(auto read_scan_builder, read_dataset->NewScan());
+  // (Doc section: Read Scan Builder)
+  // (Doc section: Read Scanner)
+  ARROW_ASSIGN_OR_RAISE(auto read_scanner, read_scan_builder->Finish());
+  // (Doc section: Read Scanner)
+  // (Doc section: To Table)
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::Table> table, read_scanner->ToTable());
+  std::cout << table->ToString();
+  // (Doc section: To Table)
+
+  // (Doc section: TableBatchReader)
+  // Now, let's get a table out to disk as a dataset!
+  // We make a RecordBatchReader from our Table, then set up a scanner, which lets us
+  // go to a file.
+  std::shared_ptr<arrow::TableBatchReader> write_dataset =
+      std::make_shared<arrow::TableBatchReader>(table);
+  // (Doc section: TableBatchReader)
+  // (Doc section: WriteScanner)
+  auto write_scanner_builder =
+      arrow::dataset::ScannerBuilder::FromRecordBatchReader(write_dataset);
+  ARROW_ASSIGN_OR_RAISE(auto write_scanner, write_scanner_builder->Finish())
+  // (Doc section: WriteScanner)
+  // (Doc section: Partition Schema)
+  // The partition schema determines which fields are used as keys for partitioning.
+  auto partition_schema = arrow::schema({arrow::field("a", arrow::utf8())});
+  // (Doc section: Partition Schema)
+  // (Doc section: Partition Create)
+  // We'll use Hive-style partitioning, which creates directories with "key=value"
+  // pairs.
+  auto partitioning =
+      std::make_shared<arrow::dataset::HivePartitioning>(partition_schema);
+  // (Doc section: Partition Create)
+  // (Doc section: Write Format)
+  // Now, we declare we'll be writing Parquet files.
+  auto write_format = std::make_shared<arrow::dataset::ParquetFileFormat>();
+  // (Doc section: Write Format)
+  // (Doc section: Write Options)
+  // This time, we make Options for writing, but do much more configuration.
+  arrow::dataset::FileSystemDatasetWriteOptions write_options;
+  // Defaults to start.
+  write_options.file_write_options = write_format->DefaultWriteOptions();
+  // (Doc section: Write Options)
+  // (Doc section: Options FS)
+  // Use the filesystem we already have.
+  write_options.filesystem = fs;
+  // (Doc section: Options FS)
+  // (Doc section: Options Target)
+  // Write to the folder "write_dataset" in current directory.
+  write_options.base_dir = "write_dataset";
+  // (Doc section: Options Target)
+  // (Doc section: Options Partitioning)
+  // Use the partitioning declared above.
+  write_options.partitioning = partitioning;
+  // (Doc section: Options Partitioning)
+  // (Doc section: Options Name Template)
+  // Define what the name for the files making up the dataset will be.
+  write_options.basename_template = "part{i}.parquet";
+  // (Doc section: Options Name Template)
+  // (Doc section: Options File Behavior)
+  // Set behavior to overwrite existing data -- specifically, this lets this example
+  // be run more than once, and allows whatever code you have to overwrite what's there.
+  write_options.existing_data_behavior =
+      arrow::dataset::ExistingDataBehavior::kOverwriteOrIgnore;
+  // (Doc section: Options File Behavior)
+  // (Doc section: Write Dataset)
+  // Write to disk!
+  ARROW_RETURN_NOT_OK(
+      arrow::dataset::FileSystemDataset::Write(write_options, write_scanner));
+  // (Doc section: Write Dataset)
+  // (Doc section: Ret)
+  return arrow::Status::OK();
+}
+// (Doc section: Ret)
+// (Doc section: Main)
+int main() {
+  arrow::Status st = RunMain();
+  if (!st.ok()) {
+    std::cerr << st << std::endl;
+    return 1;
+  }
+  return 0;
+}
+// (Doc section: Main)
+
+// (Doc section: Dataset Example)
diff --git a/cpp/src/arrow/python/arrow-python.pc.in b/cpp/examples/tutorial_examples/docker-compose.yml
similarity index 71%
rename from cpp/src/arrow/python/arrow-python.pc.in
rename to cpp/examples/tutorial_examples/docker-compose.yml
index c077c7dc84c..90bdbcad3d8 100644
--- a/cpp/src/arrow/python/arrow-python.pc.in
+++ b/cpp/examples/tutorial_examples/docker-compose.yml
@@ -15,13 +15,15 @@
 # specific language governing permissions and limitations
 # under the License.
 
-prefix=@CMAKE_INSTALL_PREFIX@
-includedir=@ARROW_PKG_CONFIG_INCLUDEDIR@
-libdir=@ARROW_PKG_CONFIG_LIBDIR@
+version: '3.5'
 
-Name: Apache Arrow Python
-Description: Python integration library for Apache Arrow
-Version: @ARROW_VERSION@
-Requires: arrow
-Libs: -L${libdir} -larrow_python
-Cflags: -I${includedir} -I@PYTHON_INCLUDE_DIRS@
+services:
+  tutorial:
+    build:
+      context: .
+      dockerfile: tutorial.dockerfile
+    volumes:
+      - ../../../:/arrow:delegated
+      - .:/io:delegated
+    command:
+      - "/io/run.sh" 
diff --git a/cpp/examples/tutorial_examples/file_access_example.cc b/cpp/examples/tutorial_examples/file_access_example.cc
new file mode 100644
index 00000000000..fdc312ff421
--- /dev/null
+++ b/cpp/examples/tutorial_examples/file_access_example.cc
@@ -0,0 +1,216 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements. See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership. The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License. You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied. See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+// (Doc section: File I/O)
+
+// (Doc section: Includes)
+#include <arrow/api.h>
+#include <arrow/csv/api.h>
+#include <arrow/io/api.h>
+#include <arrow/ipc/api.h>
+#include <parquet/arrow/reader.h>
+#include <parquet/arrow/writer.h>
+
+#include <iostream>
+// (Doc section: Includes)
+
+// (Doc section: GenInitialFile)
+arrow::Status GenInitialFile() {
+  // Make a couple 8-bit integer arrays and a 16-bit integer array -- just like
+  // basic Arrow example.
+  arrow::Int8Builder int8builder;
+  int8_t days_raw[5] = {1, 12, 17, 23, 28};
+  ARROW_RETURN_NOT_OK(int8builder.AppendValues(days_raw, 5));
+  std::shared_ptr<arrow::Array> days;
+  ARROW_ASSIGN_OR_RAISE(days, int8builder.Finish());
+
+  int8_t months_raw[5] = {1, 3, 5, 7, 1};
+  ARROW_RETURN_NOT_OK(int8builder.AppendValues(months_raw, 5));
+  std::shared_ptr<arrow::Array> months;
+  ARROW_ASSIGN_OR_RAISE(months, int8builder.Finish());
+
+  arrow::Int16Builder int16builder;
+  int16_t years_raw[5] = {1990, 2000, 1995, 2000, 1995};
+  ARROW_RETURN_NOT_OK(int16builder.AppendValues(years_raw, 5));
+  std::shared_ptr<arrow::Array> years;
+  ARROW_ASSIGN_OR_RAISE(years, int16builder.Finish());
+
+  // Get a vector of our Arrays
+  std::vector<std::shared_ptr<arrow::Array>> columns = {days, months, years};
+
+  // Make a schema to initialize the Table with
+  std::shared_ptr<arrow::Field> field_day, field_month, field_year;
+  std::shared_ptr<arrow::Schema> schema;
+
+  field_day = arrow::field("Day", arrow::int8());
+  field_month = arrow::field("Month", arrow::int8());
+  field_year = arrow::field("Year", arrow::int16());
+
+  schema = arrow::schema({field_day, field_month, field_year});
+  // With the schema and data, create a Table
+  std::shared_ptr<arrow::Table> table;
+  table = arrow::Table::Make(schema, columns);
+
+  // Write out test files in IPC, CSV, and Parquet for the example to use.
+  std::shared_ptr<arrow::io::FileOutputStream> outfile;
+  ARROW_ASSIGN_OR_RAISE(outfile, arrow::io::FileOutputStream::Open("test_in.arrow"));
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::ipc::RecordBatchWriter> ipc_writer,
+                        arrow::ipc::MakeFileWriter(outfile, schema));
+  ARROW_RETURN_NOT_OK(ipc_writer->WriteTable(*table));
+  ARROW_RETURN_NOT_OK(ipc_writer->Close());
+
+  ARROW_ASSIGN_OR_RAISE(outfile, arrow::io::FileOutputStream::Open("test_in.csv"));
+  ARROW_ASSIGN_OR_RAISE(auto csv_writer,
+                        arrow::csv::MakeCSVWriter(outfile, table->schema()));
+  ARROW_RETURN_NOT_OK(csv_writer->WriteTable(*table));
+  ARROW_RETURN_NOT_OK(csv_writer->Close());
+
+  ARROW_ASSIGN_OR_RAISE(outfile, arrow::io::FileOutputStream::Open("test_in.parquet"));
+  PARQUET_THROW_NOT_OK(
+      parquet::arrow::WriteTable(*table, arrow::default_memory_pool(), outfile, 5));
+
+  return arrow::Status::OK();
+}
+// (Doc section: GenInitialFile)
+
+// (Doc section: RunMain)
+arrow::Status RunMain() {
+  // (Doc section: RunMain)
+  // (Doc section: Gen Files)
+  // Generate initial files for each format with a helper function -- don't worry,
+  // we'll also write a table in this example.
+  ARROW_RETURN_NOT_OK(GenInitialFile());
+  // (Doc section: Gen Files)
+
+  // (Doc section: ReadableFile Definition)
+  // First, we have to set up a ReadableFile object, which just lets us point our
+  // readers to the right data on disk. We'll be reusing this object, and rebinding
+  // it to multiple files throughout the example.
+  std::shared_ptr<arrow::io::ReadableFile> infile;
+  // (Doc section: ReadableFile Definition)
+  // (Doc section: Arrow ReadableFile Open)
+  // Get "test_in.arrow" into our file pointer
+  ARROW_ASSIGN_OR_RAISE(infile, arrow::io::ReadableFile::Open(
+                                    "test_in.arrow", arrow::default_memory_pool()));
+  // (Doc section: Arrow ReadableFile Open)
+  // (Doc section: Arrow Read Open)
+  // Open up the file with the IPC features of the library, gives us a reader object.
+  ARROW_ASSIGN_OR_RAISE(auto ipc_reader, arrow::ipc::RecordBatchFileReader::Open(infile));
+  // (Doc section: Arrow Read Open)
+  // (Doc section: Arrow Read)
+  // Using the reader, we can read Record Batches. Note that this is specific to IPC;
+  // for other formats, we focus on Tables, but here, RecordBatches are used.
+  std::shared_ptr<arrow::RecordBatch> rbatch;
+  ARROW_ASSIGN_OR_RAISE(rbatch, ipc_reader->ReadRecordBatch(0));
+  // (Doc section: Arrow Read)
+
+  // (Doc section: Arrow Write Open)
+  // Just like with input, we get an object for the output file.
+  std::shared_ptr<arrow::io::FileOutputStream> outfile;
+  // Bind it to "test_out.arrow"
+  ARROW_ASSIGN_OR_RAISE(outfile, arrow::io::FileOutputStream::Open("test_out.arrow"));
+  // (Doc section: Arrow Write Open)
+  // (Doc section: Arrow Writer)
+  // Set up a writer with the output file -- and the schema! We're defining everything
+  // here, loading to fire.
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::ipc::RecordBatchWriter> ipc_writer,
+                        arrow::ipc::MakeFileWriter(outfile, rbatch->schema()));
+  // (Doc section: Arrow Writer)
+  // (Doc section: Arrow Write)
+  // Write the record batch.
+  ARROW_RETURN_NOT_OK(ipc_writer->WriteRecordBatch(*rbatch));
+  // (Doc section: Arrow Write)
+  // (Doc section: Arrow Close)
+  // Specifically for IPC, the writer needs to be explicitly closed.
+  ARROW_RETURN_NOT_OK(ipc_writer->Close());
+  // (Doc section: Arrow Close)
+
+  // (Doc section: CSV Read Open)
+  // Bind our input file to "test_in.csv"
+  ARROW_ASSIGN_OR_RAISE(infile, arrow::io::ReadableFile::Open("test_in.csv"));
+  // (Doc section: CSV Read Open)
+  // (Doc section: CSV Table Declare)
+  std::shared_ptr<arrow::Table> csv_table;
+  // (Doc section: CSV Table Declare)
+  // (Doc section: CSV Reader Make)
+  // The CSV reader has several objects for various options. For now, we'll use defaults.
+  ARROW_ASSIGN_OR_RAISE(
+      auto csv_reader,
+      arrow::csv::TableReader::Make(
+          arrow::io::default_io_context(), infile, arrow::csv::ReadOptions::Defaults(),
+          arrow::csv::ParseOptions::Defaults(), arrow::csv::ConvertOptions::Defaults()));
+  // (Doc section: CSV Reader Make)
+  // (Doc section: CSV Read)
+  // Read the table.
+  ARROW_ASSIGN_OR_RAISE(csv_table, csv_reader->Read())
+  // (Doc section: CSV Read)
+
+  // (Doc section: CSV Write)
+  // Bind our output file to "test_out.csv"
+  ARROW_ASSIGN_OR_RAISE(outfile, arrow::io::FileOutputStream::Open("test_out.csv"));
+  // The CSV writer has simpler defaults, review API documentation for more complex usage.
+  ARROW_ASSIGN_OR_RAISE(auto csv_writer,
+                        arrow::csv::MakeCSVWriter(outfile, csv_table->schema()));
+  ARROW_RETURN_NOT_OK(csv_writer->WriteTable(*csv_table));
+  // Not necessary, but a safe practice.
+  ARROW_RETURN_NOT_OK(csv_writer->Close());
+  // (Doc section: CSV Write)
+
+  // (Doc section: Parquet Read Open)
+  // Bind our input file to "test_in.parquet"
+  ARROW_ASSIGN_OR_RAISE(infile, arrow::io::ReadableFile::Open("test_in.parquet"));
+  // (Doc section: Parquet Read Open)
+  // (Doc section: Parquet FileReader)
+  std::unique_ptr<parquet::arrow::FileReader> reader;
+  // (Doc section: Parquet FileReader)
+  // (Doc section: Parquet OpenFile)
+  // Note that Parquet's OpenFile() takes the reader by reference, rather than returning
+  // a reader.
+  PARQUET_THROW_NOT_OK(
+      parquet::arrow::OpenFile(infile, arrow::default_memory_pool(), &reader));
+  // (Doc section: Parquet OpenFile)
+
+  // (Doc section: Parquet Read)
+  std::shared_ptr<arrow::Table> parquet_table;
+  // Read the table.
+  PARQUET_THROW_NOT_OK(reader->ReadTable(&parquet_table));
+  // (Doc section: Parquet Read)
+
+  // (Doc section: Parquet Write)
+  // Parquet writing does not need a declared writer object. Just get the output
+  // file bound, then pass in the table, memory pool, output, and chunk size for
+  // breaking up the Table on-disk.
+  ARROW_ASSIGN_OR_RAISE(outfile, arrow::io::FileOutputStream::Open("test_out.parquet"));
+  PARQUET_THROW_NOT_OK(parquet::arrow::WriteTable(
+      *parquet_table, arrow::default_memory_pool(), outfile, 5));
+  // (Doc section: Parquet Write)
+  // (Doc section: Return)
+  return arrow::Status::OK();
+}
+// (Doc section: Return)
+
+// (Doc section: Main)
+int main() {
+  arrow::Status st = RunMain();
+  if (!st.ok()) {
+    std::cerr << st << std::endl;
+    return 1;
+  }
+  return 0;
+}
+// (Doc section: Main)
+// (Doc section: File I/O)
diff --git a/cpp/examples/tutorial_examples/run.sh b/cpp/examples/tutorial_examples/run.sh
new file mode 100755
index 00000000000..ed319a9d327
--- /dev/null
+++ b/cpp/examples/tutorial_examples/run.sh
@@ -0,0 +1,51 @@
+#!/usr/bin/env bash
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+set -e
+
+cd /io
+
+export ARROW_BUILD_DIR=/build/arrow
+export EXAMPLE_BUILD_DIR=/build/example
+
+echo
+echo "=="
+echo "== Building Arrow C++ library"
+echo "=="
+echo
+
+./build_arrow.sh
+
+echo
+echo "=="
+echo "== Building example project using Arrow C++ library"
+echo "=="
+echo
+
+./build_example.sh
+
+echo
+echo "=="
+echo "== Running example project"
+echo "=="
+echo
+
+${EXAMPLE_BUILD_DIR}/arrow_example
+${EXAMPLE_BUILD_DIR}/compute_example
+${EXAMPLE_BUILD_DIR}/file_access_example
+${EXAMPLE_BUILD_DIR}/dataset_example
diff --git a/cpp/examples/tutorial_examples/tutorial.dockerfile b/cpp/examples/tutorial_examples/tutorial.dockerfile
new file mode 100644
index 00000000000..9361fc5e81d
--- /dev/null
+++ b/cpp/examples/tutorial_examples/tutorial.dockerfile
@@ -0,0 +1,27 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+FROM ubuntu:focal
+
+ENV DEBIAN_FRONTEND=noninteractive
+
+RUN apt-get update -y -q && \
+    apt-get install -y -q --no-install-recommends \
+      build-essential \
+      cmake \
+      pkg-config && \
+    apt-get clean && rm -rf /var/lib/apt/lists*
diff --git a/cpp/gdb_arrow.py b/cpp/gdb_arrow.py
index af3dad9c087..6c3af1680bd 100644
--- a/cpp/gdb_arrow.py
+++ b/cpp/gdb_arrow.py
@@ -426,12 +426,17 @@ def value(self):
 
 class Variant:
     """
-    A arrow::util::Variant<...>.
+    A `std::variant<...>`.
     """
 
     def __init__(self, val):
         self.val = val
-        self.index = int(self.val['index_'])
+        try:
+            # libstdc++ internals
+            self.index = val['_M_index']
+        except gdb.error:
+            # fallback for other C++ standard libraries
+            self.index = gdb.parse_and_eval(f"{for_evaluation(val)}.index()")
         try:
             self.value_type = self.val.type.template_argument(self.index)
         except RuntimeError:
@@ -451,7 +456,7 @@ def value(self):
 
 class StdString:
     """
-    A `std::string` (or possibly `string_view`) value.
+    A `std::string` (or possibly `std::string_view`) value.
     """
 
     def __init__(self, val):
@@ -2158,67 +2163,6 @@ def to_string(self):
         return f"arrow::Result<{data_type}>({inner})"
 
 
-class StringViewPrinter:
-    """
-    Pretty-printer for arrow::util::string_view.
-    """
-
-    def __init__(self, name, val):
-        self.val = val
-
-    def to_string(self):
-        size = int(self.val['size_'])
-        if size == 0:
-            return f"arrow::util::string_view of size 0"
-        else:
-            data = bytes_literal(self.val['data_'], size)
-            return f"arrow::util::string_view of size {size}, {data}"
-
-
-class OptionalPrinter:
-    """
-    Pretty-printer for arrow::util::optional.
-    """
-
-    def __init__(self, name, val):
-        self.val = val
-
-    def to_string(self):
-        data_type = self.val.type.template_argument(0)
-        # XXX We rely on internal details of our vendored optional<T>
-        # implementation, as inlined methods may not be callable from gdb.
-        if not self.val['has_value_']:
-            inner = "nullopt"
-        else:
-            data_ptr = self.val['contained']['data'].address
-            assert data_ptr
-            inner = data_ptr.reinterpret_cast(
-                data_type.pointer()).dereference()
-        return f"arrow::util::optional<{data_type}>({inner})"
-
-
-class VariantPrinter:
-    """
-    Pretty-printer for arrow::util::Variant.
-    """
-
-    def __init__(self, name, val):
-        self.val = val
-        self.variant = Variant(val)
-
-    def to_string(self):
-        if self.variant.value_type is None:
-            return "arrow::util::Variant (uninitialized or corrupt)"
-        type_desc = (f"arrow::util::Variant of index {self.variant.index} "
-                     f"(actual type {self.variant.value_type})")
-
-        value = self.variant.value
-        if value is None:
-            return (f"{type_desc}, unavailable value")
-        else:
-            return (f"{type_desc}, value {value}")
-
-
 class FieldPrinter:
     """
     Pretty-printer for arrow::Field.
@@ -2436,11 +2380,6 @@ def to_string(self):
     "arrow::SimpleTable": TablePrinter,
     "arrow::Status": StatusPrinter,
     "arrow::Table": TablePrinter,
-    "arrow::util::optional": OptionalPrinter,
-    "arrow::util::string_view": StringViewPrinter,
-    "arrow::util::Variant": VariantPrinter,
-    "nonstd::optional_lite::optional": OptionalPrinter,
-    "nonstd::sv_lite::basic_string_view": StringViewPrinter,
 }
 
 
diff --git a/r/src/imports.cpp b/cpp/proto/substrait/extension_rels.proto
similarity index 53%
rename from r/src/imports.cpp
rename to cpp/proto/substrait/extension_rels.proto
index f4174bab5f4..ceed9f3e455 100644
--- a/r/src/imports.cpp
+++ b/cpp/proto/substrait/extension_rels.proto
@@ -14,30 +14,31 @@
 // KIND, either express or implied.  See the License for the
 // specific language governing permissions and limitations
 // under the License.
+syntax = "proto3";
 
-#include <R_ext/Rdynload.h>  // for R_GetCCallable
-#include <Rdefines.h>
+package arrow.substrait_ext;
 
-namespace vctrs {
-struct vctrs_api_ptrs_t {
-  R_len_t (*short_vec_size)(SEXP x);
+import "substrait/algebra.proto";
 
-  vctrs_api_ptrs_t() {
-    short_vec_size = (R_len_t(*)(SEXP))R_GetCCallable("vctrs", "short_vec_size");
-  }
-};
+option csharp_namespace = "Arrow.Substrait";
+option go_package = "github.com/apache/arrow/substrait";
+option java_multiple_files = true;
+option java_package = "io.arrow.substrait";
 
-const vctrs_api_ptrs_t& vctrs_api() {
-  static vctrs_api_ptrs_t ptrs;
-  return ptrs;
-}
+// As-Of-Join relation
+message AsOfJoinRel {
+  // One key per input relation, each key describing how to join the corresponding input
+  repeated AsOfJoinKey keys = 1;
+
+  // As-Of tolerance, in units of the on-key
+  int64 tolerance = 2;
 
-R_len_t vec_size(SEXP x) {
-  if (Rf_inherits(x, "data.frame") || TYPEOF(x) != VECSXP || Rf_inherits(x, "POSIXlt")) {
-    return vctrs_api().short_vec_size(x);
-  } else {
-    return Rf_length(x);
+  // As-Of-Join key
+  message AsOfJoinKey {
+    // A field reference defining the on-key
+    .substrait.Expression on = 1;
+
+    // A set of field references defining the by-key
+    repeated .substrait.Expression by = 2;
   }
 }
-
-}  // namespace vctrs
diff --git a/cpp/src/arrow/ArrowConfig.cmake.in b/cpp/src/arrow/ArrowConfig.cmake.in
index 44c8a66f67d..cba7f23f6a2 100644
--- a/cpp/src/arrow/ArrowConfig.cmake.in
+++ b/cpp/src/arrow/ArrowConfig.cmake.in
@@ -25,8 +25,8 @@
 #
 # This config sets the following targets in your project::
 #
-#   arrow_shared - for linked as shared library if shared library is built
-#   arrow_static - for linked as static library if static library is built
+#   Arrow::arrow_shared - for linked as shared library if shared library is built
+#   Arrow::arrow_static - for linked as static library if static library is built
 
 @PACKAGE_INIT@
 
@@ -34,61 +34,166 @@ set(ARROW_VERSION "@ARROW_VERSION@")
 set(ARROW_SO_VERSION "@ARROW_SO_VERSION@")
 set(ARROW_FULL_SO_VERSION "@ARROW_FULL_SO_VERSION@")
 
-set(ARROW_LIBRARY_PATH_SUFFIXES "@ARROW_LIBRARY_PATH_SUFFIXES@")
+set(ARROW_BUNDLED_STATIC_LIBS "@ARROW_BUNDLED_STATIC_LIBS@")
 set(ARROW_INCLUDE_PATH_SUFFIXES "@ARROW_INCLUDE_PATH_SUFFIXES@")
+set(ARROW_LIBRARY_PATH_SUFFIXES "@ARROW_LIBRARY_PATH_SUFFIXES@")
 set(ARROW_SYSTEM_DEPENDENCIES "@ARROW_SYSTEM_DEPENDENCIES@")
-set(ARROW_BUNDLED_STATIC_LIBS "@ARROW_BUNDLED_STATIC_LIBS@")
-set(ARROW_STATIC_INSTALL_INTERFACE_LIBS "@ARROW_STATIC_INSTALL_INTERFACE_LIBS@")
 
 include("${CMAKE_CURRENT_LIST_DIR}/ArrowOptions.cmake")
 
-include(CMakeFindDependencyMacro)
+if(ARROW_BUILD_STATIC)
+  include(CMakeFindDependencyMacro)
 
-# Load targets only once. If we load targets multiple times, CMake reports
-# already existent target error.
-if(NOT (TARGET arrow_shared OR TARGET arrow_static))
-  include("${CMAKE_CURRENT_LIST_DIR}/ArrowTargets.cmake")
+  set(CMAKE_THREAD_PREFER_PTHREAD TRUE)
+  set(THREADS_PREFER_PTHREAD_FLAG TRUE)
+  find_dependency(Threads)
 
-  if(TARGET arrow_static)
-    set(CMAKE_THREAD_PREFER_PTHREAD TRUE)
-    set(THREADS_PREFER_PTHREAD_FLAG TRUE)
-    find_dependency(Threads)
+  if(DEFINED CMAKE_MODULE_PATH)
+    set(ARROW_CMAKE_MODULE_PATH_OLD ${CMAKE_MODULE_PATH})
+  else()
+    unset(ARROW_CMAKE_MODULE_PATH_OLD)
+  endif()
+  set(CMAKE_MODULE_PATH "${CMAKE_CURRENT_LIST_DIR}")
 
-    if(DEFINED CMAKE_MODULE_PATH)
-      set(_CMAKE_MODULE_PATH_OLD ${CMAKE_MODULE_PATH})
+  foreach(_DEPENDENCY ${ARROW_SYSTEM_DEPENDENCIES})
+    set(ARROW_OPENSSL_HOMEBREW_MAKE_DETECTABLE FALSE)
+    if(${_DEPENDENCY} STREQUAL "OpenSSL" AND NOT OPENSSL_ROOT_DIR)
+      find_program(ARROW_BREW brew)
+      if(ARROW_BREW)
+        set(ARROW_OPENSSL_ROOT_DIR_ORIGINAL ${OPENSSL_ROOT_DIR})
+        execute_process(COMMAND ${ARROW_BREW} --prefix "openssl@1.1"
+                        OUTPUT_VARIABLE OPENSSL11_BREW_PREFIX
+                        OUTPUT_STRIP_TRAILING_WHITESPACE)
+        if(OPENSSL11_BREW_PREFIX)
+          set(OPENSSL_ROOT_DIR ${OPENSSL11_BREW_PREFIX})
+          set(ARROW_OPENSSL_HOMEBREW_MAKE_DETECTABLE TRUE)
+        else()
+          execute_process(COMMAND ${ARROW_BREW} --prefix "openssl"
+                          OUTPUT_VARIABLE OPENSSL_BREW_PREFIX
+                          OUTPUT_STRIP_TRAILING_WHITESPACE)
+          if(OPENSSL_BREW_PREFIX)
+            set(OPENSSL_ROOT_DIR ${OPENSSL_BREW_PREFIX})
+            set(ARROW_OPENSSL_HOMEBREW_MAKE_DETECTABLE TRUE)
+          endif()
+        endif()
+      endif()
+    endif()
+    find_dependency(${_DEPENDENCY})
+    if(ARROW_OPENSSL_HOMEBREW_MAKE_DETECTABLE)
+      set(OPENSSL_ROOT_DIR ${ARROW_OPENSSL_ROOT_DIR_ORIGINAL})
     endif()
-    set(CMAKE_MODULE_PATH "${CMAKE_CURRENT_LIST_DIR}")
+  endforeach()
 
-    foreach(_DEPENDENCY ${ARROW_SYSTEM_DEPENDENCIES})
-      find_dependency(${_DEPENDENCY})
-    endforeach()
+  if(DEFINED ARROW_CMAKE_MODULE_PATH_OLD)
+    set(CMAKE_MODULE_PATH ${ARROW_CMAKE_MODULE_PATH_OLD})
+    unset(ARROW_CMAKE_MODULE_PATH_OLD)
+  else()
+    unset(CMAKE_MODULE_PATH)
+  endif()
+endif()
 
-    if(DEFINED _CMAKE_MODULE_PATH_OLD)
-      set(CMAKE_MODULE_PATH ${_CMAKE_MODULE_PATH_OLD})
-      unset(_CMAKE_MODULE_PATH_OLD)
-    else()
-      unset(CMAKE_MODULE_PATH)
-    endif()
+include("${CMAKE_CURRENT_LIST_DIR}/ArrowTargets.cmake")
+
+if(TARGET Arrow::arrow_static AND NOT TARGET Arrow::arrow_bundled_dependencies)
+  add_library(Arrow::arrow_bundled_dependencies STATIC IMPORTED)
+  get_target_property(arrow_static_location Arrow::arrow_static LOCATION)
+  get_filename_component(arrow_lib_dir "${arrow_static_location}" DIRECTORY)
+  set_target_properties(Arrow::arrow_bundled_dependencies
+                        PROPERTIES IMPORTED_LOCATION
+                                   "${arrow_lib_dir}/${CMAKE_STATIC_LIBRARY_PREFIX}arrow_bundled_dependencies${CMAKE_STATIC_LIBRARY_SUFFIX}"
+  )
 
-    get_property(arrow_static_loc TARGET arrow_static PROPERTY LOCATION)
-    get_filename_component(arrow_lib_dir ${arrow_static_loc} DIRECTORY)
-
-    if(ARROW_BUNDLED_STATIC_LIBS)
-      add_library(arrow_bundled_dependencies STATIC IMPORTED)
-      set_target_properties(
-        arrow_bundled_dependencies
-        PROPERTIES
-          IMPORTED_LOCATION
-          "${arrow_lib_dir}/${CMAKE_STATIC_LIBRARY_PREFIX}arrow_bundled_dependencies${CMAKE_STATIC_LIBRARY_SUFFIX}"
-          INTERFACE_LINK_LIBRARIES
-          "${ARROW_STATIC_INSTALL_INTERFACE_LIBS}"
-      )
-      get_property(arrow_static_interface_link_libraries
-                   TARGET arrow_static
-                   PROPERTY INTERFACE_LINK_LIBRARIES)
-      set_target_properties(
-        arrow_static PROPERTIES INTERFACE_LINK_LIBRARIES
-        "${arrow_static_interface_link_libraries};arrow_bundled_dependencies")
+  # CMP0057: Support new if() IN_LIST operator.
+  # https://cmake.org/cmake/help/latest/policy/CMP0057.html
+  cmake_policy(PUSH)
+  cmake_policy(SET CMP0057 NEW)
+  if("AWS::aws-c-common" IN_LIST ARROW_BUNDLED_STATIC_LIBS)
+    if(APPLE)
+      find_library(CORE_FOUNDATION CoreFoundation)
+      target_link_libraries(Arrow::arrow_bundled_dependencies
+                            INTERFACE ${CORE_FOUNDATION})
+    elseif(WIN32)
+      target_link_libraries(Arrow::arrow_bundled_dependencies
+                            INTERFACE "winhttp.lib"
+                                      "bcrypt.lib"
+                                      "wininet.lib"
+                                      "userenv.lib"
+                                      "version.lib")
     endif()
   endif()
+  cmake_policy(POP)
 endif()
+
+macro(arrow_keep_backward_compatibility namespace target_base_name)
+  string(TOUPPER ${target_base_name} target_base_name_upper)
+
+  if(NOT CMAKE_VERSION VERSION_LESS 3.18)
+    if(TARGET ${namespace}::${target_base_name}_shared AND NOT TARGET
+                                                           ${target_base_name}_shared)
+      add_library(${target_base_name}_shared ALIAS
+                  ${namespace}::${target_base_name}_shared)
+    endif()
+    if(TARGET ${namespace}::${target_base_name}_static AND NOT TARGET
+                                                           ${target_base_name}_static)
+      add_library(${target_base_name}_static ALIAS
+                  ${namespace}::${target_base_name}_static)
+    endif()
+  endif()
+
+  if(TARGET ${namespace}::${target_base_name}_shared)
+    get_target_property(${target_base_name_upper}_INCLUDE_DIR
+                        ${namespace}::${target_base_name}_shared
+                        INTERFACE_INCLUDE_DIRECTORIES)
+  else()
+    get_target_property(${target_base_name_upper}_INCLUDE_DIR
+                        ${namespace}::${target_base_name}_static
+                        INTERFACE_INCLUDE_DIRECTORIES)
+  endif()
+
+  foreach(BUILD_TYPE_SUFFIX
+          "_RELEASE"
+          "_RELWITHDEBINFO"
+          "_MINSIZEREL"
+          "_DEBUG"
+          "")
+    if(TARGET ${namespace}::${target_base_name}_shared)
+      if(NOT ${target_base_name_upper}_SHARED_LIB)
+        get_target_property(${target_base_name_upper}_SHARED_LIB
+                            ${namespace}::${target_base_name}_shared
+                            IMPORTED_LOCATION${BUILD_TYPE_SUFFIX})
+      endif()
+      if(NOT ${target_base_name_upper}_IMPORT_LIB)
+        get_target_property(${target_base_name_upper}_IMPORT_LIB
+                            ${namespace}::${target_base_name}_shared
+                            IMPORTED_IMPLIB${BUILD_TYPE_SUFFIX})
+      endif()
+    endif()
+
+    if(TARGET ${namespace}::${target_base_name}_static)
+      if(NOT ${target_base_name_upper}_STATIC_LIB)
+        get_target_property(${target_base_name_upper}_STATIC_LIB
+                            ${namespace}::${target_base_name}_static
+                            IMPORTED_LOCATION${BUILD_TYPE_SUFFIX})
+      endif()
+    endif()
+  endforeach()
+endmacro()
+
+arrow_keep_backward_compatibility(Arrow arrow)
+
+check_required_components(Arrow)
+
+macro(arrow_show_details package_name variable_prefix)
+  if(NOT ${package_name}_FIND_QUIETLY AND NOT ${package_name}_SHOWED_DETAILS)
+    message(STATUS "${package_name} version: ${${package_name}_VERSION}")
+    message(STATUS "Found the ${package_name} shared library: ${${variable_prefix}_SHARED_LIB}"
+    )
+    message(STATUS "Found the ${package_name} import library: ${${variable_prefix}_IMPORT_LIB}"
+    )
+    message(STATUS "Found the ${package_name} static library: ${${variable_prefix}_STATIC_LIB}"
+    )
+    set(${package_name}_SHOWED_DETAILS TRUE)
+  endif()
+endmacro()
+
+arrow_show_details(Arrow ARROW)
diff --git a/cpp/src/arrow/ArrowTestingConfig.cmake.in b/cpp/src/arrow/ArrowTestingConfig.cmake.in
index 2b5548c8b1a..87ee9e755e1 100644
--- a/cpp/src/arrow/ArrowTestingConfig.cmake.in
+++ b/cpp/src/arrow/ArrowTestingConfig.cmake.in
@@ -21,16 +21,18 @@
 #
 # This config sets the following targets in your project::
 #
-#   arrow_testing_shared - for linked as shared library if shared library is built
-#   arrow_testing_static - for linked as static library if static library is built
+#   ArrowTesting::arrow_testing_shared - for linked as shared library if shared library is built
+#   ArrowTesting::arrow_testing_static - for linked as static library if static library is built
 
 @PACKAGE_INIT@
 
 include(CMakeFindDependencyMacro)
 find_dependency(Arrow)
 
-# Load targets only once. If we load targets multiple times, CMake reports
-# already existent target error.
-if(NOT (TARGET arrow_testing_shared OR TARGET arrow_testing_static))
-  include("${CMAKE_CURRENT_LIST_DIR}/ArrowTestingTargets.cmake")
-endif()
+include("${CMAKE_CURRENT_LIST_DIR}/ArrowTestingTargets.cmake")
+
+arrow_keep_backward_compatibility(ArrowTesting arrow_testing)
+
+check_required_components(ArrowTesting)
+
+arrow_show_details(ArrowTesting ARROW_TESTING)
diff --git a/cpp/src/arrow/CMakeLists.txt b/cpp/src/arrow/CMakeLists.txt
index 5070d22fc55..90ab1e6ac27 100644
--- a/cpp/src/arrow/CMakeLists.txt
+++ b/cpp/src/arrow/CMakeLists.txt
@@ -192,6 +192,7 @@ set(ARROW_SRCS
     io/stdio.cc
     io/transform.cc
     util/async_util.cc
+    util/atfork_internal.cc
     util/basic_decimal.cc
     util/bit_block_counter.cc
     util/bit_run_reader.cc
@@ -397,10 +398,12 @@ if(ARROW_COMPUTE)
        compute/exec/hash_join_node.cc
        compute/exec/key_hash.cc
        compute/exec/key_map.cc
+       compute/exec/map_node.cc
        compute/exec/order_by_impl.cc
        compute/exec/partition_util.cc
        compute/exec/options.cc
        compute/exec/project_node.cc
+       compute/exec/query_context.cc
        compute/exec/sink_node.cc
        compute/exec/source_node.cc
        compute/exec/swiss_join.cc
@@ -425,6 +428,7 @@ if(ARROW_COMPUTE)
        compute/kernels/scalar_boolean.cc
        compute/kernels/scalar_cast_boolean.cc
        compute/kernels/scalar_cast_dictionary.cc
+       compute/kernels/scalar_cast_extension.cc
        compute/kernels/scalar_cast_internal.cc
        compute/kernels/scalar_cast_nested.cc
        compute/kernels/scalar_cast_numeric.cc
@@ -434,6 +438,7 @@ if(ARROW_COMPUTE)
        compute/kernels/scalar_if_else.cc
        compute/kernels/scalar_nested.cc
        compute/kernels/scalar_random.cc
+       compute/kernels/scalar_round.cc
        compute/kernels/scalar_set_lookup.cc
        compute/kernels/scalar_string_ascii.cc
        compute/kernels/scalar_string_utf8.cc
@@ -445,7 +450,9 @@ if(ARROW_COMPUTE)
        compute/kernels/vector_cumulative_ops.cc
        compute/kernels/vector_hash.cc
        compute/kernels/vector_nested.cc
+       compute/kernels/vector_rank.cc
        compute/kernels/vector_replace.cc
+       compute/kernels/vector_select_k.cc
        compute/kernels/vector_selection.cc
        compute/kernels/vector_sort.cc
        compute/row/encode_internal.cc
@@ -551,12 +558,47 @@ else()
 endif()
 
 if(ARROW_BUILD_BUNDLED_DEPENDENCIES)
+  arrow_car(_FIRST_LIB ${ARROW_BUNDLED_STATIC_LIBS})
+  arrow_cdr(_OTHER_LIBS ${ARROW_BUNDLED_STATIC_LIBS})
+  arrow_create_merged_static_lib(arrow_bundled_dependencies
+                                 NAME
+                                 arrow_bundled_dependencies
+                                 ROOT
+                                 ${_FIRST_LIB}
+                                 TO_MERGE
+                                 ${_OTHER_LIBS})
+  # We can't use install(TARGETS) here because
+  # arrow_bundled_dependencies is an IMPORTED library.
+  get_target_property(arrow_bundled_dependencies_path arrow_bundled_dependencies
+                      IMPORTED_LOCATION)
+  install(FILES ${arrow_bundled_dependencies_path} ${INSTALL_IS_OPTIONAL}
+          DESTINATION ${CMAKE_INSTALL_LIBDIR})
   string(APPEND ARROW_PC_LIBS_PRIVATE " -larrow_bundled_dependencies")
+  list(INSERT ARROW_STATIC_INSTALL_INTERFACE_LIBS 0 "Arrow::arrow_bundled_dependencies")
 endif()
 # Need -latomic on Raspbian.
 # See also: https://issues.apache.org/jira/browse/ARROW-12860
 if(${CMAKE_SYSTEM_NAME} STREQUAL "Linux" AND ${CMAKE_SYSTEM_PROCESSOR} MATCHES "armv7")
   string(APPEND ARROW_PC_LIBS_PRIVATE " -latomic")
+  list(APPEND ARROW_SHARED_INSTALL_INTERFACE_LIBS "atomic")
+  list(APPEND ARROW_STATIC_INSTALL_INTERFACE_LIBS "atomic")
+endif()
+
+# If libarrow.a is only built, "pkg-config --cflags --libs arrow"
+# outputs build flags for static linking not shared
+# linking. ARROW_PC_* except ARROW_PC_*_PRIVATE are for the static
+# linking case.
+if(NOT ARROW_BUILD_SHARED AND ARROW_BUILD_STATIC)
+  set(ARROW_PC_CFLAGS "${ARROW_PC_CFLAGS_PRIVATE}")
+  set(ARROW_PC_CFLAGS_PRIVATE "")
+  set(ARROW_PC_LIBS "${ARROW_PC_LIBS_PRIVATE}")
+  set(ARROW_PC_LIBS_PRIVATE "")
+  set(ARROW_PC_REQUIRES "${ARROW_PC_REQUIRES_PRIVATE}")
+  set(ARROW_PC_REQUIRES_PRIVATE "")
+else()
+  set(ARROW_PC_CFLAGS "")
+  set(ARROW_PC_LIBS "")
+  set(ARROW_PC_REQUIRES "")
 endif()
 
 add_arrow_lib(arrow
@@ -575,11 +617,12 @@ add_arrow_lib(arrow
               SHARED_LINK_FLAGS
               ${ARROW_SHARED_LINK_FLAGS}
               SHARED_LINK_LIBS
-              ${ARROW_LINK_LIBS}
+              ${ARROW_SHARED_LINK_LIBS}
               SHARED_PRIVATE_LINK_LIBS
               ${ARROW_SHARED_PRIVATE_LINK_LIBS}
               STATIC_LINK_LIBS
               ${ARROW_STATIC_LINK_LIBS}
+              STATIC_INSTALL_INTERFACE_LIBS
               ${ARROW_STATIC_INSTALL_INTERFACE_LIBS}
               SHARED_INSTALL_INTERFACE_LIBS
               ${ARROW_SHARED_INSTALL_INTERFACE_LIBS})
@@ -619,6 +662,8 @@ endif()
 
 foreach(LIB_TARGET ${ARROW_LIBRARIES})
   target_compile_definitions(${LIB_TARGET} PRIVATE ARROW_EXPORTING)
+  # C++17 is required to compile against Arrow C++ headers and libraries
+  target_compile_features(${LIB_TARGET} PUBLIC cxx_std_17)
 endforeach()
 
 if(ARROW_WITH_BACKTRACE)
@@ -631,18 +676,6 @@ if(ARROW_WITH_BACKTRACE)
   endforeach()
 endif()
 
-if(ARROW_BUILD_BUNDLED_DEPENDENCIES)
-  arrow_car(_FIRST_LIB ${ARROW_BUNDLED_STATIC_LIBS})
-  arrow_cdr(_OTHER_LIBS ${ARROW_BUNDLED_STATIC_LIBS})
-  create_merged_static_lib(arrow_bundled_dependencies
-                           NAME
-                           arrow_bundled_dependencies
-                           ROOT
-                           ${_FIRST_LIB}
-                           TO_MERGE
-                           ${_OTHER_LIBS})
-endif()
-
 if(ARROW_TESTING)
   # that depend on gtest
   add_arrow_lib(arrow_testing
@@ -663,10 +696,16 @@ if(ARROW_TESTING)
                 rapidjson::rapidjson
                 arrow_shared
                 GTest::gtest
+                SHARED_INSTALL_INTERFACE_LIBS
+                Arrow::arrow_shared
+                GTest::gtest
                 STATIC_LINK_LIBS
                 arrow::flatbuffers
                 rapidjson::rapidjson
                 arrow_static
+                GTest::gtest
+                STATIC_INSTALL_INTERFACE_LIBS
+                Arrow::arrow_static
                 GTest::gtest)
 
   add_custom_target(arrow_testing)
@@ -685,11 +724,11 @@ arrow_install_all_headers("arrow")
 
 config_summary_cmake_setters("${CMAKE_CURRENT_BINARY_DIR}/ArrowOptions.cmake")
 install(FILES ${CMAKE_CURRENT_BINARY_DIR}/ArrowOptions.cmake
-        DESTINATION "${ARROW_CMAKE_DIR}")
+        DESTINATION "${ARROW_CMAKE_DIR}/Arrow")
 
 # For backward compatibility for find_package(arrow)
 install(FILES ${CMAKE_CURRENT_SOURCE_DIR}/arrow-config.cmake
-        DESTINATION "${ARROW_CMAKE_DIR}")
+        DESTINATION "${ARROW_CMAKE_DIR}/Arrow")
 
 #
 # Unit tests
@@ -805,10 +844,6 @@ if(ARROW_ORC)
   add_subdirectory(adapters/orc)
 endif()
 
-if(ARROW_PYTHON)
-  add_subdirectory(python)
-endif()
-
 if(ARROW_TENSORFLOW)
   add_subdirectory(adapters/tensorflow)
 endif()
diff --git a/cpp/src/arrow/adapters/orc/CMakeLists.txt b/cpp/src/arrow/adapters/orc/CMakeLists.txt
index d7cc6524bc9..3c695abb5a0 100644
--- a/cpp/src/arrow/adapters/orc/CMakeLists.txt
+++ b/cpp/src/arrow/adapters/orc/CMakeLists.txt
@@ -26,27 +26,14 @@ install(FILES adapter.h options.h
 # pkg-config support
 arrow_add_pkg_config("arrow-orc")
 
-set(ORC_MIN_TEST_LIBS
-    GTest::gtest_main
-    GTest::gtest
-    ${Snappy_TARGET}
-    lz4::lz4
-    ZLIB::ZLIB)
-
 if(ARROW_BUILD_STATIC)
   set(ARROW_LIBRARIES_FOR_STATIC_TESTS arrow_testing_static arrow_static)
 else()
   set(ARROW_LIBRARIES_FOR_STATIC_TESTS arrow_testing_shared arrow_shared)
 endif()
 
-if(APPLE)
-  set(ORC_MIN_TEST_LIBS ${ORC_MIN_TEST_LIBS} ${CMAKE_DL_LIBS})
-elseif(NOT MSVC)
-  set(ORC_MIN_TEST_LIBS ${ORC_MIN_TEST_LIBS} pthread ${CMAKE_DL_LIBS})
-endif()
-
 set(ORC_STATIC_TEST_LINK_LIBS orc::liborc ${ARROW_LIBRARIES_FOR_STATIC_TESTS}
-                              ${ORC_MIN_TEST_LIBS})
+                              GTest::gtest_main GTest::gtest)
 
 add_arrow_test(adapter_test
                PREFIX
diff --git a/cpp/src/arrow/adapters/orc/adapter.cc b/cpp/src/arrow/adapters/orc/adapter.cc
index 5af5ebccc84..d4e379a93b4 100644
--- a/cpp/src/arrow/adapters/orc/adapter.cc
+++ b/cpp/src/arrow/adapters/orc/adapter.cc
@@ -126,13 +126,6 @@ class ArrowInputFile : public liborc::InputStream {
   std::shared_ptr<io::RandomAccessFile> file_;
 };
 
-struct StripeInformation {
-  uint64_t offset;
-  uint64_t length;
-  uint64_t num_rows;
-  uint64_t first_row_of_stripe;
-};
-
 // The number of rows to read in a ColumnVectorBatch
 constexpr int64_t kReadRowsBatch = 1000;
 
@@ -206,8 +199,10 @@ class ORCFileReader::Impl {
     uint64_t first_row_of_stripe = 0;
     for (int i = 0; i < nstripes; ++i) {
       stripe = reader_->getStripe(i);
-      stripes_[i] = StripeInformation({stripe->getOffset(), stripe->getLength(),
-                                       stripe->getNumberOfRows(), first_row_of_stripe});
+      stripes_[i] = StripeInformation({static_cast<int64_t>(stripe->getOffset()),
+                                       static_cast<int64_t>(stripe->getLength()),
+                                       static_cast<int64_t>(stripe->getNumberOfRows()),
+                                       static_cast<int64_t>(first_row_of_stripe)});
       first_row_of_stripe += stripe->getNumberOfRows();
     }
     return Status::OK();
@@ -217,6 +212,8 @@ class ORCFileReader::Impl {
 
   int64_t NumberOfRows() { return static_cast<int64_t>(reader_->getNumberOfRows()); }
 
+  StripeInformation GetStripeInformation(int64_t stripe) { return stripes_[stripe]; }
+
   FileVersion GetFileVersion() {
     liborc::FileVersion orc_file_version = reader_->getFormatVersion();
     return FileVersion(orc_file_version.getMajor(), orc_file_version.getMinor());
@@ -383,7 +380,8 @@ class ORCFileReader::Impl {
     ARROW_RETURN_IF(stripe < 0 || stripe >= NumberOfStripes(),
                     Status::Invalid("Out of bounds stripe: ", stripe));
 
-    opts->range(stripes_[stripe].offset, stripes_[stripe].length);
+    opts->range(static_cast<uint64_t>(stripes_[stripe].offset),
+                static_cast<uint64_t>(stripes_[stripe].length));
     return Status::OK();
   }
 
@@ -393,9 +391,9 @@ class ORCFileReader::Impl {
                     Status::Invalid("Out of bounds row number: ", row_number));
 
     for (auto it = stripes_.begin(); it != stripes_.end(); it++) {
-      if (static_cast<uint64_t>(row_number) >= it->first_row_of_stripe &&
-          static_cast<uint64_t>(row_number) < it->first_row_of_stripe + it->num_rows) {
-        opts->range(it->offset, it->length);
+      if (row_number >= it->first_row_id &&
+          row_number < it->first_row_id + it->num_rows) {
+        opts->range(static_cast<uint64_t>(it->offset), static_cast<uint64_t>(it->length));
         *out = *it;
         return Status::OK();
       }
@@ -411,7 +409,7 @@ class ORCFileReader::Impl {
       ARROW_RETURN_IF(*it < 0, Status::Invalid("Negative field index"));
       include_indices_list.push_back(*it);
     }
-    opts->includeTypes(include_indices_list);
+    opts->include(include_indices_list);
     return Status::OK();
   }
 
@@ -427,7 +425,8 @@ class ORCFileReader::Impl {
     liborc::RowReaderOptions opts(row_opts);
     std::vector<std::shared_ptr<RecordBatch>> batches(stripes_.size());
     for (size_t stripe = 0; stripe < stripes_.size(); stripe++) {
-      opts.range(stripes_[stripe].offset, stripes_[stripe].length);
+      opts.range(static_cast<uint64_t>(stripes_[stripe].offset),
+                 static_cast<uint64_t>(stripes_[stripe].length));
       ARROW_ASSIGN_OR_RAISE(batches[stripe],
                             ReadBatch(opts, schema, stripes_[stripe].num_rows));
     }
@@ -488,7 +487,7 @@ class ORCFileReader::Impl {
     ORC_BEGIN_CATCH_NOT_OK
     row_reader = reader_->createRowReader(opts);
     row_reader->seekToRow(current_row_);
-    current_row_ = stripe_info.first_row_of_stripe + stripe_info.num_rows;
+    current_row_ = stripe_info.first_row_id + stripe_info.num_rows;
     ORC_END_CATCH_NOT_OK
 
     return std::make_shared<OrcStripeReader>(std::move(row_reader), schema, batch_size,
@@ -600,6 +599,10 @@ int64_t ORCFileReader::NumberOfStripes() { return impl_->NumberOfStripes(); }
 
 int64_t ORCFileReader::NumberOfRows() { return impl_->NumberOfRows(); }
 
+StripeInformation ORCFileReader::GetStripeInformation(int64_t stripe) {
+  return impl_->GetStripeInformation(stripe);
+}
+
 FileVersion ORCFileReader::GetFileVersion() { return impl_->GetFileVersion(); }
 
 std::string ORCFileReader::GetSoftwareVersion() { return impl_->GetSoftwareVersion(); }
@@ -727,12 +730,23 @@ class ORCFileWriter::Impl {
   }
 
   Status Write(const Table& table) {
-    ARROW_ASSIGN_OR_RAISE(auto orc_schema, GetOrcType(*(table.schema())));
-    ARROW_ASSIGN_OR_RAISE(auto orc_options, MakeOrcWriterOptions(write_options_));
+    if (!writer_.get()) {
+      ARROW_ASSIGN_OR_RAISE(orc_schema_, GetOrcType(*(table.schema())));
+      ARROW_ASSIGN_OR_RAISE(auto orc_options, MakeOrcWriterOptions(write_options_));
+      arrow_schema_ = table.schema();
+      ORC_CATCH_NOT_OK(
+          writer_ = liborc::createWriter(*orc_schema_, out_stream_.get(), orc_options))
+    } else {
+      bool schemas_matching = table.schema()->Equals(arrow_schema_, false);
+      if (!schemas_matching) {
+        return Status::TypeError(
+            "The schema of the RecordBatch does not match"
+            " the initial schema. All exported RecordBatches/Tables"
+            " must have the same schema.\nInitial:\n",
+            *arrow_schema_, "\nCurrent:\n", *table.schema());
+      }
+    }
     auto batch_size = static_cast<uint64_t>(write_options_.batch_size);
-    ORC_CATCH_NOT_OK(
-        writer_ = liborc::createWriter(*orc_schema, out_stream_.get(), orc_options))
-
     int64_t num_rows = table.num_rows();
     const int num_cols = table.num_columns();
     std::vector<int64_t> arrow_index_offset(num_cols, 0);
@@ -744,7 +758,7 @@ class ORCFileWriter::Impl {
     while (num_rows > 0) {
       for (int i = 0; i < num_cols; i++) {
         RETURN_NOT_OK(adapters::orc::WriteBatch(
-            *(table.column(i)), batch_size, &(arrow_chunk_offset[i]),
+            *table.column(i), batch_size, &(arrow_chunk_offset[i]),
             &(arrow_index_offset[i]), (root->fields)[i]));
       }
       root->numElements = (root->fields)[0]->numElements;
@@ -765,7 +779,9 @@ class ORCFileWriter::Impl {
  private:
   std::unique_ptr<liborc::Writer> writer_;
   std::unique_ptr<liborc::OutputStream> out_stream_;
+  std::shared_ptr<Schema> arrow_schema_;
   WriteOptions write_options_;
+  ORC_UNIQUE_PTR<liborc::Type> orc_schema_;
 };
 
 ORCFileWriter::~ORCFileWriter() {}
@@ -783,6 +799,11 @@ Result<std::unique_ptr<ORCFileWriter>> ORCFileWriter::Open(
 
 Status ORCFileWriter::Write(const Table& table) { return impl_->Write(table); }
 
+Status ORCFileWriter::Write(const RecordBatch& record_batch) {
+  auto table = Table::Make(record_batch.schema(), record_batch.columns());
+  return impl_->Write(*table);
+}
+
 Status ORCFileWriter::Close() { return impl_->Close(); }
 
 }  // namespace orc
diff --git a/cpp/src/arrow/adapters/orc/adapter.h b/cpp/src/arrow/adapters/orc/adapter.h
index 59f63796bd0..013be78600a 100644
--- a/cpp/src/arrow/adapters/orc/adapter.h
+++ b/cpp/src/arrow/adapters/orc/adapter.h
@@ -35,6 +35,18 @@ namespace arrow {
 namespace adapters {
 namespace orc {
 
+/// \brief Information about an ORC stripe
+struct StripeInformation {
+  /// \brief Offset of the stripe from the start of the file, in bytes
+  int64_t offset;
+  /// \brief Length of the stripe, in bytes
+  int64_t length;
+  /// \brief Number of rows in the stripe
+  int64_t num_rows;
+  /// \brief Index of the first row of the stripe
+  int64_t first_row_id;
+};
+
 /// \class ORCFileReader
 /// \brief Read an Arrow Table or RecordBatch from an ORC file.
 class ARROW_EXPORT ORCFileReader {
@@ -168,6 +180,9 @@ class ARROW_EXPORT ORCFileReader {
   /// \brief The number of rows in the file
   int64_t NumberOfRows();
 
+  /// \brief StripeInformation for each stripe.
+  StripeInformation GetStripeInformation(int64_t stripe);
+
   /// \brief Get the format version of the file.
   ///         Currently known values are 0.11 and 0.12.
   ///
@@ -272,12 +287,24 @@ class ARROW_EXPORT ORCFileWriter {
       io::OutputStream* output_stream,
       const WriteOptions& write_options = WriteOptions());
 
-  /// \brief Write a table
+  /// \brief Write a table. This can be called multiple times.
+  ///
+  /// Tables passed in subsequent calls must match the schema of the table that was
+  /// written first.
   ///
-  /// \param[in] table the Arrow table from which data is extracted
+  /// \param[in] table the Arrow table from which data is extracted.
   /// \return Status
   Status Write(const Table& table);
 
+  /// \brief Write a RecordBatch. This can be called multiple times.
+  ///
+  /// RecordBatches passed in subsequent calls must match the schema of the
+  /// RecordBatch that was written first.
+  ///
+  /// \param[in] record_batch the Arrow RecordBatch from which data is extracted.
+  /// \return Status
+  Status Write(const RecordBatch& record_batch);
+
   /// \brief Close an ORC writer (orc::Writer)
   ///
   /// \return Status
diff --git a/cpp/src/arrow/adapters/orc/adapter_test.cc b/cpp/src/arrow/adapters/orc/adapter_test.cc
index 6914d6b9c18..c119e5cbeb8 100644
--- a/cpp/src/arrow/adapters/orc/adapter_test.cc
+++ b/cpp/src/arrow/adapters/orc/adapter_test.cc
@@ -15,6 +15,7 @@
 // specific language governing permissions and limitations
 // under the License.
 
+#include <gmock/gmock-matchers.h>
 #include <gtest/gtest.h>
 
 #include <orc/OrcFile.hh>
@@ -42,22 +43,22 @@ namespace arrow {
 
 using internal::checked_pointer_cast;
 
-constexpr int kDefaultSmallMemStreamSize = 16384 * 5;  // 80KB
-constexpr int kDefaultMemStreamSize = 10 * 1024 * 1024;
+constexpr size_t kDefaultSmallMemStreamSize = 16384 * 5;  // 80KB
+constexpr size_t kDefaultMemStreamSize = 10 * 1024 * 1024;
 constexpr int64_t kNanoMax = std::numeric_limits<int64_t>::max();
 constexpr int64_t kNanoMin = std::numeric_limits<int64_t>::lowest();
-const int64_t kMicroMax = std::floor(kNanoMax / 1000);
-const int64_t kMicroMin = std::ceil(kNanoMin / 1000);
-const int64_t kMilliMax = std::floor(kMicroMax / 1000);
-const int64_t kMilliMin = std::ceil(kMicroMin / 1000);
-const int64_t kSecondMax = std::floor(kMilliMax / 1000);
-const int64_t kSecondMin = std::ceil(kMilliMin / 1000);
+const int64_t kMicroMax = static_cast<int64_t>(std::floor(kNanoMax / 1000));
+const int64_t kMicroMin = static_cast<int64_t>(std::ceil(kNanoMin / 1000));
+const int64_t kMilliMax = static_cast<int64_t>(std::floor(kMicroMax / 1000));
+const int64_t kMilliMin = static_cast<int64_t>(std::ceil(kMicroMin / 1000));
+const int64_t kSecondMax = static_cast<int64_t>(std::floor(kMilliMax / 1000));
+const int64_t kSecondMin = static_cast<int64_t>(std::ceil(kMilliMin / 1000));
 
 static constexpr random::SeedType kRandomSeed = 0x0ff1ce;
 
 class MemoryOutputStream : public liborc::OutputStream {
  public:
-  explicit MemoryOutputStream(ssize_t capacity)
+  explicit MemoryOutputStream(size_t capacity)
       : data_(capacity), name_("MemoryOutputStream"), length_(0) {}
 
   uint64_t getLength() const override { return length_; }
@@ -86,12 +87,13 @@ class MemoryOutputStream : public liborc::OutputStream {
 std::shared_ptr<Buffer> GenerateFixedDifferenceBuffer(int32_t fixed_length,
                                                       int64_t length) {
   BufferBuilder builder;
-  int32_t offsets[length];
+  std::vector<int32_t> offsets;
+  offsets.resize(length);
   ARROW_EXPECT_OK(builder.Resize(4 * length));
-  for (int32_t i = 0; i < length; i++) {
-    offsets[i] = fixed_length * i;
+  for (int64_t i = 0; i < length; i++) {
+    offsets[i] = static_cast<int32_t>(fixed_length * i);
   }
-  ARROW_EXPECT_OK(builder.Append(offsets, 4 * length));
+  ARROW_EXPECT_OK(builder.Append(offsets.data(), 4 * length));
   std::shared_ptr<Buffer> buffer;
   ARROW_EXPECT_OK(builder.Finish(&buffer));
   return buffer;
@@ -173,7 +175,7 @@ void RandWeakComposition(int64_t n, T sum, std::vector<U>* out) {
     return static_cast<U>(res);
   });
   (*out)[n - 1] += remaining_sum;
-  std::random_shuffle(out->begin(), out->end());
+  std::shuffle(out->begin(), out->end(), gen);
 }
 
 std::shared_ptr<ChunkedArray> GenerateRandomChunkedArray(
@@ -223,9 +225,10 @@ std::shared_ptr<Table> GenerateRandomTable(const std::shared_ptr<Schema>& schema
   return Table::Make(schema, cv);
 }
 
-void AssertTableWriteReadEqual(const std::shared_ptr<Table>& input_table,
+void AssertTableWriteReadEqual(const std::vector<std::shared_ptr<Table>>& input_tables,
                                const std::shared_ptr<Table>& expected_output_table,
-                               const int64_t max_size = kDefaultSmallMemStreamSize) {
+                               const int64_t max_size = kDefaultSmallMemStreamSize,
+                               std::vector<int>* opt_selected_read_indices = nullptr) {
   EXPECT_OK_AND_ASSIGN(auto buffer_output_stream,
                        io::BufferOutputStream::Create(max_size));
   auto write_options = adapters::orc::WriteOptions();
@@ -239,7 +242,46 @@ void AssertTableWriteReadEqual(const std::shared_ptr<Table>& input_table,
   write_options.row_index_stride = 5000;
   EXPECT_OK_AND_ASSIGN(auto writer, adapters::orc::ORCFileWriter::Open(
                                         buffer_output_stream.get(), write_options));
-  ARROW_EXPECT_OK(writer->Write(*input_table));
+  for (const auto& input_table : input_tables) {
+    ARROW_EXPECT_OK(writer->Write(*input_table));
+  }
+  ARROW_EXPECT_OK(writer->Close());
+  EXPECT_OK_AND_ASSIGN(auto buffer, buffer_output_stream->Finish());
+  std::shared_ptr<io::RandomAccessFile> in_stream(new io::BufferReader(buffer));
+  EXPECT_OK_AND_ASSIGN(
+      auto reader, adapters::orc::ORCFileReader::Open(in_stream, default_memory_pool()));
+  ASSERT_EQ(reader->GetFileVersion(), write_options.file_version);
+  ASSERT_EQ(reader->GetCompression(), write_options.compression);
+  ASSERT_EQ(reader->GetCompressionSize(), write_options.compression_block_size);
+  ASSERT_EQ(reader->GetRowIndexStride(), write_options.row_index_stride);
+  EXPECT_OK_AND_ASSIGN(auto actual_output_table,
+                       opt_selected_read_indices == nullptr
+                           ? reader->Read()
+                           : reader->Read(*opt_selected_read_indices));
+  ASSERT_OK(actual_output_table->ValidateFull());
+  AssertTablesEqual(*expected_output_table, *actual_output_table, false, false);
+}
+
+void AssertBatchWriteReadEqual(
+    const std::vector<std::shared_ptr<RecordBatch>>& input_batches,
+    const std::shared_ptr<Table>& expected_output_table,
+    const int64_t max_size = kDefaultSmallMemStreamSize) {
+  EXPECT_OK_AND_ASSIGN(auto buffer_output_stream,
+                       io::BufferOutputStream::Create(max_size));
+  auto write_options = adapters::orc::WriteOptions();
+#ifdef ARROW_WITH_SNAPPY
+  write_options.compression = Compression::SNAPPY;
+#else
+  write_options.compression = Compression::UNCOMPRESSED;
+#endif
+  write_options.file_version = adapters::orc::FileVersion(0, 11);
+  write_options.compression_block_size = 32768;
+  write_options.row_index_stride = 5000;
+  EXPECT_OK_AND_ASSIGN(auto writer, adapters::orc::ORCFileWriter::Open(
+                                        buffer_output_stream.get(), write_options));
+  for (auto& input_batch : input_batches) {
+    ARROW_EXPECT_OK(writer->Write(*input_batch));
+  }
   ARROW_EXPECT_OK(writer->Close());
   EXPECT_OK_AND_ASSIGN(auto buffer, buffer_output_stream->Finish());
   std::shared_ptr<io::RandomAccessFile> in_stream(new io::BufferReader(buffer));
@@ -253,6 +295,15 @@ void AssertTableWriteReadEqual(const std::shared_ptr<Table>& input_table,
   AssertTablesEqual(*expected_output_table, *actual_output_table, false, false);
 }
 
+void AssertTableWriteReadEqual(const std::shared_ptr<Table>& input_table,
+                               const std::shared_ptr<Table>& expected_output_table,
+                               const int64_t max_size = kDefaultSmallMemStreamSize,
+                               std::vector<int>* opt_selected_read_indices = nullptr) {
+  std::vector<std::shared_ptr<Table>> input_tables;
+  input_tables.push_back(input_table);
+  AssertTableWriteReadEqual(input_tables, expected_output_table, max_size,
+                            opt_selected_read_indices);
+}
 void AssertArrayWriteReadEqual(const std::shared_ptr<Array>& input_array,
                                const std::shared_ptr<Array>& expected_output_array,
                                const int64_t max_size = kDefaultSmallMemStreamSize) {
@@ -341,6 +392,10 @@ TEST(TestAdapterRead, ReadIntAndStringFileMultipleStripes) {
   ASSERT_TRUE(metadata->Equals(*expected_metadata));
   ASSERT_EQ(stripe_row_count * stripe_count, reader->NumberOfRows());
   ASSERT_EQ(stripe_count, reader->NumberOfStripes());
+  ASSERT_EQ(static_cast<int64_t>(stripe_row_count),
+            reader->GetStripeInformation(0).num_rows);
+  ASSERT_EQ(static_cast<int64_t>(reader->NumberOfRows() - stripe_row_count),
+            reader->GetStripeInformation(stripe_count - 1).first_row_id);
   accumulated = 0;
   EXPECT_OK_AND_ASSIGN(auto stripe_reader, reader->NextStripeReader(reader_batch_size));
   while (stripe_reader) {
@@ -450,6 +505,37 @@ TEST_F(TestORCWriterTrivialNoConversion, writeChunkless) {
   std::shared_ptr<Table> table = TableFromJSON(table_schema, {});
   AssertTableWriteReadEqual(table, table, kDefaultSmallMemStreamSize / 16);
 }
+TEST_F(TestORCWriterTrivialNoConversion, writeTrivialChunkAndSelectField) {
+  std::shared_ptr<Table> table = TableFromJSON(table_schema, {R"([])"});
+  std::shared_ptr<Schema> schema_selected =
+      schema({field("int8", int8()), field("int32", int32())});
+  std::shared_ptr<Table> table_selected = TableFromJSON(schema_selected, {R"([])"});
+  std::vector<int> selected_indices = {1, 3};
+  AssertTableWriteReadEqual(table, table_selected, kDefaultSmallMemStreamSize / 16,
+                            &selected_indices);
+}
+TEST_F(TestORCWriterTrivialNoConversion, writeFilledChunkAndSelectField) {
+  std::vector<int> selected_indices = {1, 7};
+  random::RandomArrayGenerator rand(kRandomSeed);
+  std::shared_ptr<Schema> local_schema = schema({
+      field("bool", boolean()),
+      field("int32", int32()),
+      field("int64", int64()),
+      field("float", float32()),
+      field("struct", struct_({field("a", utf8()), field("b", int64())})),
+      field("double", float64()),
+      field("date32", date32()),
+      field("ts3", timestamp(TimeUnit::NANO)),
+      field("string", utf8()),
+      field("binary", binary()),
+  });
+  auto batch = rand.BatchOf(local_schema->fields(), 100);
+  std::shared_ptr<Table> table = Table::Make(local_schema, batch->columns());
+  EXPECT_OK_AND_ASSIGN(auto table_selected, table->SelectColumns(selected_indices));
+  AssertTableWriteReadEqual(table, table_selected, kDefaultSmallMemStreamSize,
+                            &selected_indices);
+}
+
 class TestORCWriterTrivialWithConversion : public ::testing::Test {
  public:
   TestORCWriterTrivialWithConversion() {
@@ -487,6 +573,21 @@ TEST_F(TestORCWriterTrivialWithConversion, writeChunkless) {
                             kDefaultSmallMemStreamSize / 16);
 }
 
+class TestORCWriterInvalidTypes : public ::testing::Test {};
+
+TEST_F(TestORCWriterInvalidTypes, noWriteInvalidTypes) {
+  // Unsigned integers are not supported by ORC
+  std::shared_ptr<arrow::Schema> table_schema = schema({field("uint64", uint64())});
+  const std::shared_ptr<Table> table = GenerateRandomTable(table_schema, 100, 1, 1, 0);
+  EXPECT_OK_AND_ASSIGN(auto buffer_output_stream,
+                       io::BufferOutputStream::Create(kDefaultSmallMemStreamSize / 16));
+  EXPECT_OK_AND_ASSIGN(auto writer,
+                       adapters::orc::ORCFileWriter::Open(buffer_output_stream.get()));
+  EXPECT_RAISES_WITH_MESSAGE_THAT(NotImplemented,
+                                  testing::HasSubstr("Unknown or unsupported Arrow type"),
+                                  writer->Write(*table));
+}
+
 // General
 
 class TestORCWriterNoConversion : public ::testing::Test {
@@ -730,4 +831,69 @@ TEST_F(TestORCWriterSingleArray, WriteListOfMap) {
   AssertArrayWriteReadEqual(array, array, kDefaultSmallMemStreamSize * 10);
 }
 
+class TestORCWriterMultipleWrite : public ::testing::Test {
+ public:
+  TestORCWriterMultipleWrite() : rand(kRandomSeed) {}
+
+ protected:
+  random::RandomArrayGenerator rand;
+};
+
+TEST_F(TestORCWriterMultipleWrite, MultipleWritesIntField) {
+  const int64_t num_rows = 1234;
+  const int num_writes = 5;
+  std::shared_ptr<Schema> input_schema = schema({field("col0", int32())});
+  ArrayVector vect;
+  std::vector<std::shared_ptr<Table>> input_tables;
+  for (int i = 0; i < num_writes; i++) {
+    auto array_int = rand.ArrayOf(int32(), num_rows, 0);
+    vect.push_back(array_int);
+    auto input_chunked_array = std::make_shared<ChunkedArray>(array_int);
+    input_tables.emplace_back(Table::Make(input_schema, {input_chunked_array}));
+  }
+  auto expected_output_chunked_array = std::make_shared<ChunkedArray>(vect);
+  std::shared_ptr<Table> expected_output_table =
+      Table::Make(input_schema, {expected_output_chunked_array});
+  AssertTableWriteReadEqual(input_tables, expected_output_table,
+                            kDefaultSmallMemStreamSize * 100);
+}
+
+TEST_F(TestORCWriterMultipleWrite, MultipleWritesIncoherentSchema) {
+  const int64_t num_rows = 1234;
+  auto array_int = rand.ArrayOf(int32(), num_rows, 0);
+  std::shared_ptr<Schema> input_schema = schema({field("col0", array_int->type())});
+  auto array_int2 = rand.ArrayOf(int64(), num_rows, 0);
+  std::shared_ptr<Schema> input_schema2 = schema({field("col0", array_int2->type())});
+
+  std::shared_ptr<Table> input_table = Table::Make(input_schema, {array_int});
+  std::shared_ptr<Table> input_table2 = Table::Make(input_schema2, {array_int2});
+  EXPECT_OK_AND_ASSIGN(auto buffer_output_stream,
+                       io::BufferOutputStream::Create(kDefaultSmallMemStreamSize));
+  auto write_options = adapters::orc::WriteOptions();
+  EXPECT_OK_AND_ASSIGN(auto writer, adapters::orc::ORCFileWriter::Open(
+                                        buffer_output_stream.get(), write_options));
+  ARROW_EXPECT_OK(writer->Write(*input_table));
+
+  // This should not pass
+  ASSERT_RAISES(TypeError, writer->Write(*input_table2));
+
+  ARROW_EXPECT_OK(writer->Close());
+}
+TEST_F(TestORCWriterMultipleWrite, MultipleWritesIntFieldRecordBatch) {
+  const int64_t num_rows = 1234;
+  const int num_writes = 5;
+  std::shared_ptr<Schema> input_schema = schema({field("col0", int32())});
+  ArrayVector vect;
+  std::vector<std::shared_ptr<RecordBatch>> input_batches;
+  for (int i = 0; i < num_writes; i++) {
+    auto array_int = rand.ArrayOf(int32(), num_rows, 0);
+    vect.push_back(array_int);
+    input_batches.emplace_back(RecordBatch::Make(input_schema, num_rows, {array_int}));
+  }
+  auto expected_output_chunked_array = std::make_shared<ChunkedArray>(vect);
+  std::shared_ptr<Table> expected_output_table =
+      Table::Make(input_schema, {expected_output_chunked_array});
+  AssertBatchWriteReadEqual(input_batches, expected_output_table,
+                            kDefaultSmallMemStreamSize * 100);
+}
 }  // namespace arrow
diff --git a/cpp/src/arrow/adapters/orc/util.cc b/cpp/src/arrow/adapters/orc/util.cc
index dbdb110fb46..234fb32bee6 100644
--- a/cpp/src/arrow/adapters/orc/util.cc
+++ b/cpp/src/arrow/adapters/orc/util.cc
@@ -19,6 +19,7 @@
 
 #include <cmath>
 #include <string>
+#include <string_view>
 #include <vector>
 
 #include "arrow/array/builder_base.h"
@@ -30,7 +31,7 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/decimal.h"
 #include "arrow/util/range.h"
-#include "arrow/util/string_view.h"
+#include "arrow/util/string.h"
 #include "arrow/visit_data_inline.h"
 
 #include "orc/Exceptions.hh"
@@ -43,6 +44,7 @@ namespace liborc = orc;
 namespace arrow {
 
 using internal::checked_cast;
+using internal::ToChars;
 
 namespace adapters {
 namespace orc {
@@ -462,7 +464,7 @@ struct Appender<DataType, liborc::StringVectorBatch> {
     running_arrow_offset++;
     return Status::OK();
   }
-  Status VisitValue(util::string_view v) {
+  Status VisitValue(std::string_view v) {
     batch->notNull[running_orc_offset] = true;
     COffsetType data_length = 0;
     batch->data[running_orc_offset] = reinterpret_cast<char*>(
@@ -486,7 +488,7 @@ struct Appender<Decimal128Type, liborc::Decimal64VectorBatch> {
     running_arrow_offset++;
     return Status::OK();
   }
-  Status VisitValue(util::string_view v) {
+  Status VisitValue(std::string_view v) {
     batch->notNull[running_orc_offset] = true;
     const Decimal128 dec_value(array.GetValue(running_arrow_offset));
     batch->values[running_orc_offset] = static_cast<int64_t>(dec_value.low_bits());
@@ -507,7 +509,7 @@ struct Appender<Decimal128Type, liborc::Decimal128VectorBatch> {
     running_arrow_offset++;
     return Status::OK();
   }
-  Status VisitValue(util::string_view v) {
+  Status VisitValue(std::string_view v) {
     batch->notNull[running_orc_offset] = true;
     const Decimal128 dec_value(array.GetValue(running_arrow_offset));
     batch->values[running_orc_offset] =
@@ -557,7 +559,7 @@ struct FixedSizeBinaryAppender {
     running_arrow_offset++;
     return Status::OK();
   }
-  Status VisitValue(util::string_view v) {
+  Status VisitValue(std::string_view v) {
     batch->notNull[running_orc_offset] = true;
     batch->data[running_orc_offset] = reinterpret_cast<char*>(
         const_cast<uint8_t*>(array.GetValue(running_arrow_offset)));
@@ -1020,7 +1022,7 @@ Result<std::shared_ptr<DataType>> GetArrowType(const liborc::Type* type) {
       std::vector<int8_t> type_codes(subtype_count);
       for (int child = 0; child < subtype_count; ++child) {
         ARROW_ASSIGN_OR_RAISE(auto elem_type, GetArrowType(type->getSubtype(child)));
-        fields[child] = field("_union_" + std::to_string(child), std::move(elem_type));
+        fields[child] = field("_union_" + ToChars(child), std::move(elem_type));
         type_codes[child] = static_cast<int8_t>(child);
       }
       return sparse_union(std::move(fields), std::move(type_codes));
diff --git a/cpp/src/arrow/array/array_base.h b/cpp/src/arrow/array/array_base.h
index b1892e1f2c8..2333a0c06fb 100644
--- a/cpp/src/arrow/array/array_base.h
+++ b/cpp/src/arrow/array/array_base.h
@@ -207,7 +207,7 @@ class ARROW_EXPORT Array {
  private:
   ARROW_DISALLOW_COPY_AND_ASSIGN(Array);
 
-  ARROW_EXPORT friend void PrintTo(const Array& x, std::ostream* os);
+  ARROW_FRIEND_EXPORT friend void PrintTo(const Array& x, std::ostream* os);
 };
 
 static inline std::ostream& operator<<(std::ostream& os, const Array& x) {
diff --git a/cpp/src/arrow/array/array_binary.h b/cpp/src/arrow/array/array_binary.h
index 04ee804987f..7e58a96ff84 100644
--- a/cpp/src/arrow/array/array_binary.h
+++ b/cpp/src/arrow/array/array_binary.h
@@ -23,6 +23,7 @@
 #include <cstdint>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <vector>
 
 #include "arrow/array/array_base.h"
@@ -32,7 +33,6 @@
 #include "arrow/type.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/string_view.h"  // IWYU pragma: export
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -67,15 +67,15 @@ class BaseBinaryArray : public FlatArray {
   ///
   /// \param i the value index
   /// \return the view over the selected value
-  util::string_view GetView(int64_t i) const {
+  std::string_view GetView(int64_t i) const {
     // Account for base offset
     i += data_->offset;
     const offset_type pos = raw_value_offsets_[i];
-    return util::string_view(reinterpret_cast<const char*>(raw_data_ + pos),
-                             raw_value_offsets_[i + 1] - pos);
+    return std::string_view(reinterpret_cast<const char*>(raw_data_ + pos),
+                            raw_value_offsets_[i + 1] - pos);
   }
 
-  util::optional<util::string_view> operator[](int64_t i) const {
+  std::optional<std::string_view> operator[](int64_t i) const {
     return *IteratorType(*this, i);
   }
 
@@ -84,7 +84,7 @@ class BaseBinaryArray : public FlatArray {
   ///
   /// \param i the value index
   /// \return the view over the selected value
-  util::string_view Value(int64_t i) const { return GetView(i); }
+  std::string_view Value(int64_t i) const { return GetView(i); }
 
   /// \brief Get binary value as a std::string
   ///
@@ -236,11 +236,11 @@ class ARROW_EXPORT FixedSizeBinaryArray : public PrimitiveArray {
   const uint8_t* GetValue(int64_t i) const;
   const uint8_t* Value(int64_t i) const { return GetValue(i); }
 
-  util::string_view GetView(int64_t i) const {
-    return util::string_view(reinterpret_cast<const char*>(GetValue(i)), byte_width());
+  std::string_view GetView(int64_t i) const {
+    return std::string_view(reinterpret_cast<const char*>(GetValue(i)), byte_width());
   }
 
-  util::optional<util::string_view> operator[](int64_t i) const {
+  std::optional<std::string_view> operator[](int64_t i) const {
     return *IteratorType(*this, i);
   }
 
diff --git a/cpp/src/arrow/array/array_binary_test.cc b/cpp/src/arrow/array/array_binary_test.cc
index b7225eb8b7d..3bc9bb91a02 100644
--- a/cpp/src/arrow/array/array_binary_test.cc
+++ b/cpp/src/arrow/array/array_binary_test.cc
@@ -19,6 +19,7 @@
 #include <cstring>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <vector>
 
 #include <gmock/gmock-matchers.h>
@@ -37,7 +38,6 @@
 #include "arrow/util/bit_util.h"
 #include "arrow/util/bitmap_builders.h"
 #include "arrow/util/checked_cast.h"
-#include "arrow/util/string_view.h"
 #include "arrow/visit_data_inline.h"
 
 namespace arrow {
@@ -63,7 +63,7 @@ void CheckStringArray(const ArrayType& array, const std::vector<std::string>& st
       auto view = array.GetView(i);
       ASSERT_EQ(value_pos, array.value_offset(i));
       ASSERT_EQ(strings[j].size(), view.size());
-      ASSERT_EQ(util::string_view(strings[j]), view);
+      ASSERT_EQ(std::string_view(strings[j]), view);
       value_pos += static_cast<int32_t>(view.size());
     } else {
       ASSERT_TRUE(array.IsNull(i));
@@ -256,7 +256,7 @@ class TestStringArray : public ::testing::Test {
   }
 
   Status ValidateFull(int64_t length, std::vector<offset_type> offsets,
-                      util::string_view data, int64_t offset = 0) {
+                      std::string_view data, int64_t offset = 0) {
     ArrayType arr(length, Buffer::Wrap(offsets), std::make_shared<Buffer>(data),
                   /*null_bitmap=*/nullptr, /*null_count=*/0, offset);
     return arr.ValidateFull();
@@ -373,7 +373,7 @@ class TestUTF8Array : public ::testing::Test {
   using ArrayType = typename TypeTraits<TypeClass>::ArrayType;
 
   Status ValidateUTF8(int64_t length, std::vector<offset_type> offsets,
-                      util::string_view data, int64_t offset = 0) {
+                      std::string_view data, int64_t offset = 0) {
     ArrayType arr(length, Buffer::Wrap(offsets), std::make_shared<Buffer>(data),
                   /*null_bitmap=*/nullptr, /*null_count=*/0, offset);
     return arr.ValidateUTF8();
@@ -867,12 +867,12 @@ struct BinaryAppender {
     return Status::OK();
   }
 
-  Status VisitValue(util::string_view v) {
+  Status VisitValue(std::string_view v) {
     data.push_back(v);
     return Status::OK();
   }
 
-  std::vector<util::string_view> data;
+  std::vector<std::string_view> data;
 };
 
 template <typename T>
diff --git a/cpp/src/arrow/array/array_dict_test.cc b/cpp/src/arrow/array/array_dict_test.cc
index 9193e1d21ac..bfa732f165f 100644
--- a/cpp/src/arrow/array/array_dict_test.cc
+++ b/cpp/src/arrow/array/array_dict_test.cc
@@ -711,7 +711,7 @@ TEST(TestFixedSizeBinaryDictionaryBuilder, ArrayInit) {
   // Build the dictionary Array
   auto value_type = fixed_size_binary(4);
   auto dict_array = ArrayFromJSON(value_type, R"(["abcd", "wxyz"])");
-  util::string_view test = "abcd", test2 = "wxyz";
+  std::string_view test = "abcd", test2 = "wxyz";
   DictionaryBuilder<FixedSizeBinaryType> builder(dict_array);
   ASSERT_OK(builder.Append(test));
   ASSERT_OK(builder.Append(test2));
@@ -735,7 +735,7 @@ TEST(TestFixedSizeBinaryDictionaryBuilder, MakeBuilder) {
   std::unique_ptr<ArrayBuilder> boxed_builder;
   ASSERT_OK(MakeBuilder(default_memory_pool(), dict_type, &boxed_builder));
   auto& builder = checked_cast<DictionaryBuilder<FixedSizeBinaryType>&>(*boxed_builder);
-  util::string_view test = "abcd", test2 = "wxyz";
+  std::string_view test = "abcd", test2 = "wxyz";
   ASSERT_OK(builder.Append(test));
   ASSERT_OK(builder.Append(test2));
   ASSERT_OK(builder.Append(test));
@@ -1317,12 +1317,12 @@ TEST(TestDictionary, ListOfDictionary) {
 
   ASSERT_OK(list_builder->Append());
   std::vector<std::string> expected;
-  for (char a : util::string_view("abc")) {
-    for (char d : util::string_view("def")) {
-      for (char g : util::string_view("ghi")) {
-        for (char j : util::string_view("jkl")) {
-          for (char m : util::string_view("mno")) {
-            for (char p : util::string_view("pqr")) {
+  for (char a : std::string_view("abc")) {
+    for (char d : std::string_view("def")) {
+      for (char g : std::string_view("ghi")) {
+        for (char j : std::string_view("jkl")) {
+          for (char m : std::string_view("mno")) {
+            for (char p : std::string_view("pqr")) {
               if ((static_cast<int>(a) + d + g + j + m + p) % 16 == 0) {
                 ASSERT_OK(list_builder->Append());
               }
diff --git a/cpp/src/arrow/array/array_list_test.cc b/cpp/src/arrow/array/array_list_test.cc
index def01379e06..f8c24b71e06 100644
--- a/cpp/src/arrow/array/array_list_test.cc
+++ b/cpp/src/arrow/array/array_list_test.cc
@@ -197,6 +197,42 @@ class TestListArray : public ::testing::Test {
     EXPECT_FALSE(left->Slice(offset)->Equals(right->Slice(offset)));
   }
 
+  void TestFromArraysWithNullBitMap() {
+    std::shared_ptr<Array> offsets_w_nulls, offsets_wo_nulls, values;
+
+    std::vector<offset_type> offsets = {0, 1, 1, 3, 4};
+    std::vector<bool> offsets_w_nulls_is_valid = {true, false, true, true, true};
+
+    ArrayFromVector<OffsetType, offset_type>(offsets_w_nulls_is_valid, offsets,
+                                             &offsets_w_nulls);
+    ArrayFromVector<OffsetType, offset_type>(offsets, &offsets_wo_nulls);
+
+    auto type = std::make_shared<T>(int32());
+    auto expected = std::dynamic_pointer_cast<ArrayType>(
+        ArrayFromJSON(type, "[[0], null, [0, null], [0]]"));
+    values = expected->values();
+
+    // Offsets with nulls will match.
+    ASSERT_OK_AND_ASSIGN(auto result,
+                         ArrayType::FromArrays(*offsets_w_nulls, *values, pool_));
+    AssertArraysEqual(*result, *expected);
+
+    // Offets without nulls, will replace null with empty list
+    ASSERT_OK_AND_ASSIGN(result,
+                         ArrayType::FromArrays(*offsets_wo_nulls, *values, pool_));
+    AssertArraysEqual(*result, *std::dynamic_pointer_cast<ArrayType>(
+                                   ArrayFromJSON(type, "[[0], [], [0, null], [0]]")));
+
+    // Specify non-null offsets with null_bitmap
+    ASSERT_OK_AND_ASSIGN(result, ArrayType::FromArrays(*offsets_wo_nulls, *values, pool_,
+                                                       expected->null_bitmap()));
+    AssertArraysEqual(*result, *expected);
+
+    // Cannot specify both null offsets with null_bitmap
+    ASSERT_RAISES(Invalid, ArrayType::FromArrays(*offsets_w_nulls, *values, pool_,
+                                                 expected->null_bitmap()));
+  }
+
   void TestFromArrays() {
     std::shared_ptr<Array> offsets1, offsets2, offsets3, offsets4, offsets5, values;
 
@@ -539,6 +575,10 @@ TYPED_TEST(TestListArray, ValuesEquality) { this->TestValuesEquality(); }
 
 TYPED_TEST(TestListArray, FromArrays) { this->TestFromArrays(); }
 
+TYPED_TEST(TestListArray, FromArraysWithNullBitMap) {
+  this->TestFromArraysWithNullBitMap();
+}
+
 TYPED_TEST(TestListArray, AppendNull) { this->TestAppendNull(); }
 
 TYPED_TEST(TestListArray, AppendNulls) { this->TestAppendNulls(); }
@@ -607,11 +647,11 @@ TEST_F(TestMapArray, Equality) {
 
   std::shared_ptr<Array> array, equal_array, unequal_array;
   std::vector<int32_t> equal_offsets = {0, 1, 2, 5, 6, 7, 8, 10};
-  std::vector<util::string_view> equal_keys = {"a", "a", "a", "b", "c",
-                                               "a", "a", "a", "a", "b"};
+  std::vector<std::string_view> equal_keys = {"a", "a", "a", "b", "c",
+                                              "a", "a", "a", "a", "b"};
   std::vector<int32_t> equal_values = {1, 2, 3, 4, 5, 2, 2, 2, 5, 6};
   std::vector<int32_t> unequal_offsets = {0, 1, 4, 7};
-  std::vector<util::string_view> unequal_keys = {"a", "a", "b", "c", "a", "b", "c"};
+  std::vector<std::string_view> unequal_keys = {"a", "a", "b", "c", "a", "b", "c"};
   std::vector<int32_t> unequal_values = {1, 2, 2, 2, 3, 4, 5};
 
   // setup two equal arrays
diff --git a/cpp/src/arrow/array/array_nested.cc b/cpp/src/arrow/array/array_nested.cc
index 64edec0c7aa..628259f0f6c 100644
--- a/cpp/src/arrow/array/array_nested.cc
+++ b/cpp/src/arrow/array/array_nested.cc
@@ -17,6 +17,7 @@
 
 #include "arrow/array/array_nested.h"
 
+#include <atomic>
 #include <cstddef>
 #include <cstdint>
 #include <memory>
@@ -33,7 +34,6 @@
 #include "arrow/type.h"
 #include "arrow/type_fwd.h"
 #include "arrow/type_traits.h"
-#include "arrow/util/atomic_shared_ptr.h"
 #include "arrow/util/bit_util.h"
 #include "arrow/util/bitmap_generate.h"
 #include "arrow/util/bitmap_ops.h"
@@ -103,7 +103,8 @@ Status CleanListOffsets(const Array& offsets, MemoryPool* pool,
 template <typename TYPE>
 Result<std::shared_ptr<typename TypeTraits<TYPE>::ArrayType>> ListArrayFromArrays(
     std::shared_ptr<DataType> type, const Array& offsets, const Array& values,
-    MemoryPool* pool) {
+    MemoryPool* pool, std::shared_ptr<Buffer> null_bitmap = NULLPTR,
+    int64_t null_count = kUnknownNullCount) {
   using offset_type = typename TYPE::offset_type;
   using ArrayType = typename TypeTraits<TYPE>::ArrayType;
   using OffsetArrowType = typename CTypeTraits<offset_type>::ArrowType;
@@ -116,14 +117,24 @@ Result<std::shared_ptr<typename TypeTraits<TYPE>::ArrayType>> ListArrayFromArray
     return Status::TypeError("List offsets must be ", OffsetArrowType::type_name());
   }
 
+  if (null_bitmap != nullptr && offsets.null_count() > 0) {
+    return Status::Invalid(
+        "Ambiguous to specify both validity map and offsets with nulls");
+  }
+
+  if (null_bitmap != nullptr && offsets.offset() != 0) {
+    return Status::NotImplemented("Null bitmap with offsets slice not supported.");
+  }
+
   std::shared_ptr<Buffer> offset_buf, validity_buf;
   RETURN_NOT_OK(CleanListOffsets<TYPE>(offsets, pool, &offset_buf, &validity_buf));
-  BufferVector buffers = {validity_buf, offset_buf};
+  int64_t null_count_ = null_bitmap ? null_count : offsets.null_count();
+  BufferVector buffers = {null_bitmap ? std::move(null_bitmap) : validity_buf,
+                          offset_buf};
 
-  auto internal_data = ArrayData::Make(type, offsets.length() - 1, std::move(buffers),
-                                       offsets.null_count(), offsets.offset());
+  std::shared_ptr<arrow::ArrayData> internal_data = ArrayData::Make(
+      type, offsets.length() - 1, std::move(buffers), null_count_, offsets.offset());
   internal_data->child_data.push_back(values.data());
-
   return std::make_shared<ArrayType>(internal_data);
 }
 
@@ -231,17 +242,16 @@ void LargeListArray::SetData(const std::shared_ptr<ArrayData>& data) {
   internal::SetListData(this, data);
 }
 
-Result<std::shared_ptr<ListArray>> ListArray::FromArrays(const Array& offsets,
-                                                         const Array& values,
-                                                         MemoryPool* pool) {
+Result<std::shared_ptr<ListArray>> ListArray::FromArrays(
+    const Array& offsets, const Array& values, MemoryPool* pool,
+    std::shared_ptr<Buffer> null_bitmap, int64_t null_count) {
   return ListArrayFromArrays<ListType>(std::make_shared<ListType>(values.type()), offsets,
-                                       values, pool);
+                                       values, pool, null_bitmap, null_count);
 }
 
-Result<std::shared_ptr<ListArray>> ListArray::FromArrays(std::shared_ptr<DataType> type,
-                                                         const Array& offsets,
-                                                         const Array& values,
-                                                         MemoryPool* pool) {
+Result<std::shared_ptr<ListArray>> ListArray::FromArrays(
+    std::shared_ptr<DataType> type, const Array& offsets, const Array& values,
+    MemoryPool* pool, std::shared_ptr<Buffer> null_bitmap, int64_t null_count) {
   if (type->id() != Type::LIST) {
     return Status::TypeError("Expected list type, got ", type->ToString());
   }
@@ -249,19 +259,21 @@ Result<std::shared_ptr<ListArray>> ListArray::FromArrays(std::shared_ptr<DataTyp
   if (!list_type.value_type()->Equals(values.type())) {
     return Status::TypeError("Mismatching list value type");
   }
-  return ListArrayFromArrays<ListType>(std::move(type), offsets, values, pool);
+  return ListArrayFromArrays<ListType>(std::move(type), offsets, values, pool,
+                                       null_bitmap, null_count);
 }
 
-Result<std::shared_ptr<LargeListArray>> LargeListArray::FromArrays(const Array& offsets,
-                                                                   const Array& values,
-                                                                   MemoryPool* pool) {
+Result<std::shared_ptr<LargeListArray>> LargeListArray::FromArrays(
+    const Array& offsets, const Array& values, MemoryPool* pool,
+    std::shared_ptr<Buffer> null_bitmap, int64_t null_count) {
   return ListArrayFromArrays<LargeListType>(
-      std::make_shared<LargeListType>(values.type()), offsets, values, pool);
+      std::make_shared<LargeListType>(values.type()), offsets, values, pool, null_bitmap,
+      null_count);
 }
 
 Result<std::shared_ptr<LargeListArray>> LargeListArray::FromArrays(
     std::shared_ptr<DataType> type, const Array& offsets, const Array& values,
-    MemoryPool* pool) {
+    MemoryPool* pool, std::shared_ptr<Buffer> null_bitmap, int64_t null_count) {
   if (type->id() != Type::LARGE_LIST) {
     return Status::TypeError("Expected large list type, got ", type->ToString());
   }
@@ -269,7 +281,8 @@ Result<std::shared_ptr<LargeListArray>> LargeListArray::FromArrays(
   if (!list_type.value_type()->Equals(values.type())) {
     return Status::TypeError("Mismatching list value type");
   }
-  return ListArrayFromArrays<LargeListType>(std::move(type), offsets, values, pool);
+  return ListArrayFromArrays<LargeListType>(std::move(type), offsets, values, pool,
+                                            null_bitmap, null_count);
 }
 
 Result<std::shared_ptr<Array>> ListArray::Flatten(MemoryPool* memory_pool) const {
@@ -570,7 +583,7 @@ const ArrayVector& StructArray::fields() const {
 }
 
 const std::shared_ptr<Array>& StructArray::field(int i) const {
-  std::shared_ptr<Array> result = internal::atomic_load(&boxed_fields_[i]);
+  std::shared_ptr<Array> result = std::atomic_load(&boxed_fields_[i]);
   if (!result) {
     std::shared_ptr<ArrayData> field_data;
     if (data_->offset != 0 || data_->child_data[i]->length != data_->length) {
@@ -579,7 +592,7 @@ const std::shared_ptr<Array>& StructArray::field(int i) const {
       field_data = data_->child_data[i];
     }
     std::shared_ptr<Array> result = MakeArray(field_data);
-    internal::atomic_store(&boxed_fields_[i], result);
+    std::atomic_store(&boxed_fields_[i], result);
     return boxed_fields_[i];
   }
   return boxed_fields_[i];
@@ -834,7 +847,7 @@ std::shared_ptr<Array> UnionArray::field(int i) const {
       static_cast<decltype(boxed_fields_)::size_type>(i) >= boxed_fields_.size()) {
     return nullptr;
   }
-  std::shared_ptr<Array> result = internal::atomic_load(&boxed_fields_[i]);
+  std::shared_ptr<Array> result = std::atomic_load(&boxed_fields_[i]);
   if (!result) {
     std::shared_ptr<ArrayData> child_data = data_->child_data[i]->Copy();
     if (mode() == UnionMode::SPARSE) {
@@ -846,7 +859,7 @@ std::shared_ptr<Array> UnionArray::field(int i) const {
       }
     }
     result = MakeArray(child_data);
-    internal::atomic_store(&boxed_fields_[i], result);
+    std::atomic_store(&boxed_fields_[i], result);
   }
   return result;
 }
diff --git a/cpp/src/arrow/array/array_nested.h b/cpp/src/arrow/array/array_nested.h
index 5d04bef4f9e..6fb3fd3c918 100644
--- a/cpp/src/arrow/array/array_nested.h
+++ b/cpp/src/arrow/array/array_nested.h
@@ -69,9 +69,11 @@ class BaseListArray : public Array {
   const TypeClass* list_type() const { return list_type_; }
 
   /// \brief Return array object containing the list's values
+  ///
+  /// Note that this buffer does not account for any slice offset or length.
   std::shared_ptr<Array> values() const { return values_; }
 
-  /// Note that this buffer does not account for any slice offset
+  /// Note that this buffer does not account for any slice offset or length.
   std::shared_ptr<Buffer> value_offsets() const { return data_->buffers[1]; }
 
   std::shared_ptr<DataType> value_type() const { return list_type_->value_type(); }
@@ -120,18 +122,26 @@ class ARROW_EXPORT ListArray : public BaseListArray<ListType> {
   /// the offsets contain any nulls). If the offsets do not have nulls, they
   /// are assumed to be well-formed
   ///
+  /// Offsets of an Array's null bitmap can be present or an explicit
+  /// null_bitmap, but not both.
+  ///
   /// \param[in] offsets Array containing n + 1 offsets encoding length and
   /// size. Must be of int32 type
   /// \param[in] values Array containing list values
   /// \param[in] pool MemoryPool in case new offsets array needs to be
   /// allocated because of null values
+  /// \param[in] null_bitmap Optional validity bitmap
+  /// \param[in] null_count Optional null count in null_bitmap
   static Result<std::shared_ptr<ListArray>> FromArrays(
-      const Array& offsets, const Array& values,
-      MemoryPool* pool = default_memory_pool());
+      const Array& offsets, const Array& values, MemoryPool* pool = default_memory_pool(),
+      std::shared_ptr<Buffer> null_bitmap = NULLPTR,
+      int64_t null_count = kUnknownNullCount);
 
   static Result<std::shared_ptr<ListArray>> FromArrays(
       std::shared_ptr<DataType> type, const Array& offsets, const Array& values,
-      MemoryPool* pool = default_memory_pool());
+      MemoryPool* pool = default_memory_pool(),
+      std::shared_ptr<Buffer> null_bitmap = NULLPTR,
+      int64_t null_count = kUnknownNullCount);
 
   /// \brief Return an Array that is a concatenation of the lists in this array.
   ///
@@ -178,13 +188,18 @@ class ARROW_EXPORT LargeListArray : public BaseListArray<LargeListType> {
   /// \param[in] values Array containing list values
   /// \param[in] pool MemoryPool in case new offsets array needs to be
   /// allocated because of null values
+  /// \param[in] null_bitmap Optional validity bitmap
+  /// \param[in] null_count Optional null count in null_bitmap
   static Result<std::shared_ptr<LargeListArray>> FromArrays(
-      const Array& offsets, const Array& values,
-      MemoryPool* pool = default_memory_pool());
+      const Array& offsets, const Array& values, MemoryPool* pool = default_memory_pool(),
+      std::shared_ptr<Buffer> null_bitmap = NULLPTR,
+      int64_t null_count = kUnknownNullCount);
 
   static Result<std::shared_ptr<LargeListArray>> FromArrays(
       std::shared_ptr<DataType> type, const Array& offsets, const Array& values,
-      MemoryPool* pool = default_memory_pool());
+      MemoryPool* pool = default_memory_pool(),
+      std::shared_ptr<Buffer> null_bitmap = NULLPTR,
+      int64_t null_count = kUnknownNullCount);
 
   /// \brief Return an Array that is a concatenation of the lists in this array.
   ///
diff --git a/cpp/src/arrow/array/array_primitive.h b/cpp/src/arrow/array/array_primitive.h
index 740a4806a4d..e6df92e3b78 100644
--- a/cpp/src/arrow/array/array_primitive.h
+++ b/cpp/src/arrow/array/array_primitive.h
@@ -54,7 +54,7 @@ class ARROW_EXPORT BooleanArray : public PrimitiveArray {
 
   bool GetView(int64_t i) const { return Value(i); }
 
-  util::optional<bool> operator[](int64_t i) const { return *IteratorType(*this, i); }
+  std::optional<bool> operator[](int64_t i) const { return *IteratorType(*this, i); }
 
   /// \brief Return the number of false (0) values among the valid
   /// values. Result is not cached.
@@ -111,7 +111,7 @@ class NumericArray : public PrimitiveArray {
   // For API compatibility with BinaryArray etc.
   value_type GetView(int64_t i) const { return Value(i); }
 
-  util::optional<value_type> operator[](int64_t i) const {
+  std::optional<value_type> operator[](int64_t i) const {
     return *IteratorType(*this, i);
   }
 
@@ -152,7 +152,7 @@ class ARROW_EXPORT DayTimeIntervalArray : public PrimitiveArray {
 
   IteratorType end() const { return IteratorType(*this, length()); }
 
-  util::optional<TypeClass::DayMilliseconds> operator[](int64_t i) const {
+  std::optional<TypeClass::DayMilliseconds> operator[](int64_t i) const {
     return *IteratorType(*this, i);
   }
 
@@ -188,7 +188,7 @@ class ARROW_EXPORT MonthDayNanoIntervalArray : public PrimitiveArray {
 
   IteratorType end() const { return IteratorType(*this, length()); }
 
-  util::optional<TypeClass::MonthDayNanos> operator[](int64_t i) const {
+  std::optional<TypeClass::MonthDayNanos> operator[](int64_t i) const {
     return *IteratorType(*this, i);
   }
 
diff --git a/cpp/src/arrow/array/array_test.cc b/cpp/src/arrow/array/array_test.cc
index d438557a330..d4ad1578b77 100644
--- a/cpp/src/arrow/array/array_test.cc
+++ b/cpp/src/arrow/array/array_test.cc
@@ -2254,12 +2254,12 @@ struct FWBinaryAppender {
     return Status::OK();
   }
 
-  Status VisitValue(util::string_view v) {
+  Status VisitValue(std::string_view v) {
     data.push_back(v);
     return Status::OK();
   }
 
-  std::vector<util::string_view> data;
+  std::vector<std::string_view> data;
 };
 
 TEST_F(TestFWBinaryArray, ArraySpanVisitor) {
@@ -2290,7 +2290,7 @@ TEST_F(TestFWBinaryArray, ArrayIndexOperator) {
   auto fsba = checked_pointer_cast<FixedSizeBinaryArray>(arr);
 
   ASSERT_EQ("abc", (*fsba)[0].value());
-  ASSERT_EQ(util::nullopt, (*fsba)[1]);
+  ASSERT_EQ(std::nullopt, (*fsba)[1]);
   ASSERT_EQ("def", (*fsba)[2].value());
 }
 
@@ -2831,8 +2831,6 @@ class DecimalTest : public ::testing::TestWithParam<int> {
     auto type = std::make_shared<TYPE>(precision, 4);
     auto builder = std::make_shared<DecimalBuilder>(type);
 
-    size_t null_count = 0;
-
     const size_t size = draw.size();
 
     ARROW_EXPECT_OK(builder->Reserve(size));
@@ -2842,7 +2840,6 @@ class DecimalTest : public ::testing::TestWithParam<int> {
         ARROW_EXPECT_OK(builder->Append(draw[i]));
       } else {
         ARROW_EXPECT_OK(builder->AppendNull());
-        ++null_count;
       }
     }
 
@@ -3538,7 +3535,7 @@ TYPED_TEST(TestPrimitiveArray, IndexOperator) {
       ASSERT_EQ(this->values_[i], res.value());
     } else {
       ASSERT_FALSE(res.has_value());
-      ASSERT_EQ(res, util::nullopt);
+      ASSERT_EQ(res, std::nullopt);
     }
   }
 }
diff --git a/cpp/src/arrow/array/builder_adaptive.cc b/cpp/src/arrow/array/builder_adaptive.cc
index 36e5546a749..f6255a564fc 100644
--- a/cpp/src/arrow/array/builder_adaptive.cc
+++ b/cpp/src/arrow/array/builder_adaptive.cc
@@ -33,8 +33,11 @@ namespace arrow {
 
 using internal::AdaptiveIntBuilderBase;
 
-AdaptiveIntBuilderBase::AdaptiveIntBuilderBase(uint8_t start_int_size, MemoryPool* pool)
-    : ArrayBuilder(pool), start_int_size_(start_int_size), int_size_(start_int_size) {}
+AdaptiveIntBuilderBase::AdaptiveIntBuilderBase(uint8_t start_int_size, MemoryPool* pool,
+                                               int64_t alignment)
+    : ArrayBuilder(pool, alignment),
+      start_int_size_(start_int_size),
+      int_size_(start_int_size) {}
 
 void AdaptiveIntBuilderBase::Reset() {
   ArrayBuilder::Reset();
@@ -125,8 +128,9 @@ std::shared_ptr<DataType> AdaptiveIntBuilder::type() const {
   return nullptr;
 }
 
-AdaptiveIntBuilder::AdaptiveIntBuilder(uint8_t start_int_size, MemoryPool* pool)
-    : AdaptiveIntBuilderBase(start_int_size, pool) {}
+AdaptiveIntBuilder::AdaptiveIntBuilder(uint8_t start_int_size, MemoryPool* pool,
+                                       int64_t alignment)
+    : AdaptiveIntBuilderBase(start_int_size, pool, alignment) {}
 
 Status AdaptiveIntBuilder::FinishInternal(std::shared_ptr<ArrayData>* out) {
   RETURN_NOT_OK(CommitPendingData());
diff --git a/cpp/src/arrow/array/builder_adaptive.h b/cpp/src/arrow/array/builder_adaptive.h
index 1c727c78b0e..382c35789c4 100644
--- a/cpp/src/arrow/array/builder_adaptive.h
+++ b/cpp/src/arrow/array/builder_adaptive.h
@@ -39,10 +39,12 @@ namespace internal {
 
 class ARROW_EXPORT AdaptiveIntBuilderBase : public ArrayBuilder {
  public:
-  AdaptiveIntBuilderBase(uint8_t start_int_size, MemoryPool* pool);
+  AdaptiveIntBuilderBase(uint8_t start_int_size, MemoryPool* pool,
+                         int64_t alignment = kDefaultBufferAlignment);
 
-  explicit AdaptiveIntBuilderBase(MemoryPool* pool)
-      : AdaptiveIntBuilderBase(sizeof(uint8_t), pool) {}
+  explicit AdaptiveIntBuilderBase(MemoryPool* pool,
+                                  int64_t alignment = kDefaultBufferAlignment)
+      : AdaptiveIntBuilderBase(sizeof(uint8_t), pool, alignment) {}
 
   /// \brief Append multiple nulls
   /// \param[in] length the number of nulls to append
@@ -173,10 +175,12 @@ class ARROW_EXPORT AdaptiveUIntBuilder : public internal::AdaptiveIntBuilderBase
 class ARROW_EXPORT AdaptiveIntBuilder : public internal::AdaptiveIntBuilderBase {
  public:
   explicit AdaptiveIntBuilder(uint8_t start_int_size,
-                              MemoryPool* pool = default_memory_pool());
+                              MemoryPool* pool = default_memory_pool(),
+                              int64_t alignment = kDefaultBufferAlignment);
 
-  explicit AdaptiveIntBuilder(MemoryPool* pool = default_memory_pool())
-      : AdaptiveIntBuilder(sizeof(uint8_t), pool) {}
+  explicit AdaptiveIntBuilder(MemoryPool* pool = default_memory_pool(),
+                              int64_t alignment = kDefaultBufferAlignment)
+      : AdaptiveIntBuilder(sizeof(uint8_t), pool, alignment) {}
 
   using ArrayBuilder::Advance;
   using internal::AdaptiveIntBuilderBase::Reset;
diff --git a/cpp/src/arrow/array/builder_base.cc b/cpp/src/arrow/array/builder_base.cc
index ff37cee5ba1..e9d5fb44ac1 100644
--- a/cpp/src/arrow/array/builder_base.cc
+++ b/cpp/src/arrow/array/builder_base.cc
@@ -144,7 +144,7 @@ struct AppendScalarImpl {
            raw++) {
         auto scalar = checked_cast<const typename TypeTraits<T>::ScalarType*>(raw->get());
         if (scalar->is_valid) {
-          builder->UnsafeAppend(util::string_view{*scalar->value});
+          builder->UnsafeAppend(std::string_view{*scalar->value});
         } else {
           builder->UnsafeAppendNull();
         }
diff --git a/cpp/src/arrow/array/builder_base.h b/cpp/src/arrow/array/builder_base.h
index bc4932a4b83..89e4debd18a 100644
--- a/cpp/src/arrow/array/builder_base.h
+++ b/cpp/src/arrow/array/builder_base.h
@@ -69,7 +69,8 @@ constexpr int64_t kListMaximumElements = std::numeric_limits<int32_t>::max() - 1
 /// For example, ArrayBuilder* pointing to BinaryBuilder should be downcast before use.
 class ARROW_EXPORT ArrayBuilder {
  public:
-  explicit ArrayBuilder(MemoryPool* pool) : pool_(pool), null_bitmap_builder_(pool) {}
+  explicit ArrayBuilder(MemoryPool* pool, int64_t alignment = kDefaultBufferAlignment)
+      : pool_(pool), alignment_(alignment), null_bitmap_builder_(pool, alignment) {}
 
   ARROW_DEFAULT_MOVE_AND_ASSIGN(ArrayBuilder);
 
@@ -283,6 +284,7 @@ class ARROW_EXPORT ArrayBuilder {
                         const char* message);
 
   MemoryPool* pool_;
+  int64_t alignment_;
 
   TypedBufferBuilder<bool> null_bitmap_builder_;
   int64_t null_count_ = 0;
diff --git a/cpp/src/arrow/array/builder_binary.cc b/cpp/src/arrow/array/builder_binary.cc
index fd1be179816..571f450aab9 100644
--- a/cpp/src/arrow/array/builder_binary.cc
+++ b/cpp/src/arrow/array/builder_binary.cc
@@ -44,10 +44,10 @@ using internal::checked_cast;
 // Fixed width binary
 
 FixedSizeBinaryBuilder::FixedSizeBinaryBuilder(const std::shared_ptr<DataType>& type,
-                                               MemoryPool* pool)
-    : ArrayBuilder(pool),
+                                               MemoryPool* pool, int64_t alignment)
+    : ArrayBuilder(pool, alignment),
       byte_width_(checked_cast<const FixedSizeBinaryType&>(*type).byte_width()),
-      byte_builder_(pool) {}
+      byte_builder_(pool, alignment) {}
 
 void FixedSizeBinaryBuilder::CheckValueSize(int64_t size) {
   DCHECK_EQ(size, byte_width_) << "Appending wrong size to FixedSizeBinaryBuilder";
@@ -123,10 +123,10 @@ const uint8_t* FixedSizeBinaryBuilder::GetValue(int64_t i) const {
   return data_ptr + i * byte_width_;
 }
 
-util::string_view FixedSizeBinaryBuilder::GetView(int64_t i) const {
+std::string_view FixedSizeBinaryBuilder::GetView(int64_t i) const {
   const uint8_t* data_ptr = byte_builder_.data();
-  return util::string_view(reinterpret_cast<const char*>(data_ptr + i * byte_width_),
-                           byte_width_);
+  return std::string_view(reinterpret_cast<const char*>(data_ptr + i * byte_width_),
+                          byte_width_);
 }
 
 // ----------------------------------------------------------------------
diff --git a/cpp/src/arrow/array/builder_binary.h b/cpp/src/arrow/array/builder_binary.h
index 25cec5c1e25..25183ca169c 100644
--- a/cpp/src/arrow/array/builder_binary.h
+++ b/cpp/src/arrow/array/builder_binary.h
@@ -25,6 +25,7 @@
 #include <memory>
 #include <numeric>
 #include <string>
+#include <string_view>
 #include <vector>
 
 #include "arrow/array/array_base.h"
@@ -36,7 +37,6 @@
 #include "arrow/status.h"
 #include "arrow/type.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/string_view.h"  // IWYU pragma: export
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -54,8 +54,11 @@ class BaseBinaryBuilder : public ArrayBuilder {
   using TypeClass = TYPE;
   using offset_type = typename TypeClass::offset_type;
 
-  explicit BaseBinaryBuilder(MemoryPool* pool = default_memory_pool())
-      : ArrayBuilder(pool), offsets_builder_(pool), value_data_builder_(pool) {}
+  explicit BaseBinaryBuilder(MemoryPool* pool = default_memory_pool(),
+                             int64_t alignment = kDefaultBufferAlignment)
+      : ArrayBuilder(pool, alignment),
+        offsets_builder_(pool, alignment),
+        value_data_builder_(pool, alignment) {}
 
   BaseBinaryBuilder(const std::shared_ptr<DataType>& type, MemoryPool* pool)
       : BaseBinaryBuilder(pool) {}
@@ -77,7 +80,7 @@ class BaseBinaryBuilder : public ArrayBuilder {
     return Append(reinterpret_cast<const uint8_t*>(value), length);
   }
 
-  Status Append(util::string_view value) {
+  Status Append(std::string_view value) {
     return Append(value.data(), static_cast<offset_type>(value.size()));
   }
 
@@ -93,7 +96,7 @@ class BaseBinaryBuilder : public ArrayBuilder {
     return Status::OK();
   }
 
-  Status ExtendCurrent(util::string_view value) {
+  Status ExtendCurrent(std::string_view value) {
     return ExtendCurrent(reinterpret_cast<const uint8_t*>(value.data()),
                          static_cast<offset_type>(value.size()));
   }
@@ -150,7 +153,7 @@ class BaseBinaryBuilder : public ArrayBuilder {
     UnsafeAppend(value.c_str(), static_cast<offset_type>(value.size()));
   }
 
-  void UnsafeAppend(util::string_view value) {
+  void UnsafeAppend(std::string_view value) {
     UnsafeAppend(value.data(), static_cast<offset_type>(value.size()));
   }
 
@@ -159,7 +162,7 @@ class BaseBinaryBuilder : public ArrayBuilder {
     value_data_builder_.UnsafeAppend(value, length);
   }
 
-  void UnsafeExtendCurrent(util::string_view value) {
+  void UnsafeExtendCurrent(std::string_view value) {
     UnsafeExtendCurrent(reinterpret_cast<const uint8_t*>(value.data()),
                         static_cast<offset_type>(value.size()));
   }
@@ -370,10 +373,10 @@ class BaseBinaryBuilder : public ArrayBuilder {
   /// Temporary access to a value.
   ///
   /// This view becomes invalid on the next modifying operation.
-  util::string_view GetView(int64_t i) const {
+  std::string_view GetView(int64_t i) const {
     offset_type value_length;
     const uint8_t* value_data = GetValue(i, &value_length);
-    return util::string_view(reinterpret_cast<const char*>(value_data), value_length);
+    return std::string_view(reinterpret_cast<const char*>(value_data), value_length);
   }
 
   // Cannot make this a static attribute because of linking issues
@@ -464,7 +467,8 @@ class ARROW_EXPORT FixedSizeBinaryBuilder : public ArrayBuilder {
   using TypeClass = FixedSizeBinaryType;
 
   explicit FixedSizeBinaryBuilder(const std::shared_ptr<DataType>& type,
-                                  MemoryPool* pool = default_memory_pool());
+                                  MemoryPool* pool = default_memory_pool(),
+                                  int64_t alignment = kDefaultBufferAlignment);
 
   Status Append(const uint8_t* value) {
     ARROW_RETURN_NOT_OK(Reserve(1));
@@ -476,7 +480,7 @@ class ARROW_EXPORT FixedSizeBinaryBuilder : public ArrayBuilder {
     return Append(reinterpret_cast<const uint8_t*>(value));
   }
 
-  Status Append(const util::string_view& view) {
+  Status Append(const std::string_view& view) {
     ARROW_RETURN_NOT_OK(Reserve(1));
     UnsafeAppend(view);
     return Status::OK();
@@ -490,7 +494,7 @@ class ARROW_EXPORT FixedSizeBinaryBuilder : public ArrayBuilder {
 
   Status Append(const Buffer& s) {
     ARROW_RETURN_NOT_OK(Reserve(1));
-    UnsafeAppend(util::string_view(s));
+    UnsafeAppend(std::string_view(s));
     return Status::OK();
   }
 
@@ -500,7 +504,7 @@ class ARROW_EXPORT FixedSizeBinaryBuilder : public ArrayBuilder {
   Status Append(const std::array<uint8_t, NBYTES>& value) {
     ARROW_RETURN_NOT_OK(Reserve(1));
     UnsafeAppend(
-        util::string_view(reinterpret_cast<const char*>(value.data()), value.size()));
+        std::string_view(reinterpret_cast<const char*>(value.data()), value.size()));
     return Status::OK();
   }
 
@@ -534,14 +538,14 @@ class ARROW_EXPORT FixedSizeBinaryBuilder : public ArrayBuilder {
     UnsafeAppend(reinterpret_cast<const uint8_t*>(value));
   }
 
-  void UnsafeAppend(util::string_view value) {
+  void UnsafeAppend(std::string_view value) {
 #ifndef NDEBUG
     CheckValueSize(static_cast<size_t>(value.size()));
 #endif
     UnsafeAppend(reinterpret_cast<const uint8_t*>(value.data()));
   }
 
-  void UnsafeAppend(const Buffer& s) { UnsafeAppend(util::string_view(s)); }
+  void UnsafeAppend(const Buffer& s) { UnsafeAppend(std::string_view(s)); }
 
   void UnsafeAppend(const std::shared_ptr<Buffer>& s) { UnsafeAppend(*s); }
 
@@ -590,7 +594,7 @@ class ARROW_EXPORT FixedSizeBinaryBuilder : public ArrayBuilder {
   /// Temporary access to a value.
   ///
   /// This view becomes invalid on the next modifying operation.
-  util::string_view GetView(int64_t i) const;
+  std::string_view GetView(int64_t i) const;
 
   static constexpr int64_t memory_limit() {
     return std::numeric_limits<int64_t>::max() - 1;
@@ -658,7 +662,7 @@ class ARROW_EXPORT ChunkedBinaryBuilder {
     return builder_->Append(value, length);
   }
 
-  Status Append(const util::string_view& value) {
+  Status Append(const std::string_view& value) {
     return Append(reinterpret_cast<const uint8_t*>(value.data()),
                   static_cast<int32_t>(value.size()));
   }
diff --git a/cpp/src/arrow/array/builder_decimal.cc b/cpp/src/arrow/array/builder_decimal.cc
index bd7615a7309..3b1262819df 100644
--- a/cpp/src/arrow/array/builder_decimal.cc
+++ b/cpp/src/arrow/array/builder_decimal.cc
@@ -36,8 +36,8 @@ class MemoryPool;
 // Decimal128Builder
 
 Decimal128Builder::Decimal128Builder(const std::shared_ptr<DataType>& type,
-                                     MemoryPool* pool)
-    : FixedSizeBinaryBuilder(type, pool),
+                                     MemoryPool* pool, int64_t alignment)
+    : FixedSizeBinaryBuilder(type, pool, alignment),
       decimal_type_(internal::checked_pointer_cast<Decimal128Type>(type)) {}
 
 Status Decimal128Builder::Append(Decimal128 value) {
@@ -52,7 +52,7 @@ void Decimal128Builder::UnsafeAppend(Decimal128 value) {
   UnsafeAppendToBitmap(true);
 }
 
-void Decimal128Builder::UnsafeAppend(util::string_view value) {
+void Decimal128Builder::UnsafeAppend(std::string_view value) {
   FixedSizeBinaryBuilder::UnsafeAppend(value);
 }
 
@@ -71,8 +71,8 @@ Status Decimal128Builder::FinishInternal(std::shared_ptr<ArrayData>* out) {
 // Decimal256Builder
 
 Decimal256Builder::Decimal256Builder(const std::shared_ptr<DataType>& type,
-                                     MemoryPool* pool)
-    : FixedSizeBinaryBuilder(type, pool),
+                                     MemoryPool* pool, int64_t alignment)
+    : FixedSizeBinaryBuilder(type, pool, alignment),
       decimal_type_(internal::checked_pointer_cast<Decimal256Type>(type)) {}
 
 Status Decimal256Builder::Append(const Decimal256& value) {
@@ -87,7 +87,7 @@ void Decimal256Builder::UnsafeAppend(const Decimal256& value) {
   UnsafeAppendToBitmap(true);
 }
 
-void Decimal256Builder::UnsafeAppend(util::string_view value) {
+void Decimal256Builder::UnsafeAppend(std::string_view value) {
   FixedSizeBinaryBuilder::UnsafeAppend(value);
 }
 
diff --git a/cpp/src/arrow/array/builder_decimal.h b/cpp/src/arrow/array/builder_decimal.h
index 3464203dd47..8094250aef8 100644
--- a/cpp/src/arrow/array/builder_decimal.h
+++ b/cpp/src/arrow/array/builder_decimal.h
@@ -39,7 +39,8 @@ class ARROW_EXPORT Decimal128Builder : public FixedSizeBinaryBuilder {
   using ValueType = Decimal128;
 
   explicit Decimal128Builder(const std::shared_ptr<DataType>& type,
-                             MemoryPool* pool = default_memory_pool());
+                             MemoryPool* pool = default_memory_pool(),
+                             int64_t alignment = kDefaultBufferAlignment);
 
   using FixedSizeBinaryBuilder::Append;
   using FixedSizeBinaryBuilder::AppendValues;
@@ -47,7 +48,7 @@ class ARROW_EXPORT Decimal128Builder : public FixedSizeBinaryBuilder {
 
   Status Append(Decimal128 val);
   void UnsafeAppend(Decimal128 val);
-  void UnsafeAppend(util::string_view val);
+  void UnsafeAppend(std::string_view val);
 
   Status FinishInternal(std::shared_ptr<ArrayData>* out) override;
 
@@ -69,7 +70,8 @@ class ARROW_EXPORT Decimal256Builder : public FixedSizeBinaryBuilder {
   using ValueType = Decimal256;
 
   explicit Decimal256Builder(const std::shared_ptr<DataType>& type,
-                             MemoryPool* pool = default_memory_pool());
+                             MemoryPool* pool = default_memory_pool(),
+                             int64_t alignment = kDefaultBufferAlignment);
 
   using FixedSizeBinaryBuilder::Append;
   using FixedSizeBinaryBuilder::AppendValues;
@@ -77,7 +79,7 @@ class ARROW_EXPORT Decimal256Builder : public FixedSizeBinaryBuilder {
 
   Status Append(const Decimal256& val);
   void UnsafeAppend(const Decimal256& val);
-  void UnsafeAppend(util::string_view val);
+  void UnsafeAppend(std::string_view val);
 
   Status FinishInternal(std::shared_ptr<ArrayData>* out) override;
 
diff --git a/cpp/src/arrow/array/builder_dict.cc b/cpp/src/arrow/array/builder_dict.cc
index d51dd4c041a..061fb600412 100644
--- a/cpp/src/arrow/array/builder_dict.cc
+++ b/cpp/src/arrow/array/builder_dict.cc
@@ -188,12 +188,12 @@ GET_OR_INSERT(MonthIntervalType);
 
 #undef GET_OR_INSERT
 
-Status DictionaryMemoTable::GetOrInsert(const BinaryType*, util::string_view value,
+Status DictionaryMemoTable::GetOrInsert(const BinaryType*, std::string_view value,
                                         int32_t* out) {
   return impl_->GetOrInsert<BinaryType>(value, out);
 }
 
-Status DictionaryMemoTable::GetOrInsert(const LargeBinaryType*, util::string_view value,
+Status DictionaryMemoTable::GetOrInsert(const LargeBinaryType*, std::string_view value,
                                         int32_t* out) {
   return impl_->GetOrInsert<LargeBinaryType>(value, out);
 }
diff --git a/cpp/src/arrow/array/builder_dict.h b/cpp/src/arrow/array/builder_dict.h
index b720f73d7d2..cb0aaf30991 100644
--- a/cpp/src/arrow/array/builder_dict.h
+++ b/cpp/src/arrow/array/builder_dict.h
@@ -54,7 +54,7 @@ struct DictionaryValue {
 
 template <typename T>
 struct DictionaryValue<T, enable_if_base_binary<T>> {
-  using type = util::string_view;
+  using type = std::string_view;
   using PhysicalType =
       typename std::conditional<std::is_same<typename T::offset_type, int32_t>::value,
                                 BinaryType, LargeBinaryType>::type;
@@ -62,7 +62,7 @@ struct DictionaryValue<T, enable_if_base_binary<T>> {
 
 template <typename T>
 struct DictionaryValue<T, enable_if_fixed_size_binary<T>> {
-  using type = util::string_view;
+  using type = std::string_view;
   using PhysicalType = BinaryType;
 };
 
@@ -112,8 +112,8 @@ class ARROW_EXPORT DictionaryMemoTable {
   Status GetOrInsert(const FloatType*, float value, int32_t* out);
   Status GetOrInsert(const DoubleType*, double value, int32_t* out);
 
-  Status GetOrInsert(const BinaryType*, util::string_view value, int32_t* out);
-  Status GetOrInsert(const LargeBinaryType*, util::string_view value, int32_t* out);
+  Status GetOrInsert(const BinaryType*, std::string_view value, int32_t* out);
+  Status GetOrInsert(const LargeBinaryType*, std::string_view value, int32_t* out);
 
   class DictionaryMemoTableImpl;
   std::unique_ptr<DictionaryMemoTableImpl> impl_;
@@ -146,24 +146,26 @@ class DictionaryBuilderBase : public ArrayBuilder {
                                         !is_fixed_size_binary_type<T1>::value,
                                     const std::shared_ptr<DataType>&>
                             value_type,
-                        MemoryPool* pool = default_memory_pool())
-      : ArrayBuilder(pool),
+                        MemoryPool* pool = default_memory_pool(),
+                        int64_t alignment = kDefaultBufferAlignment)
+      : ArrayBuilder(pool, alignment),
         memo_table_(new internal::DictionaryMemoTable(pool, value_type)),
         delta_offset_(0),
         byte_width_(-1),
-        indices_builder_(start_int_size, pool),
+        indices_builder_(start_int_size, pool, alignment),
         value_type_(value_type) {}
 
   template <typename T1 = T>
   explicit DictionaryBuilderBase(
       enable_if_t<!is_fixed_size_binary_type<T1>::value, const std::shared_ptr<DataType>&>
           value_type,
-      MemoryPool* pool = default_memory_pool())
-      : ArrayBuilder(pool),
+      MemoryPool* pool = default_memory_pool(),
+      int64_t alignment = kDefaultBufferAlignment)
+      : ArrayBuilder(pool, alignment),
         memo_table_(new internal::DictionaryMemoTable(pool, value_type)),
         delta_offset_(0),
         byte_width_(-1),
-        indices_builder_(pool),
+        indices_builder_(pool, alignment),
         value_type_(value_type) {}
 
   template <typename T1 = T>
@@ -171,12 +173,13 @@ class DictionaryBuilderBase : public ArrayBuilder {
       const std::shared_ptr<DataType>& index_type,
       enable_if_t<!is_fixed_size_binary_type<T1>::value, const std::shared_ptr<DataType>&>
           value_type,
-      MemoryPool* pool = default_memory_pool())
-      : ArrayBuilder(pool),
+      MemoryPool* pool = default_memory_pool(),
+      int64_t alignment = kDefaultBufferAlignment)
+      : ArrayBuilder(pool, alignment),
         memo_table_(new internal::DictionaryMemoTable(pool, value_type)),
         delta_offset_(0),
         byte_width_(-1),
-        indices_builder_(index_type, pool),
+        indices_builder_(index_type, pool, alignment),
         value_type_(value_type) {}
 
   template <typename B = BuilderType, typename T1 = T>
@@ -185,35 +188,38 @@ class DictionaryBuilderBase : public ArrayBuilder {
                                         is_fixed_size_binary_type<T1>::value,
                                     const std::shared_ptr<DataType>&>
                             value_type,
-                        MemoryPool* pool = default_memory_pool())
-      : ArrayBuilder(pool),
+                        MemoryPool* pool = default_memory_pool(),
+                        int64_t alignment = kDefaultBufferAlignment)
+      : ArrayBuilder(pool, alignment),
         memo_table_(new internal::DictionaryMemoTable(pool, value_type)),
         delta_offset_(0),
         byte_width_(static_cast<const T1&>(*value_type).byte_width()),
-        indices_builder_(start_int_size, pool),
+        indices_builder_(start_int_size, pool, alignment),
         value_type_(value_type) {}
 
   template <typename T1 = T>
   explicit DictionaryBuilderBase(
       enable_if_fixed_size_binary<T1, const std::shared_ptr<DataType>&> value_type,
-      MemoryPool* pool = default_memory_pool())
-      : ArrayBuilder(pool),
+      MemoryPool* pool = default_memory_pool(),
+      int64_t alignment = kDefaultBufferAlignment)
+      : ArrayBuilder(pool, alignment),
         memo_table_(new internal::DictionaryMemoTable(pool, value_type)),
         delta_offset_(0),
         byte_width_(static_cast<const T1&>(*value_type).byte_width()),
-        indices_builder_(pool),
+        indices_builder_(pool, alignment),
         value_type_(value_type) {}
 
   template <typename T1 = T>
   explicit DictionaryBuilderBase(
       const std::shared_ptr<DataType>& index_type,
       enable_if_fixed_size_binary<T1, const std::shared_ptr<DataType>&> value_type,
-      MemoryPool* pool = default_memory_pool())
-      : ArrayBuilder(pool),
+      MemoryPool* pool = default_memory_pool(),
+      int64_t alignment = kDefaultBufferAlignment)
+      : ArrayBuilder(pool, alignment),
         memo_table_(new internal::DictionaryMemoTable(pool, value_type)),
         delta_offset_(0),
         byte_width_(static_cast<const T1&>(*value_type).byte_width()),
-        indices_builder_(index_type, pool),
+        indices_builder_(index_type, pool, alignment),
         value_type_(value_type) {}
 
   template <typename T1 = T>
@@ -223,12 +229,13 @@ class DictionaryBuilderBase : public ArrayBuilder {
 
   // This constructor doesn't check for errors. Use InsertMemoValues instead.
   explicit DictionaryBuilderBase(const std::shared_ptr<Array>& dictionary,
-                                 MemoryPool* pool = default_memory_pool())
-      : ArrayBuilder(pool),
+                                 MemoryPool* pool = default_memory_pool(),
+                                 int64_t alignment = kDefaultBufferAlignment)
+      : ArrayBuilder(pool, alignment),
         memo_table_(new internal::DictionaryMemoTable(pool, dictionary)),
         delta_offset_(0),
         byte_width_(-1),
-        indices_builder_(pool),
+        indices_builder_(pool, alignment),
         value_type_(dictionary->type()) {}
 
   ~DictionaryBuilderBase() override = default;
@@ -257,13 +264,13 @@ class DictionaryBuilderBase : public ArrayBuilder {
   /// \brief Append a fixed-width string (only for FixedSizeBinaryType)
   template <typename T1 = T>
   enable_if_fixed_size_binary<T1, Status> Append(const uint8_t* value) {
-    return Append(util::string_view(reinterpret_cast<const char*>(value), byte_width_));
+    return Append(std::string_view(reinterpret_cast<const char*>(value), byte_width_));
   }
 
   /// \brief Append a fixed-width string (only for FixedSizeBinaryType)
   template <typename T1 = T>
   enable_if_fixed_size_binary<T1, Status> Append(const char* value) {
-    return Append(util::string_view(value, byte_width_));
+    return Append(std::string_view(value, byte_width_));
   }
 
   /// \brief Append a string (only for binary types)
@@ -275,13 +282,13 @@ class DictionaryBuilderBase : public ArrayBuilder {
   /// \brief Append a string (only for binary types)
   template <typename T1 = T>
   enable_if_binary_like<T1, Status> Append(const char* value, int32_t length) {
-    return Append(util::string_view(value, length));
+    return Append(std::string_view(value, length));
   }
 
   /// \brief Append a string (only for string types)
   template <typename T1 = T>
   enable_if_string_like<T1, Status> Append(const char* value, int32_t length) {
-    return Append(util::string_view(value, length));
+    return Append(std::string_view(value, length));
   }
 
   /// \brief Append a decimal (only for Decimal128Type)
diff --git a/cpp/src/arrow/array/builder_nested.h b/cpp/src/arrow/array/builder_nested.h
index 306d861b09f..3e9328bfdf0 100644
--- a/cpp/src/arrow/array/builder_nested.h
+++ b/cpp/src/arrow/array/builder_nested.h
@@ -51,14 +51,16 @@ class BaseListBuilder : public ArrayBuilder {
   /// Use this constructor to incrementally build the value array along with offsets and
   /// null bitmap.
   BaseListBuilder(MemoryPool* pool, std::shared_ptr<ArrayBuilder> const& value_builder,
-                  const std::shared_ptr<DataType>& type)
-      : ArrayBuilder(pool),
-        offsets_builder_(pool),
+                  const std::shared_ptr<DataType>& type,
+                  int64_t alignment = kDefaultBufferAlignment)
+      : ArrayBuilder(pool, alignment),
+        offsets_builder_(pool, alignment),
         value_builder_(value_builder),
         value_field_(type->field(0)->WithType(NULLPTR)) {}
 
-  BaseListBuilder(MemoryPool* pool, std::shared_ptr<ArrayBuilder> const& value_builder)
-      : BaseListBuilder(pool, value_builder, list(value_builder->type())) {}
+  BaseListBuilder(MemoryPool* pool, std::shared_ptr<ArrayBuilder> const& value_builder,
+                  int64_t alignment = kDefaultBufferAlignment)
+      : BaseListBuilder(pool, value_builder, list(value_builder->type()), alignment) {}
 
   Status Resize(int64_t capacity) override {
     if (capacity > maximum_elements()) {
diff --git a/cpp/src/arrow/array/builder_primitive.cc b/cpp/src/arrow/array/builder_primitive.cc
index 769c2f7d07b..adff9c2acca 100644
--- a/cpp/src/arrow/array/builder_primitive.cc
+++ b/cpp/src/arrow/array/builder_primitive.cc
@@ -44,11 +44,12 @@ Status NullBuilder::FinishInternal(std::shared_ptr<ArrayData>* out) {
   return Status::OK();
 }
 
-BooleanBuilder::BooleanBuilder(MemoryPool* pool)
-    : ArrayBuilder(pool), data_builder_(pool) {}
+BooleanBuilder::BooleanBuilder(MemoryPool* pool, int64_t alignment)
+    : ArrayBuilder(pool, alignment), data_builder_(pool, alignment) {}
 
-BooleanBuilder::BooleanBuilder(const std::shared_ptr<DataType>& type, MemoryPool* pool)
-    : BooleanBuilder(pool) {
+BooleanBuilder::BooleanBuilder(const std::shared_ptr<DataType>& type, MemoryPool* pool,
+                               int64_t alignment)
+    : BooleanBuilder(pool, alignment) {
   ARROW_CHECK_EQ(Type::BOOL, type->id());
 }
 
diff --git a/cpp/src/arrow/array/builder_primitive.h b/cpp/src/arrow/array/builder_primitive.h
index 8f2dcc8b09b..4102aa99acf 100644
--- a/cpp/src/arrow/array/builder_primitive.h
+++ b/cpp/src/arrow/array/builder_primitive.h
@@ -31,10 +31,13 @@ namespace arrow {
 
 class ARROW_EXPORT NullBuilder : public ArrayBuilder {
  public:
-  explicit NullBuilder(MemoryPool* pool = default_memory_pool()) : ArrayBuilder(pool) {}
+  explicit NullBuilder(MemoryPool* pool = default_memory_pool(),
+                       int64_t alignment = kDefaultBufferAlignment)
+      : ArrayBuilder(pool) {}
   explicit NullBuilder(const std::shared_ptr<DataType>& type,
-                       MemoryPool* pool = default_memory_pool())
-      : NullBuilder(pool) {}
+                       MemoryPool* pool = default_memory_pool(),
+                       int64_t alignment = kDefaultBufferAlignment)
+      : NullBuilder(pool, alignment) {}
 
   /// \brief Append the specified number of null elements
   Status AppendNulls(int64_t length) final {
@@ -82,11 +85,15 @@ class NumericBuilder : public ArrayBuilder {
 
   template <typename T1 = T>
   explicit NumericBuilder(
-      enable_if_parameter_free<T1, MemoryPool*> pool = default_memory_pool())
-      : ArrayBuilder(pool), type_(TypeTraits<T>::type_singleton()), data_builder_(pool) {}
+      enable_if_parameter_free<T1, MemoryPool*> pool = default_memory_pool(),
+      int64_t alignment = kDefaultBufferAlignment)
+      : ArrayBuilder(pool, alignment),
+        type_(TypeTraits<T>::type_singleton()),
+        data_builder_(pool, alignment) {}
 
-  NumericBuilder(const std::shared_ptr<DataType>& type, MemoryPool* pool)
-      : ArrayBuilder(pool), type_(type), data_builder_(pool) {}
+  NumericBuilder(const std::shared_ptr<DataType>& type, MemoryPool* pool,
+                 int64_t alignment = kDefaultBufferAlignment)
+      : ArrayBuilder(pool, alignment), type_(type), data_builder_(pool, alignment) {}
 
   /// Append a single scalar and increase the size if necessary.
   Status Append(const value_type val) {
@@ -131,7 +138,10 @@ class NumericBuilder : public ArrayBuilder {
 
   value_type GetValue(int64_t index) const { return data_builder_.data()[index]; }
 
-  void Reset() override { data_builder_.Reset(); }
+  void Reset() override {
+    data_builder_.Reset();
+    ArrayBuilder::Reset();
+  }
 
   Status Resize(int64_t capacity) override {
     ARROW_RETURN_NOT_OK(CheckCapacity(capacity));
@@ -344,10 +354,12 @@ class ARROW_EXPORT BooleanBuilder : public ArrayBuilder {
   using TypeClass = BooleanType;
   using value_type = bool;
 
-  explicit BooleanBuilder(MemoryPool* pool = default_memory_pool());
+  explicit BooleanBuilder(MemoryPool* pool = default_memory_pool(),
+                          int64_t alignment = kDefaultBufferAlignment);
 
   BooleanBuilder(const std::shared_ptr<DataType>& type,
-                 MemoryPool* pool = default_memory_pool());
+                 MemoryPool* pool = default_memory_pool(),
+                 int64_t alignment = kDefaultBufferAlignment);
 
   /// Write nulls as uint8_t* (0 value indicates null) into pre-allocated memory
   Status AppendNulls(int64_t length) final {
diff --git a/cpp/src/arrow/array/builder_time.h b/cpp/src/arrow/array/builder_time.h
index 97282a3fd86..da29ae3124b 100644
--- a/cpp/src/arrow/array/builder_time.h
+++ b/cpp/src/arrow/array/builder_time.h
@@ -36,12 +36,14 @@ class ARROW_EXPORT DayTimeIntervalBuilder : public NumericBuilder<DayTimeInterva
  public:
   using DayMilliseconds = DayTimeIntervalType::DayMilliseconds;
 
-  explicit DayTimeIntervalBuilder(MemoryPool* pool = default_memory_pool())
-      : DayTimeIntervalBuilder(day_time_interval(), pool) {}
+  explicit DayTimeIntervalBuilder(MemoryPool* pool = default_memory_pool(),
+                                  int64_t alignment = kDefaultBufferAlignment)
+      : DayTimeIntervalBuilder(day_time_interval(), pool, alignment) {}
 
   explicit DayTimeIntervalBuilder(std::shared_ptr<DataType> type,
-                                  MemoryPool* pool = default_memory_pool())
-      : NumericBuilder<DayTimeIntervalType>(type, pool) {}
+                                  MemoryPool* pool = default_memory_pool(),
+                                  int64_t alignment = kDefaultBufferAlignment)
+      : NumericBuilder<DayTimeIntervalType>(type, pool, alignment) {}
 };
 
 class ARROW_EXPORT MonthDayNanoIntervalBuilder
@@ -49,12 +51,14 @@ class ARROW_EXPORT MonthDayNanoIntervalBuilder
  public:
   using MonthDayNanos = MonthDayNanoIntervalType::MonthDayNanos;
 
-  explicit MonthDayNanoIntervalBuilder(MemoryPool* pool = default_memory_pool())
-      : MonthDayNanoIntervalBuilder(month_day_nano_interval(), pool) {}
+  explicit MonthDayNanoIntervalBuilder(MemoryPool* pool = default_memory_pool(),
+                                       int64_t alignment = kDefaultBufferAlignment)
+      : MonthDayNanoIntervalBuilder(month_day_nano_interval(), pool, alignment) {}
 
   explicit MonthDayNanoIntervalBuilder(std::shared_ptr<DataType> type,
-                                       MemoryPool* pool = default_memory_pool())
-      : NumericBuilder<MonthDayNanoIntervalType>(type, pool) {}
+                                       MemoryPool* pool = default_memory_pool(),
+                                       int64_t alignment = kDefaultBufferAlignment)
+      : NumericBuilder<MonthDayNanoIntervalType>(type, pool, alignment) {}
 };
 
 /// @}
diff --git a/cpp/src/arrow/array/builder_union.cc b/cpp/src/arrow/array/builder_union.cc
index 883cda3d8b7..d6200d9001a 100644
--- a/cpp/src/arrow/array/builder_union.cc
+++ b/cpp/src/arrow/array/builder_union.cc
@@ -68,9 +68,12 @@ Status DenseUnionBuilder::FinishInternal(std::shared_ptr<ArrayData>* out) {
 }
 
 BasicUnionBuilder::BasicUnionBuilder(
-    MemoryPool* pool, const std::vector<std::shared_ptr<ArrayBuilder>>& children,
+    MemoryPool* pool, int64_t alignment,
+    const std::vector<std::shared_ptr<ArrayBuilder>>& children,
     const std::shared_ptr<DataType>& type)
-    : ArrayBuilder(pool), child_fields_(children.size()), types_builder_(pool) {
+    : ArrayBuilder(pool, alignment),
+      child_fields_(children.size()),
+      types_builder_(pool, alignment) {
   const auto& union_type = checked_cast<const UnionType&>(*type);
   mode_ = union_type.mode();
 
diff --git a/cpp/src/arrow/array/builder_union.h b/cpp/src/arrow/array/builder_union.h
index eb8c5d3af0e..718ef4c32ce 100644
--- a/cpp/src/arrow/array/builder_union.h
+++ b/cpp/src/arrow/array/builder_union.h
@@ -67,7 +67,7 @@ class ARROW_EXPORT BasicUnionBuilder : public ArrayBuilder {
   int64_t length() const override { return types_builder_.length(); }
 
  protected:
-  BasicUnionBuilder(MemoryPool* pool,
+  BasicUnionBuilder(MemoryPool* pool, int64_t alignment,
                     const std::vector<std::shared_ptr<ArrayBuilder>>& children,
                     const std::shared_ptr<DataType>& type);
 
@@ -92,15 +92,19 @@ class ARROW_EXPORT DenseUnionBuilder : public BasicUnionBuilder {
   /// Use this constructor to initialize the UnionBuilder with no child builders,
   /// allowing type to be inferred. You will need to call AppendChild for each of the
   /// children builders you want to use.
-  explicit DenseUnionBuilder(MemoryPool* pool)
-      : BasicUnionBuilder(pool, {}, dense_union(FieldVector{})), offsets_builder_(pool) {}
+  explicit DenseUnionBuilder(MemoryPool* pool,
+                             int64_t alignment = kDefaultBufferAlignment)
+      : BasicUnionBuilder(pool, alignment, {}, dense_union(FieldVector{})),
+        offsets_builder_(pool, alignment) {}
 
   /// Use this constructor to specify the type explicitly.
   /// You can still add child builders to the union after using this constructor
   DenseUnionBuilder(MemoryPool* pool,
                     const std::vector<std::shared_ptr<ArrayBuilder>>& children,
-                    const std::shared_ptr<DataType>& type)
-      : BasicUnionBuilder(pool, children, type), offsets_builder_(pool) {}
+                    const std::shared_ptr<DataType>& type,
+                    int64_t alignment = kDefaultBufferAlignment)
+      : BasicUnionBuilder(pool, alignment, children, type),
+        offsets_builder_(pool, alignment) {}
 
   Status AppendNull() final {
     const int8_t first_child_code = type_codes_[0];
@@ -177,15 +181,17 @@ class ARROW_EXPORT SparseUnionBuilder : public BasicUnionBuilder {
   /// Use this constructor to initialize the UnionBuilder with no child builders,
   /// allowing type to be inferred. You will need to call AppendChild for each of the
   /// children builders you want to use.
-  explicit SparseUnionBuilder(MemoryPool* pool)
-      : BasicUnionBuilder(pool, {}, sparse_union(FieldVector{})) {}
+  explicit SparseUnionBuilder(MemoryPool* pool,
+                              int64_t alignment = kDefaultBufferAlignment)
+      : BasicUnionBuilder(pool, alignment, {}, sparse_union(FieldVector{})) {}
 
   /// Use this constructor to specify the type explicitly.
   /// You can still add child builders to the union after using this constructor
   SparseUnionBuilder(MemoryPool* pool,
                      const std::vector<std::shared_ptr<ArrayBuilder>>& children,
-                     const std::shared_ptr<DataType>& type)
-      : BasicUnionBuilder(pool, children, type) {}
+                     const std::shared_ptr<DataType>& type,
+                     int64_t alignment = kDefaultBufferAlignment)
+      : BasicUnionBuilder(pool, alignment, children, type) {}
 
   /// \brief Append a null value.
   ///
diff --git a/cpp/src/arrow/array/concatenate.cc b/cpp/src/arrow/array/concatenate.cc
index 9f77fbb5f43..aab734284fa 100644
--- a/cpp/src/arrow/array/concatenate.cc
+++ b/cpp/src/arrow/array/concatenate.cc
@@ -311,8 +311,8 @@ class ConcatenateImpl {
                                                   /*dest_offset=*/position, run.length,
                                                   transpose_map));
           } else {
-            std::fill(out_data + position,
-                      out_data + position + (run.length * index_width), 0x00);
+            std::fill(out_data + (position * index_width),
+                      out_data + (position + run.length) * index_width, 0x00);
           }
 
           position += run.length;
diff --git a/cpp/src/arrow/array/concatenate_test.cc b/cpp/src/arrow/array/concatenate_test.cc
index aacd7518928..bff5d7eec1e 100644
--- a/cpp/src/arrow/array/concatenate_test.cc
+++ b/cpp/src/arrow/array/concatenate_test.cc
@@ -539,4 +539,15 @@ TEST_F(ConcatenateTest, OffsetOverflow) {
   ASSERT_RAISES(Invalid, Concatenate({fake_long, fake_long}).status());
 }
 
+TEST_F(ConcatenateTest, DictionaryConcatenateWithEmptyUint16) {
+  // Regression test for ARROW-17733
+  auto dict_type = dictionary(uint16(), utf8());
+  auto dict_one = DictArrayFromJSON(dict_type, "[]", "[]");
+  auto dict_two =
+      DictArrayFromJSON(dict_type, "[0, 1, null, null, null, null]", "[\"A0\", \"A1\"]");
+  ASSERT_OK_AND_ASSIGN(auto concat_actual, Concatenate({dict_one, dict_two}));
+
+  AssertArraysEqual(*dict_two, *concat_actual);
+}
+
 }  // namespace arrow
diff --git a/cpp/src/arrow/array/data.h b/cpp/src/arrow/array/data.h
index dde66ac79c4..e024483f665 100644
--- a/cpp/src/arrow/array/data.h
+++ b/cpp/src/arrow/array/data.h
@@ -167,6 +167,11 @@ struct ARROW_EXPORT ArrayData {
 
   std::shared_ptr<ArrayData> Copy() const { return std::make_shared<ArrayData>(*this); }
 
+  bool IsNull(int64_t i) const {
+    return ((buffers[0] != NULLPTR) ? !bit_util::GetBit(buffers[0]->data(), i + offset)
+                                    : null_count.load() == length);
+  }
+
   // Access a buffer's data as a typed C pointer
   template <typename T>
   inline const T* GetValues(int i, int64_t absolute_offset) const {
@@ -324,18 +329,14 @@ struct ARROW_EXPORT ArraySpan {
     return GetValues<T>(i, this->offset);
   }
 
-  bool IsNull(int64_t i) const {
-    return ((this->buffers[0].data != NULLPTR)
-                ? !bit_util::GetBit(this->buffers[0].data, i + this->offset)
-                : this->null_count == this->length);
-  }
-
-  bool IsValid(int64_t i) const {
+  inline bool IsValid(int64_t i) const {
     return ((this->buffers[0].data != NULLPTR)
                 ? bit_util::GetBit(this->buffers[0].data, i + this->offset)
                 : this->null_count != this->length);
   }
 
+  inline bool IsNull(int64_t i) const { return !IsValid(i); }
+
   std::shared_ptr<ArrayData> ToArrayData() const;
 
   std::shared_ptr<Array> ToArray() const;
diff --git a/cpp/src/arrow/array/dict_internal.h b/cpp/src/arrow/array/dict_internal.h
index a8b69133cfe..5245c8d0ff3 100644
--- a/cpp/src/arrow/array/dict_internal.h
+++ b/cpp/src/arrow/array/dict_internal.h
@@ -22,6 +22,7 @@
 #include <cstdint>
 #include <limits>
 #include <memory>
+#include <string_view>
 #include <type_traits>
 #include <utility>
 #include <vector>
@@ -34,7 +35,6 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/hashing.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 namespace internal {
diff --git a/cpp/src/arrow/array/diff.cc b/cpp/src/arrow/array/diff.cc
index 16f4f9c7638..9fbb5df2c01 100644
--- a/cpp/src/arrow/array/diff.cc
+++ b/cpp/src/arrow/array/diff.cc
@@ -23,6 +23,7 @@
 #include <memory>
 #include <sstream>
 #include <string>
+#include <string_view>
 #include <type_traits>
 #include <utility>
 #include <vector>
@@ -43,7 +44,6 @@
 #include "arrow/util/logging.h"
 #include "arrow/util/range.h"
 #include "arrow/util/string.h"
-#include "arrow/util/string_view.h"
 #include "arrow/vendored/datetime.h"
 #include "arrow/visit_type_inline.h"
 
@@ -399,8 +399,8 @@ class MakeFormatterImpl {
   }
 
  private:
-  template <typename VISITOR>
-  friend Status VisitTypeInline(const DataType&, VISITOR*);
+  template <typename VISITOR, typename... ARGS>
+  friend Status VisitTypeInline(const DataType&, VISITOR*, ARGS&&... args);
 
   // factory implementation
   Status Visit(const BooleanType&) {
diff --git a/cpp/src/arrow/array/validate.cc b/cpp/src/arrow/array/validate.cc
index 05155d64b6a..c1a37c4234e 100644
--- a/cpp/src/arrow/array/validate.cc
+++ b/cpp/src/arrow/array/validate.cc
@@ -54,7 +54,7 @@ struct UTF8DataValidator {
     int64_t i = 0;
     return VisitArraySpanInline<StringType>(
         data,
-        [&](util::string_view v) {
+        [&](std::string_view v) {
           if (ARROW_PREDICT_FALSE(!util::ValidateUTF8(v))) {
             return Status::Invalid("Invalid UTF8 sequence at string index ", i);
           }
@@ -459,14 +459,17 @@ struct ValidateArrayImpl {
       if (buffer == nullptr) {
         continue;
       }
-      int64_t min_buffer_size = -1;
+      int64_t min_buffer_size = 0;
       switch (spec.kind) {
         case DataTypeLayout::BITMAP:
-          min_buffer_size = bit_util::BytesForBits(length_plus_offset);
+          // If length == 0, buffer size can be 0 regardless of offset
+          if (data.length > 0) {
+            min_buffer_size = bit_util::BytesForBits(length_plus_offset);
+          }
           break;
         case DataTypeLayout::FIXED_WIDTH:
-          if (MultiplyWithOverflow(length_plus_offset, spec.byte_width,
-                                   &min_buffer_size)) {
+          if (data.length > 0 && MultiplyWithOverflow(length_plus_offset, spec.byte_width,
+                                                      &min_buffer_size)) {
             return Status::Invalid("Array of type ", type.ToString(),
                                    " has impossibly large length and offset");
           }
@@ -675,7 +678,7 @@ struct ValidateArrayImpl {
       const int32_t precision = type.precision();
       return VisitArraySpanInline<DecimalType>(
           data,
-          [&](util::string_view bytes) {
+          [&](std::string_view bytes) {
             DCHECK_EQ(bytes.size(), DecimalType::kByteWidth);
             CType value(reinterpret_cast<const uint8_t*>(bytes.data()));
             if (!value.FitsInPrecision(precision)) {
diff --git a/cpp/src/arrow/arrow-testing.pc.in b/cpp/src/arrow/arrow-testing.pc.in
index 5a991e796d8..9a452a5d113 100644
--- a/cpp/src/arrow/arrow-testing.pc.in
+++ b/cpp/src/arrow/arrow-testing.pc.in
@@ -27,3 +27,4 @@ Version: @ARROW_VERSION@
 Requires: arrow
 Libs: -L${libdir} -larrow_testing
 Cflags: -I${gtest_includedir}
+Cflags.private: -DARROW_TESTING_STATIC
diff --git a/cpp/src/arrow/arrow.pc.in b/cpp/src/arrow/arrow.pc.in
index 3a5710ab6b8..309789379a5 100644
--- a/cpp/src/arrow/arrow.pc.in
+++ b/cpp/src/arrow/arrow.pc.in
@@ -26,7 +26,9 @@ full_so_version=@ARROW_FULL_SO_VERSION@
 Name: Apache Arrow
 Description: Arrow is a set of technologies that enable big-data systems to process and move data fast.
 Version: @ARROW_VERSION@
+Requires:@ARROW_PC_REQUIRES@
 Requires.private:@ARROW_PC_REQUIRES_PRIVATE@
-Libs: -L${libdir} -larrow
+Libs: -L${libdir} -larrow@ARROW_PC_LIBS@
 Libs.private:@ARROW_PC_LIBS_PRIVATE@
-Cflags: -I${includedir}
+Cflags: -I${includedir}@ARROW_PC_CFLAGS@
+Cflags.private:@ARROW_PC_CFLAGS_PRIVATE@
diff --git a/cpp/src/arrow/buffer.cc b/cpp/src/arrow/buffer.cc
index e7566354d12..afe3d773594 100644
--- a/cpp/src/arrow/buffer.cc
+++ b/cpp/src/arrow/buffer.cc
@@ -185,7 +185,13 @@ Result<std::shared_ptr<Buffer>> AllocateBitmap(int64_t length, MemoryPool* pool)
 }
 
 Result<std::shared_ptr<Buffer>> AllocateEmptyBitmap(int64_t length, MemoryPool* pool) {
-  ARROW_ASSIGN_OR_RAISE(auto buf, AllocateBuffer(bit_util::BytesForBits(length), pool));
+  return AllocateEmptyBitmap(length, kDefaultBufferAlignment, pool);
+}
+
+Result<std::shared_ptr<Buffer>> AllocateEmptyBitmap(int64_t length, int64_t alignment,
+                                                    MemoryPool* pool) {
+  ARROW_ASSIGN_OR_RAISE(auto buf,
+                        AllocateBuffer(bit_util::BytesForBits(length), alignment, pool));
   memset(buf->mutable_data(), 0, static_cast<size_t>(buf->size()));
   return std::move(buf);
 }
diff --git a/cpp/src/arrow/buffer.h b/cpp/src/arrow/buffer.h
index 8be10d282b0..9270c4dea3f 100644
--- a/cpp/src/arrow/buffer.h
+++ b/cpp/src/arrow/buffer.h
@@ -21,14 +21,15 @@
 #include <cstring>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
 #include "arrow/device.h"
 #include "arrow/status.h"
 #include "arrow/type_fwd.h"
+#include "arrow/util/bytes_view.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -77,7 +78,7 @@ class ARROW_EXPORT Buffer {
   ///
   /// \note The memory viewed by data must not be deallocated in the lifetime of the
   /// Buffer; temporary rvalue strings must be stored in an lvalue somewhere
-  explicit Buffer(util::string_view data)
+  explicit Buffer(std::string_view data)
       : Buffer(reinterpret_cast<const uint8_t*>(data.data()),
                static_cast<int64_t>(data.size())) {}
 
@@ -159,10 +160,10 @@ class ARROW_EXPORT Buffer {
   /// \note Can throw std::bad_alloc if buffer is large
   std::string ToString() const;
 
-  /// \brief View buffer contents as a util::string_view
-  /// \return util::string_view
-  explicit operator util::string_view() const {
-    return util::string_view(reinterpret_cast<const char*>(data_), size_);
+  /// \brief View buffer contents as a std::string_view
+  /// \return std::string_view
+  explicit operator std::string_view() const {
+    return std::string_view(reinterpret_cast<const char*>(data_), size_);
   }
 
   /// \brief View buffer contents as a util::bytes_view
@@ -460,6 +461,9 @@ class ARROW_EXPORT ResizableBuffer : public MutableBuffer {
 ARROW_EXPORT
 Result<std::unique_ptr<Buffer>> AllocateBuffer(const int64_t size,
                                                MemoryPool* pool = NULLPTR);
+ARROW_EXPORT
+Result<std::unique_ptr<Buffer>> AllocateBuffer(const int64_t size, int64_t alignment,
+                                               MemoryPool* pool = NULLPTR);
 
 /// \brief Allocate a resizeable buffer from a memory pool, zero its padding.
 ///
@@ -468,6 +472,9 @@ Result<std::unique_ptr<Buffer>> AllocateBuffer(const int64_t size,
 ARROW_EXPORT
 Result<std::unique_ptr<ResizableBuffer>> AllocateResizableBuffer(
     const int64_t size, MemoryPool* pool = NULLPTR);
+ARROW_EXPORT
+Result<std::unique_ptr<ResizableBuffer>> AllocateResizableBuffer(
+    const int64_t size, const int64_t alignment, MemoryPool* pool = NULLPTR);
 
 /// \brief Allocate a bitmap buffer from a memory pool
 /// no guarantee on values is provided.
@@ -478,9 +485,6 @@ ARROW_EXPORT
 Result<std::shared_ptr<Buffer>> AllocateBitmap(int64_t length,
                                                MemoryPool* pool = NULLPTR);
 
-ARROW_EXPORT
-Status AllocateBitmap(MemoryPool* pool, int64_t length, std::shared_ptr<Buffer>* out);
-
 /// \brief Allocate a zero-initialized bitmap buffer from a memory pool
 ///
 /// \param[in] length size in bits of bitmap to allocate
@@ -489,6 +493,10 @@ ARROW_EXPORT
 Result<std::shared_ptr<Buffer>> AllocateEmptyBitmap(int64_t length,
                                                     MemoryPool* pool = NULLPTR);
 
+ARROW_EXPORT
+Result<std::shared_ptr<Buffer>> AllocateEmptyBitmap(int64_t length, int64_t alignment,
+                                                    MemoryPool* pool = NULLPTR);
+
 /// \brief Concatenate multiple buffers into a single buffer
 ///
 /// \param[in] buffers to be concatenated
@@ -497,10 +505,6 @@ ARROW_EXPORT
 Result<std::shared_ptr<Buffer>> ConcatenateBuffers(const BufferVector& buffers,
                                                    MemoryPool* pool = NULLPTR);
 
-ARROW_EXPORT
-Status ConcatenateBuffers(const BufferVector& buffers, MemoryPool* pool,
-                          std::shared_ptr<Buffer>* out);
-
 /// @}
 
 }  // namespace arrow
diff --git a/cpp/src/arrow/buffer_builder.h b/cpp/src/arrow/buffer_builder.h
index d92a01a16eb..5f37e552004 100644
--- a/cpp/src/arrow/buffer_builder.h
+++ b/cpp/src/arrow/buffer_builder.h
@@ -43,23 +43,27 @@ namespace arrow {
 /// data
 class ARROW_EXPORT BufferBuilder {
  public:
-  explicit BufferBuilder(MemoryPool* pool = default_memory_pool())
+  explicit BufferBuilder(MemoryPool* pool = default_memory_pool(),
+                         int64_t alignment = kDefaultBufferAlignment)
       : pool_(pool),
         data_(/*ensure never null to make ubsan happy and avoid check penalties below*/
               util::MakeNonNull<uint8_t>()),
         capacity_(0),
-        size_(0) {}
+        size_(0),
+        alignment_(alignment) {}
 
   /// \brief Constructs new Builder that will start using
   /// the provided buffer until Finish/Reset are called.
   /// The buffer is not resized.
   explicit BufferBuilder(std::shared_ptr<ResizableBuffer> buffer,
-                         MemoryPool* pool = default_memory_pool())
+                         MemoryPool* pool = default_memory_pool(),
+                         int64_t alignment = kDefaultBufferAlignment)
       : buffer_(std::move(buffer)),
         pool_(pool),
         data_(buffer_->mutable_data()),
         capacity_(buffer_->capacity()),
-        size_(buffer_->size()) {}
+        size_(buffer_->size()),
+        alignment_(alignment) {}
 
   /// \brief Resize the buffer to the nearest multiple of 64 bytes
   ///
@@ -71,7 +75,8 @@ class ARROW_EXPORT BufferBuilder {
   /// \return Status
   Status Resize(const int64_t new_capacity, bool shrink_to_fit = true) {
     if (buffer_ == NULLPTR) {
-      ARROW_ASSIGN_OR_RAISE(buffer_, AllocateResizableBuffer(new_capacity, pool_));
+      ARROW_ASSIGN_OR_RAISE(buffer_,
+                            AllocateResizableBuffer(new_capacity, alignment_, pool_));
     } else {
       ARROW_RETURN_NOT_OK(buffer_->Resize(new_capacity, shrink_to_fit));
     }
@@ -153,7 +158,7 @@ class ARROW_EXPORT BufferBuilder {
     if (size_ != 0) buffer_->ZeroPadding();
     *out = buffer_;
     if (*out == NULLPTR) {
-      ARROW_ASSIGN_OR_RAISE(*out, AllocateBuffer(0, pool_));
+      ARROW_ASSIGN_OR_RAISE(*out, AllocateBuffer(0, alignment_, pool_));
     }
     Reset();
     return Status::OK();
@@ -198,6 +203,7 @@ class ARROW_EXPORT BufferBuilder {
   uint8_t* data_;
   int64_t capacity_;
   int64_t size_;
+  int64_t alignment_;
 };
 
 template <typename T, typename Enable = void>
@@ -209,8 +215,9 @@ class TypedBufferBuilder<
     T, typename std::enable_if<std::is_arithmetic<T>::value ||
                                std::is_standard_layout<T>::value>::type> {
  public:
-  explicit TypedBufferBuilder(MemoryPool* pool = default_memory_pool())
-      : bytes_builder_(pool) {}
+  explicit TypedBufferBuilder(MemoryPool* pool = default_memory_pool(),
+                              int64_t alignment = kDefaultBufferAlignment)
+      : bytes_builder_(pool, alignment) {}
 
   explicit TypedBufferBuilder(std::shared_ptr<ResizableBuffer> buffer,
                               MemoryPool* pool = default_memory_pool())
@@ -306,8 +313,9 @@ class TypedBufferBuilder<
 template <>
 class TypedBufferBuilder<bool> {
  public:
-  explicit TypedBufferBuilder(MemoryPool* pool = default_memory_pool())
-      : bytes_builder_(pool) {}
+  explicit TypedBufferBuilder(MemoryPool* pool = default_memory_pool(),
+                              int64_t alignment = kDefaultBufferAlignment)
+      : bytes_builder_(pool, alignment) {}
 
   explicit TypedBufferBuilder(BufferBuilder builder)
       : bytes_builder_(std::move(builder)) {}
diff --git a/cpp/src/arrow/buffer_test.cc b/cpp/src/arrow/buffer_test.cc
index 724db80eba7..ce8bab846d5 100644
--- a/cpp/src/arrow/buffer_test.cc
+++ b/cpp/src/arrow/buffer_test.cc
@@ -34,7 +34,6 @@
 #include "arrow/status.h"
 #include "arrow/testing/gtest_util.h"
 #include "arrow/util/checked_cast.h"
-#include "arrow/util/make_unique.h"
 
 namespace arrow {
 
@@ -162,7 +161,7 @@ Result<std::unique_ptr<Buffer>> MyMemoryManager::CopyNonOwnedFrom(
     ARROW_ASSIGN_OR_RAISE(auto dest,
                           MemoryManager::CopyNonOwned(buf, default_cpu_memory_manager()));
     // 2. Wrap CPU buffer result
-    return internal::make_unique<MyBuffer>(shared_from_this(), std::move(dest));
+    return std::make_unique<MyBuffer>(shared_from_this(), std::move(dest));
   }
   return nullptr;
 }
@@ -204,8 +203,8 @@ Result<std::shared_ptr<Buffer>> MyMemoryManager::ViewBufferTo(
 }
 
 // Like AssertBufferEqual, but doesn't call Buffer::data()
-void AssertMyBufferEqual(const Buffer& buffer, util::string_view expected) {
-  ASSERT_EQ(util::string_view(buffer), expected);
+void AssertMyBufferEqual(const Buffer& buffer, std::string_view expected) {
+  ASSERT_EQ(std::string_view(buffer), expected);
 }
 
 void AssertIsCPUBuffer(const Buffer& buf) {
@@ -398,6 +397,15 @@ TEST(TestBuffer, FromStdString) {
   ASSERT_EQ(static_cast<int64_t>(val.size()), buf.size());
 }
 
+TEST(TestBuffer, Alignment) {
+  std::string val = "hello, world";
+
+  constexpr int64_t kAlignmentTest = 1024;
+  ASSERT_OK_AND_ASSIGN(std::unique_ptr<Buffer> buf,
+                       AllocateBuffer(val.size(), kAlignmentTest));
+  ASSERT_EQ(buf->address() % kAlignmentTest, 0);
+}
+
 TEST(TestBuffer, FromStdStringWithMemory) {
   std::string expected = "hello, world";
   std::shared_ptr<Buffer> buf;
@@ -709,6 +717,37 @@ TEST(TestBufferBuilder, ResizeReserve) {
   ASSERT_EQ(9, builder.length());
 }
 
+TEST(TestBufferBuilder, Alignment) {
+  const std::string data = "some data";
+  auto data_ptr = data.c_str();
+
+  constexpr int kTestAlignment = 512;
+  BufferBuilder builder(default_memory_pool(), /*alignment=*/kTestAlignment);
+#define TEST_ALIGNMENT() \
+  ASSERT_EQ(reinterpret_cast<uintptr_t>(builder.data()) % kTestAlignment, 0)
+
+  ASSERT_OK(builder.Append(data_ptr, 9));
+  TEST_ALIGNMENT();
+
+  ASSERT_OK(builder.Resize(128));
+  ASSERT_EQ(128, builder.capacity());
+  ASSERT_EQ(9, builder.length());
+  TEST_ALIGNMENT();
+
+  // Do not shrink to fit
+  ASSERT_OK(builder.Resize(64, false));
+  TEST_ALIGNMENT();
+
+  // Shrink to fit
+  ASSERT_OK(builder.Resize(64));
+  TEST_ALIGNMENT();
+
+  // Reserve elements
+  ASSERT_OK(builder.Reserve(60));
+  TEST_ALIGNMENT();
+#undef TEST_ALIGNMENT
+}
+
 TEST(TestBufferBuilder, Finish) {
   const std::string data = "some data";
   auto data_ptr = data.c_str();
diff --git a/cpp/src/arrow/builder.cc b/cpp/src/arrow/builder.cc
index 779722e0d1c..45ba4e8b700 100644
--- a/cpp/src/arrow/builder.cc
+++ b/cpp/src/arrow/builder.cc
@@ -17,6 +17,7 @@
 
 #include "arrow/builder.h"
 
+#include <memory>
 #include <string>
 #include <utility>
 #include <vector>
@@ -25,7 +26,6 @@
 #include "arrow/type.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/hashing.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/visit_type_inline.h"
 
 namespace arrow {
@@ -42,40 +42,42 @@ using arrow::internal::checked_cast;
 // exact_index_type case below, to reduce build time and memory usage.
 class ARROW_EXPORT TypeErasedIntBuilder : public ArrayBuilder {
  public:
-  explicit TypeErasedIntBuilder(MemoryPool* pool = default_memory_pool())
-      : ArrayBuilder(pool) {
+  explicit TypeErasedIntBuilder(MemoryPool* pool = default_memory_pool(),
+                                int64_t alignment = kDefaultBufferAlignment)
+      : ArrayBuilder(pool, alignment) {
     // Not intended to be used, but adding this is easier than adding a bunch of enable_if
     // magic to builder_dict.h
     DCHECK(false);
   }
   explicit TypeErasedIntBuilder(const std::shared_ptr<DataType>& type,
-                                MemoryPool* pool = default_memory_pool())
+                                MemoryPool* pool = default_memory_pool(),
+                                int64_t alignment = kDefaultBufferAlignment)
       : ArrayBuilder(pool), type_id_(type->id()) {
     DCHECK(is_integer(type_id_));
     switch (type_id_) {
       case Type::UINT8:
-        builder_ = internal::make_unique<UInt8Builder>(pool);
+        builder_ = std::make_unique<UInt8Builder>(pool);
         break;
       case Type::INT8:
-        builder_ = internal::make_unique<Int8Builder>(pool);
+        builder_ = std::make_unique<Int8Builder>(pool);
         break;
       case Type::UINT16:
-        builder_ = internal::make_unique<UInt16Builder>(pool);
+        builder_ = std::make_unique<UInt16Builder>(pool);
         break;
       case Type::INT16:
-        builder_ = internal::make_unique<Int16Builder>(pool);
+        builder_ = std::make_unique<Int16Builder>(pool);
         break;
       case Type::UINT32:
-        builder_ = internal::make_unique<UInt32Builder>(pool);
+        builder_ = std::make_unique<UInt32Builder>(pool);
         break;
       case Type::INT32:
-        builder_ = internal::make_unique<Int32Builder>(pool);
+        builder_ = std::make_unique<Int32Builder>(pool);
         break;
       case Type::UINT64:
-        builder_ = internal::make_unique<UInt64Builder>(pool);
+        builder_ = std::make_unique<UInt64Builder>(pool);
         break;
       case Type::INT64:
-        builder_ = internal::make_unique<Int64Builder>(pool);
+        builder_ = std::make_unique<Int64Builder>(pool);
         break;
       default:
         DCHECK(false);
diff --git a/cpp/src/arrow/builder_benchmark.cc b/cpp/src/arrow/builder_benchmark.cc
index c131f813927..cf3e7f32d5e 100644
--- a/cpp/src/arrow/builder_benchmark.cc
+++ b/cpp/src/arrow/builder_benchmark.cc
@@ -21,6 +21,7 @@
 #include <numeric>
 #include <random>
 #include <string>
+#include <string_view>
 #include <vector>
 
 #include "benchmark/benchmark.h"
@@ -30,12 +31,12 @@
 #include "arrow/testing/gtest_util.h"
 #include "arrow/util/bit_util.h"
 #include "arrow/util/decimal.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 
 using ValueType = int64_t;
 using VectorType = std::vector<ValueType>;
+
 constexpr int64_t kNumberOfElements = 256 * 512;
 
 static VectorType AlmostU8CompressibleVector() {
@@ -54,7 +55,7 @@ constexpr int64_t kBytesProcessPerRound = kNumberOfElements * sizeof(ValueType);
 constexpr int64_t kBytesProcessed = kRounds * kBytesProcessPerRound;
 
 static const char* kBinaryString = "12345678";
-static arrow::util::string_view kBinaryView(kBinaryString);
+static std::string_view kBinaryView(kBinaryString);
 
 static void BuildIntArrayNoNulls(benchmark::State& state) {  // NOLINT non-const reference
   for (auto _ : state) {
diff --git a/cpp/src/arrow/c/bridge.cc b/cpp/src/arrow/c/bridge.cc
index de531dbc607..d6ea60f520e 100644
--- a/cpp/src/arrow/c/bridge.cc
+++ b/cpp/src/arrow/c/bridge.cc
@@ -21,6 +21,7 @@
 #include <cerrno>
 #include <cstring>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
@@ -30,6 +31,7 @@
 #include "arrow/c/util_internal.h"
 #include "arrow/extension_type.h"
 #include "arrow/memory_pool.h"
+#include "arrow/memory_pool_internal.h"  // for kZeroSizeArea
 #include "arrow/record_batch.h"
 #include "arrow/result.h"
 #include "arrow/stl_allocator.h"
@@ -40,7 +42,7 @@
 #include "arrow/util/logging.h"
 #include "arrow/util/macros.h"
 #include "arrow/util/small_vector.h"
-#include "arrow/util/string_view.h"
+#include "arrow/util/string.h"
 #include "arrow/util/value_parsing.h"
 #include "arrow/visit_type_inline.h"
 
@@ -57,6 +59,10 @@ using internal::ArrayExportTraits;
 using internal::SchemaExportGuard;
 using internal::SchemaExportTraits;
 
+using internal::ToChars;
+
+using memory_pool::internal::kZeroSizeArea;
+
 namespace {
 
 Status ExportingNotImplemented(const DataType& type) {
@@ -334,18 +340,16 @@ struct SchemaExporter {
   Status Visit(const DoubleType& type) { return SetFormat("g"); }
 
   Status Visit(const FixedSizeBinaryType& type) {
-    return SetFormat("w:" + std::to_string(type.byte_width()));
+    return SetFormat("w:" + ToChars(type.byte_width()));
   }
 
   Status Visit(const DecimalType& type) {
     if (type.bit_width() == 128) {
       // 128 is the default bit-width
-      return SetFormat("d:" + std::to_string(type.precision()) + "," +
-                       std::to_string(type.scale()));
+      return SetFormat("d:" + ToChars(type.precision()) + "," + ToChars(type.scale()));
     } else {
-      return SetFormat("d:" + std::to_string(type.precision()) + "," +
-                       std::to_string(type.scale()) + "," +
-                       std::to_string(type.bit_width()));
+      return SetFormat("d:" + ToChars(type.precision()) + "," + ToChars(type.scale()) +
+                       "," + ToChars(type.bit_width()));
     }
   }
 
@@ -441,7 +445,7 @@ struct SchemaExporter {
   Status Visit(const LargeListType& type) { return SetFormat("+L"); }
 
   Status Visit(const FixedSizeListType& type) {
-    return SetFormat("+w:" + std::to_string(type.list_size()));
+    return SetFormat("+w:" + ToChars(type.list_size()));
   }
 
   Status Visit(const StructType& type) { return SetFormat("+s"); }
@@ -468,7 +472,7 @@ struct SchemaExporter {
       if (!first) {
         s += ",";
       }
-      s += std::to_string(code);
+      s += ToChars(code);
       first = false;
     }
     return Status::OK();
@@ -666,7 +670,7 @@ namespace {
 
 static constexpr int64_t kMaxImportRecursionLevel = 64;
 
-Status InvalidFormatString(util::string_view v) {
+Status InvalidFormatString(std::string_view v) {
   return Status::Invalid("Invalid or unsupported format string: '", v, "'");
 }
 
@@ -674,13 +678,13 @@ class FormatStringParser {
  public:
   FormatStringParser() {}
 
-  explicit FormatStringParser(util::string_view v) : view_(v), index_(0) {}
+  explicit FormatStringParser(std::string_view v) : view_(v), index_(0) {}
 
   bool AtEnd() const { return index_ >= view_.length(); }
 
   char Next() { return view_[index_++]; }
 
-  util::string_view Rest() { return view_.substr(index_); }
+  std::string_view Rest() { return view_.substr(index_); }
 
   Status CheckNext(char c) {
     if (AtEnd() || Next() != c) {
@@ -704,7 +708,7 @@ class FormatStringParser {
   }
 
   template <typename IntType = int32_t>
-  Result<IntType> ParseInt(util::string_view v) {
+  Result<IntType> ParseInt(std::string_view v) {
     using ArrowIntType = typename CTypeTraits<IntType>::ArrowType;
     IntType value;
     if (!internal::ParseValue<ArrowIntType>(v.data(), v.size(), &value)) {
@@ -729,13 +733,13 @@ class FormatStringParser {
     }
   }
 
-  SmallVector<util::string_view, 2> Split(util::string_view v, char delim = ',') {
-    SmallVector<util::string_view, 2> parts;
+  SmallVector<std::string_view, 2> Split(std::string_view v, char delim = ',') {
+    SmallVector<std::string_view, 2> parts;
     size_t start = 0, end;
     while (true) {
       end = v.find_first_of(delim, start);
       parts.push_back(v.substr(start, end - start));
-      if (end == util::string_view::npos) {
+      if (end == std::string_view::npos) {
         break;
       }
       start = end + 1;
@@ -744,9 +748,10 @@ class FormatStringParser {
   }
 
   template <typename IntType = int32_t>
-  Result<std::vector<IntType>> ParseInts(util::string_view v) {
-    auto parts = Split(v);
+  Result<std::vector<IntType>> ParseInts(std::string_view v) {
     std::vector<IntType> result;
+    if (v.empty()) return result;
+    auto parts = Split(v);
     result.reserve(parts.size());
     for (const auto& p : parts) {
       ARROW_ASSIGN_OR_RAISE(auto i, ParseInt<IntType>(p));
@@ -758,7 +763,7 @@ class FormatStringParser {
   Status Invalid() { return InvalidFormatString(view_); }
 
  protected:
-  util::string_view view_;
+  std::string_view view_;
   size_t index_;
 };
 
@@ -1263,7 +1268,8 @@ class ImportedBuffer : public Buffer {
 };
 
 struct ArrayImporter {
-  explicit ArrayImporter(const std::shared_ptr<DataType>& type) : type_(type) {}
+  explicit ArrayImporter(const std::shared_ptr<DataType>& type)
+      : type_(type), zero_size_buffer_(std::make_shared<Buffer>(kZeroSizeArea, 0)) {}
 
   Status Import(struct ArrowArray* src) {
     if (ArrowArrayIsReleased(src)) {
@@ -1527,7 +1533,7 @@ struct ArrayImporter {
   }
 
   Status ImportNullBitmap(int32_t buffer_id = 0) {
-    RETURN_NOT_OK(ImportBitsBuffer(buffer_id));
+    RETURN_NOT_OK(ImportBitsBuffer(buffer_id, /*is_null_bitmap=*/true));
     if (data_->null_count > 0 && data_->buffers[buffer_id] == nullptr) {
       return Status::Invalid(
           "ArrowArray struct has null bitmap buffer but non-zero null_count ",
@@ -1536,15 +1542,20 @@ struct ArrayImporter {
     return Status::OK();
   }
 
-  Status ImportBitsBuffer(int32_t buffer_id) {
+  Status ImportBitsBuffer(int32_t buffer_id, bool is_null_bitmap = false) {
     // Compute visible size of buffer
-    int64_t buffer_size = bit_util::BytesForBits(c_struct_->length + c_struct_->offset);
-    return ImportBuffer(buffer_id, buffer_size);
+    int64_t buffer_size =
+        (c_struct_->length > 0)
+            ? bit_util::BytesForBits(c_struct_->length + c_struct_->offset)
+            : 0;
+    return ImportBuffer(buffer_id, buffer_size, is_null_bitmap);
   }
 
   Status ImportFixedSizeBuffer(int32_t buffer_id, int64_t byte_width) {
     // Compute visible size of buffer
-    int64_t buffer_size = byte_width * (c_struct_->length + c_struct_->offset);
+    int64_t buffer_size = (c_struct_->length > 0)
+                              ? byte_width * (c_struct_->length + c_struct_->offset)
+                              : 0;
     return ImportBuffer(buffer_id, buffer_size);
   }
 
@@ -1561,17 +1572,27 @@ struct ArrayImporter {
                                   int64_t byte_width = 1) {
     auto offsets = data_->GetValues<OffsetType>(offsets_buffer_id);
     // Compute visible size of buffer
-    int64_t buffer_size = byte_width * offsets[c_struct_->length];
+    int64_t buffer_size =
+        (c_struct_->length > 0) ? byte_width * offsets[c_struct_->length] : 0;
     return ImportBuffer(buffer_id, buffer_size);
   }
 
-  Status ImportBuffer(int32_t buffer_id, int64_t buffer_size) {
+  Status ImportBuffer(int32_t buffer_id, int64_t buffer_size,
+                      bool is_null_bitmap = false) {
     std::shared_ptr<Buffer>* out = &data_->buffers[buffer_id];
     auto data = reinterpret_cast<const uint8_t*>(c_struct_->buffers[buffer_id]);
     if (data != nullptr) {
       *out = std::make_shared<ImportedBuffer>(data, buffer_size, import_);
-    } else {
+    } else if (is_null_bitmap) {
       out->reset();
+    } else {
+      // Ensure that imported buffers are never null (except for the null bitmap)
+      if (buffer_size != 0) {
+        return Status::Invalid(
+            "ArrowArrayStruct contains null data pointer "
+            "for a buffer with non-zero computed size");
+      }
+      *out = zero_size_buffer_;
     }
     return Status::OK();
   }
@@ -1583,6 +1604,9 @@ struct ArrayImporter {
   std::shared_ptr<ImportedArrayData> import_;
   std::shared_ptr<ArrayData> data_;
   std::vector<ArrayImporter> child_importers_;
+
+  // For imported null buffer pointers
+  std::shared_ptr<Buffer> zero_size_buffer_;
 };
 
 }  // namespace
@@ -1742,7 +1766,9 @@ namespace {
 
 class ArrayStreamBatchReader : public RecordBatchReader {
  public:
-  explicit ArrayStreamBatchReader(struct ArrowArrayStream* stream) {
+  explicit ArrayStreamBatchReader(std::shared_ptr<Schema> schema,
+                                  struct ArrowArrayStream* stream)
+      : schema_(std::move(schema)) {
     ArrowArrayStreamMove(stream, &stream_);
     DCHECK(!ArrowArrayStreamIsReleased(&stream_));
   }
@@ -1754,7 +1780,7 @@ class ArrayStreamBatchReader : public RecordBatchReader {
     DCHECK(ArrowArrayStreamIsReleased(&stream_));
   }
 
-  std::shared_ptr<Schema> schema() const override { return CacheSchema(); }
+  std::shared_ptr<Schema> schema() const override { return schema_; }
 
   Status ReadNext(std::shared_ptr<RecordBatch>* batch) override {
     struct ArrowArray c_array;
@@ -1764,7 +1790,7 @@ class ArrayStreamBatchReader : public RecordBatchReader {
       batch->reset();
       return Status::OK();
     } else {
-      return ImportRecordBatch(&c_array, CacheSchema()).Value(batch);
+      return ImportRecordBatch(&c_array, schema_).Value(batch);
     }
   }
 
@@ -1775,17 +1801,30 @@ class ArrayStreamBatchReader : public RecordBatchReader {
     return Status::OK();
   }
 
- private:
-  std::shared_ptr<Schema> CacheSchema() const {
-    if (!schema_) {
-      struct ArrowSchema c_schema;
-      ARROW_CHECK_OK(StatusFromCError(stream_.get_schema(&stream_, &c_schema)));
-      schema_ = ImportSchema(&c_schema).ValueOrDie();
+  static Result<std::shared_ptr<RecordBatchReader>> Make(
+      struct ArrowArrayStream* stream) {
+    if (ArrowArrayStreamIsReleased(stream)) {
+      return Status::Invalid("Cannot import released ArrowArrayStream");
+    }
+    std::shared_ptr<Schema> schema;
+    struct ArrowSchema c_schema = {};
+    auto status = StatusFromCError(stream, stream->get_schema(stream, &c_schema));
+    if (status.ok()) {
+      status = ImportSchema(&c_schema).Value(&schema);
+    }
+    if (!status.ok()) {
+      ArrowArrayStreamRelease(stream);
+      return status;
     }
-    return schema_;
+    return std::make_shared<ArrayStreamBatchReader>(std::move(schema), stream);
   }
 
+ private:
   Status StatusFromCError(int errno_like) const {
+    return StatusFromCError(&stream_, errno_like);
+  }
+
+  static Status StatusFromCError(struct ArrowArrayStream* stream, int errno_like) {
     if (ARROW_PREDICT_TRUE(errno_like == 0)) {
       return Status::OK();
     }
@@ -1805,23 +1844,19 @@ class ArrayStreamBatchReader : public RecordBatchReader {
         code = StatusCode::IOError;
         break;
     }
-    const char* last_error = stream_.get_last_error(&stream_);
-    return Status(code, last_error ? std::string(last_error) : "");
+    const char* last_error = stream->get_last_error(stream);
+    return {code, last_error ? std::string(last_error) : ""};
   }
 
   mutable struct ArrowArrayStream stream_;
-  mutable std::shared_ptr<Schema> schema_;
+  std::shared_ptr<Schema> schema_;
 };
 
 }  // namespace
 
 Result<std::shared_ptr<RecordBatchReader>> ImportRecordBatchReader(
     struct ArrowArrayStream* stream) {
-  if (ArrowArrayStreamIsReleased(stream)) {
-    return Status::Invalid("Cannot import released ArrowArrayStream");
-  }
-  // XXX should we call get_schema() here to avoid crashing on error?
-  return std::make_shared<ArrayStreamBatchReader>(stream);
+  return ArrayStreamBatchReader::Make(stream);
 }
 
 }  // namespace arrow
diff --git a/cpp/src/arrow/c/bridge_test.cc b/cpp/src/arrow/c/bridge_test.cc
index bb722c52b67..90fe9d59657 100644
--- a/cpp/src/arrow/c/bridge_test.cc
+++ b/cpp/src/arrow/c/bridge_test.cc
@@ -19,6 +19,7 @@
 #include <deque>
 #include <functional>
 #include <string>
+#include <string_view>
 #include <type_traits>
 #include <utility>
 #include <vector>
@@ -40,7 +41,6 @@
 #include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 
@@ -124,6 +124,24 @@ class ReleaseCallback {
 using SchemaReleaseCallback = ReleaseCallback<SchemaExportTraits>;
 using ArrayReleaseCallback = ReleaseCallback<ArrayExportTraits>;
 
+// Whether c_struct or any of its descendents have non-null data pointers.
+bool HasData(const ArrowArray* c_struct) {
+  for (int64_t i = 0; i < c_struct->n_buffers; ++i) {
+    if (c_struct->buffers[i] != nullptr) {
+      return true;
+    }
+  }
+  if (c_struct->dictionary && HasData(c_struct->dictionary)) {
+    return true;
+  }
+  for (int64_t i = 0; i < c_struct->n_children; ++i) {
+    if (HasData(c_struct->children[i])) {
+      return true;
+    }
+  }
+  return false;
+}
+
 static const std::vector<std::string> kMetadataKeys1{"key1", "key2"};
 static const std::vector<std::string> kMetadataValues1{"", "bar"};
 
@@ -408,12 +426,16 @@ TEST_F(TestSchemaExport, Union) {
   auto type = dense_union({field_a, field_b}, {42, 43});
   TestNested(type, {"+ud:42,43", "c", "b"}, {"", "a", "b"},
              {ARROW_FLAG_NULLABLE, ARROW_FLAG_NULLABLE, 0});
+  TestNested(dense_union(arrow::FieldVector{}, std::vector<int8_t>{}), {"+ud:"}, {""},
+             {ARROW_FLAG_NULLABLE});
   // Sparse
   field_a = field("a", int8(), /*nullable=*/false);
   field_b = field("b", boolean());
   type = sparse_union({field_a, field_b}, {42, 43});
   TestNested(type, {"+us:42,43", "c", "b"}, {"", "a", "b"},
              {ARROW_FLAG_NULLABLE, 0, ARROW_FLAG_NULLABLE});
+  TestNested(sparse_union(arrow::FieldVector{}, std::vector<int8_t>{}), {"+us:"}, {""},
+             {ARROW_FLAG_NULLABLE});
 }
 
 std::string GetIndexFormat(Type::type type_id) {
@@ -1655,6 +1677,8 @@ static const uint8_t bits_buffer1[] = {0xed, 0xed};
 static const void* buffers_no_nulls_no_data[1] = {nullptr};
 static const void* buffers_nulls_no_data1[1] = {bits_buffer1};
 
+static const void* all_buffers_omitted[3] = {nullptr, nullptr, nullptr};
+
 static const uint8_t data_buffer1[] = {1, 2,  3,  4,  5,  6,  7,  8,
                                        9, 10, 11, 12, 13, 14, 15, 16};
 static const uint8_t data_buffer2[] = "abcdefghijklmnopqrstuvwxyz";
@@ -1720,10 +1744,13 @@ static const uint8_t string_data_buffer1[] = "foobarquuxxyzzy";
 static const int32_t string_offsets_buffer1[] = {0, 3, 3, 6, 10, 15};
 static const void* string_buffers_no_nulls1[3] = {nullptr, string_offsets_buffer1,
                                                   string_data_buffer1};
+static const void* string_buffers_omitted[3] = {nullptr, string_offsets_buffer1, nullptr};
 
 static const int64_t large_string_offsets_buffer1[] = {0, 3, 3, 6, 10};
 static const void* large_string_buffers_no_nulls1[3] = {
     nullptr, large_string_offsets_buffer1, string_data_buffer1};
+static const void* large_string_buffers_omitted[3] = {
+    nullptr, large_string_offsets_buffer1, nullptr};
 
 static const int32_t list_offsets_buffer1[] = {0, 2, 2, 5, 6, 8};
 static const void* list_buffers_no_nulls1[2] = {nullptr, list_offsets_buffer1};
@@ -1897,9 +1924,9 @@ class TestArrayImport : public ::testing::Test {
     Reset();                                        // for further tests
 
     ASSERT_OK(array->ValidateFull());
-    // Special case: Null array doesn't have any data, so it needn't
-    // keep the ArrowArray struct alive.
-    if (type->id() != Type::NA) {
+    // Special case: arrays without data (such as Null arrays) needn't keep
+    // the ArrowArray struct alive.
+    if (HasData(&c_struct_)) {
       cb.AssertNotCalled();
     }
     AssertArraysEqual(*expected, *array, true);
@@ -1986,6 +2013,10 @@ TEST_F(TestArrayImport, Primitive) {
   CheckImport(ArrayFromJSON(boolean(), "[true, null, false]"));
   FillPrimitive(3, 1, 0, primitive_buffers_nulls1_8);
   CheckImport(ArrayFromJSON(boolean(), "[true, null, false]"));
+
+  // Empty array with null data pointers
+  FillPrimitive(0, 0, 0, all_buffers_omitted);
+  CheckImport(ArrayFromJSON(int32(), "[]"));
 }
 
 TEST_F(TestArrayImport, Temporal) {
@@ -2066,6 +2097,12 @@ TEST_F(TestArrayImport, PrimitiveWithOffset) {
 
   FillPrimitive(4, 0, 7, primitive_buffers_no_nulls1_8);
   CheckImport(ArrayFromJSON(boolean(), "[false, false, true, false]"));
+
+  // Empty array with null data pointers
+  FillPrimitive(0, 0, 2, all_buffers_omitted);
+  CheckImport(ArrayFromJSON(int32(), "[]"));
+  FillPrimitive(0, 0, 3, all_buffers_omitted);
+  CheckImport(ArrayFromJSON(boolean(), "[]"));
 }
 
 TEST_F(TestArrayImport, NullWithOffset) {
@@ -2088,10 +2125,48 @@ TEST_F(TestArrayImport, String) {
   FillStringLike(4, 0, 0, large_string_buffers_no_nulls1);
   CheckImport(ArrayFromJSON(large_binary(), R"(["foo", "", "bar", "quux"])"));
 
+  // Empty array with null data pointers
+  FillStringLike(0, 0, 0, string_buffers_omitted);
+  CheckImport(ArrayFromJSON(utf8(), "[]"));
+  FillStringLike(0, 0, 0, large_string_buffers_omitted);
+  CheckImport(ArrayFromJSON(large_binary(), "[]"));
+}
+
+TEST_F(TestArrayImport, StringWithOffset) {
+  FillStringLike(3, 0, 1, string_buffers_no_nulls1);
+  CheckImport(ArrayFromJSON(utf8(), R"(["", "bar", "quux"])"));
+  FillStringLike(2, 0, 2, large_string_buffers_no_nulls1);
+  CheckImport(ArrayFromJSON(large_utf8(), R"(["bar", "quux"])"));
+
+  // Empty array with null data pointers
+  FillStringLike(0, 0, 1, string_buffers_omitted);
+  CheckImport(ArrayFromJSON(utf8(), "[]"));
+}
+
+TEST_F(TestArrayImport, FixedSizeBinary) {
   FillPrimitive(2, 0, 0, primitive_buffers_no_nulls2);
   CheckImport(ArrayFromJSON(fixed_size_binary(3), R"(["abc", "def"])"));
   FillPrimitive(2, 0, 0, primitive_buffers_no_nulls3);
   CheckImport(ArrayFromJSON(decimal(15, 4), R"(["12345.6789", "98765.4321"])"));
+
+  // Empty array with null data pointers
+  FillPrimitive(0, 0, 0, all_buffers_omitted);
+  CheckImport(ArrayFromJSON(fixed_size_binary(3), "[]"));
+  FillPrimitive(0, 0, 0, all_buffers_omitted);
+  CheckImport(ArrayFromJSON(decimal(15, 4), "[]"));
+}
+
+TEST_F(TestArrayImport, FixedSizeBinaryWithOffset) {
+  FillPrimitive(1, 0, 1, primitive_buffers_no_nulls2);
+  CheckImport(ArrayFromJSON(fixed_size_binary(3), R"(["def"])"));
+  FillPrimitive(1, 0, 1, primitive_buffers_no_nulls3);
+  CheckImport(ArrayFromJSON(decimal(15, 4), R"(["98765.4321"])"));
+
+  // Empty array with null data pointers
+  FillPrimitive(0, 0, 1, all_buffers_omitted);
+  CheckImport(ArrayFromJSON(fixed_size_binary(3), "[]"));
+  FillPrimitive(0, 0, 1, all_buffers_omitted);
+  CheckImport(ArrayFromJSON(decimal(15, 4), "[]"));
 }
 
 TEST_F(TestArrayImport, List) {
@@ -2113,6 +2188,11 @@ TEST_F(TestArrayImport, List) {
   FillFixedSizeListLike(3, 0, 0, buffers_no_nulls_no_data);
   CheckImport(
       ArrayFromJSON(fixed_size_list(int8(), 3), "[[1, 2, 3], [4, 5, 6], [7, 8, 9]]"));
+
+  // Empty child array with null data pointers
+  FillPrimitive(AddChild(), 0, 0, 0, all_buffers_omitted);
+  FillFixedSizeListLike(0, 0, 0, buffers_no_nulls_no_data);
+  CheckImport(ArrayFromJSON(fixed_size_list(int8(), 3), "[]"));
 }
 
 TEST_F(TestArrayImport, NestedList) {
@@ -2201,6 +2281,15 @@ TEST_F(TestArrayImport, SparseUnion) {
   FillUnionLike(UnionMode::SPARSE, 4, 0, 0, 2, sparse_union_buffers1_legacy,
                 /*legacy=*/true);
   CheckImport(expected);
+
+  // Empty array with null data pointers
+  expected = ArrayFromJSON(type, "[]");
+  FillStringLike(AddChild(), 0, 0, 0, string_buffers_omitted);
+  FillPrimitive(AddChild(), 0, 0, 0, all_buffers_omitted);
+  FillUnionLike(UnionMode::SPARSE, 0, 0, 0, 2, all_buffers_omitted, /*legacy=*/false);
+  FillStringLike(AddChild(), 0, 0, 0, string_buffers_omitted);
+  FillPrimitive(AddChild(), 0, 0, 0, all_buffers_omitted);
+  FillUnionLike(UnionMode::SPARSE, 0, 0, 3, 2, all_buffers_omitted, /*legacy=*/false);
 }
 
 TEST_F(TestArrayImport, DenseUnion) {
@@ -2219,6 +2308,15 @@ TEST_F(TestArrayImport, DenseUnion) {
   FillUnionLike(UnionMode::DENSE, 5, 0, 0, 2, dense_union_buffers1_legacy,
                 /*legacy=*/true);
   CheckImport(expected);
+
+  // Empty array with null data pointers
+  expected = ArrayFromJSON(type, "[]");
+  FillStringLike(AddChild(), 0, 0, 0, string_buffers_omitted);
+  FillPrimitive(AddChild(), 0, 0, 0, all_buffers_omitted);
+  FillUnionLike(UnionMode::DENSE, 0, 0, 0, 2, all_buffers_omitted, /*legacy=*/false);
+  FillStringLike(AddChild(), 0, 0, 0, string_buffers_omitted);
+  FillPrimitive(AddChild(), 0, 0, 0, all_buffers_omitted);
+  FillUnionLike(UnionMode::DENSE, 0, 0, 3, 2, all_buffers_omitted, /*legacy=*/false);
 }
 
 TEST_F(TestArrayImport, StructWithOffset) {
@@ -2355,6 +2453,29 @@ TEST_F(TestArrayImport, PrimitiveError) {
   // Zero null bitmap but non-zero null_count
   FillPrimitive(3, 1, 0, primitive_buffers_no_nulls1_8);
   CheckImportError(int8());
+
+  // Null data pointers with non-zero length
+  FillPrimitive(1, 0, 0, all_buffers_omitted);
+  CheckImportError(int8());
+  FillPrimitive(1, 0, 0, all_buffers_omitted);
+  CheckImportError(boolean());
+  FillPrimitive(1, 0, 0, all_buffers_omitted);
+  CheckImportError(fixed_size_binary(3));
+}
+
+TEST_F(TestArrayImport, StringError) {
+  // Bad number of buffers
+  FillStringLike(4, 0, 0, string_buffers_no_nulls1);
+  c_struct_.n_buffers = 2;
+  CheckImportError(utf8());
+
+  // Null data pointers with non-zero length
+  FillStringLike(4, 0, 0, string_buffers_omitted);
+  CheckImportError(utf8());
+
+  // Null offsets pointer
+  FillStringLike(0, 0, 0, all_buffers_omitted);
+  CheckImportError(utf8());
 }
 
 TEST_F(TestArrayImport, StructError) {
@@ -2365,6 +2486,13 @@ TEST_F(TestArrayImport, StructError) {
   CheckImportError(struct_({field("strs", utf8())}));
 }
 
+TEST_F(TestArrayImport, ListError) {
+  // Null offsets pointer
+  FillPrimitive(AddChild(), 0, 0, 0, primitive_buffers_no_nulls1_8);
+  FillListLike(0, 0, 0, all_buffers_omitted);
+  CheckImportError(list(int8()));
+}
+
 TEST_F(TestArrayImport, MapError) {
   // Bad number of (struct) children in map child
   FillStringLike(AddChild(), 5, 0, 0, string_buffers_no_nulls1);
@@ -2625,6 +2753,7 @@ TEST_F(TestSchemaRoundtrip, Struct) {
   TestWithTypeFactory([&]() { return struct_({f1, f2}); });
   f2 = f2->WithMetadata(key_value_metadata(kMetadataKeys2, kMetadataValues2));
   TestWithTypeFactory([&]() { return struct_({f1, f2}); });
+  TestWithTypeFactory([&]() { return struct_(arrow::FieldVector{}); });
 }
 
 TEST_F(TestSchemaRoundtrip, Union) {
@@ -2632,6 +2761,10 @@ TEST_F(TestSchemaRoundtrip, Union) {
   auto f2 = field("f2", list(decimal(19, 4)));
   auto type_codes = std::vector<int8_t>{42, 43};
 
+  TestWithTypeFactory(
+      [&]() { return dense_union(arrow::FieldVector{}, std::vector<int8_t>{}); });
+  TestWithTypeFactory(
+      [&]() { return sparse_union(arrow::FieldVector{}, std::vector<int8_t>{}); });
   TestWithTypeFactory([&]() { return sparse_union({f1, f2}, type_codes); });
   f2 = f2->WithMetadata(key_value_metadata(kMetadataKeys2, kMetadataValues2));
   TestWithTypeFactory([&]() { return dense_union({f1, f2}, type_codes); });
@@ -2850,8 +2983,10 @@ TEST_F(TestArrayRoundtrip, UnknownNullCount) {
 TEST_F(TestArrayRoundtrip, List) {
   TestWithJSON(list(int32()), "[]");
   TestWithJSON(list(int32()), "[[4, 5], [6, null], null]");
+  TestWithJSON(fixed_size_list(int32(), 3), "[[4, 5, 6], null, [7, 8, null]]");
 
   TestWithJSONSliced(list(int32()), "[[4, 5], [6, null], null]");
+  TestWithJSONSliced(fixed_size_list(int32(), 3), "[[4, 5, 6], null, [7, 8, null]]");
 }
 
 TEST_F(TestArrayRoundtrip, Struct) {
@@ -2871,6 +3006,12 @@ TEST_F(TestArrayRoundtrip, Struct) {
   TestWithJSON(type, "[[4, true], [5, null]]");
 
   TestWithJSONSliced(type, "[[4, true], [5, null], [6, false]]");
+
+  // With no fields
+  type = struct_({});
+  TestWithJSON(type, "[]");
+  TestWithJSON(type, "[[], null, [], null, []]");
+  TestWithJSONSliced(type, "[[], null, [], null, []]");
 }
 
 TEST_F(TestArrayRoundtrip, Map) {
@@ -2898,6 +3039,15 @@ TEST_F(TestArrayRoundtrip, Union) {
     TestWithJSON(type, json);
     TestWithJSONSliced(type, json);
   }
+
+  // With no fields
+  fields = {};
+  type_codes = {};
+  union_types = {sparse_union(fields, type_codes), dense_union(fields, type_codes)};
+
+  for (const auto& type : union_types) {
+    TestWithJSON(type, "[]");
+  }
 }
 
 TEST_F(TestArrayRoundtrip, Dictionary) {
@@ -3228,4 +3378,37 @@ TEST_F(TestArrayStreamRoundtrip, Errors) {
   });
 }
 
+TEST_F(TestArrayStreamRoundtrip, SchemaError) {
+  struct StreamState {
+    bool released = false;
+
+    static const char* GetLastError(struct ArrowArrayStream* stream) {
+      return "Expected error";
+    }
+
+    static int GetSchema(struct ArrowArrayStream* stream, struct ArrowSchema* schema) {
+      return EIO;
+    }
+
+    static int GetNext(struct ArrowArrayStream* stream, struct ArrowArray* array) {
+      return EINVAL;
+    }
+
+    static void Release(struct ArrowArrayStream* stream) {
+      reinterpret_cast<StreamState*>(stream->private_data)->released = true;
+      std::memset(stream, 0, sizeof(*stream));
+    }
+  } state;
+  struct ArrowArrayStream stream = {};
+  stream.get_last_error = &StreamState::GetLastError;
+  stream.get_schema = &StreamState::GetSchema;
+  stream.get_next = &StreamState::GetNext;
+  stream.release = &StreamState::Release;
+  stream.private_data = &state;
+
+  EXPECT_RAISES_WITH_MESSAGE_THAT(IOError, ::testing::HasSubstr("Expected error"),
+                                  ImportRecordBatchReader(&stream));
+  ASSERT_TRUE(state.released);
+}
+
 }  // namespace arrow
diff --git a/cpp/src/arrow/chunk_resolver.h b/cpp/src/arrow/chunk_resolver.h
index 1a63d26c24d..818070ffe35 100644
--- a/cpp/src/arrow/chunk_resolver.h
+++ b/cpp/src/arrow/chunk_resolver.h
@@ -32,7 +32,7 @@ struct ChunkLocation {
 };
 
 // An object that resolves an array chunk depending on a logical index
-struct ChunkResolver {
+struct ARROW_EXPORT ChunkResolver {
   explicit ChunkResolver(const ArrayVector& chunks);
 
   explicit ChunkResolver(const std::vector<const Array*>& chunks);
diff --git a/cpp/src/arrow/chunked_array.cc b/cpp/src/arrow/chunked_array.cc
index 840dd04a5ad..c5e6d7fa4bd 100644
--- a/cpp/src/arrow/chunked_array.cc
+++ b/cpp/src/arrow/chunked_array.cc
@@ -72,7 +72,7 @@ Result<std::shared_ptr<ChunkedArray>> ChunkedArray::Make(ArrayVector chunks,
   }
   for (const auto& chunk : chunks) {
     if (!chunk->type()->Equals(*type)) {
-      return Status::Invalid("Array chunks must all be same type");
+      return Status::TypeError("Array chunks must all be same type");
     }
   }
   return std::make_shared<ChunkedArray>(std::move(chunks), std::move(type));
diff --git a/cpp/src/arrow/chunked_array_test.cc b/cpp/src/arrow/chunked_array_test.cc
index d1dc69de274..08410b4cd53 100644
--- a/cpp/src/arrow/chunked_array_test.cc
+++ b/cpp/src/arrow/chunked_array_test.cc
@@ -65,8 +65,8 @@ TEST_F(TestChunkedArray, Make) {
   ASSERT_OK_AND_ASSIGN(auto result2, ChunkedArray::Make({chunk0, chunk0}, int8()));
   AssertChunkedEqual(*result, *result2);
 
-  ASSERT_RAISES(Invalid, ChunkedArray::Make({chunk0, chunk1}));
-  ASSERT_RAISES(Invalid, ChunkedArray::Make({chunk0}, int16()));
+  ASSERT_RAISES(TypeError, ChunkedArray::Make({chunk0, chunk1}));
+  ASSERT_RAISES(TypeError, ChunkedArray::Make({chunk0}, int16()));
 }
 
 TEST_F(TestChunkedArray, MakeEmpty) {
diff --git a/cpp/src/arrow/compare.cc b/cpp/src/arrow/compare.cc
index c5406ee583f..fa83426ab7f 100644
--- a/cpp/src/arrow/compare.cc
+++ b/cpp/src/arrow/compare.cc
@@ -43,6 +43,7 @@
 #include "arrow/util/bitmap_ops.h"
 #include "arrow/util/bitmap_reader.h"
 #include "arrow/util/checked_cast.h"
+#include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/macros.h"
 #include "arrow/util/memory.h"
@@ -394,26 +395,6 @@ class RangeDataEqualsImpl {
   }
 
  protected:
-  // For CompareFloating (templated local classes or lambdas not supported in C++11)
-  template <typename CType>
-  struct ComparatorVisitor {
-    RangeDataEqualsImpl* impl;
-    const CType* left_values;
-    const CType* right_values;
-
-    template <typename CompareFunction>
-    void operator()(CompareFunction&& compare) {
-      impl->VisitValues([&](int64_t i) {
-        const CType x = left_values[i + impl->left_start_idx_];
-        const CType y = right_values[i + impl->right_start_idx_];
-        return compare(x, y);
-      });
-    }
-  };
-
-  template <typename CType>
-  friend struct ComparatorVisitor;
-
   template <typename TypeClass, typename CType = typename TypeClass::c_type>
   Status ComparePrimitive(const TypeClass&) {
     const CType* left_values = left_.GetValues<CType>(1);
@@ -431,8 +412,14 @@ class RangeDataEqualsImpl {
     const CType* left_values = left_.GetValues<CType>(1);
     const CType* right_values = right_.GetValues<CType>(1);
 
-    ComparatorVisitor<CType> visitor{this, left_values, right_values};
-    VisitFloatingEquality<CType>(options_, floating_approximate_, visitor);
+    auto visitor = [&](auto&& compare_func) {
+      VisitValues([&](int64_t i) {
+        const CType x = left_values[i + left_start_idx_];
+        const CType y = right_values[i + right_start_idx_];
+        return compare_func(x, y);
+      });
+    };
+    VisitFloatingEquality<CType>(options_, floating_approximate_, std::move(visitor));
     return Status::OK();
   }
 
@@ -573,6 +560,14 @@ class TypeEqualsVisitor {
   explicit TypeEqualsVisitor(const DataType& right, bool check_metadata)
       : right_(right), check_metadata_(check_metadata), result_(false) {}
 
+  bool MetadataEqual(const Field& left, const Field& right) {
+    if (left.HasMetadata() && right.HasMetadata()) {
+      return left.metadata()->Equals(*right.metadata());
+    } else {
+      return !left.HasMetadata() && !right.HasMetadata();
+    }
+  }
+
   Status VisitChildren(const DataType& left) {
     if (left.num_fields() != right_.num_fields()) {
       result_ = false;
@@ -640,8 +635,21 @@ class TypeEqualsVisitor {
   }
 
   template <typename T>
-  enable_if_t<is_list_like_type<T>::value || is_struct_type<T>::value, Status> Visit(
-      const T& left) {
+  enable_if_t<is_list_like_type<T>::value, Status> Visit(const T& left) {
+    std::shared_ptr<Field> left_field = left.field(0);
+    std::shared_ptr<Field> right_field = checked_cast<const T&>(right_).field(0);
+    bool equal_names = !check_metadata_ || (left_field->name() == right_field->name());
+    bool equal_metadata = !check_metadata_ || MetadataEqual(*left_field, *right_field);
+
+    result_ = equal_names && equal_metadata &&
+              (left_field->nullable() == right_field->nullable()) &&
+              left_field->type()->Equals(*right_field->type(), check_metadata_);
+
+    return Status::OK();
+  }
+
+  template <typename T>
+  enable_if_t<is_struct_type<T>::value, Status> Visit(const T& left) {
     return VisitChildren(left);
   }
 
@@ -651,6 +659,18 @@ class TypeEqualsVisitor {
       result_ = false;
       return Status::OK();
     }
+    if (check_metadata_ && (left.item_field()->name() != right.item_field()->name() ||
+                            left.key_field()->name() != right.key_field()->name() ||
+                            left.value_field()->name() != right.value_field()->name())) {
+      result_ = false;
+      return Status::OK();
+    }
+    if (check_metadata_ && !(MetadataEqual(*left.item_field(), *right.item_field()) &&
+                             MetadataEqual(*left.key_field(), *right.key_field()) &&
+                             MetadataEqual(*left.value_field(), *right.value_field()))) {
+      result_ = false;
+      return Status::OK();
+    }
     result_ = left.key_type()->Equals(*right.key_type(), check_metadata_) &&
               left.item_type()->Equals(*right.item_type(), check_metadata_);
     return Status::OK();
@@ -827,26 +847,15 @@ class ScalarEqualsVisitor {
   bool result() const { return result_; }
 
  protected:
-  // For CompareFloating (templated local classes or lambdas not supported in C++11)
-  template <typename ScalarType>
-  struct ComparatorVisitor {
-    const ScalarType& left;
-    const ScalarType& right;
-    bool* result;
-
-    template <typename CompareFunction>
-    void operator()(CompareFunction&& compare) {
-      *result = compare(left.value, right.value);
-    }
-  };
-
   template <typename ScalarType>
   Status CompareFloating(const ScalarType& left) {
     using CType = decltype(left.value);
+    const auto& right = checked_cast<const ScalarType&>(right_);
 
-    ComparatorVisitor<ScalarType> visitor{left, checked_cast<const ScalarType&>(right_),
-                                          &result_};
-    VisitFloatingEquality<CType>(options_, floating_approximate_, visitor);
+    auto visitor = [&](auto&& compare_func) {
+      result_ = compare_func(left.value, right.value);
+    };
+    VisitFloatingEquality<CType>(options_, floating_approximate_, std::move(visitor));
     return Status::OK();
   }
 
@@ -1045,33 +1054,6 @@ bool IntegerTensorEquals(const Tensor& left, const Tensor& right) {
   return are_equal;
 }
 
-template <typename T>
-struct StridedFloatTensorLastDimEquality {
-  int64_t n_values;
-  const uint8_t* left_data;
-  const uint8_t* right_data;
-  int64_t left_offset;
-  int64_t right_offset;
-  int64_t left_stride;
-  int64_t right_stride;
-  bool result;
-
-  template <typename EqualityFunc>
-  void operator()(EqualityFunc&& eq) {
-    for (int64_t i = 0; i < n_values; ++i) {
-      T left_value =
-          *reinterpret_cast<const T*>(left_data + left_offset + i * left_stride);
-      T right_value =
-          *reinterpret_cast<const T*>(right_data + right_offset + i * right_stride);
-      if (!eq(left_value, right_value)) {
-        result = false;
-        return;
-      }
-    }
-    result = true;
-  }
-};
-
 template <typename DataType>
 bool StridedFloatTensorContentEquals(const int dim_index, int64_t left_offset,
                                      int64_t right_offset, const Tensor& left,
@@ -1085,11 +1067,26 @@ bool StridedFloatTensorContentEquals(const int dim_index, int64_t left_offset,
   const auto right_stride = right.strides()[dim_index];
   if (dim_index == left.ndim() - 1) {
     // Leaf dimension, compare values
-    StridedFloatTensorLastDimEquality<c_type> visitor{
-        n,           left.raw_data(), right.raw_data(), left_offset, right_offset,
-        left_stride, right_stride,    /*result=*/false};
-    VisitFloatingEquality<c_type>(opts, /*floating_approximate=*/false, visitor);
-    return visitor.result;
+    auto left_data = left.raw_data();
+    auto right_data = right.raw_data();
+    bool result = true;
+
+    auto visitor = [&](auto&& compare_func) {
+      for (int64_t i = 0; i < n; ++i) {
+        c_type left_value =
+            *reinterpret_cast<const c_type*>(left_data + left_offset + i * left_stride);
+        c_type right_value = *reinterpret_cast<const c_type*>(right_data + right_offset +
+                                                              i * right_stride);
+        if (!compare_func(left_value, right_value)) {
+          result = false;
+          return;
+        }
+      }
+    };
+
+    VisitFloatingEquality<c_type>(opts, /*floating_approximate=*/false,
+                                  std::move(visitor));
+    return result;
   }
 
   // Outer dimension, recurse into inner
diff --git a/cpp/src/arrow/compare.h b/cpp/src/arrow/compare.h
index 13179952326..6dbacfa86af 100644
--- a/cpp/src/arrow/compare.h
+++ b/cpp/src/arrow/compare.h
@@ -92,31 +92,31 @@ class EqualOptions {
 };
 
 /// Returns true if the arrays are exactly equal
-bool ARROW_EXPORT ArrayEquals(const Array& left, const Array& right,
+ARROW_EXPORT bool ArrayEquals(const Array& left, const Array& right,
                               const EqualOptions& = EqualOptions::Defaults());
 
 /// Returns true if the arrays are approximately equal. For non-floating point
 /// types, this is equivalent to ArrayEquals(left, right)
-bool ARROW_EXPORT ArrayApproxEquals(const Array& left, const Array& right,
+ARROW_EXPORT bool ArrayApproxEquals(const Array& left, const Array& right,
                                     const EqualOptions& = EqualOptions::Defaults());
 
 /// Returns true if indicated equal-length segment of arrays are exactly equal
-bool ARROW_EXPORT ArrayRangeEquals(const Array& left, const Array& right,
+ARROW_EXPORT bool ArrayRangeEquals(const Array& left, const Array& right,
                                    int64_t start_idx, int64_t end_idx,
                                    int64_t other_start_idx,
                                    const EqualOptions& = EqualOptions::Defaults());
 
 /// Returns true if indicated equal-length segment of arrays are approximately equal
-bool ARROW_EXPORT ArrayRangeApproxEquals(const Array& left, const Array& right,
+ARROW_EXPORT bool ArrayRangeApproxEquals(const Array& left, const Array& right,
                                          int64_t start_idx, int64_t end_idx,
                                          int64_t other_start_idx,
                                          const EqualOptions& = EqualOptions::Defaults());
 
-bool ARROW_EXPORT TensorEquals(const Tensor& left, const Tensor& right,
+ARROW_EXPORT bool TensorEquals(const Tensor& left, const Tensor& right,
                                const EqualOptions& = EqualOptions::Defaults());
 
 /// EXPERIMENTAL: Returns true if the given sparse tensors are exactly equal
-bool ARROW_EXPORT SparseTensorEquals(const SparseTensor& left, const SparseTensor& right,
+ARROW_EXPORT bool SparseTensorEquals(const SparseTensor& left, const SparseTensor& right,
                                      const EqualOptions& = EqualOptions::Defaults());
 
 /// Returns true if the type metadata are exactly equal
@@ -124,22 +124,22 @@ bool ARROW_EXPORT SparseTensorEquals(const SparseTensor& left, const SparseTenso
 /// \param[in] right a DataType
 /// \param[in] check_metadata whether to compare KeyValueMetadata for child
 /// fields
-bool ARROW_EXPORT TypeEquals(const DataType& left, const DataType& right,
+ARROW_EXPORT bool TypeEquals(const DataType& left, const DataType& right,
                              bool check_metadata = true);
 
 /// Returns true if scalars are equal
 /// \param[in] left a Scalar
 /// \param[in] right a Scalar
 /// \param[in] options comparison options
-bool ARROW_EXPORT ScalarEquals(const Scalar& left, const Scalar& right,
+ARROW_EXPORT bool ScalarEquals(const Scalar& left, const Scalar& right,
                                const EqualOptions& options = EqualOptions::Defaults());
 
 /// Returns true if scalars are approximately equal
 /// \param[in] left a Scalar
 /// \param[in] right a Scalar
 /// \param[in] options comparison options
-bool ARROW_EXPORT
-ScalarApproxEquals(const Scalar& left, const Scalar& right,
-                   const EqualOptions& options = EqualOptions::Defaults());
+ARROW_EXPORT bool ScalarApproxEquals(
+    const Scalar& left, const Scalar& right,
+    const EqualOptions& options = EqualOptions::Defaults());
 
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/api.h b/cpp/src/arrow/compute/api.h
index 80582e47b74..ba8d26da4d5 100644
--- a/cpp/src/arrow/compute/api.h
+++ b/cpp/src/arrow/compute/api.h
@@ -28,7 +28,6 @@
 #include "arrow/compute/api_scalar.h"     // IWYU pragma: export
 #include "arrow/compute/api_vector.h"     // IWYU pragma: export
 #include "arrow/compute/cast.h"           // IWYU pragma: export
-#include "arrow/compute/exec.h"           // IWYU pragma: export
 #include "arrow/compute/function.h"       // IWYU pragma: export
 #include "arrow/compute/kernel.h"         // IWYU pragma: export
 #include "arrow/compute/registry.h"       // IWYU pragma: export
@@ -52,3 +51,10 @@
 /// @}
 
 #include "arrow/compute/row/grouper.h"  // IWYU pragma: export
+
+/// \defgroup execnode-components Components associated with ExecNode
+/// @{
+/// @}
+
+#include "arrow/compute/exec.h"            // IWYU pragma: export
+#include "arrow/compute/exec/exec_plan.h"  // IWYU pragma: export
diff --git a/cpp/src/arrow/compute/api_scalar.cc b/cpp/src/arrow/compute/api_scalar.cc
index 3bdff691778..425274043ed 100644
--- a/cpp/src/arrow/compute/api_scalar.cc
+++ b/cpp/src/arrow/compute/api_scalar.cc
@@ -18,6 +18,7 @@
 #include "arrow/compute/api_scalar.h"
 
 #include <memory>
+#include <optional>
 #include <sstream>
 #include <string>
 
@@ -345,6 +346,11 @@ static auto kSetLookupOptionsType = GetFunctionOptionsType<SetLookupOptions>(
 static auto kSliceOptionsType = GetFunctionOptionsType<SliceOptions>(
     DataMember("start", &SliceOptions::start), DataMember("stop", &SliceOptions::stop),
     DataMember("step", &SliceOptions::step));
+static auto kListSliceOptionsType = GetFunctionOptionsType<ListSliceOptions>(
+    DataMember("start", &ListSliceOptions::start),
+    DataMember("stop", &ListSliceOptions::stop),
+    DataMember("step", &ListSliceOptions::step),
+    DataMember("return_fixed_size_list", &ListSliceOptions::return_fixed_size_list));
 static auto kSplitPatternOptionsType = GetFunctionOptionsType<SplitPatternOptions>(
     DataMember("pattern", &SplitPatternOptions::pattern),
     DataMember("max_splits", &SplitPatternOptions::max_splits),
@@ -359,7 +365,7 @@ static auto kStrptimeOptionsType = GetFunctionOptionsType<StrptimeOptions>(
     DataMember("unit", &StrptimeOptions::unit),
     DataMember("error_is_null", &StrptimeOptions::error_is_null));
 static auto kStructFieldOptionsType = GetFunctionOptionsType<StructFieldOptions>(
-    DataMember("indices", &StructFieldOptions::indices));
+    DataMember("field_ref", &StructFieldOptions::field_ref));
 static auto kTrimOptionsType = GetFunctionOptionsType<TrimOptions>(
     DataMember("characters", &TrimOptions::characters));
 static auto kUtf8NormalizeOptionsType = GetFunctionOptionsType<Utf8NormalizeOptions>(
@@ -528,6 +534,17 @@ SliceOptions::SliceOptions(int64_t start, int64_t stop, int64_t step)
 SliceOptions::SliceOptions() : SliceOptions(0, 0, 1) {}
 constexpr char SliceOptions::kTypeName[];
 
+ListSliceOptions::ListSliceOptions(int64_t start, std::optional<int64_t> stop,
+                                   int64_t step,
+                                   std::optional<bool> return_fixed_size_list)
+    : FunctionOptions(internal::kListSliceOptionsType),
+      start(start),
+      stop(stop),
+      step(step),
+      return_fixed_size_list(return_fixed_size_list) {}
+ListSliceOptions::ListSliceOptions() : ListSliceOptions(0) {}
+constexpr char ListSliceOptions::kTypeName[];
+
 SplitOptions::SplitOptions(int64_t max_splits, bool reverse)
     : FunctionOptions(internal::kSplitOptionsType),
       max_splits(max_splits),
@@ -561,8 +578,13 @@ StrptimeOptions::StrptimeOptions() : StrptimeOptions("", TimeUnit::MICRO, false)
 constexpr char StrptimeOptions::kTypeName[];
 
 StructFieldOptions::StructFieldOptions(std::vector<int> indices)
-    : FunctionOptions(internal::kStructFieldOptionsType), indices(std::move(indices)) {}
-StructFieldOptions::StructFieldOptions() : StructFieldOptions(std::vector<int>()) {}
+    : FunctionOptions(internal::kStructFieldOptionsType), field_ref(std::move(indices)) {}
+StructFieldOptions::StructFieldOptions(std::initializer_list<int> indices)
+    : FunctionOptions(internal::kStructFieldOptionsType), field_ref(std::move(indices)) {}
+StructFieldOptions::StructFieldOptions(FieldRef ref)
+    : FunctionOptions(internal::kStructFieldOptionsType), field_ref(std::move(ref)) {}
+StructFieldOptions::StructFieldOptions()
+    : FunctionOptions(internal::kStructFieldOptionsType) {}
 constexpr char StructFieldOptions::kTypeName[];
 
 TrimOptions::TrimOptions(std::string characters)
@@ -597,6 +619,7 @@ void RegisterScalarOptions(FunctionRegistry* registry) {
   DCHECK_OK(registry->AddFunctionOptionsType(kElementWiseAggregateOptionsType));
   DCHECK_OK(registry->AddFunctionOptionsType(kExtractRegexOptionsType));
   DCHECK_OK(registry->AddFunctionOptionsType(kJoinOptionsType));
+  DCHECK_OK(registry->AddFunctionOptionsType(kListSliceOptionsType));
   DCHECK_OK(registry->AddFunctionOptionsType(kMakeStructOptionsType));
   DCHECK_OK(registry->AddFunctionOptionsType(kMapLookupOptionsType));
   DCHECK_OK(registry->AddFunctionOptionsType(kMatchSubstringOptionsType));
@@ -653,6 +676,7 @@ SCALAR_ARITHMETIC_UNARY(Negate, "negate", "negate_checked")
 SCALAR_ARITHMETIC_UNARY(Sin, "sin", "sin_checked")
 SCALAR_ARITHMETIC_UNARY(Tan, "tan", "tan_checked")
 SCALAR_EAGER_UNARY(Atan, "atan")
+SCALAR_EAGER_UNARY(Exp, "exp")
 SCALAR_EAGER_UNARY(Sign, "sign")
 
 Result<Datum> Round(const Datum& arg, RoundOptions options, ExecContext* ctx) {
diff --git a/cpp/src/arrow/compute/api_scalar.h b/cpp/src/arrow/compute/api_scalar.h
index 7d86a555ec8..1c27757fcfc 100644
--- a/cpp/src/arrow/compute/api_scalar.h
+++ b/cpp/src/arrow/compute/api_scalar.h
@@ -20,6 +20,7 @@
 
 #pragma once
 
+#include <optional>
 #include <string>
 #include <utility>
 
@@ -277,12 +278,13 @@ class ARROW_EXPORT SetLookupOptions : public FunctionOptions {
 class ARROW_EXPORT StructFieldOptions : public FunctionOptions {
  public:
   explicit StructFieldOptions(std::vector<int> indices);
+  explicit StructFieldOptions(std::initializer_list<int>);
+  explicit StructFieldOptions(FieldRef field_ref);
   StructFieldOptions();
   static constexpr char const kTypeName[] = "StructFieldOptions";
 
-  /// The child indices to extract. For instance, to get the 2nd child
-  /// of the 1st child of a struct or union, this would be {0, 1}.
-  std::vector<int> indices;
+  /// The FieldRef specifying what to extract from struct or union.
+  FieldRef field_ref;
 };
 
 class ARROW_EXPORT StrptimeOptions : public FunctionOptions {
@@ -346,6 +348,25 @@ class ARROW_EXPORT SliceOptions : public FunctionOptions {
   int64_t start, stop, step;
 };
 
+class ARROW_EXPORT ListSliceOptions : public FunctionOptions {
+ public:
+  explicit ListSliceOptions(int64_t start, std::optional<int64_t> stop = std::nullopt,
+                            int64_t step = 1,
+                            std::optional<bool> return_fixed_size_list = std::nullopt);
+  ListSliceOptions();
+  static constexpr char const kTypeName[] = "ListSliceOptions";
+  /// The start of list slicing.
+  int64_t start;
+  /// Optional stop of list slicing. If not set, then slice to end. (NotImplemented)
+  std::optional<int64_t> stop;
+  /// Slicing step
+  int64_t step;
+  // Whether to return a FixedSizeListArray. If true _and_ stop is after
+  // a list element's length, nulls will be appended to create the requested slice size.
+  // Default of `nullopt` will return whatever type it got in.
+  std::optional<bool> return_fixed_size_list;
+};
+
 class ARROW_EXPORT NullOptions : public FunctionOptions {
  public:
   explicit NullOptions(bool nan_is_null = false);
@@ -610,6 +631,15 @@ Result<Datum> Power(const Datum& left, const Datum& right,
                     ArithmeticOptions options = ArithmeticOptions(),
                     ExecContext* ctx = NULLPTR);
 
+/// \brief Raise Euler's number to the power of specified exponent, element-wise.
+/// If the exponent value is null the result will be null.
+///
+/// \param[in] arg the exponent
+/// \param[in] ctx the function execution context, optional
+/// \return the element-wise Euler's number raised to the power of exponent
+ARROW_EXPORT
+Result<Datum> Exp(const Datum& arg, ExecContext* ctx = NULLPTR);
+
 /// \brief Left shift the left array by the right array. Array values must be the
 /// same length. If either operand is null, the result will be null.
 ///
diff --git a/cpp/src/arrow/compute/cast.cc b/cpp/src/arrow/compute/cast.cc
index 52aecf3e45a..13bf6f85a48 100644
--- a/cpp/src/arrow/compute/cast.cc
+++ b/cpp/src/arrow/compute/cast.cc
@@ -62,6 +62,7 @@ void InitCastTable() {
   AddCastFunctions(GetNumericCasts());
   AddCastFunctions(GetTemporalCasts());
   AddCastFunctions(GetDictionaryCasts());
+  AddCastFunctions(GetExtensionCasts());
 }
 
 void EnsureInitCastTable() { std::call_once(cast_table_initialized, InitCastTable); }
@@ -94,9 +95,26 @@ class CastMetaFunction : public MetaFunction {
                             const FunctionOptions* options,
                             ExecContext* ctx) const override {
     ARROW_ASSIGN_OR_RAISE(auto cast_options, ValidateOptions(options));
-    if (args[0].type()->Equals(*cast_options->to_type)) {
-      return args[0];
+    // args[0].type() could be a nullptr so check for that before
+    // we do anything with it.
+    if (args[0].type() && args[0].type()->Equals(*cast_options->to_type)) {
+      // Nested types might differ in field names but still be considered equal,
+      // so we can only return non-nested types as-is.
+      if (!is_nested(args[0].type()->id())) {
+        return args[0];
+      } else if (args[0].is_array()) {
+        ARROW_ASSIGN_OR_RAISE(std::shared_ptr<ArrayData> array,
+                              ::arrow::internal::GetArrayView(
+                                  args[0].array(), cast_options->to_type.owned_type));
+        return Datum(array);
+      } else if (args[0].is_chunked_array()) {
+        ARROW_ASSIGN_OR_RAISE(
+            std::shared_ptr<ChunkedArray> array,
+            args[0].chunked_array()->View(cast_options->to_type.owned_type));
+        return Datum(array);
+      }
     }
+
     Result<std::shared_ptr<CastFunction>> result =
         GetCastFunction(*cast_options->to_type);
     if (!result.ok()) {
diff --git a/cpp/src/arrow/compute/cast_internal.h b/cpp/src/arrow/compute/cast_internal.h
index f00a6cdbf4d..423b791e6a7 100644
--- a/cpp/src/arrow/compute/cast_internal.h
+++ b/cpp/src/arrow/compute/cast_internal.h
@@ -63,6 +63,7 @@ std::vector<std::shared_ptr<CastFunction>> GetTemporalCasts();
 std::vector<std::shared_ptr<CastFunction>> GetBinaryLikeCasts();
 std::vector<std::shared_ptr<CastFunction>> GetNestedCasts();
 std::vector<std::shared_ptr<CastFunction>> GetDictionaryCasts();
+std::vector<std::shared_ptr<CastFunction>> GetExtensionCasts();
 
 ARROW_EXPORT
 Result<std::shared_ptr<CastFunction>> GetCastFunction(const DataType& to_type);
diff --git a/cpp/src/arrow/compute/exec.cc b/cpp/src/arrow/compute/exec.cc
index cf91bada6c6..ee02b26845b 100644
--- a/cpp/src/arrow/compute/exec.cc
+++ b/cpp/src/arrow/compute/exec.cc
@@ -33,6 +33,7 @@
 #include "arrow/chunked_array.h"
 #include "arrow/compute/exec_internal.h"
 #include "arrow/compute/function.h"
+#include "arrow/compute/function_internal.h"
 #include "arrow/compute/kernel.h"
 #include "arrow/compute/registry.h"
 #include "arrow/datum.h"
@@ -47,7 +48,7 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/cpu_info.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
+#include "arrow/util/thread_pool.h"
 #include "arrow/util/vector.h"
 
 namespace arrow {
@@ -56,6 +57,7 @@ using internal::BitmapAnd;
 using internal::checked_cast;
 using internal::CopyBitmap;
 using internal::CpuInfo;
+using internal::GetCpuThreadPool;
 
 namespace compute {
 
@@ -64,6 +66,11 @@ ExecContext* default_exec_context() {
   return &default_ctx;
 }
 
+ExecContext* threaded_exec_context() {
+  static ExecContext threaded_ctx(default_memory_pool(), GetCpuThreadPool());
+  return &threaded_ctx;
+}
+
 ExecBatch::ExecBatch(const RecordBatch& batch)
     : values(batch.num_columns()), length(batch.num_rows()) {
   auto columns = batch.column_data();
@@ -90,15 +97,22 @@ void PrintTo(const ExecBatch& batch, std::ostream* os) {
 
     if (value.is_scalar()) {
       *os << "Scalar[" << value.scalar()->ToString() << "]\n";
-      continue;
+    } else if (value.is_array() || value.is_chunked_array()) {
+      PrettyPrintOptions options;
+      options.skip_new_lines = true;
+      if (value.is_array()) {
+        auto array = value.make_array();
+        *os << "Array";
+        ARROW_CHECK_OK(PrettyPrint(*array, options, os));
+      } else {
+        auto array = value.chunked_array();
+        *os << "Chunked Array";
+        ARROW_CHECK_OK(PrettyPrint(*array, options, os));
+      }
+      *os << "\n";
+    } else {
+      ARROW_DCHECK(false);
     }
-
-    auto array = value.make_array();
-    PrettyPrintOptions options;
-    options.skip_new_lines = true;
-    *os << "Array";
-    ARROW_CHECK_OK(PrettyPrint(*array, options, os));
-    *os << "\n";
   }
 }
 
@@ -119,8 +133,15 @@ std::string ExecBatch::ToString() const {
 ExecBatch ExecBatch::Slice(int64_t offset, int64_t length) const {
   ExecBatch out = *this;
   for (auto& value : out.values) {
-    if (value.is_scalar()) continue;
-    value = value.array()->Slice(offset, length);
+    if (value.is_scalar()) {
+      // keep value as is
+    } else if (value.is_array()) {
+      value = value.array()->Slice(offset, length);
+    } else if (value.is_chunked_array()) {
+      value = value.chunked_array()->Slice(offset, length);
+    } else {
+      ARROW_DCHECK(false);
+    }
   }
   out.length = std::min(length, this->length - offset);
   return out;
@@ -157,6 +178,9 @@ Result<ExecBatch> ExecBatch::Make(std::vector<Datum> values) {
 
 Result<std::shared_ptr<RecordBatch>> ExecBatch::ToRecordBatch(
     std::shared_ptr<Schema> schema, MemoryPool* pool) const {
+  if (static_cast<size_t>(schema->num_fields()) > values.size()) {
+    return Status::Invalid("ExecBatch::ToTRecordBatch mismatching schema size");
+  }
   ArrayVector columns(schema->num_fields());
 
   for (size_t i = 0; i < columns.size(); ++i) {
@@ -164,8 +188,13 @@ Result<std::shared_ptr<RecordBatch>> ExecBatch::ToRecordBatch(
     if (value.is_array()) {
       columns[i] = value.make_array();
       continue;
+    } else if (value.is_scalar()) {
+      ARROW_ASSIGN_OR_RAISE(columns[i],
+                            MakeArrayFromScalar(*value.scalar(), length, pool));
+    } else {
+      return Status::TypeError("ExecBatch::ToRecordBatch value ", i, " with unsupported ",
+                               "value kind ", ::arrow::ToString(value.kind()));
     }
-    ARROW_ASSIGN_OR_RAISE(columns[i], MakeArrayFromScalar(*value.scalar(), length, pool));
   }
 
   return RecordBatch::Make(std::move(schema), length, std::move(columns));
@@ -862,6 +891,7 @@ class ScalarExecutor : public KernelExecutorImpl<ScalarKernel> {
       }
     }
     if (kernel_->mem_allocation == MemAllocation::PREALLOCATE) {
+      data_preallocated_.clear();
       ComputeDataPreallocate(*output_type_.type, &data_preallocated_);
     }
 
@@ -945,6 +975,7 @@ class VectorExecutor : public KernelExecutorImpl<VectorKernel> {
         (kernel_->null_handling != NullHandling::COMPUTED_NO_PREALLOCATE &&
          kernel_->null_handling != NullHandling::OUTPUT_NOT_NULL);
     if (kernel_->mem_allocation == MemAllocation::PREALLOCATE) {
+      data_preallocated_.clear();
       ComputeDataPreallocate(*output_type_.type, &data_preallocated_);
     }
 
@@ -1098,7 +1129,7 @@ Result<std::unique_ptr<KernelExecutor>> MakeExecutor(ExecContext* ctx,
                                                      const FunctionOptions* options) {
   DCHECK_EQ(ExecutorType::function_kind, func->kind());
   auto typed_func = checked_cast<const FunctionType*>(func);
-  return std::unique_ptr<KernelExecutor>(new ExecutorType(ctx, typed_func, options));
+  return std::make_unique<ExecutorType>(ctx, typed_func, options);
 }
 
 }  // namespace
@@ -1187,15 +1218,15 @@ void PropagateNullsSpans(const ExecSpan& batch, ArraySpan* out) {
 }
 
 std::unique_ptr<KernelExecutor> KernelExecutor::MakeScalar() {
-  return ::arrow::internal::make_unique<detail::ScalarExecutor>();
+  return std::make_unique<detail::ScalarExecutor>();
 }
 
 std::unique_ptr<KernelExecutor> KernelExecutor::MakeVector() {
-  return ::arrow::internal::make_unique<detail::VectorExecutor>();
+  return std::make_unique<detail::VectorExecutor>();
 }
 
 std::unique_ptr<KernelExecutor> KernelExecutor::MakeScalarAggregate() {
-  return ::arrow::internal::make_unique<detail::ScalarAggExecutor>();
+  return std::make_unique<detail::ScalarAggExecutor>();
 }
 
 int64_t InferBatchLength(const std::vector<Datum>& values, bool* all_same) {
@@ -1295,5 +1326,25 @@ Result<Datum> CallFunction(const std::string& func_name, const ExecBatch& batch,
   return CallFunction(func_name, batch, /*options=*/nullptr, ctx);
 }
 
+Result<std::shared_ptr<FunctionExecutor>> GetFunctionExecutor(
+    const std::string& func_name, std::vector<TypeHolder> in_types,
+    const FunctionOptions* options, FunctionRegistry* func_registry) {
+  if (func_registry == NULLPTR) {
+    func_registry = GetFunctionRegistry();
+  }
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<const Function> func,
+                        func_registry->GetFunction(func_name));
+  ARROW_ASSIGN_OR_RAISE(auto func_exec, func->GetBestExecutor(std::move(in_types)));
+  ARROW_RETURN_NOT_OK(func_exec->Init(options));
+  return func_exec;
+}
+
+Result<std::shared_ptr<FunctionExecutor>> GetFunctionExecutor(
+    const std::string& func_name, const std::vector<Datum>& args,
+    const FunctionOptions* options, FunctionRegistry* func_registry) {
+  ARROW_ASSIGN_OR_RAISE(auto in_types, internal::GetFunctionArgumentTypes(args));
+  return GetFunctionExecutor(func_name, std::move(in_types), options, func_registry);
+}
+
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec.h b/cpp/src/arrow/compute/exec.h
index cdd3daf7f74..30f4113f6c4 100644
--- a/cpp/src/arrow/compute/exec.h
+++ b/cpp/src/arrow/compute/exec.h
@@ -30,8 +30,8 @@
 
 #include "arrow/array/data.h"
 #include "arrow/compute/exec/expression.h"
+#include "arrow/compute/type_fwd.h"
 #include "arrow/datum.h"
-#include "arrow/memory_pool.h"
 #include "arrow/result.h"
 #include "arrow/type_fwd.h"
 #include "arrow/util/macros.h"
@@ -39,17 +39,8 @@
 #include "arrow/util/visibility.h"
 
 namespace arrow {
-namespace internal {
-
-class CpuInfo;
-
-}  // namespace internal
-
 namespace compute {
 
-class FunctionOptions;
-class FunctionRegistry;
-
 // It seems like 64K might be a good default chunksize to use for execution
 // based on the experience of other query processing systems. The current
 // default is not to chunk contiguous arrays, though, but this may change in
@@ -127,8 +118,6 @@ class ARROW_EXPORT ExecContext {
   bool use_threads_ = true;
 };
 
-ARROW_EXPORT ExecContext* default_exec_context();
-
 // TODO: Consider standardizing on uint16 selection vectors and only use them
 // when we can ensure that each value is 64K length or smaller
 
@@ -174,6 +163,10 @@ class ARROW_EXPORT SelectionVector {
 /// TODO: Datum uses arrow/util/variant.h which may be a bit heavier-weight
 /// than is desirable for this class. Microbenchmarks would help determine for
 /// sure. See ARROW-8928.
+
+/// \addtogroup execnode-components
+/// @{
+
 struct ARROW_EXPORT ExecBatch {
   ExecBatch() = default;
   ExecBatch(std::vector<Datum> values, int64_t length)
@@ -244,13 +237,13 @@ struct ARROW_EXPORT ExecBatch {
   }
 
   std::string ToString() const;
-
-  ARROW_EXPORT friend void PrintTo(const ExecBatch&, std::ostream*);
 };
 
 inline bool operator==(const ExecBatch& l, const ExecBatch& r) { return l.Equals(r); }
 inline bool operator!=(const ExecBatch& l, const ExecBatch& r) { return !l.Equals(r); }
 
+ARROW_EXPORT void PrintTo(const ExecBatch&, std::ostream*);
+
 struct ExecValue {
   ArraySpan array = {};
   const Scalar* scalar = NULLPTR;
@@ -309,7 +302,7 @@ struct ExecValue {
 
 struct ARROW_EXPORT ExecResult {
   // The default value of the variant is ArraySpan
-  util::Variant<ArraySpan, std::shared_ptr<ArrayData>> value;
+  std::variant<ArraySpan, std::shared_ptr<ArrayData>> value;
 
   int64_t length() const {
     if (this->is_array_span()) {
@@ -328,12 +321,12 @@ struct ARROW_EXPORT ExecResult {
   }
 
   ArraySpan* array_span() const {
-    return const_cast<ArraySpan*>(&util::get<ArraySpan>(this->value));
+    return const_cast<ArraySpan*>(&std::get<ArraySpan>(this->value));
   }
   bool is_array_span() const { return this->value.index() == 0; }
 
   const std::shared_ptr<ArrayData>& array_data() const {
-    return util::get<std::shared_ptr<ArrayData>>(this->value);
+    return std::get<std::shared_ptr<ArrayData>>(this->value);
   }
 
   bool is_array_data() const { return this->value.index() == 1; }
@@ -400,6 +393,8 @@ struct ARROW_EXPORT ExecSpan {
   std::vector<ExecValue> values;
 };
 
+/// @}
+
 /// \defgroup compute-call-function One-shot calls to compute functions
 ///
 /// @{
@@ -436,5 +431,30 @@ Result<Datum> CallFunction(const std::string& func_name, const ExecBatch& batch,
 
 /// @}
 
+/// \defgroup compute-function-executor One-shot calls to obtain function executors
+///
+/// @{
+
+/// \brief One-shot executor provider for all types of functions.
+///
+/// This function creates and initializes a `FunctionExecutor` appropriate
+/// for the given function name, input types and function options.
+ARROW_EXPORT
+Result<std::shared_ptr<FunctionExecutor>> GetFunctionExecutor(
+    const std::string& func_name, std::vector<TypeHolder> in_types,
+    const FunctionOptions* options = NULLPTR, FunctionRegistry* func_registry = NULLPTR);
+
+/// \brief One-shot executor provider for all types of functions.
+///
+/// This function creates and initializes a `FunctionExecutor` appropriate
+/// for the given function name, input types (taken from the Datum arguments)
+/// and function options.
+ARROW_EXPORT
+Result<std::shared_ptr<FunctionExecutor>> GetFunctionExecutor(
+    const std::string& func_name, const std::vector<Datum>& args,
+    const FunctionOptions* options = NULLPTR, FunctionRegistry* func_registry = NULLPTR);
+
+/// @}
+
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec/aggregate.cc b/cpp/src/arrow/compute/exec/aggregate.cc
index cc2c464d42b..d5f347f34ae 100644
--- a/cpp/src/arrow/compute/exec/aggregate.cc
+++ b/cpp/src/arrow/compute/exec/aggregate.cc
@@ -18,14 +18,21 @@
 #include "arrow/compute/exec/aggregate.h"
 
 #include <mutex>
+#include <thread>
+#include <unordered_map>
 
 #include "arrow/compute/exec_internal.h"
 #include "arrow/compute/registry.h"
 #include "arrow/compute/row/grouper.h"
 #include "arrow/util/checked_cast.h"
+#include "arrow/util/logging.h"
+#include "arrow/util/string.h"
 #include "arrow/util/task_group.h"
 
 namespace arrow {
+
+using internal::ToChars;
+
 namespace compute {
 namespace internal {
 
@@ -147,7 +154,7 @@ Result<Datum> GroupBy(const std::vector<Datum>& arguments, const std::vector<Dat
 
   int i = 0;
   for (const TypeHolder& key_type : key_types) {
-    out_fields.push_back(field("key_" + std::to_string(i++), key_type.GetSharedPtr()));
+    out_fields.push_back(field("key_" + ToChars(i++), key_type.GetSharedPtr()));
   }
 
   ExecSpanIterator key_iterator;
diff --git a/cpp/src/arrow/compute/exec/aggregate_node.cc b/cpp/src/arrow/compute/exec/aggregate_node.cc
index cca266ad691..725372700ca 100644
--- a/cpp/src/arrow/compute/exec/aggregate_node.cc
+++ b/cpp/src/arrow/compute/exec/aggregate_node.cc
@@ -24,6 +24,7 @@
 #include "arrow/compute/exec/aggregate.h"
 #include "arrow/compute/exec/exec_plan.h"
 #include "arrow/compute/exec/options.h"
+#include "arrow/compute/exec/query_context.h"
 #include "arrow/compute/exec/util.h"
 #include "arrow/compute/exec_internal.h"
 #include "arrow/compute/registry.h"
@@ -83,7 +84,7 @@ class ScalarAggregateNode : public ExecNode {
     auto aggregates = aggregate_options.aggregates;
 
     const auto& input_schema = *inputs[0]->output_schema();
-    auto exec_ctx = plan->exec_context();
+    auto exec_ctx = plan->query_context()->exec_context();
 
     std::vector<const ScalarAggregateKernel*> kernels(aggregates.size());
     std::vector<std::vector<std::unique_ptr<KernelState>>> states(kernels.size());
@@ -113,7 +114,7 @@ class ScalarAggregateNode : public ExecNode {
       }
 
       KernelContext kernel_ctx{exec_ctx};
-      states[i].resize(plan->max_concurrency());
+      states[i].resize(plan->query_context()->max_concurrency());
       RETURN_NOT_OK(Kernel::InitAll(&kernel_ctx,
                                     KernelInitArgs{kernels[i],
                                                    {
@@ -150,7 +151,7 @@ class ScalarAggregateNode : public ExecNode {
                           {"function.options",
                            aggs_[i].options ? aggs_[i].options->ToString() : "<NULLPTR>"},
                           {"function.kind", std::string(kind_name()) + "::Consume"}});
-      KernelContext batch_ctx{plan()->exec_context()};
+      KernelContext batch_ctx{plan()->query_context()->exec_context()};
       batch_ctx.SetState(states_[i][thread_index].get());
 
       ExecSpan single_column_batch{{batch.values[target_field_ids_[i]]}, batch.length};
@@ -168,7 +169,7 @@ class ScalarAggregateNode : public ExecNode {
                                     {"batch.length", batch.length}});
     DCHECK_EQ(input, inputs_[0]);
 
-    auto thread_index = plan_->GetThreadIndex();
+    auto thread_index = plan_->query_context()->GetThreadIndex();
 
     if (ErrorIfNotOk(DoConsume(ExecSpan(batch), thread_index))) return;
 
@@ -245,7 +246,7 @@ class ScalarAggregateNode : public ExecNode {
                           {"function.options",
                            aggs_[i].options ? aggs_[i].options->ToString() : "<NULLPTR>"},
                           {"function.kind", std::string(kind_name()) + "::Finalize"}});
-      KernelContext ctx{plan()->exec_context()};
+      KernelContext ctx{plan()->query_context()->exec_context()};
       ARROW_ASSIGN_OR_RAISE(auto merged, ScalarAggregateKernel::MergeAll(
                                              kernels_[i], &ctx, std::move(states_[i])));
       RETURN_NOT_OK(kernels_[i]->finalize(&ctx, &batch.values[i]));
@@ -267,20 +268,19 @@ class ScalarAggregateNode : public ExecNode {
 
 class GroupByNode : public ExecNode {
  public:
-  GroupByNode(ExecNode* input, std::shared_ptr<Schema> output_schema, ExecContext* ctx,
+  GroupByNode(ExecNode* input, std::shared_ptr<Schema> output_schema,
               std::vector<int> key_field_ids, std::vector<int> agg_src_field_ids,
               std::vector<Aggregate> aggs,
               std::vector<const HashAggregateKernel*> agg_kernels)
       : ExecNode(input->plan(), {input}, {"groupby"}, std::move(output_schema),
                  /*num_outputs=*/1),
-        ctx_(ctx),
         key_field_ids_(std::move(key_field_ids)),
         agg_src_field_ids_(std::move(agg_src_field_ids)),
         aggs_(std::move(aggs)),
         agg_kernels_(std::move(agg_kernels)) {}
 
   Status Init() override {
-    output_task_group_id_ = plan_->RegisterTaskGroup(
+    output_task_group_id_ = plan_->query_context()->RegisterTaskGroup(
         [this](size_t, int64_t task_id) {
           OutputNthBatch(task_id);
           return Status::OK();
@@ -326,7 +326,7 @@ class GroupByNode : public ExecNode {
       agg_src_types[i] = input_schema->field(agg_src_field_id)->type().get();
     }
 
-    auto ctx = input->plan()->exec_context();
+    auto ctx = plan->query_context()->exec_context();
 
     // Construct aggregates
     ARROW_ASSIGN_OR_RAISE(auto agg_kernels,
@@ -354,7 +354,7 @@ class GroupByNode : public ExecNode {
     }
 
     return input->plan()->EmplaceNode<GroupByNode>(
-        input, schema(std::move(output_fields)), ctx, std::move(key_field_ids),
+        input, schema(std::move(output_fields)), std::move(key_field_ids),
         std::move(agg_src_field_ids), std::move(aggs), std::move(agg_kernels));
   }
 
@@ -366,7 +366,7 @@ class GroupByNode : public ExecNode {
                        {{"group_by", ToStringExtra()},
                         {"node.label", label()},
                         {"batch.length", batch.length}});
-    size_t thread_index = plan_->GetThreadIndex();
+    size_t thread_index = plan_->query_context()->GetThreadIndex();
     if (thread_index >= local_states_.size()) {
       return Status::IndexError("thread index ", thread_index, " is out of range [0, ",
                                 local_states_.size(), ")");
@@ -393,7 +393,8 @@ class GroupByNode : public ExecNode {
                           {"function.options",
                            aggs_[i].options ? aggs_[i].options->ToString() : "<NULLPTR>"},
                           {"function.kind", std::string(kind_name()) + "::Consume"}});
-      KernelContext kernel_ctx{ctx_};
+      auto ctx = plan_->query_context()->exec_context();
+      KernelContext kernel_ctx{ctx};
       kernel_ctx.SetState(state->agg_states[i].get());
 
       ExecSpan agg_batch({batch[agg_src_field_ids_[i]], ExecValue(*id_batch.array())},
@@ -429,7 +430,9 @@ class GroupByNode : public ExecNode {
              {"function.options",
               aggs_[i].options ? aggs_[i].options->ToString() : "<NULLPTR>"},
              {"function.kind", std::string(kind_name()) + "::Merge"}});
-        KernelContext batch_ctx{ctx_};
+
+        auto ctx = plan_->query_context()->exec_context();
+        KernelContext batch_ctx{ctx};
         DCHECK(state0->agg_states[i]);
         batch_ctx.SetState(state0->agg_states[i].get());
 
@@ -462,7 +465,7 @@ class GroupByNode : public ExecNode {
                           {"function.options",
                            aggs_[i].options ? aggs_[i].options->ToString() : "<NULLPTR>"},
                           {"function.kind", std::string(kind_name()) + "::Finalize"}});
-      KernelContext batch_ctx{ctx_};
+      KernelContext batch_ctx{plan_->query_context()->exec_context()};
       batch_ctx.SetState(state->agg_states[i].get());
       RETURN_NOT_OK(agg_kernels_[i]->finalize(&batch_ctx, &out_data.values[i]));
       state->agg_states[i].reset();
@@ -483,7 +486,7 @@ class GroupByNode : public ExecNode {
     outputs_[0]->InputReceived(this, out_data_.Slice(batch_size * n, batch_size));
   }
 
-  Status OutputResult() {
+  Status DoOutputResult() {
     // To simplify merging, ensure that the first grouper is nonempty
     for (size_t i = 0; i < local_states_.size(); i++) {
       if (local_states_[i].grouper) {
@@ -497,10 +500,28 @@ class GroupByNode : public ExecNode {
 
     int64_t num_output_batches = bit_util::CeilDiv(out_data_.length, output_batch_size());
     outputs_[0]->InputFinished(this, static_cast<int>(num_output_batches));
-    RETURN_NOT_OK(plan_->StartTaskGroup(output_task_group_id_, num_output_batches));
+    Status st =
+        plan_->query_context()->StartTaskGroup(output_task_group_id_, num_output_batches);
+    if (st.IsCancelled()) {
+      // This means the user has cancelled/aborted the plan.  We will not send any batches
+      // and end immediately.
+      finished_.MarkFinished();
+      return Status::OK();
+    } else {
+      return st;
+    }
     return Status::OK();
   }
 
+  void OutputResult() {
+    // If something goes wrong outputting the result we need to make sure
+    // we still mark finished.
+    Status st = DoOutputResult();
+    if (!st.ok()) {
+      finished_.MarkFinished(st);
+    }
+  }
+
   void InputReceived(ExecNode* input, ExecBatch batch) override {
     EVENT(span_, "InputReceived", {{"batch.length", batch.length}});
     util::tracing::Span span;
@@ -517,7 +538,7 @@ class GroupByNode : public ExecNode {
     if (ErrorIfNotOk(Consume(ExecSpan(batch)))) return;
 
     if (input_counter_.Increment()) {
-      ErrorIfNotOk(OutputResult());
+      OutputResult();
     }
   }
 
@@ -538,7 +559,7 @@ class GroupByNode : public ExecNode {
     DCHECK_EQ(input, inputs_[0]);
 
     if (input_counter_.SetTotal(total_batches)) {
-      ErrorIfNotOk(OutputResult());
+      OutputResult();
     }
   }
 
@@ -547,8 +568,7 @@ class GroupByNode : public ExecNode {
                        {{"node.label", label()},
                         {"node.detail", ToString()},
                         {"node.kind", kind_name()}});
-
-    local_states_.resize(plan_->max_concurrency());
+    local_states_.resize(plan_->query_context()->max_concurrency());
     return Status::OK();
   }
 
@@ -566,7 +586,9 @@ class GroupByNode : public ExecNode {
     EVENT(span_, "StopProducing");
     DCHECK_EQ(output, outputs_[0]);
 
-    if (input_counter_.Cancel()) finished_.MarkFinished();
+    if (input_counter_.Cancel()) {
+      finished_.MarkFinished();
+    }
     inputs_[0]->StopProducing(this);
   }
 
@@ -593,7 +615,7 @@ class GroupByNode : public ExecNode {
   };
 
   ThreadLocalState* GetLocalState() {
-    size_t thread_index = plan_->GetThreadIndex();
+    size_t thread_index = plan_->query_context()->GetThreadIndex();
     return &local_states_[thread_index];
   }
 
@@ -611,7 +633,8 @@ class GroupByNode : public ExecNode {
     }
 
     // Construct grouper
-    ARROW_ASSIGN_OR_RAISE(state->grouper, Grouper::Make(key_types, ctx_));
+    ARROW_ASSIGN_OR_RAISE(
+        state->grouper, Grouper::Make(key_types, plan_->query_context()->exec_context()));
 
     // Build vector of aggregate source field data types
     std::vector<TypeHolder> agg_src_types(agg_kernels_.size());
@@ -620,21 +643,23 @@ class GroupByNode : public ExecNode {
       agg_src_types[i] = input_schema->field(agg_src_field_id)->type().get();
     }
 
-    ARROW_ASSIGN_OR_RAISE(state->agg_states, internal::InitKernels(agg_kernels_, ctx_,
-                                                                   aggs_, agg_src_types));
+    ARROW_ASSIGN_OR_RAISE(
+        state->agg_states,
+        internal::InitKernels(agg_kernels_, plan_->query_context()->exec_context(), aggs_,
+                              agg_src_types));
 
     return Status::OK();
   }
 
   int output_batch_size() const {
-    int result = static_cast<int>(ctx_->exec_chunksize());
+    int result =
+        static_cast<int>(plan_->query_context()->exec_context()->exec_chunksize());
     if (result < 0) {
       result = 32 * 1024;
     }
     return result;
   }
 
-  ExecContext* ctx_;
   int output_task_group_id_;
 
   const std::vector<int> key_field_ids_;
diff --git a/cpp/src/arrow/compute/exec/asof_join_benchmark.cc b/cpp/src/arrow/compute/exec/asof_join_benchmark.cc
index af471a50132..7ab4ee7a7ff 100644
--- a/cpp/src/arrow/compute/exec/asof_join_benchmark.cc
+++ b/cpp/src/arrow/compute/exec/asof_join_benchmark.cc
@@ -53,8 +53,8 @@ static void TableJoinOverhead(benchmark::State& state,
                               TableGenerationProperties left_table_properties,
                               TableGenerationProperties right_table_properties,
                               int batch_size, int num_right_tables,
-                              std::string factory_name, ExecNodeOptions& options) {
-  ExecContext ctx(default_memory_pool(), nullptr);
+                              std::string factory_name,
+                              std::shared_ptr<ExecNodeOptions> options) {
   left_table_properties.column_prefix = "lt";
   left_table_properties.seed = 0;
   ASSERT_OK_AND_ASSIGN(TableStats left_table_stats, MakeTable(left_table_properties));
@@ -75,23 +75,20 @@ static void TableJoinOverhead(benchmark::State& state,
 
   for (auto _ : state) {
     state.PauseTiming();
-    ASSERT_OK_AND_ASSIGN(std::shared_ptr<arrow::compute::ExecPlan> plan,
-                         ExecPlan::Make(&ctx));
-    std::vector<ExecNode*> input_nodes = {*arrow::compute::MakeExecNode(
-        "table_source", plan.get(), {},
+    std::vector<Declaration::Input> input_nodes = {Declaration(
+        "table_source",
         arrow::compute::TableSourceNodeOptions(left_table_stats.table, batch_size))};
     input_nodes.reserve(right_input_tables.size() + 1);
     for (TableStats table_stats : right_input_tables) {
-      input_nodes.push_back(*arrow::compute::MakeExecNode(
-          "table_source", plan.get(), {},
+      input_nodes.push_back(Declaration(
+          "table_source",
           arrow::compute::TableSourceNodeOptions(table_stats.table, batch_size)));
     }
-    ASSERT_OK_AND_ASSIGN(arrow::compute::ExecNode * join_node,
-                         MakeExecNode(factory_name, plan.get(), input_nodes, options));
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-    MakeExecNode("sink", plan.get(), {join_node}, SinkNodeOptions{&sink_gen});
+    Declaration join_node{factory_name, {input_nodes}, options};
     state.ResumeTiming();
-    ASSERT_FINISHES_OK(StartAndCollect(plan.get(), sink_gen));
+    // asof-join must currently be run synchronously as it relies on data arriving
+    // in-order
+    ASSERT_OK(DeclarationToStatus(std::move(join_node), /*use_threads=*/false));
   }
 
   state.counters["input_rows_per_second"] = benchmark::Counter(
@@ -104,12 +101,22 @@ static void TableJoinOverhead(benchmark::State& state,
                          benchmark::Counter::kIsRate);
 
   state.counters["maximum_peak_memory"] =
-      benchmark::Counter(static_cast<double>(ctx.memory_pool()->max_memory()));
+      benchmark::Counter(static_cast<double>(default_memory_pool()->max_memory()));
+}
+
+AsofJoinNodeOptions GetRepeatedOptions(size_t repeat, FieldRef on_key,
+                                       std::vector<FieldRef> by_key, int64_t tolerance) {
+  std::vector<AsofJoinNodeOptions::Keys> input_keys(repeat);
+  for (size_t i = 0; i < repeat; i++) {
+    input_keys[i] = {on_key, by_key};
+  }
+  return AsofJoinNodeOptions(input_keys, tolerance);
 }
 
 static void AsOfJoinOverhead(benchmark::State& state) {
   int64_t tolerance = 0;
-  AsofJoinNodeOptions options = AsofJoinNodeOptions(kTimeCol, kKeyCol, tolerance);
+  auto options = std::make_shared<AsofJoinNodeOptions>(
+      GetRepeatedOptions(int(state.range(4) + 1), kTimeCol, {kKeyCol}, tolerance));
   TableJoinOverhead(
       state,
       TableGenerationProperties{int(state.range(0)), int(state.range(1)),
@@ -118,7 +125,7 @@ static void AsOfJoinOverhead(benchmark::State& state) {
       TableGenerationProperties{int(state.range(5)), int(state.range(6)),
                                 int(state.range(7)), "", kDefaultMinColumnVal,
                                 kDefaultMaxColumnVal, 0, kDefaultStart, kDefaultEnd},
-      int(state.range(3)), int(state.range(4)), "asofjoin", options);
+      int(state.range(3)), int(state.range(4)), "asofjoin", std::move(options));
 }
 
 // this generates the set of right hand tables to test on.
diff --git a/cpp/src/arrow/compute/exec/asof_join_node.cc b/cpp/src/arrow/compute/exec/asof_join_node.cc
index 3da612aa03e..a752cf800d9 100644
--- a/cpp/src/arrow/compute/exec/asof_join_node.cc
+++ b/cpp/src/arrow/compute/exec/asof_join_node.cc
@@ -15,36 +15,105 @@
 // specific language governing permissions and limitations
 // under the License.
 
+#include "arrow/compute/exec/asof_join_node.h"
+
 #include <condition_variable>
+#include <limits>
+#include <memory>
 #include <mutex>
-#include <set>
+#include <optional>
+#include <string_view>
 #include <thread>
 #include <unordered_map>
+#include <unordered_set>
 
+#include "arrow/array/builder_binary.h"
 #include "arrow/array/builder_primitive.h"
 #include "arrow/compute/exec/exec_plan.h"
+#include "arrow/compute/exec/key_hash.h"
 #include "arrow/compute/exec/options.h"
+#include "arrow/compute/exec/query_context.h"
 #include "arrow/compute/exec/schema_util.h"
 #include "arrow/compute/exec/util.h"
+#include "arrow/compute/light_array.h"
 #include "arrow/record_batch.h"
 #include "arrow/result.h"
 #include "arrow/status.h"
+#include "arrow/type_traits.h"
+#include "arrow/util/bit_util.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/future.h"
-#include "arrow/util/make_unique.h"
-#include "arrow/util/optional.h"
+#include "arrow/util/string.h"
 
 namespace arrow {
+
+using internal::ToChars;
+
 namespace compute {
 
-// Remove this when multiple keys and/or types is supported
-typedef int32_t KeyType;
+template <typename T, typename V = typename T::value_type>
+inline typename T::const_iterator std_find(const T& container, const V& val) {
+  return std::find(container.begin(), container.end(), val);
+}
+
+template <typename T, typename V = typename T::value_type>
+inline bool std_has(const T& container, const V& val) {
+  return container.end() != std_find(container, val);
+}
+
+typedef uint64_t ByType;
+typedef uint64_t OnType;
+typedef uint64_t HashType;
+
+/// A tolerance type with overflow-avoiding operations
+struct TolType {
+  constexpr static OnType kMinValue = std::numeric_limits<OnType>::lowest();
+  constexpr static OnType kMaxValue = std::numeric_limits<OnType>::max();
+
+  explicit TolType(int64_t tol)
+      : value(static_cast<uint64_t>(tol < 0 ? -tol : tol)), negative(tol < 0) {}
+
+  OnType value;
+  bool negative;
+
+  // an entry with a time below this threshold expires
+  inline OnType Expiry(OnType left_value) {
+    return negative ? left_value
+                    : (left_value < kMinValue + value ? kMinValue : left_value - value);
+  }
+
+  // an entry with a time after this threshold is distant
+  inline OnType Horizon(OnType left_value) {
+    return negative ? (left_value > kMaxValue - value ? kMaxValue : left_value + value)
+                    : left_value;
+  }
+
+  // true when the tolerance accepts the RHS time given the LHS one
+  inline bool Accepts(OnType left_value, OnType right_value) {
+    return negative
+               ? (left_value > right_value ? false : right_value - left_value <= value)
+               : (left_value < right_value ? false : left_value - right_value <= value);
+  }
+};
 
 // Maximum number of tables that can be joined
 #define MAX_JOIN_TABLES 64
 typedef uint64_t row_index_t;
 typedef int col_index_t;
 
+// normalize the value to 64-bits while preserving ordering of values
+template <typename T, enable_if_t<std::is_integral<T>::value, bool> = true>
+static inline uint64_t time_value(T t) {
+  uint64_t bias = std::is_signed<T>::value ? (uint64_t)1 << (8 * sizeof(T) - 1) : 0;
+  return t < 0 ? static_cast<uint64_t>(t + bias) : static_cast<uint64_t>(t);
+}
+
+// indicates normalization of a key value
+template <typename T, enable_if_t<std::is_integral<T>::value, bool> = true>
+static inline uint64_t key_value(T t) {
+  return static_cast<uint64_t>(t);
+}
+
 /**
  * Simple implementation for an unbound concurrent queue
  */
@@ -65,11 +134,16 @@ class ConcurrentQueue {
     cond_.notify_one();
   }
 
-  util::optional<T> TryPop() {
+  void Clear() {
+    std::unique_lock<std::mutex> lock(mutex_);
+    queue_ = std::queue<T>();
+  }
+
+  std::optional<T> TryPop() {
     // Try to pop the oldest value from the queue (or return nullopt if none)
     std::unique_lock<std::mutex> lock(mutex_);
     if (queue_.empty()) {
-      return util::nullopt;
+      return std::nullopt;
     } else {
       auto item = queue_.front();
       queue_.pop();
@@ -98,8 +172,19 @@ struct MemoStore {
   // Stores last known values for all the keys
 
   struct Entry {
+    Entry() = default;
+
+    Entry(OnType time, std::shared_ptr<arrow::RecordBatch> batch, row_index_t row)
+        : time(time), batch(batch), row(row) {}
+
+    void swap(Entry& other) {
+      std::swap(time, other.time);
+      std::swap(batch, other.batch);
+      std::swap(row, other.row);
+    }
+
     // Timestamp associated with the entry
-    int64_t time;
+    OnType time;
 
     // Batch associated with the entry (perf is probably OK for this; batches change
     // rarely)
@@ -109,46 +194,191 @@ struct MemoStore {
     row_index_t row;
   };
 
-  std::unordered_map<KeyType, Entry> entries_;
+  explicit MemoStore(bool no_future)
+      : no_future_(no_future), current_time_(std::numeric_limits<OnType>::lowest()) {}
+
+  // true when there are no future entries, which is the case for the LHS table and the
+  // case for when the tolerance is positive. A regular non-negative-tolerance as-of-join
+  // operation requires memorizing only the most recently observed entry per key. OTOH, a
+  // negative-tolerance (future) as-of-join operation requires memorizing per-key queues
+  // of entries up to the tolerance's horizon and in particular distinguishes between the
+  // current (front-of-queue) and latest (back-of-queue) entries per key.
+  bool no_future_;
+  // the time of the current entry, defaulting to 0.
+  // when entries with a time less than T are removed, the current time is updated to the
+  // time of the next (by-time) and now-current entry or to T if no such entry exists.
+  OnType current_time_;
+  // current entry per key
+  std::unordered_map<ByType, Entry> entries_;
+  // future entries per key
+  std::unordered_map<ByType, std::queue<Entry>> future_entries_;
+  // current and future (distinct) times of existing entries
+  std::deque<OnType> times_;
+
+  void swap(MemoStore& memo) {
+    std::swap(no_future_, memo.no_future_);
+    std::swap(current_time_, memo.current_time_);
+    entries_.swap(memo.entries_);
+    future_entries_.swap(memo.future_entries_);
+    times_.swap(memo.times_);
+  }
 
-  void Store(const std::shared_ptr<RecordBatch>& batch, row_index_t row, int64_t time,
-             KeyType key) {
-    auto& e = entries_[key];
-    // that we can do this assignment optionally, is why we
-    // can get array with using shared_ptr above (the batch
-    // shouldn't change that often)
-    if (e.batch != batch) e.batch = batch;
-    e.row = row;
-    e.time = time;
+  void Store(OnType for_time, const std::shared_ptr<RecordBatch>& batch, row_index_t row,
+             OnType time, ByType key) {
+    if (no_future_ || entries_.count(key) == 0) {
+      auto& e = entries_[key];
+      // that we can do this assignment optionally, is why we
+      // can get away with using shared_ptr above (the batch
+      // shouldn't change that often)
+      if (e.batch != batch) e.batch = batch;
+      e.row = row;
+      e.time = time;
+    } else {
+      future_entries_[key].emplace(time, batch, row);
+    }
+    if (!no_future_ || times_.empty() || times_.front() != time) {
+      times_.push_back(time);
+    } else {
+      times_.front() = time;
+    }
   }
 
-  util::optional<const Entry*> GetEntryForKey(KeyType key) const {
+  std::optional<const Entry*> GetEntryForKey(ByType key) const {
     auto e = entries_.find(key);
-    if (entries_.end() == e) return util::nullopt;
-    return util::optional<const Entry*>(&e->second);
+    return entries_.end() == e ? std::nullopt : std::optional<const Entry*>(&e->second);
   }
 
-  void RemoveEntriesWithLesserTime(int64_t ts) {
-    for (auto e = entries_.begin(); e != entries_.end();)
-      if (e->second.time < ts)
-        e = entries_.erase(e);
-      else
+  bool RemoveEntriesWithLesserTime(OnType ts) {
+    for (auto fe = future_entries_.begin(); fe != future_entries_.end();) {
+      auto& queue = fe->second;
+      while (!queue.empty() && queue.front().time < ts) queue.pop();
+      if (queue.empty()) {
+        fe = future_entries_.erase(fe);
+      } else {
+        ++fe;
+      }
+    }
+    for (auto e = entries_.begin(); e != entries_.end();) {
+      if (e->second.time < ts) {
+        auto fe = future_entries_.find(e->first);
+        if (fe != future_entries_.end() && !fe->second.empty()) {
+          auto& queue = fe->second;
+          e->second.swap(queue.front());
+          queue.pop();
+          ++e;
+        } else {
+          e = entries_.erase(e);
+        }
+      } else {
         ++e;
+      }
+    }
+    bool updated = false;
+    while (!times_.empty() && times_.front() < ts) {
+      current_time_ = times_.front();
+      times_.pop_front();
+      updated = true;
+    }
+    for (auto times_it = times_.begin(); times_it != times_.end(); times_it++) {
+      if (current_time_ < *times_it) {
+        current_time_ = *times_it;
+        updated = true;
+      }
+      if (*times_it > ts) break;
+    }
+    if (current_time_ < ts) {
+      current_time_ = ts;
+      updated = true;
+    }
+    return updated;
   }
 };
 
+// a specialized higher-performance variation of Hashing64 logic from hash_join_node
+// the code here avoids recreating objects that are independent of each batch processed
+class KeyHasher {
+  static constexpr int kMiniBatchLength = util::MiniBatch::kMiniBatchLength;
+
+ public:
+  explicit KeyHasher(const std::vector<col_index_t>& indices)
+      : indices_(indices),
+        metadata_(indices.size()),
+        batch_(NULLPTR),
+        hashes_(),
+        ctx_(),
+        column_arrays_(),
+        stack_() {
+    ctx_.stack = &stack_;
+    column_arrays_.resize(indices.size());
+  }
+
+  Status Init(ExecContext* exec_context, const std::shared_ptr<arrow::Schema>& schema) {
+    ctx_.hardware_flags = exec_context->cpu_info()->hardware_flags();
+    const auto& fields = schema->fields();
+    for (size_t k = 0; k < metadata_.size(); k++) {
+      ARROW_ASSIGN_OR_RAISE(metadata_[k],
+                            ColumnMetadataFromDataType(fields[indices_[k]]->type()));
+    }
+    return stack_.Init(exec_context->memory_pool(),
+                       4 * kMiniBatchLength * sizeof(uint32_t));
+  }
+
+  const std::vector<HashType>& HashesFor(const RecordBatch* batch) {
+    if (batch_ == batch) {
+      return hashes_;
+    }
+    batch_ = NULLPTR;  // invalidate cached hashes for batch
+    size_t batch_length = batch->num_rows();
+    hashes_.resize(batch_length);
+    for (int64_t i = 0; i < static_cast<int64_t>(batch_length); i += kMiniBatchLength) {
+      int64_t length = std::min(static_cast<int64_t>(batch_length - i),
+                                static_cast<int64_t>(kMiniBatchLength));
+      for (size_t k = 0; k < indices_.size(); k++) {
+        auto array_data = batch->column_data(indices_[k]);
+        column_arrays_[k] =
+            ColumnArrayFromArrayDataAndMetadata(array_data, metadata_[k], i, length);
+      }
+      Hashing64::HashMultiColumn(column_arrays_, &ctx_, hashes_.data() + i);
+    }
+    batch_ = batch;
+    return hashes_;
+  }
+
+ private:
+  std::vector<col_index_t> indices_;
+  std::vector<KeyColumnMetadata> metadata_;
+  const RecordBatch* batch_;
+  std::vector<HashType> hashes_;
+  LightContext ctx_;
+  std::vector<KeyColumnArray> column_arrays_;
+  util::TempVectorStack stack_;
+};
+
 class InputState {
   // InputState correponds to an input
   // Input record batches are queued up in InputState until processed and
   // turned into output record batches.
 
  public:
-  InputState(const std::shared_ptr<arrow::Schema>& schema,
-             const std::string& time_col_name, const std::string& key_col_name)
+  InputState(size_t index, TolType tolerance, bool must_hash, bool may_rehash,
+             KeyHasher* key_hasher, const std::shared_ptr<arrow::Schema>& schema,
+             const col_index_t time_col_index,
+             const std::vector<col_index_t>& key_col_index)
       : queue_(),
         schema_(schema),
-        time_col_index_(schema->GetFieldIndex(time_col_name)),
-        key_col_index_(schema->GetFieldIndex(key_col_name)) {}
+        time_col_index_(time_col_index),
+        key_col_index_(key_col_index),
+        time_type_id_(schema_->fields()[time_col_index_]->type()->id()),
+        key_type_id_(key_col_index.size()),
+        key_hasher_(key_hasher),
+        must_hash_(must_hash),
+        may_rehash_(may_rehash),
+        tolerance_(tolerance),
+        memo_(/*no_future=*/index == 0 || !tolerance.negative) {
+    for (size_t k = 0; k < key_col_index_.size(); k++) {
+      key_type_id_[k] = schema_->fields()[key_col_index_[k]]->type()->id();
+    }
+  }
 
   col_index_t InitSrcToDstMapping(col_index_t dst_offset, bool skip_time_and_key_fields) {
     src_to_dst_.resize(schema_->num_fields());
@@ -158,13 +388,13 @@ class InputState {
     return dst_offset;
   }
 
-  const util::optional<col_index_t>& MapSrcToDst(col_index_t src) const {
+  const std::optional<col_index_t>& MapSrcToDst(col_index_t src) const {
     return src_to_dst_[src];
   }
 
   bool IsTimeOrKeyColumn(col_index_t i) const {
     DCHECK_LT(i, schema_->num_fields());
-    return (i == time_col_index_) || (i == key_col_index_);
+    return (i == time_col_index_) || std_has(key_col_index_, i);
   }
 
   // Gets the latest row index,  assuming the queue isn't empty
@@ -177,6 +407,20 @@ class InputState {
     return queue_.Empty();
   }
 
+  // true when the queue is empty and, when memo may have future entries (the case of a
+  // negative tolerance), when the memo is empty.
+  // used when checking whether RHS is up to date with LHS.
+  bool CurrentEmpty() const {
+    return memo_.no_future_ ? Empty() : memo_.times_.empty() && Empty();
+  }
+
+  // in case memo may not have future entries (the case of a non-negative tolerance),
+  // returns the latest time (which is current); otherwise, returns the current time.
+  // used when checking whether RHS is up to date with LHS.
+  OnType GetCurrentTime() const {
+    return memo_.no_future_ ? GetLatestTime() : memo_.current_time_;
+  }
+
   int total_batches() const { return total_batches_; }
 
   // Gets latest batch (precondition: must not be empty)
@@ -184,27 +428,87 @@ class InputState {
     return queue_.UnsyncFront();
   }
 
-  KeyType GetLatestKey() const {
-    return queue_.UnsyncFront()
-        ->column_data(key_col_index_)
-        ->GetValues<KeyType>(1)[latest_ref_row_];
+#define LATEST_VAL_CASE(id, val)                     \
+  case Type::id: {                                   \
+    using T = typename TypeIdTraits<Type::id>::Type; \
+    using CType = typename TypeTraits<T>::CType;     \
+    return val(data->GetValues<CType>(1)[row]);      \
   }
 
-  int64_t GetLatestTime() const {
-    return queue_.UnsyncFront()
-        ->column_data(time_col_index_)
-        ->GetValues<int64_t>(1)[latest_ref_row_];
+  inline ByType GetLatestKey() const {
+    return GetKey(GetLatestBatch().get(), latest_ref_row_);
   }
 
+  inline ByType GetKey(const RecordBatch* batch, row_index_t row) const {
+    if (must_hash_) {
+      return key_hasher_->HashesFor(batch)[row];
+    }
+    if (key_col_index_.size() == 0) {
+      return 0;
+    }
+    auto data = batch->column_data(key_col_index_[0]);
+    switch (key_type_id_[0]) {
+      LATEST_VAL_CASE(INT8, key_value)
+      LATEST_VAL_CASE(INT16, key_value)
+      LATEST_VAL_CASE(INT32, key_value)
+      LATEST_VAL_CASE(INT64, key_value)
+      LATEST_VAL_CASE(UINT8, key_value)
+      LATEST_VAL_CASE(UINT16, key_value)
+      LATEST_VAL_CASE(UINT32, key_value)
+      LATEST_VAL_CASE(UINT64, key_value)
+      LATEST_VAL_CASE(DATE32, key_value)
+      LATEST_VAL_CASE(DATE64, key_value)
+      LATEST_VAL_CASE(TIME32, key_value)
+      LATEST_VAL_CASE(TIME64, key_value)
+      LATEST_VAL_CASE(TIMESTAMP, key_value)
+      default:
+        DCHECK(false);
+        return 0;  // cannot happen
+    }
+  }
+
+  inline OnType GetLatestTime() const {
+    return GetTime(GetLatestBatch().get(), latest_ref_row_);
+  }
+
+  inline ByType GetTime(const RecordBatch* batch, row_index_t row) const {
+    auto data = batch->column_data(time_col_index_);
+    switch (time_type_id_) {
+      LATEST_VAL_CASE(INT8, time_value)
+      LATEST_VAL_CASE(INT16, time_value)
+      LATEST_VAL_CASE(INT32, time_value)
+      LATEST_VAL_CASE(INT64, time_value)
+      LATEST_VAL_CASE(UINT8, time_value)
+      LATEST_VAL_CASE(UINT16, time_value)
+      LATEST_VAL_CASE(UINT32, time_value)
+      LATEST_VAL_CASE(UINT64, time_value)
+      LATEST_VAL_CASE(DATE32, time_value)
+      LATEST_VAL_CASE(DATE64, time_value)
+      LATEST_VAL_CASE(TIME32, time_value)
+      LATEST_VAL_CASE(TIME64, time_value)
+      LATEST_VAL_CASE(TIMESTAMP, time_value)
+      default:
+        DCHECK(false);
+        return 0;  // cannot happen
+    }
+  }
+
+#undef LATEST_VAL_CASE
+
   bool Finished() const { return batches_processed_ == total_batches_; }
 
-  bool Advance() {
+  Result<bool> Advance() {
     // Try advancing to the next row and update latest_ref_row_
     // Returns true if able to advance, false if not.
     bool have_active_batch =
         (latest_ref_row_ > 0 /*short circuit the lock on the queue*/) || !queue_.Empty();
 
     if (have_active_batch) {
+      OnType next_time = GetLatestTime();
+      if (latest_time_ > next_time) {
+        return Status::Invalid("AsofJoin does not allow out-of-order on-key values");
+      }
+      latest_time_ = next_time;
       // If we have an active batch
       if (++latest_ref_row_ >= (row_index_t)queue_.UnsyncFront()->num_rows()) {
         // hit the end of the batch, need to get the next batch if possible.
@@ -218,59 +522,85 @@ class InputState {
     return have_active_batch;
   }
 
-  // Advance the data to be immediately past the specified timestamp, update
-  // latest_time and latest_ref_row to the value that immediately pass the
-  // specified timestamp.
+  // Advance the data to be immediately past the tolerance's horizon for the specified
+  // timestamp, update latest_time and latest_ref_row to the value that immediately pass
+  // the horizon. Update the memo-store with any entries or future entries so observed.
   // Returns true if updates were made, false if not.
-  bool AdvanceAndMemoize(int64_t ts) {
+  Result<bool> AdvanceAndMemoize(OnType ts) {
     // Advance the right side row index until we reach the latest right row (for each key)
     // for the given left timestamp.
 
     // Check if already updated for TS (or if there is no latest)
-    if (Empty()) return false;  // can't advance if empty
-    auto latest_time = GetLatestTime();
-    if (latest_time > ts) return false;  // already advanced
+    if (Empty()) {  // can't advance if empty and no future entries
+      return memo_.no_future_ ? false : memo_.RemoveEntriesWithLesserTime(ts);
+    }
 
     // Not updated.  Try to update and possibly advance.
-    bool updated = false;
+    bool advanced, updated = false;
     do {
-      latest_time = GetLatestTime();
+      auto latest_time = GetLatestTime();
       // if Advance() returns true, then the latest_ts must also be valid
       // Keep advancing right table until we hit the latest row that has
       // timestamp <= ts. This is because we only need the latest row for the
       // match given a left ts.
-      if (latest_time <= ts) {
-        memo_.Store(GetLatestBatch(), latest_ref_row_, latest_time, GetLatestKey());
-      } else {
-        break;  // hit a future timestamp -- done updating for now
+      if (latest_time > tolerance_.Horizon(ts)) {              // hit a distant timestamp
+        if (memo_.no_future_ || !memo_.times_.empty()) break;  // no future entries
       }
-      updated = true;
-    } while (Advance());
+      auto rb = GetLatestBatch();
+      if (may_rehash_ && rb->column_data(key_col_index_[0])->GetNullCount() > 0) {
+        must_hash_ = true;
+        may_rehash_ = false;
+        Rehash();
+      }
+      memo_.Store(ts, rb, latest_ref_row_, latest_time, GetLatestKey());
+      updated = memo_.no_future_;
+      ARROW_ASSIGN_OR_RAISE(advanced, Advance());
+    } while (advanced);
+    if (!memo_.no_future_) {  // "updated" was not modified in the loop; set it here
+      updated = memo_.RemoveEntriesWithLesserTime(ts);
+    }
     return updated;
   }
 
-  void Push(const std::shared_ptr<arrow::RecordBatch>& rb) {
+  void Rehash() {
+    MemoStore new_memo(memo_.no_future_);
+    new_memo.current_time_ = memo_.current_time_;
+    for (auto e = memo_.entries_.begin(); e != memo_.entries_.end(); ++e) {
+      auto& entry = e->second;
+      auto new_key = GetKey(entry.batch.get(), entry.row);
+      new_memo.entries_[new_key].swap(entry);
+      auto fe = memo_.future_entries_.find(e->first);
+      if (fe != memo_.future_entries_.end()) {
+        new_memo.future_entries_[new_key].swap(fe->second);
+      }
+    }
+    memo_.times_.swap(new_memo.times_);
+    memo_.swap(new_memo);
+  }
+
+  Status Push(const std::shared_ptr<arrow::RecordBatch>& rb) {
     if (rb->num_rows() > 0) {
       queue_.Push(rb);
     } else {
       ++batches_processed_;  // don't enqueue empty batches, just record as processed
     }
+    return Status::OK();
   }
 
-  util::optional<const MemoStore::Entry*> GetMemoEntryForKey(KeyType key) {
+  std::optional<const MemoStore::Entry*> GetMemoEntryForKey(ByType key) {
     return memo_.GetEntryForKey(key);
   }
 
-  util::optional<int64_t> GetMemoTimeForKey(KeyType key) {
+  std::optional<OnType> GetMemoTimeForKey(ByType key) {
     auto r = GetMemoEntryForKey(key);
     if (r.has_value()) {
       return (*r)->time;
     } else {
-      return util::nullopt;
+      return std::nullopt;
     }
   }
 
-  void RemoveMemoEntriesWithLesserTime(int64_t ts) {
+  void RemoveMemoEntriesWithLesserTime(OnType ts) {
     memo_.RemoveEntriesWithLesserTime(ts);
   }
 
@@ -294,14 +624,28 @@ class InputState {
   // Index of the time col
   col_index_t time_col_index_;
   // Index of the key col
-  col_index_t key_col_index_;
+  std::vector<col_index_t> key_col_index_;
+  // Type id of the time column
+  Type::type time_type_id_;
+  // Type id of the key column
+  std::vector<Type::type> key_type_id_;
+  // Hasher for key elements
+  mutable KeyHasher* key_hasher_;
+  // True if hashing is mandatory
+  bool must_hash_;
+  // True if by-key values may be rehashed
+  bool may_rehash_;
+  // Tolerance
+  TolType tolerance_;
   // Index of the latest row reference within; if >0 then queue_ cannot be empty
   // Must be < queue_.front()->num_rows() if queue_ is non-empty
   row_index_t latest_ref_row_ = 0;
+  // Time of latest row
+  OnType latest_time_ = std::numeric_limits<OnType>::lowest();
   // Stores latest known values for the various keys
   MemoStore memo_;
   // Mapping of source columns to destination columns
-  std::vector<util::optional<col_index_t>> src_to_dst_;
+  std::vector<std::optional<col_index_t>> src_to_dst_;
 };
 
 template <size_t MAX_TABLES>
@@ -336,18 +680,18 @@ class CompositeReferenceTable {
   // Adds the latest row from the input state as a new composite reference row
   // - LHS must have a valid key,timestep,and latest rows
   // - RHS must have valid data memo'ed for the key
-  void Emplace(std::vector<std::unique_ptr<InputState>>& in, int64_t tolerance) {
+  void Emplace(std::vector<std::unique_ptr<InputState>>& in, TolType tolerance) {
     DCHECK_EQ(in.size(), n_tables_);
 
     // Get the LHS key
-    KeyType key = in[0]->GetLatestKey();
+    ByType key = in[0]->GetLatestKey();
 
     // Add row and setup LHS
     // (the LHS state comes just from the latest row of the LHS table)
     DCHECK(!in[0]->Empty());
     const std::shared_ptr<arrow::RecordBatch>& lhs_latest_batch = in[0]->GetLatestBatch();
     row_index_t lhs_latest_row = in[0]->GetLatestRow();
-    int64_t lhs_latest_time = in[0]->GetLatestTime();
+    OnType lhs_latest_time = in[0]->GetLatestTime();
     if (0 == lhs_latest_row) {
       // On the first row of the batch, we resize the destination.
       // The destination size is dictated by the size of the LHS batch.
@@ -364,10 +708,10 @@ class CompositeReferenceTable {
     // Get the state for that key from all on the RHS -- assumes it's up to date
     // (the RHS state comes from the memoized row references)
     for (size_t i = 1; i < in.size(); ++i) {
-      util::optional<const MemoStore::Entry*> opt_entry = in[i]->GetMemoEntryForKey(key);
+      std::optional<const MemoStore::Entry*> opt_entry = in[i]->GetMemoEntryForKey(key);
       if (opt_entry.has_value()) {
         DCHECK(*opt_entry);
-        if ((*opt_entry)->time + tolerance >= lhs_latest_time) {
+        if (tolerance.Accepts(lhs_latest_time, (*opt_entry)->time)) {
           // Have a valid entry
           const MemoStore::Entry* entry = *opt_entry;
           row.refs[i].batch = entry->batch.get();
@@ -397,7 +741,7 @@ class CompositeReferenceTable {
       int n_src_cols = state.at(i_table)->get_schema()->num_fields();
       {
         for (col_index_t i_src_col = 0; i_src_col < n_src_cols; ++i_src_col) {
-          util::optional<col_index_t> i_dst_col_opt =
+          std::optional<col_index_t> i_dst_col_opt =
               state[i_table]->MapSrcToDst(i_src_col);
           if (!i_dst_col_opt) continue;
           col_index_t i_dst_col = *i_dst_col_opt;
@@ -407,29 +751,43 @@ class CompositeReferenceTable {
           DCHECK_EQ(src_field->name(), dst_field->name());
           const auto& field_type = src_field->type();
 
-          if (field_type->Equals(arrow::int32())) {
-            ARROW_ASSIGN_OR_RAISE(
-                arrays.at(i_dst_col),
-                (MaterializePrimitiveColumn<arrow::Int32Builder, int32_t>(
-                    memory_pool, i_table, i_src_col)));
-          } else if (field_type->Equals(arrow::int64())) {
-            ARROW_ASSIGN_OR_RAISE(
-                arrays.at(i_dst_col),
-                (MaterializePrimitiveColumn<arrow::Int64Builder, int64_t>(
-                    memory_pool, i_table, i_src_col)));
-          } else if (field_type->Equals(arrow::float32())) {
-            ARROW_ASSIGN_OR_RAISE(arrays.at(i_dst_col),
-                                  (MaterializePrimitiveColumn<arrow::FloatBuilder, float>(
-                                      memory_pool, i_table, i_src_col)));
-          } else if (field_type->Equals(arrow::float64())) {
-            ARROW_ASSIGN_OR_RAISE(
-                arrays.at(i_dst_col),
-                (MaterializePrimitiveColumn<arrow::DoubleBuilder, double>(
-                    memory_pool, i_table, i_src_col)));
-          } else {
-            ARROW_RETURN_NOT_OK(
-                Status::Invalid("Unsupported data type: ", src_field->name()));
+#define ASOFJOIN_MATERIALIZE_CASE(id)                                       \
+  case Type::id: {                                                          \
+    using T = typename TypeIdTraits<Type::id>::Type;                        \
+    ARROW_ASSIGN_OR_RAISE(                                                  \
+        arrays.at(i_dst_col),                                               \
+        MaterializeColumn<T>(memory_pool, field_type, i_table, i_src_col)); \
+    break;                                                                  \
+  }
+
+          switch (field_type->id()) {
+            ASOFJOIN_MATERIALIZE_CASE(BOOL)
+            ASOFJOIN_MATERIALIZE_CASE(INT8)
+            ASOFJOIN_MATERIALIZE_CASE(INT16)
+            ASOFJOIN_MATERIALIZE_CASE(INT32)
+            ASOFJOIN_MATERIALIZE_CASE(INT64)
+            ASOFJOIN_MATERIALIZE_CASE(UINT8)
+            ASOFJOIN_MATERIALIZE_CASE(UINT16)
+            ASOFJOIN_MATERIALIZE_CASE(UINT32)
+            ASOFJOIN_MATERIALIZE_CASE(UINT64)
+            ASOFJOIN_MATERIALIZE_CASE(FLOAT)
+            ASOFJOIN_MATERIALIZE_CASE(DOUBLE)
+            ASOFJOIN_MATERIALIZE_CASE(DATE32)
+            ASOFJOIN_MATERIALIZE_CASE(DATE64)
+            ASOFJOIN_MATERIALIZE_CASE(TIME32)
+            ASOFJOIN_MATERIALIZE_CASE(TIME64)
+            ASOFJOIN_MATERIALIZE_CASE(TIMESTAMP)
+            ASOFJOIN_MATERIALIZE_CASE(STRING)
+            ASOFJOIN_MATERIALIZE_CASE(LARGE_STRING)
+            ASOFJOIN_MATERIALIZE_CASE(BINARY)
+            ASOFJOIN_MATERIALIZE_CASE(LARGE_BINARY)
+            default:
+              return Status::Invalid("Unsupported data type ",
+                                     src_field->type()->ToString(), " for field ",
+                                     src_field->name());
           }
+
+#undef ASOFJOIN_MATERIALIZE_CASE
         }
       }
     }
@@ -458,18 +816,50 @@ class CompositeReferenceTable {
   void AddRecordBatchRef(const std::shared_ptr<RecordBatch>& ref) {
     if (!_ptr2ref.count((uintptr_t)ref.get())) _ptr2ref[(uintptr_t)ref.get()] = ref;
   }
+  template <class Type, class Builder = typename TypeTraits<Type>::BuilderType>
+  enable_if_fixed_width_type<Type, Status> static BuilderAppend(
+      Builder& builder, const std::shared_ptr<ArrayData>& source, row_index_t row) {
+    if (source->IsNull(row)) {
+      builder.UnsafeAppendNull();
+      return Status::OK();
+    }
+
+    if constexpr (is_boolean_type<Type>::value) {
+      builder.UnsafeAppend(bit_util::GetBit(source->template GetValues<uint8_t>(1), row));
+    } else {
+      using CType = typename TypeTraits<Type>::CType;
+      builder.UnsafeAppend(source->template GetValues<CType>(1)[row]);
+    }
+    return Status::OK();
+  }
+
+  template <class Type, class Builder = typename TypeTraits<Type>::BuilderType>
+  enable_if_base_binary<Type, Status> static BuilderAppend(
+      Builder& builder, const std::shared_ptr<ArrayData>& source, row_index_t row) {
+    if (source->IsNull(row)) {
+      return builder.AppendNull();
+    }
+    using offset_type = typename Type::offset_type;
+    const uint8_t* data = source->buffers[2]->data();
+    const offset_type* offsets = source->GetValues<offset_type>(1);
+    const offset_type offset0 = offsets[row];
+    const offset_type offset1 = offsets[row + 1];
+    return builder.Append(data + offset0, offset1 - offset0);
+  }
 
-  template <class Builder, class PrimitiveType>
-  Result<std::shared_ptr<Array>> MaterializePrimitiveColumn(MemoryPool* memory_pool,
-                                                            size_t i_table,
-                                                            col_index_t i_col) {
-    Builder builder(memory_pool);
+  template <class Type, class Builder = typename TypeTraits<Type>::BuilderType>
+  Result<std::shared_ptr<Array>> MaterializeColumn(MemoryPool* memory_pool,
+                                                   const std::shared_ptr<DataType>& type,
+                                                   size_t i_table, col_index_t i_col) {
+    ARROW_ASSIGN_OR_RAISE(auto a_builder, MakeBuilder(type, memory_pool));
+    Builder& builder = *checked_cast<Builder*>(a_builder.get());
     ARROW_RETURN_NOT_OK(builder.Reserve(rows_.size()));
     for (row_index_t i_row = 0; i_row < rows_.size(); ++i_row) {
       const auto& ref = rows_[i_row].refs[i_table];
       if (ref.batch) {
-        builder.UnsafeAppend(
-            ref.batch->column_data(i_col)->template GetValues<PrimitiveType>(1)[ref.row]);
+        Status st =
+            BuilderAppend<Type, Builder>(builder, ref.batch->column_data(i_col), ref.row);
+        ARROW_RETURN_NOT_OK(st);
       } else {
         builder.UnsafeAppendNull();
       }
@@ -480,14 +870,21 @@ class CompositeReferenceTable {
   }
 };
 
+// TODO: Currently, AsofJoinNode uses 64-bit hashing which leads to a non-negligible
+// probability of collision, which can cause incorrect results when many different by-key
+// values are processed. Thus, AsofJoinNode is currently limited to about 100k by-keys for
+// guaranteeing this probability is below 1 in a billion. The fix is 128-bit hashing.
+// See ARROW-17653
 class AsofJoinNode : public ExecNode {
   // Advances the RHS as far as possible to be up to date for the current LHS timestamp
-  bool UpdateRhs() {
+  Result<bool> UpdateRhs() {
     auto& lhs = *state_.at(0);
     auto lhs_latest_time = lhs.GetLatestTime();
     bool any_updated = false;
-    for (size_t i = 1; i < state_.size(); ++i)
-      any_updated |= state_[i]->AdvanceAndMemoize(lhs_latest_time);
+    for (size_t i = 1; i < state_.size(); ++i) {
+      ARROW_ASSIGN_OR_RAISE(bool advanced, state_[i]->AdvanceAndMemoize(lhs_latest_time));
+      any_updated |= advanced;
+    }
     return any_updated;
   }
 
@@ -495,14 +892,14 @@ class AsofJoinNode : public ExecNode {
   bool IsUpToDateWithLhsRow() const {
     auto& lhs = *state_[0];
     if (lhs.Empty()) return false;  // can't proceed if nothing on the LHS
-    int64_t lhs_ts = lhs.GetLatestTime();
+    OnType lhs_ts = lhs.GetLatestTime();
     for (size_t i = 1; i < state_.size(); ++i) {
       auto& rhs = *state_[i];
       if (!rhs.Finished()) {
         // If RHS is finished, then we know it's up to date
-        if (rhs.Empty())
+        if (rhs.CurrentEmpty())
           return false;  // RHS isn't finished, but is empty --> not up to date
-        if (lhs_ts >= rhs.GetLatestTime())
+        if (lhs_ts >= rhs.GetCurrentTime())
           return false;  // RHS isn't up to date (and not finished)
       }
     }
@@ -523,7 +920,7 @@ class AsofJoinNode : public ExecNode {
       if (lhs.Finished() || lhs.Empty()) break;
 
       // Advance each of the RHS as far as possible to be up to date for the LHS timestamp
-      bool any_rhs_advanced = UpdateRhs();
+      ARROW_ASSIGN_OR_RAISE(bool any_rhs_advanced, UpdateRhs());
 
       // If we have received enough inputs to produce the next output batch
       // (decided by IsUpToDateWithLhsRow), we will perform the join and
@@ -531,8 +928,9 @@ class AsofJoinNode : public ExecNode {
       // the LHS and adding joined row to rows_ (done by Emplace). Finally,
       // input batches that are no longer needed are removed to free up memory.
       if (IsUpToDateWithLhsRow()) {
-        dst.Emplace(state_, options_.tolerance);
-        if (!lhs.Advance()) break;  // if we can't advance LHS, we're done for this batch
+        dst.Emplace(state_, tolerance_);
+        ARROW_ASSIGN_OR_RAISE(bool advanced, lhs.Advance());
+        if (!advanced) break;  // if we can't advance LHS, we're done for this batch
       } else {
         if (!any_rhs_advanced) break;  // need to wait for new data
       }
@@ -541,8 +939,10 @@ class AsofJoinNode : public ExecNode {
     // Prune memo entries that have expired (to bound memory consumption)
     if (!lhs.Empty()) {
       for (size_t i = 1; i < state_.size(); ++i) {
-        state_[i]->RemoveMemoEntriesWithLesserTime(lhs.GetLatestTime() -
-                                                   options_.tolerance);
+        OnType ts = tolerance_.Expiry(lhs.GetLatestTime());
+        if (ts != TolType::kMinValue) {
+          state_[i]->RemoveMemoEntriesWithLesserTime(ts);
+        }
       }
     }
 
@@ -550,15 +950,41 @@ class AsofJoinNode : public ExecNode {
     if (dst.empty()) {
       return NULLPTR;
     } else {
-      return dst.Materialize(plan()->exec_context()->memory_pool(), output_schema(),
+      return dst.Materialize(plan()->query_context()->memory_pool(), output_schema(),
                              state_);
     }
   }
 
-  void Process() {
+  template <typename Callable>
+  struct Defer {
+    Callable callable;
+    explicit Defer(Callable callable) : callable(std::move(callable)) {}
+    ~Defer() noexcept { callable(); }
+  };
+
+  void EndFromProcessThread() {
+    // We must spawn a new task to transfer off the process thread when
+    // marking this finished.  Otherwise there is a chance that doing so could
+    // mark the plan finished which may destroy the plan which will destroy this
+    // node which will cause us to join on ourselves.
+    ErrorIfNotOk(plan_->query_context()->executor()->Spawn([this] {
+      Defer cleanup([this]() { finished_.MarkFinished(); });
+      outputs_[0]->InputFinished(this, batches_produced_);
+    }));
+  }
+
+  bool CheckEnded() {
+    if (state_.at(0)->Finished()) {
+      EndFromProcessThread();
+      return false;
+    }
+    return true;
+  }
+
+  bool Process() {
     std::lock_guard<std::mutex> guard(gate_);
-    if (finished_.is_finished()) {
-      return;
+    if (!CheckEnded()) {
+      return false;
     }
 
     // Process batches while we have data
@@ -572,9 +998,9 @@ class AsofJoinNode : public ExecNode {
         ExecBatch out_b(*out_rb);
         outputs_[0]->InputReceived(this, std::move(out_b));
       } else {
-        StopProducing();
         ErrorIfNotOk(result.status());
-        return;
+        EndFromProcessThread();
+        return false;
       }
     }
 
@@ -583,18 +1009,24 @@ class AsofJoinNode : public ExecNode {
     //
     // It may happen here in cases where InputFinished was called before we were finished
     // producing results (so we didn't know the output size at that time)
-    if (state_.at(0)->Finished()) {
-      StopProducing();
-      outputs_[0]->InputFinished(this, batches_produced_);
+    if (!CheckEnded()) {
+      return false;
     }
+
+    // There is no more we can do now but there is still work remaining for later when
+    // more data arrives.
+    return true;
   }
 
   void ProcessThread() {
     for (;;) {
       if (!process_.Pop()) {
+        EndFromProcessThread();
+        return;
+      }
+      if (!Process()) {
         return;
       }
-      Process();
     }
   }
 
@@ -602,54 +1034,173 @@ class AsofJoinNode : public ExecNode {
 
  public:
   AsofJoinNode(ExecPlan* plan, NodeVector inputs, std::vector<std::string> input_labels,
-               const AsofJoinNodeOptions& join_options,
-               std::shared_ptr<Schema> output_schema);
+               const std::vector<col_index_t>& indices_of_on_key,
+               const std::vector<std::vector<col_index_t>>& indices_of_by_key,
+               TolType tolerance, std::shared_ptr<Schema> output_schema,
+               std::vector<std::unique_ptr<KeyHasher>> key_hashers, bool must_hash,
+               bool may_rehash);
+
+  Status Init() override {
+    auto inputs = this->inputs();
+    for (size_t i = 0; i < inputs.size(); i++) {
+      RETURN_NOT_OK(key_hashers_[i]->Init(plan()->query_context()->exec_context(),
+                                          output_schema()));
+      state_.push_back(std::make_unique<InputState>(
+          i, tolerance_, must_hash_, may_rehash_, key_hashers_[i].get(),
+          inputs[i]->output_schema(), indices_of_on_key_[i], indices_of_by_key_[i]));
+    }
+
+    col_index_t dst_offset = 0;
+    for (auto& state : state_)
+      dst_offset = state->InitSrcToDstMapping(dst_offset, !!dst_offset);
+
+    return Status::OK();
+  }
 
   virtual ~AsofJoinNode() {
     process_.Push(false);  // poison pill
     process_thread_.join();
   }
 
+  const std::vector<col_index_t>& indices_of_on_key() { return indices_of_on_key_; }
+  const std::vector<std::vector<col_index_t>>& indices_of_by_key() {
+    return indices_of_by_key_;
+  }
+
+  static Status is_valid_on_field(const std::shared_ptr<Field>& field) {
+    switch (field->type()->id()) {
+      case Type::INT8:
+      case Type::INT16:
+      case Type::INT32:
+      case Type::INT64:
+      case Type::UINT8:
+      case Type::UINT16:
+      case Type::UINT32:
+      case Type::UINT64:
+      case Type::DATE32:
+      case Type::DATE64:
+      case Type::TIME32:
+      case Type::TIME64:
+      case Type::TIMESTAMP:
+        return Status::OK();
+      default:
+        return Status::Invalid("Unsupported type for on-key ", field->name(), " : ",
+                               field->type()->ToString());
+    }
+  }
+
+  static Status is_valid_by_field(const std::shared_ptr<Field>& field) {
+    switch (field->type()->id()) {
+      case Type::INT8:
+      case Type::INT16:
+      case Type::INT32:
+      case Type::INT64:
+      case Type::UINT8:
+      case Type::UINT16:
+      case Type::UINT32:
+      case Type::UINT64:
+      case Type::DATE32:
+      case Type::DATE64:
+      case Type::TIME32:
+      case Type::TIME64:
+      case Type::TIMESTAMP:
+      case Type::STRING:
+      case Type::LARGE_STRING:
+      case Type::BINARY:
+      case Type::LARGE_BINARY:
+        return Status::OK();
+      default:
+        return Status::Invalid("Unsupported type for by-key ", field->name(), " : ",
+                               field->type()->ToString());
+    }
+  }
+
+  static Status is_valid_data_field(const std::shared_ptr<Field>& field) {
+    switch (field->type()->id()) {
+      case Type::BOOL:
+      case Type::INT8:
+      case Type::INT16:
+      case Type::INT32:
+      case Type::INT64:
+      case Type::UINT8:
+      case Type::UINT16:
+      case Type::UINT32:
+      case Type::UINT64:
+      case Type::FLOAT:
+      case Type::DOUBLE:
+      case Type::DATE32:
+      case Type::DATE64:
+      case Type::TIME32:
+      case Type::TIME64:
+      case Type::TIMESTAMP:
+      case Type::STRING:
+      case Type::LARGE_STRING:
+      case Type::BINARY:
+      case Type::LARGE_BINARY:
+        return Status::OK();
+      default:
+        return Status::Invalid("Unsupported type for data field ", field->name(), " : ",
+                               field->type()->ToString());
+    }
+  }
+
   static arrow::Result<std::shared_ptr<Schema>> MakeOutputSchema(
-      const std::vector<ExecNode*>& inputs, const AsofJoinNodeOptions& options) {
+      const std::vector<std::shared_ptr<Schema>> input_schema,
+      const std::vector<col_index_t>& indices_of_on_key,
+      const std::vector<std::vector<col_index_t>>& indices_of_by_key) {
     std::vector<std::shared_ptr<arrow::Field>> fields;
 
-    const auto& on_field_name = *options.on_key.name();
-    const auto& by_field_name = *options.by_key.name();
-
+    size_t n_by = indices_of_by_key.size() == 0 ? 0 : indices_of_by_key[0].size();
+    const DataType* on_key_type = NULLPTR;
+    std::vector<const DataType*> by_key_type(n_by, NULLPTR);
     // Take all non-key, non-time RHS fields
-    for (size_t j = 0; j < inputs.size(); ++j) {
-      const auto& input_schema = inputs[j]->output_schema();
-      const auto& on_field_ix = input_schema->GetFieldIndex(on_field_name);
-      const auto& by_field_ix = input_schema->GetFieldIndex(by_field_name);
+    for (size_t j = 0; j < input_schema.size(); ++j) {
+      const auto& on_field_ix = indices_of_on_key[j];
+      const auto& by_field_ix = indices_of_by_key[j];
 
-      if ((on_field_ix == -1) | (by_field_ix == -1)) {
+      if ((on_field_ix == -1) || std_has(by_field_ix, -1)) {
         return Status::Invalid("Missing join key on table ", j);
       }
 
-      for (int i = 0; i < input_schema->num_fields(); ++i) {
-        const auto field = input_schema->field(i);
-        if (field->name() == on_field_name) {
-          if (kSupportedOnTypes_.find(field->type()) == kSupportedOnTypes_.end()) {
-            return Status::Invalid("Unsupported type for on key: ", field->name());
-          }
+      const auto& on_field = input_schema[j]->fields()[on_field_ix];
+      std::vector<const Field*> by_field(n_by);
+      for (size_t k = 0; k < n_by; k++) {
+        by_field[k] = input_schema[j]->fields()[by_field_ix[k]].get();
+      }
+
+      if (on_key_type == NULLPTR) {
+        on_key_type = on_field->type().get();
+      } else if (*on_key_type != *on_field->type()) {
+        return Status::Invalid("Expected on-key type ", *on_key_type, " but got ",
+                               *on_field->type(), " for field ", on_field->name(),
+                               " in input ", j);
+      }
+      for (size_t k = 0; k < n_by; k++) {
+        if (by_key_type[k] == NULLPTR) {
+          by_key_type[k] = by_field[k]->type().get();
+        } else if (*by_key_type[k] != *by_field[k]->type()) {
+          return Status::Invalid("Expected on-key type ", *by_key_type[k], " but got ",
+                                 *by_field[k]->type(), " for field ", by_field[k]->name(),
+                                 " in input ", j);
+        }
+      }
+
+      for (int i = 0; i < input_schema[j]->num_fields(); ++i) {
+        const auto field = input_schema[j]->field(i);
+        if (i == on_field_ix) {
+          ARROW_RETURN_NOT_OK(is_valid_on_field(field));
           // Only add on field from the left table
           if (j == 0) {
             fields.push_back(field);
           }
-        } else if (field->name() == by_field_name) {
-          if (kSupportedByTypes_.find(field->type()) == kSupportedByTypes_.end()) {
-            return Status::Invalid("Unsupported type for by key: ", field->name());
-          }
+        } else if (std_has(by_field_ix, i)) {
+          ARROW_RETURN_NOT_OK(is_valid_by_field(field));
           // Only add by field from the left table
           if (j == 0) {
             fields.push_back(field);
           }
         } else {
-          if (kSupportedDataTypes_.find(field->type()) == kSupportedDataTypes_.end()) {
-            return Status::Invalid("Unsupported data type: ", field->name());
-          }
-
+          ARROW_RETURN_NOT_OK(is_valid_data_field(field));
           fields.push_back(field);
         }
       }
@@ -657,45 +1208,131 @@ class AsofJoinNode : public ExecNode {
     return std::make_shared<arrow::Schema>(fields);
   }
 
+  static inline Result<col_index_t> FindColIndex(const Schema& schema,
+                                                 const FieldRef& field_ref,
+                                                 std::string_view key_kind) {
+    auto match_res = field_ref.FindOne(schema);
+    if (!match_res.ok()) {
+      return Status::Invalid("Bad join key on table : ", match_res.status().message());
+    }
+    ARROW_ASSIGN_OR_RAISE(auto match, match_res);
+    if (match.indices().size() != 1) {
+      return Status::Invalid("AsOfJoinNode does not support a nested ", key_kind, "-key ",
+                             field_ref.ToString());
+    }
+    return match.indices()[0];
+  }
+
+  static Result<size_t> GetByKeySize(
+      const std::vector<asofjoin::AsofJoinKeys>& input_keys) {
+    size_t n_by = 0;
+    for (size_t i = 0; i < input_keys.size(); ++i) {
+      const auto& by_key = input_keys[i].by_key;
+      if (i == 0) {
+        n_by = by_key.size();
+      } else if (n_by != by_key.size()) {
+        return Status::Invalid("inconsistent size of by-key across inputs");
+      }
+    }
+    return n_by;
+  }
+
+  static Result<std::vector<col_index_t>> GetIndicesOfOnKey(
+      const std::vector<std::shared_ptr<Schema>>& input_schema,
+      const std::vector<asofjoin::AsofJoinKeys>& input_keys) {
+    if (input_schema.size() != input_keys.size()) {
+      return Status::Invalid("mismatching number of input schema and keys");
+    }
+    size_t n_input = input_schema.size();
+    std::vector<col_index_t> indices_of_on_key(n_input);
+    for (size_t i = 0; i < n_input; ++i) {
+      const auto& on_key = input_keys[i].on_key;
+      ARROW_ASSIGN_OR_RAISE(indices_of_on_key[i],
+                            FindColIndex(*input_schema[i], on_key, "on"));
+    }
+    return indices_of_on_key;
+  }
+
+  static Result<std::vector<std::vector<col_index_t>>> GetIndicesOfByKey(
+      const std::vector<std::shared_ptr<Schema>>& input_schema,
+      const std::vector<asofjoin::AsofJoinKeys>& input_keys) {
+    if (input_schema.size() != input_keys.size()) {
+      return Status::Invalid("mismatching number of input schema and keys");
+    }
+    ARROW_ASSIGN_OR_RAISE(size_t n_by, GetByKeySize(input_keys));
+    size_t n_input = input_schema.size();
+    std::vector<std::vector<col_index_t>> indices_of_by_key(
+        n_input, std::vector<col_index_t>(n_by));
+    for (size_t i = 0; i < n_input; ++i) {
+      for (size_t k = 0; k < n_by; k++) {
+        const auto& by_key = input_keys[i].by_key;
+        ARROW_ASSIGN_OR_RAISE(indices_of_by_key[i][k],
+                              FindColIndex(*input_schema[i], by_key[k], "by"));
+      }
+    }
+    return indices_of_by_key;
+  }
+
   static arrow::Result<ExecNode*> Make(ExecPlan* plan, std::vector<ExecNode*> inputs,
                                        const ExecNodeOptions& options) {
     DCHECK_GE(inputs.size(), 2) << "Must have at least two inputs";
-
     const auto& join_options = checked_cast<const AsofJoinNodeOptions&>(options);
-    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Schema> output_schema,
-                          MakeOutputSchema(inputs, join_options));
-
-    std::vector<std::string> input_labels(inputs.size());
-    input_labels[0] = "left";
-    for (size_t i = 1; i < inputs.size(); ++i) {
-      input_labels[i] = "right_" + std::to_string(i);
+    ARROW_ASSIGN_OR_RAISE(size_t n_by, GetByKeySize(join_options.input_keys));
+    size_t n_input = inputs.size();
+    std::vector<std::string> input_labels(n_input);
+    std::vector<std::shared_ptr<Schema>> input_schema(n_input);
+    for (size_t i = 0; i < n_input; ++i) {
+      input_labels[i] = i == 0 ? "left" : "right_" + ToChars(i);
+      input_schema[i] = inputs[i]->output_schema();
     }
-
-    return plan->EmplaceNode<AsofJoinNode>(plan, inputs, std::move(input_labels),
-                                           join_options, std::move(output_schema));
+    ARROW_ASSIGN_OR_RAISE(std::vector<col_index_t> indices_of_on_key,
+                          GetIndicesOfOnKey(input_schema, join_options.input_keys));
+    ARROW_ASSIGN_OR_RAISE(std::vector<std::vector<col_index_t>> indices_of_by_key,
+                          GetIndicesOfByKey(input_schema, join_options.input_keys));
+    ARROW_ASSIGN_OR_RAISE(
+        std::shared_ptr<Schema> output_schema,
+        MakeOutputSchema(input_schema, indices_of_on_key, indices_of_by_key));
+
+    std::vector<std::unique_ptr<KeyHasher>> key_hashers;
+    for (size_t i = 0; i < n_input; i++) {
+      key_hashers.push_back(std::make_unique<KeyHasher>(indices_of_by_key[i]));
+    }
+    bool must_hash =
+        n_by > 1 ||
+        (n_by == 1 &&
+         !is_primitive(
+             inputs[0]->output_schema()->field(indices_of_by_key[0][0])->type()->id()));
+    bool may_rehash = n_by == 1 && !must_hash;
+    return plan->EmplaceNode<AsofJoinNode>(
+        plan, inputs, std::move(input_labels), std::move(indices_of_on_key),
+        std::move(indices_of_by_key), TolType(join_options.tolerance),
+        std::move(output_schema), std::move(key_hashers), must_hash, may_rehash);
   }
 
   const char* kind_name() const override { return "AsofJoinNode"; }
 
   void InputReceived(ExecNode* input, ExecBatch batch) override {
     // Get the input
-    ARROW_DCHECK(std::find(inputs_.begin(), inputs_.end(), input) != inputs_.end());
-    size_t k = std::find(inputs_.begin(), inputs_.end(), input) - inputs_.begin();
+    ARROW_DCHECK(std_has(inputs_, input));
+    size_t k = std_find(inputs_, input) - inputs_.begin();
 
     // Put into the queue
     auto rb = *batch.ToRecordBatch(input->output_schema());
-    state_.at(k)->Push(rb);
+    Status st = state_.at(k)->Push(rb);
+    if (!st.ok()) {
+      ErrorReceived(input, st);
+      return;
+    }
     process_.Push(true);
   }
   void ErrorReceived(ExecNode* input, Status error) override {
     outputs_[0]->ErrorReceived(this, std::move(error));
-    StopProducing();
   }
   void InputFinished(ExecNode* input, int total_batches) override {
     {
       std::lock_guard<std::mutex> guard(gate_);
-      ARROW_DCHECK(std::find(inputs_.begin(), inputs_.end(), input) != inputs_.end());
-      size_t k = std::find(inputs_.begin(), inputs_.end(), input) - inputs_.begin();
+      ARROW_DCHECK(std_has(inputs_, input));
+      size_t k = std_find(inputs_, input) - inputs_.begin();
       state_.at(k)->set_total_batches(total_batches);
     }
     // Trigger a process call
@@ -704,30 +1341,30 @@ class AsofJoinNode : public ExecNode {
     // finished.
     process_.Push(true);
   }
-  Status StartProducing() override {
-    finished_ = arrow::Future<>::Make();
-    return Status::OK();
-  }
+  Status StartProducing() override { return Status::OK(); }
   void PauseProducing(ExecNode* output, int32_t counter) override {}
   void ResumeProducing(ExecNode* output, int32_t counter) override {}
   void StopProducing(ExecNode* output) override {
     DCHECK_EQ(output, outputs_[0]);
     StopProducing();
   }
-  void StopProducing() override { finished_.MarkFinished(); }
+  void StopProducing() override {
+    process_.Clear();
+    process_.Push(false);
+  }
   arrow::Future<> finished() override { return finished_; }
 
  private:
-  static const std::set<std::shared_ptr<DataType>> kSupportedOnTypes_;
-  static const std::set<std::shared_ptr<DataType>> kSupportedByTypes_;
-  static const std::set<std::shared_ptr<DataType>> kSupportedDataTypes_;
-
-  arrow::Future<> finished_;
+  std::vector<col_index_t> indices_of_on_key_;
+  std::vector<std::vector<col_index_t>> indices_of_by_key_;
+  std::vector<std::unique_ptr<KeyHasher>> key_hashers_;
+  bool must_hash_;
+  bool may_rehash_;
   // InputStates
   // Each input state correponds to an input table
   std::vector<std::unique_ptr<InputState>> state_;
   std::mutex gate_;
-  AsofJoinNodeOptions options_;
+  TolType tolerance_;
 
   // Queue for triggering processing of a given input
   // (a false value is a poison pill)
@@ -741,29 +1378,22 @@ class AsofJoinNode : public ExecNode {
 
 AsofJoinNode::AsofJoinNode(ExecPlan* plan, NodeVector inputs,
                            std::vector<std::string> input_labels,
-                           const AsofJoinNodeOptions& join_options,
-                           std::shared_ptr<Schema> output_schema)
+                           const std::vector<col_index_t>& indices_of_on_key,
+                           const std::vector<std::vector<col_index_t>>& indices_of_by_key,
+                           TolType tolerance, std::shared_ptr<Schema> output_schema,
+                           std::vector<std::unique_ptr<KeyHasher>> key_hashers,
+                           bool must_hash, bool may_rehash)
     : ExecNode(plan, inputs, input_labels,
                /*output_schema=*/std::move(output_schema),
                /*num_outputs=*/1),
-      options_(join_options),
+      indices_of_on_key_(std::move(indices_of_on_key)),
+      indices_of_by_key_(std::move(indices_of_by_key)),
+      key_hashers_(std::move(key_hashers)),
+      must_hash_(must_hash),
+      may_rehash_(may_rehash),
+      tolerance_(tolerance),
       process_(),
-      process_thread_(&AsofJoinNode::ProcessThreadWrapper, this) {
-  for (size_t i = 0; i < inputs.size(); ++i)
-    state_.push_back(::arrow::internal::make_unique<InputState>(
-        inputs[i]->output_schema(), *options_.on_key.name(), *options_.by_key.name()));
-  col_index_t dst_offset = 0;
-  for (auto& state : state_)
-    dst_offset = state->InitSrcToDstMapping(dst_offset, !!dst_offset);
-
-  finished_ = arrow::Future<>::MakeFinished();
-}
-
-// Currently supported types
-const std::set<std::shared_ptr<DataType>> AsofJoinNode::kSupportedOnTypes_ = {int64()};
-const std::set<std::shared_ptr<DataType>> AsofJoinNode::kSupportedByTypes_ = {int32()};
-const std::set<std::shared_ptr<DataType>> AsofJoinNode::kSupportedDataTypes_ = {
-    int32(), int64(), float32(), float64()};
+      process_thread_(&AsofJoinNode::ProcessThreadWrapper, this) {}
 
 namespace internal {
 void RegisterAsofJoinNode(ExecFactoryRegistry* registry) {
@@ -771,5 +1401,20 @@ void RegisterAsofJoinNode(ExecFactoryRegistry* registry) {
 }
 }  // namespace internal
 
+namespace asofjoin {
+
+Result<std::shared_ptr<Schema>> MakeOutputSchema(
+    const std::vector<std::shared_ptr<Schema>>& input_schema,
+    const std::vector<AsofJoinKeys>& input_keys) {
+  ARROW_ASSIGN_OR_RAISE(std::vector<col_index_t> indices_of_on_key,
+                        AsofJoinNode::GetIndicesOfOnKey(input_schema, input_keys));
+  ARROW_ASSIGN_OR_RAISE(std::vector<std::vector<col_index_t>> indices_of_by_key,
+                        AsofJoinNode::GetIndicesOfByKey(input_schema, input_keys));
+  return AsofJoinNode::MakeOutputSchema(input_schema, indices_of_on_key,
+                                        indices_of_by_key);
+}
+
+}  // namespace asofjoin
+
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec/asof_join_node.h b/cpp/src/arrow/compute/exec/asof_join_node.h
new file mode 100644
index 00000000000..27777090d3d
--- /dev/null
+++ b/cpp/src/arrow/compute/exec/asof_join_node.h
@@ -0,0 +1,37 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include <vector>
+
+#include "arrow/compute/exec.h"
+#include "arrow/compute/exec/options.h"
+#include "arrow/type.h"
+#include "arrow/util/visibility.h"
+
+namespace arrow {
+namespace compute {
+namespace asofjoin {
+
+using AsofJoinKeys = AsofJoinNodeOptions::Keys;
+
+ARROW_EXPORT Result<std::shared_ptr<Schema>> MakeOutputSchema(
+    const std::vector<std::shared_ptr<Schema>>& input_schema,
+    const std::vector<AsofJoinKeys>& input_keys);
+
+}  // namespace asofjoin
+}  // namespace compute
+}  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec/asof_join_node_test.cc b/cpp/src/arrow/compute/exec/asof_join_node_test.cc
index 8b993764abe..6968aa03c9d 100644
--- a/cpp/src/arrow/compute/exec/asof_join_node_test.cc
+++ b/cpp/src/arrow/compute/exec/asof_join_node_test.cc
@@ -17,11 +17,15 @@
 
 #include <gmock/gmock-matchers.h>
 
+#include <chrono>
+#include <memory>
 #include <numeric>
 #include <random>
+#include <string_view>
 #include <unordered_set>
 
 #include "arrow/api.h"
+#include "arrow/compute/api_scalar.h"
 #include "arrow/compute/exec/options.h"
 #include "arrow/compute/exec/test_util.h"
 #include "arrow/compute/exec/util.h"
@@ -31,24 +35,203 @@
 #include "arrow/testing/matchers.h"
 #include "arrow/testing/random.h"
 #include "arrow/util/checked_cast.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/thread_pool.h"
 
+#define TRACED_TEST(t_class, t_name, t_body)  \
+  TEST(t_class, t_name) {                     \
+    ARROW_SCOPED_TRACE(#t_class "_" #t_name); \
+    t_body;                                   \
+  }
+
+#define TRACED_TEST_P(t_class, t_name, t_body)                              \
+  TEST_P(t_class, t_name) {                                                 \
+    ARROW_SCOPED_TRACE(#t_class "_" #t_name "_" + std::get<1>(GetParam())); \
+    t_body;                                                                 \
+  }
+
 using testing::UnorderedElementsAreArray;
 
 namespace arrow {
 namespace compute {
 
+bool is_temporal_primitive(Type::type type_id) {
+  switch (type_id) {
+    case Type::TIME32:
+    case Type::TIME64:
+    case Type::DATE32:
+    case Type::DATE64:
+    case Type::TIMESTAMP:
+      return true;
+    default:
+      return false;
+  }
+}
+
+Result<BatchesWithSchema> MakeBatchesFromNumString(
+    const std::shared_ptr<Schema>& schema,
+    const std::vector<std::string_view>& json_strings, int multiplicity = 1) {
+  FieldVector num_fields;
+  for (auto field : schema->fields()) {
+    auto id = field->type()->id();
+    bool adjust = id == Type::BOOL || is_base_binary_like(id);
+    num_fields.push_back(adjust ? field->WithType(int64()) : field);
+  }
+  auto num_schema =
+      std::make_shared<Schema>(num_fields, schema->endianness(), schema->metadata());
+  BatchesWithSchema num_batches =
+      MakeBatchesFromString(num_schema, json_strings, multiplicity);
+  BatchesWithSchema batches;
+  batches.schema = schema;
+  int n_fields = schema->num_fields();
+  for (auto num_batch : num_batches.batches) {
+    Datum two(Int32Scalar(2));
+    std::vector<Datum> values;
+    for (int i = 0; i < n_fields; i++) {
+      auto type = schema->field(i)->type();
+      if (is_base_binary_like(type->id())) {
+        // casting to string first enables casting to binary
+        ARROW_ASSIGN_OR_RAISE(Datum as_string, Cast(num_batch.values[i], utf8()));
+        ARROW_ASSIGN_OR_RAISE(Datum as_type, Cast(as_string, type));
+        values.push_back(as_type);
+      } else if (Type::BOOL == type->id()) {
+        // the next 4 lines compute `as_bool` as `(bool)(x - 2*(x/2))`, i.e., the low bit
+        // of `x`. Here, `x` stands for `num_batch.values[i]`, which is an `int64` value.
+        // Taking the low bit is a somewhat arbitrary way of obtaining both `true` and
+        // `false` values from the `int64` values in the test data, in order to get good
+        // testing coverage. A simple cast to a Boolean value would not get good coverage
+        // because all positive values would be cast to `true`.
+        ARROW_ASSIGN_OR_RAISE(Datum div_two, Divide(num_batch.values[i], two));
+        ARROW_ASSIGN_OR_RAISE(Datum rounded, Multiply(div_two, two));
+        ARROW_ASSIGN_OR_RAISE(Datum low_bit, Subtract(num_batch.values[i], rounded));
+        ARROW_ASSIGN_OR_RAISE(Datum as_bool, Cast(low_bit, type));
+        values.push_back(as_bool);
+      } else {
+        values.push_back(num_batch.values[i]);
+      }
+    }
+    ExecBatch batch(values, num_batch.length);
+    batches.batches.push_back(batch);
+  }
+  return batches;
+}
+
+void BuildNullArray(std::shared_ptr<Array>& empty, const std::shared_ptr<DataType>& type,
+                    int64_t length) {
+  ASSERT_OK_AND_ASSIGN(auto builder, MakeBuilder(type, default_memory_pool()));
+  ASSERT_OK(builder->Reserve(length));
+  ASSERT_OK(builder->AppendNulls(length));
+  ASSERT_OK(builder->Finish(&empty));
+}
+
+void BuildZeroPrimitiveArray(std::shared_ptr<Array>& empty,
+                             const std::shared_ptr<DataType>& type, int64_t length) {
+  ASSERT_OK_AND_ASSIGN(auto builder, MakeBuilder(type, default_memory_pool()));
+  ASSERT_OK(builder->Reserve(length));
+  ASSERT_OK_AND_ASSIGN(auto scalar, MakeScalar(type, 0));
+  ASSERT_OK(builder->AppendScalar(*scalar, length));
+  ASSERT_OK(builder->Finish(&empty));
+}
+
+template <typename Builder>
+void BuildZeroBaseBinaryArray(std::shared_ptr<Array>& empty, int64_t length) {
+  Builder builder(default_memory_pool());
+  ASSERT_OK(builder.Reserve(length));
+  for (int64_t i = 0; i < length; i++) {
+    ASSERT_OK(builder.Append("0", /*length=*/1));
+  }
+  ASSERT_OK(builder.Finish(&empty));
+}
+
+AsofJoinNodeOptions GetRepeatedOptions(size_t repeat, FieldRef on_key,
+                                       std::vector<FieldRef> by_key, int64_t tolerance) {
+  std::vector<AsofJoinNodeOptions::Keys> input_keys(repeat);
+  for (size_t i = 0; i < repeat; i++) {
+    input_keys[i] = {on_key, by_key};
+  }
+  return AsofJoinNodeOptions(input_keys, tolerance);
+}
+
+// mutates by copying from_key into to_key and changing from_key to zero
+Result<BatchesWithSchema> MutateByKey(BatchesWithSchema& batches, std::string from_key,
+                                      std::string to_key, bool replace_key = false,
+                                      bool null_key = false, bool remove_key = false) {
+  int from_index = batches.schema->GetFieldIndex(from_key);
+  int n_fields = batches.schema->num_fields();
+  auto fields = batches.schema->fields();
+  BatchesWithSchema new_batches;
+  if (remove_key) {
+    ARROW_ASSIGN_OR_RAISE(new_batches.schema, batches.schema->RemoveField(from_index));
+  } else {
+    auto new_field = batches.schema->field(from_index)->WithName(to_key);
+    ARROW_ASSIGN_OR_RAISE(new_batches.schema,
+                          replace_key ? batches.schema->SetField(from_index, new_field)
+                                      : batches.schema->AddField(from_index, new_field));
+  }
+  for (const ExecBatch& batch : batches.batches) {
+    std::vector<Datum> new_values;
+    for (int i = 0; i < n_fields; i++) {
+      const Datum& value = batch.values[i];
+      if (i == from_index) {
+        if (remove_key) {
+          continue;
+        }
+        auto type = fields[i]->type();
+        if (null_key) {
+          std::shared_ptr<Array> empty;
+          BuildNullArray(empty, type, batch.length);
+          new_values.push_back(empty);
+        } else if (is_primitive(type->id())) {
+          std::shared_ptr<Array> empty;
+          BuildZeroPrimitiveArray(empty, type, batch.length);
+          new_values.push_back(empty);
+        } else if (is_base_binary_like(type->id())) {
+          std::shared_ptr<Array> empty;
+          switch (type->id()) {
+            case Type::STRING:
+              BuildZeroBaseBinaryArray<StringBuilder>(empty, batch.length);
+              break;
+            case Type::LARGE_STRING:
+              BuildZeroBaseBinaryArray<LargeStringBuilder>(empty, batch.length);
+              break;
+            case Type::BINARY:
+              BuildZeroBaseBinaryArray<BinaryBuilder>(empty, batch.length);
+              break;
+            case Type::LARGE_BINARY:
+              BuildZeroBaseBinaryArray<LargeBinaryBuilder>(empty, batch.length);
+              break;
+            default:
+              DCHECK(false);
+              break;
+          }
+          new_values.push_back(empty);
+        } else {
+          ARROW_ASSIGN_OR_RAISE(auto sub, Subtract(value, value));
+          new_values.push_back(sub);
+        }
+        if (replace_key) {
+          continue;
+        }
+      }
+      new_values.push_back(value);
+    }
+    new_batches.batches.emplace_back(new_values, batch.length);
+  }
+  return new_batches;
+}
+
+// code generation for the by_key types supported by AsofJoinNodeOptions constructors
+// which cannot be directly done using templates because of failure to deduce the template
+// argument for an invocation with a string- or initializer_list-typed keys-argument
+#define EXPAND_BY_KEY_TYPE(macro) \
+  macro(const FieldRef);          \
+  macro(std::vector<FieldRef>);   \
+  macro(std::initializer_list<FieldRef>);
+
 void CheckRunOutput(const BatchesWithSchema& l_batches,
                     const BatchesWithSchema& r0_batches,
                     const BatchesWithSchema& r1_batches,
-                    const BatchesWithSchema& exp_batches, const FieldRef time,
-                    const FieldRef keys, const int64_t tolerance) {
-  auto exec_ctx =
-      arrow::internal::make_unique<ExecContext>(default_memory_pool(), nullptr);
-  ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(exec_ctx.get()));
-
-  AsofJoinNodeOptions join_options(time, keys, tolerance);
+                    const BatchesWithSchema& exp_batches,
+                    const AsofJoinNodeOptions join_options) {
   Declaration join{"asofjoin", join_options};
 
   join.inputs.emplace_back(Declaration{
@@ -58,253 +241,1027 @@ void CheckRunOutput(const BatchesWithSchema& l_batches,
   join.inputs.emplace_back(Declaration{
       "source", SourceNodeOptions{r1_batches.schema, r1_batches.gen(false, false)}});
 
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-
-  ASSERT_OK(Declaration::Sequence({join, {"sink", SinkNodeOptions{&sink_gen}}})
-                .AddToPlan(plan.get()));
-
-  ASSERT_FINISHES_OK_AND_ASSIGN(auto res, StartAndCollect(plan.get(), sink_gen));
+  ASSERT_OK_AND_ASSIGN(auto res_table,
+                       DeclarationToTable(std::move(join), /*use_threads=*/false));
 
   ASSERT_OK_AND_ASSIGN(auto exp_table,
                        TableFromExecBatches(exp_batches.schema, exp_batches.batches));
 
-  ASSERT_OK_AND_ASSIGN(auto res_table, TableFromExecBatches(exp_batches.schema, res));
-
   AssertTablesEqual(*exp_table, *res_table,
                     /*same_chunk_layout=*/true, /*flatten=*/true);
 }
 
-void DoRunBasicTest(const std::vector<util::string_view>& l_data,
-                    const std::vector<util::string_view>& r0_data,
-                    const std::vector<util::string_view>& r1_data,
-                    const std::vector<util::string_view>& exp_data, int64_t tolerance) {
-  auto l_schema =
-      schema({field("time", int64()), field("key", int32()), field("l_v0", float64())});
-  auto r0_schema =
-      schema({field("time", int64()), field("key", int32()), field("r0_v0", float64())});
-  auto r1_schema =
-      schema({field("time", int64()), field("key", int32()), field("r1_v0", float32())});
-
-  auto exp_schema = schema({
-      field("time", int64()),
-      field("key", int32()),
-      field("l_v0", float64()),
-      field("r0_v0", float64()),
-      field("r1_v0", float32()),
-  });
-
-  // Test three table join
-  BatchesWithSchema l_batches, r0_batches, r1_batches, exp_batches;
-  l_batches = MakeBatchesFromString(l_schema, l_data);
-  r0_batches = MakeBatchesFromString(r0_schema, r0_data);
-  r1_batches = MakeBatchesFromString(r1_schema, r1_data);
-  exp_batches = MakeBatchesFromString(exp_schema, exp_data);
-  CheckRunOutput(l_batches, r0_batches, r1_batches, exp_batches, "time", "key",
-                 tolerance);
-}
+#define CHECK_RUN_OUTPUT(by_key_type)                                            \
+  void CheckRunOutput(                                                           \
+      const BatchesWithSchema& l_batches, const BatchesWithSchema& r0_batches,   \
+      const BatchesWithSchema& r1_batches, const BatchesWithSchema& exp_batches, \
+      const FieldRef time, by_key_type key, const int64_t tolerance) {           \
+    CheckRunOutput(l_batches, r0_batches, r1_batches, exp_batches,               \
+                   GetRepeatedOptions(3, time, {key}, tolerance));               \
+  }
 
-void DoRunInvalidTypeTest(const std::shared_ptr<Schema>& l_schema,
-                          const std::shared_ptr<Schema>& r_schema) {
-  BatchesWithSchema l_batches = MakeBatchesFromString(l_schema, {R"([])"});
-  BatchesWithSchema r_batches = MakeBatchesFromString(r_schema, {R"([])"});
+EXPAND_BY_KEY_TYPE(CHECK_RUN_OUTPUT)
 
-  ExecContext exec_ctx;
-  ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(&exec_ctx));
+void DoInvalidPlanTest(const BatchesWithSchema& l_batches,
+                       const BatchesWithSchema& r_batches,
+                       const AsofJoinNodeOptions& join_options,
+                       const std::string& expected_error_str,
+                       bool fail_on_plan_creation = false) {
+  ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(*threaded_exec_context()));
 
-  AsofJoinNodeOptions join_options("time", "key", 0);
   Declaration join{"asofjoin", join_options};
   join.inputs.emplace_back(Declaration{
       "source", SourceNodeOptions{l_batches.schema, l_batches.gen(false, false)}});
   join.inputs.emplace_back(Declaration{
       "source", SourceNodeOptions{r_batches.schema, r_batches.gen(false, false)}});
 
-  ASSERT_RAISES(Invalid, join.AddToPlan(plan.get()));
+  if (fail_on_plan_creation) {
+    AsyncGenerator<std::optional<ExecBatch>> sink_gen;
+    ASSERT_OK(Declaration::Sequence({join, {"sink", SinkNodeOptions{&sink_gen}}})
+                  .AddToPlan(plan.get()));
+    EXPECT_FINISHES_AND_RAISES_WITH_MESSAGE_THAT(Invalid,
+                                                 ::testing::HasSubstr(expected_error_str),
+                                                 StartAndCollect(plan.get(), sink_gen));
+  } else {
+    EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid, ::testing::HasSubstr(expected_error_str),
+                                    join.AddToPlan(plan.get()));
+  }
+}
+
+void DoRunInvalidPlanTest(const BatchesWithSchema& l_batches,
+                          const BatchesWithSchema& r_batches,
+                          const AsofJoinNodeOptions& join_options,
+                          const std::string& expected_error_str) {
+  DoInvalidPlanTest(l_batches, r_batches, join_options, expected_error_str);
+}
+
+void DoRunInvalidPlanTest(const std::shared_ptr<Schema>& l_schema,
+                          const std::shared_ptr<Schema>& r_schema,
+                          const AsofJoinNodeOptions& join_options,
+                          const std::string& expected_error_str) {
+  ASSERT_OK_AND_ASSIGN(auto l_batches, MakeBatchesFromNumString(l_schema, {R"([])"}));
+  ASSERT_OK_AND_ASSIGN(auto r_batches, MakeBatchesFromNumString(r_schema, {R"([])"}));
+
+  return DoRunInvalidPlanTest(l_batches, r_batches, join_options, expected_error_str);
+}
+
+void DoRunInvalidPlanTest(const std::shared_ptr<Schema>& l_schema,
+                          const std::shared_ptr<Schema>& r_schema, int64_t tolerance,
+                          const std::string& expected_error_str) {
+  DoRunInvalidPlanTest(l_schema, r_schema,
+                       GetRepeatedOptions(2, "time", {"key"}, tolerance),
+                       expected_error_str);
+}
+
+void DoRunInvalidTypeTest(const std::shared_ptr<Schema>& l_schema,
+                          const std::shared_ptr<Schema>& r_schema) {
+  DoRunInvalidPlanTest(l_schema, r_schema, 0, "Unsupported type for ");
+}
+
+void DoRunMissingKeysTest(const std::shared_ptr<Schema>& l_schema,
+                          const std::shared_ptr<Schema>& r_schema) {
+  DoRunInvalidPlanTest(l_schema, r_schema, 0, "Bad join key on table : No match");
+}
+
+void DoRunMissingOnKeyTest(const std::shared_ptr<Schema>& l_schema,
+                           const std::shared_ptr<Schema>& r_schema) {
+  DoRunInvalidPlanTest(l_schema, r_schema,
+                       GetRepeatedOptions(2, "invalid_time", {"key"}, 0),
+                       "Bad join key on table : No match");
+}
+
+void DoRunMissingByKeyTest(const std::shared_ptr<Schema>& l_schema,
+                           const std::shared_ptr<Schema>& r_schema) {
+  DoRunInvalidPlanTest(l_schema, r_schema,
+                       GetRepeatedOptions(2, "time", {"invalid_key"}, 0),
+                       "Bad join key on table : No match");
 }
 
+void DoRunNestedOnKeyTest(const std::shared_ptr<Schema>& l_schema,
+                          const std::shared_ptr<Schema>& r_schema) {
+  DoRunInvalidPlanTest(l_schema, r_schema, GetRepeatedOptions(2, {0, "time"}, {"key"}, 0),
+                       "Bad join key on table : No match");
+}
+
+void DoRunNestedByKeyTest(const std::shared_ptr<Schema>& l_schema,
+                          const std::shared_ptr<Schema>& r_schema) {
+  DoRunInvalidPlanTest(l_schema, r_schema,
+                       GetRepeatedOptions(2, "time", {FieldRef{0, 1}}, 0),
+                       "Bad join key on table : No match");
+}
+
+void DoRunAmbiguousOnKeyTest(const std::shared_ptr<Schema>& l_schema,
+                             const std::shared_ptr<Schema>& r_schema) {
+  DoRunInvalidPlanTest(l_schema, r_schema, 0, "Bad join key on table : Multiple matches");
+}
+
+void DoRunAmbiguousByKeyTest(const std::shared_ptr<Schema>& l_schema,
+                             const std::shared_ptr<Schema>& r_schema) {
+  DoRunInvalidPlanTest(l_schema, r_schema, 0, "Bad join key on table : Multiple matches");
+}
+
+// Gets a batch for testing as a Json string
+// The batch will have n_rows rows n_cols columns, the first column being the on-field
+// If unordered is true then the first column will be out-of-order
+std::string GetTestBatchAsJsonString(int n_rows, int n_cols, bool unordered = false) {
+  int order_mask = unordered ? 1 : 0;
+  std::stringstream s;
+  s << '[';
+  for (int i = 0; i < n_rows; i++) {
+    if (i > 0) {
+      s << ", ";
+    }
+    s << '[';
+    for (int j = 0; j < n_cols; j++) {
+      if (j > 0) {
+        s << ", " << j;
+      } else if (j < 2) {
+        s << (i ^ order_mask);
+      } else {
+        s << i;
+      }
+    }
+    s << ']';
+  }
+  s << ']';
+  return s.str();
+}
+
+void DoRunUnorderedPlanTest(bool l_unordered, bool r_unordered,
+                            const std::shared_ptr<Schema>& l_schema,
+                            const std::shared_ptr<Schema>& r_schema,
+                            const AsofJoinNodeOptions& join_options,
+                            const std::string& expected_error_str) {
+  ASSERT_TRUE(l_unordered || r_unordered);
+  int n_rows = 5;
+  auto l_str = GetTestBatchAsJsonString(n_rows, l_schema->num_fields(), l_unordered);
+  auto r_str = GetTestBatchAsJsonString(n_rows, r_schema->num_fields(), r_unordered);
+  ASSERT_OK_AND_ASSIGN(auto l_batches, MakeBatchesFromNumString(l_schema, {l_str}));
+  ASSERT_OK_AND_ASSIGN(auto r_batches, MakeBatchesFromNumString(r_schema, {r_str}));
+
+  return DoInvalidPlanTest(l_batches, r_batches, join_options, expected_error_str,
+                           /*then_run_plan=*/true);
+}
+
+void DoRunUnorderedPlanTest(bool l_unordered, bool r_unordered,
+                            const std::shared_ptr<Schema>& l_schema,
+                            const std::shared_ptr<Schema>& r_schema) {
+  DoRunUnorderedPlanTest(l_unordered, r_unordered, l_schema, r_schema,
+                         GetRepeatedOptions(2, "time", {"key"}, 1000),
+                         "out-of-order on-key values");
+}
+
+struct BasicTestTypes {
+  std::shared_ptr<DataType> time, key, l_val, r0_val, r1_val;
+};
+
+struct BasicTest {
+  BasicTest(const std::vector<std::string_view>& l_data,
+            const std::vector<std::string_view>& r0_data,
+            const std::vector<std::string_view>& r1_data,
+            const std::vector<std::string_view>& exp_nokey_data,
+            const std::vector<std::string_view>& exp_emptykey_data,
+            const std::vector<std::string_view>& exp_data, int64_t tolerance)
+      : l_data(std::move(l_data)),
+        r0_data(std::move(r0_data)),
+        r1_data(std::move(r1_data)),
+        exp_nokey_data(std::move(exp_nokey_data)),
+        exp_emptykey_data(std::move(exp_emptykey_data)),
+        exp_data(std::move(exp_data)),
+        tolerance(tolerance) {}
+
+  static inline void check_init(const std::vector<std::shared_ptr<DataType>>& types) {
+    ASSERT_NE(0, types.size());
+  }
+
+  template <typename TypeCond>
+  static inline std::vector<std::shared_ptr<DataType>> init_types(
+      const std::vector<std::shared_ptr<DataType>>& all_types, TypeCond type_cond) {
+    std::vector<std::shared_ptr<DataType>> types;
+    for (auto type : all_types) {
+      if (type_cond(type)) {
+        types.push_back(type);
+      }
+    }
+    check_init(types);
+    return types;
+  }
+
+  void RunSingleByKey() {
+    using B = BatchesWithSchema;
+    RunBatches([this](B l_batches, B r0_batches, B r1_batches, B exp_nokey_batches,
+                      B exp_emptykey_batches, B exp_batches) {
+      CheckRunOutput(l_batches, r0_batches, r1_batches, exp_batches, "time", "key",
+                     tolerance);
+    });
+  }
+  static void DoSingleByKey(BasicTest& basic_tests) { basic_tests.RunSingleByKey(); }
+  void RunDoubleByKey() {
+    using B = BatchesWithSchema;
+    RunBatches([this](B l_batches, B r0_batches, B r1_batches, B exp_nokey_batches,
+                      B exp_emptykey_batches, B exp_batches) {
+      CheckRunOutput(l_batches, r0_batches, r1_batches, exp_batches, "time",
+                     {"key", "key"}, tolerance);
+    });
+  }
+  static void DoDoubleByKey(BasicTest& basic_tests) { basic_tests.RunDoubleByKey(); }
+  void RunMutateByKey() {
+    using B = BatchesWithSchema;
+    RunBatches([this](B l_batches, B r0_batches, B r1_batches, B exp_nokey_batches,
+                      B exp_emptykey_batches, B exp_batches) {
+      ASSERT_OK_AND_ASSIGN(l_batches, MutateByKey(l_batches, "key", "key2"));
+      ASSERT_OK_AND_ASSIGN(r0_batches, MutateByKey(r0_batches, "key", "key2"));
+      ASSERT_OK_AND_ASSIGN(r1_batches, MutateByKey(r1_batches, "key", "key2"));
+      ASSERT_OK_AND_ASSIGN(exp_batches, MutateByKey(exp_batches, "key", "key2"));
+      CheckRunOutput(l_batches, r0_batches, r1_batches, exp_batches, "time",
+                     {"key", "key2"}, tolerance);
+    });
+  }
+  static void DoMutateByKey(BasicTest& basic_tests) { basic_tests.RunMutateByKey(); }
+  void RunMutateNoKey() {
+    using B = BatchesWithSchema;
+    RunBatches([this](B l_batches, B r0_batches, B r1_batches, B exp_nokey_batches,
+                      B exp_emptykey_batches, B exp_batches) {
+      ASSERT_OK_AND_ASSIGN(l_batches, MutateByKey(l_batches, "key", "key2", true));
+      ASSERT_OK_AND_ASSIGN(r0_batches, MutateByKey(r0_batches, "key", "key2", true));
+      ASSERT_OK_AND_ASSIGN(r1_batches, MutateByKey(r1_batches, "key", "key2", true));
+      ASSERT_OK_AND_ASSIGN(exp_nokey_batches,
+                           MutateByKey(exp_nokey_batches, "key", "key2", true));
+      CheckRunOutput(l_batches, r0_batches, r1_batches, exp_nokey_batches, "time", "key2",
+                     tolerance);
+    });
+  }
+  static void DoMutateNoKey(BasicTest& basic_tests) { basic_tests.RunMutateNoKey(); }
+  void RunMutateNullKey() {
+    using B = BatchesWithSchema;
+    RunBatches([this](B l_batches, B r0_batches, B r1_batches, B exp_nokey_batches,
+                      B exp_emptykey_batches, B exp_batches) {
+      ASSERT_OK_AND_ASSIGN(l_batches, MutateByKey(l_batches, "key", "key2", true, true));
+      ASSERT_OK_AND_ASSIGN(r0_batches,
+                           MutateByKey(r0_batches, "key", "key2", true, true));
+      ASSERT_OK_AND_ASSIGN(r1_batches,
+                           MutateByKey(r1_batches, "key", "key2", true, true));
+      ASSERT_OK_AND_ASSIGN(exp_nokey_batches,
+                           MutateByKey(exp_nokey_batches, "key", "key2", true, true));
+      CheckRunOutput(l_batches, r0_batches, r1_batches, exp_nokey_batches,
+                     GetRepeatedOptions(3, "time", {"key2"}, tolerance));
+    });
+  }
+  static void DoMutateNullKey(BasicTest& basic_tests) { basic_tests.RunMutateNullKey(); }
+  void RunMutateEmptyKey() {
+    using B = BatchesWithSchema;
+    RunBatches([this](B l_batches, B r0_batches, B r1_batches, B exp_nokey_batches,
+                      B exp_emptykey_batches, B exp_batches) {
+      ASSERT_OK_AND_ASSIGN(r0_batches,
+                           MutateByKey(r0_batches, "key", "key", false, false, true));
+      ASSERT_OK_AND_ASSIGN(r1_batches,
+                           MutateByKey(r1_batches, "key", "key", false, false, true));
+      CheckRunOutput(l_batches, r0_batches, r1_batches, exp_emptykey_batches,
+                     GetRepeatedOptions(3, "time", {}, tolerance));
+    });
+  }
+  static void DoMutateEmptyKey(BasicTest& basic_tests) {
+    basic_tests.RunMutateEmptyKey();
+  }
+  template <typename BatchesRunner>
+  void RunBatches(BatchesRunner batches_runner) {
+    std::vector<std::shared_ptr<DataType>> all_types = {
+        utf8(),
+        large_utf8(),
+        binary(),
+        large_binary(),
+        boolean(),
+        int8(),
+        int16(),
+        int32(),
+        int64(),
+        uint8(),
+        uint16(),
+        uint32(),
+        uint64(),
+        date32(),
+        date64(),
+        time32(TimeUnit::MILLI),
+        time32(TimeUnit::SECOND),
+        time64(TimeUnit::NANO),
+        time64(TimeUnit::MICRO),
+        timestamp(TimeUnit::NANO, "UTC"),
+        timestamp(TimeUnit::MICRO, "UTC"),
+        timestamp(TimeUnit::MILLI, "UTC"),
+        timestamp(TimeUnit::SECOND, "UTC"),
+        float32(),
+        float64()};
+    using T = const std::shared_ptr<DataType>;
+    // byte_width > 1 below allows fitting the tested data
+    auto time_types = init_types(
+        all_types, [](T& t) { return t->byte_width() > 1 && !is_floating(t->id()); });
+    auto key_types = init_types(
+        all_types, [](T& t) { return !is_floating(t->id()) && t->id() != Type::BOOL; });
+    auto l_types = init_types(all_types, [](T& t) { return true; });
+    auto r0_types = init_types(all_types, [](T& t) { return t->byte_width() > 1; });
+    auto r1_types = init_types(all_types, [](T& t) { return t->byte_width() > 1; });
+
+    // sample a limited number of type-combinations to keep the runnning time reasonable
+    // the scoped-traces below help reproduce a test failure, should it happen
+    auto start_time = std::chrono::system_clock::now();
+    auto seed = start_time.time_since_epoch().count();
+    ARROW_SCOPED_TRACE("Types seed: ", seed);
+    std::default_random_engine engine(static_cast<unsigned int>(seed));
+    std::uniform_int_distribution<size_t> time_distribution(0, time_types.size() - 1);
+    std::uniform_int_distribution<size_t> key_distribution(0, key_types.size() - 1);
+    std::uniform_int_distribution<size_t> l_distribution(0, l_types.size() - 1);
+    std::uniform_int_distribution<size_t> r0_distribution(0, r0_types.size() - 1);
+    std::uniform_int_distribution<size_t> r1_distribution(0, r1_types.size() - 1);
+
+    for (int i = 0; i < 100; i++) {
+      auto time_type = time_types[time_distribution(engine)];
+      ARROW_SCOPED_TRACE("Time type: ", *time_type);
+      auto key_type = key_types[key_distribution(engine)];
+      ARROW_SCOPED_TRACE("Key type: ", *key_type);
+      auto l_type = l_types[l_distribution(engine)];
+      ARROW_SCOPED_TRACE("Left type: ", *l_type);
+      auto r0_type = r0_types[r0_distribution(engine)];
+      ARROW_SCOPED_TRACE("Right-0 type: ", *r0_type);
+      auto r1_type = r1_types[r1_distribution(engine)];
+      ARROW_SCOPED_TRACE("Right-1 type: ", *r1_type);
+
+      RunTypes({time_type, key_type, l_type, r0_type, r1_type}, batches_runner);
+
+      auto end_time = std::chrono::system_clock::now();
+      std::chrono::duration<double> diff = end_time - start_time;
+      if (diff.count() > 0.2) {
+        break;
+      }
+    }
+  }
+  template <typename BatchesRunner>
+  void RunTypes(BasicTestTypes basic_test_types, BatchesRunner batches_runner) {
+    const BasicTestTypes& b = basic_test_types;
+    auto l_schema =
+        schema({field("time", b.time), field("key", b.key), field("l_v0", b.l_val)});
+    auto r0_schema =
+        schema({field("time", b.time), field("key", b.key), field("r0_v0", b.r0_val)});
+    auto r1_schema =
+        schema({field("time", b.time), field("key", b.key), field("r1_v0", b.r1_val)});
+
+    auto exp_schema = schema({
+        field("time", b.time),
+        field("key", b.key),
+        field("l_v0", b.l_val),
+        field("r0_v0", b.r0_val),
+        field("r1_v0", b.r1_val),
+    });
+
+    // Test three table join
+    ASSERT_OK_AND_ASSIGN(auto l_batches, MakeBatchesFromNumString(l_schema, l_data));
+    ASSERT_OK_AND_ASSIGN(auto r0_batches, MakeBatchesFromNumString(r0_schema, r0_data));
+    ASSERT_OK_AND_ASSIGN(auto r1_batches, MakeBatchesFromNumString(r1_schema, r1_data));
+    ASSERT_OK_AND_ASSIGN(auto exp_nokey_batches,
+                         MakeBatchesFromNumString(exp_schema, exp_nokey_data));
+    ASSERT_OK_AND_ASSIGN(auto exp_emptykey_batches,
+                         MakeBatchesFromNumString(exp_schema, exp_emptykey_data));
+    ASSERT_OK_AND_ASSIGN(auto exp_batches,
+                         MakeBatchesFromNumString(exp_schema, exp_data));
+    batches_runner(l_batches, r0_batches, r1_batches, exp_nokey_batches,
+                   exp_emptykey_batches, exp_batches);
+  }
+
+  std::vector<std::string_view> l_data;
+  std::vector<std::string_view> r0_data;
+  std::vector<std::string_view> r1_data;
+  std::vector<std::string_view> exp_nokey_data;
+  std::vector<std::string_view> exp_emptykey_data;
+  std::vector<std::string_view> exp_data;
+  int64_t tolerance;
+};
+
+using AsofJoinBasicParams = std::tuple<std::function<void(BasicTest&)>, std::string>;
+
+void PrintTo(const AsofJoinBasicParams& x, ::std::ostream* os) {
+  *os << "AsofJoinBasicParams: " << std::get<1>(x);
+}
+
+struct AsofJoinBasicTest : public testing::TestWithParam<AsofJoinBasicParams> {};
+
 class AsofJoinTest : public testing::Test {};
 
-TEST(AsofJoinTest, TestBasic1) {
+BasicTest GetBasicTest1() {
+  // Single key, single batch
+  return BasicTest(
+      /*l*/ {R"([[0, 1, 1], [1000, 1, 2]])"},
+      /*r0*/ {R"([[0, 1, 11]])"},
+      /*r1*/ {R"([[1000, 1, 101]])"},
+      /*exp_nokey*/ {R"([[0, 0, 1, 11, null], [1000, 0, 2, 11, 101]])"},
+      /*exp_emptykey*/ {R"([[0, 1, 1, 11, null], [1000, 1, 2, 11, 101]])"},
+      /*exp*/ {R"([[0, 1, 1, 11, null], [1000, 1, 2, 11, 101]])"}, 1000);
+}
+
+TRACED_TEST_P(AsofJoinBasicTest, TestBasic1, {
+  BasicTest basic_test = GetBasicTest1();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetBasicTest1Negative() {
   // Single key, single batch
-  DoRunBasicTest(
-      /*l*/ {R"([[0, 1, 1.0], [1000, 1, 2.0]])"},
-      /*r0*/ {R"([[0, 1, 11.0]])"},
-      /*r1*/ {R"([[1000, 1, 101.0]])"},
-      /*exp*/ {R"([[0, 1, 1.0, 11.0, null], [1000, 1, 2.0, 11.0, 101.0]])"}, 1000);
+  return BasicTest(
+      /*l*/ {R"([[0, 1, 1], [1000, 1, 2]])"},
+      /*r0*/ {R"([[1000, 1, 11]])"},
+      /*r1*/ {R"([[2000, 1, 101]])"},
+      /*exp_nokey*/ {R"([[0, 0, 1, 11, null], [1000, 0, 2, 11, 101]])"},
+      /*exp_emptykey*/ {R"([[0, 1, 1, 11, null], [1000, 1, 2, 11, 101]])"},
+      /*exp*/ {R"([[0, 1, 1, 11, null], [1000, 1, 2, 11, 101]])"}, -1000);
 }
 
-TEST(AsofJoinTest, TestBasic2) {
+TRACED_TEST_P(AsofJoinBasicTest, TestBasic1Negative, {
+  BasicTest basic_test = GetBasicTest1Negative();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetBasicTest2() {
   // Single key, multiple batches
-  DoRunBasicTest(
-      /*l*/ {R"([[0, 1, 1.0]])", R"([[1000, 1, 2.0]])"},
-      /*r0*/ {R"([[0, 1, 11.0]])", R"([[1000, 1, 12.0]])"},
-      /*r1*/ {R"([[0, 1, 101.0]])", R"([[1000, 1, 102.0]])"},
-      /*exp*/ {R"([[0, 1, 1.0, 11.0, 101.0], [1000, 1, 2.0, 12.0, 102.0]])"}, 1000);
+  return BasicTest(
+      /*l*/ {R"([[0, 1, 1]])", R"([[1000, 1, 2]])"},
+      /*r0*/ {R"([[0, 1, 11]])", R"([[1000, 1, 12]])"},
+      /*r1*/ {R"([[0, 1, 101]])", R"([[1000, 1, 102]])"},
+      /*exp_nokey*/ {R"([[0, 0, 1, 11, 101], [1000, 0, 2, 12, 102]])"},
+      /*exp_emptykey*/ {R"([[0, 1, 1, 11, 101], [1000, 1, 2, 12, 102]])"},
+      /*exp*/ {R"([[0, 1, 1, 11, 101], [1000, 1, 2, 12, 102]])"}, 1000);
 }
 
-TEST(AsofJoinTest, TestBasic3) {
+TRACED_TEST_P(AsofJoinBasicTest, TestBasic2, {
+  BasicTest basic_test = GetBasicTest2();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetBasicTest2Negative() {
+  // Single key, multiple batches
+  return BasicTest(
+      /*l*/ {R"([[0, 1, 1]])", R"([[1000, 1, 2]])"},
+      /*r0*/ {R"([[500, 1, 11]])", R"([[1000, 1, 12]])"},
+      /*r1*/ {R"([[500, 1, 101]])", R"([[1000, 1, 102]])"},
+      /*exp_nokey*/ {R"([[0, 0, 1, 11, 101], [1000, 0, 2, 12, 102]])"},
+      /*exp_emptykey*/ {R"([[0, 1, 1, 11, 101], [1000, 1, 2, 12, 102]])"},
+      /*exp*/ {R"([[0, 1, 1, 11, 101], [1000, 1, 2, 12, 102]])"}, -1000);
+}
+
+TRACED_TEST_P(AsofJoinBasicTest, TestBasic2Negative, {
+  BasicTest basic_test = GetBasicTest2Negative();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetBasicTest3() {
+  // Single key, multiple left batches, single right batches
+  return BasicTest(
+      /*l*/ {R"([[0, 1, 1]])", R"([[1000, 1, 2]])"},
+      /*r0*/ {R"([[0, 1, 11], [1000, 1, 12]])"},
+      /*r1*/ {R"([[0, 1, 101], [1000, 1, 102]])"},
+      /*exp_nokey*/ {R"([[0, 0, 1, 11, 101], [1000, 0, 2, 12, 102]])"},
+      /*exp_emptykey*/ {R"([[0, 1, 1, 11, 101], [1000, 1, 2, 12, 102]])"},
+      /*exp*/ {R"([[0, 1, 1, 11, 101], [1000, 1, 2, 12, 102]])"}, 1000);
+}
+
+TRACED_TEST_P(AsofJoinBasicTest, TestBasic3, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestBasic3_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetBasicTest3();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetBasicTest3Negative() {
   // Single key, multiple left batches, single right batches
-  DoRunBasicTest(
-      /*l*/ {R"([[0, 1, 1.0]])", R"([[1000, 1, 2.0]])"},
-      /*r0*/ {R"([[0, 1, 11.0], [1000, 1, 12.0]])"},
-      /*r1*/ {R"([[0, 1, 101.0], [1000, 1, 102.0]])"},
-      /*exp*/ {R"([[0, 1, 1.0, 11.0, 101.0], [1000, 1, 2.0, 12.0, 102.0]])"}, 1000);
+  return BasicTest(
+      /*l*/ {R"([[0, 1, 1]])", R"([[1000, 1, 2]])"},
+      /*r0*/ {R"([[500, 1, 11], [1000, 1, 12]])"},
+      /*r1*/ {R"([[500, 1, 101], [1000, 1, 102]])"},
+      /*exp_nokey*/ {R"([[0, 0, 1, 11, 101], [1000, 0, 2, 12, 102]])"},
+      /*exp_emptykey*/ {R"([[0, 1, 1, 11, 101], [1000, 1, 2, 12, 102]])"},
+      /*exp*/ {R"([[0, 1, 1, 11, 101], [1000, 1, 2, 12, 102]])"}, -1000);
 }
 
-TEST(AsofJoinTest, TestBasic4) {
+TRACED_TEST_P(AsofJoinBasicTest, TestBasic3Negative, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestBasic3_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetBasicTest3Negative();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetBasicTest4() {
   // Multi key, multiple batches, misaligned batches
-  DoRunBasicTest(
+  return BasicTest(
       /*l*/
-      {R"([[0, 1, 1.0], [0, 2, 21.0], [500, 1, 2.0], [1000, 2, 22.0], [1500, 1, 3.0], [1500, 2, 23.0]])",
-       R"([[2000, 1, 4.0], [2000, 2, 24.0]])"},
+      {R"([[0, 1, 1], [0, 2, 21], [500, 1, 2], [1000, 2, 22], [1500, 1, 3], [1500, 2, 23]])",
+       R"([[2000, 1, 4], [2000, 2, 24]])"},
       /*r0*/
-      {R"([[0, 1, 11.0], [500, 2, 31.0], [1000, 1, 12.0]])",
-       R"([[1500, 2, 32.0], [2000, 1, 13.0], [2500, 2, 33.0]])"},
+      {R"([[0, 1, 11], [500, 2, 31], [1000, 1, 12]])",
+       R"([[1500, 2, 32], [2000, 1, 13], [2500, 2, 33]])"},
       /*r1*/
-      {R"([[0, 2, 1001.0], [500, 1, 101.0]])",
-       R"([[1000, 1, 102.0], [1500, 2, 1002.0], [2000, 1, 103.0]])"},
+      {R"([[0, 2, 1001], [500, 1, 101]])",
+       R"([[1000, 1, 102], [1500, 2, 1002], [2000, 1, 103]])"},
+      /*exp_nokey*/
+      {R"([[0, 0, 1, 11, 1001], [0, 0, 21, 11, 1001], [500, 0, 2, 31, 101], [1000, 0, 22, 12, 102], [1500, 0, 3, 32, 1002], [1500, 0, 23, 32, 1002]])",
+       R"([[2000, 0, 4, 13, 103], [2000, 0, 24, 13, 103]])"},
+      /*exp_emptykey*/
+      {R"([[0, 1, 1, 11, 1001], [0, 2, 21, 11, 1001], [500, 1, 2, 31, 101], [1000, 2, 22, 12, 102], [1500, 1, 3, 32, 1002], [1500, 2, 23, 32, 1002]])",
+       R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 13, 103]])"},
       /*exp*/
-      {R"([[0, 1, 1.0, 11.0, null], [0, 2, 21.0, null, 1001.0], [500, 1, 2.0, 11.0, 101.0], [1000, 2, 22.0, 31.0, 1001.0], [1500, 1, 3.0, 12.0, 102.0], [1500, 2, 23.0, 32.0, 1002.0]])",
-       R"([[2000, 1, 4.0, 13.0, 103.0], [2000, 2, 24.0, 32.0, 1002.0]])"},
+      {R"([[0, 1, 1, 11, null], [0, 2, 21, null, 1001], [500, 1, 2, 11, 101], [1000, 2, 22, 31, 1001], [1500, 1, 3, 12, 102], [1500, 2, 23, 32, 1002]])",
+       R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 32, 1002]])"},
       1000);
 }
 
-TEST(AsofJoinTest, TestBasic5) {
+TRACED_TEST_P(AsofJoinBasicTest, TestBasic4, {
+  BasicTest basic_test = GetBasicTest4();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetBasicTest4Negative() {
+  // Multi key, multiple batches, misaligned batches
+  return BasicTest(
+      /*l*/
+      {R"([[0, 1, 1], [0, 2, 21], [500, 1, 2], [1000, 2, 22], [1500, 1, 3], [1500, 2, 23]])",
+       R"([[2000, 1, 4], [2000, 2, 24]])"},
+      /*r0*/
+      {R"([[0, 1, 11], [500, 2, 31], [1000, 1, 12]])",
+       R"([[1600, 2, 32], [1900, 2, 33], [2100, 1, 13]])"},
+      /*r1*/
+      {R"([[0, 2, 1001], [500, 1, 101]])",
+       R"([[1100, 1, 102], [1600, 2, 1002], [2100, 1, 103]])"},
+      /*exp_nokey*/
+      {R"([[0, 0, 1, 11, 1001], [0, 0, 21, 11, 1001], [500, 0, 2, 31, 101], [1000, 0, 22, 12, 102], [1500, 0, 3, 32, 1002], [1500, 0, 23, 32, 1002]])",
+       R"([[2000, 0, 4, 13, 103], [2000, 0, 24, 13, 103]])"},
+      /*exp_emptykey*/
+      {R"([[0, 1, 1, 11, 1001], [0, 2, 21, 11, 1001], [500, 1, 2, 31, 101], [1000, 2, 22, 12, 102], [1500, 1, 3, 32, 1002], [1500, 2, 23, 32, 1002]])",
+       R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 13, 103]])"},
+      /*exp*/
+      {R"([[0, 1, 1, 11, 101], [0, 2, 21, 31, 1001], [500, 1, 2, 12, 101], [1000, 2, 22, 32, 1002], [1500, 1, 3, 13, 103], [1500, 2, 23, 32, 1002]])",
+       R"([[2000, 1, 4, 13, 103], [2000, 2, 24, null, null]])"},
+      -1000);
+}
+
+TRACED_TEST_P(AsofJoinBasicTest, TestBasic4Negative, {
+  BasicTest basic_test = GetBasicTest4Negative();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetBasicTest5() {
   // Multi key, multiple batches, misaligned batches, smaller tolerance
-  DoRunBasicTest(/*l*/
-                 {R"([[0, 1, 1.0], [0, 2, 21.0], [500, 1, 2.0], [1000, 2, 22.0], [1500, 1, 3.0], [1500, 2, 23.0]])",
-                  R"([[2000, 1, 4.0], [2000, 2, 24.0]])"},
-                 /*r0*/
-                 {R"([[0, 1, 11.0], [500, 2, 31.0], [1000, 1, 12.0]])",
-                  R"([[1500, 2, 32.0], [2000, 1, 13.0], [2500, 2, 33.0]])"},
-                 /*r1*/
-                 {R"([[0, 2, 1001.0], [500, 1, 101.0]])",
-                  R"([[1000, 1, 102.0], [1500, 2, 1002.0], [2000, 1, 103.0]])"},
-                 /*exp*/
-                 {R"([[0, 1, 1.0, 11.0, null], [0, 2, 21.0, null, 1001.0], [500, 1, 2.0, 11.0, 101.0], [1000, 2, 22.0, 31.0, null], [1500, 1, 3.0, 12.0, 102.0], [1500, 2, 23.0, 32.0, 1002.0]])",
-                  R"([[2000, 1, 4.0, 13.0, 103.0], [2000, 2, 24.0, 32.0, 1002.0]])"},
-                 500);
-}
-
-TEST(AsofJoinTest, TestBasic6) {
+  return BasicTest(/*l*/
+                   {R"([[0, 1, 1], [0, 2, 21], [500, 1, 2], [1000, 2, 22], [1500, 1, 3], [1500, 2, 23]])",
+                    R"([[2000, 1, 4], [2000, 2, 24]])"},
+                   /*r0*/
+                   {R"([[0, 1, 11], [500, 2, 31], [1000, 1, 12]])",
+                    R"([[1500, 2, 32], [2000, 1, 13], [2500, 2, 33]])"},
+                   /*r1*/
+                   {R"([[0, 2, 1001], [500, 1, 101]])",
+                    R"([[1000, 1, 102], [1500, 2, 1002], [2000, 1, 103]])"},
+                   /*exp_nokey*/
+                   {R"([[0, 0, 1, 11, 1001], [0, 0, 21, 11, 1001], [500, 0, 2, 31, 101], [1000, 0, 22, 12, 102], [1500, 0, 3, 32, 1002], [1500, 0, 23, 32, 1002]])",
+                    R"([[2000, 0, 4, 13, 103], [2000, 0, 24, 13, 103]])"},
+                   /*exp_emptykey*/
+                   {R"([[0, 1, 1, 11, 1001], [0, 2, 21, 11, 1001], [500, 1, 2, 31, 101], [1000, 2, 22, 12, 102], [1500, 1, 3, 32, 1002], [1500, 2, 23, 32, 1002]])",
+                    R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 13, 103]])"},
+                   /*exp*/
+                   {R"([[0, 1, 1, 11, null], [0, 2, 21, null, 1001], [500, 1, 2, 11, 101], [1000, 2, 22, 31, null], [1500, 1, 3, 12, 102], [1500, 2, 23, 32, 1002]])",
+                    R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 32, 1002]])"},
+                   500);
+}
+
+TRACED_TEST_P(AsofJoinBasicTest, TestBasic5, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestBasic5_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetBasicTest5();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetBasicTest5Negative() {
+  // Multi key, multiple batches, misaligned batches, smaller tolerance
+  return BasicTest(/*l*/
+                   {R"([[0, 1, 1], [0, 2, 21], [500, 1, 2], [1000, 2, 22], [1500, 1, 3], [1500, 2, 23]])",
+                    R"([[2000, 1, 4], [2000, 2, 24]])"},
+                   /*r0*/
+                   {R"([[0, 1, 11], [500, 2, 31], [1000, 1, 12]])",
+                    R"([[1500, 2, 32], [2000, 1, 13], [2500, 2, 33]])"},
+                   /*r1*/
+                   {R"([[0, 2, 1001], [500, 1, 101]])",
+                    R"([[1000, 1, 102], [1500, 2, 1002], [2000, 1, 103]])"},
+                   /*exp_nokey*/
+                   {R"([[0, 0, 1, 11, 1001], [0, 0, 21, 11, 1001], [500, 0, 2, 31, 101], [1000, 0, 22, 12, 102], [1500, 0, 3, 32, 1002], [1500, 0, 23, 32, 1002]])",
+                    R"([[2000, 0, 4, 13, 103], [2000, 0, 24, 13, 103]])"},
+                   /*exp_emptykey*/
+                   {R"([[0, 1, 1, 11, 1001], [0, 2, 21, 11, 1001], [500, 1, 2, 31, 101], [1000, 2, 22, 12, 102], [1500, 1, 3, 32, 1002], [1500, 2, 23, 32, 1002]])",
+                    R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 13, 103]])"},
+                   /*exp*/
+                   {R"([[0, 1, 1, 11, 101], [0, 2, 21, 31, 1001], [500, 1, 2, 12, 101], [1000, 2, 22, 32, 1002], [1500, 1, 3, 13, 103], [1500, 2, 23, 32, 1002]])",
+                    R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 33, null]])"},
+                   -500);
+}
+
+TRACED_TEST_P(AsofJoinBasicTest, TestBasic5Negative, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestBasic5_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetBasicTest5Negative();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetBasicTest6() {
   // Multi key, multiple batches, misaligned batches, zero tolerance
-  DoRunBasicTest(/*l*/
-                 {R"([[0, 1, 1.0], [0, 2, 21.0], [500, 1, 2.0], [1000, 2, 22.0], [1500, 1, 3.0], [1500, 2, 23.0]])",
-                  R"([[2000, 1, 4.0], [2000, 2, 24.0]])"},
-                 /*r0*/
-                 {R"([[0, 1, 11.0], [500, 2, 31.0], [1000, 1, 12.0]])",
-                  R"([[1500, 2, 32.0], [2000, 1, 13.0], [2500, 2, 33.0]])"},
-                 /*r1*/
-                 {R"([[0, 2, 1001.0], [500, 1, 101.0]])",
-                  R"([[1000, 1, 102.0], [1500, 2, 1002.0], [2000, 1, 103.0]])"},
-                 /*exp*/
-                 {R"([[0, 1, 1.0, 11.0, null], [0, 2, 21.0, null, 1001.0], [500, 1, 2.0, null, 101.0], [1000, 2, 22.0, null, null], [1500, 1, 3.0, null, null], [1500, 2, 23.0, 32.0, 1002.0]])",
-                  R"([[2000, 1, 4.0, 13.0, 103.0], [2000, 2, 24.0, null, null]])"},
-                 0);
-}
-
-TEST(AsofJoinTest, TestEmpty1) {
+  return BasicTest(/*l*/
+                   {R"([[0, 1, 1], [0, 2, 21], [500, 1, 2], [1000, 2, 22], [1500, 1, 3], [1500, 2, 23]])",
+                    R"([[2000, 1, 4], [2000, 2, 24]])"},
+                   /*r0*/
+                   {R"([[0, 1, 11], [500, 2, 31], [1000, 1, 12]])",
+                    R"([[1500, 2, 32], [2000, 1, 13], [2500, 2, 33]])"},
+                   /*r1*/
+                   {R"([[0, 2, 1001], [500, 1, 101]])",
+                    R"([[1000, 1, 102], [1500, 2, 1002], [2000, 1, 103]])"},
+                   /*exp_nokey*/
+                   {R"([[0, 0, 1, 11, 1001], [0, 0, 21, 11, 1001], [500, 0, 2, 31, 101], [1000, 0, 22, 12, 102], [1500, 0, 3, 32, 1002], [1500, 0, 23, 32, 1002]])",
+                    R"([[2000, 0, 4, 13, 103], [2000, 0, 24, 13, 103]])"},
+                   /*exp_emptykey*/
+                   {R"([[0, 1, 1, 11, 1001], [0, 2, 21, 11, 1001], [500, 1, 2, 31, 101], [1000, 2, 22, 12, 102], [1500, 1, 3, 32, 1002], [1500, 2, 23, 32, 1002]])",
+                    R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 13, 103]])"},
+                   /*exp*/
+                   {R"([[0, 1, 1, 11, null], [0, 2, 21, null, 1001], [500, 1, 2, null, 101], [1000, 2, 22, null, null], [1500, 1, 3, null, null], [1500, 2, 23, 32, 1002]])",
+                    R"([[2000, 1, 4, 13, 103], [2000, 2, 24, null, null]])"},
+                   0);
+}
+
+TRACED_TEST_P(AsofJoinBasicTest, TestBasic6, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestBasic6_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetBasicTest6();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetEmptyTest1() {
   // Empty left batch
-  DoRunBasicTest(/*l*/
-                 {R"([])", R"([[2000, 1, 4.0], [2000, 2, 24.0]])"},
-                 /*r0*/
-                 {R"([[0, 1, 11.0], [500, 2, 31.0], [1000, 1, 12.0]])",
-                  R"([[1500, 2, 32.0], [2000, 1, 13.0], [2500, 2, 33.0]])"},
-                 /*r1*/
-                 {R"([[0, 2, 1001.0], [500, 1, 101.0]])",
-                  R"([[1000, 1, 102.0], [1500, 2, 1002.0], [2000, 1, 103.0]])"},
-                 /*exp*/
-                 {R"([[2000, 1, 4.0, 13.0, 103.0], [2000, 2, 24.0, 32.0, 1002.0]])"},
-                 1000);
-}
-
-TEST(AsofJoinTest, TestEmpty2) {
+  return BasicTest(/*l*/
+                   {R"([])", R"([[2000, 1, 4], [2000, 2, 24]])"},
+                   /*r0*/
+                   {R"([[0, 1, 11], [500, 2, 31], [1000, 1, 12]])",
+                    R"([[1500, 2, 32], [2000, 1, 13], [2500, 2, 33]])"},
+                   /*r1*/
+                   {R"([[0, 2, 1001], [500, 1, 101]])",
+                    R"([[1000, 1, 102], [1500, 2, 1002], [2000, 1, 103]])"},
+                   /*exp_nokey*/
+                   {R"([[2000, 0, 4, 13, 103], [2000, 0, 24, 13, 103]])"},
+                   /*exp_emptykey*/
+                   {R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 13, 103]])"},
+                   /*exp*/
+                   {R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 32, 1002]])"}, 1000);
+}
+
+TRACED_TEST_P(AsofJoinBasicTest, TestEmpty1, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestEmpty1_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetEmptyTest1();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetEmptyTest1Negative() {
+  // Empty left batch
+  return BasicTest(/*l*/
+                   {R"([])", R"([[2000, 1, 4], [2000, 2, 24]])"},
+                   /*r0*/
+                   {R"([[0, 1, 11], [500, 2, 31], [1000, 1, 12]])",
+                    R"([[1500, 2, 32], [2000, 1, 13], [2500, 2, 33]])"},
+                   /*r1*/
+                   {R"([[0, 2, 1001], [500, 1, 101]])",
+                    R"([[1000, 1, 102], [1500, 2, 1002], [2000, 1, 103]])"},
+                   /*exp_nokey*/
+                   {R"([[2000, 0, 4, 13, 103], [2000, 0, 24, 13, 103]])"},
+                   /*exp_emptykey*/
+                   {R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 13, 103]])"},
+                   /*exp*/
+                   {R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 33, null]])"}, -1000);
+}
+
+TRACED_TEST_P(AsofJoinBasicTest, TestEmpty1Negative, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestEmpty1Negative_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetEmptyTest1Negative();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetEmptyTest2() {
+  // Empty left input
+  return BasicTest(/*l*/
+                   {R"([])"},
+                   /*r0*/
+                   {R"([[0, 1, 11], [500, 2, 31], [1000, 1, 12]])",
+                    R"([[1500, 2, 32], [2000, 1, 13], [2500, 2, 33]])"},
+                   /*r1*/
+                   {R"([[0, 2, 1001], [500, 1, 101]])",
+                    R"([[1000, 1, 102], [1500, 2, 1002], [2000, 1, 103]])"},
+                   /*exp_nokey*/
+                   {R"([])"},
+                   /*exp_emptykey*/
+                   {R"([])"},
+                   /*exp*/
+                   {R"([])"}, 1000);
+}
+
+TRACED_TEST_P(AsofJoinBasicTest, TestEmpty2, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestEmpty2_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetEmptyTest2();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetEmptyTest2Negative() {
   // Empty left input
-  DoRunBasicTest(/*l*/
-                 {R"([])"},
-                 /*r0*/
-                 {R"([[0, 1, 11.0], [500, 2, 31.0], [1000, 1, 12.0]])",
-                  R"([[1500, 2, 32.0], [2000, 1, 13.0], [2500, 2, 33.0]])"},
-                 /*r1*/
-                 {R"([[0, 2, 1001.0], [500, 1, 101.0]])",
-                  R"([[1000, 1, 102.0], [1500, 2, 1002.0], [2000, 1, 103.0]])"},
-                 /*exp*/
-                 {R"([])"}, 1000);
-}
-
-TEST(AsofJoinTest, TestEmpty3) {
+  return BasicTest(/*l*/
+                   {R"([])"},
+                   /*r0*/
+                   {R"([[0, 1, 11], [500, 2, 31], [1000, 1, 12]])",
+                    R"([[1500, 2, 32], [2000, 1, 13], [2500, 2, 33]])"},
+                   /*r1*/
+                   {R"([[0, 2, 1001], [500, 1, 101]])",
+                    R"([[1000, 1, 102], [1500, 2, 1002], [2000, 1, 103]])"},
+                   /*exp_nokey*/
+                   {R"([])"},
+                   /*exp_emptykey*/
+                   {R"([])"},
+                   /*exp*/
+                   {R"([])"}, -1000);
+}
+
+TRACED_TEST_P(AsofJoinBasicTest, TestEmpty2Negative, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestEmpty2Negative_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetEmptyTest2Negative();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetEmptyTest3() {
+  // Empty right batch
+  return BasicTest(/*l*/
+                   {R"([[0, 1, 1], [0, 2, 21], [500, 1, 2], [1000, 2, 22], [1500, 1, 3], [1500, 2, 23]])",
+                    R"([[2000, 1, 4], [2000, 2, 24]])"},
+                   /*r0*/
+                   {R"([])", R"([[1500, 2, 32], [2000, 1, 13], [2500, 2, 33]])"},
+                   /*r1*/
+                   {R"([[0, 2, 1001], [500, 1, 101]])",
+                    R"([[1000, 1, 102], [1500, 2, 1002], [2000, 1, 103]])"},
+                   /*exp_nokey*/
+                   {R"([[0, 0, 1, null, 1001], [0, 0, 21, null, 1001], [500, 0, 2, null, 101], [1000, 0, 22, null, 102], [1500, 0, 3, 32, 1002], [1500, 0, 23, 32, 1002]])",
+                    R"([[2000, 0, 4, 13, 103], [2000, 0, 24, 13, 103]])"},
+                   /*exp_emptykey*/
+                   {R"([[0, 1, 1, null, 1001], [0, 2, 21, null, 1001], [500, 1, 2, null, 101], [1000, 2, 22, null, 102], [1500, 1, 3, 32, 1002], [1500, 2, 23, 32, 1002]])",
+                    R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 13, 103]])"},
+                   /*exp*/
+                   {R"([[0, 1, 1, null, null], [0, 2, 21, null, 1001], [500, 1, 2, null, 101], [1000, 2, 22, null, 1001], [1500, 1, 3, null, 102], [1500, 2, 23, 32, 1002]])",
+                    R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 32, 1002]])"},
+                   1000);
+}
+
+TRACED_TEST_P(AsofJoinBasicTest, TestEmpty3, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestEmpty3_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetEmptyTest3();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetEmptyTest3Negative() {
   // Empty right batch
-  DoRunBasicTest(/*l*/
-                 {R"([[0, 1, 1.0], [0, 2, 21.0], [500, 1, 2.0], [1000, 2, 22.0], [1500, 1, 3.0], [1500, 2, 23.0]])",
-                  R"([[2000, 1, 4.0], [2000, 2, 24.0]])"},
-                 /*r0*/
-                 {R"([])", R"([[1500, 2, 32.0], [2000, 1, 13.0], [2500, 2, 33.0]])"},
-                 /*r1*/
-                 {R"([[0, 2, 1001.0], [500, 1, 101.0]])",
-                  R"([[1000, 1, 102.0], [1500, 2, 1002.0], [2000, 1, 103.0]])"},
-                 /*exp*/
-                 {R"([[0, 1, 1.0, null, null], [0, 2, 21.0, null, 1001.0], [500, 1, 2.0, null, 101.0], [1000, 2, 22.0, null, 1001.0], [1500, 1, 3.0, null, 102.0], [1500, 2, 23.0, 32.0, 1002.0]])",
-                  R"([[2000, 1, 4.0, 13.0, 103.0], [2000, 2, 24.0, 32.0, 1002.0]])"},
-                 1000);
-}
-
-TEST(AsofJoinTest, TestEmpty4) {
+  return BasicTest(/*l*/
+                   {R"([[0, 1, 1], [0, 2, 21], [500, 1, 2], [1000, 2, 22], [1500, 1, 3], [1500, 2, 23]])",
+                    R"([[2000, 1, 4], [2000, 2, 24]])"},
+                   /*r0*/
+                   {R"([])", R"([[1500, 2, 32], [2000, 1, 13], [2500, 2, 33]])"},
+                   /*r1*/
+                   {R"([[0, 2, 1001], [500, 1, 101]])",
+                    R"([[1000, 1, 102], [1500, 2, 1002], [2000, 1, 103]])"},
+                   /*exp_nokey*/
+                   {R"([[0, 0, 1, null, 1001], [0, 0, 21, null, 1001], [500, 0, 2, 32, 101], [1000, 0, 22, 32, 102], [1500, 0, 3, 32, 1002], [1500, 0, 23, 32, 1002]])",
+                    R"([[2000, 0, 4, 13, 103], [2000, 0, 24, 13, 103]])"},
+                   /*exp_emptykey*/
+                   {R"([[0, 1, 1, null, 1001], [0, 2, 21, null, 1001], [500, 1, 2, 32, 101], [1000, 2, 22, 32, 102], [1500, 1, 3, 32, 1002], [1500, 2, 23, 32, 1002]])",
+                    R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 13, 103]])"},
+                   /*exp*/
+                   {R"([[0, 1, 1, null, 101], [0, 2, 21, null, 1001], [500, 1, 2, null, 101], [1000, 2, 22, 32, 1002], [1500, 1, 3, 13, 103], [1500, 2, 23, 32, 1002]])",
+                    R"([[2000, 1, 4, 13, 103], [2000, 2, 24, 33, null]])"},
+                   -1000);
+}
+
+TRACED_TEST_P(AsofJoinBasicTest, TestEmpty3Negative, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestEmpty3Negative_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetEmptyTest3Negative();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetEmptyTest4() {
   // Empty right input
-  DoRunBasicTest(/*l*/
-                 {R"([[0, 1, 1.0], [0, 2, 21.0], [500, 1, 2.0], [1000, 2, 22.0], [1500, 1, 3.0], [1500, 2, 23.0]])",
-                  R"([[2000, 1, 4.0], [2000, 2, 24.0]])"},
-                 /*r0*/
-                 {R"([])"},
-                 /*r1*/
-                 {R"([[0, 2, 1001.0], [500, 1, 101.0]])",
-                  R"([[1000, 1, 102.0], [1500, 2, 1002.0], [2000, 1, 103.0]])"},
-                 /*exp*/
-                 {R"([[0, 1, 1.0, null, null], [0, 2, 21.0, null, 1001.0], [500, 1, 2.0, null, 101.0], [1000, 2, 22.0, null, 1001.0], [1500, 1, 3.0, null, 102.0], [1500, 2, 23.0, null, 1002.0]])",
-                  R"([[2000, 1, 4.0, null, 103.0], [2000, 2, 24.0, null, 1002.0]])"},
-                 1000);
-}
-
-TEST(AsofJoinTest, TestEmpty5) {
-  // All empty
-  DoRunBasicTest(/*l*/
-                 {R"([])"},
-                 /*r0*/
-                 {R"([])"},
-                 /*r1*/
-                 {R"([])"},
-                 /*exp*/
-                 {R"([])"}, 1000);
+  return BasicTest(/*l*/
+                   {R"([[0, 1, 1], [0, 2, 21], [500, 1, 2], [1000, 2, 22], [1500, 1, 3], [1500, 2, 23]])",
+                    R"([[2000, 1, 4], [2000, 2, 24]])"},
+                   /*r0*/
+                   {R"([])"},
+                   /*r1*/
+                   {R"([[0, 2, 1001], [500, 1, 101]])",
+                    R"([[1000, 1, 102], [1500, 2, 1002], [2000, 1, 103]])"},
+                   /*exp_nokey*/
+                   {R"([[0, 0, 1, null, 1001], [0, 0, 21, null, 1001], [500, 0, 2, null, 101], [1000, 0, 22, null, 102], [1500, 0, 3, null, 1002], [1500, 0, 23, null, 1002]])",
+                    R"([[2000, 0, 4, null, 103], [2000, 0, 24, null, 103]])"},
+                   /*exp_emptykey*/
+                   {R"([[0, 1, 1, null, 1001], [0, 2, 21, null, 1001], [500, 1, 2, null, 101], [1000, 2, 22, null, 102], [1500, 1, 3, null, 1002], [1500, 2, 23, null, 1002]])",
+                    R"([[2000, 1, 4, null, 103], [2000, 2, 24, null, 103]])"},
+                   /*exp*/
+                   {R"([[0, 1, 1, null, null], [0, 2, 21, null, 1001], [500, 1, 2, null, 101], [1000, 2, 22, null, 1001], [1500, 1, 3, null, 102], [1500, 2, 23, null, 1002]])",
+                    R"([[2000, 1, 4, null, 103], [2000, 2, 24, null, 1002]])"},
+                   1000);
 }
 
-TEST(AsofJoinTest, TestUnsupportedOntype) {
-  DoRunInvalidTypeTest(
-      schema({field("time", utf8()), field("key", int32()), field("l_v0", float64())}),
-      schema({field("time", utf8()), field("key", int32()), field("r0_v0", float32())}));
+TRACED_TEST_P(AsofJoinBasicTest, TestEmpty4, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestEmpty4_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetEmptyTest4();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetEmptyTest4Negative() {
+  // Empty right input
+  return BasicTest(/*l*/
+                   {R"([[0, 1, 1], [0, 2, 21], [500, 1, 2], [1000, 2, 22], [1500, 1, 3], [1500, 2, 23]])",
+                    R"([[2000, 1, 4], [2000, 2, 24]])"},
+                   /*r0*/
+                   {R"([])"},
+                   /*r1*/
+                   {R"([[0, 2, 1001], [500, 1, 101]])",
+                    R"([[1000, 1, 102], [1500, 2, 1002], [2000, 1, 103]])"},
+                   /*exp_nokey*/
+                   {R"([[0, 0, 1, null, 1001], [0, 0, 21, null, 1001], [500, 0, 2, null, 101], [1000, 0, 22, null, 102], [1500, 0, 3, null, 1002], [1500, 0, 23, null, 1002]])",
+                    R"([[2000, 0, 4, null, 103], [2000, 0, 24, null, 103]])"},
+                   /*exp_emptykey*/
+                   {R"([[0, 1, 1, null, 1001], [0, 2, 21, null, 1001], [500, 1, 2, null, 101], [1000, 2, 22, null, 102], [1500, 1, 3, null, 1002], [1500, 2, 23, null, 1002]])",
+                    R"([[2000, 1, 4, null, 103], [2000, 2, 24, null, 103]])"},
+                   /*exp*/
+                   {R"([[0, 1, 1, null, 101], [0, 2, 21, null, 1001], [500, 1, 2, null, 101], [1000, 2, 22, null, 1002], [1500, 1, 3, null, 103], [1500, 2, 23, null, 1002]])",
+                    R"([[2000, 1, 4, null, 103], [2000, 2, 24, null, null]])"},
+                   -1000);
 }
 
-TEST(AsofJoinTest, TestUnsupportedBytype) {
-  DoRunInvalidTypeTest(
-      schema({field("time", int64()), field("key", utf8()), field("l_v0", float64())}),
-      schema({field("time", int64()), field("key", utf8()), field("r0_v0", float32())}));
+TRACED_TEST_P(AsofJoinBasicTest, TestEmpty4Negative, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestEmpty4Negative_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetEmptyTest4Negative();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetEmptyTest5() {
+  // All empty
+  return BasicTest(/*l*/
+                   {R"([])"},
+                   /*r0*/
+                   {R"([])"},
+                   /*r1*/
+                   {R"([])"},
+                   /*exp_nokey*/
+                   {R"([])"},
+                   /*exp_emptykey*/
+                   {R"([])"},
+                   /*exp*/
+                   {R"([])"}, 1000);
 }
 
-TEST(AsofJoinTest, TestUnsupportedDatatype) {
-  // Utf8 is unsupported
-  DoRunInvalidTypeTest(
-      schema({field("time", int64()), field("key", int32()), field("l_v0", float64())}),
-      schema({field("time", int64()), field("key", int32()), field("r0_v0", utf8())}));
+TRACED_TEST_P(AsofJoinBasicTest, TestEmpty5, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestEmpty5_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetEmptyTest5();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+BasicTest GetEmptyTest5Negative() {
+  // All empty
+  return BasicTest(/*l*/
+                   {R"([])"},
+                   /*r0*/
+                   {R"([])"},
+                   /*r1*/
+                   {R"([])"},
+                   /*exp_nokey*/
+                   {R"([])"},
+                   /*exp_emptykey*/
+                   {R"([])"},
+                   /*exp*/
+                   {R"([])"}, -1000);
 }
 
-TEST(AsofJoinTest, TestMissingKeys) {
+TRACED_TEST_P(AsofJoinBasicTest, TestEmpty5Negative, {
+  ARROW_SCOPED_TRACE("AsofJoinBasicTest_TestEmpty5Negative_" + std::get<1>(GetParam()));
+  BasicTest basic_test = GetEmptyTest5Negative();
+  auto runner = std::get<0>(GetParam());
+  runner(basic_test);
+})
+
+INSTANTIATE_TEST_SUITE_P(
+    AsofJoinNodeTest, AsofJoinBasicTest,
+    testing::Values(AsofJoinBasicParams(BasicTest::DoSingleByKey, "SingleByKey"),
+                    AsofJoinBasicParams(BasicTest::DoDoubleByKey, "DoubleByKey"),
+                    AsofJoinBasicParams(BasicTest::DoMutateByKey, "MutateByKey"),
+                    AsofJoinBasicParams(BasicTest::DoMutateNoKey, "MutateNoKey"),
+                    AsofJoinBasicParams(BasicTest::DoMutateNullKey, "MutateNullKey"),
+                    AsofJoinBasicParams(BasicTest::DoMutateEmptyKey, "MutateEmptyKey")));
+
+TRACED_TEST(AsofJoinTest, TestUnsupportedOntype, {
+  DoRunInvalidTypeTest(schema({field("time", list(int32())), field("key", int32()),
+                               field("l_v0", float64())}),
+                       schema({field("time", list(int32())), field("key", int32()),
+                               field("r0_v0", float32())}));
+})
+
+TRACED_TEST(AsofJoinTest, TestUnsupportedBytype, {
+  DoRunInvalidTypeTest(schema({field("time", int64()), field("key", list(int32())),
+                               field("l_v0", float64())}),
+                       schema({field("time", int64()), field("key", list(int32())),
+                               field("r0_v0", float32())}));
+})
+
+TRACED_TEST(AsofJoinTest, TestUnsupportedDatatype, {
+  // List is unsupported
   DoRunInvalidTypeTest(
+      schema({field("time", int64()), field("key", int32()), field("l_v0", float64())}),
+      schema({field("time", int64()), field("key", int32()),
+              field("r0_v0", list(int32()))}));
+})
+
+TRACED_TEST(AsofJoinTest, TestMissingKeys, {
+  DoRunMissingKeysTest(
       schema({field("time1", int64()), field("key", int32()), field("l_v0", float64())}),
       schema(
           {field("time1", int64()), field("key", int32()), field("r0_v0", float64())}));
 
-  DoRunInvalidTypeTest(
+  DoRunMissingKeysTest(
       schema({field("time", int64()), field("key1", int32()), field("l_v0", float64())}),
       schema(
           {field("time", int64()), field("key1", int32()), field("r0_v0", float64())}));
-}
+})
+
+TRACED_TEST(AsofJoinTest, TestMissingOnKey, {
+  DoRunMissingOnKeyTest(
+      schema({field("time", int64()), field("key", int32()), field("l_v0", float64())}),
+      schema({field("time", int64()), field("key", int32()), field("r0_v0", float64())}));
+})
+
+TRACED_TEST(AsofJoinTest, TestMissingByKey, {
+  DoRunMissingByKeyTest(
+      schema({field("time", int64()), field("key", int32()), field("l_v0", float64())}),
+      schema({field("time", int64()), field("key", int32()), field("r0_v0", float64())}));
+})
+
+TRACED_TEST(AsofJoinTest, TestNestedOnKey, {
+  DoRunNestedOnKeyTest(
+      schema({field("time", int64()), field("key", int32()), field("l_v0", float64())}),
+      schema({field("time", int64()), field("key", int32()), field("r0_v0", float64())}));
+})
+
+TRACED_TEST(AsofJoinTest, TestNestedByKey, {
+  DoRunNestedByKeyTest(
+      schema({field("time", int64()), field("key", int32()), field("l_v0", float64())}),
+      schema({field("time", int64()), field("key", int32()), field("r0_v0", float64())}));
+})
+
+TRACED_TEST(AsofJoinTest, TestAmbiguousOnKey, {
+  DoRunAmbiguousOnKeyTest(
+      schema({field("time", int64()), field("time", int64()), field("key", int32()),
+              field("l_v0", float64())}),
+      schema({field("time", int64()), field("key", int32()), field("r0_v0", float64())}));
+})
+
+TRACED_TEST(AsofJoinTest, TestAmbiguousByKey, {
+  DoRunAmbiguousByKeyTest(
+      schema({field("time", int64()), field("key", int64()), field("key", int32()),
+              field("l_v0", float64())}),
+      schema({field("time", int64()), field("key", int32()), field("r0_v0", float64())}));
+})
+
+TRACED_TEST(AsofJoinTest, TestLeftUnorderedOnKey, {
+  DoRunUnorderedPlanTest(
+      /*l_unordered=*/true, /*r_unordered=*/false,
+      schema({field("time", int64()), field("key", int32()), field("l_v0", float64())}),
+      schema({field("time", int64()), field("key", int32()), field("r0_v0", float64())}));
+})
+
+TRACED_TEST(AsofJoinTest, TestRightUnorderedOnKey, {
+  DoRunUnorderedPlanTest(
+      /*l_unordered=*/false, /*r_unordered=*/true,
+      schema({field("time", int64()), field("key", int32()), field("l_v0", float64())}),
+      schema({field("time", int64()), field("key", int32()), field("r0_v0", float64())}));
+})
+
+TRACED_TEST(AsofJoinTest, TestUnorderedOnKey, {
+  DoRunUnorderedPlanTest(
+      /*l_unordered=*/true, /*r_unordered=*/true,
+      schema({field("time", int64()), field("key", int32()), field("l_v0", float64())}),
+      schema({field("time", int64()), field("key", int32()), field("r0_v0", float64())}));
+})
 
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec/benchmark_util.cc b/cpp/src/arrow/compute/exec/benchmark_util.cc
index 5bac508854f..3c4dda2992a 100644
--- a/cpp/src/arrow/compute/exec/benchmark_util.cc
+++ b/cpp/src/arrow/compute/exec/benchmark_util.cc
@@ -24,6 +24,7 @@
 #include "arrow/compute/exec/exec_plan.h"
 #include "arrow/compute/exec/options.h"
 #include "arrow/compute/exec/task_util.h"
+#include "arrow/compute/exec/util.h"
 #include "arrow/util/macros.h"
 
 namespace arrow {
@@ -34,7 +35,6 @@ namespace compute {
 // calling InputFinished and InputReceived.
 
 Status BenchmarkIsolatedNodeOverhead(benchmark::State& state,
-                                     arrow::compute::ExecContext ctx,
                                      arrow::compute::Expression expr, int32_t num_batches,
                                      int32_t batch_size,
                                      arrow::compute::BatchesWithSchema data,
@@ -42,10 +42,10 @@ Status BenchmarkIsolatedNodeOverhead(benchmark::State& state,
                                      arrow::compute::ExecNodeOptions& options) {
   for (auto _ : state) {
     state.PauseTiming();
-    AsyncGenerator<util::optional<arrow::compute::ExecBatch>> sink_gen;
+    AsyncGenerator<std::optional<arrow::compute::ExecBatch>> sink_gen;
 
     ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::compute::ExecPlan> plan,
-                          arrow::compute::ExecPlan::Make(&ctx));
+                          arrow::compute::ExecPlan::Make());
     // Source and sink nodes have no effect on the benchmark.
     // Used for dummy purposes as they are referenced in InputReceived and InputFinished.
     ARROW_ASSIGN_OR_RAISE(arrow::compute::ExecNode * source_node,
@@ -112,14 +112,14 @@ Status BenchmarkIsolatedNodeOverhead(benchmark::State& state,
 // a source -> node_declarations -> sink sequence.
 
 Status BenchmarkNodeOverhead(
-    benchmark::State& state, arrow::compute::ExecContext ctx, int32_t num_batches,
-    int32_t batch_size, arrow::compute::BatchesWithSchema data,
+    benchmark::State& state, int32_t num_batches, int32_t batch_size,
+    arrow::compute::BatchesWithSchema data,
     std::vector<arrow::compute::Declaration>& node_declarations) {
   for (auto _ : state) {
     state.PauseTiming();
     ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::compute::ExecPlan> plan,
-                          arrow::compute::ExecPlan::Make(&ctx));
-    AsyncGenerator<util::optional<arrow::compute::ExecBatch>> sink_gen;
+                          arrow::compute::ExecPlan::Make());
+    AsyncGenerator<std::optional<arrow::compute::ExecBatch>> sink_gen;
     arrow::compute::Declaration source = arrow::compute::Declaration(
         {"source",
          arrow::compute::SourceNodeOptions{data.schema,
diff --git a/cpp/src/arrow/compute/exec/benchmark_util.h b/cpp/src/arrow/compute/exec/benchmark_util.h
index 7897288cb8f..c66c2e91dbf 100644
--- a/cpp/src/arrow/compute/exec/benchmark_util.h
+++ b/cpp/src/arrow/compute/exec/benchmark_util.h
@@ -29,13 +29,11 @@ namespace arrow {
 
 namespace compute {
 
-Status BenchmarkNodeOverhead(benchmark::State& state, arrow::compute::ExecContext ctx,
-                             int32_t num_batches, int32_t batch_size,
-                             arrow::compute::BatchesWithSchema data,
+Status BenchmarkNodeOverhead(benchmark::State& state, int32_t num_batches,
+                             int32_t batch_size, arrow::compute::BatchesWithSchema data,
                              std::vector<arrow::compute::Declaration>& node_declarations);
 
 Status BenchmarkIsolatedNodeOverhead(benchmark::State& state,
-                                     arrow::compute::ExecContext ctx,
                                      arrow::compute::Expression expr, int32_t num_batches,
                                      int32_t batch_size,
                                      arrow::compute::BatchesWithSchema data,
diff --git a/cpp/src/arrow/compute/exec/bloom_filter.h b/cpp/src/arrow/compute/exec/bloom_filter.h
index 06920c6c14f..b0227e720d8 100644
--- a/cpp/src/arrow/compute/exec/bloom_filter.h
+++ b/cpp/src/arrow/compute/exec/bloom_filter.h
@@ -249,7 +249,7 @@ class ARROW_EXPORT BlockedBloomFilter {
 // b) It is preferred for small and medium size Bloom filters, because it skips extra
 // synchronization related steps from parallel variant (partitioning and taking locks).
 //
-enum class ARROW_EXPORT BloomFilterBuildStrategy {
+enum class BloomFilterBuildStrategy {
   SINGLE_THREADED = 0,
   PARALLEL = 1,
 };
diff --git a/cpp/src/arrow/compute/exec/exec_plan.cc b/cpp/src/arrow/compute/exec/exec_plan.cc
index 15d95690076..88cd298d2cb 100644
--- a/cpp/src/arrow/compute/exec/exec_plan.cc
+++ b/cpp/src/arrow/compute/exec/exec_plan.cc
@@ -17,6 +17,8 @@
 
 #include "arrow/compute/exec/exec_plan.h"
 
+#include <atomic>
+#include <optional>
 #include <sstream>
 #include <unordered_map>
 #include <unordered_set>
@@ -24,30 +26,38 @@
 #include "arrow/compute/exec.h"
 #include "arrow/compute/exec/expression.h"
 #include "arrow/compute/exec/options.h"
+#include "arrow/compute/exec/query_context.h"
 #include "arrow/compute/exec/task_util.h"
-#include "arrow/compute/exec_internal.h"
 #include "arrow/compute/registry.h"
 #include "arrow/datum.h"
 #include "arrow/record_batch.h"
 #include "arrow/result.h"
+#include "arrow/table.h"
 #include "arrow/util/async_generator.h"
 #include "arrow/util/checked_cast.h"
+#include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/optional.h"
+#include "arrow/util/string.h"
 #include "arrow/util/tracing_internal.h"
+#include "arrow/util/vector.h"
 
 namespace arrow {
 
 using internal::checked_cast;
+using internal::ThreadPool;
+using internal::ToChars;
 
 namespace compute {
 
 namespace {
 
 struct ExecPlanImpl : public ExecPlan {
-  explicit ExecPlanImpl(ExecContext* exec_context,
-                        std::shared_ptr<const KeyValueMetadata> metadata = NULLPTR)
-      : ExecPlan(exec_context), metadata_(std::move(metadata)) {}
+  explicit ExecPlanImpl(QueryOptions options, ExecContext exec_context,
+                        std::shared_ptr<const KeyValueMetadata> metadata = nullptr,
+                        std::shared_ptr<ThreadPool> owned_thread_pool = nullptr)
+      : metadata_(std::move(metadata)),
+        query_context_(options, exec_context),
+        owned_thread_pool_(std::move(owned_thread_pool)) {}
 
   ~ExecPlanImpl() override {
     if (started_ && !finished_.is_finished()) {
@@ -57,12 +67,9 @@ struct ExecPlanImpl : public ExecPlan {
     }
   }
 
-  size_t GetThreadIndex() { return thread_indexer_(); }
-  size_t max_concurrency() const { return thread_indexer_.Capacity(); }
-
   ExecNode* AddNode(std::unique_ptr<ExecNode> node) {
     if (node->label().empty()) {
-      node->SetLabel(std::to_string(auto_label_counter_++));
+      node->SetLabel(ToChars(auto_label_counter_++));
     }
     if (node->num_inputs() == 0) {
       sources_.push_back(node.get());
@@ -74,45 +81,6 @@ struct ExecPlanImpl : public ExecPlan {
     return nodes_.back().get();
   }
 
-  Result<Future<>> BeginExternalTask() {
-    Future<> completion_future = Future<>::Make();
-    ARROW_ASSIGN_OR_RAISE(bool task_added,
-                          task_group_.AddTaskIfNotEnded(completion_future));
-    if (task_added) {
-      return std::move(completion_future);
-    }
-    // Return an invalid future if we were already finished to signal to the
-    // caller that they should not begin the task
-    return Future<>{};
-  }
-
-  Status ScheduleTask(std::function<Status()> fn) {
-    auto executor = exec_context_->executor();
-    if (!executor) return fn();
-    // Adds a task which submits fn to the executor and tracks its progress.  If we're
-    // already stopping then the task is ignored and fn is not executed.
-    return task_group_
-        .AddTaskIfNotEnded([executor, fn]() { return executor->Submit(std::move(fn)); })
-        .status();
-  }
-
-  Status ScheduleTask(std::function<Status(size_t)> fn) {
-    std::function<Status()> indexed_fn = [this, fn]() {
-      size_t thread_index = GetThreadIndex();
-      return fn(thread_index);
-    };
-    return ScheduleTask(std::move(indexed_fn));
-  }
-
-  int RegisterTaskGroup(std::function<Status(size_t, int64_t)> task,
-                        std::function<Status(size_t)> on_finished) {
-    return task_scheduler_->RegisterTaskGroup(std::move(task), std::move(on_finished));
-  }
-
-  Status StartTaskGroup(int task_group_id, int64_t num_tasks) {
-    return task_scheduler_->StartTaskGroup(GetThreadIndex(), task_group_id, num_tasks);
-  }
-
   Status Validate() const {
     if (nodes_.empty()) {
       return Status::Invalid("ExecPlan has no node");
@@ -124,93 +92,117 @@ struct ExecPlanImpl : public ExecPlan {
   }
 
   Status StartProducing() {
-    START_COMPUTE_SPAN(span_, "ExecPlan", {{"plan", ToString()}});
-#ifdef ARROW_WITH_OPENTELEMETRY
-    if (HasMetadata()) {
-      auto pairs = metadata().get()->sorted_pairs();
-      opentelemetry::nostd::shared_ptr<opentelemetry::trace::Span> span =
-          ::arrow::internal::tracing::UnwrapSpan(span_.details.get());
-      std::for_each(std::begin(pairs), std::end(pairs),
-                    [span](std::pair<std::string, std::string> const& pair) {
-                      span->SetAttribute(pair.first, pair.second);
-                    });
-    }
-#endif
     if (started_) {
       return Status::Invalid("restarted ExecPlan");
     }
-
-    std::vector<Future<>> futures;
-    for (auto& n : nodes_) {
-      RETURN_NOT_OK(n->Init());
-      futures.push_back(n->finished());
+    if (query_context_.exec_context()->executor() == nullptr) {
+      return Status::Invalid(
+          "An exec plan must have an executor for CPU tasks.  To run without threads use "
+          "a SerialExeuctor (the arrow::compute::DeclarationTo... methods should take "
+          "care of this for you and are an easier way to execute an ExecPlan.)");
     }
-
-    AllFinished(futures).AddCallback([this](const Status& st) {
-      error_st_ = st;
-      EndTaskGroup();
-    });
-
-    task_scheduler_->RegisterEnd();
-    int num_threads = 1;
-    bool sync_execution = true;
-    if (auto executor = exec_context()->executor()) {
-      num_threads = executor->GetCapacity();
-      sync_execution = false;
+    if (query_context_.io_context()->executor() == nullptr) {
+      return Status::Invalid("An exec plan must have an I/O executor for I/O tasks.");
     }
-    RETURN_NOT_OK(task_scheduler_->StartScheduling(
-        0 /* thread_index */,
-        [this](std::function<Status(size_t)> fn) -> Status {
-          return this->ScheduleTask(std::move(fn));
-        },
-        /*concurrent_tasks=*/2 * num_threads, sync_execution));
 
     started_ = true;
-    // producers precede consumers
-    sorted_nodes_ = TopoSort();
-
-    Status st = Status::OK();
 
-    using rev_it = std::reverse_iterator<NodeVector::iterator>;
-    for (rev_it it(sorted_nodes_.end()), end(sorted_nodes_.begin()); it != end; ++it) {
-      auto node = *it;
-
-      EVENT(span_, "StartProducing:" + node->label(),
-            {{"node.label", node->label()}, {"node.kind_name", node->kind_name()}});
-      st = node->StartProducing();
-      EVENT(span_, "StartProducing:" + node->label(), {{"status", st.ToString()}});
-      if (!st.ok()) {
-        // Stop nodes that successfully started, in reverse order
-        stopped_ = true;
-        StopProducingImpl(it.base(), sorted_nodes_.end());
-        for (NodeVector::iterator fw_it = sorted_nodes_.begin(); fw_it != it.base();
-             ++fw_it) {
-          Future<> fut = (*fw_it)->finished();
-          if (!fut.is_finished()) fut.MarkFinished();
-        }
-        return st;
-      }
-    }
-    return st;
-  }
-
-  void EndTaskGroup() {
-    bool expected = false;
-    if (group_ended_.compare_exchange_strong(expected, true)) {
-      task_group_.End().AddCallback([this](const Status& st) {
-        MARK_SPAN(span_, error_st_ & st);
-        END_SPAN(span_);
-        finished_.MarkFinished(error_st_ & st);
-      });
+    // We call StartProducing on each of the nodes.  The source nodes should generally
+    // start scheduling some tasks during this call.
+    //
+    // If no source node schedules any tasks (e.g. they do all their word synchronously as
+    // part of StartProducing) then the plan may be finished before we return from this
+    // call.
+    Future<> scheduler_finished = util::AsyncTaskScheduler::Make(
+        [this](util::AsyncTaskScheduler* async_scheduler) {
+          QueryContext* ctx = query_context();
+          RETURN_NOT_OK(ctx->Init(ctx->max_concurrency(), async_scheduler));
+
+          START_COMPUTE_SPAN(span_, "ExecPlan", {{"plan", ToString()}});
+#ifdef ARROW_WITH_OPENTELEMETRY
+          if (HasMetadata()) {
+            auto pairs = metadata().get()->sorted_pairs();
+            opentelemetry::nostd::shared_ptr<opentelemetry::trace::Span> span =
+                ::arrow::internal::tracing::UnwrapSpan(span_.details.get());
+            std::for_each(std::begin(pairs), std::end(pairs),
+                          [span](std::pair<std::string, std::string> const& pair) {
+                            span->SetAttribute(pair.first, pair.second);
+                          });
+          }
+#endif
+          // TODO(weston) The entire concept of ExecNode::finished() will hopefully go
+          // away soon (or at least be replaced by a sub-scheduler to facilitate OT)
+          for (auto& n : nodes_) {
+            RETURN_NOT_OK(n->Init());
+          }
+          for (auto& n : nodes_) {
+            async_scheduler->AddSimpleTask([&] { return n->finished(); });
+          }
+
+          ctx->scheduler()->RegisterEnd();
+          int num_threads = 1;
+          bool sync_execution = true;
+          if (auto executor = query_context()->exec_context()->executor()) {
+            num_threads = executor->GetCapacity();
+            sync_execution = false;
+          }
+          RETURN_NOT_OK(ctx->scheduler()->StartScheduling(
+              0 /* thread_index */,
+              [ctx](std::function<Status(size_t)> fn) -> Status {
+                return ctx->ScheduleTask(std::move(fn));
+              },
+              /*concurrent_tasks=*/2 * num_threads, sync_execution));
+
+          // producers precede consumers
+          sorted_nodes_ = TopoSort();
+
+          Status st = Status::OK();
+
+          using rev_it = std::reverse_iterator<NodeVector::iterator>;
+          for (rev_it it(sorted_nodes_.end()), end(sorted_nodes_.begin()); it != end;
+               ++it) {
+            auto node = *it;
+
+            EVENT(span_, "StartProducing:" + node->label(),
+                  {{"node.label", node->label()}, {"node.kind_name", node->kind_name()}});
+            st = node->StartProducing();
+            EVENT(span_, "StartProducing:" + node->label(), {{"status", st.ToString()}});
+            if (!st.ok()) {
+              // Stop nodes that successfully started, in reverse order
+              bool expected = false;
+              if (stopped_.compare_exchange_strong(expected, true)) {
+                StopProducingImpl(it.base(), sorted_nodes_.end());
+                for (NodeVector::iterator fw_it = sorted_nodes_.begin();
+                     fw_it != it.base(); ++fw_it) {
+                  Future<> fut = (*fw_it)->finished();
+                  if (!fut.is_finished()) fut.MarkFinished();
+                }
+              }
+              return st;
+            }
+          }
+          return st;
+        },
+        [this](const Status& st) { StopProducing(); });
+    scheduler_finished.AddCallback(
+        [this](const Status& st) { finished_.MarkFinished(st); });
+    // TODO(weston) Do we really need to return status here?  Could we change this return
+    // to void?
+    if (finished_.is_finished()) {
+      return finished_.status();
+    } else {
+      return Status::OK();
     }
   }
 
   void StopProducing() {
     DCHECK(started_) << "stopped an ExecPlan which never started";
     EVENT(span_, "StopProducing");
-    stopped_ = true;
-    task_scheduler_->Abort(
-        [this]() { StopProducingImpl(sorted_nodes_.begin(), sorted_nodes_.end()); });
+    bool expected = false;
+    if (stopped_.compare_exchange_strong(expected, true)) {
+      query_context()->scheduler()->Abort(
+          [this]() { StopProducingImpl(sorted_nodes_.begin(), sorted_nodes_.end()); });
+    }
   }
 
   template <typename It>
@@ -318,18 +310,18 @@ struct ExecPlanImpl : public ExecPlan {
 
   Status error_st_;
   Future<> finished_ = Future<>::Make();
-  bool started_ = false, stopped_ = false;
+  bool started_ = false;
+  std::atomic<bool> stopped_{false};
   std::vector<std::unique_ptr<ExecNode>> nodes_;
   NodeVector sources_, sinks_;
   NodeVector sorted_nodes_;
   uint32_t auto_label_counter_ = 0;
   util::tracing::Span span_;
   std::shared_ptr<const KeyValueMetadata> metadata_;
-
-  ThreadIndexer thread_indexer_;
-  std::atomic<bool> group_ended_{false};
-  util::AsyncTaskGroup task_group_;
-  std::unique_ptr<TaskScheduler> task_scheduler_ = TaskScheduler::Make();
+  QueryContext query_context_;
+  // This field only exists for backwards compatibility.  Remove once the deprecated
+  // ExecPlan::Make overloads have been removed.
+  std::shared_ptr<ThreadPool> owned_thread_pool_;
 };
 
 ExecPlanImpl* ToDerived(ExecPlan* ptr) { return checked_cast<ExecPlanImpl*>(ptr); }
@@ -338,21 +330,49 @@ const ExecPlanImpl* ToDerived(const ExecPlan* ptr) {
   return checked_cast<const ExecPlanImpl*>(ptr);
 }
 
-util::optional<int> GetNodeIndex(const std::vector<ExecNode*>& nodes,
-                                 const ExecNode* node) {
+std::optional<int> GetNodeIndex(const std::vector<ExecNode*>& nodes,
+                                const ExecNode* node) {
   for (int i = 0; i < static_cast<int>(nodes.size()); ++i) {
     if (nodes[i] == node) return i;
   }
-  return util::nullopt;
+  return std::nullopt;
 }
 
 }  // namespace
 
 const uint32_t ExecPlan::kMaxBatchSize;
 
+Result<std::shared_ptr<ExecPlan>> ExecPlan::Make(
+    QueryOptions opts, ExecContext ctx,
+    std::shared_ptr<const KeyValueMetadata> metadata) {
+  return std::shared_ptr<ExecPlan>(new ExecPlanImpl{opts, ctx, std::move(metadata)});
+}
+
+Result<std::shared_ptr<ExecPlan>> ExecPlan::Make(
+    ExecContext ctx, std::shared_ptr<const KeyValueMetadata> metadata) {
+  return Make(/*opts=*/{}, ctx, std::move(metadata));
+}
+
+// Deprecated and left for backwards compatibility.  If the user does not supply a CPU
+// executor then we will create a 1 thread pool and tie its lifetime to the plan
+Result<std::shared_ptr<ExecPlan>> ExecPlan::Make(
+    QueryOptions opts, ExecContext* ctx,
+    std::shared_ptr<const KeyValueMetadata> metadata) {
+  if (ctx->executor() == nullptr) {
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<ThreadPool> tpool, ThreadPool::Make(1));
+    ExecContext actual_ctx(ctx->memory_pool(), tpool.get(), ctx->func_registry());
+    return std::shared_ptr<ExecPlan>(
+        new ExecPlanImpl{opts, actual_ctx, std::move(metadata), std::move(tpool)});
+  }
+  return ExecPlan::Make(opts, *ctx, std::move(metadata));
+}
+
+// Deprecated
 Result<std::shared_ptr<ExecPlan>> ExecPlan::Make(
     ExecContext* ctx, std::shared_ptr<const KeyValueMetadata> metadata) {
-  return std::shared_ptr<ExecPlan>(new ExecPlanImpl{ctx, metadata});
+  ARROW_SUPPRESS_DEPRECATION_WARNING
+  return Make(/*opts=*/{}, ctx, std::move(metadata));
+  ARROW_UNSUPPRESS_DEPRECATION_WARNING
 }
 
 ExecNode* ExecPlan::AddNode(std::unique_ptr<ExecNode> node) {
@@ -365,26 +385,7 @@ const ExecPlan::NodeVector& ExecPlan::sources() const {
 
 const ExecPlan::NodeVector& ExecPlan::sinks() const { return ToDerived(this)->sinks_; }
 
-size_t ExecPlan::GetThreadIndex() { return ToDerived(this)->GetThreadIndex(); }
-size_t ExecPlan::max_concurrency() const { return ToDerived(this)->max_concurrency(); }
-
-Result<Future<>> ExecPlan::BeginExternalTask() {
-  return ToDerived(this)->BeginExternalTask();
-}
-
-Status ExecPlan::ScheduleTask(std::function<Status()> fn) {
-  return ToDerived(this)->ScheduleTask(std::move(fn));
-}
-Status ExecPlan::ScheduleTask(std::function<Status(size_t)> fn) {
-  return ToDerived(this)->ScheduleTask(std::move(fn));
-}
-int ExecPlan::RegisterTaskGroup(std::function<Status(size_t, int64_t)> task,
-                                std::function<Status(size_t)> on_finished) {
-  return ToDerived(this)->RegisterTaskGroup(std::move(task), std::move(on_finished));
-}
-Status ExecPlan::StartTaskGroup(int task_group_id, int64_t num_tasks) {
-  return ToDerived(this)->StartTaskGroup(task_group_id, num_tasks);
-}
+QueryContext* ExecPlan::query_context() { return &ToDerived(this)->query_context_; }
 
 Status ExecPlan::Validate() { return ToDerived(this)->Validate(); }
 
@@ -469,103 +470,9 @@ bool ExecNode::ErrorIfNotOk(Status status) {
   return true;
 }
 
-MapNode::MapNode(ExecPlan* plan, std::vector<ExecNode*> inputs,
-                 std::shared_ptr<Schema> output_schema, bool async_mode)
-    : ExecNode(plan, std::move(inputs), /*input_labels=*/{"target"},
-               std::move(output_schema),
-               /*num_outputs=*/1) {
-  if (async_mode) {
-    executor_ = plan_->exec_context()->executor();
-  } else {
-    executor_ = nullptr;
-  }
-}
-
-void MapNode::ErrorReceived(ExecNode* input, Status error) {
-  DCHECK_EQ(input, inputs_[0]);
-  EVENT(span_, "ErrorReceived", {{"error.message", error.message()}});
-  outputs_[0]->ErrorReceived(this, std::move(error));
-}
-
-void MapNode::InputFinished(ExecNode* input, int total_batches) {
-  DCHECK_EQ(input, inputs_[0]);
-  EVENT(span_, "InputFinished", {{"batches.length", total_batches}});
-  outputs_[0]->InputFinished(this, total_batches);
-  if (input_counter_.SetTotal(total_batches)) {
-    this->Finish();
-  }
-}
-
-Status MapNode::StartProducing() {
-  START_COMPUTE_SPAN(
-      span_, std::string(kind_name()) + ":" + label(),
-      {{"node.label", label()}, {"node.detail", ToString()}, {"node.kind", kind_name()}});
-  return Status::OK();
-}
-
-void MapNode::PauseProducing(ExecNode* output, int32_t counter) {
-  inputs_[0]->PauseProducing(this, counter);
-}
-
-void MapNode::ResumeProducing(ExecNode* output, int32_t counter) {
-  inputs_[0]->ResumeProducing(this, counter);
-}
-
-void MapNode::StopProducing(ExecNode* output) {
-  DCHECK_EQ(output, outputs_[0]);
-  StopProducing();
-}
-
-void MapNode::StopProducing() {
-  EVENT(span_, "StopProducing");
-  if (executor_) {
-    this->stop_source_.RequestStop();
-  }
-  if (input_counter_.Cancel()) {
-    this->Finish();
-  }
-  inputs_[0]->StopProducing(this);
-}
-
-void MapNode::SubmitTask(std::function<Result<ExecBatch>(ExecBatch)> map_fn,
-                         ExecBatch batch) {
-  Status status;
-  // This will be true if the node is stopped early due to an error or manual
-  // cancellation
-  if (input_counter_.Completed()) {
-    return;
-  }
-  auto task = [this, map_fn, batch]() {
-    auto guarantee = batch.guarantee;
-    auto output_batch = map_fn(std::move(batch));
-    if (ErrorIfNotOk(output_batch.status())) {
-      return output_batch.status();
-    }
-    output_batch->guarantee = guarantee;
-    outputs_[0]->InputReceived(this, output_batch.MoveValueUnsafe());
-    return Status::OK();
-  };
-
-  status = task();
-  if (!status.ok()) {
-    if (input_counter_.Cancel()) {
-      this->Finish(status);
-    }
-    inputs_[0]->StopProducing(this);
-    return;
-  }
-  if (input_counter_.Increment()) {
-    this->Finish();
-  }
-}
-
-void MapNode::Finish(Status finish_st /*= Status::OK()*/) {
-  this->finished_.MarkFinished(finish_st);
-}
-
 std::shared_ptr<RecordBatchReader> MakeGeneratorReader(
-    std::shared_ptr<Schema> schema,
-    std::function<Future<util::optional<ExecBatch>>()> gen, MemoryPool* pool) {
+    std::shared_ptr<Schema> schema, std::function<Future<std::optional<ExecBatch>>()> gen,
+    MemoryPool* pool) {
   struct Impl : RecordBatchReader {
     std::shared_ptr<Schema> schema() const override { return schema_; }
 
@@ -583,7 +490,7 @@ std::shared_ptr<RecordBatchReader> MakeGeneratorReader(
       // reading from generator until end is reached.
       std::shared_ptr<RecordBatch> batch;
       RETURN_NOT_OK(ReadNext(&batch));
-      while (batch != NULLPTR) {
+      while (batch != nullptr) {
         RETURN_NOT_OK(ReadNext(&batch));
       }
       return Status::OK();
@@ -591,7 +498,7 @@ std::shared_ptr<RecordBatchReader> MakeGeneratorReader(
 
     MemoryPool* pool_;
     std::shared_ptr<Schema> schema_;
-    Iterator<util::optional<ExecBatch>> iterator_;
+    Iterator<std::optional<ExecBatch>> iterator_;
   };
 
   auto out = std::make_shared<Impl>();
@@ -607,12 +514,12 @@ Result<ExecNode*> Declaration::AddToPlan(ExecPlan* plan,
 
   size_t i = 0;
   for (const Input& input : this->inputs) {
-    if (auto node = util::get_if<ExecNode*>(&input)) {
+    if (auto node = std::get_if<ExecNode*>(&input)) {
       inputs[i++] = *node;
       continue;
     }
     ARROW_ASSIGN_OR_RAISE(inputs[i++],
-                          util::get<Declaration>(input).AddToPlan(plan, registry));
+                          std::get<Declaration>(input).AddToPlan(plan, registry));
   }
 
   ARROW_ASSIGN_OR_RAISE(
@@ -633,11 +540,277 @@ Declaration Declaration::Sequence(std::vector<Declaration> decls) {
     decls.pop_back();
 
     receiver->inputs.emplace_back(std::move(input));
-    receiver = &util::get<Declaration>(receiver->inputs.front());
+    receiver = &std::get<Declaration>(receiver->inputs.front());
   }
   return out;
 }
 
+bool Declaration::IsValid(ExecFactoryRegistry* registry) const {
+  return !this->factory_name.empty() && this->options != nullptr;
+}
+
+Future<std::shared_ptr<Table>> DeclarationToTableAsync(Declaration declaration,
+                                                       ExecContext exec_context) {
+  std::shared_ptr<std::shared_ptr<Table>> output_table =
+      std::make_shared<std::shared_ptr<Table>>();
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<ExecPlan> exec_plan,
+                        ExecPlan::Make(exec_context));
+  Declaration with_sink = Declaration::Sequence(
+      {declaration, {"table_sink", TableSinkNodeOptions(output_table.get())}});
+  ARROW_RETURN_NOT_OK(with_sink.AddToPlan(exec_plan.get()));
+  ARROW_RETURN_NOT_OK(exec_plan->Validate());
+  ARROW_RETURN_NOT_OK(exec_plan->StartProducing());
+  return exec_plan->finished().Then([exec_plan, output_table] { return *output_table; });
+}
+
+Future<std::shared_ptr<Table>> DeclarationToTableAsync(
+    Declaration declaration, bool use_threads, MemoryPool* memory_pool,
+    FunctionRegistry* function_registry) {
+  if (use_threads) {
+    ExecContext ctx(memory_pool, ::arrow::internal::GetCpuThreadPool(),
+                    function_registry);
+    return DeclarationToTableAsync(std::move(declaration), ctx);
+  } else {
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<ThreadPool> tpool, ThreadPool::Make(1));
+    ExecContext ctx(memory_pool, tpool.get(), function_registry);
+    return DeclarationToTableAsync(std::move(declaration), ctx)
+        .Then([tpool](const std::shared_ptr<Table>& table) { return table; });
+  }
+}
+
+Result<std::shared_ptr<Table>> DeclarationToTable(Declaration declaration,
+                                                  bool use_threads,
+                                                  MemoryPool* memory_pool,
+                                                  FunctionRegistry* function_registry) {
+  return ::arrow::internal::RunSynchronously<Future<std::shared_ptr<Table>>>(
+      [=, declaration = std::move(declaration)](::arrow::internal::Executor* executor) {
+        ExecContext ctx(memory_pool, executor, function_registry);
+        return DeclarationToTableAsync(std::move(declaration), ctx);
+      },
+      use_threads);
+}
+
+Future<std::vector<std::shared_ptr<RecordBatch>>> DeclarationToBatchesAsync(
+    Declaration declaration, ExecContext exec_context) {
+  return DeclarationToTableAsync(std::move(declaration), exec_context)
+      .Then([](const std::shared_ptr<Table>& table) {
+        return TableBatchReader(table).ToRecordBatches();
+      });
+}
+
+Future<std::vector<std::shared_ptr<RecordBatch>>> DeclarationToBatchesAsync(
+    Declaration declaration, bool use_threads, MemoryPool* memory_pool,
+    FunctionRegistry* function_registry) {
+  if (use_threads) {
+    ExecContext ctx(memory_pool, ::arrow::internal::GetCpuThreadPool(),
+                    function_registry);
+    return DeclarationToBatchesAsync(std::move(declaration), ctx);
+  } else {
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<ThreadPool> tpool, ThreadPool::Make(1));
+    ExecContext ctx(memory_pool, tpool.get(), function_registry);
+    return DeclarationToBatchesAsync(std::move(declaration), ctx)
+        .Then([tpool](const std::vector<std::shared_ptr<RecordBatch>>& batches) {
+          return batches;
+        });
+  }
+}
+
+Result<std::vector<std::shared_ptr<RecordBatch>>> DeclarationToBatches(
+    Declaration declaration, bool use_threads, MemoryPool* memory_pool,
+    FunctionRegistry* function_registry) {
+  return ::arrow::internal::RunSynchronously<
+      Future<std::vector<std::shared_ptr<RecordBatch>>>>(
+      [=, declaration = std::move(declaration)](::arrow::internal::Executor* executor) {
+        ExecContext ctx(memory_pool, executor, function_registry);
+        return DeclarationToBatchesAsync(std::move(declaration), ctx);
+      },
+      use_threads);
+}
+
+Future<BatchesWithCommonSchema> DeclarationToExecBatchesAsync(Declaration declaration,
+                                                              ExecContext exec_context) {
+  std::shared_ptr<Schema> out_schema;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<ExecPlan> exec_plan,
+                        ExecPlan::Make(exec_context));
+  Declaration with_sink = Declaration::Sequence(
+      {declaration, {"sink", SinkNodeOptions(&sink_gen, &out_schema)}});
+  ARROW_RETURN_NOT_OK(with_sink.AddToPlan(exec_plan.get()));
+  ARROW_RETURN_NOT_OK(exec_plan->Validate());
+  ARROW_RETURN_NOT_OK(exec_plan->StartProducing());
+  auto collected_fut = CollectAsyncGenerator(sink_gen);
+  return AllFinished({exec_plan->finished(), Future<>(collected_fut)})
+      .Then([collected_fut, exec_plan,
+             schema = std::move(out_schema)]() -> Result<BatchesWithCommonSchema> {
+        ARROW_ASSIGN_OR_RAISE(auto collected, collected_fut.result());
+        std::vector<ExecBatch> exec_batches = ::arrow::internal::MapVector(
+            [](std::optional<ExecBatch> batch) { return batch.value_or(ExecBatch()); },
+            std::move(collected));
+        return BatchesWithCommonSchema{std::move(exec_batches), schema};
+      });
+}
+
+Future<BatchesWithCommonSchema> DeclarationToExecBatchesAsync(
+    Declaration declaration, bool use_threads, MemoryPool* memory_pool,
+    FunctionRegistry* function_registry) {
+  if (use_threads) {
+    ExecContext ctx(memory_pool, ::arrow::internal::GetCpuThreadPool(),
+                    function_registry);
+    return DeclarationToExecBatchesAsync(std::move(declaration), ctx);
+  } else {
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<ThreadPool> tpool, ThreadPool::Make(1));
+    ExecContext ctx(memory_pool, tpool.get(), function_registry);
+    return DeclarationToExecBatchesAsync(std::move(declaration), ctx)
+        .Then([tpool](const BatchesWithCommonSchema& batches) { return batches; });
+  }
+}
+
+Result<BatchesWithCommonSchema> DeclarationToExecBatches(
+    Declaration declaration, bool use_threads, MemoryPool* memory_pool,
+    FunctionRegistry* function_registry) {
+  return ::arrow::internal::RunSynchronously<Future<BatchesWithCommonSchema>>(
+      [=, declaration = std::move(declaration)](::arrow::internal::Executor* executor) {
+        ExecContext ctx(memory_pool, executor, function_registry);
+        return DeclarationToExecBatchesAsync(std::move(declaration), ctx);
+      },
+      use_threads);
+}
+
+Future<> DeclarationToStatusAsync(Declaration declaration, ExecContext exec_context) {
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<ExecPlan> exec_plan,
+                        ExecPlan::Make(exec_context));
+  ARROW_ASSIGN_OR_RAISE(ExecNode * last_node, declaration.AddToPlan(exec_plan.get()));
+  for (int i = 0; i < last_node->num_outputs(); i++) {
+    ARROW_RETURN_NOT_OK(
+        Declaration("consuming_sink", {last_node},
+                    ConsumingSinkNodeOptions(NullSinkNodeConsumer::Make()))
+            .AddToPlan(exec_plan.get()));
+  }
+  ARROW_RETURN_NOT_OK(exec_plan->Validate());
+  ARROW_RETURN_NOT_OK(exec_plan->StartProducing());
+  // Keep the exec_plan alive until it finishes
+  return exec_plan->finished().Then([exec_plan]() {});
+}
+
+Future<> DeclarationToStatusAsync(Declaration declaration, bool use_threads,
+                                  MemoryPool* memory_pool,
+                                  FunctionRegistry* function_registry) {
+  if (use_threads) {
+    ExecContext ctx(memory_pool, ::arrow::internal::GetCpuThreadPool(),
+                    function_registry);
+    return DeclarationToStatusAsync(std::move(declaration), ctx);
+  } else {
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<ThreadPool> tpool, ThreadPool::Make(1));
+    ExecContext ctx(memory_pool, tpool.get(), function_registry);
+    return DeclarationToStatusAsync(std::move(declaration), ctx).Then([tpool]() {});
+  }
+}
+
+Status DeclarationToStatus(Declaration declaration, bool use_threads,
+                           MemoryPool* memory_pool, FunctionRegistry* function_registry) {
+  return ::arrow::internal::RunSynchronously<Future<>>(
+      [=, declaration = std::move(declaration)](::arrow::internal::Executor* executor) {
+        ExecContext ctx(memory_pool, executor, function_registry);
+        return DeclarationToStatusAsync(std::move(declaration), ctx);
+      },
+      use_threads);
+}
+
+namespace {
+struct BatchConverter {
+  ~BatchConverter() {
+    if (!exec_plan) {
+      return;
+    }
+    if (exec_plan->finished().is_finished()) {
+      return;
+    }
+    exec_plan->StopProducing();
+    Status abandoned_status = exec_plan->finished().status();
+    if (!abandoned_status.ok()) {
+      abandoned_status.Warn();
+    }
+  }
+
+  Future<std::shared_ptr<RecordBatch>> operator()() {
+    return exec_batch_gen().Then(
+        [this](const std::optional<ExecBatch>& batch)
+            -> Future<std::shared_ptr<RecordBatch>> {
+          if (batch) {
+            return batch->ToRecordBatch(schema);
+          } else {
+            return exec_plan->finished().Then(
+                []() -> std::shared_ptr<RecordBatch> { return nullptr; });
+          }
+        },
+        [this](const Status& err) {
+          return exec_plan->finished().Then(
+              [err]() -> Result<std::shared_ptr<RecordBatch>> { return err; });
+        });
+  }
+
+  AsyncGenerator<std::optional<ExecBatch>> exec_batch_gen;
+  std::shared_ptr<Schema> schema;
+  std::shared_ptr<ExecPlan> exec_plan;
+};
+
+Result<AsyncGenerator<std::shared_ptr<RecordBatch>>> DeclarationToRecordBatchGenerator(
+    Declaration declaration, ExecContext exec_ctx, std::shared_ptr<Schema>* out_schema) {
+  auto converter = std::make_shared<BatchConverter>();
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<ExecPlan> plan, ExecPlan::Make(exec_ctx));
+  Declaration with_sink = Declaration::Sequence(
+      {declaration,
+       {"sink", SinkNodeOptions(&converter->exec_batch_gen, &converter->schema)}});
+  ARROW_RETURN_NOT_OK(with_sink.AddToPlan(plan.get()));
+  ARROW_RETURN_NOT_OK(plan->StartProducing());
+  converter->exec_plan = std::move(plan);
+  *out_schema = converter->schema;
+  return [conv = std::move(converter)] { return (*conv)(); };
+}
+}  // namespace
+
+Result<std::unique_ptr<RecordBatchReader>> DeclarationToReader(
+    Declaration declaration, bool use_threads, MemoryPool* memory_pool,
+    FunctionRegistry* function_registry) {
+  std::shared_ptr<Schema> schema;
+  auto batch_iterator = std::make_unique<Iterator<std::shared_ptr<RecordBatch>>>(
+      ::arrow::internal::IterateSynchronously<std::shared_ptr<RecordBatch>>(
+          [&](::arrow::internal::Executor* executor)
+              -> Result<AsyncGenerator<std::shared_ptr<RecordBatch>>> {
+            ExecContext exec_ctx(memory_pool, executor, function_registry);
+            return DeclarationToRecordBatchGenerator(declaration, exec_ctx, &schema);
+          },
+          use_threads));
+
+  struct PlanReader : RecordBatchReader {
+    PlanReader(std::shared_ptr<Schema> schema,
+               std::unique_ptr<Iterator<std::shared_ptr<RecordBatch>>> iterator)
+        : schema_(std::move(schema)), iterator_(std::move(iterator)) {}
+
+    std::shared_ptr<Schema> schema() const override { return schema_; }
+
+    Status ReadNext(std::shared_ptr<RecordBatch>* record_batch) override {
+      DCHECK(!!iterator_) << "call to ReadNext on already closed reader";
+      return iterator_->Next().Value(record_batch);
+    }
+
+    Status Close() override {
+      // End plan and read from generator until finished
+      std::shared_ptr<RecordBatch> batch;
+      do {
+        ARROW_RETURN_NOT_OK(ReadNext(&batch));
+      } while (batch != nullptr);
+      iterator_.reset();
+      return Status::OK();
+    }
+
+    std::shared_ptr<Schema> schema_;
+    std::unique_ptr<Iterator<std::shared_ptr<RecordBatch>>> iterator_;
+  };
+
+  return std::make_unique<PlanReader>(std::move(schema), std::move(batch_iterator));
+}
+
 namespace internal {
 
 void RegisterSourceNode(ExecFactoryRegistry*);
@@ -694,12 +867,12 @@ ExecFactoryRegistry* default_exec_factory_registry() {
   return &instance;
 }
 
-Result<std::function<Future<util::optional<ExecBatch>>()>> MakeReaderGenerator(
+Result<std::function<Future<std::optional<ExecBatch>>()>> MakeReaderGenerator(
     std::shared_ptr<RecordBatchReader> reader, ::arrow::internal::Executor* io_executor,
     int max_q, int q_restart) {
   auto batch_it = MakeMapIterator(
       [](std::shared_ptr<RecordBatch> batch) {
-        return util::make_optional(ExecBatch(*batch));
+        return std::make_optional(ExecBatch(*batch));
       },
       MakeIteratorFromReader(reader));
 
diff --git a/cpp/src/arrow/compute/exec/exec_plan.h b/cpp/src/arrow/compute/exec/exec_plan.h
index 5e52f606a69..a1a89158c54 100644
--- a/cpp/src/arrow/compute/exec/exec_plan.h
+++ b/cpp/src/arrow/compute/exec/exec_plan.h
@@ -17,27 +17,31 @@
 
 #pragma once
 
+#include <cstddef>
+#include <cstdint>
 #include <functional>
 #include <memory>
+#include <optional>
 #include <string>
+#include <utility>
 #include <vector>
 
 #include "arrow/compute/exec.h"
-#include "arrow/compute/exec/util.h"
 #include "arrow/compute/type_fwd.h"
 #include "arrow/type_fwd.h"
-#include "arrow/util/async_util.h"
-#include "arrow/util/cancel.h"
-#include "arrow/util/key_value_metadata.h"
+#include "arrow/util/future.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/tracing.h"
+#include "arrow/util/type_fwd.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
 
 namespace compute {
 
+/// \addtogroup execnode-components
+/// @{
+
 class ARROW_EXPORT ExecPlan : public std::enable_shared_from_this<ExecPlan> {
  public:
   // This allows operators to rely on signed 16-bit indices
@@ -46,11 +50,23 @@ class ARROW_EXPORT ExecPlan : public std::enable_shared_from_this<ExecPlan> {
 
   virtual ~ExecPlan() = default;
 
-  ExecContext* exec_context() const { return exec_context_; }
+  QueryContext* query_context();
 
   /// Make an empty exec plan
   static Result<std::shared_ptr<ExecPlan>> Make(
-      ExecContext* = default_exec_context(),
+      QueryOptions options, ExecContext exec_context = *threaded_exec_context(),
+      std::shared_ptr<const KeyValueMetadata> metadata = NULLPTR);
+
+  static Result<std::shared_ptr<ExecPlan>> Make(
+      ExecContext exec_context = *threaded_exec_context(),
+      std::shared_ptr<const KeyValueMetadata> metadata = NULLPTR);
+
+  static Result<std::shared_ptr<ExecPlan>> Make(
+      QueryOptions options, ExecContext* exec_context,
+      std::shared_ptr<const KeyValueMetadata> metadata = NULLPTR);
+
+  static Result<std::shared_ptr<ExecPlan>> Make(
+      ExecContext* exec_context,
       std::shared_ptr<const KeyValueMetadata> metadata = NULLPTR);
 
   ExecNode* AddNode(std::unique_ptr<ExecNode> node);
@@ -63,60 +79,6 @@ class ARROW_EXPORT ExecPlan : public std::enable_shared_from_this<ExecPlan> {
     return out;
   }
 
-  /// \brief Returns the index of the current thread.
-  size_t GetThreadIndex();
-  /// \brief Returns the maximum number of threads that the plan could use.
-  ///
-  /// GetThreadIndex will always return something less than this, so it is safe to
-  /// e.g. make an array of thread-locals off this.
-  size_t max_concurrency() const;
-
-  /// \brief Start an external task
-  ///
-  /// This should be avoided if possible.  It is kept in for now for legacy
-  /// purposes.  This should be called before the external task is started.  If
-  /// a valid future is returned then it should be marked complete when the
-  /// external task has finished.
-  ///
-  /// \return an invalid future if the plan has already ended, otherwise this
-  ///         returns a future that must be completed when the external task
-  ///         finishes.
-  Result<Future<>> BeginExternalTask();
-
-  /// \brief Add a single function as a task to the plan's task group.
-  ///
-  /// \param fn The task to run. Takes no arguments and returns a Status.
-  Status ScheduleTask(std::function<Status()> fn);
-
-  /// \brief Add a single function as a task to the plan's task group.
-  ///
-  /// \param fn The task to run. Takes the thread index and returns a Status.
-  Status ScheduleTask(std::function<Status(size_t)> fn);
-  // Register/Start TaskGroup is a way of performing a "Parallel For" pattern:
-  // - The task function takes the thread index and the index of the task
-  // - The on_finished function takes the thread index
-  // Returns an integer ID that will be used to reference the task group in
-  // StartTaskGroup. At runtime, call StartTaskGroup with the ID and the number of times
-  // you'd like the task to be executed. The need to register a task group before use will
-  // be removed after we rewrite the scheduler.
-  /// \brief Register a "parallel for" task group with the scheduler
-  ///
-  /// \param task The function implementing the task. Takes the thread_index and
-  ///             the task index.
-  /// \param on_finished The function that gets run once all tasks have been completed.
-  /// Takes the thread_index.
-  ///
-  /// Must be called inside of ExecNode::Init.
-  int RegisterTaskGroup(std::function<Status(size_t, int64_t)> task,
-                        std::function<Status(size_t)> on_finished);
-
-  /// \brief Start the task group with the specified ID. This can only
-  ///        be called once per task_group_id.
-  ///
-  /// \param task_group_id The ID  of the task group to run
-  /// \param num_tasks The number of times to run the task
-  Status StartTaskGroup(int task_group_id, int64_t num_tasks);
-
   /// The initial inputs
   const NodeVector& sources() const;
 
@@ -146,25 +108,7 @@ class ARROW_EXPORT ExecPlan : public std::enable_shared_from_this<ExecPlan> {
   /// \brief Return the plan's attached metadata
   std::shared_ptr<const KeyValueMetadata> metadata() const;
 
-  /// \brief Should the plan use a legacy batching strategy
-  ///
-  /// This is currently in place only to support the Scanner::ToTable
-  /// method.  This method relies on batch indices from the scanner
-  /// remaining consistent.  This is impractical in the ExecPlan which
-  /// might slice batches as needed (e.g. for a join)
-  ///
-  /// However, it still works for simple plans and this is the only way
-  /// we have at the moment for maintaining implicit order.
-  bool UseLegacyBatching() const { return use_legacy_batching_; }
-  // For internal use only, see above comment
-  void SetUseLegacyBatching(bool value) { use_legacy_batching_ = value; }
-
   std::string ToString() const;
-
- protected:
-  ExecContext* exec_context_;
-  bool use_legacy_batching_ = false;
-  explicit ExecPlan(ExecContext* exec_context) : exec_context_(exec_context) {}
 };
 
 class ARROW_EXPORT ExecNode {
@@ -364,48 +308,6 @@ class ARROW_EXPORT ExecNode {
   util::tracing::Span span_;
 };
 
-/// \brief MapNode is an ExecNode type class which process a task like filter/project
-/// (See SubmitTask method) to each given ExecBatch object, which have one input, one
-/// output, and are pure functions on the input
-///
-/// A simple parallel runner is created with a "map_fn" which is just a function that
-/// takes a batch in and returns a batch.  This simple parallel runner also needs an
-/// executor (use simple synchronous runner if there is no executor)
-
-class ARROW_EXPORT MapNode : public ExecNode {
- public:
-  MapNode(ExecPlan* plan, std::vector<ExecNode*> inputs,
-          std::shared_ptr<Schema> output_schema, bool async_mode);
-
-  void ErrorReceived(ExecNode* input, Status error) override;
-
-  void InputFinished(ExecNode* input, int total_batches) override;
-
-  Status StartProducing() override;
-
-  void PauseProducing(ExecNode* output, int32_t counter) override;
-
-  void ResumeProducing(ExecNode* output, int32_t counter) override;
-
-  void StopProducing(ExecNode* output) override;
-
-  void StopProducing() override;
-
- protected:
-  void SubmitTask(std::function<Result<ExecBatch>(ExecBatch)> map_fn, ExecBatch batch);
-
-  virtual void Finish(Status finish_st = Status::OK());
-
- protected:
-  // Counter for the number of batches received
-  AtomicCounter input_counter_;
-
-  ::arrow::internal::Executor* executor_;
-
-  // Variable used to cancel remaining tasks in the executor
-  StopSource stop_source_;
-};
-
 /// \brief An extensible registry for factories of ExecNodes
 class ARROW_EXPORT ExecFactoryRegistry {
  public:
@@ -444,7 +346,9 @@ inline Result<ExecNode*> MakeExecNode(
 /// inputs may also be Declarations). The node can be constructed and added to a plan
 /// with Declaration::AddToPlan, which will recursively construct any inputs as necessary.
 struct ARROW_EXPORT Declaration {
-  using Input = util::Variant<ExecNode*, Declaration>;
+  using Input = std::variant<ExecNode*, Declaration>;
+
+  Declaration() {}
 
   Declaration(std::string factory_name, std::vector<Input> inputs,
               std::shared_ptr<ExecNodeOptions> options, std::string label)
@@ -509,18 +413,165 @@ struct ARROW_EXPORT Declaration {
   Result<ExecNode*> AddToPlan(ExecPlan* plan, ExecFactoryRegistry* registry =
                                                   default_exec_factory_registry()) const;
 
+  // Validate a declaration
+  bool IsValid(ExecFactoryRegistry* registry = default_exec_factory_registry()) const;
+
   std::string factory_name;
   std::vector<Input> inputs;
   std::shared_ptr<ExecNodeOptions> options;
   std::string label;
 };
 
+/// \brief Utility method to run a declaration and collect the results into a table
+///
+/// \param declaration A declaration describing the plan to run
+/// \param use_threads If `use_threads` is false then all CPU work will be done on the
+///                    calling thread.  I/O tasks will still happen on the I/O executor
+///                    and may be multi-threaded (but should not use significant CPU
+///                    resources).
+/// \param memory_pool The memory pool to use for allocations made while running the plan.
+/// \param function_registry The function registry to use for function execution.  If null
+///                          then the default function registry will be used.
+///
+/// This method will add a sink node to the declaration to collect results into a
+/// table.  It will then create an ExecPlan from the declaration, start the exec plan,
+/// block until the plan has finished, and return the created table.
+ARROW_EXPORT Result<std::shared_ptr<Table>> DeclarationToTable(
+    Declaration declaration, bool use_threads = true,
+    MemoryPool* memory_pool = default_memory_pool(),
+    FunctionRegistry* function_registry = NULLPTR);
+
+/// \brief Asynchronous version of \see DeclarationToTable
+///
+/// \param declaration A declaration describing the plan to run
+/// \param use_threads The behavior of use_threads is slightly different than the
+///                    synchronous version since we cannot run synchronously on the
+///                    calling thread. Instead, if use_threads=false then a new thread
+///                    pool will be created with a single thread and this will be used for
+///                    all compute work.
+/// \param memory_pool The memory pool to use for allocations made while running the plan.
+/// \param function_registry The function registry to use for function execution. If null
+///                          then the default function registry will be used.
+ARROW_EXPORT Future<std::shared_ptr<Table>> DeclarationToTableAsync(
+    Declaration declaration, bool use_threads = true,
+    MemoryPool* memory_pool = default_memory_pool(),
+    FunctionRegistry* function_registry = NULLPTR);
+
+/// \brief Overload of \see DeclarationToTableAsync accepting a custom exec context
+///
+/// The executor must be specified (cannot be null) and must be kept alive until the
+/// returned future finishes.
+ARROW_EXPORT Future<std::shared_ptr<Table>> DeclarationToTableAsync(
+    Declaration declaration, ExecContext custom_exec_context);
+
+/// \brief a collection of exec batches with a common schema
+struct BatchesWithCommonSchema {
+  std::vector<ExecBatch> batches;
+  std::shared_ptr<Schema> schema;
+};
+
+/// \brief Utility method to run a declaration and collect the results into ExecBatch
+/// vector
+///
+/// \see DeclarationToTable for details on threading & execution
+ARROW_EXPORT Result<BatchesWithCommonSchema> DeclarationToExecBatches(
+    Declaration declaration, bool use_threads = true,
+    MemoryPool* memory_pool = default_memory_pool(),
+    FunctionRegistry* function_registry = NULLPTR);
+
+/// \brief Asynchronous version of \see DeclarationToExecBatches
+///
+/// \see DeclarationToTableAsync for details on threading & execution
+ARROW_EXPORT Future<BatchesWithCommonSchema> DeclarationToExecBatchesAsync(
+    Declaration declaration, bool use_threads = true,
+    MemoryPool* memory_pool = default_memory_pool(),
+    FunctionRegistry* function_registry = NULLPTR);
+
+/// \brief Overload of \see DeclarationToExecBatchesAsync accepting a custom exec context
+///
+/// \see DeclarationToTableAsync for details on threading & execution
+ARROW_EXPORT Future<BatchesWithCommonSchema> DeclarationToExecBatchesAsync(
+    Declaration declaration, ExecContext custom_exec_context);
+
+/// \brief Utility method to run a declaration and collect the results into a vector
+///
+/// \see DeclarationToTable for details on threading & execution
+ARROW_EXPORT Result<std::vector<std::shared_ptr<RecordBatch>>> DeclarationToBatches(
+    Declaration declaration, bool use_threads = true,
+    MemoryPool* memory_pool = default_memory_pool(),
+    FunctionRegistry* function_registry = NULLPTR);
+
+/// \brief Asynchronous version of \see DeclarationToBatches
+///
+/// \see DeclarationToTableAsync for details on threading & execution
+ARROW_EXPORT Future<std::vector<std::shared_ptr<RecordBatch>>> DeclarationToBatchesAsync(
+    Declaration declaration, bool use_threads = true,
+    MemoryPool* memory_pool = default_memory_pool(),
+    FunctionRegistry* function_registry = NULLPTR);
+
+/// \brief Overload of \see DeclarationToBatchesAsync accepting a custom exec context
+///
+/// \see DeclarationToTableAsync for details on threading & execution
+ARROW_EXPORT Future<std::vector<std::shared_ptr<RecordBatch>>> DeclarationToBatchesAsync(
+    Declaration declaration, ExecContext exec_context);
+
+/// \brief Utility method to run a declaration and return results as a RecordBatchReader
+///
+/// If an exec context is not provided then a default exec context will be used based
+/// on the value of `use_threads`.  If `use_threads` is false then the CPU exeuctor will
+/// be a serial executor and all CPU work will be done on the calling thread.  I/O tasks
+/// will still happen on the I/O executor and may be multi-threaded.
+///
+/// If `use_threads` is false then all CPU work will happen during the calls to
+/// RecordBatchReader::Next and no CPU work will happen in the background.  If
+/// `use_threads` is true then CPU work will happen on the CPU thread pool and tasks may
+/// run in between calls to RecordBatchReader::Next.  If the returned reader is not
+/// consumed quickly enough then the plan will eventually pause as the backpressure queue
+/// fills up.
+///
+/// If a custom exec context is provided then the value of `use_threads` will be ignored.
+ARROW_EXPORT Result<std::unique_ptr<RecordBatchReader>> DeclarationToReader(
+    Declaration declaration, bool use_threads = true,
+    MemoryPool* memory_pool = default_memory_pool(),
+    FunctionRegistry* function_registry = NULLPTR);
+
+/// \brief Overload of \see DeclarationToReader accepting a custom exec context
+ARROW_EXPORT Result<std::unique_ptr<RecordBatchReader>> DeclarationToReader(
+    Declaration declaration, ExecContext exec_context);
+
+/// \brief Utility method to run a declaration and ignore results
+///
+/// This can be useful when the data are consumed as part of the plan itself, for
+/// example, when the plan ends with a write node.
+///
+/// \see DeclarationToTable for details on threading & execution
+ARROW_EXPORT Status DeclarationToStatus(Declaration declaration, bool use_threads = true,
+                                        MemoryPool* memory_pool = default_memory_pool(),
+                                        FunctionRegistry* function_registry = NULLPTR);
+
+/// \brief Asynchronous version of \see DeclarationToStatus
+///
+/// This can be useful when the data are consumed as part of the plan itself, for
+/// example, when the plan ends with a write node.
+///
+/// \see DeclarationToTableAsync for details on threading & execution
+ARROW_EXPORT Future<> DeclarationToStatusAsync(
+    Declaration declaration, bool use_threads = true,
+    MemoryPool* memory_pool = default_memory_pool(),
+    FunctionRegistry* function_registry = NULLPTR);
+
+/// \brief Overload of \see DeclarationToStatusAsync accepting a custom exec context
+///
+/// \see DeclarationToTableAsync for details on threading & execution
+ARROW_EXPORT Future<> DeclarationToStatusAsync(Declaration declaration,
+                                               ExecContext exec_context);
+
 /// \brief Wrap an ExecBatch generator in a RecordBatchReader.
 ///
 /// The RecordBatchReader does not impose any ordering on emitted batches.
 ARROW_EXPORT
 std::shared_ptr<RecordBatchReader> MakeGeneratorReader(
-    std::shared_ptr<Schema>, std::function<Future<util::optional<ExecBatch>>()>,
+    std::shared_ptr<Schema>, std::function<Future<std::optional<ExecBatch>>()>,
     MemoryPool*);
 
 constexpr int kDefaultBackgroundMaxQ = 32;
@@ -530,9 +581,11 @@ constexpr int kDefaultBackgroundQRestart = 16;
 ///
 /// Useful as a source node for an Exec plan
 ARROW_EXPORT
-Result<std::function<Future<util::optional<ExecBatch>>()>> MakeReaderGenerator(
+Result<std::function<Future<std::optional<ExecBatch>>()>> MakeReaderGenerator(
     std::shared_ptr<RecordBatchReader> reader, arrow::internal::Executor* io_executor,
     int max_q = kDefaultBackgroundMaxQ, int q_restart = kDefaultBackgroundQRestart);
 
+/// @}
+
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec/expression.cc b/cpp/src/arrow/compute/exec/expression.cc
index 06f36c7f5ad..0dd1a0b9a90 100644
--- a/cpp/src/arrow/compute/exec/expression.cc
+++ b/cpp/src/arrow/compute/exec/expression.cc
@@ -17,12 +17,15 @@
 
 #include "arrow/compute/exec/expression.h"
 
+#include <algorithm>
+#include <optional>
 #include <unordered_map>
 #include <unordered_set>
 
 #include "arrow/chunked_array.h"
 #include "arrow/compute/api_vector.h"
 #include "arrow/compute/exec/expression_internal.h"
+#include "arrow/compute/exec/util.h"
 #include "arrow/compute/exec_internal.h"
 #include "arrow/compute/function_internal.h"
 #include "arrow/io/memory.h"
@@ -31,7 +34,6 @@
 #include "arrow/util/hash_util.h"
 #include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/string.h"
 #include "arrow/util/value_parsing.h"
 #include "arrow/util/vector.h"
@@ -40,6 +42,8 @@ namespace arrow {
 
 using internal::checked_cast;
 using internal::checked_pointer_cast;
+using internal::EndsWith;
+using internal::ToChars;
 
 namespace compute {
 
@@ -76,10 +80,16 @@ Expression call(std::string function, std::vector<Expression> arguments,
   return Expression(std::move(call));
 }
 
-const Datum* Expression::literal() const { return util::get_if<Datum>(impl_.get()); }
+const Datum* Expression::literal() const {
+  if (impl_ == nullptr) return nullptr;
+
+  return std::get_if<Datum>(impl_.get());
+}
 
 const Expression::Parameter* Expression::parameter() const {
-  return util::get_if<Parameter>(impl_.get());
+  if (impl_ == nullptr) return nullptr;
+
+  return std::get_if<Parameter>(impl_.get());
 }
 
 const FieldRef* Expression::field_ref() const {
@@ -90,7 +100,9 @@ const FieldRef* Expression::field_ref() const {
 }
 
 const Expression::Call* Expression::call() const {
-  return util::get_if<Call>(impl_.get());
+  if (impl_ == nullptr) return nullptr;
+
+  return std::get_if<Call>(impl_.get());
 }
 
 const DataType* Expression::type() const {
@@ -117,8 +129,7 @@ std::string PrintDatum(const Datum& datum) {
       case Type::STRING:
       case Type::LARGE_STRING:
         return '"' +
-               Escape(util::string_view(*datum.scalar_as<BaseBinaryScalar>().value)) +
-               '"';
+               Escape(std::string_view(*datum.scalar_as<BaseBinaryScalar>().value)) + '"';
 
       case Type::BINARY:
       case Type::FIXED_SIZE_BINARY:
@@ -163,8 +174,8 @@ std::string Expression::ToString() const {
     return binary(Comparison::GetOp(*cmp));
   }
 
-  constexpr util::string_view kleene = "_kleene";
-  if (util::string_view{call->function_name}.ends_with(kleene)) {
+  constexpr std::string_view kleene = "_kleene";
+  if (EndsWith(call->function_name, kleene)) {
     auto op = call->function_name.substr(0, call->function_name.size() - kleene.size());
     return binary(std::move(op));
   }
@@ -187,11 +198,11 @@ std::string Expression::ToString() const {
 
   if (call->options) {
     out += call->options->ToString();
-    out.resize(out.size() + 1);
-  } else {
-    out.resize(out.size() - 1);
+  } else if (call->arguments.size()) {
+    out.resize(out.size() - 2);
   }
-  out.back() = ')';
+
+  out += ')';
   return out;
 }
 
@@ -309,13 +320,12 @@ bool Expression::IsNullLiteral() const {
 }
 
 namespace {
-util::optional<compute::NullHandling::type> GetNullHandling(
-    const Expression::Call& call) {
+std::optional<compute::NullHandling::type> GetNullHandling(const Expression::Call& call) {
   DCHECK_NE(call.function, nullptr);
   if (call.function->kind() == compute::Function::SCALAR) {
     return static_cast<const compute::ScalarKernel*>(call.kernel)->null_handling;
   }
-  return util::nullopt;
+  return std::nullopt;
 }
 }  // namespace
 
@@ -614,18 +624,6 @@ ArgumentsAndFlippedArguments(const Expression::Call& call) {
                                                           call.arguments[0]}};
 }
 
-template <typename BinOp, typename It,
-          typename Out = typename std::iterator_traits<It>::value_type>
-util::optional<Out> FoldLeft(It begin, It end, const BinOp& bin_op) {
-  if (begin == end) return util::nullopt;
-
-  Out folded = std::move(*begin++);
-  while (begin != end) {
-    folded = bin_op(std::move(folded), std::move(*begin++));
-  }
-  return folded;
-}
-
 }  // namespace
 
 std::vector<FieldRef> FieldsInExpression(const Expression& expr) {
@@ -655,7 +653,11 @@ bool ExpressionHasFieldRefs(const Expression& expr) {
 }
 
 Result<Expression> FoldConstants(Expression expr) {
-  return Modify(
+  if (!expr.IsBound()) {
+    return Status::Invalid("Cannot fold constants in unbound expression.");
+  }
+
+  return ModifyExpression(
       std::move(expr), [](Expression expr) { return expr; },
       [](Expression expr, ...) -> Result<Expression> {
         auto call = CallNotNull(expr);
@@ -738,18 +740,18 @@ std::vector<Expression> GuaranteeConjunctionMembers(
 /// Recognizes expressions of the form:
 /// equal(a, 2)
 /// is_null(a)
-util::optional<std::pair<FieldRef, Datum>> ExtractOneFieldValue(
+std::optional<std::pair<FieldRef, Datum>> ExtractOneFieldValue(
     const Expression& guarantee) {
   auto call = guarantee.call();
-  if (!call) return util::nullopt;
+  if (!call) return std::nullopt;
 
   // search for an equality conditions between a field and a literal
   if (call->function_name == "equal") {
     auto ref = call->arguments[0].field_ref();
-    if (!ref) return util::nullopt;
+    if (!ref) return std::nullopt;
 
     auto lit = call->arguments[1].literal();
-    if (!lit) return util::nullopt;
+    if (!lit) return std::nullopt;
 
     return std::make_pair(*ref, *lit);
   }
@@ -757,12 +759,12 @@ util::optional<std::pair<FieldRef, Datum>> ExtractOneFieldValue(
   // ... or a known null field
   if (call->function_name == "is_null") {
     auto ref = call->arguments[0].field_ref();
-    if (!ref) return util::nullopt;
+    if (!ref) return std::nullopt;
 
     return std::make_pair(*ref, Datum(std::make_shared<NullScalar>()));
   }
 
-  return util::nullopt;
+  return std::nullopt;
 }
 
 // Conjunction members which are represented in known_values are erased from
@@ -800,7 +802,7 @@ Result<Expression> ReplaceFieldsWithKnownValues(const KnownFieldValues& known_va
         "ReplaceFieldsWithKnownValues called on an unbound Expression");
   }
 
-  return Modify(
+  return ModifyExpression(
       std::move(expr),
       [&known_values](Expression expr) -> Result<Expression> {
         if (auto ref = expr.field_ref()) {
@@ -848,9 +850,34 @@ bool IsBinaryAssociativeCommutative(const Expression::Call& call) {
   return it != binary_associative_commutative.end();
 }
 
+Result<Expression> HandleInconsistentTypes(Expression::Call call,
+                                           compute::ExecContext* exec_context) {
+  // ARROW-18334: due to reordering of arguments, the call may have
+  // inconsistent argument types. For example, the call's kernel may
+  // correspond to `timestamp + duration` but the arguments happen to
+  // be `duration, timestamp`. The addition itself is still commutative,
+  // but the mismatch in declared argument types is potentially problematic
+  // if we ever start using the Expression::Call::kernel field more than
+  // we do currently. Check and rebind if necessary.
+  //
+  // The more correct fix for this problem is to ensure that all kernels of
+  // functions which are commutative be commutative as well, which would
+  // obviate rebinding like this. In the context of ARROW-18334, this
+  // would require rewriting KernelSignature so that a single kernel can
+  // handle both `timestamp + duration` and `duration + timestamp`.
+  if (call.kernel->signature->MatchesInputs(GetTypes(call.arguments))) {
+    return Expression(std::move(call));
+  }
+  return BindNonRecursive(std::move(call), /*insert_implicit_casts=*/false, exec_context);
+}
+
 }  // namespace
 
 Result<Expression> Canonicalize(Expression expr, compute::ExecContext* exec_context) {
+  if (!expr.IsBound()) {
+    return Status::Invalid("Cannot canonicalize an unbound expression.");
+  }
+
   if (exec_context == nullptr) {
     compute::ExecContext exec_context;
     return Canonicalize(std::move(expr), &exec_context);
@@ -871,7 +898,7 @@ Result<Expression> Canonicalize(Expression expr, compute::ExecContext* exec_cont
     }
   } AlreadyCanonicalized;
 
-  return Modify(
+  return ModifyExpression(
       std::move(expr),
       [&AlreadyCanonicalized, exec_context](Expression expr) -> Result<Expression> {
         auto call = expr.call();
@@ -893,9 +920,12 @@ Result<Expression> Canonicalize(Expression expr, compute::ExecContext* exec_cont
           } CanonicalOrdering;
 
           FlattenedAssociativeChain chain(expr);
+
           if (chain.was_left_folded &&
               std::is_sorted(chain.fringe.begin(), chain.fringe.end(),
                              CanonicalOrdering)) {
+            // fast path for expressions which happen to have arrived in an
+            // already-canonical form
             AlreadyCanonicalized.Add(std::move(chain.exprs));
             return expr;
           }
@@ -903,16 +933,17 @@ Result<Expression> Canonicalize(Expression expr, compute::ExecContext* exec_cont
           std::stable_sort(chain.fringe.begin(), chain.fringe.end(), CanonicalOrdering);
 
           // fold the chain back up
-          auto folded =
-              FoldLeft(chain.fringe.begin(), chain.fringe.end(),
-                       [call, &AlreadyCanonicalized](Expression l, Expression r) {
-                         auto canonicalized_call = *call;
-                         canonicalized_call.arguments = {std::move(l), std::move(r)};
-                         Expression expr(std::move(canonicalized_call));
-                         AlreadyCanonicalized.Add({expr});
-                         return expr;
-                       });
-          return std::move(*folded);
+          Expression folded = std::move(chain.fringe.front());
+
+          for (auto it = chain.fringe.begin() + 1; it != chain.fringe.end(); ++it) {
+            auto canonicalized_call = *call;
+            canonicalized_call.arguments = {std::move(folded), std::move(*it)};
+            ARROW_ASSIGN_OR_RAISE(
+                folded,
+                HandleInconsistentTypes(std::move(canonicalized_call), exec_context));
+            AlreadyCanonicalized.Add({expr});
+          }
+          return folded;
         }
 
         if (auto cmp = Comparison::Get(call->function_name)) {
@@ -953,24 +984,24 @@ struct Inequality {
   // possibly disjuncted with an "is_null" Expression.
   // cmp(a, 2)
   // cmp(a, 2) or is_null(a)
-  static util::optional<Inequality> ExtractOne(const Expression& guarantee) {
+  static std::optional<Inequality> ExtractOne(const Expression& guarantee) {
     auto call = guarantee.call();
-    if (!call) return util::nullopt;
+    if (!call) return std::nullopt;
 
     if (call->function_name == "or_kleene") {
       // expect the LHS to be a usable field inequality
       auto out = ExtractOneFromComparison(call->arguments[0]);
-      if (!out) return util::nullopt;
+      if (!out) return std::nullopt;
 
       // expect the RHS to be an is_null expression
       auto call_rhs = call->arguments[1].call();
-      if (!call_rhs) return util::nullopt;
-      if (call_rhs->function_name != "is_null") return util::nullopt;
+      if (!call_rhs) return std::nullopt;
+      if (call_rhs->function_name != "is_null") return std::nullopt;
 
       // ... and that it references the same target
       auto target = call_rhs->arguments[0].field_ref();
-      if (!target) return util::nullopt;
-      if (*target != out->target) return util::nullopt;
+      if (!target) return std::nullopt;
+      if (*target != out->target) return std::nullopt;
 
       out->nullable = true;
       return out;
@@ -980,26 +1011,25 @@ struct Inequality {
     return ExtractOneFromComparison(guarantee);
   }
 
-  static util::optional<Inequality> ExtractOneFromComparison(
-      const Expression& guarantee) {
+  static std::optional<Inequality> ExtractOneFromComparison(const Expression& guarantee) {
     auto call = guarantee.call();
-    if (!call) return util::nullopt;
+    if (!call) return std::nullopt;
 
     if (auto cmp = Comparison::Get(call->function_name)) {
       // not_equal comparisons are not very usable as guarantees
-      if (*cmp == Comparison::NOT_EQUAL) return util::nullopt;
+      if (*cmp == Comparison::NOT_EQUAL) return std::nullopt;
 
       auto target = call->arguments[0].field_ref();
-      if (!target) return util::nullopt;
+      if (!target) return std::nullopt;
 
       auto bound = call->arguments[1].literal();
-      if (!bound) return util::nullopt;
-      if (!bound->is_scalar()) return util::nullopt;
+      if (!bound) return std::nullopt;
+      if (!bound->is_scalar()) return std::nullopt;
 
       return Inequality{*cmp, /*target=*/*target, *bound, /*nullable=*/false};
     }
 
-    return util::nullopt;
+    return std::nullopt;
   }
 
   /// The given expression simplifies to `value` if the inequality
@@ -1114,7 +1144,7 @@ Result<Expression> SimplifyIsValidGuarantee(Expression expr,
                                             const Expression::Call& guarantee) {
   if (guarantee.function_name != "is_valid") return expr;
 
-  return Modify(
+  return ModifyExpression(
       std::move(expr), [](Expression expr) { return expr; },
       [&](Expression expr, ...) -> Result<Expression> {
         auto call = expr.call();
@@ -1156,7 +1186,7 @@ Result<Expression> SimplifyWithGuarantee(Expression expr,
 
     if (auto inequality = Inequality::ExtractOne(guarantee)) {
       ARROW_ASSIGN_OR_RAISE(auto simplified,
-                            Modify(
+                            ModifyExpression(
                                 std::move(expr), [](Expression expr) { return expr; },
                                 [&](Expression expr, ...) -> Result<Expression> {
                                   return inequality->Simplify(std::move(expr));
@@ -1183,6 +1213,27 @@ Result<Expression> SimplifyWithGuarantee(Expression expr,
   return expr;
 }
 
+Result<Expression> RemoveNamedRefs(Expression src) {
+  if (!src.IsBound()) {
+    return Status::Invalid("RemoveNamedRefs called on unbound expression");
+  }
+  return ModifyExpression(
+      std::move(src),
+      /*pre=*/
+      [](Expression expr) {
+        const Expression::Parameter* param = expr.parameter();
+        if (param && !param->ref.IsFieldPath()) {
+          FieldPath ref_as_path(
+              std::vector<int>(param->indices.begin(), param->indices.end()));
+          return Expression(
+              Expression::Parameter{std::move(ref_as_path), param->type, param->indices});
+        }
+
+        return expr;
+      },
+      /*post_call=*/[](Expression expr, ...) { return expr; });
+}
+
 // Serialization is accomplished by converting expressions to KeyValueMetadata and storing
 // this in the schema of a RecordBatch. Embedded arrays and scalars are stored in its
 // columns. Finally, the RecordBatch is written to an IPC file.
@@ -1195,12 +1246,12 @@ Result<std::shared_ptr<Buffer>> Serialize(const Expression& expr) {
       auto ret = columns_.size();
       ARROW_ASSIGN_OR_RAISE(auto array, MakeArrayFromScalar(scalar, 1));
       columns_.push_back(std::move(array));
-      return std::to_string(ret);
+      return ToChars(ret);
     }
 
     Status VisitFieldRef(const FieldRef& ref) {
       if (ref.nested_refs()) {
-        metadata_->Append("nested_field_ref", std::to_string(ref.nested_refs()->size()));
+        metadata_->Append("nested_field_ref", ToChars(ref.nested_refs()->size()));
         for (const auto& child : *ref.nested_refs()) {
           RETURN_NOT_OK(VisitFieldRef(child));
         }
@@ -1407,12 +1458,13 @@ Expression and_(Expression lhs, Expression rhs) {
 }
 
 Expression and_(const std::vector<Expression>& operands) {
-  auto folded = FoldLeft<Expression(Expression, Expression)>(operands.begin(),
-                                                             operands.end(), and_);
-  if (folded) {
-    return std::move(*folded);
+  if (operands.empty()) return literal(true);
+
+  Expression folded = operands.front();
+  for (auto it = operands.begin() + 1; it != operands.end(); ++it) {
+    folded = and_(std::move(folded), std::move(*it));
   }
-  return literal(true);
+  return folded;
 }
 
 Expression or_(Expression lhs, Expression rhs) {
@@ -1420,12 +1472,13 @@ Expression or_(Expression lhs, Expression rhs) {
 }
 
 Expression or_(const std::vector<Expression>& operands) {
-  auto folded =
-      FoldLeft<Expression(Expression, Expression)>(operands.begin(), operands.end(), or_);
-  if (folded) {
-    return std::move(*folded);
+  if (operands.empty()) return literal(false);
+
+  Expression folded = operands.front();
+  for (auto it = operands.begin() + 1; it != operands.end(); ++it) {
+    folded = or_(std::move(folded), std::move(*it));
   }
-  return literal(false);
+  return folded;
 }
 
 Expression not_(Expression operand) { return call("invert", {std::move(operand)}); }
diff --git a/cpp/src/arrow/compute/exec/expression.h b/cpp/src/arrow/compute/exec/expression.h
index a872e799597..c9c7b0e605f 100644
--- a/cpp/src/arrow/compute/exec/expression.h
+++ b/cpp/src/arrow/compute/exec/expression.h
@@ -22,13 +22,13 @@
 #include <memory>
 #include <string>
 #include <utility>
+#include <variant>
 #include <vector>
 
 #include "arrow/compute/type_fwd.h"
 #include "arrow/datum.h"
 #include "arrow/type_fwd.h"
 #include "arrow/util/small_vector.h"
-#include "arrow/util/variant.h"
 
 namespace arrow {
 namespace compute {
@@ -100,6 +100,8 @@ class ARROW_EXPORT Expression {
   // XXX someday
   // Result<PipelineGraph> GetPipelines();
 
+  bool is_valid() const { return impl_ != NULLPTR; }
+
   /// Access a Call or return nullptr if this expression is not a call
   const Call* call() const;
   /// Access a Datum or return nullptr if this expression is not a literal
@@ -127,17 +129,17 @@ class ARROW_EXPORT Expression {
   explicit Expression(Parameter parameter);
 
  private:
-  using Impl = util::Variant<Datum, Parameter, Call>;
+  using Impl = std::variant<Datum, Parameter, Call>;
   std::shared_ptr<Impl> impl_;
 
-  ARROW_EXPORT friend bool Identical(const Expression& l, const Expression& r);
-
-  ARROW_EXPORT friend void PrintTo(const Expression&, std::ostream*);
+  ARROW_FRIEND_EXPORT friend bool Identical(const Expression& l, const Expression& r);
 };
 
 inline bool operator==(const Expression& l, const Expression& r) { return l.Equals(r); }
 inline bool operator!=(const Expression& l, const Expression& r) { return !l.Equals(r); }
 
+ARROW_EXPORT void PrintTo(const Expression&, std::ostream*);
+
 // Factories
 
 ARROW_EXPORT
@@ -218,6 +220,12 @@ ARROW_EXPORT
 Result<Expression> SimplifyWithGuarantee(Expression,
                                          const Expression& guaranteed_true_predicate);
 
+/// Replace all named field refs (e.g. "x" or "x.y") with field paths (e.g. [0] or [1,3])
+///
+/// This isn't usually needed and does not offer any simplification by itself.  However,
+/// it can be useful to normalize an expression to paths to make it simpler to work with.
+ARROW_EXPORT Result<Expression> RemoveNamedRefs(Expression expression);
+
 /// @}
 
 // Execution
diff --git a/cpp/src/arrow/compute/exec/expression_benchmark.cc b/cpp/src/arrow/compute/exec/expression_benchmark.cc
index debd2284980..e431497e45b 100644
--- a/cpp/src/arrow/compute/exec/expression_benchmark.cc
+++ b/cpp/src/arrow/compute/exec/expression_benchmark.cc
@@ -17,6 +17,8 @@
 
 #include "benchmark/benchmark.h"
 
+#include <thread>
+
 #include "arrow/compute/cast.h"
 #include "arrow/compute/exec/expression.h"
 #include "arrow/compute/exec/test_util.h"
diff --git a/cpp/src/arrow/compute/exec/expression_internal.h b/cpp/src/arrow/compute/exec/expression_internal.h
index 027c954c6d0..9e29b8e27f9 100644
--- a/cpp/src/arrow/compute/exec/expression_internal.h
+++ b/cpp/src/arrow/compute/exec/expression_internal.h
@@ -287,52 +287,5 @@ inline Result<std::shared_ptr<compute::Function>> GetFunction(
   return GetCastFunction(*to_type);
 }
 
-/// Modify an Expression with pre-order and post-order visitation.
-/// `pre` will be invoked on each Expression. `pre` will visit Calls before their
-/// arguments, `post_call` will visit Calls (and no other Expressions) after their
-/// arguments. Visitors should return the Identical expression to indicate no change; this
-/// will prevent unnecessary construction in the common case where a modification is not
-/// possible/necessary/...
-///
-/// If an argument was modified, `post_call` visits a reconstructed Call with the modified
-/// arguments but also receives a pointer to the unmodified Expression as a second
-/// argument. If no arguments were modified the unmodified Expression* will be nullptr.
-template <typename PreVisit, typename PostVisitCall>
-Result<Expression> Modify(Expression expr, const PreVisit& pre,
-                          const PostVisitCall& post_call) {
-  ARROW_ASSIGN_OR_RAISE(expr, Result<Expression>(pre(std::move(expr))));
-
-  auto call = expr.call();
-  if (!call) return expr;
-
-  bool at_least_one_modified = false;
-  std::vector<Expression> modified_arguments;
-
-  for (size_t i = 0; i < call->arguments.size(); ++i) {
-    ARROW_ASSIGN_OR_RAISE(auto modified_argument,
-                          Modify(call->arguments[i], pre, post_call));
-
-    if (Identical(modified_argument, call->arguments[i])) {
-      continue;
-    }
-
-    if (!at_least_one_modified) {
-      modified_arguments = call->arguments;
-      at_least_one_modified = true;
-    }
-
-    modified_arguments[i] = std::move(modified_argument);
-  }
-
-  if (at_least_one_modified) {
-    // reconstruct the call expression with the modified arguments
-    auto modified_call = *call;
-    modified_call.arguments = std::move(modified_arguments);
-    return post_call(Expression(std::move(modified_call)), &expr);
-  }
-
-  return post_call(std::move(expr), nullptr);
-}
-
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec/expression_test.cc b/cpp/src/arrow/compute/exec/expression_test.cc
index b4466d827eb..6dc48b3be4e 100644
--- a/cpp/src/arrow/compute/exec/expression_test.cc
+++ b/cpp/src/arrow/compute/exec/expression_test.cc
@@ -17,6 +17,7 @@
 
 #include "arrow/compute/exec/expression.h"
 
+#include <chrono>
 #include <cstdint>
 #include <memory>
 #include <string>
@@ -30,11 +31,12 @@
 #include "arrow/compute/function_internal.h"
 #include "arrow/compute/registry.h"
 #include "arrow/testing/gtest_util.h"
-#include "arrow/util/make_unique.h"
 
 using testing::HasSubstr;
 using testing::UnorderedElementsAreArray;
 
+using namespace std::chrono_literals;  // NOLINT build/namespaces
+
 namespace arrow {
 
 using internal::checked_cast;
@@ -57,6 +59,7 @@ const std::shared_ptr<Schema> kBoringSchema = schema({
     field("dict_str", dictionary(int32(), utf8())),
     field("dict_i32", dictionary(int32(), int32())),
     field("ts_ns", timestamp(TimeUnit::NANO)),
+    field("ts_s", timestamp(TimeUnit::SECOND)),
 });
 
 #define EXPECT_OK ARROW_EXPECT_OK
@@ -70,6 +73,10 @@ Expression true_unless_null(Expression argument) {
   return call("true_unless_null", {std::move(argument)});
 }
 
+Expression add(Expression l, Expression r) {
+  return call("add", {std::move(l), std::move(r)});
+}
+
 template <typename Actual, typename Expected>
 void ExpectResultsEqual(Actual&& actual, Expected&& expected) {
   using MaybeActual = typename EnsureResult<typename std::decay<Actual>::type>::type;
@@ -86,7 +93,7 @@ void ExpectResultsEqual(Actual&& actual, Expected&& expected) {
   }
 }
 
-const auto no_change = util::nullopt;
+const auto no_change = std::nullopt;
 
 TEST(ExpressionUtils, Comparison) {
   auto Expect = [](Result<std::string> expected, Datum l, Datum r) {
@@ -122,7 +129,7 @@ TEST(ExpressionUtils, Comparison) {
 }
 
 TEST(ExpressionUtils, StripOrderPreservingCasts) {
-  auto Expect = [](Expression expr, util::optional<Expression> expected_stripped) {
+  auto Expect = [](Expression expr, std::optional<Expression> expected_stripped) {
     ASSERT_OK_AND_ASSIGN(expr, expr.Bind(*kBoringSchema));
     if (!expected_stripped) {
       expected_stripped = expr;
@@ -242,7 +249,7 @@ class WidgetifyOptionsType : public FunctionOptionsType {
   }
   std::unique_ptr<FunctionOptions> Copy(const FunctionOptions& options) const override {
     const auto& opts = static_cast<const WidgetifyOptions&>(options);
-    return arrow::internal::make_unique<WidgetifyOptions>(opts.really);
+    return std::make_unique<WidgetifyOptions>(opts.really);
   }
 };
 WidgetifyOptions::WidgetifyOptions(bool really)
@@ -259,10 +266,10 @@ TEST(Expression, ToString) {
   EXPECT_EQ(literal(std::make_shared<BinaryScalar>(Buffer::FromString("az"))).ToString(),
             "\"617A\"");
 
-  auto ts = *MakeScalar("1990-10-23 10:23:33")->CastTo(timestamp(TimeUnit::NANO));
+  auto ts = *TimestampScalar::FromISO8601("1990-10-23 10:23:33", TimeUnit::NANO);
   EXPECT_EQ(literal(ts).ToString(), "1990-10-23 10:23:33.000000000");
 
-  EXPECT_EQ(call("add", {literal(3), field_ref("beta")}).ToString(), "add(3, beta)");
+  EXPECT_EQ(add(literal(3), field_ref("beta")).ToString(), "add(3, beta)");
 
   auto in_12 = call("index_in", {field_ref("beta")},
                     compute::SetLookupOptions{ArrayFromJSON(int32(), "[1,2]")});
@@ -285,8 +292,7 @@ TEST(Expression, ToString) {
       "allow_time_overflow=false, allow_decimal_truncate=false, "
       "allow_float_truncate=false, allow_invalid_utf8=false})");
 
-  // NB: corrupted for nullary functions but we don't have any of those
-  EXPECT_EQ(call("widgetify", {}).ToString(), "widgetif)");
+  EXPECT_EQ(call("widgetify", {}).ToString(), "widgetify()");
   EXPECT_EQ(
       call("widgetify", {literal(1)}, std::make_shared<WidgetifyOptions>()).ToString(),
       "widgetify(1, widgetify)");
@@ -313,6 +319,11 @@ TEST(Expression, ToString) {
                 })
                 .ToString(),
             "{a=a, renamed_a=a, three=3, b=" + in_12.ToString() + "}");
+
+  EXPECT_EQ(call("round", {literal(3.14)}, compute::RoundOptions()).ToString(),
+            "round(3.14, {ndigits=0, round_mode=HALF_TO_EVEN})");
+  EXPECT_EQ(call("random", {}, compute::RandomOptions()).ToString(),
+            "random({initializer=SystemRandom, seed=0})");
 }
 
 TEST(Expression, Equality) {
@@ -323,20 +334,17 @@ TEST(Expression, Equality) {
   EXPECT_NE(field_ref("a"), field_ref("b"));
   EXPECT_NE(field_ref("a"), literal(2));
 
-  EXPECT_EQ(call("add", {literal(3), field_ref("a")}),
-            call("add", {literal(3), field_ref("a")}));
-  EXPECT_NE(call("add", {literal(3), field_ref("a")}),
-            call("add", {literal(2), field_ref("a")}));
-  EXPECT_NE(call("add", {field_ref("a"), literal(3)}),
-            call("add", {literal(3), field_ref("a")}));
+  EXPECT_EQ(add(literal(3), field_ref("a")), add(literal(3), field_ref("a")));
+  EXPECT_NE(add(literal(3), field_ref("a")), add(literal(2), field_ref("a")));
+  EXPECT_NE(add(field_ref("a"), literal(3)), add(literal(3), field_ref("a")));
 
   auto in_123 = compute::SetLookupOptions{ArrayFromJSON(int32(), "[1,2,3]")};
-  EXPECT_EQ(call("add", {literal(3), call("index_in", {field_ref("beta")}, in_123)}),
-            call("add", {literal(3), call("index_in", {field_ref("beta")}, in_123)}));
+  EXPECT_EQ(add(literal(3), call("index_in", {field_ref("beta")}, in_123)),
+            add(literal(3), call("index_in", {field_ref("beta")}, in_123)));
 
   auto in_12 = compute::SetLookupOptions{ArrayFromJSON(int32(), "[1,2]")};
-  EXPECT_NE(call("add", {literal(3), call("index_in", {field_ref("beta")}, in_12)}),
-            call("add", {literal(3), call("index_in", {field_ref("beta")}, in_123)}));
+  EXPECT_NE(add(literal(3), call("index_in", {field_ref("beta")}, in_12)),
+            add(literal(3), call("index_in", {field_ref("beta")}, in_123)));
 
   EXPECT_EQ(cast(field_ref("a"), int32()), cast(field_ref("a"), int32()));
   EXPECT_NE(cast(field_ref("a"), int32()), cast(field_ref("a"), int64()));
@@ -467,7 +475,7 @@ TEST(Expression, FieldsInExpression) {
 TEST(Expression, ExpressionHasFieldRefs) {
   EXPECT_FALSE(ExpressionHasFieldRefs(literal(true)));
 
-  EXPECT_FALSE(ExpressionHasFieldRefs(call("add", {literal(1), literal(3)})));
+  EXPECT_FALSE(ExpressionHasFieldRefs(add(literal(1), literal(3))));
 
   EXPECT_TRUE(ExpressionHasFieldRefs(field_ref("a")));
 
@@ -499,7 +507,7 @@ TEST(Expression, BindLiteral) {
   }
 }
 
-void ExpectBindsTo(Expression expr, util::optional<Expression> expected,
+void ExpectBindsTo(Expression expr, std::optional<Expression> expected,
                    Expression* bound_out = nullptr,
                    const Schema& schema = *kBoringSchema) {
   if (!expected) {
@@ -554,17 +562,16 @@ TEST(Expression, BindNestedFieldRef) {
 }
 
 TEST(Expression, BindCall) {
-  auto expr = call("add", {field_ref("i32"), field_ref("i32_req")});
+  auto expr = add(field_ref("i32"), field_ref("i32_req"));
   EXPECT_FALSE(expr.IsBound());
 
   ExpectBindsTo(expr, no_change, &expr);
   EXPECT_TRUE(expr.type()->Equals(*int32()));
 
-  ExpectBindsTo(call("add", {field_ref("f32"), literal(3)}),
-                call("add", {field_ref("f32"), literal(3.0F)}));
+  ExpectBindsTo(add(field_ref("f32"), literal(3)), add(field_ref("f32"), literal(3.0F)));
 
-  ExpectBindsTo(call("add", {field_ref("i32"), literal(3.5F)}),
-                call("add", {cast(field_ref("i32"), float32()), literal(3.5F)}));
+  ExpectBindsTo(add(field_ref("i32"), literal(3.5F)),
+                add(cast(field_ref("i32"), float32()), literal(3.5F)));
 }
 
 TEST(Expression, BindWithImplicitCasts) {
@@ -598,10 +605,9 @@ TEST(Expression, BindWithImplicitCasts) {
 }
 
 TEST(Expression, BindNestedCall) {
-  auto expr =
-      call("add", {field_ref("a"),
-                   call("subtract", {call("multiply", {field_ref("b"), field_ref("c")}),
-                                     field_ref("d")})});
+  auto expr = add(field_ref("a"),
+                  call("subtract", {call("multiply", {field_ref("b"), field_ref("c")}),
+                                    field_ref("d")}));
   EXPECT_FALSE(expr.IsBound());
 
   ASSERT_OK_AND_ASSIGN(expr,
@@ -745,7 +751,7 @@ void ExpectExecute(Expression expr, Datum in, Datum* actual_out = NULLPTR) {
 }
 
 TEST(Expression, ExecuteCall) {
-  ExpectExecute(call("add", {field_ref("a"), literal(3.5)}),
+  ExpectExecute(add(field_ref("a"), literal(3.5)),
                 ArrayFromJSON(struct_({field("a", float64())}), R"([
     {"a": 6.125},
     {"a": 0.0},
@@ -753,7 +759,7 @@ TEST(Expression, ExecuteCall) {
   ])"));
 
   ExpectExecute(
-      call("add", {field_ref("a"), call("subtract", {literal(3.5), field_ref("b")})}),
+      add(field_ref("a"), call("subtract", {literal(3.5), field_ref("b")})),
       ArrayFromJSON(struct_({field("a", float64()), field("b", float64())}), R"([
     {"a": 6.125, "b": 3.375},
     {"a": 0.0,   "b": 1},
@@ -768,20 +774,19 @@ TEST(Expression, ExecuteCall) {
     {"a": "12/11/1900"}
   ])"));
 
-  ExpectExecute(project({call("add", {field_ref("a"), literal(3.5)})}, {"a + 3.5"}),
+  ExpectExecute(project({add(field_ref("a"), literal(3.5))}, {"a + 3.5"}),
                 ArrayFromJSON(struct_({field("a", float64())}), R"([
     {"a": 6.125},
     {"a": 0.0},
     {"a": -1}
   ])"));
 
-  ExpectExecute(
-      call("add", {field_ref(FieldRef("a", "a")), field_ref(FieldRef("a", "b"))}),
-      ArrayFromJSON(struct_({field("a", struct_({
-                                            field("a", float64()),
-                                            field("b", float64()),
-                                        }))}),
-                    R"([
+  ExpectExecute(add(field_ref(FieldRef("a", "a")), field_ref(FieldRef("a", "b"))),
+                ArrayFromJSON(struct_({field("a", struct_({
+                                                      field("a", float64()),
+                                                      field("b", float64()),
+                                                  }))}),
+                              R"([
     {"a": {"a": 6.125, "b": 3.375}},
     {"a": {"a": 0.0,   "b": 1}},
     {"a": {"a": -1,    "b": 4.75}}
@@ -850,24 +855,30 @@ TEST(Expression, FoldConstants) {
   ExpectFoldsTo(field_ref("i32"), field_ref("i32"));
 
   // call against literals (3 + 2 == 5)
-  ExpectFoldsTo(call("add", {literal(3), literal(2)}), literal(5));
+  ExpectFoldsTo(add(literal(3), literal(2)), literal(5));
+
+  ExpectFoldsTo(equal(literal(3), literal(3)), literal(true));
 
-  ExpectFoldsTo(call("equal", {literal(3), literal(3)}), literal(true));
+  // addition of durations folds as expected
+  ExpectFoldsTo(add(literal(5min), literal(5min)), literal(10min));
+
+  // addition of duration, timestamp folds as expected
+  auto ts = *TimestampScalar::FromISO8601("1990-10-23 10:23:33", TimeUnit::SECOND);
+  auto ts_two_hours_later =
+      *TimestampScalar::FromISO8601("1990-10-23 12:23:33", TimeUnit::SECOND);
+  ExpectFoldsTo(add(literal(2h), literal(ts)), literal(ts_two_hours_later));
+  ExpectFoldsTo(add(literal(ts), literal(2h)), literal(ts_two_hours_later));
 
   // call against literal and field_ref
-  ExpectFoldsTo(call("add", {literal(3), field_ref("i32")}),
-                call("add", {literal(3), field_ref("i32")}));
+  ExpectFoldsTo(add(literal(3), field_ref("i32")), add(literal(3), field_ref("i32")));
 
   // nested call against literals ((8 - (2 * 3)) + 2 == 4)
-  ExpectFoldsTo(call("add",
-                     {
-                         call("subtract",
-                              {
-                                  literal(8),
-                                  call("multiply", {literal(2), literal(3)}),
-                              }),
-                         literal(2),
-                     }),
+  ExpectFoldsTo(add(call("subtract",
+                         {
+                             literal(8),
+                             call("multiply", {literal(2), literal(3)}),
+                         }),
+                    literal(2)),
                 literal(4));
 
   // INTERSECTION null handling and null input -> null output
@@ -877,40 +888,34 @@ TEST(Expression, FoldConstants) {
   // nested call against literals with one field_ref
   // (i32 - (2 * 3)) + 2 == (i32 - 6) + 2
   // NB this could be improved further by using associativity of addition; another pass
-  ExpectFoldsTo(call("add",
-                     {
-                         call("subtract",
-                              {
-                                  field_ref("i32"),
-                                  call("multiply", {literal(2), literal(3)}),
-                              }),
-                         literal(2),
-                     }),
-                call("add", {
-                                call("subtract",
-                                     {
-                                         field_ref("i32"),
-                                         literal(6),
-                                     }),
-                                literal(2),
-                            }));
+  ExpectFoldsTo(add(call("subtract",
+                         {
+                             field_ref("i32"),
+                             call("multiply", {literal(2), literal(3)}),
+                         }),
+                    literal(2)),
+                add(call("subtract",
+                         {
+                             field_ref("i32"),
+                             literal(6),
+                         }),
+                    literal(2)));
 
   compute::SetLookupOptions in_123(ArrayFromJSON(int32(), "[1,2,3]"));
 
   ExpectFoldsTo(call("is_in", {literal(2)}, in_123), literal(true));
 
   ExpectFoldsTo(
-      call("is_in",
-           {call("add", {field_ref("i32"), call("multiply", {literal(2), literal(3)})})},
+      call("is_in", {add(field_ref("i32"), call("multiply", {literal(2), literal(3)}))},
            in_123),
-      call("is_in", {call("add", {field_ref("i32"), literal(6)})}, in_123));
+      call("is_in", {add(field_ref("i32"), literal(6))}, in_123));
 }
 
 TEST(Expression, FoldConstantsBoolean) {
   // test and_kleene/or_kleene-specific optimizations
   auto one = literal(1);
   auto two = literal(2);
-  auto whatever = equal(call("add", {one, field_ref("i32")}), two);
+  auto whatever = equal(add(one, field_ref("i32")), two);
 
   auto true_ = literal(true);
   auto false_ = literal(false);
@@ -924,6 +929,24 @@ TEST(Expression, FoldConstantsBoolean) {
   ExpectFoldsTo(or_(whatever, whatever), whatever);
 }
 
+void ExpectRemovesRefsTo(Expression expr, Expression expected,
+                         const Schema& schema = *kBoringSchema) {
+  ASSERT_OK_AND_ASSIGN(expr, expr.Bind(schema));
+  ASSERT_OK_AND_ASSIGN(expected, expected.Bind(schema));
+
+  ASSERT_OK_AND_ASSIGN(auto without_named_refs, RemoveNamedRefs(expr));
+
+  EXPECT_EQ(without_named_refs, expected);
+}
+
+TEST(Expression, RemoveNamedRefs) {
+  ExpectRemovesRefsTo(field_ref("i32"), field_ref(2));
+  ExpectRemovesRefsTo(call("add", {literal(4), field_ref("i32")}),
+                      call("add", {literal(4), field_ref(2)}));
+  auto nested_schema = Schema({field("a", struct_({field("b", int32())}))});
+  ExpectRemovesRefsTo(field_ref({"a", "b"}), field_ref({0, 0}), nested_schema);
+}
+
 TEST(Expression, ExtractKnownFieldValues) {
   struct {
     void operator()(Expression guarantee,
@@ -1006,24 +1029,19 @@ TEST(Expression, ReplaceFieldsWithKnownValues) {
       DictionaryScalar::Make(MakeScalar(0), ArrayFromJSON(utf8(), R"(["3"])"))};
   ExpectReplacesTo(field_ref("dict_str"), {{"dict_str", dict_str}}, literal(dict_str));
 
-  ExpectReplacesTo(call("add",
-                        {
-                            call("subtract",
-                                 {
-                                     field_ref("i32"),
-                                     call("multiply", {literal(2), literal(3)}),
-                                 }),
-                            literal(2),
-                        }),
+  ExpectReplacesTo(add(call("subtract",
+                            {
+                                field_ref("i32"),
+                                call("multiply", {literal(2), literal(3)}),
+                            }),
+                       literal(2)),
                    i32_is_3,
-                   call("add", {
-                                   call("subtract",
-                                        {
-                                            literal(3),
-                                            call("multiply", {literal(2), literal(3)}),
-                                        }),
-                                   literal(2),
-                               }));
+                   add(call("subtract",
+                            {
+                                literal(3),
+                                call("multiply", {literal(2), literal(3)}),
+                            }),
+                       literal(2)));
 
   std::unordered_map<FieldRef, Datum, FieldRef::Hash> i32_valid_str_null{
       {"i32", Datum(3)}, {"str", MakeNullScalar(utf8())}};
@@ -1097,6 +1115,13 @@ TEST(Expression, CanonicalizeAnd) {
   ExpectCanonicalizesTo(is_valid(and_(b, true_)), is_valid(and_(true_, b)));
 }
 
+TEST(Expression, CanonicalizeAdd) {
+  auto ts = field_ref("ts_s");
+  ExpectCanonicalizesTo(add(ts, literal(5min)), add(literal(5min), ts));
+  ExpectCanonicalizesTo(add(add(ts, literal(5min)), add(literal(5min), literal(5min))),
+                        add(add(add(literal(5min), literal(5min)), literal(5min)), ts));
+}
+
 TEST(Expression, CanonicalizeComparison) {
   ExpectCanonicalizesTo(equal(literal(1), field_ref("i32")),
                         equal(field_ref("i32"), literal(1)));
@@ -1141,7 +1166,7 @@ TEST(Expression, SingleComparisonGuarantees) {
 
   // i32 is guaranteed equal to 3, so the projection can just materialize that constant
   // and need not incur IO
-  Simplify{project({call("add", {i32, literal(1)})}, {"i32 + 1"})}
+  Simplify{project({add(i32, literal(1))}, {"i32 + 1"})}
       .WithGuarantee(equal(i32, literal(3)))
       .Expect(literal(
           std::make_shared<StructScalar>(ScalarVector{std::make_shared<Int32Scalar>(4)},
@@ -1357,6 +1382,10 @@ TEST(Expression, SimplifyWithValidityGuarantee) {
       .WithGuarantee(is_null(field_ref("i32")))
       .Expect(literal(false));
 
+  Simplify{{true_unless_null(field_ref("i32"))}}
+      .WithGuarantee(is_null(field_ref("i32")))
+      .Expect(null_literal(boolean()));
+
   Simplify{is_valid(field_ref("i32"))}
       .WithGuarantee(is_valid(field_ref("i32")))
       .Expect(literal(true));
@@ -1372,6 +1401,21 @@ TEST(Expression, SimplifyWithValidityGuarantee) {
   Simplify{true_unless_null(field_ref("i32"))}
       .WithGuarantee(is_valid(field_ref("i32")))
       .Expect(literal(true));
+
+  Simplify{{equal(field_ref("i32"), literal(7))}}
+      .WithGuarantee(is_null(field_ref("i32")))
+      .Expect(null_literal(boolean()));
+
+  auto i32_is_2_or_null =
+      or_(equal(field_ref("i32"), literal(2)), is_null(field_ref("i32")));
+
+  Simplify{i32_is_2_or_null}
+      .WithGuarantee(is_null(field_ref("i32")))
+      .Expect(literal(true));
+
+  Simplify{{greater(field_ref("i32"), literal(7))}}
+      .WithGuarantee(is_null(field_ref("i32")))
+      .Expect(null_literal(boolean()));
 }
 
 TEST(Expression, SimplifyWithComparisonAndNullableCaveat) {
diff --git a/cpp/src/arrow/compute/exec/filter_benchmark.cc b/cpp/src/arrow/compute/exec/filter_benchmark.cc
index 64cf307580b..aa8e3e8b77d 100644
--- a/cpp/src/arrow/compute/exec/filter_benchmark.cc
+++ b/cpp/src/arrow/compute/exec/filter_benchmark.cc
@@ -76,23 +76,20 @@ static void FilterOverhead(benchmark::State& state, std::vector<Expression> expr
   arrow::compute::BatchesWithSchema data = MakeRandomBatchesWithNullProbability(
       schema({field("i64", int64()), field("bool", boolean())}), num_batches, batch_size,
       null_prob, bool_true_probability);
-  ExecContext ctx(default_memory_pool(), arrow::internal::GetCpuThreadPool());
   std::vector<arrow::compute::Declaration> filter_node_dec;
   for (Expression expr : expr_vector) {
     filter_node_dec.push_back({"filter", FilterNodeOptions(expr)});
   }
-  ASSERT_OK(
-      BenchmarkNodeOverhead(state, ctx, num_batches, batch_size, data, filter_node_dec));
+  ASSERT_OK(BenchmarkNodeOverhead(state, num_batches, batch_size, data, filter_node_dec));
 }
 
 static void FilterOverheadIsolated(benchmark::State& state, Expression expr) {
-  ExecContext ctx(default_memory_pool(), arrow::internal::GetCpuThreadPool());
   const int32_t batch_size = static_cast<int32_t>(state.range(0));
   const int32_t num_batches = kTotalBatchSize / batch_size;
   arrow::compute::BatchesWithSchema data = MakeRandomBatches(
       schema({field("i64", int64()), field("bool", boolean())}), num_batches, batch_size);
   FilterNodeOptions options = FilterNodeOptions{expr};
-  ASSERT_OK(BenchmarkIsolatedNodeOverhead(state, ctx, expr, num_batches, batch_size, data,
+  ASSERT_OK(BenchmarkIsolatedNodeOverhead(state, expr, num_batches, batch_size, data,
                                           "filter", options));
 }
 
diff --git a/cpp/src/arrow/compute/exec/filter_node.cc b/cpp/src/arrow/compute/exec/filter_node.cc
index b424da35f85..8274453b6c7 100644
--- a/cpp/src/arrow/compute/exec/filter_node.cc
+++ b/cpp/src/arrow/compute/exec/filter_node.cc
@@ -19,7 +19,9 @@
 #include "arrow/compute/exec.h"
 #include "arrow/compute/exec/exec_plan.h"
 #include "arrow/compute/exec/expression.h"
+#include "arrow/compute/exec/map_node.h"
 #include "arrow/compute/exec/options.h"
+#include "arrow/compute/exec/query_context.h"
 #include "arrow/datum.h"
 #include "arrow/result.h"
 #include "arrow/util/checked_cast.h"
@@ -37,8 +39,8 @@ namespace {
 class FilterNode : public MapNode {
  public:
   FilterNode(ExecPlan* plan, std::vector<ExecNode*> inputs,
-             std::shared_ptr<Schema> output_schema, Expression filter, bool async_mode)
-      : MapNode(plan, std::move(inputs), std::move(output_schema), async_mode),
+             std::shared_ptr<Schema> output_schema, Expression filter)
+      : MapNode(plan, std::move(inputs), std::move(output_schema)),
         filter_(std::move(filter)) {}
 
   static Result<ExecNode*> Make(ExecPlan* plan, std::vector<ExecNode*> inputs,
@@ -50,8 +52,9 @@ class FilterNode : public MapNode {
 
     auto filter_expression = filter_options.filter_expression;
     if (!filter_expression.IsBound()) {
-      ARROW_ASSIGN_OR_RAISE(filter_expression,
-                            filter_expression.Bind(*schema, plan->exec_context()));
+      ARROW_ASSIGN_OR_RAISE(
+          filter_expression,
+          filter_expression.Bind(*schema, plan->query_context()->exec_context()));
     }
 
     if (filter_expression.type()->id() != Type::BOOL) {
@@ -60,8 +63,7 @@ class FilterNode : public MapNode {
                                filter_expression.type()->ToString());
     }
     return plan->EmplaceNode<FilterNode>(plan, std::move(inputs), std::move(schema),
-                                         std::move(filter_expression),
-                                         filter_options.async_mode);
+                                         std::move(filter_expression));
   }
 
   const char* kind_name() const override { return "FilterNode"; }
@@ -76,8 +78,9 @@ class FilterNode : public MapNode {
                         {"filter.expression.simplified", simplified_filter.ToString()},
                         {"filter.length", target.length}});
 
-    ARROW_ASSIGN_OR_RAISE(Datum mask, ExecuteScalarExpression(simplified_filter, target,
-                                                              plan()->exec_context()));
+    ARROW_ASSIGN_OR_RAISE(
+        Datum mask, ExecuteScalarExpression(simplified_filter, target,
+                                            plan()->query_context()->exec_context()));
 
     if (mask.is_scalar()) {
       const auto& mask_scalar = mask.scalar_as<BooleanScalar>();
diff --git a/cpp/src/arrow/compute/exec/hash_join.cc b/cpp/src/arrow/compute/exec/hash_join.cc
index 5cf66b3d09e..ffd93591e65 100644
--- a/cpp/src/arrow/compute/exec/hash_join.cc
+++ b/cpp/src/arrow/compute/exec/hash_join.cc
@@ -26,7 +26,6 @@
 #include <vector>
 
 #include "arrow/compute/exec/hash_join_dict.h"
-#include "arrow/compute/exec/key_hash.h"
 #include "arrow/compute/exec/task_util.h"
 #include "arrow/compute/kernels/row_encoder.h"
 #include "arrow/compute/row/encode_internal.h"
@@ -40,7 +39,7 @@ class HashJoinBasicImpl : public HashJoinImpl {
   struct ThreadLocalState;
 
  public:
-  Status Init(ExecContext* ctx, JoinType join_type, size_t num_threads,
+  Status Init(QueryContext* ctx, JoinType join_type, size_t num_threads,
               const HashJoinProjectionMaps* proj_map_left,
               const HashJoinProjectionMaps* proj_map_right,
               std::vector<JoinKeyCmp> key_cmp, Expression filter,
@@ -99,7 +98,7 @@ class HashJoinBasicImpl : public HashJoinImpl {
     for (int icol = 0; icol < num_cols; ++icol) {
       data_types[icol] = schema_[side]->data_type(projection_handle, icol);
     }
-    encoder->Init(data_types, ctx_);
+    encoder->Init(data_types, ctx_->exec_context());
     encoder->Clear();
   }
 
@@ -297,8 +296,8 @@ class HashJoinBasicImpl : public HashJoinImpl {
     AppendFields(left_to_key, left_to_pay, left_key, left_payload);
     AppendFields(right_to_key, right_to_pay, right_key, right_payload);
 
-    ARROW_ASSIGN_OR_RAISE(Datum mask,
-                          ExecuteScalarExpression(filter_, concatenated, ctx_));
+    ARROW_ASSIGN_OR_RAISE(
+        Datum mask, ExecuteScalarExpression(filter_, concatenated, ctx_->exec_context()));
 
     size_t num_probed_rows = match.size() + no_match.size();
     if (mask.is_scalar()) {
@@ -398,7 +397,8 @@ class HashJoinBasicImpl : public HashJoinImpl {
       ARROW_ASSIGN_OR_RAISE(right_key,
                             hash_table_keys_.Decode(batch_size_next, opt_right_ids));
       // Post process build side keys that use dictionary
-      RETURN_NOT_OK(dict_build_.PostDecode(*schema_[1], &right_key, ctx_));
+      RETURN_NOT_OK(
+          dict_build_.PostDecode(*schema_[1], &right_key, ctx_->exec_context()));
     }
     if (has_right_payload) {
       ARROW_ASSIGN_OR_RAISE(right_payload,
@@ -510,13 +510,13 @@ class HashJoinBasicImpl : public HashJoinImpl {
     local_state.match_left.clear();
     local_state.match_right.clear();
 
-    bool use_key_batch_for_dicts =
-        dict_probe_.BatchRemapNeeded(thread_index, *schema_[0], *schema_[1], ctx_);
+    bool use_key_batch_for_dicts = dict_probe_.BatchRemapNeeded(
+        thread_index, *schema_[0], *schema_[1], ctx_->exec_context());
     RowEncoder* row_encoder_for_lookups = &local_state.exec_batch_keys;
     if (use_key_batch_for_dicts) {
-      RETURN_NOT_OK(dict_probe_.EncodeBatch(thread_index, *schema_[0], *schema_[1],
-                                            dict_build_, batch, &row_encoder_for_lookups,
-                                            &batch_key_for_lookups, ctx_));
+      RETURN_NOT_OK(dict_probe_.EncodeBatch(
+          thread_index, *schema_[0], *schema_[1], dict_build_, batch,
+          &row_encoder_for_lookups, &batch_key_for_lookups, ctx_->exec_context()));
     }
 
     // Collect information about all nulls in key columns.
@@ -561,7 +561,7 @@ class HashJoinBasicImpl : public HashJoinImpl {
 
   Status BuildHashTable_exec_task(size_t thread_index, int64_t /*task_id*/) {
     AccumulationQueue batches = std::move(build_batches_);
-    dict_build_.InitEncoder(*schema_[1], &hash_table_keys_, ctx_);
+    dict_build_.InitEncoder(*schema_[1], &hash_table_keys_, ctx_->exec_context());
     bool has_payload = (schema_[1]->num_cols(HashJoinProjection::PAYLOAD) > 0);
     if (has_payload) {
       InitEncoder(1, HashJoinProjection::PAYLOAD, &hash_table_payloads_);
@@ -578,11 +578,11 @@ class HashJoinBasicImpl : public HashJoinImpl {
       } else if (hash_table_empty_) {
         hash_table_empty_ = false;
 
-        RETURN_NOT_OK(dict_build_.Init(*schema_[1], &batch, ctx_));
+        RETURN_NOT_OK(dict_build_.Init(*schema_[1], &batch, ctx_->exec_context()));
       }
       int32_t num_rows_before = hash_table_keys_.num_rows();
       RETURN_NOT_OK(dict_build_.EncodeBatch(thread_index, *schema_[1], batch,
-                                            &hash_table_keys_, ctx_));
+                                            &hash_table_keys_, ctx_->exec_context()));
       if (has_payload) {
         RETURN_NOT_OK(
             EncodeBatch(1, HashJoinProjection::PAYLOAD, &hash_table_payloads_, batch));
@@ -594,7 +594,7 @@ class HashJoinBasicImpl : public HashJoinImpl {
     }
 
     if (hash_table_empty_) {
-      RETURN_NOT_OK(dict_build_.Init(*schema_[1], nullptr, ctx_));
+      RETURN_NOT_OK(dict_build_.Init(*schema_[1], nullptr, ctx_->exec_context()));
     }
 
     return Status::OK();
@@ -735,7 +735,7 @@ class HashJoinBasicImpl : public HashJoinImpl {
 
   // Metadata
   //
-  ExecContext* ctx_;
+  QueryContext* ctx_;
   JoinType join_type_;
   size_t num_threads_;
   const HashJoinProjectionMaps* schema_[2];
diff --git a/cpp/src/arrow/compute/exec/hash_join.h b/cpp/src/arrow/compute/exec/hash_join.h
index 0c5e43467e9..bc053b2f1b6 100644
--- a/cpp/src/arrow/compute/exec/hash_join.h
+++ b/cpp/src/arrow/compute/exec/hash_join.h
@@ -24,6 +24,7 @@
 #include "arrow/compute/exec/accumulation_queue.h"
 #include "arrow/compute/exec/bloom_filter.h"
 #include "arrow/compute/exec/options.h"
+#include "arrow/compute/exec/query_context.h"
 #include "arrow/compute/exec/schema_util.h"
 #include "arrow/compute/exec/task_util.h"
 #include "arrow/result.h"
@@ -47,7 +48,7 @@ class HashJoinImpl {
   using AbortContinuationImpl = std::function<void()>;
 
   virtual ~HashJoinImpl() = default;
-  virtual Status Init(ExecContext* ctx, JoinType join_type, size_t num_threads,
+  virtual Status Init(QueryContext* ctx, JoinType join_type, size_t num_threads,
                       const HashJoinProjectionMaps* proj_map_left,
                       const HashJoinProjectionMaps* proj_map_right,
                       std::vector<JoinKeyCmp> key_cmp, Expression filter,
diff --git a/cpp/src/arrow/compute/exec/hash_join_benchmark.cc b/cpp/src/arrow/compute/exec/hash_join_benchmark.cc
index 94201a849fa..cc85251f8c1 100644
--- a/cpp/src/arrow/compute/exec/hash_join_benchmark.cc
+++ b/cpp/src/arrow/compute/exec/hash_join_benchmark.cc
@@ -25,7 +25,6 @@
 #include "arrow/compute/exec/util.h"
 #include "arrow/compute/kernels/row_encoder.h"
 #include "arrow/testing/random.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/thread_pool.h"
 
 #include <cstdint>
@@ -126,10 +125,7 @@ class JoinBenchmark {
 
     stats_.num_probe_rows = settings.num_probe_batches * settings.batch_size;
 
-    ctx_ = arrow::internal::make_unique<ExecContext>(default_memory_pool(),
-                                                     arrow::internal::GetCpuThreadPool());
-
-    schema_mgr_ = arrow::internal::make_unique<HashJoinSchema>();
+    schema_mgr_ = std::make_unique<HashJoinSchema>();
     Expression filter = literal(true);
     DCHECK_OK(schema_mgr_->Init(settings.join_type, *l_batches_with_schema.schema,
                                 left_keys, *r_batches_with_schema.schema, right_keys,
@@ -149,6 +145,7 @@ class JoinBenchmark {
     };
 
     scheduler_ = TaskScheduler::Make();
+    DCHECK_OK(ctx_.Init(settings.num_threads, nullptr));
 
     auto register_task_group_callback = [&](std::function<Status(size_t, int64_t)> task,
                                             std::function<Status(size_t)> cont) {
@@ -160,11 +157,10 @@ class JoinBenchmark {
     };
 
     DCHECK_OK(join_->Init(
-        ctx_.get(), settings.join_type, settings.num_threads,
-        &(schema_mgr_->proj_maps[0]), &(schema_mgr_->proj_maps[1]), std::move(key_cmp),
-        std::move(filter), std::move(register_task_group_callback),
-        std::move(start_task_group_callback), [](int64_t, ExecBatch) {},
-        [](int64_t x) {}));
+        &ctx_, settings.join_type, settings.num_threads, &(schema_mgr_->proj_maps[0]),
+        &(schema_mgr_->proj_maps[1]), std::move(key_cmp), std::move(filter),
+        std::move(register_task_group_callback), std::move(start_task_group_callback),
+        [](int64_t, ExecBatch) {}, [](int64_t x) {}));
 
     task_group_probe_ = scheduler_->RegisterTaskGroup(
         [this](size_t thread_index, int64_t task_id) -> Status {
@@ -200,7 +196,7 @@ class JoinBenchmark {
   AccumulationQueue r_batches_;
   std::unique_ptr<HashJoinSchema> schema_mgr_;
   std::unique_ptr<HashJoinImpl> join_;
-  std::unique_ptr<ExecContext> ctx_;
+  QueryContext ctx_;
   int task_group_probe_;
 
   struct {
diff --git a/cpp/src/arrow/compute/exec/hash_join_dict.cc b/cpp/src/arrow/compute/exec/hash_join_dict.cc
index 560b0ea8d4d..4ce89446d3c 100644
--- a/cpp/src/arrow/compute/exec/hash_join_dict.cc
+++ b/cpp/src/arrow/compute/exec/hash_join_dict.cc
@@ -127,7 +127,7 @@ static Result<std::shared_ptr<ArrayData>> ConvertImp(
   } else {
     const auto& scalar = input.scalar_as<arrow::internal::PrimitiveScalarBase>();
     if (scalar.is_valid) {
-      const util::string_view data = scalar.view();
+      const std::string_view data = scalar.view();
       DCHECK_EQ(data.size(), sizeof(FROM));
       const FROM from = *reinterpret_cast<const FROM*>(data.data());
       const TO to_value = static_cast<TO>(from);
diff --git a/cpp/src/arrow/compute/exec/hash_join_node.cc b/cpp/src/arrow/compute/exec/hash_join_node.cc
index 44667b9f283..37bdb82517a 100644
--- a/cpp/src/arrow/compute/exec/hash_join_node.cc
+++ b/cpp/src/arrow/compute/exec/hash_join_node.cc
@@ -15,6 +15,7 @@
 // specific language governing permissions and limitations
 // under the License.
 
+#include <memory>
 #include <mutex>
 #include <unordered_set>
 #include <utility>
@@ -29,7 +30,6 @@
 #include "arrow/compute/exec/util.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/future.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/thread_pool.h"
 #include "arrow/util/tracing_internal.h"
 
@@ -45,6 +45,9 @@ bool HashJoinSchema::IsTypeSupported(const DataType& type) {
   if (id == Type::DICTIONARY) {
     return IsTypeSupported(*checked_cast<const DictionaryType&>(type).value_type());
   }
+  if (id == Type::EXTENSION) {
+    return IsTypeSupported(*checked_cast<const ExtensionType&>(type).storage_type());
+  }
   return is_fixed_width(id) || is_binary_like(id) || is_large_binary_like(id);
 }
 
@@ -487,7 +490,7 @@ struct BloomFilterPushdownContext {
       std::function<Status(size_t, int64_t)>, std::function<Status(size_t)>)>;
   using StartTaskGroupCallback = std::function<Status(int, int64_t)>;
   using BuildFinishedCallback = std::function<Status(size_t, AccumulationQueue)>;
-  using FiltersReceivedCallback = std::function<Status()>;
+  using FiltersReceivedCallback = std::function<Status(size_t)>;
   using FilterFinishedCallback = std::function<Status(size_t, AccumulationQueue)>;
   void Init(HashJoinNode* owner, size_t num_threads,
             RegisterTaskGroupCallback register_task_group_callback,
@@ -495,7 +498,7 @@ struct BloomFilterPushdownContext {
             FiltersReceivedCallback on_bloom_filters_received, bool disable_bloom_filter,
             bool use_sync_execution);
 
-  Status StartProducing();
+  Status StartProducing(size_t thread_index);
 
   void ExpectBloomFilter() { eval_.num_expected_bloom_filters_ += 1; }
 
@@ -505,10 +508,11 @@ struct BloomFilterPushdownContext {
                           BuildFinishedCallback on_finished);
 
   // Sends the Bloom filter to the pushdown target.
-  Status PushBloomFilter();
+  Status PushBloomFilter(size_t thread_index);
 
   // Receives a Bloom filter and its associated column map.
-  Status ReceiveBloomFilter(std::unique_ptr<BlockedBloomFilter> filter,
+  Status ReceiveBloomFilter(size_t thread_index,
+                            std::unique_ptr<BlockedBloomFilter> filter,
                             std::vector<int> column_map) {
     bool proceed;
     {
@@ -521,7 +525,7 @@ struct BloomFilterPushdownContext {
       ARROW_DCHECK_LE(eval_.received_filters_.size(), eval_.num_expected_bloom_filters_);
     }
     if (proceed) {
-      return eval_.all_received_callback_();
+      return eval_.all_received_callback_(thread_index);
     }
     return Status::OK();
   }
@@ -550,7 +554,8 @@ struct BloomFilterPushdownContext {
     std::vector<uint32_t> hashes(batch.length);
     std::vector<uint8_t> bv(bit_vector_bytes);
 
-    ARROW_ASSIGN_OR_RAISE(util::TempVectorStack * stack, GetStack(thread_index));
+    ARROW_ASSIGN_OR_RAISE(util::TempVectorStack * stack,
+                          ctx_->GetTempStack(thread_index));
 
     // Start with full selection for the current batch
     memset(selected.data(), 0xff, bit_vector_bytes);
@@ -576,8 +581,7 @@ struct BloomFilterPushdownContext {
       arrow::internal::BitmapAnd(bv.data(), 0, selected.data(), 0, key_batch.length, 0,
                                  selected.data());
     }
-    auto selected_buffer =
-        arrow::internal::make_unique<Buffer>(selected.data(), bit_vector_bytes);
+    auto selected_buffer = std::make_unique<Buffer>(selected.data(), bit_vector_bytes);
     ArrayData selected_arraydata(boolean(), batch.length,
                                  {nullptr, std::move(selected_buffer)});
     Datum selected_datum(selected_arraydata);
@@ -585,8 +589,8 @@ struct BloomFilterPushdownContext {
     size_t first_nonscalar = batch.values.size();
     for (size_t i = 0; i < batch.values.size(); i++) {
       if (!batch.values[i].is_scalar()) {
-        ARROW_ASSIGN_OR_RAISE(batch.values[i],
-                              Filter(batch.values[i], selected_datum, options, ctx_));
+        ARROW_ASSIGN_OR_RAISE(batch.values[i], Filter(batch.values[i], selected_datum,
+                                                      options, ctx_->exec_context()));
         first_nonscalar = std::min(first_nonscalar, i);
         ARROW_DCHECK_EQ(batch.values[i].length(), batch.values[first_nonscalar].length());
       }
@@ -617,25 +621,10 @@ struct BloomFilterPushdownContext {
   // the disable_bloom_filter_ flag.
   std::pair<HashJoinNode*, std::vector<int>> GetPushdownTarget(HashJoinNode* start);
 
-  Result<util::TempVectorStack*> GetStack(size_t thread_index) {
-    if (!tld_[thread_index].is_init) {
-      RETURN_NOT_OK(tld_[thread_index].stack.Init(
-          ctx_->memory_pool(), 4 * util::MiniBatch::kMiniBatchLength * sizeof(uint32_t)));
-      tld_[thread_index].is_init = true;
-    }
-    return &tld_[thread_index].stack;
-  }
-
   StartTaskGroupCallback start_task_group_callback_;
   bool disable_bloom_filter_;
   HashJoinSchema* schema_mgr_;
-  ExecContext* ctx_;
-
-  struct ThreadLocalData {
-    bool is_init = false;
-    util::TempVectorStack stack;
-  };
-  std::vector<ThreadLocalData> tld_;
+  QueryContext* ctx_;
 
   struct {
     int task_id_;
@@ -712,8 +701,7 @@ class HashJoinNode : public ExecNode {
     // Number of input exec nodes must be 2
     RETURN_NOT_OK(ValidateExecNodeInputs(plan, inputs, 2, "HashJoinNode"));
 
-    std::unique_ptr<HashJoinSchema> schema_mgr =
-        ::arrow::internal::make_unique<HashJoinSchema>();
+    std::unique_ptr<HashJoinSchema> schema_mgr = std::make_unique<HashJoinSchema>();
 
     const auto& join_options = checked_cast<const HashJoinNodeOptions&>(options);
     RETURN_NOT_OK(ValidateHashJoinNodeOptions(join_options));
@@ -735,9 +723,10 @@ class HashJoinNode : public ExecNode {
           join_options.output_suffix_for_left, join_options.output_suffix_for_right));
     }
 
-    ARROW_ASSIGN_OR_RAISE(Expression filter,
-                          schema_mgr->BindFilter(join_options.filter, left_schema,
-                                                 right_schema, plan->exec_context()));
+    ARROW_ASSIGN_OR_RAISE(
+        Expression filter,
+        schema_mgr->BindFilter(join_options.filter, left_schema, right_schema,
+                               plan->query_context()->exec_context()));
 
     // Generate output schema
     std::shared_ptr<Schema> output_schema = schema_mgr->MakeOutputSchema(
@@ -785,7 +774,7 @@ class HashJoinNode : public ExecNode {
   }
 
   Status OnBloomFilterFinished(size_t thread_index, AccumulationQueue batches) {
-    RETURN_NOT_OK(pushdown_context_.PushBloomFilter());
+    RETURN_NOT_OK(pushdown_context_.PushBloomFilter(thread_index));
     return impl_->BuildHashTable(
         thread_index, std::move(batches),
         [this](size_t thread_index) { return OnHashTableFinished(thread_index); });
@@ -836,10 +825,9 @@ class HashJoinNode : public ExecNode {
     return Status::OK();
   }
 
-  Status OnFiltersReceived() {
+  Status OnFiltersReceived(size_t thread_index) {
     std::unique_lock<std::mutex> guard(probe_side_mutex_);
     bloom_filters_ready_ = true;
-    size_t thread_index = plan_->GetThreadIndex();
     AccumulationQueue batches = std::move(probe_accumulator_);
     guard.unlock();
     return pushdown_context_.FilterBatches(
@@ -868,8 +856,8 @@ class HashJoinNode : public ExecNode {
       std::lock_guard<std::mutex> guard(probe_side_mutex_);
       queued_batches_to_probe_ = std::move(probe_accumulator_);
     }
-    return plan_->StartTaskGroup(task_group_probe_,
-                                 queued_batches_to_probe_.batch_count());
+    return plan_->query_context()->StartTaskGroup(task_group_probe_,
+                                                  queued_batches_to_probe_.batch_count());
   }
 
   Status OnQueuedBatchesProbed(size_t thread_index) {
@@ -890,7 +878,7 @@ class HashJoinNode : public ExecNode {
       return;
     }
 
-    size_t thread_index = plan_->GetThreadIndex();
+    size_t thread_index = plan_->query_context()->GetThreadIndex();
     int side = (input == inputs_[0]) ? 0 : 1;
 
     EVENT(span_, "InputReceived", {{"batch.length", batch.length}, {"side", side}});
@@ -928,7 +916,7 @@ class HashJoinNode : public ExecNode {
 
   void InputFinished(ExecNode* input, int total_batches) override {
     ARROW_DCHECK(std::find(inputs_.begin(), inputs_.end(), input) != inputs_.end());
-    size_t thread_index = plan_->GetThreadIndex();
+    size_t thread_index = plan_->query_context()->GetThreadIndex();
     int side = (input == inputs_[0]) ? 0 : 1;
 
     EVENT(span_, "InputFinished", {{"side", side}, {"batches.length", total_batches}});
@@ -946,13 +934,14 @@ class HashJoinNode : public ExecNode {
   }
 
   Status Init() override {
-    RETURN_NOT_OK(ExecNode::Init());
-    if (plan_->UseLegacyBatching()) {
+    QueryContext* ctx = plan_->query_context();
+    if (ctx->options().use_legacy_batching) {
       return Status::Invalid(
           "The plan was configured to use legacy batching but contained a join node "
           "which is incompatible with legacy batching");
     }
-    bool use_sync_execution = !(plan_->exec_context()->executor());
+
+    bool use_sync_execution = ctx->executor()->GetCapacity() == 1;
     // TODO(ARROW-15732)
     // Each side of join might have an IO thread being called from. Once this is fixed
     // we will change it back to just the CPU's thread pool capacity.
@@ -960,32 +949,32 @@ class HashJoinNode : public ExecNode {
 
     pushdown_context_.Init(
         this, num_threads,
-        [this](std::function<Status(size_t, int64_t)> fn,
-               std::function<Status(size_t)> on_finished) {
-          return plan_->RegisterTaskGroup(std::move(fn), std::move(on_finished));
+        [ctx](std::function<Status(size_t, int64_t)> fn,
+              std::function<Status(size_t)> on_finished) {
+          return ctx->RegisterTaskGroup(std::move(fn), std::move(on_finished));
         },
-        [this](int task_group_id, int64_t num_tasks) {
-          return plan_->StartTaskGroup(task_group_id, num_tasks);
+        [ctx](int task_group_id, int64_t num_tasks) {
+          return ctx->StartTaskGroup(task_group_id, num_tasks);
         },
-        [this]() { return OnFiltersReceived(); }, disable_bloom_filter_,
-        use_sync_execution);
+        [this](size_t thread_index) { return OnFiltersReceived(thread_index); },
+        disable_bloom_filter_, use_sync_execution);
 
     RETURN_NOT_OK(impl_->Init(
-        plan_->exec_context(), join_type_, num_threads, &(schema_mgr_->proj_maps[0]),
+        ctx, join_type_, num_threads, &(schema_mgr_->proj_maps[0]),
         &(schema_mgr_->proj_maps[1]), key_cmp_, filter_,
-        [this](std::function<Status(size_t, int64_t)> fn,
-               std::function<Status(size_t)> on_finished) {
-          return plan_->RegisterTaskGroup(std::move(fn), std::move(on_finished));
+        [ctx](std::function<Status(size_t, int64_t)> fn,
+              std::function<Status(size_t)> on_finished) {
+          return ctx->RegisterTaskGroup(std::move(fn), std::move(on_finished));
         },
-        [this](int task_group_id, int64_t num_tasks) {
-          return plan_->StartTaskGroup(task_group_id, num_tasks);
+        [ctx](int task_group_id, int64_t num_tasks) {
+          return ctx->StartTaskGroup(task_group_id, num_tasks);
         },
         [this](int64_t, ExecBatch batch) { this->OutputBatchCallback(batch); },
         [this](int64_t total_num_batches) {
           this->FinishedCallback(total_num_batches);
         }));
 
-    task_group_probe_ = plan_->RegisterTaskGroup(
+    task_group_probe_ = ctx->RegisterTaskGroup(
         [this](size_t thread_index, int64_t task_id) -> Status {
           return impl_->ProbeSingleBatch(thread_index,
                                          std::move(queued_batches_to_probe_[task_id]));
@@ -1003,7 +992,8 @@ class HashJoinNode : public ExecNode {
                         {"node.detail", ToString()},
                         {"node.kind", kind_name()}});
     END_SPAN_ON_FUTURE_COMPLETION(span_, finished_);
-    RETURN_NOT_OK(pushdown_context_.StartProducing());
+    RETURN_NOT_OK(
+        pushdown_context_.StartProducing(plan_->query_context()->GetThreadIndex()));
     return Status::OK();
   }
 
@@ -1017,16 +1007,15 @@ class HashJoinNode : public ExecNode {
 
   void StopProducing(ExecNode* output) override {
     DCHECK_EQ(output, outputs_[0]);
-    StopProducing();
+    for (auto&& input : inputs_) {
+      input->StopProducing(this);
+    }
   }
 
   void StopProducing() override {
     EVENT(span_, "StopProducing");
     bool expected = false;
     if (complete_.compare_exchange_strong(expected, true)) {
-      for (auto&& input : inputs_) {
-        input->StopProducing(this);
-      }
       impl_->Abort([this]() { finished_.MarkFinished(); });
     }
   }
@@ -1083,14 +1072,13 @@ void BloomFilterPushdownContext::Init(
     FiltersReceivedCallback on_bloom_filters_received, bool disable_bloom_filter,
     bool use_sync_execution) {
   schema_mgr_ = owner->schema_mgr_.get();
-  ctx_ = owner->plan_->exec_context();
-  tld_.resize(num_threads);
+  ctx_ = owner->plan_->query_context();
   disable_bloom_filter_ = disable_bloom_filter;
   std::tie(push_.pushdown_target_, push_.column_map_) = GetPushdownTarget(owner);
   eval_.all_received_callback_ = std::move(on_bloom_filters_received);
   if (!disable_bloom_filter_) {
     ARROW_CHECK(push_.pushdown_target_);
-    push_.bloom_filter_ = arrow::internal::make_unique<BlockedBloomFilter>();
+    push_.bloom_filter_ = std::make_unique<BlockedBloomFilter>();
     push_.pushdown_target_->pushdown_context_.ExpectBloomFilter();
 
     build_.builder_ = BloomFilterBuilder::Make(
@@ -1116,8 +1104,9 @@ void BloomFilterPushdownContext::Init(
   start_task_group_callback_ = std::move(start_task_group_callback);
 }
 
-Status BloomFilterPushdownContext::StartProducing() {
-  if (eval_.num_expected_bloom_filters_ == 0) return eval_.all_received_callback_();
+Status BloomFilterPushdownContext::StartProducing(size_t thread_index) {
+  if (eval_.num_expected_bloom_filters_ == 0)
+    return eval_.all_received_callback_(thread_index);
   return Status::OK();
 }
 
@@ -1131,7 +1120,7 @@ Status BloomFilterPushdownContext::BuildBloomFilter(size_t thread_index,
     return build_.on_finished_(thread_index, std::move(build_.batches_));
 
   RETURN_NOT_OK(build_.builder_->Begin(
-      /*num_threads=*/tld_.size(), ctx_->cpu_info()->hardware_flags(),
+      /*num_threads=*/ctx_->max_concurrency(), ctx_->cpu_info()->hardware_flags(),
       ctx_->memory_pool(), build_.batches_.row_count(), build_.batches_.batch_count(),
       push_.bloom_filter_.get()));
 
@@ -1139,10 +1128,10 @@ Status BloomFilterPushdownContext::BuildBloomFilter(size_t thread_index,
                                     /*num_tasks=*/build_.batches_.batch_count());
 }
 
-Status BloomFilterPushdownContext::PushBloomFilter() {
+Status BloomFilterPushdownContext::PushBloomFilter(size_t thread_index) {
   if (!disable_bloom_filter_)
     return push_.pushdown_target_->pushdown_context_.ReceiveBloomFilter(
-        std::move(push_.bloom_filter_), std::move(push_.column_map_));
+        thread_index, std::move(push_.bloom_filter_), std::move(push_.column_map_));
   return Status::OK();
 }
 
@@ -1163,7 +1152,7 @@ Status BloomFilterPushdownContext::BuildBloomFilter_exec_task(size_t thread_inde
   }
   ARROW_ASSIGN_OR_RAISE(ExecBatch key_batch, ExecBatch::Make(std::move(key_columns)));
 
-  ARROW_ASSIGN_OR_RAISE(util::TempVectorStack * stack, GetStack(thread_index));
+  ARROW_ASSIGN_OR_RAISE(util::TempVectorStack * stack, ctx_->GetTempStack(thread_index));
   util::TempVectorHolder<uint32_t> hash_holder(stack, util::MiniBatch::kMiniBatchLength);
   uint32_t* hashes = hash_holder.mutable_data();
   for (int64_t i = 0; i < key_batch.length; i += util::MiniBatch::kMiniBatchLength) {
diff --git a/cpp/src/arrow/compute/exec/hash_join_node_test.cc b/cpp/src/arrow/compute/exec/hash_join_node_test.cc
index 8cb1f8b92c0..cd8f392ad70 100644
--- a/cpp/src/arrow/compute/exec/hash_join_node_test.cc
+++ b/cpp/src/arrow/compute/exec/hash_join_node_test.cc
@@ -17,6 +17,7 @@
 
 #include <gmock/gmock-matchers.h>
 
+#include <memory>
 #include <numeric>
 #include <random>
 #include <unordered_set>
@@ -27,11 +28,11 @@
 #include "arrow/compute/exec/util.h"
 #include "arrow/compute/kernels/row_encoder.h"
 #include "arrow/compute/kernels/test_util.h"
+#include "arrow/testing/extension_type.h"
 #include "arrow/testing/gtest_util.h"
 #include "arrow/testing/matchers.h"
 #include "arrow/testing/random.h"
 #include "arrow/util/checked_cast.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/thread_pool.h"
 
 using testing::UnorderedElementsAreArray;
@@ -41,7 +42,7 @@ namespace compute {
 
 BatchesWithSchema GenerateBatchesFromString(
     const std::shared_ptr<Schema>& schema,
-    const std::vector<util::string_view>& json_strings, int multiplicity = 1) {
+    const std::vector<std::string_view>& json_strings, int multiplicity = 1) {
   BatchesWithSchema out_batches{{}, schema};
 
   std::vector<TypeHolder> types;
@@ -68,34 +69,20 @@ void CheckRunOutput(JoinType type, const BatchesWithSchema& l_batches,
                     const std::vector<FieldRef>& left_keys,
                     const std::vector<FieldRef>& right_keys,
                     const BatchesWithSchema& exp_batches, bool parallel = false) {
-  auto exec_ctx = arrow::internal::make_unique<ExecContext>(
-      default_memory_pool(), parallel ? arrow::internal::GetCpuThreadPool() : nullptr);
-
-  ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(exec_ctx.get()));
-
+  Declaration left{"source",
+                   SourceNodeOptions{l_batches.schema, l_batches.gen(parallel,
+                                                                     /*slow=*/false)}};
+  Declaration right{"source",
+                    SourceNodeOptions{r_batches.schema, r_batches.gen(parallel,
+                                                                      /*slow=*/false)}};
   HashJoinNodeOptions join_options{type, left_keys, right_keys};
-  Declaration join{"hashjoin", join_options};
-
-  // add left source
-  join.inputs.emplace_back(Declaration{
-      "source", SourceNodeOptions{l_batches.schema, l_batches.gen(parallel,
-                                                                  /*slow=*/false)}});
-  // add right source
-  join.inputs.emplace_back(Declaration{
-      "source", SourceNodeOptions{r_batches.schema, r_batches.gen(parallel,
-                                                                  /*slow=*/false)}});
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-
-  ASSERT_OK(Declaration::Sequence({join, {"sink", SinkNodeOptions{&sink_gen}}})
-                .AddToPlan(plan.get()));
+  Declaration join{"hashjoin", {std::move(left), std::move(right)}, join_options};
 
-  ASSERT_FINISHES_OK_AND_ASSIGN(auto res, StartAndCollect(plan.get(), sink_gen));
+  ASSERT_OK_AND_ASSIGN(auto out_table, DeclarationToTable(std::move(join), parallel));
 
   ASSERT_OK_AND_ASSIGN(auto exp_table,
                        TableFromExecBatches(exp_batches.schema, exp_batches.batches));
 
-  ASSERT_OK_AND_ASSIGN(auto out_table, TableFromExecBatches(exp_batches.schema, res));
-
   if (exp_table->num_rows() == 0) {
     ASSERT_EQ(exp_table->num_rows(), out_table->num_rows());
   } else {
@@ -889,44 +876,21 @@ Result<std::vector<ExecBatch>> HashJoinWithExecPlan(
     const std::shared_ptr<Schema>& output_schema,
     const std::vector<std::shared_ptr<Array>>& l,
     const std::vector<std::shared_ptr<Array>>& r, int num_batches_l, int num_batches_r) {
-  auto exec_ctx = arrow::internal::make_unique<ExecContext>(
-      default_memory_pool(), parallel ? arrow::internal::GetCpuThreadPool() : nullptr);
-
-  ARROW_ASSIGN_OR_RAISE(auto plan, ExecPlan::Make(exec_ctx.get()));
-
   // add left source
   BatchesWithSchema l_batches = TableToBatches(rng, num_batches_l, l, "l_");
-  ARROW_ASSIGN_OR_RAISE(
-      ExecNode * l_source,
-      MakeExecNode("source", plan.get(), {},
+  Declaration left{"source",
                    SourceNodeOptions{l_batches.schema, l_batches.gen(parallel,
-                                                                     /*slow=*/false)}));
-
+                                                                     /*slow=*/false)}};
   // add right source
   BatchesWithSchema r_batches = TableToBatches(rng, num_batches_r, r, "r_");
-  ARROW_ASSIGN_OR_RAISE(
-      ExecNode * r_source,
-      MakeExecNode("source", plan.get(), {},
-                   SourceNodeOptions{r_batches.schema, r_batches.gen(parallel,
-                                                                     /*slow=*/false)}));
-
-  ARROW_ASSIGN_OR_RAISE(
-      ExecNode * join,
-      MakeExecNode("hashjoin", plan.get(), {l_source, r_source}, join_options));
-
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-  ARROW_ASSIGN_OR_RAISE(
-      std::ignore, MakeExecNode("sink", plan.get(), {join}, SinkNodeOptions{&sink_gen}));
-
-  auto batches_fut = StartAndCollect(plan.get(), sink_gen);
-  if (!batches_fut.Wait(::arrow::kDefaultAssertFinishesWaitSeconds)) {
-    plan->StopProducing();
-    // If this second wait fails then there isn't much we can do.  We will abort
-    // and probably get a segmentation fault.
-    plan->finished().Wait(::arrow::kDefaultAssertFinishesWaitSeconds);
-    return Status::Invalid("Plan did not finish in a reasonable amount of time");
-  }
-  return batches_fut.result();
+  Declaration right{"source",
+                    SourceNodeOptions{r_batches.schema, r_batches.gen(parallel,
+                                                                      /*slow=*/false)}};
+  Declaration join{"hashjoin", {std::move(left), std::move(right)}, join_options};
+
+  ARROW_ASSIGN_OR_RAISE(BatchesWithCommonSchema batches_and_schema,
+                        DeclarationToExecBatches(std::move(join), parallel));
+  return batches_and_schema.batches;
 }
 
 TEST(HashJoin, Suffix) {
@@ -960,40 +924,24 @@ TEST(HashJoin, Suffix) {
                             field("ldistinct", int32()), field("rkey", int32()),
                             field("shared_r", int32()), field("rdistinct", int32())});
 
-  ExecContext exec_ctx;
-
-  ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(&exec_ctx));
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
-  ExecNode* left_source;
-  ExecNode* right_source;
-  ASSERT_OK_AND_ASSIGN(
-      left_source,
-      MakeExecNode("source", plan.get(), {},
+  Declaration left{"source",
                    SourceNodeOptions{input_left.schema, input_left.gen(/*parallel=*/false,
-                                                                       /*slow=*/false)}));
-
-  ASSERT_OK_AND_ASSIGN(right_source,
-                       MakeExecNode("source", plan.get(), {},
-                                    SourceNodeOptions{input_right.schema,
-                                                      input_right.gen(/*parallel=*/false,
-                                                                      /*slow=*/false)}));
-
+                                                                       /*slow=*/false)}};
+  Declaration right{
+      "source", SourceNodeOptions{input_right.schema, input_right.gen(/*parallel=*/false,
+                                                                      /*slow=*/false)}};
   HashJoinNodeOptions join_opts{JoinType::INNER,
                                 /*left_keys=*/{"lkey"},
                                 /*right_keys=*/{"rkey"}, literal(true), "_l", "_r"};
 
-  ASSERT_OK_AND_ASSIGN(
-      auto hashjoin,
-      MakeExecNode("hashjoin", plan.get(), {left_source, right_source}, join_opts));
-
-  ASSERT_OK_AND_ASSIGN(std::ignore, MakeExecNode("sink", plan.get(), {hashjoin},
-                                                 SinkNodeOptions{&sink_gen}));
+  Declaration join{"hashjoin", {std::move(left), std::move(right)}, join_opts};
 
-  ASSERT_FINISHES_OK_AND_ASSIGN(auto result, StartAndCollect(plan.get(), sink_gen));
+  ASSERT_OK_AND_ASSIGN(auto actual, DeclarationToExecBatches(std::move(join)));
 
-  AssertExecBatchesEqual(expected.schema, expected.batches, result);
-  AssertSchemaEqual(expected.schema, hashjoin->output_schema());
+  AssertExecBatchesEqualIgnoringOrder(expected.schema, expected.batches, actual.batches);
+  AssertSchemaEqual(expected.schema, actual.schema);
 }
 
 TEST(HashJoin, Random) {
@@ -1008,7 +956,7 @@ TEST(HashJoin, Random) {
   for (int test_id = 0; test_id < num_tests; ++test_id) {
     bool parallel = (rng.from_range(0, 1) == 1);
     bool disable_bloom_filter = (rng.from_range(0, 1) == 1);
-    auto exec_ctx = arrow::internal::make_unique<ExecContext>(
+    auto exec_ctx = std::make_unique<ExecContext>(
         default_memory_pool(), parallel ? arrow::internal::GetCpuThreadPool() : nullptr);
 
     // Constraints
@@ -1185,7 +1133,7 @@ TEST(HashJoin, Random) {
                          TableFromExecBatches(output_schema, batches));
 
     // Compare results
-    AssertTablesEqual(output_rows_ref, output_rows_test);
+    AssertTablesEqualIgnoringOrder(output_rows_ref, output_rows_test);
   }
 }
 
@@ -1309,19 +1257,13 @@ void TestHashJoinDictionaryHelper(
     r_batches.batches.resize(0);
   }
 
-  auto exec_ctx = arrow::internal::make_unique<ExecContext>(
-      default_memory_pool(), parallel ? arrow::internal::GetCpuThreadPool() : nullptr);
-  ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(exec_ctx.get()));
-  ASSERT_OK_AND_ASSIGN(
-      ExecNode * l_source,
-      MakeExecNode("source", plan.get(), {},
+  Declaration left{"source",
                    SourceNodeOptions{l_batches.schema, l_batches.gen(parallel,
-                                                                     /*slow=*/false)}));
-  ASSERT_OK_AND_ASSIGN(
-      ExecNode * r_source,
-      MakeExecNode("source", plan.get(), {},
-                   SourceNodeOptions{r_batches.schema, r_batches.gen(parallel,
-                                                                     /*slow=*/false)}));
+                                                                     /*slow=*/false)}};
+
+  Declaration right{"source",
+                    SourceNodeOptions{r_batches.schema, r_batches.gen(parallel,
+                                                                      /*slow=*/false)}};
   HashJoinNodeOptions join_options{join_type,
                                    {FieldRef(swap_sides ? "r_key" : "l_key")},
                                    {FieldRef(swap_sides ? "l_key" : "r_key")},
@@ -1330,23 +1272,18 @@ void TestHashJoinDictionaryHelper(
                                    {FieldRef(swap_sides ? "l_key" : "r_key"),
                                     FieldRef(swap_sides ? "l_payload" : "r_payload")},
                                    {cmp}};
-  ASSERT_OK_AND_ASSIGN(ExecNode * join, MakeExecNode("hashjoin", plan.get(),
-                                                     {(swap_sides ? r_source : l_source),
-                                                      (swap_sides ? l_source : r_source)},
-                                                     join_options));
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-  ASSERT_OK_AND_ASSIGN(
-      std::ignore, MakeExecNode("sink", plan.get(), {join}, SinkNodeOptions{&sink_gen}));
-  ASSERT_FINISHES_OK_AND_ASSIGN(auto res, StartAndCollect(plan.get(), sink_gen));
+  Declaration join{
+      "hashjoin", {swap_sides ? right : left, swap_sides ? left : right}, join_options};
+  ASSERT_OK_AND_ASSIGN(auto res, DeclarationToExecBatches(std::move(join), parallel));
 
-  for (auto& batch : res) {
-    DecodeScalarsAndDictionariesInBatch(&batch, exec_ctx->memory_pool());
+  for (auto& batch : res.batches) {
+    DecodeScalarsAndDictionariesInBatch(&batch, default_memory_pool());
   }
   std::shared_ptr<Schema> output_schema =
-      UpdateSchemaAfterDecodingDictionaries(join->output_schema());
+      UpdateSchemaAfterDecodingDictionaries(res.schema);
 
   ASSERT_OK_AND_ASSIGN(std::shared_ptr<Table> output,
-                       TableFromExecBatches(output_schema, res));
+                       TableFromExecBatches(output_schema, res.batches));
 
   ExecBatch expected_batch;
   if (swap_sides) {
@@ -1357,7 +1294,7 @@ void TestHashJoinDictionaryHelper(
                                                           r_out_key, r_out_payload}));
   }
 
-  DecodeScalarsAndDictionariesInBatch(&expected_batch, exec_ctx->memory_pool());
+  DecodeScalarsAndDictionariesInBatch(&expected_batch, default_memory_pool());
 
   // Slice expected batch into two to separate rows on right side with no matches from
   // everything else.
@@ -1398,7 +1335,7 @@ void TestHashJoinDictionaryHelper(
                        TableFromExecBatches(output_schema, expected_batches));
 
   // Compare results
-  AssertTablesEqual(expected, output);
+  AssertTablesEqualIgnoringOrder(expected, output);
 }
 
 TEST(HashJoin, Dictionary) {
@@ -1733,38 +1670,21 @@ TEST(HashJoin, DictNegative) {
                          ExecBatch::Make({i == 2 ? datumSecondB : datumSecondA,
                                           i == 3 ? datumSecondB : datumSecondA}));
 
-    auto exec_ctx =
-        arrow::internal::make_unique<ExecContext>(default_memory_pool(), nullptr);
-    ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(exec_ctx.get()));
-    ASSERT_OK_AND_ASSIGN(
-        ExecNode * l_source,
-        MakeExecNode("source", plan.get(), {},
-                     SourceNodeOptions{l.schema, l.gen(/*parallel=*/false,
-                                                       /*slow=*/false)}));
-    ASSERT_OK_AND_ASSIGN(
-        ExecNode * r_source,
-        MakeExecNode("source", plan.get(), {},
-                     SourceNodeOptions{r.schema, r.gen(/*parallel=*/false,
-                                                       /*slow=*/false)}));
+    Declaration left{"source", SourceNodeOptions{l.schema, l.gen(/*parallel=*/false,
+                                                                 /*slow=*/false)}};
+    Declaration right{"source", SourceNodeOptions{r.schema, r.gen(/*parallel=*/false,
+                                                                  /*slow=*/false)}};
     HashJoinNodeOptions join_options{JoinType::INNER,
                                      {FieldRef("l_key")},
                                      {FieldRef("r_key")},
                                      {FieldRef("l_key"), FieldRef("l_payload")},
                                      {FieldRef("r_key"), FieldRef("r_payload")},
                                      {JoinKeyCmp::EQ}};
-    ASSERT_OK_AND_ASSIGN(
-        ExecNode * join,
-        MakeExecNode("hashjoin", plan.get(), {l_source, r_source}, join_options));
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-    ASSERT_OK_AND_ASSIGN(std::ignore, MakeExecNode("sink", plan.get(), {join},
-                                                   SinkNodeOptions{&sink_gen}));
+    Declaration join{"hashjoin", {std::move(left), std::move(right)}, join_options};
 
-    EXPECT_FINISHES_AND_RAISES_WITH_MESSAGE_THAT(
+    EXPECT_RAISES_WITH_MESSAGE_THAT(
         NotImplemented, ::testing::HasSubstr("Unifying differing dictionaries"),
-        StartAndCollect(plan.get(), sink_gen));
-    // Since we returned an error, the StartAndCollect future may return before
-    // the plan is done finishing.
-    plan->finished().Wait();
+        DeclarationToTable(std::move(join), /*use_threads=*/false));
   }
 }
 
@@ -1787,25 +1707,110 @@ TEST(HashJoin, UnsupportedTypes) {
     BatchesWithSchema l_batches = GenerateBatchesFromString(schemas.first, {R"([])"});
     BatchesWithSchema r_batches = GenerateBatchesFromString(schemas.second, {R"([])"});
 
-    ExecContext exec_ctx;
-    ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(&exec_ctx));
-
     HashJoinNodeOptions join_options{JoinType::LEFT_SEMI, l_keys, r_keys};
-    Declaration join{"hashjoin", join_options};
-    join.inputs.emplace_back(Declaration{
-        "source", SourceNodeOptions{l_batches.schema, l_batches.gen(parallel, slow)}});
-    join.inputs.emplace_back(Declaration{
-        "source", SourceNodeOptions{r_batches.schema, r_batches.gen(parallel, slow)}});
+    Declaration left{"source",
+                     SourceNodeOptions{l_batches.schema, l_batches.gen(parallel, slow)}};
+    Declaration right{"source",
+                      SourceNodeOptions{r_batches.schema, r_batches.gen(parallel, slow)}};
+    Declaration join{"hashjoin", {std::move(left), std::move(right)}, join_options};
 
-    ASSERT_RAISES(Invalid, join.AddToPlan(plan.get()));
+    ASSERT_RAISES(Invalid, DeclarationToStatus(std::move(join)));
   }
 }
 
-TEST(HashJoin, CheckHashJoinNodeOptionsValidation) {
-  auto exec_ctx =
-      arrow::internal::make_unique<ExecContext>(default_memory_pool(), nullptr);
-  ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(exec_ctx.get()));
+void TestSimpleJoinHelper(BatchesWithSchema input_left, BatchesWithSchema input_right,
+                          BatchesWithSchema expected) {
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
+
+  Declaration left{"source",
+                   SourceNodeOptions{input_left.schema, input_left.gen(/*parallel=*/false,
+                                                                       /*slow=*/false)}};
+  Declaration right{
+      "source", SourceNodeOptions{input_right.schema, input_right.gen(/*parallel=*/false,
+                                                                      /*slow=*/false)}};
+
+  HashJoinNodeOptions join_opts{JoinType::INNER,
+                                /*left_keys=*/{"lkey"},
+                                /*right_keys=*/{"rkey"}, literal(true), "_l", "_r"};
+
+  Declaration join{"hashjoin", {std::move(left), std::move(right)}, join_opts};
+
+  ASSERT_OK_AND_ASSIGN(auto result, DeclarationToExecBatches(std::move(join)));
+
+  ASSERT_OK_AND_ASSIGN(auto output_rows_test,
+                       TableFromExecBatches(result.schema, result.batches));
+  ASSERT_OK_AND_ASSIGN(auto expected_rows_test,
+                       TableFromExecBatches(expected.schema, expected.batches));
+
+  AssertTablesEqual(*output_rows_test, *expected_rows_test, /*same_chunk_layout=*/false,
+                    /*flatten=*/true);
+  AssertSchemaEqual(expected.schema, result.schema);
+}
+
+TEST(HashJoin, ExtensionTypesSwissJoin) {
+  // For simpler types swiss join will be used.
+  auto ext_arr = ExampleUuid();
+  auto l_int_arr = ArrayFromJSON(int32(), "[1, 2, 3, 4]");
+  auto l_int_arr2 = ArrayFromJSON(int32(), "[4, 5, 6, 7]");
+  auto r_int_arr = ArrayFromJSON(int32(), "[4, 3, 2, null, 1]");
 
+  BatchesWithSchema input_left;
+  ASSERT_OK_AND_ASSIGN(ExecBatch left_batches,
+                       ExecBatch::Make({l_int_arr, l_int_arr2, ext_arr}));
+  input_left.batches = {left_batches};
+  input_left.schema = schema(
+      {field("lkey", int32()), field("shared", int32()), field("ldistinct", uuid())});
+
+  BatchesWithSchema input_right;
+  ASSERT_OK_AND_ASSIGN(ExecBatch right_batches, ExecBatch::Make({r_int_arr}));
+  input_right.batches = {right_batches};
+  input_right.schema = schema({field("rkey", int32())});
+
+  BatchesWithSchema expected;
+  ASSERT_OK_AND_ASSIGN(ExecBatch expected_batches,
+                       ExecBatch::Make({l_int_arr, l_int_arr2, ext_arr, l_int_arr}));
+  expected.batches = {expected_batches};
+  expected.schema = schema({field("lkey", int32()), field("shared", int32()),
+                            field("ldistinct", uuid()), field("rkey", int32())});
+
+  TestSimpleJoinHelper(input_left, input_right, expected);
+}
+
+TEST(HashJoin, ExtensionTypesHashJoin) {
+  // Swiss join doesn't support dictionaries so HashJoin will be used.
+  auto dict_type = dictionary(int64(), int8());
+  auto ext_arr = ExampleUuid();
+  auto l_int_arr = ArrayFromJSON(int32(), "[1, 2, 3, 4]");
+  auto l_int_arr2 = ArrayFromJSON(int32(), "[4, 5, 6, 7]");
+  auto r_int_arr = ArrayFromJSON(int32(), "[4, 3, 2, null, 1]");
+  auto l_dict_array =
+      DictArrayFromJSON(dict_type, R"([2, 0, 1, null])", R"([null, 0, 1])");
+
+  BatchesWithSchema input_left;
+  ASSERT_OK_AND_ASSIGN(ExecBatch left_batches,
+                       ExecBatch::Make({l_int_arr, l_int_arr2, ext_arr, l_dict_array}));
+  input_left.batches = {left_batches};
+  input_left.schema = schema({field("lkey", int32()), field("shared", int32()),
+                              field("ldistinct", uuid()), field("dict_type", dict_type)});
+
+  BatchesWithSchema input_right;
+  ASSERT_OK_AND_ASSIGN(ExecBatch right_batches, ExecBatch::Make({r_int_arr}));
+  input_right.batches = {right_batches};
+  input_right.schema = schema({field("rkey", int32())});
+
+  BatchesWithSchema expected;
+  ASSERT_OK_AND_ASSIGN(
+      ExecBatch expected_batches,
+      ExecBatch::Make({l_int_arr, l_int_arr2, ext_arr, l_dict_array, l_int_arr}));
+  expected.batches = {expected_batches};
+  expected.schema = schema({field("lkey", int32()), field("shared", int32()),
+                            field("ldistinct", uuid()), field("dict_type", dict_type),
+                            field("rkey", int32())});
+
+  TestSimpleJoinHelper(input_left, input_right, expected);
+}
+
+TEST(HashJoin, CheckHashJoinNodeOptionsValidation) {
   BatchesWithSchema input_left;
   input_left.batches = {ExecBatchFromJSON({int32(), int32(), int32()}, R"([
                    [1, 4, 7],
@@ -1824,19 +1829,12 @@ TEST(HashJoin, CheckHashJoinNodeOptionsValidation) {
   input_right.schema = schema(
       {field("rkey", int32()), field("shared", int32()), field("rdistinct", int32())});
 
-  ExecNode* l_source;
-  ExecNode* r_source;
-  ASSERT_OK_AND_ASSIGN(
-      l_source,
-      MakeExecNode("source", plan.get(), {},
+  Declaration left{"source",
                    SourceNodeOptions{input_left.schema, input_left.gen(/*parallel=*/false,
-                                                                       /*slow=*/false)}));
-
-  ASSERT_OK_AND_ASSIGN(r_source,
-                       MakeExecNode("source", plan.get(), {},
-                                    SourceNodeOptions{input_right.schema,
-                                                      input_right.gen(/*parallel=*/false,
-                                                                      /*slow=*/false)}))
+                                                                       /*slow=*/false)}};
+  Declaration right{
+      "source", SourceNodeOptions{input_right.schema, input_right.gen(/*parallel=*/false,
+                                                                      /*slow=*/false)}};
 
   std::vector<std::vector<FieldRef>> l_keys = {
       {},
@@ -1858,9 +1856,9 @@ TEST(HashJoin, CheckHashJoinNodeOptionsValidation) {
 
         HashJoinNodeOptions options{JoinType::INNER, l_keys[j], r_keys[k], {}, {},
                                     key_cmps[i]};
-        EXPECT_RAISES_WITH_MESSAGE_THAT(
-            Invalid, ::testing::HasSubstr("key_cmp and keys"),
-            MakeExecNode("hashjoin", plan.get(), {l_source, r_source}, options));
+        Declaration join{"hashjoin", {left, right}, options};
+        EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid, ::testing::HasSubstr("key_cmp and keys"),
+                                        DeclarationToStatus(std::move(join)));
       }
     }
   }
@@ -1888,25 +1886,12 @@ TEST(HashJoin, ResidualFilter) {
     input_right.schema =
         schema({field("r1", int32()), field("r2", int32()), field("r_str", utf8())});
 
-    auto exec_ctx = arrow::internal::make_unique<ExecContext>(
-        default_memory_pool(), parallel ? arrow::internal::GetCpuThreadPool() : nullptr);
-
-    ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(exec_ctx.get()));
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-
-    ExecNode* left_source;
-    ExecNode* right_source;
-    ASSERT_OK_AND_ASSIGN(
-        left_source,
-        MakeExecNode("source", plan.get(), {},
-                     SourceNodeOptions{input_left.schema,
-                                       input_left.gen(parallel, /*slow=*/false)}));
-
-    ASSERT_OK_AND_ASSIGN(
-        right_source,
-        MakeExecNode("source", plan.get(), {},
-                     SourceNodeOptions{input_right.schema,
-                                       input_right.gen(parallel, /*slow=*/false)}))
+    Declaration left{
+        "source",
+        SourceNodeOptions{input_left.schema, input_left.gen(parallel, /*slow=*/false)}};
+    Declaration right{
+        "source",
+        SourceNodeOptions{input_right.schema, input_right.gen(parallel, /*slow=*/false)}};
 
     Expression mul = call("multiply", {field_ref("l1"), field_ref("l2")});
     Expression combination = call("add", {mul, field_ref("r1")});
@@ -1917,14 +1902,10 @@ TEST(HashJoin, ResidualFilter) {
         /*left_keys=*/{"l_str"},
         /*right_keys=*/{"r_str"}, std::move(residual_filter), "l_", "r_"};
 
-    ASSERT_OK_AND_ASSIGN(
-        auto hashjoin,
-        MakeExecNode("hashjoin", plan.get(), {left_source, right_source}, join_opts));
+    Declaration join{"hashjoin", {std::move(left), std::move(right)}, join_opts};
 
-    ASSERT_OK_AND_ASSIGN(std::ignore, MakeExecNode("sink", plan.get(), {hashjoin},
-                                                   SinkNodeOptions{&sink_gen}));
-
-    ASSERT_FINISHES_OK_AND_ASSIGN(auto result, StartAndCollect(plan.get(), sink_gen));
+    ASSERT_OK_AND_ASSIGN(auto result,
+                         DeclarationToExecBatches(std::move(join), parallel));
 
     std::vector<ExecBatch> expected = {
         ExecBatchFromJSON({int32(), int32(), utf8(), int32(), int32(), utf8()}, R"([
@@ -1933,7 +1914,7 @@ TEST(HashJoin, ResidualFilter) {
             [2, 5, "beta", 2, 12, "beta"],
             [3, 4, "alpha", 4, 16, "alpha"]])")};
 
-    AssertExecBatchesEqual(hashjoin->output_schema(), result, expected);
+    AssertExecBatchesEqualIgnoringOrder(result.schema, result.batches, expected);
   }
 }
 
@@ -1965,45 +1946,31 @@ TEST(HashJoin, TrivialResidualFilter) {
                  ])")};
       input_right.schema = schema({field("r1", int32()), field("r_str", utf8())});
 
-      auto exec_ctx = arrow::internal::make_unique<ExecContext>(
+      auto exec_ctx = std::make_unique<ExecContext>(
           default_memory_pool(),
           parallel ? arrow::internal::GetCpuThreadPool() : nullptr);
 
-      ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(exec_ctx.get()));
-      AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-
-      ExecNode* left_source;
-      ExecNode* right_source;
-      ASSERT_OK_AND_ASSIGN(
-          left_source,
-          MakeExecNode("source", plan.get(), {},
-                       SourceNodeOptions{input_left.schema,
-                                         input_left.gen(parallel, /*slow=*/false)}));
-
-      ASSERT_OK_AND_ASSIGN(
-          right_source,
-          MakeExecNode("source", plan.get(), {},
-                       SourceNodeOptions{input_right.schema,
-                                         input_right.gen(parallel, /*slow=*/false)}))
+      Declaration left{
+          "source",
+          SourceNodeOptions{input_left.schema, input_left.gen(parallel, /*slow=*/false)}};
+      Declaration right{"source",
+                        SourceNodeOptions{input_right.schema,
+                                          input_right.gen(parallel, /*slow=*/false)}};
 
       HashJoinNodeOptions join_opts{
           JoinType::INNER,
           /*left_keys=*/{"l_str"},
           /*right_keys=*/{"r_str"}, filters[test_id], "l_", "r_"};
 
-      ASSERT_OK_AND_ASSIGN(
-          auto hashjoin,
-          MakeExecNode("hashjoin", plan.get(), {left_source, right_source}, join_opts));
-
-      ASSERT_OK_AND_ASSIGN(std::ignore, MakeExecNode("sink", plan.get(), {hashjoin},
-                                                     SinkNodeOptions{&sink_gen}));
+      Declaration join{"hashjoin", {std::move(left), std::move(right)}, join_opts};
 
-      ASSERT_FINISHES_OK_AND_ASSIGN(auto result, StartAndCollect(plan.get(), sink_gen));
+      ASSERT_OK_AND_ASSIGN(auto result,
+                           DeclarationToExecBatches(std::move(join), parallel));
 
       std::vector<ExecBatch> expected = {ExecBatchFromJSON(
           {int32(), utf8(), int32(), utf8()}, expected_strings[test_id])};
 
-      AssertExecBatchesEqual(hashjoin->output_schema(), result, expected);
+      AssertExecBatchesEqualIgnoringOrder(result.schema, result.batches, expected);
     }
   }
 }
@@ -2105,42 +2072,32 @@ void TestSingleChainOfHashJoins(Random64Bit& rng) {
   for (bool bloom_filters : {false, true}) {
     bool kParallel = true;
     ARROW_SCOPED_TRACE(bloom_filters ? "bloom filtered" : "unfiltered");
-    auto exec_ctx = arrow::internal::make_unique<ExecContext>(
-        default_memory_pool(), kParallel ? arrow::internal::GetCpuThreadPool() : nullptr);
-    ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(exec_ctx.get()));
 
-    ExecNode* left_source;
-    ASSERT_OK_AND_ASSIGN(
-        left_source,
-        MakeExecNode("source", plan.get(), {},
-                     SourceNodeOptions{input_left.schema,
-                                       input_left.gen(kParallel, /*slow=*/false)}));
-    std::vector<ExecNode*> joins(num_joins);
+    Declaration left{
+        "source",
+        SourceNodeOptions{input_left.schema, input_left.gen(kParallel, /*slow=*/false)}};
+
+    Declaration last_join;
     for (int i = 0; i < num_joins; i++) {
       opts[i].disable_bloom_filter = !bloom_filters;
-      ExecNode* right_source;
-      ASSERT_OK_AND_ASSIGN(
-          right_source,
-          MakeExecNode("source", plan.get(), {},
-                       SourceNodeOptions{input_right[i].schema,
-                                         input_right[i].gen(kParallel, /*slow=*/false)}));
+      Declaration right{"source",
+                        SourceNodeOptions{input_right[i].schema,
+                                          input_right[i].gen(kParallel, /*slow=*/false)}};
 
-      std::vector<ExecNode*> inputs;
+      std::vector<Declaration::Input> inputs;
       if (i == 0)
-        inputs = {left_source, right_source};
+        inputs = {std::move(left), std::move(right)};
       else
-        inputs = {joins[i - 1], right_source};
-      ASSERT_OK_AND_ASSIGN(joins[i],
-                           MakeExecNode("hashjoin", plan.get(), inputs, opts[i]));
+        inputs = {std::move(last_join), std::move(right)};
+      last_join = Declaration{"hashjoin", std::move(inputs), opts[i]};
     }
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-    ASSERT_OK(
-        MakeExecNode("sink", plan.get(), {joins.back()}, SinkNodeOptions{&sink_gen}));
-    ASSERT_FINISHES_OK_AND_ASSIGN(auto result, StartAndCollect(plan.get(), sink_gen));
+
+    ASSERT_OK_AND_ASSIGN(auto result,
+                         DeclarationToExecBatches(std::move(last_join), kParallel));
     if (!bloom_filters)
-      reference = std::move(result);
+      reference = std::move(result.batches);
     else
-      AssertExecBatchesEqual(joins.back()->output_schema(), reference, result);
+      AssertExecBatchesEqualIgnoringOrder(result.schema, reference, result.batches);
   }
 }
 
diff --git a/cpp/src/arrow/compute/exec/key_hash.cc b/cpp/src/arrow/compute/exec/key_hash.cc
index 3f495bc9e60..5ff0d4cf1e5 100644
--- a/cpp/src/arrow/compute/exec/key_hash.cc
+++ b/cpp/src/arrow/compute/exec/key_hash.cc
@@ -432,11 +432,14 @@ void Hashing32::HashMultiColumn(const std::vector<KeyColumnArray>& cols,
                     cols[icol].data(1) + first_row * col_width, hashes + first_row,
                     hash_temp);
         }
-      } else {
-        // TODO: add support for 64-bit offsets
+      } else if (cols[icol].metadata().fixed_length == sizeof(uint32_t)) {
         HashVarLen(ctx->hardware_flags, icol > 0, batch_size_next,
                    cols[icol].offsets() + first_row, cols[icol].data(2),
                    hashes + first_row, hash_temp);
+      } else {
+        HashVarLen(ctx->hardware_flags, icol > 0, batch_size_next,
+                   cols[icol].large_offsets() + first_row, cols[icol].data(2),
+                   hashes + first_row, hash_temp);
       }
 
       // Zero hash for nulls
@@ -865,10 +868,12 @@ void Hashing64::HashMultiColumn(const std::vector<KeyColumnArray>& cols,
           HashFixed(icol > 0, batch_size_next, col_width,
                     cols[icol].data(1) + first_row * col_width, hashes + first_row);
         }
-      } else {
-        // TODO: add support for 64-bit offsets
+      } else if (cols[icol].metadata().fixed_length == sizeof(uint32_t)) {
         HashVarLen(icol > 0, batch_size_next, cols[icol].offsets() + first_row,
                    cols[icol].data(2), hashes + first_row);
+      } else {
+        HashVarLen(icol > 0, batch_size_next, cols[icol].large_offsets() + first_row,
+                   cols[icol].data(2), hashes + first_row);
       }
 
       // Zero hash for nulls
diff --git a/cpp/src/arrow/compute/exec/key_hash_test.cc b/cpp/src/arrow/compute/exec/key_hash_test.cc
index b9404ed9ae3..a4900b39a2d 100644
--- a/cpp/src/arrow/compute/exec/key_hash_test.cc
+++ b/cpp/src/arrow/compute/exec/key_hash_test.cc
@@ -35,9 +35,12 @@ namespace compute {
 
 class TestVectorHash {
  private:
-  static Result<std::shared_ptr<BinaryArray>> GenerateUniqueRandomBinary(
-      random::pcg32_fast* random, int num, int min_length, int max_length) {
-    BinaryBuilder builder;
+  template <typename Type, typename ArrayType = typename TypeTraits<Type>::ArrayType>
+  static enable_if_base_binary<Type, Result<std::shared_ptr<ArrayType>>>
+  GenerateUniqueRandomBinary(random::pcg32_fast* random, int num, int min_length,
+                             int max_length) {
+    using BuilderType = typename TypeTraits<Type>::BuilderType;
+    BuilderType builder;
     std::unordered_set<std::string> unique_key_strings;
     std::vector<uint8_t> temp_buffer;
     temp_buffer.resize(max_length);
@@ -58,12 +61,14 @@ class TestVectorHash {
       }
     }
     ARROW_ASSIGN_OR_RAISE(auto uniques, builder.Finish());
-    return checked_pointer_cast<BinaryArray>(uniques);
+    return checked_pointer_cast<ArrayType>(uniques);
   }
 
-  static Result<std::pair<std::vector<int>, std::shared_ptr<BinaryArray>>>
-  SampleUniqueBinary(random::pcg32_fast* random, int num, const BinaryArray& uniques) {
-    BinaryBuilder builder;
+  template <typename Type, typename ArrayType = typename TypeTraits<Type>::ArrayType>
+  static Result<std::pair<std::vector<int>, std::shared_ptr<ArrayType>>>
+  SampleUniqueBinary(random::pcg32_fast* random, int num, const ArrayType& uniques) {
+    using BuilderType = typename TypeTraits<Type>::BuilderType;
+    BuilderType builder;
     std::vector<int> row_ids;
     row_ids.resize(num);
 
@@ -75,13 +80,18 @@ class TestVectorHash {
       ARROW_RETURN_NOT_OK(builder.Append(uniques.GetView(row_id)));
     }
     ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Array> sampled, builder.Finish());
-    return std::pair<std::vector<int>, std::shared_ptr<BinaryArray>>{
-        std::move(row_ids), checked_pointer_cast<BinaryArray>(sampled)};
+    return std::pair<std::vector<int>, std::shared_ptr<ArrayType>>{
+        std::move(row_ids), checked_pointer_cast<ArrayType>(sampled)};
   }
 
  public:
+  template <typename Type>
   static void RunSingle(random::pcg32_fast* random, bool use_32bit_hash,
                         bool use_varlen_input, int min_length, int max_length) {
+    using ArrayType = typename TypeTraits<Type>::ArrayType;
+    using OffsetType = typename TypeTraits<Type>::OffsetType;
+    using offset_t = typename std::make_unsigned<typename OffsetType::c_type>::type;
+
     constexpr int min_num_unique = 100;
     constexpr int max_num_unique = 1000;
     constexpr int min_num_rows = 4000;
@@ -111,14 +121,15 @@ class TestVectorHash {
     }
 
     ASSERT_OK_AND_ASSIGN(
-        std::shared_ptr<BinaryArray> uniques,
-        GenerateUniqueRandomBinary(random, num_unique, min_length, max_length));
-    ASSERT_OK_AND_ASSIGN(auto sampled, SampleUniqueBinary(random, num_rows, *uniques));
+        std::shared_ptr<ArrayType> uniques,
+        GenerateUniqueRandomBinary<Type>(random, num_unique, min_length, max_length));
+    ASSERT_OK_AND_ASSIGN(auto sampled,
+                         SampleUniqueBinary<Type>(random, num_rows, *uniques));
     const std::vector<int>& row_ids = sampled.first;
-    const std::shared_ptr<BinaryArray>& keys_array = sampled.second;
+    const std::shared_ptr<ArrayType>& keys_array = sampled.second;
     const uint8_t* keys = keys_array->raw_data();
-    const uint32_t* key_offsets =
-        reinterpret_cast<const uint32_t*>(keys_array->raw_value_offsets());
+    const offset_t* key_offsets =
+        reinterpret_cast<const offset_t*>(keys_array->raw_value_offsets());
 
     std::vector<uint32_t> hashes_scalar32;
     std::vector<uint64_t> hashes_scalar64;
@@ -208,7 +219,8 @@ class TestVectorHash {
   }
 };
 
-TEST(VectorHash, Basic) {
+template <typename Type>
+void RunTestVectorHash() {
   random::pcg32_fast gen(/*seed=*/0);
 
   int numtest = 40;
@@ -219,12 +231,20 @@ TEST(VectorHash, Basic) {
   for (bool use_32bit_hash : {true, false}) {
     for (bool use_varlen_input : {false, true}) {
       for (int itest = 0; itest < numtest; ++itest) {
-        TestVectorHash::RunSingle(&gen, use_32bit_hash, use_varlen_input, min_length,
-                                  max_length);
+        TestVectorHash::RunSingle<Type>(&gen, use_32bit_hash, use_varlen_input,
+                                        min_length, max_length);
       }
     }
   }
 }
 
+TEST(VectorHash, BasicBinary) { RunTestVectorHash<BinaryType>(); }
+
+TEST(VectorHash, BasicLargeBinary) { RunTestVectorHash<LargeBinaryType>(); }
+
+TEST(VectorHash, BasicString) { RunTestVectorHash<StringType>(); }
+
+TEST(VectorHash, BasicLargeString) { RunTestVectorHash<LargeStringType>(); }
+
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec/map_node.cc b/cpp/src/arrow/compute/exec/map_node.cc
new file mode 100644
index 00000000000..16201ea1290
--- /dev/null
+++ b/cpp/src/arrow/compute/exec/map_node.cc
@@ -0,0 +1,122 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "arrow/compute/exec/map_node.h"
+
+#include <functional>
+#include <memory>
+#include <string>
+#include <utility>
+#include <vector>
+
+#include "arrow/compute/exec.h"
+#include "arrow/compute/exec/expression.h"
+#include "arrow/result.h"
+#include "arrow/status.h"
+#include "arrow/util/logging.h"
+#include "arrow/util/tracing_internal.h"
+
+namespace arrow {
+namespace compute {
+
+MapNode::MapNode(ExecPlan* plan, std::vector<ExecNode*> inputs,
+                 std::shared_ptr<Schema> output_schema)
+    : ExecNode(plan, std::move(inputs), /*input_labels=*/{"target"},
+               std::move(output_schema),
+               /*num_outputs=*/1) {}
+
+void MapNode::ErrorReceived(ExecNode* input, Status error) {
+  DCHECK_EQ(input, inputs_[0]);
+  EVENT(span_, "ErrorReceived", {{"error.message", error.message()}});
+  outputs_[0]->ErrorReceived(this, std::move(error));
+}
+
+void MapNode::InputFinished(ExecNode* input, int total_batches) {
+  DCHECK_EQ(input, inputs_[0]);
+  EVENT(span_, "InputFinished", {{"batches.length", total_batches}});
+  outputs_[0]->InputFinished(this, total_batches);
+  if (input_counter_.SetTotal(total_batches)) {
+    this->Finish();
+  }
+}
+
+Status MapNode::StartProducing() {
+  START_COMPUTE_SPAN(
+      span_, std::string(kind_name()) + ":" + label(),
+      {{"node.label", label()}, {"node.detail", ToString()}, {"node.kind", kind_name()}});
+  return Status::OK();
+}
+
+void MapNode::PauseProducing(ExecNode* output, int32_t counter) {
+  inputs_[0]->PauseProducing(this, counter);
+}
+
+void MapNode::ResumeProducing(ExecNode* output, int32_t counter) {
+  inputs_[0]->ResumeProducing(this, counter);
+}
+
+void MapNode::StopProducing(ExecNode* output) {
+  DCHECK_EQ(output, outputs_[0]);
+  StopProducing();
+}
+
+void MapNode::StopProducing() {
+  EVENT(span_, "StopProducing");
+  if (input_counter_.Cancel()) {
+    this->Finish();
+  }
+  inputs_[0]->StopProducing(this);
+}
+
+void MapNode::SubmitTask(std::function<Result<ExecBatch>(ExecBatch)> map_fn,
+                         ExecBatch batch) {
+  Status status;
+  // This will be true if the node is stopped early due to an error or manual
+  // cancellation
+  if (input_counter_.Completed()) {
+    return;
+  }
+  auto task = [this, map_fn, batch]() {
+    auto guarantee = batch.guarantee;
+    auto output_batch = map_fn(std::move(batch));
+    if (ErrorIfNotOk(output_batch.status())) {
+      return output_batch.status();
+    }
+    output_batch->guarantee = guarantee;
+    outputs_[0]->InputReceived(this, output_batch.MoveValueUnsafe());
+    return Status::OK();
+  };
+
+  status = task();
+  if (!status.ok()) {
+    if (input_counter_.Cancel()) {
+      this->Finish(status);
+    }
+    inputs_[0]->StopProducing(this);
+    return;
+  }
+  if (input_counter_.Increment()) {
+    this->Finish();
+  }
+}
+
+void MapNode::Finish(Status finish_st /*= Status::OK()*/) {
+  this->finished_.MarkFinished(finish_st);
+}
+
+}  // namespace compute
+}  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec/map_node.h b/cpp/src/arrow/compute/exec/map_node.h
new file mode 100644
index 00000000000..88241ece592
--- /dev/null
+++ b/cpp/src/arrow/compute/exec/map_node.h
@@ -0,0 +1,75 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+/// \brief MapNode is an ExecNode type class which process a task like filter/project
+/// (See SubmitTask method) to each given ExecBatch object, which have one input, one
+/// output, and are pure functions on the input
+///
+/// A simple parallel runner is created with a "map_fn" which is just a function that
+/// takes a batch in and returns a batch.  This simple parallel runner also needs an
+/// executor (use simple synchronous runner if there is no executor)
+
+#pragma once
+
+#include <cstdint>
+#include <functional>
+#include <memory>
+#include <vector>
+
+#include "arrow/compute/exec/exec_plan.h"
+#include "arrow/compute/exec/util.h"
+#include "arrow/compute/type_fwd.h"
+#include "arrow/status.h"
+#include "arrow/type_fwd.h"
+#include "arrow/util/cancel.h"
+#include "arrow/util/type_fwd.h"
+#include "arrow/util/visibility.h"
+
+namespace arrow {
+namespace compute {
+
+class ARROW_EXPORT MapNode : public ExecNode {
+ public:
+  MapNode(ExecPlan* plan, std::vector<ExecNode*> inputs,
+          std::shared_ptr<Schema> output_schema);
+
+  void ErrorReceived(ExecNode* input, Status error) override;
+
+  void InputFinished(ExecNode* input, int total_batches) override;
+
+  Status StartProducing() override;
+
+  void PauseProducing(ExecNode* output, int32_t counter) override;
+
+  void ResumeProducing(ExecNode* output, int32_t counter) override;
+
+  void StopProducing(ExecNode* output) override;
+
+  void StopProducing() override;
+
+ protected:
+  void SubmitTask(std::function<Result<ExecBatch>(ExecBatch)> map_fn, ExecBatch batch);
+
+  virtual void Finish(Status finish_st = Status::OK());
+
+ protected:
+  // Counter for the number of batches received
+  AtomicCounter input_counter_;
+};
+
+}  // namespace compute
+}  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec/options.cc b/cpp/src/arrow/compute/exec/options.cc
index c09ab1c1b68..9e9da7ad831 100644
--- a/cpp/src/arrow/compute/exec/options.cc
+++ b/cpp/src/arrow/compute/exec/options.cc
@@ -25,6 +25,8 @@
 namespace arrow {
 namespace compute {
 
+constexpr int64_t TableSourceNodeOptions::kDefaultMaxBatchSize;
+
 std::string ToString(JoinType t) {
   switch (t) {
     case JoinType::LEFT_SEMI:
@@ -49,16 +51,26 @@ std::string ToString(JoinType t) {
 }
 
 Result<std::shared_ptr<SourceNodeOptions>> SourceNodeOptions::FromTable(
-    const Table& table, arrow::internal::Executor* exc) {
+    const Table& table, arrow::internal::Executor* executor) {
   std::shared_ptr<RecordBatchReader> reader = std::make_shared<TableBatchReader>(table);
 
-  if (exc == nullptr) return Status::TypeError("No executor provided.");
+  if (executor == nullptr) return Status::TypeError("No executor provided.");
+
+  // Map the RecordBatchReader to a SourceNode
+  ARROW_ASSIGN_OR_RAISE(auto batch_gen, MakeReaderGenerator(std::move(reader), executor));
+
+  return std::make_shared<SourceNodeOptions>(table.schema(), batch_gen);
+}
+
+Result<std::shared_ptr<SourceNodeOptions>> SourceNodeOptions::FromRecordBatchReader(
+    std::shared_ptr<RecordBatchReader> reader, std::shared_ptr<Schema> schema,
+    arrow::internal::Executor* executor) {
+  if (executor == nullptr) return Status::TypeError("No executor provided.");
 
   // Map the RecordBatchReader to a SourceNode
-  ARROW_ASSIGN_OR_RAISE(auto batch_gen, MakeReaderGenerator(std::move(reader), exc));
+  ARROW_ASSIGN_OR_RAISE(auto batch_gen, MakeReaderGenerator(std::move(reader), executor));
 
-  return std::shared_ptr<SourceNodeOptions>(
-      new SourceNodeOptions(table.schema(), batch_gen));
+  return std::make_shared<SourceNodeOptions>(std::move(schema), std::move(batch_gen));
 }
 
 }  // namespace compute
diff --git a/cpp/src/arrow/compute/exec/options.h b/cpp/src/arrow/compute/exec/options.h
index 4a0cd602efb..0ef75cbedcf 100644
--- a/cpp/src/arrow/compute/exec/options.h
+++ b/cpp/src/arrow/compute/exec/options.h
@@ -19,6 +19,7 @@
 
 #include <functional>
 #include <memory>
+#include <optional>
 #include <string>
 #include <vector>
 
@@ -26,16 +27,23 @@
 #include "arrow/compute/api_vector.h"
 #include "arrow/compute/exec.h"
 #include "arrow/compute/exec/expression.h"
+#include "arrow/record_batch.h"
 #include "arrow/result.h"
 #include "arrow/util/async_generator.h"
 #include "arrow/util/async_util.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
+
+namespace internal {
+
+class Executor;
+
+}  // namespace internal
+
 namespace compute {
 
-using AsyncExecBatchGenerator = AsyncGenerator<util::optional<ExecBatch>>;
+using AsyncExecBatchGenerator = AsyncGenerator<std::optional<ExecBatch>>;
 
 /// \addtogroup execnode-options
 /// @{
@@ -51,20 +59,26 @@ class ARROW_EXPORT ExecNodeOptions {
 class ARROW_EXPORT SourceNodeOptions : public ExecNodeOptions {
  public:
   SourceNodeOptions(std::shared_ptr<Schema> output_schema,
-                    std::function<Future<util::optional<ExecBatch>>()> generator)
+                    std::function<Future<std::optional<ExecBatch>>()> generator)
       : output_schema(std::move(output_schema)), generator(std::move(generator)) {}
 
   static Result<std::shared_ptr<SourceNodeOptions>> FromTable(const Table& table,
                                                               arrow::internal::Executor*);
 
+  static Result<std::shared_ptr<SourceNodeOptions>> FromRecordBatchReader(
+      std::shared_ptr<RecordBatchReader> reader, std::shared_ptr<Schema> schema,
+      arrow::internal::Executor*);
+
   std::shared_ptr<Schema> output_schema;
-  std::function<Future<util::optional<ExecBatch>>()> generator;
+  std::function<Future<std::optional<ExecBatch>>()> generator;
 };
 
 /// \brief An extended Source node which accepts a table
 class ARROW_EXPORT TableSourceNodeOptions : public ExecNodeOptions {
  public:
-  TableSourceNodeOptions(std::shared_ptr<Table> table, int64_t max_batch_size)
+  static constexpr int64_t kDefaultMaxBatchSize = 1 << 20;
+  TableSourceNodeOptions(std::shared_ptr<Table> table,
+                         int64_t max_batch_size = kDefaultMaxBatchSize)
       : table(table), max_batch_size(max_batch_size) {}
 
   // arrow table which acts as the data source
@@ -75,6 +89,79 @@ class ARROW_EXPORT TableSourceNodeOptions : public ExecNodeOptions {
   int64_t max_batch_size;
 };
 
+/// \brief Define a lazy resolved Arrow table.
+///
+/// The table uniquely identified by the names can typically be resolved at the time when
+/// the plan is to be consumed.
+///
+/// This node is for serialization purposes only and can never be executed.
+class ARROW_EXPORT NamedTableNodeOptions : public ExecNodeOptions {
+ public:
+  NamedTableNodeOptions(std::vector<std::string> names, std::shared_ptr<Schema> schema)
+      : names(std::move(names)), schema(schema) {}
+
+  std::vector<std::string> names;
+  std::shared_ptr<Schema> schema;
+};
+
+/// \brief An extended Source node which accepts a schema
+///
+/// ItMaker is a maker of an iterator of tabular data.
+template <typename ItMaker>
+class ARROW_EXPORT SchemaSourceNodeOptions : public ExecNodeOptions {
+ public:
+  SchemaSourceNodeOptions(std::shared_ptr<Schema> schema, ItMaker it_maker,
+                          arrow::internal::Executor* io_executor = NULLPTR)
+      : schema(schema), it_maker(std::move(it_maker)), io_executor(io_executor) {}
+
+  /// \brief The schema of the record batches from the iterator
+  std::shared_ptr<Schema> schema;
+
+  /// \brief A maker of an iterator which acts as the data source
+  ItMaker it_maker;
+
+  /// \brief The executor to use for scanning the iterator
+  ///
+  /// Defaults to the default I/O executor.
+  arrow::internal::Executor* io_executor;
+};
+
+class ARROW_EXPORT RecordBatchReaderSourceNodeOptions : public ExecNodeOptions {
+ public:
+  RecordBatchReaderSourceNodeOptions(std::shared_ptr<RecordBatchReader> reader,
+                                     arrow::internal::Executor* io_executor = NULLPTR)
+      : reader(std::move(reader)), io_executor(io_executor) {}
+
+  /// \brief The RecordBatchReader which acts as the data source
+  std::shared_ptr<RecordBatchReader> reader;
+
+  /// \brief The executor to use for the reader
+  ///
+  /// Defaults to the default I/O executor.
+  arrow::internal::Executor* io_executor;
+};
+
+using ArrayVectorIteratorMaker = std::function<Iterator<std::shared_ptr<ArrayVector>>()>;
+/// \brief An extended Source node which accepts a schema and array-vectors
+class ARROW_EXPORT ArrayVectorSourceNodeOptions
+    : public SchemaSourceNodeOptions<ArrayVectorIteratorMaker> {
+  using SchemaSourceNodeOptions::SchemaSourceNodeOptions;
+};
+
+using ExecBatchIteratorMaker = std::function<Iterator<std::shared_ptr<ExecBatch>>()>;
+/// \brief An extended Source node which accepts a schema and exec-batches
+class ARROW_EXPORT ExecBatchSourceNodeOptions
+    : public SchemaSourceNodeOptions<ExecBatchIteratorMaker> {
+  using SchemaSourceNodeOptions::SchemaSourceNodeOptions;
+};
+
+using RecordBatchIteratorMaker = std::function<Iterator<std::shared_ptr<RecordBatch>>()>;
+/// \brief An extended Source node which accepts a schema and record-batches
+class ARROW_EXPORT RecordBatchSourceNodeOptions
+    : public SchemaSourceNodeOptions<RecordBatchIteratorMaker> {
+  using SchemaSourceNodeOptions::SchemaSourceNodeOptions;
+};
+
 /// \brief Make a node which excludes some rows from batches passed through it
 ///
 /// filter_expression will be evaluated against each batch which is pushed to
@@ -82,11 +169,10 @@ class ARROW_EXPORT TableSourceNodeOptions : public ExecNodeOptions {
 /// excluded in the batch emitted by this node.
 class ARROW_EXPORT FilterNodeOptions : public ExecNodeOptions {
  public:
-  explicit FilterNodeOptions(Expression filter_expression, bool async_mode = true)
-      : filter_expression(std::move(filter_expression)), async_mode(async_mode) {}
+  explicit FilterNodeOptions(Expression filter_expression)
+      : filter_expression(std::move(filter_expression)) {}
 
   Expression filter_expression;
-  bool async_mode;
 };
 
 /// \brief Make a node which executes expressions on input batches, producing new batches.
@@ -98,14 +184,11 @@ class ARROW_EXPORT FilterNodeOptions : public ExecNodeOptions {
 class ARROW_EXPORT ProjectNodeOptions : public ExecNodeOptions {
  public:
   explicit ProjectNodeOptions(std::vector<Expression> expressions,
-                              std::vector<std::string> names = {}, bool async_mode = true)
-      : expressions(std::move(expressions)),
-        names(std::move(names)),
-        async_mode(async_mode) {}
+                              std::vector<std::string> names = {})
+      : expressions(std::move(expressions)), names(std::move(names)) {}
 
   std::vector<Expression> expressions;
   std::vector<std::string> names;
-  bool async_mode;
 };
 
 /// \brief Make a node which aggregates input batches, optionally grouped by keys.
@@ -131,8 +214,8 @@ constexpr int32_t kDefaultBackpressureLowBytes = 1 << 28;   // 256MiB
 class ARROW_EXPORT BackpressureMonitor {
  public:
   virtual ~BackpressureMonitor() = default;
-  virtual uint64_t bytes_in_use() const = 0;
-  virtual bool is_paused() const = 0;
+  virtual uint64_t bytes_in_use() = 0;
+  virtual bool is_paused() = 0;
 };
 
 /// \brief Options to control backpressure behavior
@@ -145,7 +228,7 @@ struct ARROW_EXPORT BackpressureOptions {
   ///                        queue has fewer than resume_if_below items.
   /// \param pause_if_above The producer should pause producing if the backpressure
   ///                       queue has more than pause_if_above items
-  BackpressureOptions(uint32_t resume_if_below, uint32_t pause_if_above)
+  BackpressureOptions(uint64_t resume_if_below, uint64_t pause_if_above)
       : resume_if_below(resume_if_below), pause_if_above(pause_if_above) {}
 
   static BackpressureOptions DefaultBackpressure() {
@@ -164,10 +247,20 @@ struct ARROW_EXPORT BackpressureOptions {
 /// Emitted batches will not be ordered.
 class ARROW_EXPORT SinkNodeOptions : public ExecNodeOptions {
  public:
-  explicit SinkNodeOptions(std::function<Future<util::optional<ExecBatch>>()>* generator,
+  explicit SinkNodeOptions(std::function<Future<std::optional<ExecBatch>>()>* generator,
+                           std::shared_ptr<Schema>* schema,
+                           BackpressureOptions backpressure = {},
+                           BackpressureMonitor** backpressure_monitor = NULLPTR)
+      : generator(generator),
+        schema(schema),
+        backpressure(backpressure),
+        backpressure_monitor(backpressure_monitor) {}
+
+  explicit SinkNodeOptions(std::function<Future<std::optional<ExecBatch>>()>* generator,
                            BackpressureOptions backpressure = {},
                            BackpressureMonitor** backpressure_monitor = NULLPTR)
       : generator(generator),
+        schema(NULLPTR),
         backpressure(std::move(backpressure)),
         backpressure_monitor(backpressure_monitor) {}
 
@@ -176,7 +269,12 @@ class ARROW_EXPORT SinkNodeOptions : public ExecNodeOptions {
   /// This will be set when the node is added to the plan and should be used to consume
   /// data from the plan.  If this function is not called frequently enough then the sink
   /// node will start to accumulate data and may apply backpressure.
-  std::function<Future<util::optional<ExecBatch>>()>* generator;
+  std::function<Future<std::optional<ExecBatch>>()>* generator;
+  /// \brief A pointer which will be set to the schema of the generated batches
+  ///
+  /// This is optional, if nullptr is passed in then it will be ignored.
+  /// This will be set when the node is added to the plan, before StartProducing is called
+  std::shared_ptr<Schema>* schema;
   /// \brief Options to control when to apply backpressure
   ///
   /// This is optional, the default is to never apply backpressure.  If the plan is not
@@ -215,8 +313,9 @@ class ARROW_EXPORT SinkNodeConsumer {
   /// This will be run once the schema is finalized as the plan is starting and
   /// before any calls to Consume.  A common use is to save off the schema so that
   /// batches can be interpreted.
+  /// TODO(ARROW-17837) Move ExecPlan* plan to query context
   virtual Status Init(const std::shared_ptr<Schema>& schema,
-                      BackpressureControl* backpressure_control) = 0;
+                      BackpressureControl* backpressure_control, ExecPlan* plan) = 0;
   /// \brief Consume a batch of data
   virtual Status Consume(ExecBatch batch) = 0;
   /// \brief Signal to the consumer that the last batch has been delivered
@@ -248,7 +347,7 @@ class ARROW_EXPORT OrderBySinkNodeOptions : public SinkNodeOptions {
  public:
   explicit OrderBySinkNodeOptions(
       SortOptions sort_options,
-      std::function<Future<util::optional<ExecBatch>>()>* generator)
+      std::function<Future<std::optional<ExecBatch>>()>* generator)
       : SinkNodeOptions(generator), sort_options(std::move(sort_options)) {}
 
   SortOptions sort_options;
@@ -395,23 +494,38 @@ class ARROW_EXPORT HashJoinNodeOptions : public ExecNodeOptions {
 /// This node will output one row for each row in the left table.
 class ARROW_EXPORT AsofJoinNodeOptions : public ExecNodeOptions {
  public:
-  AsofJoinNodeOptions(FieldRef on_key, FieldRef by_key, int64_t tolerance)
-      : on_key(std::move(on_key)), by_key(std::move(by_key)), tolerance(tolerance) {}
-
-  /// \brief "on" key for the join. Each
+  /// \brief Keys for one input table of the AsofJoin operation
+  ///
+  /// The keys must be consistent across the input tables:
+  /// Each "on" key must refer to a field of the same type and units across the tables.
+  /// Each "by" key must refer to a list of fields of the same types across the tables.
+  struct Keys {
+    /// \brief "on" key for the join.
+    ///
+    /// The input table must be sorted by the "on" key. Must be a single field of a common
+    /// type. Inexact match is used on the "on" key. i.e., a row is considered a match iff
+    /// left_on - tolerance <= right_on <= left_on.
+    /// Currently, the "on" key must be of an integer, date, or timestamp type.
+    FieldRef on_key;
+    /// \brief "by" key for the join.
+    ///
+    /// Each input table must have each field of the "by" key.  Exact equality is used for
+    /// each field of the "by" key.
+    /// Currently, each field of the "by" key must be of an integer, date, timestamp, or
+    /// base-binary type.
+    std::vector<FieldRef> by_key;
+  };
+
+  AsofJoinNodeOptions(std::vector<Keys> input_keys, int64_t tolerance)
+      : input_keys(std::move(input_keys)), tolerance(tolerance) {}
+
+  /// \brief AsofJoin keys per input table.
   ///
-  /// All inputs tables must be sorted by the "on" key. Inexact
-  /// match is used on the "on" key. i.e., a row is considiered match iff
-  /// left_on - tolerance <= right_on <= left_on.
-  /// Currently, "on" key must be an int64 field
-  FieldRef on_key;
-  /// \brief "by" key for the join.
+  /// \see `Keys` for details.
+  std::vector<Keys> input_keys;
+  /// \brief Tolerance for inexact "on" key matching.  Must be non-negative.
   ///
-  /// All input tables must have the "by" key.  Exact equality
-  /// is used for the "by" key.
-  /// Currently, the "by" key must be an int32 field
-  FieldRef by_key;
-  /// Tolerance for inexact "on" key matching
+  /// The tolerance is interpreted in the same units as the "on" key.
   int64_t tolerance;
 };
 
@@ -423,7 +537,7 @@ class ARROW_EXPORT SelectKSinkNodeOptions : public SinkNodeOptions {
  public:
   explicit SelectKSinkNodeOptions(
       SelectKOptions select_k_options,
-      std::function<Future<util::optional<ExecBatch>>()>* generator)
+      std::function<Future<std::optional<ExecBatch>>()>* generator)
       : SinkNodeOptions(generator), select_k_options(std::move(select_k_options)) {}
 
   /// SelectK options
diff --git a/cpp/src/arrow/compute/exec/plan_test.cc b/cpp/src/arrow/compute/exec/plan_test.cc
index e06c41c7489..eb560da99cf 100644
--- a/cpp/src/arrow/compute/exec/plan_test.cc
+++ b/cpp/src/arrow/compute/exec/plan_test.cc
@@ -35,7 +35,6 @@
 #include "arrow/testing/random.h"
 #include "arrow/util/async_generator.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/thread_pool.h"
 #include "arrow/util/vector.h"
 
@@ -220,7 +219,7 @@ TEST(ExecPlanExecution, SourceSink) {
       SCOPED_TRACE(parallel ? "parallel" : "single threaded");
 
       ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-      AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+      AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
       auto basic_data = MakeBasicBatches();
 
@@ -239,7 +238,7 @@ TEST(ExecPlanExecution, SourceSink) {
 }
 
 TEST(ExecPlanExecution, UseSinkAfterExecution) {
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
   {
     ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
     auto basic_data = MakeBasicBatches();
@@ -260,7 +259,7 @@ TEST(ExecPlanExecution, UseSinkAfterExecution) {
 TEST(ExecPlanExecution, TableSourceSink) {
   for (int batch_size : {1, 4}) {
     ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+    AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
     auto exp_batches = MakeBasicBatches();
     ASSERT_OK_AND_ASSIGN(auto table,
@@ -275,13 +274,13 @@ TEST(ExecPlanExecution, TableSourceSink) {
 
     ASSERT_FINISHES_OK_AND_ASSIGN(auto res, StartAndCollect(plan.get(), sink_gen));
     ASSERT_OK_AND_ASSIGN(auto out_table, TableFromExecBatches(exp_batches.schema, res));
-    AssertTablesEqual(table, out_table);
+    AssertTablesEqualIgnoringOrder(table, out_table);
   }
 }
 
 TEST(ExecPlanExecution, TableSourceSinkError) {
   ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
   auto exp_batches = MakeBasicBatches();
   ASSERT_OK_AND_ASSIGN(auto table,
@@ -296,8 +295,128 @@ TEST(ExecPlanExecution, TableSourceSinkError) {
               Raises(StatusCode::Invalid, HasSubstr("batch_size > 0")));
 }
 
+template <typename ElementType, typename OptionsType>
+void TestSourceSinkError(
+    std::string source_factory_name,
+    std::function<Result<std::vector<ElementType>>(const BatchesWithSchema&)>
+        to_elements) {
+  ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
+  std::shared_ptr<Schema> no_schema;
+
+  auto exp_batches = MakeBasicBatches();
+  ASSERT_OK_AND_ASSIGN(auto elements, to_elements(exp_batches));
+  auto element_it_maker = [&elements]() {
+    return MakeVectorIterator<ElementType>(elements);
+  };
+
+  auto null_executor_options = OptionsType{exp_batches.schema, element_it_maker};
+  ASSERT_OK(MakeExecNode(source_factory_name, plan.get(), {}, null_executor_options));
+
+  auto null_schema_options = OptionsType{no_schema, element_it_maker};
+  ASSERT_THAT(MakeExecNode(source_factory_name, plan.get(), {}, null_schema_options),
+              Raises(StatusCode::Invalid, HasSubstr("not null")));
+}
+
+template <typename ElementType, typename OptionsType>
+void TestSourceSink(
+    std::string source_factory_name,
+    std::function<Result<std::vector<ElementType>>(const BatchesWithSchema&)>
+        to_elements) {
+  ASSERT_OK_AND_ASSIGN(auto executor, arrow::internal::ThreadPool::Make(1));
+  ExecContext exec_context(default_memory_pool(), executor.get());
+  ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(exec_context));
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
+
+  auto exp_batches = MakeBasicBatches();
+  ASSERT_OK_AND_ASSIGN(auto elements, to_elements(exp_batches));
+  auto element_it_maker = [&elements]() {
+    return MakeVectorIterator<ElementType>(elements);
+  };
+
+  ASSERT_OK(Declaration::Sequence({
+                                      {source_factory_name,
+                                       OptionsType{exp_batches.schema, element_it_maker}},
+                                      {"sink", SinkNodeOptions{&sink_gen}},
+                                  })
+                .AddToPlan(plan.get()));
+
+  ASSERT_THAT(StartAndCollect(plan.get(), sink_gen),
+              Finishes(ResultWith(UnorderedElementsAreArray(exp_batches.batches))));
+}
+
+void TestRecordBatchReaderSourceSink(
+    std::function<Result<std::shared_ptr<RecordBatchReader>>(const BatchesWithSchema&)>
+        to_reader) {
+  for (bool parallel : {false, true}) {
+    SCOPED_TRACE(parallel ? "parallel/merged" : "serial");
+    auto exp_batches = MakeBasicBatches();
+    ASSERT_OK_AND_ASSIGN(std::shared_ptr<RecordBatchReader> reader,
+                         to_reader(exp_batches));
+    RecordBatchReaderSourceNodeOptions options{reader};
+    Declaration plan("record_batch_reader_source", std::move(options));
+    ASSERT_OK_AND_ASSIGN(auto result, DeclarationToExecBatches(plan, parallel));
+    AssertExecBatchesEqualIgnoringOrder(result.schema, result.batches,
+                                        exp_batches.batches);
+  }
+}
+
+void TestRecordBatchReaderSourceSinkError(
+    std::function<Result<std::shared_ptr<RecordBatchReader>>(const BatchesWithSchema&)>
+        to_reader) {
+  ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
+  auto source_factory_name = "record_batch_reader_source";
+  auto exp_batches = MakeBasicBatches();
+  ASSERT_OK_AND_ASSIGN(std::shared_ptr<RecordBatchReader> reader, to_reader(exp_batches));
+
+  auto null_executor_options = RecordBatchReaderSourceNodeOptions{reader};
+  ASSERT_OK(MakeExecNode(source_factory_name, plan.get(), {}, null_executor_options));
+
+  std::shared_ptr<RecordBatchReader> no_reader;
+  auto null_reader_options = RecordBatchReaderSourceNodeOptions{no_reader};
+  ASSERT_THAT(MakeExecNode(source_factory_name, plan.get(), {}, null_reader_options),
+              Raises(StatusCode::Invalid, HasSubstr("not null")));
+}
+
+TEST(ExecPlanExecution, ArrayVectorSourceSink) {
+  TestSourceSink<std::shared_ptr<ArrayVector>, ArrayVectorSourceNodeOptions>(
+      "array_vector_source", ToArrayVectors);
+}
+
+TEST(ExecPlanExecution, ArrayVectorSourceSinkError) {
+  TestSourceSinkError<std::shared_ptr<ArrayVector>, ArrayVectorSourceNodeOptions>(
+      "array_vector_source", ToArrayVectors);
+}
+
+TEST(ExecPlanExecution, ExecBatchSourceSink) {
+  TestSourceSink<std::shared_ptr<ExecBatch>, ExecBatchSourceNodeOptions>(
+      "exec_batch_source", ToExecBatches);
+}
+
+TEST(ExecPlanExecution, ExecBatchSourceSinkError) {
+  TestSourceSinkError<std::shared_ptr<ExecBatch>, ExecBatchSourceNodeOptions>(
+      "exec_batch_source", ToExecBatches);
+}
+
+TEST(ExecPlanExecution, RecordBatchSourceSink) {
+  TestSourceSink<std::shared_ptr<RecordBatch>, RecordBatchSourceNodeOptions>(
+      "record_batch_source", ToRecordBatches);
+}
+
+TEST(ExecPlanExecution, RecordBatchSourceSinkError) {
+  TestSourceSinkError<std::shared_ptr<RecordBatch>, RecordBatchSourceNodeOptions>(
+      "record_batch_source", ToRecordBatches);
+}
+
+TEST(ExecPlanExecution, RecordBatchReaderSourceSink) {
+  TestRecordBatchReaderSourceSink(ToRecordBatchReader);
+}
+
+TEST(ExecPlanExecution, RecordBatchReaderSourceSinkError) {
+  TestRecordBatchReaderSourceSinkError(ToRecordBatchReader);
+}
+
 TEST(ExecPlanExecution, SinkNodeBackpressure) {
-  util::optional<ExecBatch> batch =
+  std::optional<ExecBatch> batch =
       ExecBatchFromJSON({int32(), boolean()},
                         "[[4, false], [5, null], [6, false], [7, false], [null, true]]");
   constexpr uint32_t kPauseIfAbove = 4;
@@ -307,18 +426,19 @@ TEST(ExecPlanExecution, SinkNodeBackpressure) {
   uint32_t resume_if_below_bytes =
       kResumeIfBelow * static_cast<uint32_t>(batch->TotalBufferSize());
   EXPECT_OK_AND_ASSIGN(std::shared_ptr<ExecPlan> plan, ExecPlan::Make());
-  PushGenerator<util::optional<ExecBatch>> batch_producer;
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  PushGenerator<std::optional<ExecBatch>> batch_producer;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
   BackpressureMonitor* backpressure_monitor;
   BackpressureOptions backpressure_options(resume_if_below_bytes, pause_if_above_bytes);
   std::shared_ptr<Schema> schema_ = schema({field("data", uint32())});
-  ARROW_EXPECT_OK(compute::Declaration::Sequence(
-                      {
-                          {"source", SourceNodeOptions(schema_, batch_producer)},
-                          {"sink", SinkNodeOptions{&sink_gen, backpressure_options,
-                                                   &backpressure_monitor}},
-                      })
-                      .AddToPlan(plan.get()));
+  ARROW_EXPECT_OK(
+      compute::Declaration::Sequence(
+          {
+              {"source", SourceNodeOptions(schema_, batch_producer)},
+              {"sink", SinkNodeOptions{&sink_gen, /*schema=*/nullptr,
+                                       backpressure_options, &backpressure_monitor}},
+          })
+          .AddToPlan(plan.get()));
   ASSERT_TRUE(backpressure_monitor);
   ARROW_EXPECT_OK(plan->StartProducing());
 
@@ -349,14 +469,14 @@ TEST(ExecPlanExecution, SinkNodeBackpressure) {
   ASSERT_FALSE(backpressure_monitor->is_paused());
 
   // Cleanup
-  batch_producer.producer().Push(IterationEnd<util::optional<ExecBatch>>());
+  batch_producer.producer().Push(IterationEnd<std::optional<ExecBatch>>());
   plan->StopProducing();
   ASSERT_FINISHES_OK(plan->finished());
 }
 
 TEST(ExecPlan, ToString) {
   auto basic_data = MakeBasicBatches();
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
   ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
   ASSERT_OK(Declaration::Sequence(
@@ -462,7 +582,7 @@ TEST(ExecPlanExecution, SourceOrderBy) {
       SCOPED_TRACE(parallel ? "parallel" : "single threaded");
 
       ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-      AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+      AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
       auto basic_data = MakeBasicBatches();
 
@@ -483,16 +603,16 @@ TEST(ExecPlanExecution, SourceOrderBy) {
 
 TEST(ExecPlanExecution, SourceSinkError) {
   ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
   auto basic_data = MakeBasicBatches();
   auto it = basic_data.batches.begin();
-  AsyncGenerator<util::optional<ExecBatch>> error_source_gen =
-      [&]() -> Result<util::optional<ExecBatch>> {
+  AsyncGenerator<std::optional<ExecBatch>> error_source_gen =
+      [&]() -> Result<std::optional<ExecBatch>> {
     if (it == basic_data.batches.end()) {
       return Status::Invalid("Artificial error");
     }
-    return util::make_optional(*it++);
+    return std::make_optional(*it++);
   };
 
   ASSERT_OK(Declaration::Sequence(
@@ -520,7 +640,7 @@ TEST(ExecPlanExecution, SourceConsumingSink) {
             : batches_seen(batches_seen), finish(std::move(finish)) {}
 
         Status Init(const std::shared_ptr<Schema>& schema,
-                    BackpressureControl* backpressure_control) override {
+                    BackpressureControl* backpressure_control, ExecPlan* plan) override {
           return Status::OK();
         }
 
@@ -548,12 +668,12 @@ TEST(ExecPlanExecution, SourceConsumingSink) {
       // Source should finish fairly quickly
       ASSERT_FINISHES_OK(source->finished());
       SleepABit();
-      ASSERT_EQ(2, batches_seen);
       // Consumer isn't finished and so plan shouldn't have finished
       AssertNotFinished(plan->finished());
       // Mark consumption complete, plan should finish
       finish.MarkFinished();
       ASSERT_FINISHES_OK(plan->finished());
+      ASSERT_EQ(2, batches_seen);
     }
   }
 }
@@ -566,7 +686,7 @@ TEST(ExecPlanExecution, SourceTableConsumingSink) {
       SCOPED_TRACE(parallel ? "parallel" : "single threaded");
       ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
 
-      std::shared_ptr<Table> out;
+      std::shared_ptr<Table> out = nullptr;
 
       auto basic_data = MakeBasicBatches();
 
@@ -581,11 +701,11 @@ TEST(ExecPlanExecution, SourceTableConsumingSink) {
       // Source should finish fairly quickly
       ASSERT_FINISHES_OK(source->finished());
       SleepABit();
-      ASSERT_OK_AND_ASSIGN(auto actual,
+      ASSERT_OK_AND_ASSIGN(auto expected,
                            TableFromExecBatches(basic_data.schema, basic_data.batches));
-      ASSERT_EQ(5, out->num_rows());
-      AssertTablesEqual(*actual, *out);
       ASSERT_FINISHES_OK(plan->finished());
+      ASSERT_EQ(5, out->num_rows());
+      AssertTablesEqualIgnoringOrder(expected, out);
     }
   }
 }
@@ -594,7 +714,7 @@ TEST(ExecPlanExecution, ConsumingSinkNames) {
   struct SchemaKeepingConsumer : public SinkNodeConsumer {
     std::shared_ptr<Schema> schema_;
     Status Init(const std::shared_ptr<Schema>& schema,
-                BackpressureControl* backpressure_control) override {
+                BackpressureControl* backpressure_control, ExecPlan* plan) override {
       schema_ = schema;
       return Status::OK();
     }
@@ -632,7 +752,7 @@ TEST(ExecPlanExecution, ConsumingSinkNames) {
 TEST(ExecPlanExecution, ConsumingSinkError) {
   struct InitErrorConsumer : public SinkNodeConsumer {
     Status Init(const std::shared_ptr<Schema>& schema,
-                BackpressureControl* backpressure_control) override {
+                BackpressureControl* backpressure_control, ExecPlan* plan) override {
       return Status::Invalid("XYZ");
     }
     Status Consume(ExecBatch batch) override { return Status::OK(); }
@@ -640,7 +760,7 @@ TEST(ExecPlanExecution, ConsumingSinkError) {
   };
   struct ConsumeErrorConsumer : public SinkNodeConsumer {
     Status Init(const std::shared_ptr<Schema>& schema,
-                BackpressureControl* backpressure_control) override {
+                BackpressureControl* backpressure_control, ExecPlan* plan) override {
       return Status::OK();
     }
     Status Consume(ExecBatch batch) override { return Status::Invalid("XYZ"); }
@@ -648,7 +768,7 @@ TEST(ExecPlanExecution, ConsumingSinkError) {
   };
   struct FinishErrorConsumer : public SinkNodeConsumer {
     Status Init(const std::shared_ptr<Schema>& schema,
-                BackpressureControl* backpressure_control) override {
+                BackpressureControl* backpressure_control, ExecPlan* plan) override {
       return Status::OK();
     }
     Status Consume(ExecBatch batch) override { return Status::OK(); }
@@ -659,27 +779,12 @@ TEST(ExecPlanExecution, ConsumingSinkError) {
       std::make_shared<FinishErrorConsumer>()};
 
   for (auto& consumer : consumers) {
-    ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
     auto basic_data = MakeBasicBatches();
-    ASSERT_OK(Declaration::Sequence(
-                  {{"source",
-                    SourceNodeOptions(basic_data.schema, basic_data.gen(false, false))},
-                   {"consuming_sink", ConsumingSinkNodeOptions(consumer)}})
-                  .AddToPlan(plan.get()));
-    ASSERT_OK_AND_ASSIGN(
-        auto source,
-        MakeExecNode("source", plan.get(), {},
-                     SourceNodeOptions(basic_data.schema, basic_data.gen(false, false))));
-    ASSERT_OK(MakeExecNode("consuming_sink", plan.get(), {source},
-                           ConsumingSinkNodeOptions(consumer)));
-    // If we fail at init we see it during StartProducing.  Other
-    // failures are not seen until we start running.
-    if (std::dynamic_pointer_cast<InitErrorConsumer>(consumer)) {
-      ASSERT_RAISES(Invalid, plan->StartProducing());
-    } else {
-      ASSERT_OK(plan->StartProducing());
-      ASSERT_FINISHES_AND_RAISES(Invalid, plan->finished());
-    }
+    Declaration plan = Declaration::Sequence(
+        {{"source", SourceNodeOptions(basic_data.schema, basic_data.gen(false, false))},
+         {"consuming_sink", ConsumingSinkNodeOptions(consumer)}});
+    // Since the source node is not parallel the entire plan is run during StartProducing
+    ASSERT_RAISES(Invalid, DeclarationToStatus(std::move(plan)));
   }
 }
 
@@ -693,7 +798,7 @@ TEST(ExecPlanExecution, StressSourceSink) {
       int num_batches = (slow && !parallel) ? 30 : 300;
 
       ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-      AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+      AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
       auto random_data = MakeRandomBatches(
           schema({field("a", int32()), field("b", boolean())}), num_batches);
@@ -723,7 +828,7 @@ TEST(ExecPlanExecution, StressSourceOrderBy) {
       int num_batches = (slow && !parallel) ? 30 : 300;
 
       ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-      AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+      AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
       auto random_data = MakeRandomBatches(input_schema, num_batches);
 
@@ -744,7 +849,9 @@ TEST(ExecPlanExecution, StressSourceOrderBy) {
                            TableFromExecBatches(input_schema, random_data.batches));
       ASSERT_OK_AND_ASSIGN(auto sort_indices, SortIndices(original, options));
       ASSERT_OK_AND_ASSIGN(auto expected, Take(original, sort_indices));
-      AssertTablesEqual(*actual, *expected.table());
+      AssertSchemaEqual(actual->schema(), expected.table()->schema());
+      AssertArraysEqual(*actual->column(0)->chunk(0),
+                        *expected.table()->column(0)->chunk(0));
     }
   }
 }
@@ -760,7 +867,7 @@ TEST(ExecPlanExecution, StressSourceGroupedSumStop) {
       int num_batches = (slow && !parallel) ? 30 : 300;
 
       ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-      AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+      AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
       auto random_data = MakeRandomBatches(input_schema, num_batches);
 
@@ -795,7 +902,7 @@ TEST(ExecPlanExecution, StressSourceSinkStopped) {
       int num_batches = (slow && !parallel) ? 30 : 300;
 
       ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-      AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+      AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
       auto random_data = MakeRandomBatches(
           schema({field("a", int32()), field("b", boolean())}), num_batches);
@@ -823,7 +930,7 @@ TEST(ExecPlanExecution, SourceFilterSink) {
   auto basic_data = MakeBasicBatches();
 
   ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
   ASSERT_OK(Declaration::Sequence(
                 {
@@ -845,7 +952,7 @@ TEST(ExecPlanExecution, SourceProjectSink) {
   auto basic_data = MakeBasicBatches();
 
   ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
   ASSERT_OK(Declaration::Sequence(
                 {
@@ -905,31 +1012,30 @@ BatchesWithSchema MakeGroupableBatches(int multiplicity = 1) {
 }  // namespace
 
 TEST(ExecPlanExecution, SourceGroupedSum) {
+  std::shared_ptr<Schema> out_schema =
+      schema({field("sum(i32)", int64()), field("str", utf8())});
+  const std::shared_ptr<Table> expected_parallel =
+      TableFromJSON(out_schema, {R"([[800, "alfa"], [1000, "beta"], [400, "gama"]])"});
+  const std::shared_ptr<Table> expected_single =
+      TableFromJSON(out_schema, {R"([[8, "alfa"], [10, "beta"], [4, "gama"]])"});
+
   for (bool parallel : {false, true}) {
     SCOPED_TRACE(parallel ? "parallel/merged" : "serial");
 
     auto input = MakeGroupableBatches(/*multiplicity=*/parallel ? 100 : 1);
 
-    ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+    Declaration plan = Declaration::Sequence(
+        {{"source", SourceNodeOptions{input.schema, input.gen(parallel, /*slow=*/false)}},
+         {"aggregate",
+          AggregateNodeOptions{/*aggregates=*/{{"hash_sum", nullptr, "i32", "sum(i32)"}},
+                               /*keys=*/{"str"}}}});
 
-    ASSERT_OK(
-        Declaration::Sequence(
-            {
-                {"source",
-                 SourceNodeOptions{input.schema, input.gen(parallel, /*slow=*/false)}},
-                {"aggregate", AggregateNodeOptions{/*aggregates=*/{{"hash_sum", nullptr,
-                                                                    "i32", "sum(i32)"}},
-                                                   /*keys=*/{"str"}}},
-                {"sink", SinkNodeOptions{&sink_gen}},
-            })
-            .AddToPlan(plan.get()));
+    ASSERT_OK_AND_ASSIGN(std::shared_ptr<Table> actual,
+                         DeclarationToTable(std::move(plan), parallel));
 
-    ASSERT_THAT(StartAndCollect(plan.get(), sink_gen),
-                Finishes(ResultWith(UnorderedElementsAreArray({ExecBatchFromJSON(
-                    {int64(), utf8()},
-                    parallel ? R"([[800, "alfa"], [1000, "beta"], [400, "gama"]])"
-                             : R"([[8, "alfa"], [10, "beta"], [4, "gama"]])")}))));
+    auto expected = parallel ? expected_parallel : expected_single;
+
+    AssertTablesEqualIgnoringOrder(expected, actual);
   }
 }
 
@@ -945,7 +1051,7 @@ TEST(ExecPlanExecution, SourceMinMaxScalar) {
                         R"({"min": -8, "max": 12})")});
 
     ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+    AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
     // NOTE: Test `ScalarAggregateNode` by omitting `keys` attribute
     ASSERT_OK(Declaration::Sequence(
@@ -976,7 +1082,7 @@ TEST(ExecPlanExecution, NestedSourceFilter) {
 ])");
 
     ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+    AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
     ASSERT_OK(Declaration::Sequence(
                   {
@@ -998,34 +1104,26 @@ TEST(ExecPlanExecution, NestedSourceProjectGroupedSum) {
     SCOPED_TRACE(parallel ? "parallel/merged" : "serial");
 
     auto input = MakeNestedBatches();
-    auto expected = ExecBatchFromJSON({int64(), boolean()}, R"([
+    auto expected =
+        TableFromJSON(schema({field("x", int64()), field("y", boolean())}), {R"([
       [null, true],
       [17, false],
       [5, null]
-])");
-
-    ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+])"});
 
-    ASSERT_OK(
-        Declaration::Sequence(
-            {
-                {"source",
-                 SourceNodeOptions{input.schema, input.gen(parallel, /*slow=*/false)}},
-                {"project", ProjectNodeOptions{{
-                                                   field_ref(FieldRef("struct", "i32")),
-                                                   field_ref(FieldRef("struct", "bool")),
-                                               },
-                                               {"i32", "bool"}}},
-                {"aggregate", AggregateNodeOptions{/*aggregates=*/{{"hash_sum", nullptr,
-                                                                    "i32", "sum(i32)"}},
-                                                   /*keys=*/{"bool"}}},
-                {"sink", SinkNodeOptions{&sink_gen}},
-            })
-            .AddToPlan(plan.get()));
+    Declaration plan = Declaration::Sequence(
+        {{"source", SourceNodeOptions{input.schema, input.gen(parallel, /*slow=*/false)}},
+         {"project", ProjectNodeOptions{{
+                                            field_ref(FieldRef("struct", "i32")),
+                                            field_ref(FieldRef("struct", "bool")),
+                                        },
+                                        {"i32", "bool"}}},
+         {"aggregate",
+          AggregateNodeOptions{/*aggregates=*/{{"hash_sum", nullptr, "i32", "sum(i32)"}},
+                               /*keys=*/{"bool"}}}});
 
-    ASSERT_THAT(StartAndCollect(plan.get(), sink_gen),
-                Finishes(ResultWith(UnorderedElementsAreArray({expected}))));
+    ASSERT_OK_AND_ASSIGN(auto actual, DeclarationToTable(std::move(plan), parallel));
+    AssertTablesEqualIgnoringOrder(expected, actual);
   }
 }
 
@@ -1036,35 +1134,25 @@ TEST(ExecPlanExecution, SourceFilterProjectGroupedSumFilter) {
     int batch_multiplicity = parallel ? 100 : 1;
     auto input = MakeGroupableBatches(/*multiplicity=*/batch_multiplicity);
 
-    ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-
-    ASSERT_OK(
-        Declaration::Sequence(
-            {
-                {"source",
-                 SourceNodeOptions{input.schema, input.gen(parallel, /*slow=*/false)}},
-                {"filter",
-                 FilterNodeOptions{greater_equal(field_ref("i32"), literal(0))}},
-                {"project", ProjectNodeOptions{{
-                                field_ref("str"),
-                                call("multiply", {field_ref("i32"), literal(2)}),
-                            }}},
-                {"aggregate",
-                 AggregateNodeOptions{
-                     /*aggregates=*/{{"hash_sum", nullptr, "multiply(i32, 2)",
-                                      "sum(multiply(i32, 2))"}},
-                     /*keys=*/{"str"}}},
-                {"filter", FilterNodeOptions{greater(field_ref("sum(multiply(i32, 2))"),
-                                                     literal(10 * batch_multiplicity))}},
-                {"sink", SinkNodeOptions{&sink_gen}},
-            })
-            .AddToPlan(plan.get()));
-
-    ASSERT_THAT(StartAndCollect(plan.get(), sink_gen),
-                Finishes(ResultWith(UnorderedElementsAreArray({ExecBatchFromJSON(
-                    {int64(), utf8()}, parallel ? R"([[3600, "alfa"], [2000, "beta"]])"
-                                                : R"([[36, "alfa"], [20, "beta"]])")}))));
+    Declaration plan = Declaration::Sequence(
+        {{"source", SourceNodeOptions{input.schema, input.gen(parallel, /*slow=*/false)}},
+         {"filter", FilterNodeOptions{greater_equal(field_ref("i32"), literal(0))}},
+         {"project", ProjectNodeOptions{{
+                         field_ref("str"),
+                         call("multiply", {field_ref("i32"), literal(2)}),
+                     }}},
+         {"aggregate",
+          AggregateNodeOptions{/*aggregates=*/{{"hash_sum", nullptr, "multiply(i32, 2)",
+                                                "sum(multiply(i32, 2))"}},
+                               /*keys=*/{"str"}}},
+         {"filter", FilterNodeOptions{greater(field_ref("sum(multiply(i32, 2))"),
+                                              literal(10 * batch_multiplicity))}}});
+
+    auto expected = TableFromJSON(schema({field("a", int64()), field("b", utf8())}),
+                                  {parallel ? R"([[3600, "alfa"], [2000, "beta"]])"
+                                            : R"([[36, "alfa"], [20, "beta"]])"});
+    ASSERT_OK_AND_ASSIGN(auto actual, DeclarationToTable(std::move(plan), parallel));
+    AssertTablesEqualIgnoringOrder(expected, actual);
   }
 }
 
@@ -1076,7 +1164,7 @@ TEST(ExecPlanExecution, SourceFilterProjectGroupedSumOrderBy) {
     auto input = MakeGroupableBatches(/*multiplicity=*/batch_multiplicity);
 
     ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+    AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
     SortOptions options({SortKey("str", SortOrder::Descending)});
     ASSERT_OK(
@@ -1116,7 +1204,7 @@ TEST(ExecPlanExecution, SourceFilterProjectGroupedSumTopK) {
     auto input = MakeGroupableBatches(/*multiplicity=*/batch_multiplicity);
 
     ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+    AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
     SelectKOptions options = SelectKOptions::TopKDefault(/*k=*/1, {"str"});
     ASSERT_OK(Declaration::Sequence(
@@ -1145,7 +1233,7 @@ TEST(ExecPlanExecution, SourceFilterProjectGroupedSumTopK) {
 
 TEST(ExecPlanExecution, SourceScalarAggSink) {
   ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
   auto basic_data = MakeBasicBatches();
 
@@ -1174,59 +1262,46 @@ TEST(ExecPlanExecution, AggregationPreservesOptions) {
   // ARROW-13638: aggregation nodes initialize per-thread kernel state lazily
   // and need to keep a copy/strong reference to function options
   {
-    ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-
     auto basic_data = MakeBasicBatches();
-
+    Future<std::shared_ptr<Table>> table_future;
     {
       auto options = std::make_shared<TDigestOptions>(TDigestOptions::Defaults());
-      ASSERT_OK(Declaration::Sequence(
-                    {
-                        {"source", SourceNodeOptions{basic_data.schema,
-                                                     basic_data.gen(/*parallel=*/false,
-                                                                    /*slow=*/false)}},
-                        {"aggregate",
-                         AggregateNodeOptions{
+      Declaration plan = Declaration::Sequence(
+          {{"source",
+            SourceNodeOptions{basic_data.schema, basic_data.gen(/*parallel=*/false,
+                                                                /*slow=*/false)}},
+           {"aggregate", AggregateNodeOptions{
                              /*aggregates=*/{{"tdigest", options, "i32", "tdigest(i32)"}},
-                         }},
-                        {"sink", SinkNodeOptions{&sink_gen}},
-                    })
-                    .AddToPlan(plan.get()));
+                         }}});
+      table_future = DeclarationToTableAsync(std::move(plan));
     }
 
-    ASSERT_THAT(StartAndCollect(plan.get(), sink_gen),
-                Finishes(ResultWith(UnorderedElementsAreArray({
-                    ExecBatchFromJSON({float64()}, "[[5.5]]"),
-                }))));
+    std::shared_ptr<Table> expected =
+        TableFromJSON(schema({field("tdigest(i32)", float64())}), {"[[5.5]]"});
+
+    ASSERT_FINISHES_OK_AND_ASSIGN(std::shared_ptr<Table> actual, table_future);
+    AssertTablesEqualIgnoringOrder(expected, actual);
   }
   {
-    ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-
     auto data = MakeGroupableBatches(/*multiplicity=*/100);
-
+    Future<std::shared_ptr<Table>> table_future;
     {
       auto options = std::make_shared<CountOptions>(CountOptions::Defaults());
-      ASSERT_OK(
-          Declaration::Sequence(
-              {
-                  {"source", SourceNodeOptions{data.schema, data.gen(/*parallel=*/false,
-                                                                     /*slow=*/false)}},
-                  {"aggregate",
-                   AggregateNodeOptions{
-                       /*aggregates=*/{{"hash_count", options, "i32", "count(i32)"}},
-                       /*keys=*/{"str"}}},
-                  {"sink", SinkNodeOptions{&sink_gen}},
-              })
-              .AddToPlan(plan.get()));
+      Declaration plan = Declaration::Sequence(
+          {{"source", SourceNodeOptions{data.schema, data.gen(/*parallel=*/false,
+                                                              /*slow=*/false)}},
+           {"aggregate", AggregateNodeOptions{/*aggregates=*/{{"hash_count", options,
+                                                               "i32", "count(i32)"}},
+                                              /*keys=*/{"str"}}}});
+      table_future = DeclarationToTableAsync(std::move(plan));
     }
 
-    ASSERT_THAT(StartAndCollect(plan.get(), sink_gen),
-                Finishes(ResultWith(UnorderedElementsAreArray({
-                    ExecBatchFromJSON({int64(), utf8()},
-                                      R"([[500, "alfa"], [200, "beta"], [200, "gama"]])"),
-                }))));
+    std::shared_ptr<Table> expected =
+        TableFromJSON(schema({field("count(i32)", int64()), field("str", utf8())}),
+                      {R"([[500, "alfa"], [200, "beta"], [200, "gama"]])"});
+
+    ASSERT_FINISHES_OK_AND_ASSIGN(std::shared_ptr<Table> actual, table_future);
+    AssertTablesEqualIgnoringOrder(expected, actual);
   }
 }
 
@@ -1234,7 +1309,7 @@ TEST(ExecPlanExecution, ScalarSourceScalarAggSink) {
   // ARROW-9056: scalar aggregation can be done over scalars, taking
   // into account batch.length > 1 (e.g. a partition column)
   ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
   BatchesWithSchema scalar_data;
   scalar_data.batches = {
@@ -1278,9 +1353,10 @@ TEST(ExecPlanExecution, ScalarSourceScalarAggSink) {
 }
 
 TEST(ExecPlanExecution, ScalarSourceGroupedSum) {
-  // ARROW-14630: ensure grouped aggregation with a scalar key/array input doesn't error
+  // ARROW-14630: ensure grouped aggregation with a scalar key/array input doesn't
+  // error
   ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
   BatchesWithSchema scalar_data;
   scalar_data.batches = {
@@ -1317,28 +1393,13 @@ TEST(ExecPlanExecution, SelfInnerHashJoinSink) {
 
     auto input = MakeGroupableBatches();
 
-    auto exec_ctx = arrow::internal::make_unique<ExecContext>(
-        default_memory_pool(), parallel ? arrow::internal::GetCpuThreadPool() : nullptr);
+    auto left = Declaration::Sequence(
+        {{"source", SourceNodeOptions{input.schema, input.gen(parallel, /*slow=*/false)}},
+         {"filter", FilterNodeOptions{greater_equal(field_ref("i32"), literal(-1))}}});
 
-    ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(exec_ctx.get()));
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-
-    ExecNode* left_source;
-    ExecNode* right_source;
-    for (auto source : {&left_source, &right_source}) {
-      ASSERT_OK_AND_ASSIGN(
-          *source, MakeExecNode("source", plan.get(), {},
-                                SourceNodeOptions{input.schema,
-                                                  input.gen(parallel, /*slow=*/false)}));
-    }
-    ASSERT_OK_AND_ASSIGN(
-        auto left_filter,
-        MakeExecNode("filter", plan.get(), {left_source},
-                     FilterNodeOptions{greater_equal(field_ref("i32"), literal(-1))}));
-    ASSERT_OK_AND_ASSIGN(
-        auto right_filter,
-        MakeExecNode("filter", plan.get(), {right_source},
-                     FilterNodeOptions{less_equal(field_ref("i32"), literal(2))}));
+    auto right = Declaration::Sequence(
+        {{"source", SourceNodeOptions{input.schema, input.gen(parallel, /*slow=*/false)}},
+         {"filter", FilterNodeOptions{less_equal(field_ref("i32"), literal(2))}}});
 
     // left side: [3,  "alfa"], [3,  "alfa"], [12, "alfa"], [3,  "beta"], [7,  "beta"],
     // [-1, "gama"], [5,  "gama"]
@@ -1348,14 +1409,9 @@ TEST(ExecPlanExecution, SelfInnerHashJoinSink) {
                                   /*left_keys=*/{"str"},
                                   /*right_keys=*/{"str"}, literal(true), "l_", "r_"};
 
-    ASSERT_OK_AND_ASSIGN(
-        auto hashjoin,
-        MakeExecNode("hashjoin", plan.get(), {left_filter, right_filter}, join_opts));
-
-    ASSERT_OK_AND_ASSIGN(std::ignore, MakeExecNode("sink", plan.get(), {hashjoin},
-                                                   SinkNodeOptions{&sink_gen}));
+    auto plan = Declaration("hashjoin", {left, right}, std::move(join_opts));
 
-    ASSERT_FINISHES_OK_AND_ASSIGN(auto result, StartAndCollect(plan.get(), sink_gen));
+    ASSERT_OK_AND_ASSIGN(auto result, DeclarationToExecBatches(plan, parallel));
 
     std::vector<ExecBatch> expected = {
         ExecBatchFromJSON({int32(), utf8(), int32(), utf8()}, R"([
@@ -1364,7 +1420,7 @@ TEST(ExecPlanExecution, SelfInnerHashJoinSink) {
             [12, "alfa", -2, "alfa"], [12, "alfa", -8, "alfa"],
             [-1, "gama", -1, "gama"], [5, "gama", -1, "gama"]])")};
 
-    AssertExecBatchesEqual(hashjoin->output_schema(), result, expected);
+    AssertExecBatchesEqualIgnoringOrder(result.schema, result.batches, expected);
   }
 }
 
@@ -1374,28 +1430,13 @@ TEST(ExecPlanExecution, SelfOuterHashJoinSink) {
 
     auto input = MakeGroupableBatches();
 
-    auto exec_ctx = arrow::internal::make_unique<ExecContext>(
-        default_memory_pool(), parallel ? arrow::internal::GetCpuThreadPool() : nullptr);
+    auto left = Declaration::Sequence(
+        {{"source", SourceNodeOptions{input.schema, input.gen(parallel, /*slow=*/false)}},
+         {"filter", FilterNodeOptions{greater_equal(field_ref("i32"), literal(-1))}}});
 
-    ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make(exec_ctx.get()));
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
-
-    ExecNode* left_source;
-    ExecNode* right_source;
-    for (auto source : {&left_source, &right_source}) {
-      ASSERT_OK_AND_ASSIGN(
-          *source, MakeExecNode("source", plan.get(), {},
-                                SourceNodeOptions{input.schema,
-                                                  input.gen(parallel, /*slow=*/false)}));
-    }
-    ASSERT_OK_AND_ASSIGN(
-        auto left_filter,
-        MakeExecNode("filter", plan.get(), {left_source},
-                     FilterNodeOptions{greater_equal(field_ref("i32"), literal(-1))}));
-    ASSERT_OK_AND_ASSIGN(
-        auto right_filter,
-        MakeExecNode("filter", plan.get(), {right_source},
-                     FilterNodeOptions{less_equal(field_ref("i32"), literal(2))}));
+    auto right = Declaration::Sequence(
+        {{"source", SourceNodeOptions{input.schema, input.gen(parallel, /*slow=*/false)}},
+         {"filter", FilterNodeOptions{less_equal(field_ref("i32"), literal(2))}}});
 
     // left side: [3,  "alfa"], [3,  "alfa"], [12, "alfa"], [3,  "beta"], [7,  "beta"],
     // [-1, "gama"], [5,  "gama"]
@@ -1405,14 +1446,9 @@ TEST(ExecPlanExecution, SelfOuterHashJoinSink) {
                                   /*left_keys=*/{"str"},
                                   /*right_keys=*/{"str"}, literal(true), "l_", "r_"};
 
-    ASSERT_OK_AND_ASSIGN(
-        auto hashjoin,
-        MakeExecNode("hashjoin", plan.get(), {left_filter, right_filter}, join_opts));
-
-    ASSERT_OK_AND_ASSIGN(std::ignore, MakeExecNode("sink", plan.get(), {hashjoin},
-                                                   SinkNodeOptions{&sink_gen}));
+    auto plan = Declaration("hashjoin", {left, right}, std::move(join_opts));
 
-    ASSERT_FINISHES_OK_AND_ASSIGN(auto result, StartAndCollect(plan.get(), sink_gen));
+    ASSERT_OK_AND_ASSIGN(auto result, DeclarationToExecBatches(plan, parallel));
 
     std::vector<ExecBatch> expected = {
         ExecBatchFromJSON({int32(), utf8(), int32(), utf8()}, R"([
@@ -1422,13 +1458,13 @@ TEST(ExecPlanExecution, SelfOuterHashJoinSink) {
             [3,  "beta", null, null], [7,  "beta", null, null],
             [-1, "gama", -1, "gama"], [5, "gama", -1, "gama"]])")};
 
-    AssertExecBatchesEqual(hashjoin->output_schema(), result, expected);
+    AssertExecBatchesEqualIgnoringOrder(result.schema, result.batches, expected);
   }
 }
 
 TEST(ExecPlan, RecordBatchReaderSourceSink) {
   ASSERT_OK_AND_ASSIGN(auto plan, ExecPlan::Make());
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
   // set up a RecordBatchReader:
   auto input = MakeBasicBatches();
@@ -1464,7 +1500,7 @@ TEST(ExecPlan, SourceEnforcesBatchLimit) {
       schema({field("a", int32()), field("b", boolean())}), /*num_batches=*/3,
       /*batch_size=*/static_cast<int32_t>(std::floor(ExecPlan::kMaxBatchSize * 3.5)));
 
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
   ASSERT_OK(Declaration::Sequence(
                 {
diff --git a/cpp/src/arrow/compute/exec/project_benchmark.cc b/cpp/src/arrow/compute/exec/project_benchmark.cc
index cb4fdc4ffdf..9414fa89059 100644
--- a/cpp/src/arrow/compute/exec/project_benchmark.cc
+++ b/cpp/src/arrow/compute/exec/project_benchmark.cc
@@ -44,11 +44,10 @@ static void ProjectionOverhead(benchmark::State& state, Expression expr) {
 
   arrow::compute::BatchesWithSchema data = MakeRandomBatches(
       schema({field("i64", int64()), field("bool", boolean())}), num_batches, batch_size);
-  ExecContext ctx(default_memory_pool(), arrow::internal::GetCpuThreadPool());
   std::vector<arrow::compute::Declaration> project_node_dec = {
       {"project", ProjectNodeOptions{{expr}}}};
   ASSERT_OK(
-      BenchmarkNodeOverhead(state, ctx, num_batches, batch_size, data, project_node_dec));
+      BenchmarkNodeOverhead(state, num_batches, batch_size, data, project_node_dec));
 }
 
 static void ProjectionOverheadIsolated(benchmark::State& state, Expression expr) {
@@ -57,9 +56,8 @@ static void ProjectionOverheadIsolated(benchmark::State& state, Expression expr)
 
   arrow::compute::BatchesWithSchema data = MakeRandomBatches(
       schema({field("i64", int64()), field("bool", boolean())}), num_batches, batch_size);
-  ExecContext ctx(default_memory_pool(), arrow::internal::GetCpuThreadPool());
   ProjectNodeOptions options = ProjectNodeOptions{{expr}};
-  ASSERT_OK(BenchmarkIsolatedNodeOverhead(state, ctx, expr, num_batches, batch_size, data,
+  ASSERT_OK(BenchmarkIsolatedNodeOverhead(state, expr, num_batches, batch_size, data,
                                           "project", options));
 }
 
diff --git a/cpp/src/arrow/compute/exec/project_node.cc b/cpp/src/arrow/compute/exec/project_node.cc
index 76925eb6139..5e8c2245a2b 100644
--- a/cpp/src/arrow/compute/exec/project_node.cc
+++ b/cpp/src/arrow/compute/exec/project_node.cc
@@ -21,7 +21,9 @@
 #include "arrow/compute/exec.h"
 #include "arrow/compute/exec/exec_plan.h"
 #include "arrow/compute/exec/expression.h"
+#include "arrow/compute/exec/map_node.h"
 #include "arrow/compute/exec/options.h"
+#include "arrow/compute/exec/query_context.h"
 #include "arrow/compute/exec/util.h"
 #include "arrow/datum.h"
 #include "arrow/result.h"
@@ -40,9 +42,8 @@ namespace {
 class ProjectNode : public MapNode {
  public:
   ProjectNode(ExecPlan* plan, std::vector<ExecNode*> inputs,
-              std::shared_ptr<Schema> output_schema, std::vector<Expression> exprs,
-              bool async_mode)
-      : MapNode(plan, std::move(inputs), std::move(output_schema), async_mode),
+              std::shared_ptr<Schema> output_schema, std::vector<Expression> exprs)
+      : MapNode(plan, std::move(inputs), std::move(output_schema)),
         exprs_(std::move(exprs)) {}
 
   static Result<ExecNode*> Make(ExecPlan* plan, std::vector<ExecNode*> inputs,
@@ -64,15 +65,14 @@ class ProjectNode : public MapNode {
     int i = 0;
     for (auto& expr : exprs) {
       if (!expr.IsBound()) {
-        ARROW_ASSIGN_OR_RAISE(
-            expr, expr.Bind(*inputs[0]->output_schema(), plan->exec_context()));
+        ARROW_ASSIGN_OR_RAISE(expr, expr.Bind(*inputs[0]->output_schema(),
+                                              plan->query_context()->exec_context()));
       }
       fields[i] = field(std::move(names[i]), expr.type()->GetSharedPtr());
       ++i;
     }
     return plan->EmplaceNode<ProjectNode>(plan, std::move(inputs),
-                                          schema(std::move(fields)), std::move(exprs),
-                                          project_options.async_mode);
+                                          schema(std::move(fields)), std::move(exprs));
   }
 
   const char* kind_name() const override { return "ProjectNode"; }
@@ -88,8 +88,9 @@ class ProjectNode : public MapNode {
       ARROW_ASSIGN_OR_RAISE(Expression simplified_expr,
                             SimplifyWithGuarantee(exprs_[i], target.guarantee));
 
-      ARROW_ASSIGN_OR_RAISE(values[i], ExecuteScalarExpression(simplified_expr, target,
-                                                               plan()->exec_context()));
+      ARROW_ASSIGN_OR_RAISE(
+          values[i], ExecuteScalarExpression(simplified_expr, target,
+                                             plan()->query_context()->exec_context()));
     }
     return ExecBatch{std::move(values), target.length};
   }
diff --git a/cpp/src/arrow/compute/exec/query_context.cc b/cpp/src/arrow/compute/exec/query_context.cc
new file mode 100644
index 00000000000..a155c750a2a
--- /dev/null
+++ b/cpp/src/arrow/compute/exec/query_context.cc
@@ -0,0 +1,94 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "arrow/compute/exec/query_context.h"
+#include "arrow/util/cpu_info.h"
+#include "arrow/util/io_util.h"
+
+namespace arrow {
+using internal::CpuInfo;
+namespace compute {
+QueryOptions::QueryOptions() : use_legacy_batching(false) {}
+
+QueryContext::QueryContext(QueryOptions opts, ExecContext exec_context)
+    : options_(opts),
+      exec_context_(exec_context),
+      io_context_(exec_context_.memory_pool()) {}
+
+const CpuInfo* QueryContext::cpu_info() const { return CpuInfo::GetInstance(); }
+int64_t QueryContext::hardware_flags() const { return cpu_info()->hardware_flags(); }
+
+Status QueryContext::Init(size_t max_num_threads, util::AsyncTaskScheduler* scheduler) {
+  tld_.resize(max_num_threads);
+  async_scheduler_ = scheduler;
+  return Status::OK();
+}
+
+size_t QueryContext::GetThreadIndex() { return thread_indexer_(); }
+
+size_t QueryContext::max_concurrency() const { return thread_indexer_.Capacity(); }
+
+Result<util::TempVectorStack*> QueryContext::GetTempStack(size_t thread_index) {
+  if (!tld_[thread_index].is_init) {
+    RETURN_NOT_OK(tld_[thread_index].stack.Init(
+        memory_pool(), 8 * util::MiniBatch::kMiniBatchLength * sizeof(uint64_t)));
+    tld_[thread_index].is_init = true;
+  }
+  return &tld_[thread_index].stack;
+}
+
+Result<Future<>> QueryContext::BeginExternalTask() {
+  Future<> completion_future = Future<>::Make();
+  if (async_scheduler_->AddSimpleTask(
+          [completion_future] { return completion_future; })) {
+    return completion_future;
+  }
+  return Future<>{};
+}
+
+Status QueryContext::ScheduleTask(std::function<Status()> fn) {
+  ::arrow::internal::Executor* exec = executor();
+  // Adds a task which submits fn to the executor and tracks its progress.  If we're
+  // already stopping then the task is ignored and fn is not executed.
+  async_scheduler_->AddSimpleTask([exec, fn]() { return exec->Submit(std::move(fn)); });
+  return Status::OK();
+}
+
+Status QueryContext::ScheduleTask(std::function<Status(size_t)> fn) {
+  std::function<Status()> indexed_fn = [this, fn]() {
+    size_t thread_index = GetThreadIndex();
+    return fn(thread_index);
+  };
+  return ScheduleTask(std::move(indexed_fn));
+}
+
+Status QueryContext::ScheduleIOTask(std::function<Status()> fn) {
+  async_scheduler_->AddSimpleTask(
+      [this, fn]() { return io_context_.executor()->Submit(std::move(fn)); });
+  return Status::OK();
+}
+
+int QueryContext::RegisterTaskGroup(std::function<Status(size_t, int64_t)> task,
+                                    std::function<Status(size_t)> on_finished) {
+  return task_scheduler_->RegisterTaskGroup(std::move(task), std::move(on_finished));
+}
+
+Status QueryContext::StartTaskGroup(int task_group_id, int64_t num_tasks) {
+  return task_scheduler_->StartTaskGroup(GetThreadIndex(), task_group_id, num_tasks);
+}
+}  // namespace compute
+}  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec/query_context.h b/cpp/src/arrow/compute/exec/query_context.h
new file mode 100644
index 00000000000..12ddbc56fad
--- /dev/null
+++ b/cpp/src/arrow/compute/exec/query_context.h
@@ -0,0 +1,161 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "arrow/compute/exec.h"
+#include "arrow/compute/exec/task_util.h"
+#include "arrow/compute/exec/util.h"
+#include "arrow/io/interfaces.h"
+#include "arrow/util/async_util.h"
+
+#pragma once
+
+namespace arrow {
+
+using io::IOContext;
+namespace compute {
+struct ARROW_EXPORT QueryOptions {
+  QueryOptions();
+
+  /// \brief Should the plan use a legacy batching strategy
+  ///
+  /// This is currently in place only to support the Scanner::ToTable
+  /// method.  This method relies on batch indices from the scanner
+  /// remaining consistent.  This is impractical in the ExecPlan which
+  /// might slice batches as needed (e.g. for a join)
+  ///
+  /// However, it still works for simple plans and this is the only way
+  /// we have at the moment for maintaining implicit order.
+  bool use_legacy_batching;
+};
+
+class ARROW_EXPORT QueryContext {
+ public:
+  QueryContext(QueryOptions opts = {},
+               ExecContext exec_context = *default_exec_context());
+
+  Status Init(size_t max_num_threads, util::AsyncTaskScheduler* scheduler);
+
+  const ::arrow::internal::CpuInfo* cpu_info() const;
+  int64_t hardware_flags() const;
+  const QueryOptions& options() const { return options_; }
+  MemoryPool* memory_pool() const { return exec_context_.memory_pool(); }
+  ::arrow::internal::Executor* executor() const { return exec_context_.executor(); }
+  ExecContext* exec_context() { return &exec_context_; }
+  IOContext* io_context() { return &io_context_; }
+  TaskScheduler* scheduler() { return task_scheduler_.get(); }
+  util::AsyncTaskScheduler* async_scheduler() { return async_scheduler_; }
+
+  size_t GetThreadIndex();
+  size_t max_concurrency() const;
+  Result<util::TempVectorStack*> GetTempStack(size_t thread_index);
+
+  /// \brief Start an external task
+  ///
+  /// This should be avoided if possible.  It is kept in for now for legacy
+  /// purposes.  This should be called before the external task is started.  If
+  /// a valid future is returned then it should be marked complete when the
+  /// external task has finished.
+  ///
+  /// \return an invalid future if the plan has already ended, otherwise this
+  ///         returns a future that must be completed when the external task
+  ///         finishes.
+  Result<Future<>> BeginExternalTask();
+
+  /// \brief Add a single function as a task to the query's task group
+  ///        on the compute threadpool.
+  ///
+  /// \param fn The task to run. Takes no arguments and returns a Status.
+  Status ScheduleTask(std::function<Status()> fn);
+  /// \brief Add a single function as a task to the query's task group
+  ///        on the compute threadpool.
+  ///
+  /// \param fn The task to run. Takes the thread index and returns a Status.
+  Status ScheduleTask(std::function<Status(size_t)> fn);
+  /// \brief Add a single function as a task to the query's task group on
+  ///        the IO thread pool
+  ///
+  /// \param fn The task to run. Returns a status.
+  Status ScheduleIOTask(std::function<Status()> fn);
+
+  // Register/Start TaskGroup is a way of performing a "Parallel For" pattern:
+  // - The task function takes the thread index and the index of the task
+  // - The on_finished function takes the thread index
+  // Returns an integer ID that will be used to reference the task group in
+  // StartTaskGroup. At runtime, call StartTaskGroup with the ID and the number of times
+  // you'd like the task to be executed. The need to register a task group before use will
+  // be removed after we rewrite the scheduler.
+  /// \brief Register a "parallel for" task group with the scheduler
+  ///
+  /// \param task The function implementing the task. Takes the thread_index and
+  ///             the task index.
+  /// \param on_finished The function that gets run once all tasks have been completed.
+  /// Takes the thread_index.
+  ///
+  /// Must be called inside of ExecNode::Init.
+  int RegisterTaskGroup(std::function<Status(size_t, int64_t)> task,
+                        std::function<Status(size_t)> on_finished);
+
+  /// \brief Start the task group with the specified ID. This can only
+  ///        be called once per task_group_id.
+  ///
+  /// \param task_group_id The ID  of the task group to run
+  /// \param num_tasks The number of times to run the task
+  Status StartTaskGroup(int task_group_id, int64_t num_tasks);
+
+  // This is an RAII class for keeping track of in-flight file IO. Useful for getting
+  // an estimate of memory use, and how much memory we expect to be freed soon.
+  // Returned by ReportTempFileIO.
+  struct [[nodiscard]] TempFileIOMark {
+    QueryContext* ctx_;
+    size_t bytes_;
+
+    TempFileIOMark(QueryContext* ctx, size_t bytes) : ctx_(ctx), bytes_(bytes) {
+      ctx_->in_flight_bytes_to_disk_.fetch_add(bytes_, std::memory_order_acquire);
+    }
+
+    ARROW_DISALLOW_COPY_AND_ASSIGN(TempFileIOMark);
+
+    ~TempFileIOMark() {
+      ctx_->in_flight_bytes_to_disk_.fetch_sub(bytes_, std::memory_order_release);
+    }
+  };
+
+  TempFileIOMark ReportTempFileIO(size_t bytes) { return {this, bytes}; }
+
+  size_t GetCurrentTempFileIO() { return in_flight_bytes_to_disk_.load(); }
+
+ private:
+  QueryOptions options_;
+  // To be replaced with Acero-specific context once scheduler is done and
+  // we don't need ExecContext for kernels
+  ExecContext exec_context_;
+  IOContext io_context_;
+
+  util::AsyncTaskScheduler* async_scheduler_ = NULLPTR;
+  std::unique_ptr<TaskScheduler> task_scheduler_ = TaskScheduler::Make();
+
+  ThreadIndexer thread_indexer_;
+  struct ThreadLocalData {
+    bool is_init = false;
+    util::TempVectorStack stack;
+  };
+  std::vector<ThreadLocalData> tld_;
+
+  std::atomic<size_t> in_flight_bytes_to_disk_{0};
+};
+}  // namespace compute
+}  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec/sink_node.cc b/cpp/src/arrow/compute/exec/sink_node.cc
index a1426265cf9..2ecce751135 100644
--- a/cpp/src/arrow/compute/exec/sink_node.cc
+++ b/cpp/src/arrow/compute/exec/sink_node.cc
@@ -16,7 +16,9 @@
 // specific language governing permissions and limitations
 // under the License.
 
+#include <atomic>
 #include <mutex>
+#include <optional>
 
 #include "arrow/compute/api_vector.h"
 #include "arrow/compute/exec.h"
@@ -24,6 +26,7 @@
 #include "arrow/compute/exec/expression.h"
 #include "arrow/compute/exec/options.h"
 #include "arrow/compute/exec/order_by_impl.h"
+#include "arrow/compute/exec/query_context.h"
 #include "arrow/compute/exec/util.h"
 #include "arrow/compute/exec_internal.h"
 #include "arrow/datum.h"
@@ -34,7 +37,6 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/future.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/thread_pool.h"
 #include "arrow/util/tracing_internal.h"
 #include "arrow/util/unreachable.h"
@@ -54,8 +56,14 @@ class BackpressureReservoir : public BackpressureMonitor {
         resume_if_below_(resume_if_below),
         pause_if_above_(pause_if_above) {}
 
-  uint64_t bytes_in_use() const override { return bytes_used_; }
-  bool is_paused() const override { return state_change_counter_ % 2 == 1; }
+  uint64_t bytes_in_use() override {
+    std::lock_guard lg(mutex_);
+    return bytes_used_;
+  }
+  bool is_paused() override {
+    std::lock_guard lg(mutex_);
+    return state_change_counter_ % 2 == 1;
+  }
   bool enabled() const { return pause_if_above_ > 0; }
 
   int32_t RecordProduced(uint64_t num_bytes) {
@@ -89,8 +97,8 @@ class BackpressureReservoir : public BackpressureMonitor {
 class SinkNode : public ExecNode {
  public:
   SinkNode(ExecPlan* plan, std::vector<ExecNode*> inputs,
-           AsyncGenerator<util::optional<ExecBatch>>* generator,
-           BackpressureOptions backpressure,
+           AsyncGenerator<std::optional<ExecBatch>>* generator,
+           std::shared_ptr<Schema>* schema, BackpressureOptions backpressure,
            BackpressureMonitor** backpressure_monitor_out)
       : ExecNode(plan, std::move(inputs), {"collected"}, {},
                  /*num_outputs=*/0),
@@ -102,12 +110,15 @@ class SinkNode : public ExecNode {
       *backpressure_monitor_out = &backpressure_queue_;
     }
     auto node_destroyed_capture = node_destroyed_;
-    *generator = [this, node_destroyed_capture]() -> Future<util::optional<ExecBatch>> {
+    if (schema) {
+      *schema = inputs_[0]->output_schema();
+    }
+    *generator = [this, node_destroyed_capture]() -> Future<std::optional<ExecBatch>> {
       if (*node_destroyed_capture) {
         return Status::Invalid(
             "Attempt to consume data after the plan has been destroyed");
       }
-      return push_gen_().Then([this](const util::optional<ExecBatch>& batch) {
+      return push_gen_().Then([this](const std::optional<ExecBatch>& batch) {
         if (batch) {
           RecordBackpressureBytesFreed(*batch);
         }
@@ -125,7 +136,7 @@ class SinkNode : public ExecNode {
     const auto& sink_options = checked_cast<const SinkNodeOptions&>(options);
     RETURN_NOT_OK(ValidateOptions(sink_options));
     return plan->EmplaceNode<SinkNode>(plan, std::move(inputs), sink_options.generator,
-                                       sink_options.backpressure,
+                                       sink_options.schema, sink_options.backpressure,
                                        sink_options.backpressure_monitor);
   }
 
@@ -247,8 +258,8 @@ class SinkNode : public ExecNode {
 
   // Needs to be a shared_ptr as the push generator can technically outlive the node
   BackpressureReservoir backpressure_queue_;
-  PushGenerator<util::optional<ExecBatch>> push_gen_;
-  PushGenerator<util::optional<ExecBatch>>::Producer producer_;
+  PushGenerator<std::optional<ExecBatch>> push_gen_;
+  PushGenerator<std::optional<ExecBatch>>::Producer producer_;
   std::shared_ptr<bool> node_destroyed_;
 };
 
@@ -303,7 +314,7 @@ class ConsumingSinkNode : public ExecNode, public BackpressureControl {
       }
       output_schema = schema(std::move(fields));
     }
-    RETURN_NOT_OK(consumer_->Init(output_schema, this));
+    RETURN_NOT_OK(consumer_->Init(output_schema, this, plan_));
     return Status::OK();
   }
 
@@ -325,8 +336,9 @@ class ConsumingSinkNode : public ExecNode, public BackpressureControl {
 
   void StopProducing() override {
     EVENT(span_, "StopProducing");
-    Finish(Status::OK());
-    inputs_[0]->StopProducing(this);
+    if (input_counter_.Cancel()) {
+      Finish(Status::OK());
+    }
   }
 
   void InputReceived(ExecNode* input, ExecBatch batch) override {
@@ -376,65 +388,24 @@ class ConsumingSinkNode : public ExecNode, public BackpressureControl {
 
  protected:
   void Finish(const Status& finish_st) {
-    consumer_->Finish().AddCallback([this, finish_st](const Status& st) {
-      // Prefer the plan error over the consumer error
-      Status final_status = finish_st & st;
-      finished_.MarkFinished(std::move(final_status));
-    });
+    if (finish_st.ok()) {
+      plan_->query_context()->async_scheduler()->AddSimpleTask(
+          [this] { return consumer_->Finish(); });
+    }
+    finished_.MarkFinished(finish_st);
   }
 
   AtomicCounter input_counter_;
   std::shared_ptr<SinkNodeConsumer> consumer_;
   std::vector<std::string> names_;
-  int32_t backpressure_counter_ = 0;
+  std::atomic<int32_t> backpressure_counter_ = 0;
 };
-
-/**
- * @brief This node is an extension on ConsumingSinkNode
- * to facilitate to get the output from an execution plan
- * as a table. We define a custom SinkNodeConsumer to
- * enable this functionality.
- */
-
-struct TableSinkNodeConsumer : public SinkNodeConsumer {
- public:
-  TableSinkNodeConsumer(std::shared_ptr<Table>* out, MemoryPool* pool)
-      : out_(out), pool_(pool) {}
-
-  Status Init(const std::shared_ptr<Schema>& schema,
-              BackpressureControl* backpressure_control) override {
-    // If the user is collecting into a table then backpressure is meaningless
-    ARROW_UNUSED(backpressure_control);
-    schema_ = schema;
-    return Status::OK();
-  }
-
-  Status Consume(ExecBatch batch) override {
-    std::lock_guard<std::mutex> guard(consume_mutex_);
-    ARROW_ASSIGN_OR_RAISE(auto rb, batch.ToRecordBatch(schema_, pool_));
-    batches_.push_back(rb);
-    return Status::OK();
-  }
-
-  Future<> Finish() override {
-    ARROW_ASSIGN_OR_RAISE(*out_, Table::FromRecordBatches(batches_));
-    return Status::OK();
-  }
-
- private:
-  std::shared_ptr<Table>* out_;
-  MemoryPool* pool_;
-  std::shared_ptr<Schema> schema_;
-  std::vector<std::shared_ptr<RecordBatch>> batches_;
-  std::mutex consume_mutex_;
-};
-
 static Result<ExecNode*> MakeTableConsumingSinkNode(
     compute::ExecPlan* plan, std::vector<compute::ExecNode*> inputs,
     const compute::ExecNodeOptions& options) {
   RETURN_NOT_OK(ValidateExecNodeInputs(plan, inputs, 1, "TableConsumingSinkNode"));
   const auto& sink_options = checked_cast<const TableSinkNodeOptions&>(options);
-  MemoryPool* pool = plan->exec_context()->memory_pool();
+  MemoryPool* pool = plan->query_context()->memory_pool();
   auto tb_consumer =
       std::make_shared<TableSinkNodeConsumer>(sink_options.output_table, pool);
   auto consuming_sink_node_options = ConsumingSinkNodeOptions{tb_consumer};
@@ -445,8 +416,9 @@ static Result<ExecNode*> MakeTableConsumingSinkNode(
 struct OrderBySinkNode final : public SinkNode {
   OrderBySinkNode(ExecPlan* plan, std::vector<ExecNode*> inputs,
                   std::unique_ptr<OrderByImpl> impl,
-                  AsyncGenerator<util::optional<ExecBatch>>* generator)
-      : SinkNode(plan, std::move(inputs), generator, /*backpressure=*/{},
+                  AsyncGenerator<std::optional<ExecBatch>>* generator)
+      : SinkNode(plan, std::move(inputs), generator, /*schema=*/nullptr,
+                 /*backpressure=*/{},
                  /*backpressure_monitor_out=*/nullptr),
         impl_(std::move(impl)) {}
 
@@ -464,8 +436,8 @@ struct OrderBySinkNode final : public SinkNode {
     RETURN_NOT_OK(ValidateOrderByOptions(sink_options));
     ARROW_ASSIGN_OR_RAISE(
         std::unique_ptr<OrderByImpl> impl,
-        OrderByImpl::MakeSort(plan->exec_context(), inputs[0]->output_schema(),
-                              sink_options.sort_options));
+        OrderByImpl::MakeSort(plan->query_context()->exec_context(),
+                              inputs[0]->output_schema(), sink_options.sort_options));
     return plan->EmplaceNode<OrderBySinkNode>(plan, std::move(inputs), std::move(impl),
                                               sink_options.generator);
   }
@@ -494,10 +466,10 @@ struct OrderBySinkNode final : public SinkNode {
       return Status::Invalid("Backpressure cannot be applied to an OrderBySinkNode");
     }
     RETURN_NOT_OK(ValidateSelectKOptions(sink_options));
-    ARROW_ASSIGN_OR_RAISE(
-        std::unique_ptr<OrderByImpl> impl,
-        OrderByImpl::MakeSelectK(plan->exec_context(), inputs[0]->output_schema(),
-                                 sink_options.select_k_options));
+    ARROW_ASSIGN_OR_RAISE(std::unique_ptr<OrderByImpl> impl,
+                          OrderByImpl::MakeSelectK(plan->query_context()->exec_context(),
+                                                   inputs[0]->output_schema(),
+                                                   sink_options.select_k_options));
     return plan->EmplaceNode<OrderBySinkNode>(plan, std::move(inputs), std::move(impl),
                                               sink_options.generator);
   }
@@ -519,7 +491,7 @@ struct OrderBySinkNode final : public SinkNode {
     DCHECK_EQ(input, inputs_[0]);
 
     auto maybe_batch = batch.ToRecordBatch(inputs_[0]->output_schema(),
-                                           plan()->exec_context()->memory_pool());
+                                           plan()->query_context()->memory_pool());
     if (ErrorIfNotOk(maybe_batch.status())) {
       StopProducing();
       if (input_counter_.Cancel()) {
diff --git a/cpp/src/arrow/compute/exec/source_node.cc b/cpp/src/arrow/compute/exec/source_node.cc
index a640cf737ef..76c222f5b76 100644
--- a/cpp/src/arrow/compute/exec/source_node.cc
+++ b/cpp/src/arrow/compute/exec/source_node.cc
@@ -15,15 +15,19 @@
 // specific language governing permissions and limitations
 // under the License.
 
+#include <atomic>
 #include <mutex>
+#include <optional>
 
 #include "arrow/compute/exec.h"
 #include "arrow/compute/exec/exec_plan.h"
 #include "arrow/compute/exec/expression.h"
 #include "arrow/compute/exec/options.h"
+#include "arrow/compute/exec/query_context.h"
 #include "arrow/compute/exec/util.h"
 #include "arrow/compute/exec_internal.h"
 #include "arrow/datum.h"
+#include "arrow/io/util_internal.h"
 #include "arrow/result.h"
 #include "arrow/table.h"
 #include "arrow/util/async_generator.h"
@@ -31,7 +35,6 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/future.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/thread_pool.h"
 #include "arrow/util/tracing_internal.h"
 #include "arrow/util/unreachable.h"
@@ -47,7 +50,7 @@ namespace {
 
 struct SourceNode : ExecNode {
   SourceNode(ExecPlan* plan, std::shared_ptr<Schema> output_schema,
-             AsyncGenerator<util::optional<ExecBatch>> generator)
+             AsyncGenerator<std::optional<ExecBatch>> generator)
       : ExecNode(plan, {}, {}, std::move(output_schema),
                  /*num_outputs=*/1),
         generator_(std::move(generator)) {}
@@ -89,7 +92,7 @@ struct SourceNode : ExecNode {
     }
 
     CallbackOptions options;
-    auto executor = plan()->exec_context()->executor();
+    auto executor = plan()->query_context()->executor();
     if (executor) {
       // These options will transfer execution to the desired Executor if necessary.
       // This can happen for in-memory scans where batches didn't require
@@ -98,7 +101,8 @@ struct SourceNode : ExecNode {
       options.executor = executor;
       options.should_schedule = ShouldSchedule::IfDifferentExecutor;
     }
-    ARROW_ASSIGN_OR_RAISE(Future<> scan_task, plan_->BeginExternalTask());
+    ARROW_ASSIGN_OR_RAISE(Future<> scan_task,
+                          plan_->query_context()->BeginExternalTask());
     if (!scan_task.is_valid()) {
       finished_.MarkFinished();
       // Plan has already been aborted, no need to start scanning
@@ -112,14 +116,15 @@ struct SourceNode : ExecNode {
                  lock.unlock();
 
                  return generator_().Then(
-                     [=](const util::optional<ExecBatch>& maybe_morsel)
+                     [this](const std::optional<ExecBatch>& maybe_morsel)
                          -> Future<ControlFlow<int>> {
                        std::unique_lock<std::mutex> lock(mutex_);
                        if (IsIterationEnd(maybe_morsel) || stop_requested_) {
                          return Break(batch_count_);
                        }
                        lock.unlock();
-                       bool use_legacy_batching = plan_->UseLegacyBatching();
+                       bool use_legacy_batching =
+                           plan_->query_context()->options().use_legacy_batching;
                        ExecBatch morsel = std::move(*maybe_morsel);
                        int64_t morsel_length = static_cast<int64_t>(morsel.length);
                        if (use_legacy_batching || morsel_length == 0) {
@@ -131,22 +136,24 @@ struct SourceNode : ExecNode {
                              bit_util::CeilDiv(morsel_length, ExecPlan::kMaxBatchSize));
                          batch_count_ += num_batches;
                        }
-                       RETURN_NOT_OK(plan_->ScheduleTask([=]() {
-                         int64_t offset = 0;
-                         do {
-                           int64_t batch_size = std::min<int64_t>(
-                               morsel_length - offset, ExecPlan::kMaxBatchSize);
-                           // In order for the legacy batching model to work we must
-                           // not slice batches from the source
-                           if (use_legacy_batching) {
-                             batch_size = morsel_length;
-                           }
-                           ExecBatch batch = morsel.Slice(offset, batch_size);
-                           offset += batch_size;
-                           outputs_[0]->InputReceived(this, std::move(batch));
-                         } while (offset < morsel.length);
-                         return Status::OK();
-                       }));
+                       RETURN_NOT_OK(plan_->query_context()->ScheduleTask(
+                           [this, morsel = std::move(morsel), morsel_length,
+                            use_legacy_batching]() {
+                             int64_t offset = 0;
+                             do {
+                               int64_t batch_size = std::min<int64_t>(
+                                   morsel_length - offset, ExecPlan::kMaxBatchSize);
+                               // In order for the legacy batching model to work we must
+                               // not slice batches from the source
+                               if (use_legacy_batching) {
+                                 batch_size = morsel_length;
+                               }
+                               ExecBatch batch = morsel.Slice(offset, batch_size);
+                               offset += batch_size;
+                               outputs_[0]->InputReceived(this, std::move(batch));
+                             } while (offset < morsel.length);
+                             return Status::OK();
+                           }));
                        lock.lock();
                        if (!backpressure_future_.is_finished()) {
                          EVENT(span_, "Source paused due to backpressure");
@@ -155,7 +162,7 @@ struct SourceNode : ExecNode {
                        }
                        return Future<ControlFlow<int>>::MakeFinished(Continue());
                      },
-                     [=](const Status& error) -> ControlFlow<int> {
+                     [this](const Status& error) -> ControlFlow<int> {
                        outputs_[0]->ErrorReceived(this, error);
                        return Break(batch_count_);
                      },
@@ -216,12 +223,12 @@ struct SourceNode : ExecNode {
 
  private:
   std::mutex mutex_;
-  int32_t backpressure_counter_{0};
+  std::atomic<int32_t> backpressure_counter_{0};
   Future<> backpressure_future_ = Future<>::MakeFinished();
   bool stop_requested_{false};
   bool started_ = false;
   int batch_count_{0};
-  AsyncGenerator<util::optional<ExecBatch>> generator_;
+  AsyncGenerator<std::optional<ExecBatch>> generator_;
 };
 
 struct TableSourceNode : public SourceNode {
@@ -257,13 +264,13 @@ struct TableSourceNode : public SourceNode {
     return Status::OK();
   }
 
-  static arrow::AsyncGenerator<util::optional<ExecBatch>> TableGenerator(
+  static arrow::AsyncGenerator<std::optional<ExecBatch>> TableGenerator(
       const Table& table, const int64_t batch_size) {
     auto batches = ConvertTableToExecBatches(table, batch_size);
     auto opt_batches =
-        MapVector([](ExecBatch batch) { return util::make_optional(std::move(batch)); },
+        MapVector([](ExecBatch batch) { return std::make_optional(std::move(batch)); },
                   std::move(batches));
-    AsyncGenerator<util::optional<ExecBatch>> gen;
+    AsyncGenerator<std::optional<ExecBatch>> gen;
     gen = MakeVectorGenerator(std::move(opt_batches));
     return gen;
   }
@@ -291,6 +298,192 @@ struct TableSourceNode : public SourceNode {
   }
 };
 
+template <typename This, typename Options>
+struct SchemaSourceNode : public SourceNode {
+  SchemaSourceNode(ExecPlan* plan, std::shared_ptr<Schema> schema,
+                   arrow::AsyncGenerator<std::optional<ExecBatch>> generator)
+      : SourceNode(plan, schema, generator) {}
+
+  static Result<ExecNode*> Make(ExecPlan* plan, std::vector<ExecNode*> inputs,
+                                const ExecNodeOptions& options) {
+    RETURN_NOT_OK(ValidateExecNodeInputs(plan, inputs, 0, This::kKindName));
+    const auto& cast_options = checked_cast<const Options&>(options);
+    auto& it_maker = cast_options.it_maker;
+    auto& schema = cast_options.schema;
+    auto io_executor = cast_options.io_executor;
+
+    if (io_executor == NULLPTR) {
+      io_executor = plan->query_context()->exec_context()->executor();
+    }
+    auto it = it_maker();
+
+    if (schema == NULLPTR) {
+      return Status::Invalid(This::kKindName, " requires schema which is not null");
+    }
+    if (io_executor == NULLPTR) {
+      io_executor = io::internal::GetIOThreadPool();
+    }
+
+    ARROW_ASSIGN_OR_RAISE(auto generator, This::MakeGenerator(it, io_executor, schema));
+    return plan->EmplaceNode<This>(plan, schema, generator);
+  }
+};
+
+struct RecordBatchReaderSourceNode : public SourceNode {
+  RecordBatchReaderSourceNode(ExecPlan* plan, std::shared_ptr<Schema> schema,
+                              arrow::AsyncGenerator<std::optional<ExecBatch>> generator)
+      : SourceNode(plan, schema, generator) {}
+
+  static Result<ExecNode*> Make(ExecPlan* plan, std::vector<ExecNode*> inputs,
+                                const ExecNodeOptions& options) {
+    RETURN_NOT_OK(ValidateExecNodeInputs(plan, inputs, 0, kKindName));
+    const auto& cast_options =
+        checked_cast<const RecordBatchReaderSourceNodeOptions&>(options);
+    auto& reader = cast_options.reader;
+    auto io_executor = cast_options.io_executor;
+
+    if (reader == nullptr) {
+      return Status::Invalid(kKindName, " requires a reader which is not null");
+    }
+
+    if (io_executor == nullptr) {
+      io_executor = io::internal::GetIOThreadPool();
+    }
+
+    ARROW_ASSIGN_OR_RAISE(auto generator, MakeGenerator(reader, io_executor));
+    return plan->EmplaceNode<RecordBatchReaderSourceNode>(plan, reader->schema(),
+                                                          generator);
+  }
+
+  static Result<arrow::AsyncGenerator<std::optional<ExecBatch>>> MakeGenerator(
+      const std::shared_ptr<RecordBatchReader>& reader,
+      arrow::internal::Executor* io_executor) {
+    auto to_exec_batch =
+        [](const std::shared_ptr<RecordBatch>& batch) -> std::optional<ExecBatch> {
+      if (batch == NULLPTR) {
+        return std::nullopt;
+      }
+      return std::optional<ExecBatch>(ExecBatch(*batch));
+    };
+    Iterator<std::shared_ptr<RecordBatch>> batch_it = MakeIteratorFromReader(reader);
+    auto exec_batch_it = MakeMapIterator(to_exec_batch, std::move(batch_it));
+    return MakeBackgroundGenerator(std::move(exec_batch_it), io_executor);
+  }
+
+  static const char kKindName[];
+};
+
+const char RecordBatchReaderSourceNode::kKindName[] = "RecordBatchReaderSourceNode";
+
+struct RecordBatchSourceNode
+    : public SchemaSourceNode<RecordBatchSourceNode, RecordBatchSourceNodeOptions> {
+  using RecordBatchSchemaSourceNode =
+      SchemaSourceNode<RecordBatchSourceNode, RecordBatchSourceNodeOptions>;
+
+  using RecordBatchSchemaSourceNode::RecordBatchSchemaSourceNode;
+
+  static Result<ExecNode*> Make(ExecPlan* plan, std::vector<ExecNode*> inputs,
+                                const ExecNodeOptions& options) {
+    return RecordBatchSchemaSourceNode::Make(plan, inputs, options);
+  }
+
+  const char* kind_name() const override { return kKindName; }
+
+  static Result<arrow::AsyncGenerator<std::optional<ExecBatch>>> MakeGenerator(
+      Iterator<std::shared_ptr<RecordBatch>>& batch_it,
+      arrow::internal::Executor* io_executor, const std::shared_ptr<Schema>& schema) {
+    auto to_exec_batch =
+        [schema](const std::shared_ptr<RecordBatch>& batch) -> std::optional<ExecBatch> {
+      if (batch == NULLPTR || *batch->schema() != *schema) {
+        return std::nullopt;
+      }
+      return std::optional<ExecBatch>(ExecBatch(*batch));
+    };
+    auto exec_batch_it = MakeMapIterator(to_exec_batch, std::move(batch_it));
+    return MakeBackgroundGenerator(std::move(exec_batch_it), io_executor);
+  }
+
+  static const char kKindName[];
+};
+
+const char RecordBatchSourceNode::kKindName[] = "RecordBatchSourceNode";
+
+struct ExecBatchSourceNode
+    : public SchemaSourceNode<ExecBatchSourceNode, ExecBatchSourceNodeOptions> {
+  using ExecBatchSchemaSourceNode =
+      SchemaSourceNode<ExecBatchSourceNode, ExecBatchSourceNodeOptions>;
+
+  using ExecBatchSchemaSourceNode::ExecBatchSchemaSourceNode;
+
+  static Result<ExecNode*> Make(ExecPlan* plan, std::vector<ExecNode*> inputs,
+                                const ExecNodeOptions& options) {
+    return ExecBatchSchemaSourceNode::Make(plan, inputs, options);
+  }
+
+  const char* kind_name() const override { return kKindName; }
+
+  static Result<arrow::AsyncGenerator<std::optional<ExecBatch>>> MakeGenerator(
+      Iterator<std::shared_ptr<ExecBatch>>& batch_it,
+      arrow::internal::Executor* io_executor, const std::shared_ptr<Schema>& schema) {
+    auto to_exec_batch =
+        [](const std::shared_ptr<ExecBatch>& batch) -> std::optional<ExecBatch> {
+      return batch == NULLPTR ? std::nullopt : std::optional<ExecBatch>(*batch);
+    };
+    auto exec_batch_it = MakeMapIterator(to_exec_batch, std::move(batch_it));
+    return MakeBackgroundGenerator(std::move(exec_batch_it), io_executor);
+  }
+
+  static const char kKindName[];
+};
+
+const char ExecBatchSourceNode::kKindName[] = "ExecBatchSourceNode";
+
+struct ArrayVectorSourceNode
+    : public SchemaSourceNode<ArrayVectorSourceNode, ArrayVectorSourceNodeOptions> {
+  using ArrayVectorSchemaSourceNode =
+      SchemaSourceNode<ArrayVectorSourceNode, ArrayVectorSourceNodeOptions>;
+
+  using ArrayVectorSchemaSourceNode::ArrayVectorSchemaSourceNode;
+
+  static Result<ExecNode*> Make(ExecPlan* plan, std::vector<ExecNode*> inputs,
+                                const ExecNodeOptions& options) {
+    return ArrayVectorSchemaSourceNode::Make(plan, inputs, options);
+  }
+
+  const char* kind_name() const override { return kKindName; }
+
+  static Result<arrow::AsyncGenerator<std::optional<ExecBatch>>> MakeGenerator(
+      Iterator<std::shared_ptr<ArrayVector>>& arrayvec_it,
+      arrow::internal::Executor* io_executor, const std::shared_ptr<Schema>& schema) {
+    auto to_exec_batch =
+        [](const std::shared_ptr<ArrayVector>& arrayvec) -> std::optional<ExecBatch> {
+      if (arrayvec == NULLPTR || arrayvec->size() == 0) {
+        return std::nullopt;
+      }
+      std::vector<Datum> datumvec;
+      for (const auto& array : *arrayvec) {
+        datumvec.push_back(Datum(array));
+      }
+      return std::optional<ExecBatch>(
+          ExecBatch(std::move(datumvec), (*arrayvec)[0]->length()));
+    };
+    auto exec_batch_it = MakeMapIterator(to_exec_batch, std::move(arrayvec_it));
+    return MakeBackgroundGenerator(std::move(exec_batch_it), io_executor);
+  }
+
+  static const char kKindName[];
+};
+
+const char ArrayVectorSourceNode::kKindName[] = "ArrayVectorSourceNode";
+
+Result<compute::ExecNode*> MakeNamedTableNode(compute::ExecPlan* plan,
+                                              std::vector<compute::ExecNode*> inputs,
+                                              const compute::ExecNodeOptions& options) {
+  return Status::Invalid(
+      "The named table node is for serialization purposes only and can never be "
+      "converted into an exec plan or executed");
+}
+
 }  // namespace
 
 namespace internal {
@@ -298,6 +491,12 @@ namespace internal {
 void RegisterSourceNode(ExecFactoryRegistry* registry) {
   DCHECK_OK(registry->AddFactory("source", SourceNode::Make));
   DCHECK_OK(registry->AddFactory("table_source", TableSourceNode::Make));
+  DCHECK_OK(registry->AddFactory("record_batch_source", RecordBatchSourceNode::Make));
+  DCHECK_OK(registry->AddFactory("record_batch_reader_source",
+                                 RecordBatchReaderSourceNode::Make));
+  DCHECK_OK(registry->AddFactory("exec_batch_source", ExecBatchSourceNode::Make));
+  DCHECK_OK(registry->AddFactory("array_vector_source", ArrayVectorSourceNode::Make));
+  DCHECK_OK(registry->AddFactory("named_table", MakeNamedTableNode));
 }
 
 }  // namespace internal
diff --git a/cpp/src/arrow/compute/exec/subtree_internal.h b/cpp/src/arrow/compute/exec/subtree_internal.h
index 72d419df225..9e55af6068f 100644
--- a/cpp/src/arrow/compute/exec/subtree_internal.h
+++ b/cpp/src/arrow/compute/exec/subtree_internal.h
@@ -18,13 +18,13 @@
 #pragma once
 
 #include <stdint.h>
+#include <optional>
 #include <string>
 #include <unordered_map>
 #include <unordered_set>
 #include <vector>
 
 #include "arrow/compute/exec/expression.h"
-#include "arrow/util/optional.h"
 
 namespace arrow {
 namespace compute {
@@ -64,7 +64,7 @@ struct SubtreeImpl {
   struct Encoded {
     // An external index identifying the corresponding object (e.g. a Fragment) of the
     // guarantee.
-    util::optional<int> index;
+    std::optional<int> index;
     // An encoded expression representing a guarantee.
     expression_codes guarantee;
   };
@@ -112,7 +112,7 @@ struct SubtreeImpl {
   void GenerateSubtrees(expression_codes guarantee, std::vector<Encoded>* encoded) {
     while (!guarantee.empty()) {
       if (subtree_exprs_.insert(guarantee).second) {
-        Encoded encoded_subtree{/*index=*/util::nullopt, guarantee};
+        Encoded encoded_subtree{/*index=*/std::nullopt, guarantee};
         encoded->push_back(std::move(encoded_subtree));
       }
       guarantee.resize(guarantee.size() - 1);
diff --git a/cpp/src/arrow/compute/exec/subtree_test.cc b/cpp/src/arrow/compute/exec/subtree_test.cc
index 97213104454..908af3be7ef 100644
--- a/cpp/src/arrow/compute/exec/subtree_test.cc
+++ b/cpp/src/arrow/compute/exec/subtree_test.cc
@@ -18,6 +18,7 @@
 #include <cstdint>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <vector>
 
 #include <gmock/gmock.h>
@@ -26,9 +27,12 @@
 #include "arrow/compute/exec/forest_internal.h"
 #include "arrow/compute/exec/subtree_internal.h"
 #include "arrow/testing/gtest_util.h"
-#include "arrow/util/string_view.h"
+#include "arrow/util/string.h"
 
 namespace arrow {
+
+using internal::StartsWith;
+
 namespace compute {
 
 using testing::ContainerEq;
@@ -94,18 +98,18 @@ struct TestPathTree {
 
 using PT = TestPathTree;
 
-util::string_view RemoveTrailingSlash(util::string_view key) {
+std::string_view RemoveTrailingSlash(std::string_view key) {
   while (!key.empty() && key.back() == '/') {
     key.remove_suffix(1);
   }
   return key;
 }
-bool IsAncestorOf(util::string_view ancestor, util::string_view descendant) {
+bool IsAncestorOf(std::string_view ancestor, std::string_view descendant) {
   // See filesystem/path_util.h
   ancestor = RemoveTrailingSlash(ancestor);
   if (ancestor == "") return true;
   descendant = RemoveTrailingSlash(descendant);
-  if (!descendant.starts_with(ancestor)) return false;
+  if (!StartsWith(descendant, ancestor)) return false;
   descendant.remove_prefix(ancestor.size());
   if (descendant.empty()) return true;
   return descendant.front() == '/';
@@ -327,9 +331,9 @@ TEST(Subtree, GetSubtreeExpression) {
   const auto code_a = tree.GetOrInsert(expr_a);
   const auto code_b = tree.GetOrInsert(expr_b);
   ASSERT_EQ(expr_a,
-            tree.GetSubtreeExpression(SubtreeImpl::Encoded{util::nullopt, {code_a}}));
+            tree.GetSubtreeExpression(SubtreeImpl::Encoded{std::nullopt, {code_a}}));
   ASSERT_EQ(expr_b, tree.GetSubtreeExpression(
-                        SubtreeImpl::Encoded{util::nullopt, {code_a, code_b}}));
+                        SubtreeImpl::Encoded{std::nullopt, {code_a, code_b}}));
 }
 
 class FakeFragment {
@@ -363,14 +367,14 @@ TEST(Subtree, EncodeFragments) {
   EXPECT_THAT(
       encoded,
       testing::UnorderedElementsAreArray({
-          SubtreeImpl::Encoded{util::make_optional<int>(0),
+          SubtreeImpl::Encoded{std::make_optional<int>(0),
                                SubtreeImpl::expression_codes({0, 1})},
-          SubtreeImpl::Encoded{util::make_optional<int>(1),
+          SubtreeImpl::Encoded{std::make_optional<int>(1),
                                SubtreeImpl::expression_codes({2, 3})},
-          SubtreeImpl::Encoded{util::nullopt, SubtreeImpl::expression_codes({0})},
-          SubtreeImpl::Encoded{util::nullopt, SubtreeImpl::expression_codes({2})},
-          SubtreeImpl::Encoded{util::nullopt, SubtreeImpl::expression_codes({0, 1})},
-          SubtreeImpl::Encoded{util::nullopt, SubtreeImpl::expression_codes({2, 3})},
+          SubtreeImpl::Encoded{std::nullopt, SubtreeImpl::expression_codes({0})},
+          SubtreeImpl::Encoded{std::nullopt, SubtreeImpl::expression_codes({2})},
+          SubtreeImpl::Encoded{std::nullopt, SubtreeImpl::expression_codes({0, 1})},
+          SubtreeImpl::Encoded{std::nullopt, SubtreeImpl::expression_codes({2, 3})},
       }));
 }
 }  // namespace compute
diff --git a/cpp/src/arrow/compute/exec/swiss_join.cc b/cpp/src/arrow/compute/exec/swiss_join.cc
index 5b01edb1198..fee3c5f79db 100644
--- a/cpp/src/arrow/compute/exec/swiss_join.cc
+++ b/cpp/src/arrow/compute/exec/swiss_join.cc
@@ -2022,7 +2022,7 @@ Status JoinProbeProcessor::OnFinished() {
 
 class SwissJoin : public HashJoinImpl {
  public:
-  Status Init(ExecContext* ctx, JoinType join_type, size_t num_threads,
+  Status Init(QueryContext* ctx, JoinType join_type, size_t num_threads,
               const HashJoinProjectionMaps* proj_map_left,
               const HashJoinProjectionMaps* proj_map_right,
               std::vector<JoinKeyCmp> key_cmp, Expression filter,
@@ -2067,8 +2067,6 @@ class SwissJoin : public HashJoinImpl {
     for (int i = 0; i < num_threads_; ++i) {
       local_states_[i].hash_table_ready = false;
       local_states_[i].num_output_batches = 0;
-      RETURN_NOT_OK(CancelIfNotOK(local_states_[i].temp_stack.Init(
-          pool_, 1024 + 64 * util::MiniBatch::kMiniBatchLength)));
       local_states_[i].materialize.Init(pool_, proj_map_left, proj_map_right);
     }
 
@@ -2116,10 +2114,12 @@ class SwissJoin : public HashJoinImpl {
 
     ExecBatch keypayload_batch;
     ARROW_ASSIGN_OR_RAISE(keypayload_batch, KeyPayloadFromInput(/*side=*/0, &batch));
+    ARROW_ASSIGN_OR_RAISE(util::TempVectorStack * temp_stack,
+                          ctx_->GetTempStack(thread_index));
 
-    return CancelIfNotOK(probe_processor_.OnNextBatch(
-        thread_index, keypayload_batch, &local_states_[thread_index].temp_stack,
-        &local_states_[thread_index].temp_column_arrays));
+    return CancelIfNotOK(
+        probe_processor_.OnNextBatch(thread_index, keypayload_batch, temp_stack,
+                                     &local_states_[thread_index].temp_column_arrays));
   }
 
   Status ProbingFinished(size_t thread_index) override {
@@ -2225,9 +2225,11 @@ class SwissJoin : public HashJoinImpl {
             input_batch.values[schema->num_cols(HashJoinProjection::KEY) + icol];
       }
     }
+    ARROW_ASSIGN_OR_RAISE(util::TempVectorStack * temp_stack,
+                          ctx_->GetTempStack(thread_id));
     RETURN_NOT_OK(CancelIfNotOK(hash_table_build_.PushNextBatch(
         static_cast<int64_t>(thread_id), key_batch, no_payload ? nullptr : &payload_batch,
-        &local_states_[thread_id].temp_stack)));
+        temp_stack)));
 
     // Release input batch
     //
@@ -2259,7 +2261,9 @@ class SwissJoin : public HashJoinImpl {
 
   Status MergeFinished(size_t thread_id) {
     RETURN_NOT_OK(status());
-    hash_table_build_.FinishPrtnMerge(&local_states_[thread_id].temp_stack);
+    ARROW_ASSIGN_OR_RAISE(util::TempVectorStack * temp_stack,
+                          ctx_->GetTempStack(thread_id));
+    hash_table_build_.FinishPrtnMerge(temp_stack);
     return CancelIfNotOK(OnBuildHashTableFinished(static_cast<int64_t>(thread_id)));
   }
 
@@ -2311,7 +2315,8 @@ class SwissJoin : public HashJoinImpl {
         std::min((task_id + 1) * kNumRowsPerScanTask, hash_table_.num_rows());
     // Get thread index and related temp vector stack
     //
-    util::TempVectorStack* temp_stack = &local_states_[thread_id].temp_stack;
+    ARROW_ASSIGN_OR_RAISE(util::TempVectorStack * temp_stack,
+                          ctx_->GetTempStack(thread_id));
 
     // Split into mini-batches
     //
@@ -2467,7 +2472,7 @@ class SwissJoin : public HashJoinImpl {
 
   static constexpr int kNumRowsPerScanTask = 512 * 1024;
 
-  ExecContext* ctx_;
+  QueryContext* ctx_;
   int64_t hardware_flags_;
   MemoryPool* pool_;
   int num_threads_;
@@ -2489,7 +2494,6 @@ class SwissJoin : public HashJoinImpl {
 
   struct ThreadLocalState {
     JoinResultMaterialize materialize;
-    util::TempVectorStack temp_stack;
     std::vector<KeyColumnArray> temp_column_arrays;
     int64_t num_output_batches;
     bool hash_table_ready;
diff --git a/cpp/src/arrow/compute/exec/test_util.cc b/cpp/src/arrow/compute/exec/test_util.cc
index cc26143179a..72ddbbeb0d4 100644
--- a/cpp/src/arrow/compute/exec/test_util.cc
+++ b/cpp/src/arrow/compute/exec/test_util.cc
@@ -25,6 +25,7 @@
 #include <iterator>
 #include <memory>
 #include <mutex>
+#include <optional>
 #include <string>
 #include <unordered_set>
 #include <utility>
@@ -46,7 +47,6 @@
 #include "arrow/util/async_generator.h"
 #include "arrow/util/iterator.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/unreachable.h"
 #include "arrow/util/vector.h"
 
@@ -142,8 +142,7 @@ ExecNode* MakeDummyNode(ExecPlan* plan, std::string label, std::vector<ExecNode*
   return node;
 }
 
-ExecBatch ExecBatchFromJSON(const std::vector<TypeHolder>& types,
-                            util::string_view json) {
+ExecBatch ExecBatchFromJSON(const std::vector<TypeHolder>& types, std::string_view json) {
   auto fields = ::arrow::internal::MapVector(
       [](const TypeHolder& th) { return field("", th.GetSharedPtr()); }, types);
 
@@ -153,7 +152,7 @@ ExecBatch ExecBatchFromJSON(const std::vector<TypeHolder>& types,
 }
 
 ExecBatch ExecBatchFromJSON(const std::vector<TypeHolder>& types,
-                            const std::vector<ArgShape>& shapes, util::string_view json) {
+                            const std::vector<ArgShape>& shapes, std::string_view json) {
   DCHECK_EQ(types.size(), shapes.size());
 
   ExecBatch batch = ExecBatchFromJSON(types, json);
@@ -180,17 +179,17 @@ Future<> StartAndFinish(ExecPlan* plan) {
 }
 
 Future<std::vector<ExecBatch>> StartAndCollect(
-    ExecPlan* plan, AsyncGenerator<util::optional<ExecBatch>> gen) {
+    ExecPlan* plan, AsyncGenerator<std::optional<ExecBatch>> gen) {
   RETURN_NOT_OK(plan->Validate());
   RETURN_NOT_OK(plan->StartProducing());
 
   auto collected_fut = CollectAsyncGenerator(gen);
 
-  return AllComplete({plan->finished(), Future<>(collected_fut)})
+  return AllFinished({plan->finished(), Future<>(collected_fut)})
       .Then([collected_fut]() -> Result<std::vector<ExecBatch>> {
         ARROW_ASSIGN_OR_RAISE(auto collected, collected_fut.result());
         return ::arrow::internal::MapVector(
-            [](util::optional<ExecBatch> batch) { return std::move(*batch); },
+            [](std::optional<ExecBatch> batch) { return batch.value_or(ExecBatch()); },
             std::move(collected));
       });
 }
@@ -219,25 +218,25 @@ BatchesWithSchema MakeNestedBatches() {
 }
 
 BatchesWithSchema MakeRandomBatches(const std::shared_ptr<Schema>& schema,
-                                    int num_batches, int batch_size) {
+                                    int num_batches, int batch_size, int64_t alignment,
+                                    MemoryPool* memory_pool) {
   BatchesWithSchema out;
 
   random::RandomArrayGenerator rng(42);
   out.batches.resize(num_batches);
 
   for (int i = 0; i < num_batches; ++i) {
-    out.batches[i] = ExecBatch(*rng.BatchOf(schema->fields(), batch_size));
-    // add a tag scalar to ensure the batches are unique
-    out.batches[i].values.emplace_back(i);
+    out.batches[i] =
+        ExecBatch(*rng.BatchOf(schema->fields(), batch_size, alignment, memory_pool));
   }
 
   out.schema = schema;
   return out;
 }
 
-BatchesWithSchema MakeBatchesFromString(
-    const std::shared_ptr<Schema>& schema,
-    const std::vector<util::string_view>& json_strings, int multiplicity) {
+BatchesWithSchema MakeBatchesFromString(const std::shared_ptr<Schema>& schema,
+                                        const std::vector<std::string_view>& json_strings,
+                                        int multiplicity) {
   BatchesWithSchema out_batches{{}, schema};
 
   std::vector<TypeHolder> types;
@@ -259,18 +258,61 @@ BatchesWithSchema MakeBatchesFromString(
   return out_batches;
 }
 
+Result<std::vector<std::shared_ptr<ArrayVector>>> ToArrayVectors(
+    const BatchesWithSchema& batches_with_schema) {
+  std::vector<std::shared_ptr<ArrayVector>> arrayvecs;
+  for (auto batch : batches_with_schema.batches) {
+    ARROW_ASSIGN_OR_RAISE(auto record_batch,
+                          batch.ToRecordBatch(batches_with_schema.schema));
+    arrayvecs.push_back(std::make_shared<ArrayVector>(record_batch->columns()));
+  }
+  return arrayvecs;
+}
+
+Result<std::vector<std::shared_ptr<ExecBatch>>> ToExecBatches(
+    const BatchesWithSchema& batches_with_schema) {
+  std::vector<std::shared_ptr<ExecBatch>> exec_batches;
+  for (auto batch : batches_with_schema.batches) {
+    exec_batches.push_back(std::make_shared<ExecBatch>(batch));
+  }
+  return exec_batches;
+}
+
+Result<std::vector<std::shared_ptr<RecordBatch>>> ToRecordBatches(
+    const BatchesWithSchema& batches_with_schema) {
+  std::vector<std::shared_ptr<RecordBatch>> record_batches;
+  for (auto batch : batches_with_schema.batches) {
+    ARROW_ASSIGN_OR_RAISE(auto record_batch,
+                          batch.ToRecordBatch(batches_with_schema.schema));
+    record_batches.push_back(std::move(record_batch));
+  }
+  return record_batches;
+}
+
+Result<std::shared_ptr<RecordBatchReader>> ToRecordBatchReader(
+    const BatchesWithSchema& batches_with_schema) {
+  std::vector<std::shared_ptr<RecordBatch>> record_batches;
+  for (auto batch : batches_with_schema.batches) {
+    ARROW_ASSIGN_OR_RAISE(auto record_batch,
+                          batch.ToRecordBatch(batches_with_schema.schema));
+    record_batches.push_back(std::move(record_batch));
+  }
+  ARROW_ASSIGN_OR_RAISE(auto table, Table::FromRecordBatches(std::move(record_batches)));
+  return std::make_shared<arrow::TableBatchReader>(std::move(table));
+}
+
 Result<std::shared_ptr<Table>> SortTableOnAllFields(const std::shared_ptr<Table>& tab) {
   std::vector<SortKey> sort_keys;
-  for (auto&& f : tab->schema()->fields()) {
-    sort_keys.emplace_back(f->name());
+  for (int i = 0; i < tab->num_columns(); i++) {
+    sort_keys.emplace_back(i);
   }
   ARROW_ASSIGN_OR_RAISE(auto sort_ids, SortIndices(tab, SortOptions(sort_keys)));
   ARROW_ASSIGN_OR_RAISE(auto tab_sorted, Take(tab, sort_ids));
   return tab_sorted.table();
 }
 
-void AssertTablesEqual(const std::shared_ptr<Table>& exp,
-                       const std::shared_ptr<Table>& act) {
+void AssertTablesEqualIgnoringOrder(const std::shared_ptr<Table>& exp,
+                                    const std::shared_ptr<Table>& act) {
   ASSERT_EQ(exp->num_columns(), act->num_columns());
   if (exp->num_rows() == 0) {
     ASSERT_EQ(exp->num_rows(), act->num_rows());
@@ -283,12 +325,12 @@ void AssertTablesEqual(const std::shared_ptr<Table>& exp,
   }
 }
 
-void AssertExecBatchesEqual(const std::shared_ptr<Schema>& schema,
-                            const std::vector<ExecBatch>& exp,
-                            const std::vector<ExecBatch>& act) {
+void AssertExecBatchesEqualIgnoringOrder(const std::shared_ptr<Schema>& schema,
+                                         const std::vector<ExecBatch>& exp,
+                                         const std::vector<ExecBatch>& act) {
   ASSERT_OK_AND_ASSIGN(auto exp_tab, TableFromExecBatches(schema, exp));
   ASSERT_OK_AND_ASSIGN(auto act_tab, TableFromExecBatches(schema, act));
-  AssertTablesEqual(exp_tab, act_tab);
+  AssertTablesEqualIgnoringOrder(exp_tab, act_tab);
 }
 
 template <typename T>
@@ -424,7 +466,7 @@ void PrintTo(const Declaration& decl, std::ostream* os) {
 
   *os << "{";
   for (const auto& input : decl.inputs) {
-    if (auto decl = util::get_if<Declaration>(&input)) {
+    if (auto decl = std::get_if<Declaration>(&input)) {
       PrintTo(*decl, os);
     }
   }
diff --git a/cpp/src/arrow/compute/exec/test_util.h b/cpp/src/arrow/compute/exec/test_util.h
index ac9a4ae4ced..1eb50223249 100644
--- a/cpp/src/arrow/compute/exec/test_util.h
+++ b/cpp/src/arrow/compute/exec/test_util.h
@@ -23,6 +23,7 @@
 #include <functional>
 #include <random>
 #include <string>
+#include <string_view>
 #include <vector>
 
 #include "arrow/compute/exec.h"
@@ -31,7 +32,6 @@
 #include "arrow/testing/visibility.h"
 #include "arrow/util/async_generator.h"
 #include "arrow/util/pcg_random.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 namespace compute {
@@ -45,7 +45,7 @@ ExecNode* MakeDummyNode(ExecPlan* plan, std::string label, std::vector<ExecNode*
                         int num_outputs, StartProducingFunc = {}, StopProducingFunc = {});
 
 ARROW_TESTING_EXPORT
-ExecBatch ExecBatchFromJSON(const std::vector<TypeHolder>& types, util::string_view json);
+ExecBatch ExecBatchFromJSON(const std::vector<TypeHolder>& types, std::string_view json);
 
 /// \brief Shape qualifier for value types. In certain instances
 /// (e.g. "map_lookup" kernel), an argument may only be a scalar, where in
@@ -54,17 +54,17 @@ enum class ArgShape { ANY, ARRAY, SCALAR };
 
 ARROW_TESTING_EXPORT
 ExecBatch ExecBatchFromJSON(const std::vector<TypeHolder>& types,
-                            const std::vector<ArgShape>& shapes, util::string_view json);
+                            const std::vector<ArgShape>& shapes, std::string_view json);
 
 struct BatchesWithSchema {
   std::vector<ExecBatch> batches;
   std::shared_ptr<Schema> schema;
 
-  AsyncGenerator<util::optional<ExecBatch>> gen(bool parallel, bool slow) const {
+  AsyncGenerator<std::optional<ExecBatch>> gen(bool parallel, bool slow) const {
     auto opt_batches = ::arrow::internal::MapVector(
-        [](ExecBatch batch) { return util::make_optional(std::move(batch)); }, batches);
+        [](ExecBatch batch) { return std::make_optional(std::move(batch)); }, batches);
 
-    AsyncGenerator<util::optional<ExecBatch>> gen;
+    AsyncGenerator<std::optional<ExecBatch>> gen;
 
     if (parallel) {
       // emulate batches completing initial decode-after-scan on a cpu thread
@@ -81,7 +81,7 @@ struct BatchesWithSchema {
 
     if (slow) {
       gen =
-          MakeMappedGenerator(std::move(gen), [](const util::optional<ExecBatch>& batch) {
+          MakeMappedGenerator(std::move(gen), [](const std::optional<ExecBatch>& batch) {
             SleepABit();
             return batch;
           });
@@ -96,7 +96,7 @@ Future<> StartAndFinish(ExecPlan* plan);
 
 ARROW_TESTING_EXPORT
 Future<std::vector<ExecBatch>> StartAndCollect(
-    ExecPlan* plan, AsyncGenerator<util::optional<ExecBatch>> gen);
+    ExecPlan* plan, AsyncGenerator<std::optional<ExecBatch>> gen);
 
 ARROW_TESTING_EXPORT
 BatchesWithSchema MakeBasicBatches();
@@ -106,24 +106,54 @@ BatchesWithSchema MakeNestedBatches();
 
 ARROW_TESTING_EXPORT
 BatchesWithSchema MakeRandomBatches(const std::shared_ptr<Schema>& schema,
-                                    int num_batches = 10, int batch_size = 4);
+                                    int num_batches = 10, int batch_size = 4,
+                                    int64_t alignment = kDefaultBufferAlignment,
+                                    MemoryPool* memory_pool = nullptr);
 
 ARROW_TESTING_EXPORT
-BatchesWithSchema MakeBatchesFromString(
-    const std::shared_ptr<Schema>& schema,
-    const std::vector<util::string_view>& json_strings, int multiplicity = 1);
+BatchesWithSchema MakeBatchesFromString(const std::shared_ptr<Schema>& schema,
+                                        const std::vector<std::string_view>& json_strings,
+                                        int multiplicity = 1);
+
+ARROW_TESTING_EXPORT
+Result<std::vector<std::shared_ptr<ArrayVector>>> ToArrayVectors(
+    const BatchesWithSchema& batches_with_schema);
+
+ARROW_TESTING_EXPORT
+Result<std::vector<std::shared_ptr<ExecBatch>>> ToExecBatches(
+    const BatchesWithSchema& batches);
+
+ARROW_TESTING_EXPORT
+Result<std::vector<std::shared_ptr<RecordBatch>>> ToRecordBatches(
+    const BatchesWithSchema& batches);
+
+ARROW_TESTING_EXPORT
+Result<std::shared_ptr<RecordBatchReader>> ToRecordBatchReader(
+    const BatchesWithSchema& batches_with_schema);
+
+ARROW_TESTING_EXPORT
+Result<std::vector<std::shared_ptr<ArrayVector>>> ToArrayVectors(
+    const BatchesWithSchema& batches_with_schema);
+
+ARROW_TESTING_EXPORT
+Result<std::vector<std::shared_ptr<ExecBatch>>> ToExecBatches(
+    const BatchesWithSchema& batches);
+
+ARROW_TESTING_EXPORT
+Result<std::vector<std::shared_ptr<RecordBatch>>> ToRecordBatches(
+    const BatchesWithSchema& batches);
 
 ARROW_TESTING_EXPORT
 Result<std::shared_ptr<Table>> SortTableOnAllFields(const std::shared_ptr<Table>& tab);
 
 ARROW_TESTING_EXPORT
-void AssertTablesEqual(const std::shared_ptr<Table>& exp,
-                       const std::shared_ptr<Table>& act);
+void AssertTablesEqualIgnoringOrder(const std::shared_ptr<Table>& exp,
+                                    const std::shared_ptr<Table>& act);
 
 ARROW_TESTING_EXPORT
-void AssertExecBatchesEqual(const std::shared_ptr<Schema>& schema,
-                            const std::vector<ExecBatch>& exp,
-                            const std::vector<ExecBatch>& act);
+void AssertExecBatchesEqualIgnoringOrder(const std::shared_ptr<Schema>& schema,
+                                         const std::vector<ExecBatch>& exp,
+                                         const std::vector<ExecBatch>& act);
 
 ARROW_TESTING_EXPORT
 bool operator==(const Declaration&, const Declaration&);
diff --git a/cpp/src/arrow/compute/exec/tpch_benchmark.cc b/cpp/src/arrow/compute/exec/tpch_benchmark.cc
index 54ac7cbdbf5..2adee26a425 100644
--- a/cpp/src/arrow/compute/exec/tpch_benchmark.cc
+++ b/cpp/src/arrow/compute/exec/tpch_benchmark.cc
@@ -22,17 +22,16 @@
 #include "arrow/compute/exec/test_util.h"
 #include "arrow/compute/exec/tpch_node.h"
 #include "arrow/testing/future_util.h"
-#include "arrow/util/make_unique.h"
+
+#include <memory>
 
 namespace arrow {
 namespace compute {
 namespace internal {
 
-std::shared_ptr<ExecPlan> Plan_Q1(AsyncGenerator<util::optional<ExecBatch>>* sink_gen,
+std::shared_ptr<ExecPlan> Plan_Q1(AsyncGenerator<std::optional<ExecBatch>>* sink_gen,
                                   int scale_factor) {
-  ExecContext* ctx = default_exec_context();
-  *ctx = ExecContext(default_memory_pool(), arrow::internal::GetCpuThreadPool());
-  std::shared_ptr<ExecPlan> plan = *ExecPlan::Make(ctx);
+  std::shared_ptr<ExecPlan> plan = *ExecPlan::Make();
   std::unique_ptr<TpchGen> gen =
       *TpchGen::Make(plan.get(), static_cast<double>(scale_factor));
 
@@ -109,7 +108,7 @@ std::shared_ptr<ExecPlan> Plan_Q1(AsyncGenerator<util::optional<ExecBatch>>* sin
 static void BM_Tpch_Q1(benchmark::State& st) {
   for (auto _ : st) {
     st.PauseTiming();
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+    AsyncGenerator<std::optional<ExecBatch>> sink_gen;
     std::shared_ptr<ExecPlan> plan = Plan_Q1(&sink_gen, static_cast<int>(st.range(0)));
     st.ResumeTiming();
     auto fut = StartAndCollect(plan.get(), sink_gen);
diff --git a/cpp/src/arrow/compute/exec/tpch_node.cc b/cpp/src/arrow/compute/exec/tpch_node.cc
index d19f20eea7c..afff52beaf0 100644
--- a/cpp/src/arrow/compute/exec/tpch_node.cc
+++ b/cpp/src/arrow/compute/exec/tpch_node.cc
@@ -16,14 +16,6 @@
 // under the License.
 
 #include "arrow/compute/exec/tpch_node.h"
-#include "arrow/buffer.h"
-#include "arrow/compute/exec/exec_plan.h"
-#include "arrow/util/formatting.h"
-#include "arrow/util/future.h"
-#include "arrow/util/io_util.h"
-#include "arrow/util/make_unique.h"
-#include "arrow/util/pcg_random.h"
-#include "arrow/util/unreachable.h"
 
 #include <algorithm>
 #include <bitset>
@@ -32,10 +24,25 @@
 #include <mutex>
 #include <queue>
 #include <random>
+#include <unordered_map>
 #include <unordered_set>
 #include <vector>
 
+#include "arrow/buffer.h"
+#include "arrow/compute/exec.h"
+#include "arrow/compute/exec/exec_plan.h"
+#include "arrow/compute/exec/query_context.h"
+#include "arrow/datum.h"
+#include "arrow/util/async_util.h"
+#include "arrow/util/formatting.h"
+#include "arrow/util/future.h"
+#include "arrow/util/io_util.h"
+#include "arrow/util/logging.h"
+#include "arrow/util/pcg_random.h"
+#include "arrow/util/unreachable.h"
+
 namespace arrow {
+
 using internal::checked_cast;
 using internal::GetRandomSeed;
 
@@ -663,7 +670,7 @@ class PartAndPartSupplierGenerator {
     return SetOutputColumns(cols, kPartsuppTypes, kPartsuppNameMap, partsupp_cols_);
   }
 
-  Result<util::optional<ExecBatch>> NextPartBatch(size_t thread_index) {
+  Result<std::optional<ExecBatch>> NextPartBatch(size_t thread_index) {
     ThreadLocalData& tld = thread_local_data_[thread_index];
     {
       std::lock_guard<std::mutex> lock(part_output_queue_mutex_);
@@ -672,7 +679,7 @@ class PartAndPartSupplierGenerator {
         part_output_queue_.pop();
         return std::move(batch);
       } else if (part_rows_generated_ == part_rows_to_generate_) {
-        return util::nullopt;
+        return std::nullopt;
       } else {
         tld.partkey_start = part_rows_generated_;
         tld.part_to_generate =
@@ -718,7 +725,7 @@ class PartAndPartSupplierGenerator {
     return ExecBatch::Make(std::move(part_result));
   }
 
-  Result<util::optional<ExecBatch>> NextPartSuppBatch(size_t thread_index) {
+  Result<std::optional<ExecBatch>> NextPartSuppBatch(size_t thread_index) {
     ThreadLocalData& tld = thread_local_data_[thread_index];
     {
       std::lock_guard<std::mutex> lock(partsupp_output_queue_mutex_);
@@ -731,7 +738,7 @@ class PartAndPartSupplierGenerator {
     {
       std::lock_guard<std::mutex> lock(part_output_queue_mutex_);
       if (part_rows_generated_ == part_rows_to_generate_) {
-        return util::nullopt;
+        return std::nullopt;
       } else {
         tld.partkey_start = part_rows_generated_;
         tld.part_to_generate =
@@ -1323,7 +1330,7 @@ class OrdersAndLineItemGenerator {
     return SetOutputColumns(cols, kLineitemTypes, kLineitemNameMap, lineitem_cols_);
   }
 
-  Result<util::optional<ExecBatch>> NextOrdersBatch(size_t thread_index) {
+  Result<std::optional<ExecBatch>> NextOrdersBatch(size_t thread_index) {
     ThreadLocalData& tld = thread_local_data_[thread_index];
     {
       std::lock_guard<std::mutex> lock(orders_output_queue_mutex_);
@@ -1332,7 +1339,7 @@ class OrdersAndLineItemGenerator {
         orders_output_queue_.pop();
         return std::move(batch);
       } else if (orders_rows_generated_ == orders_rows_to_generate_) {
-        return util::nullopt;
+        return std::nullopt;
       } else {
         tld.orderkey_start = orders_rows_generated_;
         tld.orders_to_generate =
@@ -1378,7 +1385,7 @@ class OrdersAndLineItemGenerator {
     return ExecBatch::Make(std::move(orders_result));
   }
 
-  Result<util::optional<ExecBatch>> NextLineItemBatch(size_t thread_index) {
+  Result<std::optional<ExecBatch>> NextLineItemBatch(size_t thread_index) {
     ThreadLocalData& tld = thread_local_data_[thread_index];
     ExecBatch queued;
     bool from_queue = false;
@@ -1400,7 +1407,7 @@ class OrdersAndLineItemGenerator {
       std::lock_guard<std::mutex> lock(orders_output_queue_mutex_);
       if (orders_rows_generated_ == orders_rows_to_generate_) {
         if (from_queue) return std::move(queued);
-        return util::nullopt;
+        return std::nullopt;
       }
 
       tld.orderkey_start = orders_rows_generated_;
@@ -2708,7 +2715,7 @@ class PartGenerator : public TpchTableGenerator {
  private:
   Status ProduceCallback(size_t thread_index) {
     if (done_.load()) return Status::OK();
-    ARROW_ASSIGN_OR_RAISE(util::optional<ExecBatch> maybe_batch,
+    ARROW_ASSIGN_OR_RAISE(std::optional<ExecBatch> maybe_batch,
                           gen_->NextPartBatch(thread_index));
     if (!maybe_batch.has_value()) {
       int64_t batches_generated = gen_->part_batches_generated();
@@ -2770,7 +2777,7 @@ class PartSuppGenerator : public TpchTableGenerator {
  private:
   Status ProduceCallback(size_t thread_index) {
     if (done_.load()) return Status::OK();
-    ARROW_ASSIGN_OR_RAISE(util::optional<ExecBatch> maybe_batch,
+    ARROW_ASSIGN_OR_RAISE(std::optional<ExecBatch> maybe_batch,
                           gen_->NextPartSuppBatch(thread_index));
     if (!maybe_batch.has_value()) {
       int64_t batches_generated = gen_->partsupp_batches_generated();
@@ -3089,7 +3096,7 @@ class OrdersGenerator : public TpchTableGenerator {
  private:
   Status ProduceCallback(size_t thread_index) {
     if (done_.load()) return Status::OK();
-    ARROW_ASSIGN_OR_RAISE(util::optional<ExecBatch> maybe_batch,
+    ARROW_ASSIGN_OR_RAISE(std::optional<ExecBatch> maybe_batch,
                           gen_->NextOrdersBatch(thread_index));
     if (!maybe_batch.has_value()) {
       int64_t batches_generated = gen_->orders_batches_generated();
@@ -3151,7 +3158,7 @@ class LineitemGenerator : public TpchTableGenerator {
  private:
   Status ProduceCallback(size_t thread_index) {
     if (done_.load()) return Status::OK();
-    ARROW_ASSIGN_OR_RAISE(util::optional<ExecBatch> maybe_batch,
+    ARROW_ASSIGN_OR_RAISE(std::optional<ExecBatch> maybe_batch,
                           gen_->NextLineItemBatch(thread_index));
     if (!maybe_batch.has_value()) {
       int64_t batches_generated = gen_->lineitem_batches_generated();
@@ -3374,13 +3381,18 @@ class TpchNode : public ExecNode {
   [[noreturn]] void InputFinished(ExecNode*, int) override { NoInputs(); }
 
   Status StartProducing() override {
-    return generator_->StartProducing(
-        plan_->max_concurrency(),
+    num_running_++;
+    RETURN_NOT_OK(generator_->StartProducing(
+        plan_->query_context()->max_concurrency(),
         [this](ExecBatch batch) { this->OutputBatchCallback(std::move(batch)); },
         [this](int64_t num_batches) { this->FinishedCallback(num_batches); },
         [this](std::function<Status(size_t)> func) -> Status {
           return this->ScheduleTaskCallback(std::move(func));
-        });
+        }));
+    if (--num_running_ == 0) {
+      finished_.MarkFinished(Status::OK());
+    }
+    return Status::OK();
   }
 
   void PauseProducing(ExecNode* output, int32_t counter) override {
@@ -3408,23 +3420,29 @@ class TpchNode : public ExecNode {
 
   void FinishedCallback(int64_t total_num_batches) {
     outputs_[0]->InputFinished(this, static_cast<int>(total_num_batches));
-    finished_.MarkFinished();
+    finished_generating_.store(true);
   }
 
   Status ScheduleTaskCallback(std::function<Status(size_t)> func) {
-    if (finished_.is_finished()) return Status::OK();
-    return plan_->ScheduleTask([this, func](size_t thread_index) {
+    if (finished_generating_.load()) return Status::OK();
+    num_running_++;
+    return plan_->query_context()->ScheduleTask([this, func](size_t thread_index) {
       Status status = func(thread_index);
       if (!status.ok()) {
         StopProducing();
         ErrorIfNotOk(status);
       }
+      if (--num_running_ == 0) {
+        finished_.MarkFinished(Status::OK());
+      }
       return status;
     });
   }
 
   const char* name_;
   std::unique_ptr<TpchTableGenerator> generator_;
+  std::atomic<bool> finished_generating_{false};
+  std::atomic<int> num_running_{0};
 };
 
 class TpchGenImpl : public TpchGen {
@@ -3459,7 +3477,7 @@ class TpchGenImpl : public TpchGen {
 template <typename Generator>
 Result<ExecNode*> TpchGenImpl::CreateNode(const char* name,
                                           std::vector<std::string> columns) {
-  std::unique_ptr<Generator> generator = arrow::internal::make_unique<Generator>();
+  std::unique_ptr<Generator> generator = std::make_unique<Generator>();
   RETURN_NOT_OK(generator->Init(std::move(columns), scale_factor_, batch_size_,
                                 kSeedDist(seed_rng_)));
   return plan_->EmplaceNode<TpchNode>(plan_, name, std::move(generator));
@@ -3474,7 +3492,7 @@ Result<ExecNode*> TpchGenImpl::Part(std::vector<std::string> columns) {
     part_and_part_supp_generator_ = std::make_shared<PartAndPartSupplierGenerator>();
   }
   std::unique_ptr<PartGenerator> generator =
-      arrow::internal::make_unique<PartGenerator>(part_and_part_supp_generator_);
+      std::make_unique<PartGenerator>(part_and_part_supp_generator_);
   RETURN_NOT_OK(generator->Init(std::move(columns), scale_factor_, batch_size_,
                                 kSeedDist(seed_rng_)));
   return plan_->EmplaceNode<TpchNode>(plan_, "Part", std::move(generator));
@@ -3485,7 +3503,7 @@ Result<ExecNode*> TpchGenImpl::PartSupp(std::vector<std::string> columns) {
     part_and_part_supp_generator_ = std::make_shared<PartAndPartSupplierGenerator>();
   }
   std::unique_ptr<PartSuppGenerator> generator =
-      arrow::internal::make_unique<PartSuppGenerator>(part_and_part_supp_generator_);
+      std::make_unique<PartSuppGenerator>(part_and_part_supp_generator_);
   RETURN_NOT_OK(generator->Init(std::move(columns), scale_factor_, batch_size_,
                                 kSeedDist(seed_rng_)));
   return plan_->EmplaceNode<TpchNode>(plan_, "PartSupp", std::move(generator));
@@ -3500,7 +3518,7 @@ Result<ExecNode*> TpchGenImpl::Orders(std::vector<std::string> columns) {
     orders_and_line_item_generator_ = std::make_shared<OrdersAndLineItemGenerator>();
   }
   std::unique_ptr<OrdersGenerator> generator =
-      arrow::internal::make_unique<OrdersGenerator>(orders_and_line_item_generator_);
+      std::make_unique<OrdersGenerator>(orders_and_line_item_generator_);
   RETURN_NOT_OK(generator->Init(std::move(columns), scale_factor_, batch_size_,
                                 kSeedDist(seed_rng_)));
   return plan_->EmplaceNode<TpchNode>(plan_, "Orders", std::move(generator));
@@ -3511,7 +3529,7 @@ Result<ExecNode*> TpchGenImpl::Lineitem(std::vector<std::string> columns) {
     orders_and_line_item_generator_ = std::make_shared<OrdersAndLineItemGenerator>();
   }
   std::unique_ptr<LineitemGenerator> generator =
-      arrow::internal::make_unique<LineitemGenerator>(orders_and_line_item_generator_);
+      std::make_unique<LineitemGenerator>(orders_and_line_item_generator_);
   RETURN_NOT_OK(generator->Init(std::move(columns), scale_factor_, batch_size_,
                                 kSeedDist(seed_rng_)));
   return plan_->EmplaceNode<TpchNode>(plan_, "Lineitem", std::move(generator));
@@ -3529,9 +3547,9 @@ Result<ExecNode*> TpchGenImpl::Region(std::vector<std::string> columns) {
 
 Result<std::unique_ptr<TpchGen>> TpchGen::Make(ExecPlan* plan, double scale_factor,
                                                int64_t batch_size,
-                                               util::optional<int64_t> seed) {
+                                               std::optional<int64_t> seed) {
   if (!seed.has_value()) seed = GetRandomSeed();
-  return std::unique_ptr<TpchGen>(new TpchGenImpl(plan, scale_factor, batch_size, *seed));
+  return std::make_unique<TpchGenImpl>(plan, scale_factor, batch_size, *seed);
 }
 
 }  // namespace internal
diff --git a/cpp/src/arrow/compute/exec/tpch_node.h b/cpp/src/arrow/compute/exec/tpch_node.h
index fb9376982b1..061b66ca436 100644
--- a/cpp/src/arrow/compute/exec/tpch_node.h
+++ b/cpp/src/arrow/compute/exec/tpch_node.h
@@ -18,13 +18,13 @@
 #pragma once
 
 #include <memory>
+#include <optional>
 #include <string>
 #include <vector>
 
 #include "arrow/compute/type_fwd.h"
 #include "arrow/result.h"
 #include "arrow/status.h"
-#include "arrow/util/optional.h"
 
 namespace arrow {
 namespace compute {
@@ -44,7 +44,7 @@ class ARROW_EXPORT TpchGen {
    */
   static Result<std::unique_ptr<TpchGen>> Make(
       ExecPlan* plan, double scale_factor = 1.0, int64_t batch_size = 4096,
-      util::optional<int64_t> seed = util::nullopt);
+      std::optional<int64_t> seed = std::nullopt);
 
   // The below methods will create and add an ExecNode to the plan that generates
   // data for the desired table. If columns is empty, all columns will be generated.
diff --git a/cpp/src/arrow/compute/exec/tpch_node_test.cc b/cpp/src/arrow/compute/exec/tpch_node_test.cc
index fc26ce90c2e..fb1b990c46a 100644
--- a/cpp/src/arrow/compute/exec/tpch_node_test.cc
+++ b/cpp/src/arrow/compute/exec/tpch_node_test.cc
@@ -17,6 +17,12 @@
 
 #include <gmock/gmock-matchers.h>
 
+#include <cctype>
+#include <memory>
+#include <regex>
+#include <string>
+#include <unordered_set>
+
 #include "arrow/compute/exec/options.h"
 #include "arrow/compute/exec/test_util.h"
 #include "arrow/compute/exec/tpch_node.h"
@@ -27,16 +33,14 @@
 #include "arrow/testing/matchers.h"
 #include "arrow/testing/random.h"
 #include "arrow/util/checked_cast.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/pcg_random.h"
+#include "arrow/util/string.h"
 #include "arrow/util/thread_pool.h"
 
-#include <cctype>
-#include <regex>
-#include <string>
-#include <unordered_set>
-
 namespace arrow {
+
+using internal::StartsWith;
+
 namespace compute {
 namespace internal {
 
@@ -50,7 +54,7 @@ using TableNodeFn = Result<ExecNode*> (TpchGen::*)(std::vector<std::string>);
 constexpr double kDefaultScaleFactor = 0.1;
 
 Status AddTableAndSinkToPlan(ExecPlan& plan, TpchGen& gen,
-                             AsyncGenerator<util::optional<ExecBatch>>& sink_gen,
+                             AsyncGenerator<std::optional<ExecBatch>>& sink_gen,
                              TableNodeFn table) {
   ARROW_ASSIGN_OR_RAISE(ExecNode * table_node, ((gen.*table)({})));
   Declaration sink("sink", {Declaration::Input(table_node)}, SinkNodeOptions{&sink_gen});
@@ -61,10 +65,10 @@ Status AddTableAndSinkToPlan(ExecPlan& plan, TpchGen& gen,
 Result<std::vector<ExecBatch>> GenerateTable(TableNodeFn table,
                                              double scale_factor = kDefaultScaleFactor) {
   ExecContext ctx(default_memory_pool(), arrow::internal::GetCpuThreadPool());
-  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<ExecPlan> plan, ExecPlan::Make(&ctx));
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<ExecPlan> plan, ExecPlan::Make(ctx));
   ARROW_ASSIGN_OR_RAISE(std::unique_ptr<TpchGen> gen,
                         TpchGen::Make(plan.get(), scale_factor));
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
   ARROW_RETURN_NOT_OK(AddTableAndSinkToPlan(*plan, *gen, sink_gen, table));
   auto fut = StartAndCollect(plan.get(), sink_gen);
   return fut.MoveResult();
@@ -94,10 +98,10 @@ void VerifyUniqueKey(std::unordered_set<int32_t>* seen, const Datum& d, int32_t
   }
 }
 
-void VerifyStringAndNumber_Single(const util::string_view& row,
-                                  const util::string_view& prefix, const int64_t i,
+void VerifyStringAndNumber_Single(const std::string_view& row,
+                                  const std::string_view& prefix, const int64_t i,
                                   const int32_t* nums, bool verify_padding) {
-  ASSERT_TRUE(row.starts_with(prefix)) << row << ", prefix=" << prefix << ", i=" << i;
+  ASSERT_TRUE(StartsWith(row, prefix)) << row << ", prefix=" << prefix << ", i=" << i;
   const char* num_str = row.data() + prefix.size();
   const char* num_str_end = row.data() + row.size();
   int64_t num = 0;
@@ -124,7 +128,7 @@ void VerifyStringAndNumber_Single(const util::string_view& row,
 // corresponding row in numbers. Some TPC-H data is padded to 9 zeros, which this function
 // can optionally verify as well. This string function verifies fixed width columns.
 void VerifyStringAndNumber_FixedWidth(const Datum& strings, const Datum& numbers,
-                                      int byte_width, const util::string_view& prefix,
+                                      int byte_width, const std::string_view& prefix,
                                       bool verify_padding = true) {
   int64_t length = strings.length();
   const char* str = reinterpret_cast<const char*>(strings.array()->buffers[1]->data());
@@ -137,14 +141,14 @@ void VerifyStringAndNumber_FixedWidth(const Datum& strings, const Datum& numbers
 
   for (int64_t i = 0; i < length; i++) {
     const char* row = str + i * byte_width;
-    util::string_view view(row, byte_width);
+    std::string_view view(row, byte_width);
     VerifyStringAndNumber_Single(view, prefix, i, nums, verify_padding);
   }
 }
 
 // Same as above but for variable length columns
 void VerifyStringAndNumber_Varlen(const Datum& strings, const Datum& numbers,
-                                  const util::string_view& prefix,
+                                  const std::string_view& prefix,
                                   bool verify_padding = true) {
   int64_t length = strings.length();
   const int32_t* offsets =
@@ -160,7 +164,7 @@ void VerifyStringAndNumber_Varlen(const Datum& strings, const Datum& numbers,
   for (int64_t i = 0; i < length; i++) {
     int32_t start = offsets[i];
     int32_t str_len = offsets[i + 1] - offsets[i];
-    util::string_view view(str + start, str_len);
+    std::string_view view(str + start, str_len);
     VerifyStringAndNumber_Single(view, prefix, i, nums, verify_padding);
   }
 }
@@ -253,7 +257,7 @@ void VerifyCorrectNumberOfWords_Varlen(const Datum& d, int num_words) {
     int32_t start = offsets[i];
     int32_t end = offsets[i + 1];
     int32_t str_len = end - start;
-    util::string_view view(str + start, str_len);
+    std::string_view view(str + start, str_len);
     bool is_only_alphas_or_spaces = true;
     for (const char& c : view) {
       bool is_space = c == ' ';
@@ -300,14 +304,14 @@ void VerifyOneOf(const Datum& d, const std::unordered_set<char>& possibilities)
 
 // Verifies that each fixed-width row is one of the possibilities
 void VerifyOneOf(const Datum& d, int32_t byte_width,
-                 const std::unordered_set<util::string_view>& possibilities) {
+                 const std::unordered_set<std::string_view>& possibilities) {
   int64_t length = d.length();
   const char* col = reinterpret_cast<const char*>(d.array()->buffers[1]->data());
   for (int64_t i = 0; i < length; i++) {
     const char* row = col + i * byte_width;
     int32_t row_len = 0;
     while (row[row_len] && row_len < byte_width) row_len++;
-    util::string_view view(row, row_len);
+    std::string_view view(row, row_len);
     ASSERT_TRUE(possibilities.find(view) != possibilities.end())
         << view << " is not a valid string.";
   }
@@ -331,10 +335,10 @@ void CountModifiedComments(const Datum& d, int* good_count, int* bad_count) {
   for (int64_t i = 0; i < length; i++) {
     const char* row = str + offsets[i];
     int32_t row_length = offsets[i + 1] - offsets[i];
-    util::string_view view(row, row_length);
-    bool customer = view.find("Customer") != util::string_view::npos;
-    bool recommends = view.find("Recommends") != util::string_view::npos;
-    bool complaints = view.find("Complaints") != util::string_view::npos;
+    std::string_view view(row, row_length);
+    bool customer = view.find("Customer") != std::string_view::npos;
+    bool recommends = view.find("Recommends") != std::string_view::npos;
+    bool complaints = view.find("Complaints") != std::string_view::npos;
     if (customer) {
       ASSERT_TRUE(recommends ^ complaints);
       if (recommends) *good_count += 1;
@@ -618,9 +622,9 @@ TEST(TpchNode, AllTables) {
       &VerifyOrders,   &VerifyLineitem, &VerifyNation,   &VerifyRegion,
   };
 
-  std::array<AsyncGenerator<util::optional<ExecBatch>>, kNumTables> gens;
+  std::array<AsyncGenerator<std::optional<ExecBatch>>, kNumTables> gens;
   ExecContext ctx(default_memory_pool(), arrow::internal::GetCpuThreadPool());
-  ASSERT_OK_AND_ASSIGN(std::shared_ptr<ExecPlan> plan, ExecPlan::Make(&ctx));
+  ASSERT_OK_AND_ASSIGN(std::shared_ptr<ExecPlan> plan, ExecPlan::Make(ctx));
   ASSERT_OK_AND_ASSIGN(std::unique_ptr<TpchGen> gen,
                        TpchGen::Make(plan.get(), kScaleFactor));
   for (int i = 0; i < kNumTables; i++) {
diff --git a/cpp/src/arrow/compute/exec/union_node.cc b/cpp/src/arrow/compute/exec/union_node.cc
index e5170c2bc91..096188f4799 100644
--- a/cpp/src/arrow/compute/exec/union_node.cc
+++ b/cpp/src/arrow/compute/exec/union_node.cc
@@ -17,7 +17,6 @@
 
 #include <mutex>
 
-#include "arrow/api.h"
 #include "arrow/compute/api.h"
 #include "arrow/compute/exec/exec_plan.h"
 #include "arrow/compute/exec/options.h"
@@ -26,12 +25,14 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/future.h"
 #include "arrow/util/logging.h"
+#include "arrow/util/string.h"
 #include "arrow/util/thread_pool.h"
 #include "arrow/util/tracing_internal.h"
 
 namespace arrow {
 
 using internal::checked_cast;
+using internal::ToChars;
 
 namespace compute {
 
diff --git a/cpp/src/arrow/compute/exec/union_node_test.cc b/cpp/src/arrow/compute/exec/union_node_test.cc
index 41aaac26d2b..d14bfe16e5f 100644
--- a/cpp/src/arrow/compute/exec/union_node_test.cc
+++ b/cpp/src/arrow/compute/exec/union_node_test.cc
@@ -90,7 +90,7 @@ struct TestUnionNode : public ::testing::Test {
           "source", SourceNodeOptions{batch.schema, batch.gen(parallel,
                                                               /*slow=*/false)}});
     }
-    AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+    AsyncGenerator<std::optional<ExecBatch>> sink_gen;
 
     // Test UnionNode::Make with zero inputs
     if (batches.size() == 0) {
diff --git a/cpp/src/arrow/compute/exec/util.cc b/cpp/src/arrow/compute/exec/util.cc
index ae70cfcd46f..2dd1398b981 100644
--- a/cpp/src/arrow/compute/exec/util.cc
+++ b/cpp/src/arrow/compute/exec/util.cc
@@ -383,5 +383,26 @@ size_t ThreadIndexer::Check(size_t thread_index) {
   return thread_index;
 }
 
+Status TableSinkNodeConsumer::Init(const std::shared_ptr<Schema>& schema,
+                                   BackpressureControl* backpressure_control,
+                                   ExecPlan* plan) {
+  // If the user is collecting into a table then backpressure is meaningless
+  ARROW_UNUSED(backpressure_control);
+  schema_ = schema;
+  return Status::OK();
+}
+
+Status TableSinkNodeConsumer::Consume(ExecBatch batch) {
+  auto guard = consume_mutex_.Lock();
+  ARROW_ASSIGN_OR_RAISE(auto rb, batch.ToRecordBatch(schema_, pool_));
+  batches_.push_back(std::move(rb));
+  return Status::OK();
+}
+
+Future<> TableSinkNodeConsumer::Finish() {
+  ARROW_ASSIGN_OR_RAISE(*out_, Table::FromRecordBatches(schema_, batches_));
+  return Status::OK();
+}
+
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec/util.h b/cpp/src/arrow/compute/exec/util.h
index 30526cb835a..ea0c8cf36f1 100644
--- a/cpp/src/arrow/compute/exec/util.h
+++ b/cpp/src/arrow/compute/exec/util.h
@@ -19,11 +19,14 @@
 
 #include <atomic>
 #include <cstdint>
+#include <optional>
 #include <thread>
 #include <unordered_map>
 #include <vector>
 
 #include "arrow/buffer.h"
+#include "arrow/compute/exec/expression.h"
+#include "arrow/compute/exec/options.h"
 #include "arrow/compute/type_fwd.h"
 #include "arrow/memory_pool.h"
 #include "arrow/result.h"
@@ -32,7 +35,6 @@
 #include "arrow/util/cpu_info.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/mutex.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/thread_pool.h"
 
 #if defined(__clang__) || defined(__GNUC__)
@@ -245,7 +247,7 @@ class ARROW_EXPORT AtomicCounter {
 
   int count() const { return count_.load(); }
 
-  util::optional<int> total() const {
+  std::optional<int> total() const {
     int total = total_.load();
     if (total == -1) return {};
     return total;
@@ -342,5 +344,85 @@ class TailSkipForSIMD {
   }
 };
 
+/// \brief A consumer that collects results into an in-memory table
+struct ARROW_EXPORT TableSinkNodeConsumer : public SinkNodeConsumer {
+ public:
+  TableSinkNodeConsumer(std::shared_ptr<Table>* out, MemoryPool* pool)
+      : out_(out), pool_(pool) {}
+  Status Init(const std::shared_ptr<Schema>& schema,
+              BackpressureControl* backpressure_control, ExecPlan* plan) override;
+  Status Consume(ExecBatch batch) override;
+  Future<> Finish() override;
+
+ private:
+  std::shared_ptr<Table>* out_;
+  MemoryPool* pool_;
+  std::shared_ptr<Schema> schema_;
+  std::vector<std::shared_ptr<RecordBatch>> batches_;
+  util::Mutex consume_mutex_;
+};
+
+class ARROW_EXPORT NullSinkNodeConsumer : public SinkNodeConsumer {
+ public:
+  Status Init(const std::shared_ptr<Schema>&, BackpressureControl*,
+              ExecPlan* plan) override {
+    return Status::OK();
+  }
+  Status Consume(ExecBatch exec_batch) override { return Status::OK(); }
+  Future<> Finish() override { return Status::OK(); }
+
+ public:
+  static std::shared_ptr<NullSinkNodeConsumer> Make() {
+    return std::make_shared<NullSinkNodeConsumer>();
+  }
+};
+
+/// Modify an Expression with pre-order and post-order visitation.
+/// `pre` will be invoked on each Expression. `pre` will visit Calls before their
+/// arguments, `post_call` will visit Calls (and no other Expressions) after their
+/// arguments. Visitors should return the Identical expression to indicate no change; this
+/// will prevent unnecessary construction in the common case where a modification is not
+/// possible/necessary/...
+///
+/// If an argument was modified, `post_call` visits a reconstructed Call with the modified
+/// arguments but also receives a pointer to the unmodified Expression as a second
+/// argument. If no arguments were modified the unmodified Expression* will be nullptr.
+template <typename PreVisit, typename PostVisitCall>
+Result<Expression> ModifyExpression(Expression expr, const PreVisit& pre,
+                                    const PostVisitCall& post_call) {
+  ARROW_ASSIGN_OR_RAISE(expr, Result<Expression>(pre(std::move(expr))));
+
+  auto call = expr.call();
+  if (!call) return expr;
+
+  bool at_least_one_modified = false;
+  std::vector<Expression> modified_arguments;
+
+  for (size_t i = 0; i < call->arguments.size(); ++i) {
+    ARROW_ASSIGN_OR_RAISE(auto modified_argument,
+                          ModifyExpression(call->arguments[i], pre, post_call));
+
+    if (Identical(modified_argument, call->arguments[i])) {
+      continue;
+    }
+
+    if (!at_least_one_modified) {
+      modified_arguments = call->arguments;
+      at_least_one_modified = true;
+    }
+
+    modified_arguments[i] = std::move(modified_argument);
+  }
+
+  if (at_least_one_modified) {
+    // reconstruct the call expression with the modified arguments
+    auto modified_call = *call;
+    modified_call.arguments = std::move(modified_arguments);
+    return post_call(Expression(std::move(modified_call)), &expr);
+  }
+
+  return post_call(std::move(expr), NULLPTR);
+}
+
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec/util_test.cc b/cpp/src/arrow/compute/exec/util_test.cc
index 3861446bb3c..ca5118dc1aa 100644
--- a/cpp/src/arrow/compute/exec/util_test.cc
+++ b/cpp/src/arrow/compute/exec/util_test.cc
@@ -17,6 +17,7 @@
 
 #include "arrow/compute/exec/hash_join_node.h"
 #include "arrow/compute/exec/schema_util.h"
+#include "arrow/testing/extension_type.h"
 #include "arrow/testing/gtest_util.h"
 #include "arrow/testing/matchers.h"
 
@@ -128,5 +129,60 @@ TEST(FieldMap, TwoKeyFields) {
                        })));
 }
 
+TEST(FieldMap, ExtensionTypeSwissJoin) {
+  // For simpler types swiss join will be used.
+  HashJoinSchema schema_mgr;
+
+  auto left = schema({field("i32", int32()), field("ext", uuid())});
+  auto right = schema({field("i32", int32())});
+
+  ASSERT_OK(schema_mgr.Init(JoinType::INNER, *left, {"i32"}, *right, {"i32"},
+                            literal(true), kLeftSuffix, kRightSuffix));
+
+  EXPECT_EQ(schema_mgr.proj_maps[0].num_cols(HashJoinProjection::INPUT), 2);
+  EXPECT_EQ(schema_mgr.proj_maps[0].num_cols(HashJoinProjection::KEY), 1);
+  EXPECT_EQ(schema_mgr.proj_maps[1].num_cols(HashJoinProjection::KEY), 1);
+  EXPECT_EQ(schema_mgr.proj_maps[0].num_cols(HashJoinProjection::OUTPUT), 2);
+
+  auto output = schema_mgr.MakeOutputSchema(kLeftSuffix, kRightSuffix);
+  EXPECT_THAT(*output, Eq(Schema({field("i32.left", int32()), field("ext", uuid()),
+                                  field("i32.right", int32())})));
+
+  auto i =
+      schema_mgr.proj_maps[0].map(HashJoinProjection::INPUT, HashJoinProjection::OUTPUT);
+  EXPECT_EQ(i.get(0), 0);
+}
+
+TEST(FieldMap, ExtensionTypeHashJoin) {
+  // Swiss join doesn't support dictionaries so HashJoin will be used.
+  HashJoinSchema schema_mgr;
+
+  auto dict_type = dictionary(int64(), int8());
+  auto left = schema({field("i32", int32()), field("ext", uuid())});
+  auto right = schema({field("i32", int32()), field("dict_type", dict_type)});
+
+  ASSERT_OK(schema_mgr.Init(JoinType::INNER, *left, {"i32"}, *right, {"i32"},
+                            literal(true), kLeftSuffix, kRightSuffix));
+
+  EXPECT_EQ(schema_mgr.proj_maps[0].num_cols(HashJoinProjection::INPUT), 2);
+  EXPECT_EQ(schema_mgr.proj_maps[1].num_cols(HashJoinProjection::INPUT), 2);
+  EXPECT_EQ(schema_mgr.proj_maps[0].num_cols(HashJoinProjection::KEY), 1);
+  EXPECT_EQ(schema_mgr.proj_maps[1].num_cols(HashJoinProjection::KEY), 1);
+  EXPECT_EQ(schema_mgr.proj_maps[0].num_cols(HashJoinProjection::OUTPUT), 2);
+  EXPECT_EQ(schema_mgr.proj_maps[1].num_cols(HashJoinProjection::OUTPUT), 2);
+
+  auto output = schema_mgr.MakeOutputSchema(kLeftSuffix, kRightSuffix);
+  EXPECT_THAT(*output, Eq(Schema({
+                           field("i32.left", int32()),
+                           field("ext", uuid()),
+                           field("i32.right", int32()),
+                           field("dict_type", dict_type),
+                       })));
+
+  auto i =
+      schema_mgr.proj_maps[0].map(HashJoinProjection::INPUT, HashJoinProjection::OUTPUT);
+  EXPECT_EQ(i.get(0), 0);
+}
+
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/exec_test.cc b/cpp/src/arrow/compute/exec_test.cc
index c31309da931..cab9bd6a1d6 100644
--- a/cpp/src/arrow/compute/exec_test.cc
+++ b/cpp/src/arrow/compute/exec_test.cc
@@ -35,6 +35,7 @@
 #include "arrow/compute/kernel.h"
 #include "arrow/compute/registry.h"
 #include "arrow/memory_pool.h"
+#include "arrow/record_batch.h"
 #include "arrow/scalar.h"
 #include "arrow/status.h"
 #include "arrow/type.h"
@@ -43,7 +44,6 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/cpu_info.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 
 namespace arrow {
 
@@ -56,6 +56,68 @@ using ::arrow::internal::BitmapEquals;
 using ::arrow::internal::CopyBitmap;
 using ::arrow::internal::CountSetBits;
 
+TEST(ExecBatch, SliceBasics) {
+  int64_t length = 4, cut_length = 2, left_length = length - cut_length;
+  ExecBatch batch{{Int32Scalar(0), ArrayFromJSON(utf8(), R"(["a", "b", "c", "d"])"),
+                   ChunkedArrayFromJSON(float64(), {"[1.1]", "[2.2]", "[3.3]", "[4.4]"})},
+                  length};
+  std::vector<ExecBatch> expected_sliced{
+      {{Int32Scalar(0), ArrayFromJSON(utf8(), R"(["a", "b"])"),
+        ChunkedArrayFromJSON(float64(), {"[1.1]", "[2.2]"})},
+       cut_length},
+      {{Int32Scalar(0), ArrayFromJSON(utf8(), R"(["c", "d"])"),
+        ChunkedArrayFromJSON(float64(), {"[3.3]", "[4.4]"})},
+       left_length}};
+  std::vector<ExecBatch> actual_sliced = {batch.Slice(0, cut_length),
+                                          batch.Slice(cut_length, left_length)};
+  for (size_t i = 0; i < expected_sliced.size(); i++) {
+    ASSERT_EQ(expected_sliced[i].length, actual_sliced[i].length);
+    ASSERT_EQ(expected_sliced[i].values.size(), actual_sliced[i].values.size());
+    for (size_t j = 0; j < expected_sliced[i].values.size(); j++) {
+      AssertDatumsEqual(expected_sliced[i].values[j], actual_sliced[i].values[j]);
+    }
+    ASSERT_EQ(expected_sliced[i].ToString(), actual_sliced[i].ToString());
+  }
+}
+
+TEST(ExecBatch, ToRecordBatch) {
+  auto i32_array = ArrayFromJSON(int32(), "[0, 1, 2]");
+  auto utf8_array = ArrayFromJSON(utf8(), R"(["a", "b", "c"])");
+  ExecBatch exec_batch({Datum(i32_array), Datum(utf8_array)}, 3);
+
+  auto right_schema = schema({field("a", int32()), field("b", utf8())});
+  ASSERT_OK_AND_ASSIGN(auto right_record_batch, exec_batch.ToRecordBatch(right_schema));
+  ASSERT_OK(right_record_batch->ValidateFull());
+  auto expected_batch = RecordBatchFromJSON(right_schema, R"([
+      {"a": 0, "b": "a"},
+      {"a": 1, "b": "b"},
+      {"a": 2, "b": "c"}
+      ])");
+  AssertBatchesEqual(*right_record_batch, *expected_batch);
+
+  // With a scalar column
+  auto utf8_scalar = ScalarFromJSON(utf8(), R"("z")");
+  exec_batch = ExecBatch({Datum(i32_array), Datum(utf8_scalar)}, 3);
+  ASSERT_OK_AND_ASSIGN(right_record_batch, exec_batch.ToRecordBatch(right_schema));
+  ASSERT_OK(right_record_batch->ValidateFull());
+  expected_batch = RecordBatchFromJSON(right_schema, R"([
+      {"a": 0, "b": "z"},
+      {"a": 1, "b": "z"},
+      {"a": 2, "b": "z"}
+      ])");
+  AssertBatchesEqual(*right_record_batch, *expected_batch);
+
+  // Wrong number of fields in schema
+  auto reject_schema =
+      schema({field("a", int32()), field("b", utf8()), field("c", float64())});
+  ASSERT_RAISES(Invalid, exec_batch.ToRecordBatch(reject_schema));
+
+  // Wrong-kind exec batch (not really valid, but test it here anyway)
+  ExecBatch miskinded_batch({Datum()}, 0);
+  auto null_schema = schema({field("a", null())});
+  ASSERT_RAISES(TypeError, miskinded_batch.ToRecordBatch(null_schema));
+}
+
 TEST(ExecContext, BasicWorkings) {
   {
     ExecContext ctx;
@@ -766,7 +828,7 @@ TEST_F(TestExecSpanIterator, ChunkedArrays) {
 }
 
 TEST_F(TestExecSpanIterator, ZeroLengthInputs) {
-  auto carr = std::shared_ptr<ChunkedArray>(new ChunkedArray({}, int32()));
+  auto carr = std::make_shared<ChunkedArray>(ArrayVector{}, int32());
 
   auto CheckArgs = [&](const ExecBatch& batch) {
     ExecSpanIterator iterator;
@@ -883,7 +945,7 @@ class ExampleOptionsType : public FunctionOptionsType {
   }
   std::unique_ptr<FunctionOptions> Copy(const FunctionOptions& options) const override {
     const auto& opts = static_cast<const ExampleOptions&>(options);
-    return arrow::internal::make_unique<ExampleOptions>(opts.value);
+    return std::make_unique<ExampleOptions>(opts.value);
   }
 };
 ExampleOptions::ExampleOptions(std::shared_ptr<Scalar> value)
@@ -897,7 +959,7 @@ struct ExampleState : public KernelState {
 Result<std::unique_ptr<KernelState>> InitStateful(KernelContext*,
                                                   const KernelInitArgs& args) {
   auto func_options = static_cast<const ExampleOptions*>(args.options);
-  return std::unique_ptr<KernelState>(new ExampleState{func_options->value});
+  return std::make_unique<ExampleState>(func_options ? func_options->value : nullptr);
 }
 
 Status ExecStateful(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
@@ -1011,36 +1073,134 @@ class TestCallScalarFunction : public TestComputeInternals {
 
 bool TestCallScalarFunction::initialized_ = false;
 
-TEST_F(TestCallScalarFunction, ArgumentValidation) {
+class FunctionCaller {
+ public:
+  virtual ~FunctionCaller() = default;
+
+  virtual Result<Datum> Call(const std::vector<Datum>& args,
+                             const FunctionOptions* options,
+                             ExecContext* ctx = NULLPTR) = 0;
+  virtual Result<Datum> Call(const std::vector<Datum>& args,
+                             ExecContext* ctx = NULLPTR) = 0;
+};
+
+using FunctionCallerMaker = std::function<Result<std::shared_ptr<FunctionCaller>>(
+    const std::string& func_name, std::vector<TypeHolder> in_types)>;
+
+class SimpleFunctionCaller : public FunctionCaller {
+ public:
+  explicit SimpleFunctionCaller(const std::string& func_name) : func_name(func_name) {}
+
+  static Result<std::shared_ptr<FunctionCaller>> Make(const std::string& func_name) {
+    return std::make_shared<SimpleFunctionCaller>(func_name);
+  }
+
+  static Result<std::shared_ptr<FunctionCaller>> Maker(const std::string& func_name,
+                                                       std::vector<TypeHolder> in_types) {
+    return Make(func_name);
+  }
+
+  Result<Datum> Call(const std::vector<Datum>& args, const FunctionOptions* options,
+                     ExecContext* ctx) override {
+    return CallFunction(func_name, args, options, ctx);
+  }
+  Result<Datum> Call(const std::vector<Datum>& args, ExecContext* ctx) override {
+    return CallFunction(func_name, args, ctx);
+  }
+
+  std::string func_name;
+};
+
+class ExecFunctionCaller : public FunctionCaller {
+ public:
+  explicit ExecFunctionCaller(std::shared_ptr<FunctionExecutor> func_exec)
+      : func_exec(std::move(func_exec)) {}
+
+  static Result<std::shared_ptr<FunctionCaller>> Make(
+      const std::string& func_name, const std::vector<Datum>& args,
+      const FunctionOptions* options = nullptr,
+      FunctionRegistry* func_registry = nullptr) {
+    ARROW_ASSIGN_OR_RAISE(auto func_exec,
+                          GetFunctionExecutor(func_name, args, options, func_registry));
+    return std::make_shared<ExecFunctionCaller>(std::move(func_exec));
+  }
+
+  static Result<std::shared_ptr<FunctionCaller>> Make(
+      const std::string& func_name, std::vector<TypeHolder> in_types,
+      const FunctionOptions* options = nullptr,
+      FunctionRegistry* func_registry = nullptr) {
+    ARROW_ASSIGN_OR_RAISE(
+        auto func_exec, GetFunctionExecutor(func_name, in_types, options, func_registry));
+    return std::make_shared<ExecFunctionCaller>(std::move(func_exec));
+  }
+
+  static Result<std::shared_ptr<FunctionCaller>> Maker(const std::string& func_name,
+                                                       std::vector<TypeHolder> in_types) {
+    return Make(func_name, std::move(in_types));
+  }
+
+  Result<Datum> Call(const std::vector<Datum>& args, const FunctionOptions* options,
+                     ExecContext* ctx) override {
+    ARROW_RETURN_NOT_OK(func_exec->Init(options, ctx));
+    return func_exec->Execute(args);
+  }
+  Result<Datum> Call(const std::vector<Datum>& args, ExecContext* ctx) override {
+    return Call(args, nullptr, ctx);
+  }
+
+  std::shared_ptr<FunctionExecutor> func_exec;
+};
+
+class TestCallScalarFunctionArgumentValidation : public TestCallScalarFunction {
+ protected:
+  void DoTest(FunctionCallerMaker caller_maker);
+};
+
+void TestCallScalarFunctionArgumentValidation::DoTest(FunctionCallerMaker caller_maker) {
+  ASSERT_OK_AND_ASSIGN(auto test_copy, caller_maker("test_copy", {int32()}));
+
   // Copy accepts only a single array argument
   Datum d1(GetInt32Array(10));
 
   // Too many args
   std::vector<Datum> args = {d1, d1};
-  ASSERT_RAISES(Invalid, CallFunction("test_copy", args));
+  ASSERT_RAISES(Invalid, test_copy->Call(args));
 
   // Too few
   args = {};
-  ASSERT_RAISES(Invalid, CallFunction("test_copy", args));
+  ASSERT_RAISES(Invalid, test_copy->Call(args));
 
   // Cannot do scalar
   Datum d1_scalar(std::make_shared<Int32Scalar>(5));
-  ASSERT_OK_AND_ASSIGN(auto result, CallFunction("test_copy", {d1}));
-  ASSERT_OK_AND_ASSIGN(result, CallFunction("test_copy", {d1_scalar}));
+  ASSERT_OK_AND_ASSIGN(auto result, test_copy->Call({d1}));
+  ASSERT_OK_AND_ASSIGN(result, test_copy->Call({d1_scalar}));
 }
 
-TEST_F(TestCallScalarFunction, PreallocationCases) {
+TEST_F(TestCallScalarFunctionArgumentValidation, SimpleCall) {
+  TestCallScalarFunctionArgumentValidation::DoTest(SimpleFunctionCaller::Maker);
+}
+
+TEST_F(TestCallScalarFunctionArgumentValidation, ExecCall) {
+  TestCallScalarFunctionArgumentValidation::DoTest(ExecFunctionCaller::Maker);
+}
+
+class TestCallScalarFunctionPreallocationCases : public TestCallScalarFunction {
+ protected:
+  void DoTest(FunctionCallerMaker caller_maker);
+};
+
+void TestCallScalarFunctionPreallocationCases::DoTest(FunctionCallerMaker caller_maker) {
   double null_prob = 0.2;
 
   auto arr = GetUInt8Array(100, null_prob);
 
-  auto CheckFunction = [&](std::string func_name) {
+  auto CheckFunction = [&](std::shared_ptr<FunctionCaller> test_copy) {
     ResetContexts();
 
     // The default should be a single array output
     {
       std::vector<Datum> args = {Datum(arr)};
-      ASSERT_OK_AND_ASSIGN(Datum result, CallFunction(func_name, args));
+      ASSERT_OK_AND_ASSIGN(Datum result, test_copy->Call(args));
       ASSERT_EQ(Datum::ARRAY, result.kind());
       AssertArraysEqual(*arr, *result.make_array());
     }
@@ -1050,7 +1210,7 @@ TEST_F(TestCallScalarFunction, PreallocationCases) {
     {
       std::vector<Datum> args = {Datum(arr)};
       exec_ctx_->set_exec_chunksize(80);
-      ASSERT_OK_AND_ASSIGN(Datum result, CallFunction(func_name, args, exec_ctx_.get()));
+      ASSERT_OK_AND_ASSIGN(Datum result, test_copy->Call(args, exec_ctx_.get()));
       AssertArraysEqual(*arr, *result.make_array());
     }
 
@@ -1058,16 +1218,16 @@ TEST_F(TestCallScalarFunction, PreallocationCases) {
       // Chunksize not multiple of 8
       std::vector<Datum> args = {Datum(arr)};
       exec_ctx_->set_exec_chunksize(11);
-      ASSERT_OK_AND_ASSIGN(Datum result, CallFunction(func_name, args, exec_ctx_.get()));
+      ASSERT_OK_AND_ASSIGN(Datum result, test_copy->Call(args, exec_ctx_.get()));
       AssertArraysEqual(*arr, *result.make_array());
     }
 
     // Input is chunked, output has one big chunk
     {
-      auto carr = std::shared_ptr<ChunkedArray>(
-          new ChunkedArray({arr->Slice(0, 10), arr->Slice(10)}));
+      auto carr =
+          std::make_shared<ChunkedArray>(ArrayVector{arr->Slice(0, 10), arr->Slice(10)});
       std::vector<Datum> args = {Datum(carr)};
-      ASSERT_OK_AND_ASSIGN(Datum result, CallFunction(func_name, args, exec_ctx_.get()));
+      ASSERT_OK_AND_ASSIGN(Datum result, test_copy->Call(args, exec_ctx_.get()));
       std::shared_ptr<ChunkedArray> actual = result.chunked_array();
       ASSERT_EQ(1, actual->num_chunks());
       AssertChunkedEquivalent(*carr, *actual);
@@ -1078,7 +1238,7 @@ TEST_F(TestCallScalarFunction, PreallocationCases) {
       std::vector<Datum> args = {Datum(arr)};
       exec_ctx_->set_preallocate_contiguous(false);
       exec_ctx_->set_exec_chunksize(40);
-      ASSERT_OK_AND_ASSIGN(Datum result, CallFunction(func_name, args, exec_ctx_.get()));
+      ASSERT_OK_AND_ASSIGN(Datum result, test_copy->Call(args, exec_ctx_.get()));
       ASSERT_EQ(Datum::CHUNKED_ARRAY, result.kind());
       const ChunkedArray& carr = *result.chunked_array();
       ASSERT_EQ(3, carr.num_chunks());
@@ -1088,11 +1248,28 @@ TEST_F(TestCallScalarFunction, PreallocationCases) {
     }
   };
 
-  CheckFunction("test_copy");
-  CheckFunction("test_copy_computed_bitmap");
+  ASSERT_OK_AND_ASSIGN(auto test_copy, caller_maker("test_copy", {uint8()}));
+  CheckFunction(test_copy);
+  ASSERT_OK_AND_ASSIGN(auto test_copy_computed_bitmap,
+                       caller_maker("test_copy_computed_bitmap", {uint8()}));
+  CheckFunction(test_copy_computed_bitmap);
 }
 
-TEST_F(TestCallScalarFunction, BasicNonStandardCases) {
+TEST_F(TestCallScalarFunctionPreallocationCases, SimpleCaller) {
+  TestCallScalarFunctionPreallocationCases::DoTest(SimpleFunctionCaller::Maker);
+}
+
+TEST_F(TestCallScalarFunctionPreallocationCases, ExecCaller) {
+  TestCallScalarFunctionPreallocationCases::DoTest(ExecFunctionCaller::Maker);
+}
+
+class TestCallScalarFunctionBasicNonStandardCases : public TestCallScalarFunction {
+ protected:
+  void DoTest(FunctionCallerMaker caller_maker);
+};
+
+void TestCallScalarFunctionBasicNonStandardCases::DoTest(
+    FunctionCallerMaker caller_maker) {
   // Test a handful of cases
   //
   // * Validity bitmap computed by kernel rather than using PropagateNulls
@@ -1104,19 +1281,19 @@ TEST_F(TestCallScalarFunction, BasicNonStandardCases) {
   auto arr = GetUInt8Array(1000, null_prob);
   std::vector<Datum> args = {Datum(arr)};
 
-  auto CheckFunction = [&](std::string func_name) {
+  auto CheckFunction = [&](std::shared_ptr<FunctionCaller> test_nopre) {
     ResetContexts();
 
     // The default should be a single array output
     {
-      ASSERT_OK_AND_ASSIGN(Datum result, CallFunction(func_name, args));
+      ASSERT_OK_AND_ASSIGN(Datum result, test_nopre->Call(args));
       AssertArraysEqual(*arr, *result.make_array(), true);
     }
 
     // Split execution into 3 chunks
     {
       exec_ctx_->set_exec_chunksize(400);
-      ASSERT_OK_AND_ASSIGN(Datum result, CallFunction(func_name, args, exec_ctx_.get()));
+      ASSERT_OK_AND_ASSIGN(Datum result, test_nopre->Call(args, exec_ctx_.get()));
       ASSERT_EQ(Datum::CHUNKED_ARRAY, result.kind());
       const ChunkedArray& carr = *result.chunked_array();
       ASSERT_EQ(3, carr.num_chunks());
@@ -1126,31 +1303,73 @@ TEST_F(TestCallScalarFunction, BasicNonStandardCases) {
     }
   };
 
-  CheckFunction("test_nopre_data");
-  CheckFunction("test_nopre_validity_or_data");
+  ASSERT_OK_AND_ASSIGN(auto test_nopre_data, caller_maker("test_nopre_data", {uint8()}));
+  CheckFunction(test_nopre_data);
+  ASSERT_OK_AND_ASSIGN(auto test_nopre_validity_or_data,
+                       caller_maker("test_nopre_validity_or_data", {uint8()}));
+  CheckFunction(test_nopre_validity_or_data);
+}
+
+TEST_F(TestCallScalarFunctionBasicNonStandardCases, SimpleCall) {
+  TestCallScalarFunctionBasicNonStandardCases::DoTest(SimpleFunctionCaller::Maker);
 }
 
-TEST_F(TestCallScalarFunction, StatefulKernel) {
+TEST_F(TestCallScalarFunctionBasicNonStandardCases, ExecCall) {
+  TestCallScalarFunctionBasicNonStandardCases::DoTest(ExecFunctionCaller::Maker);
+}
+
+class TestCallScalarFunctionStatefulKernel : public TestCallScalarFunction {
+ protected:
+  void DoTest(FunctionCallerMaker caller_maker);
+};
+
+void TestCallScalarFunctionStatefulKernel::DoTest(FunctionCallerMaker caller_maker) {
+  ASSERT_OK_AND_ASSIGN(auto test_stateful, caller_maker("test_stateful", {int32()}));
+
   auto input = ArrayFromJSON(int32(), "[1, 2, 3, null, 5]");
   auto multiplier = std::make_shared<Int32Scalar>(2);
   auto expected = ArrayFromJSON(int32(), "[2, 4, 6, null, 10]");
 
   ExampleOptions options(multiplier);
   std::vector<Datum> args = {Datum(input)};
-  ASSERT_OK_AND_ASSIGN(Datum result, CallFunction("test_stateful", args, &options));
+  ASSERT_OK_AND_ASSIGN(Datum result, test_stateful->Call(args, &options));
   AssertArraysEqual(*expected, *result.make_array());
 }
 
-TEST_F(TestCallScalarFunction, ScalarFunction) {
+TEST_F(TestCallScalarFunctionStatefulKernel, Simplecall) {
+  TestCallScalarFunctionStatefulKernel::DoTest(SimpleFunctionCaller::Maker);
+}
+
+TEST_F(TestCallScalarFunctionStatefulKernel, ExecCall) {
+  TestCallScalarFunctionStatefulKernel::DoTest(ExecFunctionCaller::Maker);
+}
+
+class TestCallScalarFunctionScalarFunction : public TestCallScalarFunction {
+ protected:
+  void DoTest(FunctionCallerMaker caller_maker);
+};
+
+void TestCallScalarFunctionScalarFunction::DoTest(FunctionCallerMaker caller_maker) {
+  ASSERT_OK_AND_ASSIGN(auto test_scalar_add_int32,
+                       caller_maker("test_scalar_add_int32", {int32(), int32()}));
+
   std::vector<Datum> args = {Datum(std::make_shared<Int32Scalar>(5)),
                              Datum(std::make_shared<Int32Scalar>(7))};
-  ASSERT_OK_AND_ASSIGN(Datum result, CallFunction("test_scalar_add_int32", args));
+  ASSERT_OK_AND_ASSIGN(Datum result, test_scalar_add_int32->Call(args));
   ASSERT_EQ(Datum::SCALAR, result.kind());
 
   auto expected = std::make_shared<Int32Scalar>(12);
   ASSERT_TRUE(expected->Equals(*result.scalar()));
 }
 
+TEST_F(TestCallScalarFunctionScalarFunction, SimpleCall) {
+  TestCallScalarFunctionScalarFunction::DoTest(SimpleFunctionCaller::Maker);
+}
+
+TEST_F(TestCallScalarFunctionScalarFunction, ExecCall) {
+  TestCallScalarFunctionScalarFunction::DoTest(ExecFunctionCaller::Maker);
+}
+
 }  // namespace detail
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/function.cc b/cpp/src/arrow/compute/function.cc
index 12d80a8c9ae..90e754f6150 100644
--- a/cpp/src/arrow/compute/function.cc
+++ b/cpp/src/arrow/compute/function.cc
@@ -97,6 +97,18 @@ Status Function::CheckArity(size_t num_args) const {
   return CheckArityImpl(*this, static_cast<int>(num_args));
 }
 
+namespace {
+
+Status CheckOptions(const Function& function, const FunctionOptions* options) {
+  if (options == nullptr && function.doc().options_required) {
+    return Status::Invalid("Function '", function.name(),
+                           "' cannot be called without options");
+  }
+  return Status::OK();
+}
+
+}  // namespace
+
 namespace detail {
 
 Status NoMatchingKernel(const Function* func, const std::vector<TypeHolder>& types) {
@@ -167,6 +179,118 @@ const Kernel* DispatchExactImpl(const Function* func,
   return nullptr;
 }
 
+struct FunctionExecutorImpl : public FunctionExecutor {
+  FunctionExecutorImpl(std::vector<TypeHolder> in_types, const Kernel* kernel,
+                       std::unique_ptr<detail::KernelExecutor> executor,
+                       const Function& func)
+      : in_types(std::move(in_types)),
+        kernel(kernel),
+        kernel_ctx(default_exec_context(), kernel),
+        executor(std::move(executor)),
+        func(func),
+        state(),
+        options(NULLPTR),
+        inited(false) {}
+  virtual ~FunctionExecutorImpl() {}
+
+  Status KernelInit(const FunctionOptions* options) {
+    RETURN_NOT_OK(CheckOptions(func, options));
+    if (options == NULLPTR) {
+      options = func.default_options();
+    }
+    if (kernel->init) {
+      ARROW_ASSIGN_OR_RAISE(state,
+                            kernel->init(&kernel_ctx, {kernel, in_types, options}));
+      kernel_ctx.SetState(state.get());
+    }
+
+    RETURN_NOT_OK(executor->Init(&kernel_ctx, {kernel, in_types, options}));
+    this->options = options;
+    inited = true;
+    return Status::OK();
+  }
+
+  Status Init(const FunctionOptions* options, ExecContext* exec_ctx) override {
+    if (exec_ctx == NULLPTR) {
+      exec_ctx = default_exec_context();
+    }
+    kernel_ctx = KernelContext{exec_ctx, kernel};
+    return KernelInit(options);
+  }
+
+  Result<Datum> Execute(const std::vector<Datum>& args, int64_t passed_length) override {
+    util::tracing::Span span;
+
+    auto func_kind = func.kind();
+    const auto& func_name = func.name();
+    START_COMPUTE_SPAN(span, func_name,
+                       {{"function.name", func_name},
+                        {"function.options", options ? options->ToString() : "<NULLPTR>"},
+                        {"function.kind", func_kind}});
+
+    if (in_types.size() != args.size()) {
+      return Status::Invalid("Execution of '", func_name, "' expected ", in_types.size(),
+                             " arguments but got ", args.size());
+    }
+    if (!inited) {
+      ARROW_RETURN_NOT_OK(Init(NULLPTR, default_exec_context()));
+    }
+    ExecContext* ctx = kernel_ctx.exec_context();
+    // Cast arguments if necessary
+    std::vector<Datum> args_with_cast(args.size());
+    for (size_t i = 0; i != args.size(); ++i) {
+      const auto& in_type = in_types[i];
+      auto arg = args[i];
+      if (in_type != args[i].type()) {
+        ARROW_ASSIGN_OR_RAISE(arg, Cast(args[i], CastOptions::Safe(in_type), ctx));
+      }
+      args_with_cast[i] = std::move(arg);
+    }
+
+    detail::DatumAccumulator listener;
+
+    ExecBatch input(std::move(args_with_cast), /*length=*/0);
+    if (input.num_values() == 0) {
+      if (passed_length != -1) {
+        input.length = passed_length;
+      }
+    } else {
+      bool all_same_length = false;
+      int64_t inferred_length = detail::InferBatchLength(input.values, &all_same_length);
+      input.length = inferred_length;
+      if (func_kind == Function::SCALAR) {
+        if (passed_length != -1 && passed_length != inferred_length) {
+          return Status::Invalid(
+              "Passed batch length for execution did not match actual"
+              " length of values for execution of scalar function '",
+              func_name, "'");
+        }
+      } else if (func_kind == Function::VECTOR) {
+        auto vkernel = static_cast<const VectorKernel*>(kernel);
+        if (!all_same_length && vkernel->can_execute_chunkwise) {
+          return Status::Invalid("Arguments for execution of vector kernel function '",
+                                 func_name, "' must all be the same length");
+        }
+      }
+    }
+    RETURN_NOT_OK(executor->Execute(input, &listener));
+    const auto out = executor->WrapResults(input.values, listener.values());
+#ifndef NDEBUG
+    DCHECK_OK(executor->CheckResultType(out, func_name.c_str()));
+#endif
+    return out;
+  }
+
+  std::vector<TypeHolder> in_types;
+  const Kernel* kernel;
+  KernelContext kernel_ctx;
+  std::unique_ptr<detail::KernelExecutor> executor;
+  const Function& func;
+  std::unique_ptr<KernelState> state;
+  const FunctionOptions* options;
+  bool inited;
+};
+
 }  // namespace detail
 
 Result<const Kernel*> Function::DispatchExact(
@@ -187,114 +311,34 @@ Result<const Kernel*> Function::DispatchBest(std::vector<TypeHolder>* values) co
   return DispatchExact(*values);
 }
 
-namespace {
-
-Status CheckAllArrayOrScalar(const std::vector<Datum>& values) {
-  for (const auto& value : values) {
-    if (!value.is_value()) {
-      return Status::Invalid("Tried executing function with non-value type: ",
-                             value.ToString());
-    }
-  }
-  return Status::OK();
-}
-
-Status CheckOptions(const Function& function, const FunctionOptions* options) {
-  if (options == nullptr && function.doc().options_required) {
-    return Status::Invalid("Function '", function.name(),
-                           "' cannot be called without options");
-  }
-  return Status::OK();
-}
-
-Result<Datum> ExecuteInternal(const Function& func, std::vector<Datum> args,
-                              int64_t passed_length, const FunctionOptions* options,
-                              ExecContext* ctx) {
-  std::unique_ptr<ExecContext> default_ctx;
-  if (options == nullptr) {
-    RETURN_NOT_OK(CheckOptions(func, options));
-    options = func.default_options();
-  }
-  if (ctx == nullptr) {
-    default_ctx.reset(new ExecContext());
-    ctx = default_ctx.get();
-  }
-
-  util::tracing::Span span;
-
-  START_COMPUTE_SPAN(span, func.name(),
-                     {{"function.name", func.name()},
-                      {"function.options", options ? options->ToString() : "<NULLPTR>"},
-                      {"function.kind", func.kind()}});
-
-  // type-check Datum arguments here. Really we'd like to avoid this as much as
-  // possible
-  RETURN_NOT_OK(CheckAllArrayOrScalar(args));
-  std::vector<TypeHolder> in_types(args.size());
-  for (size_t i = 0; i != args.size(); ++i) {
-    in_types[i] = args[i].type().get();
-  }
-
+Result<std::shared_ptr<FunctionExecutor>> Function::GetBestExecutor(
+    std::vector<TypeHolder> inputs) const {
   std::unique_ptr<detail::KernelExecutor> executor;
-  if (func.kind() == Function::SCALAR) {
+  if (kind() == Function::SCALAR) {
     executor = detail::KernelExecutor::MakeScalar();
-  } else if (func.kind() == Function::VECTOR) {
+  } else if (kind() == Function::VECTOR) {
     executor = detail::KernelExecutor::MakeVector();
-  } else if (func.kind() == Function::SCALAR_AGGREGATE) {
+  } else if (kind() == Function::SCALAR_AGGREGATE) {
     executor = detail::KernelExecutor::MakeScalarAggregate();
   } else {
     return Status::NotImplemented("Direct execution of HASH_AGGREGATE functions");
   }
 
-  ARROW_ASSIGN_OR_RAISE(const Kernel* kernel, func.DispatchBest(&in_types));
-
-  // Cast arguments if necessary
-  for (size_t i = 0; i != args.size(); ++i) {
-    if (in_types[i] != args[i].type()) {
-      ARROW_ASSIGN_OR_RAISE(args[i], Cast(args[i], CastOptions::Safe(in_types[i]), ctx));
-    }
-  }
-
-  KernelContext kernel_ctx{ctx, kernel};
+  ARROW_ASSIGN_OR_RAISE(const Kernel* kernel, DispatchBest(&inputs));
 
-  std::unique_ptr<KernelState> state;
-  if (kernel->init) {
-    ARROW_ASSIGN_OR_RAISE(state, kernel->init(&kernel_ctx, {kernel, in_types, options}));
-    kernel_ctx.SetState(state.get());
-  }
-
-  RETURN_NOT_OK(executor->Init(&kernel_ctx, {kernel, in_types, options}));
+  return std::make_shared<detail::FunctionExecutorImpl>(std::move(inputs), kernel,
+                                                        std::move(executor), *this);
+}
 
-  detail::DatumAccumulator listener;
+namespace {
 
-  ExecBatch input(std::move(args), /*length=*/0);
-  if (input.num_values() == 0) {
-    if (passed_length != -1) {
-      input.length = passed_length;
-    }
-  } else {
-    bool all_same_length = false;
-    int64_t inferred_length = detail::InferBatchLength(input.values, &all_same_length);
-    input.length = inferred_length;
-    if (func.kind() == Function::SCALAR) {
-      if (passed_length != -1 && passed_length != inferred_length) {
-        return Status::Invalid(
-            "Passed batch length for execution did not match actual"
-            " length of values for scalar function execution");
-      }
-    } else if (func.kind() == Function::VECTOR) {
-      auto vkernel = static_cast<const VectorKernel*>(kernel);
-      if (!(all_same_length || !vkernel->can_execute_chunkwise)) {
-        return Status::Invalid("Vector kernel arguments must all be the same length");
-      }
-    }
-  }
-  RETURN_NOT_OK(executor->Execute(input, &listener));
-  const auto out = executor->WrapResults(input.values, listener.values());
-#ifndef NDEBUG
-  DCHECK_OK(executor->CheckResultType(out, func.name().c_str()));
-#endif
-  return out;
+Result<Datum> ExecuteInternal(const Function& func, std::vector<Datum> args,
+                              int64_t passed_length, const FunctionOptions* options,
+                              ExecContext* ctx) {
+  ARROW_ASSIGN_OR_RAISE(auto inputs, internal::GetFunctionArgumentTypes(args));
+  ARROW_ASSIGN_OR_RAISE(auto func_exec, func.GetBestExecutor(inputs));
+  ARROW_RETURN_NOT_OK(func_exec->Init(options, ctx));
+  return func_exec->Execute(args, passed_length);
 }
 
 }  // namespace
diff --git a/cpp/src/arrow/compute/function.h b/cpp/src/arrow/compute/function.h
index 7f2fba68caf..8a1b0da424a 100644
--- a/cpp/src/arrow/compute/function.h
+++ b/cpp/src/arrow/compute/function.h
@@ -159,6 +159,29 @@ struct ARROW_EXPORT FunctionDoc {
   static const FunctionDoc& Empty();
 };
 
+/// \brief An executor of a function with a preconfigured kernel
+class ARROW_EXPORT FunctionExecutor {
+ public:
+  virtual ~FunctionExecutor() = default;
+  /// \brief Initialize or re-initialize the preconfigured kernel
+  ///
+  /// This method may be called zero or more times. Depending on how
+  /// the FunctionExecutor was obtained, it may already have been initialized.
+  virtual Status Init(const FunctionOptions* options = NULLPTR,
+                      ExecContext* exec_ctx = NULLPTR) = 0;
+  /// \brief Execute the preconfigured kernel with arguments that must fit it
+  ///
+  /// The method requires the arguments be castable to the preconfigured types.
+  ///
+  /// \param[in] args Arguments to execute the function on
+  /// \param[in] length Length of arguments batch or -1 to default it. If the
+  /// function has no parameters, this determines the batch length, defaulting
+  /// to 0. Otherwise, if the function is scalar, this must equal the argument
+  /// batch's inferred length or be -1 to default to it. This is ignored for
+  /// vector functions.
+  virtual Result<Datum> Execute(const std::vector<Datum>& args, int64_t length = -1) = 0;
+};
+
 /// \brief Base class for compute functions. Function implementations contain a
 /// collection of "kernels" which are implementations of the function for
 /// specific argument types. Selecting a viable kernel for executing a function
@@ -225,6 +248,13 @@ class ARROW_EXPORT Function {
   /// required by the kernel.
   virtual Result<const Kernel*> DispatchBest(std::vector<TypeHolder>* values) const;
 
+  /// \brief Get a function executor with a best-matching kernel
+  ///
+  /// The returned executor will by default work with the default FunctionOptions
+  /// and KernelContext. If you want to change that, call `FunctionExecutor::Init`.
+  virtual Result<std::shared_ptr<FunctionExecutor>> GetBestExecutor(
+      std::vector<TypeHolder> inputs) const;
+
   /// \brief Execute the function eagerly with the passed input arguments with
   /// kernel dispatch, batch iteration, and memory allocation details taken
   /// care of.
diff --git a/cpp/src/arrow/compute/function_internal.cc b/cpp/src/arrow/compute/function_internal.cc
index 0a926e0a39c..cd73462e953 100644
--- a/cpp/src/arrow/compute/function_internal.cc
+++ b/cpp/src/arrow/compute/function_internal.cc
@@ -108,6 +108,27 @@ Result<std::unique_ptr<FunctionOptions>> DeserializeFunctionOptions(
   return FunctionOptionsFromStructScalar(scalar);
 }
 
+Status CheckAllArrayOrScalar(const std::vector<Datum>& values) {
+  for (const auto& value : values) {
+    if (!value.is_value()) {
+      return Status::TypeError(
+          "Tried executing function with non-array, non-scalar type: ", value.ToString());
+    }
+  }
+  return Status::OK();
+}
+
+Result<std::vector<TypeHolder>> GetFunctionArgumentTypes(const std::vector<Datum>& args) {
+  // type-check Datum arguments here. Really we'd like to avoid this as much as
+  // possible
+  RETURN_NOT_OK(CheckAllArrayOrScalar(args));
+  std::vector<TypeHolder> inputs(args.size());
+  for (size_t i = 0; i != args.size(); ++i) {
+    inputs[i] = TypeHolder(args[i].type());
+  }
+  return inputs;
+}
+
 }  // namespace internal
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/function_internal.h b/cpp/src/arrow/compute/function_internal.h
index 17261332619..cbf9d828741 100644
--- a/cpp/src/arrow/compute/function_internal.h
+++ b/cpp/src/arrow/compute/function_internal.h
@@ -74,7 +74,7 @@ Result<Enum> ValidateEnumValue(CType raw) {
   return Status::Invalid("Invalid value for ", EnumTraits<Enum>::name(), ": ", raw);
 }
 
-class GenericOptionsType : public FunctionOptionsType {
+class ARROW_EXPORT GenericOptionsType : public FunctionOptionsType {
  public:
   Result<std::shared_ptr<Buffer>> Serialize(const FunctionOptions&) const override;
   Result<std::unique_ptr<FunctionOptions>> Deserialize(
@@ -103,6 +103,12 @@ static inline enable_if_t<!has_enum_traits<T>::value, std::string> GenericToStri
   return ss.str();
 }
 
+template <typename T>
+static inline enable_if_t<!has_enum_traits<T>::value, std::string> GenericToString(
+    const std::optional<T>& value) {
+  return value.has_value() ? GenericToString(value.value()) : "nullopt";
+}
+
 static inline std::string GenericToString(bool value) { return value ? "true" : "false"; }
 
 static inline std::string GenericToString(const std::string& value) {
@@ -277,6 +283,12 @@ static inline Result<decltype(MakeScalar(std::declval<T>()))> GenericToScalar(
   return MakeScalar(value);
 }
 
+template <typename T>
+static inline Result<decltype(MakeScalar(std::declval<T>()))> GenericToScalar(
+    const std::optional<T>& value) {
+  return value.has_value() ? MakeScalar(value.value()) : MakeScalar(nullptr);
+}
+
 // For Clang/libc++: when iterating through vector<bool>, we can't
 // pass it by reference so the overload above doesn't apply
 static inline Result<std::shared_ptr<Scalar>> GenericToScalar(bool value) {
@@ -392,6 +404,26 @@ GenericFromScalar(const std::shared_ptr<Scalar>& value) {
   return ValidateEnumValue<T>(raw_val);
 }
 
+template <typename>
+constexpr bool is_optional_impl = false;
+template <typename T>
+constexpr bool is_optional_impl<std::optional<T>> = true;
+
+template <typename T>
+using is_optional =
+    std::integral_constant<bool, is_optional_impl<std::decay_t<T>> ||
+                                     std::is_same<T, std::nullopt_t>::value>;
+
+template <typename T, typename R = void>
+using enable_if_optional = enable_if_t<is_optional<T>::value, Result<T>>;
+
+template <typename T>
+static inline enable_if_optional<T> GenericFromScalar(
+    const std::shared_ptr<Scalar>& value) {
+  using value_type = typename T::value_type;
+  return GenericFromScalar<value_type>(value);
+}
+
 template <typename T, typename U>
 using enable_if_same_result = enable_if_same<T, U, Result<T>>;
 
@@ -647,13 +679,13 @@ const FunctionOptionsType* GetFunctionOptionsType(const Properties&... propertie
     }
     Result<std::unique_ptr<FunctionOptions>> FromStructScalar(
         const StructScalar& scalar) const override {
-      auto options = std::unique_ptr<Options>(new Options());
+      auto options = std::make_unique<Options>();
       RETURN_NOT_OK(
           FromStructScalarImpl<Options>(options.get(), scalar, properties_).status_);
       return std::move(options);
     }
     std::unique_ptr<FunctionOptions> Copy(const FunctionOptions& options) const override {
-      auto out = std::unique_ptr<Options>(new Options());
+      auto out = std::make_unique<Options>();
       CopyImpl<Options>(out.get(), checked_cast<const Options&>(options), properties_);
       return std::move(out);
     }
@@ -664,6 +696,11 @@ const FunctionOptionsType* GetFunctionOptionsType(const Properties&... propertie
   return &instance;
 }
 
+Status CheckAllArrayOrScalar(const std::vector<Datum>& values);
+
+ARROW_EXPORT
+Result<std::vector<TypeHolder>> GetFunctionArgumentTypes(const std::vector<Datum>& args);
+
 }  // namespace internal
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/function_test.cc b/cpp/src/arrow/compute/function_test.cc
index ea151e81f0b..b71e5a12b50 100644
--- a/cpp/src/arrow/compute/function_test.cc
+++ b/cpp/src/arrow/compute/function_test.cc
@@ -23,16 +23,20 @@
 #include <string>
 #include <vector>
 
+#include "arrow/array/builder_primitive.h"
 #include "arrow/compute/api_aggregate.h"
 #include "arrow/compute/api_scalar.h"
 #include "arrow/compute/api_vector.h"
 #include "arrow/compute/cast.h"
+#include "arrow/compute/function_internal.h"
 #include "arrow/compute/kernel.h"
 #include "arrow/datum.h"
 #include "arrow/status.h"
 #include "arrow/testing/gtest_util.h"
+#include "arrow/testing/matchers.h"
 #include "arrow/type.h"
 #include "arrow/util/key_value_metadata.h"
+#include "arrow/util/logging.h"
 
 namespace arrow {
 namespace compute {
@@ -351,5 +355,106 @@ TEST(ScalarAggregateFunction, DispatchExact) {
   ASSERT_TRUE(selected_kernel->signature->MatchesInputs(dispatch_args));
 }
 
+namespace {
+
+struct TestFunctionOptions : public FunctionOptions {
+  TestFunctionOptions();
+
+  static const char* kTypeName;
+
+  int value;
+};
+
+static auto kTestFunctionOptionsType =
+    internal::GetFunctionOptionsType<TestFunctionOptions>();
+
+TestFunctionOptions::TestFunctionOptions() : FunctionOptions(kTestFunctionOptionsType) {}
+
+const char* TestFunctionOptions::kTypeName = "test_options";
+
+}  // namespace
+
+TEST(FunctionExecutor, Basics) {
+  VectorFunction func("vector_test", Arity::Binary(), /*doc=*/FunctionDoc::Empty());
+  int init_calls = 0;
+  int expected_optval = 0;
+  ExecContext exec_ctx;
+  TestFunctionOptions options;
+  options.value = 1;
+  auto init =
+      [&](KernelContext* kernel_ctx,
+          const KernelInitArgs& init_args) -> Result<std::unique_ptr<KernelState>> {
+    if (&exec_ctx != kernel_ctx->exec_context()) {
+      return Status::Invalid("expected exec context not found in kernel context");
+    }
+    if (init_args.options != nullptr) {
+      const auto* test_opts = checked_cast<const TestFunctionOptions*>(init_args.options);
+      if (test_opts->value != expected_optval) {
+        return Status::Invalid("bad options value");
+      }
+    }
+    if (&options != init_args.options) {
+      return Status::Invalid("expected options not found in kernel init args");
+    }
+    ++init_calls;
+    return nullptr;
+  };
+  auto exec = [](KernelContext* ctx, const ExecSpan& args, ExecResult* out) -> Status {
+    [&]() {  // gtest ASSERT macros require a void function
+      ASSERT_EQ(2, args.values.size());
+      const int32_t* vals[2];
+      for (size_t i = 0; i < 2; i++) {
+        ASSERT_TRUE(args.values[i].is_array());
+        const ArraySpan& array = args.values[i].array;
+        ASSERT_EQ(array.type->id(), Type::INT32);
+        vals[i] = array.GetValues<int32_t>(1);
+      }
+      ASSERT_TRUE(out->is_array_data());
+      auto out_data = out->array_data();
+      Int32Builder builder;
+      for (int64_t i = 0; i < args.length; i++) {
+        ASSERT_OK(builder.Append(vals[0][i] + vals[1][i]));
+      }
+      ASSERT_OK_AND_ASSIGN(auto array, builder.Finish());
+      *out_data.get() = *array->data();
+    }();
+    return Status::OK();
+  };
+  std::vector<InputType> in_types = {int32(), int32()};
+  OutputType out_type = int32();
+  ASSERT_OK(func.AddKernel(in_types, out_type, exec, init));
+
+  ASSERT_OK_AND_ASSIGN(const Kernel* dispatched, func.DispatchExact({int32(), int32()}));
+  ASSERT_EQ(exec, static_cast<const ScalarKernel*>(dispatched)->exec);
+  std::vector<TypeHolder> inputs = {int32(), int32()};
+
+  ASSERT_OK_AND_ASSIGN(auto func_exec, func.GetBestExecutor(inputs));
+  ASSERT_EQ(0, init_calls);
+  EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid, ::testing::HasSubstr("options not found"),
+                                  func_exec->Init(nullptr, &exec_ctx));
+  EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid, ::testing::HasSubstr("bad options value"),
+                                  func_exec->Init(&options, &exec_ctx));
+  ExecContext other_exec_ctx;
+  EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid, ::testing::HasSubstr("exec context not found"),
+                                  func_exec->Init(&options, &other_exec_ctx));
+
+  ArrayVector arrays = {ArrayFromJSON(int32(), "[1]"), ArrayFromJSON(int32(), "[2]"),
+                        ArrayFromJSON(int32(), "[3]"), ArrayFromJSON(int32(), "[4]")};
+  ArrayVector expected = {ArrayFromJSON(int32(), "[3]"), ArrayFromJSON(int32(), "[5]"),
+                          ArrayFromJSON(int32(), "[7]")};
+  for (int n = 1; n <= 3; n++) {
+    expected_optval = options.value = n;
+    ASSERT_OK(func_exec->Init(&options, &exec_ctx));
+    ASSERT_EQ(n, init_calls);
+    for (int32_t i = 1; i <= 3; i++) {
+      std::vector<Datum> values = {arrays[i - 1], arrays[i]};
+      ASSERT_OK_AND_ASSIGN(auto result, func_exec->Execute(values, 1));
+      ASSERT_TRUE(result.is_array());
+      auto actual = result.make_array();
+      AssertArraysEqual(*expected[i - 1], *actual);
+    }
+  }
+}
+
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/kernels/CMakeLists.txt b/cpp/src/arrow/compute/kernels/CMakeLists.txt
index 780699886d2..5eadf5d0ea0 100644
--- a/cpp/src/arrow/compute/kernels/CMakeLists.txt
+++ b/cpp/src/arrow/compute/kernels/CMakeLists.txt
@@ -27,6 +27,7 @@ add_arrow_compute_test(scalar_test
                        scalar_if_else_test.cc
                        scalar_nested_test.cc
                        scalar_random_test.cc
+                       scalar_round_arithmetic_test.cc
                        scalar_set_lookup_test.cc
                        scalar_string_test.cc
                        scalar_temporal_test.cc
@@ -39,6 +40,7 @@ add_arrow_benchmark(scalar_cast_benchmark PREFIX "arrow-compute")
 add_arrow_benchmark(scalar_compare_benchmark PREFIX "arrow-compute")
 add_arrow_benchmark(scalar_if_else_benchmark PREFIX "arrow-compute")
 add_arrow_benchmark(scalar_random_benchmark PREFIX "arrow-compute")
+add_arrow_benchmark(scalar_round_benchmark PREFIX "arrow-compute")
 add_arrow_benchmark(scalar_set_lookup_benchmark PREFIX "arrow-compute")
 add_arrow_benchmark(scalar_string_benchmark PREFIX "arrow-compute")
 add_arrow_benchmark(scalar_temporal_benchmark PREFIX "arrow-compute")
diff --git a/cpp/src/arrow/compute/kernels/aggregate_basic.cc b/cpp/src/arrow/compute/kernels/aggregate_basic.cc
index 400ccbdf9f6..c2ea04d492b 100644
--- a/cpp/src/arrow/compute/kernels/aggregate_basic.cc
+++ b/cpp/src/arrow/compute/kernels/aggregate_basic.cc
@@ -22,7 +22,8 @@
 #include "arrow/compute/kernels/util_internal.h"
 #include "arrow/util/cpu_info.h"
 #include "arrow/util/hashing.h"
-#include "arrow/util/make_unique.h"
+
+#include <memory>
 
 namespace arrow {
 namespace compute {
@@ -119,8 +120,7 @@ struct CountImpl : public ScalarAggregator {
 
 Result<std::unique_ptr<KernelState>> CountInit(KernelContext*,
                                                const KernelInitArgs& args) {
-  return ::arrow::internal::make_unique<CountImpl>(
-      static_cast<const CountOptions&>(*args.options));
+  return std::make_unique<CountImpl>(static_cast<const CountOptions&>(*args.options));
 }
 
 // ----------------------------------------------------------------------
@@ -194,7 +194,7 @@ struct CountDistinctImpl : public ScalarAggregator {
 template <typename Type, typename VisitorArgType>
 Result<std::unique_ptr<KernelState>> CountDistinctInit(KernelContext* ctx,
                                                        const KernelInitArgs& args) {
-  return ::arrow::internal::make_unique<CountDistinctImpl<Type, VisitorArgType>>(
+  return std::make_unique<CountDistinctImpl<Type, VisitorArgType>>(
       ctx->memory_pool(), static_cast<const CountOptions&>(*args.options));
 }
 
@@ -233,11 +233,11 @@ void AddCountDistinctKernels(ScalarAggregateFunction* func) {
   AddCountDistinctKernel<DayTimeIntervalType>(day_time_interval(), func);
   AddCountDistinctKernel<MonthDayNanoIntervalType>(month_day_nano_interval(), func);
   // Binary & String
-  AddCountDistinctKernel<BinaryType, util::string_view>(match::BinaryLike(), func);
-  AddCountDistinctKernel<LargeBinaryType, util::string_view>(match::LargeBinaryLike(),
-                                                             func);
+  AddCountDistinctKernel<BinaryType, std::string_view>(match::BinaryLike(), func);
+  AddCountDistinctKernel<LargeBinaryType, std::string_view>(match::LargeBinaryLike(),
+                                                            func);
   // Fixed binary & Decimal
-  AddCountDistinctKernel<FixedSizeBinaryType, util::string_view>(
+  AddCountDistinctKernel<FixedSizeBinaryType, std::string_view>(
       match::FixedSizeBinaryLike(), func);
 }
 
@@ -516,7 +516,7 @@ struct BooleanAnyImpl : public ScalarAggregator {
 Result<std::unique_ptr<KernelState>> AnyInit(KernelContext*, const KernelInitArgs& args) {
   const ScalarAggregateOptions options =
       static_cast<const ScalarAggregateOptions&>(*args.options);
-  return ::arrow::internal::make_unique<BooleanAnyImpl>(
+  return std::make_unique<BooleanAnyImpl>(
       static_cast<const ScalarAggregateOptions&>(*args.options));
 }
 
@@ -586,7 +586,7 @@ struct BooleanAllImpl : public ScalarAggregator {
 };
 
 Result<std::unique_ptr<KernelState>> AllInit(KernelContext*, const KernelInitArgs& args) {
-  return ::arrow::internal::make_unique<BooleanAllImpl>(
+  return std::make_unique<BooleanAllImpl>(
       static_cast<const ScalarAggregateOptions&>(*args.options));
 }
 
diff --git a/cpp/src/arrow/compute/kernels/aggregate_basic_internal.h b/cpp/src/arrow/compute/kernels/aggregate_basic_internal.h
index bd2fe534608..aa89f8dc3b4 100644
--- a/cpp/src/arrow/compute/kernels/aggregate_basic_internal.h
+++ b/cpp/src/arrow/compute/kernels/aggregate_basic_internal.h
@@ -360,7 +360,7 @@ struct MinMaxState<ArrowType, SimdLevel, enable_if_decimal<ArrowType>> {
     return *this;
   }
 
-  void MergeOne(util::string_view value) {
+  void MergeOne(std::string_view value) {
     MergeOne(T(reinterpret_cast<const uint8_t*>(value.data())));
   }
 
@@ -398,14 +398,14 @@ struct MinMaxState<ArrowType, SimdLevel,
     return *this;
   }
 
-  void MergeOne(util::string_view value) {
+  void MergeOne(std::string_view value) {
     if (!seen) {
       this->min = std::string(value);
       this->max = std::string(value);
     } else {
-      if (value < util::string_view(this->min)) {
+      if (value < std::string_view(this->min)) {
         this->min = std::string(value);
-      } else if (value > util::string_view(this->max)) {
+      } else if (value > std::string_view(this->max)) {
         this->max = std::string(value);
       }
     }
diff --git a/cpp/src/arrow/compute/kernels/aggregate_internal.h b/cpp/src/arrow/compute/kernels/aggregate_internal.h
index 8db74bfe0cd..8fd67485d7f 100644
--- a/cpp/src/arrow/compute/kernels/aggregate_internal.h
+++ b/cpp/src/arrow/compute/kernels/aggregate_internal.h
@@ -164,7 +164,8 @@ enable_if_t<std::is_floating_point<SumType>::value, SumType> SumArray(
 
   // reduce summation of one block (may be smaller than kBlockSize) from leaf node
   // continue reducing to upper level if two summations are ready for non-leaf node
-  auto reduce = [&](SumType block_sum) {
+  // (capture `levels` by value because of ARROW-17567)
+  auto reduce = [&, levels](SumType block_sum) {
     int cur_level = 0;
     uint64_t cur_level_mask = 1ULL;
     sum[cur_level] += block_sum;
diff --git a/cpp/src/arrow/compute/kernels/aggregate_test.cc b/cpp/src/arrow/compute/kernels/aggregate_test.cc
index 8f400b2d249..c7ae70e2108 100644
--- a/cpp/src/arrow/compute/kernels/aggregate_test.cc
+++ b/cpp/src/arrow/compute/kernels/aggregate_test.cc
@@ -942,12 +942,12 @@ class TestCountDistinctKernel : public ::testing::Test {
     CheckScalar("count_distinct", {input}, Expected(expected_all), &all);
   }
 
-  void Check(const std::shared_ptr<DataType>& type, util::string_view json,
+  void Check(const std::shared_ptr<DataType>& type, std::string_view json,
              int64_t expected_all, bool has_nulls = true) {
     Check(ArrayFromJSON(type, json), expected_all, has_nulls);
   }
 
-  void Check(const std::shared_ptr<DataType>& type, util::string_view json) {
+  void Check(const std::shared_ptr<DataType>& type, std::string_view json) {
     auto input = ScalarFromJSON(type, json);
     auto zero = ResultWith(Expected(0));
     auto one = ResultWith(Expected(1));
diff --git a/cpp/src/arrow/compute/kernels/base_arithmetic_internal.h b/cpp/src/arrow/compute/kernels/base_arithmetic_internal.h
index f416881ccb8..1cccdca1481 100644
--- a/cpp/src/arrow/compute/kernels/base_arithmetic_internal.h
+++ b/cpp/src/arrow/compute/kernels/base_arithmetic_internal.h
@@ -485,6 +485,14 @@ struct NegateChecked {
   }
 };
 
+struct Exp {
+  template <typename T, typename Arg>
+  static T Call(KernelContext*, Arg exp, Status*) {
+    static_assert(std::is_same<T, Arg>::value, "");
+    return std::exp(exp);
+  }
+};
+
 struct Power {
   ARROW_NOINLINE
   static uint64_t IntegerPower(uint64_t base, uint64_t exp) {
diff --git a/cpp/src/arrow/compute/kernels/codegen_internal.h b/cpp/src/arrow/compute/kernels/codegen_internal.h
index a6ede14176c..dd40b7ae2b0 100644
--- a/cpp/src/arrow/compute/kernels/codegen_internal.h
+++ b/cpp/src/arrow/compute/kernels/codegen_internal.h
@@ -20,7 +20,9 @@
 #include <cstdint>
 #include <cstring>
 #include <memory>
+#include <optional>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
@@ -45,9 +47,6 @@
 #include "arrow/util/decimal.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/make_unique.h"
-#include "arrow/util/optional.h"
-#include "arrow/util/string_view.h"
 #include "arrow/visit_data_inline.h"
 
 namespace arrow {
@@ -75,7 +74,7 @@ struct OptionsWrapper : public KernelState {
   static Result<std::unique_ptr<KernelState>> Init(KernelContext* ctx,
                                                    const KernelInitArgs& args) {
     if (auto options = static_cast<const OptionsType*>(args.options)) {
-      return ::arrow::internal::make_unique<OptionsWrapper>(*options);
+      return std::make_unique<OptionsWrapper>(*options);
     }
 
     return Status::Invalid(
@@ -101,8 +100,7 @@ struct KernelStateFromFunctionOptions : public KernelState {
   static Result<std::unique_ptr<KernelState>> Init(KernelContext* ctx,
                                                    const KernelInitArgs& args) {
     if (auto options = static_cast<const OptionsType*>(args.options)) {
-      return ::arrow::internal::make_unique<KernelStateFromFunctionOptions>(ctx,
-                                                                            *options);
+      return std::make_unique<KernelStateFromFunctionOptions>(ctx, *options);
     }
 
     return Status::Invalid(
@@ -136,7 +134,7 @@ struct GetViewType<Type, enable_if_has_c_type<Type>> {
 template <typename Type>
 struct GetViewType<Type, enable_if_t<is_base_binary_type<Type>::value ||
                                      is_fixed_size_binary_type<Type>::value>> {
-  using T = util::string_view;
+  using T = std::string_view;
   using PhysicalType = T;
 
   static T LogicalValue(PhysicalType value) { return value; }
@@ -145,7 +143,7 @@ struct GetViewType<Type, enable_if_t<is_base_binary_type<Type>::value ||
 template <>
 struct GetViewType<Decimal128Type> {
   using T = Decimal128;
-  using PhysicalType = util::string_view;
+  using PhysicalType = std::string_view;
 
   static T LogicalValue(PhysicalType value) {
     return Decimal128(reinterpret_cast<const uint8_t*>(value.data()));
@@ -157,7 +155,7 @@ struct GetViewType<Decimal128Type> {
 template <>
 struct GetViewType<Decimal256Type> {
   using T = Decimal256;
-  using PhysicalType = util::string_view;
+  using PhysicalType = std::string_view;
 
   static T LogicalValue(PhysicalType value) {
     return Decimal256(reinterpret_cast<const uint8_t*>(value.data()));
@@ -271,9 +269,9 @@ struct ArrayIterator<Type, enable_if_base_binary<Type>> {
         data(reinterpret_cast<const char*>(arr.buffers[2].data)),
         position(0) {}
 
-  util::string_view operator()() {
+  std::string_view operator()() {
     offset_type next_offset = offsets[++position];
-    auto result = util::string_view(data + cur_offset, next_offset - cur_offset);
+    auto result = std::string_view(data + cur_offset, next_offset - cur_offset);
     cur_offset = next_offset;
     return result;
   }
@@ -292,8 +290,8 @@ struct ArrayIterator<FixedSizeBinaryType> {
         width(arr.type->byte_width()),
         position(arr.offset) {}
 
-  util::string_view operator()() {
-    auto result = util::string_view(data + position * width, width);
+  std::string_view operator()() {
+    auto result = std::string_view(data + position * width, width);
     position++;
     return result;
   }
@@ -331,7 +329,7 @@ template <typename Type>
 struct UnboxScalar<Type, enable_if_has_c_type<Type>> {
   using T = typename Type::c_type;
   static T Unbox(const Scalar& val) {
-    util::string_view view =
+    std::string_view view =
         checked_cast<const ::arrow::internal::PrimitiveScalarBase&>(val).view();
     DCHECK_EQ(view.size(), sizeof(T));
     return *reinterpret_cast<const T*>(view.data());
@@ -340,9 +338,9 @@ struct UnboxScalar<Type, enable_if_has_c_type<Type>> {
 
 template <typename Type>
 struct UnboxScalar<Type, enable_if_has_string_view<Type>> {
-  using T = util::string_view;
+  using T = std::string_view;
   static T Unbox(const Scalar& val) {
-    if (!val.is_valid) return util::string_view();
+    if (!val.is_valid) return std::string_view();
     return checked_cast<const ::arrow::internal::PrimitiveScalarBase&>(val).view();
   }
 };
@@ -401,7 +399,7 @@ struct BoxScalar<Decimal256Type> {
 };
 
 // A VisitArraySpanInline variant that calls its visitor function with logical
-// values, such as Decimal128 rather than util::string_view.
+// values, such as Decimal128 rather than std::string_view.
 
 template <typename T, typename VisitFunc, typename NullFunc>
 static typename ::arrow::internal::call_traits::enable_if_return<VisitFunc, void>::type
diff --git a/cpp/src/arrow/compute/kernels/common.h b/cpp/src/arrow/compute/kernels/common.h
index 21244320f38..bf90d114512 100644
--- a/cpp/src/arrow/compute/kernels/common.h
+++ b/cpp/src/arrow/compute/kernels/common.h
@@ -22,6 +22,7 @@
 #include <cstdint>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <type_traits>
 #include <utility>
 #include <vector>
@@ -42,7 +43,6 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/string_view.h"
 
 // IWYU pragma: end_exports
 
diff --git a/cpp/src/arrow/compute/kernels/copy_data_internal.h b/cpp/src/arrow/compute/kernels/copy_data_internal.h
index 2e13563980c..a4083e7e065 100644
--- a/cpp/src/arrow/compute/kernels/copy_data_internal.h
+++ b/cpp/src/arrow/compute/kernels/copy_data_internal.h
@@ -58,7 +58,7 @@ struct CopyDataUtils<FixedSizeBinaryType> {
     if (!scalar.is_valid) {
       std::memset(begin, 0x00, width * length);
     } else {
-      const util::string_view buffer = scalar.view();
+      const std::string_view buffer = scalar.view();
       DCHECK_GE(buffer.size(), static_cast<size_t>(width));
       for (int i = 0; i < length; i++) {
         std::memcpy(begin, buffer.data(), width);
diff --git a/cpp/src/arrow/compute/kernels/hash_aggregate.cc b/cpp/src/arrow/compute/kernels/hash_aggregate.cc
index 4537c32eb38..fe2b4af2059 100644
--- a/cpp/src/arrow/compute/kernels/hash_aggregate.cc
+++ b/cpp/src/arrow/compute/kernels/hash_aggregate.cc
@@ -49,7 +49,6 @@
 #include "arrow/util/cpu_info.h"
 #include "arrow/util/int128_internal.h"
 #include "arrow/util/int_util_overflow.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/task_group.h"
 #include "arrow/util/tdigest.h"
 #include "arrow/util/thread_pool.h"
@@ -84,7 +83,7 @@ struct GroupedAggregator : KernelState {
 template <typename Impl>
 Result<std::unique_ptr<KernelState>> HashAggregateInit(KernelContext* ctx,
                                                        const KernelInitArgs& args) {
-  auto impl = ::arrow::internal::make_unique<Impl>();
+  auto impl = std::make_unique<Impl>();
   RETURN_NOT_OK(impl->Init(ctx->exec_context(), args));
   return std::move(impl);
 }
@@ -972,7 +971,7 @@ struct GroupedVarStdImpl : public GroupedAggregator {
 template <typename T, VarOrStd result_type>
 Result<std::unique_ptr<KernelState>> VarStdInit(KernelContext* ctx,
                                                 const KernelInitArgs& args) {
-  auto impl = ::arrow::internal::make_unique<GroupedVarStdImpl<T>>();
+  auto impl = std::make_unique<GroupedVarStdImpl<T>>();
   impl->result_type_ = result_type;
   RETURN_NOT_OK(impl->Init(ctx->exec_context(), args));
   return std::move(impl);
@@ -1373,7 +1372,7 @@ struct GroupedMinMaxImpl<Type,
   Status Consume(const ExecSpan& batch) override {
     return VisitGroupedValues<Type>(
         batch,
-        [&](uint32_t g, util::string_view val) {
+        [&](uint32_t g, std::string_view val) {
           if (!mins_[g] || val < *mins_[g]) {
             mins_[g].emplace(val.data(), val.size(), allocator_);
           }
@@ -1435,7 +1434,7 @@ struct GroupedMinMaxImpl<Type,
 
   template <typename T = Type>
   enable_if_base_binary<T, Status> MakeOffsetsValues(
-      ArrayData* array, const std::vector<util::optional<StringType>>& values) {
+      ArrayData* array, const std::vector<std::optional<StringType>>& values) {
     using offset_type = typename T::offset_type;
     ARROW_ASSIGN_OR_RAISE(
         auto raw_offsets,
@@ -1447,7 +1446,7 @@ struct GroupedMinMaxImpl<Type,
     offset_type total_length = 0;
     for (size_t i = 0; i < values.size(); i++) {
       if (bit_util::GetBit(null_bitmap, i)) {
-        const util::optional<StringType>& value = values[i];
+        const std::optional<StringType>& value = values[i];
         DCHECK(value.has_value());
         if (value->size() >
                 static_cast<size_t>(std::numeric_limits<offset_type>::max()) ||
@@ -1463,7 +1462,7 @@ struct GroupedMinMaxImpl<Type,
     int64_t offset = 0;
     for (size_t i = 0; i < values.size(); i++) {
       if (bit_util::GetBit(null_bitmap, i)) {
-        const util::optional<StringType>& value = values[i];
+        const std::optional<StringType>& value = values[i];
         DCHECK(value.has_value());
         std::memcpy(data->mutable_data() + offset, value->data(), value->size());
         offset += value->size();
@@ -1476,7 +1475,7 @@ struct GroupedMinMaxImpl<Type,
 
   template <typename T = Type>
   enable_if_same<T, FixedSizeBinaryType, Status> MakeOffsetsValues(
-      ArrayData* array, const std::vector<util::optional<StringType>>& values) {
+      ArrayData* array, const std::vector<std::optional<StringType>>& values) {
     const uint8_t* null_bitmap = array->buffers[0]->data();
     const int32_t slot_width =
         checked_cast<const FixedSizeBinaryType&>(*array->type).byte_width();
@@ -1485,7 +1484,7 @@ struct GroupedMinMaxImpl<Type,
     int64_t offset = 0;
     for (size_t i = 0; i < values.size(); i++) {
       if (bit_util::GetBit(null_bitmap, i)) {
-        const util::optional<StringType>& value = values[i];
+        const std::optional<StringType>& value = values[i];
         DCHECK(value.has_value());
         std::memcpy(data->mutable_data() + offset, value->data(), slot_width);
       } else {
@@ -1504,7 +1503,7 @@ struct GroupedMinMaxImpl<Type,
   ExecContext* ctx_;
   Allocator allocator_;
   int64_t num_groups_;
-  std::vector<util::optional<StringType>> mins_, maxes_;
+  std::vector<std::optional<StringType>> mins_, maxes_;
   TypedBufferBuilder<bool> has_values_, has_nulls_;
   std::shared_ptr<DataType> type_;
   ScalarAggregateOptions options_;
@@ -2092,7 +2091,7 @@ struct GroupedOneImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
   Status Consume(const ExecSpan& batch) override {
     return VisitGroupedValues<Type>(
         batch,
-        [&](uint32_t g, util::string_view val) -> Status {
+        [&](uint32_t g, std::string_view val) -> Status {
           if (!bit_util::GetBit(has_one_.data(), g)) {
             ones_[g].emplace(val.data(), val.size(), allocator_);
             bit_util::SetBit(has_one_.mutable_data(), g);
@@ -2128,7 +2127,7 @@ struct GroupedOneImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
 
   template <typename T = Type>
   enable_if_base_binary<T, Status> MakeOffsetsValues(
-      ArrayData* array, const std::vector<util::optional<StringType>>& values) {
+      ArrayData* array, const std::vector<std::optional<StringType>>& values) {
     using offset_type = typename T::offset_type;
     ARROW_ASSIGN_OR_RAISE(
         auto raw_offsets,
@@ -2140,7 +2139,7 @@ struct GroupedOneImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
     offset_type total_length = 0;
     for (size_t i = 0; i < values.size(); i++) {
       if (bit_util::GetBit(null_bitmap, i)) {
-        const util::optional<StringType>& value = values[i];
+        const std::optional<StringType>& value = values[i];
         DCHECK(value.has_value());
         if (value->size() >
                 static_cast<size_t>(std::numeric_limits<offset_type>::max()) ||
@@ -2156,7 +2155,7 @@ struct GroupedOneImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
     int64_t offset = 0;
     for (size_t i = 0; i < values.size(); i++) {
       if (bit_util::GetBit(null_bitmap, i)) {
-        const util::optional<StringType>& value = values[i];
+        const std::optional<StringType>& value = values[i];
         DCHECK(value.has_value());
         std::memcpy(data->mutable_data() + offset, value->data(), value->size());
         offset += value->size();
@@ -2169,7 +2168,7 @@ struct GroupedOneImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
 
   template <typename T = Type>
   enable_if_same<T, FixedSizeBinaryType, Status> MakeOffsetsValues(
-      ArrayData* array, const std::vector<util::optional<StringType>>& values) {
+      ArrayData* array, const std::vector<std::optional<StringType>>& values) {
     const uint8_t* null_bitmap = array->buffers[0]->data();
     const int32_t slot_width =
         checked_cast<const FixedSizeBinaryType&>(*array->type).byte_width();
@@ -2178,7 +2177,7 @@ struct GroupedOneImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
     int64_t offset = 0;
     for (size_t i = 0; i < values.size(); i++) {
       if (bit_util::GetBit(null_bitmap, i)) {
-        const util::optional<StringType>& value = values[i];
+        const std::optional<StringType>& value = values[i];
         DCHECK(value.has_value());
         std::memcpy(data->mutable_data() + offset, value->data(), slot_width);
       } else {
@@ -2195,7 +2194,7 @@ struct GroupedOneImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
   ExecContext* ctx_;
   Allocator allocator_;
   int64_t num_groups_;
-  std::vector<util::optional<StringType>> ones_;
+  std::vector<std::optional<StringType>> ones_;
   TypedBufferBuilder<bool> has_one_;
   std::shared_ptr<DataType> out_type_;
 };
@@ -2419,7 +2418,7 @@ struct GroupedListImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
     num_args_ += num_values;
     return VisitGroupedValues<Type>(
         batch,
-        [&](uint32_t group, util::string_view val) -> Status {
+        [&](uint32_t group, std::string_view val) -> Status {
           values_.emplace_back(StringType(val.data(), val.size(), allocator_));
           return Status::OK();
         },
@@ -2467,7 +2466,7 @@ struct GroupedListImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
 
   template <typename T = Type>
   enable_if_base_binary<T, Status> MakeOffsetsValues(
-      ArrayData* array, const std::vector<util::optional<StringType>>& values) {
+      ArrayData* array, const std::vector<std::optional<StringType>>& values) {
     using offset_type = typename T::offset_type;
     ARROW_ASSIGN_OR_RAISE(
         auto raw_offsets,
@@ -2479,7 +2478,7 @@ struct GroupedListImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
     offset_type total_length = 0;
     for (size_t i = 0; i < values.size(); i++) {
       if (bit_util::GetBit(null_bitmap, i)) {
-        const util::optional<StringType>& value = values[i];
+        const std::optional<StringType>& value = values[i];
         DCHECK(value.has_value());
         if (value->size() >
                 static_cast<size_t>(std::numeric_limits<offset_type>::max()) ||
@@ -2495,7 +2494,7 @@ struct GroupedListImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
     int64_t offset = 0;
     for (size_t i = 0; i < values.size(); i++) {
       if (bit_util::GetBit(null_bitmap, i)) {
-        const util::optional<StringType>& value = values[i];
+        const std::optional<StringType>& value = values[i];
         DCHECK(value.has_value());
         std::memcpy(data->mutable_data() + offset, value->data(), value->size());
         offset += value->size();
@@ -2508,7 +2507,7 @@ struct GroupedListImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
 
   template <typename T = Type>
   enable_if_same<T, FixedSizeBinaryType, Status> MakeOffsetsValues(
-      ArrayData* array, const std::vector<util::optional<StringType>>& values) {
+      ArrayData* array, const std::vector<std::optional<StringType>>& values) {
     const uint8_t* null_bitmap = array->buffers[0]->data();
     const int32_t slot_width =
         checked_cast<const FixedSizeBinaryType&>(*array->type).byte_width();
@@ -2517,7 +2516,7 @@ struct GroupedListImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
     int64_t offset = 0;
     for (size_t i = 0; i < values.size(); i++) {
       if (bit_util::GetBit(null_bitmap, i)) {
-        const util::optional<StringType>& value = values[i];
+        const std::optional<StringType>& value = values[i];
         DCHECK(value.has_value());
         std::memcpy(data->mutable_data() + offset, value->data(), slot_width);
       } else {
@@ -2534,7 +2533,7 @@ struct GroupedListImpl<Type, enable_if_t<is_base_binary_type<Type>::value ||
   ExecContext* ctx_;
   Allocator allocator_;
   int64_t num_groups_, num_args_ = 0;
-  std::vector<util::optional<StringType>> values_;
+  std::vector<std::optional<StringType>> values_;
   TypedBufferBuilder<uint32_t> groups_;
   TypedBufferBuilder<bool> values_bitmap_;
   std::shared_ptr<DataType> out_type_;
diff --git a/cpp/src/arrow/compute/kernels/hash_aggregate_test.cc b/cpp/src/arrow/compute/kernels/hash_aggregate_test.cc
index f599f9abb60..50d8cd49aba 100644
--- a/cpp/src/arrow/compute/kernels/hash_aggregate_test.cc
+++ b/cpp/src/arrow/compute/kernels/hash_aggregate_test.cc
@@ -124,14 +124,14 @@ Result<Datum> NaiveGroupBy(std::vector<Datum> arguments, std::vector<Datum> keys
 Result<Datum> GroupByUsingExecPlan(const BatchesWithSchema& input,
                                    const std::vector<std::string>& key_names,
                                    const std::vector<Aggregate>& aggregates,
-                                   bool use_threads, ExecContext* ctx) {
+                                   bool use_threads) {
   std::vector<FieldRef> keys(key_names.size());
   for (size_t i = 0; i < key_names.size(); ++i) {
     keys[i] = FieldRef(key_names[i]);
   }
 
-  ARROW_ASSIGN_OR_RAISE(auto plan, ExecPlan::Make(ctx));
-  AsyncGenerator<util::optional<ExecBatch>> sink_gen;
+  ARROW_ASSIGN_OR_RAISE(auto plan, ExecPlan::Make(*threaded_exec_context()));
+  AsyncGenerator<std::optional<ExecBatch>> sink_gen;
   RETURN_NOT_OK(
       Declaration::Sequence(
           {
@@ -148,11 +148,13 @@ Result<Datum> GroupByUsingExecPlan(const BatchesWithSchema& input,
   auto collected_fut = CollectAsyncGenerator(sink_gen);
 
   auto start_and_collect =
-      AllComplete({plan->finished(), Future<>(collected_fut)})
+      AllFinished({plan->finished(), Future<>(collected_fut)})
           .Then([collected_fut]() -> Result<std::vector<ExecBatch>> {
             ARROW_ASSIGN_OR_RAISE(auto collected, collected_fut.result());
             return ::arrow::internal::MapVector(
-                [](util::optional<ExecBatch> batch) { return std::move(*batch); },
+                [](std::optional<ExecBatch> batch) {
+                  return batch.value_or(ExecBatch());
+                },
                 std::move(collected));
           });
 
@@ -176,14 +178,37 @@ Result<Datum> GroupByUsingExecPlan(const BatchesWithSchema& input,
     }
   }
 
-  return StructArray::Make(std::move(out_arrays), output_schema->fields());
+  // The exec plan may reorder the output rows.  The tests are all setup to expect ouptut
+  // in ascending order of keys.  So we need to sort the result by the key columns.  To do
+  // that we create a table using the key columns, calculate the sort indices from that
+  // table (sorting on all fields) and then use those indices to calculate our result.
+  std::vector<std::shared_ptr<Field>> key_fields;
+  std::vector<std::shared_ptr<Array>> key_columns;
+  std::vector<SortKey> sort_keys;
+  for (std::size_t i = 0; i < key_names.size(); i++) {
+    const std::shared_ptr<Array>& arr = out_arrays[i + aggregates.size()];
+    key_columns.push_back(arr);
+    key_fields.push_back(field("name_does_not_matter", arr->type()));
+    sort_keys.emplace_back(static_cast<int>(i));
+  }
+  std::shared_ptr<Schema> key_schema = schema(std::move(key_fields));
+  std::shared_ptr<Table> key_table = Table::Make(std::move(key_schema), key_columns);
+  SortOptions sort_options(std::move(sort_keys));
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Array> sort_indices,
+                        SortIndices(key_table, sort_options));
+
+  ARROW_ASSIGN_OR_RAISE(
+      std::shared_ptr<Array> struct_arr,
+      StructArray::Make(std::move(out_arrays), output_schema->fields()));
+
+  return Take(struct_arr, sort_indices);
 }
 
 /// Simpler overload where you can give the columns as datums
 Result<Datum> GroupByUsingExecPlan(const std::vector<Datum>& arguments,
                                    const std::vector<Datum>& keys,
                                    const std::vector<Aggregate>& aggregates,
-                                   bool use_threads, ExecContext* ctx) {
+                                   bool use_threads) {
   using arrow::compute::detail::ExecSpanIterator;
 
   FieldVector scan_fields(arguments.size() + keys.size());
@@ -204,7 +229,7 @@ Result<Datum> GroupByUsingExecPlan(const std::vector<Datum>& arguments,
 
   ExecSpanIterator span_iterator;
   ARROW_ASSIGN_OR_RAISE(auto batch, ExecBatch::Make(inputs));
-  RETURN_NOT_OK(span_iterator.Init(batch, ctx->exec_chunksize()));
+  RETURN_NOT_OK(span_iterator.Init(batch));
   BatchesWithSchema input;
   input.schema = schema(std::move(scan_fields));
   ExecSpan span;
@@ -213,7 +238,7 @@ Result<Datum> GroupByUsingExecPlan(const std::vector<Datum>& arguments,
     input.batches.push_back(span.ToExecBatch());
   }
 
-  return GroupByUsingExecPlan(input, key_names, aggregates, use_threads, ctx);
+  return GroupByUsingExecPlan(input, key_names, aggregates, use_threads);
 }
 
 void ValidateGroupBy(const std::vector<Aggregate>& aggregates,
@@ -253,8 +278,7 @@ Result<Datum> GroupByTest(const std::vector<Datum>& arguments,
     idx = idx + 1;
   }
   if (use_exec_plan) {
-    return GroupByUsingExecPlan(arguments, keys, internal_aggregates, use_threads,
-                                small_chunksize_context(use_threads));
+    return GroupByUsingExecPlan(arguments, keys, internal_aggregates, use_threads);
   } else {
     return internal::GroupBy(arguments, keys, internal_aggregates, use_threads,
                              default_exec_context());
@@ -880,7 +904,7 @@ TEST(GroupBy, CountScalar) {
                                  {"hash_count", keep_nulls, "argument", "hash_count"},
                                  {"hash_count", count_all, "argument", "hash_count"},
                              },
-                             use_threads, default_exec_context()));
+                             use_threads));
     Datum expected = ArrayFromJSON(struct_({
                                        field("hash_count", int64()),
                                        field("hash_count", int64()),
@@ -1093,7 +1117,7 @@ TEST(GroupBy, SumMeanProductScalar) {
                                  {"hash_mean", nullptr, "argument", "hash_mean"},
                                  {"hash_product", nullptr, "argument", "hash_product"},
                              },
-                             use_threads, default_exec_context()));
+                             use_threads));
     Datum expected = ArrayFromJSON(struct_({
                                        field("hash_sum", int64()),
                                        field("hash_mean", float64()),
@@ -1490,7 +1514,7 @@ TEST(GroupBy, StddevVarianceTDigestScalar) {
                                  {"hash_variance", nullptr, "argument1", "hash_variance"},
                                  {"hash_tdigest", nullptr, "argument1", "hash_tdigest"},
                              },
-                             use_threads, default_exec_context()));
+                             use_threads));
     Datum expected =
         ArrayFromJSON(struct_({
                           field("hash_stddev", float64()),
@@ -1552,7 +1576,7 @@ TEST(GroupBy, VarianceOptions) {
                 {"hash_variance", min_count, "argument", "hash_variance"},
                 {"hash_variance", keep_nulls_min_count, "argument", "hash_variance"},
             },
-            use_threads, default_exec_context()));
+            use_threads));
     Datum expected = ArrayFromJSON(struct_({
                                        field("hash_stddev", float64()),
                                        field("hash_stddev", float64()),
@@ -1583,7 +1607,7 @@ TEST(GroupBy, VarianceOptions) {
                 {"hash_variance", min_count, "argument1", "hash_variance"},
                 {"hash_variance", keep_nulls_min_count, "argument1", "hash_variance"},
             },
-            use_threads, default_exec_context()));
+            use_threads));
     expected = ArrayFromJSON(struct_({
                                  field("hash_stddev", float64()),
                                  field("hash_stddev", float64()),
@@ -2012,7 +2036,7 @@ TEST(GroupBy, MinMaxScalar) {
         Datum actual,
         GroupByUsingExecPlan(input, {"key"},
                              {{"hash_min_max", nullptr, "argument", "hash_min_max"}},
-                             use_threads, default_exec_context()));
+                             use_threads));
     Datum expected =
         ArrayFromJSON(struct_({
                           field("hash_min_max",
@@ -2142,7 +2166,7 @@ TEST(GroupBy, AnyAllScalar) {
                                  {"hash_any", keep_nulls, "argument", "hash_any"},
                                  {"hash_all", keep_nulls, "argument", "hash_all"},
                              },
-                             use_threads, default_exec_context()));
+                             use_threads));
     Datum expected = ArrayFromJSON(struct_({
                                        field("hash_any", boolean()),
                                        field("hash_all", boolean()),
@@ -2763,7 +2787,7 @@ TEST(GroupBy, OneScalar) {
     ASSERT_OK_AND_ASSIGN(
         Datum actual, GroupByUsingExecPlan(
                           input, {"key"}, {{"hash_one", nullptr, "argument", "hash_one"}},
-                          use_threads, default_exec_context()));
+                          use_threads));
 
     const auto& struct_arr = actual.array_as<StructArray>();
     //  Check the key column
diff --git a/cpp/src/arrow/compute/kernels/row_encoder.cc b/cpp/src/arrow/compute/kernels/row_encoder.cc
index beff3436100..f553708cca5 100644
--- a/cpp/src/arrow/compute/kernels/row_encoder.cc
+++ b/cpp/src/arrow/compute/kernels/row_encoder.cc
@@ -19,7 +19,8 @@
 
 #include "arrow/util/bitmap_writer.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
+
+#include <memory>
 
 namespace arrow {
 
@@ -145,7 +146,7 @@ Status FixedWidthKeyEncoder::Encode(const ExecValue& data, int64_t batch_length,
     viewed.type = view_ty.get();
     VisitArraySpanInline<FixedSizeBinaryType>(
         viewed,
-        [&](util::string_view bytes) {
+        [&](std::string_view bytes) {
           auto& encoded_ptr = *encoded_bytes++;
           *encoded_ptr++ = kValidByte;
           memcpy(encoded_ptr, bytes.data(), byte_width_);
@@ -160,7 +161,7 @@ Status FixedWidthKeyEncoder::Encode(const ExecValue& data, int64_t batch_length,
   } else {
     const auto& scalar = data.scalar_as<arrow::internal::PrimitiveScalarBase>();
     if (scalar.is_valid) {
-      const util::string_view data = scalar.view();
+      const std::string_view data = scalar.view();
       DCHECK_EQ(data.size(), static_cast<size_t>(byte_width_));
       for (int64_t i = 0; i < batch_length; i++) {
         auto& encoded_ptr = *encoded_bytes++;
@@ -257,9 +258,20 @@ Result<std::shared_ptr<ArrayData>> DictionaryKeyEncoder::Decode(uint8_t** encode
 void RowEncoder::Init(const std::vector<TypeHolder>& column_types, ExecContext* ctx) {
   ctx_ = ctx;
   encoders_.resize(column_types.size());
+  extension_types_.resize(column_types.size());
 
   for (size_t i = 0; i < column_types.size(); ++i) {
-    const TypeHolder& type = column_types[i];
+    const bool is_extension = column_types[i].id() == Type::EXTENSION;
+    const TypeHolder& type = is_extension
+                                 ? arrow::internal::checked_pointer_cast<ExtensionType>(
+                                       column_types[i].GetSharedPtr())
+                                       ->storage_type()
+                                 : column_types[i];
+
+    if (is_extension) {
+      extension_types_[i] = arrow::internal::checked_pointer_cast<ExtensionType>(
+          column_types[i].GetSharedPtr());
+    }
     if (type.id() == Type::BOOL) {
       encoders_[i] = std::make_shared<BooleanKeyEncoder>();
       continue;
@@ -354,9 +366,16 @@ Result<ExecBatch> RowEncoder::Decode(int64_t num_rows, const int32_t* row_ids) {
   out.values.resize(encoders_.size());
   for (size_t i = 0; i < encoders_.size(); ++i) {
     ARROW_ASSIGN_OR_RAISE(
-        out.values[i],
+        auto column_array_data,
         encoders_[i]->Decode(buf_ptrs.data(), static_cast<int32_t>(num_rows),
                              ctx_->memory_pool()));
+
+    if (extension_types_[i] != nullptr) {
+      ARROW_ASSIGN_OR_RAISE(out.values[i], ::arrow::internal::GetArrayView(
+                                               column_array_data, extension_types_[i]))
+    } else {
+      out.values[i] = column_array_data;
+    }
   }
 
   return out;
diff --git a/cpp/src/arrow/compute/kernels/row_encoder.h b/cpp/src/arrow/compute/kernels/row_encoder.h
index 57240172488..5fe80e0f506 100644
--- a/cpp/src/arrow/compute/kernels/row_encoder.h
+++ b/cpp/src/arrow/compute/kernels/row_encoder.h
@@ -121,7 +121,7 @@ struct VarLengthKeyEncoder : KeyEncoder {
       int64_t i = 0;
       VisitArraySpanInline<T>(
           data.array,
-          [&](util::string_view bytes) {
+          [&](std::string_view bytes) {
             lengths[i++] +=
                 kExtraByteForNull + sizeof(Offset) + static_cast<int32_t>(bytes.size());
           },
@@ -146,7 +146,7 @@ struct VarLengthKeyEncoder : KeyEncoder {
     if (data.is_array()) {
       VisitArraySpanInline<T>(
           data.array,
-          [&](util::string_view bytes) {
+          [&](std::string_view bytes) {
             auto& encoded_ptr = *encoded_bytes++;
             *encoded_ptr++ = kValidByte;
             util::SafeStore(encoded_ptr, static_cast<Offset>(bytes.size()));
@@ -280,6 +280,7 @@ class ARROW_EXPORT RowEncoder {
   std::vector<int32_t> offsets_;
   std::vector<uint8_t> bytes_;
   std::vector<uint8_t> encoded_nulls_;
+  std::vector<std::shared_ptr<ExtensionType>> extension_types_;
 };
 
 }  // namespace internal
diff --git a/cpp/src/arrow/compute/kernels/scalar_arithmetic.cc b/cpp/src/arrow/compute/kernels/scalar_arithmetic.cc
index 984c3b56538..4de7755ef07 100644
--- a/cpp/src/arrow/compute/kernels/scalar_arithmetic.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_arithmetic.cc
@@ -56,32 +56,6 @@ using applicator::ScalarUnaryNotNullStateful;
 
 namespace {
 
-// Convenience visitor to detect if a numeric Scalar is positive.
-struct IsPositiveVisitor {
-  bool result = false;
-
-  template <typename... Ts>
-  Status Visit(const NumericScalar<Ts...>& scalar) {
-    result = scalar.value > 0;
-    return Status::OK();
-  }
-  template <typename... Ts>
-  Status Visit(const DecimalScalar<Ts...>& scalar) {
-    result = scalar.value > 0;
-    return Status::OK();
-  }
-  Status Visit(const Scalar& scalar) { return Status::OK(); }
-};
-
-bool IsPositive(const Scalar& scalar) {
-  IsPositiveVisitor visitor{};
-  std::ignore = VisitScalarInline(scalar, &visitor);
-  return visitor.result;
-}
-
-// N.B. take care not to conflict with type_traits.h as that can cause surprises in a
-// unity build
-
 // Bitwise operations
 
 struct BitWiseNot {
@@ -452,556 +426,6 @@ struct LogbChecked {
   }
 };
 
-struct RoundUtil {
-  // Calculate powers of ten with arbitrary integer exponent
-  template <typename T = double>
-  static enable_if_floating_value<T> Pow10(int64_t power) {
-    static constexpr T lut[] = {1e0F, 1e1F, 1e2F,  1e3F,  1e4F,  1e5F,  1e6F,  1e7F,
-                                1e8F, 1e9F, 1e10F, 1e11F, 1e12F, 1e13F, 1e14F, 1e15F};
-    int64_t lut_size = (sizeof(lut) / sizeof(*lut));
-    int64_t abs_power = std::abs(power);
-    auto pow10 = lut[std::min(abs_power, lut_size - 1)];
-    while (abs_power-- >= lut_size) {
-      pow10 *= 1e1F;
-    }
-    return (power >= 0) ? pow10 : (1 / pow10);
-  }
-};
-
-// Specializations of rounding implementations for round kernels
-template <typename Type, RoundMode>
-struct RoundImpl;
-
-template <typename Type>
-struct RoundImpl<Type, RoundMode::DOWN> {
-  template <typename T = Type>
-  static constexpr enable_if_floating_value<T> Round(const T val) {
-    return std::floor(val);
-  }
-
-  template <typename T = Type>
-  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
-                                                const T& pow10, const int32_t scale) {
-    (*val) -= remainder;
-    if (remainder.Sign() < 0) {
-      (*val) -= pow10;
-    }
-  }
-};
-
-template <typename Type>
-struct RoundImpl<Type, RoundMode::UP> {
-  template <typename T = Type>
-  static constexpr enable_if_floating_value<T> Round(const T val) {
-    return std::ceil(val);
-  }
-
-  template <typename T = Type>
-  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
-                                                const T& pow10, const int32_t scale) {
-    (*val) -= remainder;
-    if (remainder.Sign() > 0 && remainder != 0) {
-      (*val) += pow10;
-    }
-  }
-};
-
-template <typename Type>
-struct RoundImpl<Type, RoundMode::TOWARDS_ZERO> {
-  template <typename T = Type>
-  static constexpr enable_if_floating_value<T> Round(const T val) {
-    return std::trunc(val);
-  }
-
-  template <typename T = Type>
-  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
-                                                const T& pow10, const int32_t scale) {
-    (*val) -= remainder;
-  }
-};
-
-template <typename Type>
-struct RoundImpl<Type, RoundMode::TOWARDS_INFINITY> {
-  template <typename T = Type>
-  static constexpr enable_if_floating_value<T> Round(const T val) {
-    return std::signbit(val) ? std::floor(val) : std::ceil(val);
-  }
-
-  template <typename T = Type>
-  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
-                                                const T& pow10, const int32_t scale) {
-    (*val) -= remainder;
-    if (remainder.Sign() < 0) {
-      (*val) -= pow10;
-    } else if (remainder.Sign() > 0 && remainder != 0) {
-      (*val) += pow10;
-    }
-  }
-};
-
-// NOTE: RoundImpl variants for the HALF_* rounding modes are only
-// invoked when the fractional part is equal to 0.5 (std::round is invoked
-// otherwise).
-
-template <typename Type>
-struct RoundImpl<Type, RoundMode::HALF_DOWN> {
-  template <typename T = Type>
-  static constexpr enable_if_floating_value<T> Round(const T val) {
-    return RoundImpl<T, RoundMode::DOWN>::Round(val);
-  }
-
-  template <typename T = Type>
-  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
-                                                const T& pow10, const int32_t scale) {
-    RoundImpl<T, RoundMode::DOWN>::Round(val, remainder, pow10, scale);
-  }
-};
-
-template <typename Type>
-struct RoundImpl<Type, RoundMode::HALF_UP> {
-  template <typename T = Type>
-  static constexpr enable_if_floating_value<T> Round(const T val) {
-    return RoundImpl<T, RoundMode::UP>::Round(val);
-  }
-
-  template <typename T = Type>
-  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
-                                                const T& pow10, const int32_t scale) {
-    RoundImpl<T, RoundMode::UP>::Round(val, remainder, pow10, scale);
-  }
-};
-
-template <typename Type>
-struct RoundImpl<Type, RoundMode::HALF_TOWARDS_ZERO> {
-  template <typename T = Type>
-  static constexpr enable_if_floating_value<T> Round(const T val) {
-    return RoundImpl<T, RoundMode::TOWARDS_ZERO>::Round(val);
-  }
-
-  template <typename T = Type>
-  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
-                                                const T& pow10, const int32_t scale) {
-    RoundImpl<T, RoundMode::TOWARDS_ZERO>::Round(val, remainder, pow10, scale);
-  }
-};
-
-template <typename Type>
-struct RoundImpl<Type, RoundMode::HALF_TOWARDS_INFINITY> {
-  template <typename T = Type>
-  static constexpr enable_if_floating_value<T> Round(const T val) {
-    return RoundImpl<T, RoundMode::TOWARDS_INFINITY>::Round(val);
-  }
-
-  template <typename T = Type>
-  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
-                                                const T& pow10, const int32_t scale) {
-    RoundImpl<T, RoundMode::TOWARDS_INFINITY>::Round(val, remainder, pow10, scale);
-  }
-};
-
-template <typename Type>
-struct RoundImpl<Type, RoundMode::HALF_TO_EVEN> {
-  template <typename T = Type>
-  static constexpr enable_if_floating_value<T> Round(const T val) {
-    return std::round(val * T(0.5)) * 2;
-  }
-
-  template <typename T = Type>
-  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
-                                                const T& pow10, const int32_t scale) {
-    auto scaled = val->ReduceScaleBy(scale, /*round=*/false);
-    if (scaled.low_bits() % 2 != 0) {
-      scaled += remainder.Sign() >= 0 ? 1 : -1;
-    }
-    *val = scaled.IncreaseScaleBy(scale);
-  }
-};
-
-template <typename Type>
-struct RoundImpl<Type, RoundMode::HALF_TO_ODD> {
-  template <typename T = Type>
-  static constexpr enable_if_floating_value<T> Round(const T val) {
-    return std::floor(val * T(0.5)) + std::ceil(val * T(0.5));
-  }
-
-  template <typename T = Type>
-  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
-                                                const T& pow10, const int32_t scale) {
-    auto scaled = val->ReduceScaleBy(scale, /*round=*/false);
-    if (scaled.low_bits() % 2 == 0) {
-      scaled += remainder.Sign() ? 1 : -1;
-    }
-    *val = scaled.IncreaseScaleBy(scale);
-  }
-};
-
-// Specializations of kernel state for round kernels
-template <typename OptionsType>
-struct RoundOptionsWrapper;
-
-template <>
-struct RoundOptionsWrapper<RoundOptions> : public OptionsWrapper<RoundOptions> {
-  using OptionsType = RoundOptions;
-  double pow10;
-
-  explicit RoundOptionsWrapper(OptionsType options) : OptionsWrapper(std::move(options)) {
-    // Only positive exponents for powers of 10 are used because combining
-    // multiply and division operations produced more stable rounding than
-    // using multiply-only.  Refer to NumPy's round implementation:
-    // https://github.com/numpy/numpy/blob/7b2f20b406d27364c812f7a81a9c901afbd3600c/numpy/core/src/multiarray/calculation.c#L589
-    pow10 = RoundUtil::Pow10(std::abs(options.ndigits));
-  }
-
-  static Result<std::unique_ptr<KernelState>> Init(KernelContext* ctx,
-                                                   const KernelInitArgs& args) {
-    if (auto options = static_cast<const OptionsType*>(args.options)) {
-      return ::arrow::internal::make_unique<RoundOptionsWrapper>(*options);
-    }
-    return Status::Invalid(
-        "Attempted to initialize KernelState from null FunctionOptions");
-  }
-};
-
-template <>
-struct RoundOptionsWrapper<RoundToMultipleOptions>
-    : public OptionsWrapper<RoundToMultipleOptions> {
-  using OptionsType = RoundToMultipleOptions;
-  using OptionsWrapper::OptionsWrapper;
-
-  static Result<std::unique_ptr<KernelState>> Init(KernelContext* ctx,
-                                                   const KernelInitArgs& args) {
-    auto options = static_cast<const OptionsType*>(args.options);
-    if (!options) {
-      return Status::Invalid(
-          "Attempted to initialize KernelState from null FunctionOptions");
-    }
-
-    const auto& multiple = options->multiple;
-    if (!multiple || !multiple->is_valid) {
-      return Status::Invalid("Rounding multiple must be non-null and valid");
-    }
-
-    if (!IsPositive(*multiple)) {
-      return Status::Invalid("Rounding multiple must be positive");
-    }
-
-    // Ensure the rounding multiple option matches the kernel's output type.
-    // The output type is not available here so we use the following rule:
-    // If `multiple` is neither a floating-point nor a decimal type, then
-    // cast to float64, else cast to the kernel's input type.
-    std::shared_ptr<DataType> to_type =
-        (!is_floating(multiple->type->id()) && !is_decimal(multiple->type->id()))
-            ? float64()
-            : args.inputs[0].GetSharedPtr();
-    if (!multiple->type->Equals(to_type)) {
-      ARROW_ASSIGN_OR_RAISE(
-          auto casted_multiple,
-          Cast(Datum(multiple), to_type, CastOptions::Safe(), ctx->exec_context()));
-
-      // Create a new option object if the rounding multiple was casted.
-      auto new_options = OptionsType(casted_multiple.scalar(), options->round_mode);
-      return ::arrow::internal::make_unique<RoundOptionsWrapper>(new_options);
-    }
-
-    return ::arrow::internal::make_unique<RoundOptionsWrapper>(*options);
-  }
-};
-
-template <typename ArrowType, RoundMode RndMode, typename Enable = void>
-struct Round {
-  using CType = typename TypeTraits<ArrowType>::CType;
-  using State = RoundOptionsWrapper<RoundOptions>;
-
-  CType pow10;
-  int64_t ndigits;
-
-  explicit Round(const State& state, const DataType& out_ty)
-      : pow10(static_cast<CType>(state.pow10)), ndigits(state.options.ndigits) {}
-
-  template <typename T = ArrowType, typename CType = typename TypeTraits<T>::CType>
-  enable_if_floating_value<CType> Call(KernelContext* ctx, CType arg, Status* st) const {
-    // Do not process Inf or NaN because they will trigger the overflow error at end of
-    // function.
-    if (!std::isfinite(arg)) {
-      return arg;
-    }
-    auto round_val = ndigits >= 0 ? (arg * pow10) : (arg / pow10);
-    auto frac = round_val - std::floor(round_val);
-    if (frac != T(0)) {
-      // Use std::round() if in tie-breaking mode and scaled value is not 0.5.
-      if ((RndMode >= RoundMode::HALF_DOWN) && (frac != T(0.5))) {
-        round_val = std::round(round_val);
-      } else {
-        round_val = RoundImpl<CType, RndMode>::Round(round_val);
-      }
-      // Equality check is ommitted so that the common case of 10^0 (integer rounding)
-      // uses multiply-only
-      round_val = ndigits > 0 ? (round_val / pow10) : (round_val * pow10);
-      if (!std::isfinite(round_val)) {
-        *st = Status::Invalid("overflow occurred during rounding");
-        return arg;
-      }
-    } else {
-      // If scaled value is an integer, then no rounding is needed.
-      round_val = arg;
-    }
-    return round_val;
-  }
-};
-
-template <typename ArrowType, RoundMode kRoundMode>
-struct Round<ArrowType, kRoundMode, enable_if_decimal<ArrowType>> {
-  using CType = typename TypeTraits<ArrowType>::CType;
-  using State = RoundOptionsWrapper<RoundOptions>;
-
-  const ArrowType& ty;
-  int64_t ndigits;
-  int32_t pow;
-  // pow10 is "1" for the given decimal scale. Similarly half_pow10 is "0.5".
-  CType pow10, half_pow10, neg_half_pow10;
-
-  explicit Round(const State& state, const DataType& out_ty)
-      : Round(state.options.ndigits, out_ty) {}
-
-  explicit Round(int64_t ndigits, const DataType& out_ty)
-      : ty(checked_cast<const ArrowType&>(out_ty)),
-        ndigits(ndigits),
-        pow(static_cast<int32_t>(ty.scale() - ndigits)) {
-    if (pow >= ty.precision() || pow < 0) {
-      pow10 = half_pow10 = neg_half_pow10 = 0;
-    } else {
-      pow10 = CType::GetScaleMultiplier(pow);
-      half_pow10 = CType::GetHalfScaleMultiplier(pow);
-      neg_half_pow10 = -half_pow10;
-    }
-  }
-
-  template <typename T = ArrowType, typename CType = typename TypeTraits<T>::CType>
-  enable_if_decimal_value<CType> Call(KernelContext* ctx, CType arg, Status* st) const {
-    if (pow >= ty.precision()) {
-      *st = Status::Invalid("Rounding to ", ndigits,
-                            " digits will not fit in precision of ", ty);
-      return 0;
-    } else if (pow < 0) {
-      // no-op, copy output to input
-      return arg;
-    }
-
-    std::pair<CType, CType> pair;
-    *st = arg.Divide(pow10).Value(&pair);
-    if (!st->ok()) return arg;
-    // The remainder is effectively the scaled fractional part after division.
-    const auto& remainder = pair.second;
-    if (remainder == 0) return arg;
-    if (kRoundMode >= RoundMode::HALF_DOWN) {
-      if (remainder == half_pow10 || remainder == neg_half_pow10) {
-        // On the halfway point, use tiebreaker
-        RoundImpl<CType, kRoundMode>::Round(&arg, remainder, pow10, pow);
-      } else if (remainder.Sign() >= 0) {
-        // Positive, round up/down
-        arg -= remainder;
-        if (remainder > half_pow10) {
-          arg += pow10;
-        }
-      } else {
-        // Negative, round up/down
-        arg -= remainder;
-        if (remainder < neg_half_pow10) {
-          arg -= pow10;
-        }
-      }
-    } else {
-      RoundImpl<CType, kRoundMode>::Round(&arg, remainder, pow10, pow);
-    }
-    if (!arg.FitsInPrecision(ty.precision())) {
-      *st = Status::Invalid("Rounded value ", arg.ToString(ty.scale()),
-                            " does not fit in precision of ", ty);
-      return 0;
-    }
-    return arg;
-  }
-};
-
-template <typename DecimalType, RoundMode kMode, int32_t kDigits>
-Status FixedRoundDecimalExec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
-  using Op = Round<DecimalType, kMode>;
-  return ScalarUnaryNotNullStateful<DecimalType, DecimalType, Op>(
-             Op(kDigits, *out->type()))
-      .Exec(ctx, batch, out);
-}
-
-template <typename ArrowType, RoundMode kRoundMode, typename Enable = void>
-struct RoundToMultiple {
-  using CType = typename TypeTraits<ArrowType>::CType;
-  using State = RoundOptionsWrapper<RoundToMultipleOptions>;
-
-  CType multiple;
-
-  explicit RoundToMultiple(const State& state, const DataType& out_ty)
-      : multiple(UnboxScalar<ArrowType>::Unbox(*state.options.multiple)) {
-    const auto& options = state.options;
-    DCHECK(options.multiple);
-    DCHECK(options.multiple->is_valid);
-    DCHECK(is_floating(options.multiple->type->id()));
-  }
-
-  template <typename T = ArrowType, typename CType = typename TypeTraits<T>::CType>
-  enable_if_floating_value<CType> Call(KernelContext* ctx, CType arg, Status* st) const {
-    // Do not process Inf or NaN because they will trigger the overflow error at end of
-    // function.
-    if (!std::isfinite(arg)) {
-      return arg;
-    }
-    auto round_val = arg / multiple;
-    auto frac = round_val - std::floor(round_val);
-    if (frac != T(0)) {
-      // Use std::round() if in tie-breaking mode and scaled value is not 0.5.
-      if ((kRoundMode >= RoundMode::HALF_DOWN) && (frac != T(0.5))) {
-        round_val = std::round(round_val);
-      } else {
-        round_val = RoundImpl<CType, kRoundMode>::Round(round_val);
-      }
-      round_val *= multiple;
-      if (!std::isfinite(round_val)) {
-        *st = Status::Invalid("overflow occurred during rounding");
-        return arg;
-      }
-    } else {
-      // If scaled value is an integer, then no rounding is needed.
-      round_val = arg;
-    }
-    return round_val;
-  }
-};
-
-template <typename ArrowType, RoundMode kRoundMode>
-struct RoundToMultiple<ArrowType, kRoundMode, enable_if_decimal<ArrowType>> {
-  using CType = typename TypeTraits<ArrowType>::CType;
-  using State = RoundOptionsWrapper<RoundToMultipleOptions>;
-
-  const ArrowType& ty;
-  CType multiple, half_multiple, neg_half_multiple;
-  bool has_halfway_point;
-
-  explicit RoundToMultiple(const State& state, const DataType& out_ty)
-      : ty(checked_cast<const ArrowType&>(out_ty)),
-        multiple(UnboxScalar<ArrowType>::Unbox(*state.options.multiple)),
-        half_multiple(multiple / 2),
-        neg_half_multiple(-half_multiple),
-        has_halfway_point(multiple.low_bits() % 2 == 0) {
-    const auto& options = state.options;
-    DCHECK(options.multiple);
-    DCHECK(options.multiple->is_valid);
-    DCHECK(options.multiple->type->Equals(out_ty));
-  }
-
-  template <typename T = ArrowType, typename CType = typename TypeTraits<T>::CType>
-  enable_if_decimal_value<CType> Call(KernelContext* ctx, CType arg, Status* st) const {
-    std::pair<CType, CType> pair;
-    *st = arg.Divide(multiple).Value(&pair);
-    if (!st->ok()) return arg;
-    const auto& remainder = pair.second;
-    if (remainder == 0) return arg;
-    if (kRoundMode >= RoundMode::HALF_DOWN) {
-      if (has_halfway_point &&
-          (remainder == half_multiple || remainder == neg_half_multiple)) {
-        // On the halfway point, use tiebreaker
-        // Manually implement rounding since we're not actually rounding a
-        // decimal value, but rather manipulating the multiple
-        switch (kRoundMode) {
-          case RoundMode::HALF_DOWN:
-            if (remainder.Sign() < 0) pair.first -= 1;
-            break;
-          case RoundMode::HALF_UP:
-            if (remainder.Sign() >= 0) pair.first += 1;
-            break;
-          case RoundMode::HALF_TOWARDS_ZERO:
-            // Do nothing
-            break;
-          case RoundMode::HALF_TOWARDS_INFINITY:
-            pair.first += remainder.Sign() >= 0 ? 1 : -1;
-            break;
-          case RoundMode::HALF_TO_EVEN:
-            if (pair.first.low_bits() % 2 != 0) {
-              pair.first += remainder.Sign() >= 0 ? 1 : -1;
-            }
-            break;
-          case RoundMode::HALF_TO_ODD:
-            if (pair.first.low_bits() % 2 == 0) {
-              pair.first += remainder.Sign() >= 0 ? 1 : -1;
-            }
-            break;
-          default:
-            DCHECK(false);
-        }
-      } else if (remainder.Sign() >= 0) {
-        // Positive, round up/down
-        if (remainder > half_multiple) {
-          pair.first += 1;
-        }
-      } else {
-        // Negative, round up/down
-        if (remainder < neg_half_multiple) {
-          pair.first -= 1;
-        }
-      }
-    } else {
-      // Manually implement rounding since we're not actually rounding a
-      // decimal value, but rather manipulating the multiple
-      switch (kRoundMode) {
-        case RoundMode::DOWN:
-          if (remainder.Sign() < 0) pair.first -= 1;
-          break;
-        case RoundMode::UP:
-          if (remainder.Sign() >= 0) pair.first += 1;
-          break;
-        case RoundMode::TOWARDS_ZERO:
-          // Do nothing
-          break;
-        case RoundMode::TOWARDS_INFINITY:
-          pair.first += remainder.Sign() >= 0 ? 1 : -1;
-          break;
-        default:
-          DCHECK(false);
-      }
-    }
-    CType round_val = pair.first * multiple;
-    if (!round_val.FitsInPrecision(ty.precision())) {
-      *st = Status::Invalid("Rounded value ", round_val.ToString(ty.scale()),
-                            " does not fit in precision of ", ty);
-      return 0;
-    }
-    return round_val;
-  }
-};
-
-struct Floor {
-  template <typename T, typename Arg>
-  static constexpr enable_if_floating_value<Arg, T> Call(KernelContext*, Arg arg,
-                                                         Status*) {
-    static_assert(std::is_same<T, Arg>::value, "");
-    return RoundImpl<T, RoundMode::DOWN>::Round(arg);
-  }
-};
-
-struct Ceil {
-  template <typename T, typename Arg>
-  static constexpr enable_if_floating_value<Arg, T> Call(KernelContext*, Arg arg,
-                                                         Status*) {
-    static_assert(std::is_same<T, Arg>::value, "");
-    return RoundImpl<T, RoundMode::UP>::Round(arg);
-  }
-};
-
-struct Trunc {
-  template <typename T, typename Arg>
-  static constexpr enable_if_floating_value<Arg, T> Call(KernelContext*, Arg arg,
-                                                         Status*) {
-    static_assert(std::is_same<T, Arg>::value, "");
-    return RoundImpl<T, RoundMode::TOWARDS_ZERO>::Round(arg);
-  }
-};
-
 // Generate a kernel given a bitwise arithmetic functor. Assumes the
 // functor treats all integer types of equal width identically
 template <template <typename... Args> class KernelGenerator, typename Op>
@@ -1421,77 +845,6 @@ std::shared_ptr<ScalarFunction> MakeUnaryArithmeticFunctionNotNull(std::string n
   return func;
 }
 
-#define ROUND_CASE(MODE)                                                       \
-  case RoundMode::MODE: {                                                      \
-    using Op = OpImpl<Type, RoundMode::MODE>;                                  \
-    return ScalarUnaryNotNullStateful<Type, Type, Op>(Op(state, *out->type())) \
-        .Exec(ctx, batch, out);                                                \
-  }
-
-// Exec the round kernel for the given types
-template <typename Type, typename OptionsType,
-          template <typename, RoundMode, typename...> class OpImpl>
-struct RoundKernel {
-  static Status Exec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
-    using State = RoundOptionsWrapper<OptionsType>;
-    const auto& state = static_cast<const State&>(*ctx->state());
-    switch (state.options.round_mode) {
-      ROUND_CASE(DOWN)
-      ROUND_CASE(UP)
-      ROUND_CASE(TOWARDS_ZERO)
-      ROUND_CASE(TOWARDS_INFINITY)
-      ROUND_CASE(HALF_DOWN)
-      ROUND_CASE(HALF_UP)
-      ROUND_CASE(HALF_TOWARDS_ZERO)
-      ROUND_CASE(HALF_TOWARDS_INFINITY)
-      ROUND_CASE(HALF_TO_EVEN)
-      ROUND_CASE(HALF_TO_ODD)
-    }
-    DCHECK(false);
-    return Status::NotImplemented(
-        "Internal implementation error: round mode not implemented: ",
-        state.options.ToString());
-  }
-};
-#undef ROUND_CASE
-
-// Like MakeUnaryArithmeticFunction, but for unary rounding functions that control
-// kernel dispatch based on RoundMode, only on non-null output.
-template <template <typename, RoundMode, typename...> class Op, typename OptionsType>
-std::shared_ptr<ScalarFunction> MakeUnaryRoundFunction(std::string name,
-                                                       FunctionDoc doc) {
-  using State = RoundOptionsWrapper<OptionsType>;
-  static const OptionsType kDefaultOptions = OptionsType::Defaults();
-  auto func = std::make_shared<ArithmeticIntegerToFloatingPointFunction>(
-      name, Arity::Unary(), std::move(doc), &kDefaultOptions);
-  for (const auto& ty : {float32(), float64(), decimal128(1, 0), decimal256(1, 0)}) {
-    auto type_id = ty->id();
-    ArrayKernelExec exec = nullptr;
-    switch (type_id) {
-      case Type::FLOAT:
-        exec = RoundKernel<FloatType, OptionsType, Op>::Exec;
-        break;
-      case Type::DOUBLE:
-        exec = RoundKernel<DoubleType, OptionsType, Op>::Exec;
-        break;
-      case Type::DECIMAL128:
-        exec = RoundKernel<Decimal128Type, OptionsType, Op>::Exec;
-        break;
-      case Type::DECIMAL256:
-        exec = RoundKernel<Decimal256Type, OptionsType, Op>::Exec;
-        break;
-      default:
-        DCHECK(false);
-        break;
-    }
-    DCHECK_OK(func->AddKernel(
-        {InputType(type_id)},
-        is_decimal(type_id) ? OutputType(FirstType) : OutputType(ty), exec, State::Init));
-  }
-  AddNullExec(func.get());
-  return func;
-}
-
 // Like MakeUnaryArithmeticFunction, but for signed arithmetic ops that need to run
 // only on non-null output.
 template <typename Op>
@@ -1717,6 +1070,11 @@ const FunctionDoc pow_doc{
      "wraps around. If either base or exponent is null the result will be null."),
     {"base", "exponent"}};
 
+const FunctionDoc exp_doc{
+    "Compute Euler's number raised to the power of specified exponent, element-wise",
+    ("If exponent is null the result will be null."),
+    {"exponent"}};
+
 const FunctionDoc pow_checked_doc{
     "Raise arguments to power element-wise",
     ("An error is returned when integer to negative integer power is encountered,\n"
@@ -1920,36 +1278,6 @@ const FunctionDoc logb_checked_doc{
      "-inf or NaN."),
     {"x", "b"}};
 
-const FunctionDoc floor_doc{
-    "Round down to the nearest integer",
-    ("Compute the largest integer value not greater in magnitude than `x`."),
-    {"x"}};
-
-const FunctionDoc ceil_doc{
-    "Round up to the nearest integer",
-    ("Compute the smallest integer value not less in magnitude than `x`."),
-    {"x"}};
-
-const FunctionDoc trunc_doc{
-    "Compute the integral part",
-    ("Compute the nearest integer not greater in magnitude than `x`."),
-    {"x"}};
-
-const FunctionDoc round_doc{
-    "Round to a given precision",
-    ("Options are used to control the number of digits and rounding mode.\n"
-     "Default behavior is to round to the nearest integer and\n"
-     "use half-to-even rule to break ties."),
-    {"x"},
-    "RoundOptions"};
-
-const FunctionDoc round_to_multiple_doc{
-    "Round to a given multiple",
-    ("Options are used to control the rounding multiple and rounding mode.\n"
-     "Default behavior is to round to the nearest integer and\n"
-     "use half-to-even rule to break ties."),
-    {"x"},
-    "RoundToMultipleOptions"};
 }  // namespace
 
 void RegisterScalarArithmetic(FunctionRegistry* registry) {
@@ -2224,6 +1552,10 @@ void RegisterScalarArithmetic(FunctionRegistry* registry) {
           "power_checked", pow_checked_doc);
   DCHECK_OK(registry->AddFunction(std::move(power_checked)));
 
+  // ----------------------------------------------------------------------
+  auto exp = MakeUnaryArithmeticFunctionFloatingPoint<Exp>("exp", exp_doc);
+  DCHECK_OK(registry->AddFunction(std::move(exp)));
+
   // ----------------------------------------------------------------------
   auto sqrt = MakeUnaryArithmeticFunctionFloatingPoint<SquareRoot>("sqrt", sqrt_doc);
   DCHECK_OK(registry->AddFunction(std::move(sqrt)));
@@ -2356,52 +1688,6 @@ void RegisterScalarArithmetic(FunctionRegistry* registry) {
   auto logb_checked = MakeArithmeticFunctionFloatingPointNotNull<LogbChecked>(
       "logb_checked", logb_checked_doc);
   DCHECK_OK(registry->AddFunction(std::move(logb_checked)));
-
-  // ----------------------------------------------------------------------
-  // Rounding functions
-  auto floor =
-      MakeUnaryArithmeticFunctionFloatingPoint<Floor,
-                                               ArithmeticIntegerToFloatingPointFunction>(
-          "floor", floor_doc);
-  DCHECK_OK(floor->AddKernel(
-      {InputType(Type::DECIMAL128)}, OutputType(FirstType),
-      FixedRoundDecimalExec<Decimal128Type, RoundMode::DOWN, /*ndigits=*/0>));
-  DCHECK_OK(floor->AddKernel(
-      {InputType(Type::DECIMAL256)}, OutputType(FirstType),
-      FixedRoundDecimalExec<Decimal256Type, RoundMode::DOWN, /*ndigits=*/0>));
-  DCHECK_OK(registry->AddFunction(std::move(floor)));
-
-  auto ceil =
-      MakeUnaryArithmeticFunctionFloatingPoint<Ceil,
-                                               ArithmeticIntegerToFloatingPointFunction>(
-          "ceil", ceil_doc);
-  DCHECK_OK(ceil->AddKernel(
-      {InputType(Type::DECIMAL128)}, OutputType(FirstType),
-      FixedRoundDecimalExec<Decimal128Type, RoundMode::UP, /*ndigits=*/0>));
-  DCHECK_OK(ceil->AddKernel(
-      {InputType(Type::DECIMAL256)}, OutputType(FirstType),
-      FixedRoundDecimalExec<Decimal256Type, RoundMode::UP, /*ndigits=*/0>));
-  DCHECK_OK(registry->AddFunction(std::move(ceil)));
-
-  auto trunc =
-      MakeUnaryArithmeticFunctionFloatingPoint<Trunc,
-                                               ArithmeticIntegerToFloatingPointFunction>(
-          "trunc", trunc_doc);
-  DCHECK_OK(trunc->AddKernel(
-      {InputType(Type::DECIMAL128)}, OutputType(FirstType),
-      FixedRoundDecimalExec<Decimal128Type, RoundMode::TOWARDS_ZERO, /*ndigits=*/0>));
-  DCHECK_OK(trunc->AddKernel(
-      {InputType(Type::DECIMAL256)}, OutputType(FirstType),
-      FixedRoundDecimalExec<Decimal256Type, RoundMode::TOWARDS_ZERO, /*ndigits=*/0>));
-  DCHECK_OK(registry->AddFunction(std::move(trunc)));
-
-  auto round = MakeUnaryRoundFunction<Round, RoundOptions>("round", round_doc);
-  DCHECK_OK(registry->AddFunction(std::move(round)));
-
-  auto round_to_multiple =
-      MakeUnaryRoundFunction<RoundToMultiple, RoundToMultipleOptions>(
-          "round_to_multiple", round_to_multiple_doc);
-  DCHECK_OK(registry->AddFunction(std::move(round_to_multiple)));
 }
 
 }  // namespace internal
diff --git a/cpp/src/arrow/compute/kernels/scalar_arithmetic_benchmark.cc b/cpp/src/arrow/compute/kernels/scalar_arithmetic_benchmark.cc
index 01d9ec944ee..4b678da5f1b 100644
--- a/cpp/src/arrow/compute/kernels/scalar_arithmetic_benchmark.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_arithmetic_benchmark.cc
@@ -107,6 +107,8 @@ static void ArrayArrayKernel(benchmark::State& state) {
 }
 
 void SetArgs(benchmark::internal::Benchmark* bench) {
+  bench->ArgNames({"size", "inverse_null_proportion"});
+
   for (const auto inverse_null_proportion : std::vector<ArgsType>({100, 0})) {
     bench->Args({static_cast<ArgsType>(kL2Size), inverse_null_proportion});
   }
diff --git a/cpp/src/arrow/compute/kernels/scalar_arithmetic_test.cc b/cpp/src/arrow/compute/kernels/scalar_arithmetic_test.cc
index be8a445c74a..ce297f03b38 100644
--- a/cpp/src/arrow/compute/kernels/scalar_arithmetic_test.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_arithmetic_test.cc
@@ -40,6 +40,7 @@
 
 namespace arrow {
 namespace compute {
+namespace {
 
 using IntegralTypes = testing::Types<Int8Type, Int16Type, Int32Type, Int64Type, UInt8Type,
                                      UInt16Type, UInt32Type, UInt64Type>;
@@ -216,51 +217,6 @@ class TestUnaryArithmeticUnsigned : public TestUnaryArithmeticIntegral<T> {};
 template <typename T>
 class TestUnaryArithmeticFloating : public TestUnaryArithmetic<T> {};
 
-template <typename T>
-class TestUnaryRound : public TestBaseUnaryArithmetic<T, RoundOptions> {
- protected:
-  using Base = TestBaseUnaryArithmetic<T, RoundOptions>;
-  using Base::options_;
-  void SetRoundMode(RoundMode value) { options_.round_mode = value; }
-  void SetRoundNdigits(int64_t value) { options_.ndigits = value; }
-};
-
-template <typename T>
-class TestUnaryRoundIntegral : public TestUnaryRound<T> {};
-
-template <typename T>
-class TestUnaryRoundSigned : public TestUnaryRoundIntegral<T> {};
-
-template <typename T>
-class TestUnaryRoundUnsigned : public TestUnaryRoundIntegral<T> {};
-
-template <typename T>
-class TestUnaryRoundFloating : public TestUnaryRound<T> {};
-
-template <typename T>
-class TestUnaryRoundToMultiple
-    : public TestBaseUnaryArithmetic<T, RoundToMultipleOptions> {
- protected:
-  using Base = TestBaseUnaryArithmetic<T, RoundToMultipleOptions>;
-  using Base::options_;
-  void SetRoundMode(RoundMode value) { options_.round_mode = value; }
-  void SetRoundMultiple(double value) {
-    options_.multiple = std::make_shared<DoubleScalar>(value);
-  }
-};
-
-template <typename T>
-class TestUnaryRoundToMultipleIntegral : public TestUnaryRoundToMultiple<T> {};
-
-template <typename T>
-class TestUnaryRoundToMultipleSigned : public TestUnaryRoundToMultipleIntegral<T> {};
-
-template <typename T>
-class TestUnaryRoundToMultipleUnsigned : public TestUnaryRoundToMultipleIntegral<T> {};
-
-template <typename T>
-class TestUnaryRoundToMultipleFloating : public TestUnaryRoundToMultiple<T> {};
-
 class TestArithmeticDecimal : public ::testing::Test {
  protected:
   std::vector<std::shared_ptr<DataType>> PositiveScaleTypes() {
@@ -452,7 +408,7 @@ template <typename... Elements>
 std::string MakeArray(Elements... elements) {
   std::vector<std::string> elements_as_strings = {std::to_string(elements)...};
 
-  std::vector<util::string_view> elements_as_views(sizeof...(Elements));
+  std::vector<std::string_view> elements_as_views(sizeof...(Elements));
   std::copy(elements_as_strings.begin(), elements_as_strings.end(),
             elements_as_views.begin());
 
@@ -1238,8 +1194,7 @@ TEST(TestUnaryArithmetic, DispatchBest) {
   }
 
   // Float types
-  for (std::string name :
-       {"atan", "sign", "floor", "ceil", "trunc", "round", "round_to_multiple"}) {
+  for (std::string name : {"atan", "sign", "exp"}) {
     for (const auto& ty : {float32(), float64()}) {
       CheckDispatchBest(name, {ty}, {ty});
       CheckDispatchBest(name, {dictionary(int8(), ty)}, {ty});
@@ -1260,8 +1215,7 @@ TEST(TestUnaryArithmetic, DispatchBest) {
   }
 
   // Integer -> Float64
-  for (std::string name :
-       {"atan", "floor", "ceil", "trunc", "round", "round_to_multiple"}) {
+  for (std::string name : {"atan"}) {
     for (const auto& ty :
          {int8(), int16(), int32(), int64(), uint8(), uint16(), uint32(), uint64()}) {
       CheckDispatchBest(name, {ty}, {float64()});
@@ -1279,8 +1233,7 @@ TEST(TestUnaryArithmetic, Null) {
     }
   }
 
-  for (std::string name : {"atan", "bit_wise_not", "ceil", "floor", "round",
-                           "round_to_multiple", "sign", "trunc"}) {
+  for (std::string name : {"atan", "bit_wise_not", "sign"}) {
     AssertNullToNull(name);
   }
 }
@@ -1519,6 +1472,96 @@ TEST_F(TestUnaryArithmeticDecimal, AbsoluteValue) {
   }
 }
 
+TYPED_TEST(TestUnaryArithmeticUnsigned, Exp) {
+  auto exp = [](const Datum& arg, ArithmeticOptions, ExecContext* ctx) {
+    return Exp(arg, ctx);
+  };
+  // Empty arrays
+  this->AssertUnaryOp(exp, "[]", ArrayFromJSON(float64(), "[]"));
+  // Array with nulls
+  this->AssertUnaryOp(exp, "[null]", ArrayFromJSON(float64(), "[null]"));
+  this->AssertUnaryOp(exp, this->MakeNullScalar(), arrow::MakeNullScalar(float64()));
+  this->AssertUnaryOp(
+      exp, "[null, 1, 10]",
+      ArrayFromJSON(float64(), "[null, 2.718281828459045, 22026.465794806718]"));
+  this->AssertUnaryOp(exp, this->MakeScalar(1),
+                      arrow::MakeScalar<double>(2.718281828459045F));
+}
+
+TYPED_TEST(TestUnaryArithmeticSigned, Exp) {
+  auto exp = [](const Datum& arg, ArithmeticOptions, ExecContext* ctx) {
+    return Exp(arg, ctx);
+  };
+  // Empty arrays
+  this->AssertUnaryOp(exp, "[]", ArrayFromJSON(float64(), "[]"));
+  // Array with nulls
+  this->AssertUnaryOp(exp, "[null]", ArrayFromJSON(float64(), "[null]"));
+  this->AssertUnaryOp(exp, this->MakeNullScalar(), arrow::MakeNullScalar(float64()));
+  this->AssertUnaryOp(exp, "[-10, -1, null, 1, 10]",
+                      ArrayFromJSON(float64(),
+                                    "[0.000045399929762484854, 0.36787944117144233, "
+                                    "null, 2.718281828459045, 22026.465794806718]"));
+  this->AssertUnaryOp(exp, this->MakeScalar(1),
+                      arrow::MakeScalar<double>(2.718281828459045F));
+}
+
+TYPED_TEST(TestUnaryArithmeticFloating, Exp) {
+  using CType = typename TestFixture::CType;
+
+  auto min = std::numeric_limits<CType>::lowest();
+  auto max = std::numeric_limits<CType>::max();
+
+  auto exp = [](const Datum& arg, ArithmeticOptions, ExecContext* ctx) {
+    return Exp(arg, ctx);
+  };
+  // Empty arrays
+  this->AssertUnaryOp(exp, "[]", "[]");
+  // Array with nulls
+  this->AssertUnaryOp(exp, "[null]", "[null]");
+  this->AssertUnaryOp(exp, this->MakeNullScalar(), this->MakeNullScalar());
+  this->AssertUnaryOp(exp, "[-1.0, null, 10.0]",
+                      "[0.36787944117144233, null, 22026.465794806718]");
+  // Ordinary arrays (positive, negative, fractional, and zero inputs)
+  this->AssertUnaryOp(
+      exp, "[-10.0, 0, 0.5, 1.0]",
+      "[0.000045399929762484854,1.0,1.6487212707001282,2.718281828459045]");
+  this->AssertUnaryOp(exp, 1.3F, 3.6692964926535487F);
+  this->AssertUnaryOp(exp, this->MakeScalar(1.3F), this->MakeScalar(3.6692964926535487F));
+  // Arrays with infinites
+  this->AssertUnaryOp(exp, "[-Inf, Inf]", "[0, Inf]");
+  // Arrays with NaNs
+  this->SetNansEqual(true);
+  this->AssertUnaryOp(exp, "[NaN]", "[NaN]");
+  // Min/max
+  this->AssertUnaryOp(exp, min, 0.0);
+  this->AssertUnaryOp(exp, max, std::numeric_limits<CType>::infinity());
+}
+
+TEST_F(TestUnaryArithmeticDecimal, Exp) {
+  auto max128 = Decimal128::GetMaxValue(38);
+  auto max256 = Decimal256::GetMaxValue(76);
+  const auto func = "exp";
+  for (const auto& ty : PositiveScaleTypes()) {
+    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(float64(), "[]"));
+    CheckScalar(
+        func, {ArrayFromJSON(ty, R"(["-1.00", "10.00", null])")},
+        ArrayFromJSON(float64(), "[0.36787944117144233, 22026.465794806718, null]"));
+  }
+  CheckScalar(func, {std::make_shared<Decimal128Scalar>(max128, decimal128(38, 0))},
+              ScalarFromJSON(float64(), "Inf"));
+  CheckScalar(func, {std::make_shared<Decimal128Scalar>(-max128, decimal128(38, 0))},
+              ScalarFromJSON(float64(), "0"));
+  CheckScalar(func, {std::make_shared<Decimal256Scalar>(max256, decimal256(76, 0))},
+              ScalarFromJSON(float64(), "Inf"));
+  CheckScalar(func, {std::make_shared<Decimal256Scalar>(-max256, decimal256(76, 0))},
+              ScalarFromJSON(float64(), "0"));
+  for (const auto& ty : NegativeScaleTypes()) {
+    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(float64(), "[]"));
+    CheckScalar(func, {DecimalArrayFromJSON(ty, R"(["12E2", "0", "-42E2", null])")},
+                ArrayFromJSON(float64(), "[Inf, 1.0, 0.0, null]"));
+  }
+}
+
 TEST_F(TestUnaryArithmeticDecimal, Log) {
   std::vector<std::string> unchecked = {"ln", "log2", "log10", "log1p"};
   std::vector<std::string> checked = {"ln_checked", "log2_checked", "log10_checked",
@@ -1601,504 +1644,6 @@ TEST_F(TestUnaryArithmeticDecimal, Negate) {
   }
 }
 
-// Check two modes exhaustively, give all modes a simple test
-TEST_F(TestUnaryArithmeticDecimal, Round) {
-  const auto func = "round";
-  RoundOptions options(2, RoundMode::DOWN);
-  for (const auto& ty : {decimal128(4, 3), decimal256(4, 3)}) {
-    auto values = ArrayFromJSON(
-        ty,
-        R"(["1.010", "1.012", "1.015", "1.019", "-1.010", "-1.012", "-1.015", "-1.019", null])");
-    options.round_mode = RoundMode::DOWN;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["1.010", "1.010", "1.010", "1.010", "-1.010", "-1.020", "-1.020", "-1.020", null])"),
-        &options);
-    options.round_mode = RoundMode::UP;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["1.010", "1.020", "1.020", "1.020", "-1.010", "-1.010", "-1.010", "-1.010", null])"),
-        &options);
-    options.round_mode = RoundMode::TOWARDS_ZERO;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["1.010", "1.010", "1.010", "1.010", "-1.010", "-1.010", "-1.010", "-1.010", null])"),
-        &options);
-    options.round_mode = RoundMode::TOWARDS_INFINITY;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["1.010", "1.020", "1.020", "1.020", "-1.010", "-1.020", "-1.020", "-1.020", null])"),
-        &options);
-    options.round_mode = RoundMode::HALF_DOWN;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null])"),
-        &options);
-    options.round_mode = RoundMode::HALF_UP;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null])"),
-        &options);
-    options.round_mode = RoundMode::HALF_TOWARDS_ZERO;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null])"),
-        &options);
-    options.round_mode = RoundMode::HALF_TOWARDS_INFINITY;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null])"),
-        &options);
-    options.round_mode = RoundMode::HALF_TO_EVEN;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null])"),
-        &options);
-    options.round_mode = RoundMode::HALF_TO_ODD;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null])"),
-        &options);
-  }
-}
-
-TEST_F(TestUnaryArithmeticDecimal, RoundTowardsInfinity) {
-  const auto func = "round";
-  RoundOptions options(0, RoundMode::TOWARDS_INFINITY);
-  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
-    auto values = ArrayFromJSON(
-        ty, R"(["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null])");
-    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"), &options);
-    options.ndigits = 0;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(ty,
-                      R"(["1.00", "2.00", "2.00", "-42.00", "-43.00", "-43.00", null])"),
-        &options);
-    options.ndigits = 1;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(ty,
-                      R"(["1.00", "2.00", "1.10", "-42.00", "-43.00", "-42.20", null])"),
-        &options);
-    options.ndigits = 2;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = 4;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = 100;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = -1;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty, R"(["10.00", "10.00", "10.00", "-50.00", "-50.00", "-50.00", null])"),
-        &options);
-    options.ndigits = -2;
-    CheckRaises(func, {values}, "Rounding to -2 digits will not fit in precision",
-                &options);
-    options.ndigits = -1;
-    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
-                "Rounded value 100.00 does not fit in precision", &options);
-  }
-  for (const auto& ty : {decimal128(2, -2), decimal256(2, -2)}) {
-    auto values = DecimalArrayFromJSON(
-        ty, R"(["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null])");
-    options.ndigits = 0;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = 2;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = 100;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = -1;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = -2;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = -3;
-    CheckScalar(func, {values},
-                DecimalArrayFromJSON(
-                    ty, R"(["10E2", "20E2", "20E2", "-10E2", "-20E2", "-20E2", null])"),
-                &options);
-    options.ndigits = -4;
-    CheckRaises(func, {values}, "Rounding to -4 digits will not fit in precision",
-                &options);
-  }
-}
-
-TEST_F(TestUnaryArithmeticDecimal, RoundHalfToEven) {
-  const auto func = "round";
-  RoundOptions options(0, RoundMode::HALF_TO_EVEN);
-  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
-    auto values = ArrayFromJSON(
-        ty,
-        R"(["1.00", "5.99", "1.01", "-42.00", "-42.99", "-42.15", "1.50", "2.50", "-5.50", "-2.55", null])");
-    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"), &options);
-    options.ndigits = 0;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["1.00", "6.00", "1.00", "-42.00", "-43.00", "-42.00", "2.00", "2.00", "-6.00", "-3.00", null])"),
-        &options);
-    options.ndigits = 1;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["1.00", "6.00", "1.00", "-42.00", "-43.00", "-42.20", "1.50", "2.50", "-5.50", "-2.60", null])"),
-        &options);
-    options.ndigits = 2;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = 4;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = 100;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = -1;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["0.00", "10.00", "0.00", "-40.00", "-40.00", "-40.00", "0.00", "0.00", "-10.00", "0.00", null])"),
-        &options);
-    options.ndigits = -2;
-    CheckRaises(func, {values}, "Rounding to -2 digits will not fit in precision",
-                &options);
-    options.ndigits = -1;
-    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
-                "Rounded value 100.00 does not fit in precision", &options);
-  }
-  for (const auto& ty : {decimal128(2, -2), decimal256(2, -2)}) {
-    auto values = DecimalArrayFromJSON(
-        ty,
-        R"(["5E2", "10E2", "12E2", "15E2", "18E2", "-10E2", "-12E2", "-15E2", "-18E2", null])");
-    options.ndigits = 0;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = 2;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = 100;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = -1;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = -2;
-    CheckScalar(func, {values}, values, &options);
-    options.ndigits = -3;
-    CheckScalar(
-        func, {values},
-        DecimalArrayFromJSON(
-            ty,
-            R"(["0", "10E2", "10E2", "20E2", "20E2", "-10E2", "-10E2", "-20E2", "-20E2", null])"),
-        &options);
-    options.ndigits = -4;
-    CheckRaises(func, {values}, "Rounding to -4 digits will not fit in precision",
-                &options);
-  }
-}
-
-TEST_F(TestUnaryArithmeticDecimal, RoundCeil) {
-  const auto func = "ceil";
-  for (const auto& ty : PositiveScaleTypes()) {
-    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"));
-    CheckScalar(
-        func,
-        {ArrayFromJSON(
-            ty, R"(["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null])")},
-        ArrayFromJSON(ty,
-                      R"(["1.00", "2.00", "2.00", "-42.00", "-42.00", "-42.00", null])"));
-  }
-  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
-    CheckRaises(func, {ScalarFromJSON(ty, R"("99.99")")},
-                "Rounded value 100.00 does not fit in precision of decimal");
-    CheckScalar(func, {ScalarFromJSON(ty, R"("-99.99")")},
-                ScalarFromJSON(ty, R"("-99.00")"));
-  }
-  for (const auto& ty : NegativeScaleTypes()) {
-    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"));
-    CheckScalar(func, {DecimalArrayFromJSON(ty, R"(["12E2", "-42E2", null])")},
-                DecimalArrayFromJSON(ty, R"(["12E2", "-42E2", null])"));
-  }
-}
-
-TEST_F(TestUnaryArithmeticDecimal, RoundFloor) {
-  const auto func = "floor";
-  for (const auto& ty : PositiveScaleTypes()) {
-    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"));
-    CheckScalar(
-        func,
-        {ArrayFromJSON(
-            ty, R"(["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null])")},
-        ArrayFromJSON(ty,
-                      R"(["1.00", "1.00", "1.00", "-42.00", "-43.00", "-43.00", null])"));
-  }
-  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
-    CheckScalar(func, {ScalarFromJSON(ty, R"("99.99")")},
-                ScalarFromJSON(ty, R"("99.00")"));
-    CheckRaises(func, {ScalarFromJSON(ty, R"("-99.99")")},
-                "Rounded value -100.00 does not fit in precision of decimal");
-  }
-  for (const auto& ty : NegativeScaleTypes()) {
-    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"));
-    CheckScalar(func, {DecimalArrayFromJSON(ty, R"(["12E2", "-42E2", null])")},
-                DecimalArrayFromJSON(ty, R"(["12E2", "-42E2", null])"));
-  }
-}
-
-TEST_F(TestUnaryArithmeticDecimal, RoundTrunc) {
-  const auto func = "trunc";
-  for (const auto& ty : PositiveScaleTypes()) {
-    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"));
-    CheckScalar(
-        func,
-        {ArrayFromJSON(
-            ty, R"(["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null])")},
-        ArrayFromJSON(ty,
-                      R"(["1.00", "1.00", "1.00", "-42.00", "-42.00", "-42.00", null])"));
-  }
-  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
-    CheckScalar(func, {ScalarFromJSON(ty, R"("99.99")")},
-                ScalarFromJSON(ty, R"("99.00")"));
-    CheckScalar(func, {ScalarFromJSON(ty, R"("-99.99")")},
-                ScalarFromJSON(ty, R"("-99.00")"));
-  }
-  for (const auto& ty : NegativeScaleTypes()) {
-    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"));
-    CheckScalar(func, {DecimalArrayFromJSON(ty, R"(["12E2", "-42E2", null])")},
-                DecimalArrayFromJSON(ty, R"(["12E2", "-42E2", null])"));
-  }
-}
-
-TEST_F(TestUnaryArithmeticDecimal, RoundToMultiple) {
-  const auto func = "round_to_multiple";
-  RoundToMultipleOptions options(0, RoundMode::DOWN);
-  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
-    if (ty->id() == Type::DECIMAL128) {
-      options.multiple = std::make_shared<Decimal128Scalar>(Decimal128(200), ty);
-    } else {
-      options.multiple = std::make_shared<Decimal256Scalar>(Decimal256(200), ty);
-    }
-    auto values = ArrayFromJSON(
-        ty,
-        R"(["-3.50", "-3.00", "-2.50", "-2.00", "-1.50", "-1.00", "-0.50", "0.00",
-            "0.50", "1.00", "1.50", "2.00", "2.50", "3.00", "3.50", null])");
-    options.round_mode = RoundMode::DOWN;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["-4.00", "-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "0.00",
-            "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", null])"),
-        &options);
-    options.round_mode = RoundMode::UP;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "-0.00", "0.00",
-            "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", "4.00", null])"),
-        &options);
-    options.round_mode = RoundMode::TOWARDS_ZERO;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "-0.00", "0.00",
-            "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", null])"),
-        &options);
-    options.round_mode = RoundMode::TOWARDS_INFINITY;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["-4.00", "-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "0.00",
-            "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", "4.00", null])"),
-        &options);
-    options.round_mode = RoundMode::HALF_DOWN;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00",
-            "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", null])"),
-        &options);
-    options.round_mode = RoundMode::HALF_UP;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00",
-            "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", null])"),
-        &options);
-    options.round_mode = RoundMode::HALF_TOWARDS_ZERO;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00",
-            "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", null])"),
-        &options);
-    options.round_mode = RoundMode::HALF_TOWARDS_INFINITY;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00",
-            "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", null])"),
-        &options);
-    options.round_mode = RoundMode::HALF_TO_EVEN;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00",
-            "0.00", "0.00", "2.00", "2.00", "2.00", "4.00", "4.00", null])"),
-        &options);
-    options.round_mode = RoundMode::HALF_TO_ODD;
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00",
-            "0.00", "2.00", "2.00", "2.00", "2.00", "2.00", "4.00", null])"),
-        &options);
-  }
-}
-
-TEST_F(TestUnaryArithmeticDecimal, RoundToMultipleTowardsInfinity) {
-  const auto func = "round_to_multiple";
-  RoundToMultipleOptions options(0, RoundMode::TOWARDS_INFINITY);
-  auto set_multiple = [&](const std::shared_ptr<DataType>& ty, int64_t value) {
-    if (ty->id() == Type::DECIMAL128) {
-      options.multiple = std::make_shared<Decimal128Scalar>(Decimal128(value), ty);
-    } else {
-      options.multiple = std::make_shared<Decimal256Scalar>(Decimal256(value), ty);
-    }
-  };
-  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
-    auto values = ArrayFromJSON(
-        ty, R"(["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null])");
-    set_multiple(ty, 25);
-    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"), &options);
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(ty,
-                      R"(["1.00", "2.00", "1.25", "-42.00", "-43.00", "-42.25", null])"),
-        &options);
-    set_multiple(ty, 1);
-    CheckScalar(func, {values}, values, &options);
-    set_multiple(decimal128(2, 0), 2);
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(ty,
-                      R"(["2.00", "2.00", "2.00", "-42.00", "-44.00", "-44.00", null])"),
-        &options);
-    set_multiple(ty, 0);
-    CheckRaises(func, {values}, "Rounding multiple must be positive", &options);
-    options.multiple =
-        std::make_shared<Decimal128Scalar>(Decimal128(0), decimal128(4, 2));
-    CheckRaises(func, {values}, "Rounding multiple must be positive", &options);
-    set_multiple(ty, -10);
-    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
-                "Rounding multiple must be positive", &options);
-    set_multiple(ty, 100);
-    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
-                "Rounded value 100.00 does not fit in precision", &options);
-    options.multiple = std::make_shared<DoubleScalar>(1.0);
-    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
-                "Rounded value 100.00 does not fit in precision", &options);
-    options.multiple = std::make_shared<Decimal128Scalar>(decimal128(3, 0));
-    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
-                "Rounding multiple must be non-null and valid", &options);
-    options.multiple = nullptr;
-    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
-                "Rounding multiple must be non-null and valid", &options);
-  }
-  for (const auto& ty : {decimal128(2, -2), decimal256(2, -2)}) {
-    auto values = DecimalArrayFromJSON(
-        ty, R"(["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null])");
-    set_multiple(ty, 4);
-    CheckScalar(func, {values},
-                DecimalArrayFromJSON(
-                    ty, R"(["12E2", "12E2", "20E2", "-12E2", "-12E2", "-20E2", null])"),
-                &options);
-    set_multiple(ty, 1);
-    CheckScalar(func, {values}, values, &options);
-  }
-}
-
-TEST_F(TestUnaryArithmeticDecimal, RoundToMultipleHalfToOdd) {
-  const auto func = "round_to_multiple";
-  RoundToMultipleOptions options(0, RoundMode::HALF_TO_ODD);
-  auto set_multiple = [&](const std::shared_ptr<DataType>& ty, int64_t value) {
-    if (ty->id() == Type::DECIMAL128) {
-      options.multiple = std::make_shared<Decimal128Scalar>(Decimal128(value), ty);
-    } else {
-      options.multiple = std::make_shared<Decimal256Scalar>(Decimal256(value), ty);
-    }
-  };
-  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
-    auto values =
-        ArrayFromJSON(ty, R"(["-0.38", "-0.37", "-0.25", "-0.13", "-0.12", "0.00",
-                "0.12", "0.13", "0.25", "0.37", "0.38", null])");
-    // There is no exact halfway point, check what happens
-    set_multiple(ty, 25);
-    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"), &options);
-    CheckScalar(func, {values},
-                ArrayFromJSON(ty, R"(["-0.50", "-0.25", "-0.25", "-0.25", "-0.00", "0.00",
-                              "0.00", "0.25", "0.25", "0.25", "0.50", null])"),
-                &options);
-    set_multiple(ty, 1);
-    CheckScalar(func, {values}, values, &options);
-    set_multiple(ty, 24);
-    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"), &options);
-    CheckScalar(func, {values},
-                ArrayFromJSON(ty, R"(["-0.48", "-0.48", "-0.24", "-0.24", "-0.24", "0.00",
-                              "0.24", "0.24", "0.24", "0.48", "0.48", null])"),
-                &options);
-    set_multiple(decimal128(3, 1), 1);
-    CheckScalar(
-        func, {values},
-        ArrayFromJSON(
-            ty,
-            R"(["-0.40", "-0.40", "-0.30", "-0.10", "-0.10", "0.00", "0.10", "0.10",
-                      "0.30", "0.40", "0.40", null])"),
-        &options);
-  }
-  for (const auto& ty : {decimal128(2, -2), decimal256(2, -2)}) {
-    auto values = DecimalArrayFromJSON(
-        ty, R"(["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null])");
-    set_multiple(ty, 4);
-    CheckScalar(func, {values},
-                DecimalArrayFromJSON(
-                    ty, R"(["12E2", "12E2", "20E2", "-12E2", "-12E2", "-20E2", null])"),
-                &options);
-    set_multiple(ty, 5);
-    CheckScalar(func, {values},
-                DecimalArrayFromJSON(
-                    ty, R"(["10E2", "10E2", "20E2", "-10E2", "-10E2", "-20E2", null])"),
-                &options);
-    set_multiple(ty, 1);
-    CheckScalar(func, {values}, values, &options);
-  }
-}
-
 TEST_F(TestUnaryArithmeticDecimal, Sign) {
   auto max128 = Decimal128::GetMaxValue(38);
   auto max256 = Decimal256::GetMaxValue(76);
@@ -2209,213 +1754,6 @@ TEST_F(TestUnaryArithmeticDecimal, TrigTan) {
   }
 }
 
-TYPED_TEST_SUITE(TestUnaryRoundIntegral, IntegralTypes);
-TYPED_TEST_SUITE(TestUnaryRoundSigned, SignedIntegerTypes);
-TYPED_TEST_SUITE(TestUnaryRoundUnsigned, UnsignedIntegerTypes);
-TYPED_TEST_SUITE(TestUnaryRoundFloating, FloatingTypes);
-
-const std::vector<RoundMode> kRoundModes{
-    RoundMode::DOWN,
-    RoundMode::UP,
-    RoundMode::TOWARDS_ZERO,
-    RoundMode::TOWARDS_INFINITY,
-    RoundMode::HALF_DOWN,
-    RoundMode::HALF_UP,
-    RoundMode::HALF_TOWARDS_ZERO,
-    RoundMode::HALF_TOWARDS_INFINITY,
-    RoundMode::HALF_TO_EVEN,
-    RoundMode::HALF_TO_ODD,
-};
-
-TYPED_TEST(TestUnaryRoundSigned, Round) {
-  // Test different rounding modes for integer rounding
-  std::string values("[0, 1, -13, -50, 115]");
-  this->SetRoundNdigits(0);
-  for (const auto& round_mode : kRoundModes) {
-    this->SetRoundMode(round_mode);
-    this->AssertUnaryOp(Round, values, ArrayFromJSON(float64(), values));
-  }
-
-  // Test different round N-digits for nearest rounding mode
-  std::vector<std::pair<int64_t, std::string>> ndigits_and_expected{{
-      {-2, "[0.0, 0.0, -0.0, -100, 100]"},
-      {-1, "[0.0, 0.0, -10, -50, 120]"},
-      {0, values},
-      {1, values},
-      {2, values},
-  }};
-  this->SetRoundMode(RoundMode::HALF_TOWARDS_INFINITY);
-  for (const auto& pair : ndigits_and_expected) {
-    this->SetRoundNdigits(pair.first);
-    this->AssertUnaryOp(Round, values, ArrayFromJSON(float64(), pair.second));
-  }
-}
-
-TYPED_TEST(TestUnaryRoundUnsigned, Round) {
-  // Test different rounding modes for integer rounding
-  std::string values("[0, 1, 13, 50, 115]");
-  this->SetRoundNdigits(0);
-  for (const auto& round_mode : kRoundModes) {
-    this->SetRoundMode(round_mode);
-    this->AssertUnaryOp(Round, values, ArrayFromJSON(float64(), values));
-  }
-
-  // Test different round N-digits for nearest rounding mode
-  std::vector<std::pair<int64_t, std::string>> ndigits_and_expected{{
-      {-2, "[0, 0, 0, 100, 100]"},
-      {-1, "[0, 0, 10, 50, 120]"},
-      {0, values},
-      {1, values},
-      {2, values},
-  }};
-  this->SetRoundMode(RoundMode::HALF_TOWARDS_INFINITY);
-  for (const auto& pair : ndigits_and_expected) {
-    this->SetRoundNdigits(pair.first);
-    this->AssertUnaryOp(Round, values, ArrayFromJSON(float64(), pair.second));
-  }
-}
-
-TYPED_TEST(TestUnaryRoundFloating, Round) {
-  this->SetNansEqual(true);
-
-  // Test different rounding modes
-  std::string values("[3.2, 3.5, 3.7, 4.5, -3.2, -3.5, -3.7]");
-  std::vector<std::pair<RoundMode, std::string>> rmode_and_expected{{
-      {RoundMode::DOWN, "[3, 3, 3, 4, -4, -4, -4]"},
-      {RoundMode::UP, "[4, 4, 4, 5, -3, -3, -3]"},
-      {RoundMode::TOWARDS_ZERO, "[3, 3, 3, 4, -3, -3, -3]"},
-      {RoundMode::TOWARDS_INFINITY, "[4, 4, 4, 5, -4, -4, -4]"},
-      {RoundMode::HALF_DOWN, "[3, 3, 4, 4, -3, -4, -4]"},
-      {RoundMode::HALF_UP, "[3, 4, 4, 5, -3, -3, -4]"},
-      {RoundMode::HALF_TOWARDS_ZERO, "[3, 3, 4, 4, -3, -3, -4]"},
-      {RoundMode::HALF_TOWARDS_INFINITY, "[3, 4, 4, 5, -3, -4, -4]"},
-      {RoundMode::HALF_TO_EVEN, "[3, 4, 4, 4, -3, -4, -4]"},
-      {RoundMode::HALF_TO_ODD, "[3, 3, 4, 5, -3, -3, -4]"},
-  }};
-  this->SetRoundNdigits(0);
-  for (const auto& pair : rmode_and_expected) {
-    this->SetRoundMode(pair.first);
-    this->AssertUnaryOp(Round, "[]", "[]");
-    this->AssertUnaryOp(Round, "[null, 0, Inf, -Inf, NaN, -NaN]",
-                        "[null, 0, Inf, -Inf, NaN, -NaN]");
-    this->AssertUnaryOp(Round, values, pair.second);
-  }
-
-  // Test different round N-digits for nearest rounding mode
-  values = "[320, 3.5, 3.075, 4.5, -3.212, -35.1234, -3.045]";
-  std::vector<std::pair<int64_t, std::string>> ndigits_and_expected{{
-      {-2, "[300, 0.0, 0.0, 0.0, -0.0, -0.0, -0.0]"},
-      {-1, "[320, 0.0, 0.0, 0.0, -0.0, -40, -0.0]"},
-      {0, "[320, 4, 3, 5, -3, -35, -3]"},
-      {1, "[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3]"},
-      {2, "[320, 3.5, 3.08, 4.5, -3.21, -35.12, -3.05]"},
-  }};
-  this->SetRoundMode(RoundMode::HALF_TOWARDS_INFINITY);
-  for (const auto& pair : ndigits_and_expected) {
-    this->SetRoundNdigits(pair.first);
-    this->AssertUnaryOp(Round, values, pair.second);
-  }
-}
-
-TYPED_TEST_SUITE(TestUnaryRoundToMultipleIntegral, IntegralTypes);
-TYPED_TEST_SUITE(TestUnaryRoundToMultipleSigned, SignedIntegerTypes);
-TYPED_TEST_SUITE(TestUnaryRoundToMultipleUnsigned, UnsignedIntegerTypes);
-TYPED_TEST_SUITE(TestUnaryRoundToMultipleFloating, FloatingTypes);
-
-TYPED_TEST(TestUnaryRoundToMultipleSigned, RoundToMultiple) {
-  // Test different rounding modes for integer rounding
-  std::string values("[0, 1, -13, -50, 115]");
-  this->SetRoundMultiple(1);
-  for (const auto& round_mode : kRoundModes) {
-    this->SetRoundMode(round_mode);
-    this->AssertUnaryOp(RoundToMultiple, values, ArrayFromJSON(float64(), values));
-  }
-
-  // Test different round multiples for nearest rounding mode
-  std::vector<std::pair<double, std::string>> multiple_and_expected{{
-      {2, "[0.0, 2, -14, -50, 116]"},
-      {0.05, "[0.0, 1, -13, -50, 115]"},
-      {0.1, values},
-      {10, "[0.0, 0.0, -10, -50, 120]"},
-      {100, "[0.0, 0.0, -0.0, -100, 100]"},
-  }};
-  this->SetRoundMode(RoundMode::HALF_TOWARDS_INFINITY);
-  for (const auto& pair : multiple_and_expected) {
-    this->SetRoundMultiple(pair.first);
-    this->AssertUnaryOp(RoundToMultiple, values, ArrayFromJSON(float64(), pair.second));
-  }
-}
-
-TYPED_TEST(TestUnaryRoundToMultipleUnsigned, RoundToMultiple) {
-  // Test different rounding modes for integer rounding
-  std::string values("[0, 1, 13, 50, 115]");
-  this->SetRoundMultiple(1);
-  for (const auto& round_mode : kRoundModes) {
-    this->SetRoundMode(round_mode);
-    this->AssertUnaryOp(RoundToMultiple, values, ArrayFromJSON(float64(), values));
-  }
-
-  // Test different round multiples for nearest rounding mode
-  std::vector<std::pair<double, std::string>> multiple_and_expected{{
-      {0.05, "[0, 1, 13, 50, 115]"},
-      {0.1, values},
-      {2, "[0, 2, 14, 50, 116]"},
-      {10, "[0, 0, 10, 50, 120]"},
-      {100, "[0, 0, 0, 100, 100]"},
-  }};
-  this->SetRoundMode(RoundMode::HALF_TOWARDS_INFINITY);
-  for (const auto& pair : multiple_and_expected) {
-    this->SetRoundMultiple(pair.first);
-    this->AssertUnaryOp(RoundToMultiple, values, ArrayFromJSON(float64(), pair.second));
-  }
-}
-
-TYPED_TEST(TestUnaryRoundToMultipleFloating, RoundToMultiple) {
-  this->SetNansEqual(true);
-
-  // Test different rounding modes for integer rounding
-  std::string values("[3.2, 3.5, 3.7, 4.5, -3.2, -3.5, -3.7]");
-  std::vector<std::pair<RoundMode, std::string>> rmode_and_expected{{
-      {RoundMode::DOWN, "[3, 3, 3, 4, -4, -4, -4]"},
-      {RoundMode::UP, "[4, 4, 4, 5, -3, -3, -3]"},
-      {RoundMode::TOWARDS_ZERO, "[3, 3, 3, 4, -3, -3, -3]"},
-      {RoundMode::TOWARDS_INFINITY, "[4, 4, 4, 5, -4, -4, -4]"},
-      {RoundMode::HALF_DOWN, "[3, 3, 4, 4, -3, -4, -4]"},
-      {RoundMode::HALF_UP, "[3, 4, 4, 5, -3, -3, -4]"},
-      {RoundMode::HALF_TOWARDS_ZERO, "[3, 3, 4, 4, -3, -3, -4]"},
-      {RoundMode::HALF_TOWARDS_INFINITY, "[3, 4, 4, 5, -3, -4, -4]"},
-      {RoundMode::HALF_TO_EVEN, "[3, 4, 4, 4, -3, -4, -4]"},
-      {RoundMode::HALF_TO_ODD, "[3, 3, 4, 5, -3, -3, -4]"},
-  }};
-  this->SetRoundMultiple(1);
-  for (const auto& pair : rmode_and_expected) {
-    this->SetRoundMode(pair.first);
-    this->AssertUnaryOp(RoundToMultiple, "[]", "[]");
-    this->AssertUnaryOp(RoundToMultiple, "[null, 0, Inf, -Inf, NaN, -NaN]",
-                        "[null, 0, Inf, -Inf, NaN, -NaN]");
-    this->AssertUnaryOp(RoundToMultiple, values, pair.second);
-  }
-
-  // Test different round multiples for nearest rounding mode
-  values = "[320, 3.5, 3.075, 4.5, -3.212, -35.1234, -3.045]";
-  std::vector<std::pair<double, std::string>> multiple_and_expected{{
-      {0.05, "[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3.05]"},
-      {0.1, "[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3]"},
-      {2, "[320, 4, 4, 4, -4, -36, -4]"},
-      {10, "[320, 0.0, 0.0, 0.0, -0.0, -40, -0.0]"},
-      {100, "[300, 0.0, 0.0, 0.0, -0.0, -0.0, -0.0]"},
-  }};
-  this->SetRoundMode(RoundMode::HALF_TOWARDS_INFINITY);
-  for (const auto& pair : multiple_and_expected) {
-    this->SetRoundMultiple(pair.first);
-    this->AssertUnaryOp(RoundToMultiple, values, pair.second);
-  }
-
-  this->SetRoundMultiple(-2);
-  this->AssertUnaryOpRaises(RoundToMultiple, values,
-                            "Rounding multiple must be positive");
-}
-
 class TestBinaryArithmeticDecimal : public TestArithmeticDecimal {};
 
 TEST_F(TestBinaryArithmeticDecimal, DispatchBest) {
@@ -3414,156 +2752,6 @@ TYPED_TEST(TestUnaryArithmeticFloating, Sign) {
   this->AssertUnaryOp(sign, this->MakeScalar(max), this->MakeScalar(1));
 }
 
-TYPED_TEST(TestUnaryArithmeticSigned, Floor) {
-  auto floor = [](const Datum& arg, ArithmeticOptions, ExecContext* ctx) {
-    return Floor(arg, ctx);
-  };
-
-  this->AssertUnaryOp(floor, "[]", ArrayFromJSON(float64(), "[]"));
-  this->AssertUnaryOp(floor, "[null]", ArrayFromJSON(float64(), "[null]"));
-  this->AssertUnaryOp(floor, "[1, null, -10]",
-                      ArrayFromJSON(float64(), "[1, null, -10]"));
-  this->AssertUnaryOp(floor, "[0]", ArrayFromJSON(float64(), "[0]"));
-  this->AssertUnaryOp(floor, "[1, 10, 127]", ArrayFromJSON(float64(), "[1, 10, 127]"));
-  this->AssertUnaryOp(floor, "[-1, -10, -127]",
-                      ArrayFromJSON(float64(), "[-1, -10, -127]"));
-}
-
-TYPED_TEST(TestUnaryArithmeticUnsigned, Floor) {
-  auto floor = [](const Datum& arg, ArithmeticOptions, ExecContext* ctx) {
-    return Floor(arg, ctx);
-  };
-
-  this->AssertUnaryOp(floor, "[]", ArrayFromJSON(float64(), "[]"));
-  this->AssertUnaryOp(floor, "[null]", ArrayFromJSON(float64(), "[null]"));
-  this->AssertUnaryOp(floor, "[1, null, 10]", ArrayFromJSON(float64(), "[1, null, 10]"));
-  this->AssertUnaryOp(floor, "[0]", ArrayFromJSON(float64(), "[0]"));
-  this->AssertUnaryOp(floor, "[1, 10, 127]", ArrayFromJSON(float64(), "[1, 10, 127]"));
-}
-
-TYPED_TEST(TestUnaryArithmeticFloating, Floor) {
-  using CType = typename TestFixture::CType;
-  auto min = std::numeric_limits<CType>::lowest();
-  auto max = std::numeric_limits<CType>::max();
-
-  this->SetNansEqual(true);
-
-  auto floor = [](const Datum& arg, ArithmeticOptions, ExecContext* ctx) {
-    return Floor(arg, ctx);
-  };
-
-  this->AssertUnaryOp(floor, "[]", "[]");
-  this->AssertUnaryOp(floor, "[null]", "[null]");
-  this->AssertUnaryOp(floor, "[1.3, null, -10.80]", "[1, null, -11]");
-  // XXX Python uses math.floor(-0.0) == 0.0, but std::floor() keeps the sign
-  this->AssertUnaryOp(floor, "[0.0, -0.0]", "[0.0, -0.0]");
-  this->AssertUnaryOp(floor, "[1.3, 10.80, 12748.001]", "[1, 10, 12748]");
-  this->AssertUnaryOp(floor, "[-1.3, -10.80, -12748.001]", "[-2, -11, -12749]");
-  this->AssertUnaryOp(floor, "[Inf, -Inf]", "[Inf, -Inf]");
-  this->AssertUnaryOp(floor, "[NaN]", "[NaN]");
-  this->AssertUnaryOp(floor, this->MakeScalar(min), this->MakeScalar(min));
-  this->AssertUnaryOp(floor, this->MakeScalar(max), this->MakeScalar(max));
-}
-
-TYPED_TEST(TestUnaryArithmeticSigned, Ceil) {
-  auto ceil = [](const Datum& arg, ArithmeticOptions, ExecContext* ctx) {
-    return Ceil(arg, ctx);
-  };
-
-  this->AssertUnaryOp(ceil, "[]", ArrayFromJSON(float64(), "[]"));
-  this->AssertUnaryOp(ceil, "[null]", ArrayFromJSON(float64(), "[null]"));
-  this->AssertUnaryOp(ceil, "[1, null, -10]", ArrayFromJSON(float64(), "[1, null, -10]"));
-  this->AssertUnaryOp(ceil, "[0]", ArrayFromJSON(float64(), "[0]"));
-  this->AssertUnaryOp(ceil, "[1, 10, 127]", ArrayFromJSON(float64(), "[1, 10, 127]"));
-  this->AssertUnaryOp(ceil, "[-1, -10, -127]",
-                      ArrayFromJSON(float64(), "[-1, -10, -127]"));
-}
-
-TYPED_TEST(TestUnaryArithmeticUnsigned, Ceil) {
-  auto ceil = [](const Datum& arg, ArithmeticOptions, ExecContext* ctx) {
-    return Ceil(arg, ctx);
-  };
-
-  this->AssertUnaryOp(ceil, "[]", ArrayFromJSON(float64(), "[]"));
-  this->AssertUnaryOp(ceil, "[null]", ArrayFromJSON(float64(), "[null]"));
-  this->AssertUnaryOp(ceil, "[1, null, 10]", ArrayFromJSON(float64(), "[1, null, 10]"));
-  this->AssertUnaryOp(ceil, "[0]", ArrayFromJSON(float64(), "[0]"));
-  this->AssertUnaryOp(ceil, "[1, 10, 127]", ArrayFromJSON(float64(), "[1, 10, 127]"));
-}
-
-TYPED_TEST(TestUnaryArithmeticFloating, Ceil) {
-  using CType = typename TestFixture::CType;
-  auto min = std::numeric_limits<CType>::lowest();
-  auto max = std::numeric_limits<CType>::max();
-
-  this->SetNansEqual(true);
-
-  auto ceil = [](const Datum& arg, ArithmeticOptions, ExecContext* ctx) {
-    return Ceil(arg, ctx);
-  };
-
-  this->AssertUnaryOp(ceil, "[]", "[]");
-  this->AssertUnaryOp(ceil, "[null]", "[null]");
-  this->AssertUnaryOp(ceil, "[1.3, null, -10.80]", "[2, null, -10]");
-  // XXX same comment as Floor above
-  this->AssertUnaryOp(ceil, "[0.0, -0.0]", "[0.0, -0.0]");
-  this->AssertUnaryOp(ceil, "[1.3, 10.80, 12748.001]", "[2, 11, 12749]");
-  this->AssertUnaryOp(ceil, "[-1.3, -10.80, -12748.001]", "[-1, -10, -12748]");
-  this->AssertUnaryOp(ceil, "[Inf, -Inf]", "[Inf, -Inf]");
-  this->AssertUnaryOp(ceil, "[NaN]", "[NaN]");
-  this->AssertUnaryOp(ceil, this->MakeScalar(min), this->MakeScalar(min));
-  this->AssertUnaryOp(ceil, this->MakeScalar(max), this->MakeScalar(max));
-}
-
-TYPED_TEST(TestUnaryArithmeticSigned, Trunc) {
-  auto trunc = [](const Datum& arg, ArithmeticOptions, ExecContext* ctx) {
-    return Trunc(arg, ctx);
-  };
-
-  this->AssertUnaryOp(trunc, "[]", ArrayFromJSON(float64(), "[]"));
-  this->AssertUnaryOp(trunc, "[null]", ArrayFromJSON(float64(), "[null]"));
-  this->AssertUnaryOp(trunc, "[1, null, -10]",
-                      ArrayFromJSON(float64(), "[1, null, -10]"));
-  this->AssertUnaryOp(trunc, "[0]", ArrayFromJSON(float64(), "[0]"));
-  this->AssertUnaryOp(trunc, "[1, 10, 127]", ArrayFromJSON(float64(), "[1, 10, 127]"));
-  this->AssertUnaryOp(trunc, "[-1, -10, -127]",
-                      ArrayFromJSON(float64(), "[-1, -10, -127]"));
-}
-
-TYPED_TEST(TestUnaryArithmeticUnsigned, Trunc) {
-  auto trunc = [](const Datum& arg, ArithmeticOptions, ExecContext* ctx) {
-    return Trunc(arg, ctx);
-  };
-
-  this->AssertUnaryOp(trunc, "[]", ArrayFromJSON(float64(), "[]"));
-  this->AssertUnaryOp(trunc, "[null]", ArrayFromJSON(float64(), "[null]"));
-  this->AssertUnaryOp(trunc, "[1, null, 10]", ArrayFromJSON(float64(), "[1, null, 10]"));
-  this->AssertUnaryOp(trunc, "[0]", ArrayFromJSON(float64(), "[0]"));
-  this->AssertUnaryOp(trunc, "[1, 10, 127]", ArrayFromJSON(float64(), "[1, 10, 127]"));
-}
-
-TYPED_TEST(TestUnaryArithmeticFloating, Trunc) {
-  using CType = typename TestFixture::CType;
-  auto min = std::numeric_limits<CType>::lowest();
-  auto max = std::numeric_limits<CType>::max();
-
-  this->SetNansEqual(true);
-
-  auto trunc = [](const Datum& arg, ArithmeticOptions, ExecContext* ctx) {
-    return Trunc(arg, ctx);
-  };
-
-  this->AssertUnaryOp(trunc, "[]", "[]");
-  this->AssertUnaryOp(trunc, "[null]", "[null]");
-  this->AssertUnaryOp(trunc, "[1.3, null, -10.80]", "[1, null, -10]");
-  // XXX same comment as Floor above
-  this->AssertUnaryOp(trunc, "[0.0, -0.0]", "[0.0, -0.0]");
-  this->AssertUnaryOp(trunc, "[1.3, 10.80, 12748.001]", "[1, 10, 12748]");
-  this->AssertUnaryOp(trunc, "[-1.3, -10.80, -12748.001]", "[-1, -10, -12748]");
-  this->AssertUnaryOp(trunc, "[Inf, -Inf]", "[Inf, -Inf]");
-  this->AssertUnaryOp(trunc, "[NaN]", "[NaN]");
-  this->AssertUnaryOp(trunc, this->MakeScalar(min), this->MakeScalar(min));
-  this->AssertUnaryOp(trunc, this->MakeScalar(max), this->MakeScalar(max));
-}
+}  // namespace
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/kernels/scalar_boolean.cc b/cpp/src/arrow/compute/kernels/scalar_boolean.cc
index 943ca4c2dc2..fb23106b6bc 100644
--- a/cpp/src/arrow/compute/kernels/scalar_boolean.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_boolean.cc
@@ -451,11 +451,11 @@ const FunctionDoc and_kleene_doc{
 const FunctionDoc and_not_kleene_doc{
     "Logical 'and not' boolean values (Kleene logic)",
     ("This function behaves as follows with nulls:\n\n"
-     "- true and null = null\n"
-     "- null and false = null\n"
-     "- false and null = false\n"
-     "- null and true = false\n"
-     "- null and null = null\n"
+     "- true and not null = null\n"
+     "- null and not false = null\n"
+     "- false and not null = false\n"
+     "- null and not true = false\n"
+     "- null and not null = null\n"
      "\n"
      "In other words, in this context a null value really means \"unknown\",\n"
      "and an unknown value 'and not' true is always false, as is false\n"
@@ -467,14 +467,14 @@ const FunctionDoc or_kleene_doc{
     "Logical 'or' boolean values (Kleene logic)",
     ("This function behaves as follows with nulls:\n\n"
      "- true or null = true\n"
-     "- null and true = true\n"
-     "- false and null = null\n"
-     "- null and false = null\n"
-     "- null and null = null\n"
+     "- null or true = true\n"
+     "- false or null = null\n"
+     "- null or false = null\n"
+     "- null or null = null\n"
      "\n"
      "In other words, in this context a null value really means \"unknown\",\n"
      "and an unknown value 'or' true is always true.\n"
-     "For a different null behavior, see function \"and\"."),
+     "For a different null behavior, see function \"or\"."),
     {"x", "y"}};
 
 }  // namespace
diff --git a/cpp/src/arrow/compute/kernels/scalar_cast_extension.cc b/cpp/src/arrow/compute/kernels/scalar_cast_extension.cc
new file mode 100644
index 00000000000..d2e2ab72f00
--- /dev/null
+++ b/cpp/src/arrow/compute/kernels/scalar_cast_extension.cc
@@ -0,0 +1,74 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+// Implementation of casting to extension types
+#include "arrow/compute/kernels/common.h"
+#include "arrow/compute/kernels/scalar_cast_internal.h"
+#include "arrow/scalar.h"
+
+namespace arrow {
+namespace compute {
+namespace internal {
+
+namespace {
+Status CastToExtension(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
+  const CastOptions& options = checked_cast<const CastState*>(ctx->state())->options;
+  const auto& ext_ty = static_cast<const ExtensionType&>(*options.to_type.type);
+  auto out_ty = ext_ty.storage_type();
+
+  DCHECK(batch[0].is_array());
+  std::shared_ptr<Array> array = batch[0].array.ToArray();
+
+  // Try to prevent user errors by preventing casting between extensions w/
+  // different storage types. Provide a tip on how to accomplish same outcome.
+  std::shared_ptr<Array> result;
+  if (array->type()->id() == Type::EXTENSION) {
+    if (!array->type()->Equals(out_ty)) {
+      return Status::TypeError("Casting from '" + array->type()->ToString() +
+                               "' to different extension type '" + ext_ty.ToString() +
+                               "' not permitted. One can first cast to the storage "
+                               "type, then to the extension type.");
+    }
+    result = array;
+  } else {
+    ARROW_ASSIGN_OR_RAISE(result, Cast(*array, out_ty, options, ctx->exec_context()));
+  }
+
+  ExtensionArray extension(options.to_type.GetSharedPtr(), result);
+  out->value = std::move(extension.data());
+  return Status::OK();
+}
+
+std::shared_ptr<CastFunction> GetCastToExtension(std::string name) {
+  auto func = std::make_shared<CastFunction>(std::move(name), Type::EXTENSION);
+  for (Type::type in_ty : AllTypeIds()) {
+    DCHECK_OK(
+        func->AddKernel(in_ty, {InputType(in_ty)}, kOutputTargetType, CastToExtension));
+  }
+  return func;
+}
+
+};  // namespace
+
+std::vector<std::shared_ptr<CastFunction>> GetExtensionCasts() {
+  auto func = GetCastToExtension("cast_extension");
+  return {func};
+}
+
+}  // namespace internal
+}  // namespace compute
+}  // namespace arrow
diff --git a/cpp/src/arrow/compute/kernels/scalar_cast_nested.cc b/cpp/src/arrow/compute/kernels/scalar_cast_nested.cc
index 21af2275d82..5b764efe263 100644
--- a/cpp/src/arrow/compute/kernels/scalar_cast_nested.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_cast_nested.cc
@@ -40,25 +40,22 @@ namespace {
 
 // (Large)List<T> -> (Large)List<U>
 
-template <typename SrcType, typename DestType>
-typename std::enable_if<SrcType::type_id == DestType::type_id, Status>::type
-CastListOffsets(KernelContext* ctx, const ArraySpan& in_array, ArrayData* out_array) {
-  return Status::OK();
-}
-
 // TODO(wesm): memory could be preallocated here and it would make
 // things simpler
 template <typename SrcType, typename DestType>
-typename std::enable_if<SrcType::type_id != DestType::type_id, Status>::type
-CastListOffsets(KernelContext* ctx, const ArraySpan& in_array, ArrayData* out_array) {
+Status CastListOffsets(KernelContext* ctx, const ArraySpan& in_array,
+                       ArrayData* out_array) {
   using src_offset_type = typename SrcType::offset_type;
   using dest_offset_type = typename DestType::offset_type;
 
-  ARROW_ASSIGN_OR_RAISE(out_array->buffers[1],
-                        ctx->Allocate(sizeof(dest_offset_type) * (in_array.length + 1)));
-  ::arrow::internal::CastInts(in_array.GetValues<src_offset_type>(1),
-                              out_array->GetMutableValues<dest_offset_type>(1),
-                              in_array.length + 1);
+  if constexpr (!std::is_same<src_offset_type, dest_offset_type>::value) {
+    ARROW_ASSIGN_OR_RAISE(out_array->buffers[1], ctx->Allocate(sizeof(dest_offset_type) *
+                                                               (in_array.length + 1)));
+    ::arrow::internal::CastInts(in_array.GetValues<src_offset_type>(1),
+                                out_array->GetMutableValues<dest_offset_type>(1),
+                                in_array.length + 1);
+  }
+
   return Status::OK();
 }
 
@@ -70,25 +67,10 @@ struct CastList {
   static constexpr bool is_upcast = sizeof(src_offset_type) < sizeof(dest_offset_type);
   static constexpr bool is_downcast = sizeof(src_offset_type) > sizeof(dest_offset_type);
 
-  static Status Exec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
-    const CastOptions& options = CastState::Get(ctx);
-
-    auto child_type = checked_cast<const DestType&>(*out->type()).value_type();
-
-    const ArraySpan& in_array = batch[0].array;
+  static Status HandleOffsets(KernelContext* ctx, const ArraySpan& in_array,
+                              ArrayData* out_array, std::shared_ptr<ArrayData>* values) {
     auto offsets = in_array.GetValues<src_offset_type>(1);
 
-    ArrayData* out_array = out->array_data().get();
-    out_array->buffers[0] = in_array.GetBuffer(0);
-    out_array->buffers[1] = in_array.GetBuffer(1);
-
-    // Shift bitmap in case the source offset is non-zero
-    if (in_array.offset != 0 && in_array.buffers[0].data != nullptr) {
-      ARROW_ASSIGN_OR_RAISE(out_array->buffers[0],
-                            CopyBitmap(ctx->memory_pool(), in_array.buffers[0].data,
-                                       in_array.offset, in_array.length));
-    }
-
     // Handle list offsets
     // Several cases can arise:
     // - the source offset is non-zero, in which case we slice the underlying values
@@ -103,8 +85,6 @@ struct CastList {
       }
     }
 
-    std::shared_ptr<ArrayData> values = in_array.child_data[0].ToArrayData();
-
     if (in_array.offset != 0) {
       ARROW_ASSIGN_OR_RAISE(
           out_array->buffers[1],
@@ -115,11 +95,36 @@ struct CastList {
         shifted_offsets[i] = static_cast<dest_offset_type>(offsets[i] - offsets[0]);
       }
 
-      values = values->Slice(offsets[0], offsets[in_array.length]);
+      *values = (*values)->Slice(offsets[0], offsets[in_array.length]);
     } else {
       RETURN_NOT_OK((CastListOffsets<SrcType, DestType>(ctx, in_array, out_array)));
     }
 
+    return Status::OK();
+  }
+
+  static Status Exec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
+    const CastOptions& options = CastState::Get(ctx);
+
+    auto child_type = checked_cast<const DestType&>(*out->type()).value_type();
+
+    const ArraySpan& in_array = batch[0].array;
+
+    ArrayData* out_array = out->array_data().get();
+    out_array->buffers[0] = in_array.GetBuffer(0);
+    out_array->buffers[1] = in_array.GetBuffer(1);
+
+    std::shared_ptr<ArrayData> values = in_array.child_data[0].ToArrayData();
+
+    // Shift bitmap in case the source offset is non-zero
+    if (in_array.offset != 0 && in_array.buffers[0].data != nullptr) {
+      ARROW_ASSIGN_OR_RAISE(out_array->buffers[0],
+                            CopyBitmap(ctx->memory_pool(), in_array.buffers[0].data,
+                                       in_array.offset, in_array.length));
+    }
+
+    RETURN_NOT_OK(HandleOffsets(ctx, in_array, out_array, &values));
+
     // Handle values
     ARROW_ASSIGN_OR_RAISE(Datum cast_values,
                           Cast(values, child_type, options, ctx->exec_context()));
@@ -140,6 +145,37 @@ void AddListCast(CastFunction* func) {
   DCHECK_OK(func->AddKernel(SrcType::type_id, std::move(kernel)));
 }
 
+struct CastFixedList {
+  static Status Exec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
+    const CastOptions& options = CastState::Get(ctx);
+    const auto& in_type = checked_cast<const FixedSizeListType&>(*batch[0].type());
+    const auto& out_type = checked_cast<const FixedSizeListType&>(*out->type());
+    auto in_size = in_type.list_size();
+    auto out_size = out_type.list_size();
+
+    if (in_size != out_size) {
+      return Status::TypeError("Size of FixedSizeList is not the same.",
+                               " input list: ", in_type.ToString(),
+                               " output list: ", out_type.ToString());
+    }
+
+    const ArraySpan& in_array = batch[0].array;
+    std::shared_ptr<ArrayData> values = in_array.child_data[0].ToArrayData();
+    ArrayData* out_array = out->array_data().get();
+    out_array->buffers[0] = in_array.GetBuffer(0);
+
+    // Take care of data if input is a view.
+    out_array->offset = in_array.offset;
+
+    auto child_type = checked_cast<const FixedSizeListType&>(*out->type()).value_type();
+    ARROW_ASSIGN_OR_RAISE(Datum cast_values,
+                          Cast(values, child_type, options, ctx->exec_context()));
+    DCHECK(cast_values.is_array());
+    out_array->child_data.push_back(cast_values.array());
+    return Status::OK();
+  }
+};
+
 struct CastStruct {
   static Status Exec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
     const CastOptions& options = CastState::Get(ctx);
@@ -197,15 +233,83 @@ struct CastStruct {
   }
 };
 
-void AddStructToStructCast(CastFunction* func) {
+template <typename CastFunctor, typename SrcT>
+void AddTypeToTypeCast(CastFunction* func) {
   ScalarKernel kernel;
-  kernel.exec = CastStruct::Exec;
-  kernel.signature =
-      KernelSignature::Make({InputType(StructType::type_id)}, kOutputTargetType);
+  kernel.exec = CastFunctor::Exec;
+  kernel.signature = KernelSignature::Make({InputType(SrcT::type_id)}, kOutputTargetType);
   kernel.null_handling = NullHandling::COMPUTED_NO_PREALLOCATE;
   DCHECK_OK(func->AddKernel(StructType::type_id, std::move(kernel)));
 }
 
+template <typename DestType>
+struct CastMap {
+  using CastListImpl = CastList<MapType, DestType>;
+
+  static Status Exec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
+    const CastOptions& options = CastState::Get(ctx);
+
+    std::shared_ptr<DataType> entry_type =
+        checked_cast<const DestType&>(*out->type()).value_type();
+    // Assert is struct with two fields
+    if (!(entry_type->id() == Type::STRUCT && entry_type->num_fields() == 2)) {
+      return Status::TypeError(
+          "Map type must be cast to a list<struct> with exactly two fields.");
+    }
+    std::shared_ptr<DataType> key_type = entry_type->field(0)->type();
+    std::shared_ptr<DataType> value_type = entry_type->field(1)->type();
+
+    const ArraySpan& in_array = batch[0].array;
+
+    ArrayData* out_array = out->array_data().get();
+    out_array->buffers[0] = in_array.GetBuffer(0);
+    out_array->buffers[1] = in_array.GetBuffer(1);
+
+    std::shared_ptr<ArrayData> entries = in_array.child_data[0].ToArrayData();
+
+    // Shift bitmap in case the source offset is non-zero
+    if (in_array.offset != 0 && in_array.buffers[0].data != nullptr) {
+      ARROW_ASSIGN_OR_RAISE(out_array->buffers[0],
+                            CopyBitmap(ctx->memory_pool(), in_array.buffers[0].data,
+                                       in_array.offset, in_array.length));
+    }
+
+    RETURN_NOT_OK(CastListImpl::HandleOffsets(ctx, in_array, out_array, &entries));
+
+    // Handle keys
+    const std::shared_ptr<ArrayData>& keys =
+        entries->child_data[0]->Slice(entries->offset, entries->length);
+    ARROW_ASSIGN_OR_RAISE(Datum cast_keys,
+                          Cast(keys, key_type, options, ctx->exec_context()));
+    DCHECK(cast_keys.is_array());
+
+    // Handle values
+    const std::shared_ptr<ArrayData>& values =
+        entries->child_data[1]->Slice(entries->offset, entries->length);
+    ARROW_ASSIGN_OR_RAISE(Datum cast_values,
+                          Cast(values, value_type, options, ctx->exec_context()));
+    DCHECK(cast_values.is_array());
+
+    // Create struct array
+    std::shared_ptr<ArrayData> struct_array =
+        ArrayData::Make(entry_type, /*length=*/entries->length, {nullptr},
+                        {cast_keys.array(), cast_values.array()}, /*null_count=*/0);
+    out_array->child_data.push_back(struct_array);
+
+    return Status::OK();
+  }
+};
+
+template <typename DestType>
+void AddMapCast(CastFunction* func) {
+  ScalarKernel kernel;
+  kernel.exec = CastMap<DestType>::Exec;
+  kernel.signature =
+      KernelSignature::Make({InputType(MapType::type_id)}, kOutputTargetType);
+  kernel.null_handling = NullHandling::COMPUTED_NO_PREALLOCATE;
+  DCHECK_OK(func->AddKernel(MapType::type_id, std::move(kernel)));
+}
+
 }  // namespace
 
 std::vector<std::shared_ptr<CastFunction>> GetNestedCasts() {
@@ -222,22 +326,29 @@ std::vector<std::shared_ptr<CastFunction>> GetNestedCasts() {
   AddListCast<ListType, LargeListType>(cast_large_list.get());
   AddListCast<LargeListType, LargeListType>(cast_large_list.get());
 
+  auto cast_map = std::make_shared<CastFunction>("cast_map", Type::MAP);
+  AddCommonCasts(Type::MAP, kOutputTargetType, cast_map.get());
+  AddMapCast<MapType>(cast_map.get());
+  AddMapCast<ListType>(cast_list.get());
+  AddMapCast<LargeListType>(cast_large_list.get());
+
   // FSL is a bit incomplete at the moment
   auto cast_fsl =
       std::make_shared<CastFunction>("cast_fixed_size_list", Type::FIXED_SIZE_LIST);
   AddCommonCasts(Type::FIXED_SIZE_LIST, kOutputTargetType, cast_fsl.get());
+  AddTypeToTypeCast<CastFixedList, FixedSizeListType>(cast_fsl.get());
 
   // So is struct
   auto cast_struct = std::make_shared<CastFunction>("cast_struct", Type::STRUCT);
   AddCommonCasts(Type::STRUCT, kOutputTargetType, cast_struct.get());
-  AddStructToStructCast(cast_struct.get());
+  AddTypeToTypeCast<CastStruct, StructType>(cast_struct.get());
 
   // So is dictionary
   auto cast_dictionary =
       std::make_shared<CastFunction>("cast_dictionary", Type::DICTIONARY);
   AddCommonCasts(Type::DICTIONARY, kOutputTargetType, cast_dictionary.get());
 
-  return {cast_list, cast_large_list, cast_fsl, cast_struct, cast_dictionary};
+  return {cast_list, cast_large_list, cast_map, cast_fsl, cast_struct, cast_dictionary};
 }
 
 }  // namespace internal
diff --git a/cpp/src/arrow/compute/kernels/scalar_cast_numeric.cc b/cpp/src/arrow/compute/kernels/scalar_cast_numeric.cc
index 8d36cff6ae9..00c7cacf9c8 100644
--- a/cpp/src/arrow/compute/kernels/scalar_cast_numeric.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_cast_numeric.cc
@@ -567,6 +567,68 @@ struct CastFunctor<O, I,
   }
 };
 
+// ----------------------------------------------------------------------
+// String to decimal
+
+struct StringToDecimal {
+  template <typename OutValue, typename StringType>
+  OutValue Call(KernelContext*, StringType val, Status* st) const {
+    OutValue parsed_out;
+    int32_t parsed_precision;
+    int32_t parsed_scale;
+    auto r_parse = OutValue::FromString(std::string_view(val.data(), val.size()),
+                                        &parsed_out, &parsed_precision, &parsed_scale);
+
+    if (ARROW_PREDICT_TRUE(r_parse.ok())) {
+      if (allow_truncate_) {
+        return (parsed_scale < out_scale_)
+                   ? parsed_out.IncreaseScaleBy(out_scale_ - parsed_scale)
+                   : parsed_out.ReduceScaleBy(parsed_scale - out_scale_, false);
+      }
+
+      auto maybe_rescaled = parsed_out.Rescale(parsed_scale, out_scale_);
+      if (!maybe_rescaled.ok()) {
+        *st = maybe_rescaled.status();
+        return {};  // Zero
+      }
+      if (maybe_rescaled->FitsInPrecision(out_precision_)) {
+        return maybe_rescaled.MoveValueUnsafe();
+      } else {
+        *st = Status::Invalid("Decimal value does not fit in precision ", out_precision_);
+        return {};  // Zero
+      }
+    }
+
+    *st = r_parse;
+    return {};  // Zero
+  }
+
+  int32_t out_scale_, out_precision_;
+  bool allow_truncate_;
+};
+
+template <typename ARROW_TYPE, typename I>
+struct DecimalCastFunctor {
+  static Status Exec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
+    const auto& options = checked_cast<const CastState*>(ctx->state())->options;
+    const auto& out_type = checked_cast<const ARROW_TYPE&>(*out->type());
+    const auto out_scale = out_type.scale();
+    const auto out_precision = out_type.precision();
+
+    applicator::ScalarUnaryNotNullStateful<ARROW_TYPE, I, StringToDecimal> kernel(
+        StringToDecimal{out_scale, out_precision, options.allow_decimal_truncate});
+    return kernel.Exec(ctx, batch, out);
+  }
+};
+
+template <typename I>
+struct CastFunctor<Decimal128Type, I, enable_if_t<is_base_binary_type<I>::value>>
+    : public DecimalCastFunctor<Decimal128Type, I> {};
+
+template <typename I>
+struct CastFunctor<Decimal256Type, I, enable_if_t<is_base_binary_type<I>::value>>
+    : public DecimalCastFunctor<Decimal256Type, I> {};
+
 // ----------------------------------------------------------------------
 // Decimal to real
 
@@ -681,6 +743,12 @@ std::shared_ptr<CastFunction> GetCastToDecimal128() {
     DCHECK_OK(func->AddKernel(in_ty->id(), {in_ty}, sig_out_ty, std::move(exec)));
   }
 
+  // Cast from other strings
+  for (const std::shared_ptr<DataType>& in_ty : BaseBinaryTypes()) {
+    auto exec = GenerateVarBinaryBase<CastFunctor, Decimal128Type>(in_ty->id());
+    DCHECK_OK(func->AddKernel(in_ty->id(), {in_ty}, sig_out_ty, std::move(exec)));
+  }
+
   // Cast from other decimal
   auto exec = CastFunctor<Decimal128Type, Decimal128Type>::Exec;
   // We resolve the output type of this kernel from the CastOptions
@@ -710,6 +778,12 @@ std::shared_ptr<CastFunction> GetCastToDecimal256() {
     DCHECK_OK(func->AddKernel(in_ty->id(), {in_ty}, sig_out_ty, std::move(exec)));
   }
 
+  // Cast from other strings
+  for (const std::shared_ptr<DataType>& in_ty : BaseBinaryTypes()) {
+    auto exec = GenerateVarBinaryBase<CastFunctor, Decimal256Type>(in_ty->id());
+    DCHECK_OK(func->AddKernel(in_ty->id(), {in_ty}, sig_out_ty, std::move(exec)));
+  }
+
   // Cast from other decimal
   auto exec = CastFunctor<Decimal256Type, Decimal128Type>::Exec;
   DCHECK_OK(
diff --git a/cpp/src/arrow/compute/kernels/scalar_cast_string.cc b/cpp/src/arrow/compute/kernels/scalar_cast_string.cc
index 6b21a532392..44e233f98c0 100644
--- a/cpp/src/arrow/compute/kernels/scalar_cast_string.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_cast_string.cc
@@ -16,6 +16,7 @@
 // under the License.
 
 #include <limits>
+#include <optional>
 
 #include "arrow/array/array_base.h"
 #include "arrow/array/builder_binary.h"
@@ -26,7 +27,6 @@
 #include "arrow/result.h"
 #include "arrow/util/formatting.h"
 #include "arrow/util/int_util.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/utf8_internal.h"
 #include "arrow/visit_data_inline.h"
 
@@ -57,7 +57,32 @@ struct NumericToStringCastFunctor {
     RETURN_NOT_OK(VisitArraySpanInline<I>(
         input,
         [&](value_type v) {
-          return formatter(v, [&](util::string_view v) { return builder.Append(v); });
+          return formatter(v, [&](std::string_view v) { return builder.Append(v); });
+        },
+        [&]() { return builder.AppendNull(); }));
+
+    std::shared_ptr<Array> output_array;
+    RETURN_NOT_OK(builder.Finish(&output_array));
+    out->value = std::move(output_array->data());
+    return Status::OK();
+  }
+};
+
+template <typename O, typename I>
+struct DecimalToStringCastFunctor {
+  using value_type = typename TypeTraits<I>::CType;
+  using BuilderType = typename TypeTraits<O>::BuilderType;
+  using FormatterType = StringFormatter<I>;
+
+  static Status Exec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
+    const ArraySpan& input = batch[0].array;
+    FormatterType formatter(input.type);
+    BuilderType builder(input.type->GetSharedPtr(), ctx->memory_pool());
+    RETURN_NOT_OK(VisitArraySpanInline<I>(
+        input,
+        [&](std::string_view bytes) {
+          value_type value(reinterpret_cast<const uint8_t*>(bytes.data()));
+          return formatter(value, [&](std::string_view v) { return builder.Append(v); });
         },
         [&]() { return builder.AppendNull(); }));
 
@@ -84,7 +109,7 @@ struct TemporalToStringCastFunctor {
     RETURN_NOT_OK(VisitArraySpanInline<I>(
         input,
         [&](value_type v) {
-          return formatter(v, [&](util::string_view v) { return builder.Append(v); });
+          return formatter(v, [&](std::string_view v) { return builder.Append(v); });
         },
         [&]() { return builder.AppendNull(); }));
 
@@ -126,7 +151,7 @@ struct TemporalToStringCastFunctor<O, TimestampType> {
       RETURN_NOT_OK(VisitArraySpanInline<TimestampType>(
           input,
           [&](value_type v) {
-            return formatter(v, [&](util::string_view v) { return builder.Append(v); });
+            return formatter(v, [&](std::string_view v) { return builder.Append(v); });
           },
           [&]() {
             builder.UnsafeAppendNull();
@@ -196,7 +221,7 @@ struct TemporalToStringCastFunctor<O, TimestampType> {
 struct Utf8Validator {
   Status VisitNull() { return Status::OK(); }
 
-  Status VisitValue(util::string_view str) {
+  Status VisitValue(std::string_view str) {
     if (ARROW_PREDICT_FALSE(!ValidateUTF8Inline(str))) {
       return Status::Invalid("Invalid UTF8 payload");
     }
@@ -386,16 +411,29 @@ void AddNumberToStringCasts(CastFunction* func) {
 }
 
 template <typename OutType>
-void AddTemporalToStringCasts(CastFunction* func) {
+void AddDecimalToStringCasts(CastFunction* func) {
   auto out_ty = TypeTraits<OutType>::type_singleton();
-  for (const std::shared_ptr<DataType>& in_ty : TemporalTypes()) {
+  for (const auto& in_tid : std::vector<Type::type>{Type::DECIMAL128, Type::DECIMAL256}) {
     DCHECK_OK(
-        func->AddKernel(in_ty->id(), {InputType(in_ty->id())}, out_ty,
-                        GenerateTemporal<TemporalToStringCastFunctor, OutType>(*in_ty),
+        func->AddKernel(in_tid, {in_tid}, out_ty,
+                        GenerateDecimal<DecimalToStringCastFunctor, OutType>(in_tid),
                         NullHandling::COMPUTED_NO_PREALLOCATE));
   }
 }
 
+template <typename OutType>
+void AddTemporalToStringCasts(CastFunction* func) {
+  auto out_ty = TypeTraits<OutType>::type_singleton();
+  for (const auto& types : {TemporalTypes(), DurationTypes()}) {
+    for (const std::shared_ptr<DataType>& in_ty : types) {
+      DCHECK_OK(
+          func->AddKernel(in_ty->id(), {InputType(in_ty->id())}, out_ty,
+                          GenerateTemporal<TemporalToStringCastFunctor, OutType>(*in_ty),
+                          NullHandling::COMPUTED_NO_PREALLOCATE));
+    }
+  }
+}
+
 template <typename OutType, typename InType>
 void AddBinaryToBinaryCast(CastFunction* func) {
   auto out_ty = TypeTraits<OutType>::type_singleton();
@@ -429,6 +467,7 @@ std::vector<std::shared_ptr<CastFunction>> GetBinaryLikeCasts() {
   auto cast_string = std::make_shared<CastFunction>("cast_string", Type::STRING);
   AddCommonCasts(Type::STRING, utf8(), cast_string.get());
   AddNumberToStringCasts<StringType>(cast_string.get());
+  AddDecimalToStringCasts<StringType>(cast_string.get());
   AddTemporalToStringCasts<StringType>(cast_string.get());
   AddBinaryToBinaryCast<StringType>(cast_string.get());
 
@@ -436,6 +475,7 @@ std::vector<std::shared_ptr<CastFunction>> GetBinaryLikeCasts() {
       std::make_shared<CastFunction>("cast_large_string", Type::LARGE_STRING);
   AddCommonCasts(Type::LARGE_STRING, large_utf8(), cast_large_string.get());
   AddNumberToStringCasts<LargeStringType>(cast_large_string.get());
+  AddDecimalToStringCasts<LargeStringType>(cast_large_string.get());
   AddTemporalToStringCasts<LargeStringType>(cast_large_string.get());
   AddBinaryToBinaryCast<LargeStringType>(cast_large_string.get());
 
diff --git a/cpp/src/arrow/compute/kernels/scalar_cast_temporal.cc b/cpp/src/arrow/compute/kernels/scalar_cast_temporal.cc
index 7625fd7f786..6b25d66da15 100644
--- a/cpp/src/arrow/compute/kernels/scalar_cast_temporal.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_cast_temporal.cc
@@ -419,12 +419,12 @@ struct ParseTimestamp {
       if (expect_timezone) {
         *st = Status::Invalid(
             "Failed to parse string: '", val, "' as a scalar of type ", type.ToString(),
-            "expected a zone offset. If these timestamps "
+            ": expected a zone offset. If these timestamps "
             "are in local time, cast to timestamp without timezone, then "
             "call assume_timezone.");
       } else {
         *st = Status::Invalid("Failed to parse string: '", val, "' as a scalar of type ",
-                              type.ToString(), "expected no zone offset");
+                              type.ToString(), ": expected no zone offset.");
       }
     }
     return result;
diff --git a/cpp/src/arrow/compute/kernels/scalar_cast_test.cc b/cpp/src/arrow/compute/kernels/scalar_cast_test.cc
index 963748c9f97..85da81357b4 100644
--- a/cpp/src/arrow/compute/kernels/scalar_cast_test.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_cast_test.cc
@@ -225,7 +225,8 @@ TEST(Cast, CanCast) {
   ExpectCanCast(smallint(), {int16()});  // cast storage
   ExpectCanCast(smallint(),
                 kNumericTypes);  // any cast which is valid for storage is supported
-  ExpectCannotCast(null(), {smallint()});  // FIXME missing common cast from null
+  ExpectCanCast(null(), {smallint()});
+  ExpectCanCast(tinyint(), {smallint()});  // cast between compatible storage types
 
   ExpectCanCast(date32(), {utf8(), large_utf8()});
   ExpectCanCast(date64(), {utf8(), large_utf8()});
@@ -1027,6 +1028,15 @@ TEST(Cast, DecimalToFloating) {
   // Edge cases are tested for Decimal128::ToReal() and Decimal256::ToReal()
 }
 
+TEST(Cast, DecimalToString) {
+  for (auto string_type : {utf8(), large_utf8()}) {
+    for (auto decimal_type : {decimal128(5, 2), decimal256(5, 2)}) {
+      CheckCast(ArrayFromJSON(decimal_type, R"(["0.00", null, "123.45", "999.99"])"),
+                ArrayFromJSON(string_type, R"(["0.00", null, "123.45", "999.99"])"));
+    }
+  }
+}
+
 TEST(Cast, TimestampToTimestamp) {
   struct TimestampTypePair {
     std::shared_ptr<DataType> coarse, fine;
@@ -1760,6 +1770,15 @@ TEST(Cast, DurationToDurationMultiplyOverflow) {
       options);
 }
 
+TEST(Cast, DurationToString) {
+  for (auto string_type : {utf8(), large_utf8()}) {
+    for (auto unit : TimeUnit::values()) {
+      CheckCast(ArrayFromJSON(duration(unit), "[0, null, 1234567, 2000]"),
+                ArrayFromJSON(string_type, R"(["0", null, "1234567", "2000"])"));
+    }
+  }
+}
+
 TEST(Cast, MiscToFloating) {
   for (auto to_type : {float32(), float64()}) {
     CheckCast(ArrayFromJSON(int16(), "[0, null, 200, 1, 2]"),
@@ -1909,6 +1928,30 @@ TEST(Cast, StringToFloating) {
   }
 }
 
+TEST(Cast, StringToDecimal) {
+  for (auto string_type : {utf8(), large_utf8()}) {
+    for (auto decimal_type : {decimal128(5, 2), decimal256(5, 2)}) {
+      auto strings =
+          ArrayFromJSON(string_type, R"(["0.01", null, "127.32", "200.43", "0.54"])");
+      auto decimals =
+          ArrayFromJSON(decimal_type, R"(["0.01", null, "127.32", "200.43", "0.54"])");
+      CheckCast(strings, decimals);
+
+      for (const auto& not_decimal : std::vector<std::string>{"z"}) {
+        auto options = CastOptions::Safe(decimal128(5, 2));
+        CheckCastFails(ArrayFromJSON(string_type, "[\"" + not_decimal + "\"]"), options);
+      }
+
+#if !defined(_WIN32) || defined(NDEBUG)
+      // Test that casting is locale-independent
+      // French locale uses the comma as decimal point
+      LocaleGuard locale_guard("fr_FR.UTF-8");
+      CheckCast(strings, decimals);
+#endif
+    }
+  }
+}
+
 TEST(Cast, StringToTimestamp) {
   for (auto string_type : {utf8(), large_utf8()}) {
     auto strings = ArrayFromJSON(string_type, R"(["1970-01-01", null, "2000-02-29"])");
@@ -2209,6 +2252,120 @@ TEST(Cast, ListToListOptionsPassthru) {
   }
 }
 
+static void CheckFSLToFSL(const std::vector<std::shared_ptr<DataType>>& value_types,
+                          const std::string& json_data,
+                          const std::string& tweaked_val_bit_string,
+                          bool children_nulls = true) {
+  for (const auto& src_value_type : value_types) {
+    for (const auto& dest_value_type : value_types) {
+      const auto src_type = fixed_size_list(src_value_type, 2);
+      const auto dest_type = fixed_size_list(dest_value_type, 2);
+      ARROW_SCOPED_TRACE("src_type = ", src_type->ToString(),
+                         ", dest_type = ", dest_type->ToString());
+      auto src_array = ArrayFromJSON(src_type, json_data);
+      CheckCast(src_array, ArrayFromJSON(dest_type, json_data));
+      {
+        auto tweaked_array = TweakValidityBit(src_array, 1, false);
+        CheckCast(tweaked_array, ArrayFromJSON(dest_type, tweaked_val_bit_string));
+      }
+
+      // Sliced Children
+      const auto child_data =
+          children_nulls ? "[1, 2, null, 4, 5, null]" : "[1, 2, 3, 4, 5, 6]";
+      auto children_src = ArrayFromJSON(src_value_type, child_data);
+      children_src = children_src->Slice(2);
+      auto fsl = std::make_shared<FixedSizeListArray>(src_type, 2, children_src);
+      {
+        const auto expected_data = children_nulls ? "[null, 4, 5, null]" : "[3, 4, 5, 6]";
+        auto children_dst = ArrayFromJSON(dest_value_type, expected_data);
+        auto expected = std::make_shared<FixedSizeListArray>(dest_type, 2, children_dst);
+        CheckCast(fsl, expected);
+      }
+      {
+        const auto expected_data =
+            children_nulls ? "[[null, 4], null]" : "[[3, 4], null]";
+        auto tweaked_array = TweakValidityBit(fsl, 1, false);
+        auto expected = ArrayFromJSON(dest_type, expected_data);
+        CheckCast(tweaked_array, expected);
+      }
+
+      // Invalid fixed_size_list cast.
+      const auto incorrect_dest_type = fixed_size_list(dest_value_type, 3);
+      ASSERT_RAISES(TypeError, Cast(src_array, CastOptions::Safe(incorrect_dest_type)))
+          << "Size of FixedList is not the same.";
+    }
+  }
+}
+
+TEST(Cast, FSLToFSL) {
+  CheckFSLToFSL({int32(), float32(), int64()}, "[[0, 1], [2, 3], [null, 5], null]",
+                /*tweaked_val_bit_string=*/"[[0, 1], null, [null, 5], null]");
+}
+
+TEST(Cast, FSLToFSLNoNulls) {
+  CheckFSLToFSL({int32(), float32(), int64()}, "[[0, 1], [2, 3], [4, 5]]",
+                /*tweaked_val_bit_string=*/"[[0, 1], null, [4, 5]]",
+                /*children_null=*/false);
+}
+
+TEST(Cast, FSLToFSLOptionsPassThru) {
+  auto fsl_int32 = ArrayFromJSON(fixed_size_list(int32(), 1), "[[87654321]]");
+
+  auto options = CastOptions::Safe(fixed_size_list(int16(), 1));
+  CheckCastFails(fsl_int32, options);
+
+  options.allow_int_overflow = true;
+  CheckCast(fsl_int32, ArrayFromJSON(fixed_size_list(int16(), 1), "[[32689]]"), options);
+}
+
+TEST(Cast, CastMap) {
+  const std::string map_json =
+      "[[[\"x\", 1], [\"y\", 8], [\"z\", 9]], [[\"x\", 6]], [[\"y\", 36]]]";
+  const std::string map_json_nullable =
+      "[[[\"x\", 1], [\"y\", null], [\"z\", 9]], null, [[\"y\", 36]]]";
+
+  auto CheckMapCast = [map_json,
+                       map_json_nullable](const std::shared_ptr<DataType>& dst_type) {
+    std::shared_ptr<DataType> src_type =
+        std::make_shared<MapType>(field("x", utf8(), false), field("y", int64()));
+    std::shared_ptr<Array> src = ArrayFromJSON(src_type, map_json);
+    std::shared_ptr<Array> dst = ArrayFromJSON(dst_type, map_json);
+    CheckCast(src, dst);
+
+    src = ArrayFromJSON(src_type, map_json_nullable);
+    dst = ArrayFromJSON(dst_type, map_json_nullable);
+    CheckCast(src, dst);
+  };
+
+  // Can rename fields
+  CheckMapCast(std::make_shared<MapType>(field("a", utf8(), false), field("b", int64())));
+  // Can map keys and values
+  CheckMapCast(map(large_utf8(), field("y", int32())));
+  // Can cast a map to a to a list<struct<keys=.., values=..>>
+  CheckMapCast(list(struct_({field("a", utf8()), field("b", int64())})));
+  // Can cast a map to a large_list<struct<keys=.., values=..>>
+  CheckMapCast(large_list(struct_({field("a", utf8()), field("b", int64())})));
+
+  // Can rename nested field names
+  std::shared_ptr<DataType> src_type = map(utf8(), field("x", list(field("a", int64()))));
+  std::shared_ptr<DataType> dst_type = map(utf8(), field("y", list(field("b", int64()))));
+
+  std::shared_ptr<Array> src =
+      ArrayFromJSON(src_type, "[[[\"1\", [1,2,3]]], [[\"2\", [4,5,6]]]]");
+  std::shared_ptr<Array> dst =
+      ArrayFromJSON(dst_type, "[[[\"1\", [1,2,3]]], [[\"2\", [4,5,6]]]]");
+
+  CheckCast(src, dst);
+
+  // Cannot cast to a list<struct<[fields]>> if there are not exactly 2 fields
+  dst_type = list(
+      struct_({field("key", int32()), field("value", int64()), field("extra", int64())}));
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      TypeError,
+      ::testing::HasSubstr("must be cast to a list<struct> with exactly two fields"),
+      Cast(src, dst_type));
+}
+
 static void CheckStructToStruct(
     const std::vector<std::shared_ptr<DataType>>& value_types) {
   for (const auto& src_value_type : value_types) {
@@ -2728,6 +2885,13 @@ std::shared_ptr<Array> SmallintArrayFromJSON(const std::string& json_data) {
   return MakeArray(ext_data);
 }
 
+std::shared_ptr<Array> TinyintArrayFromJSON(const std::string& json_data) {
+  auto arr = ArrayFromJSON(int8(), json_data);
+  auto ext_data = arr->data()->Copy();
+  ext_data->type = tinyint();
+  return MakeArray(ext_data);
+}
+
 TEST(Cast, ExtensionTypeToIntDowncast) {
   auto smallint = std::make_shared<SmallintType>();
   ExtensionTypeGuard smallint_guard(smallint);
@@ -2765,6 +2929,68 @@ TEST(Cast, ExtensionTypeToIntDowncast) {
   }
 }
 
+TEST(Cast, PrimitiveToExtension) {
+  {
+    auto primitive_array = ArrayFromJSON(uint8(), "[0, 1, 3]");
+    auto extension_array = SmallintArrayFromJSON("[0, 1, 3]");
+    CastOptions options;
+    options.to_type = smallint();
+    CheckCast(primitive_array, extension_array, options);
+  }
+  {
+    CastOptions options;
+    options.to_type = smallint();
+    CheckCastFails(ArrayFromJSON(utf8(), "[\"hello\"]"), options);
+  }
+}
+
+TEST(Cast, ExtensionDictToExtension) {
+  auto extension_array = SmallintArrayFromJSON("[1, 2, 1]");
+  auto indices_array = ArrayFromJSON(int32(), "[0, 1, 0]");
+
+  ASSERT_OK_AND_ASSIGN(auto dict_array,
+                       DictionaryArray::FromArrays(indices_array, extension_array));
+
+  CastOptions options;
+  options.to_type = smallint();
+  CheckCast(dict_array, extension_array, options);
+}
+
+TEST(Cast, IntToExtensionTypeDowncast) {
+  CheckCast(ArrayFromJSON(uint8(), "[0, 100, 200, 1, 2]"),
+            SmallintArrayFromJSON("[0, 100, 200, 1, 2]"));
+
+  // int32 to Smallint(int16), with overflow
+  {
+    CastOptions options;
+    options.to_type = smallint();
+    CheckCastFails(ArrayFromJSON(int32(), "[0, null, 32768, 1, 3]"), options);
+
+    options.allow_int_overflow = true;
+    CheckCast(ArrayFromJSON(int32(), "[0, null, 32768, 1, 3]"),
+              SmallintArrayFromJSON("[0, null, -32768, 1, 3]"), options);
+  }
+
+  // int32 to Smallint(int16), with underflow
+  {
+    CastOptions options;
+    options.to_type = smallint();
+    CheckCastFails(ArrayFromJSON(int32(), "[0, null, -32769, 1, 3]"), options);
+
+    options.allow_int_overflow = true;
+    CheckCast(ArrayFromJSON(int32(), "[0, null, -32769, 1, 3]"),
+              SmallintArrayFromJSON("[0, null, 32767, 1, 3]"), options);
+  }
+
+  // Cannot cast between extension types when storage types differ
+  {
+    CastOptions options;
+    options.to_type = smallint();
+    auto tiny_array = TinyintArrayFromJSON("[0, 1, 3]");
+    ASSERT_NOT_OK(Cast(tiny_array, smallint(), options));
+  }
+}
+
 TEST(Cast, DictTypeToAnotherDict) {
   auto check_cast = [&](const std::shared_ptr<DataType>& in_type,
                         const std::shared_ptr<DataType>& out_type,
diff --git a/cpp/src/arrow/compute/kernels/scalar_compare.cc b/cpp/src/arrow/compute/kernels/scalar_compare.cc
index cfe10855314..bbd57988477 100644
--- a/cpp/src/arrow/compute/kernels/scalar_compare.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_compare.cc
@@ -18,18 +18,18 @@
 #include <algorithm>
 #include <cmath>
 #include <limits>
+#include <optional>
 
 #include "arrow/compute/api_scalar.h"
 #include "arrow/compute/kernels/common.h"
 #include "arrow/util/bit_util.h"
 #include "arrow/util/bitmap_ops.h"
-#include "arrow/util/optional.h"
 
 namespace arrow {
 
 using internal::checked_cast;
 using internal::checked_pointer_cast;
-using util::string_view;
+using std::string_view;
 
 namespace compute {
 namespace internal {
@@ -640,7 +640,7 @@ struct BinaryScalarMinMax {
     RETURN_NOT_OK(builder.ReserveData(estimated_final_size));
 
     for (int64_t row = 0; row < batch.length; row++) {
-      util::optional<string_view> result;
+      std::optional<string_view> result;
       auto visit_value = [&](string_view value) {
         result = !result ? value : Op::Call(*result, value);
       };
@@ -651,7 +651,7 @@ struct BinaryScalarMinMax {
           if (scalar.is_valid) {
             visit_value(UnboxScalar<Type>::Unbox(scalar));
           } else if (!options.skip_nulls) {
-            result = util::nullopt;
+            result = std::nullopt;
             break;
           }
         } else {
@@ -664,7 +664,7 @@ struct BinaryScalarMinMax {
             visit_value(
                 string_view(reinterpret_cast<const char*>(data + offsets[row]), length));
           } else if (!options.skip_nulls) {
-            result = util::nullopt;
+            result = std::nullopt;
             break;
           }
         }
diff --git a/cpp/src/arrow/compute/kernels/scalar_compare_test.cc b/cpp/src/arrow/compute/kernels/scalar_compare_test.cc
index 2b834ee2eb3..48fa780b031 100644
--- a/cpp/src/arrow/compute/kernels/scalar_compare_test.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_compare_test.cc
@@ -42,7 +42,7 @@ using internal::BitmapReader;
 
 namespace compute {
 
-using util::string_view;
+using std::string_view;
 
 template <typename ArrowType>
 static void ValidateCompare(CompareOptions options, const Datum& lhs, const Datum& rhs,
@@ -136,7 +136,7 @@ Datum SimpleScalarArrayCompare<StringType>(CompareOptions options, const Datum&
                                            const Datum& rhs) {
   bool swap = lhs.is_array();
   auto array = std::static_pointer_cast<StringArray>((swap ? lhs : rhs).make_array());
-  auto value = util::string_view(
+  auto value = std::string_view(
       *std::static_pointer_cast<StringScalar>((swap ? rhs : lhs).scalar())->value);
 
   std::vector<bool> bitmap(array->length());
diff --git a/cpp/src/arrow/compute/kernels/scalar_if_else.cc b/cpp/src/arrow/compute/kernels/scalar_if_else.cc
index 672a8b27977..3603ad63fcd 100644
--- a/cpp/src/arrow/compute/kernels/scalar_if_else.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_if_else.cc
@@ -15,6 +15,7 @@
 // specific language governing permissions and limitations
 // under the License.
 
+#include <cstring>
 #include "arrow/array/builder_nested.h"
 #include "arrow/array/builder_primitive.h"
 #include "arrow/array/builder_time.h"
@@ -22,6 +23,8 @@
 #include "arrow/compute/api.h"
 #include "arrow/compute/kernels/codegen_internal.h"
 #include "arrow/compute/kernels/copy_data_internal.h"
+#include "arrow/result.h"
+#include "arrow/status.h"
 #include "arrow/util/bit_block_counter.h"
 #include "arrow/util/bit_run_reader.h"
 #include "arrow/util/bitmap.h"
@@ -67,7 +70,7 @@ Status CheckIdenticalTypes(const ExecValue* begin, int count) {
 constexpr uint64_t kAllNull = 0;
 constexpr uint64_t kAllValid = ~kAllNull;
 
-util::optional<uint64_t> GetConstantValidityWord(const ExecValue& data) {
+std::optional<uint64_t> GetConstantValidityWord(const ExecValue& data) {
   if (data.is_scalar()) {
     return data.scalar->is_valid ? kAllValid : kAllNull;
   }
@@ -91,7 +94,7 @@ struct IfElseNullPromoter {
 
   enum { COND_CONST = 1, LEFT_CONST = 2, RIGHT_CONST = 4 };
   int64_t constant_validity_flag;
-  util::optional<uint64_t> cond_const, left_const, right_const;
+  std::optional<uint64_t> cond_const, left_const, right_const;
   Bitmap cond_data, cond_valid, left_valid, right_valid;
 
   IfElseNullPromoter(KernelContext* ctx, const ExecValue& cond_d, const ExecValue& left_d,
@@ -470,6 +473,10 @@ struct IfElseFunctor<Type,
     // copy right data to out_buff
     std::memcpy(out_values, right.GetValues<T>(1), right.length * sizeof(T));
 
+    if (!left.is_valid) {  // left is null scalar, only need to copy right data to output
+      return Status::OK();
+    }
+
     // selectively copy values from left data
     T left_data = internal::UnboxScalar<Type>::Unbox(left);
 
@@ -490,6 +497,10 @@ struct IfElseFunctor<Type,
     const T* left_data = left.GetValues<T>(1);
     std::memcpy(out_values, left_data, left.length * sizeof(T));
 
+    if (!right.is_valid) {  // right is null scalar, only need to copy left data to output
+      return Status::OK();
+    }
+
     T right_data = internal::UnboxScalar<Type>::Unbox(right);
 
     RunIfElseLoopInverted(cond, [&](int64_t data_offset, int64_t num_elems) {
@@ -723,12 +734,24 @@ struct IfElseFunctor<Type, enable_if_base_binary<Type>> {
   // ASA
   static Status Call(KernelContext* ctx, const ArraySpan& cond, const Scalar& left,
                      const ArraySpan& right, ExecResult* out) {
-    util::string_view left_data = internal::UnboxScalar<Type>::Unbox(left);
-    auto left_size = static_cast<OffsetType>(left_data.size());
-
     const auto* right_offsets = right.GetValues<OffsetType>(1);
     const uint8_t* right_data = right.buffers[2].data;
 
+    if (!left.is_valid) {  // left is null scalar, only need to copy right data to output
+      auto* out_data = out->array_data().get();
+      auto offset_length = (cond.length + 1) * sizeof(OffsetType);
+      ARROW_ASSIGN_OR_RAISE(out_data->buffers[1], ctx->Allocate(offset_length));
+      std::memcpy(out_data->buffers[1]->mutable_data(), right_offsets, offset_length);
+
+      auto right_data_length = right_offsets[right.length] - right_offsets[0];
+      ARROW_ASSIGN_OR_RAISE(out_data->buffers[2], ctx->Allocate(right_data_length));
+      std::memcpy(out_data->buffers[2]->mutable_data(), right_data, right_data_length);
+      return Status::OK();
+    }
+
+    std::string_view left_data = internal::UnboxScalar<Type>::Unbox(left);
+    auto left_size = static_cast<OffsetType>(left_data.size());
+
     // allocate data buffer conservatively
     int64_t data_buff_alloc =
         left_size * cond.length + right_offsets[right.length] - right_offsets[0];
@@ -754,7 +777,19 @@ struct IfElseFunctor<Type, enable_if_base_binary<Type>> {
     const auto* left_offsets = left.GetValues<OffsetType>(1);
     const uint8_t* left_data = left.buffers[2].data;
 
-    util::string_view right_data = internal::UnboxScalar<Type>::Unbox(right);
+    if (!right.is_valid) {  // right is null scalar, only need to copy left data to output
+      auto* out_data = out->array_data().get();
+      auto offset_length = (cond.length + 1) * sizeof(OffsetType);
+      ARROW_ASSIGN_OR_RAISE(out_data->buffers[1], ctx->Allocate(offset_length));
+      std::memcpy(out_data->buffers[1]->mutable_data(), left_offsets, offset_length);
+
+      auto left_data_length = left_offsets[left.length] - left_offsets[0];
+      ARROW_ASSIGN_OR_RAISE(out_data->buffers[2], ctx->Allocate(left_data_length));
+      std::memcpy(out_data->buffers[2]->mutable_data(), left_data, left_data_length);
+      return Status::OK();
+    }
+
+    std::string_view right_data = internal::UnboxScalar<Type>::Unbox(right);
     auto right_size = static_cast<OffsetType>(right_data.size());
 
     // allocate data buffer conservatively
@@ -779,10 +814,10 @@ struct IfElseFunctor<Type, enable_if_base_binary<Type>> {
   // ASS
   static Status Call(KernelContext* ctx, const ArraySpan& cond, const Scalar& left,
                      const Scalar& right, ExecResult* out) {
-    util::string_view left_data = internal::UnboxScalar<Type>::Unbox(left);
+    std::string_view left_data = internal::UnboxScalar<Type>::Unbox(left);
     auto left_size = static_cast<OffsetType>(left_data.size());
 
-    util::string_view right_data = internal::UnboxScalar<Type>::Unbox(right);
+    std::string_view right_data = internal::UnboxScalar<Type>::Unbox(right);
     auto right_size = static_cast<OffsetType>(right_data.size());
 
     // allocate data buffer conservatively
@@ -1568,6 +1603,7 @@ Status ExecArrayCaseWhen(KernelContext* ctx, const ExecSpan& batch, ExecResult*
             }
           }
         }
+        offset += block_length;
       });
     }
   }
@@ -2314,9 +2350,9 @@ struct CoalesceFunctor<Type, enable_if_base_binary<Type>> {
     }
     RETURN_NOT_OK(builder.ReserveData(static_cast<offset_type>(data_reserve)));
 
-    util::string_view fill_value(*scalar.value);
+    std::string_view fill_value(*scalar.value);
     VisitArraySpanInline<Type>(
-        left, [&](util::string_view s) { builder.UnsafeAppend(s); },
+        left, [&](std::string_view s) { builder.UnsafeAppend(s); },
         [&]() { builder.UnsafeAppend(fill_value); });
 
     ARROW_ASSIGN_OR_RAISE(auto temp_output, builder.Finish());
diff --git a/cpp/src/arrow/compute/kernels/scalar_if_else_test.cc b/cpp/src/arrow/compute/kernels/scalar_if_else_test.cc
index e3e08ad3d92..e27d3fbd1e2 100644
--- a/cpp/src/arrow/compute/kernels/scalar_if_else_test.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_if_else_test.cc
@@ -26,8 +26,12 @@
 #include "arrow/compute/kernels/test_util.h"
 #include "arrow/compute/registry.h"
 #include "arrow/testing/gtest_util.h"
+#include "arrow/util/checked_cast.h"
 
 namespace arrow {
+
+using internal::checked_pointer_cast;
+
 namespace compute {
 
 // Helper that combines a dictionary and the value type so it can
@@ -1030,9 +1034,7 @@ Datum MakeStruct(const std::vector<Datum>& conds) {
   }
 }
 
-template <typename TypeParam>
-void TestCaseWhenFixedSize() {
-  auto type = default_type_instance<TypeParam>();
+void TestCaseWhenFixedSize(const std::shared_ptr<DataType>& type) {
   auto cond_true = ScalarFromJSON(boolean(), "true");
   auto cond_false = ScalarFromJSON(boolean(), "false");
   auto cond_null = ScalarFromJSON(boolean(), "null");
@@ -1041,7 +1043,7 @@ void TestCaseWhenFixedSize() {
   auto scalar_null = ScalarFromJSON(type, "null");
   auto values_null = ArrayFromJSON(type, "[null, null, null, null]");
 
-  if (std::is_same<TypeParam, Date64Type>::value) {
+  if (type->id() == Type::DATE64) {
     auto scalar1 = ScalarFromJSON(type, "86400000");
     auto scalar2 = ScalarFromJSON(type, "172800000");
     auto values1 = ArrayFromJSON(type, "[259200000, null, 432000000, 518400000]");
@@ -1235,12 +1237,70 @@ void TestCaseWhenFixedSize() {
   }
 }
 
+void TestCaseWhenRandom(const std::shared_ptr<DataType>& type, int64_t len = 300) {
+  random::RandomArrayGenerator rand(/*seed=*/0);
+
+  // Adding 64 consecutive 1's and 0's in the cond array to test all-true/ all-false
+  // word code paths
+  ASSERT_OK_AND_ASSIGN(auto always_true, MakeArrayFromScalar(BooleanScalar(true), 64));
+  ASSERT_OK_AND_ASSIGN(auto always_false, MakeArrayFromScalar(BooleanScalar(false), 64));
+  auto maybe_true_with_nulls =
+      rand.ArrayOf(boolean(), len - 64 * 2, /*null_probability=*/0.04);
+  auto maybe_true_all_valid =
+      rand.ArrayOf(boolean(), len - 64 * 2, /*null_probability=*/0.0);
+  ASSERT_OK_AND_ASSIGN(auto concat1,
+                       Concatenate({always_true, always_false, maybe_true_with_nulls}));
+  auto cond1 = checked_pointer_cast<BooleanArray>(concat1);
+  ASSERT_OK_AND_ASSIGN(auto concat2,
+                       Concatenate({always_true, maybe_true_all_valid, always_false}));
+  auto cond2 = checked_pointer_cast<BooleanArray>(concat2);
+
+  auto value1 = rand.ArrayOf(type, len, /*null_probability=*/0.04);
+  auto value2 = rand.ArrayOf(type, len, /*null_probability=*/0.04);
+  auto value_else = rand.ArrayOf(type, len, /*null_probability=*/0.04);
+
+  auto value1_span = ArraySpan(*value1->data());
+  auto value2_span = ArraySpan(*value2->data());
+  auto value_else_span = ArraySpan(*value_else->data());
+
+  for (const bool has_else : {true, false}) {
+    ASSERT_OK_AND_ASSIGN(auto builder, MakeBuilder(type));
+    ASSERT_OK(builder->Reserve(len));
+    for (int64_t i = 0; i < len; ++i) {
+      if (cond1->IsValid(i) && cond1->Value(i)) {
+        ASSERT_OK(builder->AppendArraySlice(value1_span, i, /*length=*/1));
+      } else if (cond2->IsValid(i) && cond2->Value(i)) {
+        ASSERT_OK(builder->AppendArraySlice(value2_span, i, /*length=*/1));
+      } else if (has_else) {
+        ASSERT_OK(builder->AppendArraySlice(value_else_span, i, /*length=*/1));
+      } else {
+        ASSERT_OK(builder->AppendNull());
+      }
+    }
+    ASSERT_OK_AND_ASSIGN(auto expected_data, builder->Finish());
+
+    if (has_else) {
+      CheckScalar("case_when", {MakeStruct({cond1, cond2}), value1, value2, value_else},
+                  expected_data);
+    } else {
+      CheckScalar("case_when", {MakeStruct({cond1, cond2}), value1, value2},
+                  expected_data);
+    }
+  }
+}
+
 template <typename Type>
 class TestCaseWhenNumeric : public ::testing::Test {};
 
 TYPED_TEST_SUITE(TestCaseWhenNumeric, IfElseNumericBasedTypes);
 
-TYPED_TEST(TestCaseWhenNumeric, FixedSize) { TestCaseWhenFixedSize<TypeParam>(); }
+TYPED_TEST(TestCaseWhenNumeric, FixedSize) {
+  TestCaseWhenFixedSize(default_type_instance<TypeParam>());
+}
+
+TYPED_TEST(TestCaseWhenNumeric, Random) {
+  TestCaseWhenRandom(default_type_instance<TypeParam>());
+}
 
 TYPED_TEST(TestCaseWhenNumeric, ListOfType) {
   // More minimal test to check type coverage
@@ -1474,6 +1534,8 @@ TEST(TestCaseWhen, Null) {
   CheckScalar("case_when", {MakeStruct({cond_arr, cond_true}), array, array}, array);
 }
 
+TEST(TestCaseWhen, NullRandom) { TestCaseWhenRandom(null()); }
+
 TEST(TestCaseWhen, Boolean) {
   auto type = boolean();
   auto cond_true = ScalarFromJSON(boolean(), "true");
@@ -1531,6 +1593,8 @@ TEST(TestCaseWhen, Boolean) {
               ArrayFromJSON(type, "[null, null, null, true]"));
 }
 
+TEST(TestCaseWhen, BooleanRandom) { TestCaseWhenRandom(boolean()); }
+
 TEST(TestCaseWhen, DayTimeInterval) {
   auto type = day_time_interval();
   auto cond_true = ScalarFromJSON(boolean(), "true");
@@ -1588,6 +1652,8 @@ TEST(TestCaseWhen, DayTimeInterval) {
               ArrayFromJSON(type, "[null, null, null, [6, 6]]"));
 }
 
+TEST(TestCaseWhen, DayTimeIntervalRandom) { TestCaseWhenRandom(day_time_interval()); }
+
 TEST(TestCaseWhen, MonthDayNanoInterval) {
   auto type = month_day_nano_interval();
   auto cond1 = ArrayFromJSON(boolean(), "[true, true, null, null]");
@@ -1604,6 +1670,10 @@ TEST(TestCaseWhen, MonthDayNanoInterval) {
               ArrayFromJSON(type, R"([null, null, null, [-6, -7, -8]])"));
 }
 
+TEST(TestCaseWhen, MonthDayNanoIntervalRandom) {
+  TestCaseWhenRandom(month_day_nano_interval());
+}
+
 TEST(TestCaseWhen, Decimal) {
   for (const auto& type :
        std::vector<std::shared_ptr<DataType>>{decimal128(3, 2), decimal256(3, 2)}) {
@@ -1721,6 +1791,8 @@ TEST(TestCaseWhen, FixedSizeBinary) {
               ArrayFromJSON(type, R"([null, null, null, "efg"])"));
 }
 
+TEST(TestCaseWhen, FixedSizeBinaryRandom) { TestCaseWhenRandom(fixed_size_binary(3)); }
+
 template <typename Type>
 class TestCaseWhenBinary : public ::testing::Test {};
 
@@ -1783,6 +1855,10 @@ TYPED_TEST(TestCaseWhenBinary, Basics) {
               ArrayFromJSON(type, R"([null, null, null, "efg"])"));
 }
 
+TYPED_TEST(TestCaseWhenBinary, Random) {
+  TestCaseWhenRandom(default_type_instance<TypeParam>());
+}
+
 template <typename Type>
 class TestCaseWhenList : public ::testing::Test {};
 
@@ -1848,6 +1924,11 @@ TYPED_TEST(TestCaseWhenList, ListOfString) {
               ArrayFromJSON(type, R"([null, null, null, ["ef", "g"]])"));
 }
 
+TYPED_TEST(TestCaseWhenList, ListOfStringRandom) {
+  auto type = std::make_shared<TypeParam>(utf8());
+  TestCaseWhenRandom(type, /*len=*/200);
+}
+
 // More minimal tests to check type coverage
 TYPED_TEST(TestCaseWhenList, ListOfBool) {
   auto type = std::make_shared<TypeParam>(boolean());
@@ -1865,6 +1946,11 @@ TYPED_TEST(TestCaseWhenList, ListOfBool) {
               ArrayFromJSON(type, R"([null, null, null, [false, null]])"));
 }
 
+TYPED_TEST(TestCaseWhenList, ListOfBoolRandom) {
+  auto type = std::make_shared<TypeParam>(boolean());
+  TestCaseWhenRandom(type, /*len=*/200);
+}
+
 TYPED_TEST(TestCaseWhenList, ListOfInt) {
   auto type = std::make_shared<TypeParam>(int64());
   auto cond1 = ArrayFromJSON(boolean(), "[true, true, null, null]");
@@ -1954,6 +2040,11 @@ TYPED_TEST(TestCaseWhenList, ListOfListOfInt) {
               ArrayFromJSON(type, R"([null, null, null, [[6, null], null]])"));
 }
 
+TYPED_TEST(TestCaseWhenList, ListOfListOfIntRandom) {
+  auto type = std::make_shared<TypeParam>(list(int64()));
+  TestCaseWhenRandom(type, /*len=*/200);
+}
+
 TEST(TestCaseWhen, Map) {
   auto type = map(int64(), utf8());
   auto cond_true = ScalarFromJSON(boolean(), "true");
@@ -2077,6 +2168,11 @@ TEST(TestCaseWhen, FixedSizeListOfInt) {
               ArrayFromJSON(type, R"([null, null, null, [8, 9]])"));
 }
 
+TEST(TestCaseWhen, FixedSizeListOfIntRandom) {
+  auto type = fixed_size_list(int64(), 2);
+  TestCaseWhenRandom(type);
+}
+
 TEST(TestCaseWhen, FixedSizeListOfString) {
   auto type = fixed_size_list(utf8(), 2);
   auto cond_true = ScalarFromJSON(boolean(), "true");
@@ -2195,6 +2291,11 @@ TEST(TestCaseWhen, StructOfInt) {
               ArrayFromJSON(type, R"([null, null, null, [7, -8]])"));
 }
 
+TEST(TestCaseWhen, StructOfIntRandom) {
+  auto type = struct_({field("a", uint32()), field("b", int64())});
+  TestCaseWhenRandom(type);
+}
+
 TEST(TestCaseWhen, StructOfString) {
   // More minimal test to check type coverage
   auto type = struct_({field("a", utf8()), field("b", large_utf8())});
@@ -2225,6 +2326,11 @@ TEST(TestCaseWhen, StructOfString) {
               ArrayFromJSON(type, R"([null, null, null, [null, "hi"]])"));
 }
 
+TEST(TestCaseWhen, StructOfStringRandom) {
+  auto type = struct_({field("a", utf8()), field("b", large_utf8())});
+  TestCaseWhenRandom(type);
+}
+
 TEST(TestCaseWhen, StructOfListOfInt) {
   // More minimal test to check type coverage
   auto type = struct_({field("a", utf8()), field("b", list(int64()))});
@@ -2321,6 +2427,17 @@ TEST(TestCaseWhen, UnionBoolString) {
   }
 }
 
+// FIXME(GH-15192): enabling this test produces test failures
+
+// TEST(TestCaseWhen, UnionBoolStringRandom) {
+//   for (const auto& type : std::vector<std::shared_ptr<DataType>>{
+//            sparse_union({field("a", boolean()), field("b", utf8())}, {2, 7}),
+//            dense_union({field("a", boolean()), field("b", utf8())}, {2, 7})}) {
+//     ARROW_SCOPED_TRACE(type->ToString());
+//     TestCaseWhenRandom(type);
+//   }
+// }
+
 TEST(TestCaseWhen, DispatchBest) {
   CheckDispatchBest("case_when", {struct_({field("", boolean())}), int64(), int32()},
                     {struct_({field("", boolean())}), int64(), int64()});
diff --git a/cpp/src/arrow/compute/kernels/scalar_nested.cc b/cpp/src/arrow/compute/kernels/scalar_nested.cc
index 0b6118812a4..1934212a089 100644
--- a/cpp/src/arrow/compute/kernels/scalar_nested.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_nested.cc
@@ -17,15 +17,21 @@
 
 // Vector kernels involving nested types
 
+#include <cmath>
 #include "arrow/array/array_base.h"
 #include "arrow/array/builder_nested.h"
 #include "arrow/compute/api_scalar.h"
 #include "arrow/compute/kernels/common.h"
 #include "arrow/result.h"
 #include "arrow/util/bit_block_counter.h"
+#include "arrow/util/bit_util.h"
 #include "arrow/util/bitmap_generate.h"
+#include "arrow/util/string.h"
 
 namespace arrow {
+
+using internal::ToChars;
+
 namespace compute {
 namespace internal {
 namespace {
@@ -87,6 +93,216 @@ Status GetListElementIndex(const ExecValue& value, T* out) {
   return Status::OK();
 }
 
+template <typename T>
+std::string ToString(const std::optional<T>& o) {
+  return o.has_value() ? ToChars(*o) : "(nullopt)";
+}
+
+template <typename Type>
+struct ListSlice {
+  using offset_type = typename Type::offset_type;
+
+  static Status Exec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
+    const auto opts = OptionsWrapper<ListSliceOptions>::Get(ctx);
+
+    // Invariants
+    if (opts.start < 0 || (opts.stop.has_value() && opts.start >= opts.stop.value())) {
+      // TODO(ARROW-18281): support start == stop which should give empty lists
+      return Status::Invalid("`start`(", opts.start,
+                             ") should be greater than 0 and smaller than `stop`(",
+                             ToString(opts.stop), ")");
+    }
+    if (opts.step < 1) {
+      return Status::Invalid("`step` must be >= 1, got: ", opts.step);
+    }
+
+    const ArraySpan& list_array = batch[0].array;
+    const Type* list_type = checked_cast<const Type*>(list_array.type);
+    const auto value_type = list_type->field(0);
+    const auto return_fixed_size_list = opts.return_fixed_size_list.value_or(
+        list_type->id() == arrow::Type::FIXED_SIZE_LIST);
+    std::unique_ptr<ArrayBuilder> builder;
+
+    // should have been checked in resolver
+    // if stop not set, then cannot return fixed size list without input being fixed size
+    // list b/c we cannot determine the max list element in type resolving.
+    DCHECK(opts.stop.has_value() ||
+           (!opts.stop.has_value() && (!return_fixed_size_list ||
+                                       list_type->id() == arrow::Type::FIXED_SIZE_LIST)));
+
+    // construct array values
+    if (return_fixed_size_list) {
+      int32_t stop;
+      if (opts.stop.has_value()) {
+        stop = static_cast<int32_t>(opts.stop.value());
+      } else {
+        DCHECK_EQ(list_type->id(), arrow::Type::FIXED_SIZE_LIST);
+        stop = reinterpret_cast<const FixedSizeListType*>(list_type)->list_size();
+      }
+      const auto size = std::max(stop - static_cast<int32_t>(opts.start), 0);
+      const auto length = bit_util::CeilDiv(size, opts.step);
+      RETURN_NOT_OK(MakeBuilder(ctx->memory_pool(),
+                                fixed_size_list(value_type, static_cast<int32_t>(length)),
+                                &builder));
+      RETURN_NOT_OK(BuildArray<FixedSizeListBuilder>(batch, opts, *builder));
+    } else {
+      if constexpr (std::is_same_v<Type, LargeListType>) {
+        RETURN_NOT_OK(MakeBuilder(ctx->memory_pool(), large_list(value_type), &builder));
+        RETURN_NOT_OK(BuildArray<LargeListBuilder>(batch, opts, *builder));
+      } else {
+        RETURN_NOT_OK(MakeBuilder(ctx->memory_pool(), list(value_type), &builder));
+        RETURN_NOT_OK(BuildArray<ListBuilder>(batch, opts, *builder));
+      }
+    }
+
+    // build output arrays and set result
+    ARROW_ASSIGN_OR_RAISE(auto result, builder->Finish());
+    out->value = std::move(result->data());
+    return Status::OK();
+  }
+
+  template <typename BuilderType>
+  static Status BuildArray(const ExecSpan& batch, const ListSliceOptions& opts,
+                           ArrayBuilder& builder) {
+    if constexpr (std::is_same_v<Type, FixedSizeListType>) {
+      RETURN_NOT_OK(BuildArrayFromFixedSizeListType<BuilderType>(batch, opts, builder));
+    } else {
+      RETURN_NOT_OK(BuildArrayFromListType<BuilderType>(batch, opts, builder));
+    }
+    return Status::OK();
+  }
+
+  template <typename BuilderType>
+  static Status BuildArrayFromFixedSizeListType(const ExecSpan& batch,
+                                                const ListSliceOptions& opts,
+                                                ArrayBuilder& builder) {
+    const auto list_size =
+        checked_cast<const FixedSizeListType&>(*batch[0].type()).list_size();
+    const ArraySpan& list_array = batch[0].array;
+    const ArraySpan& list_values = list_array.child_data[0];
+
+    auto list_builder = checked_cast<BuilderType*>(&builder);
+    for (auto i = 0; i < list_array.length; ++i) {
+      auto offset = (i + list_array.offset) * list_size;
+      auto next_offset = offset + list_size;
+      if (list_array.IsNull(i)) {
+        RETURN_NOT_OK(list_builder->AppendNull());
+      } else {
+        RETURN_NOT_OK(SetValues<BuilderType>(list_builder, offset, next_offset, &opts,
+                                             &list_values));
+      }
+    }
+    return Status::OK();
+  }
+
+  template <typename BuilderType>
+  static Status BuildArrayFromListType(const ExecSpan& batch,
+                                       const ListSliceOptions& opts,
+                                       ArrayBuilder& builder) {
+    const ArraySpan& list_array = batch[0].array;
+    const offset_type* offsets = list_array.GetValues<offset_type>(1);
+
+    const ArraySpan& list_values = list_array.child_data[0];
+
+    auto list_builder = checked_cast<BuilderType*>(&builder);
+    for (auto i = 0; i < list_array.length; ++i) {
+      const offset_type offset = offsets[i];
+      const offset_type next_offset = offsets[i + 1];
+      if (list_array.IsNull(i)) {
+        RETURN_NOT_OK(list_builder->AppendNull());
+      } else {
+        RETURN_NOT_OK(SetValues<BuilderType>(list_builder, offset, next_offset, &opts,
+                                             &list_values));
+      }
+    }
+    return Status::OK();
+  }
+  template <typename BuilderType>
+  static Status SetValues(BuilderType* list_builder, const offset_type offset,
+                          const offset_type next_offset, const ListSliceOptions* opts,
+                          const ArraySpan* list_values) {
+    auto value_builder = list_builder->value_builder();
+    auto cursor = offset;
+
+    RETURN_NOT_OK(list_builder->Append());
+    const auto size = opts->stop.has_value() ? (opts->stop.value() - opts->start)
+                                             : ((next_offset - opts->start) - offset);
+    while (cursor < offset + size) {
+      if (cursor + opts->start >= next_offset) {
+        if constexpr (!std::is_same_v<BuilderType, FixedSizeListBuilder>) {
+          break;  // don't pad nulls for variable sized list output
+        }
+        RETURN_NOT_OK(value_builder->AppendNull());
+      } else {
+        RETURN_NOT_OK(
+            value_builder->AppendArraySlice(*list_values, cursor + opts->start, 1));
+      }
+      cursor += static_cast<offset_type>(opts->step);
+    }
+    return Status::OK();
+  }
+};
+
+Result<TypeHolder> MakeListSliceResolve(KernelContext* ctx,
+                                        const std::vector<TypeHolder>& types) {
+  const auto& opts = OptionsWrapper<ListSliceOptions>::Get(ctx);
+  const auto list_type = checked_cast<const BaseListType*>(types[0].type);
+  const auto value_type = list_type->field(0);
+  const auto return_fixed_size_list =
+      opts.return_fixed_size_list.value_or(list_type->id() == Type::FIXED_SIZE_LIST);
+  if (return_fixed_size_list) {
+    int32_t stop;
+    if (!opts.stop.has_value()) {
+      if (list_type->id() == Type::FIXED_SIZE_LIST) {
+        stop = checked_cast<const FixedSizeListType*>(list_type)->list_size();
+      } else {
+        return Status::NotImplemented(
+            "Unable to produce FixedSizeListArray from non-FixedSizeListArray without "
+            "`stop` being set.");
+      }
+    } else {
+      stop = static_cast<int32_t>(opts.stop.value());
+    }
+    const auto size = std::max(static_cast<int32_t>(stop - opts.start), 0);
+    if (opts.step < 1) {
+      return Status::Invalid("`step` must be >= 1, got: ", opts.step);
+    }
+    const auto length = bit_util::CeilDiv(size, opts.step);
+    return fixed_size_list(value_type, static_cast<int32_t>(length));
+  } else {
+    // Returning large list if that's what we got in and didn't ask for fixed size
+    if (list_type->id() == Type::LARGE_LIST) {
+      return large_list(value_type);
+    }
+    return list(value_type);
+  }
+}
+
+template <typename InListType>
+void AddListSliceKernels(ScalarFunction* func) {
+  auto inputs = {InputType(InListType::type_id)};
+  auto output = OutputType{MakeListSliceResolve};
+  ScalarKernel kernel(inputs, output, ListSlice<InListType>::Exec,
+                      OptionsWrapper<ListSliceOptions>::Init);
+  kernel.null_handling = NullHandling::COMPUTED_NO_PREALLOCATE;
+  kernel.mem_allocation = MemAllocation::NO_PREALLOCATE;
+  DCHECK_OK(func->AddKernel(std::move(kernel)));
+}
+
+void AddListSliceKernels(ScalarFunction* func) {
+  AddListSliceKernels<ListType>(func);
+  AddListSliceKernels<LargeListType>(func);
+  AddListSliceKernels<FixedSizeListType>(func);
+}
+
+const FunctionDoc list_slice_doc(
+    "Compute slice of list-like array",
+    ("`lists` must have a list-like type.\n"
+     "For each list element, compute a slice, returning a new list array.\n"
+     "A variable or fixed size list array is returned, depending on options."),
+    {"lists"}, "ListSliceOptions",
+    /*options_required=*/true);
+
 template <typename Type, typename IndexType>
 struct ListElement {
   using ListArrayType = typename TypeTraits<Type>::ArrayType;
@@ -196,9 +412,17 @@ const FunctionDoc list_element_doc(
 struct StructFieldFunctor {
   static Status Exec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
     const auto& options = OptionsWrapper<StructFieldOptions>::Get(ctx);
-
     std::shared_ptr<Array> current = MakeArray(batch[0].array.ToArrayData());
-    for (const auto& index : options.indices) {
+
+    FieldPath field_path;
+    if (options.field_ref.IsNested() || options.field_ref.IsName()) {
+      ARROW_ASSIGN_OR_RAISE(field_path, options.field_ref.FindOne(*current->type()));
+    } else {
+      DCHECK(options.field_ref.IsFieldPath());
+      field_path = *options.field_ref.field_path();
+    }
+
+    for (const auto& index : field_path.indices()) {
       RETURN_NOT_OK(CheckIndex(index, *current->type()));
       switch (current->type()->id()) {
         case Type::STRUCT: {
@@ -229,7 +453,8 @@ struct StructFieldFunctor {
               ArrayData(int32(), union_array.length(),
                         {std::move(take_bitmap), union_array.value_offsets()},
                         kUnknownNullCount, union_array.offset()));
-          // Do not slice the child since the indices are relative to the unsliced array.
+          // Do not slice the child since the indices are relative to the unsliced
+          // array.
           ARROW_ASSIGN_OR_RAISE(
               Datum result,
               CallFunction("take", {union_array.field(index), std::move(take_indices)}));
@@ -271,9 +496,17 @@ struct StructFieldFunctor {
 
 Result<TypeHolder> ResolveStructFieldType(KernelContext* ctx,
                                           const std::vector<TypeHolder>& types) {
-  const auto& options = OptionsWrapper<StructFieldOptions>::Get(ctx);
+  const auto& field_ref = OptionsWrapper<StructFieldOptions>::Get(ctx).field_ref;
   const DataType* type = types.front().type;
-  for (const auto& index : options.indices) {
+
+  FieldPath field_path;
+  if (field_ref.IsNested() || field_ref.IsName()) {
+    ARROW_ASSIGN_OR_RAISE(field_path, field_ref.FindOne(*type));
+  } else {
+    field_path = *field_ref.field_path();
+  }
+
+  for (const auto& index : field_path.indices()) {
     RETURN_NOT_OK(StructFieldFunctor::CheckIndex(index, *type));
     type = type->field(index)->type().get();
   }
@@ -315,7 +548,7 @@ Result<TypeHolder> MakeStructResolve(KernelContext* ctx,
     metadata.resize(types.size(), nullptr);
     int i = 0;
     for (auto& name : names) {
-      name = std::to_string(i++);
+      name = ToChars(i++);
     }
   } else if (names.size() != types.size() || nullable.size() != types.size() ||
              metadata.size() != types.size()) {
@@ -604,6 +837,11 @@ void RegisterScalarNested(FunctionRegistry* registry) {
   AddListElementKernels(list_element.get());
   DCHECK_OK(registry->AddFunction(std::move(list_element)));
 
+  auto list_slice =
+      std::make_shared<ScalarFunction>("list_slice", Arity::Unary(), list_slice_doc);
+  AddListSliceKernels(list_slice.get());
+  DCHECK_OK(registry->AddFunction(std::move(list_slice)));
+
   auto struct_field =
       std::make_shared<ScalarFunction>("struct_field", Arity::Unary(), struct_field_doc);
   AddStructFieldKernels(struct_field.get());
diff --git a/cpp/src/arrow/compute/kernels/scalar_nested_test.cc b/cpp/src/arrow/compute/kernels/scalar_nested_test.cc
index a2b05c21b79..a72ec99620b 100644
--- a/cpp/src/arrow/compute/kernels/scalar_nested_test.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_nested_test.cc
@@ -19,6 +19,7 @@
 
 #include "arrow/chunked_array.h"
 #include "arrow/compute/api.h"
+#include "arrow/compute/api_scalar.h"
 #include "arrow/compute/kernels/test_util.h"
 #include "arrow/result.h"
 #include "arrow/testing/gtest_util.h"
@@ -116,6 +117,208 @@ TEST(TestScalarNested, ListElementInvalid) {
               Raises(StatusCode::Invalid));
 }
 
+TEST(TestScalarNested, ListSliceVariableOutput) {
+  const auto value_types = {float32(), int32()};
+  for (auto value_type : value_types) {
+    auto input = ArrayFromJSON(list(value_type), "[[1, 2, 3], [4, 5], [6], null]");
+    ListSliceOptions args(/*start=*/0, /*stop=*/2, /*step=*/1,
+                          /*return_fixed_size_list=*/false);
+    auto expected = ArrayFromJSON(list(value_type), "[[1, 2], [4, 5], [6], null]");
+    CheckScalarUnary("list_slice", input, expected, &args);
+
+    args.start = 1;
+    expected = ArrayFromJSON(list(value_type), "[[2], [5], [], null]");
+    CheckScalarUnary("list_slice", input, expected, &args);
+
+    args.start = 2;
+    args.stop = 4;
+    expected = ArrayFromJSON(list(value_type), "[[3], [], [], null]");
+    CheckScalarUnary("list_slice", input, expected, &args);
+
+    args.start = 1;
+    args.stop = std::nullopt;
+    expected = ArrayFromJSON(list(value_type), "[[2, 3], [5], [], null]");
+    CheckScalarUnary("list_slice", input, expected, &args);
+
+    args.start = 0;
+    args.stop = 4;
+    args.step = 2;
+    expected = ArrayFromJSON(list(value_type), "[[1, 3], [4], [6], null]");
+  }
+
+  // Verify passing `return_fixed_size_list=false` with fixed size input
+  // returns variable size even if stop is beyond list_size
+  ListSliceOptions args(/*start=*/0, /*stop=*/2, /*step=*/1,
+                        /*return_fixed_size_list=*/false);
+  auto input = ArrayFromJSON(fixed_size_list(int32(), 1), "[[1]]");
+  auto expected = ArrayFromJSON(list(int32()), "[[1]]");
+  CheckScalarUnary("list_slice", input, expected, &args);
+}
+
+TEST(TestScalarNested, ListSliceFixedOutput) {
+  const auto value_types = {float32(), int32()};
+  for (auto value_type : value_types) {
+    auto inputs = {ArrayFromJSON(list(value_type), "[[1, 2, 3], [4, 5], [6], null]"),
+                   ArrayFromJSON(fixed_size_list(value_type, 3),
+                                 "[[1, 2, 3], [4, 5, null], [6, null, null], null]")};
+    for (auto input : inputs) {
+      ListSliceOptions args(/*start=*/0, /*stop=*/2, /*step=*/1,
+                            /*return_fixed_size_list=*/true);
+      auto expected = ArrayFromJSON(fixed_size_list(value_type, 2),
+                                    "[[1, 2], [4, 5], [6, null], null]");
+      CheckScalarUnary("list_slice", input, expected, &args);
+
+      args.start = 1;
+      expected =
+          ArrayFromJSON(fixed_size_list(value_type, 1), "[[2], [5], [null], null]");
+      CheckScalarUnary("list_slice", input, expected, &args);
+
+      args.start = 2;
+      args.stop = 4;
+      expected = ArrayFromJSON(fixed_size_list(value_type, 2),
+                               "[[3, null], [null, null], [null, null], null]");
+      CheckScalarUnary("list_slice", input, expected, &args);
+
+      args.start = 1;
+      args.stop = std::nullopt;
+      expected = ArrayFromJSON(fixed_size_list(value_type, 2),
+                               "[[2, 3], [5, null], [null, null], null]");
+      if (input->type()->id() == Type::FIXED_SIZE_LIST) {
+        CheckScalarUnary("list_slice", input, expected, &args);
+      } else {
+        EXPECT_RAISES_WITH_MESSAGE_THAT(
+            NotImplemented,
+            ::testing::HasSubstr("Unable to produce FixedSizeListArray from "
+                                 "non-FixedSizeListArray without `stop` being set."),
+            CallFunction("list_slice", {input}, &args));
+      }
+
+      args.start = 3;
+      args.stop = std::nullopt;
+      expected = ArrayFromJSON(fixed_size_list(value_type, 0), "[[], [], [], null]");
+      if (input->type()->id() == Type::FIXED_SIZE_LIST) {
+        CheckScalarUnary("list_slice", input, expected, &args);
+      }
+
+      args.start = 0;
+      args.stop = 4;
+      args.step = 2;
+      expected = ArrayFromJSON(fixed_size_list(value_type, 2),
+                               "[[1, 3], [4, null], [6, null], null]");
+      CheckScalarUnary("list_slice", input, expected, &args);
+
+      // More checks for step slicing start/stop/step combinations
+      args.start = 1;
+      args.stop = 3;
+      args.step = 2;
+      expected =
+          ArrayFromJSON(fixed_size_list(value_type, 1), "[[2], [5], [null], null]");
+      CheckScalarUnary("list_slice", input, expected, &args);
+
+      args.start = 2;
+      expected =
+          ArrayFromJSON(fixed_size_list(value_type, 1), "[[3], [null], [null], null]");
+      CheckScalarUnary("list_slice", input, expected, &args);
+
+      args.start = 0;
+      args.stop = 2;
+      args.step = 3;
+      expected = ArrayFromJSON(fixed_size_list(value_type, 1), "[[1], [4], [6], null]");
+      CheckScalarUnary("list_slice", input, expected, &args);
+
+      args.start = 0;
+      args.stop = 5;
+      args.step = 2;
+      expected = ArrayFromJSON(fixed_size_list(value_type, 3),
+                               "[[1, 3, null], [4, null, null], [6, null, null], null]");
+      CheckScalarUnary("list_slice", input, expected, &args);
+
+      args.start = 0;
+      args.stop = 6;
+      args.step = 3;
+      expected = ArrayFromJSON(fixed_size_list(value_type, 2),
+                               "[[1, null], [4, null], [6, null], null]");
+      CheckScalarUnary("list_slice", input, expected, &args);
+    }
+  }
+}
+
+TEST(TestScalarNested, ListSliceChildArrayOffset) {
+  auto offsets = ArrayFromJSON(int32(), "[0, 1, 3]");
+  auto data = ArrayFromJSON(int8(), "[0, 1, 2, 3, 4]");
+  auto slice = data->Slice(2);
+
+  // [[2], [3, 4]] with offset of 2 for values.
+  ASSERT_OK_AND_ASSIGN(auto input, ListArray::FromArrays(*offsets, *slice));
+  ASSERT_EQ(input->offset(), 0);
+  ASSERT_EQ(input->values()->offset(), 2);
+
+  ListSliceOptions args(/*start=*/0, /*stop=*/2, /*step=*/1,
+                        /*return_fixed_size_list=*/false);
+  auto expected = ArrayFromJSON(list(int8()), "[[2], [3, 4]]");
+  CheckScalarUnary("list_slice", input, expected, &args);
+
+  args.return_fixed_size_list = true;
+  expected = ArrayFromJSON(fixed_size_list(int8(), 2), "[[2, null], [3, 4]]");
+  CheckScalarUnary("list_slice", input, expected, &args);
+}
+
+TEST(TestScalarNested, ListSliceOutputEqualsInputType) {
+  // Default is to return same type as the one passed in.
+  auto inputs = {
+      ArrayFromJSON(list(int8()), "[[1, 2, 3], [4, 5], [6, null], null]"),
+      ArrayFromJSON(large_list(int8()), "[[1, 2, 3], [4, 5], [6, null], null]"),
+      ArrayFromJSON(fixed_size_list(int8(), 2), "[[1, 2], [4, 5], [6, null], null]")};
+  for (auto input : inputs) {
+    ListSliceOptions args(/*start=*/0, /*stop=*/2, /*step=*/1);
+    auto expected = ArrayFromJSON(input->type(), "[[1, 2], [4, 5], [6, null], null]");
+    CheckScalarUnary("list_slice", input, expected, &args);
+  }
+}
+
+TEST(TestScalarNested, ListSliceBadParameters) {
+  auto input = ArrayFromJSON(list(int32()), "[[1]]");
+
+  // negative start
+  ListSliceOptions args(/*start=*/-1, /*stop=*/1, /*step=*/1,
+                        /*return_fixed_size_list=*/true);
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid,
+      ::testing::HasSubstr(
+          "`start`(-1) should be greater than 0 and smaller than `stop`(1)"),
+      CallFunction("list_slice", {input}, &args));
+  // start greater than stop
+  args.start = 1;
+  args.stop = 0;
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid,
+      ::testing::HasSubstr(
+          "`start`(1) should be greater than 0 and smaller than `stop`(0)"),
+      CallFunction("list_slice", {input}, &args));
+  // start same as stop
+  args.stop = args.start;
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid,
+      ::testing::HasSubstr(
+          "`start`(1) should be greater than 0 and smaller than `stop`(1)"),
+      CallFunction("list_slice", {input}, &args));
+  // stop not set and FixedSizeList requested with variable sized input
+  args.stop = std::nullopt;
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      NotImplemented,
+      ::testing::HasSubstr("NotImplemented: Unable to produce FixedSizeListArray from "
+                           "non-FixedSizeListArray without "
+                           "`stop` being set."),
+      CallFunction("list_slice", {input}, &args));
+  // Catch step must be >= 1
+  args.start = 0;
+  args.stop = 2;
+  args.step = 0;
+  EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
+                                  ::testing::HasSubstr("`step` must be >= 1, got: 0"),
+                                  CallFunction("list_slice", {input}, &args));
+}
+
 TEST(TestScalarNested, StructField) {
   StructFieldOptions trivial;
   StructFieldOptions extract0({0});
@@ -124,6 +327,13 @@ TEST(TestScalarNested, StructField) {
   StructFieldOptions invalid2({2, 4});
   StructFieldOptions invalid3({3});
   StructFieldOptions invalid4({0, 1});
+
+  // Test using FieldRefs
+  StructFieldOptions extract0_field_ref_path(FieldRef(FieldPath({0})));
+  StructFieldOptions extract0_field_ref_name(FieldRef("a"));
+  ASSERT_OK_AND_ASSIGN(auto field_ref, FieldRef::FromDotPath(".c.d"));
+  StructFieldOptions extract20_field_ref_nest(field_ref);
+
   FieldVector fields = {field("a", int32()), field("b", utf8()),
                         field("c", struct_({
                                        field("d", int64()),
@@ -141,16 +351,25 @@ TEST(TestScalarNested, StructField) {
                 &extract0);
     CheckScalar("struct_field", {arr}, ArrayFromJSON(int64(), "[10, 11, 12, null]"),
                 &extract20);
+
+    CheckScalar("struct_field", {arr}, ArrayFromJSON(int32(), "[1, null, 3, null]"),
+                &extract0_field_ref_path);
+    CheckScalar("struct_field", {arr}, ArrayFromJSON(int32(), "[1, null, 3, null]"),
+                &extract0_field_ref_name);
+    CheckScalar("struct_field", {arr}, ArrayFromJSON(int64(), "[10, 11, 12, null]"),
+                &extract20_field_ref_nest);
+
     EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
                                     ::testing::HasSubstr("out-of-bounds field reference"),
                                     CallFunction("struct_field", {arr}, &invalid1));
     EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
-                                    ::testing::HasSubstr("out-of-bounds field reference"),
+                                    ::testing::HasSubstr("No match for FieldRef"),
                                     CallFunction("struct_field", {arr}, &invalid2));
     EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
                                     ::testing::HasSubstr("out-of-bounds field reference"),
                                     CallFunction("struct_field", {arr}, &invalid3));
-    EXPECT_RAISES_WITH_MESSAGE_THAT(TypeError, ::testing::HasSubstr("cannot subscript"),
+    EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
+                                    ::testing::HasSubstr("No match for FieldRef"),
                                     CallFunction("struct_field", {arr}, &invalid4));
   }
   {
@@ -166,16 +385,25 @@ TEST(TestScalarNested, StructField) {
                 &extract0);
     CheckScalar("struct_field", {arr}, ArrayFromJSON(int64(), "[null, null, null, 10]"),
                 &extract20);
+
+    CheckScalar("struct_field", {arr}, ArrayFromJSON(int32(), "[1, null, null, null]"),
+                &extract0_field_ref_path);
+    CheckScalar("struct_field", {arr}, ArrayFromJSON(int32(), "[1, null, null, null]"),
+                &extract0_field_ref_name);
+    CheckScalar("struct_field", {arr}, ArrayFromJSON(int64(), "[null, null, null, 10]"),
+                &extract20_field_ref_nest);
+
     EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
                                     ::testing::HasSubstr("out-of-bounds field reference"),
                                     CallFunction("struct_field", {arr}, &invalid1));
     EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
-                                    ::testing::HasSubstr("out-of-bounds field reference"),
+                                    ::testing::HasSubstr("No match for FieldRef"),
                                     CallFunction("struct_field", {arr}, &invalid2));
     EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
                                     ::testing::HasSubstr("out-of-bounds field reference"),
                                     CallFunction("struct_field", {arr}, &invalid3));
-    EXPECT_RAISES_WITH_MESSAGE_THAT(TypeError, ::testing::HasSubstr("cannot subscript"),
+    EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
+                                    ::testing::HasSubstr("No match for FieldRef"),
                                     CallFunction("struct_field", {arr}, &invalid4));
 
     // Test edge cases for union representation
@@ -215,16 +443,25 @@ TEST(TestScalarNested, StructField) {
                 &extract0);
     CheckScalar("struct_field", {arr}, ArrayFromJSON(int64(), "[null, null, null, 10]"),
                 &extract20);
+
+    CheckScalar("struct_field", {arr}, ArrayFromJSON(int32(), "[1, null, null, null]"),
+                &extract0_field_ref_path);
+    CheckScalar("struct_field", {arr}, ArrayFromJSON(int32(), "[1, null, null, null]"),
+                &extract0_field_ref_name);
+    CheckScalar("struct_field", {arr}, ArrayFromJSON(int64(), "[null, null, null, 10]"),
+                &extract20_field_ref_nest);
+
     EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
                                     ::testing::HasSubstr("out-of-bounds field reference"),
                                     CallFunction("struct_field", {arr}, &invalid1));
     EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
-                                    ::testing::HasSubstr("out-of-bounds field reference"),
+                                    ::testing::HasSubstr("No match for FieldRef"),
                                     CallFunction("struct_field", {arr}, &invalid2));
     EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
                                     ::testing::HasSubstr("out-of-bounds field reference"),
                                     CallFunction("struct_field", {arr}, &invalid3));
-    EXPECT_RAISES_WITH_MESSAGE_THAT(TypeError, ::testing::HasSubstr("cannot subscript"),
+    EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
+                                    ::testing::HasSubstr("No match for FieldRef"),
                                     CallFunction("struct_field", {arr}, &invalid4));
   }
   {
diff --git a/cpp/src/arrow/compute/kernels/scalar_round.cc b/cpp/src/arrow/compute/kernels/scalar_round.cc
new file mode 100644
index 00000000000..6b884d7d7a1
--- /dev/null
+++ b/cpp/src/arrow/compute/kernels/scalar_round.cc
@@ -0,0 +1,1252 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include <algorithm>
+#include <cmath>
+#include <limits>
+#include <memory>
+#include <utility>
+#include <vector>
+
+#include "arrow/compare.h"
+#include "arrow/compute/api_scalar.h"
+#include "arrow/compute/cast.h"
+#include "arrow/compute/kernels/base_arithmetic_internal.h"
+#include "arrow/compute/kernels/common.h"
+#include "arrow/compute/kernels/util_internal.h"
+#include "arrow/type.h"
+#include "arrow/type_traits.h"
+#include "arrow/util/decimal.h"
+#include "arrow/util/int_util_overflow.h"
+#include "arrow/util/macros.h"
+#include "arrow/visit_scalar_inline.h"
+
+namespace arrow {
+
+using internal::AddWithOverflow;
+using internal::DivideWithOverflow;
+using internal::MultiplyWithOverflow;
+using internal::NegateWithOverflow;
+using internal::SubtractWithOverflow;
+
+namespace compute {
+namespace internal {
+
+using applicator::ScalarBinary;
+using applicator::ScalarBinaryEqualTypes;
+using applicator::ScalarBinaryNotNull;
+using applicator::ScalarBinaryNotNullEqualTypes;
+using applicator::ScalarUnary;
+using applicator::ScalarUnaryNotNull;
+using applicator::ScalarUnaryNotNullStateful;
+
+namespace {
+
+// Convenience visitor to detect if a numeric Scalar is positive.
+struct IsPositiveVisitor {
+  bool result = false;
+
+  template <typename... Ts>
+  Status Visit(const NumericScalar<Ts...>& scalar) {
+    result = scalar.value > 0;
+    return Status::OK();
+  }
+  template <typename... Ts>
+  Status Visit(const DecimalScalar<Ts...>& scalar) {
+    result = scalar.value > 0;
+    return Status::OK();
+  }
+  Status Visit(const Scalar& scalar) { return Status::OK(); }
+};
+
+bool IsPositive(const Scalar& scalar) {
+  IsPositiveVisitor visitor{};
+  std::ignore = VisitScalarInline(scalar, &visitor);
+  return visitor.result;
+}
+
+// N.B. take care not to conflict with type_traits.h as that can cause surprises in a
+// unity build
+
+struct RoundUtil {
+  // Calculate powers of ten with arbitrary integer exponent
+  template <typename T = double>
+  static enable_if_floating_value<T> Pow10(int64_t power) {
+    static constexpr T lut[] = {1e0F, 1e1F, 1e2F,  1e3F,  1e4F,  1e5F,  1e6F,  1e7F,
+                                1e8F, 1e9F, 1e10F, 1e11F, 1e12F, 1e13F, 1e14F, 1e15F};
+    int64_t lut_size = (sizeof(lut) / sizeof(*lut));
+    int64_t abs_power = std::abs(power);
+    auto pow10 = lut[std::min(abs_power, lut_size - 1)];
+    while (abs_power-- >= lut_size) {
+      pow10 *= 1e1F;
+    }
+    return (power >= 0) ? pow10 : (1 / pow10);
+  }
+};
+
+// Specializations of rounding implementations for round kernels
+template <typename Type, RoundMode>
+struct RoundImpl;
+
+template <typename Type>
+struct RoundImpl<Type, RoundMode::DOWN> {
+  template <typename T = Type>
+  static constexpr enable_if_floating_value<T> Round(const T val) {
+    return std::floor(val);
+  }
+
+  template <typename T = Type>
+  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
+                                                const T& pow10, const int32_t scale) {
+    (*val) -= remainder;
+    if (remainder.Sign() < 0) {
+      (*val) -= pow10;
+    }
+  }
+};
+
+template <typename Type>
+struct RoundImpl<Type, RoundMode::UP> {
+  template <typename T = Type>
+  static constexpr enable_if_floating_value<T> Round(const T val) {
+    return std::ceil(val);
+  }
+
+  template <typename T = Type>
+  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
+                                                const T& pow10, const int32_t scale) {
+    (*val) -= remainder;
+    if (remainder.Sign() > 0 && remainder != 0) {
+      (*val) += pow10;
+    }
+  }
+};
+
+template <typename Type>
+struct RoundImpl<Type, RoundMode::TOWARDS_ZERO> {
+  template <typename T = Type>
+  static constexpr enable_if_floating_value<T> Round(const T val) {
+    return std::trunc(val);
+  }
+
+  template <typename T = Type>
+  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
+                                                const T& pow10, const int32_t scale) {
+    (*val) -= remainder;
+  }
+};
+
+template <typename Type>
+struct RoundImpl<Type, RoundMode::TOWARDS_INFINITY> {
+  template <typename T = Type>
+  static constexpr enable_if_floating_value<T> Round(const T val) {
+    return std::signbit(val) ? std::floor(val) : std::ceil(val);
+  }
+
+  template <typename T = Type>
+  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
+                                                const T& pow10, const int32_t scale) {
+    (*val) -= remainder;
+    if (remainder.Sign() < 0) {
+      (*val) -= pow10;
+    } else if (remainder.Sign() > 0 && remainder != 0) {
+      (*val) += pow10;
+    }
+  }
+};
+
+// NOTE: RoundImpl variants for the HALF_* rounding modes are only
+// invoked when the fractional part is equal to 0.5 (std::round is invoked
+// otherwise).
+
+template <typename Type>
+struct RoundImpl<Type, RoundMode::HALF_DOWN> {
+  template <typename T = Type>
+  static constexpr enable_if_floating_value<T> Round(const T val) {
+    return RoundImpl<T, RoundMode::DOWN>::Round(val);
+  }
+
+  template <typename T = Type>
+  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
+                                                const T& pow10, const int32_t scale) {
+    RoundImpl<T, RoundMode::DOWN>::Round(val, remainder, pow10, scale);
+  }
+};
+
+template <typename Type>
+struct RoundImpl<Type, RoundMode::HALF_UP> {
+  template <typename T = Type>
+  static constexpr enable_if_floating_value<T> Round(const T val) {
+    return RoundImpl<T, RoundMode::UP>::Round(val);
+  }
+
+  template <typename T = Type>
+  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
+                                                const T& pow10, const int32_t scale) {
+    RoundImpl<T, RoundMode::UP>::Round(val, remainder, pow10, scale);
+  }
+};
+
+template <typename Type>
+struct RoundImpl<Type, RoundMode::HALF_TOWARDS_ZERO> {
+  template <typename T = Type>
+  static constexpr enable_if_floating_value<T> Round(const T val) {
+    return RoundImpl<T, RoundMode::TOWARDS_ZERO>::Round(val);
+  }
+
+  template <typename T = Type>
+  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
+                                                const T& pow10, const int32_t scale) {
+    RoundImpl<T, RoundMode::TOWARDS_ZERO>::Round(val, remainder, pow10, scale);
+  }
+};
+
+template <typename Type>
+struct RoundImpl<Type, RoundMode::HALF_TOWARDS_INFINITY> {
+  template <typename T = Type>
+  static constexpr enable_if_floating_value<T> Round(const T val) {
+    return RoundImpl<T, RoundMode::TOWARDS_INFINITY>::Round(val);
+  }
+
+  template <typename T = Type>
+  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
+                                                const T& pow10, const int32_t scale) {
+    RoundImpl<T, RoundMode::TOWARDS_INFINITY>::Round(val, remainder, pow10, scale);
+  }
+};
+
+template <typename Type>
+struct RoundImpl<Type, RoundMode::HALF_TO_EVEN> {
+  template <typename T = Type>
+  static constexpr enable_if_floating_value<T> Round(const T val) {
+    return std::round(val * T(0.5)) * 2;
+  }
+
+  template <typename T = Type>
+  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
+                                                const T& pow10, const int32_t scale) {
+    auto scaled = val->ReduceScaleBy(scale, /*round=*/false);
+    if (scaled.low_bits() % 2 != 0) {
+      scaled += remainder.Sign() >= 0 ? 1 : -1;
+    }
+    *val = scaled.IncreaseScaleBy(scale);
+  }
+};
+
+template <typename Type>
+struct RoundImpl<Type, RoundMode::HALF_TO_ODD> {
+  template <typename T = Type>
+  static constexpr enable_if_floating_value<T> Round(const T val) {
+    return std::floor(val * T(0.5)) + std::ceil(val * T(0.5));
+  }
+
+  template <typename T = Type>
+  static enable_if_decimal_value<T, void> Round(T* val, const T& remainder,
+                                                const T& pow10, const int32_t scale) {
+    auto scaled = val->ReduceScaleBy(scale, /*round=*/false);
+    if (scaled.low_bits() % 2 == 0) {
+      scaled += remainder.Sign() ? 1 : -1;
+    }
+    *val = scaled.IncreaseScaleBy(scale);
+  }
+};
+
+// Specializations of kernel state for round kernels
+template <typename OptionsType>
+struct RoundOptionsWrapper;
+
+template <>
+struct RoundOptionsWrapper<RoundOptions> : public OptionsWrapper<RoundOptions> {
+  using OptionsType = RoundOptions;
+  double pow10;
+
+  explicit RoundOptionsWrapper(OptionsType options) : OptionsWrapper(std::move(options)) {
+    // Only positive exponents for powers of 10 are used because combining
+    // multiply and division operations produced more stable rounding than
+    // using multiply-only.  Refer to NumPy's round implementation:
+    // https://github.com/numpy/numpy/blob/7b2f20b406d27364c812f7a81a9c901afbd3600c/numpy/core/src/multiarray/calculation.c#L589
+    pow10 = RoundUtil::Pow10(std::abs(options.ndigits));
+  }
+
+  static Result<std::unique_ptr<KernelState>> Init(KernelContext* ctx,
+                                                   const KernelInitArgs& args) {
+    if (auto options = static_cast<const OptionsType*>(args.options)) {
+      return std::make_unique<RoundOptionsWrapper>(*options);
+    }
+    return Status::Invalid(
+        "Attempted to initialize KernelState from null FunctionOptions");
+  }
+};
+
+template <>
+struct RoundOptionsWrapper<RoundToMultipleOptions>
+    : public OptionsWrapper<RoundToMultipleOptions> {
+  using OptionsType = RoundToMultipleOptions;
+  using OptionsWrapper::OptionsWrapper;
+
+  static Result<std::unique_ptr<KernelState>> Init(KernelContext* ctx,
+                                                   const KernelInitArgs& args) {
+    auto options = static_cast<const OptionsType*>(args.options);
+    if (!options) {
+      return Status::Invalid(
+          "Attempted to initialize KernelState from null FunctionOptions");
+    }
+
+    const auto& multiple = options->multiple;
+    if (!multiple || !multiple->is_valid) {
+      return Status::Invalid("Rounding multiple must be non-null and valid");
+    }
+
+    if (!IsPositive(*multiple)) {
+      return Status::Invalid("Rounding multiple must be positive");
+    }
+
+    // Ensure the rounding multiple option matches the kernel's output type.
+    // The output type is not available here so we use the following rule:
+    // If `multiple` is neither a floating-point nor a decimal type, then
+    // cast to float64, else cast to the kernel's input type.
+    std::shared_ptr<DataType> to_type =
+        (!is_floating(multiple->type->id()) && !is_decimal(multiple->type->id()))
+            ? float64()
+            : args.inputs[0].GetSharedPtr();
+    if (!multiple->type->Equals(to_type)) {
+      ARROW_ASSIGN_OR_RAISE(
+          auto casted_multiple,
+          Cast(Datum(multiple), to_type, CastOptions::Safe(), ctx->exec_context()));
+
+      // Create a new option object if the rounding multiple was casted.
+      auto new_options = OptionsType(casted_multiple.scalar(), options->round_mode);
+      return std::make_unique<RoundOptionsWrapper>(new_options);
+    }
+
+    return std::make_unique<RoundOptionsWrapper>(*options);
+  }
+};
+
+template <typename ArrowType, RoundMode RndMode, typename Enable = void>
+struct Round {
+  using CType = typename TypeTraits<ArrowType>::CType;
+  using State = RoundOptionsWrapper<RoundOptions>;
+
+  CType pow10;
+  int64_t ndigits;
+
+  explicit Round(const State& state, const DataType& out_ty)
+      : pow10(static_cast<CType>(state.pow10)), ndigits(state.options.ndigits) {}
+
+  template <typename T = ArrowType, typename CType = typename TypeTraits<T>::CType>
+  enable_if_floating_value<CType> Call(KernelContext* ctx, CType arg, Status* st) const {
+    // Do not process Inf or NaN because they will trigger the overflow error at end of
+    // function.
+    if (!std::isfinite(arg)) {
+      return arg;
+    }
+    auto round_val = ndigits >= 0 ? (arg * pow10) : (arg / pow10);
+    auto frac = round_val - std::floor(round_val);
+    if (frac != T(0)) {
+      // Use std::round() if in tie-breaking mode and scaled value is not 0.5.
+      if ((RndMode >= RoundMode::HALF_DOWN) && (frac != T(0.5))) {
+        round_val = std::round(round_val);
+      } else {
+        round_val = RoundImpl<CType, RndMode>::Round(round_val);
+      }
+      // Equality check is ommitted so that the common case of 10^0 (integer rounding)
+      // uses multiply-only
+      round_val = ndigits > 0 ? (round_val / pow10) : (round_val * pow10);
+      if (!std::isfinite(round_val)) {
+        *st = Status::Invalid("overflow occurred during rounding");
+        return arg;
+      }
+    } else {
+      // If scaled value is an integer, then no rounding is needed.
+      round_val = arg;
+    }
+    return round_val;
+  }
+};
+
+template <typename ArrowType, RoundMode kRoundMode>
+struct Round<ArrowType, kRoundMode, enable_if_decimal<ArrowType>> {
+  using CType = typename TypeTraits<ArrowType>::CType;
+  using State = RoundOptionsWrapper<RoundOptions>;
+
+  const ArrowType& ty;
+  int64_t ndigits;
+  int32_t pow;
+  // pow10 is "1" for the given decimal scale. Similarly half_pow10 is "0.5".
+  CType pow10, half_pow10, neg_half_pow10;
+
+  explicit Round(const State& state, const DataType& out_ty)
+      : Round(state.options.ndigits, out_ty) {}
+
+  explicit Round(int64_t ndigits, const DataType& out_ty)
+      : ty(checked_cast<const ArrowType&>(out_ty)),
+        ndigits(ndigits),
+        pow(static_cast<int32_t>(ty.scale() - ndigits)) {
+    if (pow >= ty.precision() || pow < 0) {
+      pow10 = half_pow10 = neg_half_pow10 = 0;
+    } else {
+      pow10 = CType::GetScaleMultiplier(pow);
+      half_pow10 = CType::GetHalfScaleMultiplier(pow);
+      neg_half_pow10 = -half_pow10;
+    }
+  }
+
+  template <typename T = ArrowType, typename CType = typename TypeTraits<T>::CType>
+  enable_if_decimal_value<CType> Call(KernelContext* ctx, CType arg, Status* st) const {
+    if (pow >= ty.precision()) {
+      *st = Status::Invalid("Rounding to ", ndigits,
+                            " digits will not fit in precision of ", ty);
+      return 0;
+    } else if (pow < 0) {
+      // no-op, copy output to input
+      return arg;
+    }
+
+    std::pair<CType, CType> pair;
+    *st = arg.Divide(pow10).Value(&pair);
+    if (!st->ok()) return arg;
+    // The remainder is effectively the scaled fractional part after division.
+    const auto& remainder = pair.second;
+    if (remainder == 0) return arg;
+    if (kRoundMode >= RoundMode::HALF_DOWN) {
+      if (remainder == half_pow10 || remainder == neg_half_pow10) {
+        // On the halfway point, use tiebreaker
+        RoundImpl<CType, kRoundMode>::Round(&arg, remainder, pow10, pow);
+      } else if (remainder.Sign() >= 0) {
+        // Positive, round up/down
+        arg -= remainder;
+        if (remainder > half_pow10) {
+          arg += pow10;
+        }
+      } else {
+        // Negative, round up/down
+        arg -= remainder;
+        if (remainder < neg_half_pow10) {
+          arg -= pow10;
+        }
+      }
+    } else {
+      RoundImpl<CType, kRoundMode>::Round(&arg, remainder, pow10, pow);
+    }
+    if (!arg.FitsInPrecision(ty.precision())) {
+      *st = Status::Invalid("Rounded value ", arg.ToString(ty.scale()),
+                            " does not fit in precision of ", ty);
+      return 0;
+    }
+    return arg;
+  }
+};
+
+template <typename DecimalType, RoundMode kMode, int32_t kDigits>
+Status FixedRoundDecimalExec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
+  using Op = Round<DecimalType, kMode>;
+  return ScalarUnaryNotNullStateful<DecimalType, DecimalType, Op>(
+             Op(kDigits, *out->type()))
+      .Exec(ctx, batch, out);
+}
+
+template <typename ArrowType, RoundMode kRoundMode, typename Enable = void>
+struct RoundToMultiple {
+  using CType = typename TypeTraits<ArrowType>::CType;
+  using State = RoundOptionsWrapper<RoundToMultipleOptions>;
+
+  CType multiple;
+
+  explicit RoundToMultiple(const State& state, const DataType& out_ty)
+      : multiple(UnboxScalar<ArrowType>::Unbox(*state.options.multiple)) {
+    const auto& options = state.options;
+    DCHECK(options.multiple);
+    DCHECK(options.multiple->is_valid);
+    DCHECK(is_floating(options.multiple->type->id()));
+  }
+
+  template <typename T = ArrowType, typename CType = typename TypeTraits<T>::CType>
+  enable_if_floating_value<CType> Call(KernelContext* ctx, CType arg, Status* st) const {
+    // Do not process Inf or NaN because they will trigger the overflow error at end of
+    // function.
+    if (!std::isfinite(arg)) {
+      return arg;
+    }
+    auto round_val = arg / multiple;
+    auto frac = round_val - std::floor(round_val);
+    if (frac != T(0)) {
+      // Use std::round() if in tie-breaking mode and scaled value is not 0.5.
+      if ((kRoundMode >= RoundMode::HALF_DOWN) && (frac != T(0.5))) {
+        round_val = std::round(round_val);
+      } else {
+        round_val = RoundImpl<CType, kRoundMode>::Round(round_val);
+      }
+      round_val *= multiple;
+      if (!std::isfinite(round_val)) {
+        *st = Status::Invalid("overflow occurred during rounding");
+        return arg;
+      }
+    } else {
+      // If scaled value is an integer, then no rounding is needed.
+      round_val = arg;
+    }
+    return round_val;
+  }
+};
+
+template <typename ArrowType, RoundMode kRoundMode>
+struct RoundToMultiple<ArrowType, kRoundMode, enable_if_decimal<ArrowType>> {
+  using CType = typename TypeTraits<ArrowType>::CType;
+  using State = RoundOptionsWrapper<RoundToMultipleOptions>;
+
+  const ArrowType& ty;
+  CType multiple, half_multiple, neg_half_multiple;
+  bool has_halfway_point;
+
+  explicit RoundToMultiple(const State& state, const DataType& out_ty)
+      : ty(checked_cast<const ArrowType&>(out_ty)),
+        multiple(UnboxScalar<ArrowType>::Unbox(*state.options.multiple)),
+        half_multiple(multiple / 2),
+        neg_half_multiple(-half_multiple),
+        has_halfway_point(multiple.low_bits() % 2 == 0) {
+    const auto& options = state.options;
+    DCHECK(options.multiple);
+    DCHECK(options.multiple->is_valid);
+    DCHECK(options.multiple->type->Equals(out_ty));
+  }
+
+  template <typename T = ArrowType, typename CType = typename TypeTraits<T>::CType>
+  enable_if_decimal_value<CType> Call(KernelContext* ctx, CType arg, Status* st) const {
+    std::pair<CType, CType> pair;
+    *st = arg.Divide(multiple).Value(&pair);
+    if (!st->ok()) return arg;
+    const auto& remainder = pair.second;
+    if (remainder == 0) return arg;
+    if (kRoundMode >= RoundMode::HALF_DOWN) {
+      if (has_halfway_point &&
+          (remainder == half_multiple || remainder == neg_half_multiple)) {
+        // On the halfway point, use tiebreaker
+        // Manually implement rounding since we're not actually rounding a
+        // decimal value, but rather manipulating the multiple
+        switch (kRoundMode) {
+          case RoundMode::HALF_DOWN:
+            if (remainder.Sign() < 0) pair.first -= 1;
+            break;
+          case RoundMode::HALF_UP:
+            if (remainder.Sign() >= 0) pair.first += 1;
+            break;
+          case RoundMode::HALF_TOWARDS_ZERO:
+            // Do nothing
+            break;
+          case RoundMode::HALF_TOWARDS_INFINITY:
+            pair.first += remainder.Sign() >= 0 ? 1 : -1;
+            break;
+          case RoundMode::HALF_TO_EVEN:
+            if (pair.first.low_bits() % 2 != 0) {
+              pair.first += remainder.Sign() >= 0 ? 1 : -1;
+            }
+            break;
+          case RoundMode::HALF_TO_ODD:
+            if (pair.first.low_bits() % 2 == 0) {
+              pair.first += remainder.Sign() >= 0 ? 1 : -1;
+            }
+            break;
+          default:
+            DCHECK(false);
+        }
+      } else if (remainder.Sign() >= 0) {
+        // Positive, round up/down
+        if (remainder > half_multiple) {
+          pair.first += 1;
+        }
+      } else {
+        // Negative, round up/down
+        if (remainder < neg_half_multiple) {
+          pair.first -= 1;
+        }
+      }
+    } else {
+      // Manually implement rounding since we're not actually rounding a
+      // decimal value, but rather manipulating the multiple
+      switch (kRoundMode) {
+        case RoundMode::DOWN:
+          if (remainder.Sign() < 0) pair.first -= 1;
+          break;
+        case RoundMode::UP:
+          if (remainder.Sign() >= 0) pair.first += 1;
+          break;
+        case RoundMode::TOWARDS_ZERO:
+          // Do nothing
+          break;
+        case RoundMode::TOWARDS_INFINITY:
+          pair.first += remainder.Sign() >= 0 ? 1 : -1;
+          break;
+        default:
+          DCHECK(false);
+      }
+    }
+    CType round_val = pair.first * multiple;
+    if (!round_val.FitsInPrecision(ty.precision())) {
+      *st = Status::Invalid("Rounded value ", round_val.ToString(ty.scale()),
+                            " does not fit in precision of ", ty);
+      return 0;
+    }
+    return round_val;
+  }
+};
+
+struct Floor {
+  template <typename T, typename Arg>
+  static constexpr enable_if_floating_value<Arg, T> Call(KernelContext*, Arg arg,
+                                                         Status*) {
+    static_assert(std::is_same<T, Arg>::value, "");
+    return RoundImpl<T, RoundMode::DOWN>::Round(arg);
+  }
+};
+
+struct Ceil {
+  template <typename T, typename Arg>
+  static constexpr enable_if_floating_value<Arg, T> Call(KernelContext*, Arg arg,
+                                                         Status*) {
+    static_assert(std::is_same<T, Arg>::value, "");
+    return RoundImpl<T, RoundMode::UP>::Round(arg);
+  }
+};
+
+struct Trunc {
+  template <typename T, typename Arg>
+  static constexpr enable_if_floating_value<Arg, T> Call(KernelContext*, Arg arg,
+                                                         Status*) {
+    static_assert(std::is_same<T, Arg>::value, "");
+    return RoundImpl<T, RoundMode::TOWARDS_ZERO>::Round(arg);
+  }
+};
+
+// Generate a kernel given a bitwise arithmetic functor. Assumes the
+// functor treats all integer types of equal width identically
+template <template <typename... Args> class KernelGenerator, typename Op>
+ArrayKernelExec TypeAgnosticBitWiseExecFromOp(detail::GetTypeId get_id) {
+  switch (get_id.id) {
+    case Type::INT8:
+    case Type::UINT8:
+      return KernelGenerator<UInt8Type, UInt8Type, Op>::Exec;
+    case Type::INT16:
+    case Type::UINT16:
+      return KernelGenerator<UInt16Type, UInt16Type, Op>::Exec;
+    case Type::INT32:
+    case Type::UINT32:
+      return KernelGenerator<UInt32Type, UInt32Type, Op>::Exec;
+    case Type::INT64:
+    case Type::UINT64:
+      return KernelGenerator<UInt64Type, UInt64Type, Op>::Exec;
+    default:
+      DCHECK(false);
+      return nullptr;
+  }
+}
+
+template <template <typename... Args> class KernelGenerator, typename Op>
+ArrayKernelExec ShiftExecFromOp(detail::GetTypeId get_id) {
+  switch (get_id.id) {
+    case Type::INT8:
+      return KernelGenerator<Int8Type, Int8Type, Op>::Exec;
+    case Type::UINT8:
+      return KernelGenerator<UInt8Type, UInt8Type, Op>::Exec;
+    case Type::INT16:
+      return KernelGenerator<Int16Type, Int16Type, Op>::Exec;
+    case Type::UINT16:
+      return KernelGenerator<UInt16Type, UInt16Type, Op>::Exec;
+    case Type::INT32:
+      return KernelGenerator<Int32Type, Int32Type, Op>::Exec;
+    case Type::UINT32:
+      return KernelGenerator<UInt32Type, UInt32Type, Op>::Exec;
+    case Type::INT64:
+      return KernelGenerator<Int64Type, Int64Type, Op>::Exec;
+    case Type::UINT64:
+      return KernelGenerator<UInt64Type, UInt64Type, Op>::Exec;
+    default:
+      DCHECK(false);
+      return nullptr;
+  }
+}
+
+template <template <typename... Args> class KernelGenerator, typename Op>
+ArrayKernelExec GenerateArithmeticFloatingPoint(detail::GetTypeId get_id) {
+  switch (get_id.id) {
+    case Type::FLOAT:
+      return KernelGenerator<FloatType, FloatType, Op>::Exec;
+    case Type::DOUBLE:
+      return KernelGenerator<DoubleType, DoubleType, Op>::Exec;
+    default:
+      DCHECK(false);
+      return nullptr;
+  }
+}
+
+// resolve decimal binary operation output type per *casted* args
+template <typename OutputGetter>
+Result<TypeHolder> ResolveDecimalBinaryOperationOutput(
+    const std::vector<TypeHolder>& types, OutputGetter&& getter) {
+  // casted types should be same size decimals
+  const auto& left_type = checked_cast<const DecimalType&>(*types[0]);
+  const auto& right_type = checked_cast<const DecimalType&>(*types[1]);
+  DCHECK_EQ(left_type.id(), right_type.id());
+
+  int32_t precision, scale;
+  std::tie(precision, scale) = getter(left_type.precision(), left_type.scale(),
+                                      right_type.precision(), right_type.scale());
+  ARROW_ASSIGN_OR_RAISE(auto type, DecimalType::Make(left_type.id(), precision, scale));
+  return std::move(type);
+}
+
+template <typename Op>
+void AddDecimalUnaryKernels(ScalarFunction* func) {
+  OutputType out_type(FirstType);
+  auto in_type128 = InputType(Type::DECIMAL128);
+  auto in_type256 = InputType(Type::DECIMAL256);
+  auto exec128 = ScalarUnaryNotNull<Decimal128Type, Decimal128Type, Op>::Exec;
+  auto exec256 = ScalarUnaryNotNull<Decimal256Type, Decimal256Type, Op>::Exec;
+  DCHECK_OK(func->AddKernel({in_type128}, out_type, exec128));
+  DCHECK_OK(func->AddKernel({in_type256}, out_type, exec256));
+}
+
+// Generate a kernel given an arithmetic functor
+template <template <typename...> class KernelGenerator, typename OutType, typename Op>
+ArrayKernelExec GenerateArithmeticWithFixedIntOutType(detail::GetTypeId get_id) {
+  switch (get_id.id) {
+    case Type::INT8:
+      return KernelGenerator<OutType, Int8Type, Op>::Exec;
+    case Type::UINT8:
+      return KernelGenerator<OutType, UInt8Type, Op>::Exec;
+    case Type::INT16:
+      return KernelGenerator<OutType, Int16Type, Op>::Exec;
+    case Type::UINT16:
+      return KernelGenerator<OutType, UInt16Type, Op>::Exec;
+    case Type::INT32:
+      return KernelGenerator<OutType, Int32Type, Op>::Exec;
+    case Type::UINT32:
+      return KernelGenerator<OutType, UInt32Type, Op>::Exec;
+    case Type::INT64:
+    case Type::TIMESTAMP:
+      return KernelGenerator<OutType, Int64Type, Op>::Exec;
+    case Type::UINT64:
+      return KernelGenerator<OutType, UInt64Type, Op>::Exec;
+    case Type::FLOAT:
+      return KernelGenerator<FloatType, FloatType, Op>::Exec;
+    case Type::DOUBLE:
+      return KernelGenerator<DoubleType, DoubleType, Op>::Exec;
+    default:
+      DCHECK(false);
+      return nullptr;
+  }
+}
+
+struct ArithmeticFunction : ScalarFunction {
+  using ScalarFunction::ScalarFunction;
+
+  Result<const Kernel*> DispatchBest(std::vector<TypeHolder>* types) const override {
+    RETURN_NOT_OK(CheckArity(types->size()));
+
+    RETURN_NOT_OK(CheckDecimals(types));
+
+    using arrow::compute::detail::DispatchExactImpl;
+    if (auto kernel = DispatchExactImpl(this, *types)) return kernel;
+
+    EnsureDictionaryDecoded(types);
+
+    // Only promote types for binary functions
+    if (types->size() == 2) {
+      ReplaceNullWithOtherType(types);
+      TimeUnit::type finest_unit;
+      if (CommonTemporalResolution(types->data(), types->size(), &finest_unit)) {
+        ReplaceTemporalTypes(finest_unit, types);
+      } else {
+        if (TypeHolder type = CommonNumeric(*types)) {
+          ReplaceTypes(type, types);
+        }
+      }
+    }
+
+    if (auto kernel = DispatchExactImpl(this, *types)) return kernel;
+    return arrow::compute::detail::NoMatchingKernel(this, *types);
+  }
+
+  Status CheckDecimals(std::vector<TypeHolder>* types) const {
+    if (!HasDecimal(*types)) return Status::OK();
+
+    if (types->size() == 2) {
+      // "add_checked" -> "add"
+      const auto func_name = name();
+      const std::string op = func_name.substr(0, func_name.find("_"));
+      if (op == "add" || op == "subtract") {
+        return CastBinaryDecimalArgs(DecimalPromotion::kAdd, types);
+      } else if (op == "multiply") {
+        return CastBinaryDecimalArgs(DecimalPromotion::kMultiply, types);
+      } else if (op == "divide") {
+        return CastBinaryDecimalArgs(DecimalPromotion::kDivide, types);
+      } else {
+        return Status::Invalid("Invalid decimal function: ", func_name);
+      }
+    }
+    return Status::OK();
+  }
+};
+
+/// An ArithmeticFunction that promotes only decimal arguments to double.
+struct ArithmeticDecimalToFloatingPointFunction : public ArithmeticFunction {
+  using ArithmeticFunction::ArithmeticFunction;
+
+  Result<const Kernel*> DispatchBest(std::vector<TypeHolder>* types) const override {
+    RETURN_NOT_OK(CheckArity(types->size()));
+
+    using arrow::compute::detail::DispatchExactImpl;
+    if (auto kernel = DispatchExactImpl(this, *types)) return kernel;
+
+    EnsureDictionaryDecoded(types);
+
+    if (types->size() == 2) {
+      ReplaceNullWithOtherType(types);
+    }
+
+    for (size_t i = 0; i < types->size(); ++i) {
+      if (is_decimal((*types)[i].type->id())) {
+        (*types)[i] = float64();
+      }
+    }
+
+    if (TypeHolder type = CommonNumeric(*types)) {
+      ReplaceTypes(type, types);
+    }
+
+    if (auto kernel = DispatchExactImpl(this, *types)) return kernel;
+    return arrow::compute::detail::NoMatchingKernel(this, *types);
+  }
+};
+
+/// An ArithmeticFunction that promotes only integer arguments to double.
+struct ArithmeticIntegerToFloatingPointFunction : public ArithmeticFunction {
+  using ArithmeticFunction::ArithmeticFunction;
+
+  Result<const Kernel*> DispatchBest(std::vector<TypeHolder>* types) const override {
+    RETURN_NOT_OK(CheckArity(types->size()));
+    RETURN_NOT_OK(CheckDecimals(types));
+
+    using arrow::compute::detail::DispatchExactImpl;
+    if (auto kernel = DispatchExactImpl(this, *types)) return kernel;
+
+    EnsureDictionaryDecoded(types);
+
+    if (types->size() == 2) {
+      ReplaceNullWithOtherType(types);
+    }
+
+    for (size_t i = 0; i < types->size(); ++i) {
+      if (is_integer((*types)[i].type->id())) {
+        (*types)[i] = float64();
+      }
+    }
+
+    if (auto type = CommonNumeric(*types)) {
+      ReplaceTypes(type, types);
+    }
+
+    if (auto kernel = DispatchExactImpl(this, *types)) return kernel;
+    return arrow::compute::detail::NoMatchingKernel(this, *types);
+  }
+};
+
+/// An ArithmeticFunction that promotes integer and decimal arguments to double.
+struct ArithmeticFloatingPointFunction : public ArithmeticFunction {
+  using ArithmeticFunction::ArithmeticFunction;
+
+  Result<const Kernel*> DispatchBest(std::vector<TypeHolder>* types) const override {
+    RETURN_NOT_OK(CheckArity(types->size()));
+
+    using arrow::compute::detail::DispatchExactImpl;
+    if (auto kernel = DispatchExactImpl(this, *types)) return kernel;
+
+    EnsureDictionaryDecoded(types);
+
+    if (types->size() == 2) {
+      ReplaceNullWithOtherType(types);
+    }
+
+    for (size_t i = 0; i < types->size(); ++i) {
+      if (is_integer((*types)[i].type->id()) || is_decimal((*types)[i].type->id())) {
+        (*types)[i] = float64();
+      }
+    }
+
+    if (auto type = CommonNumeric(*types)) {
+      ReplaceTypes(type, types);
+    }
+
+    if (auto kernel = DispatchExactImpl(this, *types)) return kernel;
+    return arrow::compute::detail::NoMatchingKernel(this, *types);
+  }
+};
+
+// A scalar kernel that ignores (assumed all-null) inputs and returns null.
+Status NullToNullExec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
+  return Status::OK();
+}
+
+void AddNullExec(ScalarFunction* func) {
+  std::vector<InputType> input_types(func->arity().num_args, InputType(Type::NA));
+  DCHECK_OK(func->AddKernel(std::move(input_types), OutputType(null()), NullToNullExec));
+}
+
+template <typename Op, typename FunctionImpl = ArithmeticFunction>
+std::shared_ptr<ScalarFunction> MakeArithmeticFunction(std::string name,
+                                                       FunctionDoc doc) {
+  auto func = std::make_shared<FunctionImpl>(name, Arity::Binary(), std::move(doc));
+  for (const auto& ty : NumericTypes()) {
+    auto exec = ArithmeticExecFromOp<ScalarBinaryEqualTypes, Op>(ty);
+    DCHECK_OK(func->AddKernel({ty, ty}, ty, exec));
+  }
+  AddNullExec(func.get());
+  return func;
+}
+
+// Like MakeArithmeticFunction, but for arithmetic ops that need to run
+// only on non-null output.
+template <typename Op, typename FunctionImpl = ArithmeticFunction>
+std::shared_ptr<ScalarFunction> MakeArithmeticFunctionNotNull(std::string name,
+                                                              FunctionDoc doc) {
+  auto func = std::make_shared<FunctionImpl>(name, Arity::Binary(), std::move(doc));
+  for (const auto& ty : NumericTypes()) {
+    auto exec = ArithmeticExecFromOp<ScalarBinaryNotNullEqualTypes, Op>(ty);
+    DCHECK_OK(func->AddKernel({ty, ty}, ty, exec));
+  }
+  AddNullExec(func.get());
+  return func;
+}
+
+template <typename Op>
+std::shared_ptr<ScalarFunction> MakeUnaryArithmeticFunction(std::string name,
+                                                            FunctionDoc doc) {
+  auto func = std::make_shared<ArithmeticFunction>(name, Arity::Unary(), std::move(doc));
+  for (const auto& ty : NumericTypes()) {
+    auto exec = ArithmeticExecFromOp<ScalarUnary, Op>(ty);
+    DCHECK_OK(func->AddKernel({ty}, ty, exec));
+  }
+  AddNullExec(func.get());
+  return func;
+}
+
+// Like MakeUnaryArithmeticFunction, but for unary arithmetic ops with a fixed
+// output type for integral inputs.
+template <typename Op, typename IntOutType>
+std::shared_ptr<ScalarFunction> MakeUnaryArithmeticFunctionWithFixedIntOutType(
+    std::string name, FunctionDoc doc) {
+  auto int_out_ty = TypeTraits<IntOutType>::type_singleton();
+  auto func = std::make_shared<ArithmeticFunction>(name, Arity::Unary(), std::move(doc));
+  for (const auto& ty : NumericTypes()) {
+    auto out_ty = arrow::is_floating(ty->id()) ? ty : int_out_ty;
+    auto exec = GenerateArithmeticWithFixedIntOutType<ScalarUnary, IntOutType, Op>(ty);
+    DCHECK_OK(func->AddKernel({ty}, out_ty, exec));
+  }
+  {
+    auto exec = ScalarUnary<Int64Type, Decimal128Type, Op>::Exec;
+    DCHECK_OK(func->AddKernel({InputType(Type::DECIMAL128)}, int64(), exec));
+    exec = ScalarUnary<Int64Type, Decimal256Type, Op>::Exec;
+    DCHECK_OK(func->AddKernel({InputType(Type::DECIMAL256)}, int64(), exec));
+  }
+  AddNullExec(func.get());
+  return func;
+}
+
+// Like MakeUnaryArithmeticFunction, but for arithmetic ops that need to run
+// only on non-null output.
+template <typename Op>
+std::shared_ptr<ScalarFunction> MakeUnaryArithmeticFunctionNotNull(std::string name,
+                                                                   FunctionDoc doc) {
+  auto func = std::make_shared<ArithmeticFunction>(name, Arity::Unary(), std::move(doc));
+  for (const auto& ty : NumericTypes()) {
+    auto exec = ArithmeticExecFromOp<ScalarUnaryNotNull, Op>(ty);
+    DCHECK_OK(func->AddKernel({ty}, ty, exec));
+  }
+  AddNullExec(func.get());
+  return func;
+}
+
+#define ROUND_CASE(MODE)                                                       \
+  case RoundMode::MODE: {                                                      \
+    using Op = OpImpl<Type, RoundMode::MODE>;                                  \
+    return ScalarUnaryNotNullStateful<Type, Type, Op>(Op(state, *out->type())) \
+        .Exec(ctx, batch, out);                                                \
+  }
+
+// Exec the round kernel for the given types
+template <typename Type, typename OptionsType,
+          template <typename, RoundMode, typename...> class OpImpl>
+struct RoundKernel {
+  static Status Exec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
+    using State = RoundOptionsWrapper<OptionsType>;
+    const auto& state = static_cast<const State&>(*ctx->state());
+    switch (state.options.round_mode) {
+      ROUND_CASE(DOWN)
+      ROUND_CASE(UP)
+      ROUND_CASE(TOWARDS_ZERO)
+      ROUND_CASE(TOWARDS_INFINITY)
+      ROUND_CASE(HALF_DOWN)
+      ROUND_CASE(HALF_UP)
+      ROUND_CASE(HALF_TOWARDS_ZERO)
+      ROUND_CASE(HALF_TOWARDS_INFINITY)
+      ROUND_CASE(HALF_TO_EVEN)
+      ROUND_CASE(HALF_TO_ODD)
+    }
+    DCHECK(false);
+    return Status::NotImplemented(
+        "Internal implementation error: round mode not implemented: ",
+        state.options.ToString());
+  }
+};
+#undef ROUND_CASE
+
+// Like MakeUnaryArithmeticFunction, but for unary rounding functions that control
+// kernel dispatch based on RoundMode, only on non-null output.
+template <template <typename, RoundMode, typename...> class Op, typename OptionsType>
+std::shared_ptr<ScalarFunction> MakeUnaryRoundFunction(std::string name,
+                                                       FunctionDoc doc) {
+  using State = RoundOptionsWrapper<OptionsType>;
+  static const OptionsType kDefaultOptions = OptionsType::Defaults();
+  auto func = std::make_shared<ArithmeticIntegerToFloatingPointFunction>(
+      name, Arity::Unary(), std::move(doc), &kDefaultOptions);
+  for (const auto& ty : {float32(), float64(), decimal128(1, 0), decimal256(1, 0)}) {
+    auto type_id = ty->id();
+    ArrayKernelExec exec = nullptr;
+    switch (type_id) {
+      case Type::FLOAT:
+        exec = RoundKernel<FloatType, OptionsType, Op>::Exec;
+        break;
+      case Type::DOUBLE:
+        exec = RoundKernel<DoubleType, OptionsType, Op>::Exec;
+        break;
+      case Type::DECIMAL128:
+        exec = RoundKernel<Decimal128Type, OptionsType, Op>::Exec;
+        break;
+      case Type::DECIMAL256:
+        exec = RoundKernel<Decimal256Type, OptionsType, Op>::Exec;
+        break;
+      default:
+        DCHECK(false);
+        break;
+    }
+    DCHECK_OK(func->AddKernel(
+        {InputType(type_id)},
+        is_decimal(type_id) ? OutputType(FirstType) : OutputType(ty), exec, State::Init));
+  }
+  AddNullExec(func.get());
+  return func;
+}
+
+// Like MakeUnaryArithmeticFunction, but for signed arithmetic ops that need to run
+// only on non-null output.
+template <typename Op>
+std::shared_ptr<ScalarFunction> MakeUnarySignedArithmeticFunctionNotNull(
+    std::string name, FunctionDoc doc) {
+  auto func = std::make_shared<ArithmeticFunction>(name, Arity::Unary(), std::move(doc));
+  for (const auto& ty : NumericTypes()) {
+    if (!arrow::is_unsigned_integer(ty->id())) {
+      auto exec = ArithmeticExecFromOp<ScalarUnaryNotNull, Op>(ty);
+      DCHECK_OK(func->AddKernel({ty}, ty, exec));
+    }
+  }
+  AddNullExec(func.get());
+  return func;
+}
+
+template <typename Op>
+std::shared_ptr<ScalarFunction> MakeBitWiseFunctionNotNull(std::string name,
+                                                           FunctionDoc doc) {
+  auto func = std::make_shared<ArithmeticFunction>(name, Arity::Binary(), std::move(doc));
+  for (const auto& ty : IntTypes()) {
+    auto exec = TypeAgnosticBitWiseExecFromOp<ScalarBinaryNotNullEqualTypes, Op>(ty);
+    DCHECK_OK(func->AddKernel({ty, ty}, ty, exec));
+  }
+  AddNullExec(func.get());
+  return func;
+}
+
+template <typename Op>
+std::shared_ptr<ScalarFunction> MakeShiftFunctionNotNull(std::string name,
+                                                         FunctionDoc doc) {
+  auto func = std::make_shared<ArithmeticFunction>(name, Arity::Binary(), std::move(doc));
+  for (const auto& ty : IntTypes()) {
+    auto exec = ShiftExecFromOp<ScalarBinaryNotNullEqualTypes, Op>(ty);
+    DCHECK_OK(func->AddKernel({ty, ty}, ty, exec));
+  }
+  AddNullExec(func.get());
+  return func;
+}
+
+template <typename Op, typename FunctionImpl = ArithmeticFloatingPointFunction>
+std::shared_ptr<ScalarFunction> MakeUnaryArithmeticFunctionFloatingPoint(
+    std::string name, FunctionDoc doc) {
+  auto func = std::make_shared<FunctionImpl>(name, Arity::Unary(), std::move(doc));
+  for (const auto& ty : FloatingPointTypes()) {
+    auto exec = GenerateArithmeticFloatingPoint<ScalarUnary, Op>(ty);
+    DCHECK_OK(func->AddKernel({ty}, ty, exec));
+  }
+  AddNullExec(func.get());
+  return func;
+}
+
+template <typename Op>
+std::shared_ptr<ScalarFunction> MakeUnaryArithmeticFunctionFloatingPointNotNull(
+    std::string name, FunctionDoc doc) {
+  auto func = std::make_shared<ArithmeticFloatingPointFunction>(name, Arity::Unary(),
+                                                                std::move(doc));
+  for (const auto& ty : FloatingPointTypes()) {
+    auto exec = GenerateArithmeticFloatingPoint<ScalarUnaryNotNull, Op>(ty);
+    DCHECK_OK(func->AddKernel({ty}, ty, exec));
+  }
+  AddNullExec(func.get());
+  return func;
+}
+
+template <typename Op>
+std::shared_ptr<ScalarFunction> MakeArithmeticFunctionFloatingPoint(std::string name,
+                                                                    FunctionDoc doc) {
+  auto func = std::make_shared<ArithmeticFloatingPointFunction>(name, Arity::Binary(),
+                                                                std::move(doc));
+  for (const auto& ty : FloatingPointTypes()) {
+    auto exec = GenerateArithmeticFloatingPoint<ScalarBinaryEqualTypes, Op>(ty);
+    DCHECK_OK(func->AddKernel({ty, ty}, ty, exec));
+  }
+  AddNullExec(func.get());
+  return func;
+}
+
+template <typename Op>
+std::shared_ptr<ScalarFunction> MakeArithmeticFunctionFloatingPointNotNull(
+    std::string name, FunctionDoc doc) {
+  auto func = std::make_shared<ArithmeticFloatingPointFunction>(name, Arity::Binary(),
+                                                                std::move(doc));
+  for (const auto& ty : FloatingPointTypes()) {
+    auto output = is_integer(ty->id()) ? float64() : ty;
+    auto exec = GenerateArithmeticFloatingPoint<ScalarBinaryNotNullEqualTypes, Op>(ty);
+    DCHECK_OK(func->AddKernel({ty, ty}, output, exec));
+  }
+  AddNullExec(func.get());
+  return func;
+}
+
+template <template <int64_t> class Op>
+void AddArithmeticFunctionTimeDuration(std::shared_ptr<ScalarFunction> func) {
+  // Add Op(time32, duration) -> time32
+  TimeUnit::type unit = TimeUnit::SECOND;
+  auto exec_1 = ScalarBinary<Time32Type, Time32Type, DurationType, Op<86400>>::Exec;
+  DCHECK_OK(func->AddKernel({time32(unit), duration(unit)}, OutputType(FirstType),
+                            std::move(exec_1)));
+
+  unit = TimeUnit::MILLI;
+  auto exec_2 = ScalarBinary<Time32Type, Time32Type, DurationType, Op<86400000>>::Exec;
+  DCHECK_OK(func->AddKernel({time32(unit), duration(unit)}, OutputType(FirstType),
+                            std::move(exec_2)));
+
+  // Add Op(time64, duration) -> time64
+  unit = TimeUnit::MICRO;
+  auto exec_3 = ScalarBinary<Time64Type, Time64Type, DurationType, Op<86400000000>>::Exec;
+  DCHECK_OK(func->AddKernel({time64(unit), duration(unit)}, OutputType(FirstType),
+                            std::move(exec_3)));
+
+  unit = TimeUnit::NANO;
+  auto exec_4 =
+      ScalarBinary<Time64Type, Time64Type, DurationType, Op<86400000000000>>::Exec;
+  DCHECK_OK(func->AddKernel({time64(unit), duration(unit)}, OutputType(FirstType),
+                            std::move(exec_4)));
+}
+
+const FunctionDoc floor_doc{
+    "Round down to the nearest integer",
+    ("Compute the largest integer value not greater in magnitude than `x`."),
+    {"x"}};
+
+const FunctionDoc ceil_doc{
+    "Round up to the nearest integer",
+    ("Compute the smallest integer value not less in magnitude than `x`."),
+    {"x"}};
+
+const FunctionDoc trunc_doc{
+    "Compute the integral part",
+    ("Compute the nearest integer not greater in magnitude than `x`."),
+    {"x"}};
+
+const FunctionDoc round_doc{
+    "Round to a given precision",
+    ("Options are used to control the number of digits and rounding mode.\n"
+     "Default behavior is to round to the nearest integer and\n"
+     "use half-to-even rule to break ties."),
+    {"x"},
+    "RoundOptions"};
+
+const FunctionDoc round_to_multiple_doc{
+    "Round to a given multiple",
+    ("Options are used to control the rounding multiple and rounding mode.\n"
+     "Default behavior is to round to the nearest integer and\n"
+     "use half-to-even rule to break ties."),
+    {"x"},
+    "RoundToMultipleOptions"};
+}  // namespace
+
+void RegisterScalarRoundArithmetic(FunctionRegistry* registry) {
+  auto floor =
+      MakeUnaryArithmeticFunctionFloatingPoint<Floor,
+                                               ArithmeticIntegerToFloatingPointFunction>(
+          "floor", floor_doc);
+  DCHECK_OK(floor->AddKernel(
+      {InputType(Type::DECIMAL128)}, OutputType(FirstType),
+      FixedRoundDecimalExec<Decimal128Type, RoundMode::DOWN, /*ndigits=*/0>));
+  DCHECK_OK(floor->AddKernel(
+      {InputType(Type::DECIMAL256)}, OutputType(FirstType),
+      FixedRoundDecimalExec<Decimal256Type, RoundMode::DOWN, /*ndigits=*/0>));
+  DCHECK_OK(registry->AddFunction(std::move(floor)));
+
+  auto ceil =
+      MakeUnaryArithmeticFunctionFloatingPoint<Ceil,
+                                               ArithmeticIntegerToFloatingPointFunction>(
+          "ceil", ceil_doc);
+  DCHECK_OK(ceil->AddKernel(
+      {InputType(Type::DECIMAL128)}, OutputType(FirstType),
+      FixedRoundDecimalExec<Decimal128Type, RoundMode::UP, /*ndigits=*/0>));
+  DCHECK_OK(ceil->AddKernel(
+      {InputType(Type::DECIMAL256)}, OutputType(FirstType),
+      FixedRoundDecimalExec<Decimal256Type, RoundMode::UP, /*ndigits=*/0>));
+  DCHECK_OK(registry->AddFunction(std::move(ceil)));
+
+  auto trunc =
+      MakeUnaryArithmeticFunctionFloatingPoint<Trunc,
+                                               ArithmeticIntegerToFloatingPointFunction>(
+          "trunc", trunc_doc);
+  DCHECK_OK(trunc->AddKernel(
+      {InputType(Type::DECIMAL128)}, OutputType(FirstType),
+      FixedRoundDecimalExec<Decimal128Type, RoundMode::TOWARDS_ZERO, /*ndigits=*/0>));
+  DCHECK_OK(trunc->AddKernel(
+      {InputType(Type::DECIMAL256)}, OutputType(FirstType),
+      FixedRoundDecimalExec<Decimal256Type, RoundMode::TOWARDS_ZERO, /*ndigits=*/0>));
+  DCHECK_OK(registry->AddFunction(std::move(trunc)));
+
+  auto round = MakeUnaryRoundFunction<Round, RoundOptions>("round", round_doc);
+  DCHECK_OK(registry->AddFunction(std::move(round)));
+
+  auto round_to_multiple =
+      MakeUnaryRoundFunction<RoundToMultiple, RoundToMultipleOptions>(
+          "round_to_multiple", round_to_multiple_doc);
+  DCHECK_OK(registry->AddFunction(std::move(round_to_multiple)));
+}
+
+}  // namespace internal
+}  // namespace compute
+}  // namespace arrow
diff --git a/cpp/src/arrow/compute/kernels/scalar_round_arithmetic_test.cc b/cpp/src/arrow/compute/kernels/scalar_round_arithmetic_test.cc
new file mode 100644
index 00000000000..25e5f8d56c5
--- /dev/null
+++ b/cpp/src/arrow/compute/kernels/scalar_round_arithmetic_test.cc
@@ -0,0 +1,1223 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include <algorithm>
+#include <cmath>
+#include <memory>
+#include <string>
+#include <utility>
+
+#include <gtest/gtest.h>
+
+#include "arrow/array.h"
+#include "arrow/buffer.h"
+#include "arrow/compute/api.h"
+#include "arrow/compute/kernels/test_util.h"
+#include "arrow/type.h"
+#include "arrow/type_traits.h"
+#include "arrow/util/bit_util.h"
+#include "arrow/util/string.h"
+
+#include "arrow/testing/gtest_util.h"
+
+namespace arrow {
+namespace compute {
+
+namespace {
+
+using IntegralTypes = testing::Types<Int8Type, Int16Type, Int32Type, Int64Type, UInt8Type,
+                                     UInt16Type, UInt32Type, UInt64Type>;
+
+using SignedIntegerTypes = testing::Types<Int8Type, Int16Type, Int32Type, Int64Type>;
+
+using UnsignedIntegerTypes =
+    testing::Types<UInt8Type, UInt16Type, UInt32Type, UInt64Type>;
+
+// TODO(kszucs): add half-float
+using FloatingTypes = testing::Types<FloatType, DoubleType>;
+
+template <typename T, typename OptionsType>
+class TestBaseUnaryRoundArithmetic : public ::testing::Test {
+ protected:
+  using ArrowType = T;
+  using CType = typename ArrowType::c_type;
+
+  static std::shared_ptr<DataType> type_singleton() {
+    return TypeTraits<ArrowType>::type_singleton();
+  }
+
+  using UnaryFunction =
+      std::function<Result<Datum>(const Datum&, OptionsType, ExecContext*)>;
+
+  std::shared_ptr<Scalar> MakeNullScalar() {
+    return arrow::MakeNullScalar(type_singleton());
+  }
+
+  std::shared_ptr<Scalar> MakeScalar(CType value) {
+    return *arrow::MakeScalar(type_singleton(), value);
+  }
+
+  void SetUp() override {}
+
+  // (CScalar, CScalar)
+  void AssertUnaryOp(UnaryFunction func, CType argument, CType expected) {
+    auto arg = MakeScalar(argument);
+    auto exp = MakeScalar(expected);
+    ASSERT_OK_AND_ASSIGN(auto actual, func(arg, options_, nullptr))
+    AssertScalarsApproxEqual(*exp, *actual.scalar(), /*verbose=*/true);
+  }
+
+  // (Scalar, Scalar)
+  void AssertUnaryOp(UnaryFunction func, const std::shared_ptr<Scalar>& arg,
+                     const std::shared_ptr<Scalar>& expected) {
+    ASSERT_OK_AND_ASSIGN(auto actual, func(arg, options_, nullptr))
+    AssertScalarsApproxEqual(*expected, *actual.scalar(), /*verbose=*/true);
+  }
+
+  // (JSON, JSON)
+  void AssertUnaryOp(UnaryFunction func, const std::string& arg_json,
+                     const std::string& expected_json) {
+    auto arg = ArrayFromJSON(type_singleton(), arg_json);
+    auto expected = ArrayFromJSON(type_singleton(), expected_json);
+    AssertUnaryOp(func, arg, expected);
+  }
+
+  // (Array, JSON)
+  void AssertUnaryOp(UnaryFunction func, const std::shared_ptr<Array>& arg,
+                     const std::string& expected_json) {
+    const auto expected = ArrayFromJSON(type_singleton(), expected_json);
+    AssertUnaryOp(func, arg, expected);
+  }
+
+  // (JSON, Array)
+  void AssertUnaryOp(UnaryFunction func, const std::string& arg_json,
+                     const std::shared_ptr<Array>& expected) {
+    auto arg = ArrayFromJSON(type_singleton(), arg_json);
+    AssertUnaryOp(func, arg, expected);
+  }
+
+  // (Array, Array)
+  void AssertUnaryOp(UnaryFunction func, const std::shared_ptr<Array>& arg,
+                     const std::shared_ptr<Array>& expected) {
+    ASSERT_OK_AND_ASSIGN(auto actual, func(arg, options_, nullptr));
+    ValidateAndAssertApproxEqual(actual.make_array(), expected);
+
+    // Also check (Scalar, Scalar) operations
+    const int64_t length = expected->length();
+    for (int64_t i = 0; i < length; ++i) {
+      const auto expected_scalar = *expected->GetScalar(i);
+      ASSERT_OK_AND_ASSIGN(actual, func(*arg->GetScalar(i), options_, nullptr))
+      AssertScalarsApproxEqual(*expected_scalar, *actual.scalar(), /*verbose=*/true,
+                               equal_options_);
+    }
+  }
+
+  // (CScalar, CScalar)
+  void AssertUnaryOpRaises(UnaryFunction func, CType argument,
+                           const std::string& expected_msg) {
+    auto arg = MakeScalar(argument);
+    EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid, ::testing::HasSubstr(expected_msg),
+                                    func(arg, options_, nullptr));
+  }
+
+  void AssertUnaryOpRaises(UnaryFunction func, const std::string& argument,
+                           const std::string& expected_msg) {
+    auto arg = ArrayFromJSON(type_singleton(), argument);
+    EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid, ::testing::HasSubstr(expected_msg),
+                                    func(arg, options_, nullptr));
+    for (int64_t i = 0; i < arg->length(); i++) {
+      ASSERT_OK_AND_ASSIGN(auto scalar, arg->GetScalar(i))
+      EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid, ::testing::HasSubstr(expected_msg),
+                                      func(scalar, options_, nullptr));
+    }
+  }
+
+  void AssertUnaryOpNotImplemented(UnaryFunction func, const std::string& argument) {
+    auto arg = ArrayFromJSON(type_singleton(), argument);
+    const char* expected_msg = "has no kernel matching input types";
+    EXPECT_RAISES_WITH_MESSAGE_THAT(NotImplemented, ::testing::HasSubstr(expected_msg),
+                                    func(arg, options_, nullptr));
+  }
+
+  void ValidateAndAssertApproxEqual(const std::shared_ptr<Array>& actual,
+                                    const std::string& expected) {
+    const auto exp = ArrayFromJSON(type_singleton(), expected);
+    ValidateAndAssertApproxEqual(actual, exp);
+  }
+
+  void ValidateAndAssertApproxEqual(const std::shared_ptr<Array>& actual,
+                                    const std::shared_ptr<Array>& expected) {
+    ValidateOutput(*actual);
+    AssertArraysApproxEqual(*expected, *actual, /*verbose=*/true, equal_options_);
+  }
+
+  void SetNansEqual(bool value = true) {
+    equal_options_ = equal_options_.nans_equal(value);
+  }
+
+  OptionsType options_ = OptionsType();
+  EqualOptions equal_options_ = EqualOptions::Defaults().signed_zeros_equal(false);
+};
+
+// Subclasses of TestBaseUnaryRoundArithmetic for different FunctionOptions.
+template <typename T>
+class TestUnaryRoundArithmetic
+    : public TestBaseUnaryRoundArithmetic<T, ArithmeticOptions> {
+ protected:
+  using Base = TestBaseUnaryRoundArithmetic<T, ArithmeticOptions>;
+  using Base::options_;
+
+  void SetOverflowCheck(bool value) { options_.check_overflow = value; }
+};
+
+template <typename T>
+class TestUnaryRoundArithmeticIntegral : public TestUnaryRoundArithmetic<T> {};
+
+template <typename T>
+class TestUnaryRoundArithmeticSigned : public TestUnaryRoundArithmeticIntegral<T> {};
+
+template <typename T>
+class TestUnaryRoundArithmeticUnsigned : public TestUnaryRoundArithmeticIntegral<T> {};
+
+template <typename T>
+class TestUnaryRoundArithmeticFloating : public TestUnaryRoundArithmetic<T> {};
+
+template <typename T>
+class TestUnaryRound : public TestBaseUnaryRoundArithmetic<T, RoundOptions> {
+ protected:
+  using Base = TestBaseUnaryRoundArithmetic<T, RoundOptions>;
+  using Base::options_;
+
+  void SetRoundMode(RoundMode value) { options_.round_mode = value; }
+
+  void SetRoundNdigits(int64_t value) { options_.ndigits = value; }
+};
+
+template <typename T>
+class TestUnaryRoundIntegral : public TestUnaryRound<T> {};
+
+template <typename T>
+class TestUnaryRoundSigned : public TestUnaryRoundIntegral<T> {};
+
+template <typename T>
+class TestUnaryRoundUnsigned : public TestUnaryRoundIntegral<T> {};
+
+template <typename T>
+class TestUnaryRoundFloating : public TestUnaryRound<T> {};
+
+template <typename T>
+class TestUnaryRoundToMultiple
+    : public TestBaseUnaryRoundArithmetic<T, RoundToMultipleOptions> {
+ protected:
+  using Base = TestBaseUnaryRoundArithmetic<T, RoundToMultipleOptions>;
+  using Base::options_;
+
+  void SetRoundMode(RoundMode value) { options_.round_mode = value; }
+
+  void SetRoundMultiple(double value) {
+    options_.multiple = std::make_shared<DoubleScalar>(value);
+  }
+};
+
+template <typename T>
+class TestUnaryRoundToMultipleIntegral : public TestUnaryRoundToMultiple<T> {};
+
+template <typename T>
+class TestUnaryRoundToMultipleSigned : public TestUnaryRoundToMultipleIntegral<T> {};
+
+template <typename T>
+class TestUnaryRoundToMultipleUnsigned : public TestUnaryRoundToMultipleIntegral<T> {};
+
+template <typename T>
+class TestUnaryRoundToMultipleFloating : public TestUnaryRoundToMultiple<T> {};
+
+class TestRoundArithmeticDecimal : public ::testing::Test {
+ protected:
+  static std::vector<std::shared_ptr<DataType>> PositiveScaleTypes() {
+    return {decimal128(4, 2), decimal256(4, 2), decimal128(38, 2), decimal256(76, 2)};
+  }
+
+  static std::vector<std::shared_ptr<DataType>> NegativeScaleTypes() {
+    return {decimal128(2, -2), decimal256(2, -2)};
+  }
+
+  // Validate that func(*decimals) is the same as
+  // func([cast(x, float64) x for x in decimals])
+  static void CheckDecimalToFloat(const std::string& func, const DatumVector& args) {
+    DatumVector floating_args;
+    for (const auto& arg : args) {
+      if (is_decimal(arg.type()->id())) {
+        ASSERT_OK_AND_ASSIGN(auto casted, Cast(arg, float64()))
+        floating_args.push_back(casted);
+      } else {
+        floating_args.push_back(arg);
+      }
+    }
+    ASSERT_OK_AND_ASSIGN(auto expected, CallFunction(func, floating_args))
+    ASSERT_OK_AND_ASSIGN(auto actual, CallFunction(func, args))
+    AssertDatumsApproxEqual(expected, actual, /*verbose=*/true);
+  }
+
+  static void CheckRaises(const std::string& func, const DatumVector& args,
+                          const std::string& substr,
+                          const FunctionOptions* options = nullptr) {
+    EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid, ::testing::HasSubstr(substr),
+                                    CallFunction(func, args, options));
+  }
+};
+
+template <typename T>
+class TestBinaryRoundArithmetic : public ::testing::Test {
+ protected:
+  using ArrowType = T;
+  using CType = typename ArrowType::c_type;
+
+  static std::shared_ptr<DataType> type_singleton() {
+    return TypeTraits<ArrowType>::type_singleton();
+  }
+
+  using BinaryFunction = std::function<Result<Datum>(const Datum&, const Datum&,
+                                                     ArithmeticOptions, ExecContext*)>;
+
+  void SetUp() override { options_.check_overflow = false; }
+
+  std::shared_ptr<Scalar> MakeNullScalar() {
+    return arrow::MakeNullScalar(type_singleton());
+  }
+
+  std::shared_ptr<Scalar> MakeScalar(CType value) {
+    return *arrow::MakeScalar(type_singleton(), value);
+  }
+
+  void ValidateAndAssertApproxEqual(const std::shared_ptr<Array>& actual,
+                                    const std::string& expected) {
+    ValidateAndAssertApproxEqual(actual, ArrayFromJSON(type_singleton(), expected));
+  }
+
+  void ValidateAndAssertApproxEqual(const std::shared_ptr<Array>& actual,
+                                    const std::shared_ptr<Array>& expected) {
+    ValidateOutput(*actual);
+    AssertArraysApproxEqual(*expected, *actual, /*verbose=*/true, equal_options_);
+  }
+
+  void SetOverflowCheck(bool value = true) { options_.check_overflow = value; }
+
+  void SetNansEqual(bool value = true) {
+    this->equal_options_ = equal_options_.nans_equal(value);
+  }
+
+  ArithmeticOptions options_ = ArithmeticOptions();
+  EqualOptions equal_options_ = EqualOptions::Defaults().signed_zeros_equal(false);
+};
+
+template <typename T>
+class TestBinaryRoundArithmeticIntegral : public TestBinaryRoundArithmetic<T> {};
+
+template <typename T>
+class TestBinaryRoundArithmeticSigned : public TestBinaryRoundArithmeticIntegral<T> {};
+
+template <typename T>
+class TestBinaryRoundArithmeticUnsigned : public TestBinaryRoundArithmeticIntegral<T> {};
+
+template <typename T>
+class TestBinaryRoundArithmeticFloating : public TestBinaryRoundArithmetic<T> {};
+
+TYPED_TEST_SUITE(TestUnaryRoundArithmeticIntegral, IntegralTypes);
+TYPED_TEST_SUITE(TestUnaryRoundArithmeticSigned, SignedIntegerTypes);
+TYPED_TEST_SUITE(TestUnaryRoundArithmeticUnsigned, UnsignedIntegerTypes);
+TYPED_TEST_SUITE(TestUnaryRoundArithmeticFloating, FloatingTypes);
+
+TYPED_TEST_SUITE(TestBinaryRoundArithmeticIntegral, IntegralTypes);
+TYPED_TEST_SUITE(TestBinaryRoundArithmeticSigned, SignedIntegerTypes);
+TYPED_TEST_SUITE(TestBinaryRoundArithmeticUnsigned, UnsignedIntegerTypes);
+TYPED_TEST_SUITE(TestBinaryRoundArithmeticFloating, FloatingTypes);
+
+TEST(TestUnaryRound, DispatchBestRound) {
+  // Integer -> Float64
+  for (std::string name : {"floor", "ceil", "trunc", "round", "round_to_multiple"}) {
+    for (const auto& ty :
+         {int8(), int16(), int32(), int64(), uint8(), uint16(), uint32(), uint64()}) {
+      CheckDispatchBest(name, {ty}, {float64()});
+      CheckDispatchBest(name, {dictionary(int8(), ty)}, {float64()});
+    }
+  }
+}
+
+class TestUnaryRoundArithmeticDecimal : public TestRoundArithmeticDecimal {};
+
+// Check two modes exhaustively, give all modes a simple test
+TEST_F(TestUnaryRoundArithmeticDecimal, Round) {
+  const auto func = "round";
+  RoundOptions options(2, RoundMode::DOWN);
+  for (const auto& ty : {decimal128(4, 3), decimal256(4, 3)}) {
+    auto values = ArrayFromJSON(
+        ty,
+        R"(["1.010", "1.012", "1.015", "1.019", "-1.010", "-1.012", "-1.015", "-1.019", null])");
+    options.round_mode = RoundMode::DOWN;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["1.010", "1.010", "1.010", "1.010", "-1.010", "-1.020", "-1.020", "-1.020", null])"),
+        &options);
+    options.round_mode = RoundMode::UP;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["1.010", "1.020", "1.020", "1.020", "-1.010", "-1.010", "-1.010", "-1.010", null])"),
+        &options);
+    options.round_mode = RoundMode::TOWARDS_ZERO;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["1.010", "1.010", "1.010", "1.010", "-1.010", "-1.010", "-1.010", "-1.010", null])"),
+        &options);
+    options.round_mode = RoundMode::TOWARDS_INFINITY;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["1.010", "1.020", "1.020", "1.020", "-1.010", "-1.020", "-1.020", "-1.020", null])"),
+        &options);
+    options.round_mode = RoundMode::HALF_DOWN;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null])"),
+        &options);
+    options.round_mode = RoundMode::HALF_UP;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null])"),
+        &options);
+    options.round_mode = RoundMode::HALF_TOWARDS_ZERO;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null])"),
+        &options);
+    options.round_mode = RoundMode::HALF_TOWARDS_INFINITY;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null])"),
+        &options);
+    options.round_mode = RoundMode::HALF_TO_EVEN;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null])"),
+        &options);
+    options.round_mode = RoundMode::HALF_TO_ODD;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null])"),
+        &options);
+  }
+}
+
+TEST_F(TestUnaryRoundArithmeticDecimal, RoundTowardsInfinity) {
+  const auto func = "round";
+  RoundOptions options(0, RoundMode::TOWARDS_INFINITY);
+  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
+    auto values = ArrayFromJSON(
+        ty, R"(["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null])");
+    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"), &options);
+    options.ndigits = 0;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(ty,
+                      R"(["1.00", "2.00", "2.00", "-42.00", "-43.00", "-43.00", null])"),
+        &options);
+    options.ndigits = 1;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(ty,
+                      R"(["1.00", "2.00", "1.10", "-42.00", "-43.00", "-42.20", null])"),
+        &options);
+    options.ndigits = 2;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = 4;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = 100;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = -1;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty, R"(["10.00", "10.00", "10.00", "-50.00", "-50.00", "-50.00", null])"),
+        &options);
+    options.ndigits = -2;
+    CheckRaises(func, {values}, "Rounding to -2 digits will not fit in precision",
+                &options);
+    options.ndigits = -1;
+    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
+                "Rounded value 100.00 does not fit in precision", &options);
+  }
+  for (const auto& ty : {decimal128(2, -2), decimal256(2, -2)}) {
+    auto values = DecimalArrayFromJSON(
+        ty, R"(["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null])");
+    options.ndigits = 0;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = 2;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = 100;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = -1;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = -2;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = -3;
+    CheckScalar(func, {values},
+                DecimalArrayFromJSON(
+                    ty, R"(["10E2", "20E2", "20E2", "-10E2", "-20E2", "-20E2", null])"),
+                &options);
+    options.ndigits = -4;
+    CheckRaises(func, {values}, "Rounding to -4 digits will not fit in precision",
+                &options);
+  }
+}
+
+TEST_F(TestUnaryRoundArithmeticDecimal, RoundHalfToEven) {
+  const auto func = "round";
+  RoundOptions options(0, RoundMode::HALF_TO_EVEN);
+  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
+    auto values = ArrayFromJSON(
+        ty,
+        R"(["1.00", "5.99", "1.01", "-42.00", "-42.99", "-42.15", "1.50", "2.50", "-5.50", "-2.55", null])");
+    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"), &options);
+    options.ndigits = 0;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["1.00", "6.00", "1.00", "-42.00", "-43.00", "-42.00", "2.00", "2.00", "-6.00", "-3.00", null])"),
+        &options);
+    options.ndigits = 1;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["1.00", "6.00", "1.00", "-42.00", "-43.00", "-42.20", "1.50", "2.50", "-5.50", "-2.60", null])"),
+        &options);
+    options.ndigits = 2;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = 4;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = 100;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = -1;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["0.00", "10.00", "0.00", "-40.00", "-40.00", "-40.00", "0.00", "0.00", "-10.00", "0.00", null])"),
+        &options);
+    options.ndigits = -2;
+    CheckRaises(func, {values}, "Rounding to -2 digits will not fit in precision",
+                &options);
+    options.ndigits = -1;
+    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
+                "Rounded value 100.00 does not fit in precision", &options);
+  }
+  for (const auto& ty : {decimal128(2, -2), decimal256(2, -2)}) {
+    auto values = DecimalArrayFromJSON(
+        ty,
+        R"(["5E2", "10E2", "12E2", "15E2", "18E2", "-10E2", "-12E2", "-15E2", "-18E2", null])");
+    options.ndigits = 0;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = 2;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = 100;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = -1;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = -2;
+    CheckScalar(func, {values}, values, &options);
+    options.ndigits = -3;
+    CheckScalar(
+        func, {values},
+        DecimalArrayFromJSON(
+            ty,
+            R"(["0", "10E2", "10E2", "20E2", "20E2", "-10E2", "-10E2", "-20E2", "-20E2", null])"),
+        &options);
+    options.ndigits = -4;
+    CheckRaises(func, {values}, "Rounding to -4 digits will not fit in precision",
+                &options);
+  }
+}
+
+TEST_F(TestUnaryRoundArithmeticDecimal, RoundCeil) {
+  const auto func = "ceil";
+  for (const auto& ty : PositiveScaleTypes()) {
+    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"));
+    CheckScalar(
+        func,
+        {ArrayFromJSON(
+            ty, R"(["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null])")},
+        ArrayFromJSON(ty,
+                      R"(["1.00", "2.00", "2.00", "-42.00", "-42.00", "-42.00", null])"));
+  }
+  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
+    CheckRaises(func, {ScalarFromJSON(ty, R"("99.99")")},
+                "Rounded value 100.00 does not fit in precision of decimal");
+    CheckScalar(func, {ScalarFromJSON(ty, R"("-99.99")")},
+                ScalarFromJSON(ty, R"("-99.00")"));
+  }
+  for (const auto& ty : NegativeScaleTypes()) {
+    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"));
+    CheckScalar(func, {DecimalArrayFromJSON(ty, R"(["12E2", "-42E2", null])")},
+                DecimalArrayFromJSON(ty, R"(["12E2", "-42E2", null])"));
+  }
+}
+
+TEST_F(TestUnaryRoundArithmeticDecimal, RoundFloor) {
+  const auto func = "floor";
+  for (const auto& ty : PositiveScaleTypes()) {
+    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"));
+    CheckScalar(
+        func,
+        {ArrayFromJSON(
+            ty, R"(["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null])")},
+        ArrayFromJSON(ty,
+                      R"(["1.00", "1.00", "1.00", "-42.00", "-43.00", "-43.00", null])"));
+  }
+  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
+    CheckScalar(func, {ScalarFromJSON(ty, R"("99.99")")},
+                ScalarFromJSON(ty, R"("99.00")"));
+    CheckRaises(func, {ScalarFromJSON(ty, R"("-99.99")")},
+                "Rounded value -100.00 does not fit in precision of decimal");
+  }
+  for (const auto& ty : NegativeScaleTypes()) {
+    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"));
+    CheckScalar(func, {DecimalArrayFromJSON(ty, R"(["12E2", "-42E2", null])")},
+                DecimalArrayFromJSON(ty, R"(["12E2", "-42E2", null])"));
+  }
+}
+
+TEST_F(TestUnaryRoundArithmeticDecimal, RoundTrunc) {
+  const auto func = "trunc";
+  for (const auto& ty : PositiveScaleTypes()) {
+    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"));
+    CheckScalar(
+        func,
+        {ArrayFromJSON(
+            ty, R"(["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null])")},
+        ArrayFromJSON(ty,
+                      R"(["1.00", "1.00", "1.00", "-42.00", "-42.00", "-42.00", null])"));
+  }
+  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
+    CheckScalar(func, {ScalarFromJSON(ty, R"("99.99")")},
+                ScalarFromJSON(ty, R"("99.00")"));
+    CheckScalar(func, {ScalarFromJSON(ty, R"("-99.99")")},
+                ScalarFromJSON(ty, R"("-99.00")"));
+  }
+  for (const auto& ty : NegativeScaleTypes()) {
+    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"));
+    CheckScalar(func, {DecimalArrayFromJSON(ty, R"(["12E2", "-42E2", null])")},
+                DecimalArrayFromJSON(ty, R"(["12E2", "-42E2", null])"));
+  }
+}
+
+TEST_F(TestUnaryRoundArithmeticDecimal, RoundToMultiple) {
+  const auto func = "round_to_multiple";
+  RoundToMultipleOptions options(0, RoundMode::DOWN);
+  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
+    if (ty->id() == Type::DECIMAL128) {
+      options.multiple = std::make_shared<Decimal128Scalar>(Decimal128(200), ty);
+    } else {
+      options.multiple = std::make_shared<Decimal256Scalar>(Decimal256(200), ty);
+    }
+    auto values = ArrayFromJSON(
+        ty,
+        R"(["-3.50", "-3.00", "-2.50", "-2.00", "-1.50", "-1.00", "-0.50", "0.00",
+            "0.50", "1.00", "1.50", "2.00", "2.50", "3.00", "3.50", null])");
+    options.round_mode = RoundMode::DOWN;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["-4.00", "-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "0.00",
+            "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", null])"),
+        &options);
+    options.round_mode = RoundMode::UP;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "-0.00", "0.00",
+            "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", "4.00", null])"),
+        &options);
+    options.round_mode = RoundMode::TOWARDS_ZERO;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "-0.00", "0.00",
+            "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", null])"),
+        &options);
+    options.round_mode = RoundMode::TOWARDS_INFINITY;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["-4.00", "-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "0.00",
+            "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", "4.00", null])"),
+        &options);
+    options.round_mode = RoundMode::HALF_DOWN;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00",
+            "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", null])"),
+        &options);
+    options.round_mode = RoundMode::HALF_UP;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00",
+            "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", null])"),
+        &options);
+    options.round_mode = RoundMode::HALF_TOWARDS_ZERO;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00",
+            "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", null])"),
+        &options);
+    options.round_mode = RoundMode::HALF_TOWARDS_INFINITY;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00",
+            "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", null])"),
+        &options);
+    options.round_mode = RoundMode::HALF_TO_EVEN;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00",
+            "0.00", "0.00", "2.00", "2.00", "2.00", "4.00", "4.00", null])"),
+        &options);
+    options.round_mode = RoundMode::HALF_TO_ODD;
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00",
+            "0.00", "2.00", "2.00", "2.00", "2.00", "2.00", "4.00", null])"),
+        &options);
+  }
+}
+
+TEST_F(TestUnaryRoundArithmeticDecimal, RoundToMultipleTowardsInfinity) {
+  const auto func = "round_to_multiple";
+  RoundToMultipleOptions options(0, RoundMode::TOWARDS_INFINITY);
+  auto set_multiple = [&](const std::shared_ptr<DataType>& ty, int64_t value) {
+    if (ty->id() == Type::DECIMAL128) {
+      options.multiple = std::make_shared<Decimal128Scalar>(Decimal128(value), ty);
+    } else {
+      options.multiple = std::make_shared<Decimal256Scalar>(Decimal256(value), ty);
+    }
+  };
+  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
+    auto values = ArrayFromJSON(
+        ty, R"(["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null])");
+    set_multiple(ty, 25);
+    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"), &options);
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(ty,
+                      R"(["1.00", "2.00", "1.25", "-42.00", "-43.00", "-42.25", null])"),
+        &options);
+    set_multiple(ty, 1);
+    CheckScalar(func, {values}, values, &options);
+    set_multiple(decimal128(2, 0), 2);
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(ty,
+                      R"(["2.00", "2.00", "2.00", "-42.00", "-44.00", "-44.00", null])"),
+        &options);
+    set_multiple(ty, 0);
+    CheckRaises(func, {values}, "Rounding multiple must be positive", &options);
+    options.multiple =
+        std::make_shared<Decimal128Scalar>(Decimal128(0), decimal128(4, 2));
+    CheckRaises(func, {values}, "Rounding multiple must be positive", &options);
+    set_multiple(ty, -10);
+    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
+                "Rounding multiple must be positive", &options);
+    set_multiple(ty, 100);
+    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
+                "Rounded value 100.00 does not fit in precision", &options);
+    options.multiple = std::make_shared<DoubleScalar>(1.0);
+    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
+                "Rounded value 100.00 does not fit in precision", &options);
+    options.multiple = std::make_shared<Decimal128Scalar>(decimal128(3, 0));
+    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
+                "Rounding multiple must be non-null and valid", &options);
+    options.multiple = nullptr;
+    CheckRaises(func, {ArrayFromJSON(ty, R"(["99.99"])")},
+                "Rounding multiple must be non-null and valid", &options);
+  }
+  for (const auto& ty : {decimal128(2, -2), decimal256(2, -2)}) {
+    auto values = DecimalArrayFromJSON(
+        ty, R"(["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null])");
+    set_multiple(ty, 4);
+    CheckScalar(func, {values},
+                DecimalArrayFromJSON(
+                    ty, R"(["12E2", "12E2", "20E2", "-12E2", "-12E2", "-20E2", null])"),
+                &options);
+    set_multiple(ty, 1);
+    CheckScalar(func, {values}, values, &options);
+  }
+}
+
+TEST_F(TestUnaryRoundArithmeticDecimal, RoundToMultipleHalfToOdd) {
+  const auto func = "round_to_multiple";
+  RoundToMultipleOptions options(0, RoundMode::HALF_TO_ODD);
+  auto set_multiple = [&](const std::shared_ptr<DataType>& ty, int64_t value) {
+    if (ty->id() == Type::DECIMAL128) {
+      options.multiple = std::make_shared<Decimal128Scalar>(Decimal128(value), ty);
+    } else {
+      options.multiple = std::make_shared<Decimal256Scalar>(Decimal256(value), ty);
+    }
+  };
+  for (const auto& ty : {decimal128(4, 2), decimal256(4, 2)}) {
+    auto values =
+        ArrayFromJSON(ty, R"(["-0.38", "-0.37", "-0.25", "-0.13", "-0.12", "0.00",
+                "0.12", "0.13", "0.25", "0.37", "0.38", null])");
+    // There is no exact halfway point, check what happens
+    set_multiple(ty, 25);
+    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"), &options);
+    CheckScalar(func, {values},
+                ArrayFromJSON(ty, R"(["-0.50", "-0.25", "-0.25", "-0.25", "-0.00", "0.00",
+                              "0.00", "0.25", "0.25", "0.25", "0.50", null])"),
+                &options);
+    set_multiple(ty, 1);
+    CheckScalar(func, {values}, values, &options);
+    set_multiple(ty, 24);
+    CheckScalar(func, {ArrayFromJSON(ty, R"([])")}, ArrayFromJSON(ty, R"([])"), &options);
+    CheckScalar(func, {values},
+                ArrayFromJSON(ty, R"(["-0.48", "-0.48", "-0.24", "-0.24", "-0.24", "0.00",
+                              "0.24", "0.24", "0.24", "0.48", "0.48", null])"),
+                &options);
+    set_multiple(decimal128(3, 1), 1);
+    CheckScalar(
+        func, {values},
+        ArrayFromJSON(
+            ty,
+            R"(["-0.40", "-0.40", "-0.30", "-0.10", "-0.10", "0.00", "0.10", "0.10",
+                      "0.30", "0.40", "0.40", null])"),
+        &options);
+  }
+  for (const auto& ty : {decimal128(2, -2), decimal256(2, -2)}) {
+    auto values = DecimalArrayFromJSON(
+        ty, R"(["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null])");
+    set_multiple(ty, 4);
+    CheckScalar(func, {values},
+                DecimalArrayFromJSON(
+                    ty, R"(["12E2", "12E2", "20E2", "-12E2", "-12E2", "-20E2", null])"),
+                &options);
+    set_multiple(ty, 5);
+    CheckScalar(func, {values},
+                DecimalArrayFromJSON(
+                    ty, R"(["10E2", "10E2", "20E2", "-10E2", "-10E2", "-20E2", null])"),
+                &options);
+    set_multiple(ty, 1);
+    CheckScalar(func, {values}, values, &options);
+  }
+}
+
+TYPED_TEST_SUITE(TestUnaryRoundIntegral, IntegralTypes);
+TYPED_TEST_SUITE(TestUnaryRoundSigned, SignedIntegerTypes);
+TYPED_TEST_SUITE(TestUnaryRoundUnsigned, UnsignedIntegerTypes);
+TYPED_TEST_SUITE(TestUnaryRoundFloating, FloatingTypes);
+
+const std::vector<RoundMode> kRoundModes{
+    RoundMode::DOWN,
+    RoundMode::UP,
+    RoundMode::TOWARDS_ZERO,
+    RoundMode::TOWARDS_INFINITY,
+    RoundMode::HALF_DOWN,
+    RoundMode::HALF_UP,
+    RoundMode::HALF_TOWARDS_ZERO,
+    RoundMode::HALF_TOWARDS_INFINITY,
+    RoundMode::HALF_TO_EVEN,
+    RoundMode::HALF_TO_ODD,
+};
+
+TYPED_TEST(TestUnaryRoundSigned, Round) {
+  // Test different rounding modes for integer rounding
+  std::string values("[0, 1, -13, -50, 115]");
+  this->SetRoundNdigits(0);
+  for (const auto& round_mode : kRoundModes) {
+    this->SetRoundMode(round_mode);
+    this->AssertUnaryOp(Round, values, ArrayFromJSON(float64(), values));
+  }
+
+  // Test different round N-digits for nearest rounding mode
+  std::vector<std::pair<int64_t, std::string>> ndigits_and_expected{{
+      {-2, "[0.0, 0.0, -0.0, -100, 100]"},
+      {-1, "[0.0, 0.0, -10, -50, 120]"},
+      {0, values},
+      {1, values},
+      {2, values},
+  }};
+  this->SetRoundMode(RoundMode::HALF_TOWARDS_INFINITY);
+  for (const auto& pair : ndigits_and_expected) {
+    this->SetRoundNdigits(pair.first);
+    this->AssertUnaryOp(Round, values, ArrayFromJSON(float64(), pair.second));
+  }
+}
+
+TYPED_TEST(TestUnaryRoundUnsigned, Round) {
+  // Test different rounding modes for integer rounding
+  std::string values("[0, 1, 13, 50, 115]");
+  this->SetRoundNdigits(0);
+  for (const auto& round_mode : kRoundModes) {
+    this->SetRoundMode(round_mode);
+    this->AssertUnaryOp(Round, values, ArrayFromJSON(float64(), values));
+  }
+
+  // Test different round N-digits for nearest rounding mode
+  std::vector<std::pair<int64_t, std::string>> ndigits_and_expected{{
+      {-2, "[0, 0, 0, 100, 100]"},
+      {-1, "[0, 0, 10, 50, 120]"},
+      {0, values},
+      {1, values},
+      {2, values},
+  }};
+  this->SetRoundMode(RoundMode::HALF_TOWARDS_INFINITY);
+  for (const auto& pair : ndigits_and_expected) {
+    this->SetRoundNdigits(pair.first);
+    this->AssertUnaryOp(Round, values, ArrayFromJSON(float64(), pair.second));
+  }
+}
+
+TYPED_TEST(TestUnaryRoundFloating, Round) {
+  this->SetNansEqual(true);
+
+  // Test different rounding modes
+  std::string values("[3.2, 3.5, 3.7, 4.5, -3.2, -3.5, -3.7]");
+  std::vector<std::pair<RoundMode, std::string>> rmode_and_expected{{
+      {RoundMode::DOWN, "[3, 3, 3, 4, -4, -4, -4]"},
+      {RoundMode::UP, "[4, 4, 4, 5, -3, -3, -3]"},
+      {RoundMode::TOWARDS_ZERO, "[3, 3, 3, 4, -3, -3, -3]"},
+      {RoundMode::TOWARDS_INFINITY, "[4, 4, 4, 5, -4, -4, -4]"},
+      {RoundMode::HALF_DOWN, "[3, 3, 4, 4, -3, -4, -4]"},
+      {RoundMode::HALF_UP, "[3, 4, 4, 5, -3, -3, -4]"},
+      {RoundMode::HALF_TOWARDS_ZERO, "[3, 3, 4, 4, -3, -3, -4]"},
+      {RoundMode::HALF_TOWARDS_INFINITY, "[3, 4, 4, 5, -3, -4, -4]"},
+      {RoundMode::HALF_TO_EVEN, "[3, 4, 4, 4, -3, -4, -4]"},
+      {RoundMode::HALF_TO_ODD, "[3, 3, 4, 5, -3, -3, -4]"},
+  }};
+  this->SetRoundNdigits(0);
+  for (const auto& pair : rmode_and_expected) {
+    this->SetRoundMode(pair.first);
+    this->AssertUnaryOp(Round, "[]", "[]");
+    this->AssertUnaryOp(Round, "[null, 0, Inf, -Inf, NaN, -NaN]",
+                        "[null, 0, Inf, -Inf, NaN, -NaN]");
+    this->AssertUnaryOp(Round, values, pair.second);
+  }
+
+  // Test different round N-digits for nearest rounding mode
+  values = "[320, 3.5, 3.075, 4.5, -3.212, -35.1234, -3.045]";
+  std::vector<std::pair<int64_t, std::string>> ndigits_and_expected{{
+      {-2, "[300, 0.0, 0.0, 0.0, -0.0, -0.0, -0.0]"},
+      {-1, "[320, 0.0, 0.0, 0.0, -0.0, -40, -0.0]"},
+      {0, "[320, 4, 3, 5, -3, -35, -3]"},
+      {1, "[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3]"},
+      {2, "[320, 3.5, 3.08, 4.5, -3.21, -35.12, -3.05]"},
+  }};
+  this->SetRoundMode(RoundMode::HALF_TOWARDS_INFINITY);
+  for (const auto& pair : ndigits_and_expected) {
+    this->SetRoundNdigits(pair.first);
+    this->AssertUnaryOp(Round, values, pair.second);
+  }
+}
+
+TYPED_TEST_SUITE(TestUnaryRoundToMultipleIntegral, IntegralTypes);
+TYPED_TEST_SUITE(TestUnaryRoundToMultipleSigned, SignedIntegerTypes);
+TYPED_TEST_SUITE(TestUnaryRoundToMultipleUnsigned, UnsignedIntegerTypes);
+TYPED_TEST_SUITE(TestUnaryRoundToMultipleFloating, FloatingTypes);
+
+TYPED_TEST(TestUnaryRoundToMultipleSigned, RoundToMultiple) {
+  // Test different rounding modes for integer rounding
+  std::string values("[0, 1, -13, -50, 115]");
+  this->SetRoundMultiple(1);
+  for (const auto& round_mode : kRoundModes) {
+    this->SetRoundMode(round_mode);
+    this->AssertUnaryOp(RoundToMultiple, values, ArrayFromJSON(float64(), values));
+  }
+
+  // Test different round multiples for nearest rounding mode
+  std::vector<std::pair<double, std::string>> multiple_and_expected{{
+      {2, "[0.0, 2, -14, -50, 116]"},
+      {0.05, "[0.0, 1, -13, -50, 115]"},
+      {0.1, values},
+      {10, "[0.0, 0.0, -10, -50, 120]"},
+      {100, "[0.0, 0.0, -0.0, -100, 100]"},
+  }};
+  this->SetRoundMode(RoundMode::HALF_TOWARDS_INFINITY);
+  for (const auto& pair : multiple_and_expected) {
+    this->SetRoundMultiple(pair.first);
+    this->AssertUnaryOp(RoundToMultiple, values, ArrayFromJSON(float64(), pair.second));
+  }
+}
+
+TYPED_TEST(TestUnaryRoundToMultipleUnsigned, RoundToMultiple) {
+  // Test different rounding modes for integer rounding
+  std::string values("[0, 1, 13, 50, 115]");
+  this->SetRoundMultiple(1);
+  for (const auto& round_mode : kRoundModes) {
+    this->SetRoundMode(round_mode);
+    this->AssertUnaryOp(RoundToMultiple, values, ArrayFromJSON(float64(), values));
+  }
+
+  // Test different round multiples for nearest rounding mode
+  std::vector<std::pair<double, std::string>> multiple_and_expected{{
+      {0.05, "[0, 1, 13, 50, 115]"},
+      {0.1, values},
+      {2, "[0, 2, 14, 50, 116]"},
+      {10, "[0, 0, 10, 50, 120]"},
+      {100, "[0, 0, 0, 100, 100]"},
+  }};
+  this->SetRoundMode(RoundMode::HALF_TOWARDS_INFINITY);
+  for (const auto& pair : multiple_and_expected) {
+    this->SetRoundMultiple(pair.first);
+    this->AssertUnaryOp(RoundToMultiple, values, ArrayFromJSON(float64(), pair.second));
+  }
+}
+
+TYPED_TEST(TestUnaryRoundToMultipleFloating, RoundToMultiple) {
+  this->SetNansEqual(true);
+
+  // Test different rounding modes for integer rounding
+  std::string values("[3.2, 3.5, 3.7, 4.5, -3.2, -3.5, -3.7]");
+  std::vector<std::pair<RoundMode, std::string>> rmode_and_expected{{
+      {RoundMode::DOWN, "[3, 3, 3, 4, -4, -4, -4]"},
+      {RoundMode::UP, "[4, 4, 4, 5, -3, -3, -3]"},
+      {RoundMode::TOWARDS_ZERO, "[3, 3, 3, 4, -3, -3, -3]"},
+      {RoundMode::TOWARDS_INFINITY, "[4, 4, 4, 5, -4, -4, -4]"},
+      {RoundMode::HALF_DOWN, "[3, 3, 4, 4, -3, -4, -4]"},
+      {RoundMode::HALF_UP, "[3, 4, 4, 5, -3, -3, -4]"},
+      {RoundMode::HALF_TOWARDS_ZERO, "[3, 3, 4, 4, -3, -3, -4]"},
+      {RoundMode::HALF_TOWARDS_INFINITY, "[3, 4, 4, 5, -3, -4, -4]"},
+      {RoundMode::HALF_TO_EVEN, "[3, 4, 4, 4, -3, -4, -4]"},
+      {RoundMode::HALF_TO_ODD, "[3, 3, 4, 5, -3, -3, -4]"},
+  }};
+  this->SetRoundMultiple(1);
+  for (const auto& pair : rmode_and_expected) {
+    this->SetRoundMode(pair.first);
+    this->AssertUnaryOp(RoundToMultiple, "[]", "[]");
+    this->AssertUnaryOp(RoundToMultiple, "[null, 0, Inf, -Inf, NaN, -NaN]",
+                        "[null, 0, Inf, -Inf, NaN, -NaN]");
+    this->AssertUnaryOp(RoundToMultiple, values, pair.second);
+  }
+
+  // Test different round multiples for nearest rounding mode
+  values = "[320, 3.5, 3.075, 4.5, -3.212, -35.1234, -3.045]";
+  std::vector<std::pair<double, std::string>> multiple_and_expected{{
+      {0.05, "[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3.05]"},
+      {0.1, "[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3]"},
+      {2, "[320, 4, 4, 4, -4, -36, -4]"},
+      {10, "[320, 0.0, 0.0, 0.0, -0.0, -40, -0.0]"},
+      {100, "[300, 0.0, 0.0, 0.0, -0.0, -0.0, -0.0]"},
+  }};
+  this->SetRoundMode(RoundMode::HALF_TOWARDS_INFINITY);
+  for (const auto& pair : multiple_and_expected) {
+    this->SetRoundMultiple(pair.first);
+    this->AssertUnaryOp(RoundToMultiple, values, pair.second);
+  }
+
+  this->SetRoundMultiple(-2);
+  this->AssertUnaryOpRaises(RoundToMultiple, values,
+                            "Rounding multiple must be positive");
+}
+
+class TestBinaryRoundArithmeticDecimal : public TestRoundArithmeticDecimal {};
+
+TYPED_TEST(TestUnaryRoundArithmeticSigned, Floor) {
+  auto floor = [](const Datum& arg, const ArithmeticOptions&, ExecContext* ctx) {
+    return Floor(arg, ctx);
+  };
+
+  this->AssertUnaryOp(floor, "[]", ArrayFromJSON(float64(), "[]"));
+  this->AssertUnaryOp(floor, "[null]", ArrayFromJSON(float64(), "[null]"));
+  this->AssertUnaryOp(floor, "[1, null, -10]",
+                      ArrayFromJSON(float64(), "[1, null, -10]"));
+  this->AssertUnaryOp(floor, "[0]", ArrayFromJSON(float64(), "[0]"));
+  this->AssertUnaryOp(floor, "[1, 10, 127]", ArrayFromJSON(float64(), "[1, 10, 127]"));
+  this->AssertUnaryOp(floor, "[-1, -10, -127]",
+                      ArrayFromJSON(float64(), "[-1, -10, -127]"));
+}
+
+TYPED_TEST(TestUnaryRoundArithmeticUnsigned, Floor) {
+  auto floor = [](const Datum& arg, const ArithmeticOptions&, ExecContext* ctx) {
+    return Floor(arg, ctx);
+  };
+
+  this->AssertUnaryOp(floor, "[]", ArrayFromJSON(float64(), "[]"));
+  this->AssertUnaryOp(floor, "[null]", ArrayFromJSON(float64(), "[null]"));
+  this->AssertUnaryOp(floor, "[1, null, 10]", ArrayFromJSON(float64(), "[1, null, 10]"));
+  this->AssertUnaryOp(floor, "[0]", ArrayFromJSON(float64(), "[0]"));
+  this->AssertUnaryOp(floor, "[1, 10, 127]", ArrayFromJSON(float64(), "[1, 10, 127]"));
+}
+
+TYPED_TEST(TestUnaryRoundArithmeticFloating, Floor) {
+  using CType = typename TestFixture::CType;
+  auto min = std::numeric_limits<CType>::lowest();
+  auto max = std::numeric_limits<CType>::max();
+
+  this->SetNansEqual(true);
+
+  auto floor = [](const Datum& arg, const ArithmeticOptions&, ExecContext* ctx) {
+    return Floor(arg, ctx);
+  };
+
+  this->AssertUnaryOp(floor, "[]", "[]");
+  this->AssertUnaryOp(floor, "[null]", "[null]");
+  this->AssertUnaryOp(floor, "[1.3, null, -10.80]", "[1, null, -11]");
+  // XXX Python uses math.floor(-0.0) == 0.0, but std::floor() keeps the sign
+  this->AssertUnaryOp(floor, "[0.0, -0.0]", "[0.0, -0.0]");
+  this->AssertUnaryOp(floor, "[1.3, 10.80, 12748.001]", "[1, 10, 12748]");
+  this->AssertUnaryOp(floor, "[-1.3, -10.80, -12748.001]", "[-2, -11, -12749]");
+  this->AssertUnaryOp(floor, "[Inf, -Inf]", "[Inf, -Inf]");
+  this->AssertUnaryOp(floor, "[NaN]", "[NaN]");
+  this->AssertUnaryOp(floor, this->MakeScalar(min), this->MakeScalar(min));
+  this->AssertUnaryOp(floor, this->MakeScalar(max), this->MakeScalar(max));
+}
+
+TYPED_TEST(TestUnaryRoundArithmeticSigned, Ceil) {
+  auto ceil = [](const Datum& arg, const ArithmeticOptions&, ExecContext* ctx) {
+    return Ceil(arg, ctx);
+  };
+
+  this->AssertUnaryOp(ceil, "[]", ArrayFromJSON(float64(), "[]"));
+  this->AssertUnaryOp(ceil, "[null]", ArrayFromJSON(float64(), "[null]"));
+  this->AssertUnaryOp(ceil, "[1, null, -10]", ArrayFromJSON(float64(), "[1, null, -10]"));
+  this->AssertUnaryOp(ceil, "[0]", ArrayFromJSON(float64(), "[0]"));
+  this->AssertUnaryOp(ceil, "[1, 10, 127]", ArrayFromJSON(float64(), "[1, 10, 127]"));
+  this->AssertUnaryOp(ceil, "[-1, -10, -127]",
+                      ArrayFromJSON(float64(), "[-1, -10, -127]"));
+}
+
+TYPED_TEST(TestUnaryRoundArithmeticUnsigned, Ceil) {
+  auto ceil = [](const Datum& arg, const ArithmeticOptions&, ExecContext* ctx) {
+    return Ceil(arg, ctx);
+  };
+
+  this->AssertUnaryOp(ceil, "[]", ArrayFromJSON(float64(), "[]"));
+  this->AssertUnaryOp(ceil, "[null]", ArrayFromJSON(float64(), "[null]"));
+  this->AssertUnaryOp(ceil, "[1, null, 10]", ArrayFromJSON(float64(), "[1, null, 10]"));
+  this->AssertUnaryOp(ceil, "[0]", ArrayFromJSON(float64(), "[0]"));
+  this->AssertUnaryOp(ceil, "[1, 10, 127]", ArrayFromJSON(float64(), "[1, 10, 127]"));
+}
+
+TYPED_TEST(TestUnaryRoundArithmeticFloating, Ceil) {
+  using CType = typename TestFixture::CType;
+  auto min = std::numeric_limits<CType>::lowest();
+  auto max = std::numeric_limits<CType>::max();
+
+  this->SetNansEqual(true);
+
+  auto ceil = [](const Datum& arg, const ArithmeticOptions&, ExecContext* ctx) {
+    return Ceil(arg, ctx);
+  };
+
+  this->AssertUnaryOp(ceil, "[]", "[]");
+  this->AssertUnaryOp(ceil, "[null]", "[null]");
+  this->AssertUnaryOp(ceil, "[1.3, null, -10.80]", "[2, null, -10]");
+  // XXX same comment as Floor above
+  this->AssertUnaryOp(ceil, "[0.0, -0.0]", "[0.0, -0.0]");
+  this->AssertUnaryOp(ceil, "[1.3, 10.80, 12748.001]", "[2, 11, 12749]");
+  this->AssertUnaryOp(ceil, "[-1.3, -10.80, -12748.001]", "[-1, -10, -12748]");
+  this->AssertUnaryOp(ceil, "[Inf, -Inf]", "[Inf, -Inf]");
+  this->AssertUnaryOp(ceil, "[NaN]", "[NaN]");
+  this->AssertUnaryOp(ceil, this->MakeScalar(min), this->MakeScalar(min));
+  this->AssertUnaryOp(ceil, this->MakeScalar(max), this->MakeScalar(max));
+}
+
+TYPED_TEST(TestUnaryRoundArithmeticSigned, Trunc) {
+  auto trunc = [](const Datum& arg, const ArithmeticOptions&, ExecContext* ctx) {
+    return Trunc(arg, ctx);
+  };
+
+  this->AssertUnaryOp(trunc, "[]", ArrayFromJSON(float64(), "[]"));
+  this->AssertUnaryOp(trunc, "[null]", ArrayFromJSON(float64(), "[null]"));
+  this->AssertUnaryOp(trunc, "[1, null, -10]",
+                      ArrayFromJSON(float64(), "[1, null, -10]"));
+  this->AssertUnaryOp(trunc, "[0]", ArrayFromJSON(float64(), "[0]"));
+  this->AssertUnaryOp(trunc, "[1, 10, 127]", ArrayFromJSON(float64(), "[1, 10, 127]"));
+  this->AssertUnaryOp(trunc, "[-1, -10, -127]",
+                      ArrayFromJSON(float64(), "[-1, -10, -127]"));
+}
+
+TYPED_TEST(TestUnaryRoundArithmeticUnsigned, Trunc) {
+  auto trunc = [](const Datum& arg, const ArithmeticOptions&, ExecContext* ctx) {
+    return Trunc(arg, ctx);
+  };
+
+  this->AssertUnaryOp(trunc, "[]", ArrayFromJSON(float64(), "[]"));
+  this->AssertUnaryOp(trunc, "[null]", ArrayFromJSON(float64(), "[null]"));
+  this->AssertUnaryOp(trunc, "[1, null, 10]", ArrayFromJSON(float64(), "[1, null, 10]"));
+  this->AssertUnaryOp(trunc, "[0]", ArrayFromJSON(float64(), "[0]"));
+  this->AssertUnaryOp(trunc, "[1, 10, 127]", ArrayFromJSON(float64(), "[1, 10, 127]"));
+}
+
+TYPED_TEST(TestUnaryRoundArithmeticFloating, Trunc) {
+  using CType = typename TestFixture::CType;
+  auto min = std::numeric_limits<CType>::lowest();
+  auto max = std::numeric_limits<CType>::max();
+
+  this->SetNansEqual(true);
+
+  auto trunc = [](const Datum& arg, const ArithmeticOptions&, ExecContext* ctx) {
+    return Trunc(arg, ctx);
+  };
+
+  this->AssertUnaryOp(trunc, "[]", "[]");
+  this->AssertUnaryOp(trunc, "[null]", "[null]");
+  this->AssertUnaryOp(trunc, "[1.3, null, -10.80]", "[1, null, -10]");
+  // XXX same comment as Floor above
+  this->AssertUnaryOp(trunc, "[0.0, -0.0]", "[0.0, -0.0]");
+  this->AssertUnaryOp(trunc, "[1.3, 10.80, 12748.001]", "[1, 10, 12748]");
+  this->AssertUnaryOp(trunc, "[-1.3, -10.80, -12748.001]", "[-1, -10, -12748]");
+  this->AssertUnaryOp(trunc, "[Inf, -Inf]", "[Inf, -Inf]");
+  this->AssertUnaryOp(trunc, "[NaN]", "[NaN]");
+  this->AssertUnaryOp(trunc, this->MakeScalar(min), this->MakeScalar(min));
+  this->AssertUnaryOp(trunc, this->MakeScalar(max), this->MakeScalar(max));
+}
+
+}  // namespace
+}  // namespace compute
+}  // namespace arrow
diff --git a/cpp/src/arrow/compute/kernels/scalar_round_benchmark.cc b/cpp/src/arrow/compute/kernels/scalar_round_benchmark.cc
new file mode 100644
index 00000000000..dd9ba04a0ee
--- /dev/null
+++ b/cpp/src/arrow/compute/kernels/scalar_round_benchmark.cc
@@ -0,0 +1,120 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "benchmark/benchmark.h"
+
+#include <vector>
+
+#include "arrow/compute/api_scalar.h"
+#include "arrow/compute/kernels/test_util.h"
+#include "arrow/testing/gtest_util.h"
+#include "arrow/testing/random.h"
+#include "arrow/util/benchmark_util.h"
+
+namespace arrow {
+namespace compute {
+
+// Use a fixed hash to ensure consistent results from run to run.
+constexpr auto kSeed = 0x94378165;
+
+template <typename ArrowType, RoundMode Mode, typename CType = typename ArrowType::c_type>
+static void RoundArrayBenchmark(benchmark::State& state, const std::string& func_name) {
+  RegressionArgs args(state);
+
+  const int64_t array_size = args.size / sizeof(CType);
+  auto rand = random::RandomArrayGenerator(kSeed);
+
+  // Choose values so as to avoid overflow on all ops and types.
+  auto min = static_cast<CType>(6);
+  auto max = static_cast<CType>(min + 15);
+  auto val = std::static_pointer_cast<NumericArray<ArrowType>>(
+      rand.Numeric<ArrowType>(array_size, min, max, args.null_proportion));
+  RoundOptions options;
+  options.round_mode = static_cast<RoundMode>(Mode);
+
+  for (auto _ : state) {
+    ABORT_NOT_OK(CallFunction(func_name, {val}, &options));
+  }
+  state.SetItemsProcessed(state.iterations() * array_size);
+}
+
+void SetRoundArgs(benchmark::internal::Benchmark* bench) {
+  bench->ArgNames({"size", "inverse_null_proportion"});
+
+  for (const auto inverse_null_proportion : std::vector<ArgsType>({100, 0})) {
+    bench->Args({static_cast<ArgsType>(kL2Size), inverse_null_proportion});
+  }
+}
+
+template <typename ArrowType, RoundMode Mode>
+static void Ceil(benchmark::State& state) {
+  RoundArrayBenchmark<ArrowType, Mode>(state, "ceil");
+}
+
+template <typename ArrowType, RoundMode Mode>
+static void Floor(benchmark::State& state) {
+  RoundArrayBenchmark<ArrowType, Mode>(state, "floor");
+}
+
+template <typename ArrowType, RoundMode Mode>
+static void Round(benchmark::State& state) {
+  RoundArrayBenchmark<ArrowType, Mode>(state, "round");
+}
+
+template <typename ArrowType, RoundMode Mode>
+static void Trunc(benchmark::State& state) {
+  RoundArrayBenchmark<ArrowType, Mode>(state, "trunc");
+}
+
+#ifdef ALL_ROUND_BENCHMARKS
+#define DECLARE_ROUND_BENCHMARKS_WITH_ROUNDMODE(OP, TYPE)                              \
+  BENCHMARK_TEMPLATE(OP, TYPE, RoundMode::DOWN)->Apply(SetRoundArgs);                  \
+  BENCHMARK_TEMPLATE(OP, TYPE, RoundMode::UP)->Apply(SetRoundArgs);                    \
+  BENCHMARK_TEMPLATE(OP, TYPE, RoundMode::TOWARDS_ZERO)->Apply(SetRoundArgs);          \
+  BENCHMARK_TEMPLATE(OP, TYPE, RoundMode::TOWARDS_INFINITY)->Apply(SetRoundArgs);      \
+  BENCHMARK_TEMPLATE(OP, TYPE, RoundMode::HALF_DOWN)->Apply(SetRoundArgs);             \
+  BENCHMARK_TEMPLATE(OP, TYPE, RoundMode::HALF_UP)->Apply(SetRoundArgs);               \
+  BENCHMARK_TEMPLATE(OP, TYPE, RoundMode::HALF_TOWARDS_ZERO)->Apply(SetRoundArgs);     \
+  BENCHMARK_TEMPLATE(OP, TYPE, RoundMode::HALF_TOWARDS_INFINITY)->Apply(SetRoundArgs); \
+  BENCHMARK_TEMPLATE(OP, TYPE, RoundMode::HALF_TO_EVEN)->Apply(SetRoundArgs);          \
+  BENCHMARK_TEMPLATE(OP, TYPE, RoundMode::HALF_TO_ODD)->Apply(SetRoundArgs)
+#else
+#define DECLARE_ROUND_BENCHMARKS_WITH_ROUNDMODE(OP, TYPE)                          \
+  BENCHMARK_TEMPLATE(OP, TYPE, RoundMode::DOWN)->Apply(SetRoundArgs);              \
+  BENCHMARK_TEMPLATE(OP, TYPE, RoundMode::HALF_TOWARDS_ZERO)->Apply(SetRoundArgs); \
+  BENCHMARK_TEMPLATE(OP, TYPE, RoundMode::HALF_TO_ODD)->Apply(SetRoundArgs)
+#endif
+
+#define DECLARE_ROUND_BENCHMARKS(OP)                       \
+  DECLARE_ROUND_BENCHMARKS_WITH_ROUNDMODE(OP, Int64Type);  \
+  DECLARE_ROUND_BENCHMARKS_WITH_ROUNDMODE(OP, Int32Type);  \
+  DECLARE_ROUND_BENCHMARKS_WITH_ROUNDMODE(OP, Int16Type);  \
+  DECLARE_ROUND_BENCHMARKS_WITH_ROUNDMODE(OP, Int8Type);   \
+  DECLARE_ROUND_BENCHMARKS_WITH_ROUNDMODE(OP, UInt64Type); \
+  DECLARE_ROUND_BENCHMARKS_WITH_ROUNDMODE(OP, UInt32Type); \
+  DECLARE_ROUND_BENCHMARKS_WITH_ROUNDMODE(OP, UInt16Type); \
+  DECLARE_ROUND_BENCHMARKS_WITH_ROUNDMODE(OP, UInt8Type);  \
+  DECLARE_ROUND_BENCHMARKS_WITH_ROUNDMODE(OP, FloatType);  \
+  DECLARE_ROUND_BENCHMARKS_WITH_ROUNDMODE(OP, DoubleType);
+
+DECLARE_ROUND_BENCHMARKS(Ceil);
+DECLARE_ROUND_BENCHMARKS(Floor);
+DECLARE_ROUND_BENCHMARKS(Round);
+DECLARE_ROUND_BENCHMARKS(Trunc);
+
+}  // namespace compute
+}  // namespace arrow
diff --git a/cpp/src/arrow/compute/kernels/scalar_set_lookup.cc b/cpp/src/arrow/compute/kernels/scalar_set_lookup.cc
index 7a0834058f0..292a924233b 100644
--- a/cpp/src/arrow/compute/kernels/scalar_set_lookup.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_set_lookup.cc
@@ -67,8 +67,11 @@ struct SetLookupState : public KernelState {
     auto visit_valid = [&](T v) {
       const auto memo_size = static_cast<int32_t>(memo_index_to_value_index.size());
       int32_t unused_memo_index;
-      auto on_found = [&](int32_t memo_index) { DCHECK_LT(memo_index, memo_size); };
-      auto on_not_found = [&](int32_t memo_index) {
+      // (capture `memo_size` by value because of ARROW-17567)
+      auto on_found = [&, memo_size](int32_t memo_index) {
+        DCHECK_LT(memo_index, memo_size);
+      };
+      auto on_not_found = [&, memo_size](int32_t memo_index) {
         DCHECK_EQ(memo_index, memo_size);
         memo_index_to_value_index.push_back(index);
       };
@@ -79,8 +82,10 @@ struct SetLookupState : public KernelState {
     };
     auto visit_null = [&]() {
       const auto memo_size = static_cast<int32_t>(memo_index_to_value_index.size());
-      auto on_found = [&](int32_t memo_index) { DCHECK_LT(memo_index, memo_size); };
-      auto on_not_found = [&](int32_t memo_index) {
+      auto on_found = [&, memo_size](int32_t memo_index) {
+        DCHECK_LT(memo_index, memo_size);
+      };
+      auto on_not_found = [&, memo_size](int32_t memo_index) {
         DCHECK_EQ(memo_index, memo_size);
         memo_index_to_value_index.push_back(index);
       };
diff --git a/cpp/src/arrow/compute/kernels/scalar_set_lookup_test.cc b/cpp/src/arrow/compute/kernels/scalar_set_lookup_test.cc
index 86b7a5597a0..9d8e33b1d04 100644
--- a/cpp/src/arrow/compute/kernels/scalar_set_lookup_test.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_set_lookup_test.cc
@@ -818,7 +818,7 @@ TEST_F(TestIndexInKernel, BinaryResizeTable) {
     char buf[kBufSize] = "test";
     ASSERT_GE(snprintf(buf + 4, sizeof(buf) - 4, "%d", index), 0);
 
-    input_builder.UnsafeAppend(util::string_view(buf));
+    input_builder.UnsafeAppend(std::string_view(buf));
     expected_builder.UnsafeAppend(index);
   }
 
diff --git a/cpp/src/arrow/compute/kernels/scalar_string_ascii.cc b/cpp/src/arrow/compute/kernels/scalar_string_ascii.cc
index c362cfa8d99..d3d0ac32010 100644
--- a/cpp/src/arrow/compute/kernels/scalar_string_ascii.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_string_ascii.cc
@@ -26,9 +26,14 @@
 
 #include "arrow/array/builder_nested.h"
 #include "arrow/compute/kernels/scalar_string_internal.h"
+#include "arrow/util/string.h"
 #include "arrow/util/value_parsing.h"
 
 namespace arrow {
+
+using internal::EndsWith;
+using internal::StartsWith;
+
 namespace compute {
 namespace internal {
 
@@ -38,11 +43,11 @@ namespace {
 // re2 utilities
 
 #ifdef ARROW_WITH_RE2
-util::string_view ToStringView(re2::StringPiece piece) {
+std::string_view ToStringView(re2::StringPiece piece) {
   return {piece.data(), piece.length()};
 }
 
-re2::StringPiece ToStringPiece(util::string_view view) {
+re2::StringPiece ToStringPiece(std::string_view view) {
   return {view.data(), view.length()};
 }
 
@@ -261,7 +266,7 @@ struct StringBinaryTransformExecBase {
     // Apply transform
     RETURN_NOT_OK(VisitArraySpanInline<Type1>(
         data1,
-        [&](util::string_view input_string_view) {
+        [&](std::string_view input_string_view) {
           auto input_ncodeunits = static_cast<offset_type>(input_string_view.length());
           auto input_string = reinterpret_cast<const uint8_t*>(input_string_view.data());
           ARROW_ASSIGN_OR_RAISE(
@@ -844,7 +849,7 @@ void AddAsciiStringCaseConversion(FunctionRegistry* registry) {
 // Binary string length
 
 struct BinaryLength {
-  template <typename OutValue, typename Arg0Value = util::string_view>
+  template <typename OutValue, typename Arg0Value = std::string_view>
   static OutValue Call(KernelContext*, Arg0Value val, Status*) {
     return static_cast<OutValue>(val.size());
   }
@@ -1217,7 +1222,7 @@ struct PlainSubstringMatcher {
       const MatchSubstringOptions& options) {
     // Should be handled by partial template specialization below
     DCHECK(!options.ignore_case);
-    return ::arrow::internal::make_unique<PlainSubstringMatcher>(options);
+    return std::make_unique<PlainSubstringMatcher>(options);
   }
 
   explicit PlainSubstringMatcher(const MatchSubstringOptions& options)
@@ -1238,7 +1243,7 @@ struct PlainSubstringMatcher {
     }
   }
 
-  int64_t Find(util::string_view current) const {
+  int64_t Find(std::string_view current) const {
     // Phase 2: Find the prefix in the data
     const auto pattern_length = options_.pattern.size();
     int64_t pattern_pos = 0;
@@ -1257,7 +1262,7 @@ struct PlainSubstringMatcher {
     return -1;
   }
 
-  bool Match(util::string_view current) const { return Find(current) >= 0; }
+  bool Match(std::string_view current) const { return Find(current) >= 0; }
 };
 
 struct PlainStartsWithMatcher {
@@ -1270,12 +1275,11 @@ struct PlainStartsWithMatcher {
       const MatchSubstringOptions& options) {
     // Should be handled by partial template specialization below
     DCHECK(!options.ignore_case);
-    return ::arrow::internal::make_unique<PlainStartsWithMatcher>(options);
+    return std::make_unique<PlainStartsWithMatcher>(options);
   }
 
-  bool Match(util::string_view current) const {
-    // string_view::starts_with is C++20
-    return current.substr(0, options_.pattern.size()) == options_.pattern;
+  bool Match(std::string_view current) const {
+    return StartsWith(current, options_.pattern);
   }
 };
 
@@ -1289,14 +1293,11 @@ struct PlainEndsWithMatcher {
       const MatchSubstringOptions& options) {
     // Should be handled by partial template specialization below
     DCHECK(!options.ignore_case);
-    return ::arrow::internal::make_unique<PlainEndsWithMatcher>(options);
+    return std::make_unique<PlainEndsWithMatcher>(options);
   }
 
-  bool Match(util::string_view current) const {
-    // string_view::ends_with is C++20
-    return current.size() >= options_.pattern.size() &&
-           current.substr(current.size() - options_.pattern.size(),
-                          options_.pattern.size()) == options_.pattern;
+  bool Match(std::string_view current) const {
+    return EndsWith(current, options_.pattern);
   }
 };
 
@@ -1307,8 +1308,7 @@ struct RegexSubstringMatcher {
 
   static Result<std::unique_ptr<RegexSubstringMatcher>> Make(
       const MatchSubstringOptions& options, bool is_utf8 = true, bool literal = false) {
-    auto matcher =
-        ::arrow::internal::make_unique<RegexSubstringMatcher>(options, is_utf8, literal);
+    auto matcher = std::make_unique<RegexSubstringMatcher>(options, is_utf8, literal);
     RETURN_NOT_OK(RegexStatus(matcher->regex_match_));
     return std::move(matcher);
   }
@@ -1319,7 +1319,7 @@ struct RegexSubstringMatcher {
         regex_match_(options_.pattern,
                      MakeRE2Options(is_utf8, options.ignore_case, literal)) {}
 
-  bool Match(util::string_view current) const {
+  bool Match(std::string_view current) const {
     auto piece = re2::StringPiece(current.data(), current.length());
     return RE2::PartialMatch(piece, regex_match_);
   }
@@ -1341,7 +1341,7 @@ struct MatchSubstringImpl {
           for (int64_t i = 0; i < length; ++i) {
             const char* current_data = reinterpret_cast<const char*>(data + offsets[i]);
             int64_t current_length = offsets[i + 1] - offsets[i];
-            if (matcher->Match(util::string_view(current_data, current_length))) {
+            if (matcher->Match(std::string_view(current_data, current_length))) {
               bitmap_writer.Set();
             }
             bitmap_writer.Next();
@@ -1660,7 +1660,7 @@ struct FindSubstring {
   explicit FindSubstring(PlainSubstringMatcher matcher) : matcher_(std::move(matcher)) {}
 
   template <typename OutValue, typename... Ignored>
-  OutValue Call(KernelContext*, util::string_view val, Status*) const {
+  OutValue Call(KernelContext*, std::string_view val, Status*) const {
     return static_cast<OutValue>(matcher_.Find(val));
   }
 };
@@ -1680,7 +1680,7 @@ struct FindSubstringRegex {
   }
 
   template <typename OutValue, typename... Ignored>
-  OutValue Call(KernelContext*, util::string_view val, Status*) const {
+  OutValue Call(KernelContext*, std::string_view val, Status*) const {
     re2::StringPiece piece(val.data(), val.length());
     re2::StringPiece match;
     if (RE2::PartialMatch(piece, *regex_match_, &match)) {
@@ -1781,7 +1781,7 @@ struct CountSubstring {
   explicit CountSubstring(PlainSubstringMatcher matcher) : matcher_(std::move(matcher)) {}
 
   template <typename OutValue, typename... Ignored>
-  OutValue Call(KernelContext*, util::string_view val, Status*) const {
+  OutValue Call(KernelContext*, std::string_view val, Status*) const {
     OutValue count = 0;
     uint64_t start = 0;
     const auto pattern_size = std::max<uint64_t>(1, matcher_.options_.pattern.size());
@@ -1815,7 +1815,7 @@ struct CountSubstringRegex {
   }
 
   template <typename OutValue, typename... Ignored>
-  OutValue Call(KernelContext*, util::string_view val, Status*) const {
+  OutValue Call(KernelContext*, std::string_view val, Status*) const {
     OutValue count = 0;
     re2::StringPiece input(val.data(), val.size());
     auto last_size = input.size();
@@ -1950,7 +1950,7 @@ struct ReplaceSubstring {
 
     RETURN_NOT_OK(VisitArraySpanInline<Type>(
         batch[0].array,
-        [&](util::string_view s) {
+        [&](std::string_view s) {
           RETURN_NOT_OK(replacer.ReplaceString(s, &value_data_builder));
           offset_builder.UnsafeAppend(
               static_cast<offset_type>(value_data_builder.length()));
@@ -1973,15 +1973,19 @@ struct PlainSubstringReplacer {
 
   static Result<std::unique_ptr<PlainSubstringReplacer>> Make(
       const ReplaceSubstringOptions& options) {
-    return arrow::internal::make_unique<PlainSubstringReplacer>(options);
+    return std::make_unique<PlainSubstringReplacer>(options);
   }
 
   explicit PlainSubstringReplacer(const ReplaceSubstringOptions& options)
       : options_(options) {}
 
-  Status ReplaceString(util::string_view s, TypedBufferBuilder<uint8_t>* builder) const {
-    const char* i = s.begin();
-    const char* end = s.end();
+  Status ReplaceString(std::string_view s, TypedBufferBuilder<uint8_t>* builder) const {
+    if (s.empty()) {
+      // Special-case empty input as s.data() may not be a valid pointer
+      return Status::OK();
+    }
+    const char* i = s.data();
+    const char* end = s.data() + s.length();
     int64_t max_replacements = options_.max_replacements;
     while ((i < end) && (max_replacements != 0)) {
       const char* pos =
@@ -2018,7 +2022,7 @@ struct RegexSubstringReplacer {
 
   static Result<std::unique_ptr<RegexSubstringReplacer>> Make(
       const ReplaceSubstringOptions& options) {
-    auto replacer = arrow::internal::make_unique<RegexSubstringReplacer>(options);
+    auto replacer = std::make_unique<RegexSubstringReplacer>(options);
 
     RETURN_NOT_OK(RegexStatus(replacer->regex_find_));
     RETURN_NOT_OK(RegexStatus(replacer->regex_replacement_));
@@ -2040,11 +2044,12 @@ struct RegexSubstringReplacer {
         regex_find_("(" + options_.pattern + ")", MakeRE2Options<Type>()),
         regex_replacement_(options_.pattern, MakeRE2Options<Type>()) {}
 
-  Status ReplaceString(util::string_view s, TypedBufferBuilder<uint8_t>* builder) const {
+  Status ReplaceString(std::string_view s, TypedBufferBuilder<uint8_t>* builder) const {
     re2::StringPiece replacement(options_.replacement);
 
-    if (options_.max_replacements == -1) {
-      std::string s_copy(s.to_string());
+    // If s is empty, then it's essentially global
+    if (options_.max_replacements == -1 || s.empty()) {
+      std::string s_copy(s);
       RE2::GlobalReplace(&s_copy, regex_replacement_, replacement);
       return builder->Append(reinterpret_cast<const uint8_t*>(s_copy.data()),
                              s_copy.length());
@@ -2053,8 +2058,8 @@ struct RegexSubstringReplacer {
     // Since RE2 does not have the concept of max_replacements, we have to do some work
     // ourselves.
     // We might do this faster similar to RE2::GlobalReplace using Match and Rewrite
-    const char* i = s.begin();
-    const char* end = s.end();
+    const char* i = s.data();
+    const char* end = s.data() + s.length();
     re2::StringPiece piece(s.data(), s.length());
 
     int64_t max_replacements = options_.max_replacements;
@@ -2228,7 +2233,7 @@ struct ExtractRegexBase {
     args_pointers_start = (group_count > 0) ? args_pointers.data() : &null_arg;
   }
 
-  bool Match(util::string_view s) {
+  bool Match(std::string_view s) {
     return RE2::PartialMatchN(ToStringPiece(s), *data.regex, args_pointers_start,
                               group_count);
   }
@@ -2266,7 +2271,7 @@ struct ExtractRegex : public ExtractRegexBase {
     }
 
     auto visit_null = [&]() { return struct_builder->AppendNull(); };
-    auto visit_value = [&](util::string_view s) {
+    auto visit_value = [&](std::string_view s) {
       if (Match(s)) {
         for (int i = 0; i < group_count; i++) {
           RETURN_NOT_OK(field_builders[i]->Append(ToStringView(found_values[i])));
@@ -2401,6 +2406,172 @@ void AddAsciiStringReplaceSlice(FunctionRegistry* registry) {
   DCHECK_OK(registry->AddFunction(std::move(func)));
 }
 
+// ----------------------------------------------------------------------
+// Slice
+
+namespace {
+struct SliceBytesTransform : StringSliceTransformBase {
+  int64_t MaxCodeunits(int64_t ninputs, int64_t input_bytes) override {
+    const SliceOptions& opt = *this->options;
+    if ((opt.start >= 0) != (opt.stop >= 0)) {
+      // If start and stop don't have the same sign, we can't guess an upper bound
+      // on the resulting slice lengths, so return a worst case estimate.
+      return input_bytes;
+    }
+    int64_t max_slice_bytes = (opt.stop - opt.start + opt.step - 1) / opt.step;
+    return std::min(input_bytes, ninputs * std::max<int64_t>(0, max_slice_bytes));
+  }
+
+  int64_t Transform(const uint8_t* input, int64_t input_string_bytes, uint8_t* output) {
+    if (options->step >= 1) {
+      return SliceForward(input, input_string_bytes, output);
+    }
+    return SliceBackward(input, input_string_bytes, output);
+  }
+
+  int64_t SliceForward(const uint8_t* input, int64_t input_string_bytes,
+                       uint8_t* output) {
+    // Slice in forward order (step > 0)
+    const SliceOptions& opt = *this->options;
+    const uint8_t* begin = input;
+    const uint8_t* end = input + input_string_bytes;
+    const uint8_t* begin_sliced;
+    const uint8_t* end_sliced;
+
+    if (!input_string_bytes) {
+      return 0;
+    }
+    // First, compute begin_sliced and end_sliced
+    if (opt.start >= 0) {
+      // start counting from the left
+      begin_sliced = std::min(begin + opt.start, end);
+      if (opt.stop > opt.start) {
+        // continue counting from begin_sliced
+        const int64_t length = opt.stop - opt.start;
+        end_sliced = std::min(begin_sliced + length, end);
+      } else if (opt.stop < 0) {
+        // from the end
+        end_sliced = std::max(end + opt.stop, begin_sliced);
+      } else {
+        // zero length slice
+        return 0;
+      }
+    } else {
+      // start counting from the right
+      begin_sliced = std::max(end + opt.start, begin);
+      if (opt.stop > 0) {
+        // continue counting from the left, we cannot start from begin_sliced because we
+        // don't know how many bytes are between begin and begin_sliced
+        end_sliced = std::min(begin + opt.stop, end);
+        // and therefore we also need this
+        if (end_sliced <= begin_sliced) {
+          // zero length slice
+          return 0;
+        }
+      } else if ((opt.stop < 0) && (opt.stop > opt.start)) {
+        // stop is negative, but larger than start, so we count again from the right
+        // in some cases we can optimize this, depending on the shortest path (from end
+        // or begin_sliced), but begin_sliced and opt.start can be 'out of sync',
+        // for instance when start=-100, when the string length is only 10.
+        end_sliced = std::max(end + opt.stop, begin_sliced);
+      } else {
+        // zero length slice
+        return 0;
+      }
+    }
+
+    // Second, copy computed slice to output
+    DCHECK(begin_sliced <= end_sliced);
+    if (opt.step == 1) {
+      // fast case, where we simply can finish with a memcpy
+      std::copy(begin_sliced, end_sliced, output);
+      return end_sliced - begin_sliced;
+    }
+
+    uint8_t* dest = output;
+    const uint8_t* i = begin_sliced;
+
+    while (i < end_sliced) {
+      *dest = *i;
+      // skip step codeunits
+      i += opt.step;
+      dest++;
+    }
+    return dest - output;
+  }
+
+  int64_t SliceBackward(const uint8_t* input, int64_t input_string_bytes,
+                        uint8_t* output) {
+    // Slice in reverse order (step < 0)
+    const SliceOptions& opt = *this->options;
+    const uint8_t* begin = input;
+    const uint8_t* end = input + input_string_bytes;
+    const uint8_t* begin_sliced = begin;
+    const uint8_t* end_sliced = end;
+
+    if (!input_string_bytes) {
+      return 0;
+    }
+
+    if (opt.start >= 0) {
+      // +1 because begin_sliced acts as as the end of a reverse iterator
+      begin_sliced = std::min(begin + opt.start + 1, end);
+    } else {
+      // -1 because start=-1 means the last byte, which is 0 advances
+      begin_sliced = std::max(end + opt.start + 1, begin);
+    }
+    begin_sliced--;
+
+    // similar to opt.start
+    if (opt.stop >= 0) {
+      end_sliced = std::min(begin + opt.stop + 1, end);
+    } else {
+      end_sliced = std::max(end + opt.stop + 1, begin);
+    }
+    end_sliced--;
+
+    // Copy computed slice to output
+    uint8_t* dest = output;
+    const uint8_t* i = begin_sliced;
+    while (i > end_sliced) {
+      // write a single codepoint
+      *dest = *i;
+      // and skip the remainder
+      i += opt.step;
+      dest++;
+    }
+
+    return dest - output;
+  }
+};
+
+template <typename Type>
+using SliceBytes = StringTransformExec<Type, SliceBytesTransform>;
+
+}  // namespace
+
+const FunctionDoc binary_slice_doc(
+    "Slice binary string",
+    ("For each binary string in `strings`, emit the substring defined by\n"
+     "(`start`, `stop`, `step`) as given by `SliceOptions` where `start` is\n"
+     "inclusive and `stop` is exclusive. All three values are measured in\n"
+     "bytes.\n"
+     "If `step` is negative, the string will be advanced in reversed order.\n"
+     "An error is raised if `step` is zero.\n"
+     "Null inputs emit null."),
+    {"strings"}, "SliceOptions", /*options_required=*/true);
+
+void AddAsciiStringSlice(FunctionRegistry* registry) {
+  auto func =
+      std::make_shared<ScalarFunction>("binary_slice", Arity::Unary(), binary_slice_doc);
+  for (const auto& ty : BinaryTypes()) {
+    auto exec = GenerateVarBinaryToVarBinary<SliceBytes>(ty);
+    DCHECK_OK(
+        func->AddKernel({ty}, ty, std::move(exec), SliceBytesTransform::State::Init));
+  }
+  DCHECK_OK(registry->AddFunction(std::move(func)));
+}
+
 // ----------------------------------------------------------------------
 // Split by pattern
 
@@ -2572,7 +2743,7 @@ struct SplitRegexFinder : public StringSplitFinderBase<SplitPatternOptions> {
     pattern.reserve(options.pattern.size() + 2);
     pattern += options.pattern;
     pattern += ')';
-    regex_split = arrow::internal::make_unique<RE2>(pattern, MakeRE2Options<Type>());
+    regex_split = std::make_unique<RE2>(pattern, MakeRE2Options<Type>());
     return RegexStatus(*regex_split);
   }
 
@@ -2669,17 +2840,17 @@ struct BinaryJoin {
   };
 
   struct SeparatorScalarLookup {
-    const util::string_view separator;
+    const std::string_view separator;
 
     bool IsNull(int64_t i) { return false; }
-    util::string_view GetView(int64_t i) { return separator; }
+    std::string_view GetView(int64_t i) { return separator; }
   };
 
   struct SeparatorArrayLookup {
     const ArrayType& separators;
 
     bool IsNull(int64_t i) { return separators.IsNull(i); }
-    util::string_view GetView(int64_t i) { return separators.GetView(i); }
+    std::string_view GetView(int64_t i) { return separators.GetView(i); }
   };
 
   // Scalar, array -> array
@@ -2742,7 +2913,7 @@ struct BinaryJoin {
       return Status::OK();
     }
 
-    util::string_view separator(*separator_scalar.value);
+    std::string_view separator(*separator_scalar.value);
     const auto& strings = checked_cast<const ArrayType&>(*lists.values());
     const auto list_offsets = lists.raw_value_offsets();
 
@@ -2795,7 +2966,7 @@ struct BinaryJoin {
       const ArrayType& separators;
 
       bool IsNull(int64_t i) { return separators.IsNull(i); }
-      util::string_view GetView(int64_t i) { return separators.GetView(i); }
+      std::string_view GetView(int64_t i) { return separators.GetView(i); }
     };
     return JoinStrings(lists.length(), strings, ListArrayOffsetLookup{lists},
                        SeparatorArrayLookup{separators}, &builder, out);
@@ -2868,7 +3039,7 @@ struct BinaryJoinElementWise {
     RETURN_NOT_OK(builder.Reserve(batch.length));
     RETURN_NOT_OK(builder.ReserveData(final_size));
 
-    std::vector<util::string_view> valid_cols(batch.num_values());
+    std::vector<std::string_view> valid_cols(batch.num_values());
     for (int64_t row = 0; row < batch.length; row++) {
       int num_valid = 0;  // Not counting separator
       for (int col = 0; col < batch.num_values(); col++) {
@@ -2878,7 +3049,7 @@ struct BinaryJoinElementWise {
             valid_cols[col] = UnboxScalar<Type>::Unbox(scalar);
             if (col < batch.num_values() - 1) num_valid++;
           } else {
-            valid_cols[col] = util::string_view();
+            valid_cols[col] = std::string_view();
           }
         } else {
           const ArraySpan& array = batch[col].array;
@@ -2887,11 +3058,11 @@ struct BinaryJoinElementWise {
             const offset_type* offsets = array.GetValues<offset_type>(1);
             const uint8_t* data = array.GetValues<uint8_t>(2, /*absolute_offset=*/0);
             const int64_t length = offsets[row + 1] - offsets[row];
-            valid_cols[col] = util::string_view(
+            valid_cols[col] = std::string_view(
                 reinterpret_cast<const char*>(data + offsets[row]), length);
             if (col < batch.num_values() - 1) num_valid++;
           } else {
-            valid_cols[col] = util::string_view();
+            valid_cols[col] = std::string_view();
           }
         }
       }
@@ -2914,7 +3085,7 @@ struct BinaryJoinElementWise {
       const auto separator = valid_cols.back();
       bool first = true;
       for (int col = 0; col < batch.num_values() - 1; col++) {
-        util::string_view value = valid_cols[col];
+        std::string_view value = valid_cols[col];
         if (!value.data()) {
           switch (options.null_handling) {
             case JoinOptions::EMIT_NULL:
@@ -3198,6 +3369,7 @@ void RegisterScalarStringAscii(FunctionRegistry* registry) {
   AddAsciiStringExtractRegex(registry);
 #endif
   AddAsciiStringReplaceSlice(registry);
+  AddAsciiStringSlice(registry);
   AddAsciiStringSplitPattern(registry);
   AddAsciiStringSplitWhitespace(registry);
 #ifdef ARROW_WITH_RE2
diff --git a/cpp/src/arrow/compute/kernels/scalar_string_internal.h b/cpp/src/arrow/compute/kernels/scalar_string_internal.h
index 32731414e08..defd7c37157 100644
--- a/cpp/src/arrow/compute/kernels/scalar_string_internal.h
+++ b/cpp/src/arrow/compute/kernels/scalar_string_internal.h
@@ -224,7 +224,7 @@ struct StringPredicateFunctor {
     ArraySpan* out_arr = out->array_span();
     ::arrow::internal::GenerateBitsUnrolled(
         out_arr->buffers[1].data, out_arr->offset, input.length, [&]() -> bool {
-          util::string_view val = input_it();
+          std::string_view val = input_it();
           return Predicate::Call(ctx, reinterpret_cast<const uint8_t*>(val.data()),
                                  val.size(), &st);
         });
@@ -307,7 +307,7 @@ struct StringSplitExec {
   using State = OptionsWrapper<Options>;
 
   // Keep the temporary storage accross individual values, to minimize reallocations
-  std::vector<util::string_view> parts;
+  std::vector<std::string_view> parts;
   Options options;
 
   explicit StringSplitExec(const Options& options) : options(options) {}
@@ -351,7 +351,7 @@ struct StringSplitExec {
     return Status::OK();
   }
 
-  Status SplitString(const util::string_view& s, SplitFinder* finder,
+  Status SplitString(const std::string_view& s, SplitFinder* finder,
                      BuilderType* builder) {
     const uint8_t* begin = reinterpret_cast<const uint8_t*>(s.data());
     const uint8_t* end = begin + s.length();
diff --git a/cpp/src/arrow/compute/kernels/scalar_string_test.cc b/cpp/src/arrow/compute/kernels/scalar_string_test.cc
index 747eb343152..ad71c23f2ef 100644
--- a/cpp/src/arrow/compute/kernels/scalar_string_test.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_string_test.cc
@@ -1753,6 +1753,11 @@ TYPED_TEST(TestBaseBinaryKernels, ReplaceSubstringRegex) {
   this->CheckUnary("replace_substring_regex", R"(["aaaaaa"])", this->type(),
                    R"(["abaaaaabaaaa"])", &options);
 
+  // ARROW-18202: Allow matching against empty string again
+  options = ReplaceSubstringOptions{"^$", "x"};
+  this->CheckUnary("replace_substring_regex", R"([""])", this->type(), R"(["x"])",
+                   &options);
+
   // ARROW-12774
   options = ReplaceSubstringOptions{"X", "Y"};
   this->CheckUnary("replace_substring_regex",
@@ -2119,6 +2124,138 @@ TYPED_TEST(TestStringKernels, SliceCodeunitsNegPos) {
 
 #endif  // ARROW_WITH_UTF8PROC
 
+TYPED_TEST(TestBinaryKernels, SliceBytesBasic) {
+  SliceOptions options{2, 4};
+  this->CheckUnary("binary_slice", "[\"fo\xc2\xa2\", \"fo\", null, \"fob \"]",
+                   this->type(), "[\"\xc2\xa2\", \"\", null, \"b \"]", &options);
+
+  // end is beyond 0, but before start (hence empty)
+  SliceOptions options_edgecase_1{-3, 1};
+  this->CheckUnary("binary_slice",
+                   "[\"f\xc2\xa2"
+                   "ds\"]",
+                   this->type(), R"([""])", &options_edgecase_1);
+
+  // this is a safeguard agains an optimization path possible, but actually a tricky case
+  SliceOptions options_edgecase_2{-6, -2};
+  this->CheckUnary("binary_slice",
+                   "[\"f\xc2\xa2"
+                   "ds\"]",
+                   this->type(), "[\"f\xc2\xa2\"]", &options_edgecase_2);
+
+  auto input = ArrayFromJSON(this->type(), R"(["foods"])");
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid,
+      testing::HasSubstr("Function 'binary_slice' cannot be called without options"),
+      CallFunction("binary_slice", {input}));
+
+  SliceOptions options_invalid{2, 4, 0};
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid, testing::HasSubstr("Slice step cannot be zero"),
+      CallFunction("binary_slice", {input}, &options_invalid));
+}
+
+TYPED_TEST(TestBinaryKernels, SliceBytesPosPos) {
+  SliceOptions options{2, 4};
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"a\xc2\xa2\", \"ab\xc2\xa2\", \"ab\xc2\xffZ\"]",
+      this->type(), "[\"\", \"\", \"\", \"\xa2\", \"\xc2\xa2\", \"\xc2\xff\"]", &options);
+  SliceOptions options_step{1, 5, 2};
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"a\xc2\xa2\", \"ab\xc2\xa2\", \"ab\xc2\xffZ\"]",
+      this->type(), "[\"\", \"\", \"b\", \"\xc2\", \"b\xa2\", \"b\xff\"]", &options_step);
+  SliceOptions options_step_neg{5, 1, -2};
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"a\xc2\xa2\", \"ab\xc2\xa2\", \"ab\xc2\xffZ\"]",
+      this->type(), "[\"\", \"\", \"\", \"\xa2\", \"\xa2\", \"Z\xc2\"]",
+      &options_step_neg);
+  options_step_neg.stop = 0;
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"a\xc2\xa2\", \"aZ\xc2\xa2\", \"ab\xc2\xffZ\"]",
+      this->type(), "[\"\", \"\", \"b\", \"\xa2\", \"\xa2Z\", \"Z\xc2\"]",
+      &options_step_neg);
+}
+
+TYPED_TEST(TestBinaryKernels, SliceBytesPosNeg) {
+  SliceOptions options{2, -1};
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"a\xc2\xa2\", \"aZ\xc2\xa2\", \"ab\xc2\xffZ\"]",
+      this->type(), "[\"\", \"\", \"\", \"\", \"\xc2\", \"\xc2\xff\"]", &options);
+  SliceOptions options_step{1, -1, 2};
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"a\xc2\xa2\", \"aZ\xc2\xa2\", \"ab\xc2\xffZ\"]",
+      this->type(), "[\"\", \"\", \"\", \"\xc2\", \"Z\", \"b\xff\"]", &options_step);
+  SliceOptions options_step_neg{3, -4, -2};
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"Z\xc2\xa2\", \"aZ\xc2\xa2\", \"ab\xc2\xffZ\"]",
+      this->type(), "[\"\", \"a\", \"b\", \"\xa2Z\", \"\xa2Z\", \"\xff\"]",
+      &options_step_neg);
+  options_step_neg.stop = -5;
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"Z\xc2\xa2\", \"aZ\xc2\xa2\", \"aP\xc2\xffZ\"]",
+      this->type(), "[\"\", \"a\", \"b\", \"\xa2Z\", \"\xa2Z\", \"\xffP\"]",
+      &options_step_neg);
+}
+
+TYPED_TEST(TestBinaryKernels, SliceBytesNegNeg) {
+  SliceOptions options{-2, -1};
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"Z\xc2\xa2\", \"aZ\xc2\xa2\", \"ab\xc2\xffZ\"]",
+      this->type(), "[\"\", \"\", \"a\", \"\xc2\", \"\xc2\", \"\xff\"]", &options);
+  SliceOptions options_step{-4, -1, 2};
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"Z\xc2\xa2\", \"aZ\xc2\xa2\", \"aP\xc2\xffZ\"]",
+      this->type(), "[\"\", \"\", \"a\", \"Z\", \"a\xc2\", \"P\xff\"]", &options_step);
+  SliceOptions options_step_neg{-1, -3, -2};
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"Z\xc2\xa2\", \"aZ\xc2\xa2\", \"aP\xc2\xffZ\"]",
+      this->type(), "[\"\", \"a\", \"b\", \"\xa2\", \"\xa2\", \"Z\"]", &options_step_neg);
+  options_step_neg.stop = -4;
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"Z\xc2\xa2\", \"aZ\xc2\xa2\", \"aP\xc2\xffZ\"]",
+      this->type(), "[\"\", \"a\", \"b\", \"\xa2Z\", \"\xa2Z\", \"Z\xc2\"]",
+      &options_step_neg);
+}
+
+TYPED_TEST(TestBinaryKernels, SliceBytesNegPos) {
+  SliceOptions options{-2, 4};
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"Z\xc2\xa2\", \"aZ\xc2\xa2\", \"aP\xc2\xffZ\"]",
+      this->type(), "[\"\", \"a\", \"ab\", \"\xc2\xa2\", \"\xc2\xa2\", \"\xff\"]",
+      &options);
+  SliceOptions options_step{-4, 4, 2};
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"Z\xc2\xa2\", \"aZ\xc2\xa2\", \"aP\xc2\xffZ\"]",
+      this->type(), "[\"\", \"a\", \"a\", \"Z\xa2\", \"a\xc2\", \"P\xff\"]",
+      &options_step);
+  SliceOptions options_step_neg{-1, 1, -2};
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"Z\xc2\xa2\", \"aZ\xc2\xa2\", \"aP\xc2\xffZ\"]",
+      this->type(), "[\"\", \"\", \"\", \"\xa2\", \"\xa2\", \"Z\xc2\"]",
+      &options_step_neg);
+  options_step_neg.stop = 0;
+  this->CheckUnary(
+      "binary_slice",
+      "[\"\", \"a\", \"ab\", \"Z\xc2\xa2\", \"aZ\xc2\xa2\", \"aP\xc2\xffZ\"]",
+      this->type(), "[\"\", \"\", \"b\", \"\xa2\", \"\xa2Z\", \"Z\xc2\"]",
+      &options_step_neg);
+}
+
 TYPED_TEST(TestStringKernels, PadAscii) {
   PadOptions options{/*width=*/5, " "};
   this->CheckUnary("ascii_center", R"([null, "a", "bb", "bar", "foobar"])", this->type(),
diff --git a/cpp/src/arrow/compute/kernels/scalar_string_utf8.cc b/cpp/src/arrow/compute/kernels/scalar_string_utf8.cc
index 4b3191c825d..fb197e13a68 100644
--- a/cpp/src/arrow/compute/kernels/scalar_string_utf8.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_string_utf8.cc
@@ -524,7 +524,7 @@ struct Utf8NormalizeBase {
 
   // Try to decompose the given UTF8 string into the codepoints space,
   // returning the number of codepoints output.
-  Result<int64_t> DecomposeIntoScratch(util::string_view v) {
+  Result<int64_t> DecomposeIntoScratch(std::string_view v) {
     auto decompose = [&]() {
       return utf8proc_decompose(reinterpret_cast<const utf8proc_uint8_t*>(v.data()),
                                 v.size(),
@@ -544,7 +544,7 @@ struct Utf8NormalizeBase {
     return res;
   }
 
-  Result<int64_t> Decompose(util::string_view v, BufferBuilder* data_builder) {
+  Result<int64_t> Decompose(std::string_view v, BufferBuilder* data_builder) {
     if (::arrow::util::ValidateAscii(v)) {
       // Fast path: normalization is a no-op
       RETURN_NOT_OK(data_builder->Append(v.data(), v.size()));
@@ -623,7 +623,7 @@ struct Utf8NormalizeExec : public Utf8NormalizeBase {
 
     RETURN_NOT_OK(VisitArraySpanInline<Type>(
         array,
-        [&](util::string_view v) {
+        [&](std::string_view v) {
           ARROW_ASSIGN_OR_RAISE(auto n_bytes, exec.Decompose(v, &data_builder));
           offset += n_bytes;
           *out_offsets++ = static_cast<offset_type>(offset);
@@ -656,7 +656,7 @@ void AddUtf8StringNormalize(FunctionRegistry* registry) {
 // String length
 
 struct Utf8Length {
-  template <typename OutValue, typename Arg0Value = util::string_view>
+  template <typename OutValue, typename Arg0Value = std::string_view>
   static OutValue Call(KernelContext*, Arg0Value val, Status*) {
     auto str = reinterpret_cast<const uint8_t*>(val.data());
     auto strlen = val.size();
diff --git a/cpp/src/arrow/compute/kernels/scalar_temporal_unary.cc b/cpp/src/arrow/compute/kernels/scalar_temporal_unary.cc
index d7c045d84b0..c0dc747e497 100644
--- a/cpp/src/arrow/compute/kernels/scalar_temporal_unary.cc
+++ b/cpp/src/arrow/compute/kernels/scalar_temporal_unary.cc
@@ -1265,7 +1265,7 @@ struct Strptime {
         out_writer.Next();
         null_count++;
       };
-      auto visit_value = [&](util::string_view s) {
+      auto visit_value = [&](std::string_view s) {
         int64_t result;
         if ((*self.parser)(s.data(), s.size(), self.unit, &result)) {
           *out_data++ = result;
@@ -1292,7 +1292,7 @@ struct Strptime {
         *out_data++ = 0;
         return Status::OK();
       };
-      auto visit_value = [&](util::string_view s) {
+      auto visit_value = [&](std::string_view s) {
         int64_t result;
         if ((*self.parser)(s.data(), s.size(), self.unit, &result)) {
           *out_data++ = result;
diff --git a/cpp/src/arrow/compute/kernels/vector_cumulative_ops.cc b/cpp/src/arrow/compute/kernels/vector_cumulative_ops.cc
index fb221aa9fe6..76bda200dad 100644
--- a/cpp/src/arrow/compute/kernels/vector_cumulative_ops.cc
+++ b/cpp/src/arrow/compute/kernels/vector_cumulative_ops.cc
@@ -59,9 +59,9 @@ struct CumulativeOptionsWrapper : public OptionsWrapper<OptionsType> {
           auto casted_start,
           Cast(Datum(start), args.inputs[0], CastOptions::Safe(), ctx->exec_context()));
       auto new_options = OptionsType(casted_start.scalar(), options->skip_nulls);
-      return ::arrow::internal::make_unique<State>(new_options);
+      return std::make_unique<State>(new_options);
     }
-    return ::arrow::internal::make_unique<State>(*options);
+    return std::make_unique<State>(*options);
   }
 };
 
diff --git a/cpp/src/arrow/compute/kernels/vector_hash.cc b/cpp/src/arrow/compute/kernels/vector_hash.cc
index c8b5173b8d9..5121a8d4b46 100644
--- a/cpp/src/arrow/compute/kernels/vector_hash.cc
+++ b/cpp/src/arrow/compute/kernels/vector_hash.cc
@@ -16,6 +16,7 @@
 // under the License.
 
 #include <cstring>
+#include <memory>
 #include <mutex>
 
 #include "arrow/array/array_base.h"
@@ -29,7 +30,6 @@
 #include "arrow/compute/kernels/common.h"
 #include "arrow/result.h"
 #include "arrow/util/hashing.h"
-#include "arrow/util/make_unique.h"
 
 namespace arrow {
 
@@ -517,15 +517,15 @@ struct HashKernelTraits<Type, Action, enable_if_has_c_type<Type>> {
 
 template <typename Type, typename Action>
 struct HashKernelTraits<Type, Action, enable_if_has_string_view<Type>> {
-  using HashKernel = RegularHashKernel<Type, util::string_view, Action>;
+  using HashKernel = RegularHashKernel<Type, std::string_view, Action>;
 };
 
 template <typename Type, typename Action>
 Result<std::unique_ptr<HashKernel>> HashInitImpl(KernelContext* ctx,
                                                  const KernelInitArgs& args) {
   using HashKernelType = typename HashKernelTraits<Type, Action>::HashKernel;
-  auto result = ::arrow::internal::make_unique<HashKernelType>(
-      args.inputs[0].GetSharedPtr(), args.options, ctx->memory_pool());
+  auto result = std::make_unique<HashKernelType>(args.inputs[0].GetSharedPtr(),
+                                                 args.options, ctx->memory_pool());
   RETURN_NOT_OK(result->Reset());
   return std::move(result);
 }
@@ -614,8 +614,8 @@ Result<std::unique_ptr<KernelState>> DictionaryHashInit(KernelContext* ctx,
       break;
   }
   RETURN_NOT_OK(indices_hasher);
-  return ::arrow::internal::make_unique<DictionaryHashKernel>(
-      std::move(indices_hasher.ValueOrDie()), dict_type.value_type());
+  return std::make_unique<DictionaryHashKernel>(std::move(indices_hasher.ValueOrDie()),
+                                                dict_type.value_type());
 }
 
 Status HashExec(KernelContext* ctx, const ExecSpan& batch, ExecResult* out) {
@@ -719,7 +719,8 @@ void AddHashKernels(VectorFunction* func, VectorKernel base, OutputType out_ty)
 
   // Example parametric types that we want to match only on Type::type
   auto parametric_types = {time32(TimeUnit::SECOND), time64(TimeUnit::MICRO),
-                           timestamp(TimeUnit::SECOND), fixed_size_binary(0)};
+                           timestamp(TimeUnit::SECOND), duration(TimeUnit::SECOND),
+                           fixed_size_binary(0)};
   for (const auto& ty : parametric_types) {
     base.init = GetHashInit<Action>(ty->id());
     base.signature = KernelSignature::Make({ty->id()}, out_ty);
diff --git a/cpp/src/arrow/compute/kernels/vector_hash_test.cc b/cpp/src/arrow/compute/kernels/vector_hash_test.cc
index ec45239f9c6..7b713362f6f 100644
--- a/cpp/src/arrow/compute/kernels/vector_hash_test.cc
+++ b/cpp/src/arrow/compute/kernels/vector_hash_test.cc
@@ -315,6 +315,8 @@ TEST_F(TestHashKernel, UniqueTimeTimestamp) {
 
   CheckUnique<TimestampType, int64_t>(timestamp(TimeUnit::NANO), {2, 1, 2, 1},
                                       {true, false, true, true}, {2, 0, 1}, {1, 0, 1});
+  CheckUnique<DurationType, int64_t>(duration(TimeUnit::NANO), {2, 1, 2, 1},
+                                     {true, false, true, true}, {2, 0, 1}, {1, 0, 1});
 }
 
 TEST_F(TestHashKernel, ValueCountsTimeTimestamp) {
@@ -329,6 +331,9 @@ TEST_F(TestHashKernel, ValueCountsTimeTimestamp) {
   CheckValueCounts<TimestampType, int64_t>(timestamp(TimeUnit::NANO), {2, 1, 2, 1},
                                            {true, false, true, true}, {2, 0, 1},
                                            {1, 0, 1}, {2, 1, 1});
+  CheckValueCounts<DurationType, int64_t>(duration(TimeUnit::NANO), {2, 1, 2, 1},
+                                          {true, false, true, true}, {2, 0, 1}, {1, 0, 1},
+                                          {2, 1, 1});
 }
 
 TEST_F(TestHashKernel, UniqueBoolean) {
diff --git a/cpp/src/arrow/compute/kernels/vector_nested_test.cc b/cpp/src/arrow/compute/kernels/vector_nested_test.cc
index 1e72ef43d34..5e4c7751bc5 100644
--- a/cpp/src/arrow/compute/kernels/vector_nested_test.cc
+++ b/cpp/src/arrow/compute/kernels/vector_nested_test.cc
@@ -36,9 +36,9 @@ TEST(TestVectorNested, ListFlatten) {
     CheckVectorUnary("list_flatten", input, expected);
 
     // Construct a list with a non-empty null slot
-    TweakValidityBit(input, 0, false);
+    auto tweaked = TweakValidityBit(input, 0, false);
     expected = ArrayFromJSON(int16(), "[2, 3]");
-    CheckVectorUnary("list_flatten", input, expected);
+    CheckVectorUnary("list_flatten", tweaked, expected);
   }
 }
 
@@ -86,9 +86,9 @@ TEST(TestVectorNested, ListParentIndices) {
 
   // Construct a list with a non-empty null slot
   auto input = ArrayFromJSON(list(int16()), "[[0, null, 1], [0, 0], [2, 3], [], [4, 5]]");
-  TweakValidityBit(input, 1, false);
+  auto tweaked = TweakValidityBit(input, 1, false);
   auto expected = ArrayFromJSON(int64(), "[0, 0, 0, 1, 1, 2, 2, 4, 4]");
-  CheckVectorUnary("list_parent_indices", input, expected);
+  CheckVectorUnary("list_parent_indices", tweaked, expected);
 }
 
 TEST(TestVectorNested, ListParentIndicesChunkedArray) {
diff --git a/cpp/src/arrow/compute/kernels/vector_rank.cc b/cpp/src/arrow/compute/kernels/vector_rank.cc
new file mode 100644
index 00000000000..dcb29fb8625
--- /dev/null
+++ b/cpp/src/arrow/compute/kernels/vector_rank.cc
@@ -0,0 +1,248 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "arrow/compute/kernels/vector_sort_internal.h"
+#include "arrow/compute/registry.h"
+
+namespace arrow::compute::internal {
+
+namespace {
+
+// ----------------------------------------------------------------------
+// Rank implementation
+
+const RankOptions* GetDefaultRankOptions() {
+  static const auto kDefaultRankOptions = RankOptions::Defaults();
+  return &kDefaultRankOptions;
+}
+
+class ArrayRanker : public TypeVisitor {
+ public:
+  ArrayRanker(ExecContext* ctx, const Array& array, const RankOptions& options,
+              Datum* output)
+      : TypeVisitor(),
+        ctx_(ctx),
+        array_(array),
+        options_(options),
+        null_placement_(options.null_placement),
+        tiebreaker_(options.tiebreaker),
+        physical_type_(GetPhysicalType(array.type())),
+        output_(output) {}
+
+  Status Run() { return physical_type_->Accept(this); }
+
+#define VISIT(TYPE) \
+  Status Visit(const TYPE& type) { return RankInternal<TYPE>(); }
+
+  VISIT_SORTABLE_PHYSICAL_TYPES(VISIT)
+
+#undef VISIT
+
+  template <typename InType>
+  Status RankInternal() {
+    using GetView = GetViewType<InType>;
+    using T = typename GetViewType<InType>::T;
+    using ArrayType = typename TypeTraits<InType>::ArrayType;
+
+    ArrayType arr(array_.data());
+
+    SortOrder order = SortOrder::Ascending;
+    if (!options_.sort_keys.empty()) {
+      order = options_.sort_keys[0].order;
+    }
+    ArraySortOptions array_options(order, null_placement_);
+
+    auto length = array_.length();
+    ARROW_ASSIGN_OR_RAISE(auto sort_indices,
+                          MakeMutableUInt64Array(length, ctx_->memory_pool()));
+    auto sort_begin = sort_indices->GetMutableValues<uint64_t>(1);
+    auto sort_end = sort_begin + length;
+    std::iota(sort_begin, sort_end, 0);
+
+    ARROW_ASSIGN_OR_RAISE(auto array_sorter, GetArraySorter(*physical_type_));
+
+    NullPartitionResult sorted =
+        array_sorter(sort_begin, sort_end, arr, 0, array_options);
+    uint64_t rank;
+
+    ARROW_ASSIGN_OR_RAISE(auto rankings,
+                          MakeMutableUInt64Array(length, ctx_->memory_pool()));
+    auto out_begin = rankings->GetMutableValues<uint64_t>(1);
+
+    switch (tiebreaker_) {
+      case RankOptions::Dense: {
+        T curr_value, prev_value{};
+        rank = 0;
+
+        if (null_placement_ == NullPlacement::AtStart && sorted.null_count() > 0) {
+          rank++;
+          for (auto it = sorted.nulls_begin; it < sorted.nulls_end; it++) {
+            out_begin[*it] = rank;
+          }
+        }
+
+        for (auto it = sorted.non_nulls_begin; it < sorted.non_nulls_end; it++) {
+          curr_value = GetView::LogicalValue(arr.GetView(*it));
+          if (it == sorted.non_nulls_begin || curr_value != prev_value) {
+            rank++;
+          }
+
+          out_begin[*it] = rank;
+          prev_value = curr_value;
+        }
+
+        if (null_placement_ == NullPlacement::AtEnd) {
+          rank++;
+          for (auto it = sorted.nulls_begin; it < sorted.nulls_end; it++) {
+            out_begin[*it] = rank;
+          }
+        }
+        break;
+      }
+
+      case RankOptions::First: {
+        rank = 0;
+        for (auto it = sorted.overall_begin(); it < sorted.overall_end(); it++) {
+          out_begin[*it] = ++rank;
+        }
+        break;
+      }
+
+      case RankOptions::Min: {
+        T curr_value, prev_value{};
+        rank = 0;
+
+        if (null_placement_ == NullPlacement::AtStart) {
+          rank++;
+          for (auto it = sorted.nulls_begin; it < sorted.nulls_end; it++) {
+            out_begin[*it] = rank;
+          }
+        }
+
+        for (auto it = sorted.non_nulls_begin; it < sorted.non_nulls_end; it++) {
+          curr_value = GetView::LogicalValue(arr.GetView(*it));
+          if (it == sorted.non_nulls_begin || curr_value != prev_value) {
+            rank = (it - sorted.overall_begin()) + 1;
+          }
+          out_begin[*it] = rank;
+          prev_value = curr_value;
+        }
+
+        if (null_placement_ == NullPlacement::AtEnd) {
+          rank = sorted.non_null_count() + 1;
+          for (auto it = sorted.nulls_begin; it < sorted.nulls_end; it++) {
+            out_begin[*it] = rank;
+          }
+        }
+        break;
+      }
+
+      case RankOptions::Max: {
+        // The algorithm for Max is just like Min, but in reverse order.
+        T curr_value, prev_value{};
+        rank = length;
+
+        if (null_placement_ == NullPlacement::AtEnd) {
+          for (auto it = sorted.nulls_begin; it < sorted.nulls_end; it++) {
+            out_begin[*it] = rank;
+          }
+        }
+
+        for (auto it = sorted.non_nulls_end - 1; it >= sorted.non_nulls_begin; it--) {
+          curr_value = GetView::LogicalValue(arr.GetView(*it));
+          if (it == sorted.non_nulls_end - 1 || curr_value != prev_value) {
+            rank = (it - sorted.overall_begin()) + 1;
+          }
+          out_begin[*it] = rank;
+          prev_value = curr_value;
+        }
+
+        if (null_placement_ == NullPlacement::AtStart) {
+          rank = sorted.null_count();
+          for (auto it = sorted.nulls_begin; it < sorted.nulls_end; it++) {
+            out_begin[*it] = rank;
+          }
+        }
+
+        break;
+      }
+    }
+
+    *output_ = Datum(rankings);
+    return Status::OK();
+  }
+
+  ExecContext* ctx_;
+  const Array& array_;
+  const RankOptions& options_;
+  const NullPlacement null_placement_;
+  const RankOptions::Tiebreaker tiebreaker_;
+  const std::shared_ptr<DataType> physical_type_;
+  Datum* output_;
+};
+
+const FunctionDoc rank_doc(
+    "Compute numerical ranks of an array (1-based)",
+    ("This function computes a rank of the input array.\n"
+     "By default, null values are considered greater than any other value and\n"
+     "are therefore sorted at the end of the input. For floating-point types,\n"
+     "NaNs are considered greater than any other non-null value, but smaller\n"
+     "than null values. The default tiebreaker is to assign ranks in order of\n"
+     "when ties appear in the input.\n"
+     "\n"
+     "The handling of nulls, NaNs and tiebreakers can be changed in RankOptions."),
+    {"input"}, "RankOptions");
+
+class RankMetaFunction : public MetaFunction {
+ public:
+  RankMetaFunction()
+      : MetaFunction("rank", Arity::Unary(), rank_doc, GetDefaultRankOptions()) {}
+
+  Result<Datum> ExecuteImpl(const std::vector<Datum>& args,
+                            const FunctionOptions* options,
+                            ExecContext* ctx) const override {
+    const auto& rank_options = checked_cast<const RankOptions&>(*options);
+    switch (args[0].kind()) {
+      case Datum::ARRAY: {
+        return Rank(*args[0].make_array(), rank_options, ctx);
+      } break;
+      default:
+        break;
+    }
+    return Status::NotImplemented(
+        "Unsupported types for rank operation: "
+        "values=",
+        args[0].ToString());
+  }
+
+ private:
+  Result<Datum> Rank(const Array& array, const RankOptions& options,
+                     ExecContext* ctx) const {
+    Datum output;
+    ArrayRanker ranker(ctx, array, options, &output);
+    ARROW_RETURN_NOT_OK(ranker.Run());
+    return output;
+  }
+};
+
+}  // namespace
+
+void RegisterVectorRank(FunctionRegistry* registry) {
+  DCHECK_OK(registry->AddFunction(std::make_shared<RankMetaFunction>()));
+}
+
+}  // namespace arrow::compute::internal
diff --git a/cpp/src/arrow/compute/kernels/vector_replace_test.cc b/cpp/src/arrow/compute/kernels/vector_replace_test.cc
index 589952ba700..39d6ff1d470 100644
--- a/cpp/src/arrow/compute/kernels/vector_replace_test.cc
+++ b/cpp/src/arrow/compute/kernels/vector_replace_test.cc
@@ -26,7 +26,8 @@
 #include "arrow/testing/gtest_util.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/key_value_metadata.h"
-#include "arrow/util/make_unique.h"
+
+#include <memory>
 
 namespace arrow {
 namespace compute {
@@ -157,7 +158,7 @@ class TestReplaceKernel : public ::testing::Test {
       const typename TypeTraits<T>::ArrayType& array, const BooleanArray& mask,
       const typename TypeTraits<T>::ArrayType& replacements) {
     auto length = array.length();
-    auto builder = arrow::internal::make_unique<typename TypeTraits<T>::BuilderType>(
+    auto builder = std::make_unique<typename TypeTraits<T>::BuilderType>(
         default_type_instance<T>(), default_memory_pool());
     int64_t replacement_offset = 0;
     for (int64_t i = 0; i < length; ++i) {
@@ -419,7 +420,7 @@ TYPED_TEST(TestReplaceNumeric, ReplaceWithMaskRandom) {
       rand.ArrayOf(boolean(), length, /*null_probability=*/0.01));
   const int64_t num_replacements = std::count_if(
       mask->begin(), mask->end(),
-      [](util::optional<bool> value) { return value.has_value() && *value; });
+      [](std::optional<bool> value) { return value.has_value() && *value; });
   auto replacements = checked_pointer_cast<ArrayType>(
       rand.ArrayOf(*field("a", ty, options), num_replacements));
   auto expected = this->NaiveImpl(*array, *mask, *replacements);
@@ -1045,7 +1046,7 @@ TYPED_TEST(TestReplaceBinary, ReplaceWithMaskRandom) {
       rand.ArrayOf(boolean(), length, /*null_probability=*/0.01));
   const int64_t num_replacements = std::count_if(
       mask->begin(), mask->end(),
-      [](util::optional<bool> value) { return value.has_value() && *value; });
+      [](std::optional<bool> value) { return value.has_value() && *value; });
   auto replacements = checked_pointer_cast<ArrayType>(
       rand.ArrayOf(*field("a", ty, options), num_replacements));
   auto expected = this->NaiveImpl(*array, *mask, *replacements);
diff --git a/cpp/src/arrow/compute/kernels/vector_select_k.cc b/cpp/src/arrow/compute/kernels/vector_select_k.cc
new file mode 100644
index 00000000000..5000de89962
--- /dev/null
+++ b/cpp/src/arrow/compute/kernels/vector_select_k.cc
@@ -0,0 +1,649 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include <queue>
+
+#include "arrow/compute/kernels/vector_sort_internal.h"
+#include "arrow/compute/registry.h"
+
+namespace arrow {
+
+using internal::checked_cast;
+
+namespace compute::internal {
+
+namespace {
+
+// ----------------------------------------------------------------------
+// TopK/BottomK implementations
+
+const SelectKOptions* GetDefaultSelectKOptions() {
+  static const auto kDefaultSelectKOptions = SelectKOptions::Defaults();
+  return &kDefaultSelectKOptions;
+}
+
+const FunctionDoc select_k_unstable_doc(
+    "Select the indices of the first `k` ordered elements from the input",
+    ("This function selects an array of indices of the first `k` ordered elements\n"
+     "from the `input` array, record batch or table specified in the column keys\n"
+     "(`options.sort_keys`). Output is not guaranteed to be stable.\n"
+     "Null values are considered greater than any other value and are\n"
+     "therefore ordered at the end. For floating-point types, NaNs are considered\n"
+     "greater than any other non-null value, but smaller than null values."),
+    {"input"}, "SelectKOptions", /*options_required=*/true);
+
+template <SortOrder order>
+class SelectKComparator {
+ public:
+  template <typename Type>
+  bool operator()(const Type& lval, const Type& rval);
+};
+
+template <>
+class SelectKComparator<SortOrder::Ascending> {
+ public:
+  template <typename Type>
+  bool operator()(const Type& lval, const Type& rval) {
+    return lval < rval;
+  }
+};
+
+template <>
+class SelectKComparator<SortOrder::Descending> {
+ public:
+  template <typename Type>
+  bool operator()(const Type& lval, const Type& rval) {
+    return rval < lval;
+  }
+};
+
+class ArraySelecter : public TypeVisitor {
+ public:
+  ArraySelecter(ExecContext* ctx, const Array& array, const SelectKOptions& options,
+                Datum* output)
+      : TypeVisitor(),
+        ctx_(ctx),
+        array_(array),
+        k_(options.k),
+        order_(options.sort_keys[0].order),
+        physical_type_(GetPhysicalType(array.type())),
+        output_(output) {}
+
+  Status Run() { return physical_type_->Accept(this); }
+
+#define VISIT(TYPE)                                           \
+  Status Visit(const TYPE& type) {                            \
+    if (order_ == SortOrder::Ascending) {                     \
+      return SelectKthInternal<TYPE, SortOrder::Ascending>(); \
+    }                                                         \
+    return SelectKthInternal<TYPE, SortOrder::Descending>();  \
+  }
+
+  VISIT_SORTABLE_PHYSICAL_TYPES(VISIT)
+
+#undef VISIT
+
+  template <typename InType, SortOrder sort_order>
+  Status SelectKthInternal() {
+    using GetView = GetViewType<InType>;
+    using ArrayType = typename TypeTraits<InType>::ArrayType;
+
+    ArrayType arr(array_.data());
+    std::vector<uint64_t> indices(arr.length());
+
+    uint64_t* indices_begin = indices.data();
+    uint64_t* indices_end = indices_begin + indices.size();
+    std::iota(indices_begin, indices_end, 0);
+    if (k_ > arr.length()) {
+      k_ = arr.length();
+    }
+
+    const auto p = PartitionNulls<ArrayType, NonStablePartitioner>(
+        indices_begin, indices_end, arr, 0, NullPlacement::AtEnd);
+    const auto end_iter = p.non_nulls_end;
+
+    auto kth_begin = std::min(indices_begin + k_, end_iter);
+
+    SelectKComparator<sort_order> comparator;
+    auto cmp = [&arr, &comparator](uint64_t left, uint64_t right) {
+      const auto lval = GetView::LogicalValue(arr.GetView(left));
+      const auto rval = GetView::LogicalValue(arr.GetView(right));
+      return comparator(lval, rval);
+    };
+    using HeapContainer =
+        std::priority_queue<uint64_t, std::vector<uint64_t>, decltype(cmp)>;
+    HeapContainer heap(indices_begin, kth_begin, cmp);
+    for (auto iter = kth_begin; iter != end_iter && !heap.empty(); ++iter) {
+      uint64_t x_index = *iter;
+      if (cmp(x_index, heap.top())) {
+        heap.pop();
+        heap.push(x_index);
+      }
+    }
+    auto out_size = static_cast<int64_t>(heap.size());
+    ARROW_ASSIGN_OR_RAISE(auto take_indices,
+                          MakeMutableUInt64Array(out_size, ctx_->memory_pool()));
+
+    auto* out_cbegin = take_indices->GetMutableValues<uint64_t>(1) + out_size - 1;
+    while (heap.size() > 0) {
+      *out_cbegin = heap.top();
+      heap.pop();
+      --out_cbegin;
+    }
+    *output_ = Datum(take_indices);
+    return Status::OK();
+  }
+
+  ExecContext* ctx_;
+  const Array& array_;
+  int64_t k_;
+  SortOrder order_;
+  const std::shared_ptr<DataType> physical_type_;
+  Datum* output_;
+};
+
+template <typename ArrayType>
+struct TypedHeapItem {
+  uint64_t index;
+  uint64_t offset;
+  ArrayType* array;
+};
+
+class ChunkedArraySelecter : public TypeVisitor {
+ public:
+  ChunkedArraySelecter(ExecContext* ctx, const ChunkedArray& chunked_array,
+                       const SelectKOptions& options, Datum* output)
+      : TypeVisitor(),
+        chunked_array_(chunked_array),
+        physical_type_(GetPhysicalType(chunked_array.type())),
+        physical_chunks_(GetPhysicalChunks(chunked_array_, physical_type_)),
+        k_(options.k),
+        order_(options.sort_keys[0].order),
+        ctx_(ctx),
+        output_(output) {}
+
+  Status Run() { return physical_type_->Accept(this); }
+
+#define VISIT(TYPE)                                           \
+  Status Visit(const TYPE& type) {                            \
+    if (order_ == SortOrder::Ascending) {                     \
+      return SelectKthInternal<TYPE, SortOrder::Ascending>(); \
+    }                                                         \
+    return SelectKthInternal<TYPE, SortOrder::Descending>();  \
+  }
+
+  VISIT_SORTABLE_PHYSICAL_TYPES(VISIT)
+#undef VISIT
+
+  template <typename InType, SortOrder sort_order>
+  Status SelectKthInternal() {
+    using GetView = GetViewType<InType>;
+    using ArrayType = typename TypeTraits<InType>::ArrayType;
+    using HeapItem = TypedHeapItem<ArrayType>;
+
+    const auto num_chunks = chunked_array_.num_chunks();
+    if (num_chunks == 0) {
+      return Status::OK();
+    }
+    if (k_ > chunked_array_.length()) {
+      k_ = chunked_array_.length();
+    }
+    std::function<bool(const HeapItem&, const HeapItem&)> cmp;
+    SelectKComparator<sort_order> comparator;
+
+    cmp = [&comparator](const HeapItem& left, const HeapItem& right) -> bool {
+      const auto lval = GetView::LogicalValue(left.array->GetView(left.index));
+      const auto rval = GetView::LogicalValue(right.array->GetView(right.index));
+      return comparator(lval, rval);
+    };
+    using HeapContainer =
+        std::priority_queue<HeapItem, std::vector<HeapItem>, decltype(cmp)>;
+
+    HeapContainer heap(cmp);
+    std::vector<std::shared_ptr<ArrayType>> chunks_holder;
+    uint64_t offset = 0;
+    for (const auto& chunk : physical_chunks_) {
+      if (chunk->length() == 0) continue;
+      chunks_holder.emplace_back(std::make_shared<ArrayType>(chunk->data()));
+      ArrayType& arr = *chunks_holder[chunks_holder.size() - 1];
+
+      std::vector<uint64_t> indices(arr.length());
+      uint64_t* indices_begin = indices.data();
+      uint64_t* indices_end = indices_begin + indices.size();
+      std::iota(indices_begin, indices_end, 0);
+
+      const auto p = PartitionNulls<ArrayType, NonStablePartitioner>(
+          indices_begin, indices_end, arr, 0, NullPlacement::AtEnd);
+      const auto end_iter = p.non_nulls_end;
+
+      auto kth_begin = std::min(indices_begin + k_, end_iter);
+      uint64_t* iter = indices_begin;
+      for (; iter != kth_begin && heap.size() < static_cast<size_t>(k_); ++iter) {
+        heap.push(HeapItem{*iter, offset, &arr});
+      }
+      for (; iter != end_iter && !heap.empty(); ++iter) {
+        uint64_t x_index = *iter;
+        const auto& xval = GetView::LogicalValue(arr.GetView(x_index));
+        auto top_item = heap.top();
+        const auto& top_value =
+            GetView::LogicalValue(top_item.array->GetView(top_item.index));
+        if (comparator(xval, top_value)) {
+          heap.pop();
+          heap.push(HeapItem{x_index, offset, &arr});
+        }
+      }
+      offset += chunk->length();
+    }
+
+    auto out_size = static_cast<int64_t>(heap.size());
+    ARROW_ASSIGN_OR_RAISE(auto take_indices,
+                          MakeMutableUInt64Array(out_size, ctx_->memory_pool()));
+    auto* out_cbegin = take_indices->GetMutableValues<uint64_t>(1) + out_size - 1;
+    while (heap.size() > 0) {
+      auto top_item = heap.top();
+      *out_cbegin = top_item.index + top_item.offset;
+      heap.pop();
+      --out_cbegin;
+    }
+    *output_ = Datum(take_indices);
+    return Status::OK();
+  }
+
+  const ChunkedArray& chunked_array_;
+  const std::shared_ptr<DataType> physical_type_;
+  const ArrayVector physical_chunks_;
+  int64_t k_;
+  SortOrder order_;
+  ExecContext* ctx_;
+  Datum* output_;
+};
+
+class RecordBatchSelecter : public TypeVisitor {
+ private:
+  using ResolvedSortKey = ResolvedRecordBatchSortKey;
+  using Comparator = MultipleKeyComparator<ResolvedSortKey>;
+
+ public:
+  RecordBatchSelecter(ExecContext* ctx, const RecordBatch& record_batch,
+                      const SelectKOptions& options, Datum* output)
+      : TypeVisitor(),
+        ctx_(ctx),
+        record_batch_(record_batch),
+        k_(options.k),
+        output_(output),
+        sort_keys_(ResolveSortKeys(record_batch, options.sort_keys, &status_)),
+        comparator_(sort_keys_, NullPlacement::AtEnd) {}
+
+  Status Run() {
+    RETURN_NOT_OK(status_);
+    return sort_keys_[0].type->Accept(this);
+  }
+
+ protected:
+#define VISIT(TYPE)                                            \
+  Status Visit(const TYPE& type) {                             \
+    if (sort_keys_[0].order == SortOrder::Descending)          \
+      return SelectKthInternal<TYPE, SortOrder::Descending>(); \
+    return SelectKthInternal<TYPE, SortOrder::Ascending>();    \
+  }
+  VISIT_SORTABLE_PHYSICAL_TYPES(VISIT)
+#undef VISIT
+
+  static std::vector<ResolvedSortKey> ResolveSortKeys(
+      const RecordBatch& batch, const std::vector<SortKey>& sort_keys, Status* status) {
+    std::vector<ResolvedSortKey> resolved;
+    for (const auto& key : sort_keys) {
+      auto maybe_array = GetColumn(batch, key.target);
+      if (!maybe_array.ok()) {
+        *status = maybe_array.status();
+        return {};
+      }
+      resolved.emplace_back(*std::move(maybe_array), key.order);
+    }
+    return resolved;
+  }
+
+  template <typename InType, SortOrder sort_order>
+  Status SelectKthInternal() {
+    using GetView = GetViewType<InType>;
+    using ArrayType = typename TypeTraits<InType>::ArrayType;
+    auto& comparator = comparator_;
+    const auto& first_sort_key = sort_keys_[0];
+    const auto& arr = checked_cast<const ArrayType&>(first_sort_key.array);
+
+    const auto num_rows = record_batch_.num_rows();
+    if (num_rows == 0) {
+      return Status::OK();
+    }
+    if (k_ > record_batch_.num_rows()) {
+      k_ = record_batch_.num_rows();
+    }
+    std::function<bool(const uint64_t&, const uint64_t&)> cmp;
+    SelectKComparator<sort_order> select_k_comparator;
+    cmp = [&](const uint64_t& left, const uint64_t& right) -> bool {
+      const auto lval = GetView::LogicalValue(arr.GetView(left));
+      const auto rval = GetView::LogicalValue(arr.GetView(right));
+      if (lval == rval) {
+        // If the left value equals to the right value,
+        // we need to compare the second and following
+        // sort keys.
+        return comparator.Compare(left, right, 1);
+      }
+      return select_k_comparator(lval, rval);
+    };
+    using HeapContainer =
+        std::priority_queue<uint64_t, std::vector<uint64_t>, decltype(cmp)>;
+
+    std::vector<uint64_t> indices(arr.length());
+    uint64_t* indices_begin = indices.data();
+    uint64_t* indices_end = indices_begin + indices.size();
+    std::iota(indices_begin, indices_end, 0);
+
+    const auto p = PartitionNulls<ArrayType, NonStablePartitioner>(
+        indices_begin, indices_end, arr, 0, NullPlacement::AtEnd);
+    const auto end_iter = p.non_nulls_end;
+
+    auto kth_begin = std::min(indices_begin + k_, end_iter);
+
+    HeapContainer heap(indices_begin, kth_begin, cmp);
+    for (auto iter = kth_begin; iter != end_iter && !heap.empty(); ++iter) {
+      uint64_t x_index = *iter;
+      auto top_item = heap.top();
+      if (cmp(x_index, top_item)) {
+        heap.pop();
+        heap.push(x_index);
+      }
+    }
+    auto out_size = static_cast<int64_t>(heap.size());
+    ARROW_ASSIGN_OR_RAISE(auto take_indices,
+                          MakeMutableUInt64Array(out_size, ctx_->memory_pool()));
+    auto* out_cbegin = take_indices->GetMutableValues<uint64_t>(1) + out_size - 1;
+    while (heap.size() > 0) {
+      *out_cbegin = heap.top();
+      heap.pop();
+      --out_cbegin;
+    }
+    *output_ = Datum(take_indices);
+    return Status::OK();
+  }
+
+  Status status_;
+  ExecContext* ctx_;
+  const RecordBatch& record_batch_;
+  int64_t k_;
+  Datum* output_;
+  std::vector<ResolvedSortKey> sort_keys_;
+  Comparator comparator_;
+};
+
+class TableSelecter : public TypeVisitor {
+ private:
+  struct ResolvedSortKey {
+    ResolvedSortKey(const std::shared_ptr<ChunkedArray>& chunked_array,
+                    const SortOrder order)
+        : order(order),
+          type(GetPhysicalType(chunked_array->type())),
+          chunks(GetPhysicalChunks(*chunked_array, type)),
+          null_count(chunked_array->null_count()),
+          resolver(GetArrayPointers(chunks)) {}
+
+    using LocationType = int64_t;
+
+    // Find the target chunk and index in the target chunk from an
+    // index in chunked array.
+    template <typename ArrayType>
+    ResolvedChunk<ArrayType> GetChunk(int64_t index) const {
+      return resolver.Resolve<ArrayType>(index);
+    }
+
+    const SortOrder order;
+    const std::shared_ptr<DataType> type;
+    const ArrayVector chunks;
+    const int64_t null_count;
+    const ChunkedArrayResolver resolver;
+  };
+  using Comparator = MultipleKeyComparator<ResolvedSortKey>;
+
+ public:
+  TableSelecter(ExecContext* ctx, const Table& table, const SelectKOptions& options,
+                Datum* output)
+      : TypeVisitor(),
+        ctx_(ctx),
+        table_(table),
+        k_(options.k),
+        output_(output),
+        sort_keys_(ResolveSortKeys(table, options.sort_keys, &status_)),
+        comparator_(sort_keys_, NullPlacement::AtEnd) {}
+
+  Status Run() {
+    RETURN_NOT_OK(status_);
+    return sort_keys_[0].type->Accept(this);
+  }
+
+ protected:
+#define VISIT(TYPE)                                            \
+  Status Visit(const TYPE& type) {                             \
+    if (sort_keys_[0].order == SortOrder::Descending)          \
+      return SelectKthInternal<TYPE, SortOrder::Descending>(); \
+    return SelectKthInternal<TYPE, SortOrder::Ascending>();    \
+  }
+  VISIT_SORTABLE_PHYSICAL_TYPES(VISIT)
+
+#undef VISIT
+
+  static std::vector<ResolvedSortKey> ResolveSortKeys(
+      const Table& table, const std::vector<SortKey>& sort_keys, Status* status) {
+    std::vector<ResolvedSortKey> resolved;
+    for (const auto& key : sort_keys) {
+      auto maybe_chunked_array = GetColumn(table, key.target);
+      if (!maybe_chunked_array.ok()) {
+        *status = maybe_chunked_array.status();
+        return {};
+      }
+      resolved.emplace_back(*std::move(maybe_chunked_array), key.order);
+    }
+    return resolved;
+  }
+
+  // Behaves like PartitionNulls() but this supports multiple sort keys.
+  template <typename Type>
+  NullPartitionResult PartitionNullsInternal(uint64_t* indices_begin,
+                                             uint64_t* indices_end,
+                                             const ResolvedSortKey& first_sort_key) {
+    using ArrayType = typename TypeTraits<Type>::ArrayType;
+
+    const auto p = PartitionNullsOnly<StablePartitioner>(
+        indices_begin, indices_end, first_sort_key.resolver, first_sort_key.null_count,
+        NullPlacement::AtEnd);
+    DCHECK_EQ(p.nulls_end - p.nulls_begin, first_sort_key.null_count);
+
+    const auto q = PartitionNullLikes<ArrayType, StablePartitioner>(
+        p.non_nulls_begin, p.non_nulls_end, first_sort_key.resolver,
+        NullPlacement::AtEnd);
+
+    auto& comparator = comparator_;
+    // Sort all NaNs by the second and following sort keys.
+    std::stable_sort(q.nulls_begin, q.nulls_end, [&](uint64_t left, uint64_t right) {
+      return comparator.Compare(left, right, 1);
+    });
+    // Sort all nulls by the second and following sort keys.
+    std::stable_sort(p.nulls_begin, p.nulls_end, [&](uint64_t left, uint64_t right) {
+      return comparator.Compare(left, right, 1);
+    });
+
+    return q;
+  }
+
+  // XXX this implementation is rather inefficient as it computes chunk indices
+  // at every comparison.  Instead we should iterate over individual batches
+  // and remember ChunkLocation entries in the max-heap.
+
+  template <typename InType, SortOrder sort_order>
+  Status SelectKthInternal() {
+    using ArrayType = typename TypeTraits<InType>::ArrayType;
+    auto& comparator = comparator_;
+    const auto& first_sort_key = sort_keys_[0];
+
+    const auto num_rows = table_.num_rows();
+    if (num_rows == 0) {
+      return Status::OK();
+    }
+    if (k_ > table_.num_rows()) {
+      k_ = table_.num_rows();
+    }
+    std::function<bool(const uint64_t&, const uint64_t&)> cmp;
+    SelectKComparator<sort_order> select_k_comparator;
+    cmp = [&](const uint64_t& left, const uint64_t& right) -> bool {
+      auto chunk_left = first_sort_key.template GetChunk<ArrayType>(left);
+      auto chunk_right = first_sort_key.template GetChunk<ArrayType>(right);
+      auto value_left = chunk_left.Value();
+      auto value_right = chunk_right.Value();
+      if (value_left == value_right) {
+        return comparator.Compare(left, right, 1);
+      }
+      return select_k_comparator(value_left, value_right);
+    };
+    using HeapContainer =
+        std::priority_queue<uint64_t, std::vector<uint64_t>, decltype(cmp)>;
+
+    std::vector<uint64_t> indices(num_rows);
+    uint64_t* indices_begin = indices.data();
+    uint64_t* indices_end = indices_begin + indices.size();
+    std::iota(indices_begin, indices_end, 0);
+
+    const auto p =
+        this->PartitionNullsInternal<InType>(indices_begin, indices_end, first_sort_key);
+    const auto end_iter = p.non_nulls_end;
+    auto kth_begin = std::min(indices_begin + k_, end_iter);
+
+    HeapContainer heap(indices_begin, kth_begin, cmp);
+    for (auto iter = kth_begin; iter != end_iter && !heap.empty(); ++iter) {
+      uint64_t x_index = *iter;
+      uint64_t top_item = heap.top();
+      if (cmp(x_index, top_item)) {
+        heap.pop();
+        heap.push(x_index);
+      }
+    }
+    auto out_size = static_cast<int64_t>(heap.size());
+    ARROW_ASSIGN_OR_RAISE(auto take_indices,
+                          MakeMutableUInt64Array(out_size, ctx_->memory_pool()));
+    auto* out_cbegin = take_indices->GetMutableValues<uint64_t>(1) + out_size - 1;
+    while (heap.size() > 0) {
+      *out_cbegin = heap.top();
+      heap.pop();
+      --out_cbegin;
+    }
+    *output_ = Datum(take_indices);
+    return Status::OK();
+  }
+
+  Status status_;
+  ExecContext* ctx_;
+  const Table& table_;
+  int64_t k_;
+  Datum* output_;
+  std::vector<ResolvedSortKey> sort_keys_;
+  Comparator comparator_;
+};
+
+static Status CheckConsistency(const Schema& schema,
+                               const std::vector<SortKey>& sort_keys) {
+  for (const auto& key : sort_keys) {
+    RETURN_NOT_OK(CheckNonNested(key.target));
+    RETURN_NOT_OK(PrependInvalidColumn(key.target.FindOne(schema)));
+  }
+  return Status::OK();
+}
+
+class SelectKUnstableMetaFunction : public MetaFunction {
+ public:
+  SelectKUnstableMetaFunction()
+      : MetaFunction("select_k_unstable", Arity::Unary(), select_k_unstable_doc,
+                     GetDefaultSelectKOptions()) {}
+
+  Result<Datum> ExecuteImpl(const std::vector<Datum>& args,
+                            const FunctionOptions* options,
+                            ExecContext* ctx) const override {
+    const auto& select_k_options = static_cast<const SelectKOptions&>(*options);
+    if (select_k_options.k < 0) {
+      return Status::Invalid("select_k_unstable requires a nonnegative `k`, got ",
+                             select_k_options.k);
+    }
+    if (select_k_options.sort_keys.size() == 0) {
+      return Status::Invalid("select_k_unstable requires a non-empty `sort_keys`");
+    }
+    switch (args[0].kind()) {
+      case Datum::ARRAY:
+        return SelectKth(*args[0].make_array(), select_k_options, ctx);
+      case Datum::CHUNKED_ARRAY:
+        return SelectKth(*args[0].chunked_array(), select_k_options, ctx);
+      case Datum::RECORD_BATCH:
+        return SelectKth(*args[0].record_batch(), select_k_options, ctx);
+      case Datum::TABLE:
+        return SelectKth(*args[0].table(), select_k_options, ctx);
+      default:
+        break;
+    }
+    return Status::NotImplemented(
+        "Unsupported types for select_k operation: "
+        "values=",
+        args[0].ToString());
+  }
+
+ private:
+  Result<Datum> SelectKth(const Array& array, const SelectKOptions& options,
+                          ExecContext* ctx) const {
+    Datum output;
+    ArraySelecter selecter(ctx, array, options, &output);
+    ARROW_RETURN_NOT_OK(selecter.Run());
+    return output;
+  }
+
+  Result<Datum> SelectKth(const ChunkedArray& chunked_array,
+                          const SelectKOptions& options, ExecContext* ctx) const {
+    Datum output;
+    ChunkedArraySelecter selecter(ctx, chunked_array, options, &output);
+    ARROW_RETURN_NOT_OK(selecter.Run());
+    return output;
+  }
+  Result<Datum> SelectKth(const RecordBatch& record_batch, const SelectKOptions& options,
+                          ExecContext* ctx) const {
+    ARROW_RETURN_NOT_OK(CheckConsistency(*record_batch.schema(), options.sort_keys));
+    Datum output;
+    RecordBatchSelecter selecter(ctx, record_batch, options, &output);
+    ARROW_RETURN_NOT_OK(selecter.Run());
+    return output;
+  }
+  Result<Datum> SelectKth(const Table& table, const SelectKOptions& options,
+                          ExecContext* ctx) const {
+    ARROW_RETURN_NOT_OK(CheckConsistency(*table.schema(), options.sort_keys));
+    Datum output;
+    TableSelecter selecter(ctx, table, options, &output);
+    ARROW_RETURN_NOT_OK(selecter.Run());
+    return output;
+  }
+};
+
+}  // namespace
+
+void RegisterVectorSelectK(FunctionRegistry* registry) {
+  DCHECK_OK(registry->AddFunction(std::make_shared<SelectKUnstableMetaFunction>()));
+}
+
+}  // namespace compute::internal
+}  // namespace arrow
diff --git a/cpp/src/arrow/compute/kernels/vector_selection_test.cc b/cpp/src/arrow/compute/kernels/vector_selection_test.cc
index f98af93eef3..a58825abdab 100644
--- a/cpp/src/arrow/compute/kernels/vector_selection_test.cc
+++ b/cpp/src/arrow/compute/kernels/vector_selection_test.cc
@@ -37,7 +37,7 @@ namespace arrow {
 
 using internal::checked_cast;
 using internal::checked_pointer_cast;
-using util::string_view;
+using std::string_view;
 
 namespace compute {
 
diff --git a/cpp/src/arrow/compute/kernels/vector_sort.cc b/cpp/src/arrow/compute/kernels/vector_sort.cc
index 28307ecca37..1aa67a40e3f 100644
--- a/cpp/src/arrow/compute/kernels/vector_sort.cc
+++ b/cpp/src/arrow/compute/kernels/vector_sort.cc
@@ -15,30 +15,10 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include <algorithm>
-#include <cmath>
-#include <iterator>
-#include <limits>
-#include <numeric>
-#include <queue>
-#include <type_traits>
 #include <unordered_set>
-#include <utility>
-
-#include "arrow/array/concatenate.h"
-#include "arrow/array/data.h"
-#include "arrow/chunk_resolver.h"
-#include "arrow/compute/api_vector.h"
-#include "arrow/compute/kernels/chunked_internal.h"
-#include "arrow/compute/kernels/common.h"
-#include "arrow/compute/kernels/util_internal.h"
+
 #include "arrow/compute/kernels/vector_sort_internal.h"
-#include "arrow/table.h"
-#include "arrow/type_traits.h"
-#include "arrow/util/checked_cast.h"
-#include "arrow/util/optional.h"
-#include "arrow/visit_type_inline.h"
-#include "arrow/visitor.h"
+#include "arrow/compute/registry.h"
 
 namespace arrow {
 
@@ -49,104 +29,6 @@ namespace internal {
 
 namespace {
 
-struct SortField {
-  int field_index;
-  SortOrder order;
-};
-
-Status CheckNonNested(const FieldRef& ref) {
-  if (ref.IsNested()) {
-    return Status::KeyError("Nested keys not supported for SortKeys");
-  }
-  return Status::OK();
-}
-
-template <typename T>
-Result<T> PrependInvalidColumn(Result<T> res) {
-  if (res.ok()) return res;
-  return res.status().WithMessage("Invalid sort key column: ", res.status().message());
-}
-
-// Return the field indices of the sort keys, deduplicating them along the way
-Result<std::vector<SortField>> FindSortKeys(const Schema& schema,
-                                            const std::vector<SortKey>& sort_keys) {
-  std::vector<SortField> fields;
-  std::unordered_set<int> seen;
-  fields.reserve(sort_keys.size());
-  seen.reserve(sort_keys.size());
-
-  for (const auto& sort_key : sort_keys) {
-    RETURN_NOT_OK(CheckNonNested(sort_key.target));
-
-    ARROW_ASSIGN_OR_RAISE(auto match,
-                          PrependInvalidColumn(sort_key.target.FindOne(schema)));
-    if (seen.insert(match[0]).second) {
-      fields.push_back({match[0], sort_key.order});
-    }
-  }
-  return fields;
-}
-
-template <typename ResolvedSortKey, typename ResolvedSortKeyFactory>
-Result<std::vector<ResolvedSortKey>> ResolveSortKeys(
-    const Schema& schema, const std::vector<SortKey>& sort_keys,
-    ResolvedSortKeyFactory&& factory) {
-  ARROW_ASSIGN_OR_RAISE(const auto fields, FindSortKeys(schema, sort_keys));
-  std::vector<ResolvedSortKey> resolved;
-  resolved.reserve(fields.size());
-  std::transform(fields.begin(), fields.end(), std::back_inserter(resolved), factory);
-  return resolved;
-}
-
-template <typename ResolvedSortKey, typename TableOrBatch>
-Result<std::vector<ResolvedSortKey>> ResolveSortKeys(
-    const TableOrBatch& table_or_batch, const std::vector<SortKey>& sort_keys) {
-  return ResolveSortKeys<ResolvedSortKey>(
-      *table_or_batch.schema(), sort_keys, [&](const SortField& f) {
-        return ResolvedSortKey{table_or_batch.column(f.field_index), f.order};
-      });
-}
-
-// Returns nullptr if no column matching `ref` is found, or if the FieldRef is
-// a nested reference.
-std::shared_ptr<ChunkedArray> GetTableColumn(const Table& table, const FieldRef& ref) {
-  if (ref.IsNested()) return nullptr;
-
-  if (auto name = ref.name()) {
-    return table.GetColumnByName(*name);
-  }
-
-  auto index = ref.field_path()->indices()[0];
-  if (index >= table.num_columns()) return nullptr;
-  return table.column(index);
-}
-
-// We could try to reproduce the concrete Array classes' facilities
-// (such as cached raw values pointer) in a separate hierarchy of
-// physical accessors, but doing so ends up too cumbersome.
-// Instead, we simply create the desired concrete Array objects.
-std::shared_ptr<Array> GetPhysicalArray(const Array& array,
-                                        const std::shared_ptr<DataType>& physical_type) {
-  auto new_data = array.data()->Copy();
-  new_data->type = physical_type;
-  return MakeArray(std::move(new_data));
-}
-
-ArrayVector GetPhysicalChunks(const ArrayVector& chunks,
-                              const std::shared_ptr<DataType>& physical_type) {
-  ArrayVector physical(chunks.size());
-  std::transform(chunks.begin(), chunks.end(), physical.begin(),
-                 [&](const std::shared_ptr<Array>& array) {
-                   return GetPhysicalArray(*array, physical_type);
-                 });
-  return physical;
-}
-
-ArrayVector GetPhysicalChunks(const ChunkedArray& chunked_array,
-                              const std::shared_ptr<DataType>& physical_type) {
-  return GetPhysicalChunks(chunked_array.chunks(), physical_type);
-}
-
 Result<RecordBatchVector> BatchesFromTable(const Table& table) {
   return TableBatchReader(table).ToRecordBatches();
 }
@@ -540,177 +422,10 @@ class RadixRecordBatchSorter {
   uint64_t* indices_end_;
 };
 
-// Compare two records in a single column (either from a batch or table)
-template <typename ResolvedSortKey>
-struct ColumnComparator {
-  using Location = typename ResolvedSortKey::LocationType;
-
-  ColumnComparator(const ResolvedSortKey& sort_key, NullPlacement null_placement)
-      : sort_key_(sort_key), null_placement_(null_placement) {}
-
-  virtual ~ColumnComparator() = default;
-
-  virtual int Compare(const Location& left, const Location& right) const = 0;
-
-  ResolvedSortKey sort_key_;
-  NullPlacement null_placement_;
-};
-
-template <typename ResolvedSortKey, typename Type>
-struct ConcreteColumnComparator : public ColumnComparator<ResolvedSortKey> {
-  using ArrayType = typename TypeTraits<Type>::ArrayType;
-  using Location = typename ResolvedSortKey::LocationType;
-
-  using ColumnComparator<ResolvedSortKey>::ColumnComparator;
-
-  int Compare(const Location& left, const Location& right) const override {
-    const auto& sort_key = this->sort_key_;
-
-    const auto chunk_left = sort_key.template GetChunk<ArrayType>(left);
-    const auto chunk_right = sort_key.template GetChunk<ArrayType>(right);
-    if (sort_key.null_count > 0) {
-      const bool is_null_left = chunk_left.IsNull();
-      const bool is_null_right = chunk_right.IsNull();
-      if (is_null_left && is_null_right) {
-        return 0;
-      } else if (is_null_left) {
-        return this->null_placement_ == NullPlacement::AtStart ? -1 : 1;
-      } else if (is_null_right) {
-        return this->null_placement_ == NullPlacement::AtStart ? 1 : -1;
-      }
-    }
-    return CompareTypeValues<Type>(chunk_left.Value(), chunk_right.Value(),
-                                   sort_key.order, this->null_placement_);
-  }
-};
-
-template <typename ResolvedSortKey>
-struct ConcreteColumnComparator<ResolvedSortKey, NullType>
-    : public ColumnComparator<ResolvedSortKey> {
-  using Location = typename ResolvedSortKey::LocationType;
-
-  using ColumnComparator<ResolvedSortKey>::ColumnComparator;
-
-  int Compare(const Location& left, const Location& right) const override { return 0; }
-};
-
-// Compare two records in the same RecordBatch or Table
-// (indexing is handled through ResolvedSortKey)
-template <typename ResolvedSortKey>
-class MultipleKeyComparator {
- public:
-  using Location = typename ResolvedSortKey::LocationType;
-
-  MultipleKeyComparator(const std::vector<ResolvedSortKey>& sort_keys,
-                        NullPlacement null_placement)
-      : sort_keys_(sort_keys), null_placement_(null_placement) {
-    status_ &= MakeComparators();
-  }
-
-  Status status() const { return status_; }
-
-  // Returns true if the left-th value should be ordered before the
-  // right-th value, false otherwise. The start_sort_key_index-th
-  // sort key and subsequent sort keys are used for comparison.
-  bool Compare(const Location& left, const Location& right, size_t start_sort_key_index) {
-    return CompareInternal(left, right, start_sort_key_index) < 0;
-  }
-
-  bool Equals(const Location& left, const Location& right, size_t start_sort_key_index) {
-    return CompareInternal(left, right, start_sort_key_index) == 0;
-  }
-
- private:
-  struct ColumnComparatorFactory {
-#define VISIT(TYPE) \
-  Status Visit(const TYPE& type) { return VisitGeneric(type); }
-
-    VISIT_SORTABLE_PHYSICAL_TYPES(VISIT)
-    VISIT(NullType)
-
-#undef VISIT
-
-    Status Visit(const DataType& type) {
-      return Status::TypeError("Unsupported type for batch or table sorting: ",
-                               type.ToString());
-    }
-
-    template <typename Type>
-    Status VisitGeneric(const Type& type) {
-      res.reset(
-          new ConcreteColumnComparator<ResolvedSortKey, Type>{sort_key, null_placement});
-      return Status::OK();
-    }
-
-    const ResolvedSortKey& sort_key;
-    NullPlacement null_placement;
-    std::unique_ptr<ColumnComparator<ResolvedSortKey>> res;
-  };
-
-  Status MakeComparators() {
-    column_comparators_.reserve(sort_keys_.size());
-
-    for (const auto& sort_key : sort_keys_) {
-      ColumnComparatorFactory factory{sort_key, null_placement_, nullptr};
-      RETURN_NOT_OK(VisitTypeInline(*sort_key.type, &factory));
-      column_comparators_.push_back(std::move(factory.res));
-    }
-    return Status::OK();
-  }
-
-  // Compare two records in the same table and return -1, 0 or 1.
-  //
-  // -1: The left is less than the right.
-  // 0: The left equals to the right.
-  // 1: The left is greater than the right.
-  //
-  // This supports null and NaN. Null is processed in this and NaN
-  // is processed in CompareTypeValue().
-  int CompareInternal(const Location& left, const Location& right,
-                      size_t start_sort_key_index) {
-    const auto num_sort_keys = sort_keys_.size();
-    for (size_t i = start_sort_key_index; i < num_sort_keys; ++i) {
-      const int r = column_comparators_[i]->Compare(left, right);
-      if (r != 0) {
-        return r;
-      }
-    }
-    return 0;
-  }
-
-  const std::vector<ResolvedSortKey>& sort_keys_;
-  const NullPlacement null_placement_;
-  std::vector<std::unique_ptr<ColumnComparator<ResolvedSortKey>>> column_comparators_;
-  Status status_;
-};
-
 // Sort a batch using a single sort and multiple-key comparisons.
 class MultipleKeyRecordBatchSorter : public TypeVisitor {
- public:
-  // Preprocessed sort key.
-  struct ResolvedSortKey {
-    ResolvedSortKey(const std::shared_ptr<Array>& array, SortOrder order)
-        : type(GetPhysicalType(array->type())),
-          owned_array(GetPhysicalArray(*array, type)),
-          array(*owned_array),
-          order(order),
-          null_count(array->null_count()) {}
-
-    using LocationType = int64_t;
-
-    template <typename ArrayType>
-    ResolvedChunk<ArrayType> GetChunk(int64_t index) const {
-      return {&checked_cast<const ArrayType&>(array), index};
-    }
-
-    const std::shared_ptr<DataType> type;
-    std::shared_ptr<Array> owned_array;
-    const Array& array;
-    SortOrder order;
-    int64_t null_count;
-  };
-
  private:
+  using ResolvedSortKey = ResolvedRecordBatchSortKey;
   using Comparator = MultipleKeyComparator<ResolvedSortKey>;
 
  public:
@@ -757,7 +472,8 @@ class MultipleKeyRecordBatchSorter : public TypeVisitor {
 
     auto& comparator = comparator_;
     const auto& first_sort_key = sort_keys_[0];
-    const ArrayType& array = checked_cast<const ArrayType&>(first_sort_key.array);
+    const ArrayType& array =
+        ::arrow::internal::checked_cast<const ArrayType&>(first_sort_key.array);
     const auto p = PartitionNullsInternal<Type>(first_sort_key);
 
     // Sort first-key non-nulls
@@ -795,7 +511,8 @@ class MultipleKeyRecordBatchSorter : public TypeVisitor {
   template <typename Type>
   NullPartitionResult PartitionNullsInternal(const ResolvedSortKey& first_sort_key) {
     using ArrayType = typename TypeTraits<Type>::ArrayType;
-    const ArrayType& array = checked_cast<const ArrayType&>(first_sort_key.array);
+    const ArrayType& array =
+        ::arrow::internal::checked_cast<const ArrayType&>(first_sort_key.array);
 
     const auto p = PartitionNullsOnly<StablePartitioner>(indices_begin_, indices_end_,
                                                          array, 0, null_placement_);
@@ -840,56 +557,12 @@ class MultipleKeyRecordBatchSorter : public TypeVisitor {
 // that batch columns are contiguous and therefore have less indexing
 // overhead), then sorted batches are merged recursively.
 class TableSorter {
- public:
-  // Preprocessed sort key.
-  struct ResolvedSortKey {
-    ResolvedSortKey(const std::shared_ptr<DataType>& type, ArrayVector chunks,
-                    SortOrder order, int64_t null_count)
-        : type(GetPhysicalType(type)),
-          owned_chunks(std::move(chunks)),
-          chunks(GetArrayPointers(owned_chunks)),
-          order(order),
-          null_count(null_count) {}
-
-    using LocationType = ::arrow::internal::ChunkLocation;
-
-    template <typename ArrayType>
-    ResolvedChunk<ArrayType> GetChunk(::arrow::internal::ChunkLocation loc) const {
-      return {checked_cast<const ArrayType*>(chunks[loc.chunk_index]),
-              loc.index_in_chunk};
-    }
-
-    // Make a vector of ResolvedSortKeys for the sort keys and the given table.
-    // `batches` must be a chunking of `table`.
-    static Result<std::vector<ResolvedSortKey>> Make(
-        const Table& table, const RecordBatchVector& batches,
-        const std::vector<SortKey>& sort_keys) {
-      auto factory = [&](const SortField& f) {
-        const auto& type = table.schema()->field(f.field_index)->type();
-        // We must expose a homogenous chunking for all ResolvedSortKey,
-        // so we can't simply pass `table.column(f.field_index)`
-        ArrayVector chunks(batches.size());
-        std::transform(batches.begin(), batches.end(), chunks.begin(),
-                       [&](const std::shared_ptr<RecordBatch>& batch) {
-                         return batch->column(f.field_index);
-                       });
-        return ResolvedSortKey(type, std::move(chunks), f.order,
-                               table.column(f.field_index)->null_count());
-      };
-
-      return ::arrow::compute::internal::ResolveSortKeys<ResolvedSortKey>(
-          *table.schema(), sort_keys, factory);
-    }
-
-    std::shared_ptr<DataType> type;
-    ArrayVector owned_chunks;
-    std::vector<const Array*> chunks;
-    SortOrder order;
-    int64_t null_count;
-  };
-
   // TODO make all methods const and defer initialization into a Init() method?
+ private:
+  using ResolvedSortKey = ResolvedTableSortKey;
+  using Comparator = MultipleKeyComparator<ResolvedSortKey>;
 
+ public:
   TableSorter(ExecContext* ctx, uint64_t* indices_begin, uint64_t* indices_end,
               const Table& table, const SortOptions& options)
       : ctx_(ctx),
@@ -912,8 +585,6 @@ class TableSorter {
   }
 
  private:
-  using Comparator = MultipleKeyComparator<ResolvedSortKey>;
-
   static RecordBatchVector MakeBatches(const Table& table, Status* status) {
     const auto maybe_batches = BatchesFromTable(table);
     if (!maybe_batches.ok()) {
@@ -1240,8 +911,8 @@ class SortIndicesMetaFunction : public MetaFunction {
       return Status::Invalid("Must specify one or more sort keys");
     }
     if (n_sort_keys == 1) {
-      ARROW_ASSIGN_OR_RAISE(
-          auto array, PrependInvalidColumn(options.sort_keys[0].target.GetOne(batch)));
+      ARROW_ASSIGN_OR_RAISE(auto array, PrependInvalidColumn(GetColumn(
+                                            batch, options.sort_keys[0].target)));
       return SortIndices(*array, options, ctx);
     }
 
@@ -1277,11 +948,8 @@ class SortIndicesMetaFunction : public MetaFunction {
       return Status::Invalid("Must specify one or more sort keys");
     }
     if (n_sort_keys == 1) {
-      auto chunked_array = GetTableColumn(table, options.sort_keys[0].target);
-      if (!chunked_array) {
-        return Status::Invalid("Nonexistent sort key column: ",
-                               options.sort_keys[0].target.ToString());
-      }
+      ARROW_ASSIGN_OR_RAISE(auto chunked_array, PrependInvalidColumn(GetColumn(
+                                                    table, options.sort_keys[0].target)));
       return SortIndices(*chunked_array, options, ctx);
     }
 
@@ -1304,825 +972,27 @@ class SortIndicesMetaFunction : public MetaFunction {
   }
 };
 
-// ----------------------------------------------------------------------
-// TopK/BottomK implementations
-
-const SelectKOptions* GetDefaultSelectKOptions() {
-  static const auto kDefaultSelectKOptions = SelectKOptions::Defaults();
-  return &kDefaultSelectKOptions;
-}
-
-const FunctionDoc select_k_unstable_doc(
-    "Select the indices of the first `k` ordered elements from the input",
-    ("This function selects an array of indices of the first `k` ordered elements\n"
-     "from the `input` array, record batch or table specified in the column keys\n"
-     "(`options.sort_keys`). Output is not guaranteed to be stable.\n"
-     "Null values are considered greater than any other value and are\n"
-     "therefore ordered at the end. For floating-point types, NaNs are considered\n"
-     "greater than any other non-null value, but smaller than null values."),
-    {"input"}, "SelectKOptions", /*options_required=*/true);
-
-Result<std::shared_ptr<ArrayData>> MakeMutableUInt64Array(
-    std::shared_ptr<DataType> out_type, int64_t length, MemoryPool* memory_pool) {
-  auto buffer_size = length * sizeof(uint64_t);
-  ARROW_ASSIGN_OR_RAISE(auto data, AllocateBuffer(buffer_size, memory_pool));
-  return ArrayData::Make(uint64(), length, {nullptr, std::move(data)}, /*null_count=*/0);
-}
-
-template <SortOrder order>
-class SelectKComparator {
- public:
-  template <typename Type>
-  bool operator()(const Type& lval, const Type& rval);
-};
-
-template <>
-class SelectKComparator<SortOrder::Ascending> {
- public:
-  template <typename Type>
-  bool operator()(const Type& lval, const Type& rval) {
-    return lval < rval;
-  }
-};
-
-template <>
-class SelectKComparator<SortOrder::Descending> {
- public:
-  template <typename Type>
-  bool operator()(const Type& lval, const Type& rval) {
-    return rval < lval;
-  }
-};
-
-class ArraySelecter : public TypeVisitor {
- public:
-  ArraySelecter(ExecContext* ctx, const Array& array, const SelectKOptions& options,
-                Datum* output)
-      : TypeVisitor(),
-        ctx_(ctx),
-        array_(array),
-        k_(options.k),
-        order_(options.sort_keys[0].order),
-        physical_type_(GetPhysicalType(array.type())),
-        output_(output) {}
-
-  Status Run() { return physical_type_->Accept(this); }
-
-#define VISIT(TYPE)                                           \
-  Status Visit(const TYPE& type) {                            \
-    if (order_ == SortOrder::Ascending) {                     \
-      return SelectKthInternal<TYPE, SortOrder::Ascending>(); \
-    }                                                         \
-    return SelectKthInternal<TYPE, SortOrder::Descending>();  \
-  }
-
-  VISIT_SORTABLE_PHYSICAL_TYPES(VISIT)
-
-#undef VISIT
-
-  template <typename InType, SortOrder sort_order>
-  Status SelectKthInternal() {
-    using GetView = GetViewType<InType>;
-    using ArrayType = typename TypeTraits<InType>::ArrayType;
-
-    ArrayType arr(array_.data());
-    std::vector<uint64_t> indices(arr.length());
-
-    uint64_t* indices_begin = indices.data();
-    uint64_t* indices_end = indices_begin + indices.size();
-    std::iota(indices_begin, indices_end, 0);
-    if (k_ > arr.length()) {
-      k_ = arr.length();
-    }
-
-    const auto p = PartitionNulls<ArrayType, NonStablePartitioner>(
-        indices_begin, indices_end, arr, 0, NullPlacement::AtEnd);
-    const auto end_iter = p.non_nulls_end;
-
-    auto kth_begin = std::min(indices_begin + k_, end_iter);
-
-    SelectKComparator<sort_order> comparator;
-    auto cmp = [&arr, &comparator](uint64_t left, uint64_t right) {
-      const auto lval = GetView::LogicalValue(arr.GetView(left));
-      const auto rval = GetView::LogicalValue(arr.GetView(right));
-      return comparator(lval, rval);
-    };
-    using HeapContainer =
-        std::priority_queue<uint64_t, std::vector<uint64_t>, decltype(cmp)>;
-    HeapContainer heap(indices_begin, kth_begin, cmp);
-    for (auto iter = kth_begin; iter != end_iter && !heap.empty(); ++iter) {
-      uint64_t x_index = *iter;
-      if (cmp(x_index, heap.top())) {
-        heap.pop();
-        heap.push(x_index);
-      }
-    }
-    int64_t out_size = static_cast<int64_t>(heap.size());
-    ARROW_ASSIGN_OR_RAISE(auto take_indices, MakeMutableUInt64Array(uint64(), out_size,
-                                                                    ctx_->memory_pool()));
-
-    auto* out_cbegin = take_indices->GetMutableValues<uint64_t>(1) + out_size - 1;
-    while (heap.size() > 0) {
-      *out_cbegin = heap.top();
-      heap.pop();
-      --out_cbegin;
-    }
-    *output_ = Datum(take_indices);
-    return Status::OK();
-  }
-
-  ExecContext* ctx_;
-  const Array& array_;
-  int64_t k_;
-  SortOrder order_;
-  const std::shared_ptr<DataType> physical_type_;
-  Datum* output_;
-};
-
-template <typename ArrayType>
-struct TypedHeapItem {
-  uint64_t index;
-  uint64_t offset;
-  ArrayType* array;
-};
-
-class ChunkedArraySelecter : public TypeVisitor {
- public:
-  ChunkedArraySelecter(ExecContext* ctx, const ChunkedArray& chunked_array,
-                       const SelectKOptions& options, Datum* output)
-      : TypeVisitor(),
-        chunked_array_(chunked_array),
-        physical_type_(GetPhysicalType(chunked_array.type())),
-        physical_chunks_(GetPhysicalChunks(chunked_array_, physical_type_)),
-        k_(options.k),
-        order_(options.sort_keys[0].order),
-        ctx_(ctx),
-        output_(output) {}
-
-  Status Run() { return physical_type_->Accept(this); }
-
-#define VISIT(TYPE)                                           \
-  Status Visit(const TYPE& type) {                            \
-    if (order_ == SortOrder::Ascending) {                     \
-      return SelectKthInternal<TYPE, SortOrder::Ascending>(); \
-    }                                                         \
-    return SelectKthInternal<TYPE, SortOrder::Descending>();  \
-  }
-
-  VISIT_SORTABLE_PHYSICAL_TYPES(VISIT)
-#undef VISIT
-
-  template <typename InType, SortOrder sort_order>
-  Status SelectKthInternal() {
-    using GetView = GetViewType<InType>;
-    using ArrayType = typename TypeTraits<InType>::ArrayType;
-    using HeapItem = TypedHeapItem<ArrayType>;
-
-    const auto num_chunks = chunked_array_.num_chunks();
-    if (num_chunks == 0) {
-      return Status::OK();
-    }
-    if (k_ > chunked_array_.length()) {
-      k_ = chunked_array_.length();
-    }
-    std::function<bool(const HeapItem&, const HeapItem&)> cmp;
-    SelectKComparator<sort_order> comparator;
-
-    cmp = [&comparator](const HeapItem& left, const HeapItem& right) -> bool {
-      const auto lval = GetView::LogicalValue(left.array->GetView(left.index));
-      const auto rval = GetView::LogicalValue(right.array->GetView(right.index));
-      return comparator(lval, rval);
-    };
-    using HeapContainer =
-        std::priority_queue<HeapItem, std::vector<HeapItem>, decltype(cmp)>;
-
-    HeapContainer heap(cmp);
-    std::vector<std::shared_ptr<ArrayType>> chunks_holder;
-    uint64_t offset = 0;
-    for (const auto& chunk : physical_chunks_) {
-      if (chunk->length() == 0) continue;
-      chunks_holder.emplace_back(std::make_shared<ArrayType>(chunk->data()));
-      ArrayType& arr = *chunks_holder[chunks_holder.size() - 1];
-
-      std::vector<uint64_t> indices(arr.length());
-      uint64_t* indices_begin = indices.data();
-      uint64_t* indices_end = indices_begin + indices.size();
-      std::iota(indices_begin, indices_end, 0);
-
-      const auto p = PartitionNulls<ArrayType, NonStablePartitioner>(
-          indices_begin, indices_end, arr, 0, NullPlacement::AtEnd);
-      const auto end_iter = p.non_nulls_end;
-
-      auto kth_begin = std::min(indices_begin + k_, end_iter);
-      uint64_t* iter = indices_begin;
-      for (; iter != kth_begin && heap.size() < static_cast<size_t>(k_); ++iter) {
-        heap.push(HeapItem{*iter, offset, &arr});
-      }
-      for (; iter != end_iter && !heap.empty(); ++iter) {
-        uint64_t x_index = *iter;
-        const auto& xval = GetView::LogicalValue(arr.GetView(x_index));
-        auto top_item = heap.top();
-        const auto& top_value =
-            GetView::LogicalValue(top_item.array->GetView(top_item.index));
-        if (comparator(xval, top_value)) {
-          heap.pop();
-          heap.push(HeapItem{x_index, offset, &arr});
-        }
-      }
-      offset += chunk->length();
-    }
-
-    int64_t out_size = static_cast<int64_t>(heap.size());
-    ARROW_ASSIGN_OR_RAISE(auto take_indices, MakeMutableUInt64Array(uint64(), out_size,
-                                                                    ctx_->memory_pool()));
-    auto* out_cbegin = take_indices->GetMutableValues<uint64_t>(1) + out_size - 1;
-    while (heap.size() > 0) {
-      auto top_item = heap.top();
-      *out_cbegin = top_item.index + top_item.offset;
-      heap.pop();
-      --out_cbegin;
-    }
-    *output_ = Datum(take_indices);
-    return Status::OK();
-  }
-
-  const ChunkedArray& chunked_array_;
-  const std::shared_ptr<DataType> physical_type_;
-  const ArrayVector physical_chunks_;
-  int64_t k_;
-  SortOrder order_;
-  ExecContext* ctx_;
-  Datum* output_;
-};
-
-class RecordBatchSelecter : public TypeVisitor {
- private:
-  using ResolvedSortKey = MultipleKeyRecordBatchSorter::ResolvedSortKey;
-  using Comparator = MultipleKeyComparator<ResolvedSortKey>;
-
- public:
-  RecordBatchSelecter(ExecContext* ctx, const RecordBatch& record_batch,
-                      const SelectKOptions& options, Datum* output)
-      : TypeVisitor(),
-        ctx_(ctx),
-        record_batch_(record_batch),
-        k_(options.k),
-        output_(output),
-        sort_keys_(ResolveSortKeys(record_batch, options.sort_keys)),
-        comparator_(sort_keys_, NullPlacement::AtEnd) {}
-
-  Status Run() { return sort_keys_[0].type->Accept(this); }
-
- protected:
-#define VISIT(TYPE)                                            \
-  Status Visit(const TYPE& type) {                             \
-    if (sort_keys_[0].order == SortOrder::Descending)          \
-      return SelectKthInternal<TYPE, SortOrder::Descending>(); \
-    return SelectKthInternal<TYPE, SortOrder::Ascending>();    \
-  }
-  VISIT_SORTABLE_PHYSICAL_TYPES(VISIT)
-#undef VISIT
-
-  static std::vector<ResolvedSortKey> ResolveSortKeys(
-      const RecordBatch& batch, const std::vector<SortKey>& sort_keys) {
-    std::vector<ResolvedSortKey> resolved;
-    for (const auto& key : sort_keys) {
-      auto array = key.target.GetOne(batch).ValueOr(nullptr);
-      resolved.emplace_back(array, key.order);
-    }
-    return resolved;
-  }
-
-  template <typename InType, SortOrder sort_order>
-  Status SelectKthInternal() {
-    using GetView = GetViewType<InType>;
-    using ArrayType = typename TypeTraits<InType>::ArrayType;
-    auto& comparator = comparator_;
-    const auto& first_sort_key = sort_keys_[0];
-    const ArrayType& arr = checked_cast<const ArrayType&>(first_sort_key.array);
-
-    const auto num_rows = record_batch_.num_rows();
-    if (num_rows == 0) {
-      return Status::OK();
-    }
-    if (k_ > record_batch_.num_rows()) {
-      k_ = record_batch_.num_rows();
-    }
-    std::function<bool(const uint64_t&, const uint64_t&)> cmp;
-    SelectKComparator<sort_order> select_k_comparator;
-    cmp = [&](const uint64_t& left, const uint64_t& right) -> bool {
-      const auto lval = GetView::LogicalValue(arr.GetView(left));
-      const auto rval = GetView::LogicalValue(arr.GetView(right));
-      if (lval == rval) {
-        // If the left value equals to the right value,
-        // we need to compare the second and following
-        // sort keys.
-        return comparator.Compare(left, right, 1);
-      }
-      return select_k_comparator(lval, rval);
-    };
-    using HeapContainer =
-        std::priority_queue<uint64_t, std::vector<uint64_t>, decltype(cmp)>;
-
-    std::vector<uint64_t> indices(arr.length());
-    uint64_t* indices_begin = indices.data();
-    uint64_t* indices_end = indices_begin + indices.size();
-    std::iota(indices_begin, indices_end, 0);
-
-    const auto p = PartitionNulls<ArrayType, NonStablePartitioner>(
-        indices_begin, indices_end, arr, 0, NullPlacement::AtEnd);
-    const auto end_iter = p.non_nulls_end;
-
-    auto kth_begin = std::min(indices_begin + k_, end_iter);
-
-    HeapContainer heap(indices_begin, kth_begin, cmp);
-    for (auto iter = kth_begin; iter != end_iter && !heap.empty(); ++iter) {
-      uint64_t x_index = *iter;
-      auto top_item = heap.top();
-      if (cmp(x_index, top_item)) {
-        heap.pop();
-        heap.push(x_index);
-      }
-    }
-    int64_t out_size = static_cast<int64_t>(heap.size());
-    ARROW_ASSIGN_OR_RAISE(auto take_indices, MakeMutableUInt64Array(uint64(), out_size,
-                                                                    ctx_->memory_pool()));
-    auto* out_cbegin = take_indices->GetMutableValues<uint64_t>(1) + out_size - 1;
-    while (heap.size() > 0) {
-      *out_cbegin = heap.top();
-      heap.pop();
-      --out_cbegin;
-    }
-    *output_ = Datum(take_indices);
-    return Status::OK();
-  }
-
-  ExecContext* ctx_;
-  const RecordBatch& record_batch_;
-  int64_t k_;
-  Datum* output_;
-  std::vector<ResolvedSortKey> sort_keys_;
-  Comparator comparator_;
-};
-
-class TableSelecter : public TypeVisitor {
- private:
-  struct ResolvedSortKey {
-    ResolvedSortKey(const std::shared_ptr<ChunkedArray>& chunked_array,
-                    const SortOrder order)
-        : order(order),
-          type(GetPhysicalType(chunked_array->type())),
-          chunks(GetPhysicalChunks(*chunked_array, type)),
-          null_count(chunked_array->null_count()),
-          resolver(GetArrayPointers(chunks)) {}
-
-    using LocationType = int64_t;
-
-    // Find the target chunk and index in the target chunk from an
-    // index in chunked array.
-    template <typename ArrayType>
-    ResolvedChunk<ArrayType> GetChunk(int64_t index) const {
-      return resolver.Resolve<ArrayType>(index);
-    }
-
-    const SortOrder order;
-    const std::shared_ptr<DataType> type;
-    const ArrayVector chunks;
-    const int64_t null_count;
-    const ChunkedArrayResolver resolver;
-  };
-  using Comparator = MultipleKeyComparator<ResolvedSortKey>;
-
- public:
-  TableSelecter(ExecContext* ctx, const Table& table, const SelectKOptions& options,
-                Datum* output)
-      : TypeVisitor(),
-        ctx_(ctx),
-        table_(table),
-        k_(options.k),
-        output_(output),
-        sort_keys_(ResolveSortKeys(table, options.sort_keys)),
-        comparator_(sort_keys_, NullPlacement::AtEnd) {}
-
-  Status Run() { return sort_keys_[0].type->Accept(this); }
-
- protected:
-#define VISIT(TYPE)                                            \
-  Status Visit(const TYPE& type) {                             \
-    if (sort_keys_[0].order == SortOrder::Descending)          \
-      return SelectKthInternal<TYPE, SortOrder::Descending>(); \
-    return SelectKthInternal<TYPE, SortOrder::Ascending>();    \
-  }
-  VISIT_SORTABLE_PHYSICAL_TYPES(VISIT)
-
-#undef VISIT
-
-  static std::vector<ResolvedSortKey> ResolveSortKeys(
-      const Table& table, const std::vector<SortKey>& sort_keys) {
-    std::vector<ResolvedSortKey> resolved;
-    for (const auto& key : sort_keys) {
-      auto chunked_array = GetTableColumn(table, key.target);
-      resolved.emplace_back(chunked_array, key.order);
-    }
-    return resolved;
-  }
-
-  // Behaves like PartitionNulls() but this supports multiple sort keys.
-  template <typename Type>
-  NullPartitionResult PartitionNullsInternal(uint64_t* indices_begin,
-                                             uint64_t* indices_end,
-                                             const ResolvedSortKey& first_sort_key) {
-    using ArrayType = typename TypeTraits<Type>::ArrayType;
-
-    const auto p = PartitionNullsOnly<StablePartitioner>(
-        indices_begin, indices_end, first_sort_key.resolver, first_sort_key.null_count,
-        NullPlacement::AtEnd);
-    DCHECK_EQ(p.nulls_end - p.nulls_begin, first_sort_key.null_count);
-
-    const auto q = PartitionNullLikes<ArrayType, StablePartitioner>(
-        p.non_nulls_begin, p.non_nulls_end, first_sort_key.resolver,
-        NullPlacement::AtEnd);
-
-    auto& comparator = comparator_;
-    // Sort all NaNs by the second and following sort keys.
-    std::stable_sort(q.nulls_begin, q.nulls_end, [&](uint64_t left, uint64_t right) {
-      return comparator.Compare(left, right, 1);
-    });
-    // Sort all nulls by the second and following sort keys.
-    std::stable_sort(p.nulls_begin, p.nulls_end, [&](uint64_t left, uint64_t right) {
-      return comparator.Compare(left, right, 1);
-    });
-
-    return q;
-  }
-
-  // XXX this implementation is rather inefficient as it computes chunk indices
-  // at every comparison.  Instead we should iterate over individual batches
-  // and remember ChunkLocation entries in the max-heap.
-
-  template <typename InType, SortOrder sort_order>
-  Status SelectKthInternal() {
-    using ArrayType = typename TypeTraits<InType>::ArrayType;
-    auto& comparator = comparator_;
-    const auto& first_sort_key = sort_keys_[0];
-
-    const auto num_rows = table_.num_rows();
-    if (num_rows == 0) {
-      return Status::OK();
-    }
-    if (k_ > table_.num_rows()) {
-      k_ = table_.num_rows();
-    }
-    std::function<bool(const uint64_t&, const uint64_t&)> cmp;
-    SelectKComparator<sort_order> select_k_comparator;
-    cmp = [&](const uint64_t& left, const uint64_t& right) -> bool {
-      auto chunk_left = first_sort_key.template GetChunk<ArrayType>(left);
-      auto chunk_right = first_sort_key.template GetChunk<ArrayType>(right);
-      auto value_left = chunk_left.Value();
-      auto value_right = chunk_right.Value();
-      if (value_left == value_right) {
-        return comparator.Compare(left, right, 1);
-      }
-      return select_k_comparator(value_left, value_right);
-    };
-    using HeapContainer =
-        std::priority_queue<uint64_t, std::vector<uint64_t>, decltype(cmp)>;
-
-    std::vector<uint64_t> indices(num_rows);
-    uint64_t* indices_begin = indices.data();
-    uint64_t* indices_end = indices_begin + indices.size();
-    std::iota(indices_begin, indices_end, 0);
-
-    const auto p =
-        this->PartitionNullsInternal<InType>(indices_begin, indices_end, first_sort_key);
-    const auto end_iter = p.non_nulls_end;
-    auto kth_begin = std::min(indices_begin + k_, end_iter);
-
-    HeapContainer heap(indices_begin, kth_begin, cmp);
-    for (auto iter = kth_begin; iter != end_iter && !heap.empty(); ++iter) {
-      uint64_t x_index = *iter;
-      uint64_t top_item = heap.top();
-      if (cmp(x_index, top_item)) {
-        heap.pop();
-        heap.push(x_index);
-      }
-    }
-    int64_t out_size = static_cast<int64_t>(heap.size());
-    ARROW_ASSIGN_OR_RAISE(auto take_indices, MakeMutableUInt64Array(uint64(), out_size,
-                                                                    ctx_->memory_pool()));
-    auto* out_cbegin = take_indices->GetMutableValues<uint64_t>(1) + out_size - 1;
-    while (heap.size() > 0) {
-      *out_cbegin = heap.top();
-      heap.pop();
-      --out_cbegin;
-    }
-    *output_ = Datum(take_indices);
-    return Status::OK();
-  }
-
-  ExecContext* ctx_;
-  const Table& table_;
-  int64_t k_;
-  Datum* output_;
-  std::vector<ResolvedSortKey> sort_keys_;
-  Comparator comparator_;
-};
+}  // namespace
 
-static Status CheckConsistency(const Schema& schema,
-                               const std::vector<SortKey>& sort_keys) {
-  for (const auto& key : sort_keys) {
-    RETURN_NOT_OK(CheckNonNested(key.target));
-    RETURN_NOT_OK(PrependInvalidColumn(key.target.FindOne(schema)));
-  }
-  return Status::OK();
-}
+Result<std::vector<SortField>> FindSortKeys(const Schema& schema,
+                                            const std::vector<SortKey>& sort_keys) {
+  std::vector<SortField> fields;
+  std::unordered_set<int> seen;
+  fields.reserve(sort_keys.size());
+  seen.reserve(sort_keys.size());
 
-class SelectKUnstableMetaFunction : public MetaFunction {
- public:
-  SelectKUnstableMetaFunction()
-      : MetaFunction("select_k_unstable", Arity::Unary(), select_k_unstable_doc,
-                     GetDefaultSelectKOptions()) {}
+  for (const auto& sort_key : sort_keys) {
+    RETURN_NOT_OK(CheckNonNested(sort_key.target));
 
-  Result<Datum> ExecuteImpl(const std::vector<Datum>& args,
-                            const FunctionOptions* options, ExecContext* ctx) const {
-    const SelectKOptions& select_k_options = static_cast<const SelectKOptions&>(*options);
-    if (select_k_options.k < 0) {
-      return Status::Invalid("select_k_unstable requires a nonnegative `k`, got ",
-                             select_k_options.k);
-    }
-    if (select_k_options.sort_keys.size() == 0) {
-      return Status::Invalid("select_k_unstable requires a non-empty `sort_keys`");
-    }
-    switch (args[0].kind()) {
-      case Datum::ARRAY:
-        return SelectKth(*args[0].make_array(), select_k_options, ctx);
-      case Datum::CHUNKED_ARRAY:
-        return SelectKth(*args[0].chunked_array(), select_k_options, ctx);
-      case Datum::RECORD_BATCH:
-        return SelectKth(*args[0].record_batch(), select_k_options, ctx);
-      case Datum::TABLE:
-        return SelectKth(*args[0].table(), select_k_options, ctx);
-      default:
-        break;
+    ARROW_ASSIGN_OR_RAISE(auto match,
+                          PrependInvalidColumn(sort_key.target.FindOne(schema)));
+    if (seen.insert(match[0]).second) {
+      fields.push_back({match[0], sort_key.order});
     }
-    return Status::NotImplemented(
-        "Unsupported types for select_k operation: "
-        "values=",
-        args[0].ToString());
-  }
-
- private:
-  Result<Datum> SelectKth(const Array& array, const SelectKOptions& options,
-                          ExecContext* ctx) const {
-    Datum output;
-    ArraySelecter selecter(ctx, array, options, &output);
-    ARROW_RETURN_NOT_OK(selecter.Run());
-    return output;
-  }
-
-  Result<Datum> SelectKth(const ChunkedArray& chunked_array,
-                          const SelectKOptions& options, ExecContext* ctx) const {
-    Datum output;
-    ChunkedArraySelecter selecter(ctx, chunked_array, options, &output);
-    ARROW_RETURN_NOT_OK(selecter.Run());
-    return output;
-  }
-  Result<Datum> SelectKth(const RecordBatch& record_batch, const SelectKOptions& options,
-                          ExecContext* ctx) const {
-    ARROW_RETURN_NOT_OK(CheckConsistency(*record_batch.schema(), options.sort_keys));
-    Datum output;
-    RecordBatchSelecter selecter(ctx, record_batch, options, &output);
-    ARROW_RETURN_NOT_OK(selecter.Run());
-    return output;
   }
-  Result<Datum> SelectKth(const Table& table, const SelectKOptions& options,
-                          ExecContext* ctx) const {
-    ARROW_RETURN_NOT_OK(CheckConsistency(*table.schema(), options.sort_keys));
-    Datum output;
-    TableSelecter selecter(ctx, table, options, &output);
-    ARROW_RETURN_NOT_OK(selecter.Run());
-    return output;
-  }
-};
-
-// ----------------------------------------------------------------------
-// Rank implementation
-
-const RankOptions* GetDefaultRankOptions() {
-  static const auto kDefaultRankOptions = RankOptions::Defaults();
-  return &kDefaultRankOptions;
+  return fields;
 }
 
-class ArrayRanker : public TypeVisitor {
- public:
-  ArrayRanker(ExecContext* ctx, const Array& array, const RankOptions& options,
-              Datum* output)
-      : TypeVisitor(),
-        ctx_(ctx),
-        array_(array),
-        options_(options),
-        null_placement_(options.null_placement),
-        tiebreaker_(options.tiebreaker),
-        physical_type_(GetPhysicalType(array.type())),
-        output_(output) {}
-
-  Status Run() { return physical_type_->Accept(this); }
-
-#define VISIT(TYPE) \
-  Status Visit(const TYPE& type) { return RankInternal<TYPE>(); }
-
-  VISIT_SORTABLE_PHYSICAL_TYPES(VISIT)
-
-#undef VISIT
-
-  template <typename InType>
-  Status RankInternal() {
-    using GetView = GetViewType<InType>;
-    using T = typename GetViewType<InType>::T;
-    using ArrayType = typename TypeTraits<InType>::ArrayType;
-
-    ArrayType arr(array_.data());
-
-    SortOrder order = SortOrder::Ascending;
-    if (!options_.sort_keys.empty()) {
-      order = options_.sort_keys[0].order;
-    }
-    ArraySortOptions array_options(order, null_placement_);
-
-    auto length = array_.length();
-    ARROW_ASSIGN_OR_RAISE(auto sort_indices,
-                          MakeMutableUInt64Array(uint64(), length, ctx_->memory_pool()));
-    auto sort_begin = sort_indices->GetMutableValues<uint64_t>(1);
-    auto sort_end = sort_begin + length;
-    std::iota(sort_begin, sort_end, 0);
-
-    ARROW_ASSIGN_OR_RAISE(auto array_sorter, GetArraySorter(*physical_type_));
-
-    NullPartitionResult sorted =
-        array_sorter(sort_begin, sort_end, arr, 0, array_options);
-    uint64_t rank;
-
-    ARROW_ASSIGN_OR_RAISE(auto rankings,
-                          MakeMutableUInt64Array(uint64(), length, ctx_->memory_pool()));
-    auto out_begin = rankings->GetMutableValues<uint64_t>(1);
-
-    switch (tiebreaker_) {
-      case RankOptions::Dense: {
-        T curr_value, prev_value{};
-        rank = 0;
-
-        if (null_placement_ == NullPlacement::AtStart && sorted.null_count() > 0) {
-          rank++;
-          for (auto it = sorted.nulls_begin; it < sorted.nulls_end; it++) {
-            out_begin[*it] = rank;
-          }
-        }
-
-        for (auto it = sorted.non_nulls_begin; it < sorted.non_nulls_end; it++) {
-          curr_value = GetView::LogicalValue(arr.GetView(*it));
-          if (it == sorted.non_nulls_begin || curr_value != prev_value) {
-            rank++;
-          }
-
-          out_begin[*it] = rank;
-          prev_value = curr_value;
-        }
-
-        if (null_placement_ == NullPlacement::AtEnd) {
-          rank++;
-          for (auto it = sorted.nulls_begin; it < sorted.nulls_end; it++) {
-            out_begin[*it] = rank;
-          }
-        }
-        break;
-      }
-
-      case RankOptions::First: {
-        rank = 0;
-        for (auto it = sorted.overall_begin(); it < sorted.overall_end(); it++) {
-          out_begin[*it] = ++rank;
-        }
-        break;
-      }
-
-      case RankOptions::Min: {
-        T curr_value, prev_value{};
-        rank = 0;
-
-        if (null_placement_ == NullPlacement::AtStart) {
-          rank++;
-          for (auto it = sorted.nulls_begin; it < sorted.nulls_end; it++) {
-            out_begin[*it] = rank;
-          }
-        }
-
-        for (auto it = sorted.non_nulls_begin; it < sorted.non_nulls_end; it++) {
-          curr_value = GetView::LogicalValue(arr.GetView(*it));
-          if (it == sorted.non_nulls_begin || curr_value != prev_value) {
-            rank = (it - sorted.overall_begin()) + 1;
-          }
-          out_begin[*it] = rank;
-          prev_value = curr_value;
-        }
-
-        if (null_placement_ == NullPlacement::AtEnd) {
-          rank = sorted.non_null_count() + 1;
-          for (auto it = sorted.nulls_begin; it < sorted.nulls_end; it++) {
-            out_begin[*it] = rank;
-          }
-        }
-        break;
-      }
-
-      case RankOptions::Max: {
-        // The algorithm for Max is just like Min, but in reverse order.
-        T curr_value, prev_value{};
-        rank = length;
-
-        if (null_placement_ == NullPlacement::AtEnd) {
-          for (auto it = sorted.nulls_begin; it < sorted.nulls_end; it++) {
-            out_begin[*it] = rank;
-          }
-        }
-
-        for (auto it = sorted.non_nulls_end - 1; it >= sorted.non_nulls_begin; it--) {
-          curr_value = GetView::LogicalValue(arr.GetView(*it));
-          if (it == sorted.non_nulls_end - 1 || curr_value != prev_value) {
-            rank = (it - sorted.overall_begin()) + 1;
-          }
-          out_begin[*it] = rank;
-          prev_value = curr_value;
-        }
-
-        if (null_placement_ == NullPlacement::AtStart) {
-          rank = sorted.null_count();
-          for (auto it = sorted.nulls_begin; it < sorted.nulls_end; it++) {
-            out_begin[*it] = rank;
-          }
-        }
-
-        break;
-      }
-    }
-
-    *output_ = Datum(rankings);
-    return Status::OK();
-  }
-
-  ExecContext* ctx_;
-  const Array& array_;
-  const RankOptions& options_;
-  const NullPlacement null_placement_;
-  const RankOptions::Tiebreaker tiebreaker_;
-  const std::shared_ptr<DataType> physical_type_;
-  Datum* output_;
-};
-
-const FunctionDoc rank_doc(
-    "Compute numerical ranks of an array (1-based)",
-    ("This function computes a rank of the input array.\n"
-     "By default, null values are considered greater than any other value and\n"
-     "are therefore sorted at the end of the input. For floating-point types,\n"
-     "NaNs are considered greater than any other non-null value, but smaller\n"
-     "than null values. The default tiebreaker is to assign ranks in order of\n"
-     "when ties appear in the input.\n"
-     "\n"
-     "The handling of nulls, NaNs and tiebreakers can be changed in RankOptions."),
-    {"input"}, "RankOptions");
-
-class RankMetaFunction : public MetaFunction {
- public:
-  RankMetaFunction()
-      : MetaFunction("rank", Arity::Unary(), rank_doc, GetDefaultRankOptions()) {}
-
-  Result<Datum> ExecuteImpl(const std::vector<Datum>& args,
-                            const FunctionOptions* options, ExecContext* ctx) const {
-    const RankOptions& rank_options = checked_cast<const RankOptions&>(*options);
-    switch (args[0].kind()) {
-      case Datum::ARRAY: {
-        return Rank(*args[0].make_array(), rank_options, ctx);
-      } break;
-      default:
-        break;
-    }
-    return Status::NotImplemented(
-        "Unsupported types for rank operation: "
-        "values=",
-        args[0].ToString());
-  }
-
- private:
-  Result<Datum> Rank(const Array& array, const RankOptions& options,
-                     ExecContext* ctx) const {
-    Datum output;
-    ArrayRanker ranker(ctx, array, options, &output);
-    ARROW_RETURN_NOT_OK(ranker.Run());
-    return output;
-  }
-};
-
-}  // namespace
-
 Status SortChunkedArray(ExecContext* ctx, uint64_t* indices_begin, uint64_t* indices_end,
                         const ChunkedArray& values, SortOrder sort_order,
                         NullPlacement null_placement) {
@@ -2133,8 +1003,6 @@ Status SortChunkedArray(ExecContext* ctx, uint64_t* indices_begin, uint64_t* ind
 
 void RegisterVectorSort(FunctionRegistry* registry) {
   DCHECK_OK(registry->AddFunction(std::make_shared<SortIndicesMetaFunction>()));
-  DCHECK_OK(registry->AddFunction(std::make_shared<SelectKUnstableMetaFunction>()));
-  DCHECK_OK(registry->AddFunction(std::make_shared<RankMetaFunction>()));
 }
 
 #undef VISIT_SORTABLE_PHYSICAL_TYPES
diff --git a/cpp/src/arrow/compute/kernels/vector_sort_benchmark.cc b/cpp/src/arrow/compute/kernels/vector_sort_benchmark.cc
index 6ab0bcfde97..2dec0e60d6b 100644
--- a/cpp/src/arrow/compute/kernels/vector_sort_benchmark.cc
+++ b/cpp/src/arrow/compute/kernels/vector_sort_benchmark.cc
@@ -29,35 +29,59 @@ namespace arrow {
 namespace compute {
 constexpr auto kSeed = 0x0ff1ce;
 
-static void ArraySortIndicesBenchmark(benchmark::State& state,
-                                      const std::shared_ptr<Array>& values) {
-  for (auto _ : state) {
-    ABORT_NOT_OK(SortIndices(*values).status());
+//
+// Array sort/rank benchmark helpers
+//
+
+struct SortRunner {
+  explicit SortRunner(benchmark::State&) {}
+
+  Status operator()(const std::shared_ptr<Array>& values) const {
+    return SortIndices(*values).status();
   }
-  state.SetItemsProcessed(state.iterations() * values->length());
-}
+  Status operator()(const std::shared_ptr<ChunkedArray>& values) const {
+    return SortIndices(*values).status();
+  }
+};
+
+struct RankRunner {
+  explicit RankRunner(benchmark::State& state) {
+    options = RankOptions::Defaults();
+    options.tiebreaker = static_cast<RankOptions::Tiebreaker>(state.range(2));
+  }
+
+  RankOptions options;
+
+  Status operator()(const std::shared_ptr<Array>& values) const {
+    return CallFunction("rank", {values}, &options).status();
+  }
+};
 
-static void ChunkedArraySortIndicesBenchmark(
-    benchmark::State& state, const std::shared_ptr<ChunkedArray>& values) {
+template <typename Runner, typename ArrayLike>
+static void ArraySortFuncBenchmark(benchmark::State& state, const Runner& runner,
+                                   const std::shared_ptr<ArrayLike>& values) {
   for (auto _ : state) {
-    ABORT_NOT_OK(SortIndices(*values).status());
+    ABORT_NOT_OK(runner(values));
   }
   state.SetItemsProcessed(state.iterations() * values->length());
 }
 
-static void ArraySortIndicesInt64Benchmark(benchmark::State& state, int64_t min,
-                                           int64_t max) {
+template <typename Runner>
+static void ArraySortFuncInt64Benchmark(benchmark::State& state, const Runner& runner,
+                                        int64_t min, int64_t max) {
   RegressionArgs args(state);
 
   const int64_t array_size = args.size / sizeof(int64_t);
   auto rand = random::RandomArrayGenerator(kSeed);
   auto values = rand.Int64(array_size, min, max, args.null_proportion);
 
-  ArraySortIndicesBenchmark(state, values);
+  ArraySortFuncBenchmark(state, runner, values);
 }
 
-static void ChunkedArraySortIndicesInt64Benchmark(benchmark::State& state, int64_t min,
-                                                  int64_t max) {
+template <typename Runner>
+static void ChunkedArraySortFuncInt64Benchmark(benchmark::State& state,
+                                               const Runner& runner, int64_t min,
+                                               int64_t max) {
   RegressionArgs args(state);
 
   const int64_t n_chunks = 10;
@@ -68,39 +92,58 @@ static void ChunkedArraySortIndicesInt64Benchmark(benchmark::State& state, int64
     chunks.push_back(rand.Int64(array_size, min, max, args.null_proportion));
   }
 
-  ChunkedArraySortIndicesBenchmark(state, std::make_shared<ChunkedArray>(chunks));
+  ArraySortFuncBenchmark(state, runner, std::make_shared<ChunkedArray>(chunks));
+}
+
+template <typename Runner>
+static void ArraySortFuncBoolBenchmark(benchmark::State& state, const Runner& runner) {
+  RegressionArgs args(state);
+
+  const int64_t array_size = args.size * 8;
+  auto rand = random::RandomArrayGenerator(kSeed);
+  auto values = rand.Boolean(array_size, 0.5, args.null_proportion);
+
+  ArraySortFuncBenchmark(state, runner, values);
 }
 
 static void ArraySortIndicesInt64Narrow(benchmark::State& state) {
-  ArraySortIndicesInt64Benchmark(state, -100, 100);
+  ArraySortFuncInt64Benchmark(state, SortRunner(state), -100, 100);
+}
+
+static void ArrayRankInt64Narrow(benchmark::State& state) {
+  ArraySortFuncInt64Benchmark(state, RankRunner(state), -100, 100);
 }
 
 static void ArraySortIndicesInt64Wide(benchmark::State& state) {
   const auto min = std::numeric_limits<int64_t>::min();
   const auto max = std::numeric_limits<int64_t>::max();
-  ArraySortIndicesInt64Benchmark(state, min, max);
+  ArraySortFuncInt64Benchmark(state, SortRunner(state), min, max);
 }
 
-static void ArraySortIndicesBool(benchmark::State& state) {
-  RegressionArgs args(state);
-
-  const int64_t array_size = args.size * 8;
-  auto rand = random::RandomArrayGenerator(kSeed);
-  auto values = rand.Boolean(array_size, 0.5, args.null_proportion);
+static void ArrayRankInt64Wide(benchmark::State& state) {
+  const auto min = std::numeric_limits<int64_t>::min();
+  const auto max = std::numeric_limits<int64_t>::max();
+  ArraySortFuncInt64Benchmark(state, RankRunner(state), min, max);
+}
 
-  ArraySortIndicesBenchmark(state, values);
+static void ArraySortIndicesBool(benchmark::State& state) {
+  ArraySortFuncBoolBenchmark(state, SortRunner(state));
 }
 
 static void ChunkedArraySortIndicesInt64Narrow(benchmark::State& state) {
-  ChunkedArraySortIndicesInt64Benchmark(state, -100, 100);
+  ChunkedArraySortFuncInt64Benchmark(state, SortRunner(state), -100, 100);
 }
 
 static void ChunkedArraySortIndicesInt64Wide(benchmark::State& state) {
   const auto min = std::numeric_limits<int64_t>::min();
   const auto max = std::numeric_limits<int64_t>::max();
-  ChunkedArraySortIndicesInt64Benchmark(state, min, max);
+  ChunkedArraySortFuncInt64Benchmark(state, SortRunner(state), min, max);
 }
 
+//
+// Record batch and table sort benchmark helpers
+//
+
 static void DatumSortIndicesBenchmark(benchmark::State& state, const Datum& datum,
                                       const SortOptions& options) {
   for (auto _ : state) {
@@ -237,35 +280,24 @@ static void TableSortIndicesInt64Wide(benchmark::State& state) {
                         std::numeric_limits<int64_t>::max());
 }
 
-BENCHMARK(ArraySortIndicesInt64Narrow)
-    ->Apply(RegressionSetArgs)
-    ->Args({1 << 20, 100})
-    ->Args({1 << 23, 100})
-    ->Unit(benchmark::TimeUnit::kNanosecond);
-
-BENCHMARK(ArraySortIndicesInt64Wide)
-    ->Apply(RegressionSetArgs)
-    ->Args({1 << 20, 100})
-    ->Args({1 << 23, 100})
-    ->Unit(benchmark::TimeUnit::kNanosecond);
+//
+// Sort benchmark declarations
+//
 
-BENCHMARK(ArraySortIndicesBool)
-    ->Apply(RegressionSetArgs)
-    ->Args({1 << 20, 100})
-    ->Args({1 << 23, 100})
-    ->Unit(benchmark::TimeUnit::kNanosecond);
+void ArraySortIndicesSetArgs(benchmark::internal::Benchmark* bench) {
+  // 2 benchmark arguments: size, inverse null proportion
+  bench->Unit(benchmark::kNanosecond);
+  bench->Apply(RegressionSetArgs);
+  bench->Args({1 << 20, 100});
+  bench->Args({1 << 23, 100});
+}
 
-BENCHMARK(ChunkedArraySortIndicesInt64Narrow)
-    ->Apply(RegressionSetArgs)
-    ->Args({1 << 20, 100})
-    ->Args({1 << 23, 100})
-    ->Unit(benchmark::TimeUnit::kNanosecond);
+BENCHMARK(ArraySortIndicesInt64Narrow)->Apply(ArraySortIndicesSetArgs);
+BENCHMARK(ArraySortIndicesInt64Wide)->Apply(ArraySortIndicesSetArgs);
+BENCHMARK(ArraySortIndicesBool)->Apply(ArraySortIndicesSetArgs);
 
-BENCHMARK(ChunkedArraySortIndicesInt64Wide)
-    ->Apply(RegressionSetArgs)
-    ->Args({1 << 20, 100})
-    ->Args({1 << 23, 100})
-    ->Unit(benchmark::TimeUnit::kNanosecond);
+BENCHMARK(ChunkedArraySortIndicesInt64Narrow)->Apply(ArraySortIndicesSetArgs);
+BENCHMARK(ChunkedArraySortIndicesInt64Wide)->Apply(ArraySortIndicesSetArgs);
 
 BENCHMARK(RecordBatchSortIndicesInt64Narrow)
     ->ArgsProduct({
@@ -301,5 +333,38 @@ BENCHMARK(TableSortIndicesInt64Wide)
     })
     ->Unit(benchmark::TimeUnit::kNanosecond);
 
+//
+// Rank benchmark declarations
+//
+
+void ArrayRankSetArgs(benchmark::internal::Benchmark* bench) {
+  // 3 benchmark arguments: size, inverse null proportion, rank tiebreaker
+  bench->Unit(benchmark::kNanosecond);
+  bench->ArgNames({"", "", "tiebreaker"});
+
+  // Use only a subset of kInverseNullProportions as the cartesian product of
+  // arguments is large already.
+  const std::vector<ArgsType> inverse_null_proportions{10, 1, 0};
+  // Don't bother with Max as it should have the same perf as Min
+  const std::vector<RankOptions::Tiebreaker> tie_breakers{
+      RankOptions::Min, RankOptions::First, RankOptions::Dense};
+
+  for (const auto inverse_null_proportion : kInverseNullProportions) {
+    for (const auto tie_breaker : tie_breakers) {
+      bench->Args({static_cast<ArgsType>(kL1Size), inverse_null_proportion,
+                   static_cast<ArgsType>(tie_breaker)});
+    }
+  }
+  for (const auto tie_breaker : tie_breakers) {
+    bench->Args({1 << 20, 100, static_cast<ArgsType>(tie_breaker)});
+  }
+  for (const auto tie_breaker : tie_breakers) {
+    bench->Args({1 << 23, 100, static_cast<ArgsType>(tie_breaker)});
+  }
+}
+
+BENCHMARK(ArrayRankInt64Narrow)->Apply(ArrayRankSetArgs);
+BENCHMARK(ArrayRankInt64Wide)->Apply(ArrayRankSetArgs);
+
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/kernels/vector_sort_internal.h b/cpp/src/arrow/compute/kernels/vector_sort_internal.h
index d8b024525c8..24d60188058 100644
--- a/cpp/src/arrow/compute/kernels/vector_sort_internal.h
+++ b/cpp/src/arrow/compute/kernels/vector_sort_internal.h
@@ -25,6 +25,7 @@
 #include "arrow/array.h"
 #include "arrow/compute/api_vector.h"
 #include "arrow/compute/kernels/chunked_internal.h"
+#include "arrow/table.h"
 #include "arrow/type.h"
 #include "arrow/type_traits.h"
 
@@ -456,6 +457,310 @@ Status SortChunkedArray(ExecContext* ctx, uint64_t* indices_begin, uint64_t* ind
                         const ChunkedArray& values, SortOrder sort_order,
                         NullPlacement null_placement);
 
+// ----------------------------------------------------------------------
+// Helpers for Sort/SelectK/Rank implementations
+
+struct SortField {
+  int field_index;
+  SortOrder order;
+};
+
+inline Status CheckNonNested(const FieldRef& ref) {
+  if (ref.IsNested()) {
+    return Status::KeyError("Nested keys not supported for SortKeys");
+  }
+  return Status::OK();
+}
+
+template <typename T>
+Result<T> PrependInvalidColumn(Result<T> res) {
+  if (res.ok()) return res;
+  return res.status().WithMessage("Invalid sort key column: ", res.status().message());
+}
+
+// Return the field indices of the sort keys, deduplicating them along the way
+Result<std::vector<SortField>> FindSortKeys(const Schema& schema,
+                                            const std::vector<SortKey>& sort_keys);
+
+template <typename ResolvedSortKey, typename ResolvedSortKeyFactory>
+Result<std::vector<ResolvedSortKey>> ResolveSortKeys(
+    const Schema& schema, const std::vector<SortKey>& sort_keys,
+    ResolvedSortKeyFactory&& factory) {
+  ARROW_ASSIGN_OR_RAISE(const auto fields, FindSortKeys(schema, sort_keys));
+  std::vector<ResolvedSortKey> resolved;
+  resolved.reserve(fields.size());
+  std::transform(fields.begin(), fields.end(), std::back_inserter(resolved), factory);
+  return resolved;
+}
+
+template <typename ResolvedSortKey, typename TableOrBatch>
+Result<std::vector<ResolvedSortKey>> ResolveSortKeys(
+    const TableOrBatch& table_or_batch, const std::vector<SortKey>& sort_keys) {
+  return ResolveSortKeys<ResolvedSortKey>(
+      *table_or_batch.schema(), sort_keys, [&](const SortField& f) {
+        return ResolvedSortKey{table_or_batch.column(f.field_index), f.order};
+      });
+}
+
+// // Returns an error status if no column matching `ref` is found, or if the FieldRef is
+// // a nested reference.
+inline Result<std::shared_ptr<ChunkedArray>> GetColumn(const Table& table,
+                                                       const FieldRef& ref) {
+  RETURN_NOT_OK(CheckNonNested(ref));
+  ARROW_ASSIGN_OR_RAISE(auto path, ref.FindOne(*table.schema()));
+  return table.column(path[0]);
+}
+
+inline Result<std::shared_ptr<Array>> GetColumn(const RecordBatch& batch,
+                                                const FieldRef& ref) {
+  RETURN_NOT_OK(CheckNonNested(ref));
+  return ref.GetOne(batch);
+}
+
+// We could try to reproduce the concrete Array classes' facilities
+// (such as cached raw values pointer) in a separate hierarchy of
+// physical accessors, but doing so ends up too cumbersome.
+// Instead, we simply create the desired concrete Array objects.
+inline std::shared_ptr<Array> GetPhysicalArray(
+    const Array& array, const std::shared_ptr<DataType>& physical_type) {
+  auto new_data = array.data()->Copy();
+  new_data->type = physical_type;
+  return MakeArray(std::move(new_data));
+}
+
+inline ArrayVector GetPhysicalChunks(const ArrayVector& chunks,
+                                     const std::shared_ptr<DataType>& physical_type) {
+  ArrayVector physical(chunks.size());
+  std::transform(chunks.begin(), chunks.end(), physical.begin(),
+                 [&](const std::shared_ptr<Array>& array) {
+                   return GetPhysicalArray(*array, physical_type);
+                 });
+  return physical;
+}
+
+inline ArrayVector GetPhysicalChunks(const ChunkedArray& chunked_array,
+                                     const std::shared_ptr<DataType>& physical_type) {
+  return GetPhysicalChunks(chunked_array.chunks(), physical_type);
+}
+
+// Compare two records in a single column (either from a batch or table)
+template <typename ResolvedSortKey>
+struct ColumnComparator {
+  using Location = typename ResolvedSortKey::LocationType;
+
+  ColumnComparator(const ResolvedSortKey& sort_key, NullPlacement null_placement)
+      : sort_key_(sort_key), null_placement_(null_placement) {}
+
+  virtual ~ColumnComparator() = default;
+
+  virtual int Compare(const Location& left, const Location& right) const = 0;
+
+  ResolvedSortKey sort_key_;
+  NullPlacement null_placement_;
+};
+
+template <typename ResolvedSortKey, typename Type>
+struct ConcreteColumnComparator : public ColumnComparator<ResolvedSortKey> {
+  using ArrayType = typename TypeTraits<Type>::ArrayType;
+  using Location = typename ResolvedSortKey::LocationType;
+
+  using ColumnComparator<ResolvedSortKey>::ColumnComparator;
+
+  int Compare(const Location& left, const Location& right) const override {
+    const auto& sort_key = this->sort_key_;
+
+    const auto chunk_left = sort_key.template GetChunk<ArrayType>(left);
+    const auto chunk_right = sort_key.template GetChunk<ArrayType>(right);
+    if (sort_key.null_count > 0) {
+      const bool is_null_left = chunk_left.IsNull();
+      const bool is_null_right = chunk_right.IsNull();
+      if (is_null_left && is_null_right) {
+        return 0;
+      } else if (is_null_left) {
+        return this->null_placement_ == NullPlacement::AtStart ? -1 : 1;
+      } else if (is_null_right) {
+        return this->null_placement_ == NullPlacement::AtStart ? 1 : -1;
+      }
+    }
+    return CompareTypeValues<Type>(chunk_left.Value(), chunk_right.Value(),
+                                   sort_key.order, this->null_placement_);
+  }
+};
+
+template <typename ResolvedSortKey>
+struct ConcreteColumnComparator<ResolvedSortKey, NullType>
+    : public ColumnComparator<ResolvedSortKey> {
+  using Location = typename ResolvedSortKey::LocationType;
+
+  using ColumnComparator<ResolvedSortKey>::ColumnComparator;
+
+  int Compare(const Location& left, const Location& right) const override { return 0; }
+};
+
+// Compare two records in the same RecordBatch or Table
+// (indexing is handled through ResolvedSortKey)
+template <typename ResolvedSortKey>
+class MultipleKeyComparator {
+ public:
+  using Location = typename ResolvedSortKey::LocationType;
+
+  MultipleKeyComparator(const std::vector<ResolvedSortKey>& sort_keys,
+                        NullPlacement null_placement)
+      : sort_keys_(sort_keys), null_placement_(null_placement) {
+    status_ &= MakeComparators();
+  }
+
+  Status status() const { return status_; }
+
+  // Returns true if the left-th value should be ordered before the
+  // right-th value, false otherwise. The start_sort_key_index-th
+  // sort key and subsequent sort keys are used for comparison.
+  bool Compare(const Location& left, const Location& right, size_t start_sort_key_index) {
+    return CompareInternal(left, right, start_sort_key_index) < 0;
+  }
+
+  bool Equals(const Location& left, const Location& right, size_t start_sort_key_index) {
+    return CompareInternal(left, right, start_sort_key_index) == 0;
+  }
+
+ private:
+  struct ColumnComparatorFactory {
+#define VISIT(TYPE) \
+  Status Visit(const TYPE& type) { return VisitGeneric(type); }
+
+    VISIT_SORTABLE_PHYSICAL_TYPES(VISIT)
+    VISIT(NullType)
+
+#undef VISIT
+
+    Status Visit(const DataType& type) {
+      return Status::TypeError("Unsupported type for batch or table sorting: ",
+                               type.ToString());
+    }
+
+    template <typename Type>
+    Status VisitGeneric(const Type& type) {
+      res.reset(
+          new ConcreteColumnComparator<ResolvedSortKey, Type>{sort_key, null_placement});
+      return Status::OK();
+    }
+
+    const ResolvedSortKey& sort_key;
+    NullPlacement null_placement;
+    std::unique_ptr<ColumnComparator<ResolvedSortKey>> res;
+  };
+
+  Status MakeComparators() {
+    column_comparators_.reserve(sort_keys_.size());
+
+    for (const auto& sort_key : sort_keys_) {
+      ColumnComparatorFactory factory{sort_key, null_placement_, nullptr};
+      RETURN_NOT_OK(VisitTypeInline(*sort_key.type, &factory));
+      column_comparators_.push_back(std::move(factory.res));
+    }
+    return Status::OK();
+  }
+
+  // Compare two records in the same table and return -1, 0 or 1.
+  //
+  // -1: The left is less than the right.
+  // 0: The left equals to the right.
+  // 1: The left is greater than the right.
+  //
+  // This supports null and NaN. Null is processed in this and NaN
+  // is processed in CompareTypeValue().
+  int CompareInternal(const Location& left, const Location& right,
+                      size_t start_sort_key_index) {
+    const auto num_sort_keys = sort_keys_.size();
+    for (size_t i = start_sort_key_index; i < num_sort_keys; ++i) {
+      const int r = column_comparators_[i]->Compare(left, right);
+      if (r != 0) {
+        return r;
+      }
+    }
+    return 0;
+  }
+
+  const std::vector<ResolvedSortKey>& sort_keys_;
+  const NullPlacement null_placement_;
+  std::vector<std::unique_ptr<ColumnComparator<ResolvedSortKey>>> column_comparators_;
+  Status status_;
+};
+
+struct ResolvedRecordBatchSortKey {
+  ResolvedRecordBatchSortKey(const std::shared_ptr<Array>& array, SortOrder order)
+      : type(GetPhysicalType(array->type())),
+        owned_array(GetPhysicalArray(*array, type)),
+        array(*owned_array),
+        order(order),
+        null_count(array->null_count()) {}
+
+  using LocationType = int64_t;
+
+  template <typename ArrayType>
+  ResolvedChunk<ArrayType> GetChunk(int64_t index) const {
+    return {&::arrow::internal::checked_cast<const ArrayType&>(array), index};
+  }
+
+  const std::shared_ptr<DataType> type;
+  std::shared_ptr<Array> owned_array;
+  const Array& array;
+  SortOrder order;
+  int64_t null_count;
+};
+
+struct ResolvedTableSortKey {
+  ResolvedTableSortKey(const std::shared_ptr<DataType>& type, ArrayVector chunks,
+                       SortOrder order, int64_t null_count)
+      : type(GetPhysicalType(type)),
+        owned_chunks(std::move(chunks)),
+        chunks(GetArrayPointers(owned_chunks)),
+        order(order),
+        null_count(null_count) {}
+
+  using LocationType = ::arrow::internal::ChunkLocation;
+
+  template <typename ArrayType>
+  ResolvedChunk<ArrayType> GetChunk(::arrow::internal::ChunkLocation loc) const {
+    return {checked_cast<const ArrayType*>(chunks[loc.chunk_index]), loc.index_in_chunk};
+  }
+
+  // Make a vector of ResolvedSortKeys for the sort keys and the given table.
+  // `batches` must be a chunking of `table`.
+  static Result<std::vector<ResolvedTableSortKey>> Make(
+      const Table& table, const RecordBatchVector& batches,
+      const std::vector<SortKey>& sort_keys) {
+    auto factory = [&](const SortField& f) {
+      const auto& type = table.schema()->field(f.field_index)->type();
+      // We must expose a homogenous chunking for all ResolvedSortKey,
+      // so we can't simply pass `table.column(f.field_index)`
+      ArrayVector chunks(batches.size());
+      std::transform(batches.begin(), batches.end(), chunks.begin(),
+                     [&](const std::shared_ptr<RecordBatch>& batch) {
+                       return batch->column(f.field_index);
+                     });
+      return ResolvedTableSortKey(type, std::move(chunks), f.order,
+                                  table.column(f.field_index)->null_count());
+    };
+
+    return ::arrow::compute::internal::ResolveSortKeys<ResolvedTableSortKey>(
+        *table.schema(), sort_keys, factory);
+  }
+
+  std::shared_ptr<DataType> type;
+  ArrayVector owned_chunks;
+  std::vector<const Array*> chunks;
+  SortOrder order;
+  int64_t null_count;
+};
+
+inline Result<std::shared_ptr<ArrayData>> MakeMutableUInt64Array(
+    int64_t length, MemoryPool* memory_pool) {
+  auto buffer_size = length * sizeof(uint64_t);
+  ARROW_ASSIGN_OR_RAISE(auto data, AllocateBuffer(buffer_size, memory_pool));
+  return ArrayData::Make(uint64(), length, {nullptr, std::move(data)}, /*null_count=*/0);
+}
+
 }  // namespace internal
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/compute/light_array.cc b/cpp/src/arrow/compute/light_array.cc
index 4bf3574d09f..37d4421fd79 100644
--- a/cpp/src/arrow/compute/light_array.cc
+++ b/cpp/src/arrow/compute/light_array.cc
@@ -29,8 +29,9 @@ KeyColumnArray::KeyColumnArray(const KeyColumnMetadata& metadata, int64_t length
                                const uint8_t* fixed_length_buffer,
                                const uint8_t* var_length_buffer, int bit_offset_validity,
                                int bit_offset_fixed) {
-  static_assert(std::is_pod<KeyColumnArray>::value,
-                "This class was intended to be a POD type");
+  static_assert(
+      std::is_trivial_v<KeyColumnArray> && std::is_standard_layout_v<KeyColumnArray>,
+      "This class was intended to be a POD type");
   metadata_ = metadata;
   length_ = length;
   buffers_[kValidityBuffer] = validity_buffer;
@@ -109,31 +110,37 @@ KeyColumnArray KeyColumnArray::Slice(int64_t offset, int64_t length) const {
 
 Result<KeyColumnMetadata> ColumnMetadataFromDataType(
     const std::shared_ptr<DataType>& type) {
-  if (type->id() == Type::DICTIONARY) {
+  const bool is_extension = type->id() == Type::EXTENSION;
+  const std::shared_ptr<DataType>& typ =
+      is_extension
+          ? arrow::internal::checked_pointer_cast<ExtensionType>(type->GetSharedPtr())
+                ->storage_type()
+          : type;
+
+  if (typ->id() == Type::DICTIONARY) {
     auto bit_width =
-        arrow::internal::checked_cast<const FixedWidthType&>(*type).bit_width();
+        arrow::internal::checked_cast<const FixedWidthType&>(*typ).bit_width();
     ARROW_DCHECK(bit_width % 8 == 0);
     return KeyColumnMetadata(true, bit_width / 8);
   }
-  if (type->id() == Type::BOOL) {
+  if (typ->id() == Type::BOOL) {
     return KeyColumnMetadata(true, 0);
   }
-  if (is_fixed_width(type->id())) {
+  if (is_fixed_width(typ->id())) {
     return KeyColumnMetadata(
-        true,
-        arrow::internal::checked_cast<const FixedWidthType&>(*type).bit_width() / 8);
+        true, arrow::internal::checked_cast<const FixedWidthType&>(*typ).bit_width() / 8);
   }
-  if (is_binary_like(type->id())) {
+  if (is_binary_like(typ->id())) {
     return KeyColumnMetadata(false, sizeof(uint32_t));
   }
-  if (is_large_binary_like(type->id())) {
+  if (is_large_binary_like(typ->id())) {
     return KeyColumnMetadata(false, sizeof(uint64_t));
   }
-  if (type->id() == Type::NA) {
+  if (typ->id() == Type::NA) {
     return KeyColumnMetadata(true, 0, true);
   }
   // Caller attempted to create a KeyColumnArray from an invalid type
-  return Status::TypeError("Unsupported column data type ", type->name(),
+  return Status::TypeError("Unsupported column data type ", typ->name(),
                            " used with KeyColumnMetadata");
 }
 
@@ -141,6 +148,12 @@ Result<KeyColumnArray> ColumnArrayFromArrayData(
     const std::shared_ptr<ArrayData>& array_data, int64_t start_row, int64_t num_rows) {
   ARROW_ASSIGN_OR_RAISE(KeyColumnMetadata metadata,
                         ColumnMetadataFromDataType(array_data->type));
+  return ColumnArrayFromArrayDataAndMetadata(array_data, metadata, start_row, num_rows);
+}
+
+KeyColumnArray ColumnArrayFromArrayDataAndMetadata(
+    const std::shared_ptr<ArrayData>& array_data, const KeyColumnMetadata& metadata,
+    int64_t start_row, int64_t num_rows) {
   KeyColumnArray column_array = KeyColumnArray(
       metadata, array_data->offset + start_row + num_rows,
       array_data->buffers[0] != NULLPTR ? array_data->buffers[0]->data() : nullptr,
diff --git a/cpp/src/arrow/compute/light_array.h b/cpp/src/arrow/compute/light_array.h
index f0e5c706871..389b63cca41 100644
--- a/cpp/src/arrow/compute/light_array.h
+++ b/cpp/src/arrow/compute/light_array.h
@@ -135,6 +135,7 @@ class ARROW_EXPORT KeyColumnArray {
   /// Only valid if this is a view into a varbinary type
   uint32_t* mutable_offsets() {
     DCHECK(!metadata_.is_fixed_length);
+    DCHECK_EQ(metadata_.fixed_length, sizeof(uint32_t));
     return reinterpret_cast<uint32_t*>(mutable_data(kFixedLengthBuffer));
   }
   /// \brief Return a read-only version of the offsets buffer
@@ -142,8 +143,25 @@ class ARROW_EXPORT KeyColumnArray {
   /// Only valid if this is a view into a varbinary type
   const uint32_t* offsets() const {
     DCHECK(!metadata_.is_fixed_length);
+    DCHECK_EQ(metadata_.fixed_length, sizeof(uint32_t));
     return reinterpret_cast<const uint32_t*>(data(kFixedLengthBuffer));
   }
+  /// \brief Return a mutable version of the large-offsets buffer
+  ///
+  /// Only valid if this is a view into a large varbinary type
+  uint64_t* mutable_large_offsets() {
+    DCHECK(!metadata_.is_fixed_length);
+    DCHECK_EQ(metadata_.fixed_length, sizeof(uint64_t));
+    return reinterpret_cast<uint64_t*>(mutable_data(kFixedLengthBuffer));
+  }
+  /// \brief Return a read-only version of the large-offsets buffer
+  ///
+  /// Only valid if this is a view into a large varbinary type
+  const uint64_t* large_offsets() const {
+    DCHECK(!metadata_.is_fixed_length);
+    DCHECK_EQ(metadata_.fixed_length, sizeof(uint64_t));
+    return reinterpret_cast<const uint64_t*>(data(kFixedLengthBuffer));
+  }
   /// \brief Return the type metadata
   const KeyColumnMetadata& metadata() const { return metadata_; }
   /// \brief Return the length (in rows) of the array
@@ -187,6 +205,17 @@ ARROW_EXPORT Result<KeyColumnMetadata> ColumnMetadataFromDataType(
 ARROW_EXPORT Result<KeyColumnArray> ColumnArrayFromArrayData(
     const std::shared_ptr<ArrayData>& array_data, int64_t start_row, int64_t num_rows);
 
+/// \brief Create KeyColumnArray from ArrayData and KeyColumnMetadata
+///
+/// If `type` is a dictionary type then this will return the KeyColumnArray for
+/// the indices array
+///
+/// The caller should ensure this is only called on "key" columns.
+/// \see ColumnMetadataFromDataType for details
+ARROW_EXPORT KeyColumnArray ColumnArrayFromArrayDataAndMetadata(
+    const std::shared_ptr<ArrayData>& array_data, const KeyColumnMetadata& metadata,
+    int64_t start_row, int64_t num_rows);
+
 /// \brief Create KeyColumnMetadata instances from an ExecBatch
 ///
 /// column_metadatas will be resized to fit
diff --git a/cpp/src/arrow/compute/registry.cc b/cpp/src/arrow/compute/registry.cc
index fe7c6fa8ad1..9f95290c12a 100644
--- a/cpp/src/arrow/compute/registry.cc
+++ b/cpp/src/arrow/compute/registry.cc
@@ -280,6 +280,7 @@ static std::unique_ptr<FunctionRegistry> CreateBuiltInRegistry() {
   RegisterScalarIfElse(registry.get());
   RegisterScalarNested(registry.get());
   RegisterScalarRandom(registry.get());  // Nullary
+  RegisterScalarRoundArithmetic(registry.get());
   RegisterScalarSetLookup(registry.get());
   RegisterScalarStringAscii(registry.get());
   RegisterScalarStringUtf8(registry.get());
@@ -294,7 +295,9 @@ static std::unique_ptr<FunctionRegistry> CreateBuiltInRegistry() {
   RegisterVectorCumulativeSum(registry.get());
   RegisterVectorHash(registry.get());
   RegisterVectorNested(registry.get());
+  RegisterVectorRank(registry.get());
   RegisterVectorReplace(registry.get());
+  RegisterVectorSelectK(registry.get());
   RegisterVectorSelection(registry.get());
   RegisterVectorSort(registry.get());
 
diff --git a/cpp/src/arrow/compute/registry_internal.h b/cpp/src/arrow/compute/registry_internal.h
index 38f81e98889..977445f4275 100644
--- a/cpp/src/arrow/compute/registry_internal.h
+++ b/cpp/src/arrow/compute/registry_internal.h
@@ -32,6 +32,7 @@ void RegisterScalarComparison(FunctionRegistry* registry);
 void RegisterScalarIfElse(FunctionRegistry* registry);
 void RegisterScalarNested(FunctionRegistry* registry);
 void RegisterScalarRandom(FunctionRegistry* registry);  // Nullary
+void RegisterScalarRoundArithmetic(FunctionRegistry* registry);
 void RegisterScalarSetLookup(FunctionRegistry* registry);
 void RegisterScalarStringAscii(FunctionRegistry* registry);
 void RegisterScalarStringUtf8(FunctionRegistry* registry);
@@ -46,7 +47,9 @@ void RegisterVectorArraySort(FunctionRegistry* registry);
 void RegisterVectorCumulativeSum(FunctionRegistry* registry);
 void RegisterVectorHash(FunctionRegistry* registry);
 void RegisterVectorNested(FunctionRegistry* registry);
+void RegisterVectorRank(FunctionRegistry* registry);
 void RegisterVectorReplace(FunctionRegistry* registry);
+void RegisterVectorSelectK(FunctionRegistry* registry);
 void RegisterVectorSelection(FunctionRegistry* registry);
 void RegisterVectorSort(FunctionRegistry* registry);
 
diff --git a/cpp/src/arrow/compute/registry_test.cc b/cpp/src/arrow/compute/registry_test.cc
index 5517f3090d9..7fee136de7a 100644
--- a/cpp/src/arrow/compute/registry_test.cc
+++ b/cpp/src/arrow/compute/registry_test.cc
@@ -27,7 +27,6 @@
 #include "arrow/status.h"
 #include "arrow/testing/gtest_util.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/make_unique.h"
 
 namespace arrow {
 namespace compute {
@@ -184,7 +183,7 @@ class ExampleOptionsType : public FunctionOptionsType {
   }
   std::unique_ptr<FunctionOptions> Copy(const FunctionOptions& options) const override {
     const auto& opts = static_cast<const ExampleOptions<kExampleSeqNum>&>(options);
-    return arrow::internal::make_unique<ExampleOptions<kExampleSeqNum>>(opts.value);
+    return std::make_unique<ExampleOptions<kExampleSeqNum>>(opts.value);
   }
 };
 template <int kExampleSeqNum>
diff --git a/cpp/src/arrow/compute/row/grouper.cc b/cpp/src/arrow/compute/row/grouper.cc
index d6d00c2cce6..cf0aa7dd495 100644
--- a/cpp/src/arrow/compute/row/grouper.cc
+++ b/cpp/src/arrow/compute/row/grouper.cc
@@ -17,6 +17,7 @@
 
 #include "arrow/compute/row/grouper.h"
 
+#include <memory>
 #include <mutex>
 
 #include "arrow/compute/exec/key_hash.h"
@@ -33,7 +34,6 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/cpu_info.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/task_group.h"
 
 namespace arrow {
@@ -47,7 +47,7 @@ namespace {
 struct GrouperImpl : Grouper {
   static Result<std::unique_ptr<GrouperImpl>> Make(
       const std::vector<TypeHolder>& key_types, ExecContext* ctx) {
-    auto impl = ::arrow::internal::make_unique<GrouperImpl>();
+    auto impl = std::make_unique<GrouperImpl>();
 
     impl->encoders_.resize(key_types.size());
     impl->ctx_ = ctx;
@@ -57,39 +57,35 @@ struct GrouperImpl : Grouper {
       std::shared_ptr<DataType> key = key_types[i].GetSharedPtr();
 
       if (key->id() == Type::BOOL) {
-        impl->encoders_[i] =
-            ::arrow::internal::make_unique<internal::BooleanKeyEncoder>();
+        impl->encoders_[i] = std::make_unique<internal::BooleanKeyEncoder>();
         continue;
       }
 
       if (key->id() == Type::DICTIONARY) {
         impl->encoders_[i] =
-            ::arrow::internal::make_unique<internal::DictionaryKeyEncoder>(
-                key, ctx->memory_pool());
+            std::make_unique<internal::DictionaryKeyEncoder>(key, ctx->memory_pool());
         continue;
       }
 
       if (is_fixed_width(key->id())) {
-        impl->encoders_[i] =
-            ::arrow::internal::make_unique<internal::FixedWidthKeyEncoder>(key);
+        impl->encoders_[i] = std::make_unique<internal::FixedWidthKeyEncoder>(key);
         continue;
       }
 
       if (is_binary_like(key->id())) {
         impl->encoders_[i] =
-            ::arrow::internal::make_unique<internal::VarLengthKeyEncoder<BinaryType>>(
-                key);
+            std::make_unique<internal::VarLengthKeyEncoder<BinaryType>>(key);
         continue;
       }
 
       if (is_large_binary_like(key->id())) {
-        impl->encoders_[i] = ::arrow::internal::make_unique<
-            internal::VarLengthKeyEncoder<LargeBinaryType>>(key);
+        impl->encoders_[i] =
+            std::make_unique<internal::VarLengthKeyEncoder<LargeBinaryType>>(key);
         continue;
       }
 
       if (key->id() == Type::NA) {
-        impl->encoders_[i] = ::arrow::internal::make_unique<internal::NullKeyEncoder>();
+        impl->encoders_[i] = std::make_unique<internal::NullKeyEncoder>();
         continue;
       }
 
@@ -202,7 +198,7 @@ struct GrouperFastImpl : Grouper {
 
   static Result<std::unique_ptr<GrouperFastImpl>> Make(
       const std::vector<TypeHolder>& keys, ExecContext* ctx) {
-    auto impl = ::arrow::internal::make_unique<GrouperFastImpl>();
+    auto impl = std::make_unique<GrouperFastImpl>();
     impl->ctx_ = ctx;
 
     RETURN_NOT_OK(impl->temp_stack_.Init(ctx->memory_pool(), 64 * minibatch_size_max_));
diff --git a/cpp/src/arrow/compute/type_fwd.h b/cpp/src/arrow/compute/type_fwd.h
index 62f15c16000..827116e37be 100644
--- a/cpp/src/arrow/compute/type_fwd.h
+++ b/cpp/src/arrow/compute/type_fwd.h
@@ -17,6 +17,8 @@
 
 #pragma once
 
+#include "arrow/util/visibility.h"
+
 namespace arrow {
 
 struct Datum;
@@ -25,7 +27,9 @@ struct TypeHolder;
 namespace compute {
 
 class Function;
+class FunctionExecutor;
 class FunctionOptions;
+class FunctionRegistry;
 
 class CastOptions;
 
@@ -40,11 +44,19 @@ struct VectorKernel;
 
 struct KernelState;
 
+struct Declaration;
 class Expression;
 class ExecNode;
 class ExecPlan;
 class ExecNodeOptions;
 class ExecFactoryRegistry;
+class QueryContext;
+struct QueryOptions;
+
+class SinkNodeConsumer;
+
+ARROW_EXPORT ExecContext* default_exec_context();
+ARROW_EXPORT ExecContext* threaded_exec_context();
 
 }  // namespace compute
 }  // namespace arrow
diff --git a/cpp/src/arrow/config.cc b/cpp/src/arrow/config.cc
index a93a8feae1d..9e32e543732 100644
--- a/cpp/src/arrow/config.cc
+++ b/cpp/src/arrow/config.cc
@@ -63,7 +63,7 @@ std::string MakeSimdLevelString(QueryFlagFunction&& query_flag) {
   }
 }
 
-util::optional<std::string> timezone_db_path;
+std::optional<std::string> timezone_db_path;
 
 };  // namespace
 
@@ -80,7 +80,7 @@ RuntimeInfo GetRuntimeInfo() {
 #if !USE_OS_TZDB
   info.timezone_db_path = timezone_db_path;
 #else
-  info.timezone_db_path = util::optional<std::string>();
+  info.timezone_db_path = std::optional<std::string>();
 #endif
   return info;
 }
diff --git a/cpp/src/arrow/config.h b/cpp/src/arrow/config.h
index 87e31cc456a..617d6c268b5 100644
--- a/cpp/src/arrow/config.h
+++ b/cpp/src/arrow/config.h
@@ -17,11 +17,11 @@
 
 #pragma once
 
+#include <optional>
 #include <string>
 
 #include "arrow/status.h"
 #include "arrow/util/config.h"  // IWYU pragma: export
-#include "arrow/util/optional.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -70,7 +70,7 @@ struct RuntimeInfo {
   bool using_os_timezone_db;
 
   /// The path to the timezone database; by default None.
-  util::optional<std::string> timezone_db_path;
+  std::optional<std::string> timezone_db_path;
 };
 
 /// \brief Get runtime build info.
@@ -89,7 +89,7 @@ RuntimeInfo GetRuntimeInfo();
 struct GlobalOptions {
   /// Path to text timezone database. This is only configurable on Windows,
   /// which does not have a compatible OS timezone database.
-  util::optional<std::string> timezone_db_path;
+  std::optional<std::string> timezone_db_path;
 };
 
 ARROW_EXPORT
diff --git a/cpp/src/arrow/csv/chunker.cc b/cpp/src/arrow/csv/chunker.cc
index dc863579db0..c71b4ef234d 100644
--- a/cpp/src/arrow/csv/chunker.cc
+++ b/cpp/src/arrow/csv/chunker.cc
@@ -20,13 +20,12 @@
 #include <algorithm>
 #include <cstdint>
 #include <memory>
+#include <string_view>
 #include <utility>
 
 #include "arrow/csv/lexing_internal.h"
 #include "arrow/status.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 namespace csv {
@@ -269,7 +268,7 @@ class LexingBoundaryFinder : public BoundaryFinder {
   explicit LexingBoundaryFinder(ParseOptions options)
       : options_(std::move(options)), lexer_(options_) {}
 
-  Status FindFirst(util::string_view partial, util::string_view block,
+  Status FindFirst(std::string_view partial, std::string_view block,
                    int64_t* out_pos) override {
     lexer_.Reset();
     if (lexer_.ShouldUseBulkFilter(block.data(), block.data() + block.size())) {
@@ -280,7 +279,7 @@ class LexingBoundaryFinder : public BoundaryFinder {
   }
 
   template <bool UseBulkFilter>
-  Status FindFirstInternal(util::string_view partial, util::string_view block,
+  Status FindFirstInternal(std::string_view partial, std::string_view block,
                            int64_t* out_pos) {
     const char* line_end = lexer_.template ReadLine<UseBulkFilter>(
         partial.data(), partial.data() + partial.size());
@@ -298,7 +297,7 @@ class LexingBoundaryFinder : public BoundaryFinder {
     return Status::OK();
   }
 
-  Status FindLast(util::string_view block, int64_t* out_pos) override {
+  Status FindLast(std::string_view block, int64_t* out_pos) override {
     lexer_.Reset();
     if (lexer_.ShouldUseBulkFilter(block.data(), block.data() + block.size())) {
       return FindLastInternal<true>(block, out_pos);
@@ -308,7 +307,7 @@ class LexingBoundaryFinder : public BoundaryFinder {
   }
 
   template <bool UseBulkFilter>
-  Status FindLastInternal(util::string_view block, int64_t* out_pos) {
+  Status FindLastInternal(std::string_view block, int64_t* out_pos) {
     const char* data = block.data();
     const char* const data_end = block.data() + block.size();
 
@@ -331,7 +330,7 @@ class LexingBoundaryFinder : public BoundaryFinder {
     return Status::OK();
   }
 
-  Status FindNth(util::string_view partial, util::string_view block, int64_t count,
+  Status FindNth(std::string_view partial, std::string_view block, int64_t count,
                  int64_t* out_pos, int64_t* num_found) override {
     lexer_.Reset();
 
@@ -395,7 +394,7 @@ std::unique_ptr<Chunker> MakeChunker(const ParseOptions& options) {
       }
     }
   }
-  return ::arrow::internal::make_unique<Chunker>(std::move(delimiter));
+  return std::make_unique<Chunker>(std::move(delimiter));
 }
 
 }  // namespace csv
diff --git a/cpp/src/arrow/csv/column_builder.cc b/cpp/src/arrow/csv/column_builder.cc
index aad48e1a0e1..b46b81b8e9c 100644
--- a/cpp/src/arrow/csv/column_builder.cc
+++ b/cpp/src/arrow/csv/column_builder.cc
@@ -151,7 +151,7 @@ void NullColumnBuilder::Insert(int64_t block_index,
   const int32_t num_rows = parser->num_rows();
   DCHECK_GE(num_rows, 0);
 
-  task_group_->Append([=]() -> Status {
+  task_group_->Append([this, block_index, num_rows]() -> Status {
     std::unique_ptr<ArrayBuilder> builder;
     RETURN_NOT_OK(MakeBuilder(pool_, type_, &builder));
     std::shared_ptr<Array> res;
@@ -201,7 +201,7 @@ void TypedColumnBuilder::Insert(int64_t block_index,
   ReserveChunks(block_index);
 
   // We're careful that all references in the closure outlive the Append() call
-  task_group_->Append([=]() -> Status {
+  task_group_->Append([this, parser, block_index]() -> Status {
     return SetChunk(block_index, converter_->Convert(*parser, col_index_));
   });
 }
@@ -252,7 +252,7 @@ Status InferringColumnBuilder::UpdateType() {
 }
 
 void InferringColumnBuilder::ScheduleConvertChunk(int64_t chunk_index) {
-  task_group_->Append([=]() { return TryConvertChunk(chunk_index); });
+  task_group_->Append([this, chunk_index]() { return TryConvertChunk(chunk_index); });
 }
 
 Status InferringColumnBuilder::TryConvertChunk(int64_t chunk_index) {
diff --git a/cpp/src/arrow/csv/converter.cc b/cpp/src/arrow/csv/converter.cc
index c07eddffd43..3825364fa94 100644
--- a/cpp/src/arrow/csv/converter.cc
+++ b/cpp/src/arrow/csv/converter.cc
@@ -96,16 +96,13 @@ Status InitializeTrie(const std::vector<std::string>& inputs, Trie* trie) {
 
 // Presize a builder based on parser contents
 template <typename BuilderType>
-enable_if_t<!is_base_binary_type<typename BuilderType::TypeClass>::value, Status>
-PresizeBuilder(const BlockParser& parser, BuilderType* builder) {
-  return builder->Resize(parser.num_rows());
-}
-
-// Same, for variable-sized binary builders
-template <typename T>
-Status PresizeBuilder(const BlockParser& parser, BaseBinaryBuilder<T>* builder) {
+Status PresizeBuilder(const BlockParser& parser, BuilderType* builder) {
   RETURN_NOT_OK(builder->Resize(parser.num_rows()));
-  return builder->ReserveData(parser.num_bytes());
+  if constexpr (is_base_binary_type<typename BuilderType::TypeClass>::value) {
+    return builder->ReserveData(parser.num_bytes());
+  } else {
+    return Status::OK();
+  }
 }
 
 /////////////////////////////////////////////////////////////////////////
@@ -125,8 +122,8 @@ struct ValueDecoder {
     if (quoted && !options_.quoted_strings_can_be_null) {
       return false;
     }
-    return null_trie_.Find(
-               util::string_view(reinterpret_cast<const char*>(data), size)) >= 0;
+    return null_trie_.Find(std::string_view(reinterpret_cast<const char*>(data), size)) >=
+           0;
   }
 
  protected:
@@ -166,7 +163,7 @@ struct FixedSizeBinaryValueDecoder : public ValueDecoder {
 
 template <bool CheckUTF8>
 struct BinaryValueDecoder : public ValueDecoder {
-  using value_type = util::string_view;
+  using value_type = std::string_view;
 
   using ValueDecoder::ValueDecoder;
 
@@ -195,19 +192,15 @@ struct BinaryValueDecoder : public ValueDecoder {
 // Value decoder for integers, floats and temporals
 //
 
-template <typename T, typename Enable = void>
-struct StringConverterFromOptions {
-  static arrow::internal::StringConverter<T> Make(const ConvertOptions&) {
-    return arrow::internal::StringConverter<T>{};
-  }
-};
-
 template <typename T>
-struct StringConverterFromOptions<T, enable_if_floating_point<T>> {
-  static arrow::internal::StringConverter<T> Make(const ConvertOptions& options) {
+static arrow::internal::StringConverter<T> MakeStringConverter(
+    const ConvertOptions& options) {
+  if constexpr (is_floating_type<T>::value) {
     return arrow::internal::StringConverter<T>{options.decimal_point};
+  } else {
+    return arrow::internal::StringConverter<T>{};
   }
-};
+}
 
 template <typename T>
 struct NumericValueDecoder : public ValueDecoder {
@@ -217,7 +210,7 @@ struct NumericValueDecoder : public ValueDecoder {
                       const ConvertOptions& options)
       : ValueDecoder(type, options),
         concrete_type_(checked_cast<const T&>(*type)),
-        string_converter_(StringConverterFromOptions<T>::Make(options)) {}
+        string_converter_(MakeStringConverter<T>(options)) {}
 
   Status Decode(const uint8_t* data, uint32_t size, bool quoted, value_type* out) {
     // XXX should quoted values be allowed at all?
@@ -252,12 +245,12 @@ struct BooleanValueDecoder : public ValueDecoder {
 
   Status Decode(const uint8_t* data, uint32_t size, bool quoted, value_type* out) {
     // XXX should quoted values be allowed at all?
-    if (false_trie_.Find(util::string_view(reinterpret_cast<const char*>(data), size)) >=
+    if (false_trie_.Find(std::string_view(reinterpret_cast<const char*>(data), size)) >=
         0) {
       *out = false;
       return Status::OK();
     }
-    if (ARROW_PREDICT_TRUE(true_trie_.Find(util::string_view(
+    if (ARROW_PREDICT_TRUE(true_trie_.Find(std::string_view(
                                reinterpret_cast<const char*>(data), size)) >= 0)) {
       *out = true;
       return Status::OK();
@@ -288,7 +281,7 @@ struct DecimalValueDecoder : public ValueDecoder {
     TrimWhiteSpace(&data, &size);
     Decimal128 decimal;
     int32_t precision, scale;
-    util::string_view view(reinterpret_cast<const char*>(data), size);
+    std::string_view view(reinterpret_cast<const char*>(data), size);
     RETURN_NOT_OK(Decimal128::FromString(view, &decimal, &precision, &scale));
     if (precision > type_precision_) {
       return Status::Invalid("Error converting '", view, "' to ", type_->ToString(),
diff --git a/cpp/src/arrow/csv/converter_test.cc b/cpp/src/arrow/csv/converter_test.cc
index 0c5def554b0..ea4e171d57e 100644
--- a/cpp/src/arrow/csv/converter_test.cc
+++ b/cpp/src/arrow/csv/converter_test.cc
@@ -624,21 +624,29 @@ TEST(TimestampConversion, UserDefinedParsers) {
                                            {{86400000}, {172800000}}, options);
 }
 
-#ifndef _WIN32
 TEST(TimestampConversion, UserDefinedParsersWithZone) {
   auto options = ConvertOptions::Defaults();
   auto type = timestamp(TimeUnit::SECOND, "America/Phoenix");
 
   // Test a single parser
   options.timestamp_parsers = {TimestampParser::MakeStrptime("%m/%d/%Y %z")};
-  AssertConversion<TimestampType, int64_t>(type, {"01/02/1970 +0000,01/03/1970 +0000\n"},
-                                           {{86400}, {172800}}, options);
+  if (internal::kStrptimeSupportsZone) {
+    AssertConversion<TimestampType, int64_t>(
+        type, {"01/02/1970 +0000,01/03/1970 +0000\n"}, {{86400}, {172800}}, options);
+  } else {
+    AssertConversionError(type, {"01/02/1970 +0000,01/03/1970 +0000\n"}, {0, 1}, options);
+  }
 
   // Test multiple parsers
   options.timestamp_parsers.push_back(TimestampParser::MakeISO8601());
-  AssertConversion<TimestampType, int64_t>(
-      type, {"01/02/1970 +0000,1970-01-03T00:00:00+0000\n"}, {{86400}, {172800}},
-      options);
+  if (internal::kStrptimeSupportsZone) {
+    AssertConversion<TimestampType, int64_t>(
+        type, {"01/02/1970 +0000,1970-01-03T00:00:00+0000\n"}, {{86400}, {172800}},
+        options);
+  } else {
+    AssertConversionError(type, {"01/02/1970 +0000,1970-01-03T00:00:00+0000\n"}, {0},
+                          options);
+  }
 
   // Test errors
   options.timestamp_parsers = {TimestampParser::MakeStrptime("%m/%d/%Y")};
@@ -646,27 +654,8 @@ TEST(TimestampConversion, UserDefinedParsersWithZone) {
   options.timestamp_parsers.push_back(TimestampParser::MakeISO8601());
   AssertConversionError(type, {"01/02/1970,1970-01-03T00:00:00+0000\n"}, {0}, options);
 }
-#else
-// Windows uses the vendored musl strptime which doesn't support %z.
-TEST(TimestampConversion, UserDefinedParsersWithZone) {
-  auto options = ConvertOptions::Defaults();
-  auto type = timestamp(TimeUnit::SECOND, "America/Phoenix");
-
-  options.timestamp_parsers = {TimestampParser::MakeStrptime("%m/%d/%Y %z")};
-  AssertConversionError(type, {"01/02/1970 +0000,01/03/1970 +0000\n"}, {0, 1}, options);
-
-  options.timestamp_parsers.push_back(TimestampParser::MakeISO8601());
-  AssertConversionError(type, {"01/02/1970 +0000,1970-01-03T00:00:00+0000\n"}, {0},
-                        options);
-
-  options.timestamp_parsers = {TimestampParser::MakeStrptime("%m/%d/%Y")};
-  AssertConversionError(type, {"01/02/1970,01/03/1970\n"}, {0, 1}, options);
-  options.timestamp_parsers.push_back(TimestampParser::MakeISO8601());
-  AssertConversionError(type, {"01/02/1970,1970-01-03T00:00:00+0000\n"}, {0}, options);
-}
-#endif
 
-Decimal128 Dec128(util::string_view value) {
+Decimal128 Dec128(std::string_view value) {
   Decimal128 dec;
   int32_t scale = 0;
   int32_t precision = 0;
diff --git a/cpp/src/arrow/csv/invalid_row.h b/cpp/src/arrow/csv/invalid_row.h
index 8a07b568a35..4360ceaaea6 100644
--- a/cpp/src/arrow/csv/invalid_row.h
+++ b/cpp/src/arrow/csv/invalid_row.h
@@ -18,8 +18,7 @@
 #pragma once
 
 #include <functional>
-
-#include "arrow/util/string_view.h"
+#include <string_view>
 
 namespace arrow {
 namespace csv {
@@ -36,7 +35,7 @@ struct InvalidRow {
   /// CSV header rows).
   int64_t number;
   /// \brief View of the entire row. Memory will be freed after callback returns
-  const util::string_view text;
+  const std::string_view text;
 };
 
 /// \brief Result returned by an InvalidRowHandler
diff --git a/cpp/src/arrow/csv/parser.cc b/cpp/src/arrow/csv/parser.cc
index 8b060df2540..da3472a9d9a 100644
--- a/cpp/src/arrow/csv/parser.cc
+++ b/cpp/src/arrow/csv/parser.cc
@@ -212,7 +212,7 @@ class BlockParserImpl {
         batch_.num_rows_ + batch_.num_skipped_rows();
     InvalidRow row{batch_.num_cols_, num_cols,
                    first_row_ < 0 ? -1 : first_row_ + batch_row_including_skipped,
-                   util::string_view(start, end - start)};
+                   std::string_view(start, end - start)};
 
     if (options_.invalid_row_handler &&
         options_.invalid_row_handler(row) == InvalidRowResult::Skip) {
@@ -508,7 +508,7 @@ class BlockParserImpl {
   }
 
   template <typename SpecializedOptions>
-  Status ParseSpecialized(const std::vector<util::string_view>& views, bool is_final,
+  Status ParseSpecialized(const std::vector<std::string_view>& views, bool is_final,
                           uint32_t* out_size) {
     internal::PreferredBulkFilterType<SpecializedOptions> bulk_filter(options_);
 
@@ -604,7 +604,7 @@ class BlockParserImpl {
     return Status::OK();
   }
 
-  Status Parse(const std::vector<util::string_view>& data, bool is_final,
+  Status Parse(const std::vector<std::string_view>& data, bool is_final,
                uint32_t* out_size) {
     if (options_.quoting) {
       if (options_.escaping) {
@@ -651,21 +651,20 @@ BlockParser::BlockParser(MemoryPool* pool, ParseOptions options, int32_t num_col
 
 BlockParser::~BlockParser() {}
 
-Status BlockParser::Parse(const std::vector<util::string_view>& data,
-                          uint32_t* out_size) {
+Status BlockParser::Parse(const std::vector<std::string_view>& data, uint32_t* out_size) {
   return impl_->Parse(data, false /* is_final */, out_size);
 }
 
-Status BlockParser::ParseFinal(const std::vector<util::string_view>& data,
+Status BlockParser::ParseFinal(const std::vector<std::string_view>& data,
                                uint32_t* out_size) {
   return impl_->Parse(data, true /* is_final */, out_size);
 }
 
-Status BlockParser::Parse(util::string_view data, uint32_t* out_size) {
+Status BlockParser::Parse(std::string_view data, uint32_t* out_size) {
   return impl_->Parse({data}, false /* is_final */, out_size);
 }
 
-Status BlockParser::ParseFinal(util::string_view data, uint32_t* out_size) {
+Status BlockParser::ParseFinal(std::string_view data, uint32_t* out_size) {
   return impl_->Parse({data}, true /* is_final */, out_size);
 }
 
diff --git a/cpp/src/arrow/csv/parser.h b/cpp/src/arrow/csv/parser.h
index fb003faaff6..c73e52ce831 100644
--- a/cpp/src/arrow/csv/parser.h
+++ b/cpp/src/arrow/csv/parser.h
@@ -21,6 +21,7 @@
 #include <cstddef>
 #include <cstdint>
 #include <memory>
+#include <string_view>
 #include <vector>
 
 #include "arrow/buffer.h"
@@ -28,7 +29,6 @@
 #include "arrow/csv/type_fwd.h"
 #include "arrow/status.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -121,6 +121,7 @@ class ARROW_EXPORT DataBatch {
     }
     // Use return_if so that when extra context is enabled it will be added
     ARROW_RETURN_IF_(true, std::move(status), ARROW_STRINGIFY(status));
+    return std::move(status);
   }
 
   // The number of rows in this batch (not including any skipped ones)
@@ -169,23 +170,23 @@ class ARROW_EXPORT BlockParser {
   ///
   /// Parse a block of CSV data, ingesting up to max_num_rows rows.
   /// The number of bytes actually parsed is returned in out_size.
-  Status Parse(util::string_view data, uint32_t* out_size);
+  Status Parse(std::string_view data, uint32_t* out_size);
 
   /// \brief Parse sequential blocks of data
   ///
   /// Only the last block is allowed to be truncated.
-  Status Parse(const std::vector<util::string_view>& data, uint32_t* out_size);
+  Status Parse(const std::vector<std::string_view>& data, uint32_t* out_size);
 
   /// \brief Parse the final block of data
   ///
   /// Like Parse(), but called with the final block in a file.
   /// The last row may lack a trailing line separator.
-  Status ParseFinal(util::string_view data, uint32_t* out_size);
+  Status ParseFinal(std::string_view data, uint32_t* out_size);
 
   /// \brief Parse the final sequential blocks of data
   ///
   /// Only the last block is allowed to be truncated.
-  Status ParseFinal(const std::vector<util::string_view>& data, uint32_t* out_size);
+  Status ParseFinal(const std::vector<std::string_view>& data, uint32_t* out_size);
 
   /// \brief Return the number of parsed rows
   int32_t num_rows() const { return parsed_batch().num_rows(); }
diff --git a/cpp/src/arrow/csv/parser_benchmark.cc b/cpp/src/arrow/csv/parser_benchmark.cc
index 84495fc542e..203cfa4ea02 100644
--- a/cpp/src/arrow/csv/parser_benchmark.cc
+++ b/cpp/src/arrow/csv/parser_benchmark.cc
@@ -20,12 +20,12 @@
 #include <memory>
 #include <sstream>
 #include <string>
+#include <string_view>
 
 #include "arrow/csv/chunker.h"
 #include "arrow/csv/options.h"
 #include "arrow/csv/parser.h"
 #include "arrow/testing/gtest_util.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 namespace csv {
@@ -77,7 +77,7 @@ static std::string BuildCSVData(const Example& example) {
 static void BenchmarkCSVChunking(benchmark::State& state,  // NOLINT non-const reference
                                  const std::string& csv, ParseOptions options) {
   auto chunker = MakeChunker(options);
-  auto block = std::make_shared<Buffer>(util::string_view(csv));
+  auto block = std::make_shared<Buffer>(std::string_view(csv));
 
   while (state.KeepRunning()) {
     std::shared_ptr<Buffer> whole, partial;
@@ -161,7 +161,7 @@ static void BenchmarkCSVParsing(benchmark::State& state,  // NOLINT non-const re
 
   while (state.KeepRunning()) {
     uint32_t parsed_size = 0;
-    ABORT_NOT_OK(parser.Parse(util::string_view(csv), &parsed_size));
+    ABORT_NOT_OK(parser.Parse(std::string_view(csv), &parsed_size));
 
     // Include performance of visiting the parsed values, as that might
     // vary depending on the parser's internal data structures.
diff --git a/cpp/src/arrow/csv/parser_test.cc b/cpp/src/arrow/csv/parser_test.cc
index 3fb2f11387d..960a69c59db 100644
--- a/cpp/src/arrow/csv/parser_test.cc
+++ b/cpp/src/arrow/csv/parser_test.cc
@@ -15,6 +15,7 @@
 // specific language governing permissions and limitations
 // under the License.
 
+#include <algorithm>
 #include <cstdint>
 #include <string>
 #include <utility>
@@ -120,7 +121,7 @@ void GetLastRow(const BlockParser& parser, std::vector<std::string>* out,
   }
 }
 
-size_t TotalViewLength(const std::vector<util::string_view>& views) {
+size_t TotalViewLength(const std::vector<std::string_view>& views) {
   size_t total_view_length = 0;
   for (const auto& view : views) {
     total_view_length += view.length();
@@ -128,12 +129,19 @@ size_t TotalViewLength(const std::vector<util::string_view>& views) {
   return total_view_length;
 }
 
+std::vector<std::string_view> Views(const std::vector<std::string>& strings) {
+  std::vector<std::string_view> views(strings.size());
+  std::transform(strings.begin(), strings.end(), views.begin(),
+                 [](const std::string& s) { return std::string_view(s); });
+  return views;
+}
+
 Status Parse(BlockParser& parser, const std::string& str, uint32_t* out_size) {
-  return parser.Parse(util::string_view(str), out_size);
+  return parser.Parse(std::string_view(str), out_size);
 }
 
 Status ParseFinal(BlockParser& parser, const std::string& str, uint32_t* out_size) {
-  return parser.ParseFinal(util::string_view(str), out_size);
+  return parser.ParseFinal(std::string_view(str), out_size);
 }
 
 void AssertParseOk(BlockParser& parser, const std::string& str) {
@@ -142,7 +150,7 @@ void AssertParseOk(BlockParser& parser, const std::string& str) {
   ASSERT_EQ(parsed_size, str.size());
 }
 
-void AssertParseOk(BlockParser& parser, const std::vector<util::string_view>& data) {
+void AssertParseOk(BlockParser& parser, const std::vector<std::string_view>& data) {
   uint32_t parsed_size = static_cast<uint32_t>(-1);
   ASSERT_OK(parser.Parse(data, &parsed_size));
   ASSERT_EQ(parsed_size, TotalViewLength(data));
@@ -154,7 +162,7 @@ void AssertParseFinal(BlockParser& parser, const std::string& str) {
   ASSERT_EQ(parsed_size, str.size());
 }
 
-void AssertParseFinal(BlockParser& parser, const std::vector<util::string_view>& data) {
+void AssertParseFinal(BlockParser& parser, const std::vector<std::string_view>& data) {
   uint32_t parsed_size = static_cast<uint32_t>(-1);
   ASSERT_OK(parser.ParseFinal(data, &parsed_size));
   ASSERT_EQ(parsed_size, TotalViewLength(data));
@@ -167,15 +175,16 @@ void AssertParsePartial(BlockParser& parser, const std::string& str,
   ASSERT_EQ(parsed_size, expected_size);
 }
 
-void AssertLastRowEq(const BlockParser& parser, const std::vector<std::string> expected) {
+void AssertLastRowEq(const BlockParser& parser,
+                     const std::vector<std::string>& expected) {
   std::vector<std::string> values;
   GetLastRow(parser, &values);
   ASSERT_EQ(parser.num_rows(), expected.size());
   ASSERT_EQ(values, expected);
 }
 
-void AssertLastRowEq(const BlockParser& parser, const std::vector<std::string> expected,
-                     const std::vector<bool> expected_quoted) {
+void AssertLastRowEq(const BlockParser& parser, const std::vector<std::string>& expected,
+                     const std::vector<bool>& expected_quoted) {
   std::vector<std::string> values;
   std::vector<bool> quoted;
   GetLastRow(parser, &values, &quoted);
@@ -185,7 +194,7 @@ void AssertLastRowEq(const BlockParser& parser, const std::vector<std::string> e
 }
 
 void AssertColumnEq(const BlockParser& parser, int32_t col_index,
-                    const std::vector<std::string> expected) {
+                    const std::vector<std::string>& expected) {
   std::vector<std::string> values;
   GetColumn(parser, col_index, &values);
   ASSERT_EQ(parser.num_rows(), expected.size());
@@ -193,8 +202,8 @@ void AssertColumnEq(const BlockParser& parser, int32_t col_index,
 }
 
 void AssertColumnEq(const BlockParser& parser, int32_t col_index,
-                    const std::vector<std::string> expected,
-                    const std::vector<bool> expected_quoted) {
+                    const std::vector<std::string>& expected,
+                    const std::vector<bool>& expected_quoted) {
   std::vector<std::string> values;
   std::vector<bool> quoted;
   GetColumn(parser, col_index, &values, &quoted);
@@ -204,7 +213,7 @@ void AssertColumnEq(const BlockParser& parser, int32_t col_index,
 }
 
 void AssertColumnsEq(const BlockParser& parser,
-                     const std::vector<std::vector<std::string>> expected) {
+                     const std::vector<std::vector<std::string>>& expected) {
   ASSERT_EQ(parser.num_cols(), expected.size());
   for (int32_t col_index = 0; col_index < parser.num_cols(); ++col_index) {
     AssertColumnEq(parser, col_index, expected[col_index]);
@@ -212,8 +221,8 @@ void AssertColumnsEq(const BlockParser& parser,
 }
 
 void AssertColumnsEq(const BlockParser& parser,
-                     const std::vector<std::vector<std::string>> expected,
-                     const std::vector<std::vector<bool>> quoted) {
+                     const std::vector<std::vector<std::string>>& expected,
+                     const std::vector<std::vector<bool>>& quoted) {
   ASSERT_EQ(parser.num_cols(), expected.size());
   for (int32_t col_index = 0; col_index < parser.num_cols(); ++col_index) {
     AssertColumnEq(parser, col_index, expected[col_index], quoted[col_index]);
@@ -238,9 +247,9 @@ TEST(BlockParser, Basics) {
   {
     auto csv1 = MakeCSVData({"ab,cd,\n", "ef,,gh\n"});
     auto csv2 = MakeCSVData({",ij,kl\n"});
-    std::vector<util::string_view> csvs = {csv1, csv2};
+    std::vector<std::string_view> csvs = {csv1, csv2};
     BlockParser parser(ParseOptions::Defaults());
-    AssertParseOk(parser, {{csv1}, {csv2}});
+    AssertParseOk(parser, csvs);
     AssertColumnsEq(parser, {{"ab", "ef", ""}, {"cd", "", "ij"}, {"", "gh", "kl"}});
     AssertLastRowEq(parser, {"", "ij", "kl"}, {false, false, false});
   }
@@ -392,7 +401,8 @@ TEST(BlockParser, Final) {
   // Two blocks
   auto csv1 = MakeCSVData({"ab,cd\n"});
   auto csv2 = MakeCSVData({"ef,"});
-  AssertParseFinal(parser, {{csv1}, {csv2}});
+  std::vector<std::string_view> csvs = {csv1, csv2};
+  AssertParseFinal(parser, csvs);
   AssertColumnsEq(parser, {{"ab", "ef"}, {"cd", ""}});
 }
 
@@ -596,7 +606,7 @@ TEST(BlockParser, MismatchingNumColumnsHandler) {
     operator InvalidRowHandler() {
       return [this](const InvalidRow& row) {
         // Copy the row to a string since the array behind the string_view can go away
-        rows.emplace_back(row, row.text.to_string());
+        rows.emplace_back(row, row.text);
         return InvalidRowResult::Skip;
       };
     }
diff --git a/cpp/src/arrow/csv/reader.cc b/cpp/src/arrow/csv/reader.cc
index ba754399b75..fdc7fcb1380 100644
--- a/cpp/src/arrow/csv/reader.cc
+++ b/cpp/src/arrow/csv/reader.cc
@@ -22,6 +22,7 @@
 #include <functional>
 #include <limits>
 #include <memory>
+#include <optional>
 #include <sstream>
 #include <string>
 #include <unordered_map>
@@ -46,7 +47,6 @@
 #include "arrow/util/iterator.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/task_group.h"
 #include "arrow/util/thread_pool.h"
 #include "arrow/util/utf8_internal.h"
@@ -166,7 +166,7 @@ namespace {
 
 // This is a callable that can be used to transform an iterator.  The source iterator
 // will contain buffers of data and the output iterator will contain delimited CSV
-// blocks.  util::optional is used so that there is an end token (required by the
+// blocks.  std::optional is used so that there is an end token (required by the
 // iterator APIs (e.g. Visit)) even though an empty optional is never used in this code.
 class BlockReader {
  public:
@@ -406,7 +406,7 @@ class BlockParsingOperator {
         io_context_.pool(), parse_options_, num_csv_cols_, num_rows_seen_, max_num_rows);
 
     std::shared_ptr<Buffer> straddling;
-    std::vector<util::string_view> views;
+    std::vector<std::string_view> views;
     if (block.partial->size() != 0 || block.completion->size() != 0) {
       if (block.partial->size() == 0) {
         straddling = block.completion;
@@ -417,9 +417,9 @@ class BlockParsingOperator {
             straddling,
             ConcatenateBuffers({block.partial, block.completion}, io_context_.pool()));
       }
-      views = {util::string_view(*straddling), util::string_view(*block.buffer)};
+      views = {std::string_view(*straddling), std::string_view(*block.buffer)};
     } else {
-      views = {util::string_view(*block.buffer)};
+      views = {std::string_view(*block.buffer)};
     }
     uint32_t parsed_size;
     if (block.is_final) {
@@ -588,7 +588,7 @@ class ReaderMixin {
                          num_rows_seen_, 1);
       uint32_t parsed_size = 0;
       RETURN_NOT_OK(parser.Parse(
-          util::string_view(reinterpret_cast<const char*>(data), data_end - data),
+          std::string_view(reinterpret_cast<const char*>(data), data_end - data),
           &parsed_size));
       if (parser.num_rows() != 1) {
         return Status::Invalid(
@@ -718,7 +718,7 @@ class ReaderMixin {
         io_context_.pool(), parse_options_, num_csv_cols_, num_rows_seen_, max_num_rows);
 
     std::shared_ptr<Buffer> straddling;
-    std::vector<util::string_view> views;
+    std::vector<std::string_view> views;
     if (partial->size() != 0 || completion->size() != 0) {
       if (partial->size() == 0) {
         straddling = completion;
@@ -728,9 +728,9 @@ class ReaderMixin {
         ARROW_ASSIGN_OR_RAISE(
             straddling, ConcatenateBuffers({partial, completion}, io_context_.pool()));
       }
-      views = {util::string_view(*straddling), util::string_view(*block)};
+      views = {std::string_view(*straddling), std::string_view(*block)};
     } else {
-      views = {util::string_view(*block)};
+      views = {std::string_view(*block)};
     }
     uint32_t parsed_size;
     if (is_final) {
@@ -1212,8 +1212,8 @@ class CSVRowCounter : public ReaderMixin,
     // count_cb must return a value instead of Status/Future<> to work with
     // MakeMappedGenerator, and it must use a type with a valid end value to work with
     // IterationEnd.
-    std::function<Result<util::optional<int64_t>>(const CSVBlock&)> count_cb =
-        [self](const CSVBlock& maybe_block) -> Result<util::optional<int64_t>> {
+    std::function<Result<std::optional<int64_t>>(const CSVBlock&)> count_cb =
+        [self](const CSVBlock& maybe_block) -> Result<std::optional<int64_t>> {
       ARROW_ASSIGN_OR_RAISE(
           auto parser,
           self->Parse(maybe_block.partial, maybe_block.completion, maybe_block.buffer,
diff --git a/cpp/src/arrow/csv/test_common.cc b/cpp/src/arrow/csv/test_common.cc
index 6ba4ff2e3cf..648ad18e3c6 100644
--- a/cpp/src/arrow/csv/test_common.cc
+++ b/cpp/src/arrow/csv/test_common.cc
@@ -35,7 +35,7 @@ void MakeCSVParser(std::vector<std::string> lines, ParseOptions options, int32_t
   auto csv = MakeCSVData(lines);
   auto parser = std::make_shared<BlockParser>(options, num_cols);
   uint32_t out_size;
-  ASSERT_OK(parser->Parse(util::string_view(csv), &out_size));
+  ASSERT_OK(parser->Parse(std::string_view(csv), &out_size));
   ASSERT_EQ(out_size, csv.size()) << "trailing CSV data not parsed";
   *out = parser;
 }
diff --git a/cpp/src/arrow/csv/writer.cc b/cpp/src/arrow/csv/writer.cc
index 95c2e03a10c..0b198759de1 100644
--- a/cpp/src/arrow/csv/writer.cc
+++ b/cpp/src/arrow/csv/writer.cc
@@ -26,10 +26,11 @@
 #include "arrow/stl_allocator.h"
 #include "arrow/util/iterator.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/visit_data_inline.h"
 #include "arrow/visit_type_inline.h"
 
+#include <memory>
+
 #if defined(ARROW_HAVE_NEON) || defined(ARROW_HAVE_SSE4_2)
 #include <xsimd/xsimd.hpp>
 #endif
@@ -99,7 +100,7 @@ RecordBatchIterator RecordBatchSliceIterator(const RecordBatch& batch,
 }
 
 // Counts the number of quotes in s.
-int64_t CountQuotes(arrow::util::string_view s) {
+int64_t CountQuotes(std::string_view s) {
   return static_cast<int64_t>(std::count(s.begin(), s.end(), '"'));
 }
 
@@ -155,7 +156,7 @@ class ColumnPopulator {
 
 // Copies the contents of s to out properly escaping any necessary characters.
 // Returns the position next to last copied character.
-char* Escape(arrow::util::string_view s, char* out) {
+char* Escape(std::string_view s, char* out) {
   for (const char c : s) {
     *out++ = c;
     if (c == '"') {
@@ -189,7 +190,7 @@ class UnquotedColumnPopulator : public ColumnPopulator {
     int64_t row_number = 0;
     VisitArraySpanInline<StringType>(
         *casted_array_->data(),
-        [&](arrow::util::string_view s) {
+        [&](std::string_view s) {
           row_lengths[row_number] += static_cast<int64_t>(s.length());
           row_number++;
         },
@@ -202,7 +203,7 @@ class UnquotedColumnPopulator : public ColumnPopulator {
 
   Status PopulateRows(char* output, int64_t* offsets) const override {
     // Function applied to valid values cast to string.
-    auto valid_function = [&](arrow::util::string_view s) {
+    auto valid_function = [&](std::string_view s) {
       memcpy(output + *offsets, s.data(), s.length());
       CopyEndChars(output + *offsets + s.length(), end_chars_.c_str(), end_chars_.size());
       *offsets += static_cast<int64_t>(s.length() + end_chars_.size());
@@ -290,7 +291,7 @@ class QuotedColumnPopulator : public ColumnPopulator {
       int row_number = 0;
       VisitArraySpanInline<StringType>(
           *input.data(),
-          [&](arrow::util::string_view s) {
+          [&](std::string_view s) {
             row_lengths[row_number] += static_cast<int64_t>(s.length()) + kQuoteCount;
             row_number++;
           },
@@ -302,7 +303,7 @@ class QuotedColumnPopulator : public ColumnPopulator {
       int row_number = 0;
       VisitArraySpanInline<StringType>(
           *input.data(),
-          [&](arrow::util::string_view s) {
+          [&](std::string_view s) {
             // Each quote in the value string needs to be escaped.
             int64_t escaped_count = CountQuotes(s);
             row_needs_escaping_[row_number] = escaped_count > 0;
@@ -322,7 +323,7 @@ class QuotedColumnPopulator : public ColumnPopulator {
     auto needs_escaping = row_needs_escaping_.begin();
     VisitArraySpanInline<StringType>(
         *(casted_array_->data()),
-        [&](arrow::util::string_view s) {
+        [&](std::string_view s) {
           // still needs string content length to be added
           char* row = output + *offsets;
           *row++ = '"';
@@ -366,81 +367,67 @@ class QuotedColumnPopulator : public ColumnPopulator {
   std::vector<bool> row_needs_escaping_;
 };
 
-struct PopulatorFactory {
-  template <typename TypeClass>
-  enable_if_t<is_base_binary_type<TypeClass>::value ||
-                  std::is_same<FixedSizeBinaryType, TypeClass>::value,
-              Status>
-  Visit(const TypeClass& type) {
-    // Determine what ColumnPopulator to use based on desired CSV quoting style.
-    switch (quoting_style) {
-      case QuotingStyle::None:
-        // In unquoted output we must reject values with quotes. Since these types can
-        // produce quotes in their output rendering, we must check them and reject if
-        // quotes appear, hence reject_values_with_quotes is set to true.
-        populator = new UnquotedColumnPopulator(pool, end_chars, delimiter, null_string,
-                                                /*reject_values_with_quotes=*/true);
-        break;
-        // Quoting is needed for strings/binary, or when all valid values need to be
-        // quoted.
-      case QuotingStyle::Needed:
-      case QuotingStyle::AllValid:
-        populator = new QuotedColumnPopulator(pool, end_chars, null_string);
-        break;
+Result<std::unique_ptr<ColumnPopulator>> MakePopulator(
+    const DataType& type, const std::string& end_chars, const char delimiter,
+    const std::shared_ptr<Buffer>& null_string, QuotingStyle quoting_style,
+    MemoryPool* pool) {
+  auto make_populator =
+      [&](const auto& type) -> Result<std::unique_ptr<ColumnPopulator>> {
+    using Type = std::decay_t<decltype(type)>;
+
+    if constexpr (is_primitive_ctype<Type>::value || is_decimal_type<Type>::value ||
+                  is_null_type<Type>::value || is_temporal_type<Type>::value) {
+      switch (quoting_style) {
+        // These types are assumed not to produce any quotes, so we do not need to
+        // check and reject for potential quotes in the casted values in case the
+        // QuotingStyle is None.
+        case QuotingStyle::None:
+          [[fallthrough]];
+        case QuotingStyle::Needed:
+          return std::make_unique<UnquotedColumnPopulator>(
+              pool, end_chars, delimiter, null_string,
+              /*reject_values_with_quotes=*/false);
+        case QuotingStyle::AllValid:
+          return std::make_unique<QuotedColumnPopulator>(pool, end_chars, null_string);
+      }
     }
-    return Status::OK();
-  }
-
-  template <typename TypeClass>
-  enable_if_dictionary<TypeClass, Status> Visit(const TypeClass& type) {
-    return VisitTypeInline(*type.value_type(), this);
-  }
 
-  template <typename TypeClass>
-  enable_if_t<is_nested_type<TypeClass>::value || is_extension_type<TypeClass>::value,
-              Status>
-  Visit(const TypeClass& type) {
-    return Status::Invalid("Unsupported Type:", type.ToString());
-  }
+    if constexpr (is_base_binary_type<Type>::value ||
+                  std::is_same<Type, FixedSizeBinaryType>::value) {
+      // Determine what ColumnPopulator to use based on desired CSV quoting style.
+      switch (quoting_style) {
+        case QuotingStyle::None:
+          // In unquoted output we must reject values with quotes. Since these types
+          // can produce quotes in their output rendering, we must check them and
+          // reject if quotes appear, hence reject_values_with_quotes is set to true.
+          return std::make_unique<UnquotedColumnPopulator>(
+              pool, end_chars, delimiter, null_string,
+              /*reject_values_with_quotes=*/true);
+          // Quoting is needed for strings/binary, or when all valid values need to be
+          // quoted.
+        case QuotingStyle::Needed:
+          [[fallthrough]];
+        case QuotingStyle::AllValid:
+          return std::make_unique<QuotedColumnPopulator>(pool, end_chars, null_string);
+      }
+    }
 
-  template <typename TypeClass>
-  enable_if_t<is_primitive_ctype<TypeClass>::value || is_decimal_type<TypeClass>::value ||
-                  is_null_type<TypeClass>::value || is_temporal_type<TypeClass>::value,
-              Status>
-  Visit(const TypeClass& type) {
-    // Determine what ColumnPopulator to use based on desired CSV quoting style.
-    switch (quoting_style) {
-        // These types are assumed not to produce any quotes, so we do not need to check
-        // and reject for potential quotes in the casted values in case the QuotingStyle
-        // is None.
-      case QuotingStyle::None:
-      case QuotingStyle::Needed:
-        populator = new UnquotedColumnPopulator(pool, end_chars, delimiter, null_string,
-                                                /*reject_values_with_quotes=*/false);
-        break;
-      case QuotingStyle::AllValid:
-        populator = new QuotedColumnPopulator(pool, end_chars, null_string);
-        break;
+    if constexpr (std::is_same<Type, DictionaryType>::value) {
+      return MakePopulator(*type.value_type(), end_chars, delimiter, null_string,
+                           quoting_style, pool);
     }
-    return Status::OK();
-  }
 
-  const std::string end_chars;
-  const char delimiter;
-  std::shared_ptr<Buffer> null_string;
-  const QuotingStyle quoting_style;
-  MemoryPool* pool;
-  ColumnPopulator* populator;
-};
+    return Status::Invalid("Unsupported Type:", type.ToString());
+  };
+  return VisitType(type, make_populator);
+}
 
 Result<std::unique_ptr<ColumnPopulator>> MakePopulator(
-    const Field& field, std::string end_chars, char delimiter,
-    std::shared_ptr<Buffer> null_string, QuotingStyle quoting_style, MemoryPool* pool) {
-  PopulatorFactory factory{std::move(end_chars), delimiter, std::move(null_string),
-                           quoting_style,        pool,      nullptr};
-
-  RETURN_NOT_OK(VisitTypeInline(*field.type(), &factory));
-  return std::unique_ptr<ColumnPopulator>(factory.populator);
+    const Field& field, const std::string& end_chars, char delimiter,
+    const std::shared_ptr<Buffer>& null_string, QuotingStyle quoting_style,
+    MemoryPool* pool) {
+  return MakePopulator(*field.type(), end_chars, delimiter, null_string, quoting_style,
+                       pool);
 }
 
 class CSVWriterImpl : public ipc::RecordBatchWriter {
diff --git a/cpp/src/arrow/csv/writer_test.cc b/cpp/src/arrow/csv/writer_test.cc
index c7f9433688c..c1f5622289e 100644
--- a/cpp/src/arrow/csv/writer_test.cc
+++ b/cpp/src/arrow/csv/writer_test.cc
@@ -18,6 +18,7 @@
 #include "gtest/gtest.h"
 
 #include <memory>
+#include <optional>
 #include <utility>
 #include <vector>
 
@@ -31,14 +32,13 @@
 #include "arrow/testing/matchers.h"
 #include "arrow/type.h"
 #include "arrow/type_fwd.h"
-#include "arrow/util/optional.h"
 
 namespace arrow {
 namespace csv {
 
 struct WriterTestParams {
   WriterTestParams(std::shared_ptr<Schema> schema, std::string batch_data,
-                   WriteOptions options, util::optional<std::string> expected_output,
+                   WriteOptions options, std::optional<std::string> expected_output,
                    Status expected_status = Status::OK())
       : schema(std::move(schema)),
         batch_data(std::move(batch_data)),
@@ -48,7 +48,7 @@ struct WriterTestParams {
   std::shared_ptr<Schema> schema;
   std::string batch_data;
   WriteOptions options;
-  util::optional<std::string> expected_output;
+  std::optional<std::string> expected_output;
   Status expected_status;
 };
 
@@ -73,16 +73,17 @@ WriteOptions DefaultTestOptions(bool include_header = false,
 }
 
 std::string UtilGetExpectedWithEOL(const std::string& eol) {
-  return std::string("1,,-1,,,") + eol +        // line 1
-         R"(1,"abc""efg",2324,,,)" + eol +      // line 2
-         R"(,"abcd",5467,,,)" + eol +           // line 3
-         R"(,,,,,)" + eol +                     // line 4
-         R"(546,"",517,,,)" + eol +             // line 5
-         R"(124,"a""""b""",,,,)" + eol +        // line 6
-         R"(,,,1970-01-01,,)" + eol +           // line 7
-         R"(,,,,1970-01-02,)" + eol +           // line 8
-         R"(,,,,,2004-02-29 01:02:03)" + eol +  // line 9
-         R"(,"NA",,,,)" + eol;                  // line 10
+  return std::string("1,,-1,,,,") + eol +        // line 1
+         R"(1,"abc""efg",2324,,,,)" + eol +      // line 2
+         R"(,"abcd",5467,,,,)" + eol +           // line 3
+         R"(,,,,,,)" + eol +                     // line 4
+         R"(546,"",517,,,,)" + eol +             // line 5
+         R"(124,"a""""b""",,,,,)" + eol +        // line 6
+         R"(,,,1970-01-01,,,)" + eol +           // line 7
+         R"(,,,,1970-01-02,,)" + eol +           // line 8
+         R"(,,,,,2004-02-29 01:02:03,)" + eol +  // line 9
+         R"(,,,,,,3600)" + eol +                 // line 10
+         R"(,"NA",,,,,)" + eol;                  // line 11
 }
 
 std::vector<WriterTestParams> GenerateTestCases() {
@@ -98,6 +99,7 @@ std::vector<WriterTestParams> GenerateTestCases() {
       field("d", date32()),
       field("e", date64()),
       field("f", timestamp(TimeUnit::SECOND)),
+      field("g", duration(TimeUnit::SECOND)),
   });
   auto populated_batch = R"([{"a": 1, "c ": -1},
                              { "a": 1, "b\"": "abc\"efg", "c ": 2324},
@@ -108,9 +110,10 @@ std::vector<WriterTestParams> GenerateTestCases() {
                              { "d": 0 },
                              { "e": 86400000 },
                              { "f": 1078016523 },
+                             { "g": 3600 },
                              { "b\"": "NA" }])";
 
-  std::string expected_header = std::string(R"("a","b""","c ","d","e","f")") + "\n";
+  std::string expected_header = std::string(R"("a","b""","c ","d","e","f","g")") + "\n";
 
   // Expected output without header when using default QuotingStyle::Needed.
   std::string expected_without_header = UtilGetExpectedWithEOL("\n");
@@ -119,16 +122,17 @@ std::vector<WriterTestParams> GenerateTestCases() {
 
   // Expected output without header when using QuotingStyle::AllValid.
   std::string expected_quoting_style_all_valid =
-      std::string(R"("1",,"-1",,,)") + "\n" +   // line 1
-      R"("1","abc""efg","2324",,,)" + "\n" +    // line 2
-      R"(,"abcd","5467",,,)" + "\n" +           // line 3
-      R"(,,,,,)" + "\n" +                       // line 4
-      R"("546","","517",,,)" + "\n" +           // line 5
-      R"("124","a""""b""",,,,)" + "\n" +        // line 6
-      R"(,,,"1970-01-01",,)" + "\n" +           // line 7
-      R"(,,,,"1970-01-02",)" + "\n" +           // line 8
-      R"(,,,,,"2004-02-29 01:02:03")" + "\n" +  // line 9
-      R"(,"NA",,,,)" + "\n";                    // line 10
+      std::string(R"("1",,"-1",,,,)") + "\n" +   // line 1
+      R"("1","abc""efg","2324",,,,)" + "\n" +    // line 2
+      R"(,"abcd","5467",,,,)" + "\n" +           // line 3
+      R"(,,,,,,)" + "\n" +                       // line 4
+      R"("546","","517",,,,)" + "\n" +           // line 5
+      R"("124","a""""b""",,,,,)" + "\n" +        // line 6
+      R"(,,,"1970-01-01",,,)" + "\n" +           // line 7
+      R"(,,,,"1970-01-02",,)" + "\n" +           // line 8
+      R"(,,,,,"2004-02-29 01:02:03",)" + "\n" +  // line 9
+      R"(,,,,,,"3600")" + "\n" +                 // line 10
+      R"(,"NA",,,,,)" + "\n";                    // line 11
 
   // Batch when testing QuotingStyle::None. The values may not contain any quotes for this
   // style according to RFC4180.
@@ -140,18 +144,20 @@ std::vector<WriterTestParams> GenerateTestCases() {
                              { "a": 124, "b\"": "ab" },
                              { "d": 0 },
                              { "e": 86400000 },
-                             { "f": 1078016523 }])";
+                             { "f": 1078016523 },
+                             { "g": 3600 }])";
   // Expected output for QuotingStyle::None.
-  std::string expected_quoting_style_none = std::string("1,,-1,,,") + "\n" +  // line 1
-                                            R"(1,abcefg,2324,,,)" + "\n" +    // line 2
-                                            R"(,abcd,5467,,,)" + "\n" +       // line 3
-                                            R"(,,,,,)" + "\n" +               // line 4
-                                            R"(546,,517,,,)" + "\n" +         // line 5
-                                            R"(124,ab,,,,)" + "\n" +          // line 6
-                                            R"(,,,1970-01-01,,)" + "\n" +     // line 7
-                                            R"(,,,,1970-01-02,)" + "\n" +     // line 8
-                                            R"(,,,,,2004-02-29 01:02:03)" +
-                                            "\n";  // line 9
+  std::string expected_quoting_style_none = std::string("1,,-1,,,,") + "\n" +  // line 1
+                                            R"(1,abcefg,2324,,,,)" + "\n" +    // line 2
+                                            R"(,abcd,5467,,,,)" + "\n" +       // line 3
+                                            R"(,,,,,,)" + "\n" +               // line 4
+                                            R"(546,,517,,,,)" + "\n" +         // line 5
+                                            R"(124,ab,,,,,)" + "\n" +          // line 6
+                                            R"(,,,1970-01-01,,,)" + "\n" +     // line 7
+                                            R"(,,,,1970-01-02,,)" + "\n" +     // line 8
+                                            R"(,,,,,2004-02-29 01:02:03,)" +
+                                            "\n" +                   // line 9
+                                            R"(,,,,,,3600)" + "\n";  // line 10
 
   // Schema and data to test custom null value string.
   auto schema_custom_na = schema({field("g", uint64()), field("h", utf8())});
diff --git a/cpp/src/arrow/dataset/ArrowDatasetConfig.cmake.in b/cpp/src/arrow/dataset/ArrowDatasetConfig.cmake.in
index ee732cfd5be..6816f2c837d 100644
--- a/cpp/src/arrow/dataset/ArrowDatasetConfig.cmake.in
+++ b/cpp/src/arrow/dataset/ArrowDatasetConfig.cmake.in
@@ -21,8 +21,8 @@
 #
 # This config sets the following targets in your project::
 #
-#   arrow_dataset_shared - for linked as shared library if shared library is built
-#   arrow_dataset_static - for linked as static library if static library is built
+#   ArrowDataset::arrow_dataset_shared - for linked as shared library if shared library is built
+#   ArrowDataset::arrow_dataset_static - for linked as static library if static library is built
 
 @PACKAGE_INIT@
 
@@ -30,8 +30,10 @@ include(CMakeFindDependencyMacro)
 find_dependency(Arrow)
 find_dependency(Parquet)
 
-# Load targets only once. If we load targets multiple times, CMake reports
-# already existent target error.
-if(NOT (TARGET arrow_dataset_shared OR TARGET arrow_dataset_static))
-  include("${CMAKE_CURRENT_LIST_DIR}/ArrowDatasetTargets.cmake")
-endif()
+include("${CMAKE_CURRENT_LIST_DIR}/ArrowDatasetTargets.cmake")
+
+arrow_keep_backward_compatibility(ArrowDataset arrow_dataset)
+
+check_required_components(ArrowDataset)
+
+arrow_show_details(ArrowDataset ARROW_DATASET)
diff --git a/cpp/src/arrow/dataset/CMakeLists.txt b/cpp/src/arrow/dataset/CMakeLists.txt
index 478c13691b0..04f80ab6d1b 100644
--- a/cpp/src/arrow/dataset/CMakeLists.txt
+++ b/cpp/src/arrow/dataset/CMakeLists.txt
@@ -28,10 +28,19 @@ set(ARROW_DATASET_SRCS
     partition.cc
     plan.cc
     projector.cc
-    scanner.cc)
+    scanner.cc
+    scan_node.cc)
 
-set(ARROW_DATASET_LINK_STATIC arrow_static ${ARROW_STATIC_LINK_LIBS})
-set(ARROW_DATASET_LINK_SHARED arrow_shared)
+if(ARROW_PARQUET)
+  set(ARROW_DATASET_PKG_CONFIG_REQUIRES parquet)
+else()
+  set(ARROW_DATASET_PKG_CONFIG_REQUIRES arrow)
+endif()
+
+set(ARROW_DATASET_STATIC_LINK_LIBS)
+set(ARROW_DATASET_SHARED_LINK_LIBS)
+set(ARROW_DATASET_STATIC_INSTALL_INTERFACE_LIBS)
+set(ARROW_DATASET_SHARED_INSTALL_INTERFACE_LIBS)
 
 if(ARROW_CSV)
   set(ARROW_DATASET_SRCS ${ARROW_DATASET_SRCS} file_csv.cc)
@@ -42,12 +51,20 @@ if(ARROW_ORC)
 endif()
 
 if(ARROW_PARQUET)
-  set(ARROW_DATASET_LINK_STATIC ${ARROW_DATASET_LINK_STATIC} parquet_static)
-  set(ARROW_DATASET_LINK_SHARED ${ARROW_DATASET_LINK_SHARED} parquet_shared)
-  set(ARROW_DATASET_SRCS ${ARROW_DATASET_SRCS} file_parquet.cc)
-  set(ARROW_DATASET_PRIVATE_INCLUDES ${PROJECT_SOURCE_DIR}/src/parquet)
+  list(APPEND ARROW_DATASET_STATIC_LINK_LIBS parquet_static)
+  list(APPEND ARROW_DATASET_SHARED_LINK_LIBS parquet_shared)
+  list(APPEND ARROW_DATASET_STATIC_INSTALL_INTERFACE_LIBS Parquet::parquet_static)
+  list(APPEND ARROW_DATASET_SHARED_INSTALL_INTERFACE_LIBS Parquet::parquet_shared)
+  list(APPEND ARROW_DATASET_SRCS file_parquet.cc)
+  list(APPEND ARROW_DATASET_PRIVATE_INCLUDES ${PROJECT_SOURCE_DIR}/src/parquet)
+else()
+  list(APPEND ARROW_DATASET_STATIC_INSTALL_INTERFACE_LIBS Arrow::arrow_static)
+  list(APPEND ARROW_DATASET_SHARED_INSTALL_INTERFACE_LIBS Arrow::arrow_shared)
 endif()
 
+list(APPEND ARROW_DATASET_STATIC_LINK_LIBS arrow_static ${ARROW_STATIC_LINK_LIBS})
+list(APPEND ARROW_DATASET_SHARED_LINK_LIBS arrow_shared)
+
 add_arrow_lib(arrow_dataset
               CMAKE_PACKAGE_NAME
               ArrowDataset
@@ -64,9 +81,17 @@ add_arrow_lib(arrow_dataset
               PRIVATE_INCLUDES
               ${ARROW_DATASET_PRIVATE_INCLUDES}
               SHARED_LINK_LIBS
-              ${ARROW_DATASET_LINK_SHARED}
+              ${ARROW_DATASET_SHARED_LINK_LIBS}
+              SHARED_INSTALL_INTERFACE_LIBS
+              ${ARROW_DATASET_SHARED_INSTALL_INTERFACE_LIBS}
               STATIC_LINK_LIBS
-              ${ARROW_DATASET_LINK_STATIC})
+              ${ARROW_DATASET_STATIC_LINK_LIBS}
+              STATIC_INSTALL_INTERFACE_LIBS
+              ${ARROW_DATASET_STATIC_INSTALL_INTERFACE_LIBS})
+
+if(ARROW_BUILD_STATIC AND WIN32)
+  target_compile_definitions(arrow_dataset_static PUBLIC ARROW_DS_STATIC)
+endif()
 
 if(ARROW_TEST_LINKAGE STREQUAL "static")
   set(ARROW_DATASET_TEST_LINK_LIBS arrow_dataset_static ${ARROW_TEST_STATIC_LINK_LIBS})
diff --git a/cpp/src/arrow/dataset/api.h b/cpp/src/arrow/dataset/api.h
index 8b81f4c15d1..6e8aab5e9ea 100644
--- a/cpp/src/arrow/dataset/api.h
+++ b/cpp/src/arrow/dataset/api.h
@@ -23,8 +23,14 @@
 #include "arrow/dataset/dataset.h"
 #include "arrow/dataset/discovery.h"
 #include "arrow/dataset/file_base.h"
+#ifdef ARROW_CSV
 #include "arrow/dataset/file_csv.h"
+#endif
 #include "arrow/dataset/file_ipc.h"
+#ifdef ARROW_ORC
 #include "arrow/dataset/file_orc.h"
+#endif
+#ifdef ARROW_PARQUET
 #include "arrow/dataset/file_parquet.h"
+#endif
 #include "arrow/dataset/scanner.h"
diff --git a/cpp/src/arrow/dataset/arrow-dataset.pc.in b/cpp/src/arrow/dataset/arrow-dataset.pc.in
index 7c433321c13..d587fd110c0 100644
--- a/cpp/src/arrow/dataset/arrow-dataset.pc.in
+++ b/cpp/src/arrow/dataset/arrow-dataset.pc.in
@@ -22,5 +22,6 @@ libdir=@ARROW_PKG_CONFIG_LIBDIR@
 Name: Apache Arrow Dataset
 Description: Apache Arrow Dataset provides an API to read and write semantic datasets stored in different locations and formats.
 Version: @ARROW_VERSION@
-Requires: arrow parquet
+Requires: @ARROW_DATASET_PKG_CONFIG_REQUIRES@
 Libs: -L${libdir} -larrow_dataset
+Cflags.private: -DARROW_DS_STATIC
diff --git a/cpp/src/arrow/dataset/dataset.cc b/cpp/src/arrow/dataset/dataset.cc
index 1e4c9b7f719..f09a878b511 100644
--- a/cpp/src/arrow/dataset/dataset.cc
+++ b/cpp/src/arrow/dataset/dataset.cc
@@ -15,18 +15,20 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include "arrow/dataset/dataset.h"
-
 #include <memory>
 #include <utility>
 
+#include "arrow/compute/exec/util.h"
+#include "arrow/dataset/dataset.h"
 #include "arrow/dataset/dataset_internal.h"
 #include "arrow/dataset/scanner.h"
 #include "arrow/table.h"
+#include "arrow/util/async_generator.h"
 #include "arrow/util/bit_util.h"
+#include "arrow/util/byte_size.h"
 #include "arrow/util/iterator.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
+#include "arrow/util/thread_pool.h"
 
 namespace arrow {
 
@@ -34,11 +36,24 @@ using internal::checked_pointer_cast;
 
 namespace dataset {
 
+const compute::Expression Fragment::kNoPartitionInformation = compute::literal(true);
+
 Fragment::Fragment(compute::Expression partition_expression,
                    std::shared_ptr<Schema> physical_schema)
     : partition_expression_(std::move(partition_expression)),
       physical_schema_(std::move(physical_schema)) {}
 
+Future<std::shared_ptr<InspectedFragment>> Fragment::InspectFragment(
+    const FragmentScanOptions* format_options, compute::ExecContext* exec_context) {
+  return Status::NotImplemented("Inspect fragment");
+}
+
+Future<std::shared_ptr<FragmentScanner>> Fragment::BeginScan(
+    const FragmentScanRequest& request, const InspectedFragment& inspected_fragment,
+    const FragmentScanOptions* format_options, compute::ExecContext* exec_context) {
+  return Status::NotImplemented("New scan method");
+}
+
 Result<std::shared_ptr<Schema>> Fragment::ReadPhysicalSchema() {
   {
     auto lock = physical_schema_mutex_.Lock();
@@ -55,9 +70,9 @@ Result<std::shared_ptr<Schema>> Fragment::ReadPhysicalSchema() {
   return physical_schema_;
 }
 
-Future<util::optional<int64_t>> Fragment::CountRows(compute::Expression,
-                                                    const std::shared_ptr<ScanOptions>&) {
-  return Future<util::optional<int64_t>>::MakeFinished(util::nullopt);
+Future<std::optional<int64_t>> Fragment::CountRows(compute::Expression,
+                                                   const std::shared_ptr<ScanOptions>&) {
+  return Future<std::optional<int64_t>>::MakeFinished(std::nullopt);
 }
 
 Result<std::shared_ptr<Schema>> InMemoryFragment::ReadPhysicalSchemaImpl() {
@@ -129,16 +144,49 @@ Result<RecordBatchGenerator> InMemoryFragment::ScanBatchesAsync(
                    options->batch_size);
 }
 
-Future<util::optional<int64_t>> InMemoryFragment::CountRows(
+Future<std::optional<int64_t>> InMemoryFragment::CountRows(
     compute::Expression predicate, const std::shared_ptr<ScanOptions>& options) {
   if (ExpressionHasFieldRefs(predicate)) {
-    return Future<util::optional<int64_t>>::MakeFinished(util::nullopt);
+    return Future<std::optional<int64_t>>::MakeFinished(std::nullopt);
   }
   int64_t total = 0;
   for (const auto& batch : record_batches_) {
     total += batch->num_rows();
   }
-  return Future<util::optional<int64_t>>::MakeFinished(total);
+  return Future<std::optional<int64_t>>::MakeFinished(total);
+}
+
+Future<std::shared_ptr<InspectedFragment>> InMemoryFragment::InspectFragment(
+    const FragmentScanOptions* format_options, compute::ExecContext* exec_context) {
+  return std::make_shared<InspectedFragment>(physical_schema_->field_names());
+}
+
+class InMemoryFragment::Scanner : public FragmentScanner {
+ public:
+  explicit Scanner(InMemoryFragment* fragment) : fragment_(fragment) {}
+
+  Future<std::shared_ptr<RecordBatch>> ScanBatch(int batch_number) override {
+    return Future<std::shared_ptr<RecordBatch>>::MakeFinished(
+        fragment_->record_batches_[batch_number]);
+  }
+
+  int64_t EstimatedDataBytes(int batch_number) override {
+    return arrow::util::TotalBufferSize(*fragment_->record_batches_[batch_number]);
+  }
+
+  int NumBatches() override {
+    return static_cast<int>(fragment_->record_batches_.size());
+  }
+
+ private:
+  InMemoryFragment* fragment_;
+};
+
+Future<std::shared_ptr<FragmentScanner>> InMemoryFragment::BeginScan(
+    const FragmentScanRequest& request, const InspectedFragment& inspected_fragment,
+    const FragmentScanOptions* format_options, compute::ExecContext* exec_context) {
+  return Future<std::shared_ptr<FragmentScanner>>::MakeFinished(
+      std::make_shared<InMemoryFragment::Scanner>(this));
 }
 
 Dataset::Dataset(std::shared_ptr<Schema> schema, compute::Expression partition_expression)
@@ -160,6 +208,33 @@ Result<FragmentIterator> Dataset::GetFragments(compute::Expression predicate) {
                                    : MakeEmptyIterator<std::shared_ptr<Fragment>>();
 }
 
+Result<FragmentGenerator> Dataset::GetFragmentsAsync() {
+  return GetFragmentsAsync(compute::literal(true));
+}
+
+Result<FragmentGenerator> Dataset::GetFragmentsAsync(compute::Expression predicate) {
+  ARROW_ASSIGN_OR_RAISE(
+      predicate, SimplifyWithGuarantee(std::move(predicate), partition_expression_));
+  return predicate.IsSatisfiable()
+             ? GetFragmentsAsyncImpl(std::move(predicate),
+                                     arrow::internal::GetCpuThreadPool())
+             : MakeEmptyGenerator<std::shared_ptr<Fragment>>();
+}
+
+// Default impl delegating the work to `GetFragmentsImpl` and wrapping it into
+// BackgroundGenerator/TransferredGenerator, which offloads potentially
+// IO-intensive work to the default IO thread pool and then transfers the control
+// back to the specified executor.
+Result<FragmentGenerator> Dataset::GetFragmentsAsyncImpl(
+    compute::Expression predicate, arrow::internal::Executor* executor) {
+  ARROW_ASSIGN_OR_RAISE(auto iter, GetFragmentsImpl(std::move(predicate)));
+  ARROW_ASSIGN_OR_RAISE(
+      auto background_gen,
+      MakeBackgroundGenerator(std::move(iter), io::default_io_context().executor()));
+  auto transferred_gen = MakeTransferredGenerator(std::move(background_gen), executor);
+  return transferred_gen;
+}
+
 struct VectorRecordBatchGenerator : InMemoryDataset::RecordBatchGenerator {
   explicit VectorRecordBatchGenerator(RecordBatchVector batches)
       : batches_(std::move(batches)) {}
@@ -238,5 +313,141 @@ Result<FragmentIterator> UnionDataset::GetFragmentsImpl(compute::Expression pred
   return GetFragmentsFromDatasets(children_, predicate);
 }
 
+namespace {
+
+class BasicFragmentEvolution : public FragmentEvolutionStrategy {
+ public:
+  BasicFragmentEvolution(std::vector<int> ds_to_frag_map, Schema* dataset_schema)
+      : ds_to_frag_map(std::move(ds_to_frag_map)), dataset_schema(dataset_schema) {}
+
+  Result<compute::Expression> GetGuarantee(
+      const std::vector<FieldPath>& dataset_schema_selection) const override {
+    std::vector<compute::Expression> missing_fields;
+    for (const FieldPath& path : dataset_schema_selection) {
+      int top_level_field_idx = path[0];
+      if (ds_to_frag_map[top_level_field_idx] < 0) {
+        missing_fields.push_back(
+            compute::is_null(compute::field_ref(top_level_field_idx)));
+      }
+    }
+    if (missing_fields.empty()) {
+      return compute::literal(true);
+    }
+    if (missing_fields.size() == 1) {
+      return missing_fields[0];
+    }
+    return compute::and_(std::move(missing_fields));
+  }
+
+  Result<std::vector<FragmentSelectionColumn>> DevolveSelection(
+      const std::vector<FieldPath>& dataset_schema_selection) const override {
+    std::vector<FragmentSelectionColumn> desired_columns;
+    for (std::size_t selection_idx = 0; selection_idx < dataset_schema_selection.size();
+         selection_idx++) {
+      const FieldPath& path = dataset_schema_selection[selection_idx];
+      int top_level_field_idx = path[0];
+      int dest_top_level_idx = ds_to_frag_map[top_level_field_idx];
+      if (dest_top_level_idx >= 0) {
+        ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Field> field, path.Get(*dataset_schema));
+        std::vector<int> dest_path_indices(path.indices());
+        dest_path_indices[0] = dest_top_level_idx;
+        desired_columns.push_back(
+            FragmentSelectionColumn{FieldPath(dest_path_indices), field->type().get(),
+                                    static_cast<int>(selection_idx)});
+      }
+    }
+    return std::move(desired_columns);
+  };
+
+  Result<compute::Expression> DevolveFilter(
+      const compute::Expression& filter) const override {
+    return compute::ModifyExpression(
+        filter,
+        [&](compute::Expression expr) -> Result<compute::Expression> {
+          const FieldRef* ref = expr.field_ref();
+          if (ref) {
+            ARROW_ASSIGN_OR_RAISE(FieldPath path, ref->FindOne(*dataset_schema));
+            int top_level_idx = path[0];
+            std::vector<int> modified_indices(path.indices());
+            modified_indices[0] = ds_to_frag_map[top_level_idx];
+            if (modified_indices[0] < 0) {
+              return Status::Invalid(
+                  "Filter cannot be applied.  It refers to a missing field ",
+                  ref->ToString(),
+                  " in a way that cannot be satisfied even though we know that field is "
+                  "null");
+            }
+            return compute::field_ref(FieldRef(std::move(modified_indices)));
+          }
+          return std::move(expr);
+        },
+        [](compute::Expression expr, compute::Expression* old_expr) { return expr; });
+  };
+
+  Result<compute::ExecBatch> EvolveBatch(
+      const std::shared_ptr<RecordBatch>& batch,
+      const std::vector<FieldPath>& dataset_selection,
+      const std::vector<FragmentSelectionColumn>& selection) const override {
+    std::vector<Datum> columns(dataset_selection.size());
+    DCHECK_EQ(batch->num_columns(), static_cast<int>(selection.size()));
+    // First go through and populate the columns we retrieved
+    for (int idx = 0; idx < batch->num_columns(); idx++) {
+      columns[selection[idx].selection_index] = batch->column(idx);
+    }
+    // Next go through and fill in the null columns
+    for (std::size_t idx = 0; idx < dataset_selection.size(); idx++) {
+      int top_level_idx = dataset_selection[idx][0];
+      if (ds_to_frag_map[top_level_idx] < 0) {
+        columns[idx] = MakeNullScalar(
+            dataset_schema->field(static_cast<int>(top_level_idx))->type());
+      }
+    }
+    return compute::ExecBatch(columns, batch->num_rows());
+  };
+
+  std::string ToString() const override { return "basic-fragment-evolution"; }
+
+  std::vector<int> ds_to_frag_map;
+  Schema* dataset_schema;
+
+  static std::unique_ptr<BasicFragmentEvolution> Make(
+      const std::shared_ptr<Schema>& dataset_schema,
+      const std::vector<std::string>& fragment_column_names) {
+    std::vector<int> ds_to_frag_map;
+    std::unordered_map<std::string, int> column_names_map;
+    for (size_t i = 0; i < fragment_column_names.size(); i++) {
+      column_names_map[fragment_column_names[i]] = static_cast<int>(i);
+    }
+    for (int idx = 0; idx < dataset_schema->num_fields(); idx++) {
+      const std::string& field_name = dataset_schema->field(idx)->name();
+      auto column_idx_itr = column_names_map.find(field_name);
+      if (column_idx_itr == column_names_map.end()) {
+        ds_to_frag_map.push_back(-1);
+      } else {
+        ds_to_frag_map.push_back(column_idx_itr->second);
+      }
+    }
+    return std::make_unique<BasicFragmentEvolution>(std::move(ds_to_frag_map),
+                                                    dataset_schema.get());
+  }
+};
+
+class BasicDatasetEvolutionStrategy : public DatasetEvolutionStrategy {
+  std::unique_ptr<FragmentEvolutionStrategy> GetStrategy(
+      const Dataset& dataset, const Fragment& fragment,
+      const InspectedFragment& inspected_fragment) override {
+    return BasicFragmentEvolution::Make(dataset.schema(),
+                                        inspected_fragment.column_names);
+  }
+
+  std::string ToString() const override { return "basic-dataset-evolution"; }
+};
+
+}  // namespace
+
+std::unique_ptr<DatasetEvolutionStrategy> MakeBasicDatasetEvolutionStrategy() {
+  return std::make_unique<BasicDatasetEvolutionStrategy>();
+}
+
 }  // namespace dataset
 }  // namespace arrow
diff --git a/cpp/src/arrow/dataset/dataset.h b/cpp/src/arrow/dataset/dataset.h
index 9f4fee52154..80e9e96136a 100644
--- a/cpp/src/arrow/dataset/dataset.h
+++ b/cpp/src/arrow/dataset/dataset.h
@@ -21,6 +21,7 @@
 
 #include <functional>
 #include <memory>
+#include <optional>
 #include <string>
 #include <utility>
 #include <vector>
@@ -28,26 +29,117 @@
 #include "arrow/compute/exec/expression.h"
 #include "arrow/dataset/type_fwd.h"
 #include "arrow/dataset/visibility.h"
+#include "arrow/util/async_generator_fwd.h"
+#include "arrow/util/future.h"
 #include "arrow/util/macros.h"
 #include "arrow/util/mutex.h"
-#include "arrow/util/optional.h"
 
 namespace arrow {
+
+namespace internal {
+class Executor;
+}  // namespace internal
+
 namespace dataset {
 
 using RecordBatchGenerator = std::function<Future<std::shared_ptr<RecordBatch>>()>;
 
+/// \brief Description of a column to scan
+struct ARROW_DS_EXPORT FragmentSelectionColumn {
+  /// \brief The path to the column to load
+  FieldPath path;
+  /// \brief The type of the column in the dataset schema
+  ///
+  /// A format may choose to ignore this field completely.  For example, when
+  /// reading from IPC the reader can just return the column in the data type
+  /// that is stored on disk.  There is no point in doing anything special.
+  ///
+  /// However, some formats may be capable of casting on the fly.  For example,
+  /// when reading from CSV, if we know the target type of the column, we can
+  /// convert from string to the target type as we read.
+  DataType* requested_type;
+  /// \brief The index in the output selection of this column
+  int selection_index;
+};
+
+/// \brief Instructions for scanning a particular fragment
+///
+/// The fragment scan request is dervied from ScanV2Options.  The main
+/// difference is that the scan options are based on the dataset schema
+/// while the fragment request is based on the fragment schema.
+struct ARROW_DS_EXPORT FragmentScanRequest {
+  /// \brief A row filter
+  ///
+  /// The filter expression should be written against the fragment schema.
+  ///
+  /// \see ScanV2Options for details on how this filter should be applied
+  compute::Expression filter = compute::literal(true);
+
+  /// \brief The columns to scan
+  ///
+  /// These indices refer to the fragment schema
+  ///
+  /// Note: This is NOT a simple list of top-level column indices.
+  /// For more details \see ScanV2Options
+  ///
+  /// If possible a fragment should only read from disk the data needed
+  /// to satisfy these columns.  If a format cannot partially read a nested
+  /// column (e.g. JSON) then it must apply the column selection (in memory)
+  /// before returning the scanned batch.
+  std::vector<FragmentSelectionColumn> columns;
+  /// \brief Options specific to the format being scanned
+  const FragmentScanOptions* format_scan_options;
+};
+
+/// \brief An iterator-like object that can yield batches created from a fragment
+class ARROW_DS_EXPORT FragmentScanner {
+ public:
+  /// This instance will only be destroyed after all ongoing scan futures
+  /// have been completed.
+  ///
+  /// This means any callbacks created as part of the scan can safely
+  /// capture `this`
+  virtual ~FragmentScanner() = default;
+  /// \brief Scan a batch of data from the file
+  /// \param batch_number The index of the batch to read
+  virtual Future<std::shared_ptr<RecordBatch>> ScanBatch(int batch_number) = 0;
+  /// \brief Calculate an estimate of how many data bytes the given batch will represent
+  ///
+  /// "Data bytes" should be the total size of all the buffers once the data has been
+  /// decoded into the Arrow format.
+  virtual int64_t EstimatedDataBytes(int batch_number) = 0;
+  /// \brief The number of batches in the fragment to scan
+  virtual int NumBatches() = 0;
+};
+
+/// \brief Information learned about a fragment through inspection
+///
+/// This information can be used to figure out which fields need
+/// to be read from a file and how the data read in should be evolved
+/// to match the dataset schema.
+///
+/// For example, from a CSV file we can inspect and learn the column
+/// names and use those column names to determine which columns to load
+/// from the CSV file.
+struct ARROW_DS_EXPORT InspectedFragment {
+  explicit InspectedFragment(std::vector<std::string> column_names)
+      : column_names(std::move(column_names)) {}
+  std::vector<std::string> column_names;
+};
+
 /// \brief A granular piece of a Dataset, such as an individual file.
 ///
 /// A Fragment can be read/scanned separately from other fragments. It yields a
-/// collection of RecordBatches when scanned, encapsulated in one or more
-/// ScanTasks.
+/// collection of RecordBatches when scanned
 ///
 /// Note that Fragments have well defined physical schemas which are reconciled by
 /// the Datasets which contain them; these physical schemas may differ from a parent
 /// Dataset's schema and the physical schemas of sibling Fragments.
 class ARROW_DS_EXPORT Fragment : public std::enable_shared_from_this<Fragment> {
  public:
+  /// \brief An expression that represents no known partition information
+  static const compute::Expression kNoPartitionInformation;
+
   /// \brief Return the physical schema of the Fragment.
   ///
   /// The physical schema is also called the writer schema.
@@ -59,12 +151,25 @@ class ARROW_DS_EXPORT Fragment : public std::enable_shared_from_this<Fragment> {
   virtual Result<RecordBatchGenerator> ScanBatchesAsync(
       const std::shared_ptr<ScanOptions>& options) = 0;
 
+  /// \brief Inspect a fragment to learn basic information
+  ///
+  /// This will be called before a scan and a fragment should attach whatever
+  /// information will be needed to figure out an evolution strategy.  This information
+  /// will then be passed to the call to BeginScan
+  virtual Future<std::shared_ptr<InspectedFragment>> InspectFragment(
+      const FragmentScanOptions* format_options, compute::ExecContext* exec_context);
+
+  /// \brief Start a scan operation
+  virtual Future<std::shared_ptr<FragmentScanner>> BeginScan(
+      const FragmentScanRequest& request, const InspectedFragment& inspected_fragment,
+      const FragmentScanOptions* format_options, compute::ExecContext* exec_context);
+
   /// \brief Count the number of rows in this fragment matching the filter using metadata
   /// only. That is, this method may perform I/O, but will not load data.
   ///
   /// If this is not possible, resolve with an empty optional. The fragment can perform
   /// I/O (e.g. to read metadata) before it deciding whether it can satisfy the request.
-  virtual Future<util::optional<int64_t>> CountRows(
+  virtual Future<std::optional<int64_t>> CountRows(
       compute::Expression predicate, const std::shared_ptr<ScanOptions>& options);
 
   virtual std::string type_name() const = 0;
@@ -113,6 +218,7 @@ class ARROW_DS_EXPORT FragmentScanOptions {
 /// RecordBatch.
 class ARROW_DS_EXPORT InMemoryFragment : public Fragment {
  public:
+  class Scanner;
   InMemoryFragment(std::shared_ptr<Schema> schema, RecordBatchVector record_batches,
                    compute::Expression = compute::literal(true));
   explicit InMemoryFragment(RecordBatchVector record_batches,
@@ -120,10 +226,18 @@ class ARROW_DS_EXPORT InMemoryFragment : public Fragment {
 
   Result<RecordBatchGenerator> ScanBatchesAsync(
       const std::shared_ptr<ScanOptions>& options) override;
-  Future<util::optional<int64_t>> CountRows(
+  Future<std::optional<int64_t>> CountRows(
       compute::Expression predicate,
       const std::shared_ptr<ScanOptions>& options) override;
 
+  Future<std::shared_ptr<InspectedFragment>> InspectFragment(
+      const FragmentScanOptions* format_options,
+      compute::ExecContext* exec_context) override;
+  Future<std::shared_ptr<FragmentScanner>> BeginScan(
+      const FragmentScanRequest& request, const InspectedFragment& inspected_fragment,
+      const FragmentScanOptions* format_options,
+      compute::ExecContext* exec_context) override;
+
   std::string type_name() const override { return "in-memory"; }
 
  protected:
@@ -134,6 +248,83 @@ class ARROW_DS_EXPORT InMemoryFragment : public Fragment {
 
 /// @}
 
+using FragmentGenerator = AsyncGenerator<std::shared_ptr<Fragment>>;
+
+/// \brief Rules for converting the dataset schema to and from fragment schemas
+class ARROW_DS_EXPORT FragmentEvolutionStrategy {
+ public:
+  /// This instance will only be destroyed when all scan operations for the
+  /// fragment have completed.
+  virtual ~FragmentEvolutionStrategy() = default;
+  /// \brief A guarantee that applies to all batches of this fragment
+  ///
+  /// For example, if a fragment is missing one of the fields in the dataset
+  /// schema then a typical evolution strategy is to set that field to null.
+  ///
+  /// So if the column at index 3 is missing then the guarantee is
+  /// FieldRef(3) == null
+  ///
+  /// Individual field guarantees should be AND'd together and returned
+  /// as a single expression.
+  virtual Result<compute::Expression> GetGuarantee(
+      const std::vector<FieldPath>& dataset_schema_selection) const = 0;
+
+  /// \brief Return a fragment schema selection given a dataset schema selection
+  ///
+  /// For example, if the user wants fields 2 & 4 of the dataset schema and
+  /// in this fragment the field 2 is missing and the field 4 is at index 1 then
+  /// this should return {1}
+  virtual Result<std::vector<FragmentSelectionColumn>> DevolveSelection(
+      const std::vector<FieldPath>& dataset_schema_selection) const = 0;
+
+  /// \brief Return a filter expression bound to the fragment schema given
+  ///        a filter expression bound to the dataset schema
+  ///
+  /// The dataset scan filter will first be simplified by the guarantee returned
+  /// by GetGuarantee.  This means an evolution that only handles dropping or casting
+  /// fields doesn't need to do anything here except return the given filter.
+  ///
+  /// On the other hand, an evolution that is doing some kind of aliasing will likely
+  /// need to convert field references in the filter to the aliased field references
+  /// where appropriate.
+  virtual Result<compute::Expression> DevolveFilter(
+      const compute::Expression& filter) const = 0;
+
+  /// \brief Convert a batch from the fragment schema to the dataset schema
+  ///
+  /// Typically this involves casting columns from the data type stored on disk
+  /// to the data type of the dataset schema.  For example, this fragment might
+  /// have columns stored as int32 and the dataset schema might have int64 for
+  /// the column.  In this case we should cast the column from int32 to int64.
+  ///
+  /// Note: A fragment may perform this cast as the data is read from disk.  In
+  /// that case a cast might not be needed.
+  virtual Result<compute::ExecBatch> EvolveBatch(
+      const std::shared_ptr<RecordBatch>& batch,
+      const std::vector<FieldPath>& dataset_selection,
+      const std::vector<FragmentSelectionColumn>& selection) const = 0;
+
+  /// \brief Return a string description of this strategy
+  virtual std::string ToString() const = 0;
+};
+
+/// \brief Lookup to create a FragmentEvolutionStrategy for a given fragment
+class ARROW_DS_EXPORT DatasetEvolutionStrategy {
+ public:
+  virtual ~DatasetEvolutionStrategy() = default;
+  /// \brief Create a strategy for evolving from the given fragment
+  ///        to the schema of the given dataset
+  virtual std::unique_ptr<FragmentEvolutionStrategy> GetStrategy(
+      const Dataset& dataset, const Fragment& fragment,
+      const InspectedFragment& inspected_fragment) = 0;
+
+  /// \brief Return a string description of this strategy
+  virtual std::string ToString() const = 0;
+};
+
+ARROW_DS_EXPORT std::unique_ptr<DatasetEvolutionStrategy>
+MakeBasicDatasetEvolutionStrategy();
+
 /// \brief A container of zero or more Fragments.
 ///
 /// A Dataset acts as a union of Fragments, e.g. files deeply nested in a
@@ -148,6 +339,10 @@ class ARROW_DS_EXPORT Dataset : public std::enable_shared_from_this<Dataset> {
   Result<FragmentIterator> GetFragments(compute::Expression predicate);
   Result<FragmentIterator> GetFragments();
 
+  /// \brief Async versions of `GetFragments`.
+  Result<FragmentGenerator> GetFragmentsAsync(compute::Expression predicate);
+  Result<FragmentGenerator> GetFragmentsAsync();
+
   const std::shared_ptr<Schema>& schema() const { return schema_; }
 
   /// \brief An expression which evaluates to true for all data viewed by this Dataset.
@@ -166,6 +361,9 @@ class ARROW_DS_EXPORT Dataset : public std::enable_shared_from_this<Dataset> {
   virtual Result<std::shared_ptr<Dataset>> ReplaceSchema(
       std::shared_ptr<Schema> schema) const = 0;
 
+  /// \brief Rules used by this dataset to handle schema evolution
+  DatasetEvolutionStrategy* evolution_strategy() { return evolution_strategy_.get(); }
+
   virtual ~Dataset() = default;
 
  protected:
@@ -174,9 +372,23 @@ class ARROW_DS_EXPORT Dataset : public std::enable_shared_from_this<Dataset> {
   Dataset(std::shared_ptr<Schema> schema, compute::Expression partition_expression);
 
   virtual Result<FragmentIterator> GetFragmentsImpl(compute::Expression predicate) = 0;
+  /// \brief Default non-virtual implementation method for the base
+  /// `GetFragmentsAsyncImpl` method, which creates a fragment generator for
+  /// the dataset, possibly filtering results with a predicate (forwarding to
+  /// the synchronous `GetFragmentsImpl` method and moving the computations
+  /// to the background, using the IO thread pool).
+  ///
+  /// Currently, `executor` is always the same as `internal::GetCPUThreadPool()`,
+  /// which means the results from the underlying fragment generator will be
+  /// transfered to the default CPU thread pool. The generator itself is
+  /// offloaded to run on the default IO thread pool.
+  virtual Result<FragmentGenerator> GetFragmentsAsyncImpl(
+      compute::Expression predicate, arrow::internal::Executor* executor);
 
   std::shared_ptr<Schema> schema_;
   compute::Expression partition_expression_ = compute::literal(true);
+  std::unique_ptr<DatasetEvolutionStrategy> evolution_strategy_ =
+      MakeBasicDatasetEvolutionStrategy();
 };
 
 /// \addtogroup dataset-implementations
diff --git a/cpp/src/arrow/dataset/dataset_test.cc b/cpp/src/arrow/dataset/dataset_test.cc
index 35b6e8129e2..5d199823474 100644
--- a/cpp/src/arrow/dataset/dataset_test.cc
+++ b/cpp/src/arrow/dataset/dataset_test.cc
@@ -17,6 +17,8 @@
 
 #include "arrow/dataset/dataset.h"
 
+#include <optional>
+
 #include "arrow/dataset/dataset_internal.h"
 #include "arrow/dataset/discovery.h"
 #include "arrow/dataset/partition.h"
@@ -24,7 +26,6 @@
 #include "arrow/filesystem/mockfs.h"
 #include "arrow/stl.h"
 #include "arrow/testing/generator.h"
-#include "arrow/util/optional.h"
 
 namespace arrow {
 namespace dataset {
@@ -145,6 +146,34 @@ TEST_F(TestInMemoryDataset, HandlesDifferingSchemas) {
       scanner->ToTable());
 }
 
+TEST_F(TestInMemoryDataset, GetFragmentsSync) {
+  constexpr int64_t kBatchSize = 1024;
+  constexpr int64_t kNumberBatches = 16;
+
+  SetSchema({field("i32", int32()), field("f64", float64())});
+  auto batch = ConstantArrayGenerator::Zeroes(kBatchSize, schema_);
+  auto reader = ConstantArrayGenerator::Repeat(kNumberBatches, batch);
+
+  auto dataset = std::make_shared<InMemoryDataset>(
+      schema_, RecordBatchVector{static_cast<size_t>(kNumberBatches), batch});
+
+  AssertDatasetFragmentsEqual(reader.get(), dataset.get());
+}
+
+TEST_F(TestInMemoryDataset, GetFragmentsAsync) {
+  constexpr int64_t kBatchSize = 1024;
+  constexpr int64_t kNumberBatches = 16;
+
+  SetSchema({field("i32", int32()), field("f64", float64())});
+  auto batch = ConstantArrayGenerator::Zeroes(kBatchSize, schema_);
+  auto reader = ConstantArrayGenerator::Repeat(kNumberBatches, batch);
+
+  auto dataset = std::make_shared<InMemoryDataset>(
+      schema_, RecordBatchVector{static_cast<size_t>(kNumberBatches), batch});
+
+  AssertDatasetAsyncFragmentsEqual(reader.get(), dataset.get());
+}
+
 class TestUnionDataset : public DatasetFixtureMixin {};
 
 TEST_F(TestUnionDataset, ReplaceSchema) {
@@ -485,7 +514,7 @@ inline std::shared_ptr<Schema> SchemaFromNames(const std::vector<std::string> na
 
 class TestSchemaUnification : public TestUnionDataset {
  public:
-  using i32 = util::optional<int32_t>;
+  using i32 = std::optional<int32_t>;
   using PathAndContent = std::vector<std::pair<std::string, std::string>>;
 
   void SetUp() override {
@@ -595,7 +624,7 @@ class TestSchemaUnification : public TestUnionDataset {
   std::shared_ptr<Dataset> dataset_;
 };
 
-using util::nullopt;
+using std::nullopt;
 
 TEST_F(TestSchemaUnification, SelectStar) {
   // This is a `SELECT * FROM dataset` where it ensures:
diff --git a/cpp/src/arrow/dataset/dataset_writer.cc b/cpp/src/arrow/dataset/dataset_writer.cc
index 36305eac730..504d029bda3 100644
--- a/cpp/src/arrow/dataset/dataset_writer.cc
+++ b/cpp/src/arrow/dataset/dataset_writer.cc
@@ -18,6 +18,7 @@
 #include "arrow/dataset/dataset_writer.h"
 
 #include <deque>
+#include <memory>
 #include <mutex>
 #include <unordered_map>
 
@@ -31,12 +32,16 @@
 #include "arrow/util/string.h"
 
 namespace arrow {
+
+using internal::Executor;
+using internal::ToChars;
+
 namespace dataset {
 namespace internal {
 
 namespace {
 
-constexpr util::string_view kIntegerToken = "{i}";
+constexpr std::string_view kIntegerToken = "{i}";
 
 class Throttle {
  public:
@@ -112,18 +117,34 @@ struct DatasetWriterState {
   std::mutex visitors_mutex;
 };
 
-class DatasetWriterFileQueue : public util::AsyncDestroyable {
+Result<std::shared_ptr<FileWriter>> OpenWriter(
+    const FileSystemDatasetWriteOptions& write_options, std::shared_ptr<Schema> schema,
+    const std::string& filename) {
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<io::OutputStream> out_stream,
+                        write_options.filesystem->OpenOutputStream(filename));
+  return write_options.format()->MakeWriter(std::move(out_stream), std::move(schema),
+                                            write_options.file_write_options,
+                                            {write_options.filesystem, filename});
+}
+
+class DatasetWriterFileQueue {
  public:
-  explicit DatasetWriterFileQueue(const Future<std::shared_ptr<FileWriter>>& writer_fut,
+  explicit DatasetWriterFileQueue(const std::shared_ptr<Schema>& schema,
                                   const FileSystemDatasetWriteOptions& options,
                                   DatasetWriterState* writer_state)
-      : options_(options), writer_state_(writer_state) {
-    // If this AddTask call fails (e.g. we're given an already failing future) then we
-    // will get the error later when we try and write to it.
-    ARROW_UNUSED(file_tasks_.AddTask([this, writer_fut] {
-      return writer_fut.Then(
-          [this](const std::shared_ptr<FileWriter>& writer) { writer_ = writer; });
-    }));
+      : options_(options), schema_(schema), writer_state_(writer_state) {}
+
+  void Start(util::AsyncTaskScheduler* file_tasks, const std::string& filename) {
+    file_tasks_ = std::move(file_tasks);
+    // Because the scheduler runs one task at a time we know the writer will
+    // be opened before any attempt to write
+    file_tasks_->AddSimpleTask([this, filename] {
+      Executor* io_executor = options_.filesystem->io_context().executor();
+      return DeferNotOk(io_executor->Submit([this, filename]() {
+        ARROW_ASSIGN_OR_RAISE(writer_, OpenWriter(options_, schema_, filename));
+        return Status::OK();
+      }));
+    });
   }
 
   Result<std::shared_ptr<RecordBatch>> PopStagedBatch() {
@@ -155,20 +176,17 @@ class DatasetWriterFileQueue : public util::AsyncDestroyable {
     return table->CombineChunksToBatch();
   }
 
-  Status ScheduleBatch(std::shared_ptr<RecordBatch> batch) {
-    struct WriteTask {
-      Future<> operator()() { return self->WriteNext(std::move(batch)); }
-      DatasetWriterFileQueue* self;
-      std::shared_ptr<RecordBatch> batch;
-    };
-    return file_tasks_.AddTask(WriteTask{this, std::move(batch)});
+  void ScheduleBatch(std::shared_ptr<RecordBatch> batch) {
+    file_tasks_->AddSimpleTask([self = this, batch = std::move(batch)]() {
+      return self->WriteNext(std::move(batch));
+    });
   }
 
   Result<int64_t> PopAndDeliverStagedBatch() {
     ARROW_ASSIGN_OR_RAISE(std::shared_ptr<RecordBatch> next_batch, PopStagedBatch());
     int64_t rows_popped = next_batch->num_rows();
     rows_currently_staged_ -= next_batch->num_rows();
-    ARROW_RETURN_NOT_OK(ScheduleBatch(std::move(next_batch)));
+    ScheduleBatch(std::move(next_batch));
     return rows_popped;
   }
 
@@ -188,29 +206,28 @@ class DatasetWriterFileQueue : public util::AsyncDestroyable {
     return Status::OK();
   }
 
-  Future<> DoDestroy() override {
+  Status Finish() {
     writer_state_->staged_rows_count -= rows_currently_staged_;
     while (!staged_batches_.empty()) {
       RETURN_NOT_OK(PopAndDeliverStagedBatch());
     }
-    return file_tasks_.End().Then([this] { return DoFinish(); });
+    // At this point all write tasks have been added.  Because the scheduler
+    // is a 1-task FIFO we know this task will run at the very end and can
+    // add it now.
+    file_tasks_->AddSimpleTask([this] { return DoFinish(); });
+    return Status::OK();
   }
 
  private:
   Future<> WriteNext(std::shared_ptr<RecordBatch> next) {
-    struct WriteTask {
-      Status operator()() {
-        int64_t rows_to_release = batch->num_rows();
-        Status status = self->writer_->Write(batch);
-        self->writer_state_->rows_in_flight_throttle.Release(rows_to_release);
-        return status;
-      }
-      DatasetWriterFileQueue* self;
-      std::shared_ptr<RecordBatch> batch;
-    };
     // May want to prototype / measure someday pushing the async write down further
     return DeferNotOk(options_.filesystem->io_context().executor()->Submit(
-        WriteTask{this, std::move(next)}));
+        [self = this, batch = std::move(next)]() {
+          int64_t rows_to_release = batch->num_rows();
+          Status status = self->writer_->Write(batch);
+          self->writer_state_->rows_in_flight_throttle.Release(rows_to_release);
+          return status;
+        }));
   }
 
   Future<> DoFinish() {
@@ -225,13 +242,14 @@ class DatasetWriterFileQueue : public util::AsyncDestroyable {
   }
 
   const FileSystemDatasetWriteOptions& options_;
+  const std::shared_ptr<Schema>& schema_;
   DatasetWriterState* writer_state_;
   std::shared_ptr<FileWriter> writer_;
   // Batches are accumulated here until they are large enough to write out at which
   // point they are merged together and added to write_queue_
   std::deque<std::shared_ptr<RecordBatch>> staged_batches_;
   uint64_t rows_currently_staged_ = 0;
-  util::SerializedAsyncTaskGroup file_tasks_;
+  util::AsyncTaskScheduler* file_tasks_ = nullptr;
 };
 
 struct WriteTask {
@@ -239,13 +257,14 @@ struct WriteTask {
   uint64_t num_rows;
 };
 
-class DatasetWriterDirectoryQueue : public util::AsyncDestroyable {
+class DatasetWriterDirectoryQueue {
  public:
-  DatasetWriterDirectoryQueue(std::string directory, std::string prefix,
-                              std::shared_ptr<Schema> schema,
+  DatasetWriterDirectoryQueue(util::AsyncTaskScheduler* scheduler, std::string directory,
+                              std::string prefix, std::shared_ptr<Schema> schema,
                               const FileSystemDatasetWriteOptions& write_options,
                               DatasetWriterState* writer_state)
-      : directory_(std::move(directory)),
+      : scheduler_(std::move(scheduler)),
+        directory_(std::move(directory)),
         prefix_(std::move(prefix)),
         schema_(std::move(schema)),
         write_options_(write_options),
@@ -275,14 +294,14 @@ class DatasetWriterDirectoryQueue : public util::AsyncDestroyable {
     rows_written_ += batch->num_rows();
     WriteTask task{current_filename_, static_cast<uint64_t>(batch->num_rows())};
     if (!latest_open_file_) {
-      ARROW_ASSIGN_OR_RAISE(latest_open_file_, OpenFileQueue(current_filename_));
+      ARROW_RETURN_NOT_OK(OpenFileQueue(current_filename_));
     }
     return latest_open_file_->Push(batch);
   }
 
   Result<std::string> GetNextFilename() {
-    auto basename = ::arrow::internal::Replace(
-        write_options_.basename_template, kIntegerToken, std::to_string(file_counter_++));
+    auto basename = ::arrow::internal::Replace(write_options_.basename_template,
+                                               kIntegerToken, ToChars(file_counter_++));
     if (!basename) {
       return Status::Invalid("string interpolation of basename template failed");
     }
@@ -291,83 +310,97 @@ class DatasetWriterDirectoryQueue : public util::AsyncDestroyable {
 
   Status FinishCurrentFile() {
     if (latest_open_file_) {
+      ARROW_RETURN_NOT_OK(latest_open_file_->Finish());
+      latest_open_file_tasks_.reset();
       latest_open_file_ = nullptr;
     }
     rows_written_ = 0;
     return GetNextFilename().Value(&current_filename_);
   }
 
-  Result<std::shared_ptr<FileWriter>> OpenWriter(const std::string& filename) {
-    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<io::OutputStream> out_stream,
-                          write_options_.filesystem->OpenOutputStream(filename));
-    return write_options_.format()->MakeWriter(std::move(out_stream), schema_,
-                                               write_options_.file_write_options,
-                                               {write_options_.filesystem, filename});
-  }
-
-  Result<std::shared_ptr<DatasetWriterFileQueue>> OpenFileQueue(
-      const std::string& filename) {
-    Future<std::shared_ptr<FileWriter>> file_writer_fut =
-        init_future_.Then([this, filename] {
-          ::arrow::internal::Executor* io_executor =
-              write_options_.filesystem->io_context().executor();
-          return DeferNotOk(
-              io_executor->Submit([this, filename]() { return OpenWriter(filename); }));
-        });
-    auto file_queue = util::MakeSharedAsync<DatasetWriterFileQueue>(
-        file_writer_fut, write_options_, writer_state_);
-    RETURN_NOT_OK(task_group_.AddTask(file_queue->on_closed().Then(
-        [this] { writer_state_->open_files_throttle.Release(1); },
-        [this](const Status& err) {
-          writer_state_->open_files_throttle.Release(1);
-          return err;
-        })));
-    return file_queue;
+  Status OpenFileQueue(const std::string& filename) {
+    auto file_queue =
+        std::make_unique<DatasetWriterFileQueue>(schema_, write_options_, writer_state_);
+    latest_open_file_ = file_queue.get();
+    // Create a dedicated throttle for write jobs to this file and keep it alive until we
+    // are finished and have closed the file.
+    auto file_finish_task = [this, file_queue = std::move(file_queue)] {
+      writer_state_->open_files_throttle.Release(1);
+      return Status::OK();
+    };
+    latest_open_file_tasks_ = util::MakeThrottledAsyncTaskGroup(
+        scheduler_, 1, /*queue=*/nullptr, std::move(file_finish_task));
+    if (init_future_.is_valid()) {
+      latest_open_file_tasks_->AddSimpleTask(
+          [init_future = init_future_]() { return init_future; });
+    }
+    latest_open_file_->Start(latest_open_file_tasks_.get(), filename);
+    return Status::OK();
   }
 
   uint64_t rows_written() const { return rows_written_; }
 
   void PrepareDirectory() {
     if (directory_.empty() || !write_options_.create_dir) {
-      init_future_ = Future<>::MakeFinished();
+      return;
+    }
+    init_future_ = Future<>::Make();
+    auto create_dir_cb = [this] {
+      return DeferNotOk(write_options_.filesystem->io_context().executor()->Submit(
+          [this]() { return write_options_.filesystem->CreateDir(directory_); }));
+    };
+    // We need to notify waiters whether the directory succeeded or failed.
+    auto notify_waiters_cb = [this] { init_future_.MarkFinished(); };
+    auto notify_waiters_on_err_cb = [this](const Status& err) {
+      // If there is an error the scheduler will abort but that takes some time
+      // and we don't want to start writing in the meantime so we send an error to the
+      // file writing queue and return the error.
+      init_future_.MarkFinished(err);
+      return err;
+    };
+    std::function<Future<>()> init_task;
+    if (write_options_.existing_data_behavior ==
+        ExistingDataBehavior::kDeleteMatchingPartitions) {
+      init_task = [this, create_dir_cb, notify_waiters_cb, notify_waiters_on_err_cb] {
+        return write_options_.filesystem
+            ->DeleteDirContentsAsync(directory_,
+                                     /*missing_dir_ok=*/true)
+            .Then(create_dir_cb)
+            .Then(notify_waiters_cb, notify_waiters_on_err_cb);
+      };
     } else {
-      if (write_options_.existing_data_behavior ==
-          ExistingDataBehavior::kDeleteMatchingPartitions) {
-        init_future_ = write_options_.filesystem->DeleteDirContentsAsync(
-            directory_, /*missing_dir_ok=*/true);
-      } else {
-        init_future_ = Future<>::MakeFinished();
-      }
-      init_future_ = init_future_.Then([this] {
-        return DeferNotOk(write_options_.filesystem->io_context().executor()->Submit(
-            [this]() { return write_options_.filesystem->CreateDir(directory_); }));
-      });
+      init_task = [create_dir_cb, notify_waiters_cb, notify_waiters_on_err_cb] {
+        return create_dir_cb().Then(notify_waiters_cb, notify_waiters_on_err_cb);
+      };
     }
+    scheduler_->AddSimpleTask(std::move(init_task));
   }
 
-  static Result<std::unique_ptr<DatasetWriterDirectoryQueue,
-                                util::DestroyingDeleter<DatasetWriterDirectoryQueue>>>
-  Make(util::AsyncTaskGroup* task_group,
-       const FileSystemDatasetWriteOptions& write_options,
-       DatasetWriterState* writer_state, std::shared_ptr<Schema> schema,
-       std::string directory, std::string prefix) {
-    auto dir_queue = util::MakeUniqueAsync<DatasetWriterDirectoryQueue>(
-        std::move(directory), std::move(prefix), std::move(schema), write_options,
-        writer_state);
-    RETURN_NOT_OK(task_group->AddTask(dir_queue->on_closed()));
+  static Result<std::unique_ptr<DatasetWriterDirectoryQueue>> Make(
+      util::AsyncTaskScheduler* scheduler,
+      const FileSystemDatasetWriteOptions& write_options,
+      DatasetWriterState* writer_state, std::shared_ptr<Schema> schema,
+      std::string directory, std::string prefix) {
+    auto dir_queue = std::make_unique<DatasetWriterDirectoryQueue>(
+        scheduler, std::move(directory), std::move(prefix), std::move(schema),
+        write_options, writer_state);
     dir_queue->PrepareDirectory();
     ARROW_ASSIGN_OR_RAISE(dir_queue->current_filename_, dir_queue->GetNextFilename());
     // std::move required to make RTools 3.5 mingw compiler happy
     return std::move(dir_queue);
   }
 
-  Future<> DoDestroy() override {
-    latest_open_file_.reset();
-    return task_group_.End();
+  Status Finish() {
+    if (latest_open_file_) {
+      ARROW_RETURN_NOT_OK(latest_open_file_->Finish());
+      latest_open_file_tasks_.reset();
+      latest_open_file_ = nullptr;
+    }
+    return Status::OK();
   }
 
  private:
-  util::AsyncTaskGroup task_group_;
+  util::AsyncTaskScheduler* scheduler_ = nullptr;
   std::string directory_;
   std::string prefix_;
   std::shared_ptr<Schema> schema_;
@@ -375,21 +408,22 @@ class DatasetWriterDirectoryQueue : public util::AsyncDestroyable {
   DatasetWriterState* writer_state_;
   Future<> init_future_;
   std::string current_filename_;
-  std::shared_ptr<DatasetWriterFileQueue> latest_open_file_;
+  DatasetWriterFileQueue* latest_open_file_ = nullptr;
+  std::unique_ptr<util::ThrottledAsyncTaskScheduler> latest_open_file_tasks_;
   uint64_t rows_written_ = 0;
   uint32_t file_counter_ = 0;
 };
 
-Status ValidateBasenameTemplate(util::string_view basename_template) {
-  if (basename_template.find(fs::internal::kSep) != util::string_view::npos) {
+Status ValidateBasenameTemplate(std::string_view basename_template) {
+  if (basename_template.find(fs::internal::kSep) != std::string_view::npos) {
     return Status::Invalid("basename_template contained '/'");
   }
   size_t token_start = basename_template.find(kIntegerToken);
-  if (token_start == util::string_view::npos) {
+  if (token_start == std::string_view::npos) {
     return Status::Invalid("basename_template did not contain '", kIntegerToken, "'");
   }
   size_t next_token_start = basename_template.find(kIntegerToken, token_start + 1);
-  if (next_token_start != util::string_view::npos) {
+  if (next_token_start != std::string_view::npos) {
     return Status::Invalid("basename_template contained '", kIntegerToken,
                            "' more than once");
   }
@@ -408,7 +442,8 @@ Status ValidateOptions(const FileSystemDatasetWriteOptions& options) {
     return Status::Invalid("max_rows_per_group must be a positive number");
   }
   if (options.max_rows_per_group < options.min_rows_per_group) {
-    return Status::Invalid("max_rows_per_group must be less than min_rows_per_group");
+    return Status::Invalid(
+        "min_rows_per_group must be less than or equal to max_rows_per_group");
   }
   if (options.max_rows_per_file > 0 &&
       options.max_rows_per_file < options.max_rows_per_group) {
@@ -447,16 +482,29 @@ uint64_t CalculateMaxRowsStaged(uint64_t max_rows_queued) {
 
 }  // namespace
 
-class DatasetWriter::DatasetWriterImpl : public util::AsyncDestroyable {
+class DatasetWriter::DatasetWriterImpl {
  public:
-  DatasetWriterImpl(FileSystemDatasetWriteOptions write_options, uint64_t max_rows_queued)
-      : write_options_(std::move(write_options)),
+  DatasetWriterImpl(FileSystemDatasetWriteOptions write_options,
+                    util::AsyncTaskScheduler* scheduler,
+                    std::function<void()> pause_callback,
+                    std::function<void()> resume_callback,
+                    std::function<void()> finish_callback, uint64_t max_rows_queued)
+      : scheduler_(scheduler),
+        write_tasks_(util::MakeThrottledAsyncTaskGroup(
+            scheduler_, 1, /*queue=*/nullptr,
+            [finish_callback = std::move(finish_callback)] {
+              finish_callback();
+              return Status::OK();
+            })),
+        write_options_(std::move(write_options)),
         writer_state_(max_rows_queued, write_options_.max_open_files,
-                      CalculateMaxRowsStaged(max_rows_queued)) {}
+                      CalculateMaxRowsStaged(max_rows_queued)),
+        pause_callback_(std::move(pause_callback)),
+        resume_callback_(std::move(resume_callback)) {}
 
-  Future<> WriteRecordBatch(std::shared_ptr<RecordBatch> batch,
-                            const std::string& directory, const std::string& prefix) {
-    RETURN_NOT_OK(CheckError());
+  Future<> WriteAndCheckBackpressure(std::shared_ptr<RecordBatch> batch,
+                                     const std::string& directory,
+                                     const std::string& prefix) {
     if (batch->num_rows() == 0) {
       return Future<>::MakeFinished();
     }
@@ -469,6 +517,35 @@ class DatasetWriter::DatasetWriterImpl : public util::AsyncDestroyable {
     }
   }
 
+  void WriteRecordBatch(std::shared_ptr<RecordBatch> batch, const std::string& directory,
+                        const std::string& prefix) {
+    write_tasks_->AddSimpleTask([this, batch = std::move(batch), directory,
+                                 prefix]() mutable {
+      Future<> has_room = WriteAndCheckBackpressure(std::move(batch), directory, prefix);
+      if (!has_room.is_finished()) {
+        // We don't have to worry about sequencing backpressure here since
+        // task_group_ serves as our sequencer.  If batches continue to arrive after
+        // we pause they will queue up in task_group_ until we free up and call
+        // Resume
+        pause_callback_();
+        return has_room.Then([this] { resume_callback_(); });
+      }
+      return has_room;
+    });
+  }
+
+  void Finish() {
+    write_tasks_->AddSimpleTask([this]() -> Result<Future<>> {
+      for (const auto& directory_queue : directory_queues_) {
+        ARROW_RETURN_NOT_OK(directory_queue.second->Finish());
+      }
+      // This task is purely synchronous but we add it to write_tasks_ for the throttling
+      // task group benefits.
+      return Future<>::MakeFinished();
+    });
+    write_tasks_.reset();
+  }
+
  protected:
   Status CloseLargestFile() {
     std::shared_ptr<DatasetWriterDirectoryQueue> largest = nullptr;
@@ -490,7 +567,7 @@ class DatasetWriter::DatasetWriterImpl : public util::AsyncDestroyable {
         ::arrow::internal::GetOrInsertGenerated(
             &directory_queues_, directory + prefix,
             [this, &batch, &directory, &prefix](const std::string& key) {
-              return DatasetWriterDirectoryQueue::Make(&task_group_, write_options_,
+              return DatasetWriterDirectoryQueue::Make(scheduler_, write_options_,
                                                        &writer_state_, batch->schema(),
                                                        directory, prefix);
             }));
@@ -530,24 +607,13 @@ class DatasetWriter::DatasetWriterImpl : public util::AsyncDestroyable {
     return Future<>::MakeFinished();
   }
 
-  void SetError(Status st) {
-    std::lock_guard<std::mutex> lg(mutex_);
-    err_ = std::move(st);
-  }
-
-  Status CheckError() {
-    std::lock_guard<std::mutex> lg(mutex_);
-    return err_;
-  }
-
-  Future<> DoDestroy() override {
-    directory_queues_.clear();
-    return task_group_.End().Then([this] { return err_; });
-  }
-
-  util::AsyncTaskGroup task_group_;
+  util::AsyncTaskScheduler* scheduler_ = nullptr;
+  std::unique_ptr<util::AsyncTaskScheduler> write_tasks_;
+  Future<> finish_fut_ = Future<>::Make();
   FileSystemDatasetWriteOptions write_options_;
   DatasetWriterState writer_state_;
+  std::function<void()> pause_callback_;
+  std::function<void()> resume_callback_;
   std::unordered_map<std::string, std::shared_ptr<DatasetWriterDirectoryQueue>>
       directory_queues_;
   std::mutex mutex_;
@@ -555,31 +621,35 @@ class DatasetWriter::DatasetWriterImpl : public util::AsyncDestroyable {
 };
 
 DatasetWriter::DatasetWriter(FileSystemDatasetWriteOptions write_options,
+                             util::AsyncTaskScheduler* scheduler,
+                             std::function<void()> pause_callback,
+                             std::function<void()> resume_callback,
+                             std::function<void()> finish_callback,
                              uint64_t max_rows_queued)
-    : impl_(util::MakeUniqueAsync<DatasetWriterImpl>(std::move(write_options),
-                                                     max_rows_queued)) {}
+    : impl_(std::make_unique<DatasetWriterImpl>(
+          std::move(write_options), scheduler, std::move(pause_callback),
+          std::move(resume_callback), std::move(finish_callback), max_rows_queued)) {}
 
 Result<std::unique_ptr<DatasetWriter>> DatasetWriter::Make(
-    FileSystemDatasetWriteOptions write_options, uint64_t max_rows_queued) {
+    FileSystemDatasetWriteOptions write_options, util::AsyncTaskScheduler* scheduler,
+    std::function<void()> pause_callback, std::function<void()> resume_callback,
+    std::function<void()> finish_callback, uint64_t max_rows_queued) {
   RETURN_NOT_OK(ValidateOptions(write_options));
   RETURN_NOT_OK(EnsureDestinationValid(write_options));
-  return std::unique_ptr<DatasetWriter>(
-      new DatasetWriter(std::move(write_options), max_rows_queued));
+  return std::unique_ptr<DatasetWriter>(new DatasetWriter(
+      std::move(write_options), scheduler, std::move(pause_callback),
+      std::move(resume_callback), std::move(finish_callback), max_rows_queued));
 }
 
 DatasetWriter::~DatasetWriter() = default;
 
-Future<> DatasetWriter::WriteRecordBatch(std::shared_ptr<RecordBatch> batch,
-                                         const std::string& directory,
-                                         const std::string& prefix) {
+void DatasetWriter::WriteRecordBatch(std::shared_ptr<RecordBatch> batch,
+                                     const std::string& directory,
+                                     const std::string& prefix) {
   return impl_->WriteRecordBatch(std::move(batch), directory, prefix);
 }
 
-Future<> DatasetWriter::Finish() {
-  Future<> finished = impl_->on_closed();
-  impl_.reset();
-  return finished;
-}
+void DatasetWriter::Finish() { impl_->Finish(); }
 
 }  // namespace internal
 }  // namespace dataset
diff --git a/cpp/src/arrow/dataset/dataset_writer.h b/cpp/src/arrow/dataset/dataset_writer.h
index e41a0f83995..edb1649b5f1 100644
--- a/cpp/src/arrow/dataset/dataset_writer.h
+++ b/cpp/src/arrow/dataset/dataset_writer.h
@@ -50,7 +50,9 @@ class ARROW_DS_EXPORT DatasetWriter {
   /// \param max_rows_queued max # of rows allowed to be queued before the dataset_writer
   ///                        will ask for backpressure
   static Result<std::unique_ptr<DatasetWriter>> Make(
-      FileSystemDatasetWriteOptions write_options,
+      FileSystemDatasetWriteOptions write_options, util::AsyncTaskScheduler* scheduler,
+      std::function<void()> pause_callback, std::function<void()> resume_callback,
+      std::function<void()> finish_callback,
       uint64_t max_rows_queued = kDefaultDatasetWriterMaxRowsQueued);
 
   ~DatasetWriter();
@@ -79,18 +81,21 @@ class ARROW_DS_EXPORT DatasetWriter {
   /// 1000 batches go to the same directory and then the 1001st batch goes to a different
   /// directory.  The only way to get two parallel writes immediately would be to queue
   /// all 1000 pending writes to the first directory.
-  Future<> WriteRecordBatch(std::shared_ptr<RecordBatch> batch,
-                            const std::string& directory, const std::string& prefix = "");
+  void WriteRecordBatch(std::shared_ptr<RecordBatch> batch, const std::string& directory,
+                        const std::string& prefix = "");
 
   /// Finish all pending writes and close any open files
-  Future<> Finish();
+  void Finish();
 
  protected:
   DatasetWriter(FileSystemDatasetWriteOptions write_options,
+                util::AsyncTaskScheduler* scheduler, std::function<void()> pause_callback,
+                std::function<void()> resume_callback,
+                std::function<void()> finish_callback,
                 uint64_t max_rows_queued = kDefaultDatasetWriterMaxRowsQueued);
 
   class DatasetWriterImpl;
-  std::unique_ptr<DatasetWriterImpl, util::DestroyingDeleter<DatasetWriterImpl>> impl_;
+  std::unique_ptr<DatasetWriterImpl> impl_;
 };
 
 }  // namespace internal
diff --git a/cpp/src/arrow/dataset/dataset_writer_test.cc b/cpp/src/arrow/dataset/dataset_writer_test.cc
index dc23c43a189..247c4cdc0e2 100644
--- a/cpp/src/arrow/dataset/dataset_writer_test.cc
+++ b/cpp/src/arrow/dataset/dataset_writer_test.cc
@@ -19,6 +19,7 @@
 
 #include <chrono>
 #include <mutex>
+#include <optional>
 #include <vector>
 
 #include "arrow/array/builder_primitive.h"
@@ -30,7 +31,6 @@
 #include "arrow/table.h"
 #include "arrow/testing/future_util.h"
 #include "arrow/testing/gtest_util.h"
-#include "arrow/util/optional.h"
 #include "gtest/gtest.h"
 
 namespace arrow {
@@ -81,6 +81,33 @@ class DatasetWriterTestFixture : public testing::Test {
     };
     std::shared_ptr<FileFormat> format = std::make_shared<IpcFileFormat>();
     write_options_.file_write_options = format->DefaultWriteOptions();
+    scheduler_finished_ =
+        util::AsyncTaskScheduler::Make([&](util::AsyncTaskScheduler* scheduler) {
+          scheduler_ = scheduler;
+          scheduler->AddSimpleTask([&] { return test_done_with_tasks_; });
+          return Status::OK();
+        });
+  }
+
+  void TearDown() override {
+    if (!test_done_with_tasks_.is_finished()) {
+      test_done_with_tasks_.MarkFinished();
+      ASSERT_FINISHES_OK(scheduler_finished_);
+    }
+  }
+
+  std::unique_ptr<DatasetWriter> MakeDatasetWriter(
+      uint64_t max_rows = kDefaultDatasetWriterMaxRowsQueued) {
+    EXPECT_OK_AND_ASSIGN(auto dataset_writer,
+                         DatasetWriter::Make(
+                             write_options_, scheduler_, [] {}, [] {}, [] {}, max_rows));
+    return dataset_writer;
+  }
+
+  void EndWriterChecked(DatasetWriter* writer) {
+    writer->Finish();
+    test_done_with_tasks_.MarkFinished();
+    ASSERT_FINISHES_OK(scheduler_finished_);
   }
 
   std::shared_ptr<fs::GatedMockFilesystem> UseGatedFs() {
@@ -107,13 +134,13 @@ class DatasetWriterTestFixture : public testing::Test {
     return batch;
   }
 
-  util::optional<MockFileInfo> FindFile(const std::string& filename) {
+  std::optional<MockFileInfo> FindFile(const std::string& filename) {
     for (const auto& mock_file : filesystem_->AllFiles()) {
       if (mock_file.full_path == filename) {
         return mock_file;
       }
     }
-    return util::nullopt;
+    return std::nullopt;
   }
 
   void AssertVisited(const std::vector<std::string>& actual_paths,
@@ -123,13 +150,14 @@ class DatasetWriterTestFixture : public testing::Test {
         << "The file " << expected_path << " was not in the list of files visited";
   }
 
-  std::shared_ptr<RecordBatch> ReadAsBatch(util::string_view data, int* num_batches) {
+  std::shared_ptr<RecordBatch> ReadAsBatch(std::string_view data, int* num_batches) {
     std::shared_ptr<io::RandomAccessFile> in_stream =
         std::make_shared<io::BufferReader>(data);
     EXPECT_OK_AND_ASSIGN(std::shared_ptr<ipc::RecordBatchFileReader> reader,
                          ipc::RecordBatchFileReader::Open(in_stream));
     RecordBatchVector batches;
     *num_batches = reader->num_record_batches();
+    EXPECT_GT(*num_batches, 0);
     for (int i = 0; i < reader->num_record_batches(); i++) {
       EXPECT_OK_AND_ASSIGN(std::shared_ptr<RecordBatch> next_batch,
                            reader->ReadRecordBatch(i));
@@ -142,7 +170,7 @@ class DatasetWriterTestFixture : public testing::Test {
     return batch;
   }
 
-  void AssertFileCreated(const util::optional<MockFileInfo>& maybe_file,
+  void AssertFileCreated(const std::optional<MockFileInfo>& maybe_file,
                          const std::string& expected_filename) {
     ASSERT_TRUE(maybe_file.has_value())
         << "The file " << expected_filename << " was not created";
@@ -159,7 +187,7 @@ class DatasetWriterTestFixture : public testing::Test {
   void AssertCreatedData(const std::vector<ExpectedFile>& expected_files) {
     counter_ = 0;
     for (const auto& expected_file : expected_files) {
-      util::optional<MockFileInfo> written_file = FindFile(expected_file.filename);
+      std::optional<MockFileInfo> written_file = FindFile(expected_file.filename);
       AssertFileCreated(written_file, expected_file.filename);
       int num_batches = 0;
       AssertBatchesEqual(*MakeBatch(expected_file.start, expected_file.num_rows),
@@ -170,21 +198,21 @@ class DatasetWriterTestFixture : public testing::Test {
 
   void AssertFilesCreated(const std::vector<std::string>& expected_files) {
     for (const std::string& expected_file : expected_files) {
-      util::optional<MockFileInfo> written_file = FindFile(expected_file);
+      std::optional<MockFileInfo> written_file = FindFile(expected_file);
       AssertFileCreated(written_file, expected_file);
     }
   }
 
   void AssertNotFiles(const std::vector<std::string>& expected_non_files) {
     for (const auto& expected_non_file : expected_non_files) {
-      util::optional<MockFileInfo> file = FindFile(expected_non_file);
+      std::optional<MockFileInfo> file = FindFile(expected_non_file);
       ASSERT_FALSE(file.has_value());
     }
   }
 
   void AssertEmptyFiles(const std::vector<std::string>& expected_empty_files) {
     for (const auto& expected_empty_file : expected_empty_files) {
-      util::optional<MockFileInfo> file = FindFile(expected_empty_file);
+      std::optional<MockFileInfo> file = FindFile(expected_empty_file);
       ASSERT_TRUE(file.has_value());
       ASSERT_EQ("", file->data);
     }
@@ -194,41 +222,50 @@ class DatasetWriterTestFixture : public testing::Test {
   std::shared_ptr<Schema> schema_;
   std::vector<std::string> pre_finish_visited_;
   std::vector<std::string> post_finish_visited_;
+  Future<> test_done_with_tasks_ = Future<>::Make();
+  util::AsyncTaskScheduler* scheduler_;
+  Future<> scheduler_finished_;
   FileSystemDatasetWriteOptions write_options_;
   uint64_t counter_ = 0;
 };
 
 TEST_F(DatasetWriterTestFixture, Basic) {
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
-  Future<> queue_fut = dataset_writer->WriteRecordBatch(MakeBatch(100), "");
-  AssertFinished(queue_fut);
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  auto dataset_writer = MakeDatasetWriter();
+  dataset_writer->WriteRecordBatch(MakeBatch(100), "");
+  EndWriterChecked(dataset_writer.get());
   AssertCreatedData({{"testdir/chunk-0.arrow", 0, 100}});
 }
 
 TEST_F(DatasetWriterTestFixture, BasicFilePrefix) {
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
-  Future<> queue_fut = dataset_writer->WriteRecordBatch(MakeBatch(100), "", "1_");
-  AssertFinished(queue_fut);
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  auto dataset_writer = MakeDatasetWriter();
+  dataset_writer->WriteRecordBatch(MakeBatch(100), "", "1_");
+  EndWriterChecked(dataset_writer.get());
   AssertFilesCreated({"testdir/1_chunk-0.arrow"});
 }
 
 TEST_F(DatasetWriterTestFixture, BasicFileDirectoryPrefix) {
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
-  Future<> queue_fut = dataset_writer->WriteRecordBatch(MakeBatch(100), "a", "1_");
-  AssertFinished(queue_fut);
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  auto dataset_writer = MakeDatasetWriter();
+  dataset_writer->WriteRecordBatch(MakeBatch(100), "a", "1_");
+  EndWriterChecked(dataset_writer.get());
   AssertFilesCreated({"testdir/a/1_chunk-0.arrow"});
 }
 
+TEST_F(DatasetWriterTestFixture, DirectoryCreateFails) {
+  // This should fail to be created
+  write_options_.base_dir = "///doesnotexist";
+  auto dataset_writer = MakeDatasetWriter();
+  dataset_writer->WriteRecordBatch(MakeBatch(100), "a", "1_");
+  dataset_writer->Finish();
+  test_done_with_tasks_.MarkFinished();
+  ASSERT_FINISHES_AND_RAISES(Invalid, scheduler_finished_);
+}
+
 TEST_F(DatasetWriterTestFixture, MaxRowsOneWrite) {
   write_options_.max_rows_per_file = 10;
   write_options_.max_rows_per_group = 10;
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
-  Future<> queue_fut = dataset_writer->WriteRecordBatch(MakeBatch(35), "");
-  AssertFinished(queue_fut);
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  auto dataset_writer = MakeDatasetWriter();
+  dataset_writer->WriteRecordBatch(MakeBatch(35), "");
+  EndWriterChecked(dataset_writer.get());
   AssertCreatedData({{"testdir/chunk-0.arrow", 0, 10},
                      {"testdir/chunk-1.arrow", 10, 10},
                      {"testdir/chunk-2.arrow", 20, 10},
@@ -238,58 +275,58 @@ TEST_F(DatasetWriterTestFixture, MaxRowsOneWrite) {
 TEST_F(DatasetWriterTestFixture, MaxRowsManyWrites) {
   write_options_.max_rows_per_file = 10;
   write_options_.max_rows_per_group = 10;
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(3), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(3), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(3), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(3), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(3), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(3), ""));
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  auto dataset_writer = MakeDatasetWriter();
+  dataset_writer->WriteRecordBatch(MakeBatch(3), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(3), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(3), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(3), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(3), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(3), "");
+  EndWriterChecked(dataset_writer.get());
   AssertCreatedData(
       {{"testdir/chunk-0.arrow", 0, 10, 4}, {"testdir/chunk-1.arrow", 10, 8, 3}});
 }
 
 TEST_F(DatasetWriterTestFixture, MinRowGroup) {
   write_options_.min_rows_per_group = 20;
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
+  auto dataset_writer = MakeDatasetWriter();
   // Test hitting the limit exactly and inexactly
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(5), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(5), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(5), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(5), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(5), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(5), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(4), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(4), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(4), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(4), ""));
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  dataset_writer->WriteRecordBatch(MakeBatch(5), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(5), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(5), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(5), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(5), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(5), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(4), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(4), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(4), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(4), "");
+  EndWriterChecked(dataset_writer.get());
   AssertCreatedData({{"testdir/chunk-0.arrow", 0, 46, 3}});
 }
 
 TEST_F(DatasetWriterTestFixture, MaxRowGroup) {
   write_options_.max_rows_per_group = 10;
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
+  auto dataset_writer = MakeDatasetWriter();
   // Test hitting the limit exactly and inexactly
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(10), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(15), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(15), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(20), ""));
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  dataset_writer->WriteRecordBatch(MakeBatch(10), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(15), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(15), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(20), "");
+  EndWriterChecked(dataset_writer.get());
   AssertCreatedData({{"testdir/chunk-0.arrow", 0, 60, 7}});
 }
 
 TEST_F(DatasetWriterTestFixture, MinAndMaxRowGroup) {
   write_options_.max_rows_per_group = 10;
   write_options_.min_rows_per_group = 10;
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
+  auto dataset_writer = MakeDatasetWriter();
   // Test hitting the limit exactly and inexactly
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(10), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(15), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(15), ""));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(20), ""));
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  dataset_writer->WriteRecordBatch(MakeBatch(10), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(15), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(15), "");
+  dataset_writer->WriteRecordBatch(MakeBatch(20), "");
+  EndWriterChecked(dataset_writer.get());
   AssertCreatedData({{"testdir/chunk-0.arrow", 0, 60, 6}});
 }
 
@@ -298,14 +335,14 @@ TEST_F(DatasetWriterTestFixture, MinRowGroupBackpressure) {
   // enough data to form a min row group and we fill up the dataset writer (it should
   // auto-evict)
   write_options_.min_rows_per_group = 10;
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_, 100));
+  auto dataset_writer = MakeDatasetWriter(100);
   std::vector<ExpectedFile> expected_files;
   for (int i = 0; i < 12; i++) {
     expected_files.push_back({"testdir/" + std::to_string(i) + "/chunk-0.arrow",
                               static_cast<uint64_t>(i * 9), 9, 1});
-    ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(9), std::to_string(i)));
+    dataset_writer->WriteRecordBatch(MakeBatch(9), std::to_string(i));
   }
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  EndWriterChecked(dataset_writer.get());
   AssertCreatedData(expected_files);
 }
 
@@ -313,15 +350,13 @@ TEST_F(DatasetWriterTestFixture, ConcurrentWritesSameFile) {
   // Use a gated filesystem to queue up many writes behind a file open to make sure the
   // file isn't opened multiple times.
   auto gated_fs = UseGatedFs();
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
+  auto dataset_writer = MakeDatasetWriter();
   for (int i = 0; i < 10; i++) {
-    Future<> queue_fut = dataset_writer->WriteRecordBatch(MakeBatch(10), "");
-    AssertFinished(queue_fut);
-    ASSERT_FINISHES_OK(queue_fut);
+    dataset_writer->WriteRecordBatch(MakeBatch(10), "");
   }
   ASSERT_OK(gated_fs->WaitForOpenOutputStream(1));
   ASSERT_OK(gated_fs->UnlockOpenOutputStream(1));
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  EndWriterChecked(dataset_writer.get());
   AssertCreatedData({{"testdir/chunk-0.arrow", 0, 100, 10}});
 }
 
@@ -330,43 +365,46 @@ TEST_F(DatasetWriterTestFixture, ConcurrentWritesDifferentFiles) {
   constexpr int NBATCHES = 6;
   auto gated_fs = UseGatedFs();
   std::vector<ExpectedFile> expected_files;
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
+  auto dataset_writer = MakeDatasetWriter();
   for (int i = 0; i < NBATCHES; i++) {
     std::string i_str = std::to_string(i);
     expected_files.push_back(ExpectedFile{"testdir/part" + i_str + "/chunk-0.arrow",
                                           static_cast<uint64_t>(i) * 10, 10});
-    Future<> queue_fut = dataset_writer->WriteRecordBatch(MakeBatch(10), "part" + i_str);
-    AssertFinished(queue_fut);
-    ASSERT_FINISHES_OK(queue_fut);
+    dataset_writer->WriteRecordBatch(MakeBatch(10), "part" + i_str);
   }
   ASSERT_OK(gated_fs->WaitForOpenOutputStream(NBATCHES));
   ASSERT_OK(gated_fs->UnlockOpenOutputStream(NBATCHES));
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  EndWriterChecked(dataset_writer.get());
   AssertCreatedData(expected_files);
 }
 
 TEST_F(DatasetWriterTestFixture, MaxOpenFiles) {
   auto gated_fs = UseGatedFs();
+  std::atomic<bool> paused = false;
   write_options_.max_open_files = 2;
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
-
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(10), "part0"));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(10), "part1"));
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(10), "part0"));
-  Future<> fut = dataset_writer->WriteRecordBatch(MakeBatch(10), "part2");
+  EXPECT_OK_AND_ASSIGN(auto dataset_writer,
+                       DatasetWriter::Make(
+                           write_options_, scheduler_, [&] { paused = true; },
+                           [&] { paused = false; }, [] {}));
+
+  dataset_writer->WriteRecordBatch(MakeBatch(10), "part0");
+  dataset_writer->WriteRecordBatch(MakeBatch(10), "part1");
+  dataset_writer->WriteRecordBatch(MakeBatch(10), "part0");
+  dataset_writer->WriteRecordBatch(MakeBatch(10), "part2");
   // Backpressure will be applied until an existing file can be evicted
-  AssertNotFinished(fut);
+  ASSERT_TRUE(paused);
 
   // Ungate the writes to relieve the pressure, testdir/part0 should be closed
   ASSERT_OK(gated_fs->WaitForOpenOutputStream(2));
   ASSERT_OK(gated_fs->UnlockOpenOutputStream(5));
-  ASSERT_FINISHES_OK(fut);
+  // This should free up things and allow us to continue
+  BusyWait(10, [&] { return !paused; });
 
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(10), "part0"));
+  dataset_writer->WriteRecordBatch(MakeBatch(10), "part0");
   // Following call should resume existing write but, on slow test systems, the old
   // write may have already been finished
-  ASSERT_FINISHES_OK(dataset_writer->WriteRecordBatch(MakeBatch(10), "part1"));
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  dataset_writer->WriteRecordBatch(MakeBatch(10), "part1");
+  EndWriterChecked(dataset_writer.get());
   AssertFilesCreated({"testdir/part0/chunk-0.arrow", "testdir/part0/chunk-1.arrow",
                       "testdir/part1/chunk-0.arrow", "testdir/part2/chunk-0.arrow"});
 }
@@ -379,10 +417,9 @@ TEST_F(DatasetWriterTestFixture, NoExistingDirectory) {
   write_options_.filesystem = filesystem_;
   write_options_.existing_data_behavior = ExistingDataBehavior::kDeleteMatchingPartitions;
   write_options_.base_dir = "testdir/subdir";
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
-  Future<> queue_fut = dataset_writer->WriteRecordBatch(MakeBatch(100), "");
-  AssertFinished(queue_fut);
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  auto dataset_writer = MakeDatasetWriter();
+  dataset_writer->WriteRecordBatch(MakeBatch(100), "");
+  EndWriterChecked(dataset_writer.get());
   AssertCreatedData({{"testdir/subdir/chunk-0.arrow", 0, 100}});
 }
 
@@ -396,10 +433,9 @@ TEST_F(DatasetWriterTestFixture, DeleteExistingData) {
   filesystem_ = std::dynamic_pointer_cast<MockFileSystem>(fs);
   write_options_.filesystem = filesystem_;
   write_options_.existing_data_behavior = ExistingDataBehavior::kDeleteMatchingPartitions;
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
-  Future<> queue_fut = dataset_writer->WriteRecordBatch(MakeBatch(100), "");
-  AssertFinished(queue_fut);
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  auto dataset_writer = MakeDatasetWriter();
+  dataset_writer->WriteRecordBatch(MakeBatch(100), "");
+  EndWriterChecked(dataset_writer.get());
   AssertCreatedData({{"testdir/chunk-0.arrow", 0, 100}});
   AssertNotFiles({"testdir/chunk-5.arrow", "testdir/blah.txt", "testdir/subdir/foo.txt"});
 }
@@ -414,10 +450,9 @@ TEST_F(DatasetWriterTestFixture, PartitionedDeleteExistingData) {
   filesystem_ = std::dynamic_pointer_cast<MockFileSystem>(fs);
   write_options_.filesystem = filesystem_;
   write_options_.existing_data_behavior = ExistingDataBehavior::kDeleteMatchingPartitions;
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
-  Future<> queue_fut = dataset_writer->WriteRecordBatch(MakeBatch(100), "part0");
-  AssertFinished(queue_fut);
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  auto dataset_writer = MakeDatasetWriter();
+  dataset_writer->WriteRecordBatch(MakeBatch(100), "part0");
+  EndWriterChecked(dataset_writer.get());
   AssertCreatedData({{"testdir/part0/chunk-0.arrow", 0, 100}});
   AssertNotFiles({"testdir/part0/foo.arrow"});
   AssertEmptyFiles({"testdir/part1/bar.arrow"});
@@ -433,10 +468,9 @@ TEST_F(DatasetWriterTestFixture, LeaveExistingData) {
   filesystem_ = std::dynamic_pointer_cast<MockFileSystem>(fs);
   write_options_.filesystem = filesystem_;
   write_options_.existing_data_behavior = ExistingDataBehavior::kOverwriteOrIgnore;
-  EXPECT_OK_AND_ASSIGN(auto dataset_writer, DatasetWriter::Make(write_options_));
-  Future<> queue_fut = dataset_writer->WriteRecordBatch(MakeBatch(100), "");
-  AssertFinished(queue_fut);
-  ASSERT_FINISHES_OK(dataset_writer->Finish());
+  auto dataset_writer = MakeDatasetWriter();
+  dataset_writer->WriteRecordBatch(MakeBatch(100), "");
+  EndWriterChecked(dataset_writer.get());
   AssertCreatedData({{"testdir/chunk-0.arrow", 0, 100}});
   AssertEmptyFiles({"testdir/chunk-5.arrow", "testdir/blah.txt"});
 }
@@ -450,7 +484,8 @@ TEST_F(DatasetWriterTestFixture, ErrOnExistingData) {
                      fs::File("testdir/chunk-5.arrow"), fs::File("testdir/blah.txt")}));
   filesystem_ = std::dynamic_pointer_cast<MockFileSystem>(fs);
   write_options_.filesystem = filesystem_;
-  ASSERT_RAISES(Invalid, DatasetWriter::Make(write_options_));
+  ASSERT_RAISES(Invalid, DatasetWriter::Make(
+                             write_options_, scheduler_, [] {}, [] {}, [] {}));
   AssertEmptyFiles(
       {"testdir/chunk-0.arrow", "testdir/chunk-5.arrow", "testdir/blah.txt"});
 
@@ -463,7 +498,8 @@ TEST_F(DatasetWriterTestFixture, ErrOnExistingData) {
   filesystem_ = std::dynamic_pointer_cast<MockFileSystem>(fs2);
   write_options_.filesystem = filesystem_;
   write_options_.base_dir = "testdir";
-  ASSERT_RAISES(Invalid, DatasetWriter::Make(write_options_));
+  ASSERT_RAISES(Invalid, DatasetWriter::Make(
+                             write_options_, scheduler_, [] {}, [] {}, [] {}));
   AssertEmptyFiles({"testdir/part-0.arrow"});
 }
 
diff --git a/cpp/src/arrow/dataset/discovery.cc b/cpp/src/arrow/dataset/discovery.cc
index 25fa7ff2b70..a38ec00bb91 100644
--- a/cpp/src/arrow/dataset/discovery.cc
+++ b/cpp/src/arrow/dataset/discovery.cc
@@ -30,8 +30,12 @@
 #include "arrow/dataset/type_fwd.h"
 #include "arrow/filesystem/path_util.h"
 #include "arrow/util/logging.h"
+#include "arrow/util/string.h"
 
 namespace arrow {
+
+using internal::StartsWith;
+
 namespace dataset {
 
 DatasetFactory::DatasetFactory() : root_partition_(compute::literal(true)) {}
@@ -158,10 +162,9 @@ bool StartsWithAnyOf(const std::string& path, const std::vector<std::string>& pr
   }
 
   auto parts = fs::internal::SplitAbstractPath(path);
-  return std::any_of(parts.cbegin(), parts.cend(), [&](util::string_view part) {
-    return std::any_of(prefixes.cbegin(), prefixes.cend(), [&](util::string_view prefix) {
-      return util::string_view(part).starts_with(prefix);
-    });
+  return std::any_of(parts.cbegin(), parts.cend(), [&](std::string_view part) {
+    return std::any_of(prefixes.cbegin(), prefixes.cend(),
+                       [&](std::string_view prefix) { return StartsWith(part, prefix); });
   });
 }
 
diff --git a/cpp/src/arrow/dataset/discovery.h b/cpp/src/arrow/dataset/discovery.h
index 40c02051955..238b33e40fe 100644
--- a/cpp/src/arrow/dataset/discovery.h
+++ b/cpp/src/arrow/dataset/discovery.h
@@ -25,6 +25,7 @@
 
 #include <memory>
 #include <string>
+#include <variant>
 #include <vector>
 
 #include "arrow/dataset/partition.h"
@@ -33,7 +34,6 @@
 #include "arrow/filesystem/type_fwd.h"
 #include "arrow/result.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/variant.h"
 
 namespace arrow {
 namespace dataset {
diff --git a/cpp/src/arrow/dataset/file_base.cc b/cpp/src/arrow/dataset/file_base.cc
index b3f161e92d5..6eb23fcbc94 100644
--- a/cpp/src/arrow/dataset/file_base.cc
+++ b/cpp/src/arrow/dataset/file_base.cc
@@ -20,11 +20,16 @@
 #include <arrow/compute/exec/exec_plan.h>
 
 #include <algorithm>
+#include <atomic>
+#include <memory>
 #include <unordered_map>
+#include <variant>
 #include <vector>
 
 #include "arrow/compute/api_scalar.h"
 #include "arrow/compute/exec/forest_internal.h"
+#include "arrow/compute/exec/map_node.h"
+#include "arrow/compute/exec/query_context.h"
 #include "arrow/compute/exec/subtree_internal.h"
 #include "arrow/dataset/dataset_internal.h"
 #include "arrow/dataset/dataset_writer.h"
@@ -38,12 +43,10 @@
 #include "arrow/util/compression.h"
 #include "arrow/util/iterator.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/map.h"
 #include "arrow/util/string.h"
 #include "arrow/util/task_group.h"
 #include "arrow/util/tracing_internal.h"
-#include "arrow/util/variant.h"
 
 namespace arrow {
 
@@ -52,6 +55,19 @@ using internal::checked_pointer_cast;
 
 namespace dataset {
 
+FileSource::FileSource(std::shared_ptr<io::RandomAccessFile> file,
+                       Compression::type compression)
+    : custom_open_([=] { return ToResult(file); }),
+      custom_size_(-1),
+      compression_(compression) {
+  Result<int64_t> maybe_size = file->GetSize();
+  if (maybe_size.ok()) {
+    custom_size_ = *maybe_size;
+  } else {
+    custom_open_ = [st = maybe_size.status()] { return st; };
+  }
+}
+
 Result<std::shared_ptr<io::RandomAccessFile>> FileSource::Open() const {
   if (filesystem_) {
     return filesystem_->OpenInputFile(file_info_);
@@ -64,8 +80,18 @@ Result<std::shared_ptr<io::RandomAccessFile>> FileSource::Open() const {
   return custom_open_();
 }
 
+int64_t FileSource::Size() const {
+  if (filesystem_) {
+    return file_info_.size();
+  }
+  if (buffer_) {
+    return buffer_->size();
+  }
+  return custom_size_;
+}
+
 Result<std::shared_ptr<io::InputStream>> FileSource::OpenCompressed(
-    util::optional<Compression::type> compression) const {
+    std::optional<Compression::type> compression) const {
   ARROW_ASSIGN_OR_RAISE(auto file, Open());
   auto actual_compression = Compression::type::UNCOMPRESSED;
   if (!compression.has_value()) {
@@ -93,14 +119,29 @@ bool FileSource::Equals(const FileSource& other) const {
   bool match_file_system =
       (filesystem_ == nullptr && other.filesystem_ == nullptr) ||
       (filesystem_ && other.filesystem_ && filesystem_->Equals(other.filesystem_));
-  return match_file_system && file_info_.Equals(other.file_info_) &&
-         buffer_->Equals(*other.buffer_) && compression_ == other.compression_;
+  bool match_buffer = (buffer_ == nullptr && other.buffer_ == nullptr) ||
+                      ((buffer_ != nullptr && other.buffer_ != nullptr) &&
+                       (buffer_->address() == other.buffer_->address()));
+  return match_file_system && match_buffer && file_info_.Equals(other.file_info_) &&
+         compression_ == other.compression_;
 }
 
-Future<util::optional<int64_t>> FileFormat::CountRows(
+Future<std::optional<int64_t>> FileFormat::CountRows(
     const std::shared_ptr<FileFragment>&, compute::Expression,
     const std::shared_ptr<ScanOptions>&) {
-  return Future<util::optional<int64_t>>::MakeFinished(util::nullopt);
+  return Future<std::optional<int64_t>>::MakeFinished(std::nullopt);
+}
+
+Future<std::shared_ptr<InspectedFragment>> FileFormat::InspectFragment(
+    const FileSource& source, const FragmentScanOptions* format_options,
+    compute::ExecContext* exec_context) const {
+  return Status::NotImplemented("This format does not yet support the scan2 node");
+}
+
+Future<std::shared_ptr<FragmentScanner>> FileFormat::BeginScan(
+    const FragmentScanRequest& request, const InspectedFragment& inspected_fragment,
+    const FragmentScanOptions* format_options, compute::ExecContext* exec_context) const {
+  return Status::NotImplemented("This format does not yet support the scan2 node");
 }
 
 Result<std::shared_ptr<FileFragment>> FileFormat::MakeFragment(
@@ -132,12 +173,32 @@ Result<RecordBatchGenerator> FileFragment::ScanBatchesAsync(
   return format_->ScanBatchesAsync(options, self);
 }
 
-Future<util::optional<int64_t>> FileFragment::CountRows(
+Future<std::shared_ptr<InspectedFragment>> FileFragment::InspectFragment(
+    const FragmentScanOptions* format_options, compute::ExecContext* exec_context) {
+  const FragmentScanOptions* realized_format_options = format_options;
+  if (format_options == nullptr) {
+    realized_format_options = format_->default_fragment_scan_options.get();
+  }
+  return format_->InspectFragment(source_, realized_format_options, exec_context);
+}
+
+Future<std::shared_ptr<FragmentScanner>> FileFragment::BeginScan(
+    const FragmentScanRequest& request, const InspectedFragment& inspected_fragment,
+    const FragmentScanOptions* format_options, compute::ExecContext* exec_context) {
+  const FragmentScanOptions* realized_format_options = format_options;
+  if (format_options == nullptr) {
+    realized_format_options = format_->default_fragment_scan_options.get();
+  }
+  return format_->BeginScan(request, inspected_fragment, realized_format_options,
+                            exec_context);
+}
+
+Future<std::optional<int64_t>> FileFragment::CountRows(
     compute::Expression predicate, const std::shared_ptr<ScanOptions>& options) {
   ARROW_ASSIGN_OR_RAISE(predicate, compute::SimplifyWithGuarantee(std::move(predicate),
                                                                   partition_expression_));
   if (!predicate.IsSatisfiable()) {
-    return Future<util::optional<int64_t>>::MakeFinished(0);
+    return Future<std::optional<int64_t>>::MakeFinished(0);
   }
   auto self = checked_pointer_cast<FileFragment>(shared_from_this());
   return format()->CountRows(self, std::move(predicate), options);
@@ -151,7 +212,7 @@ struct FileSystemDataset::FragmentSubtrees {
   // Forest for skipping fragments based on extracted subtree expressions
   compute::Forest forest;
   // fragment indices and subtree expressions in forest order
-  std::vector<util::Variant<int, compute::Expression>> fragments_and_subtrees;
+  std::vector<std::variant<int, compute::Expression>> fragments_and_subtrees;
 };
 
 Result<std::shared_ptr<FileSystemDataset>> FileSystemDataset::Make(
@@ -239,13 +300,13 @@ Result<FragmentIterator> FileSystemDataset::GetFragmentsImpl(
   RETURN_NOT_OK(subtrees_->forest.Visit(
       [&](compute::Forest::Ref ref) -> Result<bool> {
         if (auto fragment_index =
-                util::get_if<int>(&subtrees_->fragments_and_subtrees[ref.i])) {
+                std::get_if<int>(&subtrees_->fragments_and_subtrees[ref.i])) {
           fragment_indices.push_back(*fragment_index);
           return false;
         }
 
         const auto& subtree_expr =
-            util::get<compute::Expression>(subtrees_->fragments_and_subtrees[ref.i]);
+            std::get<compute::Expression>(subtrees_->fragments_and_subtrees[ref.i]);
         ARROW_ASSIGN_OR_RAISE(auto simplified,
                               SimplifyWithGuarantee(predicates.back(), subtree_expr));
 
@@ -326,20 +387,24 @@ Status WriteBatch(
 class DatasetWritingSinkNodeConsumer : public compute::SinkNodeConsumer {
  public:
   DatasetWritingSinkNodeConsumer(std::shared_ptr<const KeyValueMetadata> custom_metadata,
-                                 std::unique_ptr<internal::DatasetWriter> dataset_writer,
                                  FileSystemDatasetWriteOptions write_options)
       : custom_metadata_(std::move(custom_metadata)),
-        dataset_writer_(std::move(dataset_writer)),
         write_options_(std::move(write_options)) {}
 
   Status Init(const std::shared_ptr<Schema>& schema,
-              compute::BackpressureControl* backpressure_control) override {
+              compute::BackpressureControl* backpressure_control,
+              compute::ExecPlan* plan) override {
     if (custom_metadata_) {
       schema_ = schema->WithMetadata(custom_metadata_);
     } else {
       schema_ = schema;
     }
-    backpressure_control_ = backpressure_control;
+    ARROW_ASSIGN_OR_RAISE(
+        dataset_writer_,
+        internal::DatasetWriter::Make(
+            write_options_, plan->query_context()->async_scheduler(),
+            [backpressure_control] { backpressure_control->Pause(); },
+            [backpressure_control] { backpressure_control->Resume(); }, [] {}));
     return Status::OK();
   }
 
@@ -350,53 +415,35 @@ class DatasetWritingSinkNodeConsumer : public compute::SinkNodeConsumer {
   }
 
   Future<> Finish() override {
-    RETURN_NOT_OK(task_group_.AddTask([this] { return dataset_writer_->Finish(); }));
-    return task_group_.End();
+    dataset_writer_->Finish();
+    // Some write tasks may still be in the queue at this point but that is ok.
+    return Future<>::MakeFinished();
   }
 
  private:
   Status WriteNextBatch(std::shared_ptr<RecordBatch> batch,
                         compute::Expression guarantee) {
-    return WriteBatch(
-        batch, guarantee, write_options_,
-        [this](std::shared_ptr<RecordBatch> next_batch,
-               const PartitionPathFormat& destination) {
-          return task_group_.AddTask([this, next_batch, destination] {
-            Future<> has_room = dataset_writer_->WriteRecordBatch(
-                next_batch, destination.directory, destination.filename);
-            if (!has_room.is_finished()) {
-              // We don't have to worry about sequencing backpressure here since
-              // task_group_ serves as our sequencer.  If batches continue to arrive after
-              // we pause they will queue up in task_group_ until we free up and call
-              // Resume
-              backpressure_control_->Pause();
-              return has_room.Then([this] { backpressure_control_->Resume(); });
-            }
-            return has_room;
-          });
-        });
+    return WriteBatch(batch, guarantee, write_options_,
+                      [this](std::shared_ptr<RecordBatch> next_batch,
+                             const PartitionPathFormat& destination) {
+                        dataset_writer_->WriteRecordBatch(std::move(next_batch),
+                                                          destination.directory,
+                                                          destination.filename);
+                        return Status::OK();
+                      });
   }
 
   std::shared_ptr<const KeyValueMetadata> custom_metadata_;
   std::unique_ptr<internal::DatasetWriter> dataset_writer_;
   FileSystemDatasetWriteOptions write_options_;
-  util::SerializedAsyncTaskGroup task_group_;
+  Future<> finished_ = Future<>::Make();
   std::shared_ptr<Schema> schema_ = nullptr;
-  compute::BackpressureControl* backpressure_control_;
 };
 
 }  // namespace
 
 Status FileSystemDataset::Write(const FileSystemDatasetWriteOptions& write_options,
                                 std::shared_ptr<Scanner> scanner) {
-  const io::IOContext& io_context = scanner->options()->io_context;
-  auto cpu_executor =
-      scanner->options()->use_threads ? ::arrow::internal::GetCpuThreadPool() : nullptr;
-  std::shared_ptr<compute::ExecContext> exec_context =
-      std::make_shared<compute::ExecContext>(io_context.pool(), cpu_executor);
-
-  ARROW_ASSIGN_OR_RAISE(auto plan, compute::ExecPlan::Make(exec_context.get()));
-
   auto exprs = scanner->options()->projection.call()->arguments;
   auto names = checked_cast<const compute::MakeStructOptions*>(
                    scanner->options()->projection.call()->options.get())
@@ -407,19 +454,14 @@ Status FileSystemDataset::Write(const FileSystemDatasetWriteOptions& write_optio
   // when reading from a single input file.
   const auto& custom_metadata = scanner->options()->projected_schema->metadata();
 
-  RETURN_NOT_OK(
-      compute::Declaration::Sequence(
-          {
-              {"scan", ScanNodeOptions{dataset, scanner->options()}},
-              {"filter", compute::FilterNodeOptions{scanner->options()->filter}},
-              {"project",
-               compute::ProjectNodeOptions{std::move(exprs), std::move(names)}},
-              {"write", WriteNodeOptions{write_options, custom_metadata}},
-          })
-          .AddToPlan(plan.get()));
-
-  RETURN_NOT_OK(plan->StartProducing());
-  return plan->finished().status();
+  compute::Declaration plan = compute::Declaration::Sequence({
+      {"scan", ScanNodeOptions{dataset, scanner->options()}},
+      {"filter", compute::FilterNodeOptions{scanner->options()->filter}},
+      {"project", compute::ProjectNodeOptions{std::move(exprs), std::move(names)}},
+      {"write", WriteNodeOptions{write_options, custom_metadata}},
+  });
+
+  return compute::DeclarationToStatus(std::move(plan), scanner->options()->use_threads);
 }
 
 Result<compute::ExecNode*> MakeWriteNode(compute::ExecPlan* plan,
@@ -440,12 +482,8 @@ Result<compute::ExecNode*> MakeWriteNode(compute::ExecPlan* plan,
     return Status::Invalid("Must provide partitioning");
   }
 
-  ARROW_ASSIGN_OR_RAISE(auto dataset_writer,
-                        internal::DatasetWriter::Make(write_options));
-
   std::shared_ptr<DatasetWritingSinkNodeConsumer> consumer =
-      std::make_shared<DatasetWritingSinkNodeConsumer>(
-          custom_metadata, std::move(dataset_writer), write_options);
+      std::make_shared<DatasetWritingSinkNodeConsumer>(custom_metadata, write_options);
 
   ARROW_ASSIGN_OR_RAISE(
       auto node,
@@ -461,12 +499,19 @@ class TeeNode : public compute::MapNode {
  public:
   TeeNode(compute::ExecPlan* plan, std::vector<compute::ExecNode*> inputs,
           std::shared_ptr<Schema> output_schema,
-          std::unique_ptr<internal::DatasetWriter> dataset_writer,
-          FileSystemDatasetWriteOptions write_options, bool async_mode)
-      : MapNode(plan, std::move(inputs), std::move(output_schema), async_mode),
-        dataset_writer_(std::move(dataset_writer)),
+          FileSystemDatasetWriteOptions write_options)
+      : MapNode(plan, std::move(inputs), std::move(output_schema)),
         write_options_(std::move(write_options)) {}
 
+  Status StartProducing() override {
+    ARROW_ASSIGN_OR_RAISE(
+        dataset_writer_,
+        internal::DatasetWriter::Make(
+            write_options_, plan_->query_context()->async_scheduler(),
+            [this] { Pause(); }, [this] { Resume(); }, [this] { MapNode::Finish(); }));
+    return MapNode::StartProducing();
+  }
+
   static Result<compute::ExecNode*> Make(compute::ExecPlan* plan,
                                          std::vector<compute::ExecNode*> inputs,
                                          const compute::ExecNodeOptions& options) {
@@ -477,24 +522,18 @@ class TeeNode : public compute::MapNode {
     const FileSystemDatasetWriteOptions& write_options = write_node_options.write_options;
     const std::shared_ptr<Schema> schema = inputs[0]->output_schema();
 
-    ARROW_ASSIGN_OR_RAISE(auto dataset_writer,
-                          internal::DatasetWriter::Make(write_options));
-
     return plan->EmplaceNode<TeeNode>(plan, std::move(inputs), std::move(schema),
-                                      std::move(dataset_writer), std::move(write_options),
-                                      /*async_mode=*/true);
+                                      std::move(write_options));
   }
 
   const char* kind_name() const override { return "TeeNode"; }
 
   void Finish(Status finish_st) override {
-    dataset_writer_->Finish().AddCallback([this, finish_st](const Status& dw_status) {
-      // Need to wait for the task group to complete regardless of dw_status
-      task_group_.End().AddCallback(
-          [this, dw_status, finish_st](const Status& tg_status) {
-            finished_.MarkFinished(dw_status & finish_st & tg_status);
-          });
-    });
+    if (!finish_st.ok()) {
+      MapNode::Finish(std::move(finish_st));
+      return;
+    }
+    dataset_writer_->Finish();
   }
 
   Result<compute::ExecBatch> DoTee(const compute::ExecBatch& batch) {
@@ -509,16 +548,10 @@ class TeeNode : public compute::MapNode {
     return WriteBatch(batch, guarantee, write_options_,
                       [this](std::shared_ptr<RecordBatch> next_batch,
                              const PartitionPathFormat& destination) {
-                        return task_group_.AddTask([this, next_batch, destination] {
-                          util::tracing::Span span;
-                          Future<> has_room = dataset_writer_->WriteRecordBatch(
-                              next_batch, destination.directory, destination.filename);
-                          if (!has_room.is_finished()) {
-                            this->Pause();
-                            return has_room.Then([this] { this->Resume(); });
-                          }
-                          return has_room;
-                        });
+                        util::tracing::Span span;
+                        dataset_writer_->WriteRecordBatch(
+                            next_batch, destination.directory, destination.filename);
+                        return Status::OK();
                       });
   }
 
@@ -551,8 +584,7 @@ class TeeNode : public compute::MapNode {
  private:
   std::unique_ptr<internal::DatasetWriter> dataset_writer_;
   FileSystemDatasetWriteOptions write_options_;
-  util::SerializedAsyncTaskGroup task_group_;
-  int32_t backpressure_counter_ = 0;
+  std::atomic<int32_t> backpressure_counter_ = 0;
 };
 
 }  // namespace
diff --git a/cpp/src/arrow/dataset/file_base.h b/cpp/src/arrow/dataset/file_base.h
index 7b0f5ffcf2e..2b8421ce16b 100644
--- a/cpp/src/arrow/dataset/file_base.h
+++ b/cpp/src/arrow/dataset/file_base.h
@@ -65,18 +65,25 @@ class ARROW_DS_EXPORT FileSource : public util::EqualityComparable<FileSource> {
       : buffer_(std::move(buffer)), compression_(compression) {}
 
   using CustomOpen = std::function<Result<std::shared_ptr<io::RandomAccessFile>>()>;
-  explicit FileSource(CustomOpen open) : custom_open_(std::move(open)) {}
+  FileSource(CustomOpen open, int64_t size)
+      : custom_open_(std::move(open)), custom_size_(size) {}
 
   using CustomOpenWithCompression =
       std::function<Result<std::shared_ptr<io::RandomAccessFile>>(Compression::type)>;
-  explicit FileSource(CustomOpenWithCompression open_with_compression,
-                      Compression::type compression = Compression::UNCOMPRESSED)
+  FileSource(CustomOpenWithCompression open_with_compression, int64_t size,
+             Compression::type compression = Compression::UNCOMPRESSED)
       : custom_open_(std::bind(std::move(open_with_compression), compression)),
+        custom_size_(size),
+        compression_(compression) {}
+
+  FileSource(std::shared_ptr<io::RandomAccessFile> file, int64_t size,
+             Compression::type compression = Compression::UNCOMPRESSED)
+      : custom_open_([=] { return ToResult(file); }),
+        custom_size_(size),
         compression_(compression) {}
 
   explicit FileSource(std::shared_ptr<io::RandomAccessFile> file,
-                      Compression::type compression = Compression::UNCOMPRESSED)
-      : custom_open_([=] { return ToResult(file); }), compression_(compression) {}
+                      Compression::type compression = Compression::UNCOMPRESSED);
 
   FileSource() : custom_open_(CustomOpen{&InvalidOpen}) {}
 
@@ -108,11 +115,15 @@ class ARROW_DS_EXPORT FileSource : public util::EqualityComparable<FileSource> {
   /// \brief Get a RandomAccessFile which views this file source
   Result<std::shared_ptr<io::RandomAccessFile>> Open() const;
 
+  /// \brief Get the size (in bytes) of the file or buffer
+  /// If the file is compressed this should be the compressed (on-disk) size.
+  int64_t Size() const;
+
   /// \brief Get an InputStream which views this file source (and decompresses if needed)
   /// \param[in] compression If nullopt, guess the compression scheme from the
   ///     filename, else decompress with the given codec
   Result<std::shared_ptr<io::InputStream>> OpenCompressed(
-      util::optional<Compression::type> compression = util::nullopt) const;
+      std::optional<Compression::type> compression = std::nullopt) const;
 
   /// \brief equality comparison with another FileSource
   bool Equals(const FileSource& other) const;
@@ -126,6 +137,7 @@ class ARROW_DS_EXPORT FileSource : public util::EqualityComparable<FileSource> {
   std::shared_ptr<fs::FileSystem> filesystem_;
   std::shared_ptr<Buffer> buffer_;
   CustomOpen custom_open_;
+  int64_t custom_size_ = 0;
   Compression::type compression_ = Compression::UNCOMPRESSED;
 };
 
@@ -150,14 +162,24 @@ class ARROW_DS_EXPORT FileFormat : public std::enable_shared_from_this<FileForma
   /// \brief Return the schema of the file if possible.
   virtual Result<std::shared_ptr<Schema>> Inspect(const FileSource& source) const = 0;
 
+  /// \brief Learn what we need about the file before we start scanning it
+  virtual Future<std::shared_ptr<InspectedFragment>> InspectFragment(
+      const FileSource& source, const FragmentScanOptions* format_options,
+      compute::ExecContext* exec_context) const;
+
   virtual Result<RecordBatchGenerator> ScanBatchesAsync(
       const std::shared_ptr<ScanOptions>& options,
       const std::shared_ptr<FileFragment>& file) const = 0;
 
-  virtual Future<util::optional<int64_t>> CountRows(
+  virtual Future<std::optional<int64_t>> CountRows(
       const std::shared_ptr<FileFragment>& file, compute::Expression predicate,
       const std::shared_ptr<ScanOptions>& options);
 
+  virtual Future<std::shared_ptr<FragmentScanner>> BeginScan(
+      const FragmentScanRequest& request, const InspectedFragment& inspected_fragment,
+      const FragmentScanOptions* format_options,
+      compute::ExecContext* exec_context) const;
+
   /// \brief Open a fragment
   virtual Result<std::shared_ptr<FileFragment>> MakeFragment(
       FileSource source, compute::Expression partition_expression,
@@ -178,7 +200,14 @@ class ARROW_DS_EXPORT FileFormat : public std::enable_shared_from_this<FileForma
       fs::FileLocator destination_locator) const = 0;
 
   /// \brief Get default write options for this format.
+  ///
+  /// May return null shared_ptr if this file format does not yet support
+  /// writing datasets.
   virtual std::shared_ptr<FileWriteOptions> DefaultWriteOptions() = 0;
+
+ protected:
+  explicit FileFormat(std::shared_ptr<FragmentScanOptions> default_fragment_scan_options)
+      : default_fragment_scan_options(std::move(default_fragment_scan_options)) {}
 };
 
 /// \brief A Fragment that is stored in a file with a known format
@@ -187,9 +216,16 @@ class ARROW_DS_EXPORT FileFragment : public Fragment,
  public:
   Result<RecordBatchGenerator> ScanBatchesAsync(
       const std::shared_ptr<ScanOptions>& options) override;
-  Future<util::optional<int64_t>> CountRows(
+  Future<std::optional<int64_t>> CountRows(
       compute::Expression predicate,
       const std::shared_ptr<ScanOptions>& options) override;
+  Future<std::shared_ptr<FragmentScanner>> BeginScan(
+      const FragmentScanRequest& request, const InspectedFragment& inspected_fragment,
+      const FragmentScanOptions* format_options,
+      compute::ExecContext* exec_context) override;
+  Future<std::shared_ptr<InspectedFragment>> InspectFragment(
+      const FragmentScanOptions* format_options,
+      compute::ExecContext* exec_context) override;
 
   std::string type_name() const override { return format_->type_name(); }
   std::string ToString() const override { return source_.path(); };
@@ -344,7 +380,7 @@ class ARROW_DS_EXPORT FileWriter {
   std::shared_ptr<FileWriteOptions> options_;
   std::shared_ptr<io::OutputStream> destination_;
   fs::FileLocator destination_locator_;
-  util::optional<int64_t> bytes_written_;
+  std::optional<int64_t> bytes_written_;
 };
 
 /// \brief Options for writing a dataset.
diff --git a/cpp/src/arrow/dataset/file_csv.cc b/cpp/src/arrow/dataset/file_csv.cc
index d4e0af7808c..122e7f79708 100644
--- a/cpp/src/arrow/dataset/file_csv.cc
+++ b/cpp/src/arrow/dataset/file_csv.cc
@@ -38,6 +38,7 @@
 #include "arrow/result.h"
 #include "arrow/type.h"
 #include "arrow/util/async_generator.h"
+#include "arrow/util/bit_util.h"
 #include "arrow/util/iterator.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/tracing_internal.h"
@@ -52,19 +53,108 @@ using internal::SerialExecutor;
 
 namespace dataset {
 
+struct CsvInspectedFragment : public InspectedFragment {
+  CsvInspectedFragment(std::vector<std::string> column_names,
+                       std::shared_ptr<io::InputStream> input_stream, int64_t num_bytes)
+      : InspectedFragment(std::move(column_names)),
+        input_stream(std::move(input_stream)),
+        num_bytes(num_bytes) {}
+  // We need to start reading the file in order to figure out the column names and
+  // so we save off the input stream
+  std::shared_ptr<io::InputStream> input_stream;
+  int64_t num_bytes;
+};
+
+class CsvFileScanner : public FragmentScanner {
+ public:
+  CsvFileScanner(std::shared_ptr<csv::StreamingReader> reader, int num_batches,
+                 int64_t best_guess_bytes_per_batch)
+      : reader_(std::move(reader)),
+        num_batches_(num_batches),
+        best_guess_bytes_per_batch_(best_guess_bytes_per_batch) {}
+
+  Future<std::shared_ptr<RecordBatch>> ScanBatch(int batch_number) override {
+    // This should be called in increasing order but let's verify that in case it changes.
+    // It would be easy enough to handle out of order but no need for that complexity at
+    // the moment.
+    DCHECK_EQ(scanned_so_far_++, batch_number);
+    return reader_->ReadNextAsync();
+  }
+
+  int64_t EstimatedDataBytes(int batch_number) override {
+    return best_guess_bytes_per_batch_;
+  }
+
+  int NumBatches() override { return num_batches_; }
+
+  static Result<csv::ConvertOptions> GetConvertOptions(
+      const CsvFragmentScanOptions& csv_options, const FragmentScanRequest& scan_request,
+      const CsvInspectedFragment& inspected_fragment) {
+    // We use the convert options given from the user but override which columns we are
+    // looking for.
+    auto convert_options = csv_options.convert_options;
+    std::vector<std::string> columns;
+    std::unordered_map<std::string, std::shared_ptr<DataType>> column_types;
+    for (const auto& scan_column : scan_request.columns) {
+      if (scan_column.path.indices().size() != 1) {
+        return Status::Invalid("CSV reader does not supported nested references");
+      }
+      const std::string& column_name =
+          inspected_fragment.column_names[scan_column.path.indices()[0]];
+      columns.push_back(column_name);
+      column_types[column_name] = scan_column.requested_type->GetSharedPtr();
+    }
+    convert_options.include_columns = std::move(columns);
+    convert_options.column_types = std::move(column_types);
+    return std::move(convert_options);
+  }
+
+  static Future<std::shared_ptr<FragmentScanner>> Make(
+      const CsvFragmentScanOptions& csv_options, const FragmentScanRequest& scan_request,
+      const CsvInspectedFragment& inspected_fragment, Executor* cpu_executor) {
+    auto read_options = csv_options.read_options;
+
+    int num_batches = static_cast<int>(bit_util::CeilDiv(
+        inspected_fragment.num_bytes, static_cast<int64_t>(read_options.block_size)));
+    // Could be better, but a reasonable starting point.  CSV presumably takes up more
+    // space than an in-memory format so this should be conservative.
+    int64_t best_guess_bytes_per_batch = read_options.block_size;
+    ARROW_ASSIGN_OR_RAISE(
+        csv::ConvertOptions convert_options,
+        GetConvertOptions(csv_options, scan_request, inspected_fragment));
+
+    return csv::StreamingReader::MakeAsync(
+               io::default_io_context(), inspected_fragment.input_stream, cpu_executor,
+               read_options, csv_options.parse_options, convert_options)
+        .Then([num_batches, best_guess_bytes_per_batch](
+                  const std::shared_ptr<csv::StreamingReader>& reader)
+                  -> std::shared_ptr<FragmentScanner> {
+          return std::make_shared<CsvFileScanner>(reader, num_batches,
+                                                  best_guess_bytes_per_batch);
+        });
+  }
+
+ private:
+  std::shared_ptr<csv::StreamingReader> reader_;
+  int num_batches_;
+  int64_t best_guess_bytes_per_batch_;
+
+  int scanned_so_far_ = 0;
+};
+
 using RecordBatchGenerator = std::function<Future<std::shared_ptr<RecordBatch>>()>;
 
-Result<std::unordered_set<std::string>> GetColumnNames(
+Result<std::vector<std::string>> GetOrderedColumnNames(
     const csv::ReadOptions& read_options, const csv::ParseOptions& parse_options,
-    util::string_view first_block, MemoryPool* pool) {
+    std::string_view first_block, MemoryPool* pool) {
+  // Skip BOM when reading column names (ARROW-14644, ARROW-17382)
+  auto size = first_block.length();
+  const uint8_t* data = reinterpret_cast<const uint8_t*>(first_block.data());
+  ARROW_ASSIGN_OR_RAISE(auto data_no_bom, util::SkipUTF8BOM(data, size));
+  size = size - static_cast<uint32_t>(data_no_bom - data);
+  first_block = std::string_view(reinterpret_cast<const char*>(data_no_bom), size);
   if (!read_options.column_names.empty()) {
-    std::unordered_set<std::string> column_names;
-    for (const auto& s : read_options.column_names) {
-      if (!column_names.emplace(s).second) {
-        return Status::Invalid("CSV file contained multiple columns named ", s);
-      }
-    }
-    return column_names;
+    return read_options.column_names;
   }
 
   uint32_t parsed_size = 0;
@@ -72,7 +162,7 @@ Result<std::unordered_set<std::string>> GetColumnNames(
   csv::BlockParser parser(pool, parse_options, /*num_cols=*/-1, /*first_row=*/1,
                           max_num_rows);
 
-  RETURN_NOT_OK(parser.Parse(util::string_view{first_block}, &parsed_size));
+  RETURN_NOT_OK(parser.Parse(std::string_view{first_block}, &parsed_size));
 
   if (parser.num_rows() != max_num_rows) {
     return Status::Invalid("Could not read first ", max_num_rows,
@@ -84,37 +174,46 @@ Result<std::unordered_set<std::string>> GetColumnNames(
     return Status::Invalid("No columns in CSV file");
   }
 
-  std::unordered_set<std::string> column_names;
+  std::vector<std::string> column_names;
 
   if (read_options.autogenerate_column_names) {
     column_names.reserve(parser.num_cols());
     for (int32_t i = 0; i < parser.num_cols(); ++i) {
       std::stringstream ss;
       ss << "f" << i;
-      column_names.emplace(ss.str());
+      column_names.emplace_back(ss.str());
     }
     return column_names;
   }
 
   RETURN_NOT_OK(
       parser.VisitLastRow([&](const uint8_t* data, uint32_t size, bool quoted) -> Status {
-        // Skip BOM when reading column names (ARROW-14644)
-        ARROW_ASSIGN_OR_RAISE(auto data_no_bom, util::SkipUTF8BOM(data, size));
-        size = size - static_cast<uint32_t>(data_no_bom - data);
-
-        util::string_view view{reinterpret_cast<const char*>(data_no_bom), size};
-        if (column_names.emplace(std::string(view)).second) {
-          return Status::OK();
-        }
-        return Status::Invalid("CSV file contained multiple columns named ", view);
+        std::string_view view{reinterpret_cast<const char*>(data), size};
+        column_names.emplace_back(view);
+        return Status::OK();
       }));
 
   return column_names;
 }
 
+Result<std::unordered_set<std::string>> GetColumnNames(
+    const csv::ReadOptions& read_options, const csv::ParseOptions& parse_options,
+    std::string_view first_block, MemoryPool* pool) {
+  ARROW_ASSIGN_OR_RAISE(
+      std::vector<std::string> ordered_names,
+      GetOrderedColumnNames(read_options, parse_options, first_block, pool));
+  std::unordered_set<std::string> unordered_names;
+  for (const auto& column : ordered_names) {
+    if (!unordered_names.emplace(column).second) {
+      return Status::Invalid("CSV file contained multiple columns named ", column);
+    }
+  }
+  return unordered_names;
+}
+
 static inline Result<csv::ConvertOptions> GetConvertOptions(
     const CsvFileFormat& format, const ScanOptions* scan_options,
-    const util::string_view first_block) {
+    const std::string_view first_block) {
   ARROW_ASSIGN_OR_RAISE(
       auto csv_scan_options,
       GetFragmentScanOptions<CsvFragmentScanOptions>(
@@ -183,9 +282,15 @@ static inline Future<std::shared_ptr<csv::StreamingReader>> OpenReaderAsync(
   auto tracer = arrow::internal::tracing::GetTracer();
   auto span = tracer->StartSpan("arrow::dataset::CsvFileFormat::OpenReaderAsync");
 #endif
+  ARROW_ASSIGN_OR_RAISE(
+      auto fragment_scan_options,
+      GetFragmentScanOptions<CsvFragmentScanOptions>(
+          kCsvTypeName, scan_options.get(), format.default_fragment_scan_options));
   ARROW_ASSIGN_OR_RAISE(auto reader_options, GetReadOptions(format, scan_options));
-
   ARROW_ASSIGN_OR_RAISE(auto input, source.OpenCompressed());
+  if (fragment_scan_options->stream_transform_func) {
+    ARROW_ASSIGN_OR_RAISE(input, fragment_scan_options->stream_transform_func(input));
+  }
   const auto& path = source.path();
   ARROW_ASSIGN_OR_RAISE(
       input, io::BufferedInputStream::Create(reader_options.block_size,
@@ -243,6 +348,8 @@ static RecordBatchGenerator GeneratorFromReader(
   return MakeFromFuture(std::move(gen_fut));
 }
 
+CsvFileFormat::CsvFileFormat() : FileFormat(std::make_shared<CsvFragmentScanOptions>()) {}
+
 bool CsvFileFormat::Equals(const FileFormat& format) const {
   if (type_name() != format.type_name()) return false;
 
@@ -282,19 +389,72 @@ Result<RecordBatchGenerator> CsvFileFormat::ScanBatchesAsync(
   return generator;
 }
 
-Future<util::optional<int64_t>> CsvFileFormat::CountRows(
+Future<std::optional<int64_t>> CsvFileFormat::CountRows(
     const std::shared_ptr<FileFragment>& file, compute::Expression predicate,
     const std::shared_ptr<ScanOptions>& options) {
   if (ExpressionHasFieldRefs(predicate)) {
-    return Future<util::optional<int64_t>>::MakeFinished(util::nullopt);
+    return Future<std::optional<int64_t>>::MakeFinished(std::nullopt);
   }
   auto self = checked_pointer_cast<CsvFileFormat>(shared_from_this());
-  ARROW_ASSIGN_OR_RAISE(auto input, file->source().OpenCompressed());
+  ARROW_ASSIGN_OR_RAISE(
+      auto fragment_scan_options,
+      GetFragmentScanOptions<CsvFragmentScanOptions>(
+          kCsvTypeName, options.get(), self->default_fragment_scan_options));
   ARROW_ASSIGN_OR_RAISE(auto read_options, GetReadOptions(*self, options));
+  ARROW_ASSIGN_OR_RAISE(auto input, file->source().OpenCompressed());
+  if (fragment_scan_options->stream_transform_func) {
+    ARROW_ASSIGN_OR_RAISE(input, fragment_scan_options->stream_transform_func(input));
+  }
   return csv::CountRowsAsync(options->io_context, std::move(input),
                              ::arrow::internal::GetCpuThreadPool(), read_options,
                              self->parse_options)
-      .Then([](int64_t count) { return util::make_optional<int64_t>(count); });
+      .Then([](int64_t count) { return std::make_optional<int64_t>(count); });
+}
+
+Future<std::shared_ptr<FragmentScanner>> CsvFileFormat::BeginScan(
+    const FragmentScanRequest& request, const InspectedFragment& inspected_fragment,
+    const FragmentScanOptions* format_options, compute::ExecContext* exec_context) const {
+  auto csv_options = static_cast<const CsvFragmentScanOptions*>(format_options);
+  auto csv_fragment = static_cast<const CsvInspectedFragment&>(inspected_fragment);
+  return CsvFileScanner::Make(*csv_options, request, csv_fragment,
+                              exec_context->executor());
+}
+
+Result<std::shared_ptr<InspectedFragment>> DoInspectFragment(
+    const FileSource& source, const CsvFragmentScanOptions& csv_options,
+    compute::ExecContext* exec_context) {
+  ARROW_ASSIGN_OR_RAISE(auto input, source.OpenCompressed());
+  if (csv_options.stream_transform_func) {
+    ARROW_ASSIGN_OR_RAISE(input, csv_options.stream_transform_func(input));
+  }
+  ARROW_ASSIGN_OR_RAISE(
+      input, io::BufferedInputStream::Create(csv_options.read_options.block_size,
+                                             default_memory_pool(), std::move(input)));
+
+  ARROW_ASSIGN_OR_RAISE(std::string_view first_block,
+                        input->Peek(csv_options.read_options.block_size));
+
+  ARROW_ASSIGN_OR_RAISE(
+      std::vector<std::string> column_names,
+      GetOrderedColumnNames(csv_options.read_options, csv_options.parse_options,
+                            first_block, exec_context->memory_pool()));
+  return std::make_shared<CsvInspectedFragment>(std::move(column_names), std::move(input),
+                                                source.Size());
+}
+
+Future<std::shared_ptr<InspectedFragment>> CsvFileFormat::InspectFragment(
+    const FileSource& source, const FragmentScanOptions* format_options,
+    compute::ExecContext* exec_context) const {
+  auto csv_options = static_cast<const CsvFragmentScanOptions*>(format_options);
+  Executor* io_executor;
+  if (source.filesystem()) {
+    io_executor = source.filesystem()->io_context().executor();
+  } else {
+    io_executor = exec_context->executor();
+  }
+  return DeferNotOk(io_executor->Submit([source, csv_options, exec_context]() {
+    return DoInspectFragment(source, *csv_options, exec_context);
+  }));
 }
 
 //
diff --git a/cpp/src/arrow/dataset/file_csv.h b/cpp/src/arrow/dataset/file_csv.h
index 83dbb88b85f..42e3fd72469 100644
--- a/cpp/src/arrow/dataset/file_csv.h
+++ b/cpp/src/arrow/dataset/file_csv.h
@@ -41,9 +41,12 @@ constexpr char kCsvTypeName[] = "csv";
 /// \brief A FileFormat implementation that reads from and writes to Csv files
 class ARROW_DS_EXPORT CsvFileFormat : public FileFormat {
  public:
+  // TODO(ARROW-18328) Remove this, moved to CsvFragmentScanOptions
   /// Options affecting the parsing of CSV files
   csv::ParseOptions parse_options = csv::ParseOptions::Defaults();
 
+  CsvFileFormat();
+
   std::string type_name() const override { return kCsvTypeName; }
 
   bool Equals(const FileFormat& other) const override;
@@ -53,11 +56,20 @@ class ARROW_DS_EXPORT CsvFileFormat : public FileFormat {
   /// \brief Return the schema of the file if possible.
   Result<std::shared_ptr<Schema>> Inspect(const FileSource& source) const override;
 
+  Future<std::shared_ptr<FragmentScanner>> BeginScan(
+      const FragmentScanRequest& request, const InspectedFragment& inspected_fragment,
+      const FragmentScanOptions* format_options,
+      compute::ExecContext* exec_context) const override;
+
   Result<RecordBatchGenerator> ScanBatchesAsync(
       const std::shared_ptr<ScanOptions>& scan_options,
       const std::shared_ptr<FileFragment>& file) const override;
 
-  Future<util::optional<int64_t>> CountRows(
+  Future<std::shared_ptr<InspectedFragment>> InspectFragment(
+      const FileSource& source, const FragmentScanOptions* format_options,
+      compute::ExecContext* exec_context) const override;
+
+  Future<std::optional<int64_t>> CountRows(
       const std::shared_ptr<FileFragment>& file, compute::Expression predicate,
       const std::shared_ptr<ScanOptions>& options) override;
 
@@ -73,6 +85,9 @@ class ARROW_DS_EXPORT CsvFileFormat : public FileFormat {
 struct ARROW_DS_EXPORT CsvFragmentScanOptions : public FragmentScanOptions {
   std::string type_name() const override { return kCsvTypeName; }
 
+  using StreamWrapFunc = std::function<Result<std::shared_ptr<io::InputStream>>(
+      std::shared_ptr<io::InputStream>)>;
+
   /// CSV conversion options
   csv::ConvertOptions convert_options = csv::ConvertOptions::Defaults();
 
@@ -80,6 +95,16 @@ struct ARROW_DS_EXPORT CsvFragmentScanOptions : public FragmentScanOptions {
   ///
   /// Note that use_threads is always ignored.
   csv::ReadOptions read_options = csv::ReadOptions::Defaults();
+
+  /// CSV parse options
+  csv::ParseOptions parse_options = csv::ParseOptions::Defaults();
+
+  /// Optional stream wrapping function
+  ///
+  /// If defined, all open dataset file fragments will be passed
+  /// through this function.  One possible use case is to transparently
+  /// transcode all input files from a given character set to utf8.
+  StreamWrapFunc stream_transform_func{};
 };
 
 class ARROW_DS_EXPORT CsvFileWriteOptions : public FileWriteOptions {
@@ -88,7 +113,8 @@ class ARROW_DS_EXPORT CsvFileWriteOptions : public FileWriteOptions {
   std::shared_ptr<csv::WriteOptions> write_options;
 
  protected:
-  using FileWriteOptions::FileWriteOptions;
+  explicit CsvFileWriteOptions(std::shared_ptr<FileFormat> format)
+      : FileWriteOptions(std::move(format)) {}
 
   friend class CsvFileFormat;
 };
diff --git a/cpp/src/arrow/dataset/file_csv_test.cc b/cpp/src/arrow/dataset/file_csv_test.cc
index 76d2153cf2a..f808e595732 100644
--- a/cpp/src/arrow/dataset/file_csv_test.cc
+++ b/cpp/src/arrow/dataset/file_csv_test.cc
@@ -25,6 +25,7 @@
 #include "arrow/dataset/dataset_internal.h"
 #include "arrow/dataset/file_base.h"
 #include "arrow/dataset/partition.h"
+#include "arrow/dataset/plan.h"
 #include "arrow/dataset/test_util.h"
 #include "arrow/filesystem/mockfs.h"
 #include "arrow/io/compressed.h"
@@ -58,15 +59,27 @@ class CsvFormatHelper {
   }
 };
 
+struct CsvFileFormatParams {
+  Compression::type compression_type;
+  bool use_new_scan_v2;
+};
+
 class TestCsvFileFormat : public FileFormatFixtureMixin<CsvFormatHelper>,
-                          public ::testing::WithParamInterface<Compression::type> {
+                          public ::testing::WithParamInterface<CsvFileFormatParams> {
  public:
-  Compression::type GetCompression() { return GetParam(); }
+  bool UseScanV2() { return GetParam().use_new_scan_v2; }
+  Compression::type GetCompression() { return GetParam().compression_type; }
+
+  void SetUp() {
+    internal::Initialize();
+    auto fragment_scan_options = std::make_shared<CsvFragmentScanOptions>();
+    fragment_scan_options->parse_options.ignore_empty_lines = false;
+    opts_->fragment_scan_options = fragment_scan_options;
+  }
 
   std::unique_ptr<FileSource> GetFileSource(std::string csv) {
     if (GetCompression() == Compression::UNCOMPRESSED) {
-      return ::arrow::internal::make_unique<FileSource>(
-          Buffer::FromString(std::move(csv)));
+      return std::make_unique<FileSource>(Buffer::FromString(std::move(csv)));
     }
     std::string path = "test.csv";
     switch (GetCompression()) {
@@ -94,15 +107,68 @@ class TestCsvFileFormat : public FileFormatFixtureMixin<CsvFormatHelper>,
     ARROW_EXPECT_OK(stream->Write(csv));
     ARROW_EXPECT_OK(stream->Close());
     EXPECT_OK_AND_ASSIGN(auto info, fs->GetFileInfo(path));
-    return ::arrow::internal::make_unique<FileSource>(info, fs, GetCompression());
+    return std::make_unique<FileSource>(info, fs, GetCompression());
+  }
+
+  CsvFragmentScanOptions MakeDefaultFormatOptions() {
+    CsvFragmentScanOptions scan_opts;
+    scan_opts.parse_options.ignore_empty_lines = false;
+    return scan_opts;
+  }
+
+  ScanV2Options MigrateLegacyOptions(std::shared_ptr<Fragment> fragment) {
+    std::shared_ptr<Dataset> dataset = std::make_shared<FragmentDataset>(
+        opts_->dataset_schema, FragmentVector{std::move(fragment)});
+    ScanV2Options updated(std::move(dataset));
+    updated.format_options = opts_->fragment_scan_options.get();
+    updated.filter = opts_->filter;
+    for (const auto& field : opts_->projected_schema->fields()) {
+      auto field_name = field->name();
+      EXPECT_OK_AND_ASSIGN(FieldPath field_path,
+                           FieldRef(field_name).FindOne(*opts_->dataset_schema));
+      updated.columns.push_back(field_path);
+    }
+    return updated;
   }
 
-  RecordBatchIterator Batches(Fragment* fragment) {
-    EXPECT_OK_AND_ASSIGN(auto batch_gen, fragment->ScanBatchesAsync(opts_));
-    return MakeGeneratorIterator(batch_gen);
+  RecordBatchIterator Batches(const std::shared_ptr<Fragment>& fragment) {
+    if (UseScanV2()) {
+      ScanV2Options v2_options = MigrateLegacyOptions(fragment);
+      EXPECT_TRUE(ScanV2Options::AddFieldsNeededForFilter(&v2_options).ok());
+      EXPECT_OK_AND_ASSIGN(std::unique_ptr<RecordBatchReader> reader,
+                           compute::DeclarationToReader(
+                               compute::Declaration("scan2", std::move(v2_options)),
+                               /*use_threads=*/false));
+      struct ReaderIterator {
+        Result<std::shared_ptr<RecordBatch>> Next() { return reader->Next(); }
+        std::unique_ptr<RecordBatchReader> reader;
+      };
+      return RecordBatchIterator(ReaderIterator{std::move(reader)});
+    } else {
+      EXPECT_OK_AND_ASSIGN(auto batch_gen, fragment->ScanBatchesAsync(opts_));
+      return MakeGeneratorIterator(batch_gen);
+    }
   }
 };
 
+TEST_P(TestCsvFileFormat, BOMQuoteInHeader) {
+  // ARROW-17382: quoted headers after a BOM should be parsed correctly
+  auto source = GetFileSource("\xef\xbb\xbf\"ab\",\"cd\"\nef,gh\nij,kl\n");
+  auto fields = {field("ab", utf8()), field("cd", utf8())};
+  SetSchema(fields);
+  auto fragment = MakeFragment(*source);
+
+  int64_t row_count = 0;
+
+  for (auto maybe_batch : Batches(fragment)) {
+    ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
+    AssertSchemaEqual(batch->schema(), schema(fields));
+    row_count += batch->num_rows();
+  }
+
+  ASSERT_EQ(row_count, 2);
+}
+
 // Basic scanning tests (to exercise compression support); see the parameterized test
 // below for more comprehensive testing of scan behaviors
 TEST_P(TestCsvFileFormat, ScanRecordBatchReader) {
@@ -116,7 +182,7 @@ N/A
 
   int64_t row_count = 0;
 
-  for (auto maybe_batch : Batches(fragment.get())) {
+  for (auto maybe_batch : Batches(fragment)) {
     ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
     row_count += batch->num_rows();
   }
@@ -132,13 +198,13 @@ N/A
 bar)");
   SetSchema({field("str", utf8())});
   auto fragment = MakeFragment(*source);
-  auto fragment_scan_options = std::make_shared<CsvFragmentScanOptions>();
+  auto fragment_scan_options =
+      static_cast<CsvFragmentScanOptions*>(opts_->fragment_scan_options.get());
   fragment_scan_options->convert_options.null_values = {"MYNULL"};
   fragment_scan_options->convert_options.strings_can_be_null = true;
-  opts_->fragment_scan_options = fragment_scan_options;
 
   int64_t null_count = 0;
-  for (auto maybe_batch : Batches(fragment.get())) {
+  for (auto maybe_batch : Batches(fragment)) {
     ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
     null_count += batch->GetColumnByName("str")->null_count();
   }
@@ -158,12 +224,13 @@ bar)");
     auto defaults = std::make_shared<CsvFragmentScanOptions>();
     defaults->read_options.skip_rows = 1;
     format_->default_fragment_scan_options = defaults;
+    opts_->fragment_scan_options = nullptr;
     auto fragment = MakeFragment(*source);
     ASSERT_OK_AND_ASSIGN(auto physical_schema, fragment->ReadPhysicalSchema());
     AssertSchemaEqual(opts_->dataset_schema, physical_schema);
 
     int64_t rows = 0;
-    for (auto maybe_batch : Batches(fragment.get())) {
+    for (auto maybe_batch : Batches(fragment)) {
       ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
       rows += batch->GetColumnByName("str")->length();
     }
@@ -172,12 +239,13 @@ bar)");
   {
     SetSchema({field("header_skipped", utf8())});
     // These options completely override the default ones
-    auto fragment_scan_options = std::make_shared<CsvFragmentScanOptions>();
+    opts_->fragment_scan_options = std::make_shared<CsvFragmentScanOptions>();
+    auto fragment_scan_options =
+        static_cast<CsvFragmentScanOptions*>(opts_->fragment_scan_options.get());
     fragment_scan_options->read_options.block_size = 1 << 22;
-    opts_->fragment_scan_options = fragment_scan_options;
     int64_t rows = 0;
     auto fragment = MakeFragment(*source);
-    for (auto maybe_batch : Batches(fragment.get())) {
+    for (auto maybe_batch : Batches(fragment)) {
       ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
       rows += batch->GetColumnByName("header_skipped")->length();
     }
@@ -191,7 +259,7 @@ bar)");
     opts_->fragment_scan_options = nullptr;
     int64_t rows = 0;
     auto fragment = MakeFragment(*source);
-    for (auto maybe_batch : Batches(fragment.get())) {
+    for (auto maybe_batch : Batches(fragment)) {
       ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
       rows += batch->GetColumnByName("custom_header")->length();
     }
@@ -205,11 +273,12 @@ TEST_P(TestCsvFileFormat, CustomReadOptionsColumnNames) {
   auto defaults = std::make_shared<CsvFragmentScanOptions>();
   defaults->read_options.column_names = {"ints_1", "ints_2"};
   format_->default_fragment_scan_options = defaults;
+  opts_->fragment_scan_options = nullptr;
   auto fragment = MakeFragment(*source);
   ASSERT_OK_AND_ASSIGN(auto physical_schema, fragment->ReadPhysicalSchema());
   AssertSchemaEqual(opts_->dataset_schema, physical_schema);
   int64_t rows = 0;
-  for (auto maybe_batch : Batches(fragment.get())) {
+  for (auto maybe_batch : Batches(fragment)) {
     ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
     rows += batch->num_rows();
   }
@@ -218,9 +287,25 @@ TEST_P(TestCsvFileFormat, CustomReadOptionsColumnNames) {
   defaults->read_options.column_names = {"same", "same"};
   format_->default_fragment_scan_options = defaults;
   fragment = MakeFragment(*source);
-  EXPECT_RAISES_WITH_MESSAGE_THAT(
-      Invalid, ::testing::HasSubstr("CSV file contained multiple columns named same"),
-      Batches(fragment.get()).Next());
+  SetSchema({field("same", int64())});
+  if (UseScanV2()) {
+    // V2 scan method's basic evolution strategy builds ds_to_frag_map and just finds
+    // the first instance of a matching column and doesn't check further to see if
+    // there are duplicates.  So in this case it would grab the first column.
+    //
+    // Not clear if this is a good thing or not.
+    rows = 0;
+    for (auto maybe_batch : Batches(fragment)) {
+      ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
+      rows += batch->num_rows();
+    }
+    ASSERT_EQ(rows, 2);
+  } else {
+    // Legacy scan method does not support CSV columns with duplicate names
+    EXPECT_RAISES_WITH_MESSAGE_THAT(
+        Invalid, ::testing::HasSubstr("CSV file contained multiple columns named same"),
+        Batches(fragment).Next());
+  }
 }
 
 TEST_P(TestCsvFileFormat, ScanRecordBatchReaderWithVirtualColumn) {
@@ -238,12 +323,17 @@ N/A
 
   int64_t row_count = 0;
 
-  for (auto maybe_batch : Batches(fragment.get())) {
+  for (auto maybe_batch : Batches(fragment)) {
     ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
-    AssertSchemaEqual(*batch->schema(), *physical_schema);
+    if (UseScanV2()) {
+      // In the new scan, evolution happens and inserts a null column in place of the
+      // virtual column
+      AssertSchemaEqual(*batch->schema(), *opts_->dataset_schema);
+    } else {
+      AssertSchemaEqual(*batch->schema(), *physical_schema);
+    }
     row_count += batch->num_rows();
   }
-
   ASSERT_EQ(row_count, 4);
 }
 
@@ -362,29 +452,46 @@ TEST_P(TestCsvFileFormat, CountRows) { TestCountRows(); }
 TEST_P(TestCsvFileFormat, FragmentEquals) { TestFragmentEquals(); }
 
 INSTANTIATE_TEST_SUITE_P(TestUncompressedCsv, TestCsvFileFormat,
-                         ::testing::Values(Compression::UNCOMPRESSED));
+                         ::testing::Values(CsvFileFormatParams{Compression::UNCOMPRESSED,
+                                                               false}));
+INSTANTIATE_TEST_SUITE_P(TestUncompressedCsvV2, TestCsvFileFormat,
+                         ::testing::Values(CsvFileFormatParams{Compression::UNCOMPRESSED,
+                                                               true}));
 #ifdef ARROW_WITH_BZ2
 INSTANTIATE_TEST_SUITE_P(TestBZ2Csv, TestCsvFileFormat,
-                         ::testing::Values(Compression::BZ2));
+                         ::testing::Values(CsvFileFormatParams{Compression::BZ2, false}));
+INSTANTIATE_TEST_SUITE_P(TestBZ2CsvV2, TestCsvFileFormat,
+                         ::testing::Values(CsvFileFormatParams{Compression::BZ2, true}));
 #endif
 #ifdef ARROW_WITH_LZ4
 INSTANTIATE_TEST_SUITE_P(TestLZ4Csv, TestCsvFileFormat,
-                         ::testing::Values(Compression::LZ4_FRAME));
+                         ::testing::Values(CsvFileFormatParams{Compression::LZ4_FRAME,
+                                                               false}));
+INSTANTIATE_TEST_SUITE_P(TestLZ4CsvV2, TestCsvFileFormat,
+                         ::testing::Values(CsvFileFormatParams{Compression::LZ4_FRAME,
+                                                               true}));
 #endif
 // Snappy does not support streaming compression
 #ifdef ARROW_WITH_ZLIB
-INSTANTIATE_TEST_SUITE_P(TestGZipCsv, TestCsvFileFormat,
-                         ::testing::Values(Compression::GZIP));
+INSTANTIATE_TEST_SUITE_P(TestGzipCsv, TestCsvFileFormat,
+                         ::testing::Values(CsvFileFormatParams{Compression::GZIP,
+                                                               false}));
+INSTANTIATE_TEST_SUITE_P(TestGzipCsvV2, TestCsvFileFormat,
+                         ::testing::Values(CsvFileFormatParams{Compression::GZIP, true}));
 #endif
 #ifdef ARROW_WITH_ZSTD
 INSTANTIATE_TEST_SUITE_P(TestZSTDCsv, TestCsvFileFormat,
-                         ::testing::Values(Compression::ZSTD));
+                         ::testing::Values(CsvFileFormatParams{Compression::ZSTD,
+                                                               false}));
+INSTANTIATE_TEST_SUITE_P(TestZSTDCsvV2, TestCsvFileFormat,
+                         ::testing::Values(CsvFileFormatParams{Compression::ZSTD, true}));
 #endif
 
 class TestCsvFileFormatScan : public FileFormatScanMixin<CsvFormatHelper> {};
 
 TEST_P(TestCsvFileFormatScan, ScanRecordBatchReader) { TestScan(); }
 TEST_P(TestCsvFileFormatScan, ScanBatchSize) { TestScanBatchSize(); }
+TEST_P(TestCsvFileFormatScan, ScanNoReadhead) { TestScanNoReadahead(); }
 TEST_P(TestCsvFileFormatScan, ScanRecordBatchReaderProjected) { TestScanProjected(); }
 // NOTE(ARROW-14658): TestScanProjectedNested is ignored since CSV
 // doesn't have any nested types for us to work with
@@ -405,5 +512,35 @@ INSTANTIATE_TEST_SUITE_P(TestScan, TestCsvFileFormatScan,
                          ::testing::ValuesIn(TestFormatParams::Values()),
                          TestFormatParams::ToTestNameString);
 
+class TestCsvFileFormatScanNode : public FileFormatScanNodeMixin<CsvFormatHelper> {
+  void SetUp() override {
+    internal::Initialize();
+    scan_options_.parse_options.ignore_empty_lines = false;
+  }
+
+  const FragmentScanOptions* GetFormatOptions() override { return &scan_options_; }
+
+ protected:
+  CsvFragmentScanOptions scan_options_;
+};
+
+TEST_P(TestCsvFileFormatScanNode, Scan) { TestScan(); }
+TEST_P(TestCsvFileFormatScanNode, ScanProjected) { TestScanProjected(); }
+TEST_P(TestCsvFileFormatScanNode, ScanMissingFilterField) {
+  TestScanMissingFilterField();
+}
+// NOTE(ARROW-14658): TestScanProjectedNested is ignored since CSV
+// doesn't have any nested types for us to work with
+TEST_P(TestCsvFileFormatScanNode, ScanProjectedMissingColumns) {
+  TestScanProjectedMissingCols();
+}
+TEST_P(TestCsvFileFormatScanNode, ScanWithDuplicateColumn) {
+  TestScanWithDuplicateColumn();
+}
+// NOTE: TestScanWithPushdownNulls is ignored since CSV doesn't handle pushdown filtering
+INSTANTIATE_TEST_SUITE_P(TestScanNode, TestCsvFileFormatScanNode,
+                         ::testing::ValuesIn(TestFormatParams::Values()),
+                         TestFormatParams::ToTestNameString);
+
 }  // namespace dataset
 }  // namespace arrow
diff --git a/cpp/src/arrow/dataset/file_ipc.cc b/cpp/src/arrow/dataset/file_ipc.cc
index 7c45a5d7056..8e19b2bbee2 100644
--- a/cpp/src/arrow/dataset/file_ipc.cc
+++ b/cpp/src/arrow/dataset/file_ipc.cc
@@ -124,6 +124,8 @@ static inline Result<ipc::IpcReadOptions> GetReadOptions(
   return options;
 }
 
+IpcFileFormat::IpcFileFormat() : FileFormat(std::make_shared<IpcFragmentScanOptions>()) {}
+
 Result<bool> IpcFileFormat::IsSupported(const FileSource& source) const {
   RETURN_NOT_OK(source.Open().status());
   return OpenReader(source).ok();
@@ -169,21 +171,24 @@ Result<RecordBatchGenerator> IpcFileFormat::ScanBatchesAsync(
     }
     WRAP_ASYNC_GENERATOR_WITH_CHILD_SPAN(
         generator, "arrow::dataset::IpcFileFormat::ScanBatchesAsync::Next");
+    if (readahead_level == 0) {
+      return MakeChunkedBatchGenerator(std::move(generator), options->batch_size);
+    }
     auto batch_generator = MakeReadaheadGenerator(std::move(generator), readahead_level);
     return MakeChunkedBatchGenerator(std::move(batch_generator), options->batch_size);
   };
   return MakeFromFuture(open_reader.Then(reopen_reader).Then(open_generator));
 }
 
-Future<util::optional<int64_t>> IpcFileFormat::CountRows(
+Future<std::optional<int64_t>> IpcFileFormat::CountRows(
     const std::shared_ptr<FileFragment>& file, compute::Expression predicate,
     const std::shared_ptr<ScanOptions>& options) {
   if (ExpressionHasFieldRefs(predicate)) {
-    return Future<util::optional<int64_t>>::MakeFinished(util::nullopt);
+    return Future<std::optional<int64_t>>::MakeFinished(std::nullopt);
   }
   auto self = checked_pointer_cast<IpcFileFormat>(shared_from_this());
   return DeferNotOk(options->io_context.executor()->Submit(
-      [self, file]() -> Result<util::optional<int64_t>> {
+      [self, file]() -> Result<std::optional<int64_t>> {
         ARROW_ASSIGN_OR_RAISE(auto reader, OpenReader(file->source()));
         return reader->CountRows();
       }));
diff --git a/cpp/src/arrow/dataset/file_ipc.h b/cpp/src/arrow/dataset/file_ipc.h
index 29ce6be61d6..0f7da82a0af 100644
--- a/cpp/src/arrow/dataset/file_ipc.h
+++ b/cpp/src/arrow/dataset/file_ipc.h
@@ -43,6 +43,8 @@ class ARROW_DS_EXPORT IpcFileFormat : public FileFormat {
  public:
   std::string type_name() const override { return kIpcTypeName; }
 
+  IpcFileFormat();
+
   bool Equals(const FileFormat& other) const override {
     return type_name() == other.type_name();
   }
@@ -56,7 +58,7 @@ class ARROW_DS_EXPORT IpcFileFormat : public FileFormat {
       const std::shared_ptr<ScanOptions>& options,
       const std::shared_ptr<FileFragment>& file) const override;
 
-  Future<util::optional<int64_t>> CountRows(
+  Future<std::optional<int64_t>> CountRows(
       const std::shared_ptr<FileFragment>& file, compute::Expression predicate,
       const std::shared_ptr<ScanOptions>& options) override;
 
@@ -90,7 +92,8 @@ class ARROW_DS_EXPORT IpcFileWriteOptions : public FileWriteOptions {
   std::shared_ptr<const KeyValueMetadata> metadata;
 
  protected:
-  using FileWriteOptions::FileWriteOptions;
+  explicit IpcFileWriteOptions(std::shared_ptr<FileFormat> format)
+      : FileWriteOptions(std::move(format)) {}
 
   friend class IpcFileFormat;
 };
diff --git a/cpp/src/arrow/dataset/file_ipc_test.cc b/cpp/src/arrow/dataset/file_ipc_test.cc
index 32930245332..205d3b81238 100644
--- a/cpp/src/arrow/dataset/file_ipc_test.cc
+++ b/cpp/src/arrow/dataset/file_ipc_test.cc
@@ -135,6 +135,7 @@ class TestIpcFileFormatScan : public FileFormatScanMixin<IpcFormatHelper> {};
 
 TEST_P(TestIpcFileFormatScan, ScanRecordBatchReader) { TestScan(); }
 TEST_P(TestIpcFileFormatScan, ScanBatchSize) { TestScanBatchSize(); }
+TEST_P(TestIpcFileFormatScan, ScanNoReadahead) { TestScanNoReadahead(); }
 TEST_P(TestIpcFileFormatScan, ScanRecordBatchReaderProjected) { TestScanProjected(); }
 TEST_P(TestIpcFileFormatScan, ScanRecordBatchReaderProjectedNested) {
   TestScanProjectedNested();
diff --git a/cpp/src/arrow/dataset/file_orc.cc b/cpp/src/arrow/dataset/file_orc.cc
index 49102f3deae..1393df57f9d 100644
--- a/cpp/src/arrow/dataset/file_orc.cc
+++ b/cpp/src/arrow/dataset/file_orc.cc
@@ -142,6 +142,8 @@ class OrcScanTaskIterator {
 
 }  // namespace
 
+OrcFileFormat::OrcFileFormat() : FileFormat(/*default_fragment_scan_options=*/nullptr) {}
+
 Result<bool> OrcFileFormat::IsSupported(const FileSource& source) const {
   RETURN_NOT_OK(source.Open().status());
   return OpenORCReader(source).ok();
@@ -196,15 +198,15 @@ Result<RecordBatchGenerator> OrcFileFormat::ScanBatchesAsync(
   return iter_to_gen;
 }
 
-Future<util::optional<int64_t>> OrcFileFormat::CountRows(
+Future<std::optional<int64_t>> OrcFileFormat::CountRows(
     const std::shared_ptr<FileFragment>& file, compute::Expression predicate,
     const std::shared_ptr<ScanOptions>& options) {
   if (ExpressionHasFieldRefs(predicate)) {
-    return Future<util::optional<int64_t>>::MakeFinished(util::nullopt);
+    return Future<std::optional<int64_t>>::MakeFinished(std::nullopt);
   }
   auto self = checked_pointer_cast<OrcFileFormat>(shared_from_this());
   return DeferNotOk(options->io_context.executor()->Submit(
-      [self, file]() -> Result<util::optional<int64_t>> {
+      [self, file]() -> Result<std::optional<int64_t>> {
         ARROW_ASSIGN_OR_RAISE(auto reader, OpenORCReader(file->source()));
         return reader->NumberOfRows();
       }));
diff --git a/cpp/src/arrow/dataset/file_orc.h b/cpp/src/arrow/dataset/file_orc.h
index 5bbe4df24ad..5bfefd1e02b 100644
--- a/cpp/src/arrow/dataset/file_orc.h
+++ b/cpp/src/arrow/dataset/file_orc.h
@@ -40,6 +40,8 @@ constexpr char kOrcTypeName[] = "orc";
 /// \brief A FileFormat implementation that reads from and writes to ORC files
 class ARROW_DS_EXPORT OrcFileFormat : public FileFormat {
  public:
+  OrcFileFormat();
+
   std::string type_name() const override { return kOrcTypeName; }
 
   bool Equals(const FileFormat& other) const override {
@@ -55,7 +57,7 @@ class ARROW_DS_EXPORT OrcFileFormat : public FileFormat {
       const std::shared_ptr<ScanOptions>& options,
       const std::shared_ptr<FileFragment>& file) const override;
 
-  Future<util::optional<int64_t>> CountRows(
+  Future<std::optional<int64_t>> CountRows(
       const std::shared_ptr<FileFragment>& file, compute::Expression predicate,
       const std::shared_ptr<ScanOptions>& options) override;
 
diff --git a/cpp/src/arrow/dataset/file_orc_test.cc b/cpp/src/arrow/dataset/file_orc_test.cc
index 588878ce799..ddda76b1973 100644
--- a/cpp/src/arrow/dataset/file_orc_test.cc
+++ b/cpp/src/arrow/dataset/file_orc_test.cc
@@ -70,6 +70,7 @@ class TestOrcFileFormatScan : public FileFormatScanMixin<OrcFormatHelper> {};
 
 TEST_P(TestOrcFileFormatScan, ScanRecordBatchReader) { TestScan(); }
 TEST_P(TestOrcFileFormatScan, ScanBatchSize) { TestScanBatchSize(); }
+TEST_P(TestOrcFileFormatScan, ScanNoReadahead) { TestScanNoReadahead(); }
 TEST_P(TestOrcFileFormatScan, ScanRecordBatchReaderProjected) { TestScanProjected(); }
 TEST_P(TestOrcFileFormatScan, ScanRecordBatchReaderProjectedNested) {
   TestScanProjectedNested();
diff --git a/cpp/src/arrow/dataset/file_parquet.cc b/cpp/src/arrow/dataset/file_parquet.cc
index 0d95e18171b..3c27bd2b00e 100644
--- a/cpp/src/arrow/dataset/file_parquet.cc
+++ b/cpp/src/arrow/dataset/file_parquet.cc
@@ -98,7 +98,7 @@ Result<std::shared_ptr<SchemaManifest>> GetSchemaManifest(
   return manifest;
 }
 
-util::optional<compute::Expression> ColumnChunkStatisticsAsExpression(
+std::optional<compute::Expression> ColumnChunkStatisticsAsExpression(
     const SchemaField& schema_field, const parquet::RowGroupMetaData& metadata) {
   // For the remaining of this function, failure to extract/parse statistics
   // are ignored by returning nullptr. The goal is two fold. First
@@ -107,13 +107,13 @@ util::optional<compute::Expression> ColumnChunkStatisticsAsExpression(
 
   // For now, only leaf (primitive) types are supported.
   if (!schema_field.is_leaf()) {
-    return util::nullopt;
+    return std::nullopt;
   }
 
   auto column_metadata = metadata.ColumnChunk(schema_field.column_index);
   auto statistics = column_metadata->statistics();
   if (statistics == nullptr) {
-    return util::nullopt;
+    return std::nullopt;
   }
 
   const auto& field = schema_field.field;
@@ -126,7 +126,7 @@ util::optional<compute::Expression> ColumnChunkStatisticsAsExpression(
 
   std::shared_ptr<Scalar> min, max;
   if (!StatisticsAsScalars(*statistics, &min, &max).ok()) {
-    return util::nullopt;
+    return std::nullopt;
   }
 
   auto maybe_min = min->CastTo(field->type());
@@ -155,7 +155,7 @@ util::optional<compute::Expression> ColumnChunkStatisticsAsExpression(
     return in_range;
   }
 
-  return util::nullopt;
+  return std::nullopt;
 }
 
 void AddColumnIndices(const SchemaField& schema_field,
@@ -306,6 +306,9 @@ Result<bool> IsSupportedParquetFile(const ParquetFileFormat& format,
 
 }  // namespace
 
+ParquetFileFormat::ParquetFileFormat()
+    : FileFormat(std::make_shared<ParquetFragmentScanOptions>()) {}
+
 bool ParquetFileFormat::Equals(const FileFormat& other) const {
   if (other.type_name() != type_name()) return false;
 
@@ -318,10 +321,11 @@ bool ParquetFileFormat::Equals(const FileFormat& other) const {
               other_reader_options.coerce_int96_timestamp_unit);
 }
 
-ParquetFileFormat::ParquetFileFormat(const parquet::ReaderProperties& reader_properties) {
-  auto parquet_scan_options = std::make_shared<ParquetFragmentScanOptions>();
-  *parquet_scan_options->reader_properties = reader_properties;
-  default_fragment_scan_options = std::move(parquet_scan_options);
+ParquetFileFormat::ParquetFileFormat(const parquet::ReaderProperties& reader_properties)
+    : FileFormat(std::make_shared<ParquetFragmentScanOptions>()) {
+  auto* default_scan_opts =
+      static_cast<ParquetFragmentScanOptions*>(default_fragment_scan_options.get());
+  *default_scan_opts->reader_properties = reader_properties;
 }
 
 Result<bool> ParquetFileFormat::IsSupported(const FileSource& source) const {
@@ -445,10 +449,10 @@ Result<RecordBatchGenerator> ParquetFileFormat::ScanBatchesAsync(
     pre_filtered = true;
     if (row_groups.empty()) return MakeEmptyGenerator<std::shared_ptr<RecordBatch>>();
   }
-  int64_t batch_size = options->batch_size;
   // Open the reader and pay the real IO cost.
   auto make_generator =
-      [=](const std::shared_ptr<parquet::arrow::FileReader>& reader) mutable
+      [this, options, parquet_fragment, pre_filtered,
+       row_groups](const std::shared_ptr<parquet::arrow::FileReader>& reader) mutable
       -> Result<RecordBatchGenerator> {
     // Ensure that parquet_fragment has FileMetaData
     RETURN_NOT_OK(parquet_fragment->EnsureCompleteMetadata(reader.get()));
@@ -465,12 +469,16 @@ Result<RecordBatchGenerator> ParquetFileFormat::ScanBatchesAsync(
         GetFragmentScanOptions<ParquetFragmentScanOptions>(
             kParquetTypeName, options.get(), default_fragment_scan_options));
     int batch_readahead = options->batch_readahead;
-    int64_t rows_to_readahead = batch_readahead * batch_size;
+    int64_t rows_to_readahead = batch_readahead * options->batch_size;
     ARROW_ASSIGN_OR_RAISE(auto generator,
                           reader->GetRecordBatchGenerator(
                               reader, row_groups, column_projection,
                               ::arrow::internal::GetCpuThreadPool(), rows_to_readahead));
-    RecordBatchGenerator sliced = SlicingGenerator(std::move(generator), batch_size);
+    RecordBatchGenerator sliced =
+        SlicingGenerator(std::move(generator), options->batch_size);
+    if (batch_readahead == 0) {
+      return sliced;
+    }
     RecordBatchGenerator sliced_readahead =
         MakeSerialReadaheadGenerator(std::move(sliced), batch_readahead);
     return sliced_readahead;
@@ -482,17 +490,17 @@ Result<RecordBatchGenerator> ParquetFileFormat::ScanBatchesAsync(
   return generator;
 }
 
-Future<util::optional<int64_t>> ParquetFileFormat::CountRows(
+Future<std::optional<int64_t>> ParquetFileFormat::CountRows(
     const std::shared_ptr<FileFragment>& file, compute::Expression predicate,
     const std::shared_ptr<ScanOptions>& options) {
   auto parquet_file = checked_pointer_cast<ParquetFileFragment>(file);
   if (parquet_file->metadata()) {
     ARROW_ASSIGN_OR_RAISE(auto maybe_count,
                           parquet_file->TryCountRows(std::move(predicate)));
-    return Future<util::optional<int64_t>>::MakeFinished(maybe_count);
+    return Future<std::optional<int64_t>>::MakeFinished(maybe_count);
   } else {
     return DeferNotOk(options->io_context.executor()->Submit(
-        [parquet_file, predicate]() -> Result<util::optional<int64_t>> {
+        [parquet_file, predicate]() -> Result<std::optional<int64_t>> {
           RETURN_NOT_OK(parquet_file->EnsureCompleteMetadata());
           return parquet_file->TryCountRows(predicate);
         }));
@@ -512,7 +520,7 @@ Result<std::shared_ptr<FileFragment>> ParquetFileFormat::MakeFragment(
     std::shared_ptr<Schema> physical_schema) {
   return std::shared_ptr<FileFragment>(new ParquetFileFragment(
       std::move(source), shared_from_this(), std::move(partition_expression),
-      std::move(physical_schema), util::nullopt));
+      std::move(physical_schema), std::nullopt));
 }
 
 //
@@ -538,9 +546,10 @@ Result<std::shared_ptr<FileWriter>> ParquetFileFormat::MakeWriter(
   auto parquet_options = checked_pointer_cast<ParquetFileWriteOptions>(options);
 
   std::unique_ptr<parquet::arrow::FileWriter> parquet_writer;
-  RETURN_NOT_OK(parquet::arrow::FileWriter::Open(
-      *schema, default_memory_pool(), destination, parquet_options->writer_properties,
-      parquet_options->arrow_writer_properties, &parquet_writer));
+  ARROW_ASSIGN_OR_RAISE(parquet_writer, parquet::arrow::FileWriter::Open(
+                                            *schema, default_memory_pool(), destination,
+                                            parquet_options->writer_properties,
+                                            parquet_options->arrow_writer_properties));
 
   return std::shared_ptr<FileWriter>(
       new ParquetFileWriter(std::move(destination), std::move(parquet_writer),
@@ -573,7 +582,7 @@ ParquetFileFragment::ParquetFileFragment(FileSource source,
                                          std::shared_ptr<FileFormat> format,
                                          compute::Expression partition_expression,
                                          std::shared_ptr<Schema> physical_schema,
-                                         util::optional<std::vector<int>> row_groups)
+                                         std::optional<std::vector<int>> row_groups)
     : FileFragment(std::move(source), std::move(format), std::move(partition_expression),
                    std::move(physical_schema)),
       parquet_format_(checked_cast<ParquetFileFormat&>(*format_)),
@@ -738,26 +747,17 @@ Result<std::vector<compute::Expression>> ParquetFileFragment::TestRowGroups(
   return row_groups;
 }
 
-Result<util::optional<int64_t>> ParquetFileFragment::TryCountRows(
+Result<std::optional<int64_t>> ParquetFileFragment::TryCountRows(
     compute::Expression predicate) {
   DCHECK_NE(metadata_, nullptr);
   if (ExpressionHasFieldRefs(predicate)) {
-#if defined(__GNUC__) && (__GNUC__ < 5)
-    // ARROW-12694: with GCC 4.9 (RTools 35) we sometimes segfault here if we move(result)
-    auto result = TestRowGroups(std::move(predicate));
-    if (!result.ok()) {
-      return result.status();
-    }
-    auto expressions = result.ValueUnsafe();
-#else
     ARROW_ASSIGN_OR_RAISE(auto expressions, TestRowGroups(std::move(predicate)));
-#endif
     int64_t rows = 0;
     for (size_t i = 0; i < row_groups_->size(); i++) {
       // If the row group is entirely excluded, exclude it from the row count
       if (!expressions[i].IsSatisfiable()) continue;
       // Unless the row group is entirely included, bail out of fast path
-      if (expressions[i] != compute::literal(true)) return util::nullopt;
+      if (expressions[i] != compute::literal(true)) return std::nullopt;
       BEGIN_PARQUET_CATCH_EXCEPTIONS
       rows += metadata()->RowGroup((*row_groups_)[i])->num_rows();
       END_PARQUET_CATCH_EXCEPTIONS
diff --git a/cpp/src/arrow/dataset/file_parquet.h b/cpp/src/arrow/dataset/file_parquet.h
index 6f2f5420681..1087fb9f9de 100644
--- a/cpp/src/arrow/dataset/file_parquet.h
+++ b/cpp/src/arrow/dataset/file_parquet.h
@@ -20,6 +20,7 @@
 #pragma once
 
 #include <memory>
+#include <optional>
 #include <string>
 #include <unordered_set>
 #include <utility>
@@ -30,7 +31,6 @@
 #include "arrow/dataset/type_fwd.h"
 #include "arrow/dataset/visibility.h"
 #include "arrow/io/caching.h"
-#include "arrow/util/optional.h"
 
 namespace parquet {
 class ParquetFileReader;
@@ -66,7 +66,7 @@ constexpr char kParquetTypeName[] = "parquet";
 /// \brief A FileFormat implementation that reads from Parquet files
 class ARROW_DS_EXPORT ParquetFileFormat : public FileFormat {
  public:
-  ParquetFileFormat() = default;
+  ParquetFileFormat();
 
   /// Convenience constructor which copies properties from a parquet::ReaderProperties.
   /// memory_pool will be ignored.
@@ -99,7 +99,7 @@ class ARROW_DS_EXPORT ParquetFileFormat : public FileFormat {
       const std::shared_ptr<ScanOptions>& options,
       const std::shared_ptr<FileFragment>& file) const override;
 
-  Future<util::optional<int64_t>> CountRows(
+  Future<std::optional<int64_t>> CountRows(
       const std::shared_ptr<FileFragment>& file, compute::Expression predicate,
       const std::shared_ptr<ScanOptions>& options) override;
 
@@ -167,7 +167,7 @@ class ARROW_DS_EXPORT ParquetFileFragment : public FileFragment {
   ParquetFileFragment(FileSource source, std::shared_ptr<FileFormat> format,
                       compute::Expression partition_expression,
                       std::shared_ptr<Schema> physical_schema,
-                      util::optional<std::vector<int>> row_groups);
+                      std::optional<std::vector<int>> row_groups);
 
   Status SetMetadata(std::shared_ptr<parquet::FileMetaData> metadata,
                      std::shared_ptr<parquet::arrow::SchemaManifest> manifest);
@@ -185,13 +185,13 @@ class ARROW_DS_EXPORT ParquetFileFragment : public FileFragment {
   /// Try to count rows matching the predicate using metadata. Expects
   /// metadata to be present, and expects the predicate to have been
   /// simplified against the partition expression already.
-  Result<util::optional<int64_t>> TryCountRows(compute::Expression predicate);
+  Result<std::optional<int64_t>> TryCountRows(compute::Expression predicate);
 
   ParquetFileFormat& parquet_format_;
 
   /// Indices of row groups selected by this fragment,
-  /// or util::nullopt if all row groups are selected.
-  util::optional<std::vector<int>> row_groups_;
+  /// or std::nullopt if all row groups are selected.
+  std::optional<std::vector<int>> row_groups_;
 
   std::vector<compute::Expression> statistics_expressions_;
   std::vector<bool> statistics_expressions_complete_;
@@ -226,7 +226,8 @@ class ARROW_DS_EXPORT ParquetFileWriteOptions : public FileWriteOptions {
   std::shared_ptr<parquet::ArrowWriterProperties> arrow_writer_properties;
 
  protected:
-  using FileWriteOptions::FileWriteOptions;
+  explicit ParquetFileWriteOptions(std::shared_ptr<FileFormat> format)
+      : FileWriteOptions(std::move(format)) {}
 
   friend class ParquetFileFormat;
 };
diff --git a/cpp/src/arrow/dataset/file_parquet_test.cc b/cpp/src/arrow/dataset/file_parquet_test.cc
index de048855cf2..ed495366ace 100644
--- a/cpp/src/arrow/dataset/file_parquet_test.cc
+++ b/cpp/src/arrow/dataset/file_parquet_test.cc
@@ -112,8 +112,9 @@ class ParquetFormatHelper {
       const std::shared_ptr<ArrowWriterProperties>& arrow_properties =
           default_arrow_writer_properties()) {
     std::unique_ptr<parquet::arrow::FileWriter> writer;
-    RETURN_NOT_OK(parquet::arrow::FileWriter::Open(
-        *reader->schema(), pool, sink, properties, arrow_properties, &writer));
+    ARROW_ASSIGN_OR_RAISE(writer,
+                          parquet::arrow::FileWriter::Open(*reader->schema(), pool, sink,
+                                                           properties, arrow_properties));
     RETURN_NOT_OK(WriteRecordBatchReader(reader, writer.get()));
     return writer->Close();
   }
@@ -231,7 +232,7 @@ TEST_F(TestParquetFileFormat, CountRowsPredicatePushdown) {
 
   auto fragment = MakeFragment(*source);
 
-  ASSERT_FINISHES_OK_AND_EQ(util::make_optional<int64_t>(kTotalNumRows),
+  ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(kTotalNumRows),
                             fragment->CountRows(literal(true), options));
 
   for (int i = 1; i <= kNumRowGroups; i++) {
@@ -240,18 +241,18 @@ TEST_F(TestParquetFileFormat, CountRowsPredicatePushdown) {
     auto predicate = less_equal(field_ref("i64"), literal(i));
     ASSERT_OK_AND_ASSIGN(predicate, predicate.Bind(*reader->schema()));
     auto expected = i * (i + 1) / 2;
-    ASSERT_FINISHES_OK_AND_EQ(util::make_optional<int64_t>(expected),
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(expected),
                               fragment->CountRows(predicate, options));
 
     predicate = and_(less_equal(field_ref("i64"), literal(i)),
                      greater_equal(field_ref("i64"), literal(i)));
     ASSERT_OK_AND_ASSIGN(predicate, predicate.Bind(*reader->schema()));
-    ASSERT_FINISHES_OK_AND_EQ(util::make_optional<int64_t>(i),
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(i),
                               fragment->CountRows(predicate, options));
 
     predicate = equal(field_ref("i64"), literal(i));
     ASSERT_OK_AND_ASSIGN(predicate, predicate.Bind(*reader->schema()));
-    ASSERT_FINISHES_OK_AND_EQ(util::make_optional<int64_t>(i),
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(i),
                               fragment->CountRows(predicate, options));
   }
 
@@ -278,15 +279,15 @@ TEST_F(TestParquetFileFormat, CountRowsPredicatePushdown) {
     ASSERT_OK_AND_ASSIGN(
         auto predicate,
         greater_equal(field_ref("i64"), literal(1)).Bind(*dataset_schema));
-    ASSERT_FINISHES_OK_AND_EQ(util::make_optional<int64_t>(4),
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(4),
                               fragment->CountRows(predicate, options));
 
     ASSERT_OK_AND_ASSIGN(predicate, is_null(field_ref("i64")).Bind(*dataset_schema));
-    ASSERT_FINISHES_OK_AND_EQ(util::make_optional<int64_t>(3),
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(3),
                               fragment->CountRows(predicate, options));
 
     ASSERT_OK_AND_ASSIGN(predicate, is_valid(field_ref("i64")).Bind(*dataset_schema));
-    ASSERT_FINISHES_OK_AND_EQ(util::make_optional<int64_t>(4),
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(4),
                               fragment->CountRows(predicate, options));
   }
 }
@@ -388,6 +389,7 @@ class TestParquetFileFormatScan : public FileFormatScanMixin<ParquetFormatHelper
 
 TEST_P(TestParquetFileFormatScan, ScanRecordBatchReader) { TestScan(); }
 TEST_P(TestParquetFileFormatScan, ScanBatchSize) { TestScanBatchSize(); }
+TEST_P(TestParquetFileFormatScan, ScanNoReadahead) { TestScanNoReadahead(); }
 TEST_P(TestParquetFileFormatScan, ScanRecordBatchReaderProjected) { TestScanProjected(); }
 TEST_P(TestParquetFileFormatScan, ScanRecordBatchReaderProjectedNested) {
   // TODO(ARROW-1888): enable fine-grained column projection.
diff --git a/cpp/src/arrow/dataset/file_test.cc b/cpp/src/arrow/dataset/file_test.cc
index 4dfc6bc584d..4c00c95661d 100644
--- a/cpp/src/arrow/dataset/file_test.cc
+++ b/cpp/src/arrow/dataset/file_test.cc
@@ -94,6 +94,8 @@ constexpr int kNumBatches = 4;
 constexpr int kRowsPerBatch = 1024;
 class MockFileFormat : public FileFormat {
  public:
+  MockFileFormat() : FileFormat(/*default_fragment_scan_options=*/nullptr) {}
+
   Result<RecordBatchGenerator> ScanBatchesAsync(
       const std::shared_ptr<ScanOptions>& options,
       const std::shared_ptr<FileFragment>& file) const override {
@@ -351,7 +353,7 @@ TEST_F(TestFileSystemDataset, WriteProjected) {
 class FileSystemWriteTest : public testing::TestWithParam<std::tuple<bool, bool>> {
   using PlanFactory = std::function<std::vector<cp::Declaration>(
       const FileSystemDatasetWriteOptions&,
-      std::function<Future<util::optional<cp::ExecBatch>>()>*)>;
+      std::function<Future<std::optional<cp::ExecBatch>>()>*)>;
 
  protected:
   bool IsParallel() { return std::get<0>(GetParam()); }
@@ -379,7 +381,7 @@ class FileSystemWriteTest : public testing::TestWithParam<std::tuple<bool, bool>
                               "[[5, null], [6, false], [7, false]]")};
     source_data.schema = schema({field("i32", int32()), field("bool", boolean())});
 
-    AsyncGenerator<util::optional<cp::ExecBatch>> sink_gen;
+    AsyncGenerator<std::optional<cp::ExecBatch>> sink_gen;
 
     ASSERT_OK_AND_ASSIGN(auto plan, cp::ExecPlan::Make());
     auto source_decl = cp::Declaration::Sequence(
@@ -392,7 +394,8 @@ class FileSystemWriteTest : public testing::TestWithParam<std::tuple<bool, bool>
     if (has_output) {
       ASSERT_FINISHES_OK_AND_ASSIGN(auto out_batches,
                                     cp::StartAndCollect(plan.get(), sink_gen));
-      cp::AssertExecBatchesEqual(source_data.schema, source_data.batches, out_batches);
+      cp::AssertExecBatchesEqualIgnoringOrder(source_data.schema, source_data.batches,
+                                              out_batches);
     } else {
       ASSERT_FINISHES_OK(cp::StartAndFinish(plan.get()));
     }
@@ -415,14 +418,15 @@ class FileSystemWriteTest : public testing::TestWithParam<std::tuple<bool, bool>
 
     ASSERT_FINISHES_OK_AND_ASSIGN(auto written_batches,
                                   cp::StartAndCollect(plan.get(), sink_gen));
-    cp::AssertExecBatchesEqual(source_data.schema, source_data.batches, written_batches);
+    cp::AssertExecBatchesEqualIgnoringOrder(source_data.schema, source_data.batches,
+                                            written_batches);
   }
 };
 
 TEST_P(FileSystemWriteTest, Write) {
   auto plan_factory =
       [](const FileSystemDatasetWriteOptions& write_options,
-         std::function<Future<util::optional<cp::ExecBatch>>()>* sink_gen) {
+         std::function<Future<std::optional<cp::ExecBatch>>()>* sink_gen) {
         return std::vector<cp::Declaration>{{"write", WriteNodeOptions{write_options}}};
       };
   TestDatasetWriteRoundTrip(plan_factory, /*has_output=*/false);
@@ -431,7 +435,7 @@ TEST_P(FileSystemWriteTest, Write) {
 TEST_P(FileSystemWriteTest, TeeWrite) {
   auto plan_factory =
       [](const FileSystemDatasetWriteOptions& write_options,
-         std::function<Future<util::optional<cp::ExecBatch>>()>* sink_gen) {
+         std::function<Future<std::optional<cp::ExecBatch>>()>* sink_gen) {
         return std::vector<cp::Declaration>{
             {"tee", WriteNodeOptions{write_options}},
             {"sink", cp::SinkNodeOptions{sink_gen}},
diff --git a/cpp/src/arrow/dataset/partition.cc b/cpp/src/arrow/dataset/partition.cc
index 26abc10e6b8..46cdf9023ce 100644
--- a/cpp/src/arrow/dataset/partition.cc
+++ b/cpp/src/arrow/dataset/partition.cc
@@ -19,6 +19,7 @@
 
 #include <algorithm>
 #include <memory>
+#include <string_view>
 #include <utility>
 #include <vector>
 
@@ -36,8 +37,6 @@
 #include "arrow/scalar.h"
 #include "arrow/util/int_util_overflow.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/uri.h"
 #include "arrow/util/utf8.h"
 
@@ -45,7 +44,7 @@ namespace arrow {
 
 using internal::checked_cast;
 using internal::checked_pointer_cast;
-using util::string_view;
+using std::string_view;
 
 using internal::DictionaryMemoTable;
 
@@ -53,7 +52,7 @@ namespace dataset {
 
 namespace {
 /// Apply UriUnescape, then ensure the results are valid UTF-8.
-Result<std::string> SafeUriUnescape(util::string_view encoded) {
+Result<std::string> SafeUriUnescape(std::string_view encoded) {
   auto decoded = ::arrow::internal::UriUnescape(encoded);
   if (!util::ValidateUTF8(decoded)) {
     return Status::Invalid("Partition segment was not valid UTF-8 after URL decoding: ",
@@ -330,12 +329,12 @@ Result<PartitionPathFormat> KeyValuePartitioning::Format(
   return FormatValues(values);
 }
 
-inline util::optional<int> NextValid(const ScalarVector& values, int first_null) {
+inline std::optional<int> NextValid(const ScalarVector& values, int first_null) {
   auto it = std::find_if(values.begin() + first_null + 1, values.end(),
                          [](const std::shared_ptr<Scalar>& v) { return v != nullptr; });
 
   if (it == values.end()) {
-    return util::nullopt;
+    return std::nullopt;
   }
 
   return static_cast<int>(it - values.begin());
@@ -473,7 +472,7 @@ class KeyValuePartitioningFactory : public PartitioningFactory {
     return it_inserted.first->second;
   }
 
-  Status InsertRepr(const std::string& name, util::optional<string_view> repr) {
+  Status InsertRepr(const std::string& name, std::optional<string_view> repr) {
     auto field_index = GetOrInsertField(name);
     if (repr.has_value()) {
       return InsertRepr(field_index, *repr);
@@ -482,7 +481,7 @@ class KeyValuePartitioningFactory : public PartitioningFactory {
     }
   }
 
-  Status InsertRepr(int index, util::string_view repr) {
+  Status InsertRepr(int index, std::string_view repr) {
     int dummy;
     return repr_memos_[index]->GetOrInsert<StringType>(repr, &dummy);
   }
@@ -562,8 +561,7 @@ class KeyValuePartitioningFactory : public PartitioningFactory {
   }
 
   std::unique_ptr<DictionaryMemoTable> MakeMemo() {
-    return ::arrow::internal::make_unique<DictionaryMemoTable>(default_memory_pool(),
-                                                               utf8());
+    return std::make_unique<DictionaryMemoTable>(default_memory_pool(), utf8());
   }
 
   Status InspectPartitionSegments(std::vector<std::string> segments,
@@ -698,14 +696,12 @@ class FilenamePartitioningFactory : public KeyValuePartitioningFactory {
 
 std::shared_ptr<PartitioningFactory> DirectoryPartitioning::MakeFactory(
     std::vector<std::string> field_names, PartitioningFactoryOptions options) {
-  return std::shared_ptr<PartitioningFactory>(
-      new DirectoryPartitioningFactory(std::move(field_names), options));
+  return std::make_shared<DirectoryPartitioningFactory>(std::move(field_names), options);
 }
 
 std::shared_ptr<PartitioningFactory> FilenamePartitioning::MakeFactory(
     std::vector<std::string> field_names, PartitioningFactoryOptions options) {
-  return std::shared_ptr<PartitioningFactory>(
-      new FilenamePartitioningFactory(std::move(field_names), options));
+  return std::make_shared<FilenamePartitioningFactory>(std::move(field_names), options);
 }
 
 bool FilenamePartitioning::Equals(const Partitioning& other) const {
@@ -715,12 +711,12 @@ bool FilenamePartitioning::Equals(const Partitioning& other) const {
   return KeyValuePartitioning::Equals(other);
 }
 
-Result<util::optional<KeyValuePartitioning::Key>> HivePartitioning::ParseKey(
+Result<std::optional<KeyValuePartitioning::Key>> HivePartitioning::ParseKey(
     const std::string& segment, const HivePartitioningOptions& options) {
   auto name_end = string_view(segment).find_first_of('=');
   // Not round-trippable
   if (name_end == string_view::npos) {
-    return util::nullopt;
+    return std::nullopt;
   }
 
   // Static method, so we have no better place for it
@@ -738,9 +734,9 @@ Result<util::optional<KeyValuePartitioning::Key>> HivePartitioning::ParseKey(
       break;
     }
     case SegmentEncoding::Uri: {
-      auto raw_value = util::string_view(segment).substr(name_end + 1);
+      auto raw_value = std::string_view(segment).substr(name_end + 1);
       ARROW_ASSIGN_OR_RAISE(value, SafeUriUnescape(raw_value));
-      auto raw_key = util::string_view(segment).substr(0, name_end);
+      auto raw_key = std::string_view(segment).substr(0, name_end);
       ARROW_ASSIGN_OR_RAISE(name, SafeUriUnescape(raw_key));
       break;
     }
@@ -750,7 +746,7 @@ Result<util::optional<KeyValuePartitioning::Key>> HivePartitioning::ParseKey(
   }
 
   if (value == options.null_fallback) {
-    return Key{std::move(name), util::nullopt};
+    return Key{std::move(name), std::nullopt};
   }
   return Key{std::move(name), std::move(value)};
 }
@@ -784,7 +780,7 @@ Result<PartitionPathFormat> HivePartitioning::FormatValues(
       // field_index <-> path nesting relation
       segments[i] = name + "=" + hive_options_.null_fallback;
     } else {
-      segments[i] = name + "=" + values[i]->ToString();
+      segments[i] = name + "=" + arrow::internal::UriEscape(values[i]->ToString());
     }
   }
 
@@ -853,7 +849,7 @@ class HivePartitioningFactory : public KeyValuePartitioningFactory {
 
 std::shared_ptr<PartitioningFactory> HivePartitioning::MakeFactory(
     HivePartitioningFactoryOptions options) {
-  return std::shared_ptr<PartitioningFactory>(new HivePartitioningFactory(options));
+  return std::make_shared<HivePartitioningFactory>(options);
 }
 
 std::string StripPrefix(const std::string& path, const std::string& prefix) {
diff --git a/cpp/src/arrow/dataset/partition.h b/cpp/src/arrow/dataset/partition.h
index 2d8c8bb2746..faee0c676e2 100644
--- a/cpp/src/arrow/dataset/partition.h
+++ b/cpp/src/arrow/dataset/partition.h
@@ -22,6 +22,7 @@
 #include <functional>
 #include <iosfwd>
 #include <memory>
+#include <optional>
 #include <string>
 #include <unordered_map>
 #include <utility>
@@ -31,7 +32,6 @@
 #include "arrow/dataset/type_fwd.h"
 #include "arrow/dataset/visibility.h"
 #include "arrow/util/compare.h"
-#include "arrow/util/optional.h"
 
 namespace arrow {
 
@@ -174,7 +174,7 @@ class ARROW_DS_EXPORT KeyValuePartitioning : public Partitioning {
   /// of a scalar value
   struct Key {
     std::string name;
-    util::optional<std::string> value;
+    std::optional<std::string> value;
   };
 
   Result<PartitionedBatches> Partition(
@@ -289,8 +289,8 @@ class ARROW_DS_EXPORT HivePartitioning : public KeyValuePartitioning {
   std::string null_fallback() const { return hive_options_.null_fallback; }
   const HivePartitioningOptions& options() const { return hive_options_; }
 
-  static Result<util::optional<Key>> ParseKey(const std::string& segment,
-                                              const HivePartitioningOptions& options);
+  static Result<std::optional<Key>> ParseKey(const std::string& segment,
+                                             const HivePartitioningOptions& options);
 
   bool Equals(const Partitioning& other) const override;
 
diff --git a/cpp/src/arrow/dataset/partition_test.cc b/cpp/src/arrow/dataset/partition_test.cc
index 66a22a2db35..69402816f30 100644
--- a/cpp/src/arrow/dataset/partition_test.cc
+++ b/cpp/src/arrow/dataset/partition_test.cc
@@ -28,12 +28,15 @@
 
 #include "arrow/compute/api_scalar.h"
 #include "arrow/compute/api_vector.h"
+#include "arrow/dataset/dataset.h"
+#include "arrow/dataset/file_ipc.h"
 #include "arrow/dataset/test_util.h"
 #include "arrow/filesystem/path_util.h"
 #include "arrow/status.h"
 #include "arrow/testing/builder.h"
 #include "arrow/testing/gtest_util.h"
 #include "arrow/util/range.h"
+#include "arrow/util/uri.h"
 
 namespace arrow {
 
@@ -862,6 +865,62 @@ TEST_F(TestPartitioning, UrlEncodedHiveWithKeyEncoded) {
       partitioning_->Parse("/%AF=2021-05-04/%BF=2021-05-04 07%3A27%3A00/str=%24/"));
 }
 
+TEST_F(TestPartitioning, WriteHiveWithSlashesInValues) {
+  // ARROW-18269: partition values should be URI-encoded when writing a Hive-like dataset
+  fs::TimePoint mock_now = std::chrono::system_clock::now();
+  ASSERT_OK_AND_ASSIGN(std::shared_ptr<fs::FileSystem> filesystem,
+                       fs::internal::MockFileSystem::Make(mock_now, {}));
+  auto base_path = "";
+  ASSERT_OK(filesystem->CreateDir(base_path));
+  // Create an Arrow Table
+  auto schema = arrow::schema(
+      {arrow::field("a", arrow::int64()), arrow::field("part", arrow::utf8())});
+
+  auto table = TableFromJSON(schema, {
+                                         R"([
+    [0, "experiment/A/f.csv"],
+    [1, "experiment/B/f.csv"],
+    [2, "experiment/A/f.csv"],
+    [3, "experiment/C/k.csv"],
+    [4, "experiment/M/i.csv"]
+  ])",
+                                     });
+
+  // Write it using Datasets
+  auto dataset = std::make_shared<dataset::InMemoryDataset>(table);
+  ASSERT_OK_AND_ASSIGN(auto scanner_builder, dataset->NewScan());
+  ASSERT_OK_AND_ASSIGN(auto scanner, scanner_builder->Finish());
+
+  auto partition_schema = arrow::schema({arrow::field("part", arrow::utf8())});
+  auto partitioning = std::make_shared<dataset::HivePartitioning>(partition_schema);
+  auto ipc_format = std::make_shared<dataset::IpcFileFormat>();
+  dataset::FileSystemDatasetWriteOptions write_options;
+  write_options.file_write_options = ipc_format->DefaultWriteOptions();
+  write_options.filesystem = filesystem;
+  write_options.base_dir = base_path;
+  write_options.partitioning = partitioning;
+  write_options.basename_template = "part{i}.arrow";
+  ASSERT_OK(dataset::FileSystemDataset::Write(write_options, scanner));
+
+  auto mockfs =
+      arrow::internal::checked_pointer_cast<fs::internal::MockFileSystem>(filesystem);
+  auto all_dirs = mockfs->AllDirs();
+
+  std::vector<std::string> encoded_paths;
+  std::vector<std::string> unique_partitions = {
+      "experiment/A/f.csv", "experiment/B/f.csv", "experiment/C/k.csv",
+      "experiment/M/i.csv"};
+  for (auto partition : unique_partitions) {
+    encoded_paths.push_back("part=" + arrow::internal::UriEscape(partition));
+  }
+
+  ASSERT_EQ(all_dirs.size(), encoded_paths.size());
+
+  for (size_t i = 0; i < all_dirs.size(); i++) {
+    ASSERT_EQ(all_dirs[i].full_path, encoded_paths[i]);
+  }
+}
+
 TEST_F(TestPartitioning, EtlThenHive) {
   FieldVector etl_fields{field("year", int16()), field("month", int8()),
                          field("day", int8()), field("hour", int8())};
diff --git a/cpp/src/arrow/dataset/plan.cc b/cpp/src/arrow/dataset/plan.cc
index 01169413f78..805fb25aa71 100644
--- a/cpp/src/arrow/dataset/plan.cc
+++ b/cpp/src/arrow/dataset/plan.cc
@@ -33,6 +33,7 @@ void Initialize() {
     auto registry = compute::default_exec_factory_registry();
     if (registry) {
       InitializeScanner(registry);
+      InitializeScannerV2(registry);
       InitializeDatasetWriter(registry);
     }
   });
diff --git a/cpp/src/arrow/dataset/scan_node.cc b/cpp/src/arrow/dataset/scan_node.cc
new file mode 100644
index 00000000000..07b2b9886c4
--- /dev/null
+++ b/cpp/src/arrow/dataset/scan_node.cc
@@ -0,0 +1,380 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include <functional>
+#include <list>
+#include <memory>
+#include <mutex>
+#include <string>
+#include <vector>
+
+#include "arrow/compute/exec/exec_plan.h"
+#include "arrow/compute/exec/expression.h"
+#include "arrow/compute/exec/query_context.h"
+#include "arrow/compute/exec/util.h"
+#include "arrow/dataset/scanner.h"
+#include "arrow/record_batch.h"
+#include "arrow/result.h"
+#include "arrow/status.h"
+#include "arrow/type.h"
+#include "arrow/util/checked_cast.h"
+#include "arrow/util/logging.h"
+#include "arrow/util/tracing_internal.h"
+#include "arrow/util/unreachable.h"
+
+namespace cp = arrow::compute;
+
+namespace arrow {
+
+using internal::checked_cast;
+
+namespace dataset {
+
+namespace {
+
+Result<std::shared_ptr<Schema>> OutputSchemaFromOptions(const ScanV2Options& options) {
+  return FieldPath::GetAll(*options.dataset->schema(), options.columns);
+}
+
+// In the future we should support async scanning of fragments.  The
+// Dataset class doesn't support this yet but we pretend it does here to
+// ease future adoption of the feature.
+Future<AsyncGenerator<std::shared_ptr<Fragment>>> GetFragments(Dataset* dataset,
+                                                               cp::Expression predicate) {
+  // In the future the dataset should be responsible for figuring out
+  // the I/O context.  This will allow different I/O contexts to be used
+  // when scanning different datasets.  For example, if we are scanning a
+  // union of a remote dataset and a local dataset.
+  const auto& io_context = io::default_io_context();
+  auto io_executor = io_context.executor();
+  return DeferNotOk(
+             io_executor->Submit(
+                 [dataset, predicate]() -> Result<std::shared_ptr<FragmentIterator>> {
+                   ARROW_ASSIGN_OR_RAISE(FragmentIterator fragments_iter,
+                                         dataset->GetFragments(predicate));
+                   return std::make_shared<FragmentIterator>(std::move(fragments_iter));
+                 }))
+      .Then([](const std::shared_ptr<FragmentIterator>& fragments_it)
+                -> Result<AsyncGenerator<std::shared_ptr<Fragment>>> {
+        ARROW_ASSIGN_OR_RAISE(std::vector<std::shared_ptr<Fragment>> fragments,
+                              fragments_it->ToVector());
+        return MakeVectorGenerator(std::move(fragments));
+      });
+}
+
+/// \brief A node that scans a dataset
+///
+/// The scan node has three groups of io-tasks and one task.
+///
+/// The first io-task (listing) fetches the fragments from the dataset.  This may be a
+/// simple iteration of paths or, if the dataset is described with wildcards, this may
+/// involve I/O for listing and walking directory paths.  There is one listing io-task
+/// per dataset.
+///
+/// Ths next step is to fetch the metadata for the fragment.  For some formats (e.g.
+/// CSV) this may be quite simple (get the size of the file).  For other formats (e.g.
+/// parquet) this is more involved and requires reading data.  There is one metadata
+/// io-task per fragment.  The metadata io-task creates an AsyncGenerator<RecordBatch>
+/// from the fragment.
+///
+/// Once the metadata io-task is done we can issue read io-tasks.  Each read io-task
+/// requests a single batch of data from the disk by pulling the next Future from the
+/// generator.
+///
+/// Finally, when the future is fulfilled, we issue a pipeline task to drive the batch
+/// through the pipeline.
+///
+/// Most of these tasks are io-tasks.  They take very few CPU resources and they run on
+/// the I/O thread pool.  These io-tasks are invisible to the exec plan and so we need
+/// to do some custom scheduling.  We limit how many fragments we read from at any one
+/// time. This is referred to as "fragment readahead".
+///
+/// Within a fragment there is usually also some amount of "row readahead".  This row
+/// readahead is handled by the fragment (and not the scanner) because the exact details
+/// of how it is performed depend on the underlying format.
+///
+/// When a scan node is aborted (StopProducing) we send a cancel signal to any active
+/// fragments.  On destruction we continue consuming the fragments until they complete
+/// (which should be fairly quick since we cancelled the fragment).  This ensures the
+/// I/O work is completely finished before the node is destroyed.
+class ScanNode : public cp::ExecNode {
+ public:
+  ScanNode(cp::ExecPlan* plan, ScanV2Options options,
+           std::shared_ptr<Schema> output_schema)
+      : cp::ExecNode(plan, {}, {}, std::move(output_schema),
+                     /*num_outputs=*/1),
+        options_(options) {}
+
+  static Result<ScanV2Options> NormalizeAndValidate(const ScanV2Options& options,
+                                                    compute::ExecContext* ctx) {
+    ScanV2Options normalized(options);
+    if (!normalized.dataset) {
+      return Status::Invalid("Scan options must include a dataset");
+    }
+
+    if (options.fragment_readahead < 0) {
+      return Status::Invalid(
+          "Fragment readahead may not be less than 0.  Set to 0 to disable readahead");
+    }
+
+    if (options.target_bytes_readahead < 0) {
+      return Status::Invalid(
+          "Batch readahead may not be less than 0.  Set to 0 to disable readahead");
+    }
+
+    if (!normalized.filter.is_valid()) {
+      normalized.filter = compute::literal(true);
+    }
+
+    if (normalized.filter.call() && normalized.filter.IsBound()) {
+      // There is no easy way to make sure a filter was bound agaisnt the same
+      // function registry as the one in ctx so we just require it to be unbound
+      // FIXME - Do we care if it was bound to a different function registry?
+      return Status::Invalid("Scan filter must be unbound");
+    } else {
+      ARROW_ASSIGN_OR_RAISE(normalized.filter,
+                            normalized.filter.Bind(*options.dataset->schema(), ctx));
+      ARROW_ASSIGN_OR_RAISE(normalized.filter,
+                            compute::RemoveNamedRefs(std::move(normalized.filter)));
+    }  // Else we must have some simple filter like literal(true) which might be bound
+       // but we don't care
+
+    if (normalized.filter.type()->id() != Type::BOOL) {
+      return Status::Invalid("A scan filter must be a boolean expression");
+    }
+
+    return std::move(normalized);
+  }
+
+  static Result<cp::ExecNode*> Make(cp::ExecPlan* plan, std::vector<cp::ExecNode*> inputs,
+                                    const cp::ExecNodeOptions& options) {
+    RETURN_NOT_OK(ValidateExecNodeInputs(plan, inputs, 0, "ScanNode"));
+    const auto& scan_options = checked_cast<const ScanV2Options&>(options);
+    ARROW_ASSIGN_OR_RAISE(
+        ScanV2Options normalized_options,
+        NormalizeAndValidate(scan_options, plan->query_context()->exec_context()));
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Schema> output_schema,
+                          OutputSchemaFromOptions(normalized_options));
+    return plan->EmplaceNode<ScanNode>(plan, std::move(normalized_options),
+                                       std::move(output_schema));
+  }
+
+  const char* kind_name() const override { return "ScanNode"; }
+
+  [[noreturn]] static void NoInputs() {
+    Unreachable("no inputs; this should never be called");
+  }
+  [[noreturn]] void InputReceived(cp::ExecNode*, cp::ExecBatch) override { NoInputs(); }
+  [[noreturn]] void ErrorReceived(cp::ExecNode*, Status) override { NoInputs(); }
+  [[noreturn]] void InputFinished(cp::ExecNode*, int) override { NoInputs(); }
+
+  Status Init() override { return Status::OK(); }
+
+  struct ScanState {
+    std::mutex mutex;
+    std::shared_ptr<FragmentScanner> fragment_scanner;
+    std::unique_ptr<FragmentEvolutionStrategy> fragment_evolution;
+    FragmentScanRequest scan_request;
+  };
+
+  struct ScanBatchTask : public util::AsyncTaskScheduler::Task {
+    ScanBatchTask(ScanNode* node, ScanState* scan_state, int batch_index)
+        : node_(node), scan_(scan_state), batch_index_(batch_index) {
+      int64_t cost = scan_state->fragment_scanner->EstimatedDataBytes(batch_index_);
+      // It's possible, though probably a bad idea, for a single batch of a fragment
+      // to be larger than 2GiB.  In that case, it doesn't matter much if we
+      // underestimate because the largest the throttle can be is 2GiB and thus we will
+      // be in "one batch at a time" mode anyways which is the best we can do in this
+      // case.
+      cost_ = static_cast<int>(
+          std::min(cost, static_cast<int64_t>(std::numeric_limits<int>::max())));
+    }
+
+    Result<Future<>> operator()() override {
+      // Prevent concurrent calls to ScanBatch which might not be thread safe
+      std::lock_guard<std::mutex> lk(scan_->mutex);
+      return scan_->fragment_scanner->ScanBatch(batch_index_)
+          .Then([this](const std::shared_ptr<RecordBatch>& batch) {
+            return HandleBatch(batch);
+          });
+    }
+
+    Status HandleBatch(const std::shared_ptr<RecordBatch>& batch) {
+      ARROW_ASSIGN_OR_RAISE(
+          compute::ExecBatch evolved_batch,
+          scan_->fragment_evolution->EvolveBatch(batch, node_->options_.columns,
+                                                 scan_->scan_request.columns));
+      return node_->plan_->query_context()->ScheduleTask(
+          [node = node_, evolved_batch = std::move(evolved_batch)] {
+            node->outputs_[0]->InputReceived(node, std::move(evolved_batch));
+            return Status::OK();
+          });
+    }
+
+    int cost() const override { return cost_; }
+
+    ScanNode* node_;
+    ScanState* scan_;
+    int batch_index_;
+    int cost_;
+  };
+
+  struct ListFragmentTask : util::AsyncTaskScheduler::Task {
+    ListFragmentTask(ScanNode* node, std::shared_ptr<Fragment> fragment)
+        : node(node), fragment(std::move(fragment)) {}
+
+    Result<Future<>> operator()() override {
+      return fragment
+          ->InspectFragment(node->options_.format_options,
+                            node->plan_->query_context()->exec_context())
+          .Then([this](const std::shared_ptr<InspectedFragment>& inspected_fragment) {
+            return BeginScan(inspected_fragment);
+          });
+    }
+
+    Future<> BeginScan(const std::shared_ptr<InspectedFragment>& inspected_fragment) {
+      // Now that we have an inspected fragment we need to use the dataset's evolution
+      // strategy to figure out how to scan it
+      scan_state->fragment_evolution =
+          node->options_.dataset->evolution_strategy()->GetStrategy(
+              *node->options_.dataset, *fragment, *inspected_fragment);
+      ARROW_RETURN_NOT_OK(InitFragmentScanRequest());
+      return fragment
+          ->BeginScan(scan_state->scan_request, *inspected_fragment,
+                      node->options_.format_options,
+                      node->plan_->query_context()->exec_context())
+          .Then([this](const std::shared_ptr<FragmentScanner>& fragment_scanner) {
+            return AddScanTasks(fragment_scanner);
+          });
+    }
+
+    Future<> AddScanTasks(const std::shared_ptr<FragmentScanner>& fragment_scanner) {
+      scan_state->fragment_scanner = fragment_scanner;
+      ScanState* state_view = scan_state.get();
+      Future<> list_and_scan_done = Future<>::Make();
+      // Finish callback keeps the scan state alive until all scan tasks done
+      struct StateHolder {
+        Status operator()() {
+          list_and_scan_done.MarkFinished();
+          return Status::OK();
+        }
+        Future<> list_and_scan_done;
+        std::unique_ptr<ScanState> scan_state;
+      };
+
+      std::unique_ptr<util::AsyncTaskGroup> scan_tasks = util::AsyncTaskGroup::Make(
+          node->batches_throttle_.get(),
+          StateHolder{list_and_scan_done, std::move(scan_state)});
+      for (int i = 0; i < fragment_scanner->NumBatches(); i++) {
+        node->num_batches_.fetch_add(1);
+        scan_tasks->AddTask(std::make_unique<ScanBatchTask>(node, state_view, i));
+      }
+      return Status::OK();
+      // The "list fragments" task doesn't actually end until the fragments are
+      // all scanned.  This allows us to enforce fragment readahead.
+      return list_and_scan_done;
+    }
+
+    // Take the dataset options, and the fragment evolution, and figure out exactly how
+    // we should scan the fragment itself.
+    Status InitFragmentScanRequest() {
+      ARROW_ASSIGN_OR_RAISE(
+          scan_state->scan_request.columns,
+          scan_state->fragment_evolution->DevolveSelection(node->options_.columns));
+      ARROW_ASSIGN_OR_RAISE(
+          compute::Expression devolution_guarantee,
+          scan_state->fragment_evolution->GetGuarantee(node->options_.columns));
+      ARROW_ASSIGN_OR_RAISE(
+          compute::Expression simplified_filter,
+          compute::SimplifyWithGuarantee(node->options_.filter, devolution_guarantee));
+      ARROW_ASSIGN_OR_RAISE(
+          scan_state->scan_request.filter,
+          scan_state->fragment_evolution->DevolveFilter(std::move(simplified_filter)));
+      scan_state->scan_request.format_scan_options = node->options_.format_options;
+      return Status::OK();
+    }
+
+    ScanNode* node;
+    std::shared_ptr<Fragment> fragment;
+    std::unique_ptr<ScanState> scan_state = std::make_unique<ScanState>();
+  };
+
+  void ScanFragments(const AsyncGenerator<std::shared_ptr<Fragment>>& frag_gen) {
+    std::shared_ptr<util::AsyncTaskScheduler> fragment_tasks =
+        util::MakeThrottledAsyncTaskGroup(
+            plan_->query_context()->async_scheduler(), options_.fragment_readahead + 1,
+            /*queue=*/nullptr, [this]() {
+              outputs_[0]->InputFinished(this, num_batches_.load());
+              finished_.MarkFinished();
+              return Status::OK();
+            });
+    fragment_tasks->AddAsyncGenerator<std::shared_ptr<Fragment>>(
+        std::move(frag_gen), [this, fragment_tasks = std::move(fragment_tasks)](
+                                 const std::shared_ptr<Fragment>& fragment) {
+          fragment_tasks->AddTask(std::make_unique<ListFragmentTask>(this, fragment));
+          return Status::OK();
+        });
+  }
+
+  Status StartProducing() override {
+    START_COMPUTE_SPAN(span_, std::string(kind_name()) + ":" + label(),
+                       {{"node.kind", kind_name()},
+                        {"node.label", label()},
+                        {"node.output_schema", output_schema()->ToString()},
+                        {"node.detail", ToString()}});
+    END_SPAN_ON_FUTURE_COMPLETION(span_, finished_);
+    batches_throttle_ = util::ThrottledAsyncTaskScheduler::Make(
+        plan_->query_context()->async_scheduler(), options_.target_bytes_readahead + 1);
+    plan_->query_context()->async_scheduler()->AddSimpleTask([this] {
+      return GetFragments(options_.dataset.get(), options_.filter)
+          .Then([this](const AsyncGenerator<std::shared_ptr<Fragment>>& frag_gen) {
+            ScanFragments(frag_gen);
+          });
+    });
+    return Status::OK();
+  }
+
+  void PauseProducing(ExecNode* output, int32_t counter) override {
+    // TODO(ARROW-17755)
+  }
+
+  void ResumeProducing(ExecNode* output, int32_t counter) override {
+    // TODO(ARROW-17755)
+  }
+
+  void StopProducing(ExecNode* output) override {
+    DCHECK_EQ(output, outputs_[0]);
+    StopProducing();
+  }
+
+  void StopProducing() override {}
+
+ private:
+  ScanV2Options options_;
+  std::atomic<int> num_batches_{0};
+  std::shared_ptr<util::ThrottledAsyncTaskScheduler> batches_throttle_;
+};
+
+}  // namespace
+
+namespace internal {
+void InitializeScannerV2(arrow::compute::ExecFactoryRegistry* registry) {
+  DCHECK_OK(registry->AddFactory("scan2", ScanNode::Make));
+}
+}  // namespace internal
+}  // namespace dataset
+}  // namespace arrow
diff --git a/cpp/src/arrow/dataset/scanner.cc b/cpp/src/arrow/dataset/scanner.cc
index 0ef1d4577cd..0587863eb3c 100644
--- a/cpp/src/arrow/dataset/scanner.cc
+++ b/cpp/src/arrow/dataset/scanner.cc
@@ -21,6 +21,7 @@
 #include <condition_variable>
 #include <memory>
 #include <mutex>
+#include <numeric>
 #include <sstream>
 
 #include "arrow/array/array_primitive.h"
@@ -31,6 +32,7 @@
 #include "arrow/compute/cast.h"
 #include "arrow/compute/exec/exec_plan.h"
 #include "arrow/compute/exec/options.h"
+#include "arrow/compute/exec/query_context.h"
 #include "arrow/dataset/dataset.h"
 #include "arrow/dataset/dataset_internal.h"
 #include "arrow/dataset/plan.h"
@@ -67,6 +69,28 @@ std::vector<FieldRef> ScanOptions::MaterializedFields() const {
   return fields;
 }
 
+std::vector<FieldPath> ScanV2Options::AllColumns(const Schema& dataset_schema) {
+  std::vector<FieldPath> selection(dataset_schema.num_fields());
+  for (int i = 0; i < dataset_schema.num_fields(); i++) {
+    selection[i] = {i};
+  }
+  return selection;
+}
+
+Status ScanV2Options::AddFieldsNeededForFilter(ScanV2Options* options) {
+  std::vector<FieldRef> fields_referenced = FieldsInExpression(options->filter);
+  for (const auto& field : fields_referenced) {
+    // Note: this will fail if the field reference is ambiguous or the field doesn't
+    // exist in the dataset schema
+    ARROW_ASSIGN_OR_RAISE(auto field_path, field.FindOne(*options->dataset->schema()));
+    if (std::find(options->columns.begin(), options->columns.end(), field_path) ==
+        options->columns.end()) {
+      options->columns.push_back(std::move(field_path));
+    }
+  }
+  return Status::OK();
+}
+
 namespace {
 class ScannerRecordBatchReader : public RecordBatchReader {
  public:
@@ -106,6 +130,36 @@ const FieldVector kAugmentedFields{
     field("__filename", utf8()),
 };
 
+Result<std::shared_ptr<Schema>> GetProjectedSchemaFromExpression(
+    const compute::Expression& projection,
+    const std::shared_ptr<Schema>& dataset_schema) {
+  // process resultant dataset_schema after projection
+  FieldVector project_fields;
+  if (auto call = projection.call()) {
+    if (call->function_name != "make_struct") {
+      return Status::Invalid("Top level projection expression call must be make_struct");
+    }
+    for (const compute::Expression& arg : call->arguments) {
+      if (auto field_ref = arg.field_ref()) {
+        if (field_ref->IsName()) {
+          auto field = dataset_schema->GetFieldByName(*field_ref->name());
+          if (field) {
+            project_fields.push_back(std::move(field));
+          }
+          // if the field is not present in the schema we ignore it.
+          // the case is if kAugmentedFields are present in the expression
+          // and if they are not present in the provided schema, we ignore them.
+        } else {
+          return Status::Invalid(
+              "No projected schema was supplied and we could not infer the projected "
+              "schema from the projection expression.");
+        }
+      }
+    }
+  }
+  return schema(project_fields);
+}
+
 // Scan options has a number of options that we can infer from the dataset
 // schema if they are not specified.
 Status NormalizeScanOptions(const std::shared_ptr<ScanOptions>& scan_options,
@@ -123,26 +177,11 @@ Status NormalizeScanOptions(const std::shared_ptr<ScanOptions>& scan_options,
     // If the user specifies a projection expression we can maybe infer from
     // that expression
     if (scan_options->projection.IsBound()) {
-      if (auto call = scan_options->projection.call()) {
-        if (call->function_name != "make_struct") {
-          return Status::Invalid(
-              "Top level projection expression call must be make_struct");
-        }
-        FieldVector fields;
-        for (const compute::Expression& arg : call->arguments) {
-          if (auto field_ref = arg.field_ref()) {
-            if (field_ref->IsName()) {
-              fields.push_back(field(*field_ref->name(), arg.type()->GetSharedPtr()));
-              break;
-            }
-          }
-          // Either the expression for this field is not a field_ref or it is not a
-          // simple field_ref.  User must supply projected_schema
-          return Status::Invalid(
-              "No projected schema was supplied and we could not infer the projected "
-              "schema from the projection expression.");
-        }
-        scan_options->projected_schema = schema(fields);
+      ARROW_ASSIGN_OR_RAISE(
+          auto project_schema,
+          GetProjectedSchemaFromExpression(scan_options->projection, dataset_schema));
+      if (project_schema->num_fields() > 0) {
+        scan_options->projected_schema = std::move(project_schema);
       }
       // If the projection isn't a call we assume it's literal(true) or some
       // invalid expression and just ignore it.  It will be replaced below
@@ -151,10 +190,33 @@ Status NormalizeScanOptions(const std::shared_ptr<ScanOptions>& scan_options,
     // If we couldn't infer it from the projection expression then just grab all
     // fields from the dataset
     if (!scan_options->projected_schema) {
-      ARROW_ASSIGN_OR_RAISE(auto projection_descr,
-                            ProjectionDescr::Default(*dataset_schema));
-      scan_options->projected_schema = std::move(projection_descr.schema);
-      scan_options->projection = projection_descr.expression;
+      // Until now, we assume the project expression is bound, but if it is not
+      // bound, we have to check the expressions and make sure bind them
+      // and create the projected schema based on the field_refs (which guarantees
+      // IsName() to be true).
+
+      // process resultant dataset_schema after projection
+      ARROW_ASSIGN_OR_RAISE(
+          auto projected_schema,
+          GetProjectedSchemaFromExpression(scan_options->projection, dataset_schema));
+
+      if (projected_schema->num_fields() > 0) {
+        // create the projected schema only if the provided expressions
+        // produces valid set of fields.
+        ARROW_ASSIGN_OR_RAISE(auto projection_descr,
+                              ProjectionDescr::Default(*projected_schema));
+        scan_options->projected_schema = std::move(projection_descr.schema);
+        scan_options->projection = projection_descr.expression;
+        ARROW_ASSIGN_OR_RAISE(scan_options->projection,
+                              scan_options->projection.Bind(*projected_schema));
+      } else {
+        // if projected_fields are not found, we default to creating the projected_schema
+        // and projection from the dataset_schema.
+        ARROW_ASSIGN_OR_RAISE(auto projection_descr,
+                              ProjectionDescr::Default(*dataset_schema));
+        scan_options->projected_schema = std::move(projection_descr.schema);
+        scan_options->projection = projection_descr.expression;
+      }
     }
   }
 
@@ -203,6 +265,7 @@ class AsyncScanner : public Scanner, public std::enable_shared_from_this<AsyncSc
   Result<std::shared_ptr<Table>> Head(int64_t num_rows) override;
   Result<std::shared_ptr<Table>> ToTable() override;
   Result<int64_t> CountRows() override;
+  Future<int64_t> CountRowsAsync() override;
   Result<std::shared_ptr<RecordBatchReader>> ToRecordBatchReader() override;
   const std::shared_ptr<Dataset>& dataset() const override;
 
@@ -212,6 +275,7 @@ class AsyncScanner : public Scanner, public std::enable_shared_from_this<AsyncSc
   Result<EnumeratedRecordBatchGenerator> ScanBatchesUnorderedAsync(
       Executor* executor, bool sequence_fragments, bool use_legacy_batching = false);
   Future<std::shared_ptr<Table>> ToTableAsync(Executor* executor);
+  Future<int64_t> CountRowsAsync(Executor* executor);
 
   Result<FragmentGenerator> GetFragments() const;
 
@@ -307,20 +371,25 @@ Result<FragmentGenerator> AsyncScanner::GetFragments() const {
 }
 
 Result<TaggedRecordBatchIterator> AsyncScanner::ScanBatches() {
-  ARROW_ASSIGN_OR_RAISE(auto batches_gen,
-                        ScanBatchesAsync(::arrow::internal::GetCpuThreadPool()));
-  return MakeGeneratorIterator(std::move(batches_gen));
+  return ::arrow::internal::IterateSynchronously<TaggedRecordBatch>(
+      [this](::arrow::internal::Executor* executor) {
+        return ScanBatchesAsync(executor);
+      },
+      scan_options_->use_threads);
 }
 
 Result<EnumeratedRecordBatchIterator> AsyncScanner::ScanBatchesUnordered() {
-  ARROW_ASSIGN_OR_RAISE(auto batches_gen,
-                        ScanBatchesUnorderedAsync(::arrow::internal::GetCpuThreadPool()));
-  return MakeGeneratorIterator(std::move(batches_gen));
+  return ::arrow::internal::IterateSynchronously<EnumeratedRecordBatch>(
+      [this](::arrow::internal::Executor* executor) {
+        return ScanBatchesUnorderedAsync(executor);
+      },
+      scan_options_->use_threads);
 }
 
 Result<std::shared_ptr<Table>> AsyncScanner::ToTable() {
-  auto table_fut = ToTableAsync(::arrow::internal::GetCpuThreadPool());
-  return table_fut.result();
+  return ::arrow::internal::RunSynchronously<Future<std::shared_ptr<Table>>>(
+      [this](::arrow::internal::Executor* executor) { return ToTableAsync(executor); },
+      scan_options_->use_threads);
 }
 
 Result<EnumeratedRecordBatchGenerator> AsyncScanner::ScanBatchesUnorderedAsync() {
@@ -334,7 +403,7 @@ Result<EnumeratedRecordBatchGenerator> AsyncScanner::ScanBatchesUnorderedAsync(
 }
 
 Result<EnumeratedRecordBatch> ToEnumeratedRecordBatch(
-    const util::optional<compute::ExecBatch>& batch, const ScanOptions& options,
+    const std::optional<compute::ExecBatch>& batch, const ScanOptions& options,
     const FragmentVector& fragments) {
   int num_fields = options.projected_schema->num_fields();
 
@@ -352,18 +421,17 @@ Result<EnumeratedRecordBatch> ToEnumeratedRecordBatch(
 
 Result<EnumeratedRecordBatchGenerator> AsyncScanner::ScanBatchesUnorderedAsync(
     Executor* cpu_executor, bool sequence_fragments, bool use_legacy_batching) {
-  if (!scan_options_->use_threads) {
-    cpu_executor = nullptr;
-  }
-
   RETURN_NOT_OK(NormalizeScanOptions(scan_options_, dataset_->schema()));
 
   auto exec_context =
       std::make_shared<compute::ExecContext>(scan_options_->pool, cpu_executor);
 
-  ARROW_ASSIGN_OR_RAISE(auto plan, compute::ExecPlan::Make(exec_context.get()));
-  plan->SetUseLegacyBatching(use_legacy_batching);
-  AsyncGenerator<util::optional<compute::ExecBatch>> sink_gen;
+  compute::QueryOptions query_options;
+  query_options.use_legacy_batching = use_legacy_batching;
+
+  ARROW_ASSIGN_OR_RAISE(auto plan,
+                        compute::ExecPlan::Make(query_options, *exec_context.get()));
+  AsyncGenerator<std::optional<compute::ExecBatch>> sink_gen;
 
   auto exprs = scan_options_->projection.call()->arguments;
   auto names = checked_cast<const compute::MakeStructOptions*>(
@@ -377,7 +445,8 @@ Result<EnumeratedRecordBatchGenerator> AsyncScanner::ScanBatchesUnorderedAsync(
               {"filter", compute::FilterNodeOptions{scan_options_->filter}},
               {"augmented_project",
                compute::ProjectNodeOptions{std::move(exprs), std::move(names)}},
-              {"sink", compute::SinkNodeOptions{&sink_gen, scan_options_->backpressure}},
+              {"sink", compute::SinkNodeOptions{&sink_gen, /*schema=*/nullptr,
+                                                scan_options_->backpressure}},
           })
           .AddToPlan(plan.get()));
 
@@ -402,7 +471,7 @@ Result<EnumeratedRecordBatchGenerator> AsyncScanner::ScanBatchesUnorderedAsync(
   return MakeMappedGenerator(
       std::move(sink_gen),
       [sink_gen, options, stop_producing,
-       shared_fragments](const util::optional<compute::ExecBatch>& batch)
+       shared_fragments](const std::optional<compute::ExecBatch>& batch)
           -> Future<EnumeratedRecordBatch> {
         return ToEnumeratedRecordBatch(batch, *options, *shared_fragments);
       });
@@ -635,14 +704,12 @@ Future<std::shared_ptr<Table>> AsyncScanner::ToTableAsync(Executor* cpu_executor
   });
 }
 
-Result<int64_t> AsyncScanner::CountRows() {
+Future<int64_t> AsyncScanner::CountRowsAsync(Executor* executor) {
   ARROW_ASSIGN_OR_RAISE(auto fragment_gen, GetFragments());
 
-  auto cpu_executor =
-      scan_options_->use_threads ? ::arrow::internal::GetCpuThreadPool() : nullptr;
-  compute::ExecContext exec_context(scan_options_->pool, cpu_executor);
+  compute::ExecContext exec_context(scan_options_->pool, executor);
 
-  ARROW_ASSIGN_OR_RAISE(auto plan, compute::ExecPlan::Make(&exec_context));
+  ARROW_ASSIGN_OR_RAISE(auto plan, compute::ExecPlan::Make(exec_context));
   // Drop projection since we only need to count rows
   const auto options = std::make_shared<ScanOptions>(*scan_options_);
   ARROW_ASSIGN_OR_RAISE(auto empty_projection,
@@ -650,16 +717,17 @@ Result<int64_t> AsyncScanner::CountRows() {
                                                    *scan_options_->dataset_schema));
   SetProjection(options.get(), empty_projection);
 
-  std::atomic<int64_t> total{0};
+  auto total = std::make_shared<std::atomic<int64_t>>(0);
 
   fragment_gen = MakeMappedGenerator(
-      std::move(fragment_gen), [&](const std::shared_ptr<Fragment>& fragment) {
+      std::move(fragment_gen),
+      [options, total](const std::shared_ptr<Fragment>& fragment) {
         return fragment->CountRows(options->filter, options)
-            .Then([&, fragment](util::optional<int64_t> fast_count) mutable
+            .Then([options, total, fragment](std::optional<int64_t> fast_count) mutable
                   -> std::shared_ptr<Fragment> {
               if (fast_count) {
                 // fast path: got row count directly; skip scanning this fragment
-                total += *fast_count;
+                (*total) += *fast_count;
                 return std::make_shared<InMemoryFragment>(options->dataset_schema,
                                                           RecordBatchVector{});
               }
@@ -669,30 +737,35 @@ Result<int64_t> AsyncScanner::CountRows() {
             });
       });
 
-  AsyncGenerator<util::optional<compute::ExecBatch>> sink_gen;
-
-  RETURN_NOT_OK(
-      compute::Declaration::Sequence(
-          {
-              {"scan", ScanNodeOptions{std::make_shared<FragmentDataset>(
-                                           scan_options_->dataset_schema,
-                                           std::move(fragment_gen)),
-                                       options}},
-              {"project", compute::ProjectNodeOptions{{options->filter}, {"mask"}}},
-              {"aggregate", compute::AggregateNodeOptions{{compute::Aggregate{
-                                "sum", nullptr, "mask", "selected_count"}}}},
-              {"sink", compute::SinkNodeOptions{&sink_gen}},
-          })
-          .AddToPlan(plan.get()));
-
-  RETURN_NOT_OK(plan->StartProducing());
-  auto maybe_slow_count = sink_gen().result();
-  plan->finished().Wait();
+  compute::Declaration count_plan = compute::Declaration::Sequence(
+      {{"scan",
+        ScanNodeOptions{std::make_shared<FragmentDataset>(scan_options_->dataset_schema,
+                                                          std::move(fragment_gen)),
+                        options}},
+       {"project", compute::ProjectNodeOptions{{options->filter}, {"mask"}}},
+       {"aggregate", compute::AggregateNodeOptions{{compute::Aggregate{
+                         "sum", nullptr, "mask", "selected_count"}}}}});
+
+  return compute::DeclarationToBatchesAsync(std::move(count_plan), exec_context)
+      .Then([total](const RecordBatchVector& batches) -> Result<int64_t> {
+        DCHECK_EQ(1, batches.size());
+        ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Scalar> count_scalar,
+                              batches[0]->column(0)->GetScalar(0));
+        return total->load() +
+               static_cast<int64_t>(
+                   ::arrow::internal::checked_pointer_cast<UInt64Scalar>(count_scalar)
+                       ->value);
+      });
+}
 
-  ARROW_ASSIGN_OR_RAISE(auto slow_count, maybe_slow_count);
-  total += slow_count->values[0].scalar_as<UInt64Scalar>().value;
+Future<int64_t> AsyncScanner::CountRowsAsync() {
+  return CountRowsAsync(::arrow::internal::GetCpuThreadPool());
+}
 
-  return total.load();
+Result<int64_t> AsyncScanner::CountRows() {
+  return ::arrow::internal::RunSynchronously<Future<int64_t>>(
+      [this](Executor* executor) { return CountRowsAsync(executor); },
+      scan_options_->use_threads);
 }
 
 Result<std::shared_ptr<RecordBatchReader>> AsyncScanner::ToRecordBatchReader() {
@@ -742,7 +815,19 @@ Result<ProjectionDescr> ProjectionDescr::FromNames(std::vector<std::string> name
                                                    const Schema& dataset_schema) {
   std::vector<compute::Expression> exprs(names.size());
   for (size_t i = 0; i < exprs.size(); ++i) {
-    exprs[i] = compute::field_ref(names[i]);
+    // If name isn't in schema, try finding it by dotted path.
+    if (dataset_schema.GetFieldByName(names[i]) == nullptr) {
+      auto name = names[i];
+      if (name.rfind(".", 0) != 0) {
+        name = "." + name;
+      }
+      ARROW_ASSIGN_OR_RAISE(auto field_ref, FieldRef::FromDotPath(name));
+      // safe as we know there is at least 1 dot.
+      names[i] = name.substr(name.rfind(".") + 1);
+      exprs[i] = compute::field_ref(field_ref);
+    } else {
+      exprs[i] = compute::field_ref(names[i]);
+    }
   }
   auto fields = dataset_schema.fields();
   for (const auto& aug_field : kAugmentedFields) {
@@ -826,15 +911,6 @@ Status ScannerBuilder::UseThreads(bool use_threads) {
   return Status::OK();
 }
 
-Status ScannerBuilder::FragmentReadahead(int fragment_readahead) {
-  if (fragment_readahead <= 0) {
-    return Status::Invalid("FragmentReadahead must be greater than 0, got ",
-                           fragment_readahead);
-  }
-  scan_options_->fragment_readahead = fragment_readahead;
-  return Status::OK();
-}
-
 Status ScannerBuilder::BatchSize(int64_t batch_size) {
   if (batch_size <= 0) {
     return Status::Invalid("BatchSize must be greater than 0, got ", batch_size);
@@ -843,6 +919,24 @@ Status ScannerBuilder::BatchSize(int64_t batch_size) {
   return Status::OK();
 }
 
+Status ScannerBuilder::BatchReadahead(int32_t batch_readahead) {
+  if (batch_readahead < 0) {
+    return Status::Invalid("BatchReadahead must be greater than or equal 0, got ",
+                           batch_readahead);
+  }
+  scan_options_->batch_readahead = batch_readahead;
+  return Status::OK();
+}
+
+Status ScannerBuilder::FragmentReadahead(int32_t fragment_readahead) {
+  if (fragment_readahead < 0) {
+    return Status::Invalid("FragmentReadahead must be greater than or equal 0, got ",
+                           fragment_readahead);
+  }
+  scan_options_->fragment_readahead = fragment_readahead;
+  return Status::OK();
+}
+
 Status ScannerBuilder::Pool(MemoryPool* pool) {
   scan_options_->pool = pool;
   return Status::OK();
@@ -859,12 +953,17 @@ Status ScannerBuilder::Backpressure(compute::BackpressureOptions backpressure) {
   return Status::OK();
 }
 
-Result<std::shared_ptr<Scanner>> ScannerBuilder::Finish() {
+Result<std::shared_ptr<ScanOptions>> ScannerBuilder::GetScanOptions() {
   if (!scan_options_->projection.IsBound()) {
     RETURN_NOT_OK(Project(scan_options_->dataset_schema->field_names()));
   }
 
-  return std::make_shared<AsyncScanner>(dataset_, scan_options_);
+  return scan_options_;
+}
+
+Result<std::shared_ptr<Scanner>> ScannerBuilder::Finish() {
+  ARROW_ASSIGN_OR_RAISE(auto scan_options, GetScanOptions());
+  return std::make_shared<AsyncScanner>(dataset_, scan_options);
 }
 
 namespace {
@@ -889,21 +988,30 @@ Result<compute::ExecNode*> MakeScanNode(compute::ExecPlan* plan,
 
   AsyncGenerator<EnumeratedRecordBatch> merged_batch_gen;
   if (require_sequenced_output) {
-    ARROW_ASSIGN_OR_RAISE(merged_batch_gen,
-                          MakeSequencedMergedGenerator(std::move(batch_gen_gen),
-                                                       scan_options->fragment_readahead));
+    if (scan_options->fragment_readahead > 1) {
+      ARROW_ASSIGN_OR_RAISE(merged_batch_gen, MakeSequencedMergedGenerator(
+                                                  std::move(batch_gen_gen),
+                                                  scan_options->fragment_readahead));
+    } else {
+      merged_batch_gen = MakeConcatenatedGenerator(std::move(batch_gen_gen));
+    }
   } else {
     merged_batch_gen =
         MakeMergedGenerator(std::move(batch_gen_gen), scan_options->fragment_readahead);
   }
 
-  auto batch_gen = MakeReadaheadGenerator(std::move(merged_batch_gen),
-                                          scan_options->fragment_readahead);
+  AsyncGenerator<EnumeratedRecordBatch> batch_gen;
+  if (scan_options->fragment_readahead > 1) {
+    batch_gen = MakeReadaheadGenerator(std::move(merged_batch_gen),
+                                       scan_options->fragment_readahead);
+  } else {
+    batch_gen = std::move(merged_batch_gen);
+  }
 
   auto gen = MakeMappedGenerator(
       std::move(batch_gen),
       [scan_options](const EnumeratedRecordBatch& partial)
-          -> Result<util::optional<compute::ExecBatch>> {
+          -> Result<std::optional<compute::ExecBatch>> {
         // TODO(ARROW-13263) fragments may be able to attach more guarantees to batches
         // than this, for example parquet's row group stats. Failing to do this leaves
         // perf on the table because row group stats could be used to skip kernel execs in
@@ -915,7 +1023,7 @@ Result<compute::ExecNode*> MakeScanNode(compute::ExecPlan* plan,
         auto guarantee = partial.fragment.value->partition_expression();
 
         ARROW_ASSIGN_OR_RAISE(
-            util::optional<compute::ExecBatch> batch,
+            std::optional<compute::ExecBatch> batch,
             compute::MakeExecBatch(*scan_options->dataset_schema,
                                    partial.record_batch.value, guarantee));
 
@@ -969,7 +1077,7 @@ Result<compute::ExecNode*> MakeOrderedSinkNode(compute::ExecPlan* plan,
   }
   auto input = inputs[0];
 
-  AsyncGenerator<util::optional<compute::ExecBatch>> unordered;
+  AsyncGenerator<std::optional<compute::ExecBatch>> unordered;
   ARROW_ASSIGN_OR_RAISE(auto node,
                         compute::MakeExecNode("sink", plan, std::move(inputs),
                                               compute::SinkNodeOptions{&unordered}));
@@ -1000,8 +1108,8 @@ Result<compute::ExecNode*> MakeOrderedSinkNode(compute::ExecPlan* plan,
     return fragment_index(batch) < 0;
   };
 
-  auto left_after_right = [=](const util::optional<compute::ExecBatch>& left,
-                              const util::optional<compute::ExecBatch>& right) {
+  auto left_after_right = [=](const std::optional<compute::ExecBatch>& left,
+                              const std::optional<compute::ExecBatch>& right) {
     // Before any comes first
     if (is_before_any(*left)) {
       return false;
@@ -1017,8 +1125,8 @@ Result<compute::ExecNode*> MakeOrderedSinkNode(compute::ExecPlan* plan,
     return fragment_index(*left) > fragment_index(*right);
   };
 
-  auto is_next = [=](const util::optional<compute::ExecBatch>& prev,
-                     const util::optional<compute::ExecBatch>& next) {
+  auto is_next = [=](const std::optional<compute::ExecBatch>& prev,
+                     const std::optional<compute::ExecBatch>& next) {
     // Only true if next is the first batch
     if (is_before_any(*prev)) {
       return fragment_index(*next) == 0 && batch_index(*next) == 0;
@@ -1035,7 +1143,7 @@ Result<compute::ExecNode*> MakeOrderedSinkNode(compute::ExecPlan* plan,
   const auto& sink_options = checked_cast<const compute::SinkNodeOptions&>(options);
   *sink_options.generator =
       MakeSequencingGenerator(std::move(unordered), left_after_right, is_next,
-                              util::make_optional(std::move(before_any)));
+                              std::make_optional(std::move(before_any)));
 
   return node;
 }
diff --git a/cpp/src/arrow/dataset/scanner.h b/cpp/src/arrow/dataset/scanner.h
index 7098bad8f45..3d84e8c21e6 100644
--- a/cpp/src/arrow/dataset/scanner.h
+++ b/cpp/src/arrow/dataset/scanner.h
@@ -54,6 +54,7 @@ constexpr int64_t kDefaultBatchSize = 1 << 17;  // 128Ki rows
 // This will yield 64 batches ~ 8Mi rows
 constexpr int32_t kDefaultBatchReadahead = 16;
 constexpr int32_t kDefaultFragmentReadahead = 4;
+constexpr int32_t kDefaultBytesReadahead = 1 << 25;  // 32MiB
 
 /// Scan-specific options, which can be changed between scans of the same dataset.
 struct ARROW_DS_EXPORT ScanOptions {
@@ -82,7 +83,7 @@ struct ARROW_DS_EXPORT ScanOptions {
   /// Maximum row count for scanned batches.
   int64_t batch_size = kDefaultBatchSize;
 
-  /// How many batches to read ahead within a file
+  /// How many batches to read ahead within a fragment.
   ///
   /// Set to 0 to disable batch readahead
   ///
@@ -122,7 +123,7 @@ struct ARROW_DS_EXPORT ScanOptions {
   /// filter expression. Examples:
   ///
   /// - `SELECT a, b WHERE a < 2 && c > 1` => ["a", "b", "a", "c"]
-  /// - `SELECT a + b < 3 WHERE a > 1` => ["a", "b"]
+  /// - `SELECT a + b < 3 WHERE a > 1` => ["a", "b", "a"]
   ///
   /// This is needed for expression where a field may not be directly
   /// used in the final projection but is still required to evaluate the
@@ -137,6 +138,131 @@ struct ARROW_DS_EXPORT ScanOptions {
       compute::BackpressureOptions::DefaultBackpressure();
 };
 
+/// Scan-specific options, which can be changed between scans of the same dataset.
+///
+/// A dataset consists of one or more individual fragments.  A fragment is anything
+/// that is indepedently scannable, often a file.
+///
+/// Batches from all fragments will be converted to a single schema. This unified
+/// schema is referred to as the "dataset schema" and is the output schema for
+/// this node.
+///
+/// Individual fragments may have schemas that are different from the dataset
+/// schema.  This is sometimes referred to as the physical or fragment schema.
+/// Conversion from the fragment schema to the dataset schema is a process
+/// known as evolution.
+struct ARROW_DS_EXPORT ScanV2Options : public compute::ExecNodeOptions {
+  explicit ScanV2Options(std::shared_ptr<Dataset> dataset)
+      : dataset(std::move(dataset)) {}
+
+  /// \brief The dataset to scan
+  std::shared_ptr<Dataset> dataset;
+  /// \brief A row filter
+  ///
+  /// The filter expression should be written against the dataset schema.
+  /// The filter must be unbound.
+  ///
+  /// This is an opportunistic pushdown filter.  Filtering capabilities will
+  /// vary between formats.  If a format is not capable of applying the filter
+  /// then it will ignore it.
+  ///
+  /// Each fragment will do its best to filter the data based on the information
+  /// (partitioning guarantees, statistics) available to it.  If it is able to
+  /// apply some filtering then it will indicate what filtering it was able to
+  /// apply by attaching a guarantee to the batch.
+  ///
+  /// For example, if a filter is x < 50 && y > 40 then a batch may be able to
+  /// apply a guarantee x < 50.  Post-scan filtering would then only need to
+  /// consider y > 40 (for this specific batch).  The next batch may not be able
+  /// to attach any guarantee and both clauses would need to be applied to that batch.
+  ///
+  /// A single guarantee-aware filtering operation should generally be applied to all
+  /// resulting batches.  The scan node is not responsible for this.
+  ///
+  /// Fields that are referenced by the filter should be included in the `columns` vector.
+  /// The scan node will not automatically fetch fields referenced by the filter
+  /// expression. \see AddFieldsNeededForFilter
+  ///
+  /// If the filter references fields that are not included in `columns` this may or may
+  /// not be an error, depending on the format.
+  compute::Expression filter = compute::literal(true);
+
+  /// \brief The columns to scan
+  ///
+  /// This is not a simple list of top-level column indices but instead a set of paths
+  /// allowing for partial selection of columns
+  ///
+  /// These paths refer to the dataset schema
+  ///
+  /// For example, consider the following dataset schema:
+  ///   schema({
+  ///     field("score", int32()),
+  ///           "marker", struct_({
+  ///              field("color", utf8()),
+  ///              field("location", struct_({
+  ///                  field("x", float64()),
+  ///                  field("y", float64())
+  ///              })
+  ///          })
+  ///   })
+  ///
+  /// If `columns` is {{0}, {1,1,0}} then the output schema is:
+  ///   schema({field("score", int32()), field("x", float64())})
+  ///
+  /// If `columns` is {{1,1,1}, {1,1}} then the output schema is:
+  ///   schema({
+  ///       field("y", float64()),
+  ///       field("location", struct_({
+  ///           field("x", float64()),
+  ///           field("y", float64())
+  ///       })
+  ///   })
+  std::vector<FieldPath> columns;
+
+  /// \brief Target number of bytes to read ahead in a fragment
+  ///
+  /// This limit involves some amount of estimation.  Formats typically only know
+  /// batch boundaries in terms of rows (not decoded bytes) and so an estimation
+  /// must be done to guess the average row size.  Other formats like CSV and JSON
+  /// must make even more generalized guesses.
+  ///
+  /// This is a best-effort guide.  Some formats may need to read ahead further,
+  /// for example, if scanning a parquet file that has batches with 100MiB of data
+  /// then the actual readahead will be at least 100MiB
+  ///
+  /// Set to 0 to disable readhead.  When disabled, the scanner will read the
+  /// dataset one batch at a time
+  ///
+  /// This limit applies across all fragments.  If the limit is 32MiB and the
+  /// fragment readahead allows for 20 fragments to be read at once then the
+  /// total readahead will still be 32MiB and NOT 20 * 32MiB.
+  int32_t target_bytes_readahead = kDefaultBytesReadahead;
+
+  /// \brief Number of fragments to read ahead
+  ///
+  /// Higher readahead will potentially lead to more efficient I/O but will lead
+  /// to the scan operation using more RAM.  The default is fairly conservative
+  /// and designed for fast local disks (or slow local spinning disks which cannot
+  /// handle much parallelism anyways).  When using a highly parallel remote filesystem
+  /// you will likely want to increase these values.
+  ///
+  /// Set to 0 to disable fragment readahead.  When disabled the dataset will be scanned
+  /// one fragment at a time.
+  int32_t fragment_readahead = kDefaultFragmentReadahead;
+  /// \brief Options specific to the file format
+  const FragmentScanOptions* format_options = NULLPTR;
+
+  /// \brief Utility method to get a selection representing all columns in a dataset
+  static std::vector<FieldPath> AllColumns(const Schema& dataset_schema);
+
+  /// \brief Utility method to add fields needed for the current filter
+  ///
+  /// This method adds any fields that are needed by `filter` which are not already
+  /// included in the list of columns.  Any new fields added will be added to the end
+  /// in no particular order.
+  static Status AddFieldsNeededForFilter(ScanV2Options* options);
+};
+
 /// \brief Describes a projection
 struct ARROW_DS_EXPORT ProjectionDescr {
   /// \brief The projection expression itself
@@ -293,6 +419,7 @@ class ARROW_DS_EXPORT Scanner {
   /// This method will push down the predicate and compute the result based on fragment
   /// metadata if possible.
   virtual Result<int64_t> CountRows() = 0;
+  virtual Future<int64_t> CountRowsAsync() = 0;
   /// \brief Convert the Scanner to a RecordBatchReader so it can be
   /// easily used with APIs that expect a reader.
   virtual Result<std::shared_ptr<RecordBatchReader>> ToRecordBatchReader() = 0;
@@ -373,9 +500,6 @@ class ARROW_DS_EXPORT ScannerBuilder {
   ///        ThreadPool found in ScanOptions;
   Status UseThreads(bool use_threads = true);
 
-  /// \brief Limit how many fragments the scanner will read at once
-  Status FragmentReadahead(int fragment_readahead);
-
   /// \brief Set the maximum number of rows per RecordBatch.
   ///
   /// \param[in] batch_size the maximum number of rows.
@@ -384,6 +508,24 @@ class ARROW_DS_EXPORT ScannerBuilder {
   /// This option provides a control limiting the memory owned by any RecordBatch.
   Status BatchSize(int64_t batch_size);
 
+  /// \brief Set the number of batches to read ahead within a fragment.
+  ///
+  /// \param[in] batch_readahead How many batches to read ahead within a fragment
+  /// \returns an error if this number is less than 0.
+  ///
+  /// This option provides a control on the RAM vs I/O tradeoff.
+  /// It might not be supported by all file formats, in which case it will
+  /// simply be ignored.
+  Status BatchReadahead(int32_t batch_readahead);
+
+  /// \brief Set the number of fragments to read ahead
+  ///
+  /// \param[in] fragment_readahead How many fragments to read ahead
+  /// \returns an error if this number is less than 0.
+  ///
+  /// This option provides a control on the RAM vs I/O tradeoff.
+  Status FragmentReadahead(int32_t fragment_readahead);
+
   /// \brief Set the pool from which materialized and scanned arrays will be allocated.
   Status Pool(MemoryPool* pool);
 
@@ -393,6 +535,9 @@ class ARROW_DS_EXPORT ScannerBuilder {
   /// \brief Override default backpressure configuration
   Status Backpressure(compute::BackpressureOptions backpressure);
 
+  /// \brief Return the current scan options for the builder.
+  Result<std::shared_ptr<ScanOptions>> GetScanOptions();
+
   /// \brief Return the constructed now-immutable Scanner object
   Result<std::shared_ptr<Scanner>> Finish();
 
@@ -427,6 +572,7 @@ class ARROW_DS_EXPORT ScanNodeOptions : public compute::ExecNodeOptions {
 
 namespace internal {
 ARROW_DS_EXPORT void InitializeScanner(arrow::compute::ExecFactoryRegistry* registry);
+ARROW_DS_EXPORT void InitializeScannerV2(arrow::compute::ExecFactoryRegistry* registry);
 }  // namespace internal
 }  // namespace dataset
 }  // namespace arrow
diff --git a/cpp/src/arrow/dataset/scanner_benchmark.cc b/cpp/src/arrow/dataset/scanner_benchmark.cc
index 6d314d9d9a6..448082feb9e 100644
--- a/cpp/src/arrow/dataset/scanner_benchmark.cc
+++ b/cpp/src/arrow/dataset/scanner_benchmark.cc
@@ -96,113 +96,172 @@ std::shared_ptr<Schema> GetSchema() {
 
 size_t GetBytesForSchema() { return sizeof(int32_t) + sizeof(bool); }
 
-void MinimalEndToEndScan(size_t num_batches, size_t batch_size, bool async_mode) {
-  // NB: This test is here for didactic purposes
-
-  // Specify a MemoryPool and ThreadPool for the ExecPlan
-  compute::ExecContext exec_context(default_memory_pool(),
-                                    ::arrow::internal::GetCpuThreadPool());
-
+void MinimalEndToEndScan(
+    size_t num_batches, size_t batch_size, const std::string& factory_name,
+    std::function<Result<std::shared_ptr<compute::ExecNodeOptions>>(size_t, size_t)>
+        options_factory) {
   // ensure arrow::dataset node factories are in the registry
   ::arrow::dataset::internal::Initialize();
 
-  // A ScanNode is constructed from an ExecPlan (into which it is inserted),
-  // a Dataset (whose batches will be scanned), and ScanOptions (to specify a filter for
-  // predicate pushdown, a projection to skip materialization of unnecessary columns,
+  // A ScanNode is constructed from a Dataset (whose batches will be scanned), and
+  // ScanOptions (to specify a filter for predicate pushdown, a projection to skip
+  // materialization of unnecessary columns,
   // ...)
-  ASSERT_OK_AND_ASSIGN(std::shared_ptr<compute::ExecPlan> plan,
-                       compute::ExecPlan::Make(&exec_context));
-
   RecordBatchVector batches = GetBatches(num_batches, batch_size);
 
   std::shared_ptr<Dataset> dataset =
       std::make_shared<InMemoryDataset>(GetSchema(), batches);
 
-  auto options = std::make_shared<ScanOptions>();
-  // specify the filter
-  compute::Expression b_is_true = field_ref("b");
-  options->filter = b_is_true;
-  // for now, specify the projection as the full project expression (eventually this can
-  // just be a list of materialized field names)
-  compute::Expression a_times_2 = call("multiply", {field_ref("a"), literal(2)});
-  options->projection =
-      call("make_struct", {a_times_2}, compute::MakeStructOptions{{"a * 2"}});
+  ASSERT_OK_AND_ASSIGN(std::shared_ptr<compute::ExecNodeOptions> node_options,
+                       options_factory(num_batches, batch_size));
 
   // construct the scan node
-  ASSERT_OK_AND_ASSIGN(
-      compute::ExecNode * scan,
-      compute::MakeExecNode("scan", plan.get(), {}, ScanNodeOptions{dataset, options}));
+  compute::Declaration scan(factory_name, std::move(node_options));
 
   // pipe the scan node into a filter node
-  ASSERT_OK_AND_ASSIGN(
-      compute::ExecNode * filter,
-      compute::MakeExecNode("filter", plan.get(), {scan},
-                            compute::FilterNodeOptions{b_is_true, async_mode}));
+  compute::Expression b_is_true = equal(field_ref("b"), literal(true));
+  compute::Declaration filter("filter", {std::move(scan)},
+                              compute::FilterNodeOptions{b_is_true});
 
   // pipe the filter node into a project node
   // NB: we're using the project node factory which preserves fragment/batch index
   // tagging, so we *can* reorder later if we choose. The tags will not appear in
   // our output.
-  ASSERT_OK_AND_ASSIGN(
-      compute::ExecNode * project,
-      compute::MakeExecNode("augmented_project", plan.get(), {filter},
-                            compute::ProjectNodeOptions{{a_times_2}, {}, async_mode}));
+  compute::Expression a_times_2 = call("multiply", {field_ref("a"), literal(2)});
+  compute::Declaration project("project", {std::move(filter)},
+                               compute::ProjectNodeOptions{{a_times_2}, {"a*2"}});
+
+  // Consume the plan and transform into a table
+  ASSERT_OK_AND_ASSIGN(std::shared_ptr<Table> collected,
+                       compute::DeclarationToTable(std::move(project)));
+
+  ASSERT_GT(collected->num_rows(), 0);
+}
 
-  // finally, pipe the project node into a sink node
-  AsyncGenerator<util::optional<compute::ExecBatch>> sink_gen;
-  ASSERT_OK_AND_ASSIGN(compute::ExecNode * sink,
-                       compute::MakeExecNode("sink", plan.get(), {project},
-                                             compute::SinkNodeOptions{&sink_gen}));
+void ScanOnly(
+    size_t num_batches, size_t batch_size, const std::string& factory_name,
+    std::function<Result<std::shared_ptr<compute::ExecNodeOptions>>(size_t, size_t)>
+        options_factory) {
+  // ensure arrow::dataset node factories are in the registry
+  ::arrow::dataset::internal::Initialize();
+
+  RecordBatchVector batches = GetBatches(num_batches, batch_size);
 
-  ASSERT_NE(sink, nullptr);
+  std::shared_ptr<Dataset> dataset =
+      std::make_shared<InMemoryDataset>(GetSchema(), batches);
 
-  // translate sink_gen (async) to sink_reader (sync)
-  std::shared_ptr<RecordBatchReader> sink_reader = compute::MakeGeneratorReader(
-      schema({field("a * 2", int32())}), std::move(sink_gen), exec_context.memory_pool());
+  ASSERT_OK_AND_ASSIGN(std::shared_ptr<compute::ExecNodeOptions> node_options,
+                       options_factory(num_batches, batch_size));
 
-  // start the ExecPlan
-  ASSERT_OK(plan->StartProducing());
+  // construct the plan
+  compute::Declaration scan(factory_name, std::move(node_options));
 
-  // collect sink_reader into a Table
-  ASSERT_OK_AND_ASSIGN(auto collected, Table::FromRecordBatchReader(sink_reader.get()));
+  ASSERT_OK_AND_ASSIGN(std::shared_ptr<Table> collected,
+                       compute::DeclarationToTable(std::move(scan)));
 
   ASSERT_GT(collected->num_rows(), 0);
-
-  // wait 1s for completion
-  ASSERT_TRUE(plan->finished().Wait(/*seconds=*/1)) << "ExecPlan didn't finish within 1s";
+  ASSERT_EQ(collected->num_columns(), 2);
 }
 
+static constexpr int kScanIdx = 0;
+static constexpr int kScanV2Idx = 1;
+
+const std::function<Result<std::shared_ptr<compute::ExecNodeOptions>>(size_t, size_t)>
+    kScanFactory = [](size_t num_batches, size_t batch_size) {
+      RecordBatchVector batches = GetBatches(num_batches, batch_size);
+      std::shared_ptr<Dataset> dataset =
+          std::make_shared<InMemoryDataset>(GetSchema(), std::move(batches));
+
+      std::shared_ptr<ScanOptions> options = std::make_shared<ScanOptions>();
+      // specify the filter
+      compute::Expression b_is_true = equal(field_ref("b"), literal(true));
+      options->filter = b_is_true;
+      options->projection = call("make_struct", {field_ref("a"), field_ref("b")},
+                                 compute::MakeStructOptions{{"a", "b"}});
+
+      return std::make_shared<ScanNodeOptions>(std::move(dataset), std::move(options));
+    };
+
+const std::function<Result<std::shared_ptr<compute::ExecNodeOptions>>(size_t, size_t)>
+    kScanV2Factory =
+        [](size_t num_batches,
+           size_t batch_size) -> Result<std::shared_ptr<compute::ExecNodeOptions>> {
+  RecordBatchVector batches = GetBatches(num_batches, batch_size);
+  std::shared_ptr<Schema> sch = GetSchema();
+  std::shared_ptr<Dataset> dataset =
+      std::make_shared<InMemoryDataset>(sch, std::move(batches));
+
+  std::shared_ptr<ScanV2Options> options = std::make_shared<ScanV2Options>(dataset);
+  // specify the filter
+  compute::Expression b_is_true = equal(field_ref("b"), literal(true));
+  options->filter = b_is_true;
+  options->columns = ScanV2Options::AllColumns(*dataset->schema());
+
+  return options;
+};
+
 static void MinimalEndToEndBench(benchmark::State& state) {
   size_t num_batches = state.range(0);
   size_t batch_size = state.range(1);
-  bool async_mode = state.range(2);
+
+  std::function<Result<std::shared_ptr<compute::ExecNodeOptions>>(size_t, size_t)>
+      options_factory;
+  std::string scan_factory = "scan";
+  if (state.range(2) == kScanIdx) {
+    options_factory = kScanFactory;
+  } else if (state.range(2) == kScanV2Idx) {
+    options_factory = kScanV2Factory;
+    scan_factory = "scan2";
+  }
 
   for (auto _ : state) {
-    MinimalEndToEndScan(num_batches, batch_size, async_mode);
+    MinimalEndToEndScan(num_batches, batch_size, scan_factory, options_factory);
   }
+
   state.SetItemsProcessed(state.iterations() * num_batches);
   state.SetBytesProcessed(state.iterations() * num_batches * batch_size *
                           GetBytesForSchema());
 }
 
-static const std::vector<int32_t> kWorkload = {100, 1000, 10000, 100000};
+static void ScanOnlyBench(benchmark::State& state) {
+  size_t num_batches = state.range(0);
+  size_t batch_size = state.range(1);
+
+  std::function<Result<std::shared_ptr<compute::ExecNodeOptions>>(size_t, size_t)>
+      options_factory;
+  std::string scan_factory = "scan";
+  if (state.range(2) == kScanIdx) {
+    options_factory = kScanFactory;
+  } else if (state.range(2) == kScanV2Idx) {
+    options_factory = kScanV2Factory;
+    scan_factory = "scan2";
+  }
+
+  for (auto _ : state) {
+    ScanOnly(num_batches, batch_size, scan_factory, options_factory);
+  }
+  state.SetItemsProcessed(state.iterations() * num_batches);
+  state.SetBytesProcessed(state.iterations() * num_batches * batch_size *
+                          GetBytesForSchema());
+}
 
-static void MinimalEndToEnd_Customize(benchmark::internal::Benchmark* b) {
-  for (const int32_t num_batches : kWorkload) {
+static void ScanBenchmark_Customize(benchmark::internal::Benchmark* b) {
+  for (const int32_t num_batches : {1000}) {
     for (const int batch_size : {10, 100, 1000}) {
-      for (const bool async_mode : {true, false}) {
-        b->Args({num_batches, batch_size, async_mode});
+      for (const int scan_idx : {kScanIdx, kScanV2Idx}) {
+        b->Args({num_batches, batch_size, scan_idx});
         RecordBatchVector batches =
             ::arrow::compute::GenerateBatches(GetSchema(), num_batches, batch_size);
         StoreBatches(num_batches, batch_size, batches);
       }
     }
   }
-  b->ArgNames({"num_batches", "batch_size", "async_mode"});
+  b->ArgNames({"num_batches", "batch_size", "scan_alg"});
   b->UseRealTime();
 }
 
-BENCHMARK(MinimalEndToEndBench)->Apply(MinimalEndToEnd_Customize);
+BENCHMARK(MinimalEndToEndBench)->Apply(ScanBenchmark_Customize);
+BENCHMARK(ScanOnlyBench)->Apply(ScanBenchmark_Customize);
 
 }  // namespace dataset
 }  // namespace arrow
diff --git a/cpp/src/arrow/dataset/scanner_test.cc b/cpp/src/arrow/dataset/scanner_test.cc
index 804e82b57db..ea36db4b279 100644
--- a/cpp/src/arrow/dataset/scanner_test.cc
+++ b/cpp/src/arrow/dataset/scanner_test.cc
@@ -18,6 +18,7 @@
 #include "arrow/dataset/scanner.h"
 
 #include <memory>
+#include <mutex>
 #include <utility>
 
 #include <gmock/gmock.h>
@@ -28,6 +29,8 @@
 #include "arrow/compute/cast.h"
 #include "arrow/compute/exec/exec_plan.h"
 #include "arrow/compute/exec/expression_internal.h"
+#include "arrow/compute/exec/test_util.h"
+#include "arrow/dataset/dataset_internal.h"
 #include "arrow/dataset/plan.h"
 #include "arrow/dataset/test_util.h"
 #include "arrow/record_batch.h"
@@ -39,12 +42,15 @@
 #include "arrow/testing/gtest_util.h"
 #include "arrow/testing/matchers.h"
 #include "arrow/testing/util.h"
+#include "arrow/util/byte_size.h"
 #include "arrow/util/range.h"
 #include "arrow/util/thread_pool.h"
 #include "arrow/util/vector.h"
 
+#include "arrow/dataset/file_ipc.h"
+#include "arrow/ipc/writer.h"
+
 using testing::ElementsAre;
-using testing::IsEmpty;
 using testing::UnorderedElementsAreArray;
 
 namespace arrow {
@@ -54,6 +60,785 @@ using internal::Iota;
 
 namespace dataset {
 
+// The basic evolution strategy doesn't really need any info from the dataset
+// or the fragment other than the schema so we just make a dummy dataset/fragment
+// here.
+std::unique_ptr<Dataset> MakeDatasetFromSchema(std::shared_ptr<Schema> sch) {
+  return std::make_unique<InMemoryDataset>(std::move(sch), RecordBatchVector{});
+}
+
+std::unique_ptr<Fragment> MakeSomeFragment(std::shared_ptr<Schema> sch) {
+  return std::make_unique<InMemoryFragment>(std::move(sch), RecordBatchVector{});
+}
+
+TEST(BasicEvolution, MissingColumn) {
+  std::unique_ptr<DatasetEvolutionStrategy> strategy =
+      MakeBasicDatasetEvolutionStrategy();
+
+  std::shared_ptr<Schema> dataset_schema =
+      schema({field("A", int32()), field("B", int16()), field("C", int64())});
+  std::unique_ptr<Dataset> dataset = MakeDatasetFromSchema(dataset_schema);
+  std::unique_ptr<Fragment> fragment = MakeSomeFragment(std::move(dataset_schema));
+
+  InspectedFragment inspected{{"A", "B"}};
+  std::unique_ptr<FragmentEvolutionStrategy> fragment_strategy =
+      strategy->GetStrategy(*dataset, *fragment, inspected);
+
+  compute::Expression filter = equal(field_ref("C"), literal(INT64_C(7)));
+  // If, after simplification, a filter somehow still references a missing field
+  // then it is an error.
+  ASSERT_RAISES(Invalid, fragment_strategy->DevolveFilter(filter));
+  std::vector<FieldPath> selection{FieldPath({0}), FieldPath({2})};
+  // Basic strategy should provide is_null guarantee for missing fields
+  compute::Expression expected_guarantee = is_null(field_ref(2));
+  ASSERT_OK_AND_ASSIGN(compute::Expression guarantee,
+                       fragment_strategy->GetGuarantee(selection));
+  ASSERT_EQ(expected_guarantee, guarantee);
+
+  // Basic strategy should drop missing fields from selection
+  ASSERT_OK_AND_ASSIGN(std::vector<FragmentSelectionColumn> devolved_selection,
+                       fragment_strategy->DevolveSelection(selection));
+  ASSERT_EQ(1, devolved_selection.size());
+  ASSERT_EQ(FieldPath({0}), devolved_selection[0].path);
+  ASSERT_EQ(*int32(), *devolved_selection[0].requested_type);
+
+  // Basic strategy should append null column to batches for missing column
+  std::shared_ptr<RecordBatch> devolved_batch =
+      RecordBatchFromJSON(schema({field("A", int32())}), R"([[1], [2], [3]])");
+  ASSERT_OK_AND_ASSIGN(
+      compute::ExecBatch evolved_batch,
+      fragment_strategy->EvolveBatch(devolved_batch, selection, devolved_selection));
+  ASSERT_EQ(2, evolved_batch.values.size());
+  AssertArraysEqual(*devolved_batch->column(0), *evolved_batch[0].make_array());
+  ASSERT_EQ(*MakeNullScalar(int64()), *evolved_batch.values[1].scalar());
+}
+
+TEST(BasicEvolution, ReorderedColumns) {
+  std::unique_ptr<DatasetEvolutionStrategy> strategy =
+      MakeBasicDatasetEvolutionStrategy();
+
+  std::shared_ptr<Schema> dataset_schema =
+      schema({field("A", int32()), field("B", int16()), field("C", int64())});
+  std::unique_ptr<Dataset> dataset = MakeDatasetFromSchema(dataset_schema);
+  std::unique_ptr<Fragment> fragment = MakeSomeFragment(std::move(dataset_schema));
+
+  InspectedFragment inspected{{"C", "B", "A"}};
+  std::unique_ptr<FragmentEvolutionStrategy> fragment_strategy =
+      strategy->GetStrategy(*dataset, *fragment, inspected);
+
+  compute::Expression filter = equal(field_ref("C"), literal(INT64_C(7)));
+  compute::Expression fragment_filter = equal(field_ref(0), literal(INT64_C(7)));
+  // Devolved filter should have updated indices
+  ASSERT_OK_AND_ASSIGN(compute::Expression devolved,
+                       fragment_strategy->DevolveFilter(filter));
+  ASSERT_EQ(fragment_filter, devolved);
+  std::vector<FieldPath> selection{FieldPath({0}), FieldPath({2})};
+  // No guarantees if simply reordering
+  compute::Expression expected_guarantee = literal(true);
+  ASSERT_OK_AND_ASSIGN(compute::Expression guarantee,
+                       fragment_strategy->GetGuarantee(selection));
+  ASSERT_EQ(expected_guarantee, guarantee);
+
+  // Devolved selection should have correct indices
+  ASSERT_OK_AND_ASSIGN(std::vector<FragmentSelectionColumn> devolved_selection,
+                       fragment_strategy->DevolveSelection(selection));
+  ASSERT_EQ(2, devolved_selection.size());
+  ASSERT_EQ(FieldPath({2}), devolved_selection[0].path);
+  ASSERT_EQ(FieldPath({0}), devolved_selection[1].path);
+  ASSERT_EQ(*int32(), *devolved_selection[0].requested_type);
+  ASSERT_EQ(*int64(), *devolved_selection[1].requested_type);
+
+  // Basic strategy should append null column to batches for missing column
+  std::shared_ptr<RecordBatch> devolved_batch = RecordBatchFromJSON(
+      schema({field("C", int64()), field("A", int32())}), R"([[1,4], [2,5], [3,6]])");
+  ASSERT_OK_AND_ASSIGN(
+      compute::ExecBatch evolved_batch,
+      fragment_strategy->EvolveBatch(devolved_batch, selection, devolved_selection));
+  ASSERT_EQ(2, evolved_batch.values.size());
+  AssertArraysEqual(*devolved_batch->column(0), *evolved_batch[0].make_array());
+  AssertArraysEqual(*devolved_batch->column(1), *evolved_batch[1].make_array());
+}
+
+struct MockScanTask {
+  explicit MockScanTask(std::shared_ptr<RecordBatch> batch) : batch(std::move(batch)) {}
+
+  std::shared_ptr<RecordBatch> batch;
+  Future<std::shared_ptr<RecordBatch>> batch_future =
+      Future<std::shared_ptr<RecordBatch>>::Make();
+};
+
+// Wraps access to std::default_random_engine to ensure only one thread
+// at a time is using it
+class ConcurrentGen {
+ public:
+  explicit ConcurrentGen(std::default_random_engine* gen) : gen_(gen) {}
+  void With(std::function<void(std::default_random_engine*)> task) {
+    std::lock_guard lk(mutex_);
+    task(gen_);
+  }
+
+ private:
+  std::default_random_engine* gen_;
+  std::mutex mutex_;
+};
+
+struct MockFragmentScanner : public FragmentScanner {
+  explicit MockFragmentScanner(std::vector<MockScanTask> scan_tasks)
+      : scan_tasks_(std::move(scan_tasks)), has_started_(scan_tasks_.size(), false) {}
+
+  // ### FragmentScanner API ###
+  Future<std::shared_ptr<RecordBatch>> ScanBatch(int batch_number) override {
+    has_started_[batch_number] = true;
+    return scan_tasks_[batch_number].batch_future;
+  }
+  int64_t EstimatedDataBytes(int batch_number) override {
+    return util::TotalBufferSize(*scan_tasks_[batch_number].batch);
+  }
+  int NumBatches() override { return static_cast<int>(scan_tasks_.size()); }
+
+  // ### Unit Test API ###
+  void DeliverBatches(bool slow, const std::vector<MockScanTask>& to_deliver) {
+    for (MockScanTask task : to_deliver) {
+      if (slow) {
+        std::ignore = SleepABitAsync().Then(
+            [task]() mutable { task.batch_future.MarkFinished(task.batch); });
+      } else {
+        task.batch_future.MarkFinished(task.batch);
+      }
+    }
+  }
+
+  void DeliverBatchesInOrder(bool slow) { DeliverBatches(slow, scan_tasks_); }
+
+  void DeliverBatchesRandomly(bool slow, ConcurrentGen* gen) {
+    std::vector<MockScanTask> shuffled_tasks(scan_tasks_);
+    gen->With([&](std::default_random_engine* gen_instance) {
+      std::shuffle(shuffled_tasks.begin(), shuffled_tasks.end(), *gen_instance);
+    });
+    DeliverBatches(slow, shuffled_tasks);
+  }
+
+  bool HasStarted(int batch_number) { return has_started_[batch_number]; }
+  bool HasDelivered(int batch_number) {
+    return scan_tasks_[batch_number].batch_future.is_finished();
+  }
+
+  std::vector<MockScanTask> scan_tasks_;
+  std::vector<bool> has_started_;
+};
+
+struct MockFragment : public Fragment {
+  // ### Fragment API ###
+
+  MockFragment(std::shared_ptr<Schema> fragment_schema,
+               std::vector<MockScanTask> scan_tasks,
+               std::shared_ptr<InspectedFragment> inspected,
+               compute::Expression partition_expression)
+      : Fragment(std::move(partition_expression), std::move(fragment_schema)),
+        fragment_scanner_(std::make_shared<MockFragmentScanner>(std::move(scan_tasks))),
+        inspected_(std::move(inspected)) {}
+
+  Result<RecordBatchGenerator> ScanBatchesAsync(
+      const std::shared_ptr<ScanOptions>& options) override {
+    return Status::Invalid("Not implemented because not needed by unit tests");
+  };
+
+  Future<std::shared_ptr<InspectedFragment>> InspectFragment(
+      const FragmentScanOptions* format_options,
+      compute::ExecContext* exec_context) override {
+    has_inspected_ = true;
+    return inspected_future_;
+  }
+
+  Future<std::shared_ptr<FragmentScanner>> BeginScan(
+      const FragmentScanRequest& request, const InspectedFragment& inspected_fragment,
+      const FragmentScanOptions* format_options,
+      compute::ExecContext* exec_context) override {
+    has_started_ = true;
+    seen_request_ = request;
+    return fragment_scanner_future_;
+  }
+
+  Future<std::optional<int64_t>> CountRows(
+      compute::Expression predicate,
+      const std::shared_ptr<ScanOptions>& options) override {
+    return Status::Invalid("Not implemented because not needed by unit tests");
+  }
+
+  std::string type_name() const override { return "mock"; }
+
+  Result<std::shared_ptr<Schema>> ReadPhysicalSchemaImpl() override {
+    return physical_schema_;
+  };
+
+  // ### Unit Test API ###
+
+  void FinishInspection() { inspected_future_.MarkFinished(inspected_); }
+  void FinishScanBegin() { fragment_scanner_future_.MarkFinished(fragment_scanner_); }
+
+  Future<> DeliverInit(bool slow) {
+    if (slow) {
+      return SleepABitAsync().Then([this] {
+        FinishInspection();
+        return SleepABitAsync().Then([this] { FinishScanBegin(); });
+      });
+    } else {
+      FinishInspection();
+      FinishScanBegin();
+      return Future<>::MakeFinished();
+    }
+  }
+
+  void DeliverBatchesInOrder(bool slow) {
+    std::ignore = DeliverInit(slow).Then(
+        [this, slow] { fragment_scanner_->DeliverBatchesInOrder(slow); });
+  }
+
+  Future<> DeliverBatchesRandomly(bool slow, ConcurrentGen* gen) {
+    return DeliverInit(slow).Then(
+        [this, slow, gen] { fragment_scanner_->DeliverBatchesRandomly(slow, gen); });
+  }
+
+  bool has_inspected() { return has_inspected_; }
+  bool has_started() { return has_started_; }
+  bool HasBatchStarted(int batch_index) {
+    return fragment_scanner_->HasStarted(batch_index);
+  }
+  bool HasBatchDelivered(int batch_index) {
+    return fragment_scanner_->HasDelivered(batch_index);
+  }
+
+  std::shared_ptr<MockFragmentScanner> fragment_scanner_;
+  Future<std::shared_ptr<FragmentScanner>> fragment_scanner_future_ =
+      Future<std::shared_ptr<FragmentScanner>>::Make();
+  std::shared_ptr<InspectedFragment> inspected_;
+  Future<std::shared_ptr<InspectedFragment>> inspected_future_ =
+      Future<std::shared_ptr<InspectedFragment>>::Make();
+  std::atomic<bool> has_inspected_{false};
+  std::atomic<bool> has_started_{false};
+  FragmentScanRequest seen_request_;
+};
+
+FragmentVector AsFragmentVector(
+    const std::vector<std::shared_ptr<MockFragment>>& fragments) {
+  FragmentVector frag_vec;
+  frag_vec.insert(frag_vec.end(), fragments.begin(), fragments.end());
+  return frag_vec;
+}
+
+struct MockDataset : public FragmentDataset {
+  MockDataset(std::shared_ptr<Schema> dataset_schema,
+              std::vector<std::shared_ptr<MockFragment>> fragments)
+      : FragmentDataset(std::move(dataset_schema), AsFragmentVector(fragments)),
+        fragments_(std::move(fragments)) {}
+
+  // ### Dataset API ###
+  std::string type_name() const override { return "mock"; }
+
+  Result<std::shared_ptr<Dataset>> ReplaceSchema(
+      std::shared_ptr<Schema> schema) const override {
+    return Status::Invalid("Not needed for unit test");
+  }
+
+  Result<FragmentIterator> GetFragmentsImpl(compute::Expression predicate) override {
+    has_started_ = true;
+    return FragmentDataset::GetFragmentsImpl(std::move(predicate));
+  }
+
+  // ### Unit Test API ###
+  void DeliverBatchesInOrder(bool slow) {
+    for (const auto& fragment : fragments_) {
+      fragment->DeliverBatchesInOrder(slow);
+    }
+  }
+
+  void DeliverBatchesRandomly(bool slow) {
+    const auto seed = ::arrow::internal::GetRandomSeed();
+    std::default_random_engine gen(
+        static_cast<std::default_random_engine::result_type>(seed));
+    ConcurrentGen gen_wrapper(&gen);
+
+    std::vector<std::shared_ptr<MockFragment>> fragments_shuffled(fragments_);
+    std::shuffle(fragments_shuffled.begin(), fragments_shuffled.end(), gen);
+    std::vector<Future<>> deliver_futures;
+    for (const auto& fragment : fragments_shuffled) {
+      deliver_futures.push_back(fragment->DeliverBatchesRandomly(slow, &gen_wrapper));
+    }
+    // Need to wait for fragments to finish init so gen stays valid
+    AllFinished(deliver_futures).Wait();
+  }
+
+  bool has_started() { return has_started_; }
+  bool HasStartedFragment(int fragment_index) {
+    return fragments_[fragment_index]->has_started();
+  }
+  bool HasStartedBatch(int fragment_index, int batch_index) {
+    return fragments_[fragment_index]->HasBatchStarted(batch_index);
+  }
+
+  bool has_started_ = false;
+  std::vector<std::shared_ptr<MockFragment>> fragments_;
+};
+
+struct MockDatasetBuilder {
+  explicit MockDatasetBuilder(std::shared_ptr<Schema> dataset_schema)
+      : dataset_schema(std::move(dataset_schema)) {}
+
+  void AddFragment(
+      std::shared_ptr<Schema> fragment_schema,
+      std::unique_ptr<InspectedFragment> inspection = nullptr,
+      compute::Expression partition_expression = Fragment::kNoPartitionInformation) {
+    if (!inspection) {
+      inspection = std::make_unique<InspectedFragment>(fragment_schema->field_names());
+    }
+    fragments.push_back(std::make_shared<MockFragment>(
+        std::move(fragment_schema), std::vector<MockScanTask>(), std::move(inspection),
+        std::move(partition_expression)));
+    active_fragment = fragments[fragments.size() - 1]->fragment_scanner_.get();
+  }
+
+  void AddBatch(std::shared_ptr<RecordBatch> batch) {
+    active_fragment->scan_tasks_.emplace_back(std::move(batch));
+    active_fragment->has_started_.push_back(false);
+  }
+
+  std::unique_ptr<MockDataset> Finish() {
+    return std::make_unique<MockDataset>(std::move(dataset_schema), std::move(fragments));
+  }
+
+  std::shared_ptr<Schema> dataset_schema;
+  std::vector<std::shared_ptr<MockFragment>> fragments;
+  MockFragmentScanner* active_fragment = nullptr;
+};
+
+template <typename TYPE,
+          typename = typename std::enable_if<arrow::is_integer_type<TYPE>::value>::type>
+std::shared_ptr<Array> ArrayFromRange(int start, int end, bool add_nulls) {
+  using ArrowBuilderType = typename arrow::TypeTraits<TYPE>::BuilderType;
+  ArrowBuilderType builder;
+  ARROW_EXPECT_OK(builder.Reserve(end - start));
+  for (int val = start; val < end; val++) {
+    if (add_nulls && val % 2 == 0) {
+      builder.UnsafeAppendNull();
+    } else {
+      builder.UnsafeAppend(val);
+    }
+  }
+  EXPECT_OK_AND_ASSIGN(std::shared_ptr<Array> range_arr, builder.Finish());
+  return range_arr;
+}
+
+struct ScannerTestParams {
+  bool slow;
+  int num_fragments;
+  int num_batches;
+
+  std::string ToString() const {
+    std::stringstream ss;
+    ss << (slow ? "slow" : "fast") << num_fragments << "f" << num_batches << "b";
+    return ss.str();
+  }
+
+  static std::string ToTestNameString(
+      const ::testing::TestParamInfo<ScannerTestParams>& info) {
+    return info.param.ToString();
+  }
+
+  static std::vector<ScannerTestParams> Values() {
+    std::vector<ScannerTestParams> values;
+    for (bool slow : {false, true}) {
+      values.push_back({slow, 1, 128});
+      values.push_back({slow, 16, 128});
+    }
+    return values;
+  }
+};
+
+std::ostream& operator<<(std::ostream& out, const ScannerTestParams& params) {
+  out << (params.slow ? "slow-" : "fast-") << params.num_fragments << "f-"
+      << params.num_batches << "b";
+  return out;
+}
+
+constexpr int kRowsPerTestBatch = 1024;
+
+std::shared_ptr<Schema> ScannerTestSchema() {
+  return schema({field("row_num", int32()), field("filterable", int16()),
+                 field("nested", struct_({field("x", int32()), field("y", int32())}))});
+}
+
+std::shared_ptr<RecordBatch> MakeTestBatch(int idx) {
+  ArrayVector arrays;
+  // Row number
+  arrays.push_back(ArrayFromRange<Int32Type>(idx * kRowsPerTestBatch,
+                                             (idx + 1) * kRowsPerTestBatch,
+                                             /*add_nulls=*/false));
+  // Filterable
+  arrays.push_back(ArrayFromRange<Int16Type>(0, kRowsPerTestBatch,
+                                             /*add_nulls=*/true));
+  // Nested
+  std::shared_ptr<Array> x_vals =
+      ArrayFromRange<Int32Type>(0, kRowsPerTestBatch, /*add_nulls=*/false);
+  std::shared_ptr<Array> y_vals =
+      ArrayFromRange<Int32Type>(0, kRowsPerTestBatch, /*add_nulls=*/true);
+  EXPECT_OK_AND_ASSIGN(std::shared_ptr<Array> nested_arr,
+                       StructArray::Make({std::move(x_vals), std::move(y_vals)},
+                                         {field("x", int32()), field("y", int32())}));
+  arrays.push_back(std::move(nested_arr));
+  return RecordBatch::Make(ScannerTestSchema(), kRowsPerTestBatch, std::move(arrays));
+}
+
+std::unique_ptr<MockDataset> MakeTestDataset(int num_fragments, int batches_per_fragment,
+                                             bool empty = false) {
+  std::shared_ptr<Schema> test_schema = ScannerTestSchema();
+  MockDatasetBuilder dataset_builder(test_schema);
+  for (int i = 0; i < num_fragments; i++) {
+    dataset_builder.AddFragment(
+        test_schema, std::make_unique<InspectedFragment>(test_schema->field_names()),
+        Fragment::kNoPartitionInformation);
+    for (int j = 0; j < batches_per_fragment; j++) {
+      if (empty) {
+        dataset_builder.AddBatch(
+            RecordBatch::Make(schema({}), kRowsPerTestBatch, ArrayVector{}));
+      } else {
+        dataset_builder.AddBatch(MakeTestBatch(i * batches_per_fragment + j));
+      }
+    }
+  }
+  return dataset_builder.Finish();
+}
+
+class TestScannerBase : public ::testing::TestWithParam<ScannerTestParams> {
+ protected:
+  TestScannerBase() { internal::Initialize(); }
+
+  std::shared_ptr<RecordBatch> MakeExpectedBatch() {
+    RecordBatchVector batches;
+    for (int frag_idx = 0; frag_idx < GetParam().num_fragments; frag_idx++) {
+      for (int batch_idx = 0; batch_idx < GetParam().num_batches; batch_idx++) {
+        batches.push_back(MakeTestBatch(batch_idx + (frag_idx * GetParam().num_batches)));
+      }
+    }
+    EXPECT_OK_AND_ASSIGN(std::shared_ptr<Table> table,
+                         Table::FromRecordBatches(std::move(batches)));
+    EXPECT_OK_AND_ASSIGN(std::shared_ptr<RecordBatch> as_one_batch,
+                         table->CombineChunksToBatch());
+    return as_one_batch;
+  }
+
+  compute::Declaration MakeScanNode(std::shared_ptr<Dataset> dataset) {
+    ScanV2Options options(dataset);
+    options.columns = ScanV2Options::AllColumns(*dataset->schema());
+    return compute::Declaration("scan2", options);
+  }
+
+  RecordBatchVector RunNode(compute::Declaration scan_decl, bool ordered,
+                            MockDataset* mock_dataset) {
+    Future<RecordBatchVector> batches_fut =
+        compute::DeclarationToBatchesAsync(std::move(scan_decl));
+    if (ordered) {
+      mock_dataset->DeliverBatchesInOrder(GetParam().slow);
+    } else {
+      mock_dataset->DeliverBatchesRandomly(GetParam().slow);
+    }
+    EXPECT_FINISHES_OK_AND_ASSIGN(RecordBatchVector record_batches, batches_fut);
+    return record_batches;
+  }
+
+  void CheckScannedBatches(RecordBatchVector batches) {
+    ASSERT_OK_AND_ASSIGN(std::shared_ptr<Table> batches_as_table,
+                         Table::FromRecordBatches(std::move(batches)));
+    ASSERT_OK_AND_ASSIGN(std::shared_ptr<RecordBatch> combined_data,
+                         batches_as_table->CombineChunksToBatch());
+
+    ASSERT_OK_AND_ASSIGN(
+        std::shared_ptr<Array> sort_indices,
+        compute::SortIndices(combined_data->column(0), compute::SortOptions{}));
+    ASSERT_OK_AND_ASSIGN(Datum sorted_data, compute::Take(combined_data, sort_indices));
+
+    std::shared_ptr<RecordBatch> expected_data = MakeExpectedBatch();
+    AssertBatchesEqual(*expected_data, *sorted_data.record_batch());
+  }
+
+  void CheckScanner(bool ordered) {
+    std::shared_ptr<MockDataset> mock_dataset =
+        MakeTestDataset(GetParam().num_fragments, GetParam().num_batches);
+    compute::Declaration scan_decl = MakeScanNode(mock_dataset);
+    RecordBatchVector scanned_batches = RunNode(scan_decl, ordered, mock_dataset.get());
+    CheckScannedBatches(std::move(scanned_batches));
+  }
+};
+
+TEST_P(TestScannerBase, ScanOrdered) { CheckScanner(true); }
+TEST_P(TestScannerBase, ScanUnordered) { CheckScanner(false); }
+
+// FIXME: Add test for scanning no columns
+
+INSTANTIATE_TEST_SUITE_P(BasicNewScannerTests, TestScannerBase,
+                         ::testing::ValuesIn(ScannerTestParams::Values()),
+                         [](const ::testing::TestParamInfo<ScannerTestParams>& info) {
+                           return std::to_string(info.index) + info.param.ToString();
+                         });
+
+void CheckScannerBackpressure(std::shared_ptr<MockDataset> dataset, ScanV2Options options,
+                              int maxConcurrentFragments, int maxConcurrentBatches,
+                              ::arrow::internal::ThreadPool* thread_pool) {
+  // Start scanning
+  compute::Declaration scan_decl = compute::Declaration("scan2", std::move(options));
+  Future<RecordBatchVector> batches_fut =
+      compute::DeclarationToBatchesAsync(std::move(scan_decl));
+
+  auto get_num_inspected = [&] {
+    int num_inspected = 0;
+    for (const auto& frag : dataset->fragments_) {
+      if (frag->has_inspected()) {
+        num_inspected++;
+      }
+    }
+    return num_inspected;
+  };
+  BusyWait(10, [&] {
+    return get_num_inspected() == static_cast<int>(maxConcurrentFragments);
+  });
+  SleepABit();
+  ASSERT_EQ(get_num_inspected(), static_cast<int>(maxConcurrentFragments));
+
+  int total_batches = 0;
+  for (const auto& frag : dataset->fragments_) {
+    total_batches += frag->fragment_scanner_->NumBatches();
+    frag->FinishInspection();
+    frag->FinishScanBegin();
+  }
+
+  int batches_scanned = 0;
+  while (batches_scanned < total_batches) {
+    MockScanTask* next_task_to_deliver = nullptr;
+    thread_pool->WaitForIdle();
+    int batches_started = 0;
+    for (const auto& frag : dataset->fragments_) {
+      for (int i = 0; i < frag->fragment_scanner_->NumBatches(); i++) {
+        if (frag->HasBatchStarted(i)) {
+          batches_started++;
+          if (next_task_to_deliver == nullptr && !frag->HasBatchDelivered(i)) {
+            next_task_to_deliver = &frag->fragment_scanner_->scan_tasks_[i];
+          }
+        }
+      }
+    }
+    ASSERT_LE(batches_started - batches_scanned, maxConcurrentBatches)
+        << " too many scan tasks were allowed to run";
+    ASSERT_NE(next_task_to_deliver, nullptr);
+    next_task_to_deliver->batch_future.MarkFinished(next_task_to_deliver->batch);
+    batches_scanned++;
+  }
+}
+
+TEST(TestNewScanner, Backpressure) {
+  constexpr int kNumFragments = 4;
+  constexpr int kNumBatchesPerFragment = 4;
+  internal::Initialize();
+  std::shared_ptr<MockDataset> test_dataset =
+      MakeTestDataset(kNumFragments, kNumBatchesPerFragment);
+
+  ScanV2Options options(test_dataset);
+
+  // No readahead
+  options.dataset = test_dataset;
+  options.columns = ScanV2Options::AllColumns(*test_dataset->schema());
+  options.fragment_readahead = 0;
+  options.target_bytes_readahead = 0;
+  CheckScannerBackpressure(test_dataset, options, 1, 1,
+                           ::arrow::internal::GetCpuThreadPool());
+
+  // Some readahead
+  test_dataset = MakeTestDataset(kNumFragments, kNumBatchesPerFragment);
+  options = ScanV2Options(test_dataset);
+  options.columns = ScanV2Options::AllColumns(*test_dataset->schema());
+  options.fragment_readahead = 4;
+  // each batch should be 14Ki so 50Ki readahead should yield 3-at-a-time
+  options.target_bytes_readahead = 50 * kRowsPerTestBatch;
+  CheckScannerBackpressure(test_dataset, options, 4, 3,
+                           ::arrow::internal::GetCpuThreadPool());
+}
+
+TEST(TestNewScanner, NestedRead) {
+  // This tests the case where the file format does not support
+  // handling nested reads (e.g. JSON) and so the scanner must
+  // drop the extra data
+  internal::Initialize();
+  std::shared_ptr<Schema> test_schema = ScannerTestSchema();
+  MockDatasetBuilder builder(test_schema);
+  builder.AddFragment(test_schema);
+  std::shared_ptr<RecordBatch> batch = MakeTestBatch(0);
+  ASSERT_OK_AND_ASSIGN(std::shared_ptr<Array> nested_col, FieldPath({2, 0}).Get(*batch));
+  std::shared_ptr<RecordBatch> one_column = RecordBatch::Make(
+      schema({field("x", int32())}), batch->num_rows(), ArrayVector{nested_col});
+  builder.AddBatch(std::move(one_column));
+  std::shared_ptr<MockDataset> test_dataset = builder.Finish();
+  test_dataset->DeliverBatchesInOrder(false);
+
+  ScanV2Options options(test_dataset);
+  // nested.x
+  options.columns = {FieldPath({2, 0})};
+  ASSERT_OK_AND_ASSIGN(std::vector<std::shared_ptr<RecordBatch>> batches,
+                       compute::DeclarationToBatches({"scan2", options}));
+  ASSERT_EQ(1, batches.size());
+  for (const auto& batch : batches) {
+    ASSERT_EQ("x", batch->schema()->field(0)->name());
+    ASSERT_EQ(*int32(), *batch->schema()->field(0)->type());
+    ASSERT_EQ(*int32(), *batch->column(0)->type());
+  }
+  const FragmentScanRequest& seen_request = test_dataset->fragments_[0]->seen_request_;
+  ASSERT_EQ(1, seen_request.columns.size());
+  ASSERT_EQ(FieldPath({2, 0}), seen_request.columns[0].path);
+  ASSERT_EQ(*int32(), *seen_request.columns[0].requested_type);
+  ASSERT_EQ(0, seen_request.columns[0].selection_index);
+}
+
+std::shared_ptr<MockDataset> MakePartitionSkipDataset() {
+  std::shared_ptr<Schema> test_schema = ScannerTestSchema();
+  MockDatasetBuilder builder(test_schema);
+  builder.AddFragment(test_schema, /*inspection=*/nullptr,
+                      greater(field_ref({1}), literal(50)));
+  builder.AddBatch(MakeTestBatch(0));
+  builder.AddFragment(test_schema, /*inspection=*/nullptr,
+                      less_equal(field_ref({1}), literal(50)));
+  builder.AddBatch(MakeTestBatch(1));
+  return builder.Finish();
+}
+
+TEST(TestNewScanner, PartitionSkip) {
+  internal::Initialize();
+  std::shared_ptr<MockDataset> test_dataset = MakePartitionSkipDataset();
+  test_dataset->DeliverBatchesInOrder(false);
+
+  ScanV2Options options(test_dataset);
+  options.columns = ScanV2Options::AllColumns(*test_dataset->schema());
+  options.filter = greater(field_ref("filterable"), literal(75));
+
+  ASSERT_OK_AND_ASSIGN(std::vector<std::shared_ptr<RecordBatch>> batches,
+                       compute::DeclarationToBatches({"scan2", options}));
+  ASSERT_EQ(1, batches.size());
+  AssertBatchesEqual(*MakeTestBatch(0), *batches[0]);
+
+  test_dataset = MakePartitionSkipDataset();
+  test_dataset->DeliverBatchesInOrder(false);
+  options = ScanV2Options(test_dataset);
+  options.columns = ScanV2Options::AllColumns(*test_dataset->schema());
+  options.filter = less(field_ref("filterable"), literal(25));
+
+  ASSERT_OK_AND_ASSIGN(batches, compute::DeclarationToBatches({"scan2", options}));
+  ASSERT_EQ(1, batches.size());
+  AssertBatchesEqual(*MakeTestBatch(1), *batches[0]);
+}
+
+TEST(TestNewScanner, NoFragments) {
+  internal::Initialize();
+  std::shared_ptr<Schema> test_schema = ScannerTestSchema();
+  MockDatasetBuilder builder(test_schema);
+  std::shared_ptr<MockDataset> test_dataset = builder.Finish();
+
+  ScanV2Options options(test_dataset);
+  options.columns = ScanV2Options::AllColumns(*test_dataset->schema());
+  ASSERT_OK_AND_ASSIGN(std::vector<std::shared_ptr<RecordBatch>> batches,
+                       compute::DeclarationToBatches({"scan2", options}));
+  ASSERT_EQ(0, batches.size());
+}
+
+TEST(TestNewScanner, EmptyFragment) {
+  internal::Initialize();
+  std::shared_ptr<Schema> test_schema = ScannerTestSchema();
+  MockDatasetBuilder builder(test_schema);
+  builder.AddFragment(test_schema);
+  std::shared_ptr<MockDataset> test_dataset = builder.Finish();
+  test_dataset->DeliverBatchesInOrder(false);
+
+  ScanV2Options options(test_dataset);
+  options.columns = ScanV2Options::AllColumns(*test_dataset->schema());
+  ASSERT_OK_AND_ASSIGN(std::vector<std::shared_ptr<RecordBatch>> batches,
+                       compute::DeclarationToBatches({"scan2", options}));
+  ASSERT_EQ(0, batches.size());
+}
+
+TEST(TestNewScanner, EmptyBatch) {
+  internal::Initialize();
+  std::shared_ptr<Schema> test_schema = ScannerTestSchema();
+  MockDatasetBuilder builder(test_schema);
+  builder.AddFragment(test_schema);
+  ASSERT_OK_AND_ASSIGN(std::shared_ptr<RecordBatch> empty_batch,
+                       RecordBatch::MakeEmpty(test_schema));
+  builder.AddBatch(std::move(empty_batch));
+  std::shared_ptr<MockDataset> test_dataset = builder.Finish();
+  test_dataset->DeliverBatchesInOrder(false);
+
+  ScanV2Options options(test_dataset);
+  options.columns = ScanV2Options::AllColumns(*test_dataset->schema());
+  ASSERT_OK_AND_ASSIGN(std::vector<std::shared_ptr<RecordBatch>> batches,
+                       compute::DeclarationToBatches({"scan2", options}));
+  ASSERT_EQ(0, batches.size());
+}
+
+TEST(TestNewScanner, NoColumns) {
+  constexpr int kNumFragments = 4;
+  constexpr int kNumBatchesPerFragment = 4;
+  internal::Initialize();
+  std::shared_ptr<MockDataset> test_dataset =
+      MakeTestDataset(kNumFragments, kNumBatchesPerFragment, /*empty=*/true);
+  test_dataset->DeliverBatchesInOrder(false);
+
+  ScanV2Options options(test_dataset);
+  ASSERT_OK_AND_ASSIGN(compute::BatchesWithCommonSchema batches_and_schema,
+                       compute::DeclarationToExecBatches({"scan2", options}));
+  ASSERT_EQ(16, batches_and_schema.batches.size());
+  for (const auto& batch : batches_and_schema.batches) {
+    ASSERT_EQ(0, batch.values.size());
+    ASSERT_EQ(kRowsPerTestBatch, batch.length);
+  }
+}
+
+TEST(TestNewScanner, MissingColumn) {
+  internal::Initialize();
+  std::shared_ptr<Schema> test_schema = ScannerTestSchema();
+  MockDatasetBuilder builder(test_schema);
+
+  ASSERT_OK_AND_ASSIGN(std::shared_ptr<Schema> missing_schema,
+                       test_schema->RemoveField(2));
+  builder.AddFragment(missing_schema);
+  std::shared_ptr<RecordBatch> batch = MakeTestBatch(0);
+  // Remove column 2 because we are pretending it doesn't exist
+  // in the fragment
+  ASSERT_OK_AND_ASSIGN(batch, batch->RemoveColumn(2));
+  // Remove column 1 because we aren't going to ask for it
+  ASSERT_OK_AND_ASSIGN(batch, batch->RemoveColumn(1));
+  builder.AddBatch(batch);
+
+  std::shared_ptr<MockDataset> test_dataset = builder.Finish();
+  test_dataset->DeliverBatchesInOrder(false);
+
+  ScanV2Options options(test_dataset);
+  options.columns = {FieldPath({0}), FieldPath({2})};
+
+  ASSERT_OK_AND_ASSIGN(std::vector<std::shared_ptr<RecordBatch>> batches,
+                       compute::DeclarationToBatches({"scan2", options}));
+
+  ASSERT_EQ(1, batches.size());
+  AssertArraysEqual(*batch->column(0), *batches[0]->column(0));
+  ASSERT_OK_AND_ASSIGN(std::shared_ptr<Array> expected_nulls,
+                       MakeArrayOfNull(test_schema->field(2)->type(), kRowsPerTestBatch));
+  AssertArraysEqual(*expected_nulls, *batches[0]->column(1));
+}
+
+void WriteIpcData(const std::string& path,
+                  const std::shared_ptr<fs::FileSystem> file_system,
+                  const std::shared_ptr<Table> input) {
+  EXPECT_OK_AND_ASSIGN(auto out_stream, file_system->OpenOutputStream(path));
+  ASSERT_OK_AND_ASSIGN(
+      auto file_writer,
+      MakeFileWriter(out_stream, input->schema(), ipc::IpcWriteOptions::Defaults()));
+  ASSERT_OK(file_writer->WriteTable(*input));
+  ASSERT_OK(file_writer->Close());
+}
+
 struct TestScannerParams {
   bool use_threads;
   int num_child_datasets;
@@ -99,8 +884,7 @@ class TestScanner : public DatasetFixtureMixinWithParam<TestScannerParams> {
   }
 
   std::shared_ptr<Scanner> MakeScanner(std::shared_ptr<RecordBatch> batch) {
-    std::vector<std::shared_ptr<RecordBatch>> batches{
-        static_cast<size_t>(GetParam().num_batches), batch};
+    RecordBatchVector batches{static_cast<size_t>(GetParam().num_batches), batch};
 
     DatasetVector children{static_cast<size_t>(GetParam().num_child_datasets),
                            std::make_shared<InMemoryDataset>(batch->schema(), batches)};
@@ -307,6 +1091,24 @@ TEST_P(TestScanner, ProjectedScanNested) {
   AssertScanBatchesUnorderedEqualRepetitionsOf(MakeScanner(batch_in), batch_out);
 }
 
+TEST_P(TestScanner, ProjectedScanNestedFromNames) {
+  SetSchema({
+      field("struct", struct_({field("i32", int32()), field("f64", float64())})),
+      field("nested", struct_({field("left", int32()),
+                               field("right", struct_({field("i32", int32()),
+                                                       field("f64", float64())}))})),
+  });
+  ASSERT_OK_AND_ASSIGN(auto descr,
+                       ProjectionDescr::FromNames({".struct.i32", "nested.right.f64"},
+                                                  *options_->dataset_schema))
+  SetProjection(options_.get(), std::move(descr));
+  auto batch_in = ConstantArrayGenerator::Zeroes(GetParam().items_per_batch, schema_);
+  auto batch_out = ConstantArrayGenerator::Zeroes(
+      GetParam().items_per_batch,
+      schema({field("i32", int32()), field("f64", float64())}));
+  AssertScanBatchesUnorderedEqualRepetitionsOf(MakeScanner(batch_in), batch_out);
+}
+
 TEST_P(TestScanner, MaterializeMissingColumn) {
   SetSchema({field("i32", int32()), field("f64", float64())});
   auto batch_missing_f64 = ConstantArrayGenerator::Zeroes(
@@ -334,7 +1136,7 @@ TEST_P(TestScanner, MaterializeMissingColumn) {
 TEST_P(TestScanner, ToTable) {
   SetSchema({field("i32", int32()), field("f64", float64())});
   auto batch = ConstantArrayGenerator::Zeroes(GetParam().items_per_batch, schema_);
-  std::vector<std::shared_ptr<RecordBatch>> batches{
+  RecordBatchVector batches{
       static_cast<std::size_t>(GetParam().num_batches * GetParam().num_child_datasets),
       batch};
 
@@ -453,7 +1255,7 @@ TEST_P(TestScanner, EmptyFragment) {
   SetSchema({field("i32", int32()), field("f64", float64())});
   auto batch = ConstantArrayGenerator::Zeroes(GetParam().items_per_batch, schema_);
   auto empty_batch = ConstantArrayGenerator::Zeroes(0, schema_);
-  std::vector<std::shared_ptr<RecordBatch>> batches{
+  RecordBatchVector batches{
       static_cast<std::size_t>(GetParam().num_batches * GetParam().num_child_datasets),
       batch};
 
@@ -481,16 +1283,16 @@ class CountRowsOnlyFragment : public InMemoryFragment {
  public:
   using InMemoryFragment::InMemoryFragment;
 
-  Future<util::optional<int64_t>> CountRows(
-      compute::Expression predicate, const std::shared_ptr<ScanOptions>&) override {
+  Future<std::optional<int64_t>> CountRows(compute::Expression predicate,
+                                           const std::shared_ptr<ScanOptions>&) override {
     if (compute::FieldsInExpression(predicate).size() > 0) {
-      return Future<util::optional<int64_t>>::MakeFinished(util::nullopt);
+      return Future<std::optional<int64_t>>::MakeFinished(std::nullopt);
     }
     int64_t sum = 0;
     for (const auto& batch : record_batches_) {
       sum += batch->num_rows();
     }
-    return Future<util::optional<int64_t>>::MakeFinished(sum);
+    return Future<std::optional<int64_t>>::MakeFinished(sum);
   }
   Result<RecordBatchGenerator> ScanBatchesAsync(
       const std::shared_ptr<ScanOptions>&) override {
@@ -502,9 +1304,9 @@ class ScanOnlyFragment : public InMemoryFragment {
  public:
   using InMemoryFragment::InMemoryFragment;
 
-  Future<util::optional<int64_t>> CountRows(
-      compute::Expression predicate, const std::shared_ptr<ScanOptions>&) override {
-    return Future<util::optional<int64_t>>::MakeFinished(util::nullopt);
+  Future<std::optional<int64_t>> CountRows(compute::Expression predicate,
+                                           const std::shared_ptr<ScanOptions>&) override {
+    return Future<std::optional<int64_t>>::MakeFinished(std::nullopt);
   }
   Result<RecordBatchGenerator> ScanBatchesAsync(
       const std::shared_ptr<ScanOptions>&) override {
@@ -532,14 +1334,14 @@ class CountFailFragment : public InMemoryFragment {
  public:
   explicit CountFailFragment(RecordBatchVector record_batches)
       : InMemoryFragment(std::move(record_batches)),
-        count(Future<util::optional<int64_t>>::Make()) {}
+        count(Future<std::optional<int64_t>>::Make()) {}
 
-  Future<util::optional<int64_t>> CountRows(
-      compute::Expression, const std::shared_ptr<ScanOptions>&) override {
+  Future<std::optional<int64_t>> CountRows(compute::Expression,
+                                           const std::shared_ptr<ScanOptions>&) override {
     return count;
   }
 
-  Future<util::optional<int64_t>> count;
+  Future<std::optional<int64_t>> count;
 };
 TEST_P(TestScanner, CountRowsFailure) {
   SetSchema({field("i32", int32()), field("f64", float64())});
@@ -557,7 +1359,7 @@ TEST_P(TestScanner, CountRowsFailure) {
   ASSERT_RAISES(Invalid, scanner->CountRows());
   // Fragment 2 doesn't complete until after the count stops - should not break anything
   // under ASan, etc.
-  fragment2->count.MarkFinished(util::nullopt);
+  fragment2->count.MarkFinished(std::nullopt);
 }
 
 TEST_P(TestScanner, CountRowsWithMetadata) {
@@ -582,7 +1384,7 @@ TEST_P(TestScanner, CountRowsWithMetadata) {
 TEST_P(TestScanner, ToRecordBatchReader) {
   SetSchema({field("i32", int32()), field("f64", float64())});
   auto batch = ConstantArrayGenerator::Zeroes(GetParam().items_per_batch, schema_);
-  std::vector<std::shared_ptr<RecordBatch>> batches{
+  RecordBatchVector batches{
       static_cast<std::size_t>(GetParam().num_batches * GetParam().num_child_datasets),
       batch};
 
@@ -1006,7 +1808,6 @@ TEST_F(TestReordering, ScanBatchesUnordered) {
   auto scanner = MakeScanner();
   ASSERT_OK_AND_ASSIGN(auto batch_gen, scanner->ScanBatchesUnorderedAsync());
   auto collected = DeliverAndCollect({0, 0, 1, 1, 0}, std::move(batch_gen));
-  AssertBatchesInOrder(collected, {0, 0, 1, 1, 2}, {0, 2, 3, 1, 4});
 }
 
 static constexpr uint64_t kBatchSizeBytes = 40;
@@ -1095,7 +1896,7 @@ TEST_F(TestBackpressure, ScanBatchesUnordered) {
   // will make it down before we try and read the next item which gives us much more exact
   // backpressure numbers
   ASSERT_OK_AND_ASSIGN(auto thread_pool, ::arrow::internal::ThreadPool::Make(1));
-  std::shared_ptr<Scanner> scanner = MakeScanner(thread_pool.get());
+  std::shared_ptr<Scanner> scanner = MakeScanner(nullptr);
   auto initial_scan_fut = DeferNotOk(thread_pool->Submit(
       [&] { return scanner->ScanBatchesUnorderedAsync(thread_pool.get()); }));
   ASSERT_FINISHES_OK_AND_ASSIGN(AsyncGenerator<EnumeratedRecordBatch> gen,
@@ -1104,11 +1905,11 @@ TEST_F(TestBackpressure, ScanBatchesUnordered) {
   // By this point the plan will have been created and started and filled up to max
   // backpressure.  The exact measurement of "max backpressure" is a little hard to pin
   // down but it is deterministic since we're only using one thread.
-  ASSERT_LE(TotalBatchesRead(), kMaxBatchesRead);
+  ASSERT_LE(TotalBatchesRead(), 155);
   DeliverAdditionalBatches();
   SleepABit();
 
-  ASSERT_LE(TotalBatchesRead(), kMaxBatchesRead);
+  ASSERT_LE(TotalBatchesRead(), 160);
   Finish(std::move(gen));
 }
 
@@ -1265,11 +2066,11 @@ TEST(ScanOptions, TestMaterializedFields) {
   // empty dataset, project nothing = nothing materialized
   opts->dataset_schema = schema({});
   set_projection_from_names({});
-  EXPECT_THAT(opts->MaterializedFields(), IsEmpty());
+  ASSERT_EQ(opts->MaterializedFields().size(), 0);
 
   // non-empty dataset, project nothing = nothing materialized
   opts->dataset_schema = schema({i32, i64});
-  EXPECT_THAT(opts->MaterializedFields(), IsEmpty());
+  ASSERT_EQ(opts->MaterializedFields().size(), 0);
 
   // project nothing, filter on i32 = materialize i32
   opts->filter = equal(field_ref("i32"), literal(10));
@@ -1343,8 +2144,8 @@ TEST(ScanOptions, TestMaterializedFields) {
 
 namespace {
 struct TestPlan {
-  explicit TestPlan(compute::ExecContext* ctx = compute::default_exec_context())
-      : plan(compute::ExecPlan::Make(ctx).ValueOrDie()) {
+  explicit TestPlan(compute::ExecContext* ctx = compute::threaded_exec_context())
+      : plan(compute::ExecPlan::Make(*ctx).ValueOrDie()) {
     internal::Initialize();
   }
 
@@ -1354,11 +2155,13 @@ struct TestPlan {
 
     auto collected_fut = CollectAsyncGenerator(sink_gen);
 
-    return AllComplete({plan->finished(), Future<>(collected_fut)})
+    return AllFinished({plan->finished(), Future<>(collected_fut)})
         .Then([collected_fut]() -> Result<std::vector<compute::ExecBatch>> {
           ARROW_ASSIGN_OR_RAISE(auto collected, collected_fut.result());
           return ::arrow::internal::MapVector(
-              [](util::optional<compute::ExecBatch> batch) { return std::move(*batch); },
+              [](std::optional<compute::ExecBatch> batch) {
+                return batch.value_or(compute::ExecBatch());
+              },
               std::move(collected));
         });
   }
@@ -1366,7 +2169,7 @@ struct TestPlan {
   compute::ExecPlan* get() { return plan.get(); }
 
   std::shared_ptr<compute::ExecPlan> plan;
-  AsyncGenerator<util::optional<compute::ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<compute::ExecBatch>> sink_gen;
 };
 
 struct DatasetAndBatches {
@@ -1718,7 +2521,7 @@ TEST(ScanNode, MinimalEndToEnd) {
   // predicate pushdown, a projection to skip materialization of unnecessary columns,
   // ...)
   ASSERT_OK_AND_ASSIGN(std::shared_ptr<compute::ExecPlan> plan,
-                       compute::ExecPlan::Make(&exec_context));
+                       compute::ExecPlan::Make(exec_context));
 
   std::shared_ptr<Dataset> dataset = std::make_shared<InMemoryDataset>(
       TableFromJSON(schema({field("a", int32()), field("b", boolean())}),
@@ -1741,8 +2544,11 @@ TEST(ScanNode, MinimalEndToEnd) {
   // for now, specify the projection as the full project expression (eventually this can
   // just be a list of materialized field names)
   compute::Expression a_times_2 = call("multiply", {field_ref("a"), literal(2)});
+  // set the projection such that required project experssion field is included as a
+  // field_ref
+  compute::Expression project_expr = field_ref("a");
   options->projection =
-      call("make_struct", {a_times_2}, compute::MakeStructOptions{{"a * 2"}});
+      call("make_struct", {project_expr}, compute::MakeStructOptions{{"a * 2"}});
 
   // construct the scan node
   ASSERT_OK_AND_ASSIGN(
@@ -1763,7 +2569,7 @@ TEST(ScanNode, MinimalEndToEnd) {
                                              compute::ProjectNodeOptions{{a_times_2}}));
 
   // finally, pipe the project node into a sink node
-  AsyncGenerator<util::optional<compute::ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<compute::ExecBatch>> sink_gen;
   ASSERT_OK_AND_ASSIGN(compute::ExecNode * sink,
                        compute::MakeExecNode("ordered_sink", plan.get(), {project},
                                              compute::SinkNodeOptions{&sink_gen}));
@@ -1813,7 +2619,7 @@ TEST(ScanNode, MinimalScalarAggEndToEnd) {
   // predicate pushdown, a projection to skip materialization of unnecessary columns,
   // ...)
   ASSERT_OK_AND_ASSIGN(std::shared_ptr<compute::ExecPlan> plan,
-                       compute::ExecPlan::Make(&exec_context));
+                       compute::ExecPlan::Make(exec_context));
 
   std::shared_ptr<Dataset> dataset = std::make_shared<InMemoryDataset>(
       TableFromJSON(schema({field("a", int32()), field("b", boolean())}),
@@ -1836,8 +2642,11 @@ TEST(ScanNode, MinimalScalarAggEndToEnd) {
   // for now, specify the projection as the full project expression (eventually this can
   // just be a list of materialized field names)
   compute::Expression a_times_2 = call("multiply", {field_ref("a"), literal(2)});
+  // set the projection such that required project experssion field is included as a
+  // field_ref
+  compute::Expression project_expr = field_ref("a");
   options->projection =
-      call("make_struct", {a_times_2}, compute::MakeStructOptions{{"a * 2"}});
+      call("make_struct", {project_expr}, compute::MakeStructOptions{{"a * 2"}});
 
   // construct the scan node
   ASSERT_OK_AND_ASSIGN(
@@ -1863,7 +2672,7 @@ TEST(ScanNode, MinimalScalarAggEndToEnd) {
                                 "sum", nullptr, "a * 2", "sum(a * 2)"}}}));
 
   // finally, pipe the aggregate node into a sink node
-  AsyncGenerator<util::optional<compute::ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<compute::ExecBatch>> sink_gen;
   ASSERT_OK_AND_ASSIGN(compute::ExecNode * sink,
                        compute::MakeExecNode("sink", plan.get(), {aggregate},
                                              compute::SinkNodeOptions{&sink_gen}));
@@ -1905,7 +2714,7 @@ TEST(ScanNode, MinimalGroupedAggEndToEnd) {
   // predicate pushdown, a projection to skip materialization of unnecessary columns,
   // ...)
   ASSERT_OK_AND_ASSIGN(std::shared_ptr<compute::ExecPlan> plan,
-                       compute::ExecPlan::Make(&exec_context));
+                       compute::ExecPlan::Make(exec_context));
 
   std::shared_ptr<Dataset> dataset = std::make_shared<InMemoryDataset>(
       TableFromJSON(schema({field("a", int32()), field("b", boolean())}),
@@ -1928,9 +2737,12 @@ TEST(ScanNode, MinimalGroupedAggEndToEnd) {
   // for now, specify the projection as the full project expression (eventually this can
   // just be a list of materialized field names)
   compute::Expression a_times_2 = call("multiply", {field_ref("a"), literal(2)});
+  // set the projection such that required project experssion field is included as a
+  // field_ref
+  compute::Expression a = field_ref("a");
   compute::Expression b = field_ref("b");
   options->projection =
-      call("make_struct", {a_times_2, b}, compute::MakeStructOptions{{"a * 2", "b"}});
+      call("make_struct", {a, b}, compute::MakeStructOptions{{"a * 2", "b"}});
 
   // construct the scan node
   ASSERT_OK_AND_ASSIGN(
@@ -1953,7 +2765,7 @@ TEST(ScanNode, MinimalGroupedAggEndToEnd) {
               /*keys=*/{"b"}}));
 
   // finally, pipe the aggregate node into a sink node
-  AsyncGenerator<util::optional<compute::ExecBatch>> sink_gen;
+  AsyncGenerator<std::optional<compute::ExecBatch>> sink_gen;
   ASSERT_OK_AND_ASSIGN(compute::ExecNode * sink,
                        compute::MakeExecNode("sink", plan.get(), {aggregate},
                                              compute::SinkNodeOptions{&sink_gen}));
@@ -1991,5 +2803,60 @@ TEST(ScanNode, MinimalGroupedAggEndToEnd) {
   AssertTablesEqual(*expected, *sorted.table(), /*same_chunk_layout=*/false);
 }
 
+TEST(ScanNode, OnlyLoadProjectedFields) {
+  compute::ExecContext exec_context;
+  arrow::dataset::internal::Initialize();
+  ASSERT_OK_AND_ASSIGN(auto plan, compute::ExecPlan::Make());
+
+  auto dummy_schema = schema(
+      {field("key", int64()), field("shared", int64()), field("distinct", int64())});
+
+  // creating a dummy dataset using a dummy table
+  auto table = TableFromJSON(dummy_schema, {R"([
+      [1, 1, 10],
+      [3, 4, 20]
+    ])"});
+
+  auto format = std::make_shared<arrow::dataset::IpcFileFormat>();
+  auto filesystem = std::make_shared<fs::LocalFileSystem>();
+  const std::string file_name = "plan_scan_disk_test.arrow";
+
+  ASSERT_OK_AND_ASSIGN(auto tempdir,
+                       arrow::internal::TemporaryDir::Make("plan-test-tempdir-"));
+  ASSERT_OK_AND_ASSIGN(auto file_path, tempdir->path().Join(file_name));
+  std::string file_path_str = file_path.ToString();
+
+  WriteIpcData(file_path_str, filesystem, table);
+
+  std::vector<fs::FileInfo> files;
+  const std::vector<std::string> f_paths = {file_path_str};
+
+  for (const auto& f_path : f_paths) {
+    ASSERT_OK_AND_ASSIGN(auto f_file, filesystem->GetFileInfo(f_path));
+    files.push_back(std::move(f_file));
+  }
+
+  ASSERT_OK_AND_ASSIGN(auto ds_factory, dataset::FileSystemDatasetFactory::Make(
+                                            filesystem, std::move(files), format, {}));
+  ASSERT_OK_AND_ASSIGN(auto dataset, ds_factory->Finish(dummy_schema));
+
+  auto scan_options = std::make_shared<dataset::ScanOptions>();
+  compute::Expression extract_expr = compute::field_ref("shared");
+  // don't use a function.
+  scan_options->projection =
+      call("make_struct", {extract_expr}, compute::MakeStructOptions{{"shared"}});
+
+  auto declarations = compute::Declaration::Sequence(
+      {compute::Declaration({"scan", dataset::ScanNodeOptions{dataset, scan_options}})});
+  ASSERT_OK_AND_ASSIGN(auto actual, compute::DeclarationToTable(declarations));
+  // Scan node always emits augmented fields so we drop those
+  ASSERT_OK_AND_ASSIGN(auto actualMinusAgumented, actual->SelectColumns({0, 1, 2}));
+  auto expected = TableFromJSON(dummy_schema, {R"([
+      [null, 1, null],
+      [null, 4, null]
+  ])"});
+  AssertTablesEqual(*expected, *actualMinusAgumented, /*same_chunk_layout=*/false);
+}
+
 }  // namespace dataset
 }  // namespace arrow
diff --git a/cpp/src/arrow/dataset/test_util.h b/cpp/src/arrow/dataset/test_util.h
index 09409745159..991d992c0d8 100644
--- a/cpp/src/arrow/dataset/test_util.h
+++ b/cpp/src/arrow/dataset/test_util.h
@@ -32,6 +32,7 @@
 #include <gtest/gtest.h>
 
 #include "arrow/array.h"
+#include "arrow/compute/exec/exec_plan.h"
 #include "arrow/compute/exec/expression.h"
 #include "arrow/dataset/dataset_internal.h"
 #include "arrow/dataset/discovery.h"
@@ -51,7 +52,6 @@
 #include "arrow/util/io_util.h"
 #include "arrow/util/iterator.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/thread_pool.h"
 
 namespace arrow {
@@ -92,7 +92,7 @@ void AssertDatasetHasSchema(std::shared_ptr<Dataset> ds, std::shared_ptr<Schema>
 class FileSourceFixtureMixin : public ::testing::Test {
  public:
   std::unique_ptr<FileSource> GetSource(std::shared_ptr<Buffer> buffer) {
-    return ::arrow::internal::make_unique<FileSource>(std::move(buffer));
+    return std::make_unique<FileSource>(std::move(buffer));
   }
 };
 
@@ -114,8 +114,7 @@ class GeneratedRecordBatch : public RecordBatchReader {
 template <typename Gen>
 std::unique_ptr<GeneratedRecordBatch<Gen>> MakeGeneratedRecordBatch(
     std::shared_ptr<Schema> schema, Gen&& gen) {
-  return ::arrow::internal::make_unique<GeneratedRecordBatch<Gen>>(
-      schema, std::forward<Gen>(gen));
+  return std::make_unique<GeneratedRecordBatch<Gen>>(schema, std::forward<Gen>(gen));
 }
 
 std::unique_ptr<RecordBatchReader> MakeGeneratedRecordBatch(
@@ -167,7 +166,7 @@ class DatasetFixtureMixin : public ::testing::Test {
   void AssertFragmentEquals(RecordBatchReader* expected, Fragment* fragment,
                             bool ensure_drained = true) {
     ASSERT_OK_AND_ASSIGN(auto batch_gen, fragment->ScanBatchesAsync(options_));
-    AssertScanTaskEquals(expected, batch_gen);
+    AssertScanTaskEquals(expected, batch_gen, ensure_drained);
 
     if (ensure_drained) {
       EnsureRecordBatchReaderDrained(expected);
@@ -191,6 +190,22 @@ class DatasetFixtureMixin : public ::testing::Test {
     }
   }
 
+  void AssertDatasetAsyncFragmentsEqual(RecordBatchReader* expected, Dataset* dataset,
+                                        bool ensure_drained = true) {
+    ASSERT_OK_AND_ASSIGN(auto predicate, options_->filter.Bind(*dataset->schema()));
+    ASSERT_OK_AND_ASSIGN(auto gen, dataset->GetFragmentsAsync(predicate))
+
+    ASSERT_FINISHES_OK(VisitAsyncGenerator(
+        std::move(gen), [this, expected](const std::shared_ptr<Fragment>& f) {
+          AssertFragmentEquals(expected, f.get(), false /*ensure_drained*/);
+          return Status::OK();
+        }));
+
+    if (ensure_drained) {
+      EnsureRecordBatchReaderDrained(expected);
+    }
+  }
+
   /// \brief Ensure that record batches found in reader are equals to the
   /// record batches yielded by a scanner.
   void AssertScannerEquals(RecordBatchReader* expected, Scanner* scanner,
@@ -492,11 +507,11 @@ class FileFormatFixtureMixin : public ::testing::Test {
 
     bool supported = false;
 
-    std::shared_ptr<Buffer> buf = std::make_shared<Buffer>(util::string_view(""));
+    std::shared_ptr<Buffer> buf = std::make_shared<Buffer>(std::string_view(""));
     ASSERT_OK_AND_ASSIGN(supported, format_->IsSupported(FileSource(buf)));
     ASSERT_EQ(supported, false);
 
-    buf = std::make_shared<Buffer>(util::string_view("corrupted"));
+    buf = std::make_shared<Buffer>(std::string_view("corrupted"));
     ASSERT_OK_AND_ASSIGN(supported, format_->IsSupported(FileSource(buf)));
     ASSERT_EQ(supported, false);
 
@@ -534,26 +549,26 @@ class FileFormatFixtureMixin : public ::testing::Test {
     auto source = this->GetFileSource(reader.get());
 
     auto fragment = this->MakeFragment(*source);
-    ASSERT_FINISHES_OK_AND_EQ(util::make_optional<int64_t>(expected_rows()),
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(expected_rows()),
                               fragment->CountRows(literal(true), options));
 
     fragment = this->MakeFragment(*source, equal(field_ref("part"), literal(2)));
-    ASSERT_FINISHES_OK_AND_EQ(util::make_optional<int64_t>(expected_rows()),
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(expected_rows()),
                               fragment->CountRows(literal(true), options));
 
     auto predicate = equal(field_ref("part"), literal(1));
     ASSERT_OK_AND_ASSIGN(predicate, predicate.Bind(*full_schema));
-    ASSERT_FINISHES_OK_AND_EQ(util::make_optional<int64_t>(0),
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(0),
                               fragment->CountRows(predicate, options));
 
     predicate = equal(field_ref("part"), literal(2));
     ASSERT_OK_AND_ASSIGN(predicate, predicate.Bind(*full_schema));
-    ASSERT_FINISHES_OK_AND_EQ(util::make_optional<int64_t>(expected_rows()),
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(expected_rows()),
                               fragment->CountRows(predicate, options));
 
     predicate = equal(call("add", {field_ref("f64"), literal(3)}), literal(2));
     ASSERT_OK_AND_ASSIGN(predicate, predicate.Bind(*full_schema));
-    ASSERT_FINISHES_OK_AND_EQ(util::nullopt, fragment->CountRows(predicate, options));
+    ASSERT_FINISHES_OK_AND_EQ(std::nullopt, fragment->CountRows(predicate, options));
   }
   void TestFragmentEquals() {
     auto options = std::make_shared<ScanOptions>();
@@ -589,11 +604,16 @@ class FileFormatScanMixin : public FileFormatFixtureMixin<FormatHelper>,
   }
 
   // Scan the fragment through the scanner.
-  RecordBatchIterator Batches(std::shared_ptr<Fragment> fragment) {
+  RecordBatchIterator Batches(std::shared_ptr<Fragment> fragment,
+                              bool use_readahead = true) {
     auto dataset = std::make_shared<FragmentDataset>(opts_->dataset_schema,
                                                      FragmentVector{fragment});
     ScannerBuilder builder(dataset, opts_);
     ARROW_EXPECT_OK(builder.UseThreads(GetParam().use_threads));
+    if (!use_readahead) {
+      ARROW_EXPECT_OK(builder.FragmentReadahead(0));
+      ARROW_EXPECT_OK(builder.BatchReadahead(0));
+    }
     EXPECT_OK_AND_ASSIGN(auto scanner, builder.Finish());
     EXPECT_OK_AND_ASSIGN(auto batch_it, scanner->ScanBatches());
     return MakeMapIterator([](TaggedRecordBatch tagged) { return tagged.record_batch; },
@@ -641,6 +661,20 @@ class FileFormatScanMixin : public FileFormatFixtureMixin<FormatHelper>,
     }
     ASSERT_EQ(row_count, GetParam().expected_rows());
   }
+  void TestScanNoReadahead() {
+    auto reader = GetRecordBatchReader(schema({field("f64", float64())}));
+    auto source = this->GetFileSource(reader.get());
+
+    this->SetSchema(reader->schema()->fields());
+    auto fragment = this->MakeFragment(*source);
+
+    int64_t row_count = 0;
+    for (auto maybe_batch : Batches(fragment, /*use_readahead=*/false)) {
+      ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
+      row_count += batch->num_rows();
+    }
+    ASSERT_EQ(row_count, GetParam().expected_rows());
+  }
   // Ensure file formats only return columns needed to fulfill filter/projection
   void TestScanProjected() {
     auto f32 = field("f32", float32());
@@ -901,11 +935,553 @@ class FileFormatScanMixin : public FileFormatFixtureMixin<FormatHelper>,
   using FileFormatFixtureMixin<FormatHelper>::opts_;
 };
 
+template <typename FormatHelper>
+class FileFormatFixtureMixinV2 : public ::testing::Test {
+ public:
+  constexpr static int64_t kBatchSize = 1UL << 12;
+  constexpr static int64_t kBatchRepetitions = 1 << 5;
+
+  FileFormatFixtureMixinV2()
+      : format_(FormatHelper::MakeFormat()),
+        // Set dataset to nullptr, we will fill it in later when (if) we scan
+        opts_(std::make_shared<ScanV2Options>(/*dataset=*/nullptr)) {}
+
+  int64_t expected_batches() const { return kBatchRepetitions; }
+  int64_t expected_rows() const { return kBatchSize * kBatchRepetitions; }
+
+  std::shared_ptr<FileFragment> MakeFragment(const FileSource& source) {
+    EXPECT_OK_AND_ASSIGN(auto fragment, format_->MakeFragment(source));
+    return fragment;
+  }
+
+  std::shared_ptr<FileFragment> MakeFragment(const FileSource& source,
+                                             compute::Expression partition_expression) {
+    EXPECT_OK_AND_ASSIGN(auto fragment,
+                         format_->MakeFragment(source, partition_expression));
+    return fragment;
+  }
+
+  std::shared_ptr<FileSource> MakeBufferSource(RecordBatchReader* reader) {
+    EXPECT_OK_AND_ASSIGN(auto buffer, FormatHelper::Write(reader));
+    return std::make_shared<FileSource>(std::move(buffer));
+  }
+
+  virtual std::shared_ptr<RecordBatchReader> GetRandomData(
+      std::shared_ptr<Schema> schema) {
+    return MakeGeneratedRecordBatch(schema, kBatchSize, kBatchRepetitions);
+  }
+
+  Result<std::shared_ptr<io::BufferOutputStream>> GetFileSink() {
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<ResizableBuffer> buffer,
+                          AllocateResizableBuffer(0));
+    return std::make_shared<io::BufferOutputStream>(buffer);
+  }
+
+  void SetDatasetSchema(std::vector<std::shared_ptr<Field>> fields) {
+    dataset_schema_ = schema(std::move(fields));
+    SetScanProjectionAllColumns();
+  }
+
+  void CheckDatasetSchemaSet() {
+    DCHECK_NE(dataset_schema_, nullptr)
+        << "call SetDatasetSchema before calling this method";
+  }
+
+  void SetScanFilter(compute::Expression filter) {
+    CheckDatasetSchemaSet();
+    opts_->filter = std::move(filter);
+  }
+
+  void SetScanProjection(std::vector<FieldPath> selection) {
+    opts_->columns = std::move(selection);
+  }
+
+  void SetScanProjectionRefs(std::vector<FieldRef> selection) {
+    opts_->columns.clear();
+    opts_->columns.reserve(selection.size());
+    for (const auto& ref : selection) {
+      ASSERT_OK_AND_ASSIGN(FieldPath path, ref.FindOne(*dataset_schema_));
+      opts_->columns.push_back(std::move(path));
+    }
+  }
+
+  void SetScanProjectionAllColumns() {
+    CheckDatasetSchemaSet();
+    opts_->columns = ScanV2Options::AllColumns(*dataset_schema_);
+  }
+
+  // Shared test cases
+  void AssertInspectFailure(const std::string& contents, StatusCode code,
+                            const std::string& format_name) {
+    SCOPED_TRACE("Format: " + format_name + " File contents: " + contents);
+    constexpr auto file_name = "herp/derp";
+    auto make_error_message = [&](const std::string& filename) {
+      return "Could not open " + format_name + " input source '" + filename + "':";
+    };
+    const auto buf = std::make_shared<Buffer>(contents);
+    Status status;
+
+    // Inspecting a buffer fails
+    status = format_->Inspect(FileSource(buf)).status();
+    EXPECT_EQ(code, status.code());
+    EXPECT_THAT(status.ToString(), ::testing::HasSubstr(make_error_message("<Buffer>")));
+
+    ASSERT_OK_AND_EQ(false, format_->IsSupported(FileSource(buf)));
+
+    // Inspecting a file fails
+    ASSERT_OK_AND_ASSIGN(
+        auto fs, fs::internal::MockFileSystem::Make(fs::kNoTime, {fs::File(file_name)}));
+    status = format_->Inspect({file_name, fs}).status();
+    EXPECT_EQ(code, status.code());
+    EXPECT_THAT(status.ToString(), testing::HasSubstr(make_error_message("herp/derp")));
+
+    // Discovering a dataset containing the invalid file fails
+    fs::FileSelector s;
+    s.base_dir = "/";
+    s.recursive = true;
+    FileSystemFactoryOptions options;
+    ASSERT_OK_AND_ASSIGN(auto factory,
+                         FileSystemDatasetFactory::Make(fs, s, format_, options));
+    status = factory->Finish().status();
+    EXPECT_EQ(code, status.code());
+    EXPECT_THAT(
+        status.ToString(),
+        ::testing::AllOf(
+            ::testing::HasSubstr(make_error_message("/herp/derp")),
+            ::testing::HasSubstr(
+                "Error creating dataset. Could not read schema from '/herp/derp':"),
+            ::testing::HasSubstr("Is this a '" + format_->type_name() + "' file?")));
+  }
+
+  void TestInspectFailureWithRelevantError(StatusCode code,
+                                           const std::string& format_name) {
+    const std::vector<std::string> file_contents{"", "PAR0", "ASDFPAR1", "ARROW1"};
+    for (const auto& contents : file_contents) {
+      AssertInspectFailure(contents, code, format_name);
+    }
+  }
+
+  // Inspecting a file should yield the appropriate schema
+  void TestInspect() {
+    auto reader = GetRandomData(schema({field("f64", float64())}));
+    auto source = MakeBufferSource(reader.get());
+
+    ASSERT_OK_AND_ASSIGN(auto actual, format_->Inspect(*source.get()));
+    AssertSchemaEqual(*actual, *reader->schema(), /*check_metadata=*/false);
+  }
+
+  void TestIsSupported() {
+    auto reader = GetRandomData(schema({field("f64", float64())}));
+    auto source = MakeBufferSource(reader.get());
+
+    bool supported = false;
+
+    std::shared_ptr<Buffer> buf = std::make_shared<Buffer>(std::string_view(""));
+    ASSERT_OK_AND_ASSIGN(supported, format_->IsSupported(FileSource(buf)));
+    ASSERT_EQ(supported, false);
+
+    buf = std::make_shared<Buffer>(std::string_view("corrupted"));
+    ASSERT_OK_AND_ASSIGN(supported, format_->IsSupported(FileSource(buf)));
+    ASSERT_EQ(supported, false);
+
+    ASSERT_OK_AND_ASSIGN(supported, format_->IsSupported(*source));
+    EXPECT_EQ(supported, true);
+  }
+
+  std::shared_ptr<Buffer> WriteToBuffer(
+      std::shared_ptr<Schema> schema,
+      std::shared_ptr<FileWriteOptions> options = nullptr) {
+    auto format = format_;
+    SetDatasetSchema(schema->fields());
+    EXPECT_OK_AND_ASSIGN(auto sink, GetFileSink());
+    if (!options) options = format->DefaultWriteOptions();
+
+    EXPECT_OK_AND_ASSIGN(auto fs, fs::internal::MockFileSystem::Make(fs::kNoTime, {}));
+    EXPECT_OK_AND_ASSIGN(auto writer,
+                         format->MakeWriter(sink, schema, options, {fs, "<buffer>"}));
+    ARROW_EXPECT_OK(writer->Write(GetRandomData(schema).get()));
+    auto fut = writer->Finish();
+    EXPECT_FINISHES(fut);
+    ARROW_EXPECT_OK(fut.status());
+    EXPECT_OK_AND_ASSIGN(auto written, sink->Finish());
+    return written;
+  }
+
+  void TestWrite() {
+    auto reader = this->GetRandomData(schema({field("f64", float64())}));
+    auto expected = this->MakeBufferSource(reader.get());
+    auto written = this->WriteToBuffer(reader->schema());
+    AssertBufferEqual(*written, *expected->buffer());
+  }
+
+  void TestCountRows() {
+    auto options = std::make_shared<ScanOptions>();
+    auto reader = this->GetRandomData(schema({field("f64", float64())}));
+    auto full_schema = schema({field("f64", float64()), field("part", int64())});
+    auto source = this->MakeBufferSource(reader.get());
+
+    auto fragment = this->MakeFragment(*source);
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(expected_rows()),
+                              fragment->CountRows(literal(true), options));
+
+    fragment = this->MakeFragment(*source, equal(field_ref("part"), literal(2)));
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(expected_rows()),
+                              fragment->CountRows(literal(true), options));
+
+    auto predicate = equal(field_ref("part"), literal(1));
+    ASSERT_OK_AND_ASSIGN(predicate, predicate.Bind(*full_schema));
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(0),
+                              fragment->CountRows(predicate, options));
+
+    predicate = equal(field_ref("part"), literal(2));
+    ASSERT_OK_AND_ASSIGN(predicate, predicate.Bind(*full_schema));
+    ASSERT_FINISHES_OK_AND_EQ(std::make_optional<int64_t>(expected_rows()),
+                              fragment->CountRows(predicate, options));
+
+    predicate = equal(call("add", {field_ref("f64"), literal(3)}), literal(2));
+    ASSERT_OK_AND_ASSIGN(predicate, predicate.Bind(*full_schema));
+    ASSERT_FINISHES_OK_AND_EQ(std::nullopt, fragment->CountRows(predicate, options));
+  }
+  void TestFragmentEquals() {
+    auto options = std::make_shared<ScanOptions>();
+    auto this_schema = schema({field("f64", float64())});
+    auto other_schema = schema({field("f32", float32())});
+    auto reader = this->GetRandomData(this_schema);
+    auto other_reader = this->GetRandomData(other_schema);
+    auto source = this->MakeBufferSource(reader.get());
+    auto other_source = this->MakeBufferSource(other_reader.get());
+
+    auto fragment = this->MakeFragment(*source);
+    EXPECT_TRUE(fragment->Equals(*fragment));
+    auto other = this->MakeFragment(*other_source);
+    EXPECT_FALSE(fragment->Equals(*other));
+  }
+
+ protected:
+  std::shared_ptr<typename FormatHelper::FormatType> format_;
+  std::shared_ptr<ScanV2Options> opts_;
+  std::shared_ptr<Schema> dataset_schema_;
+};
+
+template <typename FormatHelper>
+class FileFormatScanNodeMixin : public FileFormatFixtureMixinV2<FormatHelper>,
+                                public ::testing::WithParamInterface<TestFormatParams> {
+ public:
+  int64_t expected_batches() const { return GetParam().num_batches; }
+  int64_t expected_rows() const { return GetParam().expected_rows(); }
+
+  // Override FileFormatFixtureMixin::GetRandomData to paramterize the #
+  // of batches and rows per batch
+  std::shared_ptr<RecordBatchReader> GetRandomData(
+      std::shared_ptr<Schema> schema) override {
+    return MakeGeneratedRecordBatch(schema, GetParam().items_per_batch,
+                                    GetParam().num_batches);
+  }
+
+  // Scan the fragment through the scanner.
+  Result<std::unique_ptr<RecordBatchReader>> Scan(std::shared_ptr<Fragment> fragment,
+                                                  bool add_filter_fields = true) {
+    opts_->dataset =
+        std::make_shared<FragmentDataset>(dataset_schema_, FragmentVector{fragment});
+    if (add_filter_fields) {
+      ARROW_RETURN_NOT_OK(ScanV2Options::AddFieldsNeededForFilter(opts_.get()));
+    }
+    opts_->format_options = GetFormatOptions();
+    ARROW_ASSIGN_OR_RAISE(
+        std::unique_ptr<RecordBatchReader> reader,
+        compute::DeclarationToReader(compute::Declaration("scan2", *opts_),
+                                     GetParam().use_threads));
+    return reader;
+  }
+
+  // Shared test cases
+  void TestScan() {
+    // Basic test to make sure we can scan data
+    auto random_data = GetRandomData(schema({field("f64", float64())}));
+    auto source = this->MakeBufferSource(random_data.get());
+
+    this->SetDatasetSchema(random_data->schema()->fields());
+    auto fragment = this->MakeFragment(*source);
+
+    int64_t row_count = 0;
+    ASSERT_OK_AND_ASSIGN(std::unique_ptr<RecordBatchReader> scanner, Scan(fragment));
+    for (auto maybe_batch : *scanner) {
+      ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
+      row_count += batch->num_rows();
+    }
+    ASSERT_EQ(row_count, GetParam().expected_rows());
+  }
+
+  // TestScanBatchSize is no longer relevant because batch size is an internal concern.
+  // Consumers should only really care about batch sizing at the sink.
+
+  // Ensure file formats only return columns needed to fulfill filter/projection
+  void TestScanProjected() {
+    auto f32 = field("f32", float32());
+    auto f64 = field("f64", float64());
+    auto i32 = field("i32", int32());
+    auto i64 = field("i64", int64());
+    this->SetDatasetSchema({f64, i64, f32, i32});
+    this->SetScanProjectionRefs({"f64"});
+    this->SetScanFilter(equal(field_ref("i32"), literal(0)));
+
+    // We expect f64 since it is asked for and i32 since it is needed for the filter
+    auto expected_schema = schema({f64, i32});
+
+    auto reader = this->GetRandomData(dataset_schema_);
+    auto source = this->MakeBufferSource(reader.get());
+    auto fragment = this->MakeFragment(*source);
+
+    int64_t row_count = 0;
+
+    ASSERT_OK_AND_ASSIGN(std::unique_ptr<RecordBatchReader> scanner,
+                         this->Scan(fragment));
+    for (auto maybe_batch : *scanner) {
+      ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
+      row_count += batch->num_rows();
+      ASSERT_THAT(
+          batch->schema()->fields(),
+          ::testing::UnorderedPointwise(PointeesEqual(), expected_schema->fields()))
+          << "EXPECTED:\n"
+          << expected_schema->ToString() << "\nACTUAL:\n"
+          << batch->schema()->ToString();
+    }
+
+    ASSERT_EQ(row_count, expected_rows());
+  }
+
+  void TestScanMissingFilterField() {
+    auto f32 = field("f32", float32());
+    auto f64 = field("f64", float64());
+    this->SetDatasetSchema({f32, f64});
+    this->SetScanProjectionRefs({"f64"});
+    this->SetScanFilter(equal(field_ref("f32"), literal(0)));
+
+    auto reader = this->GetRandomData(dataset_schema_);
+    auto source = this->MakeBufferSource(reader.get());
+    auto fragment = this->MakeFragment(*source);
+
+    // At the moment, all formats support this.  CSV & JSON simply ignore
+    // the filter field entirely.  Parquet filters with statistics which doesn't require
+    // loading columns.
+    //
+    // However, it seems valid that a format would reject this case as well.  Perhaps it
+    // is not worth testing.
+    ASSERT_OK_AND_ASSIGN(std::unique_ptr<RecordBatchReader> scanner,
+                         this->Scan(fragment));
+  }
+
+  void TestScanProjectedNested(bool fine_grained_selection = false) {
+    // "struct1": {
+    //   "f32",
+    //   "i32"
+    // }
+    // "struct2": {
+    //   "f64",
+    //   "i64",
+    //   "struct1": {
+    //     "f32",
+    //     "i32"
+    //   }
+    // }
+    auto f32 = field("f32", float32());
+    auto f64 = field("f64", float64());
+    auto i32 = field("i32", int32());
+    auto i64 = field("i64", int64());
+    auto struct1 = field("struct1", struct_({f32, i32}));
+    auto struct2 = field("struct2", struct_({f64, i64, struct1}));
+    this->SetDatasetSchema({struct1, struct2, f32, f64, i32, i64});
+    this->SetScanProjectionRefs(
+        {".struct1.f32", ".struct2.struct1", ".struct2.struct1.f32"});
+    this->SetScanFilter(greater_equal(field_ref(FieldRef("struct2", "i64")), literal(0)));
+
+    std::shared_ptr<Schema> physical_schema;
+    if (fine_grained_selection) {
+      // Some formats, like Parquet, let you pluck only a part of a complex type
+      physical_schema = schema(
+          {field("struct1", struct_({f32})), field("struct2", struct_({i64, struct1}))});
+    } else {
+      // Otherwise, the entire top-level field is returned
+      physical_schema = schema({struct1, struct2});
+    }
+    std::shared_ptr<Schema> projected_schema = schema({
+        field(".struct1.f32", float32()),
+        field(".struct2.struct1", struct1->type()),
+        field(".struct2.struct1.f32", float32()),
+    });
+
+    {
+      auto reader = this->GetRandomData(dataset_schema_);
+      auto source = this->MakeBufferSource(reader.get());
+      auto fragment = this->MakeFragment(*source);
+
+      int64_t row_count = 0;
+      ASSERT_OK_AND_ASSIGN(std::unique_ptr<RecordBatchReader> scanner,
+                           this->Scan(fragment));
+      for (auto maybe_batch : *scanner) {
+        ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
+        row_count += batch->num_rows();
+        AssertSchemaEqual(*batch->schema(), *projected_schema,
+                          /*check_metadata=*/false);
+      }
+      ASSERT_EQ(row_count, expected_rows());
+    }
+    {
+      // File includes a duplicated name in struct2
+      auto struct2_physical = field("struct2", struct_({f64, i64, struct1, i64}));
+      auto reader =
+          this->GetRandomData(schema({struct1, struct2_physical, f32, f64, i32, i64}));
+      auto source = this->MakeBufferSource(reader.get());
+      auto fragment = this->MakeFragment(*source);
+
+      ASSERT_OK_AND_ASSIGN(std::unique_ptr<RecordBatchReader> scanner,
+                           this->Scan(fragment));
+      EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid, ::testing::HasSubstr("i64"),
+                                      scanner->Next().status());
+    }
+    {
+      // File is missing a child in struct1
+      auto struct1_physical = field("struct1", struct_({i32}));
+      auto reader =
+          this->GetRandomData(schema({struct1_physical, struct2, f32, f64, i32, i64}));
+      auto source = this->MakeBufferSource(reader.get());
+      auto fragment = this->MakeFragment(*source);
+
+      physical_schema = schema({physical_schema->field(1)});
+
+      int64_t row_count = 0;
+      ASSERT_OK_AND_ASSIGN(std::unique_ptr<RecordBatchReader> scanner,
+                           this->Scan(fragment));
+      for (auto maybe_batch : *scanner) {
+        ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
+        row_count += batch->num_rows();
+        ASSERT_THAT(
+            batch->schema()->fields(),
+            ::testing::UnorderedPointwise(PointeesEqual(), physical_schema->fields()))
+            << "EXPECTED:\n"
+            << physical_schema->ToString() << "\nACTUAL:\n"
+            << batch->schema()->ToString();
+      }
+      ASSERT_EQ(row_count, expected_rows());
+    }
+  }
+
+  void TestScanProjectedMissingCols() {
+    auto f32 = field("f32", float32());
+    auto f64 = field("f64", float64());
+    auto i32 = field("i32", int32());
+    auto i64 = field("i64", int64());
+    this->SetDatasetSchema({f64, i64, f32, i32});
+    this->SetScanProjectionRefs({"f64", "i32"});
+    this->SetScanFilter(equal(field_ref("i32"), literal(0)));
+
+    auto data_without_i32 = this->GetRandomData(schema({f64, i64, f32}));
+    auto data_without_f64 = this->GetRandomData(schema({i64, f32, i32}));
+    auto data_with_all = this->GetRandomData(schema({f64, i64, f32, i32}));
+
+    auto readers = {data_with_all.get(), data_without_i32.get(), data_without_f64.get()};
+    for (auto reader : readers) {
+      SCOPED_TRACE(reader->schema()->ToString());
+      auto source = this->MakeBufferSource(reader);
+      auto fragment = this->MakeFragment(*source);
+
+      // in the case where a file doesn't contain a referenced field, we materialize it
+      // as nulls
+      std::shared_ptr<Schema> expected_schema = schema({f64, i32});
+
+      int64_t row_count = 0;
+      ASSERT_OK_AND_ASSIGN(std::unique_ptr<RecordBatchReader> scanner,
+                           this->Scan(fragment));
+      for (auto maybe_batch : *scanner) {
+        ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
+        row_count += batch->num_rows();
+        ASSERT_THAT(
+            batch->schema()->fields(),
+            ::testing::UnorderedPointwise(PointeesEqual(), expected_schema->fields()))
+            << "EXPECTED:\n"
+            << expected_schema->ToString() << "\nACTUAL:\n"
+            << batch->schema()->ToString();
+      }
+      ASSERT_EQ(row_count, expected_rows());
+    }
+  }
+
+  void TestScanWithDuplicateColumn() {
+    // A duplicate column is ignored if not requested.
+    auto i32 = field("i32", int32());
+    auto i64 = field("i64", int64());
+    this->SetDatasetSchema({i32, i32, i64});
+    this->SetScanProjectionRefs({"i64"});
+    auto expected_schema = schema({i64});
+    auto reader = this->GetRandomData(dataset_schema_);
+    auto source = this->MakeBufferSource(reader.get());
+    auto fragment = this->MakeFragment(*source);
+
+    int64_t row_count = 0;
+
+    ASSERT_OK_AND_ASSIGN(std::unique_ptr<RecordBatchReader> scanner,
+                         this->Scan(fragment));
+    for (auto maybe_batch : *scanner) {
+      ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
+      row_count += batch->num_rows();
+      AssertSchemaEqual(*batch->schema(), *expected_schema,
+                        /*check_metadata=*/false);
+    }
+
+    ASSERT_EQ(row_count, expected_rows());
+
+    // Duplicate columns ok if column selection uses paths
+    row_count = 0;
+    expected_schema = schema({i32, i32});
+    this->SetScanProjection({{0}, {1}});
+    ASSERT_OK_AND_ASSIGN(scanner, this->Scan(fragment));
+    for (auto maybe_batch : *scanner) {
+      ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
+      row_count += batch->num_rows();
+      AssertSchemaEqual(*batch->schema(), *expected_schema,
+                        /*check_metadata=*/false);
+    }
+
+    ASSERT_EQ(row_count, expected_rows());
+  }
+
+  void TestScanWithPushdownNulls() {
+    // Regression test for ARROW-15312
+    auto i64 = field("i64", int64());
+    this->SetDatasetSchema({i64});
+    this->SetScanFilter(is_null(field_ref("i64")));
+
+    auto rb = RecordBatchFromJSON(schema({i64}), R"([
+      [null],
+      [32]
+    ])");
+    ASSERT_OK_AND_ASSIGN(auto reader, RecordBatchReader::Make({rb}));
+    auto source = this->MakeBufferSource(reader.get());
+
+    auto fragment = this->MakeFragment(*source);
+    int64_t row_count = 0;
+    ASSERT_OK_AND_ASSIGN(std::unique_ptr<RecordBatchReader> scanner,
+                         this->Scan(fragment));
+    for (auto maybe_batch : *scanner) {
+      ASSERT_OK_AND_ASSIGN(auto batch, maybe_batch);
+      row_count += batch->num_rows();
+    }
+    ASSERT_EQ(row_count, 1);
+  }
+
+ protected:
+  virtual const FragmentScanOptions* GetFormatOptions() = 0;
+
+  using FileFormatFixtureMixinV2<FormatHelper>::opts_;
+  using FileFormatFixtureMixinV2<FormatHelper>::dataset_schema_;
+};
+
 /// \brief A dummy FileFormat implementation
 class DummyFileFormat : public FileFormat {
  public:
   explicit DummyFileFormat(std::shared_ptr<Schema> schema = NULLPTR)
-      : schema_(std::move(schema)) {}
+      : FileFormat(/*default_fragment_scan_options=*/nullptr),
+        schema_(std::move(schema)) {}
 
   std::string type_name() const override { return "dummy"; }
 
@@ -945,10 +1521,12 @@ class JSONRecordBatchFileFormat : public FileFormat {
   using SchemaResolver = std::function<std::shared_ptr<Schema>(const FileSource&)>;
 
   explicit JSONRecordBatchFileFormat(std::shared_ptr<Schema> schema)
-      : resolver_([schema](const FileSource&) { return schema; }) {}
+      : FileFormat(/*default_fragment_scan_opts=*/nullptr),
+        resolver_([schema](const FileSource&) { return schema; }) {}
 
   explicit JSONRecordBatchFileFormat(SchemaResolver resolver)
-      : resolver_(std::move(resolver)) {}
+      : FileFormat(/*default_fragment_scan_opts=*/nullptr),
+        resolver_(std::move(resolver)) {}
 
   bool Equals(const FileFormat& other) const override { return this == &other; }
 
@@ -969,7 +1547,7 @@ class JSONRecordBatchFileFormat : public FileFormat {
     ARROW_ASSIGN_OR_RAISE(auto buffer, file->Read(size));
     ARROW_ASSIGN_OR_RAISE(auto schema, Inspect(fragment->source()));
 
-    RecordBatchVector batches{RecordBatchFromJSON(schema, util::string_view{*buffer})};
+    RecordBatchVector batches{RecordBatchFromJSON(schema, std::string_view{*buffer})};
     return MakeVectorGenerator(std::move(batches));
   }
 
@@ -1463,7 +2041,7 @@ class WriteFileSystemDatasetMixin : public MakeFileSystemDatasetMixin {
       }
 
       auto expected_struct = ArrayFromJSON(struct_(expected_physical_schema_->fields()),
-                                           {file_contents->second});
+                                           file_contents->second);
 
       AssertArraysEqual(*expected_struct, *actual_struct, /*verbose=*/true);
     }
diff --git a/cpp/src/arrow/dataset/type_fwd.h b/cpp/src/arrow/dataset/type_fwd.h
index 52fe631f5ac..a7ea8d6ce9e 100644
--- a/cpp/src/arrow/dataset/type_fwd.h
+++ b/cpp/src/arrow/dataset/type_fwd.h
@@ -51,6 +51,7 @@ class FileWriteOptions;
 class FileSystemDataset;
 class FileSystemDatasetFactory;
 struct FileSystemDatasetWriteOptions;
+class WriteNodeOptions;
 
 /// \brief Controls what happens if files exist in an output directory during a dataset
 /// write
@@ -92,6 +93,7 @@ struct HivePartitioningOptions;
 class FilenamePartitioning;
 struct FilenamePartitioningOptions;
 
+class ScanNodeOptions;
 struct ScanOptions;
 
 class Scanner;
diff --git a/cpp/src/arrow/datum.cc b/cpp/src/arrow/datum.cc
index f06e97a20ec..d0b5cf62c61 100644
--- a/cpp/src/arrow/datum.cc
+++ b/cpp/src/arrow/datum.cc
@@ -69,18 +69,18 @@ Datum::Datum(const RecordBatch& value)
 
 std::shared_ptr<Array> Datum::make_array() const {
   DCHECK_EQ(Datum::ARRAY, this->kind());
-  return MakeArray(util::get<std::shared_ptr<ArrayData>>(this->value));
+  return MakeArray(std::get<std::shared_ptr<ArrayData>>(this->value));
 }
 
 const std::shared_ptr<DataType>& Datum::type() const {
   if (this->kind() == Datum::ARRAY) {
-    return util::get<std::shared_ptr<ArrayData>>(this->value)->type;
+    return std::get<std::shared_ptr<ArrayData>>(this->value)->type;
   }
   if (this->kind() == Datum::CHUNKED_ARRAY) {
-    return util::get<std::shared_ptr<ChunkedArray>>(this->value)->type();
+    return std::get<std::shared_ptr<ChunkedArray>>(this->value)->type();
   }
   if (this->kind() == Datum::SCALAR) {
-    return util::get<std::shared_ptr<Scalar>>(this->value)->type;
+    return std::get<std::shared_ptr<Scalar>>(this->value)->type;
   }
   static std::shared_ptr<DataType> no_type;
   return no_type;
@@ -88,10 +88,10 @@ const std::shared_ptr<DataType>& Datum::type() const {
 
 const std::shared_ptr<Schema>& Datum::schema() const {
   if (this->kind() == Datum::RECORD_BATCH) {
-    return util::get<std::shared_ptr<RecordBatch>>(this->value)->schema();
+    return std::get<std::shared_ptr<RecordBatch>>(this->value)->schema();
   }
   if (this->kind() == Datum::TABLE) {
-    return util::get<std::shared_ptr<Table>>(this->value)->schema();
+    return std::get<std::shared_ptr<Table>>(this->value)->schema();
   }
   static std::shared_ptr<Schema> no_schema;
   return no_schema;
@@ -100,13 +100,13 @@ const std::shared_ptr<Schema>& Datum::schema() const {
 int64_t Datum::length() const {
   switch (this->kind()) {
     case Datum::ARRAY:
-      return util::get<std::shared_ptr<ArrayData>>(this->value)->length;
+      return std::get<std::shared_ptr<ArrayData>>(this->value)->length;
     case Datum::CHUNKED_ARRAY:
-      return util::get<std::shared_ptr<ChunkedArray>>(this->value)->length();
+      return std::get<std::shared_ptr<ChunkedArray>>(this->value)->length();
     case Datum::RECORD_BATCH:
-      return util::get<std::shared_ptr<RecordBatch>>(this->value)->num_rows();
+      return std::get<std::shared_ptr<RecordBatch>>(this->value)->num_rows();
     case Datum::TABLE:
-      return util::get<std::shared_ptr<Table>>(this->value)->num_rows();
+      return std::get<std::shared_ptr<Table>>(this->value)->num_rows();
     case Datum::SCALAR:
       return 1;
     default:
@@ -117,14 +117,13 @@ int64_t Datum::length() const {
 int64_t Datum::TotalBufferSize() const {
   switch (this->kind()) {
     case Datum::ARRAY:
-      return util::TotalBufferSize(*util::get<std::shared_ptr<ArrayData>>(this->value));
+      return util::TotalBufferSize(*std::get<std::shared_ptr<ArrayData>>(this->value));
     case Datum::CHUNKED_ARRAY:
-      return util::TotalBufferSize(
-          *util::get<std::shared_ptr<ChunkedArray>>(this->value));
+      return util::TotalBufferSize(*std::get<std::shared_ptr<ChunkedArray>>(this->value));
     case Datum::RECORD_BATCH:
-      return util::TotalBufferSize(*util::get<std::shared_ptr<RecordBatch>>(this->value));
+      return util::TotalBufferSize(*std::get<std::shared_ptr<RecordBatch>>(this->value));
     case Datum::TABLE:
-      return util::TotalBufferSize(*util::get<std::shared_ptr<Table>>(this->value));
+      return util::TotalBufferSize(*std::get<std::shared_ptr<Table>>(this->value));
     case Datum::SCALAR:
       return 0;
     default:
@@ -135,11 +134,11 @@ int64_t Datum::TotalBufferSize() const {
 
 int64_t Datum::null_count() const {
   if (this->kind() == Datum::ARRAY) {
-    return util::get<std::shared_ptr<ArrayData>>(this->value)->GetNullCount();
+    return std::get<std::shared_ptr<ArrayData>>(this->value)->GetNullCount();
   } else if (this->kind() == Datum::CHUNKED_ARRAY) {
-    return util::get<std::shared_ptr<ChunkedArray>>(this->value)->null_count();
+    return std::get<std::shared_ptr<ChunkedArray>>(this->value)->null_count();
   } else if (this->kind() == Datum::SCALAR) {
-    const auto& val = *util::get<std::shared_ptr<Scalar>>(this->value);
+    const auto& val = *std::get<std::shared_ptr<Scalar>>(this->value);
     return val.is_valid ? 0 : 1;
   } else {
     DCHECK(false) << "This function only valid for array-like values";
diff --git a/cpp/src/arrow/datum.h b/cpp/src/arrow/datum.h
index d4aaff22ce3..1d6d87a2e08 100644
--- a/cpp/src/arrow/datum.h
+++ b/cpp/src/arrow/datum.h
@@ -22,6 +22,7 @@
 #include <string>
 #include <type_traits>
 #include <utility>
+#include <variant>
 #include <vector>
 
 #include "arrow/array/data.h"
@@ -30,7 +31,6 @@
 #include "arrow/type_traits.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/variant.h"  // IWYU pragma: export
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -51,9 +51,9 @@ struct ARROW_EXPORT Datum {
   // current variant does not have a length.
   static constexpr int64_t kUnknownLength = -1;
 
-  util::Variant<Empty, std::shared_ptr<Scalar>, std::shared_ptr<ArrayData>,
-                std::shared_ptr<ChunkedArray>, std::shared_ptr<RecordBatch>,
-                std::shared_ptr<Table>>
+  std::variant<Empty, std::shared_ptr<Scalar>, std::shared_ptr<ArrayData>,
+               std::shared_ptr<ChunkedArray>, std::shared_ptr<RecordBatch>,
+               std::shared_ptr<Table>>
       value;
 
   /// \brief Empty datum, to be populated elsewhere
@@ -86,21 +86,26 @@ struct ARROW_EXPORT Datum {
   explicit Datum(const Table& value);
 
   // Cast from subtypes of Array or Scalar to Datum
-  template <typename T, bool IsArray = std::is_base_of<Array, T>::value,
-            bool IsScalar = std::is_base_of<Scalar, T>::value,
+  template <typename T, bool IsArray = std::is_base_of_v<Array, T>,
+            bool IsScalar = std::is_base_of_v<Scalar, T>,
             typename = enable_if_t<IsArray || IsScalar>>
   Datum(std::shared_ptr<T> value)  // NOLINT implicit conversion
       : Datum(std::shared_ptr<typename std::conditional<IsArray, Array, Scalar>::type>(
             std::move(value))) {}
 
   // Cast from subtypes of Array or Scalar to Datum
-  template <typename T, typename TV = typename std::remove_reference<T>::type,
-            bool IsArray = std::is_base_of<Array, T>::value,
-            bool IsScalar = std::is_base_of<Scalar, T>::value,
+  template <typename T, typename TV = typename std::remove_reference_t<T>,
+            bool IsArray = std::is_base_of_v<Array, T>,
+            bool IsScalar = std::is_base_of_v<Scalar, T>,
             typename = enable_if_t<IsArray || IsScalar>>
   Datum(T&& value)  // NOLINT implicit conversion
       : Datum(std::make_shared<TV>(std::forward<T>(value))) {}
 
+  // Many Scalars are copyable, let that happen
+  template <typename T, typename = enable_if_t<std::is_base_of_v<Scalar, T>>>
+  Datum(const T& value)  // NOLINT implicit conversion
+      : Datum(std::make_shared<T>(value)) {}
+
   // Convenience constructors
   explicit Datum(bool value);
   explicit Datum(int8_t value);
@@ -116,6 +121,12 @@ struct ARROW_EXPORT Datum {
   explicit Datum(std::string value);
   explicit Datum(const char* value);
 
+  // Forward to convenience constructors for a DurationScalar from std::chrono::duration
+  template <template <typename, typename> class StdDuration, typename Rep,
+            typename Period,
+            typename = decltype(DurationScalar{StdDuration<Rep, Period>{}})>
+  explicit Datum(StdDuration<Rep, Period> d) : Datum{DurationScalar(d)} {}
+
   Datum::Kind kind() const {
     switch (this->value.index()) {
       case 0:
@@ -136,7 +147,7 @@ struct ARROW_EXPORT Datum {
   }
 
   const std::shared_ptr<ArrayData>& array() const {
-    return util::get<std::shared_ptr<ArrayData>>(this->value);
+    return std::get<std::shared_ptr<ArrayData>>(this->value);
   }
 
   /// \brief The sum of bytes in each buffer referenced by the datum
@@ -149,19 +160,19 @@ struct ARROW_EXPORT Datum {
   std::shared_ptr<Array> make_array() const;
 
   const std::shared_ptr<ChunkedArray>& chunked_array() const {
-    return util::get<std::shared_ptr<ChunkedArray>>(this->value);
+    return std::get<std::shared_ptr<ChunkedArray>>(this->value);
   }
 
   const std::shared_ptr<RecordBatch>& record_batch() const {
-    return util::get<std::shared_ptr<RecordBatch>>(this->value);
+    return std::get<std::shared_ptr<RecordBatch>>(this->value);
   }
 
   const std::shared_ptr<Table>& table() const {
-    return util::get<std::shared_ptr<Table>>(this->value);
+    return std::get<std::shared_ptr<Table>>(this->value);
   }
 
   const std::shared_ptr<Scalar>& scalar() const {
-    return util::get<std::shared_ptr<Scalar>>(this->value);
+    return std::get<std::shared_ptr<Scalar>>(this->value);
   }
 
   template <typename ExactType>
@@ -215,10 +226,10 @@ struct ARROW_EXPORT Datum {
   bool operator!=(const Datum& other) const { return !Equals(other); }
 
   std::string ToString() const;
-
-  ARROW_EXPORT friend void PrintTo(const Datum&, std::ostream*);
 };
 
+ARROW_EXPORT void PrintTo(const Datum&, std::ostream*);
+
 ARROW_EXPORT std::string ToString(Datum::Kind kind);
 
 }  // namespace arrow
diff --git a/cpp/src/arrow/datum_test.cc b/cpp/src/arrow/datum_test.cc
index 8f962962a21..14daac6a794 100644
--- a/cpp/src/arrow/datum_test.cc
+++ b/cpp/src/arrow/datum_test.cc
@@ -15,6 +15,7 @@
 // specific language governing permissions and limitations
 // under the License.
 
+#include <chrono>
 #include <memory>
 #include <string>
 
@@ -101,6 +102,30 @@ TEST(Datum, Constructors) {
   Datum val6;
   val6 = std::move(val4);
   Check(val6);
+
+  AssertDatumsEqual(Datum{std::chrono::nanoseconds{1235}},
+                    Datum{DurationScalar{1235, TimeUnit::NANO}});
+
+  AssertDatumsEqual(Datum{std::chrono::microseconds{58}},
+                    Datum{DurationScalar{58, TimeUnit::MICRO}});
+
+  AssertDatumsEqual(Datum{std::chrono::milliseconds{952}},
+                    Datum{DurationScalar{952, TimeUnit::MILLI}});
+
+  AssertDatumsEqual(Datum{std::chrono::seconds{625}},
+                    Datum{DurationScalar{625, TimeUnit::SECOND}});
+
+  AssertDatumsEqual(Datum{std::chrono::minutes{2}},
+                    Datum{DurationScalar{120, TimeUnit::SECOND}});
+
+  // finer than nanoseconds; we can't represent this without truncation
+  using picoseconds = std::chrono::duration<int64_t, std::pico>;
+  static_assert(!std::is_constructible_v<Datum, picoseconds>);
+
+  // between seconds and milliseconds; we could represent this as milliseconds safely, but
+  // it's a pain to support
+  using centiseconds = std::chrono::duration<int64_t, std::centi>;
+  static_assert(!std::is_constructible_v<Datum, centiseconds>);
 }
 
 TEST(Datum, NullCount) {
diff --git a/cpp/src/arrow/device.h b/cpp/src/arrow/device.h
index c22665ef8e1..67c62a5181f 100644
--- a/cpp/src/arrow/device.h
+++ b/cpp/src/arrow/device.h
@@ -226,7 +226,7 @@ class ARROW_EXPORT CPUMemoryManager : public MemoryManager {
   MemoryPool* pool_;
 
   friend std::shared_ptr<MemoryManager> CPUDevice::memory_manager(MemoryPool* pool);
-  friend ARROW_EXPORT std::shared_ptr<MemoryManager> default_cpu_memory_manager();
+  ARROW_FRIEND_EXPORT friend std::shared_ptr<MemoryManager> default_cpu_memory_manager();
 };
 
 /// \brief Return the default CPU MemoryManager instance
diff --git a/cpp/src/arrow/engine/ArrowSubstraitConfig.cmake.in b/cpp/src/arrow/engine/ArrowSubstraitConfig.cmake.in
index a796ab4e8af..2e96d372ad7 100644
--- a/cpp/src/arrow/engine/ArrowSubstraitConfig.cmake.in
+++ b/cpp/src/arrow/engine/ArrowSubstraitConfig.cmake.in
@@ -21,8 +21,8 @@
 #
 # This config sets the following targets in your project::
 #
-#   arrow_substrait_shared - for linked as shared library if shared library is built
-#   arrow_substrait_static - for linked as static library if static library is built
+#   ArrowSubstrait::arrow_substrait_shared - for linked as shared library if shared library is built
+#   ArrowSubstrait::arrow_substrait_static - for linked as static library if static library is built
 
 @PACKAGE_INIT@
 
@@ -31,8 +31,10 @@ find_dependency(Arrow)
 find_dependency(ArrowDataset)
 find_dependency(Parquet)
 
-# Load targets only once. If we load targets multiple times, CMake reports
-# already existent target error.
-if(NOT (TARGET arrow_substrait_shared OR TARGET arrow_substrait_static))
-  include("${CMAKE_CURRENT_LIST_DIR}/ArrowSubstraitTargets.cmake")
-endif()
+include("${CMAKE_CURRENT_LIST_DIR}/ArrowSubstraitTargets.cmake")
+
+arrow_keep_backward_compatibility(ArrowSubstrait arrow_substrait)
+
+check_required_components(ArrowSubstrait)
+
+arrow_show_details(ArrowSubstrait ARROW_SUBSTRAIT)
diff --git a/cpp/src/arrow/engine/CMakeLists.txt b/cpp/src/arrow/engine/CMakeLists.txt
index 8edd22900e6..4e5f8bb96b7 100644
--- a/cpp/src/arrow/engine/CMakeLists.txt
+++ b/cpp/src/arrow/engine/CMakeLists.txt
@@ -23,10 +23,13 @@ set(ARROW_SUBSTRAIT_SRCS
     substrait/expression_internal.cc
     substrait/extension_set.cc
     substrait/extension_types.cc
-    substrait/serde.cc
+    substrait/options.cc
     substrait/plan_internal.cc
     substrait/relation_internal.cc
+    substrait/serde.cc
+    substrait/test_plan_builder.cc
     substrait/type_internal.cc
+    substrait/util_internal.cc
     substrait/util.cc)
 
 add_arrow_lib(arrow_substrait
@@ -43,13 +46,15 @@ add_arrow_lib(arrow_substrait
               SHARED_LINK_FLAGS
               ${ARROW_VERSION_SCRIPT_FLAGS} # Defined in cpp/arrow/CMakeLists.txt
               SHARED_LINK_LIBS
-              arrow_shared
               arrow_dataset_shared
               substrait
+              SHARED_INSTALL_INTERFACE_LIBS
+              ArrowDataset::arrow_dataset_shared
               STATIC_LINK_LIBS
-              arrow_static
               arrow_dataset_static
               substrait
+              STATIC_INSTALL_INTERFACE_LIBS
+              ArrowDataset::arrow_dataset_static
               PRIVATE_INCLUDES
               ${SUBSTRAIT_INCLUDES})
 
@@ -67,7 +72,9 @@ endif()
 add_arrow_test(substrait_test
                SOURCES
                substrait/ext_test.cc
+               substrait/function_test.cc
                substrait/serde_test.cc
+               substrait/protobuf_test_util.cc
                EXTRA_LINK_LIBS
                ${ARROW_SUBSTRAIT_TEST_LINK_LIBS}
                PREFIX
diff --git a/cpp/src/arrow/engine/api.h b/cpp/src/arrow/engine/api.h
index 40cade9621e..a3f10553ffe 100644
--- a/cpp/src/arrow/engine/api.h
+++ b/cpp/src/arrow/engine/api.h
@@ -21,4 +21,5 @@
 
 #include "arrow/engine/substrait/extension_set.h"
 #include "arrow/engine/substrait/extension_types.h"
+#include "arrow/engine/substrait/relation.h"
 #include "arrow/engine/substrait/serde.h"
diff --git a/cpp/src/arrow/engine/arrow-substrait.pc.in b/cpp/src/arrow/engine/arrow-substrait.pc.in
index 77ac510933f..173e1c91efd 100644
--- a/cpp/src/arrow/engine/arrow-substrait.pc.in
+++ b/cpp/src/arrow/engine/arrow-substrait.pc.in
@@ -24,3 +24,4 @@ Description: Apache Arrow's Substrait Consumer.
 Version: @ARROW_VERSION@
 Requires: arrow
 Libs: -L${libdir} -larrow_substrait
+Cflags.private: -DARROW_ENGINE_STATIC
diff --git a/cpp/src/arrow/engine/simple_extension_type_internal.h b/cpp/src/arrow/engine/simple_extension_type_internal.h
index b177425a9a9..c3f0226283d 100644
--- a/cpp/src/arrow/engine/simple_extension_type_internal.h
+++ b/cpp/src/arrow/engine/simple_extension_type_internal.h
@@ -18,13 +18,14 @@
 #pragma once
 
 #include <memory>
+#include <optional>
 #include <sstream>
 #include <string>
+#include <string_view>
 #include <vector>
 
 #include "arrow/extension_type.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/reflection_internal.h"
 #include "arrow/util/string.h"
 
@@ -41,7 +42,7 @@ namespace engine {
 /// Note: The serialization is a very barebones JSON-like format and
 /// probably shouldn't be hand-edited
 
-template <const util::string_view& kExtensionName, typename Params,
+template <const std::string_view& kExtensionName, typename Params,
           typename ParamsProperties, const ParamsProperties* kProperties,
           std::shared_ptr<DataType> GetStorage(const Params&)>
 class SimpleExtensionType : public ExtensionType {
@@ -67,7 +68,7 @@ class SimpleExtensionType : public ExtensionType {
     return &::arrow::internal::checked_cast<const SimpleExtensionType&>(type).params_;
   }
 
-  std::string extension_name() const override { return kExtensionName.to_string(); }
+  std::string extension_name() const override { return std::string(kExtensionName); }
 
   std::string ToString() const override { return "extension<" + this->Serialize() + ">"; }
 
@@ -101,16 +102,15 @@ class SimpleExtensionType : public ExtensionType {
   }
 
   struct DeserializeImpl {
-    explicit DeserializeImpl(util::string_view repr) {
+    explicit DeserializeImpl(std::string_view repr) {
       Init(kExtensionName, repr, kProperties->size());
       kProperties->ForEach(*this);
     }
 
-    void Fail() { params_ = util::nullopt; }
+    void Fail() { params_ = std::nullopt; }
 
-    void Init(util::string_view class_name, util::string_view repr,
-              size_t num_properties) {
-      if (!repr.starts_with(class_name)) return Fail();
+    void Init(std::string_view class_name, std::string_view repr, size_t num_properties) {
+      if (!::arrow::internal::StartsWith(repr, class_name)) return Fail();
 
       repr = repr.substr(class_name.size());
       if (repr.empty()) return Fail();
@@ -127,7 +127,7 @@ class SimpleExtensionType : public ExtensionType {
       if (!params_) return;
 
       auto first_colon = members_[i].find_first_of(':');
-      if (first_colon == util::string_view::npos) return Fail();
+      if (first_colon == std::string_view::npos) return Fail();
 
       auto name = members_[i].substr(0, first_colon);
       if (name != prop.name()) return Fail();
@@ -135,7 +135,7 @@ class SimpleExtensionType : public ExtensionType {
       auto value_repr = members_[i].substr(first_colon + 1);
       typename Property::Type value;
       try {
-        std::stringstream ss(value_repr.to_string());
+        std::stringstream ss{std::string{value_repr}};
         ss >> value;
         if (!ss.eof()) return Fail();
       } catch (...) {
@@ -144,8 +144,8 @@ class SimpleExtensionType : public ExtensionType {
       prop.set(&*params_, std::move(value));
     }
 
-    util::optional<Params> params_;
-    std::vector<util::string_view> members_;
+    std::optional<Params> params_;
+    std::vector<std::string_view> members_;
   };
   Result<std::shared_ptr<DataType>> Deserialize(
       std::shared_ptr<DataType> storage_type,
@@ -179,7 +179,7 @@ class SimpleExtensionType : public ExtensionType {
     }
 
     std::string Finish() {
-      return kExtensionName.to_string() + "{" +
+      return std::string(kExtensionName) + "{" +
              ::arrow::internal::JoinStrings(members_, ",") + "}";
     }
 
diff --git a/cpp/src/arrow/engine/substrait/expression_internal.cc b/cpp/src/arrow/engine/substrait/expression_internal.cc
index 07c222bc4cf..ab41908bea4 100644
--- a/cpp/src/arrow/engine/substrait/expression_internal.cc
+++ b/cpp/src/arrow/engine/substrait/expression_internal.cc
@@ -19,27 +19,159 @@
 
 #include "arrow/engine/substrait/expression_internal.h"
 
+#include <algorithm>
+#include <array>
+#include <cstdint>
+#include <cstring>
+#include <functional>
+#include <memory>
+#include <optional>
+#include <string>
+#include <string_view>
+#include <type_traits>
 #include <utility>
+#include <vector>
 
+#include <google/protobuf/descriptor.h>
+
+#include "arrow/array/array_base.h"
+#include "arrow/array/array_nested.h"
+#include "arrow/array/array_primitive.h"
+#include "arrow/array/util.h"
+#include "arrow/buffer.h"
 #include "arrow/builder.h"
+#include "arrow/compute/api_scalar.h"
 #include "arrow/compute/exec/expression.h"
 #include "arrow/compute/exec/expression_internal.h"
+#include "arrow/engine/substrait/extension_set.h"
 #include "arrow/engine/substrait/extension_types.h"
+#include "arrow/engine/substrait/options.h"
 #include "arrow/engine/substrait/type_internal.h"
+#include "arrow/engine/substrait/util.h"
+#include "arrow/engine/substrait/util_internal.h"
 #include "arrow/result.h"
+#include "arrow/scalar.h"
 #include "arrow/status.h"
-#include "arrow/util/make_unique.h"
+#include "arrow/type.h"
+#include "arrow/util/checked_cast.h"
+#include "arrow/util/decimal.h"
+#include "arrow/util/endian.h"
+#include "arrow/util/logging.h"
+#include "arrow/util/small_vector.h"
+#include "arrow/util/string.h"
 #include "arrow/visit_scalar_inline.h"
 
 namespace arrow {
 
 using internal::checked_cast;
+using internal::ToChars;
 
 namespace engine {
 
-namespace internal {
-using ::arrow::internal::make_unique;
-}  // namespace internal
+namespace {
+
+Id NormalizeFunctionName(Id id) {
+  // Substrait plans encode the types into the function name so it might look like
+  // add:opt_i32_i32.  We don't care about  the :opt_i32_i32 so we just trim it
+  std::string_view func_name = id.name;
+  std::size_t colon_index = func_name.find_first_of(':');
+  if (colon_index != std::string_view::npos) {
+    func_name = func_name.substr(0, colon_index);
+  }
+  return {id.uri, func_name};
+}
+
+}  // namespace
+
+Status DecodeArg(const substrait::FunctionArgument& arg, int idx, SubstraitCall* call,
+                 const ExtensionSet& ext_set,
+                 const ConversionOptions& conversion_options) {
+  if (!arg.enum_().empty()) {
+    call->SetEnumArg(idx, arg.enum_());
+  } else if (arg.has_value()) {
+    ARROW_ASSIGN_OR_RAISE(compute::Expression expr,
+                          FromProto(arg.value(), ext_set, conversion_options));
+    call->SetValueArg(idx, std::move(expr));
+  } else if (arg.has_type()) {
+    return Status::NotImplemented("Type arguments not currently supported");
+  } else {
+    return Status::NotImplemented("Unrecognized function argument class");
+  }
+  return Status::OK();
+}
+
+Status DecodeOption(const substrait::FunctionOption& opt, SubstraitCall* call) {
+  std::vector<std::string_view> prefs;
+  if (opt.preference_size() == 0) {
+    return Status::Invalid("Invalid Substrait plan.  The option ", opt.name(),
+                           " is specified but does not list any choices");
+  }
+  for (const auto& preference : opt.preference()) {
+    prefs.push_back(preference);
+  }
+  call->SetOption(opt.name(), prefs);
+  return Status::OK();
+}
+
+Result<SubstraitCall> DecodeScalarFunction(
+    Id id, const substrait::Expression::ScalarFunction& scalar_fn,
+    const ExtensionSet& ext_set, const ConversionOptions& conversion_options) {
+  ARROW_ASSIGN_OR_RAISE(auto output_type_and_nullable,
+                        FromProto(scalar_fn.output_type(), ext_set, conversion_options));
+  SubstraitCall call(id, output_type_and_nullable.first, output_type_and_nullable.second);
+  for (int i = 0; i < scalar_fn.arguments_size(); i++) {
+    ARROW_RETURN_NOT_OK(
+        DecodeArg(scalar_fn.arguments(i), i, &call, ext_set, conversion_options));
+  }
+  for (const auto& opt : scalar_fn.options()) {
+    ARROW_RETURN_NOT_OK(DecodeOption(opt, &call));
+  }
+  return std::move(call);
+}
+
+std::string EnumToString(int value, const google::protobuf::EnumDescriptor* descriptor) {
+  const google::protobuf::EnumValueDescriptor* value_desc =
+      descriptor->FindValueByNumber(value);
+  if (value_desc == nullptr) {
+    return "unknown";
+  }
+  return value_desc->name();
+}
+
+Result<SubstraitCall> FromProto(const substrait::AggregateFunction& func, bool is_hash,
+                                const ExtensionSet& ext_set,
+                                const ConversionOptions& conversion_options) {
+  if (func.phase() != substrait::AggregationPhase::AGGREGATION_PHASE_INITIAL_TO_RESULT) {
+    return Status::NotImplemented(
+        "Unsupported aggregation phase '",
+        EnumToString(func.phase(), *substrait::AggregationPhase_descriptor()),
+        "'.  Only INITIAL_TO_RESULT is supported");
+  }
+  if (func.invocation() != substrait::AggregateFunction::AGGREGATION_INVOCATION_ALL &&
+      func.invocation() !=
+          substrait::AggregateFunction::AGGREGATION_INVOCATION_UNSPECIFIED) {
+    return Status::NotImplemented(
+        "Unsupported aggregation invocation '",
+        EnumToString(func.invocation(),
+                     *substrait::AggregateFunction::AggregationInvocation_descriptor()),
+        "'.  Only AGGREGATION_INVOCATION_ALL is "
+        "supported");
+  }
+  if (func.sorts_size() > 0) {
+    return Status::NotImplemented("Aggregation sorts are not supported");
+  }
+  ARROW_ASSIGN_OR_RAISE(auto output_type_and_nullable,
+                        FromProto(func.output_type(), ext_set, conversion_options));
+  ARROW_ASSIGN_OR_RAISE(Id id, ext_set.DecodeFunction(func.function_reference()));
+  id = NormalizeFunctionName(id);
+  SubstraitCall call(id, output_type_and_nullable.first, output_type_and_nullable.second,
+                     is_hash);
+  for (int i = 0; i < func.arguments_size(); i++) {
+    ARROW_RETURN_NOT_OK(DecodeArg(func.arguments(i), static_cast<uint32_t>(i), &call,
+                                  ext_set, conversion_options));
+  }
+  return std::move(call);
+}
 
 Result<compute::Expression> FromProto(const substrait::Expression& expr,
                                       const ExtensionSet& ext_set,
@@ -54,7 +186,7 @@ Result<compute::Expression> FromProto(const substrait::Expression& expr,
     case substrait::Expression::kSelection: {
       if (!expr.selection().has_direct_reference()) break;
 
-      util::optional<compute::Expression> out;
+      std::optional<compute::Expression> out;
       if (expr.selection().has_expression()) {
         ARROW_ASSIGN_OR_RAISE(
             out, FromProto(expr.selection().expression(), ext_set, conversion_options));
@@ -74,9 +206,10 @@ Result<compute::Expression> FromProto(const substrait::Expression& expr,
               out = compute::field_ref(FieldRef(*out_ref, index));
             } else if (out->call() && out->call()->function_name == "struct_field") {
               // Nested StructFields on top of an arbitrary expression
-              std::static_pointer_cast<arrow::compute::StructFieldOptions>(
-                  out->call()->options)
-                  ->indices.push_back(index);
+              auto* field_options =
+                  checked_cast<compute::StructFieldOptions*>(out->call()->options.get());
+              field_options->field_ref =
+                  FieldRef(std::move(field_options->field_ref), index);
             } else {
               // First StructField on top of an arbitrary expression
               out = compute::call("struct_field", {std::move(*out)},
@@ -153,7 +286,7 @@ Result<compute::Expression> FromProto(const substrait::Expression& expr,
                               FromProto(if_.then(), ext_set, conversion_options));
         conditions.emplace_back(std::move(compute_if));
         args.emplace_back(std::move(compute_then));
-        condition_names.emplace_back("cond" + std::to_string(++name_counter));
+        condition_names.emplace_back("cond" + ToChars(++name_counter));
       }
       ARROW_ASSIGN_OR_RAISE(auto compute_else,
                             FromProto(if_then.else_(), ext_set, conversion_options));
@@ -166,34 +299,25 @@ Result<compute::Expression> FromProto(const substrait::Expression& expr,
     case substrait::Expression::kScalarFunction: {
       const auto& scalar_fn = expr.scalar_function();
 
-      ARROW_ASSIGN_OR_RAISE(auto decoded_function,
+      ARROW_ASSIGN_OR_RAISE(Id function_id,
                             ext_set.DecodeFunction(scalar_fn.function_reference()));
+      function_id = NormalizeFunctionName(function_id);
+      ExtensionIdRegistry::SubstraitCallToArrow function_converter;
 
-      std::vector<compute::Expression> arguments(scalar_fn.arguments_size());
-      for (int i = 0; i < scalar_fn.arguments_size(); ++i) {
-        const auto& argument = scalar_fn.arguments(i);
-        switch (argument.arg_type_case()) {
-          case substrait::FunctionArgument::kValue: {
-            ARROW_ASSIGN_OR_RAISE(
-                arguments[i], FromProto(argument.value(), ext_set, conversion_options));
-            break;
-          }
-          default:
-            return Status::NotImplemented(
-                "only value arguments are currently supported for functions");
-        }
-      }
-
-      auto func_name = decoded_function.name.to_string();
-      if (func_name != "cast") {
-        return compute::call(func_name, std::move(arguments));
-      } else {
+      if (function_id.uri.empty() || function_id.uri[0] == '/') {
+        // Currently the Substrait project has not aligned on a standard URI and often
+        // seems to use /.  In that case we fall back to name-only matching.
         ARROW_ASSIGN_OR_RAISE(
-            auto output_type_desc,
-            FromProto(scalar_fn.output_type(), ext_set, conversion_options));
-        auto cast_options = compute::CastOptions::Safe(std::move(output_type_desc.first));
-        return compute::call(func_name, std::move(arguments), std::move(cast_options));
+            function_converter,
+            ext_set.registry()->GetSubstraitCallToArrowFallback(function_id.name));
+      } else {
+        ARROW_ASSIGN_OR_RAISE(function_converter,
+                              ext_set.registry()->GetSubstraitCallToArrow(function_id));
       }
+      ARROW_ASSIGN_OR_RAISE(
+          SubstraitCall substrait_call,
+          DecodeScalarFunction(function_id, scalar_fn, ext_set, conversion_options));
+      return function_converter(substrait_call);
     }
 
     default:
@@ -208,7 +332,8 @@ Result<compute::Expression> FromProto(const substrait::Expression& expr,
 Result<Datum> FromProto(const substrait::Expression::Literal& lit,
                         const ExtensionSet& ext_set,
                         const ConversionOptions& conversion_options) {
-  if (lit.nullable()) {
+  if (lit.nullable() &&
+      conversion_options.strictness == ConversionStrictness::EXACT_ROUNDTRIP) {
     // FIXME not sure how this field should be interpreted and there's no way to round
     // trip it through arrow
     return Status::Invalid(
@@ -544,7 +669,7 @@ struct ScalarToProtoImpl {
   Status Visit(const DayTimeIntervalScalar& s) { return NotImplemented(s); }
 
   Status Visit(const Decimal128Scalar& s) {
-    auto decimal = internal::make_unique<Lit::Decimal>();
+    auto decimal = std::make_unique<Lit::Decimal>();
 
     auto decimal_type = checked_cast<const Decimal128Type*>(s.type.get());
     decimal->set_precision(decimal_type->precision());
@@ -621,7 +746,7 @@ struct ScalarToProtoImpl {
     key_values->Reserve(static_cast<int>(kv_arr.length()));
 
     for (int64_t i = 0; i < s.value->length(); ++i) {
-      auto kv = internal::make_unique<Lit::Map::KeyValue>();
+      auto kv = std::make_unique<Lit::Map::KeyValue>();
 
       ARROW_ASSIGN_OR_RAISE(Datum key_scalar, kv_arr.field(0)->GetScalar(i));
       ARROW_ASSIGN_OR_RAISE(auto key, ToProto(key_scalar, ext_set_, conversion_options_));
@@ -650,7 +775,7 @@ struct ScalarToProtoImpl {
     }
 
     if (auto length = UnwrapVarChar(*s.type)) {
-      auto var_char = internal::make_unique<Lit::VarChar>();
+      auto var_char = std::make_unique<Lit::VarChar>();
       var_char->set_length(*length);
       var_char->set_value(checked_cast<const StringScalar&>(*s.value).value->ToString());
 
@@ -665,7 +790,7 @@ struct ScalarToProtoImpl {
     };
 
     if (UnwrapIntervalYear(*s.type)) {
-      auto interval_year = internal::make_unique<Lit::IntervalYearToMonth>();
+      auto interval_year = std::make_unique<Lit::IntervalYearToMonth>();
       interval_year->set_years(GetPairOfInts().first);
       interval_year->set_months(GetPairOfInts().second);
 
@@ -674,7 +799,7 @@ struct ScalarToProtoImpl {
     }
 
     if (UnwrapIntervalDay(*s.type)) {
-      auto interval_day = internal::make_unique<Lit::IntervalDayToSecond>();
+      auto interval_day = std::make_unique<Lit::IntervalDayToSecond>();
       interval_day->set_days(GetPairOfInts().first);
       interval_day->set_seconds(GetPairOfInts().second);
 
@@ -713,7 +838,7 @@ Result<std::unique_ptr<substrait::Expression::Literal>> ToProto(
                                   " as a substrait::Expression::Literal");
   }
 
-  auto out = internal::make_unique<substrait::Expression::Literal>();
+  auto out = std::make_unique<substrait::Expression::Literal>();
 
   if (datum.scalar()->is_valid) {
     RETURN_NOT_OK(
@@ -785,7 +910,7 @@ static Result<std::unique_ptr<substrait::Expression>> MakeDirectReference(
     }
   }
 
-  auto selection = internal::make_unique<substrait::Expression::FieldReference>();
+  auto selection = std::make_unique<substrait::Expression::FieldReference>();
   selection->set_allocated_direct_reference(ref_segment.release());
 
   if (expr && expr->rex_type_case() != substrait::Expression::REX_TYPE_NOT_SET) {
@@ -795,7 +920,7 @@ static Result<std::unique_ptr<substrait::Expression>> MakeDirectReference(
         new substrait::Expression::FieldReference::RootReference());
   }
 
-  auto out = internal::make_unique<substrait::Expression>();
+  auto out = std::make_unique<substrait::Expression>();
   out->set_allocated_selection(selection.release());
   return std::move(out);
 }
@@ -805,10 +930,10 @@ static Result<std::unique_ptr<substrait::Expression>> MakeDirectReference(
 static Result<std::unique_ptr<substrait::Expression>> MakeStructFieldReference(
     std::unique_ptr<substrait::Expression>&& expr, int field) {
   auto struct_field =
-      internal::make_unique<substrait::Expression::ReferenceSegment::StructField>();
+      std::make_unique<substrait::Expression::ReferenceSegment::StructField>();
   struct_field->set_field(field);
 
-  auto ref_segment = internal::make_unique<substrait::Expression::ReferenceSegment>();
+  auto ref_segment = std::make_unique<substrait::Expression::ReferenceSegment>();
   ref_segment->set_allocated_struct_field(struct_field.release());
 
   return MakeDirectReference(std::move(expr), std::move(ref_segment));
@@ -818,15 +943,44 @@ static Result<std::unique_ptr<substrait::Expression>> MakeStructFieldReference(
 static Result<std::unique_ptr<substrait::Expression>> MakeListElementReference(
     std::unique_ptr<substrait::Expression>&& expr, int offset) {
   auto list_element =
-      internal::make_unique<substrait::Expression::ReferenceSegment::ListElement>();
+      std::make_unique<substrait::Expression::ReferenceSegment::ListElement>();
   list_element->set_offset(offset);
 
-  auto ref_segment = internal::make_unique<substrait::Expression::ReferenceSegment>();
+  auto ref_segment = std::make_unique<substrait::Expression::ReferenceSegment>();
   ref_segment->set_allocated_list_element(list_element.release());
 
   return MakeDirectReference(std::move(expr), std::move(ref_segment));
 }
 
+Result<std::unique_ptr<substrait::Expression::ScalarFunction>> EncodeSubstraitCall(
+    const SubstraitCall& call, ExtensionSet* ext_set,
+    const ConversionOptions& conversion_options) {
+  ARROW_ASSIGN_OR_RAISE(uint32_t anchor, ext_set->EncodeFunction(call.id()));
+  auto scalar_fn = std::make_unique<substrait::Expression::ScalarFunction>();
+  scalar_fn->set_function_reference(anchor);
+  ARROW_ASSIGN_OR_RAISE(
+      std::unique_ptr<substrait::Type> output_type,
+      ToProto(*call.output_type(), call.output_nullable(), ext_set, conversion_options));
+  scalar_fn->set_allocated_output_type(output_type.release());
+
+  for (int i = 0; i < call.size(); i++) {
+    substrait::FunctionArgument* arg = scalar_fn->add_arguments();
+    if (call.HasEnumArg(i)) {
+      ARROW_ASSIGN_OR_RAISE(std::string_view enum_val, call.GetEnumArg(i));
+      arg->set_enum_(std::string(enum_val));
+    } else if (call.HasValueArg(i)) {
+      ARROW_ASSIGN_OR_RAISE(compute::Expression value_arg, call.GetValueArg(i));
+      ARROW_ASSIGN_OR_RAISE(std::unique_ptr<substrait::Expression> value_expr,
+                            ToProto(value_arg, ext_set, conversion_options));
+      arg->set_allocated_value(value_expr.release());
+    } else {
+      return Status::Invalid("Call reported having ", call.size(),
+                             " arguments but no argument could be found at index ", i);
+    }
+  }
+  return std::move(scalar_fn);
+}
+
 Result<std::unique_ptr<substrait::Expression>> ToProto(
     const compute::Expression& expr, ExtensionSet* ext_set,
     const ConversionOptions& conversion_options) {
@@ -834,7 +988,7 @@ Result<std::unique_ptr<substrait::Expression>> ToProto(
     return Status::Invalid("ToProto requires a bound Expression");
   }
 
-  auto out = internal::make_unique<substrait::Expression>();
+  auto out = std::make_unique<substrait::Expression>();
 
   if (auto datum = expr.literal()) {
     ARROW_ASSIGN_OR_RAISE(auto literal, ToProto(*datum, ext_set, conversion_options));
@@ -859,7 +1013,7 @@ Result<std::unique_ptr<substrait::Expression>> ToProto(
     auto conditions = call->arguments[0].call();
     if (conditions && conditions->function_name == "make_struct") {
       // catch the special case of calls convertible to IfThen
-      auto if_then_ = internal::make_unique<substrait::Expression::IfThen>();
+      auto if_then_ = std::make_unique<substrait::Expression::IfThen>();
 
       // don't try to convert argument 0 of the case_when; we have to convert the elements
       // of make_struct individually
@@ -873,7 +1027,7 @@ Result<std::unique_ptr<substrait::Expression>> ToProto(
       for (size_t i = 0; i < conditions->arguments.size(); ++i) {
         ARROW_ASSIGN_OR_RAISE(auto cond_substrait, ToProto(conditions->arguments[i],
                                                            ext_set, conversion_options));
-        auto clause = internal::make_unique<substrait::Expression::IfThen::IfClause>();
+        auto clause = std::make_unique<substrait::Expression::IfThen::IfClause>();
         clause->set_allocated_if_(cond_substrait.release());
         clause->set_allocated_then(arguments[i].release());
         if_then_->mutable_ifs()->AddAllocated(clause.release());
@@ -896,13 +1050,16 @@ Result<std::unique_ptr<substrait::Expression>> ToProto(
 
   if (call->function_name == "struct_field") {
     // catch the special case of calls convertible to a StructField
+    const auto& field_options =
+        checked_cast<const compute::StructFieldOptions&>(*call->options);
+    const DataType& struct_type = *call->arguments[0].type();
+    DCHECK_EQ(struct_type.id(), Type::STRUCT);
+
+    ARROW_ASSIGN_OR_RAISE(auto field_path, field_options.field_ref.FindOne(struct_type));
     out = std::move(arguments[0]);
-    for (int index :
-         checked_cast<const arrow::compute::StructFieldOptions&>(*call->options)
-             .indices) {
+    for (int index : field_path.indices()) {
       ARROW_ASSIGN_OR_RAISE(out, MakeStructFieldReference(std::move(out), index));
     }
-
     return std::move(out);
   }
 
@@ -911,7 +1068,7 @@ Result<std::unique_ptr<substrait::Expression>> ToProto(
     if (arguments[0]->has_selection() &&
         arguments[0]->selection().has_direct_reference()) {
       if (arguments[1]->has_literal() && arguments[1]->literal().literal_type_case() ==
-                                             substrait::Expression_Literal::kI32) {
+                                             substrait::Expression::Literal::kI32) {
         return MakeListElementReference(std::move(arguments[0]),
                                         arguments[1]->literal().i32());
       }
@@ -920,11 +1077,11 @@ Result<std::unique_ptr<substrait::Expression>> ToProto(
 
   if (call->function_name == "if_else") {
     // catch the special case of calls convertible to IfThen
-    auto if_clause = internal::make_unique<substrait::Expression::IfThen::IfClause>();
+    auto if_clause = std::make_unique<substrait::Expression::IfThen::IfClause>();
     if_clause->set_allocated_if_(arguments[0].release());
     if_clause->set_allocated_then(arguments[1].release());
 
-    auto if_then = internal::make_unique<substrait::Expression::IfThen>();
+    auto if_then = std::make_unique<substrait::Expression::IfThen>();
     if_then->mutable_ifs()->AddAllocated(if_clause.release());
     if_then->set_allocated_else_(arguments[2].release());
 
@@ -933,17 +1090,12 @@ Result<std::unique_ptr<substrait::Expression>> ToProto(
   }
 
   // other expression types dive into extensions immediately
-  ARROW_ASSIGN_OR_RAISE(auto anchor, ext_set->EncodeFunction(call->function_name));
-
-  auto scalar_fn = internal::make_unique<substrait::Expression::ScalarFunction>();
-  scalar_fn->set_function_reference(anchor);
-  scalar_fn->mutable_arguments()->Reserve(static_cast<int>(arguments.size()));
-  for (auto& arg : arguments) {
-    auto argument = internal::make_unique<substrait::FunctionArgument>();
-    argument->set_allocated_value(arg.release());
-    scalar_fn->mutable_arguments()->AddAllocated(argument.release());
-  }
-
+  ARROW_ASSIGN_OR_RAISE(
+      ExtensionIdRegistry::ArrowToSubstraitCall converter,
+      ext_set->registry()->GetArrowToSubstraitCall(call->function_name));
+  ARROW_ASSIGN_OR_RAISE(SubstraitCall substrait_call, converter(*call));
+  ARROW_ASSIGN_OR_RAISE(std::unique_ptr<substrait::Expression::ScalarFunction> scalar_fn,
+                        EncodeSubstraitCall(substrait_call, ext_set, conversion_options));
   out->set_allocated_scalar_function(scalar_fn.release());
   return std::move(out);
 }
diff --git a/cpp/src/arrow/engine/substrait/expression_internal.h b/cpp/src/arrow/engine/substrait/expression_internal.h
index 2b4dec2a00b..e947537dd1e 100644
--- a/cpp/src/arrow/engine/substrait/expression_internal.h
+++ b/cpp/src/arrow/engine/substrait/expression_internal.h
@@ -19,19 +19,21 @@
 
 #pragma once
 
-#include <utility>
+#include <memory>
 
 #include "arrow/compute/type_fwd.h"
-#include "arrow/engine/substrait/extension_set.h"
-#include "arrow/engine/substrait/options.h"
+#include "arrow/datum.h"
+#include "arrow/engine/substrait/type_fwd.h"
 #include "arrow/engine/substrait/visibility.h"
-#include "arrow/type_fwd.h"
+#include "arrow/result.h"
 
 #include "substrait/algebra.pb.h"  // IWYU pragma: export
 
 namespace arrow {
 namespace engine {
 
+class SubstraitCall;
+
 ARROW_ENGINE_EXPORT
 Result<compute::Expression> FromProto(const substrait::Expression&, const ExtensionSet&,
                                       const ConversionOptions&);
@@ -50,5 +52,9 @@ Result<std::unique_ptr<substrait::Expression::Literal>> ToProto(const Datum&,
                                                                 ExtensionSet*,
                                                                 const ConversionOptions&);
 
+ARROW_ENGINE_EXPORT
+Result<SubstraitCall> FromProto(const substrait::AggregateFunction&, bool is_hash,
+                                const ExtensionSet&, const ConversionOptions&);
+
 }  // namespace engine
 }  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/ext_test.cc b/cpp/src/arrow/engine/substrait/ext_test.cc
index 8e41cb7c98c..e7aa7a8e8d5 100644
--- a/cpp/src/arrow/engine/substrait/ext_test.cc
+++ b/cpp/src/arrow/engine/substrait/ext_test.cc
@@ -15,16 +15,24 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include "arrow/engine/substrait/extension_set.h"
-#include "arrow/engine/substrait/util.h"
-
-#include <google/protobuf/descriptor.h>
-#include <google/protobuf/util/json_util.h>
-#include <google/protobuf/util/type_resolver_util.h>
+#include <cstddef>
+#include <memory>
+#include <optional>
+#include <string>
+#include <string_view>
+#include <tuple>
+#include <vector>
+
+#include <gmock/gmock.h>
 #include <gtest/gtest.h>
 
+#include "arrow/engine/substrait/extension_set.h"
+#include "arrow/engine/substrait/util.h"
+#include "arrow/result.h"
+#include "arrow/status.h"
 #include "arrow/testing/gtest_util.h"
-#include "arrow/testing/matchers.h"
+#include "arrow/type_fwd.h"
+#include "arrow/util/checked_cast.h"
 
 using testing::ElementsAre;
 using testing::Eq;
@@ -56,12 +64,10 @@ struct DefaultExtensionIdRegistryProvider : public ExtensionIdRegistryProvider {
 
 struct NestedExtensionIdRegistryProvider : public ExtensionIdRegistryProvider {
   virtual ~NestedExtensionIdRegistryProvider() {}
-  std::shared_ptr<ExtensionIdRegistry> registry_ = substrait::MakeExtensionIdRegistry();
+  std::shared_ptr<ExtensionIdRegistry> registry_ = MakeExtensionIdRegistry();
   ExtensionIdRegistry* get() const override { return &*registry_; }
 };
 
-using Id = ExtensionIdRegistry::Id;
-
 bool operator==(const Id& id1, const Id& id2) {
   return id1.uri == id2.uri && id1.name == id2.name;
 }
@@ -70,7 +76,7 @@ bool operator!=(const Id& id1, const Id& id2) { return !(id1 == id2); }
 
 struct TypeName {
   std::shared_ptr<DataType> type;
-  util::string_view name;
+  std::string_view name;
 };
 
 static const std::vector<TypeName> kTypeNames = {
@@ -85,11 +91,11 @@ static const std::vector<TypeName> kTypeNames = {
     TypeName{month_day_nano_interval(), "interval_month_day_nano"},
 };
 
-static const std::vector<util::string_view> kFunctionNames = {
-    "add",
+static const std::vector<Id> kFunctionIds = {
+    {kSubstraitArithmeticFunctionsUri, "add"},
 };
 
-static const std::vector<util::string_view> kTempFunctionNames = {
+static const std::vector<std::string_view> kTempFunctionNames = {
     "temp_func_1",
     "temp_func_2",
 };
@@ -141,15 +147,12 @@ TEST_P(ExtensionIdRegistryTest, GetFunctions) {
   auto provider = std::get<0>(GetParam());
   auto registry = provider->get();
 
-  for (util::string_view name : kFunctionNames) {
-    auto id = Id{kArrowExtTypesUri, name};
-    for (auto funcrec_opt : {registry->GetFunction(id), registry->GetFunction(name)}) {
-      ASSERT_TRUE(funcrec_opt);
-      auto funcrec = funcrec_opt.value();
-      ASSERT_EQ(id, funcrec.id);
-      ASSERT_EQ(name, funcrec.function_name);
-    }
+  for (Id func_id : kFunctionIds) {
+    ASSERT_OK_AND_ASSIGN(ExtensionIdRegistry::SubstraitCallToArrow converter,
+                         registry->GetSubstraitCallToArrow(func_id));
+    ASSERT_TRUE(converter);
   }
+  ASSERT_RAISES(NotImplemented, registry->GetSubstraitCallToArrow(kNonExistentId));
   ASSERT_FALSE(registry->GetType(kNonExistentId));
   ASSERT_FALSE(registry->GetType(*kNonExistentTypeName.type));
 }
@@ -158,10 +161,10 @@ TEST_P(ExtensionIdRegistryTest, ReregisterFunctions) {
   auto provider = std::get<0>(GetParam());
   auto registry = provider->get();
 
-  for (util::string_view name : kFunctionNames) {
-    auto id = Id{kArrowExtTypesUri, name};
-    ASSERT_RAISES(Invalid, registry->CanRegisterFunction(id, name.to_string()));
-    ASSERT_RAISES(Invalid, registry->RegisterFunction(id, name.to_string()));
+  for (Id function_id : kFunctionIds) {
+    ASSERT_RAISES(Invalid, registry->CanAddSubstraitCallToArrow(function_id));
+    ASSERT_RAISES(Invalid, registry->AddSubstraitCallToArrow(
+                               function_id, std::string(function_id.name)));
   }
 }
 
@@ -173,11 +176,26 @@ INSTANTIATE_TEST_SUITE_P(
         std::make_tuple(std::make_shared<NestedExtensionIdRegistryProvider>(),
                         "nested")));
 
+TEST(ExtensionIdRegistryTest, GetSupportedSubstraitFunctions) {
+  ExtensionIdRegistry* default_registry = default_extension_id_registry();
+  std::vector<std::string> supported_functions =
+      default_registry->GetSupportedSubstraitFunctions();
+  std::size_t num_functions = supported_functions.size();
+  ASSERT_GT(num_functions, 0);
+
+  std::shared_ptr<ExtensionIdRegistry> nested =
+      nested_extension_id_registry(default_registry);
+  ASSERT_OK(nested->AddSubstraitCallToArrow(kNonExistentId, "some_function"));
+
+  std::size_t num_nested_functions = nested->GetSupportedSubstraitFunctions().size();
+  ASSERT_EQ(num_functions + 1, num_nested_functions);
+}
+
 TEST(ExtensionIdRegistryTest, RegisterTempTypes) {
   auto default_registry = default_extension_id_registry();
   constexpr int rounds = 3;
   for (int i = 0; i < rounds; i++) {
-    auto registry = substrait::MakeExtensionIdRegistry();
+    auto registry = MakeExtensionIdRegistry();
 
     for (TypeName e : kTempTypeNames) {
       auto id = Id{kArrowExtTypesUri, e.name};
@@ -194,15 +212,15 @@ TEST(ExtensionIdRegistryTest, RegisterTempFunctions) {
   auto default_registry = default_extension_id_registry();
   constexpr int rounds = 3;
   for (int i = 0; i < rounds; i++) {
-    auto registry = substrait::MakeExtensionIdRegistry();
+    auto registry = MakeExtensionIdRegistry();
 
-    for (util::string_view name : kTempFunctionNames) {
+    for (std::string_view name : kTempFunctionNames) {
       auto id = Id{kArrowExtTypesUri, name};
-      ASSERT_OK(registry->CanRegisterFunction(id, name.to_string()));
-      ASSERT_OK(registry->RegisterFunction(id, name.to_string()));
-      ASSERT_RAISES(Invalid, registry->CanRegisterFunction(id, name.to_string()));
-      ASSERT_RAISES(Invalid, registry->RegisterFunction(id, name.to_string()));
-      ASSERT_OK(default_registry->CanRegisterFunction(id, name.to_string()));
+      ASSERT_OK(registry->CanAddSubstraitCallToArrow(id));
+      ASSERT_OK(registry->AddSubstraitCallToArrow(id, std::string(name)));
+      ASSERT_RAISES(Invalid, registry->CanAddSubstraitCallToArrow(id));
+      ASSERT_RAISES(Invalid, registry->AddSubstraitCallToArrow(id, std::string(name)));
+      ASSERT_OK(default_registry->CanAddSubstraitCallToArrow(id));
     }
   }
 }
@@ -238,32 +256,32 @@ TEST(ExtensionIdRegistryTest, RegisterNestedTypes) {
 }
 
 TEST(ExtensionIdRegistryTest, RegisterNestedFunctions) {
-  util::string_view name1 = kTempFunctionNames[0];
-  util::string_view name2 = kTempFunctionNames[1];
+  std::string_view name1 = kTempFunctionNames[0];
+  std::string_view name2 = kTempFunctionNames[1];
   auto id1 = Id{kArrowExtTypesUri, name1};
   auto id2 = Id{kArrowExtTypesUri, name2};
 
   auto default_registry = default_extension_id_registry();
   constexpr int rounds = 3;
   for (int i = 0; i < rounds; i++) {
-    auto registry1 = substrait::MakeExtensionIdRegistry();
+    auto registry1 = MakeExtensionIdRegistry();
 
-    ASSERT_OK(registry1->CanRegisterFunction(id1, name1.to_string()));
-    ASSERT_OK(registry1->RegisterFunction(id1, name1.to_string()));
+    ASSERT_OK(registry1->CanAddSubstraitCallToArrow(id1));
+    ASSERT_OK(registry1->AddSubstraitCallToArrow(id1, std::string(name1)));
 
     for (int j = 0; j < rounds; j++) {
-      auto registry2 = substrait::MakeExtensionIdRegistry();
+      auto registry2 = MakeExtensionIdRegistry();
 
-      ASSERT_OK(registry2->CanRegisterFunction(id2, name2.to_string()));
-      ASSERT_OK(registry2->RegisterFunction(id2, name2.to_string()));
-      ASSERT_RAISES(Invalid, registry2->CanRegisterFunction(id2, name2.to_string()));
-      ASSERT_RAISES(Invalid, registry2->RegisterFunction(id2, name2.to_string()));
-      ASSERT_OK(default_registry->CanRegisterFunction(id2, name2.to_string()));
+      ASSERT_OK(registry2->CanAddSubstraitCallToArrow(id2));
+      ASSERT_OK(registry2->AddSubstraitCallToArrow(id2, std::string(name2)));
+      ASSERT_RAISES(Invalid, registry2->CanAddSubstraitCallToArrow(id2));
+      ASSERT_RAISES(Invalid, registry2->AddSubstraitCallToArrow(id2, std::string(name2)));
+      ASSERT_OK(default_registry->CanAddSubstraitCallToArrow(id2));
     }
 
-    ASSERT_RAISES(Invalid, registry1->CanRegisterFunction(id1, name1.to_string()));
-    ASSERT_RAISES(Invalid, registry1->RegisterFunction(id1, name1.to_string()));
-    ASSERT_OK(default_registry->CanRegisterFunction(id1, name1.to_string()));
+    ASSERT_RAISES(Invalid, registry1->CanAddSubstraitCallToArrow(id1));
+    ASSERT_RAISES(Invalid, registry1->AddSubstraitCallToArrow(id1, std::string(name1)));
+    ASSERT_OK(default_registry->CanAddSubstraitCallToArrow(id1));
   }
 }
 
diff --git a/cpp/src/arrow/engine/substrait/extension_set.cc b/cpp/src/arrow/engine/substrait/extension_set.cc
index 08eb6acc9ca..8f437ab9280 100644
--- a/cpp/src/arrow/engine/substrait/extension_set.cc
+++ b/cpp/src/arrow/engine/substrait/extension_set.cc
@@ -17,12 +17,20 @@
 
 #include "arrow/engine/substrait/extension_set.h"
 
-#include <unordered_map>
+#include <algorithm>
+#include <iterator>
+#include <list>
+#include <memory>
+#include <sstream>
 #include <unordered_set>
 
+#include "arrow/engine/substrait/options.h"
+#include "arrow/type.h"
+#include "arrow/type_fwd.h"
 #include "arrow/util/hash_util.h"
 #include "arrow/util/hashing.h"
-#include "arrow/util/string_view.h"
+#include "arrow/util/logging.h"
+#include "arrow/util/string.h"
 
 namespace arrow {
 namespace engine {
@@ -42,16 +50,142 @@ struct TypePtrHashEq {
 
 }  // namespace
 
-size_t ExtensionIdRegistry::IdHashEq::operator()(ExtensionIdRegistry::Id id) const {
+std::string Id::ToString() const {
+  std::stringstream sstream;
+  sstream << uri;
+  sstream << '#';
+  sstream << name;
+  return sstream.str();
+}
+
+size_t IdHashEq::operator()(Id id) const {
   constexpr ::arrow::internal::StringViewHash hash = {};
   auto out = static_cast<size_t>(hash(id.uri));
   ::arrow::internal::hash_combine(out, hash(id.name));
   return out;
 }
 
-bool ExtensionIdRegistry::IdHashEq::operator()(ExtensionIdRegistry::Id l,
-                                               ExtensionIdRegistry::Id r) const {
-  return l.uri == r.uri && l.name == r.name;
+bool IdHashEq::operator()(Id l, Id r) const { return l.uri == r.uri && l.name == r.name; }
+
+class IdStorageImpl : public IdStorage {
+ public:
+  Id Emplace(Id id) override {
+    std::string_view owned_uri = EmplaceUri(id.uri);
+
+    std::string_view owned_name;
+    auto name_itr = names_.find(id.name);
+    if (name_itr == names_.end()) {
+      owned_names_.emplace_back(id.name);
+      owned_name = owned_names_.back();
+      names_.insert(owned_name);
+    } else {
+      owned_name = *name_itr;
+    }
+
+    return {owned_uri, owned_name};
+  }
+
+  std::optional<Id> Find(Id id) const override {
+    std::optional<std::string_view> maybe_owned_uri = FindUri(id.uri);
+    if (!maybe_owned_uri) {
+      return std::nullopt;
+    }
+
+    auto name_itr = names_.find(id.name);
+    if (name_itr == names_.end()) {
+      return std::nullopt;
+    } else {
+      return Id{*maybe_owned_uri, *name_itr};
+    }
+  }
+
+  std::optional<std::string_view> FindUri(std::string_view uri) const override {
+    auto uri_itr = uris_.find(uri);
+    if (uri_itr == uris_.end()) {
+      return std::nullopt;
+    }
+    return *uri_itr;
+  }
+
+  std::string_view EmplaceUri(std::string_view uri) override {
+    auto uri_itr = uris_.find(uri);
+    if (uri_itr == uris_.end()) {
+      owned_uris_.emplace_back(uri);
+      std::string_view owned_uri = owned_uris_.back();
+      uris_.insert(owned_uri);
+      return owned_uri;
+    }
+    return *uri_itr;
+  }
+
+ private:
+  std::unordered_set<std::string_view, ::arrow::internal::StringViewHash> uris_;
+  std::unordered_set<std::string_view, ::arrow::internal::StringViewHash> names_;
+  std::list<std::string> owned_uris_;
+  std::list<std::string> owned_names_;
+};
+
+std::unique_ptr<IdStorage> IdStorage::Make() { return std::make_unique<IdStorageImpl>(); }
+
+Result<std::string_view> SubstraitCall::GetEnumArg(int index) const {
+  if (index >= size_) {
+    return Status::Invalid("Expected Substrait call to have an enum argument at index ",
+                           index, " but it did not have enough arguments");
+  }
+  auto enum_arg_it = enum_args_.find(index);
+  if (enum_arg_it == enum_args_.end()) {
+    return Status::Invalid("Expected Substrait call to have an enum argument at index ",
+                           index, " but the argument was not an enum.");
+  }
+  return enum_arg_it->second;
+}
+
+bool SubstraitCall::HasEnumArg(int index) const {
+  return enum_args_.find(index) != enum_args_.end();
+}
+
+void SubstraitCall::SetEnumArg(int index, std::string enum_arg) {
+  size_ = std::max(size_, index + 1);
+  enum_args_[index] = std::move(enum_arg);
+}
+
+Result<compute::Expression> SubstraitCall::GetValueArg(int index) const {
+  if (index >= size_) {
+    return Status::Invalid("Expected Substrait call to have a value argument at index ",
+                           index, " but it did not have enough arguments");
+  }
+  auto value_arg_it = value_args_.find(index);
+  if (value_arg_it == value_args_.end()) {
+    return Status::Invalid("Expected Substrait call to have a value argument at index ",
+                           index, " but the argument was not a value");
+  }
+  return value_arg_it->second;
+}
+
+bool SubstraitCall::HasValueArg(int index) const {
+  return value_args_.find(index) != value_args_.end();
+}
+
+void SubstraitCall::SetValueArg(int index, compute::Expression value_arg) {
+  size_ = std::max(size_, index + 1);
+  value_args_[index] = std::move(value_arg);
+}
+
+std::optional<std::vector<std::string> const*> SubstraitCall::GetOption(
+    std::string_view option_name) const {
+  auto opt = options_.find(std::string(option_name));
+  if (opt == options_.end()) {
+    return std::nullopt;
+  }
+  return &opt->second;
+}
+
+void SubstraitCall::SetOption(std::string_view option_name,
+                              const std::vector<std::string_view>& option_preferences) {
+  auto& prefs = options_[std::string(option_name)];
+  for (std::string_view pref : option_preferences) {
+    prefs.emplace_back(pref);
+  }
 }
 
 // A builder used when creating a Substrait plan from an Arrow execution plan.  In
@@ -59,10 +193,10 @@ bool ExtensionIdRegistry::IdHashEq::operator()(ExtensionIdRegistry::Id l,
 // a map of what Ids we have seen.
 ExtensionSet::ExtensionSet(const ExtensionIdRegistry* registry) : registry_(registry) {}
 
-Status ExtensionSet::CheckHasUri(util::string_view uri) {
+Status ExtensionSet::CheckHasUri(std::string_view uri) {
   auto it =
       std::find_if(uris_.begin(), uris_.end(),
-                   [&uri](const std::pair<uint32_t, util::string_view>& anchor_uri_pair) {
+                   [&uri](const std::pair<uint32_t, std::string_view>& anchor_uri_pair) {
                      return anchor_uri_pair.second == uri;
                    });
   if (it != uris_.end()) return Status::OK();
@@ -72,10 +206,10 @@ Status ExtensionSet::CheckHasUri(util::string_view uri) {
       " was referenced by an extension but was not declared in the ExtensionSet.");
 }
 
-void ExtensionSet::AddUri(std::pair<uint32_t, util::string_view> uri) {
+void ExtensionSet::AddUri(std::pair<uint32_t, std::string_view> uri) {
   auto it =
       std::find_if(uris_.begin(), uris_.end(),
-                   [&uri](const std::pair<uint32_t, util::string_view>& anchor_uri_pair) {
+                   [&uri](const std::pair<uint32_t, std::string_view>& anchor_uri_pair) {
                      return anchor_uri_pair.second == uri.second;
                    });
   if (it != uris_.end()) return;
@@ -94,57 +228,58 @@ Status ExtensionSet::AddUri(Id id) {
 
 // Creates an extension set from the Substrait plan's top-level extensions block
 Result<ExtensionSet> ExtensionSet::Make(
-    std::unordered_map<uint32_t, util::string_view> uris,
+    std::unordered_map<uint32_t, std::string_view> uris,
     std::unordered_map<uint32_t, Id> type_ids,
-    std::unordered_map<uint32_t, Id> function_ids, const ExtensionIdRegistry* registry) {
-  ExtensionSet set;
+    std::unordered_map<uint32_t, Id> function_ids,
+    const ConversionOptions& conversion_options, const ExtensionIdRegistry* registry) {
+  ExtensionSet set(default_extension_id_registry());
   set.registry_ = registry;
 
-  // TODO(bkietz) move this into the registry as registry->OwnUris(&uris) or so
-  std::unordered_set<util::string_view, ::arrow::internal::StringViewHash>
-      uris_owned_by_registry;
-  for (util::string_view uri : registry->Uris()) {
-    uris_owned_by_registry.insert(uri);
-  }
-
   for (auto& uri : uris) {
-    auto it = uris_owned_by_registry.find(uri.second);
-    if (it == uris_owned_by_registry.end()) {
-      return Status::KeyError("Uri '", uri.second, "' not found in registry");
+    std::optional<std::string_view> maybe_uri_internal = registry->FindUri(uri.second);
+    if (maybe_uri_internal) {
+      set.uris_[uri.first] = *maybe_uri_internal;
+    } else {
+      if (conversion_options.strictness == ConversionStrictness::EXACT_ROUNDTRIP) {
+        return Status::Invalid(
+            "Plan contained a URI that the extension registry is unaware of: ",
+            uri.second);
+      }
+      set.uris_[uri.first] = set.plan_specific_ids_->EmplaceUri(uri.second);
     }
-    uri.second = *it;  // Ensure uris point into the registry's memory
-    set.AddUri(uri);
   }
 
   set.types_.reserve(type_ids.size());
+  for (const auto& type_id : type_ids) {
+    if (type_id.second.empty()) continue;
+    RETURN_NOT_OK(set.CheckHasUri(type_id.second.uri));
 
-  for (unsigned int i = 0; i < static_cast<unsigned int>(type_ids.size()); ++i) {
-    if (type_ids[i].empty()) continue;
-    RETURN_NOT_OK(set.CheckHasUri(type_ids[i].uri));
-
-    if (auto rec = registry->GetType(type_ids[i])) {
-      set.types_[i] = {rec->id, rec->type};
+    if (auto rec = registry->GetType(type_id.second)) {
+      set.types_[type_id.first] = {rec->id, rec->type};
       continue;
     }
-    return Status::Invalid("Type ", type_ids[i].uri, "#", type_ids[i].name, " not found");
+    return Status::Invalid("Type ", type_id.second.uri, "#", type_id.second.name,
+                           " not found");
   }
 
   set.functions_.reserve(function_ids.size());
-
-  for (unsigned int i = 0; i < static_cast<unsigned int>(function_ids.size()); ++i) {
-    if (function_ids[i].empty()) continue;
-    RETURN_NOT_OK(set.CheckHasUri(function_ids[i].uri));
-
-    if (auto rec = registry->GetFunction(function_ids[i])) {
-      set.functions_[i] = {rec->id, rec->function_name};
-      continue;
+  for (const auto& function_id : function_ids) {
+    if (function_id.second.empty()) continue;
+    RETURN_NOT_OK(set.CheckHasUri(function_id.second.uri));
+    std::optional<Id> maybe_id_internal = registry->FindId(function_id.second);
+    if (maybe_id_internal) {
+      set.functions_[function_id.first] = *maybe_id_internal;
+    } else {
+      if (conversion_options.strictness == ConversionStrictness::EXACT_ROUNDTRIP) {
+        return Status::Invalid(
+            "Plan contained a function id that the extension registry is unaware of: ",
+            function_id.second.uri, "#", function_id.second.name);
+      }
+      set.functions_[function_id.first] =
+          set.plan_specific_ids_->Emplace(function_id.second);
     }
-    return Status::Invalid("Function ", function_ids[i].uri, "#", function_ids[i].name,
-                           " not found");
   }
 
-  set.uris_ = std::move(uris);
-
   return std::move(set);
 }
 
@@ -162,39 +297,34 @@ Result<uint32_t> ExtensionSet::EncodeType(const DataType& type) {
     auto it_success =
         types_map_.emplace(rec->id, static_cast<uint32_t>(types_map_.size()));
     if (it_success.second) {
-      DCHECK_EQ(types_.find(static_cast<unsigned int>(types_.size())), types_.end())
+      DCHECK_EQ(types_.find(static_cast<uint32_t>(types_.size())), types_.end())
           << "Type existed in types_ but not types_map_.  ExtensionSet is inconsistent";
-      types_[static_cast<unsigned int>(types_.size())] = {rec->id, rec->type};
+      types_[static_cast<uint32_t>(types_.size())] = {rec->id, rec->type};
     }
     return it_success.first->second;
   }
   return Status::KeyError("type ", type.ToString(), " not found in the registry");
 }
 
-Result<ExtensionSet::FunctionRecord> ExtensionSet::DecodeFunction(uint32_t anchor) const {
-  if (functions_.find(anchor) == functions_.end() || functions_.at(anchor).id.empty()) {
+Result<Id> ExtensionSet::DecodeFunction(uint32_t anchor) const {
+  if (functions_.find(anchor) == functions_.end() || functions_.at(anchor).empty()) {
     return Status::Invalid("User defined function reference ", anchor,
                            " did not have a corresponding anchor in the extension set");
   }
   return functions_.at(anchor);
 }
 
-Result<uint32_t> ExtensionSet::EncodeFunction(util::string_view function_name) {
-  if (auto rec = registry_->GetFunction(function_name)) {
-    RETURN_NOT_OK(this->AddUri(rec->id));
-    auto it_success =
-        functions_map_.emplace(rec->id, static_cast<uint32_t>(functions_map_.size()));
-    if (it_success.second) {
-      DCHECK_EQ(functions_.find(static_cast<unsigned int>(functions_.size())),
-                functions_.end())
-          << "Function existed in functions_ but not functions_map_.  ExtensionSet is "
-             "inconsistent";
-      functions_[static_cast<unsigned int>(functions_.size())] = {rec->id,
-                                                                  rec->function_name};
-    }
-    return it_success.first->second;
+Result<uint32_t> ExtensionSet::EncodeFunction(Id function_id) {
+  RETURN_NOT_OK(this->AddUri(function_id));
+  auto it_success =
+      functions_map_.emplace(function_id, static_cast<uint32_t>(functions_map_.size()));
+  if (it_success.second) {
+    DCHECK_EQ(functions_.find(static_cast<uint32_t>(functions_.size())), functions_.end())
+        << "Function existed in functions_ but not functions_map_.  ExtensionSet is "
+           "inconsistent";
+    functions_[static_cast<uint32_t>(functions_.size())] = function_id;
   }
-  return Status::KeyError("function ", function_name, " not found in the registry");
+  return it_success.first->second;
 }
 
 template <typename KeyToIndex, typename Key>
@@ -207,23 +337,48 @@ const int* GetIndex(const KeyToIndex& key_to_index, const Key& key) {
 namespace {
 
 struct ExtensionIdRegistryImpl : ExtensionIdRegistry {
+  ExtensionIdRegistryImpl() : parent_(nullptr) {}
+  explicit ExtensionIdRegistryImpl(const ExtensionIdRegistry* parent) : parent_(parent) {}
+
   virtual ~ExtensionIdRegistryImpl() {}
 
-  std::vector<util::string_view> Uris() const override {
-    return {uris_.begin(), uris_.end()};
+  std::optional<std::string_view> FindUri(std::string_view uri) const override {
+    if (parent_) {
+      std::optional<std::string_view> parent_uri = parent_->FindUri(uri);
+      if (parent_uri) {
+        return parent_uri;
+      }
+    }
+    return ids_->FindUri(uri);
+  }
+
+  std::optional<Id> FindId(Id id) const override {
+    if (parent_) {
+      std::optional<Id> parent_id = parent_->FindId(id);
+      if (parent_id) {
+        return parent_id;
+      }
+    }
+    return ids_->Find(id);
   }
 
-  util::optional<TypeRecord> GetType(const DataType& type) const override {
+  std::optional<TypeRecord> GetType(const DataType& type) const override {
     if (auto index = GetIndex(type_to_index_, &type)) {
       return TypeRecord{type_ids_[*index], types_[*index]};
     }
+    if (parent_) {
+      return parent_->GetType(type);
+    }
     return {};
   }
 
-  util::optional<TypeRecord> GetType(Id id) const override {
+  std::optional<TypeRecord> GetType(Id id) const override {
     if (auto index = GetIndex(id_to_index_, id)) {
       return TypeRecord{type_ids_[*index], types_[*index]};
     }
+    if (parent_) {
+      return parent_->GetType(id);
+    }
     return {};
   }
 
@@ -234,14 +389,20 @@ struct ExtensionIdRegistryImpl : ExtensionIdRegistry {
     if (type_to_index_.find(&*type) != type_to_index_.end()) {
       return Status::Invalid("Type was already registered");
     }
+    if (parent_) {
+      return parent_->CanRegisterType(id, type);
+    }
     return Status::OK();
   }
 
   Status RegisterType(Id id, std::shared_ptr<DataType> type) override {
     DCHECK_EQ(type_ids_.size(), types_.size());
 
-    Id copied_id{*uris_.emplace(id.uri.to_string()).first,
-                 *names_.emplace(id.name.to_string()).first};
+    if (parent_) {
+      ARROW_RETURN_NOT_OK(parent_->CanRegisterType(id, type));
+    }
+
+    Id copied_id = ids_->Emplace(id);
 
     auto index = static_cast<int>(type_ids_.size());
 
@@ -261,158 +422,486 @@ struct ExtensionIdRegistryImpl : ExtensionIdRegistry {
     return Status::OK();
   }
 
-  util::optional<FunctionRecord> GetFunction(
-      util::string_view arrow_function_name) const override {
-    if (auto index = GetIndex(function_name_to_index_, arrow_function_name)) {
-      return FunctionRecord{function_ids_[*index], *function_name_ptrs_[*index]};
+  Status CanAddSubstraitCallToArrow(Id substrait_function_id) const override {
+    if (substrait_to_arrow_.find(substrait_function_id) != substrait_to_arrow_.end()) {
+      return Status::Invalid("Cannot register function converter for Substrait id ",
+                             substrait_function_id.ToString(),
+                             " because a converter already exists");
     }
-    return {};
+    if (parent_) {
+      return parent_->CanAddSubstraitCallToArrow(substrait_function_id);
+    }
+    return Status::OK();
   }
 
-  util::optional<FunctionRecord> GetFunction(Id id) const override {
-    if (auto index = GetIndex(function_id_to_index_, id)) {
-      return FunctionRecord{function_ids_[*index], *function_name_ptrs_[*index]};
+  Status CanAddSubstraitAggregateToArrow(Id substrait_function_id) const override {
+    if (substrait_to_arrow_agg_.find(substrait_function_id) !=
+        substrait_to_arrow_agg_.end()) {
+      return Status::Invalid(
+          "Cannot register aggregate function converter for Substrait id ",
+          substrait_function_id.ToString(),
+          " because an aggregate converter already exists");
     }
-    return {};
+    if (parent_) {
+      return parent_->CanAddSubstraitAggregateToArrow(substrait_function_id);
+    }
+    return Status::OK();
   }
 
-  Status CanRegisterFunction(Id id,
-                             const std::string& arrow_function_name) const override {
-    if (function_id_to_index_.find(id) != function_id_to_index_.end()) {
-      return Status::Invalid("Function id was already registered");
+  template <typename ConverterType>
+  Status AddSubstraitToArrowFunc(
+      Id substrait_id, ConverterType conversion_func,
+      std::unordered_map<Id, ConverterType, IdHashEq, IdHashEq>* dest) {
+    // Convert id to view into registry-owned memory
+    Id copied_id = ids_->Emplace(substrait_id);
+
+    auto add_result = dest->emplace(copied_id, std::move(conversion_func));
+    if (!add_result.second) {
+      return Status::Invalid(
+          "Failed to register Substrait to Arrow function converter because a converter "
+          "already existed for Substrait id ",
+          substrait_id.ToString());
     }
-    if (function_name_to_index_.find(arrow_function_name) !=
-        function_name_to_index_.end()) {
-      return Status::Invalid("Function name was already registered");
+
+    return Status::OK();
+  }
+
+  Status AddSubstraitCallToArrow(Id substrait_function_id,
+                                 SubstraitCallToArrow conversion_func) override {
+    if (parent_) {
+      ARROW_RETURN_NOT_OK(parent_->CanAddSubstraitCallToArrow(substrait_function_id));
+    }
+    return AddSubstraitToArrowFunc<SubstraitCallToArrow>(
+        substrait_function_id, std::move(conversion_func), &substrait_to_arrow_);
+  }
+
+  Status AddSubstraitAggregateToArrow(
+      Id substrait_function_id, SubstraitAggregateToArrow conversion_func) override {
+    if (parent_) {
+      ARROW_RETURN_NOT_OK(
+          parent_->CanAddSubstraitAggregateToArrow(substrait_function_id));
+    }
+    return AddSubstraitToArrowFunc<SubstraitAggregateToArrow>(
+        substrait_function_id, std::move(conversion_func), &substrait_to_arrow_agg_);
+  }
+
+  template <typename ConverterType>
+  Status AddArrowToSubstraitFunc(std::string arrow_function_name, ConverterType converter,
+                                 std::unordered_map<std::string, ConverterType>* dest) {
+    auto add_result = dest->emplace(std::move(arrow_function_name), std::move(converter));
+    if (!add_result.second) {
+      return Status::Invalid(
+          "Failed to register Arrow to Substrait function converter for Arrow function ",
+          arrow_function_name, " because a converter already existed");
     }
     return Status::OK();
   }
 
-  Status RegisterFunction(Id id, std::string arrow_function_name) override {
-    DCHECK_EQ(function_ids_.size(), function_name_ptrs_.size());
+  Status AddArrowToSubstraitCall(std::string arrow_function_name,
+                                 ArrowToSubstraitCall converter) override {
+    if (parent_) {
+      ARROW_RETURN_NOT_OK(parent_->CanAddArrowToSubstraitCall(arrow_function_name));
+    }
+    return AddArrowToSubstraitFunc(std::move(arrow_function_name), converter,
+                                   &arrow_to_substrait_);
+  }
 
-    Id copied_id{*uris_.emplace(id.uri.to_string()).first,
-                 *names_.emplace(id.name.to_string()).first};
+  Status AddArrowToSubstraitAggregate(std::string arrow_function_name,
+                                      ArrowToSubstraitAggregate converter) override {
+    if (parent_) {
+      ARROW_RETURN_NOT_OK(parent_->CanAddArrowToSubstraitAggregate(arrow_function_name));
+    }
+    return AddArrowToSubstraitFunc(std::move(arrow_function_name), converter,
+                                   &arrow_to_substrait_agg_);
+  }
 
-    const std::string& copied_function_name{
-        *function_names_.emplace(std::move(arrow_function_name)).first};
+  Status CanAddArrowToSubstraitCall(const std::string& function_name) const override {
+    if (arrow_to_substrait_.find(function_name) != arrow_to_substrait_.end()) {
+      return Status::Invalid(
+          "Cannot register function converter because a converter already exists");
+    }
+    if (parent_) {
+      return parent_->CanAddArrowToSubstraitCall(function_name);
+    }
+    return Status::OK();
+  }
 
-    auto index = static_cast<int>(function_ids_.size());
+  Status CanAddArrowToSubstraitAggregate(
+      const std::string& function_name) const override {
+    if (arrow_to_substrait_agg_.find(function_name) != arrow_to_substrait_agg_.end()) {
+      return Status::Invalid(
+          "Cannot register function converter because a converter already exists");
+    }
+    if (parent_) {
+      return parent_->CanAddArrowToSubstraitAggregate(function_name);
+    }
+    return Status::OK();
+  }
 
-    auto it_success = function_id_to_index_.emplace(copied_id, index);
+  Result<SubstraitCallToArrow> GetSubstraitCallToArrow(
+      Id substrait_function_id) const override {
+    auto maybe_converter = substrait_to_arrow_.find(substrait_function_id);
+    if (maybe_converter == substrait_to_arrow_.end()) {
+      if (parent_) {
+        return parent_->GetSubstraitCallToArrow(substrait_function_id);
+      }
+      return Status::NotImplemented(
+          "No conversion function exists to convert the Substrait function ",
+          substrait_function_id.uri, "#", substrait_function_id.name,
+          " to an Arrow call expression");
+    }
+    return maybe_converter->second;
+  }
 
-    if (!it_success.second) {
-      return Status::Invalid("Function id was already registered");
+  Result<SubstraitCallToArrow> GetSubstraitCallToArrowFallback(
+      std::string_view function_name) const override {
+    for (const auto& converter_item : substrait_to_arrow_) {
+      if (converter_item.first.name == function_name) {
+        return converter_item.second;
+      }
     }
+    if (parent_) {
+      return parent_->GetSubstraitCallToArrowFallback(function_name);
+    }
+    return Status::NotImplemented(
+        "No conversion function exists to convert the Substrait function ", function_name,
+        " to an Arrow call expression");
+  }
 
-    if (!function_name_to_index_.emplace(copied_function_name, index).second) {
-      function_id_to_index_.erase(it_success.first);
-      return Status::Invalid("Function name was already registered");
+  Result<SubstraitAggregateToArrow> GetSubstraitAggregateToArrow(
+      Id substrait_function_id) const override {
+    auto maybe_converter = substrait_to_arrow_agg_.find(substrait_function_id);
+    if (maybe_converter == substrait_to_arrow_agg_.end()) {
+      if (parent_) {
+        return parent_->GetSubstraitAggregateToArrow(substrait_function_id);
+      }
+      return Status::NotImplemented(
+          "No conversion function exists to convert the Substrait aggregate function ",
+          substrait_function_id.uri, "#", substrait_function_id.name,
+          " to an Arrow aggregate");
     }
+    return maybe_converter->second;
+  }
 
-    function_name_ptrs_.push_back(&copied_function_name);
-    function_ids_.push_back(copied_id);
-    return Status::OK();
+  Result<SubstraitAggregateToArrow> GetSubstraitAggregateToArrowFallback(
+      std::string_view function_name) const override {
+    for (const auto& converter_item : substrait_to_arrow_agg_) {
+      if (converter_item.first.name == function_name) {
+        return converter_item.second;
+      }
+    }
+    if (parent_) {
+      return parent_->GetSubstraitAggregateToArrowFallback(function_name);
+    }
+    return Status::NotImplemented(
+        "No conversion function exists to convert the Substrait aggregate function ",
+        function_name, " to an Arrow call expression");
+  }
+
+  Result<ArrowToSubstraitCall> GetArrowToSubstraitCall(
+      const std::string& arrow_function_name) const override {
+    auto maybe_converter = arrow_to_substrait_.find(arrow_function_name);
+    if (maybe_converter == arrow_to_substrait_.end()) {
+      if (parent_) {
+        return parent_->GetArrowToSubstraitCall(arrow_function_name);
+      }
+      return Status::NotImplemented(
+          "No conversion function exists to convert the Arrow function ",
+          arrow_function_name, " to a Substrait call");
+    }
+    return maybe_converter->second;
+  }
+
+  Result<ArrowToSubstraitAggregate> GetArrowToSubstraitAggregate(
+      const std::string& arrow_function_name) const override {
+    auto maybe_converter = arrow_to_substrait_agg_.find(arrow_function_name);
+    if (maybe_converter == arrow_to_substrait_agg_.end()) {
+      if (parent_) {
+        return parent_->GetArrowToSubstraitAggregate(arrow_function_name);
+      }
+      return Status::NotImplemented(
+          "No conversion function exists to convert the Arrow aggregate ",
+          arrow_function_name, " to a Substrait aggregate");
+    }
+    return maybe_converter->second;
   }
 
-  Status RegisterFunction(std::string uri, std::string name,
-                          std::string arrow_function_name) override {
-    return RegisterFunction({uri, name}, arrow_function_name);
+  std::vector<std::string> GetSupportedSubstraitFunctions() const override {
+    std::vector<std::string> encoded_ids;
+    for (const auto& entry : substrait_to_arrow_) {
+      encoded_ids.push_back(entry.first.ToString());
+    }
+    for (const auto& entry : substrait_to_arrow_agg_) {
+      encoded_ids.push_back(entry.first.ToString());
+    }
+    if (parent_) {
+      std::vector<std::string> parent_ids = parent_->GetSupportedSubstraitFunctions();
+      encoded_ids.insert(encoded_ids.end(), make_move_iterator(parent_ids.begin()),
+                         make_move_iterator(parent_ids.end()));
+    }
+    std::sort(encoded_ids.begin(), encoded_ids.end());
+    return encoded_ids;
   }
 
-  // owning storage of uris, names, (arrow::)function_names, types
-  //    note that storing strings like this is safe since references into an
-  //    unordered_set are not invalidated on insertion
-  std::unordered_set<std::string> uris_, names_, function_names_;
+  // Defined below since it depends on some helper functions defined below
+  Status AddSubstraitCallToArrow(Id substrait_function_id,
+                                 std::string arrow_function_name) override;
+
+  // Parent registry, null for the root, non-null for nested
+  const ExtensionIdRegistry* parent_;
+
+  // owning storage of ids & types
+  std::unique_ptr<IdStorage> ids_ = IdStorage::Make();
   DataTypeVector types_;
+  // There should only be one entry per Arrow function so there is no need
+  // to separate ownership and lookup
+  std::unordered_map<std::string, ArrowToSubstraitCall> arrow_to_substrait_;
+  std::unordered_map<std::string, ArrowToSubstraitAggregate> arrow_to_substrait_agg_;
 
   // non-owning lookup helpers
-  std::vector<Id> type_ids_, function_ids_;
+  std::vector<Id> type_ids_;
   std::unordered_map<Id, int, IdHashEq, IdHashEq> id_to_index_;
   std::unordered_map<const DataType*, int, TypePtrHashEq, TypePtrHashEq> type_to_index_;
-
-  std::vector<const std::string*> function_name_ptrs_;
-  std::unordered_map<Id, int, IdHashEq, IdHashEq> function_id_to_index_;
-  std::unordered_map<util::string_view, int, ::arrow::internal::StringViewHash>
-      function_name_to_index_;
+  std::unordered_map<Id, SubstraitCallToArrow, IdHashEq, IdHashEq> substrait_to_arrow_;
+  std::unordered_map<Id, SubstraitAggregateToArrow, IdHashEq, IdHashEq>
+      substrait_to_arrow_agg_;
 };
 
-struct NestedExtensionIdRegistryImpl : ExtensionIdRegistryImpl {
-  explicit NestedExtensionIdRegistryImpl(const ExtensionIdRegistry* parent)
-      : parent_(parent) {}
-
-  virtual ~NestedExtensionIdRegistryImpl() {}
-
-  std::vector<util::string_view> Uris() const override {
-    std::vector<util::string_view> uris = parent_->Uris();
-    std::unordered_set<util::string_view> uri_set;
-    uri_set.insert(uris.begin(), uris.end());
-    uri_set.insert(uris_.begin(), uris_.end());
-    return std::vector<util::string_view>(uris);
+template <typename Enum>
+class EnumParser {
+ public:
+  explicit EnumParser(const std::vector<std::string>& options) {
+    for (std::size_t i = 0; i < options.size(); i++) {
+      parse_map_[options[i]] = static_cast<Enum>(i);
+      reverse_map_[static_cast<Enum>(i)] = options[i];
+    }
   }
 
-  util::optional<TypeRecord> GetType(const DataType& type) const override {
-    auto type_opt = ExtensionIdRegistryImpl::GetType(type);
-    if (type_opt) {
-      return type_opt;
+  Result<Enum> Parse(std::string_view enum_val) const {
+    auto it = parse_map_.find(std::string(enum_val));
+    if (it == parse_map_.end()) {
+      return Status::NotImplemented("The value ", enum_val,
+                                    " is not an expected enum value");
     }
-    return parent_->GetType(type);
+    return it->second;
   }
 
-  util::optional<TypeRecord> GetType(Id id) const override {
-    auto type_opt = ExtensionIdRegistryImpl::GetType(id);
-    if (type_opt) {
-      return type_opt;
+  std::string ImplementedOptionsAsString(
+      const std::vector<Enum>& implemented_opts) const {
+    std::vector<std::string_view> opt_strs;
+    for (const Enum& implemented_opt : implemented_opts) {
+      auto it = reverse_map_.find(implemented_opt);
+      if (it == reverse_map_.end()) {
+        opt_strs.emplace_back("Unknown");
+      } else {
+        opt_strs.emplace_back(it->second);
+      }
     }
-    return parent_->GetType(id);
+    return arrow::internal::JoinStrings(opt_strs, ", ");
   }
 
-  Status CanRegisterType(Id id, const std::shared_ptr<DataType>& type) const override {
-    return parent_->CanRegisterType(id, type) &
-           ExtensionIdRegistryImpl::CanRegisterType(id, type);
+ private:
+  std::unordered_map<std::string, Enum> parse_map_;
+  std::unordered_map<Enum, std::string> reverse_map_;
+};
+
+enum class TemporalComponent { kYear = 0, kMonth, kDay, kSecond };
+static std::vector<std::string> kTemporalComponentOptions = {"YEAR", "MONTH", "DAY",
+                                                             "SECOND"};
+static EnumParser<TemporalComponent> kTemporalComponentParser(kTemporalComponentOptions);
+
+enum class OverflowBehavior { kSilent = 0, kSaturate, kError };
+static std::vector<std::string> kOverflowOptions = {"SILENT", "SATURATE", "ERROR"};
+static EnumParser<OverflowBehavior> kOverflowParser(kOverflowOptions);
+
+template <typename Enum>
+Result<Enum> ParseOptionOrElse(const SubstraitCall& call, std::string_view option_name,
+                               const EnumParser<Enum>& parser,
+                               const std::vector<Enum>& implemented_options,
+                               Enum fallback) {
+  std::optional<std::vector<std::string> const*> enum_arg = call.GetOption(option_name);
+  if (!enum_arg.has_value()) {
+    return fallback;
+  }
+  std::vector<std::string> const* prefs = *enum_arg;
+  for (const std::string& pref : *prefs) {
+    ARROW_ASSIGN_OR_RAISE(Enum parsed, parser.Parse(pref));
+    for (Enum implemented_opt : implemented_options) {
+      if (implemented_opt == parsed) {
+        return parsed;
+      }
+    }
   }
 
-  Status RegisterType(Id id, std::shared_ptr<DataType> type) override {
-    return parent_->CanRegisterType(id, type) &
-           ExtensionIdRegistryImpl::RegisterType(id, type);
+  // Prepare error message
+  return Status::NotImplemented(
+      "During a call to a function with id ", call.id().uri, "#", call.id().name,
+      " the plan requested the option ", option_name, " to be one of [",
+      arrow::internal::JoinStrings(*prefs, ", "),
+      "] but the only supported options are [",
+      parser.ImplementedOptionsAsString(implemented_options), "]");
+}
+
+template <typename Enum>
+Result<Enum> ParseEnumArg(const SubstraitCall& call, int arg_index,
+                          const EnumParser<Enum>& parser) {
+  ARROW_ASSIGN_OR_RAISE(std::string_view enum_val, call.GetEnumArg(arg_index));
+  return parser.Parse(enum_val);
+}
+
+Result<std::vector<compute::Expression>> GetValueArgs(const SubstraitCall& call,
+                                                      int start_index) {
+  std::vector<compute::Expression> expressions;
+  for (int index = start_index; index < call.size(); index++) {
+    ARROW_ASSIGN_OR_RAISE(compute::Expression arg, call.GetValueArg(index));
+    expressions.push_back(arg);
   }
+  return std::move(expressions);
+}
 
-  util::optional<FunctionRecord> GetFunction(
-      util::string_view arrow_function_name) const override {
-    auto func_opt = ExtensionIdRegistryImpl::GetFunction(arrow_function_name);
-    if (func_opt) {
-      return func_opt;
+ExtensionIdRegistry::SubstraitCallToArrow DecodeOptionlessOverflowableArithmetic(
+    const std::string& function_name) {
+  return [function_name](const SubstraitCall& call) -> Result<compute::Expression> {
+    ARROW_ASSIGN_OR_RAISE(
+        OverflowBehavior overflow_behavior,
+        ParseOptionOrElse(call, "overflow", kOverflowParser,
+                          {OverflowBehavior::kSilent, OverflowBehavior::kError},
+                          OverflowBehavior::kSilent));
+    ARROW_ASSIGN_OR_RAISE(std::vector<compute::Expression> value_args,
+                          GetValueArgs(call, 0));
+    if (overflow_behavior == OverflowBehavior::kSilent) {
+      return arrow::compute::call(function_name, std::move(value_args));
+    } else if (overflow_behavior == OverflowBehavior::kError) {
+      return arrow::compute::call(function_name + "_checked", std::move(value_args));
+    } else {
+      return Status::NotImplemented(
+          "Only SILENT and ERROR arithmetic kernels are currently implemented but ",
+          kOverflowOptions[static_cast<int>(overflow_behavior)], " was requested");
     }
-    return parent_->GetFunction(arrow_function_name);
-  }
+  };
+}
+
+ExtensionIdRegistry::SubstraitCallToArrow DecodeOptionlessUncheckedArithmetic(
+    const std::string& function_name) {
+  return [function_name](const SubstraitCall& call) -> Result<compute::Expression> {
+    ARROW_ASSIGN_OR_RAISE(std::vector<compute::Expression> value_args,
+                          GetValueArgs(call, 0));
+    return arrow::compute::call(function_name, std::move(value_args));
+  };
+}
 
-  util::optional<FunctionRecord> GetFunction(Id id) const override {
-    auto func_opt = ExtensionIdRegistryImpl::GetFunction(id);
-    if (func_opt) {
-      return func_opt;
+template <bool kChecked>
+ExtensionIdRegistry::ArrowToSubstraitCall EncodeOptionlessOverflowableArithmetic(
+    Id substrait_fn_id) {
+  return
+      [substrait_fn_id](const compute::Expression::Call& call) -> Result<SubstraitCall> {
+        // nullable=true isn't quite correct but we don't know the nullability of
+        // the inputs
+        SubstraitCall substrait_call(substrait_fn_id, call.type.GetSharedPtr(),
+                                     /*nullable=*/true);
+        if (kChecked) {
+          substrait_call.SetOption("overflow", {"ERROR"});
+        } else {
+          substrait_call.SetOption("overflow", {"SILENT"});
+        }
+        for (std::size_t i = 0; i < call.arguments.size(); i++) {
+          substrait_call.SetValueArg(static_cast<int>(i), call.arguments[i]);
+        }
+        return std::move(substrait_call);
+      };
+}
+
+ExtensionIdRegistry::ArrowToSubstraitCall EncodeOptionlessComparison(Id substrait_fn_id) {
+  return
+      [substrait_fn_id](const compute::Expression::Call& call) -> Result<SubstraitCall> {
+        // nullable=true isn't quite correct but we don't know the nullability of
+        // the inputs
+        SubstraitCall substrait_call(substrait_fn_id, call.type.GetSharedPtr(),
+                                     /*nullable=*/true);
+        for (std::size_t i = 0; i < call.arguments.size(); i++) {
+          substrait_call.SetValueArg(static_cast<int>(i), call.arguments[i]);
+        }
+        return std::move(substrait_call);
+      };
+}
+
+ExtensionIdRegistry::SubstraitCallToArrow DecodeOptionlessBasicMapping(
+    const std::string& function_name, int max_args) {
+  return [function_name,
+          max_args](const SubstraitCall& call) -> Result<compute::Expression> {
+    if (call.size() > max_args) {
+      return Status::NotImplemented("Acero does not have a kernel for ", function_name,
+                                    " that receives ", call.size(), " arguments");
     }
-    return parent_->GetFunction(id);
-  }
+    ARROW_ASSIGN_OR_RAISE(std::vector<compute::Expression> value_args,
+                          GetValueArgs(call, 0));
+    return arrow::compute::call(function_name, std::move(value_args));
+  };
+}
 
-  Status CanRegisterFunction(Id id,
-                             const std::string& arrow_function_name) const override {
-    return parent_->CanRegisterFunction(id, arrow_function_name) &
-           ExtensionIdRegistryImpl::CanRegisterFunction(id, arrow_function_name);
-  }
+ExtensionIdRegistry::SubstraitCallToArrow DecodeTemporalExtractionMapping() {
+  return [](const SubstraitCall& call) -> Result<compute::Expression> {
+    ARROW_ASSIGN_OR_RAISE(TemporalComponent temporal_component,
+                          ParseEnumArg(call, 0, kTemporalComponentParser));
+    ARROW_ASSIGN_OR_RAISE(std::vector<compute::Expression> value_args,
+                          GetValueArgs(call, 1));
+    std::string func_name;
+    switch (temporal_component) {
+      case TemporalComponent::kYear:
+        func_name = "year";
+        break;
+      case TemporalComponent::kMonth:
+        func_name = "month";
+        break;
+      case TemporalComponent::kDay:
+        func_name = "day";
+        break;
+      case TemporalComponent::kSecond:
+        func_name = "second";
+        break;
+      default:
+        return Status::Invalid("Unexpected value for temporal component in extract call");
+    }
+    return compute::call(func_name, std::move(value_args));
+  };
+}
 
-  Status RegisterFunction(Id id, std::string arrow_function_name) override {
-    return parent_->CanRegisterFunction(id, arrow_function_name) &
-           ExtensionIdRegistryImpl::RegisterFunction(id, arrow_function_name);
-  }
+ExtensionIdRegistry::SubstraitCallToArrow DecodeConcatMapping() {
+  return [](const SubstraitCall& call) -> Result<compute::Expression> {
+    ARROW_ASSIGN_OR_RAISE(std::vector<compute::Expression> value_args,
+                          GetValueArgs(call, 0));
+    value_args.push_back(compute::literal(""));
+    return compute::call("binary_join_element_wise", std::move(value_args));
+  };
+}
 
-  const ExtensionIdRegistry* parent_;
-};
+ExtensionIdRegistry::SubstraitAggregateToArrow DecodeBasicAggregate(
+    const std::string& arrow_function_name) {
+  return [arrow_function_name](const SubstraitCall& call) -> Result<compute::Aggregate> {
+    if (call.size() != 1) {
+      return Status::NotImplemented(
+          "Only unary aggregate functions are currently supported");
+    }
+    ARROW_ASSIGN_OR_RAISE(compute::Expression arg, call.GetValueArg(0));
+    const FieldRef* arg_ref = arg.field_ref();
+    if (!arg_ref) {
+      return Status::Invalid("Expected an aggregate call ", call.id().uri, "#",
+                             call.id().name, " to have a direct reference");
+    }
+    std::string fixed_arrow_func = arrow_function_name;
+    if (call.is_hash()) {
+      fixed_arrow_func = "hash_" + arrow_function_name;
+    }
+    return compute::Aggregate{std::move(fixed_arrow_func), nullptr, *arg_ref, ""};
+  };
+}
 
 struct DefaultExtensionIdRegistry : ExtensionIdRegistryImpl {
   DefaultExtensionIdRegistry() {
+    // ----------- Extension Types ----------------------------
     struct TypeName {
       std::shared_ptr<DataType> type;
-      util::string_view name;
+      std::string_view name;
     };
 
     // The type (variation) mappings listed below need to be kept in sync
@@ -428,32 +917,128 @@ struct DefaultExtensionIdRegistry : ExtensionIdRegistryImpl {
       DCHECK_OK(RegisterType({kArrowExtTypesUri, e.name}, std::move(e.type)));
     }
 
-    for (TypeName e : {
-             TypeName{null(), "null"},
-             TypeName{month_interval(), "interval_month"},
-             TypeName{day_time_interval(), "interval_day_milli"},
-             TypeName{month_day_nano_interval(), "interval_month_day_nano"},
-         }) {
+    for (TypeName e :
+         {TypeName{null(), "null"}, TypeName{month_interval(), "interval_month"},
+          TypeName{day_time_interval(), "interval_day_milli"},
+          TypeName{month_day_nano_interval(), "interval_month_day_nano"}}) {
       DCHECK_OK(RegisterType({kArrowExtTypesUri, e.name}, std::move(e.type)));
     }
 
-    // TODO: this is just a placeholder right now. We'll need a YAML file for
-    // all functions (and prototypes) that Arrow provides that are relevant
-    // for Substrait, and include mappings for all of them here. See
-    // ARROW-15535.
-    for (util::string_view name : {
-             "add",
-             "equal",
-             "is_not_distinct_from",
-             "hash_count",
-         }) {
-      DCHECK_OK(RegisterFunction({kArrowExtTypesUri, name}, name.to_string()));
+    // -------------- Substrait -> Arrow Functions -----------------
+    // Mappings with a _checked variant
+    for (const auto& function_name :
+         {"add", "subtract", "multiply", "divide", "power", "sqrt", "abs"}) {
+      DCHECK_OK(
+          AddSubstraitCallToArrow({kSubstraitArithmeticFunctionsUri, function_name},
+                                  DecodeOptionlessOverflowableArithmetic(function_name)));
+    }
+
+    // Mappings without a _checked variant
+    for (const auto& function_name : {"exp", "sign"}) {
+      DCHECK_OK(
+          AddSubstraitCallToArrow({kSubstraitArithmeticFunctionsUri, function_name},
+                                  DecodeOptionlessUncheckedArithmetic(function_name)));
+    }
+
+    // Mappings for log functions
+    for (const auto& function_name : {"ln", "log10", "log2", "logb", "log1p"}) {
+      DCHECK_OK(
+          AddSubstraitCallToArrow({kSubstraitLogarithmicFunctionsUri, function_name},
+                                  DecodeOptionlessUncheckedArithmetic(function_name)));
+    }
+
+    // Mappings for rounding functions
+    for (const auto& function_name : {"ceil", "floor"}) {
+      DCHECK_OK(
+          AddSubstraitCallToArrow({kSubstraitRoundingFunctionsUri, function_name},
+                                  DecodeOptionlessUncheckedArithmetic(function_name)));
+    }
+
+    // Basic mappings that need _kleene appended to them
+    for (const auto& function_name : {"or", "and"}) {
+      DCHECK_OK(AddSubstraitCallToArrow(
+          {kSubstraitBooleanFunctionsUri, function_name},
+          DecodeOptionlessBasicMapping(std::string(function_name) + "_kleene",
+                                       /*max_args=*/2)));
+    }
+    // Basic binary mappings
+    for (const auto& function_name :
+         std::vector<std::pair<std::string_view, std::string_view>>{
+             {kSubstraitBooleanFunctionsUri, "xor"},
+             {kSubstraitComparisonFunctionsUri, "equal"},
+             {kSubstraitComparisonFunctionsUri, "not_equal"}}) {
+      DCHECK_OK(AddSubstraitCallToArrow(
+          {function_name.first, function_name.second},
+          DecodeOptionlessBasicMapping(std::string(function_name.second),
+                                       /*max_args=*/2)));
+    }
+    for (const auto& uri :
+         {kSubstraitComparisonFunctionsUri, kSubstraitDatetimeFunctionsUri}) {
+      DCHECK_OK(AddSubstraitCallToArrow(
+          {uri, "lt"}, DecodeOptionlessBasicMapping("less", /*max_args=*/2)));
+      DCHECK_OK(AddSubstraitCallToArrow(
+          {uri, "lte"}, DecodeOptionlessBasicMapping("less_equal", /*max_args=*/2)));
+      DCHECK_OK(AddSubstraitCallToArrow(
+          {uri, "gt"}, DecodeOptionlessBasicMapping("greater", /*max_args=*/2)));
+      DCHECK_OK(AddSubstraitCallToArrow(
+          {uri, "gte"}, DecodeOptionlessBasicMapping("greater_equal", /*max_args=*/2)));
+    }
+    // One-off mappings
+    DCHECK_OK(
+        AddSubstraitCallToArrow({kSubstraitBooleanFunctionsUri, "not"},
+                                DecodeOptionlessBasicMapping("invert", /*max_args=*/1)));
+    DCHECK_OK(AddSubstraitCallToArrow({kSubstraitDatetimeFunctionsUri, "extract"},
+                                      DecodeTemporalExtractionMapping()));
+    DCHECK_OK(AddSubstraitCallToArrow({kSubstraitStringFunctionsUri, "concat"},
+                                      DecodeConcatMapping()));
+    DCHECK_OK(
+        AddSubstraitCallToArrow({kSubstraitComparisonFunctionsUri, "is_null"},
+                                DecodeOptionlessBasicMapping("is_null", /*max_args=*/1)));
+    DCHECK_OK(AddSubstraitCallToArrow(
+        {kSubstraitComparisonFunctionsUri, "is_not_null"},
+        DecodeOptionlessBasicMapping("is_valid", /*max_args=*/1)));
+
+    // --------------- Substrait -> Arrow Aggregates --------------
+    for (const auto& fn_name : {"sum", "min", "max"}) {
+      DCHECK_OK(AddSubstraitAggregateToArrow({kSubstraitArithmeticFunctionsUri, fn_name},
+                                             DecodeBasicAggregate(fn_name)));
+    }
+    DCHECK_OK(AddSubstraitAggregateToArrow({kSubstraitArithmeticFunctionsUri, "avg"},
+                                           DecodeBasicAggregate("mean")));
+    DCHECK_OK(
+        AddSubstraitAggregateToArrow({kSubstraitAggregateGenericFunctionsUri, "count"},
+                                     DecodeBasicAggregate("count")));
+
+    // --------------- Arrow -> Substrait Functions ---------------
+    for (const auto& fn_name : {"add", "subtract", "multiply", "divide"}) {
+      Id fn_id{kSubstraitArithmeticFunctionsUri, fn_name};
+      DCHECK_OK(AddArrowToSubstraitCall(
+          fn_name, EncodeOptionlessOverflowableArithmetic<false>(fn_id)));
+      DCHECK_OK(
+          AddArrowToSubstraitCall(std::string(fn_name) + "_checked",
+                                  EncodeOptionlessOverflowableArithmetic<true>(fn_id)));
+    }
+    // Comparison operators
+    for (const auto& fn_name : {"equal", "is_not_distinct_from"}) {
+      Id fn_id{kSubstraitComparisonFunctionsUri, fn_name};
+      DCHECK_OK(AddArrowToSubstraitCall(fn_name, EncodeOptionlessComparison(fn_id)));
     }
   }
 };
 
 }  // namespace
 
+Status ExtensionIdRegistryImpl::AddSubstraitCallToArrow(Id substrait_function_id,
+                                                        std::string arrow_function_name) {
+  return AddSubstraitCallToArrow(
+      substrait_function_id,
+      [arrow_function_name](const SubstraitCall& call) -> Result<compute::Expression> {
+        ARROW_ASSIGN_OR_RAISE(std::vector<compute::Expression> value_args,
+                              GetValueArgs(call, 0));
+        return compute::call(arrow_function_name, std::move(value_args));
+      });
+}
+
 ExtensionIdRegistry* default_extension_id_registry() {
   static DefaultExtensionIdRegistry impl_;
   return &impl_;
@@ -461,7 +1046,7 @@ ExtensionIdRegistry* default_extension_id_registry() {
 
 std::shared_ptr<ExtensionIdRegistry> nested_extension_id_registry(
     const ExtensionIdRegistry* parent) {
-  return std::make_shared<NestedExtensionIdRegistryImpl>(parent);
+  return std::make_shared<ExtensionIdRegistryImpl>(parent);
 }
 
 }  // namespace engine
diff --git a/cpp/src/arrow/engine/substrait/extension_set.h b/cpp/src/arrow/engine/substrait/extension_set.h
index 04e4586a9f5..8b6b5d5159b 100644
--- a/cpp/src/arrow/engine/substrait/extension_set.h
+++ b/cpp/src/arrow/engine/substrait/extension_set.h
@@ -19,26 +19,146 @@
 
 #pragma once
 
+#include <cstddef>
+#include <cstdint>
+#include <functional>
+#include <memory>
+#include <optional>
+#include <string>
+#include <string_view>
 #include <unordered_map>
+#include <utility>
 #include <vector>
 
+#include "arrow/compute/api_aggregate.h"
+#include "arrow/compute/exec/expression.h"
+#include "arrow/engine/substrait/type_fwd.h"
 #include "arrow/engine/substrait/visibility.h"
+#include "arrow/result.h"
+#include "arrow/status.h"
 #include "arrow/type_fwd.h"
-#include "arrow/util/optional.h"
-#include "arrow/util/string_view.h"
-
-#include "arrow/util/hash_util.h"
+#include "arrow/util/macros.h"
 
 namespace arrow {
 namespace engine {
 
+constexpr const char* kSubstraitArithmeticFunctionsUri =
+    "https://github.com/substrait-io/substrait/blob/main/extensions/"
+    "functions_arithmetic.yaml";
+constexpr const char* kSubstraitBooleanFunctionsUri =
+    "https://github.com/substrait-io/substrait/blob/main/extensions/"
+    "functions_boolean.yaml";
+constexpr const char* kSubstraitComparisonFunctionsUri =
+    "https://github.com/substrait-io/substrait/blob/main/extensions/"
+    "functions_comparison.yaml";
+constexpr const char* kSubstraitDatetimeFunctionsUri =
+    "https://github.com/substrait-io/substrait/blob/main/extensions/"
+    "functions_datetime.yaml";
+constexpr const char* kSubstraitLogarithmicFunctionsUri =
+    "https://github.com/substrait-io/substrait/blob/main/extensions/"
+    "functions_logarithmic.yaml";
+constexpr const char* kSubstraitRoundingFunctionsUri =
+    "https://github.com/substrait-io/substrait/blob/main/extensions/"
+    "functions_rounding.yaml";
+constexpr const char* kSubstraitStringFunctionsUri =
+    "https://github.com/substrait-io/substrait/blob/main/extensions/"
+    "functions_string.yaml";
+constexpr const char* kSubstraitAggregateGenericFunctionsUri =
+    "https://github.com/substrait-io/substrait/blob/main/extensions/"
+    "functions_aggregate_generic.yaml";
+
+struct Id {
+  std::string_view uri, name;
+  bool empty() const { return uri.empty() && name.empty(); }
+  std::string ToString() const;
+};
+struct IdHashEq {
+  size_t operator()(Id id) const;
+  bool operator()(Id l, Id r) const;
+};
+
+/// \brief Owning storage for ids
+///
+/// Substrait plans may reuse URIs and names in many places.  For convenience
+/// and performance Substarit ids are typically passed around as views.  As we
+/// convert a plan from Substrait to Arrow we need to copy these strings out of
+/// the Substrait buffer and into owned storage.  This class serves as that owned
+/// storage.
+class IdStorage {
+ public:
+  virtual ~IdStorage() = default;
+  /// \brief Get an equivalent id pointing into this storage
+  ///
+  /// This operation will copy the ids into storage if they do not already exist
+  virtual Id Emplace(Id id) = 0;
+  /// \brief Get an equivalent view pointing into this storage for a URI
+  ///
+  /// If no URI is found then the uri will be copied into storage
+  virtual std::string_view EmplaceUri(std::string_view uri) = 0;
+  /// \brief Get an equivalent id pointing into this storage
+  ///
+  /// If no id is found then nullopt will be returned
+  virtual std::optional<Id> Find(Id id) const = 0;
+  /// \brief Get an equivalent view pointing into this storage for a URI
+  ///
+  /// If no URI is found then nullopt will be returned
+  virtual std::optional<std::string_view> FindUri(std::string_view uri) const = 0;
+
+  static std::unique_ptr<IdStorage> Make();
+};
+
+/// \brief Describes a Substrait call
+///
+/// Substrait call expressions contain a list of arguments which can either
+/// be enum arguments (which are serialized as strings), value arguments (which)
+/// are Arrow expressions, or type arguments (not yet implemented)
+class SubstraitCall {
+ public:
+  SubstraitCall(Id id, std::shared_ptr<DataType> output_type, bool output_nullable,
+                bool is_hash = false)
+      : id_(id),
+        output_type_(std::move(output_type)),
+        output_nullable_(output_nullable),
+        is_hash_(is_hash) {}
+
+  const Id& id() const { return id_; }
+  const std::shared_ptr<DataType>& output_type() const { return output_type_; }
+  bool output_nullable() const { return output_nullable_; }
+  bool is_hash() const { return is_hash_; }
+
+  bool HasEnumArg(int index) const;
+  Result<std::string_view> GetEnumArg(int index) const;
+  void SetEnumArg(int index, std::string enum_arg);
+  Result<compute::Expression> GetValueArg(int index) const;
+  bool HasValueArg(int index) const;
+  void SetValueArg(int index, compute::Expression value_arg);
+  std::optional<std::vector<std::string> const*> GetOption(
+      std::string_view option_name) const;
+  void SetOption(std::string_view option_name,
+                 const std::vector<std::string_view>& option_preferences);
+  int size() const { return size_; }
+
+ private:
+  Id id_;
+  std::shared_ptr<DataType> output_type_;
+  bool output_nullable_;
+  // Only needed when converting from Substrait -> Arrow aggregates.  The
+  // Arrow function name depends on whether or not there are any groups
+  bool is_hash_;
+  std::unordered_map<int, std::string> enum_args_;
+  std::unordered_map<int, compute::Expression> value_args_;
+  std::unordered_map<std::string, std::vector<std::string>> options_;
+  int size_ = 0;
+};
+
 /// Substrait identifies functions and custom data types using a (uri, name) pair.
 ///
-/// This registry is a bidirectional mapping between Substrait IDs and their corresponding
-/// Arrow counterparts (arrow::DataType and function names in a function registry)
+/// This registry is a bidirectional mapping between Substrait IDs and their
+/// corresponding Arrow counterparts (arrow::DataType and function names in a function
+/// registry)
 ///
-/// Substrait extension types and variations must be registered with their corresponding
-/// arrow::DataType before they can be used!
+/// Substrait extension types and variations must be registered with their
+/// corresponding arrow::DataType before they can be used!
 ///
 /// Conceptually this can be thought of as two pairs of `unordered_map`s.  One pair to
 /// go back and forth between Substrait ID and arrow::DataType and another pair to go
@@ -49,59 +169,120 @@ namespace engine {
 /// instance).
 class ARROW_ENGINE_EXPORT ExtensionIdRegistry {
  public:
-  /// All uris registered in this ExtensionIdRegistry
-  virtual std::vector<util::string_view> Uris() const = 0;
-
-  struct Id {
-    util::string_view uri, name;
-
-    bool empty() const { return uri.empty() && name.empty(); }
-  };
-
-  struct IdHashEq {
-    size_t operator()(Id id) const;
-    bool operator()(Id l, Id r) const;
-  };
+  using ArrowToSubstraitCall =
+      std::function<Result<SubstraitCall>(const arrow::compute::Expression::Call&)>;
+  using SubstraitCallToArrow =
+      std::function<Result<arrow::compute::Expression>(const SubstraitCall&)>;
+  using ArrowToSubstraitAggregate =
+      std::function<Result<SubstraitCall>(const arrow::compute::Aggregate&)>;
+  using SubstraitAggregateToArrow =
+      std::function<Result<arrow::compute::Aggregate>(const SubstraitCall&)>;
 
   /// \brief A mapping between a Substrait ID and an arrow::DataType
   struct TypeRecord {
     Id id;
     const std::shared_ptr<DataType>& type;
   };
-  virtual util::optional<TypeRecord> GetType(const DataType&) const = 0;
-  virtual util::optional<TypeRecord> GetType(Id) const = 0;
+
+  /// \brief Return a uri view owned by this registry
+  ///
+  /// If the URI has never been emplaced it will return nullopt
+  virtual std::optional<std::string_view> FindUri(std::string_view uri) const = 0;
+  /// \brief Return a id view owned by this registry
+  ///
+  /// If the id has never been emplaced it will return nullopt
+  virtual std::optional<Id> FindId(Id id) const = 0;
+  virtual std::optional<TypeRecord> GetType(const DataType&) const = 0;
+  virtual std::optional<TypeRecord> GetType(Id) const = 0;
   virtual Status CanRegisterType(Id, const std::shared_ptr<DataType>& type) const = 0;
   virtual Status RegisterType(Id, std::shared_ptr<DataType>) = 0;
+  /// \brief Register a converter that converts an Arrow call to a Substrait call
+  ///
+  /// Note that there may not be 1:1 parity between ArrowToSubstraitCall and
+  /// SubstraitCallToArrow because some standard functions (e.g. add) may map to
+  /// multiple Arrow functions (e.g. add, add_checked)
+  virtual Status AddArrowToSubstraitCall(std::string arrow_function_name,
+                                         ArrowToSubstraitCall conversion_func) = 0;
+  /// \brief Check to see if a converter can be registered
+  ///
+  /// \return Status::OK if there are no conflicts, otherwise an error is returned
+  virtual Status CanAddArrowToSubstraitCall(
+      const std::string& arrow_function_name) const = 0;
 
-  /// \brief A mapping between a Substrait ID and an Arrow function
+  /// \brief Register a converter that converts an Arrow aggregate to a Substrait
+  ///        aggregate
+  virtual Status AddArrowToSubstraitAggregate(
+      std::string arrow_function_name, ArrowToSubstraitAggregate conversion_func) = 0;
+  /// \brief Check to see if a converter can be registered
   ///
-  /// Note: At the moment we identify functions solely by the name
-  /// of the function in the function registry.
+  /// \return Status::OK if there are no conflicts, otherwise an error is returned
+  virtual Status CanAddArrowToSubstraitAggregate(
+      const std::string& arrow_function_name) const = 0;
+
+  /// \brief Register a converter that converts a Substrait call to an Arrow call
+  virtual Status AddSubstraitCallToArrow(Id substrait_function_id,
+                                         SubstraitCallToArrow conversion_func) = 0;
+  /// \brief Check to see if a converter can be registered
   ///
-  /// TODO(ARROW-15582) some functions will not be simple enough to convert without access
-  /// to their arguments/options. For example is_in embeds the set in options rather than
-  /// using an argument:
-  ///     is_in(x, SetLookupOptions(set)) <-> (k...Uri, "is_in")(x, set)
+  /// \return Status::OK if there are no conflicts, otherwise an error is returned
+  virtual Status CanAddSubstraitCallToArrow(Id substrait_function_id) const = 0;
+  /// \brief Register a simple mapping function
   ///
-  /// ... for another example, depending on the value of the first argument to
-  /// substrait::add it either corresponds to arrow::add or arrow::add_checked
-  struct FunctionRecord {
-    Id id;
-    const std::string& function_name;
-  };
-  virtual util::optional<FunctionRecord> GetFunction(Id) const = 0;
-  virtual util::optional<FunctionRecord> GetFunction(
-      util::string_view arrow_function_name) const = 0;
-  virtual Status CanRegisterFunction(Id,
-                                     const std::string& arrow_function_name) const = 0;
-  // registers a function without taking ownership of uri and name within Id
-  virtual Status RegisterFunction(Id, std::string arrow_function_name) = 0;
-  // registers a function while taking ownership of uri and name
-  virtual Status RegisterFunction(std::string uri, std::string name,
-                                  std::string arrow_function_name) = 0;
+  /// All calls to the function must pass only value arguments.  The arguments
+  /// will be converted to expressions and passed to the Arrow function
+  virtual Status AddSubstraitCallToArrow(Id substrait_function_id,
+                                         std::string arrow_function_name) = 0;
+
+  /// \brief Register a converter that converts a Substrait aggregate to an Arrow
+  ///        aggregate
+  virtual Status AddSubstraitAggregateToArrow(
+      Id substrait_function_id, SubstraitAggregateToArrow conversion_func) = 0;
+  /// \brief Check to see if a converter can be registered
+  ///
+  /// \return Status::OK if there are no conflicts, otherwise an error is returned
+  virtual Status CanAddSubstraitAggregateToArrow(Id substrait_function_id) const = 0;
+
+  /// \brief Return a list of Substrait functions that have a converter
+  ///
+  /// The function ids are encoded as strings using the pattern {uri}#{name}
+  virtual std::vector<std::string> GetSupportedSubstraitFunctions() const = 0;
+
+  /// \brief Find a converter to map Arrow calls to Substrait calls
+  /// \return A converter function or an invalid status if no converter is registered
+  virtual Result<ArrowToSubstraitCall> GetArrowToSubstraitCall(
+      const std::string& arrow_function_name) const = 0;
+
+  /// \brief Find a converter to map Arrow aggregates to Substrait aggregates
+  /// \return A converter function or an invalid status if no converter is registered
+  virtual Result<ArrowToSubstraitAggregate> GetArrowToSubstraitAggregate(
+      const std::string& arrow_function_name) const = 0;
+
+  /// \brief Find a converter to map a Substrait aggregate to an Arrow aggregate
+  /// \return A converter function or an invalid status if no converter is registered
+  virtual Result<SubstraitAggregateToArrow> GetSubstraitAggregateToArrow(
+      Id substrait_function_id) const = 0;
+
+  /// \brief Find a converter to map a Substrait call to an Arrow call
+  /// \return A converter function or an invalid status if no converter is registered
+  virtual Result<SubstraitCallToArrow> GetSubstraitCallToArrow(
+      Id substrait_function_id) const = 0;
+
+  /// \brief Similar to \see GetSubstraitCallToArrow but only uses the name
+  ///
+  /// There may be multiple functions with the same name and this will return
+  /// the first.  This is slower than GetSubstraitCallToArrow and should only
+  /// be used when the plan does not include a URI (or the URI is "/")
+  virtual Result<SubstraitCallToArrow> GetSubstraitCallToArrowFallback(
+      std::string_view function_name) const = 0;
+
+  /// \brief Similar to \see GetSubstraitAggregateToArrow but only uses the name
+  ///
+  /// \see GetSubstraitCallToArrowFallback for details on the fallback behavior
+  virtual Result<SubstraitAggregateToArrow> GetSubstraitAggregateToArrowFallback(
+      std::string_view function_name) const = 0;
 };
 
-constexpr util::string_view kArrowExtTypesUri =
+constexpr std::string_view kArrowExtTypesUri =
     "https://github.com/apache/arrow/blob/master/format/substrait/"
     "extension_types.yaml";
 
@@ -153,12 +334,9 @@ ARROW_ENGINE_EXPORT std::shared_ptr<ExtensionIdRegistry> nested_extension_id_reg
 /// ExtensionIdRegistry.
 class ARROW_ENGINE_EXPORT ExtensionSet {
  public:
-  using Id = ExtensionIdRegistry::Id;
-  using IdHashEq = ExtensionIdRegistry::IdHashEq;
-
   struct FunctionRecord {
     Id id;
-    util::string_view name;
+    std::string_view name;
   };
 
   struct TypeRecord {
@@ -185,12 +363,13 @@ class ARROW_ENGINE_EXPORT ExtensionSet {
   /// An extension set should instead be created using
   /// arrow::engine::GetExtensionSetFromPlan
   static Result<ExtensionSet> Make(
-      std::unordered_map<uint32_t, util::string_view> uris,
+      std::unordered_map<uint32_t, std::string_view> uris,
       std::unordered_map<uint32_t, Id> type_ids,
       std::unordered_map<uint32_t, Id> function_ids,
+      const ConversionOptions& conversion_options,
       const ExtensionIdRegistry* = default_extension_id_registry());
 
-  const std::unordered_map<uint32_t, util::string_view>& uris() const { return uris_; }
+  const std::unordered_map<uint32_t, std::string_view>& uris() const { return uris_; }
 
   /// \brief Returns a data type given an anchor
   ///
@@ -219,12 +398,12 @@ class ARROW_ENGINE_EXPORT ExtensionSet {
   /// \return An anchor that can be used to refer to the type within a plan
   Result<uint32_t> EncodeType(const DataType& type);
 
-  /// \brief Returns a function given an anchor
+  /// \brief Return a function id given an anchor
   ///
   /// This is used when converting a Substrait plan to an Arrow execution plan.
   ///
   /// If the anchor does not exist in this extension set an error will be returned.
-  Result<FunctionRecord> DecodeFunction(uint32_t anchor) const;
+  Result<Id> DecodeFunction(uint32_t anchor) const;
 
   /// \brief Lookup the anchor for a given function
   ///
@@ -239,26 +418,30 @@ class ARROW_ENGINE_EXPORT ExtensionSet {
   /// returned.
   ///
   /// \return An anchor that can be used to refer to the function within a plan
-  Result<uint32_t> EncodeFunction(util::string_view function_name);
+  Result<uint32_t> EncodeFunction(Id function_id);
 
-  /// \brief Returns the number of custom functions in this extension set
-  ///
-  /// Note: the functions are currently stored as a sparse vector, so this may return a
-  /// value larger than the actual number of functions. This behavior may change in the
-  /// future; see ARROW-15583.
+  /// \brief Return the number of custom functions in this extension set
   std::size_t num_functions() const { return functions_.size(); }
 
+  const ExtensionIdRegistry* registry() const { return registry_; }
+
  private:
   const ExtensionIdRegistry* registry_;
+  // If the registry is not aware of an id then we probably can't do anything
+  // with it.  However, in some cases, these may represent extensions or features
+  // that we can safely ignore.  For example, we can usually safely ignore
+  // extension type variations if we assume the plan is valid.  These ignorable
+  // ids are stored here.
+  std::unique_ptr<IdStorage> plan_specific_ids_ = IdStorage::Make();
 
   // Map from anchor values to URI values referenced by this extension set
-  std::unordered_map<uint32_t, util::string_view> uris_;
+  std::unordered_map<uint32_t, std::string_view> uris_;
   // Map from anchor values to type definitions, used during Substrait->Arrow
   // and populated from the Substrait extension set
   std::unordered_map<uint32_t, TypeRecord> types_;
-  // Map from anchor values to function definitions, used during Substrait->Arrow
+  // Map from anchor values to function ids, used during Substrait->Arrow
   // and populated from the Substrait extension set
-  std::unordered_map<uint32_t, FunctionRecord> functions_;
+  std::unordered_map<uint32_t, Id> functions_;
   // Map from type names to anchor values.  Used during Arrow->Substrait
   // and built as the plan is created.
   std::unordered_map<Id, uint32_t, IdHashEq, IdHashEq> types_map_;
@@ -266,8 +449,8 @@ class ARROW_ENGINE_EXPORT ExtensionSet {
   // and built as the plan is created.
   std::unordered_map<Id, uint32_t, IdHashEq, IdHashEq> functions_map_;
 
-  Status CheckHasUri(util::string_view uri);
-  void AddUri(std::pair<uint32_t, util::string_view> uri);
+  Status CheckHasUri(std::string_view uri);
+  void AddUri(std::pair<uint32_t, std::string_view> uri);
   Status AddUri(Id id);
 };
 
diff --git a/cpp/src/arrow/engine/substrait/extension_types.cc b/cpp/src/arrow/engine/substrait/extension_types.cc
index b8fd191b3fd..fcc722e9d94 100644
--- a/cpp/src/arrow/engine/substrait/extension_types.cc
+++ b/cpp/src/arrow/engine/substrait/extension_types.cc
@@ -17,9 +17,14 @@
 
 #include "arrow/engine/substrait/extension_types.h"
 
+#include <cstdint>
+#include <string>
+#include <string_view>
+
 #include "arrow/engine/simple_extension_type_internal.h"
-#include "arrow/util/hashing.h"
-#include "arrow/util/string_view.h"
+#include "arrow/result.h"
+#include "arrow/type_fwd.h"
+#include "arrow/util/reflection_internal.h"
 
 namespace arrow {
 
@@ -29,7 +34,7 @@ using internal::MakeProperties;
 namespace engine {
 namespace {
 
-constexpr util::string_view kUuidExtensionName = "uuid";
+constexpr std::string_view kUuidExtensionName = "uuid";
 struct UuidExtensionParams {};
 std::shared_ptr<DataType> UuidGetStorage(const UuidExtensionParams&) {
   return fixed_size_binary(16);
@@ -40,7 +45,7 @@ using UuidType = SimpleExtensionType<kUuidExtensionName, UuidExtensionParams,
                                      decltype(kUuidExtensionParamsProperties),
                                      &kUuidExtensionParamsProperties, UuidGetStorage>;
 
-constexpr util::string_view kFixedCharExtensionName = "fixed_char";
+constexpr std::string_view kFixedCharExtensionName = "fixed_char";
 struct FixedCharExtensionParams {
   int32_t length;
 };
@@ -55,7 +60,7 @@ using FixedCharType =
                         decltype(kFixedCharExtensionParamsProperties),
                         &kFixedCharExtensionParamsProperties, FixedCharGetStorage>;
 
-constexpr util::string_view kVarCharExtensionName = "varchar";
+constexpr std::string_view kVarCharExtensionName = "varchar";
 struct VarCharExtensionParams {
   int32_t length;
 };
@@ -70,7 +75,7 @@ using VarCharType =
                         decltype(kVarCharExtensionParamsProperties),
                         &kVarCharExtensionParamsProperties, VarCharGetStorage>;
 
-constexpr util::string_view kIntervalYearExtensionName = "interval_year";
+constexpr std::string_view kIntervalYearExtensionName = "interval_year";
 struct IntervalYearExtensionParams {};
 std::shared_ptr<DataType> IntervalYearGetStorage(const IntervalYearExtensionParams&) {
   return fixed_size_list(int32(), 2);
@@ -82,7 +87,7 @@ using IntervalYearType =
                         decltype(kIntervalYearExtensionParamsProperties),
                         &kIntervalYearExtensionParamsProperties, IntervalYearGetStorage>;
 
-constexpr util::string_view kIntervalDayExtensionName = "interval_day";
+constexpr std::string_view kIntervalDayExtensionName = "interval_day";
 struct IntervalDayExtensionParams {};
 std::shared_ptr<DataType> IntervalDayGetStorage(const IntervalDayExtensionParams&) {
   return fixed_size_list(int32(), 2);
@@ -115,18 +120,18 @@ bool UnwrapUuid(const DataType& t) {
   return false;
 }
 
-util::optional<int32_t> UnwrapFixedChar(const DataType& t) {
+std::optional<int32_t> UnwrapFixedChar(const DataType& t) {
   if (auto params = FixedCharType::GetIf(t)) {
     return params->length;
   }
-  return util::nullopt;
+  return std::nullopt;
 }
 
-util::optional<int32_t> UnwrapVarChar(const DataType& t) {
+std::optional<int32_t> UnwrapVarChar(const DataType& t) {
   if (auto params = VarCharType::GetIf(t)) {
     return params->length;
   }
-  return util::nullopt;
+  return std::nullopt;
 }
 
 bool UnwrapIntervalYear(const DataType& t) {
diff --git a/cpp/src/arrow/engine/substrait/extension_types.h b/cpp/src/arrow/engine/substrait/extension_types.h
index d6db454ec30..28a4898a878 100644
--- a/cpp/src/arrow/engine/substrait/extension_types.h
+++ b/cpp/src/arrow/engine/substrait/extension_types.h
@@ -19,14 +19,12 @@
 
 #pragma once
 
-#include <vector>
+#include <cstdint>
+#include <memory>
+#include <optional>
 
-#include "arrow/buffer.h"
-#include "arrow/compute/function.h"
 #include "arrow/engine/substrait/visibility.h"
 #include "arrow/type_fwd.h"
-#include "arrow/util/optional.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 namespace engine {
@@ -64,11 +62,11 @@ bool UnwrapUuid(const DataType&);
 
 /// Return FixedChar length if t is FixedChar, otherwise nullopt
 ARROW_ENGINE_EXPORT
-util::optional<int32_t> UnwrapFixedChar(const DataType&);
+std::optional<int32_t> UnwrapFixedChar(const DataType&);
 
 /// Return Varchar (max) length if t is VarChar, otherwise nullopt
 ARROW_ENGINE_EXPORT
-util::optional<int32_t> UnwrapVarChar(const DataType& t);
+std::optional<int32_t> UnwrapVarChar(const DataType& t);
 
 /// Return true if t is IntervalYear, otherwise false
 ARROW_ENGINE_EXPORT
diff --git a/cpp/src/arrow/engine/substrait/function_test.cc b/cpp/src/arrow/engine/substrait/function_test.cc
new file mode 100644
index 00000000000..7e1902eaae4
--- /dev/null
+++ b/cpp/src/arrow/engine/substrait/function_test.cc
@@ -0,0 +1,677 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include <algorithm>
+#include <cstddef>
+#include <memory>
+#include <string>
+#include <string_view>
+#include <unordered_map>
+#include <utility>
+#include <vector>
+
+#include <gmock/gmock.h>
+#include <gtest/gtest-matchers.h>
+#include <gtest/gtest.h>
+
+#include "arrow/array/builder_binary.h"
+#include "arrow/compute/api_vector.h"
+#include "arrow/compute/cast.h"
+#include "arrow/compute/exec/exec_plan.h"
+#include "arrow/compute/exec/options.h"
+#include "arrow/compute/exec/util.h"
+#include "arrow/datum.h"
+#include "arrow/engine/substrait/extension_set.h"
+#include "arrow/engine/substrait/options.h"
+#include "arrow/engine/substrait/serde.h"
+#include "arrow/engine/substrait/test_plan_builder.h"
+#include "arrow/record_batch.h"
+#include "arrow/result.h"
+#include "arrow/status.h"
+#include "arrow/table.h"
+#include "arrow/testing/future_util.h"
+#include "arrow/testing/gtest_util.h"
+#include "arrow/type_fwd.h"
+
+namespace arrow {
+
+namespace engine {
+struct FunctionTestCase {
+  Id function_id;
+  std::vector<std::string> arguments;
+  std::unordered_map<std::string, std::vector<std::string>> options;
+  std::vector<std::shared_ptr<DataType>> data_types;
+  // For a test case that should fail just use the empty string
+  std::string expected_output;
+  std::shared_ptr<DataType> expected_output_type;
+};
+
+Result<std::shared_ptr<Array>> GetArray(const std::string& value,
+                                        const std::shared_ptr<DataType>& data_type) {
+  StringBuilder str_builder;
+  if (value.empty()) {
+    ARROW_EXPECT_OK(str_builder.AppendNull());
+  } else {
+    ARROW_EXPECT_OK(str_builder.Append(value));
+  }
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Array> value_str, str_builder.Finish());
+  ARROW_ASSIGN_OR_RAISE(Datum value_datum, compute::Cast(value_str, data_type));
+  return value_datum.make_array();
+}
+
+Result<std::shared_ptr<Table>> GetInputTable(
+    const std::vector<std::string>& arguments,
+    const std::vector<std::shared_ptr<DataType>>& data_types) {
+  std::vector<std::shared_ptr<Array>> columns;
+  std::vector<std::shared_ptr<Field>> fields;
+  EXPECT_EQ(arguments.size(), data_types.size());
+  for (std::size_t i = 0; i < arguments.size(); i++) {
+    if (data_types[i]) {
+      ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Array> arg_array,
+                            GetArray(arguments[i], data_types[i]));
+      columns.push_back(std::move(arg_array));
+      fields.push_back(field("arg_" + std::to_string(i), data_types[i]));
+    }
+  }
+  std::shared_ptr<RecordBatch> batch =
+      RecordBatch::Make(schema(std::move(fields)), 1, columns);
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Table> table, Table::FromRecordBatches({batch}));
+  return table;
+}
+
+Result<std::shared_ptr<Table>> GetOutputTable(
+    const std::string& output_value, const std::shared_ptr<DataType>& output_type) {
+  std::vector<std::shared_ptr<Array>> columns(1);
+  std::vector<std::shared_ptr<Field>> fields(1);
+  ARROW_ASSIGN_OR_RAISE(columns[0], GetArray(output_value, output_type));
+  fields[0] = field("output", output_type);
+  std::shared_ptr<RecordBatch> batch =
+      RecordBatch::Make(schema(std::move(fields)), 1, columns);
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Table> table, Table::FromRecordBatches({batch}));
+  return table;
+}
+
+Result<std::shared_ptr<compute::ExecPlan>> PlanFromTestCase(
+    const FunctionTestCase& test_case, std::shared_ptr<Table>* output_table) {
+  ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Table> input_table,
+                        GetInputTable(test_case.arguments, test_case.data_types));
+  ARROW_ASSIGN_OR_RAISE(
+      std::shared_ptr<Buffer> substrait,
+      internal::CreateScanProjectSubstrait(
+          test_case.function_id, input_table, test_case.arguments, test_case.options,
+          test_case.data_types, *test_case.expected_output_type));
+  std::shared_ptr<compute::SinkNodeConsumer> consumer =
+      std::make_shared<compute::TableSinkNodeConsumer>(output_table,
+                                                       default_memory_pool());
+
+  // Mock table provider that ignores the table name and returns input_table
+  NamedTableProvider table_provider = [input_table](const std::vector<std::string>&) {
+    std::shared_ptr<compute::ExecNodeOptions> options =
+        std::make_shared<compute::TableSourceNodeOptions>(input_table);
+    return compute::Declaration("table_source", {}, options, "mock_source");
+  };
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+
+  ARROW_ASSIGN_OR_RAISE(
+      std::shared_ptr<compute::ExecPlan> plan,
+      DeserializePlan(*substrait, std::move(consumer), default_extension_id_registry(),
+                      /*ext_set_out=*/nullptr, conversion_options));
+  return plan;
+}
+
+void CheckValidTestCases(const std::vector<FunctionTestCase>& valid_cases) {
+  for (const FunctionTestCase& test_case : valid_cases) {
+    std::shared_ptr<Table> output_table;
+    ASSERT_OK_AND_ASSIGN(std::shared_ptr<compute::ExecPlan> plan,
+                         PlanFromTestCase(test_case, &output_table));
+    ASSERT_OK(plan->StartProducing());
+    ASSERT_FINISHES_OK(plan->finished());
+
+    // Could also modify the Substrait plan with an emit to drop the leading columns
+    int result_column = output_table->num_columns() - 1;  // last column holds result
+    ASSERT_OK_AND_ASSIGN(output_table, output_table->SelectColumns({result_column}));
+
+    ASSERT_OK_AND_ASSIGN(
+        std::shared_ptr<Table> expected_output,
+        GetOutputTable(test_case.expected_output, test_case.expected_output_type));
+    AssertTablesEqual(*expected_output, *output_table, /*same_chunk_layout=*/false);
+  }
+}
+
+void CheckErrorTestCases(const std::vector<FunctionTestCase>& error_cases) {
+  for (const FunctionTestCase& test_case : error_cases) {
+    ARROW_SCOPED_TRACE("func=", test_case.function_id.uri, "#",
+                       test_case.function_id.name);
+    std::shared_ptr<Table> output_table;
+    ASSERT_OK_AND_ASSIGN(std::shared_ptr<compute::ExecPlan> plan,
+                         PlanFromTestCase(test_case, &output_table));
+    Status start_st = plan->StartProducing();
+    // The plan can fail in start producing or when running the plan
+    if (!start_st.ok()) {
+      ASSERT_TRUE(start_st.IsInvalid());
+      return;
+    }
+    ASSERT_FINISHES_AND_RAISES(Invalid, plan->finished());
+  }
+}
+
+template <typename ErrorMatcher>
+void CheckNonYetImplementedTestCase(const FunctionTestCase& test_case,
+                                    ErrorMatcher error_matcher) {
+  ARROW_SCOPED_TRACE("func=", test_case.function_id.uri, "#", test_case.function_id.name);
+  std::shared_ptr<Table> output_table;
+  EXPECT_RAISES_WITH_MESSAGE_THAT(NotImplemented, error_matcher,
+                                  PlanFromTestCase(test_case, &output_table));
+}
+
+static const std::unordered_map<std::string, std::vector<std::string>> kNoOptions;
+
+// These are not meant to be an exhaustive test of Substrait
+// conformance.  Instead, we should test just enough to ensure
+// we are mapping to the correct function
+TEST(FunctionMapping, ValidCases) {
+  const std::initializer_list<FunctionTestCase> valid_test_cases = {
+      {{kSubstraitArithmeticFunctionsUri, "add"},
+       {"127", "10"},
+       {{"overflow", {"SILENT", "ERROR"}}},
+       {int8(), int8()},
+       "-119",
+       int8()},
+      {{kSubstraitArithmeticFunctionsUri, "subtract"},
+       {"-119", "10"},
+       {{"overflow", {"SILENT", "ERROR"}}},
+       {int8(), int8()},
+       "127",
+       int8()},
+      {{kSubstraitArithmeticFunctionsUri, "multiply"},
+       {"10", "13"},
+       {{"overflow", {"SILENT", "ERROR"}}},
+       {int8(), int8()},
+       "-126",
+       int8()},
+      {{kSubstraitArithmeticFunctionsUri, "divide"},
+       {"-128", "-1"},
+       {{"overflow", {"SILENT", "ERROR"}}},
+       {int8(), int8()},
+       "0",
+       int8()},
+      {{kSubstraitArithmeticFunctionsUri, "sign"},
+       {"-1"},
+       kNoOptions,
+       {int8()},
+       "-1",
+       int8()},
+      {{kSubstraitArithmeticFunctionsUri, "power"},
+       {"2", "2"},
+       {{"overflow", {"SILENT", "ERROR"}}},
+       {int8(), int8()},
+       "4",
+       int8()},
+      {{kSubstraitArithmeticFunctionsUri, "sqrt"},
+       {"4"},
+       {{"overflow", {"SILENT", "ERROR"}}},
+       {int8()},
+       "2",
+       float64()},
+      {{kSubstraitArithmeticFunctionsUri, "exp"},
+       {"1"},
+       kNoOptions,
+       {float64()},
+       "2.718281828459045",
+       float64()},
+      {{kSubstraitArithmeticFunctionsUri, "abs"},
+       {"-1"},
+       {{"overflow", {"SILENT", "ERROR"}}},
+       {int8()},
+       "1",
+       int8()},
+      {{kSubstraitBooleanFunctionsUri, "or"},
+       {"1", ""},
+       kNoOptions,
+       {boolean(), boolean()},
+       "1",
+       boolean()},
+      {{kSubstraitBooleanFunctionsUri, "and"},
+       {"1", ""},
+       kNoOptions,
+       {boolean(), boolean()},
+       "",
+       boolean()},
+      {{kSubstraitBooleanFunctionsUri, "xor"},
+       {"1", "1"},
+       kNoOptions,
+       {boolean(), boolean()},
+       "0",
+       boolean()},
+      {{kSubstraitBooleanFunctionsUri, "not"},
+       {"1"},
+       kNoOptions,
+       {boolean()},
+       "0",
+       boolean()},
+      {{kSubstraitComparisonFunctionsUri, "equal"},
+       {"57", "57"},
+       kNoOptions,
+       {int8(), int8()},
+       "1",
+       boolean()},
+      {{kSubstraitComparisonFunctionsUri, "is_null"},
+       {"abc"},
+       kNoOptions,
+       {utf8()},
+       "0",
+       boolean()},
+      {{kSubstraitComparisonFunctionsUri, "is_not_null"},
+       {"57"},
+       kNoOptions,
+       {int8()},
+       "1",
+       boolean()},
+      {{kSubstraitComparisonFunctionsUri, "not_equal"},
+       {"57", "57"},
+       kNoOptions,
+       {int8(), int8()},
+       "0",
+       boolean()},
+      {{kSubstraitComparisonFunctionsUri, "lt"},
+       {"57", "80"},
+       kNoOptions,
+       {int8(), int8()},
+       "1",
+       boolean()},
+      {{kSubstraitComparisonFunctionsUri, "lt"},
+       {"57", "57"},
+       kNoOptions,
+       {int8(), int8()},
+       "0",
+       boolean()},
+      {{kSubstraitComparisonFunctionsUri, "gt"},
+       {"57", "30"},
+       kNoOptions,
+       {int8(), int8()},
+       "1",
+       boolean()},
+      {{kSubstraitComparisonFunctionsUri, "gt"},
+       {"57", "57"},
+       kNoOptions,
+       {int8(), int8()},
+       "0",
+       boolean()},
+      {{kSubstraitComparisonFunctionsUri, "lte"},
+       {"57", "57"},
+       kNoOptions,
+       {int8(), int8()},
+       "1",
+       boolean()},
+      {{kSubstraitComparisonFunctionsUri, "lte"},
+       {"50", "57"},
+       kNoOptions,
+       {int8(), int8()},
+       "1",
+       boolean()},
+      {{kSubstraitComparisonFunctionsUri, "gte"},
+       {"57", "57"},
+       kNoOptions,
+       {int8(), int8()},
+       "1",
+       boolean()},
+      {{kSubstraitComparisonFunctionsUri, "gte"},
+       {"60", "57"},
+       kNoOptions,
+       {int8(), int8()},
+       "1",
+       boolean()},
+      {{kSubstraitDatetimeFunctionsUri, "extract"},
+       {"YEAR", "2022-07-15T14:33:14"},
+       kNoOptions,
+       {nullptr, timestamp(TimeUnit::MICRO)},
+       "2022",
+       int64()},
+      {{kSubstraitDatetimeFunctionsUri, "extract"},
+       {"MONTH", "2022-07-15T14:33:14"},
+       kNoOptions,
+       {nullptr, timestamp(TimeUnit::MICRO)},
+       "7",
+       int64()},
+      {{kSubstraitDatetimeFunctionsUri, "extract"},
+       {"DAY", "2022-07-15T14:33:14"},
+       kNoOptions,
+       {nullptr, timestamp(TimeUnit::MICRO)},
+       "15",
+       int64()},
+      {{kSubstraitDatetimeFunctionsUri, "extract"},
+       {"SECOND", "2022-07-15T14:33:14"},
+       kNoOptions,
+       {nullptr, timestamp(TimeUnit::MICRO)},
+       "14",
+       int64()},
+      {{kSubstraitDatetimeFunctionsUri, "extract"},
+       {"YEAR", "2022-07-15T14:33:14Z"},
+       kNoOptions,
+       {nullptr, timestamp(TimeUnit::MICRO, "UTC")},
+       "2022",
+       int64()},
+      {{kSubstraitDatetimeFunctionsUri, "extract"},
+       {"MONTH", "2022-07-15T14:33:14Z"},
+       kNoOptions,
+       {nullptr, timestamp(TimeUnit::MICRO, "UTC")},
+       "7",
+       int64()},
+      {{kSubstraitDatetimeFunctionsUri, "extract"},
+       {"DAY", "2022-07-15T14:33:14Z"},
+       kNoOptions,
+       {nullptr, timestamp(TimeUnit::MICRO, "UTC")},
+       "15",
+       int64()},
+      {{kSubstraitDatetimeFunctionsUri, "extract"},
+       {"SECOND", "2022-07-15T14:33:14Z"},
+       kNoOptions,
+       {nullptr, timestamp(TimeUnit::MICRO, "UTC")},
+       "14",
+       int64()},
+      {{kSubstraitDatetimeFunctionsUri, "lt"},
+       {"2022-07-15T14:33:14", "2022-07-15T14:33:20"},
+       kNoOptions,
+       {timestamp(TimeUnit::MICRO), timestamp(TimeUnit::MICRO)},
+       "1",
+       boolean()},
+      {{kSubstraitDatetimeFunctionsUri, "lte"},
+       {"2022-07-15T14:33:14", "2022-07-15T14:33:14"},
+       kNoOptions,
+       {timestamp(TimeUnit::MICRO), timestamp(TimeUnit::MICRO)},
+       "1",
+       boolean()},
+      {{kSubstraitDatetimeFunctionsUri, "gt"},
+       {"2022-07-15T14:33:30", "2022-07-15T14:33:14"},
+       kNoOptions,
+       {timestamp(TimeUnit::MICRO), timestamp(TimeUnit::MICRO)},
+       "1",
+       boolean()},
+      {{kSubstraitDatetimeFunctionsUri, "gte"},
+       {"2022-07-15T14:33:14", "2022-07-15T14:33:14"},
+       kNoOptions,
+       {timestamp(TimeUnit::MICRO), timestamp(TimeUnit::MICRO)},
+       "1",
+       boolean()},
+      {{kSubstraitStringFunctionsUri, "concat"},
+       {"abc", "def"},
+       kNoOptions,
+       {utf8(), utf8()},
+       "abcdef",
+       utf8()},
+      {{kSubstraitLogarithmicFunctionsUri, "ln"},
+       {"1"},
+       kNoOptions,
+       {int8()},
+       "0",
+       float64()},
+      {{kSubstraitLogarithmicFunctionsUri, "log10"},
+       {"10"},
+       kNoOptions,
+       {int8()},
+       "1",
+       float64()},
+      {{kSubstraitLogarithmicFunctionsUri, "log2"},
+       {"2"},
+       kNoOptions,
+       {int8()},
+       "1",
+       float64()},
+      {{kSubstraitLogarithmicFunctionsUri, "log1p"},
+       {"1"},
+       kNoOptions,
+       {int8()},
+       "0.6931471805599453",
+       float64()},
+      {{kSubstraitLogarithmicFunctionsUri, "logb"},
+       {"10", "10"},
+       kNoOptions,
+       {int8(), int8()},
+       "1",
+       float64()},
+      {{kSubstraitRoundingFunctionsUri, "floor"},
+       {"3.1"},
+       kNoOptions,
+       {float64()},
+       "3",
+       float64()},
+      {{kSubstraitRoundingFunctionsUri, "ceil"},
+       {"3.1"},
+       kNoOptions,
+       {float64()},
+       "4",
+       float64()}};
+  CheckValidTestCases(valid_test_cases);
+}
+
+TEST(FunctionMapping, ErrorCases) {
+  const std::vector<FunctionTestCase> error_test_cases = {
+      {{kSubstraitArithmeticFunctionsUri, "add"},
+       {"127", "10"},
+       {{"overflow", {"ERROR", "SILENT"}}},
+       {int8(), int8()},
+       "",
+       int8()},
+      {{kSubstraitArithmeticFunctionsUri, "subtract"},
+       {"-119", "10"},
+       {{"overflow", {"ERROR", "SILENT"}}},
+       {int8(), int8()},
+       "",
+       int8()},
+      {{kSubstraitArithmeticFunctionsUri, "multiply"},
+       {"10", "13"},
+       {{"overflow", {"ERROR", "SILENT"}}},
+       {int8(), int8()},
+       "",
+       int8()},
+      {{kSubstraitArithmeticFunctionsUri, "divide"},
+       {"-128", "-1"},
+       {{"overflow", {"ERROR", "SILENT"}}},
+       {int8(), int8()},
+       "",
+       int8()}};
+  CheckErrorTestCases(error_test_cases);
+}
+
+TEST(FunctionMapping, UnrecognizedOptions) {
+  CheckNonYetImplementedTestCase(
+      {{kSubstraitArithmeticFunctionsUri, "add"},
+       {"-119", "10"},
+       {{"overflow", {"NEW_OVERFLOW_TYPE", "SILENT"}}},
+       {int8(), int8()},
+       "",
+       int8()},
+      ::testing::HasSubstr("The value NEW_OVERFLOW_TYPE is not an expected enum value"));
+  CheckNonYetImplementedTestCase(
+      {{kSubstraitArithmeticFunctionsUri, "add"},
+       {"-119", "10"},
+       {{"overflow", {"SATURATE"}}},
+       {int8(), int8()},
+       "",
+       int8()},
+      ::testing::HasSubstr(
+          "During a call to a function with id " +
+          std::string(kSubstraitArithmeticFunctionsUri) +
+          "#add the plan requested the option overflow to be one of [SATURATE] but the "
+          "only supported options are [SILENT, ERROR]"));
+}
+
+// For each aggregate test case we take in three values.  We compute the
+// aggregate both on the entire set (all three values) and on groups.  The
+// first two rows will be in the first group and the last row will be in the
+// second group.  It's important to test both for coverage since the arrow
+// function used actually changes when group ids are present
+struct AggregateTestCase {
+  // The substrait function id
+  Id function_id;
+  // The three values, as a JSON string
+  std::string arguments;
+  // The data type of the three values
+  std::shared_ptr<DataType> data_type;
+  // The result of the aggregate on all three
+  std::string combined_output;
+  // The result of the aggregate on each group (i.e. the first two rows
+  // and the last row).  Should be a json-encoded array of size 2
+  std::string group_outputs;
+  // The data type of the outputs
+  std::shared_ptr<DataType> output_type;
+};
+
+std::shared_ptr<Table> GetInputTableForAggregateCase(const AggregateTestCase& test_case) {
+  std::vector<std::shared_ptr<Array>> columns(2);
+  std::vector<std::shared_ptr<Field>> fields(2);
+  columns[0] = ArrayFromJSON(int8(), "[1, 1, 2]");
+  columns[1] = ArrayFromJSON(test_case.data_type, test_case.arguments);
+  fields[0] = field("key", int8());
+  fields[1] = field("value", test_case.data_type);
+  std::shared_ptr<RecordBatch> batch =
+      RecordBatch::Make(schema(std::move(fields)), /*num_rows=*/3, std::move(columns));
+  EXPECT_OK_AND_ASSIGN(std::shared_ptr<Table> table, Table::FromRecordBatches({batch}));
+  return table;
+}
+
+std::shared_ptr<Table> GetOutputTableForAggregateCase(
+    const std::shared_ptr<DataType>& output_type, const std::string& json_data) {
+  std::shared_ptr<Array> out_arr = ArrayFromJSON(output_type, json_data);
+  std::shared_ptr<RecordBatch> batch =
+      RecordBatch::Make(schema({field("", output_type)}), 1, {out_arr});
+  EXPECT_OK_AND_ASSIGN(std::shared_ptr<Table> table, Table::FromRecordBatches({batch}));
+  return table;
+}
+
+std::shared_ptr<compute::ExecPlan> PlanFromAggregateCase(
+    const AggregateTestCase& test_case, std::shared_ptr<Table>* output_table,
+    bool with_keys) {
+  std::shared_ptr<Table> input_table = GetInputTableForAggregateCase(test_case);
+  std::vector<int> key_idxs = {};
+  if (with_keys) {
+    key_idxs = {0};
+  }
+  EXPECT_OK_AND_ASSIGN(
+      std::shared_ptr<Buffer> substrait,
+      internal::CreateScanAggSubstrait(test_case.function_id, input_table, key_idxs,
+                                       /*arg_idx=*/1, *test_case.output_type));
+  std::shared_ptr<compute::SinkNodeConsumer> consumer =
+      std::make_shared<compute::TableSinkNodeConsumer>(output_table,
+                                                       default_memory_pool());
+
+  // Mock table provider that ignores the table name and returns input_table
+  NamedTableProvider table_provider = [input_table](const std::vector<std::string>&) {
+    std::shared_ptr<compute::ExecNodeOptions> options =
+        std::make_shared<compute::TableSourceNodeOptions>(input_table);
+    return compute::Declaration("table_source", {}, options, "mock_source");
+  };
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+
+  EXPECT_OK_AND_ASSIGN(
+      std::shared_ptr<compute::ExecPlan> plan,
+      DeserializePlan(*substrait, std::move(consumer), default_extension_id_registry(),
+                      /*ext_set_out=*/nullptr, conversion_options));
+  return plan;
+}
+
+void CheckWholeAggregateCase(const AggregateTestCase& test_case) {
+  std::shared_ptr<Table> output_table;
+  std::shared_ptr<compute::ExecPlan> plan =
+      PlanFromAggregateCase(test_case, &output_table, /*with_keys=*/false);
+
+  ASSERT_OK(plan->StartProducing());
+  ASSERT_FINISHES_OK(plan->finished());
+
+  ASSERT_OK_AND_ASSIGN(output_table,
+                       output_table->SelectColumns({output_table->num_columns() - 1}));
+
+  std::shared_ptr<Table> expected_output =
+      GetOutputTableForAggregateCase(test_case.output_type, test_case.combined_output);
+  AssertTablesEqual(*expected_output, *output_table, /*same_chunk_layout=*/false);
+}
+
+void CheckGroupedAggregateCase(const AggregateTestCase& test_case) {
+  std::shared_ptr<Table> output_table;
+  std::shared_ptr<compute::ExecPlan> plan =
+      PlanFromAggregateCase(test_case, &output_table, /*with_keys=*/true);
+
+  ASSERT_OK(plan->StartProducing());
+  ASSERT_FINISHES_OK(plan->finished());
+
+  // The aggregate node's output is unpredictable so we sort by the key column
+  ASSERT_OK_AND_ASSIGN(
+      std::shared_ptr<Array> sort_indices,
+      compute::SortIndices(output_table, compute::SortOptions({compute::SortKey(
+                                             output_table->num_columns() - 1,
+                                             compute::SortOrder::Ascending)})));
+  ASSERT_OK_AND_ASSIGN(Datum sorted_table_datum,
+                       compute::Take(output_table, sort_indices));
+  output_table = sorted_table_datum.table();
+  // TODO(ARROW-17245) We should be selecting N-1 here but Acero
+  // currently emits things in reverse order
+  ASSERT_OK_AND_ASSIGN(output_table, output_table->SelectColumns({0}));
+
+  std::shared_ptr<Table> expected_output =
+      GetOutputTableForAggregateCase(test_case.output_type, test_case.group_outputs);
+
+  AssertTablesEqual(*expected_output, *output_table, /*same_chunk_layout=*/false);
+}
+
+void CheckAggregateCases(const std::vector<AggregateTestCase>& test_cases) {
+  for (const AggregateTestCase& test_case : test_cases) {
+    CheckWholeAggregateCase(test_case);
+    CheckGroupedAggregateCase(test_case);
+  }
+}
+
+TEST(FunctionMapping, AggregateCases) {
+  const std::vector<AggregateTestCase> test_cases = {
+      {{kSubstraitArithmeticFunctionsUri, "sum"},
+       "[1, 2, 3]",
+       int8(),
+       "[6]",
+       "[3, 3]",
+       int64()},
+      {{kSubstraitArithmeticFunctionsUri, "min"},
+       "[1, 2, 3]",
+       int8(),
+       "[1]",
+       "[1, 3]",
+       int8()},
+      {{kSubstraitArithmeticFunctionsUri, "max"},
+       "[1, 2, 3]",
+       int8(),
+       "[3]",
+       "[2, 3]",
+       int8()},
+      {{kSubstraitArithmeticFunctionsUri, "avg"},
+       "[1, 2, 3]",
+       float64(),
+       "[2]",
+       "[1.5, 3]",
+       float64()},
+      {{kSubstraitAggregateGenericFunctionsUri, "count"},
+       {"[1, 2, 30]"},
+       {int8()},
+       "[3]",
+       "[2, 1]",
+       int64()}};
+  CheckAggregateCases(test_cases);
+}
+
+}  // namespace engine
+}  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/options.cc b/cpp/src/arrow/engine/substrait/options.cc
new file mode 100644
index 00000000000..9dfd4d7856a
--- /dev/null
+++ b/cpp/src/arrow/engine/substrait/options.cc
@@ -0,0 +1,118 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+#include <iostream>
+
+#include "arrow/engine/substrait/options.h"
+
+#include <google/protobuf/util/json_util.h>
+#include "arrow/compute/exec/asof_join_node.h"
+#include "arrow/compute/exec/options.h"
+#include "arrow/engine/substrait/expression_internal.h"
+#include "arrow/engine/substrait/options_internal.h"
+#include "arrow/engine/substrait/relation_internal.h"
+#include "substrait/extension_rels.pb.h"
+
+namespace arrow {
+namespace engine {
+
+class DefaultExtensionProvider : public ExtensionProvider {
+ public:
+  Result<DeclarationInfo> MakeRel(const std::vector<DeclarationInfo>& inputs,
+                                  const google::protobuf::Any& rel,
+                                  const ExtensionSet& ext_set) override {
+    if (rel.Is<arrow::substrait_ext::AsOfJoinRel>()) {
+      arrow::substrait_ext::AsOfJoinRel as_of_join_rel;
+      rel.UnpackTo(&as_of_join_rel);
+      return MakeAsOfJoinRel(inputs, as_of_join_rel, ext_set);
+    }
+    return Status::NotImplemented("Unrecognized extension in Susbstrait plan: ",
+                                  rel.DebugString());
+  }
+
+ private:
+  Result<DeclarationInfo> MakeAsOfJoinRel(
+      const std::vector<DeclarationInfo>& inputs,
+      const arrow::substrait_ext::AsOfJoinRel& as_of_join_rel,
+      const ExtensionSet& ext_set) {
+    if (inputs.size() < 2) {
+      return Status::Invalid("substrait_ext::AsOfJoinNode too few input tables: ",
+                             inputs.size());
+    }
+    if (static_cast<size_t>(as_of_join_rel.keys_size()) != inputs.size()) {
+      return Status::Invalid("substrait_ext::AsOfJoinNode mismatched number of inputs");
+    }
+
+    size_t n_input = inputs.size(), i = 0;
+    std::vector<compute::AsofJoinNodeOptions::Keys> input_keys(n_input);
+    for (const auto& keys : as_of_join_rel.keys()) {
+      // on-key
+      if (!keys.has_on()) {
+        return Status::Invalid("substrait_ext::AsOfJoinNode missing on-key for input ",
+                               i);
+      }
+      ARROW_ASSIGN_OR_RAISE(auto on_key_expr, FromProto(keys.on(), ext_set, {}));
+      if (on_key_expr.field_ref() == NULLPTR) {
+        return Status::NotImplemented(
+            "substrait_ext::AsOfJoinNode non-field-ref on-key for input ", i);
+      }
+      const FieldRef& on_key = *on_key_expr.field_ref();
+
+      // by-key
+      std::vector<FieldRef> by_key;
+      for (const auto& by_item : keys.by()) {
+        ARROW_ASSIGN_OR_RAISE(auto by_key_expr, FromProto(by_item, ext_set, {}));
+        if (by_key_expr.field_ref() == NULLPTR) {
+          return Status::NotImplemented(
+              "substrait_ext::AsOfJoinNode non-field-ref by-key for input ", i);
+        }
+        by_key.push_back(*by_key_expr.field_ref());
+      }
+
+      input_keys[i] = {std::move(on_key), std::move(by_key)};
+      ++i;
+    }
+
+    // schema
+    int64_t tolerance = as_of_join_rel.tolerance();
+    std::vector<std::shared_ptr<Schema>> input_schema(inputs.size());
+    for (size_t i = 0; i < inputs.size(); i++) {
+      input_schema[i] = inputs[i].output_schema;
+    }
+    ARROW_ASSIGN_OR_RAISE(auto schema,
+                          compute::asofjoin::MakeOutputSchema(input_schema, input_keys));
+    compute::AsofJoinNodeOptions asofjoin_node_opts{std::move(input_keys), tolerance};
+
+    // declaration
+    std::vector<compute::Declaration::Input> input_decls(inputs.size());
+    for (size_t i = 0; i < inputs.size(); i++) {
+      input_decls[i] = inputs[i].declaration;
+    }
+    return DeclarationInfo{
+        compute::Declaration("asofjoin", input_decls, std::move(asofjoin_node_opts)),
+        std::move(schema)};
+  }
+};
+
+std::shared_ptr<ExtensionProvider> ExtensionProvider::kDefaultExtensionProvider =
+    std::make_shared<DefaultExtensionProvider>();
+
+std::shared_ptr<ExtensionProvider> default_extension_provider() {
+  return ExtensionProvider::kDefaultExtensionProvider;
+}
+
+}  // namespace engine
+}  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/options.h b/cpp/src/arrow/engine/substrait/options.h
index dcb2088416f..41d0792a8d2 100644
--- a/cpp/src/arrow/engine/substrait/options.h
+++ b/cpp/src/arrow/engine/substrait/options.h
@@ -19,13 +19,22 @@
 
 #pragma once
 
+#include <functional>
+#include <string>
+#include <vector>
+
+#include "arrow/compute/type_fwd.h"
+#include "arrow/engine/substrait/type_fwd.h"
+#include "arrow/engine/substrait/visibility.h"
+#include "arrow/type_fwd.h"
+
 namespace arrow {
 namespace engine {
 
 /// How strictly to adhere to the input structure when converting between Substrait and
 /// Acero representations of a plan. This allows the user to trade conversion accuracy
 /// for performance and lenience.
-enum class ConversionStrictness {
+enum class ARROW_ENGINE_EXPORT ConversionStrictness {
   /// When a primitive is used at the input that doesn't have an exact match at the
   /// output, reject the conversion. This effectively asserts that there is no (known)
   /// information loss in the conversion, and that plans should either round-trip back and
@@ -54,11 +63,25 @@ enum class ConversionStrictness {
   BEST_EFFORT,
 };
 
+using NamedTableProvider =
+    std::function<Result<compute::Declaration>(const std::vector<std::string>&)>;
+static NamedTableProvider kDefaultNamedTableProvider;
+
+class ExtensionProvider;
+
+ARROW_ENGINE_EXPORT std::shared_ptr<ExtensionProvider> default_extension_provider();
+
 /// Options that control the conversion between Substrait and Acero representations of a
 /// plan.
-struct ConversionOptions {
+struct ARROW_ENGINE_EXPORT ConversionOptions {
   /// \brief How strictly the converter should adhere to the structure of the input.
   ConversionStrictness strictness = ConversionStrictness::BEST_EFFORT;
+  /// \brief A custom strategy to be used for providing named tables
+  ///
+  /// The default behavior will return an invalid status if the plan has any
+  /// named table relations.
+  NamedTableProvider named_table_provider = kDefaultNamedTableProvider;
+  std::shared_ptr<ExtensionProvider> extension_provider = default_extension_provider();
 };
 
 }  // namespace engine
diff --git a/cpp/src/arrow/util/make_unique.h b/cpp/src/arrow/engine/substrait/options_internal.h
similarity index 55%
rename from cpp/src/arrow/util/make_unique.h
rename to cpp/src/arrow/engine/substrait/options_internal.h
index 850e20409b9..0d186147a9a 100644
--- a/cpp/src/arrow/util/make_unique.h
+++ b/cpp/src/arrow/engine/substrait/options_internal.h
@@ -15,28 +15,30 @@
 // specific language governing permissions and limitations
 // under the License.
 
+// This API is EXPERIMENTAL.
+
 #pragma once
 
-#include <memory>
-#include <type_traits>
-#include <utility>
+#include <vector>
+
+#include <google/protobuf/any.pb.h>
+
+#include "arrow/compute/type_fwd.h"
+#include "arrow/engine/substrait/type_fwd.h"
+#include "arrow/engine/substrait/visibility.h"
+#include "arrow/type_fwd.h"
 
 namespace arrow {
-namespace internal {
-
-template <typename T, typename... A>
-typename std::enable_if<!std::is_array<T>::value, std::unique_ptr<T>>::type make_unique(
-    A&&... args) {
-  return std::unique_ptr<T>(new T(std::forward<A>(args)...));
-}
-
-template <typename T>
-typename std::enable_if<std::is_array<T>::value && std::extent<T>::value == 0,
-                        std::unique_ptr<T>>::type
-make_unique(std::size_t n) {
-  using value_type = typename std::remove_extent<T>::type;
-  return std::unique_ptr<value_type[]>(new value_type[n]);
-}
-
-}  // namespace internal
+namespace engine {
+
+class ARROW_ENGINE_EXPORT ExtensionProvider {
+ public:
+  static std::shared_ptr<ExtensionProvider> kDefaultExtensionProvider;
+  virtual ~ExtensionProvider() = default;
+  virtual Result<DeclarationInfo> MakeRel(const std::vector<DeclarationInfo>& inputs,
+                                          const google::protobuf::Any& rel,
+                                          const ExtensionSet& ext_set) = 0;
+};
+
+}  // namespace engine
 }  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/plan_internal.cc b/cpp/src/arrow/engine/substrait/plan_internal.cc
index 2da037000cf..6d12c19fcd7 100644
--- a/cpp/src/arrow/engine/substrait/plan_internal.cc
+++ b/cpp/src/arrow/engine/substrait/plan_internal.cc
@@ -17,13 +17,24 @@
 
 #include "arrow/engine/substrait/plan_internal.h"
 
+#include <cstdint>
+#include <memory>
+#include <string>
+#include <string_view>
+#include <unordered_map>
+#include <utility>
+
+#include "arrow/compute/type_fwd.h"
+#include "arrow/config.h"
+#include "arrow/engine/substrait/relation_internal.h"
+#include "arrow/engine/substrait/type_fwd.h"
 #include "arrow/result.h"
+#include "arrow/util/checked_cast.h"
 #include "arrow/util/hashing.h"
-#include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
+#include "arrow/util/macros.h"
 #include "arrow/util/unreachable.h"
 
-#include <unordered_map>
+#include "substrait/extensions/extensions.pb.h"
 
 namespace arrow {
 
@@ -31,14 +42,10 @@ using internal::checked_cast;
 
 namespace engine {
 
-namespace internal {
-using ::arrow::internal::make_unique;
-}  // namespace internal
-
 Status AddExtensionSetToPlan(const ExtensionSet& ext_set, substrait::Plan* plan) {
   plan->clear_extension_uris();
 
-  std::unordered_map<util::string_view, int, ::arrow::internal::StringViewHash> map;
+  std::unordered_map<std::string_view, int, ::arrow::internal::StringViewHash> map;
 
   auto uris = plan->mutable_extension_uris();
   uris->Reserve(static_cast<int>(ext_set.uris().size()));
@@ -46,8 +53,8 @@ Status AddExtensionSetToPlan(const ExtensionSet& ext_set, substrait::Plan* plan)
     auto uri = ext_set.uris().at(anchor);
     if (uri.empty()) continue;
 
-    auto ext_uri = internal::make_unique<substrait::extensions::SimpleExtensionURI>();
-    ext_uri->set_uri(uri.to_string());
+    auto ext_uri = std::make_unique<substrait::extensions::SimpleExtensionURI>();
+    ext_uri->set_uri(std::string(uri));
     ext_uri->set_extension_uri_anchor(anchor);
     uris->AddAllocated(ext_uri.release());
 
@@ -63,26 +70,25 @@ Status AddExtensionSetToPlan(const ExtensionSet& ext_set, substrait::Plan* plan)
     ARROW_ASSIGN_OR_RAISE(auto type_record, ext_set.DecodeType(anchor));
     if (type_record.id.empty()) continue;
 
-    auto ext_decl = internal::make_unique<ExtDecl>();
+    auto ext_decl = std::make_unique<ExtDecl>();
 
-    auto type = internal::make_unique<ExtDecl::ExtensionType>();
+    auto type = std::make_unique<ExtDecl::ExtensionType>();
     type->set_extension_uri_reference(map[type_record.id.uri]);
     type->set_type_anchor(anchor);
-    type->set_name(type_record.id.name.to_string());
+    type->set_name(std::string(type_record.id.name));
     ext_decl->set_allocated_extension_type(type.release());
     extensions->AddAllocated(ext_decl.release());
   }
 
   for (uint32_t anchor = 0; anchor < ext_set.num_functions(); ++anchor) {
-    ARROW_ASSIGN_OR_RAISE(auto function_record, ext_set.DecodeFunction(anchor));
-    if (function_record.id.empty()) continue;
+    ARROW_ASSIGN_OR_RAISE(Id function_id, ext_set.DecodeFunction(anchor));
 
-    auto fn = internal::make_unique<ExtDecl::ExtensionFunction>();
-    fn->set_extension_uri_reference(map[function_record.id.uri]);
+    auto fn = std::make_unique<ExtDecl::ExtensionFunction>();
+    fn->set_extension_uri_reference(map[function_id.uri]);
     fn->set_function_anchor(anchor);
-    fn->set_name(function_record.id.name.to_string());
+    fn->set_name(std::string(function_id.name));
 
-    auto ext_decl = internal::make_unique<ExtDecl>();
+    auto ext_decl = std::make_unique<ExtDecl>();
     ext_decl->set_allocated_extension_function(fn.release());
     extensions->AddAllocated(ext_decl.release());
   }
@@ -91,11 +97,12 @@ Status AddExtensionSetToPlan(const ExtensionSet& ext_set, substrait::Plan* plan)
 }
 
 Result<ExtensionSet> GetExtensionSetFromPlan(const substrait::Plan& plan,
+                                             const ConversionOptions& conversion_options,
                                              const ExtensionIdRegistry* registry) {
   if (registry == NULLPTR) {
     registry = default_extension_id_registry();
   }
-  std::unordered_map<uint32_t, util::string_view> uris;
+  std::unordered_map<uint32_t, std::string_view> uris;
   uris.reserve(plan.extension_uris_size());
   for (const auto& uri : plan.extension_uris()) {
     uris[uri.extension_uri_anchor()] = uri.uri();
@@ -104,8 +111,6 @@ Result<ExtensionSet> GetExtensionSetFromPlan(const substrait::Plan& plan,
   // NOTE: it's acceptable to use views to memory owned by plan; ExtensionSet::Make
   // will only store views to memory owned by registry.
 
-  using Id = ExtensionSet::Id;
-
   std::unordered_map<uint32_t, Id> type_ids, function_ids;
   for (const auto& ext : plan.extensions()) {
     switch (ext.mapping_type_case()) {
@@ -115,14 +120,14 @@ Result<ExtensionSet> GetExtensionSetFromPlan(const substrait::Plan& plan,
 
       case substrait::extensions::SimpleExtensionDeclaration::kExtensionType: {
         const auto& type = ext.extension_type();
-        util::string_view uri = uris[type.extension_uri_reference()];
+        std::string_view uri = uris[type.extension_uri_reference()];
         type_ids[type.type_anchor()] = Id{uri, type.name()};
         break;
       }
 
       case substrait::extensions::SimpleExtensionDeclaration::kExtensionFunction: {
         const auto& fn = ext.extension_function();
-        util::string_view uri = uris[fn.extension_uri_reference()];
+        std::string_view uri = uris[fn.extension_uri_reference()];
         function_ids[fn.function_anchor()] = Id{uri, fn.name()};
         break;
       }
@@ -133,7 +138,40 @@ Result<ExtensionSet> GetExtensionSetFromPlan(const substrait::Plan& plan,
   }
 
   return ExtensionSet::Make(std::move(uris), std::move(type_ids), std::move(function_ids),
-                            registry);
+                            conversion_options, registry);
+}
+
+namespace {
+
+// TODO(ARROW-18145) Populate these from cmake files
+constexpr uint32_t kSubstraitMajorVersion = 0;
+constexpr uint32_t kSubstraitMinorVersion = 20;
+constexpr uint32_t kSubstraitPatchVersion = 0;
+
+std::unique_ptr<substrait::Version> CreateVersion() {
+  auto version = std::make_unique<substrait::Version>();
+  version->set_major_number(kSubstraitMajorVersion);
+  version->set_minor_number(kSubstraitMinorVersion);
+  version->set_patch_number(kSubstraitPatchVersion);
+  version->set_producer("Acero " + GetBuildInfo().version_string);
+  return version;
+}
+
+}  // namespace
+
+Result<std::unique_ptr<substrait::Plan>> PlanToProto(
+    const compute::Declaration& declr, ExtensionSet* ext_set,
+    const ConversionOptions& conversion_options) {
+  auto subs_plan = std::make_unique<substrait::Plan>();
+  subs_plan->set_allocated_version(CreateVersion().release());
+  auto plan_rel = std::make_unique<substrait::PlanRel>();
+  auto rel_root = std::make_unique<substrait::RelRoot>();
+  ARROW_ASSIGN_OR_RAISE(auto rel, ToProto(declr, ext_set, conversion_options));
+  rel_root->set_allocated_input(rel.release());
+  plan_rel->set_allocated_root(rel_root.release());
+  subs_plan->mutable_relations()->AddAllocated(plan_rel.release());
+  RETURN_NOT_OK(AddExtensionSetToPlan(*ext_set, subs_plan.get()));
+  return std::move(subs_plan);
 }
 
 }  // namespace engine
diff --git a/cpp/src/arrow/engine/substrait/plan_internal.h b/cpp/src/arrow/engine/substrait/plan_internal.h
index dce23cdceba..235bf1a6ce1 100644
--- a/cpp/src/arrow/engine/substrait/plan_internal.h
+++ b/cpp/src/arrow/engine/substrait/plan_internal.h
@@ -19,9 +19,14 @@
 
 #pragma once
 
+#include <memory>
+
+#include "arrow/compute/type_fwd.h"
 #include "arrow/engine/substrait/extension_set.h"
+#include "arrow/engine/substrait/options.h"
 #include "arrow/engine/substrait/visibility.h"
-#include "arrow/type_fwd.h"
+#include "arrow/result.h"
+#include "arrow/status.h"
 
 #include "substrait/plan.pb.h"  // IWYU pragma: export
 
@@ -48,8 +53,20 @@ Status AddExtensionSetToPlan(const ExtensionSet& ext_set, substrait::Plan* plan)
 /// correspond to Substrait's URI/name pairs
 ARROW_ENGINE_EXPORT
 Result<ExtensionSet> GetExtensionSetFromPlan(
-    const substrait::Plan& plan,
+    const substrait::Plan& plan, const ConversionOptions& conversion_options,
     const ExtensionIdRegistry* registry = default_extension_id_registry());
 
+/// \brief Serialize a declaration into a substrait::Plan.
+///
+/// Note that, this is a part of a roundtripping test API and not
+/// designed for use in production
+/// \param[in] declr the sequence of declarations to be serialized
+/// \param[in, out] ext_set the extension set to be updated
+/// \param[in] conversion_options options to control serialization behavior
+/// \return the serialized plan
+ARROW_ENGINE_EXPORT Result<std::unique_ptr<substrait::Plan>> PlanToProto(
+    const compute::Declaration& declr, ExtensionSet* ext_set,
+    const ConversionOptions& conversion_options = {});
+
 }  // namespace engine
 }  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/protobuf_test_util.cc b/cpp/src/arrow/engine/substrait/protobuf_test_util.cc
new file mode 100644
index 00000000000..20b1bb3270b
--- /dev/null
+++ b/cpp/src/arrow/engine/substrait/protobuf_test_util.cc
@@ -0,0 +1,43 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include <gtest/gtest.h>
+
+#include <google/protobuf/message_lite.h>
+#include <google/protobuf/stubs/common.h>
+
+namespace arrow {
+namespace engine {
+
+// A global test "environment", to ensure that the Protobuf API is finalized after
+// running unit tests by invoking google::protobuf::ShutdownProtobufLibrary.
+// This will prevent leaks in valgrind tests because it will delete the global objects
+// that were allocated by the Protocol Buffer library (see
+// "protobuf::ShutdownProtobufLibrary" in
+// https://developers.google.com/protocol-buffers/docs/reference/cpp/google.protobuf.message_lite#ShutdownProtobufLibrary.details)
+
+class ProtobufEnvironment : public ::testing::Environment {
+ public:
+  void SetUp() override { GOOGLE_PROTOBUF_VERIFY_VERSION; }
+  void TearDown() override { google::protobuf::ShutdownProtobufLibrary(); }
+};
+
+::testing::Environment* protobuf_env =
+    ::testing::AddGlobalTestEnvironment(new ProtobufEnvironment);
+
+}  // namespace engine
+}  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/relation.h b/cpp/src/arrow/engine/substrait/relation.h
new file mode 100644
index 00000000000..06bb3d58545
--- /dev/null
+++ b/cpp/src/arrow/engine/substrait/relation.h
@@ -0,0 +1,38 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#pragma once
+
+#include <memory>
+
+#include "arrow/compute/exec/exec_plan.h"
+#include "arrow/engine/substrait/visibility.h"
+#include "arrow/type_fwd.h"
+
+namespace arrow {
+namespace engine {
+
+/// Information resulting from converting a Substrait relation.
+struct ARROW_ENGINE_EXPORT DeclarationInfo {
+  /// The compute declaration produced thus far.
+  compute::Declaration declaration;
+
+  std::shared_ptr<Schema> output_schema;
+};
+
+}  // namespace engine
+}  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/relation_internal.cc b/cpp/src/arrow/engine/substrait/relation_internal.cc
index 8cc1da4d903..95b0ef16ba5 100644
--- a/cpp/src/arrow/engine/substrait/relation_internal.cc
+++ b/cpp/src/arrow/engine/substrait/relation_internal.cc
@@ -17,29 +17,150 @@
 
 #include "arrow/engine/substrait/relation_internal.h"
 
-#include "arrow/compute/api_scalar.h"
+#include <cstdint>
+#include <functional>
+#include <iterator>
+#include <memory>
+#include <string>
+#include <string_view>
+#include <type_traits>
+#include <utility>
+#include <variant>
+#include <vector>
+
+#include "arrow/compute/api_aggregate.h"
+#include "arrow/compute/exec/exec_plan.h"
+#include "arrow/compute/exec/expression.h"
 #include "arrow/compute/exec/options.h"
+#include "arrow/compute/kernel.h"
+#include "arrow/dataset/dataset.h"
+#include "arrow/dataset/discovery.h"
 #include "arrow/dataset/file_base.h"
 #include "arrow/dataset/file_ipc.h"
 #include "arrow/dataset/file_parquet.h"
 #include "arrow/dataset/plan.h"
 #include "arrow/dataset/scanner.h"
+#include "arrow/datum.h"
 #include "arrow/engine/substrait/expression_internal.h"
+#include "arrow/engine/substrait/extension_set.h"
+#include "arrow/engine/substrait/options.h"
+#include "arrow/engine/substrait/options_internal.h"
+#include "arrow/engine/substrait/relation.h"
 #include "arrow/engine/substrait/type_internal.h"
+#include "arrow/engine/substrait/util.h"
+#include "arrow/engine/substrait/util_internal.h"
+#include "arrow/filesystem/filesystem.h"
 #include "arrow/filesystem/localfs.h"
-#include "arrow/filesystem/path_util.h"
+#include "arrow/filesystem/type_fwd.h"
 #include "arrow/filesystem/util_internal.h"
+#include "arrow/io/type_fwd.h"
+#include "arrow/status.h"
+#include "arrow/type.h"
+#include "arrow/util/checked_cast.h"
+#include "arrow/util/string.h"
+#include "arrow/util/uri.h"
 
 namespace arrow {
+
+using internal::checked_cast;
+using internal::StartsWith;
+using internal::ToChars;
+using internal::UriFromAbsolutePath;
+
 namespace engine {
 
+struct EmitInfo {
+  std::vector<compute::Expression> expressions;
+  std::shared_ptr<Schema> schema;
+};
+
+template <typename RelMessage>
+Result<EmitInfo> GetEmitInfo(const RelMessage& rel,
+                             const std::shared_ptr<Schema>& input_schema) {
+  const auto& emit = rel.common().emit();
+  int emit_size = emit.output_mapping_size();
+  std::vector<compute::Expression> proj_field_refs(emit_size);
+  EmitInfo emit_info;
+  FieldVector emit_fields(emit_size);
+  for (int i = 0; i < emit_size; i++) {
+    int32_t map_id = emit.output_mapping(i);
+    proj_field_refs[i] = compute::field_ref(FieldRef(map_id));
+    emit_fields[i] = input_schema->field(map_id);
+  }
+  emit_info.expressions = std::move(proj_field_refs);
+  emit_info.schema = schema(std::move(emit_fields));
+  return std::move(emit_info);
+}
+
 template <typename RelMessage>
-Status CheckRelCommon(const RelMessage& rel) {
+Result<DeclarationInfo> ProcessEmit(const RelMessage& rel,
+                                    const DeclarationInfo& no_emit_declr,
+                                    const std::shared_ptr<Schema>& schema) {
+  if (rel.has_common()) {
+    switch (rel.common().emit_kind_case()) {
+      case substrait::RelCommon::EmitKindCase::kDirect:
+        return no_emit_declr;
+      case substrait::RelCommon::EmitKindCase::kEmit: {
+        ARROW_ASSIGN_OR_RAISE(auto emit_info, GetEmitInfo(rel, schema));
+        return DeclarationInfo{
+            compute::Declaration::Sequence(
+                {no_emit_declr.declaration,
+                 {"project",
+                  compute::ProjectNodeOptions{std::move(emit_info.expressions)}}}),
+            std::move(emit_info.schema)};
+      }
+      default:
+        return Status::Invalid("Invalid emit case");
+    }
+  } else {
+    return no_emit_declr;
+  }
+}
+/// In the specialization, a single ProjectNode is being used to
+/// get the Acero relation with or without emit.
+template <>
+Result<DeclarationInfo> ProcessEmit(const substrait::ProjectRel& rel,
+                                    const DeclarationInfo& project_declr,
+                                    const std::shared_ptr<Schema>& input_schema) {
   if (rel.has_common()) {
-    if (rel.common().has_emit()) {
-      return Status::NotImplemented("substrait::RelCommon::Emit");
+    switch (rel.common().emit_kind_case()) {
+      case substrait::RelCommon::EmitKindCase::kDirect:
+        return project_declr;
+      case substrait::RelCommon::EmitKindCase::kEmit: {
+        const auto& emit = rel.common().emit();
+        int emit_size = emit.output_mapping_size();
+        const auto& proj_options = checked_cast<const compute::ProjectNodeOptions&>(
+            *project_declr.declaration.options);
+        FieldVector emit_fields(emit_size);
+        std::vector<compute::Expression> emit_proj_exprs(emit_size);
+        for (int i = 0; i < emit_size; i++) {
+          int32_t map_id = emit.output_mapping(i);
+          emit_fields[i] = input_schema->field(map_id);
+          emit_proj_exprs[i] = std::move(proj_options.expressions[map_id]);
+        }
+        // Note: DeclarationInfo is created by considering the input to the
+        // ProjectRel and the ProjectNodeOptions are set by only considering
+        // what is in the emit expression in Substrait.
+        return DeclarationInfo{
+            compute::Declaration::Sequence(
+                {std::get<compute::Declaration>(project_declr.declaration.inputs[0]),
+                 {"project", compute::ProjectNodeOptions{std::move(emit_proj_exprs)}}}),
+            schema(std::move(emit_fields))};
+      }
+      default:
+        return Status::Invalid("Invalid emit case");
     }
-    if (rel.common().has_hint()) {
+  } else {
+    return project_declr;
+  }
+}
+
+template <typename RelMessage>
+Status CheckRelCommon(const RelMessage& rel,
+                      const ConversionOptions& conversion_options) {
+  if (rel.has_common()) {
+    if (rel.common().has_hint() &&
+        conversion_options.strictness == ConversionStrictness::EXACT_ROUNDTRIP) {
       return Status::NotImplemented("substrait::RelCommon::Hint");
     }
     if (rel.common().has_advanced_extension()) {
@@ -52,6 +173,24 @@ Status CheckRelCommon(const RelMessage& rel) {
   return Status::OK();
 }
 
+Status DiscoverFilesFromDir(const std::shared_ptr<fs::LocalFileSystem>& local_fs,
+                            const std::string& dirpath,
+                            std::vector<fs::FileInfo>* rel_fpaths) {
+  // Define a selector for a recursive descent
+  fs::FileSelector selector;
+  selector.base_dir = dirpath;
+  selector.recursive = true;
+
+  ARROW_ASSIGN_OR_RAISE(auto file_infos, local_fs->GetFileInfo(selector));
+  for (auto& file_info : file_infos) {
+    if (file_info.IsFile()) {
+      rel_fpaths->push_back(std::move(file_info));
+    }
+  }
+
+  return Status::OK();
+}
+
 Result<DeclarationInfo> FromProto(const substrait::Rel& rel, const ExtensionSet& ext_set,
                                   const ConversionOptions& conversion_options) {
   static bool dataset_init = false;
@@ -63,8 +202,9 @@ Result<DeclarationInfo> FromProto(const substrait::Rel& rel, const ExtensionSet&
   switch (rel.rel_type_case()) {
     case substrait::Rel::RelTypeCase::kRead: {
       const auto& read = rel.read();
-      RETURN_NOT_OK(CheckRelCommon(read));
+      RETURN_NOT_OK(CheckRelCommon(read, conversion_options));
 
+      // Get the base schema for the read relation
       ARROW_ASSIGN_OR_RAISE(auto base_schema,
                             FromProto(read.base_schema(), ext_set, conversion_options));
 
@@ -77,11 +217,37 @@ Result<DeclarationInfo> FromProto(const substrait::Rel& rel, const ExtensionSet&
       }
 
       if (read.has_projection()) {
-        // NOTE: scan_options->projection is not used by the scanner and thus can't be
-        // used for this
         return Status::NotImplemented("substrait::ReadRel::projection");
       }
 
+      if (read.has_named_table()) {
+        if (!conversion_options.named_table_provider) {
+          return Status::Invalid(
+              "plan contained a named table but a NamedTableProvider has not been "
+              "configured");
+        }
+
+        if (read.named_table().names().empty()) {
+          return Status::Invalid("names for NamedTable not provided");
+        }
+
+        const NamedTableProvider& named_table_provider =
+            conversion_options.named_table_provider;
+        const substrait::ReadRel::NamedTable& named_table = read.named_table();
+        std::vector<std::string> table_names(named_table.names().begin(),
+                                             named_table.names().end());
+        ARROW_ASSIGN_OR_RAISE(compute::Declaration source_decl,
+                              named_table_provider(table_names));
+
+        if (!source_decl.IsValid()) {
+          return Status::Invalid("Invalid NamedTable Source");
+        }
+
+        return ProcessEmit(std::move(read),
+                           DeclarationInfo{std::move(source_decl), base_schema},
+                           std::move(base_schema));
+      }
+
       if (!read.has_local_files()) {
         return Status::NotImplemented(
             "substrait::ReadRel with read_type other than LocalFiles");
@@ -97,84 +263,121 @@ Result<DeclarationInfo> FromProto(const substrait::Rel& rel, const ExtensionSet&
       std::vector<fs::FileInfo> files;
 
       for (const auto& item : read.local_files().items()) {
-        std::string path;
-        if (item.path_type_case() ==
-            substrait::ReadRel_LocalFiles_FileOrFiles::kUriPath) {
-          path = item.uri_path();
-        } else if (item.path_type_case() ==
-                   substrait::ReadRel_LocalFiles_FileOrFiles::kUriFile) {
-          path = item.uri_file();
-        } else if (item.path_type_case() ==
-                   substrait::ReadRel_LocalFiles_FileOrFiles::kUriFolder) {
-          path = item.uri_folder();
-        } else {
-          path = item.uri_path_glob();
+        // Validate properties of the `FileOrFiles` item
+        if (item.partition_index() != 0) {
+          return Status::NotImplemented(
+              "non-default "
+              "substrait::ReadRel::LocalFiles::FileOrFiles::partition_index");
         }
 
-        switch (item.file_format_case()) {
-          case substrait::ReadRel_LocalFiles_FileOrFiles::kParquet:
-            format = std::make_shared<dataset::ParquetFileFormat>();
+        if (item.start() != 0) {
+          return Status::NotImplemented(
+              "non-default substrait::ReadRel::LocalFiles::FileOrFiles::start offset");
+        }
+
+        if (item.length() != 0) {
+          return Status::NotImplemented(
+              "non-default substrait::ReadRel::LocalFiles::FileOrFiles::length");
+        }
+
+        // Extract and parse the read relation's source URI
+        ::arrow::internal::Uri item_uri;
+        switch (item.path_type_case()) {
+          case substrait::ReadRel::LocalFiles::FileOrFiles::kUriPath:
+            RETURN_NOT_OK(item_uri.Parse(item.uri_path()));
             break;
-          case substrait::ReadRel_LocalFiles_FileOrFiles::kArrow:
-            format = std::make_shared<dataset::IpcFileFormat>();
+
+          case substrait::ReadRel::LocalFiles::FileOrFiles::kUriFile:
+            RETURN_NOT_OK(item_uri.Parse(item.uri_file()));
             break;
+
+          case substrait::ReadRel::LocalFiles::FileOrFiles::kUriFolder:
+            RETURN_NOT_OK(item_uri.Parse(item.uri_folder()));
+            break;
+
           default:
-            return Status::NotImplemented(
-                "unknown substrait::ReadRel::LocalFiles::FileOrFiles::file_format");
+            RETURN_NOT_OK(item_uri.Parse(item.uri_path_glob()));
+            break;
         }
 
-        if (!util::string_view{path}.starts_with("file:///")) {
-          return Status::NotImplemented("substrait::ReadRel::LocalFiles item (", path,
-                                        ") with other than local filesystem "
-                                        "(file:///)");
+        // Validate the URI before processing
+        if (!item_uri.is_file_scheme()) {
+          return Status::NotImplemented("substrait::ReadRel::LocalFiles item (",
+                                        item_uri.ToString(),
+                                        ") does not have file scheme (file:///)");
         }
 
-        if (item.partition_index() != 0) {
-          return Status::NotImplemented(
-              "non-default substrait::ReadRel::LocalFiles::FileOrFiles::partition_index");
+        if (item_uri.port() != -1) {
+          return Status::NotImplemented("substrait::ReadRel::LocalFiles item (",
+                                        item_uri.ToString(),
+                                        ") should not have a port number in path");
         }
 
-        if (item.start() != 0) {
-          return Status::NotImplemented(
-              "non-default substrait::ReadRel::LocalFiles::FileOrFiles::start offset");
+        if (!item_uri.query_string().empty()) {
+          return Status::NotImplemented("substrait::ReadRel::LocalFiles item (",
+                                        item_uri.ToString(),
+                                        ") should not have a query string in path");
         }
 
-        if (item.length() != 0) {
-          return Status::NotImplemented(
-              "non-default substrait::ReadRel::LocalFiles::FileOrFiles::length");
+        switch (item.file_format_case()) {
+          case substrait::ReadRel::LocalFiles::FileOrFiles::kParquet:
+            format = std::make_shared<dataset::ParquetFileFormat>();
+            break;
+          case substrait::ReadRel::LocalFiles::FileOrFiles::kArrow:
+            format = std::make_shared<dataset::IpcFileFormat>();
+            break;
+          default:
+            return Status::NotImplemented(
+                "unsupported file format ",
+                "(see substrait::ReadRel::LocalFiles::FileOrFiles::file_format)");
         }
 
-        path = path.substr(7);
-        if (item.path_type_case() ==
-            substrait::ReadRel_LocalFiles_FileOrFiles::kUriPath) {
-          ARROW_ASSIGN_OR_RAISE(auto file, filesystem->GetFileInfo(path));
-          if (file.type() == fs::FileType::File) {
-            files.push_back(std::move(file));
-          } else if (file.type() == fs::FileType::Directory) {
-            fs::FileSelector selector;
-            selector.base_dir = path;
-            selector.recursive = true;
-            ARROW_ASSIGN_OR_RAISE(auto discovered_files,
-                                  filesystem->GetFileInfo(selector));
-            std::move(files.begin(), files.end(), std::back_inserter(discovered_files));
+        // Handle the URI as appropriate
+        switch (item.path_type_case()) {
+          case substrait::ReadRel::LocalFiles::FileOrFiles::kUriFile: {
+            files.emplace_back(item_uri.path(), fs::FileType::File);
+            break;
+          }
+
+          case substrait::ReadRel::LocalFiles::FileOrFiles::kUriFolder: {
+            RETURN_NOT_OK(DiscoverFilesFromDir(filesystem, item_uri.path(), &files));
+            break;
+          }
+
+          case substrait::ReadRel::LocalFiles::FileOrFiles::kUriPath: {
+            ARROW_ASSIGN_OR_RAISE(auto file_info,
+                                  filesystem->GetFileInfo(item_uri.path()));
+
+            switch (file_info.type()) {
+              case fs::FileType::File: {
+                files.push_back(std::move(file_info));
+                break;
+              }
+              case fs::FileType::Directory: {
+                RETURN_NOT_OK(DiscoverFilesFromDir(filesystem, item_uri.path(), &files));
+                break;
+              }
+              case fs::FileType::NotFound:
+                return Status::Invalid("Unable to find file for URI path");
+              case fs::FileType::Unknown:
+                [[fallthrough]];
+              default:
+                return Status::NotImplemented("URI path is of unknown file type.");
+            }
+            break;
+          }
+
+          case substrait::ReadRel::LocalFiles::FileOrFiles::kUriPathGlob: {
+            ARROW_ASSIGN_OR_RAISE(auto globbed_files,
+                                  fs::internal::GlobFiles(filesystem, item_uri.path()));
+            std::move(globbed_files.begin(), globbed_files.end(),
+                      std::back_inserter(files));
+            break;
+          }
+
+          default: {
+            return Status::Invalid("Unrecognized file type in LocalFiles");
           }
-        }
-        if (item.path_type_case() ==
-            substrait::ReadRel_LocalFiles_FileOrFiles::kUriFile) {
-          files.emplace_back(path, fs::FileType::File);
-        } else if (item.path_type_case() ==
-                   substrait::ReadRel_LocalFiles_FileOrFiles::kUriFolder) {
-          fs::FileSelector selector;
-          selector.base_dir = path;
-          selector.recursive = true;
-          ARROW_ASSIGN_OR_RAISE(auto discovered_files, filesystem->GetFileInfo(selector));
-          std::move(discovered_files.begin(), discovered_files.end(),
-                    std::back_inserter(files));
-        } else {
-          ARROW_ASSIGN_OR_RAISE(auto discovered_files,
-                                fs::internal::GlobFiles(filesystem, path));
-          std::move(discovered_files.begin(), discovered_files.end(),
-                    std::back_inserter(files));
         }
       }
 
@@ -182,18 +385,19 @@ Result<DeclarationInfo> FromProto(const substrait::Rel& rel, const ExtensionSet&
                                                  std::move(filesystem), std::move(files),
                                                  std::move(format), {}));
 
-      auto num_columns = static_cast<int>(base_schema->fields().size());
-      ARROW_ASSIGN_OR_RAISE(auto ds, ds_factory->Finish(std::move(base_schema)));
+      ARROW_ASSIGN_OR_RAISE(auto ds, ds_factory->Finish(base_schema));
+
+      DeclarationInfo scan_declaration{
+          compute::Declaration{"scan", dataset::ScanNodeOptions{ds, scan_options}},
+          base_schema};
 
-      return DeclarationInfo{
-          compute::Declaration{
-              "scan", dataset::ScanNodeOptions{std::move(ds), std::move(scan_options)}},
-          num_columns};
+      return ProcessEmit(std::move(read), std::move(scan_declaration),
+                         std::move(base_schema));
     }
 
     case substrait::Rel::RelTypeCase::kFilter: {
       const auto& filter = rel.filter();
-      RETURN_NOT_OK(CheckRelCommon(filter));
+      RETURN_NOT_OK(CheckRelCommon(filter, conversion_options));
 
       if (!filter.has_input()) {
         return Status::Invalid("substrait::FilterRel with no input relation");
@@ -206,19 +410,20 @@ Result<DeclarationInfo> FromProto(const substrait::Rel& rel, const ExtensionSet&
       }
       ARROW_ASSIGN_OR_RAISE(auto condition,
                             FromProto(filter.condition(), ext_set, conversion_options));
-
-      return DeclarationInfo{
+      DeclarationInfo filter_declaration{
           compute::Declaration::Sequence({
               std::move(input.declaration),
               {"filter", compute::FilterNodeOptions{std::move(condition)}},
           }),
-          input.num_columns};
+          input.output_schema};
+
+      return ProcessEmit(std::move(filter), std::move(filter_declaration),
+                         input.output_schema);
     }
 
     case substrait::Rel::RelTypeCase::kProject: {
       const auto& project = rel.project();
-      RETURN_NOT_OK(CheckRelCommon(project));
-
+      RETURN_NOT_OK(CheckRelCommon(project, conversion_options));
       if (!project.has_input()) {
         return Status::Invalid("substrait::ProjectRel with no input relation");
       }
@@ -228,28 +433,50 @@ Result<DeclarationInfo> FromProto(const substrait::Rel& rel, const ExtensionSet&
       // NOTE: Substrait ProjectRels *append* columns, while Acero's project node replaces
       // them. Therefore, we need to prefix all the current columns for compatibility.
       std::vector<compute::Expression> expressions;
-      expressions.reserve(input.num_columns + project.expressions().size());
-      for (int i = 0; i < input.num_columns; i++) {
+      int num_columns = input.output_schema->num_fields();
+      expressions.reserve(num_columns + project.expressions().size());
+      for (int i = 0; i < num_columns; i++) {
         expressions.emplace_back(compute::field_ref(FieldRef(i)));
       }
+
+      int i = 0;
+      auto project_schema = input.output_schema;
       for (const auto& expr : project.expressions()) {
-        expressions.emplace_back();
-        ARROW_ASSIGN_OR_RAISE(expressions.back(),
+        std::shared_ptr<Field> project_field;
+        ARROW_ASSIGN_OR_RAISE(compute::Expression des_expr,
                               FromProto(expr, ext_set, conversion_options));
+        auto bound_expr = des_expr.Bind(*input.output_schema);
+        if (auto* expr_call = bound_expr->call()) {
+          project_field = field(expr_call->function_name,
+                                expr_call->kernel->signature->out_type().type());
+        } else if (auto* field_ref = des_expr.field_ref()) {
+          ARROW_ASSIGN_OR_RAISE(FieldPath field_path,
+                                field_ref->FindOne(*input.output_schema));
+          ARROW_ASSIGN_OR_RAISE(project_field, field_path.Get(*input.output_schema));
+        } else if (auto* literal = des_expr.literal()) {
+          project_field = field("field_" + ToChars(num_columns + i), literal->type());
+        }
+        ARROW_ASSIGN_OR_RAISE(
+            project_schema,
+            project_schema->AddField(num_columns + i, std::move(project_field)));
+        i++;
+        expressions.emplace_back(des_expr);
       }
 
-      auto num_columns = static_cast<int>(expressions.size());
-      return DeclarationInfo{
+      DeclarationInfo project_declaration{
           compute::Declaration::Sequence({
               std::move(input.declaration),
               {"project", compute::ProjectNodeOptions{std::move(expressions)}},
           }),
-          num_columns};
+          project_schema};
+
+      return ProcessEmit(std::move(project), std::move(project_declaration),
+                         std::move(project_schema));
     }
 
     case substrait::Rel::RelTypeCase::kJoin: {
       const auto& join = rel.join();
-      RETURN_NOT_OK(CheckRelCommon(join));
+      RETURN_NOT_OK(CheckRelCommon(join, conversion_options));
 
       if (!join.has_left()) {
         return Status::Invalid("substrait::JoinRel with no left relation");
@@ -316,25 +543,46 @@ Result<DeclarationInfo> FromProto(const substrait::Rel& rel, const ExtensionSet&
             callptr->function_name);
       }
 
+      // Create output schema from left, right relations and join keys
+      FieldVector combined_fields = left.output_schema->fields();
+      const FieldVector& right_fields = right.output_schema->fields();
+      combined_fields.insert(combined_fields.end(), right_fields.begin(),
+                             right_fields.end());
+      std::shared_ptr<Schema> join_schema = schema(std::move(combined_fields));
+
+      // adjust the join_keys according to Substrait definition where
+      // the join fields are defined by considering the `join_schema` which
+      // is the combination of the left and right relation schema.
+
       // TODO: ARROW-16624 Add Suffix support for Substrait
       const auto* left_keys = callptr->arguments[0].field_ref();
       const auto* right_keys = callptr->arguments[1].field_ref();
+      // Validating JoinKeys
       if (!left_keys || !right_keys) {
-        return Status::Invalid("Left keys for join cannot be null");
+        return Status::Invalid(
+            "join condition must include references to both left and right inputs");
       }
+      int num_left_fields = left.output_schema->num_fields();
+      const auto* right_field_path = right_keys->field_path();
+      std::vector<int> adjusted_field_indices(right_field_path->indices());
+      adjusted_field_indices[0] -= num_left_fields;
+      FieldPath adjusted_right_keys(adjusted_field_indices);
       compute::HashJoinNodeOptions join_options{{std::move(*left_keys)},
-                                                {std::move(*right_keys)}};
+                                                {std::move(adjusted_right_keys)}};
       join_options.join_type = join_type;
       join_options.key_cmp = {join_key_cmp};
       compute::Declaration join_dec{"hashjoin", std::move(join_options)};
-      auto num_columns = left.num_columns + right.num_columns;
       join_dec.inputs.emplace_back(std::move(left.declaration));
       join_dec.inputs.emplace_back(std::move(right.declaration));
-      return DeclarationInfo{std::move(join_dec), num_columns};
+
+      DeclarationInfo join_declaration{std::move(join_dec), join_schema};
+
+      return ProcessEmit(std::move(join), std::move(join_declaration),
+                         std::move(join_schema));
     }
     case substrait::Rel::RelTypeCase::kAggregate: {
       const auto& aggregate = rel.aggregate();
-      RETURN_NOT_OK(CheckRelCommon(aggregate));
+      RETURN_NOT_OK(CheckRelCommon(aggregate, conversion_options));
 
       if (!aggregate.has_input()) {
         return Status::Invalid("substrait::AggregateRel with no input relation");
@@ -348,24 +596,38 @@ Result<DeclarationInfo> FromProto(const substrait::Rel& rel, const ExtensionSet&
             "Grouping sets not supported.  AggregateRel::groupings may not have more "
             "than one item");
       }
+
+      // prepare output schema from aggregates
+      auto input_schema = input.output_schema;
+      // store key fields to be used when output schema is created
+      std::vector<int> key_field_ids;
       std::vector<FieldRef> keys;
-      auto group = aggregate.groupings(0);
-      keys.reserve(group.grouping_expressions_size());
-      for (int exp_id = 0; exp_id < group.grouping_expressions_size(); exp_id++) {
-        ARROW_ASSIGN_OR_RAISE(auto expr, FromProto(group.grouping_expressions(exp_id),
-                                                   ext_set, conversion_options));
-        const auto* field_ref = expr.field_ref();
-        if (field_ref) {
-          keys.emplace_back(std::move(*field_ref));
-        } else {
-          return Status::Invalid(
-              "The grouping expression for an aggregate must be a direct reference.");
+      if (aggregate.groupings_size() > 0) {
+        const substrait::AggregateRel::Grouping& group = aggregate.groupings(0);
+        int grouping_expr_size = group.grouping_expressions_size();
+        keys.reserve(grouping_expr_size);
+        key_field_ids.reserve(grouping_expr_size);
+        for (int exp_id = 0; exp_id < grouping_expr_size; exp_id++) {
+          ARROW_ASSIGN_OR_RAISE(
+              compute::Expression expr,
+              FromProto(group.grouping_expressions(exp_id), ext_set, conversion_options));
+          const FieldRef* field_ref = expr.field_ref();
+          if (field_ref) {
+            ARROW_ASSIGN_OR_RAISE(auto match, field_ref->FindOne(*input_schema));
+            key_field_ids.emplace_back(std::move(match[0]));
+            keys.emplace_back(std::move(*field_ref));
+          } else {
+            return Status::Invalid(
+                "The grouping expression for an aggregate must be a direct reference.");
+          }
         }
       }
 
       int measure_size = aggregate.measures_size();
       std::vector<compute::Aggregate> aggregates;
       aggregates.reserve(measure_size);
+      // store aggregate fields to be used when output schema is created
+      std::vector<int> agg_src_field_ids(measure_size);
       for (int measure_id = 0; measure_id < measure_size; measure_id++) {
         const auto& agg_measure = aggregate.measures(measure_id);
         if (agg_measure.has_measure()) {
@@ -373,35 +635,124 @@ Result<DeclarationInfo> FromProto(const substrait::Rel& rel, const ExtensionSet&
             return Status::NotImplemented("Aggregate filters are not supported.");
           }
           const auto& agg_func = agg_measure.measure();
-          if (agg_func.arguments_size() != 1) {
-            return Status::NotImplemented("Aggregate function must be a unary function.");
-          }
-          int func_reference = agg_func.function_reference();
-          ARROW_ASSIGN_OR_RAISE(auto func_record, ext_set.DecodeFunction(func_reference));
-          // aggreagte function name
-          auto func_name = std::string(func_record.id.name);
-          // aggregate target
-          auto subs_func_args = agg_func.arguments(0);
-          ARROW_ASSIGN_OR_RAISE(auto field_expr, FromProto(subs_func_args.value(),
-                                                           ext_set, conversion_options));
-          auto target = field_expr.field_ref();
-          if (!target) {
-            return Status::Invalid(
-                "The input expression to an aggregate function must be a direct "
-                "reference.");
+          ARROW_ASSIGN_OR_RAISE(
+              SubstraitCall aggregate_call,
+              FromProto(agg_func, !keys.empty(), ext_set, conversion_options));
+          ExtensionIdRegistry::SubstraitAggregateToArrow converter;
+          if (aggregate_call.id().uri.empty() || aggregate_call.id().uri[0] == '/') {
+            ARROW_ASSIGN_OR_RAISE(
+                converter, ext_set.registry()->GetSubstraitAggregateToArrowFallback(
+                               aggregate_call.id().name));
+          } else {
+            ARROW_ASSIGN_OR_RAISE(
+                converter,
+                ext_set.registry()->GetSubstraitAggregateToArrow(aggregate_call.id()));
           }
-          aggregates.emplace_back(compute::Aggregate{std::move(func_name), NULLPTR,
-                                                     std::move(*target), std::move("")});
+          ARROW_ASSIGN_OR_RAISE(compute::Aggregate arrow_agg, converter(aggregate_call));
+
+          // find aggregate field ids from schema
+          const auto field_ref = arrow_agg.target;
+          ARROW_ASSIGN_OR_RAISE(auto match, field_ref.FindOne(*input_schema));
+          agg_src_field_ids[measure_id] = match[0];
+
+          aggregates.push_back(std::move(arrow_agg));
         } else {
           return Status::Invalid("substrait::AggregateFunction not provided");
         }
       }
+      FieldVector output_fields;
+      output_fields.reserve(key_field_ids.size() + agg_src_field_ids.size());
+      // extract aggregate fields to output schema
+      for (int id = 0; id < static_cast<int>(agg_src_field_ids.size()); id++) {
+        output_fields.emplace_back(input_schema->field(agg_src_field_ids[id]));
+      }
+      // extract key fields to output schema
+      for (int id = 0; id < static_cast<int>(key_field_ids.size()); id++) {
+        output_fields.emplace_back(input_schema->field(key_field_ids[id]));
+      }
 
-      return DeclarationInfo{
+      std::shared_ptr<Schema> aggregate_schema = schema(std::move(output_fields));
+
+      DeclarationInfo aggregate_declaration{
           compute::Declaration::Sequence(
               {std::move(input.declaration),
                {"aggregate", compute::AggregateNodeOptions{aggregates, keys}}}),
-          static_cast<int>(aggregates.size())};
+          aggregate_schema};
+
+      return ProcessEmit(std::move(aggregate), std::move(aggregate_declaration),
+                         std::move(aggregate_schema));
+    }
+
+    case substrait::Rel::RelTypeCase::kSet: {
+      const auto& set = rel.set();
+      RETURN_NOT_OK(CheckRelCommon(set, conversion_options));
+
+      if (set.inputs_size() < 2) {
+        return Status::Invalid(
+            "substrait::SetRel with inadequate number of input relations, ",
+            set.inputs_size());
+      }
+      substrait::SetRel_SetOp op = set.op();
+      // Note: at the moment Acero only supports UNION_ALL operation
+      switch (op) {
+        case substrait::SetRel::SET_OP_UNSPECIFIED:
+        case substrait::SetRel::SET_OP_MINUS_PRIMARY:
+        case substrait::SetRel::SET_OP_MINUS_MULTISET:
+        case substrait::SetRel::SET_OP_INTERSECTION_PRIMARY:
+        case substrait::SetRel::SET_OP_INTERSECTION_MULTISET:
+        case substrait::SetRel::SET_OP_UNION_DISTINCT:
+          return Status::NotImplemented(
+              "NotImplemented union type : ",
+              EnumToString(op, *substrait::SetRel_SetOp_descriptor()));
+        case substrait::SetRel::SET_OP_UNION_ALL:
+          break;
+        default:
+          return Status::Invalid("Unknown union type");
+      }
+      int input_size = set.inputs_size();
+      compute::Declaration union_declr{"union", compute::ExecNodeOptions{}};
+      std::shared_ptr<Schema> union_schema;
+      for (int input_id = 0; input_id < input_size; input_id++) {
+        ARROW_ASSIGN_OR_RAISE(
+            auto input, FromProto(set.inputs(input_id), ext_set, conversion_options));
+        union_declr.inputs.emplace_back(std::move(input.declaration));
+        if (union_schema == nullptr) {
+          union_schema = input.output_schema;
+        }
+      }
+
+      auto set_declaration = DeclarationInfo{union_declr, union_schema};
+      return ProcessEmit(std::move(set), std::move(set_declaration),
+                         std::move(union_schema));
+    }
+    case substrait::Rel::RelTypeCase::kExtensionLeaf: {
+      const auto& ext = rel.extension_leaf();
+      ARROW_ASSIGN_OR_RAISE(
+          auto ext_leaf_decl,
+          conversion_options.extension_provider->MakeRel({}, ext.detail(), ext_set));
+      return ProcessEmit(ext, std::move(ext_leaf_decl), ext_leaf_decl.output_schema);
+    }
+    case substrait::Rel::RelTypeCase::kExtensionSingle: {
+      const auto& ext = rel.extension_single();
+      ARROW_ASSIGN_OR_RAISE(DeclarationInfo input,
+                            FromProto(ext.input(), ext_set, conversion_options));
+      ARROW_ASSIGN_OR_RAISE(
+          auto ext_single_decl,
+          conversion_options.extension_provider->MakeRel({input}, ext.detail(), ext_set));
+      return ProcessEmit(ext, std::move(ext_single_decl), ext_single_decl.output_schema);
+    }
+    case substrait::Rel::RelTypeCase::kExtensionMulti: {
+      const auto& ext = rel.extension_multi();
+      std::vector<DeclarationInfo> inputs;
+      for (const auto& input : ext.inputs()) {
+        ARROW_ASSIGN_OR_RAISE(auto input_info,
+                              FromProto(input, ext_set, conversion_options));
+        inputs.push_back(std::move(input_info));
+      }
+      ARROW_ASSIGN_OR_RAISE(
+          auto ext_multi_decl,
+          conversion_options.extension_provider->MakeRel(inputs, ext.detail(), ext_set));
+      return ProcessEmit(ext, std::move(ext_multi_decl), ext_multi_decl.output_schema);
     }
 
     default:
@@ -413,5 +764,176 @@ Result<DeclarationInfo> FromProto(const substrait::Rel& rel, const ExtensionSet&
       rel.DebugString());
 }
 
+namespace {
+
+Result<std::shared_ptr<Schema>> ExtractSchemaToBind(const compute::Declaration& declr) {
+  std::shared_ptr<Schema> bind_schema;
+  if (declr.factory_name == "scan") {
+    const auto& opts = checked_cast<const dataset::ScanNodeOptions&>(*(declr.options));
+    bind_schema = opts.dataset->schema();
+  } else if (declr.factory_name == "filter") {
+    auto input_declr = std::get<compute::Declaration>(declr.inputs[0]);
+    ARROW_ASSIGN_OR_RAISE(bind_schema, ExtractSchemaToBind(input_declr));
+  } else if (declr.factory_name == "named_table") {
+    const auto& opts =
+        checked_cast<const compute::NamedTableNodeOptions&>(*declr.options);
+    bind_schema = opts.schema;
+  } else if (declr.factory_name == "sink") {
+    // Note that the sink has no output_schema
+    return bind_schema;
+  } else {
+    return Status::Invalid("Schema extraction failed, unsupported factory ",
+                           declr.factory_name);
+  }
+  return bind_schema;
+}
+
+Result<std::unique_ptr<substrait::ReadRel>> NamedTableRelationConverter(
+    const std::shared_ptr<Schema>& schema, const compute::Declaration& declaration,
+    ExtensionSet* ext_set, const ConversionOptions& conversion_options) {
+  auto read_rel = std::make_unique<substrait::ReadRel>();
+  const auto& named_table_options =
+      checked_cast<const compute::NamedTableNodeOptions&>(*declaration.options);
+
+  // set schema
+  ARROW_ASSIGN_OR_RAISE(auto named_struct, ToProto(*schema, ext_set, conversion_options));
+  read_rel->set_allocated_base_schema(named_struct.release());
+
+  if (named_table_options.names.empty()) {
+    return Status::Invalid("Table names cannot be empty");
+  }
+
+  auto read_rel_tn = std::make_unique<substrait::ReadRel::NamedTable>();
+  for (auto& name : named_table_options.names) {
+    read_rel_tn->add_names(name);
+  }
+  read_rel->set_allocated_named_table(read_rel_tn.release());
+
+  return std::move(read_rel);
+}
+
+Result<std::unique_ptr<substrait::ReadRel>> ScanRelationConverter(
+    const std::shared_ptr<Schema>& schema, const compute::Declaration& declaration,
+    ExtensionSet* ext_set, const ConversionOptions& conversion_options) {
+  auto read_rel = std::make_unique<substrait::ReadRel>();
+  const auto& scan_node_options =
+      checked_cast<const dataset::ScanNodeOptions&>(*declaration.options);
+  auto dataset =
+      dynamic_cast<dataset::FileSystemDataset*>(scan_node_options.dataset.get());
+  if (dataset == nullptr) {
+    return Status::Invalid(
+        "Can only convert scan node with FileSystemDataset to a Substrait plan.");
+  }
+
+  // set schema
+  ARROW_ASSIGN_OR_RAISE(auto named_struct, ToProto(*schema, ext_set, conversion_options));
+  read_rel->set_allocated_base_schema(named_struct.release());
+
+  // set local files
+  auto read_rel_lfs = std::make_unique<substrait::ReadRel::LocalFiles>();
+  for (const auto& file : dataset->files()) {
+    auto read_rel_lfs_ffs =
+        std::make_unique<substrait::ReadRel::LocalFiles::FileOrFiles>();
+    ARROW_ASSIGN_OR_RAISE(auto uri_path, UriFromAbsolutePath(file));
+    read_rel_lfs_ffs->set_uri_path(std::move(uri_path));
+    // set file format
+    auto format_type_name = dataset->format()->type_name();
+    if (format_type_name == "parquet") {
+      read_rel_lfs_ffs->set_allocated_parquet(
+          new substrait::ReadRel::LocalFiles::FileOrFiles::ParquetReadOptions());
+    } else if (format_type_name == "ipc") {
+      read_rel_lfs_ffs->set_allocated_arrow(
+          new substrait::ReadRel::LocalFiles::FileOrFiles::ArrowReadOptions());
+    } else if (format_type_name == "orc") {
+      read_rel_lfs_ffs->set_allocated_orc(
+          new substrait::ReadRel::LocalFiles::FileOrFiles::OrcReadOptions());
+    } else {
+      return Status::NotImplemented("Unsupported file type: ", format_type_name);
+    }
+    read_rel_lfs->mutable_items()->AddAllocated(read_rel_lfs_ffs.release());
+  }
+  read_rel->set_allocated_local_files(read_rel_lfs.release());
+  return std::move(read_rel);
+}
+
+Result<std::unique_ptr<substrait::FilterRel>> FilterRelationConverter(
+    const std::shared_ptr<Schema>& schema, const compute::Declaration& declaration,
+    ExtensionSet* ext_set, const ConversionOptions& conversion_options) {
+  auto filter_rel = std::make_unique<substrait::FilterRel>();
+  const auto& filter_node_options =
+      checked_cast<const compute::FilterNodeOptions&>(*(declaration.options));
+
+  auto filter_expr = filter_node_options.filter_expression;
+  compute::Expression bound_expression;
+  if (!filter_expr.IsBound()) {
+    ARROW_ASSIGN_OR_RAISE(bound_expression, filter_expr.Bind(*schema));
+  }
+
+  if (declaration.inputs.size() == 0) {
+    return Status::Invalid("Filter node doesn't have an input.");
+  }
+
+  // handling input
+  auto declr_input = declaration.inputs[0];
+  ARROW_ASSIGN_OR_RAISE(
+      auto input_rel,
+      ToProto(std::get<compute::Declaration>(declr_input), ext_set, conversion_options));
+  filter_rel->set_allocated_input(input_rel.release());
+
+  ARROW_ASSIGN_OR_RAISE(auto subs_expr,
+                        ToProto(bound_expression, ext_set, conversion_options));
+  filter_rel->set_allocated_condition(subs_expr.release());
+  return std::move(filter_rel);
+}
+
+}  // namespace
+
+Status SerializeAndCombineRelations(const compute::Declaration& declaration,
+                                    ExtensionSet* ext_set,
+                                    std::unique_ptr<substrait::Rel>* rel,
+                                    const ConversionOptions& conversion_options) {
+  const auto& factory_name = declaration.factory_name;
+  ARROW_ASSIGN_OR_RAISE(auto schema, ExtractSchemaToBind(declaration));
+  // Note that the sink declaration factory doesn't exist for serialization as
+  // Substrait doesn't deal with a sink node definition
+
+  if (factory_name == "scan") {
+    ARROW_ASSIGN_OR_RAISE(
+        auto read_rel,
+        ScanRelationConverter(schema, declaration, ext_set, conversion_options));
+    (*rel)->set_allocated_read(read_rel.release());
+  } else if (factory_name == "filter") {
+    ARROW_ASSIGN_OR_RAISE(
+        auto filter_rel,
+        FilterRelationConverter(schema, declaration, ext_set, conversion_options));
+    (*rel)->set_allocated_filter(filter_rel.release());
+  } else if (factory_name == "named_table") {
+    ARROW_ASSIGN_OR_RAISE(
+        auto read_rel,
+        NamedTableRelationConverter(schema, declaration, ext_set, conversion_options));
+    (*rel)->set_allocated_read(read_rel.release());
+  } else if (factory_name == "sink") {
+    // Generally when a plan is deserialized the declaration will be a sink declaration.
+    // Since there is no Sink relation in substrait, this function would be recursively
+    // called on the input of the Sink declaration.
+    auto sink_input_decl = std::get<compute::Declaration>(declaration.inputs[0]);
+    RETURN_NOT_OK(
+        SerializeAndCombineRelations(sink_input_decl, ext_set, rel, conversion_options));
+  } else {
+    return Status::NotImplemented("Factory ", factory_name,
+                                  " not implemented for roundtripping.");
+  }
+
+  return Status::OK();
+}
+
+Result<std::unique_ptr<substrait::Rel>> ToProto(
+    const compute::Declaration& declr, ExtensionSet* ext_set,
+    const ConversionOptions& conversion_options) {
+  auto rel = std::make_unique<substrait::Rel>();
+  RETURN_NOT_OK(SerializeAndCombineRelations(declr, ext_set, &rel, conversion_options));
+  return std::move(rel);
+}
+
 }  // namespace engine
 }  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/relation_internal.h b/cpp/src/arrow/engine/substrait/relation_internal.h
index 3699d1f6577..17153f5365f 100644
--- a/cpp/src/arrow/engine/substrait/relation_internal.h
+++ b/cpp/src/arrow/engine/substrait/relation_internal.h
@@ -19,30 +19,32 @@
 
 #pragma once
 
-#include "arrow/compute/exec/exec_plan.h"
-#include "arrow/engine/substrait/extension_types.h"
-#include "arrow/engine/substrait/options.h"
-#include "arrow/engine/substrait/serde.h"
+#include <memory>
+
+#include "arrow/compute/type_fwd.h"
+#include "arrow/engine/substrait/relation.h"
+#include "arrow/engine/substrait/type_fwd.h"
 #include "arrow/engine/substrait/visibility.h"
-#include "arrow/type_fwd.h"
+#include "arrow/result.h"
 
 #include "substrait/algebra.pb.h"  // IWYU pragma: export
 
 namespace arrow {
 namespace engine {
 
-/// Information resulting from converting a Substrait relation.
-struct DeclarationInfo {
-  /// The compute declaration produced thus far.
-  compute::Declaration declaration;
-
-  /// The number of columns returned by the declaration.
-  int num_columns;
-};
-
+/// \brief Convert a Substrait Rel object to an Acero declaration
 ARROW_ENGINE_EXPORT
 Result<DeclarationInfo> FromProto(const substrait::Rel&, const ExtensionSet&,
                                   const ConversionOptions&);
 
+/// \brief Convert an Acero Declaration to a Substrait Rel
+///
+/// Note that, in order to provide a generic interface for ToProto,
+/// the ExecNode or ExecPlan are not used in this context as Declaration
+/// is preferred in the Substrait space rather than internal components of
+/// Acero execution engine.
+ARROW_ENGINE_EXPORT Result<std::unique_ptr<substrait::Rel>> ToProto(
+    const compute::Declaration&, ExtensionSet*, const ConversionOptions&);
+
 }  // namespace engine
 }  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/serde.cc b/cpp/src/arrow/engine/substrait/serde.cc
index 87ad88dccb4..f588aff4448 100644
--- a/cpp/src/arrow/engine/substrait/serde.cc
+++ b/cpp/src/arrow/engine/substrait/serde.cc
@@ -17,19 +17,33 @@
 
 #include "arrow/engine/substrait/serde.h"
 
-#include "arrow/engine/substrait/expression_internal.h"
-#include "arrow/engine/substrait/plan_internal.h"
-#include "arrow/engine/substrait/relation_internal.h"
-#include "arrow/engine/substrait/type_internal.h"
-#include "arrow/util/string_view.h"
+#include <cstdint>
+#include <type_traits>
+#include <utility>
 
 #include <google/protobuf/descriptor.h>
 #include <google/protobuf/io/zero_copy_stream_impl_lite.h>
 #include <google/protobuf/message.h>
+#include <google/protobuf/stubs/status.h>
 #include <google/protobuf/util/json_util.h>
 #include <google/protobuf/util/message_differencer.h>
+#include <google/protobuf/util/type_resolver.h>
 #include <google/protobuf/util/type_resolver_util.h>
 
+#include "arrow/buffer.h"
+#include "arrow/compute/exec/exec_plan.h"
+#include "arrow/compute/exec/expression.h"
+#include "arrow/compute/exec/options.h"
+#include "arrow/dataset/file_base.h"
+#include "arrow/engine/substrait/expression_internal.h"
+#include "arrow/engine/substrait/extension_set.h"
+#include "arrow/engine/substrait/plan_internal.h"
+#include "arrow/engine/substrait/relation.h"
+#include "arrow/engine/substrait/relation_internal.h"
+#include "arrow/engine/substrait/type_fwd.h"
+#include "arrow/engine/substrait/type_internal.h"
+#include "arrow/type.h"
+
 namespace arrow {
 namespace engine {
 
@@ -52,6 +66,23 @@ Result<Message> ParseFromBuffer(const Buffer& buf) {
   return message;
 }
 
+Result<std::shared_ptr<Buffer>> SerializePlan(
+    const compute::Declaration& declaration, ExtensionSet* ext_set,
+    const ConversionOptions& conversion_options) {
+  ARROW_ASSIGN_OR_RAISE(auto subs_plan,
+                        PlanToProto(declaration, ext_set, conversion_options));
+  std::string serialized = subs_plan->SerializeAsString();
+  return Buffer::FromString(std::move(serialized));
+}
+
+Result<std::shared_ptr<Buffer>> SerializeRelation(
+    const compute::Declaration& declaration, ExtensionSet* ext_set,
+    const ConversionOptions& conversion_options) {
+  ARROW_ASSIGN_OR_RAISE(auto relation, ToProto(declaration, ext_set, conversion_options));
+  std::string serialized = relation->SerializeAsString();
+  return Buffer::FromString(std::move(serialized));
+}
+
 Result<compute::Declaration> DeserializeRelation(
     const Buffer& buf, const ExtensionSet& ext_set,
     const ConversionOptions& conversion_options) {
@@ -82,22 +113,6 @@ DeclarationFactory MakeConsumingSinkDeclarationFactory(
   };
 }
 
-compute::Declaration ProjectByNamesDeclaration(compute::Declaration input,
-                                               std::vector<std::string> names) {
-  int names_size = static_cast<int>(names.size());
-  if (names_size == 0) {
-    return input;
-  }
-  std::vector<compute::Expression> expressions;
-  for (int i = 0; i < names_size; i++) {
-    expressions.push_back(compute::field_ref(FieldRef(i)));
-  }
-  return compute::Declaration::Sequence(
-      {std::move(input),
-       {"project",
-        compute::ProjectNodeOptions{std::move(expressions), std::move(names)}}});
-}
-
 DeclarationFactory MakeWriteDeclarationFactory(
     const WriteOptionsFactory& write_options_factory) {
   return [&write_options_factory](
@@ -107,19 +122,36 @@ DeclarationFactory MakeWriteDeclarationFactory(
     if (options == nullptr) {
       return Status::Invalid("write options factory is exhausted");
     }
-    compute::Declaration projected = ProjectByNamesDeclaration(input, names);
     return compute::Declaration::Sequence(
-        {std::move(projected), {"write", std::move(*options)}});
+        {std::move(input), {"write", std::move(*options)}});
+  };
+}
+
+DeclarationFactory MakeNoSinkDeclarationFactory() {
+  return [](compute::Declaration input,
+            std::vector<std::string> names) -> Result<compute::Declaration> {
+    return input;
   };
 }
 
+// FIXME - Replace with actual version that includes the change
+constexpr uint32_t kMinimumMajorVersion = 0;
+constexpr uint32_t kMinimumMinorVersion = 19;
+
 Result<std::vector<compute::Declaration>> DeserializePlans(
     const Buffer& buf, DeclarationFactory declaration_factory,
     const ExtensionIdRegistry* registry, ExtensionSet* ext_set_out,
     const ConversionOptions& conversion_options) {
   ARROW_ASSIGN_OR_RAISE(auto plan, ParseFromBuffer<substrait::Plan>(buf));
 
-  ARROW_ASSIGN_OR_RAISE(auto ext_set, GetExtensionSetFromPlan(plan, registry));
+  if (plan.version().major_number() < kMinimumMajorVersion &&
+      plan.version().minor_number() < kMinimumMinorVersion) {
+    return Status::Invalid("Can only parse plans with a version >= ",
+                           kMinimumMajorVersion, ".", kMinimumMinorVersion);
+  }
+
+  ARROW_ASSIGN_OR_RAISE(auto ext_set,
+                        GetExtensionSetFromPlan(plan, conversion_options, registry));
 
   std::vector<compute::Declaration> sink_decls;
   for (const substrait::PlanRel& plan_rel : plan.relations()) {
@@ -163,6 +195,21 @@ Result<std::vector<compute::Declaration>> DeserializePlans(
                           registry, ext_set_out, conversion_options);
 }
 
+ARROW_ENGINE_EXPORT Result<compute::Declaration> DeserializePlan(
+    const Buffer& buf, const ExtensionIdRegistry* registry, ExtensionSet* ext_set_out,
+    const ConversionOptions& conversion_options) {
+  ARROW_ASSIGN_OR_RAISE(std::vector<compute::Declaration> top_level_decls,
+                        DeserializePlans(buf, MakeNoSinkDeclarationFactory(), registry,
+                                         ext_set_out, conversion_options));
+  if (top_level_decls.empty()) {
+    return Status::Invalid("No RelRoot in plan");
+  }
+  if (top_level_decls.size() != 1) {
+    return Status::Invalid("Multiple top level declarations found in Substrait plan");
+  }
+  return top_level_decls[0];
+}
+
 namespace {
 
 Result<std::shared_ptr<compute::ExecPlan>> MakeSingleDeclarationPlan(
@@ -172,7 +219,7 @@ Result<std::shared_ptr<compute::ExecPlan>> MakeSingleDeclarationPlan(
   } else {
     ARROW_ASSIGN_OR_RAISE(auto plan, compute::ExecPlan::Make());
     ARROW_RETURN_NOT_OK(declarations[0].AddToPlan(plan.get()));
-    return plan;
+    return std::move(plan);
   }
 }
 
@@ -182,17 +229,21 @@ Result<std::shared_ptr<compute::ExecPlan>> DeserializePlan(
     const Buffer& buf, const std::shared_ptr<compute::SinkNodeConsumer>& consumer,
     const ExtensionIdRegistry* registry, ExtensionSet* ext_set_out,
     const ConversionOptions& conversion_options) {
-  bool factory_done = false;
-  auto single_consumer = [&factory_done, &consumer] {
-    if (factory_done) {
-      return std::shared_ptr<compute::SinkNodeConsumer>{};
+  struct SingleConsumer {
+    std::shared_ptr<compute::SinkNodeConsumer> operator()() {
+      if (factory_done) {
+        Status::Invalid("SingleConsumer invoked more than once").Warn();
+        return std::shared_ptr<compute::SinkNodeConsumer>{};
+      }
+      factory_done = true;
+      return consumer;
     }
-    factory_done = true;
-    return consumer;
+    bool factory_done;
+    std::shared_ptr<compute::SinkNodeConsumer> consumer;
   };
-  ARROW_ASSIGN_OR_RAISE(
-      auto declarations,
-      DeserializePlans(buf, single_consumer, registry, ext_set_out, conversion_options));
+  ARROW_ASSIGN_OR_RAISE(auto declarations,
+                        DeserializePlans(buf, SingleConsumer{false, consumer}, registry,
+                                         ext_set_out, conversion_options));
   return MakeSingleDeclarationPlan(declarations);
 }
 
@@ -284,7 +335,7 @@ static Status CheckMessagesEquivalent(const Buffer& l_buf, const Buffer& r_buf)
   return Status::Invalid("Messages were not equivalent: ", out);
 }
 
-Status CheckMessagesEquivalent(util::string_view message_name, const Buffer& l_buf,
+Status CheckMessagesEquivalent(std::string_view message_name, const Buffer& l_buf,
                                const Buffer& r_buf) {
   if (message_name == "Type") {
     return CheckMessagesEquivalent<substrait::Type>(l_buf, r_buf);
@@ -326,9 +377,10 @@ inline google::protobuf::util::TypeResolver* GetGeneratedTypeResolver() {
   return type_resolver.get();
 }
 
-Result<std::shared_ptr<Buffer>> SubstraitFromJSON(util::string_view type_name,
-                                                  util::string_view json) {
-  std::string type_url = "/substrait." + type_name.to_string();
+Result<std::shared_ptr<Buffer>> SubstraitFromJSON(std::string_view type_name,
+                                                  std::string_view json,
+                                                  bool ignore_unknown_fields) {
+  std::string type_url = "/substrait." + std::string(type_name);
 
   google::protobuf::io::ArrayInputStream json_stream{json.data(),
                                                      static_cast<int>(json.size())};
@@ -336,7 +388,7 @@ Result<std::shared_ptr<Buffer>> SubstraitFromJSON(util::string_view type_name,
   std::string out;
   google::protobuf::io::StringOutputStream out_stream{&out};
   google::protobuf::util::JsonParseOptions json_opts;
-  json_opts.ignore_unknown_fields = true;
+  json_opts.ignore_unknown_fields = ignore_unknown_fields;
   auto status = google::protobuf::util::JsonToBinaryStream(
       GetGeneratedTypeResolver(), type_url, &json_stream, &out_stream,
       std::move(json_opts));
@@ -347,8 +399,8 @@ Result<std::shared_ptr<Buffer>> SubstraitFromJSON(util::string_view type_name,
   return Buffer::FromString(std::move(out));
 }
 
-Result<std::string> SubstraitToJSON(util::string_view type_name, const Buffer& buf) {
-  std::string type_url = "/substrait." + type_name.to_string();
+Result<std::string> SubstraitToJSON(std::string_view type_name, const Buffer& buf) {
+  std::string type_url = "/substrait." + std::string(type_name);
 
   google::protobuf::io::ArrayInputStream buf_stream{buf.data(),
                                                     static_cast<int>(buf.size())};
diff --git a/cpp/src/arrow/engine/substrait/serde.h b/cpp/src/arrow/engine/substrait/serde.h
index 5214606e1c8..a4e3b3df145 100644
--- a/cpp/src/arrow/engine/substrait/serde.h
+++ b/cpp/src/arrow/engine/substrait/serde.h
@@ -20,22 +20,37 @@
 #pragma once
 
 #include <functional>
+#include <memory>
 #include <string>
+#include <string_view>
 #include <vector>
 
-#include "arrow/buffer.h"
-#include "arrow/compute/exec/exec_plan.h"
-#include "arrow/compute/exec/options.h"
-#include "arrow/dataset/file_base.h"
-#include "arrow/engine/substrait/extension_set.h"
+#include "arrow/compute/type_fwd.h"
+#include "arrow/dataset/type_fwd.h"
 #include "arrow/engine/substrait/options.h"
+#include "arrow/engine/substrait/type_fwd.h"
 #include "arrow/engine/substrait/visibility.h"
 #include "arrow/result.h"
-#include "arrow/util/string_view.h"
+#include "arrow/status.h"
+#include "arrow/type_fwd.h"
+#include "arrow/util/macros.h"
 
 namespace arrow {
 namespace engine {
 
+/// \brief Serialize an Acero Plan to a binary protobuf Substrait message
+///
+/// \param[in] declaration the Acero declaration to serialize.
+/// This declaration is the sink relation of the Acero plan.
+/// \param[in,out] ext_set the extension mapping to use; may be updated to add
+/// \param[in] conversion_options options to control how the conversion is done
+///
+/// \return a buffer containing the protobuf serialization of the Acero relation
+ARROW_ENGINE_EXPORT
+Result<std::shared_ptr<Buffer>> SerializePlan(
+    const compute::Declaration& declaration, ExtensionSet* ext_set,
+    const ConversionOptions& conversion_options = {});
+
 /// Factory function type for generating the node that consumes the batches produced by
 /// each toplevel Substrait relation when deserializing a Substrait Plan.
 using ConsumerFactory = std::function<std::shared_ptr<compute::SinkNodeConsumer>()>;
@@ -75,7 +90,7 @@ ARROW_ENGINE_EXPORT Result<std::vector<compute::Declaration>> DeserializePlans(
 /// Plan is returned here.
 /// \return an ExecNode corresponding to the single toplevel relation in the Substrait
 /// Plan
-Result<std::shared_ptr<compute::ExecPlan>> DeserializePlan(
+ARROW_ENGINE_EXPORT Result<std::shared_ptr<compute::ExecPlan>> DeserializePlan(
     const Buffer& buf, const std::shared_ptr<compute::SinkNodeConsumer>& consumer,
     const ExtensionIdRegistry* registry = NULLPTR, ExtensionSet* ext_set_out = NULLPTR,
     const ConversionOptions& conversion_options = {});
@@ -124,6 +139,23 @@ ARROW_ENGINE_EXPORT Result<std::shared_ptr<compute::ExecPlan>> DeserializePlan(
     const ExtensionIdRegistry* registry = NULLPTR, ExtensionSet* ext_set_out = NULLPTR,
     const ConversionOptions& conversion_options = {});
 
+/// \brief Deserializes a Substrait Plan message to a Declaration
+///
+/// The plan will not contain any sink nodes and will be suitable for use in any
+/// of the arrow::compute::DeclarationToXyz methods.
+///
+/// \param[in] buf a buffer containing the protobuf serialization of a Substrait Plan
+/// message
+/// \param[in] registry an extension-id-registry to use, or null for the default one.
+/// \param[out] ext_set_out if non-null, the extension mapping used by the Substrait
+/// Plan is returned here.
+/// \param[in] conversion_options options to control how the conversion is to be done.
+/// \return A declaration representing the Substrait plan
+ARROW_ENGINE_EXPORT Result<compute::Declaration> DeserializePlan(
+    const Buffer& buf, const ExtensionIdRegistry* registry = NULLPTR,
+    ExtensionSet* ext_set_out = NULLPTR,
+    const ConversionOptions& conversion_options = {});
+
 /// \brief Deserializes a Substrait Type message to the corresponding Arrow type
 ///
 /// \param[in] buf a buffer containing the protobuf serialization of a Substrait Type
@@ -202,6 +234,17 @@ Result<std::shared_ptr<Buffer>> SerializeExpression(
     const compute::Expression& expr, ExtensionSet* ext_set,
     const ConversionOptions& conversion_options = {});
 
+/// \brief Serialize an Acero Declaration to a binary protobuf Substrait message
+///
+/// \param[in] declaration the Acero declaration to serialize
+/// \param[in,out] ext_set the extension mapping to use; may be updated to add
+/// \param[in] conversion_options options to control how the conversion is done
+///
+/// \return a buffer containing the protobuf serialization of the Acero relation
+ARROW_ENGINE_EXPORT Result<std::shared_ptr<Buffer>> SerializeRelation(
+    const compute::Declaration& declaration, ExtensionSet* ext_set,
+    const ConversionOptions& conversion_options = {});
+
 /// \brief Deserializes a Substrait Rel (relation) message to an ExecNode declaration
 ///
 /// \param[in] buf a buffer containing the protobuf serialization of a Substrait
@@ -227,7 +270,7 @@ namespace internal {
 /// \param[in] r_buf buffer containing the second protobuf serialization to compare
 /// \return success if equivalent, failure if not
 ARROW_ENGINE_EXPORT
-Status CheckMessagesEquivalent(util::string_view message_name, const Buffer& l_buf,
+Status CheckMessagesEquivalent(std::string_view message_name, const Buffer& l_buf,
                                const Buffer& r_buf);
 
 /// \brief Utility function to convert a JSON serialization of a Substrait message to
@@ -235,10 +278,17 @@ Status CheckMessagesEquivalent(util::string_view message_name, const Buffer& l_b
 ///
 /// \param[in] type_name the name of the Substrait message type to convert
 /// \param[in] json the JSON string to convert
+/// \param[in] ignore_unknown_fields if true then unknown fields will be ignored and
+///            will not cause an error
+///
+///            This should generally be true to allow consumption of plans from newer
+///            producers but setting to false can be useful if you are testing
+///            conformance to a specific Substrait version
 /// \return a buffer filled with the binary protobuf serialization of message
 ARROW_ENGINE_EXPORT
-Result<std::shared_ptr<Buffer>> SubstraitFromJSON(util::string_view type_name,
-                                                  util::string_view json);
+Result<std::shared_ptr<Buffer>> SubstraitFromJSON(std::string_view type_name,
+                                                  std::string_view json,
+                                                  bool ignore_unknown_fields = true);
 
 /// \brief Utility function to convert a binary protobuf serialization of a Substrait
 /// message to JSON
@@ -247,7 +297,7 @@ Result<std::shared_ptr<Buffer>> SubstraitFromJSON(util::string_view type_name,
 /// \param[in] buf the buffer containing the binary protobuf serialization of the message
 /// \return a JSON string representing the message
 ARROW_ENGINE_EXPORT
-Result<std::string> SubstraitToJSON(util::string_view type_name, const Buffer& buf);
+Result<std::string> SubstraitToJSON(std::string_view type_name, const Buffer& buf);
 
 }  // namespace internal
 }  // namespace engine
diff --git a/cpp/src/arrow/engine/substrait/serde_test.cc b/cpp/src/arrow/engine/substrait/serde_test.cc
index 3bb4de4e920..2916782fe04 100644
--- a/cpp/src/arrow/engine/substrait/serde_test.cc
+++ b/cpp/src/arrow/engine/substrait/serde_test.cc
@@ -15,23 +15,66 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include <google/protobuf/descriptor.h>
-#include <google/protobuf/util/json_util.h>
-#include <google/protobuf/util/type_resolver_util.h>
+#include <algorithm>
+#include <chrono>
+#include <cstddef>
+#include <cstdint>
+#include <optional>
+#include <type_traits>
+#include <utility>
+#include <variant>
+
+#include <gmock/gmock.h>
+#include <gtest/gtest-matchers.h>
 #include <gtest/gtest.h>
 
+#include "arrow/buffer.h"
+#include "arrow/compute/api_scalar.h"
+#include "arrow/compute/api_vector.h"
+#include "arrow/compute/exec.h"
+#include "arrow/compute/exec/asof_join_node.h"
+#include "arrow/compute/exec/exec_plan.h"
+#include "arrow/compute/exec/expression.h"
 #include "arrow/compute/exec/expression_internal.h"
+#include "arrow/compute/exec/options.h"
+#include "arrow/compute/exec/test_util.h"
+#include "arrow/compute/exec/util.h"
+#include "arrow/compute/registry.h"
+#include "arrow/compute/type_fwd.h"
+#include "arrow/dataset/dataset.h"
+#include "arrow/dataset/discovery.h"
 #include "arrow/dataset/file_base.h"
 #include "arrow/dataset/file_ipc.h"
+#include "arrow/dataset/partition.h"
 #include "arrow/dataset/plan.h"
 #include "arrow/dataset/scanner.h"
+#include "arrow/datum.h"
+#include "arrow/engine/substrait/extension_set.h"
 #include "arrow/engine/substrait/extension_types.h"
+#include "arrow/engine/substrait/options.h"
 #include "arrow/engine/substrait/serde.h"
 #include "arrow/engine/substrait/util.h"
+#include "arrow/filesystem/filesystem.h"
+#include "arrow/filesystem/localfs.h"
 #include "arrow/filesystem/mockfs.h"
 #include "arrow/filesystem/test_util.h"
+#include "arrow/io/type_fwd.h"
+#include "arrow/ipc/options.h"
+#include "arrow/ipc/writer.h"
+#include "arrow/scalar.h"
+#include "arrow/table.h"
+#include "arrow/testing/future_util.h"
 #include "arrow/testing/gtest_util.h"
 #include "arrow/testing/matchers.h"
+#include "arrow/type.h"
+#include "arrow/type_fwd.h"
+#include "arrow/util/async_generator_fwd.h"
+#include "arrow/util/checked_cast.h"
+#include "arrow/util/decimal.h"
+#include "arrow/util/future.h"
+#include "arrow/util/hash_util.h"
+#include "arrow/util/io_util.h"
+#include "arrow/util/iterator.h"
 #include "arrow/util/key_value_metadata.h"
 
 using testing::ElementsAre;
@@ -42,24 +85,29 @@ using testing::UnorderedElementsAre;
 namespace arrow {
 
 using internal::checked_cast;
-
+using internal::hash_combine;
 namespace engine {
 
-class NullSinkNodeConsumer : public compute::SinkNodeConsumer {
- public:
-  Status Init(const std::shared_ptr<Schema>&, compute::BackpressureControl*) override {
-    return Status::OK();
-  }
-  Status Consume(compute::ExecBatch exec_batch) override { return Status::OK(); }
-  Future<> Finish() override { return Status::OK(); }
-
- public:
-  static std::shared_ptr<NullSinkNodeConsumer> Make() {
-    return std::make_shared<NullSinkNodeConsumer>();
+void WriteIpcData(const std::string& path,
+                  const std::shared_ptr<fs::FileSystem> file_system,
+                  const std::shared_ptr<Table> input) {
+  EXPECT_OK_AND_ASSIGN(auto mmap, file_system->OpenOutputStream(path));
+  ASSERT_OK_AND_ASSIGN(
+      auto file_writer,
+      MakeFileWriter(mmap, input->schema(), ipc::IpcWriteOptions::Defaults()));
+  TableBatchReader reader(input);
+  std::shared_ptr<RecordBatch> batch;
+  while (true) {
+    ASSERT_OK(reader.ReadNext(&batch));
+    if (batch == nullptr) {
+      break;
+    }
+    ASSERT_OK(file_writer->WriteRecordBatch(*batch));
   }
-};
+  ASSERT_OK(file_writer->Close());
+}
 
-const auto kNullConsumer = std::make_shared<NullSinkNodeConsumer>();
+const auto kNullConsumer = std::make_shared<compute::NullSinkNodeConsumer>();
 
 const std::shared_ptr<Schema> kBoringSchema = schema({
     field("bool", boolean()),
@@ -121,12 +169,73 @@ inline compute::Expression UseBoringRefs(const compute::Expression& expr) {
   return compute::Expression{std::move(modified_call)};
 }
 
+void CheckRoundTripResult(const std::shared_ptr<Table> expected_table,
+                          std::shared_ptr<Buffer>& buf,
+                          const std::vector<int>& include_columns = {},
+                          const ConversionOptions& conversion_options = {},
+                          const compute::SortOptions* sort_options = NULLPTR) {
+  std::shared_ptr<ExtensionIdRegistry> sp_ext_id_reg = MakeExtensionIdRegistry();
+  ExtensionIdRegistry* ext_id_reg = sp_ext_id_reg.get();
+  ExtensionSet ext_set(ext_id_reg);
+  ASSERT_OK_AND_ASSIGN(auto sink_decls, DeserializePlans(
+                                            *buf, [] { return kNullConsumer; },
+                                            ext_id_reg, &ext_set, conversion_options));
+  auto& other_declrs = std::get<compute::Declaration>(sink_decls[0].inputs[0]);
+
+  ASSERT_OK_AND_ASSIGN(auto output_table,
+                       compute::DeclarationToTable(other_declrs, /*use_threads=*/false));
+
+  if (!include_columns.empty()) {
+    ASSERT_OK_AND_ASSIGN(output_table, output_table->SelectColumns(include_columns));
+  }
+  if (sort_options) {
+    ASSERT_OK_AND_ASSIGN(auto sort_indices,
+                         SortIndices(output_table, std::move(*sort_options)));
+    ASSERT_OK_AND_ASSIGN(auto maybe_table,
+                         compute::Take(output_table, std::move(sort_indices),
+                                       compute::TakeOptions::NoBoundsCheck()));
+    output_table = maybe_table.table();
+  }
+  ASSERT_OK_AND_ASSIGN(output_table, output_table->CombineChunks());
+  ASSERT_OK_AND_ASSIGN(auto merged_expected, expected_table->CombineChunks());
+  compute::AssertTablesEqualIgnoringOrder(merged_expected, output_table);
+}
+
+int CountProjectNodeOptionsInDeclarations(const compute::Declaration& input) {
+  int counter = 0;
+  if (input.factory_name == "project") {
+    counter++;
+  }
+  const auto& inputs = input.inputs;
+  for (const auto& in : inputs) {
+    counter += CountProjectNodeOptionsInDeclarations(std::get<compute::Declaration>(in));
+  }
+  return counter;
+}
+/// Validate the number of expected ProjectNodes
+///
+/// Project nodes are sometimes added by emit elements and we may want to
+/// verify that we are not adding too many
+void ValidateNumProjectNodes(int expected_projections, const std::shared_ptr<Buffer>& buf,
+                             const ConversionOptions& conversion_options) {
+  std::shared_ptr<ExtensionIdRegistry> sp_ext_id_reg = MakeExtensionIdRegistry();
+  ExtensionIdRegistry* ext_id_reg = sp_ext_id_reg.get();
+  ExtensionSet ext_set(ext_id_reg);
+  ASSERT_OK_AND_ASSIGN(auto sink_decls, DeserializePlans(
+                                            *buf, [] { return kNullConsumer; },
+                                            ext_id_reg, &ext_set, conversion_options));
+  auto& other_declrs = std::get<compute::Declaration>(sink_decls[0].inputs[0]);
+  int num_projections = CountProjectNodeOptionsInDeclarations(other_declrs);
+  ASSERT_EQ(num_projections, expected_projections);
+}
+
 TEST(Substrait, SupportedTypes) {
-  auto ExpectEq = [](util::string_view json, std::shared_ptr<DataType> expected_type) {
+  auto ExpectEq = [](std::string_view json, std::shared_ptr<DataType> expected_type) {
     ARROW_SCOPED_TRACE(json);
 
     ExtensionSet empty;
-    ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Type", json));
+    ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON(
+                                       "Type", json, /*ignore_unknown_fields=*/false));
     ASSERT_OK_AND_ASSIGN(auto type, DeserializeType(*buf, empty));
 
     EXPECT_EQ(*type, *expected_type);
@@ -204,8 +313,10 @@ TEST(Substrait, SupportedExtensionTypes) {
     ASSERT_OK_AND_ASSIGN(
         auto buf,
         internal::SubstraitFromJSON(
-            "Type", "{\"user_defined\": { \"type_reference\": " + std::to_string(anchor) +
-                        ", \"nullability\": \"NULLABILITY_NULLABLE\" } }"));
+            "Type",
+            "{\"user_defined\": { \"type_reference\": " + std::to_string(anchor) +
+                ", \"nullability\": \"NULLABILITY_NULLABLE\" } }",
+            /*ignore_unknown_fields=*/false));
 
     ASSERT_OK_AND_ASSIGN(auto type, DeserializeType(*buf, ext_set));
     EXPECT_EQ(*type, *expected_type);
@@ -222,7 +333,8 @@ TEST(Substrait, SupportedExtensionTypes) {
 TEST(Substrait, NamedStruct) {
   ExtensionSet ext_set;
 
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("NamedStruct", R"({
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("NamedStruct", R"({
     "struct": {
       "types": [
         {"i64": {}},
@@ -237,7 +349,8 @@ TEST(Substrait, NamedStruct) {
       ]
     },
     "names": ["a", "b", "c", "d", "e", "f"]
-  })"));
+  })",
+                                                   /*ignore_unknown_fields=*/false));
   ASSERT_OK_AND_ASSIGN(auto schema, DeserializeSchema(*buf, ext_set));
   Schema expected_schema({
       field("a", int64()),
@@ -258,31 +371,40 @@ TEST(Substrait, NamedStruct) {
   ASSERT_OK_AND_ASSIGN(buf, internal::SubstraitFromJSON("NamedStruct", R"({
     "struct": {"types": [{"i32": {}}, {"i32": {}}, {"i32": {}}]},
     "names": []
-  })"));
+  })",
+                                                        /*ignore_unknown_fields=*/false));
   EXPECT_THAT(DeserializeSchema(*buf, ext_set), Raises(StatusCode::Invalid));
 
   // too many names
   ASSERT_OK_AND_ASSIGN(buf, internal::SubstraitFromJSON("NamedStruct", R"({
     "struct": {"types": []},
     "names": ["a", "b", "c"]
-  })"));
+  })",
+                                                        /*ignore_unknown_fields=*/false));
   EXPECT_THAT(DeserializeSchema(*buf, ext_set), Raises(StatusCode::Invalid));
 
-  // no schema metadata allowed
-  EXPECT_THAT(SerializeSchema(Schema({}, key_value_metadata({{"ext", "yes"}})), &ext_set),
+  ConversionOptions conversion_options;
+  conversion_options.strictness = ConversionStrictness::EXACT_ROUNDTRIP;
+
+  // no schema metadata allowed with EXACT_ROUNDTRIP
+  EXPECT_THAT(SerializeSchema(Schema({}, key_value_metadata({{"ext", "yes"}})), &ext_set,
+                              conversion_options),
               Raises(StatusCode::Invalid));
 
-  // no schema metadata allowed
+  ASSERT_OK(SerializeSchema(Schema({}, key_value_metadata({{"ext", "yes"}})), &ext_set));
+
+  // no field metadata allowed with EXACT_ROUNDTRIP
   EXPECT_THAT(
       SerializeSchema(Schema({field("a", int32(), key_value_metadata({{"ext", "yes"}}))}),
-                      &ext_set),
+                      &ext_set, conversion_options),
       Raises(StatusCode::Invalid));
 }
 
 TEST(Substrait, NoEquivalentArrowType) {
   ASSERT_OK_AND_ASSIGN(
       auto buf,
-      internal::SubstraitFromJSON("Type", R"({"user_defined": {"type_reference": 99}})"));
+      internal::SubstraitFromJSON("Type", R"({"user_defined": {"type_reference": 99}})",
+                                  /*ignore_unknown_fields=*/false));
   ExtensionSet empty;
   ASSERT_THAT(
       DeserializeType(*buf, empty),
@@ -320,25 +442,37 @@ TEST(Substrait, NoEquivalentSubstraitType) {
 }
 
 TEST(Substrait, SupportedLiterals) {
-  auto ExpectEq = [](util::string_view json, Datum expected_value) {
+  auto ExpectEq = [](std::string_view json, Datum expected_value) {
     ARROW_SCOPED_TRACE(json);
+    for (bool nullable : {false, true}) {
+      std::string json_with_nullable;
+      if (nullable) {
+        auto final_closing_brace = json.find_last_of('}');
+        ASSERT_NE(std::string_view::npos, final_closing_brace);
+        json_with_nullable =
+            std::string(json.substr(0, final_closing_brace)) + ", \"nullable\": true}";
+        json = json_with_nullable;
+      }
+      ASSERT_OK_AND_ASSIGN(
+          auto buf, internal::SubstraitFromJSON("Expression",
+                                                "{\"literal\":" + std::string(json) + "}",
+                                                /*ignore_unknown_fields=*/false));
+      ExtensionSet ext_set;
+      ASSERT_OK_AND_ASSIGN(auto expr, DeserializeExpression(*buf, ext_set));
 
-    ASSERT_OK_AND_ASSIGN(
-        auto buf, internal::SubstraitFromJSON("Expression",
-                                              "{\"literal\":" + json.to_string() + "}"));
-    ExtensionSet ext_set;
-    ASSERT_OK_AND_ASSIGN(auto expr, DeserializeExpression(*buf, ext_set));
-
-    ASSERT_TRUE(expr.literal());
-    ASSERT_THAT(*expr.literal(), DataEq(expected_value));
+      ASSERT_TRUE(expr.literal());
+      ASSERT_THAT(*expr.literal(), DataEq(expected_value));
 
-    ASSERT_OK_AND_ASSIGN(auto serialized, SerializeExpression(expr, &ext_set));
-    EXPECT_EQ(ext_set.num_functions(), 0);  // shouldn't need extensions for core literals
+      ASSERT_OK_AND_ASSIGN(auto serialized, SerializeExpression(expr, &ext_set));
+      EXPECT_EQ(ext_set.num_functions(),
+                0);  // shouldn't need extensions for core literals
 
-    ASSERT_OK_AND_ASSIGN(auto roundtripped, DeserializeExpression(*serialized, ext_set));
+      ASSERT_OK_AND_ASSIGN(auto roundtripped,
+                           DeserializeExpression(*serialized, ext_set));
 
-    ASSERT_TRUE(roundtripped.literal());
-    ASSERT_THAT(*roundtripped.literal(), DataEq(expected_value));
+      ASSERT_TRUE(roundtripped.literal());
+      ASSERT_THAT(*roundtripped.literal(), DataEq(expected_value));
+    }
   };
 
   ExpectEq(R"({"boolean": true})", Datum(true));
@@ -433,16 +567,21 @@ TEST(Substrait, CannotDeserializeLiteral) {
   // Invalid: missing List.element_type
   ASSERT_OK_AND_ASSIGN(
       auto buf, internal::SubstraitFromJSON("Expression",
-                                            R"({"literal": {"list": {"values": []}}})"));
+                                            R"({"literal": {"list": {"values": []}}})",
+                                            /*ignore_unknown_fields=*/false));
   EXPECT_THAT(DeserializeExpression(*buf, ext_set), Raises(StatusCode::Invalid));
 
-  // Invalid: required null literal
+  // Invalid: required null literal if in strict mode
+  ConversionOptions conversion_options;
+  conversion_options.strictness = ConversionStrictness::EXACT_ROUNDTRIP;
   ASSERT_OK_AND_ASSIGN(
       buf,
       internal::SubstraitFromJSON(
           "Expression",
-          R"({"literal": {"null": {"bool": {"nullability": "NULLABILITY_REQUIRED"}}}})"));
-  EXPECT_THAT(DeserializeExpression(*buf, ext_set), Raises(StatusCode::Invalid));
+          R"({"literal": {"null": {"bool": {"nullability": "NULLABILITY_REQUIRED"}}}})",
+          /*ignore_unknown_fields=*/false));
+  EXPECT_THAT(DeserializeExpression(*buf, ext_set, conversion_options),
+              Raises(StatusCode::Invalid));
 
   // no equivalent arrow scalar
   // FIXME no way to specify scalars of user_defined_type_reference
@@ -489,7 +628,8 @@ TEST(Substrait, RecursiveFieldRef) {
   ASSERT_OK_AND_ASSIGN(auto expr, compute::field_ref(ref).Bind(*kBoringSchema));
   ExtensionSet ext_set;
   ASSERT_OK_AND_ASSIGN(auto serialized, SerializeExpression(expr, &ext_set));
-  ASSERT_OK_AND_ASSIGN(auto expected, internal::SubstraitFromJSON("Expression", R"({
+  ASSERT_OK_AND_ASSIGN(auto expected,
+                       internal::SubstraitFromJSON("Expression", R"({
     "selection": {
       "directReference": {
         "structField": {
@@ -503,7 +643,8 @@ TEST(Substrait, RecursiveFieldRef) {
       },
       "rootReference": {}
     }
-  })"));
+  })",
+                                                   /*ignore_unknown_fields=*/false));
   ASSERT_OK(internal::CheckMessagesEquivalent("Expression", *serialized, *expected));
 }
 
@@ -521,7 +662,8 @@ TEST(Substrait, FieldRefsInExpressions) {
 
   ExtensionSet ext_set;
   ASSERT_OK_AND_ASSIGN(auto serialized, SerializeExpression(expr, &ext_set));
-  ASSERT_OK_AND_ASSIGN(auto expected, internal::SubstraitFromJSON("Expression", R"({
+  ASSERT_OK_AND_ASSIGN(auto expected,
+                       internal::SubstraitFromJSON("Expression", R"({
     "selection": {
       "directReference": {
         "structField": {
@@ -540,7 +682,8 @@ TEST(Substrait, FieldRefsInExpressions) {
         }
       }
     }
-  })"));
+  })",
+                                                   /*ignore_unknown_fields=*/false));
   ASSERT_OK(internal::CheckMessagesEquivalent("Expression", *serialized, *expected));
 }
 
@@ -631,7 +774,8 @@ TEST(Substrait, CallExtensionFunction) {
 }
 
 TEST(Substrait, ReadRel) {
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Rel", R"({
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Rel", R"({
     "read": {
       "base_schema": {
         "struct": {
@@ -661,7 +805,8 @@ TEST(Substrait, ReadRel) {
         ]
       }
     }
-  })"));
+  })",
+                                                   /*ignore_unknown_fields=*/false));
   ExtensionSet ext_set;
   ASSERT_OK_AND_ASSIGN(auto rel, DeserializeRelation(*buf, ext_set));
 
@@ -683,8 +828,51 @@ TEST(Substrait, ReadRel) {
   EXPECT_EQ(*dataset.schema(), Schema({field("i", int64()), field("b", boolean())}));
 }
 
+/// \brief Create a NamedTableProvider that provides `table` regardless of the name
+NamedTableProvider AlwaysProvideSameTable(std::shared_ptr<Table> table) {
+  return [table = std::move(table)](const std::vector<std::string>&) {
+    std::shared_ptr<compute::ExecNodeOptions> options =
+        std::make_shared<compute::TableSourceNodeOptions>(table);
+    return compute::Declaration("table_source", {}, options, "mock_source");
+  };
+}
+
+TEST(Substrait, RelWithHint) {
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Rel", R"({
+    "read": {
+      "common": {
+        "hint": {
+          "stats": {
+            "row_count": 1
+          }
+        },
+        "direct": { }
+      },
+      "base_schema": {
+        "struct": {
+          "types": [ {"i64": {}}, {"bool": {}} ]
+        },
+        "names": ["i", "b"]
+      },
+      "named_table": { "names": [ "foo" ] }
+    }
+  })",
+                                                   /*ignore_unknown_fields=*/false));
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = AlwaysProvideSameTable(nullptr);
+
+  ExtensionSet ext_set;
+  ASSERT_OK_AND_ASSIGN(auto rel, DeserializeRelation(*buf, ext_set, conversion_options));
+
+  conversion_options.strictness = ConversionStrictness::EXACT_ROUNDTRIP;
+  ASSERT_RAISES(NotImplemented, DeserializeRelation(*buf, ext_set, conversion_options));
+}
+
 TEST(Substrait, ExtensionSetFromPlan) {
   std::string substrait_json = R"({
+    "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
     "relations": [
       {"rel": {
         "read": {
@@ -701,7 +889,12 @@ TEST(Substrait, ExtensionSetFromPlan) {
     "extension_uris": [
       {
         "extension_uri_anchor": 7,
-        "uri": ")" + substrait::default_extension_types_uri() +
+        "uri": ")" + default_extension_types_uri() +
+                               R"("
+      },
+      {
+        "extension_uri_anchor": 18,
+        "uri": ")" + kSubstraitArithmeticFunctionsUri +
                                R"("
       }
     ],
@@ -712,15 +905,17 @@ TEST(Substrait, ExtensionSetFromPlan) {
         "name": "null"
       }},
       {"extension_function": {
-        "extension_uri_reference": 7,
+        "extension_uri_reference": 18,
         "function_anchor": 42,
         "name": "add"
       }}
     ]
-  })";
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", substrait_json));
+})";
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
   for (auto sp_ext_id_reg :
-       {std::shared_ptr<ExtensionIdRegistry>(), substrait::MakeExtensionIdRegistry()}) {
+       {std::shared_ptr<ExtensionIdRegistry>(), MakeExtensionIdRegistry()}) {
     ExtensionIdRegistry* ext_id_reg = sp_ext_id_reg.get();
     ExtensionSet ext_set(ext_id_reg);
     ASSERT_OK_AND_ASSIGN(auto sink_decls,
@@ -732,10 +927,9 @@ TEST(Substrait, ExtensionSetFromPlan) {
     EXPECT_EQ(decoded_null_type.id.name, "null");
     EXPECT_EQ(*decoded_null_type.type, NullType());
 
-    EXPECT_OK_AND_ASSIGN(auto decoded_add_func, ext_set.DecodeFunction(42));
-    EXPECT_EQ(decoded_add_func.id.uri, kArrowExtTypesUri);
-    EXPECT_EQ(decoded_add_func.id.name, "add");
-    EXPECT_EQ(decoded_add_func.name, "add");
+    EXPECT_OK_AND_ASSIGN(Id decoded_add_func_id, ext_set.DecodeFunction(42));
+    EXPECT_EQ(decoded_add_func_id.uri, kSubstraitArithmeticFunctionsUri);
+    EXPECT_EQ(decoded_add_func_id.name, "add");
   }
 }
 
@@ -745,7 +939,7 @@ TEST(Substrait, ExtensionSetFromPlanMissingFunc) {
     "extension_uris": [
       {
         "extension_uri_anchor": 7,
-        "uri": ")" + substrait::default_extension_types_uri() +
+        "uri": ")" + default_extension_types_uri() +
                                R"("
       }
     ],
@@ -757,14 +951,21 @@ TEST(Substrait, ExtensionSetFromPlanMissingFunc) {
       }}
     ]
   })";
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", substrait_json));
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
 
   for (auto sp_ext_id_reg :
-       {std::shared_ptr<ExtensionIdRegistry>(), substrait::MakeExtensionIdRegistry()}) {
+       {std::shared_ptr<ExtensionIdRegistry>(), MakeExtensionIdRegistry()}) {
     ExtensionIdRegistry* ext_id_reg = sp_ext_id_reg.get();
     ExtensionSet ext_set(ext_id_reg);
-    ASSERT_RAISES(Invalid, DeserializePlans(
-                               *buf, [] { return kNullConsumer; }, ext_id_reg, &ext_set));
+    // Since the function is not referenced this plan is ok unless we are asking for
+    // strict conversion.
+    ConversionOptions options;
+    options.strictness = ConversionStrictness::EXACT_ROUNDTRIP;
+    ASSERT_RAISES(Invalid,
+                  DeserializePlans(
+                      *buf, [] { return kNullConsumer; }, ext_id_reg, &ext_set, options));
   }
 }
 
@@ -786,7 +987,7 @@ TEST(Substrait, ExtensionSetFromPlanExhaustedFactory) {
     "extension_uris": [
       {
         "extension_uri_anchor": 7,
-        "uri": ")" + substrait::default_extension_types_uri() +
+        "uri": ")" + default_extension_types_uri() +
                                R"("
       }
     ],
@@ -798,10 +999,12 @@ TEST(Substrait, ExtensionSetFromPlanExhaustedFactory) {
       }}
     ]
   })";
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", substrait_json));
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
 
   for (auto sp_ext_id_reg :
-       {std::shared_ptr<ExtensionIdRegistry>(), substrait::MakeExtensionIdRegistry()}) {
+       {std::shared_ptr<ExtensionIdRegistry>(), MakeExtensionIdRegistry()}) {
     ExtensionIdRegistry* ext_id_reg = sp_ext_id_reg.get();
     ExtensionSet ext_set(ext_id_reg);
     ASSERT_RAISES(
@@ -819,11 +1022,12 @@ TEST(Substrait, ExtensionSetFromPlanExhaustedFactory) {
 
 TEST(Substrait, ExtensionSetFromPlanRegisterFunc) {
   std::string substrait_json = R"({
+    "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
     "relations": [],
     "extension_uris": [
       {
         "extension_uri_anchor": 7,
-        "uri": ")" + substrait::default_extension_types_uri() +
+        "uri": ")" + default_extension_types_uri() +
                                R"("
       }
     ],
@@ -835,26 +1039,30 @@ TEST(Substrait, ExtensionSetFromPlanRegisterFunc) {
       }}
     ]
   })";
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", substrait_json));
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
 
-  auto sp_ext_id_reg = substrait::MakeExtensionIdRegistry();
+  auto sp_ext_id_reg = MakeExtensionIdRegistry();
   ExtensionIdRegistry* ext_id_reg = sp_ext_id_reg.get();
   // invalid before registration
   ExtensionSet ext_set_invalid(ext_id_reg);
-  ASSERT_RAISES(Invalid,
-                DeserializePlans(
-                    *buf, [] { return kNullConsumer; }, ext_id_reg, &ext_set_invalid));
-  ASSERT_OK(substrait::RegisterFunction(
-      *ext_id_reg, substrait::default_extension_types_uri(), "new_func", "multiply"));
+  ConversionOptions conversion_options;
+  conversion_options.strictness = ConversionStrictness::EXACT_ROUNDTRIP;
+  ASSERT_RAISES(Invalid, DeserializePlans(
+                             *buf, [] { return kNullConsumer; }, ext_id_reg,
+                             &ext_set_invalid, conversion_options));
+  ASSERT_OK(ext_id_reg->AddSubstraitCallToArrow(
+      {default_extension_types_uri(), "new_func"}, "multiply"));
   // valid after registration
   ExtensionSet ext_set_valid(ext_id_reg);
-  ASSERT_OK_AND_ASSIGN(auto sink_decls, DeserializePlans(
-                                            *buf, [] { return kNullConsumer; },
-                                            ext_id_reg, &ext_set_valid));
-  EXPECT_OK_AND_ASSIGN(auto decoded_add_func, ext_set_valid.DecodeFunction(42));
-  EXPECT_EQ(decoded_add_func.id.uri, kArrowExtTypesUri);
-  EXPECT_EQ(decoded_add_func.id.name, "new_func");
-  EXPECT_EQ(decoded_add_func.name, "multiply");
+  ASSERT_OK_AND_ASSIGN(auto sink_decls,
+                       DeserializePlans(
+                           *buf, [] { return kNullConsumer; }, ext_id_reg, &ext_set_valid,
+                           conversion_options));
+  EXPECT_OK_AND_ASSIGN(Id decoded_add_func_id, ext_set_valid.DecodeFunction(42));
+  EXPECT_EQ(decoded_add_func_id.uri, kArrowExtTypesUri);
+  EXPECT_EQ(decoded_add_func_id.name, "new_func");
 }
 
 Result<std::string> GetSubstraitJSON() {
@@ -863,7 +1071,9 @@ Result<std::string> GetSubstraitJSON() {
   auto file_name =
       arrow::internal::PlatformFilename::FromString(dir_string)->Join("binary.parquet");
   auto file_path = file_name->ToString();
+
   std::string substrait_json = R"({
+    "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
     "relations": [
       {"rel": {
         "read": {
@@ -896,13 +1106,10 @@ Result<std::string> GetSubstraitJSON() {
 }
 
 TEST(Substrait, DeserializeWithConsumerFactory) {
-#ifdef _WIN32
-  GTEST_SKIP() << "ARROW-16392: Substrait File URI not supported for Windows";
-#else
   ASSERT_OK_AND_ASSIGN(std::string substrait_json, GetSubstraitJSON());
-  ASSERT_OK_AND_ASSIGN(auto buf, substrait::SerializeJsonPlan(substrait_json));
+  ASSERT_OK_AND_ASSIGN(auto buf, SerializeJsonPlan(substrait_json));
   ASSERT_OK_AND_ASSIGN(auto declarations,
-                       DeserializePlans(*buf, NullSinkNodeConsumer::Make));
+                       DeserializePlans(*buf, compute::NullSinkNodeConsumer::Make));
   ASSERT_EQ(declarations.size(), 1);
   compute::Declaration* decl = &declarations[0];
   ASSERT_EQ(decl->factory_name, "consuming_sink");
@@ -915,17 +1122,13 @@ TEST(Substrait, DeserializeWithConsumerFactory) {
 
   ASSERT_OK(plan->StartProducing());
   ASSERT_FINISHES_OK(plan->finished());
-#endif
 }
 
 TEST(Substrait, DeserializeSinglePlanWithConsumerFactory) {
-#ifdef _WIN32
-  GTEST_SKIP() << "ARROW-16392: Substrait File URI not supported for Windows";
-#else
   ASSERT_OK_AND_ASSIGN(std::string substrait_json, GetSubstraitJSON());
-  ASSERT_OK_AND_ASSIGN(auto buf, substrait::SerializeJsonPlan(substrait_json));
+  ASSERT_OK_AND_ASSIGN(auto buf, SerializeJsonPlan(substrait_json));
   ASSERT_OK_AND_ASSIGN(std::shared_ptr<compute::ExecPlan> plan,
-                       DeserializePlan(*buf, NullSinkNodeConsumer::Make()));
+                       DeserializePlan(*buf, compute::NullSinkNodeConsumer::Make()));
   ASSERT_EQ(1, plan->sinks().size());
   compute::ExecNode* sink_node = plan->sinks()[0];
   ASSERT_STREQ(sink_node->kind_name(), "ConsumingSinkNode");
@@ -935,13 +1138,9 @@ TEST(Substrait, DeserializeSinglePlanWithConsumerFactory) {
 
   ASSERT_OK(plan->StartProducing());
   ASSERT_FINISHES_OK(plan->finished());
-#endif
 }
 
 TEST(Substrait, DeserializeWithWriteOptionsFactory) {
-#ifdef _WIN32
-  GTEST_SKIP() << "ARROW-16392: Substrait File URI not supported for Windows";
-#else
   dataset::internal::Initialize();
   fs::TimePoint mock_now = std::chrono::system_clock::now();
   fs::FileInfo testdir = ::arrow::fs::Dir("testdir");
@@ -960,13 +1159,13 @@ TEST(Substrait, DeserializeWithWriteOptionsFactory) {
     return std::make_shared<dataset::WriteNodeOptions>(options);
   };
   ASSERT_OK_AND_ASSIGN(std::string substrait_json, GetSubstraitJSON());
-  ASSERT_OK_AND_ASSIGN(auto buf, substrait::SerializeJsonPlan(substrait_json));
+  ASSERT_OK_AND_ASSIGN(auto buf, SerializeJsonPlan(substrait_json));
   ASSERT_OK_AND_ASSIGN(auto declarations, DeserializePlans(*buf, write_options_factory));
   ASSERT_EQ(declarations.size(), 1);
   compute::Declaration* decl = &declarations[0];
   ASSERT_EQ(decl->factory_name, "write");
   ASSERT_EQ(decl->inputs.size(), 1);
-  decl = util::get_if<compute::Declaration>(&decl->inputs[0]);
+  decl = std::get_if<compute::Declaration>(&decl->inputs[0]);
   ASSERT_NE(decl, nullptr);
   ASSERT_EQ(decl->factory_name, "scan");
   ASSERT_OK_AND_ASSIGN(auto plan, compute::ExecPlan::Make());
@@ -978,13 +1177,12 @@ TEST(Substrait, DeserializeWithWriteOptionsFactory) {
 
   ASSERT_OK(plan->StartProducing());
   ASSERT_FINISHES_OK(plan->finished());
-#endif
 }
 
 static void test_with_registries(
     std::function<void(ExtensionIdRegistry*, compute::FunctionRegistry*)> test) {
   auto default_func_reg = compute::GetFunctionRegistry();
-  auto nested_ext_id_reg = substrait::MakeExtensionIdRegistry();
+  auto nested_ext_id_reg = MakeExtensionIdRegistry();
   auto nested_func_reg = compute::FunctionRegistry::Make(default_func_reg);
   test(nullptr, default_func_reg);
   test(nullptr, nested_func_reg.get());
@@ -993,36 +1191,59 @@ static void test_with_registries(
 }
 
 TEST(Substrait, GetRecordBatchReader) {
-#ifdef _WIN32
-  GTEST_SKIP() << "ARROW-16392: Substrait File URI not supported for Windows";
-#else
   ASSERT_OK_AND_ASSIGN(std::string substrait_json, GetSubstraitJSON());
   test_with_registries([&substrait_json](ExtensionIdRegistry* ext_id_reg,
                                          compute::FunctionRegistry* func_registry) {
-    ASSERT_OK_AND_ASSIGN(auto buf, substrait::SerializeJsonPlan(substrait_json));
-    ASSERT_OK_AND_ASSIGN(auto reader, substrait::ExecuteSerializedPlan(*buf));
+    ASSERT_OK_AND_ASSIGN(auto buf, SerializeJsonPlan(substrait_json));
+    ASSERT_OK_AND_ASSIGN(auto reader, ExecuteSerializedPlan(*buf));
     ASSERT_OK_AND_ASSIGN(auto table, Table::FromRecordBatchReader(reader.get()));
     // Note: assuming the binary.parquet file contains fixed amount of records
     // in case of a test failure, re-evalaute the content in the file
     EXPECT_EQ(table->num_rows(), 12);
   });
-#endif
 }
 
 TEST(Substrait, InvalidPlan) {
   std::string substrait_json = R"({
+    "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
     "relations": [
     ]
   })";
   test_with_registries([&substrait_json](ExtensionIdRegistry* ext_id_reg,
                                          compute::FunctionRegistry* func_registry) {
-    ASSERT_OK_AND_ASSIGN(auto buf, substrait::SerializeJsonPlan(substrait_json));
-    ASSERT_RAISES(Invalid, substrait::ExecuteSerializedPlan(*buf));
+    ASSERT_OK_AND_ASSIGN(auto buf, SerializeJsonPlan(substrait_json));
+    ASSERT_RAISES(Invalid, ExecuteSerializedPlan(*buf));
   });
 }
 
+TEST(Substrait, InvalidMinimumVersion) {
+  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", R"({
+    "version": { "major_number": 0, "minor_number": 18, "patch_number": 0 },
+    "relations": [{
+      "rel": {
+        "read": {
+          "base_schema": {
+            "names": ["A"],
+            "struct": {
+              "types": [{
+                "i32": {}
+              }]
+            }
+          },
+          "named_table": { "names": ["x"] }
+        }
+      }
+    }],
+    "extensionUris": [],
+    "extensions": [],
+  })"));
+
+  ASSERT_RAISES(Invalid, DeserializePlans(*buf, [] { return kNullConsumer; }));
+}
+
 TEST(Substrait, JoinPlanBasic) {
   std::string substrait_json = R"({
+  "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
   "relations": [{
     "rel": {
       "join": {
@@ -1101,7 +1322,10 @@ TEST(Substrait, JoinPlanBasic) {
                   }
                 }
               }
-            }]
+            }],
+            "output_type": {
+              "bool": {}
+            }
           }
         },
         "type": "JOIN_TYPE_INNER"
@@ -1111,7 +1335,7 @@ TEST(Substrait, JoinPlanBasic) {
   "extension_uris": [
       {
         "extension_uri_anchor": 0,
-        "uri": ")" + substrait::default_extension_types_uri() +
+        "uri": ")" + std::string(kSubstraitComparisonFunctionsUri) +
                                R"("
       }
     ],
@@ -1123,9 +1347,11 @@ TEST(Substrait, JoinPlanBasic) {
       }}
     ]
   })";
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", substrait_json));
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
   for (auto sp_ext_id_reg :
-       {std::shared_ptr<ExtensionIdRegistry>(), substrait::MakeExtensionIdRegistry()}) {
+       {std::shared_ptr<ExtensionIdRegistry>(), MakeExtensionIdRegistry()}) {
     ExtensionIdRegistry* ext_id_reg = sp_ext_id_reg.get();
     ExtensionSet ext_set(ext_id_reg);
     ASSERT_OK_AND_ASSIGN(auto sink_decls,
@@ -1134,21 +1360,21 @@ TEST(Substrait, JoinPlanBasic) {
 
     auto join_decl = sink_decls[0].inputs[0];
 
-    const auto& join_rel = join_decl.get<compute::Declaration>();
+    const auto& join_rel = std::get<compute::Declaration>(join_decl);
 
     const auto& join_options =
-        checked_cast<const compute::HashJoinNodeOptions&>(*join_rel->options);
+        checked_cast<const compute::HashJoinNodeOptions&>(*join_rel.options);
 
-    EXPECT_EQ(join_rel->factory_name, "hashjoin");
+    EXPECT_EQ(join_rel.factory_name, "hashjoin");
     EXPECT_EQ(join_options.join_type, compute::JoinType::INNER);
 
-    const auto& left_rel = join_rel->inputs[0].get<compute::Declaration>();
-    const auto& right_rel = join_rel->inputs[1].get<compute::Declaration>();
+    const auto& left_rel = std::get<compute::Declaration>(join_rel.inputs[0]);
+    const auto& right_rel = std::get<compute::Declaration>(join_rel.inputs[1]);
 
     const auto& l_options =
-        checked_cast<const dataset::ScanNodeOptions&>(*left_rel->options);
+        checked_cast<const dataset::ScanNodeOptions&>(*left_rel.options);
     const auto& r_options =
-        checked_cast<const dataset::ScanNodeOptions&>(*right_rel->options);
+        checked_cast<const dataset::ScanNodeOptions&>(*right_rel.options);
 
     AssertSchemaEqual(
         l_options.dataset->schema(),
@@ -1163,6 +1389,7 @@ TEST(Substrait, JoinPlanBasic) {
 
 TEST(Substrait, JoinPlanInvalidKeyCmp) {
   std::string substrait_json = R"({
+  "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
   "relations": [{
     "rel": {
       "join": {
@@ -1241,7 +1468,10 @@ TEST(Substrait, JoinPlanInvalidKeyCmp) {
                   }
                 }
               }
-            }]
+            }],
+            "output_type": {
+              "bool": {}
+            }
           }
         },
         "type": "JOIN_TYPE_INNER"
@@ -1251,7 +1481,7 @@ TEST(Substrait, JoinPlanInvalidKeyCmp) {
   "extension_uris": [
       {
         "extension_uri_anchor": 0,
-        "uri": ")" + substrait::default_extension_types_uri() +
+        "uri": ")" + std::string(kSubstraitArithmeticFunctionsUri) +
                                R"("
       }
     ],
@@ -1263,9 +1493,11 @@ TEST(Substrait, JoinPlanInvalidKeyCmp) {
       }}
     ]
   })";
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", substrait_json));
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
   for (auto sp_ext_id_reg :
-       {std::shared_ptr<ExtensionIdRegistry>(), substrait::MakeExtensionIdRegistry()}) {
+       {std::shared_ptr<ExtensionIdRegistry>(), MakeExtensionIdRegistry()}) {
     ExtensionIdRegistry* ext_id_reg = sp_ext_id_reg.get();
     ExtensionSet ext_set(ext_id_reg);
     ASSERT_RAISES(Invalid, DeserializePlans(
@@ -1274,7 +1506,9 @@ TEST(Substrait, JoinPlanInvalidKeyCmp) {
 }
 
 TEST(Substrait, JoinPlanInvalidExpression) {
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", R"({
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", R"({
+  "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
   "relations": [{
     "rel": {
       "join": {
@@ -1331,9 +1565,10 @@ TEST(Substrait, JoinPlanInvalidExpression) {
       }
     }
   }]
-  })"));
+  })",
+                                                   /*ignore_unknown_fields=*/false));
   for (auto sp_ext_id_reg :
-       {std::shared_ptr<ExtensionIdRegistry>(), substrait::MakeExtensionIdRegistry()}) {
+       {std::shared_ptr<ExtensionIdRegistry>(), MakeExtensionIdRegistry()}) {
     ExtensionIdRegistry* ext_id_reg = sp_ext_id_reg.get();
     ExtensionSet ext_set(ext_id_reg);
     ASSERT_RAISES(Invalid, DeserializePlans(
@@ -1343,6 +1578,7 @@ TEST(Substrait, JoinPlanInvalidExpression) {
 
 TEST(Substrait, JoinPlanInvalidKeys) {
   ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", R"({
+  "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
   "relations": [{
     "rel": {
       "join": {
@@ -1406,7 +1642,7 @@ TEST(Substrait, JoinPlanInvalidKeys) {
   }]
   })"));
   for (auto sp_ext_id_reg :
-       {std::shared_ptr<ExtensionIdRegistry>(), substrait::MakeExtensionIdRegistry()}) {
+       {std::shared_ptr<ExtensionIdRegistry>(), MakeExtensionIdRegistry()}) {
     ExtensionIdRegistry* ext_id_reg = sp_ext_id_reg.get();
     ExtensionSet ext_set(ext_id_reg);
     ASSERT_RAISES(Invalid, DeserializePlans(
@@ -1415,7 +1651,9 @@ TEST(Substrait, JoinPlanInvalidKeys) {
 }
 
 TEST(Substrait, AggregateBasic) {
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", R"({
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", R"({
+    "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
     "relations": [{
       "rel": {
         "aggregate": {
@@ -1480,34 +1718,37 @@ TEST(Substrait, AggregateBasic) {
     }],
     "extensionUris": [{
       "extension_uri_anchor": 0,
-      "uri": "https://github.com/apache/arrow/blob/master/format/substrait/extension_types.yaml"
+      "uri": "https://github.com/substrait-io/substrait/blob/main/extensions/functions_arithmetic.yaml"
     }],
     "extensions": [{
       "extension_function": {
         "extension_uri_reference": 0,
         "function_anchor": 0,
-        "name": "hash_count"
+        "name": "sum"
       }
     }],
-  })"));
+  })",
+                                                   /*ignore_unknown_fields=*/false));
 
-  auto sp_ext_id_reg = substrait::MakeExtensionIdRegistry();
+  auto sp_ext_id_reg = MakeExtensionIdRegistry();
   ASSERT_OK_AND_ASSIGN(auto sink_decls,
                        DeserializePlans(*buf, [] { return kNullConsumer; }));
   auto agg_decl = sink_decls[0].inputs[0];
 
-  const auto& agg_rel = agg_decl.get<compute::Declaration>();
+  const auto& agg_rel = std::get<compute::Declaration>(agg_decl);
 
   const auto& agg_options =
-      checked_cast<const compute::AggregateNodeOptions&>(*agg_rel->options);
+      checked_cast<const compute::AggregateNodeOptions&>(*agg_rel.options);
 
-  EXPECT_EQ(agg_rel->factory_name, "aggregate");
+  EXPECT_EQ(agg_rel.factory_name, "aggregate");
   EXPECT_EQ(agg_options.aggregates[0].name, "");
-  EXPECT_EQ(agg_options.aggregates[0].function, "hash_count");
+  EXPECT_EQ(agg_options.aggregates[0].function, "hash_sum");
 }
 
 TEST(Substrait, AggregateInvalidRel) {
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", R"({
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", R"({
+    "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
     "relations": [{
       "rel": {
         "aggregate": {
@@ -1516,22 +1757,25 @@ TEST(Substrait, AggregateInvalidRel) {
     }],
     "extensionUris": [{
       "extension_uri_anchor": 0,
-      "uri": "https://github.com/apache/arrow/blob/master/format/substrait/extension_types.yaml"
+      "uri": "https://github.com/substrait-io/substrait/blob/main/extensions/functions_arithmetic.yaml"
     }],
     "extensions": [{
       "extension_function": {
         "extension_uri_reference": 0,
         "function_anchor": 0,
-        "name": "hash_count"
+        "name": "sum"
       }
     }],
-  })"));
+  })",
+                                                   /*ignore_unknown_fields=*/false));
 
   ASSERT_RAISES(Invalid, DeserializePlans(*buf, [] { return kNullConsumer; }));
 }
 
 TEST(Substrait, AggregateInvalidFunction) {
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", R"({
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", R"({
+    "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
     "relations": [{
       "rel": {
         "aggregate": {
@@ -1577,22 +1821,25 @@ TEST(Substrait, AggregateInvalidFunction) {
     }],
     "extensionUris": [{
       "extension_uri_anchor": 0,
-      "uri": "https://github.com/apache/arrow/blob/master/format/substrait/extension_types.yaml"
+      "uri": "https://github.com/substrait-io/substrait/blob/main/extensions/functions_arithmetic.yaml"
     }],
     "extensions": [{
       "extension_function": {
         "extension_uri_reference": 0,
         "function_anchor": 0,
-        "name": "hash_count"
+        "name": "sum"
       }
     }],
-  })"));
+  })",
+                                                   /*ignore_unknown_fields=*/false));
 
   ASSERT_RAISES(Invalid, DeserializePlans(*buf, [] { return kNullConsumer; }));
 }
 
 TEST(Substrait, AggregateInvalidAggFuncArgs) {
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", R"({
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", R"({
+    "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
     "relations": [{
       "rel": {
         "aggregate": {
@@ -1634,9 +1881,10 @@ TEST(Substrait, AggregateInvalidAggFuncArgs) {
           "measures": [{
             "measure": {
               "functionReference": 0,
-              "args": [],
+              "arguments": [],
               "sorts": [],
               "phase": "AGGREGATION_PHASE_INITIAL_TO_RESULT",
+              "invocation": "AGGREGATION_INVOCATION_ALL",
               "outputType": {
                 "i64": {}
               }
@@ -1647,22 +1895,25 @@ TEST(Substrait, AggregateInvalidAggFuncArgs) {
     }],
     "extensionUris": [{
       "extension_uri_anchor": 0,
-      "uri": "https://github.com/apache/arrow/blob/master/format/substrait/extension_types.yaml"
+      "uri": "https://github.com/substrait-io/substrait/blob/main/extensions/functions_arithmetic.yaml"
     }],
     "extensions": [{
       "extension_function": {
         "extension_uri_reference": 0,
         "function_anchor": 0,
-        "name": "hash_count"
+        "name": "sum"
       }
     }],
-  })"));
+  })",
+                                                   /*ignore_unknown_fields=*/false));
 
   ASSERT_RAISES(NotImplemented, DeserializePlans(*buf, [] { return kNullConsumer; }));
 }
 
 TEST(Substrait, AggregateWithFilter) {
-  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", R"({
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", R"({
+    "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
     "relations": [{
       "rel": {
         "aggregate": {
@@ -1704,9 +1955,10 @@ TEST(Substrait, AggregateWithFilter) {
           "measures": [{
             "measure": {
               "functionReference": 0,
-              "args": [],
+              "arguments": [],
               "sorts": [],
               "phase": "AGGREGATION_PHASE_INITIAL_TO_RESULT",
+              "invocation": "AGGREGATION_INVOCATION_ALL",
               "outputType": {
                 "i64": {}
               }
@@ -1726,10 +1978,2439 @@ TEST(Substrait, AggregateWithFilter) {
         "name": "equal"
       }
     }],
-  })"));
+  })",
+                                                   /*ignore_unknown_fields=*/false));
+
+  ASSERT_RAISES(NotImplemented, DeserializePlans(*buf, [] { return kNullConsumer; }));
+}
+
+TEST(Substrait, AggregateBadPhase) {
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", R"({
+    "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
+    "relations": [{
+      "rel": {
+        "aggregate": {
+          "input": {
+            "read": {
+              "base_schema": {
+                "names": ["A", "B", "C"],
+                "struct": {
+                  "types": [{
+                    "i32": {}
+                  }, {
+                    "i32": {}
+                  }, {
+                    "i32": {}
+                  }]
+                }
+              },
+              "local_files": {
+                "items": [
+                  {
+                    "uri_file": "file:///tmp/dat.parquet",
+                    "parquet": {}
+                  }
+                ]
+              }
+            }
+          },
+          "groupings": [{
+            "groupingExpressions": [{
+              "selection": {
+                "directReference": {
+                  "structField": {
+                    "field": 0
+                  }
+                }
+              }
+            }]
+          }],
+          "measures": [{
+            "measure": {
+              "functionReference": 0,
+              "arguments": [],
+              "sorts": [],
+              "phase": "AGGREGATION_PHASE_INITIAL_TO_RESULT",
+              "invocation": "AGGREGATION_INVOCATION_DISTINCT",
+              "outputType": {
+                "i64": {}
+              }
+            }
+          }]
+        }
+      }
+    }],
+    "extensionUris": [{
+      "extension_uri_anchor": 0,
+      "uri": "https://github.com/apache/arrow/blob/master/format/substrait/extension_types.yaml"
+    }],
+    "extensions": [{
+      "extension_function": {
+        "extension_uri_reference": 0,
+        "function_anchor": 0,
+        "name": "equal"
+      }
+    }],
+  })",
+                                                   /*ignore_unknown_fields=*/false));
 
   ASSERT_RAISES(NotImplemented, DeserializePlans(*buf, [] { return kNullConsumer; }));
 }
 
+TEST(SubstraitRoundTrip, BasicPlan) {
+  arrow::dataset::internal::Initialize();
+
+  auto dummy_schema = schema(
+      {field("key", int32()), field("shared", int32()), field("distinct", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto table = TableFromJSON(dummy_schema, {R"([
+      [1, 1, 10],
+      [3, 4, 20]
+    ])",
+                                            R"([
+      [0, 2, 1],
+      [1, 3, 2],
+      [4, 1, 3],
+      [3, 1, 3],
+      [1, 2, 5]
+    ])",
+                                            R"([
+      [2, 2, 12],
+      [5, 3, 12],
+      [1, 3, 12]
+    ])"});
+
+  auto format = std::make_shared<arrow::dataset::IpcFileFormat>();
+  auto filesystem = std::make_shared<fs::LocalFileSystem>();
+  const std::string file_name = "serde_test.arrow";
+
+  ASSERT_OK_AND_ASSIGN(auto tempdir,
+                       arrow::internal::TemporaryDir::Make("substrait-tempdir-"));
+  ASSERT_OK_AND_ASSIGN(auto file_path, tempdir->path().Join(file_name));
+  std::string file_path_str = file_path.ToString();
+
+  WriteIpcData(file_path_str, filesystem, table);
+
+  std::vector<fs::FileInfo> files;
+  const std::vector<std::string> f_paths = {file_path_str};
+
+  for (const auto& f_path : f_paths) {
+    ASSERT_OK_AND_ASSIGN(auto f_file, filesystem->GetFileInfo(f_path));
+    files.push_back(std::move(f_file));
+  }
+
+  ASSERT_OK_AND_ASSIGN(auto ds_factory, dataset::FileSystemDatasetFactory::Make(
+                                            filesystem, std::move(files), format, {}));
+  ASSERT_OK_AND_ASSIGN(auto dataset, ds_factory->Finish(dummy_schema));
+
+  auto scan_options = std::make_shared<dataset::ScanOptions>();
+  scan_options->projection = compute::project({}, {});
+  const std::string filter_col_left = "shared";
+  const std::string filter_col_right = "distinct";
+  auto comp_left_value = compute::field_ref(filter_col_left);
+  auto comp_right_value = compute::field_ref(filter_col_right);
+  auto filter = compute::equal(comp_left_value, comp_right_value);
+
+  arrow::AsyncGenerator<std::optional<compute::ExecBatch>> sink_gen;
+
+  auto declarations = compute::Declaration::Sequence(
+      {compute::Declaration(
+           {"scan", dataset::ScanNodeOptions{dataset, scan_options}, "s"}),
+       compute::Declaration({"filter", compute::FilterNodeOptions{filter}, "f"}),
+       compute::Declaration({"sink", compute::SinkNodeOptions{&sink_gen}, "e"})});
+
+  std::shared_ptr<ExtensionIdRegistry> sp_ext_id_reg = MakeExtensionIdRegistry();
+  ExtensionIdRegistry* ext_id_reg = sp_ext_id_reg.get();
+  ExtensionSet ext_set(ext_id_reg);
+
+  ASSERT_OK_AND_ASSIGN(auto serialized_plan, SerializePlan(declarations, &ext_set));
+
+  ASSERT_OK_AND_ASSIGN(
+      auto sink_decls,
+      DeserializePlans(
+          *serialized_plan, [] { return kNullConsumer; }, ext_id_reg, &ext_set));
+  // filter declaration
+  const auto& roundtripped_filter =
+      std::get<compute::Declaration>(sink_decls[0].inputs[0]);
+  const auto& filter_opts =
+      checked_cast<const compute::FilterNodeOptions&>(*(roundtripped_filter.options));
+  auto roundtripped_expr = filter_opts.filter_expression;
+
+  if (auto* call = roundtripped_expr.call()) {
+    EXPECT_EQ(call->function_name, "equal");
+    auto args = call->arguments;
+    auto left_index = args[0].field_ref()->field_path()->indices()[0];
+    EXPECT_EQ(dummy_schema->field_names()[left_index], filter_col_left);
+    auto right_index = args[1].field_ref()->field_path()->indices()[0];
+    EXPECT_EQ(dummy_schema->field_names()[right_index], filter_col_right);
+  }
+  // scan declaration
+  const auto& roundtripped_scan =
+      std::get<compute::Declaration>(roundtripped_filter.inputs[0]);
+  const auto& dataset_opts =
+      checked_cast<const dataset::ScanNodeOptions&>(*(roundtripped_scan.options));
+  const auto& roundripped_ds = dataset_opts.dataset;
+  EXPECT_TRUE(roundripped_ds->schema()->Equals(*dummy_schema));
+  ASSERT_OK_AND_ASSIGN(auto roundtripped_frgs, roundripped_ds->GetFragments());
+  ASSERT_OK_AND_ASSIGN(auto expected_frgs, dataset->GetFragments());
+
+  auto roundtrip_frg_vec = IteratorToVector(std::move(roundtripped_frgs));
+  auto expected_frg_vec = IteratorToVector(std::move(expected_frgs));
+  EXPECT_EQ(expected_frg_vec.size(), roundtrip_frg_vec.size());
+  int64_t idx = 0;
+  for (auto fragment : expected_frg_vec) {
+    const auto* l_frag = checked_cast<const dataset::FileFragment*>(fragment.get());
+    const auto* r_frag =
+        checked_cast<const dataset::FileFragment*>(roundtrip_frg_vec[idx++].get());
+    EXPECT_TRUE(l_frag->Equals(*r_frag));
+  }
+}
+
+TEST(SubstraitRoundTrip, BasicPlanEndToEnd) {
+  compute::ExecContext exec_context;
+  arrow::dataset::internal::Initialize();
+
+  auto dummy_schema = schema(
+      {field("key", int32()), field("shared", int32()), field("distinct", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto table = TableFromJSON(dummy_schema, {R"([
+      [1, 1, 10],
+      [3, 4, 4]
+    ])",
+                                            R"([
+      [0, 2, 1],
+      [1, 3, 2],
+      [4, 1, 1],
+      [3, 1, 3],
+      [1, 2, 2]
+    ])",
+                                            R"([
+      [2, 2, 12],
+      [5, 3, 12],
+      [1, 3, 3]
+    ])"});
+
+  auto format = std::make_shared<arrow::dataset::IpcFileFormat>();
+  auto filesystem = std::make_shared<fs::LocalFileSystem>();
+  const std::string file_name = "serde_test.arrow";
+
+  ASSERT_OK_AND_ASSIGN(auto tempdir,
+                       arrow::internal::TemporaryDir::Make("substrait-tempdir-"));
+  ASSERT_OK_AND_ASSIGN(auto file_path, tempdir->path().Join(file_name));
+  std::string file_path_str = file_path.ToString();
+
+  WriteIpcData(file_path_str, filesystem, table);
+
+  std::vector<fs::FileInfo> files;
+  const std::vector<std::string> f_paths = {file_path_str};
+
+  for (const auto& f_path : f_paths) {
+    ASSERT_OK_AND_ASSIGN(auto f_file, filesystem->GetFileInfo(f_path));
+    files.push_back(std::move(f_file));
+  }
+
+  ASSERT_OK_AND_ASSIGN(auto ds_factory, dataset::FileSystemDatasetFactory::Make(
+                                            filesystem, std::move(files), format, {}));
+  ASSERT_OK_AND_ASSIGN(auto dataset, ds_factory->Finish(dummy_schema));
+
+  auto scan_options = std::make_shared<dataset::ScanOptions>();
+  scan_options->projection = compute::project({}, {});
+  const std::string filter_col_left = "shared";
+  const std::string filter_col_right = "distinct";
+  auto comp_left_value = compute::field_ref(filter_col_left);
+  auto comp_right_value = compute::field_ref(filter_col_right);
+  auto filter = compute::equal(comp_left_value, comp_right_value);
+
+  auto declarations = compute::Declaration::Sequence(
+      {compute::Declaration(
+           {"scan", dataset::ScanNodeOptions{dataset, scan_options}, "s"}),
+       compute::Declaration({"filter", compute::FilterNodeOptions{filter}, "f"})});
+
+  ASSERT_OK_AND_ASSIGN(auto expected_table, compute::DeclarationToTable(declarations));
+
+  std::shared_ptr<ExtensionIdRegistry> sp_ext_id_reg = MakeExtensionIdRegistry();
+  ExtensionIdRegistry* ext_id_reg = sp_ext_id_reg.get();
+  ExtensionSet ext_set(ext_id_reg);
+
+  ASSERT_OK_AND_ASSIGN(auto serialized_plan, SerializePlan(declarations, &ext_set));
+
+  ASSERT_OK_AND_ASSIGN(
+      auto sink_decls,
+      DeserializePlans(
+          *serialized_plan, [] { return kNullConsumer; }, ext_id_reg, &ext_set));
+  // filter declaration
+  auto& roundtripped_filter = std::get<compute::Declaration>(sink_decls[0].inputs[0]);
+  const auto& filter_opts =
+      checked_cast<const compute::FilterNodeOptions&>(*(roundtripped_filter.options));
+  auto roundtripped_expr = filter_opts.filter_expression;
+
+  if (auto* call = roundtripped_expr.call()) {
+    EXPECT_EQ(call->function_name, "equal");
+    auto args = call->arguments;
+    auto left_index = args[0].field_ref()->field_path()->indices()[0];
+    EXPECT_EQ(dummy_schema->field_names()[left_index], filter_col_left);
+    auto right_index = args[1].field_ref()->field_path()->indices()[0];
+    EXPECT_EQ(dummy_schema->field_names()[right_index], filter_col_right);
+  }
+  // scan declaration
+  const auto& roundtripped_scan =
+      std::get<compute::Declaration>(roundtripped_filter.inputs[0]);
+  const auto& dataset_opts =
+      checked_cast<const dataset::ScanNodeOptions&>(*(roundtripped_scan.options));
+  const auto& roundripped_ds = dataset_opts.dataset;
+  EXPECT_TRUE(roundripped_ds->schema()->Equals(*dummy_schema));
+  ASSERT_OK_AND_ASSIGN(auto roundtripped_frgs, roundripped_ds->GetFragments());
+  ASSERT_OK_AND_ASSIGN(auto expected_frgs, dataset->GetFragments());
+
+  auto roundtrip_frg_vec = IteratorToVector(std::move(roundtripped_frgs));
+  auto expected_frg_vec = IteratorToVector(std::move(expected_frgs));
+  EXPECT_EQ(expected_frg_vec.size(), roundtrip_frg_vec.size());
+  int64_t idx = 0;
+  for (auto fragment : expected_frg_vec) {
+    const auto* l_frag = checked_cast<const dataset::FileFragment*>(fragment.get());
+    const auto* r_frag =
+        checked_cast<const dataset::FileFragment*>(roundtrip_frg_vec[idx++].get());
+    EXPECT_TRUE(l_frag->Equals(*r_frag));
+  }
+  ASSERT_OK_AND_ASSIGN(auto rnd_trp_table,
+                       compute::DeclarationToTable(roundtripped_filter));
+  compute::AssertTablesEqualIgnoringOrder(expected_table, rnd_trp_table);
+}
+
+TEST(SubstraitRoundTrip, FilterNamedTable) {
+  arrow::dataset::internal::Initialize();
+
+  const std::vector<std::string> table_names{"table", "1"};
+  const auto dummy_schema =
+      schema({field("A", int32()), field("B", int32()), field("C", int32())});
+  auto filter = compute::equal(compute::field_ref("A"), compute::field_ref("B"));
+
+  auto declarations = compute::Declaration::Sequence(
+      {compute::Declaration({"named_table",
+                             compute::NamedTableNodeOptions{table_names, dummy_schema},
+                             "n"}),
+       compute::Declaration({"filter", compute::FilterNodeOptions{filter}, "f"})});
+
+  ExtensionSet ext_set{};
+  ASSERT_OK_AND_ASSIGN(auto serialized_plan, SerializePlan(declarations, &ext_set));
+
+  // creating a dummy dataset using a dummy table
+  auto input_table = TableFromJSON(dummy_schema, {R"([
+      [1, 1, 10],
+      [3, 5, 20],
+      [4, 1, 30],
+      [2, 1, 40],
+      [5, 5, 50],
+      [2, 2, 60]
+  ])"});
+
+  NamedTableProvider table_provider =
+      [&input_table, &table_names](
+          const std::vector<std::string>& names) -> Result<compute::Declaration> {
+    if (table_names != names) {
+      return Status::Invalid("Table name mismatch");
+    }
+    std::shared_ptr<compute::ExecNodeOptions> options =
+        std::make_shared<compute::TableSourceNodeOptions>(input_table);
+    return compute::Declaration("table_source", {}, std::move(options), "mock_source");
+  };
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+
+  auto expected_table = TableFromJSON(dummy_schema, {R"([
+    [1, 1, 10],
+    [5, 5, 50],
+    [2, 2, 60]
+  ])"});
+
+  CheckRoundTripResult(std::move(expected_table), serialized_plan,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(SubstraitRoundTrip, ProjectRel) {
+  compute::ExecContext exec_context;
+  auto dummy_schema =
+      schema({field("A", int32()), field("B", int32()), field("C", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto input_table = TableFromJSON(dummy_schema, {R"([
+      [1, 1, 10],
+      [3, 5, 20],
+      [4, 1, 30],
+      [2, 1, 40],
+      [5, 5, 50],
+      [2, 2, 60]
+  ])"});
+
+  std::string substrait_json = R"({
+  "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
+  "relations": [{
+    "rel": {
+      "project": {
+        "expressions": [{
+          "scalarFunction": {
+            "functionReference": 0,
+            "arguments": [{
+              "value": {
+                "selection": {
+                  "directReference": {
+                    "structField": {
+                      "field": 0
+                    }
+                  },
+                  "rootReference": {
+                  }
+                }
+              }
+            }, {
+              "value": {
+                "selection": {
+                  "directReference": {
+                    "structField": {
+                      "field": 1
+                    }
+                  },
+                  "rootReference": {
+                  }
+                }
+              }
+            }],
+            "output_type": {
+              "bool": {}
+            }
+          }
+        },
+        ],
+        "input" : {
+          "read": {
+            "base_schema": {
+              "names": ["A", "B", "C"],
+                "struct": {
+                "types": [{
+                  "i32": {}
+                }, {
+                  "i32": {}
+                }, {
+                  "i32": {}
+                }]
+              }
+            },
+            "namedTable": {
+              "names": ["A"]
+            }
+          }
+        }
+      }
+    }
+  }],
+  "extension_uris": [
+      {
+        "extension_uri_anchor": 0,
+        "uri": ")" + std::string(kSubstraitComparisonFunctionsUri) +
+                               R"("
+      }
+    ],
+    "extensions": [
+      {"extension_function": {
+        "extension_uri_reference": 0,
+        "function_anchor": 0,
+        "name": "equal"
+      }}
+    ]
+  })";
+
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
+  auto output_schema = schema({field("A", int32()), field("B", int32()),
+                               field("C", int32()), field("equal", boolean())});
+  auto expected_table = TableFromJSON(output_schema, {R"([
+    [1, 1, 10, true],
+    [3, 5, 20, false],
+    [4, 1, 30, false],
+    [2, 1, 40, false],
+    [5, 5, 50, true],
+    [2, 2, 60, true]
+  ])"});
+
+  NamedTableProvider table_provider = AlwaysProvideSameTable(std::move(input_table));
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(SubstraitRoundTrip, ProjectRelOnFunctionWithEmit) {
+  auto dummy_schema =
+      schema({field("A", int32()), field("B", int32()), field("C", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto input_table = TableFromJSON(dummy_schema, {R"([
+      [1, 1, 10],
+      [3, 5, 20],
+      [4, 1, 30],
+      [2, 1, 40],
+      [5, 5, 50],
+      [2, 2, 60]
+  ])"});
+
+  std::string substrait_json = R"({
+  "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
+  "relations": [{
+    "rel": {
+      "project": {
+        "common": {
+          "emit": {
+            "outputMapping": [0, 2, 3]
+          }
+        },
+        "expressions": [{
+          "scalarFunction": {
+            "functionReference": 0,
+            "arguments": [{
+              "value": {
+                "selection": {
+                  "directReference": {
+                    "structField": {
+                      "field": 0
+                    }
+                  },
+                  "rootReference": {
+                  }
+                }
+              }
+            }, {
+              "value": {
+                "selection": {
+                  "directReference": {
+                    "structField": {
+                      "field": 1
+                    }
+                  },
+                  "rootReference": {
+                  }
+                }
+              }
+            }],
+            "output_type": {
+              "bool": {}
+            }
+          }
+        },
+        ],
+        "input" : {
+          "read": {
+            "base_schema": {
+              "names": ["A", "B", "C"],
+                "struct": {
+                "types": [{
+                  "i32": {}
+                }, {
+                  "i32": {}
+                }, {
+                  "i32": {}
+                }]
+              }
+            },
+            "namedTable": {
+              "names": ["A"]
+            }
+          }
+        }
+      }
+    }
+  }],
+  "extension_uris": [
+      {
+        "extension_uri_anchor": 0,
+        "uri": ")" + std::string(kSubstraitComparisonFunctionsUri) +
+                               R"("
+      }
+    ],
+    "extensions": [
+      {"extension_function": {
+        "extension_uri_reference": 0,
+        "function_anchor": 0,
+        "name": "equal"
+      }}
+    ]
+  })";
+
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
+  auto output_schema =
+      schema({field("A", int32()), field("C", int32()), field("equal", boolean())});
+  auto expected_table = TableFromJSON(output_schema, {R"([
+      [1, 10, true],
+      [3, 20, false],
+      [4, 30, false],
+      [2, 40, false],
+      [5, 50, true],
+      [2, 60, true]
+  ])"});
+  NamedTableProvider table_provider = AlwaysProvideSameTable(std::move(input_table));
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+  ValidateNumProjectNodes(1, buf, conversion_options);
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(SubstraitRoundTrip, ProjectRelOnFunctionWithAllEmit) {
+  compute::ExecContext exec_context;
+  auto dummy_schema = schema({field("A", int32()), field("B", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto input_table = TableFromJSON(dummy_schema, {R"([
+      [1, 1],
+      [3, 5],
+      [4, 1],
+      [2, 1],
+      [5, 5],
+      [2, 2]
+  ])"});
+
+  std::string substrait_json = R"({
+  "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
+  "relations":[
+      {
+         "rel":{
+            "project":{
+               "common":{
+                  "emit":{
+                     "outputMapping":[
+                        0,
+                        1,
+                        2,
+                        3
+                     ]
+                  }
+               },
+               "expressions":[
+                  {
+                     "scalarFunction":{
+                        "functionReference":0,
+                        "arguments":[
+                           {
+                              "value":{
+                                 "selection":{
+                                    "directReference":{
+                                       "structField":{
+                                          "field":0
+                                       }
+                                    },
+                                    "rootReference":{
+                                       
+                                    }
+                                 }
+                              }
+                           },
+                           {
+                              "value":{
+                                 "selection":{
+                                    "directReference":{
+                                       "structField":{
+                                          "field":1
+                                       }
+                                    },
+                                    "rootReference":{
+                                       
+                                    }
+                                 }
+                              }
+                           }
+                        ],
+                        "output_type":{
+                           "bool":{
+                              
+                           }
+                        }
+                     }
+                  }
+               ],
+               "input":{
+                  "project":{
+                     "common":{
+                        "emit":{
+                           "outputMapping":[
+                              0,
+                              1,
+                              2
+                           ]
+                        }
+                     },
+                     "expressions":[
+                        {
+                           "scalarFunction":{
+                              "functionReference":0,
+                              "arguments":[
+                                 {
+                                    "value":{
+                                       "selection":{
+                                          "directReference":{
+                                             "structField":{
+                                                "field":0
+                                             }
+                                          },
+                                          "rootReference":{
+                                             
+                                          }
+                                       }
+                                    }
+                                 },
+                                 {
+                                    "value":{
+                                       "selection":{
+                                          "directReference":{
+                                             "structField":{
+                                                "field":1
+                                             }
+                                          },
+                                          "rootReference":{
+                                             
+                                          }
+                                       }
+                                    }
+                                 }
+                              ],
+                              "output_type":{
+                                 "bool":{
+                                    
+                                 }
+                              }
+                           }
+                        }
+                     ],
+                     "input":{
+                        "read":{
+                           "base_schema":{
+                              "names":[
+                                 "A",
+                                 "B"
+                              ],
+                              "struct":{
+                                 "types":[
+                                    {
+                                       "i32":{
+                                          
+                                       }
+                                    },
+                                    {
+                                       "i32":{
+                                          
+                                       }
+                                    }
+                                 ]
+                              }
+                           },
+                           "namedTable":{
+                              "names":[
+                                 "TABLE"
+                              ]
+                           }
+                        }
+                     }
+                  }
+               }
+            }
+         }
+      }
+   ],
+  "extension_uris": [
+      {
+        "extension_uri_anchor": 0,
+        "uri": ")" + std::string(kSubstraitComparisonFunctionsUri) +
+                               R"("
+      }
+    ],
+    "extensions": [
+      {"extension_function": {
+        "extension_uri_reference": 0,
+        "function_anchor": 0,
+        "name": "equal"
+      }}
+    ]
+  })";
+
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
+  auto output_schema = schema({field("A", int32()), field("B", int32()),
+                               field("eq1", boolean()), field("eq2", boolean())});
+  auto expected_table = TableFromJSON(output_schema, {R"([
+      [1, 1, true, true],
+      [3, 5, false, false],
+      [4, 1, false, false],
+      [2, 1, false, false],
+      [5, 5, true, true],
+      [2, 2, true, true]
+  ])"});
+  NamedTableProvider table_provider = AlwaysProvideSameTable(std::move(input_table));
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+
+  ValidateNumProjectNodes(2, buf, conversion_options);
+
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(SubstraitRoundTrip, ReadRelWithEmit) {
+  auto dummy_schema =
+      schema({field("A", int32()), field("B", int32()), field("C", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto input_table = TableFromJSON(dummy_schema, {R"([
+      [1, 1, 10],
+      [3, 4, 20]
+  ])"});
+
+  std::string substrait_json = R"({
+  "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
+  "relations": [{
+    "rel": {
+      "read": {
+        "common": {
+          "emit": {
+            "outputMapping": [1, 2]
+          }
+        },
+        "base_schema": {
+          "names": ["A", "B", "C"],
+            "struct": {
+            "types": [{
+              "i32": {}
+            }, {
+              "i32": {}
+            }, {
+              "i32": {}
+            }]
+          }
+        },
+        "namedTable": {
+          "names" : ["A"]
+        }
+      }
+    }
+  }],
+  })";
+
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
+  auto output_schema = schema({field("B", int32()), field("C", int32())});
+  auto expected_table = TableFromJSON(output_schema, {R"([
+      [1, 10],
+      [4, 20]
+  ])"});
+
+  NamedTableProvider table_provider = AlwaysProvideSameTable(std::move(input_table));
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+  ValidateNumProjectNodes(1, buf, conversion_options);
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(SubstraitRoundTrip, FilterRelWithEmit) {
+  auto dummy_schema = schema({field("A", int32()), field("B", int32()),
+                              field("C", int32()), field("D", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto input_table = TableFromJSON(dummy_schema, {R"([
+      [10, 1, 80, 7],
+      [20, 2, 70, 6],
+      [30, 3, 30, 5],
+      [40, 4, 20, 4],
+      [40, 5, 40, 3],
+      [20, 6, 20, 2],
+      [30, 7, 30, 1]
+  ])"});
+
+  std::string substrait_json = R"({
+  "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
+  "relations": [{
+    "rel": {
+      "filter": {
+        "common": {
+          "emit": {
+            "outputMapping": [1, 3]
+          }
+        },
+        "condition": {
+          "scalarFunction": {
+            "functionReference": 0,
+            "arguments": [{
+              "value": {
+                "selection": {
+                  "directReference": {
+                    "structField": {
+                      "field": 0
+                    }
+                  },
+                  "rootReference": {
+                  }
+                }
+              }
+            }, {
+              "value": {
+                "selection": {
+                  "directReference": {
+                    "structField": {
+                      "field": 2
+                    }
+                  },
+                  "rootReference": {
+                  }
+                }
+              }
+            }],
+            "output_type": {
+              "bool": {}
+            }
+          }
+        },
+        "input" : {
+          "read": {
+            "base_schema": {
+              "names": ["A", "B", "C", "D"],
+                "struct": {
+                "types": [{
+                  "i32": {}
+                }, {
+                  "i32": {}
+                }, {
+                  "i32": {}
+                },{
+                  "i32": {}
+                }]
+              }
+            },
+            "namedTable": {
+              "names" : ["A"]
+            }
+          }
+        }
+      }
+    }
+  }],
+  "extension_uris": [
+      {
+        "extension_uri_anchor": 0,
+        "uri": ")" + std::string(kSubstraitComparisonFunctionsUri) +
+                               R"("
+      }
+    ],
+    "extensions": [
+      {"extension_function": {
+        "extension_uri_reference": 0,
+        "function_anchor": 0,
+        "name": "equal"
+      }}
+    ]
+  })";
+
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
+  auto output_schema = schema({field("B", int32()), field("D", int32())});
+  auto expected_table = TableFromJSON(output_schema, {R"([
+      [3, 5],
+      [5, 3],
+      [6, 2],
+      [7, 1]
+  ])"});
+  NamedTableProvider table_provider = AlwaysProvideSameTable(std::move(input_table));
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+  ValidateNumProjectNodes(1, buf, conversion_options);
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(SubstraitRoundTrip, JoinRel) {
+  auto left_schema = schema({field("A", int32()), field("B", int32())});
+
+  auto right_schema = schema({field("X", int32()), field("Y", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto left_table = TableFromJSON(left_schema, {R"([
+      [10, 1],
+      [20, 2],
+      [30, 3]
+  ])"});
+
+  auto right_table = TableFromJSON(right_schema, {R"([
+      [10, 11],
+      [80, 21],
+      [31, 31]
+  ])"});
+
+  std::string substrait_json = R"({
+  "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
+  "relations": [{
+    "rel": {
+      "join": {
+        "left": {
+          "read": {
+            "base_schema": {
+              "names": ["A", "B"],
+              "struct": {
+                "types": [{
+                  "i32": {}
+                }, {
+                  "i32": {}
+                }]
+              }
+            },
+            "namedTable": {
+              "names" : ["left"]
+            }
+          }
+        },
+        "right": {
+          "read": {
+            "base_schema": {
+              "names": ["X", "Y"],
+              "struct": {
+                "types": [{
+                  "i32": {}
+                }, {
+                  "i32": {}
+                }]
+              }
+            },
+            "namedTable": {
+              "names" : ["right"]
+            }
+          }
+        },
+        "expression": {
+          "scalarFunction": {
+            "functionReference": 0,
+            "arguments": [{
+              "value": {
+                "selection": {
+                  "directReference": {
+                    "structField": {
+                      "field": 0
+                    }
+                  },
+                  "rootReference": {
+                  }
+                }
+              }
+            }, {
+              "value": {
+                "selection": {
+                  "directReference": {
+                    "structField": {
+                      "field": 2
+                    }
+                  },
+                  "rootReference": {
+                  }
+                }
+              }
+            }],
+            "output_type": {
+              "bool": {}
+            }
+          }
+        },
+        "type": "JOIN_TYPE_INNER"
+      }
+    }
+  }],
+  "extension_uris": [
+      {
+        "extension_uri_anchor": 0,
+        "uri": ")" + std::string(kSubstraitComparisonFunctionsUri) +
+                               R"("
+      }
+    ],
+    "extensions": [
+      {"extension_function": {
+        "extension_uri_reference": 0,
+        "function_anchor": 0,
+        "name": "equal"
+      }}
+    ]
+  })";
+
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
+
+  // include these columns for comparison
+  auto output_schema = schema({
+      field("A", int32()),
+      field("B", int32()),
+      field("X", int32()),
+      field("Y", int32()),
+  });
+
+  auto expected_table = TableFromJSON(std::move(output_schema), {R"([
+      [10, 1, 10, 11]
+  ])"});
+
+  NamedTableProvider table_provider =
+      [left_table, right_table](const std::vector<std::string>& names) {
+        std::shared_ptr<Table> output_table;
+        for (const auto& name : names) {
+          if (name == "left") {
+            output_table = left_table;
+          }
+          if (name == "right") {
+            output_table = right_table;
+          }
+        }
+        std::shared_ptr<compute::ExecNodeOptions> options =
+            std::make_shared<compute::TableSourceNodeOptions>(std::move(output_table));
+        return compute::Declaration("table_source", {}, options, "mock_source");
+      };
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(SubstraitRoundTrip, JoinRelWithEmit) {
+  auto left_schema = schema({field("A", int32()), field("B", int32())});
+
+  auto right_schema = schema({field("X", int32()), field("Y", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto left_table = TableFromJSON(left_schema, {R"([
+      [10, 1],
+      [20, 2],
+      [30, 3]
+  ])"});
+
+  auto right_table = TableFromJSON(right_schema, {R"([
+      [10, 11],
+      [80, 21],
+      [31, 31]
+  ])"});
+
+  std::string substrait_json = R"({
+  "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
+  "relations": [{
+    "rel": {
+      "join": {
+        "common": {
+          "emit": {
+            "outputMapping": [0, 1, 3]
+          }
+        },
+        "left": {
+          "read": {
+            "base_schema": {
+              "names": ["A", "B"],
+              "struct": {
+                "types": [{
+                  "i32": {}
+                }, {
+                  "i32": {}
+                }]
+              }
+            },
+            "namedTable" : {
+              "names" : ["left"]
+            }
+          }
+        },
+        "right": {
+          "read": {
+            "base_schema": {
+              "names": ["X", "Y"],
+              "struct": {
+                "types": [{
+                  "i32": {}
+                }, {
+                  "i32": {}
+                }]
+              }
+            },
+            "namedTable" : {
+              "names" : ["right"]
+            }
+          }
+        },
+        "expression": {
+          "scalarFunction": {
+            "functionReference": 0,
+            "arguments": [{
+              "value": {
+                "selection": {
+                  "directReference": {
+                    "structField": {
+                      "field": 0
+                    }
+                  },
+                  "rootReference": {
+                  }
+                }
+              }
+            }, {
+              "value": {
+                "selection": {
+                  "directReference": {
+                    "structField": {
+                      "field": 2
+                    }
+                  },
+                  "rootReference": {
+                  }
+                }
+              }
+            }],
+            "output_type": {
+              "bool": {}
+            }
+          }
+        },
+        "type": "JOIN_TYPE_INNER"
+      }
+    }
+  }],
+  "extension_uris": [
+      {
+        "extension_uri_anchor": 0,
+        "uri": ")" + std::string(kSubstraitComparisonFunctionsUri) +
+                               R"("
+      }
+    ],
+    "extensions": [
+      {"extension_function": {
+        "extension_uri_reference": 0,
+        "function_anchor": 0,
+        "name": "equal"
+      }}
+    ]
+  })";
+
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
+  auto output_schema = schema({
+      field("A", int32()),
+      field("B", int32()),
+      field("Y", int32()),
+  });
+
+  auto expected_table = TableFromJSON(std::move(output_schema), {R"([
+      [10, 1, 11]
+  ])"});
+
+  NamedTableProvider table_provider =
+      [left_table, right_table](const std::vector<std::string>& names) {
+        std::shared_ptr<Table> output_table;
+        for (const auto& name : names) {
+          if (name == "left") {
+            output_table = left_table;
+          }
+          if (name == "right") {
+            output_table = right_table;
+          }
+        }
+        std::shared_ptr<compute::ExecNodeOptions> options =
+            std::make_shared<compute::TableSourceNodeOptions>(std::move(output_table));
+        return compute::Declaration("table_source", {}, options, "mock_source");
+      };
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+  ValidateNumProjectNodes(1, buf, conversion_options);
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(SubstraitRoundTrip, AggregateRel) {
+  auto dummy_schema =
+      schema({field("A", int32()), field("B", int32()), field("C", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto input_table = TableFromJSON(dummy_schema, {R"([
+      [10, 1, 80],
+      [20, 2, 70],
+      [30, 3, 30],
+      [40, 4, 20],
+      [40, 5, 40],
+      [20, 6, 20],
+      [30, 7, 30]
+  ])"});
+
+  std::string substrait_json = R"({
+    "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
+    "relations": [{
+      "rel": {
+        "aggregate": {
+          "input": {
+            "read": {
+              "base_schema": {
+                "names": ["A", "B", "C"],
+                "struct": {
+                  "types": [{
+                    "i32": {}
+                  }, {
+                    "i32": {}
+                  }, {
+                    "i32": {}
+                  }]
+                }
+              },
+              "namedTable" : {
+                "names": ["A"]
+              }
+            }
+          },
+          "groupings": [{
+            "groupingExpressions": [{
+              "selection": {
+                "directReference": {
+                  "structField": {
+                    "field": 0
+                  }
+                }
+              }
+            }]
+          }],
+          "measures": [{
+            "measure": {
+              "functionReference": 0,
+              "arguments": [{
+                "value": {
+                  "selection": {
+                    "directReference": {
+                      "structField": {
+                        "field": 2
+                      }
+                    }
+                  }
+                }
+            }],
+              "sorts": [],
+              "phase": "AGGREGATION_PHASE_INITIAL_TO_RESULT",
+              "invocation": "AGGREGATION_INVOCATION_ALL",
+              "outputType": {
+                "i64": {}
+              }
+            }
+          }]
+        }
+      }
+    }],
+    "extensionUris": [{
+      "extension_uri_anchor": 0,
+      "uri": "https://github.com/substrait-io/substrait/blob/main/extensions/functions_arithmetic.yaml"
+    }],
+    "extensions": [{
+      "extension_function": {
+        "extension_uri_reference": 0,
+        "function_anchor": 0,
+        "name": "sum"
+      }
+    }],
+  })";
+
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
+  auto output_schema = schema({field("aggregates", int64()), field("keys", int32())});
+  auto expected_table = TableFromJSON(output_schema, {R"([
+      [80, 10],
+      [90, 20],
+      [60, 30],
+      [60, 40]
+  ])"});
+
+  NamedTableProvider table_provider = AlwaysProvideSameTable(std::move(input_table));
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(SubstraitRoundTrip, AggregateRelEmit) {
+  auto dummy_schema =
+      schema({field("A", int32()), field("B", int32()), field("C", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto input_table = TableFromJSON(dummy_schema, {R"([
+      [10, 1, 80],
+      [20, 2, 70],
+      [30, 3, 30],
+      [40, 4, 20],
+      [40, 5, 40],
+      [20, 6, 20],
+      [30, 7, 30]
+  ])"});
+
+  // TODO: fixme https://issues.apache.org/jira/browse/ARROW-17484
+  std::string substrait_json = R"({
+    "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
+    "relations": [{
+      "rel": {
+        "aggregate": {
+          "common": {
+          "emit": {
+            "outputMapping": [0]
+          }
+        },
+          "input": {
+            "read": {
+              "base_schema": {
+                "names": ["A", "B", "C"],
+                "struct": {
+                  "types": [{
+                    "i32": {}
+                  }, {
+                    "i32": {}
+                  }, {
+                    "i32": {}
+                  }]
+                }
+              },
+              "namedTable" : {
+                "names" : ["A"]
+              }
+            }
+          },
+          "groupings": [{
+            "groupingExpressions": [{
+              "selection": {
+                "directReference": {
+                  "structField": {
+                    "field": 0
+                  }
+                }
+              }
+            }]
+          }],
+          "measures": [{
+            "measure": {
+              "functionReference": 0,
+              "arguments": [{
+                "value": {
+                  "selection": {
+                    "directReference": {
+                      "structField": {
+                        "field": 2
+                      }
+                    }
+                  }
+                }
+            }],
+              "sorts": [],
+              "phase": "AGGREGATION_PHASE_INITIAL_TO_RESULT",
+              "invocation": "AGGREGATION_INVOCATION_ALL",
+              "outputType": {
+                "i64": {}
+              }
+            }
+          }]
+        }
+      }
+    }],
+    "extensionUris": [{
+      "extension_uri_anchor": 0,
+      "uri": "https://github.com/substrait-io/substrait/blob/main/extensions/functions_arithmetic.yaml"
+    }],
+    "extensions": [{
+      "extension_function": {
+        "extension_uri_reference": 0,
+        "function_anchor": 0,
+        "name": "sum"
+      }
+    }],
+  })";
+
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
+  auto output_schema = schema({field("aggregates", int64())});
+  auto expected_table = TableFromJSON(output_schema, {R"([
+      [80],
+      [90],
+      [60],
+      [60]
+  ])"});
+
+  NamedTableProvider table_provider = AlwaysProvideSameTable(std::move(input_table));
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+  ValidateNumProjectNodes(1, buf, conversion_options);
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(Substrait, IsthmusPlan) {
+  // This is a plan generated from Isthmus
+  // isthmus -c "CREATE TABLE T1(foo int)" "SELECT foo + 1 FROM T1"
+  std::string substrait_json = R"({
+    "version": { "major_number": 9999, "minor_number": 9999, "patch_number": 9999 },
+    "extensionUris": [{
+      "extensionUriAnchor": 1,
+      "uri": "/functions_arithmetic.yaml"
+    }],
+    "extensions": [{
+      "extensionFunction": {
+        "extensionUriReference": 1,
+        "functionAnchor": 0,
+        "name": "add:i32_i32"
+      }
+    }],
+    "relations": [{
+      "root": {
+        "input": {
+          "project": {
+            "common": {
+              "emit": {
+                "outputMapping": [1]
+              }
+            },
+            "input": {
+              "read": {
+                "common": {
+                  "direct": {
+                  }
+                },
+                "baseSchema": {
+                  "names": ["FOO"],
+                  "struct": {
+                    "types": [{
+                      "i32": {
+                        "typeVariationReference": 0,
+                        "nullability": "NULLABILITY_NULLABLE"
+                      }
+                    }],
+                    "typeVariationReference": 0,
+                    "nullability": "NULLABILITY_REQUIRED"
+                  }
+                },
+                "namedTable": {
+                  "names": ["T1"]
+                }
+              }
+            },
+            "expressions": [{
+              "scalarFunction": {
+                "functionReference": 0,
+                "outputType": {
+                  "i32": {
+                    "typeVariationReference": 0,
+                    "nullability": "NULLABILITY_NULLABLE"
+                  }
+                },
+                "arguments": [{
+                  "value": {
+                    "selection": {
+                      "directReference": {
+                        "structField": {
+                          "field": 0
+                        }
+                      },
+                      "rootReference": {
+                      }
+                    }
+                  }
+                }, {
+                  "value": {
+                    "literal": {
+                      "i32": 1,
+                      "nullable": false,
+                      "typeVariationReference": 0
+                    }
+                  }
+                }]
+              }
+            }]
+          }
+        },
+        "names": ["EXPR$0"]
+      }
+    }],
+    "expectedTypeUrls": []
+  })";
+
+  auto test_schema = schema({field("foo", int32())});
+  auto input_table = TableFromJSON(test_schema, {"[[1], [2], [5]]"});
+  NamedTableProvider table_provider = AlwaysProvideSameTable(std::move(input_table));
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+
+  ASSERT_OK_AND_ASSIGN(auto buf,
+                       internal::SubstraitFromJSON("Plan", substrait_json,
+                                                   /*ignore_unknown_fields=*/false));
+  ValidateNumProjectNodes(1, buf, conversion_options);
+  auto expected_table = TableFromJSON(test_schema, {"[[2], [3], [6]]"});
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+NamedTableProvider ProvideMadeTable(
+    std::function<Result<std::shared_ptr<Table>>(const std::vector<std::string>&)> make) {
+  return [make](const std::vector<std::string>& names) -> Result<compute::Declaration> {
+    ARROW_ASSIGN_OR_RAISE(auto table, make(names));
+    std::shared_ptr<compute::ExecNodeOptions> options =
+        std::make_shared<compute::TableSourceNodeOptions>(table);
+    return compute::Declaration("table_source", {}, options, "mock_source");
+  };
+}
+
+TEST(Substrait, ProjectWithMultiFieldExpressions) {
+  auto dummy_schema =
+      schema({field("A", int32()), field("B", int32()), field("C", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto input_table = TableFromJSON(dummy_schema, {R"([
+      [10, 1, 80],
+      [20, 2, 70],
+      [30, 3, 30]
+  ])"});
+
+  const std::string substrait_json = R"({
+    "extensionUris": [{
+        "extensionUriAnchor": 1,
+        "uri": "/functions_arithmetic.yaml"
+    }],
+      "extensions": [{
+        "extensionFunction": {
+          "extensionUriReference": 1,
+          "functionAnchor": 0,
+          "name": "add:i32_i32"
+        }
+    }],
+    "relations": [{
+      "root": {
+        "input": {
+          "project": {
+            "common": {
+              "emit": {
+                "outputMapping": [0, 3, 6]
+              }
+            },
+            "input": {
+              "read": {
+                "common": {
+                  "direct": {
+                  }
+                },
+                "baseSchema": {
+                  "names": ["A", "B", "C"],
+                  "struct": {
+                    "types": [{
+                      "i32": {
+                        "typeVariationReference": 0,
+                        "nullability": "NULLABILITY_REQUIRED"
+                      }
+                    }, {
+                      "i32": {
+                        "typeVariationReference": 0,
+                        "nullability": "NULLABILITY_REQUIRED"
+                      }
+                    }, {
+                      "i32": {
+                        "typeVariationReference": 0,
+                        "nullability": "NULLABILITY_REQUIRED"
+                      }
+                    }],
+                    "typeVariationReference": 0,
+                    "nullability": "NULLABILITY_REQUIRED"
+                  }
+                },
+                "namedTable": {
+                  "names": ["SIMPLEDATA"]
+                }
+              }
+            },
+            "expressions": [{
+              "selection": {
+                "directReference": {
+                  "structField": {
+                    "field": 0
+                  }
+                },
+                "rootReference": {
+                }
+              }
+            }, {
+              "selection": {
+                "directReference": {
+                  "structField": {
+                    "field": 1
+                  }
+                },
+                "rootReference": {
+                }
+              }
+            }, {
+              "selection": {
+                "directReference": {
+                  "structField": {
+                    "field": 2
+                  }
+                },
+                "rootReference": {
+                }
+              }
+            },{
+              "scalarFunction": {
+                "functionReference": 0,
+                "outputType": {
+                  "i32": {
+                    "typeVariationReference": 0,
+                    "nullability": "NULLABILITY_NULLABLE"
+                  }
+                },
+                "arguments": [{
+                  "value": {
+                    "selection": {
+                      "directReference": {
+                        "structField": {
+                          "field": 0
+                        }
+                      },
+                      "rootReference": {
+                      }
+                    }
+                  }
+                }, {
+                  "value": {
+                    "literal": {
+                      "i32": 1,
+                      "nullable": false,
+                      "typeVariationReference": 0
+                    }
+                  }
+                }]
+              }
+            }]
+          }
+        },
+        "names": ["A", "B", "C", "D"]
+      }
+    }]
+  })";
+
+  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", substrait_json));
+  auto output_schema =
+      schema({field("A", int32()), field("A1", int32()), field("A+1", int32())});
+  auto expected_table = TableFromJSON(output_schema, {R"([
+      [10, 10, 11],
+      [20, 20, 21],
+      [30, 30, 31]
+  ])"});
+
+  NamedTableProvider table_provider = AlwaysProvideSameTable(std::move(input_table));
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+  ValidateNumProjectNodes(1, buf, conversion_options);
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(Substrait, NestedProjectWithMultiFieldExpressions) {
+  auto dummy_schema = schema({field("A", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto input_table = TableFromJSON(dummy_schema, {R"([
+      [10],
+      [20],
+      [30]
+  ])"});
+
+  const std::string substrait_json = R"({
+  "extensionUris": [
+    {
+      "extensionUriAnchor": 1,
+      "uri": "https://github.com/substrait-io/substrait/blob/main/extensions/functions_arithmetic.yaml"
+    }
+  ],
+  "extensions": [
+    {
+      "extensionFunction": {
+        "extensionUriReference": 1,
+        "functionAnchor": 2,
+        "name": "add"
+      }
+    }
+  ],
+  "relations": [
+    {
+      "rel": {
+        "project": {
+          "input": {
+            "project": {
+              "common": {"emit": {"outputMapping": [2]}},
+              "input": {
+                "read": {
+                  "baseSchema": {
+                    "names": ["int"],
+                    "struct": {"types": [{"i32": {}}]}
+                  },
+                  "namedTable": {
+                    "names": ["SIMPLEDATA"]
+                  }
+                }
+              },
+              "expressions": [
+                {"selection": {"directReference": {"structField": {"field": 0}}}},
+                {
+                  "scalarFunction": {
+                    "functionReference": 2,
+                    "outputType": {"i32": {}},
+                    "arguments": [
+                      {"value": {"selection": {"directReference": {"structField": {"field": 0}}}}},
+                      {"value": {"literal": {"fp64": 10}}}
+                    ]
+                  }
+                }
+              ]
+            }
+          },
+          "expressions": [
+            {"selection": {"directReference": {"structField": {"field": 0}}}}
+          ]
+        }
+      }
+    }
+  ]
+})";
+
+  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", substrait_json));
+
+  auto output_schema = schema({field("A", float64()), field("B", float64())});
+  auto expected_table = TableFromJSON(output_schema, {R"([
+      [20, 20],
+      [30, 30],
+      [40, 40]
+  ])"});
+
+  NamedTableProvider table_provider = AlwaysProvideSameTable(std::move(input_table));
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+  ValidateNumProjectNodes(2, buf, conversion_options);
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(Substrait, NestedEmitProjectWithMultiFieldExpressions) {
+  auto dummy_schema = schema({field("A", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto input_table = TableFromJSON(dummy_schema, {R"([
+      [10],
+      [20],
+      [30]
+  ])"});
+
+  const std::string substrait_json = R"({
+  "extensionUris": [
+    {
+      "extensionUriAnchor": 1,
+      "uri": "https://github.com/substrait-io/substrait/blob/main/extensions/functions_arithmetic.yaml"
+    }
+  ],
+  "extensions": [
+    {
+      "extensionFunction": {
+        "extensionUriReference": 1,
+        "functionAnchor": 2,
+        "name": "add"
+      }
+    }
+  ],
+  "relations": [
+    {
+      "rel": {
+        "project": {
+          "common": {"emit": {"outputMapping": [2]}},
+          "input": {
+            "project": {
+              "common": {"emit": {"outputMapping": [1, 2]}},
+              "input": {
+                "read": {
+                  "baseSchema": {
+                    "names": ["int"],
+                    "struct": {"types": [{"i32": {}}]}
+                  },
+                  "namedTable": {
+                    "names": ["SIMPLEDATA"]
+                  }
+                }
+              },
+              "expressions": [
+                {"selection": {"directReference": {"structField": {"field": 0}}}},
+                {
+                  "scalarFunction": {
+                    "functionReference": 2,
+                    "outputType": {"i32": {}},
+                    "arguments": [
+                      {"value": {"selection": {"directReference": {"structField": {"field": 0}}}}},
+                      {"value": {"literal": {"fp64": 10}}}
+                    ]
+                  }
+                }
+              ]
+            }
+          },
+          "expressions": [
+            {"selection": {"directReference": {"structField": {"field": 0}}}}
+          ]
+        }
+      }
+    }
+  ]
+})";
+
+  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", substrait_json));
+
+  auto output_schema = schema({field("A", int32())});
+  auto expected_table = TableFromJSON(output_schema, {R"([
+      [10],
+      [20],
+      [30]
+  ])"});
+
+  NamedTableProvider table_provider = AlwaysProvideSameTable(std::move(input_table));
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+  ValidateNumProjectNodes(2, buf, conversion_options);
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(Substrait, ReadRelWithGlobFiles) {
+#ifdef _WIN32
+  GTEST_SKIP() << "ARROW-16392: Substrait File URI not supported for Windows";
+#endif
+  arrow::dataset::internal::Initialize();
+
+  auto dummy_schema =
+      schema({field("A", int32()), field("B", int32()), field("C", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto table_1 = TableFromJSON(dummy_schema, {R"([
+      [1, 1, 10],
+      [3, 4, 20]
+    ])"});
+  auto table_2 = TableFromJSON(dummy_schema, {R"([
+      [11, 11, 110],
+      [13, 14, 120]
+    ])"});
+  auto table_3 = TableFromJSON(dummy_schema, {R"([
+      [21, 21, 210],
+      [23, 24, 220]
+    ])"});
+  auto expected_table = TableFromJSON(dummy_schema, {R"([
+      [1, 1, 10],
+      [3, 4, 20],
+      [11, 11, 110],
+      [13, 14, 120],
+      [21, 21, 210],
+      [23, 24, 220]
+    ])"});
+
+  std::vector<std::shared_ptr<Table>> input_tables = {table_1, table_2, table_3};
+  auto format = std::make_shared<arrow::dataset::IpcFileFormat>();
+  auto filesystem = std::make_shared<fs::LocalFileSystem>();
+  const std::vector<std::string> file_names = {"serde_test_1.arrow", "serde_test_2.arrow",
+                                               "serde_test_3.arrow"};
+
+  const std::string path_prefix = "substrait-globfiles-";
+  int idx = 0;
+
+  // creating a vector to avoid out-of-scoping Temporary directory
+  // if out-of-scoped the written folder get wiped out
+  std::vector<std::unique_ptr<arrow::internal::TemporaryDir>> tempdirs;
+  for (size_t i = 0; i < file_names.size(); i++) {
+    ASSERT_OK_AND_ASSIGN(auto tempdir, arrow::internal::TemporaryDir::Make(path_prefix));
+    tempdirs.push_back(std::move(tempdir));
+  }
+
+  std::string sample_tempdir_path = tempdirs[0]->path().ToString();
+  std::string base_tempdir_path =
+      sample_tempdir_path.substr(0, sample_tempdir_path.find(path_prefix));
+  std::string glob_like_path =
+      "file://" + base_tempdir_path + path_prefix + "*/serde_test_*.arrow";
+
+  for (const auto& file_name : file_names) {
+    ASSERT_OK_AND_ASSIGN(auto file_path, tempdirs[idx]->path().Join(file_name));
+    std::string file_path_str = file_path.ToString();
+    WriteIpcData(file_path_str, filesystem, input_tables[idx++]);
+  }
+
+  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", R"({
+    "relations": [{
+      "rel": {
+        "read": {
+          "base_schema": {
+            "names": ["A", "B", "C"],
+            "struct": {
+              "types": [{
+                "i32": {}
+              }, {
+                "i32": {}
+              }, {
+                "i32": {}
+              }]
+            }
+          },
+          "local_files": {
+            "items": [
+              {
+                "uri_path_glob": ")" + glob_like_path +
+                                                                         R"(",
+                "arrow": {}
+              }
+            ]
+          }
+        }
+      }
+    }]
+  })"));
+  // To avoid unnecessar metadata columns being included in the final result
+  std::vector<int> include_columns = {0, 1, 2};
+  compute::SortOptions options({compute::SortKey("A", compute::SortOrder::Ascending)});
+  CheckRoundTripResult(std::move(expected_table), buf, std::move(include_columns),
+                       /*conversion_options=*/{}, &options);
+}
+
+TEST(Substrait, RootRelationOutputNames) {
+  auto dummy_schema =
+      schema({field("A", int32()), field("B", int32()), field("C", int32())});
+
+  // creating a dummy dataset using a dummy table
+  const std::vector<std::string> str_data_vec = {
+      R"([
+      [10, 1, 80],
+      [20, 2, 70],
+      [30, 3, 30]
+  ])"};
+  auto input_table = TableFromJSON(dummy_schema, str_data_vec);
+
+  const std::string substrait_json = R"({
+    "relations": [{
+      "root": {
+        "input": {
+          "project": {
+            "common": {
+              "emit": {
+                "outputMapping": [3, 4, 5]
+              }
+            },
+            "input": {
+              "read": {
+                "common": {
+                  "direct": {
+                  }
+                },
+                "baseSchema": {
+                  "names": ["A", "B", "C"],
+                  "struct": {
+                    "types": [{
+                      "i32": {
+                        "typeVariationReference": 0,
+                        "nullability": "NULLABILITY_REQUIRED"
+                      }
+                    }, {
+                      "i32": {
+                        "typeVariationReference": 0,
+                        "nullability": "NULLABILITY_REQUIRED"
+                      }
+                    }, {
+                      "i32": {
+                        "typeVariationReference": 0,
+                        "nullability": "NULLABILITY_REQUIRED"
+                      }
+                    }],
+                    "typeVariationReference": 0,
+                    "nullability": "NULLABILITY_REQUIRED"
+                  }
+                },
+                "namedTable": {
+                  "names": ["SIMPLEDATA"]
+                }
+              }
+            },
+            "expressions": [{
+              "selection": {
+                "directReference": {
+                  "structField": {
+                    "field": 0
+                  }
+                },
+                "rootReference": {
+                }
+              }
+            }, {
+              "selection": {
+                "directReference": {
+                  "structField": {
+                    "field": 1
+                  }
+                },
+                "rootReference": {
+                }
+              }
+            }, {
+              "selection": {
+                "directReference": {
+                  "structField": {
+                    "field": 2
+                  }
+                },
+                "rootReference": {
+                }
+              }
+            }]
+          }
+        },
+        "names": ["X", "Y", "Z"]
+      }
+    }]
+  })";
+
+  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", substrait_json));
+  auto output_schema =
+      schema({field("X", int32()), field("Y", int32()), field("Z", int32())});
+  auto expected_table = TableFromJSON(output_schema, str_data_vec);
+
+  NamedTableProvider table_provider = AlwaysProvideSameTable(std::move(input_table));
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+  ValidateNumProjectNodes(1, buf, conversion_options);
+  CheckRoundTripResult(std::move(expected_table), buf,
+                       /*include_columns=*/{}, conversion_options);
+}
+
+TEST(Substrait, SetRelationBasic) {
+  auto dummy_schema =
+      schema({field("A", int32()), field("B", int32()), field("C", int32())});
+
+  // creating a dummy dataset using a dummy table
+  auto table1 = TableFromJSON(dummy_schema, {R"([
+      [10, 1, 80],
+      [20, 2, 70],
+      [30, 3, 30],
+      [40, 4, 20],
+      [50, 6, 20],
+      [200, 7, 30]
+  ])"});
+
+  auto table2 = TableFromJSON(dummy_schema, {R"([
+      [70, 1, 82],
+      [80, 2, 72],
+      [90, 3, 32],
+      [100, 4, 22],
+      [110, 5, 42],
+      [111, 6, 22],
+      [112, 7, 32]
+  ])"});
+
+  NamedTableProvider table_provider = [table1,
+                                       table2](const std::vector<std::string>& names) {
+    std::shared_ptr<Table> output_table;
+    for (const auto& name : names) {
+      if (name == "T1") {
+        output_table = table1;
+      }
+      if (name == "T2") {
+        output_table = table2;
+      }
+    }
+    std::shared_ptr<compute::ExecNodeOptions> options =
+        std::make_shared<compute::TableSourceNodeOptions>(std::move(output_table));
+    return compute::Declaration("table_source", {}, options, "mock_source");
+  };
+
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+
+  std::string substrait_json = R"({
+    "relations": [{
+      "root": {
+        "input": {
+          "set": {
+            "inputs": [{
+              "read": {
+                "baseSchema": {
+                  "names": ["FOO"],
+                  "struct": {
+                    "types": [{
+                      "i32": {
+                        "typeVariationReference": 0,
+                        "nullability": "NULLABILITY_NULLABLE"
+                      }
+                    }],
+                    "typeVariationReference": 0,
+                    "nullability": "NULLABILITY_REQUIRED"
+                  }
+                },
+                "namedTable": {
+                  "names": ["T1"]
+                }
+              }  
+            }, {
+              "read": {
+                "baseSchema": {
+                  "names": ["BAR"],
+                  "struct": {
+                    "types": [{
+                      "i32": {
+                        "typeVariationReference": 0,
+                        "nullability": "NULLABILITY_NULLABLE"
+                      }
+                    }],
+                    "typeVariationReference": 0,
+                    "nullability": "NULLABILITY_REQUIRED"
+                  }
+                },
+                "namedTable": {
+                  "names": ["T2"]
+                }
+              }
+            }],
+            "op": "SET_OP_UNION_ALL"
+          }
+        },
+        "names": ["FOO"]
+      }
+    }]
+  })";
+
+  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", substrait_json));
+
+  auto expected_table = TableFromJSON(dummy_schema, {R"([
+      [10, 1, 80],
+      [20, 2, 70],
+      [30, 3, 30],
+      [40, 4, 20],
+      [50, 6, 20],
+      [70, 1, 82],
+      [80, 2, 72],
+      [90, 3, 32],
+      [100, 4, 22],
+      [110, 5, 42],
+      [111, 6, 22],
+      [112, 7, 32],
+      [200, 7, 30]
+  ])"});
+
+  compute::SortOptions sort_options(
+      {compute::SortKey("A", compute::SortOrder::Ascending)});
+  CheckRoundTripResult(std::move(expected_table), buf, {}, conversion_options,
+                       &sort_options);
+}
+
+TEST(Substrait, PlanWithAsOfJoinExtension) {
+  // This demos an extension relation
+  std::string substrait_json = R"({
+    "extensionUris": [],
+    "extensions": [],
+    "relations": [{
+      "root": {
+        "input": {
+          "extension_multi": {
+            "common": {
+              "emit": {
+                "outputMapping": [0, 1, 2, 3]
+              }
+            },
+            "inputs": [
+              {
+                "read": {
+                  "common": {
+                    "direct": {
+                    }
+                  },
+                  "baseSchema": {
+                    "names": ["time", "key", "value1"],
+                    "struct": {
+                      "types": [
+                        {
+                          "i32": {
+                            "typeVariationReference": 0,
+                            "nullability": "NULLABILITY_NULLABLE"
+                          }
+                        },
+                        {
+                          "i32": {
+                            "typeVariationReference": 0,
+                            "nullability": "NULLABILITY_NULLABLE"
+                          }
+                        },
+                        {
+                          "fp64": {
+                            "typeVariationReference": 0,
+                            "nullability": "NULLABILITY_NULLABLE"
+                          }
+                        }
+                      ],
+                      "typeVariationReference": 0,
+                      "nullability": "NULLABILITY_REQUIRED"
+                    }
+                  },
+                  "namedTable": {
+                    "names": ["T1"]
+                  }
+                }
+              },
+              {
+                "read": {
+                  "common": {
+                    "direct": {
+                    }
+                  },
+                  "baseSchema": {
+                    "names": ["time", "key", "value2"],
+                    "struct": {
+                      "types": [
+                        {
+                          "i32": {
+                            "typeVariationReference": 0,
+                            "nullability": "NULLABILITY_NULLABLE"
+                          }
+                        },
+                        {
+                          "i32": {
+                            "typeVariationReference": 0,
+                            "nullability": "NULLABILITY_NULLABLE"
+                          }
+                        },
+                        {
+                          "fp64": {
+                            "typeVariationReference": 0,
+                            "nullability": "NULLABILITY_NULLABLE"
+                          }
+                        }
+                      ],
+                      "typeVariationReference": 0,
+                      "nullability": "NULLABILITY_REQUIRED"
+                    }
+                  },
+                  "namedTable": {
+                    "names": ["T2"]
+                  }
+                }
+              }
+            ],
+            "detail": {
+              "@type": "/arrow.substrait_ext.AsOfJoinRel",
+              "keys" : [
+                {
+                  "on": {
+                    "selection": {
+                      "directReference": {
+                        "structField": {
+                          "field": 0,
+                        }
+                      },
+                      "rootReference": {}
+                    }
+                  },
+                  "by": [
+                    {
+                      "selection": {
+                        "directReference": {
+                          "structField": {
+                            "field": 1,
+                          }
+                        },
+                        "rootReference": {}
+                      }
+                    }
+                  ]
+		},
+                {
+                  "on": {
+                    "selection": {
+                      "directReference": {
+                        "structField": {
+                          "field": 0,
+                        }
+                      },
+                      "rootReference": {}
+                    }
+                  },
+                  "by": [
+                    {
+                      "selection": {
+                        "directReference": {
+                          "structField": {
+                            "field": 1,
+                          }
+                        },
+                        "rootReference": {}
+                      }
+                    }
+                  ]
+		}
+	      ],
+              "tolerance": 1000
+            }
+          }
+        },
+        "names": ["time", "key", "value1", "value2"]
+      }
+    }],
+    "expectedTypeUrls": []
+  })";
+
+  std::vector<std::shared_ptr<Schema>> input_schema = {
+      schema({field("time", int32()), field("key", int32()), field("value1", float64())}),
+      schema(
+          {field("time", int32()), field("key", int32()), field("value2", float64())})};
+  NamedTableProvider table_provider = ProvideMadeTable(
+      [&input_schema](
+          const std::vector<std::string>& names) -> Result<std::shared_ptr<Table>> {
+        if (names.size() != 1) {
+          return Status::Invalid("Multiple test table names");
+        }
+        if (names[0] == "T1") {
+          return TableFromJSON(input_schema[0],
+                               {"[[2, 1, 1.1], [4, 1, 2.1], [6, 2, 3.1]]"});
+        }
+        if (names[0] == "T2") {
+          return TableFromJSON(input_schema[1],
+                               {"[[1, 1, 1.2], [3, 2, 2.2], [5, 2, 3.2]]"});
+        }
+        return Status::Invalid("Unknown test table name ", names[0]);
+      });
+  ConversionOptions conversion_options;
+  conversion_options.named_table_provider = std::move(table_provider);
+
+  ASSERT_OK_AND_ASSIGN(auto buf, internal::SubstraitFromJSON("Plan", substrait_json));
+  ValidateNumProjectNodes(1, buf, conversion_options);
+  ASSERT_OK_AND_ASSIGN(
+      auto out_schema,
+      compute::asofjoin::MakeOutputSchema(
+          input_schema, {{FieldRef(0), {FieldRef(1)}}, {FieldRef(0), {FieldRef(1)}}}));
+  auto expected_table = TableFromJSON(
+      out_schema, {"[[2, 1, 1.1, 1.2], [4, 1, 2.1, 1.2], [6, 2, 3.1, 3.2]]"});
+  CheckRoundTripResult(std::move(expected_table), buf, {}, conversion_options);
+}
+
 }  // namespace engine
 }  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/test_plan_builder.cc b/cpp/src/arrow/engine/substrait/test_plan_builder.cc
new file mode 100644
index 00000000000..62f4361a610
--- /dev/null
+++ b/cpp/src/arrow/engine/substrait/test_plan_builder.cc
@@ -0,0 +1,231 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "arrow/engine/substrait/test_plan_builder.h"
+
+#include <cstddef>
+#include <cstdint>
+#include <limits>
+#include <memory>
+#include <utility>
+
+#include "arrow/buffer.h"
+#include "arrow/engine/substrait/extension_set.h"
+#include "arrow/engine/substrait/options.h"
+#include "arrow/engine/substrait/plan_internal.h"
+#include "arrow/engine/substrait/type_internal.h"
+#include "arrow/status.h"
+#include "arrow/table.h"
+#include "arrow/type_fwd.h"
+
+#include "substrait/algebra.pb.h"
+
+namespace arrow {
+namespace engine {
+namespace internal {
+
+static const ConversionOptions kPlanBuilderConversionOptions;
+
+Result<std::unique_ptr<substrait::ReadRel>> CreateRead(const Table& table,
+                                                       ExtensionSet* ext_set) {
+  auto read = std::make_unique<substrait::ReadRel>();
+
+  ARROW_ASSIGN_OR_RAISE(std::unique_ptr<substrait::NamedStruct> schema,
+                        ToProto(*table.schema(), ext_set, kPlanBuilderConversionOptions));
+  read->set_allocated_base_schema(schema.release());
+
+  auto named_table = std::make_unique<substrait::ReadRel::NamedTable>();
+  named_table->add_names("test");
+  read->set_allocated_named_table(named_table.release());
+
+  return read;
+}
+
+void CreateDirectReference(int32_t index, substrait::Expression* expr) {
+  auto reference = std::make_unique<substrait::Expression::FieldReference>();
+  auto reference_segment = std::make_unique<substrait::Expression::ReferenceSegment>();
+  auto struct_field =
+      std::make_unique<substrait::Expression::ReferenceSegment::StructField>();
+  struct_field->set_field(index);
+  reference_segment->set_allocated_struct_field(struct_field.release());
+  reference->set_allocated_direct_reference(reference_segment.release());
+
+  auto root_reference =
+      std::make_unique<substrait::Expression::FieldReference::RootReference>();
+  reference->set_allocated_root_reference(root_reference.release());
+  expr->set_allocated_selection(reference.release());
+}
+
+Result<std::unique_ptr<substrait::ProjectRel>> CreateProject(
+    Id function_id, const std::vector<std::string>& arguments,
+    const std::unordered_map<std::string, std::vector<std::string>> options,
+    const std::vector<std::shared_ptr<DataType>>& arg_types, const DataType& output_type,
+    ExtensionSet* ext_set) {
+  auto project = std::make_unique<substrait::ProjectRel>();
+
+  auto call = std::make_unique<substrait::Expression::ScalarFunction>();
+  ARROW_ASSIGN_OR_RAISE(uint32_t function_anchor, ext_set->EncodeFunction(function_id));
+  call->set_function_reference(function_anchor);
+
+  std::size_t arg_index = 0;
+  std::size_t table_arg_index = 0;
+  for (const std::shared_ptr<DataType>& arg_type : arg_types) {
+    substrait::FunctionArgument* argument = call->add_arguments();
+    if (arg_type) {
+      // If it has a type then it's a reference to the input table
+      auto expression = std::make_unique<substrait::Expression>();
+      CreateDirectReference(static_cast<int32_t>(table_arg_index++), expression.get());
+      argument->set_allocated_value(expression.release());
+    } else {
+      // If it doesn't have a type then it's an enum
+      const std::string& enum_value = arguments[arg_index];
+      argument->set_enum_(enum_value);
+    }
+    arg_index++;
+  }
+  for (const auto& opt : options) {
+    substrait::FunctionOption* option = call->add_options();
+    option->set_name(opt.first);
+    for (const std::string& pref : opt.second) {
+      option->add_preference(pref);
+    }
+  }
+
+  ARROW_ASSIGN_OR_RAISE(
+      std::unique_ptr<substrait::Type> output_type_substrait,
+      ToProto(output_type, /*nullable=*/true, ext_set, kPlanBuilderConversionOptions));
+  call->set_allocated_output_type(output_type_substrait.release());
+
+  substrait::Expression* call_expression = project->add_expressions();
+  call_expression->set_allocated_scalar_function(call.release());
+
+  return project;
+}
+
+Result<std::unique_ptr<substrait::AggregateRel>> CreateAgg(Id function_id,
+                                                           const std::vector<int>& keys,
+                                                           int arg_idx,
+                                                           const DataType& output_type,
+                                                           ExtensionSet* ext_set) {
+  auto agg = std::make_unique<substrait::AggregateRel>();
+
+  if (!keys.empty()) {
+    substrait::AggregateRel::Grouping* grouping = agg->add_groupings();
+    for (int key : keys) {
+      substrait::Expression* key_expr = grouping->add_grouping_expressions();
+      CreateDirectReference(key, key_expr);
+    }
+  }
+
+  substrait::AggregateRel::Measure* measure_wrapper = agg->add_measures();
+  auto agg_func = std::make_unique<substrait::AggregateFunction>();
+  ARROW_ASSIGN_OR_RAISE(uint32_t function_anchor, ext_set->EncodeFunction(function_id));
+
+  agg_func->set_function_reference(function_anchor);
+
+  substrait::FunctionArgument* arg = agg_func->add_arguments();
+  auto arg_expr = std::make_unique<substrait::Expression>();
+  CreateDirectReference(arg_idx, arg_expr.get());
+  arg->set_allocated_value(arg_expr.release());
+
+  agg_func->set_phase(substrait::AggregationPhase::AGGREGATION_PHASE_INITIAL_TO_RESULT);
+  agg_func->set_invocation(
+      substrait::AggregateFunction::AggregationInvocation::
+          AggregateFunction_AggregationInvocation_AGGREGATION_INVOCATION_ALL);
+
+  ARROW_ASSIGN_OR_RAISE(
+      std::unique_ptr<substrait::Type> output_type_substrait,
+      ToProto(output_type, /*nullable=*/true, ext_set, kPlanBuilderConversionOptions));
+  agg_func->set_allocated_output_type(output_type_substrait.release());
+  measure_wrapper->set_allocated_measure(agg_func.release());
+
+  return agg;
+}
+
+std::unique_ptr<substrait::Version> CreateTestVersion() {
+  auto version = std::make_unique<substrait::Version>();
+  version->set_major_number(std::numeric_limits<uint32_t>::max());
+  version->set_minor_number(std::numeric_limits<uint32_t>::max());
+  version->set_patch_number(std::numeric_limits<uint32_t>::max());
+  version->set_producer("Arrow unit test");
+  return version;
+}
+
+Result<std::unique_ptr<substrait::Plan>> CreatePlan(std::unique_ptr<substrait::Rel> root,
+                                                    ExtensionSet* ext_set) {
+  auto plan = std::make_unique<substrait::Plan>();
+  plan->set_allocated_version(CreateTestVersion().release());
+
+  substrait::PlanRel* plan_rel = plan->add_relations();
+  auto rel_root = std::make_unique<substrait::RelRoot>();
+  rel_root->set_allocated_input(root.release());
+  plan_rel->set_allocated_root(rel_root.release());
+
+  ARROW_RETURN_NOT_OK(AddExtensionSetToPlan(*ext_set, plan.get()));
+  return plan;
+}
+
+Result<std::shared_ptr<Buffer>> CreateScanProjectSubstrait(
+    Id function_id, const std::shared_ptr<Table>& input_table,
+    const std::vector<std::string>& arguments,
+    const std::unordered_map<std::string, std::vector<std::string>>& options,
+    const std::vector<std::shared_ptr<DataType>>& data_types,
+    const DataType& output_type) {
+  ExtensionSet ext_set;
+  ARROW_ASSIGN_OR_RAISE(std::unique_ptr<substrait::ReadRel> read,
+                        CreateRead(*input_table, &ext_set));
+  ARROW_ASSIGN_OR_RAISE(
+      std::unique_ptr<substrait::ProjectRel> project,
+      CreateProject(function_id, arguments, options, data_types, output_type, &ext_set));
+
+  auto read_rel = std::make_unique<substrait::Rel>();
+  read_rel->set_allocated_read(read.release());
+  project->set_allocated_input(read_rel.release());
+
+  auto project_rel = std::make_unique<substrait::Rel>();
+  project_rel->set_allocated_project(project.release());
+
+  ARROW_ASSIGN_OR_RAISE(std::unique_ptr<substrait::Plan> plan,
+                        CreatePlan(std::move(project_rel), &ext_set));
+  return Buffer::FromString(plan->SerializeAsString());
+}
+
+Result<std::shared_ptr<Buffer>> CreateScanAggSubstrait(
+    Id function_id, const std::shared_ptr<Table>& input_table,
+    const std::vector<int>& key_idxs, int arg_idx, const DataType& output_type) {
+  ExtensionSet ext_set;
+
+  ARROW_ASSIGN_OR_RAISE(std::unique_ptr<substrait::ReadRel> read,
+                        CreateRead(*input_table, &ext_set));
+  ARROW_ASSIGN_OR_RAISE(std::unique_ptr<substrait::AggregateRel> agg,
+                        CreateAgg(function_id, key_idxs, arg_idx, output_type, &ext_set));
+
+  auto read_rel = std::make_unique<substrait::Rel>();
+  read_rel->set_allocated_read(read.release());
+  agg->set_allocated_input(read_rel.release());
+
+  auto agg_rel = std::make_unique<substrait::Rel>();
+  agg_rel->set_allocated_aggregate(agg.release());
+
+  ARROW_ASSIGN_OR_RAISE(std::unique_ptr<substrait::Plan> plan,
+                        CreatePlan(std::move(agg_rel), &ext_set));
+  return Buffer::FromString(plan->SerializeAsString());
+}
+
+}  // namespace internal
+}  // namespace engine
+}  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/test_plan_builder.h b/cpp/src/arrow/engine/substrait/test_plan_builder.h
new file mode 100644
index 00000000000..8af156ea612
--- /dev/null
+++ b/cpp/src/arrow/engine/substrait/test_plan_builder.h
@@ -0,0 +1,75 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+// These utilities are for internal / unit test use only.
+// They allow for the construction of simple Substrait plans
+// programmatically without first requiring the construction
+// of an ExecPlan
+
+// These utilities have to be here, and not in a test_util.cc
+// file (or in a unit test) because only one .so is allowed
+// to include each .pb.h file or else protobuf will encounter
+// global namespace conflicts.
+
+#include <memory>
+#include <string>
+#include <unordered_map>
+#include <vector>
+
+#include "arrow/engine/substrait/visibility.h"
+#include "arrow/result.h"
+#include "arrow/type_fwd.h"
+
+namespace arrow {
+namespace engine {
+
+struct Id;
+
+namespace internal {
+
+/// \brief Create a scan->project->sink plan for tests
+///
+/// The plan will project one additional column using the function
+/// defined by `function_id`, `arguments`, and data_types.  `arguments`
+/// and `data_types` should have the same length but only one of each
+/// should be defined at each index.
+///
+/// If `data_types` is defined at an index then the plan will create a
+/// direct reference (starting at index 0 and increasing by 1 for each
+/// argument of this type).
+///
+/// If `arguments` is defined at an index then the plan will create an
+/// enum argument with that value.
+ARROW_ENGINE_EXPORT Result<std::shared_ptr<Buffer>> CreateScanProjectSubstrait(
+    Id function_id, const std::shared_ptr<Table>& input_table,
+    const std::vector<std::string>& arguments,
+    const std::unordered_map<std::string, std::vector<std::string>>& options,
+    const std::vector<std::shared_ptr<DataType>>& data_types,
+    const DataType& output_type);
+
+/// \brief Create a scan->aggregate->sink plan for tests
+///
+/// The plan will create an aggregate with one grouping set (defined by
+/// key_idxs) and one measure.  The measure will be a unary function
+/// defined by `function_id` and a direct reference to `arg_idx`.
+ARROW_ENGINE_EXPORT Result<std::shared_ptr<Buffer>> CreateScanAggSubstrait(
+    Id function_id, const std::shared_ptr<Table>& input_table,
+    const std::vector<int>& key_idxs, int arg_idx, const DataType& output_type);
+
+}  // namespace internal
+}  // namespace engine
+}  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/type_fwd.h b/cpp/src/arrow/engine/substrait/type_fwd.h
new file mode 100644
index 00000000000..6089d3f747a
--- /dev/null
+++ b/cpp/src/arrow/engine/substrait/type_fwd.h
@@ -0,0 +1,32 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+// This API is EXPERIMENTAL.
+
+#pragma once
+
+namespace arrow {
+namespace engine {
+
+class ExtensionIdRegistry;
+class ExtensionSet;
+
+struct ConversionOptions;
+struct DeclarationInfo;
+
+}  // namespace engine
+}  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/type_internal.cc b/cpp/src/arrow/engine/substrait/type_internal.cc
index 310413a8926..fad49b822b4 100644
--- a/cpp/src/arrow/engine/substrait/type_internal.cc
+++ b/cpp/src/arrow/engine/substrait/type_internal.cc
@@ -17,30 +17,34 @@
 
 #include "arrow/engine/substrait/type_internal.h"
 
+#include <array>
+#include <cstdint>
+#include <memory>
+#include <optional>
 #include <string>
+#include <tuple>
+#include <type_traits>
 #include <vector>
 
+#include "arrow/engine/substrait/extension_set.h"
 #include "arrow/engine/substrait/extension_types.h"
+#include "arrow/engine/substrait/options.h"
+#include "arrow/extension_type.h"
 #include "arrow/result.h"
 #include "arrow/status.h"
 #include "arrow/type.h"
-#include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
+#include "arrow/type_fwd.h"
 #include "arrow/visit_type_inline.h"
 
 namespace arrow {
 namespace engine {
 
-namespace internal {
-using ::arrow::internal::make_unique;
-}  // namespace internal
-
 namespace {
 
 template <typename TypeMessage>
 bool IsNullable(const TypeMessage& type) {
   // FIXME what can we do with NULLABILITY_UNSPECIFIED
-  return type.nullability() != ::substrait::Type::NULLABILITY_REQUIRED;
+  return type.nullability() != substrait::Type::NULLABILITY_REQUIRED;
 }
 
 template <typename ArrowType, typename TypeMessage, typename... A>
@@ -91,67 +95,67 @@ Result<FieldVector> FieldsFromProto(int size, const Types& types,
 }  // namespace
 
 Result<std::pair<std::shared_ptr<DataType>, bool>> FromProto(
-    const ::substrait::Type& type, const ExtensionSet& ext_set,
+    const substrait::Type& type, const ExtensionSet& ext_set,
     const ConversionOptions& conversion_options) {
   switch (type.kind_case()) {
-    case ::substrait::Type::kBool:
+    case substrait::Type::kBool:
       return FromProtoImpl<BooleanType>(type.bool_());
 
-    case ::substrait::Type::kI8:
+    case substrait::Type::kI8:
       return FromProtoImpl<Int8Type>(type.i8());
-    case ::substrait::Type::kI16:
+    case substrait::Type::kI16:
       return FromProtoImpl<Int16Type>(type.i16());
-    case ::substrait::Type::kI32:
+    case substrait::Type::kI32:
       return FromProtoImpl<Int32Type>(type.i32());
-    case ::substrait::Type::kI64:
+    case substrait::Type::kI64:
       return FromProtoImpl<Int64Type>(type.i64());
 
-    case ::substrait::Type::kFp32:
+    case substrait::Type::kFp32:
       return FromProtoImpl<FloatType>(type.fp32());
-    case ::substrait::Type::kFp64:
+    case substrait::Type::kFp64:
       return FromProtoImpl<DoubleType>(type.fp64());
 
-    case ::substrait::Type::kString:
+    case substrait::Type::kString:
       return FromProtoImpl<StringType>(type.string());
-    case ::substrait::Type::kBinary:
+    case substrait::Type::kBinary:
       return FromProtoImpl<BinaryType>(type.binary());
 
-    case ::substrait::Type::kTimestamp:
+    case substrait::Type::kTimestamp:
       return FromProtoImpl<TimestampType>(type.timestamp(), TimeUnit::MICRO);
-    case ::substrait::Type::kTimestampTz:
+    case substrait::Type::kTimestampTz:
       return FromProtoImpl<TimestampType>(type.timestamp_tz(), TimeUnit::MICRO,
                                           TimestampTzTimezoneString());
-    case ::substrait::Type::kDate:
+    case substrait::Type::kDate:
       return FromProtoImpl<Date32Type>(type.date());
 
-    case ::substrait::Type::kTime:
+    case substrait::Type::kTime:
       return FromProtoImpl<Time64Type>(type.time(), TimeUnit::MICRO);
 
-    case ::substrait::Type::kIntervalYear:
+    case substrait::Type::kIntervalYear:
       return FromProtoImpl(type.interval_year(), interval_year);
 
-    case ::substrait::Type::kIntervalDay:
+    case substrait::Type::kIntervalDay:
       return FromProtoImpl(type.interval_day(), interval_day);
 
-    case ::substrait::Type::kUuid:
+    case substrait::Type::kUuid:
       return FromProtoImpl(type.uuid(), uuid);
 
-    case ::substrait::Type::kFixedChar:
+    case substrait::Type::kFixedChar:
       return FromProtoImpl(type.fixed_char(), fixed_char, type.fixed_char().length());
 
-    case ::substrait::Type::kVarchar:
+    case substrait::Type::kVarchar:
       return FromProtoImpl(type.varchar(), varchar, type.varchar().length());
 
-    case ::substrait::Type::kFixedBinary:
+    case substrait::Type::kFixedBinary:
       return FromProtoImpl<FixedSizeBinaryType>(type.fixed_binary(),
                                                 type.fixed_binary().length());
 
-    case ::substrait::Type::kDecimal: {
+    case substrait::Type::kDecimal: {
       const auto& decimal = type.decimal();
       return FromProtoImpl<Decimal128Type>(decimal, decimal.precision(), decimal.scale());
     }
 
-    case ::substrait::Type::kStruct: {
+    case substrait::Type::kStruct: {
       const auto& struct_ = type.struct_();
 
       ARROW_ASSIGN_OR_RAISE(
@@ -162,7 +166,7 @@ Result<std::pair<std::shared_ptr<DataType>, bool>> FromProto(
       return FromProtoImpl<StructType>(struct_, std::move(fields));
     }
 
-    case ::substrait::Type::kList: {
+    case substrait::Type::kList: {
       const auto& list = type.list();
 
       if (!list.has_type()) {
@@ -177,7 +181,7 @@ Result<std::pair<std::shared_ptr<DataType>, bool>> FromProto(
           list, field("item", std::move(type_nullable.first), type_nullable.second));
     }
 
-    case ::substrait::Type::kMap: {
+    case substrait::Type::kMap: {
       const auto& map = type.map();
 
       static const std::array<char const*, 4> kMissing = {"key and value", "value", "key",
@@ -203,7 +207,7 @@ Result<std::pair<std::shared_ptr<DataType>, bool>> FromProto(
           field("value", std::move(value_nullable.first), value_nullable.second));
     }
 
-    case ::substrait::Type::kUserDefined: {
+    case substrait::Type::kUserDefined: {
       const auto& user_defined = type.user_defined();
       uint32_t anchor = user_defined.type_reference();
       ARROW_ASSIGN_OR_RAISE(auto type_record, ext_set.DecodeType(anchor));
@@ -224,20 +228,18 @@ struct DataTypeToProtoImpl {
   Status Visit(const NullType& t) { return EncodeUserDefined(t); }
 
   Status Visit(const BooleanType& t) {
-    return SetWith(&::substrait::Type::set_allocated_bool_);
+    return SetWith(&substrait::Type::set_allocated_bool_);
   }
 
-  Status Visit(const Int8Type& t) {
-    return SetWith(&::substrait::Type::set_allocated_i8);
-  }
+  Status Visit(const Int8Type& t) { return SetWith(&substrait::Type::set_allocated_i8); }
   Status Visit(const Int16Type& t) {
-    return SetWith(&::substrait::Type::set_allocated_i16);
+    return SetWith(&substrait::Type::set_allocated_i16);
   }
   Status Visit(const Int32Type& t) {
-    return SetWith(&::substrait::Type::set_allocated_i32);
+    return SetWith(&substrait::Type::set_allocated_i32);
   }
   Status Visit(const Int64Type& t) {
-    return SetWith(&::substrait::Type::set_allocated_i64);
+    return SetWith(&substrait::Type::set_allocated_i64);
   }
 
   Status Visit(const UInt8Type& t) { return EncodeUserDefined(t); }
@@ -247,27 +249,26 @@ struct DataTypeToProtoImpl {
 
   Status Visit(const HalfFloatType& t) { return EncodeUserDefined(t); }
   Status Visit(const FloatType& t) {
-    return SetWith(&::substrait::Type::set_allocated_fp32);
+    return SetWith(&substrait::Type::set_allocated_fp32);
   }
   Status Visit(const DoubleType& t) {
-    return SetWith(&::substrait::Type::set_allocated_fp64);
+    return SetWith(&substrait::Type::set_allocated_fp64);
   }
 
   Status Visit(const StringType& t) {
-    return SetWith(&::substrait::Type::set_allocated_string);
+    return SetWith(&substrait::Type::set_allocated_string);
   }
   Status Visit(const BinaryType& t) {
-    return SetWith(&::substrait::Type::set_allocated_binary);
+    return SetWith(&substrait::Type::set_allocated_binary);
   }
 
   Status Visit(const FixedSizeBinaryType& t) {
-    SetWithThen(&::substrait::Type::set_allocated_fixed_binary)
-        ->set_length(t.byte_width());
+    SetWithThen(&substrait::Type::set_allocated_fixed_binary)->set_length(t.byte_width());
     return Status::OK();
   }
 
   Status Visit(const Date32Type& t) {
-    return SetWith(&::substrait::Type::set_allocated_date);
+    return SetWith(&substrait::Type::set_allocated_date);
   }
   Status Visit(const Date64Type& t) { return NotImplemented(t); }
 
@@ -275,10 +276,10 @@ struct DataTypeToProtoImpl {
     if (t.unit() != TimeUnit::MICRO) return NotImplemented(t);
 
     if (t.timezone() == "") {
-      return SetWith(&::substrait::Type::set_allocated_timestamp);
+      return SetWith(&substrait::Type::set_allocated_timestamp);
     }
     if (t.timezone() == TimestampTzTimezoneString()) {
-      return SetWith(&::substrait::Type::set_allocated_timestamp_tz);
+      return SetWith(&substrait::Type::set_allocated_timestamp_tz);
     }
 
     return NotImplemented(t);
@@ -287,14 +288,14 @@ struct DataTypeToProtoImpl {
   Status Visit(const Time32Type& t) { return NotImplemented(t); }
   Status Visit(const Time64Type& t) {
     if (t.unit() != TimeUnit::MICRO) return NotImplemented(t);
-    return SetWith(&::substrait::Type::set_allocated_time);
+    return SetWith(&substrait::Type::set_allocated_time);
   }
 
   Status Visit(const MonthIntervalType& t) { return EncodeUserDefined(t); }
   Status Visit(const DayTimeIntervalType& t) { return EncodeUserDefined(t); }
 
   Status Visit(const Decimal128Type& t) {
-    auto dec = SetWithThen(&::substrait::Type::set_allocated_decimal);
+    auto dec = SetWithThen(&substrait::Type::set_allocated_decimal);
     dec->set_precision(t.precision());
     dec->set_scale(t.scale());
     return Status::OK();
@@ -305,20 +306,18 @@ struct DataTypeToProtoImpl {
     // FIXME assert default field name; custom ones won't roundtrip
     ARROW_ASSIGN_OR_RAISE(auto type, ToProto(*t.value_type(), t.value_field()->nullable(),
                                              ext_set_, conversion_options_));
-    SetWithThen(&::substrait::Type::set_allocated_list)
-        ->set_allocated_type(type.release());
+    SetWithThen(&substrait::Type::set_allocated_list)->set_allocated_type(type.release());
     return Status::OK();
   }
 
   Status Visit(const StructType& t) {
-    auto types = SetWithThen(&::substrait::Type::set_allocated_struct_)->mutable_types();
+    auto types = SetWithThen(&substrait::Type::set_allocated_struct_)->mutable_types();
 
     types->Reserve(t.num_fields());
 
     for (const auto& field : t.fields()) {
       if (field->metadata() != nullptr) {
-        return Status::Invalid(
-            "::substrait::Type::Struct does not support field metadata");
+        return Status::Invalid("substrait::Type::Struct does not support field metadata");
       }
       ARROW_ASSIGN_OR_RAISE(auto type, ToProto(*field->type(), field->nullable(),
                                                ext_set_, conversion_options_));
@@ -333,7 +332,7 @@ struct DataTypeToProtoImpl {
 
   Status Visit(const MapType& t) {
     // FIXME assert default field names; custom ones won't roundtrip
-    auto map = SetWithThen(&::substrait::Type::set_allocated_map);
+    auto map = SetWithThen(&substrait::Type::set_allocated_map);
 
     ARROW_ASSIGN_OR_RAISE(auto key, ToProto(*t.key_type(), /*nullable=*/false, ext_set_,
                                             conversion_options_));
@@ -348,25 +347,25 @@ struct DataTypeToProtoImpl {
 
   Status Visit(const ExtensionType& t) {
     if (UnwrapUuid(t)) {
-      return SetWith(&::substrait::Type::set_allocated_uuid);
+      return SetWith(&substrait::Type::set_allocated_uuid);
     }
 
     if (auto length = UnwrapFixedChar(t)) {
-      SetWithThen(&::substrait::Type::set_allocated_fixed_char)->set_length(*length);
+      SetWithThen(&substrait::Type::set_allocated_fixed_char)->set_length(*length);
       return Status::OK();
     }
 
     if (auto length = UnwrapVarChar(t)) {
-      SetWithThen(&::substrait::Type::set_allocated_varchar)->set_length(*length);
+      SetWithThen(&substrait::Type::set_allocated_varchar)->set_length(*length);
       return Status::OK();
     }
 
     if (UnwrapIntervalYear(t)) {
-      return SetWith(&::substrait::Type::set_allocated_interval_year);
+      return SetWith(&substrait::Type::set_allocated_interval_year);
     }
 
     if (UnwrapIntervalDay(t)) {
-      return SetWith(&::substrait::Type::set_allocated_interval_day);
+      return SetWith(&substrait::Type::set_allocated_interval_day);
     }
 
     return NotImplemented(t);
@@ -380,10 +379,10 @@ struct DataTypeToProtoImpl {
   Status Visit(const MonthDayNanoIntervalType& t) { return EncodeUserDefined(t); }
 
   template <typename Sub>
-  Sub* SetWithThen(void (::substrait::Type::*set_allocated_sub)(Sub*)) {
-    auto sub = internal::make_unique<Sub>();
-    sub->set_nullability(nullable_ ? ::substrait::Type::NULLABILITY_NULLABLE
-                                   : ::substrait::Type::NULLABILITY_REQUIRED);
+  Sub* SetWithThen(void (substrait::Type::*set_allocated_sub)(Sub*)) {
+    auto sub = std::make_unique<Sub>();
+    sub->set_nullability(nullable_ ? substrait::Type::NULLABILITY_NULLABLE
+                                   : substrait::Type::NULLABILITY_REQUIRED);
 
     auto out = sub.get();
     (type_->*set_allocated_sub)(sub.release());
@@ -391,44 +390,44 @@ struct DataTypeToProtoImpl {
   }
 
   template <typename Sub>
-  Status SetWith(void (::substrait::Type::*set_allocated_sub)(Sub*)) {
+  Status SetWith(void (substrait::Type::*set_allocated_sub)(Sub*)) {
     return SetWithThen(set_allocated_sub), Status::OK();
   }
 
   template <typename T>
   Status EncodeUserDefined(const T& t) {
     ARROW_ASSIGN_OR_RAISE(auto anchor, ext_set_->EncodeType(t));
-    auto user_defined = internal::make_unique<::substrait::Type_UserDefined>();
+    auto user_defined = std::make_unique<substrait::Type::UserDefined>();
     user_defined->set_type_reference(anchor);
-    user_defined->set_nullability(nullable_ ? ::substrait::Type::NULLABILITY_NULLABLE
-                                            : ::substrait::Type::NULLABILITY_REQUIRED);
+    user_defined->set_nullability(nullable_ ? substrait::Type::NULLABILITY_NULLABLE
+                                            : substrait::Type::NULLABILITY_REQUIRED);
     type_->set_allocated_user_defined(user_defined.release());
     return Status::OK();
   }
 
   Status NotImplemented(const DataType& t) {
-    return Status::NotImplemented("conversion to ::substrait::Type from ", t.ToString());
+    return Status::NotImplemented("conversion to substrait::Type from ", t.ToString());
   }
 
   Status operator()(const DataType& type) { return VisitTypeInline(type, this); }
 
-  ::substrait::Type* type_;
+  substrait::Type* type_;
   bool nullable_;
   ExtensionSet* ext_set_;
   const ConversionOptions& conversion_options_;
 };
 }  // namespace
 
-Result<std::unique_ptr<::substrait::Type>> ToProto(
+Result<std::unique_ptr<substrait::Type>> ToProto(
     const DataType& type, bool nullable, ExtensionSet* ext_set,
     const ConversionOptions& conversion_options) {
-  auto out = internal::make_unique<::substrait::Type>();
+  auto out = std::make_unique<substrait::Type>();
   RETURN_NOT_OK(
       (DataTypeToProtoImpl{out.get(), nullable, ext_set, conversion_options})(type));
   return std::move(out);
 }
 
-Result<std::shared_ptr<Schema>> FromProto(const ::substrait::NamedStruct& named_struct,
+Result<std::shared_ptr<Schema>> FromProto(const substrait::NamedStruct& named_struct,
                                           const ExtensionSet& ext_set,
                                           const ConversionOptions& conversion_options) {
   if (!named_struct.has_struct_()) {
@@ -472,26 +471,28 @@ void ToProtoGetDepthFirstNames(const FieldVector& fields,
 }
 }  // namespace
 
-Result<std::unique_ptr<::substrait::NamedStruct>> ToProto(
+Result<std::unique_ptr<substrait::NamedStruct>> ToProto(
     const Schema& schema, ExtensionSet* ext_set,
     const ConversionOptions& conversion_options) {
-  if (schema.metadata()) {
-    return Status::Invalid("::substrait::NamedStruct does not support schema metadata");
+  if (conversion_options.strictness == ConversionStrictness::EXACT_ROUNDTRIP &&
+      schema.metadata() != nullptr) {
+    return Status::Invalid("substrait::NamedStruct does not support schema metadata");
   }
 
-  auto named_struct = internal::make_unique<::substrait::NamedStruct>();
+  auto named_struct = std::make_unique<substrait::NamedStruct>();
 
   auto names = named_struct->mutable_names();
   names->Reserve(schema.num_fields());
   ToProtoGetDepthFirstNames(schema.fields(), names);
 
-  auto struct_ = internal::make_unique<::substrait::Type::Struct>();
+  auto struct_ = std::make_unique<substrait::Type::Struct>();
   auto types = struct_->mutable_types();
   types->Reserve(schema.num_fields());
 
   for (const auto& field : schema.fields()) {
-    if (field->metadata() != nullptr) {
-      return Status::Invalid("::substrait::NamedStruct does not support field metadata");
+    if (conversion_options.strictness == ConversionStrictness::EXACT_ROUNDTRIP &&
+        field->metadata() != nullptr) {
+      return Status::Invalid("substrait::NamedStruct does not support field metadata");
     }
 
     ARROW_ASSIGN_OR_RAISE(auto type, ToProto(*field->type(), field->nullable(), ext_set,
diff --git a/cpp/src/arrow/engine/substrait/type_internal.h b/cpp/src/arrow/engine/substrait/type_internal.h
index 6db9aea01ae..0d53028f493 100644
--- a/cpp/src/arrow/engine/substrait/type_internal.h
+++ b/cpp/src/arrow/engine/substrait/type_internal.h
@@ -19,11 +19,13 @@
 
 #pragma once
 
+#include <memory>
+#include <string>
 #include <utility>
 
-#include "arrow/engine/substrait/extension_set.h"
-#include "arrow/engine/substrait/options.h"
+#include "arrow/engine/substrait/type_fwd.h"
 #include "arrow/engine/substrait/visibility.h"
+#include "arrow/result.h"
 #include "arrow/type_fwd.h"
 
 #include "substrait/type.pb.h"  // IWYU pragma: export
diff --git a/cpp/src/arrow/engine/substrait/util.cc b/cpp/src/arrow/engine/substrait/util.cc
index 36240d46827..e0c876d21d2 100644
--- a/cpp/src/arrow/engine/substrait/util.cc
+++ b/cpp/src/arrow/engine/substrait/util.cc
@@ -16,116 +16,39 @@
 // under the License.
 
 #include "arrow/engine/substrait/util.h"
+
+#include <algorithm>
+#include <optional>
+#include <string_view>
+#include <utility>
+
+#include "arrow/buffer.h"
+#include "arrow/compute/exec.h"
+#include "arrow/compute/exec/exec_plan.h"
+#include "arrow/compute/exec/options.h"
+#include "arrow/compute/type_fwd.h"
+#include "arrow/engine/substrait/extension_set.h"
+#include "arrow/engine/substrait/serde.h"
+#include "arrow/engine/substrait/type_fwd.h"
+#include "arrow/status.h"
+#include "arrow/type_fwd.h"
 #include "arrow/util/async_generator.h"
-#include "arrow/util/async_util.h"
+#include "arrow/util/future.h"
+#include "arrow/util/thread_pool.h"
 
 namespace arrow {
 
 namespace engine {
 
-namespace substrait {
-
-namespace {
-
-/// \brief A SinkNodeConsumer specialized to output ExecBatches via PushGenerator
-class SubstraitSinkConsumer : public compute::SinkNodeConsumer {
- public:
-  explicit SubstraitSinkConsumer(
-      arrow::PushGenerator<util::optional<compute::ExecBatch>>::Producer producer)
-      : producer_(std::move(producer)) {}
-
-  Status Consume(compute::ExecBatch batch) override {
-    // Consume a batch of data
-    bool did_push = producer_.Push(batch);
-    if (!did_push) return Status::Invalid("Producer closed already");
-    return Status::OK();
-  }
-
-  Status Init(const std::shared_ptr<Schema>& schema,
-              compute::BackpressureControl* backpressure_control) override {
-    schema_ = schema;
-    return Status::OK();
-  }
-
-  Future<> Finish() override {
-    ARROW_UNUSED(producer_.Close());
-    return Future<>::MakeFinished();
-  }
-
-  std::shared_ptr<Schema> schema() { return schema_; }
-
- private:
-  arrow::PushGenerator<util::optional<compute::ExecBatch>>::Producer producer_;
-  std::shared_ptr<Schema> schema_;
-};
-
-/// \brief An executor to run a Substrait Query
-/// This interface is provided as a utility when creating language
-/// bindings for consuming a Substrait plan.
-class SubstraitExecutor {
- public:
-  explicit SubstraitExecutor(std::shared_ptr<compute::ExecPlan> plan,
-                             compute::ExecContext exec_context)
-      : plan_(std::move(plan)), plan_started_(false), exec_context_(exec_context) {}
-
-  ~SubstraitExecutor() { ARROW_UNUSED(this->Close()); }
-
-  Result<std::shared_ptr<RecordBatchReader>> Execute() {
-    for (const compute::Declaration& decl : declarations_) {
-      RETURN_NOT_OK(decl.AddToPlan(plan_.get()).status());
-    }
-    RETURN_NOT_OK(plan_->Validate());
-    plan_started_ = true;
-    RETURN_NOT_OK(plan_->StartProducing());
-    auto schema = sink_consumer_->schema();
-    std::shared_ptr<RecordBatchReader> sink_reader = compute::MakeGeneratorReader(
-        std::move(schema), std::move(generator_), exec_context_.memory_pool());
-    return sink_reader;
-  }
-
-  Status Close() {
-    if (plan_started_) return plan_->finished().status();
-    return Status::OK();
-  }
-
-  Status Init(const Buffer& substrait_buffer, const ExtensionIdRegistry* registry) {
-    if (substrait_buffer.size() == 0) {
-      return Status::Invalid("Empty substrait plan is passed.");
-    }
-    sink_consumer_ = std::make_shared<SubstraitSinkConsumer>(generator_.producer());
-    std::function<std::shared_ptr<compute::SinkNodeConsumer>()> consumer_factory = [&] {
-      return sink_consumer_;
-    };
-    ARROW_ASSIGN_OR_RAISE(
-        declarations_,
-        engine::DeserializePlans(substrait_buffer, consumer_factory, registry));
-    return Status::OK();
-  }
-
- private:
-  arrow::PushGenerator<util::optional<compute::ExecBatch>> generator_;
-  std::vector<compute::Declaration> declarations_;
-  std::shared_ptr<compute::ExecPlan> plan_;
-  bool plan_started_;
-  compute::ExecContext exec_context_;
-  std::shared_ptr<SubstraitSinkConsumer> sink_consumer_;
-};
-
-}  // namespace
-
 Result<std::shared_ptr<RecordBatchReader>> ExecuteSerializedPlan(
-    const Buffer& substrait_buffer, const ExtensionIdRegistry* extid_registry,
-    compute::FunctionRegistry* func_registry) {
-  // TODO(ARROW-15732)
-  compute::ExecContext exec_context(arrow::default_memory_pool(),
-                                    ::arrow::internal::GetCpuThreadPool(), func_registry);
-  ARROW_ASSIGN_OR_RAISE(auto plan, compute::ExecPlan::Make(&exec_context));
-  SubstraitExecutor executor(std::move(plan), exec_context);
-  RETURN_NOT_OK(executor.Init(substrait_buffer, extid_registry));
-  ARROW_ASSIGN_OR_RAISE(auto sink_reader, executor.Execute());
-  // check closing here, not in destructor, to expose error to caller
-  RETURN_NOT_OK(executor.Close());
-  return sink_reader;
+    const Buffer& substrait_buffer, const ExtensionIdRegistry* registry,
+    compute::FunctionRegistry* func_registry, const ConversionOptions& conversion_options,
+    bool use_threads, MemoryPool* memory_pool) {
+  ARROW_ASSIGN_OR_RAISE(compute::Declaration plan,
+                        DeserializePlan(substrait_buffer, registry,
+                                        /*ext_set_out=*/nullptr, conversion_options));
+  return compute::DeclarationToReader(std::move(plan), use_threads, memory_pool,
+                                      func_registry);
 }
 
 Result<std::shared_ptr<Buffer>> SerializeJsonPlan(const std::string& substrait_json) {
@@ -136,19 +59,11 @@ std::shared_ptr<ExtensionIdRegistry> MakeExtensionIdRegistry() {
   return nested_extension_id_registry(default_extension_id_registry());
 }
 
-Status RegisterFunction(ExtensionIdRegistry& registry, const std::string& id_uri,
-                        const std::string& id_name,
-                        const std::string& arrow_function_name) {
-  return registry.RegisterFunction(id_uri, id_name, arrow_function_name);
-}
-
 const std::string& default_extension_types_uri() {
-  static std::string uri = engine::kArrowExtTypesUri.to_string();
+  static std::string uri(engine::kArrowExtTypesUri);
   return uri;
 }
 
-}  // namespace substrait
-
 }  // namespace engine
 
 }  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/util.h b/cpp/src/arrow/engine/substrait/util.h
index 134d633bb33..9f8bd804889 100644
--- a/cpp/src/arrow/engine/substrait/util.h
+++ b/cpp/src/arrow/engine/substrait/util.h
@@ -17,22 +17,45 @@
 
 #pragma once
 
+#include <functional>
 #include <memory>
-#include "arrow/compute/registry.h"
-#include "arrow/engine/substrait/api.h"
+#include <string>
+#include <vector>
+
+#include "arrow/compute/type_fwd.h"
+#include "arrow/engine/substrait/options.h"
+#include "arrow/engine/substrait/type_fwd.h"
+#include "arrow/engine/substrait/visibility.h"
+#include "arrow/result.h"
+#include "arrow/type_fwd.h"
 #include "arrow/util/iterator.h"
-#include "arrow/util/optional.h"
+#include "arrow/util/macros.h"
 
 namespace arrow {
 
 namespace engine {
 
-namespace substrait {
+using PythonTableProvider =
+    std::function<Result<std::shared_ptr<Table>>(const std::vector<std::string>&)>;
 
-/// \brief Retrieve a RecordBatchReader from a Substrait plan.
+/// \brief Utility method to run a Substrait plan
+/// \param substrait_buffer The plan to run, must be in binary protobuf format
+/// \param registry A registry of extension functions to make available to the plan
+///                 If null then the default registry will be used.
+/// \param memory_pool The memory pool the plan should use to make allocations.
+/// \param func_registry A registry of functions used for execution expressions.
+///                      `registry` maps from Substrait function IDs to "names". These
+///                      names will be provided to `func_registry` to get the actual
+///                      kernel.
+/// \param conversion_options Options to control plan deserialization
+/// \param use_threads If True then the CPU thread pool will be used for CPU work.  If
+///                    False then all work will be done on the calling thread.
+/// \return A record batch reader that will read out the results
 ARROW_ENGINE_EXPORT Result<std::shared_ptr<RecordBatchReader>> ExecuteSerializedPlan(
     const Buffer& substrait_buffer, const ExtensionIdRegistry* registry = NULLPTR,
-    compute::FunctionRegistry* func_registry = NULLPTR);
+    compute::FunctionRegistry* func_registry = NULLPTR,
+    const ConversionOptions& conversion_options = {}, bool use_threads = true,
+    MemoryPool* memory_pool = default_memory_pool());
 
 /// \brief Get a Serialized Plan from a Substrait JSON plan.
 /// This is a helper method for Python tests.
@@ -43,24 +66,8 @@ ARROW_ENGINE_EXPORT Result<std::shared_ptr<Buffer>> SerializeJsonPlan(
 /// See arrow::engine::nested_extension_id_registry for details.
 ARROW_ENGINE_EXPORT std::shared_ptr<ExtensionIdRegistry> MakeExtensionIdRegistry();
 
-/// \brief Register a function manually.
-///
-/// Register an arrow function name by an ID, defined by a URI and a name, on a given
-/// extension-id-registry.
-///
-/// \param[in] registry an extension-id-registry to use
-/// \param[in] id_uri a URI of the ID to register by
-/// \param[in] id_name a name of the ID to register by
-/// \param[in] arrow_function_name name of arrow function to register
-ARROW_ENGINE_EXPORT Status RegisterFunction(ExtensionIdRegistry& registry,
-                                            const std::string& id_uri,
-                                            const std::string& id_name,
-                                            const std::string& arrow_function_name);
-
 ARROW_ENGINE_EXPORT const std::string& default_extension_types_uri();
 
-}  // namespace substrait
-
 }  // namespace engine
 
 }  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/util_internal.cc b/cpp/src/arrow/engine/substrait/util_internal.cc
new file mode 100644
index 00000000000..4e6cacf4f67
--- /dev/null
+++ b/cpp/src/arrow/engine/substrait/util_internal.cc
@@ -0,0 +1,35 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements. See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership. The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License. You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied. See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "arrow/engine/substrait/util_internal.h"
+
+namespace arrow {
+
+namespace engine {
+
+std::string EnumToString(int value, const google::protobuf::EnumDescriptor& descriptor) {
+  const google::protobuf::EnumValueDescriptor* value_desc =
+      descriptor.FindValueByNumber(value);
+  if (value_desc == nullptr) {
+    return "unknown";
+  }
+  return value_desc->name();
+}
+
+}  // namespace engine
+
+}  // namespace arrow
diff --git a/cpp/src/arrow/engine/substrait/util_internal.h b/cpp/src/arrow/engine/substrait/util_internal.h
new file mode 100644
index 00000000000..efc3145543d
--- /dev/null
+++ b/cpp/src/arrow/engine/substrait/util_internal.h
@@ -0,0 +1,30 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements. See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership. The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License. You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied. See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#pragma once
+
+#include "arrow/engine/substrait/visibility.h"
+#include "substrait/algebra.pb.h"  // IWYU pragma: export
+
+namespace arrow {
+namespace engine {
+
+ARROW_ENGINE_EXPORT std::string EnumToString(
+    int value, const google::protobuf::EnumDescriptor& descriptor);
+
+}  // namespace engine
+}  // namespace arrow
diff --git a/cpp/src/arrow/extension_type.h b/cpp/src/arrow/extension_type.h
index badbdbd9813..dd004118e83 100644
--- a/cpp/src/arrow/extension_type.h
+++ b/cpp/src/arrow/extension_type.h
@@ -103,6 +103,7 @@ class ARROW_EXPORT ExtensionType : public DataType {
 /// \brief Base array class for user-defined extension types
 class ARROW_EXPORT ExtensionArray : public Array {
  public:
+  using TypeClass = ExtensionType;
   /// \brief Construct an ExtensionArray from an ArrayData.
   ///
   /// The ArrayData must have the right ExtensionType.
diff --git a/cpp/src/arrow/filesystem/CMakeLists.txt b/cpp/src/arrow/filesystem/CMakeLists.txt
index 1a36949fd62..6888231a35a 100644
--- a/cpp/src/arrow/filesystem/CMakeLists.txt
+++ b/cpp/src/arrow/filesystem/CMakeLists.txt
@@ -28,6 +28,16 @@ add_arrow_test(filesystem-test
                EXTRA_LABELS
                filesystem)
 
+if(ARROW_BUILD_BENCHMARKS)
+  add_arrow_benchmark(localfs_benchmark
+                      PREFIX
+                      "arrow-filesystem"
+                      SOURCES
+                      localfs_benchmark.cc
+                      STATIC_LINK_LIBS
+                      ${ARROW_BENCHMARK_LINK_LIBS})
+endif()
+
 if(ARROW_GCS)
   add_arrow_test(gcsfs_test
                  EXTRA_LABELS
diff --git a/cpp/src/arrow/filesystem/filesystem.cc b/cpp/src/arrow/filesystem/filesystem.cc
index 48b4646bea0..c8fa4d1c377 100644
--- a/cpp/src/arrow/filesystem/filesystem.cc
+++ b/cpp/src/arrow/filesystem/filesystem.cc
@@ -258,7 +258,7 @@ Result<std::shared_ptr<io::OutputStream>> FileSystem::OpenAppendStream(
 
 namespace {
 
-Status ValidateSubPath(util::string_view s) {
+Status ValidateSubPath(std::string_view s) {
   if (internal::IsLikelyUri(s)) {
     return Status::Invalid("Expected a filesystem path, got a URI: '", s, "'");
   }
@@ -639,7 +639,7 @@ Status CopyFiles(const std::shared_ptr<FileSystem>& source_fs,
     }
 
     auto destination_path =
-        internal::ConcatAbstractPath(destination_base_dir, relative->to_string());
+        internal::ConcatAbstractPath(destination_base_dir, std::string(*relative));
 
     if (source_info.IsDirectory()) {
       dirs.push_back(destination_path);
diff --git a/cpp/src/arrow/filesystem/filesystem_test.cc b/cpp/src/arrow/filesystem/filesystem_test.cc
index bfe12822456..b450a699131 100644
--- a/cpp/src/arrow/filesystem/filesystem_test.cc
+++ b/cpp/src/arrow/filesystem/filesystem_test.cc
@@ -296,7 +296,7 @@ TEST(PathUtil, Globber) {
   ASSERT_FALSE(wildcards.Matches("/bucket0/foo/ab/a.parquet"));
 }
 
-TEST(InternalUtil, GlobFiles) {
+void TestGlobFiles(const std::string& base_dir) {
   auto fs = std::make_shared<MockFileSystem>(TimePoint{});
 
   auto check_entries = [](const std::vector<FileInfo>& infos,
@@ -308,28 +308,27 @@ TEST(InternalUtil, GlobFiles) {
     ASSERT_EQ(actual, expected);
   };
 
-  ASSERT_OK(fs->CreateDir("A/CD"));
-  ASSERT_OK(fs->CreateDir("AB/CD"));
-  ASSERT_OK(fs->CreateDir("AB/CD/ab"));
-  CreateFile(fs.get(), "A/CD/ab.txt", "data");
-  CreateFile(fs.get(), "AB/CD/a.txt", "data");
-  CreateFile(fs.get(), "AB/CD/abc.txt", "data");
-  CreateFile(fs.get(), "AB/CD/ab/c.txt", "data");
+  ASSERT_OK(fs->CreateDir(base_dir + "A/CD"));
+  ASSERT_OK(fs->CreateDir(base_dir + "AB/CD"));
+  ASSERT_OK(fs->CreateDir(base_dir + "AB/CD/ab"));
+  CreateFile(fs.get(), base_dir + "A/CD/ab.txt", "data");
+  CreateFile(fs.get(), base_dir + "AB/CD/a.txt", "data");
+  CreateFile(fs.get(), base_dir + "AB/CD/abc.txt", "data");
+  CreateFile(fs.get(), base_dir + "AB/CD/ab/c.txt", "data");
 
   FileInfoVector infos;
-  ASSERT_OK_AND_ASSIGN(infos, GlobFiles(fs, "A*/CD/?b*.txt"));
+  ASSERT_OK_AND_ASSIGN(infos, GlobFiles(fs, base_dir + "A*/CD/?b*.txt"));
   ASSERT_EQ(infos.size(), 2);
-  check_entries(infos, {"A/CD/ab.txt", "AB/CD/abc.txt"});
+  check_entries(infos, {base_dir + "A/CD/ab.txt", base_dir + "AB/CD/abc.txt"});
 
-  // Leading slash is optional but doesn't change behavior
-  ASSERT_OK_AND_ASSIGN(infos, GlobFiles(fs, "/A*/CD/?b*.txt"));
-  ASSERT_EQ(infos.size(), 2);
-  check_entries(infos, {"A/CD/ab.txt", "AB/CD/abc.txt"});
-
-  ASSERT_OK_AND_ASSIGN(infos, GlobFiles(fs, "A*/CD/?/b*.txt"));
+  ASSERT_OK_AND_ASSIGN(infos, GlobFiles(fs, base_dir + "A*/CD/?/b*.txt"));
   ASSERT_EQ(infos.size(), 0);
 }
 
+TEST(InternalUtil, GlobFilesWithoutLeadingSlash) { TestGlobFiles(""); }
+
+TEST(InternalUtil, GlobFilesWithLeadingSlash) { TestGlobFiles("/"); }
+
 ////////////////////////////////////////////////////////////////////////////
 // Generic MockFileSystem tests
 
diff --git a/cpp/src/arrow/filesystem/gcsfs.cc b/cpp/src/arrow/filesystem/gcsfs.cc
index da7b856be47..ce11c0aa223 100644
--- a/cpp/src/arrow/filesystem/gcsfs.cc
+++ b/cpp/src/arrow/filesystem/gcsfs.cc
@@ -81,7 +81,7 @@ struct GcsPath {
       return Status::Invalid("Path cannot start with a separator ('", s, "')");
     }
     if (first_sep == std::string::npos) {
-      return GcsPath{s, internal::RemoveTrailingSlash(s).to_string(), ""};
+      return GcsPath{s, std::string(internal::RemoveTrailingSlash(s)), ""};
     }
     GcsPath path;
     path.full_path = s;
@@ -123,9 +123,20 @@ class GcsInputStream : public arrow::io::InputStream {
     return Status::OK();
   }
 
-  Result<int64_t> Tell() const override {
+  Result<int64_t> Tell() const override { return TellOr(nread_); }
+
+  // At EOF, gcs::ObjectReadStream::tellg() returns -1, but our APIs canonically return
+  // the stream size. This method helps with the conversion.
+  Result<int64_t> TellOr(int64_t max_pos) const {
     if (closed()) return Status::Invalid("Cannot use Tell() on a closed stream");
-    return stream_.tellg();
+    int64_t pos = stream_.tellg();
+    if (pos < 0) {
+      if (!stream_.eof()) {
+        return Status::IOError("Tell() failed before end of stream");
+      }
+      return max_pos;
+    }
+    return pos;
   }
 
   // A gcs::ObjectReadStream can be "born closed".  For small objects the stream returns
@@ -140,7 +151,9 @@ class GcsInputStream : public arrow::io::InputStream {
     if (closed()) return Status::Invalid("Cannot read from a closed stream");
     stream_.read(static_cast<char*>(out), nbytes);
     ARROW_GCS_RETURN_NOT_OK(stream_.status());
-    return stream_.gcount();
+    int64_t nread = stream_.gcount();
+    nread_ += nread;
+    return nread;
   }
 
   Result<std::shared_ptr<Buffer>> Read(int64_t nbytes) override {
@@ -148,7 +161,9 @@ class GcsInputStream : public arrow::io::InputStream {
     ARROW_ASSIGN_OR_RAISE(auto buffer, arrow::AllocateResizableBuffer(nbytes));
     stream_.read(reinterpret_cast<char*>(buffer->mutable_data()), nbytes);
     ARROW_GCS_RETURN_NOT_OK(stream_.status());
-    RETURN_NOT_OK(buffer->Resize(stream_.gcount(), true));
+    int64_t nread = stream_.gcount();
+    nread_ += nread;
+    RETURN_NOT_OK(buffer->Resize(nread, true));
     return std::shared_ptr<Buffer>(std::move(buffer));
   }
   //@}
@@ -167,6 +182,7 @@ class GcsInputStream : public arrow::io::InputStream {
   GcsPath path_;
   gcs::Generation generation_;
   gcs::Client client_;
+  int64_t nread_ = 0;  // Total bytes consumed (updated after each Read())
   bool closed_ = false;
 };
 
@@ -226,13 +242,13 @@ class GcsOutputStream : public arrow::io::OutputStream {
   bool closed_ = false;
 };
 
-using InputStreamFactory = std::function<Result<std::shared_ptr<io::InputStream>>(
+using InputStreamFactory = std::function<Result<std::shared_ptr<GcsInputStream>>(
     gcs::Generation, gcs::ReadFromOffset)>;
 
 class GcsRandomAccessFile : public arrow::io::RandomAccessFile {
  public:
   GcsRandomAccessFile(InputStreamFactory factory, gcs::ObjectMetadata metadata,
-                      std::shared_ptr<io::InputStream> stream)
+                      std::shared_ptr<GcsInputStream> stream)
       : factory_(std::move(factory)),
         metadata_(std::move(metadata)),
         stream_(std::move(stream)) {}
@@ -242,7 +258,7 @@ class GcsRandomAccessFile : public arrow::io::RandomAccessFile {
   // @name FileInterface
   Status Close() override { return stream_->Close(); }
   Status Abort() override { return stream_->Abort(); }
-  Result<int64_t> Tell() const override { return stream_->Tell(); }
+  Result<int64_t> Tell() const override { return stream_->TellOr(metadata_.size()); }
   bool closed() const override { return stream_->closed(); }
   //@}
 
@@ -296,7 +312,7 @@ class GcsRandomAccessFile : public arrow::io::RandomAccessFile {
  private:
   InputStreamFactory factory_;
   gcs::ObjectMetadata metadata_;
-  std::shared_ptr<io::InputStream> stream_;
+  std::shared_ptr<GcsInputStream> stream_;
 };
 
 google::cloud::Options AsGoogleCloudOptions(const GcsOptions& o) {
@@ -412,7 +428,7 @@ class GcsFileSystem::Impl {
   // limitations) using marker objects.  That and listing with prefixes creates the
   // illusion of folders.
   google::cloud::StatusOr<gcs::ObjectMetadata> CreateDirMarker(const std::string& bucket,
-                                                               util::string_view name) {
+                                                               std::string_view name) {
     // Make the name canonical.
     const auto canonical = internal::EnsureTrailingSlash(name);
     google::cloud::StatusOr<gcs::ObjectMetadata> object = client_.InsertObject(
@@ -598,15 +614,15 @@ class GcsFileSystem::Impl {
     return internal::ToArrowStatus(metadata.status());
   }
 
-  Result<std::shared_ptr<io::InputStream>> OpenInputStream(const GcsPath& path,
-                                                           gcs::Generation generation,
-                                                           gcs::ReadFromOffset offset) {
+  Result<std::shared_ptr<GcsInputStream>> OpenInputStream(const GcsPath& path,
+                                                          gcs::Generation generation,
+                                                          gcs::ReadFromOffset offset) {
     auto stream = client_.ReadObject(path.bucket, path.object, generation, offset);
     ARROW_GCS_RETURN_NOT_OK(stream.status());
     return std::make_shared<GcsInputStream>(std::move(stream), path, generation, client_);
   }
 
-  Result<std::shared_ptr<io::OutputStream>> OpenOutputStream(
+  Result<std::shared_ptr<GcsOutputStream>> OpenOutputStream(
       const GcsPath& path, const std::shared_ptr<const KeyValueMetadata>& metadata) {
     std::shared_ptr<const KeyValueMetadata> resolved_metadata = metadata;
     if (resolved_metadata == nullptr && options_.default_metadata != nullptr) {
diff --git a/cpp/src/arrow/filesystem/gcsfs.h b/cpp/src/arrow/filesystem/gcsfs.h
index 77b8a0b201a..c3d03b5cb21 100644
--- a/cpp/src/arrow/filesystem/gcsfs.h
+++ b/cpp/src/arrow/filesystem/gcsfs.h
@@ -18,11 +18,11 @@
 #pragma once
 
 #include <memory>
+#include <optional>
 #include <string>
 #include <vector>
 
 #include "arrow/filesystem/filesystem.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/uri.h"
 
 namespace arrow {
@@ -70,7 +70,7 @@ struct ARROW_EXPORT GcsOptions {
   /// errors.
   ///
   /// The default policy is to retry for up to 15 minutes.
-  arrow::util::optional<double> retry_limit_seconds;
+  std::optional<double> retry_limit_seconds;
 
   /// \brief Default metadata for OpenOutputStream.
   ///
diff --git a/cpp/src/arrow/filesystem/gcsfs_internal.cc b/cpp/src/arrow/filesystem/gcsfs_internal.cc
index b8f0ab80b21..c6b4052489e 100644
--- a/cpp/src/arrow/filesystem/gcsfs_internal.cc
+++ b/cpp/src/arrow/filesystem/gcsfs_internal.cc
@@ -28,8 +28,12 @@
 #include "arrow/filesystem/path_util.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/key_value_metadata.h"
+#include "arrow/util/string.h"
 
 namespace arrow {
+
+using internal::ToChars;
+
 namespace fs {
 namespace internal {
 
@@ -246,7 +250,7 @@ Result<std::shared_ptr<const KeyValueMetadata>> FromObjectMetadata(
   result->Append("selfLink", m.self_link());
   result->Append("name", m.name());
   result->Append("bucket", m.bucket());
-  result->Append("generation", std::to_string(m.generation()));
+  result->Append("generation", ToChars(m.generation()));
   result->Append("Content-Type", m.content_type());
   result->Append("timeCreated", format_time(m.time_created()));
   result->Append("updated", format_time(m.updated()));
@@ -266,7 +270,7 @@ Result<std::shared_ptr<const KeyValueMetadata>> FromObjectMetadata(
     result->Append("timeStorageClassUpdated",
                    format_time(m.time_storage_class_updated()));
   }
-  result->Append("size", std::to_string(m.size()));
+  result->Append("size", ToChars(m.size()));
   result->Append("md5Hash", m.md5_hash());
   result->Append("mediaLink", m.media_link());
   result->Append("Content-Encoding", m.content_encoding());
@@ -282,7 +286,7 @@ Result<std::shared_ptr<const KeyValueMetadata>> FromObjectMetadata(
     result->Append("owner.entityId", m.owner().entity_id);
   }
   result->Append("crc32c", m.crc32c());
-  result->Append("componentCount", std::to_string(m.component_count()));
+  result->Append("componentCount", ToChars(m.component_count()));
   result->Append("etag", m.etag());
   if (m.has_customer_encryption()) {
     result->Append("customerEncryption.encryptionAlgorithm",
@@ -295,7 +299,7 @@ Result<std::shared_ptr<const KeyValueMetadata>> FromObjectMetadata(
   return result;
 }
 
-std::int64_t Depth(arrow::util::string_view path) {
+std::int64_t Depth(std::string_view path) {
   // The last slash is not counted towards depth because it represents a
   // directory.
   bool has_trailing_slash = !path.empty() && path.back() == '/';
diff --git a/cpp/src/arrow/filesystem/gcsfs_internal.h b/cpp/src/arrow/filesystem/gcsfs_internal.h
index 101f7f62df6..c2a0e2921dc 100644
--- a/cpp/src/arrow/filesystem/gcsfs_internal.h
+++ b/cpp/src/arrow/filesystem/gcsfs_internal.h
@@ -51,7 +51,7 @@ ARROW_EXPORT Result<google::cloud::storage::WithObjectMetadata> ToObjectMetadata
 ARROW_EXPORT Result<std::shared_ptr<const KeyValueMetadata>> FromObjectMetadata(
     google::cloud::storage::ObjectMetadata const& m);
 
-ARROW_EXPORT std::int64_t Depth(arrow::util::string_view path);
+ARROW_EXPORT std::int64_t Depth(std::string_view path);
 
 }  // namespace internal
 }  // namespace fs
diff --git a/cpp/src/arrow/filesystem/gcsfs_test.cc b/cpp/src/arrow/filesystem/gcsfs_test.cc
index 50f9a32fa1a..fb14f7b385d 100644
--- a/cpp/src/arrow/filesystem/gcsfs_test.cc
+++ b/cpp/src/arrow/filesystem/gcsfs_test.cc
@@ -17,6 +17,7 @@
 
 #include <algorithm>  // Missing include in boost/process
 
+#define BOOST_NO_CXX98_FUNCTION_BASE  // ARROW-17805
 // This boost/asio/io_context.hpp include is needless for no MinGW
 // build.
 //
@@ -73,7 +74,6 @@ namespace gcs = google::cloud::storage;
 
 using ::testing::Eq;
 using ::testing::HasSubstr;
-using ::testing::IsEmpty;
 using ::testing::Not;
 using ::testing::NotNull;
 using ::testing::Pair;
@@ -171,7 +171,7 @@ class GcsIntegrationTest : public ::testing::Test {
  protected:
   void SetUp() override {
     ASSERT_THAT(Testbench(), NotNull());
-    ASSERT_THAT(Testbench()->error(), IsEmpty());
+    ASSERT_EQ(Testbench()->error(), "");
     ASSERT_TRUE(Testbench()->running());
 
     // Initialize a PRNG with a small amount of entropy.
@@ -280,7 +280,7 @@ class GcsIntegrationTest : public ::testing::Test {
     std::transform(expected.begin(), expected.end(), expected.begin(),
                    [](FileInfo const& info) {
                      if (!info.IsDirectory()) return info;
-                     return Dir(internal::RemoveTrailingSlash(info.path()).to_string());
+                     return Dir(std::string(internal::RemoveTrailingSlash(info.path())));
                    });
     return expected;
   }
@@ -767,7 +767,7 @@ TEST_F(GcsIntegrationTest, GetFileInfoSelectorNotFoundTrue) {
   selector.allow_not_found = true;
   selector.recursive = true;
   ASSERT_OK_AND_ASSIGN(auto results, fs->GetFileInfo(selector));
-  EXPECT_THAT(results, IsEmpty());
+  EXPECT_EQ(results.size(), 0);
 }
 
 TEST_F(GcsIntegrationTest, GetFileInfoSelectorNotFoundFalse) {
diff --git a/cpp/src/arrow/filesystem/localfs.cc b/cpp/src/arrow/filesystem/localfs.cc
index 889775d7250..03b4ad3bc72 100644
--- a/cpp/src/arrow/filesystem/localfs.cc
+++ b/cpp/src/arrow/filesystem/localfs.cc
@@ -17,6 +17,7 @@
 
 #include <chrono>
 #include <cstring>
+#include <memory>
 #include <sstream>
 #include <utility>
 
@@ -29,12 +30,15 @@
 #include <sys/stat.h>
 #endif
 
+#include "arrow/filesystem/filesystem.h"
 #include "arrow/filesystem/localfs.h"
 #include "arrow/filesystem/path_util.h"
+#include "arrow/filesystem/type_fwd.h"
 #include "arrow/filesystem/util_internal.h"
 #include "arrow/io/file.h"
+#include "arrow/io/type_fwd.h"
+#include "arrow/util/async_generator.h"
 #include "arrow/util/io_util.h"
-#include "arrow/util/logging.h"
 #include "arrow/util/uri.h"
 #include "arrow/util/windows_fixup.h"
 
@@ -81,7 +85,7 @@ bool DetectAbsolutePath(const std::string& s) {
 
 namespace {
 
-Status ValidatePath(util::string_view s) {
+Status ValidatePath(std::string_view s) {
   if (internal::IsLikelyUri(s)) {
     return Status::Invalid("Expected a local filesystem path, got a URI: '", s, "'");
   }
@@ -243,7 +247,8 @@ LocalFileSystemOptions LocalFileSystemOptions::Defaults() {
 }
 
 bool LocalFileSystemOptions::Equals(const LocalFileSystemOptions& other) const {
-  return use_mmap == other.use_mmap;
+  return use_mmap == other.use_mmap && directory_readahead == other.directory_readahead &&
+         file_info_batch_size == other.file_info_batch_size;
 }
 
 Result<LocalFileSystemOptions> LocalFileSystemOptions::FromUri(
@@ -309,6 +314,241 @@ Result<std::vector<FileInfo>> LocalFileSystem::GetFileInfo(const FileSelector& s
   return results;
 }
 
+namespace {
+
+/// Workhorse for streaming async implementation of `GetFileInfo`
+/// (`GetFileInfoGenerator`).
+///
+/// There are two variants of async discovery functions suported:
+/// 1. `DiscoverDirectoryFiles`, which parallelizes traversal of individual directories
+///    so that each directory results are yielded as a separate `FileInfoGenerator` via
+///    an underlying `DiscoveryImplIterator`, which delivers items in chunks (default size
+///    is 1K items).
+/// 2. `DiscoverDirectoriesFlattened`, which forwards execution to the
+///    `DiscoverDirectoryFiles`, with the difference that the results from individual
+///    sub-directory iterators are merged into the single FileInfoGenerator stream.
+///
+/// The implementation makes use of additional attributes in `LocalFileSystemOptions`,
+/// such as `directory_readahead`, which can be used to tune algorithm
+/// behavior and adjust how many directories can be processed in parallel.
+/// This option is disabled by default, so that individual directories are processed
+/// in serial manner via `MakeConcatenatedGenerator` under the hood.
+class AsyncStatSelector {
+ public:
+  using FileInfoGeneratorProducer = PushGenerator<FileInfoGenerator>::Producer;
+
+  /// Discovery state, which is shared among all `DiscoveryImplGenerator`:s,
+  /// spawned by a single discovery operation (`DiscoverDirectoryFiles()`).
+  ///
+  /// The sole purpose of this struct is to handle automatic closing the
+  /// producer side of the resulting `FileInfoGenerator`. I.e. the producer
+  /// is kept alive until all discovery iterators are exhausted, in which case
+  /// `producer.Close()` is called automatically when ref-count for the state
+  /// reaches zero (which is equivalent to finishing the file discovery
+  /// process).
+  struct DiscoveryState {
+    FileInfoGeneratorProducer producer;
+
+    explicit DiscoveryState(FileInfoGeneratorProducer p) : producer(std::move(p)) {}
+    ~DiscoveryState() { producer.Close(); }
+  };
+
+  /// The main procedure to start async streaming discovery using a given `FileSelector`.
+  ///
+  /// The result is a two-level generator, i.e. "generator of FileInfoGenerator:s",
+  /// where each individual generator represents an FileInfo item stream from coming an
+  /// individual sub-directory under the selector's `base_dir`.
+  static Result<AsyncGenerator<FileInfoGenerator>> DiscoverDirectoryFiles(
+      FileSelector selector, LocalFileSystemOptions fs_opts,
+      const io::IOContext& io_context) {
+    PushGenerator<FileInfoGenerator> file_gen;
+
+    ARROW_ASSIGN_OR_RAISE(
+        auto base_dir, arrow::internal::PlatformFilename::FromString(selector.base_dir));
+    ARROW_RETURN_NOT_OK(DoDiscovery(std::move(base_dir), 0, std::move(selector),
+                                    std::make_shared<DiscoveryState>(file_gen.producer()),
+                                    io_context, fs_opts.file_info_batch_size));
+
+    return file_gen;
+  }
+
+  /// Version of `DiscoverDirectoryFiles` which flattens the stream of generators
+  /// into a single FileInfoGenerator stream.
+  /// Makes use of `LocalFileSystemOptions::directory_readahead` to determine how much
+  /// readahead should happen.
+  static arrow::Result<FileInfoGenerator> DiscoverDirectoriesFlattened(
+      FileSelector selector, LocalFileSystemOptions fs_opts,
+      const io::IOContext& io_context) {
+    int32_t dir_readahead = fs_opts.directory_readahead;
+    ARROW_ASSIGN_OR_RAISE(
+        auto part_gen,
+        DiscoverDirectoryFiles(std::move(selector), std::move(fs_opts), io_context));
+    return dir_readahead > 1
+               ? MakeSequencedMergedGenerator(std::move(part_gen), dir_readahead)
+               : MakeConcatenatedGenerator(std::move(part_gen));
+  }
+
+ private:
+  /// The class, which implements iterator interface to traverse a given
+  /// directory at the fixed nesting depth, and possibly recurses into
+  /// sub-directories (if specified by the selector), spawning more
+  /// `DiscoveryImplIterators`, which feed their data into a single producer.
+  class DiscoveryImplIterator {
+    const PlatformFilename dir_fn_;
+    const int32_t nesting_depth_;
+    const FileSelector selector_;
+    const uint32_t file_info_batch_size_;
+
+    const io::IOContext& io_context_;
+    std::shared_ptr<DiscoveryState> discovery_state_;
+    FileInfoVector current_chunk_;
+    std::vector<PlatformFilename> child_fns_;
+    size_t idx_ = 0;
+    bool initialized_ = false;
+
+   public:
+    DiscoveryImplIterator(PlatformFilename dir_fn, int32_t nesting_depth,
+                          FileSelector selector,
+                          std::shared_ptr<DiscoveryState> discovery_state,
+                          const io::IOContext& io_context, uint32_t file_info_batch_size)
+        : dir_fn_(std::move(dir_fn)),
+          nesting_depth_(nesting_depth),
+          selector_(std::move(selector)),
+          file_info_batch_size_(file_info_batch_size),
+          io_context_(io_context),
+          discovery_state_(std::move(discovery_state)) {}
+
+    /// Pre-initialize the iterator by listing directory contents and caching
+    /// in the current instance.
+    Status Initialize() {
+      auto result = arrow::internal::ListDir(dir_fn_);
+      if (!result.ok()) {
+        auto status = result.status();
+        if (selector_.allow_not_found && status.IsIOError()) {
+          ARROW_ASSIGN_OR_RAISE(bool exists, FileExists(dir_fn_));
+          if (!exists) {
+            return Status::OK();
+          }
+        }
+        return status;
+      }
+      child_fns_ = result.MoveValueUnsafe();
+
+      const size_t dirent_count = child_fns_.size();
+      current_chunk_.reserve(dirent_count >= file_info_batch_size_ ? file_info_batch_size_
+                                                                   : dirent_count);
+
+      initialized_ = true;
+      return Status::OK();
+    }
+
+    Result<FileInfoVector> Next() {
+      if (!initialized_) {
+        auto init = Initialize();
+        if (!init.ok()) {
+          return Finish(init);
+        }
+      }
+      while (idx_ < child_fns_.size()) {
+        auto full_fn = dir_fn_.Join(child_fns_[idx_++]);
+        auto res = StatFile(full_fn.ToNative());
+        if (!res.ok()) {
+          return Finish(res.status());
+        }
+
+        auto info = res.MoveValueUnsafe();
+
+        // Try to recurse into subdirectories, if needed.
+        if (info.type() == FileType::Directory &&
+            nesting_depth_ < selector_.max_recursion && selector_.recursive) {
+          auto status = DoDiscovery(std::move(full_fn), nesting_depth_ + 1, selector_,
+                                    discovery_state_, io_context_, file_info_batch_size_);
+          if (!status.ok()) {
+            return Finish(status);
+          }
+        }
+        // Everything is ok. Add the item to the current chunk of data.
+        current_chunk_.emplace_back(std::move(info));
+        // Keep `current_chunk_` as large, as `batch_size_`.
+        // Otherwise, yield the complete chunk to the caller.
+        if (current_chunk_.size() == file_info_batch_size_) {
+          FileInfoVector yield_vec = std::move(current_chunk_);
+          const size_t items_left = child_fns_.size() - idx_;
+          current_chunk_.reserve(
+              items_left >= file_info_batch_size_ ? file_info_batch_size_ : items_left);
+          return yield_vec;
+        }
+      }  // while (idx_ < child_fns_.size())
+
+      // Flush out remaining items
+      if (!current_chunk_.empty()) {
+        return std::move(current_chunk_);
+      }
+      return Finish();
+    }
+
+   private:
+    /// Release reference to shared discovery state and return iteration end
+    /// marker to indicate that this iterator is exhausted.
+    Result<FileInfoVector> Finish(Status status = Status::OK()) {
+      discovery_state_.reset();
+      ARROW_RETURN_NOT_OK(status);
+      return IterationEnd<FileInfoVector>();
+    }
+  };
+
+  /// Create an instance of  `DiscoveryImplIterator` under the hood for the
+  /// specified directory, wrap it in the `BackgroundGenerator`  and feed
+  /// the results to the main producer queue.
+  ///
+  /// Each `DiscoveryImplIterator` maintains a reference to `DiscoveryState`,
+  /// which simply wraps the producer to keep it alive for the lifetime
+  /// of this iterator. When all references to `DiscoveryState` are invalidated,
+  /// the producer is closed automatically.
+  static Status DoDiscovery(const PlatformFilename& dir_fn, int32_t nesting_depth,
+                            FileSelector selector,
+                            std::shared_ptr<DiscoveryState> discovery_state,
+                            const io::IOContext& io_context,
+                            int32_t file_info_batch_size) {
+    ARROW_RETURN_IF(discovery_state->producer.is_closed(),
+                    arrow::Status::Cancelled("Discovery cancelled"));
+
+    // Note, that here we use `MakeTransferredGenerator()` with the same
+    // target executor (io executor) as the current iterator is running on.
+    //
+    // This is done on purpose, since typically the user of
+    // `GetFileInfoGenerator()` would want to perform some more IO on the
+    // produced results (e.g. read the files, examine metadata etc.).
+    // So, it is preferable to execute the attached continuations on the same
+    // executor, which belongs to the IO thread pool.
+    ARROW_ASSIGN_OR_RAISE(
+        auto gen,
+        MakeBackgroundGenerator(Iterator<FileInfoVector>(DiscoveryImplIterator(
+                                    std::move(dir_fn), nesting_depth, std::move(selector),
+                                    discovery_state, io_context, file_info_batch_size)),
+                                io_context.executor()));
+    gen = MakeTransferredGenerator(std::move(gen), io_context.executor());
+    ARROW_RETURN_IF(!discovery_state->producer.Push(std::move(gen)),
+                    arrow::Status::Cancelled("Discovery cancelled"));
+    return arrow::Status::OK();
+  }
+};
+
+}  // anonymous namespace
+
+FileInfoGenerator LocalFileSystem::GetFileInfoGenerator(const FileSelector& select) {
+  auto path_status = ValidatePath(select.base_dir);
+  if (!path_status.ok()) {
+    return MakeFailingGenerator<FileInfoVector>(path_status);
+  }
+  auto fileinfo_gen =
+      AsyncStatSelector::DiscoverDirectoriesFlattened(select, options(), io_context_);
+  if (!fileinfo_gen.ok()) {
+    return MakeFailingGenerator<FileInfoVector>(fileinfo_gen.status());
+  }
+  return fileinfo_gen.MoveValueUnsafe();
+}
+
 Status LocalFileSystem::CreateDir(const std::string& path, bool recursive) {
   RETURN_NOT_OK(ValidatePath(path));
   ARROW_ASSIGN_OR_RAISE(auto fn, PlatformFilename::FromString(path));
diff --git a/cpp/src/arrow/filesystem/localfs.h b/cpp/src/arrow/filesystem/localfs.h
index 23c8196b059..75eaf314e4d 100644
--- a/cpp/src/arrow/filesystem/localfs.h
+++ b/cpp/src/arrow/filesystem/localfs.h
@@ -34,10 +34,29 @@ namespace fs {
 
 /// Options for the LocalFileSystem implementation.
 struct ARROW_EXPORT LocalFileSystemOptions {
+  static constexpr int32_t kDefaultDirectoryReadahead = 16;
+  static constexpr int32_t kDefaultFileInfoBatchSize = 1000;
+
   /// Whether OpenInputStream and OpenInputFile return a mmap'ed file,
   /// or a regular one.
   bool use_mmap = false;
 
+  /// Options related to `GetFileInfoGenerator` interface.
+
+  /// EXPERIMENTAL: The maximum number of directories processed in parallel
+  /// by `GetFileInfoGenerator`.
+  int32_t directory_readahead = kDefaultDirectoryReadahead;
+
+  /// EXPERIMENTAL: The maximum number of entries aggregated into each
+  /// FileInfoVector chunk by `GetFileInfoGenerator`.
+  ///
+  /// Since each FileInfo entry needs a separate `stat` system call, a
+  /// directory with a very large number of files may take a lot of time to
+  /// process entirely. By generating a FileInfoVector after this chunk
+  /// size is reached, we ensure FileInfo entries can start being consumed
+  /// from the FileInfoGenerator with less initial latency.
+  int32_t file_info_batch_size = kDefaultFileInfoBatchSize;
+
   /// \brief Initialize with defaults
   static LocalFileSystemOptions Defaults();
 
@@ -73,6 +92,7 @@ class ARROW_EXPORT LocalFileSystem : public FileSystem {
   /// \endcond
   Result<FileInfo> GetFileInfo(const std::string& path) override;
   Result<std::vector<FileInfo>> GetFileInfo(const FileSelector& select) override;
+  FileInfoGenerator GetFileInfoGenerator(const FileSelector& select) override;
 
   Status CreateDir(const std::string& path, bool recursive = true) override;
 
diff --git a/cpp/src/arrow/filesystem/localfs_benchmark.cc b/cpp/src/arrow/filesystem/localfs_benchmark.cc
new file mode 100644
index 00000000000..15d74815b02
--- /dev/null
+++ b/cpp/src/arrow/filesystem/localfs_benchmark.cc
@@ -0,0 +1,136 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include <memory>
+#include <string_view>
+
+#include "benchmark/benchmark.h"
+
+#include "arrow/filesystem/localfs.h"
+#include "arrow/io/file.h"
+#include "arrow/status.h"
+#include "arrow/table.h"
+#include "arrow/testing/future_util.h"
+#include "arrow/testing/gtest_util.h"
+#include "arrow/testing/random.h"
+#include "arrow/util/async_generator.h"
+#include "arrow/util/io_util.h"
+
+namespace arrow {
+
+namespace fs {
+
+using arrow::internal::TemporaryDir;
+
+/// Set up hierarchical directory structure to test asynchronous
+/// file discovery interface (GetFileInfoGenerator()) in the LocalFileSystem
+/// class.
+///
+/// The main routine of the class is `InitializeDatasetStructure()`, which
+/// does the following:
+/// 1. Create `num_files_` empty files under specified root directory.
+/// 2. Create `num_dirs_` additional sub-directories in the current dir.
+/// 3. Check if the specified recursion limit is reached (controlled by `nesting_depth_`).
+///   a. Return if recursion limit reached.
+///   b. Recurse into each sub-directory and perform steps above, increasing current
+///      nesting level.
+class LocalFSFixture : public benchmark::Fixture {
+ public:
+  void SetUp(const benchmark::State& state) override {
+    ASSERT_OK_AND_ASSIGN(tmp_dir_, TemporaryDir::Make("localfs-test-"));
+
+    auto options = LocalFileSystemOptions::Defaults();
+    fs_ = std::make_unique<LocalFileSystem>(options);
+
+    InitializeDatasetStructure(0, tmp_dir_->path());
+  }
+
+  void InitializeDatasetStructure(size_t cur_nesting_level,
+                                  arrow::internal::PlatformFilename cur_root_dir) {
+    ASSERT_OK(arrow::internal::CreateDir(cur_root_dir));
+
+    for (size_t i = 0; i < num_files_; ++i) {
+      ASSERT_OK_AND_ASSIGN(auto path,
+                           cur_root_dir.Join(std::string{"file_" + std::to_string(i)}));
+      ASSERT_OK(MakeEmptyFile(path.ToString()));
+    }
+
+    if (cur_nesting_level == nesting_depth_) {
+      return;
+    }
+
+    for (size_t i = 0; i < num_dirs_; ++i) {
+      ASSERT_OK_AND_ASSIGN(auto path,
+                           cur_root_dir.Join(std::string{"dir_" + std::to_string(i)}));
+      InitializeDatasetStructure(cur_nesting_level + 1, std::move(path));
+    }
+  }
+
+  Status MakeEmptyFile(const std::string& path) {
+    return io::FileOutputStream::Open(path).status();
+  }
+
+ protected:
+  std::unique_ptr<TemporaryDir> tmp_dir_;
+  std::unique_ptr<LocalFileSystem> fs_;
+
+  const size_t nesting_depth_ = 2;
+  const size_t num_dirs_ = 10;
+  const size_t num_files_ = 1000;
+};
+
+/// Benchmark for `LocalFileSystem::GetFileInfoGenerator()` performance.
+///
+/// The test function is executed for each combination (cartesian product)
+/// of input arguments tuple (directory_readahead, file_info_batch_size)
+/// to test both internal parallelism and batching.
+BENCHMARK_DEFINE_F(LocalFSFixture, AsyncFileDiscovery)
+(benchmark::State& st) {
+  size_t total_file_count = 0;
+
+  for (auto _ : st) {
+    // Instantiate LocalFileSystem with custom options for directory readahead
+    // and file info batch size.
+    auto options = LocalFileSystemOptions::Defaults();
+    options.directory_readahead = static_cast<int32_t>(st.range(0));
+    options.file_info_batch_size = static_cast<int32_t>(st.range(1));
+    auto test_fs = std::make_unique<LocalFileSystem>(options);
+    // Create recursive FileSelector pointing to the root of the temporary
+    // directory, which was set up by the fixture earlier.
+    FileSelector select;
+    select.base_dir = tmp_dir_->path().ToString();
+    select.recursive = true;
+    auto file_gen = test_fs->GetFileInfoGenerator(std::move(select));
+    // Trigger fetching from the generator and count all received FileInfo:s.
+    auto visit_fut =
+        VisitAsyncGenerator(file_gen, [&total_file_count](const FileInfoVector& fv) {
+          total_file_count += fv.size();
+          return Status::OK();
+        });
+    ASSERT_FINISHES_OK(visit_fut);
+  }
+  st.SetItemsProcessed(total_file_count);
+}
+BENCHMARK_REGISTER_F(LocalFSFixture, AsyncFileDiscovery)
+    ->ArgNames({"directory_readahead", "file_info_batch_size"})
+    ->ArgsProduct({{1, 4, 16}, {100, 1000}})
+    ->UseRealTime()
+    ->Unit(benchmark::kMillisecond);
+
+}  // namespace fs
+
+}  // namespace arrow
diff --git a/cpp/src/arrow/filesystem/localfs_test.cc b/cpp/src/arrow/filesystem/localfs_test.cc
index 748c832ddd4..33f75dd845a 100644
--- a/cpp/src/arrow/filesystem/localfs_test.cc
+++ b/cpp/src/arrow/filesystem/localfs_test.cc
@@ -18,6 +18,7 @@
 #include <cerrno>
 #include <chrono>
 #include <memory>
+#include <sstream>
 #include <string>
 #include <utility>
 #include <vector>
@@ -31,6 +32,7 @@
 #include "arrow/filesystem/util_internal.h"
 #include "arrow/testing/gtest_util.h"
 #include "arrow/util/io_util.h"
+#include "arrow/util/uri.h"
 
 namespace arrow {
 namespace fs {
@@ -39,6 +41,7 @@ namespace internal {
 using ::arrow::internal::FileDescriptor;
 using ::arrow::internal::PlatformFilename;
 using ::arrow::internal::TemporaryDir;
+using ::arrow::internal::UriFromAbsolutePath;
 
 class LocalFSTestMixin : public ::testing::Test {
  public:
@@ -163,19 +166,13 @@ class TestLocalFS : public LocalFSTestMixin {
   void SetUp() {
     LocalFSTestMixin::SetUp();
     path_formatter_ = PathFormatter();
-    local_fs_ = std::make_shared<LocalFileSystem>();
     local_path_ = EnsureTrailingSlash(path_formatter_(temp_dir_->path().ToString()));
-    fs_ = std::make_shared<SubTreeFileSystem>(local_path_, local_fs_);
+    MakeFileSystem();
   }
 
-  std::string UriFromAbsolutePath(const std::string& path) {
-#ifdef _WIN32
-    // Path is supposed to start with "X:/..."
-    return "file:///" + path;
-#else
-    // Path is supposed to start with "/..."
-    return "file://" + path;
-#endif
+  void MakeFileSystem() {
+    local_fs_ = std::make_shared<LocalFileSystem>(options_);
+    fs_ = std::make_shared<SubTreeFileSystem>(local_path_, local_fs_);
   }
 
   template <typename FileSystemFromUriFunc>
@@ -248,6 +245,7 @@ class TestLocalFS : public LocalFSTestMixin {
 
  protected:
   PathFormatter path_formatter_;
+  LocalFileSystemOptions options_ = LocalFileSystemOptions::Defaults();
   std::shared_ptr<LocalFileSystem> local_fs_;
   std::shared_ptr<FileSystem> fs_;
   std::string local_path_;
@@ -301,21 +299,25 @@ TYPED_TEST(TestLocalFS, NormalizePathThroughSubtreeFS) {
 
 TYPED_TEST(TestLocalFS, FileSystemFromUriFile) {
   // Concrete test with actual file
-  const auto uri_string = this->UriFromAbsolutePath(this->local_path_);
+  ASSERT_OK_AND_ASSIGN(auto uri_string, UriFromAbsolutePath(this->local_path_));
   this->TestFileSystemFromUri(uri_string);
   this->TestFileSystemFromUriOrPath(uri_string);
 
   // Variations
   this->TestLocalUri("file:/foo/bar", "/foo/bar");
   this->TestLocalUri("file:///foo/bar", "/foo/bar");
+  this->TestLocalUri("file:///some%20path/%25percent", "/some path/%percent");
 #ifdef _WIN32
   this->TestLocalUri("file:/C:/foo/bar", "C:/foo/bar");
   this->TestLocalUri("file:///C:/foo/bar", "C:/foo/bar");
+  this->TestLocalUri("file:///C:/some%20path/%25percent", "C:/some path/%percent");
 #endif
 
   // Non-empty authority
 #ifdef _WIN32
   this->TestLocalUri("file://server/share/foo/bar", "//server/share/foo/bar");
+  this->TestLocalUri("file://some%20server/some%20share/some%20path",
+                     "//some server/some share/some path");
 #else
   this->TestInvalidUri("file://server/share/foo/bar");
 #endif
@@ -398,6 +400,78 @@ TYPED_TEST(TestLocalFS, FileMTime) {
   AssertDurationBetween(t2 - infos[1].mtime(), -kTimeSlack, kTimeSlack);
 }
 
+struct DirTreeCreator {
+  static constexpr int kFilesPerDir = 50;
+  static constexpr int kDirLevels = 2;
+  static constexpr int kSubdirsPerDir = 8;
+
+  FileSystem* fs_;
+
+  Result<FileInfoVector> Create(const std::string& base) {
+    FileInfoVector infos;
+    RETURN_NOT_OK(Create(base, 0, &infos));
+    return std::move(infos);
+  }
+
+  Status Create(const std::string& base, int depth, FileInfoVector* infos) {
+    for (int i = 0; i < kFilesPerDir; ++i) {
+      std::stringstream ss;
+      ss << "f" << i;
+      auto path = ConcatAbstractPath(base, ss.str());
+      const int data_size = i % 5;
+      std::string data(data_size, 'x');
+      CreateFile(fs_, path, data);
+      FileInfo info(std::move(path), FileType::File);
+      info.set_size(data_size);
+      infos->push_back(std::move(info));
+    }
+    if (depth < kDirLevels) {
+      for (int i = 0; i < kSubdirsPerDir; ++i) {
+        std::stringstream ss;
+        ss << "d" << i;
+        auto path = ConcatAbstractPath(base, ss.str());
+        RETURN_NOT_OK(fs_->CreateDir(path));
+        infos->push_back(FileInfo(path, FileType::Directory));
+        RETURN_NOT_OK(Create(path, depth + 1, infos));
+      }
+    }
+    return Status::OK();
+  }
+};
+
+TYPED_TEST(TestLocalFS, StressGetFileInfoGenerator) {
+  // Stress GetFileInfoGenerator with large numbers of entries
+  DirTreeCreator dir_tree_creator{this->local_fs_.get()};
+  ASSERT_OK_AND_ASSIGN(FileInfoVector expected,
+                       dir_tree_creator.Create(this->local_path_));
+  SortInfos(&expected);
+
+  for (int32_t directory_readahead : {1, 5}) {
+    for (int32_t file_info_batch_size : {3, 1000}) {
+      ARROW_SCOPED_TRACE("directory_readahead = ", directory_readahead,
+                         ", file_info_batch_size = ", file_info_batch_size);
+      this->options_.directory_readahead = directory_readahead;
+      this->options_.file_info_batch_size = file_info_batch_size;
+      this->MakeFileSystem();
+
+      FileSelector selector;
+      selector.base_dir = this->local_path_;
+      selector.recursive = true;
+
+      auto gen = this->local_fs_->GetFileInfoGenerator(selector);
+      FileInfoVector actual;
+      CollectFileInfoGenerator(gen, &actual);
+      ASSERT_EQ(actual.size(), expected.size());
+      SortInfos(&actual);
+
+      for (int64_t i = 0; i < static_cast<int64_t>(actual.size()); ++i) {
+        AssertFileInfo(actual[i], expected[i].path(), expected[i].type(),
+                       expected[i].size());
+      }
+    }
+  }
+}
+
 // TODO Should we test backslash paths on Windows?
 // SubTreeFileSystem isn't compatible with them.
 
diff --git a/cpp/src/arrow/filesystem/mockfs.cc b/cpp/src/arrow/filesystem/mockfs.cc
index 69e49b32043..3bc6f4464eb 100644
--- a/cpp/src/arrow/filesystem/mockfs.cc
+++ b/cpp/src/arrow/filesystem/mockfs.cc
@@ -21,7 +21,9 @@
 #include <mutex>
 #include <sstream>
 #include <string>
+#include <string_view>
 #include <utility>
+#include <variant>
 #include <vector>
 
 #include "arrow/buffer.h"
@@ -34,8 +36,6 @@
 #include "arrow/util/async_generator.h"
 #include "arrow/util/future.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/string_view.h"
-#include "arrow/util/variant.h"
 #include "arrow/util/windows_fixup.h"
 
 namespace arrow {
@@ -44,7 +44,7 @@ namespace internal {
 
 namespace {
 
-Status ValidatePath(util::string_view s) {
+Status ValidatePath(std::string_view s) {
   if (internal::IsLikelyUri(s)) {
     return Status::Invalid("Expected a filesystem path, got a URI: '", s, "'");
   }
@@ -66,9 +66,9 @@ struct File {
 
   int64_t size() const { return data ? data->size() : 0; }
 
-  explicit operator util::string_view() const {
+  explicit operator std::string_view() const {
     if (data) {
-      return util::string_view(*data);
+      return std::string_view(*data);
     } else {
       return "";
     }
@@ -120,7 +120,7 @@ struct Directory {
 };
 
 // A filesystem entry
-using EntryBase = util::Variant<std::nullptr_t, File, Directory>;
+using EntryBase = std::variant<std::nullptr_t, File, Directory>;
 
 class Entry : public EntryBase {
  public:
@@ -129,13 +129,13 @@ class Entry : public EntryBase {
   explicit Entry(Directory&& v) : EntryBase(std::move(v)) {}
   explicit Entry(File&& v) : EntryBase(std::move(v)) {}
 
-  bool is_dir() const { return util::holds_alternative<Directory>(*this); }
+  bool is_dir() const { return std::holds_alternative<Directory>(*this); }
 
-  bool is_file() const { return util::holds_alternative<File>(*this); }
+  bool is_file() const { return std::holds_alternative<File>(*this); }
 
-  Directory& as_dir() { return util::get<Directory>(*this); }
+  Directory& as_dir() { return std::get<Directory>(*this); }
 
-  File& as_file() { return util::get<File>(*this); }
+  File& as_file() { return std::get<File>(*this); }
 
   // Get info for this entry.  Note the path() property isn't set.
   FileInfo GetInfo() {
@@ -372,7 +372,7 @@ class MockFileSystem::Impl {
       Entry* child = pair.second.get();
       if (child->is_file()) {
         auto& file = child->as_file();
-        out->push_back({path + file.name, file.mtime, util::string_view(file)});
+        out->push_back({path + file.name, file.mtime, std::string_view(file)});
       } else if (child->is_dir()) {
         DumpFiles(path, child->as_dir(), out);
       }
@@ -431,7 +431,7 @@ class MockFileSystem::Impl {
 MockFileSystem::~MockFileSystem() = default;
 
 MockFileSystem::MockFileSystem(TimePoint current_time, const io::IOContext& io_context) {
-  impl_ = std::unique_ptr<Impl>(new Impl(current_time, io_context.pool()));
+  impl_ = std::make_unique<Impl>(current_time, io_context.pool());
 }
 
 bool MockFileSystem::Equals(const FileSystem& other) const { return this == &other; }
@@ -752,7 +752,7 @@ std::vector<MockFileInfo> MockFileSystem::AllFiles() {
   return result;
 }
 
-Status MockFileSystem::CreateFile(const std::string& path, util::string_view contents,
+Status MockFileSystem::CreateFile(const std::string& path, std::string_view contents,
                                   bool recursive) {
   RETURN_NOT_OK(ValidatePath(path));
   auto parent = fs::internal::GetAbstractPathParent(path).first;
diff --git a/cpp/src/arrow/filesystem/mockfs.h b/cpp/src/arrow/filesystem/mockfs.h
index 2427d4a3bf7..e12408f52ce 100644
--- a/cpp/src/arrow/filesystem/mockfs.h
+++ b/cpp/src/arrow/filesystem/mockfs.h
@@ -20,10 +20,10 @@
 #include <iosfwd>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <vector>
 
 #include "arrow/filesystem/filesystem.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/windows_fixup.h"
 
 namespace arrow {
@@ -38,19 +38,19 @@ struct MockDirInfo {
     return mtime == other.mtime && full_path == other.full_path;
   }
 
-  friend ARROW_EXPORT std::ostream& operator<<(std::ostream&, const MockDirInfo&);
+  ARROW_FRIEND_EXPORT friend std::ostream& operator<<(std::ostream&, const MockDirInfo&);
 };
 
 struct MockFileInfo {
   std::string full_path;
   TimePoint mtime;
-  util::string_view data;
+  std::string_view data;
 
   bool operator==(const MockFileInfo& other) const {
     return mtime == other.mtime && full_path == other.full_path && data == other.data;
   }
 
-  friend ARROW_EXPORT std::ostream& operator<<(std::ostream&, const MockFileInfo&);
+  ARROW_FRIEND_EXPORT friend std::ostream& operator<<(std::ostream&, const MockFileInfo&);
 };
 
 /// A mock FileSystem implementation that holds its contents in memory.
@@ -102,7 +102,7 @@ class ARROW_EXPORT MockFileSystem : public FileSystem {
   std::vector<MockFileInfo> AllFiles();
 
   // Create a File with a content from a string.
-  Status CreateFile(const std::string& path, util::string_view content,
+  Status CreateFile(const std::string& path, std::string_view content,
                     bool recursive = true);
 
   // Create a MockFileSystem out of (empty) FileInfo. The content of every
diff --git a/cpp/src/arrow/filesystem/path_util.cc b/cpp/src/arrow/filesystem/path_util.cc
index 1afc3b2a89b..ba4892a0ac9 100644
--- a/cpp/src/arrow/filesystem/path_util.cc
+++ b/cpp/src/arrow/filesystem/path_util.cc
@@ -23,10 +23,13 @@
 #include "arrow/result.h"
 #include "arrow/status.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/string_view.h"
+#include "arrow/util/string.h"
 #include "arrow/util/uri.h"
 
 namespace arrow {
+
+using internal::StartsWith;
+
 namespace fs {
 namespace internal {
 
@@ -34,7 +37,7 @@ namespace internal {
 
 std::vector<std::string> SplitAbstractPath(const std::string& path, char sep) {
   std::vector<std::string> parts;
-  auto v = util::string_view(path);
+  auto v = std::string_view(path);
   // Strip trailing separator
   if (v.length() > 0 && v.back() == sep) {
     v = v.substr(0, v.length() - 1);
@@ -75,13 +78,13 @@ std::pair<std::string, std::string> GetAbstractPathParent(const std::string& s)
 }
 
 std::string GetAbstractPathExtension(const std::string& s) {
-  util::string_view basename(s);
+  std::string_view basename(s);
   auto offset = basename.find_last_of(kSep);
   if (offset != std::string::npos) {
     basename = basename.substr(offset);
   }
   auto dot = basename.find_last_of('.');
-  if (dot == util::string_view::npos) {
+  if (dot == std::string_view::npos) {
     // Empty extension
     return "";
   }
@@ -108,7 +111,7 @@ std::string ConcatAbstractPath(const std::string& base, const std::string& stem)
   return EnsureTrailingSlash(base) + std::string(RemoveLeadingSlash(stem));
 }
 
-std::string EnsureTrailingSlash(util::string_view v) {
+std::string EnsureTrailingSlash(std::string_view v) {
   if (v.length() > 0 && v.back() != kSep) {
     // XXX How about "C:" on Windows?  We probably don't want to turn it into "C:/"...
     // Unless the local filesystem always uses absolute paths
@@ -118,7 +121,7 @@ std::string EnsureTrailingSlash(util::string_view v) {
   }
 }
 
-std::string EnsureLeadingSlash(util::string_view v) {
+std::string EnsureLeadingSlash(std::string_view v) {
   if (v.length() == 0 || v.front() != kSep) {
     // XXX How about "C:" on Windows?  We probably don't want to turn it into "/C:"...
     return kSep + std::string(v);
@@ -126,27 +129,34 @@ std::string EnsureLeadingSlash(util::string_view v) {
     return std::string(v);
   }
 }
-util::string_view RemoveTrailingSlash(util::string_view key) {
+std::string_view RemoveTrailingSlash(std::string_view key) {
   while (!key.empty() && key.back() == kSep) {
     key.remove_suffix(1);
   }
   return key;
 }
 
-util::string_view RemoveLeadingSlash(util::string_view key) {
+std::string_view RemoveLeadingSlash(std::string_view key) {
   while (!key.empty() && key.front() == kSep) {
     key.remove_prefix(1);
   }
   return key;
 }
 
-Status AssertNoTrailingSlash(util::string_view key) {
+Status AssertNoTrailingSlash(std::string_view key) {
   if (key.back() == '/') {
     return NotAFile(key);
   }
   return Status::OK();
 }
 
+bool HasLeadingSlash(std::string_view key) {
+  if (key.front() != '/') {
+    return false;
+  }
+  return true;
+}
+
 Result<std::string> MakeAbstractPathRelative(const std::string& base,
                                              const std::string& path) {
   if (base.empty() || base.front() != kSep) {
@@ -154,8 +164,8 @@ Result<std::string> MakeAbstractPathRelative(const std::string& base,
                            base, "'");
   }
   auto b = EnsureLeadingSlash(RemoveTrailingSlash(base));
-  auto p = util::string_view(path);
-  if (p.substr(0, b.size()) != util::string_view(b)) {
+  auto p = std::string_view(path);
+  if (p.substr(0, b.size()) != std::string_view(b)) {
     return Status::Invalid("Path '", path, "' is not relative to '", base, "'");
   }
   p = p.substr(b.size());
@@ -165,7 +175,7 @@ Result<std::string> MakeAbstractPathRelative(const std::string& base,
   return std::string(RemoveLeadingSlash(p));
 }
 
-bool IsAncestorOf(util::string_view ancestor, util::string_view descendant) {
+bool IsAncestorOf(std::string_view ancestor, std::string_view descendant) {
   ancestor = RemoveTrailingSlash(ancestor);
   if (ancestor == "") {
     // everything is a descendant of the root directory
@@ -173,7 +183,7 @@ bool IsAncestorOf(util::string_view ancestor, util::string_view descendant) {
   }
 
   descendant = RemoveTrailingSlash(descendant);
-  if (!descendant.starts_with(ancestor)) {
+  if (!StartsWith(descendant, ancestor)) {
     // an ancestor path is a prefix of descendant paths
     return false;
   }
@@ -186,21 +196,21 @@ bool IsAncestorOf(util::string_view ancestor, util::string_view descendant) {
   }
 
   // "/hello/w" is not an ancestor of "/hello/world"
-  return descendant.starts_with(std::string{kSep});
+  return StartsWith(descendant, std::string{kSep});
 }
 
-util::optional<util::string_view> RemoveAncestor(util::string_view ancestor,
-                                                 util::string_view descendant) {
+std::optional<std::string_view> RemoveAncestor(std::string_view ancestor,
+                                               std::string_view descendant) {
   if (!IsAncestorOf(ancestor, descendant)) {
-    return util::nullopt;
+    return std::nullopt;
   }
 
   auto relative_to_ancestor = descendant.substr(ancestor.size());
   return RemoveLeadingSlash(relative_to_ancestor);
 }
 
-std::vector<std::string> AncestorsFromBasePath(util::string_view base_path,
-                                               util::string_view descendant) {
+std::vector<std::string> AncestorsFromBasePath(std::string_view base_path,
+                                               std::string_view descendant) {
   std::vector<std::string> ancestry;
   if (auto relative = RemoveAncestor(base_path, descendant)) {
     auto relative_segments = fs::internal::SplitAbstractPath(std::string(*relative));
@@ -245,7 +255,7 @@ std::vector<std::string> MinimalCreateDirSet(std::vector<std::string> dirs) {
   return dirs;
 }
 
-std::string ToBackslashes(util::string_view v) {
+std::string ToBackslashes(std::string_view v) {
   std::string s(v);
   for (auto& c : s) {
     if (c == '/') {
@@ -255,7 +265,7 @@ std::string ToBackslashes(util::string_view v) {
   return s;
 }
 
-std::string ToSlashes(util::string_view v) {
+std::string ToSlashes(std::string_view v) {
   std::string s(v);
 #ifdef _WIN32
   for (auto& c : s) {
@@ -267,7 +277,7 @@ std::string ToSlashes(util::string_view v) {
   return s;
 }
 
-bool IsEmptyPath(util::string_view v) {
+bool IsEmptyPath(std::string_view v) {
   for (const auto c : v) {
     if (c != '/') {
       return false;
@@ -276,7 +286,7 @@ bool IsEmptyPath(util::string_view v) {
   return true;
 }
 
-bool IsLikelyUri(util::string_view v) {
+bool IsLikelyUri(std::string_view v) {
   if (v.empty() || v[0] == '/') {
     return false;
   }
diff --git a/cpp/src/arrow/filesystem/path_util.h b/cpp/src/arrow/filesystem/path_util.h
index d4083d3b5c9..059827fb0a9 100644
--- a/cpp/src/arrow/filesystem/path_util.h
+++ b/cpp/src/arrow/filesystem/path_util.h
@@ -17,13 +17,13 @@
 
 #pragma once
 
+#include <optional>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
 #include "arrow/type_fwd.h"
-#include "arrow/util/optional.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 namespace fs {
@@ -61,34 +61,37 @@ Result<std::string> MakeAbstractPathRelative(const std::string& base,
                                              const std::string& path);
 
 ARROW_EXPORT
-std::string EnsureLeadingSlash(util::string_view s);
+std::string EnsureLeadingSlash(std::string_view s);
 
 ARROW_EXPORT
-util::string_view RemoveLeadingSlash(util::string_view s);
+std::string_view RemoveLeadingSlash(std::string_view s);
 
 ARROW_EXPORT
-std::string EnsureTrailingSlash(util::string_view s);
+std::string EnsureTrailingSlash(std::string_view s);
 
 ARROW_EXPORT
-util::string_view RemoveTrailingSlash(util::string_view s);
+std::string_view RemoveTrailingSlash(std::string_view s);
 
 ARROW_EXPORT
-Status AssertNoTrailingSlash(util::string_view s);
+Status AssertNoTrailingSlash(std::string_view s);
 
 ARROW_EXPORT
-bool IsAncestorOf(util::string_view ancestor, util::string_view descendant);
+bool HasLeadingSlash(std::string_view s);
 
 ARROW_EXPORT
-util::optional<util::string_view> RemoveAncestor(util::string_view ancestor,
-                                                 util::string_view descendant);
+bool IsAncestorOf(std::string_view ancestor, std::string_view descendant);
+
+ARROW_EXPORT
+std::optional<std::string_view> RemoveAncestor(std::string_view ancestor,
+                                               std::string_view descendant);
 
 /// Return a vector of ancestors between a base path and a descendant.
 /// For example,
 ///
 /// AncestorsFromBasePath("a/b", "a/b/c/d/e") -> ["a/b/c", "a/b/c/d"]
 ARROW_EXPORT
-std::vector<std::string> AncestorsFromBasePath(util::string_view base_path,
-                                               util::string_view descendant);
+std::vector<std::string> AncestorsFromBasePath(std::string_view base_path,
+                                               std::string_view descendant);
 
 /// Given a vector of paths of directories which must be created, produce a the minimal
 /// subset for passing to CreateDir(recursive=true) by removing redundant parent
@@ -118,18 +121,18 @@ std::string JoinAbstractPath(const StringRange& range, char sep = kSep) {
 
 /// Convert slashes to backslashes, on all platforms.  Mostly useful for testing.
 ARROW_EXPORT
-std::string ToBackslashes(util::string_view s);
+std::string ToBackslashes(std::string_view s);
 
 /// Ensure a local path is abstract, by converting backslashes to regular slashes
 /// on Windows.  Return the path unchanged on other systems.
 ARROW_EXPORT
-std::string ToSlashes(util::string_view s);
+std::string ToSlashes(std::string_view s);
 
 ARROW_EXPORT
-bool IsEmptyPath(util::string_view s);
+bool IsEmptyPath(std::string_view s);
 
 ARROW_EXPORT
-bool IsLikelyUri(util::string_view s);
+bool IsLikelyUri(std::string_view s);
 
 class ARROW_EXPORT Globber {
  public:
diff --git a/cpp/src/arrow/filesystem/s3_internal.h b/cpp/src/arrow/filesystem/s3_internal.h
index ceb92b55482..54da3d5987e 100644
--- a/cpp/src/arrow/filesystem/s3_internal.h
+++ b/cpp/src/arrow/filesystem/s3_internal.h
@@ -17,9 +17,12 @@
 
 #pragma once
 
+#include <optional>
 #include <sstream>
 #include <string>
+#include <string_view>
 #include <tuple>
+#include <type_traits>
 #include <utility>
 
 #include <aws/core/Aws.h>
@@ -33,33 +36,20 @@
 #include "arrow/status.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/print.h"
-#include "arrow/util/string_view.h"
+#include "arrow/util/string.h"
 
 namespace arrow {
 namespace fs {
 namespace internal {
 
-#define ARROW_AWS_ASSIGN_OR_RAISE_IMPL(outcome_name, lhs, rexpr) \
-  auto outcome_name = (rexpr);                                   \
-  if (!outcome_name.IsSuccess()) {                               \
-    return ErrorToStatus(outcome_name.GetError());               \
-  }                                                              \
-  lhs = std::move(outcome_name).GetResultWithOwnership();
-
-#define ARROW_AWS_ASSIGN_OR_RAISE_NAME(x, y) ARROW_CONCAT(x, y)
-
-#define ARROW_AWS_ASSIGN_OR_RAISE(lhs, rexpr) \
-  ARROW_AWS_ASSIGN_OR_RAISE_IMPL(             \
-      ARROW_AWS_ASSIGN_OR_RAISE_NAME(_aws_error_or_value, __COUNTER__), lhs, rexpr);
-
 // XXX Should we expose this at some point?
 enum class S3Backend { Amazon, Minio, Other };
 
 // Detect the S3 backend type from the S3 server's response headers
-S3Backend DetectS3Backend(const Aws::Http::HeaderValueCollection& headers) {
+inline S3Backend DetectS3Backend(const Aws::Http::HeaderValueCollection& headers) {
   const auto it = headers.find("server");
   if (it != headers.end()) {
-    const auto& value = util::string_view(it->second);
+    const auto& value = std::string_view(it->second);
     if (value.find("AmazonS3") != std::string::npos) {
       return S3Backend::Amazon;
     }
@@ -71,7 +61,7 @@ S3Backend DetectS3Backend(const Aws::Http::HeaderValueCollection& headers) {
 }
 
 template <typename Error>
-S3Backend DetectS3Backend(const Aws::Client::AWSError<Error>& error) {
+inline S3Backend DetectS3Backend(const Aws::Client::AWSError<Error>& error) {
   return DetectS3Backend(error.GetResponseHeaders());
 }
 
@@ -89,6 +79,20 @@ inline bool IsConnectError(const Aws::Client::AWSError<Error>& error) {
   return false;
 }
 
+template <typename ErrorType>
+inline std::optional<std::string> BucketRegionFromError(
+    const Aws::Client::AWSError<ErrorType>& error) {
+  if constexpr (std::is_same_v<ErrorType, Aws::S3::S3Errors>) {
+    const auto& headers = error.GetResponseHeaders();
+    const auto it = headers.find("x-amz-bucket-region");
+    if (it != headers.end()) {
+      const std::string region(it->second.begin(), it->second.end());
+      return region;
+    }
+  }
+  return std::nullopt;
+}
+
 inline bool IsNotFound(const Aws::Client::AWSError<Aws::S3::S3Errors>& error) {
   const auto error_type = error.GetErrorType();
   return (error_type == Aws::S3::S3Errors::NO_SUCH_BUCKET ||
@@ -101,63 +105,140 @@ inline bool IsAlreadyExists(const Aws::Client::AWSError<Aws::S3::S3Errors>& erro
           error_type == Aws::S3::S3Errors::BUCKET_ALREADY_OWNED_BY_YOU);
 }
 
+inline std::string S3ErrorToString(Aws::S3::S3Errors error_type) {
+  switch (error_type) {
+#define S3_ERROR_CASE(NAME)     \
+  case Aws::S3::S3Errors::NAME: \
+    return #NAME;
+
+    S3_ERROR_CASE(INCOMPLETE_SIGNATURE)
+    S3_ERROR_CASE(INTERNAL_FAILURE)
+    S3_ERROR_CASE(INVALID_ACTION)
+    S3_ERROR_CASE(INVALID_CLIENT_TOKEN_ID)
+    S3_ERROR_CASE(INVALID_PARAMETER_COMBINATION)
+    S3_ERROR_CASE(INVALID_QUERY_PARAMETER)
+    S3_ERROR_CASE(INVALID_PARAMETER_VALUE)
+    S3_ERROR_CASE(MISSING_ACTION)
+    S3_ERROR_CASE(MISSING_AUTHENTICATION_TOKEN)
+    S3_ERROR_CASE(MISSING_PARAMETER)
+    S3_ERROR_CASE(OPT_IN_REQUIRED)
+    S3_ERROR_CASE(REQUEST_EXPIRED)
+    S3_ERROR_CASE(SERVICE_UNAVAILABLE)
+    S3_ERROR_CASE(THROTTLING)
+    S3_ERROR_CASE(VALIDATION)
+    S3_ERROR_CASE(ACCESS_DENIED)
+    S3_ERROR_CASE(RESOURCE_NOT_FOUND)
+    S3_ERROR_CASE(UNRECOGNIZED_CLIENT)
+    S3_ERROR_CASE(MALFORMED_QUERY_STRING)
+    S3_ERROR_CASE(SLOW_DOWN)
+    S3_ERROR_CASE(REQUEST_TIME_TOO_SKEWED)
+    S3_ERROR_CASE(INVALID_SIGNATURE)
+    S3_ERROR_CASE(SIGNATURE_DOES_NOT_MATCH)
+    S3_ERROR_CASE(INVALID_ACCESS_KEY_ID)
+    S3_ERROR_CASE(REQUEST_TIMEOUT)
+    S3_ERROR_CASE(NETWORK_CONNECTION)
+    S3_ERROR_CASE(UNKNOWN)
+    S3_ERROR_CASE(BUCKET_ALREADY_EXISTS)
+    S3_ERROR_CASE(BUCKET_ALREADY_OWNED_BY_YOU)
+    // The following is the most recent addition to S3Errors
+    // and is not supported yet for some versions of the SDK
+    // that Apache Arrow is using. This is not a big deal
+    // since this error will happen only in very specialized
+    // settings and we will print the correct numerical error
+    // code as per the "default" case down below. We should
+    // put it back once the SDK has been upgraded in all
+    // Apache Arrow build configurations.
+    // S3_ERROR_CASE(INVALID_OBJECT_STATE)
+    S3_ERROR_CASE(NO_SUCH_BUCKET)
+    S3_ERROR_CASE(NO_SUCH_KEY)
+    S3_ERROR_CASE(NO_SUCH_UPLOAD)
+    S3_ERROR_CASE(OBJECT_ALREADY_IN_ACTIVE_TIER)
+    S3_ERROR_CASE(OBJECT_NOT_IN_ACTIVE_TIER)
+
+#undef S3_ERROR_CASE
+    default:
+      return "[code " + ::arrow::internal::ToChars(static_cast<int>(error_type)) + "]";
+  }
+}
+
 // TODO qualify error messages with a prefix indicating context
 // (e.g. "When completing multipart upload to bucket 'xxx', key 'xxx': ...")
 template <typename ErrorType>
-Status ErrorToStatus(const std::string& prefix,
-                     const Aws::Client::AWSError<ErrorType>& error) {
+Status ErrorToStatus(const std::string& prefix, const std::string& operation,
+                     const Aws::Client::AWSError<ErrorType>& error,
+                     const std::optional<std::string>& region = std::nullopt) {
   // XXX Handle fine-grained error types
   // See
   // https://sdk.amazonaws.com/cpp/api/LATEST/namespace_aws_1_1_s3.html#ae3f82f8132b619b6e91c88a9f1bde371
-  return Status::IOError(prefix, "AWS Error [code ",
-                         static_cast<int>(error.GetErrorType()),
-                         "]: ", error.GetMessage());
+  auto error_type = static_cast<Aws::S3::S3Errors>(error.GetErrorType());
+  std::stringstream ss;
+  ss << S3ErrorToString(error_type);
+  if (error_type == Aws::S3::S3Errors::UNKNOWN) {
+    ss << " (HTTP status " << static_cast<int>(error.GetResponseCode()) << ")";
+  }
+
+  // Possibly an error due to wrong region configuration from client and bucket.
+  std::optional<std::string> wrong_region_msg = std::nullopt;
+  if (region.has_value()) {
+    const auto maybe_region = BucketRegionFromError(error);
+    if (maybe_region.has_value() && maybe_region.value() != region.value()) {
+      wrong_region_msg = " Looks like the configured region is '" + region.value() +
+                         "' while the bucket is located in '" + maybe_region.value() +
+                         "'.";
+    }
+  }
+  return Status::IOError(prefix, "AWS Error ", ss.str(), " during ", operation,
+                         " operation: ", error.GetMessage(),
+                         wrong_region_msg.value_or(""));
 }
 
 template <typename ErrorType, typename... Args>
-Status ErrorToStatus(const std::tuple<Args&...>& prefix,
+Status ErrorToStatus(const std::tuple<Args&...>& prefix, const std::string& operation,
                      const Aws::Client::AWSError<ErrorType>& error) {
   std::stringstream ss;
   ::arrow::internal::PrintTuple(&ss, prefix);
-  return ErrorToStatus(ss.str(), error);
+  return ErrorToStatus(ss.str(), operation, error);
 }
 
 template <typename ErrorType>
-Status ErrorToStatus(const Aws::Client::AWSError<ErrorType>& error) {
-  return ErrorToStatus(std::string(), error);
+Status ErrorToStatus(const std::string& operation,
+                     const Aws::Client::AWSError<ErrorType>& error) {
+  return ErrorToStatus(std::string(), operation, error);
 }
 
 template <typename AwsResult, typename Error>
-Status OutcomeToStatus(const std::string& prefix,
+Status OutcomeToStatus(const std::string& prefix, const std::string& operation,
                        const Aws::Utils::Outcome<AwsResult, Error>& outcome) {
   if (outcome.IsSuccess()) {
     return Status::OK();
   } else {
-    return ErrorToStatus(prefix, outcome.GetError());
+    return ErrorToStatus(prefix, operation, outcome.GetError());
   }
 }
 
 template <typename AwsResult, typename Error, typename... Args>
-Status OutcomeToStatus(const std::tuple<Args&...>& prefix,
+Status OutcomeToStatus(const std::tuple<Args&...>& prefix, const std::string& operation,
                        const Aws::Utils::Outcome<AwsResult, Error>& outcome) {
   if (outcome.IsSuccess()) {
     return Status::OK();
   } else {
-    return ErrorToStatus(prefix, outcome.GetError());
+    return ErrorToStatus(prefix, operation, outcome.GetError());
   }
 }
 
 template <typename AwsResult, typename Error>
-Status OutcomeToStatus(const Aws::Utils::Outcome<AwsResult, Error>& outcome) {
-  return OutcomeToStatus(std::string(), outcome);
+Status OutcomeToStatus(const std::string& operation,
+                       const Aws::Utils::Outcome<AwsResult, Error>& outcome) {
+  return OutcomeToStatus(std::string(), operation, outcome);
 }
 
 template <typename AwsResult, typename Error>
-Result<AwsResult> OutcomeToResult(Aws::Utils::Outcome<AwsResult, Error> outcome) {
+Result<AwsResult> OutcomeToResult(const std::string& operation,
+                                  Aws::Utils::Outcome<AwsResult, Error> outcome) {
   if (outcome.IsSuccess()) {
     return std::move(outcome).GetResultWithOwnership();
   } else {
-    return ErrorToStatus(outcome.GetError());
+    return ErrorToStatus(operation, outcome.GetError());
   }
 }
 
@@ -167,7 +248,7 @@ inline Aws::String ToAwsString(const std::string& s) {
   return Aws::String(s.begin(), s.end());
 }
 
-inline util::string_view FromAwsString(const Aws::String& s) {
+inline std::string_view FromAwsString(const Aws::String& s) {
   return {s.data(), s.length()};
 }
 
diff --git a/cpp/src/arrow/filesystem/s3_test_util.cc b/cpp/src/arrow/filesystem/s3_test_util.cc
index 1aafb5ec66c..eb29a677dae 100644
--- a/cpp/src/arrow/filesystem/s3_test_util.cc
+++ b/cpp/src/arrow/filesystem/s3_test_util.cc
@@ -31,7 +31,10 @@
 // includes windows.h. boost/process/args.hpp is included before
 // boost/process/async.h that includes
 // boost/asio/detail/socket_types.hpp implicitly is included.
+#ifdef __MINGW32__
 #include <boost/asio/io_context.hpp>
+#endif
+#define BOOST_NO_CXX98_FUNCTION_BASE  // ARROW-17805
 // We need BOOST_USE_WINDOWS_H definition with MinGW when we use
 // boost/process.hpp. See BOOST_USE_WINDOWS_H=1 in
 // cpp/cmake_modules/ThirdpartyToolchain.cmake for details.
@@ -108,12 +111,10 @@ Status MinioTestServer::Start() {
   bp::environment env = boost::this_process::environment();
   env["MINIO_ACCESS_KEY"] = kMinioAccessKey;
   env["MINIO_SECRET_KEY"] = kMinioSecretKey;
+  // Disable the embedded console (one less listening address to care about)
+  env["MINIO_BROWSER"] = "off";
 
   impl_->connect_string_ = GenerateConnectString();
-  // Also generate a console address, as it seems that Minio sometimes
-  // tries to listen on a port already in use.
-  const auto console_address = GenerateConnectString();
-
   auto exe_path = bp::search_path(kMinioExecutableName);
   if (exe_path.empty()) {
     return Status::IOError("Failed to find minio executable ('", kMinioExecutableName,
@@ -124,8 +125,7 @@ Status MinioTestServer::Start() {
     // NOTE: --quiet makes startup faster by suppressing remote version check
     impl_->server_process_ = std::make_shared<bp::child>(
         env, exe_path, "server", "--quiet", "--compat", "--address",
-        impl_->connect_string_, "--console-address", console_address,
-        impl_->temp_dir_->path().ToString());
+        impl_->connect_string_, impl_->temp_dir_->path().ToString());
   } catch (const std::exception& e) {
     return Status::IOError("Failed to launch Minio server: ", e.what());
   }
diff --git a/cpp/src/arrow/filesystem/s3fs.cc b/cpp/src/arrow/filesystem/s3fs.cc
index 5f601db5e90..16ffe25266c 100644
--- a/cpp/src/arrow/filesystem/s3fs.cc
+++ b/cpp/src/arrow/filesystem/s3fs.cc
@@ -24,6 +24,7 @@
 #include <functional>
 #include <memory>
 #include <mutex>
+#include <optional>
 #include <sstream>
 #include <thread>
 #include <unordered_map>
@@ -84,13 +85,11 @@
 #include "arrow/result.h"
 #include "arrow/status.h"
 #include "arrow/util/async_generator.h"
-#include "arrow/util/atomic_shared_ptr.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/future.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/string.h"
 #include "arrow/util/task_group.h"
 #include "arrow/util/thread_pool.h"
@@ -98,6 +97,7 @@
 namespace arrow {
 
 using internal::TaskGroup;
+using internal::ToChars;
 using internal::Uri;
 using io::internal::SubmitIO;
 
@@ -122,67 +122,6 @@ using internal::ToURLEncodedAwsString;
 
 static const char kSep = '/';
 
-namespace {
-
-std::mutex aws_init_lock;
-Aws::SDKOptions aws_options;
-std::atomic<bool> aws_initialized(false);
-
-Status DoInitializeS3(const S3GlobalOptions& options) {
-  Aws::Utils::Logging::LogLevel aws_log_level;
-
-#define LOG_LEVEL_CASE(level_name)                             \
-  case S3LogLevel::level_name:                                 \
-    aws_log_level = Aws::Utils::Logging::LogLevel::level_name; \
-    break;
-
-  switch (options.log_level) {
-    LOG_LEVEL_CASE(Fatal)
-    LOG_LEVEL_CASE(Error)
-    LOG_LEVEL_CASE(Warn)
-    LOG_LEVEL_CASE(Info)
-    LOG_LEVEL_CASE(Debug)
-    LOG_LEVEL_CASE(Trace)
-    default:
-      aws_log_level = Aws::Utils::Logging::LogLevel::Off;
-  }
-
-#undef LOG_LEVEL_CASE
-
-  aws_options.loggingOptions.logLevel = aws_log_level;
-  // By default the AWS SDK logs to files, log to console instead
-  aws_options.loggingOptions.logger_create_fn = [] {
-    return std::make_shared<Aws::Utils::Logging::ConsoleLogSystem>(
-        aws_options.loggingOptions.logLevel);
-  };
-  Aws::InitAPI(aws_options);
-  aws_initialized.store(true);
-  return Status::OK();
-}
-
-}  // namespace
-
-Status InitializeS3(const S3GlobalOptions& options) {
-  std::lock_guard<std::mutex> lock(aws_init_lock);
-  return DoInitializeS3(options);
-}
-
-Status FinalizeS3() {
-  std::lock_guard<std::mutex> lock(aws_init_lock);
-  Aws::ShutdownAPI(aws_options);
-  aws_initialized.store(false);
-  return Status::OK();
-}
-
-Status EnsureS3Initialized() {
-  std::lock_guard<std::mutex> lock(aws_init_lock);
-  if (!aws_initialized.load()) {
-    S3GlobalOptions options{S3LogLevel::Fatal};
-    return DoInitializeS3(options);
-  }
-  return Status::OK();
-}
-
 // -----------------------------------------------------------------------
 // S3ProxyOptions implementation
 
@@ -209,11 +148,59 @@ bool S3ProxyOptions::Equals(const S3ProxyOptions& other) const {
           username == other.username && password == other.password);
 }
 
+// -----------------------------------------------------------------------
+// AwsRetryStrategy implementation
+
+class AwsRetryStrategy : public S3RetryStrategy {
+ public:
+  explicit AwsRetryStrategy(std::shared_ptr<Aws::Client::RetryStrategy> retry_strategy)
+      : retry_strategy_(std::move(retry_strategy)) {}
+
+  bool ShouldRetry(const AWSErrorDetail& detail, int64_t attempted_retries) override {
+    Aws::Client::AWSError<Aws::Client::CoreErrors> error = DetailToError(detail);
+    return retry_strategy_->ShouldRetry(
+        error, static_cast<long>(attempted_retries));  // NOLINT: runtime/int
+  }
+
+  int64_t CalculateDelayBeforeNextRetry(const AWSErrorDetail& detail,
+                                        int64_t attempted_retries) override {
+    Aws::Client::AWSError<Aws::Client::CoreErrors> error = DetailToError(detail);
+    return retry_strategy_->CalculateDelayBeforeNextRetry(
+        error, static_cast<long>(attempted_retries));  // NOLINT: runtime/int
+  }
+
+ private:
+  std::shared_ptr<Aws::Client::RetryStrategy> retry_strategy_;
+  static Aws::Client::AWSError<Aws::Client::CoreErrors> DetailToError(
+      const S3RetryStrategy::AWSErrorDetail& detail) {
+    auto exception_name = ToAwsString(detail.exception_name);
+    auto message = ToAwsString(detail.message);
+    auto errors = Aws::Client::AWSError<Aws::Client::CoreErrors>(
+        static_cast<Aws::Client::CoreErrors>(detail.error_type), exception_name, message,
+        detail.should_retry);
+    return errors;
+  }
+};
+
+std::shared_ptr<S3RetryStrategy> S3RetryStrategy::GetAwsDefaultRetryStrategy(
+    int64_t max_attempts) {
+  return std::make_shared<AwsRetryStrategy>(
+      std::make_shared<Aws::Client::DefaultRetryStrategy>(
+          static_cast<long>(max_attempts)));  // NOLINT: runtime/int
+}
+
+std::shared_ptr<S3RetryStrategy> S3RetryStrategy::GetAwsStandardRetryStrategy(
+    int64_t max_attempts) {
+  return std::make_shared<AwsRetryStrategy>(
+      std::make_shared<Aws::Client::StandardRetryStrategy>(
+          static_cast<long>(max_attempts)));  // NOLINT: runtime/int
+}
+
 // -----------------------------------------------------------------------
 // S3Options implementation
 
 S3Options::S3Options() {
-  DCHECK(aws_initialized.load()) << "Must initialize S3 before using S3Options";
+  DCHECK(IsS3Initialized()) << "Must initialize S3 before using S3Options";
 }
 
 void S3Options::ConfigureDefaultCredentials() {
@@ -404,7 +391,7 @@ bool S3Options::Equals(const S3Options& other) const {
 namespace {
 
 Status CheckS3Initialized() {
-  if (!aws_initialized.load()) {
+  if (!IsS3Initialized()) {
     return Status::Invalid(
         "S3 subsystem not initialized; please call InitializeS3() "
         "before carrying out any S3-related operation");
@@ -581,7 +568,7 @@ class S3Client : public Aws::S3::S3Client {
       } else if (!outcome.IsSuccess()) {
         return ErrorToStatus(std::forward_as_tuple("When resolving region for bucket '",
                                                    request.GetBucket(), "': "),
-                             outcome.GetError());
+                             "HeadBucket", outcome.GetError());
       } else {
         return Status::IOError("When resolving region for bucket '", request.GetBucket(),
                                "': missing 'x-amz-bucket-region' header in response");
@@ -609,7 +596,7 @@ class S3Client : public Aws::S3::S3Client {
     // We work around the issue by registering a DataReceivedEventHandler
     // which parses the XML response for embedded errors.
 
-    util::optional<AWSError<Aws::Client::CoreErrors>> aws_error;
+    std::optional<AWSError<Aws::Client::CoreErrors>> aws_error;
 
     auto handler = [&](const Aws::Http::HttpRequest* http_req,
                        Aws::Http::HttpResponse* http_resp,
@@ -714,7 +701,7 @@ class ClientBuilder {
   Aws::Client::ClientConfiguration* mutable_config() { return &client_config_; }
 
   Result<std::shared_ptr<S3Client>> BuildClient(
-      util::optional<io::IOContext> io_context = util::nullopt) {
+      std::optional<io::IOContext> io_context = std::nullopt) {
     credentials_provider_ = options_.credentials_provider;
     if (!options_.region.empty()) {
       client_config_.region = ToAwsString(options_.region);
@@ -809,8 +796,7 @@ class RegionResolver {
   }
 
   static Result<std::shared_ptr<RegionResolver>> DefaultInstance() {
-    static std::shared_ptr<RegionResolver> instance;
-    auto resolver = arrow::internal::atomic_load(&instance);
+    auto resolver = std::atomic_load(&instance_);
     if (resolver) {
       return resolver;
     }
@@ -821,20 +807,24 @@ class RegionResolver {
     // Make sure to always return the same instance even if several threads
     // call DefaultInstance at once.
     std::shared_ptr<RegionResolver> existing;
-    if (arrow::internal::atomic_compare_exchange_strong(&instance, &existing,
-                                                        *maybe_resolver)) {
+    if (std::atomic_compare_exchange_strong(&instance_, &existing, *maybe_resolver)) {
       return *maybe_resolver;
     } else {
       return existing;
     }
   }
 
+  static void ResetDefaultInstance() {
+    std::atomic_store(&instance_, std::shared_ptr<RegionResolver>());
+  }
+
   Result<std::string> ResolveRegion(const std::string& bucket) {
     std::unique_lock<std::mutex> lock(cache_mutex_);
     auto it = cache_.find(bucket);
     if (it != cache_.end()) {
       return it->second;
     }
+    // Cache miss: do the actual region lookup
     lock.unlock();
     ARROW_ASSIGN_OR_RAISE(auto region, ResolveRegionUncached(bucket));
     lock.lock();
@@ -857,6 +847,8 @@ class RegionResolver {
     return builder_.BuildClient().Value(&client_);
   }
 
+  static std::shared_ptr<RegionResolver> instance_;
+
   ClientBuilder builder_;
   std::shared_ptr<S3Client> client_;
 
@@ -866,6 +858,8 @@ class RegionResolver {
   std::unordered_map<std::string, std::string> cache_;
 };
 
+std::shared_ptr<RegionResolver> RegionResolver::instance_;
+
 // -----------------------------------------------------------------------
 // S3 file stream implementations
 
@@ -897,7 +891,7 @@ Result<S3Model::GetObjectResult> GetObjectRange(Aws::S3::S3Client* client,
   req.SetKey(ToAwsString(path.key));
   req.SetRange(ToAwsString(FormatRange(start, length)));
   req.SetResponseStreamFactory(AwsWriteableStreamFactory(out, length));
-  return OutcomeToResult(client->GetObject(req));
+  return OutcomeToResult("GetObject", client->GetObject(req));
 }
 
 template <typename ObjectResult>
@@ -906,7 +900,7 @@ std::shared_ptr<const KeyValueMetadata> GetObjectMetadata(const ObjectResult& re
 
   auto push = [&](std::string k, const Aws::String& v) {
     if (!v.empty()) {
-      md->Append(std::move(k), FromAwsString(v).to_string());
+      md->Append(std::move(k), std::string(FromAwsString(v)));
     }
   };
   auto push_datetime = [&](std::string k, const Aws::Utils::DateTime& v) {
@@ -915,7 +909,7 @@ std::shared_ptr<const KeyValueMetadata> GetObjectMetadata(const ObjectResult& re
     }
   };
 
-  md->Append("Content-Length", std::to_string(result.GetContentLength()));
+  md->Append("Content-Length", ToChars(result.GetContentLength()));
   push("Cache-Control", result.GetCacheControl());
   push("Content-Type", result.GetContentType());
   push("Content-Language", result.GetContentLanguage());
@@ -1028,7 +1022,7 @@ class ObjectInputFile final : public io::RandomAccessFile {
         return ErrorToStatus(
             std::forward_as_tuple("When reading information for key '", path_.key,
                                   "' in bucket '", path_.bucket, "': "),
-            outcome.GetError());
+            "HeadObject", outcome.GetError());
       }
     }
     content_length_ = outcome.GetResult().GetContentLength();
@@ -1202,7 +1196,7 @@ class ObjectOutputStream final : public io::OutputStream {
       return ErrorToStatus(
           std::forward_as_tuple("When initiating multiple part upload for key '",
                                 path_.key, "' in bucket '", path_.bucket, "': "),
-          outcome.GetError());
+          "CreateMultipartUpload", outcome.GetError());
     }
     upload_id_ = outcome.GetResult().GetUploadId();
     upload_state_ = std::make_shared<UploadState>();
@@ -1225,7 +1219,7 @@ class ObjectOutputStream final : public io::OutputStream {
       return ErrorToStatus(
           std::forward_as_tuple("When aborting multiple part upload for key '", path_.key,
                                 "' in bucket '", path_.bucket, "': "),
-          outcome.GetError());
+          "AbortMultipartUpload", outcome.GetError());
     }
     current_part_.reset();
     client_ = nullptr;
@@ -1273,7 +1267,7 @@ class ObjectOutputStream final : public io::OutputStream {
         return ErrorToStatus(
             std::forward_as_tuple("When completing multiple part upload for key '",
                                   path_.key, "' in bucket '", path_.bucket, "': "),
-            outcome.GetError());
+            "CompleteMultipartUpload", outcome.GetError());
       }
 
       client_ = nullptr;
@@ -1466,7 +1460,7 @@ class ObjectOutputStream final : public io::OutputStream {
     return ErrorToStatus(
         std::forward_as_tuple("When uploading part for key '", req.GetKey(),
                               "' in bucket '", req.GetBucket(), "': "),
-        outcome.GetError());
+        "UploadPart", outcome.GetError());
   }
 
  protected:
@@ -1660,7 +1654,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
   ClientBuilder builder_;
   io::IOContext io_context_;
   std::shared_ptr<S3Client> client_;
-  util::optional<S3Backend> backend_;
+  std::optional<S3Backend> backend_;
 
   const int32_t kListObjectsMaxKeys = 1000;
   // At most 1000 keys per multiple-delete request
@@ -1696,7 +1690,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
       if (!IsNotFound(outcome.GetError())) {
         return ErrorToStatus(std::forward_as_tuple(
                                  "When testing for existence of bucket '", bucket, "': "),
-                             outcome.GetError());
+                             "HeadBucket", outcome.GetError());
       }
       return false;
     }
@@ -1715,7 +1709,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
         return Status::OK();
       } else if (!IsNotFound(outcome.GetError())) {
         return ErrorToStatus(
-            std::forward_as_tuple("When creating bucket '", bucket, "': "),
+            std::forward_as_tuple("When creating bucket '", bucket, "': "), "HeadBucket",
             outcome.GetError());
       }
 
@@ -1742,7 +1736,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
     auto outcome = client_->CreateBucket(req);
     if (!outcome.IsSuccess() && !IsAlreadyExists(outcome.GetError())) {
       return ErrorToStatus(std::forward_as_tuple("When creating bucket '", bucket, "': "),
-                           outcome.GetError());
+                           "CreateBucket", outcome.GetError());
     }
     return Status::OK();
   }
@@ -1755,7 +1749,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
     req.SetBody(std::make_shared<std::stringstream>(""));
     return OutcomeToStatus(
         std::forward_as_tuple("When creating key '", key, "' in bucket '", bucket, "': "),
-        client_->PutObject(req));
+        "PutObject", client_->PutObject(req));
   }
 
   Status CreateEmptyDir(const std::string& bucket, const std::string& key) {
@@ -1769,7 +1763,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
     req.SetKey(ToAwsString(key));
     return OutcomeToStatus(
         std::forward_as_tuple("When delete key '", key, "' in bucket '", bucket, "': "),
-        client_->DeleteObject(req));
+        "DeleteObject", client_->DeleteObject(req));
   }
 
   Status CopyObject(const S3Path& src_path, const S3Path& dest_path) {
@@ -1783,7 +1777,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
         std::forward_as_tuple("When copying key '", src_path.key, "' in bucket '",
                               src_path.bucket, "' to key '", dest_path.key,
                               "' in bucket '", dest_path.bucket, "': "),
-        client_->CopyObject(req));
+        "CopyObject", client_->CopyObject(req));
   }
 
   // On Minio, an empty "directory" doesn't satisfy the same API requests as
@@ -1837,7 +1831,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
     }
     return ErrorToStatus(std::forward_as_tuple("When reading information for key '", key,
                                                "' in bucket '", bucket, "': "),
-                         outcome.GetError());
+                         "HeadObject", outcome.GetError());
   }
 
   Result<bool> IsEmptyDirectory(
@@ -1863,7 +1857,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
     return ErrorToStatus(
         std::forward_as_tuple("When listing objects under key '", path.key,
                               "' in bucket '", path.bucket, "': "),
-        outcome.GetError());
+        "ListObjectsV2", outcome.GetError());
   }
 
   Status CheckNestingDepth(int32_t nesting_depth) {
@@ -1900,7 +1894,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
         is_empty = false;
         FileInfo info;
         const auto child_key = internal::RemoveTrailingSlash(FromAwsString(obj.GetKey()));
-        if (child_key == util::string_view(prefix)) {
+        if (child_key == std::string_view(prefix)) {
           // Amazon can return the "directory" key itself as part of the results, skip
           continue;
         }
@@ -1943,7 +1937,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
       }
       return ErrorToStatus(std::forward_as_tuple("When listing objects under key '", key,
                                                  "' in bucket '", bucket, "': "),
-                           error);
+                           "ListObjectsV2", error);
     };
 
     auto handle_recursion = [&](int32_t nesting_depth) -> Result<bool> {
@@ -1981,7 +1975,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
       }
       return ErrorToStatus(std::forward_as_tuple("When listing objects under key '", key,
                                                  "' in bucket '", bucket, "': "),
-                           error);
+                           "ListObjectsV2", error);
     };
 
     auto handle_recursion = [producer, select,
@@ -2043,7 +2037,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
     auto handle_error = [=](const AWSError<S3Errors>& error) -> Status {
       return ErrorToStatus(std::forward_as_tuple("When listing objects under key '", key,
                                                  "' in bucket '", bucket, "': "),
-                           error);
+                           "ListObjectsV2", error);
     };
 
     auto self = shared_from_this();
@@ -2065,7 +2059,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
 
       Status operator()(const S3Model::DeleteObjectsOutcome& outcome) {
         if (!outcome.IsSuccess()) {
-          return ErrorToStatus(outcome.GetError());
+          return ErrorToStatus("DeleteObjects", outcome.GetError());
         }
         // Also need to check per-key errors, even on successful outcome
         // See
@@ -2153,7 +2147,7 @@ class S3FileSystem::Impl : public std::enable_shared_from_this<S3FileSystem::Imp
   static Result<std::vector<std::string>> ProcessListBuckets(
       const Aws::S3::Model::ListBucketsOutcome& outcome) {
     if (!outcome.IsSuccess()) {
-      return ErrorToStatus(std::forward_as_tuple("When listing buckets: "),
+      return ErrorToStatus(std::forward_as_tuple("When listing buckets: "), "ListBuckets",
                            outcome.GetError());
     }
     std::vector<std::string> buckets;
@@ -2257,10 +2251,9 @@ Result<FileInfo> S3FileSystem::GetFileInfo(const std::string& s) {
     auto outcome = impl_->client_->HeadBucket(req);
     if (!outcome.IsSuccess()) {
       if (!IsNotFound(outcome.GetError())) {
-        return ErrorToStatus(
-            std::forward_as_tuple("When getting information for bucket '", path.bucket,
-                                  "': "),
-            outcome.GetError());
+        const auto msg = "When getting information for bucket '" + path.bucket + "': ";
+        return ErrorToStatus(msg, "HeadBucket", outcome.GetError(),
+                             impl_->options().region);
       }
       info.set_type(FileType::NotFound);
       return info;
@@ -2282,10 +2275,10 @@ Result<FileInfo> S3FileSystem::GetFileInfo(const std::string& s) {
       return info;
     }
     if (!IsNotFound(outcome.GetError())) {
-      return ErrorToStatus(
-          std::forward_as_tuple("When getting information for key '", path.key,
-                                "' in bucket '", path.bucket, "': "),
-          outcome.GetError());
+      const auto msg = "When getting information for key '" + path.key + "' in bucket '" +
+                       path.bucket + "': ";
+      return ErrorToStatus(msg, "HeadObject", outcome.GetError(),
+                           impl_->options().region);
     }
     // Not found => perhaps it's an empty "directory"
     ARROW_ASSIGN_OR_RAISE(bool is_dir, impl_->IsEmptyDirectory(path, &outcome));
@@ -2430,7 +2423,7 @@ Status S3FileSystem::DeleteDir(const std::string& s) {
     req.SetBucket(ToAwsString(path.bucket));
     return OutcomeToStatus(
         std::forward_as_tuple("When deleting bucket '", path.bucket, "': "),
-        impl_->client_->DeleteBucket(req));
+        "DeleteBucket", impl_->client_->DeleteBucket(req));
   } else if (path.key.empty()) {
     return Status::IOError("Would delete bucket '", path.bucket, "'. ",
                            "To delete buckets, enable the allow_bucket_deletion option.");
@@ -2488,7 +2481,7 @@ Status S3FileSystem::DeleteFile(const std::string& s) {
       return ErrorToStatus(
           std::forward_as_tuple("When getting information for key '", path.key,
                                 "' in bucket '", path.bucket, "': "),
-          outcome.GetError());
+          "HeadObject", outcome.GetError());
     }
   }
   // Object found, delete it
@@ -2568,9 +2561,94 @@ Result<std::shared_ptr<io::OutputStream>> S3FileSystem::OpenAppendStream(
   return Status::NotImplemented("It is not possible to append efficiently to S3 objects");
 }
 
-//
+// -----------------------------------------------------------------------
+// Initialization and finalization
+
+namespace {
+
+std::mutex aws_init_lock;
+Aws::SDKOptions aws_options;
+std::atomic<bool> aws_initialized(false);
+
+Status DoInitializeS3(const S3GlobalOptions& options) {
+  Aws::Utils::Logging::LogLevel aws_log_level;
+
+#define LOG_LEVEL_CASE(level_name)                             \
+  case S3LogLevel::level_name:                                 \
+    aws_log_level = Aws::Utils::Logging::LogLevel::level_name; \
+    break;
+
+  switch (options.log_level) {
+    LOG_LEVEL_CASE(Fatal)
+    LOG_LEVEL_CASE(Error)
+    LOG_LEVEL_CASE(Warn)
+    LOG_LEVEL_CASE(Info)
+    LOG_LEVEL_CASE(Debug)
+    LOG_LEVEL_CASE(Trace)
+    default:
+      aws_log_level = Aws::Utils::Logging::LogLevel::Off;
+  }
+
+#undef LOG_LEVEL_CASE
+
+  aws_options.loggingOptions.logLevel = aws_log_level;
+  // By default the AWS SDK logs to files, log to console instead
+  aws_options.loggingOptions.logger_create_fn = [] {
+    return std::make_shared<Aws::Utils::Logging::ConsoleLogSystem>(
+        aws_options.loggingOptions.logLevel);
+  };
+#if (defined(AWS_SDK_VERSION_MAJOR) &&                          \
+     (AWS_SDK_VERSION_MAJOR > 1 || AWS_SDK_VERSION_MINOR > 9 || \
+      (AWS_SDK_VERSION_MINOR == 9 && AWS_SDK_VERSION_PATCH >= 272)))
+  // ARROW-18290: escape all special chars for compatibility with non-AWS S3 backends.
+  // This configuration options is only available with AWS SDK 1.9.272 and later.
+  aws_options.httpOptions.compliantRfc3986Encoding = true;
+#endif
+  Aws::InitAPI(aws_options);
+  aws_initialized.store(true);
+  return Status::OK();
+}
+
+Status DoFinalizeS3() {
+  RegionResolver::ResetDefaultInstance();
+  Aws::ShutdownAPI(aws_options);
+  aws_initialized.store(false);
+  return Status::OK();
+}
+
+}  // namespace
+
+Status InitializeS3(const S3GlobalOptions& options) {
+  std::lock_guard<std::mutex> lock(aws_init_lock);
+  return DoInitializeS3(options);
+}
+
+Status EnsureS3Initialized() {
+  std::lock_guard<std::mutex> lock(aws_init_lock);
+  if (!aws_initialized.load()) {
+    S3GlobalOptions options{S3LogLevel::Fatal};
+    return DoInitializeS3(options);
+  }
+  return Status::OK();
+}
+
+Status FinalizeS3() {
+  std::lock_guard<std::mutex> lock(aws_init_lock);
+  return DoFinalizeS3();
+}
+
+Status EnsureS3Finalized() {
+  std::lock_guard<std::mutex> lock(aws_init_lock);
+  if (aws_initialized.load()) {
+    return DoFinalizeS3();
+  }
+  return Status::OK();
+}
+
+bool IsS3Initialized() { return aws_initialized.load(); }
+
+// -----------------------------------------------------------------------
 // Top-level utility functions
-//
 
 Result<std::string> ResolveS3BucketRegion(const std::string& bucket) {
   if (bucket.empty() || bucket.find_first_of(kSep) != bucket.npos ||
diff --git a/cpp/src/arrow/filesystem/s3fs.h b/cpp/src/arrow/filesystem/s3fs.h
index 3f578aedb27..ba642ebe61c 100644
--- a/cpp/src/arrow/filesystem/s3fs.h
+++ b/cpp/src/arrow/filesystem/s3fs.h
@@ -70,7 +70,7 @@ enum class S3CredentialsKind : int8_t {
 };
 
 /// Pure virtual class for describing custom S3 retry strategies
-class S3RetryStrategy {
+class ARROW_EXPORT S3RetryStrategy {
  public:
   virtual ~S3RetryStrategy() = default;
 
@@ -90,6 +90,12 @@ class S3RetryStrategy {
   /// Returns the time in milliseconds the S3 client should sleep for until retrying.
   virtual int64_t CalculateDelayBeforeNextRetry(const AWSErrorDetail& error,
                                                 int64_t attempted_retries) = 0;
+  /// Returns a stock AWS Default retry strategy.
+  static std::shared_ptr<S3RetryStrategy> GetAwsDefaultRetryStrategy(
+      int64_t max_attempts);
+  /// Returns a stock AWS Standard retry strategy.
+  static std::shared_ptr<S3RetryStrategy> GetAwsStandardRetryStrategy(
+      int64_t max_attempts);
 };
 
 /// Options for the S3FileSystem implementation.
@@ -330,10 +336,18 @@ Status InitializeS3(const S3GlobalOptions& options);
 ARROW_EXPORT
 Status EnsureS3Initialized();
 
+/// Whether S3 was initialized, and not finalized.
+ARROW_EXPORT
+bool IsS3Initialized();
+
 /// Shutdown the S3 APIs.
 ARROW_EXPORT
 Status FinalizeS3();
 
+/// Ensure the S3 APIs are shutdown, but only if not already done.
+ARROW_EXPORT
+Status EnsureS3Finalized();
+
 ARROW_EXPORT
 Result<std::string> ResolveS3BucketRegion(const std::string& bucket);
 
diff --git a/cpp/src/arrow/filesystem/s3fs_benchmark.cc b/cpp/src/arrow/filesystem/s3fs_benchmark.cc
index c2922b4c289..21216429639 100644
--- a/cpp/src/arrow/filesystem/s3fs_benchmark.cc
+++ b/cpp/src/arrow/filesystem/s3fs_benchmark.cc
@@ -125,14 +125,14 @@ class MinioFixture : public benchmark::Fixture {
   Status MakeBucket() {
     Aws::S3::Model::HeadBucketRequest head;
     head.SetBucket(ToAwsString(bucket_));
-    const Status st = OutcomeToStatus(client_->HeadBucket(head));
+    const Status st = OutcomeToStatus("HeadBucket", client_->HeadBucket(head));
     if (st.ok()) {
       // Bucket exists already
       return st;
     }
     Aws::S3::Model::CreateBucketRequest req;
     req.SetBucket(ToAwsString(bucket_));
-    return OutcomeToStatus(client_->CreateBucket(req));
+    return OutcomeToStatus("CreateBucket", client_->CreateBucket(req));
   }
 
   /// Make an object with dummy data.
@@ -141,7 +141,7 @@ class MinioFixture : public benchmark::Fixture {
     req.SetBucket(ToAwsString(bucket_));
     req.SetKey(ToAwsString(name));
     req.SetBody(std::make_shared<std::stringstream>(std::string(size, 'a')));
-    return OutcomeToStatus(client_->PutObject(req));
+    return OutcomeToStatus("PutObject", client_->PutObject(req));
   }
 
   /// Make an object with Parquet data.
diff --git a/cpp/src/arrow/filesystem/s3fs_test.cc b/cpp/src/arrow/filesystem/s3fs_test.cc
index 1d89e2da711..c6957fa933e 100644
--- a/cpp/src/arrow/filesystem/s3fs_test.cc
+++ b/cpp/src/arrow/filesystem/s3fs_test.cc
@@ -179,8 +179,23 @@ class S3TestMixin : public AwsTestMixin {
   void SetUp() override {
     AwsTestMixin::SetUp();
 
-    ASSERT_OK_AND_ASSIGN(minio_, GetMinioEnv()->GetOneServer());
+    // Starting the server may fail, for example if the generated port number
+    // was "stolen" by another process. Run a dummy S3 operation to make sure it
+    // is running, otherwise retry a number of times.
+    Status connect_status;
+    int retries = kNumServerRetries;
+    do {
+      InitServerAndClient();
+      connect_status = OutcomeToStatus("ListBuckets", client_->ListBuckets());
+    } while (!connect_status.ok() && --retries > 0);
+    ASSERT_OK(connect_status);
+  }
+
+  void TearDown() override { AwsTestMixin::TearDown(); }
 
+ protected:
+  void InitServerAndClient() {
+    ASSERT_OK_AND_ASSIGN(minio_, GetMinioEnv()->GetOneServer());
     client_config_.reset(new Aws::Client::ClientConfiguration());
     client_config_->endpointOverride = ToAwsString(minio_->connect_string());
     client_config_->scheme = Aws::Http::Scheme::HTTP;
@@ -194,9 +209,9 @@ class S3TestMixin : public AwsTestMixin {
                               use_virtual_addressing));
   }
 
-  void TearDown() override { AwsTestMixin::TearDown(); }
+  // How many times to try launching a server in a row before decreeing failure
+  static constexpr int kNumServerRetries = 3;
 
- protected:
   std::shared_ptr<MinioTestServer> minio_;
   std::unique_ptr<Aws::Client::ClientConfiguration> client_config_;
   Aws::Auth::AWSCredentials credentials_;
@@ -413,28 +428,28 @@ class TestS3FS : public S3TestMixin {
     {
       Aws::S3::Model::CreateBucketRequest req;
       req.SetBucket(ToAwsString("bucket"));
-      ASSERT_OK(OutcomeToStatus(client_->CreateBucket(req)));
+      ASSERT_OK(OutcomeToStatus("CreateBucket", client_->CreateBucket(req)));
       req.SetBucket(ToAwsString("empty-bucket"));
-      ASSERT_OK(OutcomeToStatus(client_->CreateBucket(req)));
+      ASSERT_OK(OutcomeToStatus("CreateBucket", client_->CreateBucket(req)));
     }
     {
       Aws::S3::Model::PutObjectRequest req;
       req.SetBucket(ToAwsString("bucket"));
       req.SetKey(ToAwsString("emptydir/"));
       req.SetBody(std::make_shared<std::stringstream>(""));
-      ASSERT_OK(OutcomeToStatus(client_->PutObject(req)));
+      ASSERT_OK(OutcomeToStatus("PutObject", client_->PutObject(req)));
       // NOTE: no need to create intermediate "directories" somedir/ and
       // somedir/subdir/
       req.SetKey(ToAwsString("somedir/subdir/subfile"));
       req.SetBody(std::make_shared<std::stringstream>("sub data"));
-      ASSERT_OK(OutcomeToStatus(client_->PutObject(req)));
+      ASSERT_OK(OutcomeToStatus("PutObject", client_->PutObject(req)));
       req.SetKey(ToAwsString("somefile"));
       req.SetBody(std::make_shared<std::stringstream>("some data"));
       req.SetContentType("x-arrow/test");
-      ASSERT_OK(OutcomeToStatus(client_->PutObject(req)));
+      ASSERT_OK(OutcomeToStatus("PutObject", client_->PutObject(req)));
       req.SetKey(ToAwsString("otherdir/1/2/3/otherfile"));
       req.SetBody(std::make_shared<std::stringstream>("other data"));
-      ASSERT_OK(OutcomeToStatus(client_->PutObject(req)));
+      ASSERT_OK(OutcomeToStatus("PutObject", client_->PutObject(req)));
     }
   }
 
@@ -1203,7 +1218,7 @@ class TestS3FSGeneric : public S3TestMixin, public GenericFileSystemTest {
     {
       Aws::S3::Model::CreateBucketRequest req;
       req.SetBucket(ToAwsString("s3fs-test-bucket"));
-      ASSERT_OK(OutcomeToStatus(client_->CreateBucket(req)));
+      ASSERT_OK(OutcomeToStatus("CreateBucket", client_->CreateBucket(req)));
     }
 
     options_.ConfigureAccessKey(minio_->access_key(), minio_->secret_key());
diff --git a/cpp/src/arrow/filesystem/test_util.cc b/cpp/src/arrow/filesystem/test_util.cc
index d72386a64a9..6c5dda8e659 100644
--- a/cpp/src/arrow/filesystem/test_util.cc
+++ b/cpp/src/arrow/filesystem/test_util.cc
@@ -971,12 +971,21 @@ void GenericFileSystemTest::TestOpenInputStream(FileSystem* fs) {
   ASSERT_OK_AND_ASSIGN(stream, fs->OpenInputStream("AB/abc"));
   ASSERT_OK_AND_ASSIGN(auto metadata, stream->ReadMetadata());
   // XXX we cannot really test anything more about metadata...
+  ASSERT_OK_AND_EQ(0, stream->Tell());
   ASSERT_OK_AND_ASSIGN(buffer, stream->Read(4));
   AssertBufferEqual(*buffer, "some");
-  ASSERT_OK_AND_ASSIGN(buffer, stream->Read(6));
+  ASSERT_OK_AND_ASSIGN(buffer, stream->Read(6 /*Remaining + 1*/));
   AssertBufferEqual(*buffer, " data");
   ASSERT_OK_AND_ASSIGN(buffer, stream->Read(1));
   AssertBufferEqual(*buffer, "");
+  ASSERT_OK_AND_EQ(9, stream->Tell());
+  ASSERT_OK(stream->Close());
+
+  ASSERT_OK_AND_ASSIGN(stream, fs->OpenInputStream("AB/abc"));
+  ASSERT_OK(stream->Advance(4));
+  ASSERT_OK_AND_EQ(4, stream->Tell());
+  ASSERT_OK_AND_ASSIGN(buffer, stream->Read(6 /*Remaining + 1*/));
+  AssertBufferEqual(*buffer, " data");
   ASSERT_OK(stream->Close());
   ASSERT_RAISES(Invalid, stream->Read(1));  // Stream is closed
 
@@ -1056,8 +1065,21 @@ void GenericFileSystemTest::TestOpenInputFile(FileSystem* fs) {
   std::shared_ptr<io::RandomAccessFile> file;
   std::shared_ptr<Buffer> buffer;
   ASSERT_OK_AND_ASSIGN(file, fs->OpenInputFile("AB/abc"));
-  ASSERT_OK_AND_ASSIGN(buffer, file->ReadAt(5, 6));
+  ASSERT_OK_AND_EQ(0, file->Tell());
+  ASSERT_OK(file->Seek(10));
+  ASSERT_OK_AND_EQ(10, file->Tell());
+  ASSERT_OK_AND_ASSIGN(buffer, file->Read(6 /*Remaining + 1*/));
+  AssertBufferEqual(*buffer, " data");
+  ASSERT_OK_AND_ASSIGN(buffer, file->Read(1));
+  AssertBufferEqual(*buffer, "");
+  ASSERT_OK_AND_EQ(15, file->Tell());
+  ASSERT_OK(file->Seek(5));
+  ASSERT_OK_AND_EQ(5, file->Tell());
+  ASSERT_OK_AND_ASSIGN(buffer, file->Read(6));
   AssertBufferEqual(*buffer, "other ");
+  // Should return the same slice independent of the current position
+  ASSERT_OK_AND_ASSIGN(buffer, file->ReadAt(2, 3));
+  AssertBufferEqual(*buffer, "me ");
   ASSERT_OK_AND_EQ(15, file->GetSize());
   ASSERT_OK(file->Close());
   ASSERT_RAISES(Invalid, file->ReadAt(1, 1));  // Stream is closed
diff --git a/cpp/src/arrow/filesystem/type_fwd.h b/cpp/src/arrow/filesystem/type_fwd.h
index c6427dc3c86..892f7ad2e1b 100644
--- a/cpp/src/arrow/filesystem/type_fwd.h
+++ b/cpp/src/arrow/filesystem/type_fwd.h
@@ -17,6 +17,8 @@
 
 #pragma once
 
+#include <cstdint>
+
 namespace arrow {
 namespace fs {
 
diff --git a/cpp/src/arrow/filesystem/util_internal.cc b/cpp/src/arrow/filesystem/util_internal.cc
index 0d2ad709026..79e8503818c 100644
--- a/cpp/src/arrow/filesystem/util_internal.cc
+++ b/cpp/src/arrow/filesystem/util_internal.cc
@@ -56,21 +56,21 @@ Status CopyStream(const std::shared_ptr<io::InputStream>& src,
   return Status::OK();
 }
 
-Status PathNotFound(util::string_view path) {
+Status PathNotFound(std::string_view path) {
   return Status::IOError("Path does not exist '", path, "'")
       .WithDetail(StatusDetailFromErrno(ENOENT));
 }
 
-Status NotADir(util::string_view path) {
+Status NotADir(std::string_view path) {
   return Status::IOError("Not a directory: '", path, "'")
       .WithDetail(StatusDetailFromErrno(ENOTDIR));
 }
 
-Status NotAFile(util::string_view path) {
+Status NotAFile(std::string_view path) {
   return Status::IOError("Not a regular file: '", path, "'");
 }
 
-Status InvalidDeleteDirContents(util::string_view path) {
+Status InvalidDeleteDirContents(std::string_view path) {
   return Status::Invalid(
       "DeleteDirContents called on invalid path '", path, "'. ",
       "If you wish to delete the root directory's contents, call DeleteRootDirContents.");
@@ -78,12 +78,13 @@ Status InvalidDeleteDirContents(util::string_view path) {
 
 Result<FileInfoVector> GlobFiles(const std::shared_ptr<FileSystem>& filesystem,
                                  const std::string& glob) {
+  // TODO: ARROW-17640
   // The candidate entries at the current depth level.
   // We start with the filesystem root.
   FileInfoVector results{FileInfo("", FileType::Directory)};
   // The exact tail that will later require matching with candidate entries
   std::string current_tail;
-
+  auto is_leading_slash = HasLeadingSlash(glob);
   auto split_glob = SplitAbstractPath(glob, '/');
 
   // Process one depth level at once, from root to leaf
@@ -103,6 +104,9 @@ Result<FileInfoVector> GlobFiles(const std::shared_ptr<FileSystem>& filesystem,
         selector.base_dir = current_tail.empty()
                                 ? res.path()
                                 : ConcatAbstractPath(res.path(), current_tail);
+        if (is_leading_slash) {
+          selector.base_dir = EnsureLeadingSlash(selector.base_dir);
+        }
         ARROW_ASSIGN_OR_RAISE(auto entries, filesystem->GetFileInfo(selector));
         Globber globber(ConcatAbstractPath(selector.base_dir, glob_component));
         for (auto&& entry : entries) {
diff --git a/cpp/src/arrow/filesystem/util_internal.h b/cpp/src/arrow/filesystem/util_internal.h
index 75a2d3a2ef5..cc16dbba106 100644
--- a/cpp/src/arrow/filesystem/util_internal.h
+++ b/cpp/src/arrow/filesystem/util_internal.h
@@ -19,11 +19,11 @@
 
 #include <cstdint>
 #include <memory>
+#include <string_view>
 
 #include "arrow/filesystem/filesystem.h"
 #include "arrow/io/interfaces.h"
 #include "arrow/status.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -39,16 +39,16 @@ Status CopyStream(const std::shared_ptr<io::InputStream>& src,
                   const io::IOContext& io_context);
 
 ARROW_EXPORT
-Status PathNotFound(util::string_view path);
+Status PathNotFound(std::string_view path);
 
 ARROW_EXPORT
-Status NotADir(util::string_view path);
+Status NotADir(std::string_view path);
 
 ARROW_EXPORT
-Status NotAFile(util::string_view path);
+Status NotAFile(std::string_view path);
 
 ARROW_EXPORT
-Status InvalidDeleteDirContents(util::string_view path);
+Status InvalidDeleteDirContents(std::string_view path);
 
 /// \brief Return files matching the glob pattern on the filesystem
 ///
diff --git a/cpp/src/arrow/flight/ArrowFlightConfig.cmake.in b/cpp/src/arrow/flight/ArrowFlightConfig.cmake.in
index 11be4579477..70beb901c85 100644
--- a/cpp/src/arrow/flight/ArrowFlightConfig.cmake.in
+++ b/cpp/src/arrow/flight/ArrowFlightConfig.cmake.in
@@ -21,16 +21,18 @@
 #
 # This config sets the following targets in your project::
 #
-#   arrow_flight_shared - for linked as shared library if shared library is built
-#   arrow_flight_static - for linked as static library if static library is built
+#   ArrowFlight::arrow_flight_shared - for linked as shared library if shared library is built
+#   ArrowFlight::arrow_flight_static - for linked as static library if static library is built
 
 @PACKAGE_INIT@
 
 include(CMakeFindDependencyMacro)
 find_dependency(Arrow)
 
-# Load targets only once. If we load targets multiple times, CMake reports
-# already existent target error.
-if(NOT (TARGET arrow_flight_shared OR TARGET arrow_flight_static))
-  include("${CMAKE_CURRENT_LIST_DIR}/ArrowFlightTargets.cmake")
-endif()
+include("${CMAKE_CURRENT_LIST_DIR}/ArrowFlightTargets.cmake")
+
+arrow_keep_backward_compatibility(ArrowFlight arrow_flight)
+
+check_required_components(ArrowFlight)
+
+arrow_show_details(ArrowFlight ARROW_FLIGHT)
diff --git a/cpp/src/arrow/flight/ArrowFlightTestingConfig.cmake.in b/cpp/src/arrow/flight/ArrowFlightTestingConfig.cmake.in
index f3e1a63d6ab..f072b2603e3 100644
--- a/cpp/src/arrow/flight/ArrowFlightTestingConfig.cmake.in
+++ b/cpp/src/arrow/flight/ArrowFlightTestingConfig.cmake.in
@@ -21,8 +21,8 @@
 #
 # This config sets the following targets in your project::
 #
-#   arrow_flight_testing_shared - for linked as shared library if shared library is built
-#   arrow_flight_testing_static - for linked as static library if static library is built
+#   ArrowFlightTesting::arrow_flight_testing_shared - for linked as shared library if shared library is built
+#   ArrowFlightTesting::arrow_flight_testing_static - for linked as static library if static library is built
 
 @PACKAGE_INIT@
 
@@ -30,8 +30,10 @@ include(CMakeFindDependencyMacro)
 find_dependency(ArrowFlight)
 find_dependency(ArrowTesting)
 
-# Load targets only once. If we load targets multiple times, CMake reports
-# already existent target error.
-if(NOT (TARGET arrow_flight_testing_shared OR TARGET arrow_flight_testing_static))
-  include("${CMAKE_CURRENT_LIST_DIR}/ArrowFlightTestingTargets.cmake")
-endif()
+include("${CMAKE_CURRENT_LIST_DIR}/ArrowFlightTestingTargets.cmake")
+
+arrow_keep_backward_compatibility(ArrowFlightTetsing arrow_flight_testing)
+
+check_required_components(ArrowFlightTesting)
+
+arrow_show_details(ArrowFlightTesting ARROW_FLIGHT_TESTING)
diff --git a/cpp/src/arrow/flight/CMakeLists.txt b/cpp/src/arrow/flight/CMakeLists.txt
index a4bb287dfeb..a97047e7d4e 100644
--- a/cpp/src/arrow/flight/CMakeLists.txt
+++ b/cpp/src/arrow/flight/CMakeLists.txt
@@ -36,7 +36,9 @@ if(NOT ARROW_GRPC_USE_SHARED)
 endif()
 
 set(ARROW_FLIGHT_TEST_INTERFACE_LIBS)
-if(ARROW_BUILD_INTEGRATION OR ARROW_BUILD_TESTS)
+if(ARROW_BUILD_BENCHMARKS
+   OR ARROW_BUILD_INTEGRATION
+   OR ARROW_BUILD_TESTS)
   if(ARROW_FLIGHT_TEST_LINKAGE STREQUAL "static")
     if(NOT ARROW_BUILD_STATIC)
       message(STATUS "If static Protobuf or gRPC are used, Arrow must be built statically"
@@ -126,10 +128,17 @@ function(test_grpc_version DST_VAR DETECT_VERSION TEST_FILE)
     else()
       message(STATUS "TlsCredentialsOptions (for gRPC ${DETECT_VERSION}) not found in grpc::experimental."
       )
-      message(DEBUG "Build output:")
-      list(APPEND CMAKE_MESSAGE_INDENT "${TEST_FILE}: ")
-      message(DEBUG ${TLS_CREDENTIALS_OPTIONS_CHECK_OUTPUT})
-      list(REMOVE_AT CMAKE_MESSAGE_INDENT -1)
+      if(ARROW_FLIGHT_REQUIRE_TLSCREDENTIALSOPTIONS)
+        message(WARNING "Build output:")
+        list(APPEND CMAKE_MESSAGE_INDENT "${TEST_FILE}: ")
+        message(WARNING ${TLS_CREDENTIALS_OPTIONS_CHECK_OUTPUT})
+        list(REMOVE_AT CMAKE_MESSAGE_INDENT -1)
+      else()
+        message(DEBUG "Build output:")
+        list(APPEND CMAKE_MESSAGE_INDENT "${TEST_FILE}: ")
+        message(DEBUG ${TLS_CREDENTIALS_OPTIONS_CHECK_OUTPUT})
+        list(REMOVE_AT CMAKE_MESSAGE_INDENT -1)
+      endif()
     endif()
   endif()
 endfunction()
@@ -184,10 +193,13 @@ set(ARROW_FLIGHT_SRCS
     "${CMAKE_CURRENT_BINARY_DIR}/Flight.pb.cc"
     client.cc
     client_cookie_middleware.cc
+    client_tracing_middleware.cc
     cookie_internal.cc
+    middleware.cc
     serialization_internal.cc
     server.cc
     server_auth.cc
+    server_tracing_middleware.cc
     transport.cc
     transport_server.cc
     # Bundle the gRPC impl with libarrow_flight
@@ -228,9 +240,17 @@ add_arrow_lib(arrow_flight
               SHARED_LINK_LIBS
               arrow_shared
               ${ARROW_FLIGHT_LINK_LIBS}
+              SHARED_INSTALL_INTERFACE_LIBS
+              Arrow::arrow_shared
               STATIC_LINK_LIBS
               arrow_static
-              ${ARROW_FLIGHT_LINK_LIBS})
+              ${ARROW_FLIGHT_LINK_LIBS}
+              STATIC_INSTALL_INTERFACE_LIBS
+              Arrow::arrow_static)
+
+if(ARROW_BUILD_STATIC AND WIN32)
+  target_compile_definitions(arrow_flight_static PUBLIC ARROW_FLIGHT_STATIC)
+endif()
 
 foreach(LIB_TARGET ${ARROW_FLIGHT_LIBRARIES})
   target_compile_definitions(${LIB_TARGET} PRIVATE ARROW_FLIGHT_EXPORTING)
@@ -239,21 +259,41 @@ endforeach()
 # Define arrow_flight_testing library
 if(ARROW_TESTING)
   if(ARROW_BUILD_SHARED AND ARROW_BUILD_STATIC)
-    set(ARROW_FLIGHT_TESTING_SHARED_LINK_LIBS arrow_shared arrow_flight_shared)
-    set(ARROW_FLIGHT_TESTING_STATIC_LINK_LIBS arrow_static arrow_flight_static)
+    set(ARROW_FLIGHT_TESTING_SHARED_LINK_LIBS arrow_flight_shared)
+    set(ARROW_FLIGHT_TESTING_STATIC_LINK_LIBS arrow_flight_static)
+    set(ARROW_FLIGHT_TESTING_SHARED_INSTALL_INTERFACE_LIBS
+        ArrowFlight::arrow_flight_shared)
+    set(ARROW_FLIGHT_TESTING_STATIC_INSTALL_INTERFACE_LIBS
+        ArrowFlight::arrow_flight_static)
   elseif(ARROW_BUILD_SHARED)
-    set(ARROW_FLIGHT_TESTING_SHARED_LINK_LIBS arrow_shared arrow_flight_shared)
-    set(ARROW_FLIGHT_TESTING_STATIC_LINK_LIBS arrow_shared arrow_flight_shared)
+    set(ARROW_FLIGHT_TESTING_SHARED_LINK_LIBS arrow_flight_shared)
+    set(ARROW_FLIGHT_TESTING_STATIC_LINK_LIBS arrow_flight_shared)
+    set(ARROW_FLIGHT_TESTING_SHARED_INSTALL_INTERFACE_LIBS
+        ArrowFlight::arrow_flight_shared)
+    set(ARROW_FLIGHT_TESTING_STATIC_INSTALL_INTERFACE_LIBS
+        ArrowFlight::arrow_flight_shared)
   else()
-    set(ARROW_FLIGHT_TESTING_SHARED_LINK_LIBS arrow_static arrow_flight_static)
-    set(ARROW_FLIGHT_TESTING_STATIC_LINK_LIBS arrow_static arrow_flight_static)
+    set(ARROW_FLIGHT_TESTING_SHARED_LINK_LIBS arrow_flight_static)
+    set(ARROW_FLIGHT_TESTING_STATIC_LINK_LIBS arrow_flight_static)
+    set(ARROW_FLIGHT_TESTING_SHARED_INSTALL_INTERFACE_LIBS
+        ArrowFlight::arrow_flight_static)
+    set(ARROW_FLIGHT_TESTING_STATIC_INSTALL_INTERFACE_LIBS
+        ArrowFlight::arrow_flight_static)
   endif()
-  if(ARROW_TEST_LINKAGE STREQUAL "shared")
+  if(ARROW_FLIGHT_TEST_LINKAGE STREQUAL "shared")
     list(APPEND ARROW_FLIGHT_TESTING_SHARED_LINK_LIBS arrow_testing_shared)
     list(APPEND ARROW_FLIGHT_TESTING_STATIC_LINK_LIBS arrow_testing_shared)
+    list(APPEND ARROW_FLIGHT_TESTING_SHARED_INSTALL_INTERFACE_LIBS
+         ArrowTesting::arrow_testing_shared)
+    list(APPEND ARROW_FLIGHT_TESTING_STATIC_INSTALL_INTERFACE_LIBS
+         ArrowTesting::arrow_testing_shared)
   else()
     list(APPEND ARROW_FLIGHT_TESTING_SHARED_LINK_LIBS arrow_testing_static)
     list(APPEND ARROW_FLIGHT_TESTING_STATIC_LINK_LIBS arrow_testing_static)
+    list(APPEND ARROW_FLIGHT_TESTING_SHARED_INSTALL_INTERFACE_LIBS
+         ArrowTesting::arrow_testing_static)
+    list(APPEND ARROW_FLIGHT_TESTING_STATIC_INSTALL_INTERFACE_LIBS
+         ArrowTesting::arrow_testing_static)
   endif()
   list(APPEND ARROW_FLIGHT_TESTING_SHARED_LINK_LIBS ${ARROW_FLIGHT_TEST_INTERFACE_LIBS})
   list(APPEND ARROW_FLIGHT_TESTING_STATIC_LINK_LIBS ${ARROW_FLIGHT_TEST_INTERFACE_LIBS})
@@ -273,8 +313,12 @@ if(ARROW_TESTING)
                 arrow_dependencies
                 SHARED_LINK_LIBS
                 ${ARROW_FLIGHT_TESTING_SHARED_LINK_LIBS}
+                SHARED_INSTALL_INTERFACE_LIBS
+                ${ARROW_FLIGHT_TESTING_SHARED_INSTALL_INTERFACE_LIBS}
                 STATIC_LINK_LIBS
                 ${ARROW_FLIGHT_TESTING_STATIC_LINK_LIBS}
+                STATIC_INSTALL_INTERFACE_LIBS
+                ${ARROW_FLIGHT_TESTING_STATIC_INSTALL_INTERFACE_LIBS}
                 PRIVATE_INCLUDES
                 "${Protobuf_INCLUDE_DIRS}")
 
diff --git a/cpp/src/arrow/flight/api.h b/cpp/src/arrow/flight/api.h
index c58a9d48afa..61c475dc204 100644
--- a/cpp/src/arrow/flight/api.h
+++ b/cpp/src/arrow/flight/api.h
@@ -20,8 +20,10 @@
 #include "arrow/flight/client.h"
 #include "arrow/flight/client_auth.h"
 #include "arrow/flight/client_middleware.h"
+#include "arrow/flight/client_tracing_middleware.h"
 #include "arrow/flight/middleware.h"
 #include "arrow/flight/server.h"
 #include "arrow/flight/server_auth.h"
 #include "arrow/flight/server_middleware.h"
+#include "arrow/flight/server_tracing_middleware.h"
 #include "arrow/flight/types.h"
diff --git a/cpp/src/arrow/flight/arrow-flight.pc.in b/cpp/src/arrow/flight/arrow-flight.pc.in
index 955fc19b0df..5a57a892237 100644
--- a/cpp/src/arrow/flight/arrow-flight.pc.in
+++ b/cpp/src/arrow/flight/arrow-flight.pc.in
@@ -24,3 +24,4 @@ Description: Apache Arrow's RPC system built on gRPC
 Version: @ARROW_VERSION@
 Requires: arrow
 Libs: -L${libdir} -larrow_flight
+Cflags.private: -DARROW_FLIGHT_STATIC
diff --git a/cpp/src/arrow/flight/client.cc b/cpp/src/arrow/flight/client.cc
index c88ce4a08b2..3597356b36d 100644
--- a/cpp/src/arrow/flight/client.cc
+++ b/cpp/src/arrow/flight/client.cc
@@ -33,7 +33,6 @@
 #include "arrow/status.h"
 #include "arrow/table.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 
 #include "arrow/flight/client_auth.h"
 #include "arrow/flight/serialization_internal.h"
@@ -117,7 +116,8 @@ class IpcMessageReader : public ipc::MessageReader {
     peekable_reader_->Next(&data);
     if (!data) {
       stream_finished_ = true;
-      return stream_->Finish(Status::OK());
+      ARROW_RETURN_NOT_OK(stream_->Finish(Status::OK()));
+      return nullptr;
     }
     if (data->body) {
       ARROW_ASSIGN_OR_RAISE(data->body, Buffer::ViewOrCopy(data->body, memory_manager_));
@@ -125,7 +125,9 @@ class IpcMessageReader : public ipc::MessageReader {
     // Validate IPC message
     auto result = data->OpenMessage();
     if (!result.ok()) {
-      return stream_->Finish(std::move(result).status());
+      stream_finished_ = true;
+      ARROW_RETURN_NOT_OK(stream_->Finish(std::move(result).status()));
+      return nullptr;
     }
     *app_metadata_ = std::move(data->app_metadata);
     return result;
@@ -634,9 +636,8 @@ arrow::Result<std::unique_ptr<FlightStreamReader>> FlightClient::DoGet(
   std::unique_ptr<internal::ClientDataStream> remote_stream;
   RETURN_NOT_OK(transport_->DoGet(options, ticket, &remote_stream));
   std::unique_ptr<FlightStreamReader> stream_reader =
-      arrow::internal::make_unique<ClientStreamReader>(
-          std::move(remote_stream), options.read_options, options.stop_token,
-          options.memory_manager);
+      std::make_unique<ClientStreamReader>(std::move(remote_stream), options.read_options,
+                                           options.stop_token, options.memory_manager);
   // Eagerly read the schema
   RETURN_NOT_OK(
       static_cast<ClientStreamReader*>(stream_reader.get())->EnsureDataStarted());
@@ -656,8 +657,8 @@ arrow::Result<FlightClient::DoPutResult> FlightClient::DoPut(
   RETURN_NOT_OK(transport_->DoPut(options, &remote_stream));
   std::shared_ptr<internal::ClientDataStream> shared_stream = std::move(remote_stream);
   DoPutResult result;
-  result.reader = arrow::internal::make_unique<ClientMetadataReader>(shared_stream);
-  result.writer = arrow::internal::make_unique<ClientStreamWriter>(
+  result.reader = std::make_unique<ClientMetadataReader>(shared_stream);
+  result.writer = std::make_unique<ClientStreamWriter>(
       std::move(shared_stream), options.write_options, write_size_limit_bytes_,
       descriptor);
   RETURN_NOT_OK(result.writer->Begin(schema, options.write_options));
@@ -682,9 +683,9 @@ arrow::Result<FlightClient::DoExchangeResult> FlightClient::DoExchange(
   RETURN_NOT_OK(transport_->DoExchange(options, &remote_stream));
   std::shared_ptr<internal::ClientDataStream> shared_stream = std::move(remote_stream);
   DoExchangeResult result;
-  result.reader = arrow::internal::make_unique<ClientStreamReader>(
+  result.reader = std::make_unique<ClientStreamReader>(
       shared_stream, options.read_options, options.stop_token, options.memory_manager);
-  auto stream_writer = arrow::internal::make_unique<ClientStreamWriter>(
+  auto stream_writer = std::make_unique<ClientStreamWriter>(
       std::move(shared_stream), options.write_options, write_size_limit_bytes_,
       descriptor);
   RETURN_NOT_OK(stream_writer->Begin());
@@ -705,7 +706,7 @@ Status FlightClient::DoExchange(const FlightCallOptions& options,
 Status FlightClient::Close() {
   if (!closed_) {
     closed_ = true;
-    RETURN_NOT_OK(transport_->Close());
+    if (transport_) RETURN_NOT_OK(transport_->Close());
     transport_.reset(nullptr);
   }
   return Status::OK();
diff --git a/cpp/src/arrow/flight/client.h b/cpp/src/arrow/flight/client.h
index 0298abe366d..61fa6e9d0c4 100644
--- a/cpp/src/arrow/flight/client.h
+++ b/cpp/src/arrow/flight/client.h
@@ -24,6 +24,7 @@
 #include <memory>
 #include <string>
 #include <utility>
+#include <variant>
 #include <vector>
 
 #include "arrow/ipc/options.h"
@@ -32,7 +33,6 @@
 #include "arrow/result.h"
 #include "arrow/status.h"
 #include "arrow/util/cancel.h"
-#include "arrow/util/variant.h"
 
 #include "arrow/flight/type_fwd.h"
 #include "arrow/flight/types.h"  // IWYU pragma: keep
@@ -118,7 +118,7 @@ struct ARROW_FLIGHT_EXPORT FlightClientOptions {
 
   /// \brief Generic connection options, passed to the underlying
   ///     transport; interpretation is implementation-dependent.
-  std::vector<std::pair<std::string, util::Variant<int, std::string>>> generic_options;
+  std::vector<std::pair<std::string, std::variant<int, std::string>>> generic_options;
 
   /// \brief Use TLS without validating the server certificate. Use with caution.
   bool disable_server_verification = false;
diff --git a/cpp/src/arrow/flight/client_cookie_middleware.cc b/cpp/src/arrow/flight/client_cookie_middleware.cc
index 063c8c7f585..1d324c62353 100644
--- a/cpp/src/arrow/flight/client_cookie_middleware.cc
+++ b/cpp/src/arrow/flight/client_cookie_middleware.cc
@@ -27,7 +27,7 @@ class ClientCookieMiddlewareFactory : public ClientMiddlewareFactory {
  public:
   void StartCall(const CallInfo& info, std::unique_ptr<ClientMiddleware>* middleware) {
     ARROW_UNUSED(info);
-    *middleware = std::unique_ptr<ClientMiddleware>(new ClientCookieMiddleware(*this));
+    *middleware = std::make_unique<ClientCookieMiddleware>(*this);
   }
 
  private:
diff --git a/cpp/src/arrow/flight/client_tracing_middleware.cc b/cpp/src/arrow/flight/client_tracing_middleware.cc
new file mode 100644
index 00000000000..a45784bd31e
--- /dev/null
+++ b/cpp/src/arrow/flight/client_tracing_middleware.cc
@@ -0,0 +1,102 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "arrow/flight/client_tracing_middleware.h"
+
+#include <memory>
+#include <string>
+#include <utility>
+#include <vector>
+
+#include "arrow/util/tracing_internal.h"
+
+#ifdef ARROW_WITH_OPENTELEMETRY
+#include <opentelemetry/context/propagation/global_propagator.h>
+#include <opentelemetry/context/propagation/text_map_propagator.h>
+#endif
+
+namespace arrow {
+namespace flight {
+
+namespace {
+#ifdef ARROW_WITH_OPENTELEMETRY
+namespace otel = opentelemetry;
+class FlightClientCarrier : public otel::context::propagation::TextMapCarrier {
+ public:
+  FlightClientCarrier() = default;
+
+  otel::nostd::string_view Get(otel::nostd::string_view key) const noexcept override {
+    return "";
+  }
+
+  void Set(otel::nostd::string_view key,
+           otel::nostd::string_view value) noexcept override {
+    context_.emplace_back(key, value);
+  }
+
+  std::vector<std::pair<std::string, std::string>> context_;
+};
+
+class TracingClientMiddleware : public ClientMiddleware {
+ public:
+  explicit TracingClientMiddleware(FlightClientCarrier carrier)
+      : carrier_(std::move(carrier)) {}
+  virtual ~TracingClientMiddleware() = default;
+
+  void SendingHeaders(AddCallHeaders* outgoing_headers) override {
+    // The exact headers added are not arbitrary and are defined in
+    // the OpenTelemetry specification (see
+    // open-telemetry/opentelemetry-specification api-propagators.md)
+    for (const auto& pair : carrier_.context_) {
+      outgoing_headers->AddHeader(pair.first, pair.second);
+    }
+  }
+  void ReceivedHeaders(const CallHeaders&) override {}
+  void CallCompleted(const Status&) override {}
+
+ private:
+  FlightClientCarrier carrier_;
+};
+
+class TracingClientMiddlewareFactory : public ClientMiddlewareFactory {
+ public:
+  virtual ~TracingClientMiddlewareFactory() = default;
+  void StartCall(const CallInfo& info,
+                 std::unique_ptr<ClientMiddleware>* middleware) override {
+    FlightClientCarrier carrier;
+    auto context = otel::context::RuntimeContext::GetCurrent();
+    auto propagator =
+        otel::context::propagation::GlobalTextMapPropagator::GetGlobalPropagator();
+    propagator->Inject(carrier, context);
+    *middleware = std::make_unique<TracingClientMiddleware>(std::move(carrier));
+  }
+};
+#else
+class TracingClientMiddlewareFactory : public ClientMiddlewareFactory {
+ public:
+  virtual ~TracingClientMiddlewareFactory() = default;
+  void StartCall(const CallInfo&, std::unique_ptr<ClientMiddleware>*) override {}
+};
+#endif
+}  // namespace
+
+std::shared_ptr<ClientMiddlewareFactory> MakeTracingClientMiddlewareFactory() {
+  return std::make_shared<TracingClientMiddlewareFactory>();
+}
+
+}  // namespace flight
+}  // namespace arrow
diff --git a/cpp/src/arrow/python/util/test_main.cc b/cpp/src/arrow/flight/client_tracing_middleware.h
similarity index 65%
rename from cpp/src/arrow/python/util/test_main.cc
rename to cpp/src/arrow/flight/client_tracing_middleware.h
index dd7f379bdd4..3a8b665ed6c 100644
--- a/cpp/src/arrow/python/util/test_main.cc
+++ b/cpp/src/arrow/flight/client_tracing_middleware.h
@@ -15,27 +15,20 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include "arrow/python/platform.h"
+// Middleware implementation for propagating OpenTelemetry spans.
 
-#include <gtest/gtest.h>
+#pragma once
 
-#include "arrow/python/datetime.h"
-#include "arrow/python/init.h"
-#include "arrow/python/pyarrow.h"
+#include <memory>
 
-int main(int argc, char** argv) {
-  ::testing::InitGoogleTest(&argc, argv);
+#include "arrow/flight/client_middleware.h"
 
-  Py_Initialize();
-  int ret = arrow_init_numpy();
-  if (ret != 0) {
-    return ret;
-  }
-  ::arrow::py::internal::InitDatetime();
+namespace arrow {
+namespace flight {
 
-  ret = RUN_ALL_TESTS();
+/// \brief Returns a ClientMiddlewareFactory that handles sending OpenTelemetry spans.
+ARROW_FLIGHT_EXPORT std::shared_ptr<ClientMiddlewareFactory>
+MakeTracingClientMiddlewareFactory();
 
-  Py_Finalize();
-
-  return ret;
-}
+}  // namespace flight
+}  // namespace arrow
diff --git a/cpp/src/arrow/flight/cookie_internal.cc b/cpp/src/arrow/flight/cookie_internal.cc
index 1a15da92676..e21fb52a54e 100644
--- a/cpp/src/arrow/flight/cookie_internal.cc
+++ b/cpp/src/arrow/flight/cookie_internal.cc
@@ -23,7 +23,6 @@
 #include "arrow/flight/client_auth.h"
 #include "arrow/flight/platform.h"
 #include "arrow/util/base64.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/string.h"
 #include "arrow/util/uri.h"
 #include "arrow/util/value_parsing.h"
@@ -44,10 +43,13 @@
 const char kCookieExpiresFormat[] = "%d %m %Y %H:%M:%S";
 
 namespace arrow {
+
+using internal::ToChars;
+
 namespace flight {
 namespace internal {
 
-using CookiePair = arrow::util::optional<std::pair<std::string, std::string>>;
+using CookiePair = std::optional<std::pair<std::string, std::string>>;
 using CookieHeaderPair =
     const std::pair<CallHeaders::const_iterator, CallHeaders::const_iterator>&;
 
@@ -63,7 +65,7 @@ size_t CaseInsensitiveHash::operator()(const std::string& key) const {
   return std::hash<std::string>{}(upper_string);
 }
 
-Cookie Cookie::Parse(const arrow::util::string_view& cookie_header_value) {
+Cookie Cookie::Parse(const std::string_view& cookie_header_value) {
   // Parse the cookie string. If the cookie has an expiration, record it.
   // If the cookie has a max-age, calculate the current time + max_age and set that as
   // the expiration.
@@ -139,7 +141,7 @@ CookiePair Cookie::ParseCookieAttribute(const std::string& cookie_header_value,
   if (std::string::npos == equals_pos) {
     // No cookie attribute.
     *start_pos = std::string::npos;
-    return arrow::util::nullopt;
+    return std::nullopt;
   }
 
   std::string::size_type semi_col_pos = cookie_header_value.find(';', equals_pos);
@@ -202,7 +204,7 @@ void Cookie::ConvertCookieDate(std::string* date) {
       if ((i + 1) < 10) {
         padded_month = "0";
       }
-      padded_month += std::to_string(i + 1);
+      padded_month += ToChars(i + 1);
 
       // Replace symbolic month with numeric month.
       date->replace(it, months[i].length(), padded_month);
@@ -252,7 +254,7 @@ void CookieCache::UpdateCachedCookies(const CallHeaders& incoming_headers) {
   const std::lock_guard<std::mutex> guard(mutex_);
 
   for (auto it = header_values.first; it != header_values.second; ++it) {
-    const util::string_view& value = it->second;
+    const std::string_view& value = it->second;
     Cookie cookie = Cookie::Parse(value);
 
     // Cache cookies regardless of whether or not they are expired. The server may have
diff --git a/cpp/src/arrow/flight/cookie_internal.h b/cpp/src/arrow/flight/cookie_internal.h
index 6b3af516bb6..f2f469b3824 100644
--- a/cpp/src/arrow/flight/cookie_internal.h
+++ b/cpp/src/arrow/flight/cookie_internal.h
@@ -21,14 +21,14 @@
 
 #include <chrono>
 #include <mutex>
+#include <optional>
 #include <string>
+#include <string_view>
 #include <unordered_map>
 #include <utility>
 
 #include "arrow/flight/client_middleware.h"
 #include "arrow/result.h"
-#include "arrow/util/optional.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 namespace flight {
@@ -54,7 +54,7 @@ class ARROW_FLIGHT_EXPORT Cookie {
   /// \brief Parse function to parse a cookie header value and return a Cookie object.
   ///
   /// \return Cookie object based on cookie header value.
-  static Cookie Parse(const arrow::util::string_view& cookie_header_value);
+  static Cookie Parse(const std::string_view& cookie_header_value);
 
   /// \brief Parse a cookie header string beginning at the given start_pos and identify
   /// the name and value of an attribute.
@@ -65,7 +65,7 @@ class ARROW_FLIGHT_EXPORT Cookie {
   /// function returns.
   ///
   /// \return Optional cookie key value pair.
-  static arrow::util::optional<std::pair<std::string, std::string>> ParseCookieAttribute(
+  static std::optional<std::pair<std::string, std::string>> ParseCookieAttribute(
       const std::string& cookie_header_value, std::string::size_type* start_pos);
 
   /// \brief Function to fix cookie format date string so it is accepted by Windows
diff --git a/cpp/src/arrow/flight/flight_internals_test.cc b/cpp/src/arrow/flight/flight_internals_test.cc
index 84040a1a476..9818cb20798 100644
--- a/cpp/src/arrow/flight/flight_internals_test.cc
+++ b/cpp/src/arrow/flight/flight_internals_test.cc
@@ -83,22 +83,60 @@ TEST(FlightTypes, LocationUnknownScheme) {
 }
 
 TEST(FlightTypes, RoundTripTypes) {
+  ActionType action_type{"action-type1", "action-type1-description"};
+  ASSERT_OK_AND_ASSIGN(std::string action_type_serialized,
+                       action_type.SerializeToString());
+  ASSERT_OK_AND_ASSIGN(ActionType action_type_deserialized,
+                       ActionType::Deserialize(action_type_serialized));
+  ASSERT_EQ(action_type, action_type_deserialized);
+
+  Criteria criteria{"criteria1"};
+  ASSERT_OK_AND_ASSIGN(std::string criteria_serialized, criteria.SerializeToString());
+  ASSERT_OK_AND_ASSIGN(Criteria criteria_deserialized,
+                       Criteria::Deserialize(criteria_serialized));
+  ASSERT_EQ(criteria, criteria_deserialized);
+
+  Action action{"action1", Buffer::FromString("action1-content")};
+  ASSERT_OK_AND_ASSIGN(std::string action_serialized, action.SerializeToString());
+  ASSERT_OK_AND_ASSIGN(Action action_deserialized,
+                       Action::Deserialize(action_serialized));
+  ASSERT_EQ(action, action_deserialized);
+
+  Result result{Buffer::FromString("result1-content")};
+  ASSERT_OK_AND_ASSIGN(std::string result_serialized, result.SerializeToString());
+  ASSERT_OK_AND_ASSIGN(Result result_deserialized,
+                       Result::Deserialize(result_serialized));
+  ASSERT_EQ(result, result_deserialized);
+
+  BasicAuth basic_auth{"username1", "password1"};
+  ASSERT_OK_AND_ASSIGN(std::string basic_auth_serialized, basic_auth.SerializeToString());
+  ASSERT_OK_AND_ASSIGN(BasicAuth basic_auth_deserialized,
+                       BasicAuth::Deserialize(basic_auth_serialized));
+  ASSERT_EQ(basic_auth, basic_auth_deserialized);
+
+  SchemaResult schema_result{"schema_result1"};
+  ASSERT_OK_AND_ASSIGN(std::string schema_result_serialized,
+                       schema_result.SerializeToString());
+  ASSERT_OK_AND_ASSIGN(SchemaResult schema_result_deserialized,
+                       SchemaResult::Deserialize(schema_result_serialized));
+  ASSERT_EQ(schema_result, schema_result_deserialized);
+
   Ticket ticket{"foo"};
   ASSERT_OK_AND_ASSIGN(std::string ticket_serialized, ticket.SerializeToString());
   ASSERT_OK_AND_ASSIGN(Ticket ticket_deserialized,
                        Ticket::Deserialize(ticket_serialized));
-  ASSERT_EQ(ticket.ticket, ticket_deserialized.ticket);
+  ASSERT_EQ(ticket, ticket_deserialized);
 
   FlightDescriptor desc = FlightDescriptor::Command("select * from foo;");
   ASSERT_OK_AND_ASSIGN(std::string desc_serialized, desc.SerializeToString());
   ASSERT_OK_AND_ASSIGN(FlightDescriptor desc_deserialized,
                        FlightDescriptor::Deserialize(desc_serialized));
-  ASSERT_TRUE(desc.Equals(desc_deserialized));
+  ASSERT_EQ(desc, desc_deserialized);
 
   desc = FlightDescriptor::Path({"a", "b", "test.arrow"});
   ASSERT_OK_AND_ASSIGN(desc_serialized, desc.SerializeToString());
   ASSERT_OK_AND_ASSIGN(desc_deserialized, FlightDescriptor::Deserialize(desc_serialized));
-  ASSERT_TRUE(desc.Equals(desc_deserialized));
+  ASSERT_EQ(desc, desc_deserialized);
 
   FlightInfo::Data data;
   std::shared_ptr<Schema> schema =
@@ -110,14 +148,21 @@ TEST(FlightTypes, RoundTripTypes) {
   std::vector<FlightEndpoint> endpoints{FlightEndpoint{ticket, {location1, location2}},
                                         FlightEndpoint{ticket, {location3}}};
   ASSERT_OK(MakeFlightInfo(*schema, desc, endpoints, -1, -1, &data));
-  std::unique_ptr<FlightInfo> info = std::unique_ptr<FlightInfo>(new FlightInfo(data));
+  auto info = std::make_unique<FlightInfo>(data);
   ASSERT_OK_AND_ASSIGN(std::string info_serialized, info->SerializeToString());
   ASSERT_OK_AND_ASSIGN(std::unique_ptr<FlightInfo> info_deserialized,
                        FlightInfo::Deserialize(info_serialized));
-  ASSERT_TRUE(info->descriptor().Equals(info_deserialized->descriptor()));
+  ASSERT_EQ(info->descriptor(), info_deserialized->descriptor());
   ASSERT_EQ(info->endpoints(), info_deserialized->endpoints());
   ASSERT_EQ(info->total_records(), info_deserialized->total_records());
   ASSERT_EQ(info->total_bytes(), info_deserialized->total_bytes());
+
+  FlightEndpoint flight_endpoint{ticket, {location1, location2}};
+  ASSERT_OK_AND_ASSIGN(std::string flight_endpoint_serialized,
+                       flight_endpoint.SerializeToString());
+  ASSERT_OK_AND_ASSIGN(FlightEndpoint flight_endpoint_deserialized,
+                       FlightEndpoint::Deserialize(flight_endpoint_serialized));
+  ASSERT_EQ(flight_endpoint, flight_endpoint_deserialized);
 }
 
 TEST(FlightTypes, RoundtripStatus) {
@@ -229,8 +274,8 @@ class TestCookieMiddleware : public ::testing::Test {
   void AddAndValidate(const std::string& incoming_cookie) {
     // Add cookie
     CallHeaders call_headers;
-    call_headers.insert(std::make_pair(arrow::util::string_view("set-cookie"),
-                                       arrow::util::string_view(incoming_cookie)));
+    call_headers.insert(std::make_pair(std::string_view("set-cookie"),
+                                       std::string_view(incoming_cookie)));
     middleware_->ReceivedHeaders(call_headers);
     expected_cookie_cache_.UpdateCachedCookies(call_headers);
 
@@ -359,12 +404,12 @@ class TestCookieParsing : public ::testing::Test {
 
   void VerifyCookieAttributeParsing(
       const std::string cookie_str, std::string::size_type start_pos,
-      const util::optional<std::pair<std::string, std::string>> cookie_attribute,
+      const std::optional<std::pair<std::string, std::string>> cookie_attribute,
       const std::string::size_type start_pos_after) {
-    util::optional<std::pair<std::string, std::string>> attr =
+    std::optional<std::pair<std::string, std::string>> attr =
         internal::Cookie::ParseCookieAttribute(cookie_str, &start_pos);
 
-    if (cookie_attribute == util::nullopt) {
+    if (cookie_attribute == std::nullopt) {
       EXPECT_EQ(cookie_attribute, attr);
     } else {
       EXPECT_EQ(cookie_attribute.value(), attr.value());
@@ -378,8 +423,8 @@ class TestCookieParsing : public ::testing::Test {
     for (auto& cookie : cookies) {
       // Add cookie
       CallHeaders call_headers;
-      call_headers.insert(std::make_pair(arrow::util::string_view("set-cookie"),
-                                         arrow::util::string_view(cookie)));
+      call_headers.insert(
+          std::make_pair(std::string_view("set-cookie"), std::string_view(cookie)));
       cookie_cache.UpdateCachedCookies(call_headers);
     }
     const std::string actual_cookies = cookie_cache.GetValidCookiesAsString();
@@ -454,7 +499,7 @@ TEST_F(TestCookieParsing, DateConversion) {
 }
 
 TEST_F(TestCookieParsing, ParseCookieAttribute) {
-  VerifyCookieAttributeParsing("", 0, util::nullopt, std::string::npos);
+  VerifyCookieAttributeParsing("", 0, std::nullopt, std::string::npos);
 
   std::string cookie_string = "attr0=0; attr1=1; attr2=2; attr3=3";
   auto attr_length = std::string("attr0=0;").length();
@@ -470,8 +515,8 @@ TEST_F(TestCookieParsing, ParseCookieAttribute) {
   VerifyCookieAttributeParsing(cookie_string, (start_pos += (attr_length + 1)),
                                std::make_pair("attr3", "3"), std::string::npos);
   VerifyCookieAttributeParsing(cookie_string, (start_pos += (attr_length - 1)),
-                               util::nullopt, std::string::npos);
-  VerifyCookieAttributeParsing(cookie_string, std::string::npos, util::nullopt,
+                               std::nullopt, std::string::npos);
+  VerifyCookieAttributeParsing(cookie_string, std::string::npos, std::nullopt,
                                std::string::npos);
 }
 
@@ -491,28 +536,28 @@ TEST(TransportErrorHandling, ReconstructStatus) {
   EXPECT_RAISES_WITH_MESSAGE_THAT(
       Invalid,
       ::testing::HasSubstr(". Also, server sent unknown or invalid Arrow status code -1"),
-      internal::ReconstructStatus("-1", current, util::nullopt, util::nullopt,
-                                  util::nullopt, /*detail=*/nullptr));
+      internal::ReconstructStatus("-1", current, std::nullopt, std::nullopt, std::nullopt,
+                                  /*detail=*/nullptr));
   EXPECT_RAISES_WITH_MESSAGE_THAT(
       Invalid,
       ::testing::HasSubstr(
           ". Also, server sent unknown or invalid Arrow status code foobar"),
-      internal::ReconstructStatus("foobar", current, util::nullopt, util::nullopt,
-                                  util::nullopt, /*detail=*/nullptr));
+      internal::ReconstructStatus("foobar", current, std::nullopt, std::nullopt,
+                                  std::nullopt, /*detail=*/nullptr));
 
   // Override code
   EXPECT_RAISES_WITH_MESSAGE_THAT(
       AlreadyExists, ::testing::HasSubstr("Base error message"),
       internal::ReconstructStatus(
           std::to_string(static_cast<int>(StatusCode::AlreadyExists)), current,
-          util::nullopt, util::nullopt, util::nullopt, /*detail=*/nullptr));
+          std::nullopt, std::nullopt, std::nullopt, /*detail=*/nullptr));
 
   // Override message
   EXPECT_RAISES_WITH_MESSAGE_THAT(
       AlreadyExists, ::testing::HasSubstr("Custom error message"),
       internal::ReconstructStatus(
           std::to_string(static_cast<int>(StatusCode::AlreadyExists)), current,
-          "Custom error message", util::nullopt, util::nullopt, /*detail=*/nullptr));
+          "Custom error message", std::nullopt, std::nullopt, /*detail=*/nullptr));
 
   // With detail
   EXPECT_RAISES_WITH_MESSAGE_THAT(
@@ -521,7 +566,7 @@ TEST(TransportErrorHandling, ReconstructStatus) {
                        ::testing::HasSubstr(". Detail: Detail message")),
       internal::ReconstructStatus(
           std::to_string(static_cast<int>(StatusCode::AlreadyExists)), current,
-          "Custom error message", "Detail message", util::nullopt, /*detail=*/nullptr));
+          "Custom error message", "Detail message", std::nullopt, /*detail=*/nullptr));
 
   // With detail and bin
   auto reconstructed = internal::ReconstructStatus(
diff --git a/cpp/src/arrow/flight/flight_test.cc b/cpp/src/arrow/flight/flight_test.cc
index a7c79a6dc5b..502a7898401 100644
--- a/cpp/src/arrow/flight/flight_test.cc
+++ b/cpp/src/arrow/flight/flight_test.cc
@@ -27,10 +27,13 @@
 #include <memory>
 #include <sstream>
 #include <string>
+#include <string_view>
 #include <thread>
 #include <vector>
 
 #include "arrow/flight/api.h"
+#include "arrow/flight/client_tracing_middleware.h"
+#include "arrow/flight/server_tracing_middleware.h"
 #include "arrow/ipc/test_common.h"
 #include "arrow/status.h"
 #include "arrow/testing/generator.h"
@@ -38,7 +41,6 @@
 #include "arrow/testing/util.h"
 #include "arrow/util/base64.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 
 #ifdef GRPCPP_GRPCPP_H
 #error "gRPC headers should not be in public API"
@@ -55,6 +57,26 @@
 #include "arrow/flight/serialization_internal.h"
 #include "arrow/flight/test_definitions.h"
 #include "arrow/flight/test_util.h"
+// OTel includes must come after any gRPC includes, and
+// client_header_internal.h includes gRPC. See:
+// https://github.com/open-telemetry/opentelemetry-cpp/blob/main/examples/otlp/README.md
+//
+// > gRPC internally uses a different version of Abseil than
+// > OpenTelemetry C++ SDK.
+// > ...
+// > ...in case if you run into conflict between Abseil library and
+// > OpenTelemetry C++ absl::variant implementation, please include
+// > either grpcpp/grpcpp.h or
+// > opentelemetry/exporters/otlp/otlp_grpc_exporter.h BEFORE any
+// > other API headers. This approach efficiently avoids the conflict
+// > between the two different versions of Abseil.
+#include "arrow/util/tracing_internal.h"
+#ifdef ARROW_WITH_OPENTELEMETRY
+#include <opentelemetry/context/propagation/global_propagator.h>
+#include <opentelemetry/context/propagation/text_map_propagator.h>
+#include <opentelemetry/sdk/trace/tracer_provider.h>
+#include <opentelemetry/trace/propagation/http_trace_context.h>
+#endif
 
 namespace arrow {
 namespace flight {
@@ -150,6 +172,13 @@ TEST(TestFlight, ConnectUri) {
   ASSERT_OK(client->Close());
 }
 
+TEST(TestFlight, InvalidUriScheme) {
+  ASSERT_OK_AND_ASSIGN(auto location, Location::Parse("invalid://localhost:1234"));
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      KeyError, ::testing::HasSubstr("No client transport implementation for invalid"),
+      FlightClient::Connect(location));
+}
+
 #ifndef _WIN32
 TEST(TestFlight, ConnectUriUnix) {
   TestServer server("flight-test-server", "/tmp/flight-test.sock");
@@ -279,8 +308,8 @@ class AuthTestServer : public FlightServerBase {
                   std::unique_ptr<ResultStream>* result) override {
     auto buf = Buffer::FromString(context.peer_identity());
     auto peer = Buffer::FromString(context.peer());
-    *result = std::unique_ptr<ResultStream>(
-        new SimpleResultStream({Result{buf}, Result{peer}}));
+    *result = std::make_unique<SimpleResultStream>(
+        std::vector<Result>{Result{buf}, Result{peer}});
     return Status::OK();
   }
 };
@@ -289,7 +318,7 @@ class TlsTestServer : public FlightServerBase {
   Status DoAction(const ServerCallContext& context, const Action& action,
                   std::unique_ptr<ResultStream>* result) override {
     auto buf = Buffer::FromString("Hello, world!");
-    *result = std::unique_ptr<ResultStream>(new SimpleResultStream({Result{buf}}));
+    *result = std::make_unique<SimpleResultStream>(std::vector<Result>{Result{buf}});
     return Status::OK();
   }
 };
@@ -308,8 +337,8 @@ class TestAuthHandler : public ::testing::Test {
     ASSERT_OK(MakeServer<AuthTestServer>(
         &server_, &client_,
         [](FlightServerOptions* options) {
-          options->auth_handler = std::unique_ptr<ServerAuthHandler>(
-              new TestServerAuthHandler("user", "p4ssw0rd"));
+          options->auth_handler =
+              std::make_unique<TestServerAuthHandler>("user", "p4ssw0rd");
           return Status::OK();
         },
         [](FlightClientOptions* options) { return Status::OK(); }));
@@ -331,8 +360,8 @@ class TestBasicAuthHandler : public ::testing::Test {
     ASSERT_OK(MakeServer<AuthTestServer>(
         &server_, &client_,
         [](FlightServerOptions* options) {
-          options->auth_handler = std::unique_ptr<ServerAuthHandler>(
-              new TestServerBasicAuthHandler("user", "p4ssw0rd"));
+          options->auth_handler =
+              std::make_unique<TestServerBasicAuthHandler>("user", "p4ssw0rd");
           return Status::OK();
         },
         [](FlightClientOptions* options) { return Status::OK(); }));
@@ -442,29 +471,29 @@ static thread_local std::string current_span_id = "";
 
 // A server middleware that stores the current span ID, in an
 // emulation of OpenTracing style distributed tracing.
-class TracingServerMiddleware : public ServerMiddleware {
+class TracingTestServerMiddleware : public ServerMiddleware {
  public:
-  explicit TracingServerMiddleware(const std::string& current_span_id)
+  explicit TracingTestServerMiddleware(const std::string& current_span_id)
       : span_id(current_span_id) {}
   void SendingHeaders(AddCallHeaders* outgoing_headers) override {}
   void CallCompleted(const Status& status) override {}
 
-  std::string name() const override { return "TracingServerMiddleware"; }
+  std::string name() const override { return "TracingTestServerMiddleware"; }
 
   std::string span_id;
 };
 
-class TracingServerMiddlewareFactory : public ServerMiddlewareFactory {
+class TracingTestServerMiddlewareFactory : public ServerMiddlewareFactory {
  public:
-  TracingServerMiddlewareFactory() {}
+  TracingTestServerMiddlewareFactory() {}
 
   Status StartCall(const CallInfo& info, const CallHeaders& incoming_headers,
                    std::shared_ptr<ServerMiddleware>* middleware) override {
     const std::pair<CallHeaders::const_iterator, CallHeaders::const_iterator>& iter_pair =
         incoming_headers.equal_range("x-tracing-span-id");
     if (iter_pair.first != iter_pair.second) {
-      const util::string_view& value = (*iter_pair.first).second;
-      *middleware = std::make_shared<TracingServerMiddleware>(std::string(value));
+      const std::string_view& value = (*iter_pair.first).second;
+      *middleware = std::make_shared<TracingTestServerMiddleware>(std::string(value));
     }
     return Status::OK();
   }
@@ -484,7 +513,7 @@ std::string FindKeyValPrefixInCallHeaders(const CallHeaders& incoming_headers,
   if (iter == incoming_headers.end()) {
     return "";
   }
-  const std::string val = iter->second.to_string();
+  const std::string val(iter->second);
   if (val.size() > prefix.length()) {
     if (std::equal(val.begin(), val.begin() + prefix.length(), prefix.begin(),
                    char_compare)) {
@@ -608,8 +637,8 @@ class PropagatingClientMiddlewareFactory : public ClientMiddlewareFactory {
  public:
   void StartCall(const CallInfo& info, std::unique_ptr<ClientMiddleware>* middleware) {
     recorded_calls_.push_back(info.method);
-    *middleware = arrow::internal::make_unique<PropagatingClientMiddleware>(
-        &received_headers_, &recorded_status_);
+    *middleware = std::make_unique<PropagatingClientMiddleware>(&received_headers_,
+                                                                &recorded_status_);
   }
 
   void Reset() {
@@ -628,12 +657,12 @@ class ReportContextTestServer : public FlightServerBase {
                   std::unique_ptr<ResultStream>* result) override {
     std::shared_ptr<Buffer> buf;
     const ServerMiddleware* middleware = context.GetMiddleware("tracing");
-    if (middleware == nullptr || middleware->name() != "TracingServerMiddleware") {
+    if (middleware == nullptr || middleware->name() != "TracingTestServerMiddleware") {
       buf = Buffer::FromString("");
     } else {
-      buf = Buffer::FromString(((const TracingServerMiddleware*)middleware)->span_id);
+      buf = Buffer::FromString(((const TracingTestServerMiddleware*)middleware)->span_id);
     }
-    *result = std::unique_ptr<ResultStream>(new SimpleResultStream({Result{buf}}));
+    *result = std::make_unique<SimpleResultStream>(std::vector<Result>{Result{buf}});
     return Status::OK();
   }
 };
@@ -646,7 +675,7 @@ class ErrorMiddlewareServer : public FlightServerBase {
 
     std::shared_ptr<FlightStatusDetail> flightStatusDetail(
         new FlightStatusDetail(FlightStatusCode::Failed, msg));
-    *result = std::unique_ptr<ResultStream>(new SimpleResultStream({Result{buf}}));
+    *result = std::make_unique<SimpleResultStream>(std::vector<Result>{Result{buf}});
     return Status(StatusCode::ExecutionError, "test failed", flightStatusDetail);
   }
 };
@@ -659,10 +688,10 @@ class PropagatingTestServer : public FlightServerBase {
   Status DoAction(const ServerCallContext& context, const Action& action,
                   std::unique_ptr<ResultStream>* result) override {
     const ServerMiddleware* middleware = context.GetMiddleware("tracing");
-    if (middleware == nullptr || middleware->name() != "TracingServerMiddleware") {
+    if (middleware == nullptr || middleware->name() != "TracingTestServerMiddleware") {
       current_span_id = "";
     } else {
-      current_span_id = ((const TracingServerMiddleware*)middleware)->span_id;
+      current_span_id = ((const TracingTestServerMiddleware*)middleware)->span_id;
     }
 
     return client_->DoAction(action).Value(result);
@@ -729,7 +758,7 @@ class TestCountingServerMiddleware : public ::testing::Test {
 class TestPropagatingMiddleware : public ::testing::Test {
  public:
   void SetUp() {
-    server_middleware_ = std::make_shared<TracingServerMiddlewareFactory>();
+    server_middleware_ = std::make_shared<TracingTestServerMiddlewareFactory>();
     second_client_middleware_ = std::make_shared<PropagatingClientMiddlewareFactory>();
     client_middleware_ = std::make_shared<PropagatingClientMiddlewareFactory>();
 
@@ -773,8 +802,8 @@ class TestPropagatingMiddleware : public ::testing::Test {
   void CheckHeader(const std::string& header, const std::string& value,
                    const CallHeaders::const_iterator& it) {
     // Construct a string_view before comparison to satisfy MSVC
-    util::string_view header_view(header.data(), header.length());
-    util::string_view value_view(value.data(), value.length());
+    std::string_view header_view(header.data(), header.length());
+    std::string_view value_view(value.data(), value.length());
     ASSERT_EQ(header_view, (*it).first);
     ASSERT_EQ(value_view, (*it).second);
   }
@@ -783,7 +812,7 @@ class TestPropagatingMiddleware : public ::testing::Test {
   std::unique_ptr<FlightClient> client_;
   std::unique_ptr<FlightServerBase> first_server_;
   std::unique_ptr<FlightServerBase> second_server_;
-  std::shared_ptr<TracingServerMiddlewareFactory> server_middleware_;
+  std::shared_ptr<TracingTestServerMiddlewareFactory> server_middleware_;
   std::shared_ptr<PropagatingClientMiddlewareFactory> second_client_middleware_;
   std::shared_ptr<PropagatingClientMiddlewareFactory> client_middleware_;
 };
@@ -816,8 +845,7 @@ class TestBasicHeaderAuthMiddleware : public ::testing::Test {
     ASSERT_OK(MakeServer<HeaderAuthTestServer>(
         &server_, &client_,
         [&](FlightServerOptions* options) {
-          options->auth_handler =
-              std::unique_ptr<ServerAuthHandler>(new NoOpAuthHandler());
+          options->auth_handler = std::make_unique<NoOpAuthHandler>();
           options->middleware.push_back({"header-auth-server", header_middleware_});
           options->middleware.push_back({"bearer-auth-server", bearer_middleware_});
           return Status::OK();
@@ -866,7 +894,8 @@ TEST_F(TestErrorMiddleware, TestMetadata) {
   action.type = "action1";
 
   action.body = Buffer::FromString("action1-content");
-  Status s = client_->DoAction(action).status();
+  ASSERT_OK_AND_ASSIGN(auto stream, client_->DoAction(action));
+  Status s = stream->Next().status();
   ASSERT_FALSE(s.ok());
   std::shared_ptr<FlightStatusDetail> flightStatusDetail =
       FlightStatusDetail::UnwrapStatus(s);
@@ -1031,8 +1060,7 @@ TEST_F(TestFlightClient, Close) {
 
 TEST_F(TestAuthHandler, PassAuthenticatedCalls) {
   ASSERT_OK(client_->Authenticate(
-      {},
-      std::unique_ptr<ClientAuthHandler>(new TestClientAuthHandler("user", "p4ssw0rd"))));
+      {}, std::make_unique<TestClientAuthHandler>("user", "p4ssw0rd")));
 
   Status status;
   status = client_->ListFlights().status();
@@ -1068,7 +1096,8 @@ TEST_F(TestAuthHandler, FailUnauthenticatedCalls) {
   Action action;
   action.type = "";
   action.body = Buffer::FromString("");
-  status = client_->DoAction(action).status();
+  ASSERT_OK_AND_ASSIGN(auto stream, client_->DoAction(action));
+  status = stream->Next().status();
   ASSERT_RAISES(IOError, status);
   ASSERT_THAT(status.message(), ::testing::HasSubstr("Invalid token"));
 
@@ -1102,8 +1131,7 @@ TEST_F(TestAuthHandler, FailUnauthenticatedCalls) {
 
 TEST_F(TestAuthHandler, CheckPeerIdentity) {
   ASSERT_OK(client_->Authenticate(
-      {},
-      std::unique_ptr<ClientAuthHandler>(new TestClientAuthHandler("user", "p4ssw0rd"))));
+      {}, std::make_unique<TestClientAuthHandler>("user", "p4ssw0rd")));
 
   Action action;
   action.type = "who-am-i";
@@ -1129,9 +1157,8 @@ TEST_F(TestAuthHandler, CheckPeerIdentity) {
 }
 
 TEST_F(TestBasicAuthHandler, PassAuthenticatedCalls) {
-  ASSERT_OK(
-      client_->Authenticate({}, std::unique_ptr<ClientAuthHandler>(
-                                    new TestClientBasicAuthHandler("user", "p4ssw0rd"))));
+  ASSERT_OK(client_->Authenticate(
+      {}, std::make_unique<TestClientBasicAuthHandler>("user", "p4ssw0rd")));
 
   Status status;
   status = client_->ListFlights().status();
@@ -1167,7 +1194,8 @@ TEST_F(TestBasicAuthHandler, FailUnauthenticatedCalls) {
   Action action;
   action.type = "";
   action.body = Buffer::FromString("");
-  status = client_->DoAction(action).status();
+  ASSERT_OK_AND_ASSIGN(auto stream, client_->DoAction(action));
+  status = stream->Next().status();
   ASSERT_RAISES(IOError, status);
   ASSERT_THAT(status.message(), ::testing::HasSubstr("Invalid token"));
 
@@ -1197,9 +1225,8 @@ TEST_F(TestBasicAuthHandler, FailUnauthenticatedCalls) {
 }
 
 TEST_F(TestBasicAuthHandler, CheckPeerIdentity) {
-  ASSERT_OK(
-      client_->Authenticate({}, std::unique_ptr<ClientAuthHandler>(
-                                    new TestClientBasicAuthHandler("user", "p4ssw0rd"))));
+  ASSERT_OK(client_->Authenticate(
+      {}, std::make_unique<TestClientBasicAuthHandler>("user", "p4ssw0rd")));
 
   Action action;
   action.type = "who-am-i";
@@ -1266,7 +1293,8 @@ TEST_F(TestTls, OverrideHostname) {
   Action action;
   action.type = "test";
   action.body = Buffer::FromString("");
-  ASSERT_RAISES(IOError, client->DoAction(options, action));
+  ASSERT_OK_AND_ASSIGN(auto stream, client->DoAction(options, action));
+  ASSERT_RAISES(IOError, stream->Next());
 }
 
 // Test the facility for setting generic transport options.
@@ -1284,7 +1312,8 @@ TEST_F(TestTls, OverrideHostnameGeneric) {
   Action action;
   action.type = "test";
   action.body = Buffer::FromString("");
-  ASSERT_RAISES(IOError, client->DoAction(options, action));
+  ASSERT_OK_AND_ASSIGN(auto stream, client->DoAction(options, action));
+  ASSERT_RAISES(IOError, stream->Next());
   // Could check error message for the gRPC error message but it isn't
   // necessarily stable
 }
@@ -1328,6 +1357,8 @@ TEST_F(TestPropagatingMiddleware, Propagate) {
 
   ASSERT_OK_AND_ASSIGN(result, stream->Next());
   ASSERT_EQ("trace-id", result->body->ToString());
+  ASSERT_OK_AND_ASSIGN(result, stream->Next());
+  ASSERT_EQ(nullptr, result);
   ValidateStatus(Status::OK(), FlightMethod::DoAction);
 }
 
@@ -1393,14 +1424,14 @@ TEST_F(TestBasicHeaderAuthMiddleware, InvalidCredentials) { RunInvalidClientAuth
 class ForeverFlightListing : public FlightListing {
   arrow::Result<std::unique_ptr<FlightInfo>> Next() override {
     std::this_thread::sleep_for(std::chrono::milliseconds(100));
-    return arrow::internal::make_unique<FlightInfo>(ExampleFlightInfo()[0]);
+    return std::make_unique<FlightInfo>(ExampleFlightInfo()[0]);
   }
 };
 
 class ForeverResultStream : public ResultStream {
   arrow::Result<std::unique_ptr<Result>> Next() override {
     std::this_thread::sleep_for(std::chrono::milliseconds(100));
-    auto result = arrow::internal::make_unique<Result>();
+    auto result = std::make_unique<Result>();
     result->body = Buffer::FromString("foo");
     return result;
   }
@@ -1435,12 +1466,16 @@ class CancelTestServer : public FlightServerBase {
  public:
   Status ListFlights(const ServerCallContext&, const Criteria*,
                      std::unique_ptr<FlightListing>* listings) override {
-    *listings = arrow::internal::make_unique<ForeverFlightListing>();
+    *listings = std::make_unique<ForeverFlightListing>();
     return Status::OK();
   }
-  Status DoAction(const ServerCallContext&, const Action&,
+  Status DoAction(const ServerCallContext&, const Action& action,
                   std::unique_ptr<ResultStream>* result) override {
-    *result = arrow::internal::make_unique<ForeverResultStream>();
+    if (action.type == "inc") {
+      std::this_thread::sleep_for(std::chrono::milliseconds(100));
+      counter_++;
+    }
+    *result = std::make_unique<ForeverResultStream>();
     return Status::OK();
   }
   Status ListActions(const ServerCallContext&,
@@ -1450,9 +1485,14 @@ class CancelTestServer : public FlightServerBase {
   }
   Status DoGet(const ServerCallContext&, const Ticket&,
                std::unique_ptr<FlightDataStream>* data_stream) override {
-    *data_stream = arrow::internal::make_unique<ForeverDataStream>();
+    *data_stream = std::make_unique<ForeverDataStream>();
     return Status::OK();
   }
+
+  int64_t CheckCounter() const { return counter_; }
+
+ private:
+  std::atomic<int64_t> counter_ = 0;
 };
 
 class TestCancel : public ::testing::Test {
@@ -1466,6 +1506,9 @@ class TestCancel : public ::testing::Test {
     ASSERT_OK(client_->Close());
     ASSERT_OK(server_->Shutdown());
   }
+  CancelTestServer* Server() const {
+    return static_cast<CancelTestServer*>(server_.get());
+  }
 
  protected:
   std::unique_ptr<FlightClient> client_;
@@ -1485,9 +1528,27 @@ TEST_F(TestCancel, DoAction) {
   StopSource stop_source;
   FlightCallOptions options;
   options.stop_token = stop_source.token();
+  ASSERT_OK_AND_ASSIGN(auto stream, client_->DoAction(options, {}));
+  ASSERT_OK_AND_ASSIGN(auto result, stream->Next());
+  ASSERT_EQ("foo", result->body->ToString());
   stop_source.RequestStop(Status::Cancelled("StopSource"));
   EXPECT_RAISES_WITH_MESSAGE_THAT(Cancelled, ::testing::HasSubstr("StopSource"),
-                                  client_->DoAction(options, {}));
+                                  stream->Next());
+}
+
+TEST_F(TestCancel, DoActionSideEffect) {
+  // GH-15150: DoAction should at least wait for the server to begin
+  // the response, since existing code may be using DoAction solely
+  // for the side effect.
+  ASSERT_EQ(0, Server()->CheckCounter());
+  StopSource stop_source;
+  FlightCallOptions options;
+  options.stop_token = stop_source.token();
+  // Will block for a bit, but not forever
+  ASSERT_OK_AND_ASSIGN(auto stream, client_->DoAction(options, {"inc", nullptr}));
+  // Side effect should have happened
+  ASSERT_EQ(1, Server()->CheckCounter());
+  stop_source.RequestStop(Status::Cancelled("StopSource"));
 }
 
 TEST_F(TestCancel, ListActions) {
@@ -1534,5 +1595,139 @@ TEST_F(TestCancel, DoExchange) {
   ARROW_UNUSED(do_exchange_result.writer->Close());
 }
 
+class TracingTestServer : public FlightServerBase {
+ public:
+  Status DoAction(const ServerCallContext& call_context, const Action&,
+                  std::unique_ptr<ResultStream>* result) override {
+    std::vector<Result> results;
+    auto* middleware =
+        reinterpret_cast<TracingServerMiddleware*>(call_context.GetMiddleware("tracing"));
+    if (!middleware) return Status::Invalid("Could not find middleware");
+#ifdef ARROW_WITH_OPENTELEMETRY
+    // Ensure the trace context is present (but the value is random so
+    // we cannot assert any particular value)
+    EXPECT_FALSE(middleware->GetTraceContext().empty());
+    auto span = arrow::internal::tracing::GetTracer()->GetCurrentSpan();
+    const auto context = span->GetContext();
+    {
+      const auto& span_id = context.span_id();
+      ARROW_ASSIGN_OR_RAISE(auto buffer, AllocateBuffer(span_id.Id().size()));
+      std::memcpy(buffer->mutable_data(), span_id.Id().data(), span_id.Id().size());
+      results.push_back({std::move(buffer)});
+    }
+    {
+      const auto& trace_id = context.trace_id();
+      ARROW_ASSIGN_OR_RAISE(auto buffer, AllocateBuffer(trace_id.Id().size()));
+      std::memcpy(buffer->mutable_data(), trace_id.Id().data(), trace_id.Id().size());
+      results.push_back({std::move(buffer)});
+    }
+#else
+    // Ensure the trace context is not present (as OpenTelemetry is not enabled)
+    EXPECT_TRUE(middleware->GetTraceContext().empty());
+#endif
+    *result = std::make_unique<SimpleResultStream>(std::move(results));
+    return Status::OK();
+  }
+};
+
+class TestTracing : public ::testing::Test {
+ public:
+  void SetUp() {
+#ifdef ARROW_WITH_OPENTELEMETRY
+    // The default tracer always generates no-op spans which have no
+    // span/trace ID. Set up a different tracer. Note, this needs to
+    // be run before Arrow uses OTel as GetTracer() gets a tracer once
+    // and keeps it in a static.
+    std::vector<std::unique_ptr<opentelemetry::sdk::trace::SpanProcessor>> processors;
+    auto provider =
+        opentelemetry::nostd::shared_ptr<opentelemetry::sdk::trace::TracerProvider>(
+            new opentelemetry::sdk::trace::TracerProvider(std::move(processors)));
+    opentelemetry::trace::Provider::SetTracerProvider(std::move(provider));
+
+    opentelemetry::context::propagation::GlobalTextMapPropagator::SetGlobalPropagator(
+        opentelemetry::nostd::shared_ptr<
+            opentelemetry::context::propagation::TextMapPropagator>(
+            new opentelemetry::trace::propagation::HttpTraceContext()));
+#endif
+
+    ASSERT_OK(MakeServer<TracingTestServer>(
+        &server_, &client_,
+        [](FlightServerOptions* options) {
+          options->middleware.emplace_back("tracing",
+                                           MakeTracingServerMiddlewareFactory());
+          return Status::OK();
+        },
+        [](FlightClientOptions* options) {
+          options->middleware.push_back(MakeTracingClientMiddlewareFactory());
+          return Status::OK();
+        }));
+  }
+  void TearDown() { ASSERT_OK(server_->Shutdown()); }
+
+ protected:
+  std::unique_ptr<FlightClient> client_;
+  std::unique_ptr<FlightServerBase> server_;
+};
+
+#ifdef ARROW_WITH_OPENTELEMETRY
+// Must define it ourselves to avoid a linker error
+constexpr size_t kSpanIdSize = opentelemetry::trace::SpanId::kSize;
+constexpr size_t kTraceIdSize = opentelemetry::trace::TraceId::kSize;
+
+TEST_F(TestTracing, NoParentTrace) {
+  ASSERT_OK_AND_ASSIGN(auto results, client_->DoAction(Action{}));
+
+  ASSERT_OK_AND_ASSIGN(auto result, results->Next());
+  ASSERT_NE(result, nullptr);
+  ASSERT_NE(result->body, nullptr);
+  // Span ID should be a valid span ID, i.e. the server must have started a span
+  ASSERT_EQ(result->body->size(), kSpanIdSize);
+  opentelemetry::trace::SpanId span_id({result->body->data(), kSpanIdSize});
+  ASSERT_TRUE(span_id.IsValid());
+
+  ASSERT_OK_AND_ASSIGN(result, results->Next());
+  ASSERT_NE(result, nullptr);
+  ASSERT_NE(result->body, nullptr);
+  ASSERT_EQ(result->body->size(), kTraceIdSize);
+  opentelemetry::trace::TraceId trace_id({result->body->data(), kTraceIdSize});
+  ASSERT_TRUE(trace_id.IsValid());
+}
+TEST_F(TestTracing, WithParentTrace) {
+  auto* tracer = arrow::internal::tracing::GetTracer();
+  auto span = tracer->StartSpan("test");
+  auto scope = tracer->WithActiveSpan(span);
+
+  auto span_context = span->GetContext();
+  auto current_trace_id = span_context.trace_id().Id();
+
+  ASSERT_OK_AND_ASSIGN(auto results, client_->DoAction(Action{}));
+
+  ASSERT_OK_AND_ASSIGN(auto result, results->Next());
+  ASSERT_NE(result, nullptr);
+  ASSERT_NE(result->body, nullptr);
+  ASSERT_EQ(result->body->size(), kSpanIdSize);
+  opentelemetry::trace::SpanId span_id({result->body->data(), kSpanIdSize});
+  ASSERT_TRUE(span_id.IsValid());
+
+  ASSERT_OK_AND_ASSIGN(result, results->Next());
+  ASSERT_NE(result, nullptr);
+  ASSERT_NE(result->body, nullptr);
+  ASSERT_EQ(result->body->size(), kTraceIdSize);
+  opentelemetry::trace::TraceId trace_id({result->body->data(), kTraceIdSize});
+  // The server span should have the same trace ID as the client span.
+  ASSERT_EQ(std::string_view(reinterpret_cast<const char*>(trace_id.Id().data()),
+                             trace_id.Id().size()),
+            std::string_view(reinterpret_cast<const char*>(current_trace_id.data()),
+                             current_trace_id.size()));
+}
+#else
+TEST_F(TestTracing, NoOp) {
+  // The middleware should not cause any trouble when OTel is not enabled.
+  ASSERT_OK_AND_ASSIGN(auto results, client_->DoAction(Action{}));
+  ASSERT_OK_AND_ASSIGN(auto result, results->Next());
+  ASSERT_EQ(result, nullptr);
+}
+#endif
+
 }  // namespace flight
 }  // namespace arrow
diff --git a/cpp/src/arrow/flight/integration_tests/CMakeLists.txt b/cpp/src/arrow/flight/integration_tests/CMakeLists.txt
index 66a021b4b59..1bbd9231606 100644
--- a/cpp/src/arrow/flight/integration_tests/CMakeLists.txt
+++ b/cpp/src/arrow/flight/integration_tests/CMakeLists.txt
@@ -40,3 +40,14 @@ target_link_libraries(flight-test-integration-client
 
 add_dependencies(arrow-integration flight-test-integration-client
                  flight-test-integration-server)
+
+if(ARROW_BUILD_TESTS)
+  add_arrow_test(flight_integration_test
+                 SOURCES
+                 flight_integration_test.cc
+                 test_integration.cc
+                 STATIC_LINK_LIBS
+                 ${ARROW_FLIGHT_INTEGRATION_TEST_LINK_LIBS}
+                 LABELS
+                 "arrow_flight")
+endif()
diff --git a/cpp/src/arrow/flight/integration_tests/flight_integration_test.cc b/cpp/src/arrow/flight/integration_tests/flight_integration_test.cc
new file mode 100644
index 00000000000..e29a281f327
--- /dev/null
+++ b/cpp/src/arrow/flight/integration_tests/flight_integration_test.cc
@@ -0,0 +1,64 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+// Run the integration test scenarios in-process.
+
+#include <gmock/gmock.h>
+#include <gtest/gtest.h>
+
+#include "arrow/flight/integration_tests/test_integration.h"
+#include "arrow/status.h"
+#include "arrow/testing/gtest_util.h"
+
+namespace arrow {
+namespace flight {
+namespace integration_tests {
+
+Status RunScenario(const std::string& scenario_name) {
+  std::shared_ptr<Scenario> scenario;
+  ARROW_RETURN_NOT_OK(GetScenario(scenario_name, &scenario));
+
+  std::unique_ptr<FlightServerBase> server;
+  ARROW_ASSIGN_OR_RAISE(Location bind_location,
+                        arrow::flight::Location::ForGrpcTcp("0.0.0.0", 0));
+  FlightServerOptions server_options(bind_location);
+  ARROW_RETURN_NOT_OK(scenario->MakeServer(&server, &server_options));
+  ARROW_RETURN_NOT_OK(server->Init(server_options));
+
+  ARROW_ASSIGN_OR_RAISE(Location location,
+                        arrow::flight::Location::ForGrpcTcp("0.0.0.0", server->port()));
+  auto client_options = arrow::flight::FlightClientOptions::Defaults();
+  ARROW_RETURN_NOT_OK(scenario->MakeClient(&client_options));
+  ARROW_ASSIGN_OR_RAISE(std::unique_ptr<FlightClient> client,
+                        FlightClient::Connect(location, client_options));
+  ARROW_RETURN_NOT_OK(scenario->RunClient(std::move(client)));
+  return Status::OK();
+}
+
+TEST(FlightIntegration, AuthBasicProto) { ASSERT_OK(RunScenario("auth:basic_proto")); }
+
+TEST(FlightIntegration, Middleware) { ASSERT_OK(RunScenario("middleware")); }
+
+TEST(FlightIntegration, FlightSql) { ASSERT_OK(RunScenario("flight_sql")); }
+
+TEST(FlightIntegration, FlightSqlExtension) {
+  ASSERT_OK(RunScenario("flight_sql:extension"));
+}
+
+}  // namespace integration_tests
+}  // namespace flight
+}  // namespace arrow
diff --git a/cpp/src/arrow/flight/integration_tests/test_integration.cc b/cpp/src/arrow/flight/integration_tests/test_integration.cc
index 2e5609b6c0e..f6af1429785 100644
--- a/cpp/src/arrow/flight/integration_tests/test_integration.cc
+++ b/cpp/src/arrow/flight/integration_tests/test_integration.cc
@@ -16,25 +16,36 @@
 // under the License.
 
 #include "arrow/flight/integration_tests/test_integration.h"
+
+#include <iostream>
+#include <memory>
+#include <string>
+#include <unordered_map>
+#include <utility>
+#include <vector>
+
+#include "arrow/array/array_binary.h"
+#include "arrow/array/array_nested.h"
+#include "arrow/array/array_primitive.h"
 #include "arrow/flight/client_middleware.h"
 #include "arrow/flight/server_middleware.h"
 #include "arrow/flight/sql/client.h"
 #include "arrow/flight/sql/column_metadata.h"
 #include "arrow/flight/sql/server.h"
+#include "arrow/flight/sql/types.h"
 #include "arrow/flight/test_util.h"
 #include "arrow/flight/types.h"
 #include "arrow/ipc/dictionary.h"
+#include "arrow/status.h"
 #include "arrow/testing/gtest_util.h"
-
-#include <iostream>
-#include <memory>
-#include <string>
-#include <utility>
-#include <vector>
+#include "arrow/util/checked_cast.h"
 
 namespace arrow {
 namespace flight {
 namespace integration_tests {
+namespace {
+
+using arrow::internal::checked_cast;
 
 /// \brief The server for the basic auth integration test.
 class AuthBasicProtoServer : public FlightServerBase {
@@ -42,7 +53,7 @@ class AuthBasicProtoServer : public FlightServerBase {
                   std::unique_ptr<ResultStream>* result) override {
     // Respond with the authenticated username.
     auto buf = Buffer::FromString(context.peer_identity());
-    *result = std::unique_ptr<ResultStream>(new SimpleResultStream({Result{buf}}));
+    *result = std::make_unique<SimpleResultStream>(std::vector<Result>{Result{buf}});
     return Status::OK();
   }
 };
@@ -89,10 +100,9 @@ class AuthBasicProtoScenario : public Scenario {
 
   Status RunClient(std::unique_ptr<FlightClient> client) override {
     Action action;
-    std::unique_ptr<ResultStream> stream;
-    std::shared_ptr<FlightStatusDetail> detail;
-    const auto& status = client->DoAction(action).Value(&stream);
-    detail = FlightStatusDetail::UnwrapStatus(status);
+    ARROW_ASSIGN_OR_RAISE(auto stream, client->DoAction(action));
+    const auto status = stream->Next().status();
+    std::shared_ptr<FlightStatusDetail> detail = FlightStatusDetail::UnwrapStatus(status);
     // This client is unauthenticated and should fail.
     if (detail == nullptr) {
       return Status::Invalid("Expected UNAUTHENTICATED but got ", status.ToString());
@@ -101,8 +111,8 @@ class AuthBasicProtoScenario : public Scenario {
       return Status::Invalid("Expected UNAUTHENTICATED but got ", detail->ToString());
     }
 
-    auto client_handler = std::unique_ptr<ClientAuthHandler>(
-        new TestClientBasicAuthHandler(kAuthUsername, kAuthPassword));
+    auto client_handler =
+        std::make_unique<TestClientBasicAuthHandler>(kAuthUsername, kAuthPassword);
     RETURN_NOT_OK(client->Authenticate({}, std::move(client_handler)));
     return CheckActionResults(client.get(), action, {kAuthUsername});
   }
@@ -117,7 +127,7 @@ class AuthBasicProtoScenario : public Scenario {
 /// regardless of what gRPC does.
 class TestServerMiddleware : public ServerMiddleware {
  public:
-  explicit TestServerMiddleware(std::string received) : received_(received) {}
+  explicit TestServerMiddleware(std::string received) : received_(std::move(received)) {}
 
   void SendingHeaders(AddCallHeaders* outgoing_headers) override {
     outgoing_headers->AddHeader("x-middleware", received_);
@@ -139,7 +149,7 @@ class TestServerMiddlewareFactory : public ServerMiddlewareFactory {
         incoming_headers.equal_range("x-middleware");
     std::string received = "";
     if (iter_pair.first != iter_pair.second) {
-      const util::string_view& value = (*iter_pair.first).second;
+      const std::string_view& value = (*iter_pair.first).second;
       received = std::string(value);
     }
     *middleware = std::make_shared<TestServerMiddleware>(received);
@@ -154,23 +164,23 @@ class TestClientMiddleware : public ClientMiddleware {
   explicit TestClientMiddleware(std::string* received_header)
       : received_header_(received_header) {}
 
-  void SendingHeaders(AddCallHeaders* outgoing_headers) {
+  void SendingHeaders(AddCallHeaders* outgoing_headers) override {
     outgoing_headers->AddHeader("x-middleware", "expected value");
   }
 
-  void ReceivedHeaders(const CallHeaders& incoming_headers) {
+  void ReceivedHeaders(const CallHeaders& incoming_headers) override {
     // We expect the server to always send this header. gRPC/Java may
     // send it in trailers instead of headers, so we expect Flight to
     // account for this.
     const std::pair<CallHeaders::const_iterator, CallHeaders::const_iterator>& iter_pair =
         incoming_headers.equal_range("x-middleware");
     if (iter_pair.first != iter_pair.second) {
-      const util::string_view& value = (*iter_pair.first).second;
+      const std::string_view& value = (*iter_pair.first).second;
       *received_header_ = std::string(value);
     }
   }
 
-  void CallCompleted(const Status& status) {}
+  void CallCompleted(const Status& status) override {}
 
  private:
   std::string* received_header_;
@@ -178,9 +188,9 @@ class TestClientMiddleware : public ClientMiddleware {
 
 class TestClientMiddlewareFactory : public ClientMiddlewareFactory {
  public:
-  void StartCall(const CallInfo& info, std::unique_ptr<ClientMiddleware>* middleware) {
-    *middleware =
-        std::unique_ptr<ClientMiddleware>(new TestClientMiddleware(&received_header_));
+  void StartCall(const CallInfo& info,
+                 std::unique_ptr<ClientMiddleware>* middleware) override {
+    *middleware = std::make_unique<TestClientMiddleware>(&received_header_);
   }
 
   std::string received_header_;
@@ -202,7 +212,7 @@ class MiddlewareServer : public FlightServerBase {
       std::vector<FlightEndpoint> endpoints{FlightEndpoint{{"foo"}, {location}}};
       ARROW_ASSIGN_OR_RAISE(auto info,
                             FlightInfo::Make(*schema, descriptor, endpoints, -1, -1));
-      *result = std::unique_ptr<FlightInfo>(new FlightInfo(info));
+      *result = std::make_unique<FlightInfo>(info);
       return Status::OK();
     }
     // Fail the call immediately. In some gRPC implementations, this
@@ -218,8 +228,8 @@ class MiddlewareServer : public FlightServerBase {
 class MiddlewareScenario : public Scenario {
   Status MakeServer(std::unique_ptr<FlightServerBase>* server,
                     FlightServerOptions* options) override {
-    options->middleware.push_back(
-        {"grpc_trailers", std::make_shared<TestServerMiddlewareFactory>()});
+    options->middleware.emplace_back("grpc_trailers",
+                                     std::make_shared<TestServerMiddlewareFactory>());
     server->reset(new MiddlewareServer());
     return Status::OK();
   }
@@ -262,33 +272,71 @@ class MiddlewareScenario : public Scenario {
 };
 
 /// \brief Schema to be returned for mocking the statement/prepared statement results.
+///
+/// Must be the same across all languages.
+const std::shared_ptr<Schema>& GetQuerySchema() {
+  static std::shared_ptr<Schema> kSchema =
+      schema({field("id", int64(), /*nullable=*/true,
+                    arrow::flight::sql::ColumnMetadata::Builder()
+                        .TableName("test")
+                        .IsAutoIncrement(true)
+                        .IsCaseSensitive(false)
+                        .TypeName("type_test")
+                        .SchemaName("schema_test")
+                        .IsSearchable(true)
+                        .CatalogName("catalog_test")
+                        .Precision(100)
+                        .Build()
+                        .metadata_map())});
+  return kSchema;
+}
+
+/// \brief Schema to be returned for queries with transactions.
+///
 /// Must be the same across all languages.
-std::shared_ptr<Schema> GetQuerySchema() {
-  std::string table_name = "test";
-  std::string schema_name = "schema_test";
-  std::string catalog_name = "catalog_test";
-  std::string type_name = "type_test";
-  return arrow::schema({arrow::field("id", int64(), true,
-                                     arrow::flight::sql::ColumnMetadata::Builder()
-                                         .TableName(table_name)
-                                         .IsAutoIncrement(true)
-                                         .IsCaseSensitive(false)
-                                         .TypeName(type_name)
-                                         .SchemaName(schema_name)
-                                         .IsSearchable(true)
-                                         .CatalogName(catalog_name)
-                                         .Precision(100)
-                                         .Build()
-                                         .metadata_map())});
+std::shared_ptr<Schema> GetQueryWithTransactionSchema() {
+  static std::shared_ptr<Schema> kSchema =
+      schema({field("pkey", int32(), /*nullable=*/true,
+                    arrow::flight::sql::ColumnMetadata::Builder()
+                        .TableName("test")
+                        .IsAutoIncrement(true)
+                        .IsCaseSensitive(false)
+                        .TypeName("type_test")
+                        .SchemaName("schema_test")
+                        .IsSearchable(true)
+                        .CatalogName("catalog_test")
+                        .Precision(100)
+                        .Build()
+                        .metadata_map())});
+  return kSchema;
 }
 
 constexpr int64_t kUpdateStatementExpectedRows = 10000L;
+constexpr int64_t kUpdateStatementWithTransactionExpectedRows = 15000L;
 constexpr int64_t kUpdatePreparedStatementExpectedRows = 20000L;
+constexpr int64_t kUpdatePreparedStatementWithTransactionExpectedRows = 25000L;
+constexpr char kSelectStatement[] = "SELECT STATEMENT";
+constexpr char kSavepointId[] = "savepoint_id";
+constexpr char kSavepointName[] = "savepoint_name";
+constexpr char kSubstraitPlanText[] = "plan";
+constexpr char kSubstraitVersion[] = "version";
+static const sql::SubstraitPlan kSubstraitPlan{kSubstraitPlanText, kSubstraitVersion};
+constexpr char kTransactionId[] = "transaction_id";
 
 template <typename T>
-arrow::Status AssertEq(const T& expected, const T& actual) {
+arrow::Status AssertEq(const T& expected, const T& actual, const std::string& message) {
   if (expected != actual) {
-    return Status::Invalid("Expected \"", expected, "\", got \'", actual, "\"");
+    return Status::Invalid(message, ": expected \"", expected, "\", got \"", actual,
+                           "\"");
+  }
+  return Status::OK();
+}
+
+template <typename T>
+arrow::Status AssertUnprintableEq(const T& expected, const T& actual,
+                                  const std::string& message) {
+  if (expected != actual) {
+    return Status::Invalid(message);
   }
   return Status::OK();
 }
@@ -298,40 +346,155 @@ arrow::Status AssertEq(const T& expected, const T& actual) {
 /// parsed correctly and returns the expected schemas to be validated on client.
 class FlightSqlScenarioServer : public sql::FlightSqlServerBase {
  public:
+  FlightSqlScenarioServer() : sql::FlightSqlServerBase() {
+    RegisterSqlInfo(sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_SQL,
+                    sql::SqlInfoResult(false));
+    RegisterSqlInfo(sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_SUBSTRAIT,
+                    sql::SqlInfoResult(true));
+    RegisterSqlInfo(sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION,
+                    sql::SqlInfoResult(std::string("min_version")));
+    RegisterSqlInfo(sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION,
+                    sql::SqlInfoResult(std::string("max_version")));
+    RegisterSqlInfo(sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_TRANSACTION,
+                    sql::SqlInfoResult(sql::SqlInfoOptions::SqlSupportedTransaction::
+                                           SQL_SUPPORTED_TRANSACTION_SAVEPOINT));
+    RegisterSqlInfo(sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_CANCEL,
+                    sql::SqlInfoResult(true));
+    RegisterSqlInfo(sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT,
+                    sql::SqlInfoResult(int32_t(42)));
+    RegisterSqlInfo(sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT,
+                    sql::SqlInfoResult(int32_t(7)));
+  }
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoStatement(
       const ServerCallContext& context, const sql::StatementQuery& command,
       const FlightDescriptor& descriptor) override {
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("SELECT STATEMENT", command.query));
-
-    ARROW_ASSIGN_OR_RAISE(auto handle,
-                          sql::CreateStatementQueryTicket("SELECT STATEMENT HANDLE"));
+    ARROW_RETURN_NOT_OK(
+        AssertEq<std::string>(kSelectStatement, command.query,
+                              "Unexpected statement in GetFlightInfoStatement"));
+    std::string ticket;
+    Schema* schema;
+    if (command.transaction_id.empty()) {
+      ticket = "SELECT STATEMENT HANDLE";
+      schema = GetQuerySchema().get();
+    } else {
+      ticket = "SELECT STATEMENT WITH TXN HANDLE";
+      schema = GetQueryWithTransactionSchema().get();
+    }
+    ARROW_ASSIGN_OR_RAISE(auto handle, sql::CreateStatementQueryTicket(ticket));
+    std::vector<FlightEndpoint> endpoints{FlightEndpoint{{handle}, {}}};
+    ARROW_ASSIGN_OR_RAISE(auto result,
+                          FlightInfo::Make(*schema, descriptor, endpoints, -1, -1));
+    return std::make_unique<FlightInfo>(result);
+  }
 
+  arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoSubstraitPlan(
+      const ServerCallContext& context, const sql::StatementSubstraitPlan& command,
+      const FlightDescriptor& descriptor) override {
+    ARROW_RETURN_NOT_OK(
+        AssertEq<std::string>(kSubstraitPlanText, command.plan.plan,
+                              "Unexpected plan in GetFlightInfoSubstraitPlan"));
+    ARROW_RETURN_NOT_OK(
+        AssertEq<std::string>(kSubstraitVersion, command.plan.version,
+                              "Unexpected version in GetFlightInfoSubstraitPlan"));
+    std::string ticket;
+    Schema* schema;
+    if (command.transaction_id.empty()) {
+      ticket = "PLAN HANDLE";
+      schema = GetQuerySchema().get();
+    } else {
+      ticket = "PLAN WITH TXN HANDLE";
+      schema = GetQueryWithTransactionSchema().get();
+    }
+    ARROW_ASSIGN_OR_RAISE(auto handle, sql::CreateStatementQueryTicket(ticket));
     std::vector<FlightEndpoint> endpoints{FlightEndpoint{{handle}, {}}};
-    ARROW_ASSIGN_OR_RAISE(
-        auto result, FlightInfo::Make(*GetQuerySchema(), descriptor, endpoints, -1, -1))
+    ARROW_ASSIGN_OR_RAISE(auto result,
+                          FlightInfo::Make(*schema, descriptor, endpoints, -1, -1));
+    return std::make_unique<FlightInfo>(result);
+  }
 
-    return std::unique_ptr<FlightInfo>(new FlightInfo(result));
+  arrow::Result<std::unique_ptr<SchemaResult>> GetSchemaStatement(
+      const ServerCallContext& context, const sql::StatementQuery& command,
+      const FlightDescriptor& descriptor) override {
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(
+        kSelectStatement, command.query, "Unexpected statement in GetSchemaStatement"));
+    if (command.transaction_id.empty()) {
+      return SchemaResult::Make(*GetQuerySchema());
+    } else {
+      return SchemaResult::Make(*GetQueryWithTransactionSchema());
+    }
+  }
+
+  arrow::Result<std::unique_ptr<SchemaResult>> GetSchemaSubstraitPlan(
+      const ServerCallContext& context, const sql::StatementSubstraitPlan& command,
+      const FlightDescriptor& descriptor) override {
+    ARROW_RETURN_NOT_OK(
+        AssertEq<std::string>(kSubstraitPlanText, command.plan.plan,
+                              "Unexpected statement in GetSchemaSubstraitPlan"));
+    ARROW_RETURN_NOT_OK(
+        AssertEq<std::string>(kSubstraitVersion, command.plan.version,
+                              "Unexpected version in GetFlightInfoSubstraitPlan"));
+    if (command.transaction_id.empty()) {
+      return SchemaResult::Make(*GetQuerySchema());
+    } else {
+      return SchemaResult::Make(*GetQueryWithTransactionSchema());
+    }
   }
 
   arrow::Result<std::unique_ptr<FlightDataStream>> DoGetStatement(
       const ServerCallContext& context,
       const sql::StatementQueryTicket& command) override {
-    return DoGetForTestCase(GetQuerySchema());
+    if (command.statement_handle == "SELECT STATEMENT HANDLE" ||
+        command.statement_handle == "PLAN HANDLE") {
+      return DoGetForTestCase(GetQuerySchema());
+    } else if (command.statement_handle == "SELECT STATEMENT WITH TXN HANDLE" ||
+               command.statement_handle == "PLAN WITH TXN HANDLE") {
+      return DoGetForTestCase(GetQueryWithTransactionSchema());
+    }
+    return Status::Invalid("Unknown handle: ", command.statement_handle);
   }
 
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoPreparedStatement(
       const ServerCallContext& context, const sql::PreparedStatementQuery& command,
       const FlightDescriptor& descriptor) override {
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("SELECT PREPARED STATEMENT HANDLE",
-                                              command.prepared_statement_handle));
+    if (command.prepared_statement_handle == "SELECT PREPARED STATEMENT HANDLE" ||
+        command.prepared_statement_handle == "PLAN HANDLE") {
+      return GetFlightInfoForCommand(descriptor, GetQuerySchema());
+    } else if (command.prepared_statement_handle ==
+                   "SELECT PREPARED STATEMENT WITH TXN HANDLE" ||
+               command.prepared_statement_handle == "PLAN WITH TXN HANDLE") {
+      return GetFlightInfoForCommand(descriptor, GetQueryWithTransactionSchema());
+    }
+    return Status::Invalid("Invalid handle for GetFlightInfoForCommand: ",
+                           command.prepared_statement_handle);
+  }
 
-    return GetFlightInfoForCommand(descriptor, GetQuerySchema());
+  arrow::Result<std::unique_ptr<SchemaResult>> GetSchemaPreparedStatement(
+      const ServerCallContext& context, const sql::PreparedStatementQuery& command,
+      const FlightDescriptor& descriptor) override {
+    if (command.prepared_statement_handle == "SELECT PREPARED STATEMENT HANDLE" ||
+        command.prepared_statement_handle == "PLAN HANDLE") {
+      return SchemaResult::Make(*GetQuerySchema());
+    } else if (command.prepared_statement_handle ==
+                   "SELECT PREPARED STATEMENT WITH TXN HANDLE" ||
+               command.prepared_statement_handle == "PLAN WITH TXN HANDLE") {
+      return SchemaResult::Make(*GetQueryWithTransactionSchema());
+    }
+    return Status::Invalid("Invalid handle for GetSchemaPreparedStatement: ",
+                           command.prepared_statement_handle);
   }
 
   arrow::Result<std::unique_ptr<FlightDataStream>> DoGetPreparedStatement(
       const ServerCallContext& context,
       const sql::PreparedStatementQuery& command) override {
-    return DoGetForTestCase(GetQuerySchema());
+    if (command.prepared_statement_handle == "SELECT PREPARED STATEMENT HANDLE" ||
+        command.prepared_statement_handle == "PLAN HANDLE") {
+      return DoGetForTestCase(GetQuerySchema());
+    } else if (command.prepared_statement_handle ==
+                   "SELECT PREPARED STATEMENT WITH TXN HANDLE" ||
+               command.prepared_statement_handle == "PLAN WITH TXN HANDLE") {
+      return DoGetForTestCase(GetQueryWithTransactionSchema());
+    }
+    return Status::Invalid("Invalid handle: ", command.prepared_statement_handle);
   }
 
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoCatalogs(
@@ -358,26 +521,39 @@ class FlightSqlScenarioServer : public sql::FlightSqlServerBase {
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoSqlInfo(
       const ServerCallContext& context, const sql::GetSqlInfo& command,
       const FlightDescriptor& descriptor) override {
-    ARROW_RETURN_NOT_OK(AssertEq<int64_t>(2, command.info.size()));
-    ARROW_RETURN_NOT_OK(AssertEq<int32_t>(
-        sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_NAME, command.info[0]));
-    ARROW_RETURN_NOT_OK(AssertEq<int32_t>(
-        sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_READ_ONLY, command.info[1]));
-
-    return GetFlightInfoForCommand(descriptor, sql::SqlSchema::GetSqlInfoSchema());
+    if (command.info.size() == 2) {
+      // Integration test for the protocol messages
+      ARROW_RETURN_NOT_OK(
+          AssertEq<int32_t>(sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_NAME,
+                            command.info[0], "Unexpected SqlInfo passed"));
+      ARROW_RETURN_NOT_OK(
+          AssertEq<int32_t>(sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_READ_ONLY,
+                            command.info[1], "Unexpected SqlInfo passed"));
+
+      return GetFlightInfoForCommand(descriptor, sql::SqlSchema::GetSqlInfoSchema());
+    }
+    // Integration test for the values themselves
+    return sql::FlightSqlServerBase::GetFlightInfoSqlInfo(context, command, descriptor);
   }
 
   arrow::Result<std::unique_ptr<FlightDataStream>> DoGetSqlInfo(
       const ServerCallContext& context, const sql::GetSqlInfo& command) override {
-    return DoGetForTestCase(sql::SqlSchema::GetSqlInfoSchema());
+    if (command.info.size() == 2) {
+      // Integration test for the protocol messages
+      return DoGetForTestCase(sql::SqlSchema::GetSqlInfoSchema());
+    }
+    // Integration test for the values themselves
+    return sql::FlightSqlServerBase::DoGetSqlInfo(context, command);
   }
 
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoSchemas(
       const ServerCallContext& context, const sql::GetDbSchemas& command,
       const FlightDescriptor& descriptor) override {
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("catalog", command.catalog.value()));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>("catalog", command.catalog.value(),
+                                              "Wrong catalog passed"));
     ARROW_RETURN_NOT_OK(AssertEq<std::string>("db_schema_filter_pattern",
-                                              command.db_schema_filter_pattern.value()));
+                                              command.db_schema_filter_pattern.value(),
+                                              "Wrong db_schema_filter_pattern passed"));
 
     return GetFlightInfoForCommand(descriptor, sql::SqlSchema::GetDbSchemasSchema());
   }
@@ -390,15 +566,22 @@ class FlightSqlScenarioServer : public sql::FlightSqlServerBase {
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoTables(
       const ServerCallContext& context, const sql::GetTables& command,
       const FlightDescriptor& descriptor) override {
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("catalog", command.catalog.value()));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>("catalog", command.catalog.value(),
+                                              "Wrong catalog passed"));
     ARROW_RETURN_NOT_OK(AssertEq<std::string>("db_schema_filter_pattern",
-                                              command.db_schema_filter_pattern.value()));
+                                              command.db_schema_filter_pattern.value(),
+                                              "Wrong db_schema_filter_pattern passed"));
     ARROW_RETURN_NOT_OK(AssertEq<std::string>("table_filter_pattern",
-                                              command.table_name_filter_pattern.value()));
-    ARROW_RETURN_NOT_OK(AssertEq<int64_t>(2, command.table_types.size()));
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("table", command.table_types[0]));
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("view", command.table_types[1]));
-    ARROW_RETURN_NOT_OK(AssertEq<bool>(true, command.include_schema));
+                                              command.table_name_filter_pattern.value(),
+                                              "Wrong table_filter_pattern passed"));
+    ARROW_RETURN_NOT_OK(AssertEq<int64_t>(2, command.table_types.size(),
+                                          "Wrong number of table types passed"));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>("table", command.table_types[0],
+                                              "Wrong table type passed"));
+    ARROW_RETURN_NOT_OK(
+        AssertEq<std::string>("view", command.table_types[1], "Wrong table type passed"));
+    ARROW_RETURN_NOT_OK(
+        AssertEq<bool>(true, command.include_schema, "include_schema should be true"));
 
     return GetFlightInfoForCommand(descriptor,
                                    sql::SqlSchema::GetTablesSchemaWithIncludedSchema());
@@ -422,11 +605,12 @@ class FlightSqlScenarioServer : public sql::FlightSqlServerBase {
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoPrimaryKeys(
       const ServerCallContext& context, const sql::GetPrimaryKeys& command,
       const FlightDescriptor& descriptor) override {
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(
+        "catalog", command.table_ref.catalog.value(), "Wrong catalog passed"));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(
+        "db_schema", command.table_ref.db_schema.value(), "Wrong db_schema passed"));
     ARROW_RETURN_NOT_OK(
-        AssertEq<std::string>("catalog", command.table_ref.catalog.value()));
-    ARROW_RETURN_NOT_OK(
-        AssertEq<std::string>("db_schema", command.table_ref.db_schema.value()));
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("table", command.table_ref.table));
+        AssertEq<std::string>("table", command.table_ref.table, "Wrong table passed"));
 
     return GetFlightInfoForCommand(descriptor, sql::SqlSchema::GetPrimaryKeysSchema());
   }
@@ -439,11 +623,12 @@ class FlightSqlScenarioServer : public sql::FlightSqlServerBase {
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoExportedKeys(
       const ServerCallContext& context, const sql::GetExportedKeys& command,
       const FlightDescriptor& descriptor) override {
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(
+        "catalog", command.table_ref.catalog.value(), "Wrong catalog passed"));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(
+        "db_schema", command.table_ref.db_schema.value(), "Wrong db_schema passed"));
     ARROW_RETURN_NOT_OK(
-        AssertEq<std::string>("catalog", command.table_ref.catalog.value()));
-    ARROW_RETURN_NOT_OK(
-        AssertEq<std::string>("db_schema", command.table_ref.db_schema.value()));
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("table", command.table_ref.table));
+        AssertEq<std::string>("table", command.table_ref.table, "Wrong table passed"));
 
     return GetFlightInfoForCommand(descriptor, sql::SqlSchema::GetExportedKeysSchema());
   }
@@ -456,11 +641,12 @@ class FlightSqlScenarioServer : public sql::FlightSqlServerBase {
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoImportedKeys(
       const ServerCallContext& context, const sql::GetImportedKeys& command,
       const FlightDescriptor& descriptor) override {
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(
+        "catalog", command.table_ref.catalog.value(), "Wrong catalog passed"));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(
+        "db_schema", command.table_ref.db_schema.value(), "Wrong db_schema passed"));
     ARROW_RETURN_NOT_OK(
-        AssertEq<std::string>("catalog", command.table_ref.catalog.value()));
-    ARROW_RETURN_NOT_OK(
-        AssertEq<std::string>("db_schema", command.table_ref.db_schema.value()));
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("table", command.table_ref.table));
+        AssertEq<std::string>("table", command.table_ref.table, "Wrong table passed"));
 
     return GetFlightInfoForCommand(descriptor, sql::SqlSchema::GetImportedKeysSchema());
   }
@@ -473,16 +659,20 @@ class FlightSqlScenarioServer : public sql::FlightSqlServerBase {
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoCrossReference(
       const ServerCallContext& context, const sql::GetCrossReference& command,
       const FlightDescriptor& descriptor) override {
-    ARROW_RETURN_NOT_OK(
-        AssertEq<std::string>("pk_catalog", command.pk_table_ref.catalog.value()));
-    ARROW_RETURN_NOT_OK(
-        AssertEq<std::string>("pk_db_schema", command.pk_table_ref.db_schema.value()));
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("pk_table", command.pk_table_ref.table));
-    ARROW_RETURN_NOT_OK(
-        AssertEq<std::string>("fk_catalog", command.fk_table_ref.catalog.value()));
-    ARROW_RETURN_NOT_OK(
-        AssertEq<std::string>("fk_db_schema", command.fk_table_ref.db_schema.value()));
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("fk_table", command.fk_table_ref.table));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(
+        "pk_catalog", command.pk_table_ref.catalog.value(), "Wrong pk catalog passed"));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>("pk_db_schema",
+                                              command.pk_table_ref.db_schema.value(),
+                                              "Wrong pk db_schema passed"));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>("pk_table", command.pk_table_ref.table,
+                                              "Wrong pk table passed"));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(
+        "fk_catalog", command.fk_table_ref.catalog.value(), "Wrong fk catalog passed"));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>("fk_db_schema",
+                                              command.fk_table_ref.db_schema.value(),
+                                              "Wrong fk db_schema passed"));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>("fk_table", command.fk_table_ref.table,
+                                              "Wrong fk table passed"));
 
     return GetFlightInfoForCommand(descriptor, sql::SqlSchema::GetTableTypesSchema());
   }
@@ -494,27 +684,72 @@ class FlightSqlScenarioServer : public sql::FlightSqlServerBase {
 
   arrow::Result<int64_t> DoPutCommandStatementUpdate(
       const ServerCallContext& context, const sql::StatementUpdate& command) override {
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("UPDATE STATEMENT", command.query));
+    ARROW_RETURN_NOT_OK(
+        AssertEq<std::string>("UPDATE STATEMENT", command.query,
+                              "Wrong query for DoPutCommandStatementUpdate"));
+    return command.transaction_id.empty() ? kUpdateStatementExpectedRows
+                                          : kUpdateStatementWithTransactionExpectedRows;
+  }
 
-    return kUpdateStatementExpectedRows;
+  arrow::Result<int64_t> DoPutCommandSubstraitPlan(
+      const ServerCallContext& context,
+      const sql::StatementSubstraitPlan& command) override {
+    ARROW_RETURN_NOT_OK(
+        AssertEq<std::string>(kSubstraitPlanText, command.plan.plan,
+                              "Wrong plan for DoPutCommandSubstraitPlan"));
+    ARROW_RETURN_NOT_OK(
+        AssertEq<std::string>(kSubstraitVersion, command.plan.version,
+                              "Unexpected version in GetFlightInfoSubstraitPlan"));
+    return command.transaction_id.empty() ? kUpdateStatementExpectedRows
+                                          : kUpdateStatementWithTransactionExpectedRows;
   }
 
   arrow::Result<sql::ActionCreatePreparedStatementResult> CreatePreparedStatement(
       const ServerCallContext& context,
       const sql::ActionCreatePreparedStatementRequest& request) override {
-    ARROW_RETURN_NOT_OK(
-        AssertEq<bool>(true, request.query == "SELECT PREPARED STATEMENT" ||
-                                 request.query == "UPDATE PREPARED STATEMENT"));
+    if (request.query != "SELECT PREPARED STATEMENT" &&
+        request.query != "UPDATE PREPARED STATEMENT") {
+      return Status::Invalid("Unexpected query: ", request.query);
+    }
 
     sql::ActionCreatePreparedStatementResult result;
-    result.prepared_statement_handle = request.query + " HANDLE";
+    result.prepared_statement_handle = request.query;
+    if (!request.transaction_id.empty()) {
+      result.prepared_statement_handle += " WITH TXN";
+    }
+    result.prepared_statement_handle += " HANDLE";
+    return result;
+  }
 
+  arrow::Result<sql::ActionCreatePreparedStatementResult> CreatePreparedSubstraitPlan(
+      const ServerCallContext& context,
+      const sql::ActionCreatePreparedSubstraitPlanRequest& request) override {
+    ARROW_RETURN_NOT_OK(
+        AssertEq<std::string>(kSubstraitPlanText, request.plan.plan,
+                              "Wrong plan for CreatePreparedSubstraitPlan"));
+    ARROW_RETURN_NOT_OK(
+        AssertEq<std::string>(kSubstraitVersion, request.plan.version,
+                              "Unexpected version in GetFlightInfoSubstraitPlan"));
+    sql::ActionCreatePreparedStatementResult result;
+    result.prepared_statement_handle =
+        request.transaction_id.empty() ? "PLAN HANDLE" : "PLAN WITH TXN HANDLE";
     return result;
   }
 
   Status ClosePreparedStatement(
       const ServerCallContext& context,
       const sql::ActionClosePreparedStatementRequest& request) override {
+    if (request.prepared_statement_handle != "SELECT PREPARED STATEMENT HANDLE" &&
+        request.prepared_statement_handle != "UPDATE PREPARED STATEMENT HANDLE" &&
+        request.prepared_statement_handle != "PLAN HANDLE" &&
+        request.prepared_statement_handle !=
+            "SELECT PREPARED STATEMENT WITH TXN HANDLE" &&
+        request.prepared_statement_handle !=
+            "UPDATE PREPARED STATEMENT WITH TXN HANDLE" &&
+        request.prepared_statement_handle != "PLAN WITH TXN HANDLE") {
+      return Status::Invalid("Invalid handle for ClosePreparedStatement: ",
+                             request.prepared_statement_handle);
+    }
     return Status::OK();
   }
 
@@ -522,22 +757,93 @@ class FlightSqlScenarioServer : public sql::FlightSqlServerBase {
                                      const sql::PreparedStatementQuery& command,
                                      FlightMessageReader* reader,
                                      FlightMetadataWriter* writer) override {
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("SELECT PREPARED STATEMENT HANDLE",
-                                              command.prepared_statement_handle));
-
+    if (command.prepared_statement_handle != "SELECT PREPARED STATEMENT HANDLE" &&
+        command.prepared_statement_handle !=
+            "SELECT PREPARED STATEMENT WITH TXN HANDLE" &&
+        command.prepared_statement_handle != "PLAN HANDLE" &&
+        command.prepared_statement_handle != "PLAN WITH TXN HANDLE") {
+      return Status::Invalid("Invalid handle for DoPutPreparedStatementQuery: ",
+                             command.prepared_statement_handle);
+    }
     ARROW_ASSIGN_OR_RAISE(auto actual_schema, reader->GetSchema());
-    ARROW_RETURN_NOT_OK(AssertEq<Schema>(*GetQuerySchema(), *actual_schema));
-
+    ARROW_RETURN_NOT_OK(AssertEq<Schema>(*GetQuerySchema(), *actual_schema,
+                                         "Wrong schema for DoPutPreparedStatementQuery"));
     return Status::OK();
   }
 
   arrow::Result<int64_t> DoPutPreparedStatementUpdate(
       const ServerCallContext& context, const sql::PreparedStatementUpdate& command,
       FlightMessageReader* reader) override {
-    ARROW_RETURN_NOT_OK(AssertEq<std::string>("UPDATE PREPARED STATEMENT HANDLE",
-                                              command.prepared_statement_handle));
+    if (command.prepared_statement_handle == "UPDATE PREPARED STATEMENT HANDLE" ||
+        command.prepared_statement_handle == "PLAN HANDLE") {
+      return kUpdatePreparedStatementExpectedRows;
+    } else if (command.prepared_statement_handle ==
+                   "UPDATE PREPARED STATEMENT WITH TXN HANDLE" ||
+               command.prepared_statement_handle == "PLAN WITH TXN HANDLE") {
+      return kUpdatePreparedStatementWithTransactionExpectedRows;
+    }
+    return Status::Invalid("Invalid handle for DoPutPreparedStatementUpdate: ",
+                           command.prepared_statement_handle);
+  }
 
-    return kUpdatePreparedStatementExpectedRows;
+  arrow::Result<sql::ActionBeginSavepointResult> BeginSavepoint(
+      const ServerCallContext& context,
+      const sql::ActionBeginSavepointRequest& request) override {
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(
+        kSavepointName, request.name, "Unexpected savepoint name in BeginSavepoint"));
+    ARROW_RETURN_NOT_OK(
+        AssertEq<std::string>(kTransactionId, request.transaction_id,
+                              "Unexpected transaction ID in BeginSavepoint"));
+    return sql::ActionBeginSavepointResult{kSavepointId};
+  }
+
+  arrow::Result<sql::ActionBeginTransactionResult> BeginTransaction(
+      const ServerCallContext& context,
+      const sql::ActionBeginTransactionRequest& request) override {
+    return sql::ActionBeginTransactionResult{kTransactionId};
+  }
+
+  arrow::Result<sql::CancelResult> CancelQuery(
+      const ServerCallContext& context,
+      const sql::ActionCancelQueryRequest& request) override {
+    ARROW_RETURN_NOT_OK(AssertEq<size_t>(1, request.info->endpoints().size(),
+                                         "Expected 1 endpoint for CancelQuery"));
+    const FlightEndpoint& endpoint = request.info->endpoints()[0];
+    ARROW_ASSIGN_OR_RAISE(auto ticket,
+                          sql::StatementQueryTicket::Deserialize(endpoint.ticket.ticket));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>("PLAN HANDLE", ticket.statement_handle,
+                                              "Unexpected ticket in CancelQuery"));
+    return sql::CancelResult::kCancelled;
+  }
+
+  Status EndSavepoint(const ServerCallContext& context,
+                      const sql::ActionEndSavepointRequest& request) override {
+    switch (request.action) {
+      case sql::ActionEndSavepointRequest::kRelease:
+      case sql::ActionEndSavepointRequest::kRollback:
+        ARROW_RETURN_NOT_OK(
+            AssertEq<std::string>(kSavepointId, request.savepoint_id,
+                                  "Unexpected savepoint ID in EndSavepoint"));
+        break;
+      default:
+        return Status::Invalid("Unknown action ", static_cast<int>(request.action));
+    }
+    return Status::OK();
+  }
+
+  Status EndTransaction(const ServerCallContext& context,
+                        const sql::ActionEndTransactionRequest& request) override {
+    switch (request.action) {
+      case sql::ActionEndTransactionRequest::kCommit:
+      case sql::ActionEndTransactionRequest::kRollback:
+        ARROW_RETURN_NOT_OK(
+            AssertEq<std::string>(kTransactionId, request.transaction_id,
+                                  "Unexpected transaction ID in EndTransaction"));
+        break;
+      default:
+        return Status::Invalid("Unknown action ", static_cast<int>(request.action));
+    }
+    return Status::OK();
   }
 
  private:
@@ -547,13 +853,13 @@ class FlightSqlScenarioServer : public sql::FlightSqlServerBase {
     ARROW_ASSIGN_OR_RAISE(auto result,
                           FlightInfo::Make(*schema, descriptor, endpoints, -1, -1))
 
-    return std::unique_ptr<FlightInfo>(new FlightInfo(result));
+    return std::make_unique<FlightInfo>(result);
   }
 
   arrow::Result<std::unique_ptr<FlightDataStream>> DoGetForTestCase(
       const std::shared_ptr<Schema>& schema) {
     ARROW_ASSIGN_OR_RAISE(auto reader, RecordBatchReader::Make({}, schema));
-    return std::unique_ptr<FlightDataStream>(new RecordBatchStream(reader));
+    return std::make_unique<RecordBatchStream>(reader);
   }
 };
 
@@ -561,6 +867,7 @@ class FlightSqlScenarioServer : public sql::FlightSqlServerBase {
 /// implementations. This should ensure that RPC objects are being built and parsed
 /// correctly for multiple languages and that the Arrow schemas are returned as expected.
 class FlightSqlScenario : public Scenario {
+ public:
   Status MakeServer(std::unique_ptr<FlightServerBase>* server,
                     FlightServerOptions* options) override {
     server->reset(new FlightSqlScenarioServer());
@@ -569,31 +876,37 @@ class FlightSqlScenario : public Scenario {
 
   Status MakeClient(FlightClientOptions* options) override { return Status::OK(); }
 
-  Status Validate(std::shared_ptr<Schema> expected_schema,
-                  arrow::Result<std::unique_ptr<FlightInfo>> flight_info_result,
-                  sql::FlightSqlClient* sql_client) {
+  Status Validate(const std::shared_ptr<Schema>& expected_schema,
+                  const FlightInfo& flight_info, sql::FlightSqlClient* sql_client) {
     FlightCallOptions call_options;
-
-    ARROW_ASSIGN_OR_RAISE(auto flight_info, flight_info_result);
     ARROW_ASSIGN_OR_RAISE(
-        auto reader, sql_client->DoGet(call_options, flight_info->endpoints()[0].ticket));
-
+        std::unique_ptr<FlightStreamReader> reader,
+        sql_client->DoGet(call_options, flight_info.endpoints()[0].ticket));
     ARROW_ASSIGN_OR_RAISE(auto actual_schema, reader->GetSchema());
+    if (!expected_schema->Equals(*actual_schema, /*check_metadata=*/true)) {
+      return Status::Invalid("Schemas did not match. Expected:\n", *expected_schema,
+                             "\nActual:\n", *actual_schema);
+    }
+    ARROW_RETURN_NOT_OK(reader->ToTable());
+    return Status::OK();
+  }
 
-    AssertSchemaEqual(expected_schema, actual_schema);
-
+  Status ValidateSchema(const std::shared_ptr<Schema>& expected_schema,
+                        const SchemaResult& result) {
+    ipc::DictionaryMemo memo;
+    ARROW_ASSIGN_OR_RAISE(auto actual_schema, result.GetSchema(&memo));
+    if (!expected_schema->Equals(*actual_schema, /*check_metadata=*/true)) {
+      return Status::Invalid("Schemas did not match. Expected:\n", *expected_schema,
+                             "\nActual:\n", *actual_schema);
+    }
     return Status::OK();
   }
 
   Status RunClient(std::unique_ptr<FlightClient> client) override {
     sql::FlightSqlClient sql_client(std::move(client));
-
     ARROW_RETURN_NOT_OK(ValidateMetadataRetrieval(&sql_client));
-
     ARROW_RETURN_NOT_OK(ValidateStatementExecution(&sql_client));
-
     ARROW_RETURN_NOT_OK(ValidatePreparedStatementExecution(&sql_client));
-
     return Status::OK();
   }
 
@@ -611,87 +924,404 @@ class FlightSqlScenario : public Scenario {
     sql::TableRef pk_table_ref = {"pk_catalog", "pk_db_schema", "pk_table"};
     sql::TableRef fk_table_ref = {"fk_catalog", "fk_db_schema", "fk_table"};
 
-    ARROW_RETURN_NOT_OK(Validate(sql::SqlSchema::GetCatalogsSchema(),
-                                 sql_client->GetCatalogs(options), sql_client));
+    std::unique_ptr<FlightInfo> info;
+    std::unique_ptr<SchemaResult> schema;
+
+    ARROW_ASSIGN_OR_RAISE(info, sql_client->GetCatalogs(options));
+    ARROW_ASSIGN_OR_RAISE(schema, sql_client->GetCatalogsSchema(options));
+    ARROW_RETURN_NOT_OK(Validate(sql::SqlSchema::GetCatalogsSchema(), *info, sql_client));
+    ARROW_RETURN_NOT_OK(ValidateSchema(sql::SqlSchema::GetCatalogsSchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(
+        info, sql_client->GetDbSchemas(options, &catalog, &db_schema_filter_pattern));
+    ARROW_ASSIGN_OR_RAISE(schema, sql_client->GetDbSchemasSchema(options));
+    ARROW_RETURN_NOT_OK(
+        Validate(sql::SqlSchema::GetDbSchemasSchema(), *info, sql_client));
+    ARROW_RETURN_NOT_OK(ValidateSchema(sql::SqlSchema::GetDbSchemasSchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(
+        info, sql_client->GetTables(options, &catalog, &db_schema_filter_pattern,
+                                    &table_filter_pattern, true, &table_types));
+    ARROW_ASSIGN_OR_RAISE(schema,
+                          sql_client->GetTablesSchema(options, /*include_schema=*/true));
+    ARROW_RETURN_NOT_OK(
+        Validate(sql::SqlSchema::GetTablesSchemaWithIncludedSchema(), *info, sql_client));
+    ARROW_RETURN_NOT_OK(
+        ValidateSchema(sql::SqlSchema::GetTablesSchemaWithIncludedSchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(schema,
+                          sql_client->GetTablesSchema(options, /*include_schema=*/false));
+    ARROW_RETURN_NOT_OK(ValidateSchema(sql::SqlSchema::GetTablesSchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(info, sql_client->GetTableTypes(options));
+    ARROW_ASSIGN_OR_RAISE(schema, sql_client->GetTableTypesSchema(options));
+    ARROW_RETURN_NOT_OK(
+        Validate(sql::SqlSchema::GetTableTypesSchema(), *info, sql_client));
+    ARROW_RETURN_NOT_OK(ValidateSchema(sql::SqlSchema::GetTableTypesSchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(info, sql_client->GetPrimaryKeys(options, table_ref));
+    ARROW_ASSIGN_OR_RAISE(schema, sql_client->GetPrimaryKeysSchema(options));
+    ARROW_RETURN_NOT_OK(
+        Validate(sql::SqlSchema::GetPrimaryKeysSchema(), *info, sql_client));
+    ARROW_RETURN_NOT_OK(ValidateSchema(sql::SqlSchema::GetPrimaryKeysSchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(info, sql_client->GetExportedKeys(options, table_ref));
+    ARROW_ASSIGN_OR_RAISE(schema, sql_client->GetExportedKeysSchema(options));
     ARROW_RETURN_NOT_OK(
-        Validate(sql::SqlSchema::GetDbSchemasSchema(),
-                 sql_client->GetDbSchemas(options, &catalog, &db_schema_filter_pattern),
-                 sql_client));
+        Validate(sql::SqlSchema::GetExportedKeysSchema(), *info, sql_client));
+    ARROW_RETURN_NOT_OK(ValidateSchema(sql::SqlSchema::GetExportedKeysSchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(info, sql_client->GetImportedKeys(options, table_ref));
+    ARROW_ASSIGN_OR_RAISE(schema, sql_client->GetImportedKeysSchema(options));
     ARROW_RETURN_NOT_OK(
-        Validate(sql::SqlSchema::GetTablesSchemaWithIncludedSchema(),
-                 sql_client->GetTables(options, &catalog, &db_schema_filter_pattern,
-                                       &table_filter_pattern, true, &table_types),
-                 sql_client));
-    ARROW_RETURN_NOT_OK(Validate(sql::SqlSchema::GetTableTypesSchema(),
-                                 sql_client->GetTableTypes(options), sql_client));
-    ARROW_RETURN_NOT_OK(Validate(sql::SqlSchema::GetPrimaryKeysSchema(),
-                                 sql_client->GetPrimaryKeys(options, table_ref),
-                                 sql_client));
-    ARROW_RETURN_NOT_OK(Validate(sql::SqlSchema::GetExportedKeysSchema(),
-                                 sql_client->GetExportedKeys(options, table_ref),
-                                 sql_client));
-    ARROW_RETURN_NOT_OK(Validate(sql::SqlSchema::GetImportedKeysSchema(),
-                                 sql_client->GetImportedKeys(options, table_ref),
-                                 sql_client));
-    ARROW_RETURN_NOT_OK(Validate(
-        sql::SqlSchema::GetCrossReferenceSchema(),
-        sql_client->GetCrossReference(options, pk_table_ref, fk_table_ref), sql_client));
-    ARROW_RETURN_NOT_OK(Validate(sql::SqlSchema::GetXdbcTypeInfoSchema(),
-                                 sql_client->GetXdbcTypeInfo(options), sql_client));
-    ARROW_RETURN_NOT_OK(Validate(
-        sql::SqlSchema::GetSqlInfoSchema(),
-        sql_client->GetSqlInfo(
-            options, {sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_NAME,
-                      sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_READ_ONLY}),
-        sql_client));
+        Validate(sql::SqlSchema::GetImportedKeysSchema(), *info, sql_client));
+    ARROW_RETURN_NOT_OK(ValidateSchema(sql::SqlSchema::GetImportedKeysSchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(
+        info, sql_client->GetCrossReference(options, pk_table_ref, fk_table_ref));
+    ARROW_ASSIGN_OR_RAISE(schema, sql_client->GetCrossReferenceSchema(options));
+    ARROW_RETURN_NOT_OK(
+        Validate(sql::SqlSchema::GetCrossReferenceSchema(), *info, sql_client));
+    ARROW_RETURN_NOT_OK(
+        ValidateSchema(sql::SqlSchema::GetCrossReferenceSchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(info, sql_client->GetXdbcTypeInfo(options));
+    ARROW_ASSIGN_OR_RAISE(schema, sql_client->GetXdbcTypeInfoSchema(options));
+    ARROW_RETURN_NOT_OK(
+        Validate(sql::SqlSchema::GetXdbcTypeInfoSchema(), *info, sql_client));
+    ARROW_RETURN_NOT_OK(ValidateSchema(sql::SqlSchema::GetXdbcTypeInfoSchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(
+        info, sql_client->GetSqlInfo(
+                  options, {sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_NAME,
+                            sql::SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_READ_ONLY}));
+    ARROW_ASSIGN_OR_RAISE(schema, sql_client->GetSqlInfoSchema(options));
+    ARROW_RETURN_NOT_OK(Validate(sql::SqlSchema::GetSqlInfoSchema(), *info, sql_client));
+    ARROW_RETURN_NOT_OK(ValidateSchema(sql::SqlSchema::GetSqlInfoSchema(), *schema));
 
     return Status::OK();
   }
 
   Status ValidateStatementExecution(sql::FlightSqlClient* sql_client) {
-    FlightCallOptions options;
+    ARROW_ASSIGN_OR_RAISE(auto info, sql_client->Execute({}, kSelectStatement));
+    ARROW_RETURN_NOT_OK(Validate(GetQuerySchema(), *info, sql_client));
 
-    ARROW_RETURN_NOT_OK(Validate(
-        GetQuerySchema(), sql_client->Execute(options, "SELECT STATEMENT"), sql_client));
-    ARROW_ASSIGN_OR_RAISE(auto update_statement_result,
-                          sql_client->ExecuteUpdate(options, "UPDATE STATEMENT"));
-    if (update_statement_result != kUpdateStatementExpectedRows) {
-      return Status::Invalid("Expected 'UPDATE STATEMENT' return ",
-                             kUpdateStatementExpectedRows, ", got ",
-                             update_statement_result);
-    }
+    ARROW_ASSIGN_OR_RAISE(auto schema,
+                          sql_client->GetExecuteSchema({}, kSelectStatement));
+    ARROW_RETURN_NOT_OK(ValidateSchema(GetQuerySchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(auto updated_rows,
+                          sql_client->ExecuteUpdate({}, "UPDATE STATEMENT"));
+    ARROW_RETURN_NOT_OK(AssertEq(kUpdateStatementExpectedRows, updated_rows,
+                                 "Wrong number of updated rows for ExecuteUpdate"));
 
     return Status::OK();
   }
 
   Status ValidatePreparedStatementExecution(sql::FlightSqlClient* sql_client) {
-    FlightCallOptions options;
+    auto parameters =
+        RecordBatch::Make(GetQuerySchema(), 1, {ArrayFromJSON(int64(), "[1]")});
 
     ARROW_ASSIGN_OR_RAISE(auto select_prepared_statement,
-                          sql_client->Prepare(options, "SELECT PREPARED STATEMENT"));
+                          sql_client->Prepare({}, "SELECT PREPARED STATEMENT"));
+    ARROW_RETURN_NOT_OK(select_prepared_statement->SetParameters(parameters));
+    ARROW_ASSIGN_OR_RAISE(auto info, select_prepared_statement->Execute());
+    ARROW_RETURN_NOT_OK(Validate(GetQuerySchema(), *info, sql_client));
+    ARROW_ASSIGN_OR_RAISE(auto schema, select_prepared_statement->GetSchema({}));
+    ARROW_RETURN_NOT_OK(ValidateSchema(GetQuerySchema(), *schema));
+    ARROW_RETURN_NOT_OK(select_prepared_statement->Close());
 
+    ARROW_ASSIGN_OR_RAISE(auto update_prepared_statement,
+                          sql_client->Prepare({}, "UPDATE PREPARED STATEMENT"));
+    ARROW_ASSIGN_OR_RAISE(auto updated_rows, update_prepared_statement->ExecuteUpdate());
+    ARROW_RETURN_NOT_OK(
+        AssertEq(kUpdatePreparedStatementExpectedRows, updated_rows,
+                 "Wrong number of updated rows for prepared statement ExecuteUpdate"));
+    ARROW_RETURN_NOT_OK(update_prepared_statement->Close());
+    return Status::OK();
+  }
+};
+
+/// \brief Integration test scenario for validating the Substrait and
+///    transaction extensions to Flight SQL.
+class FlightSqlExtensionScenario : public FlightSqlScenario {
+ public:
+  Status RunClient(std::unique_ptr<FlightClient> client) override {
+    sql::FlightSqlClient sql_client(std::move(client));
+    Status status;
+    if (!(status = ValidateMetadataRetrieval(&sql_client)).ok()) {
+      return status.WithMessage("MetadataRetrieval failed: ", status.message());
+    }
+    if (!(status = ValidateStatementExecution(&sql_client)).ok()) {
+      return status.WithMessage("StatementExecution failed: ", status.message());
+    }
+    if (!(status = ValidatePreparedStatementExecution(&sql_client)).ok()) {
+      return status.WithMessage("PreparedStatementExecution failed: ", status.message());
+    }
+    if (!(status = ValidateTransactions(&sql_client)).ok()) {
+      return status.WithMessage("Transactions failed: ", status.message());
+    }
+    return Status::OK();
+  }
+
+  Status ValidateMetadataRetrieval(sql::FlightSqlClient* sql_client) {
+    std::unique_ptr<FlightInfo> info;
+    std::vector<int32_t> sql_info = {
+        sql::SqlInfoOptions::FLIGHT_SQL_SERVER_SQL,
+        sql::SqlInfoOptions::FLIGHT_SQL_SERVER_SUBSTRAIT,
+        sql::SqlInfoOptions::FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION,
+        sql::SqlInfoOptions::FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION,
+        sql::SqlInfoOptions::FLIGHT_SQL_SERVER_TRANSACTION,
+        sql::SqlInfoOptions::FLIGHT_SQL_SERVER_CANCEL,
+        sql::SqlInfoOptions::FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT,
+        sql::SqlInfoOptions::FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT,
+    };
+    ARROW_ASSIGN_OR_RAISE(info, sql_client->GetSqlInfo({}, sql_info));
+    ARROW_ASSIGN_OR_RAISE(auto reader,
+                          sql_client->DoGet({}, info->endpoints()[0].ticket));
+
+    ARROW_ASSIGN_OR_RAISE(auto actual_schema, reader->GetSchema());
+    if (!sql::SqlSchema::GetSqlInfoSchema()->Equals(*actual_schema,
+                                                    /*check_metadata=*/true)) {
+      return Status::Invalid("Schemas did not match. Expected:\n",
+                             *sql::SqlSchema::GetSqlInfoSchema(), "\nActual:\n",
+                             *actual_schema);
+    }
+
+    sql::SqlInfoResultMap info_values;
+    while (true) {
+      ARROW_ASSIGN_OR_RAISE(auto chunk, reader->Next());
+      if (!chunk.data) break;
+
+      const auto& info_name = checked_cast<const UInt32Array&>(*chunk.data->column(0));
+      const auto& value = checked_cast<const DenseUnionArray&>(*chunk.data->column(1));
+
+      for (int64_t i = 0; i < chunk.data->num_rows(); i++) {
+        const uint32_t code = info_name.Value(i);
+        if (info_values.find(code) != info_values.end()) {
+          return Status::Invalid("Duplicate SqlInfo value ", code);
+        }
+        switch (value.type_code(i)) {
+          case 0: {  // string
+            std::string slot = checked_cast<const StringArray&>(*value.field(0))
+                                   .GetString(value.value_offset(i));
+            info_values[code] = sql::SqlInfoResult(std::move(slot));
+            break;
+          }
+          case 1: {  // bool
+            bool slot = checked_cast<const BooleanArray&>(*value.field(1))
+                            .Value(value.value_offset(i));
+            info_values[code] = sql::SqlInfoResult(slot);
+            break;
+          }
+          case 2: {  // int64_t
+            int64_t slot = checked_cast<const Int64Array&>(*value.field(2))
+                               .Value(value.value_offset(i));
+            info_values[code] = sql::SqlInfoResult(slot);
+            break;
+          }
+          case 3: {  // int32_t
+            int32_t slot = checked_cast<const Int32Array&>(*value.field(3))
+                               .Value(value.value_offset(i));
+            info_values[code] = sql::SqlInfoResult(slot);
+            break;
+          }
+          default:
+            return Status::NotImplemented("Decoding SqlInfoResult of type code ",
+                                          value.type_code(i));
+        }
+      }
+    }
+
+    ARROW_RETURN_NOT_OK(AssertUnprintableEq(
+        info_values[sql::SqlInfoOptions::FLIGHT_SQL_SERVER_SQL],
+        sql::SqlInfoResult(false), "FLIGHT_SQL_SERVER_SQL did not match"));
+    ARROW_RETURN_NOT_OK(AssertUnprintableEq(
+        info_values[sql::SqlInfoOptions::FLIGHT_SQL_SERVER_SUBSTRAIT],
+        sql::SqlInfoResult(true), "FLIGHT_SQL_SERVER_SUBSTRAIT did not match"));
+    ARROW_RETURN_NOT_OK(AssertUnprintableEq(
+        info_values[sql::SqlInfoOptions::FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION],
+        sql::SqlInfoResult(std::string("min_version")),
+        "FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION did not match"));
+    ARROW_RETURN_NOT_OK(AssertUnprintableEq(
+        info_values[sql::SqlInfoOptions::FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION],
+        sql::SqlInfoResult(std::string("max_version")),
+        "FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION did not match"));
+    ARROW_RETURN_NOT_OK(AssertUnprintableEq(
+        info_values[sql::SqlInfoOptions::FLIGHT_SQL_SERVER_TRANSACTION],
+        sql::SqlInfoResult(sql::SqlInfoOptions::SqlSupportedTransaction::
+                               SQL_SUPPORTED_TRANSACTION_SAVEPOINT),
+        "FLIGHT_SQL_SERVER_TRANSACTION did not match"));
+    ARROW_RETURN_NOT_OK(AssertUnprintableEq(
+        info_values[sql::SqlInfoOptions::FLIGHT_SQL_SERVER_CANCEL],
+        sql::SqlInfoResult(true), "FLIGHT_SQL_SERVER_CANCEL did not match"));
+    ARROW_RETURN_NOT_OK(AssertUnprintableEq(
+        info_values[sql::SqlInfoOptions::FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT],
+        sql::SqlInfoResult(int32_t(42)),
+        "FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT did not match"));
+    ARROW_RETURN_NOT_OK(AssertUnprintableEq(
+        info_values[sql::SqlInfoOptions::FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT],
+        sql::SqlInfoResult(int32_t(7)),
+        "FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT did not match"));
+
+    return Status::OK();
+  }
+
+  Status ValidateStatementExecution(sql::FlightSqlClient* sql_client) {
+    ARROW_ASSIGN_OR_RAISE(std::unique_ptr<FlightInfo> info,
+                          sql_client->ExecuteSubstrait({}, kSubstraitPlan));
+    ARROW_RETURN_NOT_OK(Validate(GetQuerySchema(), *info, sql_client));
+
+    ARROW_ASSIGN_OR_RAISE(std::unique_ptr<SchemaResult> schema,
+                          sql_client->GetExecuteSubstraitSchema({}, kSubstraitPlan));
+    ARROW_RETURN_NOT_OK(ValidateSchema(GetQuerySchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(info, sql_client->ExecuteSubstrait({}, kSubstraitPlan));
+    ARROW_ASSIGN_OR_RAISE(sql::CancelResult cancel_result,
+                          sql_client->CancelQuery({}, *info));
+    ARROW_RETURN_NOT_OK(
+        AssertEq(sql::CancelResult::kCancelled, cancel_result, "Wrong cancel result"));
+
+    ARROW_ASSIGN_OR_RAISE(const int64_t updated_rows,
+                          sql_client->ExecuteSubstraitUpdate({}, kSubstraitPlan));
+    ARROW_RETURN_NOT_OK(
+        AssertEq(kUpdateStatementExpectedRows, updated_rows,
+                 "Wrong number of updated rows for ExecuteSubstraitUpdate"));
+
+    return Status::OK();
+  }
+
+  Status ValidatePreparedStatementExecution(sql::FlightSqlClient* sql_client) {
     auto parameters =
         RecordBatch::Make(GetQuerySchema(), 1, {ArrayFromJSON(int64(), "[1]")});
-    ARROW_RETURN_NOT_OK(select_prepared_statement->SetParameters(parameters));
 
+    ARROW_ASSIGN_OR_RAISE(
+        std::shared_ptr<sql::PreparedStatement> substrait_prepared_statement,
+        sql_client->PrepareSubstrait({}, kSubstraitPlan));
+    ARROW_RETURN_NOT_OK(substrait_prepared_statement->SetParameters(parameters));
+    ARROW_ASSIGN_OR_RAISE(std::unique_ptr<FlightInfo> info,
+                          substrait_prepared_statement->Execute());
+    ARROW_RETURN_NOT_OK(Validate(GetQuerySchema(), *info, sql_client));
+    ARROW_ASSIGN_OR_RAISE(std::unique_ptr<SchemaResult> schema,
+                          substrait_prepared_statement->GetSchema({}));
+    ARROW_RETURN_NOT_OK(ValidateSchema(GetQuerySchema(), *schema));
+    ARROW_RETURN_NOT_OK(substrait_prepared_statement->Close());
+
+    ARROW_ASSIGN_OR_RAISE(
+        std::shared_ptr<sql::PreparedStatement> update_substrait_prepared_statement,
+        sql_client->PrepareSubstrait({}, kSubstraitPlan));
+    ARROW_ASSIGN_OR_RAISE(const int64_t updated_rows,
+                          update_substrait_prepared_statement->ExecuteUpdate());
+    ARROW_RETURN_NOT_OK(
+        AssertEq(kUpdatePreparedStatementExpectedRows, updated_rows,
+                 "Wrong number of updated rows for prepared statement ExecuteUpdate"));
+    ARROW_RETURN_NOT_OK(update_substrait_prepared_statement->Close());
+
+    return Status::OK();
+  }
+
+  Status ValidateTransactions(sql::FlightSqlClient* sql_client) {
+    ARROW_ASSIGN_OR_RAISE(sql::Transaction transaction, sql_client->BeginTransaction({}));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(
+        kTransactionId, transaction.transaction_id(), "Wrong transaction ID"));
+
+    ARROW_ASSIGN_OR_RAISE(sql::Savepoint savepoint,
+                          sql_client->BeginSavepoint({}, transaction, kSavepointName));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(kSavepointId, savepoint.savepoint_id(),
+                                              "Wrong savepoint ID"));
+
+    ARROW_ASSIGN_OR_RAISE(std::unique_ptr<FlightInfo> info,
+                          sql_client->Execute({}, kSelectStatement, transaction));
+    ARROW_RETURN_NOT_OK(Validate(GetQueryWithTransactionSchema(), *info, sql_client));
+
+    ARROW_ASSIGN_OR_RAISE(info,
+                          sql_client->ExecuteSubstrait({}, kSubstraitPlan, transaction));
+    ARROW_RETURN_NOT_OK(Validate(GetQueryWithTransactionSchema(), *info, sql_client));
+
+    ARROW_ASSIGN_OR_RAISE(
+        std::unique_ptr<SchemaResult> schema,
+        sql_client->GetExecuteSchema({}, kSelectStatement, transaction));
+    ARROW_RETURN_NOT_OK(ValidateSchema(GetQueryWithTransactionSchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(
+        schema, sql_client->GetExecuteSubstraitSchema({}, kSubstraitPlan, transaction));
+    ARROW_RETURN_NOT_OK(ValidateSchema(GetQueryWithTransactionSchema(), *schema));
+
+    ARROW_ASSIGN_OR_RAISE(int64_t updated_rows,
+                          sql_client->ExecuteUpdate({}, "UPDATE STATEMENT", transaction));
     ARROW_RETURN_NOT_OK(
-        Validate(GetQuerySchema(), select_prepared_statement->Execute(), sql_client));
+        AssertEq(kUpdateStatementWithTransactionExpectedRows, updated_rows,
+                 "Wrong number of updated rows for ExecuteUpdate with transaction"));
+    ARROW_ASSIGN_OR_RAISE(updated_rows, sql_client->ExecuteSubstraitUpdate(
+                                            {}, kSubstraitPlan, transaction));
+    ARROW_RETURN_NOT_OK(AssertEq(
+        kUpdateStatementWithTransactionExpectedRows, updated_rows,
+        "Wrong number of updated rows for ExecuteSubstraitUpdate with transaction"));
+
+    auto parameters =
+        RecordBatch::Make(GetQuerySchema(), 1, {ArrayFromJSON(int64(), "[1]")});
+
+    ARROW_ASSIGN_OR_RAISE(
+        std::shared_ptr<sql::PreparedStatement> select_prepared_statement,
+        sql_client->Prepare({}, "SELECT PREPARED STATEMENT", transaction));
+    ARROW_RETURN_NOT_OK(select_prepared_statement->SetParameters(parameters));
+    ARROW_ASSIGN_OR_RAISE(info, select_prepared_statement->Execute());
+    ARROW_RETURN_NOT_OK(Validate(GetQueryWithTransactionSchema(), *info, sql_client));
+    ARROW_ASSIGN_OR_RAISE(schema, select_prepared_statement->GetSchema({}));
+    ARROW_RETURN_NOT_OK(ValidateSchema(GetQueryWithTransactionSchema(), *schema));
     ARROW_RETURN_NOT_OK(select_prepared_statement->Close());
 
-    ARROW_ASSIGN_OR_RAISE(auto update_prepared_statement,
-                          sql_client->Prepare(options, "UPDATE PREPARED STATEMENT"));
-    ARROW_ASSIGN_OR_RAISE(auto update_prepared_statement_result,
-                          update_prepared_statement->ExecuteUpdate());
-    if (update_prepared_statement_result != kUpdatePreparedStatementExpectedRows) {
-      return Status::Invalid("Expected 'UPDATE STATEMENT' return ",
-                             kUpdatePreparedStatementExpectedRows, ", got ",
-                             update_prepared_statement_result);
-    }
+    ARROW_ASSIGN_OR_RAISE(
+        std::shared_ptr<sql::PreparedStatement> substrait_prepared_statement,
+        sql_client->PrepareSubstrait({}, kSubstraitPlan, transaction));
+    ARROW_RETURN_NOT_OK(substrait_prepared_statement->SetParameters(parameters));
+    ARROW_ASSIGN_OR_RAISE(info, substrait_prepared_statement->Execute());
+    ARROW_RETURN_NOT_OK(Validate(GetQueryWithTransactionSchema(), *info, sql_client));
+    ARROW_ASSIGN_OR_RAISE(schema, substrait_prepared_statement->GetSchema({}));
+    ARROW_RETURN_NOT_OK(ValidateSchema(GetQueryWithTransactionSchema(), *schema));
+    ARROW_RETURN_NOT_OK(substrait_prepared_statement->Close());
+
+    ARROW_ASSIGN_OR_RAISE(
+        std::shared_ptr<sql::PreparedStatement> update_prepared_statement,
+        sql_client->Prepare({}, "UPDATE PREPARED STATEMENT", transaction));
+    ARROW_ASSIGN_OR_RAISE(updated_rows, update_prepared_statement->ExecuteUpdate());
+    ARROW_RETURN_NOT_OK(AssertEq(kUpdatePreparedStatementWithTransactionExpectedRows,
+                                 updated_rows,
+                                 "Wrong number of updated rows for prepared statement "
+                                 "ExecuteUpdate with transaction"));
     ARROW_RETURN_NOT_OK(update_prepared_statement->Close());
 
+    ARROW_ASSIGN_OR_RAISE(
+        std::shared_ptr<sql::PreparedStatement> update_substrait_prepared_statement,
+        sql_client->PrepareSubstrait({}, kSubstraitPlan, transaction));
+    ARROW_ASSIGN_OR_RAISE(updated_rows,
+                          update_substrait_prepared_statement->ExecuteUpdate());
+    ARROW_RETURN_NOT_OK(AssertEq(kUpdatePreparedStatementWithTransactionExpectedRows,
+                                 updated_rows,
+                                 "Wrong number of updated rows for prepared statement "
+                                 "ExecuteUpdate with transaction"));
+    ARROW_RETURN_NOT_OK(update_substrait_prepared_statement->Close());
+
+    ARROW_RETURN_NOT_OK(sql_client->Rollback({}, savepoint));
+
+    ARROW_ASSIGN_OR_RAISE(sql::Savepoint savepoint2,
+                          sql_client->BeginSavepoint({}, transaction, kSavepointName));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(kSavepointId, savepoint.savepoint_id(),
+                                              "Wrong savepoint ID"));
+    ARROW_RETURN_NOT_OK(sql_client->Release({}, savepoint));
+
+    ARROW_RETURN_NOT_OK(sql_client->Commit({}, transaction));
+
+    ARROW_ASSIGN_OR_RAISE(sql::Transaction transaction2,
+                          sql_client->BeginTransaction({}));
+    ARROW_RETURN_NOT_OK(AssertEq<std::string>(
+        kTransactionId, transaction.transaction_id(), "Wrong transaction ID"));
+    ARROW_RETURN_NOT_OK(sql_client->Rollback({}, transaction2));
+
     return Status::OK();
   }
 };
+}  // namespace
 
 Status GetScenario(const std::string& scenario_name, std::shared_ptr<Scenario>* out) {
   if (scenario_name == "auth:basic_proto") {
@@ -703,6 +1333,9 @@ Status GetScenario(const std::string& scenario_name, std::shared_ptr<Scenario>*
   } else if (scenario_name == "flight_sql") {
     *out = std::make_shared<FlightSqlScenario>();
     return Status::OK();
+  } else if (scenario_name == "flight_sql:extension") {
+    *out = std::make_shared<FlightSqlExtensionScenario>();
+    return Status::OK();
   }
   return Status::KeyError("Scenario not found: ", scenario_name);
 }
diff --git a/cpp/src/arrow/flight/integration_tests/test_integration_server.cc b/cpp/src/arrow/flight/integration_tests/test_integration_server.cc
index 9127f55fe14..51cd38b1194 100644
--- a/cpp/src/arrow/flight/integration_tests/test_integration_server.cc
+++ b/cpp/src/arrow/flight/integration_tests/test_integration_server.cc
@@ -103,7 +103,7 @@ class FlightIntegrationTestServer : public FlightServerBase {
       flight_data.total_bytes = -1;
       FlightInfo value(flight_data);
 
-      *info = std::unique_ptr<FlightInfo>(new FlightInfo(value));
+      *info = std::make_unique<FlightInfo>(value);
       return Status::OK();
     } else {
       return Status::NotImplemented(request.type);
@@ -118,9 +118,10 @@ class FlightIntegrationTestServer : public FlightServerBase {
     }
     auto flight = data->second;
 
-    *data_stream = std::unique_ptr<FlightDataStream>(
-        new NumberingStream(std::unique_ptr<FlightDataStream>(new RecordBatchStream(
-            std::shared_ptr<RecordBatchReader>(new RecordBatchListReader(flight))))));
+    std::unique_ptr<FlightDataStream> record_batch_stream =
+        std::make_unique<RecordBatchStream>(
+            std::make_shared<RecordBatchListReader>(flight));
+    *data_stream = std::make_unique<NumberingStream>(std::move(record_batch_stream));
 
     return Status::OK();
   }
diff --git a/cpp/src/arrow/flight/middleware.cc b/cpp/src/arrow/flight/middleware.cc
new file mode 100644
index 00000000000..ffbcb6aad20
--- /dev/null
+++ b/cpp/src/arrow/flight/middleware.cc
@@ -0,0 +1,53 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "arrow/flight/middleware.h"
+
+namespace arrow {
+namespace flight {
+
+std::string ToString(FlightMethod method) {
+  // Technically, we can get this via Protobuf reflection, but in
+  // practice we'd have to hardcode the method names to look up the
+  // method descriptor...
+  switch (method) {
+    case FlightMethod::Handshake:
+      return "Handshake";
+    case FlightMethod::ListFlights:
+      return "ListFlights";
+    case FlightMethod::GetFlightInfo:
+      return "GetFlightInfo";
+    case FlightMethod::GetSchema:
+      return "GetSchema";
+    case FlightMethod::DoGet:
+      return "DoGet";
+    case FlightMethod::DoPut:
+      return "DoPut";
+    case FlightMethod::DoAction:
+      return "DoAction";
+    case FlightMethod::ListActions:
+      return "ListActions";
+    case FlightMethod::DoExchange:
+      return "DoExchange";
+    case FlightMethod::Invalid:
+    default:
+      return "(unknown Flight method)";
+  }
+}
+
+}  // namespace flight
+}  // namespace arrow
diff --git a/cpp/src/arrow/flight/middleware.h b/cpp/src/arrow/flight/middleware.h
index d11ba11477c..dc1ad24bc5c 100644
--- a/cpp/src/arrow/flight/middleware.h
+++ b/cpp/src/arrow/flight/middleware.h
@@ -23,20 +23,19 @@
 #include <map>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <utility>
 
 #include "arrow/flight/visibility.h"  // IWYU pragma: keep
 #include "arrow/status.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
-
 namespace flight {
 
 /// \brief Headers sent from the client or server.
 ///
 /// Header values are ordered.
-using CallHeaders = std::multimap<util::string_view, util::string_view>;
+using CallHeaders = std::multimap<std::string_view, std::string_view>;
 
 /// \brief A write-only wrapper around headers for an RPC call.
 class ARROW_FLIGHT_EXPORT AddCallHeaders {
@@ -66,6 +65,10 @@ enum class FlightMethod : char {
   DoExchange = 9,
 };
 
+/// \brief Get a human-readable name for a Flight method.
+ARROW_FLIGHT_EXPORT
+std::string ToString(FlightMethod method);
+
 /// \brief Information about an instance of a Flight RPC.
 struct ARROW_FLIGHT_EXPORT CallInfo {
  public:
@@ -74,5 +77,4 @@ struct ARROW_FLIGHT_EXPORT CallInfo {
 };
 
 }  // namespace flight
-
 }  // namespace arrow
diff --git a/cpp/src/arrow/flight/perf_server.cc b/cpp/src/arrow/flight/perf_server.cc
index 37e3ec4d771..eb6ac92b836 100644
--- a/cpp/src/arrow/flight/perf_server.cc
+++ b/cpp/src/arrow/flight/perf_server.cc
@@ -198,7 +198,7 @@ class FlightPerfServer : public FlightServerBase {
     FlightInfo::Data data;
     RETURN_NOT_OK(
         MakeFlightInfo(*perf_schema_, request, endpoints, total_records, -1, &data));
-    *info = std::unique_ptr<FlightInfo>(new FlightInfo(data));
+    *info = std::make_unique<FlightInfo>(data);
     return Status::OK();
   }
 
@@ -228,7 +228,7 @@ class FlightPerfServer : public FlightServerBase {
                   std::unique_ptr<ResultStream>* result) override {
     if (action.type == "ping") {
       std::shared_ptr<Buffer> buf = Buffer::FromString("ok");
-      *result = std::unique_ptr<ResultStream>(new SimpleResultStream({Result{buf}}));
+      *result = std::make_unique<SimpleResultStream>(std::vector<Result>{Result{buf}});
       return Status::OK();
     }
     return Status::NotImplemented(action.type);
diff --git a/cpp/src/arrow/flight/serialization_internal.h b/cpp/src/arrow/flight/serialization_internal.h
index c27bc79b315..0e1d7a6d843 100644
--- a/cpp/src/arrow/flight/serialization_internal.h
+++ b/cpp/src/arrow/flight/serialization_internal.h
@@ -60,6 +60,7 @@ Status FromProto(const pb::SchemaResult& pb_result, std::string* result);
 Status FromProto(const pb::BasicAuth& pb_basic_auth, BasicAuth* info);
 
 Status ToProto(const FlightDescriptor& descr, pb::FlightDescriptor* pb_descr);
+Status ToProto(const FlightEndpoint& endpoint, pb::FlightEndpoint* pb_endpoint);
 Status ToProto(const FlightInfo& info, pb::FlightInfo* pb_info);
 Status ToProto(const ActionType& type, pb::ActionType* pb_type);
 Status ToProto(const Action& action, pb::Action* pb_action);
diff --git a/cpp/src/arrow/flight/server.cc b/cpp/src/arrow/flight/server.cc
index 1a3b52910c0..66185cfeba5 100644
--- a/cpp/src/arrow/flight/server.cc
+++ b/cpp/src/arrow/flight/server.cc
@@ -28,6 +28,7 @@
 #include <chrono>
 #include <cstdint>
 #include <memory>
+#include <string_view>
 #include <thread>
 #include <utility>
 
@@ -39,7 +40,6 @@
 #include "arrow/status.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/uri.h"
 
 namespace arrow {
@@ -353,7 +353,9 @@ RecordBatchStream::RecordBatchStream(const std::shared_ptr<RecordBatchReader>& r
   impl_.reset(new RecordBatchStreamImpl(reader, options));
 }
 
-RecordBatchStream::~RecordBatchStream() {}
+RecordBatchStream::~RecordBatchStream() {
+  ARROW_WARN_NOT_OK(impl_->Close(), "Failed to close FlightDataStream");
+}
 
 Status RecordBatchStream::Close() { return impl_->Close(); }
 
diff --git a/cpp/src/arrow/flight/server_tracing_middleware.cc b/cpp/src/arrow/flight/server_tracing_middleware.cc
new file mode 100644
index 00000000000..eac530efb8a
--- /dev/null
+++ b/cpp/src/arrow/flight/server_tracing_middleware.cc
@@ -0,0 +1,183 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "arrow/flight/server_tracing_middleware.h"
+
+#include <string>
+#include <string_view>
+#include <utility>
+#include <vector>
+
+#include "arrow/flight/transport/grpc/util_internal.h"
+#include "arrow/util/tracing_internal.h"
+
+#ifdef ARROW_WITH_OPENTELEMETRY
+#include <opentelemetry/context/propagation/global_propagator.h>
+#include <opentelemetry/context/propagation/text_map_propagator.h>
+#include <opentelemetry/trace/context.h>
+#include <opentelemetry/trace/experimental_semantic_conventions.h>
+#include <opentelemetry/trace/propagation/http_trace_context.h>
+#endif
+
+namespace arrow {
+namespace flight {
+
+#ifdef ARROW_WITH_OPENTELEMETRY
+namespace otel = opentelemetry;
+namespace {
+class FlightServerCarrier : public otel::context::propagation::TextMapCarrier {
+ public:
+  explicit FlightServerCarrier(const CallHeaders& incoming_headers)
+      : incoming_headers_(incoming_headers) {}
+
+  otel::nostd::string_view Get(otel::nostd::string_view key) const noexcept override {
+    std::string_view arrow_key(key.data(), key.size());
+    auto it = incoming_headers_.find(arrow_key);
+    if (it == incoming_headers_.end()) return "";
+    std::string_view result = it->second;
+    return {result.data(), result.size()};
+  }
+
+  void Set(otel::nostd::string_view, otel::nostd::string_view) noexcept override {}
+
+  const CallHeaders& incoming_headers_;
+};
+class KeyValueCarrier : public otel::context::propagation::TextMapCarrier {
+ public:
+  explicit KeyValueCarrier(std::vector<TracingServerMiddleware::TraceKey>* items)
+      : items_(items) {}
+  otel::nostd::string_view Get(otel::nostd::string_view key) const noexcept override {
+    return {};
+  }
+  void Set(otel::nostd::string_view key,
+           otel::nostd::string_view value) noexcept override {
+    items_->push_back({std::string(key), std::string(value)});
+  }
+
+ private:
+  std::vector<TracingServerMiddleware::TraceKey>* items_;
+};
+}  // namespace
+
+class TracingServerMiddleware::Impl {
+ public:
+  Impl(otel::trace::Scope scope, otel::nostd::shared_ptr<otel::trace::Span> span)
+      : scope_(std::move(scope)), span_(std::move(span)) {}
+  void CallCompleted(const Status& status) {
+    if (!status.ok()) {
+      auto grpc_status = transport::grpc::ToGrpcStatus(status, /*ctx=*/nullptr);
+      span_->SetStatus(otel::trace::StatusCode::kError, status.ToString());
+      span_->SetAttribute(OTEL_GET_TRACE_ATTR(AttrRpcGrpcStatusCode),
+                          static_cast<int32_t>(grpc_status.error_code()));
+    } else {
+      span_->SetStatus(otel::trace::StatusCode::kOk, "");
+      span_->SetAttribute(OTEL_GET_TRACE_ATTR(AttrRpcGrpcStatusCode), int32_t(0));
+    }
+    span_->End();
+  }
+  std::vector<TraceKey> GetTraceContext() const {
+    std::vector<TraceKey> result;
+    KeyValueCarrier carrier(&result);
+    auto context = otel::context::RuntimeContext::GetCurrent();
+    otel::trace::propagation::HttpTraceContext propagator;
+    propagator.Inject(carrier, context);
+    return result;
+  }
+
+ private:
+  otel::trace::Scope scope_;
+  otel::nostd::shared_ptr<otel::trace::Span> span_;
+};
+
+class TracingServerMiddlewareFactory : public ServerMiddlewareFactory {
+ public:
+  virtual ~TracingServerMiddlewareFactory() = default;
+  Status StartCall(const CallInfo& info, const CallHeaders& incoming_headers,
+                   std::shared_ptr<ServerMiddleware>* middleware) override {
+    constexpr char kRpcSystem[] = "grpc";
+    constexpr char kServiceName[] = "arrow.flight.protocol.FlightService";
+
+    FlightServerCarrier carrier(incoming_headers);
+    auto context = otel::context::RuntimeContext::GetCurrent();
+    auto propagator =
+        otel::context::propagation::GlobalTextMapPropagator::GetGlobalPropagator();
+    auto new_context = propagator->Extract(carrier, context);
+
+    otel::trace::StartSpanOptions options;
+    options.kind = otel::trace::SpanKind::kServer;
+    options.parent = otel::trace::GetSpan(new_context)->GetContext();
+
+    auto* tracer = arrow::internal::tracing::GetTracer();
+    auto method_name = ToString(info.method);
+    auto span = tracer->StartSpan(
+        method_name,
+        {
+            // Attributes from experimental trace semantic conventions spec
+            // https://github.com/open-telemetry/opentelemetry-specification/blob/main/semantic_conventions/trace/rpc.yaml
+            {OTEL_GET_TRACE_ATTR(AttrRpcSystem), kRpcSystem},
+            {OTEL_GET_TRACE_ATTR(AttrRpcService), kServiceName},
+            {OTEL_GET_TRACE_ATTR(AttrRpcMethod), method_name},
+        },
+        options);
+    auto scope = tracer->WithActiveSpan(span);
+
+    std::unique_ptr<TracingServerMiddleware::Impl> impl(
+        new TracingServerMiddleware::Impl(std::move(scope), std::move(span)));
+    *middleware = std::shared_ptr<TracingServerMiddleware>(
+        new TracingServerMiddleware(std::move(impl)));
+    return Status::OK();
+  }
+};
+#else
+class TracingServerMiddleware::Impl {
+ public:
+  void CallCompleted(const Status&) {}
+  std::vector<TraceKey> GetTraceContext() const { return {}; }
+};
+class TracingServerMiddlewareFactory : public ServerMiddlewareFactory {
+ public:
+  virtual ~TracingServerMiddlewareFactory() = default;
+  Status StartCall(const CallInfo&, const CallHeaders&,
+                   std::shared_ptr<ServerMiddleware>* middleware) override {
+    std::unique_ptr<TracingServerMiddleware::Impl> impl(
+        new TracingServerMiddleware::Impl());
+    *middleware = std::shared_ptr<TracingServerMiddleware>(
+        new TracingServerMiddleware(std::move(impl)));
+    return Status::OK();
+  }
+};
+#endif
+
+TracingServerMiddleware::TracingServerMiddleware(std::unique_ptr<Impl> impl)
+    : impl_(std::move(impl)) {}
+TracingServerMiddleware::~TracingServerMiddleware() = default;
+void TracingServerMiddleware::SendingHeaders(AddCallHeaders*) {}
+void TracingServerMiddleware::CallCompleted(const Status& status) {
+  impl_->CallCompleted(status);
+}
+std::vector<TracingServerMiddleware::TraceKey> TracingServerMiddleware::GetTraceContext()
+    const {
+  return impl_->GetTraceContext();
+}
+constexpr char const TracingServerMiddleware::kMiddlewareName[];
+
+std::shared_ptr<ServerMiddlewareFactory> MakeTracingServerMiddlewareFactory() {
+  return std::make_shared<TracingServerMiddlewareFactory>();
+}
+
+}  // namespace flight
+}  // namespace arrow
diff --git a/cpp/src/arrow/flight/server_tracing_middleware.h b/cpp/src/arrow/flight/server_tracing_middleware.h
new file mode 100644
index 00000000000..581c8354368
--- /dev/null
+++ b/cpp/src/arrow/flight/server_tracing_middleware.h
@@ -0,0 +1,68 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+// Middleware implementation for propagating OpenTelemetry spans.
+
+#pragma once
+
+#include <memory>
+#include <string>
+#include <vector>
+
+#include "arrow/flight/server_middleware.h"
+#include "arrow/flight/visibility.h"
+#include "arrow/status.h"
+
+namespace arrow {
+namespace flight {
+
+/// \brief Returns a ServerMiddlewareFactory that handles receiving OpenTelemetry spans.
+ARROW_FLIGHT_EXPORT std::shared_ptr<ServerMiddlewareFactory>
+MakeTracingServerMiddlewareFactory();
+
+/// \brief A server middleware that provides access to the
+///   OpenTelemetry context, if present.
+///
+/// Used to make the OpenTelemetry span available in Python.
+class ARROW_FLIGHT_EXPORT TracingServerMiddleware : public ServerMiddleware {
+ public:
+  ~TracingServerMiddleware();
+
+  static constexpr char const kMiddlewareName[] =
+      "arrow::flight::TracingServerMiddleware";
+
+  std::string name() const override { return kMiddlewareName; }
+  void SendingHeaders(AddCallHeaders*) override;
+  void CallCompleted(const Status&) override;
+
+  struct TraceKey {
+    std::string key;
+    std::string value;
+  };
+  /// \brief Get the trace context.
+  std::vector<TraceKey> GetTraceContext() const;
+
+ private:
+  class Impl;
+  friend class TracingServerMiddlewareFactory;
+
+  explicit TracingServerMiddleware(std::unique_ptr<Impl> impl);
+  std::unique_ptr<Impl> impl_;
+};
+
+}  // namespace flight
+}  // namespace arrow
diff --git a/cpp/src/arrow/flight/sql/ArrowFlightSqlConfig.cmake.in b/cpp/src/arrow/flight/sql/ArrowFlightSqlConfig.cmake.in
index 1658f44f418..3a70dbdeda6 100644
--- a/cpp/src/arrow/flight/sql/ArrowFlightSqlConfig.cmake.in
+++ b/cpp/src/arrow/flight/sql/ArrowFlightSqlConfig.cmake.in
@@ -21,16 +21,18 @@
 #
 # This config sets the following targets in your project::
 #
-#   arrow_flight_sql_shared - for linked as shared library if shared library is built
-#   arrow_flight_sql_static - for linked as static library if static library is built
+#   ArrowFlightSql::arrow_flight_sql_shared - for linked as shared library if shared library is built
+#   ArrowFlightSql::arrow_flight_sql_static - for linked as static library if static library is built
 
 @PACKAGE_INIT@
 
 include(CMakeFindDependencyMacro)
 find_dependency(ArrowFlight)
 
-# Load targets only once. If we load targets multiple times, CMake reports
-# already existent target error.
-if(NOT (TARGET arrow_flight_sql_shared OR TARGET arrow_flight_sql_static))
-  include("${CMAKE_CURRENT_LIST_DIR}/ArrowFlightSqlTargets.cmake")
-endif()
+include("${CMAKE_CURRENT_LIST_DIR}/ArrowFlightSqlTargets.cmake")
+
+arrow_keep_backward_compatibility(ArrowFlightSql arrow_flight_sql)
+
+check_required_components(ArrowFlightSql)
+
+arrow_show_details(ArrowFlightSql ARROW_FLIGHT_SQL)
diff --git a/cpp/src/arrow/flight/sql/CMakeLists.txt b/cpp/src/arrow/flight/sql/CMakeLists.txt
index f7312de23a9..628b02b9d28 100644
--- a/cpp/src/arrow/flight/sql/CMakeLists.txt
+++ b/cpp/src/arrow/flight/sql/CMakeLists.txt
@@ -63,6 +63,10 @@ add_arrow_lib(arrow_flight_sql
               PRIVATE_INCLUDES
               "${Protobuf_INCLUDE_DIRS}")
 
+if(ARROW_BUILD_STATIC AND WIN32)
+  target_compile_definitions(arrow_flight_sql_static PUBLIC ARROW_FLIGHT_SQL_STATIC)
+endif()
+
 if(MSVC)
   # Suppress warnings caused by Protobuf (casts)
   set_source_files_properties(protocol_internal.cc PROPERTIES COMPILE_FLAGS "/wd4267")
@@ -89,13 +93,28 @@ if(ARROW_BUILD_TESTS OR ARROW_BUILD_EXAMPLES)
       example/sqlite_statement_batch_reader.cc
       example/sqlite_server.cc
       example/sqlite_tables_schema_batch_reader.cc)
+
   set(ARROW_FLIGHT_SQL_TEST_SRCS server_test.cc)
-  if(NOT MSVC AND NOT MINGW)
-    # ARROW-16902: getting Protobuf generated code to have all the
-    # proper dllexport/dllimport declarations is difficult, since
-    # protoc does not insert them everywhere needed to satisfy both
-    # MinGW and MSVC, and the Protobuf team recommends against it
-    list(APPEND ARROW_FLIGHT_SQL_TEST_SRCS client_test.cc)
+  set(ARROW_FLIGHT_SQL_TEST_LIBS ${SQLite3_LIBRARIES})
+  set(ARROW_FLIGHT_SQL_ACERO_SRCS example/acero_server.cc)
+
+  if(ARROW_COMPUTE
+     AND ARROW_PARQUET
+     AND ARROW_SUBSTRAIT)
+    list(APPEND ARROW_FLIGHT_SQL_TEST_SRCS ${ARROW_FLIGHT_SQL_ACERO_SRCS} acero_test.cc)
+    if(ARROW_FLIGHT_TEST_LINKAGE STREQUAL "static")
+      list(APPEND ARROW_FLIGHT_SQL_TEST_LIBS arrow_substrait_static)
+    else()
+      list(APPEND ARROW_FLIGHT_SQL_TEST_LIBS arrow_substrait_shared)
+    endif()
+
+    if(ARROW_BUILD_EXAMPLES)
+      add_executable(acero-flight-sql-server ${ARROW_FLIGHT_SQL_ACERO_SRCS}
+                                             example/acero_main.cc)
+      target_link_libraries(acero-flight-sql-server
+                            PRIVATE ${ARROW_FLIGHT_SQL_TEST_LINK_LIBS}
+                                    ${ARROW_FLIGHT_SQL_TEST_LIBS} ${GFLAGS_LIBRARIES})
+    endif()
   endif()
 
   add_arrow_test(flight_sql_test
@@ -104,7 +123,9 @@ if(ARROW_BUILD_TESTS OR ARROW_BUILD_EXAMPLES)
                  ${ARROW_FLIGHT_SQL_TEST_SERVER_SRCS}
                  STATIC_LINK_LIBS
                  ${ARROW_FLIGHT_SQL_TEST_LINK_LIBS}
-                 ${SQLite3_LIBRARIES}
+                 ${ARROW_FLIGHT_SQL_TEST_LIBS}
+                 EXTRA_INCLUDES
+                 "${CMAKE_CURRENT_BINARY_DIR}/../"
                  LABELS
                  "arrow_flight_sql")
 
diff --git a/cpp/src/arrow/flight/sql/acero_test.cc b/cpp/src/arrow/flight/sql/acero_test.cc
new file mode 100644
index 00000000000..a8298f57b9d
--- /dev/null
+++ b/cpp/src/arrow/flight/sql/acero_test.cc
@@ -0,0 +1,224 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+/// Integration test using the Acero backend
+
+#include <memory>
+#include <sstream>
+
+#include <gmock/gmock.h>
+#include <gtest/gtest.h>
+
+#include "arrow/array.h"
+#include "arrow/engine/substrait/util.h"
+#include "arrow/flight/server.h"
+#include "arrow/flight/sql/client.h"
+#include "arrow/flight/sql/example/acero_server.h"
+#include "arrow/flight/sql/types.h"
+#include "arrow/flight/types.h"
+#include "arrow/scalar.h"
+#include "arrow/stl_iterator.h"
+#include "arrow/table.h"
+#include "arrow/testing/gtest_util.h"
+#include "arrow/type_fwd.h"
+#include "arrow/util/checked_cast.h"
+
+namespace arrow {
+namespace flight {
+namespace sql {
+
+using arrow::internal::checked_cast;
+
+class TestAcero : public ::testing::Test {
+ public:
+  void SetUp() override {
+    ASSERT_OK_AND_ASSIGN(auto location, Location::ForGrpcTcp("localhost", 0));
+    flight::FlightServerOptions options(location);
+
+    ASSERT_OK_AND_ASSIGN(server_, acero_example::MakeAceroServer());
+    ASSERT_OK(server_->Init(options));
+
+    ASSERT_OK_AND_ASSIGN(auto client, FlightClient::Connect(server_->location()));
+    client_.reset(new FlightSqlClient(std::move(client)));
+  }
+
+  void TearDown() override {
+    ASSERT_OK(client_->Close());
+    ASSERT_OK(server_->Shutdown());
+  }
+
+ protected:
+  std::unique_ptr<FlightSqlClient> client_;
+  std::unique_ptr<FlightServerBase> server_;
+};
+
+arrow::Result<std::shared_ptr<Buffer>> MakeSubstraitPlan() {
+  ARROW_ASSIGN_OR_RAISE(std::string dir_string,
+                        arrow::internal::GetEnvVar("PARQUET_TEST_DATA"));
+  ARROW_ASSIGN_OR_RAISE(auto dir,
+                        arrow::internal::PlatformFilename::FromString(dir_string));
+  ARROW_ASSIGN_OR_RAISE(auto filename, dir.Join("binary.parquet"));
+  std::string uri = std::string("file://") + filename.ToString();
+
+  // TODO(ARROW-17229): we should use a RootRel here
+  std::string json_plan = R"({
+    "relations": [
+      {
+        "rel": {
+          "read": {
+            "base_schema": {
+              "struct": {
+                "types": [
+                  {"binary": {}}
+                ]
+              },
+              "names": [
+                "foo"
+              ]
+            },
+            "local_files": {
+              "items": [
+                {
+                  "uri_file": "URI_PLACEHOLDER",
+                  "parquet": {}
+                }
+              ]
+            }
+          }
+        }
+      }
+    ]
+})";
+  std::string uri_placeholder = "URI_PLACEHOLDER";
+  json_plan.replace(json_plan.find(uri_placeholder), uri_placeholder.size(), uri);
+  return engine::SerializeJsonPlan(json_plan);
+}
+
+TEST_F(TestAcero, GetSqlInfo) {
+  FlightCallOptions call_options;
+  std::vector<int> sql_info_codes = {
+      SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_SUBSTRAIT,
+      SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_TRANSACTION,
+  };
+  ASSERT_OK_AND_ASSIGN(auto flight_info,
+                       client_->GetSqlInfo(call_options, sql_info_codes));
+  ASSERT_OK_AND_ASSIGN(auto reader,
+                       client_->DoGet(call_options, flight_info->endpoints()[0].ticket));
+  ASSERT_OK_AND_ASSIGN(auto results, reader->ToTable());
+  ASSERT_OK_AND_ASSIGN(auto batch, results->CombineChunksToBatch());
+  ASSERT_EQ(2, results->num_rows());
+  std::vector<std::pair<uint32_t, SqlInfoResult>> info;
+  const auto& ids = checked_cast<const UInt32Array&>(*batch->column(0));
+  const auto& values = checked_cast<const DenseUnionArray&>(*batch->column(1));
+  for (int64_t i = 0; i < batch->num_rows(); i++) {
+    ASSERT_OK_AND_ASSIGN(auto scalar, values.GetScalar(i));
+    if (ids.Value(i) == SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_SUBSTRAIT) {
+      ASSERT_EQ(*checked_cast<const DenseUnionScalar&>(*scalar).value,
+                BooleanScalar(true));
+    } else if (ids.Value(i) == SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_TRANSACTION) {
+      ASSERT_EQ(
+          *checked_cast<const DenseUnionScalar&>(*scalar).value,
+          Int32Scalar(
+              SqlInfoOptions::SqlSupportedTransaction::SQL_SUPPORTED_TRANSACTION_NONE));
+    } else {
+      FAIL() << "Unexpected info value: " << ids.Value(i);
+    }
+  }
+}
+
+TEST_F(TestAcero, Scan) {
+  FlightCallOptions call_options;
+  ASSERT_OK_AND_ASSIGN(auto serialized_plan, MakeSubstraitPlan());
+
+  SubstraitPlan plan{serialized_plan->ToString(), /*version=*/"0.6.0"};
+  ASSERT_OK_AND_ASSIGN(std::unique_ptr<FlightInfo> info,
+                       client_->ExecuteSubstrait(call_options, plan));
+  ipc::DictionaryMemo memo;
+  ASSERT_OK_AND_ASSIGN(auto schema, info->GetSchema(&memo));
+  // TODO(ARROW-17229): the scanner "special" fields are still included, strip them
+  // manually
+  auto fixed_schema = arrow::schema({schema->fields()[0]});
+  ASSERT_NO_FATAL_FAILURE(
+      AssertSchemaEqual(fixed_schema, arrow::schema({field("foo", binary())})));
+
+  ASSERT_EQ(1, info->endpoints().size());
+  ASSERT_EQ(0, info->endpoints()[0].locations.size());
+  ASSERT_OK_AND_ASSIGN(auto reader,
+                       client_->DoGet(call_options, info->endpoints()[0].ticket));
+  ASSERT_OK_AND_ASSIGN(auto reader_schema, reader->GetSchema());
+  ASSERT_NO_FATAL_FAILURE(AssertSchemaEqual(schema, reader_schema));
+  ASSERT_OK_AND_ASSIGN(auto table, reader->ToTable());
+  ASSERT_GT(table->num_rows(), 0);
+}
+
+TEST_F(TestAcero, Update) {
+  FlightCallOptions call_options;
+  ASSERT_OK_AND_ASSIGN(auto serialized_plan, MakeSubstraitPlan());
+  SubstraitPlan plan{serialized_plan->ToString(), /*version=*/"0.6.0"};
+  EXPECT_RAISES_WITH_MESSAGE_THAT(NotImplemented,
+                                  ::testing::HasSubstr("Updates are unsupported"),
+                                  client_->ExecuteSubstraitUpdate(call_options, plan));
+}
+
+TEST_F(TestAcero, Prepare) {
+  FlightCallOptions call_options;
+  ASSERT_OK_AND_ASSIGN(auto serialized_plan, MakeSubstraitPlan());
+  SubstraitPlan plan{serialized_plan->ToString(), /*version=*/"0.6.0"};
+  ASSERT_OK_AND_ASSIGN(auto prepared_statement,
+                       client_->PrepareSubstrait(call_options, plan));
+  ASSERT_NE(prepared_statement->dataset_schema(), nullptr);
+  ASSERT_EQ(prepared_statement->parameter_schema(), nullptr);
+
+  auto fixed_schema = arrow::schema({prepared_statement->dataset_schema()->fields()[0]});
+  ASSERT_NO_FATAL_FAILURE(
+      AssertSchemaEqual(fixed_schema, arrow::schema({field("foo", binary())})));
+
+  EXPECT_RAISES_WITH_MESSAGE_THAT(NotImplemented,
+                                  ::testing::HasSubstr("Updates are unsupported"),
+                                  prepared_statement->ExecuteUpdate());
+
+  ASSERT_OK_AND_ASSIGN(std::unique_ptr<FlightInfo> info, prepared_statement->Execute());
+  ASSERT_EQ(1, info->endpoints().size());
+  ASSERT_EQ(0, info->endpoints()[0].locations.size());
+  ASSERT_OK_AND_ASSIGN(auto reader,
+                       client_->DoGet(call_options, info->endpoints()[0].ticket));
+  ASSERT_OK_AND_ASSIGN(auto reader_schema, reader->GetSchema());
+  ASSERT_NO_FATAL_FAILURE(
+      AssertSchemaEqual(prepared_statement->dataset_schema(), reader_schema));
+  ASSERT_OK_AND_ASSIGN(auto table, reader->ToTable());
+  ASSERT_GT(table->num_rows(), 0);
+
+  ASSERT_OK(prepared_statement->Close());
+}
+
+TEST_F(TestAcero, Transactions) {
+  FlightCallOptions call_options;
+  ASSERT_OK_AND_ASSIGN(auto serialized_plan, MakeSubstraitPlan());
+  Transaction handle("fake-id");
+  SubstraitPlan plan{serialized_plan->ToString(), /*version=*/"0.6.0"};
+
+  EXPECT_RAISES_WITH_MESSAGE_THAT(NotImplemented,
+                                  ::testing::HasSubstr("Transactions are unsupported"),
+                                  client_->ExecuteSubstrait(call_options, plan, handle));
+  EXPECT_RAISES_WITH_MESSAGE_THAT(NotImplemented,
+                                  ::testing::HasSubstr("Transactions are unsupported"),
+                                  client_->PrepareSubstrait(call_options, plan, handle));
+}
+
+}  // namespace sql
+}  // namespace flight
+}  // namespace arrow
diff --git a/cpp/src/arrow/flight/sql/arrow-flight-sql.pc.in b/cpp/src/arrow/flight/sql/arrow-flight-sql.pc.in
index 4f8398bdd25..b76964b97c8 100644
--- a/cpp/src/arrow/flight/sql/arrow-flight-sql.pc.in
+++ b/cpp/src/arrow/flight/sql/arrow-flight-sql.pc.in
@@ -24,3 +24,4 @@ Description: Apache Arrow Flight SQL extension
 Version: @ARROW_VERSION@
 Requires: arrow-flight
 Libs: -L${libdir} -larrow_flight_sql
+Cflags.private: -DARROW_FLIGHT_SQL_STATIC
diff --git a/cpp/src/arrow/flight/sql/client.cc b/cpp/src/arrow/flight/sql/client.cc
index 10ff1eea6f4..25bf8e384ef 100644
--- a/cpp/src/arrow/flight/sql/client.cc
+++ b/cpp/src/arrow/flight/sql/client.cc
@@ -16,6 +16,7 @@
 // under the License.
 
 // Platform-specific defines
+#include "arrow/flight/client.h"
 #include "arrow/flight/platform.h"
 
 #include "arrow/flight/sql/client.h"
@@ -36,15 +37,102 @@ namespace arrow {
 namespace flight {
 namespace sql {
 
+namespace {
+arrow::Result<FlightDescriptor> GetFlightDescriptorForCommand(
+    const google::protobuf::Message& command) {
+  google::protobuf::Any any;
+  if (!any.PackFrom(command)) {
+    return Status::SerializationError("Failed to pack ", command.GetTypeName());
+  }
+
+  std::string buf;
+  if (!any.SerializeToString(&buf)) {
+    return Status::SerializationError("Failed to serialize ", command.GetTypeName());
+  }
+  return FlightDescriptor::Command(buf);
+}
+
+arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoForCommand(
+    FlightSqlClient* client, const FlightCallOptions& options,
+    const google::protobuf::Message& command) {
+  ARROW_ASSIGN_OR_RAISE(FlightDescriptor descriptor,
+                        GetFlightDescriptorForCommand(command));
+  return client->GetFlightInfo(options, descriptor);
+}
+
+arrow::Result<std::unique_ptr<SchemaResult>> GetSchemaForCommand(
+    FlightSqlClient* client, const FlightCallOptions& options,
+    const google::protobuf::Message& command) {
+  ARROW_ASSIGN_OR_RAISE(FlightDescriptor descriptor,
+                        GetFlightDescriptorForCommand(command));
+  return client->GetSchema(options, descriptor);
+}
+
+::arrow::Result<Action> PackAction(const std::string& action_type,
+                                   const google::protobuf::Message& message) {
+  google::protobuf::Any any;
+  if (!any.PackFrom(message)) {
+    return Status::SerializationError("Could not pack ", message.GetTypeName(),
+                                      " into Any");
+  }
+
+  std::string buffer;
+  if (!any.SerializeToString(&buffer)) {
+    return Status::SerializationError("Could not serialize packed ",
+                                      message.GetTypeName());
+  }
+
+  Action action;
+  action.type = action_type;
+  action.body = Buffer::FromString(std::move(buffer));
+  return action;
+}
+
+void SetPlan(const SubstraitPlan& plan, flight_sql_pb::SubstraitPlan* pb_plan) {
+  pb_plan->set_plan(plan.plan);
+  pb_plan->set_version(plan.version);
+}
+
+Status ReadResult(ResultStream* results, google::protobuf::Message* message) {
+  ARROW_ASSIGN_OR_RAISE(auto result, results->Next());
+  if (!result) {
+    return Status::IOError("Server did not return a result for ", message->GetTypeName());
+  }
+
+  google::protobuf::Any container;
+  if (!container.ParseFromArray(result->body->data(),
+                                static_cast<int>(result->body->size()))) {
+    return Status::IOError("Unable to parse Any (expecting ", message->GetTypeName(),
+                           ")");
+  }
+  if (!container.UnpackTo(message)) {
+    return Status::IOError("Unable to unpack Any (expecting ", message->GetTypeName(),
+                           ")");
+  }
+  return Status::OK();
+}
+
+Status DrainResultStream(ResultStream* results) {
+  while (true) {
+    ARROW_ASSIGN_OR_RAISE(auto result, results->Next());
+    if (!result) break;
+  }
+  return Status::OK();
+}
+}  // namespace
+
+const Transaction& no_transaction() {
+  static Transaction kInvalidTransaction("");
+  return kInvalidTransaction;
+}
+
 FlightSqlClient::FlightSqlClient(std::shared_ptr<FlightClient> client)
     : impl_(std::move(client)) {}
 
 PreparedStatement::PreparedStatement(FlightSqlClient* client, std::string handle,
                                      std::shared_ptr<Schema> dataset_schema,
-                                     std::shared_ptr<Schema> parameter_schema,
-                                     FlightCallOptions options)
+                                     std::shared_ptr<Schema> parameter_schema)
     : client_(client),
-      options_(std::move(options)),
       handle_(std::move(handle)),
       dataset_schema_(std::move(dataset_schema)),
       parameter_schema_(std::move(parameter_schema)),
@@ -59,53 +147,106 @@ PreparedStatement::~PreparedStatement() {
   }
 }
 
-inline FlightDescriptor GetFlightDescriptorForCommand(
-    const google::protobuf::Message& command) {
-  google::protobuf::Any any;
-  any.PackFrom(command);
-
-  const std::string& string = any.SerializeAsString();
-  return FlightDescriptor::Command(string);
-}
-
-arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoForCommand(
-    FlightSqlClient& client, const FlightCallOptions& options,
-    const google::protobuf::Message& command) {
-  const FlightDescriptor& descriptor = GetFlightDescriptorForCommand(command);
+arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::Execute(
+    const FlightCallOptions& options, const std::string& query,
+    const Transaction& transaction) {
+  flight_sql_pb::CommandStatementQuery command;
+  command.set_query(query);
+  if (transaction.is_valid()) {
+    command.set_transaction_id(transaction.transaction_id());
+  }
 
-  ARROW_ASSIGN_OR_RAISE(auto flight_info, client.GetFlightInfo(options, descriptor));
-  return std::move(flight_info);
+  return GetFlightInfoForCommand(this, options, command);
 }
 
-arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::Execute(
-    const FlightCallOptions& options, const std::string& query) {
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlClient::GetExecuteSchema(
+    const FlightCallOptions& options, const std::string& query,
+    const Transaction& transaction) {
   flight_sql_pb::CommandStatementQuery command;
   command.set_query(query);
+  if (transaction.is_valid()) {
+    command.set_transaction_id(transaction.transaction_id());
+  }
+  return GetSchemaForCommand(this, options, command);
+}
+
+arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::ExecuteSubstrait(
+    const FlightCallOptions& options, const SubstraitPlan& plan,
+    const Transaction& transaction) {
+  flight_sql_pb::CommandStatementSubstraitPlan command;
+  SetPlan(plan, command.mutable_plan());
+  if (transaction.is_valid()) {
+    command.set_transaction_id(transaction.transaction_id());
+  }
 
-  return GetFlightInfoForCommand(*this, options, command);
+  return GetFlightInfoForCommand(this, options, command);
+}
+
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlClient::GetExecuteSubstraitSchema(
+    const FlightCallOptions& options, const SubstraitPlan& plan,
+    const Transaction& transaction) {
+  flight_sql_pb::CommandStatementSubstraitPlan command;
+  SetPlan(plan, command.mutable_plan());
+  if (transaction.is_valid()) {
+    command.set_transaction_id(transaction.transaction_id());
+  }
+  return GetSchemaForCommand(this, options, command);
 }
 
 arrow::Result<int64_t> FlightSqlClient::ExecuteUpdate(const FlightCallOptions& options,
-                                                      const std::string& query) {
+                                                      const std::string& query,
+                                                      const Transaction& transaction) {
   flight_sql_pb::CommandStatementUpdate command;
   command.set_query(query);
+  if (transaction.is_valid()) {
+    command.set_transaction_id(transaction.transaction_id());
+  }
 
-  const FlightDescriptor& descriptor = GetFlightDescriptorForCommand(command);
+  ARROW_ASSIGN_OR_RAISE(FlightDescriptor descriptor,
+                        GetFlightDescriptorForCommand(command));
 
   std::unique_ptr<FlightStreamWriter> writer;
   std::unique_ptr<FlightMetadataReader> reader;
 
   ARROW_RETURN_NOT_OK(DoPut(options, descriptor, arrow::schema({}), &writer, &reader));
-
   std::shared_ptr<Buffer> metadata;
-
   ARROW_RETURN_NOT_OK(reader->ReadMetadata(&metadata));
+  ARROW_RETURN_NOT_OK(writer->Close());
 
-  flight_sql_pb::DoPutUpdateResult doPutUpdateResult;
+  if (!metadata) return Status::IOError("Server did not send a response");
 
   flight_sql_pb::DoPutUpdateResult result;
   if (!result.ParseFromArray(metadata->data(), static_cast<int>(metadata->size()))) {
-    return Status::Invalid("Unable to parse DoPutUpdateResult object.");
+    return Status::Invalid("Unable to parse DoPutUpdateResult");
+  }
+
+  return result.record_count();
+}
+
+arrow::Result<int64_t> FlightSqlClient::ExecuteSubstraitUpdate(
+    const FlightCallOptions& options, const SubstraitPlan& plan,
+    const Transaction& transaction) {
+  flight_sql_pb::CommandStatementSubstraitPlan command;
+  SetPlan(plan, command.mutable_plan());
+  if (transaction.is_valid()) {
+    command.set_transaction_id(transaction.transaction_id());
+  }
+
+  ARROW_ASSIGN_OR_RAISE(FlightDescriptor descriptor,
+                        GetFlightDescriptorForCommand(command));
+
+  std::unique_ptr<FlightStreamWriter> writer;
+  std::unique_ptr<FlightMetadataReader> reader;
+
+  ARROW_RETURN_NOT_OK(DoPut(options, descriptor, arrow::schema({}), &writer, &reader));
+
+  std::shared_ptr<Buffer> metadata;
+  ARROW_RETURN_NOT_OK(reader->ReadMetadata(&metadata));
+  ARROW_RETURN_NOT_OK(writer->Close());
+
+  flight_sql_pb::DoPutUpdateResult result;
+  if (!result.ParseFromArray(metadata->data(), static_cast<int>(metadata->size()))) {
+    return Status::Invalid("Unable to parse DoPutUpdateResult");
   }
 
   return result.record_count();
@@ -114,8 +255,13 @@ arrow::Result<int64_t> FlightSqlClient::ExecuteUpdate(const FlightCallOptions& o
 arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetCatalogs(
     const FlightCallOptions& options) {
   flight_sql_pb::CommandGetCatalogs command;
+  return GetFlightInfoForCommand(this, options, command);
+}
 
-  return GetFlightInfoForCommand(*this, options, command);
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlClient::GetCatalogsSchema(
+    const FlightCallOptions& options) {
+  flight_sql_pb::CommandGetCatalogs command;
+  return GetSchemaForCommand(this, options, command);
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetDbSchemas(
@@ -129,7 +275,13 @@ arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetDbSchemas(
     command.set_db_schema_filter_pattern(*db_schema_filter_pattern);
   }
 
-  return GetFlightInfoForCommand(*this, options, command);
+  return GetFlightInfoForCommand(this, options, command);
+}
+
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlClient::GetDbSchemasSchema(
+    const FlightCallOptions& options) {
+  flight_sql_pb::CommandGetDbSchemas command;
+  return GetSchemaForCommand(this, options, command);
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetTables(
@@ -158,7 +310,14 @@ arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetTables(
     }
   }
 
-  return GetFlightInfoForCommand(*this, options, command);
+  return GetFlightInfoForCommand(this, options, command);
+}
+
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlClient::GetTablesSchema(
+    const FlightCallOptions& options, bool include_schema) {
+  flight_sql_pb::CommandGetTables command;
+  command.set_include_schema(include_schema);
+  return GetSchemaForCommand(this, options, command);
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetPrimaryKeys(
@@ -175,7 +334,13 @@ arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetPrimaryKeys(
 
   command.set_table(table_ref.table);
 
-  return GetFlightInfoForCommand(*this, options, command);
+  return GetFlightInfoForCommand(this, options, command);
+}
+
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlClient::GetPrimaryKeysSchema(
+    const FlightCallOptions& options) {
+  flight_sql_pb::CommandGetPrimaryKeys command;
+  return GetSchemaForCommand(this, options, command);
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetExportedKeys(
@@ -192,7 +357,13 @@ arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetExportedKeys(
 
   command.set_table(table_ref.table);
 
-  return GetFlightInfoForCommand(*this, options, command);
+  return GetFlightInfoForCommand(this, options, command);
+}
+
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlClient::GetExportedKeysSchema(
+    const FlightCallOptions& options) {
+  flight_sql_pb::CommandGetExportedKeys command;
+  return GetSchemaForCommand(this, options, command);
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetImportedKeys(
@@ -209,7 +380,13 @@ arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetImportedKeys(
 
   command.set_table(table_ref.table);
 
-  return GetFlightInfoForCommand(*this, options, command);
+  return GetFlightInfoForCommand(this, options, command);
+}
+
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlClient::GetImportedKeysSchema(
+    const FlightCallOptions& options) {
+  flight_sql_pb::CommandGetImportedKeys command;
+  return GetSchemaForCommand(this, options, command);
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetCrossReference(
@@ -233,21 +410,33 @@ arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetCrossReference(
   }
   command.set_fk_table(fk_table_ref.table);
 
-  return GetFlightInfoForCommand(*this, options, command);
+  return GetFlightInfoForCommand(this, options, command);
+}
+
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlClient::GetCrossReferenceSchema(
+    const FlightCallOptions& options) {
+  flight_sql_pb::CommandGetCrossReference command;
+  return GetSchemaForCommand(this, options, command);
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetTableTypes(
     const FlightCallOptions& options) {
   flight_sql_pb::CommandGetTableTypes command;
 
-  return GetFlightInfoForCommand(*this, options, command);
+  return GetFlightInfoForCommand(this, options, command);
+}
+
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlClient::GetTableTypesSchema(
+    const FlightCallOptions& options) {
+  flight_sql_pb::CommandGetTableTypes command;
+  return GetSchemaForCommand(this, options, command);
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetXdbcTypeInfo(
     const FlightCallOptions& options) {
   flight_sql_pb::CommandGetXdbcTypeInfo command;
 
-  return GetFlightInfoForCommand(*this, options, command);
+  return GetFlightInfoForCommand(this, options, command);
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetXdbcTypeInfo(
@@ -256,7 +445,27 @@ arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetXdbcTypeInfo(
 
   command.set_data_type(data_type);
 
-  return GetFlightInfoForCommand(*this, options, command);
+  return GetFlightInfoForCommand(this, options, command);
+}
+
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlClient::GetXdbcTypeInfoSchema(
+    const FlightCallOptions& options) {
+  flight_sql_pb::CommandGetXdbcTypeInfo command;
+  return GetSchemaForCommand(this, options, command);
+}
+
+arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetSqlInfo(
+    const FlightCallOptions& options, const std::vector<int>& sql_info) {
+  flight_sql_pb::CommandGetSqlInfo command;
+  for (const int& info : sql_info) command.add_info(info);
+
+  return GetFlightInfoForCommand(this, options, command);
+}
+
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlClient::GetSqlInfoSchema(
+    const FlightCallOptions& options) {
+  flight_sql_pb::CommandGetSqlInfo command;
+  return GetSchemaForCommand(this, options, command);
 }
 
 arrow::Result<std::unique_ptr<FlightStreamReader>> FlightSqlClient::DoGet(
@@ -268,35 +477,41 @@ arrow::Result<std::unique_ptr<FlightStreamReader>> FlightSqlClient::DoGet(
 }
 
 arrow::Result<std::shared_ptr<PreparedStatement>> FlightSqlClient::Prepare(
-    const FlightCallOptions& options, const std::string& query) {
-  google::protobuf::Any command;
+    const FlightCallOptions& options, const std::string& query,
+    const Transaction& transaction) {
   flight_sql_pb::ActionCreatePreparedStatementRequest request;
   request.set_query(query);
-  command.PackFrom(request);
-
-  Action action;
-  action.type = "CreatePreparedStatement";
-  action.body = Buffer::FromString(command.SerializeAsString());
+  if (transaction.is_valid()) {
+    request.set_transaction_id(transaction.transaction_id());
+  }
 
   std::unique_ptr<ResultStream> results;
-
+  ARROW_ASSIGN_OR_RAISE(auto action, PackAction("CreatePreparedStatement", request));
   ARROW_RETURN_NOT_OK(DoAction(options, action, &results));
 
-  ARROW_ASSIGN_OR_RAISE(std::unique_ptr<Result> result, results->Next());
-
-  google::protobuf::Any prepared_result;
+  return PreparedStatement::ParseResponse(this, std::move(results));
+}
 
-  std::shared_ptr<Buffer> message = std::move(result->body);
-  if (!prepared_result.ParseFromArray(message->data(),
-                                      static_cast<int>(message->size()))) {
-    return Status::Invalid("Unable to parse packed ActionCreatePreparedStatementResult");
+arrow::Result<std::shared_ptr<PreparedStatement>> FlightSqlClient::PrepareSubstrait(
+    const FlightCallOptions& options, const SubstraitPlan& plan,
+    const Transaction& transaction) {
+  flight_sql_pb::ActionCreatePreparedSubstraitPlanRequest request;
+  SetPlan(plan, request.mutable_plan());
+  if (transaction.is_valid()) {
+    request.set_transaction_id(transaction.transaction_id());
   }
 
-  flight_sql_pb::ActionCreatePreparedStatementResult prepared_statement_result;
+  std::unique_ptr<ResultStream> results;
+  ARROW_ASSIGN_OR_RAISE(auto action, PackAction("CreatePreparedSubstraitPlan", request));
+  ARROW_RETURN_NOT_OK(DoAction(options, action, &results));
 
-  if (!prepared_result.UnpackTo(&prepared_statement_result)) {
-    return Status::Invalid("Unable to unpack ActionCreatePreparedStatementResult");
-  }
+  return PreparedStatement::ParseResponse(this, std::move(results));
+}
+
+arrow::Result<std::shared_ptr<PreparedStatement>> PreparedStatement::ParseResponse(
+    FlightSqlClient* client, std::unique_ptr<ResultStream> results) {
+  flight_sql_pb::ActionCreatePreparedStatementResult prepared_statement_result;
+  ARROW_RETURN_NOT_OK(ReadResult(results.get(), &prepared_statement_result));
 
   const std::string& serialized_dataset_schema =
       prepared_statement_result.dataset_schema();
@@ -318,70 +533,70 @@ arrow::Result<std::shared_ptr<PreparedStatement>> FlightSqlClient::Prepare(
   }
   auto handle = prepared_statement_result.prepared_statement_handle();
 
-  return std::make_shared<PreparedStatement>(this, handle, dataset_schema,
-                                             parameter_schema, options);
+  return std::make_shared<PreparedStatement>(client, handle, dataset_schema,
+                                             parameter_schema);
 }
 
-arrow::Result<std::unique_ptr<FlightInfo>> PreparedStatement::Execute() {
-  if (is_closed_) {
-    return Status::Invalid("Statement already closed.");
+arrow::Result<std::shared_ptr<Buffer>> BindParameters(FlightClient* client,
+                                                      const FlightCallOptions& options,
+                                                      const FlightDescriptor& descriptor,
+                                                      RecordBatchReader* params) {
+  ARROW_ASSIGN_OR_RAISE(auto stream,
+                        client->DoPut(options, descriptor, params->schema()));
+  while (true) {
+    ARROW_ASSIGN_OR_RAISE(auto batch, params->Next());
+    if (!batch) break;
+    ARROW_RETURN_NOT_OK(stream.writer->WriteRecordBatch(*batch));
   }
+  ARROW_RETURN_NOT_OK(stream.writer->DoneWriting());
+  std::shared_ptr<Buffer> metadata;
+  ARROW_RETURN_NOT_OK(stream.reader->ReadMetadata(&metadata));
+  ARROW_RETURN_NOT_OK(stream.writer->Close());
+  return metadata;
+}
 
-  flight_sql_pb::CommandPreparedStatementQuery execute_query_command;
-
-  execute_query_command.set_prepared_statement_handle(handle_);
-
-  google::protobuf::Any any;
-  any.PackFrom(execute_query_command);
-
-  const std::string& string = any.SerializeAsString();
-  const FlightDescriptor descriptor = FlightDescriptor::Command(string);
-
-  if (parameter_binding_ && parameter_binding_->num_rows() > 0) {
-    std::unique_ptr<FlightStreamWriter> writer;
-    std::unique_ptr<FlightMetadataReader> reader;
-    ARROW_RETURN_NOT_OK(client_->DoPut(options_, descriptor, parameter_binding_->schema(),
-                                       &writer, &reader));
-
-    ARROW_RETURN_NOT_OK(writer->WriteRecordBatch(*parameter_binding_));
-    ARROW_RETURN_NOT_OK(writer->DoneWriting());
-    // Wait for the server to ack the result
-    std::shared_ptr<Buffer> buffer;
-    ARROW_RETURN_NOT_OK(reader->ReadMetadata(&buffer));
+arrow::Result<std::unique_ptr<FlightInfo>> PreparedStatement::Execute(
+    const FlightCallOptions& options) {
+  if (is_closed_) {
+    return Status::Invalid("Statement with handle '", handle_, "' already closed");
   }
 
-  ARROW_ASSIGN_OR_RAISE(auto flight_info, client_->GetFlightInfo(options_, descriptor));
+  flight_sql_pb::CommandPreparedStatementQuery command;
+  command.set_prepared_statement_handle(handle_);
+  ARROW_ASSIGN_OR_RAISE(FlightDescriptor descriptor,
+                        GetFlightDescriptorForCommand(command));
+  if (parameter_binding_) {
+    ARROW_ASSIGN_OR_RAISE(auto metadata,
+                          BindParameters(client_->impl_.get(), options, descriptor,
+                                         parameter_binding_.get()));
+  }
+  ARROW_ASSIGN_OR_RAISE(auto flight_info, client_->GetFlightInfo(options, descriptor));
   return std::move(flight_info);
 }
 
-arrow::Result<int64_t> PreparedStatement::ExecuteUpdate() {
+arrow::Result<int64_t> PreparedStatement::ExecuteUpdate(
+    const FlightCallOptions& options) {
   if (is_closed_) {
-    return Status::Invalid("Statement already closed.");
+    return Status::Invalid("Statement with handle '", handle_, "' already closed");
   }
 
   flight_sql_pb::CommandPreparedStatementUpdate command;
   command.set_prepared_statement_handle(handle_);
-  const FlightDescriptor& descriptor = GetFlightDescriptorForCommand(command);
-  std::unique_ptr<FlightStreamWriter> writer;
-  std::unique_ptr<FlightMetadataReader> reader;
-
-  if (parameter_binding_ && parameter_binding_->num_rows() > 0) {
-    ARROW_RETURN_NOT_OK(client_->DoPut(options_, descriptor, parameter_binding_->schema(),
-                                       &writer, &reader));
-    ARROW_RETURN_NOT_OK(writer->WriteRecordBatch(*parameter_binding_));
+  ARROW_ASSIGN_OR_RAISE(FlightDescriptor descriptor,
+                        GetFlightDescriptorForCommand(command));
+  std::shared_ptr<Buffer> metadata;
+  if (parameter_binding_) {
+    ARROW_ASSIGN_OR_RAISE(metadata, BindParameters(client_->impl_.get(), options,
+                                                   descriptor, parameter_binding_.get()));
   } else {
     const std::shared_ptr<Schema> schema = arrow::schema({});
-    ARROW_RETURN_NOT_OK(client_->DoPut(options_, descriptor, schema, &writer, &reader));
-    const ArrayVector columns;
-    const auto& record_batch = arrow::RecordBatch::Make(schema, 0, columns);
-    ARROW_RETURN_NOT_OK(writer->WriteRecordBatch(*record_batch));
+    ARROW_ASSIGN_OR_RAISE(auto params, RecordBatchReader::Make({}, schema));
+    ARROW_ASSIGN_OR_RAISE(metadata, BindParameters(client_->impl_.get(), options,
+                                                   descriptor, params.get()));
+  }
+  if (!metadata) {
+    return Status::IOError("Server did not send a response to ", command.GetTypeName());
   }
-
-  ARROW_RETURN_NOT_OK(writer->DoneWriting());
-  std::shared_ptr<Buffer> metadata;
-  ARROW_RETURN_NOT_OK(reader->ReadMetadata(&metadata));
-  ARROW_RETURN_NOT_OK(writer->Close());
-
   flight_sql_pb::DoPutUpdateResult result;
   if (!result.ParseFromArray(metadata->data(), static_cast<int>(metadata->size()))) {
     return Status::Invalid("Unable to parse DoPutUpdateResult object.");
@@ -391,6 +606,13 @@ arrow::Result<int64_t> PreparedStatement::ExecuteUpdate() {
 }
 
 Status PreparedStatement::SetParameters(std::shared_ptr<RecordBatch> parameter_binding) {
+  ARROW_ASSIGN_OR_RAISE(parameter_binding_,
+                        RecordBatchReader::Make({std::move(parameter_binding)}));
+  return Status::OK();
+}
+
+Status PreparedStatement::SetParameters(
+    std::shared_ptr<RecordBatchReader> parameter_binding) {
   parameter_binding_ = std::move(parameter_binding);
 
   return Status::OK();
@@ -398,45 +620,206 @@ Status PreparedStatement::SetParameters(std::shared_ptr<RecordBatch> parameter_b
 
 bool PreparedStatement::IsClosed() const { return is_closed_; }
 
-std::shared_ptr<Schema> PreparedStatement::dataset_schema() const {
+const std::shared_ptr<Schema>& PreparedStatement::dataset_schema() const {
   return dataset_schema_;
 }
 
-std::shared_ptr<Schema> PreparedStatement::parameter_schema() const {
+const std::shared_ptr<Schema>& PreparedStatement::parameter_schema() const {
   return parameter_schema_;
 }
 
-Status PreparedStatement::Close() {
+arrow::Result<std::unique_ptr<SchemaResult>> PreparedStatement::GetSchema(
+    const FlightCallOptions& options) {
+  if (is_closed_) {
+    return Status::Invalid("Statement with handle '", handle_, "' already closed");
+  }
+
+  flight_sql_pb::CommandPreparedStatementQuery command;
+  command.set_prepared_statement_handle(handle_);
+  ARROW_ASSIGN_OR_RAISE(FlightDescriptor descriptor,
+                        GetFlightDescriptorForCommand(command));
+  return client_->GetSchema(options, descriptor);
+}
+
+Status PreparedStatement::Close(const FlightCallOptions& options) {
   if (is_closed_) {
-    return Status::Invalid("Statement already closed.");
+    return Status::Invalid("Statement with handle '", handle_, "' already closed");
   }
-  google::protobuf::Any command;
+
   flight_sql_pb::ActionClosePreparedStatementRequest request;
   request.set_prepared_statement_handle(handle_);
 
-  command.PackFrom(request);
+  std::unique_ptr<ResultStream> results;
+  ARROW_ASSIGN_OR_RAISE(auto action, PackAction("ClosePreparedStatement", request));
+  ARROW_RETURN_NOT_OK(client_->DoAction(options, action, &results));
+  ARROW_RETURN_NOT_OK(DrainResultStream(results.get()));
 
-  Action action;
-  action.type = "ClosePreparedStatement";
-  action.body = Buffer::FromString(command.SerializeAsString());
+  is_closed_ = true;
+  return Status::OK();
+}
+
+::arrow::Result<Transaction> FlightSqlClient::BeginTransaction(
+    const FlightCallOptions& options) {
+  flight_sql_pb::ActionBeginTransactionRequest request;
 
   std::unique_ptr<ResultStream> results;
+  ARROW_ASSIGN_OR_RAISE(auto action, PackAction("BeginTransaction", request));
+  ARROW_RETURN_NOT_OK(DoAction(options, action, &results));
 
-  ARROW_RETURN_NOT_OK(client_->DoAction(options_, action, &results));
+  flight_sql_pb::ActionBeginTransactionResult transaction;
+  ARROW_RETURN_NOT_OK(ReadResult(results.get(), &transaction));
+  if (transaction.transaction_id().empty()) {
+    return Status::Invalid("Server returned an empty transaction ID");
+  }
 
-  is_closed_ = true;
+  ARROW_RETURN_NOT_OK(DrainResultStream(results.get()));
+  return Transaction(transaction.transaction_id());
+}
+
+::arrow::Result<Savepoint> FlightSqlClient::BeginSavepoint(
+    const FlightCallOptions& options, const Transaction& transaction,
+    const std::string& name) {
+  flight_sql_pb::ActionBeginSavepointRequest request;
+
+  if (!transaction.is_valid()) {
+    return Status::Invalid("Must provide an active transaction");
+  }
+  request.set_transaction_id(transaction.transaction_id());
+  request.set_name(name);
+
+  std::unique_ptr<ResultStream> results;
+  ARROW_ASSIGN_OR_RAISE(auto action, PackAction("BeginSavepoint", request));
+  ARROW_RETURN_NOT_OK(DoAction(options, action, &results));
+
+  flight_sql_pb::ActionBeginSavepointResult savepoint;
+  ARROW_RETURN_NOT_OK(ReadResult(results.get(), &savepoint));
+  if (savepoint.savepoint_id().empty()) {
+    return Status::Invalid("Server returned an empty savepoint ID");
+  }
+
+  ARROW_RETURN_NOT_OK(DrainResultStream(results.get()));
+  return Savepoint(savepoint.savepoint_id());
+}
+
+Status FlightSqlClient::Commit(const FlightCallOptions& options,
+                               const Transaction& transaction) {
+  flight_sql_pb::ActionEndTransactionRequest request;
 
+  if (!transaction.is_valid()) {
+    return Status::Invalid("Must provide an active transaction");
+  }
+  request.set_transaction_id(transaction.transaction_id());
+  request.set_action(flight_sql_pb::ActionEndTransactionRequest::END_TRANSACTION_COMMIT);
+
+  std::unique_ptr<ResultStream> results;
+  ARROW_ASSIGN_OR_RAISE(auto action, PackAction("EndTransaction", request));
+  ARROW_RETURN_NOT_OK(DoAction(options, action, &results));
+
+  ARROW_RETURN_NOT_OK(DrainResultStream(results.get()));
   return Status::OK();
 }
 
-Status FlightSqlClient::Close() { return impl_->Close(); }
+Status FlightSqlClient::Release(const FlightCallOptions& options,
+                                const Savepoint& savepoint) {
+  flight_sql_pb::ActionEndSavepointRequest request;
 
-arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlClient::GetSqlInfo(
-    const FlightCallOptions& options, const std::vector<int>& sql_info) {
-  flight_sql_pb::CommandGetSqlInfo command;
-  for (const int& info : sql_info) command.add_info(info);
+  if (!savepoint.is_valid()) {
+    return Status::Invalid("Must provide an active savepoint");
+  }
+  request.set_savepoint_id(savepoint.savepoint_id());
+  request.set_action(flight_sql_pb::ActionEndSavepointRequest::END_SAVEPOINT_RELEASE);
+
+  std::unique_ptr<ResultStream> results;
+  ARROW_ASSIGN_OR_RAISE(auto action, PackAction("EndSavepoint", request));
+  ARROW_RETURN_NOT_OK(DoAction(options, action, &results));
+
+  ARROW_RETURN_NOT_OK(DrainResultStream(results.get()));
+  return Status::OK();
+}
+
+Status FlightSqlClient::Rollback(const FlightCallOptions& options,
+                                 const Transaction& transaction) {
+  flight_sql_pb::ActionEndTransactionRequest request;
+
+  if (!transaction.is_valid()) {
+    return Status::Invalid("Must provide an active transaction");
+  }
+  request.set_transaction_id(transaction.transaction_id());
+  request.set_action(
+      flight_sql_pb::ActionEndTransactionRequest::END_TRANSACTION_ROLLBACK);
+
+  std::unique_ptr<ResultStream> results;
+  ARROW_ASSIGN_OR_RAISE(auto action, PackAction("EndTransaction", request));
+  ARROW_RETURN_NOT_OK(DoAction(options, action, &results));
+
+  ARROW_RETURN_NOT_OK(DrainResultStream(results.get()));
+  return Status::OK();
+}
+
+Status FlightSqlClient::Rollback(const FlightCallOptions& options,
+                                 const Savepoint& savepoint) {
+  flight_sql_pb::ActionEndSavepointRequest request;
+
+  if (!savepoint.is_valid()) {
+    return Status::Invalid("Must provide an active savepoint");
+  }
+  request.set_savepoint_id(savepoint.savepoint_id());
+  request.set_action(flight_sql_pb::ActionEndSavepointRequest::END_SAVEPOINT_ROLLBACK);
+
+  std::unique_ptr<ResultStream> results;
+  ARROW_ASSIGN_OR_RAISE(auto action, PackAction("EndSavepoint", request));
+  ARROW_RETURN_NOT_OK(DoAction(options, action, &results));
+
+  ARROW_RETURN_NOT_OK(DrainResultStream(results.get()));
+  return Status::OK();
+}
+
+::arrow::Result<CancelResult> FlightSqlClient::CancelQuery(
+    const FlightCallOptions& options, const FlightInfo& info) {
+  flight_sql_pb::ActionCancelQueryRequest request;
+  ARROW_ASSIGN_OR_RAISE(auto serialized_info, info.SerializeToString());
+  request.set_info(std::move(serialized_info));
 
-  return GetFlightInfoForCommand(*this, options, command);
+  std::unique_ptr<ResultStream> results;
+  ARROW_ASSIGN_OR_RAISE(auto action, PackAction("CancelQuery", request));
+  ARROW_RETURN_NOT_OK(DoAction(options, action, &results));
+
+  flight_sql_pb::ActionCancelQueryResult result;
+  ARROW_RETURN_NOT_OK(ReadResult(results.get(), &result));
+  ARROW_RETURN_NOT_OK(DrainResultStream(results.get()));
+  switch (result.result()) {
+    case flight_sql_pb::ActionCancelQueryResult::CANCEL_RESULT_UNSPECIFIED:
+      return CancelResult::kUnspecified;
+    case flight_sql_pb::ActionCancelQueryResult::CANCEL_RESULT_CANCELLED:
+      return CancelResult::kCancelled;
+    case flight_sql_pb::ActionCancelQueryResult::CANCEL_RESULT_CANCELLING:
+      return CancelResult::kCancelling;
+    case flight_sql_pb::ActionCancelQueryResult::CANCEL_RESULT_NOT_CANCELLABLE:
+      return CancelResult::kNotCancellable;
+    default:
+      break;
+  }
+  return Status::IOError("Server returned unknown result ", result.result());
+}
+
+Status FlightSqlClient::Close() { return impl_->Close(); }
+
+std::ostream& operator<<(std::ostream& os, CancelResult result) {
+  switch (result) {
+    case CancelResult::kUnspecified:
+      os << "CancelResult::kUnspecified";
+      break;
+    case CancelResult::kCancelled:
+      os << "CancelResult::kCancelled";
+      break;
+    case CancelResult::kCancelling:
+      os << "CancelResult::kCancelling";
+      break;
+    case CancelResult::kNotCancellable:
+      os << "CancelResult::kNotCancellable";
+      break;
+  }
+  return os;
 }
 
 }  // namespace sql
diff --git a/cpp/src/arrow/flight/sql/client.h b/cpp/src/arrow/flight/sql/client.h
index 7c8cb640e8d..648f71563e9 100644
--- a/cpp/src/arrow/flight/sql/client.h
+++ b/cpp/src/arrow/flight/sql/client.h
@@ -17,6 +17,7 @@
 
 #pragma once
 
+#include <cstdint>
 #include <memory>
 #include <string>
 
@@ -32,6 +33,13 @@ namespace flight {
 namespace sql {
 
 class PreparedStatement;
+class Transaction;
+class Savepoint;
+
+/// \brief A default transaction to use when the default behavior
+///   (auto-commit) is desired.
+ARROW_FLIGHT_SQL_EXPORT
+const Transaction& no_transaction();
 
 /// \brief Flight client with Flight SQL semantics.
 ///
@@ -47,19 +55,51 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlClient {
 
   virtual ~FlightSqlClient() = default;
 
-  /// \brief Execute a query on the server.
+  /// \brief Execute a SQL query on the server.
   /// \param[in] options      RPC-layer hints for this call.
-  /// \param[in] query        The query to be executed in the UTF-8 format.
+  /// \param[in] query        The UTF8-encoded SQL query to be executed.
+  /// \param[in] transaction  A transaction to associate this query with.
   /// \return The FlightInfo describing where to access the dataset.
-  arrow::Result<std::unique_ptr<FlightInfo>> Execute(const FlightCallOptions& options,
-                                                     const std::string& query);
+  arrow::Result<std::unique_ptr<FlightInfo>> Execute(
+      const FlightCallOptions& options, const std::string& query,
+      const Transaction& transaction = no_transaction());
+
+  /// \brief Execute a Substrait plan that returns a result set on the server.
+  /// \param[in] options      RPC-layer hints for this call.
+  /// \param[in] plan         The plan to be executed.
+  /// \param[in] transaction  A transaction to associate this query with.
+  /// \return The FlightInfo describing where to access the dataset.
+  arrow::Result<std::unique_ptr<FlightInfo>> ExecuteSubstrait(
+      const FlightCallOptions& options, const SubstraitPlan& plan,
+      const Transaction& transaction = no_transaction());
+
+  /// \brief Get the result set schema from the server.
+  arrow::Result<std::unique_ptr<SchemaResult>> GetExecuteSchema(
+      const FlightCallOptions& options, const std::string& query,
+      const Transaction& transaction = no_transaction());
+
+  /// \brief Get the result set schema from the server.
+  arrow::Result<std::unique_ptr<SchemaResult>> GetExecuteSubstraitSchema(
+      const FlightCallOptions& options, const SubstraitPlan& plan,
+      const Transaction& transaction = no_transaction());
 
   /// \brief Execute an update query on the server.
   /// \param[in] options      RPC-layer hints for this call.
-  /// \param[in] query        The query to be executed in the UTF-8 format.
+  /// \param[in] query        The UTF8-encoded SQL query to be executed.
+  /// \param[in] transaction  A transaction to associate this query with.
   /// \return The quantity of rows affected by the operation.
   arrow::Result<int64_t> ExecuteUpdate(const FlightCallOptions& options,
-                                       const std::string& query);
+                                       const std::string& query,
+                                       const Transaction& transaction = no_transaction());
+
+  /// \brief Execute a Substrait plan that does not return a result set on the server.
+  /// \param[in] options      RPC-layer hints for this call.
+  /// \param[in] plan         The plan to be executed.
+  /// \param[in] transaction  A transaction to associate this query with.
+  /// \return The FlightInfo describing where to access the dataset.
+  arrow::Result<int64_t> ExecuteSubstraitUpdate(
+      const FlightCallOptions& options, const SubstraitPlan& plan,
+      const Transaction& transaction = no_transaction());
 
   /// \brief Request a list of catalogs.
   /// \param[in] options      RPC-layer hints for this call.
@@ -67,6 +107,11 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlClient {
   arrow::Result<std::unique_ptr<FlightInfo>> GetCatalogs(
       const FlightCallOptions& options);
 
+  /// \brief Get the catalogs schema from the server (should be
+  ///   identical to SqlSchema::GetCatalogsSchema).
+  arrow::Result<std::unique_ptr<SchemaResult>> GetCatalogsSchema(
+      const FlightCallOptions& options);
+
   /// \brief Request a list of database schemas.
   /// \param[in] options                   RPC-layer hints for this call.
   /// \param[in] catalog                   The catalog.
@@ -76,6 +121,11 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlClient {
       const FlightCallOptions& options, const std::string* catalog,
       const std::string* db_schema_filter_pattern);
 
+  /// \brief Get the database schemas schema from the server (should be
+  ///   identical to SqlSchema::GetDbSchemasSchema).
+  arrow::Result<std::unique_ptr<SchemaResult>> GetDbSchemasSchema(
+      const FlightCallOptions& options);
+
   /// \brief Given a flight ticket and schema, request to be sent the
   /// stream. Returns record batch stream reader
   /// \param[in] options Per-RPC options
@@ -99,6 +149,11 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlClient {
       const std::string* table_filter_pattern, bool include_schema,
       const std::vector<std::string>* table_types);
 
+  /// \brief Get the tables schema from the server (should be
+  ///   identical to SqlSchema::GetTablesSchema).
+  arrow::Result<std::unique_ptr<SchemaResult>> GetTablesSchema(
+      const FlightCallOptions& options, bool include_schema);
+
   /// \brief Request the primary keys for a table.
   /// \param[in] options          RPC-layer hints for this call.
   /// \param[in] table_ref        The table reference.
@@ -106,6 +161,11 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlClient {
   arrow::Result<std::unique_ptr<FlightInfo>> GetPrimaryKeys(
       const FlightCallOptions& options, const TableRef& table_ref);
 
+  /// \brief Get the primary keys schema from the server (should be
+  ///   identical to SqlSchema::GetPrimaryKeysSchema).
+  arrow::Result<std::unique_ptr<SchemaResult>> GetPrimaryKeysSchema(
+      const FlightCallOptions& options);
+
   /// \brief Retrieves a description about the foreign key columns that reference the
   /// primary key columns of the given table.
   /// \param[in] options          RPC-layer hints for this call.
@@ -114,6 +174,11 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlClient {
   arrow::Result<std::unique_ptr<FlightInfo>> GetExportedKeys(
       const FlightCallOptions& options, const TableRef& table_ref);
 
+  /// \brief Get the exported keys schema from the server (should be
+  ///   identical to SqlSchema::GetExportedKeysSchema).
+  arrow::Result<std::unique_ptr<SchemaResult>> GetExportedKeysSchema(
+      const FlightCallOptions& options);
+
   /// \brief Retrieves the foreign key columns for the given table.
   /// \param[in] options          RPC-layer hints for this call.
   /// \param[in] table_ref        The table reference.
@@ -121,6 +186,11 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlClient {
   arrow::Result<std::unique_ptr<FlightInfo>> GetImportedKeys(
       const FlightCallOptions& options, const TableRef& table_ref);
 
+  /// \brief Get the imported keys schema from the server (should be
+  ///   identical to SqlSchema::GetImportedKeysSchema).
+  arrow::Result<std::unique_ptr<SchemaResult>> GetImportedKeysSchema(
+      const FlightCallOptions& options);
+
   /// \brief Retrieves a description of the foreign key columns in the given foreign key
   ///        table that reference the primary key or the columns representing a unique
   ///        constraint of the parent table (could be the same or a different table).
@@ -132,12 +202,22 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlClient {
       const FlightCallOptions& options, const TableRef& pk_table_ref,
       const TableRef& fk_table_ref);
 
+  /// \brief Get the cross reference schema from the server (should be
+  ///   identical to SqlSchema::GetCrossReferenceSchema).
+  arrow::Result<std::unique_ptr<SchemaResult>> GetCrossReferenceSchema(
+      const FlightCallOptions& options);
+
   /// \brief Request a list of table types.
   /// \param[in] options          RPC-layer hints for this call.
   /// \return The FlightInfo describing where to access the dataset.
   arrow::Result<std::unique_ptr<FlightInfo>> GetTableTypes(
       const FlightCallOptions& options);
 
+  /// \brief Get the table types schema from the server (should be
+  ///   identical to SqlSchema::GetTableTypesSchema).
+  arrow::Result<std::unique_ptr<SchemaResult>> GetTableTypesSchema(
+      const FlightCallOptions& options);
+
   /// \brief Request the information about all the data types supported.
   /// \param[in] options          RPC-layer hints for this call.
   /// \return The FlightInfo describing where to access the dataset.
@@ -151,6 +231,11 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlClient {
   arrow::Result<std::unique_ptr<FlightInfo>> GetXdbcTypeInfo(
       const FlightCallOptions& options, int data_type);
 
+  /// \brief Get the type info schema from the server (should be
+  ///   identical to SqlSchema::GetXdbcTypeInfoSchema).
+  arrow::Result<std::unique_ptr<SchemaResult>> GetXdbcTypeInfoSchema(
+      const FlightCallOptions& options);
+
   /// \brief Request a list of SQL information.
   /// \param[in] options RPC-layer hints for this call.
   /// \param[in] sql_info the SQL info required.
@@ -158,24 +243,93 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlClient {
   arrow::Result<std::unique_ptr<FlightInfo>> GetSqlInfo(const FlightCallOptions& options,
                                                         const std::vector<int>& sql_info);
 
+  /// \brief Get the SQL information schema from the server (should be
+  ///   identical to SqlSchema::GetSqlInfoSchema).
+  arrow::Result<std::unique_ptr<SchemaResult>> GetSqlInfoSchema(
+      const FlightCallOptions& options);
+
   /// \brief Create a prepared statement object.
   /// \param[in] options              RPC-layer hints for this call.
   /// \param[in] query                The query that will be executed.
+  /// \param[in] transaction          A transaction to associate this query with.
   /// \return The created prepared statement.
   arrow::Result<std::shared_ptr<PreparedStatement>> Prepare(
-      const FlightCallOptions& options, const std::string& query);
+      const FlightCallOptions& options, const std::string& query,
+      const Transaction& transaction = no_transaction());
 
-  /// \brief Retrieve the FlightInfo.
-  /// \param[in] options      RPC-layer hints for this call.
-  /// \param[in] descriptor   The flight descriptor.
-  /// \return The flight info with the metadata.
-  // NOTE: This is public because it is been used by the anonymous
-  // function GetFlightInfoForCommand.
+  /// \brief Create a prepared statement object.
+  /// \param[in] options              RPC-layer hints for this call.
+  /// \param[in] plan                 The Substrait plan that will be executed.
+  /// \param[in] transaction          A transaction to associate this query with.
+  /// \return The created prepared statement.
+  arrow::Result<std::shared_ptr<PreparedStatement>> PrepareSubstrait(
+      const FlightCallOptions& options, const SubstraitPlan& plan,
+      const Transaction& transaction = no_transaction());
+
+  /// \brief Call the underlying Flight client's GetFlightInfo.
   virtual arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfo(
       const FlightCallOptions& options, const FlightDescriptor& descriptor) {
     return impl_->GetFlightInfo(options, descriptor);
   }
 
+  /// \brief Call the underlying Flight client's GetSchema.
+  virtual arrow::Result<std::unique_ptr<SchemaResult>> GetSchema(
+      const FlightCallOptions& options, const FlightDescriptor& descriptor) {
+    return impl_->GetSchema(options, descriptor);
+  }
+
+  /// \brief Begin a new transaction.
+  ::arrow::Result<Transaction> BeginTransaction(const FlightCallOptions& options);
+
+  /// \brief Create a new savepoint within a transaction.
+  /// \param[in] options      RPC-layer hints for this call.
+  /// \param[in] transaction  The parent transaction.
+  /// \param[in] name         A friendly name for the savepoint.
+  ::arrow::Result<Savepoint> BeginSavepoint(const FlightCallOptions& options,
+                                            const Transaction& transaction,
+                                            const std::string& name);
+
+  /// \brief Commit a transaction.
+  ///
+  /// After this, the transaction and all associated savepoints will
+  /// be invalidated.
+  ///
+  /// \param[in] options      RPC-layer hints for this call.
+  /// \param[in] transaction  The transaction.
+  Status Commit(const FlightCallOptions& options, const Transaction& transaction);
+
+  /// \brief Release a savepoint.
+  ///
+  /// After this, the savepoint (and all savepoints created after it) will be invalidated.
+  ///
+  /// \param[in] options      RPC-layer hints for this call.
+  /// \param[in] savepoint    The savepoint.
+  Status Release(const FlightCallOptions& options, const Savepoint& savepoint);
+
+  /// \brief Rollback a transaction.
+  ///
+  /// After this, the transaction and all associated savepoints will be invalidated.
+  ///
+  /// \param[in] options      RPC-layer hints for this call.
+  /// \param[in] transaction  The transaction.
+  Status Rollback(const FlightCallOptions& options, const Transaction& transaction);
+
+  /// \brief Rollback a savepoint.
+  ///
+  /// After this, the savepoint will still be valid, but all
+  /// savepoints created after it will be invalidated.
+  ///
+  /// \param[in] options      RPC-layer hints for this call.
+  /// \param[in] savepoint    The savepoint.
+  Status Rollback(const FlightCallOptions& options, const Savepoint& savepoint);
+
+  /// \brief Explicitly cancel a query.
+  ///
+  /// \param[in] options      RPC-layer hints for this call.
+  /// \param[in] info         The FlightInfo of the query to cancel.
+  ::arrow::Result<CancelResult> CancelQuery(const FlightCallOptions& options,
+                                            const FlightInfo& info);
+
   /// \brief Explicitly shut down and clean up the client.
   Status Close();
 
@@ -212,10 +366,9 @@ class ARROW_FLIGHT_SQL_EXPORT PreparedStatement {
   /// \param[in] handle                Handle for this prepared statement.
   /// \param[in] dataset_schema        Schema of the resulting dataset.
   /// \param[in] parameter_schema      Schema of the parameters (if any).
-  /// \param[in] options               RPC-layer hints for this call.
   PreparedStatement(FlightSqlClient* client, std::string handle,
                     std::shared_ptr<Schema> dataset_schema,
-                    std::shared_ptr<Schema> parameter_schema, FlightCallOptions options);
+                    std::shared_ptr<Schema> parameter_schema);
 
   /// \brief Default destructor for the PreparedStatement class.
   /// The destructor will call the Close method from the class in order,
@@ -224,31 +377,42 @@ class ARROW_FLIGHT_SQL_EXPORT PreparedStatement {
   /// errors can't be caught.
   ~PreparedStatement();
 
+  /// \brief Create a PreparedStatement by parsing the server response.
+  static arrow::Result<std::shared_ptr<PreparedStatement>> ParseResponse(
+      FlightSqlClient* client, std::unique_ptr<ResultStream> results);
+
   /// \brief Executes the prepared statement query on the server.
   /// \return A FlightInfo object representing the stream(s) to fetch.
-  arrow::Result<std::unique_ptr<FlightInfo>> Execute();
+  arrow::Result<std::unique_ptr<FlightInfo>> Execute(
+      const FlightCallOptions& options = {});
 
   /// \brief Executes the prepared statement update query on the server.
   /// \return The number of rows affected.
-  arrow::Result<int64_t> ExecuteUpdate();
+  arrow::Result<int64_t> ExecuteUpdate(const FlightCallOptions& options = {});
 
   /// \brief Retrieve the parameter schema from the query.
   /// \return The parameter schema from the query.
-  std::shared_ptr<Schema> parameter_schema() const;
+  const std::shared_ptr<Schema>& parameter_schema() const;
 
   /// \brief Retrieve the ResultSet schema from the query.
   /// \return The ResultSet schema from the query.
-  std::shared_ptr<Schema> dataset_schema() const;
+  const std::shared_ptr<Schema>& dataset_schema() const;
 
-  /// \brief Set a RecordBatch that contains the parameters that will be bind.
-  /// \param parameter_binding   The parameters that will be bind.
-  /// \return                     Status.
+  /// \brief Set a RecordBatch that contains the parameters that will be bound.
   Status SetParameters(std::shared_ptr<RecordBatch> parameter_binding);
 
-  /// \brief Close the prepared statement, so that this PreparedStatement can not used
-  /// anymore and server can free up any resources.
-  /// \return Status.
-  Status Close();
+  /// \brief Set a RecordBatchReader that contains the parameters that will be bound.
+  Status SetParameters(std::shared_ptr<RecordBatchReader> parameter_binding);
+
+  /// \brief Re-request the result set schema from the server (should
+  ///   be identical to dataset_schema).
+  arrow::Result<std::unique_ptr<SchemaResult>> GetSchema(
+      const FlightCallOptions& options = {});
+
+  /// \brief Close the prepared statement so the server can free up any resources.
+  ///
+  /// After this, the prepared statement may not be used anymore.
+  Status Close(const FlightCallOptions& options = {});
 
   /// \brief Check if the prepared statement is closed.
   /// \return The state of the prepared statement.
@@ -256,14 +420,36 @@ class ARROW_FLIGHT_SQL_EXPORT PreparedStatement {
 
  private:
   FlightSqlClient* client_;
-  FlightCallOptions options_;
   std::string handle_;
   std::shared_ptr<Schema> dataset_schema_;
   std::shared_ptr<Schema> parameter_schema_;
-  std::shared_ptr<RecordBatch> parameter_binding_;
+  std::shared_ptr<RecordBatchReader> parameter_binding_;
   bool is_closed_;
 };
 
+/// \brief A handle for a server-side savepoint.
+class ARROW_FLIGHT_SQL_EXPORT Savepoint {
+ public:
+  explicit Savepoint(std::string savepoint_id) : savepoint_id_(std::move(savepoint_id)) {}
+  const std::string& savepoint_id() const { return savepoint_id_; }
+  bool is_valid() const { return !savepoint_id_.empty(); }
+
+ private:
+  std::string savepoint_id_;
+};
+
+/// \brief A handle for a server-side transaction.
+class ARROW_FLIGHT_SQL_EXPORT Transaction {
+ public:
+  explicit Transaction(std::string transaction_id)
+      : transaction_id_(std::move(transaction_id)) {}
+  const std::string& transaction_id() const { return transaction_id_; }
+  bool is_valid() const { return !transaction_id_.empty(); }
+
+ private:
+  std::string transaction_id_;
+};
+
 }  // namespace sql
 }  // namespace flight
 }  // namespace arrow
diff --git a/cpp/src/arrow/flight/sql/client_test.cc b/cpp/src/arrow/flight/sql/client_test.cc
deleted file mode 100644
index b9eeda76b00..00000000000
--- a/cpp/src/arrow/flight/sql/client_test.cc
+++ /dev/null
@@ -1,529 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-// Platform-specific defines
-#include "arrow/flight/platform.h"
-
-#include "arrow/flight/client.h"
-
-#include <gmock/gmock.h>
-#include <google/protobuf/any.pb.h>
-#include <gtest/gtest.h>
-
-#include <utility>
-
-#include "arrow/buffer.h"
-#include "arrow/flight/sql/api.h"
-#include "arrow/flight/sql/protocol_internal.h"
-#include "arrow/testing/gtest_util.h"
-
-namespace pb = arrow::flight::protocol;
-using ::testing::_;
-using ::testing::Ref;
-
-namespace arrow {
-namespace flight {
-namespace sql {
-
-class FlightSqlClientMock : public FlightSqlClient {
- public:
-  FlightSqlClientMock() : FlightSqlClient(nullptr) {}
-
-  ~FlightSqlClientMock() = default;
-
-  MOCK_METHOD(arrow::Result<std::unique_ptr<FlightInfo>>, GetFlightInfo,
-              (const FlightCallOptions&, const FlightDescriptor&));
-  MOCK_METHOD(Status, DoGet,
-              (const FlightCallOptions& options, const Ticket& ticket,
-               std::unique_ptr<FlightStreamReader>* stream));
-  MOCK_METHOD(Status, DoPut,
-              (const FlightCallOptions&, const FlightDescriptor&,
-               const std::shared_ptr<Schema>& schema,
-               std::unique_ptr<FlightStreamWriter>*,
-               std::unique_ptr<FlightMetadataReader>*));
-  MOCK_METHOD(Status, DoAction,
-              (const FlightCallOptions& options, const Action& action,
-               std::unique_ptr<ResultStream>* results));
-};
-
-class TestFlightSqlClient : public ::testing::Test {
- protected:
-  FlightSqlClientMock sql_client_;
-  FlightCallOptions call_options_;
-
-  void SetUp() override {}
-
-  void TearDown() override {}
-};
-
-class FlightMetadataReaderMock : public FlightMetadataReader {
- public:
-  std::shared_ptr<Buffer>* buffer;
-
-  explicit FlightMetadataReaderMock(std::shared_ptr<Buffer>* buffer) {
-    this->buffer = buffer;
-  }
-
-  Status ReadMetadata(std::shared_ptr<Buffer>* out) override {
-    *out = *buffer;
-    return Status::OK();
-  }
-};
-
-class FlightStreamWriterMock : public FlightStreamWriter {
- public:
-  FlightStreamWriterMock() = default;
-
-  Status DoneWriting() override { return Status::OK(); }
-
-  Status WriteMetadata(std::shared_ptr<Buffer> app_metadata) override {
-    return Status::OK();
-  }
-
-  Status Begin(const std::shared_ptr<Schema>& schema,
-               const ipc::IpcWriteOptions& options) override {
-    return Status::OK();
-  }
-
-  Status Begin(const std::shared_ptr<Schema>& schema) override {
-    return MetadataRecordBatchWriter::Begin(schema);
-  }
-
-  ipc::WriteStats stats() const override { return ipc::WriteStats(); }
-
-  Status WriteWithMetadata(const RecordBatch& batch,
-                           std::shared_ptr<Buffer> app_metadata) override {
-    return Status::OK();
-  }
-
-  Status Close() override { return Status::OK(); }
-
-  Status WriteRecordBatch(const RecordBatch& batch) override { return Status::OK(); }
-};
-
-FlightDescriptor getDescriptor(google::protobuf::Message& command) {
-  google::protobuf::Any any;
-  any.PackFrom(command);
-
-  const std::string& string = any.SerializeAsString();
-  return FlightDescriptor::Command(string);
-}
-
-auto ReturnEmptyFlightInfo = [](const FlightCallOptions& options,
-                                const FlightDescriptor& descriptor) {
-  std::unique_ptr<FlightInfo> flight_info;
-  return flight_info;
-};
-
-TEST_F(TestFlightSqlClient, TestGetCatalogs) {
-  pb::sql::CommandGetCatalogs command;
-  FlightDescriptor descriptor = getDescriptor(command);
-
-  ON_CALL(sql_client_, GetFlightInfo).WillByDefault(ReturnEmptyFlightInfo);
-  EXPECT_CALL(sql_client_, GetFlightInfo(Ref(call_options_), descriptor));
-
-  ASSERT_OK(sql_client_.GetCatalogs(call_options_));
-}
-
-TEST_F(TestFlightSqlClient, TestGetDbSchemas) {
-  std::string schema_filter_pattern = "schema_filter_pattern";
-  std::string catalog = "catalog";
-
-  pb::sql::CommandGetDbSchemas command;
-  command.set_catalog(catalog);
-  command.set_db_schema_filter_pattern(schema_filter_pattern);
-  FlightDescriptor descriptor = getDescriptor(command);
-
-  ON_CALL(sql_client_, GetFlightInfo).WillByDefault(ReturnEmptyFlightInfo);
-  EXPECT_CALL(sql_client_, GetFlightInfo(Ref(call_options_), descriptor));
-
-  ASSERT_OK(sql_client_.GetDbSchemas(call_options_, &catalog, &schema_filter_pattern));
-}
-
-TEST_F(TestFlightSqlClient, TestGetTables) {
-  std::string catalog = "catalog";
-  std::string schema_filter_pattern = "schema_filter_pattern";
-  std::string table_name_filter_pattern = "table_name_filter_pattern";
-  bool include_schema = true;
-  std::vector<std::string> table_types = {"type1", "type2"};
-
-  pb::sql::CommandGetTables command;
-  command.set_catalog(catalog);
-  command.set_db_schema_filter_pattern(schema_filter_pattern);
-  command.set_table_name_filter_pattern(table_name_filter_pattern);
-  command.set_include_schema(include_schema);
-  for (const std::string& table_type : table_types) {
-    command.add_table_types(table_type);
-  }
-  FlightDescriptor descriptor = getDescriptor(command);
-
-  ON_CALL(sql_client_, GetFlightInfo).WillByDefault(ReturnEmptyFlightInfo);
-  EXPECT_CALL(sql_client_, GetFlightInfo(Ref(call_options_), descriptor));
-
-  ASSERT_OK(sql_client_.GetTables(call_options_, &catalog, &schema_filter_pattern,
-                                  &table_name_filter_pattern, include_schema,
-                                  &table_types));
-}
-
-TEST_F(TestFlightSqlClient, TestGetTableTypes) {
-  pb::sql::CommandGetTableTypes command;
-  FlightDescriptor descriptor = getDescriptor(command);
-
-  ON_CALL(sql_client_, GetFlightInfo).WillByDefault(ReturnEmptyFlightInfo);
-  EXPECT_CALL(sql_client_, GetFlightInfo(Ref(call_options_), descriptor));
-
-  ASSERT_OK(sql_client_.GetTableTypes(call_options_));
-}
-
-TEST_F(TestFlightSqlClient, TestGetTypeInfo) {
-  pb::sql::CommandGetXdbcTypeInfo command;
-  FlightDescriptor descriptor = getDescriptor(command);
-
-  ON_CALL(sql_client_, GetFlightInfo).WillByDefault(ReturnEmptyFlightInfo);
-  EXPECT_CALL(sql_client_, GetFlightInfo(Ref(call_options_), descriptor));
-
-  ASSERT_OK(sql_client_.GetXdbcTypeInfo(call_options_));
-}
-
-TEST_F(TestFlightSqlClient, TestGetExported) {
-  std::string catalog = "catalog";
-  std::string schema = "schema";
-  std::string table = "table";
-
-  pb::sql::CommandGetExportedKeys command;
-  command.set_catalog(catalog);
-  command.set_db_schema(schema);
-  command.set_table(table);
-  FlightDescriptor descriptor = getDescriptor(command);
-
-  ON_CALL(sql_client_, GetFlightInfo).WillByDefault(ReturnEmptyFlightInfo);
-  EXPECT_CALL(sql_client_, GetFlightInfo(Ref(call_options_), descriptor));
-
-  TableRef table_ref = {util::make_optional(catalog), util::make_optional(schema), table};
-  ASSERT_OK(sql_client_.GetExportedKeys(call_options_, table_ref));
-}
-
-TEST_F(TestFlightSqlClient, TestGetImported) {
-  std::string catalog = "catalog";
-  std::string schema = "schema";
-  std::string table = "table";
-
-  pb::sql::CommandGetImportedKeys command;
-  command.set_catalog(catalog);
-  command.set_db_schema(schema);
-  command.set_table(table);
-  FlightDescriptor descriptor = getDescriptor(command);
-
-  ON_CALL(sql_client_, GetFlightInfo).WillByDefault(ReturnEmptyFlightInfo);
-  EXPECT_CALL(sql_client_, GetFlightInfo(Ref(call_options_), descriptor));
-
-  TableRef table_ref = {util::make_optional(catalog), util::make_optional(schema), table};
-  ASSERT_OK(sql_client_.GetImportedKeys(call_options_, table_ref));
-}
-
-TEST_F(TestFlightSqlClient, TestGetPrimary) {
-  std::string catalog = "catalog";
-  std::string schema = "schema";
-  std::string table = "table";
-
-  pb::sql::CommandGetPrimaryKeys command;
-  command.set_catalog(catalog);
-  command.set_db_schema(schema);
-  command.set_table(table);
-  FlightDescriptor descriptor = getDescriptor(command);
-
-  ON_CALL(sql_client_, GetFlightInfo).WillByDefault(ReturnEmptyFlightInfo);
-  EXPECT_CALL(sql_client_, GetFlightInfo(Ref(call_options_), descriptor));
-
-  TableRef table_ref = {util::make_optional(catalog), util::make_optional(schema), table};
-  ASSERT_OK(sql_client_.GetPrimaryKeys(call_options_, table_ref));
-}
-
-TEST_F(TestFlightSqlClient, TestGetCrossReference) {
-  std::string pk_catalog = "pk_catalog";
-  std::string pk_schema = "pk_schema";
-  std::string pk_table = "pk_table";
-  std::string fk_catalog = "fk_catalog";
-  std::string fk_schema = "fk_schema";
-  std::string fk_table = "fk_table";
-
-  pb::sql::CommandGetCrossReference command;
-  command.set_pk_catalog(pk_catalog);
-  command.set_pk_db_schema(pk_schema);
-  command.set_pk_table(pk_table);
-  command.set_fk_catalog(fk_catalog);
-  command.set_fk_db_schema(fk_schema);
-  command.set_fk_table(fk_table);
-  FlightDescriptor descriptor = getDescriptor(command);
-
-  ON_CALL(sql_client_, GetFlightInfo).WillByDefault(ReturnEmptyFlightInfo);
-  EXPECT_CALL(sql_client_, GetFlightInfo(Ref(call_options_), descriptor));
-
-  TableRef pk_table_ref = {util::make_optional(pk_catalog),
-                           util::make_optional(pk_schema), pk_table};
-  TableRef fk_table_ref = {util::make_optional(fk_catalog),
-                           util::make_optional(fk_schema), fk_table};
-  ASSERT_OK(sql_client_.GetCrossReference(call_options_, pk_table_ref, fk_table_ref));
-}
-
-TEST_F(TestFlightSqlClient, TestExecute) {
-  std::string query = "query";
-
-  pb::sql::CommandStatementQuery command;
-  command.set_query(query);
-  FlightDescriptor descriptor = getDescriptor(command);
-
-  ON_CALL(sql_client_, GetFlightInfo).WillByDefault(ReturnEmptyFlightInfo);
-  EXPECT_CALL(sql_client_, GetFlightInfo(Ref(call_options_), descriptor));
-
-  ASSERT_OK(sql_client_.Execute(call_options_, query));
-}
-
-TEST_F(TestFlightSqlClient, TestPreparedStatementExecute) {
-  const std::string query = "query";
-
-  ON_CALL(sql_client_, DoAction)
-      .WillByDefault([](const FlightCallOptions& options, const Action& action,
-                        std::unique_ptr<ResultStream>* results) {
-        google::protobuf::Any command;
-
-        pb::sql::ActionCreatePreparedStatementResult prepared_statement_result;
-
-        prepared_statement_result.set_prepared_statement_handle("query");
-
-        command.PackFrom(prepared_statement_result);
-
-        *results = std::unique_ptr<ResultStream>(new SimpleResultStream(
-            {Result{Buffer::FromString(command.SerializeAsString())}}));
-
-        return Status::OK();
-      });
-
-  EXPECT_CALL(sql_client_, DoAction(_, _, _)).Times(2);
-
-  ASSERT_OK_AND_ASSIGN(auto prepared_statement,
-                       sql_client_.Prepare(call_options_, query));
-
-  ON_CALL(sql_client_, GetFlightInfo).WillByDefault(ReturnEmptyFlightInfo);
-  EXPECT_CALL(sql_client_, GetFlightInfo(_, _));
-
-  ASSERT_OK(prepared_statement->Execute());
-}
-
-TEST_F(TestFlightSqlClient, TestPreparedStatementExecuteParameterBinding) {
-  const std::string query = "query";
-
-  ON_CALL(sql_client_, DoAction)
-      .WillByDefault([](const FlightCallOptions& options, const Action& action,
-                        std::unique_ptr<ResultStream>* results) {
-        google::protobuf::Any command;
-
-        pb::sql::ActionCreatePreparedStatementResult prepared_statement_result;
-
-        prepared_statement_result.set_prepared_statement_handle("query");
-
-        auto schema = arrow::schema({arrow::field("id", int64())});
-
-        std::shared_ptr<Buffer> schema_buffer;
-        const arrow::Result<std::shared_ptr<Buffer>>& result =
-            arrow::ipc::SerializeSchema(*schema);
-
-        ARROW_ASSIGN_OR_RAISE(schema_buffer, result);
-
-        prepared_statement_result.set_parameter_schema(schema_buffer->ToString());
-
-        command.PackFrom(prepared_statement_result);
-
-        *results = std::unique_ptr<ResultStream>(new SimpleResultStream(
-            {Result{Buffer::FromString(command.SerializeAsString())}}));
-
-        return Status::OK();
-      });
-
-  std::shared_ptr<Buffer> buffer_ptr;
-  ON_CALL(sql_client_, DoPut)
-      .WillByDefault([&buffer_ptr](const FlightCallOptions& options,
-                                   const FlightDescriptor& descriptor1,
-                                   const std::shared_ptr<Schema>& schema,
-                                   std::unique_ptr<FlightStreamWriter>* writer,
-                                   std::unique_ptr<FlightMetadataReader>* reader) {
-        writer->reset(new FlightStreamWriterMock());
-        reader->reset(new FlightMetadataReaderMock(&buffer_ptr));
-
-        return Status::OK();
-      });
-
-  EXPECT_CALL(sql_client_, DoAction(_, _, _)).Times(2);
-  EXPECT_CALL(sql_client_, DoPut(_, _, _, _, _));
-
-  ASSERT_OK_AND_ASSIGN(auto prepared_statement,
-                       sql_client_.Prepare(call_options_, query));
-
-  auto parameter_schema = prepared_statement->parameter_schema();
-
-  auto result = RecordBatchFromJSON(parameter_schema, "[[1]]");
-  ASSERT_OK(prepared_statement->SetParameters(result));
-
-  ON_CALL(sql_client_, GetFlightInfo).WillByDefault(ReturnEmptyFlightInfo);
-  EXPECT_CALL(sql_client_, GetFlightInfo(_, _));
-
-  ASSERT_OK(prepared_statement->Execute());
-}
-
-TEST_F(TestFlightSqlClient, TestExecuteUpdate) {
-  std::string query = "query";
-
-  pb::sql::CommandStatementUpdate command;
-
-  command.set_query(query);
-
-  google::protobuf::Any any;
-  any.PackFrom(command);
-
-  const FlightDescriptor& descriptor = FlightDescriptor::Command(any.SerializeAsString());
-
-  pb::sql::DoPutUpdateResult doPutUpdateResult;
-  doPutUpdateResult.set_record_count(100);
-  const std::string& string = doPutUpdateResult.SerializeAsString();
-
-  auto buffer_ptr = std::make_shared<Buffer>(
-      reinterpret_cast<const uint8_t*>(string.data()), doPutUpdateResult.ByteSizeLong());
-
-  ON_CALL(sql_client_, DoPut)
-      .WillByDefault([&buffer_ptr](const FlightCallOptions& options,
-                                   const FlightDescriptor& descriptor1,
-                                   const std::shared_ptr<Schema>& schema,
-                                   std::unique_ptr<FlightStreamWriter>* writer,
-                                   std::unique_ptr<FlightMetadataReader>* reader) {
-        reader->reset(new FlightMetadataReaderMock(&buffer_ptr));
-
-        return Status::OK();
-      });
-
-  std::unique_ptr<FlightInfo> flight_info;
-  std::unique_ptr<FlightStreamWriter> writer;
-  std::unique_ptr<FlightMetadataReader> reader;
-  EXPECT_CALL(sql_client_, DoPut(Ref(call_options_), descriptor, _, _, _));
-
-  ASSERT_OK_AND_ASSIGN(auto num_rows, sql_client_.ExecuteUpdate(call_options_, query));
-
-  ASSERT_EQ(num_rows, 100);
-}
-
-TEST_F(TestFlightSqlClient, TestGetSqlInfo) {
-  std::vector<int> sql_info{pb::sql::SqlInfo::FLIGHT_SQL_SERVER_NAME,
-                            pb::sql::SqlInfo::FLIGHT_SQL_SERVER_VERSION,
-                            pb::sql::SqlInfo::FLIGHT_SQL_SERVER_ARROW_VERSION};
-  pb::sql::CommandGetSqlInfo command;
-
-  for (const auto& info : sql_info) command.add_info(info);
-  google::protobuf::Any any;
-  any.PackFrom(command);
-  const FlightDescriptor& descriptor = FlightDescriptor::Command(any.SerializeAsString());
-
-  ON_CALL(sql_client_, GetFlightInfo).WillByDefault(ReturnEmptyFlightInfo);
-  EXPECT_CALL(sql_client_, GetFlightInfo(Ref(call_options_), descriptor));
-
-  ASSERT_OK(sql_client_.GetSqlInfo(call_options_, sql_info));
-}
-
-template <class Func>
-inline void AssertTestPreparedStatementExecuteUpdateOk(
-    Func func, const std::shared_ptr<Schema>* schema, FlightSqlClientMock& sql_client_) {
-  const std::string query = "SELECT * FROM IRRELEVANT";
-  int64_t expected_rows = 100L;
-  pb::sql::DoPutUpdateResult result;
-  result.set_record_count(expected_rows);
-
-  ON_CALL(sql_client_, DoAction)
-      .WillByDefault([&query, &schema](const FlightCallOptions& options,
-                                       const Action& action,
-                                       std::unique_ptr<ResultStream>* results) {
-        google::protobuf::Any command;
-        pb::sql::ActionCreatePreparedStatementResult prepared_statement_result;
-
-        prepared_statement_result.set_prepared_statement_handle(query);
-
-        if (schema != NULLPTR) {
-          std::shared_ptr<Buffer> schema_buffer;
-          const arrow::Result<std::shared_ptr<Buffer>>& result =
-              arrow::ipc::SerializeSchema(**schema);
-
-          ARROW_ASSIGN_OR_RAISE(schema_buffer, result);
-          prepared_statement_result.set_parameter_schema(schema_buffer->ToString());
-        }
-
-        command.PackFrom(prepared_statement_result);
-        *results = std::unique_ptr<ResultStream>(new SimpleResultStream(
-            {Result{Buffer::FromString(command.SerializeAsString())}}));
-
-        return Status::OK();
-      });
-  EXPECT_CALL(sql_client_, DoAction(_, _, _)).Times(2);
-
-  auto buffer = Buffer::FromString(result.SerializeAsString());
-  ON_CALL(sql_client_, DoPut)
-      .WillByDefault([&buffer](const FlightCallOptions& options,
-                               const FlightDescriptor& descriptor1,
-                               const std::shared_ptr<Schema>& schema,
-                               std::unique_ptr<FlightStreamWriter>* writer,
-                               std::unique_ptr<FlightMetadataReader>* reader) {
-        reader->reset(new FlightMetadataReaderMock(&buffer));
-        writer->reset(new FlightStreamWriterMock());
-        return Status::OK();
-      });
-  if (schema == NULLPTR) {
-    EXPECT_CALL(sql_client_, DoPut(_, _, _, _, _));
-  } else {
-    EXPECT_CALL(sql_client_, DoPut(_, _, *schema, _, _));
-  }
-
-  ASSERT_OK_AND_ASSIGN(auto prepared_statement, sql_client_.Prepare({}, query));
-  func(prepared_statement, sql_client_, schema, expected_rows);
-  ASSERT_OK_AND_ASSIGN(auto rows, prepared_statement->ExecuteUpdate());
-  ASSERT_EQ(expected_rows, rows);
-  ASSERT_OK(prepared_statement->Close());
-}
-
-TEST_F(TestFlightSqlClient, TestPreparedStatementExecuteUpdateNoParameterBinding) {
-  AssertTestPreparedStatementExecuteUpdateOk(
-      [](const std::shared_ptr<PreparedStatement>& prepared_statement,
-         FlightSqlClient& sql_client_, const std::shared_ptr<Schema>* schema,
-         const int64_t& row_count) {},
-      NULLPTR, sql_client_);
-}
-
-TEST_F(TestFlightSqlClient, TestPreparedStatementExecuteUpdateWithParameterBinding) {
-  const auto schema = arrow::schema(
-      {arrow::field("field0", arrow::utf8()), arrow::field("field1", arrow::uint8())});
-  AssertTestPreparedStatementExecuteUpdateOk(
-      [](const std::shared_ptr<PreparedStatement>& prepared_statement,
-         FlightSqlClient& sql_client_, const std::shared_ptr<Schema>* schema,
-         const int64_t& row_count) {
-        auto string_array =
-            ArrayFromJSON(utf8(), R"(["Lorem", "Ipsum", "Foo", "Bar", "Baz"])");
-        auto uint8_array = ArrayFromJSON(uint8(), R"([0, 10, 15, 20, 25])");
-        std::shared_ptr<RecordBatch> recordBatch =
-            RecordBatch::Make(*schema, row_count, {string_array, uint8_array});
-        ASSERT_OK(prepared_statement->SetParameters(recordBatch));
-      },
-      &schema, sql_client_);
-}
-
-}  // namespace sql
-}  // namespace flight
-}  // namespace arrow
diff --git a/cpp/src/arrow/flight/sql/column_metadata.cc b/cpp/src/arrow/flight/sql/column_metadata.cc
index 30ef240105c..c855e2f09af 100644
--- a/cpp/src/arrow/flight/sql/column_metadata.cc
+++ b/cpp/src/arrow/flight/sql/column_metadata.cc
@@ -19,10 +19,16 @@
 
 #include <utility>
 
+#include "arrow/util/string.h"
+
 namespace arrow {
+
+using internal::ToChars;
+
 namespace flight {
 namespace sql {
 namespace {
+
 /// \brief Constant variable used to convert boolean true value
 ///        to a string.
 const char* BOOLEAN_TRUE_STR = "1";
@@ -118,38 +124,38 @@ const std::shared_ptr<const arrow::KeyValueMetadata>& ColumnMetadata::metadata_m
 }
 
 ColumnMetadata::ColumnMetadataBuilder& ColumnMetadata::ColumnMetadataBuilder::CatalogName(
-    std::string& catalog_name) {
+    const std::string& catalog_name) {
   metadata_map_->Append(ColumnMetadata::kCatalogName, catalog_name);
   return *this;
 }
 
 ColumnMetadata::ColumnMetadataBuilder& ColumnMetadata::ColumnMetadataBuilder::SchemaName(
-    std::string& schema_name) {
+    const std::string& schema_name) {
   metadata_map_->Append(ColumnMetadata::kSchemaName, schema_name);
   return *this;
 }
 
 ColumnMetadata::ColumnMetadataBuilder& ColumnMetadata::ColumnMetadataBuilder::TableName(
-    std::string& table_name) {
+    const std::string& table_name) {
   metadata_map_->Append(ColumnMetadata::kTableName, table_name);
   return *this;
 }
 
 ColumnMetadata::ColumnMetadataBuilder& ColumnMetadata::ColumnMetadataBuilder::TypeName(
-    std::string& type_name) {
+    const std::string& type_name) {
   metadata_map_->Append(ColumnMetadata::kTypeName, type_name);
   return *this;
 }
 
 ColumnMetadata::ColumnMetadataBuilder& ColumnMetadata::ColumnMetadataBuilder::Precision(
     int32_t precision) {
-  metadata_map_->Append(ColumnMetadata::kPrecision, std::to_string(precision));
+  metadata_map_->Append(ColumnMetadata::kPrecision, ToChars(precision));
   return *this;
 }
 
 ColumnMetadata::ColumnMetadataBuilder& ColumnMetadata::ColumnMetadataBuilder::Scale(
     int32_t scale) {
-  metadata_map_->Append(ColumnMetadata::kScale, std::to_string(scale));
+  metadata_map_->Append(ColumnMetadata::kScale, ToChars(scale));
   return *this;
 }
 
diff --git a/cpp/src/arrow/flight/sql/column_metadata.h b/cpp/src/arrow/flight/sql/column_metadata.h
index 15b139ec580..0eb53f3e0bb 100644
--- a/cpp/src/arrow/flight/sql/column_metadata.h
+++ b/cpp/src/arrow/flight/sql/column_metadata.h
@@ -122,22 +122,22 @@ class ARROW_FLIGHT_SQL_EXPORT ColumnMetadata {
     /// \brief Set the catalog name in the KeyValueMetadata object.
     /// \param[in] catalog_name The catalog name.
     /// \return                 A ColumnMetadataBuilder.
-    ColumnMetadataBuilder& CatalogName(std::string& catalog_name);
+    ColumnMetadataBuilder& CatalogName(const std::string& catalog_name);
 
     /// \brief Set the schema_name in the KeyValueMetadata object.
     /// \param[in] schema_name  The schema_name.
     /// \return                 A ColumnMetadataBuilder.
-    ColumnMetadataBuilder& SchemaName(std::string& schema_name);
+    ColumnMetadataBuilder& SchemaName(const std::string& schema_name);
 
     /// \brief Set the table name in the KeyValueMetadata object.
     /// \param[in] table_name   The table name.
     /// \return                 A ColumnMetadataBuilder.
-    ColumnMetadataBuilder& TableName(std::string& table_name);
+    ColumnMetadataBuilder& TableName(const std::string& table_name);
 
     /// \brief Set the type name in the KeyValueMetadata object.
     /// \param[in] type_name    The type name.
     /// \return                 A ColumnMetadataBuilder.
-    ColumnMetadataBuilder& TypeName(std::string& type_name);
+    ColumnMetadataBuilder& TypeName(const std::string& type_name);
 
     /// \brief Set the precision in the KeyValueMetadata object.
     /// \param[in] precision    The precision.
diff --git a/cpp/src/arrow/flight/sql/example/acero_main.cc b/cpp/src/arrow/flight/sql/example/acero_main.cc
new file mode 100644
index 00000000000..111bebcbf0f
--- /dev/null
+++ b/cpp/src/arrow/flight/sql/example/acero_main.cc
@@ -0,0 +1,70 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+// Example Flight SQL server backed by Acero.
+
+#include <signal.h>
+
+#include <cstdlib>
+#include <iostream>
+#include <memory>
+#include <string>
+
+#include <gflags/gflags.h>
+
+#include "arrow/flight/sql/example/acero_server.h"
+#include "arrow/status.h"
+#include "arrow/util/logging.h"
+
+namespace flight = arrow::flight;
+namespace sql = arrow::flight::sql;
+
+DEFINE_string(location, "grpc://localhost:12345", "Location to listen on");
+
+arrow::Status RunMain(const std::string& location_str) {
+  ARROW_ASSIGN_OR_RAISE(flight::Location location, flight::Location::Parse(location_str));
+  flight::FlightServerOptions options(location);
+
+  std::unique_ptr<flight::FlightServerBase> server;
+  ARROW_ASSIGN_OR_RAISE(server, sql::acero_example::MakeAceroServer());
+  ARROW_RETURN_NOT_OK(server->Init(options));
+
+  ARROW_RETURN_NOT_OK(server->SetShutdownOnSignals({SIGTERM}));
+
+  ARROW_LOG(INFO) << "Listening on " << location.ToString();
+
+  ARROW_RETURN_NOT_OK(server->Serve());
+  return arrow::Status::OK();
+}
+
+int main(int argc, char** argv) {
+  gflags::ParseCommandLineFlags(&argc, &argv, true);
+
+  arrow::util::ArrowLog::StartArrowLog("acero-flight-sql-server",
+                                       arrow::util::ArrowLogLevel::ARROW_INFO);
+  arrow::util::ArrowLog::InstallFailureSignalHandler();
+
+  arrow::Status st = RunMain(FLAGS_location);
+
+  arrow::util::ArrowLog::ShutDownArrowLog();
+
+  if (!st.ok()) {
+    std::cerr << st << std::endl;
+    return EXIT_FAILURE;
+  }
+  return EXIT_SUCCESS;
+}
diff --git a/cpp/src/arrow/flight/sql/example/acero_server.cc b/cpp/src/arrow/flight/sql/example/acero_server.cc
new file mode 100644
index 00000000000..c66510c7c25
--- /dev/null
+++ b/cpp/src/arrow/flight/sql/example/acero_server.cc
@@ -0,0 +1,308 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "arrow/flight/sql/example/acero_server.h"
+
+#include <condition_variable>
+#include <deque>
+#include <mutex>
+#include <unordered_map>
+
+#include "arrow/compute/exec/exec_plan.h"
+#include "arrow/compute/exec/options.h"
+#include "arrow/engine/substrait/serde.h"
+#include "arrow/flight/sql/types.h"
+#include "arrow/type.h"
+#include "arrow/util/logging.h"
+
+namespace arrow {
+namespace flight {
+namespace sql {
+namespace acero_example {
+
+namespace {
+/// \brief A SinkNodeConsumer that saves the schema as given to it by
+///   the ExecPlan. Used to retrieve the schema of a Substrait plan to
+///   fulfill the Flight SQL API contract.
+class GetSchemaSinkNodeConsumer : public compute::SinkNodeConsumer {
+ public:
+  Status Init(const std::shared_ptr<Schema>& schema, compute::BackpressureControl*,
+              compute::ExecPlan* plan) override {
+    schema_ = schema;
+    return Status::OK();
+  }
+  Status Consume(compute::ExecBatch exec_batch) override { return Status::OK(); }
+  Future<> Finish() override { return Status::OK(); }
+
+  const std::shared_ptr<Schema>& schema() const { return schema_; }
+
+ private:
+  std::shared_ptr<Schema> schema_;
+};
+
+/// \brief A SinkNodeConsumer that internally saves batches into a
+///   queue, so that it can be read from a RecordBatchReader. In other
+///   words, this bridges a push-based interface (ExecPlan) to a
+///   pull-based interface (RecordBatchReader).
+class QueuingSinkNodeConsumer : public compute::SinkNodeConsumer {
+ public:
+  QueuingSinkNodeConsumer() : schema_(nullptr), finished_(false) {}
+
+  Status Init(const std::shared_ptr<Schema>& schema, compute::BackpressureControl*,
+              compute::ExecPlan* plan) override {
+    schema_ = schema;
+    return Status::OK();
+  }
+
+  Status Consume(compute::ExecBatch exec_batch) override {
+    {
+      std::lock_guard<std::mutex> guard(mutex_);
+      batches_.push_back(std::move(exec_batch));
+      batches_added_.notify_all();
+    }
+
+    return Status::OK();
+  }
+
+  Future<> Finish() override {
+    {
+      std::lock_guard<std::mutex> guard(mutex_);
+      finished_ = true;
+      batches_added_.notify_all();
+    }
+
+    return Status::OK();
+  }
+
+  const std::shared_ptr<Schema>& schema() const { return schema_; }
+
+  arrow::Result<std::shared_ptr<RecordBatch>> Next() {
+    compute::ExecBatch batch;
+    {
+      std::unique_lock<std::mutex> guard(mutex_);
+      batches_added_.wait(guard, [this] { return !batches_.empty() || finished_; });
+
+      if (finished_ && batches_.empty()) {
+        return nullptr;
+      }
+      batch = std::move(batches_.front());
+      batches_.pop_front();
+    }
+
+    return batch.ToRecordBatch(schema_);
+  }
+
+ private:
+  std::mutex mutex_;
+  std::condition_variable batches_added_;
+  std::deque<compute::ExecBatch> batches_;
+  std::shared_ptr<Schema> schema_;
+  bool finished_;
+};
+
+/// \brief A RecordBatchReader that pulls from the
+///   QueuingSinkNodeConsumer above, blocking until results are
+///   available as necessary.
+class ConsumerBasedRecordBatchReader : public RecordBatchReader {
+ public:
+  explicit ConsumerBasedRecordBatchReader(
+      std::shared_ptr<compute::ExecPlan> plan,
+      std::shared_ptr<QueuingSinkNodeConsumer> consumer)
+      : plan_(std::move(plan)), consumer_(std::move(consumer)) {}
+
+  std::shared_ptr<Schema> schema() const override { return consumer_->schema(); }
+
+  Status ReadNext(std::shared_ptr<RecordBatch>* batch) override {
+    return consumer_->Next().Value(batch);
+  }
+
+  // TODO(ARROW-17242): FlightDataStream needs to call Close()
+  Status Close() override { return plan_->finished().status(); }
+
+ private:
+  std::shared_ptr<compute::ExecPlan> plan_;
+  std::shared_ptr<QueuingSinkNodeConsumer> consumer_;
+};
+
+/// \brief An implementation of a Flight SQL service backed by Acero.
+class AceroFlightSqlServer : public FlightSqlServerBase {
+ public:
+  AceroFlightSqlServer() {
+    RegisterSqlInfo(SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_SUBSTRAIT,
+                    SqlInfoResult(true));
+    RegisterSqlInfo(SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION,
+                    SqlInfoResult(std::string("0.6.0")));
+    RegisterSqlInfo(SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION,
+                    SqlInfoResult(std::string("0.6.0")));
+    RegisterSqlInfo(
+        SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_TRANSACTION,
+        SqlInfoResult(
+            SqlInfoOptions::SqlSupportedTransaction::SQL_SUPPORTED_TRANSACTION_NONE));
+    RegisterSqlInfo(SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_CANCEL,
+                    SqlInfoResult(false));
+  }
+
+  arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoSubstraitPlan(
+      const ServerCallContext& context, const StatementSubstraitPlan& command,
+      const FlightDescriptor& descriptor) override {
+    if (!command.transaction_id.empty()) {
+      return Status::NotImplemented("Transactions are unsupported");
+    }
+
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::Schema> output_schema,
+                          GetPlanSchema(command.plan.plan));
+
+    ARROW_LOG(INFO) << "GetFlightInfoSubstraitPlan: preparing plan with output schema "
+                    << *output_schema;
+
+    return MakeFlightInfo(command.plan.plan, descriptor, *output_schema);
+  }
+
+  arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoPreparedStatement(
+      const ServerCallContext& context, const PreparedStatementQuery& command,
+      const FlightDescriptor& descriptor) override {
+    std::shared_ptr<arrow::Buffer> plan;
+    {
+      std::lock_guard<std::mutex> guard(mutex_);
+      auto it = prepared_.find(command.prepared_statement_handle);
+      if (it == prepared_.end()) {
+        return Status::KeyError("Prepared statement not found");
+      }
+      plan = it->second;
+    }
+
+    return MakeFlightInfo(plan->ToString(), descriptor, Schema({}));
+  }
+
+  arrow::Result<std::unique_ptr<FlightDataStream>> DoGetStatement(
+      const ServerCallContext& context, const StatementQueryTicket& command) override {
+    // GetFlightInfoSubstraitPlan encodes the plan into the ticket
+    std::shared_ptr<Buffer> serialized_plan =
+        Buffer::FromString(command.statement_handle);
+    std::shared_ptr<QueuingSinkNodeConsumer> consumer =
+        std::make_shared<QueuingSinkNodeConsumer>();
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<compute::ExecPlan> plan,
+                          engine::DeserializePlan(*serialized_plan, consumer));
+
+    ARROW_LOG(INFO) << "DoGetStatement: executing plan " << plan->ToString();
+
+    ARROW_RETURN_NOT_OK(plan->StartProducing());
+
+    auto reader = std::make_shared<ConsumerBasedRecordBatchReader>(std::move(plan),
+                                                                   std::move(consumer));
+    return std::make_unique<RecordBatchStream>(reader);
+  }
+
+  arrow::Result<int64_t> DoPutCommandSubstraitPlan(
+      const ServerCallContext& context, const StatementSubstraitPlan& command) override {
+    return Status::NotImplemented("Updates are unsupported");
+  }
+
+  Status DoPutPreparedStatementQuery(const ServerCallContext& context,
+                                     const PreparedStatementQuery& command,
+                                     FlightMessageReader* reader,
+                                     FlightMetadataWriter* writer) override {
+    return Status::NotImplemented("NYI");
+  }
+
+  arrow::Result<int64_t> DoPutPreparedStatementUpdate(
+      const ServerCallContext& context, const PreparedStatementUpdate& command,
+      FlightMessageReader* reader) override {
+    return Status::NotImplemented("Updates are unsupported");
+  }
+
+  arrow::Result<ActionCreatePreparedStatementResult> CreatePreparedSubstraitPlan(
+      const ServerCallContext& context,
+      const ActionCreatePreparedSubstraitPlanRequest& request) override {
+    if (!request.transaction_id.empty()) {
+      return Status::NotImplemented("Transactions are unsupported");
+    }
+    // There's not any real point to precompiling the plan, since the
+    // consumer has to be provided here. So this is effectively the
+    // same as a non-prepared plan.
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<arrow::Schema> schema,
+                          GetPlanSchema(request.plan.plan));
+
+    std::string handle;
+    {
+      std::lock_guard<std::mutex> guard(mutex_);
+      handle = std::to_string(counter_++);
+      prepared_[handle] = Buffer::FromString(request.plan.plan);
+    }
+
+    return ActionCreatePreparedStatementResult{
+        /*dataset_schema=*/std::move(schema),
+        /*parameter_schema=*/nullptr,
+        handle,
+    };
+  }
+
+  Status ClosePreparedStatement(
+      const ServerCallContext& context,
+      const ActionClosePreparedStatementRequest& request) override {
+    std::lock_guard<std::mutex> guard(mutex_);
+    prepared_.erase(request.prepared_statement_handle);
+    return Status::OK();
+  }
+
+ private:
+  arrow::Result<std::shared_ptr<arrow::Schema>> GetPlanSchema(
+      const std::string& serialized_plan) {
+    std::shared_ptr<Buffer> plan_buf = Buffer::FromString(serialized_plan);
+    std::shared_ptr<GetSchemaSinkNodeConsumer> consumer =
+        std::make_shared<GetSchemaSinkNodeConsumer>();
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<compute::ExecPlan> plan,
+                          engine::DeserializePlan(*plan_buf, consumer));
+    std::shared_ptr<Schema> output_schema;
+    for (compute::ExecNode* sink : plan->sinks()) {
+      // Force SinkNodeConsumer::Init to be called
+      ARROW_RETURN_NOT_OK(sink->StartProducing());
+      output_schema = consumer->schema();
+      break;
+    }
+    if (!output_schema) {
+      return Status::Invalid("Could not infer output schema");
+    }
+    return output_schema;
+  }
+
+  arrow::Result<std::unique_ptr<FlightInfo>> MakeFlightInfo(
+      const std::string& plan, const FlightDescriptor& descriptor, const Schema& schema) {
+    ARROW_ASSIGN_OR_RAISE(auto ticket, CreateStatementQueryTicket(plan));
+    std::vector<FlightEndpoint> endpoints{
+        FlightEndpoint{Ticket{std::move(ticket)}, /*locations=*/{}}};
+    ARROW_ASSIGN_OR_RAISE(auto info,
+                          FlightInfo::Make(schema, descriptor, std::move(endpoints),
+                                           /*total_records=*/-1, /*total_bytes=*/-1));
+    return std::make_unique<FlightInfo>(std::move(info));
+  }
+
+  std::mutex mutex_;
+  std::unordered_map<std::string, std::shared_ptr<arrow::Buffer>> prepared_;
+  int64_t counter_;
+};
+
+}  // namespace
+
+arrow::Result<std::unique_ptr<FlightSqlServerBase>> MakeAceroServer() {
+  return std::make_unique<AceroFlightSqlServer>();
+}
+
+}  // namespace acero_example
+}  // namespace sql
+}  // namespace flight
+}  // namespace arrow
diff --git a/cpp/src/arrow/flight/sql/example/acero_server.h b/cpp/src/arrow/flight/sql/example/acero_server.h
new file mode 100644
index 00000000000..2e82fd3d3b6
--- /dev/null
+++ b/cpp/src/arrow/flight/sql/example/acero_server.h
@@ -0,0 +1,37 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#pragma once
+
+#include <memory>
+
+#include "arrow/flight/sql/server.h"
+#include "arrow/flight/sql/visibility.h"
+#include "arrow/result.h"
+
+namespace arrow {
+namespace flight {
+namespace sql {
+namespace acero_example {
+
+/// \brief Make a Flight SQL server backed by the Acero query engine.
+arrow::Result<std::unique_ptr<FlightSqlServerBase>> MakeAceroServer();
+
+}  // namespace acero_example
+}  // namespace sql
+}  // namespace flight
+}  // namespace arrow
diff --git a/cpp/src/arrow/flight/sql/example/sqlite_server.cc b/cpp/src/arrow/flight/sql/example/sqlite_server.cc
index 35fa05468ba..a02f825a9e6 100644
--- a/cpp/src/arrow/flight/sql/example/sqlite_server.cc
+++ b/cpp/src/arrow/flight/sql/example/sqlite_server.cc
@@ -17,44 +17,40 @@
 
 #include "arrow/flight/sql/example/sqlite_server.h"
 
-#include <sqlite3.h>
-
+#define BOOST_NO_CXX98_FUNCTION_BASE  // ARROW-17805
 #include <boost/algorithm/string.hpp>
-#include <map>
+#include <mutex>
 #include <random>
 #include <sstream>
+#include <unordered_map>
+#include <utility>
 
-#include "arrow/api.h"
+#include <sqlite3.h>
+
+#include "arrow/array/builder_binary.h"
 #include "arrow/flight/sql/example/sqlite_sql_info.h"
 #include "arrow/flight/sql/example/sqlite_statement.h"
 #include "arrow/flight/sql/example/sqlite_statement_batch_reader.h"
 #include "arrow/flight/sql/example/sqlite_tables_schema_batch_reader.h"
 #include "arrow/flight/sql/example/sqlite_type_info.h"
 #include "arrow/flight/sql/server.h"
+#include "arrow/scalar.h"
+#include "arrow/util/checked_cast.h"
+#include "arrow/util/logging.h"
 
 namespace arrow {
 namespace flight {
 namespace sql {
 namespace example {
 
-namespace {
-
-/// \brief Gets a SqliteStatement by given handle
-arrow::Result<std::shared_ptr<SqliteStatement>> GetStatementByHandle(
-    const std::map<std::string, std::shared_ptr<SqliteStatement>>& prepared_statements,
-    const std::string& handle) {
-  auto search = prepared_statements.find(handle);
-  if (search == prepared_statements.end()) {
-    return Status::Invalid("Prepared statement not found");
-  }
+using arrow::internal::checked_cast;
 
-  return search->second;
-}
+namespace {
 
 std::string PrepareQueryForGetTables(const GetTables& command) {
   std::stringstream table_query;
 
-  table_query << "SELECT null as catalog_name, null as schema_name, name as "
+  table_query << "SELECT 'main' as catalog_name, null as schema_name, name as "
                  "table_name, type as table_type FROM sqlite_master where 1=1";
 
   if (command.catalog.has_value()) {
@@ -88,50 +84,27 @@ std::string PrepareQueryForGetTables(const GetTables& command) {
   return table_query.str();
 }
 
-Status SetParametersOnSQLiteStatement(sqlite3_stmt* stmt, FlightMessageReader* reader) {
+template <typename Callback>
+Status SetParametersOnSQLiteStatement(SqliteStatement* statement,
+                                      FlightMessageReader* reader, Callback callback) {
+  sqlite3_stmt* stmt = statement->GetSqlite3Stmt();
   while (true) {
     ARROW_ASSIGN_OR_RAISE(FlightStreamChunk chunk, reader->Next());
-    std::shared_ptr<RecordBatch>& record_batch = chunk.data;
-    if (record_batch == nullptr) break;
+    if (chunk.data == nullptr) break;
 
-    const int64_t num_rows = record_batch->num_rows();
-    const int& num_columns = record_batch->num_columns();
+    const int64_t num_rows = chunk.data->num_rows();
+    if (num_rows == 0) continue;
 
+    ARROW_RETURN_NOT_OK(statement->SetParameters({std::move(chunk.data)}));
     for (int i = 0; i < num_rows; ++i) {
-      for (int c = 0; c < num_columns; ++c) {
-        const std::shared_ptr<Array>& column = record_batch->column(c);
-        ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Scalar> scalar, column->GetScalar(i));
-
-        auto& holder = static_cast<DenseUnionScalar&>(*scalar).value;
-
-        switch (holder->type->id()) {
-          case Type::INT64: {
-            int64_t value = static_cast<Int64Scalar&>(*holder).value;
-            sqlite3_bind_int64(stmt, c + 1, value);
-            break;
-          }
-          case Type::FLOAT: {
-            double value = static_cast<FloatScalar&>(*holder).value;
-            sqlite3_bind_double(stmt, c + 1, value);
-            break;
-          }
-          case Type::STRING: {
-            std::shared_ptr<Buffer> buffer = static_cast<StringScalar&>(*holder).value;
-            sqlite3_bind_text(stmt, c + 1, reinterpret_cast<const char*>(buffer->data()),
-                              static_cast<int>(buffer->size()), SQLITE_TRANSIENT);
-            break;
-          }
-          case Type::BINARY: {
-            std::shared_ptr<Buffer> buffer = static_cast<BinaryScalar&>(*holder).value;
-            sqlite3_bind_blob(stmt, c + 1, buffer->data(),
-                              static_cast<int>(buffer->size()), SQLITE_TRANSIENT);
-            break;
-          }
-          default:
-            return Status::Invalid("Received unsupported data type: ",
-                                   holder->type->ToString());
-        }
+      if (sqlite3_clear_bindings(stmt) != SQLITE_OK) {
+        return Status::Invalid("Failed to reset bindings on row ", i, ": ",
+                               sqlite3_errmsg(statement->db()));
       }
+      // batch_index is always 0 since we're calling SetParameters
+      // with a single batch at a time
+      ARROW_RETURN_NOT_OK(statement->Bind(/*batch_index=*/0, i));
+      ARROW_RETURN_NOT_OK(callback());
     }
   }
 
@@ -147,7 +120,7 @@ arrow::Result<std::unique_ptr<FlightDataStream>> DoGetSQLiteQuery(
   std::shared_ptr<SqliteStatementBatchReader> reader;
   ARROW_ASSIGN_OR_RAISE(reader, SqliteStatementBatchReader::Create(statement, schema));
 
-  return std::unique_ptr<FlightDataStream>(new RecordBatchStream(reader));
+  return std::make_unique<RecordBatchStream>(reader);
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoForCommand(
@@ -156,7 +129,7 @@ arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoForCommand(
   ARROW_ASSIGN_OR_RAISE(auto result,
                         FlightInfo::Make(*schema, descriptor, endpoints, -1, -1))
 
-  return std::unique_ptr<FlightInfo>(new FlightInfo(result));
+  return std::make_unique<FlightInfo>(result);
 }
 
 std::string PrepareQueryForGetImportedOrExportedKeys(const std::string& filter) {
@@ -194,8 +167,8 @@ std::string PrepareQueryForGetImportedOrExportedKeys(const std::string& filter)
 
 }  // namespace
 
-std::shared_ptr<DataType> GetArrowType(const char* sqlite_type) {
-  if (sqlite_type == NULLPTR) {
+arrow::Result<std::shared_ptr<DataType>> GetArrowType(const char* sqlite_type) {
+  if (sqlite_type == nullptr || std::strlen(sqlite_type) == 0) {
     // SQLite may not know the column type yet.
     return null();
   }
@@ -210,9 +183,8 @@ std::shared_ptr<DataType> GetArrowType(const char* sqlite_type) {
              boost::istarts_with(sqlite_type, "char") ||
              boost::istarts_with(sqlite_type, "varchar")) {
     return utf8();
-  } else {
-    throw std::invalid_argument("Invalid SQLite type: " + std::string(sqlite_type));
   }
+  return Status::Invalid("Invalid SQLite type: ", sqlite_type);
 }
 
 int32_t GetSqlTypeFromTypeName(const char* sqlite_type) {
@@ -237,23 +209,87 @@ int32_t GetSqlTypeFromTypeName(const char* sqlite_type) {
 }
 
 class SQLiteFlightSqlServer::Impl {
+ private:
   sqlite3* db_;
-  std::map<std::string, std::shared_ptr<SqliteStatement>> prepared_statements_;
+  const std::string db_uri_;
+  std::mutex mutex_;
+  std::unordered_map<std::string, std::shared_ptr<SqliteStatement>> prepared_statements_;
+  std::unordered_map<std::string, sqlite3*> open_transactions_;
   std::default_random_engine gen_;
 
+  arrow::Result<std::shared_ptr<SqliteStatement>> GetStatementByHandle(
+      const std::string& handle) {
+    std::lock_guard<std::mutex> guard(mutex_);
+    auto search = prepared_statements_.find(handle);
+    if (search == prepared_statements_.end()) {
+      return Status::KeyError("Prepared statement not found");
+    }
+    return search->second;
+  }
+
+  arrow::Result<sqlite3*> GetConnection(const std::string& transaction_id) {
+    if (transaction_id.empty()) {
+      ARROW_LOG(INFO) << "Using default connection";
+      return db_;
+    }
+
+    std::lock_guard<std::mutex> guard(mutex_);
+    auto it = open_transactions_.find(transaction_id);
+    if (it == open_transactions_.end()) {
+      return Status::KeyError("Unknown transaction ID: ", transaction_id);
+    }
+    ARROW_LOG(INFO) << "Using connection for transaction " << transaction_id;
+    return it->second;
+  }
+
+  // Create a Ticket that combines a query and a transaction ID.
+  arrow::Result<Ticket> EncodeTransactionQuery(const std::string& query,
+                                               const std::string& transaction_id) {
+    std::string transaction_query = transaction_id;
+    transaction_query += ':';
+    transaction_query += query;
+    ARROW_ASSIGN_OR_RAISE(auto ticket_string,
+                          CreateStatementQueryTicket(transaction_query));
+    return Ticket{std::move(ticket_string)};
+  }
+
+  arrow::Result<std::pair<std::string, std::string>> DecodeTransactionQuery(
+      const std::string& ticket) {
+    auto divider = ticket.find(':');
+    if (divider == std::string::npos) {
+      return Status::Invalid("Malformed ticket");
+    }
+    std::string transaction_id = ticket.substr(0, divider);
+    std::string query = ticket.substr(divider + 1);
+    return std::make_pair(std::move(query), std::move(transaction_id));
+  }
+
  public:
-  explicit Impl(sqlite3* db) : db_(db) {}
+  explicit Impl(sqlite3* db, std::string uri) : db_(db), db_uri_(std::move(uri)) {}
 
-  ~Impl() { sqlite3_close(db_); }
+  ~Impl() {
+    sqlite3_close(db_);
+    for (const auto& pair : open_transactions_) {
+      sqlite3_close(pair.second);
+    }
+  }
 
   std::string GenerateRandomString() {
     uint32_t length = 16;
 
     // MSVC doesn't support char types here
     std::uniform_int_distribution<uint16_t> dist(static_cast<uint16_t>('0'),
-                                                 static_cast<uint16_t>('z'));
+                                                 static_cast<uint16_t>('Z'));
     std::string ret(length, 0);
-    auto get_random_char = [&]() { return static_cast<char>(dist(gen_)); };
+    // Don't generate symbols to simplify parsing in DecodeTransactionQuery
+    auto get_random_char = [&]() {
+      char res;
+      while (true) {
+        res = static_cast<char>(dist(gen_));
+        if (res <= '9' || res >= 'A') break;
+      }
+      return res;
+    };
     std::generate_n(ret.begin(), length, get_random_char);
     return ret;
   }
@@ -262,30 +298,32 @@ class SQLiteFlightSqlServer::Impl {
       const ServerCallContext& context, const StatementQuery& command,
       const FlightDescriptor& descriptor) {
     const std::string& query = command.query;
-
-    ARROW_ASSIGN_OR_RAISE(auto statement, SqliteStatement::Create(db_, query));
-
+    ARROW_ASSIGN_OR_RAISE(auto db, GetConnection(command.transaction_id));
+    ARROW_ASSIGN_OR_RAISE(auto statement, SqliteStatement::Create(db, query));
     ARROW_ASSIGN_OR_RAISE(auto schema, statement->GetSchema());
-
-    ARROW_ASSIGN_OR_RAISE(auto ticket_string, CreateStatementQueryTicket(query));
-    std::vector<FlightEndpoint> endpoints{FlightEndpoint{{ticket_string}, {}}};
+    ARROW_ASSIGN_OR_RAISE(auto ticket,
+                          EncodeTransactionQuery(query, command.transaction_id));
+    std::vector<FlightEndpoint> endpoints{FlightEndpoint{std::move(ticket), {}}};
     ARROW_ASSIGN_OR_RAISE(auto result,
                           FlightInfo::Make(*schema, descriptor, endpoints, -1, -1))
 
-    return std::unique_ptr<FlightInfo>(new FlightInfo(result));
+    return std::make_unique<FlightInfo>(result);
   }
 
   arrow::Result<std::unique_ptr<FlightDataStream>> DoGetStatement(
       const ServerCallContext& context, const StatementQueryTicket& command) {
-    const std::string& sql = command.statement_handle;
+    ARROW_ASSIGN_OR_RAISE(auto pair, DecodeTransactionQuery(command.statement_handle));
+    const std::string& sql = pair.first;
+    const std::string transaction_id = pair.second;
+    ARROW_ASSIGN_OR_RAISE(auto db, GetConnection(transaction_id));
 
     std::shared_ptr<SqliteStatement> statement;
-    ARROW_ASSIGN_OR_RAISE(statement, SqliteStatement::Create(db_, sql));
+    ARROW_ASSIGN_OR_RAISE(statement, SqliteStatement::Create(db, sql));
 
     std::shared_ptr<SqliteStatementBatchReader> reader;
     ARROW_ASSIGN_OR_RAISE(reader, SqliteStatementBatchReader::Create(statement));
 
-    return std::unique_ptr<FlightDataStream>(new RecordBatchStream(reader));
+    return std::make_unique<RecordBatchStream>(reader);
   }
 
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoCatalogs(
@@ -295,19 +333,20 @@ class SQLiteFlightSqlServer::Impl {
 
   arrow::Result<std::unique_ptr<FlightDataStream>> DoGetCatalogs(
       const ServerCallContext& context) {
-    // As SQLite doesn't support catalogs, this will return an empty record batch.
-
+    // https://www.sqlite.org/cli.html
+    // > The ".databases" command shows a list of all databases open
+    // > in the current connection. There will always be at least
+    // > 2. The first one is "main", the original database opened. The
+    // > second is "temp", the database used for temporary tables.
+    // For our purposes, return only "main" and ignore other databases.
     const std::shared_ptr<Schema>& schema = SqlSchema::GetCatalogsSchema();
-
     StringBuilder catalog_name_builder;
+    ARROW_RETURN_NOT_OK(catalog_name_builder.Append("main"));
     ARROW_ASSIGN_OR_RAISE(auto catalog_name, catalog_name_builder.Finish());
-
-    const std::shared_ptr<RecordBatch>& batch =
-        RecordBatch::Make(schema, 0, {catalog_name});
-
+    std::shared_ptr<RecordBatch> batch =
+        RecordBatch::Make(schema, 1, {std::move(catalog_name)});
     ARROW_ASSIGN_OR_RAISE(auto reader, RecordBatchReader::Make({batch}));
-
-    return std::unique_ptr<FlightDataStream>(new RecordBatchStream(reader));
+    return std::make_unique<RecordBatchStream>(reader);
   }
 
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoSchemas(
@@ -318,21 +357,27 @@ class SQLiteFlightSqlServer::Impl {
 
   arrow::Result<std::unique_ptr<FlightDataStream>> DoGetDbSchemas(
       const ServerCallContext& context, const GetDbSchemas& command) {
-    // As SQLite doesn't support schemas, this will return an empty record batch.
-
+    // SQLite doesn't support schemas, so pretend we have a single
+    // unnamed schema.
     const std::shared_ptr<Schema>& schema = SqlSchema::GetDbSchemasSchema();
-
     StringBuilder catalog_name_builder;
-    ARROW_ASSIGN_OR_RAISE(auto catalog_name, catalog_name_builder.Finish());
     StringBuilder schema_name_builder;
-    ARROW_ASSIGN_OR_RAISE(auto schema_name, schema_name_builder.Finish());
 
-    const std::shared_ptr<RecordBatch>& batch =
-        RecordBatch::Make(schema, 0, {catalog_name, schema_name});
+    int64_t length = 0;
+    // XXX: we don't really implement the full pattern match here
+    if ((!command.catalog || command.catalog == "main") &&
+        (!command.db_schema_filter_pattern || command.db_schema_filter_pattern == "%")) {
+      ARROW_RETURN_NOT_OK(catalog_name_builder.Append("main"));
+      ARROW_RETURN_NOT_OK(schema_name_builder.AppendNull());
+      length++;
+    }
 
+    ARROW_ASSIGN_OR_RAISE(auto catalog_name, catalog_name_builder.Finish());
+    ARROW_ASSIGN_OR_RAISE(auto schema_name, schema_name_builder.Finish());
+    std::shared_ptr<RecordBatch> batch = RecordBatch::Make(
+        schema, length, {std::move(catalog_name), std::move(schema_name)});
     ARROW_ASSIGN_OR_RAISE(auto reader, RecordBatchReader::Make({batch}));
-
-    return std::unique_ptr<FlightDataStream>(new RecordBatchStream(reader));
+    return std::make_unique<RecordBatchStream>(reader);
   }
 
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoTables(
@@ -341,6 +386,7 @@ class SQLiteFlightSqlServer::Impl {
     std::vector<FlightEndpoint> endpoints{FlightEndpoint{{descriptor.cmd}, {}}};
 
     bool include_schema = command.include_schema;
+    ARROW_LOG(INFO) << "GetTables include_schema=" << include_schema;
 
     ARROW_ASSIGN_OR_RAISE(
         auto result,
@@ -348,12 +394,13 @@ class SQLiteFlightSqlServer::Impl {
                                         : *SqlSchema::GetTablesSchema(),
                          descriptor, endpoints, -1, -1))
 
-    return std::unique_ptr<FlightInfo>(new FlightInfo(result));
+    return std::make_unique<FlightInfo>(std::move(result));
   }
 
   arrow::Result<std::unique_ptr<FlightDataStream>> DoGetTables(
       const ServerCallContext& context, const GetTables& command) {
     std::string query = PrepareQueryForGetTables(command);
+    ARROW_LOG(INFO) << "GetTables: " << query;
 
     std::shared_ptr<SqliteStatement> statement;
     ARROW_ASSIGN_OR_RAISE(statement, SqliteStatement::Create(db_, query));
@@ -365,19 +412,18 @@ class SQLiteFlightSqlServer::Impl {
     if (command.include_schema) {
       std::shared_ptr<SqliteTablesWithSchemaBatchReader> table_schema_reader =
           std::make_shared<SqliteTablesWithSchemaBatchReader>(reader, query, db_);
-      return std::unique_ptr<FlightDataStream>(
-          new RecordBatchStream(table_schema_reader));
+      return std::make_unique<RecordBatchStream>(table_schema_reader);
     } else {
-      return std::unique_ptr<FlightDataStream>(new RecordBatchStream(reader));
+      return std::make_unique<RecordBatchStream>(reader);
     }
   }
 
   arrow::Result<int64_t> DoPutCommandStatementUpdate(const ServerCallContext& context,
                                                      const StatementUpdate& command) {
     const std::string& sql = command.query;
-
-    ARROW_ASSIGN_OR_RAISE(auto statement, SqliteStatement::Create(db_, sql));
-
+    ARROW_ASSIGN_OR_RAISE(auto db, GetConnection(command.transaction_id));
+    ARROW_LOG(INFO) << "Executing update: " << sql;
+    ARROW_ASSIGN_OR_RAISE(auto statement, SqliteStatement::Create(db, sql));
     return statement->ExecuteUpdate();
   }
 
@@ -385,9 +431,15 @@ class SQLiteFlightSqlServer::Impl {
       const ServerCallContext& context,
       const ActionCreatePreparedStatementRequest& request) {
     std::shared_ptr<SqliteStatement> statement;
-    ARROW_ASSIGN_OR_RAISE(statement, SqliteStatement::Create(db_, request.query));
+    ARROW_ASSIGN_OR_RAISE(auto db, GetConnection(request.transaction_id));
+    ARROW_LOG(INFO) << "Creating prepared statement: " << request.query;
+    ARROW_ASSIGN_OR_RAISE(statement, SqliteStatement::Create(db, request.query));
     std::string handle = GenerateRandomString();
-    prepared_statements_[handle] = statement;
+
+    {
+      std::lock_guard<std::mutex> guard(mutex_);
+      prepared_statements_[handle] = statement;
+    }
 
     ARROW_ASSIGN_OR_RAISE(auto dataset_schema, statement->GetSchema());
 
@@ -419,6 +471,7 @@ class SQLiteFlightSqlServer::Impl {
 
   Status ClosePreparedStatement(const ServerCallContext& context,
                                 const ActionClosePreparedStatementRequest& request) {
+    std::lock_guard<std::mutex> guard(mutex_);
     const std::string& prepared_statement_handle = request.prepared_statement_handle;
 
     auto search = prepared_statements_.find(prepared_statement_handle);
@@ -434,6 +487,7 @@ class SQLiteFlightSqlServer::Impl {
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoPreparedStatement(
       const ServerCallContext& context, const PreparedStatementQuery& command,
       const FlightDescriptor& descriptor) {
+    std::lock_guard<std::mutex> guard(mutex_);
     const std::string& prepared_statement_handle = command.prepared_statement_handle;
 
     auto search = prepared_statements_.find(prepared_statement_handle);
@@ -450,6 +504,7 @@ class SQLiteFlightSqlServer::Impl {
 
   arrow::Result<std::unique_ptr<FlightDataStream>> DoGetPreparedStatement(
       const ServerCallContext& context, const PreparedStatementQuery& command) {
+    std::lock_guard<std::mutex> guard(mutex_);
     const std::string& prepared_statement_handle = command.prepared_statement_handle;
 
     auto search = prepared_statements_.find(prepared_statement_handle);
@@ -462,7 +517,7 @@ class SQLiteFlightSqlServer::Impl {
     std::shared_ptr<SqliteStatementBatchReader> reader;
     ARROW_ASSIGN_OR_RAISE(reader, SqliteStatementBatchReader::Create(statement));
 
-    return std::unique_ptr<FlightDataStream>(new RecordBatchStream(reader));
+    return std::make_unique<RecordBatchStream>(reader);
   }
 
   Status DoPutPreparedStatementQuery(const ServerCallContext& context,
@@ -470,13 +525,11 @@ class SQLiteFlightSqlServer::Impl {
                                      FlightMessageReader* reader,
                                      FlightMetadataWriter* writer) {
     const std::string& prepared_statement_handle = command.prepared_statement_handle;
-    ARROW_ASSIGN_OR_RAISE(
-        auto statement,
-        GetStatementByHandle(prepared_statements_, prepared_statement_handle));
-
-    sqlite3_stmt* stmt = statement->GetSqlite3Stmt();
-    ARROW_RETURN_NOT_OK(SetParametersOnSQLiteStatement(stmt, reader));
-
+    ARROW_ASSIGN_OR_RAISE(auto statement,
+                          GetStatementByHandle(prepared_statement_handle));
+    // Save params here and execute later
+    ARROW_ASSIGN_OR_RAISE(auto batches, reader->ToRecordBatches());
+    ARROW_RETURN_NOT_OK(statement->SetParameters(std::move(batches)));
     return Status::OK();
   }
 
@@ -484,14 +537,20 @@ class SQLiteFlightSqlServer::Impl {
       const ServerCallContext& context, const PreparedStatementUpdate& command,
       FlightMessageReader* reader) {
     const std::string& prepared_statement_handle = command.prepared_statement_handle;
-    ARROW_ASSIGN_OR_RAISE(
-        auto statement,
-        GetStatementByHandle(prepared_statements_, prepared_statement_handle));
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<SqliteStatement> statement,
+                          GetStatementByHandle(prepared_statement_handle));
 
-    sqlite3_stmt* stmt = statement->GetSqlite3Stmt();
-    ARROW_RETURN_NOT_OK(SetParametersOnSQLiteStatement(stmt, reader));
-
-    return statement->ExecuteUpdate();
+    int64_t rows_affected = 0;
+    if (sqlite3_bind_parameter_count(statement->GetSqlite3Stmt()) == 0) {
+      ARROW_ASSIGN_OR_RAISE(rows_affected, statement->ExecuteUpdate());
+    } else {
+      ARROW_RETURN_NOT_OK(SetParametersOnSQLiteStatement(statement.get(), reader, [&]() {
+        ARROW_ASSIGN_OR_RAISE(int64_t rows, statement->ExecuteUpdate());
+        rows_affected += rows;
+        return statement->Reset().status();
+      }));
+    }
+    return rows_affected;
   }
 
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoTableTypes(
@@ -519,7 +578,7 @@ class SQLiteFlightSqlServer::Impl {
                                       : DoGetTypeInfoResult();
 
     ARROW_ASSIGN_OR_RAISE(auto reader, RecordBatchReader::Make({type_info_result}));
-    return std::unique_ptr<FlightDataStream>(new RecordBatchStream(reader));
+    return std::make_unique<RecordBatchStream>(reader);
   }
 
   arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoPrimaryKeys(
@@ -627,28 +686,89 @@ class SQLiteFlightSqlServer::Impl {
     return DoGetSQLiteQuery(db_, query, SqlSchema::GetCrossReferenceSchema());
   }
 
-  Status ExecuteSql(const std::string& sql) {
+  Status ExecuteSql(const std::string& sql) { return ExecuteSql(db_, sql); }
+
+  Status ExecuteSql(sqlite3* db, const std::string& sql) {
     char* err_msg = nullptr;
-    int rc = sqlite3_exec(db_, sql.c_str(), nullptr, nullptr, &err_msg);
+    int rc = sqlite3_exec(db, sql.c_str(), nullptr, nullptr, &err_msg);
     if (rc != SQLITE_OK) {
       std::string error_msg;
       if (err_msg != nullptr) {
         error_msg = err_msg;
+        sqlite3_free(err_msg);
       }
-      sqlite3_free(err_msg);
-      return Status::ExecutionError(error_msg);
+      return Status::IOError(error_msg);
     }
+    if (err_msg) sqlite3_free(err_msg);
     return Status::OK();
   }
+
+  arrow::Result<ActionBeginTransactionResult> BeginTransaction(
+      const ServerCallContext& context, const ActionBeginTransactionRequest& request) {
+    std::string handle = GenerateRandomString();
+    sqlite3* new_db = nullptr;
+    if (sqlite3_open_v2(db_uri_.c_str(), &new_db,
+                        SQLITE_OPEN_READWRITE | SQLITE_OPEN_CREATE | SQLITE_OPEN_URI,
+                        /*zVfs=*/nullptr) != SQLITE_OK) {
+      std::string error_message = "Can't open new connection: ";
+      if (new_db) {
+        error_message += sqlite3_errmsg(new_db);
+        sqlite3_close(new_db);
+      }
+      return Status::Invalid(error_message);
+    }
+
+    ARROW_RETURN_NOT_OK(ExecuteSql(new_db, "BEGIN TRANSACTION"));
+
+    ARROW_LOG(INFO) << "Beginning transaction on " << handle;
+
+    std::lock_guard<std::mutex> guard(mutex_);
+    open_transactions_[handle] = new_db;
+    return ActionBeginTransactionResult{std::move(handle)};
+  }
+
+  Status EndTransaction(const ServerCallContext& context,
+                        const ActionEndTransactionRequest& request) {
+    Status status;
+    sqlite3* transaction = nullptr;
+    {
+      std::lock_guard<std::mutex> guard(mutex_);
+      auto it = open_transactions_.find(request.transaction_id);
+      if (it == open_transactions_.end()) {
+        return Status::KeyError("Unknown transaction ID: ", request.transaction_id);
+      }
+
+      if (request.action == ActionEndTransactionRequest::kCommit) {
+        ARROW_LOG(INFO) << "Committing on " << request.transaction_id;
+        status = ExecuteSql(it->second, "COMMIT");
+      } else {
+        ARROW_LOG(INFO) << "Rolling back on " << request.transaction_id;
+        status = ExecuteSql(it->second, "ROLLBACK");
+      }
+      transaction = it->second;
+      open_transactions_.erase(it);
+    }
+    sqlite3_close(transaction);
+    return status;
+  }
 };
 
+// Give each server instance its own in-memory DB
+std::atomic<int64_t> kDbCounter(0);
+
 SQLiteFlightSqlServer::SQLiteFlightSqlServer(std::shared_ptr<Impl> impl)
     : impl_(std::move(impl)) {}
 
 arrow::Result<std::shared_ptr<SQLiteFlightSqlServer>> SQLiteFlightSqlServer::Create() {
   sqlite3* db = nullptr;
 
-  if (sqlite3_open(":memory:", &db)) {
+  // All sqlite3* instances created from this URI will share data
+  std::string uri = "file:memorydb";
+  uri += std::to_string(kDbCounter++);
+  uri += "?mode=memory&cache=shared";
+  if (sqlite3_open_v2(uri.c_str(), &db,
+                      SQLITE_OPEN_READWRITE | SQLITE_OPEN_CREATE | SQLITE_OPEN_URI,
+                      /*zVfs=*/nullptr)) {
     std::string err_msg = "Can't open database: ";
     if (db != nullptr) {
       err_msg += sqlite3_errmsg(db);
@@ -660,9 +780,10 @@ arrow::Result<std::shared_ptr<SQLiteFlightSqlServer>> SQLiteFlightSqlServer::Cre
     return Status::Invalid(err_msg);
   }
 
-  std::shared_ptr<Impl> impl = std::make_shared<Impl>(db);
+  std::shared_ptr<Impl> impl = std::make_shared<Impl>(db, std::move(uri));
 
-  std::shared_ptr<SQLiteFlightSqlServer> result(new SQLiteFlightSqlServer(impl));
+  std::shared_ptr<SQLiteFlightSqlServer> result(
+      new SQLiteFlightSqlServer(std::move(impl)));
   for (const auto& id_to_result : GetSqlInfoResultMap()) {
     result->RegisterSqlInfo(id_to_result.first, id_to_result.second);
   }
@@ -686,6 +807,7 @@ arrow::Result<std::shared_ptr<SQLiteFlightSqlServer>> SQLiteFlightSqlServer::Cre
     INSERT INTO intTable (keyName, value, foreignId) VALUES ('zero', 0, 1);
     INSERT INTO intTable (keyName, value, foreignId) VALUES ('negative one', -1, 1);
     INSERT INTO intTable (keyName, value, foreignId) VALUES (NULL, NULL, NULL);
+    INSERT INTO intTable (keyName, value, foreignId) VALUES ('null', NULL, NULL);
   )"));
 
   return result;
@@ -855,6 +977,15 @@ SQLiteFlightSqlServer::DoGetCrossReference(const ServerCallContext& context,
   return impl_->DoGetCrossReference(context, command);
 }
 
+arrow::Result<ActionBeginTransactionResult> SQLiteFlightSqlServer::BeginTransaction(
+    const ServerCallContext& context, const ActionBeginTransactionRequest& request) {
+  return impl_->BeginTransaction(context, request);
+}
+Status SQLiteFlightSqlServer::EndTransaction(const ServerCallContext& context,
+                                             const ActionEndTransactionRequest& request) {
+  return impl_->EndTransaction(context, request);
+}
+
 }  // namespace example
 }  // namespace sql
 }  // namespace flight
diff --git a/cpp/src/arrow/flight/sql/example/sqlite_server.h b/cpp/src/arrow/flight/sql/example/sqlite_server.h
index 744ed068d0b..d8c84e36e68 100644
--- a/cpp/src/arrow/flight/sql/example/sqlite_server.h
+++ b/cpp/src/arrow/flight/sql/example/sqlite_server.h
@@ -19,13 +19,14 @@
 
 #include <sqlite3.h>
 
+#include <cstdint>
 #include <memory>
 #include <string>
 
-#include "arrow/api.h"
 #include "arrow/flight/sql/example/sqlite_statement.h"
 #include "arrow/flight/sql/example/sqlite_statement_batch_reader.h"
 #include "arrow/flight/sql/server.h"
+#include "arrow/result.h"
 
 namespace arrow {
 namespace flight {
@@ -35,7 +36,7 @@ namespace example {
 /// \brief Convert a column type to a ArrowType.
 /// \param sqlite_type the sqlite type.
 /// \return            The equivalent ArrowType.
-std::shared_ptr<DataType> GetArrowType(const char* sqlite_type);
+arrow::Result<std::shared_ptr<DataType>> GetArrowType(const char* sqlite_type);
 
 /// \brief Convert a column type name to SQLite type.
 /// \param type_name the type name.
@@ -141,6 +142,12 @@ class SQLiteFlightSqlServer : public FlightSqlServerBase {
   arrow::Result<std::unique_ptr<FlightDataStream>> DoGetPrimaryKeys(
       const ServerCallContext& context, const GetPrimaryKeys& command) override;
 
+  arrow::Result<ActionBeginTransactionResult> BeginTransaction(
+      const ServerCallContext& context,
+      const ActionBeginTransactionRequest& request) override;
+  Status EndTransaction(const ServerCallContext& context,
+                        const ActionEndTransactionRequest& request) override;
+
  private:
   class Impl;
   std::shared_ptr<Impl> impl_;
diff --git a/cpp/src/arrow/flight/sql/example/sqlite_sql_info.cc b/cpp/src/arrow/flight/sql/example/sqlite_sql_info.cc
index 94f25b39017..9737b5a3090 100644
--- a/cpp/src/arrow/flight/sql/example/sqlite_sql_info.cc
+++ b/cpp/src/arrow/flight/sql/example/sqlite_sql_info.cc
@@ -18,6 +18,7 @@
 #include "arrow/flight/sql/example/sqlite_sql_info.h"
 
 #include "arrow/flight/sql/types.h"
+#include "arrow/util/config.h"
 
 namespace arrow {
 namespace flight {
@@ -33,8 +34,14 @@ SqlInfoResultMap GetSqlInfoResultMap() {
       {SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_VERSION,
        SqlInfoResult(std::string("sqlite 3"))},
       {SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_ARROW_VERSION,
-       SqlInfoResult(std::string("7.0.0-SNAPSHOT" /* Only an example */))},
+       SqlInfoResult(std::string(ARROW_VERSION_STRING))},
       {SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_READ_ONLY, SqlInfoResult(false)},
+      {SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_SQL, SqlInfoResult(true)},
+      {SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_SUBSTRAIT, SqlInfoResult(false)},
+      {SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_TRANSACTION,
+       SqlInfoResult(SqlInfoOptions::SqlSupportedTransaction::
+                         SQL_SUPPORTED_TRANSACTION_TRANSACTION)},
+      {SqlInfoOptions::SqlInfo::FLIGHT_SQL_SERVER_CANCEL, SqlInfoResult(false)},
       {SqlInfoOptions::SqlInfo::SQL_DDL_CATALOG,
        SqlInfoResult(false /* SQLite 3 does not support catalogs */)},
       {SqlInfoOptions::SqlInfo::SQL_DDL_SCHEMA,
diff --git a/cpp/src/arrow/flight/sql/example/sqlite_statement.cc b/cpp/src/arrow/flight/sql/example/sqlite_statement.cc
index 7950d282aea..23639256600 100644
--- a/cpp/src/arrow/flight/sql/example/sqlite_statement.cc
+++ b/cpp/src/arrow/flight/sql/example/sqlite_statement.cc
@@ -17,18 +17,28 @@
 
 #include "arrow/flight/sql/example/sqlite_statement.h"
 
-#include <sqlite3.h>
+#include <algorithm>
 
-#include <boost/algorithm/string.hpp>
+#include <sqlite3.h>
 
+#include "arrow/array/array_base.h"
+#include "arrow/array/array_binary.h"
+#include "arrow/array/array_nested.h"
+#include "arrow/array/array_primitive.h"
 #include "arrow/flight/sql/column_metadata.h"
 #include "arrow/flight/sql/example/sqlite_server.h"
+#include "arrow/scalar.h"
+#include "arrow/table.h"
+#include "arrow/type.h"
+#include "arrow/util/checked_cast.h"
 
 namespace arrow {
 namespace flight {
 namespace sql {
 namespace example {
 
+using arrow::internal::checked_cast;
+
 std::shared_ptr<DataType> GetDataTypeFromSqliteType(const int column_type) {
   switch (column_type) {
     case SQLITE_INTEGER:
@@ -118,7 +128,7 @@ arrow::Result<std::shared_ptr<Schema>> SqliteStatement::GetSchema() const {
       // Try to retrieve column type from sqlite3_column_decltype
       const char* column_decltype = sqlite3_column_decltype(stmt_, i);
       if (column_decltype != NULLPTR) {
-        data_type = GetArrowType(column_decltype);
+        ARROW_ASSIGN_OR_RAISE(data_type, GetArrowType(column_decltype));
       } else {
         // If it can not determine the actual column type, return a dense_union type
         // covering any type SQLite supports.
@@ -159,10 +169,100 @@ arrow::Result<int> SqliteStatement::Reset() {
 sqlite3_stmt* SqliteStatement::GetSqlite3Stmt() const { return stmt_; }
 
 arrow::Result<int64_t> SqliteStatement::ExecuteUpdate() {
-  ARROW_RETURN_NOT_OK(Step());
+  while (true) {
+    ARROW_ASSIGN_OR_RAISE(int rc, Step());
+    if (rc == SQLITE_DONE) break;
+  }
   return sqlite3_changes(db_);
 }
 
+Status SqliteStatement::SetParameters(
+    std::vector<std::shared_ptr<arrow::RecordBatch>> parameters) {
+  const int num_params = sqlite3_bind_parameter_count(stmt_);
+  for (const auto& batch : parameters) {
+    if (batch->num_columns() != num_params) {
+      return Status::Invalid("Expected ", num_params, " parameters, but got ",
+                             batch->num_columns());
+    }
+  }
+  parameters_ = std::move(parameters);
+  auto end = std::remove_if(
+      parameters_.begin(), parameters_.end(),
+      [](const std::shared_ptr<RecordBatch>& batch) { return batch->num_rows() == 0; });
+  parameters_.erase(end, parameters_.end());
+  return Status::OK();
+}
+
+Status SqliteStatement::Bind(size_t batch_index, int64_t row_index) {
+  if (batch_index >= parameters_.size()) {
+    return Status::IndexError("Cannot bind to batch ", batch_index);
+  }
+  const RecordBatch& batch = *parameters_[batch_index];
+  if (row_index < 0 || row_index >= batch.num_rows()) {
+    return Status::IndexError("Cannot bind to row ", row_index, " in batch ",
+                              batch_index);
+  }
+
+  if (sqlite3_clear_bindings(stmt_) != SQLITE_OK) {
+    return Status::Invalid("Failed to reset bindings: ", sqlite3_errmsg(db_));
+  }
+  for (int c = 0; c < batch.num_columns(); ++c) {
+    Array* column = batch.column(c).get();
+    int64_t column_index = row_index;
+    if (column->type_id() == Type::DENSE_UNION) {
+      // Allow polymorphic bindings via union
+      const auto& u = checked_cast<const DenseUnionArray&>(*column);
+      column_index = u.value_offset(column_index);
+      column = u.field(u.child_id(row_index)).get();
+    }
+
+    int rc = 0;
+    if (column->IsNull(column_index)) {
+      rc = sqlite3_bind_null(stmt_, c + 1);
+      continue;
+    }
+    switch (column->type_id()) {
+      case Type::INT32: {
+        const int32_t value =
+            checked_cast<const Int32Array&>(*column).Value(column_index);
+        rc = sqlite3_bind_int64(stmt_, c + 1, value);
+        break;
+      }
+      case Type::INT64: {
+        const int64_t value =
+            checked_cast<const Int64Array&>(*column).Value(column_index);
+        rc = sqlite3_bind_int64(stmt_, c + 1, value);
+        break;
+      }
+      case Type::FLOAT: {
+        const float value = checked_cast<const FloatArray&>(*column).Value(column_index);
+        rc = sqlite3_bind_double(stmt_, c + 1, value);
+        break;
+      }
+      case Type::DOUBLE: {
+        const double value =
+            checked_cast<const DoubleArray&>(*column).Value(column_index);
+        rc = sqlite3_bind_double(stmt_, c + 1, value);
+        break;
+      }
+      case Type::STRING: {
+        const std::string_view value =
+            checked_cast<const StringArray&>(*column).Value(column_index);
+        rc = sqlite3_bind_text(stmt_, c + 1, value.data(), static_cast<int>(value.size()),
+                               SQLITE_TRANSIENT);
+        break;
+      }
+      default:
+        return Status::TypeError("Received unsupported data type: ", *column->type());
+    }
+    if (rc != SQLITE_OK) {
+      return Status::UnknownError("Failed to bind parameter: ", sqlite3_errmsg(db_));
+    }
+  }
+
+  return Status::OK();
+}
+
 }  // namespace example
 }  // namespace sql
 }  // namespace flight
diff --git a/cpp/src/arrow/flight/sql/example/sqlite_statement.h b/cpp/src/arrow/flight/sql/example/sqlite_statement.h
index b31eab506fa..333a2d24457 100644
--- a/cpp/src/arrow/flight/sql/example/sqlite_statement.h
+++ b/cpp/src/arrow/flight/sql/example/sqlite_statement.h
@@ -64,13 +64,22 @@ class SqliteStatement {
   /// \return A sqlite statement.
   sqlite3_stmt* GetSqlite3Stmt() const;
 
+  sqlite3* db() const { return db_; }
+
   /// \brief Executes an UPDATE, INSERT or DELETE statement.
   /// \return              The number of rows changed by execution.
   arrow::Result<int64_t> ExecuteUpdate();
 
+  const std::vector<std::shared_ptr<arrow::RecordBatch>>& parameters() const {
+    return parameters_;
+  }
+  Status SetParameters(std::vector<std::shared_ptr<arrow::RecordBatch>> parameters);
+  Status Bind(size_t batch_index, int64_t row_index);
+
  private:
   sqlite3* db_;
   sqlite3_stmt* stmt_;
+  std::vector<std::shared_ptr<arrow::RecordBatch>> parameters_;
 
   SqliteStatement(sqlite3* db, sqlite3_stmt* stmt) : db_(db), stmt_(stmt) {}
 };
diff --git a/cpp/src/arrow/flight/sql/example/sqlite_statement_batch_reader.cc b/cpp/src/arrow/flight/sql/example/sqlite_statement_batch_reader.cc
index c247eb62875..27c72614c5d 100644
--- a/cpp/src/arrow/flight/sql/example/sqlite_statement_batch_reader.cc
+++ b/cpp/src/arrow/flight/sql/example/sqlite_statement_batch_reader.cc
@@ -54,10 +54,6 @@
   case TYPE_CLASS##Type::type_id: {                                       \
     using c_type = typename TYPE_CLASS##Type::c_type;                     \
     auto builder = reinterpret_cast<TYPE_CLASS##Builder*>(array_builder); \
-    if (sqlite3_column_type(stmt_, i) == SQLITE_NULL) {                   \
-      ARROW_RETURN_NOT_OK(builder->AppendNull());                         \
-      break;                                                              \
-    }                                                                     \
     const sqlite3_int64 value = sqlite3_column_int64(STMT, COLUMN);       \
     ARROW_RETURN_NOT_OK(builder->Append(static_cast<c_type>(value)));     \
     break;                                                                \
@@ -66,10 +62,6 @@
 #define FLOAT_BUILDER_CASE(TYPE_CLASS, STMT, COLUMN)                          \
   case TYPE_CLASS##Type::type_id: {                                           \
     auto builder = reinterpret_cast<TYPE_CLASS##Builder*>(array_builder);     \
-    if (sqlite3_column_type(stmt_, i) == SQLITE_NULL) {                       \
-      ARROW_RETURN_NOT_OK(builder->AppendNull());                             \
-      break;                                                                  \
-    }                                                                         \
     const double value = sqlite3_column_double(STMT, COLUMN);                 \
     ARROW_RETURN_NOT_OK(                                                      \
         builder->Append(static_cast<const TYPE_CLASS##Type::c_type>(value))); \
@@ -82,7 +74,7 @@ namespace sql {
 namespace example {
 
 // Batch size for SQLite statement results
-static constexpr int kMaxBatchSize = 1024;
+static constexpr int32_t kMaxBatchSize = 16384;
 
 std::shared_ptr<Schema> SqliteStatementBatchReader::schema() const { return schema_; }
 
@@ -95,8 +87,12 @@ SqliteStatementBatchReader::SqliteStatementBatchReader(
 
 arrow::Result<std::shared_ptr<SqliteStatementBatchReader>>
 SqliteStatementBatchReader::Create(const std::shared_ptr<SqliteStatement>& statement_) {
+  ARROW_RETURN_NOT_OK(statement_->Reset());
+  if (!statement_->parameters().empty()) {
+    // If there are parameters, infer the schema after binding the first row
+    ARROW_RETURN_NOT_OK(statement_->Bind(0, 0));
+  }
   ARROW_RETURN_NOT_OK(statement_->Step());
-
   ARROW_ASSIGN_OR_RAISE(auto schema, statement_->GetSchema());
 
   std::shared_ptr<SqliteStatementBatchReader> result(
@@ -108,10 +104,8 @@ SqliteStatementBatchReader::Create(const std::shared_ptr<SqliteStatement>& state
 arrow::Result<std::shared_ptr<SqliteStatementBatchReader>>
 SqliteStatementBatchReader::Create(const std::shared_ptr<SqliteStatement>& statement,
                                    const std::shared_ptr<Schema>& schema) {
-  std::shared_ptr<SqliteStatementBatchReader> result(
+  return std::shared_ptr<SqliteStatementBatchReader>(
       new SqliteStatementBatchReader(statement, schema));
-
-  return result;
 }
 
 Status SqliteStatementBatchReader::ReadNext(std::shared_ptr<RecordBatch>* out) {
@@ -127,61 +121,89 @@ Status SqliteStatementBatchReader::ReadNext(std::shared_ptr<RecordBatch>* out) {
     ARROW_RETURN_NOT_OK(MakeBuilder(default_memory_pool(), field_type, &builders[i]));
   }
 
-  if (!already_executed_) {
-    ARROW_ASSIGN_OR_RAISE(rc_, statement_->Reset());
-    ARROW_ASSIGN_OR_RAISE(rc_, statement_->Step());
-    already_executed_ = true;
-  }
-
   int64_t rows = 0;
-  while (rows < kMaxBatchSize && rc_ == SQLITE_ROW) {
-    rows++;
-    for (int i = 0; i < num_fields; i++) {
-      const std::shared_ptr<Field>& field = schema_->field(i);
-      const std::shared_ptr<DataType>& field_type = field->type();
-      ArrayBuilder* array_builder = builders[i].get();
-
-      // NOTE: This is not the optimal way of building Arrow vectors.
-      // That would be to presize the builders to avoiding several resizing operations
-      // when appending values and also to build one vector at a time.
-      switch (field_type->id()) {
-        // XXX This doesn't handle overflows when converting to the target
-        // integer type.
-        INT_BUILDER_CASE(Int64, stmt_, i)
-        INT_BUILDER_CASE(UInt64, stmt_, i)
-        INT_BUILDER_CASE(Int32, stmt_, i)
-        INT_BUILDER_CASE(UInt32, stmt_, i)
-        INT_BUILDER_CASE(Int16, stmt_, i)
-        INT_BUILDER_CASE(UInt16, stmt_, i)
-        INT_BUILDER_CASE(Int8, stmt_, i)
-        INT_BUILDER_CASE(UInt8, stmt_, i)
-        FLOAT_BUILDER_CASE(Double, stmt_, i)
-        FLOAT_BUILDER_CASE(Float, stmt_, i)
-        FLOAT_BUILDER_CASE(HalfFloat, stmt_, i)
-        BINARY_BUILDER_CASE(Binary, stmt_, i)
-        BINARY_BUILDER_CASE(LargeBinary, stmt_, i)
-        STRING_BUILDER_CASE(String, stmt_, i)
-        STRING_BUILDER_CASE(LargeString, stmt_, i)
-        default:
-          return Status::NotImplemented("Not implemented SQLite data conversion to ",
-                                        field_type->name());
+  while (true) {
+    if (!already_executed_) {
+      ARROW_ASSIGN_OR_RAISE(rc_, statement_->Reset());
+      if (!statement_->parameters().empty()) {
+        if (batch_index_ >= statement_->parameters().size()) {
+          *out = nullptr;
+          break;
+        }
+        ARROW_RETURN_NOT_OK(statement_->Bind(batch_index_, row_index_));
       }
+      ARROW_ASSIGN_OR_RAISE(rc_, statement_->Step());
+      already_executed_ = true;
     }
 
-    ARROW_ASSIGN_OR_RAISE(rc_, statement_->Step());
-  }
+    while (rows < kMaxBatchSize && rc_ == SQLITE_ROW) {
+      rows++;
+      for (int i = 0; i < num_fields; i++) {
+        const std::shared_ptr<Field>& field = schema_->field(i);
+        const std::shared_ptr<DataType>& field_type = field->type();
+        ArrayBuilder* array_builder = builders[i].get();
+
+        if (sqlite3_column_type(stmt_, i) == SQLITE_NULL) {
+          ARROW_RETURN_NOT_OK(array_builder->AppendNull());
+          continue;
+        }
+
+        switch (field_type->id()) {
+          // XXX This doesn't handle overflows when converting to the target
+          // integer type.
+          INT_BUILDER_CASE(Int64, stmt_, i)
+          INT_BUILDER_CASE(UInt64, stmt_, i)
+          INT_BUILDER_CASE(Int32, stmt_, i)
+          INT_BUILDER_CASE(UInt32, stmt_, i)
+          INT_BUILDER_CASE(Int16, stmt_, i)
+          INT_BUILDER_CASE(UInt16, stmt_, i)
+          INT_BUILDER_CASE(Int8, stmt_, i)
+          INT_BUILDER_CASE(UInt8, stmt_, i)
+          FLOAT_BUILDER_CASE(Double, stmt_, i)
+          FLOAT_BUILDER_CASE(Float, stmt_, i)
+          FLOAT_BUILDER_CASE(HalfFloat, stmt_, i)
+          BINARY_BUILDER_CASE(Binary, stmt_, i)
+          BINARY_BUILDER_CASE(LargeBinary, stmt_, i)
+          STRING_BUILDER_CASE(String, stmt_, i)
+          STRING_BUILDER_CASE(LargeString, stmt_, i)
+          default:
+            return Status::NotImplemented("Not implemented SQLite data conversion to ",
+                                          field_type->name());
+        }
+      }
 
-  if (rows > 0) {
-    std::vector<std::shared_ptr<Array>> arrays(builders.size());
-    for (int i = 0; i < num_fields; i++) {
-      ARROW_RETURN_NOT_OK(builders[i]->Finish(&arrays[i]));
+      ARROW_ASSIGN_OR_RAISE(rc_, statement_->Step());
     }
 
-    *out = RecordBatch::Make(schema_, rows, arrays);
-  } else {
-    *out = NULLPTR;
-  }
+    // If we still have bind parameters, bind again and retry
+    const std::vector<std::shared_ptr<RecordBatch>>& params = statement_->parameters();
+    if (!params.empty() && rc_ == SQLITE_DONE && batch_index_ < params.size()) {
+      row_index_++;
+      if (row_index_ < params[batch_index_]->num_rows()) {
+        already_executed_ = false;
+      } else {
+        batch_index_++;
+        row_index_ = 0;
+        if (batch_index_ < params.size()) {
+          already_executed_ = false;
+        }
+      }
+
+      if (!already_executed_ && rows < kMaxBatchSize) continue;
+    }
 
+    if (rows > 0) {
+      std::vector<std::shared_ptr<Array>> arrays(builders.size());
+      for (int i = 0; i < num_fields; i++) {
+        ARROW_RETURN_NOT_OK(builders[i]->Finish(&arrays[i]));
+      }
+
+      *out = RecordBatch::Make(schema_, rows, arrays);
+    } else {
+      *out = nullptr;
+    }
+    break;
+  }
   return Status::OK();
 }
 
diff --git a/cpp/src/arrow/flight/sql/example/sqlite_statement_batch_reader.h b/cpp/src/arrow/flight/sql/example/sqlite_statement_batch_reader.h
index 8a6bc6078e7..3fb9ae1f83c 100644
--- a/cpp/src/arrow/flight/sql/example/sqlite_statement_batch_reader.h
+++ b/cpp/src/arrow/flight/sql/example/sqlite_statement_batch_reader.h
@@ -55,6 +55,10 @@ class SqliteStatementBatchReader : public RecordBatchReader {
   int rc_;
   bool already_executed_;
 
+  // State for parameter binding
+  size_t batch_index_{0};
+  int64_t row_index_{0};
+
   SqliteStatementBatchReader(std::shared_ptr<SqliteStatement> statement,
                              std::shared_ptr<Schema> schema);
 };
diff --git a/cpp/src/arrow/flight/sql/example/sqlite_tables_schema_batch_reader.cc b/cpp/src/arrow/flight/sql/example/sqlite_tables_schema_batch_reader.cc
index 68bde35c718..55345ad477a 100644
--- a/cpp/src/arrow/flight/sql/example/sqlite_tables_schema_batch_reader.cc
+++ b/cpp/src/arrow/flight/sql/example/sqlite_tables_schema_batch_reader.cc
@@ -21,6 +21,7 @@
 
 #include <sstream>
 
+#include "arrow/array/builder_binary.h"
 #include "arrow/flight/sql/column_metadata.h"
 #include "arrow/flight/sql/example/sqlite_server.h"
 #include "arrow/flight/sql/example/sqlite_statement.h"
@@ -80,20 +81,22 @@ Status SqliteTablesWithSchemaBatchReader::ReadNext(std::shared_ptr<RecordBatch>*
 
         const ColumnMetadata& column_metadata = GetColumnMetadata(
             GetSqlTypeFromTypeName(column_type), sqlite_table_name.c_str());
-        column_fields.push_back(arrow::field(column_name, GetArrowType(column_type),
-                                             nullable == 0,
+        std::shared_ptr<DataType> arrow_type;
+        auto status = GetArrowType(column_type).Value(&arrow_type);
+        if (!status.ok()) {
+          return Status::NotImplemented("Unknown SQLite type '", column_type,
+                                        "' for column '", column_name, "' in table '",
+                                        table_name, "': ", status);
+        }
+        column_fields.push_back(arrow::field(column_name, arrow_type, nullable == 0,
                                              column_metadata.metadata_map()));
       }
     }
-    const arrow::Result<std::shared_ptr<Buffer>>& value =
-        ipc::SerializeSchema(*arrow::schema(column_fields));
-
-    std::shared_ptr<Buffer> schema_buffer;
-    ARROW_ASSIGN_OR_RAISE(schema_buffer, value);
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Buffer> schema_buffer,
+                          ipc::SerializeSchema(*arrow::schema(column_fields)));
 
     column_fields.clear();
-    ARROW_RETURN_NOT_OK(
-        schema_builder.Append(::arrow::util::string_view(*schema_buffer)));
+    ARROW_RETURN_NOT_OK(schema_builder.Append(::std::string_view(*schema_buffer)));
   }
 
   std::shared_ptr<Array> schema_array;
diff --git a/cpp/src/arrow/flight/sql/server.cc b/cpp/src/arrow/flight/sql/server.cc
index 0ebe647ba14..7f6d9b75a88 100644
--- a/cpp/src/arrow/flight/sql/server.cc
+++ b/cpp/src/arrow/flight/sql/server.cc
@@ -33,7 +33,7 @@
 #include "arrow/util/checked_cast.h"
 
 #define PROPERTY_TO_OPTIONAL(COMMAND, PROPERTY) \
-  COMMAND.has_##PROPERTY() ? util::make_optional(COMMAND.PROPERTY()) : util::nullopt
+  COMMAND.has_##PROPERTY() ? std::make_optional(COMMAND.PROPERTY()) : std::nullopt
 
 namespace arrow {
 namespace flight {
@@ -149,11 +149,29 @@ arrow::Result<StatementQuery> ParseCommandStatementQuery(
     const google::protobuf::Any& any) {
   pb::sql::CommandStatementQuery command;
   if (!any.UnpackTo(&command)) {
-    return Status::Invalid("Unable to unpack CommandStatementQuery.");
+    return Status::Invalid("Unable to unpack CommandStatementQuery");
   }
 
   StatementQuery result;
   result.query = command.query();
+  result.transaction_id = command.transaction_id();
+  return result;
+}
+
+SubstraitPlan ParseStatementSubstraitPlan(const pb::sql::SubstraitPlan& pb_plan) {
+  return {pb_plan.plan(), pb_plan.version()};
+}
+
+arrow::Result<StatementSubstraitPlan> ParseCommandStatementSubstraitPlan(
+    const google::protobuf::Any& any) {
+  pb::sql::CommandStatementSubstraitPlan command;
+  if (!any.UnpackTo(&command)) {
+    return Status::Invalid("Unable to unpack CommandStatementSubstraitPlan");
+  }
+
+  StatementSubstraitPlan result;
+  result.plan = ParseStatementSubstraitPlan(command.plan());
+  result.transaction_id = command.transaction_id();
   return result;
 }
 
@@ -190,18 +208,6 @@ arrow::Result<GetTables> ParseCommandGetTables(const google::protobuf::Any& any)
   return result;
 }
 
-arrow::Result<StatementQueryTicket> ParseStatementQueryTicket(
-    const google::protobuf::Any& any) {
-  pb::sql::TicketStatementQuery command;
-  if (!any.UnpackTo(&command)) {
-    return Status::Invalid("Unable to unpack TicketStatementQuery.");
-  }
-
-  StatementQueryTicket result;
-  result.statement_handle = command.statement_handle();
-  return result;
-}
-
 arrow::Result<StatementUpdate> ParseCommandStatementUpdate(
     const google::protobuf::Any& any) {
   pb::sql::CommandStatementUpdate command;
@@ -211,6 +217,7 @@ arrow::Result<StatementUpdate> ParseCommandStatementUpdate(
 
   StatementUpdate result;
   result.query = command.query();
+  result.transaction_id = command.transaction_id();
   return result;
 }
 
@@ -226,15 +233,65 @@ arrow::Result<PreparedStatementUpdate> ParseCommandPreparedStatementUpdate(
   return result;
 }
 
+arrow::Result<ActionBeginSavepointRequest> ParseActionBeginSavepointRequest(
+    const google::protobuf::Any& any) {
+  pb::sql::ActionBeginSavepointRequest command;
+  if (!any.UnpackTo(&command)) {
+    return Status::Invalid("Unable to unpack ActionBeginSavepointRequest");
+  }
+
+  ActionBeginSavepointRequest result;
+  result.transaction_id = command.transaction_id();
+  result.name = command.name();
+  return result;
+}
+
+arrow::Result<ActionBeginTransactionRequest> ParseActionBeginTransactionRequest(
+    const google::protobuf::Any& any) {
+  pb::sql::ActionBeginTransactionRequest command;
+  if (!any.UnpackTo(&command)) {
+    return Status::Invalid("Unable to unpack ActionBeginTransactionRequest");
+  }
+
+  ActionBeginTransactionRequest result;
+  return result;
+}
+
+arrow::Result<ActionCancelQueryRequest> ParseActionCancelQueryRequest(
+    const google::protobuf::Any& any) {
+  pb::sql::ActionCancelQueryRequest command;
+  if (!any.UnpackTo(&command)) {
+    return Status::Invalid("Unable to unpack ActionCancelQueryRequest");
+  }
+
+  ActionCancelQueryRequest result;
+  ARROW_ASSIGN_OR_RAISE(result.info, FlightInfo::Deserialize(command.info()));
+  return result;
+}
+
 arrow::Result<ActionCreatePreparedStatementRequest>
 ParseActionCreatePreparedStatementRequest(const google::protobuf::Any& any) {
   pb::sql::ActionCreatePreparedStatementRequest command;
   if (!any.UnpackTo(&command)) {
-    return Status::Invalid("Unable to unpack ActionCreatePreparedStatementRequest.");
+    return Status::Invalid("Unable to unpack ActionCreatePreparedStatementRequest");
   }
 
   ActionCreatePreparedStatementRequest result;
   result.query = command.query();
+  result.transaction_id = command.transaction_id();
+  return result;
+}
+
+arrow::Result<ActionCreatePreparedSubstraitPlanRequest>
+ParseActionCreatePreparedSubstraitPlanRequest(const google::protobuf::Any& any) {
+  pb::sql::ActionCreatePreparedSubstraitPlanRequest command;
+  if (!any.UnpackTo(&command)) {
+    return Status::Invalid("Unable to unpack ActionCreatePreparedSubstraitPlanRequest");
+  }
+
+  ActionCreatePreparedSubstraitPlanRequest result;
+  result.plan = ParseStatementSubstraitPlan(command.plan());
+  result.transaction_id = command.transaction_id();
   return result;
 }
 
@@ -242,7 +299,7 @@ arrow::Result<ActionClosePreparedStatementRequest>
 ParseActionClosePreparedStatementRequest(const google::protobuf::Any& any) {
   pb::sql::ActionClosePreparedStatementRequest command;
   if (!any.UnpackTo(&command)) {
-    return Status::Invalid("Unable to unpack ActionClosePreparedStatementRequest.");
+    return Status::Invalid("Unable to unpack ActionClosePreparedStatementRequest");
   }
 
   ActionClosePreparedStatementRequest result;
@@ -250,8 +307,139 @@ ParseActionClosePreparedStatementRequest(const google::protobuf::Any& any) {
   return result;
 }
 
+arrow::Result<ActionEndSavepointRequest> ParseActionEndSavepointRequest(
+    const google::protobuf::Any& any) {
+  pb::sql::ActionEndSavepointRequest command;
+  if (!any.UnpackTo(&command)) {
+    return Status::Invalid("Unable to unpack ActionEndSavepointRequest");
+  }
+
+  ActionEndSavepointRequest result;
+  result.savepoint_id = command.savepoint_id();
+  switch (command.action()) {
+    case pb::sql::ActionEndSavepointRequest::END_SAVEPOINT_UNSPECIFIED:
+      return Status::Invalid(
+          "ActionEndSavepointRequest.action was END_SAVEPOINT_UNSPECIFIED");
+    case pb::sql::ActionEndSavepointRequest::END_SAVEPOINT_RELEASE:
+      result.action = ActionEndSavepointRequest::kRelease;
+      break;
+    case pb::sql::ActionEndSavepointRequest::END_SAVEPOINT_ROLLBACK:
+      result.action = ActionEndSavepointRequest::kRollback;
+      break;
+    default:
+      return Status::Invalid("Unknown value for ActionEndSavepointRequest.action: ",
+                             command.action());
+  }
+  return result;
+}
+
+arrow::Result<ActionEndTransactionRequest> ParseActionEndTransactionRequest(
+    const google::protobuf::Any& any) {
+  pb::sql::ActionEndTransactionRequest command;
+  if (!any.UnpackTo(&command)) {
+    return Status::Invalid("Unable to unpack ActionEndTransactionRequest");
+  }
+
+  ActionEndTransactionRequest result;
+  result.transaction_id = command.transaction_id();
+  switch (command.action()) {
+    case pb::sql::ActionEndTransactionRequest::END_TRANSACTION_UNSPECIFIED:
+      return Status::Invalid(
+          "ActionEndTransactionRequest.action was END_TRANSACTION_UNSPECIFIED");
+    case pb::sql::ActionEndTransactionRequest::END_TRANSACTION_COMMIT:
+      result.action = ActionEndTransactionRequest::kCommit;
+      break;
+    case pb::sql::ActionEndTransactionRequest::END_TRANSACTION_ROLLBACK:
+      result.action = ActionEndTransactionRequest::kRollback;
+      break;
+    default:
+      return Status::Invalid("Unknown value for ActionEndTransactionRequest.action: ",
+                             command.action());
+  }
+  return result;
+}
+
+arrow::Result<Result> PackActionResult(const google::protobuf::Message& message) {
+  google::protobuf::Any any;
+  if (!any.PackFrom(message)) {
+    return Status::IOError("Failed to pack ", message.GetTypeName());
+  }
+
+  std::string buffer;
+  if (!any.SerializeToString(&buffer)) {
+    return Status::IOError("Failed to serialize packed ", message.GetTypeName());
+  }
+  return Result{Buffer::FromString(std::move(buffer))};
+}
+
+arrow::Result<Result> PackActionResult(ActionBeginSavepointResult result) {
+  pb::sql::ActionBeginSavepointResult pb_result;
+  pb_result.set_savepoint_id(std::move(result.savepoint_id));
+  return PackActionResult(pb_result);
+}
+
+arrow::Result<Result> PackActionResult(ActionBeginTransactionResult result) {
+  pb::sql::ActionBeginTransactionResult pb_result;
+  pb_result.set_transaction_id(std::move(result.transaction_id));
+  return PackActionResult(pb_result);
+}
+
+arrow::Result<Result> PackActionResult(CancelResult result) {
+  pb::sql::ActionCancelQueryResult pb_result;
+  switch (result) {
+    case CancelResult::kUnspecified:
+      pb_result.set_result(pb::sql::ActionCancelQueryResult::CANCEL_RESULT_UNSPECIFIED);
+      break;
+    case CancelResult::kCancelled:
+      pb_result.set_result(pb::sql::ActionCancelQueryResult::CANCEL_RESULT_CANCELLED);
+      break;
+    case CancelResult::kCancelling:
+      pb_result.set_result(pb::sql::ActionCancelQueryResult::CANCEL_RESULT_CANCELLING);
+      break;
+    case CancelResult::kNotCancellable:
+      pb_result.set_result(
+          pb::sql::ActionCancelQueryResult::CANCEL_RESULT_NOT_CANCELLABLE);
+      break;
+  }
+  return PackActionResult(pb_result);
+}
+
+arrow::Result<Result> PackActionResult(ActionCreatePreparedStatementResult result) {
+  pb::sql::ActionCreatePreparedStatementResult pb_result;
+  pb_result.set_prepared_statement_handle(std::move(result.prepared_statement_handle));
+  if (result.dataset_schema != nullptr) {
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Buffer> serialized,
+                          ipc::SerializeSchema(*result.dataset_schema));
+    pb_result.set_dataset_schema(reinterpret_cast<const char*>(serialized->data()),
+                                 serialized->size());
+  }
+  if (result.parameter_schema != nullptr) {
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Buffer> serialized,
+                          ipc::SerializeSchema(*result.parameter_schema));
+    pb_result.set_parameter_schema(reinterpret_cast<const char*>(serialized->data()),
+                                   serialized->size());
+  }
+
+  return PackActionResult(pb_result);
+}
+
 }  // namespace
 
+arrow::Result<StatementQueryTicket> StatementQueryTicket::Deserialize(
+    std::string_view serialized) {
+  pb::sql::TicketStatementQuery command;
+  google::protobuf::Any any;
+  if (!any.ParseFromArray(serialized.data(), static_cast<int>(serialized.size()))) {
+    return Status::Invalid("Unable to parse ticket");
+  }
+  if (!any.UnpackTo(&command)) {
+    return Status::Invalid("Unable to unpack TicketStatementQuery");
+  }
+  StatementQueryTicket result;
+  result.statement_handle = command.statement_handle();
+  return result;
+}
+
 arrow::Result<std::string> CreateStatementQueryTicket(
     const std::string& statement_handle) {
   protocol::sql::TicketStatementQuery ticket_statement_query;
@@ -282,6 +470,12 @@ Status FlightSqlServerBase::GetFlightInfo(const ServerCallContext& context,
     ARROW_ASSIGN_OR_RAISE(*info,
                           GetFlightInfoStatement(context, internal_command, request));
     return Status::OK();
+  } else if (any.Is<pb::sql::CommandStatementSubstraitPlan>()) {
+    ARROW_ASSIGN_OR_RAISE(StatementSubstraitPlan internal_command,
+                          ParseCommandStatementSubstraitPlan(any));
+    ARROW_ASSIGN_OR_RAISE(*info,
+                          GetFlightInfoSubstraitPlan(context, internal_command, request));
+    return Status::OK();
   } else if (any.Is<pb::sql::CommandPreparedStatementQuery>()) {
     ARROW_ASSIGN_OR_RAISE(PreparedStatementQuery internal_command,
                           ParseCommandPreparedStatementQuery(any));
@@ -344,18 +538,94 @@ Status FlightSqlServerBase::GetFlightInfo(const ServerCallContext& context,
   return Status::Invalid("The defined request is invalid.");
 }
 
+Status FlightSqlServerBase::GetSchema(const ServerCallContext& context,
+                                      const FlightDescriptor& request,
+                                      std::unique_ptr<SchemaResult>* schema) {
+  google::protobuf::Any any;
+  if (!any.ParseFromArray(request.cmd.data(), static_cast<int>(request.cmd.size()))) {
+    return Status::Invalid("Unable to parse command");
+  }
+
+  if (any.Is<pb::sql::CommandStatementQuery>()) {
+    ARROW_ASSIGN_OR_RAISE(StatementQuery internal_command,
+                          ParseCommandStatementQuery(any));
+    ARROW_ASSIGN_OR_RAISE(*schema,
+                          GetSchemaStatement(context, internal_command, request));
+    return Status::OK();
+  } else if (any.Is<pb::sql::CommandStatementSubstraitPlan>()) {
+    ARROW_ASSIGN_OR_RAISE(StatementSubstraitPlan internal_command,
+                          ParseCommandStatementSubstraitPlan(any));
+    ARROW_ASSIGN_OR_RAISE(*schema,
+                          GetSchemaSubstraitPlan(context, internal_command, request));
+    return Status::OK();
+  } else if (any.Is<pb::sql::CommandPreparedStatementQuery>()) {
+    ARROW_ASSIGN_OR_RAISE(PreparedStatementQuery internal_command,
+                          ParseCommandPreparedStatementQuery(any));
+    ARROW_ASSIGN_OR_RAISE(*schema,
+                          GetSchemaPreparedStatement(context, internal_command, request));
+    return Status::OK();
+  } else if (any.Is<pb::sql::CommandGetCatalogs>()) {
+    ARROW_ASSIGN_OR_RAISE(*schema, SchemaResult::Make(*SqlSchema::GetCatalogsSchema()));
+    return Status::OK();
+  } else if (any.Is<pb::sql::CommandGetCrossReference>()) {
+    ARROW_ASSIGN_OR_RAISE(*schema,
+                          SchemaResult::Make(*SqlSchema::GetCrossReferenceSchema()));
+    return Status::OK();
+  } else if (any.Is<pb::sql::CommandGetDbSchemas>()) {
+    ARROW_ASSIGN_OR_RAISE(*schema, SchemaResult::Make(*SqlSchema::GetDbSchemasSchema()));
+    return Status::OK();
+  } else if (any.Is<pb::sql::CommandGetExportedKeys>()) {
+    ARROW_ASSIGN_OR_RAISE(*schema,
+                          SchemaResult::Make(*SqlSchema::GetExportedKeysSchema()));
+    return Status::OK();
+  } else if (any.Is<pb::sql::CommandGetImportedKeys>()) {
+    ARROW_ASSIGN_OR_RAISE(*schema,
+                          SchemaResult::Make(*SqlSchema::GetImportedKeysSchema()));
+    return Status::OK();
+  } else if (any.Is<pb::sql::CommandGetPrimaryKeys>()) {
+    ARROW_ASSIGN_OR_RAISE(*schema,
+                          SchemaResult::Make(*SqlSchema::GetPrimaryKeysSchema()));
+    return Status::OK();
+  } else if (any.Is<pb::sql::CommandGetSqlInfo>()) {
+    ARROW_ASSIGN_OR_RAISE(*schema, SchemaResult::Make(*SqlSchema::GetSqlInfoSchema()));
+    return Status::OK();
+  } else if (any.Is<pb::sql::CommandGetTables>()) {
+    ARROW_ASSIGN_OR_RAISE(GetTables command, ParseCommandGetTables(any));
+    if (command.include_schema) {
+      ARROW_ASSIGN_OR_RAISE(
+          *schema, SchemaResult::Make(*SqlSchema::GetTablesSchemaWithIncludedSchema()));
+    } else {
+      ARROW_ASSIGN_OR_RAISE(*schema, SchemaResult::Make(*SqlSchema::GetTablesSchema()));
+    }
+    return Status::OK();
+  } else if (any.Is<pb::sql::CommandGetTableTypes>()) {
+    ARROW_ASSIGN_OR_RAISE(*schema, SchemaResult::Make(*SqlSchema::GetTableTypesSchema()));
+    return Status::OK();
+  } else if (any.Is<pb::sql::CommandGetXdbcTypeInfo>()) {
+    ARROW_ASSIGN_OR_RAISE(*schema,
+                          SchemaResult::Make(*SqlSchema::GetXdbcTypeInfoSchema()));
+    return Status::OK();
+  }
+
+  return Status::NotImplemented("Command not recognized: ", any.type_url());
+}
+
 Status FlightSqlServerBase::DoGet(const ServerCallContext& context, const Ticket& request,
                                   std::unique_ptr<FlightDataStream>* stream) {
   google::protobuf::Any any;
-
   if (!any.ParseFromArray(request.ticket.data(),
                           static_cast<int>(request.ticket.size()))) {
-    return Status::Invalid("Unable to parse ticket.");
+    return Status::Invalid("Unable to parse ticket");
   }
 
   if (any.Is<pb::sql::TicketStatementQuery>()) {
-    ARROW_ASSIGN_OR_RAISE(StatementQueryTicket command, ParseStatementQueryTicket(any));
-    ARROW_ASSIGN_OR_RAISE(*stream, DoGetStatement(context, command));
+    pb::sql::TicketStatementQuery command;
+    if (!any.UnpackTo(&command)) {
+      return Status::Invalid("Unable to unpack TicketStatementQuery");
+    }
+    StatementQueryTicket result;
+    result.statement_handle = command.statement_handle();
+    ARROW_ASSIGN_OR_RAISE(*stream, DoGetStatement(context, result));
     return Status::OK();
   } else if (any.Is<pb::sql::CommandPreparedStatementQuery>()) {
     ARROW_ASSIGN_OR_RAISE(PreparedStatementQuery internal_command,
@@ -417,7 +687,7 @@ Status FlightSqlServerBase::DoPut(const ServerCallContext& context,
 
   google::protobuf::Any any;
   if (!any.ParseFromArray(request.cmd.data(), static_cast<int>(request.cmd.size()))) {
-    return Status::Invalid("Unable to parse command.");
+    return Status::Invalid("Unable to parse command");
   }
 
   if (any.Is<pb::sql::CommandStatementUpdate>()) {
@@ -432,6 +702,18 @@ Status FlightSqlServerBase::DoPut(const ServerCallContext& context,
     const auto buffer = Buffer::FromString(result.SerializeAsString());
     ARROW_RETURN_NOT_OK(writer->WriteMetadata(*buffer));
 
+    return Status::OK();
+  } else if (any.Is<pb::sql::CommandStatementSubstraitPlan>()) {
+    ARROW_ASSIGN_OR_RAISE(StatementSubstraitPlan internal_command,
+                          ParseCommandStatementSubstraitPlan(any));
+    ARROW_ASSIGN_OR_RAISE(auto record_count,
+                          DoPutCommandSubstraitPlan(context, internal_command));
+
+    pb::sql::DoPutUpdateResult result;
+    result.set_record_count(record_count);
+
+    const auto buffer = Buffer::FromString(result.SerializeAsString());
+    ARROW_RETURN_NOT_OK(writer->WriteMetadata(*buffer));
     return Status::OK();
   } else if (any.Is<pb::sql::CommandPreparedStatementQuery>()) {
     ARROW_ASSIGN_OR_RAISE(PreparedStatementQuery internal_command,
@@ -441,78 +723,103 @@ Status FlightSqlServerBase::DoPut(const ServerCallContext& context,
   } else if (any.Is<pb::sql::CommandPreparedStatementUpdate>()) {
     ARROW_ASSIGN_OR_RAISE(PreparedStatementUpdate internal_command,
                           ParseCommandPreparedStatementUpdate(any));
-    ARROW_ASSIGN_OR_RAISE(auto record_count, DoPutPreparedStatementUpdate(
-                                                 context, internal_command, reader.get()))
+    ARROW_ASSIGN_OR_RAISE(
+        auto record_count,
+        DoPutPreparedStatementUpdate(context, internal_command, reader.get()));
 
     pb::sql::DoPutUpdateResult result;
     result.set_record_count(record_count);
 
     const auto buffer = Buffer::FromString(result.SerializeAsString());
     ARROW_RETURN_NOT_OK(writer->WriteMetadata(*buffer));
-
     return Status::OK();
   }
 
-  return Status::Invalid("The defined request is invalid.");
+  return Status::NotImplemented("Command not recognized: ", any.type_url());
 }
 
 Status FlightSqlServerBase::ListActions(const ServerCallContext& context,
                                         std::vector<ActionType>* actions) {
-  *actions = {FlightSqlServerBase::kCreatePreparedStatementActionType,
-              FlightSqlServerBase::kClosePreparedStatementActionType};
+  *actions = {
+      FlightSqlServerBase::kBeginSavepointActionType,
+      FlightSqlServerBase::kBeginTransactionActionType,
+      FlightSqlServerBase::kCancelQueryActionType,
+      FlightSqlServerBase::kCreatePreparedStatementActionType,
+      FlightSqlServerBase::kCreatePreparedSubstraitPlanActionType,
+      FlightSqlServerBase::kClosePreparedStatementActionType,
+      FlightSqlServerBase::kEndSavepointActionType,
+      FlightSqlServerBase::kEndTransactionActionType,
+  };
   return Status::OK();
 }
 
 Status FlightSqlServerBase::DoAction(const ServerCallContext& context,
                                      const Action& action,
                                      std::unique_ptr<ResultStream>* result_stream) {
-  if (action.type == FlightSqlServerBase::kCreatePreparedStatementActionType.type) {
-    google::protobuf::Any any_command;
-    if (!any_command.ParseFromArray(action.body->data(),
-                                    static_cast<int>(action.body->size()))) {
-      return Status::Invalid("Unable to parse action.");
-    }
+  google::protobuf::Any any;
+  if (!any.ParseFromArray(action.body->data(), static_cast<int>(action.body->size()))) {
+    return Status::Invalid("Unable to parse action");
+  }
 
+  std::vector<Result> results;
+  if (action.type == FlightSqlServerBase::kBeginSavepointActionType.type) {
+    ARROW_ASSIGN_OR_RAISE(ActionBeginSavepointRequest internal_command,
+                          ParseActionBeginSavepointRequest(any));
+    ARROW_ASSIGN_OR_RAISE(ActionBeginSavepointResult result,
+                          BeginSavepoint(context, internal_command));
+    ARROW_ASSIGN_OR_RAISE(Result packed_result, PackActionResult(std::move(result)));
+
+    results.push_back(std::move(packed_result));
+  } else if (action.type == FlightSqlServerBase::kBeginTransactionActionType.type) {
+    ARROW_ASSIGN_OR_RAISE(ActionBeginTransactionRequest internal_command,
+                          ParseActionBeginTransactionRequest(any));
+    ARROW_ASSIGN_OR_RAISE(ActionBeginTransactionResult result,
+                          BeginTransaction(context, internal_command));
+    ARROW_ASSIGN_OR_RAISE(Result packed_result, PackActionResult(std::move(result)));
+
+    results.push_back(std::move(packed_result));
+  } else if (action.type == FlightSqlServerBase::kCancelQueryActionType.type) {
+    ARROW_ASSIGN_OR_RAISE(ActionCancelQueryRequest internal_command,
+                          ParseActionCancelQueryRequest(any));
+    ARROW_ASSIGN_OR_RAISE(CancelResult result, CancelQuery(context, internal_command));
+    ARROW_ASSIGN_OR_RAISE(Result packed_result, PackActionResult(result));
+
+    results.push_back(std::move(packed_result));
+  } else if (action.type ==
+             FlightSqlServerBase::kCreatePreparedStatementActionType.type) {
     ARROW_ASSIGN_OR_RAISE(ActionCreatePreparedStatementRequest internal_command,
-                          ParseActionCreatePreparedStatementRequest(any_command));
-    ARROW_ASSIGN_OR_RAISE(auto result, CreatePreparedStatement(context, internal_command))
-
-    pb::sql::ActionCreatePreparedStatementResult action_result;
-    action_result.set_prepared_statement_handle(result.prepared_statement_handle);
-    if (result.dataset_schema != nullptr) {
-      ARROW_ASSIGN_OR_RAISE(auto serialized_dataset_schema,
-                            ipc::SerializeSchema(*result.dataset_schema))
-      action_result.set_dataset_schema(serialized_dataset_schema->ToString());
-    }
-    if (result.parameter_schema != nullptr) {
-      ARROW_ASSIGN_OR_RAISE(auto serialized_parameter_schema,
-                            ipc::SerializeSchema(*result.parameter_schema))
-      action_result.set_parameter_schema(serialized_parameter_schema->ToString());
-    }
-
-    google::protobuf::Any any;
-    any.PackFrom(action_result);
-
-    auto buf = Buffer::FromString(any.SerializeAsString());
-    *result_stream = std::unique_ptr<ResultStream>(new SimpleResultStream({Result{buf}}));
-
-    return Status::OK();
+                          ParseActionCreatePreparedStatementRequest(any));
+    ARROW_ASSIGN_OR_RAISE(ActionCreatePreparedStatementResult result,
+                          CreatePreparedStatement(context, internal_command));
+    ARROW_ASSIGN_OR_RAISE(Result packed_result, PackActionResult(std::move(result)));
+
+    results.push_back(std::move(packed_result));
+  } else if (action.type ==
+             FlightSqlServerBase::kCreatePreparedSubstraitPlanActionType.type) {
+    ARROW_ASSIGN_OR_RAISE(ActionCreatePreparedSubstraitPlanRequest internal_command,
+                          ParseActionCreatePreparedSubstraitPlanRequest(any));
+    ARROW_ASSIGN_OR_RAISE(ActionCreatePreparedStatementResult result,
+                          CreatePreparedSubstraitPlan(context, internal_command));
+    ARROW_ASSIGN_OR_RAISE(Result packed_result, PackActionResult(std::move(result)));
+
+    results.push_back(std::move(packed_result));
   } else if (action.type == FlightSqlServerBase::kClosePreparedStatementActionType.type) {
-    google::protobuf::Any any;
-    if (!any.ParseFromArray(action.body->data(), static_cast<int>(action.body->size()))) {
-      return Status::Invalid("Unable to parse action.");
-    }
-
     ARROW_ASSIGN_OR_RAISE(ActionClosePreparedStatementRequest internal_command,
                           ParseActionClosePreparedStatementRequest(any));
-
     ARROW_RETURN_NOT_OK(ClosePreparedStatement(context, internal_command));
-
-    // Need to instantiate a ResultStream, otherwise clients can not wait for completion.
-    *result_stream = std::unique_ptr<ResultStream>(new SimpleResultStream({}));
-    return Status::OK();
+  } else if (action.type == FlightSqlServerBase::kEndSavepointActionType.type) {
+    ARROW_ASSIGN_OR_RAISE(ActionEndSavepointRequest internal_command,
+                          ParseActionEndSavepointRequest(any));
+    ARROW_RETURN_NOT_OK(EndSavepoint(context, internal_command));
+  } else if (action.type == FlightSqlServerBase::kEndTransactionActionType.type) {
+    ARROW_ASSIGN_OR_RAISE(ActionEndTransactionRequest internal_command,
+                          ParseActionEndTransactionRequest(any));
+    ARROW_RETURN_NOT_OK(EndTransaction(context, internal_command));
+  } else {
+    return Status::NotImplemented("Action not implemented: ", action.type);
   }
-  return Status::Invalid("The defined request is invalid.");
+  *result_stream = std::make_unique<SimpleResultStream>(std::move(results));
+  return Status::OK();
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlServerBase::GetFlightInfoCatalogs(
@@ -531,6 +838,25 @@ arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlServerBase::GetFlightInfoSta
   return Status::NotImplemented("GetFlightInfoStatement not implemented");
 }
 
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlServerBase::GetSchemaStatement(
+    const ServerCallContext& context, const StatementQuery& command,
+    const FlightDescriptor& descriptor) {
+  return Status::NotImplemented("GetSchemaStatement not implemented");
+}
+
+arrow::Result<std::unique_ptr<FlightInfo>>
+FlightSqlServerBase::GetFlightInfoSubstraitPlan(const ServerCallContext& context,
+                                                const StatementSubstraitPlan& command,
+                                                const FlightDescriptor& descriptor) {
+  return Status::NotImplemented("GetFlightInfoSubstraitPlan not implemented");
+}
+
+arrow::Result<std::unique_ptr<SchemaResult>> FlightSqlServerBase::GetSchemaSubstraitPlan(
+    const ServerCallContext& context, const StatementSubstraitPlan& command,
+    const FlightDescriptor& descriptor) {
+  return Status::NotImplemented("GetSchemaSubstraitPlan not implemented");
+}
+
 arrow::Result<std::unique_ptr<FlightDataStream>> FlightSqlServerBase::DoGetStatement(
     const ServerCallContext& context, const StatementQueryTicket& command) {
   return Status::NotImplemented("DoGetStatement not implemented");
@@ -543,6 +869,13 @@ FlightSqlServerBase::GetFlightInfoPreparedStatement(const ServerCallContext& con
   return Status::NotImplemented("GetFlightInfoPreparedStatement not implemented");
 }
 
+arrow::Result<std::unique_ptr<SchemaResult>>
+FlightSqlServerBase::GetSchemaPreparedStatement(const ServerCallContext& context,
+                                                const PreparedStatementQuery& command,
+                                                const FlightDescriptor& descriptor) {
+  return Status::NotImplemented("GetSchemaPreparedStatement not implemented");
+}
+
 arrow::Result<std::unique_ptr<FlightDataStream>>
 FlightSqlServerBase::DoGetPreparedStatement(const ServerCallContext& context,
                                             const PreparedStatementQuery& command) {
@@ -560,7 +893,7 @@ arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlServerBase::GetFlightInfoSql
   ARROW_ASSIGN_OR_RAISE(auto result, FlightInfo::Make(*SqlSchema::GetSqlInfoSchema(),
                                                       descriptor, endpoints, -1, -1))
 
-  return std::unique_ptr<FlightInfo>(new FlightInfo(result));
+  return std::make_unique<FlightInfo>(result);
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlServerBase::GetFlightInfoXdbcTypeInfo(
@@ -601,7 +934,7 @@ arrow::Result<std::unique_ptr<FlightDataStream>> FlightSqlServerBase::DoGetSqlIn
       return Status::KeyError("No information for SQL info number ", info);
     }
     ARROW_RETURN_NOT_OK(name_field_builder.Append(info));
-    ARROW_RETURN_NOT_OK(arrow::util::visit(sql_info_result_appender, it->second));
+    ARROW_RETURN_NOT_OK(std::visit(sql_info_result_appender, it->second));
   }
 
   std::shared_ptr<Array> name;
@@ -614,7 +947,7 @@ arrow::Result<std::unique_ptr<FlightDataStream>> FlightSqlServerBase::DoGetSqlIn
       RecordBatch::Make(SqlSchema::GetSqlInfoSchema(), row_count, {name, value});
   ARROW_ASSIGN_OR_RAISE(const auto reader, RecordBatchReader::Make({batch}));
 
-  return std::unique_ptr<FlightDataStream>(new RecordBatchStream(reader));
+  return std::make_unique<RecordBatchStream>(reader);
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> FlightSqlServerBase::GetFlightInfoSchemas(
@@ -694,6 +1027,21 @@ arrow::Result<std::unique_ptr<FlightDataStream>> FlightSqlServerBase::DoGetCross
   return Status::NotImplemented("DoGetCrossReference not implemented");
 }
 
+arrow::Result<ActionBeginSavepointResult> FlightSqlServerBase::BeginSavepoint(
+    const ServerCallContext& context, const ActionBeginSavepointRequest& request) {
+  return Status::NotImplemented("BeginSavepoint not implemented");
+}
+
+arrow::Result<ActionBeginTransactionResult> FlightSqlServerBase::BeginTransaction(
+    const ServerCallContext& context, const ActionBeginTransactionRequest& request) {
+  return Status::NotImplemented("BeginTransaction not implemented");
+}
+
+arrow::Result<CancelResult> FlightSqlServerBase::CancelQuery(
+    const ServerCallContext& context, const ActionCancelQueryRequest& request) {
+  return Status::NotImplemented("CancelQuery not implemented");
+}
+
 arrow::Result<ActionCreatePreparedStatementResult>
 FlightSqlServerBase::CreatePreparedStatement(
     const ServerCallContext& context,
@@ -701,12 +1049,29 @@ FlightSqlServerBase::CreatePreparedStatement(
   return Status::NotImplemented("CreatePreparedStatement not implemented");
 }
 
+arrow::Result<ActionCreatePreparedStatementResult>
+FlightSqlServerBase::CreatePreparedSubstraitPlan(
+    const ServerCallContext& context,
+    const ActionCreatePreparedSubstraitPlanRequest& request) {
+  return Status::NotImplemented("CreatePreparedSubstraitPlan not implemented");
+}
+
 Status FlightSqlServerBase::ClosePreparedStatement(
     const ServerCallContext& context,
     const ActionClosePreparedStatementRequest& request) {
   return Status::NotImplemented("ClosePreparedStatement not implemented");
 }
 
+Status FlightSqlServerBase::EndSavepoint(const ServerCallContext& context,
+                                         const ActionEndSavepointRequest& request) {
+  return Status::NotImplemented("EndSavepoint not implemented");
+}
+
+Status FlightSqlServerBase::EndTransaction(const ServerCallContext& context,
+                                           const ActionEndTransactionRequest& request) {
+  return Status::NotImplemented("EndTransaction not implemented");
+}
+
 Status FlightSqlServerBase::DoPutPreparedStatementQuery(
     const ServerCallContext& context, const PreparedStatementQuery& command,
     FlightMessageReader* reader, FlightMetadataWriter* writer) {
@@ -724,41 +1089,54 @@ arrow::Result<int64_t> FlightSqlServerBase::DoPutCommandStatementUpdate(
   return Status::NotImplemented("DoPutCommandStatementUpdate not implemented");
 }
 
-std::shared_ptr<Schema> SqlSchema::GetCatalogsSchema() {
-  return arrow::schema({field("catalog_name", utf8(), false)});
+arrow::Result<int64_t> FlightSqlServerBase::DoPutCommandSubstraitPlan(
+    const ServerCallContext& context, const StatementSubstraitPlan& command) {
+  return Status::NotImplemented("DoPutCommandSubstraitPlan not implemented");
+}
+
+const std::shared_ptr<Schema>& SqlSchema::GetCatalogsSchema() {
+  static std::shared_ptr<Schema> kSchema =
+      arrow::schema({field("catalog_name", utf8(), false)});
+  return kSchema;
 }
 
-std::shared_ptr<Schema> SqlSchema::GetDbSchemasSchema() {
-  return arrow::schema(
+const std::shared_ptr<Schema>& SqlSchema::GetDbSchemasSchema() {
+  static std::shared_ptr<Schema> kSchema = arrow::schema(
       {field("catalog_name", utf8()), field("db_schema_name", utf8(), false)});
+  return kSchema;
 }
 
-std::shared_ptr<Schema> SqlSchema::GetTablesSchema() {
-  return arrow::schema({field("catalog_name", utf8()), field("db_schema_name", utf8()),
-                        field("table_name", utf8(), false),
-                        field("table_type", utf8(), false)});
+const std::shared_ptr<Schema>& SqlSchema::GetTablesSchema() {
+  static std::shared_ptr<Schema> kSchema = arrow::schema(
+      {field("catalog_name", utf8()), field("db_schema_name", utf8()),
+       field("table_name", utf8(), false), field("table_type", utf8(), false)});
+  return kSchema;
 }
 
-std::shared_ptr<Schema> SqlSchema::GetTablesSchemaWithIncludedSchema() {
-  return arrow::schema({field("catalog_name", utf8()), field("db_schema_name", utf8()),
-                        field("table_name", utf8(), false),
-                        field("table_type", utf8(), false),
-                        field("table_schema", binary(), false)});
+const std::shared_ptr<Schema>& SqlSchema::GetTablesSchemaWithIncludedSchema() {
+  static std::shared_ptr<Schema> kSchema = arrow::schema(
+      {field("catalog_name", utf8()), field("db_schema_name", utf8()),
+       field("table_name", utf8(), false), field("table_type", utf8(), false),
+       field("table_schema", binary(), false)});
+  return kSchema;
 }
 
-std::shared_ptr<Schema> SqlSchema::GetTableTypesSchema() {
-  return arrow::schema({field("table_type", utf8(), false)});
+const std::shared_ptr<Schema>& SqlSchema::GetTableTypesSchema() {
+  static std::shared_ptr<Schema> kSchema =
+      arrow::schema({field("table_type", utf8(), false)});
+  return kSchema;
 }
 
-std::shared_ptr<Schema> SqlSchema::GetPrimaryKeysSchema() {
-  return arrow::schema(
+const std::shared_ptr<Schema>& SqlSchema::GetPrimaryKeysSchema() {
+  static std::shared_ptr<Schema> kSchema = arrow::schema(
       {field("catalog_name", utf8()), field("db_schema_name", utf8()),
        field("table_name", utf8(), false), field("column_name", utf8(), false),
        field("key_sequence", int32(), false), field("key_name", utf8())});
+  return kSchema;
 }
 
-std::shared_ptr<Schema> GetImportedExportedKeysAndCrossReferenceSchema() {
-  return arrow::schema(
+const std::shared_ptr<Schema>& GetImportedExportedKeysAndCrossReferenceSchema() {
+  static std::shared_ptr<Schema> kSchema = arrow::schema(
       {field("pk_catalog_name", utf8(), true), field("pk_db_schema_name", utf8(), true),
        field("pk_table_name", utf8(), false), field("pk_column_name", utf8(), false),
        field("fk_catalog_name", utf8(), true), field("fk_db_schema_name", utf8(), true),
@@ -766,35 +1144,44 @@ std::shared_ptr<Schema> GetImportedExportedKeysAndCrossReferenceSchema() {
        field("key_sequence", int32(), false), field("fk_key_name", utf8(), true),
        field("pk_key_name", utf8(), true), field("update_rule", uint8(), false),
        field("delete_rule", uint8(), false)});
+  return kSchema;
 }
 
-std::shared_ptr<Schema> SqlSchema::GetImportedKeysSchema() {
-  return GetImportedExportedKeysAndCrossReferenceSchema();
+const std::shared_ptr<Schema>& SqlSchema::GetImportedKeysSchema() {
+  static std::shared_ptr<Schema> kSchema =
+      GetImportedExportedKeysAndCrossReferenceSchema();
+  return kSchema;
 }
 
-std::shared_ptr<Schema> SqlSchema::GetExportedKeysSchema() {
-  return GetImportedExportedKeysAndCrossReferenceSchema();
+const std::shared_ptr<Schema>& SqlSchema::GetExportedKeysSchema() {
+  static std::shared_ptr<Schema> kSchema =
+      GetImportedExportedKeysAndCrossReferenceSchema();
+  return kSchema;
 }
 
-std::shared_ptr<Schema> SqlSchema::GetCrossReferenceSchema() {
-  return GetImportedExportedKeysAndCrossReferenceSchema();
+const std::shared_ptr<Schema>& SqlSchema::GetCrossReferenceSchema() {
+  static std::shared_ptr<Schema> kSchema =
+      GetImportedExportedKeysAndCrossReferenceSchema();
+  return kSchema;
 }
 
-std::shared_ptr<Schema> SqlSchema::GetSqlInfoSchema() {
-  return arrow::schema({field("info_name", uint32(), false),
-                        field("value",
-                              dense_union({field("string_value", utf8(), false),
-                                           field("bool_value", boolean(), false),
-                                           field("bigint_value", int64(), false),
-                                           field("int32_bitmask", int32(), false),
-                                           field("string_list", list(utf8()), false),
-                                           field("int32_to_int32_list_map",
-                                                 map(int32(), list(int32())), false)}),
-                              false)});
+const std::shared_ptr<Schema>& SqlSchema::GetSqlInfoSchema() {
+  static std::shared_ptr<Schema> kSchema =
+      arrow::schema({field("info_name", uint32(), false),
+                     field("value",
+                           dense_union({field("string_value", utf8(), false),
+                                        field("bool_value", boolean(), false),
+                                        field("bigint_value", int64(), false),
+                                        field("int32_bitmask", int32(), false),
+                                        field("string_list", list(utf8()), false),
+                                        field("int32_to_int32_list_map",
+                                              map(int32(), list(int32())), false)}),
+                           false)});
+  return kSchema;
 }
 
-std::shared_ptr<Schema> SqlSchema::GetXdbcTypeInfoSchema() {
-  return arrow::schema({
+const std::shared_ptr<Schema>& SqlSchema::GetXdbcTypeInfoSchema() {
+  static std::shared_ptr<Schema> kSchema = arrow::schema({
       field("type_name", utf8(), false),
       field("data_type", int32(), false),
       field("column_size", int32()),
@@ -815,6 +1202,7 @@ std::shared_ptr<Schema> SqlSchema::GetXdbcTypeInfoSchema() {
       field("num_prec_radix", int32()),
       field("interval_precision", int32()),
   });
+  return kSchema;
 }
 }  // namespace sql
 }  // namespace flight
diff --git a/cpp/src/arrow/flight/sql/server.h b/cpp/src/arrow/flight/sql/server.h
index f077c5d5d5d..65f6670171d 100644
--- a/cpp/src/arrow/flight/sql/server.h
+++ b/cpp/src/arrow/flight/sql/server.h
@@ -21,14 +21,16 @@
 #pragma once
 
 #include <memory>
+#include <optional>
 #include <string>
+#include <string_view>
 #include <unordered_map>
 
 #include "arrow/flight/server.h"
 #include "arrow/flight/sql/server.h"
 #include "arrow/flight/sql/types.h"
 #include "arrow/flight/sql/visibility.h"
-#include "arrow/util/optional.h"
+#include "arrow/flight/types.h"
 
 namespace arrow {
 namespace flight {
@@ -43,18 +45,32 @@ namespace sql {
 struct ARROW_FLIGHT_SQL_EXPORT StatementQuery {
   /// \brief The SQL query.
   std::string query;
+  /// \brief The transaction ID, if specified (else a blank string).
+  std::string transaction_id;
+};
+
+/// \brief A Substrait plan to execute.
+struct ARROW_FLIGHT_SQL_EXPORT StatementSubstraitPlan {
+  /// \brief The Substrait plan.
+  SubstraitPlan plan;
+  /// \brief The transaction ID, if specified (else a blank string).
+  std::string transaction_id;
 };
 
 /// \brief A SQL update query.
 struct ARROW_FLIGHT_SQL_EXPORT StatementUpdate {
   /// \brief The SQL query.
   std::string query;
+  /// \brief The transaction ID, if specified (else a blank string).
+  std::string transaction_id;
 };
 
 /// \brief A request to execute a query.
 struct ARROW_FLIGHT_SQL_EXPORT StatementQueryTicket {
   /// \brief The server-generated opaque identifier for the query.
   std::string statement_handle;
+
+  static arrow::Result<StatementQueryTicket> Deserialize(std::string_view serialized);
 };
 
 /// \brief A prepared query statement.
@@ -78,19 +94,19 @@ struct ARROW_FLIGHT_SQL_EXPORT GetSqlInfo {
 /// \brief A request to list database schemas.
 struct ARROW_FLIGHT_SQL_EXPORT GetDbSchemas {
   /// \brief An optional database catalog to filter on.
-  util::optional<std::string> catalog;
+  std::optional<std::string> catalog;
   /// \brief An optional database schema to filter on.
-  util::optional<std::string> db_schema_filter_pattern;
+  std::optional<std::string> db_schema_filter_pattern;
 };
 
 /// \brief A request to list database tables.
 struct ARROW_FLIGHT_SQL_EXPORT GetTables {
   /// \brief An optional database catalog to filter on.
-  util::optional<std::string> catalog;
+  std::optional<std::string> catalog;
   /// \brief An optional database schema to filter on.
-  util::optional<std::string> db_schema_filter_pattern;
+  std::optional<std::string> db_schema_filter_pattern;
   /// \brief An optional table name to filter on.
-  util::optional<std::string> table_name_filter_pattern;
+  std::optional<std::string> table_name_filter_pattern;
   /// \brief A list of table types to filter on.
   std::vector<std::string> table_types;
   /// \brief Whether to include the Arrow schema in the response.
@@ -100,7 +116,7 @@ struct ARROW_FLIGHT_SQL_EXPORT GetTables {
 /// \brief A request to get SQL data type information.
 struct ARROW_FLIGHT_SQL_EXPORT GetXdbcTypeInfo {
   /// \brief A specific SQL type ID to fetch information about.
-  util::optional<int> data_type;
+  std::optional<int> data_type;
 };
 
 /// \brief A request to list primary keys of a table.
@@ -131,10 +147,66 @@ struct ARROW_FLIGHT_SQL_EXPORT GetCrossReference {
   TableRef fk_table_ref;
 };
 
+/// \brief A request to start a new transaction.
+struct ARROW_FLIGHT_SQL_EXPORT ActionBeginTransactionRequest {};
+
+/// \brief A request to create a new savepoint.
+struct ARROW_FLIGHT_SQL_EXPORT ActionBeginSavepointRequest {
+  std::string transaction_id;
+  std::string name;
+};
+
+/// \brief The result of starting a new savepoint.
+struct ARROW_FLIGHT_SQL_EXPORT ActionBeginSavepointResult {
+  std::string savepoint_id;
+};
+
+/// \brief The result of starting a new transaction.
+struct ARROW_FLIGHT_SQL_EXPORT ActionBeginTransactionResult {
+  std::string transaction_id;
+};
+
+/// \brief A request to end a savepoint.
+struct ARROW_FLIGHT_SQL_EXPORT ActionEndSavepointRequest {
+  enum EndSavepoint {
+    kRelease,
+    kRollback,
+  };
+
+  std::string savepoint_id;
+  EndSavepoint action;
+};
+
+/// \brief A request to end a transaction.
+struct ARROW_FLIGHT_SQL_EXPORT ActionEndTransactionRequest {
+  enum EndTransaction {
+    kCommit,
+    kRollback,
+  };
+
+  std::string transaction_id;
+  EndTransaction action;
+};
+
+/// \brief An explicit request to cancel a running query.
+struct ARROW_FLIGHT_SQL_EXPORT ActionCancelQueryRequest {
+  std::unique_ptr<FlightInfo> info;
+};
+
 /// \brief A request to create a new prepared statement.
 struct ARROW_FLIGHT_SQL_EXPORT ActionCreatePreparedStatementRequest {
   /// \brief The SQL query.
   std::string query;
+  /// \brief The transaction ID, if specified (else a blank string).
+  std::string transaction_id;
+};
+
+/// \brief A request to create a new prepared statement with a Substrait plan.
+struct ARROW_FLIGHT_SQL_EXPORT ActionCreatePreparedSubstraitPlanRequest {
+  /// \brief The serialized Substrait plan.
+  SubstraitPlan plan;
+  /// \brief The transaction ID, if specified (else a blank string).
+  std::string transaction_id;
 };
 
 /// \brief A request to close a prepared statement.
@@ -188,6 +260,15 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlServerBase : public FlightServerBase {
       const ServerCallContext& context, const StatementQuery& command,
       const FlightDescriptor& descriptor);
 
+  /// \brief Get a FlightInfo for executing a Substrait plan.
+  /// \param[in] context      Per-call context.
+  /// \param[in] command      The StatementSubstraitPlan object containing the plan.
+  /// \param[in] descriptor   The descriptor identifying the data stream.
+  /// \return                 The FlightInfo describing where to access the dataset.
+  virtual arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoSubstraitPlan(
+      const ServerCallContext& context, const StatementSubstraitPlan& command,
+      const FlightDescriptor& descriptor);
+
   /// \brief Get a FlightDataStream containing the query results.
   /// \param[in] context      Per-call context.
   /// \param[in] command      The StatementQueryTicket containing the statement handle.
@@ -221,6 +302,34 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlServerBase : public FlightServerBase {
   virtual arrow::Result<std::unique_ptr<FlightInfo>> GetFlightInfoCatalogs(
       const ServerCallContext& context, const FlightDescriptor& descriptor);
 
+  /// \brief Get the schema of the result set of a query.
+  /// \param[in] context      Per-call context.
+  /// \param[in] command      The StatementQuery containing the SQL query.
+  /// \param[in] descriptor   The descriptor identifying the data stream.
+  /// \return                 The schema of the result set.
+  virtual arrow::Result<std::unique_ptr<SchemaResult>> GetSchemaStatement(
+      const ServerCallContext& context, const StatementQuery& command,
+      const FlightDescriptor& descriptor);
+
+  /// \brief Get the schema of the result set of a Substrait plan.
+  /// \param[in] context      Per-call context.
+  /// \param[in] command      The StatementQuery containing the plan.
+  /// \param[in] descriptor   The descriptor identifying the data stream.
+  /// \return                 The schema of the result set.
+  virtual arrow::Result<std::unique_ptr<SchemaResult>> GetSchemaSubstraitPlan(
+      const ServerCallContext& context, const StatementSubstraitPlan& command,
+      const FlightDescriptor& descriptor);
+
+  /// \brief Get the schema of the result set of a prepared statement.
+  /// \param[in] context      Per-call context.
+  /// \param[in] command      The PreparedStatementQuery containing the
+  ///                         prepared statement handle.
+  /// \param[in] descriptor   The descriptor identifying the data stream.
+  /// \return                 The schema of the result set.
+  virtual arrow::Result<std::unique_ptr<SchemaResult>> GetSchemaPreparedStatement(
+      const ServerCallContext& context, const PreparedStatementQuery& command,
+      const FlightDescriptor& descriptor);
+
   /// \brief Get a FlightDataStream containing the list of catalogs.
   /// \param[in] context  Per-call context.
   /// \return             An interface for sending data back to the client.
@@ -403,7 +512,14 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlServerBase : public FlightServerBase {
   virtual arrow::Result<int64_t> DoPutCommandStatementUpdate(
       const ServerCallContext& context, const StatementUpdate& command);
 
-  /// \brief Create a prepared statement from given SQL statement.
+  /// \brief Execute an update Substrait plan.
+  /// \param[in] context  The call context.
+  /// \param[in] command  The StatementSubstraitPlan object containing the plan.
+  /// \return             The changed record count.
+  virtual arrow::Result<int64_t> DoPutCommandSubstraitPlan(
+      const ServerCallContext& context, const StatementSubstraitPlan& command);
+
+  /// \brief Create a prepared statement from a given SQL statement.
   /// \param[in] context  The call context.
   /// \param[in] request  The ActionCreatePreparedStatementRequest object containing the
   ///                     SQL statement.
@@ -413,6 +529,16 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlServerBase : public FlightServerBase {
       const ServerCallContext& context,
       const ActionCreatePreparedStatementRequest& request);
 
+  /// \brief Create a prepared statement from a Substrait plan.
+  /// \param[in] context  The call context.
+  /// \param[in] request  The ActionCreatePreparedSubstraitPlanRequest object containing
+  ///                     the Substrait plan.
+  /// \return             A ActionCreatePreparedStatementResult containing the dataset
+  ///                     and parameter schemas and a handle for created statement.
+  virtual arrow::Result<ActionCreatePreparedStatementResult> CreatePreparedSubstraitPlan(
+      const ServerCallContext& context,
+      const ActionCreatePreparedSubstraitPlanRequest& request);
+
   /// \brief Close a prepared statement.
   /// \param[in] context  The call context.
   /// \param[in] request  The ActionClosePreparedStatementRequest object containing the
@@ -442,6 +568,39 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlServerBase : public FlightServerBase {
       const ServerCallContext& context, const PreparedStatementUpdate& command,
       FlightMessageReader* reader);
 
+  /// \brief Begin a new transaction.
+  /// \param[in] context  The call context.
+  /// \param[in] request  Request parameters.
+  /// \return             The transaction ID.
+  virtual arrow::Result<ActionBeginTransactionResult> BeginTransaction(
+      const ServerCallContext& context, const ActionBeginTransactionRequest& request);
+
+  /// \brief Create a new savepoint.
+  /// \param[in] context  The call context.
+  /// \param[in] request  Request parameters.
+  /// \return             The savepoint ID.
+  virtual arrow::Result<ActionBeginSavepointResult> BeginSavepoint(
+      const ServerCallContext& context, const ActionBeginSavepointRequest& request);
+
+  /// \brief Release/rollback a savepoint.
+  /// \param[in] context  The call context.
+  /// \param[in] request  The savepoint.
+  virtual Status EndSavepoint(const ServerCallContext& context,
+                              const ActionEndSavepointRequest& request);
+
+  /// \brief Commit/rollback a transaction.
+  /// \param[in] context  The call context.
+  /// \param[in] request  The tranaction.
+  virtual Status EndTransaction(const ServerCallContext& context,
+                                const ActionEndTransactionRequest& request);
+
+  /// \brief Attempt to explicitly cancel a query.
+  /// \param[in] context  The call context.
+  /// \param[in] request  The query to cancel.
+  /// \return             The cancellation result.
+  virtual arrow::Result<CancelResult> CancelQuery(
+      const ServerCallContext& context, const ActionCancelQueryRequest& request);
+
   /// @}
 
   /// \name Utility methods
@@ -462,6 +621,9 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlServerBase : public FlightServerBase {
   Status GetFlightInfo(const ServerCallContext& context, const FlightDescriptor& request,
                        std::unique_ptr<FlightInfo>* info) final;
 
+  Status GetSchema(const ServerCallContext& context, const FlightDescriptor& request,
+                   std::unique_ptr<SchemaResult>* schema) override;
+
   Status DoGet(const ServerCallContext& context, const Ticket& request,
                std::unique_ptr<FlightDataStream>* stream) final;
 
@@ -469,16 +631,46 @@ class ARROW_FLIGHT_SQL_EXPORT FlightSqlServerBase : public FlightServerBase {
                std::unique_ptr<FlightMessageReader> reader,
                std::unique_ptr<FlightMetadataWriter> writer) final;
 
+  const ActionType kBeginSavepointActionType =
+      ActionType{"BeginSavepoint",
+                 "Create a new savepoint.\n"
+                 "Request Message: ActionBeginSavepointRequest\n"
+                 "Response Message: ActionBeginSavepointResult"};
+  const ActionType kBeginTransactionActionType =
+      ActionType{"BeginTransaction",
+                 "Start a new transaction.\n"
+                 "Request Message: ActionBeginTransactionRequest\n"
+                 "Response Message: ActionBeginTransactionResult"};
   const ActionType kCreatePreparedStatementActionType =
       ActionType{"CreatePreparedStatement",
                  "Creates a reusable prepared statement resource on the server.\n"
                  "Request Message: ActionCreatePreparedStatementRequest\n"
                  "Response Message: ActionCreatePreparedStatementResult"};
+  const ActionType kCreatePreparedSubstraitPlanActionType =
+      ActionType{"CreatePreparedSubstraitPlan",
+                 "Creates a reusable prepared statement resource on the server.\n"
+                 "Request Message: ActionCreatePreparedSubstraitPlanRequest\n"
+                 "Response Message: ActionCreatePreparedStatementResult"};
+  const ActionType kCancelQueryActionType =
+      ActionType{"CancelQuery",
+                 "Explicitly cancel a running query.\n"
+                 "Request Message: ActionCancelQueryRequest\n"
+                 "Response Message: ActionCancelQueryResult"};
   const ActionType kClosePreparedStatementActionType =
       ActionType{"ClosePreparedStatement",
                  "Closes a reusable prepared statement resource on the server.\n"
                  "Request Message: ActionClosePreparedStatementRequest\n"
                  "Response Message: N/A"};
+  const ActionType kEndSavepointActionType =
+      ActionType{"EndSavepoint",
+                 "End a savepoint.\n"
+                 "Request Message: ActionEndSavepointRequest\n"
+                 "Response Message: N/A"};
+  const ActionType kEndTransactionActionType =
+      ActionType{"EndTransaction",
+                 "End a savepoint.\n"
+                 "Request Message: ActionEndTransactionRequest\n"
+                 "Response Message: N/A"};
 
   Status ListActions(const ServerCallContext& context,
                      std::vector<ActionType>* actions) final;
@@ -494,50 +686,50 @@ class ARROW_FLIGHT_SQL_EXPORT SqlSchema {
  public:
   /// \brief Get the Schema used on GetCatalogs response.
   /// \return The default schema template.
-  static std::shared_ptr<Schema> GetCatalogsSchema();
+  static const std::shared_ptr<Schema>& GetCatalogsSchema();
 
   /// \brief Get the Schema used on GetDbSchemas response.
   /// \return The default schema template.
-  static std::shared_ptr<Schema> GetDbSchemasSchema();
+  static const std::shared_ptr<Schema>& GetDbSchemasSchema();
 
   /// \brief Get the Schema used on GetTables response when included schema
   /// flags is set to false.
   /// \return The default schema template.
-  static std::shared_ptr<Schema> GetTablesSchema();
+  static const std::shared_ptr<Schema>& GetTablesSchema();
 
   /// \brief Get the Schema used on GetTables response when included schema
   /// flags is set to true.
   /// \return The default schema template.
-  static std::shared_ptr<Schema> GetTablesSchemaWithIncludedSchema();
+  static const std::shared_ptr<Schema>& GetTablesSchemaWithIncludedSchema();
 
   /// \brief Get the Schema used on GetTableTypes response.
   /// \return The default schema template.
-  static std::shared_ptr<Schema> GetTableTypesSchema();
+  static const std::shared_ptr<Schema>& GetTableTypesSchema();
 
   /// \brief Get the Schema used on GetPrimaryKeys response when included schema
   /// flags is set to true.
   /// \return The default schema template.
-  static std::shared_ptr<Schema> GetPrimaryKeysSchema();
+  static const std::shared_ptr<Schema>& GetPrimaryKeysSchema();
 
   /// \brief Get the Schema used on GetImportedKeys response.
   /// \return The default schema template.
-  static std::shared_ptr<Schema> GetExportedKeysSchema();
+  static const std::shared_ptr<Schema>& GetExportedKeysSchema();
 
   /// \brief Get the Schema used on GetImportedKeys response.
   /// \return The default schema template.
-  static std::shared_ptr<Schema> GetImportedKeysSchema();
+  static const std::shared_ptr<Schema>& GetImportedKeysSchema();
 
   /// \brief Get the Schema used on GetCrossReference response.
   /// \return The default schema template.
-  static std::shared_ptr<Schema> GetCrossReferenceSchema();
+  static const std::shared_ptr<Schema>& GetCrossReferenceSchema();
 
   /// \brief Get the Schema used on GetXdbcTypeInfo response.
   /// \return The default schema template.
-  static std::shared_ptr<Schema> GetXdbcTypeInfoSchema();
+  static const std::shared_ptr<Schema>& GetXdbcTypeInfoSchema();
 
   /// \brief Get the Schema used on GetSqlInfo response.
   /// \return The default schema template.
-  static std::shared_ptr<Schema> GetSqlInfoSchema();
+  static const std::shared_ptr<Schema>& GetSqlInfoSchema();
 };
 }  // namespace sql
 }  // namespace flight
diff --git a/cpp/src/arrow/flight/sql/server_test.cc b/cpp/src/arrow/flight/sql/server_test.cc
index 69081acdb59..0eedbda3033 100644
--- a/cpp/src/arrow/flight/sql/server_test.cc
+++ b/cpp/src/arrow/flight/sql/server_test.cc
@@ -15,37 +15,32 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include "arrow/flight/sql/server.h"
+#include <memory>
 
-#include <arrow/util/logging.h>
 #include <gmock/gmock.h>
 #include <gtest/gtest.h>
-
-#include <signal.h>
 #include <sqlite3.h>
 
-#include <condition_variable>
-#include <thread>
-
-#include "arrow/flight/api.h"
-#include "arrow/flight/sql/api.h"
+#include "arrow/array/array_binary.h"
+#include "arrow/array/array_nested.h"
+#include "arrow/array/array_primitive.h"
+#include "arrow/flight/sql/client.h"
 #include "arrow/flight/sql/column_metadata.h"
 #include "arrow/flight/sql/example/sqlite_server.h"
 #include "arrow/flight/sql/example/sqlite_sql_info.h"
 #include "arrow/flight/sql/example/sqlite_type_info.h"
+#include "arrow/flight/sql/server.h"
 #include "arrow/flight/test_util.h"
 #include "arrow/flight/types.h"
+#include "arrow/record_batch.h"
+#include "arrow/scalar.h"
+#include "arrow/table.h"
 #include "arrow/testing/builder.h"
 #include "arrow/testing/gtest_util.h"
 
-using ::testing::_;
-using ::testing::Ref;
-
 using arrow::internal::checked_cast;
 
-namespace arrow {
-namespace flight {
-namespace sql {
+namespace arrow::flight::sql {
 
 /// \brief Auxiliary variant visitor used to assert that GetSqlInfo's values are
 /// correctly placed on its DenseUnionArray
@@ -153,20 +148,15 @@ class TestFlightSqlServer : public ::testing::Test {
 
  protected:
   void SetUp() override {
-    port = GetListenPort();
-    server_thread.reset(new std::thread([&]() { RunServer(); }));
-
-    std::unique_lock<std::mutex> lk(server_ready_m);
-    server_ready_cv.wait(lk);
-
-    std::stringstream ss;
-    ss << "grpc://localhost:" << port;
-    std::string uri = ss.str();
+    ASSERT_OK_AND_ASSIGN(auto location, Location::ForGrpcTcp("0.0.0.0", 0));
+    arrow::flight::FlightServerOptions options(location);
+    ASSERT_OK_AND_ASSIGN(server, example::SQLiteFlightSqlServer::Create());
+    ASSERT_OK(server->Init(options));
 
-    ASSERT_OK_AND_ASSIGN(auto location, Location::Parse(uri));
+    ASSERT_OK_AND_ASSIGN(location, Location::ForGrpcTcp("localhost", server->port()));
     ASSERT_OK_AND_ASSIGN(auto client, FlightClient::Connect(location));
 
-    sql_client.reset(new FlightSqlClient(std::move(client)));
+    sql_client = std::make_unique<FlightSqlClient>(std::move(client));
   }
 
   void TearDown() override {
@@ -174,30 +164,10 @@ class TestFlightSqlServer : public ::testing::Test {
     sql_client.reset();
 
     ASSERT_OK(server->Shutdown());
-    server_thread->join();
-    server_thread.reset();
   }
 
  private:
-  int port;
   std::shared_ptr<arrow::flight::sql::example::SQLiteFlightSqlServer> server;
-  std::unique_ptr<std::thread> server_thread;
-  std::condition_variable server_ready_cv;
-  std::mutex server_ready_m;
-
-  void RunServer() {
-    ASSERT_OK_AND_ASSIGN(auto location, Location::ForGrpcTcp("localhost", port));
-    arrow::flight::FlightServerOptions options(location);
-
-    ARROW_CHECK_OK(example::SQLiteFlightSqlServer::Create().Value(&server));
-
-    ARROW_CHECK_OK(server->Init(options));
-    // Exit with a clean error code (0) on SIGTERM
-    ARROW_CHECK_OK(server->SetShutdownOnSignals({SIGTERM}));
-
-    server_ready_cv.notify_all();
-    ARROW_CHECK_OK(server->Serve());
-  }
 };
 
 TEST_F(TestFlightSqlServer, TestCommandStatementQuery) {
@@ -213,11 +183,11 @@ TEST_F(TestFlightSqlServer, TestCommandStatementQuery) {
       arrow::schema({arrow::field("id", int64()), arrow::field("keyName", utf8()),
                      arrow::field("value", int64()), arrow::field("foreignId", int64())});
 
-  const auto id_array = ArrayFromJSON(int64(), R"([1, 2, 3, 4])");
+  const auto id_array = ArrayFromJSON(int64(), R"([1, 2, 3, 4, 5])");
   const auto keyname_array =
-      ArrayFromJSON(utf8(), R"(["one", "zero", "negative one", null])");
-  const auto value_array = ArrayFromJSON(int64(), R"([1, 0, -1, null])");
-  const auto foreignId_array = ArrayFromJSON(int64(), R"([1, 1, 1, null])");
+      ArrayFromJSON(utf8(), R"(["one", "zero", "negative one", null, "null"])");
+  const auto value_array = ArrayFromJSON(int64(), R"([1, 0, -1, null, null])");
+  const auto foreignId_array = ArrayFromJSON(int64(), R"([1, 1, 1, null, null])");
 
   const std::shared_ptr<Table>& expected_table = Table::Make(
       expected_schema, {id_array, keyname_array, value_array, foreignId_array});
@@ -243,16 +213,14 @@ TEST_F(TestFlightSqlServer, TestCommandGetTables) {
 
   ASSERT_OK_AND_ASSIGN(auto table, stream->ToTable());
 
-  ASSERT_OK_AND_ASSIGN(auto catalog_name, MakeArrayOfNull(utf8(), 3))
-  ASSERT_OK_AND_ASSIGN(auto schema_name, MakeArrayOfNull(utf8(), 3))
-
+  const auto catalog_name = ArrayFromJSON(utf8(), R"(["main", "main", "main"])");
+  ASSERT_OK_AND_ASSIGN(auto schema_name, MakeArrayOfNull(utf8(), 3));
   const auto table_name =
       ArrayFromJSON(utf8(), R"(["foreignTable", "intTable", "sqlite_sequence"])");
   const auto table_type = ArrayFromJSON(utf8(), R"(["table", "table", "table"])");
 
-  const std::shared_ptr<Table>& expected_table = Table::Make(
+  std::shared_ptr<Table> expected_table = Table::Make(
       SqlSchema::GetTablesSchema(), {catalog_name, schema_name, table_name, table_type});
-
   AssertTablesEqual(*expected_table, *table);
 }
 
@@ -274,7 +242,7 @@ TEST_F(TestFlightSqlServer, TestCommandGetTablesWithTableFilter) {
 
   ASSERT_OK_AND_ASSIGN(auto table, stream->ToTable());
 
-  const auto catalog_name = ArrayFromJSON(utf8(), R"([null])");
+  const auto catalog_name = ArrayFromJSON(utf8(), R"(["main"])");
   const auto schema_name = ArrayFromJSON(utf8(), R"([null])");
   const auto table_name = ArrayFromJSON(utf8(), R"(["intTable"])");
   const auto table_type = ArrayFromJSON(utf8(), R"(["table"])");
@@ -326,7 +294,7 @@ TEST_F(TestFlightSqlServer, TestCommandGetTablesWithUnexistenceTableTypeFilter)
 
   ASSERT_OK_AND_ASSIGN(auto table, stream->ToTable());
 
-  const auto catalog_name = ArrayFromJSON(utf8(), R"([null, null, null])");
+  const auto catalog_name = ArrayFromJSON(utf8(), R"(["main", "main", "main"])");
   const auto schema_name = ArrayFromJSON(utf8(), R"([null, null, null])");
   const auto table_name =
       ArrayFromJSON(utf8(), R"(["foreignTable", "intTable", "sqlite_sequence"])");
@@ -358,7 +326,7 @@ TEST_F(TestFlightSqlServer, TestCommandGetTablesWithIncludedSchemas) {
 
   const char* db_table_name = "intTable";
 
-  const auto catalog_name = ArrayFromJSON(utf8(), R"([null])");
+  const auto catalog_name = ArrayFromJSON(utf8(), R"(["main"])");
   const auto schema_name = ArrayFromJSON(utf8(), R"([null])");
   const auto table_name = ArrayFromJSON(utf8(), R"(["intTable"])");
   const auto table_type = ArrayFromJSON(utf8(), R"(["table"])");
@@ -420,16 +388,11 @@ TEST_F(TestFlightSqlServer, TestCommandGetTypeInfoWithFiltering) {
 
 TEST_F(TestFlightSqlServer, TestCommandGetCatalogs) {
   ASSERT_OK_AND_ASSIGN(auto flight_info, sql_client->GetCatalogs({}));
-
   ASSERT_OK_AND_ASSIGN(auto stream,
                        sql_client->DoGet({}, flight_info->endpoints()[0].ticket));
-
   ASSERT_OK_AND_ASSIGN(auto table, stream->ToTable());
-
-  const std::shared_ptr<Schema>& expected_schema = SqlSchema::GetCatalogsSchema();
-
-  AssertSchemaEqual(expected_schema, table->schema());
-  ASSERT_EQ(0, table->num_rows());
+  auto expected_table = TableFromJSON(SqlSchema::GetCatalogsSchema(), {R"([["main"]])"});
+  ASSERT_NO_FATAL_FAILURE(AssertTablesEqual(*expected_table, *table, /*verbose=*/true));
 }
 
 TEST_F(TestFlightSqlServer, TestCommandGetDbSchemas) {
@@ -438,16 +401,12 @@ TEST_F(TestFlightSqlServer, TestCommandGetDbSchemas) {
   std::string* schema_filter_pattern = nullptr;
   ASSERT_OK_AND_ASSIGN(auto flight_info,
                        sql_client->GetDbSchemas(options, catalog, schema_filter_pattern));
-
   ASSERT_OK_AND_ASSIGN(auto stream,
                        sql_client->DoGet({}, flight_info->endpoints()[0].ticket));
-
   ASSERT_OK_AND_ASSIGN(auto table, stream->ToTable());
-
-  const std::shared_ptr<Schema>& expected_schema = SqlSchema::GetDbSchemasSchema();
-
-  AssertSchemaEqual(expected_schema, table->schema());
-  ASSERT_EQ(0, table->num_rows());
+  auto expected_table =
+      TableFromJSON(SqlSchema::GetDbSchemasSchema(), {R"([["main", null]])"});
+  ASSERT_NO_FATAL_FAILURE(AssertTablesEqual(*expected_table, *table, /*verbose=*/true));
 }
 
 TEST_F(TestFlightSqlServer, TestCommandGetTableTypes) {
@@ -513,11 +472,11 @@ TEST_F(TestFlightSqlServer, TestCommandPreparedStatementQuery) {
            "foreignId", int64(),
            example::GetColumnMetadata(SQLITE_INTEGER, db_table_name).metadata_map())});
 
-  const auto id_array = ArrayFromJSON(int64(), R"([1, 2, 3, 4])");
+  const auto id_array = ArrayFromJSON(int64(), R"([1, 2, 3, 4, 5])");
   const auto keyname_array =
-      ArrayFromJSON(utf8(), R"(["one", "zero", "negative one", null])");
-  const auto value_array = ArrayFromJSON(int64(), R"([1, 0, -1, null])");
-  const auto foreignId_array = ArrayFromJSON(int64(), R"([1, 1, 1, null])");
+      ArrayFromJSON(utf8(), R"(["one", "zero", "negative one", null, "null"])");
+  const auto value_array = ArrayFromJSON(int64(), R"([1, 0, -1, null, null])");
+  const auto foreignId_array = ArrayFromJSON(int64(), R"([1, 1, 1, null, null])");
 
   const std::shared_ptr<Table>& expected_table = Table::Make(
       expected_schema, {id_array, keyname_array, value_array, foreignId_array});
@@ -530,51 +489,57 @@ TEST_F(TestFlightSqlServer, TestCommandPreparedStatementQueryWithParameterBindin
       auto prepared_statement,
       sql_client->Prepare({}, "SELECT * FROM intTable WHERE keyName LIKE ?"));
 
-  auto parameter_schema = prepared_statement->parameter_schema();
-
+  const std::shared_ptr<Schema>& parameter_schema =
+      prepared_statement->parameter_schema();
   const std::shared_ptr<Schema>& expected_parameter_schema =
       arrow::schema({arrow::field("parameter_1", example::GetUnknownColumnDataType())});
+  ASSERT_NO_FATAL_FAILURE(AssertSchemaEqual(expected_parameter_schema, parameter_schema));
 
-  AssertSchemaEqual(expected_parameter_schema, parameter_schema);
-
-  std::shared_ptr<Array> type_ids = ArrayFromJSON(int8(), R"([0])");
-  std::shared_ptr<Array> offsets = ArrayFromJSON(int32(), R"([0])");
-  std::shared_ptr<Array> string_array = ArrayFromJSON(utf8(), R"(["%one"])");
-  std::shared_ptr<Array> bytes_array = ArrayFromJSON(binary(), R"([])");
-  std::shared_ptr<Array> bigint_array = ArrayFromJSON(int64(), R"([])");
-  std::shared_ptr<Array> double_array = ArrayFromJSON(float64(), R"([])");
-
-  ASSERT_OK_AND_ASSIGN(
-      auto parameter_1_array,
-      DenseUnionArray::Make(*type_ids, *offsets,
-                            {string_array, bytes_array, bigint_array, double_array},
-                            {"string", "bytes", "bigint", "double"}, {0, 1, 2, 3}));
-
-  const std::shared_ptr<RecordBatch>& record_batch =
-      RecordBatch::Make(parameter_schema, 1, {parameter_1_array});
-
-  ASSERT_OK(prepared_statement->SetParameters(record_batch));
+  auto record_batch = RecordBatchFromJSON(parameter_schema, R"([ [[0, "%one"]] ])");
+  ASSERT_OK(prepared_statement->SetParameters(std::move(record_batch)));
 
   ASSERT_OK_AND_ASSIGN(auto flight_info, prepared_statement->Execute());
-
   ASSERT_OK_AND_ASSIGN(auto stream,
                        sql_client->DoGet({}, flight_info->endpoints()[0].ticket));
-
   ASSERT_OK_AND_ASSIGN(auto table, stream->ToTable());
 
   const std::shared_ptr<Schema>& expected_schema =
       arrow::schema({arrow::field("id", int64()), arrow::field("keyName", utf8()),
                      arrow::field("value", int64()), arrow::field("foreignId", int64())});
 
-  const auto id_array = ArrayFromJSON(int64(), R"([1, 3])");
-  const auto keyname_array = ArrayFromJSON(utf8(), R"(["one", "negative one"])");
-  const auto value_array = ArrayFromJSON(int64(), R"([1, -1])");
-  const auto foreignId_array = ArrayFromJSON(int64(), R"([1, 1])");
-
-  const std::shared_ptr<Table>& expected_table = Table::Make(
-      expected_schema, {id_array, keyname_array, value_array, foreignId_array});
-
-  AssertTablesEqual(*expected_table, *table);
+  auto expected_table = TableFromJSON(expected_schema, {R"([
+      [1, "one", 1, 1],
+      [3, "negative one", -1, 1]
+  ])"});
+  ASSERT_NO_FATAL_FAILURE(AssertTablesEqual(*expected_table, *table, /*verbose=*/true));
+
+  // Set multiple parameters at once
+  record_batch = RecordBatchFromJSON(
+      parameter_schema, R"([ [[0, "%one"]], [[0, "%zero"]], [[0, "null"]] ])");
+  ASSERT_OK(prepared_statement->SetParameters(std::move(record_batch)));
+  ASSERT_OK_AND_ASSIGN(flight_info, prepared_statement->Execute());
+  ASSERT_OK_AND_ASSIGN(stream, sql_client->DoGet({}, flight_info->endpoints()[0].ticket));
+  ASSERT_OK_AND_ASSIGN(table, stream->ToTable());
+  expected_table = TableFromJSON(expected_schema, {R"([
+      [1, "one", 1, 1],
+      [3, "negative one", -1, 1],
+      [2, "zero", 0, 1],
+      [5, "null", null, null]
+  ])"});
+  ASSERT_NO_FATAL_FAILURE(AssertTablesEqual(*expected_table, *table, /*verbose=*/true));
+
+  // Set a stream of parameters
+  ASSERT_OK_AND_ASSIGN(
+      auto reader,
+      RecordBatchReader::Make({
+          RecordBatchFromJSON(parameter_schema, R"([ [[0, "%one"]], [[0, "%zero"]] ])"),
+          RecordBatchFromJSON(parameter_schema, R"([ [[0, "%null%"]] ])"),
+      }));
+  ASSERT_OK(prepared_statement->SetParameters(std::move(reader)));
+  ASSERT_OK_AND_ASSIGN(flight_info, prepared_statement->Execute());
+  ASSERT_OK_AND_ASSIGN(stream, sql_client->DoGet({}, flight_info->endpoints()[0].ticket));
+  ASSERT_OK_AND_ASSIGN(table, stream->ToTable());
+  ASSERT_NO_FATAL_FAILURE(AssertTablesEqual(*expected_table, *table, /*verbose=*/true));
 }
 
 TEST_F(TestFlightSqlServer, TestCommandPreparedStatementUpdateWithParameterBinding) {
@@ -583,41 +548,38 @@ TEST_F(TestFlightSqlServer, TestCommandPreparedStatementUpdateWithParameterBindi
       sql_client->Prepare(
           {}, "INSERT INTO INTTABLE (keyName, value) VALUES ('new_value', ?)"));
 
-  auto parameter_schema = prepared_statement->parameter_schema();
-
+  const std::shared_ptr<Schema>& parameter_schema =
+      prepared_statement->parameter_schema();
   const std::shared_ptr<Schema>& expected_parameter_schema =
       arrow::schema({arrow::field("parameter_1", example::GetUnknownColumnDataType())});
+  ASSERT_NO_FATAL_FAILURE(AssertSchemaEqual(expected_parameter_schema, parameter_schema));
 
-  AssertSchemaEqual(expected_parameter_schema, parameter_schema);
-
-  std::shared_ptr<Array> type_ids = ArrayFromJSON(int8(), R"([2])");
-  std::shared_ptr<Array> offsets = ArrayFromJSON(int32(), R"([0])");
-  std::shared_ptr<Array> string_array = ArrayFromJSON(utf8(), R"([])");
-  std::shared_ptr<Array> bytes_array = ArrayFromJSON(binary(), R"([])");
-  std::shared_ptr<Array> bigint_array = ArrayFromJSON(int64(), R"([999])");
-  std::shared_ptr<Array> double_array = ArrayFromJSON(float64(), R"([])");
-
-  ASSERT_OK_AND_ASSIGN(
-      auto parameter_1_array,
-      DenseUnionArray::Make(*type_ids, *offsets,
-                            {string_array, bytes_array, bigint_array, double_array},
-                            {"string", "bytes", "bigint", "double"}, {0, 1, 2, 3}));
-
-  const std::shared_ptr<RecordBatch>& record_batch =
-      RecordBatch::Make(parameter_schema, 1, {parameter_1_array});
-
-  ASSERT_OK(prepared_statement->SetParameters(record_batch));
-
-  ASSERT_OK_AND_EQ(4, ExecuteCountQuery("SELECT COUNT(*) FROM intTable"));
-
-  ASSERT_OK_AND_EQ(1, prepared_statement->ExecuteUpdate());
+  auto record_batch = RecordBatchFromJSON(parameter_schema, R"([ [[2, 999]] ])");
+  ASSERT_OK(prepared_statement->SetParameters(std::move(record_batch)));
 
   ASSERT_OK_AND_EQ(5, ExecuteCountQuery("SELECT COUNT(*) FROM intTable"));
-
+  ASSERT_OK_AND_EQ(1, prepared_statement->ExecuteUpdate());
+  ASSERT_OK_AND_EQ(6, ExecuteCountQuery("SELECT COUNT(*) FROM intTable"));
   ASSERT_OK_AND_EQ(1, sql_client->ExecuteUpdate(
                           {}, "DELETE FROM intTable WHERE keyName = 'new_value'"));
+  ASSERT_OK_AND_EQ(5, ExecuteCountQuery("SELECT COUNT(*) FROM intTable"));
 
-  ASSERT_OK_AND_EQ(4, ExecuteCountQuery("SELECT COUNT(*) FROM intTable"));
+  // Set multiple parameters at once
+  record_batch = RecordBatchFromJSON(parameter_schema, R"([ [[2, 999]], [[2, 42]] ])");
+  ASSERT_OK(prepared_statement->SetParameters(std::move(record_batch)));
+  ASSERT_OK_AND_EQ(2, prepared_statement->ExecuteUpdate());
+  ASSERT_OK_AND_EQ(7, ExecuteCountQuery("SELECT COUNT(*) FROM intTable"));
+
+  // Set a stream of parameters
+  ASSERT_OK_AND_ASSIGN(
+      auto reader,
+      RecordBatchReader::Make({
+          RecordBatchFromJSON(parameter_schema, R"([ [[2, 999]], [[2, 42]] ])"),
+          RecordBatchFromJSON(parameter_schema, R"([ [[2, -1]] ])"),
+      }));
+  ASSERT_OK(prepared_statement->SetParameters(std::move(reader)));
+  ASSERT_OK_AND_EQ(3, prepared_statement->ExecuteUpdate());
+  ASSERT_OK_AND_EQ(10, ExecuteCountQuery("SELECT COUNT(*) FROM intTable"));
 }
 
 TEST_F(TestFlightSqlServer, TestCommandPreparedStatementUpdate) {
@@ -626,21 +588,17 @@ TEST_F(TestFlightSqlServer, TestCommandPreparedStatementUpdate) {
       sql_client->Prepare(
           {}, "INSERT INTO INTTABLE (keyName, value) VALUES ('new_value', 999)"));
 
-  ASSERT_OK_AND_EQ(4, ExecuteCountQuery("SELECT COUNT(*) FROM intTable"));
-
-  ASSERT_OK_AND_EQ(1, prepared_statement->ExecuteUpdate());
-
   ASSERT_OK_AND_EQ(5, ExecuteCountQuery("SELECT COUNT(*) FROM intTable"));
-
+  ASSERT_OK_AND_EQ(1, prepared_statement->ExecuteUpdate());
+  ASSERT_OK_AND_EQ(6, ExecuteCountQuery("SELECT COUNT(*) FROM intTable"));
   ASSERT_OK_AND_EQ(1, sql_client->ExecuteUpdate(
                           {}, "DELETE FROM intTable WHERE keyName = 'new_value'"));
-
-  ASSERT_OK_AND_EQ(4, ExecuteCountQuery("SELECT COUNT(*) FROM intTable"));
+  ASSERT_OK_AND_EQ(5, ExecuteCountQuery("SELECT COUNT(*) FROM intTable"));
 }
 
 TEST_F(TestFlightSqlServer, TestCommandGetPrimaryKeys) {
   FlightCallOptions options = {};
-  TableRef table_ref = {util::nullopt, util::nullopt, "int%"};
+  TableRef table_ref = {std::nullopt, std::nullopt, "int%"};
   ASSERT_OK_AND_ASSIGN(auto flight_info, sql_client->GetPrimaryKeys(options, table_ref));
 
   ASSERT_OK_AND_ASSIGN(auto stream,
@@ -664,7 +622,7 @@ TEST_F(TestFlightSqlServer, TestCommandGetPrimaryKeys) {
 
 TEST_F(TestFlightSqlServer, TestCommandGetImportedKeys) {
   FlightCallOptions options = {};
-  TableRef table_ref = {util::nullopt, util::nullopt, "intTable"};
+  TableRef table_ref = {std::nullopt, std::nullopt, "intTable"};
   ASSERT_OK_AND_ASSIGN(auto flight_info, sql_client->GetImportedKeys(options, table_ref));
 
   ASSERT_OK_AND_ASSIGN(auto stream,
@@ -696,7 +654,7 @@ TEST_F(TestFlightSqlServer, TestCommandGetImportedKeys) {
 
 TEST_F(TestFlightSqlServer, TestCommandGetExportedKeys) {
   FlightCallOptions options = {};
-  TableRef table_ref = {util::nullopt, util::nullopt, "foreignTable"};
+  TableRef table_ref = {std::nullopt, std::nullopt, "foreignTable"};
   ASSERT_OK_AND_ASSIGN(auto flight_info, sql_client->GetExportedKeys(options, table_ref));
 
   ASSERT_OK_AND_ASSIGN(auto stream,
@@ -728,8 +686,8 @@ TEST_F(TestFlightSqlServer, TestCommandGetExportedKeys) {
 
 TEST_F(TestFlightSqlServer, TestCommandGetCrossReference) {
   FlightCallOptions options = {};
-  TableRef pk_table_ref = {util::nullopt, util::nullopt, "foreignTable"};
-  TableRef fk_table_ref = {util::nullopt, util::nullopt, "intTable"};
+  TableRef pk_table_ref = {std::nullopt, std::nullopt, "foreignTable"};
+  TableRef fk_table_ref = {std::nullopt, std::nullopt, "intTable"};
   ASSERT_OK_AND_ASSIGN(auto flight_info, sql_client->GetCrossReference(
                                              options, pk_table_ref, fk_table_ref));
 
@@ -788,7 +746,7 @@ TEST_F(TestFlightSqlServer, TestCommandGetSqlInfo) {
           reinterpret_cast<const DenseUnionScalar&>(*scalar));
       const auto& expected_result =
           sql_info_expected_results.at(col_name_chunk_data[row]);
-      arrow::util::visit(validator, expected_result);
+      std::visit(validator, expected_result);
     }
   }
 }
@@ -802,6 +760,49 @@ TEST_F(TestFlightSqlServer, TestCommandGetSqlInfoNoInfo) {
       sql_client->DoGet(call_options, flight_info->endpoints()[0].ticket));
 }
 
-}  // namespace sql
-}  // namespace flight
-}  // namespace arrow
+TEST_F(TestFlightSqlServer, CancelQuery) {
+  // Not supported
+  ASSERT_OK_AND_ASSIGN(auto flight_info, sql_client->GetSqlInfo({}, {}));
+  ASSERT_RAISES(NotImplemented, sql_client->CancelQuery({}, *flight_info));
+}
+
+TEST_F(TestFlightSqlServer, Transactions) {
+  ASSERT_OK_AND_ASSIGN(auto handle, sql_client->BeginTransaction({}));
+  ASSERT_TRUE(handle.is_valid());
+  ASSERT_NE(handle.transaction_id(), "");
+  ASSERT_RAISES(NotImplemented, sql_client->BeginSavepoint({}, handle, "savepoint"));
+
+  ASSERT_OK_AND_ASSIGN(auto flight_info,
+                       sql_client->Execute({}, "SELECT * FROM intTable", handle));
+  ASSERT_OK_AND_ASSIGN(auto stream,
+                       sql_client->DoGet({}, flight_info->endpoints()[0].ticket));
+  ASSERT_OK_AND_ASSIGN(auto table, stream->ToTable());
+  int64_t row_count = table->num_rows();
+
+  int64_t result;
+  ASSERT_OK_AND_ASSIGN(result,
+                       sql_client->ExecuteUpdate(
+                           {},
+                           "INSERT INTO intTable (keyName, value) VALUES "
+                           "('KEYNAME1', 1001), ('KEYNAME2', 1002), ('KEYNAME3', 1003)",
+                           handle));
+  ASSERT_EQ(3, result);
+
+  ASSERT_OK_AND_ASSIGN(flight_info,
+                       sql_client->Execute({}, "SELECT * FROM intTable", handle));
+  ASSERT_OK_AND_ASSIGN(stream, sql_client->DoGet({}, flight_info->endpoints()[0].ticket));
+  ASSERT_OK_AND_ASSIGN(table, stream->ToTable());
+  ASSERT_EQ(table->num_rows(), row_count + 3);
+
+  ASSERT_OK(sql_client->Rollback({}, handle));
+  // Commit/rollback invalidate the handle
+  ASSERT_RAISES(KeyError, sql_client->Rollback({}, handle));
+  ASSERT_RAISES(KeyError, sql_client->Commit({}, handle));
+
+  ASSERT_OK_AND_ASSIGN(flight_info, sql_client->Execute({}, "SELECT * FROM intTable"));
+  ASSERT_OK_AND_ASSIGN(stream, sql_client->DoGet({}, flight_info->endpoints()[0].ticket));
+  ASSERT_OK_AND_ASSIGN(table, stream->ToTable());
+  ASSERT_EQ(table->num_rows(), row_count);
+}
+
+}  // namespace arrow::flight::sql
diff --git a/cpp/src/arrow/flight/sql/test_app_cli.cc b/cpp/src/arrow/flight/sql/test_app_cli.cc
index 7989210dd09..66a6b6f5aa4 100644
--- a/cpp/src/arrow/flight/sql/test_app_cli.cc
+++ b/cpp/src/arrow/flight/sql/test_app_cli.cc
@@ -16,10 +16,11 @@
 // under the License.
 
 #include <gflags/gflags.h>
-
+#define BOOST_NO_CXX98_FUNCTION_BASE  // ARROW-17805
 #include <boost/algorithm/string.hpp>
 #include <iostream>
 #include <memory>
+#include <optional>
 
 #include "arrow/array/builder_binary.h"
 #include "arrow/array/builder_primitive.h"
@@ -29,7 +30,6 @@
 #include "arrow/pretty_print.h"
 #include "arrow/status.h"
 #include "arrow/table.h"
-#include "arrow/util/optional.h"
 
 using arrow::Result;
 using arrow::Schema;
@@ -159,16 +159,16 @@ Status RunMain() {
         info, sql_client.GetTables(call_options, &FLAGS_catalog, &FLAGS_schema,
                                    &FLAGS_table, false, nullptr));
   } else if (FLAGS_command == "GetExportedKeys") {
-    TableRef table_ref = {arrow::util::make_optional(FLAGS_catalog),
-                          arrow::util::make_optional(FLAGS_schema), FLAGS_table};
+    TableRef table_ref = {std::make_optional(FLAGS_catalog),
+                          std::make_optional(FLAGS_schema), FLAGS_table};
     ARROW_ASSIGN_OR_RAISE(info, sql_client.GetExportedKeys(call_options, table_ref));
   } else if (FLAGS_command == "GetImportedKeys") {
-    TableRef table_ref = {arrow::util::make_optional(FLAGS_catalog),
-                          arrow::util::make_optional(FLAGS_schema), FLAGS_table};
+    TableRef table_ref = {std::make_optional(FLAGS_catalog),
+                          std::make_optional(FLAGS_schema), FLAGS_table};
     ARROW_ASSIGN_OR_RAISE(info, sql_client.GetImportedKeys(call_options, table_ref));
   } else if (FLAGS_command == "GetPrimaryKeys") {
-    TableRef table_ref = {arrow::util::make_optional(FLAGS_catalog),
-                          arrow::util::make_optional(FLAGS_schema), FLAGS_table};
+    TableRef table_ref = {std::make_optional(FLAGS_catalog),
+                          std::make_optional(FLAGS_schema), FLAGS_table};
     ARROW_ASSIGN_OR_RAISE(info, sql_client.GetPrimaryKeys(call_options, table_ref));
   } else if (FLAGS_command == "GetSqlInfo") {
     ARROW_ASSIGN_OR_RAISE(info, sql_client.GetSqlInfo(call_options, {}));
diff --git a/cpp/src/arrow/flight/sql/types.h b/cpp/src/arrow/flight/sql/types.h
index a6c2648e7c4..293b1d5579e 100644
--- a/cpp/src/arrow/flight/sql/types.h
+++ b/cpp/src/arrow/flight/sql/types.h
@@ -18,14 +18,15 @@
 #pragma once
 
 #include <cstdint>
+#include <iosfwd>
+#include <optional>
 #include <string>
 #include <unordered_map>
+#include <variant>
 #include <vector>
 
 #include "arrow/flight/sql/visibility.h"
 #include "arrow/type_fwd.h"
-#include "arrow/util/optional.h"
-#include "arrow/util/variant.h"
 
 namespace arrow {
 namespace flight {
@@ -37,8 +38,8 @@ namespace sql {
 
 /// \brief Variant supporting all possible types on SQL info.
 using SqlInfoResult =
-    arrow::util::Variant<std::string, bool, int64_t, int32_t, std::vector<std::string>,
-                         std::unordered_map<int32_t, std::vector<int32_t>>>;
+    std::variant<std::string, bool, int64_t, int32_t, std::vector<std::string>,
+                 std::unordered_map<int32_t, std::vector<int32_t>>>;
 
 /// \brief Map SQL info identifier to its value.
 using SqlInfoResultMap = std::unordered_map<int32_t, SqlInfoResult>;
@@ -70,6 +71,54 @@ struct ARROW_FLIGHT_SQL_EXPORT SqlInfoOptions {
     /// - true: if read only
     FLIGHT_SQL_SERVER_READ_ONLY = 3,
 
+    /// Retrieves a boolean value indicating whether the Flight SQL Server
+    /// supports executing SQL queries.
+    ///
+    /// Note that the absence of this info (as opposed to a false
+    /// value) does not necessarily mean that SQL is not supported, as
+    /// this property was not originally defined.
+    FLIGHT_SQL_SERVER_SQL = 4,
+
+    /// Retrieves a boolean value indicating whether the Flight SQL Server
+    /// supports executing Substrait plans.
+    FLIGHT_SQL_SERVER_SUBSTRAIT = 5,
+
+    /// Retrieves a string value indicating the minimum supported
+    /// Substrait version, or null if Substrait is not supported.
+    FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION = 6,
+
+    /// Retrieves a string value indicating the maximum supported
+    /// Substrait version, or null if Substrait is not supported.
+    FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION = 7,
+
+    /// Retrieves an int32 indicating whether the Flight SQL Server
+    /// supports the BeginTransaction, EndTransaction, BeginSavepoint,
+    /// and EndSavepoint actions.
+    ///
+    /// Even if this is not supported, the database may still support
+    /// explicit "BEGIN TRANSACTION"/"COMMIT" SQL statements (see
+    /// SQL_TRANSACTIONS_SUPPORTED); this property is only about
+    /// whether the server implements the Flight SQL API endpoints.
+    ///
+    /// The possible values are listed in `SqlSupportedTransaction`.
+    FLIGHT_SQL_SERVER_TRANSACTION = 8,
+
+    /// Retrieves a boolean value indicating whether the Flight SQL Server
+    /// supports explicit query cancellation (the CancelQuery action).
+    FLIGHT_SQL_SERVER_CANCEL = 9,
+
+    /// Retrieves an int32 value indicating the timeout (in milliseconds) for
+    /// prepared statement handles.
+    ///
+    /// If 0, there is no timeout.
+    FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT = 100,
+
+    /// Retrieves an int32 value indicating the timeout (in milliseconds) for
+    /// transactions, since transactions are not tied to a connection.
+    ///
+    /// If 0, there is no timeout.
+    FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT = 101,
+
     /// @}
 
     /// \name SQL Syntax Information
@@ -795,6 +844,16 @@ struct ARROW_FLIGHT_SQL_EXPORT SqlInfoOptions {
     /// @}
   };
 
+  /// The level of support for Flight SQL transaction RPCs.
+  enum SqlSupportedTransaction {
+    /// Unknown/not indicated/no supoprt
+    SQL_SUPPORTED_TRANSACTION_NONE = 0,
+    /// Transactions, but not savepoints.
+    SQL_SUPPORTED_TRANSACTION_TRANSACTION = 1,
+    /// Transactions and savepoints.
+    SQL_SUPPORTED_TRANSACTION_SAVEPOINT = 2,
+  };
+
   /// Indicate whether something (e.g. an identifier) is case-sensitive.
   enum SqlSupportedCaseSensitivity {
     SQL_CASE_SENSITIVITY_UNKNOWN = 0,
@@ -838,13 +897,32 @@ struct ARROW_FLIGHT_SQL_EXPORT SqlInfoOptions {
 /// \brief A SQL %table reference, optionally containing table's catalog and db_schema.
 struct ARROW_FLIGHT_SQL_EXPORT TableRef {
   /// \brief The table's catalog.
-  util::optional<std::string> catalog;
+  std::optional<std::string> catalog;
   /// \brief The table's database schema.
-  util::optional<std::string> db_schema;
+  std::optional<std::string> db_schema;
   /// \brief The table name.
   std::string table;
 };
 
+/// \brief A Substrait plan to be executed, along with associated metadata.
+struct ARROW_FLIGHT_SQL_EXPORT SubstraitPlan {
+  /// \brief The serialized plan.
+  std::string plan;
+  /// \brief The Substrait release, e.g. "0.12.0".
+  std::string version;
+};
+
+/// \brief The result of cancelling a query.
+enum class CancelResult : int8_t {
+  kUnspecified,
+  kCancelled,
+  kCancelling,
+  kNotCancellable,
+};
+
+ARROW_FLIGHT_SQL_EXPORT
+std::ostream& operator<<(std::ostream& os, CancelResult result);
+
 /// @}
 
 }  // namespace sql
diff --git a/cpp/src/arrow/flight/test_definitions.cc b/cpp/src/arrow/flight/test_definitions.cc
index ace29761d8e..9d08c70df15 100644
--- a/cpp/src/arrow/flight/test_definitions.cc
+++ b/cpp/src/arrow/flight/test_definitions.cc
@@ -854,8 +854,8 @@ Status AppMetadataTestServer::DoGet(const ServerCallContext& context,
     RETURN_NOT_OK(ExampleIntBatches(&batches));
   }
   ARROW_ASSIGN_OR_RAISE(auto batch_reader, RecordBatchReader::Make(batches));
-  *data_stream = std::unique_ptr<FlightDataStream>(new NumberingStream(
-      std::unique_ptr<FlightDataStream>(new RecordBatchStream(batch_reader))));
+  *data_stream = std::make_unique<NumberingStream>(
+      std::make_unique<RecordBatchStream>(batch_reader));
   return Status::OK();
 }
 Status AppMetadataTestServer::DoPut(const ServerCallContext& context,
@@ -1011,7 +1011,7 @@ class IpcOptionsTestServer : public FlightServerBase {
     RecordBatchVector batches;
     RETURN_NOT_OK(ExampleNestedBatches(&batches));
     ARROW_ASSIGN_OR_RAISE(auto reader, RecordBatchReader::Make(batches));
-    *data_stream = std::unique_ptr<FlightDataStream>(new RecordBatchStream(reader));
+    *data_stream = std::make_unique<RecordBatchStream>(reader);
     return Status::OK();
   }
 
@@ -1200,7 +1200,7 @@ class CudaTestServer : public FlightServerBase {
                std::unique_ptr<FlightDataStream>* data_stream) override {
     RETURN_NOT_OK(ExampleIntBatches(&batches_));
     ARROW_ASSIGN_OR_RAISE(auto batch_reader, RecordBatchReader::Make(batches_));
-    *data_stream = std::unique_ptr<FlightDataStream>(new RecordBatchStream(batch_reader));
+    *data_stream = std::make_unique<RecordBatchStream>(batch_reader);
     return Status::OK();
   }
 
diff --git a/cpp/src/arrow/flight/test_util.cc b/cpp/src/arrow/flight/test_util.cc
index d858c15db6d..a478aed998f 100644
--- a/cpp/src/arrow/flight/test_util.cc
+++ b/cpp/src/arrow/flight/test_util.cc
@@ -30,11 +30,12 @@
 // We need Windows fixes before including Boost
 #include "arrow/util/windows_compatibility.h"
 
+#include <gtest/gtest.h>
 #include <boost/filesystem.hpp>
+#define BOOST_NO_CXX98_FUNCTION_BASE  // ARROW-17805
 // We need BOOST_USE_WINDOWS_H definition with MinGW when we use
 // boost/process.hpp. See BOOST_USE_WINDOWS_H=1 in
 // cpp/cmake_modules/ThirdpartyToolchain.cmake for details.
-#include <gtest/gtest.h>
 #include <boost/process.hpp>
 
 #include "arrow/array.h"
@@ -204,7 +205,7 @@ class FlightTestServer : public FlightServerBase {
       // For test purposes, if we get criteria, return no results
       flights.clear();
     }
-    *listings = std::unique_ptr<FlightListing>(new SimpleFlightListing(flights));
+    *listings = std::make_unique<SimpleFlightListing>(flights);
     return Status::OK();
   }
 
@@ -220,7 +221,7 @@ class FlightTestServer : public FlightServerBase {
 
     for (const auto& info : flights) {
       if (info.descriptor().Equals(request)) {
-        *out = std::unique_ptr<FlightInfo>(new FlightInfo(info));
+        *out = std::make_unique<FlightInfo>(info);
         return Status::OK();
       }
     }
@@ -240,21 +241,19 @@ class FlightTestServer : public FlightServerBase {
       // Make batch > 2GiB in size
       ARROW_ASSIGN_OR_RAISE(auto batch, VeryLargeBatch());
       ARROW_ASSIGN_OR_RAISE(auto reader, RecordBatchReader::Make({batch}));
-      *data_stream =
-          std::unique_ptr<FlightDataStream>(new RecordBatchStream(std::move(reader)));
+      *data_stream = std::make_unique<RecordBatchStream>(std::move(reader));
       return Status::OK();
     }
     if (request.ticket == "ticket-stream-error") {
       auto reader = std::make_shared<ErrorRecordBatchReader>();
-      *data_stream =
-          std::unique_ptr<FlightDataStream>(new RecordBatchStream(std::move(reader)));
+      *data_stream = std::make_unique<RecordBatchStream>(std::move(reader));
       return Status::OK();
     }
 
     std::shared_ptr<RecordBatchReader> batch_reader;
     RETURN_NOT_OK(GetBatchForFlight(request, &batch_reader));
 
-    *data_stream = std::unique_ptr<FlightDataStream>(new RecordBatchStream(batch_reader));
+    *data_stream = std::make_unique<RecordBatchStream>(batch_reader);
     return Status::OK();
   }
 
@@ -465,13 +464,13 @@ class FlightTestServer : public FlightServerBase {
       result.body = Buffer::FromString(std::move(value));
       results.push_back(result);
     }
-    *out = std::unique_ptr<ResultStream>(new SimpleResultStream(std::move(results)));
+    *out = std::make_unique<SimpleResultStream>(std::move(results));
     return Status::OK();
   }
 
   Status RunAction2(std::unique_ptr<ResultStream>* out) {
     // Empty
-    *out = std::unique_ptr<ResultStream>(new SimpleResultStream({}));
+    *out = std::make_unique<SimpleResultStream>(std::vector<Result>{});
     return Status::OK();
   }
 
@@ -499,8 +498,7 @@ class FlightTestServer : public FlightServerBase {
 
     for (const auto& info : flights) {
       if (info.descriptor().Equals(request)) {
-        *schema =
-            std::unique_ptr<SchemaResult>(new SchemaResult(info.serialized_schema()));
+        *schema = std::make_unique<SchemaResult>(info.serialized_schema());
         return Status::OK();
       }
     }
@@ -509,7 +507,7 @@ class FlightTestServer : public FlightServerBase {
 };
 
 std::unique_ptr<FlightServerBase> ExampleTestServer() {
-  return std::unique_ptr<FlightServerBase>(new FlightTestServer);
+  return std::make_unique<FlightTestServer>();
 }
 
 Status MakeFlightInfo(const Schema& schema, const FlightDescriptor& descriptor,
diff --git a/cpp/src/arrow/flight/test_util.h b/cpp/src/arrow/flight/test_util.h
index d5b774b4a37..c0c6d7514e1 100644
--- a/cpp/src/arrow/flight/test_util.h
+++ b/cpp/src/arrow/flight/test_util.h
@@ -30,7 +30,6 @@
 #include "arrow/status.h"
 #include "arrow/testing/gtest_util.h"
 #include "arrow/testing/util.h"
-#include "arrow/util/make_unique.h"
 
 #include "arrow/flight/client.h"
 #include "arrow/flight/client_auth.h"
@@ -108,7 +107,7 @@ Status MakeServer(const Location& location, std::unique_ptr<FlightServerBase>* s
                   std::function<Status(FlightServerOptions*)> make_server_options,
                   std::function<Status(FlightClientOptions*)> make_client_options,
                   Args&&... server_args) {
-  *server = arrow::internal::make_unique<T>(std::forward<Args>(server_args)...);
+  *server = std::make_unique<T>(std::forward<Args>(server_args)...);
   FlightServerOptions server_options(location);
   RETURN_NOT_OK(make_server_options(&server_options));
   RETURN_NOT_OK((*server)->Init(server_options));
diff --git a/cpp/src/arrow/flight/transport.cc b/cpp/src/arrow/flight/transport.cc
index 0da81a567eb..a0281ffd61e 100644
--- a/cpp/src/arrow/flight/transport.cc
+++ b/cpp/src/arrow/flight/transport.cc
@@ -17,6 +17,7 @@
 
 #include "arrow/flight/transport.h"
 
+#include <memory>
 #include <sstream>
 #include <unordered_map>
 
@@ -26,7 +27,6 @@
 #include "arrow/ipc/message.h"
 #include "arrow/result.h"
 #include "arrow/status.h"
-#include "arrow/util/make_unique.h"
 
 namespace arrow {
 namespace flight {
@@ -135,7 +135,7 @@ class TransportRegistry::Impl final {
   std::unordered_map<std::string, TransportRegistry::ServerFactory> server_factories_;
 };
 
-TransportRegistry::TransportRegistry() { impl_ = arrow::internal::make_unique<Impl>(); }
+TransportRegistry::TransportRegistry() { impl_ = std::make_unique<Impl>(); }
 TransportRegistry::~TransportRegistry() = default;
 arrow::Result<std::unique_ptr<ClientTransport>> TransportRegistry::MakeClient(
     const std::string& scheme) const {
@@ -299,9 +299,9 @@ Status TransportStatus::ToStatus() const {
 }
 
 Status ReconstructStatus(const std::string& code_str, const Status& current_status,
-                         util::optional<std::string> message,
-                         util::optional<std::string> detail_message,
-                         util::optional<std::string> detail_bin,
+                         std::optional<std::string> message,
+                         std::optional<std::string> detail_message,
+                         std::optional<std::string> detail_bin,
                          std::shared_ptr<FlightStatusDetail> detail) {
   // Bounce through std::string to get a proper null-terminated C string
   StatusCode status_code = current_status.code();
diff --git a/cpp/src/arrow/flight/transport.h b/cpp/src/arrow/flight/transport.h
index 66ded71fbe9..6406734e6e7 100644
--- a/cpp/src/arrow/flight/transport.h
+++ b/cpp/src/arrow/flight/transport.h
@@ -58,6 +58,7 @@
 
 #include <functional>
 #include <memory>
+#include <optional>
 #include <string>
 #include <utility>
 #include <vector>
@@ -65,7 +66,6 @@
 #include "arrow/flight/type_fwd.h"
 #include "arrow/flight/visibility.h"
 #include "arrow/type_fwd.h"
-#include "arrow/util/optional.h"
 
 namespace arrow {
 namespace ipc {
@@ -265,9 +265,9 @@ struct ARROW_FLIGHT_EXPORT TransportStatus {
 ///   back to an Arrow status.
 ARROW_FLIGHT_EXPORT
 Status ReconstructStatus(const std::string& code_str, const Status& current_status,
-                         util::optional<std::string> message,
-                         util::optional<std::string> detail_message,
-                         util::optional<std::string> detail_bin,
+                         std::optional<std::string> message,
+                         std::optional<std::string> detail_message,
+                         std::optional<std::string> detail_bin,
                          std::shared_ptr<FlightStatusDetail> detail);
 
 }  // namespace internal
diff --git a/cpp/src/arrow/flight/transport/grpc/grpc_client.cc b/cpp/src/arrow/flight/transport/grpc/grpc_client.cc
index 8fe1e1bae79..8ebd7cfcd9d 100644
--- a/cpp/src/arrow/flight/transport/grpc/grpc_client.cc
+++ b/cpp/src/arrow/flight/transport/grpc/grpc_client.cc
@@ -43,7 +43,7 @@
 #include "arrow/status.h"
 #include "arrow/util/base64.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
+#include "arrow/util/string.h"
 #include "arrow/util/uri.h"
 
 #include "arrow/flight/client.h"
@@ -59,6 +59,8 @@
 
 namespace arrow {
 
+using internal::EndsWith;
+
 namespace flight {
 namespace transport {
 namespace grpc {
@@ -151,8 +153,8 @@ class GrpcClientInterceptorAdapter : public ::grpc::experimental::Interceptor {
     received_headers_ = true;
     CallHeaders headers;
     for (const auto& entry : metadata) {
-      headers.insert({util::string_view(entry.first.data(), entry.first.length()),
-                      util::string_view(entry.second.data(), entry.second.length())});
+      headers.insert({std::string_view(entry.first.data(), entry.first.length()),
+                      std::string_view(entry.second.data(), entry.second.length())});
     }
     for (const auto& middleware : middleware_) {
       middleware->ReceivedHeaders(headers);
@@ -180,24 +182,24 @@ class GrpcClientInterceptorAdapterFactory
     std::vector<std::unique_ptr<ClientMiddleware>> middleware;
 
     FlightMethod flight_method = FlightMethod::Invalid;
-    util::string_view method(info->method());
-    if (method.ends_with("/Handshake")) {
+    std::string_view method(info->method());
+    if (EndsWith(method, "/Handshake")) {
       flight_method = FlightMethod::Handshake;
-    } else if (method.ends_with("/ListFlights")) {
+    } else if (EndsWith(method, "/ListFlights")) {
       flight_method = FlightMethod::ListFlights;
-    } else if (method.ends_with("/GetFlightInfo")) {
+    } else if (EndsWith(method, "/GetFlightInfo")) {
       flight_method = FlightMethod::GetFlightInfo;
-    } else if (method.ends_with("/GetSchema")) {
+    } else if (EndsWith(method, "/GetSchema")) {
       flight_method = FlightMethod::GetSchema;
-    } else if (method.ends_with("/DoGet")) {
+    } else if (EndsWith(method, "/DoGet")) {
       flight_method = FlightMethod::DoGet;
-    } else if (method.ends_with("/DoPut")) {
+    } else if (EndsWith(method, "/DoPut")) {
       flight_method = FlightMethod::DoPut;
-    } else if (method.ends_with("/DoExchange")) {
+    } else if (EndsWith(method, "/DoExchange")) {
       flight_method = FlightMethod::DoExchange;
-    } else if (method.ends_with("/DoAction")) {
+    } else if (EndsWith(method, "/DoAction")) {
       flight_method = FlightMethod::DoAction;
-    } else if (method.ends_with("/ListActions")) {
+    } else if (EndsWith(method, "/ListActions")) {
       flight_method = FlightMethod::ListActions;
     } else {
       ARROW_LOG(WARNING) << "Unknown Flight method: " << info->method();
@@ -497,10 +499,71 @@ constexpr char kDummyRootCert[] =
     "-----END CERTIFICATE-----\n";
 #endif
 
+class GrpcResultStream : public ResultStream {
+ public:
+  explicit GrpcResultStream(const FlightCallOptions& options)
+      : rpc_(options),
+        stop_token_(options.stop_token),
+        status_(
+            Status::UnknownError("Internal implementation error, stream not started")) {}
+
+  ~GrpcResultStream() override {
+    if (stream_) {
+      rpc_.context.TryCancel();
+      ARROW_WARN_NOT_OK(FromGrpcStatus(stream_->Finish(), &rpc_.context),
+                        "DoAction result was not fully consumed");
+    }
+  }
+
+  static arrow::Result<std::unique_ptr<GrpcResultStream>> Make(
+      const FlightCallOptions& options, pb::FlightService::Stub* stub,
+      ClientAuthHandler* auth_handler, const Action& action) {
+    auto result = std::make_unique<GrpcResultStream>(options);
+    ARROW_RETURN_NOT_OK(result->Init(stub, auth_handler, action));
+    return result;
+  }
+
+  Status Init(pb::FlightService::Stub* stub, ClientAuthHandler* auth_handler,
+              const Action& action) {
+    pb::Action pb_action;
+    RETURN_NOT_OK(internal::ToProto(action, &pb_action));
+    RETURN_NOT_OK(rpc_.SetToken(auth_handler));
+    stream_ = stub->DoAction(&rpc_.context, pb_action);
+    // GH-15150: wait for initial metadata to allow some side effects to occur
+    stream_->WaitForInitialMetadata();
+    return Status::OK();
+  }
+
+  arrow::Result<std::unique_ptr<Result>> Next() override {
+    if (stream_) {
+      pb::Result pb_result;
+      if (!stop_token_.IsStopRequested() && stream_->Read(&pb_result)) {
+        auto result = std::make_unique<Result>();
+        RETURN_NOT_OK(internal::FromProto(pb_result, result.get()));
+        return result;
+      } else if (stop_token_.IsStopRequested()) {
+        rpc_.context.TryCancel();
+      }
+      RETURN_NOT_OK(stop_token_.Poll());
+
+      status_ = FromGrpcStatus(stream_->Finish(), &rpc_.context);
+      stream_.reset();
+    }
+    RETURN_NOT_OK(status_);
+    return nullptr;
+  }
+
+ private:
+  ClientRpc rpc_;
+  StopToken stop_token_;
+  Status status_;
+  std::unique_ptr<::grpc::ClientReader<pb::Result>> stream_;
+};
+
 class GrpcClientImpl : public internal::ClientTransport {
  public:
   static arrow::Result<std::unique_ptr<internal::ClientTransport>> Make() {
-    return std::unique_ptr<internal::ClientTransport>(new GrpcClientImpl());
+    return std::make_unique<GrpcClientImpl>();
   }
 
   Status Init(const FlightClientOptions& options, const Location& location,
@@ -631,10 +694,10 @@ class GrpcClientImpl : public internal::ClientTransport {
 
     // Allow setting generic gRPC options.
     for (const auto& arg : options.generic_options) {
-      if (util::holds_alternative<int>(arg.second)) {
-        default_args[arg.first] = util::get<int>(arg.second);
-      } else if (util::holds_alternative<std::string>(arg.second)) {
-        args.SetString(arg.first, util::get<std::string>(arg.second));
+      if (std::holds_alternative<int>(arg.second)) {
+        default_args[arg.first] = std::get<int>(arg.second);
+      } else if (std::holds_alternative<std::string>(arg.second)) {
+        args.SetString(arg.first, std::get<std::string>(arg.second));
       }
       // Otherwise unimplemented
     }
@@ -727,28 +790,9 @@ class GrpcClientImpl : public internal::ClientTransport {
 
   Status DoAction(const FlightCallOptions& options, const Action& action,
                   std::unique_ptr<ResultStream>* results) override {
-    pb::Action pb_action;
-    RETURN_NOT_OK(internal::ToProto(action, &pb_action));
-
-    ClientRpc rpc(options);
-    RETURN_NOT_OK(rpc.SetToken(auth_handler_.get()));
-    std::unique_ptr<::grpc::ClientReader<pb::Result>> stream(
-        stub_->DoAction(&rpc.context, pb_action));
-
-    pb::Result pb_result;
-
-    std::vector<Result> materialized_results;
-    while (!options.stop_token.IsStopRequested() && stream->Read(&pb_result)) {
-      Result result;
-      RETURN_NOT_OK(internal::FromProto(pb_result, &result));
-      materialized_results.emplace_back(std::move(result));
-    }
-    if (options.stop_token.IsStopRequested()) rpc.context.TryCancel();
-    RETURN_NOT_OK(options.stop_token.Poll());
-
-    *results = std::unique_ptr<ResultStream>(
-        new SimpleResultStream(std::move(materialized_results)));
-    return FromGrpcStatus(stream->Finish(), &rpc.context);
+    ARROW_ASSIGN_OR_RAISE(*results, GrpcResultStream::Make(options, stub_.get(),
+                                                           auth_handler_.get(), action));
+    return Status::OK();
   }
 
   Status ListActions(const FlightCallOptions& options,
@@ -806,7 +850,7 @@ class GrpcClientImpl : public internal::ClientTransport {
 
     std::string str;
     RETURN_NOT_OK(internal::FromProto(pb_response, &str));
-    return arrow::internal::make_unique<SchemaResult>(std::move(str));
+    return std::make_unique<SchemaResult>(std::move(str));
   }
 
   Status DoGet(const FlightCallOptions& options, const Ticket& ticket,
@@ -818,8 +862,7 @@ class GrpcClientImpl : public internal::ClientTransport {
     RETURN_NOT_OK(rpc->SetToken(auth_handler_.get()));
     std::shared_ptr<::grpc::ClientReader<pb::FlightData>> stream =
         stub_->DoGet(&rpc->context, pb_ticket);
-    *out = std::unique_ptr<internal::ClientDataStream>(
-        new GrpcClientGetStream(std::move(rpc), std::move(stream)));
+    *out = std::make_unique<GrpcClientGetStream>(std::move(rpc), std::move(stream));
     return Status::OK();
   }
 
@@ -830,8 +873,7 @@ class GrpcClientImpl : public internal::ClientTransport {
     auto rpc = std::make_shared<ClientRpc>(options);
     RETURN_NOT_OK(rpc->SetToken(auth_handler_.get()));
     std::shared_ptr<GrpcStream> stream = stub_->DoPut(&rpc->context);
-    *out = std::unique_ptr<internal::ClientDataStream>(
-        new GrpcClientPutStream(std::move(rpc), std::move(stream)));
+    *out = std::make_unique<GrpcClientPutStream>(std::move(rpc), std::move(stream));
     return Status::OK();
   }
 
@@ -842,8 +884,7 @@ class GrpcClientImpl : public internal::ClientTransport {
     auto rpc = std::make_shared<ClientRpc>(options);
     RETURN_NOT_OK(rpc->SetToken(auth_handler_.get()));
     std::shared_ptr<GrpcStream> stream = stub_->DoExchange(&rpc->context);
-    *out = std::unique_ptr<internal::ClientDataStream>(
-        new GrpcClientExchangeStream(std::move(rpc), std::move(stream)));
+    *out = std::make_unique<GrpcClientExchangeStream>(std::move(rpc), std::move(stream));
     return Status::OK();
   }
 
diff --git a/cpp/src/arrow/flight/transport/grpc/grpc_server.cc b/cpp/src/arrow/flight/transport/grpc/grpc_server.cc
index 14daaa58765..a643111e3b2 100644
--- a/cpp/src/arrow/flight/transport/grpc/grpc_server.cc
+++ b/cpp/src/arrow/flight/transport/grpc/grpc_server.cc
@@ -313,8 +313,8 @@ class GrpcServiceHandler final : public FlightService::Service {
     CallHeaders incoming_headers;
     for (const auto& entry : context->client_metadata()) {
       incoming_headers.insert(
-          {util::string_view(entry.first.data(), entry.first.length()),
-           util::string_view(entry.second.data(), entry.second.length())});
+          {std::string_view(entry.first.data(), entry.first.length()),
+           std::string_view(entry.second.data(), entry.second.length())});
     }
 
     GrpcAddServerHeaders outgoing_headers(context);
diff --git a/cpp/src/arrow/flight/transport/grpc/util_internal.cc b/cpp/src/arrow/flight/transport/grpc/util_internal.cc
index 0455dc119a9..f9bf26058ad 100644
--- a/cpp/src/arrow/flight/transport/grpc/util_internal.cc
+++ b/cpp/src/arrow/flight/transport/grpc/util_internal.cc
@@ -31,8 +31,12 @@
 #include "arrow/flight/transport.h"
 #include "arrow/flight/types.h"
 #include "arrow/status.h"
+#include "arrow/util/string.h"
 
 namespace arrow {
+
+using internal::ToChars;
+
 namespace flight {
 namespace transport {
 namespace grpc {
@@ -55,25 +59,25 @@ static bool FromGrpcContext(const ::grpc::ClientContext& ctx,
   if (code_val == trailers.end()) return false;
 
   const auto message_val = trailers.find(kGrpcStatusMessageHeader);
-  const util::optional<std::string> message =
+  const std::optional<std::string> message =
       message_val == trailers.end()
-          ? util::nullopt
-          : util::optional<std::string>(
+          ? std::nullopt
+          : std::optional<std::string>(
                 std::string(message_val->second.data(), message_val->second.size()));
 
   const auto detail_val = trailers.find(kGrpcStatusDetailHeader);
-  const util::optional<std::string> detail_message =
+  const std::optional<std::string> detail_message =
       detail_val == trailers.end()
-          ? util::nullopt
-          : util::optional<std::string>(
+          ? std::nullopt
+          : std::optional<std::string>(
                 std::string(detail_val->second.data(), detail_val->second.size()));
 
   const auto grpc_detail_val = trailers.find(kBinaryErrorDetailsKey);
-  const util::optional<std::string> detail_bin =
+  const std::optional<std::string> detail_bin =
       grpc_detail_val == trailers.end()
-          ? util::nullopt
-          : util::optional<std::string>(std::string(grpc_detail_val->second.data(),
-                                                    grpc_detail_val->second.size()));
+          ? std::nullopt
+          : std::optional<std::string>(std::string(grpc_detail_val->second.data(),
+                                                   grpc_detail_val->second.size()));
 
   std::string code_str(code_val->second.data(), code_val->second.size());
   *status = internal::ReconstructStatus(code_str, current_status, std::move(message),
@@ -223,7 +227,7 @@ static ::grpc::Status ToRawGrpcStatus(const Status& arrow_status) {
 ::grpc::Status ToGrpcStatus(const Status& arrow_status, ::grpc::ServerContext* ctx) {
   ::grpc::Status status = ToRawGrpcStatus(arrow_status);
   if (!status.ok() && ctx) {
-    const std::string code = std::to_string(static_cast<int>(arrow_status.code()));
+    const std::string code = ToChars(static_cast<int>(arrow_status.code()));
     ctx->AddTrailingMetadata(kGrpcStatusCodeHeader, code);
     ctx->AddTrailingMetadata(kGrpcStatusMessageHeader, arrow_status.message());
     if (arrow_status.detail()) {
diff --git a/cpp/src/arrow/flight/transport/ucx/CMakeLists.txt b/cpp/src/arrow/flight/transport/ucx/CMakeLists.txt
index d682ead6336..75a21d5e5c0 100644
--- a/cpp/src/arrow/flight/transport/ucx/CMakeLists.txt
+++ b/cpp/src/arrow/flight/transport/ucx/CMakeLists.txt
@@ -38,11 +38,9 @@ add_arrow_lib(arrow_flight_transport_ucx
               SHARED_LINK_FLAGS
               ${ARROW_VERSION_SCRIPT_FLAGS} # Defined in cpp/arrow/CMakeLists.txt
               SHARED_LINK_LIBS
-              arrow_shared
               arrow_flight_shared
               ucx::ucx
               STATIC_LINK_LIBS
-              arrow_static
               arrow_flight_static
               ucx::ucx)
 
diff --git a/cpp/src/arrow/flight/transport/ucx/flight_transport_ucx_test.cc b/cpp/src/arrow/flight/transport/ucx/flight_transport_ucx_test.cc
index 1e2599ff119..3ac02bf7183 100644
--- a/cpp/src/arrow/flight/transport/ucx/flight_transport_ucx_test.cc
+++ b/cpp/src/arrow/flight/transport/ucx/flight_transport_ucx_test.cc
@@ -246,7 +246,7 @@ class SimpleTestServer : public FlightServerBase {
     RecordBatchVector batches;
     RETURN_NOT_OK(ExampleIntBatches(&batches));
     auto batch_reader = std::make_shared<BatchIterator>(batches[0]->schema(), batches);
-    *data_stream = std::unique_ptr<FlightDataStream>(new RecordBatchStream(batch_reader));
+    *data_stream = std::make_unique<RecordBatchStream>(batch_reader);
     return Status::OK();
   }
 
diff --git a/cpp/src/arrow/flight/transport/ucx/ucx_client.cc b/cpp/src/arrow/flight/transport/ucx/ucx_client.cc
index 14b5638adab..d11adb54adf 100644
--- a/cpp/src/arrow/flight/transport/ucx/ucx_client.cc
+++ b/cpp/src/arrow/flight/transport/ucx/ucx_client.cc
@@ -33,6 +33,7 @@
 
 #include <condition_variable>
 #include <deque>
+#include <memory>
 #include <mutex>
 #include <thread>
 
@@ -46,7 +47,6 @@
 #include "arrow/result.h"
 #include "arrow/status.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/uri.h"
 
 namespace arrow {
@@ -125,7 +125,7 @@ class ClientConnection {
       RETURN_NOT_OK(FromUcsStatus("ucp_ep_create", status));
     }
 
-    driver_.reset(new UcpCallDriver(ucp_worker_, remote_endpoint_));
+    driver_ = std::make_unique<UcpCallDriver>(ucp_worker_, remote_endpoint_);
     ARROW_LOG(DEBUG) << "Connected to " << driver_->peer();
 
     {
@@ -187,11 +187,15 @@ class UcxClientStream : public internal::ClientDataStream {
         conn_(std::move(conn)),
         driver_(conn_.driver()),
         writes_done_(false),
-        finished_(false) {}
+        finished_(false) {
+    DCHECK_NE(impl, nullptr);
+    DCHECK_NE(conn_.driver(), nullptr);
+  }
 
  protected:
   Status DoFinish() override;
 
+  std::mutex finish_mutex_;
   UcxClientImpl* impl_;
   ClientConnection conn_;
   UcpCallDriver* driver_;
@@ -509,9 +513,9 @@ class ExchangeClientStream : public WriteClientStream {
 
 class UcxClientImpl : public arrow::flight::internal::ClientTransport {
  public:
-  UcxClientImpl() {}
+  UcxClientImpl() = default;
 
-  virtual ~UcxClientImpl() {
+  ~UcxClientImpl() override {
     if (!ucp_context_) return;
     ARROW_WARN_NOT_OK(Close(), "UcxClientImpl errored in Close() in destructor");
   }
@@ -557,8 +561,9 @@ class UcxClientImpl : public arrow::flight::internal::ClientTransport {
   Status Close() override {
     std::unique_lock<std::mutex> connections_mutex_;
     while (!connections_.empty()) {
-      RETURN_NOT_OK(connections_.front().Close());
+      ClientConnection conn = std::move(connections_.front());
       connections_.pop_front();
+      RETURN_NOT_OK(conn.Close());
     }
     return Status::OK();
   }
@@ -581,7 +586,7 @@ class UcxClientImpl : public arrow::flight::internal::ClientTransport {
       ARROW_ASSIGN_OR_RAISE(auto incoming_message, driver->ReadNextFrame());
       if (incoming_message->type == FrameType::kBuffer) {
         ARROW_ASSIGN_OR_RAISE(
-            *info, FlightInfo::Deserialize(util::string_view(*incoming_message->buffer)));
+            *info, FlightInfo::Deserialize(std::string_view(*incoming_message->buffer)));
         ARROW_ASSIGN_OR_RAISE(incoming_message, driver->ReadNextFrame());
       }
       RETURN_NOT_OK(driver->ExpectFrameType(*incoming_message, FrameType::kHeaders));
@@ -602,8 +607,7 @@ class UcxClientImpl : public arrow::flight::internal::ClientTransport {
 
     auto status = driver->StartCall(kMethodDoExchange);
     if (ARROW_PREDICT_TRUE(status.ok())) {
-      *out =
-          arrow::internal::make_unique<ExchangeClientStream>(this, std::move(connection));
+      *out = std::make_unique<ExchangeClientStream>(this, std::move(connection));
       return Status::OK();
     }
     return MergeStatuses(std::move(status), ReturnConnection(std::move(connection)));
@@ -620,8 +624,7 @@ class UcxClientImpl : public arrow::flight::internal::ClientTransport {
       RETURN_NOT_OK(driver->SendFrame(FrameType::kBuffer,
                                       reinterpret_cast<const uint8_t*>(payload.data()),
                                       static_cast<int64_t>(payload.size())));
-      *stream =
-          arrow::internal::make_unique<GetClientStream>(this, std::move(connection));
+      *stream = std::make_unique<GetClientStream>(this, std::move(connection));
       return Status::OK();
     };
 
@@ -637,7 +640,7 @@ class UcxClientImpl : public arrow::flight::internal::ClientTransport {
 
     auto status = driver->StartCall(kMethodDoPut);
     if (ARROW_PREDICT_TRUE(status.ok())) {
-      *out = arrow::internal::make_unique<PutClientStream>(this, std::move(connection));
+      *out = std::make_unique<PutClientStream>(this, std::move(connection));
       return Status::OK();
     }
     return MergeStatuses(std::move(status), ReturnConnection(std::move(connection)));
@@ -652,6 +655,7 @@ class UcxClientImpl : public arrow::flight::internal::ClientTransport {
   Status MakeConnection() {
     ClientConnection conn;
     RETURN_NOT_OK(conn.Init(ucp_context_, uri_));
+    std::unique_lock<std::mutex> connections_mutex_;
     connections_.push_back(std::move(conn));
     return Status::OK();
   }
@@ -660,10 +664,10 @@ class UcxClientImpl : public arrow::flight::internal::ClientTransport {
     std::unique_lock<std::mutex> connections_mutex_;
     if (connections_.empty()) RETURN_NOT_OK(MakeConnection());
     ClientConnection conn = std::move(connections_.front());
+    connections_.pop_front();
     conn.driver()->set_memory_manager(options.memory_manager);
     conn.driver()->set_read_memory_pool(options.read_options.memory_pool);
     conn.driver()->set_write_memory_pool(options.write_options.memory_pool);
-    connections_.pop_front();
     return conn;
   }
 
@@ -677,6 +681,7 @@ class UcxClientImpl : public arrow::flight::internal::ClientTransport {
       RETURN_NOT_OK(conn.Close());
       return Status::OK();
     }
+    DCHECK_NE(conn.driver(), nullptr);
     connections_.push_back(std::move(conn));
     return Status::OK();
   }
@@ -692,6 +697,9 @@ class UcxClientImpl : public arrow::flight::internal::ClientTransport {
 
 Status UcxClientStream::DoFinish() {
   RETURN_NOT_OK(WritesDone());
+  // Both reader and writer may be used concurrently, and both may
+  // call Finish() - prevent concurrent state mutation
+  std::lock_guard<std::mutex> guard(finish_mutex_);
   if (!finished_) {
     internal::FlightData message;
     std::shared_ptr<Buffer> metadata;
@@ -702,6 +710,7 @@ Status UcxClientStream::DoFinish() {
     finished_ = true;
   }
   if (impl_) {
+    DCHECK_NE(conn_.driver(), nullptr);
     auto status = impl_->ReturnConnection(std::move(conn_));
     impl_ = nullptr;
     driver_ = nullptr;
@@ -720,7 +729,7 @@ Status UcxClientStream::DoFinish() {
 }  // namespace
 
 std::unique_ptr<arrow::flight::internal::ClientTransport> MakeUcxClientImpl() {
-  return arrow::internal::make_unique<UcxClientImpl>();
+  return std::make_unique<UcxClientImpl>();
 }
 
 }  // namespace ucx
diff --git a/cpp/src/arrow/flight/transport/ucx/ucx_internal.cc b/cpp/src/arrow/flight/transport/ucx/ucx_internal.cc
index abcf7911255..9c6bd182827 100644
--- a/cpp/src/arrow/flight/transport/ucx/ucx_internal.cc
+++ b/cpp/src/arrow/flight/transport/ucx/ucx_internal.cc
@@ -19,6 +19,7 @@
 
 #include <array>
 #include <limits>
+#include <memory>
 #include <mutex>
 #include <unordered_map>
 
@@ -28,10 +29,13 @@
 #include "arrow/util/base64.h"
 #include "arrow/util/bit_util.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
+#include "arrow/util/string.h"
 #include "arrow/util/uri.h"
 
 namespace arrow {
+
+using internal::ToChars;
+
 namespace flight {
 namespace transport {
 namespace ucx {
@@ -180,7 +184,7 @@ arrow::Result<HeadersFrame> HeadersFrame::Parse(std::unique_ptr<Buffer> buffer)
       return Status::Invalid("Buffer underflow, expected key ", i + 1, " to have length ",
                              key_length, ", but only ", (end - payload), " bytes remain");
     }
-    const util::string_view key(reinterpret_cast<const char*>(payload), key_length);
+    const std::string_view key(reinterpret_cast<const char*>(payload), key_length);
     payload += key_length;
 
     if (ARROW_PREDICT_FALSE((end - payload) < value_length)) {
@@ -188,7 +192,7 @@ arrow::Result<HeadersFrame> HeadersFrame::Parse(std::unique_ptr<Buffer> buffer)
                              " to have length ", value_length, ", but only ",
                              (end - payload), " bytes remain");
     }
-    const util::string_view value(reinterpret_cast<const char*>(payload), value_length);
+    const std::string_view value(reinterpret_cast<const char*>(payload), value_length);
     payload += value_length;
     result.headers_.emplace_back(key, value);
   }
@@ -228,10 +232,10 @@ arrow::Result<HeadersFrame> HeadersFrame::Make(
 
   TransportStatus transport_status = TransportStatus::FromStatus(status);
   all_headers.emplace_back(kHeaderStatus,
-                           std::to_string(static_cast<int32_t>(transport_status.code)));
+                           ToChars(static_cast<int32_t>(transport_status.code)));
   all_headers.emplace_back(kHeaderMessage, std::move(transport_status.message));
   all_headers.emplace_back(kHeaderStatusCode,
-                           std::to_string(static_cast<int32_t>(status.code())));
+                           ToChars(static_cast<int32_t>(status.code())));
   all_headers.emplace_back(kHeaderStatusMessage, status.message());
   if (status.detail()) {
     all_headers.emplace_back(kHeaderStatusDetail, status.detail()->ToString());
@@ -243,7 +247,7 @@ arrow::Result<HeadersFrame> HeadersFrame::Make(
   return Make(all_headers);
 }
 
-arrow::Result<util::string_view> HeadersFrame::Get(const std::string& key) {
+arrow::Result<std::string_view> HeadersFrame::Get(const std::string& key) {
   for (const auto& pair : headers_) {
     if (pair.first == key) return pair.second;
   }
@@ -252,12 +256,12 @@ arrow::Result<util::string_view> HeadersFrame::Get(const std::string& key) {
 
 Status HeadersFrame::GetStatus(Status* out) {
   static const std::string kUnknownMessage = "Server did not send status message header";
-  util::string_view code_str, message_str;
+  std::string_view code_str, message_str;
   auto status = Get(kHeaderStatus).Value(&code_str);
   if (!status.ok()) {
     return Status::KeyError("Server did not send status code header ", kHeaderStatusCode);
   }
-  if (code_str == "0") {  // == std::to_string(TransportStatusCode::kOk)
+  if (code_str == "0") {  // == ToChars(TransportStatusCode::kOk)
     *out = Status::OK();
     return Status::OK();
   }
@@ -273,8 +277,8 @@ Status HeadersFrame::GetStatus(Status* out) {
   }
   *out = transport_status.ToStatus();
 
-  util::string_view detail_str, bin_str;
-  util::optional<std::string> message, detail_message, detail_bin;
+  std::string_view detail_str, bin_str;
+  std::optional<std::string> message, detail_message, detail_bin;
   if (!Get(kHeaderStatusCode).Value(&code_str).ok()) {
     // No Arrow status sent, go with the transport status
     return Status::OK();
@@ -363,7 +367,7 @@ Status PayloadHeaderFrame::ToFlightData(internal::FlightData* data) {
       return Status::Invalid("Buffer is too small: expected ", offset + size,
                              " bytes but have ", buffer->size());
     }
-    util::string_view desc(reinterpret_cast<const char*>(buffer->data() + offset), size);
+    std::string_view desc(reinterpret_cast<const char*>(buffer->data() + offset), size);
     data->descriptor.reset(new FlightDescriptor());
     ARROW_ASSIGN_OR_RAISE(*data->descriptor, FlightDescriptor::Deserialize(desc));
     offset += size;
@@ -621,7 +625,7 @@ class UcpCallDriver::Impl {
       // Preliminary profiling shows ~5% overhead just from mapping the buffer
       // alone (on Infiniband; it seems to be trivial for shared memory)
       request_param.datatype = ucp_dt_make_contig(1);
-      pending_send = arrow::internal::make_unique<PendingContigSend>();
+      pending_send = std::make_unique<PendingContigSend>();
       auto* pending_contig = reinterpret_cast<PendingContigSend*>(pending_send.get());
 
       const int64_t body_length = std::max<int64_t>(payload.ipc_message.body_length, 1);
@@ -654,7 +658,7 @@ class UcpCallDriver::Impl {
     } else {
       // IOV - let UCX use scatter-gather path
       request_param.datatype = UCP_DATATYPE_IOV;
-      pending_send = arrow::internal::make_unique<PendingIovSend>();
+      pending_send = std::make_unique<PendingIovSend>();
       auto* pending_iov = reinterpret_cast<PendingIovSend*>(pending_send.get());
 
       pending_iov->payload = payload;
@@ -727,6 +731,7 @@ class UcpCallDriver::Impl {
   }
 
   Status Close() {
+    std::unique_lock<std::mutex> guard(frame_mutex_);
     if (!endpoint_) return Status::OK();
 
     for (auto& item : frames_) {
@@ -777,6 +782,9 @@ class UcpCallDriver::Impl {
     std::unique_lock<std::mutex> guard(frame_mutex_);
     status_ = std::move(status);
     for (auto& item : frames_) {
+      // Push(Frame) may push a complete frame, in which case the
+      // future is already complete - just skip it
+      if (item.second.is_finished()) continue;
       item.second.MarkFinished(status_);
     }
     frames_.clear();
@@ -910,8 +918,7 @@ class UcpCallDriver::Impl {
       // never use Then/AddCallback on a Future<> from ReadFrameAsync,
       // because we might run the callback synchronously (which might
       // free the buffer) when we call Push here.
-      frame->buffer =
-          arrow::internal::make_unique<UcxDataBuffer>(worker_, data, data_length);
+      frame->buffer = std::make_unique<UcxDataBuffer>(worker_, data, data_length);
       Push(std::move(frame));
       return UCS_INPROGRESS;
     }
diff --git a/cpp/src/arrow/flight/transport/ucx/ucx_internal.h b/cpp/src/arrow/flight/transport/ucx/ucx_internal.h
index f5b81ab4147..d14296db097 100644
--- a/cpp/src/arrow/flight/transport/ucx/ucx_internal.h
+++ b/cpp/src/arrow/flight/transport/ucx/ucx_internal.h
@@ -21,6 +21,7 @@
 
 #include <array>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
@@ -35,7 +36,6 @@
 #include "arrow/util/future.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 namespace flight {
@@ -191,8 +191,8 @@ struct Frame {
         std::unique_ptr<Buffer> buffer_)
       : type(type_), size(size_), counter(counter_), buffer(std::move(buffer_)) {}
 
-  util::string_view view() const {
-    return util::string_view(reinterpret_cast<const char*>(buffer->data()), size);
+  std::string_view view() const {
+    return std::string_view(reinterpret_cast<const char*>(buffer->data()), size);
   }
 
   /// \brief Parse a UCX active message header. This will not
@@ -222,7 +222,7 @@ static constexpr uint32_t kUcpAmHandlerId = 0x1024;
 class HeadersFrame {
  public:
   /// \brief Get a header value (or an error if it was not found)
-  arrow::Result<util::string_view> Get(const std::string& key);
+  arrow::Result<std::string_view> Get(const std::string& key);
   /// \brief Extract the server-sent status.
   Status GetStatus(Status* out);
   /// \brief Parse the headers from the buffer.
@@ -240,7 +240,7 @@ class HeadersFrame {
 
  private:
   std::unique_ptr<Buffer> buffer_;
-  std::vector<std::pair<util::string_view, util::string_view>> headers_;
+  std::vector<std::pair<std::string_view, std::string_view>> headers_;
 };
 
 /// \brief A representation of a kPayloadHeader frame (i.e. all of the
diff --git a/cpp/src/arrow/flight/transport/ucx/ucx_server.cc b/cpp/src/arrow/flight/transport/ucx/ucx_server.cc
index d7ddbfab06e..946b29383bf 100644
--- a/cpp/src/arrow/flight/transport/ucx/ucx_server.cc
+++ b/cpp/src/arrow/flight/transport/ucx/ucx_server.cc
@@ -18,6 +18,7 @@
 #include "arrow/flight/transport/ucx/ucx_internal.h"
 
 #include <atomic>
+#include <memory>
 #include <mutex>
 #include <queue>
 #include <thread>
@@ -35,11 +36,14 @@
 #include "arrow/status.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
+#include "arrow/util/string.h"
 #include "arrow/util/thread_pool.h"
 #include "arrow/util/uri.h"
 
 namespace arrow {
+
+using internal::ToChars;
+
 namespace flight {
 namespace transport {
 namespace ucx {
@@ -273,8 +277,8 @@ class UcxServerImpl : public arrow::flight::internal::ServerTransport {
         raw_uri += uri.host();
       }
       raw_uri += ":";
-      raw_uri += std::to_string(
-          ntohs(reinterpret_cast<const sockaddr_in*>(&attr.sockaddr)->sin_port));
+      raw_uri +=
+          ToChars(ntohs(reinterpret_cast<const sockaddr_in*>(&attr.sockaddr)->sin_port));
       std::string listen_str;
       ARROW_UNUSED(SockaddrToString(attr.sockaddr).Value(&listen_str));
       FLIGHT_LOG(DEBUG) << "Listening on " << listen_str;
@@ -362,7 +366,7 @@ class UcxServerImpl : public arrow::flight::internal::ServerTransport {
     SERVER_RETURN_NOT_OK(driver, driver->ExpectFrameType(*frame, FrameType::kBuffer));
     FlightDescriptor descriptor;
     SERVER_RETURN_NOT_OK(driver,
-                         FlightDescriptor::Deserialize(util::string_view(*frame->buffer))
+                         FlightDescriptor::Deserialize(std::string_view(*frame->buffer))
                              .Value(&descriptor));
 
     std::unique_ptr<FlightInfo> info;
@@ -434,7 +438,7 @@ class UcxServerImpl : public arrow::flight::internal::ServerTransport {
   }
 
   void WorkerLoop(ucp_conn_request_h request) {
-    std::string peer = "unknown:" + std::to_string(counter_++);
+    std::string peer = "unknown:" + ToChars(counter_++);
     {
       ucp_conn_request_attr_t request_attr;
       std::memset(&request_attr, 0, sizeof(request_attr));
@@ -609,7 +613,7 @@ class UcxServerImpl : public arrow::flight::internal::ServerTransport {
 
 std::unique_ptr<arrow::flight::internal::ServerTransport> MakeUcxServerImpl(
     FlightServerBase* base, std::shared_ptr<MemoryManager> memory_manager) {
-  return arrow::internal::make_unique<UcxServerImpl>(base, memory_manager);
+  return std::make_unique<UcxServerImpl>(base, memory_manager);
 }
 
 #undef SERVER_RETURN_NOT_OK
diff --git a/cpp/src/arrow/flight/transport/ucx/util_internal.cc b/cpp/src/arrow/flight/transport/ucx/util_internal.cc
index ca4df21a055..acaa4f58723 100644
--- a/cpp/src/arrow/flight/transport/ucx/util_internal.cc
+++ b/cpp/src/arrow/flight/transport/ucx/util_internal.cc
@@ -22,6 +22,7 @@
 #include <sys/types.h>
 
 #include <cerrno>
+#include <memory>
 #include <mutex>
 #include <unordered_map>
 
@@ -31,10 +32,13 @@
 #include "arrow/util/bit_util.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
+#include "arrow/util/string.h"
 #include "arrow/util/uri.h"
 
 namespace arrow {
+
+using internal::ToChars;
+
 namespace flight {
 namespace transport {
 namespace ucx {
@@ -122,7 +126,7 @@ arrow::Result<std::string> SockaddrToString(const struct sockaddr_storage& addre
   DCHECK_NE(pos, std::string::npos);
   result[pos] = ':';
   result.resize(pos + 1);
-  result += std::to_string(port);
+  result += ToChars(port);
   return result;
 }
 
diff --git a/cpp/src/arrow/flight/types.cc b/cpp/src/arrow/flight/types.cc
index ddb8a036fbc..a09f09ff9db 100644
--- a/cpp/src/arrow/flight/types.cc
+++ b/cpp/src/arrow/flight/types.cc
@@ -19,6 +19,7 @@
 
 #include <memory>
 #include <sstream>
+#include <string_view>
 #include <utility>
 
 #include "arrow/buffer.h"
@@ -28,7 +29,6 @@
 #include "arrow/ipc/reader.h"
 #include "arrow/status.h"
 #include "arrow/table.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/uri.h"
 
 namespace arrow {
@@ -150,10 +150,10 @@ arrow::Result<std::shared_ptr<Schema>> SchemaResult::GetSchema(
   return ipc::ReadSchema(&schema_reader, dictionary_memo);
 }
 
-arrow::Result<SchemaResult> SchemaResult::Make(const Schema& schema) {
+arrow::Result<std::unique_ptr<SchemaResult>> SchemaResult::Make(const Schema& schema) {
   std::string schema_in;
   RETURN_NOT_OK(internal::SchemaToString(schema, &schema_in));
-  return SchemaResult(std::move(schema_in));
+  return std::make_unique<SchemaResult>(std::move(schema_in));
 }
 
 Status SchemaResult::GetSchema(ipc::DictionaryMemo* dictionary_memo,
@@ -161,13 +161,41 @@ Status SchemaResult::GetSchema(ipc::DictionaryMemo* dictionary_memo,
   return GetSchema(dictionary_memo).Value(out);
 }
 
+bool SchemaResult::Equals(const SchemaResult& other) const {
+  return raw_schema_ == other.raw_schema_;
+}
+
+arrow::Result<std::string> SchemaResult::SerializeToString() const {
+  pb::SchemaResult pb_schema_result;
+  RETURN_NOT_OK(internal::ToProto(*this, &pb_schema_result));
+
+  std::string out;
+  if (!pb_schema_result.SerializeToString(&out)) {
+    return Status::IOError("Serialized SchemaResult exceeded 2 GiB limit");
+  }
+  return out;
+}
+
+arrow::Result<SchemaResult> SchemaResult::Deserialize(std::string_view serialized) {
+  pb::SchemaResult pb_schema_result;
+  if (serialized.size() > static_cast<size_t>(std::numeric_limits<int>::max())) {
+    return Status::Invalid("Serialized SchemaResult size should not exceed 2 GiB");
+  }
+  google::protobuf::io::ArrayInputStream input(serialized.data(),
+                                               static_cast<int>(serialized.size()));
+  if (!pb_schema_result.ParseFromZeroCopyStream(&input)) {
+    return Status::Invalid("Not a valid SchemaResult");
+  }
+  return SchemaResult{pb_schema_result.schema()};
+}
+
 arrow::Result<std::string> FlightDescriptor::SerializeToString() const {
   pb::FlightDescriptor pb_descriptor;
   RETURN_NOT_OK(internal::ToProto(*this, &pb_descriptor));
 
   std::string out;
   if (!pb_descriptor.SerializeToString(&out)) {
-    return Status::IOError("Serialized descriptor exceeded 2 GiB limit");
+    return Status::IOError("Serialized FlightDescriptor exceeded 2 GiB limit");
   }
   return out;
 }
@@ -177,7 +205,7 @@ Status FlightDescriptor::SerializeToString(std::string* out) const {
 }
 
 arrow::Result<FlightDescriptor> FlightDescriptor::Deserialize(
-    arrow::util::string_view serialized) {
+    std::string_view serialized) {
   pb::FlightDescriptor pb_descriptor;
   if (serialized.size() > static_cast<size_t>(std::numeric_limits<int>::max())) {
     return Status::Invalid("Serialized FlightDescriptor size should not exceed 2 GiB");
@@ -185,7 +213,7 @@ arrow::Result<FlightDescriptor> FlightDescriptor::Deserialize(
   google::protobuf::io::ArrayInputStream input(serialized.data(),
                                                static_cast<int>(serialized.size()));
   if (!pb_descriptor.ParseFromZeroCopyStream(&input)) {
-    return Status::Invalid("Not a valid descriptor");
+    return Status::Invalid("Not a valid FlightDescriptor");
   }
   FlightDescriptor out;
   RETURN_NOT_OK(internal::FromProto(pb_descriptor, &out));
@@ -205,7 +233,7 @@ arrow::Result<std::string> Ticket::SerializeToString() const {
 
   std::string out;
   if (!pb_ticket.SerializeToString(&out)) {
-    return Status::IOError("Serialized ticket exceeded 2 GiB limit");
+    return Status::IOError("Serialized Ticket exceeded 2 GiB limit");
   }
   return out;
 }
@@ -214,7 +242,7 @@ Status Ticket::SerializeToString(std::string* out) const {
   return SerializeToString().Value(out);
 }
 
-arrow::Result<Ticket> Ticket::Deserialize(arrow::util::string_view serialized) {
+arrow::Result<Ticket> Ticket::Deserialize(std::string_view serialized) {
   pb::Ticket pb_ticket;
   if (serialized.size() > static_cast<size_t>(std::numeric_limits<int>::max())) {
     return Status::Invalid("Serialized Ticket size should not exceed 2 GiB");
@@ -222,7 +250,7 @@ arrow::Result<Ticket> Ticket::Deserialize(arrow::util::string_view serialized) {
   google::protobuf::io::ArrayInputStream input(serialized.data(),
                                                static_cast<int>(serialized.size()));
   if (!pb_ticket.ParseFromZeroCopyStream(&input)) {
-    return Status::Invalid("Not a valid ticket");
+    return Status::Invalid("Not a valid Ticket");
   }
   Ticket out;
   RETURN_NOT_OK(internal::FromProto(pb_ticket, &out));
@@ -278,7 +306,7 @@ Status FlightInfo::SerializeToString(std::string* out) const {
 }
 
 arrow::Result<std::unique_ptr<FlightInfo>> FlightInfo::Deserialize(
-    arrow::util::string_view serialized) {
+    std::string_view serialized) {
   pb::FlightInfo pb_info;
   if (serialized.size() > static_cast<size_t>(std::numeric_limits<int>::max())) {
     return Status::Invalid("Serialized FlightInfo size should not exceed 2 GiB");
@@ -290,7 +318,7 @@ arrow::Result<std::unique_ptr<FlightInfo>> FlightInfo::Deserialize(
   }
   FlightInfo::Data data;
   RETURN_NOT_OK(internal::FromProto(pb_info, &data));
-  return std::unique_ptr<FlightInfo>(new FlightInfo(std::move(data)));
+  return std::make_unique<FlightInfo>(std::move(data));
 }
 
 Status FlightInfo::Deserialize(const std::string& serialized,
@@ -369,10 +397,153 @@ bool FlightEndpoint::Equals(const FlightEndpoint& other) const {
   return ticket == other.ticket && locations == other.locations;
 }
 
+arrow::Result<std::string> FlightEndpoint::SerializeToString() const {
+  pb::FlightEndpoint pb_flight_endpoint;
+  RETURN_NOT_OK(internal::ToProto(*this, &pb_flight_endpoint));
+
+  std::string out;
+  if (!pb_flight_endpoint.SerializeToString(&out)) {
+    return Status::IOError("Serialized FlightEndpoint exceeded 2 GiB limit");
+  }
+  return out;
+}
+
+arrow::Result<FlightEndpoint> FlightEndpoint::Deserialize(std::string_view serialized) {
+  pb::FlightEndpoint pb_flight_endpoint;
+  if (serialized.size() > static_cast<size_t>(std::numeric_limits<int>::max())) {
+    return Status::Invalid("Serialized FlightEndpoint size should not exceed 2 GiB");
+  }
+  google::protobuf::io::ArrayInputStream input(serialized.data(),
+                                               static_cast<int>(serialized.size()));
+  if (!pb_flight_endpoint.ParseFromZeroCopyStream(&input)) {
+    return Status::Invalid("Not a valid FlightEndpoint");
+  }
+  FlightEndpoint out;
+  RETURN_NOT_OK(internal::FromProto(pb_flight_endpoint, &out));
+  return out;
+}
+
 bool ActionType::Equals(const ActionType& other) const {
   return type == other.type && description == other.description;
 }
 
+arrow::Result<std::string> ActionType::SerializeToString() const {
+  pb::ActionType pb_action_type;
+  RETURN_NOT_OK(internal::ToProto(*this, &pb_action_type));
+
+  std::string out;
+  if (!pb_action_type.SerializeToString(&out)) {
+    return Status::IOError("Serialized ActionType exceeded 2 GiB limit");
+  }
+  return out;
+}
+
+arrow::Result<ActionType> ActionType::Deserialize(std::string_view serialized) {
+  pb::ActionType pb_action_type;
+  if (serialized.size() > static_cast<size_t>(std::numeric_limits<int>::max())) {
+    return Status::Invalid("Serialized ActionType size should not exceed 2 GiB");
+  }
+  google::protobuf::io::ArrayInputStream input(serialized.data(),
+                                               static_cast<int>(serialized.size()));
+  if (!pb_action_type.ParseFromZeroCopyStream(&input)) {
+    return Status::Invalid("Not a valid ActionType");
+  }
+  ActionType out;
+  RETURN_NOT_OK(internal::FromProto(pb_action_type, &out));
+  return out;
+}
+
+bool Criteria::Equals(const Criteria& other) const {
+  return expression == other.expression;
+}
+
+arrow::Result<std::string> Criteria::SerializeToString() const {
+  pb::Criteria pb_criteria;
+  RETURN_NOT_OK(internal::ToProto(*this, &pb_criteria));
+
+  std::string out;
+  if (!pb_criteria.SerializeToString(&out)) {
+    return Status::IOError("Serialized Criteria exceeded 2 GiB limit");
+  }
+  return out;
+}
+
+arrow::Result<Criteria> Criteria::Deserialize(std::string_view serialized) {
+  pb::Criteria pb_criteria;
+  if (serialized.size() > static_cast<size_t>(std::numeric_limits<int>::max())) {
+    return Status::Invalid("Serialized Criteria size should not exceed 2 GiB");
+  }
+  google::protobuf::io::ArrayInputStream input(serialized.data(),
+                                               static_cast<int>(serialized.size()));
+  if (!pb_criteria.ParseFromZeroCopyStream(&input)) {
+    return Status::Invalid("Not a valid Criteria");
+  }
+  Criteria out;
+  RETURN_NOT_OK(internal::FromProto(pb_criteria, &out));
+  return out;
+}
+
+bool Action::Equals(const Action& other) const {
+  return (type == other.type) &&
+         ((body == other.body) || (body && other.body && body->Equals(*other.body)));
+}
+
+arrow::Result<std::string> Action::SerializeToString() const {
+  pb::Action pb_action;
+  RETURN_NOT_OK(internal::ToProto(*this, &pb_action));
+
+  std::string out;
+  if (!pb_action.SerializeToString(&out)) {
+    return Status::IOError("Serialized Action exceeded 2 GiB limit");
+  }
+  return out;
+}
+
+arrow::Result<Action> Action::Deserialize(std::string_view serialized) {
+  pb::Action pb_action;
+  if (serialized.size() > static_cast<size_t>(std::numeric_limits<int>::max())) {
+    return Status::Invalid("Serialized Action size should not exceed 2 GiB");
+  }
+  google::protobuf::io::ArrayInputStream input(serialized.data(),
+                                               static_cast<int>(serialized.size()));
+  if (!pb_action.ParseFromZeroCopyStream(&input)) {
+    return Status::Invalid("Not a valid Action");
+  }
+  Action out;
+  RETURN_NOT_OK(internal::FromProto(pb_action, &out));
+  return out;
+}
+
+bool Result::Equals(const Result& other) const {
+  return (body == other.body) || (body && other.body && body->Equals(*other.body));
+}
+
+arrow::Result<std::string> Result::SerializeToString() const {
+  pb::Result pb_result;
+  RETURN_NOT_OK(internal::ToProto(*this, &pb_result));
+
+  std::string out;
+  if (!pb_result.SerializeToString(&out)) {
+    return Status::IOError("Serialized Result exceeded 2 GiB limit");
+  }
+  return out;
+}
+
+arrow::Result<Result> Result::Deserialize(std::string_view serialized) {
+  pb::Result pb_result;
+  if (serialized.size() > static_cast<size_t>(std::numeric_limits<int>::max())) {
+    return Status::Invalid("Serialized Result size should not exceed 2 GiB");
+  }
+  google::protobuf::io::ArrayInputStream input(serialized.data(),
+                                               static_cast<int>(serialized.size()));
+  if (!pb_result.ParseFromZeroCopyStream(&input)) {
+    return Status::Invalid("Not a valid Result");
+  }
+  Result out;
+  RETURN_NOT_OK(internal::FromProto(pb_result, &out));
+  return out;
+}
+
 Status ResultStream::Next(std::unique_ptr<Result>* info) { return Next().Value(info); }
 
 Status MetadataRecordBatchReader::Next(FlightStreamChunk* next) {
@@ -454,7 +625,7 @@ arrow::Result<std::unique_ptr<FlightInfo>> SimpleFlightListing::Next() {
   if (position_ >= static_cast<int>(flights_.size())) {
     return nullptr;
   }
-  return std::unique_ptr<FlightInfo>(new FlightInfo(std::move(flights_[position_++])));
+  return std::make_unique<FlightInfo>(std::move(flights_[position_++]));
 }
 
 SimpleResultStream::SimpleResultStream(std::vector<Result>&& results)
@@ -464,10 +635,14 @@ arrow::Result<std::unique_ptr<Result>> SimpleResultStream::Next() {
   if (position_ >= results_.size()) {
     return nullptr;
   }
-  return std::unique_ptr<Result>(new Result(std::move(results_[position_++])));
+  return std::make_unique<Result>(std::move(results_[position_++]));
+}
+
+bool BasicAuth::Equals(const BasicAuth& other) const {
+  return (username == other.username) && (password == other.password);
 }
 
-arrow::Result<BasicAuth> BasicAuth::Deserialize(arrow::util::string_view serialized) {
+arrow::Result<BasicAuth> BasicAuth::Deserialize(std::string_view serialized) {
   pb::BasicAuth pb_result;
   if (serialized.size() > static_cast<size_t>(std::numeric_limits<int>::max())) {
     return Status::Invalid("Serialized BasicAuth size should not exceed 2 GiB");
diff --git a/cpp/src/arrow/flight/types.h b/cpp/src/arrow/flight/types.h
index a061f33afec..6957c5992a3 100644
--- a/cpp/src/arrow/flight/types.h
+++ b/cpp/src/arrow/flight/types.h
@@ -23,6 +23,7 @@
 #include <cstdint>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
@@ -30,7 +31,6 @@
 #include "arrow/ipc/options.h"
 #include "arrow/ipc/writer.h"
 #include "arrow/result.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 
@@ -148,12 +148,33 @@ struct ARROW_FLIGHT_EXPORT ActionType {
   friend bool operator!=(const ActionType& left, const ActionType& right) {
     return !(left == right);
   }
+
+  /// \brief Serialize this message to its wire-format representation.
+  arrow::Result<std::string> SerializeToString() const;
+
+  /// \brief Deserialize this message from its wire-format representation.
+  static arrow::Result<ActionType> Deserialize(std::string_view serialized);
 };
 
 /// \brief Opaque selection criteria for ListFlights RPC
 struct ARROW_FLIGHT_EXPORT Criteria {
   /// Opaque criteria expression, dependent on server implementation
   std::string expression;
+
+  bool Equals(const Criteria& other) const;
+
+  friend bool operator==(const Criteria& left, const Criteria& right) {
+    return left.Equals(right);
+  }
+  friend bool operator!=(const Criteria& left, const Criteria& right) {
+    return !(left == right);
+  }
+
+  /// \brief Serialize this message to its wire-format representation.
+  arrow::Result<std::string> SerializeToString() const;
+
+  /// \brief Deserialize this message from its wire-format representation.
+  static arrow::Result<Criteria> Deserialize(std::string_view serialized);
 };
 
 /// \brief An action to perform with the DoAction RPC
@@ -163,11 +184,41 @@ struct ARROW_FLIGHT_EXPORT Action {
 
   /// The action content as a Buffer
   std::shared_ptr<Buffer> body;
+
+  bool Equals(const Action& other) const;
+
+  friend bool operator==(const Action& left, const Action& right) {
+    return left.Equals(right);
+  }
+  friend bool operator!=(const Action& left, const Action& right) {
+    return !(left == right);
+  }
+
+  /// \brief Serialize this message to its wire-format representation.
+  arrow::Result<std::string> SerializeToString() const;
+
+  /// \brief Deserialize this message from its wire-format representation.
+  static arrow::Result<Action> Deserialize(std::string_view serialized);
 };
 
 /// \brief Opaque result returned after executing an action
 struct ARROW_FLIGHT_EXPORT Result {
   std::shared_ptr<Buffer> body;
+
+  bool Equals(const Result& other) const;
+
+  friend bool operator==(const Result& left, const Result& right) {
+    return left.Equals(right);
+  }
+  friend bool operator!=(const Result& left, const Result& right) {
+    return !(left == right);
+  }
+
+  /// \brief Serialize this message to its wire-format representation.
+  arrow::Result<std::string> SerializeToString() const;
+
+  /// \brief Deserialize this message from its wire-format representation.
+  static arrow::Result<Result> Deserialize(std::string_view serialized);
 };
 
 /// \brief message for simple auth
@@ -175,8 +226,17 @@ struct ARROW_FLIGHT_EXPORT BasicAuth {
   std::string username;
   std::string password;
 
+  bool Equals(const BasicAuth& other) const;
+
+  friend bool operator==(const BasicAuth& left, const BasicAuth& right) {
+    return left.Equals(right);
+  }
+  friend bool operator!=(const BasicAuth& left, const BasicAuth& right) {
+    return !(left == right);
+  }
+
   /// \brief Deserialize this message from its wire-format representation.
-  static arrow::Result<BasicAuth> Deserialize(arrow::util::string_view serialized);
+  static arrow::Result<BasicAuth> Deserialize(std::string_view serialized);
   /// \brief Serialize this message to its wire-format representation.
   arrow::Result<std::string> SerializeToString() const;
 
@@ -224,7 +284,7 @@ struct ARROW_FLIGHT_EXPORT FlightDescriptor {
   ///
   /// Useful when interoperating with non-Flight systems (e.g. REST
   /// services) that may want to return Flight types.
-  static arrow::Result<FlightDescriptor> Deserialize(arrow::util::string_view serialized);
+  static arrow::Result<FlightDescriptor> Deserialize(std::string_view serialized);
 
   ARROW_DEPRECATED("Deprecated in 8.0.0. Use Result-returning overload instead.")
   static Status Deserialize(const std::string& serialized, FlightDescriptor* out);
@@ -274,7 +334,7 @@ struct ARROW_FLIGHT_EXPORT Ticket {
   ///
   /// Useful when interoperating with non-Flight systems (e.g. REST
   /// services) that may want to return Flight types.
-  static arrow::Result<Ticket> Deserialize(arrow::util::string_view serialized);
+  static arrow::Result<Ticket> Deserialize(std::string_view serialized);
 
   ARROW_DEPRECATED("Deprecated in 8.0.0. Use Result-returning overload instead.")
   static Status Deserialize(const std::string& serialized, Ticket* out);
@@ -377,6 +437,12 @@ struct ARROW_FLIGHT_EXPORT FlightEndpoint {
   friend bool operator!=(const FlightEndpoint& left, const FlightEndpoint& right) {
     return !(left == right);
   }
+
+  /// \brief Serialize this message to its wire-format representation.
+  arrow::Result<std::string> SerializeToString() const;
+
+  /// \brief Deserialize this message from its wire-format representation.
+  static arrow::Result<FlightEndpoint> Deserialize(std::string_view serialized);
 };
 
 /// \brief Staging data structure for messages about to be put on the wire
@@ -394,10 +460,11 @@ struct ARROW_FLIGHT_EXPORT FlightPayload {
 /// \brief Schema result returned after a schema request RPC
 struct ARROW_FLIGHT_EXPORT SchemaResult {
  public:
+  SchemaResult() = default;
   explicit SchemaResult(std::string schema) : raw_schema_(std::move(schema)) {}
 
   /// \brief Factory method to construct a SchemaResult.
-  static arrow::Result<SchemaResult> Make(const Schema& schema);
+  static arrow::Result<std::unique_ptr<SchemaResult>> Make(const Schema& schema);
 
   /// \brief return schema
   /// \param[in,out] dictionary_memo for dictionary bookkeeping, will
@@ -412,6 +479,21 @@ struct ARROW_FLIGHT_EXPORT SchemaResult {
 
   const std::string& serialized_schema() const { return raw_schema_; }
 
+  bool Equals(const SchemaResult& other) const;
+
+  friend bool operator==(const SchemaResult& left, const SchemaResult& right) {
+    return left.Equals(right);
+  }
+  friend bool operator!=(const SchemaResult& left, const SchemaResult& right) {
+    return !(left == right);
+  }
+
+  /// \brief Serialize this message to its wire-format representation.
+  arrow::Result<std::string> SerializeToString() const;
+
+  /// \brief Deserialize this message from its wire-format representation.
+  static arrow::Result<SchemaResult> Deserialize(std::string_view serialized);
+
  private:
   std::string raw_schema_;
 };
@@ -480,7 +562,7 @@ class ARROW_FLIGHT_EXPORT FlightInfo {
   /// Useful when interoperating with non-Flight systems (e.g. REST
   /// services) that may want to return Flight types.
   static arrow::Result<std::unique_ptr<FlightInfo>> Deserialize(
-      arrow::util::string_view serialized);
+      std::string_view serialized);
 
   ARROW_DEPRECATED("Deprecated in 8.0.0. Use Result-returning overload instead.")
   static Status Deserialize(const std::string& serialized,
diff --git a/cpp/src/arrow/gpu/ArrowCUDAConfig.cmake.in b/cpp/src/arrow/gpu/ArrowCUDAConfig.cmake.in
index 67bb58093fb..bb36abf2411 100644
--- a/cpp/src/arrow/gpu/ArrowCUDAConfig.cmake.in
+++ b/cpp/src/arrow/gpu/ArrowCUDAConfig.cmake.in
@@ -21,16 +21,23 @@
 #
 # This config sets the following targets in your project::
 #
-#   arrow_cuda_shared - for linked as shared library if shared library is built
-#   arrow_cuda_static - for linked as static library if static library is built
+#   ArrowCUDA::arrow_cuda_shared - for linked as shared library if shared library is built
+#   ArrowCUDA::arrow_cuda_static - for linked as static library if static library is built
 
 @PACKAGE_INIT@
 
 include(CMakeFindDependencyMacro)
 find_dependency(Arrow)
-
-# Load targets only once. If we load targets multiple times, CMake reports
-# already existent target error.
-if(NOT (TARGET arrow_cuda_shared OR TARGET arrow_cuda_static))
-  include("${CMAKE_CURRENT_LIST_DIR}/ArrowCUDATargets.cmake")
+if(CMAKE_VERSION VERSION_LESS 3.17)
+  find_package(CUDA REQUIRED)
+else()
+  find_package(CUDAToolkit REQUIRED)
 endif()
+
+include("${CMAKE_CURRENT_LIST_DIR}/ArrowCUDATargets.cmake")
+
+arrow_keep_backward_compatibility(ArrowCUDA arrow_cuda)
+
+check_required_components(ArrowCUDA)
+
+arrow_show_details(ArrowCUDA ARROW_CUDA)
diff --git a/cpp/src/arrow/gpu/CMakeLists.txt b/cpp/src/arrow/gpu/CMakeLists.txt
index 934a11f810c..00265a8fc1f 100644
--- a/cpp/src/arrow/gpu/CMakeLists.txt
+++ b/cpp/src/arrow/gpu/CMakeLists.txt
@@ -59,9 +59,14 @@ add_arrow_lib(arrow_cuda
               arrow_shared
               ${ARROW_CUDA_LINK_LIBS}
               ${ARROW_CUDA_SHARED_LINK_LIBS}
+              SHARED_INSTALL_INTERFACE_LIBS
+              Arrow::arrow_shared
               # Static arrow_cuda must also link against CUDA shared libs
               STATIC_LINK_LIBS
               ${ARROW_CUDA_LINK_LIBS}
+              ${ARROW_CUDA_SHARED_LINK_LIBS}
+              STATIC_INSTALL_INTERFACE_LIBS
+              Arrow::arrow_static
               ${ARROW_CUDA_SHARED_LINK_LIBS})
 
 add_dependencies(arrow_cuda ${ARROW_CUDA_LIBRARIES})
diff --git a/cpp/src/arrow/gpu/cuda_context.cc b/cpp/src/arrow/gpu/cuda_context.cc
index 52df8dbd8c7..f754c07d13c 100644
--- a/cpp/src/arrow/gpu/cuda_context.cc
+++ b/cpp/src/arrow/gpu/cuda_context.cc
@@ -31,7 +31,6 @@
 #include "arrow/gpu/cuda_internal.h"
 #include "arrow/gpu/cuda_memory.h"
 #include "arrow/util/checked_cast.h"
-#include "arrow/util/make_unique.h"
 
 namespace arrow {
 
@@ -542,8 +541,7 @@ CudaContext::~CudaContext() {}
 Result<std::unique_ptr<CudaBuffer>> CudaContext::Allocate(int64_t nbytes) {
   uint8_t* data = nullptr;
   RETURN_NOT_OK(impl_->Allocate(nbytes, &data));
-  return arrow::internal::make_unique<CudaBuffer>(data, nbytes, this->shared_from_this(),
-                                                  true);
+  return std::make_unique<CudaBuffer>(data, nbytes, this->shared_from_this(), true);
 }
 
 Result<std::shared_ptr<CudaBuffer>> CudaContext::View(uint8_t* data, int64_t nbytes) {
diff --git a/cpp/src/arrow/gpu/cuda_context.h b/cpp/src/arrow/gpu/cuda_context.h
index 00bcf94c8b6..0115ed19a10 100644
--- a/cpp/src/arrow/gpu/cuda_context.h
+++ b/cpp/src/arrow/gpu/cuda_context.h
@@ -76,7 +76,7 @@ class ARROW_EXPORT CudaDeviceManager {
   static std::unique_ptr<CudaDeviceManager> instance_;
 
   class Impl;
-  std::unique_ptr<Impl> impl_;
+  std::shared_ptr<Impl> impl_;
 
   friend class CudaContext;
   friend class CudaDevice;
@@ -146,7 +146,7 @@ class ARROW_EXPORT CudaDevice : public Device {
   /// \endcond
 
   explicit CudaDevice(Impl);
-  std::unique_ptr<Impl> impl_;
+  std::shared_ptr<Impl> impl_;
 };
 
 /// \brief Return whether a device instance is a CudaDevice
@@ -297,7 +297,7 @@ class ARROW_EXPORT CudaContext : public std::enable_shared_from_this<CudaContext
                                    uintptr_t dst, uintptr_t src, int64_t nbytes);
 
   class Impl;
-  std::unique_ptr<Impl> impl_;
+  std::shared_ptr<Impl> impl_;
 
   friend class CudaBuffer;
   friend class CudaBufferReader;
diff --git a/cpp/src/arrow/gpu/cuda_internal.h b/cpp/src/arrow/gpu/cuda_internal.h
index 25eb6e06cee..d70873634f8 100644
--- a/cpp/src/arrow/gpu/cuda_internal.h
+++ b/cpp/src/arrow/gpu/cuda_internal.h
@@ -33,6 +33,7 @@ namespace internal {
 
 std::string CudaErrorDescription(CUresult err);
 
+ARROW_EXPORT
 Status StatusFromCuda(CUresult res, const char* function_name = nullptr);
 
 #define CU_RETURN_NOT_OK(FUNC_NAME, STMT)                               \
diff --git a/cpp/src/arrow/gpu/cuda_memory.h b/cpp/src/arrow/gpu/cuda_memory.h
index 4efd3889407..18c23a50780 100644
--- a/cpp/src/arrow/gpu/cuda_memory.h
+++ b/cpp/src/arrow/gpu/cuda_memory.h
@@ -250,10 +250,12 @@ Result<std::shared_ptr<CudaHostBuffer>> AllocateCudaHostBuffer(int device_number
                                                                const int64_t size);
 
 /// Low-level: get a device address through which the CPU data be accessed.
+ARROW_EXPORT
 Result<uintptr_t> GetDeviceAddress(const uint8_t* cpu_data,
                                    const std::shared_ptr<CudaContext>& ctx);
 
 /// Low-level: get a CPU address through which the device data be accessed.
+ARROW_EXPORT
 Result<uint8_t*> GetHostAddress(uintptr_t device_ptr);
 
 }  // namespace cuda
diff --git a/cpp/src/arrow/io/CMakeLists.txt b/cpp/src/arrow/io/CMakeLists.txt
index 33de37c84f3..d8224192ce0 100644
--- a/cpp/src/arrow/io/CMakeLists.txt
+++ b/cpp/src/arrow/io/CMakeLists.txt
@@ -36,7 +36,8 @@ add_arrow_test(memory_test PREFIX "arrow-io")
 
 add_arrow_benchmark(file_benchmark PREFIX "arrow-io")
 
-if(NOT (${ARROW_SIMD_LEVEL} STREQUAL "NONE"))
+if(NOT (${ARROW_SIMD_LEVEL} STREQUAL "NONE") AND NOT (${ARROW_SIMD_LEVEL} STREQUAL "NEON"
+                                                     ))
   # This benchmark either requires SSE4.2 or ARMV8 SIMD to be enabled
   add_arrow_benchmark(memory_benchmark PREFIX "arrow-io")
 endif()
diff --git a/cpp/src/arrow/io/buffered.cc b/cpp/src/arrow/io/buffered.cc
index ccfe9a360ab..e0e37c58026 100644
--- a/cpp/src/arrow/io/buffered.cc
+++ b/cpp/src/arrow/io/buffered.cc
@@ -21,6 +21,7 @@
 #include <cstring>
 #include <memory>
 #include <mutex>
+#include <string_view>
 #include <utility>
 
 #include "arrow/buffer.h"
@@ -28,7 +29,6 @@
 #include "arrow/memory_pool.h"
 #include "arrow/status.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 namespace io {
@@ -292,7 +292,7 @@ class BufferedInputStream::Impl : public BufferedBase {
     return ResizeBuffer(new_buffer_size);
   }
 
-  Result<util::string_view> Peek(int64_t nbytes) {
+  Result<std::string_view> Peek(int64_t nbytes) {
     if (raw_read_bound_ >= 0) {
       // Do not try to peek more than the total remaining number of bytes.
       nbytes = std::min(nbytes, bytes_buffered_ + (raw_read_bound_ - raw_read_total_));
@@ -324,8 +324,8 @@ class BufferedInputStream::Impl : public BufferedBase {
       nbytes = bytes_buffered_;
     }
     DCHECK(nbytes <= bytes_buffered_);  // Enough bytes available
-    return util::string_view(reinterpret_cast<const char*>(buffer_data_ + buffer_pos_),
-                             static_cast<size_t>(nbytes));
+    return std::string_view(reinterpret_cast<const char*>(buffer_data_ + buffer_pos_),
+                            static_cast<size_t>(nbytes));
   }
 
   int64_t bytes_buffered() const { return bytes_buffered_; }
@@ -458,7 +458,7 @@ std::shared_ptr<InputStream> BufferedInputStream::raw() const { return impl_->ra
 
 Result<int64_t> BufferedInputStream::DoTell() const { return impl_->Tell(); }
 
-Result<util::string_view> BufferedInputStream::DoPeek(int64_t nbytes) {
+Result<std::string_view> BufferedInputStream::DoPeek(int64_t nbytes) {
   return impl_->Peek(nbytes);
 }
 
diff --git a/cpp/src/arrow/io/buffered.h b/cpp/src/arrow/io/buffered.h
index 8116613fa4e..01c0a016dab 100644
--- a/cpp/src/arrow/io/buffered.h
+++ b/cpp/src/arrow/io/buffered.h
@@ -21,10 +21,10 @@
 
 #include <cstdint>
 #include <memory>
+#include <string_view>
 
 #include "arrow/io/concurrency.h"
 #include "arrow/io/interfaces.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -157,7 +157,7 @@ class ARROW_EXPORT BufferedInputStream
   /// \brief Return a zero-copy string view referencing buffered data,
   /// but do not advance the position of the stream. Buffers data and
   /// expands the buffer size if necessary
-  Result<util::string_view> DoPeek(int64_t nbytes) override;
+  Result<std::string_view> DoPeek(int64_t nbytes) override;
 
   class ARROW_NO_EXPORT Impl;
   std::unique_ptr<Impl> impl_;
diff --git a/cpp/src/arrow/io/buffered_test.cc b/cpp/src/arrow/io/buffered_test.cc
index f6f6d61f849..520eaaa9356 100644
--- a/cpp/src/arrow/io/buffered_test.cc
+++ b/cpp/src/arrow/io/buffered_test.cc
@@ -28,6 +28,7 @@
 #include <memory>
 #include <random>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <valarray>
 #include <vector>
@@ -44,7 +45,6 @@
 #include "arrow/status.h"
 #include "arrow/testing/gtest_util.h"
 #include "arrow/util/io_util.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 namespace io {
@@ -503,7 +503,7 @@ class TestBufferedInputStreamBound : public ::testing::Test {
 
 TEST_F(TestBufferedInputStreamBound, Basics) {
   std::shared_ptr<Buffer> buffer;
-  util::string_view view;
+  std::string_view view;
 
   // source is at offset 10
   ASSERT_OK_AND_ASSIGN(view, stream_->Peek(10));
@@ -559,7 +559,7 @@ TEST_F(TestBufferedInputStreamBound, Basics) {
 TEST_F(TestBufferedInputStreamBound, LargeFirstPeek) {
   // Test a first peek larger than chunk size
   std::shared_ptr<Buffer> buffer;
-  util::string_view view;
+  std::string_view view;
   int64_t n = 70;
   ASSERT_GT(n, chunk_size_);
 
@@ -592,7 +592,7 @@ TEST_F(TestBufferedInputStreamBound, LargeFirstPeek) {
 TEST_F(TestBufferedInputStreamBound, UnboundedPeek) {
   CreateExample(/*bounded=*/false);
 
-  util::string_view view;
+  std::string_view view;
   ASSERT_OK_AND_ASSIGN(view, stream_->Peek(10));
   ASSERT_EQ(10, view.size());
   ASSERT_EQ(50, stream_->bytes_buffered());
diff --git a/cpp/src/arrow/io/concurrency.h b/cpp/src/arrow/io/concurrency.h
index b41ad2c1350..43ceb8debce 100644
--- a/cpp/src/arrow/io/concurrency.h
+++ b/cpp/src/arrow/io/concurrency.h
@@ -116,7 +116,7 @@ class ARROW_EXPORT InputStreamConcurrencyWrapper : public InputStream {
     return derived()->DoRead(nbytes);
   }
 
-  Result<util::string_view> Peek(int64_t nbytes) final {
+  Result<std::string_view> Peek(int64_t nbytes) final {
     auto guard = lock_.exclusive_guard();
     return derived()->DoPeek(nbytes);
   }
@@ -132,7 +132,7 @@ class ARROW_EXPORT InputStreamConcurrencyWrapper : public InputStream {
   And optionally:
 
   Status DoAbort() override;
-  Result<util::string_view> DoPeek(int64_t nbytes) override;
+  Result<std::string_view> DoPeek(int64_t nbytes) override;
 
   These methods should be protected in the derived class and
   InputStreamConcurrencyWrapper declared as a friend with
@@ -145,7 +145,7 @@ class ARROW_EXPORT InputStreamConcurrencyWrapper : public InputStream {
   // have derived classes itself.
   virtual Status DoAbort() { return derived()->DoClose(); }
 
-  virtual Result<util::string_view> DoPeek(int64_t ARROW_ARG_UNUSED(nbytes)) {
+  virtual Result<std::string_view> DoPeek(int64_t ARROW_ARG_UNUSED(nbytes)) {
     return Status::NotImplemented("Peek not implemented");
   }
 
@@ -186,7 +186,7 @@ class ARROW_EXPORT RandomAccessFileConcurrencyWrapper : public RandomAccessFile
     return derived()->DoRead(nbytes);
   }
 
-  Result<util::string_view> Peek(int64_t nbytes) final {
+  Result<std::string_view> Peek(int64_t nbytes) final {
     auto guard = lock_.exclusive_guard();
     return derived()->DoPeek(nbytes);
   }
@@ -232,7 +232,7 @@ class ARROW_EXPORT RandomAccessFileConcurrencyWrapper : public RandomAccessFile
   And optionally:
 
   Status DoAbort() override;
-  Result<util::string_view> DoPeek(int64_t nbytes) override;
+  Result<std::string_view> DoPeek(int64_t nbytes) override;
 
   These methods should be protected in the derived class and
   RandomAccessFileConcurrencyWrapper declared as a friend with
@@ -245,7 +245,7 @@ class ARROW_EXPORT RandomAccessFileConcurrencyWrapper : public RandomAccessFile
   // have derived classes itself.
   virtual Status DoAbort() { return derived()->DoClose(); }
 
-  virtual Result<util::string_view> DoPeek(int64_t ARROW_ARG_UNUSED(nbytes)) {
+  virtual Result<std::string_view> DoPeek(int64_t ARROW_ARG_UNUSED(nbytes)) {
     return Status::NotImplemented("Peek not implemented");
   }
 
diff --git a/cpp/src/arrow/io/file.cc b/cpp/src/arrow/io/file.cc
index e57f93ad96e..543fa90a86e 100644
--- a/cpp/src/arrow/io/file.cc
+++ b/cpp/src/arrow/io/file.cc
@@ -434,7 +434,7 @@ class MemoryMappedFile::MemoryMap
 
   Status Open(const std::string& path, FileMode::type mode, const int64_t offset = 0,
               const int64_t length = -1) {
-    file_.reset(new OSFile());
+    file_ = std::make_unique<OSFile>();
 
     if (mode != FileMode::READ) {
       // Memory mapping has permission failures if PROT_READ not set
diff --git a/cpp/src/arrow/io/file_test.cc b/cpp/src/arrow/io/file_test.cc
index 8165c9c0b49..ba8ecd54b5b 100644
--- a/cpp/src/arrow/io/file_test.cc
+++ b/cpp/src/arrow/io/file_test.cc
@@ -67,7 +67,7 @@ class FileTestFixture : public ::testing::Test {
     EnsureFileDeleted();
   }
 
-  std::string TempFile(arrow::util::string_view path) {
+  std::string TempFile(std::string_view path) {
     return temp_dir_->path().Join(std::string(path)).ValueOrDie().ToString();
   }
 
@@ -387,6 +387,22 @@ TEST_F(TestReadableFile, ReadAsync) {
   AssertBufferEqual(*buf2, "test");
 }
 
+TEST_F(TestReadableFile, ReadManyAsync) {
+  MakeTestFile();
+  OpenFile();
+
+  std::vector<ReadRange> ranges = {{1, 3}, {2, 5}, {4, 2}};
+  auto futs = file_->ReadManyAsync(std::move(ranges));
+
+  ASSERT_EQ(futs.size(), 3);
+  ASSERT_OK_AND_ASSIGN(auto buf1, futs[0].result());
+  ASSERT_OK_AND_ASSIGN(auto buf2, futs[1].result());
+  ASSERT_OK_AND_ASSIGN(auto buf3, futs[2].result());
+  AssertBufferEqual(*buf1, "est");
+  AssertBufferEqual(*buf2, "stdat");
+  AssertBufferEqual(*buf3, "da");
+}
+
 TEST_F(TestReadableFile, SeekingRequired) {
   MakeTestFile();
   OpenFile();
@@ -423,15 +439,18 @@ class MyMemoryPool : public MemoryPool {
  public:
   MyMemoryPool() : num_allocations_(0) {}
 
-  Status Allocate(int64_t size, uint8_t** out) override {
+  Status Allocate(int64_t size, int64_t /*alignment*/, uint8_t** out) override {
     *out = reinterpret_cast<uint8_t*>(std::malloc(size));
     ++num_allocations_;
     return Status::OK();
   }
 
-  void Free(uint8_t* buffer, int64_t size) override { std::free(buffer); }
+  void Free(uint8_t* buffer, int64_t size, int64_t /*alignment*/) override {
+    std::free(buffer);
+  }
 
-  Status Reallocate(int64_t old_size, int64_t new_size, uint8_t** ptr) override {
+  Status Reallocate(int64_t old_size, int64_t new_size, int64_t /*alignment*/,
+                    uint8_t** ptr) override {
     *ptr = reinterpret_cast<uint8_t*>(std::realloc(*ptr, new_size));
 
     if (*ptr == NULL) {
@@ -563,7 +582,7 @@ class TestMemoryMappedFile : public ::testing::Test, public MemoryMapFixture {
 
   void TearDown() override { MemoryMapFixture::TearDown(); }
 
-  std::string TempFile(arrow::util::string_view path) {
+  std::string TempFile(std::string_view path) {
     return temp_dir_->path().Join(std::string(path)).ValueOrDie().ToString();
   }
 
diff --git a/cpp/src/arrow/io/hdfs.h b/cpp/src/arrow/io/hdfs.h
index 5244eb05248..46038070ae4 100644
--- a/cpp/src/arrow/io/hdfs.h
+++ b/cpp/src/arrow/io/hdfs.h
@@ -278,7 +278,7 @@ class ARROW_EXPORT HdfsOutputStream : public OutputStream {
   ARROW_DISALLOW_COPY_AND_ASSIGN(HdfsOutputStream);
 };
 
-Status ARROW_EXPORT HaveLibHdfs();
+ARROW_EXPORT Status HaveLibHdfs();
 
 }  // namespace io
 }  // namespace arrow
diff --git a/cpp/src/arrow/io/hdfs_internal.h b/cpp/src/arrow/io/hdfs_internal.h
index 624938231db..590e3a48359 100644
--- a/cpp/src/arrow/io/hdfs_internal.h
+++ b/cpp/src/arrow/io/hdfs_internal.h
@@ -215,7 +215,7 @@ struct LibHdfsShim {
 };
 
 // TODO(wesm): Remove these exports when we are linking statically
-Status ARROW_EXPORT ConnectLibHdfs(LibHdfsShim** driver);
+ARROW_EXPORT Status ConnectLibHdfs(LibHdfsShim** driver);
 
 }  // namespace internal
 }  // namespace io
diff --git a/cpp/src/arrow/io/interfaces.cc b/cpp/src/arrow/io/interfaces.cc
index 1dfb0bdf8ad..e7819e139f6 100644
--- a/cpp/src/arrow/io/interfaces.cc
+++ b/cpp/src/arrow/io/interfaces.cc
@@ -24,6 +24,7 @@
 #include <memory>
 #include <mutex>
 #include <sstream>
+#include <string_view>
 #include <typeinfo>
 #include <utility>
 
@@ -38,7 +39,6 @@
 #include "arrow/util/io_util.h"
 #include "arrow/util/iterator.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/thread_pool.h"
 
 namespace arrow {
@@ -50,12 +50,14 @@ using internal::ThreadPool;
 
 namespace io {
 
-static IOContext g_default_io_context{};
-
 IOContext::IOContext(MemoryPool* pool, StopToken stop_token)
     : IOContext(pool, internal::GetIOThreadPool(), std::move(stop_token)) {}
 
-const IOContext& default_io_context() { return g_default_io_context; }
+const IOContext& default_io_context() {
+  // Avoid using a global variable because of initialization order issues (ARROW-18383)
+  static IOContext g_default_io_context{};
+  return g_default_io_context;
+}
 
 int GetIOThreadPoolCapacity() { return internal::GetIOThreadPool()->GetCapacity(); }
 
@@ -103,11 +105,11 @@ class InputStreamBlockIterator {
 
 }  // namespace
 
-const IOContext& Readable::io_context() const { return g_default_io_context; }
+const IOContext& Readable::io_context() const { return default_io_context(); }
 
 Status InputStream::Advance(int64_t nbytes) { return Read(nbytes).status(); }
 
-Result<util::string_view> InputStream::Peek(int64_t ARROW_ARG_UNUSED(nbytes)) {
+Result<std::string_view> InputStream::Peek(int64_t ARROW_ARG_UNUSED(nbytes)) {
   return Status::NotImplemented("Peek not implemented");
 }
 
@@ -173,12 +175,26 @@ Future<std::shared_ptr<Buffer>> RandomAccessFile::ReadAsync(int64_t position,
   return ReadAsync(io_context(), position, nbytes);
 }
 
+std::vector<Future<std::shared_ptr<Buffer>>> RandomAccessFile::ReadManyAsync(
+    const IOContext& ctx, const std::vector<ReadRange>& ranges) {
+  std::vector<Future<std::shared_ptr<Buffer>>> ret;
+  for (auto r : ranges) {
+    ret.push_back(this->ReadAsync(ctx, r.offset, r.length));
+  }
+  return ret;
+}
+
+std::vector<Future<std::shared_ptr<Buffer>>> RandomAccessFile::ReadManyAsync(
+    const std::vector<ReadRange>& ranges) {
+  return ReadManyAsync(io_context(), ranges);
+}
+
 // Default WillNeed() implementation: no-op
 Status RandomAccessFile::WillNeed(const std::vector<ReadRange>& ranges) {
   return Status::OK();
 }
 
-Status Writable::Write(util::string_view data) {
+Status Writable::Write(std::string_view data) {
   return Write(data.data(), static_cast<int64_t>(data.size()));
 }
 
diff --git a/cpp/src/arrow/io/interfaces.h b/cpp/src/arrow/io/interfaces.h
index 70c0dd8520f..c5355c94227 100644
--- a/cpp/src/arrow/io/interfaces.h
+++ b/cpp/src/arrow/io/interfaces.h
@@ -20,13 +20,13 @@
 #include <cstdint>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <vector>
 
 #include "arrow/io/type_fwd.h"
 #include "arrow/type_fwd.h"
 #include "arrow/util/cancel.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/type_fwd.h"
 #include "arrow/util/visibility.h"
 
@@ -175,7 +175,7 @@ class ARROW_EXPORT Writable {
   /// \brief Flush buffered bytes, if any
   virtual Status Flush();
 
-  Status Write(util::string_view data);
+  Status Write(std::string_view data);
 };
 
 class ARROW_EXPORT Readable {
@@ -227,7 +227,7 @@ class ARROW_EXPORT InputStream : virtual public FileInterface,
   /// May return NotImplemented on streams that don't support it.
   ///
   /// \param[in] nbytes the maximum number of bytes to see
-  virtual Result<util::string_view> Peek(int64_t nbytes);
+  virtual Result<std::string_view> Peek(int64_t nbytes);
 
   /// \brief Return true if InputStream is capable of zero copy Buffer reads
   ///
@@ -305,6 +305,27 @@ class ARROW_EXPORT RandomAccessFile : public InputStream, public Seekable {
   /// EXPERIMENTAL: Read data asynchronously, using the file's IOContext.
   Future<std::shared_ptr<Buffer>> ReadAsync(int64_t position, int64_t nbytes);
 
+  /// EXPERIMENTAL: Explicit multi-read.
+  /// \brief Request multiple reads at once
+  ///
+  /// The underlying filesystem may optimize these reads by coalescing small reads into
+  /// large reads or by breaking up large reads into multiple parallel smaller reads.  The
+  /// reads should be issued in parallel if it makes sense for the filesystem.
+  ///
+  /// One future will be returned for each input read range.  Multiple returned futures
+  /// may correspond to a single read.  Or, a single returned future may be a combined
+  /// result of several individual reads.
+  ///
+  /// \param[in] ranges The ranges to read
+  /// \return A future that will complete with the data from the requested range is
+  /// available
+  virtual std::vector<Future<std::shared_ptr<Buffer>>> ReadManyAsync(
+      const IOContext&, const std::vector<ReadRange>& ranges);
+
+  /// EXPERIMENTAL: Explicit multi-read, using the file's IOContext.
+  std::vector<Future<std::shared_ptr<Buffer>>> ReadManyAsync(
+      const std::vector<ReadRange>& ranges);
+
   /// EXPERIMENTAL: Inform that the given ranges may be read soon.
   ///
   /// Some implementations might arrange to prefetch some of the data.
diff --git a/cpp/src/arrow/io/memory.cc b/cpp/src/arrow/io/memory.cc
index 6495242e63b..9b2b0313323 100644
--- a/cpp/src/arrow/io/memory.cc
+++ b/cpp/src/arrow/io/memory.cc
@@ -274,7 +274,7 @@ BufferReader::BufferReader(const uint8_t* data, int64_t size)
 BufferReader::BufferReader(const Buffer& buffer)
     : BufferReader(buffer.data(), buffer.size()) {}
 
-BufferReader::BufferReader(const util::string_view& data)
+BufferReader::BufferReader(const std::string_view& data)
     : BufferReader(reinterpret_cast<const uint8_t*>(data.data()),
                    static_cast<int64_t>(data.size())) {}
 
@@ -290,12 +290,12 @@ Result<int64_t> BufferReader::DoTell() const {
   return position_;
 }
 
-Result<util::string_view> BufferReader::DoPeek(int64_t nbytes) {
+Result<std::string_view> BufferReader::DoPeek(int64_t nbytes) {
   RETURN_NOT_OK(CheckClosed());
 
   const int64_t bytes_available = std::min(nbytes, size_ - position_);
-  return util::string_view(reinterpret_cast<const char*>(data_) + position_,
-                           static_cast<size_t>(bytes_available));
+  return std::string_view(reinterpret_cast<const char*>(data_) + position_,
+                          static_cast<size_t>(bytes_available));
 }
 
 bool BufferReader::supports_zero_copy() const { return true; }
diff --git a/cpp/src/arrow/io/memory.h b/cpp/src/arrow/io/memory.h
index 8213439ef74..5c35a6015be 100644
--- a/cpp/src/arrow/io/memory.h
+++ b/cpp/src/arrow/io/memory.h
@@ -21,12 +21,12 @@
 
 #include <cstdint>
 #include <memory>
+#include <string_view>
 #include <vector>
 
 #include "arrow/io/concurrency.h"
 #include "arrow/io/interfaces.h"
 #include "arrow/type_fwd.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -149,9 +149,9 @@ class ARROW_EXPORT BufferReader
   explicit BufferReader(const Buffer& buffer);
   BufferReader(const uint8_t* data, int64_t size);
 
-  /// \brief Instantiate from std::string or arrow::util::string_view. Does not
+  /// \brief Instantiate from std::string or std::string_view. Does not
   /// own data
-  explicit BufferReader(const util::string_view& data);
+  explicit BufferReader(const std::string_view& data);
 
   bool closed() const override;
 
@@ -173,7 +173,7 @@ class ARROW_EXPORT BufferReader
   Result<std::shared_ptr<Buffer>> DoRead(int64_t nbytes);
   Result<int64_t> DoReadAt(int64_t position, int64_t nbytes, void* out);
   Result<std::shared_ptr<Buffer>> DoReadAt(int64_t position, int64_t nbytes);
-  Result<util::string_view> DoPeek(int64_t nbytes) override;
+  Result<std::string_view> DoPeek(int64_t nbytes) override;
 
   Result<int64_t> DoTell() const;
   Status DoSeek(int64_t position);
diff --git a/cpp/src/arrow/io/memory_benchmark.cc b/cpp/src/arrow/io/memory_benchmark.cc
index 1b584d17e08..3084b5e79aa 100644
--- a/cpp/src/arrow/io/memory_benchmark.cc
+++ b/cpp/src/arrow/io/memory_benchmark.cc
@@ -154,7 +154,7 @@ static void StreamReadWrite(void* src, void* dst, size_t size) {
 
 #endif  // ARROW_HAVE_SSE4_2
 
-#ifdef ARROW_HAVE_ARMV8_CRYPTO
+#ifdef ARROW_HAVE_NEON
 
 using VectorType = uint8x16_t;
 using VectorTypeDual = uint8x16x2_t;
@@ -237,7 +237,7 @@ static void StreamReadWrite(void* src, void* dst, size_t size) {
   }
 }
 
-#endif  // ARROW_HAVE_ARMV8_CRYPTO
+#endif  // ARROW_HAVE_NEON
 
 static void PlatformMemcpy(void* src, void* dst, size_t size) { memcpy(src, dst, size); }
 
diff --git a/cpp/src/arrow/io/memory_test.cc b/cpp/src/arrow/io/memory_test.cc
index d361243ad6f..cdcbe240f85 100644
--- a/cpp/src/arrow/io/memory_test.cc
+++ b/cpp/src/arrow/io/memory_test.cc
@@ -162,10 +162,10 @@ TEST(TestFixedSizeBufferWriter, InvalidWrites) {
 
 TEST(TestBufferReader, FromStrings) {
   // ARROW-3291: construct BufferReader from std::string or
-  // arrow::util::string_view
+  // std::string_view
 
   std::string data = "data123456";
-  auto view = util::string_view(data);
+  auto view = std::string_view(data);
 
   BufferReader reader1(data);
   BufferReader reader2(view);
@@ -208,7 +208,7 @@ TEST(TestBufferReader, Peek) {
 
   BufferReader reader(std::make_shared<Buffer>(data));
 
-  util::string_view view;
+  std::string_view view;
 
   ASSERT_OK_AND_ASSIGN(view, reader.Peek(4));
 
@@ -378,7 +378,7 @@ template <typename SlowStreamType>
 void TestSlowInputStream() {
   using clock = std::chrono::high_resolution_clock;
 
-  auto stream = std::make_shared<BufferReader>(util::string_view("abcdefghijkl"));
+  auto stream = std::make_shared<BufferReader>(std::string_view("abcdefghijkl"));
   const double latency = 0.6;
   auto slow = std::make_shared<SlowStreamType>(stream, latency);
 
@@ -395,8 +395,8 @@ void TestSlowInputStream() {
   ARROW_UNUSED(dt);
 #endif
 
-  ASSERT_OK_AND_ASSIGN(util::string_view view, slow->Peek(4));
-  ASSERT_EQ(view, util::string_view("ghij"));
+  ASSERT_OK_AND_ASSIGN(std::string_view view, slow->Peek(4));
+  ASSERT_EQ(view, std::string_view("ghij"));
 
   ASSERT_OK(slow->Close());
   ASSERT_TRUE(slow->closed());
@@ -493,7 +493,7 @@ class TestTransformInputStream : public ::testing::Test {
   TransformInputStream::TransformFunc transform() const { return T(); }
 
   void TestEmptyStream() {
-    auto wrapped = std::make_shared<BufferReader>(util::string_view());
+    auto wrapped = std::make_shared<BufferReader>(std::string_view());
     auto stream = std::make_shared<TransformInputStream>(wrapped, transform());
 
     ASSERT_OK_AND_EQ(0, stream->Tell());
diff --git a/cpp/src/arrow/io/slow.cc b/cpp/src/arrow/io/slow.cc
index 1042691fa59..7c11a484fc1 100644
--- a/cpp/src/arrow/io/slow.cc
+++ b/cpp/src/arrow/io/slow.cc
@@ -97,7 +97,7 @@ Result<std::shared_ptr<Buffer>> SlowInputStream::Read(int64_t nbytes) {
   return stream_->Read(nbytes);
 }
 
-Result<util::string_view> SlowInputStream::Peek(int64_t nbytes) {
+Result<std::string_view> SlowInputStream::Peek(int64_t nbytes) {
   return stream_->Peek(nbytes);
 }
 
@@ -140,7 +140,7 @@ Result<std::shared_ptr<Buffer>> SlowRandomAccessFile::ReadAt(int64_t position,
   return stream_->ReadAt(position, nbytes);
 }
 
-Result<util::string_view> SlowRandomAccessFile::Peek(int64_t nbytes) {
+Result<std::string_view> SlowRandomAccessFile::Peek(int64_t nbytes) {
   return stream_->Peek(nbytes);
 }
 
diff --git a/cpp/src/arrow/io/slow.h b/cpp/src/arrow/io/slow.h
index 1ed90f0c2e9..fdcc56dfa6a 100644
--- a/cpp/src/arrow/io/slow.h
+++ b/cpp/src/arrow/io/slow.h
@@ -85,7 +85,7 @@ class ARROW_EXPORT SlowInputStream : public SlowInputStreamBase<InputStream> {
 
   Result<int64_t> Read(int64_t nbytes, void* out) override;
   Result<std::shared_ptr<Buffer>> Read(int64_t nbytes) override;
-  Result<util::string_view> Peek(int64_t nbytes) override;
+  Result<std::string_view> Peek(int64_t nbytes) override;
 
   Result<int64_t> Tell() const override;
 };
@@ -107,7 +107,7 @@ class ARROW_EXPORT SlowRandomAccessFile : public SlowInputStreamBase<RandomAcces
   Result<std::shared_ptr<Buffer>> Read(int64_t nbytes) override;
   Result<int64_t> ReadAt(int64_t position, int64_t nbytes, void* out) override;
   Result<std::shared_ptr<Buffer>> ReadAt(int64_t position, int64_t nbytes) override;
-  Result<util::string_view> Peek(int64_t nbytes) override;
+  Result<std::string_view> Peek(int64_t nbytes) override;
 
   Result<int64_t> GetSize() override;
   Status Seek(int64_t position) override;
diff --git a/cpp/src/arrow/io/type_fwd.h b/cpp/src/arrow/io/type_fwd.h
index a2fd33bf360..a1b9e626bba 100644
--- a/cpp/src/arrow/io/type_fwd.h
+++ b/cpp/src/arrow/io/type_fwd.h
@@ -66,10 +66,8 @@ class ReadWriteFileInterface;
 
 class LatencyGenerator;
 
-class BufferReader;
-
-class BufferInputStream;
 class BufferOutputStream;
+class BufferReader;
 class CompressedInputStream;
 class CompressedOutputStream;
 class BufferedInputStream;
diff --git a/cpp/src/arrow/ipc/CMakeLists.txt b/cpp/src/arrow/ipc/CMakeLists.txt
index 495018ec096..4b62bdc3a77 100644
--- a/cpp/src/arrow/ipc/CMakeLists.txt
+++ b/cpp/src/arrow/ipc/CMakeLists.txt
@@ -63,6 +63,10 @@ if(ARROW_BUILD_UTILITIES OR ARROW_BUILD_INTEGRATION)
   target_link_libraries(arrow-file-to-stream ${ARROW_UTIL_LIB})
   add_executable(arrow-stream-to-file stream_to_file.cc)
   target_link_libraries(arrow-stream-to-file ${ARROW_UTIL_LIB})
+  if(ARROW_BUILD_UTILITIES)
+    install(TARGETS arrow-file-to-stream arrow-stream-to-file ${INSTALL_IS_OPTIONAL}
+            DESTINATION ${CMAKE_INSTALL_BINDIR})
+  endif()
 
   if(ARROW_BUILD_INTEGRATION)
     add_dependencies(arrow-integration arrow-file-to-stream)
diff --git a/cpp/src/arrow/ipc/feather.cc b/cpp/src/arrow/ipc/feather.cc
index ad4baf2527b..b6d3a3d7d8c 100644
--- a/cpp/src/arrow/ipc/feather.cc
+++ b/cpp/src/arrow/ipc/feather.cc
@@ -46,7 +46,6 @@
 #include "arrow/util/bit_util.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/visit_type_inline.h"
 
 #include "generated/feather_generated.h"
@@ -54,7 +53,6 @@
 namespace arrow {
 
 using internal::checked_cast;
-using internal::make_unique;
 
 class ExtensionType;
 
diff --git a/cpp/src/arrow/ipc/json_simple.cc b/cpp/src/arrow/ipc/json_simple.cc
index 667fd00ae21..eea0c973028 100644
--- a/cpp/src/arrow/ipc/json_simple.cc
+++ b/cpp/src/arrow/ipc/json_simple.cc
@@ -17,6 +17,7 @@
 
 #include <cstdint>
 #include <sstream>
+#include <string_view>
 #include <type_traits>
 #include <utility>
 #include <vector>
@@ -36,7 +37,6 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/decimal.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/value_parsing.h"
 
 #include "arrow/json/rapidjson_defs.h"
@@ -64,9 +64,30 @@ namespace {
 
 constexpr auto kParseFlags = rj::kParseFullPrecisionFlag | rj::kParseNanAndInfFlag;
 
+const char* JsonTypeName(rj::Type json_type) {
+  switch (json_type) {
+    case rapidjson::kNullType:
+      return "null";
+    case rapidjson::kFalseType:
+      return "false";
+    case rapidjson::kTrueType:
+      return "true";
+    case rapidjson::kObjectType:
+      return "object";
+    case rapidjson::kArrayType:
+      return "array";
+    case rapidjson::kStringType:
+      return "string";
+    case rapidjson::kNumberType:
+      return "number";
+    default:
+      return "unknown";
+  }
+}
+
 Status JSONTypeError(const char* expected_type, rj::Type json_type) {
   return Status::Invalid("Expected ", expected_type, " or null, got JSON type ",
-                         json_type);
+                         JsonTypeName(json_type));
 }
 
 class Converter {
@@ -317,7 +338,7 @@ class DecimalConverter final
     if (json_obj.IsString()) {
       int32_t precision, scale;
       DecimalValue d;
-      auto view = util::string_view(json_obj.GetString(), json_obj.GetStringLength());
+      auto view = std::string_view(json_obj.GetString(), json_obj.GetStringLength());
       RETURN_NOT_OK(DecimalValue::FromString(view, &d, &precision, &scale));
       if (scale != decimal_type_->scale()) {
         return Status::Invalid("Invalid scale for decimal: expected ",
@@ -359,7 +380,7 @@ class TimestampConverter final : public ConcreteConverter<TimestampConverter> {
     if (json_obj.IsNumber()) {
       RETURN_NOT_OK(ConvertNumber<Int64Type>(json_obj, *this->type_, &value));
     } else if (json_obj.IsString()) {
-      util::string_view view(json_obj.GetString(), json_obj.GetStringLength());
+      std::string_view view(json_obj.GetString(), json_obj.GetStringLength());
       if (!ParseValue(*timestamp_type_, view.data(), view.size(), &value)) {
         return Status::Invalid("couldn't parse timestamp from ", view);
       }
@@ -461,7 +482,7 @@ class StringConverter final
       return this->AppendNull();
     }
     if (json_obj.IsString()) {
-      auto view = util::string_view(json_obj.GetString(), json_obj.GetStringLength());
+      auto view = std::string_view(json_obj.GetString(), json_obj.GetStringLength());
       return builder_->Append(view);
     } else {
       return JSONTypeError("string", json_obj.GetType());
@@ -492,7 +513,7 @@ class FixedSizeBinaryConverter final
       return this->AppendNull();
     }
     if (json_obj.IsString()) {
-      auto view = util::string_view(json_obj.GetString(), json_obj.GetStringLength());
+      auto view = std::string_view(json_obj.GetString(), json_obj.GetStringLength());
       if (view.length() != static_cast<size_t>(builder_->byte_width())) {
         std::stringstream ss;
         ss << "Invalid string length " << view.length() << " in JSON input for "
@@ -906,7 +927,7 @@ Status GetConverter(const std::shared_ptr<DataType>& type,
 }  // namespace
 
 Result<std::shared_ptr<Array>> ArrayFromJSON(const std::shared_ptr<DataType>& type,
-                                             util::string_view json_string) {
+                                             std::string_view json_string) {
   std::shared_ptr<Converter> converter;
   RETURN_NOT_OK(GetConverter(type, &converter));
 
@@ -926,12 +947,12 @@ Result<std::shared_ptr<Array>> ArrayFromJSON(const std::shared_ptr<DataType>& ty
 
 Result<std::shared_ptr<Array>> ArrayFromJSON(const std::shared_ptr<DataType>& type,
                                              const std::string& json_string) {
-  return ArrayFromJSON(type, util::string_view(json_string));
+  return ArrayFromJSON(type, std::string_view(json_string));
 }
 
 Result<std::shared_ptr<Array>> ArrayFromJSON(const std::shared_ptr<DataType>& type,
                                              const char* json_string) {
-  return ArrayFromJSON(type, util::string_view(json_string));
+  return ArrayFromJSON(type, std::string_view(json_string));
 }
 
 Status ChunkedArrayFromJSON(const std::shared_ptr<DataType>& type,
@@ -948,8 +969,8 @@ Status ChunkedArrayFromJSON(const std::shared_ptr<DataType>& type,
 }
 
 Status DictArrayFromJSON(const std::shared_ptr<DataType>& type,
-                         util::string_view indices_json,
-                         util::string_view dictionary_json, std::shared_ptr<Array>* out) {
+                         std::string_view indices_json, std::string_view dictionary_json,
+                         std::shared_ptr<Array>* out) {
   if (type->id() != Type::DICTIONARY) {
     return Status::TypeError("DictArrayFromJSON requires dictionary type, got ", *type);
   }
@@ -965,8 +986,8 @@ Status DictArrayFromJSON(const std::shared_ptr<DataType>& type,
       .Value(out);
 }
 
-Status ScalarFromJSON(const std::shared_ptr<DataType>& type,
-                      util::string_view json_string, std::shared_ptr<Scalar>* out) {
+Status ScalarFromJSON(const std::shared_ptr<DataType>& type, std::string_view json_string,
+                      std::shared_ptr<Scalar>* out) {
   std::shared_ptr<Converter> converter;
   RETURN_NOT_OK(GetConverter(type, &converter));
 
@@ -985,7 +1006,7 @@ Status ScalarFromJSON(const std::shared_ptr<DataType>& type,
 }
 
 Status DictScalarFromJSON(const std::shared_ptr<DataType>& type,
-                          util::string_view index_json, util::string_view dictionary_json,
+                          std::string_view index_json, std::string_view dictionary_json,
                           std::shared_ptr<Scalar>* out) {
   if (type->id() != Type::DICTIONARY) {
     return Status::TypeError("DictScalarFromJSON requires dictionary type, got ", *type);
diff --git a/cpp/src/arrow/ipc/json_simple.h b/cpp/src/arrow/ipc/json_simple.h
index 2fb2e838375..3a730ee6a3f 100644
--- a/cpp/src/arrow/ipc/json_simple.h
+++ b/cpp/src/arrow/ipc/json_simple.h
@@ -21,10 +21,10 @@
 
 #include <memory>
 #include <string>
+#include <string_view>
 
 #include "arrow/status.h"
 #include "arrow/type_fwd.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -42,7 +42,7 @@ Result<std::shared_ptr<Array>> ArrayFromJSON(const std::shared_ptr<DataType>&,
 
 ARROW_EXPORT
 Result<std::shared_ptr<Array>> ArrayFromJSON(const std::shared_ptr<DataType>&,
-                                             util::string_view json);
+                                             std::string_view json);
 
 ARROW_EXPORT
 Result<std::shared_ptr<Array>> ArrayFromJSON(const std::shared_ptr<DataType>&,
@@ -54,17 +54,16 @@ Status ChunkedArrayFromJSON(const std::shared_ptr<DataType>& type,
                             std::shared_ptr<ChunkedArray>* out);
 
 ARROW_EXPORT
-Status DictArrayFromJSON(const std::shared_ptr<DataType>&, util::string_view indices_json,
-                         util::string_view dictionary_json, std::shared_ptr<Array>* out);
+Status DictArrayFromJSON(const std::shared_ptr<DataType>&, std::string_view indices_json,
+                         std::string_view dictionary_json, std::shared_ptr<Array>* out);
 
 ARROW_EXPORT
-Status ScalarFromJSON(const std::shared_ptr<DataType>&, util::string_view json,
+Status ScalarFromJSON(const std::shared_ptr<DataType>&, std::string_view json,
                       std::shared_ptr<Scalar>* out);
 
 ARROW_EXPORT
-Status DictScalarFromJSON(const std::shared_ptr<DataType>&, util::string_view index_json,
-                          util::string_view dictionary_json,
-                          std::shared_ptr<Scalar>* out);
+Status DictScalarFromJSON(const std::shared_ptr<DataType>&, std::string_view index_json,
+                          std::string_view dictionary_json, std::shared_ptr<Scalar>* out);
 
 }  // namespace json
 }  // namespace internal
diff --git a/cpp/src/arrow/ipc/message.cc b/cpp/src/arrow/ipc/message.cc
index fc7e8b8c00f..36754518d29 100644
--- a/cpp/src/arrow/ipc/message.cc
+++ b/cpp/src/arrow/ipc/message.cc
@@ -1007,12 +1007,12 @@ class InputStreamMessageReader : public MessageReader, public MessageDecoderList
 };
 
 std::unique_ptr<MessageReader> MessageReader::Open(io::InputStream* stream) {
-  return std::unique_ptr<MessageReader>(new InputStreamMessageReader(stream));
+  return std::make_unique<InputStreamMessageReader>(stream);
 }
 
 std::unique_ptr<MessageReader> MessageReader::Open(
     const std::shared_ptr<io::InputStream>& owned_stream) {
-  return std::unique_ptr<MessageReader>(new InputStreamMessageReader(owned_stream));
+  return std::make_unique<InputStreamMessageReader>(owned_stream);
 }
 
 }  // namespace ipc
diff --git a/cpp/src/arrow/ipc/metadata_internal.cc b/cpp/src/arrow/ipc/metadata_internal.cc
index 3e5da9d6567..2e450b9d46d 100644
--- a/cpp/src/arrow/ipc/metadata_internal.cc
+++ b/cpp/src/arrow/ipc/metadata_internal.cc
@@ -38,6 +38,7 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
+#include "arrow/util/string.h"
 #include "arrow/util/ubsan.h"
 #include "arrow/visit_type_inline.h"
 
@@ -51,6 +52,7 @@ namespace arrow {
 
 namespace flatbuf = org::apache::arrow::flatbuf;
 using internal::checked_cast;
+using internal::ToChars;
 
 namespace ipc {
 namespace internal {
@@ -385,8 +387,7 @@ Status ConcreteTypeFromFlatbuffer(flatbuf::Type type, const void* type_data,
       return UnionFromFlatbuffer(static_cast<const flatbuf::Union*>(type_data), children,
                                  out);
     default:
-      return Status::Invalid("Unrecognized type:" +
-                             std::to_string(static_cast<int>(type)));
+      return Status::Invalid("Unrecognized type:" + ToChars(static_cast<int>(type)));
   }
 }
 
diff --git a/cpp/src/arrow/ipc/read_write_test.cc b/cpp/src/arrow/ipc/read_write_test.cc
index be6fd513e5e..b556c8ed34b 100644
--- a/cpp/src/arrow/ipc/read_write_test.cc
+++ b/cpp/src/arrow/ipc/read_write_test.cc
@@ -381,7 +381,7 @@ class IpcTestFixture : public io::MemoryMapFixture, public ExtensionTypesMixin {
     ASSERT_OK_AND_ASSIGN(temp_dir_, TemporaryDir::Make("ipc-test-"));
   }
 
-  std::string TempFile(util::string_view file) {
+  std::string TempFile(std::string_view file) {
     return temp_dir_->path().Join(std::string(file)).ValueOrDie().ToString();
   }
 
@@ -891,7 +891,7 @@ class RecursionLimits : public ::testing::Test, public io::MemoryMapFixture {
     ASSERT_OK_AND_ASSIGN(temp_dir_, TemporaryDir::Make("ipc-recursion-limits-test-"));
   }
 
-  std::string TempFile(util::string_view file) {
+  std::string TempFile(std::string_view file) {
     return temp_dir_->path().Join(std::string(file)).ValueOrDie().ToString();
   }
 
diff --git a/cpp/src/arrow/ipc/reader.cc b/cpp/src/arrow/ipc/reader.cc
index 0972d7e85ca..a1b17afaaf9 100644
--- a/cpp/src/arrow/ipc/reader.cc
+++ b/cpp/src/arrow/ipc/reader.cc
@@ -20,6 +20,7 @@
 #include <algorithm>
 #include <cstdint>
 #include <cstring>
+#include <memory>
 #include <numeric>
 #include <string>
 #include <type_traits>
@@ -52,7 +53,6 @@
 #include "arrow/util/endian.h"
 #include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/parallel.h"
 #include "arrow/util/string.h"
 #include "arrow/util/thread_pool.h"
diff --git a/cpp/src/arrow/ipc/writer.cc b/cpp/src/arrow/ipc/writer.cc
index d015ee3f4d9..585b86fd847 100644
--- a/cpp/src/arrow/ipc/writer.cc
+++ b/cpp/src/arrow/ipc/writer.cc
@@ -21,6 +21,7 @@
 #include <cstdint>
 #include <cstring>
 #include <limits>
+#include <memory>
 #include <sstream>
 #include <string>
 #include <type_traits>
@@ -52,7 +53,6 @@
 #include "arrow/util/endian.h"
 #include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/parallel.h"
 #include "arrow/visit_array_inline.h"
 #include "arrow/visit_type_inline.h"
@@ -771,7 +771,7 @@ Result<std::unique_ptr<Message>> GetTensorMessage(const Tensor& tensor,
   std::shared_ptr<Buffer> metadata;
   ARROW_ASSIGN_OR_RAISE(metadata,
                         internal::WriteTensorMessage(*tensor_to_write, 0, options));
-  return std::unique_ptr<Message>(new Message(metadata, tensor_to_write->data()));
+  return std::make_unique<Message>(metadata, tensor_to_write->data());
 }
 
 namespace internal {
@@ -951,6 +951,16 @@ Status GetTensorSize(const Tensor& tensor, int64_t* size) {
 
 RecordBatchWriter::~RecordBatchWriter() {}
 
+Status RecordBatchWriter::WriteRecordBatch(
+    const RecordBatch& batch,
+    const std::shared_ptr<const KeyValueMetadata>& custom_metadata) {
+  if (custom_metadata == nullptr) {
+    return WriteRecordBatch(batch);
+  }
+  return Status::NotImplemented(
+      "Write record batch with custom metadata not implemented");
+}
+
 Status RecordBatchWriter::WriteTable(const Table& table, int64_t max_chunksize) {
   TableBatchReader reader(table);
 
@@ -1328,17 +1338,16 @@ Result<std::shared_ptr<RecordBatchWriter>> MakeStreamWriter(
     io::OutputStream* sink, const std::shared_ptr<Schema>& schema,
     const IpcWriteOptions& options) {
   return std::make_shared<internal::IpcFormatWriter>(
-      ::arrow::internal::make_unique<internal::PayloadStreamWriter>(sink, options),
-      schema, options, /*is_file_format=*/false);
+      std::make_unique<internal::PayloadStreamWriter>(sink, options), schema, options,
+      /*is_file_format=*/false);
 }
 
 Result<std::shared_ptr<RecordBatchWriter>> MakeStreamWriter(
     std::shared_ptr<io::OutputStream> sink, const std::shared_ptr<Schema>& schema,
     const IpcWriteOptions& options) {
   return std::make_shared<internal::IpcFormatWriter>(
-      ::arrow::internal::make_unique<internal::PayloadStreamWriter>(std::move(sink),
-                                                                    options),
-      schema, options, /*is_file_format=*/false);
+      std::make_unique<internal::PayloadStreamWriter>(std::move(sink), options), schema,
+      options, /*is_file_format=*/false);
 }
 
 Result<std::shared_ptr<RecordBatchWriter>> NewStreamWriter(
@@ -1352,8 +1361,7 @@ Result<std::shared_ptr<RecordBatchWriter>> MakeFileWriter(
     const IpcWriteOptions& options,
     const std::shared_ptr<const KeyValueMetadata>& metadata) {
   return std::make_shared<internal::IpcFormatWriter>(
-      ::arrow::internal::make_unique<internal::PayloadFileWriter>(options, schema,
-                                                                  metadata, sink),
+      std::make_unique<internal::PayloadFileWriter>(options, schema, metadata, sink),
       schema, options, /*is_file_format=*/true);
 }
 
@@ -1362,8 +1370,8 @@ Result<std::shared_ptr<RecordBatchWriter>> MakeFileWriter(
     const IpcWriteOptions& options,
     const std::shared_ptr<const KeyValueMetadata>& metadata) {
   return std::make_shared<internal::IpcFormatWriter>(
-      ::arrow::internal::make_unique<internal::PayloadFileWriter>(
-          options, schema, metadata, std::move(sink)),
+      std::make_unique<internal::PayloadFileWriter>(options, schema, metadata,
+                                                    std::move(sink)),
       schema, options, /*is_file_format=*/true);
 }
 
@@ -1379,7 +1387,11 @@ namespace internal {
 Result<std::unique_ptr<RecordBatchWriter>> OpenRecordBatchWriter(
     std::unique_ptr<IpcPayloadWriter> sink, const std::shared_ptr<Schema>& schema,
     const IpcWriteOptions& options) {
-  auto writer = ::arrow::internal::make_unique<internal::IpcFormatWriter>(
+  // constructor for IpcFormatWriter here dereferences ptr to schema.
+  if (schema == nullptr) {
+    return Status::Invalid("nullptr for Schema not allowed");
+  }
+  auto writer = std::make_unique<internal::IpcFormatWriter>(
       std::move(sink), schema, options, /*is_file_format=*/false);
   RETURN_NOT_OK(writer->Start());
   return std::move(writer);
@@ -1387,15 +1399,14 @@ Result<std::unique_ptr<RecordBatchWriter>> OpenRecordBatchWriter(
 
 Result<std::unique_ptr<IpcPayloadWriter>> MakePayloadStreamWriter(
     io::OutputStream* sink, const IpcWriteOptions& options) {
-  return ::arrow::internal::make_unique<internal::PayloadStreamWriter>(sink, options);
+  return std::make_unique<internal::PayloadStreamWriter>(sink, options);
 }
 
 Result<std::unique_ptr<IpcPayloadWriter>> MakePayloadFileWriter(
     io::OutputStream* sink, const std::shared_ptr<Schema>& schema,
     const IpcWriteOptions& options,
     const std::shared_ptr<const KeyValueMetadata>& metadata) {
-  return ::arrow::internal::make_unique<internal::PayloadFileWriter>(options, schema,
-                                                                     metadata, sink);
+  return std::make_unique<internal::PayloadFileWriter>(options, schema, metadata, sink);
 }
 
 }  // namespace internal
@@ -1446,8 +1457,8 @@ Result<std::shared_ptr<Buffer>> SerializeSchema(const Schema& schema, MemoryPool
   auto options = IpcWriteOptions::Defaults();
   const bool is_file_format = false;  // indifferent as we don't write dictionaries
   internal::IpcFormatWriter writer(
-      ::arrow::internal::make_unique<internal::PayloadStreamWriter>(stream.get()), schema,
-      options, is_file_format);
+      std::make_unique<internal::PayloadStreamWriter>(stream.get()), schema, options,
+      is_file_format);
   RETURN_NOT_OK(writer.Start());
   return stream->Finish();
 }
diff --git a/cpp/src/arrow/ipc/writer.h b/cpp/src/arrow/ipc/writer.h
index 6dc62f41761..9e18a213ba3 100644
--- a/cpp/src/arrow/ipc/writer.h
+++ b/cpp/src/arrow/ipc/writer.h
@@ -103,10 +103,7 @@ class ARROW_EXPORT RecordBatchWriter {
   /// \return Status
   virtual Status WriteRecordBatch(
       const RecordBatch& batch,
-      const std::shared_ptr<const KeyValueMetadata>& custom_metadata) {
-    return Status::NotImplemented(
-        "Write record batch with custom metadata not implemented");
-  }
+      const std::shared_ptr<const KeyValueMetadata>& custom_metadata);
 
   /// \brief Write possibly-chunked table by creating sequence of record batches
   /// \param[in] table table to write
diff --git a/cpp/src/arrow/json/chunked_builder.cc b/cpp/src/arrow/json/chunked_builder.cc
index e95041ea06d..06da71eb6dd 100644
--- a/cpp/src/arrow/json/chunked_builder.cc
+++ b/cpp/src/arrow/json/chunked_builder.cc
@@ -37,6 +37,13 @@ using internal::checked_cast;
 using internal::TaskGroup;
 
 namespace json {
+namespace {
+
+Status MakeChunkedArrayBuilder(const std::shared_ptr<TaskGroup>& task_group,
+                               MemoryPool* pool, const PromotionGraph* promotion_graph,
+                               const std::shared_ptr<DataType>& type,
+                               bool allow_promotion,
+                               std::shared_ptr<ChunkedArrayBuilder>* out);
 
 class NonNestedChunkedArrayBuilder : public ChunkedArrayBuilder {
  public:
@@ -404,7 +411,7 @@ class ChunkedStructArrayBuilder : public ChunkedArrayBuilder {
 
         std::shared_ptr<ChunkedArrayBuilder> child_builder;
         RETURN_NOT_OK(MakeChunkedArrayBuilder(task_group_, pool_, promotion_graph_, type,
-                                              &child_builder));
+                                              /*allow_promotion=*/true, &child_builder));
         child_builders_.emplace_back(std::move(child_builder));
       }
 
@@ -432,14 +439,23 @@ class ChunkedStructArrayBuilder : public ChunkedArrayBuilder {
 Status MakeChunkedArrayBuilder(const std::shared_ptr<TaskGroup>& task_group,
                                MemoryPool* pool, const PromotionGraph* promotion_graph,
                                const std::shared_ptr<DataType>& type,
+                               bool allow_promotion,
                                std::shared_ptr<ChunkedArrayBuilder>* out) {
+  // If a promotion graph is provided, unexpected fields will be allowed - using the graph
+  // recursively for itself and any child fields (via the `allow_promotion` parameter).
+  // Fields provided in the schema will adhere to their corresponding type. However,
+  // structs defined in the schema may obtain unexpected child fields, which will use the
+  // promotion graph as well.
+  //
+  // If a promotion graph is not provided, unexpected fields are always ignored and
+  // type inference never occurs.
   if (type->id() == Type::STRUCT) {
     std::vector<std::pair<std::string, std::shared_ptr<ChunkedArrayBuilder>>>
         child_builders;
     for (const auto& f : type->fields()) {
       std::shared_ptr<ChunkedArrayBuilder> child_builder;
       RETURN_NOT_OK(MakeChunkedArrayBuilder(task_group, pool, promotion_graph, f->type(),
-                                            &child_builder));
+                                            allow_promotion, &child_builder));
       child_builders.emplace_back(f->name(), std::move(child_builder));
     }
     *out = std::make_shared<ChunkedStructArrayBuilder>(task_group, pool, promotion_graph,
@@ -450,14 +466,17 @@ Status MakeChunkedArrayBuilder(const std::shared_ptr<TaskGroup>& task_group,
     const auto& list_type = checked_cast<const ListType&>(*type);
     std::shared_ptr<ChunkedArrayBuilder> value_builder;
     RETURN_NOT_OK(MakeChunkedArrayBuilder(task_group, pool, promotion_graph,
-                                          list_type.value_type(), &value_builder));
+                                          list_type.value_type(), allow_promotion,
+                                          &value_builder));
     *out = std::make_shared<ChunkedListArrayBuilder>(
         task_group, pool, std::move(value_builder), list_type.value_field());
     return Status::OK();
   }
+
+  // Construct the "leaf" builder
   std::shared_ptr<Converter> converter;
   RETURN_NOT_OK(MakeConverter(type, pool, &converter));
-  if (promotion_graph) {
+  if (allow_promotion && promotion_graph) {
     *out = std::make_shared<InferringChunkedArrayBuilder>(task_group, promotion_graph,
                                                           std::move(converter));
   } else {
@@ -466,5 +485,18 @@ Status MakeChunkedArrayBuilder(const std::shared_ptr<TaskGroup>& task_group,
   return Status::OK();
 }
 
+}  // namespace
+
+// This overload is exposed to the user and will only be called once on instantiation to
+// canonicalize any explicitly-defined fields. Such fields won't be subject to
+// type inference/promotion
+Status MakeChunkedArrayBuilder(const std::shared_ptr<TaskGroup>& task_group,
+                               MemoryPool* pool, const PromotionGraph* promotion_graph,
+                               const std::shared_ptr<DataType>& type,
+                               std::shared_ptr<ChunkedArrayBuilder>* out) {
+  return MakeChunkedArrayBuilder(task_group, pool, promotion_graph, type,
+                                 /*allow_promotion=*/false, out);
+}
+
 }  // namespace json
 }  // namespace arrow
diff --git a/cpp/src/arrow/json/chunked_builder_test.cc b/cpp/src/arrow/json/chunked_builder_test.cc
index 2d89ab9b026..d1d6e5e5fc3 100644
--- a/cpp/src/arrow/json/chunked_builder_test.cc
+++ b/cpp/src/arrow/json/chunked_builder_test.cc
@@ -35,7 +35,7 @@
 namespace arrow {
 namespace json {
 
-using util::string_view;
+using std::string_view;
 
 using internal::checked_cast;
 using internal::GetCpuThreadPool;
diff --git a/cpp/src/arrow/json/chunker.cc b/cpp/src/arrow/json/chunker.cc
index b4b4d31eb94..1ce3dcc171e 100644
--- a/cpp/src/arrow/json/chunker.cc
+++ b/cpp/src/arrow/json/chunker.cc
@@ -18,6 +18,7 @@
 #include "arrow/json/chunker.h"
 
 #include <algorithm>
+#include <string_view>
 #include <utility>
 #include <vector>
 
@@ -27,13 +28,10 @@
 #include "arrow/buffer.h"
 #include "arrow/json/options.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 
-using internal::make_unique;
-using util::string_view;
+using std::string_view;
 
 namespace json {
 
@@ -127,20 +125,19 @@ namespace {
 class ParsingBoundaryFinder : public BoundaryFinder {
  public:
   Status FindFirst(string_view partial, string_view block, int64_t* out_pos) override {
-    // NOTE: We could bubble up JSON parse errors here, but the actual parsing
-    // step will detect them later anyway.
     auto length = ConsumeWholeObject(MultiStringStream({partial, block}));
     if (length == string_view::npos) {
       *out_pos = -1;
+    } else if (ARROW_PREDICT_FALSE(length < partial.size())) {
+      return Status::Invalid("JSON chunk error: invalid data at end of document");
     } else {
-      DCHECK_GE(length, partial.size());
       DCHECK_LE(length, partial.size() + block.size());
       *out_pos = static_cast<int64_t>(length - partial.size());
     }
     return Status::OK();
   }
 
-  Status FindLast(util::string_view block, int64_t* out_pos) override {
+  Status FindLast(std::string_view block, int64_t* out_pos) override {
     const size_t block_length = block.size();
     size_t consumed_length = 0;
     while (consumed_length < block_length) {
@@ -164,7 +161,7 @@ class ParsingBoundaryFinder : public BoundaryFinder {
     return Status::OK();
   }
 
-  Status FindNth(util::string_view partial, util::string_view block, int64_t count,
+  Status FindNth(std::string_view partial, std::string_view block, int64_t count,
                  int64_t* out_pos, int64_t* num_found) override {
     return Status::NotImplemented("ParsingBoundaryFinder::FindNth");
   }
@@ -179,7 +176,7 @@ std::unique_ptr<Chunker> MakeChunker(const ParseOptions& options) {
   } else {
     delimiter = MakeNewlineBoundaryFinder();
   }
-  return std::unique_ptr<Chunker>(new Chunker(std::move(delimiter)));
+  return std::make_unique<Chunker>(std::move(delimiter));
 }
 
 }  // namespace json
diff --git a/cpp/src/arrow/json/chunker_test.cc b/cpp/src/arrow/json/chunker_test.cc
index 1b4ea4d0824..1c26d52b140 100644
--- a/cpp/src/arrow/json/chunker_test.cc
+++ b/cpp/src/arrow/json/chunker_test.cc
@@ -19,8 +19,10 @@
 #include <memory>
 #include <numeric>
 #include <string>
+#include <string_view>
 #include <vector>
 
+#include <gmock/gmock-matchers.h>
 #include <gtest/gtest.h>
 
 #include "arrow/buffer.h"
@@ -28,16 +30,19 @@
 #include "arrow/json/test_common.h"
 #include "arrow/testing/gtest_util.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/string_view.h"
+#include "arrow/util/string.h"
 
 namespace arrow {
+
+using internal::StartsWith;
+
 namespace json {
 
 // Use no nested objects and no string literals containing braces in this test.
 // This way the positions of '{' and '}' can be used as simple proxies
 // for object begin/end.
 
-using util::string_view;
+using std::string_view;
 
 template <typename Lines>
 static std::shared_ptr<Buffer> join(Lines&& lines, std::string delimiter,
@@ -154,10 +159,10 @@ void AssertStraddledChunking(Chunker& chunker, const std::shared_ptr<Buffer>& bu
   AssertChunking(chunker, first_half, 1);
   std::shared_ptr<Buffer> first_whole, partial;
   ASSERT_OK(chunker.Process(first_half, &first_whole, &partial));
-  ASSERT_TRUE(string_view(*first_half).starts_with(string_view(*first_whole)));
+  ASSERT_TRUE(StartsWith(std::string_view(*first_half), std::string_view(*first_whole)));
   std::shared_ptr<Buffer> completion, rest;
   ASSERT_OK(chunker.ProcessWithPartial(partial, second_half, &completion, &rest));
-  ASSERT_TRUE(string_view(*second_half).starts_with(string_view(*completion)));
+  ASSERT_TRUE(StartsWith(std::string_view(*second_half), std::string_view(*completion)));
   std::shared_ptr<Buffer> straddling;
   ASSERT_OK_AND_ASSIGN(straddling, ConcatenateBuffers({partial, completion}));
   auto length = ConsumeWholeObject(&straddling);
@@ -257,6 +262,20 @@ TEST(ChunkerTest, StraddlingSingleLine) {
   AssertStraddledChunking(*chunker, join(lines(), ""));
 }
 
+TEST(ChunkerTest, Errors) {
+  std::string parts[] = {R"({"a":0})", "}", R"({"a":1})"};
+  auto chunker = MakeChunker(true);
+  std::shared_ptr<Buffer> whole, rest, completion;
+  ASSERT_OK(chunker->Process(Buffer::FromString(parts[0] + parts[1]), &whole, &rest));
+  ASSERT_EQ(std::string_view(*whole), parts[0]);
+  ASSERT_EQ(std::string_view(*rest), parts[1]);
+  auto status =
+      chunker->ProcessWithPartial(rest, Buffer::FromString(parts[2]), &completion, &rest);
+  ASSERT_RAISES(Invalid, status);
+  EXPECT_THAT(status.message(),
+              ::testing::StartsWith("JSON chunk error: invalid data at end of document"));
+}
+
 TEST_P(BaseChunkerTest, StraddlingEmpty) {
   auto all = join(lines(), "\n");
 
diff --git a/cpp/src/arrow/json/converter.cc b/cpp/src/arrow/json/converter.cc
index a2f584c0b7f..04ebe4714ce 100644
--- a/cpp/src/arrow/json/converter.cc
+++ b/cpp/src/arrow/json/converter.cc
@@ -18,6 +18,7 @@
 #include "arrow/json/converter.h"
 
 #include <memory>
+#include <string_view>
 #include <utility>
 
 #include "arrow/array.h"
@@ -30,20 +31,18 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/decimal.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/value_parsing.h"
 
 namespace arrow {
 
 using internal::checked_cast;
-using util::string_view;
+using std::string_view;
 
 namespace json {
 
 template <typename... Args>
 Status GenericConversionError(const DataType& type, Args&&... args) {
-  return Status::Invalid("Failed of conversion of JSON to ", type,
-                         std::forward<Args>(args)...);
+  return Status::Invalid("Failed to convert JSON to ", type, std::forward<Args>(args)...);
 }
 
 namespace {
@@ -166,10 +165,28 @@ class DecimalConverter : public PrimitiveConverter {
     using Builder = typename TypeTraits<T>::BuilderType;
     Builder builder(out_type_, pool_);
     RETURN_NOT_OK(builder.Resize(dict_array.indices()->length()));
+    const auto& decimal_type(checked_cast<const DecimalType&>(*out_type_));
+    int32_t out_precision = decimal_type.precision();
+    int32_t out_scale = decimal_type.scale();
 
-    auto visit_valid = [&builder](string_view repr) {
-      ARROW_ASSIGN_OR_RAISE(value_type value,
-                            TypeTraits<T>::BuilderType::ValueType::FromString(repr));
+    auto visit_valid = [&](string_view repr) {
+      value_type value;
+      int32_t precision, scale;
+      RETURN_NOT_OK(TypeTraits<T>::BuilderType::ValueType::FromString(
+          repr, &value, &precision, &scale));
+      if (precision > out_precision) {
+        return GenericConversionError(*out_type_, ": ", repr, " requires precision ",
+                                      precision);
+      }
+      if (scale != out_scale) {
+        auto result = value.Rescale(scale, out_scale);
+        if (ARROW_PREDICT_FALSE(!result.ok())) {
+          return GenericConversionError(*out_type_, ": ", repr, " requires scale ",
+                                        scale);
+        } else {
+          value = result.MoveValueUnsafe();
+        }
+      }
       builder.UnsafeAppend(value);
       return Status::OK();
     };
diff --git a/cpp/src/arrow/json/converter_test.cc b/cpp/src/arrow/json/converter_test.cc
index 030f2a7bc13..378a4491c0e 100644
--- a/cpp/src/arrow/json/converter_test.cc
+++ b/cpp/src/arrow/json/converter_test.cc
@@ -17,6 +17,7 @@
 
 #include "arrow/json/converter.h"
 
+#include <gmock/gmock.h>
 #include <gtest/gtest.h>
 
 #include <string>
@@ -190,9 +191,14 @@ TEST(ConverterTest, Decimal128And256) {
     options.explicit_schema = schema({field("", decimal_type)});
 
     std::string json_source = R"(
-    {"" : "02.0000000000"}
-    {"" : "30.0000000000"}
-  )";
+      {"" : "02.0000000000"}
+      {"" : "30.0000000000"}
+      {"" : "30.0123456789"}
+      {"" : "30.012345678900"}
+      {"" : "30.0123"}
+      {"" : "0.012345678"}
+      {"" : "1234567890123456789012345678.0123456789"}
+    )";
 
     std::shared_ptr<StructArray> parse_array;
     ASSERT_OK(ParseFromString(options, json_source, &parse_array));
@@ -204,11 +210,58 @@ TEST(ConverterTest, Decimal128And256) {
     // assert equality
     auto expected = ArrayFromJSON(decimal_type, R"([
           "02.0000000000",
-          "30.0000000000"])");
+          "30.0000000000",
+          "30.0123456789",
+          "30.0123456789",
+          "30.0123000000",
+          "0.0123456780",
+          "1234567890123456789012345678.0123456789"
+    ])");
 
     AssertArraysEqual(*expected, *converted);
   }
 }
 
+TEST(ConverterTest, Decimal128And256ScaleError) {
+  for (auto decimal_type : {decimal128(38, 10), decimal256(38, 10)}) {
+    ParseOptions options;
+    options.explicit_schema = schema({field("", decimal_type)});
+
+    std::string json_source = R"(
+      {"" : "30.0123456789001"}
+    )";
+
+    std::shared_ptr<StructArray> parse_array;
+    ASSERT_OK(ParseFromString(options, json_source, &parse_array));
+
+    std::string error_msg = "Failed to convert JSON to " + decimal_type->ToString() +
+                            ": 30.0123456789001 requires scale 13";
+    EXPECT_RAISES_WITH_MESSAGE_THAT(
+        Invalid, ::testing::HasSubstr(error_msg),
+        Convert(decimal_type, parse_array->GetFieldByName("")));
+  }
+}
+
+TEST(ConverterTest, Decimal128And256PrecisionError) {
+  for (auto decimal_type : {decimal128(38, 10), decimal256(38, 10)}) {
+    ParseOptions options;
+    options.explicit_schema = schema({field("", decimal_type)});
+
+    std::string json_source = R"(
+      {"" : "123456789012345678901234567890.0123456789"}
+    )";
+
+    std::shared_ptr<StructArray> parse_array;
+    ASSERT_OK(ParseFromString(options, json_source, &parse_array));
+
+    std::string error_msg =
+        "Invalid: Failed to convert JSON to " + decimal_type->ToString() +
+        ": 123456789012345678901234567890.0123456789 requires precision 40";
+    EXPECT_RAISES_WITH_MESSAGE_THAT(
+        Invalid, ::testing::HasSubstr(error_msg),
+        Convert(decimal_type, parse_array->GetFieldByName("")));
+  }
+}
+
 }  // namespace json
 }  // namespace arrow
diff --git a/cpp/src/arrow/json/object_parser.cc b/cpp/src/arrow/json/object_parser.cc
index c857cd537e7..ba4a42aec4c 100644
--- a/cpp/src/arrow/json/object_parser.cc
+++ b/cpp/src/arrow/json/object_parser.cc
@@ -28,7 +28,7 @@ namespace rj = arrow::rapidjson;
 
 class ObjectParser::Impl {
  public:
-  Status Parse(arrow::util::string_view json) {
+  Status Parse(std::string_view json) {
     document_.Parse(reinterpret_cast<const rj::Document::Ch*>(json.data()),
                     static_cast<size_t>(json.size()));
 
@@ -70,7 +70,7 @@ ObjectParser::ObjectParser() : impl_(new ObjectParser::Impl()) {}
 
 ObjectParser::~ObjectParser() = default;
 
-Status ObjectParser::Parse(arrow::util::string_view json) { return impl_->Parse(json); }
+Status ObjectParser::Parse(std::string_view json) { return impl_->Parse(json); }
 
 Result<std::string> ObjectParser::GetString(const char* key) const {
   return impl_->GetString(key);
diff --git a/cpp/src/arrow/json/object_parser.h b/cpp/src/arrow/json/object_parser.h
index ef93201651a..8f23923d1ce 100644
--- a/cpp/src/arrow/json/object_parser.h
+++ b/cpp/src/arrow/json/object_parser.h
@@ -18,9 +18,9 @@
 #pragma once
 
 #include <memory>
+#include <string_view>
 
 #include "arrow/result.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -34,7 +34,7 @@ class ARROW_EXPORT ObjectParser {
   ObjectParser();
   ~ObjectParser();
 
-  Status Parse(arrow::util::string_view json);
+  Status Parse(std::string_view json);
 
   Result<std::string> GetString(const char* key) const;
   Result<bool> GetBool(const char* key) const;
diff --git a/cpp/src/arrow/json/object_writer.cc b/cpp/src/arrow/json/object_writer.cc
index 06d09f81e94..3277807880c 100644
--- a/cpp/src/arrow/json/object_writer.cc
+++ b/cpp/src/arrow/json/object_writer.cc
@@ -32,7 +32,7 @@ class ObjectWriter::Impl {
  public:
   Impl() : root_(rj::kObjectType) {}
 
-  void SetString(arrow::util::string_view key, arrow::util::string_view value) {
+  void SetString(std::string_view key, std::string_view value) {
     rj::Document::AllocatorType& allocator = document_.GetAllocator();
 
     rj::Value str_key(key.data(), allocator);
@@ -41,7 +41,7 @@ class ObjectWriter::Impl {
     root_.AddMember(str_key, str_value, allocator);
   }
 
-  void SetBool(arrow::util::string_view key, bool value) {
+  void SetBool(std::string_view key, bool value) {
     rj::Document::AllocatorType& allocator = document_.GetAllocator();
 
     rj::Value str_key(key.data(), allocator);
@@ -66,12 +66,11 @@ ObjectWriter::ObjectWriter() : impl_(new ObjectWriter::Impl()) {}
 
 ObjectWriter::~ObjectWriter() = default;
 
-void ObjectWriter::SetString(arrow::util::string_view key,
-                             arrow::util::string_view value) {
+void ObjectWriter::SetString(std::string_view key, std::string_view value) {
   impl_->SetString(key, value);
 }
 
-void ObjectWriter::SetBool(arrow::util::string_view key, bool value) {
+void ObjectWriter::SetBool(std::string_view key, bool value) {
   impl_->SetBool(key, value);
 }
 
diff --git a/cpp/src/arrow/json/object_writer.h b/cpp/src/arrow/json/object_writer.h
index 55ff0ce52bc..b15b09dbdac 100644
--- a/cpp/src/arrow/json/object_writer.h
+++ b/cpp/src/arrow/json/object_writer.h
@@ -18,8 +18,8 @@
 #pragma once
 
 #include <memory>
+#include <string_view>
 
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -33,8 +33,8 @@ class ARROW_EXPORT ObjectWriter {
   ObjectWriter();
   ~ObjectWriter();
 
-  void SetString(arrow::util::string_view key, arrow::util::string_view value);
-  void SetBool(arrow::util::string_view key, bool value);
+  void SetString(std::string_view key, std::string_view value);
+  void SetBool(std::string_view key, bool value);
 
   std::string Serialize();
 
diff --git a/cpp/src/arrow/json/parser.cc b/cpp/src/arrow/json/parser.cc
index 815fa7dc7b7..e2941a29ab9 100644
--- a/cpp/src/arrow/json/parser.cc
+++ b/cpp/src/arrow/json/parser.cc
@@ -19,8 +19,11 @@
 
 #include <functional>
 #include <limits>
+#include <memory>
+#include <string_view>
 #include <tuple>
 #include <unordered_map>
+#include <unordered_set>
 #include <utility>
 #include <vector>
 
@@ -35,8 +38,6 @@
 #include "arrow/util/bitset_stack.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/trie.h"
 #include "arrow/visit_type_inline.h"
 
@@ -44,8 +45,6 @@ namespace arrow {
 
 using internal::BitsetStack;
 using internal::checked_cast;
-using internal::make_unique;
-using util::string_view;
 
 namespace json {
 
@@ -57,8 +56,9 @@ static Status ParseError(T&&... t) {
 }
 
 const std::string& Kind::Name(Kind::type kind) {
-  static const std::string names[] = {"null",   "boolean", "number",
-                                      "string", "array",   "object"};
+  static const std::string names[] = {
+      "null", "boolean", "number", "string", "array", "object", "number_or_string",
+  };
 
   return names[kind];
 }
@@ -71,6 +71,7 @@ const std::shared_ptr<const KeyValueMetadata>& Kind::Tag(Kind::type kind) {
       key_value_metadata({{"json_kind", Kind::Name(Kind::kString)}}),
       key_value_metadata({{"json_kind", Kind::Name(Kind::kArray)}}),
       key_value_metadata({{"json_kind", Kind::Name(Kind::kObject)}}),
+      key_value_metadata({{"json_kind", Kind::Name(Kind::kNumberOrString)}}),
   };
   return tags[kind];
 }
@@ -78,7 +79,7 @@ const std::shared_ptr<const KeyValueMetadata>& Kind::Tag(Kind::type kind) {
 static arrow::internal::Trie MakeFromTagTrie() {
   arrow::internal::TrieBuilder builder;
   for (auto kind : {Kind::kNull, Kind::kBoolean, Kind::kNumber, Kind::kString,
-                    Kind::kArray, Kind::kObject}) {
+                    Kind::kArray, Kind::kObject, Kind::kNumberOrString}) {
     DCHECK_OK(builder.Append(Kind::Name(kind)));
   }
   auto name_to_kind = builder.Finish();
@@ -89,7 +90,7 @@ static arrow::internal::Trie MakeFromTagTrie() {
 Kind::type Kind::FromTag(const std::shared_ptr<const KeyValueMetadata>& tag) {
   static arrow::internal::Trie name_to_kind = MakeFromTagTrie();
   DCHECK_NE(tag->FindKey("json_kind"), -1);
-  util::string_view name = tag->value(tag->FindKey("json_kind"));
+  std::string_view name = tag->value(tag->FindKey("json_kind"));
   DCHECK_NE(name_to_kind.Find(name), -1);
   return static_cast<Kind::type>(name_to_kind.Find(name));
 }
@@ -104,7 +105,7 @@ Status Kind::ForType(const DataType& type, Kind::type* kind) {
     Status Visit(const BinaryType&) { return SetKind(Kind::kString); }
     Status Visit(const LargeBinaryType&) { return SetKind(Kind::kString); }
     Status Visit(const TimestampType&) { return SetKind(Kind::kString); }
-    Status Visit(const FixedSizeBinaryType&) { return SetKind(Kind::kString); }
+    Status Visit(const DecimalType&) { return SetKind(Kind::kNumberOrString); }
     Status Visit(const DictionaryType& dict_type) {
       return Kind::ForType(*dict_type.value_type(), kind_);
     }
@@ -164,11 +165,28 @@ struct BuilderPtr {
 
 const BuilderPtr BuilderPtr::null(Kind::kNull, 0, true);
 
+/// \brief Shared context for all value builders in a `RawBuilderSet`
+class BuildContext {
+ public:
+  explicit BuildContext(MemoryPool* pool) : pool_(pool) {}
+
+  MemoryPool* pool() const { return pool_; }
+
+  // Finds or allocates a unique string and returns a persistent `std::string_view`
+  std::string_view InternString(std::string_view str) {
+    return *string_cache_.emplace(str).first;
+  }
+
+ private:
+  MemoryPool* pool_;
+  std::unordered_set<std::string> string_cache_;
+};
+
 template <>
 class RawArrayBuilder<Kind::kBoolean> {
  public:
-  explicit RawArrayBuilder(MemoryPool* pool)
-      : data_builder_(pool), null_bitmap_builder_(pool) {}
+  explicit RawArrayBuilder(BuildContext* context)
+      : data_builder_(context->pool()), null_bitmap_builder_(context->pool()) {}
 
   Status Append(bool value) {
     RETURN_NOT_OK(data_builder_.Append(value));
@@ -214,8 +232,10 @@ class RawArrayBuilder<Kind::kBoolean> {
 /// for indices referring into another array.
 class ScalarBuilder {
  public:
-  explicit ScalarBuilder(MemoryPool* pool)
-      : values_length_(0), data_builder_(pool), null_bitmap_builder_(pool) {}
+  explicit ScalarBuilder(BuildContext* context)
+      : values_length_(0),
+        data_builder_(context->pool()),
+        null_bitmap_builder_(context->pool()) {}
 
   Status Append(int32_t index, int32_t value_length) {
     RETURN_NOT_OK(data_builder_.Append(index));
@@ -268,8 +288,8 @@ class RawArrayBuilder<Kind::kString> : public ScalarBuilder {
 template <>
 class RawArrayBuilder<Kind::kArray> {
  public:
-  explicit RawArrayBuilder(MemoryPool* pool)
-      : offset_builder_(pool), null_bitmap_builder_(pool) {}
+  explicit RawArrayBuilder(BuildContext* context)
+      : offset_builder_(context->pool()), null_bitmap_builder_(context->pool()) {}
 
   Status Append(int32_t child_length) {
     RETURN_NOT_OK(offset_builder_.Append(offset_));
@@ -320,7 +340,8 @@ class RawArrayBuilder<Kind::kArray> {
 template <>
 class RawArrayBuilder<Kind::kObject> {
  public:
-  explicit RawArrayBuilder(MemoryPool* pool) : null_bitmap_builder_(pool) {}
+  explicit RawArrayBuilder(BuildContext* context)
+      : context_(context), null_bitmap_builder_(context->pool()) {}
 
   Status Append() { return null_bitmap_builder_.Append(true); }
 
@@ -328,35 +349,62 @@ class RawArrayBuilder<Kind::kObject> {
 
   Status AppendNull(int64_t count) { return null_bitmap_builder_.Append(count, false); }
 
-  std::string FieldName(int i) const {
-    for (const auto& name_index : name_to_index_) {
-      if (name_index.second == i) {
-        return name_index.first;
-      }
-    }
-    return "";
+  int FindFieldIndex(std::string_view name) const {
+    auto it = name_to_index_.find(name);
+    return it != name_to_index_.end() ? it->second : -1;
   }
 
-  int GetFieldIndex(const std::string& name) const {
-    auto it = name_to_index_.find(name);
-    if (it == name_to_index_.end()) {
+  int GetFieldIndex(std::string_view name) {
+    if (ARROW_PREDICT_FALSE(num_fields() == 0)) {
       return -1;
     }
-    return it->second;
+
+    if (next_index_ == -1) {
+      return FindFieldIndex(name);
+    }
+
+    if (next_index_ == num_fields()) {
+      next_index_ = 0;
+    }
+    // Field ordering has been predictable thus far, so check the expected index first
+    if (ARROW_PREDICT_TRUE(name == field_infos_[next_index_].name)) {
+      return next_index_++;
+    }
+
+    // Prediction failed - fall back to the map
+    auto index = FindFieldIndex(name);
+    if (ARROW_PREDICT_FALSE(index != -1)) {
+      // We already have this key, so the incoming fields are sparse and/or inconsistently
+      // ordered. At the risk of introducing crippling overhead for worst-case input, we
+      // bail on the optimization.
+      next_index_ = -1;
+    }
+
+    return index;
   }
 
-  int AddField(std::string name, BuilderPtr builder) {
-    auto index = num_fields();
-    field_builders_.push_back(builder);
-    name_to_index_.emplace(std::move(name), index);
+  int AddField(std::string_view name, BuilderPtr builder) {
+    auto index = FindFieldIndex(name);
+
+    if (ARROW_PREDICT_TRUE(index == -1)) {
+      name = context_->InternString(name);
+      index = num_fields();
+      field_infos_.push_back(FieldInfo{name, builder});
+      name_to_index_.emplace(name, index);
+    }
+
     return index;
   }
 
-  int num_fields() const { return static_cast<int>(field_builders_.size()); }
+  int num_fields() const { return static_cast<int>(field_infos_.size()); }
+
+  std::string_view field_name(int index) const { return field_infos_[index].name; }
 
-  BuilderPtr field_builder(int index) const { return field_builders_[index]; }
+  BuilderPtr field_builder(int index) const { return field_infos_[index].builder; }
 
-  void field_builder(int index, BuilderPtr builder) { field_builders_[index] = builder; }
+  void field_builder(int index, BuilderPtr builder) {
+    field_infos_[index].builder = builder;
+  }
 
   Status Finish(std::function<Status(BuilderPtr, std::shared_ptr<Array>*)> finish_child,
                 std::shared_ptr<Array>* out) {
@@ -365,19 +413,15 @@ class RawArrayBuilder<Kind::kObject> {
     std::shared_ptr<Buffer> null_bitmap;
     RETURN_NOT_OK(null_bitmap_builder_.Finish(&null_bitmap));
 
-    std::vector<string_view> field_names(num_fields());
-    for (const auto& name_index : name_to_index_) {
-      field_names[name_index.second] = name_index.first;
-    }
-
     std::vector<std::shared_ptr<Field>> fields(num_fields());
     std::vector<std::shared_ptr<ArrayData>> child_data(num_fields());
     for (int i = 0; i < num_fields(); ++i) {
+      const auto& info = field_infos_[i];
       std::shared_ptr<Array> field_values;
-      RETURN_NOT_OK(finish_child(field_builders_[i], &field_values));
+      RETURN_NOT_OK(finish_child(info.builder, &field_values));
       child_data[i] = field_values->data();
-      fields[i] = field(std::string(field_names[i]), field_values->type(),
-                        field_builders_[i].nullable, Kind::Tag(field_builders_[i].kind));
+      fields[i] = field(std::string(info.name), field_values->type(),
+                        info.builder.nullable, Kind::Tag(info.builder.kind));
     }
 
     *out = MakeArray(ArrayData::Make(struct_(std::move(fields)), size, {null_bitmap},
@@ -388,14 +432,32 @@ class RawArrayBuilder<Kind::kObject> {
   int64_t length() { return null_bitmap_builder_.length(); }
 
  private:
-  std::vector<BuilderPtr> field_builders_;
-  std::unordered_map<std::string, int> name_to_index_;
+  struct FieldInfo {
+    std::string_view name;
+    BuilderPtr builder;
+  };
+
+  BuildContext* context_;
+
+  std::vector<FieldInfo> field_infos_;
+  std::unordered_map<std::string_view, int> name_to_index_;
+
   TypedBufferBuilder<bool> null_bitmap_builder_;
+
+  // Predictive index for optimizing name -> index lookups in cases where fields are
+  // consistently ordered.
+  int next_index_ = 0;
+};
+
+template <>
+class RawArrayBuilder<Kind::kNumberOrString> : public ScalarBuilder {
+ public:
+  using ScalarBuilder::ScalarBuilder;
 };
 
 class RawBuilderSet {
  public:
-  explicit RawBuilderSet(MemoryPool* pool) : pool_(pool) {}
+  explicit RawBuilderSet(MemoryPool* pool) : context_(pool) {}
 
   /// Retrieve a pointer to a builder from a BuilderPtr
   template <Kind::type kind>
@@ -410,7 +472,7 @@ class RawBuilderSet {
     builder->index = static_cast<uint32_t>(arena<kind>().size());
     builder->kind = kind;
     builder->nullable = true;
-    arena<kind>().emplace_back(RawArrayBuilder<kind>(pool_));
+    arena<kind>().emplace_back(RawArrayBuilder<kind>(&context_));
     return Cast<kind>(*builder)->AppendNull(leading_nulls);
   }
 
@@ -432,6 +494,9 @@ class RawBuilderSet {
       case Kind::kString:
         return MakeBuilder<Kind::kString>(leading_nulls, builder);
 
+      case Kind::kNumberOrString:
+        return MakeBuilder<Kind::kNumberOrString>(leading_nulls, builder);
+
       case Kind::kArray: {
         RETURN_NOT_OK(MakeBuilder<Kind::kArray>(leading_nulls, builder));
         const auto& list_type = checked_cast<const ListType&>(t);
@@ -493,6 +558,10 @@ class RawBuilderSet {
       case Kind::kString:
         return Cast<Kind::kString>(builder)->AppendNull();
 
+      case Kind::kNumberOrString: {
+        return Cast<Kind::kNumberOrString>(builder)->AppendNull();
+      }
+
       case Kind::kArray:
         return Cast<Kind::kArray>(builder)->AppendNull();
 
@@ -506,6 +575,7 @@ class RawBuilderSet {
         }
         return Status::OK();
       }
+
       default:
         return Status::NotImplemented("invalid builder Kind");
     }
@@ -532,6 +602,9 @@ class RawBuilderSet {
       case Kind::kString:
         return FinishScalar(scalar_values, Cast<Kind::kString>(builder), out);
 
+      case Kind::kNumberOrString:
+        return FinishScalar(scalar_values, Cast<Kind::kNumberOrString>(builder), out);
+
       case Kind::kArray:
         return Cast<Kind::kArray>(builder)->Finish(std::move(finish_children), out);
 
@@ -560,12 +633,13 @@ class RawBuilderSet {
     return std::get<static_cast<std::size_t>(kind)>(arenas_);
   }
 
-  MemoryPool* pool_;
+  BuildContext context_;
   std::tuple<std::tuple<>, std::vector<RawArrayBuilder<Kind::kBoolean>>,
              std::vector<RawArrayBuilder<Kind::kNumber>>,
              std::vector<RawArrayBuilder<Kind::kString>>,
              std::vector<RawArrayBuilder<Kind::kArray>>,
-             std::vector<RawArrayBuilder<Kind::kObject>>>
+             std::vector<RawArrayBuilder<Kind::kObject>>,
+             std::vector<RawArrayBuilder<Kind::kNumberOrString>>>
       arenas_;
 };
 
@@ -612,12 +686,22 @@ class HandlerBase : public BlockParser,
   }
 
   bool RawNumber(const char* data, rj::SizeType size, ...) {
-    status_ = AppendScalar<Kind::kNumber>(builder_, string_view(data, size));
+    if (builder_.kind == Kind::kNumberOrString) {
+      status_ =
+          AppendScalar<Kind::kNumberOrString>(builder_, std::string_view(data, size));
+    } else {
+      status_ = AppendScalar<Kind::kNumber>(builder_, std::string_view(data, size));
+    }
     return status_.ok();
   }
 
   bool String(const char* data, rj::SizeType size, ...) {
-    status_ = AppendScalar<Kind::kString>(builder_, string_view(data, size));
+    if (builder_.kind == Kind::kNumberOrString) {
+      status_ =
+          AppendScalar<Kind::kNumberOrString>(builder_, std::string_view(data, size));
+    } else {
+      status_ = AppendScalar<Kind::kString>(builder_, std::string_view(data, size));
+    }
     return status_.ok();
   }
 
@@ -670,7 +754,7 @@ class HandlerBase : public BlockParser,
         if (i + 1 < field_index_stack_.size()) {
           field_index = field_index_stack_[i + 1];
         }
-        path += "/" + struct_builder->FieldName(field_index);
+        path += "/" + std::string(struct_builder->field_name(field_index));
       }
     }
     return path;
@@ -678,7 +762,7 @@ class HandlerBase : public BlockParser,
 
  protected:
   template <typename Handler, typename Stream>
-  Status DoParse(Handler& handler, Stream&& json) {
+  Status DoParse(Handler& handler, Stream&& json, size_t json_size) {
     constexpr auto parse_flags = rj::kParseIterativeFlag | rj::kParseNanAndInfFlag |
                                  rj::kParseStopWhenDoneFlag |
                                  rj::kParseNumbersAsStringsFlag;
@@ -692,6 +776,9 @@ class HandlerBase : public BlockParser,
           // parse the next object
           continue;
         case rj::kParseErrorDocumentEmpty:
+          if (json.Tell() < json_size) {
+            return ParseError(rj::GetParseError_En(ok.Code()));
+          }
           // parsed all objects, finish
           return Status::OK();
         case rj::kParseErrorTermination:
@@ -710,7 +797,7 @@ class HandlerBase : public BlockParser,
     RETURN_NOT_OK(ReserveScalarStorage(json->size()));
     rj::MemoryStream ms(reinterpret_cast<const char*>(json->data()), json->size());
     using InputStream = rj::EncodedInputStream<rj::UTF8<>, rj::MemoryStream>;
-    return DoParse(handler, InputStream(ms));
+    return DoParse(handler, InputStream(ms), static_cast<size_t>(json->size()));
   }
 
   /// \defgroup handlerbase-append-methods append non-nested values
@@ -718,7 +805,7 @@ class HandlerBase : public BlockParser,
   /// @{
 
   template <Kind::type kind>
-  Status AppendScalar(BuilderPtr builder, string_view scalar) {
+  Status AppendScalar(BuilderPtr builder, std::string_view scalar) {
     if (ARROW_PREDICT_FALSE(builder.kind != kind)) {
       return IllegallyChangedTo(kind);
     }
@@ -747,9 +834,9 @@ class HandlerBase : public BlockParser,
   ///
   /// sets the field builder with name key, or returns false if
   /// there is no field with that name
-  bool SetFieldBuilder(string_view key, bool* duplicate_keys) {
+  bool SetFieldBuilder(std::string_view key, bool* duplicate_keys) {
     auto parent = Cast<Kind::kObject>(builder_stack_.back());
-    field_index_ = parent->GetFieldIndex(std::string(key));
+    field_index_ = parent->GetFieldIndex(key);
     if (ARROW_PREDICT_FALSE(field_index_ == -1)) {
       return false;
     }
@@ -872,7 +959,8 @@ class Handler<UnexpectedFieldBehavior::Error> : public HandlerBase {
   /// if an unexpected field is encountered, emit a parse error and bail
   bool Key(const char* key, rj::SizeType len, ...) {
     bool duplicate_keys = false;
-    if (ARROW_PREDICT_FALSE(SetFieldBuilder(string_view(key, len), &duplicate_keys))) {
+    if (ARROW_PREDICT_FALSE(
+            SetFieldBuilder(std::string_view(key, len), &duplicate_keys))) {
       return true;
     }
     if (!duplicate_keys) {
@@ -936,7 +1024,8 @@ class Handler<UnexpectedFieldBehavior::Ignore> : public HandlerBase {
       return true;
     }
     bool duplicate_keys = false;
-    if (ARROW_PREDICT_TRUE(SetFieldBuilder(string_view(key, len), &duplicate_keys))) {
+    if (ARROW_PREDICT_TRUE(
+            SetFieldBuilder(std::string_view(key, len), &duplicate_keys))) {
       return true;
     }
     if (ARROW_PREDICT_FALSE(duplicate_keys)) {
@@ -1027,7 +1116,8 @@ class Handler<UnexpectedFieldBehavior::InferType> : public HandlerBase {
   /// will probably trigger promotion of this field from null
   bool Key(const char* key, rj::SizeType len, ...) {
     bool duplicate_keys = false;
-    if (ARROW_PREDICT_TRUE(SetFieldBuilder(string_view(key, len), &duplicate_keys))) {
+    if (ARROW_PREDICT_TRUE(
+            SetFieldBuilder(std::string_view(key, len), &duplicate_keys))) {
       return true;
     }
     if (ARROW_PREDICT_FALSE(duplicate_keys)) {
@@ -1036,7 +1126,7 @@ class Handler<UnexpectedFieldBehavior::InferType> : public HandlerBase {
     auto struct_builder = Cast<Kind::kObject>(builder_stack_.back());
     auto leading_nulls = static_cast<uint32_t>(struct_builder->length() - 1);
     builder_ = BuilderPtr(Kind::kNull, leading_nulls, true);
-    field_index_ = struct_builder->AddField(std::string(key, len), builder_);
+    field_index_ = struct_builder->AddField(std::string_view(key, len), builder_);
     return true;
   }
 
@@ -1085,15 +1175,15 @@ Status BlockParser::Make(MemoryPool* pool, const ParseOptions& options,
 
   switch (options.unexpected_field_behavior) {
     case UnexpectedFieldBehavior::Ignore: {
-      *out = make_unique<Handler<UnexpectedFieldBehavior::Ignore>>(pool);
+      *out = std::make_unique<Handler<UnexpectedFieldBehavior::Ignore>>(pool);
       break;
     }
     case UnexpectedFieldBehavior::Error: {
-      *out = make_unique<Handler<UnexpectedFieldBehavior::Error>>(pool);
+      *out = std::make_unique<Handler<UnexpectedFieldBehavior::Error>>(pool);
       break;
     }
     case UnexpectedFieldBehavior::InferType:
-      *out = make_unique<Handler<UnexpectedFieldBehavior::InferType>>(pool);
+      *out = std::make_unique<Handler<UnexpectedFieldBehavior::InferType>>(pool);
       break;
   }
   return static_cast<HandlerBase&>(**out).Initialize(options.explicit_schema);
diff --git a/cpp/src/arrow/json/parser.h b/cpp/src/arrow/json/parser.h
index 4dd14e4b80c..e21d09c4169 100644
--- a/cpp/src/arrow/json/parser.h
+++ b/cpp/src/arrow/json/parser.h
@@ -37,7 +37,15 @@ class ResizableBuffer;
 namespace json {
 
 struct Kind {
-  enum type : uint8_t { kNull, kBoolean, kNumber, kString, kArray, kObject };
+  enum type : uint8_t {
+    kNull,
+    kBoolean,
+    kNumber,
+    kString,
+    kArray,
+    kObject,
+    kNumberOrString
+  };
 
   static const std::string& Name(Kind::type);
 
diff --git a/cpp/src/arrow/json/parser_benchmark.cc b/cpp/src/arrow/json/parser_benchmark.cc
index 9b7047d78a0..2a1629ef8e2 100644
--- a/cpp/src/arrow/json/parser_benchmark.cc
+++ b/cpp/src/arrow/json/parser_benchmark.cc
@@ -17,7 +17,7 @@
 
 #include "benchmark/benchmark.h"
 
-#include <string>
+#include <unordered_set>
 
 #include "arrow/json/chunker.h"
 #include "arrow/json/options.h"
@@ -30,29 +30,62 @@
 namespace arrow {
 namespace json {
 
-std::shared_ptr<Schema> TestSchema() {
-  return schema({field("int", int32()), field("str", utf8())});
-}
-
-constexpr int seed = 0x432432;
+constexpr int kSeed = 0x432432;
 
-std::string TestJsonData(int num_rows, bool pretty = false) {
-  std::default_random_engine engine(seed);
+template <typename Input>
+std::string GenerateTestData(const Input& input, int num_rows,
+                             const GenerateOptions& options, bool pretty = false) {
+  std::default_random_engine engine(kSeed);
   std::string json;
   for (int i = 0; i < num_rows; ++i) {
     StringBuffer sb;
     Writer writer(sb);
-    ABORT_NOT_OK(Generate(TestSchema(), engine, &writer));
+    ABORT_NOT_OK(Generate(input, engine, &writer, options));
     json += pretty ? PrettyPrint(sb.GetString()) : sb.GetString();
     json += "\n";
   }
-
   return json;
 }
 
-static void BenchmarkJSONChunking(benchmark::State& state,
+template <typename Input>
+std::string GenerateTestData(const Input& input, int num_rows, bool pretty = false) {
+  return GenerateTestData(input, num_rows, GenerateOptions::Defaults(), pretty);
+}
+
+FieldVector GenerateTestFields(int num_fields, int mean_name_length) {
+  const std::shared_ptr<DataType> types[] = {boolean(), int64(), float64(), utf8()};
+
+  std::default_random_engine engine(kSeed);
+
+  std::poisson_distribution<int> length_dist(mean_name_length);
+  std::uniform_int_distribution<uint16_t> char_dist(32, 126);
+  std::uniform_int_distribution<size_t> type_dist(0, std::size(types) - 1);
+
+  std::unordered_set<std::string> names;
+  names.reserve(num_fields);
+
+  while (static_cast<int>(names.size()) < num_fields) {
+    auto length = length_dist(engine);
+    if (!length) continue;
+    std::string name(length, '\0');
+    for (auto& ch : name) ch = static_cast<char>(char_dist(engine));
+    names.emplace(std::move(name));
+  }
+
+  FieldVector fields;
+  fields.reserve(num_fields);
+  for (const auto& name : names) {
+    fields.push_back(field(name, types[type_dist(engine)]));
+  }
+
+  return fields;
+}
+
+FieldVector TestFields() { return {field("int", int32()), field("str", utf8())}; }
+
+static void BenchmarkJSONChunking(benchmark::State& state,  // NOLINT non-const reference
                                   const std::shared_ptr<Buffer>& json,
-                                  ParseOptions options) {  // NOLINT non-const reference
+                                  ParseOptions options) {
   auto chunker = MakeChunker(options);
 
   for (auto _ : state) {
@@ -61,6 +94,7 @@ static void BenchmarkJSONChunking(benchmark::State& state,
   }
 
   state.SetBytesProcessed(state.iterations() * json->size());
+  state.counters["json_size"] = static_cast<double>(json->size());
 }
 
 static void ChunkJSONPrettyPrinted(
@@ -69,9 +103,9 @@ static void ChunkJSONPrettyPrinted(
 
   auto options = ParseOptions::Defaults();
   options.newlines_in_values = true;
-  options.explicit_schema = TestSchema();
+  options.explicit_schema = schema(TestFields());
 
-  auto json = TestJsonData(num_rows, /* pretty */ true);
+  auto json = GenerateTestData(options.explicit_schema, num_rows, /*pretty=*/true);
   BenchmarkJSONChunking(state, std::make_shared<Buffer>(json), options);
 }
 
@@ -81,15 +115,15 @@ static void ChunkJSONLineDelimited(
 
   auto options = ParseOptions::Defaults();
   options.newlines_in_values = false;
-  options.explicit_schema = TestSchema();
+  options.explicit_schema = schema(TestFields());
 
-  auto json = TestJsonData(num_rows);
+  auto json = GenerateTestData(options.explicit_schema, num_rows);
   BenchmarkJSONChunking(state, std::make_shared<Buffer>(json), options);
   state.SetBytesProcessed(0);
 }
 
 static void BenchmarkJSONParsing(benchmark::State& state,  // NOLINT non-const reference
-                                 const std::shared_ptr<Buffer>& json, int32_t num_rows,
+                                 const std::shared_ptr<Buffer>& json,
                                  ParseOptions options) {
   for (auto _ : state) {
     std::unique_ptr<BlockParser> parser;
@@ -100,6 +134,7 @@ static void BenchmarkJSONParsing(benchmark::State& state,  // NOLINT non-const r
     ABORT_NOT_OK(parser->Finish(&parsed));
   }
   state.SetBytesProcessed(state.iterations() * json->size());
+  state.counters["json_size"] = static_cast<double>(json->size());
 }
 
 static void ParseJSONBlockWithSchema(
@@ -107,15 +142,15 @@ static void ParseJSONBlockWithSchema(
   const int32_t num_rows = 5000;
   auto options = ParseOptions::Defaults();
   options.unexpected_field_behavior = UnexpectedFieldBehavior::Error;
-  options.explicit_schema = TestSchema();
+  options.explicit_schema = schema(TestFields());
 
-  auto json = TestJsonData(num_rows);
-  BenchmarkJSONParsing(state, std::make_shared<Buffer>(json), num_rows, options);
+  auto json = GenerateTestData(options.explicit_schema, num_rows);
+  BenchmarkJSONParsing(state, std::make_shared<Buffer>(json), options);
 }
 
 static void BenchmarkJSONReading(benchmark::State& state,  // NOLINT non-const reference
-                                 const std::string& json, int32_t num_rows,
-                                 ReadOptions read_options, ParseOptions parse_options) {
+                                 const std::string& json, ReadOptions read_options,
+                                 ParseOptions parse_options) {
   for (auto _ : state) {
     std::shared_ptr<io::InputStream> input;
     ABORT_NOT_OK(MakeStream(json, &input));
@@ -127,20 +162,22 @@ static void BenchmarkJSONReading(benchmark::State& state,  // NOLINT non-const r
   }
 
   state.SetBytesProcessed(state.iterations() * json.size());
+  state.counters["json_size"] = static_cast<double>(json.size());
 }
 
 static void BenchmarkReadJSONBlockWithSchema(
-    benchmark::State& state, bool use_threads) {  // NOLINT non-const reference
+    benchmark::State& state,  // NOLINT non-const reference
+    bool use_threads) {
   const int32_t num_rows = 500000;
   auto read_options = ReadOptions::Defaults();
   read_options.use_threads = use_threads;
 
   auto parse_options = ParseOptions::Defaults();
   parse_options.unexpected_field_behavior = UnexpectedFieldBehavior::Error;
-  parse_options.explicit_schema = TestSchema();
+  parse_options.explicit_schema = schema(TestFields());
 
-  auto json = TestJsonData(num_rows);
-  BenchmarkJSONReading(state, json, num_rows, read_options, parse_options);
+  auto json = GenerateTestData(parse_options.explicit_schema, num_rows);
+  BenchmarkJSONReading(state, json, read_options, parse_options);
 }
 
 static void ReadJSONBlockWithSchemaSingleThread(
@@ -153,6 +190,36 @@ static void ReadJSONBlockWithSchemaMultiThread(
   BenchmarkReadJSONBlockWithSchema(state, true);
 }
 
+static void ParseJSONFields(benchmark::State& state) {  // NOLINT non-const reference
+  const bool ordered = !!state.range(0);
+  const bool with_schema = !!state.range(1);
+  const double sparsity = state.range(2) / 100.0;
+  const auto num_fields = static_cast<int>(state.range(3));
+
+  // This would generate approximately 400 kB of JSON data
+  int32_t num_rows = static_cast<int32_t>(2e4 / (1.0 - sparsity) / num_fields);
+  // ... however, we want enough rows to make setup/finish overhead negligible
+  num_rows = std::max<int32_t>(num_rows, 200);
+  // ... and also we want to avoid an "Exceeded maximum rows" error.
+  num_rows = std::min<int32_t>(num_rows, kMaxParserNumRows);
+  // In the end, we will empirically generate between 400 kB and 4 MB of JSON data.
+
+  auto fields = GenerateTestFields(num_fields, 10);
+
+  auto parse_options = ParseOptions::Defaults();
+  if (with_schema) {
+    parse_options.explicit_schema = schema(fields);
+    parse_options.unexpected_field_behavior = UnexpectedFieldBehavior::Error;
+  }
+
+  auto gen_options = GenerateOptions::Defaults();
+  gen_options.field_probability = 1.0 - sparsity;
+  gen_options.randomize_field_order = !ordered;
+
+  auto json = GenerateTestData(fields, num_rows, gen_options);
+  BenchmarkJSONParsing(state, std::make_shared<Buffer>(json), parse_options);
+}
+
 BENCHMARK(ChunkJSONPrettyPrinted);
 BENCHMARK(ChunkJSONLineDelimited);
 BENCHMARK(ParseJSONBlockWithSchema);
@@ -160,5 +227,10 @@ BENCHMARK(ParseJSONBlockWithSchema);
 BENCHMARK(ReadJSONBlockWithSchemaSingleThread);
 BENCHMARK(ReadJSONBlockWithSchemaMultiThread)->UseRealTime();
 
+BENCHMARK(ParseJSONFields)
+    // NOTE: "sparsity" is the percentage of missing fields
+    ->ArgNames({"ordered", "schema", "sparsity", "num_fields"})
+    ->ArgsProduct({{1, 0}, {1, 0}, {0, 10, 90}, {10, 100, 1000}});
+
 }  // namespace json
 }  // namespace arrow
diff --git a/cpp/src/arrow/json/parser_test.cc b/cpp/src/arrow/json/parser_test.cc
index 2a44ed8375e..681df4e6fa0 100644
--- a/cpp/src/arrow/json/parser_test.cc
+++ b/cpp/src/arrow/json/parser_test.cc
@@ -21,6 +21,7 @@
 #include <gtest/gtest.h>
 
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
@@ -28,8 +29,8 @@
 #include "arrow/json/test_common.h"
 #include "arrow/status.h"
 #include "arrow/testing/gtest_util.h"
+#include "arrow/type_fwd.h"
 #include "arrow/util/checked_cast.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 
@@ -37,7 +38,7 @@ using internal::checked_cast;
 
 namespace json {
 
-using util::string_view;
+using std::string_view;
 
 void AssertUnconvertedStructArraysEqual(const StructArray& expected,
                                         const StructArray& actual);
@@ -136,6 +137,24 @@ TEST(BlockParserWithSchema, SkipFieldsOutsideSchema) {
                       "[\"thing\", null, \"\xe5\xbf\x8d\", null]"});
 }
 
+TEST(BlockParserWithSchema, UnquotedDecimal) {
+  auto options = ParseOptions::Defaults();
+  options.explicit_schema =
+      schema({field("price", decimal(9, 2)), field("cost", decimal(9, 3))});
+  AssertParseColumns(options, unquoted_decimal_src(),
+                     {field("price", utf8()), field("cost", utf8())},
+                     {R"(["30.04", "1.23"])", R"(["30.001", "1.229"])"});
+}
+
+TEST(BlockParserWithSchema, MixedDecimal) {
+  auto options = ParseOptions::Defaults();
+  options.explicit_schema =
+      schema({field("price", decimal(9, 2)), field("cost", decimal(9, 3))});
+  AssertParseColumns(options, mixed_decimal_src(),
+                     {field("price", utf8()), field("cost", utf8())},
+                     {R"(["30.04", "1.23"])", R"(["30.001", "1.229"])"});
+}
+
 class BlockParserTypeError : public ::testing::TestWithParam<UnexpectedFieldBehavior> {
  public:
   ParseOptions Options(std::shared_ptr<Schema> explicit_schema) {
@@ -248,6 +267,47 @@ TEST(BlockParser, Null) {
        R"([{"plain": null}, {"plain": null}])"});
 }
 
+TEST(BlockParser, InferNewFields) {
+  std::string src = R"(
+    {}
+    {"a": true}
+    {"a": false, "b": true}
+  )";
+  auto options = ParseOptions::Defaults();
+  options.unexpected_field_behavior = UnexpectedFieldBehavior::InferType;
+  for (const auto& s : {schema({field("a", boolean()), field("b", boolean())}),
+                        std::shared_ptr<Schema>(nullptr)}) {
+    options.explicit_schema = s;
+    AssertParseColumns(options, src, {field("a", boolean()), field("b", boolean())},
+                       {"[null, true, false]", "[null, null, true]"});
+  }
+}
+
+TEST(BlockParser, InferNewFieldsInMiddle) {
+  std::string src = R"(
+    {"a": true, "b": false}
+    {"a": false, "c": "foo", "b": true}
+    {"b": false}
+  )";
+  auto options = ParseOptions::Defaults();
+  options.unexpected_field_behavior = UnexpectedFieldBehavior::InferType;
+  for (const auto& s : {schema({field("a", boolean()), field("b", boolean())}),
+                        std::shared_ptr<Schema>(nullptr)}) {
+    options.explicit_schema = s;
+    AssertParseColumns(
+        options, src, {field("a", boolean()), field("b", boolean()), field("c", utf8())},
+        {"[true, false, null]", "[false, true, false]", "[null, \"foo\", null]"});
+  }
+}
+
+TEST(BlockParser, FailOnInvalidEOF) {
+  std::shared_ptr<Array> parsed;
+  auto status = ParseFromString(ParseOptions::Defaults(), "}", &parsed);
+  ASSERT_RAISES(Invalid, status);
+  EXPECT_THAT(status.message(),
+              ::testing::StartsWith("JSON parse error: The document is empty"));
+}
+
 TEST(BlockParser, AdHoc) {
   auto options = ParseOptions::Defaults();
   options.unexpected_field_behavior = UnexpectedFieldBehavior::InferType;
diff --git a/cpp/src/arrow/json/reader.cc b/cpp/src/arrow/json/reader.cc
index 18aed0235ff..dae06d5bf61 100644
--- a/cpp/src/arrow/json/reader.cc
+++ b/cpp/src/arrow/json/reader.cc
@@ -17,6 +17,7 @@
 
 #include "arrow/json/reader.h"
 
+#include <string_view>
 #include <utility>
 #include <vector>
 
@@ -33,20 +34,206 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/iterator.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/task_group.h"
 #include "arrow/util/thread_pool.h"
 
 namespace arrow {
 
-using util::string_view;
+using std::string_view;
 
 using internal::checked_cast;
+using internal::Executor;
 using internal::GetCpuThreadPool;
 using internal::TaskGroup;
 using internal::ThreadPool;
 
 namespace json {
+namespace {
+
+struct ChunkedBlock {
+  std::shared_ptr<Buffer> partial;
+  std::shared_ptr<Buffer> completion;
+  std::shared_ptr<Buffer> whole;
+  int64_t index = -1;
+};
+
+struct DecodedBlock {
+  std::shared_ptr<RecordBatch> record_batch;
+  int64_t num_bytes = 0;
+};
+
+}  // namespace
+}  // namespace json
+
+template <>
+struct IterationTraits<json::ChunkedBlock> {
+  static json::ChunkedBlock End() { return json::ChunkedBlock{}; }
+  static bool IsEnd(const json::ChunkedBlock& val) { return val.index < 0; }
+};
+
+template <>
+struct IterationTraits<json::DecodedBlock> {
+  static json::DecodedBlock End() { return json::DecodedBlock{}; }
+  static bool IsEnd(const json::DecodedBlock& val) { return !val.record_batch; }
+};
+
+namespace json {
+namespace {
+
+// Holds related parameters for parsing and type conversion
+class DecodeContext {
+ public:
+  explicit DecodeContext(MemoryPool* pool)
+      : DecodeContext(ParseOptions::Defaults(), pool) {}
+  explicit DecodeContext(ParseOptions options = ParseOptions::Defaults(),
+                         MemoryPool* pool = default_memory_pool())
+      : pool_(pool) {
+    SetParseOptions(std::move(options));
+  }
+
+  void SetParseOptions(ParseOptions options) {
+    parse_options_ = std::move(options);
+    if (parse_options_.explicit_schema) {
+      conversion_type_ = struct_(parse_options_.explicit_schema->fields());
+    } else {
+      parse_options_.unexpected_field_behavior = UnexpectedFieldBehavior::InferType;
+      conversion_type_ = struct_({});
+    }
+    promotion_graph_ =
+        parse_options_.unexpected_field_behavior == UnexpectedFieldBehavior::InferType
+            ? GetPromotionGraph()
+            : nullptr;
+  }
+
+  void SetSchema(std::shared_ptr<Schema> explicit_schema,
+                 UnexpectedFieldBehavior unexpected_field_behavior) {
+    parse_options_.explicit_schema = std::move(explicit_schema);
+    parse_options_.unexpected_field_behavior = unexpected_field_behavior;
+    SetParseOptions(std::move(parse_options_));
+  }
+  void SetSchema(std::shared_ptr<Schema> explicit_schema) {
+    SetSchema(std::move(explicit_schema), parse_options_.unexpected_field_behavior);
+  }
+  // Set the schema but ensure unexpected fields won't be accepted
+  void SetStrictSchema(std::shared_ptr<Schema> explicit_schema) {
+    auto unexpected_field_behavior = parse_options_.unexpected_field_behavior;
+    if (unexpected_field_behavior == UnexpectedFieldBehavior::InferType) {
+      unexpected_field_behavior = UnexpectedFieldBehavior::Error;
+    }
+    SetSchema(std::move(explicit_schema), unexpected_field_behavior);
+  }
+
+  [[nodiscard]] MemoryPool* pool() const { return pool_; }
+  [[nodiscard]] const ParseOptions& parse_options() const { return parse_options_; }
+  [[nodiscard]] const PromotionGraph* promotion_graph() const { return promotion_graph_; }
+  [[nodiscard]] const std::shared_ptr<DataType>& conversion_type() const {
+    return conversion_type_;
+  }
+
+ private:
+  ParseOptions parse_options_;
+  std::shared_ptr<DataType> conversion_type_;
+  const PromotionGraph* promotion_graph_;
+  MemoryPool* pool_;
+};
+
+Result<std::shared_ptr<Array>> ParseBlock(const ChunkedBlock& block,
+                                          const ParseOptions& parse_options,
+                                          MemoryPool* pool, int64_t* out_size = nullptr) {
+  std::unique_ptr<BlockParser> parser;
+  RETURN_NOT_OK(BlockParser::Make(pool, parse_options, &parser));
+
+  int64_t size = block.partial->size() + block.completion->size() + block.whole->size();
+  RETURN_NOT_OK(parser->ReserveScalarStorage(size));
+
+  if (block.partial->size() || block.completion->size()) {
+    std::shared_ptr<Buffer> straddling;
+    if (!block.completion->size()) {
+      straddling = block.partial;
+    } else if (!block.partial->size()) {
+      straddling = block.completion;
+    } else {
+      ARROW_ASSIGN_OR_RAISE(straddling,
+                            ConcatenateBuffers({block.partial, block.completion}, pool));
+    }
+    RETURN_NOT_OK(parser->Parse(straddling));
+  }
+  if (block.whole->size()) {
+    RETURN_NOT_OK(parser->Parse(block.whole));
+  }
+
+  std::shared_ptr<Array> parsed;
+  RETURN_NOT_OK(parser->Finish(&parsed));
+
+  if (out_size) *out_size = size;
+
+  return parsed;
+}
+
+class ChunkingTransformer {
+ public:
+  explicit ChunkingTransformer(std::unique_ptr<Chunker> chunker)
+      : chunker_(std::move(chunker)) {}
+
+  template <typename... Args>
+  static Transformer<std::shared_ptr<Buffer>, ChunkedBlock> Make(Args&&... args) {
+    return [self = std::make_shared<ChunkingTransformer>(std::forward<Args>(args)...)](
+               std::shared_ptr<Buffer> buffer) { return (*self)(std::move(buffer)); };
+  }
+
+ private:
+  Result<TransformFlow<ChunkedBlock>> operator()(std::shared_ptr<Buffer> next_buffer) {
+    if (!buffer_) {
+      if (ARROW_PREDICT_TRUE(!next_buffer)) {
+        DCHECK_EQ(partial_, nullptr) << "Logic error: non-null partial with null buffer";
+        return TransformFinish();
+      }
+      partial_ = std::make_shared<Buffer>("");
+      buffer_ = std::move(next_buffer);
+      return TransformSkip();
+    }
+    DCHECK_NE(partial_, nullptr);
+
+    std::shared_ptr<Buffer> whole, completion, next_partial;
+    if (!next_buffer) {
+      // End of file reached => compute completion from penultimate block
+      RETURN_NOT_OK(chunker_->ProcessFinal(partial_, buffer_, &completion, &whole));
+    } else {
+      std::shared_ptr<Buffer> starts_with_whole;
+      // Get completion of partial from previous block.
+      RETURN_NOT_OK(chunker_->ProcessWithPartial(partial_, buffer_, &completion,
+                                                 &starts_with_whole));
+      // Get all whole objects entirely inside the current buffer
+      RETURN_NOT_OK(chunker_->Process(starts_with_whole, &whole, &next_partial));
+    }
+
+    buffer_ = std::move(next_buffer);
+    return TransformYield(ChunkedBlock{std::exchange(partial_, next_partial),
+                                       std::move(completion), std::move(whole),
+                                       index_++});
+  }
+
+  std::unique_ptr<Chunker> chunker_;
+  std::shared_ptr<Buffer> partial_;
+  std::shared_ptr<Buffer> buffer_;
+  int64_t index_ = 0;
+};
+
+template <typename... Args>
+Iterator<ChunkedBlock> MakeChunkingIterator(Iterator<std::shared_ptr<Buffer>> source,
+                                            Args&&... args) {
+  return MakeTransformedIterator(std::move(source),
+                                 ChunkingTransformer::Make(std::forward<Args>(args)...));
+}
+
+// NOTE: Not reentrant. Incoming buffers are processed sequentially and the transformer's
+// internal state gets updated on each call.
+template <typename... Args>
+AsyncGenerator<ChunkedBlock> MakeChunkingGenerator(
+    AsyncGenerator<std::shared_ptr<Buffer>> source, Args&&... args) {
+  return MakeTransformedGenerator(std::move(source),
+                                  ChunkingTransformer::Make(std::forward<Args>(args)...));
+}
 
 class TableReaderImpl : public TableReader,
                         public std::enable_shared_from_this<TableReaderImpl> {
@@ -54,120 +241,262 @@ class TableReaderImpl : public TableReader,
   TableReaderImpl(MemoryPool* pool, const ReadOptions& read_options,
                   const ParseOptions& parse_options,
                   std::shared_ptr<TaskGroup> task_group)
-      : pool_(pool),
+      : decode_context_(parse_options, pool),
         read_options_(read_options),
-        parse_options_(parse_options),
-        chunker_(MakeChunker(parse_options_)),
         task_group_(std::move(task_group)) {}
 
   Status Init(std::shared_ptr<io::InputStream> input) {
     ARROW_ASSIGN_OR_RAISE(auto it,
                           io::MakeInputStreamIterator(input, read_options_.block_size));
     return MakeReadaheadIterator(std::move(it), task_group_->parallelism())
-        .Value(&block_iterator_);
+        .Value(&buffer_iterator_);
   }
 
   Result<std::shared_ptr<Table>> Read() override {
-    RETURN_NOT_OK(MakeBuilder());
-
-    ARROW_ASSIGN_OR_RAISE(auto block, block_iterator_.Next());
-    if (block == nullptr) {
+    auto block_it = MakeChunkingIterator(std::move(buffer_iterator_),
+                                         MakeChunker(decode_context_.parse_options()));
+
+    bool did_read = false;
+    while (true) {
+      ARROW_ASSIGN_OR_RAISE(auto block, block_it.Next());
+      if (IsIterationEnd(block)) break;
+      if (!did_read) {
+        did_read = true;
+        RETURN_NOT_OK(MakeBuilder());
+      }
+      task_group_->Append(
+          [self = shared_from_this(), block] { return self->ParseAndInsert(block); });
+    }
+    if (!did_read) {
       return Status::Invalid("Empty JSON file");
     }
 
-    auto self = shared_from_this();
-    auto empty = std::make_shared<Buffer>("");
+    std::shared_ptr<ChunkedArray> array;
+    RETURN_NOT_OK(builder_->Finish(&array));
+    return Table::FromChunkedStructArray(array);
+  }
 
-    int64_t block_index = 0;
-    std::shared_ptr<Buffer> partial = empty;
+ private:
+  Status MakeBuilder() {
+    return MakeChunkedArrayBuilder(task_group_, decode_context_.pool(),
+                                   decode_context_.promotion_graph(),
+                                   decode_context_.conversion_type(), &builder_);
+  }
 
-    while (block != nullptr) {
-      std::shared_ptr<Buffer> next_block, whole, completion, next_partial;
+  Status ParseAndInsert(const ChunkedBlock& block) {
+    ARROW_ASSIGN_OR_RAISE(auto parsed, ParseBlock(block, decode_context_.parse_options(),
+                                                  decode_context_.pool()));
+    builder_->Insert(block.index, field("", parsed->type()), parsed);
+    return Status::OK();
+  }
 
-      ARROW_ASSIGN_OR_RAISE(next_block, block_iterator_.Next());
+  DecodeContext decode_context_;
+  ReadOptions read_options_;
+  std::shared_ptr<TaskGroup> task_group_;
+  Iterator<std::shared_ptr<Buffer>> buffer_iterator_;
+  std::shared_ptr<ChunkedArrayBuilder> builder_;
+};
 
-      if (next_block == nullptr) {
-        // End of file reached => compute completion from penultimate block
-        RETURN_NOT_OK(chunker_->ProcessFinal(partial, block, &completion, &whole));
-      } else {
-        std::shared_ptr<Buffer> starts_with_whole;
-        // Get completion of partial from previous block.
-        RETURN_NOT_OK(chunker_->ProcessWithPartial(partial, block, &completion,
-                                                   &starts_with_whole));
+// Callable object for parsing/converting individual JSON blocks. The class itself can be
+// called concurrently but reads from the `DecodeContext` aren't synchronized
+class DecodingOperator {
+ public:
+  explicit DecodingOperator(std::shared_ptr<const DecodeContext> context)
+      : context_(std::move(context)) {}
 
-        // Get all whole objects entirely inside the current buffer
-        RETURN_NOT_OK(chunker_->Process(starts_with_whole, &whole, &next_partial));
-      }
+  Result<DecodedBlock> operator()(const ChunkedBlock& block) const {
+    int64_t num_bytes;
+    ARROW_ASSIGN_OR_RAISE(auto unconverted, ParseBlock(block, context_->parse_options(),
+                                                       context_->pool(), &num_bytes));
 
-      // Launch parse task
-      task_group_->Append([self, partial, completion, whole, block_index] {
-        return self->ParseAndInsert(partial, completion, whole, block_index);
-      });
-      block_index++;
+    std::shared_ptr<ChunkedArrayBuilder> builder;
+    RETURN_NOT_OK(MakeChunkedArrayBuilder(TaskGroup::MakeSerial(), context_->pool(),
+                                          context_->promotion_graph(),
+                                          context_->conversion_type(), &builder));
+    builder->Insert(0, field("", unconverted->type()), unconverted);
 
-      partial = next_partial;
-      block = next_block;
-    }
+    std::shared_ptr<ChunkedArray> chunked;
+    RETURN_NOT_OK(builder->Finish(&chunked));
+    ARROW_ASSIGN_OR_RAISE(auto batch, RecordBatch::FromStructArray(chunked->chunk(0)));
 
-    std::shared_ptr<ChunkedArray> array;
-    RETURN_NOT_OK(builder_->Finish(&array));
-    return Table::FromChunkedStructArray(array);
+    return DecodedBlock{std::move(batch), num_bytes};
   }
 
  private:
-  Status MakeBuilder() {
-    auto type = parse_options_.explicit_schema
-                    ? struct_(parse_options_.explicit_schema->fields())
-                    : struct_({});
+  std::shared_ptr<const DecodeContext> context_;
+};
 
-    auto promotion_graph =
-        parse_options_.unexpected_field_behavior == UnexpectedFieldBehavior::InferType
-            ? GetPromotionGraph()
-            : nullptr;
+// Reads from a source iterator, completes the subsequent decode task on the calling
+// thread. This is only really used for compatibility with the async pipeline when CPU
+// threading is disabled
+AsyncGenerator<DecodedBlock> MakeDecodingGenerator(
+    Iterator<ChunkedBlock> source,
+    std::function<Result<DecodedBlock>(const ChunkedBlock&)> decoder) {
+  struct State {
+    Iterator<ChunkedBlock> source;
+    std::function<Result<DecodedBlock>(const ChunkedBlock&)> decoder;
+  } state{std::move(source), std::move(decoder)};
+  return [state = std::make_shared<State>(std::move(state))] {
+    auto maybe_block = state->source.Next();
+    if (!maybe_block.ok()) {
+      return Future<DecodedBlock>::MakeFinished(maybe_block.status());
+    }
+    const auto& block = maybe_block.ValueUnsafe();
+    if (IsIterationEnd(block)) {
+      return ToFuture(IterationEnd<DecodedBlock>());
+    }
+    return ToFuture(state->decoder(block));
+  };
+}
+
+class StreamingReaderImpl : public StreamingReader {
+ public:
+  StreamingReaderImpl(DecodedBlock first_block, AsyncGenerator<DecodedBlock> source,
+                      const std::shared_ptr<DecodeContext>& context, int max_readahead)
+      : first_block_(std::move(first_block)),
+        schema_(first_block_->record_batch->schema()),
+        bytes_processed_(std::make_shared<std::atomic<int64_t>>(0)) {
+    // Set the final schema for future invocations of the source generator
+    context->SetStrictSchema(schema_);
+    if (max_readahead > 0) {
+      source = MakeReadaheadGenerator(std::move(source), max_readahead);
+    }
+    generator_ = MakeMappedGenerator(
+        std::move(source), [counter = bytes_processed_](const DecodedBlock& out) {
+          counter->fetch_add(out.num_bytes);
+          return out.record_batch;
+        });
+  }
 
-    return MakeChunkedArrayBuilder(task_group_, pool_, promotion_graph, type, &builder_);
-  }
-
-  Status ParseAndInsert(const std::shared_ptr<Buffer>& partial,
-                        const std::shared_ptr<Buffer>& completion,
-                        const std::shared_ptr<Buffer>& whole, int64_t block_index) {
-    std::unique_ptr<BlockParser> parser;
-    RETURN_NOT_OK(BlockParser::Make(pool_, parse_options_, &parser));
-    RETURN_NOT_OK(parser->ReserveScalarStorage(partial->size() + completion->size() +
-                                               whole->size()));
-
-    if (partial->size() != 0 || completion->size() != 0) {
-      std::shared_ptr<Buffer> straddling;
-      if (partial->size() == 0) {
-        straddling = completion;
-      } else if (completion->size() == 0) {
-        straddling = partial;
-      } else {
-        ARROW_ASSIGN_OR_RAISE(straddling,
-                              ConcatenateBuffers({partial, completion}, pool_));
+  static Future<std::shared_ptr<StreamingReaderImpl>> MakeAsync(
+      std::shared_ptr<DecodeContext> context, std::shared_ptr<io::InputStream> stream,
+      io::IOContext io_context, Executor* cpu_executor, const ReadOptions& read_options) {
+    ARROW_ASSIGN_OR_RAISE(
+        auto buffer_it,
+        io::MakeInputStreamIterator(std::move(stream), read_options.block_size));
+    ARROW_ASSIGN_OR_RAISE(
+        auto buffer_gen,
+        MakeBackgroundGenerator(std::move(buffer_it), io_context.executor()));
+
+    AsyncGenerator<DecodedBlock> decoding_gen;
+    int max_readahead = 0;
+    if (read_options.use_threads) {
+      // Prepare a source generator capable of async-reentrancy and parallel execution
+      if (!cpu_executor) {
+        cpu_executor = GetCpuThreadPool();
       }
-      RETURN_NOT_OK(parser->Parse(straddling));
+      max_readahead = cpu_executor->GetCapacity();
+
+      // Since the chunking/decoding steps are heavy we want to schedule them as a
+      // separate task so as to maximize task distribution across CPU cores
+      //
+      // TODO: Add an `always_transfer` parameter to `MakeTransferredGenerator`?
+      buffer_gen = [source = std::move(buffer_gen), cpu_executor] {
+        return cpu_executor->TransferAlways(source());
+      };
+      auto chunking_gen = MakeChunkingGenerator(std::move(buffer_gen),
+                                                MakeChunker(context->parse_options()));
+
+      // At this stage, we want to allow the decoding tasks for each chunked block to run
+      // in parallel on the CPU executor. However:
+      //  - Chunking is inherently serial and not thread-safe
+      //  - The chunking generator is not async-reentrant, won't play well with readahead
+      //
+      // Fortunately, `MappingGenerator` queues pending jobs and keeps only one future
+      // from its source active at a time - which takes care of those concerns. In
+      // addition, it will start the next job within the continuation of the previous one,
+      // but before invoking its map function (in our case, `DecodingOperator`). This
+      // allows for decoding tasks to gradually saturate multiple CPU cores over multiple
+      // iterations. At a high level, this is how the full pipeline would operate in cases
+      // where decoding tasks are disproportionately expensive:
+      //
+      // --------------------------------------------------------------------------
+      // Reading: IoThread(?) --> Chunking: CpuThread(0) ... Decoding: CpuThread(0)
+      // --------------------------------------------------------------------------
+      //                                                     Decoding: CpuThread(0)
+      // Reading: IoThread(?) --> Chunking: CpuThread(1) ... Decoding: CpuThread(1)
+      // --------------------------------------------------------------------------
+      //                                                     Decoding: CpuThread(0)
+      //                                                     Decoding: CpuThread(1)
+      // Reading: IoThread(?) --> Chunking: CpuThread(2) ... Decoding: CpuThread(2)
+      // --------------------------------------------------------------------------
+      //
+      // Remember that we should already be on the CPU executor following chunking, so the
+      // decoding task simply continues to use that thread rather than spawning a new one.
+      decoding_gen =
+          MakeMappedGenerator(std::move(chunking_gen), DecodingOperator(context));
+    } else {
+      buffer_gen = MakeTransferredGenerator(std::move(buffer_gen), io_context.executor());
+      // We convert the background generator back to an iterator so its work can remain on
+      // the IO pool while we process its buffers on the calling thread
+      auto chunking_it =
+          MakeChunkingIterator(MakeGeneratorIterator(std::move(buffer_gen)),
+                               MakeChunker(context->parse_options()));
+      decoding_gen =
+          MakeDecodingGenerator(std::move(chunking_it), DecodingOperator(context));
     }
 
-    if (whole->size() != 0) {
-      RETURN_NOT_OK(parser->Parse(whole));
+    return FirstBlock(decoding_gen)
+        .Then([source = std::move(decoding_gen), context = std::move(context),
+               max_readahead](const DecodedBlock& block) {
+          return std::make_shared<StreamingReaderImpl>(block, std::move(source), context,
+                                                       max_readahead);
+        });
+  }
+
+  [[nodiscard]] std::shared_ptr<Schema> schema() const override { return schema_; }
+
+  Status ReadNext(std::shared_ptr<RecordBatch>* out) override {
+    auto result = ReadNextAsync().result();
+    return std::move(result).Value(out);
+  }
+
+  Future<std::shared_ptr<RecordBatch>> ReadNextAsync() override {
+    // On the first call, return the batch we used for initialization
+    if (ARROW_PREDICT_FALSE(first_block_)) {
+      bytes_processed_->fetch_add(first_block_->num_bytes);
+      auto batch = std::exchange(first_block_, std::nullopt)->record_batch;
+      return ToFuture(std::move(batch));
     }
+    return generator_();
+  }
 
-    std::shared_ptr<Array> parsed;
-    RETURN_NOT_OK(parser->Finish(&parsed));
-    builder_->Insert(block_index, field("", parsed->type()), parsed);
-    return Status::OK();
+  [[nodiscard]] int64_t bytes_processed() const override {
+    return bytes_processed_->load();
   }
 
-  MemoryPool* pool_;
-  ReadOptions read_options_;
-  ParseOptions parse_options_;
-  std::unique_ptr<Chunker> chunker_;
-  std::shared_ptr<TaskGroup> task_group_;
-  Iterator<std::shared_ptr<Buffer>> block_iterator_;
-  std::shared_ptr<ChunkedArrayBuilder> builder_;
+ private:
+  static Future<DecodedBlock> FirstBlock(AsyncGenerator<DecodedBlock> gen) {
+    // Read from the stream until we get a non-empty record batch that we can use to
+    // declare the schema. Along the way, accumulate the bytes read so they can be
+    // recorded on the first `ReadNextAsync`
+    auto loop_body =
+        [gen = std::move(gen),
+         out = std::make_shared<DecodedBlock>()]() -> Future<ControlFlow<DecodedBlock>> {
+      return gen().Then(
+          [out](const DecodedBlock& block) -> Result<ControlFlow<DecodedBlock>> {
+            if (IsIterationEnd(block)) {
+              return Status::Invalid("Empty JSON stream");
+            }
+            out->num_bytes += block.num_bytes;
+            if (block.record_batch->num_rows() == 0) {
+              return Continue();
+            }
+            out->record_batch = block.record_batch;
+            return Break(*out);
+          });
+    };
+    return Loop(std::move(loop_body));
+  }
+
+  std::optional<DecodedBlock> first_block_;
+  std::shared_ptr<Schema> schema_;
+  std::shared_ptr<std::atomic<int64_t>> bytes_processed_;
+  AsyncGenerator<std::shared_ptr<RecordBatch>> generator_;
 };
 
+}  // namespace
+
 Result<std::shared_ptr<TableReader>> TableReader::Make(
     MemoryPool* pool, std::shared_ptr<io::InputStream> input,
     const ReadOptions& read_options, const ParseOptions& parse_options) {
@@ -183,35 +512,47 @@ Result<std::shared_ptr<TableReader>> TableReader::Make(
   return ptr;
 }
 
+Future<std::shared_ptr<StreamingReader>> StreamingReader::MakeAsync(
+    std::shared_ptr<io::InputStream> stream, const ReadOptions& read_options,
+    const ParseOptions& parse_options, const io::IOContext& io_context,
+    Executor* cpu_executor) {
+  auto future = StreamingReaderImpl::MakeAsync(
+      std::make_shared<DecodeContext>(parse_options, io_context.pool()),
+      std::move(stream), io_context, cpu_executor, read_options);
+  return future.Then([](const std::shared_ptr<StreamingReaderImpl>& reader) {
+    return std::static_pointer_cast<StreamingReader>(reader);
+  });
+}
+
+Result<std::shared_ptr<StreamingReader>> StreamingReader::Make(
+    std::shared_ptr<io::InputStream> stream, const ReadOptions& read_options,
+    const ParseOptions& parse_options, const io::IOContext& io_context,
+    Executor* cpu_executor) {
+  auto future =
+      MakeAsync(std::move(stream), read_options, parse_options, io_context, cpu_executor);
+  return future.result();
+}
+
 Result<std::shared_ptr<RecordBatch>> ParseOne(ParseOptions options,
                                               std::shared_ptr<Buffer> json) {
+  DecodeContext context(std::move(options));
+
   std::unique_ptr<BlockParser> parser;
-  RETURN_NOT_OK(BlockParser::Make(options, &parser));
+  RETURN_NOT_OK(BlockParser::Make(context.parse_options(), &parser));
   RETURN_NOT_OK(parser->Parse(json));
   std::shared_ptr<Array> parsed;
   RETURN_NOT_OK(parser->Finish(&parsed));
 
-  auto type =
-      options.explicit_schema ? struct_(options.explicit_schema->fields()) : struct_({});
-  auto promotion_graph =
-      options.unexpected_field_behavior == UnexpectedFieldBehavior::InferType
-          ? GetPromotionGraph()
-          : nullptr;
   std::shared_ptr<ChunkedArrayBuilder> builder;
-  RETURN_NOT_OK(MakeChunkedArrayBuilder(TaskGroup::MakeSerial(), default_memory_pool(),
-                                        promotion_graph, type, &builder));
+  RETURN_NOT_OK(MakeChunkedArrayBuilder(TaskGroup::MakeSerial(), context.pool(),
+                                        context.promotion_graph(),
+                                        context.conversion_type(), &builder));
 
-  builder->Insert(0, field("", type), parsed);
+  builder->Insert(0, field("", context.conversion_type()), parsed);
   std::shared_ptr<ChunkedArray> converted_chunked;
   RETURN_NOT_OK(builder->Finish(&converted_chunked));
-  const auto& converted = checked_cast<const StructArray&>(*converted_chunked->chunk(0));
 
-  std::vector<std::shared_ptr<Array>> columns(converted.num_fields());
-  for (int i = 0; i < converted.num_fields(); ++i) {
-    columns[i] = converted.field(i);
-  }
-  return RecordBatch::Make(schema(converted.type()->fields()), converted.length(),
-                           std::move(columns));
+  return RecordBatch::FromStructArray(converted_chunked->chunk(0));
 }
 
 }  // namespace json
diff --git a/cpp/src/arrow/json/reader.h b/cpp/src/arrow/json/reader.h
index 3374931a043..7776cb0b7d8 100644
--- a/cpp/src/arrow/json/reader.h
+++ b/cpp/src/arrow/json/reader.h
@@ -19,25 +19,16 @@
 
 #include <memory>
 
+#include "arrow/io/type_fwd.h"
 #include "arrow/json/options.h"
+#include "arrow/record_batch.h"
 #include "arrow/result.h"
 #include "arrow/status.h"
 #include "arrow/util/macros.h"
+#include "arrow/util/type_fwd.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
-
-class Buffer;
-class MemoryPool;
-class Table;
-class RecordBatch;
-class Array;
-class DataType;
-
-namespace io {
-class InputStream;
-}  // namespace io
-
 namespace json {
 
 /// A class that reads an entire JSON file into a Arrow Table
@@ -60,5 +51,68 @@ class ARROW_EXPORT TableReader {
 ARROW_EXPORT Result<std::shared_ptr<RecordBatch>> ParseOne(ParseOptions options,
                                                            std::shared_ptr<Buffer> json);
 
+/// \brief A class that reads a JSON file incrementally
+///
+/// JSON data is read from a stream in fixed-size blocks (configurable with
+/// `ReadOptions::block_size`). Each block is converted to a `RecordBatch`. Yielded
+/// batches have a consistent schema but may differ in row count.
+///
+/// The supplied `ParseOptions` are used to determine a schema, based either on a
+/// provided explicit schema or inferred from the first non-empty block.
+/// Afterwards, the target schema is frozen. If `UnexpectedFieldBehavior::InferType` is
+/// specified, unexpected fields will only be inferred for the first block. Afterwards
+/// they'll be treated as errors.
+///
+/// If `ReadOptions::use_threads` is `true`, each block's parsing/decoding task will be
+/// parallelized on the given `cpu_executor` (with readahead corresponding to the
+/// executor's capacity). If an executor isn't provided, the global thread pool will be
+/// used.
+///
+/// If `ReadOptions::use_threads` is `false`, computations will be run on the calling
+/// thread and `cpu_executor` will be ignored.
+class ARROW_EXPORT StreamingReader : public RecordBatchReader {
+ public:
+  virtual ~StreamingReader() = default;
+
+  /// \brief Read the next `RecordBatch` asynchronously
+  /// This function is async-reentrant (but not synchronously reentrant). However, if
+  /// threading is disabled, this will block until completion.
+  virtual Future<std::shared_ptr<RecordBatch>> ReadNextAsync() = 0;
+
+  /// Get the number of bytes which have been succesfully converted to record batches
+  /// and consumed
+  [[nodiscard]] virtual int64_t bytes_processed() const = 0;
+
+  /// \brief Create a `StreamingReader` from an `InputStream`
+  /// Blocks until the initial batch is loaded
+  ///
+  /// \param[in] stream JSON source stream
+  /// \param[in] read_options Options for reading
+  /// \param[in] parse_options Options for chunking, parsing, and conversion
+  /// \param[in] io_context Context for IO operations (optional)
+  /// \param[in] cpu_executor Executor for computation tasks (optional)
+  /// \return The initialized reader
+  static Result<std::shared_ptr<StreamingReader>> Make(
+      std::shared_ptr<io::InputStream> stream, const ReadOptions& read_options,
+      const ParseOptions& parse_options,
+      const io::IOContext& io_context = io::default_io_context(),
+      ::arrow::internal::Executor* cpu_executor = NULLPTR);
+
+  /// \brief Create a `StreamingReader` from an `InputStream` asynchronously
+  /// Returned future completes after loading the first batch
+  ///
+  /// \param[in] stream JSON source stream
+  /// \param[in] read_options Options for reading
+  /// \param[in] parse_options Options for chunking, parsing, and conversion
+  /// \param[in] io_context Context for IO operations (optional)
+  /// \param[in] cpu_executor Executor for computation tasks (optional)
+  /// \return Future for the initialized reader
+  static Future<std::shared_ptr<StreamingReader>> MakeAsync(
+      std::shared_ptr<io::InputStream> stream, const ReadOptions& read_options,
+      const ParseOptions& parse_options,
+      const io::IOContext& io_context = io::default_io_context(),
+      ::arrow::internal::Executor* cpu_executor = NULLPTR);
+};
+
 }  // namespace json
 }  // namespace arrow
diff --git a/cpp/src/arrow/json/reader_test.cc b/cpp/src/arrow/json/reader_test.cc
index 976343b5211..cc9b53eb8dc 100644
--- a/cpp/src/arrow/json/reader_test.cc
+++ b/cpp/src/arrow/json/reader_test.cc
@@ -19,22 +19,38 @@
 #include <utility>
 #include <vector>
 
+#include <gmock/gmock-matchers.h>
 #include <gtest/gtest.h>
 
 #include "arrow/io/interfaces.h"
+#include "arrow/io/slow.h"
 #include "arrow/json/options.h"
 #include "arrow/json/reader.h"
 #include "arrow/json/test_common.h"
 #include "arrow/table.h"
+#include "arrow/testing/async_test_util.h"
+#include "arrow/testing/future_util.h"
 #include "arrow/testing/gtest_util.h"
+#include "arrow/type_fwd.h"
+#include "arrow/util/vector.h"
 
 namespace arrow {
 namespace json {
 
-using util::string_view;
+using std::string_view;
 
 using internal::checked_cast;
 
+static Result<std::shared_ptr<Table>> ReadToTable(std::string json,
+                                                  const ReadOptions& read_options,
+                                                  const ParseOptions& parse_options) {
+  std::shared_ptr<io::InputStream> input;
+  RETURN_NOT_OK(MakeStream(json, &input));
+  ARROW_ASSIGN_OR_RAISE(auto reader, TableReader::Make(default_memory_pool(), input,
+                                                       read_options, parse_options));
+  return reader->Read();
+}
+
 class ReaderTest : public ::testing::TestWithParam<bool> {
  public:
   void SetUpReader() {
@@ -43,7 +59,7 @@ class ReaderTest : public ::testing::TestWithParam<bool> {
                                                     read_options_, parse_options_));
   }
 
-  void SetUpReader(util::string_view input) {
+  void SetUpReader(std::string_view input) {
     ASSERT_OK(MakeStream(input, &input_));
     SetUpReader();
   }
@@ -203,6 +219,36 @@ TEST_P(ReaderTest, MultipleChunks) {
   AssertTablesEqual(*expected_table, *table_);
 }
 
+TEST_P(ReaderTest, UnquotedDecimal) {
+  auto schema =
+      ::arrow::schema({field("price", decimal(9, 2)), field("cost", decimal(9, 3))});
+  parse_options_.explicit_schema = schema;
+  auto src = unquoted_decimal_src();
+  SetUpReader(src);
+  ASSERT_OK_AND_ASSIGN(table_, reader_->Read());
+
+  auto expected_table = TableFromJSON(schema, {R"([
+    { "price": "30.04", "cost":"30.001" },
+    { "price": "1.23", "cost":"1.229" }
+  ])"});
+  AssertTablesEqual(*expected_table, *table_);
+}
+
+TEST_P(ReaderTest, MixedDecimal) {
+  auto schema =
+      ::arrow::schema({field("price", decimal(9, 2)), field("cost", decimal(9, 3))});
+  parse_options_.explicit_schema = schema;
+  auto src = mixed_decimal_src();
+  SetUpReader(src);
+  ASSERT_OK_AND_ASSIGN(table_, reader_->Read());
+
+  auto expected_table = TableFromJSON(schema, {R"([
+    { "price": "30.04", "cost":"30.001" },
+    { "price": "1.23", "cost":"1.229" }
+  ])"});
+  AssertTablesEqual(*expected_table, *table_);
+}
+
 TEST(ReaderTest, MultipleChunksParallel) {
   int64_t count = 1 << 10;
 
@@ -274,5 +320,695 @@ TEST(ReaderTest, ListArrayWithFewValues) {
   AssertTablesEqual(*actual_table, *expected_table);
 }
 
+TEST(ReaderTest, FailOnInvalidEOF) {
+  auto read_options = ReadOptions::Defaults();
+  auto parse_options = ParseOptions::Defaults();
+  read_options.use_threads = false;
+  std::shared_ptr<io::InputStream> input;
+  ASSERT_OK(MakeStream("}", &input));
+
+  for (auto newlines_in_values : {false, true}) {
+    parse_options.newlines_in_values = newlines_in_values;
+    ASSERT_OK_AND_ASSIGN(auto reader, TableReader::Make(default_memory_pool(), input,
+                                                        read_options, parse_options));
+    ASSERT_RAISES(Invalid, reader->Read());
+  }
+}
+
+// ARROW-18106
+TEST(ReaderTest, FailOnTimeUnitMismatch) {
+  std::string json = R"({"t":"2022-09-05T08:08:46.000"})";
+
+  auto read_options = ReadOptions::Defaults();
+  read_options.use_threads = false;
+  auto parse_options = ParseOptions::Defaults();
+  parse_options.explicit_schema = schema({field("t", timestamp(TimeUnit::SECOND))});
+
+  std::shared_ptr<io::InputStream> input;
+  std::shared_ptr<TableReader> reader;
+  for (auto behavior : {UnexpectedFieldBehavior::Error, UnexpectedFieldBehavior::Ignore,
+                        UnexpectedFieldBehavior::InferType}) {
+    parse_options.unexpected_field_behavior = behavior;
+    EXPECT_RAISES_WITH_MESSAGE_THAT(
+        Invalid, ::testing::StartsWith("Invalid: Failed to convert JSON to timestamp[s]"),
+        ReadToTable(json, read_options, parse_options));
+  }
+}
+
+TEST(ReaderTest, InferNestedFieldsWithSchema) {
+  std::string json = R"({}
+    {"a": {"c": null}}
+    {"a": {"c": {}}}
+    {"a": {"c": {"d": null}}}
+    {"a": {"c": {"d": []}}}
+    {"a": {"c": {"d": [null]}}}
+    {"a": {"c": {"d": [{}]}}}
+    {"a": {"c": {"d": [{"e": null}]}}}
+    {"a": {"c": {"d": [{"e": true}]}}}
+  )";
+
+  auto read_options = ReadOptions::Defaults();
+  read_options.use_threads = false;
+  auto parse_options = ParseOptions::Defaults();
+  parse_options.explicit_schema =
+      schema({field("a", struct_({field("b", timestamp(TimeUnit::SECOND))}))});
+  parse_options.unexpected_field_behavior = UnexpectedFieldBehavior::InferType;
+
+  auto expected_schema = schema({field(
+      "a", struct_({field("b", timestamp(TimeUnit::SECOND)),
+                    field("c", struct_({field(
+                                   "d", list(struct_({field("e", boolean())})))}))}))});
+  auto expected_batch = RecordBatchFromJSON(expected_schema, R"([
+    {"a": null},
+    {"a": {"b": null, "c": null}},
+    {"a": {"b": null, "c": {"d": null}}},
+    {"a": {"b": null, "c": {"d": null}}},
+    {"a": {"b": null, "c": {"d": []}}},
+    {"a": {"b": null, "c": {"d": [null]}}},
+    {"a": {"b": null, "c": {"d": [{"e": null}]}}},
+    {"a": {"b": null, "c": {"d": [{"e": null}]}}},
+    {"a": {"b": null, "c": {"d": [{"e": true}]}}}
+  ])");
+  ASSERT_OK_AND_ASSIGN(auto expected_table, Table::FromRecordBatches({expected_batch}));
+
+  ASSERT_OK_AND_ASSIGN(auto table, ReadToTable(json, read_options, parse_options));
+  AssertTablesEqual(*expected_table, *table);
+
+  json += std::string(R"({"a": {"b": "2022-09-05T08:08:46.000"}})") + "\n";
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid, ::testing::StartsWith("Invalid: Failed to convert JSON to timestamp[s]"),
+      ReadToTable(json, read_options, parse_options));
+}
+
+TEST(ReaderTest, InferNestedFieldsInListWithSchema) {
+  std::string json = R"({}
+    {"a": [{"b": "2022-09-05T08:08:00"}]}
+    {"a": [{"b": "2022-09-05T08:08:01", "c": null}]}
+    {"a": [{"b": "2022-09-05T08:08:02", "c": {"d": true}}]}
+  )";
+
+  auto read_options = ReadOptions::Defaults();
+  read_options.use_threads = false;
+  auto parse_options = ParseOptions::Defaults();
+  parse_options.explicit_schema =
+      schema({field("a", list(struct_({field("b", timestamp(TimeUnit::SECOND))})))});
+  parse_options.unexpected_field_behavior = UnexpectedFieldBehavior::InferType;
+
+  auto expected_schema =
+      schema({field("a", list(struct_({field("b", timestamp(TimeUnit::SECOND)),
+                                       field("c", struct_({field("d", boolean())}))})))});
+  auto expected_batch = RecordBatchFromJSON(expected_schema, R"([
+    {"a": null},
+    {"a": [{"b": "2022-09-05T08:08:00", "c": null}]},
+    {"a": [{"b": "2022-09-05T08:08:01", "c": null}]},
+    {"a": [{"b": "2022-09-05T08:08:02", "c": {"d": true}}]}
+  ])");
+  ASSERT_OK_AND_ASSIGN(auto expected_table, Table::FromRecordBatches({expected_batch}));
+
+  ASSERT_OK_AND_ASSIGN(auto table, ReadToTable(json, read_options, parse_options));
+  AssertTablesEqual(*expected_table, *table);
+
+  json += std::string(R"({"a": [{"b": "2022-09-05T08:08:03.000", "c": {}}]})") + "\n";
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid, ::testing::StartsWith("Invalid: Failed to convert JSON to timestamp[s]"),
+      ReadToTable(json, read_options, parse_options));
+}
+
+class StreamingReaderTestBase {
+ public:
+  virtual ~StreamingReaderTestBase() = default;
+
+ protected:
+  static std::shared_ptr<io::InputStream> MakeTestStream(const std::string& str) {
+    auto buffer = std::make_shared<Buffer>(str);
+    return std::make_shared<io::BufferReader>(std::move(buffer));
+  }
+  // Stream with simulated latency
+  static std::shared_ptr<io::InputStream> MakeTestStream(const std::string& str,
+                                                         double latency) {
+    return std::make_shared<io::SlowInputStream>(MakeTestStream(str), latency);
+  }
+
+  Result<std::shared_ptr<StreamingReader>> MakeReader(
+      std::shared_ptr<io::InputStream> stream) {
+    return StreamingReader::Make(std::move(stream), read_options_, parse_options_,
+                                 io_context_, executor_);
+  }
+  template <typename... Args>
+  Result<std::shared_ptr<StreamingReader>> MakeReader(Args&&... args) {
+    return MakeReader(MakeTestStream(std::forward<Args>(args)...));
+  }
+
+  AsyncGenerator<std::shared_ptr<RecordBatch>> MakeGenerator(
+      std::shared_ptr<StreamingReader> reader) {
+    return [reader = std::move(reader)] { return reader->ReadNextAsync(); };
+  }
+  template <typename... Args>
+  Result<AsyncGenerator<std::shared_ptr<RecordBatch>>> MakeGenerator(Args&&... args) {
+    ARROW_ASSIGN_OR_RAISE(auto reader, MakeReader(std::forward<Args>(args)...));
+    return MakeGenerator(std::move(reader));
+  }
+
+  static void AssertReadNext(const std::shared_ptr<StreamingReader>& reader,
+                             std::shared_ptr<RecordBatch>* out) {
+    ASSERT_OK(reader->ReadNext(out));
+    ASSERT_FALSE(IsIterationEnd(*out));
+    ASSERT_OK((**out).ValidateFull());
+  }
+  static void AssertReadEnd(const std::shared_ptr<StreamingReader>& reader) {
+    std::shared_ptr<RecordBatch> out;
+    ASSERT_OK(reader->ReadNext(&out));
+    ASSERT_TRUE(IsIterationEnd(out));
+  }
+
+  static void AssertBatchSequenceEquals(const RecordBatchVector& expected_batches,
+                                        const RecordBatchVector& sequence) {
+    ASSERT_OK_AND_ASSIGN(auto expected_table, Table::FromRecordBatches(expected_batches));
+    ASSERT_OK(expected_table->ValidateFull());
+
+    auto first_null = std::find(sequence.cbegin(), sequence.cend(), nullptr);
+    for (auto it = first_null; it != sequence.cend(); ++it) {
+      ASSERT_EQ(*it, nullptr);
+    }
+
+    RecordBatchVector batches(sequence.cbegin(), first_null);
+    EXPECT_EQ(batches.size(), expected_batches.size());
+    ASSERT_OK_AND_ASSIGN(auto table, Table::FromRecordBatches(batches));
+    ASSERT_OK(table->ValidateFull());
+    ASSERT_TABLES_EQUAL(*expected_table, *table);
+  }
+
+  struct TestCase {
+    std::string json;
+    int json_size;
+    int block_size;
+    int num_rows;
+    int num_batches;
+    std::shared_ptr<Schema> schema;
+    RecordBatchVector batches;
+  };
+
+  // Creates a test case from valid JSON objects with a human-readable index field and a
+  // struct field of random data. `block_size_multiplier` is applied to the largest
+  // generated row length to determine the target block_size. i.e - higher multiplier
+  // means fewer batches
+  static TestCase GenerateTestCase(int num_rows, double block_size_multiplier = 3.0) {
+    FieldVector data_fields = {field("s", utf8()), field("f", float64()),
+                               field("b", boolean())};
+    FieldVector fields = {field("i", int64()), field("d", struct_({data_fields}))};
+    TestCase out;
+    out.schema = schema(fields);
+    out.num_rows = num_rows;
+
+    constexpr int kSeed = 0x432432;
+    std::default_random_engine engine(kSeed);
+    std::vector<std::string> rows(num_rows);
+    size_t max_row_size = 1;
+
+    auto options = GenerateOptions::Defaults();
+    options.null_probability = 0;
+    for (int i = 0; i < num_rows; ++i) {
+      StringBuffer string_buffer;
+      Writer writer(string_buffer);
+      ABORT_NOT_OK(Generate(data_fields, engine, &writer, options));
+      std::string json = string_buffer.GetString();
+      rows[i] = Join({"{\"i\":", std::to_string(i), ",\"d\":", json, "}\n"});
+      max_row_size = std::max(max_row_size, rows[i].size());
+    }
+
+    auto block_size = static_cast<size_t>(max_row_size * block_size_multiplier);
+    // Deduce the expected record batches from the target block size.
+    std::vector<std::string> batch_rows;
+    size_t pos = 0;
+    for (const auto& row : rows) {
+      pos += row.size();
+      if (pos > block_size) {
+        out.batches.push_back(
+            RecordBatchFromJSON(out.schema, Join({"[", Join(batch_rows, ","), "]"})));
+        batch_rows.clear();
+        pos -= block_size;
+      }
+      batch_rows.push_back(row);
+      out.json += row;
+    }
+    if (!batch_rows.empty()) {
+      out.batches.push_back(
+          RecordBatchFromJSON(out.schema, Join({"[", Join(batch_rows, ","), "]"})));
+    }
+
+    out.json_size = static_cast<int>(out.json.size());
+    out.block_size = static_cast<int>(block_size);
+    out.num_batches = static_cast<int>(out.batches.size());
+
+    return out;
+  }
+
+  static std::string Join(const std::vector<std::string>& strings,
+                          const std::string& delim = "", bool trailing_delim = false) {
+    std::string out;
+    for (size_t i = 0; i < strings.size();) {
+      out += strings[i++];
+      if (i != strings.size() || trailing_delim) {
+        out += delim;
+      }
+    }
+    return out;
+  }
+
+  internal::Executor* executor_ = nullptr;
+  ParseOptions parse_options_ = ParseOptions::Defaults();
+  ReadOptions read_options_ = ReadOptions::Defaults();
+  io::IOContext io_context_ = io::default_io_context();
+};
+
+class AsyncStreamingReaderTest : public StreamingReaderTestBase, public ::testing::Test {
+ protected:
+  void SetUp() override { read_options_.use_threads = true; }
+};
+
+class StreamingReaderTest : public StreamingReaderTestBase,
+                            public ::testing::TestWithParam<bool> {
+ protected:
+  void SetUp() override { read_options_.use_threads = GetParam(); }
+};
+
+INSTANTIATE_TEST_SUITE_P(StreamingReaderTest, StreamingReaderTest,
+                         ::testing::Values(false, true));
+
+TEST_P(StreamingReaderTest, ErrorOnEmptyStream) {
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid, ::testing::StartsWith("Invalid: Empty JSON stream"), MakeReader(""));
+  std::string data(100, '\n');
+  for (auto block_size : {25, 49, 50, 100, 200}) {
+    read_options_.block_size = block_size;
+    EXPECT_RAISES_WITH_MESSAGE_THAT(
+        Invalid, ::testing::StartsWith("Invalid: Empty JSON stream"), MakeReader(data));
+  }
+}
+
+TEST_P(StreamingReaderTest, PropagateChunkingErrors) {
+  constexpr double kIoLatency = 1e-3;
+
+  auto test_schema = schema({field("i", int64())});
+  // Object straddles multiple blocks
+  auto bad_first_chunk = Join(
+      {
+          R"({"i": 0            })",
+          R"({"i": 1})",
+      },
+      "\n");
+  auto bad_middle_chunk = Join(
+      {
+          R"({"i": 0})",
+          R"({"i":    1})",
+          R"({"i": 2})",
+      },
+      "\n");
+
+  read_options_.block_size = 10;
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid,
+      ::testing::StartsWith("Invalid: straddling object straddles two block boundaries"),
+      MakeReader(bad_first_chunk));
+
+  ASSERT_OK_AND_ASSIGN(auto reader, MakeReader(bad_middle_chunk, kIoLatency));
+
+  std::shared_ptr<RecordBatch> batch;
+  AssertReadNext(reader, &batch);
+  EXPECT_EQ(reader->bytes_processed(), 9);
+  ASSERT_BATCHES_EQUAL(*RecordBatchFromJSON(test_schema, "[{\"i\":0}]"), *batch);
+
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid,
+      ::testing::StartsWith("Invalid: straddling object straddles two block boundaries"),
+      reader->ReadNext(&batch));
+  EXPECT_EQ(reader->bytes_processed(), 9);
+  AssertReadEnd(reader);
+  AssertReadEnd(reader);
+  EXPECT_EQ(reader->bytes_processed(), 9);
+}
+
+TEST_P(StreamingReaderTest, PropagateParsingErrors) {
+  auto test_schema = schema({field("n", int64())});
+  auto bad_first_block = Join(
+      {
+          R"({"n": })",
+          R"({"n": 10000})",
+      },
+      "\n");
+  auto bad_first_block_after_empty = Join(
+      {
+          R"(            )",
+          R"({"n": })",
+          R"({"n": 10000})",
+      },
+      "\n");
+  auto bad_middle_block = Join(
+      {
+          R"({"n": 10000})",
+          R"({"n": 200 0})",
+          R"({"n": 30000})",
+      },
+      "\n");
+
+  read_options_.block_size = 16;
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid, ::testing::StartsWith("Invalid: JSON parse error: Invalid value"),
+      MakeReader(bad_first_block));
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid, ::testing::StartsWith("Invalid: JSON parse error: Invalid value"),
+      MakeReader(bad_first_block_after_empty));
+
+  std::shared_ptr<RecordBatch> batch;
+  ASSERT_OK_AND_ASSIGN(auto reader, MakeReader(bad_middle_block));
+  EXPECT_EQ(reader->bytes_processed(), 0);
+  AssertSchemaEqual(reader->schema(), test_schema);
+
+  AssertReadNext(reader, &batch);
+  EXPECT_EQ(reader->bytes_processed(), 13);
+  ASSERT_BATCHES_EQUAL(*RecordBatchFromJSON(test_schema, R"([{"n":10000}])"), *batch);
+
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid,
+      ::testing::StartsWith(
+          "Invalid: JSON parse error: Missing a comma or '}' after an object member"),
+      reader->ReadNext(&batch));
+  EXPECT_EQ(reader->bytes_processed(), 13);
+  AssertReadEnd(reader);
+  EXPECT_EQ(reader->bytes_processed(), 13);
+}
+
+TEST_P(StreamingReaderTest, PropagateErrorsNonLinewiseChunker) {
+  auto test_schema = schema({field("i", int64())});
+  auto bad_first_block = Join(
+      {
+          R"({"i":0}{1})",
+          R"({"i":2})",
+      },
+      "\n");
+  auto bad_middle_blocks = Join(
+      {
+          R"({"i": 0})",
+          R"({"i":    1})",
+          R"({}"i":2})",
+          R"({"i": 3})",
+      },
+      "\n");
+
+  std::shared_ptr<RecordBatch> batch;
+  std::shared_ptr<StreamingReader> reader;
+  Status status;
+  read_options_.block_size = 10;
+  parse_options_.newlines_in_values = true;
+
+  ASSERT_OK_AND_ASSIGN(reader, MakeReader(bad_first_block));
+  AssertReadNext(reader, &batch);
+  EXPECT_EQ(reader->bytes_processed(), 7);
+  ASSERT_BATCHES_EQUAL(*RecordBatchFromJSON(test_schema, "[{\"i\":0}]"), *batch);
+
+  EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
+                                  ::testing::StartsWith("Invalid: JSON parse error"),
+                                  reader->ReadNext(&batch));
+  EXPECT_EQ(reader->bytes_processed(), 7);
+  AssertReadEnd(reader);
+
+  ASSERT_OK_AND_ASSIGN(reader, MakeReader(bad_middle_blocks));
+  AssertReadNext(reader, &batch);
+  EXPECT_EQ(reader->bytes_processed(), 9);
+  ASSERT_BATCHES_EQUAL(*RecordBatchFromJSON(test_schema, "[{\"i\":0}]"), *batch);
+  // Chunker doesn't require newline delimiters, so this should be valid
+  AssertReadNext(reader, &batch);
+  EXPECT_EQ(reader->bytes_processed(), 20);
+  ASSERT_BATCHES_EQUAL(*RecordBatchFromJSON(test_schema, "[{\"i\":1}]"), *batch);
+
+  EXPECT_RAISES_WITH_MESSAGE_THAT(Invalid,
+                                  ::testing::StartsWith("Invalid: JSON parse error"),
+                                  reader->ReadNext(&batch));
+  EXPECT_EQ(reader->bytes_processed(), 20);
+  // Incoming chunker error from ":2}" shouldn't leak through after the first failure,
+  // which is a possibility if async tasks are still outstanding due to readahead.
+  AssertReadEnd(reader);
+  AssertReadEnd(reader);
+  EXPECT_EQ(reader->bytes_processed(), 20);
+}
+
+TEST_P(StreamingReaderTest, IgnoreLeadingEmptyBlocks) {
+  std::string test_json(32, '\n');
+  test_json += R"({"b": true, "s": "foo"})";
+  ASSERT_EQ(test_json.length(), 55);
+
+  parse_options_.explicit_schema = schema({field("b", boolean()), field("s", utf8())});
+  read_options_.block_size = 24;
+  ASSERT_OK_AND_ASSIGN(auto reader, MakeReader(test_json));
+  EXPECT_EQ(reader->bytes_processed(), 0);
+
+  auto expected_schema = parse_options_.explicit_schema;
+  auto expected_batch = RecordBatchFromJSON(expected_schema, R"([{"b":true,"s":"foo"}])");
+
+  AssertSchemaEqual(reader->schema(), expected_schema);
+
+  std::shared_ptr<RecordBatch> actual_batch;
+  AssertReadNext(reader, &actual_batch);
+  EXPECT_EQ(reader->bytes_processed(), 55);
+  ASSERT_BATCHES_EQUAL(*expected_batch, *actual_batch);
+
+  AssertReadEnd(reader);
+}
+
+TEST_P(StreamingReaderTest, ExplicitSchemaErrorOnUnexpectedFields) {
+  std::string test_json =
+      Join({R"({"s": "foo", "t": "2022-01-01"})", R"({"s": "bar", "t": "2022-01-02"})",
+            R"({"s": "baz", "t": "2022-01-03", "b": true})"},
+           "\n");
+
+  FieldVector expected_fields = {field("s", utf8())};
+  std::shared_ptr<Schema> expected_schema = schema(expected_fields);
+
+  parse_options_.explicit_schema = expected_schema;
+  parse_options_.unexpected_field_behavior = UnexpectedFieldBehavior::Error;
+  read_options_.block_size = 48;
+
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid, ::testing::StartsWith("Invalid: JSON parse error: unexpected field"),
+      MakeReader(test_json));
+
+  expected_fields.push_back(field("t", utf8()));
+  expected_schema = schema(expected_fields);
+
+  parse_options_.explicit_schema = expected_schema;
+  ASSERT_OK_AND_ASSIGN(auto reader, MakeReader(test_json));
+  AssertSchemaEqual(reader->schema(), expected_schema);
+
+  std::shared_ptr<RecordBatch> batch;
+  AssertReadNext(reader, &batch);
+  ASSERT_BATCHES_EQUAL(
+      *RecordBatchFromJSON(expected_schema, R"([{"s":"foo","t":"2022-01-01"}])"), *batch);
+  EXPECT_EQ(reader->bytes_processed(), 32);
+
+  AssertReadNext(reader, &batch);
+  ASSERT_BATCHES_EQUAL(
+      *RecordBatchFromJSON(expected_schema, R"([{"s":"bar","t":"2022-01-02"}])"), *batch);
+  EXPECT_EQ(reader->bytes_processed(), 64);
+
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid, ::testing::StartsWith("Invalid: JSON parse error: unexpected field"),
+      reader->ReadNext(&batch));
+  EXPECT_EQ(reader->bytes_processed(), 64);
+  AssertReadEnd(reader);
+}
+
+TEST_P(StreamingReaderTest, ExplicitSchemaIgnoreUnexpectedFields) {
+  std::string test_json =
+      Join({R"({"s": "foo", "u": "2022-01-01"})", R"({"s": "bar", "t": "2022-01-02"})",
+            R"({"s": "baz", "t": "2022-01-03", "b": true})"},
+           "\n");
+
+  FieldVector expected_fields = {field("s", utf8()), field("t", utf8())};
+  std::shared_ptr<Schema> expected_schema = schema(expected_fields);
+
+  parse_options_.explicit_schema = expected_schema;
+  parse_options_.unexpected_field_behavior = UnexpectedFieldBehavior::Ignore;
+  read_options_.block_size = 48;
+
+  ASSERT_OK_AND_ASSIGN(auto reader, MakeReader(test_json));
+  AssertSchemaEqual(reader->schema(), expected_schema);
+
+  std::shared_ptr<RecordBatch> batch;
+  AssertReadNext(reader, &batch);
+  ASSERT_BATCHES_EQUAL(*RecordBatchFromJSON(expected_schema, R"([{"s":"foo","t":null}])"),
+                       *batch);
+  EXPECT_EQ(reader->bytes_processed(), 32);
+
+  AssertReadNext(reader, &batch);
+  ASSERT_BATCHES_EQUAL(
+      *RecordBatchFromJSON(expected_schema, R"([{"s":"bar","t":"2022-01-02"}])"), *batch);
+  EXPECT_EQ(reader->bytes_processed(), 64);
+
+  AssertReadNext(reader, &batch);
+  ASSERT_BATCHES_EQUAL(
+      *RecordBatchFromJSON(expected_schema, R"([{"s":"baz","t":"2022-01-03"}])"), *batch);
+  EXPECT_EQ(reader->bytes_processed(), 106);
+  AssertReadEnd(reader);
+}
+
+TEST_P(StreamingReaderTest, InferredSchema) {
+  auto test_json = Join(
+      {
+          R"({"a": 0, "b": "foo"       })",
+          R"({"a": 1, "c": true        })",
+          R"({"a": 2, "d": "2022-01-01"})",
+      },
+      "\n", true);
+
+  std::shared_ptr<StreamingReader> reader;
+  std::shared_ptr<Schema> expected_schema;
+  std::shared_ptr<RecordBatch> expected_batch;
+  std::shared_ptr<RecordBatch> actual_batch;
+
+  FieldVector fields = {field("a", int64()), field("b", utf8())};
+  parse_options_.unexpected_field_behavior = UnexpectedFieldBehavior::InferType;
+  parse_options_.explicit_schema = nullptr;
+
+  // Schema derived from the first line
+  expected_schema = schema(fields);
+
+  read_options_.block_size = 32;
+  ASSERT_OK_AND_ASSIGN(reader, MakeReader(test_json));
+  AssertSchemaEqual(reader->schema(), expected_schema);
+
+  expected_batch = RecordBatchFromJSON(expected_schema, R"([{"a": 0, "b": "foo"}])");
+  AssertReadNext(reader, &actual_batch);
+  EXPECT_EQ(reader->bytes_processed(), 28);
+  ASSERT_BATCHES_EQUAL(*expected_batch, *actual_batch);
+
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid, ::testing::StartsWith("Invalid: JSON parse error: unexpected field"),
+      reader->ReadNext(&actual_batch));
+
+  // Schema derived from the first 2 lines
+  fields.push_back(field("c", boolean()));
+  expected_schema = schema(fields);
+
+  read_options_.block_size = 64;
+  ASSERT_OK_AND_ASSIGN(reader, MakeReader(test_json));
+  AssertSchemaEqual(reader->schema(), expected_schema);
+
+  expected_batch = RecordBatchFromJSON(expected_schema, R"([
+    {"a": 0, "b": "foo", "c": null},
+    {"a": 1, "b":  null, "c": true}
+  ])");
+  AssertReadNext(reader, &actual_batch);
+  EXPECT_EQ(reader->bytes_processed(), 56);
+  ASSERT_BATCHES_EQUAL(*expected_batch, *actual_batch);
+
+  EXPECT_RAISES_WITH_MESSAGE_THAT(
+      Invalid, ::testing::StartsWith("Invalid: JSON parse error: unexpected field"),
+      reader->ReadNext(&actual_batch));
+
+  // Schema derived from all 3 lines
+  fields.push_back(field("d", timestamp(TimeUnit::SECOND)));
+  expected_schema = schema(fields);
+
+  read_options_.block_size = 96;
+  ASSERT_OK_AND_ASSIGN(reader, MakeReader(test_json));
+  AssertSchemaEqual(reader->schema(), expected_schema);
+
+  expected_batch = RecordBatchFromJSON(expected_schema, R"([
+    {"a": 0, "b": "foo", "c": null, "d":  null},
+    {"a": 1, "b":  null, "c": true, "d":  null},
+    {"a": 2, "b":  null, "c": null, "d":  "2022-01-01"}
+  ])");
+  AssertReadNext(reader, &actual_batch);
+  EXPECT_EQ(reader->bytes_processed(), 84);
+  ASSERT_BATCHES_EQUAL(*expected_batch, *actual_batch);
+
+  AssertReadEnd(reader);
+}
+
+TEST_F(AsyncStreamingReaderTest, AsyncReentrancy) {
+  constexpr int kNumRows = 16;
+  constexpr double kIoLatency = 1e-2;
+
+  auto expected = GenerateTestCase(kNumRows);
+  parse_options_.explicit_schema = expected.schema;
+  parse_options_.unexpected_field_behavior = UnexpectedFieldBehavior::Error;
+  read_options_.block_size = expected.block_size;
+
+  std::vector<Future<std::shared_ptr<RecordBatch>>> futures(expected.num_batches + 2);
+  ASSERT_OK_AND_ASSIGN(auto reader, MakeReader(expected.json, kIoLatency));
+  EXPECT_EQ(reader->bytes_processed(), 0);
+  for (auto& future : futures) {
+    future = reader->ReadNextAsync();
+  }
+
+  ASSERT_FINISHES_OK_AND_ASSIGN(auto results, All(std::move(futures)));
+  EXPECT_EQ(reader->bytes_processed(), expected.json_size);
+  ASSERT_OK_AND_ASSIGN(auto batches, internal::UnwrapOrRaise(std::move(results)));
+  AssertBatchSequenceEquals(expected.batches, batches);
+}
+
+TEST_F(AsyncStreamingReaderTest, FuturesOutliveReader) {
+  constexpr int kNumRows = 16;
+  constexpr double kIoLatency = 1e-2;
+
+  auto expected = GenerateTestCase(kNumRows);
+  parse_options_.explicit_schema = expected.schema;
+  parse_options_.unexpected_field_behavior = UnexpectedFieldBehavior::Error;
+  read_options_.block_size = expected.block_size;
+
+  auto stream = MakeTestStream(expected.json, kIoLatency);
+  std::vector<Future<std::shared_ptr<RecordBatch>>> futures(expected.num_batches + 2);
+  {
+    ASSERT_OK_AND_ASSIGN(auto reader, MakeReader(stream));
+    EXPECT_EQ(reader->bytes_processed(), 0);
+    for (auto& future : futures) {
+      future = reader->ReadNextAsync();
+    }
+  }
+
+  ASSERT_FINISHES_OK_AND_ASSIGN(auto results, All(std::move(futures)));
+  ASSERT_OK_AND_ASSIGN(auto batches, internal::UnwrapOrRaise(std::move(results)));
+  AssertBatchSequenceEquals(expected.batches, batches);
+}
+
+TEST_F(AsyncStreamingReaderTest, StressBufferedReads) {
+  constexpr int kNumRows = 500;
+
+  auto expected = GenerateTestCase(kNumRows);
+  parse_options_.explicit_schema = expected.schema;
+  parse_options_.unexpected_field_behavior = UnexpectedFieldBehavior::Error;
+  read_options_.block_size = expected.block_size;
+
+  std::vector<Future<std::shared_ptr<RecordBatch>>> futures(expected.num_batches + 2);
+  ASSERT_OK_AND_ASSIGN(auto reader, MakeReader(expected.json));
+  EXPECT_EQ(reader->bytes_processed(), 0);
+  for (auto& future : futures) {
+    future = reader->ReadNextAsync();
+  }
+
+  ASSERT_FINISHES_OK_AND_ASSIGN(auto results, All(std::move(futures)));
+  ASSERT_OK_AND_ASSIGN(auto batches, internal::UnwrapOrRaise(results));
+  AssertBatchSequenceEquals(expected.batches, batches);
+}
+
+TEST_F(AsyncStreamingReaderTest, StressSharedIoAndCpuExecutor) {
+  constexpr int kNumRows = 500;
+  constexpr double kIoLatency = 1e-4;
+
+  auto expected = GenerateTestCase(kNumRows);
+  parse_options_.explicit_schema = expected.schema;
+  parse_options_.unexpected_field_behavior = UnexpectedFieldBehavior::Error;
+  read_options_.block_size = expected.block_size;
+
+  // Force the serial -> parallel pipeline to contend for a single thread
+  ASSERT_OK_AND_ASSIGN(auto thread_pool, internal::ThreadPool::Make(1));
+  io_context_ = io::IOContext(thread_pool.get());
+  executor_ = thread_pool.get();
+
+  ASSERT_OK_AND_ASSIGN(auto generator, MakeGenerator(expected.json, kIoLatency));
+  ASSERT_FINISHES_OK_AND_ASSIGN(auto batches, CollectAsyncGenerator(generator));
+  AssertBatchSequenceEquals(expected.batches, batches);
+}
+
 }  // namespace json
 }  // namespace arrow
diff --git a/cpp/src/arrow/json/test_common.h b/cpp/src/arrow/json/test_common.h
index 508be0c9102..c01036047cf 100644
--- a/cpp/src/arrow/json/test_common.h
+++ b/cpp/src/arrow/json/test_common.h
@@ -21,6 +21,7 @@
 #include <random>
 #include <sstream>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
@@ -34,7 +35,6 @@
 #include "arrow/testing/gtest_util.h"
 #include "arrow/type.h"
 #include "arrow/util/checked_cast.h"
-#include "arrow/util/string_view.h"
 #include "arrow/visit_type_inline.h"
 
 #include "rapidjson/document.h"
@@ -51,23 +51,37 @@ namespace json {
 namespace rj = arrow::rapidjson;
 
 using rj::StringBuffer;
-using util::string_view;
+using std::string_view;
 using Writer = rj::Writer<StringBuffer>;
 
+struct GenerateOptions {
+  // Probability of a field being written
+  double field_probability = 1.0;
+  // Probability of a value being null
+  double null_probability = 0.2;
+  // Whether to randomize the order of written fields
+  bool randomize_field_order = false;
+
+  static constexpr GenerateOptions Defaults() { return GenerateOptions{}; }
+};
+
 inline static Status OK(bool ok) { return ok ? Status::OK() : Status::Invalid(""); }
 
 template <typename Engine>
-inline static Status Generate(const std::shared_ptr<DataType>& type, Engine& e,
-                              Writer* writer);
+inline static Status Generate(
+    const std::shared_ptr<DataType>& type, Engine& e, Writer* writer,
+    const GenerateOptions& options = GenerateOptions::Defaults());
 
 template <typename Engine>
-inline static Status Generate(const std::vector<std::shared_ptr<Field>>& fields,
-                              Engine& e, Writer* writer);
+inline static Status Generate(
+    const std::vector<std::shared_ptr<Field>>& fields, Engine& e, Writer* writer,
+    const GenerateOptions& options = GenerateOptions::Defaults());
 
 template <typename Engine>
-inline static Status Generate(const std::shared_ptr<Schema>& schm, Engine& e,
-                              Writer* writer) {
-  return Generate(schm->fields(), e, writer);
+inline static Status Generate(
+    const std::shared_ptr<Schema>& schm, Engine& e, Writer* writer,
+    const GenerateOptions& options = GenerateOptions::Defaults()) {
+  return Generate(schm->fields(), e, writer, options);
 }
 
 template <typename Engine>
@@ -99,7 +113,7 @@ struct GenerateImpl {
   template <typename T>
   enable_if_base_binary<T, Status> Visit(const T&) {
     auto size = std::poisson_distribution<>{4}(e);
-    std::uniform_int_distribution<uint16_t> gen_char(32, 127);  // FIXME generate UTF8
+    std::uniform_int_distribution<uint16_t> gen_char(32, 126);  // FIXME generate UTF8
     std::string s(size, '\0');
     for (char& ch : s) ch = static_cast<char>(gen_char(e));
     return OK(writer.String(s.c_str()));
@@ -109,11 +123,13 @@ struct GenerateImpl {
   enable_if_list_like<T, Status> Visit(const T& t) {
     auto size = std::poisson_distribution<>{4}(e);
     writer.StartArray();
-    for (int i = 0; i < size; ++i) RETURN_NOT_OK(Generate(t.value_type(), e, &writer));
+    for (int i = 0; i < size; ++i) {
+      RETURN_NOT_OK(Generate(t.value_type(), e, &writer, options));
+    }
     return OK(writer.EndArray(size));
   }
 
-  Status Visit(const StructType& t) { return Generate(t.fields(), e, &writer); }
+  Status Visit(const StructType& t) { return Generate(t.fields(), e, &writer, options); }
 
   Status Visit(const DayTimeIntervalType& t) { return NotImplemented(t); }
 
@@ -135,29 +151,54 @@ struct GenerateImpl {
 
   Engine& e;
   rj::Writer<rj::StringBuffer>& writer;
+  const GenerateOptions& options;
 };
 
 template <typename Engine>
 inline static Status Generate(const std::shared_ptr<DataType>& type, Engine& e,
-                              Writer* writer) {
-  if (std::uniform_real_distribution<>{0, 1}(e) < .2) {
-    // one out of 5 chance of null, anywhere
+                              Writer* writer, const GenerateOptions& options) {
+  if (std::bernoulli_distribution(options.null_probability)(e)) {
     writer->Null();
     return Status::OK();
   }
-  GenerateImpl<Engine> visitor = {e, *writer};
+  GenerateImpl<Engine> visitor = {e, *writer, options};
   return VisitTypeInline(*type, &visitor);
 }
 
 template <typename Engine>
 inline static Status Generate(const std::vector<std::shared_ptr<Field>>& fields,
-                              Engine& e, Writer* writer) {
+                              Engine& e, Writer* writer, const GenerateOptions& options) {
   RETURN_NOT_OK(OK(writer->StartObject()));
-  for (const auto& f : fields) {
-    writer->Key(f->name().c_str());
-    RETURN_NOT_OK(Generate(f->type(), e, writer));
+
+  int num_fields = 0;
+  auto write_field = [&](const Field& f) {
+    ++num_fields;
+    writer->Key(f.name().c_str());
+    return Generate(f.type(), e, writer, options);
+  };
+
+  std::bernoulli_distribution bool_dist(options.field_probability);
+  if (options.randomize_field_order) {
+    std::vector<size_t> indices;
+    indices.reserve(static_cast<size_t>(fields.size() * options.field_probability));
+    for (size_t i = 0; i < fields.size(); ++i) {
+      if (bool_dist(e)) {
+        indices.push_back(i);
+      }
+    }
+    std::shuffle(indices.begin(), indices.end(), e);
+    for (auto i : indices) {
+      RETURN_NOT_OK(write_field(*fields[i]));
+    }
+  } else {
+    for (const auto& f : fields) {
+      if (bool_dist(e)) {
+        RETURN_NOT_OK(write_field(*f));
+      }
+    }
   }
-  return OK(writer->EndObject(static_cast<int>(fields.size())));
+
+  return OK(writer->EndObject(num_fields));
 }
 
 inline static Status MakeStream(string_view src_str,
@@ -216,7 +257,7 @@ static inline std::string PrettyPrint(string_view one_line) {
 }
 
 template <typename T>
-std::string RowsOfOneColumn(util::string_view name, std::initializer_list<T> values,
+std::string RowsOfOneColumn(std::string_view name, std::initializer_list<T> values,
                             decltype(std::to_string(*values.begin()))* = nullptr) {
   std::stringstream ss;
   for (auto value : values) {
@@ -225,7 +266,7 @@ std::string RowsOfOneColumn(util::string_view name, std::initializer_list<T> val
   return ss.str();
 }
 
-inline std::string RowsOfOneColumn(util::string_view name,
+inline std::string RowsOfOneColumn(std::string_view name,
                                    std::initializer_list<std::string> values) {
   std::stringstream ss;
   for (auto value : values) {
@@ -259,5 +300,19 @@ inline static std::string null_src() {
   )";
 }
 
+inline static std::string unquoted_decimal_src() {
+  return R"(
+    { "price": 30.04, "cost":30.001 }
+    { "price": 1.23, "cost":1.229 }
+  )";
+}
+
+inline static std::string mixed_decimal_src() {
+  return R"(
+    { "price": 30.04, "cost": 30.001 }
+    { "price": "1.23", "cost": "1.229" }
+  )";
+}
+
 }  // namespace json
 }  // namespace arrow
diff --git a/cpp/src/arrow/memory_pool.cc b/cpp/src/arrow/memory_pool.cc
index f8682ad3138..c87fdc6884e 100644
--- a/cpp/src/arrow/memory_pool.cc
+++ b/cpp/src/arrow/memory_pool.cc
@@ -25,6 +25,7 @@
 #include <limits>
 #include <memory>
 #include <mutex>
+#include <optional>
 
 #if defined(sun) || defined(__sun)
 #include <stdlib.h>
@@ -40,7 +41,6 @@
 #include "arrow/util/int_util_overflow.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"  // IWYU pragma: keep
-#include "arrow/util/optional.h"
 #include "arrow/util/string.h"
 #include "arrow/util/thread_pool.h"
 #include "arrow/util/ubsan.h"
@@ -59,7 +59,7 @@ namespace memory_pool {
 
 namespace internal {
 
-alignas(kAlignment) int64_t zero_size_area[1] = {kDebugXorSuffix};
+alignas(kDefaultBufferAlignment) int64_t zero_size_area[1] = {kDebugXorSuffix};
 
 }  // namespace internal
 
@@ -103,8 +103,8 @@ const std::vector<SupportedBackend>& SupportedBackends() {
 
 // Return the MemoryPoolBackend selected by the user through the
 // ARROW_DEFAULT_MEMORY_POOL environment variable, if any.
-util::optional<MemoryPoolBackend> UserSelectedBackend() {
-  static auto user_selected_backend = []() -> util::optional<MemoryPoolBackend> {
+std::optional<MemoryPoolBackend> UserSelectedBackend() {
+  static auto user_selected_backend = []() -> std::optional<MemoryPoolBackend> {
     auto unsupported_backend = [](const std::string& name) {
       std::vector<std::string> supported;
       for (const auto backend : SupportedBackends()) {
@@ -224,12 +224,14 @@ bool IsDebugEnabled() {
 template <typename WrappedAllocator>
 class DebugAllocator {
  public:
-  static Status AllocateAligned(int64_t size, uint8_t** out) {
+  static Status AllocateAligned(int64_t size, int64_t alignment, uint8_t** out) {
     if (size == 0) {
       *out = memory_pool::internal::kZeroSizeArea;
     } else {
       ARROW_ASSIGN_OR_RAISE(int64_t raw_size, RawSize(size));
-      RETURN_NOT_OK(WrappedAllocator::AllocateAligned(raw_size, out));
+      DCHECK(raw_size > size) << "bug in raw size computation: " << raw_size
+                              << " for size " << size;
+      RETURN_NOT_OK(WrappedAllocator::AllocateAligned(raw_size, alignment, out));
       InitAllocatedArea(*out, size);
     }
     return Status::OK();
@@ -237,29 +239,32 @@ class DebugAllocator {
 
   static void ReleaseUnused() { WrappedAllocator::ReleaseUnused(); }
 
-  static Status ReallocateAligned(int64_t old_size, int64_t new_size, uint8_t** ptr) {
+  static Status ReallocateAligned(int64_t old_size, int64_t new_size, int64_t alignment,
+                                  uint8_t** ptr) {
     CheckAllocatedArea(*ptr, old_size, "reallocation");
     if (*ptr == memory_pool::internal::kZeroSizeArea) {
-      return AllocateAligned(new_size, ptr);
+      return AllocateAligned(new_size, alignment, ptr);
     }
     if (new_size == 0) {
       // Note that an overflow check isn't needed as `old_size` is supposed to have
       // been successfully passed to AllocateAligned() before.
-      WrappedAllocator::DeallocateAligned(*ptr, old_size + kOverhead);
+      WrappedAllocator::DeallocateAligned(*ptr, old_size + kOverhead, alignment);
       *ptr = memory_pool::internal::kZeroSizeArea;
       return Status::OK();
     }
     ARROW_ASSIGN_OR_RAISE(int64_t raw_new_size, RawSize(new_size));
-    RETURN_NOT_OK(
-        WrappedAllocator::ReallocateAligned(old_size + kOverhead, raw_new_size, ptr));
+    DCHECK(raw_new_size > new_size)
+        << "bug in raw size computation: " << raw_new_size << " for size " << new_size;
+    RETURN_NOT_OK(WrappedAllocator::ReallocateAligned(old_size + kOverhead, raw_new_size,
+                                                      alignment, ptr));
     InitAllocatedArea(*ptr, new_size);
     return Status::OK();
   }
 
-  static void DeallocateAligned(uint8_t* ptr, int64_t size) {
+  static void DeallocateAligned(uint8_t* ptr, int64_t size, int64_t alignment) {
     CheckAllocatedArea(ptr, size, "deallocation");
     if (ptr != memory_pool::internal::kZeroSizeArea) {
-      WrappedAllocator::DeallocateAligned(ptr, size + kOverhead);
+      WrappedAllocator::DeallocateAligned(ptr, size + kOverhead, alignment);
     }
   }
 
@@ -295,7 +300,7 @@ class SystemAllocator {
  public:
   // Allocate memory according to the alignment requirements for Arrow
   // (as of May 2016 64 bytes)
-  static Status AllocateAligned(int64_t size, uint8_t** out) {
+  static Status AllocateAligned(int64_t size, int64_t alignment, uint8_t** out) {
     if (size == 0) {
       *out = memory_pool::internal::kZeroSizeArea;
       return Status::OK();
@@ -303,19 +308,19 @@ class SystemAllocator {
 #ifdef _WIN32
     // Special code path for Windows
     *out = reinterpret_cast<uint8_t*>(
-        _aligned_malloc(static_cast<size_t>(size), memory_pool::internal::kAlignment));
+        _aligned_malloc(static_cast<size_t>(size), static_cast<size_t>(alignment)));
     if (!*out) {
       return Status::OutOfMemory("malloc of size ", size, " failed");
     }
 #elif defined(sun) || defined(__sun)
     *out = reinterpret_cast<uint8_t*>(
-        memalign(memory_pool::internal::kAlignment, static_cast<size_t>(size)));
+        memalign(static_cast<size_t>(alignment), static_cast<size_t>(size)));
     if (!*out) {
       return Status::OutOfMemory("malloc of size ", size, " failed");
     }
 #else
     const int result =
-        posix_memalign(reinterpret_cast<void**>(out), memory_pool::internal::kAlignment,
+        posix_memalign(reinterpret_cast<void**>(out), static_cast<size_t>(alignment),
                        static_cast<size_t>(size));
     if (result == ENOMEM) {
       return Status::OutOfMemory("malloc of size ", size, " failed");
@@ -323,20 +328,21 @@ class SystemAllocator {
 
     if (result == EINVAL) {
       return Status::Invalid("invalid alignment parameter: ",
-                             memory_pool::internal::kAlignment);
+                             static_cast<size_t>(alignment));
     }
 #endif
     return Status::OK();
   }
 
-  static Status ReallocateAligned(int64_t old_size, int64_t new_size, uint8_t** ptr) {
+  static Status ReallocateAligned(int64_t old_size, int64_t new_size, int64_t alignment,
+                                  uint8_t** ptr) {
     uint8_t* previous_ptr = *ptr;
     if (previous_ptr == memory_pool::internal::kZeroSizeArea) {
       DCHECK_EQ(old_size, 0);
-      return AllocateAligned(new_size, ptr);
+      return AllocateAligned(new_size, alignment, ptr);
     }
     if (new_size == 0) {
-      DeallocateAligned(previous_ptr, old_size);
+      DeallocateAligned(previous_ptr, old_size, alignment);
       *ptr = memory_pool::internal::kZeroSizeArea;
       return Status::OK();
     }
@@ -344,7 +350,7 @@ class SystemAllocator {
 
     // Allocate new chunk
     uint8_t* out = nullptr;
-    RETURN_NOT_OK(AllocateAligned(new_size, &out));
+    RETURN_NOT_OK(AllocateAligned(new_size, alignment, &out));
     DCHECK(out);
     // Copy contents and release old memory chunk
     memcpy(out, *ptr, static_cast<size_t>(std::min(new_size, old_size)));
@@ -357,7 +363,7 @@ class SystemAllocator {
     return Status::OK();
   }
 
-  static void DeallocateAligned(uint8_t* ptr, int64_t size) {
+  static void DeallocateAligned(uint8_t* ptr, int64_t size, int64_t /*alignment*/) {
     if (ptr == memory_pool::internal::kZeroSizeArea) {
       DCHECK_EQ(size, 0);
     } else {
@@ -383,13 +389,13 @@ class SystemAllocator {
 // Helper class directing allocations to the mimalloc allocator.
 class MimallocAllocator {
  public:
-  static Status AllocateAligned(int64_t size, uint8_t** out) {
+  static Status AllocateAligned(int64_t size, int64_t alignment, uint8_t** out) {
     if (size == 0) {
       *out = memory_pool::internal::kZeroSizeArea;
       return Status::OK();
     }
     *out = reinterpret_cast<uint8_t*>(
-        mi_malloc_aligned(static_cast<size_t>(size), memory_pool::internal::kAlignment));
+        mi_malloc_aligned(static_cast<size_t>(size), static_cast<size_t>(alignment)));
     if (*out == NULL) {
       return Status::OutOfMemory("malloc of size ", size, " failed");
     }
@@ -398,19 +404,20 @@ class MimallocAllocator {
 
   static void ReleaseUnused() { mi_collect(true); }
 
-  static Status ReallocateAligned(int64_t old_size, int64_t new_size, uint8_t** ptr) {
+  static Status ReallocateAligned(int64_t old_size, int64_t new_size, int64_t alignment,
+                                  uint8_t** ptr) {
     uint8_t* previous_ptr = *ptr;
     if (previous_ptr == memory_pool::internal::kZeroSizeArea) {
       DCHECK_EQ(old_size, 0);
-      return AllocateAligned(new_size, ptr);
+      return AllocateAligned(new_size, alignment, ptr);
     }
     if (new_size == 0) {
-      DeallocateAligned(previous_ptr, old_size);
+      DeallocateAligned(previous_ptr, old_size, alignment);
       *ptr = memory_pool::internal::kZeroSizeArea;
       return Status::OK();
     }
-    *ptr = reinterpret_cast<uint8_t*>(mi_realloc_aligned(
-        previous_ptr, static_cast<size_t>(new_size), memory_pool::internal::kAlignment));
+    *ptr = reinterpret_cast<uint8_t*>(
+        mi_realloc_aligned(previous_ptr, static_cast<size_t>(new_size), alignment));
     if (*ptr == NULL) {
       *ptr = previous_ptr;
       return Status::OutOfMemory("realloc of size ", new_size, " failed");
@@ -418,7 +425,7 @@ class MimallocAllocator {
     return Status::OK();
   }
 
-  static void DeallocateAligned(uint8_t* ptr, int64_t size) {
+  static void DeallocateAligned(uint8_t* ptr, int64_t size, int64_t /*alignment*/) {
     if (ptr == memory_pool::internal::kZeroSizeArea) {
       DCHECK_EQ(size, 0);
     } else {
@@ -448,14 +455,14 @@ class BaseMemoryPoolImpl : public MemoryPool {
  public:
   ~BaseMemoryPoolImpl() override {}
 
-  Status Allocate(int64_t size, uint8_t** out) override {
+  Status Allocate(int64_t size, int64_t alignment, uint8_t** out) override {
     if (size < 0) {
       return Status::Invalid("negative malloc size");
     }
     if (static_cast<uint64_t>(size) >= std::numeric_limits<size_t>::max()) {
       return Status::OutOfMemory("malloc size overflows size_t");
     }
-    RETURN_NOT_OK(Allocator::AllocateAligned(size, out));
+    RETURN_NOT_OK(Allocator::AllocateAligned(size, alignment, out));
 #ifndef NDEBUG
     // Poison data
     if (size > 0) {
@@ -469,14 +476,15 @@ class BaseMemoryPoolImpl : public MemoryPool {
     return Status::OK();
   }
 
-  Status Reallocate(int64_t old_size, int64_t new_size, uint8_t** ptr) override {
+  Status Reallocate(int64_t old_size, int64_t new_size, int64_t alignment,
+                    uint8_t** ptr) override {
     if (new_size < 0) {
       return Status::Invalid("negative realloc size");
     }
     if (static_cast<uint64_t>(new_size) >= std::numeric_limits<size_t>::max()) {
       return Status::OutOfMemory("realloc overflows size_t");
     }
-    RETURN_NOT_OK(Allocator::ReallocateAligned(old_size, new_size, ptr));
+    RETURN_NOT_OK(Allocator::ReallocateAligned(old_size, new_size, alignment, ptr));
 #ifndef NDEBUG
     // Poison data
     if (new_size > old_size) {
@@ -490,7 +498,7 @@ class BaseMemoryPoolImpl : public MemoryPool {
     return Status::OK();
   }
 
-  void Free(uint8_t* buffer, int64_t size) override {
+  void Free(uint8_t* buffer, int64_t size, int64_t alignment) override {
 #ifndef NDEBUG
     // Poison data
     if (size > 0) {
@@ -499,7 +507,7 @@ class BaseMemoryPoolImpl : public MemoryPool {
       buffer[size - 1] = kDeallocPoison;
     }
 #endif
-    Allocator::DeallocateAligned(buffer, size);
+    Allocator::DeallocateAligned(buffer, size, alignment);
 
     stats_.UpdateAllocatedBytes(-size);
   }
@@ -663,8 +671,29 @@ MemoryPool* default_memory_pool() {
 
 #ifndef ARROW_JEMALLOC
 Status jemalloc_set_decay_ms(int ms) {
-  return Status::Invalid("jemalloc support is not built");
+  return Status::NotImplemented("jemalloc support is not built");
 }
+
+Result<int64_t> jemalloc_get_stat(const char* name) {
+  return Status::NotImplemented("jemalloc support is not built");
+}
+
+Status jemalloc_peak_reset() {
+  return Status::NotImplemented("jemalloc support is not built");
+}
+
+Status jemalloc_stats_print(const char* opts) {
+  return Status::NotImplemented("jemalloc support is not built");
+}
+
+Status jemalloc_stats_print(std::function<void(const char*)> write_cb, const char* opts) {
+  return Status::NotImplemented("jemalloc support is not built");
+}
+
+Result<std::string> jemalloc_stats_string(const char* opts) {
+  return Status::NotImplemented("jemalloc support is not built");
+}
+
 #endif
 
 ///////////////////////////////////////////////////////////////////////
@@ -672,22 +701,23 @@ Status jemalloc_set_decay_ms(int ms) {
 
 LoggingMemoryPool::LoggingMemoryPool(MemoryPool* pool) : pool_(pool) {}
 
-Status LoggingMemoryPool::Allocate(int64_t size, uint8_t** out) {
-  Status s = pool_->Allocate(size, out);
-  std::cout << "Allocate: size = " << size << std::endl;
+Status LoggingMemoryPool::Allocate(int64_t size, int64_t alignment, uint8_t** out) {
+  Status s = pool_->Allocate(size, alignment, out);
+  std::cout << "Allocate: size = " << size << ", alignment = " << alignment << std::endl;
   return s;
 }
 
-Status LoggingMemoryPool::Reallocate(int64_t old_size, int64_t new_size, uint8_t** ptr) {
+Status LoggingMemoryPool::Reallocate(int64_t old_size, int64_t new_size,
+                                     int64_t alignment, uint8_t** ptr) {
   Status s = pool_->Reallocate(old_size, new_size, ptr);
-  std::cout << "Reallocate: old_size = " << old_size << " - new_size = " << new_size
-            << std::endl;
+  std::cout << "Reallocate: old_size = " << old_size << ", new_size = " << new_size
+            << ", alignment = " << alignment << std::endl;
   return s;
 }
 
-void LoggingMemoryPool::Free(uint8_t* buffer, int64_t size) {
-  pool_->Free(buffer, size);
-  std::cout << "Free: size = " << size << std::endl;
+void LoggingMemoryPool::Free(uint8_t* buffer, int64_t size, int64_t alignment) {
+  pool_->Free(buffer, size, alignment);
+  std::cout << "Free: size = " << size << ", alignment = " << alignment << std::endl;
 }
 
 int64_t LoggingMemoryPool::bytes_allocated() const {
@@ -711,20 +741,21 @@ class ProxyMemoryPool::ProxyMemoryPoolImpl {
  public:
   explicit ProxyMemoryPoolImpl(MemoryPool* pool) : pool_(pool) {}
 
-  Status Allocate(int64_t size, uint8_t** out) {
-    RETURN_NOT_OK(pool_->Allocate(size, out));
+  Status Allocate(int64_t size, int64_t alignment, uint8_t** out) {
+    RETURN_NOT_OK(pool_->Allocate(size, alignment, out));
     stats_.UpdateAllocatedBytes(size);
     return Status::OK();
   }
 
-  Status Reallocate(int64_t old_size, int64_t new_size, uint8_t** ptr) {
-    RETURN_NOT_OK(pool_->Reallocate(old_size, new_size, ptr));
+  Status Reallocate(int64_t old_size, int64_t new_size, int64_t alignment,
+                    uint8_t** ptr) {
+    RETURN_NOT_OK(pool_->Reallocate(old_size, new_size, alignment, ptr));
     stats_.UpdateAllocatedBytes(new_size - old_size);
     return Status::OK();
   }
 
-  void Free(uint8_t* buffer, int64_t size) {
-    pool_->Free(buffer, size);
+  void Free(uint8_t* buffer, int64_t size, int64_t alignment) {
+    pool_->Free(buffer, size, alignment);
     stats_.UpdateAllocatedBytes(-size);
   }
 
@@ -745,16 +776,17 @@ ProxyMemoryPool::ProxyMemoryPool(MemoryPool* pool) {
 
 ProxyMemoryPool::~ProxyMemoryPool() {}
 
-Status ProxyMemoryPool::Allocate(int64_t size, uint8_t** out) {
-  return impl_->Allocate(size, out);
+Status ProxyMemoryPool::Allocate(int64_t size, int64_t alignment, uint8_t** out) {
+  return impl_->Allocate(size, alignment, out);
 }
 
-Status ProxyMemoryPool::Reallocate(int64_t old_size, int64_t new_size, uint8_t** ptr) {
-  return impl_->Reallocate(old_size, new_size, ptr);
+Status ProxyMemoryPool::Reallocate(int64_t old_size, int64_t new_size, int64_t alignment,
+                                   uint8_t** ptr) {
+  return impl_->Reallocate(old_size, new_size, alignment, ptr);
 }
 
-void ProxyMemoryPool::Free(uint8_t* buffer, int64_t size) {
-  return impl_->Free(buffer, size);
+void ProxyMemoryPool::Free(uint8_t* buffer, int64_t size, int64_t alignment) {
+  return impl_->Free(buffer, size, alignment);
 }
 
 int64_t ProxyMemoryPool::bytes_allocated() const { return impl_->bytes_allocated(); }
@@ -777,8 +809,9 @@ std::vector<std::string> SupportedMemoryBackendNames() {
 /// A Buffer whose lifetime is tied to a particular MemoryPool
 class PoolBuffer final : public ResizableBuffer {
  public:
-  explicit PoolBuffer(std::shared_ptr<MemoryManager> mm, MemoryPool* pool)
-      : ResizableBuffer(nullptr, 0, std::move(mm)), pool_(pool) {}
+  explicit PoolBuffer(std::shared_ptr<MemoryManager> mm, MemoryPool* pool,
+                      int64_t alignment)
+      : ResizableBuffer(nullptr, 0, std::move(mm)), pool_(pool), alignment_(alignment) {}
 
   ~PoolBuffer() override {
     // Avoid calling pool_->Free if the global pools are destroyed
@@ -789,7 +822,7 @@ class PoolBuffer final : public ResizableBuffer {
     // no guarantee of destructor order between thread/memory pools)
     uint8_t* ptr = mutable_data();
     if (ptr && !global_state.is_finalizing()) {
-      pool_->Free(ptr, capacity_);
+      pool_->Free(ptr, capacity_, alignment_);
     }
   }
 
@@ -801,9 +834,9 @@ class PoolBuffer final : public ResizableBuffer {
     if (!ptr || capacity > capacity_) {
       int64_t new_capacity = bit_util::RoundUpToMultipleOf64(capacity);
       if (ptr) {
-        RETURN_NOT_OK(pool_->Reallocate(capacity_, new_capacity, &ptr));
+        RETURN_NOT_OK(pool_->Reallocate(capacity_, new_capacity, alignment_, &ptr));
       } else {
-        RETURN_NOT_OK(pool_->Allocate(new_capacity, &ptr));
+        RETURN_NOT_OK(pool_->Allocate(new_capacity, alignment_, &ptr));
       }
       data_ = ptr;
       capacity_ = new_capacity;
@@ -822,7 +855,7 @@ class PoolBuffer final : public ResizableBuffer {
       int64_t new_capacity = bit_util::RoundUpToMultipleOf64(new_size);
       if (capacity_ != new_capacity) {
         // Buffer hasn't got yet the requested size.
-        RETURN_NOT_OK(pool_->Reallocate(capacity_, new_capacity, &ptr));
+        RETURN_NOT_OK(pool_->Reallocate(capacity_, new_capacity, alignment_, &ptr));
         data_ = ptr;
         capacity_ = new_capacity;
       }
@@ -834,7 +867,7 @@ class PoolBuffer final : public ResizableBuffer {
     return Status::OK();
   }
 
-  static std::shared_ptr<PoolBuffer> MakeShared(MemoryPool* pool) {
+  static std::shared_ptr<PoolBuffer> MakeShared(MemoryPool* pool, int64_t alignment) {
     std::shared_ptr<MemoryManager> mm;
     if (pool == nullptr) {
       pool = default_memory_pool();
@@ -842,10 +875,10 @@ class PoolBuffer final : public ResizableBuffer {
     } else {
       mm = CPUDevice::memory_manager(pool);
     }
-    return std::make_shared<PoolBuffer>(std::move(mm), pool);
+    return std::make_shared<PoolBuffer>(std::move(mm), pool, alignment);
   }
 
-  static std::unique_ptr<PoolBuffer> MakeUnique(MemoryPool* pool) {
+  static std::unique_ptr<PoolBuffer> MakeUnique(MemoryPool* pool, int64_t alignment) {
     std::shared_ptr<MemoryManager> mm;
     if (pool == nullptr) {
       pool = default_memory_pool();
@@ -853,11 +886,12 @@ class PoolBuffer final : public ResizableBuffer {
     } else {
       mm = CPUDevice::memory_manager(pool);
     }
-    return std::unique_ptr<PoolBuffer>(new PoolBuffer(std::move(mm), pool));
+    return std::make_unique<PoolBuffer>(std::move(mm), pool, alignment);
   }
 
  private:
   MemoryPool* pool_;
+  int64_t alignment_;
 };
 
 namespace {
@@ -874,13 +908,26 @@ inline Result<BufferPtr> ResizePoolBuffer(PoolBufferPtr&& buffer, const int64_t
 }  // namespace
 
 Result<std::unique_ptr<Buffer>> AllocateBuffer(const int64_t size, MemoryPool* pool) {
-  return ResizePoolBuffer<std::unique_ptr<Buffer>>(PoolBuffer::MakeUnique(pool), size);
+  return AllocateBuffer(size, kDefaultBufferAlignment, pool);
+}
+
+Result<std::unique_ptr<Buffer>> AllocateBuffer(const int64_t size,
+                                               const int64_t alignment,
+                                               MemoryPool* pool) {
+  return ResizePoolBuffer<std::unique_ptr<Buffer>>(
+      PoolBuffer::MakeUnique(pool, alignment), size);
+}
+
+Result<std::unique_ptr<ResizableBuffer>> AllocateResizableBuffer(const int64_t size,
+                                                                 MemoryPool* pool) {
+  return AllocateResizableBuffer(size, kDefaultBufferAlignment, pool);
 }
 
 Result<std::unique_ptr<ResizableBuffer>> AllocateResizableBuffer(const int64_t size,
+                                                                 const int64_t alignment,
                                                                  MemoryPool* pool) {
-  return ResizePoolBuffer<std::unique_ptr<ResizableBuffer>>(PoolBuffer::MakeUnique(pool),
-                                                            size);
+  return ResizePoolBuffer<std::unique_ptr<ResizableBuffer>>(
+      PoolBuffer::MakeUnique(pool, alignment), size);
 }
 
 }  // namespace arrow
diff --git a/cpp/src/arrow/memory_pool.h b/cpp/src/arrow/memory_pool.h
index 58b375af3a9..4672dfb338f 100644
--- a/cpp/src/arrow/memory_pool.h
+++ b/cpp/src/arrow/memory_pool.h
@@ -19,9 +19,11 @@
 
 #include <atomic>
 #include <cstdint>
+#include <functional>
 #include <memory>
 #include <string>
 
+#include "arrow/result.h"
 #include "arrow/status.h"
 #include "arrow/type_fwd.h"
 #include "arrow/util/visibility.h"
@@ -71,13 +73,22 @@ class ARROW_EXPORT MemoryPool {
   /// Allocate a new memory region of at least size bytes.
   ///
   /// The allocated region shall be 64-byte aligned.
-  virtual Status Allocate(int64_t size, uint8_t** out) = 0;
+  Status Allocate(int64_t size, uint8_t** out) {
+    return Allocate(size, kDefaultBufferAlignment, out);
+  }
+
+  /// Allocate a new memory region of at least size bytes aligned to alignment.
+  virtual Status Allocate(int64_t size, int64_t alignment, uint8_t** out) = 0;
 
   /// Resize an already allocated memory section.
   ///
   /// As by default most default allocators on a platform don't support aligned
   /// reallocation, this function can involve a copy of the underlying data.
-  virtual Status Reallocate(int64_t old_size, int64_t new_size, uint8_t** ptr) = 0;
+  virtual Status Reallocate(int64_t old_size, int64_t new_size, int64_t alignment,
+                            uint8_t** ptr) = 0;
+  Status Reallocate(int64_t old_size, int64_t new_size, uint8_t** ptr) {
+    return Reallocate(old_size, new_size, kDefaultBufferAlignment, ptr);
+  }
 
   /// Free an allocated region.
   ///
@@ -85,7 +96,11 @@ class ARROW_EXPORT MemoryPool {
   /// @param size Allocated size located at buffer. An allocator implementation
   ///   may use this for tracking the amount of allocated bytes as well as for
   ///   faster deallocation if supported by its backend.
-  virtual void Free(uint8_t* buffer, int64_t size) = 0;
+  /// @param alignment The alignment of the allocation. Defaults to 64 bytes.
+  virtual void Free(uint8_t* buffer, int64_t size, int64_t alignment) = 0;
+  void Free(uint8_t* buffer, int64_t size) {
+    Free(buffer, size, kDefaultBufferAlignment);
+  }
 
   /// Return unused memory to the OS
   ///
@@ -116,10 +131,14 @@ class ARROW_EXPORT LoggingMemoryPool : public MemoryPool {
   explicit LoggingMemoryPool(MemoryPool* pool);
   ~LoggingMemoryPool() override = default;
 
-  Status Allocate(int64_t size, uint8_t** out) override;
-  Status Reallocate(int64_t old_size, int64_t new_size, uint8_t** ptr) override;
+  using MemoryPool::Allocate;
+  using MemoryPool::Free;
+  using MemoryPool::Reallocate;
 
-  void Free(uint8_t* buffer, int64_t size) override;
+  Status Allocate(int64_t size, int64_t alignment, uint8_t** out) override;
+  Status Reallocate(int64_t old_size, int64_t new_size, int64_t alignment,
+                    uint8_t** ptr) override;
+  void Free(uint8_t* buffer, int64_t size, int64_t alignment) override;
 
   int64_t bytes_allocated() const override;
 
@@ -140,10 +159,14 @@ class ARROW_EXPORT ProxyMemoryPool : public MemoryPool {
   explicit ProxyMemoryPool(MemoryPool* pool);
   ~ProxyMemoryPool() override;
 
-  Status Allocate(int64_t size, uint8_t** out) override;
-  Status Reallocate(int64_t old_size, int64_t new_size, uint8_t** ptr) override;
+  using MemoryPool::Allocate;
+  using MemoryPool::Free;
+  using MemoryPool::Reallocate;
 
-  void Free(uint8_t* buffer, int64_t size) override;
+  Status Allocate(int64_t size, int64_t alignment, uint8_t** out) override;
+  Status Reallocate(int64_t old_size, int64_t new_size, int64_t alignment,
+                    uint8_t** ptr) override;
+  void Free(uint8_t* buffer, int64_t size, int64_t alignment) override;
 
   int64_t bytes_allocated() const override;
 
@@ -175,6 +198,37 @@ ARROW_EXPORT Status jemalloc_memory_pool(MemoryPool** out);
 ARROW_EXPORT
 Status jemalloc_set_decay_ms(int ms);
 
+/// \brief Get basic statistics from jemalloc's mallctl.
+/// See the MALLCTL NAMESPACE section in jemalloc project documentation for
+/// available stats.
+ARROW_EXPORT
+Result<int64_t> jemalloc_get_stat(const char* name);
+
+/// \brief Reset the counter for peak bytes allocated in the calling thread to zero.
+/// This affects subsequent calls to thread.peak.read, but not the values returned by
+/// thread.allocated or thread.deallocated.
+ARROW_EXPORT
+Status jemalloc_peak_reset();
+
+/// \brief Print summary statistics in human-readable form to stderr.
+/// See malloc_stats_print documentation in jemalloc project documentation for
+/// available opt flags.
+ARROW_EXPORT
+Status jemalloc_stats_print(const char* opts = "");
+
+/// \brief Print summary statistics in human-readable form using a callback
+/// See malloc_stats_print documentation in jemalloc project documentation for
+/// available opt flags.
+ARROW_EXPORT
+Status jemalloc_stats_print(std::function<void(const char*)> write_cb,
+                            const char* opts = "");
+
+/// \brief Get summary statistics in human-readable form.
+/// See malloc_stats_print documentation in jemalloc project documentation for
+/// available opt flags.
+ARROW_EXPORT
+Result<std::string> jemalloc_stats_string(const char* opts = "");
+
 /// \brief Return a process-wide memory pool based on mimalloc.
 ///
 /// May return NotImplemented if mimalloc is not available.
diff --git a/cpp/src/arrow/memory_pool_internal.h b/cpp/src/arrow/memory_pool_internal.h
index df0ee646a47..01500b3c1ea 100644
--- a/cpp/src/arrow/memory_pool_internal.h
+++ b/cpp/src/arrow/memory_pool_internal.h
@@ -26,8 +26,6 @@ namespace memory_pool {
 
 namespace internal {
 
-static constexpr size_t kAlignment = 64;
-
 static constexpr int64_t kDebugXorSuffix = -0x181fe80e0b464188LL;
 
 // A static piece of memory for 0-size allocations, so as to return
@@ -41,9 +39,10 @@ static uint8_t* const kZeroSizeArea = reinterpret_cast<uint8_t*>(&zero_size_area
 // Helper class directing allocations to the jemalloc allocator.
 class JemallocAllocator {
  public:
-  static Status AllocateAligned(int64_t size, uint8_t** out);
-  static Status ReallocateAligned(int64_t old_size, int64_t new_size, uint8_t** ptr);
-  static void DeallocateAligned(uint8_t* ptr, int64_t size);
+  static Status AllocateAligned(int64_t size, int64_t alignment, uint8_t** out);
+  static Status ReallocateAligned(int64_t old_size, int64_t new_size, int64_t alignment,
+                                  uint8_t** ptr);
+  static void DeallocateAligned(uint8_t* ptr, int64_t size, int64_t alignment);
   static void ReleaseUnused();
 };
 
diff --git a/cpp/src/arrow/memory_pool_jemalloc.cc b/cpp/src/arrow/memory_pool_jemalloc.cc
index 48a5bac137b..24bc0f27f09 100644
--- a/cpp/src/arrow/memory_pool_jemalloc.cc
+++ b/cpp/src/arrow/memory_pool_jemalloc.cc
@@ -16,6 +16,7 @@
 // under the License.
 
 #include "arrow/memory_pool_internal.h"
+#include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"  // IWYU pragma: keep
 
 // We can't put the jemalloc memory pool implementation into
@@ -81,13 +82,14 @@ namespace memory_pool {
 
 namespace internal {
 
-Status JemallocAllocator::AllocateAligned(int64_t size, uint8_t** out) {
+Status JemallocAllocator::AllocateAligned(int64_t size, int64_t alignment,
+                                          uint8_t** out) {
   if (size == 0) {
     *out = kZeroSizeArea;
     return Status::OK();
   }
   *out = reinterpret_cast<uint8_t*>(
-      mallocx(static_cast<size_t>(size), MALLOCX_ALIGN(kAlignment)));
+      mallocx(static_cast<size_t>(size), MALLOCX_ALIGN(static_cast<size_t>(alignment))));
   if (*out == NULL) {
     return Status::OutOfMemory("malloc of size ", size, " failed");
   }
@@ -95,19 +97,20 @@ Status JemallocAllocator::AllocateAligned(int64_t size, uint8_t** out) {
 }
 
 Status JemallocAllocator::ReallocateAligned(int64_t old_size, int64_t new_size,
-                                            uint8_t** ptr) {
+                                            int64_t alignment, uint8_t** ptr) {
   uint8_t* previous_ptr = *ptr;
   if (previous_ptr == kZeroSizeArea) {
     DCHECK_EQ(old_size, 0);
-    return AllocateAligned(new_size, ptr);
+    return AllocateAligned(new_size, alignment, ptr);
   }
   if (new_size == 0) {
-    DeallocateAligned(previous_ptr, old_size);
+    DeallocateAligned(previous_ptr, old_size, alignment);
     *ptr = kZeroSizeArea;
     return Status::OK();
   }
-  *ptr = reinterpret_cast<uint8_t*>(
-      rallocx(*ptr, static_cast<size_t>(new_size), MALLOCX_ALIGN(kAlignment)));
+  *ptr =
+      reinterpret_cast<uint8_t*>(rallocx(*ptr, static_cast<size_t>(new_size),
+                                         MALLOCX_ALIGN(static_cast<size_t>(alignment))));
   if (*ptr == NULL) {
     *ptr = previous_ptr;
     return Status::OutOfMemory("realloc of size ", new_size, " failed");
@@ -115,11 +118,12 @@ Status JemallocAllocator::ReallocateAligned(int64_t old_size, int64_t new_size,
   return Status::OK();
 }
 
-void JemallocAllocator::DeallocateAligned(uint8_t* ptr, int64_t size) {
+void JemallocAllocator::DeallocateAligned(uint8_t* ptr, int64_t size, int64_t alignment) {
   if (ptr == kZeroSizeArea) {
     DCHECK_EQ(size, 0);
   } else {
-    dallocx(ptr, MALLOCX_ALIGN(kAlignment));
+    sdallocx(ptr, static_cast<size_t>(size),
+             MALLOCX_ALIGN(static_cast<size_t>(alignment)));
   }
 }
 
@@ -153,4 +157,69 @@ Status jemalloc_set_decay_ms(int ms) {
 
 #undef RETURN_IF_JEMALLOC_ERROR
 
+Result<int64_t> jemalloc_get_stat(const char* name) {
+  size_t sz;
+  int err;
+
+  // Update the statistics cached by mallctl.
+  if (std::strcmp(name, "stats.allocated") == 0 ||
+      std::strcmp(name, "stats.active") == 0 ||
+      std::strcmp(name, "stats.metadata") == 0 ||
+      std::strcmp(name, "stats.resident") == 0 ||
+      std::strcmp(name, "stats.mapped") == 0 ||
+      std::strcmp(name, "stats.retained") == 0) {
+    uint64_t epoch;
+    sz = sizeof(epoch);
+    mallctl("epoch", &epoch, &sz, &epoch, sz);
+  }
+
+  // Depending on the stat being queried and on the platform, we could need
+  // to pass a uint32_t or uint64_t pointer. Try both.
+  {
+    uint64_t value = 0;
+    sz = sizeof(value);
+    err = mallctl(name, &value, &sz, nullptr, 0);
+    if (!err) {
+      return value;
+    }
+  }
+  // EINVAL means the given value length (`sz`) was incorrect.
+  if (err == EINVAL) {
+    uint32_t value = 0;
+    sz = sizeof(value);
+    err = mallctl(name, &value, &sz, nullptr, 0);
+    if (!err) {
+      return value;
+    }
+  }
+
+  return arrow::internal::IOErrorFromErrno(err, "Failed retrieving ", &name);
+}
+
+Status jemalloc_peak_reset() {
+  int err = mallctl("thread.peak.reset", nullptr, nullptr, nullptr, 0);
+  return err ? arrow::internal::IOErrorFromErrno(err, "Failed resetting thread.peak.")
+             : Status::OK();
+}
+
+Result<std::string> jemalloc_stats_string(const char* opts) {
+  std::string stats;
+  auto write_cb = [&stats](const char* str) { stats.append(str); };
+  ARROW_UNUSED(jemalloc_stats_print(write_cb, opts));
+  return stats;
+}
+
+Status jemalloc_stats_print(const char* opts) {
+  malloc_stats_print(nullptr, nullptr, opts);
+  return Status::OK();
+}
+
+Status jemalloc_stats_print(std::function<void(const char*)> write_cb, const char* opts) {
+  auto cb_wrapper = [](void* opaque, const char* str) {
+    (*static_cast<std::function<void(const char*)>*>(opaque))(str);
+  };
+  malloc_stats_print(cb_wrapper, &write_cb, opts);
+  return Status::OK();
+}
+
 }  // namespace arrow
diff --git a/cpp/src/arrow/memory_pool_test.cc b/cpp/src/arrow/memory_pool_test.cc
index 591d86a23f5..a227226545c 100644
--- a/cpp/src/arrow/memory_pool_test.cc
+++ b/cpp/src/arrow/memory_pool_test.cc
@@ -25,6 +25,7 @@
 #include "arrow/status.h"
 #include "arrow/testing/gtest_util.h"
 #include "arrow/util/config.h"
+#include "arrow/util/logging.h"
 
 namespace arrow {
 
@@ -74,7 +75,9 @@ TYPED_TEST_P(TestMemoryPool, OOM) {
 
 TYPED_TEST_P(TestMemoryPool, Reallocate) { this->TestReallocate(); }
 
-REGISTER_TYPED_TEST_SUITE_P(TestMemoryPool, MemoryTracking, OOM, Reallocate);
+TYPED_TEST_P(TestMemoryPool, Alignment) { this->TestAlignment(); }
+
+REGISTER_TYPED_TEST_SUITE_P(TestMemoryPool, MemoryTracking, OOM, Reallocate, Alignment);
 
 INSTANTIATE_TYPED_TEST_SUITE_P(Default, TestMemoryPool, DefaultMemoryPoolFactory);
 INSTANTIATE_TYPED_TEST_SUITE_P(System, TestMemoryPool, SystemMemoryPoolFactory);
@@ -168,7 +171,107 @@ TEST(Jemalloc, SetDirtyPageDecayMillis) {
 #ifdef ARROW_JEMALLOC
   ASSERT_OK(jemalloc_set_decay_ms(0));
 #else
-  ASSERT_RAISES(Invalid, jemalloc_set_decay_ms(0));
+  ASSERT_RAISES(NotImplemented, jemalloc_set_decay_ms(0));
+#endif
+}
+
+TEST(Jemalloc, GetAllocationStats) {
+#ifdef ARROW_JEMALLOC
+  uint8_t* data;
+  int64_t allocated, active, metadata, resident, mapped, retained, allocated0, active0,
+      metadata0, resident0, mapped0, retained0;
+  int64_t thread_allocated, thread_deallocated, thread_peak_read, thread_allocated0,
+      thread_deallocated0, thread_peak_read0;
+
+  MemoryPool* pool = nullptr;
+  ABORT_NOT_OK(jemalloc_memory_pool(&pool));
+  ASSERT_EQ("jemalloc", pool->backend_name());
+
+  // Record stats before allocating
+  ASSERT_OK_AND_ASSIGN(allocated0, jemalloc_get_stat("stats.allocated"));
+  ASSERT_OK_AND_ASSIGN(active0, jemalloc_get_stat("stats.active"));
+  ASSERT_OK_AND_ASSIGN(metadata0, jemalloc_get_stat("stats.metadata"));
+  ASSERT_OK_AND_ASSIGN(resident0, jemalloc_get_stat("stats.resident"));
+  ASSERT_OK_AND_ASSIGN(mapped0, jemalloc_get_stat("stats.mapped"));
+  ASSERT_OK_AND_ASSIGN(retained0, jemalloc_get_stat("stats.retained"));
+  ASSERT_OK_AND_ASSIGN(thread_allocated0, jemalloc_get_stat("thread.allocated"));
+  ASSERT_OK_AND_ASSIGN(thread_deallocated0, jemalloc_get_stat("thread.deallocated"));
+  ASSERT_OK_AND_ASSIGN(thread_peak_read0, jemalloc_get_stat("thread.peak.read"));
+
+  // Allocate memory
+  ASSERT_OK(pool->Allocate(1025, &data));
+  ASSERT_EQ(pool->bytes_allocated(), 1025);
+  ASSERT_OK(pool->Reallocate(1025, 1023, &data));
+  ASSERT_EQ(pool->bytes_allocated(), 1023);
+
+  // Record stats after allocating
+  ASSERT_OK_AND_ASSIGN(allocated, jemalloc_get_stat("stats.allocated"));
+  ASSERT_OK_AND_ASSIGN(active, jemalloc_get_stat("stats.active"));
+  ASSERT_OK_AND_ASSIGN(metadata, jemalloc_get_stat("stats.metadata"));
+  ASSERT_OK_AND_ASSIGN(resident, jemalloc_get_stat("stats.resident"));
+  ASSERT_OK_AND_ASSIGN(mapped, jemalloc_get_stat("stats.mapped"));
+  ASSERT_OK_AND_ASSIGN(retained, jemalloc_get_stat("stats.retained"));
+  ASSERT_OK_AND_ASSIGN(thread_allocated, jemalloc_get_stat("thread.allocated"));
+  ASSERT_OK_AND_ASSIGN(thread_deallocated, jemalloc_get_stat("thread.deallocated"));
+  ASSERT_OK_AND_ASSIGN(thread_peak_read, jemalloc_get_stat("thread.peak.read"));
+  pool->Free(data, 1023);
+
+  // Check allocated stats pre-allocation
+  ASSERT_GT(allocated0, 0);
+  ASSERT_GT(active0, 0);
+  ASSERT_GT(metadata0, 0);
+  ASSERT_GT(resident0, 0);
+  ASSERT_GT(mapped0, 0);
+  ASSERT_GE(retained0, 0);
+
+  // Check allocated stats change due to allocation
+  ASSERT_NEAR(allocated - allocated0, 70000, 50000);
+  ASSERT_NEAR(active - active0, 100000, 90000);
+  ASSERT_NEAR(metadata - metadata0, 500, 460);
+  ASSERT_NEAR(resident - resident0, 120000, 110000);
+  ASSERT_NEAR(mapped - mapped0, 100000, 90000);
+  ASSERT_NEAR(retained - retained0, 0, 40000);
+
+  ASSERT_NEAR(thread_peak_read - thread_peak_read0, 1024, 700);
+  ASSERT_NEAR(thread_allocated - thread_allocated0, 2500, 500);
+  ASSERT_EQ(thread_deallocated - thread_deallocated0, 1280);
+
+  // Resetting thread peak read metric
+  ASSERT_OK(pool->Allocate(100000, &data));
+  ASSERT_OK_AND_ASSIGN(thread_peak_read, jemalloc_get_stat("thread.peak.read"));
+  ASSERT_NEAR(thread_peak_read, 100000, 50000);
+  pool->Free(data, 100000);
+  ASSERT_OK(jemalloc_peak_reset());
+
+  ASSERT_OK(pool->Allocate(1256, &data));
+  ASSERT_OK_AND_ASSIGN(thread_peak_read, jemalloc_get_stat("thread.peak.read"));
+  ASSERT_NEAR(thread_peak_read, 1256, 100);
+  pool->Free(data, 1256);
+
+  // Print statistics to stderr
+  ASSERT_OK(jemalloc_stats_print("J"));
+
+  // Read statistics into std::string
+  ASSERT_OK_AND_ASSIGN(std::string stats, jemalloc_stats_string("Jax"));
+
+  // Read statistics into std::string with a lambda
+  std::string stats2;
+  auto write_cb = [&stats2](const char* str) { stats2.append(str); };
+  ASSERT_OK(jemalloc_stats_print(write_cb, "Jax"));
+
+  ASSERT_EQ(stats.rfind("{\"jemalloc\":{\"version\"", 0), 0);
+  ASSERT_EQ(stats2.rfind("{\"jemalloc\":{\"version\"", 0), 0);
+  ASSERT_EQ(stats.substr(0, 100), stats2.substr(0, 100));
+#else
+  std::string stats;
+  auto write_cb = [&stats](const char* str) { stats.append(str); };
+  ASSERT_RAISES(NotImplemented, jemalloc_get_stat("thread.peak.read"));
+  ASSERT_RAISES(NotImplemented, jemalloc_get_stat("stats.allocated"));
+  ASSERT_RAISES(NotImplemented, jemalloc_get_stat("stats.allocated"));
+  ASSERT_RAISES(NotImplemented, jemalloc_get_stat("stats.allocatedp"));
+  ASSERT_RAISES(NotImplemented, jemalloc_peak_reset());
+  ASSERT_RAISES(NotImplemented, jemalloc_stats_print(write_cb, "Jax"));
+  ASSERT_RAISES(NotImplemented, jemalloc_stats_print("ax"));
 #endif
 }
 
diff --git a/cpp/src/arrow/memory_pool_test.h b/cpp/src/arrow/memory_pool_test.h
index c4e95feaa6d..e4a07099f83 100644
--- a/cpp/src/arrow/memory_pool_test.h
+++ b/cpp/src/arrow/memory_pool_test.h
@@ -88,6 +88,23 @@ class TestMemoryPoolBase : public ::testing::Test {
     pool->Free(data, 5);
     ASSERT_EQ(0, pool->bytes_allocated());
   }
+
+  void TestAlignment() {
+    auto pool = memory_pool();
+    {
+      uint8_t* data64;
+      ASSERT_OK(pool->Allocate(10, &data64));
+      ASSERT_EQ(reinterpret_cast<uintptr_t>(data64) % kDefaultBufferAlignment, 0);
+      pool->Free(data64, 10);
+    }
+
+    {
+      uint8_t* data512;
+      ASSERT_OK(pool->Allocate(10, 512, &data512));
+      ASSERT_EQ(reinterpret_cast<uintptr_t>(data512) % 512, 0);
+      pool->Free(data512, 10, 512);
+    }
+  }
 };
 
 }  // namespace arrow
diff --git a/cpp/src/arrow/pretty_print.cc b/cpp/src/arrow/pretty_print.cc
index ac92287f1bc..18f4ca68252 100644
--- a/cpp/src/arrow/pretty_print.cc
+++ b/cpp/src/arrow/pretty_print.cc
@@ -26,6 +26,7 @@
 #include <memory>
 #include <sstream>  // IWYU pragma: keep
 #include <string>
+#include <string_view>
 #include <type_traits>
 #include <vector>
 
@@ -41,7 +42,6 @@
 #include "arrow/util/int_util_overflow.h"
 #include "arrow/util/key_value_metadata.h"
 #include "arrow/util/string.h"
-#include "arrow/util/string_view.h"
 #include "arrow/vendored/datetime.h"
 #include "arrow/visit_array_inline.h"
 
@@ -49,6 +49,7 @@ namespace arrow {
 
 using internal::checked_cast;
 using internal::StringFormatter;
+using internal::ToChars;
 
 namespace {
 
@@ -57,8 +58,8 @@ class PrettyPrinter {
   PrettyPrinter(const PrettyPrintOptions& options, std::ostream* sink)
       : options_(options), indent_(options.indent), sink_(sink) {}
 
-  inline void Write(util::string_view data);
-  inline void WriteIndented(util::string_view data);
+  inline void Write(std::string_view data);
+  inline void WriteIndented(std::string_view data);
   inline void Newline();
   inline void Indent();
   inline void IndentAfterNewline();
@@ -103,9 +104,9 @@ void PrettyPrinter::CloseArray(const Array& array) {
   (*sink_) << "]";
 }
 
-void PrettyPrinter::Write(util::string_view data) { (*sink_) << data; }
+void PrettyPrinter::Write(std::string_view data) { (*sink_) << data; }
 
-void PrettyPrinter::WriteIndented(util::string_view data) {
+void PrettyPrinter::WriteIndented(std::string_view data) {
   Indent();
   Write(data);
 }
@@ -173,7 +174,7 @@ class ArrayPrinter : public PrettyPrinter {
 
   template <typename ArrayType, typename Formatter>
   Status WritePrimitiveValues(const ArrayType& array, Formatter* formatter) {
-    auto appender = [&](util::string_view v) { (*sink_) << v; };
+    auto appender = [&](std::string_view v) { (*sink_) << v; };
     auto format_func = [&](int64_t i) {
       (*formatter)(array.GetView(i), appender);
       return Status::OK();
@@ -566,7 +567,7 @@ class SchemaPrinter : public PrettyPrinter {
       }
 
       Write(metadata.key(i) + ": '" + metadata.value(i).substr(0, truncated_size) +
-            "' + " + std::to_string(size - truncated_size));
+            "' + " + ToChars(size - truncated_size));
     }
   }
 
diff --git a/cpp/src/arrow/public_api_test.cc b/cpp/src/arrow/public_api_test.cc
index 45f3313c67f..9abff229508 100644
--- a/cpp/src/arrow/public_api_test.cc
+++ b/cpp/src/arrow/public_api_test.cc
@@ -46,49 +46,69 @@
 #include "arrow/flight/api.h"  // IWYU pragma: keep
 #endif
 
+#ifdef ARROW_FLIGHT_SQL
+#include "arrow/flight/sql/api.h"  // IWYU pragma: keep
+#endif
+
 #ifdef ARROW_JSON
 #include "arrow/json/api.h"  // IWYU pragma: keep
 #endif
 
-#ifdef ARROW_PYTHON
-#include "arrow/python/api.h"  // IWYU pragma: keep
+#ifdef ARROW_SUBSTRAIT
+#include "arrow/engine/api.h"            // IWYU pragma: keep
+#include "arrow/engine/substrait/api.h"  // IWYU pragma: keep
 #endif
 
+#include <gmock/gmock-matchers.h>
+#include <gtest/gtest.h>
+
+#include "arrow/testing/gtest_util.h"
+#include "arrow/testing/util.h"
+
+namespace arrow {
+
+TEST(InternalHeaders, DCheckExposed) {
 #ifdef DCHECK
-#error "DCHECK should not be visible from Arrow public headers."
+  FAIL() << "DCHECK should not be visible from Arrow public headers.";
 #endif
+}
 
+TEST(InternalHeaders, AssignOrRaiseExposed) {
 #ifdef ASSIGN_OR_RAISE
-#error "ASSIGN_OR_RAISE should not be visible from Arrow public headers."
+  FAIL() << "ASSIGN_OR_RAISE should not be visible from Arrow public headers.";
 #endif
+}
 
+TEST(InternalDependencies, OpenTelemetryExposed) {
 #ifdef OPENTELEMETRY_VERSION
-#error "OpenTelemetry should not be visible from Arrow public headers."
+  FAIL() << "OpenTelemetry should not be visible from Arrow public headers.";
 #endif
+}
 
+TEST(InternalDependencies, XSimdExposed) {
 #ifdef XSIMD_VERSION_MAJOR
-#error "xsimd should not be visible from Arrow public headers."
+  FAIL() << "xsimd should not be visible from Arrow public headers.";
 #endif
+}
 
+TEST(InternalDependencies, DateLibraryExposed) {
 #ifdef HAS_CHRONO_ROUNDING
-#error "arrow::vendored::date should not be visible from Arrow public headers."
+  FAIL() << "arrow::vendored::date should not be visible from Arrow public headers.";
 #endif
+}
 
+TEST(InternalDependencies, ProtobufExposed) {
 #ifdef PROTOBUF_EXPORT
-#error "Protocol Buffers should not be visible from Arrow public headers."
+  FAIL() << "Protocol Buffers should not be visible from Arrow public headers.";
 #endif
+}
 
+TEST(TransitiveDependencies, WindowsHeadersExposed) {
 #if defined(SendMessage) || defined(GetObject) || defined(ERROR_INVALID_HANDLE) || \
     defined(FILE_SHARE_READ) || defined(WAIT_TIMEOUT)
-#error "Windows.h should not be included by Arrow public headers"
+  FAIL() << "Windows.h should not be included by Arrow public headers";
 #endif
-
-#include <gmock/gmock-matchers.h>
-#include <gtest/gtest.h>
-#include "arrow/testing/gtest_util.h"
-#include "arrow/testing/util.h"
-
-namespace arrow {
+}
 
 TEST(Misc, BuildInfo) {
   const auto& info = GetBuildInfo();
@@ -113,7 +133,7 @@ TEST(Misc, SetTimezoneConfig) {
 #else
   auto fs = std::make_shared<arrow::fs::LocalFileSystem>();
 
-  util::optional<std::string> tzdata_result = GetTestTimezoneDatabaseRoot();
+  std::optional<std::string> tzdata_result = GetTestTimezoneDatabaseRoot();
   std::string tzdata_dir;
   if (tzdata_result.has_value()) {
     tzdata_dir = tzdata_result.value();
@@ -133,7 +153,7 @@ TEST(Misc, SetTimezoneConfig) {
   ASSERT_OK_AND_ASSIGN(auto tempdir, arrow::internal::TemporaryDir::Make("tzdata"));
 
   // Validate that setting tzdb to that dir fails
-  arrow::GlobalOptions options = {util::make_optional(tempdir->path().ToString())};
+  arrow::GlobalOptions options = {std::make_optional(tempdir->path().ToString())};
   ASSERT_NOT_OK(arrow::Initialize(options));
 
   // Copy tzdb data from ~/Downloads
diff --git a/cpp/src/arrow/python/ArrowPythonFlightConfig.cmake.in b/cpp/src/arrow/python/ArrowPythonFlightConfig.cmake.in
deleted file mode 100644
index 5dc9deec560..00000000000
--- a/cpp/src/arrow/python/ArrowPythonFlightConfig.cmake.in
+++ /dev/null
@@ -1,37 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-#
-# This config sets the following variables in your project::
-#
-#   ArrowPythonFlight_FOUND - true if Arrow Python Flight found on the system
-#
-# This config sets the following targets in your project::
-#
-#   arrow_python_flight_shared - for linked as shared library if shared library is built
-#   arrow_python_flight_static - for linked as static library if static library is built
-
-@PACKAGE_INIT@
-
-include(CMakeFindDependencyMacro)
-find_dependency(ArrowFlight)
-find_dependency(ArrowPython)
-
-# Load targets only once. If we load targets multiple times, CMake reports
-# already existent target error.
-if(NOT (TARGET arrow_python_flight_shared OR TARGET arrow_python_flight_static))
-  include("${CMAKE_CURRENT_LIST_DIR}/ArrowPythonFlightTargets.cmake")
-endif()
diff --git a/cpp/src/arrow/python/CMakeLists.txt b/cpp/src/arrow/python/CMakeLists.txt
deleted file mode 100644
index c37240a426c..00000000000
--- a/cpp/src/arrow/python/CMakeLists.txt
+++ /dev/null
@@ -1,208 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-#
-# arrow_python
-#
-
-find_package(Python3Alt 3.7 REQUIRED)
-
-add_custom_target(arrow_python-all)
-add_custom_target(arrow_python)
-add_custom_target(arrow_python-tests)
-add_dependencies(arrow_python-all arrow_python arrow_python-tests)
-
-set(ARROW_PYTHON_SRCS
-    arrow_to_pandas.cc
-    benchmark.cc
-    common.cc
-    datetime.cc
-    decimal.cc
-    deserialize.cc
-    extension_type.cc
-    gdb.cc
-    helpers.cc
-    inference.cc
-    init.cc
-    io.cc
-    ipc.cc
-    numpy_convert.cc
-    numpy_to_arrow.cc
-    python_to_arrow.cc
-    pyarrow.cc
-    serialize.cc
-    udf.cc)
-
-set_source_files_properties(init.cc PROPERTIES SKIP_PRECOMPILE_HEADERS ON
-                                               SKIP_UNITY_BUILD_INCLUSION ON)
-
-if(ARROW_CSV)
-  list(APPEND ARROW_PYTHON_SRCS csv.cc)
-endif()
-
-if(ARROW_FILESYSTEM)
-  list(APPEND ARROW_PYTHON_SRCS filesystem.cc)
-endif()
-
-if(PARQUET_REQUIRE_ENCRYPTION)
-  list(APPEND ARROW_PYTHON_SRCS parquet_encryption.cc)
-endif()
-
-set(ARROW_PYTHON_DEPENDENCIES arrow_dependencies)
-
-if(CMAKE_CXX_COMPILER_ID STREQUAL "AppleClang" OR CMAKE_CXX_COMPILER_ID STREQUAL "Clang")
-  set_property(SOURCE pyarrow.cc
-               APPEND_STRING
-               PROPERTY COMPILE_FLAGS " -Wno-cast-qual ")
-endif()
-
-set(ARROW_PYTHON_SHARED_LINK_LIBS arrow_shared)
-set(ARROW_PYTHON_SHARED_PRIVATE_LINK_LIBS)
-set(ARROW_PYTHON_STATIC_LINK_LIBS ${PYTHON_OTHER_LIBS})
-
-if(WIN32)
-  list(APPEND ARROW_PYTHON_SHARED_LINK_LIBS ${PYTHON_LIBRARIES} ${PYTHON_OTHER_LIBS})
-endif()
-if(PARQUET_REQUIRE_ENCRYPTION)
-  list(APPEND ARROW_PYTHON_SHARED_LINK_LIBS parquet_shared)
-endif()
-if(ARROW_USE_XSIMD)
-  list(APPEND ARROW_PYTHON_SHARED_PRIVATE_LINK_LIBS xsimd)
-  list(APPEND ARROW_PYTHON_STATIC_LINK_LIBS xsimd)
-endif()
-
-set(ARROW_PYTHON_INCLUDES ${NUMPY_INCLUDE_DIRS} ${PYTHON_INCLUDE_DIRS})
-
-add_arrow_lib(arrow_python
-              CMAKE_PACKAGE_NAME
-              ArrowPython
-              PKG_CONFIG_NAME
-              arrow-python
-              SOURCES
-              ${ARROW_PYTHON_SRCS}
-              PRECOMPILED_HEADERS
-              "$<$<COMPILE_LANGUAGE:CXX>:arrow/python/pch.h>"
-              OUTPUTS
-              ARROW_PYTHON_LIBRARIES
-              DEPENDENCIES
-              ${ARROW_PYTHON_DEPENDENCIES}
-              SHARED_LINK_FLAGS
-              ${ARROW_VERSION_SCRIPT_FLAGS} # Defined in cpp/arrow/CMakeLists.txt
-              SHARED_LINK_LIBS
-              ${ARROW_PYTHON_SHARED_LINK_LIBS}
-              SHARED_PRIVATE_LINK_LIBS
-              ${ARROW_PYTHON_SHARED_PRIVATE_LINK_LIBS}
-              STATIC_LINK_LIBS
-              ${ARROW_PYTHON_STATIC_LINK_LIBS}
-              EXTRA_INCLUDES
-              "${ARROW_PYTHON_INCLUDES}")
-
-add_dependencies(arrow_python ${ARROW_PYTHON_LIBRARIES})
-
-foreach(LIB_TARGET ${ARROW_PYTHON_LIBRARIES})
-  target_compile_definitions(${LIB_TARGET} PRIVATE ARROW_PYTHON_EXPORTING)
-endforeach()
-
-if(ARROW_BUILD_STATIC AND MSVC)
-  target_compile_definitions(arrow_python_static PUBLIC ARROW_STATIC)
-endif()
-
-if(ARROW_FLIGHT AND ARROW_BUILD_SHARED)
-  # Must link to shared libarrow_flight: we don't want to link more than one
-  # copy of gRPC into the eventual Cython shared object, otherwise gRPC calls
-  # fail with weird errors due to multiple copies of global static state (The
-  # other solution is to link gRPC shared everywhere instead of statically only
-  # in Flight)
-  add_arrow_lib(arrow_python_flight
-                CMAKE_PACKAGE_NAME
-                ArrowPythonFlight
-                PKG_CONFIG_NAME
-                arrow-python-flight
-                SOURCES
-                flight.cc
-                OUTPUTS
-                ARROW_PYFLIGHT_LIBRARIES
-                DEPENDENCIES
-                flight_grpc_gen
-                SHARED_LINK_FLAGS
-                ${ARROW_VERSION_SCRIPT_FLAGS} # Defined in cpp/arrow/CMakeLists.txt
-                SHARED_LINK_LIBS
-                arrow_python_shared
-                arrow_flight_shared
-                STATIC_LINK_LIBS
-                ${PYTHON_OTHER_LIBS}
-                EXTRA_INCLUDES
-                "${ARROW_PYTHON_INCLUDES}"
-                PRIVATE_INCLUDES
-                "${Protobuf_INCLUDE_DIRS}")
-
-  add_dependencies(arrow_python ${ARROW_PYFLIGHT_LIBRARIES})
-
-  foreach(LIB_TARGET ${ARROW_PYFLIGHT_LIBRARIES})
-    target_compile_definitions(${LIB_TARGET} PRIVATE ARROW_PYFLIGHT_EXPORTING)
-  endforeach()
-
-  if(ARROW_BUILD_STATIC AND MSVC)
-    target_compile_definitions(arrow_python_flight_static PUBLIC ARROW_STATIC)
-  endif()
-endif()
-
-if(CMAKE_CXX_COMPILER_ID STREQUAL "AppleClang" OR CMAKE_CXX_COMPILER_ID STREQUAL "Clang")
-  # Clang, be quiet. Python C API has lots of macros
-  set_property(SOURCE ${ARROW_PYTHON_SRCS}
-               APPEND_STRING
-               PROPERTY COMPILE_FLAGS -Wno-parentheses-equality)
-endif()
-
-arrow_install_all_headers("arrow/python")
-
-# ----------------------------------------------------------------------
-
-if(ARROW_BUILD_TESTS)
-  add_library(arrow_python_test_main STATIC util/test_main.cc)
-
-  target_link_libraries(arrow_python_test_main GTest::gtest)
-  target_include_directories(arrow_python_test_main SYSTEM
-                             PUBLIC ${ARROW_PYTHON_INCLUDES})
-
-  if(APPLE)
-    target_link_libraries(arrow_python_test_main ${CMAKE_DL_LIBS})
-    set_target_properties(arrow_python_test_main PROPERTIES LINK_FLAGS
-                                                            "-undefined dynamic_lookup")
-  elseif(NOT MSVC)
-    target_link_libraries(arrow_python_test_main pthread ${CMAKE_DL_LIBS})
-  endif()
-
-  if(ARROW_TEST_LINKAGE STREQUAL shared)
-    set(ARROW_PYTHON_TEST_LINK_LIBS arrow_python_test_main arrow_python_shared
-                                    arrow_testing_shared arrow_shared)
-  else()
-    set(ARROW_PYTHON_TEST_LINK_LIBS arrow_python_test_main arrow_python_static
-                                    arrow_testing_static arrow_static)
-  endif()
-
-  add_arrow_test(python_test
-                 STATIC_LINK_LIBS
-                 "${ARROW_PYTHON_TEST_LINK_LIBS}"
-                 EXTRA_LINK_LIBS
-                 ${PYTHON_LIBRARIES}
-                 EXTRA_INCLUDES
-                 "${ARROW_PYTHON_INCLUDES}"
-                 LABELS
-                 "arrow_python-tests"
-                 NO_VALGRIND)
-endif()
diff --git a/cpp/src/arrow/python/pyarrow_api.h b/cpp/src/arrow/python/pyarrow_api.h
deleted file mode 100644
index 94743120029..00000000000
--- a/cpp/src/arrow/python/pyarrow_api.h
+++ /dev/null
@@ -1,239 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-// DO NOT EDIT THIS FILE. Update from pyarrow/lib_api.h after pyarrow build
-// This is used to be able to call back into Cython code from C++.
-
-/* Generated by Cython 0.29.15 */
-
-#ifndef __PYX_HAVE_API__pyarrow__lib
-#define __PYX_HAVE_API__pyarrow__lib
-#ifdef __MINGW64__
-#define MS_WIN64
-#endif
-#include "Python.h"
-#include "pyarrow_lib.h"
-
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_scalar)(std::shared_ptr< arrow::Scalar>  const &) = 0;
-#define pyarrow_wrap_scalar __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_scalar
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_array)(std::shared_ptr< arrow::Array>  const &) = 0;
-#define pyarrow_wrap_array __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_array
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_chunked_array)(std::shared_ptr< arrow::ChunkedArray>  const &) = 0;
-#define pyarrow_wrap_chunked_array __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_chunked_array
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_batch)(std::shared_ptr< arrow::RecordBatch>  const &) = 0;
-#define pyarrow_wrap_batch __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_batch
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_buffer)(std::shared_ptr< arrow::Buffer>  const &) = 0;
-#define pyarrow_wrap_buffer __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_buffer
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_data_type)(std::shared_ptr< arrow::DataType>  const &) = 0;
-#define pyarrow_wrap_data_type __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_data_type
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_field)(std::shared_ptr< arrow::Field>  const &) = 0;
-#define pyarrow_wrap_field __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_field
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_resizable_buffer)(std::shared_ptr< arrow::ResizableBuffer>  const &) = 0;
-#define pyarrow_wrap_resizable_buffer __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_resizable_buffer
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_schema)(std::shared_ptr< arrow::Schema>  const &) = 0;
-#define pyarrow_wrap_schema __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_schema
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_table)(std::shared_ptr< arrow::Table>  const &) = 0;
-#define pyarrow_wrap_table __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_table
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_tensor)(std::shared_ptr< arrow::Tensor>  const &) = 0;
-#define pyarrow_wrap_tensor __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_tensor
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_sparse_coo_tensor)(std::shared_ptr< arrow::SparseCOOTensor>  const &) = 0;
-#define pyarrow_wrap_sparse_coo_tensor __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_sparse_coo_tensor
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_sparse_csr_matrix)(std::shared_ptr< arrow::SparseCSRMatrix>  const &) = 0;
-#define pyarrow_wrap_sparse_csr_matrix __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_sparse_csr_matrix
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_sparse_csc_matrix)(std::shared_ptr< arrow::SparseCSCMatrix>  const &) = 0;
-#define pyarrow_wrap_sparse_csc_matrix __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_sparse_csc_matrix
-static PyObject *(*__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_sparse_csf_tensor)(std::shared_ptr< arrow::SparseCSFTensor>  const &) = 0;
-#define pyarrow_wrap_sparse_csf_tensor __pyx_api_f_7pyarrow_3lib_pyarrow_wrap_sparse_csf_tensor
-static std::shared_ptr< arrow::Scalar>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_scalar)(PyObject *) = 0;
-#define pyarrow_unwrap_scalar __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_scalar
-static std::shared_ptr< arrow::Array>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_array)(PyObject *) = 0;
-#define pyarrow_unwrap_array __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_array
-static std::shared_ptr< arrow::ChunkedArray>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_chunked_array)(PyObject *) = 0;
-#define pyarrow_unwrap_chunked_array __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_chunked_array
-static std::shared_ptr< arrow::RecordBatch>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_batch)(PyObject *) = 0;
-#define pyarrow_unwrap_batch __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_batch
-static std::shared_ptr< arrow::Buffer>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_buffer)(PyObject *) = 0;
-#define pyarrow_unwrap_buffer __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_buffer
-static std::shared_ptr< arrow::DataType>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_data_type)(PyObject *) = 0;
-#define pyarrow_unwrap_data_type __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_data_type
-static std::shared_ptr< arrow::Field>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_field)(PyObject *) = 0;
-#define pyarrow_unwrap_field __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_field
-static std::shared_ptr< arrow::Schema>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_schema)(PyObject *) = 0;
-#define pyarrow_unwrap_schema __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_schema
-static std::shared_ptr< arrow::Table>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_table)(PyObject *) = 0;
-#define pyarrow_unwrap_table __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_table
-static std::shared_ptr< arrow::Tensor>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_tensor)(PyObject *) = 0;
-#define pyarrow_unwrap_tensor __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_tensor
-static std::shared_ptr< arrow::SparseCOOTensor>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_sparse_coo_tensor)(PyObject *) = 0;
-#define pyarrow_unwrap_sparse_coo_tensor __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_sparse_coo_tensor
-static std::shared_ptr< arrow::SparseCSRMatrix>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_sparse_csr_matrix)(PyObject *) = 0;
-#define pyarrow_unwrap_sparse_csr_matrix __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_sparse_csr_matrix
-static std::shared_ptr< arrow::SparseCSCMatrix>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_sparse_csc_matrix)(PyObject *) = 0;
-#define pyarrow_unwrap_sparse_csc_matrix __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_sparse_csc_matrix
-static std::shared_ptr< arrow::SparseCSFTensor>  (*__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_sparse_csf_tensor)(PyObject *) = 0;
-#define pyarrow_unwrap_sparse_csf_tensor __pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_sparse_csf_tensor
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_internal_check_status)(arrow::Status const &) = 0;
-#define pyarrow_internal_check_status __pyx_api_f_7pyarrow_3lib_pyarrow_internal_check_status
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_buffer)(PyObject *) = 0;
-#define pyarrow_is_buffer __pyx_api_f_7pyarrow_3lib_pyarrow_is_buffer
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_data_type)(PyObject *) = 0;
-#define pyarrow_is_data_type __pyx_api_f_7pyarrow_3lib_pyarrow_is_data_type
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_metadata)(PyObject *) = 0;
-#define pyarrow_is_metadata __pyx_api_f_7pyarrow_3lib_pyarrow_is_metadata
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_field)(PyObject *) = 0;
-#define pyarrow_is_field __pyx_api_f_7pyarrow_3lib_pyarrow_is_field
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_schema)(PyObject *) = 0;
-#define pyarrow_is_schema __pyx_api_f_7pyarrow_3lib_pyarrow_is_schema
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_array)(PyObject *) = 0;
-#define pyarrow_is_array __pyx_api_f_7pyarrow_3lib_pyarrow_is_array
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_chunked_array)(PyObject *) = 0;
-#define pyarrow_is_chunked_array __pyx_api_f_7pyarrow_3lib_pyarrow_is_chunked_array
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_scalar)(PyObject *) = 0;
-#define pyarrow_is_scalar __pyx_api_f_7pyarrow_3lib_pyarrow_is_scalar
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_tensor)(PyObject *) = 0;
-#define pyarrow_is_tensor __pyx_api_f_7pyarrow_3lib_pyarrow_is_tensor
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_sparse_coo_tensor)(PyObject *) = 0;
-#define pyarrow_is_sparse_coo_tensor __pyx_api_f_7pyarrow_3lib_pyarrow_is_sparse_coo_tensor
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_sparse_csr_matrix)(PyObject *) = 0;
-#define pyarrow_is_sparse_csr_matrix __pyx_api_f_7pyarrow_3lib_pyarrow_is_sparse_csr_matrix
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_sparse_csc_matrix)(PyObject *) = 0;
-#define pyarrow_is_sparse_csc_matrix __pyx_api_f_7pyarrow_3lib_pyarrow_is_sparse_csc_matrix
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_sparse_csf_tensor)(PyObject *) = 0;
-#define pyarrow_is_sparse_csf_tensor __pyx_api_f_7pyarrow_3lib_pyarrow_is_sparse_csf_tensor
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_table)(PyObject *) = 0;
-#define pyarrow_is_table __pyx_api_f_7pyarrow_3lib_pyarrow_is_table
-static int (*__pyx_api_f_7pyarrow_3lib_pyarrow_is_batch)(PyObject *) = 0;
-#define pyarrow_is_batch __pyx_api_f_7pyarrow_3lib_pyarrow_is_batch
-#if !defined(__Pyx_PyIdentifier_FromString)
-#if PY_MAJOR_VERSION < 3
-  #define __Pyx_PyIdentifier_FromString(s) PyString_FromString(s)
-#else
-  #define __Pyx_PyIdentifier_FromString(s) PyUnicode_FromString(s)
-#endif
-#endif
-
-#ifndef __PYX_HAVE_RT_ImportFunction
-#define __PYX_HAVE_RT_ImportFunction
-static int __Pyx_ImportFunction(PyObject *module, const char *funcname, void (**f)(void), const char *sig) {
-    PyObject *d = 0;
-    PyObject *cobj = 0;
-    union {
-        void (*fp)(void);
-        void *p;
-    } tmp;
-    d = PyObject_GetAttrString(module, (char *)"__pyx_capi__");
-    if (!d)
-        goto bad;
-    cobj = PyDict_GetItemString(d, funcname);
-    if (!cobj) {
-        PyErr_Format(PyExc_ImportError,
-            "%.200s does not export expected C function %.200s",
-                PyModule_GetName(module), funcname);
-        goto bad;
-    }
-#if PY_VERSION_HEX >= 0x02070000
-    if (!PyCapsule_IsValid(cobj, sig)) {
-        PyErr_Format(PyExc_TypeError,
-            "C function %.200s.%.200s has wrong signature (expected %.500s, got %.500s)",
-             PyModule_GetName(module), funcname, sig, PyCapsule_GetName(cobj));
-        goto bad;
-    }
-    tmp.p = PyCapsule_GetPointer(cobj, sig);
-#else
-    {const char *desc, *s1, *s2;
-    desc = (const char *)PyCObject_GetDesc(cobj);
-    if (!desc)
-        goto bad;
-    s1 = desc; s2 = sig;
-    while (*s1 != '\0' && *s1 == *s2) { s1++; s2++; }
-    if (*s1 != *s2) {
-        PyErr_Format(PyExc_TypeError,
-            "C function %.200s.%.200s has wrong signature (expected %.500s, got %.500s)",
-             PyModule_GetName(module), funcname, sig, desc);
-        goto bad;
-    }
-    tmp.p = PyCObject_AsVoidPtr(cobj);}
-#endif
-    *f = tmp.fp;
-    if (!(*f))
-        goto bad;
-    Py_DECREF(d);
-    return 0;
-bad:
-    Py_XDECREF(d);
-    return -1;
-}
-#endif
-
-
-static int import_pyarrow__lib(void) {
-  PyObject *module = 0;
-  module = PyImport_ImportModule("pyarrow.lib");
-  if (!module) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_scalar", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_scalar, "PyObject *(std::shared_ptr< arrow::Scalar>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_array", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_array, "PyObject *(std::shared_ptr< arrow::Array>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_chunked_array", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_chunked_array, "PyObject *(std::shared_ptr< arrow::ChunkedArray>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_batch", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_batch, "PyObject *(std::shared_ptr< arrow::RecordBatch>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_buffer", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_buffer, "PyObject *(std::shared_ptr< arrow::Buffer>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_data_type", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_data_type, "PyObject *(std::shared_ptr< arrow::DataType>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_field", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_field, "PyObject *(std::shared_ptr< arrow::Field>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_resizable_buffer", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_resizable_buffer, "PyObject *(std::shared_ptr< arrow::ResizableBuffer>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_schema", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_schema, "PyObject *(std::shared_ptr< arrow::Schema>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_table", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_table, "PyObject *(std::shared_ptr< arrow::Table>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_tensor", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_tensor, "PyObject *(std::shared_ptr< arrow::Tensor>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_sparse_coo_tensor", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_sparse_coo_tensor, "PyObject *(std::shared_ptr< arrow::SparseCOOTensor>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_sparse_csr_matrix", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_sparse_csr_matrix, "PyObject *(std::shared_ptr< arrow::SparseCSRMatrix>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_sparse_csc_matrix", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_sparse_csc_matrix, "PyObject *(std::shared_ptr< arrow::SparseCSCMatrix>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_wrap_sparse_csf_tensor", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_wrap_sparse_csf_tensor, "PyObject *(std::shared_ptr< arrow::SparseCSFTensor>  const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_scalar", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_scalar, "std::shared_ptr< arrow::Scalar>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_array", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_array, "std::shared_ptr< arrow::Array>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_chunked_array", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_chunked_array, "std::shared_ptr< arrow::ChunkedArray>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_batch", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_batch, "std::shared_ptr< arrow::RecordBatch>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_buffer", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_buffer, "std::shared_ptr< arrow::Buffer>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_data_type", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_data_type, "std::shared_ptr< arrow::DataType>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_field", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_field, "std::shared_ptr< arrow::Field>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_schema", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_schema, "std::shared_ptr< arrow::Schema>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_table", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_table, "std::shared_ptr< arrow::Table>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_tensor", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_tensor, "std::shared_ptr< arrow::Tensor>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_sparse_coo_tensor", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_sparse_coo_tensor, "std::shared_ptr< arrow::SparseCOOTensor>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_sparse_csr_matrix", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_sparse_csr_matrix, "std::shared_ptr< arrow::SparseCSRMatrix>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_sparse_csc_matrix", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_sparse_csc_matrix, "std::shared_ptr< arrow::SparseCSCMatrix>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_unwrap_sparse_csf_tensor", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_unwrap_sparse_csf_tensor, "std::shared_ptr< arrow::SparseCSFTensor>  (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_internal_check_status", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_internal_check_status, "int (arrow::Status const &)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_buffer", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_buffer, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_data_type", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_data_type, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_metadata", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_metadata, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_field", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_field, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_schema", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_schema, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_array", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_array, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_chunked_array", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_chunked_array, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_scalar", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_scalar, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_tensor", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_tensor, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_sparse_coo_tensor", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_sparse_coo_tensor, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_sparse_csr_matrix", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_sparse_csr_matrix, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_sparse_csc_matrix", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_sparse_csc_matrix, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_sparse_csf_tensor", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_sparse_csf_tensor, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_table", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_table, "int (PyObject *)") < 0) goto bad;
-  if (__Pyx_ImportFunction(module, "pyarrow_is_batch", (void (**)(void))&__pyx_api_f_7pyarrow_3lib_pyarrow_is_batch, "int (PyObject *)") < 0) goto bad;
-  Py_DECREF(module); module = 0;
-  return 0;
-  bad:
-  Py_XDECREF(module);
-  return -1;
-}
-
-#endif /* !__PYX_HAVE_API__pyarrow__lib */
diff --git a/cpp/src/arrow/python/pyarrow_lib.h b/cpp/src/arrow/python/pyarrow_lib.h
deleted file mode 100644
index fa59414474b..00000000000
--- a/cpp/src/arrow/python/pyarrow_lib.h
+++ /dev/null
@@ -1,82 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-// DO NOT EDIT THIS FILE. Update from pyarrow/lib.h after pyarrow build
-
-/* Generated by Cython 0.29.15 */
-
-#ifndef __PYX_HAVE__pyarrow__lib
-#define __PYX_HAVE__pyarrow__lib
-
-#include "Python.h"
-
-#ifndef __PYX_HAVE_API__pyarrow__lib
-
-#ifndef __PYX_EXTERN_C
-  #ifdef __cplusplus
-    #define __PYX_EXTERN_C extern "C"
-  #else
-    #define __PYX_EXTERN_C extern
-  #endif
-#endif
-
-#ifndef DL_IMPORT
-  #define DL_IMPORT(_T) _T
-#endif
-
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_scalar(std::shared_ptr< arrow::Scalar>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_array(std::shared_ptr< arrow::Array>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_chunked_array(std::shared_ptr< arrow::ChunkedArray>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_batch(std::shared_ptr< arrow::RecordBatch>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_buffer(std::shared_ptr< arrow::Buffer>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_data_type(std::shared_ptr< arrow::DataType>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_field(std::shared_ptr< arrow::Field>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_resizable_buffer(std::shared_ptr< arrow::ResizableBuffer>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_schema(std::shared_ptr< arrow::Schema>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_table(std::shared_ptr< arrow::Table>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_tensor(std::shared_ptr< arrow::Tensor>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_sparse_coo_tensor(std::shared_ptr< arrow::SparseCOOTensor>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_sparse_csr_matrix(std::shared_ptr< arrow::SparseCSRMatrix>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_sparse_csc_matrix(std::shared_ptr< arrow::SparseCSCMatrix>  const &);
-__PYX_EXTERN_C PyObject *__pyx_f_7pyarrow_3lib_pyarrow_wrap_sparse_csf_tensor(std::shared_ptr< arrow::SparseCSFTensor>  const &);
-__PYX_EXTERN_C std::shared_ptr< arrow::Scalar>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_scalar(PyObject *);
-__PYX_EXTERN_C std::shared_ptr< arrow::Array>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_array(PyObject *);
-__PYX_EXTERN_C std::shared_ptr< arrow::ChunkedArray>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_chunked_array(PyObject *);
-__PYX_EXTERN_C std::shared_ptr< arrow::RecordBatch>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_batch(PyObject *);
-__PYX_EXTERN_C std::shared_ptr< arrow::Buffer>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_buffer(PyObject *);
-__PYX_EXTERN_C std::shared_ptr< arrow::DataType>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_data_type(PyObject *);
-__PYX_EXTERN_C std::shared_ptr< arrow::Field>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_field(PyObject *);
-__PYX_EXTERN_C std::shared_ptr< arrow::Schema>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_schema(PyObject *);
-__PYX_EXTERN_C std::shared_ptr< arrow::Table>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_table(PyObject *);
-__PYX_EXTERN_C std::shared_ptr< arrow::Tensor>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_tensor(PyObject *);
-__PYX_EXTERN_C std::shared_ptr< arrow::SparseCOOTensor>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_sparse_coo_tensor(PyObject *);
-__PYX_EXTERN_C std::shared_ptr< arrow::SparseCSRMatrix>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_sparse_csr_matrix(PyObject *);
-__PYX_EXTERN_C std::shared_ptr< arrow::SparseCSCMatrix>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_sparse_csc_matrix(PyObject *);
-__PYX_EXTERN_C std::shared_ptr< arrow::SparseCSFTensor>  __pyx_f_7pyarrow_3lib_pyarrow_unwrap_sparse_csf_tensor(PyObject *);
-
-#endif /* !__PYX_HAVE_API__pyarrow__lib */
-
-/* WARNING: the interface of the module init function changed in CPython 3.5. */
-/* It now returns a PyModuleDef instance instead of a PyModule instance. */
-
-#if PY_MAJOR_VERSION < 3
-PyMODINIT_FUNC initlib(void);
-#else
-PyMODINIT_FUNC PyInit_lib(void);
-#endif
-
-#endif /* !__PYX_HAVE__pyarrow__lib */
diff --git a/cpp/src/arrow/python/python_test.cc b/cpp/src/arrow/python/python_test.cc
deleted file mode 100644
index c465fabc680..00000000000
--- a/cpp/src/arrow/python/python_test.cc
+++ /dev/null
@@ -1,599 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-#include "gtest/gtest.h"
-
-#include <memory>
-#include <sstream>
-#include <string>
-
-#include "arrow/python/platform.h"
-
-#include "arrow/array.h"
-#include "arrow/array/builder_binary.h"
-#include "arrow/table.h"
-#include "arrow/testing/gtest_util.h"
-#include "arrow/util/decimal.h"
-#include "arrow/util/optional.h"
-
-#include "arrow/python/arrow_to_pandas.h"
-#include "arrow/python/decimal.h"
-#include "arrow/python/helpers.h"
-#include "arrow/python/numpy_convert.h"
-#include "arrow/python/numpy_interop.h"
-#include "arrow/python/python_to_arrow.h"
-#include "arrow/util/checked_cast.h"
-#include "arrow/util/logging.h"
-
-namespace arrow {
-
-using internal::checked_cast;
-
-namespace py {
-
-TEST(OwnedRef, TestMoves) {
-  std::vector<OwnedRef> vec;
-  PyObject *u, *v;
-  u = PyList_New(0);
-  v = PyList_New(0);
-
-  {
-    OwnedRef ref(u);
-    vec.push_back(std::move(ref));
-    ASSERT_EQ(ref.obj(), nullptr);
-  }
-  vec.emplace_back(v);
-  ASSERT_EQ(Py_REFCNT(u), 1);
-  ASSERT_EQ(Py_REFCNT(v), 1);
-}
-
-TEST(OwnedRefNoGIL, TestMoves) {
-  PyAcquireGIL lock;
-  lock.release();
-
-  {
-    std::vector<OwnedRef> vec;
-    PyObject *u, *v;
-    {
-      lock.acquire();
-      u = PyList_New(0);
-      v = PyList_New(0);
-      lock.release();
-    }
-    {
-      OwnedRefNoGIL ref(u);
-      vec.push_back(std::move(ref));
-      ASSERT_EQ(ref.obj(), nullptr);
-    }
-    vec.emplace_back(v);
-    ASSERT_EQ(Py_REFCNT(u), 1);
-    ASSERT_EQ(Py_REFCNT(v), 1);
-  }
-}
-
-std::string FormatPythonException(const std::string& exc_class_name) {
-  std::stringstream ss;
-  ss << "Python exception: ";
-  ss << exc_class_name;
-  return ss.str();
-}
-
-TEST(CheckPyError, TestStatus) {
-  Status st;
-
-  auto check_error = [](Status& st, const char* expected_message = "some error",
-                        std::string expected_detail = "") {
-    st = CheckPyError();
-    ASSERT_EQ(st.message(), expected_message);
-    ASSERT_FALSE(PyErr_Occurred());
-    if (expected_detail.size() > 0) {
-      auto detail = st.detail();
-      ASSERT_NE(detail, nullptr);
-      ASSERT_EQ(detail->ToString(), expected_detail);
-    }
-  };
-
-  for (PyObject* exc_type : {PyExc_Exception, PyExc_SyntaxError}) {
-    PyErr_SetString(exc_type, "some error");
-    check_error(st);
-    ASSERT_TRUE(st.IsUnknownError());
-  }
-
-  PyErr_SetString(PyExc_TypeError, "some error");
-  check_error(st, "some error", FormatPythonException("TypeError"));
-  ASSERT_TRUE(st.IsTypeError());
-
-  PyErr_SetString(PyExc_ValueError, "some error");
-  check_error(st);
-  ASSERT_TRUE(st.IsInvalid());
-
-  PyErr_SetString(PyExc_KeyError, "some error");
-  check_error(st, "'some error'");
-  ASSERT_TRUE(st.IsKeyError());
-
-  for (PyObject* exc_type : {PyExc_OSError, PyExc_IOError}) {
-    PyErr_SetString(exc_type, "some error");
-    check_error(st);
-    ASSERT_TRUE(st.IsIOError());
-  }
-
-  PyErr_SetString(PyExc_NotImplementedError, "some error");
-  check_error(st, "some error", FormatPythonException("NotImplementedError"));
-  ASSERT_TRUE(st.IsNotImplemented());
-
-  // No override if a specific status code is given
-  PyErr_SetString(PyExc_TypeError, "some error");
-  st = CheckPyError(StatusCode::SerializationError);
-  ASSERT_TRUE(st.IsSerializationError());
-  ASSERT_EQ(st.message(), "some error");
-  ASSERT_FALSE(PyErr_Occurred());
-}
-
-TEST(CheckPyError, TestStatusNoGIL) {
-  PyAcquireGIL lock;
-  {
-    Status st;
-    PyErr_SetString(PyExc_ZeroDivisionError, "zzzt");
-    st = ConvertPyError();
-    ASSERT_FALSE(PyErr_Occurred());
-    lock.release();
-    ASSERT_TRUE(st.IsUnknownError());
-    ASSERT_EQ(st.message(), "zzzt");
-    ASSERT_EQ(st.detail()->ToString(), FormatPythonException("ZeroDivisionError"));
-  }
-}
-
-TEST(RestorePyError, Basics) {
-  PyErr_SetString(PyExc_ZeroDivisionError, "zzzt");
-  auto st = ConvertPyError();
-  ASSERT_FALSE(PyErr_Occurred());
-  ASSERT_TRUE(st.IsUnknownError());
-  ASSERT_EQ(st.message(), "zzzt");
-  ASSERT_EQ(st.detail()->ToString(), FormatPythonException("ZeroDivisionError"));
-
-  RestorePyError(st);
-  ASSERT_TRUE(PyErr_Occurred());
-  PyObject* exc_type;
-  PyObject* exc_value;
-  PyObject* exc_traceback;
-  PyErr_Fetch(&exc_type, &exc_value, &exc_traceback);
-  ASSERT_TRUE(PyErr_GivenExceptionMatches(exc_type, PyExc_ZeroDivisionError));
-  std::string py_message;
-  ASSERT_OK(internal::PyObject_StdStringStr(exc_value, &py_message));
-  ASSERT_EQ(py_message, "zzzt");
-}
-
-TEST(PyBuffer, InvalidInputObject) {
-  std::shared_ptr<Buffer> res;
-  PyObject* input = Py_None;
-  auto old_refcnt = Py_REFCNT(input);
-  {
-    Status st = PyBuffer::FromPyObject(input).status();
-    ASSERT_TRUE(IsPyError(st)) << st.ToString();
-    ASSERT_FALSE(PyErr_Occurred());
-  }
-  ASSERT_EQ(old_refcnt, Py_REFCNT(input));
-}
-
-// Because of how it is declared, the Numpy C API instance initialized
-// within libarrow_python.dll may not be visible in this test under Windows
-// ("unresolved external symbol arrow_ARRAY_API referenced").
-#ifndef _WIN32
-TEST(PyBuffer, NumpyArray) {
-  const npy_intp dims[1] = {10};
-
-  OwnedRef arr_ref(PyArray_SimpleNew(1, dims, NPY_FLOAT));
-  PyObject* arr = arr_ref.obj();
-  ASSERT_NE(arr, nullptr);
-  auto old_refcnt = Py_REFCNT(arr);
-
-  ASSERT_OK_AND_ASSIGN(auto buf, PyBuffer::FromPyObject(arr));
-  ASSERT_TRUE(buf->is_cpu());
-  ASSERT_EQ(buf->data(), PyArray_DATA(reinterpret_cast<PyArrayObject*>(arr)));
-  ASSERT_TRUE(buf->is_mutable());
-  ASSERT_EQ(buf->mutable_data(), buf->data());
-  ASSERT_EQ(old_refcnt + 1, Py_REFCNT(arr));
-  buf.reset();
-  ASSERT_EQ(old_refcnt, Py_REFCNT(arr));
-
-  // Read-only
-  PyArray_CLEARFLAGS(reinterpret_cast<PyArrayObject*>(arr), NPY_ARRAY_WRITEABLE);
-  ASSERT_OK_AND_ASSIGN(buf, PyBuffer::FromPyObject(arr));
-  ASSERT_TRUE(buf->is_cpu());
-  ASSERT_EQ(buf->data(), PyArray_DATA(reinterpret_cast<PyArrayObject*>(arr)));
-  ASSERT_FALSE(buf->is_mutable());
-  ASSERT_EQ(old_refcnt + 1, Py_REFCNT(arr));
-  buf.reset();
-  ASSERT_EQ(old_refcnt, Py_REFCNT(arr));
-}
-
-TEST(NumPyBuffer, NumpyArray) {
-  npy_intp dims[1] = {10};
-
-  OwnedRef arr_ref(PyArray_SimpleNew(1, dims, NPY_FLOAT));
-  PyObject* arr = arr_ref.obj();
-  ASSERT_NE(arr, nullptr);
-  auto old_refcnt = Py_REFCNT(arr);
-
-  auto buf = std::make_shared<NumPyBuffer>(arr);
-  ASSERT_TRUE(buf->is_cpu());
-  ASSERT_EQ(buf->data(), PyArray_DATA(reinterpret_cast<PyArrayObject*>(arr)));
-  ASSERT_TRUE(buf->is_mutable());
-  ASSERT_EQ(buf->mutable_data(), buf->data());
-  ASSERT_EQ(old_refcnt + 1, Py_REFCNT(arr));
-  buf.reset();
-  ASSERT_EQ(old_refcnt, Py_REFCNT(arr));
-
-  // Read-only
-  PyArray_CLEARFLAGS(reinterpret_cast<PyArrayObject*>(arr), NPY_ARRAY_WRITEABLE);
-  buf = std::make_shared<NumPyBuffer>(arr);
-  ASSERT_TRUE(buf->is_cpu());
-  ASSERT_EQ(buf->data(), PyArray_DATA(reinterpret_cast<PyArrayObject*>(arr)));
-  ASSERT_FALSE(buf->is_mutable());
-  ASSERT_EQ(old_refcnt + 1, Py_REFCNT(arr));
-  buf.reset();
-  ASSERT_EQ(old_refcnt, Py_REFCNT(arr));
-}
-#endif
-
-class DecimalTest : public ::testing::Test {
- public:
-  DecimalTest() : lock_(), decimal_constructor_() {
-    OwnedRef decimal_module;
-
-    Status status = internal::ImportModule("decimal", &decimal_module);
-    ARROW_CHECK_OK(status);
-
-    status = internal::ImportFromModule(decimal_module.obj(), "Decimal",
-                                        &decimal_constructor_);
-    ARROW_CHECK_OK(status);
-  }
-
-  OwnedRef CreatePythonDecimal(const std::string& string_value) {
-    OwnedRef ref(internal::DecimalFromString(decimal_constructor_.obj(), string_value));
-    return ref;
-  }
-
-  PyObject* decimal_constructor() const { return decimal_constructor_.obj(); }
-
- private:
-  PyAcquireGIL lock_;
-  OwnedRef decimal_constructor_;
-};
-
-TEST_F(DecimalTest, TestPythonDecimalToString) {
-  std::string decimal_string("-39402950693754869342983");
-
-  OwnedRef python_object(this->CreatePythonDecimal(decimal_string));
-  ASSERT_NE(python_object.obj(), nullptr);
-
-  std::string string_result;
-  ASSERT_OK(internal::PythonDecimalToString(python_object.obj(), &string_result));
-}
-
-TEST_F(DecimalTest, TestInferPrecisionAndScale) {
-  std::string decimal_string("-394029506937548693.42983");
-  OwnedRef python_decimal(this->CreatePythonDecimal(decimal_string));
-
-  internal::DecimalMetadata metadata;
-  ASSERT_OK(metadata.Update(python_decimal.obj()));
-
-  const auto expected_precision =
-      static_cast<int32_t>(decimal_string.size() - 2);  // 1 for -, 1 for .
-  const int32_t expected_scale = 5;
-
-  ASSERT_EQ(expected_precision, metadata.precision());
-  ASSERT_EQ(expected_scale, metadata.scale());
-}
-
-TEST_F(DecimalTest, TestInferPrecisionAndNegativeScale) {
-  std::string decimal_string("-3.94042983E+10");
-  OwnedRef python_decimal(this->CreatePythonDecimal(decimal_string));
-
-  internal::DecimalMetadata metadata;
-  ASSERT_OK(metadata.Update(python_decimal.obj()));
-
-  const auto expected_precision = 11;
-  const int32_t expected_scale = 0;
-
-  ASSERT_EQ(expected_precision, metadata.precision());
-  ASSERT_EQ(expected_scale, metadata.scale());
-}
-
-TEST_F(DecimalTest, TestInferAllLeadingZeros) {
-  std::string decimal_string("0.001");
-  OwnedRef python_decimal(this->CreatePythonDecimal(decimal_string));
-
-  internal::DecimalMetadata metadata;
-  ASSERT_OK(metadata.Update(python_decimal.obj()));
-  ASSERT_EQ(3, metadata.precision());
-  ASSERT_EQ(3, metadata.scale());
-}
-
-TEST_F(DecimalTest, TestInferAllLeadingZerosExponentialNotationPositive) {
-  std::string decimal_string("0.01E5");
-  OwnedRef python_decimal(this->CreatePythonDecimal(decimal_string));
-  internal::DecimalMetadata metadata;
-  ASSERT_OK(metadata.Update(python_decimal.obj()));
-  ASSERT_EQ(4, metadata.precision());
-  ASSERT_EQ(0, metadata.scale());
-}
-
-TEST_F(DecimalTest, TestInferAllLeadingZerosExponentialNotationNegative) {
-  std::string decimal_string("0.01E3");
-  OwnedRef python_decimal(this->CreatePythonDecimal(decimal_string));
-  internal::DecimalMetadata metadata;
-  ASSERT_OK(metadata.Update(python_decimal.obj()));
-  ASSERT_EQ(2, metadata.precision());
-  ASSERT_EQ(0, metadata.scale());
-}
-
-TEST(PandasConversionTest, TestObjectBlockWriteFails) {
-  StringBuilder builder;
-  const char value[] = {'\xf1', '\0'};
-
-  for (int i = 0; i < 1000; ++i) {
-    ASSERT_OK(builder.Append(value, static_cast<int32_t>(strlen(value))));
-  }
-
-  std::shared_ptr<Array> arr;
-  ASSERT_OK(builder.Finish(&arr));
-
-  auto f1 = field("f1", utf8());
-  auto f2 = field("f2", utf8());
-  auto f3 = field("f3", utf8());
-  std::vector<std::shared_ptr<Field>> fields = {f1, f2, f3};
-  std::vector<std::shared_ptr<Array>> cols = {arr, arr, arr};
-
-  auto schema = ::arrow::schema(fields);
-  auto table = Table::Make(schema, cols);
-
-  Status st;
-  Py_BEGIN_ALLOW_THREADS;
-  PyObject* out;
-  PandasOptions options;
-  options.use_threads = true;
-  st = ConvertTableToPandas(options, table, &out);
-  Py_END_ALLOW_THREADS;
-  ASSERT_RAISES(UnknownError, st);
-}
-
-TEST(BuiltinConversionTest, TestMixedTypeFails) {
-  OwnedRef list_ref(PyList_New(3));
-  PyObject* list = list_ref.obj();
-
-  ASSERT_NE(list, nullptr);
-
-  PyObject* str = PyUnicode_FromString("abc");
-  ASSERT_NE(str, nullptr);
-
-  PyObject* integer = PyLong_FromLong(1234L);
-  ASSERT_NE(integer, nullptr);
-
-  PyObject* doub = PyFloat_FromDouble(123.0234);
-  ASSERT_NE(doub, nullptr);
-
-  // This steals a reference to each object, so we don't need to decref them later
-  // just the list
-  ASSERT_EQ(PyList_SetItem(list, 0, str), 0);
-  ASSERT_EQ(PyList_SetItem(list, 1, integer), 0);
-  ASSERT_EQ(PyList_SetItem(list, 2, doub), 0);
-
-  ASSERT_RAISES(TypeError, ConvertPySequence(list, nullptr, {}));
-}
-
-template <typename DecimalValue>
-void DecimalTestFromPythonDecimalRescale(std::shared_ptr<DataType> type,
-                                         OwnedRef python_decimal,
-                                         ::arrow::util::optional<int> expected) {
-  DecimalValue value;
-  const auto& decimal_type = checked_cast<const DecimalType&>(*type);
-
-  if (expected.has_value()) {
-    ASSERT_OK(
-        internal::DecimalFromPythonDecimal(python_decimal.obj(), decimal_type, &value));
-    ASSERT_EQ(expected.value(), value);
-
-    ASSERT_OK(internal::DecimalFromPyObject(python_decimal.obj(), decimal_type, &value));
-    ASSERT_EQ(expected.value(), value);
-  } else {
-    ASSERT_RAISES(Invalid, internal::DecimalFromPythonDecimal(python_decimal.obj(),
-                                                              decimal_type, &value));
-    ASSERT_RAISES(Invalid, internal::DecimalFromPyObject(python_decimal.obj(),
-                                                         decimal_type, &value));
-  }
-}
-
-TEST_F(DecimalTest, FromPythonDecimalRescaleNotTruncateable) {
-  // We fail when truncating values that would lose data if cast to a decimal type with
-  // lower scale
-  DecimalTestFromPythonDecimalRescale<Decimal128>(::arrow::decimal128(10, 2),
-                                                  this->CreatePythonDecimal("1.001"), {});
-  DecimalTestFromPythonDecimalRescale<Decimal256>(::arrow::decimal256(10, 2),
-                                                  this->CreatePythonDecimal("1.001"), {});
-}
-
-TEST_F(DecimalTest, FromPythonDecimalRescaleTruncateable) {
-  // We allow truncation of values that do not lose precision when dividing by 10 * the
-  // difference between the scales, e.g., 1.000 -> 1.00
-  DecimalTestFromPythonDecimalRescale<Decimal128>(
-      ::arrow::decimal128(10, 2), this->CreatePythonDecimal("1.000"), 100);
-  DecimalTestFromPythonDecimalRescale<Decimal256>(
-      ::arrow::decimal256(10, 2), this->CreatePythonDecimal("1.000"), 100);
-}
-
-TEST_F(DecimalTest, FromPythonNegativeDecimalRescale) {
-  DecimalTestFromPythonDecimalRescale<Decimal128>(
-      ::arrow::decimal128(10, 9), this->CreatePythonDecimal("-1.000"), -1000000000);
-  DecimalTestFromPythonDecimalRescale<Decimal256>(
-      ::arrow::decimal256(10, 9), this->CreatePythonDecimal("-1.000"), -1000000000);
-}
-
-TEST_F(DecimalTest, Decimal128FromPythonInteger) {
-  Decimal128 value;
-  OwnedRef python_long(PyLong_FromLong(42));
-  auto type = ::arrow::decimal128(10, 2);
-  const auto& decimal_type = checked_cast<const DecimalType&>(*type);
-  ASSERT_OK(internal::DecimalFromPyObject(python_long.obj(), decimal_type, &value));
-  ASSERT_EQ(4200, value);
-}
-
-TEST_F(DecimalTest, Decimal256FromPythonInteger) {
-  Decimal256 value;
-  OwnedRef python_long(PyLong_FromLong(42));
-  auto type = ::arrow::decimal256(10, 2);
-  const auto& decimal_type = checked_cast<const DecimalType&>(*type);
-  ASSERT_OK(internal::DecimalFromPyObject(python_long.obj(), decimal_type, &value));
-  ASSERT_EQ(4200, value);
-}
-
-TEST_F(DecimalTest, TestDecimal128OverflowFails) {
-  Decimal128 value;
-  OwnedRef python_decimal(
-      this->CreatePythonDecimal("9999999999999999999999999999999999999.9"));
-  internal::DecimalMetadata metadata;
-  ASSERT_OK(metadata.Update(python_decimal.obj()));
-  ASSERT_EQ(38, metadata.precision());
-  ASSERT_EQ(1, metadata.scale());
-
-  auto type = ::arrow::decimal(38, 38);
-  const auto& decimal_type = checked_cast<const DecimalType&>(*type);
-  ASSERT_RAISES(Invalid, internal::DecimalFromPythonDecimal(python_decimal.obj(),
-                                                            decimal_type, &value));
-}
-
-TEST_F(DecimalTest, TestDecimal256OverflowFails) {
-  Decimal256 value;
-  OwnedRef python_decimal(this->CreatePythonDecimal(
-      "999999999999999999999999999999999999999999999999999999999999999999999999999.9"));
-  internal::DecimalMetadata metadata;
-  ASSERT_OK(metadata.Update(python_decimal.obj()));
-  ASSERT_EQ(76, metadata.precision());
-  ASSERT_EQ(1, metadata.scale());
-
-  auto type = ::arrow::decimal(76, 76);
-  const auto& decimal_type = checked_cast<const DecimalType&>(*type);
-  ASSERT_RAISES(Invalid, internal::DecimalFromPythonDecimal(python_decimal.obj(),
-                                                            decimal_type, &value));
-}
-
-TEST_F(DecimalTest, TestNoneAndNaN) {
-  OwnedRef list_ref(PyList_New(4));
-  PyObject* list = list_ref.obj();
-
-  ASSERT_NE(list, nullptr);
-
-  PyObject* constructor = this->decimal_constructor();
-  PyObject* decimal_value = internal::DecimalFromString(constructor, "1.234");
-  ASSERT_NE(decimal_value, nullptr);
-
-  Py_INCREF(Py_None);
-  PyObject* missing_value1 = Py_None;
-  ASSERT_NE(missing_value1, nullptr);
-
-  PyObject* missing_value2 = PyFloat_FromDouble(NPY_NAN);
-  ASSERT_NE(missing_value2, nullptr);
-
-  PyObject* missing_value3 = internal::DecimalFromString(constructor, "nan");
-  ASSERT_NE(missing_value3, nullptr);
-
-  // This steals a reference to each object, so we don't need to decref them later,
-  // just the list
-  ASSERT_EQ(0, PyList_SetItem(list, 0, decimal_value));
-  ASSERT_EQ(0, PyList_SetItem(list, 1, missing_value1));
-  ASSERT_EQ(0, PyList_SetItem(list, 2, missing_value2));
-  ASSERT_EQ(0, PyList_SetItem(list, 3, missing_value3));
-
-  PyConversionOptions options;
-  ASSERT_RAISES(TypeError, ConvertPySequence(list, nullptr, options));
-
-  options.from_pandas = true;
-  ASSERT_OK_AND_ASSIGN(auto chunked, ConvertPySequence(list, nullptr, options));
-  ASSERT_EQ(chunked->num_chunks(), 1);
-
-  auto arr = chunked->chunk(0);
-  ASSERT_TRUE(arr->IsValid(0));
-  ASSERT_TRUE(arr->IsNull(1));
-  ASSERT_TRUE(arr->IsNull(2));
-  ASSERT_TRUE(arr->IsNull(3));
-}
-
-TEST_F(DecimalTest, TestMixedPrecisionAndScale) {
-  std::vector<std::string> strings{{"0.001", "1.01E5", "1.01E5"}};
-
-  OwnedRef list_ref(PyList_New(static_cast<Py_ssize_t>(strings.size())));
-  PyObject* list = list_ref.obj();
-
-  ASSERT_NE(list, nullptr);
-
-  // PyList_SetItem steals a reference to the item so we don't decref it later
-  PyObject* decimal_constructor = this->decimal_constructor();
-  for (Py_ssize_t i = 0; i < static_cast<Py_ssize_t>(strings.size()); ++i) {
-    const int result = PyList_SetItem(
-        list, i, internal::DecimalFromString(decimal_constructor, strings.at(i)));
-    ASSERT_EQ(0, result);
-  }
-
-  ASSERT_OK_AND_ASSIGN(auto arr, ConvertPySequence(list, nullptr, {}))
-  const auto& type = checked_cast<const DecimalType&>(*arr->type());
-
-  int32_t expected_precision = 9;
-  int32_t expected_scale = 3;
-  ASSERT_EQ(expected_precision, type.precision());
-  ASSERT_EQ(expected_scale, type.scale());
-}
-
-TEST_F(DecimalTest, TestMixedPrecisionAndScaleSequenceConvert) {
-  PyObject* value1 = this->CreatePythonDecimal("0.01").detach();
-  ASSERT_NE(value1, nullptr);
-
-  PyObject* value2 = this->CreatePythonDecimal("0.001").detach();
-  ASSERT_NE(value2, nullptr);
-
-  OwnedRef list_ref(PyList_New(2));
-  PyObject* list = list_ref.obj();
-
-  // This steals a reference to each object, so we don't need to decref them later
-  // just the list
-  ASSERT_EQ(PyList_SetItem(list, 0, value1), 0);
-  ASSERT_EQ(PyList_SetItem(list, 1, value2), 0);
-
-  ASSERT_OK_AND_ASSIGN(auto arr, ConvertPySequence(list, nullptr, {}));
-  const auto& type = checked_cast<const Decimal128Type&>(*arr->type());
-  ASSERT_EQ(3, type.precision());
-  ASSERT_EQ(3, type.scale());
-}
-
-TEST_F(DecimalTest, SimpleInference) {
-  OwnedRef value(this->CreatePythonDecimal("0.01"));
-  ASSERT_NE(value.obj(), nullptr);
-  internal::DecimalMetadata metadata;
-  ASSERT_OK(metadata.Update(value.obj()));
-  ASSERT_EQ(2, metadata.precision());
-  ASSERT_EQ(2, metadata.scale());
-}
-
-TEST_F(DecimalTest, UpdateWithNaN) {
-  internal::DecimalMetadata metadata;
-  OwnedRef nan_value(this->CreatePythonDecimal("nan"));
-  ASSERT_OK(metadata.Update(nan_value.obj()));
-  ASSERT_EQ(std::numeric_limits<int32_t>::min(), metadata.precision());
-  ASSERT_EQ(std::numeric_limits<int32_t>::min(), metadata.scale());
-}
-
-}  // namespace py
-}  // namespace arrow
diff --git a/cpp/src/arrow/record_batch.cc b/cpp/src/arrow/record_batch.cc
index 9001a57798c..28245c8f5de 100644
--- a/cpp/src/arrow/record_batch.cc
+++ b/cpp/src/arrow/record_batch.cc
@@ -30,7 +30,6 @@
 #include "arrow/status.h"
 #include "arrow/table.h"
 #include "arrow/type.h"
-#include "arrow/util/atomic_shared_ptr.h"
 #include "arrow/util/iterator.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/vector.h"
@@ -78,10 +77,10 @@ class SimpleRecordBatch : public RecordBatch {
   }
 
   std::shared_ptr<Array> column(int i) const override {
-    std::shared_ptr<Array> result = internal::atomic_load(&boxed_columns_[i]);
+    std::shared_ptr<Array> result = std::atomic_load(&boxed_columns_[i]);
     if (!result) {
       result = MakeArray(columns_[i]);
-      internal::atomic_store(&boxed_columns_[i], result);
+      std::atomic_store(&boxed_columns_[i], result);
     }
     return result;
   }
@@ -232,10 +231,8 @@ bool RecordBatch::Equals(const RecordBatch& other, bool check_metadata) const {
     return false;
   }
 
-  if (check_metadata) {
-    if (!schema_->Equals(*other.schema(), /*check_metadata=*/true)) {
-      return false;
-    }
+  if (!schema_->Equals(*other.schema(), check_metadata)) {
+    return false;
   }
 
   for (int i = 0; i < num_columns(); ++i) {
diff --git a/cpp/src/arrow/record_batch_test.cc b/cpp/src/arrow/record_batch_test.cc
index 83371c94e49..ed2f3e552e7 100644
--- a/cpp/src/arrow/record_batch_test.cc
+++ b/cpp/src/arrow/record_batch_test.cc
@@ -47,6 +47,7 @@ TEST_F(TestRecordBatch, Equals) {
   auto f0 = field("f0", int32());
   auto f1 = field("f1", uint8());
   auto f2 = field("f2", int16());
+  auto f2b = field("f2b", int16());
 
   auto metadata = key_value_metadata({"foo"}, {"bar"});
 
@@ -54,6 +55,7 @@ TEST_F(TestRecordBatch, Equals) {
   auto schema = ::arrow::schema({f0, f1, f2});
   auto schema2 = ::arrow::schema({f0, f1});
   auto schema3 = ::arrow::schema({f0, f1, f2}, metadata);
+  auto schema4 = ::arrow::schema({f0, f1, f2b});
 
   random::RandomArrayGenerator gen(42);
 
@@ -65,11 +67,15 @@ TEST_F(TestRecordBatch, Equals) {
   auto b2 = RecordBatch::Make(schema3, length, {a0, a1, a2});
   auto b3 = RecordBatch::Make(schema2, length, {a0, a1});
   auto b4 = RecordBatch::Make(schema, length, {a0, a1, a1});
+  auto b5 = RecordBatch::Make(schema4, length, {a0, a1, a2});
 
   ASSERT_TRUE(b1->Equals(*b1));
   ASSERT_FALSE(b1->Equals(*b3));
   ASSERT_FALSE(b1->Equals(*b4));
 
+  // Same values and types, but different field names
+  ASSERT_FALSE(b1->Equals(*b5));
+
   // Different metadata
   ASSERT_TRUE(b1->Equals(*b2));
   ASSERT_FALSE(b1->Equals(*b2, /*check_metadata=*/true));
diff --git a/cpp/src/arrow/result.h b/cpp/src/arrow/result.h
index 7fdbeea4b7f..30e632c7007 100644
--- a/cpp/src/arrow/result.h
+++ b/cpp/src/arrow/result.h
@@ -94,7 +94,7 @@ ARROW_EXPORT void InvalidValueOrDie(const Status& st);
 ///   arrow::Result<int> CalculateFoo();
 /// ```
 template <class T>
-class ARROW_MUST_USE_TYPE Result : public util::EqualityComparable<Result<T>> {
+class [[nodiscard]] Result : public util::EqualityComparable<Result<T>> {
   template <typename U>
   friend class Result;
 
@@ -420,11 +420,7 @@ class ARROW_MUST_USE_TYPE Result : public util::EqualityComparable<Result<T>> {
 
   constexpr const T& ValueUnsafe() const& { return *storage_.get(); }
 
-#if __cpp_constexpr >= 201304L  // non-const constexpr
   constexpr T& ValueUnsafe() & { return *storage_.get(); }
-#else
-  T& ValueUnsafe() & { return *storage_.get(); }
-#endif
 
   T ValueUnsafe() && { return MoveValueUnsafe(); }
 
diff --git a/cpp/src/arrow/scalar.cc b/cpp/src/arrow/scalar.cc
index 5ed92f09476..0ca08d7a82e 100644
--- a/cpp/src/arrow/scalar.cc
+++ b/cpp/src/arrow/scalar.cc
@@ -646,6 +646,15 @@ std::shared_ptr<DictionaryScalar> DictionaryScalar::Make(std::shared_ptr<Scalar>
                                             std::move(type), is_valid);
 }
 
+Result<TimestampScalar> TimestampScalar::FromISO8601(std::string_view iso8601,
+                                                     TimeUnit::type unit) {
+  ValueType value;
+  if (internal::ParseTimestampISO8601(iso8601.data(), iso8601.size(), unit, &value)) {
+    return TimestampScalar{value, timestamp(unit)};
+  }
+  return Status::Invalid("Couldn't parse ", iso8601, " as a timestamp");
+}
+
 SparseUnionScalar::SparseUnionScalar(ValueType value, int8_t type_code,
                                      std::shared_ptr<DataType> type)
     : UnionScalar(std::move(type), type_code, /*is_valid=*/true),
@@ -839,16 +848,16 @@ struct ScalarParseImpl {
     return std::move(out_);
   }
 
-  ScalarParseImpl(std::shared_ptr<DataType> type, util::string_view s)
+  ScalarParseImpl(std::shared_ptr<DataType> type, std::string_view s)
       : type_(std::move(type)), s_(s) {}
 
   std::shared_ptr<DataType> type_;
-  util::string_view s_;
+  std::string_view s_;
   std::shared_ptr<Scalar> out_;
 };
 
 Result<std::shared_ptr<Scalar>> Scalar::Parse(const std::shared_ptr<DataType>& type,
-                                              util::string_view s) {
+                                              std::string_view s) {
   return ScalarParseImpl{type, s}.Finish();
 }
 
@@ -871,9 +880,8 @@ std::shared_ptr<Buffer> FormatToBuffer(Formatter&& formatter, const ScalarType&
   if (!from.is_valid) {
     return Buffer::FromString("null");
   }
-  return formatter(from.value, [&](util::string_view v) {
-    return Buffer::FromString(std::string(v));
-  });
+  return formatter(
+      from.value, [&](std::string_view v) { return Buffer::FromString(std::string(v)); });
 }
 
 // error fallback
@@ -993,8 +1001,7 @@ Status CastImpl(const DateScalar<D>& from, TimestampScalar* to) {
 // string to any
 template <typename ScalarType>
 Status CastImpl(const StringScalar& from, ScalarType* to) {
-  ARROW_ASSIGN_OR_RAISE(auto out,
-                        Scalar::Parse(to->type, util::string_view(*from.value)));
+  ARROW_ASSIGN_OR_RAISE(auto out, Scalar::Parse(to->type, std::string_view(*from.value)));
   to->value = std::move(checked_cast<ScalarType&>(*out).value);
   return Status::OK();
 }
diff --git a/cpp/src/arrow/scalar.h b/cpp/src/arrow/scalar.h
index 22532041eca..cf852dff36d 100644
--- a/cpp/src/arrow/scalar.h
+++ b/cpp/src/arrow/scalar.h
@@ -22,7 +22,9 @@
 
 #include <iosfwd>
 #include <memory>
+#include <ratio>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
@@ -35,7 +37,6 @@
 #include "arrow/type_traits.h"
 #include "arrow/util/compare.h"
 #include "arrow/util/decimal.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 #include "arrow/visit_type_inline.h"
 
@@ -95,13 +96,11 @@ struct ARROW_EXPORT Scalar : public std::enable_shared_from_this<Scalar>,
   Status ValidateFull() const;
 
   static Result<std::shared_ptr<Scalar>> Parse(const std::shared_ptr<DataType>& type,
-                                               util::string_view repr);
+                                               std::string_view repr);
 
   // TODO(bkietz) add compute::CastOptions
   Result<std::shared_ptr<Scalar>> CastTo(std::shared_ptr<DataType> to) const;
 
-  ARROW_EXPORT friend void PrintTo(const Scalar& scalar, std::ostream* os);
-
   /// \brief Apply the ScalarVisitor::Visit() method specialized to the scalar type
   Status Accept(ScalarVisitor* visitor) const;
 
@@ -116,6 +115,8 @@ struct ARROW_EXPORT Scalar : public std::enable_shared_from_this<Scalar>,
       : type(std::move(type)), is_valid(is_valid) {}
 };
 
+ARROW_EXPORT void PrintTo(const Scalar& scalar, std::ostream* os);
+
 /// \defgroup concrete-scalar-classes Concrete Scalar subclasses
 ///
 /// @{
@@ -140,7 +141,7 @@ struct ARROW_EXPORT PrimitiveScalarBase : public Scalar {
   /// \brief Get a mutable pointer to the value of this scalar. May be null.
   virtual void* mutable_data() = 0;
   /// \brief Get an immutable view of the value of this scalar as bytes.
-  virtual util::string_view view() const = 0;
+  virtual std::string_view view() const = 0;
 };
 
 template <typename T, typename CType = typename T::c_type>
@@ -159,8 +160,8 @@ struct ARROW_EXPORT PrimitiveScalar : public PrimitiveScalarBase {
   ValueType value{};
 
   void* mutable_data() override { return &value; }
-  util::string_view view() const override {
-    return util::string_view(reinterpret_cast<const char*>(&value), sizeof(ValueType));
+  std::string_view view() const override {
+    return std::string_view(reinterpret_cast<const char*>(&value), sizeof(ValueType));
   };
 };
 
@@ -245,8 +246,8 @@ struct ARROW_EXPORT BaseBinaryScalar : public internal::PrimitiveScalarBase {
   void* mutable_data() override {
     return value ? reinterpret_cast<void*>(value->mutable_data()) : NULLPTR;
   }
-  util::string_view view() const override {
-    return value ? util::string_view(*value) : util::string_view();
+  std::string_view view() const override {
+    return value ? std::string_view(*value) : std::string_view();
   }
 
  protected:
@@ -323,7 +324,7 @@ struct ARROW_EXPORT FixedSizeBinaryScalar : public BinaryScalar {
 template <typename T>
 struct TemporalScalar : internal::PrimitiveScalar<T> {
   using internal::PrimitiveScalar<T>::PrimitiveScalar;
-  using ValueType = typename TemporalScalar<T>::ValueType;
+  using ValueType = typename internal::PrimitiveScalar<T>::ValueType;
 
   TemporalScalar(ValueType value, std::shared_ptr<DataType> type)
       : internal::PrimitiveScalar<T>(std::move(value), type) {}
@@ -369,6 +370,9 @@ struct ARROW_EXPORT TimestampScalar : public TemporalScalar<TimestampType> {
   TimestampScalar(typename TemporalScalar<TimestampType>::ValueType value,
                   TimeUnit::type unit, std::string tz = "")
       : TimestampScalar(std::move(value), timestamp(unit, std::move(tz))) {}
+
+  static Result<TimestampScalar> FromISO8601(std::string_view iso8601,
+                                             TimeUnit::type unit);
 };
 
 template <typename T>
@@ -400,6 +404,27 @@ struct ARROW_EXPORT DurationScalar : public TemporalScalar<DurationType> {
   DurationScalar(typename TemporalScalar<DurationType>::ValueType value,
                  TimeUnit::type unit)
       : DurationScalar(std::move(value), duration(unit)) {}
+
+  // Convenience constructors for a DurationScalar from std::chrono::nanoseconds
+  template <template <typename, typename> class StdDuration, typename Rep>
+  explicit DurationScalar(StdDuration<Rep, std::nano> d)
+      : DurationScalar{DurationScalar(d.count(), duration(TimeUnit::NANO))} {}
+
+  // Convenience constructors for a DurationScalar from std::chrono::microseconds
+  template <template <typename, typename> class StdDuration, typename Rep>
+  explicit DurationScalar(StdDuration<Rep, std::micro> d)
+      : DurationScalar{DurationScalar(d.count(), duration(TimeUnit::MICRO))} {}
+
+  // Convenience constructors for a DurationScalar from std::chrono::milliseconds
+  template <template <typename, typename> class StdDuration, typename Rep>
+  explicit DurationScalar(StdDuration<Rep, std::milli> d)
+      : DurationScalar{DurationScalar(d.count(), duration(TimeUnit::MILLI))} {}
+
+  // Convenience constructors for a DurationScalar from std::chrono::seconds
+  // or from units which are whole numbers of seconds
+  template <template <typename, typename> class StdDuration, typename Rep, intmax_t Num>
+  explicit DurationScalar(StdDuration<Rep, std::ratio<Num, 1>> d)
+      : DurationScalar{DurationScalar(d.count() * Num, duration(TimeUnit::SECOND))} {}
 };
 
 template <typename TYPE_CLASS, typename VALUE_TYPE>
@@ -415,9 +440,9 @@ struct ARROW_EXPORT DecimalScalar : public internal::PrimitiveScalarBase {
     return reinterpret_cast<void*>(value.mutable_native_endian_bytes());
   }
 
-  util::string_view view() const override {
-    return util::string_view(reinterpret_cast<const char*>(value.native_endian_bytes()),
-                             ValueType::kByteWidth);
+  std::string_view view() const override {
+    return std::string_view(reinterpret_cast<const char*>(value.native_endian_bytes()),
+                            ValueType::kByteWidth);
   }
 
   ValueType value;
@@ -561,7 +586,7 @@ struct ARROW_EXPORT DictionaryScalar : public internal::PrimitiveScalarBase {
     return internal::checked_cast<internal::PrimitiveScalarBase&>(*value.index)
         .mutable_data();
   }
-  util::string_view view() const override {
+  std::string_view view() const override {
     return internal::checked_cast<const internal::PrimitiveScalarBase&>(*value.index)
         .view();
   }
diff --git a/cpp/src/arrow/scalar_test.cc b/cpp/src/arrow/scalar_test.cc
index bf001fc6fd9..bf3c60e09e1 100644
--- a/cpp/src/arrow/scalar_test.cc
+++ b/cpp/src/arrow/scalar_test.cc
@@ -15,6 +15,7 @@
 // specific language governing permissions and limitations
 // under the License.
 
+#include <chrono>
 #include <limits>
 #include <memory>
 #include <ostream>
@@ -59,7 +60,7 @@ void AssertMakeScalar(const Scalar& expected, MakeScalarArgs&&... args) {
   AssertScalarsEqual(expected, *scalar, /*verbose=*/true);
 }
 
-void AssertParseScalar(const std::shared_ptr<DataType>& type, const util::string_view& s,
+void AssertParseScalar(const std::shared_ptr<DataType>& type, const std::string_view& s,
                        const Scalar& expected) {
   ASSERT_OK_AND_ASSIGN(auto scalar, Scalar::Parse(type, s));
   ASSERT_OK(scalar->Validate());
@@ -643,11 +644,11 @@ TEST(TestFixedSizeBinaryScalar, MakeScalar) {
 
   AssertMakeScalar(FixedSizeBinaryScalar(buf, type), type, buf);
 
-  AssertParseScalar(type, util::string_view(data), FixedSizeBinaryScalar(buf, type));
+  AssertParseScalar(type, std::string_view(data), FixedSizeBinaryScalar(buf, type));
 
   // Wrong length
   ASSERT_RAISES(Invalid, MakeScalar(type, Buffer::FromString(data.substr(3))).status());
-  ASSERT_RAISES(Invalid, Scalar::Parse(type, util::string_view(data).substr(3)).status());
+  ASSERT_RAISES(Invalid, Scalar::Parse(type, std::string_view(data).substr(3)).status());
 }
 
 TEST(TestFixedSizeBinaryScalar, ValidateErrors) {
@@ -831,7 +832,7 @@ TEST(TestTimestampScalars, MakeScalar) {
   auto type3 = timestamp(TimeUnit::MICRO);
   auto type4 = timestamp(TimeUnit::NANO);
 
-  util::string_view epoch_plus_1s = "1970-01-01 00:00:01";
+  std::string_view epoch_plus_1s = "1970-01-01 00:00:01";
 
   AssertMakeScalar(TimestampScalar(1, type1), type1, int64_t(1));
   AssertParseScalar(type1, epoch_plus_1s, TimestampScalar(1000, type1));
@@ -912,6 +913,30 @@ TEST(TestDurationScalars, Basics) {
     ASSERT_TRUE(first->Equals(MakeScalar(ty, 5).ValueOrDie()));
     ASSERT_TRUE(last->Equals(MakeScalar(ty, 42).ValueOrDie()));
   }
+
+  EXPECT_EQ(DurationScalar{std::chrono::nanoseconds{1235}},
+            DurationScalar(1235, TimeUnit::NANO));
+
+  EXPECT_EQ(DurationScalar{std::chrono::microseconds{58}},
+            DurationScalar(58, TimeUnit::MICRO));
+
+  EXPECT_EQ(DurationScalar{std::chrono::milliseconds{952}},
+            DurationScalar(952, TimeUnit::MILLI));
+
+  EXPECT_EQ(DurationScalar{std::chrono::seconds{625}},
+            DurationScalar(625, TimeUnit::SECOND));
+
+  EXPECT_EQ(DurationScalar{std::chrono::minutes{2}},
+            DurationScalar(120, TimeUnit::SECOND));
+
+  // finer than nanoseconds; we can't represent this without truncation
+  using picoseconds = std::chrono::duration<int64_t, std::pico>;
+  static_assert(!std::is_constructible_v<DurationScalar, picoseconds>);
+
+  // between seconds and milliseconds; we could represent this as milliseconds safely, but
+  // it's a pain to support
+  using centiseconds = std::chrono::duration<int64_t, std::centi>;
+  static_assert(!std::is_constructible_v<DurationScalar, centiseconds>);
 }
 
 TEST(TestMonthIntervalScalars, Basics) {
@@ -992,7 +1017,7 @@ TEST(TestDayTimeIntervalScalars, Basics) {
 TYPED_TEST(TestNumericScalar, Cast) {
   auto type = TypeTraits<TypeParam>::type_singleton();
 
-  for (util::string_view repr : {"0", "1", "3"}) {
+  for (std::string_view repr : {"0", "1", "3"}) {
     std::shared_ptr<Scalar> scalar;
     ASSERT_OK_AND_ASSIGN(scalar, Scalar::Parse(type, repr));
 
@@ -1015,7 +1040,7 @@ TYPED_TEST(TestNumericScalar, Cast) {
     if (is_integer_type<TypeParam>::value) {
       ASSERT_OK_AND_ASSIGN(auto cast_to_string, scalar->CastTo(utf8()));
       ASSERT_EQ(
-          util::string_view(*checked_cast<const StringScalar&>(*cast_to_string).value),
+          std::string_view(*checked_cast<const StringScalar&>(*cast_to_string).value),
           repr);
     }
   }
@@ -1609,7 +1634,7 @@ class TestExtensionScalar : public ::testing::Test {
   }
 
  protected:
-  ExtensionScalar MakeUuidScalar(util::string_view value) {
+  ExtensionScalar MakeUuidScalar(std::string_view value) {
     return ExtensionScalar(std::make_shared<FixedSizeBinaryScalar>(
                                std::make_shared<Buffer>(value), storage_type_),
                            type_);
@@ -1618,10 +1643,9 @@ class TestExtensionScalar : public ::testing::Test {
   std::shared_ptr<DataType> type_, storage_type_;
   const UuidType* uuid_type_{nullptr};
 
-  const util::string_view uuid_string1_{UUID_STRING1};
-  const util::string_view uuid_string2_{UUID_STRING2};
-  const util::string_view uuid_json_{"[\"" UUID_STRING1 "\", \"" UUID_STRING2
-                                     "\", null]"};
+  const std::string_view uuid_string1_{UUID_STRING1};
+  const std::string_view uuid_string2_{UUID_STRING2};
+  const std::string_view uuid_json_{"[\"" UUID_STRING1 "\", \"" UUID_STRING2 "\", null]"};
 };
 
 #undef UUID_STRING1
diff --git a/cpp/src/arrow/status.h b/cpp/src/arrow/status.h
index 3bf6ca8b379..1b9ba286378 100644
--- a/cpp/src/arrow/status.h
+++ b/cpp/src/arrow/status.h
@@ -129,11 +129,11 @@ class ARROW_EXPORT StatusDetail {
 ///
 /// Additionally, if an error occurred, a specific error message is generally
 /// attached.
-class ARROW_MUST_USE_TYPE ARROW_EXPORT Status : public util::EqualityComparable<Status>,
-                                                public util::ToStringOstreamable<Status> {
+class ARROW_EXPORT [[nodiscard]] Status : public util::EqualityComparable<Status>,
+                                          public util::ToStringOstreamable<Status> {
  public:
   // Create a success status.
-  Status() noexcept : state_(NULLPTR) {}
+  constexpr Status() noexcept : state_(NULLPTR) {}
   ~Status() noexcept {
     // ARROW-2400: On certain compilers, splitting off the slow path improves
     // performance significantly.
@@ -271,41 +271,43 @@ class ARROW_MUST_USE_TYPE ARROW_EXPORT Status : public util::EqualityComparable<
   }
 
   /// Return true iff the status indicates success.
-  bool ok() const { return (state_ == NULLPTR); }
+  constexpr bool ok() const { return (state_ == NULLPTR); }
 
   /// Return true iff the status indicates an out-of-memory error.
-  bool IsOutOfMemory() const { return code() == StatusCode::OutOfMemory; }
+  constexpr bool IsOutOfMemory() const { return code() == StatusCode::OutOfMemory; }
   /// Return true iff the status indicates a key lookup error.
-  bool IsKeyError() const { return code() == StatusCode::KeyError; }
+  constexpr bool IsKeyError() const { return code() == StatusCode::KeyError; }
   /// Return true iff the status indicates invalid data.
-  bool IsInvalid() const { return code() == StatusCode::Invalid; }
+  constexpr bool IsInvalid() const { return code() == StatusCode::Invalid; }
   /// Return true iff the status indicates a cancelled operation.
-  bool IsCancelled() const { return code() == StatusCode::Cancelled; }
+  constexpr bool IsCancelled() const { return code() == StatusCode::Cancelled; }
   /// Return true iff the status indicates an IO-related failure.
-  bool IsIOError() const { return code() == StatusCode::IOError; }
+  constexpr bool IsIOError() const { return code() == StatusCode::IOError; }
   /// Return true iff the status indicates a container reaching capacity limits.
-  bool IsCapacityError() const { return code() == StatusCode::CapacityError; }
+  constexpr bool IsCapacityError() const { return code() == StatusCode::CapacityError; }
   /// Return true iff the status indicates an out of bounds index.
-  bool IsIndexError() const { return code() == StatusCode::IndexError; }
+  constexpr bool IsIndexError() const { return code() == StatusCode::IndexError; }
   /// Return true iff the status indicates a type error.
-  bool IsTypeError() const { return code() == StatusCode::TypeError; }
+  constexpr bool IsTypeError() const { return code() == StatusCode::TypeError; }
   /// Return true iff the status indicates an unknown error.
-  bool IsUnknownError() const { return code() == StatusCode::UnknownError; }
+  constexpr bool IsUnknownError() const { return code() == StatusCode::UnknownError; }
   /// Return true iff the status indicates an unimplemented operation.
-  bool IsNotImplemented() const { return code() == StatusCode::NotImplemented; }
+  constexpr bool IsNotImplemented() const { return code() == StatusCode::NotImplemented; }
   /// Return true iff the status indicates a (de)serialization failure
-  bool IsSerializationError() const { return code() == StatusCode::SerializationError; }
+  constexpr bool IsSerializationError() const {
+    return code() == StatusCode::SerializationError;
+  }
   /// Return true iff the status indicates a R-originated error.
-  bool IsRError() const { return code() == StatusCode::RError; }
+  constexpr bool IsRError() const { return code() == StatusCode::RError; }
 
-  bool IsCodeGenError() const { return code() == StatusCode::CodeGenError; }
+  constexpr bool IsCodeGenError() const { return code() == StatusCode::CodeGenError; }
 
-  bool IsExpressionValidationError() const {
+  constexpr bool IsExpressionValidationError() const {
     return code() == StatusCode::ExpressionValidationError;
   }
 
-  bool IsExecutionError() const { return code() == StatusCode::ExecutionError; }
-  bool IsAlreadyExists() const { return code() == StatusCode::AlreadyExists; }
+  constexpr bool IsExecutionError() const { return code() == StatusCode::ExecutionError; }
+  constexpr bool IsAlreadyExists() const { return code() == StatusCode::AlreadyExists; }
 
   /// \brief Return a string representation of this status suitable for printing.
   ///
@@ -318,7 +320,7 @@ class ARROW_MUST_USE_TYPE ARROW_EXPORT Status : public util::EqualityComparable<
   static std::string CodeAsString(StatusCode);
 
   /// \brief Return the StatusCode value attached to this status.
-  StatusCode code() const { return ok() ? StatusCode::OK : state_->code; }
+  constexpr StatusCode code() const { return ok() ? StatusCode::OK : state_->code; }
 
   /// \brief Return the specific error message attached to this status.
   const std::string& message() const {
diff --git a/cpp/src/arrow/stl.h b/cpp/src/arrow/stl.h
index a1582ed2967..b542ee5c348 100644
--- a/cpp/src/arrow/stl.h
+++ b/cpp/src/arrow/stl.h
@@ -20,7 +20,6 @@
 #include <algorithm>
 #include <cstddef>
 #include <memory>
-#include <sstream>
 #include <string>
 #include <tuple>
 #include <type_traits>
@@ -436,18 +435,15 @@ Status TupleRangeFromTable(const Table& table, const compute::CastOptions& cast_
   constexpr std::size_t n_columns = std::tuple_size<row_type>::value;
 
   if (table.schema()->num_fields() != n_columns) {
-    std::stringstream ss;
-    ss << "Number of columns in the table does not match the width of the target: ";
-    ss << table.schema()->num_fields() << " != " << n_columns;
-    return Status::Invalid(ss.str());
+    return Status::Invalid(
+        "Number of columns in the table does not match the width of the target: ",
+        table.schema()->num_fields(), " != ", n_columns);
   }
 
-  // TODO: Use std::size with C++17
-  if (rows->size() != static_cast<size_t>(table.num_rows())) {
-    std::stringstream ss;
-    ss << "Number of rows in the table does not match the size of the target: ";
-    ss << table.num_rows() << " != " << rows->size();
-    return Status::Invalid(ss.str());
+  if (std::size(*rows) != static_cast<size_t>(table.num_rows())) {
+    return Status::Invalid(
+        "Number of rows in the table does not match the size of the target: ",
+        table.num_rows(), " != ", std::size(*rows));
   }
 
   // Check that all columns have the correct type, otherwise cast them.
diff --git a/cpp/src/arrow/stl_allocator.h b/cpp/src/arrow/stl_allocator.h
index b5ad2b53460..9d921d43445 100644
--- a/cpp/src/arrow/stl_allocator.h
+++ b/cpp/src/arrow/stl_allocator.h
@@ -100,7 +100,11 @@ class STLMemoryPool : public MemoryPool {
   /// \brief Construct a memory pool from the given allocator
   explicit STLMemoryPool(const Allocator& alloc) : alloc_(alloc) {}
 
-  Status Allocate(int64_t size, uint8_t** out) override {
+  using MemoryPool::Allocate;
+  using MemoryPool::Free;
+  using MemoryPool::Reallocate;
+
+  Status Allocate(int64_t size, int64_t /*alignment*/, uint8_t** out) override {
     try {
       *out = alloc_.allocate(size);
     } catch (std::bad_alloc& e) {
@@ -110,7 +114,8 @@ class STLMemoryPool : public MemoryPool {
     return Status::OK();
   }
 
-  Status Reallocate(int64_t old_size, int64_t new_size, uint8_t** ptr) override {
+  Status Reallocate(int64_t old_size, int64_t new_size, int64_t /*alignment*/,
+                    uint8_t** ptr) override {
     uint8_t* old_ptr = *ptr;
     try {
       *ptr = alloc_.allocate(new_size);
@@ -123,7 +128,7 @@ class STLMemoryPool : public MemoryPool {
     return Status::OK();
   }
 
-  void Free(uint8_t* buffer, int64_t size) override {
+  void Free(uint8_t* buffer, int64_t size, int64_t /*alignment*/) override {
     alloc_.deallocate(buffer, size);
     stats_.UpdateAllocatedBytes(-size);
   }
diff --git a/cpp/src/arrow/stl_iterator.h b/cpp/src/arrow/stl_iterator.h
index e1eeb33fbae..5f2acfb071b 100644
--- a/cpp/src/arrow/stl_iterator.h
+++ b/cpp/src/arrow/stl_iterator.h
@@ -20,6 +20,7 @@
 #include <cassert>
 #include <cstddef>
 #include <iterator>
+#include <optional>
 #include <utility>
 
 #include "arrow/chunked_array.h"
@@ -27,7 +28,6 @@
 #include "arrow/type_fwd.h"
 #include "arrow/type_traits.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/optional.h"
 
 namespace arrow {
 namespace stl {
@@ -49,7 +49,7 @@ template <typename ArrayType,
           typename ValueAccessor = detail::DefaultValueAccessor<ArrayType>>
 class ArrayIterator {
  public:
-  using value_type = arrow::util::optional<typename ValueAccessor::ValueType>;
+  using value_type = std::optional<typename ValueAccessor::ValueType>;
   using difference_type = int64_t;
   using pointer = value_type*;
   using reference = value_type&;
@@ -138,7 +138,7 @@ template <typename ArrayType,
           typename ValueAccessor = detail::DefaultValueAccessor<ArrayType>>
 class ChunkedArrayIterator {
  public:
-  using value_type = arrow::util::optional<typename ValueAccessor::ValueType>;
+  using value_type = std::optional<typename ValueAccessor::ValueType>;
   using difference_type = int64_t;
   using pointer = value_type*;
   using reference = value_type&;
diff --git a/cpp/src/arrow/stl_iterator_test.cc b/cpp/src/arrow/stl_iterator_test.cc
index d4a011e4507..3fe57ebc0d4 100644
--- a/cpp/src/arrow/stl_iterator_test.cc
+++ b/cpp/src/arrow/stl_iterator_test.cc
@@ -30,8 +30,8 @@ namespace arrow {
 
 using internal::checked_cast;
 using internal::checked_pointer_cast;
-using util::nullopt;
-using util::optional;
+using std::nullopt;
+using std::optional;
 
 namespace stl {
 
@@ -128,11 +128,11 @@ TEST(ArrayIterator, RangeFor) {
 TEST(ArrayIterator, String) {
   auto array = checked_pointer_cast<StringArray>(
       ArrayFromJSON(utf8(), R"(["foo", "bar", null, "quux"])"));
-  std::vector<optional<util::string_view>> values;
+  std::vector<optional<std::string_view>> values;
   for (const auto v : *array) {
     values.push_back(v);
   }
-  std::vector<optional<util::string_view>> expected{"foo", "bar", {}, "quux"};
+  std::vector<optional<std::string_view>> expected{"foo", "bar", {}, "quux"};
   ASSERT_EQ(values, expected);
 }
 
@@ -150,11 +150,11 @@ TEST(ArrayIterator, Boolean) {
 TEST(ArrayIterator, FixedSizeBinary) {
   auto array = checked_pointer_cast<FixedSizeBinaryArray>(
       ArrayFromJSON(fixed_size_binary(3), R"(["foo", "bar", null, "quu"])"));
-  std::vector<optional<util::string_view>> values;
+  std::vector<optional<std::string_view>> values;
   for (const auto v : *array) {
     values.push_back(v);
   }
-  std::vector<optional<util::string_view>> expected{"foo", "bar", {}, "quu"};
+  std::vector<optional<std::string_view>> expected{"foo", "bar", {}, "quu"};
   ASSERT_EQ(values, expected);
 }
 
diff --git a/cpp/src/arrow/stl_test.cc b/cpp/src/arrow/stl_test.cc
index 52dda54ce18..48e6f8014c9 100644
--- a/cpp/src/arrow/stl_test.cc
+++ b/cpp/src/arrow/stl_test.cc
@@ -20,6 +20,7 @@
 #include <limits>
 #include <memory>
 #include <new>
+#include <optional>
 #include <string>
 #include <vector>
 
@@ -32,7 +33,6 @@
 #include "arrow/testing/gtest_util.h"
 #include "arrow/type.h"
 #include "arrow/type_fwd.h"
-#include "arrow/util/optional.h"
 
 using primitive_types_tuple = std::tuple<int8_t, int16_t, int32_t, int64_t, uint8_t,
                                          uint16_t, uint32_t, uint64_t, bool, std::string>;
@@ -101,10 +101,10 @@ struct TestInt32Type {
 namespace arrow {
 
 using optional_types_tuple =
-    std::tuple<util::optional<int8_t>, util::optional<int16_t>, util::optional<int32_t>,
-               util::optional<int64_t>, util::optional<uint8_t>, util::optional<uint16_t>,
-               util::optional<uint32_t>, util::optional<uint64_t>, util::optional<bool>,
-               util::optional<std::string>>;
+    std::tuple<std::optional<int8_t>, std::optional<int16_t>, std::optional<int32_t>,
+               std::optional<int64_t>, std::optional<uint8_t>, std::optional<uint16_t>,
+               std::optional<uint32_t>, std::optional<uint64_t>, std::optional<bool>,
+               std::optional<std::string>>;
 
 template <>
 struct CTypeTraits<CustomOptionalTypeMock> {
@@ -231,7 +231,7 @@ TEST(TestTableFromTupleVector, ListType) {
   using tuple_type = std::tuple<std::vector<int64_t>>;
 
   auto expected_schema =
-      std::shared_ptr<Schema>(new Schema({field("column1", list(int64()), false)}));
+      std::make_shared<Schema>(FieldVector{field("column1", list(int64()), false)});
   std::shared_ptr<Array> expected_array =
       ArrayFromJSON(list(int64()), "[[1, 1, 2, 34], [2, -4]]");
   std::shared_ptr<Table> expected_table = Table::Make(expected_schema, {expected_array});
@@ -291,9 +291,8 @@ TEST(TestTableFromTupleVector, NullableTypesWithBoostOptional) {
   std::vector<types_tuple> rows{
       types_tuple(-1, -2, -3, -4, 1, 2, 3, 4, true, std::string("Tests")),
       types_tuple(-10, -20, -30, -40, 10, 20, 30, 40, false, std::string("Other")),
-      types_tuple(util::nullopt, util::nullopt, util::nullopt, util::nullopt,
-                  util::nullopt, util::nullopt, util::nullopt, util::nullopt,
-                  util::nullopt, util::nullopt),
+      types_tuple(std::nullopt, std::nullopt, std::nullopt, std::nullopt, std::nullopt,
+                  std::nullopt, std::nullopt, std::nullopt, std::nullopt, std::nullopt),
   };
   std::shared_ptr<Table> table;
   ASSERT_OK(TableFromTupleRange(default_memory_pool(), rows, names, &table));
@@ -456,7 +455,7 @@ TEST(TestTupleVectorFromTable, ListType) {
   compute::ExecContext ctx;
   compute::CastOptions cast_options;
   auto expected_schema =
-      std::shared_ptr<Schema>(new Schema({field("column1", list(int64()), false)}));
+      std::make_shared<Schema>(FieldVector{field("column1", list(int64()), false)});
   std::shared_ptr<Array> expected_array =
       ArrayFromJSON(list(int64()), "[[1, 1, 2, 34], [2, -4]]");
   std::shared_ptr<Table> table = Table::Make(expected_schema, {expected_array});
@@ -475,7 +474,7 @@ TEST(TestTupleVectorFromTable, CastingNeeded) {
   compute::ExecContext ctx;
   compute::CastOptions cast_options;
   auto expected_schema =
-      std::shared_ptr<Schema>(new Schema({field("column1", list(int16()), false)}));
+      std::make_shared<Schema>(FieldVector{field("column1", list(int16()), false)});
   std::shared_ptr<Array> expected_array =
       ArrayFromJSON(list(int16()), "[[1, 1, 2, 34], [2, -4]]");
   std::shared_ptr<Table> table = Table::Make(expected_schema, {expected_array});
diff --git a/cpp/src/arrow/symbols.map b/cpp/src/arrow/symbols.map
index 7d4f13fa286..9ef0e404bc0 100644
--- a/cpp/src/arrow/symbols.map
+++ b/cpp/src/arrow/symbols.map
@@ -32,7 +32,6 @@
     };
     # Also export C-level helpers
     arrow_*;
-    pyarrow_*;
     # ARROW-14771: export Protobuf symbol table
     descriptor_table_Flight_2eproto;
     descriptor_table_FlightSql_2eproto;
diff --git a/cpp/src/arrow/table.cc b/cpp/src/arrow/table.cc
index 7ade1a40a75..47f82631782 100644
--- a/cpp/src/arrow/table.cc
+++ b/cpp/src/arrow/table.cc
@@ -580,7 +580,14 @@ Result<std::shared_ptr<RecordBatch>> Table::CombineChunksToBatch(MemoryPool* poo
   ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Table> combined, CombineChunks(pool));
   std::vector<std::shared_ptr<Array>> arrays;
   for (const auto& column : combined->columns()) {
-    arrays.push_back(column->chunk(0));
+    if (column->num_chunks() == 0) {
+      DCHECK_EQ(num_rows(), 0) << "Empty chunk with more than 0 rows";
+      ARROW_ASSIGN_OR_RAISE(auto chunk,
+                            MakeArrayOfNull(column->type(), num_rows(), pool));
+      arrays.push_back(std::move(chunk));
+    } else {
+      arrays.push_back(column->chunk(0));
+    }
   }
   return RecordBatch::Make(schema_, num_rows_, std::move(arrays));
 }
diff --git a/cpp/src/arrow/table.h b/cpp/src/arrow/table.h
index 161137a389c..7968f3913dd 100644
--- a/cpp/src/arrow/table.h
+++ b/cpp/src/arrow/table.h
@@ -286,7 +286,24 @@ struct ARROW_EXPORT ConcatenateTablesOptions {
   static ConcatenateTablesOptions Defaults() { return {}; }
 };
 
-/// \brief Construct table from multiple input tables.
+/// \brief Construct a new table from multiple input tables.
+///
+/// The new table is assembled from existing column chunks without copying,
+/// if schemas are identical. If schemas do not match exactly and
+/// unify_schemas is enabled in options (off by default), an attempt is
+/// made to unify them, and then column chunks are converted to their
+/// respective unified datatype, which will probably incur a copy.
+/// :func:`arrow::PromoteTableToSchema` is used to unify schemas.
+///
+/// Tables are concatenated in order they are provided in and the order of
+/// rows within tables will be preserved.
+///
+/// \param[in] tables a std::vector of Tables to be concatenated
+/// \param[in] options specify how to unify schema of input tables
+/// \param[in] memory_pool MemoryPool to be used if null-filled arrays need to
+/// be created or if existing column chunks need to endure type conversion
+/// \return new Table
+
 ARROW_EXPORT
 Result<std::shared_ptr<Table>> ConcatenateTables(
     const std::vector<std::shared_ptr<Table>>& tables,
diff --git a/cpp/src/arrow/table_builder_test.cc b/cpp/src/arrow/table_builder_test.cc
index ea56ea41107..6735246e018 100644
--- a/cpp/src/arrow/table_builder_test.cc
+++ b/cpp/src/arrow/table_builder_test.cc
@@ -101,7 +101,7 @@ TEST_F(TestRecordBatchBuilder, Basics) {
 
   Int32Builder ex_b0;
   StringBuilder ex_b1;
-  ListBuilder ex_b2(pool_, std::unique_ptr<Int8Builder>(new Int8Builder(pool_)));
+  ListBuilder ex_b2(pool_, std::make_unique<Int8Builder>(pool_));
 
   AppendData(&ex_b0, &ex_b1, &ex_b2);
   ASSERT_OK(ex_b0.Finish(&a0));
diff --git a/cpp/src/arrow/table_test.cc b/cpp/src/arrow/table_test.cc
index e82e899e0f5..925a1ce1264 100644
--- a/cpp/src/arrow/table_test.cc
+++ b/cpp/src/arrow/table_test.cc
@@ -264,8 +264,11 @@ TEST_F(TestTable, CombineChunksZeroRow) {
   ASSERT_EQ(0, table->num_rows());
 
   ASSERT_OK_AND_ASSIGN(auto compacted, table->CombineChunks());
+  ASSERT_TRUE(compacted->Equals(*table));
 
-  EXPECT_TRUE(compacted->Equals(*table));
+  ASSERT_OK_AND_ASSIGN(auto batch, table->CombineChunksToBatch());
+  ASSERT_OK_AND_ASSIGN(auto expected, RecordBatch::MakeEmpty(schema_));
+  ASSERT_NO_FATAL_FAILURE(AssertBatchesEqual(*expected, *batch, /*verbose=*/true));
 }
 
 TEST_F(TestTable, CombineChunks) {
@@ -354,8 +357,8 @@ using TestPromoteTableToSchema = TestTable;
 
 TEST_F(TestPromoteTableToSchema, IdenticalSchema) {
   const int length = 10;
-  auto metadata =
-      std::shared_ptr<KeyValueMetadata>(new KeyValueMetadata({"foo"}, {"bar"}));
+  auto metadata = std::make_shared<KeyValueMetadata>(std::vector<std::string>{"foo"},
+                                                     std::vector<std::string>{"bar"});
   MakeExample1(length);
   std::shared_ptr<Table> table = Table::Make(schema_, arrays_);
 
@@ -385,8 +388,8 @@ TEST_F(TestPromoteTableToSchema, FieldsReorderedAfterPromotion) {
 
 TEST_F(TestPromoteTableToSchema, PromoteNullTypeField) {
   const int length = 10;
-  auto metadata =
-      std::shared_ptr<KeyValueMetadata>(new KeyValueMetadata({"foo"}, {"bar"}));
+  auto metadata = std::make_shared<KeyValueMetadata>(std::vector<std::string>{"foo"},
+                                                     std::vector<std::string>{"bar"});
   auto table_with_null_column = MakeTableWithOneNullFilledColumn("field", null(), length)
                                     ->ReplaceSchemaMetadata(metadata);
   auto promoted_schema = schema({field("field", int32())});
diff --git a/cpp/src/arrow/testing/builder.h b/cpp/src/arrow/testing/builder.h
index f8a375589ce..09e8f49dea9 100644
--- a/cpp/src/arrow/testing/builder.h
+++ b/cpp/src/arrow/testing/builder.h
@@ -19,6 +19,7 @@
 
 #include <cstdint>
 #include <memory>
+#include <type_traits>
 #include <vector>
 
 #include "arrow/array.h"
@@ -27,6 +28,7 @@
 #include "arrow/array/builder_time.h"
 #include "arrow/buffer.h"
 #include "arrow/testing/gtest_util.h"
+#include "arrow/type_fwd.h"
 #include "arrow/util/bit_util.h"
 #include "arrow/visit_type_inline.h"
 
@@ -159,31 +161,21 @@ Status MakeArray(const std::vector<uint8_t>& valid_bytes, const std::vector<T>&
 }
 
 template <typename Fn>
-struct VisitBuilderImpl {
+struct VisitBuilder {
   template <typename T, typename BuilderType = typename TypeTraits<T>::BuilderType,
             // need to let SFINAE drop this Visit when it would result in
             // [](NullBuilder*){}(double_builder)
             typename = decltype(std::declval<Fn>()(std::declval<BuilderType*>()))>
-  Status Visit(const T&) {
-    fn_(internal::checked_cast<BuilderType*>(builder_));
+  Status Visit(const T&, ArrayBuilder* builder, Fn&& fn) {
+    fn(internal::checked_cast<BuilderType*>(builder));
     return Status::OK();
   }
 
-  Status Visit(const DataType& t) {
+  Status Visit(const DataType& t, ArrayBuilder* builder, Fn&& fn) {
     return Status::NotImplemented("visiting builders of type ", t);
   }
-
-  Status Visit() { return VisitTypeInline(*builder_->type(), this); }
-
-  ArrayBuilder* builder_;
-  Fn fn_;
 };
 
-template <typename Fn>
-Status VisitBuilder(ArrayBuilder* builder, Fn&& fn) {
-  return VisitBuilderImpl<Fn>{builder, std::forward<Fn>(fn)}.Visit();
-}
-
 template <typename Fn>
 Result<std::shared_ptr<Array>> ArrayFromBuilderVisitor(
     const std::shared_ptr<DataType>& type, int64_t initial_capacity,
@@ -195,8 +187,10 @@ Result<std::shared_ptr<Array>> ArrayFromBuilderVisitor(
     RETURN_NOT_OK(builder->Resize(initial_capacity));
   }
 
+  VisitBuilder<Fn> visitor;
   for (int64_t i = 0; i < visitor_repetitions; ++i) {
-    RETURN_NOT_OK(VisitBuilder(builder.get(), std::forward<Fn>(fn)));
+    RETURN_NOT_OK(
+        VisitTypeInline(*builder->type(), &visitor, builder.get(), std::forward<Fn>(fn)));
   }
 
   std::shared_ptr<Array> out;
diff --git a/cpp/src/arrow/testing/extension_type.h b/cpp/src/arrow/testing/extension_type.h
index 338b4cb4da0..846e3c7a165 100644
--- a/cpp/src/arrow/testing/extension_type.h
+++ b/cpp/src/arrow/testing/extension_type.h
@@ -54,6 +54,11 @@ class ARROW_TESTING_EXPORT SmallintArray : public ExtensionArray {
   using ExtensionArray::ExtensionArray;
 };
 
+class ARROW_TESTING_EXPORT TinyintArray : public ExtensionArray {
+ public:
+  using ExtensionArray::ExtensionArray;
+};
+
 class ARROW_TESTING_EXPORT ListExtensionArray : public ExtensionArray {
  public:
   using ExtensionArray::ExtensionArray;
@@ -76,6 +81,23 @@ class ARROW_TESTING_EXPORT SmallintType : public ExtensionType {
   std::string Serialize() const override { return "smallint"; }
 };
 
+class ARROW_TESTING_EXPORT TinyintType : public ExtensionType {
+ public:
+  TinyintType() : ExtensionType(int8()) {}
+
+  std::string extension_name() const override { return "tinyint"; }
+
+  bool ExtensionEquals(const ExtensionType& other) const override;
+
+  std::shared_ptr<Array> MakeArray(std::shared_ptr<ArrayData> data) const override;
+
+  Result<std::shared_ptr<DataType>> Deserialize(
+      std::shared_ptr<DataType> storage_type,
+      const std::string& serialized) const override;
+
+  std::string Serialize() const override { return "tinyint"; }
+};
+
 class ARROW_TESTING_EXPORT ListExtensionType : public ExtensionType {
  public:
   ListExtensionType() : ExtensionType(list(int32())) {}
@@ -140,6 +162,9 @@ std::shared_ptr<DataType> uuid();
 ARROW_TESTING_EXPORT
 std::shared_ptr<DataType> smallint();
 
+ARROW_TESTING_EXPORT
+std::shared_ptr<DataType> tinyint();
+
 ARROW_TESTING_EXPORT
 std::shared_ptr<DataType> list_extension_type();
 
@@ -155,6 +180,9 @@ std::shared_ptr<Array> ExampleUuid();
 ARROW_TESTING_EXPORT
 std::shared_ptr<Array> ExampleSmallint();
 
+ARROW_TESTING_EXPORT
+std::shared_ptr<Array> ExampleTinyint();
+
 ARROW_TESTING_EXPORT
 std::shared_ptr<Array> ExampleDictExtension();
 
diff --git a/cpp/src/arrow/testing/gtest_util.cc b/cpp/src/arrow/testing/gtest_util.cc
index c5ab367befe..37c430892d0 100644
--- a/cpp/src/arrow/testing/gtest_util.cc
+++ b/cpp/src/arrow/testing/gtest_util.cc
@@ -57,53 +57,14 @@
 #include "arrow/util/future.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"
+#include "arrow/util/thread_pool.h"
 #include "arrow/util/windows_compatibility.h"
 
 namespace arrow {
 
 using internal::checked_cast;
 using internal::checked_pointer_cast;
-
-std::vector<Type::type> AllTypeIds() {
-  return {Type::NA,
-          Type::BOOL,
-          Type::INT8,
-          Type::INT16,
-          Type::INT32,
-          Type::INT64,
-          Type::UINT8,
-          Type::UINT16,
-          Type::UINT32,
-          Type::UINT64,
-          Type::HALF_FLOAT,
-          Type::FLOAT,
-          Type::DOUBLE,
-          Type::DECIMAL128,
-          Type::DECIMAL256,
-          Type::DATE32,
-          Type::DATE64,
-          Type::TIME32,
-          Type::TIME64,
-          Type::TIMESTAMP,
-          Type::INTERVAL_DAY_TIME,
-          Type::INTERVAL_MONTHS,
-          Type::DURATION,
-          Type::STRING,
-          Type::BINARY,
-          Type::LARGE_STRING,
-          Type::LARGE_BINARY,
-          Type::FIXED_SIZE_BINARY,
-          Type::STRUCT,
-          Type::LIST,
-          Type::LARGE_LIST,
-          Type::FIXED_SIZE_LIST,
-          Type::MAP,
-          Type::DENSE_UNION,
-          Type::SPARSE_UNION,
-          Type::DICTIONARY,
-          Type::EXTENSION,
-          Type::INTERVAL_MONTH_DAY_NANO};
-}
+using internal::ThreadPool;
 
 template <typename T, typename CompareFunctor>
 void AssertTsSame(const T& expected, const T& actual, CompareFunctor&& compare) {
@@ -410,14 +371,14 @@ void AssertDatumsApproxEqual(const Datum& expected, const Datum& actual, bool ve
 }
 
 std::shared_ptr<Array> ArrayFromJSON(const std::shared_ptr<DataType>& type,
-                                     util::string_view json) {
+                                     std::string_view json) {
   EXPECT_OK_AND_ASSIGN(auto out, ipc::internal::json::ArrayFromJSON(type, json));
   return out;
 }
 
 std::shared_ptr<Array> DictArrayFromJSON(const std::shared_ptr<DataType>& type,
-                                         util::string_view indices_json,
-                                         util::string_view dictionary_json) {
+                                         std::string_view indices_json,
+                                         std::string_view dictionary_json) {
   std::shared_ptr<Array> out;
   ABORT_NOT_OK(
       ipc::internal::json::DictArrayFromJSON(type, indices_json, dictionary_json, &out));
@@ -432,7 +393,7 @@ std::shared_ptr<ChunkedArray> ChunkedArrayFromJSON(const std::shared_ptr<DataTyp
 }
 
 std::shared_ptr<RecordBatch> RecordBatchFromJSON(const std::shared_ptr<Schema>& schema,
-                                                 util::string_view json) {
+                                                 std::string_view json) {
   // Parse as a StructArray
   auto struct_type = struct_(schema->fields());
   std::shared_ptr<Array> struct_array = ArrayFromJSON(struct_type, json);
@@ -442,15 +403,15 @@ std::shared_ptr<RecordBatch> RecordBatchFromJSON(const std::shared_ptr<Schema>&
 }
 
 std::shared_ptr<Scalar> ScalarFromJSON(const std::shared_ptr<DataType>& type,
-                                       util::string_view json) {
+                                       std::string_view json) {
   std::shared_ptr<Scalar> out;
   ABORT_NOT_OK(ipc::internal::json::ScalarFromJSON(type, json, &out));
   return out;
 }
 
 std::shared_ptr<Scalar> DictScalarFromJSON(const std::shared_ptr<DataType>& type,
-                                           util::string_view index_json,
-                                           util::string_view dictionary_json) {
+                                           std::string_view index_json,
+                                           std::string_view dictionary_json) {
   std::shared_ptr<Scalar> out;
   ABORT_NOT_OK(
       ipc::internal::json::DictScalarFromJSON(type, index_json, dictionary_json, &out));
@@ -466,10 +427,10 @@ std::shared_ptr<Table> TableFromJSON(const std::shared_ptr<Schema>& schema,
   return *Table::FromRecordBatches(schema, std::move(batches));
 }
 
-Result<util::optional<std::string>> PrintArrayDiff(const ChunkedArray& expected,
-                                                   const ChunkedArray& actual) {
+Result<std::optional<std::string>> PrintArrayDiff(const ChunkedArray& expected,
+                                                  const ChunkedArray& actual) {
   if (actual.Equals(expected)) {
-    return util::nullopt;
+    return std::nullopt;
   }
 
   std::stringstream ss;
@@ -612,6 +573,22 @@ bool FileIsClosed(int fd) {
 #endif
 }
 
+#if !defined(_WIN32)
+void AssertChildExit(int child_pid, int expected_exit_status) {
+  ASSERT_GT(child_pid, 0);
+  int child_status;
+  int got_pid = waitpid(child_pid, &child_status, 0);
+  ASSERT_EQ(got_pid, child_pid);
+  if (WIFSIGNALED(child_status)) {
+    FAIL() << "Child terminated by signal " << WTERMSIG(child_status);
+  }
+  if (!WIFEXITED(child_status)) {
+    FAIL() << "Child didn't terminate normally?? Child status = " << child_status;
+  }
+  ASSERT_EQ(WEXITSTATUS(child_status), expected_exit_status);
+}
+#endif
+
 bool LocaleExists(const char* locale) {
   try {
     std::locale loc(locale);
@@ -718,7 +695,7 @@ void TestInitialized(const ArrayData& array) {
   // entire buffer data).  If not all bits are well-defined, Valgrind will
   // error with "Conditional jump or move depends on uninitialised value(s)".
   if (total_bit == 0) {
-    ++throw_away;
+    throw_away = throw_away + 1;
   }
   for (const auto& child : array.child_data) {
     TestInitialized(*child);
@@ -767,22 +744,27 @@ void BusyWait(double seconds, std::function<bool()> predicate) {
   }
 }
 
-Future<> SleepAsync(double seconds) {
-  auto out = Future<>::Make();
-  std::thread([out, seconds]() mutable {
-    SleepFor(seconds);
-    out.MarkFinished();
-  }).detach();
-  return out;
+namespace {
+
+// These threads will spend most of their time sleeping so there
+// is no need to base this on the # of cores.  Instead it should be
+// high enough to ensure good concurrency when there is concurrent hardware.
+//
+// Note using a thread pool prevents potentially hitting thread count limits
+// in stress tests (ARROW-17927).
+constexpr int kNumSleepThreads = 32;
+
+std::shared_ptr<ThreadPool> CreateSleepThreadPool() {
+  Result<std::shared_ptr<ThreadPool>> thread_pool =
+      ThreadPool::MakeEternal(kNumSleepThreads);
+  return thread_pool.ValueOrDie();
 }
 
+}  // namespace
+
 Future<> SleepABitAsync() {
-  auto out = Future<>::Make();
-  std::thread([out]() mutable {
-    SleepABit();
-    out.MarkFinished();
-  }).detach();
-  return out;
+  static std::shared_ptr<ThreadPool> sleep_tp = CreateSleepThreadPool();
+  return DeferNotOk(sleep_tp->Submit([] { SleepABit(); }));
 }
 
 ///////////////////////////////////////////////////////////////////////////
@@ -832,6 +814,28 @@ Result<std::shared_ptr<DataType>> SmallintType::Deserialize(
   return std::make_shared<SmallintType>();
 }
 
+bool TinyintType::ExtensionEquals(const ExtensionType& other) const {
+  return (other.extension_name() == this->extension_name());
+}
+
+std::shared_ptr<Array> TinyintType::MakeArray(std::shared_ptr<ArrayData> data) const {
+  DCHECK_EQ(data->type->id(), Type::EXTENSION);
+  DCHECK_EQ("tinyint", static_cast<const ExtensionType&>(*data->type).extension_name());
+  return std::make_shared<TinyintArray>(data);
+}
+
+Result<std::shared_ptr<DataType>> TinyintType::Deserialize(
+    std::shared_ptr<DataType> storage_type, const std::string& serialized) const {
+  if (serialized != "tinyint") {
+    return Status::Invalid("Type identifier did not match: '", serialized, "'");
+  }
+  if (!storage_type->Equals(*int16())) {
+    return Status::Invalid("Invalid storage type for TinyintType: ",
+                           storage_type->ToString());
+  }
+  return std::make_shared<TinyintType>();
+}
+
 bool ListExtensionType::ExtensionEquals(const ExtensionType& other) const {
   return (other.extension_name() == this->extension_name());
 }
@@ -905,6 +909,8 @@ std::shared_ptr<DataType> uuid() { return std::make_shared<UuidType>(); }
 
 std::shared_ptr<DataType> smallint() { return std::make_shared<SmallintType>(); }
 
+std::shared_ptr<DataType> tinyint() { return std::make_shared<TinyintType>(); }
+
 std::shared_ptr<DataType> list_extension_type() {
   return std::make_shared<ListExtensionType>();
 }
@@ -936,6 +942,11 @@ std::shared_ptr<Array> ExampleSmallint() {
   return ExtensionType::WrapArray(smallint(), arr);
 }
 
+std::shared_ptr<Array> ExampleTinyint() {
+  auto arr = ArrayFromJSON(int8(), "[-128, null, 1, 2, 3, 4, 127]");
+  return ExtensionType::WrapArray(tinyint(), arr);
+}
+
 std::shared_ptr<Array> ExampleDictExtension() {
   auto arr = DictArrayFromJSON(dictionary(int8(), utf8()), "[0, 1, null, 1]",
                                R"(["foo", "bar"])");
@@ -1031,9 +1042,11 @@ class GatingTask::Impl : public std::enable_shared_from_this<GatingTask::Impl> {
   }
 
   Status Unlock() {
-    std::lock_guard<std::mutex> lk(mx_);
-    unlocked_ = true;
-    unlocked_cv_.notify_all();
+    {
+      std::lock_guard<std::mutex> lk(mx_);
+      unlocked_ = true;
+      unlocked_cv_.notify_all();
+    }
     unlocked_future_.MarkFinished();
     return status_;
   }
diff --git a/cpp/src/arrow/testing/gtest_util.h b/cpp/src/arrow/testing/gtest_util.h
index 8ce5049452a..27080562952 100644
--- a/cpp/src/arrow/testing/gtest_util.h
+++ b/cpp/src/arrow/testing/gtest_util.h
@@ -23,7 +23,9 @@
 #include <cstring>
 #include <functional>
 #include <memory>
+#include <optional>
 #include <string>
+#include <string_view>
 #include <type_traits>
 #include <utility>
 #include <vector>
@@ -38,9 +40,7 @@
 #include "arrow/type_fwd.h"
 #include "arrow/type_traits.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/string_builder.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/type_fwd.h"
 
 // NOTE: failing must be inline in the macros below, to get correct file / line number
@@ -190,9 +190,6 @@ class RecordBatch;
 class Table;
 struct Datum;
 
-ARROW_TESTING_EXPORT
-std::vector<Type::type> AllTypeIds();
-
 #define ASSERT_ARRAYS_EQUAL(lhs, rhs) AssertArraysEqual((lhs), (rhs))
 #define ASSERT_BATCHES_EQUAL(lhs, rhs) AssertBatchesEqual((lhs), (rhs))
 #define ASSERT_BATCHES_APPROX_EQUAL(lhs, rhs) AssertBatchesApproxEqual((lhs), (rhs))
@@ -270,7 +267,7 @@ ARROW_TESTING_EXPORT void AssertSchemaNotEqual(const std::shared_ptr<Schema>& lh
                                                const std::shared_ptr<Schema>& rhs,
                                                bool check_metadata = false);
 
-ARROW_TESTING_EXPORT Result<util::optional<std::string>> PrintArrayDiff(
+ARROW_TESTING_EXPORT Result<std::optional<std::string>> PrintArrayDiff(
     const ChunkedArray& expected, const ChunkedArray& actual);
 
 ARROW_TESTING_EXPORT void AssertTablesEqual(const Table& expected, const Table& actual,
@@ -316,16 +313,16 @@ ARROW_TESTING_EXPORT void TestInitialized(const Array& array);
 
 ARROW_TESTING_EXPORT
 std::shared_ptr<Array> ArrayFromJSON(const std::shared_ptr<DataType>&,
-                                     util::string_view json);
+                                     std::string_view json);
 
 ARROW_TESTING_EXPORT
 std::shared_ptr<Array> DictArrayFromJSON(const std::shared_ptr<DataType>& type,
-                                         util::string_view indices_json,
-                                         util::string_view dictionary_json);
+                                         std::string_view indices_json,
+                                         std::string_view dictionary_json);
 
 ARROW_TESTING_EXPORT
 std::shared_ptr<RecordBatch> RecordBatchFromJSON(const std::shared_ptr<Schema>&,
-                                                 util::string_view);
+                                                 std::string_view);
 
 ARROW_TESTING_EXPORT
 std::shared_ptr<ChunkedArray> ChunkedArrayFromJSON(const std::shared_ptr<DataType>&,
@@ -333,12 +330,12 @@ std::shared_ptr<ChunkedArray> ChunkedArrayFromJSON(const std::shared_ptr<DataTyp
 
 ARROW_TESTING_EXPORT
 std::shared_ptr<Scalar> ScalarFromJSON(const std::shared_ptr<DataType>&,
-                                       util::string_view json);
+                                       std::string_view json);
 
 ARROW_TESTING_EXPORT
 std::shared_ptr<Scalar> DictScalarFromJSON(const std::shared_ptr<DataType>&,
-                                           util::string_view index_json,
-                                           util::string_view dictionary_json);
+                                           std::string_view index_json,
+                                           std::string_view dictionary_json);
 
 ARROW_TESTING_EXPORT
 std::shared_ptr<Table> TableFromJSON(const std::shared_ptr<Schema>&,
@@ -366,9 +363,6 @@ void SleepABit();
 ARROW_TESTING_EXPORT
 void BusyWait(double seconds, std::function<bool()> predicate);
 
-ARROW_TESTING_EXPORT
-Future<> SleepAsync(double seconds);
-
 // \see SleepABit
 ARROW_TESTING_EXPORT
 Future<> SleepABitAsync();
@@ -384,6 +378,11 @@ std::vector<T> IteratorToVector(Iterator<T> iterator) {
 ARROW_TESTING_EXPORT
 bool LocaleExists(const char* locale);
 
+#ifndef _WIN32
+ARROW_TESTING_EXPORT
+void AssertChildExit(int child_pid, int expected_exit_status = 0);
+#endif
+
 // A RAII-style object that switches to a new locale, and switches back
 // to the old locale when going out of scope.  Doesn't do anything if the
 // new locale doesn't exist on the local machine.
@@ -530,32 +529,3 @@ class ARROW_TESTING_EXPORT GatingTask {
 };
 
 }  // namespace arrow
-
-namespace nonstd {
-namespace sv_lite {
-
-// Without this hint, GTest will print string_views as a container of char
-template <class Char, class Traits = std::char_traits<Char>>
-void PrintTo(const basic_string_view<Char, Traits>& view, std::ostream* os) {
-  *os << view;
-}
-
-}  // namespace sv_lite
-
-namespace optional_lite {
-
-template <typename T>
-void PrintTo(const optional<T>& opt, std::ostream* os) {
-  if (opt.has_value()) {
-    *os << "{";
-    ::testing::internal::UniversalPrint(*opt, os);
-    *os << "}";
-  } else {
-    *os << "nullopt";
-  }
-}
-
-inline void PrintTo(const decltype(nullopt)&, std::ostream* os) { *os << "nullopt"; }
-
-}  // namespace optional_lite
-}  // namespace nonstd
diff --git a/cpp/src/arrow/testing/json_internal.cc b/cpp/src/arrow/testing/json_internal.cc
index c88e95df016..c1d45aa2e08 100644
--- a/cpp/src/arrow/testing/json_internal.cc
+++ b/cpp/src/arrow/testing/json_internal.cc
@@ -472,7 +472,7 @@ class ArrayWriter {
     return Status::OK();
   }
 
-  void WriteRawNumber(util::string_view v) {
+  void WriteRawNumber(std::string_view v) {
     // Avoid RawNumber() as it misleadingly adds quotes
     // (see https://github.com/Tencent/rapidjson/pull/1155)
     writer_->RawValue(v.data(), v.size(), rj::kNumberType);
@@ -503,7 +503,7 @@ class ArrayWriter {
     static const std::string null_string = "0";
     for (int64_t i = 0; i < arr.length(); ++i) {
       if (arr.IsValid(i)) {
-        fmt(arr.Value(i), [&](util::string_view repr) {
+        fmt(arr.Value(i), [&](std::string_view repr) {
           writer_->String(repr.data(), static_cast<rj::SizeType>(repr.size()));
         });
       } else {
@@ -630,7 +630,7 @@ class ArrayWriter {
       // Represent 64-bit integers as strings, as JSON numbers cannot represent
       // them exactly.
       ::arrow::internal::StringFormatter<typename CTypeTraits<T>::ArrowType> formatter;
-      auto append = [this](util::string_view v) {
+      auto append = [this](std::string_view v) {
         writer_->String(v.data(), static_cast<rj::SizeType>(v.size()));
         return Status::OK();
       };
diff --git a/cpp/src/arrow/testing/matchers.h b/cpp/src/arrow/testing/matchers.h
index 25607c1ff5b..fa2222ee1ab 100644
--- a/cpp/src/arrow/testing/matchers.h
+++ b/cpp/src/arrow/testing/matchers.h
@@ -220,14 +220,14 @@ class ResultMatcher {
 class ErrorMatcher {
  public:
   explicit ErrorMatcher(StatusCode code,
-                        util::optional<testing::Matcher<std::string>> message_matcher)
+                        std::optional<testing::Matcher<std::string>> message_matcher)
       : code_(code), message_matcher_(std::move(message_matcher)) {}
 
   template <typename Res>
   operator testing::Matcher<Res>() const {  // NOLINT runtime/explicit
     struct Impl : testing::MatcherInterface<const Res&> {
       explicit Impl(StatusCode code,
-                    util::optional<testing::Matcher<std::string>> message_matcher)
+                    std::optional<testing::Matcher<std::string>> message_matcher)
           : code_(code), message_matcher_(std::move(message_matcher)) {}
 
       void DescribeTo(::std::ostream* os) const override {
@@ -270,7 +270,7 @@ class ErrorMatcher {
       }
 
       const StatusCode code_;
-      const util::optional<testing::Matcher<std::string>> message_matcher_;
+      const std::optional<testing::Matcher<std::string>> message_matcher_;
     };
 
     return testing::Matcher<Res>(new Impl(code_, message_matcher_));
@@ -278,7 +278,7 @@ class ErrorMatcher {
 
  private:
   const StatusCode code_;
-  const util::optional<testing::Matcher<std::string>> message_matcher_;
+  const std::optional<testing::Matcher<std::string>> message_matcher_;
 };
 
 class OkMatcher {
@@ -324,7 +324,7 @@ inline OkMatcher Ok() { return {}; }
 
 // Returns a matcher that matches the StatusCode of a Status or Result<T>.
 // Do not use Raises(StatusCode::OK) to match a non error code.
-inline ErrorMatcher Raises(StatusCode code) { return ErrorMatcher(code, util::nullopt); }
+inline ErrorMatcher Raises(StatusCode code) { return ErrorMatcher(code, std::nullopt); }
 
 // Returns a matcher that matches the StatusCode and message of a Status or Result<T>.
 template <typename MessageMatcher>
@@ -412,7 +412,7 @@ DataEqMatcher DataEq(Data&& dat) {
 
 /// Constructs an array with ArrayFromJSON against which arguments are matched
 inline DataEqMatcher DataEqArray(const std::shared_ptr<DataType>& type,
-                                 util::string_view json) {
+                                 std::string_view json) {
   return DataEq(ArrayFromJSON(type, json));
 }
 
@@ -421,7 +421,7 @@ template <typename T, typename ArrayType = typename TypeTraits<T>::ArrayType,
           typename BuilderType = typename TypeTraits<T>::BuilderType,
           typename ValueType =
               typename ::arrow::stl::detail::DefaultValueAccessor<ArrayType>::ValueType>
-DataEqMatcher DataEqArray(T type, const std::vector<util::optional<ValueType>>& values) {
+DataEqMatcher DataEqArray(T type, const std::vector<std::optional<ValueType>>& values) {
   // FIXME(bkietz) broken until DataType is move constructible
   BuilderType builder(std::make_shared<T>(std::move(type)), default_memory_pool());
   DCHECK_OK(builder.Reserve(static_cast<int64_t>(values.size())));
@@ -446,14 +446,14 @@ DataEqMatcher DataEqArray(T type, const std::vector<util::optional<ValueType>>&
 
 /// Constructs a scalar with ScalarFromJSON against which arguments are matched
 inline DataEqMatcher DataEqScalar(const std::shared_ptr<DataType>& type,
-                                  util::string_view json) {
+                                  std::string_view json) {
   return DataEq(ScalarFromJSON(type, json));
 }
 
 /// Constructs a scalar against which arguments are matched
 template <typename T, typename ScalarType = typename TypeTraits<T>::ScalarType,
           typename ValueType = typename ScalarType::ValueType>
-DataEqMatcher DataEqScalar(T type, util::optional<ValueType> value) {
+DataEqMatcher DataEqScalar(T type, std::optional<ValueType> value) {
   ScalarType expected(std::make_shared<T>(std::move(type)));
 
   if (value) {
diff --git a/cpp/src/arrow/testing/random.cc b/cpp/src/arrow/testing/random.cc
index f42909a8e27..3213273474a 100644
--- a/cpp/src/arrow/testing/random.cc
+++ b/cpp/src/arrow/testing/random.cc
@@ -45,12 +45,14 @@
 #include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/pcg_random.h"
+#include "arrow/util/string.h"
 #include "arrow/util/value_parsing.h"
 
 namespace arrow {
 
 using internal::checked_cast;
 using internal::checked_pointer_cast;
+using internal::ToChars;
 
 namespace random {
 
@@ -128,13 +130,15 @@ struct GenerateOptions {
 }  // namespace
 
 std::shared_ptr<Buffer> RandomArrayGenerator::NullBitmap(int64_t size,
-                                                         double null_probability) {
+                                                         double null_probability,
+                                                         int64_t alignment,
+                                                         MemoryPool* memory_pool) {
   // The bitmap generator does not care about the value distribution since it
   // only calls the GenerateBitmap method.
   using GenOpt = GenerateOptions<int, std::uniform_int_distribution<int>>;
 
   GenOpt null_gen(seed(), 0, 1, null_probability);
-  std::shared_ptr<Buffer> bitmap = *AllocateEmptyBitmap(size);
+  std::shared_ptr<Buffer> bitmap = *AllocateEmptyBitmap(size, alignment, memory_pool);
   null_gen.GenerateBitmap(bitmap->mutable_data(), size, nullptr);
 
   return bitmap;
@@ -142,7 +146,9 @@ std::shared_ptr<Buffer> RandomArrayGenerator::NullBitmap(int64_t size,
 
 std::shared_ptr<Array> RandomArrayGenerator::Boolean(int64_t size,
                                                      double true_probability,
-                                                     double null_probability) {
+                                                     double null_probability,
+                                                     int64_t alignment,
+                                                     MemoryPool* memory_pool) {
   // The boolean generator does not care about the value distribution since it
   // only calls the GenerateBitmap method.
   using GenOpt = GenerateOptions<int, std::uniform_int_distribution<int>>;
@@ -159,10 +165,10 @@ std::shared_ptr<Array> RandomArrayGenerator::Boolean(int64_t size,
   GenOpt null_gen(seed(), 0, 1, null_probability);
 
   int64_t null_count = 0;
-  buffers[0] = *AllocateEmptyBitmap(size);
+  buffers[0] = *AllocateEmptyBitmap(size, alignment, memory_pool);
   null_gen.GenerateBitmap(buffers[0]->mutable_data(), size, &null_count);
 
-  buffers[1] = *AllocateEmptyBitmap(size);
+  buffers[1] = *AllocateEmptyBitmap(size, alignment, memory_pool);
   value_gen.GenerateBitmap(buffers[1]->mutable_data(), size, nullptr);
 
   auto array_data = ArrayData::Make(arrow::boolean(), size, buffers, null_count);
@@ -176,17 +182,17 @@ void GenerateFullDayMillisNoNan(uint8_t* buffer, size_t n) {
 }
 
 template <typename ArrowType, typename OptionType>
-static std::shared_ptr<NumericArray<ArrowType>> GenerateNumericArray(int64_t size,
-                                                                     OptionType options) {
+static std::shared_ptr<NumericArray<ArrowType>> GenerateNumericArray(
+    int64_t size, OptionType options, int64_t alignment, MemoryPool* memory_pool) {
   using CType = typename ArrowType::c_type;
   auto type = TypeTraits<ArrowType>::type_singleton();
   BufferVector buffers{2};
 
   int64_t null_count = 0;
-  buffers[0] = *AllocateEmptyBitmap(size);
+  buffers[0] = *AllocateEmptyBitmap(size, alignment, memory_pool);
   options.GenerateBitmap(buffers[0]->mutable_data(), size, &null_count);
 
-  buffers[1] = *AllocateBuffer(sizeof(CType) * size);
+  buffers[1] = *AllocateBuffer(sizeof(CType) * size, alignment, memory_pool);
   options.GenerateData(buffers[1]->mutable_data(), size);
   if (std::is_same<ArrowType, Date64Type>::value) {
     GenerateFullDayMillisNoNan(buffers[1]->mutable_data(), size);
@@ -196,12 +202,14 @@ static std::shared_ptr<NumericArray<ArrowType>> GenerateNumericArray(int64_t siz
   return std::make_shared<NumericArray<ArrowType>>(array_data);
 }
 
-#define PRIMITIVE_RAND_IMPL(Name, CType, ArrowType, Distribution)                       \
-  std::shared_ptr<Array> RandomArrayGenerator::Name(int64_t size, CType min, CType max, \
-                                                    double probability) {               \
-    using OptionType = GenerateOptions<CType, Distribution>;                            \
-    OptionType options(seed(), min, max, probability);                                  \
-    return GenerateNumericArray<ArrowType, OptionType>(size, options);                  \
+#define PRIMITIVE_RAND_IMPL(Name, CType, ArrowType, Distribution)                \
+  std::shared_ptr<Array> RandomArrayGenerator::Name(                             \
+      int64_t size, CType min, CType max, double probability, int64_t alignment, \
+      MemoryPool* memory_pool) {                                                 \
+    using OptionType = GenerateOptions<CType, Distribution>;                     \
+    OptionType options(seed(), min, max, probability);                           \
+    return GenerateNumericArray<ArrowType, OptionType>(size, options, alignment, \
+                                                       memory_pool);             \
   }
 
 #define PRIMITIVE_RAND_INTEGER_IMPL(Name, CType, ArrowType) \
@@ -221,29 +229,37 @@ PRIMITIVE_RAND_INTEGER_IMPL(Int64, int64_t, Int64Type)
 PRIMITIVE_RAND_INTEGER_IMPL(Float16, int16_t, HalfFloatType)
 
 std::shared_ptr<Array> RandomArrayGenerator::Date64(int64_t size, int64_t min,
-                                                    int64_t max,
-                                                    double null_probability) {
+                                                    int64_t max, double null_probability,
+                                                    int64_t alignment,
+                                                    MemoryPool* memory_pool) {
   using OptionType = GenerateOptions<int64_t, std::uniform_int_distribution<int64_t>>;
   OptionType options(seed(), min, max, null_probability);
-  return GenerateNumericArray<Date64Type, OptionType>(size, options);
+  return GenerateNumericArray<Date64Type, OptionType>(size, options, alignment,
+                                                      memory_pool);
 }
 
 std::shared_ptr<Array> RandomArrayGenerator::Float32(int64_t size, float min, float max,
                                                      double null_probability,
-                                                     double nan_probability) {
+                                                     double nan_probability,
+                                                     int64_t alignment,
+                                                     MemoryPool* memory_pool) {
   using OptionType =
       GenerateOptions<float, ::arrow::random::uniform_real_distribution<float>>;
   OptionType options(seed(), min, max, null_probability, nan_probability);
-  return GenerateNumericArray<FloatType, OptionType>(size, options);
+  return GenerateNumericArray<FloatType, OptionType>(size, options, alignment,
+                                                     memory_pool);
 }
 
 std::shared_ptr<Array> RandomArrayGenerator::Float64(int64_t size, double min, double max,
                                                      double null_probability,
-                                                     double nan_probability) {
+                                                     double nan_probability,
+                                                     int64_t alignment,
+                                                     MemoryPool* memory_pool) {
   using OptionType =
       GenerateOptions<double, ::arrow::random::uniform_real_distribution<double>>;
   OptionType options(seed(), min, max, null_probability, nan_probability);
-  return GenerateNumericArray<DoubleType, OptionType>(size, options);
+  return GenerateNumericArray<DoubleType, OptionType>(size, options, alignment,
+                                                      memory_pool);
 }
 
 #undef PRIMITIVE_RAND_INTEGER_IMPL
@@ -267,7 +283,8 @@ struct DecimalGenerator {
     return static_cast<uint64_t>(std::ceil(std::pow(10.0, digits))) - 1;
   }
 
-  std::shared_ptr<Array> MakeRandomArray(int64_t size, double null_probability) {
+  std::shared_ptr<Array> MakeRandomArray(int64_t size, double null_probability,
+                                         int64_t alignment, MemoryPool* memory_pool) {
     // 10**19 fits in a 64-bit unsigned integer
     static constexpr int32_t kMaxDigitsInInteger = 19;
     static constexpr int kNumIntegers = DecimalType::kByteWidth / 8;
@@ -281,22 +298,23 @@ struct DecimalGenerator {
     // boolean sign (including null-ness), and uint64 "digits" in big endian order.
     const auto& decimal_type = checked_cast<const DecimalType&>(*type_);
 
-    const auto sign_array = checked_pointer_cast<BooleanArray>(
-        rng_->Boolean(size, /*true_probability=*/0.5, null_probability));
+    const auto sign_array = checked_pointer_cast<BooleanArray>(rng_->Boolean(
+        size, /*true_probability=*/0.5, null_probability, alignment, memory_pool));
     std::array<std::shared_ptr<UInt64Array>, kNumIntegers> digit_arrays;
 
     auto remaining_digits = decimal_type.precision();
     for (int i = kNumIntegers - 1; i >= 0; --i) {
       const auto digits = std::min(kMaxDigitsInInteger, remaining_digits);
       digit_arrays[i] = checked_pointer_cast<UInt64Array>(
-          rng_->UInt64(size, 0, MaxDecimalInteger(digits)));
+          rng_->UInt64(size, 0, MaxDecimalInteger(digits), /*null_probability=*/0,
+                       alignment, memory_pool));
       DCHECK_EQ(digit_arrays[i]->null_count(), 0);
       remaining_digits -= digits;
     }
 
     // Second compute decimal values from the individual components,
     // building up a decimal array.
-    DecimalBuilderType builder(type_);
+    DecimalBuilderType builder(type_, memory_pool, alignment);
     ABORT_NOT_OK(builder.Reserve(size));
 
     const DecimalValue kDigitsMultiplier =
@@ -328,22 +346,28 @@ struct DecimalGenerator {
 
 std::shared_ptr<Array> RandomArrayGenerator::Decimal128(std::shared_ptr<DataType> type,
                                                         int64_t size,
-                                                        double null_probability) {
+                                                        double null_probability,
+                                                        int64_t alignment,
+                                                        MemoryPool* memory_pool) {
   DecimalGenerator<Decimal128Type> gen{type, this};
-  return gen.MakeRandomArray(size, null_probability);
+  return gen.MakeRandomArray(size, null_probability, alignment, memory_pool);
 }
 
 std::shared_ptr<Array> RandomArrayGenerator::Decimal256(std::shared_ptr<DataType> type,
                                                         int64_t size,
-                                                        double null_probability) {
+                                                        double null_probability,
+                                                        int64_t alignment,
+                                                        MemoryPool* memory_pool) {
   DecimalGenerator<Decimal256Type> gen{type, this};
-  return gen.MakeRandomArray(size, null_probability);
+  return gen.MakeRandomArray(size, null_probability, alignment, memory_pool);
 }
 
 template <typename TypeClass>
 static std::shared_ptr<Array> GenerateBinaryArray(RandomArrayGenerator* gen, int64_t size,
                                                   int32_t min_length, int32_t max_length,
-                                                  double null_probability) {
+                                                  double null_probability,
+                                                  int64_t alignment,
+                                                  MemoryPool* memory_pool) {
   using offset_type = typename TypeClass::offset_type;
   using BuilderType = typename TypeTraits<TypeClass>::BuilderType;
   using OffsetArrowType = typename CTypeTraits<offset_type>::ArrowType;
@@ -353,8 +377,8 @@ static std::shared_ptr<Array> GenerateBinaryArray(RandomArrayGenerator* gen, int
     ABORT_NOT_OK(Status::Invalid("null_probability must be between 0 and 1"));
   }
 
-  auto lengths = std::dynamic_pointer_cast<OffsetArrayType>(
-      gen->Numeric<OffsetArrowType>(size, min_length, max_length, null_probability));
+  auto lengths = std::dynamic_pointer_cast<OffsetArrayType>(gen->Numeric<OffsetArrowType>(
+      size, min_length, max_length, null_probability, alignment, memory_pool));
 
   // Visual Studio does not implement uniform_int_distribution for char types.
   using GenOpt = GenerateOptions<uint8_t, std::uniform_int_distribution<uint16_t>>;
@@ -362,7 +386,7 @@ static std::shared_ptr<Array> GenerateBinaryArray(RandomArrayGenerator* gen, int
                  /*null_probability=*/0);
 
   std::vector<uint8_t> str_buffer(max_length);
-  BuilderType builder;
+  BuilderType builder(memory_pool, alignment);
 
   for (int64_t i = 0; i < size; ++i) {
     if (lengths->IsValid(i)) {
@@ -380,34 +404,34 @@ static std::shared_ptr<Array> GenerateBinaryArray(RandomArrayGenerator* gen, int
 
 std::shared_ptr<Array> RandomArrayGenerator::String(int64_t size, int32_t min_length,
                                                     int32_t max_length,
-                                                    double null_probability) {
+                                                    double null_probability,
+                                                    int64_t alignment,
+                                                    MemoryPool* memory_pool) {
   return GenerateBinaryArray<StringType>(this, size, min_length, max_length,
-                                         null_probability);
+                                         null_probability, alignment, memory_pool);
 }
 
 std::shared_ptr<Array> RandomArrayGenerator::LargeString(int64_t size, int32_t min_length,
                                                          int32_t max_length,
-                                                         double null_probability) {
+                                                         double null_probability,
+                                                         int64_t alignment,
+                                                         MemoryPool* memory_pool) {
   return GenerateBinaryArray<LargeStringType>(this, size, min_length, max_length,
-                                              null_probability);
+                                              null_probability, alignment, memory_pool);
 }
 
-std::shared_ptr<Array> RandomArrayGenerator::BinaryWithRepeats(int64_t size,
-                                                               int64_t unique,
-                                                               int32_t min_length,
-                                                               int32_t max_length,
-                                                               double null_probability) {
-  auto strings =
-      StringWithRepeats(size, unique, min_length, max_length, null_probability);
+std::shared_ptr<Array> RandomArrayGenerator::BinaryWithRepeats(
+    int64_t size, int64_t unique, int32_t min_length, int32_t max_length,
+    double null_probability, int64_t alignment, MemoryPool* memory_pool) {
+  auto strings = StringWithRepeats(size, unique, min_length, max_length, null_probability,
+                                   alignment, memory_pool);
   std::shared_ptr<Array> out;
   return *strings->View(binary());
 }
 
-std::shared_ptr<Array> RandomArrayGenerator::StringWithRepeats(int64_t size,
-                                                               int64_t unique,
-                                                               int32_t min_length,
-                                                               int32_t max_length,
-                                                               double null_probability) {
+std::shared_ptr<Array> RandomArrayGenerator::StringWithRepeats(
+    int64_t size, int64_t unique, int32_t min_length, int32_t max_length,
+    double null_probability, int64_t alignment, MemoryPool* memory_pool) {
   ARROW_CHECK_LE(unique, size);
 
   // Generate a random string dictionary without any nulls
@@ -436,7 +460,9 @@ std::shared_ptr<Array> RandomArrayGenerator::StringWithRepeats(int64_t size,
 
 std::shared_ptr<Array> RandomArrayGenerator::FixedSizeBinary(int64_t size,
                                                              int32_t byte_width,
-                                                             double null_probability) {
+                                                             double null_probability,
+                                                             int64_t alignment,
+                                                             MemoryPool* memory_pool) {
   if (null_probability < 0 || null_probability > 1) {
     ABORT_NOT_OK(Status::Invalid("null_probability must be between 0 and 1"));
   }
@@ -447,8 +473,8 @@ std::shared_ptr<Array> RandomArrayGenerator::FixedSizeBinary(int64_t size,
                  null_probability);
 
   int64_t null_count = 0;
-  auto null_bitmap = *AllocateEmptyBitmap(size);
-  auto data_buffer = *AllocateBuffer(size * byte_width);
+  auto null_bitmap = *AllocateEmptyBitmap(size, alignment, memory_pool);
+  auto data_buffer = *AllocateBuffer(size * byte_width, alignment, memory_pool);
   options.GenerateBitmap(null_bitmap->mutable_data(), size, &null_count);
   options.GenerateData(data_buffer->mutable_data(), size * byte_width);
 
@@ -462,7 +488,8 @@ template <typename OffsetArrayType>
 std::shared_ptr<Array> GenerateOffsets(SeedType seed, int64_t size,
                                        typename OffsetArrayType::value_type first_offset,
                                        typename OffsetArrayType::value_type last_offset,
-                                       double null_probability, bool force_empty_nulls) {
+                                       double null_probability, bool force_empty_nulls,
+                                       int64_t alignment, MemoryPool* memory_pool) {
   using GenOpt = GenerateOptions<
       typename OffsetArrayType::value_type,
       std::uniform_int_distribution<typename OffsetArrayType::value_type>>;
@@ -472,7 +499,7 @@ std::shared_ptr<Array> GenerateOffsets(SeedType seed, int64_t size,
 
   int64_t null_count = 0;
 
-  buffers[0] = *AllocateEmptyBitmap(size);
+  buffers[0] = *AllocateEmptyBitmap(size, alignment, memory_pool);
   uint8_t* null_bitmap = buffers[0]->mutable_data();
   options.GenerateBitmap(null_bitmap, size, &null_count);
   // Make sure the first and last entry are non-null
@@ -483,7 +510,8 @@ std::shared_ptr<Array> GenerateOffsets(SeedType seed, int64_t size,
     }
   }
 
-  buffers[1] = *AllocateBuffer(sizeof(typename OffsetArrayType::value_type) * size);
+  buffers[1] = *AllocateBuffer(sizeof(typename OffsetArrayType::value_type) * size,
+                               alignment, memory_pool);
   auto data =
       reinterpret_cast<typename OffsetArrayType::value_type*>(buffers[1]->mutable_data());
   options.GenerateTypedData(data, size);
@@ -514,22 +542,22 @@ std::shared_ptr<Array> GenerateOffsets(SeedType seed, int64_t size,
 
 template <typename OffsetArrayType>
 std::shared_ptr<Array> OffsetsFromLengthsArray(OffsetArrayType* lengths,
-                                               bool force_empty_nulls) {
-  DCHECK(lengths->length() == 0 || !lengths->IsNull(0));
-  DCHECK(lengths->length() == 0 || !lengths->IsNull(lengths->length() - 1));
+                                               bool force_empty_nulls, int64_t alignment,
+                                               MemoryPool* memory_pool) {
   // Need N + 1 offsets for N items
   int64_t size = lengths->length() + 1;
   BufferVector buffers{2};
 
   int64_t null_count = 0;
 
-  buffers[0] = *AllocateEmptyBitmap(size);
+  buffers[0] = *AllocateEmptyBitmap(size, alignment, memory_pool);
   uint8_t* null_bitmap = buffers[0]->mutable_data();
   // Make sure the first and last entry are non-null
   arrow::bit_util::SetBit(null_bitmap, 0);
   arrow::bit_util::SetBit(null_bitmap, size - 1);
 
-  buffers[1] = *AllocateBuffer(sizeof(typename OffsetArrayType::value_type) * size);
+  buffers[1] = *AllocateBuffer(sizeof(typename OffsetArrayType::value_type) * size,
+                               alignment, memory_pool);
   auto data =
       reinterpret_cast<typename OffsetArrayType::value_type*>(buffers[1]->mutable_data());
   data[0] = 0;
@@ -539,6 +567,9 @@ std::shared_ptr<Array> OffsetsFromLengthsArray(OffsetArrayType* lengths,
       arrow::bit_util::SetBit(null_bitmap, index);
       data[index] = data[index - 1] + *length;
       DCHECK_GE(*length, 0);
+    } else if (index == size - 1) {
+      // Last list offset is non-null (see above)
+      data[index] = data[index - 1];
     } else {
       data[index] = data[index - 1];
       null_count++;
@@ -547,8 +578,8 @@ std::shared_ptr<Array> OffsetsFromLengthsArray(OffsetArrayType* lengths,
   }
 
   if (force_empty_nulls) {
-    arrow::internal::BitmapReader reader(null_bitmap, 0, size);
-    for (int64_t i = 0; i < size; ++i) {
+    arrow::internal::BitmapReader reader(null_bitmap, 0, size - 1);
+    for (int64_t i = 0; i < size - 1; ++i) {
       if (reader.IsNotSet()) {
         // Ensure a null entry corresponds to a 0-sized list extent
         // (note this can be neither the first nor the last list entry, see above)
@@ -564,68 +595,75 @@ std::shared_ptr<Array> OffsetsFromLengthsArray(OffsetArrayType* lengths,
 }
 }  // namespace
 
-std::shared_ptr<Array> RandomArrayGenerator::Offsets(int64_t size, int32_t first_offset,
-                                                     int32_t last_offset,
-                                                     double null_probability,
-                                                     bool force_empty_nulls) {
+std::shared_ptr<Array> RandomArrayGenerator::Offsets(
+    int64_t size, int32_t first_offset, int32_t last_offset, double null_probability,
+    bool force_empty_nulls, int64_t alignment, MemoryPool* memory_pool) {
   return GenerateOffsets<NumericArray<Int32Type>>(seed(), size, first_offset, last_offset,
-                                                  null_probability, force_empty_nulls);
+                                                  null_probability, force_empty_nulls,
+                                                  alignment, memory_pool);
 }
 
-std::shared_ptr<Array> RandomArrayGenerator::LargeOffsets(int64_t size,
-                                                          int64_t first_offset,
-                                                          int64_t last_offset,
-                                                          double null_probability,
-                                                          bool force_empty_nulls) {
+std::shared_ptr<Array> RandomArrayGenerator::LargeOffsets(
+    int64_t size, int64_t first_offset, int64_t last_offset, double null_probability,
+    bool force_empty_nulls, int64_t alignment, MemoryPool* memory_pool) {
   return GenerateOffsets<NumericArray<Int64Type>>(seed(), size, first_offset, last_offset,
-                                                  null_probability, force_empty_nulls);
+                                                  null_probability, force_empty_nulls,
+                                                  alignment, memory_pool);
 }
 
 std::shared_ptr<Array> RandomArrayGenerator::List(const Array& values, int64_t size,
                                                   double null_probability,
-                                                  bool force_empty_nulls) {
+                                                  bool force_empty_nulls,
+                                                  int64_t alignment,
+                                                  MemoryPool* memory_pool) {
   auto offsets = Offsets(size + 1, static_cast<int32_t>(values.offset()),
                          static_cast<int32_t>(values.offset() + values.length()),
-                         null_probability, force_empty_nulls);
+                         null_probability, force_empty_nulls, alignment, memory_pool);
   return *::arrow::ListArray::FromArrays(*offsets, values);
 }
 
 std::shared_ptr<Array> RandomArrayGenerator::Map(const std::shared_ptr<Array>& keys,
                                                  const std::shared_ptr<Array>& items,
                                                  int64_t size, double null_probability,
-                                                 bool force_empty_nulls) {
+                                                 bool force_empty_nulls,
+                                                 int64_t alignment,
+                                                 MemoryPool* memory_pool) {
   DCHECK_EQ(keys->length(), items->length());
   auto offsets = Offsets(size + 1, static_cast<int32_t>(keys->offset()),
                          static_cast<int32_t>(keys->offset() + keys->length()),
-                         null_probability, force_empty_nulls);
+                         null_probability, force_empty_nulls, alignment, memory_pool);
   return *::arrow::MapArray::FromArrays(offsets, keys, items);
 }
 
 std::shared_ptr<Array> RandomArrayGenerator::SparseUnion(const ArrayVector& fields,
-                                                         int64_t size) {
+                                                         int64_t size, int64_t alignment,
+                                                         MemoryPool* memory_pool) {
   DCHECK_GT(fields.size(), 0);
   // Trivial type codes map
   std::vector<UnionArray::type_code_t> type_codes(fields.size());
   std::iota(type_codes.begin(), type_codes.end(), 0);
 
   // Generate array of type ids
-  auto type_ids = Int8(size, 0, static_cast<int8_t>(fields.size() - 1));
+  auto type_ids = Int8(size, 0, static_cast<int8_t>(fields.size() - 1),
+                       /*null_probability=*/0, alignment, memory_pool);
   return *SparseUnionArray::Make(*type_ids, fields, type_codes);
 }
 
 std::shared_ptr<Array> RandomArrayGenerator::DenseUnion(const ArrayVector& fields,
-                                                        int64_t size) {
+                                                        int64_t size, int64_t alignment,
+                                                        MemoryPool* memory_pool) {
   DCHECK_GT(fields.size(), 0);
   // Trivial type codes map
   std::vector<UnionArray::type_code_t> type_codes(fields.size());
   std::iota(type_codes.begin(), type_codes.end(), 0);
 
   // Generate array of type ids
-  auto type_ids = Int8(size, 0, static_cast<int8_t>(fields.size() - 1));
+  auto type_ids = Int8(size, 0, static_cast<int8_t>(fields.size() - 1),
+                       /*null_probability=*/0, alignment, memory_pool);
 
   // Generate array of offsets
   const auto& concrete_ids = checked_cast<const Int8Array&>(*type_ids);
-  Int32Builder offsets_builder;
+  Int32Builder offsets_builder(memory_pool, alignment);
   ABORT_NOT_OK(offsets_builder.Reserve(size));
   std::vector<int32_t> last_offsets(fields.size(), 0);
   for (int64_t i = 0; i < size; ++i) {
@@ -661,14 +699,17 @@ enable_if_parameter_free<ArrowType, T> GetMetadata(const KeyValueMetadata* metad
 
 std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(std::shared_ptr<DataType> type,
                                                      int64_t size,
-                                                     double null_probability) {
-  auto metadata =
-      key_value_metadata({"null_probability"}, {std::to_string(null_probability)});
+                                                     double null_probability,
+                                                     int64_t alignment,
+                                                     MemoryPool* memory_pool) {
+  auto metadata = key_value_metadata({"null_probability"}, {ToChars(null_probability)});
   auto field = ::arrow::field("", std::move(type), std::move(metadata));
-  return ArrayOf(*field, size);
+  return ArrayOf(*field, size, alignment, memory_pool);
 }
 
-std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t length) {
+std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t length,
+                                                     int64_t alignment,
+                                                     MemoryPool* memory_pool) {
 #define VALIDATE_RANGE(PARAM, MIN, MAX)                                          \
   if (PARAM < MIN || PARAM > MAX) {                                              \
     ABORT_NOT_OK(Status::Invalid(field.ToString(), ": ", ARROW_STRINGIFY(PARAM), \
@@ -687,7 +728,8 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
     const BASE_TYPE::c_type max_value = GetMetadata<BASE_TYPE::c_type>(                \
         field.metadata().get(), "max", std::numeric_limits<BASE_TYPE::c_type>::max()); \
     VALIDATE_MIN_MAX(min_value, max_value);                                            \
-    return *Numeric<BASE_TYPE>(length, min_value, max_value, null_probability)         \
+    return *Numeric<BASE_TYPE>(length, min_value, max_value, null_probability,         \
+                               alignment, memory_pool)                                 \
                 ->View(field.type());                                                  \
   }
 #define GENERATE_INTEGRAL_CASE(ARROW_TYPE) \
@@ -703,7 +745,7 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
     VALIDATE_MIN_MAX(min_value, max_value);                                             \
     VALIDATE_RANGE(nan_probability, 0.0, 1.0);                                          \
     return GENERATOR_FUNC(length, min_value, max_value, null_probability,               \
-                          nan_probability);                                             \
+                          nan_probability, alignment, memory_pool);                     \
   }
 
   // Don't use compute::Sum since that may not get built
@@ -726,8 +768,9 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
     const auto values =                                                              \
         ArrayOf(*internal::checked_pointer_cast<ARRAY_TYPE::TypeClass>(field.type()) \
                      ->value_field(),                                                \
-                values_length);                                                      \
-    const auto offsets = OffsetsFromLengthsArray(lengths.get(), force_empty_nulls);  \
+                values_length, alignment, memory_pool);                              \
+    const auto offsets = OffsetsFromLengthsArray(lengths.get(), force_empty_nulls,   \
+                                                 alignment, memory_pool);            \
     return *ARRAY_TYPE::FromArrays(*offsets, *values);                               \
   }
 
@@ -744,7 +787,7 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
     case Type::type::BOOL: {
       const double true_probability =
           GetMetadata<double>(field.metadata().get(), "true_probability", 0.5);
-      return Boolean(length, true_probability, null_probability);
+      return Boolean(length, true_probability, null_probability, alignment, memory_pool);
     }
 
       GENERATE_INTEGRAL_CASE(UInt8Type);
@@ -769,23 +812,26 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
           GetMetadata<int32_t>(field.metadata().get(), "unique", -1);
       if (unique_values > 0) {
         return *StringWithRepeats(length, unique_values, min_length, max_length,
-                                  null_probability)
+                                  null_probability, alignment, memory_pool)
                     ->View(field.type());
       }
-      return *String(length, min_length, max_length, null_probability)
+      return *String(length, min_length, max_length, null_probability, alignment,
+                     memory_pool)
                   ->View(field.type());
     }
 
     case Type::type::DECIMAL128:
-      return Decimal128(field.type(), length, null_probability);
+      return Decimal128(field.type(), length, null_probability, alignment, memory_pool);
 
     case Type::type::DECIMAL256:
-      return Decimal256(field.type(), length, null_probability);
+      return Decimal256(field.type(), length, null_probability, alignment, memory_pool);
 
     case Type::type::FIXED_SIZE_BINARY: {
       auto byte_width =
           internal::checked_pointer_cast<FixedSizeBinaryType>(field.type())->byte_width();
-      return *FixedSizeBinary(length, byte_width, null_probability)->View(field.type());
+      return *FixedSizeBinary(length, byte_width, null_probability, alignment,
+                              memory_pool)
+                  ->View(field.type());
     }
 
       GENERATE_INTEGRAL_CASE_VIEW(Int32Type, Date32Type);
@@ -803,7 +849,8 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
       const c_type max_value =
           GetMetadata<c_type>(field.metadata().get(), "max", kDefaultMax);
 
-      return *Numeric<Date64Type>(length, min_value, max_value, null_probability)
+      return *Numeric<Date64Type>(length, min_value, max_value, null_probability,
+                                  alignment, memory_pool)
                   ->View(field.type());
     }
 
@@ -815,7 +862,8 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
       const c_type max_value =
           (unit == TimeUnit::SECOND) ? (60 * 60 * 24 - 1) : (1000 * 60 * 60 * 24 - 1);
 
-      return *Numeric<Int32Type>(length, min_value, max_value, null_probability)
+      return *Numeric<Int32Type>(length, min_value, max_value, null_probability,
+                                 alignment, memory_pool)
                   ->View(field.type());
     }
 
@@ -828,7 +876,8 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
                                    ? (1000000LL * 60 * 60 * 24 - 1)
                                    : (1000000000LL * 60 * 60 * 24 - 1);
 
-      return *Numeric<Int64Type>(length, min_value, max_value, null_probability)
+      return *Numeric<Int64Type>(length, min_value, max_value, null_probability,
+                                 alignment, memory_pool)
                   ->View(field.type());
     }
 
@@ -836,7 +885,8 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
       // type means it's not a (useful) composition of other generators
       GENERATE_INTEGRAL_CASE_VIEW(Int64Type, DayTimeIntervalType);
     case Type::type::INTERVAL_MONTH_DAY_NANO: {
-      return *FixedSizeBinary(length, /*byte_width=*/16, null_probability)
+      return *FixedSizeBinary(length, /*byte_width=*/16, null_probability, alignment,
+                              memory_pool)
                   ->View(month_day_nano_interval());
     }
 
@@ -847,11 +897,12 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
       std::vector<std::string> field_names;
       for (int i = 0; i < field.type()->num_fields(); i++) {
         const auto& child_field = field.type()->field(i);
-        child_arrays[i] = ArrayOf(*child_field, length);
+        child_arrays[i] = ArrayOf(*child_field, length, alignment, memory_pool);
         field_names.push_back(child_field->name());
       }
-      return *StructArray::Make(child_arrays, field_names,
-                                NullBitmap(length, null_probability));
+      return *StructArray::Make(
+          child_arrays, field_names,
+          NullBitmap(length, null_probability, alignment, memory_pool));
     }
 
     case Type::type::SPARSE_UNION:
@@ -859,11 +910,11 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
       ArrayVector child_arrays(field.type()->num_fields());
       for (int i = 0; i < field.type()->num_fields(); i++) {
         const auto& child_field = field.type()->field(i);
-        child_arrays[i] = ArrayOf(*child_field, length);
+        child_arrays[i] = ArrayOf(*child_field, length, alignment, memory_pool);
       }
       auto array = field.type()->id() == Type::type::SPARSE_UNION
-                       ? SparseUnion(child_arrays, length)
-                       : DenseUnion(child_arrays, length);
+                       ? SparseUnion(child_arrays, length, alignment, memory_pool)
+                       : DenseUnion(child_arrays, length, alignment, memory_pool);
       return *array->View(field.type());
     }
 
@@ -874,17 +925,17 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
       // TODO: no way to control generation of dictionary
       auto values =
           ArrayOf(*arrow::field("temporary", dict_type->value_type(), /*nullable=*/false),
-                  values_length);
+                  values_length, alignment, memory_pool);
       auto merged = field.metadata() ? field.metadata() : key_value_metadata({}, {});
       if (merged->Contains("min"))
         ABORT_NOT_OK(Status::Invalid(field.ToString(), ": cannot specify min"));
       if (merged->Contains("max"))
         ABORT_NOT_OK(Status::Invalid(field.ToString(), ": cannot specify max"));
-      merged = merged->Merge(*key_value_metadata(
-          {{"min", "0"}, {"max", std::to_string(values_length - 1)}}));
+      merged = merged->Merge(
+          *key_value_metadata({{"min", "0"}, {"max", ToChars(values_length - 1)}}));
       auto indices = ArrayOf(
           *arrow::field("temporary", dict_type->index_type(), field.nullable(), merged),
-          length);
+          length, alignment, memory_pool);
       return *DictionaryArray::FromArrays(field.type(), indices, values);
     }
 
@@ -894,11 +945,12 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
       const auto force_empty_nulls =
           GetMetadata<bool>(field.metadata().get(), "force_empty_nulls", false);
       auto map_type = internal::checked_pointer_cast<MapType>(field.type());
-      auto keys = ArrayOf(*map_type->key_field(), values_length);
-      auto items = ArrayOf(*map_type->item_field(), values_length);
+      auto keys = ArrayOf(*map_type->key_field(), values_length, alignment, memory_pool);
+      auto items =
+          ArrayOf(*map_type->item_field(), values_length, alignment, memory_pool);
       // need N + 1 offsets to have N values
-      auto offsets =
-          Offsets(length + 1, 0, values_length, null_probability, force_empty_nulls);
+      auto offsets = Offsets(length + 1, 0, values_length, null_probability,
+                             force_empty_nulls, alignment, memory_pool);
       return *MapArray::FromArrays(map_type, offsets, keys, items);
     }
 
@@ -910,8 +962,9 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
     case Type::type::FIXED_SIZE_LIST: {
       auto list_type = internal::checked_pointer_cast<FixedSizeListType>(field.type());
       const int64_t values_length = list_type->list_size() * length;
-      auto values = ArrayOf(*list_type->value_field(), values_length);
-      auto null_bitmap = NullBitmap(length, null_probability);
+      auto values =
+          ArrayOf(*list_type->value_field(), values_length, alignment, memory_pool);
+      auto null_bitmap = NullBitmap(length, null_probability, alignment, memory_pool);
       return std::make_shared<FixedSizeListArray>(list_type, length, values, null_bitmap);
     }
 
@@ -930,7 +983,8 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
             Status::NotImplemented("Generating random array with repeated values for "
                                    "large string/large binary types"));
       }
-      return *LargeString(length, min_length, max_length, null_probability)
+      return *LargeString(length, min_length, max_length, null_probability, alignment,
+                          memory_pool)
                   ->View(field.type());
     }
 
@@ -952,23 +1006,27 @@ std::shared_ptr<Array> RandomArrayGenerator::ArrayOf(const Field& field, int64_t
 }
 
 std::shared_ptr<arrow::RecordBatch> RandomArrayGenerator::BatchOf(
-    const FieldVector& fields, int64_t length) {
+    const FieldVector& fields, int64_t length, int64_t alignment,
+    MemoryPool* memory_pool) {
   std::vector<std::shared_ptr<Array>> arrays(fields.size());
   for (size_t i = 0; i < fields.size(); i++) {
     const auto& field = fields[i];
-    arrays[i] = ArrayOf(*field, length);
+    arrays[i] = ArrayOf(*field, length, alignment, memory_pool);
   }
   return RecordBatch::Make(schema(fields), length, std::move(arrays));
 }
 
 std::shared_ptr<arrow::Array> GenerateArray(const Field& field, int64_t length,
-                                            SeedType seed) {
-  return RandomArrayGenerator(seed).ArrayOf(field, length);
+                                            SeedType seed, int64_t alignment,
+                                            MemoryPool* memory_pool) {
+  return RandomArrayGenerator(seed).ArrayOf(field, length, alignment, memory_pool);
 }
 
 std::shared_ptr<arrow::RecordBatch> GenerateBatch(const FieldVector& fields,
-                                                  int64_t length, SeedType seed) {
-  return RandomArrayGenerator(seed).BatchOf(fields, length);
+                                                  int64_t length, SeedType seed,
+                                                  int64_t alignment,
+                                                  MemoryPool* memory_pool) {
+  return RandomArrayGenerator(seed).BatchOf(fields, length, alignment, memory_pool);
 }
 }  // namespace random
 
diff --git a/cpp/src/arrow/testing/random.h b/cpp/src/arrow/testing/random.h
index 00d50f9bc08..b2e3a609a22 100644
--- a/cpp/src/arrow/testing/random.h
+++ b/cpp/src/arrow/testing/random.h
@@ -47,30 +47,41 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   ///
   /// \param[in] size the size of the bitmap to generate
   /// \param[in] null_probability the probability of a bit being zero
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Buffer
-  std::shared_ptr<Buffer> NullBitmap(int64_t size, double null_probability = 0);
+  std::shared_ptr<Buffer> NullBitmap(int64_t size, double null_probability = 0,
+                                     int64_t alignment = kDefaultBufferAlignment,
+                                     MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random BooleanArray
   ///
   /// \param[in] size the size of the array to generate
   /// \param[in] true_probability the probability of a value being 1 / bit-set
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> Boolean(int64_t size, double true_probability,
-                                 double null_probability = 0);
-
+                                 double null_probability = 0,
+                                 int64_t alignment = kDefaultBufferAlignment,
+                                 MemoryPool* memory_pool = default_memory_pool());
   /// \brief Generate a random UInt8Array
   ///
   /// \param[in] size the size of the array to generate
   /// \param[in] min the lower bound of the uniform distribution
   /// \param[in] max the upper bound of the uniform distribution
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> UInt8(int64_t size, uint8_t min, uint8_t max,
-                               double null_probability = 0);
+                               double null_probability = 0,
+                               int64_t alignment = kDefaultBufferAlignment,
+                               MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random Int8Array
   ///
@@ -78,10 +89,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] min the lower bound of the uniform distribution
   /// \param[in] max the upper bound of the uniform distribution
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> Int8(int64_t size, int8_t min, int8_t max,
-                              double null_probability = 0);
+                              double null_probability = 0,
+                              int64_t alignment = kDefaultBufferAlignment,
+                              MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random UInt16Array
   ///
@@ -89,10 +104,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] min the lower bound of the uniform distribution
   /// \param[in] max the upper bound of the uniform distribution
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> UInt16(int64_t size, uint16_t min, uint16_t max,
-                                double null_probability = 0);
+                                double null_probability = 0,
+                                int64_t alignment = kDefaultBufferAlignment,
+                                MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random Int16Array
   ///
@@ -100,10 +119,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] min the lower bound of the uniform distribution
   /// \param[in] max the upper bound of the uniform distribution
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> Int16(int64_t size, int16_t min, int16_t max,
-                               double null_probability = 0);
+                               double null_probability = 0,
+                               int64_t alignment = kDefaultBufferAlignment,
+                               MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random UInt32Array
   ///
@@ -111,10 +134,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] min the lower bound of the uniform distribution
   /// \param[in] max the upper bound of the uniform distribution
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> UInt32(int64_t size, uint32_t min, uint32_t max,
-                                double null_probability = 0);
+                                double null_probability = 0,
+                                int64_t alignment = kDefaultBufferAlignment,
+                                MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random Int32Array
   ///
@@ -122,10 +149,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] min the lower bound of the uniform distribution
   /// \param[in] max the upper bound of the uniform distribution
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> Int32(int64_t size, int32_t min, int32_t max,
-                               double null_probability = 0);
+                               double null_probability = 0,
+                               int64_t alignment = kDefaultBufferAlignment,
+                               MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random UInt64Array
   ///
@@ -133,10 +164,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] min the lower bound of the uniform distribution
   /// \param[in] max the upper bound of the uniform distribution
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> UInt64(int64_t size, uint64_t min, uint64_t max,
-                                double null_probability = 0);
+                                double null_probability = 0,
+                                int64_t alignment = kDefaultBufferAlignment,
+                                MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random Int64Array
   ///
@@ -144,10 +179,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] min the lower bound of the uniform distribution
   /// \param[in] max the upper bound of the uniform distribution
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> Int64(int64_t size, int64_t min, int64_t max,
-                               double null_probability = 0);
+                               double null_probability = 0,
+                               int64_t alignment = kDefaultBufferAlignment,
+                               MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random HalfFloatArray
   ///
@@ -155,10 +194,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] min the lower bound of the distribution
   /// \param[in] max the upper bound of the distribution
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> Float16(int64_t size, int16_t min, int16_t max,
-                                 double null_probability = 0);
+                                 double null_probability = 0,
+                                 int64_t alignment = kDefaultBufferAlignment,
+                                 MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random FloatArray
   ///
@@ -167,10 +210,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] max the upper bound of the uniform distribution
   /// \param[in] null_probability the probability of a value being null
   /// \param[in] nan_probability the probability of a value being NaN
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> Float32(int64_t size, float min, float max,
-                                 double null_probability = 0, double nan_probability = 0);
+                                 double null_probability = 0, double nan_probability = 0,
+                                 int64_t alignment = kDefaultBufferAlignment,
+                                 MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random DoubleArray
   ///
@@ -179,10 +226,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] max the upper bound of the uniform distribution
   /// \param[in] null_probability the probability of a value being null
   /// \param[in] nan_probability the probability of a value being NaN
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> Float64(int64_t size, double min, double max,
-                                 double null_probability = 0, double nan_probability = 0);
+                                 double null_probability = 0, double nan_probability = 0,
+                                 int64_t alignment = kDefaultBufferAlignment,
+                                 MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random Date64Array
   ///
@@ -190,51 +241,57 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] min the lower bound of the uniform distribution
   /// \param[in] max the upper bound of the uniform distribution
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> Date64(int64_t size, int64_t min, int64_t max,
-                                double null_probability = 0);
+                                double null_probability = 0,
+                                int64_t alignment = kDefaultBufferAlignment,
+                                MemoryPool* memory_pool = default_memory_pool());
 
   template <typename ArrowType, typename CType = typename ArrowType::c_type>
   std::shared_ptr<Array> Numeric(int64_t size, CType min, CType max,
-                                 double null_probability = 0) {
+                                 double null_probability = 0,
+                                 int64_t alignment = kDefaultBufferAlignment,
+                                 MemoryPool* memory_pool = default_memory_pool()) {
     switch (ArrowType::type_id) {
       case Type::UINT8:
         return UInt8(size, static_cast<uint8_t>(min), static_cast<uint8_t>(max),
-                     null_probability);
+                     null_probability, alignment, memory_pool);
       case Type::INT8:
         return Int8(size, static_cast<int8_t>(min), static_cast<int8_t>(max),
-                    null_probability);
+                    null_probability, alignment, memory_pool);
       case Type::UINT16:
         return UInt16(size, static_cast<uint16_t>(min), static_cast<uint16_t>(max),
-                      null_probability);
+                      null_probability, alignment, memory_pool);
       case Type::INT16:
         return Int16(size, static_cast<int16_t>(min), static_cast<int16_t>(max),
-                     null_probability);
+                     null_probability, alignment, memory_pool);
       case Type::UINT32:
         return UInt32(size, static_cast<uint32_t>(min), static_cast<uint32_t>(max),
-                      null_probability);
+                      null_probability, alignment, memory_pool);
       case Type::INT32:
         return Int32(size, static_cast<int32_t>(min), static_cast<int32_t>(max),
-                     null_probability);
+                     null_probability, alignment, memory_pool);
       case Type::UINT64:
         return UInt64(size, static_cast<uint64_t>(min), static_cast<uint64_t>(max),
-                      null_probability);
+                      null_probability, alignment, memory_pool);
       case Type::INT64:
         return Int64(size, static_cast<int64_t>(min), static_cast<int64_t>(max),
-                     null_probability);
+                     null_probability, alignment, memory_pool);
       case Type::HALF_FLOAT:
         return Float16(size, static_cast<int16_t>(min), static_cast<int16_t>(max),
-                       null_probability);
+                       null_probability, alignment, memory_pool);
       case Type::FLOAT:
         return Float32(size, static_cast<float>(min), static_cast<float>(max),
-                       null_probability);
+                       null_probability, /*nan_probability=*/0, alignment, memory_pool);
       case Type::DOUBLE:
         return Float64(size, static_cast<double>(min), static_cast<double>(max),
-                       null_probability);
+                       null_probability, /*nan_probability=*/0, alignment, memory_pool);
       case Type::DATE64:
         return Date64(size, static_cast<int64_t>(min), static_cast<int64_t>(max),
-                      null_probability);
+                      null_probability, alignment, memory_pool);
       default:
         return nullptr;
     }
@@ -246,10 +303,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   ///            (must be an instance of Decimal128Type)
   /// \param[in] size the size of the array to generate
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> Decimal128(std::shared_ptr<DataType> type, int64_t size,
-                                    double null_probability = 0);
+                                    double null_probability = 0,
+                                    int64_t alignment = kDefaultBufferAlignment,
+                                    MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random Decimal256Array
   ///
@@ -257,10 +318,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   ///            (must be an instance of Decimal256Type)
   /// \param[in] size the size of the array to generate
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> Decimal256(std::shared_ptr<DataType> type, int64_t size,
-                                    double null_probability = 0);
+                                    double null_probability = 0,
+                                    int64_t alignment = kDefaultBufferAlignment,
+                                    MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate an array of offsets (for use in e.g. ListArray::FromArrays)
   ///
@@ -269,15 +334,21 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] last_offset the last offset value (usually the size of the child array)
   /// \param[in] null_probability the probability of an offset being null
   /// \param[in] force_empty_nulls if true, null offsets must have 0 "length"
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> Offsets(int64_t size, int32_t first_offset, int32_t last_offset,
                                  double null_probability = 0,
-                                 bool force_empty_nulls = false);
+                                 bool force_empty_nulls = false,
+                                 int64_t alignment = kDefaultBufferAlignment,
+                                 MemoryPool* memory_pool = default_memory_pool());
 
   std::shared_ptr<Array> LargeOffsets(int64_t size, int64_t first_offset,
                                       int64_t last_offset, double null_probability = 0,
-                                      bool force_empty_nulls = false);
+                                      bool force_empty_nulls = false,
+                                      int64_t alignment = kDefaultBufferAlignment,
+                                      MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random StringArray
   ///
@@ -287,10 +358,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] max_length the upper bound of the string length
   ///            determined by the uniform distribution
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> String(int64_t size, int32_t min_length, int32_t max_length,
-                                double null_probability = 0);
+                                double null_probability = 0,
+                                int64_t alignment = kDefaultBufferAlignment,
+                                MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random LargeStringArray
   ///
@@ -300,10 +375,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] max_length the upper bound of the string length
   ///            determined by the uniform distribution
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> LargeString(int64_t size, int32_t min_length, int32_t max_length,
-                                     double null_probability = 0);
+                                     double null_probability = 0,
+                                     int64_t alignment = kDefaultBufferAlignment,
+                                     MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random StringArray with repeated values
   ///
@@ -315,26 +394,34 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] max_length the upper bound of the string length
   ///            determined by the uniform distribution
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
-  std::shared_ptr<Array> StringWithRepeats(int64_t size, int64_t unique,
-                                           int32_t min_length, int32_t max_length,
-                                           double null_probability = 0);
+  std::shared_ptr<Array> StringWithRepeats(
+      int64_t size, int64_t unique, int32_t min_length, int32_t max_length,
+      double null_probability = 0, int64_t alignment = kDefaultBufferAlignment,
+      MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Like StringWithRepeats but return BinaryArray
-  std::shared_ptr<Array> BinaryWithRepeats(int64_t size, int64_t unique,
-                                           int32_t min_length, int32_t max_length,
-                                           double null_probability = 0);
+  std::shared_ptr<Array> BinaryWithRepeats(
+      int64_t size, int64_t unique, int32_t min_length, int32_t max_length,
+      double null_probability = 0, int64_t alignment = kDefaultBufferAlignment,
+      MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random FixedSizeBinaryArray
   ///
   /// \param[in] size the size of the array to generate
   /// \param[in] byte_width the byte width of fixed-size binary items
   /// \param[in] null_probability the probability of a value being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> FixedSizeBinary(int64_t size, int32_t byte_width,
-                                         double null_probability = 0);
+                                         double null_probability = 0,
+                                         int64_t alignment = kDefaultBufferAlignment,
+                                         MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random ListArray
   ///
@@ -342,11 +429,14 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] size The size of the generated list array
   /// \param[in] null_probability the probability of a list value being null
   /// \param[in] force_empty_nulls if true, null list entries must have 0 length
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> List(const Array& values, int64_t size,
-                              double null_probability = 0,
-                              bool force_empty_nulls = false);
+                              double null_probability = 0, bool force_empty_nulls = false,
+                              int64_t alignment = kDefaultBufferAlignment,
+                              MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random MapArray
   ///
@@ -355,11 +445,15 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] size The size of the generated map array
   /// \param[in] null_probability the probability of a map value being null
   /// \param[in] force_empty_nulls if true, null map entries must have 0 length
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   ///
   /// \return a generated Array
   std::shared_ptr<Array> Map(const std::shared_ptr<Array>& keys,
                              const std::shared_ptr<Array>& items, int64_t size,
-                             double null_probability = 0, bool force_empty_nulls = false);
+                             double null_probability = 0, bool force_empty_nulls = false,
+                             int64_t alignment = kDefaultBufferAlignment,
+                             MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random SparseUnionArray
   ///
@@ -368,7 +462,11 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   ///
   /// \param[in] fields Vector of Arrays containing the data for each union field
   /// \param[in] size The size of the generated sparse union array
-  std::shared_ptr<Array> SparseUnion(const ArrayVector& fields, int64_t size);
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
+  std::shared_ptr<Array> SparseUnion(const ArrayVector& fields, int64_t size,
+                                     int64_t alignment = kDefaultBufferAlignment,
+                                     MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random DenseUnionArray
   ///
@@ -378,7 +476,11 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   ///
   /// \param[in] fields Vector of Arrays containing the data for each union field
   /// \param[in] size The size of the generated sparse union array
-  std::shared_ptr<Array> DenseUnion(const ArrayVector& fields, int64_t size);
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
+  std::shared_ptr<Array> DenseUnion(const ArrayVector& fields, int64_t size,
+                                    int64_t alignment = kDefaultBufferAlignment,
+                                    MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a random Array of the specified type, size, and null_probability.
   ///
@@ -391,13 +493,19 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// \param[in] type the type of Array to generate
   /// \param[in] size the size of the Array to generate
   /// \param[in] null_probability the probability of a slot being null
+  /// \param[in] alignment alignment for memory allocations (in bytes)
+  /// \param[in] memory_pool memory pool to allocate memory from
   /// \return a generated Array
   std::shared_ptr<Array> ArrayOf(std::shared_ptr<DataType> type, int64_t size,
-                                 double null_probability = 0);
+                                 double null_probability = 0,
+                                 int64_t alignment = kDefaultBufferAlignment,
+                                 MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate an array with random data based on the given field. See BatchOf
   /// for usage info.
-  std::shared_ptr<Array> ArrayOf(const Field& field, int64_t size);
+  std::shared_ptr<Array> ArrayOf(const Field& field, int64_t size,
+                                 int64_t alignment = kDefaultBufferAlignment,
+                                 MemoryPool* memory_pool = default_memory_pool());
 
   /// \brief Generate a record batch with random data of the specified length.
   ///
@@ -444,7 +552,10 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
   /// For MapType:
   /// - values (int32_t): the number of key-value pairs to generate, which will be
   ///   partitioned among the array values.
-  std::shared_ptr<arrow::RecordBatch> BatchOf(const FieldVector& fields, int64_t size);
+  std::shared_ptr<arrow::RecordBatch> BatchOf(
+      const FieldVector& fields, int64_t size,
+      int64_t alignment = kDefaultBufferAlignment,
+      MemoryPool* memory_pool = default_memory_pool());
 
   SeedType seed() { return seed_distribution_(seed_rng_); }
 
@@ -455,13 +566,17 @@ class ARROW_TESTING_EXPORT RandomArrayGenerator {
 
 /// Generate an array with random data. See RandomArrayGenerator::BatchOf.
 ARROW_TESTING_EXPORT
-std::shared_ptr<arrow::RecordBatch> GenerateBatch(const FieldVector& fields, int64_t size,
-                                                  SeedType seed);
+std::shared_ptr<arrow::RecordBatch> GenerateBatch(
+    const FieldVector& fields, int64_t size, SeedType seed,
+    int64_t alignment = kDefaultBufferAlignment,
+    MemoryPool* memory_pool = default_memory_pool());
 
 /// Generate an array with random data. See RandomArrayGenerator::BatchOf.
 ARROW_TESTING_EXPORT
-std::shared_ptr<arrow::Array> GenerateArray(const Field& field, int64_t size,
-                                            SeedType seed);
+std::shared_ptr<arrow::Array> GenerateArray(
+    const Field& field, int64_t size, SeedType seed,
+    int64_t alignment = kDefaultBufferAlignment,
+    MemoryPool* memory_pool = default_memory_pool());
 
 }  // namespace random
 
diff --git a/cpp/src/arrow/testing/random_test.cc b/cpp/src/arrow/testing/random_test.cc
index 588c4f22687..c6ebf6a8bea 100644
--- a/cpp/src/arrow/testing/random_test.cc
+++ b/cpp/src/arrow/testing/random_test.cc
@@ -14,6 +14,7 @@
 // KIND, either express or implied.  See the License for the
 // specific language governing permissions and limitations
 // under the License.
+
 #include <gtest/gtest.h>
 
 #include "arrow/array.h"
@@ -22,6 +23,7 @@
 #include "arrow/testing/gtest_util.h"
 #include "arrow/testing/random.h"
 #include "arrow/type.h"
+#include "arrow/type_traits.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/decimal.h"
 #include "arrow/util/key_value_metadata.h"
@@ -46,6 +48,43 @@ struct RandomTestParam {
 class RandomArrayTest : public ::testing::TestWithParam<RandomTestParam> {
  protected:
   std::shared_ptr<Field> GetField() { return GetParam().field; }
+
+  BufferVector GetAllBuffers(const Array& array) {
+    BufferVector out;
+    GetAllBuffers(*array.data(), &out);
+    return out;
+  }
+
+  void GetAllBuffers(const ArrayData& data, BufferVector* out) {
+    for (const auto& buf : data.buffers) {
+      if (buf) {
+        out->push_back(buf);
+      }
+    }
+    if (data.dictionary) {
+      GetAllBuffers(*data.dictionary, out);
+    }
+    for (const auto& child : data.child_data) {
+      GetAllBuffers(*child, out);
+    }
+  }
+
+  bool HasList(const DataType& type) {
+    if (is_list_like(type.id()) && type.id() != Type::FIXED_SIZE_LIST) {
+      return true;
+    }
+    for (const auto& child : type.fields()) {
+      if (HasList(*child->type())) {
+        return true;
+      }
+    }
+    if (type.id() == Type::DICTIONARY) {
+      if (HasList(*checked_cast<const DictionaryType&>(type).value_type())) {
+        return true;
+      }
+    }
+    return false;
+  }
 };
 
 TEST_P(RandomArrayTest, GenerateArray) {
@@ -56,6 +95,23 @@ TEST_P(RandomArrayTest, GenerateArray) {
   ASSERT_OK(array->ValidateFull());
 }
 
+TEST_P(RandomArrayTest, GenerateArrayAlignment) {
+  const int64_t alignment = 1024;
+  auto field = GetField();
+  if (HasList(*field->type())) {
+    GTEST_SKIP() << "ListArray::FromArrays does not conserve buffer alignment";
+  }
+  auto array = GenerateArray(*field, /*size=*/13, 0xDEADBEEF, alignment);
+  AssertTypeEqual(field->type(), array->type());
+  ASSERT_EQ(13, array->length());
+  ASSERT_OK(array->ValidateFull());
+
+  for (const auto& buf : GetAllBuffers(*array)) {
+    ASSERT_EQ(buf->address() % (alignment), 0)
+        << "Buffer address is unaligned: " << buf->address();
+  }
+}
+
 TEST_P(RandomArrayTest, GenerateBatch) {
   auto field = GetField();
   auto batch = GenerateBatch({field}, kExpectedLength, 0xDEADBEEF);
@@ -360,7 +416,7 @@ TEST(TypeSpecificTests, RepeatedStrings) {
   AssertTypeEqual(field->type(), base_array->type());
   auto array = internal::checked_pointer_cast<StringArray>(base_array);
   ASSERT_OK(array->ValidateFull());
-  util::string_view singular_value = array->GetView(0);
+  std::string_view singular_value = array->GetView(0);
   for (auto slot : *array) {
     if (!slot.has_value()) continue;
     ASSERT_EQ(slot, singular_value);
diff --git a/cpp/src/arrow/testing/util.cc b/cpp/src/arrow/testing/util.cc
index bc8e1e26995..b5985448076 100644
--- a/cpp/src/arrow/testing/util.cc
+++ b/cpp/src/arrow/testing/util.cc
@@ -111,12 +111,12 @@ Status GetTestResourceRoot(std::string* out) {
   return Status::OK();
 }
 
-util::optional<std::string> GetTestTimezoneDatabaseRoot() {
+std::optional<std::string> GetTestTimezoneDatabaseRoot() {
   const char* c_root = std::getenv("ARROW_TIMEZONE_DATABASE");
   if (!c_root) {
-    return util::optional<std::string>();
+    return std::optional<std::string>();
   }
-  return util::make_optional(std::string(c_root));
+  return std::make_optional(std::string(c_root));
 }
 
 Status InitTestTimezoneDatabase() {
@@ -125,7 +125,7 @@ Status InitTestTimezoneDatabase() {
   if (!maybe_tzdata.has_value()) return Status::OK();
 
   auto tzdata_path = std::string(maybe_tzdata.value());
-  arrow::GlobalOptions options = {util::make_optional(tzdata_path)};
+  arrow::GlobalOptions options = {std::make_optional(tzdata_path)};
   ARROW_RETURN_NOT_OK(arrow::Initialize(options));
   return Status::OK();
 }
diff --git a/cpp/src/arrow/testing/util.h b/cpp/src/arrow/testing/util.h
index 457713f969b..4f4b03438fd 100644
--- a/cpp/src/arrow/testing/util.h
+++ b/cpp/src/arrow/testing/util.h
@@ -23,6 +23,7 @@
 #include <cstring>
 #include <limits>
 #include <memory>
+#include <optional>
 #include <string>
 #include <type_traits>
 #include <utility>
@@ -34,7 +35,6 @@
 #include "arrow/testing/visibility.h"
 #include "arrow/type_fwd.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/optional.h"
 
 namespace arrow {
 
@@ -112,7 +112,7 @@ UnionTypeFactories() {
 ARROW_TESTING_EXPORT Status GetTestResourceRoot(std::string*);
 
 // Return the value of the ARROW_TIMEZONE_DATABASE environment variable
-ARROW_TESTING_EXPORT util::optional<std::string> GetTestTimezoneDatabaseRoot();
+ARROW_TESTING_EXPORT std::optional<std::string> GetTestTimezoneDatabaseRoot();
 
 // Set the Timezone database based on the ARROW_TIMEZONE_DATABASE env variable
 // This is only relevant on Windows, since other OSs have compatible databases built-in
diff --git a/cpp/src/arrow/type.cc b/cpp/src/arrow/type.cc
index efff07db667..cc31735512b 100644
--- a/cpp/src/arrow/type.cc
+++ b/cpp/src/arrow/type.cc
@@ -20,7 +20,9 @@
 #include <algorithm>
 #include <climits>
 #include <cstddef>
+#include <iterator>
 #include <limits>
+#include <memory>
 #include <mutex>
 #include <ostream>
 #include <sstream>  // IWYU pragma: keep
@@ -40,8 +42,8 @@
 #include "arrow/util/hashing.h"
 #include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/range.h"
+#include "arrow/util/string.h"
 #include "arrow/util/vector.h"
 #include "arrow/visit_type_inline.h"
 
@@ -95,6 +97,47 @@ constexpr Type::type DurationType::type_id;
 
 constexpr Type::type DictionaryType::type_id;
 
+std::vector<Type::type> AllTypeIds() {
+  return {Type::NA,
+          Type::BOOL,
+          Type::INT8,
+          Type::INT16,
+          Type::INT32,
+          Type::INT64,
+          Type::UINT8,
+          Type::UINT16,
+          Type::UINT32,
+          Type::UINT64,
+          Type::HALF_FLOAT,
+          Type::FLOAT,
+          Type::DOUBLE,
+          Type::DECIMAL128,
+          Type::DECIMAL256,
+          Type::DATE32,
+          Type::DATE64,
+          Type::TIME32,
+          Type::TIME64,
+          Type::TIMESTAMP,
+          Type::INTERVAL_DAY_TIME,
+          Type::INTERVAL_MONTHS,
+          Type::DURATION,
+          Type::STRING,
+          Type::BINARY,
+          Type::LARGE_STRING,
+          Type::LARGE_BINARY,
+          Type::FIXED_SIZE_BINARY,
+          Type::STRUCT,
+          Type::LIST,
+          Type::LARGE_LIST,
+          Type::FIXED_SIZE_LIST,
+          Type::MAP,
+          Type::DENSE_UNION,
+          Type::SPARSE_UNION,
+          Type::DICTIONARY,
+          Type::EXTENSION,
+          Type::INTERVAL_MONTH_DAY_NANO};
+}
+
 namespace internal {
 
 struct TypeIdToTypeNameVisitor {
@@ -369,11 +412,11 @@ bool DataType::Equals(const DataType& other, bool check_metadata) const {
   return TypeEquals(*this, other, check_metadata);
 }
 
-bool DataType::Equals(const std::shared_ptr<DataType>& other) const {
+bool DataType::Equals(const std::shared_ptr<DataType>& other, bool check_metadata) const {
   if (!other) {
     return false;
   }
-  return Equals(*other.get());
+  return Equals(*other.get(), check_metadata);
 }
 
 size_t DataType::Hash() const {
@@ -962,7 +1005,7 @@ std::string FieldPath::ToString() const {
 
   std::string repr = "FieldPath(";
   for (auto index : this->indices()) {
-    repr += std::to_string(index) + " ";
+    repr += internal::ToChars(index) + " ";
   }
   repr.back() = ')';
   return repr;
@@ -1092,6 +1135,17 @@ Result<std::shared_ptr<Field>> FieldPath::Get(const FieldVector& fields) const {
   return FieldPathGetImpl::Get(this, fields);
 }
 
+Result<std::shared_ptr<Schema>> FieldPath::GetAll(const Schema& schm,
+                                                  const std::vector<FieldPath>& paths) {
+  std::vector<std::shared_ptr<Field>> fields;
+  fields.reserve(paths.size());
+  for (const auto& path : paths) {
+    ARROW_ASSIGN_OR_RAISE(std::shared_ptr<Field> field, path.Get(schm));
+    fields.push_back(std::move(field));
+  }
+  return schema(std::move(fields));
+}
+
 Result<std::shared_ptr<Array>> FieldPath::Get(const RecordBatch& batch) const {
   ARROW_ASSIGN_OR_RAISE(auto data, FieldPathGetImpl::Get(this, batch.column_data()));
   return MakeArray(std::move(data));
@@ -1109,35 +1163,72 @@ Result<std::shared_ptr<ArrayData>> FieldPath::Get(const ArrayData& data) const {
   return FieldPathGetImpl::Get(this, data.child_data);
 }
 
-FieldRef::FieldRef(FieldPath indices) : impl_(std::move(indices)) {
-  DCHECK_GT(util::get<FieldPath>(impl_).indices().size(), 0);
-}
+FieldRef::FieldRef(FieldPath indices) : impl_(std::move(indices)) {}
 
 void FieldRef::Flatten(std::vector<FieldRef> children) {
+  ARROW_CHECK(!children.empty());
+
   // flatten children
   struct Visitor {
-    void operator()(std::string* name) { *out++ = FieldRef(std::move(*name)); }
-
-    void operator()(FieldPath* indices) { *out++ = FieldRef(std::move(*indices)); }
+    void operator()(std::string&& name, std::vector<FieldRef>* out) {
+      out->push_back(FieldRef(std::move(name)));
+    }
 
-    void operator()(std::vector<FieldRef>* children) {
-      for (auto& child : *children) {
-        util::visit(*this, &child.impl_);
+    void operator()(FieldPath&& path, std::vector<FieldRef>* out) {
+      if (path.indices().empty()) {
+        return;
       }
+      out->push_back(FieldRef(std::move(path)));
     }
 
-    std::back_insert_iterator<std::vector<FieldRef>> out;
+    void operator()(std::vector<FieldRef>&& children, std::vector<FieldRef>* out) {
+      if (children.empty()) {
+        return;
+      }
+      // First flatten children into temporary result
+      std::vector<FieldRef> flattened_children;
+      flattened_children.reserve(children.size());
+      for (auto&& child : children) {
+        std::visit(std::bind(*this, std::placeholders::_1, &flattened_children),
+                   std::move(child.impl_));
+      }
+      // If all children are FieldPaths, concatenate them into a single FieldPath
+      int64_t n_indices = 0;
+      for (const auto& child : flattened_children) {
+        const FieldPath* path = child.field_path();
+        if (!path) {
+          n_indices = -1;
+          break;
+        }
+        n_indices += static_cast<int64_t>(path->indices().size());
+      }
+      if (n_indices == 0) {
+        return;
+      } else if (n_indices > 0) {
+        std::vector<int> indices(n_indices);
+        auto out_indices = indices.begin();
+        for (const auto& child : flattened_children) {
+          for (int index : *child.field_path()) {
+            *out_indices++ = index;
+          }
+        }
+        DCHECK_EQ(out_indices, indices.end());
+        out->push_back(FieldRef(std::move(indices)));
+      } else {
+        // ... otherwise, just transfer them to the final result
+        out->insert(out->end(), std::move_iterator(flattened_children.begin()),
+                    std::move_iterator(flattened_children.end()));
+      }
+    }
   };
 
   std::vector<FieldRef> out;
-  Visitor visitor{std::back_inserter(out)};
-  visitor(&children);
+  Visitor visitor;
+  visitor(std::move(children), &out);
 
-  DCHECK(!out.empty());
-  DCHECK(std::none_of(out.begin(), out.end(),
-                      [](const FieldRef& ref) { return ref.IsNested(); }));
-
-  if (out.size() == 1) {
+  if (out.empty()) {
+    impl_ = std::vector<int>();
+  } else if (out.size() == 1) {
     impl_ = std::move(out[0].impl_);
   } else {
     impl_ = std::move(out);
@@ -1146,40 +1237,40 @@ void FieldRef::Flatten(std::vector<FieldRef> children) {
 
 Result<FieldRef> FieldRef::FromDotPath(const std::string& dot_path_arg) {
   if (dot_path_arg.empty()) {
-    return Status::Invalid("Dot path was empty");
+    return FieldRef();
   }
 
   std::vector<FieldRef> children;
 
-  util::string_view dot_path = dot_path_arg;
+  std::string_view dot_path = dot_path_arg;
 
   auto parse_name = [&] {
     std::string name;
     for (;;) {
       auto segment_end = dot_path.find_first_of("\\[.");
-      if (segment_end == util::string_view::npos) {
+      if (segment_end == std::string_view::npos) {
         // dot_path doesn't contain any other special characters; consume all
-        name.append(dot_path.begin(), dot_path.end());
+        name.append(dot_path.data(), dot_path.length());
         dot_path = "";
         break;
       }
 
       if (dot_path[segment_end] != '\\') {
         // segment_end points to a subscript for a new FieldRef
-        name.append(dot_path.begin(), segment_end);
+        name.append(dot_path.data(), segment_end);
         dot_path = dot_path.substr(segment_end);
         break;
       }
 
       if (dot_path.size() == segment_end + 1) {
         // dot_path ends with backslash; consume it all
-        name.append(dot_path.begin(), dot_path.end());
+        name.append(dot_path.data(), dot_path.length());
         dot_path = "";
         break;
       }
 
       // append all characters before backslash, then the character which follows it
-      name.append(dot_path.begin(), segment_end);
+      name.append(dot_path.data(), segment_end);
       name.push_back(dot_path[segment_end + 1]);
       dot_path = dot_path.substr(segment_end + 2);
     }
@@ -1197,7 +1288,7 @@ Result<FieldRef> FieldRef::FromDotPath(const std::string& dot_path_arg) {
       }
       case '[': {
         auto subscript_end = dot_path.find_first_not_of("0123456789");
-        if (subscript_end == util::string_view::npos || dot_path[subscript_end] != ']') {
+        if (subscript_end == std::string_view::npos || dot_path[subscript_end] != ']') {
           return Status::Invalid("Dot path '", dot_path_arg,
                                  "' contained an unterminated index");
         }
@@ -1221,7 +1312,7 @@ std::string FieldRef::ToDotPath() const {
     std::string operator()(const FieldPath& path) {
       std::string out;
       for (int i : path.indices()) {
-        out += "[" + std::to_string(i) + "]";
+        out += "[" + internal::ToChars(i) + "]";
       }
       return out;
     }
@@ -1237,7 +1328,7 @@ std::string FieldRef::ToDotPath() const {
     }
   };
 
-  return util::visit(Visitor{}, impl_);
+  return std::visit(Visitor{}, impl_);
 }
 
 size_t FieldRef::hash() const {
@@ -1257,7 +1348,7 @@ size_t FieldRef::hash() const {
     }
   };
 
-  return util::visit(Visitor{}, impl_);
+  return std::visit(Visitor{}, impl_);
 }
 
 std::string FieldRef::ToString() const {
@@ -1277,7 +1368,7 @@ std::string FieldRef::ToString() const {
     }
   };
 
-  return "FieldRef." + util::visit(Visitor{}, impl_);
+  return "FieldRef." + std::visit(Visitor{}, impl_);
 }
 
 std::vector<FieldPath> FieldRef::FindAll(const Schema& schema) const {
@@ -1379,7 +1470,7 @@ std::vector<FieldPath> FieldRef::FindAll(const FieldVector& fields) const {
     const FieldVector& fields_;
   };
 
-  return util::visit(Visitor{fields}, impl_);
+  return std::visit(Visitor{fields}, impl_);
 }
 
 std::vector<FieldPath> FieldRef::FindAll(const ArrayData& array) const {
@@ -1396,6 +1487,11 @@ std::vector<FieldPath> FieldRef::FindAll(const RecordBatch& batch) const {
 
 void PrintTo(const FieldRef& ref, std::ostream* os) { *os << ref.ToString(); }
 
+std::ostream& operator<<(std::ostream& os, const FieldRef& ref) {
+  os << ref.ToString();
+  return os;
+}
+
 // ----------------------------------------------------------------------
 // Schema implementation
 
@@ -1716,14 +1812,13 @@ class SchemaBuilder::Impl {
 
 SchemaBuilder::SchemaBuilder(ConflictPolicy policy,
                              Field::MergeOptions field_merge_options) {
-  impl_ = internal::make_unique<Impl>(policy, field_merge_options);
+  impl_ = std::make_unique<Impl>(policy, field_merge_options);
 }
 
 SchemaBuilder::SchemaBuilder(std::vector<std::shared_ptr<Field>> fields,
                              ConflictPolicy policy,
                              Field::MergeOptions field_merge_options) {
-  impl_ = internal::make_unique<Impl>(std::move(fields), nullptr, policy,
-                                      field_merge_options);
+  impl_ = std::make_unique<Impl>(std::move(fields), nullptr, policy, field_merge_options);
 }
 
 SchemaBuilder::SchemaBuilder(const std::shared_ptr<Schema>& schema, ConflictPolicy policy,
@@ -1733,8 +1828,8 @@ SchemaBuilder::SchemaBuilder(const std::shared_ptr<Schema>& schema, ConflictPoli
     metadata = schema->metadata()->Copy();
   }
 
-  impl_ = internal::make_unique<Impl>(schema->fields(), std::move(metadata), policy,
-                                      field_merge_options);
+  impl_ = std::make_unique<Impl>(schema->fields(), std::move(metadata), policy,
+                                 field_merge_options);
 }
 
 SchemaBuilder::~SchemaBuilder() {}
@@ -1995,6 +2090,10 @@ std::string DataType::ComputeMetadataFingerprint() const {
   // Whatever the data type, metadata can only be found on child fields
   std::string s;
   for (const auto& child : children_) {
+    // Add field name to metadata fingerprint so that the field names within
+    // list and map types are included as part of the metadata. They are
+    // excluded from the base fingerprint.
+    s += child->name() + "=";
     s += child->metadata_fingerprint() + ";";
   }
   return s;
@@ -2041,17 +2140,33 @@ std::string DictionaryType::ComputeFingerprint() const {
 }
 
 std::string ListType::ComputeFingerprint() const {
-  const auto& child_fingerprint = children_[0]->fingerprint();
+  const auto& child_fingerprint = value_type()->fingerprint();
   if (!child_fingerprint.empty()) {
-    return TypeIdFingerprint(*this) + "{" + child_fingerprint + "}";
+    std::stringstream ss;
+    ss << TypeIdFingerprint(*this);
+    if (value_field()->nullable()) {
+      ss << 'n';
+    } else {
+      ss << 'N';
+    }
+    ss << '{' << child_fingerprint << '}';
+    return ss.str();
   }
   return "";
 }
 
 std::string LargeListType::ComputeFingerprint() const {
-  const auto& child_fingerprint = children_[0]->fingerprint();
+  const auto& child_fingerprint = value_type()->fingerprint();
   if (!child_fingerprint.empty()) {
-    return TypeIdFingerprint(*this) + "{" + child_fingerprint + "}";
+    std::stringstream ss;
+    ss << TypeIdFingerprint(*this);
+    if (value_field()->nullable()) {
+      ss << 'n';
+    } else {
+      ss << 'N';
+    }
+    ss << '{' << child_fingerprint << '}';
+    return ss.str();
   }
   return "";
 }
@@ -2060,20 +2175,33 @@ std::string MapType::ComputeFingerprint() const {
   const auto& key_fingerprint = key_type()->fingerprint();
   const auto& item_fingerprint = item_type()->fingerprint();
   if (!key_fingerprint.empty() && !item_fingerprint.empty()) {
+    std::stringstream ss;
+    ss << TypeIdFingerprint(*this);
     if (keys_sorted_) {
-      return TypeIdFingerprint(*this) + "s{" + key_fingerprint + item_fingerprint + "}";
+      ss << 's';
+    }
+    if (item_field()->nullable()) {
+      ss << 'n';
     } else {
-      return TypeIdFingerprint(*this) + "{" + key_fingerprint + item_fingerprint + "}";
+      ss << 'N';
     }
+    ss << '{' << key_fingerprint + item_fingerprint << '}';
+    return ss.str();
   }
   return "";
 }
 
 std::string FixedSizeListType::ComputeFingerprint() const {
-  const auto& child_fingerprint = children_[0]->fingerprint();
+  const auto& child_fingerprint = value_type()->fingerprint();
   if (!child_fingerprint.empty()) {
     std::stringstream ss;
-    ss << TypeIdFingerprint(*this) << "[" << list_size_ << "]"
+    ss << TypeIdFingerprint(*this);
+    if (value_field()->nullable()) {
+      ss << 'n';
+    } else {
+      ss << 'N';
+    }
+    ss << "[" << list_size_ << "]"
        << "{" << child_fingerprint << "}";
     return ss.str();
   }
@@ -2294,7 +2422,7 @@ FieldVector FieldsFromArraysAndNames(std::vector<std::string> names,
   int i = 0;
   if (names.empty()) {
     for (const auto& array : arrays) {
-      fields[i] = field(std::to_string(i), array->type());
+      fields[i] = field(internal::ToChars(i), array->type());
       ++i;
     }
   } else {
@@ -2381,6 +2509,7 @@ std::vector<std::shared_ptr<DataType>> g_numeric_types;
 std::vector<std::shared_ptr<DataType>> g_base_binary_types;
 std::vector<std::shared_ptr<DataType>> g_temporal_types;
 std::vector<std::shared_ptr<DataType>> g_interval_types;
+std::vector<std::shared_ptr<DataType>> g_duration_types;
 std::vector<std::shared_ptr<DataType>> g_primitive_types;
 std::once_flag static_data_initialized;
 
@@ -2422,6 +2551,10 @@ void InitStaticData() {
   // Interval types
   g_interval_types = {day_time_interval(), month_interval(), month_day_nano_interval()};
 
+  // Duration types
+  g_duration_types = {duration(TimeUnit::SECOND), duration(TimeUnit::MILLI),
+                      duration(TimeUnit::MICRO), duration(TimeUnit::NANO)};
+
   // Base binary types (without FixedSizeBinary)
   g_base_binary_types = {binary(), utf8(), large_binary(), large_utf8()};
 
@@ -2489,6 +2622,11 @@ const std::vector<std::shared_ptr<DataType>>& IntervalTypes() {
   return g_interval_types;
 }
 
+const std::vector<std::shared_ptr<DataType>>& DurationTypes() {
+  std::call_once(static_data_initialized, InitStaticData);
+  return g_duration_types;
+}
+
 const std::vector<std::shared_ptr<DataType>>& PrimitiveTypes() {
   std::call_once(static_data_initialized, InitStaticData);
   return g_primitive_types;
diff --git a/cpp/src/arrow/type.h b/cpp/src/arrow/type.h
index f3ac2d62d82..05fcb3d615b 100644
--- a/cpp/src/arrow/type.h
+++ b/cpp/src/arrow/type.h
@@ -25,6 +25,7 @@
 #include <memory>
 #include <string>
 #include <utility>
+#include <variant>
 #include <vector>
 
 #include "arrow/result.h"
@@ -32,7 +33,6 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/endian.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/variant.h"
 #include "arrow/util/visibility.h"
 #include "arrow/visitor.h"  // IWYU pragma: keep
 
@@ -127,7 +127,8 @@ struct ARROW_EXPORT DataTypeLayout {
 /// Simple datatypes may be entirely described by their Type::type id, but
 /// complex datatypes are usually parametric.
 class ARROW_EXPORT DataType : public std::enable_shared_from_this<DataType>,
-                              public detail::Fingerprintable {
+                              public detail::Fingerprintable,
+                              public util::EqualityComparable<DataType> {
  public:
   explicit DataType(Type::type id) : detail::Fingerprintable(), id_(id) {}
   ~DataType() override;
@@ -139,7 +140,7 @@ class ARROW_EXPORT DataType : public std::enable_shared_from_this<DataType>,
   bool Equals(const DataType& other, bool check_metadata = false) const;
 
   /// \brief Return whether the types are equal
-  bool Equals(const std::shared_ptr<DataType>& other) const;
+  bool Equals(const std::shared_ptr<DataType>& other, bool check_metadata = false) const;
 
   /// \brief Return the child field at index i.
   const std::shared_ptr<Field>& field(int i) const { return children_[i]; }
@@ -235,7 +236,7 @@ struct ARROW_EXPORT TypeHolder {
 
   const DataType& operator*() const { return *this->type; }
 
-  operator bool() { return this->type != NULLPTR; }
+  operator bool() const { return this->type != NULLPTR; }
 
   bool operator==(const TypeHolder& other) const {
     if (type == other.type) return true;
@@ -271,13 +272,6 @@ std::ostream& operator<<(std::ostream& os, const DataType& type);
 ARROW_EXPORT
 std::ostream& operator<<(std::ostream& os, const TypeHolder& type);
 
-inline bool operator==(const DataType& lhs, const DataType& rhs) {
-  return lhs.Equals(rhs);
-}
-inline bool operator!=(const DataType& lhs, const DataType& rhs) {
-  return !lhs.Equals(rhs);
-}
-
 /// \brief Return the compatible physical data type
 ///
 /// Some types may have distinct logical meanings but the exact same physical
@@ -338,7 +332,8 @@ class ARROW_EXPORT NestedType : public DataType, public ParametricType {
 ///
 /// A field's metadata is represented by a KeyValueMetadata instance,
 /// which holds arbitrary key-value pairs.
-class ARROW_EXPORT Field : public detail::Fingerprintable {
+class ARROW_EXPORT Field : public detail::Fingerprintable,
+                           public util::EqualityComparable<Field> {
  public:
   Field(std::string name, std::shared_ptr<DataType> type, bool nullable = true,
         std::shared_ptr<const KeyValueMetadata> metadata = NULLPTR)
@@ -443,8 +438,6 @@ class ARROW_EXPORT Field : public detail::Fingerprintable {
   std::string ComputeFingerprint() const override;
   std::string ComputeMetadataFingerprint() const override;
 
-  ARROW_EXPORT friend void PrintTo(const Field& field, std::ostream* os);
-
   // Field name
   std::string name_;
 
@@ -460,6 +453,8 @@ class ARROW_EXPORT Field : public detail::Fingerprintable {
   ARROW_DISALLOW_COPY_AND_ASSIGN(Field);
 };
 
+ARROW_EXPORT void PrintTo(const Field& field, std::ostream* os);
+
 namespace detail {
 
 template <typename DERIVED, typename BASE, Type::type TYPE_ID, typename C_TYPE>
@@ -1631,6 +1626,9 @@ class ARROW_EXPORT FieldPath {
   Result<std::shared_ptr<Field>> Get(const DataType& type) const;
   Result<std::shared_ptr<Field>> Get(const FieldVector& fields) const;
 
+  static Result<std::shared_ptr<Schema>> GetAll(const Schema& schema,
+                                                const std::vector<FieldPath>& paths);
+
   /// \brief Retrieve the referenced column from a RecordBatch or Table
   Result<std::shared_ptr<Array>> Get(const RecordBatch& batch) const;
 
@@ -1675,7 +1673,7 @@ class ARROW_EXPORT FieldPath {
 /// matching children:
 ///     auto maybe_match = FieldRef("struct", "field_i32").FindOneOrNone(schema);
 ///     auto maybe_column = FieldRef("struct", "field_i32").GetOne(some_table);
-class ARROW_EXPORT FieldRef {
+class ARROW_EXPORT FieldRef : public util::EqualityComparable<FieldRef> {
  public:
   FieldRef() = default;
 
@@ -1729,8 +1727,6 @@ class ARROW_EXPORT FieldRef {
   std::string ToDotPath() const;
 
   bool Equals(const FieldRef& other) const { return impl_ == other.impl_; }
-  bool operator==(const FieldRef& other) const { return Equals(other); }
-  bool operator!=(const FieldRef& other) const { return !Equals(other); }
 
   std::string ToString() const;
 
@@ -1742,23 +1738,23 @@ class ARROW_EXPORT FieldRef {
   explicit operator bool() const { return Equals(FieldPath{}); }
   bool operator!() const { return !Equals(FieldPath{}); }
 
-  bool IsFieldPath() const { return util::holds_alternative<FieldPath>(impl_); }
-  bool IsName() const { return util::holds_alternative<std::string>(impl_); }
+  bool IsFieldPath() const { return std::holds_alternative<FieldPath>(impl_); }
+  bool IsName() const { return std::holds_alternative<std::string>(impl_); }
   bool IsNested() const {
     if (IsName()) return false;
-    if (IsFieldPath()) return util::get<FieldPath>(impl_).indices().size() > 1;
+    if (IsFieldPath()) return std::get<FieldPath>(impl_).indices().size() > 1;
     return true;
   }
 
   const FieldPath* field_path() const {
-    return IsFieldPath() ? &util::get<FieldPath>(impl_) : NULLPTR;
+    return IsFieldPath() ? &std::get<FieldPath>(impl_) : NULLPTR;
   }
   const std::string* name() const {
-    return IsName() ? &util::get<std::string>(impl_) : NULLPTR;
+    return IsName() ? &std::get<std::string>(impl_) : NULLPTR;
   }
   const std::vector<FieldRef>* nested_refs() const {
-    return util::holds_alternative<std::vector<FieldRef>>(impl_)
-               ? &util::get<std::vector<FieldRef>>(impl_)
+    return std::holds_alternative<std::vector<FieldRef>>(impl_)
+               ? &std::get<std::vector<FieldRef>>(impl_)
                : NULLPTR;
   }
 
@@ -1850,11 +1846,14 @@ class ARROW_EXPORT FieldRef {
  private:
   void Flatten(std::vector<FieldRef> children);
 
-  util::Variant<FieldPath, std::string, std::vector<FieldRef>> impl_;
-
-  ARROW_EXPORT friend void PrintTo(const FieldRef& ref, std::ostream* os);
+  std::variant<FieldPath, std::string, std::vector<FieldRef>> impl_;
 };
 
+ARROW_EXPORT void PrintTo(const FieldRef& ref, std::ostream* os);
+
+ARROW_EXPORT
+std::ostream& operator<<(std::ostream& os, const FieldRef&);
+
 // ----------------------------------------------------------------------
 // Schema
 
@@ -1962,12 +1961,12 @@ class ARROW_EXPORT Schema : public detail::Fingerprintable,
   std::string ComputeMetadataFingerprint() const override;
 
  private:
-  ARROW_EXPORT friend void PrintTo(const Schema& s, std::ostream* os);
-
   class Impl;
   std::unique_ptr<Impl> impl_;
 };
 
+ARROW_EXPORT void PrintTo(const Schema& s, std::ostream* os);
+
 ARROW_EXPORT
 std::string EndiannessToString(Endianness endianness);
 
@@ -2123,31 +2122,40 @@ std::string ToString(TimeUnit::type unit);
 
 // Helpers to get instances of data types based on general categories
 
+/// \brief Signed integer types
 ARROW_EXPORT
 const std::vector<std::shared_ptr<DataType>>& SignedIntTypes();
+/// \brief Unsigned integer types
 ARROW_EXPORT
 const std::vector<std::shared_ptr<DataType>>& UnsignedIntTypes();
+/// \brief Signed and unsigned integer types
 ARROW_EXPORT
 const std::vector<std::shared_ptr<DataType>>& IntTypes();
+/// \brief Floating point types
 ARROW_EXPORT
 const std::vector<std::shared_ptr<DataType>>& FloatingPointTypes();
-// Number types without boolean
+/// \brief Number types without boolean - integer and floating point types
 ARROW_EXPORT
 const std::vector<std::shared_ptr<DataType>>& NumericTypes();
-// Binary and string-like types (except fixed-size binary)
+/// \brief Binary and string-like types (except fixed-size binary)
 ARROW_EXPORT
 const std::vector<std::shared_ptr<DataType>>& BaseBinaryTypes();
+/// \brief Binary and large-binary types
 ARROW_EXPORT
 const std::vector<std::shared_ptr<DataType>>& BinaryTypes();
+/// \brief String and large-string types
 ARROW_EXPORT
 const std::vector<std::shared_ptr<DataType>>& StringTypes();
-// Temporal types including time and timestamps for each unit
+/// \brief Temporal types including date, time and timestamps for each unit
 ARROW_EXPORT
 const std::vector<std::shared_ptr<DataType>>& TemporalTypes();
-// Interval types
+/// \brief Interval types
 ARROW_EXPORT
 const std::vector<std::shared_ptr<DataType>>& IntervalTypes();
-// Integer, floating point, base binary, and temporal
+/// \brief Duration types for each unit
+ARROW_EXPORT
+const std::vector<std::shared_ptr<DataType>>& DurationTypes();
+/// \brief Numeric, base binary, date, boolean and null types
 ARROW_EXPORT
 const std::vector<std::shared_ptr<DataType>>& PrimitiveTypes();
 
diff --git a/cpp/src/arrow/type_fwd.h b/cpp/src/arrow/type_fwd.h
index 84a50a12eb3..ba0e635f737 100644
--- a/cpp/src/arrow/type_fwd.h
+++ b/cpp/src/arrow/type_fwd.h
@@ -410,6 +410,9 @@ struct Type {
   };
 };
 
+/// \brief Get a vector of all type ids
+ARROW_EXPORT std::vector<Type::type> AllTypeIds();
+
 /// \defgroup type-factories Factory functions for creating data types
 ///
 /// Factory functions for creating data types
@@ -514,16 +517,16 @@ std::shared_ptr<DataType> fixed_size_list(const std::shared_ptr<DataType>& value
                                           int32_t list_size);
 /// \brief Return a Duration instance (naming use _type to avoid namespace conflict with
 /// built in time classes).
-std::shared_ptr<DataType> ARROW_EXPORT duration(TimeUnit::type unit);
+ARROW_EXPORT std::shared_ptr<DataType> duration(TimeUnit::type unit);
 
 /// \brief Return a DayTimeIntervalType instance
-std::shared_ptr<DataType> ARROW_EXPORT day_time_interval();
+ARROW_EXPORT std::shared_ptr<DataType> day_time_interval();
 
 /// \brief Return a MonthIntervalType instance
-std::shared_ptr<DataType> ARROW_EXPORT month_interval();
+ARROW_EXPORT std::shared_ptr<DataType> month_interval();
 
 /// \brief Return a MonthDayNanoIntervalType instance
-std::shared_ptr<DataType> ARROW_EXPORT month_day_nano_interval();
+ARROW_EXPORT std::shared_ptr<DataType> month_day_nano_interval();
 
 /// \brief Create a TimestampType instance from its unit
 ARROW_EXPORT
@@ -536,32 +539,32 @@ std::shared_ptr<DataType> timestamp(TimeUnit::type unit, const std::string& time
 /// \brief Create a 32-bit time type instance
 ///
 /// Unit can be either SECOND or MILLI
-std::shared_ptr<DataType> ARROW_EXPORT time32(TimeUnit::type unit);
+ARROW_EXPORT std::shared_ptr<DataType> time32(TimeUnit::type unit);
 
 /// \brief Create a 64-bit time type instance
 ///
 /// Unit can be either MICRO or NANO
-std::shared_ptr<DataType> ARROW_EXPORT time64(TimeUnit::type unit);
+ARROW_EXPORT std::shared_ptr<DataType> time64(TimeUnit::type unit);
 
 /// \brief Create a StructType instance
-std::shared_ptr<DataType> ARROW_EXPORT
-struct_(const std::vector<std::shared_ptr<Field>>& fields);
+ARROW_EXPORT std::shared_ptr<DataType> struct_(
+    const std::vector<std::shared_ptr<Field>>& fields);
 
 /// \brief Create a SparseUnionType instance
-std::shared_ptr<DataType> ARROW_EXPORT sparse_union(FieldVector child_fields,
+ARROW_EXPORT std::shared_ptr<DataType> sparse_union(FieldVector child_fields,
                                                     std::vector<int8_t> type_codes = {});
 /// \brief Create a SparseUnionType instance
-std::shared_ptr<DataType> ARROW_EXPORT
-sparse_union(const ArrayVector& children, std::vector<std::string> field_names = {},
-             std::vector<int8_t> type_codes = {});
+ARROW_EXPORT std::shared_ptr<DataType> sparse_union(
+    const ArrayVector& children, std::vector<std::string> field_names = {},
+    std::vector<int8_t> type_codes = {});
 
 /// \brief Create a DenseUnionType instance
-std::shared_ptr<DataType> ARROW_EXPORT dense_union(FieldVector child_fields,
+ARROW_EXPORT std::shared_ptr<DataType> dense_union(FieldVector child_fields,
                                                    std::vector<int8_t> type_codes = {});
 /// \brief Create a DenseUnionType instance
-std::shared_ptr<DataType> ARROW_EXPORT
-dense_union(const ArrayVector& children, std::vector<std::string> field_names = {},
-            std::vector<int8_t> type_codes = {});
+ARROW_EXPORT std::shared_ptr<DataType> dense_union(
+    const ArrayVector& children, std::vector<std::string> field_names = {},
+    std::vector<int8_t> type_codes = {});
 
 /// \brief Create a DictionaryType instance
 /// \param[in] index_type the type of the dictionary indices (must be
@@ -587,9 +590,9 @@ std::shared_ptr<DataType> dictionary(const std::shared_ptr<DataType>& index_type
 /// \param type the field value type
 /// \param nullable whether the values are nullable, default true
 /// \param metadata any custom key-value metadata, default null
-std::shared_ptr<Field> ARROW_EXPORT
-field(std::string name, std::shared_ptr<DataType> type, bool nullable = true,
-      std::shared_ptr<const KeyValueMetadata> metadata = NULLPTR);
+ARROW_EXPORT std::shared_ptr<Field> field(
+    std::string name, std::shared_ptr<DataType> type, bool nullable = true,
+    std::shared_ptr<const KeyValueMetadata> metadata = NULLPTR);
 
 /// \brief Create a Field instance with metadata
 ///
@@ -598,9 +601,9 @@ field(std::string name, std::shared_ptr<DataType> type, bool nullable = true,
 /// \param name the field name
 /// \param type the field value type
 /// \param metadata any custom key-value metadata
-std::shared_ptr<Field> ARROW_EXPORT
-field(std::string name, std::shared_ptr<DataType> type,
-      std::shared_ptr<const KeyValueMetadata> metadata);
+ARROW_EXPORT std::shared_ptr<Field> field(
+    std::string name, std::shared_ptr<DataType> type,
+    std::shared_ptr<const KeyValueMetadata> metadata);
 
 /// \brief Create a Schema instance
 ///
@@ -628,4 +631,6 @@ std::shared_ptr<Schema> schema(
 /// Return the process-wide default memory pool.
 ARROW_EXPORT MemoryPool* default_memory_pool();
 
+constexpr int64_t kDefaultBufferAlignment = 64;
+
 }  // namespace arrow
diff --git a/cpp/src/arrow/type_test.cc b/cpp/src/arrow/type_test.cc
index c7ac5f6c7f2..36206e68f8b 100644
--- a/cpp/src/arrow/type_test.cc
+++ b/cpp/src/arrow/type_test.cc
@@ -128,6 +128,12 @@ TEST(TestField, Equals) {
   AssertFieldEqual(f0, f0_with_meta1);
   AssertFieldEqual(f0, f0_with_meta2);
   AssertFieldEqual(f0_with_meta1, f0_with_meta2);
+
+  // operator==(), where check_metadata == false
+  ASSERT_EQ(f0, f0_other);
+  ASSERT_NE(f0, f0_nn);
+  ASSERT_EQ(f0, f0_with_meta1);
+  ASSERT_EQ(f0_with_meta1, f0_with_meta2);
 }
 
 #define ASSERT_COMPATIBLE_IMPL(NAME, TYPE, PLURAL)                        \
@@ -408,12 +414,26 @@ TEST(TestFieldRef, FromDotPath) {
 
   ASSERT_OK_AND_EQ(FieldRef(R"([y]\tho.\)"), FieldRef::FromDotPath(R"(.\[y\]\\tho\.\)"));
 
-  ASSERT_RAISES(Invalid, FieldRef::FromDotPath(R"()"));
+  ASSERT_OK_AND_EQ(FieldRef(), FieldRef::FromDotPath(R"()"));
+
   ASSERT_RAISES(Invalid, FieldRef::FromDotPath(R"(alpha)"));
   ASSERT_RAISES(Invalid, FieldRef::FromDotPath(R"([134234)"));
   ASSERT_RAISES(Invalid, FieldRef::FromDotPath(R"([1stuf])"));
 }
 
+TEST(TestFieldRef, DotPathRoundTrip) {
+  auto check_roundtrip = [](const FieldRef& ref) {
+    auto dot_path = ref.ToDotPath();
+    ASSERT_OK_AND_EQ(ref, FieldRef::FromDotPath(dot_path));
+  };
+
+  check_roundtrip(FieldRef());
+  check_roundtrip(FieldRef("foo"));
+  check_roundtrip(FieldRef("foo", 1, "bar", 2, 3));
+  check_roundtrip(FieldRef(1, 2, 3));
+  check_roundtrip(FieldRef("foo", 1, FieldRef("bar", 2, 3), FieldRef()));
+}
+
 TEST(TestFieldPath, Nested) {
   auto f0 = field("alpha", int32());
   auto f1_0 = field("alpha", int32());
@@ -450,6 +470,42 @@ TEST(TestFieldRef, Nested) {
               ElementsAre(FieldPath{2, 1, 0}, FieldPath{2, 1, 1}));
 }
 
+TEST(TestFieldRef, Flatten) {
+  FieldRef ref;
+
+  auto assert_name = [](const FieldRef& ref, const std::string& expected) {
+    ASSERT_TRUE(ref.IsName());
+    ASSERT_EQ(*ref.name(), expected);
+  };
+
+  auto assert_path = [](const FieldRef& ref, const std::vector<int>& expected) {
+    ASSERT_TRUE(ref.IsFieldPath());
+    ASSERT_EQ(ref.field_path()->indices(), expected);
+  };
+
+  auto assert_nested = [](const FieldRef& ref, const std::vector<FieldRef>& expected) {
+    ASSERT_TRUE(ref.IsNested());
+    ASSERT_EQ(*ref.nested_refs(), expected);
+  };
+
+  assert_path(FieldRef(), {});
+  assert_path(FieldRef(1, 2, 3), {1, 2, 3});
+  // If all leaves are field paths, they are fully flattened
+  assert_path(FieldRef(1, FieldRef(2, 3)), {1, 2, 3});
+  assert_path(FieldRef(1, FieldRef(2, 3), FieldRef(), FieldRef(FieldRef(4), FieldRef(5))),
+              {1, 2, 3, 4, 5});
+  assert_path(FieldRef(FieldRef(), FieldRef(FieldRef(), FieldRef())), {});
+
+  assert_name(FieldRef("foo"), "foo");
+
+  // Nested empty field refs are optimized away
+  assert_nested(FieldRef("foo", 1, FieldRef(), FieldRef(FieldRef(), "bar")),
+                {FieldRef("foo"), FieldRef(1), FieldRef("bar")});
+  // For now, subsequences of indices are not concatenated
+  assert_nested(FieldRef("foo", FieldRef("bar"), FieldRef(1, 2), FieldRef(3)),
+                {FieldRef("foo"), FieldRef("bar"), FieldRef(1, 2), FieldRef(3)});
+}
+
 using TestSchema = ::testing::Test;
 
 TEST_F(TestSchema, Basics) {
@@ -472,6 +528,8 @@ TEST_F(TestSchema, Basics) {
   auto schema3 = std::make_shared<Schema>(fields3);
   AssertSchemaEqual(schema, schema2);
   AssertSchemaNotEqual(schema, schema3);
+  ASSERT_EQ(*schema, *schema2);
+  ASSERT_NE(*schema, *schema3);
 
   ASSERT_EQ(schema->fingerprint(), schema2->fingerprint());
   ASSERT_NE(schema->fingerprint(), schema3->fingerprint());
@@ -1204,6 +1262,8 @@ TEST(TestLargeListType, Basics) {
 }
 
 TEST(TestMapType, Basics) {
+  auto md = key_value_metadata({"foo"}, {"foo value"});
+
   std::shared_ptr<DataType> kt = std::make_shared<StringType>();
   std::shared_ptr<DataType> it = std::make_shared<UInt8Type>();
 
@@ -1236,6 +1296,41 @@ TEST(TestMapType, Basics) {
           "some_entries",
           struct_({field("some_key", kt, false), field("some_value", mt)}), false)));
   AssertTypeEqual(mt3, *mt5);
+  // ...unless we explicitly ask about them.
+  ASSERT_FALSE(mt3.Equals(mt5, /*check_metadata=*/true));
+
+  // nullability of value type matters in comparisons
+  MapType map_type_non_nullable(kt, field("value", it, /*nullable=*/false));
+  AssertTypeNotEqual(map_type, map_type_non_nullable);
+}
+
+TEST(TestMapType, Metadata) {
+  auto md1 = key_value_metadata({"foo", "bar"}, {"foo value", "bar value"});
+  auto md2 = key_value_metadata({"foo", "bar"}, {"foo value", "bar value"});
+  auto md3 = key_value_metadata({"foo"}, {"foo value"});
+
+  auto t1 = map(utf8(), field("value", int32(), md1));
+  auto t2 = map(utf8(), field("value", int32(), md2));
+  auto t3 = map(utf8(), field("value", int32(), md3));
+  auto t4 =
+      std::make_shared<MapType>(field("key", utf8(), md1), field("value", int32(), md2));
+  ASSERT_OK_AND_ASSIGN(auto t5,
+                       MapType::Make(field("some_entries",
+                                           struct_({field("some_key", utf8(), false),
+                                                    field("some_value", int32(), md2)}),
+                                           false, md2)));
+
+  AssertTypeEqual(*t1, *t2);
+  AssertTypeEqual(*t1, *t2, /*check_metadata=*/true);
+
+  AssertTypeEqual(*t1, *t3);
+  AssertTypeNotEqual(*t1, *t3, /*check_metadata=*/true);
+
+  AssertTypeEqual(*t1, *t4);
+  AssertTypeNotEqual(*t1, *t4, /*check_metadata=*/true);
+
+  AssertTypeEqual(*t1, *t5);
+  AssertTypeNotEqual(*t1, *t5, /*check_metadata=*/true);
 }
 
 TEST(TestFixedSizeListType, Basics) {
@@ -1420,15 +1515,26 @@ TEST(TestListType, Equals) {
   auto t1 = list(utf8());
   auto t2 = list(utf8());
   auto t3 = list(binary());
-  auto t4 = large_list(binary());
-  auto t5 = large_list(binary());
-  auto t6 = large_list(float64());
+  auto t4 = list(field("item", utf8(), /*nullable=*/false));
+  auto tl1 = large_list(binary());
+  auto tl2 = large_list(binary());
+  auto tl3 = large_list(float64());
 
   AssertTypeEqual(*t1, *t2);
   AssertTypeNotEqual(*t1, *t3);
-  AssertTypeNotEqual(*t3, *t4);
-  AssertTypeEqual(*t4, *t5);
-  AssertTypeNotEqual(*t5, *t6);
+  AssertTypeNotEqual(*t1, *t4);
+  AssertTypeNotEqual(*t3, *tl1);
+  AssertTypeEqual(*tl1, *tl2);
+  AssertTypeNotEqual(*tl2, *tl3);
+
+  std::shared_ptr<DataType> vt = std::make_shared<UInt8Type>();
+  std::shared_ptr<Field> inner_field = std::make_shared<Field>("non_default_name", vt);
+
+  ListType list_type(vt);
+  ListType list_type_named(inner_field);
+
+  AssertTypeEqual(list_type, list_type_named);
+  ASSERT_FALSE(list_type.Equals(list_type_named, /*check_metadata=*/true));
 }
 
 TEST(TestListType, Metadata) {
@@ -1821,4 +1927,47 @@ TEST(TypesTest, TestDecimalEquals) {
   AssertTypeNotEqual(t5, t10);
 }
 
+#define TEST_PREDICATE(all_types, type_predicate)                 \
+  for (auto type : all_types) {                                   \
+    ASSERT_EQ(type_predicate(type->id()), type_predicate(*type)); \
+  }
+
+TEST(TypesTest, TestMembership) {
+  std::vector<std::shared_ptr<DataType>> all_types;
+  for (auto type : NumericTypes()) {
+    all_types.push_back(type);
+  }
+  for (auto type : TemporalTypes()) {
+    all_types.push_back(type);
+  }
+  for (auto type : IntervalTypes()) {
+    all_types.push_back(type);
+  }
+  for (auto type : PrimitiveTypes()) {
+    all_types.push_back(type);
+  }
+  TEST_PREDICATE(all_types, is_integer);
+  TEST_PREDICATE(all_types, is_signed_integer);
+  TEST_PREDICATE(all_types, is_unsigned_integer);
+  TEST_PREDICATE(all_types, is_floating);
+  TEST_PREDICATE(all_types, is_numeric);
+  TEST_PREDICATE(all_types, is_decimal);
+  TEST_PREDICATE(all_types, is_primitive);
+  TEST_PREDICATE(all_types, is_base_binary_like);
+  TEST_PREDICATE(all_types, is_binary_like);
+  TEST_PREDICATE(all_types, is_large_binary_like);
+  TEST_PREDICATE(all_types, is_binary);
+  TEST_PREDICATE(all_types, is_string);
+  TEST_PREDICATE(all_types, is_temporal);
+  TEST_PREDICATE(all_types, is_interval);
+  TEST_PREDICATE(all_types, is_dictionary);
+  TEST_PREDICATE(all_types, is_fixed_size_binary);
+  TEST_PREDICATE(all_types, is_fixed_width);
+  TEST_PREDICATE(all_types, is_list_like);
+  TEST_PREDICATE(all_types, is_nested);
+  TEST_PREDICATE(all_types, is_union);
+}
+
+#undef TEST_PREDICATE
+
 }  // namespace arrow
diff --git a/cpp/src/arrow/type_traits.h b/cpp/src/arrow/type_traits.h
index 221b35ce573..58739690663 100644
--- a/cpp/src/arrow/type_traits.h
+++ b/cpp/src/arrow/type_traits.h
@@ -622,6 +622,13 @@ using is_fixed_size_binary_type = std::is_base_of<FixedSizeBinaryType, T>;
 template <typename T, typename R = void>
 using enable_if_fixed_size_binary = enable_if_t<is_fixed_size_binary_type<T>::value, R>;
 
+// This includes primitive, dictionary, and fixed-size-binary types
+template <typename T>
+using is_fixed_width_type = std::is_base_of<FixedWidthType, T>;
+
+template <typename T, typename R = void>
+using enable_if_fixed_width_type = enable_if_t<is_fixed_width_type<T>::value, R>;
+
 template <typename T>
 using is_binary_like_type =
     std::integral_constant<bool, (is_base_binary_type<T>::value &&
@@ -846,7 +853,12 @@ using enable_if_physical_floating_point =
 
 /// \addtogroup runtime-type-predicates
 /// @{
-static inline bool is_integer(Type::type type_id) {
+
+/// \brief Check for an integer type (signed or unsigned)
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is an integer type one
+constexpr bool is_integer(Type::type type_id) {
   switch (type_id) {
     case Type::UINT8:
     case Type::INT8:
@@ -863,7 +875,11 @@ static inline bool is_integer(Type::type type_id) {
   return false;
 }
 
-static inline bool is_signed_integer(Type::type type_id) {
+/// \brief Check for a signed integer type
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a signed integer type one
+constexpr bool is_signed_integer(Type::type type_id) {
   switch (type_id) {
     case Type::INT8:
     case Type::INT16:
@@ -876,7 +892,11 @@ static inline bool is_signed_integer(Type::type type_id) {
   return false;
 }
 
-static inline bool is_unsigned_integer(Type::type type_id) {
+/// \brief Check for an unsigned integer type
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is an unsigned integer type one
+constexpr bool is_unsigned_integer(Type::type type_id) {
   switch (type_id) {
     case Type::UINT8:
     case Type::UINT16:
@@ -889,8 +909,38 @@ static inline bool is_unsigned_integer(Type::type type_id) {
   return false;
 }
 
-static inline bool is_floating(Type::type type_id) {
+/// \brief Check for a floating point type
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a floating point type one
+constexpr bool is_floating(Type::type type_id) {
+  switch (type_id) {
+    case Type::HALF_FLOAT:
+    case Type::FLOAT:
+    case Type::DOUBLE:
+      return true;
+    default:
+      break;
+  }
+  return false;
+}
+
+/// \brief Check for a numeric type
+///
+/// This predicate doesn't match decimals (see `is_decimal`).
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a numeric type one
+constexpr bool is_numeric(Type::type type_id) {
   switch (type_id) {
+    case Type::UINT8:
+    case Type::INT8:
+    case Type::UINT16:
+    case Type::INT16:
+    case Type::UINT32:
+    case Type::INT32:
+    case Type::UINT64:
+    case Type::INT64:
     case Type::HALF_FLOAT:
     case Type::FLOAT:
     case Type::DOUBLE:
@@ -901,7 +951,11 @@ static inline bool is_floating(Type::type type_id) {
   return false;
 }
 
-static inline bool is_decimal(Type::type type_id) {
+/// \brief Check for a decimal type
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a decimal type one
+constexpr bool is_decimal(Type::type type_id) {
   switch (type_id) {
     case Type::DECIMAL128:
     case Type::DECIMAL256:
@@ -912,7 +966,13 @@ static inline bool is_decimal(Type::type type_id) {
   return false;
 }
 
-static inline bool is_primitive(Type::type type_id) {
+/// \brief Check for a primitive type
+///
+/// This predicate doesn't match null, decimals and binary-like types.
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a primitive type one
+constexpr bool is_primitive(Type::type type_id) {
   switch (type_id) {
     case Type::BOOL:
     case Type::UINT8:
@@ -942,7 +1002,14 @@ static inline bool is_primitive(Type::type type_id) {
   return false;
 }
 
-static inline bool is_base_binary_like(Type::type type_id) {
+/// \brief Check for a base-binary-like type
+///
+/// This predicate doesn't match fixed-size binary types and will otherwise
+/// match all binary- and string-like types regardless of offset width.
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a base-binary-like type one
+constexpr bool is_base_binary_like(Type::type type_id) {
   switch (type_id) {
     case Type::BINARY:
     case Type::LARGE_BINARY:
@@ -955,7 +1022,11 @@ static inline bool is_base_binary_like(Type::type type_id) {
   return false;
 }
 
-static inline bool is_binary_like(Type::type type_id) {
+/// \brief Check for a binary-like type (i.e. with 32-bit offsets)
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a binary-like type one
+constexpr bool is_binary_like(Type::type type_id) {
   switch (type_id) {
     case Type::BINARY:
     case Type::STRING:
@@ -966,7 +1037,11 @@ static inline bool is_binary_like(Type::type type_id) {
   return false;
 }
 
-static inline bool is_large_binary_like(Type::type type_id) {
+/// \brief Check for a large-binary-like type (i.e. with 64-bit offsets)
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a large-binary-like type one
+constexpr bool is_large_binary_like(Type::type type_id) {
   switch (type_id) {
     case Type::LARGE_BINARY:
     case Type::LARGE_STRING:
@@ -977,15 +1052,14 @@ static inline bool is_large_binary_like(Type::type type_id) {
   return false;
 }
 
-static inline bool is_dictionary(Type::type type_id) {
-  return type_id == Type::DICTIONARY;
-}
-
-static inline bool is_fixed_size_binary(Type::type type_id) {
+/// \brief Check for a binary (non-string) type
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a binary type one
+constexpr bool is_binary(Type::type type_id) {
   switch (type_id) {
-    case Type::DECIMAL128:
-    case Type::DECIMAL256:
-    case Type::FIXED_SIZE_BINARY:
+    case Type::BINARY:
+    case Type::LARGE_BINARY:
       return true;
     default:
       break;
@@ -993,59 +1067,91 @@ static inline bool is_fixed_size_binary(Type::type type_id) {
   return false;
 }
 
-static inline bool is_fixed_width(Type::type type_id) {
-  return is_primitive(type_id) || is_dictionary(type_id) || is_fixed_size_binary(type_id);
+/// \brief Check for a string type
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a string type one
+constexpr bool is_string(Type::type type_id) {
+  switch (type_id) {
+    case Type::STRING:
+    case Type::LARGE_STRING:
+      return true;
+    default:
+      break;
+  }
+  return false;
 }
 
-static inline int bit_width(Type::type type_id) {
+/// \brief Check for a temporal type
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a temporal type one
+constexpr bool is_temporal(Type::type type_id) {
   switch (type_id) {
-    case Type::BOOL:
-      return 1;
-    case Type::UINT8:
-    case Type::INT8:
-      return 8;
-    case Type::UINT16:
-    case Type::INT16:
-      return 16;
-    case Type::UINT32:
-    case Type::INT32:
     case Type::DATE32:
-    case Type::TIME32:
-      return 32;
-    case Type::UINT64:
-    case Type::INT64:
     case Type::DATE64:
+    case Type::TIME32:
     case Type::TIME64:
     case Type::TIMESTAMP:
-    case Type::DURATION:
-      return 64;
-
-    case Type::HALF_FLOAT:
-      return 16;
-    case Type::FLOAT:
-      return 32;
-    case Type::DOUBLE:
-      return 64;
+      return true;
+    default:
+      break;
+  }
+  return false;
+}
 
+/// \brief Check for an interval type
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is an interval type one
+constexpr bool is_interval(Type::type type_id) {
+  switch (type_id) {
     case Type::INTERVAL_MONTHS:
-      return 32;
     case Type::INTERVAL_DAY_TIME:
-      return 64;
     case Type::INTERVAL_MONTH_DAY_NANO:
-      return 128;
+      return true;
+    default:
+      break;
+  }
+  return false;
+}
 
+/// \brief Check for a dictionary type
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a dictionary type one
+constexpr bool is_dictionary(Type::type type_id) { return type_id == Type::DICTIONARY; }
+
+/// \brief Check for a fixed-size-binary type
+///
+/// This predicate also matches decimals.
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a fixed-size-binary type one
+constexpr bool is_fixed_size_binary(Type::type type_id) {
+  switch (type_id) {
     case Type::DECIMAL128:
-      return 128;
     case Type::DECIMAL256:
-      return 256;
-
+    case Type::FIXED_SIZE_BINARY:
+      return true;
     default:
       break;
   }
-  return 0;
+  return false;
 }
 
-static inline bool is_list_like(Type::type type_id) {
+/// \brief Check for a fixed-width type
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a fixed-width type one
+constexpr bool is_fixed_width(Type::type type_id) {
+  return is_primitive(type_id) || is_dictionary(type_id) || is_fixed_size_binary(type_id);
+}
+
+/// \brief Check for a list-like type
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a list-like type one
+constexpr bool is_list_like(Type::type type_id) {
   switch (type_id) {
     case Type::LIST:
     case Type::LARGE_LIST:
@@ -1058,7 +1164,11 @@ static inline bool is_list_like(Type::type type_id) {
   return false;
 }
 
-static inline bool is_nested(Type::type type_id) {
+/// \brief Check for a nested type
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a nested type one
+constexpr bool is_nested(Type::type type_id) {
   switch (type_id) {
     case Type::LIST:
     case Type::LARGE_LIST:
@@ -1074,7 +1184,11 @@ static inline bool is_nested(Type::type type_id) {
   return false;
 }
 
-static inline bool is_union(Type::type type_id) {
+/// \brief Check for a union type
+///
+/// \param[in] type_id the type-id to check
+/// \return whether type-id is a union type one
+constexpr bool is_union(Type::type type_id) {
   switch (type_id) {
     case Type::SPARSE_UNION:
     case Type::DENSE_UNION:
@@ -1085,6 +1199,65 @@ static inline bool is_union(Type::type type_id) {
   return false;
 }
 
+/// \brief Return the values bit width of a type
+///
+/// \param[in] type_id the type-id to check
+/// \return the values bit width, or 0 if the type does not have fixed-width values
+///
+/// For Type::FIXED_SIZE_BINARY, you will instead need to inspect the concrete
+/// DataType to get this information.
+static inline int bit_width(Type::type type_id) {
+  switch (type_id) {
+    case Type::BOOL:
+      return 1;
+    case Type::UINT8:
+    case Type::INT8:
+      return 8;
+    case Type::UINT16:
+    case Type::INT16:
+      return 16;
+    case Type::UINT32:
+    case Type::INT32:
+    case Type::DATE32:
+    case Type::TIME32:
+      return 32;
+    case Type::UINT64:
+    case Type::INT64:
+    case Type::DATE64:
+    case Type::TIME64:
+    case Type::TIMESTAMP:
+    case Type::DURATION:
+      return 64;
+
+    case Type::HALF_FLOAT:
+      return 16;
+    case Type::FLOAT:
+      return 32;
+    case Type::DOUBLE:
+      return 64;
+
+    case Type::INTERVAL_MONTHS:
+      return 32;
+    case Type::INTERVAL_DAY_TIME:
+      return 64;
+    case Type::INTERVAL_MONTH_DAY_NANO:
+      return 128;
+
+    case Type::DECIMAL128:
+      return 128;
+    case Type::DECIMAL256:
+      return 256;
+
+    default:
+      break;
+  }
+  return 0;
+}
+
+/// \brief Return the offsets bit width of a type
+///
+/// \param[in] type_id the type-id to check
+/// \return the offsets bit width, or 0 if the type does not have offsets
 static inline int offset_bit_width(Type::type type_id) {
   switch (type_id) {
     case Type::STRING:
@@ -1103,6 +1276,182 @@ static inline int offset_bit_width(Type::type type_id) {
   return 0;
 }
 
+/// \brief Check for an integer type (signed or unsigned)
+///
+/// \param[in] type the type to check
+/// \return whether type is an integer type
+///
+/// Convenience for checking using the type's id
+static inline bool is_integer(const DataType& type) { return is_integer(type.id()); }
+
+/// \brief Check for a signed integer type
+///
+/// \param[in] type the type to check
+/// \return whether type is a signed integer type
+///
+/// Convenience for checking using the type's id
+static inline bool is_signed_integer(const DataType& type) {
+  return is_signed_integer(type.id());
+}
+
+/// \brief Check for an unsigned integer type
+///
+/// \param[in] type the type to check
+/// \return whether type is an unsigned integer type
+///
+/// Convenience for checking using the type's id
+static inline bool is_unsigned_integer(const DataType& type) {
+  return is_unsigned_integer(type.id());
+}
+
+/// \brief Check for a floating point type
+///
+/// \param[in] type the type to check
+/// \return whether type is a floating point type
+///
+/// Convenience for checking using the type's id
+static inline bool is_floating(const DataType& type) { return is_floating(type.id()); }
+
+/// \brief Check for a numeric type (number except boolean type)
+///
+/// \param[in] type the type to check
+/// \return whether type is a numeric type
+///
+/// Convenience for checking using the type's id
+static inline bool is_numeric(const DataType& type) { return is_numeric(type.id()); }
+
+/// \brief Check for a decimal type
+///
+/// \param[in] type the type to check
+/// \return whether type is a decimal type
+///
+/// Convenience for checking using the type's id
+static inline bool is_decimal(const DataType& type) { return is_decimal(type.id()); }
+
+/// \brief Check for a primitive type
+///
+/// \param[in] type the type to check
+/// \return whether type is a primitive type
+///
+/// Convenience for checking using the type's id
+static inline bool is_primitive(const DataType& type) { return is_primitive(type.id()); }
+
+/// \brief Check for a binary or string-like type (except fixed-size binary)
+///
+/// \param[in] type the type to check
+/// \return whether type is a binary or string-like type
+///
+/// Convenience for checking using the type's id
+static inline bool is_base_binary_like(const DataType& type) {
+  return is_base_binary_like(type.id());
+}
+
+/// \brief Check for a binary-like type
+///
+/// \param[in] type the type to check
+/// \return whether type is a binary-like type
+///
+/// Convenience for checking using the type's id
+static inline bool is_binary_like(const DataType& type) {
+  return is_binary_like(type.id());
+}
+
+/// \brief Check for a large-binary-like type
+///
+/// \param[in] type the type to check
+/// \return whether type is a large-binary-like type
+///
+/// Convenience for checking using the type's id
+static inline bool is_large_binary_like(const DataType& type) {
+  return is_large_binary_like(type.id());
+}
+
+/// \brief Check for a binary type
+///
+/// \param[in] type the type to check
+/// \return whether type is a binary type
+///
+/// Convenience for checking using the type's id
+static inline bool is_binary(const DataType& type) { return is_binary(type.id()); }
+
+/// \brief Check for a string type
+///
+/// \param[in] type the type to check
+/// \return whether type is a string type
+///
+/// Convenience for checking using the type's id
+static inline bool is_string(const DataType& type) { return is_string(type.id()); }
+
+/// \brief Check for a temporal type, including time and timestamps for each unit
+///
+/// \param[in] type the type to check
+/// \return whether type is a temporal type
+///
+/// Convenience for checking using the type's id
+static inline bool is_temporal(const DataType& type) { return is_temporal(type.id()); }
+
+/// \brief Check for an interval type
+///
+/// \param[in] type the type to check
+/// \return whether type is a interval type
+///
+/// Convenience for checking using the type's id
+static inline bool is_interval(const DataType& type) { return is_interval(type.id()); }
+
+/// \brief Check for a dictionary type
+///
+/// \param[in] type the type to check
+/// \return whether type is a dictionary type
+///
+/// Convenience for checking using the type's id
+static inline bool is_dictionary(const DataType& type) {
+  return is_dictionary(type.id());
+}
+
+/// \brief Check for a fixed-size-binary type
+///
+/// \param[in] type the type to check
+/// \return whether type is a fixed-size-binary type
+///
+/// Convenience for checking using the type's id
+static inline bool is_fixed_size_binary(const DataType& type) {
+  return is_fixed_size_binary(type.id());
+}
+
+/// \brief Check for a fixed-width type
+///
+/// \param[in] type the type to check
+/// \return whether type is a fixed-width type
+///
+/// Convenience for checking using the type's id
+static inline bool is_fixed_width(const DataType& type) {
+  return is_fixed_width(type.id());
+}
+
+/// \brief Check for a list-like type
+///
+/// \param[in] type the type to check
+/// \return whether type is a list-like type
+///
+/// Convenience for checking using the type's id
+static inline bool is_list_like(const DataType& type) { return is_list_like(type.id()); }
+
+/// \brief Check for a nested type
+///
+/// \param[in] type the type to check
+/// \return whether type is a nested type
+///
+/// Convenience for checking using the type's id
+static inline bool is_nested(const DataType& type) { return is_nested(type.id()); }
+
+/// \brief Check for a union type
+///
+/// \param[in] type the type to check
+/// \return whether type is a union type
+///
+/// Convenience for checking using the type's id
+static inline bool is_union(const DataType& type) { return is_union(type.id()); }
+
 /// @}
 
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/CMakeLists.txt b/cpp/src/arrow/util/CMakeLists.txt
index cd1a8967eeb..5141e30d091 100644
--- a/cpp/src/arrow/util/CMakeLists.txt
+++ b/cpp/src/arrow/util/CMakeLists.txt
@@ -41,10 +41,7 @@ endif()
 add_arrow_test(utility-test
                SOURCES
                align_util_test.cc
-               async_generator_test.cc
-               async_util_test.cc
-               bit_block_counter_test.cc
-               bit_util_test.cc
+               atfork_test.cc
                byte_size_test.cc
                cache_test.cc
                checked_cast_test.cc
@@ -60,7 +57,6 @@ add_arrow_test(utility-test
                queue_test.cc
                range_test.cc
                reflection_test.cc
-               rle_encoding_test.cc
                small_vector_test.cc
                stl_util_test.cc
                string_test.cc
@@ -71,8 +67,19 @@ add_arrow_test(utility-test
                trie_test.cc
                uri_test.cc
                utf8_util_test.cc
-               value_parsing_test.cc
-               variant_test.cc)
+               value_parsing_test.cc)
+
+add_arrow_test(async-utility-test
+               SOURCES
+               async_generator_test.cc
+               async_util_test.cc
+               test_common.cc)
+
+add_arrow_test(bit-utility-test
+               SOURCES
+               bit_block_counter_test.cc
+               bit_util_test.cc
+               rle_encoding_test.cc)
 
 add_arrow_test(threading-utility-test
                SOURCES
@@ -100,4 +107,3 @@ add_arrow_benchmark(thread_pool_benchmark)
 add_arrow_benchmark(trie_benchmark)
 add_arrow_benchmark(utf8_util_benchmark)
 add_arrow_benchmark(value_parsing_benchmark)
-add_arrow_benchmark(variant_benchmark)
diff --git a/cpp/src/arrow/util/aligned_storage.h b/cpp/src/arrow/util/aligned_storage.h
index 213d8c72e48..01e3ced2d1f 100644
--- a/cpp/src/arrow/util/aligned_storage.h
+++ b/cpp/src/arrow/util/aligned_storage.h
@@ -32,13 +32,9 @@ class AlignedStorage {
  public:
   static constexpr bool can_memcpy = std::is_trivial<T>::value;
 
-#if __cpp_constexpr >= 201304L  // non-const constexpr
   constexpr T* get() noexcept {
     return arrow::internal::launder(reinterpret_cast<T*>(&data_));
   }
-#else
-  T* get() noexcept { return arrow::internal::launder(reinterpret_cast<T*>(&data_)); }
-#endif
 
   constexpr const T* get() const noexcept {
     // Use fully qualified name to avoid ambiguities with MSVC (ARROW-14800)
@@ -123,7 +119,26 @@ class AlignedStorage {
   }
 
  private:
+#if !defined(__clang__) && defined(__GNUC__) && defined(__i386__)
+  // Workaround for GCC bug on i386:
+  //   alignof(int64 | float64) can give different results depending on the
+  //   compilation context, leading to internal ABI mismatch manifesting
+  //   in incorrect propagation of Result<int64 | float64> between
+  //   compilation units.
+  // (https://gcc.gnu.org/bugzilla/show_bug.cgi?id=88115)
+  static constexpr size_t alignment() {
+    if (std::is_integral_v<T> && sizeof(T) == 8) {
+      return 4;
+    } else if (std::is_floating_point_v<T> && sizeof(T) == 8) {
+      return 4;
+    }
+    return alignof(T);
+  }
+
+  typename std::aligned_storage<sizeof(T), alignment()>::type data_;
+#else
   typename std::aligned_storage<sizeof(T), alignof(T)>::type data_;
+#endif
 };
 
 }  // namespace internal
diff --git a/cpp/src/arrow/util/async_generator.h b/cpp/src/arrow/util/async_generator.h
index 9819b5ce923..5bef9c38246 100644
--- a/cpp/src/arrow/util/async_generator.h
+++ b/cpp/src/arrow/util/async_generator.h
@@ -22,15 +22,16 @@
 #include <cstring>
 #include <deque>
 #include <limits>
+#include <optional>
 #include <queue>
 
+#include "arrow/util/async_generator_fwd.h"
 #include "arrow/util/async_util.h"
 #include "arrow/util/functional.h"
 #include "arrow/util/future.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/iterator.h"
 #include "arrow/util/mutex.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/queue.h"
 #include "arrow/util/thread_pool.h"
 
@@ -66,9 +67,6 @@ namespace arrow {
 //   until all outstanding futures have completed.  Generators that spawn multiple
 //   concurrent futures may need to hold onto an error while other concurrent futures wrap
 //   up.
-template <typename T>
-using AsyncGenerator = std::function<Future<T>()>;
-
 template <typename T>
 struct IterationTraits<AsyncGenerator<T>> {
   /// \brief by default when iterating through a sequence of AsyncGenerator<T>,
@@ -128,23 +126,19 @@ Future<> DiscardAllFromAsyncGenerator(AsyncGenerator<T> generator) {
 template <typename T>
 Future<std::vector<T>> CollectAsyncGenerator(AsyncGenerator<T> generator) {
   auto vec = std::make_shared<std::vector<T>>();
-  struct LoopBody {
-    Future<ControlFlow<std::vector<T>>> operator()() {
-      auto next = generator_();
-      auto vec = vec_;
-      return next.Then([vec](const T& result) -> Result<ControlFlow<std::vector<T>>> {
-        if (IsIterationEnd(result)) {
-          return Break(*vec);
-        } else {
-          vec->push_back(result);
-          return Continue();
-        }
-      });
-    }
-    AsyncGenerator<T> generator_;
-    std::shared_ptr<std::vector<T>> vec_;
+  auto loop_body = [generator = std::move(generator),
+                    vec = std::move(vec)]() -> Future<ControlFlow<std::vector<T>>> {
+    auto next = generator();
+    return next.Then([vec](const T& result) -> Result<ControlFlow<std::vector<T>>> {
+      if (IsIterationEnd(result)) {
+        return Break(*vec);
+      } else {
+        vec->push_back(result);
+        return Continue();
+      }
+    });
   };
-  return Loop(LoopBody{std::move(generator), std::move(vec)});
+  return Loop(std::move(loop_body));
 }
 
 /// \see MakeMappedGenerator
@@ -275,13 +269,10 @@ template <typename T, typename MapFn,
           typename Mapped = detail::result_of_t<MapFn(const T&)>,
           typename V = typename EnsureFuture<Mapped>::type::ValueType>
 AsyncGenerator<V> MakeMappedGenerator(AsyncGenerator<T> source_generator, MapFn map) {
-  struct MapCallback {
-    MapFn map_;
-
-    Future<V> operator()(const T& val) { return ToFuture(map_(val)); }
+  auto map_callback = [map = std::move(map)](const T& val) mutable -> Future<V> {
+    return ToFuture(map(val));
   };
-
-  return MappingGenerator<T, V>(std::move(source_generator), MapCallback{std::move(map)});
+  return MappingGenerator<T, V>(std::move(source_generator), std::move(map_callback));
 }
 
 /// \brief Create a generator that will apply the map function to
@@ -498,7 +489,7 @@ class TransformingGenerator {
     }
 
     // See comment on TransformingIterator::Pump
-    Result<util::optional<V>> Pump() {
+    Result<std::optional<V>> Pump() {
       if (!finished_ && last_value_.has_value()) {
         ARROW_ASSIGN_OR_RAISE(TransformFlow<V> next, transformer_(*last_value_));
         if (next.ReadyForNext()) {
@@ -517,12 +508,12 @@ class TransformingGenerator {
       if (finished_) {
         return IterationTraits<V>::End();
       }
-      return util::nullopt;
+      return std::nullopt;
     }
 
     AsyncGenerator<T> generator_;
     Transformer<T, V> transformer_;
-    util::optional<T> last_value_;
+    std::optional<T> last_value_;
     bool finished_;
   };
 
@@ -839,7 +830,7 @@ class PushGenerator {
 
     util::Mutex mutex;
     std::deque<Result<T>> result_q;
-    util::optional<Future<T>> consumer_fut;
+    std::optional<Future<T>> consumer_fut;
     bool finished = false;
   };
 
@@ -1726,7 +1717,7 @@ class BackgroundGenerator {
     bool should_shutdown;
     // If the queue is empty, the consumer will create a waiting future and wait for it
     std::queue<Result<T>> queue;
-    util::optional<Future<T>> waiting_future;
+    std::optional<Future<T>> waiting_future;
     // Every background task is given a future to complete when it is entirely finished
     // processing and ready for the next task to start or for State to be destroyed
     Future<> task_finished;
diff --git a/cpp/src/arrow/util/async_generator_fwd.h b/cpp/src/arrow/util/async_generator_fwd.h
new file mode 100644
index 00000000000..f3c5bf9ef6f
--- /dev/null
+++ b/cpp/src/arrow/util/async_generator_fwd.h
@@ -0,0 +1,71 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#pragma once
+
+#include <functional>
+
+#include "arrow/type_fwd.h"
+
+namespace arrow {
+
+template <typename T>
+using AsyncGenerator = std::function<Future<T>()>;
+
+template <typename T, typename V>
+class MappingGenerator;
+
+template <typename T, typename ComesAfter, typename IsNext>
+class SequencingGenerator;
+
+template <typename T, typename V>
+class TransformingGenerator;
+
+template <typename T>
+class SerialReadaheadGenerator;
+
+template <typename T>
+class ReadaheadGenerator;
+
+template <typename T>
+class PushGenerator;
+
+template <typename T>
+class MergedGenerator;
+
+template <typename T>
+struct Enumerated;
+
+template <typename T>
+class EnumeratingGenerator;
+
+template <typename T>
+class TransferringGenerator;
+
+template <typename T>
+class BackgroundGenerator;
+
+template <typename T>
+class GeneratorIterator;
+
+template <typename T>
+struct CancellableGenerator;
+
+template <typename T>
+class DefaultIfEmptyGenerator;
+
+}  // namespace arrow
diff --git a/cpp/src/arrow/util/async_generator_test.cc b/cpp/src/arrow/util/async_generator_test.cc
index e75ca577c77..37718f743ff 100644
--- a/cpp/src/arrow/util/async_generator_test.cc
+++ b/cpp/src/arrow/util/async_generator_test.cc
@@ -19,6 +19,7 @@
 #include <chrono>
 #include <condition_variable>
 #include <mutex>
+#include <optional>
 #include <random>
 #include <thread>
 #include <unordered_set>
@@ -31,7 +32,6 @@
 #include "arrow/type_fwd.h"
 #include "arrow/util/async_generator.h"
 #include "arrow/util/async_util.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/test_common.h"
 #include "arrow/util/vector.h"
 
@@ -333,7 +333,7 @@ TEST(TestAsyncUtil, MapAsync) {
   std::vector<TestInt> input = {1, 2, 3};
   auto generator = util::AsyncVectorIt(input);
   std::function<Future<TestStr>(const TestInt&)> mapper = [](const TestInt& in) {
-    return SleepAsync(1e-3).Then([in]() { return TestStr(std::to_string(in.value)); });
+    return SleepABitAsync().Then([in]() { return TestStr(std::to_string(in.value)); });
   };
   auto mapped = MakeMappedGenerator(std::move(generator), mapper);
   std::vector<TestStr> expected{"1", "2", "3"};
@@ -705,6 +705,7 @@ TEST_P(MergedGeneratorTestFixture, MergedLimitedSubscriptions) {
   AssertGeneratorExhausted(merged);
 }
 
+#ifndef ARROW_VALGRIND
 TEST_P(MergedGeneratorTestFixture, MergedStress) {
   constexpr int NGENERATORS = 10;
   constexpr int NITEMS = 10;
@@ -739,6 +740,7 @@ TEST_P(MergedGeneratorTestFixture, MergedParallelStress) {
     ASSERT_EQ(NITEMS * NGENERATORS, items.size());
   }
 }
+#endif
 
 TEST_P(MergedGeneratorTestFixture, MergedRecursion) {
   // Regression test for an edge case in MergedGenerator. Ensure if
@@ -1846,7 +1848,7 @@ TEST(PushGenerator, CloseEarly) {
 }
 
 TEST(PushGenerator, DanglingProducer) {
-  util::optional<PushGenerator<TestInt>> gen;
+  std::optional<PushGenerator<TestInt>> gen;
   gen.emplace();
   auto producer = gen->producer();
 
diff --git a/cpp/src/arrow/util/async_util.cc b/cpp/src/arrow/util/async_util.cc
index d8ae2e19230..ebf264de060 100644
--- a/cpp/src/arrow/util/async_util.cc
+++ b/cpp/src/arrow/util/async_util.cc
@@ -20,185 +20,437 @@
 #include "arrow/util/future.h"
 #include "arrow/util/logging.h"
 
+#include <condition_variable>
+#include <list>
+#include <memory>
+#include <mutex>
+
 namespace arrow {
+
 namespace util {
 
-AsyncDestroyable::AsyncDestroyable() : on_closed_(Future<>::Make()) {}
+class ThrottleImpl : public ThrottledAsyncTaskScheduler::Throttle {
+ public:
+  explicit ThrottleImpl(int max_concurrent_cost)
+      : max_concurrent_cost_(max_concurrent_cost), available_cost_(max_concurrent_cost) {}
 
-#ifndef NDEBUG
-AsyncDestroyable::~AsyncDestroyable() {
-  DCHECK(constructed_correctly_) << "An instance of AsyncDestroyable must be created by "
-                                    "MakeSharedAsync or MakeUniqueAsync";
-}
-#else
-AsyncDestroyable::~AsyncDestroyable() = default;
-#endif
-
-void AsyncDestroyable::Destroy() {
-  DoDestroy().AddCallback([this](const Status& st) {
-    on_closed_.MarkFinished(st);
-    delete this;
-  });
-}
+  ~ThrottleImpl() {
+    if (backoff_.is_valid()) {
+      backoff_.MarkFinished(Status::Cancelled("Throttle destroyed while paused"));
+    }
+  }
 
-Status AsyncTaskGroup::AddTask(std::function<Result<Future<>>()> task) {
-  auto guard = mutex_.Lock();
-  if (finished_adding_) {
-    return Status::Cancelled("Ignoring task added after the task group has been ended");
+  std::optional<Future<>> TryAcquire(int amt) override {
+    std::lock_guard<std::mutex> lk(mutex_);
+    if (backoff_.is_valid()) {
+      return backoff_;
+    }
+    if (amt <= available_cost_) {
+      available_cost_ -= amt;
+      return std::nullopt;
+    }
+    backoff_ = Future<>::Make();
+    return backoff_;
   }
-  if (!err_.ok()) {
-    return err_;
+
+  void Release(int amt) override {
+    std::unique_lock lk(mutex_);
+    available_cost_ += amt;
+    NotifyUnlocked(std::move(lk));
   }
-  Result<Future<>> maybe_task_fut = task();
-  if (!maybe_task_fut.ok()) {
-    err_ = maybe_task_fut.status();
-    return err_;
+
+  void Pause() override {
+    std::lock_guard lg(mutex_);
+    paused_ = true;
+    if (!backoff_.is_valid()) {
+      backoff_ = Future<>::Make();
+    }
   }
-  return AddTaskUnlocked(*maybe_task_fut, std::move(guard));
-}
 
-Result<bool> AsyncTaskGroup::AddTaskIfNotEnded(std::function<Result<Future<>>()> task) {
-  auto guard = mutex_.Lock();
-  if (finished_adding_) {
-    return false;
+  void Resume() override {
+    std::unique_lock lk(mutex_);
+    paused_ = false;
+    // Might be a useless notification if our current cost is full
+    // or no one is waiting but it should be ok.
+    NotifyUnlocked(std::move(lk));
   }
-  if (!err_.ok()) {
-    return err_;
+
+  int Capacity() override { return max_concurrent_cost_; }
+
+ private:
+  void NotifyUnlocked(std::unique_lock<std::mutex>&& lk) {
+    if (backoff_.is_valid()) {
+      Future<> backoff_to_fulfill = std::move(backoff_);
+      lk.unlock();
+      backoff_to_fulfill.MarkFinished();
+    } else {
+      lk.unlock();
+    }
   }
-  Result<Future<>> maybe_task_fut = task();
-  if (!maybe_task_fut.ok()) {
-    err_ = maybe_task_fut.status();
-    return err_;
+
+  std::mutex mutex_;
+  int max_concurrent_cost_;
+  int available_cost_;
+  bool paused_ = false;
+  Future<> backoff_;
+};
+
+namespace {
+
+// Very basic FIFO queue
+class FifoQueue : public ThrottledAsyncTaskScheduler::Queue {
+  using Task = AsyncTaskScheduler::Task;
+  void Push(std::unique_ptr<Task> task) override { tasks_.push_back(std::move(task)); }
+
+  std::unique_ptr<Task> Pop() override {
+    std::unique_ptr<Task> task = std::move(tasks_.front());
+    tasks_.pop_front();
+    return task;
   }
-  ARROW_RETURN_NOT_OK(AddTaskUnlocked(*maybe_task_fut, std::move(guard)));
-  return true;
-}
 
-Status AsyncTaskGroup::AddTaskUnlocked(const Future<>& task_fut,
-                                       util::Mutex::Guard guard) {
-  // If the task is already finished there is nothing to track so lets save
-  // some work and return early
-  if (task_fut.is_finished()) {
-    err_ &= task_fut.status();
-    return err_;
-  }
-  running_tasks_++;
-  guard.Unlock();
-  task_fut.AddCallback([this](const Status& st) {
-    auto guard = mutex_.Lock();
-    err_ &= st;
-    if (--running_tasks_ == 0 && finished_adding_) {
-      guard.Unlock();
-      all_tasks_done_.MarkFinished(err_);
-    }
-  });
-  return Status::OK();
-}
+  const Task& Peek() override { return *tasks_.front(); }
+
+  bool Empty() override { return tasks_.empty(); }
+
+  void Purge() override { tasks_.clear(); }
+
+ private:
+  std::list<std::unique_ptr<Task>> tasks_;
+};
 
-Status AsyncTaskGroup::AddTask(const Future<>& task_fut) {
-  auto guard = mutex_.Lock();
-  if (finished_adding_) {
-    return Status::Cancelled("Ignoring task added after the task group has been ended");
+class AsyncTaskSchedulerImpl : public AsyncTaskScheduler {
+ public:
+  using Task = AsyncTaskScheduler::Task;
+
+  explicit AsyncTaskSchedulerImpl(StopToken stop_token,
+                                  FnOnce<void(const Status&)> abort_callback)
+      : AsyncTaskScheduler(),
+        stop_token_(std::move(stop_token)),
+        abort_callback_(std::move(abort_callback)) {}
+
+  ~AsyncTaskSchedulerImpl() {
+    DCHECK_EQ(running_tasks_, 0) << " scheduler destroyed while tasks still running";
   }
-  if (!err_.ok()) {
-    return err_;
+
+  bool AddTask(std::unique_ptr<Task> task) override {
+    std::unique_lock<std::mutex> lk(mutex_);
+    if (stop_token_.IsStopRequested()) {
+      AbortUnlocked(stop_token_.Poll(), std::move(lk));
+    }
+    if (IsAborted()) {
+      return false;
+    }
+    SubmitTaskUnlocked(std::move(task), std::move(lk));
+    return true;
+  }
+
+  Future<> OnFinished() const { return finished_; }
+
+ private:
+  bool IsAborted() { return !maybe_error_.ok(); }
+
+  bool IsFullyFinished() { return running_tasks_ == 0; }
+
+  void OnTaskFinished(const Status& st) {
+    std::unique_lock<std::mutex> lk(mutex_);
+    if (!st.ok()) {
+      running_tasks_--;
+      AbortUnlocked(st, std::move(lk));
+      return;
+    }
+    running_tasks_--;
+    return MaybeEndUnlocked(std::move(lk));
+  }
+
+  void DoSubmitTask(std::unique_ptr<Task> task) {
+    Result<Future<>> submit_result = (*task)();
+    if (!submit_result.ok()) {
+      std::unique_lock<std::mutex> lk(mutex_);
+      running_tasks_--;
+      AbortUnlocked(submit_result.status(), std::move(lk));
+      return;
+    }
+    // Capture `task` to keep it alive until finished
+    if (!submit_result->TryAddCallback([this, task_inner = std::move(task)]() mutable {
+          return [this, task_inner2 = std::move(task_inner)](const Status& st) {
+            OnTaskFinished(st);
+          };
+        })) {
+      return OnTaskFinished(submit_result->status());
+    }
   }
-  return AddTaskUnlocked(task_fut, std::move(guard));
-}
 
-Result<bool> AsyncTaskGroup::AddTaskIfNotEnded(const Future<>& task_fut) {
-  auto guard = mutex_.Lock();
-  if (finished_adding_) {
-    return false;
+  void MaybeEndUnlocked(std::unique_lock<std::mutex>&& lk) {
+    if (IsFullyFinished()) {
+      lk.unlock();
+      finished_.MarkFinished(maybe_error_);
+    } else {
+      // Always unlock for consistency's sake
+      lk.unlock();
+    }
   }
-  if (!err_.ok()) {
-    return err_;
+
+  void AbortUnlocked(const Status& st, std::unique_lock<std::mutex>&& lk) {
+    DCHECK(!st.ok());
+    bool aborted = false;
+    if (!IsAborted()) {
+      maybe_error_ = st;
+      // Add one more "task" to represent running the abort callback.  This
+      // will prevent any other task finishing and marking the scheduler finished
+      // while we are running the abort callback.
+      running_tasks_++;
+      aborted = true;
+    }
+    if (aborted) {
+      lk.unlock();
+      std::move(abort_callback_)(st);
+      lk.lock();
+      running_tasks_--;
+    }
+    MaybeEndUnlocked(std::move(lk));
   }
-  ARROW_RETURN_NOT_OK(AddTaskUnlocked(task_fut, std::move(guard)));
-  return true;
-}
 
-Future<> AsyncTaskGroup::End() {
-  auto guard = mutex_.Lock();
-  finished_adding_ = true;
-  if (running_tasks_ == 0) {
-    all_tasks_done_.MarkFinished(err_);
-    return all_tasks_done_;
+  void SubmitTaskUnlocked(std::unique_ptr<Task> task, std::unique_lock<std::mutex>&& lk) {
+    if (stop_token_.IsStopRequested()) {
+      AbortUnlocked(stop_token_.Poll(), std::move(lk));
+      return;
+    }
+    running_tasks_++;
+    lk.unlock();
+    return DoSubmitTask(std::move(task));
   }
-  return all_tasks_done_;
-}
 
-Future<> AsyncTaskGroup::OnFinished() const { return all_tasks_done_; }
+  Future<> finished_ = Future<>::Make();
+  // The initial task is our first task
+  int running_tasks_ = 1;
+  // Starts as ok but may transition to an error if aborted.  Will be the first
+  // error that caused the abort.  If multiple errors occur, only the first is captured.
+  Status maybe_error_;
+  std::mutex mutex_;
+  StopToken stop_token_;
+  FnOnce<void(const Status&)> abort_callback_;
+  bool abort_callback_pending_ = false;
+  std::condition_variable abort_callback_cv_;
 
-SerializedAsyncTaskGroup::SerializedAsyncTaskGroup() : on_finished_(Future<>::Make()) {}
+  // Allows AsyncTaskScheduler::Make to call OnTaskFinished
+  friend AsyncTaskScheduler;
+};
 
-Status SerializedAsyncTaskGroup::AddTask(std::function<Result<Future<>>()> task) {
-  util::Mutex::Guard guard = mutex_.Lock();
-  ARROW_RETURN_NOT_OK(err_);
-  if (ended_) {
-    return Status::Cancelled("Ignoring task added after the task group has been ended");
+class ThrottledAsyncTaskSchedulerImpl
+    : public ThrottledAsyncTaskScheduler,
+      public std::enable_shared_from_this<ThrottledAsyncTaskSchedulerImpl> {
+ public:
+  using Queue = ThrottledAsyncTaskScheduler::Queue;
+  using Throttle = ThrottledAsyncTaskScheduler::Throttle;
+
+  ThrottledAsyncTaskSchedulerImpl(AsyncTaskScheduler* target,
+                                  std::unique_ptr<Throttle> throttle,
+                                  std::unique_ptr<Queue> queue)
+      : target_(target), throttle_(std::move(throttle)), queue_(std::move(queue)) {}
+
+  ~ThrottledAsyncTaskSchedulerImpl() {
+    // There can be tasks left in the queue in the event of an abort
+    queue_->Purge();
   }
-  tasks_.push(std::move(task));
-  if (!processing_.is_valid()) {
-    ConsumeAsMuchAsPossibleUnlocked(std::move(guard));
+
+  bool AddTask(std::unique_ptr<Task> task) override {
+    std::unique_lock lk(mutex_);
+    // If the queue isn't empty then don't even try and acquire the throttle
+    // We can safely assume it is either blocked or in the middle of trying to
+    // alert a queued task.
+    if (!queue_->Empty()) {
+      queue_->Push(std::move(task));
+      return true;
+    }
+    int latched_cost = std::min(task->cost(), throttle_->Capacity());
+    std::optional<Future<>> maybe_backoff = throttle_->TryAcquire(latched_cost);
+    if (maybe_backoff) {
+      queue_->Push(std::move(task));
+      lk.unlock();
+      maybe_backoff->AddCallback(
+          [weak_self = std::weak_ptr<ThrottledAsyncTaskSchedulerImpl>(
+               shared_from_this())](const Status& st) {
+            if (st.ok()) {
+              if (auto self = weak_self.lock()) {
+                self->ContinueTasks();
+              }
+            }
+          });
+      return true;
+    } else {
+      lk.unlock();
+      return SubmitTask(std::move(task), latched_cost);
+    }
   }
-  return err_;
-}
 
-Future<> SerializedAsyncTaskGroup::EndUnlocked(util::Mutex::Guard&& guard) {
-  ended_ = true;
-  if (!processing_.is_valid()) {
-    guard.Unlock();
-    on_finished_.MarkFinished(err_);
+  void Pause() override { throttle_->Pause(); }
+  void Resume() override { throttle_->Resume(); }
+
+ private:
+  bool SubmitTask(std::unique_ptr<Task> task, int latched_cost) {
+    // Wrap the task with a wrapper that runs it and then checks to see if there are any
+    // queued tasks
+    return target_->AddSimpleTask(
+        [latched_cost, inner_task = std::move(task),
+         self = shared_from_this()]() mutable -> Result<Future<>> {
+          ARROW_ASSIGN_OR_RAISE(Future<> inner_fut, (*inner_task)());
+          return inner_fut.Then([latched_cost, self = std::move(self)] {
+            self->throttle_->Release(latched_cost);
+            self->ContinueTasks();
+          });
+        });
+  }
+
+  void ContinueTasks() {
+    std::unique_lock lk(mutex_);
+    while (!queue_->Empty()) {
+      int next_cost = std::min(queue_->Peek().cost(), throttle_->Capacity());
+      std::optional<Future<>> maybe_backoff = throttle_->TryAcquire(next_cost);
+      if (maybe_backoff) {
+        lk.unlock();
+        if (!maybe_backoff->TryAddCallback([&] {
+              return [self = shared_from_this()](const Status& st) {
+                if (st.ok()) {
+                  self->ContinueTasks();
+                }
+              };
+            })) {
+          if (!maybe_backoff->status().ok()) {
+            return;
+          }
+          lk.lock();
+          continue;
+        }
+        return;
+      } else {
+        std::unique_ptr<Task> next_task = queue_->Pop();
+        lk.unlock();
+        if (!SubmitTask(std::move(next_task), next_cost)) {
+          return;
+        }
+        lk.lock();
+      }
+    }
   }
-  return on_finished_;
-}
 
-Future<> SerializedAsyncTaskGroup::End() { return EndUnlocked(mutex_.Lock()); }
+  AsyncTaskScheduler* target_;
+  std::unique_ptr<Throttle> throttle_;
+  std::unique_ptr<Queue> queue_;
+  std::mutex mutex_;
+};
 
-Future<> SerializedAsyncTaskGroup::Abort(Status err) {
-  util::Mutex::Guard guard = mutex_.Lock();
-  err_ = std::move(err);
-  tasks_ = std::queue<std::function<Result<Future<>>()>>();
-  return EndUnlocked(std::move(guard));
-}
+class AsyncTaskGroupImpl : public AsyncTaskGroup {
+ public:
+  AsyncTaskGroupImpl(AsyncTaskScheduler* target, FnOnce<Status()> finish_cb)
+      : target_(target), state_(std::make_shared<State>(std::move(finish_cb))) {}
 
-void SerializedAsyncTaskGroup::ConsumeAsMuchAsPossibleUnlocked(
-    util::Mutex::Guard&& guard) {
-  while (err_.ok() && !tasks_.empty() && TryDrainUnlocked()) {
+  ~AsyncTaskGroupImpl() {
+    if (--state_->task_count == 0) {
+      Status st = std::move(state_->finish_cb)();
+      if (!st.ok()) {
+        // We can't return an invalid status from the destructor so we schedule a dummy
+        // failing task
+        target_->AddSimpleTask([st = std::move(st)]() { return st; });
+      }
+    }
   }
-  if (ended_ && (!err_.ok() || tasks_.empty()) && !processing_.is_valid()) {
-    guard.Unlock();
-    on_finished_.MarkFinished(err_);
+
+  bool AddTask(std::unique_ptr<Task> task) override {
+    state_->task_count++;
+    struct WrapperTask : public Task {
+      WrapperTask(std::unique_ptr<Task> target, std::shared_ptr<State> state)
+          : target(std::move(target)), state(std::move(state)) {}
+      Result<Future<>> operator()() override {
+        ARROW_ASSIGN_OR_RAISE(Future<> inner_fut, (*target)());
+        return inner_fut.Then([state = std::move(state)]() {
+          if (--state->task_count == 0) {
+            return std::move(state->finish_cb)();
+          }
+          return Status::OK();
+        });
+      }
+      int cost() const override { return target->cost(); }
+      std::unique_ptr<Task> target;
+      std::shared_ptr<State> state;
+    };
+    return target_->AddTask(std::make_unique<WrapperTask>(std::move(task), state_));
   }
+
+ private:
+  struct State {
+    explicit State(FnOnce<Status()> finish_cb)
+        : task_count(1), finish_cb(std::move(finish_cb)) {}
+    std::atomic<int> task_count;
+    FnOnce<Status()> finish_cb;
+  };
+  AsyncTaskScheduler* target_;
+  std::shared_ptr<State> state_;
+};
+
+}  // namespace
+
+Future<> AsyncTaskScheduler::Make(FnOnce<Status(AsyncTaskScheduler*)> initial_task,
+                                  FnOnce<void(const Status&)> abort_callback,
+                                  StopToken stop_token) {
+  auto scheduler = std::make_unique<AsyncTaskSchedulerImpl>(std::move(stop_token),
+                                                            std::move(abort_callback));
+  Status initial_task_st = std::move(initial_task)(scheduler.get());
+  scheduler->OnTaskFinished(std::move(initial_task_st));
+  // Keep scheduler alive until finished
+  return scheduler->OnFinished().Then([scheduler = std::move(scheduler)] {});
 }
 
-bool SerializedAsyncTaskGroup::TryDrainUnlocked() {
-  if (processing_.is_valid()) {
-    return false;
-  }
-  std::function<Result<Future<>>()> next_task = std::move(tasks_.front());
-  tasks_.pop();
-  Result<Future<>> maybe_next_fut = next_task();
-  if (!maybe_next_fut.ok()) {
-    err_ &= maybe_next_fut.status();
-    return true;
-  }
-  Future<> next_fut = maybe_next_fut.MoveValueUnsafe();
-  if (!next_fut.TryAddCallback([this] {
-        return [this](const Status& st) {
-          util::Mutex::Guard guard = mutex_.Lock();
-          processing_ = Future<>();
-          err_ &= st;
-          ConsumeAsMuchAsPossibleUnlocked(std::move(guard));
-        };
-      })) {
-    // Didn't add callback, future already finished
-    err_ &= next_fut.status();
-    return true;
+std::shared_ptr<ThrottledAsyncTaskScheduler> ThrottledAsyncTaskScheduler::Make(
+    AsyncTaskScheduler* target, int max_concurrent_cost,
+    std::unique_ptr<ThrottledAsyncTaskScheduler::Queue> maybe_queue) {
+  std::unique_ptr<ThrottledAsyncTaskScheduler::Queue> queue =
+      (maybe_queue) ? std::move(maybe_queue) : std::make_unique<FifoQueue>();
+  return std::make_shared<ThrottledAsyncTaskSchedulerImpl>(
+      target, std::make_unique<ThrottleImpl>(max_concurrent_cost), std::move(queue));
+}
+
+std::shared_ptr<ThrottledAsyncTaskScheduler>
+ThrottledAsyncTaskScheduler::MakeWithCustomThrottle(
+    AsyncTaskScheduler* target,
+    std::unique_ptr<ThrottledAsyncTaskScheduler::Throttle> throttle,
+    std::unique_ptr<ThrottledAsyncTaskScheduler::Queue> maybe_queue) {
+  std::unique_ptr<ThrottledAsyncTaskScheduler::Queue> queue =
+      (maybe_queue) ? std::move(maybe_queue) : std::make_unique<FifoQueue>();
+  return std::make_shared<ThrottledAsyncTaskSchedulerImpl>(target, std::move(throttle),
+                                                           std::move(queue));
+}
+std::unique_ptr<AsyncTaskGroup> AsyncTaskGroup::Make(AsyncTaskScheduler* target,
+                                                     FnOnce<Status()> finish_cb) {
+  return std::make_unique<AsyncTaskGroupImpl>(target, std::move(finish_cb));
+}
+
+class ThrottledAsyncTaskGroup : public ThrottledAsyncTaskScheduler {
+ public:
+  ThrottledAsyncTaskGroup(std::shared_ptr<ThrottledAsyncTaskScheduler> throttle,
+                          std::unique_ptr<AsyncTaskGroup> task_group)
+      : throttle_(std::move(throttle)), task_group_(std::move(task_group)) {}
+  void Pause() override { throttle_->Pause(); }
+  void Resume() override { throttle_->Resume(); }
+  bool AddTask(std::unique_ptr<Task> task) override {
+    return task_group_->AddTask(std::move(task));
   }
-  processing_ = std::move(next_fut);
-  return false;
+
+ private:
+  std::shared_ptr<ThrottledAsyncTaskScheduler> throttle_;
+  std::unique_ptr<AsyncTaskGroup> task_group_;
+};
+
+std::unique_ptr<ThrottledAsyncTaskScheduler> MakeThrottledAsyncTaskGroup(
+    AsyncTaskScheduler* target, int max_concurrent_cost,
+    std::unique_ptr<ThrottledAsyncTaskScheduler::Queue> maybe_queue,
+    FnOnce<Status()> finish_cb) {
+  std::shared_ptr<ThrottledAsyncTaskScheduler> throttle =
+      ThrottledAsyncTaskScheduler::Make(target, max_concurrent_cost,
+                                        std::move(maybe_queue));
+  std::unique_ptr<AsyncTaskGroup> task_group =
+      AsyncTaskGroup::Make(throttle.get(), std::move(finish_cb));
+  return std::make_unique<ThrottledAsyncTaskGroup>(std::move(throttle),
+                                                   std::move(task_group));
 }
 
 }  // namespace util
diff --git a/cpp/src/arrow/util/async_util.h b/cpp/src/arrow/util/async_util.h
index b3ff6829966..de7aa4addd7 100644
--- a/cpp/src/arrow/util/async_util.h
+++ b/cpp/src/arrow/util/async_util.h
@@ -17,201 +17,394 @@
 
 #pragma once
 
-#include <queue>
+#include <atomic>
+#include <functional>
+#include <list>
+#include <memory>
 
 #include "arrow/result.h"
 #include "arrow/status.h"
+#include "arrow/util/cancel.h"
+#include "arrow/util/functional.h"
 #include "arrow/util/future.h"
+#include "arrow/util/iterator.h"
 #include "arrow/util/mutex.h"
+#include "arrow/util/thread_pool.h"
 
 namespace arrow {
-namespace util {
 
-/// Custom deleter for AsyncDestroyable objects
-template <typename T>
-struct DestroyingDeleter {
-  void operator()(T* p) {
-    if (p) {
-      p->Destroy();
-    }
-  }
-};
+using internal::FnOnce;
+
+namespace util {
 
-/// An object which should be asynchronously closed before it is destroyed
+/// A utility which keeps tracks of, and schedules, asynchronous tasks
 ///
-/// Classes can extend this to ensure that the close method is called and completed
-/// before the instance is deleted.  This provides smart_ptr / delete semantics for
-/// objects with an asynchronous destructor.
+/// An asynchronous task has a synchronous component and an asynchronous component.
+/// The synchronous component typically schedules some kind of work on an external
+/// resource (e.g. the I/O thread pool or some kind of kernel-based asynchronous
+/// resource like io_uring).  The asynchronous part represents the work
+/// done on that external resource.  Executing the synchronous part will be referred
+/// to as "submitting the task" since this usually includes submitting the asynchronous
+/// portion to the external thread pool.
 ///
-/// Classes which extend this must be constructed using MakeSharedAsync or MakeUniqueAsync
-class ARROW_EXPORT AsyncDestroyable {
+/// By default the scheduler will submit the task (execute the synchronous part) as
+/// soon as it is added, assuming the underlying thread pool hasn't terminated or the
+/// scheduler hasn't aborted.  In this mode, the scheduler is simply acting as
+/// a simple task group.
+///
+/// A task scheduler starts with an initial task.  That task, and all subsequent tasks
+/// are free to add subtasks.  Once all submitted tasks finish the scheduler will
+/// finish.  Note, it is not an error to add additional tasks after a scheduler has
+/// aborted. These tasks will be ignored and never submitted.  The scheduler returns a
+/// future which will complete when all submitted tasks have finished executing.  Once all
+/// tasks have been finsihed the scheduler is invalid and should no longer be used.
+///
+/// Task failure (either the synchronous portion or the asynchronous portion) will cause
+/// the scheduler to enter an aborted state.  The first such failure will be reported in
+/// the final task future.
+class ARROW_EXPORT AsyncTaskScheduler {
  public:
-  AsyncDestroyable();
-  virtual ~AsyncDestroyable();
+  /// Destructor for AsyncTaskScheduler
+  ///
+  /// The lifetime of the task scheduled is managed automatically.  The scheduler
+  /// will remain valid while any tasks are running (and can always be safely accessed)
+  /// within tasks) and will be destroyed as soon as all tasks have finished.
+  virtual ~AsyncTaskScheduler() = default;
+  /// An interface for a task
+  ///
+  /// Users may want to override this, for example, to add priority
+  /// information for use by a queue.
+  class Task {
+   public:
+    virtual ~Task() = default;
+    /// Submit the task
+    ///
+    /// This will be called by the scheduler at most once when there
+    /// is space to run the task.  This is expected to be a fairly quick
+    /// function that simply submits the actual task work to an external
+    /// resource (e.g. I/O thread pool).
+    ///
+    /// If this call fails then the scheduler will enter an aborted state.
+    virtual Result<Future<>> operator()() = 0;
+    /// The cost of the task
+    ///
+    /// A ThrottledAsyncTaskScheduler can be used to limit the number of concurrent tasks.
+    /// A custom cost may be used, for example, if you would like to limit the number of
+    /// tasks based on the total expected RAM usage of the tasks (this is done in the
+    /// scanner)
+    virtual int cost() const { return 1; }
+  };
 
-  /// A future which will complete when the AsyncDestroyable has finished and is ready
-  /// to be deleted.
+  /// Add a task to the scheduler
+  ///
+  /// If the scheduler is in an aborted state this call will return false and the task
+  /// will never be run.  This is harmless and does not need to be guarded against.
+  ///
+  /// The return value for this call can usually be ignored.  There is little harm in
+  /// attempting to add tasks to an aborted scheduler.  It is only included for callers
+  /// that want to avoid future task generation to save effort.
+  ///
+  /// \param task the task to submit
   ///
-  /// This can be used to ensure all work done by this object has been completed before
-  /// proceeding.
-  Future<> on_closed() { return on_closed_; }
+  /// \return true if the task was submitted or queued, false if the task was ignored
+  virtual bool AddTask(std::unique_ptr<Task> task) = 0;
 
- protected:
-  /// Subclasses should override this and perform any cleanup.  Once the future returned
-  /// by this method finishes then this object is eligible for destruction and any
-  /// reference to `this` will be invalid
-  virtual Future<> DoDestroy() = 0;
+  /// Adds an async generator to the scheduler
+  ///
+  /// The async generator will be visited, one item at a time.  Submitting a task
+  /// will consist of polling the generator for the next future.  The generator's future
+  /// will then represent the task itself.
+  ///
+  /// This visits the task serially without readahead.  If readahead or parallelism
+  /// is desired then it should be added in the generator itself.
+  ///
+  /// The generator itself will be kept alive until all tasks have been completed.
+  /// However, if the scheduler is aborted, the generator will be destroyed as soon as the
+  /// next item would be requested.
+  ///
+  /// \param generator the generator to submit to the scheduler
+  /// \param visitor a function which visits each generator future as it completes
+  template <typename T>
+  bool AddAsyncGenerator(std::function<Future<T>()> generator,
+                         std::function<Status(const T&)> visitor);
 
- private:
-  void Destroy();
+  template <typename Callable>
+  struct SimpleTask : public Task {
+    explicit SimpleTask(Callable callable) : callable(std::move(callable)) {}
+    Result<Future<>> operator()() override { return callable(); }
+    Callable callable;
+  };
 
-  Future<> on_closed_;
-#ifndef NDEBUG
-  bool constructed_correctly_ = false;
-#endif
+  /// Add a task with cost 1 to the scheduler
+  ///
+  /// \see AddTask for details
+  template <typename Callable>
+  bool AddSimpleTask(Callable callable) {
+    return AddTask(std::make_unique<SimpleTask<Callable>>(std::move(callable)));
+  }
 
-  template <typename T>
-  friend struct DestroyingDeleter;
-  template <typename T, typename... Args>
-  friend std::shared_ptr<T> MakeSharedAsync(Args&&... args);
-  template <typename T, typename... Args>
-  friend std::unique_ptr<T, DestroyingDeleter<T>> MakeUniqueAsync(Args&&... args);
+  /// Construct a scheduler
+  ///
+  /// \param initial_task The initial task which is responsible for adding
+  ///        the first subtasks to the scheduler.
+  /// \param abort_callback A callback that will be triggered immediately after a task
+  ///        fails while other tasks may still be running.  Nothing needs to be done here,
+  ///        when a task fails the scheduler will stop accepting new tasks and eventually
+  ///        return the error.  However, this callback can be used to more quickly end
+  ///        long running tasks that have already been submitted.  Defaults to doing
+  ///        nothing.
+  /// \param stop_token An optional stop token that will allow cancellation of the
+  ///        scheduler.  This will be checked before each task is submitted and, in the
+  ///        event of a cancellation, the scheduler will enter an aborted state. This is
+  ///        a graceful cancellation and submitted tasks will still complete.
+  /// \return A future that will be completed when the initial task and all subtasks have
+  ///         finished.
+  static Future<> Make(
+      FnOnce<Status(AsyncTaskScheduler*)> initial_task,
+      FnOnce<void(const Status&)> abort_callback = [](const Status&) {},
+      StopToken stop_token = StopToken::Unstoppable());
 };
 
-template <typename T, typename... Args>
-std::shared_ptr<T> MakeSharedAsync(Args&&... args) {
-  static_assert(std::is_base_of<AsyncDestroyable, T>::value,
-                "Nursery::MakeSharedCloseable only works with AsyncDestroyable types");
-  std::shared_ptr<T> ptr(new T(std::forward<Args&&>(args)...), DestroyingDeleter<T>());
-#ifndef NDEBUG
-  ptr->constructed_correctly_ = true;
-#endif
-  return ptr;
-}
+class ARROW_EXPORT ThrottledAsyncTaskScheduler : public AsyncTaskScheduler {
+ public:
+  /// An interface for a task queue
+  ///
+  /// A queue's methods will not be called concurrently
+  class Queue {
+   public:
+    virtual ~Queue() = default;
+    /// Push a task to the queue
+    ///
+    /// \param task the task to enqueue
+    virtual void Push(std::unique_ptr<Task> task) = 0;
+    /// Pop the next task from the queue
+    virtual std::unique_ptr<Task> Pop() = 0;
+    /// Peek the next task in the queue
+    virtual const Task& Peek() = 0;
+    /// Check if the queue is empty
+    virtual bool Empty() = 0;
+    /// Purge the queue of all items
+    virtual void Purge() = 0;
+  };
 
-template <typename T, typename... Args>
-std::unique_ptr<T, DestroyingDeleter<T>> MakeUniqueAsync(Args&&... args) {
-  static_assert(std::is_base_of<AsyncDestroyable, T>::value,
-                "Nursery::MakeUniqueCloseable only works with AsyncDestroyable types");
-  std::unique_ptr<T, DestroyingDeleter<T>> ptr(new T(std::forward<Args>(args)...),
-                                               DestroyingDeleter<T>());
-#ifndef NDEBUG
-  ptr->constructed_correctly_ = true;
-#endif
-  return ptr;
-}
+  class Throttle {
+   public:
+    virtual ~Throttle() = default;
+    /// Acquire amt permits
+    ///
+    /// If nullopt is returned then the permits were immediately
+    /// acquired and the caller can proceed.  If a future is returned then the caller
+    /// should wait for the future to complete first.  When the returned future completes
+    /// the permits have NOT been acquired and the caller must call Acquire again
+    ///
+    /// \param amt the number of permits to acquire
+    virtual std::optional<Future<>> TryAcquire(int amt) = 0;
+    /// Release amt permits
+    ///
+    /// This will possibly complete waiting futures and should probably not be
+    /// called while holding locks.
+    ///
+    /// \param amt the number of permits to release
+    virtual void Release(int amt) = 0;
 
-/// A utility which keeps track of a collection of asynchronous tasks
-///
-/// This can be used to provide structured concurrency for asynchronous development.
-/// A task group created at a high level can be distributed amongst low level components
-/// which register work to be completed.  The high level job can then wait for all work
-/// to be completed before cleaning up.
-class ARROW_EXPORT AsyncTaskGroup {
- public:
-  /// Add a task to be tracked by this task group
-  ///
-  /// If a previous task has failed then adding a task will fail
-  ///
-  /// If WaitForTasksToFinish has been called and the returned future has been marked
-  /// completed then adding a task will fail.
-  Status AddTask(std::function<Result<Future<>>()> task);
-  /// Same as AddTask but doesn't add the task if End() has been called.
-  ///
-  /// \return true if the task was started, false if the group had already ended
-  Result<bool> AddTaskIfNotEnded(std::function<Result<Future<>>()> task);
-  /// Add a task that has already been started
-  Status AddTask(const Future<>& task);
-  /// \brief Attempt to add a task that has already been started to this group's tracking
-  ///
-  /// The return value must be paid attention to.  If the return value is false then the
-  /// task could not be added because the group had already ended and so the caller must
-  /// track the external task some other way.
-  Result<bool> AddTaskIfNotEnded(const Future<>& task);
-  /// Signal that top level tasks are done being added
-  ///
-  /// It is allowed for tasks to be added after this call provided the future has not yet
-  /// completed.  This should be safe as long as the tasks being added are added as part
-  /// of a task that is tracked.  As soon as the count of running tasks reaches 0 this
-  /// future will be marked complete.
-  ///
-  /// Any attempt to add a task after the returned future has completed will fail.
-  ///
-  /// The returned future that will finish when all running tasks have finished.
-  Future<> End();
-  /// A future that will be finished after End is called and all tasks have completed
-  ///
-  /// This is the same future that is returned by End() but calling this method does
-  /// not indicate that top level tasks are done being added.  End() must still be called
-  /// at some point or the future returned will never finish.
-  ///
-  /// This is a utility method for workflows where the finish future needs to be
-  /// referenced before all top level tasks have been queued.
-  Future<> OnFinished() const;
-
- private:
-  Status AddTaskUnlocked(const Future<>& task, util::Mutex::Guard guard);
-
-  bool finished_adding_ = false;
-  int running_tasks_ = 0;
-  Status err_;
-  Future<> all_tasks_done_ = Future<>::Make();
-  util::Mutex mutex_;
+    /// The size of the largest task that can run
+    ///
+    /// Incoming tasks will have their cost latched to this value to ensure
+    /// they can still run (although they will be the only thing allowed to
+    /// run at that time).
+    virtual int Capacity() = 0;
+
+    /// Pause the throttle
+    ///
+    /// Any tasks that have been submitted already will continue.  However, no new tasks
+    /// will be run until the throttle is resumed.
+    virtual void Pause() = 0;
+    /// Resume the throttle
+    ///
+    /// Allows taks to be submitted again.  If there is a max_concurrent_cost limit then
+    /// it will still apply.
+    virtual void Resume() = 0;
+  };
+
+  /// Pause the throttle
+  ///
+  /// Any tasks that have been submitted already will continue.  However, no new tasks
+  /// will be run until the throttle is resumed.
+  virtual void Pause() = 0;
+  /// Resume the throttle
+  ///
+  /// Allows taks to be submitted again.  If there is a max_concurrent_cost limit then
+  /// it will still apply.
+  virtual void Resume() = 0;
+
+  /// Create a throttled view of a scheduler
+  ///
+  /// Tasks added via this view will be subjected to the throttle and, if the tasks cannot
+  /// run immediately, will be placed into a queue.
+  ///
+  /// Although a shared_ptr is returned it should generally be assumed that the caller
+  /// is being given exclusive ownership.  The shared_ptr is used to share the view with
+  /// queued and submitted tasks and the lifetime of those is unpredictable.  It is
+  /// important the caller keep the returned pointer alive for as long as they plan to add
+  /// tasks to the view.
+  ///
+  /// \param scheduler a scheduler to submit tasks to after throttling
+  ///
+  /// This can be the root scheduler, another throttled scheduler, or a task group.  These
+  /// are all composable.
+  ///
+  /// \param max_concurrent_cost the maximum amount of cost allowed to run at any one time
+  ///
+  /// If a task is added that has a cost greater than max_concurrent_cost then its cost
+  /// will be reduced to max_concurrent_cost so that it is still possible for the task to
+  /// run.
+  ///
+  /// \param queue the queue to use when tasks cannot be submitted
+  ///
+  /// By default a FIFO queue will be used.  However, a custom queue can be provided if
+  /// some tasks have higher priority than other tasks.
+  static std::shared_ptr<ThrottledAsyncTaskScheduler> Make(
+      AsyncTaskScheduler* scheduler, int max_concurrent_cost,
+      std::unique_ptr<Queue> queue = NULLPTR);
+
+  /// @brief Create a ThrottledAsyncTaskScheduler using a custom throttle
+  ///
+  /// \see Make
+  static std::shared_ptr<ThrottledAsyncTaskScheduler> MakeWithCustomThrottle(
+      AsyncTaskScheduler* scheduler, std::unique_ptr<Throttle> throttle,
+      std::unique_ptr<Queue> queue = NULLPTR);
 };
 
-/// A task group which serializes asynchronous tasks in a push-based workflow
+/// A utility to keep track of a collection of tasks
 ///
-/// Tasks will be executed in the order they are added
+/// Often it is useful to keep track of some state that only needs to stay alive
+/// for some small collection of tasks, or to perform some kind of final cleanup
+/// when a collection of tasks is finished.
 ///
-/// This will buffer results in an unlimited fashion so it should be combined
-/// with some kind of backpressure
-class ARROW_EXPORT SerializedAsyncTaskGroup {
+/// For example, when scanning, we need to keep the file reader alive while all scan
+/// tasks run for a given file, and then we can gracefully close it when we finish the
+/// file.
+class ARROW_EXPORT AsyncTaskGroup : public AsyncTaskScheduler {
  public:
-  SerializedAsyncTaskGroup();
-  /// Push an item into the serializer and (eventually) into the consumer
+  /// Destructor for the task group
   ///
-  /// The item will not be delivered to the consumer until all previous items have been
-  /// consumed.
+  /// The destructor might trigger the finish callback.  If the finish callback fails
+  /// then the error will be reported as a task on the scheduler.
   ///
-  /// If the consumer returns an error then this serializer will go into an error state
-  /// and all subsequent pushes will fail with that error.  Pushes that have been queued
-  /// but not delivered will be silently dropped.
+  /// Failure to destroy the async task group will not prevent the scheduler from
+  /// finishing.  If the scheduler finishes before the async task group is done then
+  /// the finish callback will be run immediately when the async task group finishes.
   ///
-  /// \return True if the item was pushed immediately to the consumer, false if it was
-  /// queued
-  Status AddTask(std::function<Result<Future<>>()> task);
-
-  /// Signal that all top level tasks have been added
+  /// If the scheduler has aborted then the finish callback will not run.
+  ~AsyncTaskGroup() = default;
+  /// Create an async task group
   ///
-  /// The returned future that will finish when all tasks have been consumed.
-  Future<> End();
-
-  /// Abort a task group
+  /// The finish callback will not run until the task group is destroyed and all
+  /// tasks are finished so you will generally want to reset / destroy the returned
+  /// unique_ptr at some point.
   ///
-  /// Tasks that have not been started will be discarded
+  /// \param scheduler The underlying scheduler to submit tasks to
+  /// \param finish_callback A callback that will be run only after the task group has
+  ///                        been destroyed and all tasks added by the group have
+  ///                        finished.
   ///
-  /// The returned future will finish when all running tasks have finished.
-  Future<> Abort(Status err);
+  /// Note: in error scenarios the finish callback may not run.  However, it will still,
+  /// of course, be destroyed.
+  static std::unique_ptr<AsyncTaskGroup> Make(AsyncTaskScheduler* scheduler,
+                                              FnOnce<Status()> finish_callback);
+};
 
-  /// A future that finishes when all queued items have been delivered.
-  ///
-  /// This will return the same future returned by End but will not signal
-  /// that all tasks have been finished.  End must be called at some point in order for
-  /// this future to finish.
-  Future<> OnFinished() const { return on_finished_; }
+/// Create a task group that is also throttled
+///
+/// This is a utility factory that creates a throttled view of a scheduler and then
+/// wraps that throttled view with a task group that destroys the throttle when finished.
+///
+/// \see ThrottledAsyncTaskScheduler
+/// \see AsyncTaskGroup
+/// \param target the underlying scheduler to submit tasks to
+/// \param max_concurrent_cost the maximum amount of cost allowed to run at any one time
+/// \param queue the queue to use when tasks cannot be submitted
+/// \param finish_callback A callback that will be run only after the task group has
+///                  been destroyed and all tasks added by the group have finished
+ARROW_EXPORT std::unique_ptr<ThrottledAsyncTaskScheduler> MakeThrottledAsyncTaskGroup(
+    AsyncTaskScheduler* target, int max_concurrent_cost,
+    std::unique_ptr<ThrottledAsyncTaskScheduler::Queue> queue,
+    FnOnce<Status()> finish_callback);
 
- private:
-  void ConsumeAsMuchAsPossibleUnlocked(util::Mutex::Guard&& guard);
-  Future<> EndUnlocked(util::Mutex::Guard&& guard);
-  bool TryDrainUnlocked();
+// Defined down here to avoid circular dependency between AsyncTaskScheduler and
+// AsyncTaskGroup
+template <typename T>
+bool AsyncTaskScheduler::AddAsyncGenerator(std::function<Future<T>()> generator,
+                                           std::function<Status(const T&)> visitor) {
+  struct State {
+    State(std::function<Future<T>()> generator, std::function<Status(const T&)> visitor,
+          std::unique_ptr<AsyncTaskGroup> task_group)
+        : generator(std::move(generator)),
+          visitor(std::move(visitor)),
+          task_group(std::move(task_group)) {}
+    std::function<Future<T>()> generator;
+    std::function<Status(const T&)> visitor;
+    std::unique_ptr<AsyncTaskGroup> task_group;
+  };
+  struct SubmitTask : public Task {
+    explicit SubmitTask(std::unique_ptr<State> state_holder)
+        : state_holder(std::move(state_holder)) {}
 
-  Future<> on_finished_;
-  std::queue<std::function<Result<Future<>>()>> tasks_;
-  util::Mutex mutex_;
-  bool ended_ = false;
-  Status err_;
-  Future<> processing_;
-};
+    struct SubmitTaskCallback {
+      SubmitTaskCallback(std::unique_ptr<State> state_holder, Future<> task_completion)
+          : state_holder(std::move(state_holder)),
+            task_completion(std::move(task_completion)) {}
+      void operator()(const Result<T>& maybe_item) {
+        if (!maybe_item.ok()) {
+          task_completion.MarkFinished(maybe_item.status());
+          return;
+        }
+        const auto& item = *maybe_item;
+        if (IsIterationEnd(item)) {
+          task_completion.MarkFinished();
+          return;
+        }
+        Status visit_st = state_holder->visitor(item);
+        if (!visit_st.ok()) {
+          task_completion.MarkFinished(std::move(visit_st));
+          return;
+        }
+        state_holder->task_group->AddTask(
+            std::make_unique<SubmitTask>(std::move(state_holder)));
+        task_completion.MarkFinished();
+      }
+      std::unique_ptr<State> state_holder;
+      Future<> task_completion;
+    };
+
+    Result<Future<>> operator()() {
+      Future<> task = Future<>::Make();
+      // Consume as many items as we can (those that are already finished)
+      // synchronously to avoid recursion / stack overflow.
+      while (true) {
+        Future<T> next = state_holder->generator();
+        if (next.TryAddCallback(
+                [&] { return SubmitTaskCallback(std::move(state_holder), task); })) {
+          return task;
+        }
+        ARROW_ASSIGN_OR_RAISE(T item, next.result());
+        if (IsIterationEnd(item)) {
+          task.MarkFinished();
+          return task;
+        }
+        ARROW_RETURN_NOT_OK(state_holder->visitor(item));
+      }
+    }
+    std::unique_ptr<State> state_holder;
+  };
+  std::unique_ptr<AsyncTaskGroup> task_group =
+      AsyncTaskGroup::Make(this, [] { return Status::OK(); });
+  AsyncTaskGroup* task_group_view = task_group.get();
+  std::unique_ptr<State> state_holder = std::make_unique<State>(
+      std::move(generator), std::move(visitor), std::move(task_group));
+  task_group_view->AddTask(std::make_unique<SubmitTask>(std::move(state_holder)));
+  return true;
+}
 
 }  // namespace util
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/async_util_test.cc b/cpp/src/arrow/util/async_util_test.cc
index 3ad2bc15f58..4fb17e4ea07 100644
--- a/cpp/src/arrow/util/async_util_test.cc
+++ b/cpp/src/arrow/util/async_util_test.cc
@@ -17,281 +17,639 @@
 
 #include "arrow/util/async_util.h"
 
+#include <deque>
+#include <functional>
+#include <list>
+#include <memory>
+#include <mutex>
+#include <queue>
 #include <thread>
+#include <unordered_set>
 
 #include <gtest/gtest.h>
 
 #include "arrow/result.h"
+#include "arrow/testing/async_test_util.h"
 #include "arrow/testing/future_util.h"
 #include "arrow/testing/gtest_util.h"
+#include "arrow/util/async_generator.h"
+#include "arrow/util/future.h"
+#include "arrow/util/test_common.h"
 
 namespace arrow {
 namespace util {
 
-class GatingDestroyable : public AsyncDestroyable {
- public:
-  GatingDestroyable(Future<> close_future, bool* destroyed)
-      : close_future_(std::move(close_future)), destroyed_(destroyed) {}
-  ~GatingDestroyable() override { *destroyed_ = true; }
-
- protected:
-  Future<> DoDestroy() override { return close_future_; }
-
- private:
-  Future<> close_future_;
-  bool* destroyed_;
-};
-
-template <typename Factory>
-void TestAsyncDestroyable(Factory factory) {
-  Future<> gate = Future<>::Make();
-  bool destroyed = false;
-  bool on_closed = false;
-  {
-    auto obj = factory(gate, &destroyed);
-    obj->on_closed().AddCallback([&](const Status& st) { on_closed = true; });
-    ASSERT_FALSE(destroyed);
+TEST(AsyncTaskScheduler, ShouldScheduleConcurrentTasks) {
+  // A basic test to make sure we schedule the right number of concurrent tasks
+  constexpr int kMaxConcurrentTasks = 2;
+  constexpr int kTotalNumTasks = kMaxConcurrentTasks + 1;
+  Future<> futures[kTotalNumTasks];
+  bool submitted[kTotalNumTasks];
+  Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    std::shared_ptr<ThrottledAsyncTaskScheduler> throttled =
+        ThrottledAsyncTaskScheduler::Make(scheduler, kMaxConcurrentTasks);
+    for (int i = 0; i < kTotalNumTasks; i++) {
+      futures[i] = Future<>::Make();
+      submitted[i] = false;
+      throttled->AddSimpleTask([&, i] {
+        submitted[i] = true;
+        return futures[i];
+      });
+    }
+    return Status::OK();
+  });
+  AssertNotFinished(finished);
+  for (int i = 0; i < kTotalNumTasks; i++) {
+    if (i < kMaxConcurrentTasks) {
+      ASSERT_TRUE(submitted[i]);
+    } else {
+      ASSERT_FALSE(submitted[i]);
+    }
   }
-  ASSERT_FALSE(destroyed);
-  ASSERT_FALSE(on_closed);
-  gate.MarkFinished();
-  ASSERT_TRUE(destroyed);
-  ASSERT_TRUE(on_closed);
-}
 
-TEST(AsyncDestroyable, MakeShared) {
-  TestAsyncDestroyable([](Future<> gate, bool* destroyed) {
-    return MakeSharedAsync<GatingDestroyable>(gate, destroyed);
-  });
+  for (int j = 0; j < kTotalNumTasks; j++) {
+    futures[j].MarkFinished();
+    if (j + kMaxConcurrentTasks < kTotalNumTasks) {
+      ASSERT_TRUE(submitted[j + kMaxConcurrentTasks]);
+    }
+  }
+  ASSERT_FINISHES_OK(finished);
 }
 
-// The next four tests are corner cases but can sometimes occur when using these types
-// in standard containers on certain versions of the compiler/cpplib.  Basically we
-// want to make sure our deleter is ok with null pointers.
-TEST(AsyncDestroyable, DefaultUnique) {
-  std::unique_ptr<GatingDestroyable, DestroyingDeleter<GatingDestroyable>> default_ptr;
-  default_ptr.reset();
+TEST(AsyncTaskScheduler, CancelWaitsForTasksToFinish) {
+  StopSource stop_source;
+  Future<> task = Future<>::Make();
+  Future<> finished = AsyncTaskScheduler::Make(
+      [&](AsyncTaskScheduler* scheduler) {
+        scheduler->AddSimpleTask([&] { return task; });
+        return Status::OK();
+      },
+      /*abort_callback=*/[](const Status&) {}, stop_source.token());
+  stop_source.RequestStop();
+  AssertNotFinished(finished);
+  task.MarkFinished();
+  // We don't get a cancel error here which is ok because
+  // we did ran all the tasks.
+  ASSERT_FINISHES_OK(finished);
 }
 
-TEST(AsyncDestroyable, NullUnique) {
-  std::unique_ptr<GatingDestroyable, DestroyingDeleter<GatingDestroyable>> null_ptr(
-      nullptr);
-  null_ptr.reset();
+TEST(AsyncTaskScheduler, CancelPurgesQueuedTasks) {
+  StopSource stop_source;
+  Future<> task = Future<>::Make();
+  bool second_task_submitted = false;
+  Future<> finished = AsyncTaskScheduler::Make(
+      [&](AsyncTaskScheduler* scheduler) {
+        std::shared_ptr<ThrottledAsyncTaskScheduler> throttled =
+            ThrottledAsyncTaskScheduler::Make(scheduler, 1);
+        throttled->AddSimpleTask([&] { return task; });
+        throttled->AddSimpleTask([&] {
+          second_task_submitted = true;
+          return Future<>::MakeFinished();
+        });
+        return Status::OK();
+      },
+      /*abort_callback=*/[](const Status&) {}, stop_source.token());
+  stop_source.RequestStop();
+  task.MarkFinished();
+  ASSERT_FINISHES_AND_RAISES(Cancelled, finished);
+  ASSERT_FALSE(second_task_submitted);
 }
 
-TEST(AsyncDestroyable, NullShared) {
-  std::shared_ptr<GatingDestroyable> null_ptr(nullptr,
-                                              DestroyingDeleter<GatingDestroyable>());
-  null_ptr.reset();
+TEST(AsyncTaskScheduler, CancelPreventsAdditionalTasks) {
+  StopSource stop_source;
+  Future<> task = Future<>::Make();
+  bool second_task_submitted = false;
+  Future<> finished = AsyncTaskScheduler::Make(
+      [&](AsyncTaskScheduler* scheduler) {
+        scheduler->AddSimpleTask([&] { return task; });
+        stop_source.RequestStop();
+        scheduler->AddSimpleTask([&] {
+          second_task_submitted = true;
+          return task;
+        });
+        return Status::OK();
+      },
+      /*abort_callback=*/[](const Status&) {}, stop_source.token());
+  task.MarkFinished();
+  ASSERT_FINISHES_AND_RAISES(Cancelled, finished);
+  ASSERT_FALSE(second_task_submitted);
 }
 
-TEST(AsyncDestroyable, NullUniqueToShared) {
-  std::unique_ptr<GatingDestroyable, DestroyingDeleter<GatingDestroyable>> null_ptr(
-      nullptr);
-  std::shared_ptr<GatingDestroyable> null_shared = std::move(null_ptr);
-  null_shared.reset();
+TEST(AsyncTaskScheduler, AbortCallback) {
+  // `task` simulates a long running task that will not end for a while.  The abort
+  // callback ends the task early.
+  Future<> task = Future<>::Make();
+  Future<> finished = AsyncTaskScheduler::Make(
+      [&](AsyncTaskScheduler* scheduler) {
+        scheduler->AddSimpleTask([&] { return task; });
+        scheduler->AddSimpleTask([] { return Status::Invalid("XYZ"); });
+        return Status::OK();
+      },
+      [&](const Status& st) {
+        ASSERT_TRUE(st.IsInvalid());
+        task.MarkFinished();
+      });
+  ASSERT_FINISHES_AND_RAISES(Invalid, finished);
 }
 
-TEST(AsyncDestroyable, MakeUnique) {
-  TestAsyncDestroyable([](Future<> gate, bool* destroyed) {
-    return MakeUniqueAsync<GatingDestroyable>(gate, destroyed);
+TEST(AsyncTaskScheduler, TaskStaysAliveUntilFinished) {
+  bool my_task_destroyed = false;
+  Future<> task = Future<>::Make();
+  Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    struct MyTask : public AsyncTaskScheduler::Task {
+      MyTask(bool* my_task_destroyed_ptr, Future<> task_fut)
+          : my_task_destroyed_ptr(my_task_destroyed_ptr), task_fut(std::move(task_fut)) {}
+      ~MyTask() { *my_task_destroyed_ptr = true; }
+      Result<Future<>> operator()() { return task_fut; }
+      bool* my_task_destroyed_ptr;
+      Future<> task_fut;
+    };
+    scheduler->AddTask(std::make_unique<MyTask>(&my_task_destroyed, task));
+    return Status::OK();
   });
+  SleepABit();
+  ASSERT_FALSE(my_task_destroyed);
+  task.MarkFinished();
+  ASSERT_TRUE(my_task_destroyed);
+  ASSERT_FINISHES_OK(finished);
 }
 
-template <typename T>
-class TypedTestAsyncTaskGroup : public ::testing::Test {};
-
-using AsyncTaskGroupTypes = ::testing::Types<AsyncTaskGroup, SerializedAsyncTaskGroup>;
+TEST(AsyncTaskScheduler, InitialTaskAddsNothing) {
+  Future<> finished = AsyncTaskScheduler::Make(
+      [&](AsyncTaskScheduler* scheduler) { return Status::OK(); });
+  ASSERT_FINISHES_OK(finished);
+}
 
-TYPED_TEST_SUITE(TypedTestAsyncTaskGroup, AsyncTaskGroupTypes);
+TEST(AsyncTaskScheduler, InitialTaskFails) {
+  Future<> task = Future<>::Make();
+  Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    EXPECT_TRUE(scheduler->AddSimpleTask([&]() { return task; }));
+    return Status::Invalid("XYZ");
+  });
+  AssertNotFinished(finished);
+  task.MarkFinished();
+  ASSERT_FINISHES_AND_RAISES(Invalid, finished);
 
-TYPED_TEST(TypedTestAsyncTaskGroup, Basic) {
-  TypeParam task_group;
-  Future<> fut1 = Future<>::Make();
-  Future<> fut2 = Future<>::Make();
-  ASSERT_OK(task_group.AddTask([fut1]() { return fut1; }));
-  ASSERT_OK(task_group.AddTask([fut2]() { return fut2; }));
-  Future<> all_done = task_group.End();
-  AssertNotFinished(all_done);
-  fut1.MarkFinished();
-  AssertNotFinished(all_done);
-  fut2.MarkFinished();
-  ASSERT_FINISHES_OK(all_done);
+  finished = AsyncTaskScheduler::Make(
+      [&](AsyncTaskScheduler* scheduler) { return Status::Invalid("XYZ"); });
+  ASSERT_FINISHES_AND_RAISES(Invalid, finished);
 }
 
-TYPED_TEST(TypedTestAsyncTaskGroup, NoTasks) {
-  TypeParam task_group;
-  ASSERT_FINISHES_OK(task_group.End());
+TEST(AsyncTaskScheduler, TaskGroup) {
+  Future<> task = Future<>::Make();
+  bool finish_callback_ran = false;
+  Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    std::unique_ptr<AsyncTaskGroup> task_group = AsyncTaskGroup::Make(scheduler, [&] {
+      finish_callback_ran = true;
+      return Status::OK();
+    });
+    EXPECT_TRUE(task_group->AddSimpleTask([&]() { return task; }));
+    return Status::OK();
+  });
+  ASSERT_FALSE(finish_callback_ran);
+  AssertNotFinished(finished);
+  task.MarkFinished();
+  ASSERT_FINISHES_OK(finished);
+  ASSERT_TRUE(finish_callback_ran);
 }
 
-TYPED_TEST(TypedTestAsyncTaskGroup, OnFinishedDoesNotEnd) {
-  TypeParam task_group;
-  Future<> on_finished = task_group.OnFinished();
-  AssertNotFinished(on_finished);
-  ASSERT_FINISHES_OK(task_group.End());
-  ASSERT_FINISHES_OK(on_finished);
+TEST(AsyncTaskScheduler, TaskGroupLifetime) {
+  Future<> task = Future<>::Make();
+  bool finish_callback_ran = false;
+  Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    std::unique_ptr<AsyncTaskGroup> task_group = AsyncTaskGroup::Make(scheduler, [&] {
+      finish_callback_ran = true;
+      return Status::OK();
+    });
+    EXPECT_TRUE(task_group->AddSimpleTask([&]() { return task; }));
+    // Last task in group is finished but we still have a reference to the group (and
+    // could still add tasks) so the finish callback does not run
+    task.MarkFinished();
+    EXPECT_FALSE(finish_callback_ran);
+    return Status::OK();
+  });
+  ASSERT_FINISHES_OK(finished);
+  ASSERT_TRUE(finish_callback_ran);
 }
 
-TYPED_TEST(TypedTestAsyncTaskGroup, AddAfterDone) {
-  TypeParam task_group;
-  ASSERT_FINISHES_OK(task_group.End());
-  ASSERT_RAISES(Cancelled, task_group.AddTask([] { return Future<>::Make(); }));
+TEST(AsyncTaskScheduler, TaskGroupNoTasks) {
+  Future<> task = Future<>::Make();
+  bool finish_callback_ran = false;
+  Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    std::unique_ptr<AsyncTaskGroup> task_group = AsyncTaskGroup::Make(scheduler, [&] {
+      finish_callback_ran = true;
+      return Status::OK();
+    });
+    EXPECT_FALSE(finish_callback_ran);
+    return Status::OK();
+  });
+  ASSERT_FINISHES_OK(finished);
+  ASSERT_TRUE(finish_callback_ran);
 }
 
-TYPED_TEST(TypedTestAsyncTaskGroup, AddAfterEndButBeforeFinish) {
-  TypeParam task_group;
-  Future<> task_one = Future<>::Make();
-  ASSERT_OK(task_group.AddTask([task_one] { return task_one; }));
-  Future<> finish_fut = task_group.End();
-  AssertNotFinished(finish_fut);
-  ASSERT_RAISES(Cancelled, task_group.AddTask([] { return Future<>::Make(); }));
-  AssertNotFinished(finish_fut);
-  task_one.MarkFinished();
-  AssertFinished(finish_fut);
-  ASSERT_FINISHES_OK(finish_fut);
+TEST(AsyncTaskScheduler, TaskGroupFinishCallbackFails) {
+  Future<> task = Future<>::Make();
+  Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    std::unique_ptr<AsyncTaskGroup> task_group =
+        AsyncTaskGroup::Make(scheduler, [&] { return Status::Invalid("XYZ"); });
+    EXPECT_TRUE(task_group->AddSimpleTask([&]() { return task; }));
+    // Last task in group is finished but we still have a reference to the group (and
+    // could still add tasks) so the finish callback does not run
+    return Status::OK();
+  });
+  AssertNotFinished(finished);
+  task.MarkFinished();
+  ASSERT_FINISHES_AND_RAISES(Invalid, finished);
 }
 
-TYPED_TEST(TypedTestAsyncTaskGroup, Error) {
-  TypeParam task_group;
-  Future<> failed_task = Future<>::MakeFinished(Status::Invalid("XYZ"));
-  ASSERT_RAISES(Invalid, task_group.AddTask([failed_task] { return failed_task; }));
-  ASSERT_FINISHES_AND_RAISES(Invalid, task_group.End());
+#ifndef ARROW_VALGRIND
+TEST(AsyncTaskScheduler, FailingTaskStress) {
+  // Test many tasks failing at the same time
+  constexpr int kNumTasks = 256;
+  for (int i = 0; i < kNumTasks; i++) {
+    Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+      EXPECT_TRUE(scheduler->AddSimpleTask([] { return SleepABitAsync(); }));
+      EXPECT_TRUE(scheduler->AddSimpleTask(
+          [] { return SleepABitAsync().Then([]() { return Status::Invalid("XYZ"); }); }));
+      return Status::OK();
+    });
+    ASSERT_FINISHES_AND_RAISES(Invalid, finished);
+  }
+  for (int i = 0; i < kNumTasks; i++) {
+    Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+      std::unique_ptr<AsyncTaskGroup> task_group =
+          AsyncTaskGroup::Make(scheduler, [] { return Status::OK(); });
+      EXPECT_TRUE(task_group->AddSimpleTask([] { return SleepABitAsync(); }));
+      EXPECT_TRUE(task_group->AddSimpleTask(
+          [] { return SleepABitAsync().Then([]() { return Status::Invalid("XYZ"); }); }));
+      return Status::OK();
+    });
+    ASSERT_FINISHES_AND_RAISES(Invalid, finished);
+  }
 }
-
-TYPED_TEST(TypedTestAsyncTaskGroup, ErrorWhileNotEmpty) {
-  TypeParam task_group;
-  Future<> pending_task = Future<>::Make();
-  Future<> will_fail_task = Future<>::Make();
-  Future<> after_fail_task = Future<>::Make();
-  ASSERT_OK(task_group.AddTask([pending_task] { return pending_task; }));
-  ASSERT_OK(task_group.AddTask([will_fail_task] { return will_fail_task; }));
-  ASSERT_OK(task_group.AddTask([after_fail_task] { return after_fail_task; }));
-  Future<> end = task_group.End();
-  AssertNotFinished(end);
-  pending_task.MarkFinished();
-  will_fail_task.MarkFinished(Status::Invalid("XYZ"));
-  after_fail_task.MarkFinished();
-  ASSERT_FINISHES_AND_RAISES(Invalid, end);
+#endif
+
+TEST(AsyncTaskScheduler, AsyncGenerator) {
+  for (bool slow : {false, true}) {
+    std::vector<TestInt> values{1, 2, 3};
+    std::vector<TestInt> seen_values{};
+    ARROW_SCOPED_TRACE("Slow: ", slow);
+    Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+      AsyncGenerator<TestInt> generator = MakeVectorGenerator<TestInt>(values);
+      if (slow) {
+        generator = util::SlowdownABit(generator);
+      }
+      std::function<Status(const TestInt&)> visitor = [&](const TestInt& val) {
+        seen_values.push_back(val);
+        return Status::OK();
+      };
+      scheduler->AddAsyncGenerator(std::move(generator), std::move(visitor));
+      return Status::OK();
+    });
+    ASSERT_FINISHES_OK(finished);
+    ASSERT_EQ(seen_values, values);
+  }
 }
 
-TYPED_TEST(TypedTestAsyncTaskGroup, TaskFactoryFails) {
-  TypeParam task_group;
-  ASSERT_RAISES(Invalid, task_group.AddTask([] { return Status::Invalid("XYZ"); }));
-  ASSERT_RAISES(Invalid, task_group.AddTask([] { return Future<>::Make(); }));
-  ASSERT_FINISHES_AND_RAISES(Invalid, task_group.End());
-}
+class CustomThrottle : public ThrottledAsyncTaskScheduler::Throttle {
+ public:
+  virtual std::optional<Future<>> TryAcquire(int amt) {
+    if (gate_.is_finished()) {
+      return std::nullopt;
+    } else {
+      return gate_;
+    }
+  }
+  virtual void Release(int amt) {}
+  void Unlock() { gate_.MarkFinished(); }
+  int Capacity() { return std::numeric_limits<int>::max(); }
+  virtual void Pause() { FAIL() << "Should not get here."; }
+  virtual void Resume() { FAIL() << "Should not get here."; }
 
-TYPED_TEST(TypedTestAsyncTaskGroup, AddAfterFailed) {
-  TypeParam task_group;
-  ASSERT_RAISES(Invalid, task_group.AddTask([] {
-    return Future<>::MakeFinished(Status::Invalid("XYZ"));
-  }));
-  ASSERT_RAISES(Invalid, task_group.AddTask([] { return Future<>::Make(); }));
-  ASSERT_FINISHES_AND_RAISES(Invalid, task_group.End());
-}
+ private:
+  Future<> gate_ = Future<>::Make();
+};
 
-TYPED_TEST(TypedTestAsyncTaskGroup, Stress) {
-  constexpr int NTASKS = 100;
-  TypeParam task_group;
-  std::vector<std::thread> threads;
-  for (int i = 0; i < NTASKS; i++) {
-    ASSERT_OK(task_group.AddTask([&threads] {
-      Future<> fut = Future<>::Make();
-      threads.emplace_back([fut]() mutable { fut.MarkFinished(); });
-      return fut;
+TEST(AsyncTaskScheduler, Throttle) {
+  // Queued tasks should still be executed and should block completion of the scheduler
+  Future<> slow_task = Future<>::Make();
+  bool was_run = false;
+  Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    std::shared_ptr<ThrottledAsyncTaskScheduler> throttled =
+        ThrottledAsyncTaskScheduler::Make(scheduler, 1);
+    EXPECT_TRUE(throttled->AddSimpleTask([slow_task] { return slow_task; }));
+    EXPECT_TRUE(throttled->AddSimpleTask([&was_run] {
+      was_run = true;
+      return Future<>::MakeFinished();
     }));
-  }
-  ASSERT_FINISHES_OK(task_group.End());
-  for (auto& thread : threads) {
-    thread.join();
-  }
+    EXPECT_FALSE(was_run);
+    return Status::OK();
+  });
+  slow_task.MarkFinished();
+  ASSERT_FINISHES_OK(finished);
+  ASSERT_TRUE(was_run);
+
+  /// Same test but block task by custom throttle
+  was_run = false;
+  auto custom_throttle = std::make_unique<CustomThrottle>();
+  CustomThrottle* custom_throttle_view = custom_throttle.get();
+  finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    std::shared_ptr<ThrottledAsyncTaskScheduler> throttled =
+        ThrottledAsyncTaskScheduler::MakeWithCustomThrottle(scheduler,
+                                                            std::move(custom_throttle));
+    EXPECT_TRUE(throttled->AddSimpleTask([&was_run] {
+      was_run = true;
+      return Future<>::MakeFinished();
+    }));
+    EXPECT_FALSE(was_run);
+    custom_throttle_view->Unlock();
+    return Status::OK();
+  });
+  ASSERT_FINISHES_OK(finished);
+  ASSERT_TRUE(was_run);
+}
+
+TEST(AsyncTaskScheduler, TaskWithCostBiggerThanThrottle) {
+  // It can be difficult to know the maximum cost a task may have.  In
+  // scanning this is the maximum size of a batch stored on disk which we
+  // cannot know ahead of time.  So a task may have a cost greater than the
+  // size of the throttle.  In that case we simply drop the cost to the
+  // capacity of the throttle.
+  constexpr int kThrottleCapacity = 5;
+  bool task_submitted = false;
+  Future<> blocking_task = Future<>::Make();
+  Future<> task = Future<>::Make();
+  struct ExpensiveTask : AsyncTaskScheduler::Task {
+    ExpensiveTask(bool* task_submitted, Future<> task)
+        : task_submitted(task_submitted), task(std::move(task)) {}
+    Result<Future<>> operator()() override {
+      *task_submitted = true;
+      return task;
+    }
+    int cost() const override { return kThrottleCapacity * 50; }
+    bool* task_submitted;
+    Future<> task;
+  };
+  Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    std::shared_ptr<ThrottledAsyncTaskScheduler> throttled =
+        ThrottledAsyncTaskScheduler::Make(scheduler, kThrottleCapacity);
+    EXPECT_TRUE(throttled->AddSimpleTask([&] { return blocking_task; }));
+    EXPECT_TRUE(
+        throttled->AddTask(std::make_unique<ExpensiveTask>(&task_submitted, task)));
+    return Status::OK();
+  });
+
+  // Task should not be submitted initially because blocking_task (even though
+  // it has a cost of 1) is preventing it.
+  ASSERT_FALSE(task_submitted);
+  blocking_task.MarkFinished();
+  // One blocking_task is out of the way the task is free to run
+  ASSERT_TRUE(task_submitted);
+  task.MarkFinished();
+  ASSERT_FINISHES_OK(finished);
 }
 
-TEST(StandardAsyncTaskGroup, TaskFinishesAfterError) {
-  AsyncTaskGroup task_group;
+TEST(AsyncTaskScheduler, TaskFinishesAfterError) {
+  /// If a task fails it shouldn't impact previously submitted tasks
   Future<> fut1 = Future<>::Make();
-  ASSERT_OK(task_group.AddTask([fut1] { return fut1; }));
-  ASSERT_RAISES(Invalid, task_group.AddTask([] {
-    return Future<>::MakeFinished(Status::Invalid("XYZ"));
-  }));
-  Future<> finished_fut = task_group.End();
-  AssertNotFinished(finished_fut);
+  Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    EXPECT_TRUE(scheduler->AddSimpleTask([fut1] { return fut1; }));
+    EXPECT_TRUE(scheduler->AddSimpleTask(
+        [] { return Future<>::MakeFinished(Status::Invalid("XYZ")); }));
+    return Status::OK();
+  });
+  AssertNotFinished(finished);
   fut1.MarkFinished();
-  ASSERT_FINISHES_AND_RAISES(Invalid, finished_fut);
+  ASSERT_FINISHES_AND_RAISES(Invalid, finished);
 }
 
-TEST(StandardAsyncTaskGroup, FailAfterAdd) {
-  AsyncTaskGroup task_group;
+TEST(AsyncTaskScheduler, FailAfterAdd) {
+  /// If a task fails it shouldn't impact tasks that have been submitted
+  /// even if they were submitted later
   Future<> will_fail = Future<>::Make();
-  ASSERT_OK(task_group.AddTask([will_fail] { return will_fail; }));
   Future<> added_later_and_passes = Future<>::Make();
-  ASSERT_OK(
-      task_group.AddTask([added_later_and_passes] { return added_later_and_passes; }));
-  will_fail.MarkFinished(Status::Invalid("XYZ"));
-  ASSERT_RAISES(Invalid, task_group.AddTask([] { return Future<>::Make(); }));
-  Future<> finished_fut = task_group.End();
-  AssertNotFinished(finished_fut);
+  Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    EXPECT_TRUE(scheduler->AddSimpleTask([will_fail] { return will_fail; }));
+    EXPECT_TRUE(scheduler->AddSimpleTask(
+        [added_later_and_passes] { return added_later_and_passes; }));
+    will_fail.MarkFinished(Status::Invalid("XYZ"));
+    EXPECT_FALSE(scheduler->AddSimpleTask([] { return Future<>::Make(); }));
+    return Status::OK();
+  });
+  AssertNotFinished(finished);
   added_later_and_passes.MarkFinished();
-  AssertFinished(finished_fut);
-  ASSERT_FINISHES_AND_RAISES(Invalid, finished_fut);
+  ASSERT_FINISHES_AND_RAISES(Invalid, finished);
 }
 
-// The serialized task group can never really get into a "fail after add" scenario
-// because there is no parallelism.  So the behavior is a little unique in these scenarios
+TEST(AsyncTaskScheduler, PurgeUnsubmitted) {
+  // If a task fails then unsubmitted tasks should not be executed
+  Future<> will_fail = Future<>::Make();
+  bool was_submitted = false;
+  Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    std::shared_ptr<ThrottledAsyncTaskScheduler> throttled =
+        ThrottledAsyncTaskScheduler::Make(scheduler, 1);
+    EXPECT_TRUE(throttled->AddSimpleTask([will_fail] { return will_fail; }));
+    EXPECT_TRUE(throttled->AddSimpleTask([&was_submitted] {
+      was_submitted = true;
+      return Future<>::MakeFinished();
+    }));
+    will_fail.MarkFinished(Status::Invalid("XYZ"));
+    return Status::OK();
+  });
+  ASSERT_FINISHES_AND_RAISES(Invalid, finished);
+  ASSERT_FALSE(was_submitted);
+
+  // Purge might still be needed when done with initial task too
+  will_fail = Future<>::Make();
+  Future<> slow_task_that_passes = Future<>::Make();
+  was_submitted = false;
+  finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    std::shared_ptr<ThrottledAsyncTaskScheduler> throttled =
+        ThrottledAsyncTaskScheduler::Make(scheduler, 2);
+    EXPECT_TRUE(throttled->AddSimpleTask([will_fail] { return will_fail; }));
+    EXPECT_TRUE(throttled->AddSimpleTask(
+        [slow_task_that_passes] { return slow_task_that_passes; }));
+    EXPECT_TRUE(throttled->AddSimpleTask([&was_submitted] {
+      was_submitted = true;
+      return Future<>::MakeFinished();
+    }));
+    return Status::OK();
+  });
+  will_fail.MarkFinished(Status::Invalid("XYZ"));
+  slow_task_that_passes.MarkFinished();
+  ASSERT_FINISHES_AND_RAISES(Invalid, finished);
+  ASSERT_FALSE(was_submitted);
+}
 
-TEST(SerializedAsyncTaskGroup, TaskFinishesAfterError) {
-  SerializedAsyncTaskGroup task_group;
-  Future<> fut1 = Future<>::Make();
-  ASSERT_OK(task_group.AddTask([fut1] { return fut1; }));
-  ASSERT_OK(
-      task_group.AddTask([] { return Future<>::MakeFinished(Status::Invalid("XYZ")); }));
-  Future<> finished_fut = task_group.End();
-  AssertNotFinished(finished_fut);
-  fut1.MarkFinished();
-  ASSERT_FINISHES_AND_RAISES(Invalid, finished_fut);
+#ifndef ARROW_VALGRIND
+TEST(AsyncTaskScheduler, FifoStress) {
+  // Regresses an issue where adding a task, when the throttle was
+  // just cleared, could lead to the added task being run immediately,
+  // even though there were queued tasks.
+  constexpr int kNumIters = 100;
+  for (int i = 0; i < kNumIters; i++) {
+    std::atomic<bool> middle_task_run{false};
+    Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+      std::shared_ptr<ThrottledAsyncTaskScheduler> throttled =
+          ThrottledAsyncTaskScheduler::Make(scheduler, 1);
+      throttled->AddSimpleTask([] { return SleepABitAsync(); });
+      throttled->AddSimpleTask([&] {
+        middle_task_run = true;
+        return Future<>::MakeFinished();
+      });
+      SleepABit();
+      throttled->AddSimpleTask([&] {
+        EXPECT_TRUE(middle_task_run);
+        return Future<>::MakeFinished();
+      });
+      return Status::OK();
+    });
+    ASSERT_FINISHES_OK(finished);
+  }
 }
 
-TEST(SerializedAsyncTaskGroup, FailAfterAdd) {
-  SerializedAsyncTaskGroup task_group;
-  Future<> will_fail = Future<>::Make();
-  ASSERT_OK(task_group.AddTask([will_fail] { return will_fail; }));
-  Future<> added_later_and_passes = Future<>::Make();
-  bool added_later_and_passes_created = false;
-  ASSERT_OK(task_group.AddTask([added_later_and_passes, &added_later_and_passes_created] {
-    added_later_and_passes_created = true;
-    return added_later_and_passes;
-  }));
-  will_fail.MarkFinished(Status::Invalid("XYZ"));
-  ASSERT_RAISES(Invalid, task_group.AddTask([] { return Future<>::Make(); }));
-  ASSERT_FINISHES_AND_RAISES(Invalid, task_group.End());
-  ASSERT_FALSE(added_later_and_passes_created);
+TEST(AsyncTaskScheduler, MaxConcurrentTasksStress) {
+  constexpr int kNumIters = 100;
+  constexpr int kNumTasks = 32;
+  constexpr int kNumConcurrentTasks = 8;
+  for (int i = 0; i < kNumIters; i++) {
+    std::atomic<int> num_tasks_running{0};
+    Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+      std::shared_ptr<ThrottledAsyncTaskScheduler> throttled =
+          ThrottledAsyncTaskScheduler::Make(scheduler, kNumConcurrentTasks);
+      for (int task_idx = 0; task_idx < kNumTasks; task_idx++) {
+        throttled->AddSimpleTask([&num_tasks_running, kNumConcurrentTasks] {
+          if (num_tasks_running.fetch_add(1) > kNumConcurrentTasks) {
+            ADD_FAILURE() << "More than " << kNumConcurrentTasks
+                          << " tasks were allowed to run concurrently";
+          }
+          return SleepABitAsync().Then(
+              [&num_tasks_running] { num_tasks_running.fetch_sub(1); });
+        });
+      }
+      return Status::OK();
+    });
+    ASSERT_FINISHES_OK(finished);
+  }
 }
 
-TEST(SerializedAsyncTaskGroup, Abort) {
-  SerializedAsyncTaskGroup task_group;
-  struct Task {
-    bool started = false;
-    Future<> finished = Future<>::Make();
-  };
-  auto task_factory = [](Task& task) -> std::function<Future<>()> {
-    return [&task] {
-      task.started = true;
-      return task.finished;
-    };
-  };
-  Task one, two;
-  ASSERT_OK(task_group.AddTask(task_factory(one)));
-  ASSERT_OK(task_group.AddTask(task_factory(two)));
-  Future<> group_done = task_group.OnFinished();
-  AssertNotFinished(group_done);
-  ASSERT_TRUE(one.started);
-  ASSERT_FALSE(two.started);
-  Future<> abort_done = task_group.Abort(Status::Invalid("XYZ"));
-  AssertNotFinished(abort_done);
-  one.finished.MarkFinished();
-  ASSERT_FINISHES_AND_RAISES(Invalid, group_done);
-  ASSERT_FINISHES_AND_RAISES(Invalid, abort_done);
-  ASSERT_FALSE(two.started);
+TEST(AsyncTaskScheduler, ScanningStress) {
+  // Simulates the scanner's use of the scheduler
+  // The top level scheduler scans over fragments and
+  // for each fragment a task group is created that scans
+  // that fragment.  The task groups all share a common throttle
+  constexpr int kNumIters = 16;
+  constexpr int kNumFragments = 16;
+  constexpr int kBatchesPerFragment = 8;
+  constexpr int kNumConcurrentTasks = 4;
+  constexpr int kExpectedBatchesScanned = kNumFragments * kBatchesPerFragment;
+
+  for (int i = 0; i < kNumIters; i++) {
+    std::atomic<int> batches_scanned{0};
+    auto scan_batch = [&] { batches_scanned++; };
+    auto submit_scan = [&]() { return SleepABitAsync().Then(scan_batch); };
+    Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+      std::shared_ptr<ThrottledAsyncTaskScheduler> throttled =
+          ThrottledAsyncTaskScheduler::Make(scheduler, kNumConcurrentTasks);
+      auto list_fragment = [&, throttled]() {
+        std::unique_ptr<AsyncTaskGroup> task_group =
+            AsyncTaskGroup::Make(throttled.get(), [] { return Status::OK(); });
+        for (int i = 0; i < kBatchesPerFragment; i++) {
+          EXPECT_TRUE(task_group->AddSimpleTask(submit_scan));
+        }
+        return Status::OK();
+      };
+      auto submit_list_fragment = [&]() { return SleepABitAsync().Then(list_fragment); };
+      for (int frag_idx = 0; frag_idx < kNumFragments; frag_idx++) {
+        EXPECT_TRUE(scheduler->AddSimpleTask(submit_list_fragment));
+      }
+      return Status::OK();
+    });
+    ASSERT_FINISHES_OK(finished);
+    ASSERT_EQ(kExpectedBatchesScanned, batches_scanned.load());
+  }
+}
+#endif
+
+class TaskWithPriority : public AsyncTaskScheduler::Task {
+ public:
+  TaskWithPriority(std::function<Result<Future<>>()> task, int priority)
+      : task(std::move(task)), priority(priority) {}
+  Result<Future<>> operator()() override { return task(); }
+
+  std::function<Result<Future<>>()> task;
+  int priority;
+};
+
+struct TaskWithPriorityCompare {
+  bool operator()(TaskWithPriority* left, TaskWithPriority* right) {
+    return left->priority < right->priority;
+  }
+};
+
+// A priority queue that prefers tasks with higher priority
+class PriorityQueue : public ThrottledAsyncTaskScheduler::Queue {
+ public:
+  using Task = AsyncTaskScheduler::Task;
+  void Push(std::unique_ptr<Task> task) {
+    queue_.push(static_cast<TaskWithPriority*>(task.release()));
+  }
+  std::unique_ptr<Task> Pop() {
+    TaskWithPriority* top = queue_.top();
+    queue_.pop();
+    return std::unique_ptr<Task>(top);
+  }
+  const Task& Peek() { return *queue_.top(); }
+  bool Empty() { return queue_.empty(); }
+  void Purge() {
+    while (!queue_.empty()) {
+      queue_.pop();
+    }
+  }
+
+ private:
+  std::priority_queue<TaskWithPriority*, std::vector<TaskWithPriority*>,
+                      TaskWithPriorityCompare>
+      queue_;
+};
+
+TEST(AsyncTaskScheduler, Priority) {
+  constexpr int kNumTasks = 32;
+  constexpr int kNumConcurrentTasks = 8;
+
+  std::shared_ptr<GatingTask> gate = GatingTask::Make();
+  int submit_order[kNumTasks];
+  std::atomic<int> order_index{0};
+
+  Future<> finished = AsyncTaskScheduler::Make([&](AsyncTaskScheduler* scheduler) {
+    std::shared_ptr<ThrottledAsyncTaskScheduler> throttled =
+        ThrottledAsyncTaskScheduler::Make(scheduler, kNumConcurrentTasks,
+                                          std::make_unique<PriorityQueue>());
+    for (int task_idx = 0; task_idx < kNumTasks; task_idx++) {
+      int priority = task_idx;
+      std::function<Result<Future<>>()> task_exec = [&, priority]() -> Result<Future<>> {
+        submit_order[order_index++] = priority;
+        return gate->AsyncTask();
+      };
+      auto task = std::make_unique<TaskWithPriority>(task_exec, priority);
+      throttled->AddTask(std::move(task));
+    }
+    return Status::OK();
+  });
+
+  AssertNotFinished(finished);
+
+  ASSERT_OK(gate->WaitForRunning(kNumConcurrentTasks));
+  ASSERT_OK(gate->Unlock());
+
+  for (int i = 0; i < kNumConcurrentTasks; i++) {
+    // The first tasks will be submitted immediately since the queue is empty
+    ASSERT_EQ(submit_order[i], i);
+  }
+  // After that the remaining tasks will run in LIFO order because of the priority
+  for (int i = kNumConcurrentTasks; i < kNumTasks; i++) {
+    ASSERT_EQ(submit_order[i], kNumTasks - i - 1 + kNumConcurrentTasks);
+  }
 }
 
 }  // namespace util
diff --git a/cpp/src/arrow/util/atfork_internal.cc b/cpp/src/arrow/util/atfork_internal.cc
new file mode 100644
index 00000000000..eb26304fba3
--- /dev/null
+++ b/cpp/src/arrow/util/atfork_internal.cc
@@ -0,0 +1,154 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "arrow/util/atfork_internal.h"
+
+#include <algorithm>
+#include <atomic>
+#include <mutex>
+#include <vector>
+
+#ifndef _WIN32
+#include <pthread.h>
+#endif
+
+#include "arrow/util/io_util.h"
+#include "arrow/util/logging.h"
+
+namespace arrow {
+namespace internal {
+
+namespace {
+
+// Singleton state for at-fork management.
+// We do not use global variables because of initialization order issues (ARROW-18383).
+// Instead, a function-local static ensures the state is initialized
+// opportunistically (see GetAtForkState()).
+struct AtForkState {
+  struct RunningHandler {
+    // A temporary owning copy of a handler, to make sure that a handler
+    // that runs before fork can still run after fork.
+    std::shared_ptr<AtForkHandler> handler;
+    // The token returned by the before-fork handler, to pass to after-fork handlers.
+    std::any token;
+
+    explicit RunningHandler(std::shared_ptr<AtForkHandler> handler)
+        : handler(std::move(handler)) {}
+  };
+
+  void MaintainHandlersUnlocked() {
+    auto it = std::remove_if(
+        handlers_.begin(), handlers_.end(),
+        [](const std::weak_ptr<AtForkHandler>& ptr) { return ptr.expired(); });
+    handlers_.erase(it, handlers_.end());
+  }
+
+  void BeforeFork() {
+    // Lock the mutex and keep it locked until the end of AfterForkParent(),
+    // to avoid multiple concurrent forks and atforks.
+    mutex_.lock();
+
+    DCHECK(handlers_while_forking_.empty());  // AfterForkParent clears it
+
+    for (const auto& weak_handler : handlers_) {
+      if (auto handler = weak_handler.lock()) {
+        handlers_while_forking_.emplace_back(std::move(handler));
+      }
+    }
+
+    // XXX can the handler call RegisterAtFork()?
+    for (auto&& handler : handlers_while_forking_) {
+      if (handler.handler->before) {
+        handler.token = handler.handler->before();
+      }
+    }
+  }
+
+  void AfterForkParent() {
+    // The mutex was locked by BeforeFork()
+    auto handlers = std::move(handlers_while_forking_);
+    handlers_while_forking_.clear();
+
+    // Execute handlers in reverse order
+    for (auto it = handlers.rbegin(); it != handlers.rend(); ++it) {
+      auto&& handler = *it;
+      if (handler.handler->parent_after) {
+        handler.handler->parent_after(std::move(handler.token));
+      }
+    }
+
+    mutex_.unlock();
+    // handlers will be destroyed here without the mutex locked, so that
+    // any action taken by destructors might call RegisterAtFork
+  }
+
+  void AfterForkChild() {
+    // Need to reinitialize the mutex as it is probably invalid.  Also, the
+    // old mutex destructor may fail.
+    // Fortunately, we are a single thread in the child process by now, so no
+    // additional synchronization is needed.
+    new (&mutex_) std::mutex;
+
+    auto handlers = std::move(handlers_while_forking_);
+    handlers_while_forking_.clear();
+
+    // Execute handlers in reverse order
+    for (auto it = handlers.rbegin(); it != handlers.rend(); ++it) {
+      auto&& handler = *it;
+      if (handler.handler->child_after) {
+        handler.handler->child_after(std::move(handler.token));
+      }
+    }
+  }
+
+  void RegisterAtFork(std::weak_ptr<AtForkHandler> weak_handler) {
+    std::lock_guard<std::mutex> lock(mutex_);
+    // This is O(n) for each at-fork registration. We assume that n remains
+    // typically low and calls to this function are not performance-critical.
+    MaintainHandlersUnlocked();
+    handlers_.push_back(std::move(weak_handler));
+  }
+
+  std::mutex mutex_;
+  std::vector<std::weak_ptr<AtForkHandler>> handlers_;
+  std::vector<RunningHandler> handlers_while_forking_;
+};
+
+AtForkState* GetAtForkState() {
+  static std::unique_ptr<AtForkState> state = []() {
+    auto state = std::make_unique<AtForkState>();
+#ifndef _WIN32
+    int r = pthread_atfork(/*prepare=*/[] { GetAtForkState()->BeforeFork(); },
+                           /*parent=*/[] { GetAtForkState()->AfterForkParent(); },
+                           /*child=*/[] { GetAtForkState()->AfterForkChild(); });
+    if (r != 0) {
+      IOErrorFromErrno(r, "Error when calling pthread_atfork: ").Abort();
+    }
+#endif
+    return state;
+  }();
+  return state.get();
+}
+
+};  // namespace
+
+void RegisterAtFork(std::weak_ptr<AtForkHandler> weak_handler) {
+  GetAtForkState()->RegisterAtFork(std::move(weak_handler));
+}
+
+}  // namespace internal
+}  // namespace arrow
diff --git a/cpp/src/arrow/util/atfork_internal.h b/cpp/src/arrow/util/atfork_internal.h
new file mode 100644
index 00000000000..2ba1729c03e
--- /dev/null
+++ b/cpp/src/arrow/util/atfork_internal.h
@@ -0,0 +1,59 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#pragma once
+
+#include <any>
+#include <functional>
+#include <memory>
+#include <utility>
+
+#include "arrow/util/visibility.h"
+
+namespace arrow {
+namespace internal {
+
+struct ARROW_EXPORT AtForkHandler {
+  using CallbackBefore = std::function<std::any()>;
+  using CallbackAfter = std::function<void(std::any)>;
+
+  // The before-fork callback can return an arbitrary token (wrapped in std::any)
+  // that will passed as-is to after-fork callbacks.  This can ensure that any
+  // resource necessary for after-fork handling is kept alive.
+  CallbackBefore before;
+  CallbackAfter parent_after;
+  CallbackAfter child_after;
+
+  AtForkHandler() = default;
+
+  explicit AtForkHandler(CallbackAfter child_after)
+      : child_after(std::move(child_after)) {}
+
+  AtForkHandler(CallbackBefore before, CallbackAfter parent_after,
+                CallbackAfter child_after)
+      : before(std::move(before)),
+        parent_after(std::move(parent_after)),
+        child_after(std::move(child_after)) {}
+};
+
+// Register the given at-fork handlers. Their intended lifetime should be tracked by
+// calling code using an owning shared_ptr.
+ARROW_EXPORT
+void RegisterAtFork(std::weak_ptr<AtForkHandler>);
+
+}  // namespace internal
+}  // namespace arrow
diff --git a/cpp/src/arrow/util/atfork_test.cc b/cpp/src/arrow/util/atfork_test.cc
new file mode 100644
index 00000000000..004e28e1951
--- /dev/null
+++ b/cpp/src/arrow/util/atfork_test.cc
@@ -0,0 +1,301 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include <atomic>
+#include <functional>
+#include <memory>
+#include <mutex>
+#include <random>
+#include <thread>
+#include <utility>
+#include <vector>
+
+#ifndef _WIN32
+#include <sys/types.h>
+#include <sys/wait.h>
+#include <unistd.h>
+#endif
+
+#include <gmock/gmock-matchers.h>
+#include <gtest/gtest.h>
+
+#include "arrow/testing/gtest_util.h"
+#include "arrow/util/atfork_internal.h"
+#include "arrow/util/io_util.h"
+#include "arrow/util/logging.h"
+
+namespace arrow {
+namespace internal {
+
+using testing::ElementsAre;
+using testing::IsSubsetOf;
+using testing::UnorderedElementsAreArray;
+
+class TestAtFork : public ::testing::Test {
+ public:
+  using CallbackBefore = typename AtForkHandler::CallbackBefore;
+  using CallbackAfter = typename AtForkHandler::CallbackAfter;
+
+  CallbackBefore PushBefore(int v) {
+    return [this, v]() {
+      std::lock_guard<std::mutex> lock(mutex_);
+      before_.push_back(v);
+      return v;
+    };
+  }
+
+  CallbackAfter PushParentAfter(int w) {
+    return [this, w](std::any token) {
+      const int* v = std::any_cast<int>(&token);
+      ASSERT_NE(v, nullptr);
+      std::lock_guard<std::mutex> lock(mutex_);
+      parent_after_.emplace_back(*v + w);
+    };
+  }
+
+  CallbackAfter PushChildAfter(int w) {
+    return [this, w](std::any token) {
+      const int* v = std::any_cast<int>(&token);
+      ASSERT_NE(v, nullptr);
+      // Mutex may be invalid and child is single-thread anyway
+      child_after_.push_back(*v + w);
+    };
+  }
+
+  void Reset() {
+    std::lock_guard<std::mutex> lock(mutex_);
+    before_.clear();
+    parent_after_.clear();
+    child_after_.clear();
+  }
+
+#ifndef _WIN32
+  void RunInChild(std::function<void()> func) {
+    auto child_pid = fork();
+    if (child_pid == -1) {
+      ASSERT_OK(IOErrorFromErrno(errno, "Error calling fork(): "));
+    }
+    if (child_pid == 0) {
+      // Child
+      ASSERT_NO_FATAL_FAILURE(func()) << "Failure in child process";
+      std::exit(0);
+    } else {
+      // Parent
+      AssertChildExit(child_pid);
+    }
+  }
+#endif
+
+  std::mutex mutex_;
+  std::vector<int> before_;
+  std::vector<int> parent_after_;
+  std::vector<int> child_after_;
+};
+
+#ifndef _WIN32
+
+TEST_F(TestAtFork, EmptyHandlers) {
+  auto handlers = std::make_shared<AtForkHandler>();
+
+  RegisterAtFork(handlers);
+  RegisterAtFork(handlers);
+
+  RunInChild([&]() {
+    ASSERT_TRUE(before_.empty());
+    ASSERT_TRUE(parent_after_.empty());
+    ASSERT_TRUE(child_after_.empty());
+  });
+
+  ASSERT_TRUE(before_.empty());
+  ASSERT_TRUE(parent_after_.empty());
+  ASSERT_TRUE(child_after_.empty());
+
+  handlers.reset();
+
+  RunInChild([]() {});
+}
+
+TEST_F(TestAtFork, SingleThread) {
+  auto handlers1 = std::make_shared<AtForkHandler>(PushBefore(1), PushParentAfter(11),
+                                                   PushChildAfter(21));
+  auto handlers2 = std::make_shared<AtForkHandler>(PushBefore(2), PushParentAfter(12),
+                                                   PushChildAfter(22));
+
+  RegisterAtFork(handlers1);
+  RegisterAtFork(handlers2);
+
+  RunInChild([&]() {
+    ASSERT_THAT(before_, ElementsAre(1, 2));
+    ASSERT_THAT(parent_after_, ElementsAre());
+    ASSERT_THAT(child_after_, ElementsAre(2 + 22, 1 + 21));
+  });
+  ASSERT_THAT(before_, ElementsAre(1, 2));
+  ASSERT_THAT(parent_after_, ElementsAre(2 + 12, 1 + 11));
+  ASSERT_THAT(child_after_, ElementsAre());
+  Reset();
+
+  // Destroy one handler
+  handlers1.reset();
+
+  RunInChild([&]() {
+    ASSERT_THAT(before_, ElementsAre(2));
+    ASSERT_THAT(parent_after_, ElementsAre());
+    ASSERT_THAT(child_after_, ElementsAre(2 + 22));
+  });
+  ASSERT_THAT(before_, ElementsAre(2));
+  ASSERT_THAT(parent_after_, ElementsAre(2 + 12));
+  ASSERT_THAT(child_after_, ElementsAre());
+  Reset();
+
+  // Destroy other handler, create new ones
+  auto handlers3 = std::make_shared<AtForkHandler>(PushBefore(3), PushParentAfter(13),
+                                                   PushChildAfter(23));
+  auto handlers4 = std::make_shared<AtForkHandler>(PushBefore(4), PushParentAfter(14),
+                                                   PushChildAfter(24));
+
+  RegisterAtFork(handlers3);
+  RegisterAtFork(handlers4);
+  handlers2.reset();
+
+  RunInChild([&]() {
+    ASSERT_THAT(before_, ElementsAre(3, 4));
+    ASSERT_THAT(parent_after_, ElementsAre());
+    ASSERT_THAT(child_after_, ElementsAre(4 + 24, 3 + 23));
+  });
+  ASSERT_THAT(before_, ElementsAre(3, 4));
+  ASSERT_THAT(parent_after_, ElementsAre(4 + 14, 3 + 13));
+  ASSERT_THAT(child_after_, ElementsAre());
+}
+
+#if !(defined(ARROW_VALGRIND) || defined(ADDRESS_SANITIZER) || defined(THREAD_SANITIZER))
+
+// The two following tests would seem to leak for various reasons.
+// Also, Thread Sanitizer would fail with the same error message as in
+// https://github.com/google/sanitizers/issues/950.
+
+TEST_F(TestAtFork, MultipleThreads) {
+  const int kNumThreads = 5;
+  const int kNumIterations = 40;
+  const int kParentAfterAddend = 10000;
+  const int kChildAfterAddend = 20000;
+  std::atomic<int> seed = 12345;
+
+  auto check_values_in_child = [&]() {
+    std::vector<int> expected_child;
+    for (const auto v : before_) {
+      expected_child.push_back(v + v + kChildAfterAddend);
+    }
+    // The handlers that were alive on this fork() are a subset of the handlers
+    // that were called at any point in the parent.
+    ASSERT_THAT(child_after_, IsSubsetOf(expected_child));
+  };
+
+  auto run_in_thread = [&](int index) {
+    std::default_random_engine engine(++seed);
+    std::uniform_int_distribution<int> value_dist(index * 100, (index + 1) * 100 - 1);
+    std::bernoulli_distribution fork_dist(0.1);
+
+    for (int i = 0; i < kNumIterations; ++i) {
+      int value = value_dist(engine);
+      auto handlers = std::make_shared<AtForkHandler>(
+          PushBefore(value), PushParentAfter(value + kParentAfterAddend),
+          PushChildAfter(value + kChildAfterAddend));
+      RegisterAtFork(handlers);
+      if (fork_dist(engine)) {
+        RunInChild(check_values_in_child);
+      }
+    }
+  };
+
+  std::vector<std::thread> threads;
+  for (int i = 0; i < kNumThreads; ++i) {
+    threads.emplace_back(run_in_thread, i);
+  }
+  for (auto&& thread : threads) {
+    thread.join();
+  }
+
+  std::vector<int> expected_parent;
+  for (const auto v : before_) {
+    expected_parent.push_back(v + v + kParentAfterAddend);
+  }
+  // The handlers that were called after fork are the same that were called
+  // before fork; however, their overall order is undefined as multiple fork()
+  // calls were made and multiple handlers may have been alive during
+  // each fork() called.
+  ASSERT_THAT(parent_after_, UnorderedElementsAreArray(expected_parent));
+  ASSERT_TRUE(child_after_.empty());
+}
+
+TEST_F(TestAtFork, NestedChild) {
+#ifdef __APPLE__
+  GTEST_SKIP() << "Nested fork is not supported on macOS";
+#endif
+
+  auto handlers1 = std::make_shared<AtForkHandler>(PushBefore(1), PushParentAfter(11),
+                                                   PushChildAfter(21));
+  auto handlers2 = std::make_shared<AtForkHandler>(PushBefore(2), PushParentAfter(12),
+                                                   PushChildAfter(22));
+
+  RegisterAtFork(handlers1);
+  RegisterAtFork(handlers2);
+
+  RunInChild([&]() {
+    Reset();
+
+    // Add a new handler, destroy one of the parent handlers
+    auto handlers3 = std::make_shared<AtForkHandler>(PushBefore(3), PushParentAfter(13),
+                                                     PushChildAfter(23));
+    RegisterAtFork(handlers3);
+    handlers2.reset();
+
+    RunInChild([&]() {
+      ASSERT_THAT(before_, ElementsAre(1, 3));
+      ASSERT_THAT(parent_after_, ElementsAre());
+      ASSERT_THAT(child_after_, ElementsAre(3 + 23, 1 + 21));
+    });
+
+    ASSERT_THAT(before_, ElementsAre(1, 3));
+    ASSERT_THAT(parent_after_, ElementsAre(3 + 13, 1 + 11));
+    ASSERT_THAT(child_after_, ElementsAre());
+  });
+
+  ASSERT_THAT(before_, ElementsAre(1, 2));
+  ASSERT_THAT(parent_after_, ElementsAre(2 + 12, 1 + 11));
+  ASSERT_THAT(child_after_, ElementsAre());
+}
+
+#endif  // !(defined(ARROW_VALGRIND) || defined(ADDRESS_SANITIZER) ||
+        //   defined(THREAD_SANITIZER))
+
+#endif  // !defined(_WIN32)
+
+#ifdef _WIN32
+TEST_F(TestAtFork, NoOp) {
+  auto handlers = std::make_shared<AtForkHandler>(PushBefore(1), PushParentAfter(11),
+                                                  PushChildAfter(21));
+
+  RegisterAtFork(handlers);
+
+  ASSERT_TRUE(before_.empty());
+  ASSERT_TRUE(parent_after_.empty());
+  ASSERT_TRUE(child_after_.empty());
+}
+#endif
+
+}  // namespace internal
+}  // namespace arrow
diff --git a/cpp/src/arrow/util/atomic_shared_ptr.h b/cpp/src/arrow/util/atomic_shared_ptr.h
deleted file mode 100644
index d93ad921db6..00000000000
--- a/cpp/src/arrow/util/atomic_shared_ptr.h
+++ /dev/null
@@ -1,111 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-#pragma once
-
-#include <atomic>
-#include <memory>
-#include <utility>
-
-#include "arrow/type_traits.h"
-
-namespace arrow {
-namespace internal {
-
-// Atomic shared_ptr operations only appeared in libstdc++ since GCC 5,
-// emulate them with unsafe ops if unavailable.
-// See https://gcc.gnu.org/bugzilla/show_bug.cgi?id=57250
-
-template <typename T, typename = void>
-struct is_atomic_load_shared_ptr_available : std::false_type {};
-
-template <typename T>
-struct is_atomic_load_shared_ptr_available<
-    T, void_t<decltype(std::atomic_load(std::declval<const std::shared_ptr<T>*>()))>>
-    : std::true_type {};
-
-template <typename T>
-using enable_if_atomic_load_shared_ptr_available =
-    enable_if_t<is_atomic_load_shared_ptr_available<T>::value, T>;
-
-template <typename T>
-using enable_if_atomic_load_shared_ptr_unavailable =
-    enable_if_t<!is_atomic_load_shared_ptr_available<T>::value, T>;
-
-template <class T>
-enable_if_atomic_load_shared_ptr_available<std::shared_ptr<T>> atomic_load(
-    const std::shared_ptr<T>* p) {
-  return std::atomic_load(p);
-}
-
-template <class T>
-enable_if_atomic_load_shared_ptr_unavailable<std::shared_ptr<T>> atomic_load(
-    const std::shared_ptr<T>* p) {
-  return *p;
-}
-
-template <typename T, typename = void>
-struct is_atomic_store_shared_ptr_available : std::false_type {};
-
-template <typename T>
-struct is_atomic_store_shared_ptr_available<
-    T, void_t<decltype(std::atomic_store(std::declval<std::shared_ptr<T>*>(),
-                                         std::declval<std::shared_ptr<T>>()))>>
-    : std::true_type {};
-
-template <typename T>
-using enable_if_atomic_store_shared_ptr_available =
-    enable_if_t<is_atomic_store_shared_ptr_available<T>::value, T>;
-
-template <typename T>
-using enable_if_atomic_store_shared_ptr_unavailable =
-    enable_if_t<!is_atomic_store_shared_ptr_available<T>::value, T>;
-
-template <class T>
-void atomic_store(enable_if_atomic_store_shared_ptr_available<std::shared_ptr<T>*> p,
-                  std::shared_ptr<T> r) {
-  std::atomic_store(p, std::move(r));
-}
-
-template <class T>
-void atomic_store(enable_if_atomic_store_shared_ptr_unavailable<std::shared_ptr<T>*> p,
-                  std::shared_ptr<T> r) {
-  *p = r;
-}
-
-template <class T>
-bool atomic_compare_exchange_strong(
-    enable_if_atomic_store_shared_ptr_available<std::shared_ptr<T>*> p,
-    std::shared_ptr<T>* expected, std::shared_ptr<T> desired) {
-  return std::atomic_compare_exchange_strong(p, expected, std::move(desired));
-}
-
-template <class T>
-bool atomic_compare_exchange_strong(
-    enable_if_atomic_store_shared_ptr_unavailable<std::shared_ptr<T>*> p,
-    std::shared_ptr<T>* expected, std::shared_ptr<T> desired) {
-  if (*p == *expected) {
-    *p = std::move(desired);
-    return true;
-  } else {
-    *expected = *p;
-    return false;
-  }
-}
-
-}  // namespace internal
-}  // namespace arrow
diff --git a/cpp/src/arrow/util/base64.h b/cpp/src/arrow/util/base64.h
index a46884d17e6..5b80e19d896 100644
--- a/cpp/src/arrow/util/base64.h
+++ b/cpp/src/arrow/util/base64.h
@@ -18,18 +18,18 @@
 #pragma once
 
 #include <string>
+#include <string_view>
 
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
 namespace util {
 
 ARROW_EXPORT
-std::string base64_encode(string_view s);
+std::string base64_encode(std::string_view s);
 
 ARROW_EXPORT
-std::string base64_decode(string_view s);
+std::string base64_decode(std::string_view s);
 
 }  // namespace util
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/basic_decimal.h b/cpp/src/arrow/util/basic_decimal.h
index 90ffcec776c..b071c5f0ff7 100644
--- a/cpp/src/arrow/util/basic_decimal.h
+++ b/cpp/src/arrow/util/basic_decimal.h
@@ -64,7 +64,9 @@ class ARROW_EXPORT GenericBasicDecimal {
   /// \brief Create a decimal from the two's complement representation.
   ///
   /// Input array is assumed to be in native endianness.
-  constexpr GenericBasicDecimal(const WordArray& array) noexcept : array_(array) {}
+  constexpr GenericBasicDecimal(
+      const WordArray& array) noexcept  // NOLINT(runtime/explicit)
+      : array_(array) {}
 
   /// \brief Create a decimal from the two's complement representation.
   ///
@@ -152,7 +154,7 @@ class ARROW_EXPORT BasicDecimal128 : public GenericBasicDecimal<BasicDecimal128,
   template <typename T,
             typename = typename std::enable_if<
                 std::is_integral<T>::value && (sizeof(T) <= sizeof(uint64_t)), T>::type>
-  constexpr BasicDecimal128(T value) noexcept
+  constexpr BasicDecimal128(T value) noexcept  // NOLINT(runtime/explicit)
       : BasicDecimal128(value >= T{0} ? 0 : -1, static_cast<uint64_t>(value)) {  // NOLINT
   }
 
@@ -323,7 +325,7 @@ class ARROW_EXPORT BasicDecimal256 : public GenericBasicDecimal<BasicDecimal256,
   template <typename T,
             typename = typename std::enable_if<
                 std::is_integral<T>::value && (sizeof(T) <= sizeof(uint64_t)), T>::type>
-  constexpr BasicDecimal256(T value) noexcept
+  constexpr BasicDecimal256(T value) noexcept  // NOLINT(runtime/explicit)
       : BasicDecimal256(bit_util::little_endian::ToNative<uint64_t, 4>(
             {static_cast<uint64_t>(value), extend(value), extend(value),
              extend(value)})) {}
diff --git a/cpp/src/arrow/util/benchmark_util.h b/cpp/src/arrow/util/benchmark_util.h
index 79484989ac5..5a5f51df5a9 100644
--- a/cpp/src/arrow/util/benchmark_util.h
+++ b/cpp/src/arrow/util/benchmark_util.h
@@ -25,16 +25,9 @@
 
 namespace arrow {
 
-using internal::CpuInfo;
-
-static const CpuInfo* cpu_info = CpuInfo::GetInstance();
-
-static const int64_t kL1Size = cpu_info->CacheSize(CpuInfo::CacheLevel::L1);
-static const int64_t kL2Size = cpu_info->CacheSize(CpuInfo::CacheLevel::L2);
-static const int64_t kL3Size = cpu_info->CacheSize(CpuInfo::CacheLevel::L3);
-static const int64_t kCantFitInL3Size = kL3Size * 4;
-static const std::vector<int64_t> kMemorySizes = {kL1Size, kL2Size, kL3Size,
-                                                  kCantFitInL3Size};
+// Benchmark changed its parameter type between releases from
+// int to int64_t. As it doesn't have version macros, we need
+// to apply C++ template magic.
 
 template <typename Func>
 struct BenchmarkArgsType;
@@ -46,12 +39,22 @@ struct BenchmarkArgsType<benchmark::internal::Benchmark* (
   using type = Values;
 };
 
-// Benchmark changed its parameter type between releases from
-// int to int64_t. As it doesn't have version macros, we need
-// to apply C++ template magic.
 using ArgsType =
     typename BenchmarkArgsType<decltype(&benchmark::internal::Benchmark::Args)>::type;
 
+using internal::CpuInfo;
+
+static const CpuInfo* cpu_info = CpuInfo::GetInstance();
+
+static const int64_t kL1Size = cpu_info->CacheSize(CpuInfo::CacheLevel::L1);
+static const int64_t kL2Size = cpu_info->CacheSize(CpuInfo::CacheLevel::L2);
+static const int64_t kL3Size = cpu_info->CacheSize(CpuInfo::CacheLevel::L3);
+static const int64_t kCantFitInL3Size = kL3Size * 4;
+static const std::vector<int64_t> kMemorySizes = {kL1Size, kL2Size, kL3Size,
+                                                  kCantFitInL3Size};
+// 0 is treated as "no nulls"
+static const std::vector<ArgsType> kInverseNullProportions = {10000, 100, 10, 2, 1, 0};
+
 struct GenericItemsArgs {
   // number of items processed per iteration
   const int64_t size;
@@ -82,10 +85,8 @@ void BenchmarkSetArgsWithSizes(benchmark::internal::Benchmark* bench,
                                const std::vector<int64_t>& sizes = kMemorySizes) {
   bench->Unit(benchmark::kMicrosecond);
 
-  // 0 is treated as "no nulls"
   for (const auto size : sizes) {
-    for (const auto inverse_null_proportion :
-         std::vector<ArgsType>({10000, 100, 10, 2, 1, 0})) {
+    for (const auto inverse_null_proportion : kInverseNullProportions) {
       bench->Args({static_cast<ArgsType>(size), inverse_null_proportion});
     }
   }
diff --git a/cpp/src/arrow/util/bit_stream_utils.h b/cpp/src/arrow/util/bit_stream_utils.h
index 6a1a3025e94..dc9b41793cf 100644
--- a/cpp/src/arrow/util/bit_stream_utils.h
+++ b/cpp/src/arrow/util/bit_stream_utils.h
@@ -203,9 +203,10 @@ class BitReader {
 };
 
 inline bool BitWriter::PutValue(uint64_t v, int num_bits) {
-  // TODO: revisit this limit if necessary (can be raised to 64 by fixing some edge cases)
-  DCHECK_LE(num_bits, 32);
-  DCHECK_EQ(v >> num_bits, 0) << "v = " << v << ", num_bits = " << num_bits;
+  DCHECK_LE(num_bits, 64);
+  if (num_bits < 64) {
+    DCHECK_EQ(v >> num_bits, 0) << "v = " << v << ", num_bits = " << num_bits;
+  }
 
   if (ARROW_PREDICT_FALSE(byte_offset_ * 8 + bit_offset_ + num_bits > max_bytes_ * 8))
     return false;
@@ -220,7 +221,8 @@ inline bool BitWriter::PutValue(uint64_t v, int num_bits) {
     buffered_values_ = 0;
     byte_offset_ += 8;
     bit_offset_ -= 64;
-    buffered_values_ = v >> (num_bits - bit_offset_);
+    buffered_values_ =
+        (num_bits - bit_offset_ == 64) ? 0 : (v >> (num_bits - bit_offset_));
   }
   DCHECK_LT(bit_offset_, 64);
   return true;
@@ -411,8 +413,16 @@ inline bool BitReader::GetAligned(int num_bytes, T* v) {
 
   // Advance byte_offset to next unread byte and read num_bytes
   byte_offset_ += bytes_read;
-  memcpy(v, buffer_ + byte_offset_, num_bytes);
-  *v = arrow::bit_util::FromLittleEndian(*v);
+  if constexpr (std::is_same_v<T, bool>) {
+    // ARROW-18031: if we're trying to get an aligned bool, just check
+    // the LSB of the next byte and move on. If we memcpy + FromLittleEndian
+    // as usual, we have potential undefined behavior for bools if the value
+    // isn't 0 or 1
+    *v = *(buffer_ + byte_offset_) & 1;
+  } else {
+    memcpy(v, buffer_ + byte_offset_, num_bytes);
+    *v = arrow::bit_util::FromLittleEndian(*v);
+  }
   byte_offset_ += num_bytes;
 
   bit_offset_ = 0;
diff --git a/cpp/src/arrow/util/bitmap.h b/cpp/src/arrow/util/bitmap.h
index 51a5fac97fb..a6df1e561ee 100644
--- a/cpp/src/arrow/util/bitmap.h
+++ b/cpp/src/arrow/util/bitmap.h
@@ -25,6 +25,7 @@
 #include <cstring>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <utility>
 
 #include "arrow/buffer.h"
@@ -32,11 +33,11 @@
 #include "arrow/util/bitmap_ops.h"
 #include "arrow/util/bitmap_reader.h"
 #include "arrow/util/bitmap_writer.h"
+#include "arrow/util/bytes_view.h"
 #include "arrow/util/compare.h"
 #include "arrow/util/endian.h"
 #include "arrow/util/functional.h"
 #include "arrow/util/string_builder.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -49,7 +50,7 @@ class ARROW_EXPORT Bitmap : public util::ToStringOstreamable<Bitmap>,
                             public util::EqualityComparable<Bitmap> {
  public:
   template <typename Word>
-  using View = util::basic_string_view<Word>;
+  using View = std::basic_string_view<Word>;
 
   Bitmap() = default;
 
diff --git a/cpp/src/arrow/util/bitmap_reader.h b/cpp/src/arrow/util/bitmap_reader.h
index 110fb6958da..89006ba887b 100644
--- a/cpp/src/arrow/util/bitmap_reader.h
+++ b/cpp/src/arrow/util/bitmap_reader.h
@@ -17,6 +17,7 @@
 
 #pragma once
 
+#include <cassert>
 #include <cstdint>
 #include <cstring>
 
diff --git a/cpp/src/arrow/util/bitset_stack.h b/cpp/src/arrow/util/bitset_stack.h
index addded94943..9b334b3605e 100644
--- a/cpp/src/arrow/util/bitset_stack.h
+++ b/cpp/src/arrow/util/bitset_stack.h
@@ -25,6 +25,7 @@
 #include <cstring>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <type_traits>
 #include <utility>
 #include <vector>
@@ -38,7 +39,6 @@
 #include "arrow/util/functional.h"
 #include "arrow/util/macros.h"
 #include "arrow/util/string_builder.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/type_traits.h"
 #include "arrow/util/visibility.h"
 
diff --git a/cpp/src/arrow/util/bpacking.cc b/cpp/src/arrow/util/bpacking.cc
index c1b0d706a5d..b33eb92606b 100644
--- a/cpp/src/arrow/util/bpacking.cc
+++ b/cpp/src/arrow/util/bpacking.cc
@@ -153,13 +153,14 @@ struct Unpack32DynamicFunction {
   using FunctionType = decltype(&unpack32_default);
 
   static std::vector<std::pair<DispatchLevel, FunctionType>> implementations() {
-    return {
-      { DispatchLevel::NONE, unpack32_default }
+    return {{DispatchLevel::NONE, unpack32_default}
 #if defined(ARROW_HAVE_RUNTIME_AVX2)
-      , { DispatchLevel::AVX2, unpack32_avx2 }
+            ,
+            {DispatchLevel::AVX2, unpack32_avx2}
 #endif
 #if defined(ARROW_HAVE_RUNTIME_AVX512)
-      , { DispatchLevel::AVX512, unpack32_avx512 }
+            ,
+            {DispatchLevel::AVX512, unpack32_avx512}
 #endif
     };
   }
diff --git a/cpp/src/arrow/util/byte_size.h b/cpp/src/arrow/util/byte_size.h
index ca59bf61762..214c7551b6c 100644
--- a/cpp/src/arrow/util/byte_size.h
+++ b/cpp/src/arrow/util/byte_size.h
@@ -32,19 +32,19 @@ namespace util {
 ///       byte size of the entire buffer.
 /// Note: If a buffer is referenced multiple times then it will
 ///       only be counted once.
-int64_t ARROW_EXPORT TotalBufferSize(const ArrayData& array_data);
+ARROW_EXPORT int64_t TotalBufferSize(const ArrayData& array_data);
 /// \brief The sum of bytes in each buffer referenced by the array
 /// \see TotalBufferSize(const ArrayData& array_data) for details
-int64_t ARROW_EXPORT TotalBufferSize(const Array& array);
+ARROW_EXPORT int64_t TotalBufferSize(const Array& array);
 /// \brief The sum of bytes in each buffer referenced by the array
 /// \see TotalBufferSize(const ArrayData& array_data) for details
-int64_t ARROW_EXPORT TotalBufferSize(const ChunkedArray& chunked_array);
+ARROW_EXPORT int64_t TotalBufferSize(const ChunkedArray& chunked_array);
 /// \brief The sum of bytes in each buffer referenced by the batch
 /// \see TotalBufferSize(const ArrayData& array_data) for details
-int64_t ARROW_EXPORT TotalBufferSize(const RecordBatch& record_batch);
+ARROW_EXPORT int64_t TotalBufferSize(const RecordBatch& record_batch);
 /// \brief The sum of bytes in each buffer referenced by the table
 /// \see TotalBufferSize(const ArrayData& array_data) for details
-int64_t ARROW_EXPORT TotalBufferSize(const Table& table);
+ARROW_EXPORT int64_t TotalBufferSize(const Table& table);
 
 /// \brief Calculate the buffer ranges referenced by the array
 ///
@@ -57,7 +57,7 @@ int64_t ARROW_EXPORT TotalBufferSize(const Table& table);
 /// The return value will be a struct array corresponding to the schema:
 /// schema({field("start", uint64()), field("offset", uint64()), field("length",
 /// uint64()))
-Result<std::shared_ptr<Array>> ARROW_EXPORT ReferencedRanges(const ArrayData& array_data);
+ARROW_EXPORT Result<std::shared_ptr<Array>> ReferencedRanges(const ArrayData& array_data);
 
 /// \brief Returns the sum of bytes from all buffer ranges referenced
 ///
@@ -69,19 +69,19 @@ Result<std::shared_ptr<Array>> ARROW_EXPORT ReferencedRanges(const ArrayData& ar
 ///
 /// Dictionary arrays will always be counted in their entirety
 /// even if the array only references a portion of the dictionary.
-Result<int64_t> ARROW_EXPORT ReferencedBufferSize(const ArrayData& array_data);
+ARROW_EXPORT Result<int64_t> ReferencedBufferSize(const ArrayData& array_data);
 /// \brief Returns the sum of bytes from all buffer ranges referenced
 /// \see ReferencedBufferSize(const ArrayData& array_data) for details
-Result<int64_t> ARROW_EXPORT ReferencedBufferSize(const Array& array_data);
+ARROW_EXPORT Result<int64_t> ReferencedBufferSize(const Array& array_data);
 /// \brief Returns the sum of bytes from all buffer ranges referenced
 /// \see ReferencedBufferSize(const ArrayData& array_data) for details
-Result<int64_t> ARROW_EXPORT ReferencedBufferSize(const ChunkedArray& array_data);
+ARROW_EXPORT Result<int64_t> ReferencedBufferSize(const ChunkedArray& array_data);
 /// \brief Returns the sum of bytes from all buffer ranges referenced
 /// \see ReferencedBufferSize(const ArrayData& array_data) for details
-Result<int64_t> ARROW_EXPORT ReferencedBufferSize(const RecordBatch& array_data);
+ARROW_EXPORT Result<int64_t> ReferencedBufferSize(const RecordBatch& array_data);
 /// \brief Returns the sum of bytes from all buffer ranges referenced
 /// \see ReferencedBufferSize(const ArrayData& array_data) for details
-Result<int64_t> ARROW_EXPORT ReferencedBufferSize(const Table& array_data);
+ARROW_EXPORT Result<int64_t> ReferencedBufferSize(const Table& array_data);
 
 }  // namespace util
 
diff --git a/cpp/src/arrow/util/optional.h b/cpp/src/arrow/util/bytes_view.h
similarity index 76%
rename from cpp/src/arrow/util/optional.h
rename to cpp/src/arrow/util/bytes_view.h
index e1c32e76134..b1aacc96ed8 100644
--- a/cpp/src/arrow/util/optional.h
+++ b/cpp/src/arrow/util/bytes_view.h
@@ -17,19 +17,13 @@
 
 #pragma once
 
-#define optional_CONFIG_SELECT_OPTIONAL optional_OPTIONAL_NONSTD
-
-#include "arrow/vendored/optional.hpp"  // IWYU pragma: export
+#include <cstdint>
+#include <string_view>
 
 namespace arrow {
 namespace util {
 
-template <typename T>
-using optional = nonstd::optional<T>;
-
-using nonstd::bad_optional_access;
-using nonstd::make_optional;
-using nonstd::nullopt;
+using bytes_view = std::basic_string_view<uint8_t>;
 
 }  // namespace util
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/cancel.cc b/cpp/src/arrow/util/cancel.cc
index 874b2c2c886..2648059af81 100644
--- a/cpp/src/arrow/util/cancel.cc
+++ b/cpp/src/arrow/util/cancel.cc
@@ -20,12 +20,14 @@
 #include <atomic>
 #include <mutex>
 #include <sstream>
+#include <thread>
 #include <utility>
 
 #include "arrow/result.h"
-#include "arrow/util/atomic_shared_ptr.h"
+#include "arrow/util/atfork_internal.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"
+#include "arrow/util/mutex.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -34,7 +36,9 @@ namespace arrow {
 #error Lock-free atomic int required for signal safety
 #endif
 
+using internal::AtForkHandler;
 using internal::ReinstateSignalHandler;
+using internal::SelfPipe;
 using internal::SetSignalHandler;
 using internal::SignalHandler;
 
@@ -100,16 +104,58 @@ Status StopToken::Poll() const {
 
 namespace {
 
-struct SignalStopState {
+struct SignalStopState : public std::enable_shared_from_this<SignalStopState> {
   struct SavedSignalHandler {
     int signum;
     SignalHandler handler;
   };
 
+  // NOTE: shared_from_this() doesn't work from constructor
+  void Init() {
+    // XXX this pattern appears in several places, factor it out?
+    atfork_handler_ = std::make_shared<AtForkHandler>(
+        /*before=*/
+        [weak_self = std::weak_ptr<SignalStopState>(shared_from_this())] {
+          auto self = weak_self.lock();
+          if (self) {
+            self->BeforeFork();
+          }
+          return self;
+        },
+        /*parent_after=*/
+        [](std::any token) {
+          auto self = std::any_cast<std::shared_ptr<SignalStopState>>(std::move(token));
+          self->ParentAfterFork();
+        },
+        /*child_after=*/
+        [](std::any token) {
+          auto self = std::any_cast<std::shared_ptr<SignalStopState>>(std::move(token));
+          self->ChildAfterFork();
+        });
+    RegisterAtFork(atfork_handler_);
+  }
+
   Status RegisterHandlers(const std::vector<int>& signals) {
+    std::lock_guard<std::mutex> lock(mutex_);
     if (!saved_handlers_.empty()) {
       return Status::Invalid("Signal handlers already registered");
     }
+    if (!self_pipe_) {
+      // Make sure the self-pipe is initialized
+      // (NOTE: avoid std::atomic_is_lock_free() which may require libatomic)
+#if ATOMIC_POINTER_LOCK_FREE != 2
+      return Status::NotImplemented(
+          "Cannot setup signal StopSource because atomic pointers are not "
+          "lock-free on this platform");
+#else
+      ARROW_ASSIGN_OR_RAISE(self_pipe_, SelfPipe::Make(/*signal_safe=*/true));
+#endif
+    }
+    if (!signal_receiving_thread_) {
+      // Spawn thread for receiving signals
+      SpawnSignalReceivingThread();
+    }
+    self_pipe_ptr_.store(self_pipe_.get());
     for (int signum : signals) {
       ARROW_ASSIGN_OR_RAISE(auto handler,
                             SetSignalHandler(signum, SignalHandler{&HandleSignal}));
@@ -119,6 +165,8 @@ struct SignalStopState {
   }
 
   void UnregisterHandlers() {
+    std::lock_guard<std::mutex> lock(mutex_);
+    self_pipe_ptr_.store(nullptr);
     auto handlers = std::move(saved_handlers_);
     for (const auto& h : handlers) {
       ARROW_CHECK_OK(SetSignalHandler(h.signum, h.handler).status());
@@ -126,71 +174,126 @@ struct SignalStopState {
   }
 
   ~SignalStopState() {
+    atfork_handler_.reset();
     UnregisterHandlers();
     Disable();
+    if (signal_receiving_thread_) {
+      // Tell the receiving thread to stop
+      auto st = self_pipe_->Shutdown();
+      ARROW_WARN_NOT_OK(st, "Failed to shutdown self-pipe");
+      if (st.ok()) {
+        signal_receiving_thread_->join();
+      } else {
+        signal_receiving_thread_->detach();
+      }
+    }
   }
 
-  StopSource* stop_source() { return stop_source_.get(); }
+  StopSource* stop_source() {
+    std::lock_guard<std::mutex> lock(mutex_);
+    return stop_source_.get();
+  }
 
-  bool enabled() { return stop_source_ != nullptr; }
+  bool enabled() {
+    std::lock_guard<std::mutex> lock(mutex_);
+    return stop_source_ != nullptr;
+  }
 
   void Enable() {
-    // Before creating a new StopSource, delete any lingering reference to
-    // the previous one in the trash can.  See DoHandleSignal() for details.
-    EmptyTrashCan();
-    internal::atomic_store(&stop_source_, std::make_shared<StopSource>());
+    std::lock_guard<std::mutex> lock(mutex_);
+    stop_source_ = std::make_shared<StopSource>();
   }
 
-  void Disable() { internal::atomic_store(&stop_source_, NullSource()); }
+  void Disable() {
+    std::lock_guard<std::mutex> lock(mutex_);
+    stop_source_.reset();
+  }
 
-  static SignalStopState* instance() { return &instance_; }
+  static SignalStopState* instance() {
+    static std::shared_ptr<SignalStopState> instance = []() {
+      auto ptr = std::make_shared<SignalStopState>();
+      ptr->Init();
+      return ptr;
+    }();
+    return instance.get();
+  }
 
  private:
-  // For readability
-  std::shared_ptr<StopSource> NullSource() { return nullptr; }
-
-  void EmptyTrashCan() { internal::atomic_store(&trash_can_, NullSource()); }
+  void SpawnSignalReceivingThread() {
+    signal_receiving_thread_ = std::make_unique<std::thread>(ReceiveSignals, self_pipe_);
+  }
 
-  static void HandleSignal(int signum) { instance_.DoHandleSignal(signum); }
+  static void HandleSignal(int signum) {
+    auto self = instance();
+    if (self) {
+      self->DoHandleSignal(signum);
+    }
+  }
 
   void DoHandleSignal(int signum) {
     // async-signal-safe code only
-    auto source = internal::atomic_load(&stop_source_);
-    if (source) {
-      source->RequestStopFromSignal(signum);
-      // Disable() may have been called in the meantime, but we can't
-      // deallocate a shared_ptr here, so instead move it to a "trash can".
-      // This minimizes the possibility of running a deallocator here,
-      // however it doesn't entirely preclude it.
-      //
-      // Possible case:
-      // - a signal handler (A) starts running, fetches the current source
-      // - Disable() then Enable() are called, emptying the trash can and
-      //   replacing the current source
-      // - a signal handler (B) starts running, fetches the current source
-      // - signal handler A resumes, moves its source (the old source) into
-      //   the trash can (the only remaining reference)
-      // - signal handler B resumes, moves its source (the current source)
-      //   into the trash can.  This triggers deallocation of the old source,
-      //   since the trash can had the only remaining reference to it.
-      //
-      // This case should be sufficiently unlikely, but we cannot entirely
-      // rule it out.  The problem might be solved properly with a lock-free
-      // linked list of StopSources.
-      internal::atomic_store(&trash_can_, std::move(source));
+    SelfPipe* self_pipe = self_pipe_ptr_.load();
+    if (self_pipe) {
+      self_pipe->Send(/*payload=*/signum);
     }
     ReinstateSignalHandler(signum, &HandleSignal);
   }
 
-  std::shared_ptr<StopSource> stop_source_;
-  std::shared_ptr<StopSource> trash_can_;
+  static void ReceiveSignals(std::shared_ptr<SelfPipe> self_pipe) {
+    // Wait for signals on the self-pipe and propagate them to the current StopSource
+    DCHECK(self_pipe);
+    while (true) {
+      auto maybe_payload = self_pipe->Wait();
+      if (maybe_payload.status().IsInvalid()) {
+        // Pipe shut down
+        return;
+      }
+      if (!maybe_payload.ok()) {
+        maybe_payload.status().Warn();
+        return;
+      }
+      const int signum = static_cast<int>(maybe_payload.ValueUnsafe());
+      instance()->ReceiveSignal(signum);
+    }
+  }
 
-  std::vector<SavedSignalHandler> saved_handlers_;
+  void ReceiveSignal(int signum) {
+    std::lock_guard<std::mutex> lock(mutex_);
+    if (stop_source_) {
+      stop_source_->RequestStopFromSignal(signum);
+    }
+  }
 
-  static SignalStopState instance_;
-};
+  // At-fork handlers
+
+  void BeforeFork() { mutex_.lock(); }
+
+  void ParentAfterFork() { mutex_.unlock(); }
 
-SignalStopState SignalStopState::instance_{};
+  void ChildAfterFork() {
+    new (&mutex_) std::mutex;
+    // Leak previous thread, as it has become invalid.
+    // We can't spawn a new one here as it would have unfortunate side effects;
+    // especially in the frequent context of a fork+exec.
+    // (for example the Python subprocess module closes all fds before calling exec)
+    ARROW_UNUSED(signal_receiving_thread_.release());
+    // Make internal state consistent: with no listening thread, we shouldn't
+    // feed the self-pipe from the signal handler.
+    UnregisterHandlers();
+  }
+
+  std::mutex mutex_;
+  std::vector<SavedSignalHandler> saved_handlers_;
+  std::shared_ptr<StopSource> stop_source_;
+  std::unique_ptr<std::thread> signal_receiving_thread_;
+  std::shared_ptr<AtForkHandler> atfork_handler_;
+
+  // For signal handler interaction
+  std::shared_ptr<SelfPipe> self_pipe_;
+  // Raw atomic pointer, as atomic load/store of a shared_ptr may not be lock-free
+  // (it is not on libstdc++).
+  std::atomic<SelfPipe*> self_pipe_ptr_;
+};
 
 }  // namespace
 
diff --git a/cpp/src/arrow/util/cancel.h b/cpp/src/arrow/util/cancel.h
index 9e00f673a21..f0d704b2ce0 100644
--- a/cpp/src/arrow/util/cancel.h
+++ b/cpp/src/arrow/util/cancel.h
@@ -42,6 +42,7 @@ class ARROW_EXPORT StopSource {
   // Consumer API (the side that stops)
   void RequestStop();
   void RequestStop(Status error);
+  // Async-signal-safe. TODO Deprecate this?
   void RequestStopFromSignal(int signum);
 
   StopToken token();
@@ -64,7 +65,18 @@ class ARROW_EXPORT StopToken {
   // A trivial token that never propagates any stop request
   static StopToken Unstoppable() { return StopToken(); }
 
-  // Producer API (the side that gets asked to stopped)
+  /// \brief Check if the stop source has been cancelled.
+  ///
+  /// Producers should call this method, whenever convenient, to check and
+  /// see if they should stop producing early (i.e. have been cancelled).
+  /// Failure to call this method often enough will lead to an unresponsive
+  /// cancellation.
+  ///
+  /// This is part of the producer API (the side that gets asked to stop)
+  /// This method is thread-safe
+  ///
+  /// \return An OK status if the stop source has not been cancelled or a
+  ///         cancel error if the source has been cancelled.
   Status Poll() const;
   bool IsStopRequested() const;
 
@@ -92,6 +104,10 @@ ARROW_EXPORT
 void ResetSignalStopSource();
 
 /// EXPERIMENTAL: Register signal handler triggering the signal-receiving StopSource
+///
+/// Note that those handlers are automatically un-registered in a fork()ed process,
+/// therefore the child process will need to call RegisterCancellingSignalHandler()
+/// if desired.
 ARROW_EXPORT
 Status RegisterCancellingSignalHandler(const std::vector<int>& signals);
 
diff --git a/cpp/src/arrow/util/cancel_test.cc b/cpp/src/arrow/util/cancel_test.cc
index b9bf94ba43a..45f6cde4f55 100644
--- a/cpp/src/arrow/util/cancel_test.cc
+++ b/cpp/src/arrow/util/cancel_test.cc
@@ -17,6 +17,8 @@
 
 #include <atomic>
 #include <cmath>
+#include <functional>
+#include <optional>
 #include <sstream>
 #include <string>
 #include <thread>
@@ -28,6 +30,8 @@
 #include <signal.h>
 #ifndef _WIN32
 #include <sys/time.h>  // for setitimer()
+#include <sys/types.h>
+#include <unistd.h>
 #endif
 
 #include "arrow/testing/gtest_util.h"
@@ -35,7 +39,6 @@
 #include "arrow/util/future.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/optional.h"
 
 namespace arrow {
 
@@ -100,7 +103,7 @@ TEST_F(CancelTest, Unstoppable) {
 
 TEST_F(CancelTest, SourceVanishes) {
   {
-    util::optional<StopSource> source{StopSource()};
+    std::optional<StopSource> source{StopSource()};
     StopToken token = source->token();
     ASSERT_FALSE(token.IsStopRequested());
     ASSERT_OK(token.Poll());
@@ -110,7 +113,7 @@ TEST_F(CancelTest, SourceVanishes) {
     ASSERT_OK(token.Poll());
   }
   {
-    util::optional<StopSource> source{StopSource()};
+    std::optional<StopSource> source{StopSource()};
     StopToken token = source->token();
     source->RequestStop();
 
@@ -125,7 +128,7 @@ static void noop_signal_handler(int signum) {
 }
 
 #ifndef _WIN32
-static util::optional<StopSource> signal_stop_source;
+static std::optional<StopSource> signal_stop_source;
 
 static void signal_handler(int signum) {
   signal_stop_source->RequestStopFromSignal(signum);
@@ -201,14 +204,31 @@ class SignalCancelTest : public CancelTest {
     ASSERT_EQ(internal::SignalFromStatus(st), expected_signal_);
   }
 
+#ifndef _WIN32
+  void RunInChild(std::function<void()> func) {
+    auto child_pid = fork();
+    if (child_pid == -1) {
+      ASSERT_OK(internal::IOErrorFromErrno(errno, "Error calling fork(): "));
+    }
+    if (child_pid == 0) {
+      // Child
+      ASSERT_NO_FATAL_FAILURE(func()) << "Failure in child process";
+      std::exit(0);
+    } else {
+      // Parent
+      AssertChildExit(child_pid);
+    }
+  }
+#endif
+
  protected:
 #ifdef _WIN32
   const int expected_signal_ = SIGINT;
 #else
   const int expected_signal_ = SIGALRM;
 #endif
-  util::optional<SignalHandlerGuard> guard_;
-  util::optional<StopToken> stop_token_;
+  std::optional<SignalHandlerGuard> guard_;
+  std::optional<StopToken> stop_token_;
 };
 
 TEST_F(SignalCancelTest, Register) {
@@ -238,6 +258,54 @@ TEST_F(SignalCancelTest, RegisterUnregister) {
   AssertStopRequested();
 }
 
+#if !(defined(_WIN32) || defined(ARROW_VALGRIND) || defined(ADDRESS_SANITIZER) || \
+      defined(THREAD_SANITIZER))
+TEST_F(SignalCancelTest, ForkSafetyUnregisteredHandlers) {
+  RunInChild([&]() {
+    // Child
+    TriggerSignal();
+    AssertStopNotRequested();
+
+    RegisterHandler();
+    TriggerSignal();
+    AssertStopRequested();
+  });
+
+  // Parent: shouldn't notice signals raised in child
+  AssertStopNotRequested();
+
+  // Stop source still usable in parent
+  TriggerSignal();
+  AssertStopNotRequested();
+
+  RegisterHandler();
+  TriggerSignal();
+  AssertStopRequested();
+}
+
+TEST_F(SignalCancelTest, ForkSafetyRegisteredHandlers) {
+  RegisterHandler();
+
+  RunInChild([&]() {
+    // Child: signal handlers are unregistered and need to be re-registered
+    TriggerSignal();
+    AssertStopNotRequested();
+
+    // Can re-register and receive signals
+    RegisterHandler();
+    TriggerSignal();
+    AssertStopRequested();
+  });
+
+  // Parent: shouldn't notice signals raised in child
+  AssertStopNotRequested();
+
+  // Stop source still usable in parent
+  TriggerSignal();
+  AssertStopRequested();
+}
+#endif
+
 TEST_F(CancelTest, ThreadedPollSuccess) {
   constexpr int kNumThreads = 10;
 
diff --git a/cpp/src/arrow/util/compression_brotli.cc b/cpp/src/arrow/util/compression_brotli.cc
index cb547c2c8cf..0ee69281c9f 100644
--- a/cpp/src/arrow/util/compression_brotli.cc
+++ b/cpp/src/arrow/util/compression_brotli.cc
@@ -237,7 +237,7 @@ class BrotliCodec : public Codec {
 }  // namespace
 
 std::unique_ptr<Codec> MakeBrotliCodec(int compression_level) {
-  return std::unique_ptr<Codec>(new BrotliCodec(compression_level));
+  return std::make_unique<BrotliCodec>(compression_level);
 }
 
 }  // namespace internal
diff --git a/cpp/src/arrow/util/compression_bz2.cc b/cpp/src/arrow/util/compression_bz2.cc
index b367f2ff20c..503bfee261c 100644
--- a/cpp/src/arrow/util/compression_bz2.cc
+++ b/cpp/src/arrow/util/compression_bz2.cc
@@ -279,7 +279,7 @@ class BZ2Codec : public Codec {
 }  // namespace
 
 std::unique_ptr<Codec> MakeBZ2Codec(int compression_level) {
-  return std::unique_ptr<Codec>(new BZ2Codec(compression_level));
+  return std::make_unique<BZ2Codec>(compression_level);
 }
 
 }  // namespace internal
diff --git a/cpp/src/arrow/util/compression_lz4.cc b/cpp/src/arrow/util/compression_lz4.cc
index 5360a5ccb89..17e013c13ee 100644
--- a/cpp/src/arrow/util/compression_lz4.cc
+++ b/cpp/src/arrow/util/compression_lz4.cc
@@ -529,15 +529,15 @@ class Lz4HadoopCodec : public Lz4Codec {
 }  // namespace
 
 std::unique_ptr<Codec> MakeLz4FrameCodec(int compression_level) {
-  return std::unique_ptr<Codec>(new Lz4FrameCodec(compression_level));
+  return std::make_unique<Lz4FrameCodec>(compression_level);
 }
 
 std::unique_ptr<Codec> MakeLz4HadoopRawCodec() {
-  return std::unique_ptr<Codec>(new Lz4HadoopCodec());
+  return std::make_unique<Lz4HadoopCodec>();
 }
 
 std::unique_ptr<Codec> MakeLz4RawCodec(int compression_level) {
-  return std::unique_ptr<Codec>(new Lz4Codec(compression_level));
+  return std::make_unique<Lz4Codec>(compression_level);
 }
 
 }  // namespace internal
diff --git a/cpp/src/arrow/util/compression_snappy.cc b/cpp/src/arrow/util/compression_snappy.cc
index 3756f957d04..731fdfd1337 100644
--- a/cpp/src/arrow/util/compression_snappy.cc
+++ b/cpp/src/arrow/util/compression_snappy.cc
@@ -93,9 +93,7 @@ class SnappyCodec : public Codec {
 
 }  // namespace
 
-std::unique_ptr<Codec> MakeSnappyCodec() {
-  return std::unique_ptr<Codec>(new SnappyCodec());
-}
+std::unique_ptr<Codec> MakeSnappyCodec() { return std::make_unique<SnappyCodec>(); }
 
 }  // namespace internal
 }  // namespace util
diff --git a/cpp/src/arrow/util/compression_zlib.cc b/cpp/src/arrow/util/compression_zlib.cc
index e9cb2470ee2..6dcc5153abd 100644
--- a/cpp/src/arrow/util/compression_zlib.cc
+++ b/cpp/src/arrow/util/compression_zlib.cc
@@ -499,7 +499,7 @@ class GZipCodec : public Codec {
 }  // namespace
 
 std::unique_ptr<Codec> MakeGZipCodec(int compression_level, GZipFormat::type format) {
-  return std::unique_ptr<Codec>(new GZipCodec(compression_level, format));
+  return std::make_unique<GZipCodec>(compression_level, format);
 }
 
 }  // namespace internal
diff --git a/cpp/src/arrow/util/compression_zstd.cc b/cpp/src/arrow/util/compression_zstd.cc
index e15ecb4e1fe..d43f7ac953a 100644
--- a/cpp/src/arrow/util/compression_zstd.cc
+++ b/cpp/src/arrow/util/compression_zstd.cc
@@ -241,7 +241,7 @@ class ZSTDCodec : public Codec {
 }  // namespace
 
 std::unique_ptr<Codec> MakeZSTDCodec(int compression_level) {
-  return std::unique_ptr<Codec>(new ZSTDCodec(compression_level));
+  return std::make_unique<ZSTDCodec>(compression_level);
 }
 
 }  // namespace internal
diff --git a/cpp/src/arrow/util/config.h.cmake b/cpp/src/arrow/util/config.h.cmake
index c4a2a40be27..f6fad2016a2 100644
--- a/cpp/src/arrow/util/config.h.cmake
+++ b/cpp/src/arrow/util/config.h.cmake
@@ -42,14 +42,19 @@
 #cmakedefine ARROW_DATASET
 #cmakedefine ARROW_FILESYSTEM
 #cmakedefine ARROW_FLIGHT
+#cmakedefine ARROW_FLIGHT_SQL
 #cmakedefine ARROW_IPC
 #cmakedefine ARROW_JEMALLOC
 #cmakedefine ARROW_JEMALLOC_VENDORED
 #cmakedefine ARROW_JSON
+#cmakedefine ARROW_ORC
+#cmakedefine ARROW_PARQUET
+#cmakedefine ARROW_SUBSTRAIT
 
 #cmakedefine ARROW_GCS
 #cmakedefine ARROW_S3
 #cmakedefine ARROW_USE_NATIVE_INT128
+#cmakedefine ARROW_WITH_MUSL
 #cmakedefine ARROW_WITH_OPENTELEMETRY
 #cmakedefine ARROW_WITH_UCX
 
diff --git a/cpp/src/arrow/util/converter.h b/cpp/src/arrow/util/converter.h
index f87fbc7122f..c23d6ccd988 100644
--- a/cpp/src/arrow/util/converter.h
+++ b/cpp/src/arrow/util/converter.h
@@ -15,6 +15,7 @@
 // specific language governing permissions and limitations
 // under the License.
 
+#include <memory>
 #include <string>
 #include <utility>
 #include <vector>
@@ -25,7 +26,6 @@
 #include "arrow/type.h"
 #include "arrow/type_traits.h"
 #include "arrow/util/checked_cast.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/visit_type_inline.h"
 
 namespace arrow {
@@ -223,7 +223,7 @@ struct MakeConverterImpl {
     switch (t.value_type()->id()) {
 #define DICTIONARY_CASE(TYPE)                                                       \
   case TYPE::type_id:                                                               \
-    out = internal::make_unique<                                                    \
+    out = std::make_unique<                                                         \
         typename ConverterTrait<DictionaryType>::template dictionary_type<TYPE>>(); \
     break;
       DICTIONARY_CASE(BooleanType);
@@ -404,7 +404,7 @@ class Chunker {
 
 template <typename T>
 static Result<std::unique_ptr<Chunker<T>>> MakeChunker(std::unique_ptr<T> converter) {
-  return internal::make_unique<Chunker<T>>(std::move(converter));
+  return std::make_unique<Chunker<T>>(std::move(converter));
 }
 
 }  // namespace internal
diff --git a/cpp/src/arrow/util/cpu_info.cc b/cpp/src/arrow/util/cpu_info.cc
index fbe55aec0c1..9bc33f04570 100644
--- a/cpp/src/arrow/util/cpu_info.cc
+++ b/cpp/src/arrow/util/cpu_info.cc
@@ -41,13 +41,13 @@
 #include <cstdint>
 #include <fstream>
 #include <memory>
+#include <optional>
 #include <string>
 #include <thread>
 
 #include "arrow/result.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/string.h"
 
 #undef CPUINFO_ARCH_X86
@@ -226,7 +226,7 @@ void OsRetrieveCpuInfo(int64_t* hardware_flags, CpuInfo::Vendor* vendor,
 
 #elif defined(__APPLE__)
 //------------------------------ MACOS ------------------------------//
-util::optional<int64_t> IntegerSysCtlByName(const char* name) {
+std::optional<int64_t> IntegerSysCtlByName(const char* name) {
   size_t len = sizeof(int64_t);
   int64_t data = 0;
   if (sysctlbyname(name, &data, &len, nullptr, 0) == 0) {
@@ -238,7 +238,7 @@ util::optional<int64_t> IntegerSysCtlByName(const char* name) {
     auto st = IOErrorFromErrno(errno, "sysctlbyname failed for '", name, "'");
     ARROW_LOG(WARNING) << st.ToString();
   }
-  return util::nullopt;
+  return std::nullopt;
 }
 
 void OsRetrieveCacheSize(std::array<int64_t, kCacheLevels>* cache_sizes) {
diff --git a/cpp/src/arrow/util/decimal.cc b/cpp/src/arrow/util/decimal.cc
index 7bda91cf100..b5e5e69aa7e 100644
--- a/cpp/src/arrow/util/decimal.cc
+++ b/cpp/src/arrow/util/decimal.cc
@@ -287,7 +287,7 @@ static void AppendLittleEndianArrayToString(const std::array<uint64_t, n>& array
   const uint32_t* segment = &segments[num_segments - 1];
   internal::StringFormatter<UInt32Type> format;
   // First segment is formatted as-is.
-  format(*segment, [&output](util::string_view formatted) {
+  format(*segment, [&output](std::string_view formatted) {
     memcpy(output, formatted.data(), formatted.size());
     output += formatted.size();
   });
@@ -295,7 +295,7 @@ static void AppendLittleEndianArrayToString(const std::array<uint64_t, n>& array
     --segment;
     // Right-pad formatted segment such that e.g. 123 is formatted as "000000123".
     output += 9;
-    format(*segment, [output](util::string_view formatted) {
+    format(*segment, [output](std::string_view formatted) {
       memcpy(output - formatted.size(), formatted.data(), formatted.size());
     });
   }
@@ -355,7 +355,7 @@ static void AdjustIntegerStringWithScale(int32_t scale, std::string* str) {
       str->push_back('+');
     }
     internal::StringFormatter<Int32Type> format;
-    format(adjusted_exponent, [str](util::string_view formatted) {
+    format(adjusted_exponent, [str](std::string_view formatted) {
       str->append(formatted.data(), formatted.size());
     });
     return;
@@ -397,7 +397,7 @@ std::string Decimal128::ToString(int32_t scale) const {
 // Iterates over input and for each group of kInt64DecimalDigits multiple out by
 // the appropriate power of 10 necessary to add source parsed as uint64 and
 // then adds the parsed value of source.
-static inline void ShiftAndAdd(const util::string_view& input, uint64_t out[],
+static inline void ShiftAndAdd(const std::string_view& input, uint64_t out[],
                                size_t out_size) {
   for (size_t posn = 0; posn < input.size();) {
     const size_t group_size = std::min(kInt64DecimalDigits, input.size() - posn);
@@ -420,8 +420,8 @@ static inline void ShiftAndAdd(const util::string_view& input, uint64_t out[],
 namespace {
 
 struct DecimalComponents {
-  util::string_view whole_digits;
-  util::string_view fractional_digits;
+  std::string_view whole_digits;
+  std::string_view fractional_digits;
   int32_t exponent = 0;
   char sign = 0;
   bool has_exponent = false;
@@ -436,14 +436,14 @@ inline bool IsDigit(char c) { return c >= '0' && c <= '9'; }
 inline bool StartsExponent(char c) { return c == 'e' || c == 'E'; }
 
 inline size_t ParseDigitsRun(const char* s, size_t start, size_t size,
-                             util::string_view* out) {
+                             std::string_view* out) {
   size_t pos;
   for (pos = start; pos < size; ++pos) {
     if (!IsDigit(s[pos])) {
       break;
     }
   }
-  *out = util::string_view(s + start, pos - start);
+  *out = std::string_view(s + start, pos - start);
   return pos;
 }
 
@@ -508,7 +508,7 @@ inline Status ToArrowStatus(DecimalStatus dstatus, int num_bits) {
 }
 
 template <typename Decimal>
-Status DecimalFromString(const char* type_name, const util::string_view& s, Decimal* out,
+Status DecimalFromString(const char* type_name, const std::string_view& s, Decimal* out,
                          int32_t* precision, int32_t* scale) {
   if (s.empty()) {
     return Status::Invalid("Empty string cannot be converted to ", type_name);
@@ -573,33 +573,33 @@ Status DecimalFromString(const char* type_name, const util::string_view& s, Deci
 
 }  // namespace
 
-Status Decimal128::FromString(const util::string_view& s, Decimal128* out,
+Status Decimal128::FromString(const std::string_view& s, Decimal128* out,
                               int32_t* precision, int32_t* scale) {
   return DecimalFromString("decimal128", s, out, precision, scale);
 }
 
 Status Decimal128::FromString(const std::string& s, Decimal128* out, int32_t* precision,
                               int32_t* scale) {
-  return FromString(util::string_view(s), out, precision, scale);
+  return FromString(std::string_view(s), out, precision, scale);
 }
 
 Status Decimal128::FromString(const char* s, Decimal128* out, int32_t* precision,
                               int32_t* scale) {
-  return FromString(util::string_view(s), out, precision, scale);
+  return FromString(std::string_view(s), out, precision, scale);
 }
 
-Result<Decimal128> Decimal128::FromString(const util::string_view& s) {
+Result<Decimal128> Decimal128::FromString(const std::string_view& s) {
   Decimal128 out;
   RETURN_NOT_OK(FromString(s, &out, nullptr, nullptr));
   return std::move(out);
 }
 
 Result<Decimal128> Decimal128::FromString(const std::string& s) {
-  return FromString(util::string_view(s));
+  return FromString(std::string_view(s));
 }
 
 Result<Decimal128> Decimal128::FromString(const char* s) {
-  return FromString(util::string_view(s));
+  return FromString(std::string_view(s));
 }
 
 // Helper function used by Decimal128::FromBigEndian
@@ -706,33 +706,33 @@ std::string Decimal256::ToString(int32_t scale) const {
   return str;
 }
 
-Status Decimal256::FromString(const util::string_view& s, Decimal256* out,
+Status Decimal256::FromString(const std::string_view& s, Decimal256* out,
                               int32_t* precision, int32_t* scale) {
   return DecimalFromString("decimal256", s, out, precision, scale);
 }
 
 Status Decimal256::FromString(const std::string& s, Decimal256* out, int32_t* precision,
                               int32_t* scale) {
-  return FromString(util::string_view(s), out, precision, scale);
+  return FromString(std::string_view(s), out, precision, scale);
 }
 
 Status Decimal256::FromString(const char* s, Decimal256* out, int32_t* precision,
                               int32_t* scale) {
-  return FromString(util::string_view(s), out, precision, scale);
+  return FromString(std::string_view(s), out, precision, scale);
 }
 
-Result<Decimal256> Decimal256::FromString(const util::string_view& s) {
+Result<Decimal256> Decimal256::FromString(const std::string_view& s) {
   Decimal256 out;
   RETURN_NOT_OK(FromString(s, &out, nullptr, nullptr));
   return std::move(out);
 }
 
 Result<Decimal256> Decimal256::FromString(const std::string& s) {
-  return FromString(util::string_view(s));
+  return FromString(std::string_view(s));
 }
 
 Result<Decimal256> Decimal256::FromString(const char* s) {
-  return FromString(util::string_view(s));
+  return FromString(std::string_view(s));
 }
 
 Result<Decimal256> Decimal256::FromBigEndian(const uint8_t* bytes, int32_t length) {
diff --git a/cpp/src/arrow/util/decimal.h b/cpp/src/arrow/util/decimal.h
index 5b26f1f5431..6527790b624 100644
--- a/cpp/src/arrow/util/decimal.h
+++ b/cpp/src/arrow/util/decimal.h
@@ -21,13 +21,13 @@
 #include <iosfwd>
 #include <limits>
 #include <string>
+#include <string_view>
 #include <utility>
 
 #include "arrow/result.h"
 #include "arrow/status.h"
 #include "arrow/type_fwd.h"
 #include "arrow/util/basic_decimal.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 
@@ -95,13 +95,13 @@ class ARROW_EXPORT Decimal128 : public BasicDecimal128 {
 
   /// \brief Convert a decimal string to a Decimal128 value, optionally including
   /// precision and scale if they're passed in and not null.
-  static Status FromString(const util::string_view& s, Decimal128* out,
-                           int32_t* precision, int32_t* scale = NULLPTR);
+  static Status FromString(const std::string_view& s, Decimal128* out, int32_t* precision,
+                           int32_t* scale = NULLPTR);
   static Status FromString(const std::string& s, Decimal128* out, int32_t* precision,
                            int32_t* scale = NULLPTR);
   static Status FromString(const char* s, Decimal128* out, int32_t* precision,
                            int32_t* scale = NULLPTR);
-  static Result<Decimal128> FromString(const util::string_view& s);
+  static Result<Decimal128> FromString(const std::string_view& s);
   static Result<Decimal128> FromString(const std::string& s);
   static Result<Decimal128> FromString(const char* s);
 
@@ -151,8 +151,8 @@ class ARROW_EXPORT Decimal128 : public BasicDecimal128 {
     return ToRealConversion<T>::ToReal(*this, scale);
   }
 
-  friend ARROW_EXPORT std::ostream& operator<<(std::ostream& os,
-                                               const Decimal128& decimal);
+  ARROW_FRIEND_EXPORT friend std::ostream& operator<<(std::ostream& os,
+                                                      const Decimal128& decimal);
 
  private:
   /// Converts internal error code to Status
@@ -193,7 +193,8 @@ class ARROW_EXPORT Decimal256 : public BasicDecimal256 {
   /// \endcond
 
   /// \brief constructor creates a Decimal256 from a BasicDecimal256.
-  constexpr Decimal256(const BasicDecimal256& value) noexcept : BasicDecimal256(value) {}
+  constexpr Decimal256(const BasicDecimal256& value) noexcept  // NOLINT(runtime/explicit)
+      : BasicDecimal256(value) {}
 
   /// \brief Parse the number from a base 10 string representation.
   explicit Decimal256(const std::string& value);
@@ -211,13 +212,13 @@ class ARROW_EXPORT Decimal256 : public BasicDecimal256 {
 
   /// \brief Convert a decimal string to a Decimal256 value, optionally including
   /// precision and scale if they're passed in and not null.
-  static Status FromString(const util::string_view& s, Decimal256* out,
-                           int32_t* precision, int32_t* scale = NULLPTR);
+  static Status FromString(const std::string_view& s, Decimal256* out, int32_t* precision,
+                           int32_t* scale = NULLPTR);
   static Status FromString(const std::string& s, Decimal256* out, int32_t* precision,
                            int32_t* scale = NULLPTR);
   static Status FromString(const char* s, Decimal256* out, int32_t* precision,
                            int32_t* scale = NULLPTR);
-  static Result<Decimal256> FromString(const util::string_view& s);
+  static Result<Decimal256> FromString(const std::string_view& s);
   static Result<Decimal256> FromString(const std::string& s);
   static Result<Decimal256> FromString(const char* s);
 
@@ -266,8 +267,8 @@ class ARROW_EXPORT Decimal256 : public BasicDecimal256 {
     return ToRealConversion<T>::ToReal(*this, scale);
   }
 
-  friend ARROW_EXPORT std::ostream& operator<<(std::ostream& os,
-                                               const Decimal256& decimal);
+  ARROW_FRIEND_EXPORT friend std::ostream& operator<<(std::ostream& os,
+                                                      const Decimal256& decimal);
 
  private:
   /// Converts internal error code to Status
diff --git a/cpp/src/arrow/util/delimiting.cc b/cpp/src/arrow/util/delimiting.cc
index fe1b6ea3126..4ae3646e321 100644
--- a/cpp/src/arrow/util/delimiting.cc
+++ b/cpp/src/arrow/util/delimiting.cc
@@ -32,14 +32,14 @@ Status StraddlingTooLarge() {
 
 class NewlineBoundaryFinder : public BoundaryFinder {
  public:
-  Status FindFirst(util::string_view partial, util::string_view block,
+  Status FindFirst(std::string_view partial, std::string_view block,
                    int64_t* out_pos) override {
     auto pos = block.find_first_of(newline_delimiters);
-    if (pos == util::string_view::npos) {
+    if (pos == std::string_view::npos) {
       *out_pos = kNoDelimiterFound;
     } else {
       auto end = block.find_first_not_of(newline_delimiters, pos);
-      if (end == util::string_view::npos) {
+      if (end == std::string_view::npos) {
         end = block.length();
       }
       *out_pos = static_cast<int64_t>(end);
@@ -47,13 +47,13 @@ class NewlineBoundaryFinder : public BoundaryFinder {
     return Status::OK();
   }
 
-  Status FindLast(util::string_view block, int64_t* out_pos) override {
+  Status FindLast(std::string_view block, int64_t* out_pos) override {
     auto pos = block.find_last_of(newline_delimiters);
-    if (pos == util::string_view::npos) {
+    if (pos == std::string_view::npos) {
       *out_pos = kNoDelimiterFound;
     } else {
       auto end = block.find_first_not_of(newline_delimiters, pos);
-      if (end == util::string_view::npos) {
+      if (end == std::string_view::npos) {
         end = block.length();
       }
       *out_pos = static_cast<int64_t>(end);
@@ -61,15 +61,15 @@ class NewlineBoundaryFinder : public BoundaryFinder {
     return Status::OK();
   }
 
-  Status FindNth(util::string_view partial, util::string_view block, int64_t count,
+  Status FindNth(std::string_view partial, std::string_view block, int64_t count,
                  int64_t* out_pos, int64_t* num_found) override {
-    DCHECK(partial.find_first_of(newline_delimiters) == util::string_view::npos);
+    DCHECK(partial.find_first_of(newline_delimiters) == std::string_view::npos);
 
     int64_t found = 0;
     int64_t pos = kNoDelimiterFound;
 
     auto cur_pos = block.find_first_of(newline_delimiters);
-    while (cur_pos != util::string_view::npos) {
+    while (cur_pos != std::string_view::npos) {
       if (block[cur_pos] == '\r' && cur_pos + 1 < block.length() &&
           block[cur_pos + 1] == '\n') {
         cur_pos += 2;
@@ -108,7 +108,7 @@ Chunker::Chunker(std::shared_ptr<BoundaryFinder> delimiter)
 Status Chunker::Process(std::shared_ptr<Buffer> block, std::shared_ptr<Buffer>* whole,
                         std::shared_ptr<Buffer>* partial) {
   int64_t last_pos = -1;
-  RETURN_NOT_OK(boundary_finder_->FindLast(util::string_view(*block), &last_pos));
+  RETURN_NOT_OK(boundary_finder_->FindLast(std::string_view(*block), &last_pos));
   if (last_pos == BoundaryFinder::kNoDelimiterFound) {
     // No delimiter found
     *whole = SliceBuffer(block, 0, 0);
@@ -132,8 +132,8 @@ Status Chunker::ProcessWithPartial(std::shared_ptr<Buffer> partial,
     return Status::OK();
   }
   int64_t first_pos = -1;
-  RETURN_NOT_OK(boundary_finder_->FindFirst(util::string_view(*partial),
-                                            util::string_view(*block), &first_pos));
+  RETURN_NOT_OK(boundary_finder_->FindFirst(std::string_view(*partial),
+                                            std::string_view(*block), &first_pos));
   if (first_pos == BoundaryFinder::kNoDelimiterFound) {
     // No delimiter in block => the current object is too large for block size
     return StraddlingTooLarge();
@@ -155,8 +155,8 @@ Status Chunker::ProcessFinal(std::shared_ptr<Buffer> partial,
     return Status::OK();
   }
   int64_t first_pos = -1;
-  RETURN_NOT_OK(boundary_finder_->FindFirst(util::string_view(*partial),
-                                            util::string_view(*block), &first_pos));
+  RETURN_NOT_OK(boundary_finder_->FindFirst(std::string_view(*partial),
+                                            std::string_view(*block), &first_pos));
   if (first_pos == BoundaryFinder::kNoDelimiterFound) {
     // No delimiter in block => it's entirely a completion of partial
     *completion = block;
@@ -175,7 +175,7 @@ Status Chunker::ProcessSkip(std::shared_ptr<Buffer> partial,
   int64_t pos;
   int64_t num_found;
   ARROW_RETURN_NOT_OK(boundary_finder_->FindNth(
-      util::string_view(*partial), util::string_view(*block), *count, &pos, &num_found));
+      std::string_view(*partial), std::string_view(*block), *count, &pos, &num_found));
   if (pos == BoundaryFinder::kNoDelimiterFound) {
     return StraddlingTooLarge();
   }
diff --git a/cpp/src/arrow/util/delimiting.h b/cpp/src/arrow/util/delimiting.h
index b4b868340db..161ad0bfddf 100644
--- a/cpp/src/arrow/util/delimiting.h
+++ b/cpp/src/arrow/util/delimiting.h
@@ -19,10 +19,10 @@
 
 #include <cstdint>
 #include <memory>
+#include <string_view>
 
 #include "arrow/status.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -43,7 +43,7 @@ class ARROW_EXPORT BoundaryFinder {
   /// The returned `out_pos` is relative to `block`'s start and should point
   /// to the first character after the first delimiter.
   /// `out_pos` will be -1 if no delimiter is found.
-  virtual Status FindFirst(util::string_view partial, util::string_view block,
+  virtual Status FindFirst(std::string_view partial, std::string_view block,
                            int64_t* out_pos) = 0;
 
   /// \brief Find the position of the last delimiter inside block
@@ -51,7 +51,7 @@ class ARROW_EXPORT BoundaryFinder {
   /// The returned `out_pos` is relative to `block`'s start and should point
   /// to the first character after the last delimiter.
   /// `out_pos` will be -1 if no delimiter is found.
-  virtual Status FindLast(util::string_view block, int64_t* out_pos) = 0;
+  virtual Status FindLast(std::string_view block, int64_t* out_pos) = 0;
 
   /// \brief Find the position of the Nth delimiter inside the block
   ///
@@ -63,8 +63,8 @@ class ARROW_EXPORT BoundaryFinder {
   /// `out_pos` will be -1 if no delimiter is found.
   ///
   /// The returned `num_found` is the number of delimiters actually found
-  virtual Status FindNth(util::string_view partial, util::string_view block,
-                         int64_t count, int64_t* out_pos, int64_t* num_found) = 0;
+  virtual Status FindNth(std::string_view partial, std::string_view block, int64_t count,
+                         int64_t* out_pos, int64_t* num_found) = 0;
 
   static constexpr int64_t kNoDelimiterFound = -1;
 
diff --git a/cpp/src/arrow/util/endian.h b/cpp/src/arrow/util/endian.h
index f77077f8094..d428287882e 100644
--- a/cpp/src/arrow/util/endian.h
+++ b/cpp/src/arrow/util/endian.h
@@ -122,28 +122,28 @@ static inline void ByteSwap(void* dst, const void* src, int len) {
 #if ARROW_LITTLE_ENDIAN
 template <typename T, typename = internal::EnableIfIsOneOf<
                           T, int64_t, uint64_t, int32_t, uint32_t, int16_t, uint16_t,
-                          uint8_t, int8_t, float, double>>
+                          uint8_t, int8_t, float, double, bool>>
 static inline T ToBigEndian(T value) {
   return ByteSwap(value);
 }
 
 template <typename T, typename = internal::EnableIfIsOneOf<
                           T, int64_t, uint64_t, int32_t, uint32_t, int16_t, uint16_t,
-                          uint8_t, int8_t, float, double>>
+                          uint8_t, int8_t, float, double, bool>>
 static inline T ToLittleEndian(T value) {
   return value;
 }
 #else
 template <typename T, typename = internal::EnableIfIsOneOf<
                           T, int64_t, uint64_t, int32_t, uint32_t, int16_t, uint16_t,
-                          uint8_t, int8_t, float, double>>
+                          uint8_t, int8_t, float, double, bool>>
 static inline T ToBigEndian(T value) {
   return value;
 }
 
 template <typename T, typename = internal::EnableIfIsOneOf<
                           T, int64_t, uint64_t, int32_t, uint32_t, int16_t, uint16_t,
-                          uint8_t, int8_t, float, double>>
+                          uint8_t, int8_t, float, double, bool>>
 static inline T ToLittleEndian(T value) {
   return ByteSwap(value);
 }
@@ -153,28 +153,28 @@ static inline T ToLittleEndian(T value) {
 #if ARROW_LITTLE_ENDIAN
 template <typename T, typename = internal::EnableIfIsOneOf<
                           T, int64_t, uint64_t, int32_t, uint32_t, int16_t, uint16_t,
-                          uint8_t, int8_t, float, double>>
+                          uint8_t, int8_t, float, double, bool>>
 static inline T FromBigEndian(T value) {
   return ByteSwap(value);
 }
 
 template <typename T, typename = internal::EnableIfIsOneOf<
                           T, int64_t, uint64_t, int32_t, uint32_t, int16_t, uint16_t,
-                          uint8_t, int8_t, float, double>>
+                          uint8_t, int8_t, float, double, bool>>
 static inline T FromLittleEndian(T value) {
   return value;
 }
 #else
 template <typename T, typename = internal::EnableIfIsOneOf<
                           T, int64_t, uint64_t, int32_t, uint32_t, int16_t, uint16_t,
-                          uint8_t, int8_t, float, double>>
+                          uint8_t, int8_t, float, double, bool>>
 static inline T FromBigEndian(T value) {
   return value;
 }
 
 template <typename T, typename = internal::EnableIfIsOneOf<
                           T, int64_t, uint64_t, int32_t, uint32_t, int16_t, uint16_t,
-                          uint8_t, int8_t, float, double>>
+                          uint8_t, int8_t, float, double, bool>>
 static inline T FromLittleEndian(T value) {
   return ByteSwap(value);
 }
diff --git a/cpp/src/arrow/util/formatting.h b/cpp/src/arrow/util/formatting.h
index 335aba8c5e3..66d81193516 100644
--- a/cpp/src/arrow/util/formatting.h
+++ b/cpp/src/arrow/util/formatting.h
@@ -25,6 +25,7 @@
 #include <limits>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <type_traits>
 #include <utility>
 
@@ -33,7 +34,7 @@
 #include "arrow/type_traits.h"
 #include "arrow/util/double_conversion.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/string_view.h"
+#include "arrow/util/string.h"
 #include "arrow/util/time.h"
 #include "arrow/util/visibility.h"
 #include "arrow/vendored/datetime.h"
@@ -60,7 +61,7 @@ template <typename T, typename R = void>
 using enable_if_formattable = enable_if_t<is_formattable<T>::value, R>;
 
 template <typename Appender>
-using Return = decltype(std::declval<Appender>()(util::string_view{}));
+using Return = decltype(std::declval<Appender>()(std::string_view{}));
 
 /////////////////////////////////////////////////////////////////////////
 // Boolean formatting
@@ -76,14 +77,46 @@ class StringFormatter<BooleanType> {
   Return<Appender> operator()(bool value, Appender&& append) {
     if (value) {
       const char string[] = "true";
-      return append(util::string_view(string));
+      return append(std::string_view(string));
     } else {
       const char string[] = "false";
-      return append(util::string_view(string));
+      return append(std::string_view(string));
     }
   }
 };
 
+/////////////////////////////////////////////////////////////////////////
+// Decimals formatting
+
+template <typename ARROW_TYPE>
+class DecimalToStringFormatterMixin {
+ public:
+  explicit DecimalToStringFormatterMixin(const DataType* type)
+      : scale_(static_cast<const ARROW_TYPE*>(type)->scale()) {}
+
+  using value_type = typename TypeTraits<ARROW_TYPE>::CType;
+
+  template <typename Appender>
+  Return<Appender> operator()(const value_type& value, Appender&& append) {
+    return append(value.ToString(scale_));
+  }
+
+ private:
+  int32_t scale_;
+};
+
+template <>
+class StringFormatter<Decimal128Type>
+    : public DecimalToStringFormatterMixin<Decimal128Type> {
+  using DecimalToStringFormatterMixin::DecimalToStringFormatterMixin;
+};
+
+template <>
+class StringFormatter<Decimal256Type>
+    : public DecimalToStringFormatterMixin<Decimal256Type> {
+  using DecimalToStringFormatterMixin::DecimalToStringFormatterMixin;
+};
+
 /////////////////////////////////////////////////////////////////////////
 // Integer formatting
 
@@ -135,8 +168,8 @@ void FormatAllDigitsLeftPadded(Int value, size_t pad, char pad_char, char** curs
 }
 
 template <size_t BUFFER_SIZE>
-util::string_view ViewDigitBuffer(const std::array<char, BUFFER_SIZE>& buffer,
-                                  char* cursor) {
+std::string_view ViewDigitBuffer(const std::array<char, BUFFER_SIZE>& buffer,
+                                 char* cursor) {
   auto buffer_end = buffer.data() + BUFFER_SIZE;
   return {cursor, static_cast<size_t>(buffer_end - cursor)};
 }
@@ -260,7 +293,7 @@ class FloatToStringFormatterMixin : public FloatToStringFormatter {
   Return<Appender> operator()(value_type value, Appender&& append) {
     char buffer[buffer_size];
     int size = FormatFloat(value, buffer, buffer_size);
-    return append(util::string_view(buffer, size));
+    return append(std::string_view(buffer, size));
   }
 };
 
@@ -359,7 +392,7 @@ bool IsTimeInRange(Unit duration) {
 template <typename RawValue, typename Appender>
 Return<Appender> FormatOutOfRange(RawValue&& raw_value, Appender&& append) {
   // XXX locale-sensitive but good enough for now
-  std::string formatted = "<value out of range: " + std::to_string(raw_value) + ">";
+  std::string formatted = "<value out of range: " + ToChars(raw_value) + ">";
   return append(std::move(formatted));
 }
 
diff --git a/cpp/src/arrow/util/formatting_util_test.cc b/cpp/src/arrow/util/formatting_util_test.cc
index a5760859990..9afbc91063a 100644
--- a/cpp/src/arrow/util/formatting_util_test.cc
+++ b/cpp/src/arrow/util/formatting_util_test.cc
@@ -25,6 +25,7 @@
 #include "arrow/status.h"
 #include "arrow/testing/gtest_util.h"
 #include "arrow/type.h"
+#include "arrow/util/decimal.h"
 #include "arrow/util/formatting.h"
 
 namespace arrow {
@@ -33,7 +34,7 @@ using internal::StringFormatter;
 
 class StringAppender {
  public:
-  Status operator()(util::string_view v) {
+  Status operator()(std::string_view v) {
     string_.append(v.data(), v.size());
     return Status::OK();
   }
@@ -279,6 +280,94 @@ TEST(Formatting, Double) {
   AssertFormatting(formatter, -HUGE_VAL, "-inf");
 }
 
+template <typename T>
+void TestDecimalFormatter() {
+  struct TestParam {
+    int64_t test_value;
+    int32_t scale;
+    std::string expected_string;
+  };
+
+  // Borrow from Decimal::ToString test
+  const auto decimalTestData = std::vector<TestParam>{
+      {0, -1, "0.E+1"},
+      {0, 0, "0"},
+      {0, 1, "0.0"},
+      {0, 6, "0.000000"},
+      {2, 7, "2.E-7"},
+      {2, -1, "2.E+1"},
+      {2, 0, "2"},
+      {2, 1, "0.2"},
+      {2, 6, "0.000002"},
+      {-2, 7, "-2.E-7"},
+      {-2, 7, "-2.E-7"},
+      {-2, -1, "-2.E+1"},
+      {-2, 0, "-2"},
+      {-2, 1, "-0.2"},
+      {-2, 6, "-0.000002"},
+      {-2, 7, "-2.E-7"},
+      {123, -3, "1.23E+5"},
+      {123, -1, "1.23E+3"},
+      {123, 1, "12.3"},
+      {123, 0, "123"},
+      {123, 5, "0.00123"},
+      {123, 8, "0.00000123"},
+      {123, 9, "1.23E-7"},
+      {123, 10, "1.23E-8"},
+      {-123, -3, "-1.23E+5"},
+      {-123, -1, "-1.23E+3"},
+      {-123, 1, "-12.3"},
+      {-123, 0, "-123"},
+      {-123, 5, "-0.00123"},
+      {-123, 8, "-0.00000123"},
+      {-123, 9, "-1.23E-7"},
+      {-123, 10, "-1.23E-8"},
+      {1000000000, -3, "1.000000000E+12"},
+      {1000000000, -1, "1.000000000E+10"},
+      {1000000000, 0, "1000000000"},
+      {1000000000, 1, "100000000.0"},
+      {1000000000, 5, "10000.00000"},
+      {1000000000, 15, "0.000001000000000"},
+      {1000000000, 16, "1.000000000E-7"},
+      {1000000000, 17, "1.000000000E-8"},
+      {-1000000000, -3, "-1.000000000E+12"},
+      {-1000000000, -1, "-1.000000000E+10"},
+      {-1000000000, 0, "-1000000000"},
+      {-1000000000, 1, "-100000000.0"},
+      {-1000000000, 5, "-10000.00000"},
+      {-1000000000, 15, "-0.000001000000000"},
+      {-1000000000, 16, "-1.000000000E-7"},
+      {-1000000000, 17, "-1.000000000E-8"},
+      {1234567890123456789LL, -3, "1.234567890123456789E+21"},
+      {1234567890123456789LL, -1, "1.234567890123456789E+19"},
+      {1234567890123456789LL, 0, "1234567890123456789"},
+      {1234567890123456789LL, 1, "123456789012345678.9"},
+      {1234567890123456789LL, 5, "12345678901234.56789"},
+      {1234567890123456789LL, 24, "0.000001234567890123456789"},
+      {1234567890123456789LL, 25, "1.234567890123456789E-7"},
+      {-1234567890123456789LL, -3, "-1.234567890123456789E+21"},
+      {-1234567890123456789LL, -1, "-1.234567890123456789E+19"},
+      {-1234567890123456789LL, 0, "-1234567890123456789"},
+      {-1234567890123456789LL, 1, "-123456789012345678.9"},
+      {-1234567890123456789LL, 5, "-12345678901234.56789"},
+      {-1234567890123456789LL, 24, "-0.000001234567890123456789"},
+      {-1234567890123456789LL, 25, "-1.234567890123456789E-7"},
+  };
+
+  for (const auto& data : decimalTestData) {
+    const auto type = T(T::kMaxPrecision, data.scale);
+    StringFormatter<T> formatter(&type);
+    using value_type = typename TypeTraits<T>::CType;
+
+    AssertFormatting(formatter, value_type(data.test_value), data.expected_string);
+  }
+}
+
+TEST(Formatting, Decimals) {
+  TestDecimalFormatter<Decimal128Type>();
+  TestDecimalFormatter<Decimal256Type>();
+}
+
 TEST(Formatting, Date32) {
   StringFormatter<Date32Type> formatter;
 
diff --git a/cpp/src/arrow/util/future.cc b/cpp/src/arrow/util/future.cc
index 14e8b6eaa39..c430ad1fc73 100644
--- a/cpp/src/arrow/util/future.cc
+++ b/cpp/src/arrow/util/future.cc
@@ -50,17 +50,12 @@ class ConcreteFutureImpl : public FutureImpl {
     CheckOptions(opts);
     std::unique_lock<std::mutex> lock(mutex_);
 #ifdef ARROW_WITH_OPENTELEMETRY
-    struct SpanWrapper {
-      void operator()(const FutureImpl& impl) {
-        auto scope = ::arrow::internal::tracing::GetTracer()->WithActiveSpan(active_span);
-        std::move(func)(impl);
-      }
-      Callback func;
-      opentelemetry::nostd::shared_ptr<opentelemetry::trace::Span> active_span;
+    callback = [func = std::move(callback),
+                active_span = ::arrow::internal::tracing::GetTracer()->GetCurrentSpan()](
+                   const FutureImpl& impl) mutable {
+      auto scope = ::arrow::internal::tracing::GetTracer()->WithActiveSpan(active_span);
+      std::move(func)(impl);
     };
-    SpanWrapper wrapper{std::move(callback),
-                        ::arrow::internal::tracing::GetTracer()->GetCurrentSpan()};
-    callback = std::move(wrapper);
 #endif
     CallbackRecord callback_record{std::move(callback), opts};
     if (IsFutureFinished(state_)) {
@@ -105,14 +100,10 @@ class ConcreteFutureImpl : public FutureImpl {
                                     CallbackRecord&& callback_record,
                                     bool in_add_callback) {
     if (ShouldScheduleCallback(callback_record, in_add_callback)) {
-      struct CallbackTask {
-        void operator()() { std::move(callback)(*self); }
-
-        Callback callback;
-        std::shared_ptr<FutureImpl> self;
-      };
       // Need to keep `this` alive until the callback has a chance to be scheduled.
-      CallbackTask task{std::move(callback_record.callback), self};
+      auto task = [self, callback = std::move(callback_record.callback)]() mutable {
+        return std::move(callback)(*self);
+      };
       DCHECK_OK(callback_record.options.executor->Spawn(std::move(task)));
     } else {
       std::move(callback_record.callback)(*self);
@@ -184,7 +175,7 @@ ConcreteFutureImpl* GetConcreteFuture(FutureImpl* future) {
 }  // namespace
 
 std::unique_ptr<FutureImpl> FutureImpl::Make() {
-  return std::unique_ptr<FutureImpl>(new ConcreteFutureImpl());
+  return std::make_unique<ConcreteFutureImpl>();
 }
 
 std::unique_ptr<FutureImpl> FutureImpl::MakeFinished(FutureState state) {
diff --git a/cpp/src/arrow/util/future.h b/cpp/src/arrow/util/future.h
index 3be4e334b14..17c641c31c5 100644
--- a/cpp/src/arrow/util/future.h
+++ b/cpp/src/arrow/util/future.h
@@ -21,6 +21,7 @@
 #include <cmath>
 #include <functional>
 #include <memory>
+#include <optional>
 #include <type_traits>
 #include <utility>
 #include <vector>
@@ -32,7 +33,6 @@
 #include "arrow/util/config.h"
 #include "arrow/util/functional.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/tracing.h"
 #include "arrow/util/type_fwd.h"
 #include "arrow/util/visibility.h"
@@ -315,7 +315,7 @@ class ARROW_EXPORT FutureImpl : public std::enable_shared_from_this<FutureImpl>
 /// The consumer API allows querying a Future's current state, wait for it
 /// to complete, and composing futures with callbacks.
 template <typename T>
-class ARROW_MUST_USE_TYPE Future {
+class [[nodiscard]] Future {
  public:
   using ValueType = T;
   using SyncType = typename detail::SyncType<T>::type;
@@ -509,7 +509,7 @@ class ARROW_MUST_USE_TYPE Future {
   template <typename CallbackFactory,
             typename OnComplete = detail::result_of_t<CallbackFactory()>,
             typename Callback = WrapOnComplete<OnComplete>>
-  bool TryAddCallback(const CallbackFactory& callback_factory,
+  bool TryAddCallback(CallbackFactory callback_factory,
                       CallbackOptions opts = CallbackOptions::Defaults()) const {
     return impl_->TryAddCallback([&]() { return Callback{callback_factory()}; }, opts);
   }
@@ -781,18 +781,18 @@ Future<> AllFinished(const std::vector<Future<>>& futures);
 
 struct Continue {
   template <typename T>
-  operator util::optional<T>() && {  // NOLINT explicit
+  operator std::optional<T>() && {  // NOLINT explicit
     return {};
   }
 };
 
 template <typename T = internal::Empty>
-util::optional<T> Break(T break_value = {}) {
-  return util::optional<T>{std::move(break_value)};
+std::optional<T> Break(T break_value = {}) {
+  return std::optional<T>{std::move(break_value)};
 }
 
 template <typename T = internal::Empty>
-using ControlFlow = util::optional<T>;
+using ControlFlow = std::optional<T>;
 
 /// \brief Loop through an asynchronous sequence
 ///
diff --git a/cpp/src/arrow/util/future_test.cc b/cpp/src/arrow/util/future_test.cc
index 41b470c6431..689b7c3df62 100644
--- a/cpp/src/arrow/util/future_test.cc
+++ b/cpp/src/arrow/util/future_test.cc
@@ -38,7 +38,6 @@
 #include "arrow/testing/gtest_util.h"
 #include "arrow/testing/matchers.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/thread_pool.h"
 
 namespace arrow {
@@ -129,7 +128,8 @@ class SimpleExecutor {
 
   void SetFinishedDeferred(std::vector<std::pair<int, bool>> pairs) {
     std::this_thread::sleep_for(kYieldDuration);
-    ABORT_NOT_OK(pool_->Spawn([=]() { SetFinished(pairs); }));
+    ABORT_NOT_OK(
+        pool_->Spawn([this, pairs = std::move(pairs)]() { SetFinished(pairs); }));
   }
 
   // Mark future successful
@@ -137,7 +137,7 @@ class SimpleExecutor {
 
   void SetFinishedDeferred(int fut_index) {
     std::this_thread::sleep_for(kYieldDuration);
-    ABORT_NOT_OK(pool_->Spawn([=]() { SetFinished(fut_index); }));
+    ABORT_NOT_OK(pool_->Spawn([this, fut_index]() { SetFinished(fut_index); }));
   }
 
   // Mark all futures in [start, stop) successful
@@ -149,7 +149,7 @@ class SimpleExecutor {
 
   void SetFinishedDeferred(int start, int stop) {
     std::this_thread::sleep_for(kYieldDuration);
-    ABORT_NOT_OK(pool_->Spawn([=]() { SetFinished(start, stop); }));
+    ABORT_NOT_OK(pool_->Spawn([this, start, stop]() { SetFinished(start, stop); }));
   }
 
  protected:
@@ -530,8 +530,7 @@ TEST(FutureStressTest, DeleteAfterWait) {
   constexpr int kNumTasks = 100;
   for (int i = 0; i < kNumTasks; i++) {
     {
-      std::unique_ptr<Future<>> future =
-          internal::make_unique<Future<>>(Future<>::Make());
+      auto future = std::make_unique<Future<>>(Future<>::Make());
       std::thread t([&]() {
         SleepABit();
         future->MarkFinished();
diff --git a/cpp/src/arrow/util/hashing.h b/cpp/src/arrow/util/hashing.h
index ca5a6c766bd..ceaac391b7f 100644
--- a/cpp/src/arrow/util/hashing.h
+++ b/cpp/src/arrow/util/hashing.h
@@ -103,11 +103,11 @@ struct ScalarHelper<Scalar, AlgNum, enable_if_t<std::is_integral<Scalar>::value>
 
 template <typename Scalar, uint64_t AlgNum>
 struct ScalarHelper<Scalar, AlgNum,
-                    enable_if_t<std::is_same<util::string_view, Scalar>::value>>
+                    enable_if_t<std::is_same<std::string_view, Scalar>::value>>
     : public ScalarHelperBase<Scalar, AlgNum> {
-  // ScalarHelper specialization for util::string_view
+  // ScalarHelper specialization for std::string_view
 
-  static hash_t ComputeHash(const util::string_view& value) {
+  static hash_t ComputeHash(const std::string_view& value) {
     return ComputeStringHash<AlgNum>(value.data(), static_cast<int64_t>(value.size()));
   }
 };
@@ -641,7 +641,7 @@ class BinaryMemoTable : public MemoTable {
     }
   }
 
-  int32_t Get(const util::string_view& value) const {
+  int32_t Get(const std::string_view& value) const {
     return Get(value.data(), static_cast<builder_offset_type>(value.length()));
   }
 
@@ -669,7 +669,7 @@ class BinaryMemoTable : public MemoTable {
   }
 
   template <typename Func1, typename Func2>
-  Status GetOrInsert(const util::string_view& value, Func1&& on_found,
+  Status GetOrInsert(const std::string_view& value, Func1&& on_found,
                      Func2&& on_not_found, int32_t* out_memo_index) {
     return GetOrInsert(value.data(), static_cast<builder_offset_type>(value.length()),
                        std::forward<Func1>(on_found), std::forward<Func2>(on_not_found),
@@ -682,7 +682,7 @@ class BinaryMemoTable : public MemoTable {
         data, length, [](int32_t i) {}, [](int32_t i) {}, out_memo_index);
   }
 
-  Status GetOrInsert(const util::string_view& value, int32_t* out_memo_index) {
+  Status GetOrInsert(const std::string_view& value, int32_t* out_memo_index) {
     return GetOrInsert(value.data(), static_cast<builder_offset_type>(value.length()),
                        out_memo_index);
   }
@@ -817,8 +817,8 @@ class BinaryMemoTable : public MemoTable {
   }
 
   // Visit the stored values in insertion order.
-  // The visitor function should have the signature `void(util::string_view)`
-  // or `void(const util::string_view&)`.
+  // The visitor function should have the signature `void(std::string_view)`
+  // or `void(const std::string_view&)`.
   template <typename VisitFunc>
   void VisitValues(int32_t start, VisitFunc&& visit) const {
     for (int32_t i = start; i < size(); ++i) {
@@ -840,9 +840,9 @@ class BinaryMemoTable : public MemoTable {
 
   std::pair<const HashTableEntry*, bool> Lookup(hash_t h, const void* data,
                                                 builder_offset_type length) const {
-    auto cmp_func = [=](const Payload* payload) {
-      util::string_view lhs = binary_builder_.GetView(payload->memo_index);
-      util::string_view rhs(static_cast<const char*>(data), length);
+    auto cmp_func = [&](const Payload* payload) {
+      std::string_view lhs = binary_builder_.GetView(payload->memo_index);
+      std::string_view rhs(static_cast<const char*>(data), length);
       return lhs == rhs;
     };
     return hash_table_.Lookup(h, cmp_func);
@@ -850,7 +850,7 @@ class BinaryMemoTable : public MemoTable {
 
  public:
   Status MergeTable(const BinaryMemoTable& other_table) {
-    other_table.VisitValues(0, [this](const util::string_view& other_value) {
+    other_table.VisitValues(0, [this](const std::string_view& other_value) {
       int32_t unused;
       DCHECK_OK(this->GetOrInsert(other_value, &unused));
     });
@@ -918,7 +918,7 @@ struct StringViewHash {
   // std::hash compatible hasher for use with std::unordered_*
   // (the std::hash specialization provided by nonstd constructs std::string
   // temporaries then invokes std::hash<std::string> against those)
-  hash_t operator()(const util::string_view& value) const {
+  hash_t operator()(const std::string_view& value) const {
     return ComputeStringHash<0>(value.data(), static_cast<int64_t>(value.size()));
   }
 };
diff --git a/cpp/src/arrow/util/hashing_test.cc b/cpp/src/arrow/util/hashing_test.cc
index 116e305e59e..6589f098afd 100644
--- a/cpp/src/arrow/util/hashing_test.cc
+++ b/cpp/src/arrow/util/hashing_test.cc
@@ -440,7 +440,7 @@ TEST(BinaryMemoTable, Basics) {
   {
     const int32_t start_offset = 1;
     std::vector<std::string> actual;
-    table.VisitValues(start_offset, [&](const util::string_view& v) {
+    table.VisitValues(start_offset, [&](const std::string_view& v) {
       actual.emplace_back(v.data(), v.length());
     });
     EXPECT_THAT(actual, testing::ElementsAre(B, C, D, E, F, ""));
diff --git a/cpp/src/arrow/util/int_util.cc b/cpp/src/arrow/util/int_util.cc
index 1a48c7a3ec8..b45f6795319 100644
--- a/cpp/src/arrow/util/int_util.cc
+++ b/cpp/src/arrow/util/int_util.cc
@@ -31,6 +31,7 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/macros.h"
+#include "arrow/util/string.h"
 #include "arrow/util/ubsan.h"
 #include "arrow/visit_type_inline.h"
 
@@ -436,8 +437,8 @@ void TransposeInts(const InputInt* src, OutputInt* dest, int64_t length,
   }
 }
 
-#define INSTANTIATE(SRC, DEST)              \
-  template ARROW_EXPORT void TransposeInts( \
+#define INSTANTIATE(SRC, DEST)                       \
+  template ARROW_TEMPLATE_EXPORT void TransposeInts( \
       const SRC* source, DEST* dest, int64_t length, const int32_t* transpose_map);
 
 #define INSTANTIATE_ALL_DEST(DEST) \
@@ -525,11 +526,6 @@ Status TransposeInts(const DataType& src_type, const DataType& dest_type,
   return transposer(src_type);
 }
 
-template <typename T>
-static std::string FormatInt(T val) {
-  return std::to_string(val);
-}
-
 template <typename IndexCType, bool IsSigned = std::is_signed<IndexCType>::value>
 static Status CheckIndexBoundsImpl(const ArraySpan& values, uint64_t upper_limit) {
   // For unsigned integers, if the values array is larger than the maximum
@@ -555,7 +551,7 @@ static Status CheckIndexBoundsImpl(const ArraySpan& values, uint64_t upper_limit
         if (ARROW_PREDICT_FALSE(block_out_of_bounds)) {
           for (int64_t i = 0; i < length; ++i) {
             if (IsOutOfBounds(values_data[offset + i])) {
-              return Status::IndexError("Index ", FormatInt(values_data[offset + i]),
+              return Status::IndexError("Index ", ToChars(values_data[offset + i]),
                                         " out of bounds");
             }
           }
@@ -609,9 +605,9 @@ Status IntegersInRange(const ArraySpan& values, CType bound_lower, CType bound_u
     return is_valid && (val < bound_lower || val > bound_upper);
   };
   auto GetErrorMessage = [&](CType val) {
-    return Status::Invalid("Integer value ", FormatInt(val),
-                           " not in range: ", FormatInt(bound_lower), " to ",
-                           FormatInt(bound_upper));
+    return Status::Invalid("Integer value ", ToChars(val),
+                           " not in range: ", ToChars(bound_lower), " to ",
+                           ToChars(bound_upper));
   };
 
   const CType* values_data = values.GetValues<CType>(1);
diff --git a/cpp/src/arrow/util/int_util_test.cc b/cpp/src/arrow/util/int_util_test.cc
index 1a5fa472619..7217c1097e4 100644
--- a/cpp/src/arrow/util/int_util_test.cc
+++ b/cpp/src/arrow/util/int_util_test.cc
@@ -17,6 +17,7 @@
 
 #include <algorithm>
 #include <cstdint>
+#include <limits>
 #include <random>
 #include <string>
 #include <utility>
@@ -594,5 +595,59 @@ TEST(CheckIntegersInRange, UnsignedInts) {
   CheckInRangeFails(uint64(), "[0, 10000000000, 10000000000]", "[0, 9999999999]");
 }
 
+template <typename T>
+class TestAddWithOverflow : public ::testing::Test {
+ public:
+  void CheckOk(T a, T b, T expected_result = {}) {
+    ARROW_SCOPED_TRACE("a = ", a, ", b = ", b);
+    T result;
+    ASSERT_FALSE(AddWithOverflow(a, b, &result));
+    ASSERT_EQ(result, expected_result);
+  }
+
+  void CheckOverflow(T a, T b) {
+    ARROW_SCOPED_TRACE("a = ", a, ", b = ", b);
+    T result;
+    ASSERT_TRUE(AddWithOverflow(a, b, &result));
+  }
+};
+
+using SignedIntegerTypes = ::testing::Types<int8_t, int16_t, int32_t, int64_t>;
+
+TYPED_TEST_SUITE(TestAddWithOverflow, SignedIntegerTypes);
+
+TYPED_TEST(TestAddWithOverflow, Basics) {
+  using T = TypeParam;
+
+  const T almost_max = std::numeric_limits<T>::max() - T{2};
+  const T almost_min = std::numeric_limits<T>::min() + T{2};
+
+  this->CheckOk(T{1}, T{2}, T{3});
+  this->CheckOk(T{-1}, T{2}, T{1});
+  this->CheckOk(T{-1}, T{-2}, T{-3});
+
+  this->CheckOk(almost_min, T{0}, almost_min);
+  this->CheckOk(almost_min, T{-2}, almost_min - T{2});
+  this->CheckOk(almost_min, T{1}, almost_min + T{1});
+  this->CheckOverflow(almost_min, T{-3});
+  this->CheckOverflow(almost_min, almost_min);
+
+  this->CheckOk(almost_max, T{0}, almost_max);
+  this->CheckOk(almost_max, T{2}, almost_max + T{2});
+  this->CheckOk(almost_max, T{-1}, almost_max - T{1});
+  this->CheckOverflow(almost_max, T{3});
+  this->CheckOverflow(almost_max, almost_max);
+
+  // In 2's complement, almost_min == - almost_max - 1
+  this->CheckOk(almost_min, almost_max, T{-1});
+  this->CheckOk(almost_max, almost_min, T{-1});
+  this->CheckOk(almost_min - T{1}, almost_max, T{-2});
+  this->CheckOk(almost_min + T{1}, almost_max, T{0});
+  this->CheckOk(almost_min + T{2}, almost_max, T{1});
+  this->CheckOk(almost_min, almost_max - T{1}, T{-2});
+  this->CheckOk(almost_min, almost_max + T{1}, T{0});
+  this->CheckOk(almost_min, almost_max + T{2}, T{1});
+}
+
 }  // namespace internal
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/io_util.cc b/cpp/src/arrow/util/io_util.cc
index 11ae80d03e2..742865424d1 100644
--- a/cpp/src/arrow/util/io_util.cc
+++ b/cpp/src/arrow/util/io_util.cc
@@ -92,9 +92,11 @@
 
 #include "arrow/buffer.h"
 #include "arrow/result.h"
+#include "arrow/util/atfork_internal.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"
+#include "arrow/util/mutex.h"
 
 // For filename conversion
 #if defined(_WIN32)
@@ -106,8 +108,10 @@
 
 #elif __APPLE__
 #include <mach/mach.h>
+#include <sys/sysctl.h>
 
 #elif __linux__
+#include <sys/sysinfo.h>
 #include <fstream>
 #endif
 
@@ -1076,24 +1080,15 @@ Result<FileDescriptor> FileOpenWritable(const PlatformFilename& file_name,
   FileDescriptor fd;
 
 #if defined(_WIN32)
-  int oflag = _O_CREAT | _O_BINARY | _O_NOINHERIT;
   DWORD desired_access = GENERIC_WRITE;
   DWORD share_mode = FILE_SHARE_READ | FILE_SHARE_WRITE;
   DWORD creation_disposition = OPEN_ALWAYS;
 
-  if (append) {
-    oflag |= _O_APPEND;
-  }
-
   if (truncate) {
-    oflag |= _O_TRUNC;
     creation_disposition = CREATE_ALWAYS;
   }
 
-  if (write_only) {
-    oflag |= _O_WRONLY;
-  } else {
-    oflag |= _O_RDWR;
+  if (!write_only) {
     desired_access |= GENERIC_READ;
   }
 
@@ -1157,19 +1152,44 @@ Result<int64_t> FileTell(int fd) {
 }
 
 Result<Pipe> CreatePipe() {
-  int ret;
+  bool ok;
   int fds[2];
+  Pipe pipe;
 
 #if defined(_WIN32)
-  ret = _pipe(fds, 4096, _O_BINARY);
+  ok = _pipe(fds, 4096, _O_BINARY) >= 0;
+  if (ok) {
+    pipe = {FileDescriptor(fds[0]), FileDescriptor(fds[1])};
+  }
+#elif defined(__linux__) && defined(__GLIBC__)
+  // On Unix, we don't want the file descriptors to survive after an exec() call
+  ok = pipe2(fds, O_CLOEXEC) >= 0;
+  if (ok) {
+    pipe = {FileDescriptor(fds[0]), FileDescriptor(fds[1])};
+  }
 #else
-  ret = ::pipe(fds);
+  auto set_cloexec = [](int fd) -> bool {
+    int flags = fcntl(fd, F_GETFD);
+    if (flags >= 0) {
+      flags = fcntl(fd, F_SETFD, flags | FD_CLOEXEC);
+    }
+    return flags >= 0;
+  };
+
+  ok = ::pipe(fds) >= 0;
+  if (ok) {
+    pipe = {FileDescriptor(fds[0]), FileDescriptor(fds[1])};
+    ok &= set_cloexec(fds[0]);
+    if (ok) {
+      ok &= set_cloexec(fds[1]);
+    }
+  }
 #endif
-  if (ret == -1) {
+  if (!ok) {
     return IOErrorFromErrno(errno, "Error creating pipe");
   }
 
-  return Pipe{FileDescriptor(fds[0]), FileDescriptor(fds[1])};
+  return pipe;
 }
 
 Status SetPipeFileDescriptorNonBlocking(int fd) {
@@ -1198,7 +1218,7 @@ namespace {
 #define PIPE_READ read
 #endif
 
-class SelfPipeImpl : public SelfPipe {
+class SelfPipeImpl : public SelfPipe, public std::enable_shared_from_this<SelfPipeImpl> {
   static constexpr uint64_t kEofPayload = 5804561806345822987ULL;
 
  public:
@@ -1213,6 +1233,28 @@ class SelfPipeImpl : public SelfPipe {
       // We cannot afford blocking writes in a signal handler
       RETURN_NOT_OK(SetPipeFileDescriptorNonBlocking(pipe_.wfd.fd()));
     }
+
+    atfork_handler_ = std::make_shared<AtForkHandler>(
+        /*before=*/
+        [weak_self = std::weak_ptr<SelfPipeImpl>(shared_from_this())] {
+          auto self = weak_self.lock();
+          if (self) {
+            self->BeforeFork();
+          }
+          return self;
+        },
+        /*parent_after=*/
+        [](std::any token) {
+          auto self = std::any_cast<std::shared_ptr<SelfPipeImpl>>(std::move(token));
+          self->ParentAfterFork();
+        },
+        /*child_after=*/
+        [](std::any token) {
+          auto self = std::any_cast<std::shared_ptr<SelfPipeImpl>>(std::move(token));
+          self->ChildAfterFork();
+        });
+    RegisterAtFork(atfork_handler_);
+
     return Status::OK();
   }
 
@@ -1272,6 +1314,19 @@ class SelfPipeImpl : public SelfPipe {
   ~SelfPipeImpl() { ARROW_WARN_NOT_OK(Shutdown(), "On self-pipe destruction"); }
 
  protected:
+  void BeforeFork() {}
+
+  void ParentAfterFork() {}
+
+  void ChildAfterFork() {
+    // Close and recreate pipe, to avoid interfering with parent.
+    const bool was_closed = pipe_.rfd.closed() || pipe_.wfd.closed();
+    ARROW_CHECK_OK(pipe_.Close());
+    if (!was_closed) {
+      ARROW_CHECK_OK(CreatePipe().Value(&pipe_));
+    }
+  }
+
   Status ClosedPipe() const { return Status::Invalid("Self-pipe closed"); }
 
   bool DoSend(uint64_t payload) {
@@ -1303,6 +1358,8 @@ class SelfPipeImpl : public SelfPipe {
   const bool signal_safe_;
   Pipe pipe_;
   std::atomic<bool> please_shutdown_{false};
+
+  std::shared_ptr<AtForkHandler> atfork_handler_;
 };
 
 #undef PIPE_WRITE
@@ -1542,7 +1599,7 @@ static inline int64_t pread_compat(int fd, void* buf, int64_t nbytes, int64_t po
 #if defined(_WIN32)
   HANDLE handle = reinterpret_cast<HANDLE>(_get_osfhandle(fd));
   DWORD dwBytesRead = 0;
-  OVERLAPPED overlapped = {0};
+  OVERLAPPED overlapped = {};
   overlapped.Offset = static_cast<uint32_t>(pos);
   overlapped.OffsetHigh = static_cast<uint32_t>(pos >> 32);
 
@@ -1867,7 +1924,9 @@ Result<std::unique_ptr<TemporaryDir>> TemporaryDir::Make(const std::string& pref
       [&](const NativePathString& base_dir) -> Result<std::unique_ptr<TemporaryDir>> {
     Status st;
     for (int attempt = 0; attempt < 3; ++attempt) {
-      PlatformFilename fn(base_dir + kNativeSep + base_name + kNativeSep);
+      PlatformFilename fn_base_dir(base_dir);
+      PlatformFilename fn_base_name(base_name + kNativeSep);
+      PlatformFilename fn = fn_base_dir.Join(fn_base_name);
       auto result = CreateDir(fn);
       if (!result.ok()) {
         // Probably a permissions error or a non-existing base_dir
@@ -2107,5 +2166,34 @@ int64_t GetCurrentRSS() {
 #endif
 }
 
+int64_t GetTotalMemoryBytes() {
+#if defined(_WIN32)
+  ULONGLONG result_kb;
+  if (!GetPhysicallyInstalledSystemMemory(&result_kb)) {
+    ARROW_LOG(WARNING) << "Failed to resolve total RAM size: "
+                       << std::strerror(GetLastError());
+    return -1;
+  }
+  return static_cast<int64_t>(result_kb * 1024);
+#elif defined(__APPLE__)
+  int64_t result;
+  size_t size = sizeof(result);
+  if (sysctlbyname("hw.memsize", &result, &size, nullptr, 0) == -1) {
+    ARROW_LOG(WARNING) << "Failed to resolve total RAM size";
+    return -1;
+  }
+  return result;
+#elif defined(__linux__)
+  struct sysinfo info;
+  if (sysinfo(&info) == -1) {
+    ARROW_LOG(WARNING) << "Failed to resolve total RAM size: " << std::strerror(errno);
+    return -1;
+  }
+  return static_cast<int64_t>(info.totalram * info.mem_unit);
+#else
+  return 0;
+#endif
+}
+
 }  // namespace internal
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/io_util.h b/cpp/src/arrow/util/io_util.h
index df63de47e83..43d85ec24e2 100644
--- a/cpp/src/arrow/util/io_util.h
+++ b/cpp/src/arrow/util/io_util.h
@@ -410,5 +410,11 @@ uint64_t GetThreadId();
 ARROW_EXPORT
 int64_t GetCurrentRSS();
 
+/// \brief Get the total memory available to the system in bytes
+///
+/// This function supports Windows, Linux, and Mac and will return 0 otherwise
+ARROW_EXPORT
+int64_t GetTotalMemoryBytes();
+
 }  // namespace internal
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/io_util_test.cc b/cpp/src/arrow/util/io_util_test.cc
index 57c75fff3c7..2599c92d821 100644
--- a/cpp/src/arrow/util/io_util_test.cc
+++ b/cpp/src/arrow/util/io_util_test.cc
@@ -21,6 +21,7 @@
 #include <cerrno>
 #include <limits>
 #include <mutex>
+#include <optional>
 #include <sstream>
 #include <thread>
 #include <vector>
@@ -29,6 +30,7 @@
 
 #ifndef _WIN32
 #include <pthread.h>
+#include <sys/types.h>
 #include <unistd.h>
 #endif
 
@@ -41,7 +43,6 @@
 #include "arrow/util/cpu_info.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/windows_compatibility.h"
 #include "arrow/util/windows_fixup.h"
 
@@ -446,6 +447,36 @@ TEST_F(TestSelfPipe, SendFromSignalAndWait) {
   ASSERT_OK(ReadStatus());
 }
 
+#if !(defined(_WIN32) || defined(ARROW_VALGRIND) || defined(ADDRESS_SANITIZER) || \
+      defined(THREAD_SANITIZER))
+TEST_F(TestSelfPipe, ForkSafety) {
+  self_pipe_->Send(123456789123456789ULL);
+
+  auto child_pid = fork();
+  if (child_pid == 0) {
+    // Child: pipe is reinitialized and usable without interfering with parent
+    self_pipe_->Send(41ULL);
+    StartReading();
+    SleepABit();
+    self_pipe_->Send(42ULL);
+    AssertPayloadsEventually({41ULL, 42ULL});
+
+    self_pipe_.reset();
+    std::exit(0);
+  } else {
+    // Parent: pipe is usable concurrently with child, data is read correctly
+    StartReading();
+    SleepABit();
+    self_pipe_->Send(987654321987654321ULL);
+
+    AssertPayloadsEventually({123456789123456789ULL, 987654321987654321ULL});
+    ASSERT_OK(ReadStatus());
+
+    AssertChildExit(child_pid);
+  }
+}
+#endif
+
 TEST(PlatformFilename, RoundtripAscii) {
   PlatformFilename fn;
   ASSERT_OK_AND_ASSIGN(fn, PlatformFilename::FromString("a/b"));
@@ -1049,5 +1080,17 @@ TEST(CpuInfo, Basic) {
   ASSERT_EQ(ci->hardware_flags(), original_hardware_flags);
 }
 
+TEST(Memory, TotalMemory) {
+#if defined(_WIN32)
+  ASSERT_GT(GetTotalMemoryBytes(), 0);
+#elif defined(__APPLE__)
+  ASSERT_GT(GetTotalMemoryBytes(), 0);
+#elif defined(__linux__)
+  ASSERT_GT(GetTotalMemoryBytes(), 0);
+#else
+  ASSERT_EQ(GetTotalMemoryBytes(), 0);
+#endif
+}
+
 }  // namespace internal
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/iterator.h b/cpp/src/arrow/util/iterator.h
index 2f42803d26f..0eae7f6a857 100644
--- a/cpp/src/arrow/util/iterator.h
+++ b/cpp/src/arrow/util/iterator.h
@@ -20,6 +20,7 @@
 #include <cassert>
 #include <functional>
 #include <memory>
+#include <optional>
 #include <tuple>
 #include <type_traits>
 #include <utility>
@@ -30,7 +31,6 @@
 #include "arrow/util/compare.h"
 #include "arrow/util/functional.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -66,16 +66,16 @@ bool IsIterationEnd(const T& val) {
 }
 
 template <typename T>
-struct IterationTraits<util::optional<T>> {
+struct IterationTraits<std::optional<T>> {
   /// \brief by default when iterating through a sequence of optional,
   /// nullopt indicates the end of iteration.
   /// Specialize IterationTraits if different end semantics are required.
-  static util::optional<T> End() { return util::nullopt; }
+  static std::optional<T> End() { return std::nullopt; }
 
   /// \brief by default when iterating through a sequence of optional,
   /// nullopt (!has_value()) indicates the end of iteration.
   /// Specialize IterationTraits if different end semantics are required.
-  static bool IsEnd(const util::optional<T>& val) { return !val.has_value(); }
+  static bool IsEnd(const std::optional<T>& val) { return !val.has_value(); }
 
   // TODO(bkietz) The range-for loop over Iterator<optional<T>> yields
   // Result<optional<T>> which is unnecessary (since only the unyielded end optional
@@ -227,7 +227,7 @@ struct TransformFlow {
 
   bool finished_ = false;
   bool ready_for_next_ = false;
-  util::optional<YieldValueType> yield_value_;
+  std::optional<YieldValueType> yield_value_;
 };
 
 struct TransformFinish {
@@ -263,7 +263,7 @@ class TransformIterator {
 
   Result<V> Next() {
     while (!finished_) {
-      ARROW_ASSIGN_OR_RAISE(util::optional<V> next, Pump());
+      ARROW_ASSIGN_OR_RAISE(std::optional<V> next, Pump());
       if (next.has_value()) {
         return std::move(*next);
       }
@@ -278,7 +278,7 @@ class TransformIterator {
   // * If an invalid status is encountered that will be returned
   // * If finished it will return IterationTraits<V>::End()
   // * If a value is returned by the transformer that will be returned
-  Result<util::optional<V>> Pump() {
+  Result<std::optional<V>> Pump() {
     if (!finished_ && last_value_.has_value()) {
       auto next_res = transformer_(*last_value_);
       if (!next_res.ok()) {
@@ -302,12 +302,12 @@ class TransformIterator {
     if (finished_) {
       return IterationTraits<V>::End();
     }
-    return util::nullopt;
+    return std::nullopt;
   }
 
   Iterator<T> it_;
   Transformer<T, V> transformer_;
-  util::optional<T> last_value_;
+  std::optional<T> last_value_;
   bool finished_ = false;
 };
 
diff --git a/cpp/src/arrow/util/key_value_metadata.h b/cpp/src/arrow/util/key_value_metadata.h
index ba70ffe887a..8702ce73a63 100644
--- a/cpp/src/arrow/util/key_value_metadata.h
+++ b/cpp/src/arrow/util/key_value_metadata.h
@@ -85,14 +85,14 @@ class ARROW_EXPORT KeyValueMetadata {
 /// \brief Create a KeyValueMetadata instance
 ///
 /// \param pairs key-value mapping
-std::shared_ptr<KeyValueMetadata> ARROW_EXPORT
-key_value_metadata(const std::unordered_map<std::string, std::string>& pairs);
+ARROW_EXPORT std::shared_ptr<KeyValueMetadata> key_value_metadata(
+    const std::unordered_map<std::string, std::string>& pairs);
 
 /// \brief Create a KeyValueMetadata instance
 ///
 /// \param keys sequence of metadata keys
 /// \param values sequence of corresponding metadata values
-std::shared_ptr<KeyValueMetadata> ARROW_EXPORT
-key_value_metadata(std::vector<std::string> keys, std::vector<std::string> values);
+ARROW_EXPORT std::shared_ptr<KeyValueMetadata> key_value_metadata(
+    std::vector<std::string> keys, std::vector<std::string> values);
 
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/launder.h b/cpp/src/arrow/util/launder.h
index 37e2a71443a..9e4533c4b47 100644
--- a/cpp/src/arrow/util/launder.h
+++ b/cpp/src/arrow/util/launder.h
@@ -22,7 +22,7 @@
 namespace arrow {
 namespace internal {
 
-#if __cplusplus >= 201703L
+#if __cpp_lib_launder
 using std::launder;
 #else
 template <class T>
diff --git a/cpp/src/arrow/util/macros.h b/cpp/src/arrow/util/macros.h
index 2fb383e1d1b..b5675faa143 100644
--- a/cpp/src/arrow/util/macros.h
+++ b/cpp/src/arrow/util/macros.h
@@ -63,21 +63,6 @@
 #define ARROW_PREFETCH(addr)
 #endif
 
-#if (defined(__GNUC__) || defined(__APPLE__))
-#define ARROW_MUST_USE_RESULT __attribute__((warn_unused_result))
-#elif defined(_MSC_VER)
-#define ARROW_MUST_USE_RESULT
-#else
-#define ARROW_MUST_USE_RESULT
-#endif
-
-#if defined(__clang__)
-// Only clang supports warn_unused_result as a type annotation.
-#define ARROW_MUST_USE_TYPE ARROW_MUST_USE_RESULT
-#else
-#define ARROW_MUST_USE_TYPE
-#endif
-
 #if defined(__GNUC__) || defined(__clang__) || defined(_MSC_VER)
 #define ARROW_RESTRICT __restrict
 #else
@@ -104,33 +89,14 @@
 // This macro takes an optional deprecation message
 #ifdef __COVERITY__
 #  define ARROW_DEPRECATED(...)
-#  define ARROW_DEPRECATED_USING(...)
-#elif __cplusplus > 201103L
-#  define ARROW_DEPRECATED(...) [[deprecated(__VA_ARGS__)]]
-#  define ARROW_DEPRECATED_USING(...) ARROW_DEPRECATED(__VA_ARGS__)
 #else
-# ifdef __GNUC__
-#  define ARROW_DEPRECATED(...) __attribute__((deprecated(__VA_ARGS__)))
-#  define ARROW_DEPRECATED_USING(...) ARROW_DEPRECATED(__VA_ARGS__)
-# elif defined(_MSC_VER)
-#  define ARROW_DEPRECATED(...) __declspec(deprecated(__VA_ARGS__))
-#  define ARROW_DEPRECATED_USING(...)
-# else
-#  define ARROW_DEPRECATED(...)
-#  define ARROW_DEPRECATED_USING(...)
-# endif
+#  define ARROW_DEPRECATED(...) [[deprecated(__VA_ARGS__)]]
 #endif
 
 #ifdef __COVERITY__
 #  define ARROW_DEPRECATED_ENUM_VALUE(...)
-#elif __cplusplus > 201103L
-#  define ARROW_DEPRECATED_ENUM_VALUE(...) [[deprecated(__VA_ARGS__)]]
 #else
-# if defined(__GNUC__) && __GNUC__ >= 6
-#  define ARROW_DEPRECATED_ENUM_VALUE(...) __attribute__((deprecated(__VA_ARGS__)))
-# else
-#  define ARROW_DEPRECATED_ENUM_VALUE(...)
-# endif
+#  define ARROW_DEPRECATED_ENUM_VALUE(...) [[deprecated(__VA_ARGS__)]]
 #endif
 
 // clang-format on
diff --git a/cpp/src/arrow/util/reflection_internal.h b/cpp/src/arrow/util/reflection_internal.h
index 0440a2eb563..d7de913bafd 100644
--- a/cpp/src/arrow/util/reflection_internal.h
+++ b/cpp/src/arrow/util/reflection_internal.h
@@ -18,38 +18,15 @@
 #pragma once
 
 #include <string>
+#include <string_view>
 #include <tuple>
 #include <utility>
 
 #include "arrow/type_traits.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 namespace internal {
 
-template <size_t...>
-struct index_sequence {};
-
-template <size_t N, size_t Head = N, size_t... Tail>
-struct make_index_sequence_impl;
-
-template <size_t N>
-using make_index_sequence = typename make_index_sequence_impl<N>::type;
-
-template <typename... T>
-using index_sequence_for = make_index_sequence<sizeof...(T)>;
-
-template <size_t N, size_t... I>
-struct make_index_sequence_impl<N, 0, I...> {
-  using type = index_sequence<I...>;
-};
-
-template <size_t N, size_t H, size_t... I>
-struct make_index_sequence_impl : make_index_sequence_impl<N, H - 1, H - 1, I...> {};
-
-static_assert(std::is_same<index_sequence<>, make_index_sequence<0>>::value, "");
-static_assert(std::is_same<index_sequence<0, 1, 2>, make_index_sequence<3>>::value, "");
-
 template <typename...>
 struct all_same : std::true_type {};
 
@@ -63,13 +40,14 @@ template <typename One, typename Other, typename... Rest>
 struct all_same<One, Other, Rest...> : std::false_type {};
 
 template <size_t... I, typename... T, typename Fn>
-void ForEachTupleMemberImpl(const std::tuple<T...>& tup, Fn&& fn, index_sequence<I...>) {
-  (void)std::make_tuple((fn(std::get<I>(tup), I), std::ignore)...);
+void ForEachTupleMemberImpl(const std::tuple<T...>& tup, Fn&& fn,
+                            std::index_sequence<I...>) {
+  (..., fn(std::get<I>(tup), I));
 }
 
 template <typename... T, typename Fn>
 void ForEachTupleMember(const std::tuple<T...>& tup, Fn&& fn) {
-  ForEachTupleMemberImpl(tup, fn, index_sequence_for<T...>());
+  ForEachTupleMemberImpl(tup, fn, std::index_sequence_for<T...>());
 }
 
 template <typename C, typename T>
@@ -81,14 +59,14 @@ struct DataMemberProperty {
 
   void set(Class* obj, Type value) const { (*obj).*ptr_ = std::move(value); }
 
-  constexpr util::string_view name() const { return name_; }
+  constexpr std::string_view name() const { return name_; }
 
-  util::string_view name_;
+  std::string_view name_;
   Type Class::*ptr_;
 };
 
 template <typename Class, typename Type>
-constexpr DataMemberProperty<Class, Type> DataMember(util::string_view name,
+constexpr DataMemberProperty<Class, Type> DataMember(std::string_view name,
                                                      Type Class::*ptr) {
   return {name, ptr};
 }
diff --git a/cpp/src/arrow/util/reflection_test.cc b/cpp/src/arrow/util/reflection_test.cc
index fb3d3b8fb02..d2d6379bece 100644
--- a/cpp/src/arrow/util/reflection_test.cc
+++ b/cpp/src/arrow/util/reflection_test.cc
@@ -16,6 +16,7 @@
 // under the License.
 
 #include <sstream>
+#include <string>
 
 #include <gtest/gtest.h>
 
@@ -48,7 +49,7 @@ struct EqualsImpl {
 template <typename Class>
 struct ToStringImpl {
   template <typename Properties>
-  ToStringImpl(util::string_view class_name, const Class& obj, const Properties& props)
+  ToStringImpl(std::string_view class_name, const Class& obj, const Properties& props)
       : class_name_(class_name), obj_(obj), members_(props.size()) {
     props.ForEach(*this);
   }
@@ -61,10 +62,10 @@ struct ToStringImpl {
   }
 
   std::string Finish() {
-    return class_name_.to_string() + "{" + JoinStrings(members_, ",") + "}";
+    return std::string(class_name_) + "{" + JoinStrings(members_, ",") + "}";
   }
 
-  util::string_view class_name_;
+  std::string_view class_name_;
   const Class& obj_;
   std::vector<std::string> members_;
 };
@@ -73,16 +74,16 @@ struct ToStringImpl {
 template <typename Class>
 struct FromStringImpl {
   template <typename Properties>
-  FromStringImpl(util::string_view class_name, util::string_view repr,
+  FromStringImpl(std::string_view class_name, std::string_view repr,
                  const Properties& props) {
     Init(class_name, repr, props.size());
     props.ForEach(*this);
   }
 
-  void Fail() { obj_ = util::nullopt; }
+  void Fail() { obj_ = std::nullopt; }
 
-  void Init(util::string_view class_name, util::string_view repr, size_t num_properties) {
-    if (!repr.starts_with(class_name)) return Fail();
+  void Init(std::string_view class_name, std::string_view repr, size_t num_properties) {
+    if (!StartsWith(repr, class_name)) return Fail();
 
     repr = repr.substr(class_name.size());
     if (repr.empty()) return Fail();
@@ -99,7 +100,7 @@ struct FromStringImpl {
     if (!obj_) return;
 
     auto first_colon = members_[i].find_first_of(':');
-    if (first_colon == util::string_view::npos) return Fail();
+    if (first_colon == std::string_view::npos) return Fail();
 
     auto name = members_[i].substr(0, first_colon);
     if (name != prop.name()) return Fail();
@@ -107,7 +108,7 @@ struct FromStringImpl {
     auto value_repr = members_[i].substr(first_colon + 1);
     typename Property::Type value;
     try {
-      std::stringstream ss(value_repr.to_string());
+      std::stringstream ss{std::string{value_repr}};
       ss >> value;
       if (!ss.eof()) return Fail();
     } catch (...) {
@@ -116,8 +117,8 @@ struct FromStringImpl {
     prop.set(&*obj_, std::move(value));
   }
 
-  util::optional<Class> obj_ = Class{};
-  std::vector<util::string_view> members_;
+  std::optional<Class> obj_ = Class{};
+  std::vector<std::string_view> members_;
 };
 
 // unmodified structure which we wish to reflect on:
@@ -146,7 +147,7 @@ std::string ToString(const Person& obj) {
 
 void PrintTo(const Person& obj, std::ostream* os) { *os << ToString(obj); }
 
-util::optional<Person> PersonFromString(util::string_view repr) {
+std::optional<Person> PersonFromString(std::string_view repr) {
   return FromStringImpl<Person>("Person", repr, kPersonProperties).obj_;
 }
 
@@ -174,23 +175,23 @@ TEST(Reflection, FromStringToDataMembers) {
 
   EXPECT_EQ(PersonFromString(ToString(genos)), genos);
 
-  EXPECT_EQ(PersonFromString(""), util::nullopt);
-  EXPECT_EQ(PersonFromString("Per"), util::nullopt);
-  EXPECT_EQ(PersonFromString("Person{"), util::nullopt);
-  EXPECT_EQ(PersonFromString("Person{age:19,name:Genos"), util::nullopt);
+  EXPECT_EQ(PersonFromString(""), std::nullopt);
+  EXPECT_EQ(PersonFromString("Per"), std::nullopt);
+  EXPECT_EQ(PersonFromString("Person{"), std::nullopt);
+  EXPECT_EQ(PersonFromString("Person{age:19,name:Genos"), std::nullopt);
 
-  EXPECT_EQ(PersonFromString("Person{name:Genos"), util::nullopt);
-  EXPECT_EQ(PersonFromString("Person{age:19,name:Genos,extra:Cyborg}"), util::nullopt);
-  EXPECT_EQ(PersonFromString("Person{name:Genos,age:19"), util::nullopt);
+  EXPECT_EQ(PersonFromString("Person{name:Genos"), std::nullopt);
+  EXPECT_EQ(PersonFromString("Person{age:19,name:Genos,extra:Cyborg}"), std::nullopt);
+  EXPECT_EQ(PersonFromString("Person{name:Genos,age:19"), std::nullopt);
 
-  EXPECT_EQ(PersonFromString("Fake{age:19,name:Genos}"), util::nullopt);
+  EXPECT_EQ(PersonFromString("Fake{age:19,name:Genos}"), std::nullopt);
 
-  EXPECT_EQ(PersonFromString("Person{age,name:Genos}"), util::nullopt);
-  EXPECT_EQ(PersonFromString("Person{age:nineteen,name:Genos}"), util::nullopt);
-  EXPECT_EQ(PersonFromString("Person{age:19 ,name:Genos}"), util::nullopt);
-  EXPECT_EQ(PersonFromString("Person{age:19,moniker:Genos}"), util::nullopt);
+  EXPECT_EQ(PersonFromString("Person{age,name:Genos}"), std::nullopt);
+  EXPECT_EQ(PersonFromString("Person{age:nineteen,name:Genos}"), std::nullopt);
+  EXPECT_EQ(PersonFromString("Person{age:19 ,name:Genos}"), std::nullopt);
+  EXPECT_EQ(PersonFromString("Person{age:19,moniker:Genos}"), std::nullopt);
 
-  EXPECT_EQ(PersonFromString("Person{age: 19, name: Genos}"), util::nullopt);
+  EXPECT_EQ(PersonFromString("Person{age: 19, name: Genos}"), std::nullopt);
 }
 
 enum class PersonType : int8_t {
diff --git a/cpp/src/arrow/util/regex.h b/cpp/src/arrow/util/regex.h
new file mode 100644
index 00000000000..590fbac7153
--- /dev/null
+++ b/cpp/src/arrow/util/regex.h
@@ -0,0 +1,51 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#pragma once
+
+#include <cassert>
+#include <initializer_list>
+#include <regex>
+#include <string_view>
+#include <type_traits>
+
+#include "arrow/util/visibility.h"
+
+namespace arrow {
+namespace internal {
+
+/// Match regex against target and produce string_views out of matches.
+inline bool RegexMatch(const std::regex& regex, std::string_view target,
+                       std::initializer_list<std::string_view*> out_matches) {
+  assert(regex.mark_count() == out_matches.size());
+
+  std::match_results<decltype(target.begin())> match;
+  if (!std::regex_match(target.begin(), target.end(), match, regex)) {
+    return false;
+  }
+
+  // Match #0 is the whole matched sequence
+  assert(regex.mark_count() + 1 == match.size());
+  auto out_it = out_matches.begin();
+  for (size_t i = 1; i < match.size(); ++i) {
+    **out_it++ = target.substr(match.position(i), match.length(i));
+  }
+  return true;
+}
+
+}  // namespace internal
+}  // namespace arrow
diff --git a/cpp/src/arrow/util/rle_encoding.h b/cpp/src/arrow/util/rle_encoding.h
index cc90f658f0c..09b2cda91e2 100644
--- a/cpp/src/arrow/util/rle_encoding.h
+++ b/cpp/src/arrow/util/rle_encoding.h
@@ -139,7 +139,7 @@ class RleDecoder {
                              int64_t valid_bits_offset);
 
  protected:
-  bit_util::BitReader bit_reader_;
+  ::arrow::bit_util::BitReader bit_reader_;
   /// Number of bits needed to encode the value. Must be between 0 and 64.
   int bit_width_;
   uint64_t current_value_;
@@ -186,12 +186,12 @@ class RleEncoder {
   /// It is not valid to pass a buffer less than this length.
   static int MinBufferSize(int bit_width) {
     /// 1 indicator byte and MAX_VALUES_PER_LITERAL_RUN 'bit_width' values.
-    int max_literal_run_size =
-        1 +
-        static_cast<int>(bit_util::BytesForBits(MAX_VALUES_PER_LITERAL_RUN * bit_width));
+    int max_literal_run_size = 1 + static_cast<int>(::arrow::bit_util::BytesForBits(
+                                       MAX_VALUES_PER_LITERAL_RUN * bit_width));
     /// Up to kMaxVlqByteLength indicator and a single 'bit_width' value.
-    int max_repeated_run_size = bit_util::BitReader::kMaxVlqByteLength +
-                                static_cast<int>(bit_util::BytesForBits(bit_width));
+    int max_repeated_run_size =
+        ::arrow::bit_util::BitReader::kMaxVlqByteLength +
+        static_cast<int>(::arrow::bit_util::BytesForBits(bit_width));
     return std::max(max_literal_run_size, max_repeated_run_size);
   }
 
@@ -201,15 +201,16 @@ class RleEncoder {
     // and then a repeated run of length 8".
     // 8 values per smallest run, 8 bits per byte
     int bytes_per_run = bit_width;
-    int num_runs = static_cast<int>(bit_util::CeilDiv(num_values, 8));
+    int num_runs = static_cast<int>(::arrow::bit_util::CeilDiv(num_values, 8));
     int literal_max_size = num_runs + num_runs * bytes_per_run;
 
     // In the very worst case scenario, the data is a concatenation of repeated
     // runs of 8 values. Repeated run has a 1 byte varint followed by the
     // bit-packed repeated value
-    int min_repeated_run_size = 1 + static_cast<int>(bit_util::BytesForBits(bit_width));
-    int repeated_max_size =
-        static_cast<int>(bit_util::CeilDiv(num_values, 8)) * min_repeated_run_size;
+    int min_repeated_run_size =
+        1 + static_cast<int>(::arrow::bit_util::BytesForBits(bit_width));
+    int repeated_max_size = static_cast<int>(::arrow::bit_util::CeilDiv(num_values, 8)) *
+                            min_repeated_run_size;
 
     return std::max(literal_max_size, repeated_max_size);
   }
@@ -259,7 +260,7 @@ class RleEncoder {
   const int bit_width_;
 
   /// Underlying buffer.
-  bit_util::BitWriter bit_writer_;
+  ::arrow::bit_util::BitWriter bit_writer_;
 
   /// If true, the buffer is full and subsequent Put()'s will fail.
   bool buffer_full_;
@@ -660,8 +661,8 @@ bool RleDecoder::NextCounts() {
     }
     repeat_count_ = count;
     T value = {};
-    if (!bit_reader_.GetAligned<T>(static_cast<int>(bit_util::CeilDiv(bit_width_, 8)),
-                                   &value)) {
+    if (!bit_reader_.GetAligned<T>(
+            static_cast<int>(::arrow::bit_util::CeilDiv(bit_width_, 8)), &value)) {
       return false;
     }
     current_value_ = static_cast<uint64_t>(value);
@@ -738,8 +739,8 @@ inline void RleEncoder::FlushRepeatedRun() {
   // The lsb of 0 indicates this is a repeated run
   int32_t indicator_value = repeat_count_ << 1 | 0;
   result &= bit_writer_.PutVlqInt(static_cast<uint32_t>(indicator_value));
-  result &= bit_writer_.PutAligned(current_value_,
-                                   static_cast<int>(bit_util::CeilDiv(bit_width_, 8)));
+  result &= bit_writer_.PutAligned(
+      current_value_, static_cast<int>(::arrow::bit_util::CeilDiv(bit_width_, 8)));
   DCHECK(result);
   num_buffered_values_ = 0;
   repeat_count_ = 0;
diff --git a/cpp/src/arrow/util/rle_encoding_test.cc b/cpp/src/arrow/util/rle_encoding_test.cc
index 52f355daf21..01d1ffd767f 100644
--- a/cpp/src/arrow/util/rle_encoding_test.cc
+++ b/cpp/src/arrow/util/rle_encoding_test.cc
@@ -173,6 +173,40 @@ TEST(BitArray, TestMixed) {
   }
 }
 
+// Write up to 'num_vals' values with width 'bit_width' and reads them back.
+static void TestPutValue(int bit_width, uint64_t num_vals) {
+  // The max value representable in `bit_width` bits.
+  const uint64_t max = std::numeric_limits<uint64_t>::max() >> (64 - bit_width);
+  num_vals = std::min(num_vals, max);
+  int len = static_cast<int>(bit_util::BytesForBits(bit_width * num_vals));
+  EXPECT_GT(len, 0);
+
+  std::vector<uint8_t> buffer(len);
+  bit_util::BitWriter writer(buffer.data(), len);
+  for (uint64_t i = max - num_vals; i < max; i++) {
+    bool result = writer.PutValue(i, bit_width);
+    EXPECT_TRUE(result);
+  }
+  writer.Flush();
+  EXPECT_EQ(writer.bytes_written(), len);
+
+  bit_util::BitReader reader(buffer.data(), len);
+  for (uint64_t i = max - num_vals; i < max; i++) {
+    int64_t val = 0;
+    bool result = reader.GetValue(bit_width, &val);
+    EXPECT_TRUE(result);
+    EXPECT_EQ(val, i);
+  }
+  EXPECT_EQ(reader.bytes_left(), 0);
+}
+
+TEST(BitUtil, RoundTripIntValues) {
+  for (int width = 1; width < 64; width++) {
+    TestPutValue(width, 1);
+    TestPutValue(width, 1024);
+  }
+}
+
 // Validates encoding of values by encoding and decoding them.  If
 // expected_encoding != NULL, also validates that the encoded buffer is
 // exactly 'expected_encoding'.
diff --git a/cpp/src/arrow/util/simd.h b/cpp/src/arrow/util/simd.h
index 046c74cdcce..ee9105d5f4b 100644
--- a/cpp/src/arrow/util/simd.h
+++ b/cpp/src/arrow/util/simd.h
@@ -41,8 +41,4 @@
 #include <arm_neon.h>
 #endif
 
-#ifdef ARROW_HAVE_ARMV8_CRC
-#include <arm_acle.h>
-#endif
-
 #endif
diff --git a/cpp/src/arrow/util/small_vector.h b/cpp/src/arrow/util/small_vector.h
index 07129528292..52e191c4c07 100644
--- a/cpp/src/arrow/util/small_vector.h
+++ b/cpp/src/arrow/util/small_vector.h
@@ -65,11 +65,7 @@ struct StaticVectorStorage : public StaticVectorStorageBase<T, N, D> {
 
   StaticVectorStorage() noexcept = default;
 
-#if __cpp_constexpr >= 201304L  // non-const constexpr
   constexpr storage_type* storage_ptr() { return static_data_; }
-#else
-  storage_type* storage_ptr() { return static_data_; }
-#endif
 
   constexpr const storage_type* const_storage_ptr() const { return static_data_; }
 
@@ -124,11 +120,7 @@ struct SmallVectorStorage {
 
   ~SmallVectorStorage() { destroy(); }
 
-#if __cpp_constexpr >= 201304L  // non-const constexpr
   constexpr storage_type* storage_ptr() { return data_; }
-#else
-  storage_type* storage_ptr() { return data_; }
-#endif
 
   constexpr const storage_type* const_storage_ptr() const { return data_; }
 
diff --git a/cpp/src/arrow/util/string.cc b/cpp/src/arrow/util/string.cc
index 3a158600552..2055b4f47ea 100644
--- a/cpp/src/arrow/util/string.cc
+++ b/cpp/src/arrow/util/string.cc
@@ -69,9 +69,9 @@ std::string HexEncode(const char* data, size_t length) {
   return HexEncode(reinterpret_cast<const uint8_t*>(data), length);
 }
 
-std::string HexEncode(util::string_view str) { return HexEncode(str.data(), str.size()); }
+std::string HexEncode(std::string_view str) { return HexEncode(str.data(), str.size()); }
 
-std::string Escape(util::string_view str) { return Escape(str.data(), str.size()); }
+std::string Escape(std::string_view str) { return Escape(str.data(), str.size()); }
 
 Status ParseHexValue(const char* data, uint8_t* out) {
   char c1 = data[0];
@@ -92,11 +92,16 @@ Status ParseHexValue(const char* data, uint8_t* out) {
 
 namespace internal {
 
-std::vector<util::string_view> SplitString(util::string_view v, char delimiter) {
-  std::vector<util::string_view> parts;
+std::vector<std::string_view> SplitString(std::string_view v, char delimiter,
+                                          int64_t limit) {
+  std::vector<std::string_view> parts;
   size_t start = 0, end;
   while (true) {
-    end = v.find(delimiter, start);
+    if (limit > 0 && static_cast<size_t>(limit - 1) <= parts.size()) {
+      end = std::string::npos;
+    } else {
+      end = v.find(delimiter, start);
+    }
     parts.push_back(v.substr(start, end - start));
     if (end == std::string::npos) {
       break;
@@ -108,7 +113,7 @@ std::vector<util::string_view> SplitString(util::string_view v, char delimiter)
 
 template <typename StringLike>
 static std::string JoinStringLikes(const std::vector<StringLike>& strings,
-                                   util::string_view delimiter) {
+                                   std::string_view delimiter) {
   if (strings.size() == 0) {
     return "";
   }
@@ -120,13 +125,13 @@ static std::string JoinStringLikes(const std::vector<StringLike>& strings,
   return out;
 }
 
-std::string JoinStrings(const std::vector<util::string_view>& strings,
-                        util::string_view delimiter) {
+std::string JoinStrings(const std::vector<std::string_view>& strings,
+                        std::string_view delimiter) {
   return JoinStringLikes(strings, delimiter);
 }
 
 std::string JoinStrings(const std::vector<std::string>& strings,
-                        util::string_view delimiter) {
+                        std::string_view delimiter) {
   return JoinStringLikes(strings, delimiter);
 }
 
@@ -147,7 +152,7 @@ std::string TrimString(std::string value) {
   return value;
 }
 
-bool AsciiEqualsCaseInsensitive(util::string_view left, util::string_view right) {
+bool AsciiEqualsCaseInsensitive(std::string_view left, std::string_view right) {
   // TODO: ASCII validation
   if (left.size() != right.size()) {
     return false;
@@ -161,7 +166,7 @@ bool AsciiEqualsCaseInsensitive(util::string_view left, util::string_view right)
   return true;
 }
 
-std::string AsciiToLower(util::string_view value) {
+std::string AsciiToLower(std::string_view value) {
   // TODO: ASCII validation
   std::string result = std::string(value);
   std::transform(result.begin(), result.end(), result.begin(),
@@ -169,7 +174,7 @@ std::string AsciiToLower(util::string_view value) {
   return result;
 }
 
-std::string AsciiToUpper(util::string_view value) {
+std::string AsciiToUpper(std::string_view value) {
   // TODO: ASCII validation
   std::string result = std::string(value);
   std::transform(result.begin(), result.end(), result.begin(),
@@ -177,17 +182,17 @@ std::string AsciiToUpper(util::string_view value) {
   return result;
 }
 
-util::optional<std::string> Replace(util::string_view s, util::string_view token,
-                                    util::string_view replacement) {
+std::optional<std::string> Replace(std::string_view s, std::string_view token,
+                                   std::string_view replacement) {
   size_t token_start = s.find(token);
   if (token_start == std::string::npos) {
-    return util::nullopt;
+    return std::nullopt;
   }
-  return s.substr(0, token_start).to_string() + replacement.to_string() +
-         s.substr(token_start + token.size()).to_string();
+  return std::string(s.substr(0, token_start)) + std::string(replacement) +
+         std::string(s.substr(token_start + token.size()));
 }
 
-Result<bool> ParseBoolean(util::string_view value) {
+Result<bool> ParseBoolean(std::string_view value) {
   if (AsciiEqualsCaseInsensitive(value, "true") || value == "1") {
     return true;
   } else if (AsciiEqualsCaseInsensitive(value, "false") || value == "0") {
diff --git a/cpp/src/arrow/util/string.h b/cpp/src/arrow/util/string.h
index d2c8ac38eec..d9777efc56a 100644
--- a/cpp/src/arrow/util/string.h
+++ b/cpp/src/arrow/util/string.h
@@ -17,12 +17,19 @@
 
 #pragma once
 
+#include <cassert>
+#include <optional>
 #include <string>
+#include <string_view>
+#include <type_traits>
+#include <utility>
 #include <vector>
 
+#if __has_include(<charconv>)
+#include <charconv>
+#endif
+
 #include "arrow/result.h"
-#include "arrow/util/optional.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -35,46 +42,59 @@ ARROW_EXPORT std::string Escape(const char* data, size_t length);
 
 ARROW_EXPORT std::string HexEncode(const char* data, size_t length);
 
-ARROW_EXPORT std::string HexEncode(util::string_view str);
+ARROW_EXPORT std::string HexEncode(std::string_view str);
 
-ARROW_EXPORT std::string Escape(util::string_view str);
+ARROW_EXPORT std::string Escape(std::string_view str);
 
 ARROW_EXPORT Status ParseHexValue(const char* data, uint8_t* out);
 
 namespace internal {
 
+/// Like std::string_view::starts_with in C++20
+inline bool StartsWith(std::string_view s, std::string_view prefix) {
+  return s.length() >= prefix.length() &&
+         (s.empty() || s.substr(0, prefix.length()) == prefix);
+}
+
+/// Like std::string_view::ends_with in C++20
+inline bool EndsWith(std::string_view s, std::string_view suffix) {
+  return s.length() >= suffix.length() &&
+         (s.empty() || s.substr(s.length() - suffix.length()) == suffix);
+}
+
 /// \brief Split a string with a delimiter
 ARROW_EXPORT
-std::vector<util::string_view> SplitString(util::string_view v, char delim);
+std::vector<std::string_view> SplitString(std::string_view v, char delim,
+                                          int64_t limit = 0);
 
 /// \brief Join strings with a delimiter
 ARROW_EXPORT
-std::string JoinStrings(const std::vector<util::string_view>& strings,
-                        util::string_view delimiter);
+std::string JoinStrings(const std::vector<std::string_view>& strings,
+                        std::string_view delimiter);
 
 /// \brief Join strings with a delimiter
 ARROW_EXPORT
 std::string JoinStrings(const std::vector<std::string>& strings,
-                        util::string_view delimiter);
+                        std::string_view delimiter);
 
 /// \brief Trim whitespace from left and right sides of string
 ARROW_EXPORT
 std::string TrimString(std::string value);
 
 ARROW_EXPORT
-bool AsciiEqualsCaseInsensitive(util::string_view left, util::string_view right);
+bool AsciiEqualsCaseInsensitive(std::string_view left, std::string_view right);
 
 ARROW_EXPORT
-std::string AsciiToLower(util::string_view value);
+std::string AsciiToLower(std::string_view value);
 
 ARROW_EXPORT
-std::string AsciiToUpper(util::string_view value);
+std::string AsciiToUpper(std::string_view value);
 
 /// \brief Search for the first instance of a token and replace it or return nullopt if
 /// the token is not found.
 ARROW_EXPORT
-util::optional<std::string> Replace(util::string_view s, util::string_view token,
-                                    util::string_view replacement);
+std::optional<std::string> Replace(std::string_view s, std::string_view token,
+                                   std::string_view replacement);
 
 /// \brief Get boolean value from string
 ///
@@ -82,6 +102,70 @@ util::optional<std::string> Replace(util::string_view s, util::string_view token
 /// If "0", "false" (case-insensitive), returns false
 /// Otherwise, returns Status::Invalid
 ARROW_EXPORT
-arrow::Result<bool> ParseBoolean(util::string_view value);
+arrow::Result<bool> ParseBoolean(std::string_view value);
+
+#if __has_include(<charconv>)
+
+namespace detail {
+template <typename T, typename = void>
+struct can_to_chars : public std::false_type {};
+
+template <typename T>
+struct can_to_chars<
+    T, std::void_t<decltype(std::to_chars(std::declval<char*>(), std::declval<char*>(),
+                                          std::declval<std::remove_reference_t<T>>()))>>
+    : public std::true_type {};
+}  // namespace detail
+
+/// \brief Whether std::to_chars exists for the current value type.
+///
+/// This is useful as some C++ libraries do not implement all specified overloads
+/// for std::to_chars.
+template <typename T>
+inline constexpr bool have_to_chars = detail::can_to_chars<T>::value;
+
+/// \brief An ergonomic wrapper around std::to_chars, returning a std::string
+///
+/// For most inputs, the std::string result will not incur any heap allocation
+/// thanks to small string optimization.
+///
+/// Compared to std::to_string, this function gives locale-agnostic results
+/// and might also be faster.
+template <typename T, typename... Args>
+std::string ToChars(T value, Args&&... args) {
+  if constexpr (!have_to_chars<T>) {
+    // Some C++ standard libraries do not yet implement std::to_chars for all types,
+    // in which case we have to fallback to std::string.
+    return std::to_string(value);
+  } else {
+    // According to various sources, the GNU libstdc++ and Microsoft's C++ STL
+    // allow up to 15 bytes of small string optimization, while clang's libc++
+    // goes up to 22 bytes. Choose the pessimistic value.
+    std::string out(15, 0);
+    auto res = std::to_chars(&out.front(), &out.back(), value, args...);
+    while (res.ec != std::errc{}) {
+      assert(res.ec == std::errc::value_too_large);
+      out.resize(out.capacity() * 2);
+      res = std::to_chars(&out.front(), &out.back(), value, args...);
+    }
+    const auto length = res.ptr - out.data();
+    assert(length <= static_cast<int64_t>(out.length()));
+    out.resize(length);
+    return out;
+  }
+}
+
+#else  // !__has_include(<charconv>)
+
+template <typename T>
+inline constexpr bool have_to_chars = false;
+
+template <typename T, typename... Args>
+std::string ToChars(T value, Args&&... args) {
+  return std::to_string(value);
+}
+
+#endif
+
 }  // namespace internal
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/string_builder.cc b/cpp/src/arrow/util/string_builder.cc
index 625ae007534..ae526494141 100644
--- a/cpp/src/arrow/util/string_builder.cc
+++ b/cpp/src/arrow/util/string_builder.cc
@@ -17,19 +17,16 @@
 
 #include "arrow/util/string_builder.h"
 
+#include <memory>
 #include <sstream>
 
-#include "arrow/util/make_unique.h"
-
 namespace arrow {
 
-using internal::make_unique;
-
 namespace util {
 namespace detail {
 
 StringStreamWrapper::StringStreamWrapper()
-    : sstream_(make_unique<std::ostringstream>()), ostream_(*sstream_) {}
+    : sstream_(std::make_unique<std::ostringstream>()), ostream_(*sstream_) {}
 
 StringStreamWrapper::~StringStreamWrapper() {}
 
diff --git a/cpp/src/arrow/util/string_test.cc b/cpp/src/arrow/util/string_test.cc
index 057d885fcdb..5f8054f1216 100644
--- a/cpp/src/arrow/util/string_test.cc
+++ b/cpp/src/arrow/util/string_test.cc
@@ -15,7 +15,10 @@
 // specific language governing permissions and limitations
 // under the License.
 
+#include <cmath>
+#include <limits>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
@@ -23,6 +26,7 @@
 
 #include "arrow/status.h"
 #include "arrow/testing/gtest_util.h"
+#include "arrow/util/regex.h"
 #include "arrow/util/string.h"
 
 namespace arrow {
@@ -140,5 +144,141 @@ TEST(SplitString, OnlyDemiliter) {
   EXPECT_EQ(parts[1], "");
 }
 
+TEST(SplitString, Limit) {
+  std::string input = "a:b:c";
+  auto parts = SplitString(input, ':', 2);
+  ASSERT_EQ(parts.size(), 2);
+  EXPECT_EQ(parts[0], "a");
+  EXPECT_EQ(parts[1], "b:c");
+}
+
+TEST(SplitString, LimitOver) {
+  std::string input = "a:b:c";
+  auto parts = SplitString(input, ':', 4);
+  ASSERT_EQ(parts.size(), 3);
+  EXPECT_EQ(parts[0], "a");
+  EXPECT_EQ(parts[1], "b");
+  EXPECT_EQ(parts[2], "c");
+}
+
+TEST(SplitString, LimitZero) {
+  std::string input = "a:b:c";
+  auto parts = SplitString(input, ':', 0);
+  ASSERT_EQ(parts.size(), 3);
+  EXPECT_EQ(parts[0], "a");
+  EXPECT_EQ(parts[1], "b");
+  EXPECT_EQ(parts[2], "c");
+}
+
+TEST(StartsWith, Basics) {
+  std::string empty{};
+  std::string abc{"abc"};
+  std::string abcdef{"abcdef"};
+  std::string def{"def"};
+  ASSERT_TRUE(StartsWith(empty, empty));
+  ASSERT_TRUE(StartsWith(abc, empty));
+  ASSERT_TRUE(StartsWith(abc, abc));
+  ASSERT_TRUE(StartsWith(abcdef, abc));
+  ASSERT_FALSE(StartsWith(abc, abcdef));
+  ASSERT_FALSE(StartsWith(def, abcdef));
+  ASSERT_FALSE(StartsWith(abcdef, def));
+}
+
+TEST(EndsWith, Basics) {
+  std::string empty{};
+  std::string abc{"abc"};
+  std::string abcdef{"abcdef"};
+  std::string def{"def"};
+  ASSERT_TRUE(EndsWith(empty, empty));
+  ASSERT_TRUE(EndsWith(abc, empty));
+  ASSERT_TRUE(EndsWith(abc, abc));
+  ASSERT_TRUE(EndsWith(abcdef, def));
+  ASSERT_FALSE(EndsWith(abcdef, abc));
+  ASSERT_FALSE(EndsWith(def, abcdef));
+  ASSERT_FALSE(EndsWith(abcdef, abc));
+}
+
+TEST(RegexMatch, Basics) {
+  std::regex regex("a+(b*)(c+)d+");
+  std::string_view b, c;
+
+  ASSERT_FALSE(RegexMatch(regex, "", {&b, &c}));
+  ASSERT_FALSE(RegexMatch(regex, "ad", {&b, &c}));
+  ASSERT_FALSE(RegexMatch(regex, "bc", {&b, &c}));
+
+  auto check_match = [&](std::string_view target, std::string_view expected_b,
+                         std::string_view expected_c) {
+    b = c = "!!!";  // dummy init value
+    ASSERT_TRUE(RegexMatch(regex, target, {&b, &c}));
+    ASSERT_EQ(b, expected_b);
+    ASSERT_EQ(c, expected_c);
+  };
+
+  check_match("abcd", "b", "c");
+  check_match("acd", "", "c");
+  check_match("abbcccd", "bb", "ccc");
+}
+
+TEST(ToChars, Integers) {
+  ASSERT_EQ(ToChars(static_cast<char>(0)), "0");
+  ASSERT_EQ(ToChars(static_cast<unsigned char>(0)), "0");
+  ASSERT_EQ(ToChars(static_cast<int8_t>(0)), "0");
+  ASSERT_EQ(ToChars(static_cast<uint64_t>(0)), "0");
+  ASSERT_EQ(ToChars(1234), "1234");
+  ASSERT_EQ(ToChars(-5678), "-5678");
+
+  if constexpr (have_to_chars<int>) {
+    ASSERT_EQ(ToChars(1234, /*base=*/2), "10011010010");
+  }
+
+  // Beyond pre-allocated result size
+  ASSERT_EQ(ToChars(9223372036854775807LL), "9223372036854775807");
+  ASSERT_EQ(ToChars(-9223372036854775807LL - 1), "-9223372036854775808");
+  ASSERT_EQ(ToChars(18446744073709551615ULL), "18446744073709551615");
+
+  if constexpr (have_to_chars<unsigned long long>) {  // NOLINT: runtime/int
+    // Will overflow any small string optimization
+    ASSERT_EQ(ToChars(18446744073709551615ULL, /*base=*/2),
+              "1111111111111111111111111111111111111111111111111111111111111111");
+  }
+}
+
+TEST(ToChars, FloatingPoint) {
+  if constexpr (have_to_chars<double>) {
+    ASSERT_EQ(ToChars(0.0f), "0");
+    ASSERT_EQ(ToChars(0.0), "0");
+    ASSERT_EQ(ToChars(-0.0), "-0");
+    ASSERT_EQ(ToChars(0.25), "0.25");
+    ASSERT_EQ(ToChars(-0.25f), "-0.25");
+
+    ASSERT_EQ(ToChars(0.1111111111111111), "0.1111111111111111");
+
+    // XXX Can't test std::chars_format as it's not defined by all standard libraries
+    // and even "if constexpr" wouldn't prevent the failing lookup.
+  } else {
+    // If std::to_chars isn't implemented for floating-point types, we fall back
+    // to std::to_string which may make ad hoc formatting choices, so we cannot
+    // really test much about the result.
+    auto result = ToChars(0.0f);
+    ASSERT_TRUE(StartsWith(result, "0")) << result;
+    result = ToChars(0.25);
+    ASSERT_TRUE(StartsWith(result, "0.25")) << result;
+  }
+}
+
+#if !defined(_WIN32) || defined(NDEBUG)
+
+TEST(ToChars, LocaleIndependent) {
+  if constexpr (have_to_chars<double>) {
+    // French locale uses the comma as decimal point
+    LocaleGuard locale_guard("fr_FR.UTF-8");
+
+    ASSERT_EQ(ToChars(0.25), "0.25");
+    ASSERT_EQ(ToChars(-0.25f), "-0.25");
+  }
+}
+
+#endif  // _WIN32
+
 }  // namespace internal
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/task_group.cc b/cpp/src/arrow/util/task_group.cc
index 0679b6ef1f6..932f642041d 100644
--- a/cpp/src/arrow/util/task_group.cc
+++ b/cpp/src/arrow/util/task_group.cc
@@ -102,29 +102,21 @@ class ThreadedTaskGroup : public TaskGroup {
 
       auto self = checked_pointer_cast<ThreadedTaskGroup>(shared_from_this());
 
-      struct Callable {
-        void operator()() {
-          if (self_->ok_.load(std::memory_order_acquire)) {
-            Status st;
-            if (stop_token_.IsStopRequested()) {
-              st = stop_token_.Poll();
-            } else {
-              // XXX what about exceptions?
-              st = std::move(task_)();
-            }
-            self_->UpdateStatus(std::move(st));
+      auto callable = [self = std::move(self), task = std::move(task),
+                       stop_token = stop_token_]() mutable {
+        if (self->ok_.load(std::memory_order_acquire)) {
+          Status st;
+          if (stop_token.IsStopRequested()) {
+            st = stop_token.Poll();
+          } else {
+            // XXX what about exceptions?
+            st = std::move(task)();
           }
-          self_->OneTaskDone();
+          self->UpdateStatus(std::move(st));
         }
-
-        std::shared_ptr<ThreadedTaskGroup> self_;
-        FnOnce<Status()> task_;
-        StopToken stop_token_;
+        self->OneTaskDone();
       };
-
-      Status st =
-          executor_->Spawn(Callable{std::move(self), std::move(task), stop_token_});
-      UpdateStatus(std::move(st));
+      UpdateStatus(executor_->Spawn(std::move(callable)));
     }
   }
 
@@ -207,7 +199,7 @@ class ThreadedTaskGroup : public TaskGroup {
   std::mutex mutex_;
   std::condition_variable cv_;
   Status status_;
-  util::optional<Future<>> completion_future_;
+  std::optional<Future<>> completion_future_;
 };
 
 }  // namespace
diff --git a/cpp/src/arrow/util/thread_pool.cc b/cpp/src/arrow/util/thread_pool.cc
index d9da841d3aa..daffe8f077a 100644
--- a/cpp/src/arrow/util/thread_pool.cc
+++ b/cpp/src/arrow/util/thread_pool.cc
@@ -26,6 +26,7 @@
 #include <thread>
 #include <vector>
 
+#include "arrow/util/atfork_internal.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/mutex.h"
@@ -56,6 +57,7 @@ struct SerialExecutor::State {
   std::deque<Task> task_queue;
   std::mutex mutex;
   std::condition_variable wait_for_tasks;
+  std::thread::id current_thread;
   bool paused{false};
   bool finished{false};
 };
@@ -79,17 +81,13 @@ Status SerialExecutor::SpawnReal(TaskHints hints, FnOnce<void()> task,
                                  StopToken stop_token, StopCallback&& stop_callback) {
 #ifdef ARROW_WITH_OPENTELEMETRY
   // Wrap the task to propagate a parent tracing span to it
-  struct SpanWrapper {
-    void operator()() {
-      auto scope = ::arrow::internal::tracing::GetTracer()->WithActiveSpan(active_span);
-      std::move(func)();
-    }
-    FnOnce<void()> func;
-    opentelemetry::nostd::shared_ptr<opentelemetry::trace::Span> active_span;
+  // XXX should there be a generic utility in tracing_internal.h for this?
+  task = [func = std::move(task),
+          active_span =
+              ::arrow::internal::tracing::GetTracer()->GetCurrentSpan()]() mutable {
+    auto scope = ::arrow::internal::tracing::GetTracer()->WithActiveSpan(active_span);
+    std::move(func)();
   };
-  SpanWrapper wrapper{std::move(task),
-                      ::arrow::internal::tracing::GetTracer()->GetCurrentSpan()};
-  task = std::move(wrapper);
 #endif
   // While the SerialExecutor runs tasks synchronously on its main thread,
   // SpawnReal may be called from external threads (e.g. when transferring back
@@ -145,11 +143,16 @@ void SerialExecutor::Unpause() {
   }
 }
 
+bool SerialExecutor::OwnsThisThread() {
+  std::lock_guard lk(state_->mutex);
+  return std::this_thread::get_id() == state_->current_thread;
+}
+
 void SerialExecutor::RunLoop() {
   // This is called from the SerialExecutor's main thread, so the
   // state is guaranteed to be kept alive.
   std::unique_lock<std::mutex> lk(state_->mutex);
-
+  state_->current_thread = std::this_thread::get_id();
   // If paused we break out immediately.  If finished we only break out
   // when all work is done.
   while (!state_->paused && !(state_->finished && state_->task_queue.empty())) {
@@ -178,6 +181,7 @@ void SerialExecutor::RunLoop() {
       return state_->paused || state_->finished || !state_->task_queue.empty();
     });
   }
+  state_->current_thread = {};
 }
 
 struct ThreadPool::State {
@@ -207,6 +211,24 @@ struct ThreadPool::State {
   bool quick_shutdown_ = false;
 
   std::vector<std::shared_ptr<Resource>> kept_alive_resources_;
+
+  // At-fork machinery
+
+  void BeforeFork() { mutex_.lock(); }
+
+  void ParentAfterFork() { mutex_.unlock(); }
+
+  void ChildAfterFork() {
+    int desired_capacity = desired_capacity_;
+    bool please_shutdown = please_shutdown_;
+    bool quick_shutdown = quick_shutdown_;
+    new (this) State;  // force-reinitialize, including synchronization primitives
+    desired_capacity_ = desired_capacity;
+    please_shutdown_ = please_shutdown;
+    quick_shutdown_ = quick_shutdown;
+  }
+
+  std::shared_ptr<AtForkHandler> atfork_handler_;
 };
 
 // The worker loop is an independent function so that it can keep running
@@ -291,8 +313,33 @@ ThreadPool::ThreadPool()
     : sp_state_(std::make_shared<ThreadPool::State>()),
       state_(sp_state_.get()),
       shutdown_on_destroy_(true) {
-#ifndef _WIN32
-  pid_ = getpid();
+  // Eternal thread pools would produce false leak reports in the vector of
+  // atfork handlers.
+#if !(defined(_WIN32) || defined(ADDRESS_SANITIZER) || defined(ARROW_VALGRIND))
+  state_->atfork_handler_ = std::make_shared<AtForkHandler>(
+      /*before=*/
+      [weak_state = std::weak_ptr<ThreadPool::State>(sp_state_)]() {
+        auto state = weak_state.lock();
+        if (state) {
+          state->BeforeFork();
+        }
+        return state;  // passed to after-forkers
+      },
+      /*parent_after=*/
+      [](std::any token) {
+        auto state = std::any_cast<std::shared_ptr<ThreadPool::State>>(token);
+        if (state) {
+          state->ParentAfterFork();
+        }
+      },
+      /*child_after=*/
+      [](std::any token) {
+        auto state = std::any_cast<std::shared_ptr<ThreadPool::State>>(token);
+        if (state) {
+          state->ChildAfterFork();
+        }
+      });
+  RegisterAtFork(state_->atfork_handler_);
 #endif
 }
 
@@ -302,38 +349,7 @@ ThreadPool::~ThreadPool() {
   }
 }
 
-void ThreadPool::ProtectAgainstFork() {
-#ifndef _WIN32
-  pid_t current_pid = getpid();
-  if (pid_.load() != current_pid) {
-    // Reinitialize internal state in child process after fork().
-    {
-      // Since after-fork reinitialization is triggered when one of the ThreadPool
-      // methods is called, it can be very well be called from multiple threads
-      // at once.  Therefore, it needs to be guarded with a lock.
-      auto lock = util::GlobalForkSafeMutex()->Lock();
-
-      if (pid_.load() != current_pid) {
-        int capacity = state_->desired_capacity_;
-
-        auto new_state = std::make_shared<ThreadPool::State>();
-        new_state->please_shutdown_ = state_->please_shutdown_;
-        new_state->quick_shutdown_ = state_->quick_shutdown_;
-
-        sp_state_ = new_state;
-        state_ = sp_state_.get();
-        pid_ = current_pid;
-
-        // Launch worker threads anew
-        ARROW_UNUSED(SetCapacity(capacity));
-      }
-    }
-  }
-#endif
-}
-
 Status ThreadPool::SetCapacity(int threads) {
-  ProtectAgainstFork();
   std::unique_lock<std::mutex> lock(state_->mutex_);
   if (state_->please_shutdown_) {
     return Status::Invalid("operation forbidden during or after shutdown");
@@ -358,25 +374,21 @@ Status ThreadPool::SetCapacity(int threads) {
 }
 
 int ThreadPool::GetCapacity() {
-  ProtectAgainstFork();
   std::unique_lock<std::mutex> lock(state_->mutex_);
   return state_->desired_capacity_;
 }
 
 int ThreadPool::GetNumTasks() {
-  ProtectAgainstFork();
   std::unique_lock<std::mutex> lock(state_->mutex_);
   return state_->tasks_queued_or_running_;
 }
 
 int ThreadPool::GetActualCapacity() {
-  ProtectAgainstFork();
   std::unique_lock<std::mutex> lock(state_->mutex_);
   return static_cast<int>(state_->workers_.size());
 }
 
 Status ThreadPool::Shutdown(bool wait) {
-  ProtectAgainstFork();
   std::unique_lock<std::mutex> lock(state_->mutex_);
 
   if (state_->please_shutdown_) {
@@ -423,7 +435,6 @@ void ThreadPool::LaunchWorkersUnlocked(int threads) {
 Status ThreadPool::SpawnReal(TaskHints hints, FnOnce<void()> task, StopToken stop_token,
                              StopCallback&& stop_callback) {
   {
-    ProtectAgainstFork();
 #ifdef ARROW_WITH_OPENTELEMETRY
     // Wrap the task to propagate a parent tracing span to it
     // This task-wrapping needs to be done before we grab the mutex because the
@@ -531,6 +542,7 @@ std::shared_ptr<ThreadPool> ThreadPool::MakeCpuThreadPool() {
 }
 
 ThreadPool* GetCpuThreadPool() {
+  // Avoid using a global variable because of initialization order issues (ARROW-18383)
   static std::shared_ptr<ThreadPool> singleton = ThreadPool::MakeCpuThreadPool();
   return singleton.get();
 }
diff --git a/cpp/src/arrow/util/thread_pool.h b/cpp/src/arrow/util/thread_pool.h
index cb23b22fcbd..4e0fd84068c 100644
--- a/cpp/src/arrow/util/thread_pool.h
+++ b/cpp/src/arrow/util/thread_pool.h
@@ -17,14 +17,6 @@
 
 #pragma once
 
-#ifndef _WIN32
-#include <unistd.h>
-#endif
-
-#ifndef _WIN32
-#include <atomic>
-#endif
-
 #include <cstdint>
 #include <memory>
 #include <queue>
@@ -280,6 +272,7 @@ class ARROW_EXPORT SerialExecutor : public Executor {
   ~SerialExecutor() override;
 
   int GetCapacity() override { return 1; };
+  bool OwnsThisThread() override;
   Status SpawnReal(TaskHints hints, FnOnce<void()> task, StopToken,
                    StopCallback&&) override;
 
@@ -462,7 +455,7 @@ class ARROW_EXPORT ThreadPool : public Executor {
  protected:
   FRIEND_TEST(TestThreadPool, SetCapacity);
   FRIEND_TEST(TestGlobalThreadPool, Capacity);
-  friend ARROW_EXPORT ThreadPool* GetCpuThreadPool();
+  ARROW_FRIEND_EXPORT friend ThreadPool* GetCpuThreadPool();
 
   ThreadPool();
 
@@ -475,17 +468,12 @@ class ARROW_EXPORT ThreadPool : public Executor {
   void LaunchWorkersUnlocked(int threads);
   // Get the current actual capacity
   int GetActualCapacity();
-  // Reinitialize the thread pool if the pid changed
-  void ProtectAgainstFork();
 
   static std::shared_ptr<ThreadPool> MakeCpuThreadPool();
 
   std::shared_ptr<State> sp_state_;
   State* state_;
   bool shutdown_on_destroy_;
-#ifndef _WIN32
-  std::atomic<pid_t> pid_;
-#endif
 };
 
 // Return the process-global thread pool for CPU-bound tasks.
@@ -510,5 +498,30 @@ typename Fut::SyncType RunSynchronously(FnOnce<Fut(Executor*)> get_future,
   }
 }
 
+/// \brief Potentially iterate an async generator serially (if use_threads is false)
+/// \see IterateGenerator
+///
+/// If `use_threads` is true, the global CPU executor will be used.  Each call to
+///   the iterator will simply wait until the next item is available.  Tasks may run in
+///   the background between calls.
+///
+/// If `use_threads` is false, the calling thread only will be used.  Each call to
+///   the iterator will use the calling thread to do enough work to generate one item.
+///   Tasks will be left in a queue until the next call and no work will be done between
+///   calls.
+template <typename T>
+Iterator<T> IterateSynchronously(
+    FnOnce<Result<std::function<Future<T>()>>(Executor*)> get_gen, bool use_threads) {
+  if (use_threads) {
+    auto maybe_gen = std::move(get_gen)(GetCpuThreadPool());
+    if (!maybe_gen.ok()) {
+      return MakeErrorIterator<T>(maybe_gen.status());
+    }
+    return MakeGeneratorIterator(*maybe_gen);
+  } else {
+    return SerialExecutor::IterateGenerator(std::move(get_gen));
+  }
+}
+
 }  // namespace internal
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/thread_pool_test.cc b/cpp/src/arrow/util/thread_pool_test.cc
index 79809651711..bce07d6908a 100644
--- a/cpp/src/arrow/util/thread_pool_test.cc
+++ b/cpp/src/arrow/util/thread_pool_test.cc
@@ -16,7 +16,7 @@
 // under the License.
 
 #ifndef _WIN32
-#include <sys/wait.h>
+#include <sys/types.h>
 #include <unistd.h>
 #endif
 
@@ -100,7 +100,8 @@ class AddTester {
 
   void SpawnTasks(ThreadPool* pool, AddTaskFunc add_func) {
     for (int i = 0; i < nadds_; ++i) {
-      ASSERT_OK(pool->Spawn([=] { add_func(xs_[i], ys_[i], &outs_[i]); }, stop_token_));
+      ASSERT_OK(pool->Spawn([this, add_func, i] { add_func(xs_[i], ys_[i], &outs_[i]); },
+                            stop_token_));
     }
   }
 
@@ -397,6 +398,54 @@ TEST(SerialExecutor, FailingIteratorWithCleanup) {
   ASSERT_TRUE(follow_up_ran);
 }
 
+TEST(SerialExecutor, IterateSynchronously) {
+  for (bool use_threads : {false, true}) {
+    FnOnce<Result<AsyncGenerator<TestInt>>(Executor*)> factory = [](Executor* executor) {
+      AsyncGenerator<TestInt> vector_gen = MakeVectorGenerator<TestInt>({1, 2, 3});
+      return MakeTransferredGenerator(vector_gen, executor);
+    };
+
+    Iterator<TestInt> my_it =
+        IterateSynchronously<TestInt>(std::move(factory), use_threads);
+    ASSERT_EQ(TestInt(1), *my_it.Next());
+    ASSERT_EQ(TestInt(2), *my_it.Next());
+    ASSERT_EQ(TestInt(3), *my_it.Next());
+    AssertIteratorExhausted(my_it);
+  }
+}
+
+struct MockGeneratorFactory {
+  explicit MockGeneratorFactory(Executor** captured_executor)
+      : captured_executor(captured_executor) {}
+
+  Result<AsyncGenerator<TestInt>> operator()(Executor* executor) {
+    *captured_executor = executor;
+    return MakeEmptyGenerator<TestInt>();
+  }
+  Executor** captured_executor;
+};
+
+TEST(SerialExecutor, IterateSynchronouslyFactoryFails) {
+  for (bool use_threads : {false, true}) {
+    FnOnce<Result<AsyncGenerator<TestInt>>(Executor*)> factory = [](Executor* executor) {
+      return Status::Invalid("XYZ");
+    };
+
+    Iterator<TestInt> my_it =
+        IterateSynchronously<TestInt>(std::move(factory), use_threads);
+    ASSERT_RAISES(Invalid, my_it.Next());
+  }
+}
+
+TEST(SerialExecutor, IterateSynchronouslyUsesThreadsIfRequested) {
+  Executor* captured_executor;
+  MockGeneratorFactory gen_factory(&captured_executor);
+  IterateSynchronously<TestInt>(gen_factory, true);
+  ASSERT_EQ(internal::GetCpuThreadPool(), captured_executor);
+  IterateSynchronously<TestInt>(gen_factory, false);
+  ASSERT_NE(internal::GetCpuThreadPool(), captured_executor);
+}
+
 class TransferTest : public testing::Test {
  public:
   internal::Executor* executor() { return mock_executor.get(); }
@@ -749,22 +798,7 @@ TEST_F(TestThreadPool, SubmitWithStopTokenCancelled) {
 #if !(defined(_WIN32) || defined(ARROW_VALGRIND) || defined(ADDRESS_SANITIZER) || \
       defined(THREAD_SANITIZER))
 
-class TestThreadPoolForkSafety : public TestThreadPool {
- public:
-  void CheckChildExit(int child_pid) {
-    ASSERT_GT(child_pid, 0);
-    int child_status;
-    int got_pid = waitpid(child_pid, &child_status, 0);
-    ASSERT_EQ(got_pid, child_pid);
-    if (WIFSIGNALED(child_status)) {
-      FAIL() << "Child terminated by signal " << WTERMSIG(child_status);
-    }
-    if (!WIFEXITED(child_status)) {
-      FAIL() << "Child didn't terminate normally?? Child status = " << child_status;
-    }
-    ASSERT_EQ(WEXITSTATUS(child_status), 0);
-  }
-};
+class TestThreadPoolForkSafety : public TestThreadPool {};
 
 TEST_F(TestThreadPoolForkSafety, Basics) {
   {
@@ -783,7 +817,7 @@ TEST_F(TestThreadPoolForkSafety, Basics) {
       std::exit(st.ok() ? 0 : 2);
     } else {
       // Parent
-      CheckChildExit(child_pid);
+      AssertChildExit(child_pid);
       ASSERT_OK(pool->Shutdown());
     }
   }
@@ -805,7 +839,7 @@ TEST_F(TestThreadPoolForkSafety, Basics) {
       std::exit(0);
     } else {
       // Parent
-      CheckChildExit(child_pid);
+      AssertChildExit(child_pid);
     }
   }
 }
@@ -850,7 +884,7 @@ TEST_F(TestThreadPoolForkSafety, MultipleChildThreads) {
       std::exit(0);
     } else {
       // Parent
-      CheckChildExit(child_pid);
+      AssertChildExit(child_pid);
       ASSERT_OK(pool->Shutdown());
     }
   }
@@ -878,14 +912,14 @@ TEST_F(TestThreadPoolForkSafety, NestedChild) {
         ASSERT_OK(pool->Shutdown());
       } else {
         // Child
-        CheckChildExit(grandchild_pid);
+        AssertChildExit(grandchild_pid);
         ASSERT_FINISHES_OK_AND_EQ(7, fut);
         ASSERT_OK(pool->Shutdown());
       }
       std::exit(0);
     } else {
       // Parent
-      CheckChildExit(child_pid);
+      AssertChildExit(child_pid);
       ASSERT_OK(pool->Shutdown());
     }
   }
diff --git a/cpp/src/arrow/util/tracing.cc b/cpp/src/arrow/util/tracing.cc
index 8bf21f688c4..391af3d72de 100644
--- a/cpp/src/arrow/util/tracing.cc
+++ b/cpp/src/arrow/util/tracing.cc
@@ -18,18 +18,20 @@
 #include "arrow/util/tracing.h"
 
 #include "arrow/util/config.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/tracing_internal.h"
 
+#include <memory>
+
 namespace arrow {
 
-using internal::make_unique;
 namespace util {
 namespace tracing {
 
 #ifdef ARROW_WITH_OPENTELEMETRY
 
-Span::Span() noexcept { details = make_unique<::arrow::internal::tracing::SpanImpl>(); }
+Span::Span() noexcept {
+  details = std::make_unique<::arrow::internal::tracing::SpanImpl>();
+}
 
 #else
 
diff --git a/cpp/src/arrow/util/tracing_internal.cc b/cpp/src/arrow/util/tracing_internal.cc
index 668a2aaba8b..58668cab18b 100644
--- a/cpp/src/arrow/util/tracing_internal.cc
+++ b/cpp/src/arrow/util/tracing_internal.cc
@@ -21,6 +21,7 @@
 #include "arrow/util/tracing.h"
 
 #include <iostream>
+#include <memory>
 #include <sstream>
 #include <thread>
 
@@ -48,7 +49,6 @@
 
 #include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 
 namespace arrow {
 namespace internal {
@@ -119,15 +119,15 @@ std::unique_ptr<sdktrace::SpanExporter> InitializeExporter() {
   if (maybe_env_var.ok()) {
     auto env_var = maybe_env_var.ValueOrDie();
     if (env_var == "ostream") {
-      return arrow::internal::make_unique<otel::exporter::trace::OStreamSpanExporter>();
+      return std::make_unique<otel::exporter::trace::OStreamSpanExporter>();
     } else if (env_var == "otlp_http") {
       namespace otlp = opentelemetry::exporter::otlp;
       otlp::OtlpHttpExporterOptions opts;
-      return arrow::internal::make_unique<otlp::OtlpHttpExporter>(opts);
+      return std::make_unique<otlp::OtlpHttpExporter>(opts);
     } else if (env_var == "arrow_otlp_stdout") {
-      return arrow::internal::make_unique<OtlpOStreamExporter>(&std::cout);
+      return std::make_unique<OtlpOStreamExporter>(&std::cout);
     } else if (env_var == "arrow_otlp_stderr") {
-      return arrow::internal::make_unique<OtlpOStreamExporter>(&std::cerr);
+      return std::make_unique<OtlpOStreamExporter>(&std::cerr);
     } else if (!env_var.empty()) {
       ARROW_LOG(WARNING) << "Requested unknown backend " << kTracingBackendEnvVar << "="
                          << env_var;
@@ -160,7 +160,7 @@ nostd::shared_ptr<sdktrace::TracerProvider> InitializeSdkTracerProvider() {
     options.schedule_delay_millis = std::chrono::milliseconds(500);
     options.max_export_batch_size = 16384;
     auto processor =
-        arrow::internal::make_unique<ThreadIdSpanProcessor>(std::move(exporter), options);
+        std::make_unique<ThreadIdSpanProcessor>(std::move(exporter), options);
     return std::make_shared<sdktrace::TracerProvider>(std::move(processor));
   }
   return nostd::shared_ptr<sdktrace::TracerProvider>();
diff --git a/cpp/src/arrow/util/tracing_internal.h b/cpp/src/arrow/util/tracing_internal.h
index d1da05671a8..7b97ebf7adb 100644
--- a/cpp/src/arrow/util/tracing_internal.h
+++ b/cpp/src/arrow/util/tracing_internal.h
@@ -36,7 +36,6 @@
 
 #include "arrow/util/async_generator.h"
 #include "arrow/util/iterator.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/tracing.h"
 #include "arrow/util/visibility.h"
 
diff --git a/cpp/src/arrow/util/trie.cc b/cpp/src/arrow/util/trie.cc
index 7fa7f852eb4..ec2aed302f5 100644
--- a/cpp/src/arrow/util/trie.cc
+++ b/cpp/src/arrow/util/trie.cc
@@ -91,7 +91,7 @@ Status TrieBuilder::AppendChildNode(Trie::Node* parent, uint8_t ch, Trie::Node&&
 }
 
 Status TrieBuilder::CreateChildNode(Trie::Node* parent, uint8_t ch,
-                                    util::string_view substring) {
+                                    std::string_view substring) {
   const auto kMaxSubstringLength = Trie::kMaxSubstringLength;
 
   while (substring.length() > kMaxSubstringLength) {
@@ -112,7 +112,7 @@ Status TrieBuilder::CreateChildNode(Trie::Node* parent, uint8_t ch,
 }
 
 Status TrieBuilder::CreateChildNode(Trie::Node* parent, char ch,
-                                    util::string_view substring) {
+                                    std::string_view substring) {
   return CreateChildNode(parent, static_cast<uint8_t>(ch), substring);
 }
 
@@ -147,7 +147,7 @@ Status TrieBuilder::SplitNode(fast_index_type node_index, fast_index_type split_
   return Status::OK();
 }
 
-Status TrieBuilder::Append(util::string_view s, bool allow_duplicate) {
+Status TrieBuilder::Append(std::string_view s, bool allow_duplicate) {
   // Find or create node for string
   fast_index_type node_index = 0;
   fast_index_type pos = 0;
diff --git a/cpp/src/arrow/util/trie.h b/cpp/src/arrow/util/trie.h
index b250cca647d..7815d4d1ecc 100644
--- a/cpp/src/arrow/util/trie.h
+++ b/cpp/src/arrow/util/trie.h
@@ -23,12 +23,12 @@
 #include <iosfwd>
 #include <limits>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
 #include "arrow/status.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -45,10 +45,10 @@ class SmallString {
 
   template <typename T>
   SmallString(const T& v) {  // NOLINT implicit constructor
-    *this = util::string_view(v);
+    *this = std::string_view(v);
   }
 
-  SmallString& operator=(const util::string_view s) {
+  SmallString& operator=(const std::string_view s) {
 #ifndef NDEBUG
     CheckSize(s.size());
 #endif
@@ -58,18 +58,16 @@ class SmallString {
   }
 
   SmallString& operator=(const std::string& s) {
-    *this = util::string_view(s);
+    *this = std::string_view(s);
     return *this;
   }
 
   SmallString& operator=(const char* s) {
-    *this = util::string_view(s);
+    *this = std::string_view(s);
     return *this;
   }
 
-  explicit operator util::string_view() const {
-    return util::string_view(data_, length_);
-  }
+  explicit operator std::string_view() const { return std::string_view(data_, length_); }
 
   const char* data() const { return data_; }
   size_t length() const { return length_; }
@@ -82,21 +80,21 @@ class SmallString {
   }
 
   SmallString substr(size_t pos) const {
-    return SmallString(util::string_view(*this).substr(pos));
+    return SmallString(std::string_view(*this).substr(pos));
   }
 
   SmallString substr(size_t pos, size_t count) const {
-    return SmallString(util::string_view(*this).substr(pos, count));
+    return SmallString(std::string_view(*this).substr(pos, count));
   }
 
   template <typename T>
   bool operator==(T&& other) const {
-    return util::string_view(*this) == util::string_view(std::forward<T>(other));
+    return std::string_view(*this) == std::string_view(std::forward<T>(other));
   }
 
   template <typename T>
   bool operator!=(T&& other) const {
-    return util::string_view(*this) != util::string_view(std::forward<T>(other));
+    return std::string_view(*this) != std::string_view(std::forward<T>(other));
   }
 
  protected:
@@ -108,7 +106,7 @@ class SmallString {
 
 template <uint8_t N>
 std::ostream& operator<<(std::ostream& os, const SmallString<N>& str) {
-  return os << util::string_view(str);
+  return os << std::string_view(str);
 }
 
 // A trie class for byte strings, optimized for small sets of short strings.
@@ -123,7 +121,7 @@ class ARROW_EXPORT Trie {
   Trie(Trie&&) = default;
   Trie& operator=(Trie&&) = default;
 
-  int32_t Find(util::string_view s) const {
+  int32_t Find(std::string_view s) const {
     const Node* node = &nodes_[0];
     fast_index_type pos = 0;
     if (s.length() > static_cast<size_t>(kMaxIndex)) {
@@ -222,7 +220,7 @@ class ARROW_EXPORT TrieBuilder {
 
  public:
   TrieBuilder();
-  Status Append(util::string_view s, bool allow_duplicate = false);
+  Status Append(std::string_view s, bool allow_duplicate = false);
   Trie Finish();
 
  protected:
@@ -233,8 +231,8 @@ class ARROW_EXPORT TrieBuilder {
   // Append an already constructed child node to the parent
   Status AppendChildNode(Trie::Node* parent, uint8_t ch, Trie::Node&& node);
   // Create a matching child node from this parent
-  Status CreateChildNode(Trie::Node* parent, uint8_t ch, util::string_view substring);
-  Status CreateChildNode(Trie::Node* parent, char ch, util::string_view substring);
+  Status CreateChildNode(Trie::Node* parent, uint8_t ch, std::string_view substring);
+  Status CreateChildNode(Trie::Node* parent, char ch, std::string_view substring);
 
   Trie trie_;
 
diff --git a/cpp/src/arrow/util/trie_benchmark.cc b/cpp/src/arrow/util/trie_benchmark.cc
index 868accc3744..b938f87d8d1 100644
--- a/cpp/src/arrow/util/trie_benchmark.cc
+++ b/cpp/src/arrow/util/trie_benchmark.cc
@@ -86,7 +86,7 @@ BENCHMARK(TrieLookupNotFound);
 
 #ifdef ARROW_WITH_BENCHMARKS_REFERENCE
 
-static inline bool InlinedNullLookup(util::string_view s) {
+static inline bool InlinedNullLookup(std::string_view s) {
   // An inlined version of trie lookup for a specific set of strings
   // (see AllNulls())
   auto size = s.length();
diff --git a/cpp/src/arrow/util/trie_test.cc b/cpp/src/arrow/util/trie_test.cc
index cfe66689da5..9c6b7678a46 100644
--- a/cpp/src/arrow/util/trie_test.cc
+++ b/cpp/src/arrow/util/trie_test.cc
@@ -36,7 +36,7 @@ TEST(SmallString, Basics) {
   {
     SS s;
     ASSERT_EQ(s.length(), 0);
-    ASSERT_EQ(util::string_view(s), util::string_view(""));
+    ASSERT_EQ(std::string_view(s), std::string_view(""));
     ASSERT_EQ(s, "");
     ASSERT_NE(s, "x");
     ASSERT_EQ(sizeof(s), 6);
@@ -44,7 +44,7 @@ TEST(SmallString, Basics) {
   {
     SS s("abc");
     ASSERT_EQ(s.length(), 3);
-    ASSERT_EQ(util::string_view(s), util::string_view("abc"));
+    ASSERT_EQ(std::string_view(s), std::string_view("abc"));
     ASSERT_EQ(std::memcmp(s.data(), "abc", 3), 0);
     ASSERT_EQ(s, "abc");
     ASSERT_NE(s, "ab");
@@ -55,23 +55,23 @@ TEST(SmallString, Assign) {
   using SS = SmallString<5>;
   auto s = SS();
 
-  s = util::string_view("abc");
+  s = std::string_view("abc");
   ASSERT_EQ(s.length(), 3);
-  ASSERT_EQ(util::string_view(s), util::string_view("abc"));
+  ASSERT_EQ(std::string_view(s), std::string_view("abc"));
   ASSERT_EQ(std::memcmp(s.data(), "abc", 3), 0);
   ASSERT_EQ(s, "abc");
   ASSERT_NE(s, "ab");
 
   s = std::string("ghijk");
   ASSERT_EQ(s.length(), 5);
-  ASSERT_EQ(util::string_view(s), util::string_view("ghijk"));
+  ASSERT_EQ(std::string_view(s), std::string_view("ghijk"));
   ASSERT_EQ(std::memcmp(s.data(), "ghijk", 5), 0);
   ASSERT_EQ(s, "ghijk");
   ASSERT_NE(s, "");
 
   s = SS("xy");
   ASSERT_EQ(s.length(), 2);
-  ASSERT_EQ(util::string_view(s), util::string_view("xy"));
+  ASSERT_EQ(std::string_view(s), std::string_view("xy"));
   ASSERT_EQ(std::memcmp(s.data(), "xy", 2), 0);
   ASSERT_EQ(s, "xy");
   ASSERT_NE(s, "xyz");
diff --git a/cpp/src/arrow/util/type_fwd.h b/cpp/src/arrow/util/type_fwd.h
index ca107c2c69d..76e685ffa6b 100644
--- a/cpp/src/arrow/util/type_fwd.h
+++ b/cpp/src/arrow/util/type_fwd.h
@@ -34,6 +34,7 @@ namespace internal {
 class Executor;
 class TaskGroup;
 class ThreadPool;
+class CpuInfo;
 
 }  // namespace internal
 
@@ -54,6 +55,7 @@ struct Compression {
 };
 
 namespace util {
+class AsyncTaskScheduler;
 class Compressor;
 class Decompressor;
 class Codec;
diff --git a/cpp/src/arrow/util/type_traits.h b/cpp/src/arrow/util/type_traits.h
index 80cc6297e39..c1906152423 100644
--- a/cpp/src/arrow/util/type_traits.h
+++ b/cpp/src/arrow/util/type_traits.h
@@ -42,45 +42,5 @@ template <typename T>
 struct is_null_pointer : std::is_same<std::nullptr_t, typename std::remove_cv<T>::type> {
 };
 
-#ifdef __GLIBCXX__
-
-// A aligned_union backport, because old libstdc++ versions don't include it.
-
-constexpr std::size_t max_size(std::size_t a, std::size_t b) { return (a > b) ? a : b; }
-
-template <typename...>
-struct max_size_traits;
-
-template <typename H, typename... T>
-struct max_size_traits<H, T...> {
-  static constexpr std::size_t max_sizeof() {
-    return max_size(sizeof(H), max_size_traits<T...>::max_sizeof());
-  }
-  static constexpr std::size_t max_alignof() {
-    return max_size(alignof(H), max_size_traits<T...>::max_alignof());
-  }
-};
-
-template <>
-struct max_size_traits<> {
-  static constexpr std::size_t max_sizeof() { return 0; }
-  static constexpr std::size_t max_alignof() { return 0; }
-};
-
-template <std::size_t Len, typename... T>
-struct aligned_union {
-  static constexpr std::size_t alignment_value = max_size_traits<T...>::max_alignof();
-  static constexpr std::size_t size_value =
-      max_size(Len, max_size_traits<T...>::max_sizeof());
-  using type = typename std::aligned_storage<size_value, alignment_value>::type;
-};
-
-#else
-
-template <std::size_t Len, typename... T>
-using aligned_union = std::aligned_union<Len, T...>;
-
-#endif
-
 }  // namespace internal
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/unreachable.cc b/cpp/src/arrow/util/unreachable.cc
index 4ffe3a8f787..a3829d11652 100644
--- a/cpp/src/arrow/util/unreachable.cc
+++ b/cpp/src/arrow/util/unreachable.cc
@@ -19,6 +19,8 @@
 
 #include "arrow/util/logging.h"
 
+#include <string_view>
+
 namespace arrow {
 
 [[noreturn]] void Unreachable(const char* message) {
@@ -26,4 +28,9 @@ namespace arrow {
   std::abort();
 }
 
+[[noreturn]] void Unreachable(std::string_view message) {
+  DCHECK(false) << message;
+  std::abort();
+}
+
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/unreachable.h b/cpp/src/arrow/util/unreachable.h
index 3da0db6f2be..d2e383e714b 100644
--- a/cpp/src/arrow/util/unreachable.h
+++ b/cpp/src/arrow/util/unreachable.h
@@ -19,8 +19,12 @@
 
 #include "arrow/util/visibility.h"
 
+#include <string_view>
+
 namespace arrow {
 
 [[noreturn]] ARROW_EXPORT void Unreachable(const char* message = "Unreachable");
 
+[[noreturn]] ARROW_EXPORT void Unreachable(std::string_view message);
+
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/uri.cc b/cpp/src/arrow/util/uri.cc
index 7a8484ce51a..b291ee3d7f1 100644
--- a/cpp/src/arrow/util/uri.cc
+++ b/cpp/src/arrow/util/uri.cc
@@ -20,9 +20,10 @@
 #include <algorithm>
 #include <cstring>
 #include <sstream>
+#include <string_view>
 #include <vector>
 
-#include "arrow/util/string_view.h"
+#include "arrow/util/logging.h"
 #include "arrow/util/value_parsing.h"
 #include "arrow/vendored/uriparser/Uri.h"
 
@@ -31,7 +32,7 @@ namespace internal {
 
 namespace {
 
-util::string_view TextRangeToView(const UriTextRangeStructA& range) {
+std::string_view TextRangeToView(const UriTextRangeStructA& range) {
   if (range.first == nullptr) {
     return "";
   } else {
@@ -50,7 +51,7 @@ std::string TextRangeToString(const UriTextRangeStructA& range) {
 bool IsTextRangeSet(const UriTextRangeStructA& range) { return range.first != nullptr; }
 
 #ifdef _WIN32
-bool IsDriveSpec(const util::string_view s) {
+bool IsDriveSpec(const std::string_view s) {
   return (s.length() >= 2 && s[1] == ':' &&
           ((s[0] >= 'A' && s[0] <= 'Z') || (s[0] >= 'a' && s[0] <= 'z')));
 }
@@ -58,10 +59,10 @@ bool IsDriveSpec(const util::string_view s) {
 
 }  // namespace
 
-std::string UriEscape(const std::string& s) {
+std::string UriEscape(std::string_view s) {
   if (s.empty()) {
     // Avoid passing null pointer to uriEscapeExA
-    return s;
+    return std::string(s);
   }
   std::string escaped;
   escaped.resize(3 * s.length());
@@ -72,7 +73,7 @@ std::string UriEscape(const std::string& s) {
   return escaped;
 }
 
-std::string UriUnescape(const util::string_view s) {
+std::string UriUnescape(std::string_view s) {
   std::string result(s);
   if (!result.empty()) {
     auto end = uriUnescapeInPlaceA(&result[0]);
@@ -81,7 +82,7 @@ std::string UriUnescape(const util::string_view s) {
   return result;
 }
 
-std::string UriEncodeHost(const std::string& host) {
+std::string UriEncodeHost(std::string_view host) {
   // Fairly naive check: if it contains a ':', it's IPv6 and needs
   // brackets, else it's OK
   if (host.find(":") != std::string::npos) {
@@ -90,11 +91,11 @@ std::string UriEncodeHost(const std::string& host) {
     result += ']';
     return result;
   } else {
-    return host;
+    return std::string(host);
   }
 }
 
-bool IsValidUriScheme(const arrow::util::string_view s) {
+bool IsValidUriScheme(std::string_view s) {
   auto is_alpha = [](char c) { return (c >= 'a' && c <= 'z') || (c >= 'A' && c <= 'Z'); };
   auto is_scheme_char = [&](char c) {
     return is_alpha(c) || (c >= '0' && c <= '9') || c == '+' || c == '-' || c == '.';
@@ -133,7 +134,7 @@ struct Uri::Impl {
   std::vector<std::string> data_;
   std::string string_rep_;
   int32_t port_;
-  std::vector<util::string_view> path_segments_;
+  std::vector<std::string_view> path_segments_;
   bool is_file_uri_;
   bool is_absolute_path_;
 };
@@ -151,7 +152,13 @@ Uri& Uri::operator=(Uri&& u) {
 
 std::string Uri::scheme() const { return TextRangeToString(impl_->uri_.scheme); }
 
-std::string Uri::host() const { return TextRangeToString(impl_->uri_.hostText); }
+bool Uri::is_file_scheme() const { return impl_->is_file_uri_; }
+
+std::string Uri::host() const {
+  // XXX for now we're assuming that %-encoding is expected, but this could be
+  // scheme-dependent (for example, http(s) may expect IDNA instead?)
+  return UriUnescape(TextRangeToView(impl_->uri_.hostText));
+}
 
 bool Uri::has_host() const { return IsTextRangeSet(impl_->uri_.hostText); }
 
@@ -162,7 +169,7 @@ int32_t Uri::port() const { return impl_->port_; }
 std::string Uri::username() const {
   auto userpass = TextRangeToView(impl_->uri_.userInfo);
   auto sep_pos = userpass.find_first_of(':');
-  if (sep_pos == util::string_view::npos) {
+  if (sep_pos == std::string_view::npos) {
     return UriUnescape(userpass);
   } else {
     return UriUnescape(userpass.substr(0, sep_pos));
@@ -172,7 +179,7 @@ std::string Uri::username() const {
 std::string Uri::password() const {
   auto userpass = TextRangeToView(impl_->uri_.userInfo);
   auto sep_pos = userpass.find_first_of(':');
-  if (sep_pos == util::string_view::npos) {
+  if (sep_pos == std::string_view::npos) {
     return std::string();
   } else {
     return UriUnescape(userpass.substr(sep_pos + 1));
@@ -203,7 +210,7 @@ std::string Uri::path() const {
       ss << "/";
     }
     first = false;
-    ss << seg;
+    ss << UriUnescape(seg);
   }
   return std::move(ss).str();
 }
@@ -304,5 +311,30 @@ Status Uri::Parse(const std::string& uri_string) {
   return Status::OK();
 }
 
+Result<std::string> UriFromAbsolutePath(std::string_view path) {
+  if (path.empty()) {
+    return Status::Invalid(
+        "UriFromAbsolutePath expected an absolute path, got an empty string");
+  }
+  std::string out;
+#ifdef _WIN32
+  // Turn "/" separators into "\", as Windows recognizes both but uriparser
+  // only the latter.
+  std::string fixed_path(path);
+  std::replace(fixed_path.begin(), fixed_path.end(), '/', '\\');
+  out.resize(8 + 3 * fixed_path.length() + 1);
+  int r = uriWindowsFilenameToUriStringA(fixed_path.data(), out.data());
+  // uriWindowsFilenameToUriStringA basically only fails if a null pointer is given.
+  ARROW_CHECK_EQ(r, 0) << "uriWindowsFilenameToUriStringA unexpectedly failed";
+#else
+  out.resize(7 + 3 * path.length() + 1);
+  int r = uriUnixFilenameToUriStringA(path.data(), out.data());
+  // same as above (uriWindowsFilenameToUriStringA)
+  ARROW_CHECK_EQ(r, 0) << "uriUnixFilenameToUriStringA unexpectedly failed";
+#endif
+  out.resize(strlen(out.data()));
+  return out;
+}
+
 }  // namespace internal
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/uri.h b/cpp/src/arrow/util/uri.h
index eae1956eafc..855a61408da 100644
--- a/cpp/src/arrow/util/uri.h
+++ b/cpp/src/arrow/util/uri.h
@@ -20,11 +20,11 @@
 #include <cstdint>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
 #include "arrow/type_fwd.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -38,13 +38,16 @@ class ARROW_EXPORT Uri {
   Uri(Uri&&);
   Uri& operator=(Uri&&);
 
-  // XXX Should we use util::string_view instead?  These functions are
+  // XXX Should we use std::string_view instead?  These functions are
   // not performance-critical.
 
   /// The URI scheme, such as "http", or the empty string if the URI has no
   /// explicit scheme.
   std::string scheme() const;
 
+  /// Convenience function that returns true if the scheme() is "file"
+  bool is_file_scheme() const;
+
   /// Whether the URI has an explicit host name.  This may return true if
   /// the URI has an empty host (e.g. "file:///tmp/foo"), while it returns
   /// false is the URI has not host component at all (e.g. "file:/tmp/foo").
@@ -89,20 +92,27 @@ class ARROW_EXPORT Uri {
 };
 
 /// Percent-encode the input string, for use e.g. as a URI query parameter.
+///
+/// This will escape directory separators, making this function unsuitable
+/// for encoding URI paths directly. See UriFromAbsolutePath() instead.
 ARROW_EXPORT
-std::string UriEscape(const std::string& s);
+std::string UriEscape(std::string_view s);
 
 ARROW_EXPORT
-std::string UriUnescape(const arrow::util::string_view s);
+std::string UriUnescape(std::string_view s);
 
 /// Encode a host for use within a URI, such as "localhost",
 /// "127.0.0.1", or "[::1]".
 ARROW_EXPORT
-std::string UriEncodeHost(const std::string& host);
+std::string UriEncodeHost(std::string_view host);
 
 /// Whether the string is a syntactically valid URI scheme according to RFC 3986.
 ARROW_EXPORT
-bool IsValidUriScheme(const arrow::util::string_view s);
+bool IsValidUriScheme(std::string_view s);
+
+/// Create a file uri from a given absolute path
+ARROW_EXPORT
+Result<std::string> UriFromAbsolutePath(std::string_view path);
 
 }  // namespace internal
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/uri_test.cc b/cpp/src/arrow/util/uri_test.cc
index 8cf93b2331d..4293dc73b01 100644
--- a/cpp/src/arrow/util/uri_test.cc
+++ b/cpp/src/arrow/util/uri_test.cc
@@ -33,12 +33,14 @@ TEST(UriEscape, Basics) {
   ASSERT_EQ(UriEscape(""), "");
   ASSERT_EQ(UriEscape("foo123"), "foo123");
   ASSERT_EQ(UriEscape("/El Niño/"), "%2FEl%20Ni%C3%B1o%2F");
+  ASSERT_EQ(UriEscape("arrow.apache.org"), "arrow.apache.org");
+  ASSERT_EQ(UriEscape("192.168.1.1"), "192.168.1.1");
 }
 
 TEST(UriEncodeHost, Basics) {
   ASSERT_EQ(UriEncodeHost("::1"), "[::1]");
-  ASSERT_EQ(UriEscape("arrow.apache.org"), "arrow.apache.org");
-  ASSERT_EQ(UriEscape("192.168.1.1"), "192.168.1.1");
+  ASSERT_EQ(UriEncodeHost("arrow.apache.org"), "arrow.apache.org");
+  ASSERT_EQ(UriEncodeHost("192.168.1.1"), "192.168.1.1");
 }
 
 TEST(IsValidUriScheme, Basics) {
@@ -121,6 +123,10 @@ TEST(Uri, ParsePath) {
   check_case("unix://localhost/tmp?", "unix", true, "localhost", "/tmp");
   check_case("unix://localhost/tmp?foo", "unix", true, "localhost", "/tmp");
   check_case("unix://localhost/tmp?foo=bar", "unix", true, "localhost", "/tmp");
+
+  // With escaped path characters
+  check_case("unix://localhost/tmp/some%20path/100%25%20%C3%A9l%C3%A9phant", "unix", true,
+             "localhost", "/tmp/some path/100% éléphant");
 }
 
 TEST(Uri, ParseQuery) {
@@ -255,8 +261,9 @@ TEST(Uri, FileScheme) {
   // https://tools.ietf.org/html/rfc8089
   Uri uri;
 
-  auto check_no_host = [&](std::string uri_string, std::string path) -> void {
+  auto check_file_no_host = [&](std::string uri_string, std::string path) -> void {
     ASSERT_OK(uri.Parse(uri_string));
+    ASSERT_TRUE(uri.is_file_scheme());
     ASSERT_EQ(uri.scheme(), "file");
     ASSERT_EQ(uri.host(), "");
     ASSERT_EQ(uri.path(), path);
@@ -264,9 +271,20 @@ TEST(Uri, FileScheme) {
     ASSERT_EQ(uri.password(), "");
   };
 
-  auto check_with_host = [&](std::string uri_string, std::string host,
-                             std::string path) -> void {
+  auto check_notfile_no_host = [&](std::string uri_string, std::string path) -> void {
+    ASSERT_OK(uri.Parse(uri_string));
+    ASSERT_FALSE(uri.is_file_scheme());
+    ASSERT_NE(uri.scheme(), "file");
+    ASSERT_EQ(uri.host(), "");
+    ASSERT_EQ(uri.path(), path);
+    ASSERT_EQ(uri.username(), "");
+    ASSERT_EQ(uri.password(), "");
+  };
+
+  auto check_file_with_host = [&](std::string uri_string, std::string host,
+                                  std::string path) -> void {
     ASSERT_OK(uri.Parse(uri_string));
+    ASSERT_TRUE(uri.is_file_scheme());
     ASSERT_EQ(uri.scheme(), "file");
     ASSERT_EQ(uri.host(), host);
     ASSERT_EQ(uri.path(), path);
@@ -280,16 +298,21 @@ TEST(Uri, FileScheme) {
 
   // Absolute paths
   // (no authority)
-  check_no_host("file:/", "/");
-  check_no_host("file:/foo/bar", "/foo/bar");
+  check_file_no_host("file:/", "/");
+  check_file_no_host("file:/foo1/bar", "/foo1/bar");
   // (empty authority)
-  check_no_host("file:///", "/");
-  check_no_host("file:///foo/bar", "/foo/bar");
+  check_file_no_host("file:///", "/");
+  check_file_no_host("file:///foo2/bar", "/foo2/bar");
+  // (not file scheme)
+  check_notfile_no_host("s3:/", "/");
+  check_notfile_no_host("s3:///foo3/bar", "/foo3/bar");
   // (non-empty authority)
-  check_with_host("file://localhost/", "localhost", "/");
-  check_with_host("file://localhost/foo/bar", "localhost", "/foo/bar");
-  check_with_host("file://hostname.com/", "hostname.com", "/");
-  check_with_host("file://hostname.com/foo/bar", "hostname.com", "/foo/bar");
+  check_file_with_host("file://localhost/", "localhost", "/");
+  check_file_with_host("file://localhost/foo/bar", "localhost", "/foo/bar");
+  check_file_with_host("file://hostname.com/", "hostname.com", "/");
+  check_file_with_host("file://hostname.com/foo/bar", "hostname.com", "/foo/bar");
+  // (authority with special chars, not 100% sure this is the right behavior)
+  check_file_with_host("file://some%20host/foo/bar", "some host", "/foo/bar");
 
 #ifdef _WIN32
   // Relative paths
@@ -298,14 +321,17 @@ TEST(Uri, FileScheme) {
 
   // Absolute paths
   // (no authority)
-  check_no_host("file:/C:/", "C:/");
-  check_no_host("file:/C:/foo/bar", "C:/foo/bar");
+  check_file_no_host("file:/C:/", "C:/");
+  check_file_no_host("file:/C:/foo/bar", "C:/foo/bar");
   // (empty authority)
-  check_no_host("file:///C:/", "C:/");
-  check_no_host("file:///C:/foo/bar", "C:/foo/bar");
+  check_file_no_host("file:///D:/", "D:/");
+  check_file_no_host("file:///D:/foo/bar", "D:/foo/bar");
+  // (not file scheme; so slash is prepended)
+  check_notfile_no_host("hive:///E:/", "/E:/");
+  check_notfile_no_host("hive:/E:/foo/bar", "/E:/foo/bar");
   // (non-empty authority)
-  check_with_host("file://server/share/", "server", "/share/");
-  check_with_host("file://server/share/foo/bar", "server", "/share/foo/bar");
+  check_file_with_host("file://server/share/", "server", "/share/");
+  check_file_with_host("file://server/share/foo/bar", "server", "/share/foo/bar");
 #endif
 }
 
@@ -324,5 +350,26 @@ TEST(Uri, ParseError) {
   ASSERT_RAISES(Invalid, uri.Parse(""));
 }
 
+TEST(UriFromAbsolutePath, Basics) {
+#ifdef _WIN32
+  ASSERT_OK_AND_EQ("file:///C:/foo/bar", UriFromAbsolutePath("C:\\foo\\bar"));
+  ASSERT_OK_AND_EQ("file:///C:/foo/bar", UriFromAbsolutePath("C:/foo/bar"));
+  ASSERT_OK_AND_EQ("file:///C:/some%20path/100%25%20%C3%A9l%C3%A9phant",
+                   UriFromAbsolutePath("C:/some path/100% éléphant"));
+
+  ASSERT_OK_AND_EQ("file://some/share/foo/bar",
+                   UriFromAbsolutePath("\\\\some\\share\\foo\\bar"));
+  ASSERT_OK_AND_EQ("file://some/share/foo/bar",
+                   UriFromAbsolutePath("//some/share/foo/bar"));
+  ASSERT_OK_AND_EQ("file://some%20share/some%20path/100%25%20%C3%A9l%C3%A9phant",
+                   UriFromAbsolutePath("//some share/some path/100% éléphant"));
+#else
+  ASSERT_OK_AND_EQ("file:///", UriFromAbsolutePath("/"));
+  ASSERT_OK_AND_EQ("file:///tmp/foo/bar", UriFromAbsolutePath("/tmp/foo/bar"));
+  ASSERT_OK_AND_EQ("file:///some%20path/100%25%20%C3%A9l%C3%A9phant",
+                   UriFromAbsolutePath("/some path/100% éléphant"));
+#endif
+}
+
 }  // namespace internal
 }  // namespace arrow
diff --git a/cpp/src/arrow/util/utf8.cc b/cpp/src/arrow/util/utf8.cc
index e589e1763e6..67f04709621 100644
--- a/cpp/src/arrow/util/utf8.cc
+++ b/cpp/src/arrow/util/utf8.cc
@@ -96,7 +96,7 @@ bool ValidateUTF8(const uint8_t* data, int64_t size) {
   return ValidateUTF8Inline(data, size);
 }
 
-bool ValidateUTF8(const util::string_view& str) { return ValidateUTF8Inline(str); }
+bool ValidateUTF8(const std::string_view& str) { return ValidateUTF8Inline(str); }
 
 static const uint8_t kBOM[] = {0xEF, 0xBB, 0xBF};
 
diff --git a/cpp/src/arrow/util/utf8.h b/cpp/src/arrow/util/utf8.h
index eab207d2a02..909113055d1 100644
--- a/cpp/src/arrow/util/utf8.h
+++ b/cpp/src/arrow/util/utf8.h
@@ -20,10 +20,10 @@
 #include <cstdint>
 #include <cstring>
 #include <string>
+#include <string_view>
 
 #include "arrow/type_fwd.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/visibility.h"
 
 namespace arrow {
@@ -41,7 +41,7 @@ ARROW_EXPORT void InitializeUTF8();
 
 ARROW_EXPORT bool ValidateUTF8(const uint8_t* data, int64_t size);
 
-ARROW_EXPORT bool ValidateUTF8(const util::string_view& str);
+ARROW_EXPORT bool ValidateUTF8(const std::string_view& str);
 
 // Skip UTF8 byte order mark, if any.
 ARROW_EXPORT
diff --git a/cpp/src/arrow/util/utf8_internal.h b/cpp/src/arrow/util/utf8_internal.h
index 9d2954e9d1c..0ce7dd76200 100644
--- a/cpp/src/arrow/util/utf8_internal.h
+++ b/cpp/src/arrow/util/utf8_internal.h
@@ -22,6 +22,7 @@
 #include <cstring>
 #include <memory>
 #include <string>
+#include <string_view>
 
 #if defined(ARROW_HAVE_NEON) || defined(ARROW_HAVE_SSE4_2)
 #include <xsimd/xsimd.hpp>
@@ -30,7 +31,6 @@
 #include "arrow/type_fwd.h"
 #include "arrow/util/macros.h"
 #include "arrow/util/simd.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/ubsan.h"
 #include "arrow/util/utf8.h"
 #include "arrow/util/visibility.h"
@@ -201,7 +201,7 @@ static inline bool ValidateUTF8Inline(const uint8_t* data, int64_t size) {
   return ARROW_PREDICT_TRUE(state == internal::kUTF8ValidateAccept);
 }
 
-static inline bool ValidateUTF8Inline(const util::string_view& str) {
+static inline bool ValidateUTF8Inline(const std::string_view& str) {
   const uint8_t* data = reinterpret_cast<const uint8_t*>(str.data());
   const size_t length = str.size();
 
@@ -266,7 +266,7 @@ static inline bool ValidateAscii(const uint8_t* data, int64_t len) {
 #endif
 }
 
-static inline bool ValidateAscii(const util::string_view& str) {
+static inline bool ValidateAscii(const std::string_view& str) {
   const uint8_t* data = reinterpret_cast<const uint8_t*>(str.data());
   const size_t length = str.size();
 
diff --git a/cpp/src/arrow/util/value_parsing.h b/cpp/src/arrow/util/value_parsing.h
index fbbbcf10f00..5193f0af750 100644
--- a/cpp/src/arrow/util/value_parsing.h
+++ b/cpp/src/arrow/util/value_parsing.h
@@ -31,6 +31,7 @@
 #include "arrow/type.h"
 #include "arrow/type_traits.h"
 #include "arrow/util/checked_cast.h"
+#include "arrow/util/config.h"
 #include "arrow/util/macros.h"
 #include "arrow/util/time.h"
 #include "arrow/util/visibility.h"
@@ -770,7 +771,7 @@ static inline bool ParseTimestampISO8601(const char* s, size_t length,
   return true;
 }
 
-#ifdef _WIN32
+#if defined(_WIN32) || defined(ARROW_WITH_MUSL)
 static constexpr bool kStrptimeSupportsZone = false;
 #else
 static constexpr bool kStrptimeSupportsZone = true;
diff --git a/cpp/src/arrow/util/value_parsing_benchmark.cc b/cpp/src/arrow/util/value_parsing_benchmark.cc
index 40d139316e5..2c4a32b7a1b 100644
--- a/cpp/src/arrow/util/value_parsing_benchmark.cc
+++ b/cpp/src/arrow/util/value_parsing_benchmark.cc
@@ -24,6 +24,7 @@
 #include <limits>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <type_traits>
 #include <vector>
 
@@ -32,7 +33,6 @@
 #include "arrow/testing/random.h"
 #include "arrow/type.h"
 #include "arrow/util/formatting.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/value_parsing.h"
 
 namespace arrow {
@@ -218,7 +218,7 @@ static void TimestampParsingStrptime(
 }
 
 struct DummyAppender {
-  Status operator()(util::string_view v) {
+  Status operator()(std::string_view v) {
     if (pos_ >= static_cast<int32_t>(v.size())) {
       pos_ = 0;
     }
diff --git a/cpp/src/arrow/util/variant.h b/cpp/src/arrow/util/variant.h
deleted file mode 100644
index 8bbce525178..00000000000
--- a/cpp/src/arrow/util/variant.h
+++ /dev/null
@@ -1,443 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-#pragma once
-
-#include <cstddef>
-#include <exception>
-#include <type_traits>
-#include <utility>
-
-#include "arrow/util/macros.h"
-#include "arrow/util/type_traits.h"
-
-namespace arrow {
-namespace util {
-
-/// \brief a std::variant-like discriminated union
-///
-/// Simplifications from std::variant:
-///
-/// - Strictly defaultable. The first type of T... should be nothrow default constructible
-///   and it will be used for default Variants.
-///
-/// - Never valueless_by_exception. std::variant supports a state outside those specified
-///   by T... to which it can return in the event that a constructor throws. If a Variant
-///   would become valueless_by_exception it will instead return to its default state.
-///
-/// - Strictly nothrow move constructible and assignable
-///
-/// - Less sophisticated type deduction. std::variant<bool, std::string>("hello") will
-///   intelligently construct std::string while Variant<bool, std::string>("hello") will
-///   construct bool.
-///
-/// - Either both copy constructible and assignable or neither (std::variant independently
-///   enables copy construction and copy assignment). Variant is copy constructible if
-///   each of T... is copy constructible and assignable.
-///
-/// - Slimmer interface; several members of std::variant are omitted.
-///
-/// - Throws no exceptions; if a bad_variant_access would be thrown Variant will instead
-///   segfault (nullptr dereference).
-///
-/// - Mutable visit takes a pointer instead of mutable reference or rvalue reference,
-///   which is more conformant with our code style.
-template <typename... T>
-class Variant;
-
-namespace detail {
-
-template <typename T, typename = void>
-struct is_equality_comparable : std::false_type {};
-
-template <typename T>
-struct is_equality_comparable<
-    T, typename std::enable_if<std::is_convertible<
-           decltype(std::declval<T>() == std::declval<T>()), bool>::value>::type>
-    : std::true_type {};
-
-template <bool C, typename T, typename E>
-using conditional_t = typename std::conditional<C, T, E>::type;
-
-template <typename T>
-struct type_constant {
-  using type = T;
-};
-
-template <typename...>
-struct first;
-
-template <typename H, typename... T>
-struct first<H, T...> {
-  using type = H;
-};
-
-template <typename T>
-using decay_t = typename std::decay<T>::type;
-
-template <bool...>
-struct all : std::true_type {};
-
-template <bool H, bool... T>
-struct all<H, T...> : conditional_t<H, all<T...>, std::false_type> {};
-
-struct delete_copy_constructor {
-  template <typename>
-  struct type {
-    type() = default;
-    type(const type& other) = delete;
-    type& operator=(const type& other) = delete;
-  };
-};
-
-struct explicit_copy_constructor {
-  template <typename Copyable>
-  struct type {
-    type() = default;
-    type(const type& other) { static_cast<const Copyable&>(other).copy_to(this); }
-    type& operator=(const type& other) {
-      static_cast<Copyable*>(this)->destroy();
-      static_cast<const Copyable&>(other).copy_to(this);
-      return *this;
-    }
-  };
-};
-
-template <typename... T>
-struct VariantStorage {
-  VariantStorage() = default;
-  VariantStorage(const VariantStorage&) {}
-  VariantStorage& operator=(const VariantStorage&) { return *this; }
-  VariantStorage(VariantStorage&&) noexcept {}
-  VariantStorage& operator=(VariantStorage&&) noexcept { return *this; }
-  ~VariantStorage() {
-    static_assert(offsetof(VariantStorage, data_) == 0,
-                  "(void*)&VariantStorage::data_ == (void*)this");
-  }
-
-  typename arrow::internal::aligned_union<0, T...>::type data_;
-  uint8_t index_ = 0;
-};
-
-template <typename V, typename...>
-struct VariantImpl;
-
-template <typename... T>
-struct VariantImpl<Variant<T...>> : VariantStorage<T...> {
-  static void index_of() noexcept {}
-  void destroy() noexcept {}
-  void move_to(...) noexcept {}
-  void copy_to(...) const {}
-
-  template <typename R, typename Visitor>
-  [[noreturn]] R visit_const(Visitor&& visitor) const {
-    std::terminate();
-  }
-  template <typename R, typename Visitor>
-  [[noreturn]] R visit_mutable(Visitor&& visitor) {
-    std::terminate();
-  }
-};
-
-template <typename... M, typename H, typename... T>
-struct VariantImpl<Variant<M...>, H, T...> : VariantImpl<Variant<M...>, T...> {
-  using VariantType = Variant<M...>;
-  using Impl = VariantImpl<VariantType, T...>;
-
-  static constexpr uint8_t kIndex = sizeof...(M) - sizeof...(T) - 1;
-
-  VariantImpl() = default;
-
-  using VariantImpl<VariantType, T...>::VariantImpl;
-  using Impl::operator=;
-  using Impl::index_of;
-
-  explicit VariantImpl(H value) {
-    new (this) H(std::move(value));
-    this->index_ = kIndex;
-  }
-
-  VariantImpl& operator=(H value) {
-    static_cast<VariantType*>(this)->destroy();
-    new (this) H(std::move(value));
-    this->index_ = kIndex;
-    return *this;
-  }
-
-  H& cast_this() { return *reinterpret_cast<H*>(this); }
-  const H& cast_this() const { return *reinterpret_cast<const H*>(this); }
-
-  void move_to(VariantType* target) noexcept {
-    if (this->index_ == kIndex) {
-      new (target) H(std::move(cast_this()));
-      target->index_ = kIndex;
-    } else {
-      Impl::move_to(target);
-    }
-  }
-
-  // Templated to avoid instantiation in case H is not copy constructible
-  template <typename Void>
-  void copy_to(Void* generic_target) const {
-    const auto target = static_cast<VariantType*>(generic_target);
-    try {
-      if (this->index_ == kIndex) {
-        new (target) H(cast_this());
-        target->index_ = kIndex;
-      } else {
-        Impl::copy_to(target);
-      }
-    } catch (...) {
-      target->construct_default();
-      throw;
-    }
-  }
-
-  void destroy() noexcept {
-    if (this->index_ == kIndex) {
-      if (!std::is_trivially_destructible<H>::value) {
-        cast_this().~H();
-      }
-    } else {
-      Impl::destroy();
-    }
-  }
-
-  static constexpr std::integral_constant<uint8_t, kIndex> index_of(
-      const type_constant<H>&) {
-    return {};
-  }
-
-  template <typename R, typename Visitor>
-  R visit_const(Visitor&& visitor) const {
-    if (this->index_ == kIndex) {
-      return std::forward<Visitor>(visitor)(cast_this());
-    }
-    return Impl::template visit_const<R>(std::forward<Visitor>(visitor));
-  }
-
-  template <typename R, typename Visitor>
-  R visit_mutable(Visitor&& visitor) {
-    if (this->index_ == kIndex) {
-      return std::forward<Visitor>(visitor)(&cast_this());
-    }
-    return Impl::template visit_mutable<R>(std::forward<Visitor>(visitor));
-  }
-};
-
-}  // namespace detail
-
-template <typename... T>
-class Variant : detail::VariantImpl<Variant<T...>, T...>,
-                detail::conditional_t<
-                    detail::all<(std::is_copy_constructible<T>::value &&
-                                 std::is_copy_assignable<T>::value)...>::value,
-                    detail::explicit_copy_constructor,
-                    detail::delete_copy_constructor>::template type<Variant<T...>> {
-  template <typename U>
-  static constexpr uint8_t index_of() {
-    return Impl::index_of(detail::type_constant<U>{});
-  }
-
-  using Impl = detail::VariantImpl<Variant<T...>, T...>;
-
- public:
-  using default_type = typename util::detail::first<T...>::type;
-
-  Variant() noexcept { construct_default(); }
-
-  Variant(const Variant& other) = default;
-  Variant& operator=(const Variant& other) = default;
-  Variant& operator=(Variant&& other) noexcept {
-    this->destroy();
-    other.move_to(this);
-    return *this;
-  }
-
-  using Impl::Impl;
-  using Impl::operator=;
-
-  Variant(Variant&& other) noexcept { other.move_to(this); }
-
-  ~Variant() {
-    static_assert(offsetof(Variant, data_) == 0, "(void*)&Variant::data_ == (void*)this");
-    this->destroy();
-  }
-
-  /// \brief Return the zero-based type index of the value held by the variant
-  uint8_t index() const noexcept { return this->index_; }
-
-  /// \brief Get a const pointer to the value held by the variant
-  ///
-  /// If the type given as template argument doesn't match, a null pointer is returned.
-  template <typename U, uint8_t I = index_of<U>()>
-  const U* get() const noexcept {
-    return index() == I ? reinterpret_cast<const U*>(this) : NULLPTR;
-  }
-
-  /// \brief Get a pointer to the value held by the variant
-  ///
-  /// If the type given as template argument doesn't match, a null pointer is returned.
-  template <typename U, uint8_t I = index_of<U>()>
-  U* get() noexcept {
-    return index() == I ? reinterpret_cast<U*>(this) : NULLPTR;
-  }
-
-  /// \brief Replace the value held by the variant
-  ///
-  /// The intended type must be given as a template argument.
-  /// The value is constructed in-place using the given function arguments.
-  template <typename U, typename... A, uint8_t I = index_of<U>()>
-  void emplace(A&&... args) {
-    try {
-      this->destroy();
-      new (this) U(std::forward<A>(args)...);
-      this->index_ = I;
-    } catch (...) {
-      construct_default();
-      throw;
-    }
-  }
-
-  template <typename U, typename E, typename... A, uint8_t I = index_of<U>()>
-  void emplace(std::initializer_list<E> il, A&&... args) {
-    try {
-      this->destroy();
-      new (this) U(il, std::forward<A>(args)...);
-      this->index_ = I;
-    } catch (...) {
-      construct_default();
-      throw;
-    }
-  }
-
-  /// \brief Swap with another variant's contents
-  void swap(Variant& other) noexcept {  // NOLINT google-runtime-references
-    Variant tmp = std::move(other);
-    other = std::move(*this);
-    *this = std::move(tmp);
-  }
-
-  using Impl::visit_const;
-  using Impl::visit_mutable;
-
- private:
-  void construct_default() noexcept {
-    new (this) default_type();
-    this->index_ = 0;
-  }
-
-  template <typename V>
-  friend struct detail::explicit_copy_constructor::type;
-
-  template <typename V, typename...>
-  friend struct detail::VariantImpl;
-};
-
-/// \brief Call polymorphic visitor on a const variant's value
-///
-/// The visitor will receive a const reference to the value held by the variant.
-/// It must define overloads for each possible variant type.
-/// The overloads should all return the same type (no attempt
-/// is made to find a generalized return type).
-template <typename Visitor, typename... T,
-          typename R = decltype(std::declval<Visitor&&>()(
-              std::declval<const typename Variant<T...>::default_type&>()))>
-R visit(Visitor&& visitor, const util::Variant<T...>& v) {
-  return v.template visit_const<R>(std::forward<Visitor>(visitor));
-}
-
-/// \brief Call polymorphic visitor on a non-const variant's value
-///
-/// The visitor will receive a pointer to the value held by the variant.
-/// It must define overloads for each possible variant type.
-/// The overloads should all return the same type (no attempt
-/// is made to find a generalized return type).
-template <typename Visitor, typename... T,
-          typename R = decltype(std::declval<Visitor&&>()(
-              std::declval<typename Variant<T...>::default_type*>()))>
-R visit(Visitor&& visitor, util::Variant<T...>* v) {
-  return v->template visit_mutable<R>(std::forward<Visitor>(visitor));
-}
-
-/// \brief Get a const reference to the value held by the variant
-///
-/// If the type given as template argument doesn't match, behavior is undefined
-/// (a null pointer will be dereferenced).
-template <typename U, typename... T>
-const U& get(const Variant<T...>& v) {
-  return *v.template get<U>();
-}
-
-/// \brief Get a reference to the value held by the variant
-///
-/// If the type given as template argument doesn't match, behavior is undefined
-/// (a null pointer will be dereferenced).
-template <typename U, typename... T>
-U& get(Variant<T...>& v) {
-  return *v.template get<U>();
-}
-
-/// \brief Get a const pointer to the value held by the variant
-///
-/// If the type given as template argument doesn't match, a nullptr is returned.
-template <typename U, typename... T>
-const U* get_if(const Variant<T...>* v) {
-  return v->template get<U>();
-}
-
-/// \brief Get a pointer to the value held by the variant
-///
-/// If the type given as template argument doesn't match, a nullptr is returned.
-template <typename U, typename... T>
-U* get_if(Variant<T...>* v) {
-  return v->template get<U>();
-}
-
-namespace detail {
-
-template <typename... T>
-struct VariantsEqual {
-  template <typename U>
-  bool operator()(const U& r) const {
-    return get<U>(l_) == r;
-  }
-  const Variant<T...>& l_;
-};
-
-}  // namespace detail
-
-template <typename... T, typename = typename std::enable_if<detail::all<
-                             detail::is_equality_comparable<T>::value...>::value>>
-bool operator==(const Variant<T...>& l, const Variant<T...>& r) {
-  if (l.index() != r.index()) return false;
-  return visit(detail::VariantsEqual<T...>{l}, r);
-}
-
-template <typename... T>
-auto operator!=(const Variant<T...>& l, const Variant<T...>& r) -> decltype(l == r) {
-  return !(l == r);
-}
-
-/// \brief Return whether the variant holds a value of the given type
-template <typename U, typename... T>
-bool holds_alternative(const Variant<T...>& v) {
-  return v.template get<U>();
-}
-
-}  // namespace util
-}  // namespace arrow
diff --git a/cpp/src/arrow/util/variant_benchmark.cc b/cpp/src/arrow/util/variant_benchmark.cc
deleted file mode 100644
index af3fafb8b0e..00000000000
--- a/cpp/src/arrow/util/variant_benchmark.cc
+++ /dev/null
@@ -1,248 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-#include "benchmark/benchmark.h"
-
-#include <cstdint>
-#include <memory>
-#include <string>
-#include <type_traits>
-#include <vector>
-
-#include "arrow/array.h"
-#include "arrow/chunked_array.h"
-#include "arrow/datum.h"
-#include "arrow/status.h"
-#include "arrow/testing/gtest_util.h"
-#include "arrow/testing/random.h"
-#include "arrow/type.h"
-#include "arrow/util/checked_cast.h"
-#include "arrow/util/variant.h"
-
-namespace arrow {
-
-using internal::checked_pointer_cast;
-
-namespace util {
-
-using TrivialVariant = arrow::util::Variant<int32_t, float>;
-
-using NonTrivialVariant = arrow::util::Variant<int32_t, std::string>;
-
-std::vector<int32_t> MakeInts(int64_t nitems) {
-  auto rng = arrow::random::RandomArrayGenerator(42);
-  auto array = checked_pointer_cast<Int32Array>(rng.Int32(nitems, 0, 1 << 30));
-  std::vector<int32_t> items(nitems);
-  for (int64_t i = 0; i < nitems; ++i) {
-    items[i] = array->Value(i);
-  }
-  return items;
-}
-
-std::vector<float> MakeFloats(int64_t nitems) {
-  auto rng = arrow::random::RandomArrayGenerator(42);
-  auto array = checked_pointer_cast<FloatArray>(rng.Float32(nitems, 0.0, 1.0));
-  std::vector<float> items(nitems);
-  for (int64_t i = 0; i < nitems; ++i) {
-    items[i] = array->Value(i);
-  }
-  return items;
-}
-
-std::vector<std::string> MakeStrings(int64_t nitems) {
-  auto rng = arrow::random::RandomArrayGenerator(42);
-  // Some std::string's will use short string optimization, but not all...
-  auto array = checked_pointer_cast<StringArray>(rng.String(nitems, 5, 40));
-  std::vector<std::string> items(nitems);
-  for (int64_t i = 0; i < nitems; ++i) {
-    items[i] = array->GetString(i);
-  }
-  return items;
-}
-
-static void ConstructTrivialVariant(benchmark::State& state) {
-  const int64_t N = 10000;
-  const auto ints = MakeInts(N);
-  const auto floats = MakeFloats(N);
-
-  for (auto _ : state) {
-    for (int64_t i = 0; i < N; ++i) {
-      // About type selection: we ensure 50% of each type, but try to avoid
-      // branch mispredictions by creating runs of the same type.
-      if (i & 0x10) {
-        TrivialVariant v{ints[i]};
-        const int32_t* val = &arrow::util::get<int32_t>(v);
-        benchmark::DoNotOptimize(val);
-      } else {
-        TrivialVariant v{floats[i]};
-        const float* val = &arrow::util::get<float>(v);
-        benchmark::DoNotOptimize(val);
-      }
-    }
-  }
-
-  state.SetItemsProcessed(state.iterations() * N);
-}
-
-static void ConstructNonTrivialVariant(benchmark::State& state) {
-  const int64_t N = 10000;
-  const auto ints = MakeInts(N);
-  const auto strings = MakeStrings(N);
-
-  for (auto _ : state) {
-    for (int64_t i = 0; i < N; ++i) {
-      if (i & 0x10) {
-        NonTrivialVariant v{ints[i]};
-        const int32_t* val = &arrow::util::get<int32_t>(v);
-        benchmark::DoNotOptimize(val);
-      } else {
-        NonTrivialVariant v{strings[i]};
-        const std::string* val = &arrow::util::get<std::string>(v);
-        benchmark::DoNotOptimize(val);
-      }
-    }
-  }
-
-  state.SetItemsProcessed(state.iterations() * N);
-}
-
-struct VariantVisitor {
-  int64_t total = 0;
-
-  void operator()(const int32_t& v) { total += v; }
-  void operator()(const float& v) {
-    // Avoid potentially costly float-to-int conversion
-    int32_t x;
-    memcpy(&x, &v, 4);
-    total += x;
-  }
-  void operator()(const std::string& v) { total += static_cast<int64_t>(v.length()); }
-};
-
-template <typename VariantType>
-static void VisitVariant(benchmark::State& state,
-                         const std::vector<VariantType>& variants) {
-  for (auto _ : state) {
-    VariantVisitor visitor;
-    for (const auto& v : variants) {
-      visit(visitor, v);
-    }
-    benchmark::DoNotOptimize(visitor.total);
-  }
-
-  state.SetItemsProcessed(state.iterations() * variants.size());
-}
-
-static void VisitTrivialVariant(benchmark::State& state) {
-  const int64_t N = 10000;
-  const auto ints = MakeInts(N);
-  const auto floats = MakeFloats(N);
-
-  std::vector<TrivialVariant> variants;
-  variants.reserve(N);
-  for (int64_t i = 0; i < N; ++i) {
-    if (i & 0x10) {
-      variants.emplace_back(ints[i]);
-    } else {
-      variants.emplace_back(floats[i]);
-    }
-  }
-
-  VisitVariant(state, variants);
-}
-
-static void VisitNonTrivialVariant(benchmark::State& state) {
-  const int64_t N = 10000;
-  const auto ints = MakeInts(N);
-  const auto strings = MakeStrings(N);
-
-  std::vector<NonTrivialVariant> variants;
-  variants.reserve(N);
-  for (int64_t i = 0; i < N; ++i) {
-    if (i & 0x10) {
-      variants.emplace_back(ints[i]);
-    } else {
-      variants.emplace_back(strings[i]);
-    }
-  }
-
-  VisitVariant(state, variants);
-}
-
-static void ConstructDatum(benchmark::State& state) {
-  const int64_t N = 10000;
-  auto array = *MakeArrayOfNull(int8(), 100);
-  auto chunked_array = std::make_shared<ChunkedArray>(ArrayVector{array, array});
-
-  for (auto _ : state) {
-    for (int64_t i = 0; i < N; ++i) {
-      if (i & 0x10) {
-        Datum datum{array};
-        const ArrayData* val = datum.array().get();
-        benchmark::DoNotOptimize(val);
-      } else {
-        Datum datum{chunked_array};
-        const ChunkedArray* val = datum.chunked_array().get();
-        benchmark::DoNotOptimize(val);
-      }
-    }
-  }
-
-  state.SetItemsProcessed(state.iterations() * N);
-}
-
-static void VisitDatum(benchmark::State& state) {
-  const int64_t N = 10000;
-  auto array = *MakeArrayOfNull(int8(), 100);
-  auto chunked_array = std::make_shared<ChunkedArray>(ArrayVector{array, array});
-
-  std::vector<Datum> datums;
-  datums.reserve(N);
-  for (int64_t i = 0; i < N; ++i) {
-    if (i & 0x10) {
-      datums.emplace_back(array);
-    } else {
-      datums.emplace_back(chunked_array);
-    }
-  }
-
-  for (auto _ : state) {
-    int64_t total = 0;
-    for (const auto& datum : datums) {
-      // The .is_XXX() methods are the usual idiom when visiting a Datum,
-      // rather than the visit() function.
-      if (datum.is_array()) {
-        total += datum.array()->length;
-      } else {
-        total += datum.chunked_array()->length();
-      }
-    }
-    benchmark::DoNotOptimize(total);
-  }
-
-  state.SetItemsProcessed(state.iterations() * datums.size());
-}
-
-BENCHMARK(ConstructTrivialVariant);
-BENCHMARK(ConstructNonTrivialVariant);
-BENCHMARK(VisitTrivialVariant);
-BENCHMARK(VisitNonTrivialVariant);
-BENCHMARK(ConstructDatum);
-BENCHMARK(VisitDatum);
-
-}  // namespace util
-}  // namespace arrow
diff --git a/cpp/src/arrow/util/variant_test.cc b/cpp/src/arrow/util/variant_test.cc
deleted file mode 100644
index f94d1b6ccf8..00000000000
--- a/cpp/src/arrow/util/variant_test.cc
+++ /dev/null
@@ -1,345 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-#include "arrow/util/variant.h"
-
-#include <functional>
-#include <memory>
-#include <string>
-#include <utility>
-#include <vector>
-
-#include <gmock/gmock.h>
-#include <gtest/gtest.h>
-
-#include "arrow/testing/gtest_compat.h"
-
-namespace arrow {
-
-namespace util {
-namespace {
-
-using ::testing::Eq;
-
-template <typename H, typename... T>
-void AssertDefaultConstruction() {
-  using variant_type = Variant<H, T...>;
-
-  static_assert(std::is_nothrow_default_constructible<variant_type>::value, "");
-
-  variant_type v;
-  EXPECT_EQ(v.index(), 0);
-  EXPECT_EQ(get<H>(v), H{});
-}
-
-TEST(Variant, DefaultConstruction) {
-  AssertDefaultConstruction<int>();
-  AssertDefaultConstruction<int, std::string>();
-  AssertDefaultConstruction<std::string, int>();
-  AssertDefaultConstruction<std::unique_ptr<int>>();
-  AssertDefaultConstruction<std::vector<int>, int>();
-  AssertDefaultConstruction<bool, std::string, std::unique_ptr<int>, void*,
-                            std::true_type>();
-  AssertDefaultConstruction<std::nullptr_t, std::unique_ptr<int>, void*, bool,
-                            std::string, std::true_type>();
-}
-
-template <typename V, typename T>
-struct AssertCopyConstructionOne {
-  void operator()(uint8_t index) {
-    V v{member_};
-    EXPECT_EQ(v.index(), index);
-    EXPECT_EQ(get<T>(v), member_);
-
-    V copy{v};
-    EXPECT_EQ(copy.index(), v.index());
-    EXPECT_EQ(get<T>(copy), get<T>(v));
-    EXPECT_EQ(copy, v);
-
-    V assigned;
-    assigned = member_;
-    EXPECT_EQ(assigned.index(), index);
-    EXPECT_EQ(get<T>(assigned), member_);
-
-    assigned = v;
-    EXPECT_EQ(assigned.index(), v.index());
-    EXPECT_EQ(get<T>(assigned), get<T>(v));
-    EXPECT_EQ(assigned, v);
-  }
-
-  const T& member_;
-};
-
-template <typename... T>
-void AssertCopyConstruction(T... member) {
-  uint8_t index = 0;
-  for (auto Assert : {std::function<void(uint8_t)>(
-           AssertCopyConstructionOne<Variant<T...>, T>{member})...}) {
-    Assert(index++);
-  }
-}
-
-template <typename... T>
-void AssertCopyConstructionDisabled() {
-  static_assert(!std::is_copy_constructible<Variant<T...>>::value,
-                "copy construction was not disabled");
-}
-
-TEST(Variant, CopyConstruction) {
-  // if any member is not copy constructible then Variant is not copy constructible
-  AssertCopyConstructionDisabled<std::unique_ptr<int>>();
-  AssertCopyConstructionDisabled<std::unique_ptr<int>, std::string>();
-  AssertCopyConstructionDisabled<std::string, int, bool, std::unique_ptr<int>>();
-
-  AssertCopyConstruction(32, std::string("hello"), true);
-  AssertCopyConstruction(std::string("world"), false, 53);
-  AssertCopyConstruction(nullptr, std::true_type{}, std::string("!"));
-  AssertCopyConstruction(std::vector<int>{1, 3, 3, 7}, "C string");
-
-  // copy assignment operator is not used
-  struct CopyAssignThrows {
-    CopyAssignThrows() = default;
-    CopyAssignThrows(const CopyAssignThrows&) = default;
-
-    CopyAssignThrows& operator=(const CopyAssignThrows&) { throw 42; }
-
-    CopyAssignThrows(CopyAssignThrows&&) = default;
-    CopyAssignThrows& operator=(CopyAssignThrows&&) = default;
-
-    bool operator==(const CopyAssignThrows&) const { return true; }
-  };
-  EXPECT_NO_THROW(AssertCopyConstruction(CopyAssignThrows{}));
-}
-
-TEST(Variant, Emplace) {
-  using variant_type = Variant<std::string, std::vector<int>, int>;
-  variant_type v;
-
-  v.emplace<int>();
-  EXPECT_EQ(v, variant_type{int{}});
-
-  v.emplace<std::string>("hello");
-  EXPECT_EQ(v, variant_type{std::string("hello")});
-
-  v.emplace<std::vector<int>>({1, 3, 3, 7});
-  EXPECT_EQ(v, variant_type{std::vector<int>({1, 3, 3, 7})});
-}
-
-TEST(Variant, MoveConstruction) {
-  struct noop_delete {
-    void operator()(...) const {}
-  };
-  using ptr = std::unique_ptr<int, noop_delete>;
-  static_assert(!std::is_copy_constructible<ptr>::value, "");
-
-  using variant_type = Variant<int, ptr>;
-
-  int tag = 42;
-  auto ExpectIsTag = [&](const variant_type& v) {
-    EXPECT_EQ(v.index(), 1);
-    EXPECT_EQ(get<ptr>(v).get(), &tag);
-  };
-
-  ptr p;
-
-  // move construction from member
-  p.reset(&tag);
-  variant_type v0{std::move(p)};
-  ExpectIsTag(v0);
-
-  // move assignment from member
-  p.reset(&tag);
-  v0 = std::move(p);
-  ExpectIsTag(v0);
-
-  // move construction from other variant
-  variant_type v1{std::move(v0)};
-  ExpectIsTag(v1);
-
-  // move assignment from other variant
-  p.reset(&tag);
-  variant_type v2{std::move(p)};
-  v1 = std::move(v2);
-  ExpectIsTag(v1);
-
-  // type changing move assignment from member
-  variant_type v3;
-  EXPECT_NE(v3.index(), 1);
-  p.reset(&tag);
-  v3 = std::move(p);
-  ExpectIsTag(v3);
-
-  // type changing move assignment from other variant
-  variant_type v4;
-  EXPECT_NE(v4.index(), 1);
-  v4 = std::move(v3);
-  ExpectIsTag(v4);
-}
-
-TEST(Variant, ExceptionSafety) {
-  struct {
-  } actually_throw;
-
-  struct {
-  } dont_throw;
-
-  struct ConstructorThrows {
-    explicit ConstructorThrows(decltype(actually_throw)) { throw 42; }
-    explicit ConstructorThrows(decltype(dont_throw)) {}
-
-    ConstructorThrows(const ConstructorThrows&) { throw 42; }
-
-    ConstructorThrows& operator=(const ConstructorThrows&) = default;
-    ConstructorThrows(ConstructorThrows&&) = default;
-    ConstructorThrows& operator=(ConstructorThrows&&) = default;
-  };
-
-  Variant<int, ConstructorThrows> v;
-
-  // constructor throws during emplacement
-  EXPECT_THROW(v.emplace<ConstructorThrows>(actually_throw), int);
-  // safely returned to the default state
-  EXPECT_EQ(v.index(), 0);
-
-  // constructor throws during copy assignment from member
-  EXPECT_THROW(
-      {
-        const ConstructorThrows throws(dont_throw);
-        v = throws;
-      },
-      int);
-  // safely returned to the default state
-  EXPECT_EQ(v.index(), 0);
-}
-
-// XXX GTest 1.11 exposes a `using std::visit` in its headers which
-// somehow gets preferred to `arrow::util::visit`, even if there is
-// a using clause (perhaps because of macros such as EXPECT_EQ).
-template <typename... Args>
-void DoVisit(Args&&... args) {
-  return ::arrow::util::visit(std::forward<Args>(args)...);
-}
-
-template <typename T, typename... Args>
-void AssertVisitedEquals(const T& expected, Args&&... args) {
-  const auto actual = ::arrow::util::visit(std::forward<Args>(args)...);
-  EXPECT_EQ(expected, actual);
-}
-
-template <typename V, typename T>
-struct AssertVisitOne {
-  void operator()(const T& actual) { EXPECT_EQ(&actual, expected_); }
-
-  void operator()(T* actual) { EXPECT_EQ(actual, expected_); }
-
-  template <typename U>
-  void operator()(const U&) {
-    FAIL() << "the expected type was not visited.";
-  }
-
-  template <typename U>
-  void operator()(U*) {
-    FAIL() << "the expected type was not visited.";
-  }
-
-  explicit AssertVisitOne(T member) : member_(std::move(member)) {}
-
-  void operator()() {
-    V v{member_};
-    expected_ = &get<T>(v);
-    DoVisit(*this, v);
-    DoVisit(*this, &v);
-  }
-
-  T member_;
-  const T* expected_;
-};
-
-// Try visiting all alternatives on a Variant<T...>
-template <typename... T>
-void AssertVisitAll(T... member) {
-  for (auto Assert :
-       {std::function<void()>(AssertVisitOne<Variant<T...>, T>{member})...}) {
-    Assert();
-  }
-}
-
-TEST(VariantTest, Visit) {
-  AssertVisitAll(32, std::string("hello"), true);
-  AssertVisitAll(std::string("world"), false, 53);
-  AssertVisitAll(nullptr, std::true_type{}, std::string("!"));
-  AssertVisitAll(std::vector<int>{1, 3, 3, 7}, "C string");
-
-  using int_or_string = Variant<int, std::string>;
-  int_or_string v;
-
-  // value returning visit:
-  struct {
-    int_or_string operator()(int i) { return int_or_string{i * 2}; }
-    int_or_string operator()(const std::string& s) { return int_or_string{s + s}; }
-  } Double;
-
-  v = 7;
-  AssertVisitedEquals(int_or_string{14}, Double, v);
-
-  v = "lolol";
-  AssertVisitedEquals(int_or_string{"lolollolol"}, Double, v);
-
-  // mutating visit:
-  struct {
-    void operator()(int* i) { *i *= 2; }
-    void operator()(std::string* s) { *s += *s; }
-  } DoubleInplace;
-
-  v = 7;
-  DoVisit(DoubleInplace, &v);
-  EXPECT_EQ(v, int_or_string{14});
-
-  v = "lolol";
-  DoVisit(DoubleInplace, &v);
-  EXPECT_EQ(v, int_or_string{"lolollolol"});
-}
-
-TEST(VariantTest, Equality) {
-  using int_or_double = Variant<int, double>;
-
-  auto eq = [](const int_or_double& a, const int_or_double& b) {
-    EXPECT_TRUE(a == b);
-    EXPECT_FALSE(a != b);
-  };
-  auto ne = [](const int_or_double& a, const int_or_double& b) {
-    EXPECT_TRUE(a != b);
-    EXPECT_FALSE(a == b);
-  };
-
-  int_or_double u, v;
-  u.emplace<int>(1);
-  v.emplace<int>(1);
-  eq(u, v);
-  v.emplace<int>(2);
-  ne(u, v);
-  v.emplace<double>(1.0);
-  ne(u, v);
-  u.emplace<double>(1.0);
-  eq(u, v);
-  u.emplace<double>(2.0);
-  ne(u, v);
-}
-
-}  // namespace
-}  // namespace util
-}  // namespace arrow
diff --git a/cpp/src/arrow/util/visibility.h b/cpp/src/arrow/util/visibility.h
index dd9ac45e9bb..b0fd790295b 100644
--- a/cpp/src/arrow/util/visibility.h
+++ b/cpp/src/arrow/util/visibility.h
@@ -18,28 +18,66 @@
 #pragma once
 
 #if defined(_WIN32) || defined(__CYGWIN__)
+// Windows
+
 #if defined(_MSC_VER)
 #pragma warning(disable : 4251)
 #else
 #pragma GCC diagnostic ignored "-Wattributes"
 #endif
 
+#if defined(__cplusplus) && defined(__GNUC__) && !defined(__clang__)
+// Use C++ attribute syntax where possible to avoid GCC parser bug
+// (https://stackoverflow.com/questions/57993818/gcc-how-to-combine-attribute-dllexport-and-nodiscard-in-a-struct-de)
+#define ARROW_DLLEXPORT [[gnu::dllexport]]
+#define ARROW_DLLIMPORT [[gnu::dllimport]]
+#else
+#define ARROW_DLLEXPORT __declspec(dllexport)
+#define ARROW_DLLIMPORT __declspec(dllimport)
+#endif
+
 #ifdef ARROW_STATIC
 #define ARROW_EXPORT
+#define ARROW_FRIEND_EXPORT
+#define ARROW_TEMPLATE_EXPORT
 #elif defined(ARROW_EXPORTING)
-#define ARROW_EXPORT __declspec(dllexport)
+#define ARROW_EXPORT ARROW_DLLEXPORT
+// For some reason [[gnu::dllexport]] doesn't work well with friend declarations
+#define ARROW_FRIEND_EXPORT __declspec(dllexport)
+#define ARROW_TEMPLATE_EXPORT ARROW_DLLEXPORT
 #else
-#define ARROW_EXPORT __declspec(dllimport)
+#define ARROW_EXPORT ARROW_DLLIMPORT
+#define ARROW_FRIEND_EXPORT __declspec(dllimport)
+#define ARROW_TEMPLATE_EXPORT ARROW_DLLIMPORT
 #endif
 
 #define ARROW_NO_EXPORT
 #define ARROW_FORCE_INLINE __forceinline
-#else  // Not Windows
+
+#else
+
+// Non-Windows
+
+#define ARROW_FORCE_INLINE
+
+#if defined(__cplusplus) && (defined(__GNUC__) || defined(__clang__))
 #ifndef ARROW_EXPORT
-#define ARROW_EXPORT __attribute__((visibility("default")))
+#define ARROW_EXPORT [[gnu::visibility("default")]]
 #endif
 #ifndef ARROW_NO_EXPORT
-#define ARROW_NO_EXPORT __attribute__((visibility("hidden")))
-#define ARROW_FORCE_INLINE
+#define ARROW_NO_EXPORT [[gnu::visibility("hidden")]]
 #endif
+#else
+// Not C++, or not gcc/clang
+#ifndef ARROW_EXPORT
+#define ARROW_EXPORT
+#endif
+#ifndef ARROW_NO_EXPORT
+#define ARROW_NO_EXPORT
+#endif
+#endif
+
+#define ARROW_FRIEND_EXPORT
+#define ARROW_TEMPLATE_EXPORT
+
 #endif  // Non-Windows
diff --git a/cpp/src/arrow/vendored/base64.cpp b/cpp/src/arrow/vendored/base64.cpp
index 0de11955b7d..6f53c0524e7 100644
--- a/cpp/src/arrow/vendored/base64.cpp
+++ b/cpp/src/arrow/vendored/base64.cpp
@@ -87,13 +87,13 @@ static std::string base64_encode(unsigned char const* bytes_to_encode, unsigned
 
 }
 
-std::string base64_encode(string_view string_to_encode) {
+std::string base64_encode(std::string_view string_to_encode) {
   auto bytes_to_encode = reinterpret_cast<const unsigned char*>(string_to_encode.data());
   auto in_len = static_cast<unsigned int>(string_to_encode.size());
   return base64_encode(bytes_to_encode, in_len);
 }
 
-std::string base64_decode(string_view encoded_string) {
+std::string base64_decode(std::string_view encoded_string) {
   size_t in_len = encoded_string.size();
   int i = 0;
   int j = 0;
diff --git a/cpp/src/arrow/vendored/fast_float/README.md b/cpp/src/arrow/vendored/fast_float/README.md
index c1c7316386c..6d44654f2a7 100644
--- a/cpp/src/arrow/vendored/fast_float/README.md
+++ b/cpp/src/arrow/vendored/fast_float/README.md
@@ -1,7 +1,39 @@
+<!---
+  Licensed to the Apache Software Foundation (ASF) under one
+  or more contributor license agreements.  See the NOTICE file
+  distributed with this work for additional information
+  regarding copyright ownership.  The ASF licenses this file
+  to you under the Apache License, Version 2.0 (the
+  "License"); you may not use this file except in compliance
+  with the License.  You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+  Unless required by applicable law or agreed to in writing,
+  software distributed under the License is distributed on an
+  "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+  KIND, either express or implied.  See the License for the
+  specific language governing permissions and limitations
+  under the License.
+-->
+
+# fast_float
+
 The files in this directory are vendored from fast_float
-git tag `v3.4.0`.
+git tag `v3.8.1`.
 
 See https://github.com/fastfloat/fast_float
 
-Changes:
+## Changes
+
 - enclosed in `arrow_vendored` namespace.
+
+## How to update
+
+You must replace `VERSION` in the command lines with suitable version
+such as `3.8.1`.
+
+```bash
+cpp/src/arrow/vendoered/fast_float/update.sh VERSION
+git commit add cpp/src/arrow/vendoered/fast_float/
+```
diff --git a/cpp/src/arrow/vendored/fast_float/ascii_number.h b/cpp/src/arrow/vendored/fast_float/ascii_number.h
index 92a76654fa4..24ec813174a 100644
--- a/cpp/src/arrow/vendored/fast_float/ascii_number.h
+++ b/cpp/src/arrow/vendored/fast_float/ascii_number.h
@@ -107,10 +107,6 @@ parsed_number_string parse_number_string(const char *p, const char *pend, parse_
 
   uint64_t i = 0; // an unsigned int avoids signed overflows (which are bad)
 
-  while ((std::distance(p, pend) >= 8) && is_made_of_eight_digits_fast(p)) {
-    i = i * 100000000 + parse_eight_digits_unrolled(p); // in rare cases, this will overflow, but that's ok
-    p += 8;
-  }
   while ((p != pend) && is_integer(*p)) {
     // a multiplication by 10 is cheaper than an arbitrary integer
     // multiplication
diff --git a/cpp/src/arrow/vendored/fast_float/bigint.h b/cpp/src/arrow/vendored/fast_float/bigint.h
index 38ac5c8dffe..b733c7b64ba 100644
--- a/cpp/src/arrow/vendored/fast_float/bigint.h
+++ b/cpp/src/arrow/vendored/fast_float/bigint.h
@@ -18,7 +18,7 @@ namespace fast_float {
 // we might have platforms where `CHAR_BIT` is not 8, so let's avoid
 // doing `8 * sizeof(limb)`.
 #if defined(FASTFLOAT_64BIT) && !defined(__sparc)
-#define FASTFLOAT_64BIT_LIMB
+#define FASTFLOAT_64BIT_LIMB 1
 typedef uint64_t limb;
 constexpr size_t limb_bits = 64;
 #else
diff --git a/cpp/src/arrow/vendored/fast_float/digit_comparison.h b/cpp/src/arrow/vendored/fast_float/digit_comparison.h
index ba8471a5f05..5cb01a93648 100644
--- a/cpp/src/arrow/vendored/fast_float/digit_comparison.h
+++ b/cpp/src/arrow/vendored/fast_float/digit_comparison.h
@@ -87,7 +87,7 @@ fastfloat_really_inline void round(adjusted_mantissa& am, callback cb) noexcept
   if (-am.power2 >= mantissa_shift) {
     // have a denormal float
     int32_t shift = -am.power2 + 1;
-    cb(am, std::min(shift, 64));
+    cb(am, std::min<int32_t>(shift, 64));
     // check for round-up: if rounding-nearest carried us to the hidden bit.
     am.power2 = (am.mantissa < (uint64_t(1) << binary_format<T>::mantissa_explicit_bits())) ? 0 : 1;
     return;
diff --git a/cpp/src/arrow/vendored/fast_float/fast_float.h b/cpp/src/arrow/vendored/fast_float/fast_float.h
index 3b82134ff95..b379efdd9e4 100644
--- a/cpp/src/arrow/vendored/fast_float/fast_float.h
+++ b/cpp/src/arrow/vendored/fast_float/fast_float.h
@@ -45,7 +45,7 @@ struct parse_options {
  * Like the C++17 standard, the `fast_float::from_chars` functions take an optional last argument of
  * the type `fast_float::chars_format`. It is a bitset value: we check whether
  * `fmt & fast_float::chars_format::fixed` and `fmt & fast_float::chars_format::scientific` are set
- * to determine whether we allowe the fixed point and scientific notation respectively.
+ * to determine whether we allow the fixed point and scientific notation respectively.
  * The default is  `fast_float::chars_format::general` which allows both `fixed` and `scientific`.
  */
 template<typename T>
@@ -61,6 +61,5 @@ from_chars_result from_chars_advanced(const char *first, const char *last,
 
 }
 } // namespace arrow_vendored
-
 #include "parse_number.h"
 #endif // FASTFLOAT_FAST_FLOAT_H
diff --git a/cpp/src/arrow/vendored/fast_float/float_common.h b/cpp/src/arrow/vendored/fast_float/float_common.h
index 76241b945f2..0d6bfe7efb8 100644
--- a/cpp/src/arrow/vendored/fast_float/float_common.h
+++ b/cpp/src/arrow/vendored/fast_float/float_common.h
@@ -11,13 +11,12 @@
        || defined(__amd64) || defined(__aarch64__) || defined(_M_ARM64) \
        || defined(__MINGW64__)                                          \
        || defined(__s390x__)                                            \
-       || (defined(__ppc64__) || defined(__PPC64__) || defined(__ppc64le__) || defined(__PPC64LE__)) \
-       || defined(__EMSCRIPTEN__))
-#define FASTFLOAT_64BIT
+       || (defined(__ppc64__) || defined(__PPC64__) || defined(__ppc64le__) || defined(__PPC64LE__)) )
+#define FASTFLOAT_64BIT 1
 #elif (defined(__i386) || defined(__i386__) || defined(_M_IX86)   \
      || defined(__arm__) || defined(_M_ARM)                   \
-     || defined(__MINGW32__))
-#define FASTFLOAT_32BIT
+     || defined(__MINGW32__) || defined(__EMSCRIPTEN__))
+#define FASTFLOAT_32BIT 1
 #else
   // Need to check incrementally, since SIZE_MAX is a size_t, avoid overflow.
   // We can never tell the register width, but the SIZE_MAX is a good approximation.
@@ -25,9 +24,9 @@
   #if SIZE_MAX == 0xffff
     #error Unknown platform (16-bit, unsupported)
   #elif SIZE_MAX == 0xffffffff
-    #define FASTFLOAT_32BIT
+    #define FASTFLOAT_32BIT 1
   #elif SIZE_MAX == 0xffffffffffffffff
-    #define FASTFLOAT_64BIT
+    #define FASTFLOAT_64BIT 1
   #else
     #error Unknown platform (not 32-bit, not 64-bit?)
   #endif
@@ -41,7 +40,9 @@
 #define FASTFLOAT_VISUAL_STUDIO 1
 #endif
 
-#ifdef _WIN32
+#if defined __BYTE_ORDER__ && defined __ORDER_BIG_ENDIAN__
+#define FASTFLOAT_IS_BIG_ENDIAN (__BYTE_ORDER__ == __ORDER_BIG_ENDIAN__)
+#elif defined _WIN32
 #define FASTFLOAT_IS_BIG_ENDIAN 0
 #else
 #if defined(__APPLE__) || defined(__FreeBSD__)
@@ -183,8 +184,9 @@ fastfloat_really_inline uint64_t _umul128(uint64_t ab, uint64_t cd,
 fastfloat_really_inline value128 full_multiplication(uint64_t a,
                                                      uint64_t b) {
   value128 answer;
-#ifdef _M_ARM64
+#if defined(_M_ARM64) && !defined(__MINGW32__)
   // ARM64 has native support for 64-bit multiplications, no need to emulate
+  // But MinGW on ARM64 doesn't have native support for 64-bit multiplications
   answer.high = __umulh(a, b);
   answer.low = a * b;
 #elif defined(FASTFLOAT_32BIT) || (defined(_WIN64) && !defined(__clang__))
@@ -219,6 +221,50 @@ constexpr static double powers_of_ten_double[] = {
     1e12, 1e13, 1e14, 1e15, 1e16, 1e17, 1e18, 1e19, 1e20, 1e21, 1e22};
 constexpr static float powers_of_ten_float[] = {1e0, 1e1, 1e2, 1e3, 1e4, 1e5,
                                                 1e6, 1e7, 1e8, 1e9, 1e10};
+// used for max_mantissa_double and max_mantissa_float
+constexpr uint64_t constant_55555 = 5 * 5 * 5 * 5 * 5;
+// Largest integer value v so that (5**index * v) <= 1<<53.
+// 0x10000000000000 == 1 << 53
+constexpr static uint64_t max_mantissa_double[] = {
+      0x10000000000000,
+      0x10000000000000 / 5,
+      0x10000000000000 / (5 * 5),
+      0x10000000000000 / (5 * 5 * 5),
+      0x10000000000000 / (5 * 5 * 5 * 5),
+      0x10000000000000 / (constant_55555),
+      0x10000000000000 / (constant_55555 * 5),
+      0x10000000000000 / (constant_55555 * 5 * 5),
+      0x10000000000000 / (constant_55555 * 5 * 5 * 5),
+      0x10000000000000 / (constant_55555 * 5 * 5 * 5 * 5),
+      0x10000000000000 / (constant_55555 * constant_55555),
+      0x10000000000000 / (constant_55555 * constant_55555 * 5),
+      0x10000000000000 / (constant_55555 * constant_55555 * 5 * 5),
+      0x10000000000000 / (constant_55555 * constant_55555 * 5 * 5 * 5),
+      0x10000000000000 / (constant_55555 * constant_55555 * constant_55555),
+      0x10000000000000 / (constant_55555 * constant_55555 * constant_55555 * 5),
+      0x10000000000000 / (constant_55555 * constant_55555 * constant_55555 * 5 * 5),
+      0x10000000000000 / (constant_55555 * constant_55555 * constant_55555 * 5 * 5 * 5),
+      0x10000000000000 / (constant_55555 * constant_55555 * constant_55555 * 5 * 5 * 5 * 5),
+      0x10000000000000 / (constant_55555 * constant_55555 * constant_55555 * constant_55555),
+      0x10000000000000 / (constant_55555 * constant_55555 * constant_55555 * constant_55555 * 5),
+      0x10000000000000 / (constant_55555 * constant_55555 * constant_55555 * constant_55555 * 5 * 5),
+      0x10000000000000 / (constant_55555 * constant_55555 * constant_55555 * constant_55555 * 5 * 5 * 5),
+      0x10000000000000 / (constant_55555 * constant_55555 * constant_55555 * constant_55555 * 5 * 5 * 5 * 5)};
+  // Largest integer value v so that (5**index * v) <= 1<<24.
+  // 0x1000000 == 1<<24
+  constexpr static uint64_t max_mantissa_float[] = {
+      0x1000000,
+      0x1000000 / 5,
+      0x1000000 / (5 * 5),
+      0x1000000 / (5 * 5 * 5),
+      0x1000000 / (5 * 5 * 5 * 5),
+      0x1000000 / (constant_55555),
+      0x1000000 / (constant_55555 * 5),
+      0x1000000 / (constant_55555 * 5 * 5),
+      0x1000000 / (constant_55555 * 5 * 5 * 5),
+      0x1000000 / (constant_55555 * 5 * 5 * 5 * 5),
+      0x1000000 / (constant_55555 * constant_55555),
+      0x1000000 / (constant_55555 * constant_55555 * 5)};
 
 template <typename T> struct binary_format {
   using equiv_uint = typename std::conditional<sizeof(T) == 4, uint32_t, uint64_t>::type;
@@ -227,11 +273,12 @@ template <typename T> struct binary_format {
   static inline constexpr int minimum_exponent();
   static inline constexpr int infinite_power();
   static inline constexpr int sign_index();
-  static inline constexpr int min_exponent_fast_path();
+  static inline constexpr int min_exponent_fast_path(); // used when fegetround() == FE_TONEAREST
   static inline constexpr int max_exponent_fast_path();
   static inline constexpr int max_exponent_round_to_even();
   static inline constexpr int min_exponent_round_to_even();
-  static inline constexpr uint64_t max_mantissa_fast_path();
+  static inline constexpr uint64_t max_mantissa_fast_path(int64_t power);
+  static inline constexpr uint64_t max_mantissa_fast_path(); // used when fegetround() == FE_TONEAREST
   static inline constexpr int largest_power_of_ten();
   static inline constexpr int smallest_power_of_ten();
   static inline constexpr T exact_power_of_ten(int64_t power);
@@ -241,6 +288,22 @@ template <typename T> struct binary_format {
   static inline constexpr equiv_uint hidden_bit_mask();
 };
 
+template <> inline constexpr int binary_format<double>::min_exponent_fast_path() {
+#if (FLT_EVAL_METHOD != 1) && (FLT_EVAL_METHOD != 0)
+  return 0;
+#else
+  return -22;
+#endif
+}
+
+template <> inline constexpr int binary_format<float>::min_exponent_fast_path() {
+#if (FLT_EVAL_METHOD != 1) && (FLT_EVAL_METHOD != 0)
+  return 0;
+#else
+  return -10;
+#endif
+}
+
 template <> inline constexpr int binary_format<double>::mantissa_explicit_bits() {
   return 52;
 }
@@ -281,34 +344,30 @@ template <> inline constexpr int binary_format<float>::infinite_power() {
 template <> inline constexpr int binary_format<double>::sign_index() { return 63; }
 template <> inline constexpr int binary_format<float>::sign_index() { return 31; }
 
-template <> inline constexpr int binary_format<double>::min_exponent_fast_path() {
-#if (FLT_EVAL_METHOD != 1) && (FLT_EVAL_METHOD != 0)
-  return 0;
-#else
-  return -22;
-#endif
-}
-template <> inline constexpr int binary_format<float>::min_exponent_fast_path() {
-#if (FLT_EVAL_METHOD != 1) && (FLT_EVAL_METHOD != 0)
-  return 0;
-#else
-  return -10;
-#endif
-}
-
 template <> inline constexpr int binary_format<double>::max_exponent_fast_path() {
   return 22;
 }
 template <> inline constexpr int binary_format<float>::max_exponent_fast_path() {
   return 10;
 }
-
 template <> inline constexpr uint64_t binary_format<double>::max_mantissa_fast_path() {
   return uint64_t(2) << mantissa_explicit_bits();
 }
+template <> inline constexpr uint64_t binary_format<double>::max_mantissa_fast_path(int64_t power) {
+  // caller is responsible to ensure that
+  // power >= 0 && power <= 22
+  //
+  return max_mantissa_double[power];
+}
 template <> inline constexpr uint64_t binary_format<float>::max_mantissa_fast_path() {
   return uint64_t(2) << mantissa_explicit_bits();
 }
+template <> inline constexpr uint64_t binary_format<float>::max_mantissa_fast_path(int64_t power) {
+  // caller is responsible to ensure that
+  // power >= 0 && power <= 10
+  //
+  return max_mantissa_float[power];
+}
 
 template <>
 inline constexpr double binary_format<double>::exact_power_of_ten(int64_t power) {
diff --git a/cpp/src/arrow/vendored/fast_float/parse_number.h b/cpp/src/arrow/vendored/fast_float/parse_number.h
index 83dce69af3e..e1c9603aeaa 100644
--- a/cpp/src/arrow/vendored/fast_float/parse_number.h
+++ b/cpp/src/arrow/vendored/fast_float/parse_number.h
@@ -61,6 +61,48 @@ from_chars_result parse_infnan(const char *first, const char *last, T &value)  n
   return answer;
 }
 
+/**
+ * Returns true if the floating-pointing rounding mode is to 'nearest'.
+ * It is the default on most system. This function is meant to be inexpensive.
+ * Credit : @mwalcott3
+ */
+fastfloat_really_inline bool rounds_to_nearest() noexcept {
+  // See
+  // A fast function to check your floating-point rounding mode
+  // https://lemire.me/blog/2022/11/16/a-fast-function-to-check-your-floating-point-rounding-mode/
+  //
+  // This function is meant to be equivalent to :
+  // prior: #include <cfenv>
+  //  return fegetround() == FE_TONEAREST;
+  // However, it is expected to be much faster than the fegetround()
+  // function call.
+  //
+  // The volatile keywoard prevents the compiler from computing the function
+  // at compile-time.
+  // There might be other ways to prevent compile-time optimizations (e.g., asm).
+  // The value does not need to be std::numeric_limits<float>::min(), any small
+  // value so that 1 + x should round to 1 would do (after accounting for excess
+  // precision, as in 387 instructions).
+  static volatile float fmin = std::numeric_limits<float>::min();
+  float fmini = fmin; // we copy it so that it gets loaded at most once.
+  //
+  // Explanation:
+  // Only when fegetround() == FE_TONEAREST do we have that
+  // fmin + 1.0f == 1.0f - fmin.
+  //
+  // FE_UPWARD:
+  //  fmin + 1.0f > 1
+  //  1.0f - fmin == 1
+  //
+  // FE_DOWNWARD or  FE_TOWARDZERO:
+  //  fmin + 1.0f == 1
+  //  1.0f - fmin < 1
+  //
+  // Note: This may fail to be accurate if fast-math has been
+  // enabled, as rounding conventions may not apply.
+  return (fmini + 1.0f == 1.0f - fmini);
+}
+
 } // namespace detail
 
 template<typename T>
@@ -88,13 +130,45 @@ from_chars_result from_chars_advanced(const char *first, const char *last,
   }
   answer.ec = std::errc(); // be optimistic
   answer.ptr = pns.lastmatch;
-  // Next is Clinger's fast path.
-  if (binary_format<T>::min_exponent_fast_path() <= pns.exponent && pns.exponent <= binary_format<T>::max_exponent_fast_path() && pns.mantissa <=binary_format<T>::max_mantissa_fast_path() && !pns.too_many_digits) {
-    value = T(pns.mantissa);
-    if (pns.exponent < 0) { value = value / binary_format<T>::exact_power_of_ten(-pns.exponent); }
-    else { value = value * binary_format<T>::exact_power_of_ten(pns.exponent); }
-    if (pns.negative) { value = -value; }
-    return answer;
+  // The implementation of the Clinger's fast path is convoluted because
+  // we want round-to-nearest in all cases, irrespective of the rounding mode
+  // selected on the thread.
+  // We proceed optimistically, assuming that detail::rounds_to_nearest() returns
+  // true.
+  if (binary_format<T>::min_exponent_fast_path() <= pns.exponent && pns.exponent <= binary_format<T>::max_exponent_fast_path() && !pns.too_many_digits) {
+    // Unfortunately, the conventional Clinger's fast path is only possible
+    // when the system rounds to the nearest float.
+    //
+    // We expect the next branch to almost always be selected.
+    // We could check it first (before the previous branch), but
+    // there might be performance advantages at having the check
+    // be last.
+    if(detail::rounds_to_nearest())  {
+      // We have that fegetround() == FE_TONEAREST.
+      // Next is Clinger's fast path.
+      if (pns.mantissa <=binary_format<T>::max_mantissa_fast_path()) {
+        value = T(pns.mantissa);
+        if (pns.exponent < 0) { value = value / binary_format<T>::exact_power_of_ten(-pns.exponent); }
+        else { value = value * binary_format<T>::exact_power_of_ten(pns.exponent); }
+        if (pns.negative) { value = -value; }
+        return answer;
+      }
+    } else {
+      // We do not have that fegetround() == FE_TONEAREST.
+      // Next is a modified Clinger's fast path, inspired by Jakub Jelínek's proposal
+      if (pns.exponent >= 0 && pns.mantissa <=binary_format<T>::max_mantissa_fast_path(pns.exponent)) {
+#if defined(__clang__)
+        // Clang may map 0 to -0.0 when fegetround() == FE_DOWNWARD
+        if(pns.mantissa == 0) {
+          value = 0;
+          return answer;
+        }
+#endif
+        value = T(pns.mantissa) * binary_format<T>::exact_power_of_ten(pns.exponent);
+        if (pns.negative) { value = -value; }
+        return answer;
+      }
+    }
   }
   adjusted_mantissa am = compute_float<binary_format<T>>(pns.exponent, pns.mantissa);
   if(pns.too_many_digits && am.power2 >= 0) {
diff --git a/cpp/src/arrow/vendored/fast_float/simple_decimal_conversion.h b/cpp/src/arrow/vendored/fast_float/simple_decimal_conversion.h
index fb6ad2badee..a24760bf0f8 100644
--- a/cpp/src/arrow/vendored/fast_float/simple_decimal_conversion.h
+++ b/cpp/src/arrow/vendored/fast_float/simple_decimal_conversion.h
@@ -138,7 +138,7 @@ inline uint64_t round(decimal &h) {
   }
   bool round_up = false;
   if (dp < h.num_digits) {
-    round_up = h.digits[dp] >= 5; // normally, we round up  
+    round_up = h.digits[dp] >= 5; // normally, we round up
     // but we may need to round to even!
     if ((h.digits[dp] == 5) && (dp + 1 == h.num_digits)) {
       round_up = h.truncated || ((dp > 0) && (1 & h.digits[dp - 1]));
@@ -267,7 +267,7 @@ adjusted_mantissa compute_float(decimal &d) {
     return answer;
   } else if(d.decimal_point >= 310) {
     // We have something at least as large as 0.1e310 which is
-    // always infinite.  
+    // always infinite.
     answer.power2 = binary::infinite_power();
     answer.mantissa = 0;
     return answer;
diff --git a/ci/scripts/integration_turbodbc.sh b/cpp/src/arrow/vendored/fast_float/update.sh
similarity index 56%
rename from ci/scripts/integration_turbodbc.sh
rename to cpp/src/arrow/vendored/fast_float/update.sh
index f0fafd51228..ab6e9515da5 100755
--- a/ci/scripts/integration_turbodbc.sh
+++ b/cpp/src/arrow/vendored/fast_float/update.sh
@@ -17,31 +17,30 @@
 # specific language governing permissions and limitations
 # under the License.
 
-set -ex
-
-source_dir=${1}
-build_dir=${2}/turbodbc
-
-# check that optional pyarrow modules are available
-# because pytest would just skip the pyarrow tests
-python -c "import pyarrow.orc"
-python -c "import pyarrow.parquet"
-
-mkdir -p ${build_dir}
-pushd ${build_dir}
-
-cmake -DCMAKE_INSTALL_PREFIX=${ARROW_HOME} \
-      -DCMAKE_CXX_FLAGS="${CXXFLAGS}" \
-      -DPYTHON_EXECUTABLE=$(which python) \
-      -GNinja \
-      ${source_dir}
-ninja install
-
-# TODO(ARROW-5074)
-export LD_LIBRARY_PATH="${ARROW_HOME}/lib:${LD_LIBRARY_PATH}"
-export ODBCSYSINI="${source_dir}/earthly/odbc/"
-
-service postgresql start
-ctest --output-on-failure
-
+set -eu
+
+source_dir="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+
+if [ "$#" -ne 1 ]; then
+  echo "Usage: $0 VERSION"
+  echo " e.g.: $0 3.8.1"
+  exit 1
+fi
+
+version="$1"
+
+pushd "${source_dir}"
+rm -rf fast_float
+git clone \
+    --branch "v${version}" \
+    --depth 1 \
+    https://github.com/fastfloat/fast_float.git
+mv fast_float/include/fast_float/* ./
+rm -rf fast_float
+sed -i.bak -E -e "s/v[0-9.]+/v${version}/g" *.h
+sed -i.bak -E \
+    -e '/^namespace fast_float \{/ i namespace arrow_vendored {' \
+    -e '/^} \/\/ namespace fast_float/ a } // namespace arrow_vendored' \
+    *.h
+rm *.bak
 popd
diff --git a/cpp/src/arrow/vendored/optional.hpp b/cpp/src/arrow/vendored/optional.hpp
deleted file mode 100644
index e266bb20be2..00000000000
--- a/cpp/src/arrow/vendored/optional.hpp
+++ /dev/null
@@ -1,1553 +0,0 @@
-// Vendored from git tag v3.2.0
-
-// Copyright (c) 2014-2018 Martin Moene
-//
-// https://github.com/martinmoene/optional-lite
-//
-// Distributed under the Boost Software License, Version 1.0.
-// (See accompanying file LICENSE.txt or copy at http://www.boost.org/LICENSE_1_0.txt)
-
-#pragma once
-
-#ifndef NONSTD_OPTIONAL_LITE_HPP
-#define NONSTD_OPTIONAL_LITE_HPP
-
-#define optional_lite_MAJOR  3
-#define optional_lite_MINOR  2
-#define optional_lite_PATCH  0
-
-#define optional_lite_VERSION  optional_STRINGIFY(optional_lite_MAJOR) "." optional_STRINGIFY(optional_lite_MINOR) "." optional_STRINGIFY(optional_lite_PATCH)
-
-#define optional_STRINGIFY(  x )  optional_STRINGIFY_( x )
-#define optional_STRINGIFY_( x )  #x
-
-// optional-lite configuration:
-
-#define optional_OPTIONAL_DEFAULT  0
-#define optional_OPTIONAL_NONSTD   1
-#define optional_OPTIONAL_STD      2
-
-#if !defined( optional_CONFIG_SELECT_OPTIONAL )
-# define optional_CONFIG_SELECT_OPTIONAL  ( optional_HAVE_STD_OPTIONAL ? optional_OPTIONAL_STD : optional_OPTIONAL_NONSTD )
-#endif
-
-// Control presence of exception handling (try and auto discover):
-
-#ifndef optional_CONFIG_NO_EXCEPTIONS
-# if defined(__cpp_exceptions) || defined(__EXCEPTIONS) || defined(_CPPUNWIND)
-#  define optional_CONFIG_NO_EXCEPTIONS  0
-# else
-#  define optional_CONFIG_NO_EXCEPTIONS  1
-# endif
-#endif
-
-// C++ language version detection (C++20 is speculative):
-// Note: VC14.0/1900 (VS2015) lacks too much from C++14.
-
-#ifndef   optional_CPLUSPLUS
-# if defined(_MSVC_LANG ) && !defined(__clang__)
-#  define optional_CPLUSPLUS  (_MSC_VER == 1900 ? 201103L : _MSVC_LANG )
-# else
-#  define optional_CPLUSPLUS  __cplusplus
-# endif
-#endif
-
-#define optional_CPP98_OR_GREATER  ( optional_CPLUSPLUS >= 199711L )
-#define optional_CPP11_OR_GREATER  ( optional_CPLUSPLUS >= 201103L )
-#define optional_CPP11_OR_GREATER_ ( optional_CPLUSPLUS >= 201103L )
-#define optional_CPP14_OR_GREATER  ( optional_CPLUSPLUS >= 201402L )
-#define optional_CPP17_OR_GREATER  ( optional_CPLUSPLUS >= 201703L )
-#define optional_CPP20_OR_GREATER  ( optional_CPLUSPLUS >= 202000L )
-
-// C++ language version (represent 98 as 3):
-
-#define optional_CPLUSPLUS_V  ( optional_CPLUSPLUS / 100 - (optional_CPLUSPLUS > 200000 ? 2000 : 1994) )
-
-// Use C++17 std::optional if available and requested:
-
-#if optional_CPP17_OR_GREATER && defined(__has_include )
-# if __has_include( <optional> )
-#  define optional_HAVE_STD_OPTIONAL  1
-# else
-#  define optional_HAVE_STD_OPTIONAL  0
-# endif
-#else
-# define  optional_HAVE_STD_OPTIONAL  0
-#endif
-
-#define optional_USES_STD_OPTIONAL  ( (optional_CONFIG_SELECT_OPTIONAL == optional_OPTIONAL_STD) || ((optional_CONFIG_SELECT_OPTIONAL == optional_OPTIONAL_DEFAULT) && optional_HAVE_STD_OPTIONAL) )
-
-//
-// in_place: code duplicated in any-lite, expected-lite, optional-lite, value-ptr-lite, variant-lite:
-//
-
-#ifndef nonstd_lite_HAVE_IN_PLACE_TYPES
-#define nonstd_lite_HAVE_IN_PLACE_TYPES  1
-
-// C++17 std::in_place in <utility>:
-
-#if optional_CPP17_OR_GREATER
-
-#include <utility>
-
-namespace nonstd {
-
-using std::in_place;
-using std::in_place_type;
-using std::in_place_index;
-using std::in_place_t;
-using std::in_place_type_t;
-using std::in_place_index_t;
-
-#define nonstd_lite_in_place_t(      T)  std::in_place_t
-#define nonstd_lite_in_place_type_t( T)  std::in_place_type_t<T>
-#define nonstd_lite_in_place_index_t(K)  std::in_place_index_t<K>
-
-#define nonstd_lite_in_place(      T)    std::in_place_t{}
-#define nonstd_lite_in_place_type( T)    std::in_place_type_t<T>{}
-#define nonstd_lite_in_place_index(K)    std::in_place_index_t<K>{}
-
-} // namespace nonstd
-
-#else // optional_CPP17_OR_GREATER
-
-#include <cstddef>
-
-namespace nonstd {
-namespace detail {
-
-template< class T >
-struct in_place_type_tag {};
-
-template< std::size_t K >
-struct in_place_index_tag {};
-
-} // namespace detail
-
-struct in_place_t {};
-
-template< class T >
-inline in_place_t in_place( detail::in_place_type_tag<T> /*unused*/ = detail::in_place_type_tag<T>() )
-{
-    return in_place_t();
-}
-
-template< std::size_t K >
-inline in_place_t in_place( detail::in_place_index_tag<K> /*unused*/ = detail::in_place_index_tag<K>() )
-{
-    return in_place_t();
-}
-
-template< class T >
-inline in_place_t in_place_type( detail::in_place_type_tag<T> /*unused*/ = detail::in_place_type_tag<T>() )
-{
-    return in_place_t();
-}
-
-template< std::size_t K >
-inline in_place_t in_place_index( detail::in_place_index_tag<K> /*unused*/ = detail::in_place_index_tag<K>() )
-{
-    return in_place_t();
-}
-
-// mimic templated typedef:
-
-#define nonstd_lite_in_place_t(      T)  nonstd::in_place_t(&)( nonstd::detail::in_place_type_tag<T>  )
-#define nonstd_lite_in_place_type_t( T)  nonstd::in_place_t(&)( nonstd::detail::in_place_type_tag<T>  )
-#define nonstd_lite_in_place_index_t(K)  nonstd::in_place_t(&)( nonstd::detail::in_place_index_tag<K> )
-
-#define nonstd_lite_in_place(      T)    nonstd::in_place_type<T>
-#define nonstd_lite_in_place_type( T)    nonstd::in_place_type<T>
-#define nonstd_lite_in_place_index(K)    nonstd::in_place_index<K>
-
-} // namespace nonstd
-
-#endif // optional_CPP17_OR_GREATER
-#endif // nonstd_lite_HAVE_IN_PLACE_TYPES
-
-//
-// Using std::optional:
-//
-
-#if optional_USES_STD_OPTIONAL
-
-#include <optional>
-
-namespace nonstd {
-
-    using std::optional;
-    using std::bad_optional_access;
-    using std::hash;
-
-    using std::nullopt;
-    using std::nullopt_t;
-
-    using std::operator==;
-    using std::operator!=;
-    using std::operator<;
-    using std::operator<=;
-    using std::operator>;
-    using std::operator>=;
-    using std::make_optional;
-    using std::swap;
-}
-
-#else // optional_USES_STD_OPTIONAL
-
-#include <cassert>
-#include <utility>
-
-// optional-lite alignment configuration:
-
-#ifndef  optional_CONFIG_MAX_ALIGN_HACK
-# define optional_CONFIG_MAX_ALIGN_HACK  0
-#endif
-
-#ifndef  optional_CONFIG_ALIGN_AS
-// no default, used in #if defined()
-#endif
-
-#ifndef  optional_CONFIG_ALIGN_AS_FALLBACK
-# define optional_CONFIG_ALIGN_AS_FALLBACK  double
-#endif
-
-// Compiler warning suppression:
-
-#if defined(__clang__)
-# pragma clang diagnostic push
-# pragma clang diagnostic ignored "-Wundef"
-#elif defined(__GNUC__)
-# pragma GCC   diagnostic push
-# pragma GCC   diagnostic ignored "-Wundef"
-#elif defined(_MSC_VER )
-# pragma warning( push )
-#endif
-
-// half-open range [lo..hi):
-#define optional_BETWEEN( v, lo, hi ) ( (lo) <= (v) && (v) < (hi) )
-
-// Compiler versions:
-//
-// MSVC++ 6.0  _MSC_VER == 1200 (Visual Studio 6.0)
-// MSVC++ 7.0  _MSC_VER == 1300 (Visual Studio .NET 2002)
-// MSVC++ 7.1  _MSC_VER == 1310 (Visual Studio .NET 2003)
-// MSVC++ 8.0  _MSC_VER == 1400 (Visual Studio 2005)
-// MSVC++ 9.0  _MSC_VER == 1500 (Visual Studio 2008)
-// MSVC++ 10.0 _MSC_VER == 1600 (Visual Studio 2010)
-// MSVC++ 11.0 _MSC_VER == 1700 (Visual Studio 2012)
-// MSVC++ 12.0 _MSC_VER == 1800 (Visual Studio 2013)
-// MSVC++ 14.0 _MSC_VER == 1900 (Visual Studio 2015)
-// MSVC++ 14.1 _MSC_VER >= 1910 (Visual Studio 2017)
-
-#if defined(_MSC_VER ) && !defined(__clang__)
-# define optional_COMPILER_MSVC_VER      (_MSC_VER )
-# define optional_COMPILER_MSVC_VERSION  (_MSC_VER / 10 - 10 * ( 5 + (_MSC_VER < 1900 ) ) )
-#else
-# define optional_COMPILER_MSVC_VER      0
-# define optional_COMPILER_MSVC_VERSION  0
-#endif
-
-#define optional_COMPILER_VERSION( major, minor, patch )  ( 10 * (10 * (major) + (minor) ) + (patch) )
-
-#if defined(__GNUC__) && !defined(__clang__)
-# define optional_COMPILER_GNUC_VERSION   optional_COMPILER_VERSION(__GNUC__, __GNUC_MINOR__, __GNUC_PATCHLEVEL__)
-#else
-# define optional_COMPILER_GNUC_VERSION   0
-#endif
-
-#if defined(__clang__)
-# define optional_COMPILER_CLANG_VERSION  optional_COMPILER_VERSION(__clang_major__, __clang_minor__, __clang_patchlevel__)
-#else
-# define optional_COMPILER_CLANG_VERSION  0
-#endif
-
-#if optional_BETWEEN(optional_COMPILER_MSVC_VERSION, 70, 140 )
-# pragma warning( disable: 4345 )   // initialization behavior changed
-#endif
-
-#if optional_BETWEEN(optional_COMPILER_MSVC_VERSION, 70, 150 )
-# pragma warning( disable: 4814 )   // in C++14 'constexpr' will not imply 'const'
-#endif
-
-// Presence of language and library features:
-
-#define optional_HAVE(FEATURE) ( optional_HAVE_##FEATURE )
-
-#ifdef _HAS_CPP0X
-# define optional_HAS_CPP0X  _HAS_CPP0X
-#else
-# define optional_HAS_CPP0X  0
-#endif
-
-// Unless defined otherwise below, consider VC14 as C++11 for optional-lite:
-
-#if optional_COMPILER_MSVC_VER >= 1900
-# undef  optional_CPP11_OR_GREATER
-# define optional_CPP11_OR_GREATER  1
-#endif
-
-#define optional_CPP11_90   (optional_CPP11_OR_GREATER_ || optional_COMPILER_MSVC_VER >= 1500)
-#define optional_CPP11_100  (optional_CPP11_OR_GREATER_ || optional_COMPILER_MSVC_VER >= 1600)
-#define optional_CPP11_110  (optional_CPP11_OR_GREATER_ || optional_COMPILER_MSVC_VER >= 1700)
-#define optional_CPP11_120  (optional_CPP11_OR_GREATER_ || optional_COMPILER_MSVC_VER >= 1800)
-#define optional_CPP11_140  (optional_CPP11_OR_GREATER_ || optional_COMPILER_MSVC_VER >= 1900)
-#define optional_CPP11_141  (optional_CPP11_OR_GREATER_ || optional_COMPILER_MSVC_VER >= 1910)
-
-#define optional_CPP14_000  (optional_CPP14_OR_GREATER)
-#define optional_CPP17_000  (optional_CPP17_OR_GREATER)
-
-// Presence of C++11 language features:
-
-#define optional_HAVE_CONSTEXPR_11      optional_CPP11_140
-#define optional_HAVE_IS_DEFAULT        optional_CPP11_140
-#define optional_HAVE_NOEXCEPT          optional_CPP11_140
-#define optional_HAVE_NULLPTR           optional_CPP11_100
-#define optional_HAVE_REF_QUALIFIER     optional_CPP11_140
-
-// Presence of C++14 language features:
-
-#define optional_HAVE_CONSTEXPR_14      optional_CPP14_000
-
-// Presence of C++17 language features:
-
-#define optional_HAVE_NODISCARD         optional_CPP17_000
-
-// Presence of C++ library features:
-
-#define optional_HAVE_CONDITIONAL       optional_CPP11_120
-#define optional_HAVE_REMOVE_CV         optional_CPP11_120
-#define optional_HAVE_TYPE_TRAITS       optional_CPP11_90
-
-#define optional_HAVE_TR1_TYPE_TRAITS   (!! optional_COMPILER_GNUC_VERSION )
-#define optional_HAVE_TR1_ADD_POINTER   (!! optional_COMPILER_GNUC_VERSION )
-
-// C++ feature usage:
-
-#if optional_HAVE( CONSTEXPR_11 )
-# define optional_constexpr  constexpr
-#else
-# define optional_constexpr  /*constexpr*/
-#endif
-
-#if optional_HAVE( IS_DEFAULT )
-# define optional_is_default  = default;
-#else
-# define optional_is_default  {}
-#endif
-
-#if optional_HAVE( CONSTEXPR_14 )
-# define optional_constexpr14  constexpr
-#else
-# define optional_constexpr14  /*constexpr*/
-#endif
-
-#if optional_HAVE( NODISCARD )
-# define optional_nodiscard  [[nodiscard]]
-#else
-# define optional_nodiscard  /*[[nodiscard]]*/
-#endif
-
-#if optional_HAVE( NOEXCEPT )
-# define optional_noexcept  noexcept
-#else
-# define optional_noexcept  /*noexcept*/
-#endif
-
-#if optional_HAVE( NULLPTR )
-# define optional_nullptr  nullptr
-#else
-# define optional_nullptr  NULL
-#endif
-
-#if optional_HAVE( REF_QUALIFIER )
-// NOLINTNEXTLINE( bugprone-macro-parentheses )
-# define optional_ref_qual  &
-# define optional_refref_qual  &&
-#else
-# define optional_ref_qual  /*&*/
-# define optional_refref_qual  /*&&*/
-#endif
-
-// additional includes:
-
-#if optional_CONFIG_NO_EXCEPTIONS
-// already included: <cassert>
-#else
-# include <stdexcept>
-#endif
-
-#if optional_CPP11_OR_GREATER
-# include <functional>
-#endif
-
-#if optional_HAVE( INITIALIZER_LIST )
-# include <initializer_list>
-#endif
-
-#if optional_HAVE( TYPE_TRAITS )
-# include <type_traits>
-#elif optional_HAVE( TR1_TYPE_TRAITS )
-# include <tr1/type_traits>
-#endif
-
-// Method enabling
-
-#if optional_CPP11_OR_GREATER
-
-#define optional_REQUIRES_0(...) \
-    template< bool B = (__VA_ARGS__), typename std::enable_if<B, int>::type = 0 >
-
-#define optional_REQUIRES_T(...) \
-    , typename = typename std::enable_if< (__VA_ARGS__), nonstd::optional_lite::detail::enabler >::type
-
-#define optional_REQUIRES_R(R, ...) \
-    typename std::enable_if< (__VA_ARGS__), R>::type
-
-#define optional_REQUIRES_A(...) \
-    , typename std::enable_if< (__VA_ARGS__), void*>::type = nullptr
-
-#endif
-
-//
-// optional:
-//
-
-namespace nonstd { namespace optional_lite {
-
-namespace std11 {
-
-#if optional_CPP11_OR_GREATER
-    using std::move;
-#else
-    template< typename T > T & move( T & t ) { return t; }
-#endif
-
-#if optional_HAVE( CONDITIONAL )
-    using std::conditional;
-#else
-    template< bool B, typename T, typename F > struct conditional              { typedef T type; };
-    template<         typename T, typename F > struct conditional<false, T, F> { typedef F type; };
-#endif // optional_HAVE_CONDITIONAL
-
-} // namespace std11
-
-#if optional_CPP11_OR_GREATER
-
-/// type traits C++17:
-
-namespace std17 {
-
-#if optional_CPP17_OR_GREATER
-
-using std::is_swappable;
-using std::is_nothrow_swappable;
-
-#elif optional_CPP11_OR_GREATER
-
-namespace detail {
-
-using std::swap;
-
-struct is_swappable
-{
-    template< typename T, typename = decltype( swap( std::declval<T&>(), std::declval<T&>() ) ) >
-    static std::true_type test( int /*unused*/ );
-
-    template< typename >
-    static std::false_type test(...);
-};
-
-struct is_nothrow_swappable
-{
-    // wrap noexcept(expr) in separate function as work-around for VC140 (VS2015):
-
-    template< typename T >
-    static constexpr bool satisfies()
-    {
-        return noexcept( swap( std::declval<T&>(), std::declval<T&>() ) );
-    }
-
-    template< typename T >
-    static auto test( int /*unused*/ ) -> std::integral_constant<bool, satisfies<T>()>{}
-
-    template< typename >
-    static auto test(...) -> std::false_type;
-};
-
-} // namespace detail
-
-// is [nothow] swappable:
-
-template< typename T >
-struct is_swappable : decltype( detail::is_swappable::test<T>(0) ){};
-
-template< typename T >
-struct is_nothrow_swappable : decltype( detail::is_nothrow_swappable::test<T>(0) ){};
-
-#endif // optional_CPP17_OR_GREATER
-
-} // namespace std17
-
-/// type traits C++20:
-
-namespace std20 {
-
-template< typename T >
-struct remove_cvref
-{
-    typedef typename std::remove_cv< typename std::remove_reference<T>::type >::type type;
-};
-
-} // namespace std20
-
-#endif // optional_CPP11_OR_GREATER
-
-/// class optional
-
-template< typename T >
-class optional;
-
-namespace detail {
-
-// for optional_REQUIRES_T
-
-#if optional_CPP11_OR_GREATER
-enum class enabler{};
-#endif
-
-// C++11 emulation:
-
-struct nulltype{};
-
-template< typename Head, typename Tail >
-struct typelist
-{
-    typedef Head head;
-    typedef Tail tail;
-};
-
-#if optional_CONFIG_MAX_ALIGN_HACK
-
-// Max align, use most restricted type for alignment:
-
-#define optional_UNIQUE(  name )       optional_UNIQUE2( name, __LINE__ )
-#define optional_UNIQUE2( name, line ) optional_UNIQUE3( name, line )
-#define optional_UNIQUE3( name, line ) name ## line
-
-#define optional_ALIGN_TYPE( type ) \
-    type optional_UNIQUE( _t ); struct_t< type > optional_UNIQUE( _st )
-
-template< typename T >
-struct struct_t { T _; };
-
-union max_align_t
-{
-    optional_ALIGN_TYPE( char );
-    optional_ALIGN_TYPE( short int );
-    optional_ALIGN_TYPE( int );
-    optional_ALIGN_TYPE( long int  );
-    optional_ALIGN_TYPE( float  );
-    optional_ALIGN_TYPE( double );
-    optional_ALIGN_TYPE( long double );
-    optional_ALIGN_TYPE( char * );
-    optional_ALIGN_TYPE( short int * );
-    optional_ALIGN_TYPE( int *  );
-    optional_ALIGN_TYPE( long int * );
-    optional_ALIGN_TYPE( float * );
-    optional_ALIGN_TYPE( double * );
-    optional_ALIGN_TYPE( long double * );
-    optional_ALIGN_TYPE( void * );
-
-#ifdef HAVE_LONG_LONG
-    optional_ALIGN_TYPE( long long );
-#endif
-
-    struct Unknown;
-
-    Unknown ( * optional_UNIQUE(_) )( Unknown );
-    Unknown * Unknown::* optional_UNIQUE(_);
-    Unknown ( Unknown::* optional_UNIQUE(_) )( Unknown );
-
-    struct_t< Unknown ( * )( Unknown)         > optional_UNIQUE(_);
-    struct_t< Unknown * Unknown::*            > optional_UNIQUE(_);
-    struct_t< Unknown ( Unknown::* )(Unknown) > optional_UNIQUE(_);
-};
-
-#undef optional_UNIQUE
-#undef optional_UNIQUE2
-#undef optional_UNIQUE3
-
-#undef optional_ALIGN_TYPE
-
-#elif defined( optional_CONFIG_ALIGN_AS ) // optional_CONFIG_MAX_ALIGN_HACK
-
-// Use user-specified type for alignment:
-
-#define optional_ALIGN_AS( unused ) \
-    optional_CONFIG_ALIGN_AS
-
-#else // optional_CONFIG_MAX_ALIGN_HACK
-
-// Determine POD type to use for alignment:
-
-#define optional_ALIGN_AS( to_align ) \
-    typename type_of_size< alignment_types, alignment_of< to_align >::value >::type
-
-template< typename T >
-struct alignment_of;
-
-template< typename T >
-struct alignment_of_hack
-{
-    char c;
-    T t;
-    alignment_of_hack();
-};
-
-template< size_t A, size_t S >
-struct alignment_logic
-{
-    enum { value = A < S ? A : S };
-};
-
-template< typename T >
-struct alignment_of
-{
-    enum { value = alignment_logic<
-        sizeof( alignment_of_hack<T> ) - sizeof(T), sizeof(T) >::value };
-};
-
-template< typename List, size_t N >
-struct type_of_size
-{
-    typedef typename std11::conditional<
-        N == sizeof( typename List::head ),
-            typename List::head,
-            typename type_of_size<typename List::tail, N >::type >::type type;
-};
-
-template< size_t N >
-struct type_of_size< nulltype, N >
-{
-    typedef optional_CONFIG_ALIGN_AS_FALLBACK type;
-};
-
-template< typename T>
-struct struct_t { T _; };
-
-#define optional_ALIGN_TYPE( type ) \
-    typelist< type , typelist< struct_t< type >
-
-struct Unknown;
-
-typedef
-    optional_ALIGN_TYPE( char ),
-    optional_ALIGN_TYPE( short ),
-    optional_ALIGN_TYPE( int ),
-    optional_ALIGN_TYPE( long), optional_ALIGN_TYPE(float), optional_ALIGN_TYPE(double),
-    optional_ALIGN_TYPE(long double),
-
-    optional_ALIGN_TYPE(char*), optional_ALIGN_TYPE(short*), optional_ALIGN_TYPE(int*),
-    optional_ALIGN_TYPE(long*), optional_ALIGN_TYPE(float*), optional_ALIGN_TYPE(double*),
-    optional_ALIGN_TYPE(long double*),
-
-    optional_ALIGN_TYPE(Unknown (*)(Unknown)), optional_ALIGN_TYPE(Unknown* Unknown::*),
-    optional_ALIGN_TYPE(Unknown (Unknown::*)(Unknown)),
-
-    nulltype >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> alignment_types;
-
-#undef optional_ALIGN_TYPE
-
-#endif  // optional_CONFIG_MAX_ALIGN_HACK
-
-/// C++03 constructed union to hold value.
-
-template <typename T>
-union storage_t {
-  // private:
-  //    template< typename > friend class optional;
-
-  typedef T value_type;
-
-  storage_t() optional_is_default
-
-      explicit storage_t(value_type const& v) {
-    construct_value(v);
-  }
-
-  void construct_value(value_type const& v) { ::new (value_ptr()) value_type(v); }
-
-#if optional_CPP11_OR_GREATER
-
-  explicit storage_t(value_type&& v) { construct_value(std::move(v)); }
-
-  void construct_value(value_type&& v) { ::new (value_ptr()) value_type(std::move(v)); }
-
-  template <class... Args>
-  void emplace(Args&&... args) {
-    ::new (value_ptr()) value_type(std::forward<Args>(args)...);
-  }
-
-  template <class U, class... Args>
-  void emplace(std::initializer_list<U> il, Args&&... args) {
-    ::new (value_ptr()) value_type(il, std::forward<Args>(args)...);
-  }
-
-#endif
-
-  void destruct_value() { value_ptr()->~T(); }
-
-  optional_nodiscard value_type const* value_ptr() const { return as<value_type>(); }
-
-  value_type* value_ptr() { return as<value_type>(); }
-
-  optional_nodiscard value_type const& value() const optional_ref_qual {
-    return *value_ptr();
-  }
-
-  value_type& value() optional_ref_qual { return *value_ptr(); }
-
-#if optional_CPP11_OR_GREATER
-
-  optional_nodiscard value_type const&& value() const optional_refref_qual {
-    return std::move(value());
-  }
-
-  value_type&& value() optional_refref_qual { return std::move(value()); }
-
-#endif
-
-#if optional_CPP11_OR_GREATER
-
-  using aligned_storage_t =
-      typename std::aligned_storage<sizeof(value_type), alignof(value_type)>::type;
-  aligned_storage_t data;
-
-#elif optional_CONFIG_MAX_ALIGN_HACK
-
-  typedef struct {
-    unsigned char data[sizeof(value_type)];
-  } aligned_storage_t;
-
-  max_align_t hack;
-  aligned_storage_t data;
-
-#else
-  typedef optional_ALIGN_AS(value_type) align_as_type;
-
-  typedef struct {
-    align_as_type data[1 + (sizeof(value_type) - 1) / sizeof(align_as_type)];
-  } aligned_storage_t;
-  aligned_storage_t data;
-
-#undef optional_ALIGN_AS
-
-#endif  // optional_CONFIG_MAX_ALIGN_HACK
-
-  optional_nodiscard void* ptr() optional_noexcept { return &data; }
-
-  optional_nodiscard void const* ptr() const optional_noexcept { return &data; }
-
-  template <typename U>
-  optional_nodiscard U* as() {
-    return reinterpret_cast<U*>(ptr());
-  }
-
-  template <typename U>
-  optional_nodiscard U const* as() const {
-    return reinterpret_cast<U const*>(ptr());
-  }
-};
-
-}  // namespace detail
-
-/// disengaged state tag
-
-struct nullopt_t {
-  struct init {};
-  explicit optional_constexpr nullopt_t(init /*unused*/) optional_noexcept {}
-};
-
-#if optional_HAVE(CONSTEXPR_11)
-constexpr nullopt_t nullopt{nullopt_t::init{}};
-#else
-// extra parenthesis to prevent the most vexing parse:
-const nullopt_t nullopt((nullopt_t::init()));
-#endif
-
-/// optional access error
-
-#if !optional_CONFIG_NO_EXCEPTIONS
-
-class bad_optional_access : public std::logic_error {
- public:
-  explicit bad_optional_access() : logic_error("bad optional access") {}
-};
-
-#endif  // optional_CONFIG_NO_EXCEPTIONS
-
-/// optional
-
-template <typename T>
-class optional {
- private:
-  template <typename>
-  friend class optional;
-
-  typedef void (optional::*safe_bool)() const;
-
- public:
-  typedef T value_type;
-
-  // x.x.3.1, constructors
-
-  // 1a - default construct
-  optional_constexpr optional() optional_noexcept : has_value_(false), contained() {}
-
-  // 1b - construct explicitly empty
-  // NOLINTNEXTLINE( google-explicit-constructor, hicpp-explicit-conversions )
-  optional_constexpr optional(nullopt_t /*unused*/) optional_noexcept : has_value_(false),
-                                                                        contained() {}
-
-  // 2 - copy-construct
-  optional_constexpr14 optional(
-      optional const& other
-#if optional_CPP11_OR_GREATER
-          optional_REQUIRES_A(true || std::is_copy_constructible<T>::value)
-#endif
-              )
-      : has_value_(other.has_value()) {
-    if (other.has_value()) {
-      contained.construct_value(other.contained.value());
-    }
-  }
-
-#if optional_CPP11_OR_GREATER
-
-  // 3 (C++11) - move-construct from optional
-  optional_constexpr14 optional(
-      optional&& other optional_REQUIRES_A(true || std::is_move_constructible<T>::value)
-      // NOLINTNEXTLINE( performance-noexcept-move-constructor )
-      ) noexcept(std::is_nothrow_move_constructible<T>::value)
-      : has_value_(other.has_value()) {
-    if (other.has_value()) {
-      contained.construct_value(std::move(other.contained.value()));
-    }
-  }
-
-  // 4a (C++11) - explicit converting copy-construct from optional
-  template <typename U>
-  explicit optional(optional<U> const& other optional_REQUIRES_A(
-      std::is_constructible<T, U const&>::value &&
-      !std::is_constructible<T, optional<U>&>::value &&
-      !std::is_constructible<T, optional<U>&&>::value &&
-      !std::is_constructible<T, optional<U> const&>::value &&
-      !std::is_constructible<T, optional<U> const&&>::value &&
-      !std::is_convertible<optional<U>&, T>::value &&
-      !std::is_convertible<optional<U>&&, T>::value &&
-      !std::is_convertible<optional<U> const&, T>::value &&
-      !std::is_convertible<optional<U> const&&, T>::value &&
-      !std::is_convertible<U const&, T>::value /*=> explicit */
-      ))
-      : has_value_(other.has_value()) {
-    if (other.has_value()) {
-      contained.construct_value(T{other.contained.value()});
-    }
-  }
-#endif  // optional_CPP11_OR_GREATER
-
-  // 4b (C++98 and later) - non-explicit converting copy-construct from optional
-  template <typename U>
-  // NOLINTNEXTLINE( google-explicit-constructor, hicpp-explicit-conversions )
-  optional(
-      optional<U> const& other
-#if optional_CPP11_OR_GREATER
-          optional_REQUIRES_A(std::is_constructible<T, U const&>::value &&
-                              !std::is_constructible<T, optional<U>&>::value &&
-                              !std::is_constructible<T, optional<U>&&>::value &&
-                              !std::is_constructible<T, optional<U> const&>::value &&
-                              !std::is_constructible<T, optional<U> const&&>::value &&
-                              !std::is_convertible<optional<U>&, T>::value &&
-                              !std::is_convertible<optional<U>&&, T>::value &&
-                              !std::is_convertible<optional<U> const&, T>::value &&
-                              !std::is_convertible<optional<U> const&&, T>::value &&
-                              std::is_convertible<U const&, T>::value /*=> non-explicit */
-                              )
-#endif  // optional_CPP11_OR_GREATER
-              )
-      : has_value_(other.has_value()) {
-    if (other.has_value()) {
-      contained.construct_value(other.contained.value());
-    }
-  }
-
-#if optional_CPP11_OR_GREATER
-
-  // 5a (C++11) - explicit converting move-construct from optional
-  template <typename U>
-  explicit optional(optional<U>&& other optional_REQUIRES_A(
-      std::is_constructible<T, U&&>::value &&
-      !std::is_constructible<T, optional<U>&>::value &&
-      !std::is_constructible<T, optional<U>&&>::value &&
-      !std::is_constructible<T, optional<U> const&>::value &&
-      !std::is_constructible<T, optional<U> const&&>::value &&
-      !std::is_convertible<optional<U>&, T>::value &&
-      !std::is_convertible<optional<U>&&, T>::value &&
-      !std::is_convertible<optional<U> const&, T>::value &&
-      !std::is_convertible<optional<U> const&&, T>::value &&
-      !std::is_convertible<U&&, T>::value /*=> explicit */
-      ))
-      : has_value_(other.has_value()) {
-    if (other.has_value()) {
-      contained.construct_value(T{std::move(other.contained.value())});
-    }
-  }
-
-  // 5a (C++11) - non-explicit converting move-construct from optional
-  template <typename U>
-  // NOLINTNEXTLINE( google-explicit-constructor, hicpp-explicit-conversions )
-  optional(optional<U>&& other optional_REQUIRES_A(
-      std::is_constructible<T, U&&>::value &&
-      !std::is_constructible<T, optional<U>&>::value &&
-      !std::is_constructible<T, optional<U>&&>::value &&
-      !std::is_constructible<T, optional<U> const&>::value &&
-      !std::is_constructible<T, optional<U> const&&>::value &&
-      !std::is_convertible<optional<U>&, T>::value &&
-      !std::is_convertible<optional<U>&&, T>::value &&
-      !std::is_convertible<optional<U> const&, T>::value &&
-      !std::is_convertible<optional<U> const&&, T>::value &&
-      std::is_convertible<U&&, T>::value /*=> non-explicit */
-      ))
-      : has_value_(other.has_value()) {
-    if (other.has_value()) {
-      contained.construct_value(std::move(other.contained.value()));
-    }
-  }
-
-  // 6 (C++11) - in-place construct
-  template <
-      typename... Args optional_REQUIRES_T(std::is_constructible<T, Args&&...>::value)>
-  optional_constexpr explicit optional(nonstd_lite_in_place_t(T), Args&&... args)
-      : has_value_(true), contained(T(std::forward<Args>(args)...)) {}
-
-  // 7 (C++11) - in-place construct,  initializer-list
-  template <typename U,
-            typename... Args optional_REQUIRES_T(
-                std::is_constructible<T, std::initializer_list<U>&, Args&&...>::value)>
-  optional_constexpr explicit optional(nonstd_lite_in_place_t(T),
-                                       std::initializer_list<U> il, Args&&... args)
-      : has_value_(true), contained(T(il, std::forward<Args>(args)...)) {}
-
-  // 8a (C++11) - explicit move construct from value
-  template <typename U = value_type>
-  optional_constexpr explicit optional(U&& value optional_REQUIRES_A(
-      std::is_constructible<T, U&&>::value &&
-      !std::is_same<typename std20::remove_cvref<U>::type,
-                    nonstd_lite_in_place_t(U)>::value &&
-      !std::is_same<typename std20::remove_cvref<U>::type, optional<T> >::value &&
-      !std::is_convertible<U&&, T>::value /*=> explicit */
-      ))
-      : has_value_(true), contained(T{std::forward<U>(value)}) {}
-
-  // 8b (C++11) - non-explicit move construct from value
-  template <typename U = value_type>
-  // NOLINTNEXTLINE( google-explicit-constructor, hicpp-explicit-conversions )
-  optional_constexpr optional(U&& value optional_REQUIRES_A(
-      std::is_constructible<T, U&&>::value &&
-      !std::is_same<typename std20::remove_cvref<U>::type,
-                    nonstd_lite_in_place_t(U)>::value &&
-      !std::is_same<typename std20::remove_cvref<U>::type, optional<T> >::value &&
-      std::is_convertible<U&&, T>::value /*=> non-explicit */
-      ))
-      : has_value_(true), contained(std::forward<U>(value)) {}
-
-#else  // optional_CPP11_OR_GREATER
-
-  // 8 (C++98)
-  optional(value_type const& value) : has_value_(true), contained(value) {}
-
-#endif  // optional_CPP11_OR_GREATER
-
-  // x.x.3.2, destructor
-
-  ~optional() {
-    if (has_value()) {
-      contained.destruct_value();
-    }
-  }
-
-  // x.x.3.3, assignment
-
-  // 1 (C++98and later) -  assign explicitly empty
-  optional& operator=(nullopt_t /*unused*/) optional_noexcept {
-    reset();
-    return *this;
-  }
-
-  // 2 (C++98and later) - copy-assign from optional
-#if optional_CPP11_OR_GREATER
-  // NOLINTNEXTLINE( cppcoreguidelines-c-copy-assignment-signature,
-  // misc-unconventional-assign-operator )
-  optional_REQUIRES_R(optional&, true
-                      //      std::is_copy_constructible<T>::value
-                      //      && std::is_copy_assignable<T>::value
-                      )
-  operator=(optional const& other) noexcept(
-      std::is_nothrow_move_assignable<T>::value&&
-          std::is_nothrow_move_constructible<T>::value)
-#else
-  optional& operator=(optional const& other)
-#endif
-  {
-    if ((has_value() == true) && (other.has_value() == false)) {
-      reset();
-    } else if ((has_value() == false) && (other.has_value() == true)) {
-      initialize(*other);
-    } else if ((has_value() == true) && (other.has_value() == true)) {
-      contained.value() = *other;
-    }
-    return *this;
-  }
-
-#if optional_CPP11_OR_GREATER
-
-  // 3 (C++11) - move-assign from optional
-  // NOLINTNEXTLINE( cppcoreguidelines-c-copy-assignment-signature,
-  // misc-unconventional-assign-operator )
-  optional_REQUIRES_R(optional&, true
-                      //      std::is_move_constructible<T>::value
-                      //      && std::is_move_assignable<T>::value
-                      )
-  operator=(optional&& other) noexcept {
-    if ((has_value() == true) && (other.has_value() == false)) {
-      reset();
-    } else if ((has_value() == false) && (other.has_value() == true)) {
-      initialize(std::move(*other));
-    } else if ((has_value() == true) && (other.has_value() == true)) {
-      contained.value() = std::move(*other);
-    }
-    return *this;
-  }
-
-  // 4 (C++11) - move-assign from value
-  template <typename U = T>
-  // NOLINTNEXTLINE( cppcoreguidelines-c-copy-assignment-signature,
-  // misc-unconventional-assign-operator )
-  optional_REQUIRES_R(
-      optional&,
-      std::is_constructible<T, U>::value&& std::is_assignable<T&, U>::value &&
-          !std::is_same<typename std20::remove_cvref<U>::type,
-                        nonstd_lite_in_place_t(U)>::value &&
-          !std::is_same<typename std20::remove_cvref<U>::type, optional<T> >::value &&
-          !(std::is_scalar<T>::value &&
-            std::is_same<T, typename std::decay<U>::type>::value))
-  operator=(U&& value) {
-    if (has_value()) {
-      contained.value() = std::forward<U>(value);
-    } else {
-      initialize(T(std::forward<U>(value)));
-    }
-    return *this;
-  }
-
-#else  // optional_CPP11_OR_GREATER
-
-  // 4 (C++98) - copy-assign from value
-  template <typename U /*= T*/>
-  optional& operator=(U const& value) {
-    if (has_value())
-      contained.value() = value;
-    else
-      initialize(T(value));
-    return *this;
-  }
-
-#endif  // optional_CPP11_OR_GREATER
-
-  // 5 (C++98 and later) - converting copy-assign from optional
-  template <typename U>
-#if optional_CPP11_OR_GREATER
-  // NOLINTNEXTLINE( cppcoreguidelines-c-copy-assignment-signature,
-  // misc-unconventional-assign-operator )
-  optional_REQUIRES_R(optional&,
-                      std::is_constructible<T, U const&>::value&&
-                              std::is_assignable<T&, U const&>::value &&
-                          !std::is_constructible<T, optional<U>&>::value &&
-                          !std::is_constructible<T, optional<U>&&>::value &&
-                          !std::is_constructible<T, optional<U> const&>::value &&
-                          !std::is_constructible<T, optional<U> const&&>::value &&
-                          !std::is_convertible<optional<U>&, T>::value &&
-                          !std::is_convertible<optional<U>&&, T>::value &&
-                          !std::is_convertible<optional<U> const&, T>::value &&
-                          !std::is_convertible<optional<U> const&&, T>::value &&
-                          !std::is_assignable<T&, optional<U>&>::value &&
-                          !std::is_assignable<T&, optional<U>&&>::value &&
-                          !std::is_assignable<T&, optional<U> const&>::value &&
-                          !std::is_assignable<T&, optional<U> const&&>::value)
-#else
-  optional&
-#endif  // optional_CPP11_OR_GREATER
-  operator=(optional<U> const& other) {
-    return *this = optional(other);
-  }
-
-#if optional_CPP11_OR_GREATER
-
-  // 6 (C++11) -  converting move-assign from optional
-  template <typename U>
-  // NOLINTNEXTLINE( cppcoreguidelines-c-copy-assignment-signature,
-  // misc-unconventional-assign-operator )
-  optional_REQUIRES_R(
-      optional&, std::is_constructible<T, U>::value&& std::is_assignable<T&, U>::value &&
-                     !std::is_constructible<T, optional<U>&>::value &&
-                     !std::is_constructible<T, optional<U>&&>::value &&
-                     !std::is_constructible<T, optional<U> const&>::value &&
-                     !std::is_constructible<T, optional<U> const&&>::value &&
-                     !std::is_convertible<optional<U>&, T>::value &&
-                     !std::is_convertible<optional<U>&&, T>::value &&
-                     !std::is_convertible<optional<U> const&, T>::value &&
-                     !std::is_convertible<optional<U> const&&, T>::value &&
-                     !std::is_assignable<T&, optional<U>&>::value &&
-                     !std::is_assignable<T&, optional<U>&&>::value &&
-                     !std::is_assignable<T&, optional<U> const&>::value &&
-                     !std::is_assignable<T&, optional<U> const&&>::value)
-  operator=(optional<U>&& other) {
-    return *this = optional(std::move(other));
-  }
-
-  // 7 (C++11) - emplace
-  template <
-      typename... Args optional_REQUIRES_T(std::is_constructible<T, Args&&...>::value)>
-  T& emplace(Args&&... args) {
-    *this = nullopt;
-    contained.emplace(std::forward<Args>(args)...);
-    has_value_ = true;
-    return contained.value();
-  }
-
-  // 8 (C++11) - emplace, initializer-list
-  template <typename U,
-            typename... Args optional_REQUIRES_T(
-                std::is_constructible<T, std::initializer_list<U>&, Args&&...>::value)>
-  T& emplace(std::initializer_list<U> il, Args&&... args) {
-    *this = nullopt;
-    contained.emplace(il, std::forward<Args>(args)...);
-    has_value_ = true;
-    return contained.value();
-  }
-
-#endif  // optional_CPP11_OR_GREATER
-
-  // x.x.3.4, swap
-
-  void swap(optional& other)
-#if optional_CPP11_OR_GREATER
-      noexcept(std::is_nothrow_move_constructible<T>::value&&
-                   std17::is_nothrow_swappable<T>::value)
-#endif
-  {
-    using std::swap;
-    if ((has_value() == true) && (other.has_value() == true)) {
-      swap(**this, *other);
-    } else if ((has_value() == false) && (other.has_value() == true)) {
-      initialize(std11::move(*other));
-      other.reset();
-    } else if ((has_value() == true) && (other.has_value() == false)) {
-      other.initialize(std11::move(**this));
-      reset();
-    }
-  }
-
-  // x.x.3.5, observers
-
-  optional_constexpr value_type const* operator->() const {
-    return assert(has_value()), contained.value_ptr();
-  }
-
-  optional_constexpr14 value_type* operator->() {
-    return assert(has_value()), contained.value_ptr();
-  }
-
-  optional_constexpr value_type const& operator*() const optional_ref_qual {
-    return assert(has_value()), contained.value();
-  }
-
-  optional_constexpr14 value_type& operator*() optional_ref_qual {
-    return assert(has_value()), contained.value();
-  }
-
-#if optional_HAVE(REF_QUALIFIER) && \
-    (!optional_COMPILER_GNUC_VERSION || optional_COMPILER_GNUC_VERSION >= 490)
-
-  optional_constexpr value_type const&& operator*() const optional_refref_qual {
-    return std::move(**this);
-  }
-
-  optional_constexpr14 value_type&& operator*() optional_refref_qual {
-    return std::move(**this);
-  }
-
-#endif
-
-#if optional_CPP11_OR_GREATER
-  optional_constexpr explicit operator bool() const optional_noexcept {
-    return has_value();
-  }
-#else
-  optional_constexpr operator safe_bool() const optional_noexcept {
-    return has_value() ? &optional::this_type_does_not_support_comparisons : 0;
-  }
-#endif
-
-  // NOLINTNEXTLINE( modernize-use-nodiscard )
-  /*optional_nodiscard*/ optional_constexpr bool has_value() const optional_noexcept {
-    return has_value_;
-  }
-
-  // NOLINTNEXTLINE( modernize-use-nodiscard )
-  /*optional_nodiscard*/ optional_constexpr14 value_type const& value() const
-      optional_ref_qual {
-#if optional_CONFIG_NO_EXCEPTIONS
-    assert(has_value());
-#else
-    if (!has_value()) {
-      throw bad_optional_access();
-    }
-#endif
-    return contained.value();
-  }
-
-  optional_constexpr14 value_type& value() optional_ref_qual {
-#if optional_CONFIG_NO_EXCEPTIONS
-    assert(has_value());
-#else
-    if (!has_value()) {
-      throw bad_optional_access();
-    }
-#endif
-    return contained.value();
-  }
-
-#if optional_HAVE(REF_QUALIFIER) && \
-    (!optional_COMPILER_GNUC_VERSION || optional_COMPILER_GNUC_VERSION >= 490)
-
-  // NOLINTNEXTLINE( modernize-use-nodiscard )
-  /*optional_nodiscard*/ optional_constexpr value_type const&& value() const
-      optional_refref_qual {
-    return std::move(value());
-  }
-
-  optional_constexpr14 value_type&& value() optional_refref_qual {
-    return std::move(value());
-  }
-
-#endif
-
-#if optional_CPP11_OR_GREATER
-
-  template <typename U>
-  optional_constexpr value_type value_or(U&& v) const optional_ref_qual {
-    return has_value() ? contained.value() : static_cast<T>(std::forward<U>(v));
-  }
-
-  template <typename U>
-  optional_constexpr14 value_type value_or(U&& v) optional_refref_qual {
-    return has_value() ? std::move(contained.value())
-                       : static_cast<T>(std::forward<U>(v));
-  }
-
-#else
-
-  template <typename U>
-  optional_constexpr value_type value_or(U const& v) const {
-    return has_value() ? contained.value() : static_cast<value_type>(v);
-  }
-
-#endif  // optional_CPP11_OR_GREATER
-
-  // x.x.3.6, modifiers
-
-  void reset() optional_noexcept {
-    if (has_value()) {
-      contained.destruct_value();
-    }
-
-    has_value_ = false;
-  }
-
- private:
-  void this_type_does_not_support_comparisons() const {}
-
-  template <typename V>
-  void initialize(V const& value) {
-    assert(!has_value());
-    contained.construct_value(value);
-    has_value_ = true;
-  }
-
-#if optional_CPP11_OR_GREATER
-  template <typename V>
-  void initialize(V&& value) {
-    assert(!has_value());
-    contained.construct_value(std::move(value));
-    has_value_ = true;
-  }
-
-#endif
-
- private:
-  bool has_value_;
-  detail::storage_t<value_type> contained;
-};
-
-// Relational operators
-
-template <typename T, typename U>
-inline optional_constexpr bool operator==(optional<T> const& x, optional<U> const& y) {
-  return bool(x) != bool(y) ? false : !bool(x) ? true : *x == *y;
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator!=(optional<T> const& x, optional<U> const& y) {
-  return !(x == y);
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator<(optional<T> const& x, optional<U> const& y) {
-  return (!y) ? false : (!x) ? true : *x < *y;
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator>(optional<T> const& x, optional<U> const& y) {
-  return (y < x);
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator<=(optional<T> const& x, optional<U> const& y) {
-  return !(y < x);
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator>=(optional<T> const& x, optional<U> const& y) {
-  return !(x < y);
-}
-
-// Comparison with nullopt
-
-template <typename T>
-inline optional_constexpr bool operator==(optional<T> const& x,
-                                          nullopt_t /*unused*/) optional_noexcept {
-  return (!x);
-}
-
-template <typename T>
-inline optional_constexpr bool operator==(nullopt_t /*unused*/,
-                                          optional<T> const& x) optional_noexcept {
-  return (!x);
-}
-
-template <typename T>
-inline optional_constexpr bool operator!=(optional<T> const& x,
-                                          nullopt_t /*unused*/) optional_noexcept {
-  return bool(x);
-}
-
-template <typename T>
-inline optional_constexpr bool operator!=(nullopt_t /*unused*/,
-                                          optional<T> const& x) optional_noexcept {
-  return bool(x);
-}
-
-template <typename T>
-inline optional_constexpr bool operator<(optional<T> const& /*unused*/,
-                                         nullopt_t /*unused*/) optional_noexcept {
-  return false;
-}
-
-template <typename T>
-inline optional_constexpr bool operator<(nullopt_t /*unused*/,
-                                         optional<T> const& x) optional_noexcept {
-  return bool(x);
-}
-
-template <typename T>
-inline optional_constexpr bool operator<=(optional<T> const& x,
-                                          nullopt_t /*unused*/) optional_noexcept {
-  return (!x);
-}
-
-template <typename T>
-inline optional_constexpr bool operator<=(
-    nullopt_t /*unused*/, optional<T> const& /*unused*/) optional_noexcept {
-  return true;
-}
-
-template <typename T>
-inline optional_constexpr bool operator>(optional<T> const& x,
-                                         nullopt_t /*unused*/) optional_noexcept {
-  return bool(x);
-}
-
-template <typename T>
-inline optional_constexpr bool operator>(
-    nullopt_t /*unused*/, optional<T> const& /*unused*/) optional_noexcept {
-  return false;
-}
-
-template <typename T>
-inline optional_constexpr bool operator>=(optional<T> const& /*unused*/,
-                                          nullopt_t /*unused*/) optional_noexcept {
-  return true;
-}
-
-template <typename T>
-inline optional_constexpr bool operator>=(nullopt_t /*unused*/,
-                                          optional<T> const& x) optional_noexcept {
-  return (!x);
-}
-
-// Comparison with T
-
-template <typename T, typename U>
-inline optional_constexpr bool operator==(optional<T> const& x, U const& v) {
-  return bool(x) ? *x == v : false;
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator==(U const& v, optional<T> const& x) {
-  return bool(x) ? v == *x : false;
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator!=(optional<T> const& x, U const& v) {
-  return bool(x) ? *x != v : true;
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator!=(U const& v, optional<T> const& x) {
-  return bool(x) ? v != *x : true;
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator<(optional<T> const& x, U const& v) {
-  return bool(x) ? *x < v : true;
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator<(U const& v, optional<T> const& x) {
-  return bool(x) ? v < *x : false;
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator<=(optional<T> const& x, U const& v) {
-  return bool(x) ? *x <= v : true;
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator<=(U const& v, optional<T> const& x) {
-  return bool(x) ? v <= *x : false;
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator>(optional<T> const& x, U const& v) {
-  return bool(x) ? *x > v : false;
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator>(U const& v, optional<T> const& x) {
-  return bool(x) ? v > *x : true;
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator>=(optional<T> const& x, U const& v) {
-  return bool(x) ? *x >= v : false;
-}
-
-template <typename T, typename U>
-inline optional_constexpr bool operator>=(U const& v, optional<T> const& x) {
-  return bool(x) ? v >= *x : true;
-}
-
-// Specialized algorithms
-
-template <typename T
-#if optional_CPP11_OR_GREATER
-              optional_REQUIRES_T(
-                  std::is_move_constructible<T>::value&& std17::is_swappable<T>::value)
-#endif
-          >
-void swap(optional<T>& x, optional<T>& y)
-#if optional_CPP11_OR_GREATER
-    noexcept(noexcept(x.swap(y)))
-#endif
-{
-  x.swap(y);
-}
-
-#if optional_CPP11_OR_GREATER
-
-template <typename T>
-optional_constexpr optional<typename std::decay<T>::type> make_optional(T&& value) {
-  return optional<typename std::decay<T>::type>(std::forward<T>(value));
-}
-
-template <typename T, typename... Args>
-optional_constexpr optional<T> make_optional(Args&&... args) {
-  return optional<T>(nonstd_lite_in_place(T), std::forward<Args>(args)...);
-}
-
-template <typename T, typename U, typename... Args>
-optional_constexpr optional<T> make_optional(std::initializer_list<U> il,
-                                             Args&&... args) {
-  return optional<T>(nonstd_lite_in_place(T), il, std::forward<Args>(args)...);
-}
-
-#else
-
-template <typename T>
-optional<T> make_optional(T const& value) {
-  return optional<T>(value);
-}
-
-#endif  // optional_CPP11_OR_GREATER
-
-}  // namespace optional_lite
-
-using optional_lite::bad_optional_access;
-using optional_lite::nullopt;
-using optional_lite::nullopt_t;
-using optional_lite::optional;
-
-using optional_lite::make_optional;
-
-}  // namespace nonstd
-
-#if optional_CPP11_OR_GREATER
-
-// specialize the std::hash algorithm:
-
-namespace std {
-
-template <class T>
-struct hash<nonstd::optional<T> > {
- public:
-  std::size_t operator()(nonstd::optional<T> const& v) const optional_noexcept {
-    return bool(v) ? std::hash<T>{}(*v) : 0;
-  }
-};
-
-}  // namespace std
-
-#endif  // optional_CPP11_OR_GREATER
-
-#if defined(__clang__)
-#pragma clang diagnostic pop
-#elif defined(__GNUC__)
-#pragma GCC diagnostic pop
-#elif defined(_MSC_VER)
-#pragma warning(pop)
-#endif
-
-#endif  // optional_USES_STD_OPTIONAL
-
-#endif  // NONSTD_OPTIONAL_LITE_HPP
diff --git a/cpp/src/arrow/vendored/string_view.hpp b/cpp/src/arrow/vendored/string_view.hpp
deleted file mode 100644
index a2d5567854f..00000000000
--- a/cpp/src/arrow/vendored/string_view.hpp
+++ /dev/null
@@ -1,1531 +0,0 @@
-// Vendored from git changeset v1.4.0
-
-// Copyright 2017-2020 by Martin Moene
-//
-// string-view lite, a C++17-like string_view for C++98 and later.
-// For more information see https://github.com/martinmoene/string-view-lite
-//
-// Distributed under the Boost Software License, Version 1.0.
-// (See accompanying file LICENSE.txt or copy at http://www.boost.org/LICENSE_1_0.txt)
-
-#pragma once
-
-#ifndef NONSTD_SV_LITE_H_INCLUDED
-#define NONSTD_SV_LITE_H_INCLUDED
-
-#define string_view_lite_MAJOR  1
-#define string_view_lite_MINOR  4
-#define string_view_lite_PATCH  0
-
-#define string_view_lite_VERSION  nssv_STRINGIFY(string_view_lite_MAJOR) "." nssv_STRINGIFY(string_view_lite_MINOR) "." nssv_STRINGIFY(string_view_lite_PATCH)
-
-#define nssv_STRINGIFY(  x )  nssv_STRINGIFY_( x )
-#define nssv_STRINGIFY_( x )  #x
-
-// string-view lite configuration:
-
-#define nssv_STRING_VIEW_DEFAULT  0
-#define nssv_STRING_VIEW_NONSTD   1
-#define nssv_STRING_VIEW_STD      2
-
-#if !defined( nssv_CONFIG_SELECT_STRING_VIEW )
-# define nssv_CONFIG_SELECT_STRING_VIEW  ( nssv_HAVE_STD_STRING_VIEW ? nssv_STRING_VIEW_STD : nssv_STRING_VIEW_NONSTD )
-#endif
-
-#if defined( nssv_CONFIG_SELECT_STD_STRING_VIEW ) || defined( nssv_CONFIG_SELECT_NONSTD_STRING_VIEW )
-# error nssv_CONFIG_SELECT_STD_STRING_VIEW and nssv_CONFIG_SELECT_NONSTD_STRING_VIEW are deprecated and removed, please use nssv_CONFIG_SELECT_STRING_VIEW=nssv_STRING_VIEW_...
-#endif
-
-#ifndef  nssv_CONFIG_STD_SV_OPERATOR
-# define nssv_CONFIG_STD_SV_OPERATOR  0
-#endif
-
-#ifndef  nssv_CONFIG_USR_SV_OPERATOR
-# define nssv_CONFIG_USR_SV_OPERATOR  1
-#endif
-
-#ifdef   nssv_CONFIG_CONVERSION_STD_STRING
-# define nssv_CONFIG_CONVERSION_STD_STRING_CLASS_METHODS   nssv_CONFIG_CONVERSION_STD_STRING
-# define nssv_CONFIG_CONVERSION_STD_STRING_FREE_FUNCTIONS  nssv_CONFIG_CONVERSION_STD_STRING
-#endif
-
-#ifndef  nssv_CONFIG_CONVERSION_STD_STRING_CLASS_METHODS
-# define nssv_CONFIG_CONVERSION_STD_STRING_CLASS_METHODS  1
-#endif
-
-#ifndef  nssv_CONFIG_CONVERSION_STD_STRING_FREE_FUNCTIONS
-# define nssv_CONFIG_CONVERSION_STD_STRING_FREE_FUNCTIONS  1
-#endif
-
-// Control presence of exception handling (try and auto discover):
-
-#ifndef nssv_CONFIG_NO_EXCEPTIONS
-# if defined(__cpp_exceptions) || defined(__EXCEPTIONS) || defined(_CPPUNWIND)
-#  define nssv_CONFIG_NO_EXCEPTIONS  0
-# else
-#  define nssv_CONFIG_NO_EXCEPTIONS  1
-# endif
-#endif
-
-// C++ language version detection (C++20 is speculative):
-// Note: VC14.0/1900 (VS2015) lacks too much from C++14.
-
-#ifndef   nssv_CPLUSPLUS
-# if defined(_MSVC_LANG ) && !defined(__clang__)
-#  define nssv_CPLUSPLUS  (_MSC_VER == 1900 ? 201103L : _MSVC_LANG )
-# else
-#  define nssv_CPLUSPLUS  __cplusplus
-# endif
-#endif
-
-#define nssv_CPP98_OR_GREATER  ( nssv_CPLUSPLUS >= 199711L )
-#define nssv_CPP11_OR_GREATER  ( nssv_CPLUSPLUS >= 201103L )
-#define nssv_CPP11_OR_GREATER_ ( nssv_CPLUSPLUS >= 201103L )
-#define nssv_CPP14_OR_GREATER  ( nssv_CPLUSPLUS >= 201402L )
-#define nssv_CPP17_OR_GREATER  ( nssv_CPLUSPLUS >= 201703L )
-#define nssv_CPP20_OR_GREATER  ( nssv_CPLUSPLUS >= 202000L )
-
-// use C++17 std::string_view if available and requested:
-
-#if nssv_CPP17_OR_GREATER && defined(__has_include )
-# if __has_include( <string_view> )
-#  define nssv_HAVE_STD_STRING_VIEW  1
-# else
-#  define nssv_HAVE_STD_STRING_VIEW  0
-# endif
-#else
-# define  nssv_HAVE_STD_STRING_VIEW  0
-#endif
-
-#define  nssv_USES_STD_STRING_VIEW  ( (nssv_CONFIG_SELECT_STRING_VIEW == nssv_STRING_VIEW_STD) || ((nssv_CONFIG_SELECT_STRING_VIEW == nssv_STRING_VIEW_DEFAULT) && nssv_HAVE_STD_STRING_VIEW) )
-
-#define nssv_HAVE_STARTS_WITH ( nssv_CPP20_OR_GREATER || !nssv_USES_STD_STRING_VIEW )
-#define nssv_HAVE_ENDS_WITH     nssv_HAVE_STARTS_WITH
-
-//
-// Use C++17 std::string_view:
-//
-
-#if nssv_USES_STD_STRING_VIEW
-
-#include <string_view>
-
-// Extensions for std::string:
-
-#if nssv_CONFIG_CONVERSION_STD_STRING_FREE_FUNCTIONS
-
-namespace nonstd {
-
-template< class CharT, class Traits, class Allocator = std::allocator<CharT> >
-std::basic_string<CharT, Traits, Allocator>
-to_string( std::basic_string_view<CharT, Traits> v, Allocator const & a = Allocator() )
-{
-    return std::basic_string<CharT,Traits, Allocator>( v.begin(), v.end(), a );
-}
-
-template< class CharT, class Traits, class Allocator >
-std::basic_string_view<CharT, Traits>
-to_string_view( std::basic_string<CharT, Traits, Allocator> const & s )
-{
-    return std::basic_string_view<CharT, Traits>( s.data(), s.size() );
-}
-
-// Literal operators sv and _sv:
-
-#if nssv_CONFIG_STD_SV_OPERATOR
-
-using namespace std::literals::string_view_literals;
-
-#endif
-
-#if nssv_CONFIG_USR_SV_OPERATOR
-
-inline namespace literals {
-inline namespace string_view_literals {
-
-
-constexpr std::string_view operator "" _sv( const char* str, size_t len ) noexcept  // (1)
-{
-    return std::string_view{ str, len };
-}
-
-constexpr std::u16string_view operator "" _sv( const char16_t* str, size_t len ) noexcept  // (2)
-{
-    return std::u16string_view{ str, len };
-}
-
-constexpr std::u32string_view operator "" _sv( const char32_t* str, size_t len ) noexcept  // (3)
-{
-    return std::u32string_view{ str, len };
-}
-
-constexpr std::wstring_view operator "" _sv( const wchar_t* str, size_t len ) noexcept  // (4)
-{
-    return std::wstring_view{ str, len };
-}
-
-}} // namespace literals::string_view_literals
-
-#endif // nssv_CONFIG_USR_SV_OPERATOR
-
-} // namespace nonstd
-
-#endif // nssv_CONFIG_CONVERSION_STD_STRING_FREE_FUNCTIONS
-
-namespace nonstd {
-
-using std::string_view;
-using std::wstring_view;
-using std::u16string_view;
-using std::u32string_view;
-using std::basic_string_view;
-
-// literal "sv" and "_sv", see above
-
-using std::operator==;
-using std::operator!=;
-using std::operator<;
-using std::operator<=;
-using std::operator>;
-using std::operator>=;
-
-using std::operator<<;
-
-} // namespace nonstd
-
-#else // nssv_HAVE_STD_STRING_VIEW
-
-//
-// Before C++17: use string_view lite:
-//
-
-// Compiler versions:
-//
-// MSVC++  6.0  _MSC_VER == 1200  nssv_COMPILER_MSVC_VERSION ==  60  (Visual Studio 6.0)
-// MSVC++  7.0  _MSC_VER == 1300  nssv_COMPILER_MSVC_VERSION ==  70  (Visual Studio .NET 2002)
-// MSVC++  7.1  _MSC_VER == 1310  nssv_COMPILER_MSVC_VERSION ==  71  (Visual Studio .NET 2003)
-// MSVC++  8.0  _MSC_VER == 1400  nssv_COMPILER_MSVC_VERSION ==  80  (Visual Studio 2005)
-// MSVC++  9.0  _MSC_VER == 1500  nssv_COMPILER_MSVC_VERSION ==  90  (Visual Studio 2008)
-// MSVC++ 10.0  _MSC_VER == 1600  nssv_COMPILER_MSVC_VERSION == 100  (Visual Studio 2010)
-// MSVC++ 11.0  _MSC_VER == 1700  nssv_COMPILER_MSVC_VERSION == 110  (Visual Studio 2012)
-// MSVC++ 12.0  _MSC_VER == 1800  nssv_COMPILER_MSVC_VERSION == 120  (Visual Studio 2013)
-// MSVC++ 14.0  _MSC_VER == 1900  nssv_COMPILER_MSVC_VERSION == 140  (Visual Studio 2015)
-// MSVC++ 14.1  _MSC_VER >= 1910  nssv_COMPILER_MSVC_VERSION == 141  (Visual Studio 2017)
-// MSVC++ 14.2  _MSC_VER >= 1920  nssv_COMPILER_MSVC_VERSION == 142  (Visual Studio 2019)
-
-#if defined(_MSC_VER ) && !defined(__clang__)
-# define nssv_COMPILER_MSVC_VER      (_MSC_VER )
-# define nssv_COMPILER_MSVC_VERSION  (_MSC_VER / 10 - 10 * ( 5 + (_MSC_VER < 1900 ) ) )
-#else
-# define nssv_COMPILER_MSVC_VER      0
-# define nssv_COMPILER_MSVC_VERSION  0
-#endif
-
-#define nssv_COMPILER_VERSION( major, minor, patch )  ( 10 * ( 10 * (major) + (minor) ) + (patch) )
-
-#if defined(__clang__)
-# define nssv_COMPILER_CLANG_VERSION  nssv_COMPILER_VERSION(__clang_major__, __clang_minor__, __clang_patchlevel__)
-#else
-# define nssv_COMPILER_CLANG_VERSION    0
-#endif
-
-#if defined(__GNUC__) && !defined(__clang__)
-# define nssv_COMPILER_GNUC_VERSION  nssv_COMPILER_VERSION(__GNUC__, __GNUC_MINOR__, __GNUC_PATCHLEVEL__)
-#else
-# define nssv_COMPILER_GNUC_VERSION    0
-#endif
-
-// half-open range [lo..hi):
-#define nssv_BETWEEN( v, lo, hi ) ( (lo) <= (v) && (v) < (hi) )
-
-// Presence of language and library features:
-
-#ifdef _HAS_CPP0X
-# define nssv_HAS_CPP0X  _HAS_CPP0X
-#else
-# define nssv_HAS_CPP0X  0
-#endif
-
-// Unless defined otherwise below, consider VC14 as C++11 for variant-lite:
-
-#if nssv_COMPILER_MSVC_VER >= 1900
-# undef  nssv_CPP11_OR_GREATER
-# define nssv_CPP11_OR_GREATER  1
-#endif
-
-#define nssv_CPP11_90   (nssv_CPP11_OR_GREATER_ || nssv_COMPILER_MSVC_VER >= 1500)
-#define nssv_CPP11_100  (nssv_CPP11_OR_GREATER_ || nssv_COMPILER_MSVC_VER >= 1600)
-#define nssv_CPP11_110  (nssv_CPP11_OR_GREATER_ || nssv_COMPILER_MSVC_VER >= 1700)
-#define nssv_CPP11_120  (nssv_CPP11_OR_GREATER_ || nssv_COMPILER_MSVC_VER >= 1800)
-#define nssv_CPP11_140  (nssv_CPP11_OR_GREATER_ || nssv_COMPILER_MSVC_VER >= 1900)
-#define nssv_CPP11_141  (nssv_CPP11_OR_GREATER_ || nssv_COMPILER_MSVC_VER >= 1910)
-
-#define nssv_CPP14_000  (nssv_CPP14_OR_GREATER)
-#define nssv_CPP17_000  (nssv_CPP17_OR_GREATER)
-
-// Presence of C++11 language features:
-
-#define nssv_HAVE_CONSTEXPR_11          nssv_CPP11_140
-#define nssv_HAVE_EXPLICIT_CONVERSION   nssv_CPP11_140
-#define nssv_HAVE_INLINE_NAMESPACE      nssv_CPP11_140
-#define nssv_HAVE_NOEXCEPT              nssv_CPP11_140
-#define nssv_HAVE_NULLPTR               nssv_CPP11_100
-#define nssv_HAVE_REF_QUALIFIER         nssv_CPP11_140
-#define nssv_HAVE_UNICODE_LITERALS      nssv_CPP11_140
-#define nssv_HAVE_USER_DEFINED_LITERALS nssv_CPP11_140
-#define nssv_HAVE_WCHAR16_T             nssv_CPP11_100
-#define nssv_HAVE_WCHAR32_T             nssv_CPP11_100
-
-#if ! ( ( nssv_CPP11_OR_GREATER && nssv_COMPILER_CLANG_VERSION ) || nssv_BETWEEN( nssv_COMPILER_CLANG_VERSION, 300, 400 ) )
-# define nssv_HAVE_STD_DEFINED_LITERALS  nssv_CPP11_140
-#else
-# define nssv_HAVE_STD_DEFINED_LITERALS  0
-#endif
-
-// Presence of C++14 language features:
-
-#define nssv_HAVE_CONSTEXPR_14          nssv_CPP14_000
-
-// Presence of C++17 language features:
-
-#define nssv_HAVE_NODISCARD             nssv_CPP17_000
-
-// Presence of C++ library features:
-
-#define nssv_HAVE_STD_HASH              nssv_CPP11_120
-
-// C++ feature usage:
-
-#if nssv_HAVE_CONSTEXPR_11
-# define nssv_constexpr  constexpr
-#else
-# define nssv_constexpr  /*constexpr*/
-#endif
-
-#if  nssv_HAVE_CONSTEXPR_14
-# define nssv_constexpr14  constexpr
-#else
-# define nssv_constexpr14  /*constexpr*/
-#endif
-
-#if nssv_HAVE_EXPLICIT_CONVERSION
-# define nssv_explicit  explicit
-#else
-# define nssv_explicit  /*explicit*/
-#endif
-
-#if nssv_HAVE_INLINE_NAMESPACE
-# define nssv_inline_ns  inline
-#else
-# define nssv_inline_ns  /*inline*/
-#endif
-
-#if nssv_HAVE_NOEXCEPT
-# define nssv_noexcept  noexcept
-#else
-# define nssv_noexcept  /*noexcept*/
-#endif
-
-//#if nssv_HAVE_REF_QUALIFIER
-//# define nssv_ref_qual  &
-//# define nssv_refref_qual  &&
-//#else
-//# define nssv_ref_qual  /*&*/
-//# define nssv_refref_qual  /*&&*/
-//#endif
-
-#if nssv_HAVE_NULLPTR
-# define nssv_nullptr  nullptr
-#else
-# define nssv_nullptr  NULL
-#endif
-
-#if nssv_HAVE_NODISCARD
-# define nssv_nodiscard  [[nodiscard]]
-#else
-# define nssv_nodiscard  /*[[nodiscard]]*/
-#endif
-
-// Additional includes:
-
-#include <algorithm>
-#include <cassert>
-#include <iterator>
-#include <limits>
-#include <ostream>
-#include <string>   // std::char_traits<>
-
-#if ! nssv_CONFIG_NO_EXCEPTIONS
-# include <stdexcept>
-#endif
-
-#if nssv_CPP11_OR_GREATER
-# include <type_traits>
-#endif
-
-// Clang, GNUC, MSVC warning suppression macros:
-
-#if defined(__clang__)
-# pragma clang diagnostic ignored "-Wreserved-user-defined-literal"
-# pragma clang diagnostic push
-# pragma clang diagnostic ignored "-Wuser-defined-literals"
-#elif defined(__GNUC__)
-# pragma  GCC  diagnostic push
-# pragma  GCC  diagnostic ignored "-Wliteral-suffix"
-#endif // __clang__
-
-#if nssv_COMPILER_MSVC_VERSION >= 140
-# define nssv_SUPPRESS_MSGSL_WARNING(expr)        [[gsl::suppress(expr)]]
-# define nssv_SUPPRESS_MSVC_WARNING(code, descr)  __pragma(warning(suppress: code) )
-# define nssv_DISABLE_MSVC_WARNINGS(codes)        __pragma(warning(push))  __pragma(warning(disable: codes))
-#else
-# define nssv_SUPPRESS_MSGSL_WARNING(expr)
-# define nssv_SUPPRESS_MSVC_WARNING(code, descr)
-# define nssv_DISABLE_MSVC_WARNINGS(codes)
-#endif
-
-#if defined(__clang__)
-# define nssv_RESTORE_WARNINGS()  _Pragma("clang diagnostic pop")
-#elif defined(__GNUC__)
-# define nssv_RESTORE_WARNINGS()  _Pragma("GCC diagnostic pop")
-#elif nssv_COMPILER_MSVC_VERSION >= 140
-# define nssv_RESTORE_WARNINGS()  __pragma(warning(pop ))
-#else
-# define nssv_RESTORE_WARNINGS()
-#endif
-
-// Suppress the following MSVC (GSL) warnings:
-// - C4455, non-gsl   : 'operator ""sv': literal suffix identifiers that do not
-//                      start with an underscore are reserved
-// - C26472, gsl::t.1 : don't use a static_cast for arithmetic conversions;
-//                      use brace initialization, gsl::narrow_cast or gsl::narow
-// - C26481: gsl::b.1 : don't use pointer arithmetic. Use span instead
-
-nssv_DISABLE_MSVC_WARNINGS( 4455 26481 26472 )
-//nssv_DISABLE_CLANG_WARNINGS( "-Wuser-defined-literals" )
-//nssv_DISABLE_GNUC_WARNINGS( -Wliteral-suffix )
-
-namespace nonstd { namespace sv_lite {
-
-#if nssv_CPP11_OR_GREATER
-
-namespace detail {
-
-#if nssv_CPP14_OR_GREATER
-
-template< typename CharT >
-inline constexpr std::size_t length( CharT * s, std::size_t result = 0 )
-{
-    CharT * v = s;
-    std::size_t r = result;
-    while ( *v != '\0' ) {
-       ++v;
-       ++r;
-    }
-    return r;
-}
-
-#else // nssv_CPP14_OR_GREATER
-
-// Expect tail call optimization to make length() non-recursive:
-
-template< typename CharT >
-inline constexpr std::size_t length( CharT * s, std::size_t result = 0 )
-{
-    return *s == '\0' ? result : length( s + 1, result + 1 );
-}
-
-#endif // nssv_CPP14_OR_GREATER
-
-} // namespace detail
-
-#endif // nssv_CPP11_OR_GREATER
-
-template
-<
-    class CharT,
-    class Traits = std::char_traits<CharT>
->
-class basic_string_view;
-
-//
-// basic_string_view:
-//
-
-template
-<
-    class CharT,
-    class Traits /* = std::char_traits<CharT> */
->
-class basic_string_view
-{
-public:
-    // Member types:
-
-    typedef Traits traits_type;
-    typedef CharT  value_type;
-
-    typedef CharT       * pointer;
-    typedef CharT const * const_pointer;
-    typedef CharT       & reference;
-    typedef CharT const & const_reference;
-
-    typedef const_pointer iterator;
-    typedef const_pointer const_iterator;
-    typedef std::reverse_iterator< const_iterator > reverse_iterator;
-    typedef	std::reverse_iterator< const_iterator > const_reverse_iterator;
-
-    typedef std::size_t     size_type;
-    typedef std::ptrdiff_t  difference_type;
-
-    // 24.4.2.1 Construction and assignment:
-
-    nssv_constexpr basic_string_view() nssv_noexcept
-        : data_( nssv_nullptr )
-        , size_( 0 )
-    {}
-
-#if nssv_CPP11_OR_GREATER
-    nssv_constexpr basic_string_view( basic_string_view const & other ) nssv_noexcept = default;
-#else
-    nssv_constexpr basic_string_view( basic_string_view const & other ) nssv_noexcept
-        : data_( other.data_)
-        , size_( other.size_)
-    {}
-#endif
-
-    nssv_constexpr basic_string_view( CharT const * s, size_type count ) nssv_noexcept // non-standard noexcept
-        : data_( s )
-        , size_( count )
-    {}
-
-    nssv_constexpr basic_string_view( CharT const * s) nssv_noexcept // non-standard noexcept
-        : data_( s )
-#if nssv_CPP17_OR_GREATER
-        , size_( Traits::length(s) )
-#elif nssv_CPP11_OR_GREATER
-        , size_( detail::length(s) )
-#else
-        , size_( Traits::length(s) )
-#endif
-    {}
-
-    // Assignment:
-
-#if nssv_CPP11_OR_GREATER
-    nssv_constexpr14 basic_string_view & operator=( basic_string_view const & other ) nssv_noexcept = default;
-#else
-    nssv_constexpr14 basic_string_view & operator=( basic_string_view const & other ) nssv_noexcept
-    {
-        data_ = other.data_;
-        size_ = other.size_;
-        return *this;
-    }
-#endif
-
-    // 24.4.2.2 Iterator support:
-
-    nssv_constexpr const_iterator begin()  const nssv_noexcept { return data_;         }
-    nssv_constexpr const_iterator end()    const nssv_noexcept { return data_ + size_; }
-
-    nssv_constexpr const_iterator cbegin() const nssv_noexcept { return begin(); }
-    nssv_constexpr const_iterator cend()   const nssv_noexcept { return end();   }
-
-    nssv_constexpr const_reverse_iterator rbegin()  const nssv_noexcept { return const_reverse_iterator( end() );   }
-    nssv_constexpr const_reverse_iterator rend()    const nssv_noexcept { return const_reverse_iterator( begin() ); }
-
-    nssv_constexpr const_reverse_iterator crbegin() const nssv_noexcept { return rbegin(); }
-    nssv_constexpr const_reverse_iterator crend()   const nssv_noexcept { return rend();   }
-
-    // 24.4.2.3 Capacity:
-
-    nssv_constexpr size_type size()     const nssv_noexcept { return size_; }
-    nssv_constexpr size_type length()   const nssv_noexcept { return size_; }
-    nssv_constexpr size_type max_size() const nssv_noexcept { return (std::numeric_limits< size_type >::max)(); }
-
-    // since C++20
-    nssv_nodiscard nssv_constexpr bool empty() const nssv_noexcept
-    {
-        return 0 == size_;
-    }
-
-    // 24.4.2.4 Element access:
-
-    nssv_constexpr const_reference operator[]( size_type pos ) const
-    {
-        return data_at( pos );
-    }
-
-    nssv_constexpr14 const_reference at( size_type pos ) const
-    {
-#if nssv_CONFIG_NO_EXCEPTIONS
-        assert( pos < size() );
-#else
-        if ( pos >= size() )
-        {
-            throw std::out_of_range("nonstd::string_view::at()");
-        }
-#endif
-        return data_at( pos );
-    }
-
-    nssv_constexpr const_reference front() const { return data_at( 0 );          }
-    nssv_constexpr const_reference back()  const { return data_at( size() - 1 ); }
-
-    nssv_constexpr const_pointer   data()  const nssv_noexcept { return data_; }
-
-    // 24.4.2.5 Modifiers:
-
-    nssv_constexpr14 void remove_prefix( size_type n )
-    {
-        assert( n <= size() );
-        data_ += n;
-        size_ -= n;
-    }
-
-    nssv_constexpr14 void remove_suffix( size_type n )
-    {
-        assert( n <= size() );
-        size_ -= n;
-    }
-
-    nssv_constexpr14 void swap( basic_string_view & other ) nssv_noexcept
-    {
-        using std::swap;
-        swap( data_, other.data_ );
-        swap( size_, other.size_ );
-    }
-
-    // 24.4.2.6 String operations:
-
-    size_type copy( CharT * dest, size_type n, size_type pos = 0 ) const
-    {
-#if nssv_CONFIG_NO_EXCEPTIONS
-        assert( pos <= size() );
-#else
-        if ( pos > size() )
-        {
-            throw std::out_of_range("nonstd::string_view::copy()");
-        }
-#endif
-        const size_type rlen = (std::min)( n, size() - pos );
-
-        (void) Traits::copy( dest, data() + pos, rlen );
-
-        return rlen;
-    }
-
-    nssv_constexpr14 basic_string_view substr( size_type pos = 0, size_type n = npos ) const
-    {
-#if nssv_CONFIG_NO_EXCEPTIONS
-        assert( pos <= size() );
-#else
-        if ( pos > size() )
-        {
-            throw std::out_of_range("nonstd::string_view::substr()");
-        }
-#endif
-        return basic_string_view( data() + pos, (std::min)( n, size() - pos ) );
-    }
-
-    // compare(), 6x:
-
-    nssv_constexpr14 int compare( basic_string_view other ) const nssv_noexcept // (1)
-    {
-        if ( const int result = Traits::compare( data(), other.data(), (std::min)( size(), other.size() ) ) )
-        {
-            return result;
-        }
-
-        return size() == other.size() ? 0 : size() < other.size() ? -1 : 1;
-    }
-
-    nssv_constexpr int compare( size_type pos1, size_type n1, basic_string_view other ) const // (2)
-    {
-        return substr( pos1, n1 ).compare( other );
-    }
-
-    nssv_constexpr int compare( size_type pos1, size_type n1, basic_string_view other, size_type pos2, size_type n2 ) const // (3)
-    {
-        return substr( pos1, n1 ).compare( other.substr( pos2, n2 ) );
-    }
-
-    nssv_constexpr int compare( CharT const * s ) const // (4)
-    {
-        return compare( basic_string_view( s ) );
-    }
-
-    nssv_constexpr int compare( size_type pos1, size_type n1, CharT const * s ) const // (5)
-    {
-        return substr( pos1, n1 ).compare( basic_string_view( s ) );
-    }
-
-    nssv_constexpr int compare( size_type pos1, size_type n1, CharT const * s, size_type n2 ) const // (6)
-    {
-        return substr( pos1, n1 ).compare( basic_string_view( s, n2 ) );
-    }
-
-    // 24.4.2.7 Searching:
-
-    // starts_with(), 3x, since C++20:
-
-    nssv_constexpr bool starts_with( basic_string_view v ) const nssv_noexcept  // (1)
-    {
-        return size() >= v.size() && compare( 0, v.size(), v ) == 0;
-    }
-
-    nssv_constexpr bool starts_with( CharT c ) const nssv_noexcept  // (2)
-    {
-        return starts_with( basic_string_view( &c, 1 ) );
-    }
-
-    nssv_constexpr bool starts_with( CharT const * s ) const  // (3)
-    {
-        return starts_with( basic_string_view( s ) );
-    }
-
-    // ends_with(), 3x, since C++20:
-
-    nssv_constexpr bool ends_with( basic_string_view v ) const nssv_noexcept  // (1)
-    {
-        return size() >= v.size() && compare( size() - v.size(), npos, v ) == 0;
-    }
-
-    nssv_constexpr bool ends_with( CharT c ) const nssv_noexcept  // (2)
-    {
-        return ends_with( basic_string_view( &c, 1 ) );
-    }
-
-    nssv_constexpr bool ends_with( CharT const * s ) const  // (3)
-    {
-        return ends_with( basic_string_view( s ) );
-    }
-
-    // find(), 4x:
-
-    nssv_constexpr14 size_type find( basic_string_view v, size_type pos = 0 ) const nssv_noexcept  // (1)
-    {
-        return assert( v.size() == 0 || v.data() != nssv_nullptr )
-            , pos >= size()
-            ? npos
-            : to_pos( std::search( cbegin() + pos, cend(), v.cbegin(), v.cend(), Traits::eq ) );
-    }
-
-    nssv_constexpr14 size_type find( CharT c, size_type pos = 0 ) const nssv_noexcept  // (2)
-    {
-        return find( basic_string_view( &c, 1 ), pos );
-    }
-
-    nssv_constexpr14 size_type find( CharT const * s, size_type pos, size_type n ) const  // (3)
-    {
-        return find( basic_string_view( s, n ), pos );
-    }
-
-    nssv_constexpr14 size_type find( CharT const * s, size_type pos = 0 ) const  // (4)
-    {
-        return find( basic_string_view( s ), pos );
-    }
-
-    // rfind(), 4x:
-
-    nssv_constexpr14 size_type rfind( basic_string_view v, size_type pos = npos ) const nssv_noexcept  // (1)
-    {
-        if ( size() < v.size() )
-        {
-            return npos;
-        }
-
-        if ( v.empty() )
-        {
-            return (std::min)( size(), pos );
-        }
-
-        const_iterator last   = cbegin() + (std::min)( size() - v.size(), pos ) + v.size();
-        const_iterator result = std::find_end( cbegin(), last, v.cbegin(), v.cend(), Traits::eq );
-
-        return result != last ? size_type( result - cbegin() ) : npos;
-    }
-
-    nssv_constexpr14 size_type rfind( CharT c, size_type pos = npos ) const nssv_noexcept  // (2)
-    {
-        return rfind( basic_string_view( &c, 1 ), pos );
-    }
-
-    nssv_constexpr14 size_type rfind( CharT const * s, size_type pos, size_type n ) const  // (3)
-    {
-        return rfind( basic_string_view( s, n ), pos );
-    }
-
-    nssv_constexpr14 size_type rfind( CharT const * s, size_type pos = npos ) const  // (4)
-    {
-        return rfind( basic_string_view( s ), pos );
-    }
-
-    // find_first_of(), 4x:
-
-    nssv_constexpr size_type find_first_of( basic_string_view v, size_type pos = 0 ) const nssv_noexcept  // (1)
-    {
-        return pos >= size()
-            ? npos
-            : to_pos( std::find_first_of( cbegin() + pos, cend(), v.cbegin(), v.cend(), Traits::eq ) );
-    }
-
-    nssv_constexpr size_type find_first_of( CharT c, size_type pos = 0 ) const nssv_noexcept  // (2)
-    {
-        return find_first_of( basic_string_view( &c, 1 ), pos );
-    }
-
-    nssv_constexpr size_type find_first_of( CharT const * s, size_type pos, size_type n ) const  // (3)
-    {
-        return find_first_of( basic_string_view( s, n ), pos );
-    }
-
-    nssv_constexpr size_type find_first_of(  CharT const * s, size_type pos = 0 ) const  // (4)
-    {
-        return find_first_of( basic_string_view( s ), pos );
-    }
-
-    // find_last_of(), 4x:
-
-    nssv_constexpr size_type find_last_of( basic_string_view v, size_type pos = npos ) const nssv_noexcept  // (1)
-    {
-        return empty()
-            ? npos
-            : pos >= size()
-            ? find_last_of( v, size() - 1 )
-            : to_pos( std::find_first_of( const_reverse_iterator( cbegin() + pos + 1 ), crend(), v.cbegin(), v.cend(), Traits::eq ) );
-    }
-
-    nssv_constexpr size_type find_last_of( CharT c, size_type pos = npos ) const nssv_noexcept  // (2)
-    {
-        return find_last_of( basic_string_view( &c, 1 ), pos );
-    }
-
-    nssv_constexpr size_type find_last_of( CharT const * s, size_type pos, size_type count ) const  // (3)
-    {
-        return find_last_of( basic_string_view( s, count ), pos );
-    }
-
-    nssv_constexpr size_type find_last_of( CharT const * s, size_type pos = npos ) const  // (4)
-    {
-        return find_last_of( basic_string_view( s ), pos );
-    }
-
-    // find_first_not_of(), 4x:
-
-    nssv_constexpr size_type find_first_not_of( basic_string_view v, size_type pos = 0 ) const nssv_noexcept  // (1)
-    {
-        return pos >= size()
-            ? npos
-            : to_pos( std::find_if( cbegin() + pos, cend(), not_in_view( v ) ) );
-    }
-
-    nssv_constexpr size_type find_first_not_of( CharT c, size_type pos = 0 ) const nssv_noexcept  // (2)
-    {
-        return find_first_not_of( basic_string_view( &c, 1 ), pos );
-    }
-
-    nssv_constexpr size_type find_first_not_of( CharT const * s, size_type pos, size_type count ) const  // (3)
-    {
-        return find_first_not_of( basic_string_view( s, count ), pos );
-    }
-
-    nssv_constexpr size_type find_first_not_of( CharT const * s, size_type pos = 0 ) const  // (4)
-    {
-        return find_first_not_of( basic_string_view( s ), pos );
-    }
-
-    // find_last_not_of(), 4x:
-
-    nssv_constexpr size_type find_last_not_of( basic_string_view v, size_type pos = npos ) const nssv_noexcept  // (1)
-    {
-        return empty()
-            ? npos
-            : pos >= size()
-            ? find_last_not_of( v, size() - 1 )
-            : to_pos( std::find_if( const_reverse_iterator( cbegin() + pos + 1 ), crend(), not_in_view( v ) ) );
-    }
-
-    nssv_constexpr size_type find_last_not_of( CharT c, size_type pos = npos ) const nssv_noexcept  // (2)
-    {
-        return find_last_not_of( basic_string_view( &c, 1 ), pos );
-    }
-
-    nssv_constexpr size_type find_last_not_of( CharT const * s, size_type pos, size_type count ) const  // (3)
-    {
-        return find_last_not_of( basic_string_view( s, count ), pos );
-    }
-
-    nssv_constexpr size_type find_last_not_of( CharT const * s, size_type pos = npos ) const  // (4)
-    {
-        return find_last_not_of( basic_string_view( s ), pos );
-    }
-
-    // Constants:
-
-#if nssv_CPP17_OR_GREATER
-    static nssv_constexpr size_type npos = size_type(-1);
-#elif nssv_CPP11_OR_GREATER
-    enum : size_type { npos = size_type(-1) };
-#else
-    enum { npos = size_type(-1) };
-#endif
-
-private:
-    struct not_in_view
-    {
-        const basic_string_view v;
-
-        nssv_constexpr explicit not_in_view( basic_string_view v_ ) : v( v_ ) {}
-
-        nssv_constexpr bool operator()( CharT c ) const
-        {
-            return npos == v.find_first_of( c );
-        }
-    };
-
-    nssv_constexpr size_type to_pos( const_iterator it ) const
-    {
-        return it == cend() ? npos : size_type( it - cbegin() );
-    }
-
-    nssv_constexpr size_type to_pos( const_reverse_iterator it ) const
-    {
-        return it == crend() ? npos : size_type( crend() - it - 1 );
-    }
-
-    nssv_constexpr const_reference data_at( size_type pos ) const
-    {
-#if nssv_BETWEEN( nssv_COMPILER_GNUC_VERSION, 1, 500 )
-        return data_[pos];
-#else
-        return assert( pos < size() ), data_[pos];
-#endif
-    }
-
-private:
-    const_pointer data_;
-    size_type     size_;
-
-public:
-#if nssv_CONFIG_CONVERSION_STD_STRING_CLASS_METHODS
-
-    template< class Allocator >
-    basic_string_view( std::basic_string<CharT, Traits, Allocator> const & s ) nssv_noexcept
-        : data_( s.data() )
-        , size_( s.size() )
-    {}
-
-#if nssv_HAVE_EXPLICIT_CONVERSION
-
-    template< class Allocator >
-    explicit operator std::basic_string<CharT, Traits, Allocator>() const
-    {
-        return to_string( Allocator() );
-    }
-
-#endif // nssv_HAVE_EXPLICIT_CONVERSION
-
-#if nssv_CPP11_OR_GREATER
-
-    template< class Allocator = std::allocator<CharT> >
-    std::basic_string<CharT, Traits, Allocator>
-    to_string( Allocator const & a = Allocator() ) const
-    {
-        return std::basic_string<CharT, Traits, Allocator>( begin(), end(), a );
-    }
-
-#else
-
-    std::basic_string<CharT, Traits>
-    to_string() const
-    {
-        return std::basic_string<CharT, Traits>( begin(), end() );
-    }
-
-    template< class Allocator >
-    std::basic_string<CharT, Traits, Allocator>
-    to_string( Allocator const & a ) const
-    {
-        return std::basic_string<CharT, Traits, Allocator>( begin(), end(), a );
-    }
-
-#endif // nssv_CPP11_OR_GREATER
-
-#endif // nssv_CONFIG_CONVERSION_STD_STRING_CLASS_METHODS
-};
-
-//
-// Non-member functions:
-//
-
-// 24.4.3 Non-member comparison functions:
-// lexicographically compare two string views (function template):
-
-template< class CharT, class Traits >
-nssv_constexpr bool operator== (
-    basic_string_view <CharT, Traits> lhs,
-    basic_string_view <CharT, Traits> rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) == 0 ; }
-
-template< class CharT, class Traits >
-nssv_constexpr bool operator!= (
-    basic_string_view <CharT, Traits> lhs,
-    basic_string_view <CharT, Traits> rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) != 0 ; }
-
-template< class CharT, class Traits >
-nssv_constexpr bool operator< (
-    basic_string_view <CharT, Traits> lhs,
-    basic_string_view <CharT, Traits> rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) < 0 ; }
-
-template< class CharT, class Traits >
-nssv_constexpr bool operator<= (
-    basic_string_view <CharT, Traits> lhs,
-    basic_string_view <CharT, Traits> rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) <= 0 ; }
-
-template< class CharT, class Traits >
-nssv_constexpr bool operator> (
-    basic_string_view <CharT, Traits> lhs,
-    basic_string_view <CharT, Traits> rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) > 0 ; }
-
-template< class CharT, class Traits >
-nssv_constexpr bool operator>= (
-    basic_string_view <CharT, Traits> lhs,
-    basic_string_view <CharT, Traits> rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) >= 0 ; }
-
-// Let S be basic_string_view<CharT, Traits>, and sv be an instance of S.
-// Implementations shall provide sufficient additional overloads marked
-// constexpr and noexcept so that an object t with an implicit conversion
-// to S can be compared according to Table 67.
-
-#if ! nssv_CPP11_OR_GREATER || nssv_BETWEEN( nssv_COMPILER_MSVC_VERSION, 100, 141 )
-
-// accomodate for older compilers:
-
-// ==
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator==(
-    basic_string_view<CharT, Traits> lhs,
-    CharT const * rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) == 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator==(
-    CharT const * lhs,
-    basic_string_view<CharT, Traits> rhs ) nssv_noexcept
-{ return rhs.compare( lhs ) == 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator==(
-    basic_string_view<CharT, Traits> lhs,
-    std::basic_string<CharT, Traits> rhs ) nssv_noexcept
-{ return lhs.size() == rhs.size() && lhs.compare( rhs ) == 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator==(
-    std::basic_string<CharT, Traits> rhs,
-    basic_string_view<CharT, Traits> lhs ) nssv_noexcept
-{ return lhs.size() == rhs.size() && lhs.compare( rhs ) == 0; }
-
-// !=
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator!=(
-    basic_string_view<CharT, Traits> lhs,
-    char const * rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) != 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator!=(
-    char const * lhs,
-    basic_string_view<CharT, Traits> rhs ) nssv_noexcept
-{ return rhs.compare( lhs ) != 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator!=(
-    basic_string_view<CharT, Traits> lhs,
-    std::basic_string<CharT, Traits> rhs ) nssv_noexcept
-{ return lhs.size() != rhs.size() && lhs.compare( rhs ) != 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator!=(
-    std::basic_string<CharT, Traits> rhs,
-    basic_string_view<CharT, Traits> lhs ) nssv_noexcept
-{ return lhs.size() != rhs.size() || rhs.compare( lhs ) != 0; }
-
-// <
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator<(
-    basic_string_view<CharT, Traits> lhs,
-    char const * rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) < 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator<(
-    char const * lhs,
-    basic_string_view<CharT, Traits> rhs ) nssv_noexcept
-{ return rhs.compare( lhs ) > 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator<(
-    basic_string_view<CharT, Traits> lhs,
-    std::basic_string<CharT, Traits> rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) < 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator<(
-    std::basic_string<CharT, Traits> rhs,
-    basic_string_view<CharT, Traits> lhs ) nssv_noexcept
-{ return rhs.compare( lhs ) > 0; }
-
-// <=
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator<=(
-    basic_string_view<CharT, Traits> lhs,
-    char const * rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) <= 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator<=(
-    char const * lhs,
-    basic_string_view<CharT, Traits> rhs ) nssv_noexcept
-{ return rhs.compare( lhs ) >= 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator<=(
-    basic_string_view<CharT, Traits> lhs,
-    std::basic_string<CharT, Traits> rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) <= 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator<=(
-    std::basic_string<CharT, Traits> rhs,
-    basic_string_view<CharT, Traits> lhs ) nssv_noexcept
-{ return rhs.compare( lhs ) >= 0; }
-
-// >
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator>(
-    basic_string_view<CharT, Traits> lhs,
-    char const * rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) > 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator>(
-    char const * lhs,
-    basic_string_view<CharT, Traits> rhs ) nssv_noexcept
-{ return rhs.compare( lhs ) < 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator>(
-    basic_string_view<CharT, Traits> lhs,
-    std::basic_string<CharT, Traits> rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) > 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator>(
-    std::basic_string<CharT, Traits> rhs,
-    basic_string_view<CharT, Traits> lhs ) nssv_noexcept
-{ return rhs.compare( lhs ) < 0; }
-
-// >=
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator>=(
-    basic_string_view<CharT, Traits> lhs,
-    char const * rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) >= 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator>=(
-    char const * lhs,
-    basic_string_view<CharT, Traits> rhs ) nssv_noexcept
-{ return rhs.compare( lhs ) <= 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator>=(
-    basic_string_view<CharT, Traits> lhs,
-    std::basic_string<CharT, Traits> rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) >= 0; }
-
-template< class CharT, class Traits>
-nssv_constexpr bool operator>=(
-    std::basic_string<CharT, Traits> rhs,
-    basic_string_view<CharT, Traits> lhs ) nssv_noexcept
-{ return rhs.compare( lhs ) <= 0; }
-
-#else // newer compilers:
-
-#define nssv_BASIC_STRING_VIEW_I(T,U)  typename std::decay< basic_string_view<T,U> >::type
-
-#if nssv_BETWEEN( nssv_COMPILER_MSVC_VERSION, 140, 150 )
-# define nssv_MSVC_ORDER(x)  , int=x
-#else
-# define nssv_MSVC_ORDER(x)  /*, int=x*/
-#endif
-
-// ==
-
-template< class CharT, class Traits  nssv_MSVC_ORDER(1) >
-nssv_constexpr bool operator==(
-         basic_string_view  <CharT, Traits> lhs,
-    nssv_BASIC_STRING_VIEW_I(CharT, Traits) rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) == 0; }
-
-template< class CharT, class Traits  nssv_MSVC_ORDER(2) >
-nssv_constexpr bool operator==(
-    nssv_BASIC_STRING_VIEW_I(CharT, Traits) lhs,
-         basic_string_view  <CharT, Traits> rhs ) nssv_noexcept
-{ return lhs.size() == rhs.size() && lhs.compare( rhs ) == 0; }
-
-// !=
-
-template< class CharT, class Traits  nssv_MSVC_ORDER(1) >
-nssv_constexpr bool operator!= (
-         basic_string_view  < CharT, Traits > lhs,
-    nssv_BASIC_STRING_VIEW_I( CharT, Traits ) rhs ) nssv_noexcept
-{ return lhs.size() != rhs.size() || lhs.compare( rhs ) != 0 ; }
-
-template< class CharT, class Traits  nssv_MSVC_ORDER(2) >
-nssv_constexpr bool operator!= (
-    nssv_BASIC_STRING_VIEW_I( CharT, Traits ) lhs,
-         basic_string_view  < CharT, Traits > rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) != 0 ; }
-
-// <
-
-template< class CharT, class Traits  nssv_MSVC_ORDER(1) >
-nssv_constexpr bool operator< (
-         basic_string_view  < CharT, Traits > lhs,
-    nssv_BASIC_STRING_VIEW_I( CharT, Traits ) rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) < 0 ; }
-
-template< class CharT, class Traits  nssv_MSVC_ORDER(2) >
-nssv_constexpr bool operator< (
-    nssv_BASIC_STRING_VIEW_I( CharT, Traits ) lhs,
-         basic_string_view  < CharT, Traits > rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) < 0 ; }
-
-// <=
-
-template< class CharT, class Traits  nssv_MSVC_ORDER(1) >
-nssv_constexpr bool operator<= (
-         basic_string_view  < CharT, Traits > lhs,
-    nssv_BASIC_STRING_VIEW_I( CharT, Traits ) rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) <= 0 ; }
-
-template< class CharT, class Traits  nssv_MSVC_ORDER(2) >
-nssv_constexpr bool operator<= (
-    nssv_BASIC_STRING_VIEW_I( CharT, Traits ) lhs,
-         basic_string_view  < CharT, Traits > rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) <= 0 ; }
-
-// >
-
-template< class CharT, class Traits  nssv_MSVC_ORDER(1) >
-nssv_constexpr bool operator> (
-         basic_string_view  < CharT, Traits > lhs,
-    nssv_BASIC_STRING_VIEW_I( CharT, Traits ) rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) > 0 ; }
-
-template< class CharT, class Traits  nssv_MSVC_ORDER(2) >
-nssv_constexpr bool operator> (
-    nssv_BASIC_STRING_VIEW_I( CharT, Traits ) lhs,
-         basic_string_view  < CharT, Traits > rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) > 0 ; }
-
-// >=
-
-template< class CharT, class Traits  nssv_MSVC_ORDER(1) >
-nssv_constexpr bool operator>= (
-         basic_string_view  < CharT, Traits > lhs,
-    nssv_BASIC_STRING_VIEW_I( CharT, Traits ) rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) >= 0 ; }
-
-template< class CharT, class Traits  nssv_MSVC_ORDER(2) >
-nssv_constexpr bool operator>= (
-    nssv_BASIC_STRING_VIEW_I( CharT, Traits ) lhs,
-         basic_string_view  < CharT, Traits > rhs ) nssv_noexcept
-{ return lhs.compare( rhs ) >= 0 ; }
-
-#undef nssv_MSVC_ORDER
-#undef nssv_BASIC_STRING_VIEW_I
-
-#endif // compiler-dependent approach to comparisons
-
-// 24.4.4 Inserters and extractors:
-
-namespace detail {
-
-template< class Stream >
-void write_padding( Stream & os, std::streamsize n )
-{
-    for ( std::streamsize i = 0; i < n; ++i )
-        os.rdbuf()->sputc( os.fill() );
-}
-
-template< class Stream, class View >
-Stream & write_to_stream( Stream & os, View const & sv )
-{
-    typename Stream::sentry sentry( os );
-
-    if ( !os )
-        return os;
-
-    const std::streamsize length = static_cast<std::streamsize>( sv.length() );
-
-    // Whether, and how, to pad:
-    const bool      pad = ( length < os.width() );
-    const bool left_pad = pad && ( os.flags() & std::ios_base::adjustfield ) == std::ios_base::right;
-
-    if ( left_pad )
-        write_padding( os, os.width() - length );
-
-    // Write span characters:
-    os.rdbuf()->sputn( sv.begin(), length );
-
-    if ( pad && !left_pad )
-        write_padding( os, os.width() - length );
-
-    // Reset output stream width:
-    os.width( 0 );
-
-    return os;
-}
-
-} // namespace detail
-
-template< class CharT, class Traits >
-std::basic_ostream<CharT, Traits> &
-operator<<(
-    std::basic_ostream<CharT, Traits>& os,
-    basic_string_view <CharT, Traits> sv )
-{
-    return detail::write_to_stream( os, sv );
-}
-
-// Several typedefs for common character types are provided:
-
-typedef basic_string_view<char>      string_view;
-typedef basic_string_view<wchar_t>   wstring_view;
-#if nssv_HAVE_WCHAR16_T
-typedef basic_string_view<char16_t>  u16string_view;
-typedef basic_string_view<char32_t>  u32string_view;
-#endif
-
-}} // namespace nonstd::sv_lite
-
-//
-// 24.4.6 Suffix for basic_string_view literals:
-//
-
-#if nssv_HAVE_USER_DEFINED_LITERALS
-
-namespace nonstd {
-nssv_inline_ns namespace literals {
-nssv_inline_ns namespace string_view_literals {
-
-#if nssv_CONFIG_STD_SV_OPERATOR && nssv_HAVE_STD_DEFINED_LITERALS
-
-nssv_constexpr nonstd::sv_lite::string_view operator "" sv( const char* str, size_t len ) nssv_noexcept  // (1)
-{
-    return nonstd::sv_lite::string_view{ str, len };
-}
-
-nssv_constexpr nonstd::sv_lite::u16string_view operator "" sv( const char16_t* str, size_t len ) nssv_noexcept  // (2)
-{
-    return nonstd::sv_lite::u16string_view{ str, len };
-}
-
-nssv_constexpr nonstd::sv_lite::u32string_view operator "" sv( const char32_t* str, size_t len ) nssv_noexcept  // (3)
-{
-    return nonstd::sv_lite::u32string_view{ str, len };
-}
-
-nssv_constexpr nonstd::sv_lite::wstring_view operator "" sv( const wchar_t* str, size_t len ) nssv_noexcept  // (4)
-{
-    return nonstd::sv_lite::wstring_view{ str, len };
-}
-
-#endif // nssv_CONFIG_STD_SV_OPERATOR && nssv_HAVE_STD_DEFINED_LITERALS
-
-#if nssv_CONFIG_USR_SV_OPERATOR
-
-nssv_constexpr nonstd::sv_lite::string_view operator "" _sv( const char* str, size_t len ) nssv_noexcept  // (1)
-{
-    return nonstd::sv_lite::string_view{ str, len };
-}
-
-nssv_constexpr nonstd::sv_lite::u16string_view operator "" _sv( const char16_t* str, size_t len ) nssv_noexcept  // (2)
-{
-    return nonstd::sv_lite::u16string_view{ str, len };
-}
-
-nssv_constexpr nonstd::sv_lite::u32string_view operator "" _sv( const char32_t* str, size_t len ) nssv_noexcept  // (3)
-{
-    return nonstd::sv_lite::u32string_view{ str, len };
-}
-
-nssv_constexpr nonstd::sv_lite::wstring_view operator "" _sv( const wchar_t* str, size_t len ) nssv_noexcept  // (4)
-{
-    return nonstd::sv_lite::wstring_view{ str, len };
-}
-
-#endif // nssv_CONFIG_USR_SV_OPERATOR
-
-}}} // namespace nonstd::literals::string_view_literals
-
-#endif
-
-//
-// Extensions for std::string:
-//
-
-#if nssv_CONFIG_CONVERSION_STD_STRING_FREE_FUNCTIONS
-
-namespace nonstd {
-namespace sv_lite {
-
-// Exclude MSVC 14 (19.00): it yields ambiguous to_string():
-
-#if nssv_CPP11_OR_GREATER && nssv_COMPILER_MSVC_VERSION != 140
-
-template< class CharT, class Traits, class Allocator = std::allocator<CharT> >
-std::basic_string<CharT, Traits, Allocator>
-to_string( basic_string_view<CharT, Traits> v, Allocator const & a = Allocator() )
-{
-    return std::basic_string<CharT,Traits, Allocator>( v.begin(), v.end(), a );
-}
-
-#else
-
-template< class CharT, class Traits >
-std::basic_string<CharT, Traits>
-to_string( basic_string_view<CharT, Traits> v )
-{
-    return std::basic_string<CharT, Traits>( v.begin(), v.end() );
-}
-
-template< class CharT, class Traits, class Allocator >
-std::basic_string<CharT, Traits, Allocator>
-to_string( basic_string_view<CharT, Traits> v, Allocator const & a )
-{
-    return std::basic_string<CharT, Traits, Allocator>( v.begin(), v.end(), a );
-}
-
-#endif // nssv_CPP11_OR_GREATER
-
-template< class CharT, class Traits, class Allocator >
-basic_string_view<CharT, Traits>
-to_string_view( std::basic_string<CharT, Traits, Allocator> const & s )
-{
-    return basic_string_view<CharT, Traits>( s.data(), s.size() );
-}
-
-}} // namespace nonstd::sv_lite
-
-#endif // nssv_CONFIG_CONVERSION_STD_STRING_FREE_FUNCTIONS
-
-//
-// make types and algorithms available in namespace nonstd:
-//
-
-namespace nonstd {
-
-using sv_lite::basic_string_view;
-using sv_lite::string_view;
-using sv_lite::wstring_view;
-
-#if nssv_HAVE_WCHAR16_T
-using sv_lite::u16string_view;
-#endif
-#if nssv_HAVE_WCHAR32_T
-using sv_lite::u32string_view;
-#endif
-
-// literal "sv"
-
-using sv_lite::operator==;
-using sv_lite::operator!=;
-using sv_lite::operator<;
-using sv_lite::operator<=;
-using sv_lite::operator>;
-using sv_lite::operator>=;
-
-using sv_lite::operator<<;
-
-#if nssv_CONFIG_CONVERSION_STD_STRING_FREE_FUNCTIONS
-using sv_lite::to_string;
-using sv_lite::to_string_view;
-#endif
-
-} // namespace nonstd
-
-// 24.4.5 Hash support (C++11):
-
-// Note: The hash value of a string view object is equal to the hash value of
-// the corresponding string object.
-
-#if nssv_HAVE_STD_HASH
-
-#include <functional>
-
-namespace std {
-
-template<>
-struct hash< nonstd::string_view >
-{
-public:
-    std::size_t operator()( nonstd::string_view v ) const nssv_noexcept
-    {
-        return std::hash<std::string>()( std::string( v.data(), v.size() ) );
-    }
-};
-
-template<>
-struct hash< nonstd::wstring_view >
-{
-public:
-    std::size_t operator()( nonstd::wstring_view v ) const nssv_noexcept
-    {
-        return std::hash<std::wstring>()( std::wstring( v.data(), v.size() ) );
-    }
-};
-
-template<>
-struct hash< nonstd::u16string_view >
-{
-public:
-    std::size_t operator()( nonstd::u16string_view v ) const nssv_noexcept
-    {
-        return std::hash<std::u16string>()( std::u16string( v.data(), v.size() ) );
-    }
-};
-
-template<>
-struct hash< nonstd::u32string_view >
-{
-public:
-    std::size_t operator()( nonstd::u32string_view v ) const nssv_noexcept
-    {
-        return std::hash<std::u32string>()( std::u32string( v.data(), v.size() ) );
-    }
-};
-
-} // namespace std
-
-#endif // nssv_HAVE_STD_HASH
-
-nssv_RESTORE_WARNINGS()
-
-#endif // nssv_HAVE_STD_STRING_VIEW
-#endif // NONSTD_SV_LITE_H_INCLUDED
diff --git a/cpp/src/arrow/visit_array_inline.h b/cpp/src/arrow/visit_array_inline.h
index 895cc374457..cb6ff49b695 100644
--- a/cpp/src/arrow/visit_array_inline.h
+++ b/cpp/src/arrow/visit_array_inline.h
@@ -27,11 +27,14 @@ namespace arrow {
   case TYPE_CLASS##Type::type_id:                                                        \
     return visitor->Visit(                                                               \
         internal::checked_cast<const typename TypeTraits<TYPE_CLASS##Type>::ArrayType&>( \
-            array));
+            array),                                                                      \
+        std::forward<ARGS>(args)...);
 
 /// \brief Apply the visitors Visit() method specialized to the array type
 ///
 /// \tparam VISITOR Visitor type that implements Visit() for all array types.
+/// \tparam ARGS Additional arguments, if any, will be passed to the Visit function after
+/// the `arr` argument
 /// \return Status
 ///
 /// A visitor is a type that implements specialized logic for each Arrow type.
@@ -46,8 +49,8 @@ namespace arrow {
 /// ExampleVisitor visitor;
 /// VisitArrayInline(some_array, &visitor);
 /// ```
-template <typename VISITOR>
-inline Status VisitArrayInline(const Array& array, VISITOR* visitor) {
+template <typename VISITOR, typename... ARGS>
+inline Status VisitArrayInline(const Array& array, VISITOR* visitor, ARGS&&... args) {
   switch (array.type_id()) {
     ARROW_GENERATE_FOR_ALL_TYPES(ARRAY_VISIT_INLINE);
     default:
diff --git a/cpp/src/arrow/visit_data_inline.h b/cpp/src/arrow/visit_data_inline.h
index 2919f3d96fe..7d37698f14d 100644
--- a/cpp/src/arrow/visit_data_inline.h
+++ b/cpp/src/arrow/visit_data_inline.h
@@ -17,6 +17,8 @@
 
 #pragma once
 
+#include <string_view>
+
 #include "arrow/array.h"
 #include "arrow/status.h"
 #include "arrow/type.h"
@@ -25,7 +27,6 @@
 #include "arrow/util/bit_util.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/functional.h"
-#include "arrow/util/string_view.h"
 
 namespace arrow {
 namespace internal {
@@ -89,7 +90,7 @@ struct ArraySpanInlineVisitor<BooleanType> {
 // Binary, String...
 template <typename T>
 struct ArraySpanInlineVisitor<T, enable_if_base_binary<T>> {
-  using c_type = util::string_view;
+  using c_type = std::string_view;
 
   template <typename ValidFunc, typename NullFunc>
   static Status VisitStatus(const ArraySpan& arr, ValidFunc&& valid_func,
@@ -114,7 +115,7 @@ struct ArraySpanInlineVisitor<T, enable_if_base_binary<T>> {
         arr.buffers[0].data, arr.offset, arr.length,
         [&](int64_t i) {
           ARROW_UNUSED(i);
-          auto value = util::string_view(data + cur_offset, *offsets - cur_offset);
+          auto value = std::string_view(data + cur_offset, *offsets - cur_offset);
           cur_offset = *offsets++;
           return valid_func(value);
         },
@@ -146,8 +147,8 @@ struct ArraySpanInlineVisitor<T, enable_if_base_binary<T>> {
     VisitBitBlocksVoid(
         arr.buffers[0].data, arr.offset, arr.length,
         [&](int64_t i) {
-          auto value = util::string_view(reinterpret_cast<const char*>(data + offsets[i]),
-                                         offsets[i + 1] - offsets[i]);
+          auto value = std::string_view(reinterpret_cast<const char*>(data + offsets[i]),
+                                        offsets[i + 1] - offsets[i]);
           valid_func(value);
         },
         std::forward<NullFunc>(null_func));
@@ -157,7 +158,7 @@ struct ArraySpanInlineVisitor<T, enable_if_base_binary<T>> {
 // FixedSizeBinary, Decimal128
 template <typename T>
 struct ArraySpanInlineVisitor<T, enable_if_fixed_size_binary<T>> {
-  using c_type = util::string_view;
+  using c_type = std::string_view;
 
   template <typename ValidFunc, typename NullFunc>
   static Status VisitStatus(const ArraySpan& arr, ValidFunc&& valid_func,
@@ -168,7 +169,7 @@ struct ArraySpanInlineVisitor<T, enable_if_fixed_size_binary<T>> {
     return VisitBitBlocks(
         arr.buffers[0].data, arr.offset, arr.length,
         [&](int64_t i) {
-          auto value = util::string_view(data, byte_width);
+          auto value = std::string_view(data, byte_width);
           data += byte_width;
           return valid_func(value);
         },
@@ -187,7 +188,7 @@ struct ArraySpanInlineVisitor<T, enable_if_fixed_size_binary<T>> {
     VisitBitBlocksVoid(
         arr.buffers[0].data, arr.offset, arr.length,
         [&](int64_t i) {
-          valid_func(util::string_view(data, byte_width));
+          valid_func(std::string_view(data, byte_width));
           data += byte_width;
         },
         [&]() {
@@ -222,7 +223,7 @@ VisitArraySpanInline(const ArraySpan& arr, ValidFunc&& valid_func, NullFunc&& nu
 // The scalar value's type depends on the array data type:
 // - the type's `c_type`, if any
 // - for boolean arrays, a `bool`
-// - for binary, string and fixed-size binary arrays, a `util::string_view`
+// - for binary, string and fixed-size binary arrays, a `std::string_view`
 
 template <typename T>
 struct ArraySpanVisitor {
diff --git a/cpp/src/arrow/visit_scalar_inline.h b/cpp/src/arrow/visit_scalar_inline.h
index f3e8108e9c3..85357f288c6 100644
--- a/cpp/src/arrow/visit_scalar_inline.h
+++ b/cpp/src/arrow/visit_scalar_inline.h
@@ -28,13 +28,16 @@
 
 namespace arrow {
 
-#define SCALAR_VISIT_INLINE(TYPE_CLASS) \
-  case TYPE_CLASS##Type::type_id:       \
-    return visitor->Visit(internal::checked_cast<const TYPE_CLASS##Scalar&>(scalar));
+#define SCALAR_VISIT_INLINE(TYPE_CLASS)                                              \
+  case TYPE_CLASS##Type::type_id:                                                    \
+    return visitor->Visit(internal::checked_cast<const TYPE_CLASS##Scalar&>(scalar), \
+                          std::forward<ARGS>(args)...);
 
 /// \brief Apply the visitors Visit() method specialized to the scalar type
 ///
 /// \tparam VISITOR Visitor type that implements Visit() for all scalar types.
+/// \tparam ARGS Additional arguments, if any, will be passed to the Visit function after
+/// the `scalar` argument
 /// \return Status
 ///
 /// A visitor is a type that implements specialized logic for each Arrow type.
@@ -42,15 +45,15 @@ namespace arrow {
 ///
 /// ```
 /// class ExampleVisitor {
-///   arrow::Status Visit(arrow::Int32Scalar arr) { ... }
-///   arrow::Status Visit(arrow::Int64Scalar arr) { ... }
+///   arrow::Status Visit(arrow::Int32Scalar scalar) { ... }
+///   arrow::Status Visit(arrow::Int64Scalar scalar) { ... }
 ///   ...
 /// }
 /// ExampleVisitor visitor;
 /// VisitScalarInline(some_scalar, &visitor);
 /// ```
-template <typename VISITOR>
-inline Status VisitScalarInline(const Scalar& scalar, VISITOR* visitor) {
+template <typename VISITOR, typename... ARGS>
+inline Status VisitScalarInline(const Scalar& scalar, VISITOR* visitor, ARGS&&... args) {
   switch (scalar.type->id()) {
     ARROW_GENERATE_FOR_ALL_TYPES(SCALAR_VISIT_INLINE);
     default:
diff --git a/cpp/src/arrow/visit_type_inline.h b/cpp/src/arrow/visit_type_inline.h
index 6897d12b3cf..73da58dfcc3 100644
--- a/cpp/src/arrow/visit_type_inline.h
+++ b/cpp/src/arrow/visit_type_inline.h
@@ -24,13 +24,16 @@
 
 namespace arrow {
 
-#define TYPE_VISIT_INLINE(TYPE_CLASS) \
-  case TYPE_CLASS##Type::type_id:     \
-    return visitor->Visit(internal::checked_cast<const TYPE_CLASS##Type&>(type));
+#define TYPE_VISIT_INLINE(TYPE_CLASS)                                            \
+  case TYPE_CLASS##Type::type_id:                                                \
+    return visitor->Visit(internal::checked_cast<const TYPE_CLASS##Type&>(type), \
+                          std::forward<ARGS>(args)...);
 
 /// \brief Calls `visitor` with the corresponding concrete type class
 ///
 /// \tparam VISITOR Visitor type that implements Visit() for all Arrow types.
+/// \tparam ARGS Additional arguments, if any, will be passed to the Visit function after
+/// the `type` argument
 /// \return Status
 ///
 /// A visitor is a type that implements specialized logic for each Arrow type.
@@ -45,8 +48,8 @@ namespace arrow {
 /// ExampleVisitor visitor;
 /// VisitTypeInline(some_type, &visitor);
 /// ```
-template <typename VISITOR>
-inline Status VisitTypeInline(const DataType& type, VISITOR* visitor) {
+template <typename VISITOR, typename... ARGS>
+inline Status VisitTypeInline(const DataType& type, VISITOR* visitor, ARGS&&... args) {
   switch (type.id()) {
     ARROW_GENERATE_FOR_ALL_TYPES(TYPE_VISIT_INLINE);
     default:
@@ -57,18 +60,50 @@ inline Status VisitTypeInline(const DataType& type, VISITOR* visitor) {
 
 #undef TYPE_VISIT_INLINE
 
-#define TYPE_ID_VISIT_INLINE(TYPE_CLASS)            \
-  case TYPE_CLASS##Type::type_id: {                 \
-    const TYPE_CLASS##Type* concrete_ptr = NULLPTR; \
-    return visitor->Visit(concrete_ptr);            \
+#define TYPE_VISIT_INLINE(TYPE_CLASS)                          \
+  case TYPE_CLASS##Type::type_id:                              \
+    return std::forward<VISITOR>(visitor)(                     \
+        internal::checked_cast<const TYPE_CLASS##Type&>(type), \
+        std::forward<ARGS>(args)...);
+
+/// \brief Call `visitor` with the corresponding concrete type class
+/// \tparam ARGS Additional arguments, if any, will be passed to the Visit function after
+/// the `type` argument
+///
+/// Unlike VisitTypeInline which calls `visitor.Visit`, here `visitor`
+/// itself is called.
+/// `visitor` must support a `const DataType&` argument as a fallback,
+/// in addition to concrete type classes.
+///
+/// The intent is for this to be called on a generic lambda
+/// that may internally use `if constexpr` or similar constructs.
+template <typename VISITOR, typename... ARGS>
+inline auto VisitType(const DataType& type, VISITOR&& visitor, ARGS&&... args)
+    -> decltype(std::forward<VISITOR>(visitor)(type, args...)) {
+  switch (type.id()) {
+    ARROW_GENERATE_FOR_ALL_TYPES(TYPE_VISIT_INLINE);
+    default:
+      break;
+  }
+  return std::forward<VISITOR>(visitor)(type, std::forward<ARGS>(args)...);
+}
+
+#undef TYPE_VISIT_INLINE
+
+#define TYPE_ID_VISIT_INLINE(TYPE_CLASS)                              \
+  case TYPE_CLASS##Type::type_id: {                                   \
+    const TYPE_CLASS##Type* concrete_ptr = NULLPTR;                   \
+    return visitor->Visit(concrete_ptr, std::forward<ARGS>(args)...); \
   }
 
 /// \brief Calls `visitor` with a nullptr of the corresponding concrete type class
 ///
 /// \tparam VISITOR Visitor type that implements Visit() for all Arrow types.
+/// \tparam ARGS Additional arguments, if any, will be passed to the Visit function after
+/// the `type` argument
 /// \return Status
-template <typename VISITOR>
-inline Status VisitTypeIdInline(Type::type id, VISITOR* visitor) {
+template <typename VISITOR, typename... ARGS>
+inline Status VisitTypeIdInline(Type::type id, VISITOR* visitor, ARGS&&... args) {
   switch (id) {
     ARROW_GENERATE_FOR_ALL_TYPES(TYPE_ID_VISIT_INLINE);
     default:
diff --git a/cpp/src/gandiva/CMakeLists.txt b/cpp/src/gandiva/CMakeLists.txt
index 56c416ffb43..312ab84f65e 100644
--- a/cpp/src/gandiva/CMakeLists.txt
+++ b/cpp/src/gandiva/CMakeLists.txt
@@ -26,22 +26,10 @@ add_custom_target(gandiva-benchmarks)
 add_dependencies(gandiva-all gandiva gandiva-tests gandiva-benchmarks)
 
 find_package(LLVMAlt REQUIRED)
-
-if(LLVM_VERSION_MAJOR LESS "10")
-  set(GANDIVA_CXX_STANDARD ${CMAKE_CXX_STANDARD})
-else()
-  # LLVM 10 or later requires C++ 14
-  if(CMAKE_CXX_STANDARD LESS 14)
-    set(GANDIVA_CXX_STANDARD 14)
-  else()
-    set(GANDIVA_CXX_STANDARD ${CMAKE_CXX_STANDARD})
-  endif()
-endif()
+provide_find_module(LLVMAlt "Gandiva")
 
 add_definitions(-DGANDIVA_LLVM_VERSION=${LLVM_VERSION_MAJOR})
 
-find_package(OpenSSLAlt REQUIRED)
-
 # Set the path where the bitcode file generated, see precompiled/CMakeLists.txt
 set(GANDIVA_PRECOMPILED_BC_PATH "${CMAKE_CURRENT_BINARY_DIR}/irhelpers.bc")
 set(GANDIVA_PRECOMPILED_CC_PATH "${CMAKE_CURRENT_BINARY_DIR}/precompiled_bitcode.cc")
@@ -97,10 +85,20 @@ set(SRC_FILES
     random_generator_holder.cc
     ${GANDIVA_PRECOMPILED_CC_PATH})
 
-set(GANDIVA_SHARED_PRIVATE_LINK_LIBS arrow_shared LLVM::LLVM_INTERFACE
-                                     ${GANDIVA_OPENSSL_LIBS} Boost::headers)
-set(GANDIVA_STATIC_LINK_LIBS arrow_static LLVM::LLVM_INTERFACE ${GANDIVA_OPENSSL_LIBS}
-                             Boost::headers)
+set(GANDIVA_OPENSSL_LIBS OpenSSL::Crypto OpenSSL::SSL)
+if(WIN32 AND NOT CMAKE_VERSION VERSION_LESS 3.18)
+  list(APPEND GANDIVA_OPENSSL_TARGETS OpenSSL::applink)
+endif()
+
+set(GANDIVA_SHARED_LINK_LIBS arrow_shared LLVM::LLVM_HEADERS)
+set(GANDIVA_SHARED_PRIVATE_LINK_LIBS LLVM::LLVM_LIBS ${GANDIVA_OPENSSL_TARGETS}
+                                     Boost::headers)
+set(GANDIVA_STATIC_LINK_LIBS
+    arrow_static
+    LLVM::LLVM_HEADERS
+    LLVM::LLVM_LIBS
+    ${GANDIVA_OPENSSL_TARGETS}
+    Boost::headers)
 if(ARROW_WITH_RE2)
   list(APPEND GANDIVA_SHARED_PRIVATE_LINK_LIBS re2::re2)
   list(APPEND GANDIVA_STATIC_LINK_LIBS re2::re2)
@@ -109,10 +107,6 @@ if(ARROW_WITH_UTF8PROC)
   list(APPEND GANDIVA_SHARED_PRIVATE_LINK_LIBS utf8proc::utf8proc)
   list(APPEND GANDIVA_STATIC_LINK_LIBS utf8proc::utf8proc)
 endif()
-if(ARROW_USE_XSIMD)
-  list(APPEND GANDIVA_SHARED_PRIVATE_LINK_LIBS xsimd)
-  list(APPEND GANDIVA_STATIC_LINK_LIBS xsimd)
-endif()
 
 if(ARROW_GANDIVA_STATIC_LIBSTDCPP AND (CMAKE_COMPILER_IS_GNUCC OR CMAKE_COMPILER_IS_GNUCXX
                                       ))
@@ -149,22 +143,24 @@ add_arrow_lib(gandiva
               DEPENDENCIES
               arrow_dependencies
               precompiled
-              EXTRA_INCLUDES
-              $<TARGET_PROPERTY:LLVM::LLVM_INTERFACE,INTERFACE_INCLUDE_DIRECTORIES>
-              ${GANDIVA_OPENSSL_INCLUDE_DIR}
-              ${UTF8PROC_INCLUDE_DIR}
               SHARED_LINK_FLAGS
               ${GANDIVA_SHARED_LINK_FLAGS}
               SHARED_LINK_LIBS
-              arrow_shared
+              ${GANDIVA_SHARED_LINK_LIBS}
               SHARED_PRIVATE_LINK_LIBS
               ${GANDIVA_SHARED_PRIVATE_LINK_LIBS}
+              SHARED_INSTALL_INTERFACE_LIBS
+              Arrow::arrow_shared
+              LLVM::LLVM_HEADERS
               STATIC_LINK_LIBS
-              ${GANDIVA_STATIC_LINK_LIBS})
+              ${GANDIVA_STATIC_LINK_LIBS}
+              STATIC_INSTALL_INTERFACE_LIBS
+              Arrow::arrow_static
+              LLVM::LLVM_HEADERS
+              LLVM::LLVM_LIBS)
 
 foreach(LIB_TARGET ${GANDIVA_LIBRARIES})
   target_compile_definitions(${LIB_TARGET} PRIVATE GANDIVA_EXPORTING)
-  set_target_properties(${LIB_TARGET} PROPERTIES CXX_STANDARD ${GANDIVA_CXX_STANDARD})
 endforeach()
 
 if(ARROW_BUILD_STATIC AND WIN32)
@@ -176,8 +172,15 @@ add_dependencies(gandiva ${GANDIVA_LIBRARIES})
 arrow_install_all_headers("gandiva")
 
 set(GANDIVA_STATIC_TEST_LINK_LIBS gandiva_static ${ARROW_TEST_LINK_LIBS})
-
 set(GANDIVA_SHARED_TEST_LINK_LIBS gandiva_shared ${ARROW_TEST_LINK_LIBS})
+if(ARROW_WITH_UTF8PROC)
+  list(APPEND GANDIVA_SHARED_TEST_LINK_LIBS utf8proc::utf8proc)
+  list(APPEND GANDIVA_STATIC_TEST_LINK_LIBS utf8proc::utf8proc)
+endif()
+if(WIN32)
+  list(APPEND GANDIVA_STATIC_TEST_LINK_LIBS ${GANDIVA_OPENSSL_TARGETS})
+  list(APPEND GANDIVA_SHARED_TEST_LINK_LIBS LLVM::LLVM_LIBS ${GANDIVA_OPENSSL_TARGETS})
+endif()
 
 function(ADD_GANDIVA_TEST REL_TEST_NAME)
   set(options USE_STATIC_LINKING)
@@ -219,17 +222,8 @@ function(ADD_GANDIVA_TEST REL_TEST_NAME)
 
   set(TEST_NAME gandiva-${REL_TEST_NAME})
   string(REPLACE "_" "-" TEST_NAME ${TEST_NAME})
-  set_target_properties(${TEST_NAME} PROPERTIES CXX_STANDARD ${GANDIVA_CXX_STANDARD})
 endfunction()
 
-set(GANDIVA_INTERNALS_TEST_ARGUMENTS)
-if(WIN32)
-  list(APPEND
-       GANDIVA_INTERNALS_TEST_ARGUMENTS
-       EXTRA_LINK_LIBS
-       LLVM::LLVM_INTERFACE
-       ${GANDIVA_OPENSSL_LIBS})
-endif()
 add_gandiva_test(internals-test
                  SOURCES
                  bitmap_accumulator_test.cc
@@ -252,19 +246,7 @@ add_gandiva_test(internals-test
                  random_generator_holder_test.cc
                  hash_utils_test.cc
                  gdv_function_stubs_test.cc
-                 interval_holder_test.cc
-                 EXTRA_DEPENDENCIES
-                 LLVM::LLVM_INTERFACE
-                 ${GANDIVA_OPENSSL_LIBS}
-                 EXTRA_INCLUDES
-                 $<TARGET_PROPERTY:LLVM::LLVM_INTERFACE,INTERFACE_INCLUDE_DIRECTORIES>
-                 ${GANDIVA_INTERNALS_TEST_ARGUMENTS}
-                 ${GANDIVA_OPENSSL_INCLUDE_DIR}
-                 ${UTF8PROC_INCLUDE_DIR})
-
-if(ARROW_GANDIVA_JAVA)
-  add_subdirectory(jni)
-endif()
+                 interval_holder_test.cc)
 
 add_subdirectory(precompiled)
 add_subdirectory(tests)
diff --git a/cpp/src/gandiva/GandivaConfig.cmake.in b/cpp/src/gandiva/GandivaConfig.cmake.in
index 09bc3390177..18d194f1e4d 100644
--- a/cpp/src/gandiva/GandivaConfig.cmake.in
+++ b/cpp/src/gandiva/GandivaConfig.cmake.in
@@ -21,16 +21,33 @@
 #
 # This config sets the following targets in your project::
 #
-#   gandiva_shared - for linked as shared library if shared library is built
-#   gandiva_static - for linked as static library if static library is built
+#   Gandiva::gandiva_shared - for linked as shared library if shared library is built
+#   Gandiva::gandiva_static - for linked as static library if static library is built
 
 @PACKAGE_INIT@
 
+set(ARROW_LLVM_VERSIONS "@ARROW_LLVM_VERSIONS@")
+
 include(CMakeFindDependencyMacro)
 find_dependency(Arrow)
-
-# Load targets only once. If we load targets multiple times, CMake reports
-# already existent target error.
-if(NOT (TARGET gandiva_shared OR TARGET gandiva_static))
-  include("${CMAKE_CURRENT_LIST_DIR}/GandivaTargets.cmake")
+if(DEFINED CMAKE_MODULE_PATH)
+  set(GANDIVA_CMAKE_MODULE_PATH_OLD ${CMAKE_MODULE_PATH})
+else()
+  unset(GANDIVA_CMAKE_MODULE_PATH_OLD)
 endif()
+set(CMAKE_MODULE_PATH "${CMAKE_CURRENT_LIST_DIR}")
+find_dependency(LLVMAlt)
+if(DEFINED GANDIVA_CMAKE_MODULE_PATH_OLD)
+  set(CMAKE_MODULE_PATH ${GANDIVA_CMAKE_MODULE_PATH_OLD})
+  unset(GANDIVA_CMAKE_MODULE_PATH_OLD)
+else()
+  unset(CMAKE_MODULE_PATH)
+endif()
+
+include("${CMAKE_CURRENT_LIST_DIR}/GandivaTargets.cmake")
+
+arrow_keep_backward_compatibility(Gandiva gandiva)
+
+check_required_components(Gandiva)
+
+arrow_show_details(Gandiva GANDIVA)
diff --git a/cpp/src/gandiva/annotator.cc b/cpp/src/gandiva/annotator.cc
index c4c41ac9838..b341fdde3a3 100644
--- a/cpp/src/gandiva/annotator.cc
+++ b/cpp/src/gandiva/annotator.cc
@@ -65,7 +65,7 @@ int Annotator::AddHolderPointer(void* holder) {
 
 void Annotator::PrepareBuffersForField(const FieldDescriptor& desc,
                                        const arrow::ArrayData& array_data,
-                                       EvalBatch* eval_batch, bool is_output) {
+                                       EvalBatch* eval_batch, bool is_output) const {
   int buffer_idx = 0;
 
   // The validity buffer is optional. Use nullptr if it does not have one.
@@ -94,7 +94,7 @@ void Annotator::PrepareBuffersForField(const FieldDescriptor& desc,
 }
 
 EvalBatchPtr Annotator::PrepareEvalBatch(const arrow::RecordBatch& record_batch,
-                                         const ArrayDataVector& out_vector) {
+                                         const ArrayDataVector& out_vector) const {
   EvalBatchPtr eval_batch = std::make_shared<EvalBatch>(
       record_batch.num_rows(), buffer_count_, local_bitmap_count_);
 
@@ -107,7 +107,7 @@ EvalBatchPtr Annotator::PrepareEvalBatch(const arrow::RecordBatch& record_batch,
       continue;
     }
 
-    PrepareBuffersForField(*(found->second), *(record_batch.column(i))->data(),
+    PrepareBuffersForField(*(found->second), *(record_batch.column_data(i)),
                            eval_batch.get(), false /*is_output*/);
   }
 
diff --git a/cpp/src/gandiva/annotator.h b/cpp/src/gandiva/annotator.h
index a60245cca13..be49509e624 100644
--- a/cpp/src/gandiva/annotator.h
+++ b/cpp/src/gandiva/annotator.h
@@ -54,13 +54,13 @@ class GANDIVA_EXPORT Annotator {
   /// Return a pointer to the underlying array containing the holder pointers
   /// This should only be called after expr decomposition when all the holder
   /// pointers are added
-  void** GetHolderPointersArray() { return holder_pointers_.data(); }
+  const void* const* GetHolderPointersArray() const { return holder_pointers_.data(); }
 
   /// Prepare an eval batch for the incoming record batch.
   EvalBatchPtr PrepareEvalBatch(const arrow::RecordBatch& record_batch,
-                                const ArrayDataVector& out_vector);
+                                const ArrayDataVector& out_vector) const;
 
-  int buffer_count() { return buffer_count_; }
+  int buffer_count() const { return buffer_count_; }
 
  private:
   /// Annotate a field and return the descriptor.
@@ -70,7 +70,7 @@ class GANDIVA_EXPORT Annotator {
   /// contents are represent by the annotated descriptor 'desc'.
   void PrepareBuffersForField(const FieldDescriptor& desc,
                               const arrow::ArrayData& array_data, EvalBatch* eval_batch,
-                              bool is_output);
+                              bool is_output) const;
 
   /// The list of input/output buffers (includes bitmap buffers, value buffers and
   /// offset buffers).
diff --git a/cpp/src/gandiva/bitmap_accumulator.cc b/cpp/src/gandiva/bitmap_accumulator.cc
index 13b925e57a1..d506b13dc5e 100644
--- a/cpp/src/gandiva/bitmap_accumulator.cc
+++ b/cpp/src/gandiva/bitmap_accumulator.cc
@@ -36,7 +36,7 @@ void BitMapAccumulator::ComputeResult(uint8_t* dst_bitmap) {
 
 /// Compute the intersection of multiple bitmaps.
 void BitMapAccumulator::IntersectBitMaps(uint8_t* dst_map,
-                                         const std::vector<uint8_t*>& src_maps,
+                                         const std::vector<const uint8_t*>& src_maps,
                                          const std::vector<int64_t>& src_map_offsets,
                                          int64_t num_records) {
   int64_t num_words = (num_records + 63) / 64;  // aligned to 8-byte.
diff --git a/cpp/src/gandiva/bitmap_accumulator.h b/cpp/src/gandiva/bitmap_accumulator.h
index 0b297a98fba..9eaec817637 100644
--- a/cpp/src/gandiva/bitmap_accumulator.h
+++ b/cpp/src/gandiva/bitmap_accumulator.h
@@ -65,13 +65,14 @@ class GANDIVA_EXPORT BitMapAccumulator : public DexDefaultVisitor {
 
   /// Compute the intersection of the accumulated bitmaps (with offsets) and save the
   /// result in dst_bmap.
-  static void IntersectBitMaps(uint8_t* dst_map, const std::vector<uint8_t*>& src_maps,
+  static void IntersectBitMaps(uint8_t* dst_map,
+                               const std::vector<const uint8_t*>& src_maps,
                                const std::vector<int64_t>& src_maps_offsets,
                                int64_t num_records);
 
  private:
   const EvalBatch& eval_batch_;
-  std::vector<uint8_t*> src_maps_;
+  std::vector<const uint8_t*> src_maps_;
   std::vector<int64_t> src_map_offsets_;
   bool all_invalid_;
 };
diff --git a/cpp/src/gandiva/bitmap_accumulator_test.cc b/cpp/src/gandiva/bitmap_accumulator_test.cc
index cb2a76b3d93..2ef9db614a4 100644
--- a/cpp/src/gandiva/bitmap_accumulator_test.cc
+++ b/cpp/src/gandiva/bitmap_accumulator_test.cc
@@ -33,7 +33,7 @@ namespace gandiva {
 class TestBitMapAccumulator : public ::testing::Test {
  protected:
   void FillBitMap(uint8_t* bmap, uint32_t seed, int nrecords);
-  void ByteWiseIntersectBitMaps(uint8_t* dst, const std::vector<uint8_t*>& srcs,
+  void ByteWiseIntersectBitMaps(uint8_t* dst, const std::vector<const uint8_t*>& srcs,
                                 const std::vector<int64_t>& srcOffsets, int nrecords);
 };
 
@@ -42,7 +42,7 @@ void TestBitMapAccumulator::FillBitMap(uint8_t* bmap, uint32_t seed, int nbytes)
 }
 
 void TestBitMapAccumulator::ByteWiseIntersectBitMaps(
-    uint8_t* dst, const std::vector<uint8_t*>& srcs,
+    uint8_t* dst, const std::vector<const uint8_t*>& srcs,
     const std::vector<int64_t>& srcOffsets, int nrecords) {
   if (srcs.empty()) {
     arrow::bit_util::SetBitsTo(dst, 0, nrecords, true);
@@ -67,7 +67,7 @@ TEST_F(TestBitMapAccumulator, TestIntersectBitMaps) {
   }
 
   for (int i = 0; i < 4; i++) {
-    std::vector<uint8_t*> src_bitmap_ptrs;
+    std::vector<const uint8_t*> src_bitmap_ptrs;
     std::vector<int64_t> src_bitmap_offsets(i, 0);
     for (int j = 0; j < i; ++j) {
       src_bitmap_ptrs.push_back(src_bitmaps[j]);
@@ -92,7 +92,7 @@ TEST_F(TestBitMapAccumulator, TestIntersectBitMapsWithOffset) {
   }
 
   for (int i = 0; i < 4; i++) {
-    std::vector<uint8_t*> src_bitmap_ptrs;
+    std::vector<const uint8_t*> src_bitmap_ptrs;
     std::vector<int64_t> src_bitmap_offsets;
     for (int j = 0; j < i; ++j) {
       src_bitmap_ptrs.push_back(src_bitmaps[j]);
diff --git a/cpp/src/gandiva/cache.h b/cpp/src/gandiva/cache.h
index ca57847908e..9228c46216c 100644
--- a/cpp/src/gandiva/cache.h
+++ b/cpp/src/gandiva/cache.h
@@ -39,10 +39,10 @@ class Cache {
   Cache() : Cache(GetCapacity()) {}
 
   ValueType GetObjectCode(const KeyType& cache_key) {
-    arrow::util::optional<ValueType> result;
+    std::optional<ValueType> result;
     std::lock_guard<std::mutex> lock(mtx_);
     result = cache_.get(cache_key);
-    return result != arrow::util::nullopt ? *result : nullptr;
+    return result != std::nullopt ? *result : nullptr;
   }
 
   void PutObjectCode(const KeyType& cache_key, const ValueType& module) {
diff --git a/cpp/src/gandiva/compiled_expr.h b/cpp/src/gandiva/compiled_expr.h
index b66e7480dc1..4933e7f4922 100644
--- a/cpp/src/gandiva/compiled_expr.h
+++ b/cpp/src/gandiva/compiled_expr.h
@@ -25,7 +25,7 @@
 namespace gandiva {
 
 using EvalFunc = int (*)(uint8_t** buffers, int64_t* offsets, uint8_t** local_bitmaps,
-                         void** holder_ptrs, const uint8_t* selection_buffer,
+                         const void* const* holder_ptrs, const uint8_t* selection_buffer,
                          int64_t execution_ctx_ptr, int64_t record_count);
 
 /// \brief Tracks the compiled state for one expression.
diff --git a/cpp/src/gandiva/decimal_ir.cc b/cpp/src/gandiva/decimal_ir.cc
index 5d5d30b4a75..b22e7ad5b5e 100644
--- a/cpp/src/gandiva/decimal_ir.cc
+++ b/cpp/src/gandiva/decimal_ir.cc
@@ -96,8 +96,9 @@ void DecimalIR::InitializeIntrinsics() {
 // CPP:  return kScaleMultipliers[scale]
 llvm::Value* DecimalIR::GetScaleMultiplier(llvm::Value* scale) {
   auto const_array = module()->getGlobalVariable(kScaleMultipliersName);
-  auto ptr = CreateGEP(ir_builder(), const_array, {types()->i32_constant(0), scale});
-  return CreateLoad(ir_builder(), ptr);
+  auto ptr = ir_builder()->CreateGEP(const_array->getValueType(), const_array,
+                                     {types()->i32_constant(0), scale});
+  return ir_builder()->CreateLoad(types()->i128_type(), ptr);
 }
 
 // CPP:  x <= y ? y : x
@@ -248,8 +249,8 @@ llvm::Value* DecimalIR::AddLarge(const ValueFull& x, const ValueFull& y,
   ir_builder()->CreateCall(module()->getFunction("add_large_decimal128_decimal128"),
                            args);
 
-  auto out_high = CreateLoad(ir_builder(), out_high_ptr);
-  auto out_low = CreateLoad(ir_builder(), out_low_ptr);
+  auto out_high = ir_builder()->CreateLoad(types()->i64_type(), out_high_ptr);
+  auto out_low = ir_builder()->CreateLoad(types()->i64_type(), out_low_ptr);
   auto sum = ValueSplit(out_high, out_low).AsInt128(this);
   ADD_TRACE_128("AddLarge : sum", sum);
   return sum;
@@ -445,8 +446,8 @@ llvm::Value* DecimalIR::CallDecimalFunction(const std::string& function_name,
     // Make call to pre-compiled IR function.
     ir_builder()->CreateCall(module()->getFunction(function_name), dis_assembled_args);
 
-    auto out_high = CreateLoad(ir_builder(), out_high_ptr);
-    auto out_low = CreateLoad(ir_builder(), out_low_ptr);
+    auto out_high = ir_builder()->CreateLoad(i64, out_high_ptr);
+    auto out_low = ir_builder()->CreateLoad(i64, out_low_ptr);
     result = ValueSplit(out_high, out_low).AsInt128(this);
   } else {
     DCHECK_NE(return_type, types()->void_type());
diff --git a/cpp/src/gandiva/decimal_scalar.h b/cpp/src/gandiva/decimal_scalar.h
index a03807b359a..4e07480da45 100644
--- a/cpp/src/gandiva/decimal_scalar.h
+++ b/cpp/src/gandiva/decimal_scalar.h
@@ -40,7 +40,8 @@ class DecimalScalar128 : public BasicDecimalScalar128 {
       : BasicDecimalScalar128(Decimal128(value), precision, scale) {}
 
   /// \brief constructor creates a DecimalScalar128 from a BasicDecimalScalar128.
-  constexpr DecimalScalar128(const BasicDecimalScalar128& scalar) noexcept
+  constexpr DecimalScalar128(
+      const BasicDecimalScalar128& scalar) noexcept  // NOLINT(runtime/explicit)
       : BasicDecimalScalar128(scalar) {}
 
   inline std::string ToString() const {
diff --git a/cpp/src/gandiva/engine.cc b/cpp/src/gandiva/engine.cc
index 25209197ad4..f5f9460ddd1 100644
--- a/cpp/src/gandiva/engine.cc
+++ b/cpp/src/gandiva/engine.cc
@@ -75,7 +75,6 @@
 #pragma warning(pop)
 #endif
 
-#include "arrow/util/make_unique.h"
 #include "gandiva/configuration.h"
 #include "gandiva/decimal_ir.h"
 #include "gandiva/exported_funcs_registry.h"
@@ -133,7 +132,7 @@ Engine::Engine(const std::shared_ptr<Configuration>& conf,
                bool cached)
     : context_(std::move(ctx)),
       execution_engine_(std::move(engine)),
-      ir_builder_(arrow::internal::make_unique<llvm::IRBuilder<>>(*context_)),
+      ir_builder_(std::make_unique<llvm::IRBuilder<>>(*context_)),
       module_(module),
       types_(*context_),
       optimize_(conf->optimize()),
@@ -160,8 +159,8 @@ Status Engine::Make(const std::shared_ptr<Configuration>& conf, bool cached,
                     std::unique_ptr<Engine>* out) {
   std::call_once(llvm_init_once_flag, InitOnce);
 
-  auto ctx = arrow::internal::make_unique<llvm::LLVMContext>();
-  auto module = arrow::internal::make_unique<llvm::Module>("codegen", *ctx);
+  auto ctx = std::make_unique<llvm::LLVMContext>();
+  auto module = std::make_unique<llvm::Module>("codegen", *ctx);
 
   // Capture before moving, ExecutionEngine does not allow retrieving the
   // original Module.
@@ -246,11 +245,11 @@ Status Engine::LoadPreCompiledIR() {
                   Status::CodeGenError("Could not load module from IR: ",
                                        buffer_or_error.getError().message()));
 
-  std::unique_ptr<llvm::MemoryBuffer> buffer = move(buffer_or_error.get());
+  std::unique_ptr<llvm::MemoryBuffer> buffer = std::move(buffer_or_error.get());
 
   /// Parse the IR module.
   llvm::Expected<std::unique_ptr<llvm::Module>> module_or_error =
-      llvm::getOwningLazyBitcodeModule(move(buffer), *context());
+      llvm::getOwningLazyBitcodeModule(std::move(buffer), *context());
   if (!module_or_error) {
     // NOTE: llvm::handleAllErrors() fails linking with RTTI-disabled LLVM builds
     // (ARROW-5148)
@@ -259,14 +258,14 @@ Status Engine::LoadPreCompiledIR() {
     stream << module_or_error.takeError();
     return Status::CodeGenError(stream.str());
   }
-  std::unique_ptr<llvm::Module> ir_module = move(module_or_error.get());
+  std::unique_ptr<llvm::Module> ir_module = std::move(module_or_error.get());
 
   // set dataLayout
   SetDataLayout(ir_module.get());
 
   ARROW_RETURN_IF(llvm::verifyModule(*ir_module, &llvm::errs()),
                   Status::CodeGenError("verify of IR Module failed"));
-  ARROW_RETURN_IF(llvm::Linker::linkModules(*module_, move(ir_module)),
+  ARROW_RETURN_IF(llvm::Linker::linkModules(*module_, std::move(ir_module)),
                   Status::CodeGenError("failed to link IR Modules"));
 
   return Status::OK();
diff --git a/cpp/src/gandiva/engine_llvm_test.cc b/cpp/src/gandiva/engine_llvm_test.cc
index 0bf6413cf65..9baaa82d2e0 100644
--- a/cpp/src/gandiva/engine_llvm_test.cc
+++ b/cpp/src/gandiva/engine_llvm_test.cc
@@ -80,8 +80,9 @@ class TestEngine : public ::testing::Test {
     loop_var->addIncoming(loop_update, loop_body);
 
     // get the current value
-    llvm::Value* offset = CreateGEP(builder, arg_elements, loop_var, "offset");
-    llvm::Value* current_value = CreateLoad(builder, offset, "value");
+    llvm::Value* offset =
+        builder->CreateGEP(types->i64_type(), arg_elements, loop_var, "offset");
+    llvm::Value* current_value = builder->CreateLoad(types->i64_type(), offset, "value");
 
     // setup sum PHI
     llvm::Value* sum_update = builder->CreateAdd(sum, current_value, "sum+ith");
diff --git a/cpp/src/gandiva/eval_batch.h b/cpp/src/gandiva/eval_batch.h
index 25d9ab1d9f6..9644010b721 100644
--- a/cpp/src/gandiva/eval_batch.h
+++ b/cpp/src/gandiva/eval_batch.h
@@ -44,13 +44,20 @@ class EvalBatch {
 
   int64_t num_records() const { return num_records_; }
 
-  uint8_t** GetBufferArray() const { return buffers_array_.get(); }
+  const uint8_t* const* GetBufferArray() const { return buffers_array_.get(); }
+  uint8_t** GetBufferArray() { return buffers_array_.get(); }
 
-  int64_t* GetBufferOffsetArray() const { return buffer_offsets_array_.get(); }
+  const int64_t* GetBufferOffsetArray() const { return buffer_offsets_array_.get(); }
+  int64_t* GetBufferOffsetArray() { return buffer_offsets_array_.get(); }
 
   int GetNumBuffers() const { return num_buffers_; }
 
-  uint8_t* GetBuffer(int idx) const {
+  const uint8_t* GetBuffer(int idx) const {
+    DCHECK(idx <= num_buffers_);
+    return (buffers_array_.get())[idx];
+  }
+
+  uint8_t* GetBuffer(int idx) {
     DCHECK(idx <= num_buffers_);
     return (buffers_array_.get())[idx];
   }
@@ -72,16 +79,21 @@ class EvalBatch {
     return local_bitmaps_holder_->GetLocalBitMapSize();
   }
 
-  uint8_t* GetLocalBitMap(int idx) const {
+  const uint8_t* GetLocalBitMap(int idx) const {
+    DCHECK(idx <= GetNumLocalBitMaps());
+    return local_bitmaps_holder_->GetLocalBitMap(idx);
+  }
+  uint8_t* GetLocalBitMap(int idx) {
     DCHECK(idx <= GetNumLocalBitMaps());
     return local_bitmaps_holder_->GetLocalBitMap(idx);
   }
 
-  uint8_t** GetLocalBitMapArray() const {
+  const uint8_t* const* GetLocalBitMapArray() const {
     return local_bitmaps_holder_->GetLocalBitMapArray();
   }
+  uint8_t** GetLocalBitMapArray() { return local_bitmaps_holder_->GetLocalBitMapArray(); }
 
-  ExecutionContext* GetExecutionContext() const { return execution_context_.get(); }
+  const ExecutionContext* GetExecutionContext() const { return execution_context_.get(); }
 
  private:
   /// number of records in the current batch.
diff --git a/cpp/src/gandiva/expression_registry.h b/cpp/src/gandiva/expression_registry.h
index fb4f177ba69..609a2dbbe21 100644
--- a/cpp/src/gandiva/expression_registry.h
+++ b/cpp/src/gandiva/expression_registry.h
@@ -65,6 +65,7 @@ class GANDIVA_EXPORT ExpressionRegistry {
   std::unique_ptr<FunctionRegistry> function_registry_;
 };
 
+/// \brief Get the list of all function signatures.
 GANDIVA_EXPORT
 std::vector<std::shared_ptr<FunctionSignature>> GetRegisteredFunctionSignatures();
 
diff --git a/cpp/src/gandiva/function_registry_arithmetic.cc b/cpp/src/gandiva/function_registry_arithmetic.cc
index 2eae9b55380..320dd5ded1e 100644
--- a/cpp/src/gandiva/function_registry_arithmetic.cc
+++ b/cpp/src/gandiva/function_registry_arithmetic.cc
@@ -103,6 +103,8 @@ std::vector<NativeFunction> GetArithmeticFunctionRegistry() {
       NUMERIC_TYPES(BINARY_SYMMETRIC_UNSAFE_NULL_IF_NULL, divide, {}),
       BINARY_GENERIC_SAFE_NULL_IF_NULL(mod, {"modulo"}, int64, int32, int32),
       BINARY_GENERIC_SAFE_NULL_IF_NULL(mod, {"modulo"}, int64, int64, int64),
+      BINARY_GENERIC_SAFE_NULL_IF_NULL(mod, {"modulo"}, uint32, uint32, uint32),
+      BINARY_GENERIC_SAFE_NULL_IF_NULL(mod, {"modulo"}, uint64, uint64, uint64),
       BINARY_SYMMETRIC_UNSAFE_NULL_IF_NULL(mod, {"modulo"}, decimal128),
       BINARY_SYMMETRIC_UNSAFE_NULL_IF_NULL(mod, {"modulo"}, float64),
       BINARY_SYMMETRIC_UNSAFE_NULL_IF_NULL(pmod, {}, int32),
@@ -111,6 +113,8 @@ std::vector<NativeFunction> GetArithmeticFunctionRegistry() {
       BINARY_SYMMETRIC_UNSAFE_NULL_IF_NULL(pmod, {}, float64),
       BINARY_SYMMETRIC_UNSAFE_NULL_IF_NULL(div, {}, int32),
       BINARY_SYMMETRIC_UNSAFE_NULL_IF_NULL(div, {}, int64),
+      BINARY_SYMMETRIC_UNSAFE_NULL_IF_NULL(div, {}, uint32),
+      BINARY_SYMMETRIC_UNSAFE_NULL_IF_NULL(div, {}, uint64),
       BINARY_SYMMETRIC_UNSAFE_NULL_IF_NULL(div, {}, float32),
       BINARY_SYMMETRIC_UNSAFE_NULL_IF_NULL(div, {}, float64),
 
@@ -199,6 +203,11 @@ std::vector<NativeFunction> GetArithmeticFunctionRegistry() {
       // floor functions
       UNARY_SAFE_NULL_IF_NULL(floor, {}, float32, float32),
       UNARY_SAFE_NULL_IF_NULL(floor, {}, float64, float64),
+      // sqrt functions
+      UNARY_SAFE_NULL_IF_NULL(sqrt, {}, int32, float64),
+      UNARY_SAFE_NULL_IF_NULL(sqrt, {}, int64, float64),
+      UNARY_SAFE_NULL_IF_NULL(sqrt, {}, float32, float64),
+      UNARY_SAFE_NULL_IF_NULL(sqrt, {}, float64, float64),
 
       // compare functions
       BINARY_RELATIONAL_BOOL_FN(equal, ({"eq", "same"})),
diff --git a/cpp/src/gandiva/gandiva.pc.in b/cpp/src/gandiva/gandiva.pc.in
index 60034c28579..49260092d29 100644
--- a/cpp/src/gandiva/gandiva.pc.in
+++ b/cpp/src/gandiva/gandiva.pc.in
@@ -25,3 +25,4 @@ Version: @GANDIVA_VERSION@
 Requires: arrow
 Libs: -L${libdir} -lgandiva
 Cflags: -I${includedir}
+Cflags.private: -DGANDIVA_STATIC
diff --git a/cpp/src/gandiva/gdv_function_stubs.cc b/cpp/src/gandiva/gdv_function_stubs.cc
index 40fb656bd40..67d39aeba55 100644
--- a/cpp/src/gandiva/gdv_function_stubs.cc
+++ b/cpp/src/gandiva/gdv_function_stubs.cc
@@ -120,7 +120,7 @@ bool gdv_fn_in_expr_lookup_utf8(int64_t ptr, const char* data, int data_len,
   }
   gandiva::InHolder<std::string>* holder =
       reinterpret_cast<gandiva::InHolder<std::string>*>(ptr);
-  return holder->HasValue(arrow::util::string_view(data, data_len));
+  return holder->HasValue(std::string_view(data, data_len));
 }
 
 int32_t gdv_fn_populate_varlen_vector(int64_t context_ptr, int8_t* data_ptr,
@@ -129,8 +129,21 @@ int32_t gdv_fn_populate_varlen_vector(int64_t context_ptr, int8_t* data_ptr,
   auto buffer = reinterpret_cast<arrow::ResizableBuffer*>(data_ptr);
   int32_t offset = static_cast<int32_t>(buffer->size());
 
-  // This also sets the size in the buffer.
-  auto status = buffer->Resize(offset + entry_len, false /*shrink*/);
+  auto new_size = offset + entry_len;
+  // preallocation, double the size to amortize costs
+  if (buffer->capacity() < new_size) {
+    auto status =
+        buffer->Reserve(std::max(buffer->capacity() * 2, static_cast<int64_t>(new_size)));
+    if (!status.ok()) {
+      auto context = reinterpret_cast<gandiva::ExecutionContext*>(context_ptr);
+
+      context->set_error_msg(status.message().c_str());
+      return -1;
+    }
+  }
+
+  // This only sets the size in the buffer due to preallocation.
+  auto status = buffer->Resize(new_size, false /*shrink*/);
   if (!status.ok()) {
     gandiva::ExecutionContext* context =
         reinterpret_cast<gandiva::ExecutionContext*>(context_ptr);
@@ -205,8 +218,7 @@ const char* gdv_fn_base64_encode_binary(int64_t context, const char* in, int32_t
     return "";
   }
   // use arrow method to encode base64 string
-  std::string encoded_str =
-      arrow::util::base64_encode(arrow::util::string_view(in, in_len));
+  std::string encoded_str = arrow::util::base64_encode(std::string_view(in, in_len));
   *out_len = static_cast<int32_t>(encoded_str.length());
   // allocate memory for response
   char* ret = reinterpret_cast<char*>(
@@ -233,8 +245,7 @@ const char* gdv_fn_base64_decode_utf8(int64_t context, const char* in, int32_t i
     return "";
   }
   // use arrow method to decode base64 string
-  std::string decoded_str =
-      arrow::util::base64_decode(arrow::util::string_view(in, in_len));
+  std::string decoded_str = arrow::util::base64_decode(std::string_view(in, in_len));
   *out_len = static_cast<int32_t>(decoded_str.length());
   // allocate memory for response
   char* ret = reinterpret_cast<char*>(
@@ -754,14 +765,13 @@ GANDIVA_EXPORT
 gdv_timestamp from_utc_timezone_timestamp(gdv_int64 context,
                                           gdv_timestamp time_miliseconds,
                                           const char* timezone, gdv_int32 length) {
-  using arrow_vendored::date::make_zoned;
   using arrow_vendored::date::sys_time;
+  using arrow_vendored::date::zoned_time;
   using std::chrono::milliseconds;
 
-  sys_time<milliseconds> tp{milliseconds{time_miliseconds}};
-  const auto utc_tz = make_zoned(std::string("Etc/UTC"), tp);
+  const sys_time<milliseconds> tp{milliseconds{time_miliseconds}};
   try {
-    const auto local_tz = make_zoned(std::string(timezone, length), utc_tz);
+    const zoned_time<milliseconds> local_tz{std::string(timezone, length), tp};
     gdv_timestamp offset = local_tz.get_time_zone()->get_info(tp).offset.count() * 1000;
     return time_miliseconds + static_cast<gdv_timestamp>(offset);
   } catch (...) {
diff --git a/cpp/src/gandiva/gdv_string_function_stubs.cc b/cpp/src/gandiva/gdv_string_function_stubs.cc
index 90e70861248..3bfb297af14 100644
--- a/cpp/src/gandiva/gdv_string_function_stubs.cc
+++ b/cpp/src/gandiva/gdv_string_function_stubs.cc
@@ -21,11 +21,11 @@
 
 #include <utf8proc.h>
 #include <string>
+#include <string_view>
 #include <unordered_map>
 #include <vector>
 
 #include "arrow/util/double_conversion.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/utf8_internal.h"
 #include "arrow/util/value_parsing.h"
 
@@ -102,7 +102,7 @@ const char* gdv_fn_regexp_extract_utf8_utf8_int32(int64_t ptr, int64_t holder_pt
       *out_len = 0;                                                               \
       return "";                                                                  \
     }                                                                             \
-    arrow::Status status = formatter(value, [&](arrow::util::string_view v) {     \
+    arrow::Status status = formatter(value, [&](std::string_view v) {             \
       int64_t size = static_cast<int64_t>(v.size());                              \
       *out_len = static_cast<int32_t>(len < size ? len : size);                   \
       memcpy(ret, v.data(), *out_len);                                            \
@@ -138,7 +138,7 @@ const char* gdv_fn_regexp_extract_utf8_utf8_int32(int64_t ptr, int64_t holder_pt
       *out_len = 0;                                                               \
       return "";                                                                  \
     }                                                                             \
-    arrow::Status status = formatter(value, [&](arrow::util::string_view v) {     \
+    arrow::Status status = formatter(value, [&](std::string_view v) {             \
       int64_t size = static_cast<int64_t>(v.size());                              \
       *out_len = static_cast<int32_t>(len < size ? len : size);                   \
       memcpy(ret, v.data(), *out_len);                                            \
diff --git a/cpp/src/gandiva/in_holder.h b/cpp/src/gandiva/in_holder.h
index d55ab5ec55f..65262969c5d 100644
--- a/cpp/src/gandiva/in_holder.h
+++ b/cpp/src/gandiva/in_holder.h
@@ -72,19 +72,17 @@ class InHolder<std::string> {
     }
   }
 
-  bool HasValue(arrow::util::string_view value) const {
-    return values_lookup_.count(value) == 1;
-  }
+  bool HasValue(std::string_view value) const { return values_lookup_.count(value) == 1; }
 
  private:
   struct string_view_hash {
    public:
-    std::size_t operator()(arrow::util::string_view v) const {
+    std::size_t operator()(std::string_view v) const {
       return arrow::internal::ComputeStringHash<0>(v.data(), v.length());
     }
   };
 
-  std::unordered_set<arrow::util::string_view, string_view_hash> values_lookup_;
+  std::unordered_set<std::string_view, string_view_hash> values_lookup_;
   const std::unordered_set<std::string> values_;
 };
 
diff --git a/cpp/src/gandiva/interval_holder.h b/cpp/src/gandiva/interval_holder.h
index 43f34019328..38d8e9f86a9 100644
--- a/cpp/src/gandiva/interval_holder.h
+++ b/cpp/src/gandiva/interval_holder.h
@@ -60,14 +60,14 @@ class GANDIVA_EXPORT IntervalHolder : public FunctionHolder {
                                " function needs to be an integer literal to indicate "
                                "whether to suppress the error");
       }
-      suppress_errors = arrow::util::get<int>(literal_suppress_errors->holder());
+      suppress_errors = std::get<int>(literal_suppress_errors->holder());
     }
 
     return Make(suppress_errors, holder);
   }
 
   static Status Make(int32_t suppress_errors, std::shared_ptr<INTERVAL_TYPE>* holder) {
-    auto lholder = std::shared_ptr<INTERVAL_TYPE>(new INTERVAL_TYPE(suppress_errors));
+    auto lholder = std::make_shared<INTERVAL_TYPE>(suppress_errors);
 
     *holder = lholder;
     return Status::OK();
diff --git a/cpp/src/gandiva/jni/CMakeLists.txt b/cpp/src/gandiva/jni/CMakeLists.txt
deleted file mode 100644
index 046934141f6..00000000000
--- a/cpp/src/gandiva/jni/CMakeLists.txt
+++ /dev/null
@@ -1,107 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-if(CMAKE_VERSION VERSION_LESS 3.11)
-  message(FATAL_ERROR "Building the Gandiva JNI bindings requires CMake version >= 3.11")
-endif()
-
-if(MSVC)
-  add_definitions(-DPROTOBUF_USE_DLLS)
-endif()
-
-# Find JNI
-find_package(JNI REQUIRED)
-
-set(PROTO_OUTPUT_DIR ${CMAKE_CURRENT_BINARY_DIR})
-set(PROTO_OUTPUT_FILES "${PROTO_OUTPUT_DIR}/Types.pb.cc")
-set(PROTO_OUTPUT_FILES ${PROTO_OUTPUT_FILES} "${PROTO_OUTPUT_DIR}/Types.pb.h")
-
-set_source_files_properties(${PROTO_OUTPUT_FILES} PROPERTIES GENERATED TRUE)
-
-get_filename_component(ABS_GANDIVA_PROTO
-                       ${CMAKE_SOURCE_DIR}/src/gandiva/proto/Types.proto ABSOLUTE)
-
-add_custom_command(OUTPUT ${PROTO_OUTPUT_FILES}
-                   COMMAND ${ARROW_PROTOBUF_PROTOC} --proto_path
-                           ${CMAKE_SOURCE_DIR}/src/gandiva/proto --cpp_out
-                           ${PROTO_OUTPUT_DIR}
-                           ${CMAKE_SOURCE_DIR}/src/gandiva/proto/Types.proto
-                   DEPENDS ${ABS_GANDIVA_PROTO} ${ARROW_PROTOBUF_LIBPROTOBUF}
-                   COMMENT "Running PROTO compiler on Types.proto"
-                   VERBATIM)
-
-add_custom_target(gandiva_jni_proto ALL DEPENDS ${PROTO_OUTPUT_FILES})
-set(PROTO_SRCS "${PROTO_OUTPUT_DIR}/Types.pb.cc")
-set(PROTO_HDRS "${PROTO_OUTPUT_DIR}/Types.pb.h")
-
-# Create the jni header file (from the java class).
-set(JNI_HEADERS_DIR "${CMAKE_CURRENT_BINARY_DIR}/java")
-add_subdirectory(../../../../java/gandiva ./java/gandiva)
-
-set(GANDIVA_LINK_LIBS ${ARROW_PROTOBUF_LIBPROTOBUF})
-if(ARROW_BUILD_STATIC)
-  list(APPEND GANDIVA_LINK_LIBS gandiva_static)
-else()
-  list(APPEND GANDIVA_LINK_LIBS gandiva_shared)
-endif()
-
-set(GANDIVA_JNI_SOURCES
-    config_builder.cc
-    config_holder.cc
-    expression_registry_helper.cc
-    jni_common.cc
-    ${PROTO_SRCS})
-
-# For users of gandiva_jni library (including integ tests), include-dir is :
-#   /usr/**/include dir after install,
-#   cpp/include during build
-# For building gandiva_jni library itself, include-dir (in addition to above) is :
-#   cpp/src
-add_arrow_lib(gandiva_jni
-              SOURCES
-              ${GANDIVA_JNI_SOURCES}
-              OUTPUTS
-              GANDIVA_JNI_LIBRARIES
-              SHARED_PRIVATE_LINK_LIBS
-              ${GANDIVA_LINK_LIBS}
-              STATIC_LINK_LIBS
-              ${GANDIVA_LINK_LIBS}
-              DEPENDENCIES
-              ${GANDIVA_LINK_LIBS}
-              gandiva_java
-              gandiva_jni_headers
-              gandiva_jni_proto
-              EXTRA_INCLUDES
-              $<INSTALL_INTERFACE:include>
-              $<BUILD_INTERFACE:${CMAKE_SOURCE_DIR}/include>
-              $<BUILD_INTERFACE:${JNI_HEADERS_DIR}>
-              PRIVATE_INCLUDES
-              ${JNI_INCLUDE_DIRS}
-              ${CMAKE_CURRENT_BINARY_DIR})
-
-add_dependencies(gandiva ${GANDIVA_JNI_LIBRARIES})
-
-if(ARROW_BUILD_SHARED)
-  # filter out everything that is not needed for the jni bridge
-  # statically linked stdc++ has conflicts with stdc++ loaded by other libraries.
-  if(CXX_LINKER_SUPPORTS_VERSION_SCRIPT)
-    set_target_properties(gandiva_jni_shared
-                          PROPERTIES LINK_FLAGS
-                                     "-Wl,--version-script=${CMAKE_SOURCE_DIR}/src/gandiva/jni/symbols.map"
-    )
-  endif()
-endif()
diff --git a/cpp/src/gandiva/literal_holder.cc b/cpp/src/gandiva/literal_holder.cc
index beed8119cb1..a77140b727e 100644
--- a/cpp/src/gandiva/literal_holder.cc
+++ b/cpp/src/gandiva/literal_holder.cc
@@ -38,7 +38,7 @@ struct LiteralToStream {
 std::string ToString(const LiteralHolder& holder) {
   std::stringstream ss;
   LiteralToStream<std::stringstream> visitor{ss};
-  ::arrow::util::visit(visitor, holder);
+  ::std::visit(visitor, holder);
   return ss.str();
 }
 
diff --git a/cpp/src/gandiva/literal_holder.h b/cpp/src/gandiva/literal_holder.h
index c4712aafc4b..40faf39e1f5 100644
--- a/cpp/src/gandiva/literal_holder.h
+++ b/cpp/src/gandiva/literal_holder.h
@@ -18,8 +18,7 @@
 #pragma once
 
 #include <string>
-
-#include <arrow/util/variant.h>
+#include <variant>
 
 #include <arrow/type.h>
 #include "gandiva/decimal_scalar.h"
@@ -28,8 +27,8 @@
 namespace gandiva {
 
 using LiteralHolder =
-    arrow::util::Variant<bool, float, double, int8_t, int16_t, int32_t, int64_t, uint8_t,
-                         uint16_t, uint32_t, uint64_t, std::string, DecimalScalar128>;
+    std::variant<bool, float, double, int8_t, int16_t, int32_t, int64_t, uint8_t,
+                 uint16_t, uint32_t, uint64_t, std::string, DecimalScalar128>;
 
 GANDIVA_EXPORT std::string ToString(const LiteralHolder& holder);
 
diff --git a/cpp/src/gandiva/llvm_generator.cc b/cpp/src/gandiva/llvm_generator.cc
index 42a05a7dff0..1615eece1f2 100644
--- a/cpp/src/gandiva/llvm_generator.cc
+++ b/cpp/src/gandiva/llvm_generator.cc
@@ -26,6 +26,7 @@
 #include "gandiva/dex.h"
 #include "gandiva/expr_decomposer.h"
 #include "gandiva/expression.h"
+#include "gandiva/llvm_types.h"
 #include "gandiva/lvalue.h"
 
 namespace gandiva {
@@ -112,7 +113,7 @@ Status LLVMGenerator::Build(const ExpressionVector& exprs) {
 
 /// Execute the compiled module against the provided vectors.
 Status LLVMGenerator::Execute(const arrow::RecordBatch& record_batch,
-                              const ArrayDataVector& output_vector) {
+                              const ArrayDataVector& output_vector) const {
   return Execute(record_batch, nullptr, output_vector);
 }
 
@@ -120,7 +121,7 @@ Status LLVMGenerator::Execute(const arrow::RecordBatch& record_batch,
 /// selection vector.
 Status LLVMGenerator::Execute(const arrow::RecordBatch& record_batch,
                               const SelectionVector* selection_vector,
-                              const ArrayDataVector& output_vector) {
+                              const ArrayDataVector& output_vector) const {
   DCHECK_GT(record_batch.num_rows(), 0);
 
   auto eval_batch = annotator_.PrepareEvalBatch(record_batch, output_vector);
@@ -156,24 +157,24 @@ Status LLVMGenerator::Execute(const arrow::RecordBatch& record_batch,
         Status::ExecutionError(eval_batch->GetExecutionContext()->get_error()));
 
     // generate validity vectors.
-    ComputeBitMapsForExpr(*compiled_expr, *eval_batch, selection_vector);
+    ComputeBitMapsForExpr(*compiled_expr, selection_vector, eval_batch.get());
   }
 
   return Status::OK();
 }
 
-llvm::Value* LLVMGenerator::LoadVectorAtIndex(llvm::Value* arg_addrs, int idx,
-                                              const std::string& name) {
+llvm::Value* LLVMGenerator::LoadVectorAtIndex(llvm::Value* arg_addrs, llvm::Type* type,
+                                              int idx, const std::string& name) {
   auto* idx_val = types()->i32_constant(idx);
-  auto* offset = CreateGEP(ir_builder(), arg_addrs, idx_val, name + "_mem_addr");
-  return CreateLoad(ir_builder(), offset, name + "_mem");
+  auto* offset = ir_builder()->CreateGEP(type, arg_addrs, idx_val, name + "_mem_addr");
+  return ir_builder()->CreateLoad(type, offset, name + "_mem");
 }
 
 /// Get reference to validity array at specified index in the args list.
 llvm::Value* LLVMGenerator::GetValidityReference(llvm::Value* arg_addrs, int idx,
                                                  FieldPtr field) {
   const std::string& name = field->name();
-  llvm::Value* load = LoadVectorAtIndex(arg_addrs, idx, name);
+  llvm::Value* load = LoadVectorAtIndex(arg_addrs, types()->i64_type(), idx, name);
   return ir_builder()->CreateIntToPtr(load, types()->i64_ptr_type(), name + "_varray");
 }
 
@@ -181,7 +182,7 @@ llvm::Value* LLVMGenerator::GetValidityReference(llvm::Value* arg_addrs, int idx
 llvm::Value* LLVMGenerator::GetDataBufferPtrReference(llvm::Value* arg_addrs, int idx,
                                                       FieldPtr field) {
   const std::string& name = field->name();
-  llvm::Value* load = LoadVectorAtIndex(arg_addrs, idx, name);
+  llvm::Value* load = LoadVectorAtIndex(arg_addrs, types()->i64_type(), idx, name);
   return ir_builder()->CreateIntToPtr(load, types()->i8_ptr_type(), name + "_buf_ptr");
 }
 
@@ -189,7 +190,7 @@ llvm::Value* LLVMGenerator::GetDataBufferPtrReference(llvm::Value* arg_addrs, in
 llvm::Value* LLVMGenerator::GetDataReference(llvm::Value* arg_addrs, int idx,
                                              FieldPtr field) {
   const std::string& name = field->name();
-  llvm::Value* load = LoadVectorAtIndex(arg_addrs, idx, name);
+  llvm::Value* load = LoadVectorAtIndex(arg_addrs, types()->i64_type(), idx, name);
   llvm::Type* base_type = types()->DataVecType(field->type());
   llvm::Value* ret;
   if (base_type->isPointerTy()) {
@@ -205,13 +206,13 @@ llvm::Value* LLVMGenerator::GetDataReference(llvm::Value* arg_addrs, int idx,
 llvm::Value* LLVMGenerator::GetOffsetsReference(llvm::Value* arg_addrs, int idx,
                                                 FieldPtr field) {
   const std::string& name = field->name();
-  llvm::Value* load = LoadVectorAtIndex(arg_addrs, idx, name);
+  llvm::Value* load = LoadVectorAtIndex(arg_addrs, types()->i64_type(), idx, name);
   return ir_builder()->CreateIntToPtr(load, types()->i32_ptr_type(), name + "_oarray");
 }
 
 /// Get reference to local bitmap array at specified index in the args list.
 llvm::Value* LLVMGenerator::GetLocalBitMapReference(llvm::Value* arg_bitmaps, int idx) {
-  llvm::Value* load = LoadVectorAtIndex(arg_bitmaps, idx, "");
+  llvm::Value* load = LoadVectorAtIndex(arg_bitmaps, types()->i64_type(), idx, "");
   return ir_builder()->CreateIntToPtr(load, types()->i64_ptr_type(),
                                       std::to_string(idx) + "_lbmap");
 }
@@ -278,16 +279,21 @@ Status LLVMGenerator::CodeGenExprValue(DexPtr value_expr, int buffer_count,
   arguments.push_back(types()->i64_ptr_type());  // offsets
   arguments.push_back(types()->i64_ptr_type());  // bitmaps
   arguments.push_back(types()->i64_ptr_type());  // holders
+  llvm::Type* selection_vector_type;
   switch (selection_vector_mode) {
     case SelectionVector::MODE_NONE:
     case SelectionVector::MODE_UINT16:
       arguments.push_back(types()->ptr_type(types()->i16_type()));
+      selection_vector_type = types()->i16_type();
       break;
     case SelectionVector::MODE_UINT32:
       arguments.push_back(types()->i32_ptr_type());
+      selection_vector_type = types()->i32_type();
       break;
     case SelectionVector::MODE_UINT64:
       arguments.push_back(types()->i64_ptr_type());
+      selection_vector_type = types()->i64_type();
+      break;
   }
   arguments.push_back(types()->i64_type());  // ctx_ptr
   arguments.push_back(types()->i64_type());  // nrec
@@ -338,8 +344,9 @@ Status LLVMGenerator::CodeGenExprValue(DexPtr value_expr, int buffer_count,
 
   std::vector<llvm::Value*> slice_offsets;
   for (int idx = 0; idx < buffer_count; idx++) {
-    auto offsetAddr = CreateGEP(builder, arg_addr_offsets, types()->i32_constant(idx));
-    auto offset = CreateLoad(builder, offsetAddr);
+    auto offsetAddr = builder->CreateGEP(types()->i64_type(), arg_addr_offsets,
+                                         types()->i32_constant(idx));
+    auto offset = builder->CreateLoad(types()->i64_type(), offsetAddr);
     slice_offsets.push_back(offset);
   }
 
@@ -351,9 +358,11 @@ Status LLVMGenerator::CodeGenExprValue(DexPtr value_expr, int buffer_count,
 
   llvm::Value* position_var = loop_var;
   if (selection_vector_mode != SelectionVector::MODE_NONE) {
+    auto selection_vector_addr =
+        builder->CreateGEP(selection_vector_type, arg_selection_vector, loop_var);
     position_var = builder->CreateIntCast(
-        CreateLoad(builder, CreateGEP(builder, arg_selection_vector, loop_var),
-                   "uncasted_position_var"),
+        builder->CreateLoad(selection_vector_type, selection_vector_addr,
+                            "uncasted_position_var"),
         types()->i64_type(), true, "position_var");
   }
 
@@ -378,7 +387,8 @@ Status LLVMGenerator::CodeGenExprValue(DexPtr value_expr, int buffer_count,
     SetPackedBitValue(output_ref, loop_var, output_value->data());
   } else if (arrow::is_primitive(output_type_id) ||
              output_type_id == arrow::Type::DECIMAL) {
-    llvm::Value* slot_offset = CreateGEP(builder, output_ref, loop_var);
+    auto slot_offset =
+        builder->CreateGEP(types()->IRType(output_type_id), output_ref, loop_var);
     builder->CreateStore(output_value->data(), slot_offset);
   } else if (arrow::is_binary_like(output_type_id)) {
     // Var-len output. Make a function call to populate the data.
@@ -463,19 +473,19 @@ void LLVMGenerator::ClearPackedBitValueIfFalse(llvm::Value* bitmap, llvm::Value*
 
 /// Extract the bitmap addresses, and do an intersection.
 void LLVMGenerator::ComputeBitMapsForExpr(const CompiledExpr& compiled_expr,
-                                          const EvalBatch& eval_batch,
-                                          const SelectionVector* selection_vector) {
+                                          const SelectionVector* selection_vector,
+                                          EvalBatch* eval_batch) const {
   auto validities = compiled_expr.value_validity()->validity_exprs();
 
   // Extract all the source bitmap addresses.
-  BitMapAccumulator accumulator(eval_batch);
+  BitMapAccumulator accumulator(*eval_batch);
   for (auto& validity_dex : validities) {
     validity_dex->Accept(accumulator);
   }
 
   // Extract the destination bitmap address.
   int out_idx = compiled_expr.output()->validity_idx();
-  uint8_t* dst_bitmap = eval_batch.GetBuffer(out_idx);
+  uint8_t* dst_bitmap = eval_batch->GetBuffer(out_idx);
   // Compute the destination bitmap.
   if (selection_vector == nullptr) {
     accumulator.ComputeResult(dst_bitmap);
@@ -486,7 +496,7 @@ void LLVMGenerator::ComputeBitMapsForExpr(const CompiledExpr& compiled_expr,
     ///
     /// 1. Do the intersection of input/local bitmaps to generate a temporary bitmap.
     /// 2. copy just the relevant bits from the temporary bitmap to the output bitmap.
-    LocalBitMapsHolder bit_map_holder(eval_batch.num_records(), 1);
+    LocalBitMapsHolder bit_map_holder(eval_batch->num_records(), 1);
     uint8_t* temp_bitmap = bit_map_holder.GetLocalBitMap(0);
     accumulator.ComputeResult(temp_bitmap);
 
@@ -564,6 +574,7 @@ LLVMGenerator::Visitor::Visitor(LLVMGenerator* generator, llvm::Function* functi
 
 void LLVMGenerator::Visitor::Visit(const VectorReadFixedLenValueDex& dex) {
   llvm::IRBuilder<>* builder = ir_builder();
+  auto types = generator_->types();
   llvm::Value* slot_ref = GetBufferReference(dex.DataIdx(), kBufferTypeData, dex.Field());
   llvm::Value* slot_index = builder->CreateAdd(loop_var_, GetSliceOffset(dex.DataIdx()));
   llvm::Value* slot_value;
@@ -576,15 +587,16 @@ void LLVMGenerator::Visitor::Visit(const VectorReadFixedLenValueDex& dex) {
       break;
 
     case arrow::Type::DECIMAL: {
-      auto slot_offset = CreateGEP(builder, slot_ref, slot_index);
-      slot_value = CreateLoad(builder, slot_offset, dex.FieldName());
+      auto slot_offset = builder->CreateGEP(types->i128_type(), slot_ref, slot_index);
+      slot_value = builder->CreateLoad(types->i128_type(), slot_offset, dex.FieldName());
       lvalue = generator_->BuildDecimalLValue(slot_value, dex.FieldType());
       break;
     }
 
     default: {
-      auto slot_offset = CreateGEP(builder, slot_ref, slot_index);
-      slot_value = CreateLoad(builder, slot_offset, dex.FieldName());
+      auto type = types->IRType(dex.FieldType()->id());
+      auto slot_offset = builder->CreateGEP(type, slot_ref, slot_index);
+      slot_value = builder->CreateLoad(type, slot_offset, dex.FieldName());
       lvalue = std::make_shared<LValue>(slot_value);
       break;
     }
@@ -597,6 +609,7 @@ void LLVMGenerator::Visitor::Visit(const VectorReadFixedLenValueDex& dex) {
 void LLVMGenerator::Visitor::Visit(const VectorReadVarLenValueDex& dex) {
   llvm::IRBuilder<>* builder = ir_builder();
   llvm::Value* slot;
+  auto types = generator_->types();
 
   // compute len from the offsets array.
   llvm::Value* offsets_slot_ref =
@@ -605,14 +618,15 @@ void LLVMGenerator::Visitor::Visit(const VectorReadVarLenValueDex& dex) {
       builder->CreateAdd(loop_var_, GetSliceOffset(dex.OffsetsIdx()));
 
   // => offset_start = offsets[loop_var]
-  slot = CreateGEP(builder, offsets_slot_ref, offsets_slot_index);
-  llvm::Value* offset_start = CreateLoad(builder, slot, "offset_start");
+  slot = builder->CreateGEP(types->i32_type(), offsets_slot_ref, offsets_slot_index);
+  llvm::Value* offset_start =
+      builder->CreateLoad(types->i32_type(), slot, "offset_start");
 
   // => offset_end = offsets[loop_var + 1]
   llvm::Value* offsets_slot_index_next = builder->CreateAdd(
       offsets_slot_index, generator_->types()->i64_constant(1), "loop_var+1");
-  slot = CreateGEP(builder, offsets_slot_ref, offsets_slot_index_next);
-  llvm::Value* offset_end = CreateLoad(builder, slot, "offset_end");
+  slot = builder->CreateGEP(types->i32_type(), offsets_slot_ref, offsets_slot_index_next);
+  auto offset_end = builder->CreateLoad(types->i32_type(), slot, "offset_end");
 
   // => len_value = offset_end - offset_start
   llvm::Value* len_value =
@@ -621,7 +635,7 @@ void LLVMGenerator::Visitor::Visit(const VectorReadVarLenValueDex& dex) {
   // get the data from the data array, at offset 'offset_start'.
   llvm::Value* data_slot_ref =
       GetBufferReference(dex.DataIdx(), kBufferTypeData, dex.Field());
-  llvm::Value* data_value = CreateGEP(builder, data_slot_ref, offset_start);
+  auto data_value = builder->CreateGEP(types->i8_type(), data_slot_ref, offset_start);
   ADD_VISITOR_TRACE("visit var-len data vector " + dex.FieldName() + " len %T",
                     len_value);
   result_.reset(new LValue(data_value, len_value));
@@ -664,44 +678,44 @@ void LLVMGenerator::Visitor::Visit(const LiteralDex& dex) {
 
   switch (dex.type()->id()) {
     case arrow::Type::BOOL:
-      value = types->i1_constant(arrow::util::get<bool>(dex.holder()));
+      value = types->i1_constant(std::get<bool>(dex.holder()));
       break;
 
     case arrow::Type::UINT8:
-      value = types->i8_constant(arrow::util::get<uint8_t>(dex.holder()));
+      value = types->i8_constant(std::get<uint8_t>(dex.holder()));
       break;
 
     case arrow::Type::UINT16:
-      value = types->i16_constant(arrow::util::get<uint16_t>(dex.holder()));
+      value = types->i16_constant(std::get<uint16_t>(dex.holder()));
       break;
 
     case arrow::Type::UINT32:
-      value = types->i32_constant(arrow::util::get<uint32_t>(dex.holder()));
+      value = types->i32_constant(std::get<uint32_t>(dex.holder()));
       break;
 
     case arrow::Type::UINT64:
-      value = types->i64_constant(arrow::util::get<uint64_t>(dex.holder()));
+      value = types->i64_constant(std::get<uint64_t>(dex.holder()));
       break;
 
     case arrow::Type::INT8:
-      value = types->i8_constant(arrow::util::get<int8_t>(dex.holder()));
+      value = types->i8_constant(std::get<int8_t>(dex.holder()));
       break;
 
     case arrow::Type::INT16:
-      value = types->i16_constant(arrow::util::get<int16_t>(dex.holder()));
+      value = types->i16_constant(std::get<int16_t>(dex.holder()));
       break;
 
     case arrow::Type::FLOAT:
-      value = types->float_constant(arrow::util::get<float>(dex.holder()));
+      value = types->float_constant(std::get<float>(dex.holder()));
       break;
 
     case arrow::Type::DOUBLE:
-      value = types->double_constant(arrow::util::get<double>(dex.holder()));
+      value = types->double_constant(std::get<double>(dex.holder()));
       break;
 
     case arrow::Type::STRING:
     case arrow::Type::BINARY: {
-      const std::string& str = arrow::util::get<std::string>(dex.holder());
+      const std::string& str = std::get<std::string>(dex.holder());
 
       value = ir_builder()->CreateGlobalStringPtr(str.c_str());
       len = types->i32_constant(static_cast<int32_t>(str.length()));
@@ -712,7 +726,7 @@ void LLVMGenerator::Visitor::Visit(const LiteralDex& dex) {
     case arrow::Type::DATE32:
     case arrow::Type::TIME32:
     case arrow::Type::INTERVAL_MONTHS:
-      value = types->i32_constant(arrow::util::get<int32_t>(dex.holder()));
+      value = types->i32_constant(std::get<int32_t>(dex.holder()));
       break;
 
     case arrow::Type::INT64:
@@ -720,12 +734,12 @@ void LLVMGenerator::Visitor::Visit(const LiteralDex& dex) {
     case arrow::Type::TIME64:
     case arrow::Type::TIMESTAMP:
     case arrow::Type::INTERVAL_DAY_TIME:
-      value = types->i64_constant(arrow::util::get<int64_t>(dex.holder()));
+      value = types->i64_constant(std::get<int64_t>(dex.holder()));
       break;
 
     case arrow::Type::DECIMAL: {
       // build code for struct
-      auto scalar = arrow::util::get<DecimalScalar128>(dex.holder());
+      auto scalar = std::get<DecimalScalar128>(dex.holder());
       // ConstantInt doesn't have a get method that takes int128 or a pair of int64. so,
       // passing the string representation instead.
       auto int128_value =
@@ -831,7 +845,7 @@ void LLVMGenerator::Visitor::Visit(const NullableInternalFuncDex& dex) {
   result_ = BuildFunctionCall(native_function, arrow_return_type, &params);
 
   // load the result validity and truncate to i1.
-  llvm::Value* result_valid_i8 = CreateLoad(builder, result_valid_ptr);
+  auto result_valid_i8 = builder->CreateLoad(types->i8_type(), result_valid_ptr);
   llvm::Value* result_valid = builder->CreateTrunc(result_valid_i8, types->i1_type());
 
   // set validity bit in the local bitmap.
@@ -1038,7 +1052,7 @@ void LLVMGenerator::Visitor::VisitInExpression(const InExprDexBase<Type>& dex) {
   builder->SetInsertPoint(entry_block_);
 
   llvm::Value* in_holder = generator_->LoadVectorAtIndex(
-      arg_holder_ptrs_, dex_instance.get_holder_idx(), "in_holder");
+      arg_holder_ptrs_, types->i64_type(), dex_instance.get_holder_idx(), "in_holder");
 
   builder->SetInsertPoint(saved_block);
   params.push_back(in_holder);
@@ -1255,7 +1269,9 @@ LValuePtr LLVMGenerator::Visitor::BuildFunctionCall(const NativeFunction* func,
             ? decimalIR.CallDecimalFunction(func->pc_name(), llvm_return_type, *params)
             : generator_->AddFunctionCall(func->pc_name(), llvm_return_type, *params);
     auto value_len =
-        (result_len_ptr == nullptr) ? nullptr : CreateLoad(builder, result_len_ptr);
+        (result_len_ptr == nullptr)
+            ? nullptr
+            : builder->CreateLoad(result_len_ptr->getAllocatedType(), result_len_ptr);
     return std::make_shared<LValue>(value, value_len);
   }
 }
@@ -1278,8 +1294,8 @@ std::vector<llvm::Value*> LLVMGenerator::Visitor::BuildParams(
     llvm::BasicBlock* saved_block = builder->GetInsertBlock();
     builder->SetInsertPoint(entry_block_);
 
-    llvm::Value* holder =
-        generator_->LoadVectorAtIndex(arg_holder_ptrs_, holder_idx, "holder");
+    auto holder = generator_->LoadVectorAtIndex(
+        arg_holder_ptrs_, generator_->types()->i64_type(), holder_idx, "holder");
 
     builder->SetInsertPoint(saved_block);
     params.push_back(holder);
diff --git a/cpp/src/gandiva/llvm_generator.h b/cpp/src/gandiva/llvm_generator.h
index 693119128ea..04f9b854b1d 100644
--- a/cpp/src/gandiva/llvm_generator.h
+++ b/cpp/src/gandiva/llvm_generator.h
@@ -68,13 +68,13 @@ class GANDIVA_EXPORT LLVMGenerator {
   /// \brief Execute the built expression against the provided arguments for
   /// default mode.
   Status Execute(const arrow::RecordBatch& record_batch,
-                 const ArrayDataVector& output_vector);
+                 const ArrayDataVector& output_vector) const;
 
   /// \brief Execute the built expression against the provided arguments for
   /// all modes. Only works on the records specified in the selection_vector.
   Status Execute(const arrow::RecordBatch& record_batch,
                  const SelectionVector* selection_vector,
-                 const ArrayDataVector& output_vector);
+                 const ArrayDataVector& output_vector) const;
 
   SelectionVector::Mode selection_vector_mode() { return selection_vector_mode_; }
   LLVMTypes* types() { return engine_->types(); }
@@ -183,7 +183,7 @@ class GANDIVA_EXPORT LLVMGenerator {
   Status Add(const ExpressionPtr expr, const FieldDescriptorPtr output);
 
   /// Generate code to load the vector at specified index in the 'arg_addrs' array.
-  llvm::Value* LoadVectorAtIndex(llvm::Value* arg_addrs, int idx,
+  llvm::Value* LoadVectorAtIndex(llvm::Value* arg_addrs, llvm::Type* type, int idx,
                                  const std::string& name);
 
   /// Generate code to load the vector at specified index and cast it as bitmap.
@@ -233,11 +233,11 @@ class GANDIVA_EXPORT LLVMGenerator {
   ///
   /// \param[in] compiled_expr the compiled expression (includes the bitmap indices to be
   ///            used for computing the validity bitmap of the result).
-  /// \param[in] eval_batch (includes input/output buffer addresses)
   /// \param[in] selection_vector the list of selected positions
+  /// \param[in,out] eval_batch (includes input/output buffer addresses)
   void ComputeBitMapsForExpr(const CompiledExpr& compiled_expr,
-                             const EvalBatch& eval_batch,
-                             const SelectionVector* selection_vector);
+                             const SelectionVector* selection_vector,
+                             EvalBatch* eval_batch) const;
 
   /// Replace the %T in the trace msg with the correct type corresponding to 'type'
   /// eg. %d for int32, %ld for int64, ..
diff --git a/cpp/src/gandiva/llvm_includes.h b/cpp/src/gandiva/llvm_includes.h
index 37f915eb571..3d455591895 100644
--- a/cpp/src/gandiva/llvm_includes.h
+++ b/cpp/src/gandiva/llvm_includes.h
@@ -41,16 +41,3 @@
 #if defined(_MSC_VER)
 #pragma warning(pop)
 #endif
-
-// Workaround for deprecated builder methods as of LLVM 13: ARROW-14363
-inline llvm::Value* CreateGEP(llvm::IRBuilder<>* builder, llvm::Value* Ptr,
-                              llvm::ArrayRef<llvm::Value*> IdxList,
-                              const llvm::Twine& Name = "") {
-  return builder->CreateGEP(Ptr->getType()->getScalarType()->getPointerElementType(), Ptr,
-                            IdxList, Name);
-}
-
-inline llvm::LoadInst* CreateLoad(llvm::IRBuilder<>* builder, llvm::Value* Ptr,
-                                  const llvm::Twine& Name = "") {
-  return builder->CreateLoad(Ptr->getType()->getPointerElementType(), Ptr, Name);
-}
diff --git a/cpp/src/gandiva/lru_cache.h b/cpp/src/gandiva/lru_cache.h
index 6602116b0a0..2fa7ccfbfe5 100644
--- a/cpp/src/gandiva/lru_cache.h
+++ b/cpp/src/gandiva/lru_cache.h
@@ -18,11 +18,10 @@
 #pragma once
 
 #include <list>
+#include <optional>
 #include <unordered_map>
 #include <utility>
 
-#include "arrow/util/optional.h"
-
 // modified from boost LRU cache -> the boost cache supported only an
 // ordered map.
 namespace gandiva {
@@ -70,12 +69,12 @@ class LruCache {
     }
   }
 
-  arrow::util::optional<value_type> get(const key_type& key) {
+  std::optional<value_type> get(const key_type& key) {
     // lookup value in the cache
     typename map_type::iterator value_for_key = map_.find(key);
     if (value_for_key == map_.end()) {
       // value not in cache
-      return arrow::util::nullopt;
+      return std::nullopt;
     }
 
     // return the value, but first update its place in the most
diff --git a/cpp/src/gandiva/lru_cache_test.cc b/cpp/src/gandiva/lru_cache_test.cc
index 06c86d69032..ccd5867b322 100644
--- a/cpp/src/gandiva/lru_cache_test.cc
+++ b/cpp/src/gandiva/lru_cache_test.cc
@@ -50,7 +50,7 @@ TEST_F(TestLruCache, TestEvict) {
   cache_.insert(TestCacheKey(3), "hello");
   // should have evicted key 1
   ASSERT_EQ(2, cache_.size());
-  ASSERT_EQ(cache_.get(TestCacheKey(1)), arrow::util::nullopt);
+  ASSERT_EQ(cache_.get(TestCacheKey(1)), std::nullopt);
 }
 
 TEST_F(TestLruCache, TestLruBehavior) {
diff --git a/cpp/src/gandiva/node.h b/cpp/src/gandiva/node.h
index 5ef44f0ef99..858c6570489 100644
--- a/cpp/src/gandiva/node.h
+++ b/cpp/src/gandiva/node.h
@@ -66,6 +66,11 @@ class GANDIVA_EXPORT LiteralNode : public Node {
 
   std::string ToString() const override {
     std::stringstream ss;
+    if (return_type_ == NULLPTR) {
+      ss << "(const untyped) " << gandiva::ToString(holder_);
+      return ss.str();
+    }
+
     ss << "(const " << return_type()->ToString() << ") ";
     if (is_null()) {
       ss << std::string("null");
@@ -81,12 +86,12 @@ class GANDIVA_EXPORT LiteralNode : public Node {
     // The default formatter prints in decimal can cause a loss in precision. so,
     // print in hex. Can't use hexfloat since gcc 4.9 doesn't support it.
     if (return_type()->id() == arrow::Type::DOUBLE) {
-      double dvalue = arrow::util::get<double>(holder_);
+      double dvalue = std::get<double>(holder_);
       uint64_t bits;
       memcpy(&bits, &dvalue, sizeof(bits));
       ss << " raw(" << std::hex << bits << ")";
     } else if (return_type()->id() == arrow::Type::FLOAT) {
-      float fvalue = arrow::util::get<float>(holder_);
+      float fvalue = std::get<float>(holder_);
       uint32_t bits;
       memcpy(&bits, &fvalue, sizeof(bits));
       ss << " raw(" << std::hex << bits << ")";
@@ -128,7 +133,9 @@ class GANDIVA_EXPORT FunctionNode : public Node {
 
   std::string ToString() const override {
     std::stringstream ss;
-    ss << descriptor()->return_type()->ToString() << " " << descriptor()->name() << "(";
+    ss << ((return_type() == NULLPTR) ? "untyped"
+                                      : descriptor()->return_type()->ToString())
+       << " " << descriptor()->name() << "(";
     bool skip_comma = true;
     for (auto& child : children()) {
       if (skip_comma) {
diff --git a/cpp/src/gandiva/precompiled/CMakeLists.txt b/cpp/src/gandiva/precompiled/CMakeLists.txt
index 650b80f6bd9..d7c7ef157b4 100644
--- a/cpp/src/gandiva/precompiled/CMakeLists.txt
+++ b/cpp/src/gandiva/precompiled/CMakeLists.txt
@@ -31,18 +31,22 @@ set(PRECOMPILED_SRCS
     ../../arrow/util/basic_decimal.cc)
 
 if(MSVC)
-  # clang pretends to be a particular version of MSVC. 191[0-9] is
-  # Visual Studio 2017, and the standard library uses C++14 features,
-  # so we have to use that -std version to get the IR compilation to work
-  if(MSVC_VERSION MATCHES "^191[0-9]$")
+  # clang pretends to be a particular version of MSVC. Thestandard
+  # library uses C++14 features, so we have to use that -std version
+  # to get the IR compilation to work.
+  # See https://cmake.org/cmake/help/latest/variable/MSVC_VERSION.html
+  # for MSVC_VERSION and Visual Studio version.
+  if(MSVC_VERSION LESS 1930)
+    set(FMS_COMPATIBILITY 19.20)
+  elseif(MSVC_VERSION LESS 1920)
     set(FMS_COMPATIBILITY 19.10)
   else()
     message(FATAL_ERROR "Unsupported MSVC_VERSION=${MSVC_VERSION}")
   endif()
-  set(PLATFORM_CLANG_OPTIONS -std=c++14 -fms-compatibility
+  set(PLATFORM_CLANG_OPTIONS -std=c++17 -fms-compatibility
                              -fms-compatibility-version=${FMS_COMPATIBILITY})
 else()
-  set(PLATFORM_CLANG_OPTIONS -std=c++11)
+  set(PLATFORM_CLANG_OPTIONS -std=c++17)
 endif()
 
 # Create bitcode for each of the source files.
diff --git a/cpp/src/gandiva/precompiled/arithmetic_ops.cc b/cpp/src/gandiva/precompiled/arithmetic_ops.cc
index 309199c16d2..b4959e9d7a6 100644
--- a/cpp/src/gandiva/precompiled/arithmetic_ops.cc
+++ b/cpp/src/gandiva/precompiled/arithmetic_ops.cc
@@ -96,6 +96,8 @@ BINARY_SYMMETRIC(bitwise_xor, int64, ^)
 
 MOD_OP(mod, int64, int32, int32)
 MOD_OP(mod, int64, int64, int64)
+MOD_OP(mod, uint32, uint32, uint32)
+MOD_OP(mod, uint64, uint64, uint64)
 
 PMOD_OP(pmod, int32, int32, int32)
 PMOD_OP(pmod, int64, int64, int64)
@@ -437,6 +439,8 @@ void negative_decimal(gdv_int64 context, int64_t high_bits, uint64_t low_bits,
 
 DIV(int32)
 DIV(int64)
+DIV(uint32)
+DIV(uint64)
 
 #undef DIV
 
@@ -507,6 +511,21 @@ FLOOR(float32)
 FLOOR(float64)
 
 #undef FLOOR
+#define SQRT(TYPE)                              \
+  FORCE_INLINE                                  \
+  gdv_float64 sqrt_##TYPE(gdv_##TYPE in1) {     \
+    if (in1 < 0) {                              \
+      return NAN;                               \
+    }                                           \
+    return static_cast<gdv_float64>(sqrt(in1)); \
+  }
+
+SQRT(int32)
+SQRT(int64)
+SQRT(float32)
+SQRT(float64)
+
+#undef SQRT
 
 #undef NUMERIC_FUNCTION
 #undef NUMERIC_TYPES
diff --git a/cpp/src/gandiva/precompiled/arithmetic_ops_test.cc b/cpp/src/gandiva/precompiled/arithmetic_ops_test.cc
index 5601c825aaf..9f0f0dbf42e 100644
--- a/cpp/src/gandiva/precompiled/arithmetic_ops_test.cc
+++ b/cpp/src/gandiva/precompiled/arithmetic_ops_test.cc
@@ -81,6 +81,14 @@ TEST(TestArithmeticOps, TestMod) {
   EXPECT_NEAR(mod_float64_float64(reinterpret_cast<gdv_int64>(&context), 9.2, 3.7), 1.8,
               acceptable_abs_error);
   EXPECT_FALSE(context.has_error());
+
+  context.Reset();
+  EXPECT_EQ(mod_uint32_uint32(10, 3), 1);
+  EXPECT_FALSE(context.has_error());
+
+  context.Reset();
+  EXPECT_EQ(mod_uint64_uint64(10, 3), 1);
+  EXPECT_FALSE(context.has_error());
 }
 
 TEST(TestArithmeticOps, TestNegativeDecimal) {
@@ -277,6 +285,14 @@ TEST(TestArithmeticOps, TestDiv) {
             481.0f);
   EXPECT_EQ(context.has_error(), false);
   context.Reset();
+
+  EXPECT_EQ(div_uint32_uint32(reinterpret_cast<gdv_int64>(&context), 101, 111), 0);
+  EXPECT_EQ(context.has_error(), false);
+  context.Reset();
+
+  EXPECT_EQ(div_uint64_uint64(reinterpret_cast<gdv_int64>(&context), 101, 111), 0);
+  EXPECT_EQ(context.has_error(), false);
+  context.Reset();
 }
 
 TEST(TestArithmeticOps, TestGreatestLeast) {
@@ -653,4 +669,33 @@ TEST(TestArithmeticOps, TestFloorFloatDouble) {
   EXPECT_EQ(floor_float64(-2147483647), -2147483647.0);
 }
 
+TEST(TestArithmeticOps, TestSqrtIntFloatDouble) {
+  // sqrt from int32
+  EXPECT_EQ(sqrt_int32(36), 6.0);
+  EXPECT_EQ(sqrt_int32(49), 7.0);
+  EXPECT_EQ(sqrt_int32(64), 8.0);
+  EXPECT_EQ(sqrt_int32(81), 9.0);
+
+  // sqrt from int64
+  EXPECT_EQ(sqrt_int64(4), 2.0);
+  EXPECT_EQ(sqrt_int64(9), 3.0);
+  EXPECT_EQ(sqrt_int64(64), 8.0);
+  EXPECT_EQ(sqrt_int64(81), 9.0);
+
+  // sqrt from floats
+  EXPECT_EQ(sqrt_float32(16.0f), 4.0);
+  EXPECT_EQ(sqrt_float32(49.0f), 7.0);
+  EXPECT_EQ(sqrt_float32(36.0f), 6.0);
+  EXPECT_EQ(sqrt_float32(0.0f), 0.0);
+
+  // sqrt from doubles
+  EXPECT_EQ(sqrt_float64(16.0), 4.0);
+  EXPECT_EQ(sqrt_float64(11.0889), 3.33);
+  EXPECT_EQ(sqrt_float64(1.522756), 1.234);
+  EXPECT_EQ(sqrt_float64(49.0), 7.0);
+  EXPECT_EQ(sqrt_float64(36.0), 6.0);
+  EXPECT_EQ(sqrt_float64(0.0), 0.0);
+  EXPECT_TRUE(std::isnan(sqrt_float64(-1.0)));
+}
+
 }  // namespace gandiva
diff --git a/cpp/src/gandiva/precompiled/extended_math_ops.cc b/cpp/src/gandiva/precompiled/extended_math_ops.cc
index 96fe7fb9e3e..e5bd9b48e0e 100644
--- a/cpp/src/gandiva/precompiled/extended_math_ops.cc
+++ b/cpp/src/gandiva/precompiled/extended_math_ops.cc
@@ -98,7 +98,7 @@ void set_error_for_logbase(int64_t execution_context, double base) {
       set_error_for_logbase(context, static_cast<gdv_float64>(base));                \
       return 0;                                                                      \
     }                                                                                \
-    return LOGL(value) / LOGL(base);                                                 \
+    return LOGL(value) / log_of_base;                                                \
   }
 
 LOG_WITH_BASE(int32, int32, float64)
diff --git a/cpp/src/gandiva/precompiled/types.h b/cpp/src/gandiva/precompiled/types.h
index a0a83f18dd4..3855f64fd6f 100644
--- a/cpp/src/gandiva/precompiled/types.h
+++ b/cpp/src/gandiva/precompiled/types.h
@@ -195,6 +195,8 @@ gdv_int32 mem_compare(const char* left, gdv_int32 left_len, const char* right,
                       gdv_int32 right_len);
 
 gdv_int32 mod_int64_int32(gdv_int64 left, gdv_int32 right);
+gdv_uint32 mod_uint32_uint32(gdv_uint32 left, gdv_uint32 right);
+gdv_uint64 mod_uint64_uint64(gdv_uint64 left, gdv_uint64 right);
 gdv_float64 mod_float64_float64(gdv_int64 context, gdv_float64 left, gdv_float64 right);
 
 gdv_int64 pmod_int64_int64(int64_t context, gdv_int64 left, gdv_int64 right);
@@ -220,6 +222,8 @@ gdv_int64 negative_daytimeinterval(gdv_int64 context, gdv_day_time_interval inte
 gdv_int64 divide_int64_int64(gdv_int64 context, gdv_int64 in1, gdv_int64 in2);
 
 gdv_int64 div_int64_int64(gdv_int64 context, gdv_int64 in1, gdv_int64 in2);
+gdv_uint32 div_uint32_uint32(gdv_int64 context, gdv_uint32 in1, gdv_uint32 in2);
+gdv_uint64 div_uint64_uint64(gdv_int64 context, gdv_uint64 in1, gdv_uint64 in2);
 gdv_float32 div_float32_float32(gdv_int64 context, gdv_float32 in1, gdv_float32 in2);
 gdv_float64 div_float64_float64(gdv_int64 context, gdv_float64 in1, gdv_float64 in2);
 
@@ -231,6 +235,10 @@ gdv_float32 ceiling_float32(gdv_float32 in);
 gdv_float64 ceiling_float64(gdv_float64 in);
 gdv_float32 floor_float32(gdv_float32 in);
 gdv_float64 floor_float64(gdv_float64 in);
+gdv_float64 sqrt_int32(gdv_int32 in);
+gdv_float64 sqrt_int64(gdv_int64 in);
+gdv_float64 sqrt_float32(gdv_float32 in);
+gdv_float64 sqrt_float64(gdv_float64 in);
 
 gdv_float32 round_float32(gdv_float32);
 gdv_float64 round_float64(gdv_float64);
diff --git a/cpp/src/gandiva/projector.cc b/cpp/src/gandiva/projector.cc
index e252fb2d377..54de03963f7 100644
--- a/cpp/src/gandiva/projector.cc
+++ b/cpp/src/gandiva/projector.cc
@@ -153,13 +153,13 @@ Status Projector::Make(SchemaPtr schema, const ExpressionVector& exprs,
 }
 
 Status Projector::Evaluate(const arrow::RecordBatch& batch,
-                           const ArrayDataVector& output_data_vecs) {
+                           const ArrayDataVector& output_data_vecs) const {
   return Evaluate(batch, nullptr, output_data_vecs);
 }
 
 Status Projector::Evaluate(const arrow::RecordBatch& batch,
                            const SelectionVector* selection_vector,
-                           const ArrayDataVector& output_data_vecs) {
+                           const ArrayDataVector& output_data_vecs) const {
   ARROW_RETURN_NOT_OK(ValidateEvaluateArgsCommon(batch));
 
   if (output_data_vecs.size() != output_fields_.size()) {
@@ -188,13 +188,13 @@ Status Projector::Evaluate(const arrow::RecordBatch& batch,
 }
 
 Status Projector::Evaluate(const arrow::RecordBatch& batch, arrow::MemoryPool* pool,
-                           arrow::ArrayVector* output) {
+                           arrow::ArrayVector* output) const {
   return Evaluate(batch, nullptr, pool, output);
 }
 
 Status Projector::Evaluate(const arrow::RecordBatch& batch,
                            const SelectionVector* selection_vector,
-                           arrow::MemoryPool* pool, arrow::ArrayVector* output) {
+                           arrow::MemoryPool* pool, arrow::ArrayVector* output) const {
   ARROW_RETURN_NOT_OK(ValidateEvaluateArgsCommon(batch));
   ARROW_RETURN_IF(output == nullptr, Status::Invalid("Output must be non-null."));
   ARROW_RETURN_IF(pool == nullptr, Status::Invalid("Memory pool must be non-null."));
@@ -224,7 +224,8 @@ Status Projector::Evaluate(const arrow::RecordBatch& batch,
 
 // TODO : handle complex vectors (list/map/..)
 Status Projector::AllocArrayData(const DataTypePtr& type, int64_t num_records,
-                                 arrow::MemoryPool* pool, ArrayDataPtr* array_data) {
+                                 arrow::MemoryPool* pool,
+                                 ArrayDataPtr* array_data) const {
   arrow::Status astatus;
   std::vector<std::shared_ptr<arrow::Buffer>> buffers;
 
@@ -245,7 +246,7 @@ Status Projector::AllocArrayData(const DataTypePtr& type, int64_t num_records,
   // The output vector always has a data array.
   int64_t data_len;
   if (arrow::is_primitive(type_id) || type_id == arrow::Type::DECIMAL) {
-    const auto& fw_type = dynamic_cast<const arrow::FixedWidthType&>(*type);
+    const auto& fw_type = static_cast<const arrow::FixedWidthType&>(*type);
     data_len = arrow::bit_util::BytesForBits(num_records * fw_type.bit_width());
   } else if (arrow::is_binary_like(type_id)) {
     // we don't know the expected size for varlen output vectors.
@@ -266,7 +267,7 @@ Status Projector::AllocArrayData(const DataTypePtr& type, int64_t num_records,
   return Status::OK();
 }
 
-Status Projector::ValidateEvaluateArgsCommon(const arrow::RecordBatch& batch) {
+Status Projector::ValidateEvaluateArgsCommon(const arrow::RecordBatch& batch) const {
   ARROW_RETURN_IF(!batch.schema()->Equals(*schema_),
                   Status::Invalid("Schema in RecordBatch must match schema in Make()"));
   ARROW_RETURN_IF(batch.num_rows() == 0,
@@ -277,7 +278,7 @@ Status Projector::ValidateEvaluateArgsCommon(const arrow::RecordBatch& batch) {
 
 Status Projector::ValidateArrayDataCapacity(const arrow::ArrayData& array_data,
                                             const arrow::Field& field,
-                                            int64_t num_records) {
+                                            int64_t num_records) const {
   ARROW_RETURN_IF(array_data.buffers.size() < 2,
                   Status::Invalid("ArrayData must have at least 2 buffers"));
 
@@ -305,7 +306,7 @@ Status Projector::ValidateArrayDataCapacity(const arrow::ArrayData& array_data,
         Status::Invalid("data buffer for varlen output vectors must be resizable"));
   } else if (arrow::is_primitive(type_id) || type_id == arrow::Type::DECIMAL) {
     // verify size of data buffer.
-    const auto& fw_type = dynamic_cast<const arrow::FixedWidthType&>(*field.type());
+    const auto& fw_type = static_cast<const arrow::FixedWidthType&>(*field.type());
     int64_t min_data_len =
         arrow::bit_util::BytesForBits(num_records * fw_type.bit_width());
     int64_t data_len = array_data.buffers[1]->capacity();
diff --git a/cpp/src/gandiva/projector.h b/cpp/src/gandiva/projector.h
index 8c7a5643fc4..24ec11e3eab 100644
--- a/cpp/src/gandiva/projector.h
+++ b/cpp/src/gandiva/projector.h
@@ -114,7 +114,7 @@ class GANDIVA_EXPORT Projector {
   /// \param[in] pool memory pool used to allocate output arrays (if required).
   /// \param[out] output the vector of allocated/populated arrays.
   Status Evaluate(const arrow::RecordBatch& batch, arrow::MemoryPool* pool,
-                  arrow::ArrayVector* output);
+                  arrow::ArrayVector* output) const;
 
   /// Evaluate the specified record batch, and populate the output arrays. The output
   /// arrays of sufficient capacity must be allocated by the caller.
@@ -122,7 +122,7 @@ class GANDIVA_EXPORT Projector {
   /// \param[in] batch the record batch. schema should be the same as the one in 'Make'
   /// \param[in,out] output vector of arrays, the arrays are allocated by the caller and
   ///                populated by Evaluate.
-  Status Evaluate(const arrow::RecordBatch& batch, const ArrayDataVector& output);
+  Status Evaluate(const arrow::RecordBatch& batch, const ArrayDataVector& output) const;
 
   /// Evaluate the specified record batch, and return the allocated and populated output
   /// arrays. The output arrays will be allocated from the memory pool 'pool', and added
@@ -134,7 +134,7 @@ class GANDIVA_EXPORT Projector {
   /// \param[out] output the vector of allocated/populated arrays.
   Status Evaluate(const arrow::RecordBatch& batch,
                   const SelectionVector* selection_vector, arrow::MemoryPool* pool,
-                  arrow::ArrayVector* output);
+                  arrow::ArrayVector* output) const;
 
   /// Evaluate the specified record batch, and populate the output arrays at the filtered
   /// positions. The output arrays of sufficient capacity must be allocated by the caller.
@@ -144,7 +144,8 @@ class GANDIVA_EXPORT Projector {
   /// \param[in,out] output vector of arrays, the arrays are allocated by the caller and
   ///                 populated by Evaluate.
   Status Evaluate(const arrow::RecordBatch& batch,
-                  const SelectionVector* selection_vector, const ArrayDataVector& output);
+                  const SelectionVector* selection_vector,
+                  const ArrayDataVector& output) const;
 
   std::string DumpIR();
 
@@ -160,14 +161,14 @@ class GANDIVA_EXPORT Projector {
 
   /// Allocate an ArrowData of length 'length'.
   Status AllocArrayData(const DataTypePtr& type, int64_t num_records,
-                        arrow::MemoryPool* pool, ArrayDataPtr* array_data);
+                        arrow::MemoryPool* pool, ArrayDataPtr* array_data) const;
 
   /// Validate that the ArrayData has sufficient capacity to accommodate 'num_records'.
   Status ValidateArrayDataCapacity(const arrow::ArrayData& array_data,
-                                   const arrow::Field& field, int64_t num_records);
+                                   const arrow::Field& field, int64_t num_records) const;
 
   /// Validate the common args for Evaluate() APIs.
-  Status ValidateEvaluateArgsCommon(const arrow::RecordBatch& batch);
+  Status ValidateEvaluateArgsCommon(const arrow::RecordBatch& batch) const;
 
   // Create an arrow buffer with the key for the secondary cache.
   static std::shared_ptr<arrow::Buffer> GetSecondaryCacheKey(std::string primaryKey);
diff --git a/cpp/src/gandiva/random_generator_holder.cc b/cpp/src/gandiva/random_generator_holder.cc
index 3471c87d92b..3d395741d70 100644
--- a/cpp/src/gandiva/random_generator_holder.cc
+++ b/cpp/src/gandiva/random_generator_holder.cc
@@ -39,7 +39,7 @@ Status RandomGeneratorHolder::Make(const FunctionNode& node,
       Status::Invalid("'random' function requires an int32 literal as parameter"));
 
   *holder = std::shared_ptr<RandomGeneratorHolder>(new RandomGeneratorHolder(
-      literal->is_null() ? 0 : arrow::util::get<int32_t>(literal->holder())));
+      literal->is_null() ? 0 : std::get<int32_t>(literal->holder())));
   return Status::OK();
 }
 }  // namespace gandiva
diff --git a/cpp/src/gandiva/regex_functions_holder.cc b/cpp/src/gandiva/regex_functions_holder.cc
index 21986fdc7c2..f2be7bd27eb 100644
--- a/cpp/src/gandiva/regex_functions_holder.cc
+++ b/cpp/src/gandiva/regex_functions_holder.cc
@@ -88,10 +88,10 @@ Status LikeHolder::Make(const FunctionNode& node, std::shared_ptr<LikeHolder>* h
   if (node.descriptor()->name() == "ilike") {
     regex_op.set_case_sensitive(false);  // set case-insensitive for ilike function.
 
-    return Make(arrow::util::get<std::string>(literal->holder()), holder, regex_op);
+    return Make(std::get<std::string>(literal->holder()), holder, regex_op);
   }
   if (node.children().size() == 2) {
-    return Make(arrow::util::get<std::string>(literal->holder()), holder);
+    return Make(std::get<std::string>(literal->holder()), holder);
   } else {
     auto escape_char = dynamic_cast<LiteralNode*>(node.children().at(2).get());
     ARROW_RETURN_IF(
@@ -103,8 +103,8 @@ Status LikeHolder::Make(const FunctionNode& node, std::shared_ptr<LikeHolder>* h
         !IsArrowStringLiteral(escape_char_type),
         Status::Invalid(
             "'like' function requires a string literal as the third parameter"));
-    return Make(arrow::util::get<std::string>(literal->holder()),
-                arrow::util::get<std::string>(escape_char->holder()), holder);
+    return Make(std::get<std::string>(literal->holder()),
+                std::get<std::string>(escape_char->holder()), holder);
   }
 }
 
@@ -173,7 +173,7 @@ Status ReplaceHolder::Make(const FunctionNode& node,
       Status::Invalid(
           "'replace' function requires a string literal as the second parameter"));
 
-  return Make(arrow::util::get<std::string>(literal->holder()), holder);
+  return Make(std::get<std::string>(literal->holder()), holder);
 }
 
 Status ReplaceHolder::Make(const std::string& sql_pattern,
@@ -203,7 +203,7 @@ Status ExtractHolder::Make(const FunctionNode& node,
       literal == nullptr || !IsArrowStringLiteral(literal->return_type()->id()),
       Status::Invalid("'extract' function requires a literal as the second parameter"));
 
-  return ExtractHolder::Make(arrow::util::get<std::string>(literal->holder()), holder);
+  return ExtractHolder::Make(std::get<std::string>(literal->holder()), holder);
 }
 
 Status ExtractHolder::Make(const std::string& sql_pattern,
diff --git a/cpp/src/gandiva/symbols.map b/cpp/src/gandiva/symbols.map
index 77f00010682..dbce381f3e2 100644
--- a/cpp/src/gandiva/symbols.map
+++ b/cpp/src/gandiva/symbols.map
@@ -25,9 +25,9 @@
 
     extern "C++" {
       # devtoolset or -static-libstdc++ - the Red Hat devtoolset statically
-      # links c++11 symbols into binaries so that the result may be executed on
+      # links c++1x symbols into binaries so that the result may be executed on
       # a system with an older libstdc++ which doesn't include the necessary
-      # c++11 symbols.
+      # c++1x symbols.
       std::*;
       *std::__once_call*;
     };
diff --git a/cpp/src/gandiva/tests/micro_benchmarks.cc b/cpp/src/gandiva/tests/micro_benchmarks.cc
index 35c77e3dd82..ed77f8ae504 100644
--- a/cpp/src/gandiva/tests/micro_benchmarks.cc
+++ b/cpp/src/gandiva/tests/micro_benchmarks.cc
@@ -18,6 +18,8 @@
 #include <stdlib.h>
 #include "arrow/memory_pool.h"
 #include "arrow/status.h"
+#include "arrow/testing/gtest_util.h"
+#include "arrow/type_fwd.h"
 #include "benchmark/benchmark.h"
 #include "gandiva/decimal_type_util.h"
 #include "gandiva/projector.h"
@@ -249,6 +251,30 @@ static void TimedTestAllocs(benchmark::State& state) {
       schema, evaluator, data_generator, pool_, 1 * MILLION, 16 * THOUSAND, state);
   ASSERT_TRUE(status.ok());
 }
+
+static void TimedTestOutputStringAllocs(benchmark::State& state) {
+  // schema for input fields
+  auto field_a = field("abcdefghijklmnopqrstuvwxyz", arrow::utf8());
+  auto schema = arrow::schema({field_a});
+  auto pool_ = arrow::default_memory_pool();
+  // output field
+  auto field_res = field("res", utf8());
+
+  // Build expression
+  auto node_a = TreeExprBuilder::MakeField(field_a);
+  auto upper = TreeExprBuilder::MakeFunction("upper", {node_a}, utf8());
+  auto length = TreeExprBuilder::MakeFunction("octet_length", {upper}, int32());
+  auto expr = TreeExprBuilder::MakeExpression(upper, field_res);
+
+  std::shared_ptr<Projector> projector;
+  ASSERT_OK(Projector::Make(schema, {expr}, TestConfiguration(), &projector));
+
+  FastUtf8DataGenerator data_generator(64);
+  ProjectEvaluator evaluator(projector);
+
+  ASSERT_OK((TimedEvaluate<arrow::StringType, std::string>(
+      schema, evaluator, data_generator, pool_, 1 * MILLION, 16 * THOUSAND, state)));
+}
 // following two tests are for benchmark optimization of
 // in expr. will be used in follow-up PRs to optimize in expr.
 
@@ -442,6 +468,7 @@ BENCHMARK(TimedTestFilterLike)->MinTime(1.0)->Unit(benchmark::kMicrosecond);
 BENCHMARK(TimedTestCastFloatFromString)->MinTime(1.0)->Unit(benchmark::kMicrosecond);
 BENCHMARK(TimedTestCastIntFromString)->MinTime(1.0)->Unit(benchmark::kMicrosecond);
 BENCHMARK(TimedTestAllocs)->MinTime(1.0)->Unit(benchmark::kMicrosecond);
+BENCHMARK(TimedTestOutputStringAllocs)->MinTime(1.0)->Unit(benchmark::kMicrosecond);
 BENCHMARK(TimedTestMultiOr)->MinTime(1.0)->Unit(benchmark::kMicrosecond);
 BENCHMARK(TimedTestInExpr)->MinTime(1.0)->Unit(benchmark::kMicrosecond);
 BENCHMARK(DecimalAdd2Fast)->MinTime(1.0)->Unit(benchmark::kMicrosecond);
diff --git a/cpp/src/gandiva/tests/projector_test.cc b/cpp/src/gandiva/tests/projector_test.cc
index 1685a9bde05..b8e7d8d962d 100644
--- a/cpp/src/gandiva/tests/projector_test.cc
+++ b/cpp/src/gandiva/tests/projector_test.cc
@@ -901,6 +901,41 @@ TEST_F(TestProjector, TestModZero) {
   EXPECT_ARROW_ARRAY_EQUALS(exp_mod, outputs.at(0));
 }
 
+TEST_F(TestProjector, TestModUnsigned) {
+  // schema for input fields
+  auto field0 = field("f0", arrow::uint64());
+  auto field1 = field("f1", arrow::uint64());
+  auto schema = arrow::schema({field0, field1});
+
+  // output fields
+  auto field_mod = field("mod", arrow::uint64());
+
+  // Build expression
+  auto mod_expr = TreeExprBuilder::MakeExpression("mod", {field0, field1}, field_mod);
+
+  std::shared_ptr<Projector> projector;
+  auto status = Projector::Make(schema, {mod_expr}, TestConfiguration(), &projector);
+  EXPECT_TRUE(status.ok()) << status.message();
+
+  // Create a row-batch with some sample data
+  int num_records = 4;
+  auto array0 = MakeArrowArrayUint64({2, 3, 4, 5}, {true, true, true, true});
+  auto array1 = MakeArrowArrayUint64({1, 2, 2, 3}, {true, true, false, true});
+  // expected output
+  auto exp_mod = MakeArrowArrayUint64({0, 1, 0, 2}, {true, true, false, true});
+
+  // prepare input record batch
+  auto in_batch = arrow::RecordBatch::Make(schema, num_records, {array0, array1});
+
+  // Evaluate expression
+  arrow::ArrayVector outputs;
+  status = projector->Evaluate(*in_batch, pool_, &outputs);
+  EXPECT_TRUE(status.ok()) << status.message();
+
+  // Validate results
+  EXPECT_ARROW_ARRAY_EQUALS(exp_mod, outputs.at(0));
+}
+
 TEST_F(TestProjector, TestPmod) {
   // schema for input fields
   auto field0 = field("f0", arrow::int64());
@@ -3385,4 +3420,85 @@ TEST_F(TestProjector, TestMaskDefault) {
   EXPECT_ARROW_ARRAY_EQUALS(exp_mask, outputs.at(0));
 }
 
+TEST_F(TestProjector, TestSqrtInt32) {
+  auto in_field = field("in", arrow::int32());
+  auto schema = arrow::schema({in_field});
+  auto out_field = field("out", arrow::float64());
+  auto sqrt = TreeExprBuilder::MakeExpression("sqrt", {in_field}, out_field);
+
+  std::shared_ptr<Projector> projector;
+  ARROW_EXPECT_OK(Projector::Make(schema, {sqrt}, TestConfiguration(), &projector));
+
+  int num_records = 4;
+  auto array = MakeArrowArrayInt32({1, 4, 9, 16}, {true, true, true, true});
+  auto in_batch = arrow::RecordBatch::Make(schema, num_records, {array});
+  auto out = MakeArrowArrayFloat64({1.0, 2.0, 3.0, 4.0}, {true, true, true, true});
+
+  arrow::ArrayVector outs;
+  ARROW_EXPECT_OK(projector->Evaluate(*in_batch, pool_, &outs));
+
+  EXPECT_ARROW_ARRAY_EQUALS(out, outs.at(0));
+}
+
+TEST_F(TestProjector, TestSqrtInt64) {
+  auto in_field = field("in", arrow::int64());
+  auto schema = arrow::schema({in_field});
+  auto out_field = field("out", arrow::float64());
+  auto sqrt = TreeExprBuilder::MakeExpression("sqrt", {in_field}, out_field);
+
+  std::shared_ptr<Projector> projector;
+  ARROW_EXPECT_OK(Projector::Make(schema, {sqrt}, TestConfiguration(), &projector));
+
+  int num_records = 4;
+  auto array = MakeArrowArrayInt64({1, 9, 16, 25}, {true, true, true, true});
+  auto in_batch = arrow::RecordBatch::Make(schema, num_records, {array});
+  auto out = MakeArrowArrayFloat64({1.0, 3.0, 4.0, 5.0}, {true, true, true, true});
+
+  arrow::ArrayVector outs;
+  ARROW_EXPECT_OK(projector->Evaluate(*in_batch, pool_, &outs));
+
+  EXPECT_ARROW_ARRAY_EQUALS(out, outs.at(0));
+}
+
+TEST_F(TestProjector, TestSqrtFloat32) {
+  auto in_field = field("in", arrow::float32());
+  auto schema = arrow::schema({in_field});
+  auto out_field = field("out", arrow::float64());
+  auto sqrt = TreeExprBuilder::MakeExpression("sqrt", {in_field}, out_field);
+
+  std::shared_ptr<Projector> projector;
+  ARROW_EXPECT_OK(Projector::Make(schema, {sqrt}, TestConfiguration(), &projector));
+
+  int num_records = 4;
+  auto array =
+      MakeArrowArrayFloat32({1.0f, 4.0f, 25.0f, 36.0f}, {true, true, true, true});
+  auto in_batch = arrow::RecordBatch::Make(schema, num_records, {array});
+  auto out = MakeArrowArrayFloat64({1.0, 2.0, 5.0, 6.0}, {true, true, true, true});
+
+  arrow::ArrayVector outs;
+  ARROW_EXPECT_OK(projector->Evaluate(*in_batch, pool_, &outs));
+
+  EXPECT_ARROW_ARRAY_EQUALS(out, outs.at(0));
+}
+
+TEST_F(TestProjector, TestSqrtFloat64) {
+  auto in_field = field("in", arrow::float64());
+  auto schema = arrow::schema({in_field});
+  auto out_field = field("out", arrow::float64());
+  auto sqrt = TreeExprBuilder::MakeExpression("sqrt", {in_field}, out_field);
+
+  std::shared_ptr<Projector> projector;
+  ARROW_EXPECT_OK(Projector::Make(schema, {sqrt}, TestConfiguration(), &projector));
+
+  int num_records = 4;
+  auto array = MakeArrowArrayFloat64({1.0, 4.0, 9.0, 16.0}, {true, true, true, true});
+  auto in_batch = arrow::RecordBatch::Make(schema, num_records, {array});
+  auto out = MakeArrowArrayFloat64({1.0, 2.0, 3.0, 4.0}, {true, true, true, true});
+
+  arrow::ArrayVector outs;
+  ARROW_EXPECT_OK(projector->Evaluate(*in_batch, pool_, &outs));
+
+  EXPECT_ARROW_ARRAY_EQUALS(out, outs.at(0));
+}
+
 }  // namespace gandiva
diff --git a/cpp/src/gandiva/to_date_holder.cc b/cpp/src/gandiva/to_date_holder.cc
index 1b7e2864f60..27a16d17799 100644
--- a/cpp/src/gandiva/to_date_holder.cc
+++ b/cpp/src/gandiva/to_date_holder.cc
@@ -45,7 +45,7 @@ Status ToDateHolder::Make(const FunctionNode& node,
     return Status::Invalid(
         "'to_date' function requires a string literal as the second parameter");
   }
-  auto pattern = arrow::util::get<std::string>(literal_pattern->holder());
+  auto pattern = std::get<std::string>(literal_pattern->holder());
 
   int suppress_errors = 0;
   if (node.children().size() == 3) {
@@ -63,7 +63,7 @@ Status ToDateHolder::Make(const FunctionNode& node,
           "The (optional) third parameter to 'to_date' function needs to an integer "
           "literal to indicate whether to suppress the error");
     }
-    suppress_errors = arrow::util::get<int>(literal_suppress_errors->holder());
+    suppress_errors = std::get<int>(literal_suppress_errors->holder());
   }
 
   return Make(pattern, suppress_errors, holder);
diff --git a/cpp/src/generated/File_generated.h b/cpp/src/generated/File_generated.h
index 06953c4a040..5b219f1eb0e 100644
--- a/cpp/src/generated/File_generated.h
+++ b/cpp/src/generated/File_generated.h
@@ -26,15 +26,18 @@ FLATBUFFERS_MANUALLY_ALIGNED_STRUCT(8) Block FLATBUFFERS_FINAL_CLASS {
   int64_t bodyLength_;
 
  public:
-  Block() {
-    memset(static_cast<void *>(this), 0, sizeof(Block));
+  Block()
+      : offset_(0),
+        metaDataLength_(0),
+        padding0__(0),
+        bodyLength_(0) {
+    (void)padding0__;
   }
   Block(int64_t _offset, int32_t _metaDataLength, int64_t _bodyLength)
       : offset_(flatbuffers::EndianScalar(_offset)),
         metaDataLength_(flatbuffers::EndianScalar(_metaDataLength)),
         padding0__(0),
         bodyLength_(flatbuffers::EndianScalar(_bodyLength)) {
-    (void)padding0__;
   }
   /// Index to the start of the RecordBlock (note this is past the Message header)
   int64_t offset() const {
@@ -119,7 +122,6 @@ struct FooterBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  FooterBuilder &operator=(const FooterBuilder &);
   flatbuffers::Offset<Footer> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Footer>(end);
diff --git a/cpp/src/generated/Message_generated.h b/cpp/src/generated/Message_generated.h
index 1c51c6eafb3..d0c71e04294 100644
--- a/cpp/src/generated/Message_generated.h
+++ b/cpp/src/generated/Message_generated.h
@@ -188,8 +188,9 @@ FLATBUFFERS_MANUALLY_ALIGNED_STRUCT(8) FieldNode FLATBUFFERS_FINAL_CLASS {
   int64_t null_count_;
 
  public:
-  FieldNode() {
-    memset(static_cast<void *>(this), 0, sizeof(FieldNode));
+  FieldNode()
+      : length_(0),
+        null_count_(0) {
   }
   FieldNode(int64_t _length, int64_t _null_count)
       : length_(flatbuffers::EndianScalar(_length)),
@@ -218,7 +219,8 @@ struct BodyCompression FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
     VT_CODEC = 4,
     VT_METHOD = 6
   };
-  /// Compressor library
+  /// Compressor library.
+  /// For LZ4_FRAME, each compressed buffer must consist of a single frame.
   org::apache::arrow::flatbuf::CompressionType codec() const {
     return static_cast<org::apache::arrow::flatbuf::CompressionType>(GetField<int8_t>(VT_CODEC, 0));
   }
@@ -248,7 +250,6 @@ struct BodyCompressionBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  BodyCompressionBuilder &operator=(const BodyCompressionBuilder &);
   flatbuffers::Offset<BodyCompression> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<BodyCompression>(end);
@@ -332,7 +333,6 @@ struct RecordBatchBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  RecordBatchBuilder &operator=(const RecordBatchBuilder &);
   flatbuffers::Offset<RecordBatch> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<RecordBatch>(end);
@@ -422,7 +422,6 @@ struct DictionaryBatchBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  DictionaryBatchBuilder &operator=(const DictionaryBatchBuilder &);
   flatbuffers::Offset<DictionaryBatch> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<DictionaryBatch>(end);
@@ -539,7 +538,6 @@ struct MessageBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  MessageBuilder &operator=(const MessageBuilder &);
   flatbuffers::Offset<Message> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Message>(end);
diff --git a/cpp/src/generated/Schema_generated.h b/cpp/src/generated/Schema_generated.h
index 79ffa661e4a..89204c894aa 100644
--- a/cpp/src/generated/Schema_generated.h
+++ b/cpp/src/generated/Schema_generated.h
@@ -56,6 +56,9 @@ struct FixedSizeBinaryBuilder;
 struct Bool;
 struct BoolBuilder;
 
+struct RunEndEncoded;
+struct RunEndEncodedBuilder;
+
 struct Decimal;
 struct DecimalBuilder;
 
@@ -382,11 +385,12 @@ enum class Type : uint8_t {
   LargeBinary = 19,
   LargeUtf8 = 20,
   LargeList = 21,
+  RunEndEncoded = 22,
   MIN = NONE,
-  MAX = LargeList
+  MAX = RunEndEncoded
 };
 
-inline const Type (&EnumValuesType())[22] {
+inline const Type (&EnumValuesType())[23] {
   static const Type values[] = {
     Type::NONE,
     Type::Null,
@@ -409,13 +413,14 @@ inline const Type (&EnumValuesType())[22] {
     Type::Duration,
     Type::LargeBinary,
     Type::LargeUtf8,
-    Type::LargeList
+    Type::LargeList,
+    Type::RunEndEncoded
   };
   return values;
 }
 
 inline const char * const *EnumNamesType() {
-  static const char * const names[23] = {
+  static const char * const names[24] = {
     "NONE",
     "Null",
     "Int",
@@ -438,13 +443,14 @@ inline const char * const *EnumNamesType() {
     "LargeBinary",
     "LargeUtf8",
     "LargeList",
+    "RunEndEncoded",
     nullptr
   };
   return names;
 }
 
 inline const char *EnumNameType(Type e) {
-  if (flatbuffers::IsOutRange(e, Type::NONE, Type::LargeList)) return "";
+  if (flatbuffers::IsOutRange(e, Type::NONE, Type::RunEndEncoded)) return "";
   const size_t index = static_cast<size_t>(e);
   return EnumNamesType()[index];
 }
@@ -537,6 +543,10 @@ template<> struct TypeTraits<org::apache::arrow::flatbuf::LargeList> {
   static const Type enum_value = Type::LargeList;
 };
 
+template<> struct TypeTraits<org::apache::arrow::flatbuf::RunEndEncoded> {
+  static const Type enum_value = Type::RunEndEncoded;
+};
+
 bool VerifyType(flatbuffers::Verifier &verifier, const void *obj, Type type);
 bool VerifyTypeVector(flatbuffers::Verifier &verifier, const flatbuffers::Vector<flatbuffers::Offset<void>> *values, const flatbuffers::Vector<uint8_t> *types);
 
@@ -612,8 +622,9 @@ FLATBUFFERS_MANUALLY_ALIGNED_STRUCT(8) Buffer FLATBUFFERS_FINAL_CLASS {
   int64_t length_;
 
  public:
-  Buffer() {
-    memset(static_cast<void *>(this), 0, sizeof(Buffer));
+  Buffer()
+      : offset_(0),
+        length_(0) {
   }
   Buffer(int64_t _offset, int64_t _length)
       : offset_(flatbuffers::EndianScalar(_offset)),
@@ -652,7 +663,6 @@ struct NullBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  NullBuilder &operator=(const NullBuilder &);
   flatbuffers::Offset<Null> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Null>(end);
@@ -685,7 +695,6 @@ struct Struct_Builder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  Struct_Builder &operator=(const Struct_Builder &);
   flatbuffers::Offset<Struct_> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Struct_>(end);
@@ -715,7 +724,6 @@ struct ListBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  ListBuilder &operator=(const ListBuilder &);
   flatbuffers::Offset<List> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<List>(end);
@@ -747,7 +755,6 @@ struct LargeListBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  LargeListBuilder &operator=(const LargeListBuilder &);
   flatbuffers::Offset<LargeList> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<LargeList>(end);
@@ -788,7 +795,6 @@ struct FixedSizeListBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  FixedSizeListBuilder &operator=(const FixedSizeListBuilder &);
   flatbuffers::Offset<FixedSizeList> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<FixedSizeList>(end);
@@ -856,7 +862,6 @@ struct MapBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  MapBuilder &operator=(const MapBuilder &);
   flatbuffers::Offset<Map> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Map>(end);
@@ -911,7 +916,6 @@ struct UnionBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  UnionBuilder &operator=(const UnionBuilder &);
   flatbuffers::Offset<Union> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Union>(end);
@@ -974,7 +978,6 @@ struct IntBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  IntBuilder &operator=(const IntBuilder &);
   flatbuffers::Offset<Int> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Int>(end);
@@ -1018,7 +1021,6 @@ struct FloatingPointBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  FloatingPointBuilder &operator=(const FloatingPointBuilder &);
   flatbuffers::Offset<FloatingPoint> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<FloatingPoint>(end);
@@ -1051,7 +1053,6 @@ struct Utf8Builder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  Utf8Builder &operator=(const Utf8Builder &);
   flatbuffers::Offset<Utf8> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Utf8>(end);
@@ -1082,7 +1083,6 @@ struct BinaryBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  BinaryBuilder &operator=(const BinaryBuilder &);
   flatbuffers::Offset<Binary> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Binary>(end);
@@ -1114,7 +1114,6 @@ struct LargeUtf8Builder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  LargeUtf8Builder &operator=(const LargeUtf8Builder &);
   flatbuffers::Offset<LargeUtf8> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<LargeUtf8>(end);
@@ -1146,7 +1145,6 @@ struct LargeBinaryBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  LargeBinaryBuilder &operator=(const LargeBinaryBuilder &);
   flatbuffers::Offset<LargeBinary> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<LargeBinary>(end);
@@ -1187,7 +1185,6 @@ struct FixedSizeBinaryBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  FixedSizeBinaryBuilder &operator=(const FixedSizeBinaryBuilder &);
   flatbuffers::Offset<FixedSizeBinary> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<FixedSizeBinary>(end);
@@ -1219,7 +1216,6 @@ struct BoolBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  BoolBuilder &operator=(const BoolBuilder &);
   flatbuffers::Offset<Bool> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Bool>(end);
@@ -1233,6 +1229,40 @@ inline flatbuffers::Offset<Bool> CreateBool(
   return builder_.Finish();
 }
 
+/// Contains two child arrays, run_ends and values.
+/// The run_ends child array must be a 16/32/64-bit integer array
+/// which encodes the indices at which the run with the value in 
+/// each corresponding index in the values child array ends.
+/// Like list/struct types, the value array can be of any type.
+struct RunEndEncoded FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
+  typedef RunEndEncodedBuilder Builder;
+  bool Verify(flatbuffers::Verifier &verifier) const {
+    return VerifyTableStart(verifier) &&
+           verifier.EndTable();
+  }
+};
+
+struct RunEndEncodedBuilder {
+  typedef RunEndEncoded Table;
+  flatbuffers::FlatBufferBuilder &fbb_;
+  flatbuffers::uoffset_t start_;
+  explicit RunEndEncodedBuilder(flatbuffers::FlatBufferBuilder &_fbb)
+        : fbb_(_fbb) {
+    start_ = fbb_.StartTable();
+  }
+  flatbuffers::Offset<RunEndEncoded> Finish() {
+    const auto end = fbb_.EndTable(start_);
+    auto o = flatbuffers::Offset<RunEndEncoded>(end);
+    return o;
+  }
+};
+
+inline flatbuffers::Offset<RunEndEncoded> CreateRunEndEncoded(
+    flatbuffers::FlatBufferBuilder &_fbb) {
+  RunEndEncodedBuilder builder_(_fbb);
+  return builder_.Finish();
+}
+
 /// Exact decimal value represented as an integer value in two's
 /// complement. Currently only 128-bit (16-byte) and 256-bit (32-byte) integers
 /// are used. The representation uses the endianness indicated
@@ -1283,7 +1313,6 @@ struct DecimalBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  DecimalBuilder &operator=(const DecimalBuilder &);
   flatbuffers::Offset<Decimal> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Decimal>(end);
@@ -1335,7 +1364,6 @@ struct DateBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  DateBuilder &operator=(const DateBuilder &);
   flatbuffers::Offset<Date> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Date>(end);
@@ -1399,7 +1427,6 @@ struct TimeBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  TimeBuilder &operator=(const TimeBuilder &);
   flatbuffers::Offset<Time> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Time>(end);
@@ -1567,7 +1594,6 @@ struct TimestampBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  TimestampBuilder &operator=(const TimestampBuilder &);
   flatbuffers::Offset<Timestamp> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Timestamp>(end);
@@ -1622,7 +1648,6 @@ struct IntervalBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  IntervalBuilder &operator=(const IntervalBuilder &);
   flatbuffers::Offset<Interval> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Interval>(end);
@@ -1664,7 +1689,6 @@ struct DurationBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  DurationBuilder &operator=(const DurationBuilder &);
   flatbuffers::Offset<Duration> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Duration>(end);
@@ -1719,7 +1743,6 @@ struct KeyValueBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  KeyValueBuilder &operator=(const KeyValueBuilder &);
   flatbuffers::Offset<KeyValue> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<KeyValue>(end);
@@ -1812,7 +1835,6 @@ struct DictionaryEncodingBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  DictionaryEncodingBuilder &operator=(const DictionaryEncodingBuilder &);
   flatbuffers::Offset<DictionaryEncoding> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<DictionaryEncoding>(end);
@@ -1927,6 +1949,9 @@ struct Field FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
   const org::apache::arrow::flatbuf::LargeList *type_as_LargeList() const {
     return type_type() == org::apache::arrow::flatbuf::Type::LargeList ? static_cast<const org::apache::arrow::flatbuf::LargeList *>(type()) : nullptr;
   }
+  const org::apache::arrow::flatbuf::RunEndEncoded *type_as_RunEndEncoded() const {
+    return type_type() == org::apache::arrow::flatbuf::Type::RunEndEncoded ? static_cast<const org::apache::arrow::flatbuf::RunEndEncoded *>(type()) : nullptr;
+  }
   /// Present only if the field is dictionary encoded.
   const org::apache::arrow::flatbuf::DictionaryEncoding *dictionary() const {
     return GetPointer<const org::apache::arrow::flatbuf::DictionaryEncoding *>(VT_DICTIONARY);
@@ -2044,6 +2069,10 @@ template<> inline const org::apache::arrow::flatbuf::LargeList *Field::type_as<o
   return type_as_LargeList();
 }
 
+template<> inline const org::apache::arrow::flatbuf::RunEndEncoded *Field::type_as<org::apache::arrow::flatbuf::RunEndEncoded>() const {
+  return type_as_RunEndEncoded();
+}
+
 struct FieldBuilder {
   typedef Field Table;
   flatbuffers::FlatBufferBuilder &fbb_;
@@ -2073,7 +2102,6 @@ struct FieldBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  FieldBuilder &operator=(const FieldBuilder &);
   flatbuffers::Offset<Field> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Field>(end);
@@ -2185,7 +2213,6 @@ struct SchemaBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  SchemaBuilder &operator=(const SchemaBuilder &);
   flatbuffers::Offset<Schema> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Schema>(end);
@@ -2313,6 +2340,10 @@ inline bool VerifyType(flatbuffers::Verifier &verifier, const void *obj, Type ty
       auto ptr = reinterpret_cast<const org::apache::arrow::flatbuf::LargeList *>(obj);
       return verifier.VerifyTable(ptr);
     }
+    case Type::RunEndEncoded: {
+      auto ptr = reinterpret_cast<const org::apache::arrow::flatbuf::RunEndEncoded *>(obj);
+      return verifier.VerifyTable(ptr);
+    }
     default: return true;
   }
 }
diff --git a/cpp/src/generated/SparseTensor_generated.h b/cpp/src/generated/SparseTensor_generated.h
index a66269182ea..b3fa2dbff46 100644
--- a/cpp/src/generated/SparseTensor_generated.h
+++ b/cpp/src/generated/SparseTensor_generated.h
@@ -204,7 +204,6 @@ struct SparseTensorIndexCOOBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  SparseTensorIndexCOOBuilder &operator=(const SparseTensorIndexCOOBuilder &);
   flatbuffers::Offset<SparseTensorIndexCOO> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<SparseTensorIndexCOO>(end);
@@ -339,7 +338,6 @@ struct SparseMatrixIndexCSXBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  SparseMatrixIndexCSXBuilder &operator=(const SparseMatrixIndexCSXBuilder &);
   flatbuffers::Offset<SparseMatrixIndexCSX> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<SparseMatrixIndexCSX>(end);
@@ -494,7 +492,6 @@ struct SparseTensorIndexCSFBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  SparseTensorIndexCSFBuilder &operator=(const SparseTensorIndexCSFBuilder &);
   flatbuffers::Offset<SparseTensorIndexCSF> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<SparseTensorIndexCSF>(end);
@@ -626,6 +623,9 @@ struct SparseTensor FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
   const org::apache::arrow::flatbuf::LargeList *type_as_LargeList() const {
     return type_type() == org::apache::arrow::flatbuf::Type::LargeList ? static_cast<const org::apache::arrow::flatbuf::LargeList *>(type()) : nullptr;
   }
+  const org::apache::arrow::flatbuf::RunEndEncoded *type_as_RunEndEncoded() const {
+    return type_type() == org::apache::arrow::flatbuf::Type::RunEndEncoded ? static_cast<const org::apache::arrow::flatbuf::RunEndEncoded *>(type()) : nullptr;
+  }
   /// The dimensions of the tensor, optionally named.
   const flatbuffers::Vector<flatbuffers::Offset<org::apache::arrow::flatbuf::TensorDim>> *shape() const {
     return GetPointer<const flatbuffers::Vector<flatbuffers::Offset<org::apache::arrow::flatbuf::TensorDim>> *>(VT_SHAPE);
@@ -756,6 +756,10 @@ template<> inline const org::apache::arrow::flatbuf::LargeList *SparseTensor::ty
   return type_as_LargeList();
 }
 
+template<> inline const org::apache::arrow::flatbuf::RunEndEncoded *SparseTensor::type_as<org::apache::arrow::flatbuf::RunEndEncoded>() const {
+  return type_as_RunEndEncoded();
+}
+
 template<> inline const org::apache::arrow::flatbuf::SparseTensorIndexCOO *SparseTensor::sparseIndex_as<org::apache::arrow::flatbuf::SparseTensorIndexCOO>() const {
   return sparseIndex_as_SparseTensorIndexCOO();
 }
@@ -797,7 +801,6 @@ struct SparseTensorBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  SparseTensorBuilder &operator=(const SparseTensorBuilder &);
   flatbuffers::Offset<SparseTensor> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<SparseTensor>(end);
diff --git a/cpp/src/generated/Tensor_generated.h b/cpp/src/generated/Tensor_generated.h
index 062a3b91aaa..572b922e20f 100644
--- a/cpp/src/generated/Tensor_generated.h
+++ b/cpp/src/generated/Tensor_generated.h
@@ -59,7 +59,6 @@ struct TensorDimBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  TensorDimBuilder &operator=(const TensorDimBuilder &);
   flatbuffers::Offset<TensorDim> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<TensorDim>(end);
@@ -169,6 +168,9 @@ struct Tensor FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
   const org::apache::arrow::flatbuf::LargeList *type_as_LargeList() const {
     return type_type() == org::apache::arrow::flatbuf::Type::LargeList ? static_cast<const org::apache::arrow::flatbuf::LargeList *>(type()) : nullptr;
   }
+  const org::apache::arrow::flatbuf::RunEndEncoded *type_as_RunEndEncoded() const {
+    return type_type() == org::apache::arrow::flatbuf::Type::RunEndEncoded ? static_cast<const org::apache::arrow::flatbuf::RunEndEncoded *>(type()) : nullptr;
+  }
   /// The dimensions of the tensor, optionally named
   const flatbuffers::Vector<flatbuffers::Offset<org::apache::arrow::flatbuf::TensorDim>> *shape() const {
     return GetPointer<const flatbuffers::Vector<flatbuffers::Offset<org::apache::arrow::flatbuf::TensorDim>> *>(VT_SHAPE);
@@ -281,6 +283,10 @@ template<> inline const org::apache::arrow::flatbuf::LargeList *Tensor::type_as<
   return type_as_LargeList();
 }
 
+template<> inline const org::apache::arrow::flatbuf::RunEndEncoded *Tensor::type_as<org::apache::arrow::flatbuf::RunEndEncoded>() const {
+  return type_as_RunEndEncoded();
+}
+
 struct TensorBuilder {
   typedef Tensor Table;
   flatbuffers::FlatBufferBuilder &fbb_;
@@ -304,7 +310,6 @@ struct TensorBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  TensorBuilder &operator=(const TensorBuilder &);
   flatbuffers::Offset<Tensor> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Tensor>(end);
diff --git a/cpp/src/generated/feather_generated.h b/cpp/src/generated/feather_generated.h
index b925eb2bc6a..3696188b0f5 100644
--- a/cpp/src/generated/feather_generated.h
+++ b/cpp/src/generated/feather_generated.h
@@ -324,7 +324,6 @@ struct PrimitiveArrayBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PrimitiveArrayBuilder &operator=(const PrimitiveArrayBuilder &);
   flatbuffers::Offset<PrimitiveArray> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PrimitiveArray>(end);
@@ -387,7 +386,6 @@ struct CategoryMetadataBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  CategoryMetadataBuilder &operator=(const CategoryMetadataBuilder &);
   flatbuffers::Offset<CategoryMetadata> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<CategoryMetadata>(end);
@@ -442,7 +440,6 @@ struct TimestampMetadataBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  TimestampMetadataBuilder &operator=(const TimestampMetadataBuilder &);
   flatbuffers::Offset<TimestampMetadata> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<TimestampMetadata>(end);
@@ -487,7 +484,6 @@ struct DateMetadataBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  DateMetadataBuilder &operator=(const DateMetadataBuilder &);
   flatbuffers::Offset<DateMetadata> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<DateMetadata>(end);
@@ -527,7 +523,6 @@ struct TimeMetadataBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  TimeMetadataBuilder &operator=(const TimeMetadataBuilder &);
   flatbuffers::Offset<TimeMetadata> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<TimeMetadata>(end);
@@ -635,7 +630,6 @@ struct ColumnBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  ColumnBuilder &operator=(const ColumnBuilder &);
   flatbuffers::Offset<Column> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<Column>(end);
@@ -745,7 +739,6 @@ struct CTableBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  CTableBuilder &operator=(const CTableBuilder &);
   flatbuffers::Offset<CTable> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<CTable>(end);
diff --git a/cpp/src/parquet/CMakeLists.txt b/cpp/src/parquet/CMakeLists.txt
index 542fa5bc083..773ef2a6dde 100644
--- a/cpp/src/parquet/CMakeLists.txt
+++ b/cpp/src/parquet/CMakeLists.txt
@@ -106,9 +106,11 @@ endfunction()
 
 if(ARROW_BUILD_STATIC)
   set(PARQUET_STATIC_LINK_LIBS arrow_static ${ARROW_STATIC_LINK_LIBS})
+  set(PARQUET_STATIC_INSTALL_INTERFACE_LIBS Arrow::arrow_static)
   set(ARROW_LIBRARIES_FOR_STATIC_TESTS arrow_testing_static arrow_static
                                        ${ARROW_STATIC_LINK_LIBS})
 else()
+  set(PARQUET_STATIC_INSTALL_INTERFACE_LIBS)
   set(ARROW_LIBRARIES_FOR_STATIC_TESTS arrow_testing_shared arrow_shared)
 endif()
 
@@ -164,6 +166,7 @@ set(PARQUET_SRCS
     level_conversion.cc
     metadata.cc
     murmur3.cc
+    page_index.cc
     "${ARROW_SOURCE_DIR}/src/generated/parquet_constants.cpp"
     "${ARROW_SOURCE_DIR}/src/generated/parquet_types.cpp"
     platform.cc
@@ -178,17 +181,36 @@ set(PARQUET_SRCS
 if(ARROW_HAVE_RUNTIME_AVX2)
   # AVX2 is used as a proxy for BMI2.
   list(APPEND PARQUET_SRCS level_comparison_avx2.cc level_conversion_bmi2.cc)
+  # We need CMAKE_CXX_FLAGS_RELEASE here to prevent the one-definition-rule
+  # violation with -DCMAKE_BUILD_TYPE=MinSizeRel. CMAKE_CXX_FLAGS_RELEASE
+  # will force inlining as much as possible.
+  # See also: ARROW-15664 and ARROW-15678
+  #
+  # TODO: Use COMPILE_OPTIONS instead of COMPILE_FLAGS when we require
+  # CMake 3.11 or later.
+  set(AVX2_FLAGS "${ARROW_AVX2_FLAG}")
+  if(NOT MSVC)
+    string(APPEND AVX2_FLAGS " ${CMAKE_CXX_FLAGS_RELEASE}")
+  endif()
   set_source_files_properties(level_comparison_avx2.cc
                               PROPERTIES SKIP_PRECOMPILE_HEADERS ON COMPILE_FLAGS
-                                                                    "${ARROW_AVX2_FLAG}")
+                                                                    "${AVX2_FLAGS}")
   # WARNING: DO NOT BLINDLY COPY THIS CODE FOR OTHER BMI2 USE CASES.
   # This code is always guarded by runtime dispatch which verifies
   # BMI2 is present.  For a very small number of CPUs AVX2 does not
   # imply BMI2.
+  #
+  # We need CMAKE_CXX_FLAGS_RELEASE here to prevent the one-definition-rule
+  # violation with -DCMAKE_BUILD_TYPE=MinSizeRel. CMAKE_CXX_FLAGS_RELEASE
+  # will force inlining as much as possible.
+  # See also: ARROW-15664 and ARROW-15678
+  #
+  # TODO: Use COMPILE_OPTIONS instead of COMPILE_FLAGS when we require
+  # CMake 3.11 or later.
+  set(BMI2_FLAGS "${AVX2_FLAGS} -DARROW_HAVE_BMI2 -mbmi2")
   set_source_files_properties(level_conversion_bmi2.cc
-                              PROPERTIES SKIP_PRECOMPILE_HEADERS ON
-                                         COMPILE_FLAGS
-                                         "${ARROW_AVX2_FLAG} -DARROW_HAVE_BMI2 -mbmi2")
+                              PROPERTIES SKIP_PRECOMPILE_HEADERS ON COMPILE_FLAGS
+                                                                    "${BMI2_FLAGS}")
 endif()
 
 if(PARQUET_REQUIRE_ENCRYPTION)
@@ -218,8 +240,11 @@ if(NOT PARQUET_MINIMAL_DEPENDENCY)
 
   # Link publicly with parquet_static (because internal users need to
   # transitively link all dependencies)
-  set(PARQUET_STATIC_LINK_LIBS ${PARQUET_STATIC_LINK_LIBS} thrift::thrift)
-endif(NOT PARQUET_MINIMAL_DEPENDENCY)
+  list(APPEND PARQUET_STATIC_LINK_LIBS thrift::thrift)
+  if(NOT THRIFT_VENDORED)
+    list(APPEND PARQUET_STATIC_INSTALL_INTERFACE_LIBS thrift::thrift)
+  endif()
+endif()
 
 if(CXX_LINKER_SUPPORTS_VERSION_SCRIPT)
   set(PARQUET_SHARED_LINK_FLAGS
@@ -243,8 +268,12 @@ add_arrow_lib(parquet
               ${PARQUET_SHARED_LINK_LIBS}
               SHARED_PRIVATE_LINK_LIBS
               ${PARQUET_SHARED_PRIVATE_LINK_LIBS}
+              SHARED_INSTALL_INTERFACE_LIBS
+              Arrow::arrow_shared
               STATIC_LINK_LIBS
-              ${PARQUET_STATIC_LINK_LIBS})
+              ${PARQUET_STATIC_LINK_LIBS}
+              STATIC_INSTALL_INTERFACE_LIBS
+              ${PARQUET_STATIC_INSTALL_INTERFACE_LIBS})
 
 if(WIN32 AND NOT (ARROW_TEST_LINKAGE STREQUAL "static"))
   add_library(parquet_test_support STATIC
@@ -264,11 +293,9 @@ endif()
 
 if(ARROW_BUILD_STATIC AND WIN32)
   # ARROW-4848: Static Parquet lib needs to import static symbols on Windows
-  target_compile_definitions(parquet_static PUBLIC ARROW_STATIC)
+  target_compile_definitions(parquet_static PUBLIC PARQUET_STATIC)
 endif()
 
-add_dependencies(parquet ${PARQUET_LIBRARIES} thrift::thrift)
-
 add_definitions(-DPARQUET_THRIFT_VERSION_MAJOR=${Thrift_VERSION_MAJOR})
 add_definitions(-DPARQUET_THRIFT_VERSION_MINOR=${Thrift_VERSION_MINOR})
 
@@ -307,6 +334,7 @@ add_parquet_test(internals-test
                  statistics_test.cc
                  encoding_test.cc
                  metadata_test.cc
+                 page_index_test.cc
                  public_api_test.cc
                  types_test.cc
                  test_util.cc)
@@ -367,6 +395,7 @@ endif()
 add_parquet_test(file_deserialize_test SOURCES file_deserialize_test.cc test_util.cc)
 add_parquet_test(schema_test)
 
+add_parquet_benchmark(column_reader_benchmark)
 add_parquet_benchmark(column_io_benchmark)
 add_parquet_benchmark(encoding_benchmark)
 add_parquet_benchmark(level_conversion_benchmark)
diff --git a/cpp/src/parquet/ParquetConfig.cmake.in b/cpp/src/parquet/ParquetConfig.cmake.in
index afdecc517c8..10305301388 100644
--- a/cpp/src/parquet/ParquetConfig.cmake.in
+++ b/cpp/src/parquet/ParquetConfig.cmake.in
@@ -24,8 +24,8 @@
 #
 # This config sets the following targets in your project::
 #
-#   parquet_shared - for linked as shared library if shared library is built
-#   parquet_static - for linked as static library if static library is built
+#   Parquet::parquet_shared - for linked as shared library if shared library is built
+#   Parquet::parquet_static - for linked as static library if static library is built
 
 @PACKAGE_INIT@
 
@@ -36,8 +36,10 @@ set(PARQUET_VERSION "@ARROW_VERSION@")
 set(PARQUET_SO_VERSION "@ARROW_SO_VERSION@")
 set(PARQUET_FULL_SO_VERSION "@ARROW_FULL_SO_VERSION@")
 
-# Load targets only once. If we load targets multiple times, CMake reports
-# already existent target error.
-if(NOT (TARGET parquet_shared OR TARGET parquet_static))
-  include("${CMAKE_CURRENT_LIST_DIR}/ParquetTargets.cmake")
-endif()
+include("${CMAKE_CURRENT_LIST_DIR}/ParquetTargets.cmake")
+
+arrow_keep_backward_compatibility(Parquet parquet)
+
+check_required_components(Parquet)
+
+arrow_show_details(Parquet PARQUET)
diff --git a/cpp/src/parquet/arrow/arrow_reader_writer_test.cc b/cpp/src/parquet/arrow/arrow_reader_writer_test.cc
index d719f0e642e..bbe492a7902 100644
--- a/cpp/src/parquet/arrow/arrow_reader_writer_test.cc
+++ b/cpp/src/parquet/arrow/arrow_reader_writer_test.cc
@@ -25,7 +25,6 @@
 
 #include <cstdint>
 #include <functional>
-#include <iostream>
 #include <sstream>
 #include <vector>
 
@@ -80,6 +79,7 @@ using arrow::DataType;
 using arrow::Datum;
 using arrow::DecimalType;
 using arrow::default_memory_pool;
+using arrow::DictionaryArray;
 using arrow::ListArray;
 using arrow::PrimitiveArray;
 using arrow::ResizableBuffer;
@@ -3431,6 +3431,25 @@ TEST(ArrowReadWrite, NestedRequiredOuterOptionalDecimal) {
   }
 }
 
+TEST(ArrowReadWrite, Decimal256AsInt) {
+  using ::arrow::Decimal256;
+  using ::arrow::field;
+
+  auto type = ::arrow::decimal256(8, 4);
+
+  const char* json = R"(["1.0000", null, "-1.2345", "-1000.5678",
+                         "-9999.9999", "9999.9999"])";
+  auto array = ::arrow::ArrayFromJSON(type, json);
+  auto table = ::arrow::Table::Make(::arrow::schema({field("root", type)}), {array});
+
+  parquet::WriterProperties::Builder builder;
+  // Enforce integer type to annotate decimal type
+  auto writer_properties = builder.enable_integer_annotate_decimal()->build();
+  auto props_store_schema = ArrowWriterProperties::Builder().store_schema()->build();
+
+  CheckConfiguredRoundtrip(table, table, writer_properties, props_store_schema);
+}
+
 class TestNestedSchemaRead : public ::testing::TestWithParam<Repetition::type> {
  protected:
   // make it *3 to make it easily divisible by 3
@@ -3889,9 +3908,7 @@ TEST(TestArrowReaderAdHoc, LARGE_MEMORY_TEST(LargeStringColumn)) {
   reader = ParquetFileReader::Open(std::make_shared<BufferReader>(tables_buffer));
   ASSERT_OK(FileReader::Make(default_memory_pool(), std::move(reader), &arrow_reader));
   std::shared_ptr<::arrow::RecordBatchReader> batch_reader;
-  std::vector<int> all_row_groups =
-      ::arrow::internal::Iota(reader->metadata()->num_row_groups());
-  ASSERT_OK_NO_THROW(arrow_reader->GetRecordBatchReader(all_row_groups, &batch_reader));
+  ASSERT_OK_NO_THROW(arrow_reader->GetRecordBatchReader(&batch_reader));
   ASSERT_OK_AND_ASSIGN(auto batched_table,
                        ::arrow::Table::FromRecordBatchReader(batch_reader.get()));
 
@@ -4028,7 +4045,7 @@ TEST(TestArrowWriterAdHoc, SchemaMismatch) {
   ASSERT_OK_AND_ASSIGN(auto outs, BufferOutputStream::Create(1 << 10, pool));
   auto props = default_writer_properties();
   std::unique_ptr<arrow::FileWriter> writer;
-  ASSERT_OK(arrow::FileWriter::Open(*writer_schm, pool, outs, props, &writer));
+  ASSERT_OK_AND_ASSIGN(writer, arrow::FileWriter::Open(*writer_schm, pool, outs, props));
   std::shared_ptr<::arrow::Array> col;
   ::arrow::Int64Builder builder;
   ASSERT_OK(builder.Append(1));
@@ -4085,9 +4102,9 @@ TEST_P(TestArrowWriteDictionary, Statistics) {
             ->data_pagesize(2)
             ->build();
     std::unique_ptr<FileWriter> writer;
-    ASSERT_OK(FileWriter::Open(*schema, ::arrow::default_memory_pool(), out_stream,
-                               writer_properties, default_arrow_writer_properties(),
-                               &writer));
+    ASSERT_OK_AND_ASSIGN(
+        writer, FileWriter::Open(*schema, ::arrow::default_memory_pool(), out_stream,
+                                 writer_properties, default_arrow_writer_properties()));
     ASSERT_OK(writer->WriteTable(*table, std::numeric_limits<int64_t>::max()));
     ASSERT_OK(writer->Close());
     ASSERT_OK(out_stream->Close());
@@ -4140,6 +4157,74 @@ TEST_P(TestArrowWriteDictionary, Statistics) {
 INSTANTIATE_TEST_SUITE_P(WriteDictionary, TestArrowWriteDictionary,
                          ::testing::Values(ParquetDataPageVersion::V1,
                                            ParquetDataPageVersion::V2));
+
+TEST_P(TestArrowWriteDictionary, StatisticsUnifiedDictionary) {
+  // Two chunks, with a shared dictionary
+  std::shared_ptr<::arrow::Table> table;
+  std::shared_ptr<::arrow::DataType> dict_type =
+      ::arrow::dictionary(::arrow::int32(), ::arrow::utf8());
+  std::shared_ptr<::arrow::Schema> schema =
+      ::arrow::schema({::arrow::field("values", dict_type)});
+  {
+    // It's important there are no duplicate values in the dictionary, otherwise
+    // we trigger the WriteDense() code path which side-steps dictionary encoding.
+    std::shared_ptr<::arrow::Array> test_dictionary =
+        ArrayFromJSON(::arrow::utf8(), R"(["b", "c", "d", "a"])");
+    std::vector<std::shared_ptr<::arrow::Array>> test_indices = {
+        ArrayFromJSON(::arrow::int32(),
+                      R"([3, null, 3, 3, null, 3])"),  // ["a", null "a", "a", null, "a"]
+        ArrayFromJSON(
+            ::arrow::int32(),
+            R"([0, 3, null, 0, null, 1])")};  // ["b", "a", null, "b", null, "c"]
+
+    ::arrow::ArrayVector chunks = {
+        std::make_shared<DictionaryArray>(dict_type, test_indices[0], test_dictionary),
+        std::make_shared<DictionaryArray>(dict_type, test_indices[1], test_dictionary),
+    };
+    std::shared_ptr<ChunkedArray> arr = std::make_shared<ChunkedArray>(chunks, dict_type);
+    table = ::arrow::Table::Make(schema, {arr});
+  }
+
+  std::shared_ptr<::arrow::ResizableBuffer> serialized_data = AllocateBuffer();
+  auto out_stream = std::make_shared<::arrow::io::BufferOutputStream>(serialized_data);
+  {
+    // Will write data as two row groups, one with 9 rows and one with 3.
+    std::shared_ptr<WriterProperties> writer_properties =
+        WriterProperties::Builder()
+            .max_row_group_length(9)
+            ->data_page_version(this->GetParquetDataPageVersion())
+            ->write_batch_size(3)
+            ->data_pagesize(3)
+            ->build();
+    std::unique_ptr<FileWriter> writer;
+    ASSERT_OK_AND_ASSIGN(
+        writer, FileWriter::Open(*schema, ::arrow::default_memory_pool(), out_stream,
+                                 writer_properties, default_arrow_writer_properties()));
+    ASSERT_OK(writer->WriteTable(*table, std::numeric_limits<int64_t>::max()));
+    ASSERT_OK(writer->Close());
+    ASSERT_OK(out_stream->Close());
+  }
+
+  auto buffer_reader = std::make_shared<::arrow::io::BufferReader>(serialized_data);
+  std::unique_ptr<ParquetFileReader> parquet_reader =
+      ParquetFileReader::Open(std::move(buffer_reader));
+  // Check row group statistics
+  std::shared_ptr<FileMetaData> metadata = parquet_reader->metadata();
+  ASSERT_EQ(metadata->num_row_groups(), 2);
+  ASSERT_EQ(metadata->RowGroup(0)->num_rows(), 9);
+  ASSERT_EQ(metadata->RowGroup(1)->num_rows(), 3);
+  auto stats0 = metadata->RowGroup(0)->ColumnChunk(0)->statistics();
+  auto stats1 = metadata->RowGroup(1)->ColumnChunk(0)->statistics();
+  ASSERT_EQ(stats0->num_values(), 6);
+  ASSERT_EQ(stats1->num_values(), 2);
+  ASSERT_EQ(stats0->null_count(), 3);
+  ASSERT_EQ(stats1->null_count(), 1);
+  ASSERT_EQ(stats0->EncodeMin(), "a");
+  ASSERT_EQ(stats1->EncodeMin(), "b");
+  ASSERT_EQ(stats0->EncodeMax(), "b");
+  ASSERT_EQ(stats1->EncodeMax(), "c");
+}
+
 // ----------------------------------------------------------------------
 // Tests for directly reading DictionaryArray
 
@@ -4473,8 +4558,7 @@ TEST_F(TestArrowReadDeltaEncoding, IncrementalDecodeDeltaByteArray) {
   std::shared_ptr<::arrow::RecordBatchReader> rb_reader;
   ASSERT_OK(FileReader::Make(pool, ParquetFileReader::OpenFile(file, false), properties,
                              &parquet_reader));
-  ASSERT_OK(parquet_reader->GetRecordBatchReader(Iota(parquet_reader->num_row_groups()),
-                                                 &rb_reader));
+  ASSERT_OK(parquet_reader->GetRecordBatchReader(&rb_reader));
 
   auto convert_options = ::arrow::csv::ConvertOptions::Defaults();
   std::vector<std::string> column_names = {
@@ -4730,5 +4814,232 @@ std::vector<NestedFilterTestCase> GenerateMapFilteredTestCases() {
 INSTANTIATE_TEST_SUITE_P(MapFilteredReads, TestNestedSchemaFilteredReader,
                          ::testing::ValuesIn(GenerateMapFilteredTestCases()));
 
+template <typename TestType>
+class TestIntegerAnnotateDecimalTypeParquetIO : public TestParquetIO<TestType> {
+ public:
+  void WriteColumn(const std::shared_ptr<Array>& values) {
+    auto arrow_schema = ::arrow::schema({::arrow::field("a", values->type())});
+
+    parquet::WriterProperties::Builder builder;
+    // Enforce integer type to annotate decimal type
+    auto writer_properties = builder.enable_integer_annotate_decimal()->build();
+    std::shared_ptr<SchemaDescriptor> parquet_schema;
+    ASSERT_OK_NO_THROW(ToParquetSchema(arrow_schema.get(), *writer_properties,
+                                       *default_arrow_writer_properties(),
+                                       &parquet_schema));
+
+    this->sink_ = CreateOutputStream();
+    auto schema_node = std::static_pointer_cast<GroupNode>(parquet_schema->schema_root());
+
+    std::unique_ptr<FileWriter> writer;
+    ASSERT_OK_NO_THROW(FileWriter::Make(
+        ::arrow::default_memory_pool(),
+        ParquetFileWriter::Open(this->sink_, schema_node, writer_properties),
+        arrow_schema, default_arrow_writer_properties(), &writer));
+    ASSERT_OK_NO_THROW(writer->NewRowGroup(values->length()));
+    ASSERT_OK_NO_THROW(writer->WriteColumnChunk(*values));
+    ASSERT_OK_NO_THROW(writer->Close());
+  }
+
+  void ReadAndCheckSingleDecimalColumnFile(const Array& values) {
+    std::shared_ptr<Array> out;
+    std::unique_ptr<FileReader> reader;
+    this->ReaderFromSink(&reader);
+    this->ReadSingleColumnFile(std::move(reader), &out);
+
+    // Reader always read values as DECIMAL128 type
+    ASSERT_EQ(out->type()->id(), ::arrow::Type::DECIMAL128);
+
+    if (values.type()->id() == ::arrow::Type::DECIMAL128) {
+      AssertArraysEqual(values, *out);
+    } else {
+      auto& expected_values = dynamic_cast<const ::arrow::Decimal256Array&>(values);
+      auto& read_values = dynamic_cast<const ::arrow::Decimal128Array&>(*out);
+      ASSERT_EQ(expected_values.length(), read_values.length());
+      ASSERT_EQ(expected_values.null_count(), read_values.null_count());
+      ASSERT_EQ(expected_values.length(), read_values.length());
+      for (int64_t i = 0; i < expected_values.length(); ++i) {
+        ASSERT_EQ(expected_values.IsNull(i), read_values.IsNull(i));
+        if (!expected_values.IsNull(i)) {
+          ASSERT_EQ(::arrow::Decimal256(expected_values.Value(i)).ToString(0),
+                    ::arrow::Decimal128(read_values.Value(i)).ToString(0));
+        }
+      }
+    }
+  }
+};
+
+typedef ::testing::Types<
+    DecimalWithPrecisionAndScale<1>, DecimalWithPrecisionAndScale<5>,
+    DecimalWithPrecisionAndScale<10>, DecimalWithPrecisionAndScale<18>,
+    Decimal256WithPrecisionAndScale<1>, Decimal256WithPrecisionAndScale<5>,
+    Decimal256WithPrecisionAndScale<10>, Decimal256WithPrecisionAndScale<18>>
+    DecimalTestTypes;
+
+TYPED_TEST_SUITE(TestIntegerAnnotateDecimalTypeParquetIO, DecimalTestTypes);
+
+TYPED_TEST(TestIntegerAnnotateDecimalTypeParquetIO, SingleNonNullableDecimalColumn) {
+  std::shared_ptr<Array> values;
+  ASSERT_OK(NonNullArray<TypeParam>(SMALL_SIZE, &values));
+  ASSERT_NO_FATAL_FAILURE(this->WriteColumn(values));
+  ASSERT_NO_FATAL_FAILURE(this->ReadAndCheckSingleDecimalColumnFile(*values));
+}
+
+TYPED_TEST(TestIntegerAnnotateDecimalTypeParquetIO, SingleNullableDecimalColumn) {
+  std::shared_ptr<Array> values;
+  ASSERT_OK(NullableArray<TypeParam>(SMALL_SIZE, SMALL_SIZE / 2, kDefaultSeed, &values));
+  ASSERT_NO_FATAL_FAILURE(this->WriteColumn(values));
+  ASSERT_NO_FATAL_FAILURE(this->ReadAndCheckSingleDecimalColumnFile(*values));
+}
+
+template <typename TestType>
+class TestBufferedParquetIO : public TestParquetIO<TestType> {
+ public:
+  void WriteBufferedFile(const std::shared_ptr<Array>& values, int64_t batch_size,
+                         int* num_row_groups) {
+    std::shared_ptr<GroupNode> schema =
+        MakeSimpleSchema(*values->type(), Repetition::OPTIONAL);
+    SchemaDescriptor descriptor;
+    ASSERT_NO_THROW(descriptor.Init(schema));
+    std::shared_ptr<::arrow::Schema> arrow_schema;
+    ArrowReaderProperties props;
+    ASSERT_OK_NO_THROW(FromParquetSchema(&descriptor, props, &arrow_schema));
+
+    std::unique_ptr<FileWriter> writer;
+    ASSERT_OK_NO_THROW(FileWriter::Make(::arrow::default_memory_pool(),
+                                        this->MakeWriter(schema), arrow_schema,
+                                        default_arrow_writer_properties(), &writer));
+    *num_row_groups = 0;
+    for (int i = 0; i < 4; i++) {
+      if (i % 2 == 0) {
+        ASSERT_OK_NO_THROW(writer->NewBufferedRowGroup());
+        (*num_row_groups)++;
+      }
+      std::shared_ptr<Array> sliced_array = values->Slice(i * batch_size, batch_size);
+      std::vector<std::shared_ptr<Array>> arrays = {sliced_array};
+      auto batch = ::arrow::RecordBatch::Make(arrow_schema, batch_size, arrays);
+      ASSERT_OK_NO_THROW(writer->WriteRecordBatch(*batch));
+    }
+    ASSERT_OK_NO_THROW(writer->Close());
+  }
+
+  void ReadAndCheckSingleColumnFile(const Array& values, int num_row_groups) {
+    std::shared_ptr<Array> out;
+
+    std::unique_ptr<FileReader> reader;
+    this->ReaderFromSink(&reader);
+    ASSERT_EQ(num_row_groups, reader->num_row_groups());
+
+    this->ReadSingleColumnFile(std::move(reader), &out);
+    AssertArraysEqual(values, *out);
+  }
+
+  void ReadAndCheckSingleColumnTable(const std::shared_ptr<Array>& values,
+                                     int num_row_groups) {
+    std::shared_ptr<::arrow::Table> out;
+    std::unique_ptr<FileReader> reader;
+    this->ReaderFromSink(&reader);
+    ASSERT_EQ(num_row_groups, reader->num_row_groups());
+
+    this->ReadTableFromFile(std::move(reader), &out);
+    ASSERT_EQ(1, out->num_columns());
+    ASSERT_EQ(values->length(), out->num_rows());
+
+    std::shared_ptr<ChunkedArray> chunked_array = out->column(0);
+    ASSERT_EQ(1, chunked_array->num_chunks());
+    auto result = chunked_array->chunk(0);
+
+    AssertArraysEqual(*values, *result);
+  }
+};
+
+TYPED_TEST_SUITE(TestBufferedParquetIO, TestTypes);
+
+TYPED_TEST(TestBufferedParquetIO, SingleColumnOptionalBufferedWriteSmall) {
+  constexpr int64_t batch_size = SMALL_SIZE / 4;
+  std::shared_ptr<Array> values;
+  ASSERT_OK(NullableArray<TypeParam>(SMALL_SIZE, 10, kDefaultSeed, &values));
+  int num_row_groups = 0;
+  this->WriteBufferedFile(values, batch_size, &num_row_groups);
+  ASSERT_NO_FATAL_FAILURE(this->ReadAndCheckSingleColumnFile(*values, num_row_groups));
+}
+
+TYPED_TEST(TestBufferedParquetIO, SingleColumnOptionalBufferedWriteLarge) {
+  constexpr int64_t batch_size = LARGE_SIZE / 4;
+  std::shared_ptr<Array> values;
+  ASSERT_OK(NullableArray<TypeParam>(LARGE_SIZE, 100, kDefaultSeed, &values));
+  int num_row_groups = 0;
+  this->WriteBufferedFile(values, batch_size, &num_row_groups);
+  ASSERT_NO_FATAL_FAILURE(this->ReadAndCheckSingleColumnTable(values, num_row_groups));
+}
+
+TEST(TestReadWriteArrow, WriteAndReadRecordBatch) {
+  auto pool = ::arrow::default_memory_pool();
+  auto sink = CreateOutputStream();
+  // Limit the max number of rows in a row group to 10
+  auto writer_properties = WriterProperties::Builder().max_row_group_length(10)->build();
+  auto arrow_writer_properties = default_arrow_writer_properties();
+
+  // Prepare schema
+  auto schema = ::arrow::schema(
+      {::arrow::field("a", ::arrow::int64()),
+       ::arrow::field("b", ::arrow::struct_({::arrow::field("b1", ::arrow::int64()),
+                                             ::arrow::field("b2", ::arrow::utf8())})),
+       ::arrow::field("c", ::arrow::utf8())});
+  std::shared_ptr<SchemaDescriptor> parquet_schema;
+  ASSERT_OK_NO_THROW(ToParquetSchema(schema.get(), *writer_properties,
+                                     *arrow_writer_properties, &parquet_schema));
+  auto schema_node = std::static_pointer_cast<GroupNode>(parquet_schema->schema_root());
+
+  // Prepare data
+  auto record_batch = ::arrow::RecordBatchFromJSON(schema, R"([
+      [1,    {"b1": -3,   "b2": "1"   }, "alfa"],
+      [null, {"b1": null, "b2": "22"  }, "alfa"],
+      [3,    {"b1": -2,   "b2": "333" }, "beta"],
+      [null, {"b1": null, "b2": null  }, "gama"],
+      [5,    {"b1": -1,   "b2": "-333"}, null  ],
+      [6,    {"b1": null, "b2": "-22" }, "alfa"],
+      [7,    {"b1": 0,    "b2": "-1"  }, "beta"],
+      [8,    {"b1": null, "b2": null  }, "beta"],
+      [9,    {"b1": 1,    "b2": "0"   }, null  ],
+      [null, {"b1": null, "b2": ""    }, "gama"],
+      [11,   {"b1": 2,    "b2": "1234"}, "foo" ],
+      [12,   {"b1": null, "b2": "4321"}, "bar" ]
+    ])");
+
+  // Create writer to write data via RecordBatch.
+  auto writer = ParquetFileWriter::Open(sink, schema_node, writer_properties);
+  std::unique_ptr<FileWriter> arrow_writer;
+  ASSERT_OK(FileWriter::Make(pool, std::move(writer), record_batch->schema(),
+                             arrow_writer_properties, &arrow_writer));
+  // NewBufferedRowGroup() is not called explicitly and it will be called
+  // inside WriteRecordBatch().
+  ASSERT_OK_NO_THROW(arrow_writer->WriteRecordBatch(*record_batch));
+  ASSERT_OK_NO_THROW(arrow_writer->Close());
+  ASSERT_OK_AND_ASSIGN(auto buffer, sink->Finish());
+
+  // Create reader with batch size specified.
+  auto read_properties = default_arrow_reader_properties();
+  read_properties.set_batch_size(record_batch->num_rows());
+  auto reader = ParquetFileReader::Open(std::make_shared<BufferReader>(buffer));
+  std::unique_ptr<FileReader> arrow_reader;
+  ASSERT_OK(FileReader::Make(pool, std::move(reader), read_properties, &arrow_reader));
+
+  // Verify the single record batch has been sliced into two row groups by
+  // WriterProperties::max_row_group_length().
+  int num_row_groups = arrow_reader->parquet_reader()->metadata()->num_row_groups();
+  ASSERT_EQ(2, num_row_groups);
+  ASSERT_EQ(10, arrow_reader->parquet_reader()->metadata()->RowGroup(0)->num_rows());
+  ASSERT_EQ(2, arrow_reader->parquet_reader()->metadata()->RowGroup(1)->num_rows());
+
+  // Verify batch data read via RecordBatch
+  std::unique_ptr<::arrow::RecordBatchReader> batch_reader;
+  ASSERT_OK_NO_THROW(
+      arrow_reader->GetRecordBatchReader(Iota(num_row_groups), &batch_reader));
+  std::shared_ptr<::arrow::RecordBatch> read_record_batch;
+  ASSERT_OK(batch_reader->ReadNext(&read_record_batch));
+  EXPECT_TRUE(record_batch->Equals(*read_record_batch));
+}
+
 }  // namespace arrow
 }  // namespace parquet
diff --git a/cpp/src/parquet/arrow/arrow_statistics_test.cc b/cpp/src/parquet/arrow/arrow_statistics_test.cc
index 6684300c0f3..604f163a66f 100644
--- a/cpp/src/parquet/arrow/arrow_statistics_test.cc
+++ b/cpp/src/parquet/arrow/arrow_statistics_test.cc
@@ -74,10 +74,10 @@ std::string GetManyEmptyLists() {
 TEST_P(ParameterizedStatisticsTest, NoNullCountWrittenForRepeatedFields) {
   std::shared_ptr<::arrow::ResizableBuffer> serialized_data = AllocateBuffer();
   auto out_stream = std::make_shared<::arrow::io::BufferOutputStream>(serialized_data);
-  std::unique_ptr<FileWriter> writer;
-  ASSERT_OK(FileWriter::Open(*GetParam().table->schema(), default_memory_pool(),
-                             out_stream, default_writer_properties(),
-                             default_arrow_writer_properties(), &writer));
+  ASSERT_OK_AND_ASSIGN(
+      std::unique_ptr<FileWriter> writer,
+      FileWriter::Open(*GetParam().table->schema(), default_memory_pool(), out_stream,
+                       default_writer_properties(), default_arrow_writer_properties()));
   ASSERT_OK(writer->WriteTable(*GetParam().table, std::numeric_limits<int64_t>::max()));
   ASSERT_OK(writer->Close());
   ASSERT_OK(out_stream->Close());
diff --git a/cpp/src/parquet/arrow/path_internal.cc b/cpp/src/parquet/arrow/path_internal.cc
index 8002f13e799..f176f66e131 100644
--- a/cpp/src/parquet/arrow/path_internal.cc
+++ b/cpp/src/parquet/arrow/path_internal.cc
@@ -89,6 +89,7 @@
 #include <memory>
 #include <type_traits>
 #include <utility>
+#include <variant>
 #include <vector>
 
 #include "arrow/array.h"
@@ -103,8 +104,6 @@
 #include "arrow/util/bitmap_visit.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/make_unique.h"
-#include "arrow/util/variant.h"
 #include "arrow/visit_array_inline.h"
 
 #include "parquet/properties.h"
@@ -519,9 +518,9 @@ struct PathInfo {
   // The vectors are expected to the same length info.
 
   // Note index order matters here.
-  using Node = ::arrow::util::Variant<NullableTerminalNode, ListNode, LargeListNode,
-                                      FixedSizeListNode, NullableNode,
-                                      AllPresentTerminalNode, AllNullsTerminalNode>;
+  using Node =
+      std::variant<NullableTerminalNode, ListNode, LargeListNode, FixedSizeListNode,
+                   NullableNode, AllPresentTerminalNode, AllNullsTerminalNode>;
 
   std::vector<Node> path;
   std::shared_ptr<Array> primitive_array;
@@ -578,32 +577,32 @@ Status WritePath(ElementRange root_range, PathInfo* path_info,
   while (stack_position >= stack_base) {
     PathInfo::Node& node = path_info->path[stack_position - stack_base];
     struct {
-      IterationResult operator()(NullableNode* node) {
-        return node->Run(stack_position, stack_position + 1, context);
+      IterationResult operator()(NullableNode& node) {
+        return node.Run(stack_position, stack_position + 1, context);
       }
-      IterationResult operator()(ListNode* node) {
-        return node->Run(stack_position, stack_position + 1, context);
+      IterationResult operator()(ListNode& node) {
+        return node.Run(stack_position, stack_position + 1, context);
       }
-      IterationResult operator()(NullableTerminalNode* node) {
-        return node->Run(*stack_position, context);
+      IterationResult operator()(NullableTerminalNode& node) {
+        return node.Run(*stack_position, context);
       }
-      IterationResult operator()(FixedSizeListNode* node) {
-        return node->Run(stack_position, stack_position + 1, context);
+      IterationResult operator()(FixedSizeListNode& node) {
+        return node.Run(stack_position, stack_position + 1, context);
       }
-      IterationResult operator()(AllPresentTerminalNode* node) {
-        return node->Run(*stack_position, context);
+      IterationResult operator()(AllPresentTerminalNode& node) {
+        return node.Run(*stack_position, context);
       }
-      IterationResult operator()(AllNullsTerminalNode* node) {
-        return node->Run(*stack_position, context);
+      IterationResult operator()(AllNullsTerminalNode& node) {
+        return node.Run(*stack_position, context);
       }
-      IterationResult operator()(LargeListNode* node) {
-        return node->Run(stack_position, stack_position + 1, context);
+      IterationResult operator()(LargeListNode& node) {
+        return node.Run(stack_position, stack_position + 1, context);
       }
       ElementRange* stack_position;
       PathWriteContext* context;
     } visitor = {stack_position, &context};
 
-    IterationResult result = ::arrow::util::visit(visitor, &node);
+    IterationResult result = std::visit(visitor, node);
 
     if (ARROW_PREDICT_FALSE(result == kError)) {
       DCHECK(!context.last_status.ok());
@@ -640,39 +639,39 @@ struct FixupVisitor {
   int16_t rep_level_if_null = kLevelNotSet;
 
   template <typename T>
-  void HandleListNode(T* arg) {
-    if (arg->rep_level() == max_rep_level) {
-      arg->SetLast();
+  void HandleListNode(T& arg) {
+    if (arg.rep_level() == max_rep_level) {
+      arg.SetLast();
       // after the last list node we don't need to fill
       // rep levels on null.
       rep_level_if_null = kLevelNotSet;
     } else {
-      rep_level_if_null = arg->rep_level();
+      rep_level_if_null = arg.rep_level();
     }
   }
-  void operator()(ListNode* node) { HandleListNode(node); }
-  void operator()(LargeListNode* node) { HandleListNode(node); }
-  void operator()(FixedSizeListNode* node) { HandleListNode(node); }
+  void operator()(ListNode& node) { HandleListNode(node); }
+  void operator()(LargeListNode& node) { HandleListNode(node); }
+  void operator()(FixedSizeListNode& node) { HandleListNode(node); }
 
   // For non-list intermediate nodes.
   template <typename T>
-  void HandleIntermediateNode(T* arg) {
+  void HandleIntermediateNode(T& arg) {
     if (rep_level_if_null != kLevelNotSet) {
-      arg->SetRepLevelIfNull(rep_level_if_null);
+      arg.SetRepLevelIfNull(rep_level_if_null);
     }
   }
 
-  void operator()(NullableNode* arg) { HandleIntermediateNode(arg); }
+  void operator()(NullableNode& arg) { HandleIntermediateNode(arg); }
 
-  void operator()(AllNullsTerminalNode* arg) {
+  void operator()(AllNullsTerminalNode& arg) {
     // Even though no processing happens past this point we
     // still need to adjust it if a list occurred after an
     // all null array.
     HandleIntermediateNode(arg);
   }
 
-  void operator()(NullableTerminalNode*) {}
-  void operator()(AllPresentTerminalNode*) {}
+  void operator()(NullableTerminalNode&) {}
+  void operator()(AllPresentTerminalNode&) {}
 };
 
 PathInfo Fixup(PathInfo info) {
@@ -687,7 +686,7 @@ PathInfo Fixup(PathInfo info) {
     visitor.rep_level_if_null = 0;
   }
   for (size_t x = 0; x < info.path.size(); x++) {
-    ::arrow::util::visit(visitor, &info.path[x]);
+    std::visit(visitor, info.path[x]);
   }
   return info;
 }
@@ -862,8 +861,13 @@ class MultipathLevelBuilderImpl : public MultipathLevelBuilder {
 
   ::arrow::Status Write(int leaf_index, ArrowWriteContext* context,
                         CallbackFunction write_leaf_callback) override {
-    DCHECK_GE(leaf_index, 0);
-    DCHECK_LT(leaf_index, GetLeafCount());
+    if (ARROW_PREDICT_FALSE(leaf_index < 0 || leaf_index >= GetLeafCount())) {
+      return Status::Invalid("Column index out of bounds (got ", leaf_index,
+                             ", should be "
+                             "between 0 and ",
+                             GetLeafCount(), ")");
+    }
+
     return WritePath(root_range_, &path_builder_->paths()[leaf_index], context,
                      std::move(write_leaf_callback));
   }
@@ -878,10 +882,10 @@ class MultipathLevelBuilderImpl : public MultipathLevelBuilder {
 // static
 ::arrow::Result<std::unique_ptr<MultipathLevelBuilder>> MultipathLevelBuilder::Make(
     const ::arrow::Array& array, bool array_field_nullable) {
-  auto constructor = ::arrow::internal::make_unique<PathBuilder>(array_field_nullable);
+  auto constructor = std::make_unique<PathBuilder>(array_field_nullable);
   RETURN_NOT_OK(VisitArrayInline(array, constructor.get()));
-  return ::arrow::internal::make_unique<MultipathLevelBuilderImpl>(
-      array.data(), std::move(constructor));
+  return std::make_unique<MultipathLevelBuilderImpl>(array.data(),
+                                                     std::move(constructor));
 }
 
 // static
diff --git a/cpp/src/parquet/arrow/reader.cc b/cpp/src/parquet/arrow/reader.cc
index 03470d4e8f1..b57b5062a13 100644
--- a/cpp/src/parquet/arrow/reader.cc
+++ b/cpp/src/parquet/arrow/reader.cc
@@ -19,6 +19,7 @@
 
 #include <algorithm>
 #include <cstring>
+#include <memory>
 #include <unordered_set>
 #include <utility>
 #include <vector>
@@ -35,7 +36,6 @@
 #include "arrow/util/future.h"
 #include "arrow/util/iterator.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 #include "arrow/util/parallel.h"
 #include "arrow/util/range.h"
 #include "arrow/util/tracing_internal.h"
@@ -60,6 +60,7 @@ using arrow::ListArray;
 using arrow::MemoryPool;
 using arrow::RecordBatchReader;
 using arrow::ResizableBuffer;
+using arrow::Result;
 using arrow::Status;
 using arrow::StructArray;
 using arrow::Table;
@@ -203,6 +204,15 @@ class FileReaderImpl : public FileReader {
                         const std::shared_ptr<std::unordered_set<int>>& included_leaves,
                         const std::vector<int>& row_groups,
                         std::unique_ptr<ColumnReaderImpl>* out) {
+    // Should be covered by GetRecordBatchReader checks but
+    // manifest_.schema_fields is a separate variable so be extra careful.
+    if (ARROW_PREDICT_FALSE(i < 0 ||
+                            static_cast<size_t>(i) >= manifest_.schema_fields.size())) {
+      return Status::Invalid("Column index out of bounds (got ", i,
+                             ", should be "
+                             "between 0 and ",
+                             manifest_.schema_fields.size(), ")");
+    }
     auto ctx = std::make_shared<ReaderContext>();
     ctx->reader = reader_.get();
     ctx->pool = pool_;
@@ -336,6 +346,11 @@ class FileReaderImpl : public FileReader {
                                 Iota(reader_->metadata()->num_columns()), out);
   }
 
+  Status GetRecordBatchReader(std::unique_ptr<RecordBatchReader>* out) override {
+    return GetRecordBatchReader(Iota(num_row_groups()),
+                                Iota(reader_->metadata()->num_columns()), out);
+  }
+
   ::arrow::Result<::arrow::AsyncGenerator<std::shared_ptr<::arrow::RecordBatch>>>
   GetRecordBatchGenerator(std::shared_ptr<FileReader> reader,
                           const std::vector<int> row_group_indices,
@@ -416,8 +431,7 @@ class RowGroupReaderImpl : public RowGroupReader {
       : impl_(impl), row_group_index_(row_group_index) {}
 
   std::shared_ptr<ColumnChunkReader> Column(int column_index) override {
-    return std::shared_ptr<ColumnChunkReader>(
-        new ColumnChunkReaderImpl(impl_, row_group_index_, column_index));
+    return std::make_shared<ColumnChunkReaderImpl>(impl_, row_group_index_, column_index);
   }
 
   Status ReadTable(const std::vector<int>& column_indices,
@@ -828,7 +842,7 @@ Status GetReader(const SchemaField& field, const std::shared_ptr<Field>& arrow_f
     auto storage_field = arrow_field->WithType(
         checked_cast<const ExtensionType&>(*arrow_field->type()).storage_type());
     RETURN_NOT_OK(GetReader(field, storage_field, ctx, out));
-    out->reset(new ExtensionReader(arrow_field, std::move(*out)));
+    *out = std::make_unique<ExtensionReader>(arrow_field, std::move(*out));
     return Status::OK();
   }
 
@@ -842,7 +856,8 @@ Status GetReader(const SchemaField& field, const std::shared_ptr<Field>& arrow_f
     }
     std::unique_ptr<FileColumnIterator> input(
         ctx->iterator_factory(field.column_index, ctx->reader));
-    out->reset(new LeafReader(ctx, arrow_field, std::move(input), field.level_info));
+    *out = std::make_unique<LeafReader>(ctx, arrow_field, std::move(input),
+                                        field.level_info);
   } else if (type_id == ::arrow::Type::LIST || type_id == ::arrow::Type::MAP ||
              type_id == ::arrow::Type::FIXED_SIZE_LIST ||
              type_id == ::arrow::Type::LARGE_LIST) {
@@ -882,22 +897,22 @@ Status GetReader(const SchemaField& field, const std::shared_ptr<Field>& arrow_f
       }
       // Map types are list<struct<key, value>> so use ListReader
       // for reconstruction.
-      out->reset(new ListReader<int32_t>(ctx, list_field, field.level_info,
-                                         std::move(child_reader)));
+      *out = std::make_unique<ListReader<int32_t>>(ctx, list_field, field.level_info,
+                                                   std::move(child_reader));
     } else if (type_id == ::arrow::Type::LIST) {
       if (!reader_child_type->Equals(schema_child_type)) {
         list_field = list_field->WithType(::arrow::list(reader_child_type));
       }
 
-      out->reset(new ListReader<int32_t>(ctx, list_field, field.level_info,
-                                         std::move(child_reader)));
+      *out = std::make_unique<ListReader<int32_t>>(ctx, list_field, field.level_info,
+                                                   std::move(child_reader));
     } else if (type_id == ::arrow::Type::LARGE_LIST) {
       if (!reader_child_type->Equals(schema_child_type)) {
         list_field = list_field->WithType(::arrow::large_list(reader_child_type));
       }
 
-      out->reset(new ListReader<int64_t>(ctx, list_field, field.level_info,
-                                         std::move(child_reader)));
+      *out = std::make_unique<ListReader<int64_t>>(ctx, list_field, field.level_info,
+                                                   std::move(child_reader));
     } else if (type_id == ::arrow::Type::FIXED_SIZE_LIST) {
       if (!reader_child_type->Equals(schema_child_type)) {
         auto& fixed_list_type =
@@ -907,8 +922,8 @@ Status GetReader(const SchemaField& field, const std::shared_ptr<Field>& arrow_f
             list_field->WithType(::arrow::fixed_size_list(reader_child_type, list_size));
       }
 
-      out->reset(new FixedSizeListReader(ctx, list_field, field.level_info,
-                                         std::move(child_reader)));
+      *out = std::make_unique<FixedSizeListReader>(ctx, list_field, field.level_info,
+                                                   std::move(child_reader));
     } else {
       return Status::UnknownError("Unknown list type: ", field.field->ToString());
     }
@@ -935,15 +950,15 @@ Status GetReader(const SchemaField& field, const std::shared_ptr<Field>& arrow_f
       child_fields.push_back(child_field);
       child_readers.emplace_back(std::move(child_reader));
     }
-    if (child_fields.size() == 0) {
+    if (child_fields.empty()) {
       *out = nullptr;
       return Status::OK();
     }
     auto filtered_field =
         ::arrow::field(arrow_field->name(), ::arrow::struct_(child_fields),
                        arrow_field->nullable(), arrow_field->metadata());
-    out->reset(new StructReader(ctx, filtered_field, field.level_info,
-                                std::move(child_readers)));
+    *out = std::make_unique<StructReader>(ctx, filtered_field, field.level_info,
+                                          std::move(child_readers));
   } else {
     return Status::Invalid("Unsupported nested type: ", arrow_field->ToString());
   }
@@ -994,7 +1009,7 @@ Status FileReaderImpl::GetRecordBatchReader(const std::vector<int>& row_groups,
       }
     }
 
-    *out = ::arrow::internal::make_unique<RowGroupRecordBatchReader>(
+    *out = std::make_unique<RowGroupRecordBatchReader>(
         ::arrow::MakeVectorIterator(std::move(batches)), std::move(batch_schema));
 
     return Status::OK();
@@ -1038,7 +1053,7 @@ Status FileReaderImpl::GetRecordBatchReader(const std::vector<int>& row_groups,
             [table, table_reader] { return table_reader->Next(); });
       });
 
-  *out = ::arrow::internal::make_unique<RowGroupRecordBatchReader>(
+  *out = std::make_unique<RowGroupRecordBatchReader>(
       ::arrow::MakeFlattenIterator(std::move(batches)), std::move(batch_schema));
 
   return Status::OK();
@@ -1109,9 +1124,12 @@ class RowGroupGenerator {
     } else {
       auto ready = reader->parquet_reader()->WhenBuffered({row_group}, column_indices);
       if (cpu_executor_) ready = cpu_executor_->TransferAlways(ready);
-      row_group_read = ready.Then([=]() -> ::arrow::Future<RecordBatchGenerator> {
-        return ReadOneRowGroup(cpu_executor_, reader, row_group, column_indices);
-      });
+      row_group_read =
+          ready.Then([this, reader, row_group,
+                      column_indices = std::move(
+                          column_indices)]() -> ::arrow::Future<RecordBatchGenerator> {
+            return ReadOneRowGroup(cpu_executor_, reader, row_group, column_indices);
+          });
     }
     in_flight_reads_.push({std::move(row_group_read), num_rows});
   }
@@ -1194,7 +1212,7 @@ Status FileReaderImpl::GetColumn(int i, FileColumnIteratorFactory iterator_facto
   ctx->filter_leaves = false;
   std::unique_ptr<ColumnReaderImpl> result;
   RETURN_NOT_OK(GetReader(manifest_.schema_fields[i], ctx, &result));
-  out->reset(result.release());
+  *out = std::move(result);
   return Status::OK();
 }
 
@@ -1264,10 +1282,17 @@ std::shared_ptr<RowGroupReader> FileReaderImpl::RowGroup(int row_group_index) {
 // ----------------------------------------------------------------------
 // Public factory functions
 
+Status FileReader::GetRecordBatchReader(std::shared_ptr<RecordBatchReader>* out) {
+  std::unique_ptr<RecordBatchReader> tmp;
+  RETURN_NOT_OK(GetRecordBatchReader(&tmp));
+  out->reset(tmp.release());
+  return Status::OK();
+}
+
 Status FileReader::GetRecordBatchReader(const std::vector<int>& row_group_indices,
                                         std::shared_ptr<RecordBatchReader>* out) {
   std::unique_ptr<RecordBatchReader> tmp;
-  ARROW_RETURN_NOT_OK(GetRecordBatchReader(row_group_indices, &tmp));
+  RETURN_NOT_OK(GetRecordBatchReader(row_group_indices, &tmp));
   out->reset(tmp.release());
   return Status::OK();
 }
@@ -1276,7 +1301,7 @@ Status FileReader::GetRecordBatchReader(const std::vector<int>& row_group_indice
                                         const std::vector<int>& column_indices,
                                         std::shared_ptr<RecordBatchReader>* out) {
   std::unique_ptr<RecordBatchReader> tmp;
-  ARROW_RETURN_NOT_OK(GetRecordBatchReader(row_group_indices, column_indices, &tmp));
+  RETURN_NOT_OK(GetRecordBatchReader(row_group_indices, column_indices, &tmp));
   out->reset(tmp.release());
   return Status::OK();
 }
@@ -1285,7 +1310,7 @@ Status FileReader::Make(::arrow::MemoryPool* pool,
                         std::unique_ptr<ParquetFileReader> reader,
                         const ArrowReaderProperties& properties,
                         std::unique_ptr<FileReader>* out) {
-  out->reset(new FileReaderImpl(pool, std::move(reader), properties));
+  *out = std::make_unique<FileReaderImpl>(pool, std::move(reader), properties);
   return static_cast<FileReaderImpl*>(out->get())->Init();
 }
 
@@ -1307,6 +1332,14 @@ Status FileReaderBuilder::Open(std::shared_ptr<::arrow::io::RandomAccessFile> fi
   return Status::OK();
 }
 
+Status FileReaderBuilder::OpenFile(const std::string& path, bool memory_map,
+                                   const ReaderProperties& properties,
+                                   std::shared_ptr<FileMetaData> metadata) {
+  PARQUET_CATCH_NOT_OK(raw_reader_ = ParquetReader::OpenFile(path, memory_map, properties,
+                                                             std::move(metadata)));
+  return Status::OK();
+}
+
 FileReaderBuilder* FileReaderBuilder::memory_pool(::arrow::MemoryPool* pool) {
   pool_ = pool;
   return this;
@@ -1322,6 +1355,12 @@ Status FileReaderBuilder::Build(std::unique_ptr<FileReader>* out) {
   return FileReader::Make(pool_, std::move(raw_reader_), properties_, out);
 }
 
+Result<std::unique_ptr<FileReader>> FileReaderBuilder::Build() {
+  std::unique_ptr<FileReader> out;
+  RETURN_NOT_OK(FileReader::Make(pool_, std::move(raw_reader_), properties_, &out));
+  return out;
+}
+
 Status OpenFile(std::shared_ptr<::arrow::io::RandomAccessFile> file, MemoryPool* pool,
                 std::unique_ptr<FileReader>* reader) {
   FileReaderBuilder builder;
diff --git a/cpp/src/parquet/arrow/reader.h b/cpp/src/parquet/arrow/reader.h
index a5fe9dc8f25..5dff35e887e 100644
--- a/cpp/src/parquet/arrow/reader.h
+++ b/cpp/src/parquet/arrow/reader.h
@@ -67,6 +67,10 @@ class RowGroupReader;
 /// `FileReader::RowGroup(i)->Column(j)->Read` and receive an `arrow::Column`
 /// instance.
 ///
+/// Finally, one can also get a stream of record batches using
+/// `FileReader::GetRecordBatchReader()`. This can internally decode columns
+/// in parallel if use_threads was enabled in the ArrowReaderProperties.
+///
 /// The parquet format supports an optional integer field_id which can be assigned
 /// to a field.  Arrow will convert these field IDs to a metadata key named
 /// PARQUET:field_id on the appropriate field.
@@ -129,6 +133,7 @@ class PARQUET_EXPORT FileReader {
   // fully-materialized arrow::Array instances
   //
   // Returns error status if the column of interest is not flat.
+  // The indicated column index is relative to the schema
   virtual ::arrow::Status GetColumn(int i, std::unique_ptr<ColumnReader>* out) = 0;
 
   /// \brief Return arrow schema for all the columns.
@@ -156,6 +161,10 @@ class PARQUET_EXPORT FileReader {
   virtual ::arrow::Status ReadSchemaField(
       int i, std::shared_ptr<::arrow::ChunkedArray>* out) = 0;
 
+  /// \brief Return a RecordBatchReader of all row groups and columns.
+  virtual ::arrow::Status GetRecordBatchReader(
+      std::unique_ptr<::arrow::RecordBatchReader>* out) = 0;
+
   /// \brief Return a RecordBatchReader of row groups selected from row_group_indices.
   ///
   /// Note that the ordering in row_group_indices matters. FileReaders must outlive
@@ -166,9 +175,6 @@ class PARQUET_EXPORT FileReader {
       const std::vector<int>& row_group_indices,
       std::unique_ptr<::arrow::RecordBatchReader>* out) = 0;
 
-  ::arrow::Status GetRecordBatchReader(const std::vector<int>& row_group_indices,
-                                       std::shared_ptr<::arrow::RecordBatchReader>* out);
-
   /// \brief Return a RecordBatchReader of row groups selected from
   /// row_group_indices, whose columns are selected by column_indices.
   ///
@@ -181,6 +187,25 @@ class PARQUET_EXPORT FileReader {
       const std::vector<int>& row_group_indices, const std::vector<int>& column_indices,
       std::unique_ptr<::arrow::RecordBatchReader>* out) = 0;
 
+  /// \brief Return a RecordBatchReader of row groups selected from
+  /// row_group_indices, whose columns are selected by column_indices.
+  ///
+  /// Note that the ordering in row_group_indices and column_indices
+  /// matter. FileReaders must outlive their RecordBatchReaders.
+  ///
+  /// \param row_group_indices which row groups to read (order determines read order).
+  /// \param column_indices which columns to read (order determines output schema).
+  /// \param[out] out record batch stream from parquet data.
+  ///
+  /// \returns error Status if either row_group_indices or column_indices
+  ///     contains an invalid index
+  ::arrow::Status GetRecordBatchReader(const std::vector<int>& row_group_indices,
+                                       const std::vector<int>& column_indices,
+                                       std::shared_ptr<::arrow::RecordBatchReader>* out);
+  ::arrow::Status GetRecordBatchReader(const std::vector<int>& row_group_indices,
+                                       std::shared_ptr<::arrow::RecordBatchReader>* out);
+  ::arrow::Status GetRecordBatchReader(std::shared_ptr<::arrow::RecordBatchReader>* out);
+
   /// \brief Return a generator of record batches.
   ///
   /// The FileReader must outlive the generator, so this requires that you pass in a
@@ -196,16 +221,26 @@ class PARQUET_EXPORT FileReader {
                           ::arrow::internal::Executor* cpu_executor = NULLPTR,
                           int64_t rows_to_readahead = 0) = 0;
 
-  ::arrow::Status GetRecordBatchReader(const std::vector<int>& row_group_indices,
-                                       const std::vector<int>& column_indices,
-                                       std::shared_ptr<::arrow::RecordBatchReader>* out);
-
   /// Read all columns into a Table
   virtual ::arrow::Status ReadTable(std::shared_ptr<::arrow::Table>* out) = 0;
 
   /// \brief Read the given columns into a Table
   ///
-  /// The indicated column indices are relative to the schema
+  /// The indicated column indices are relative to the internal representation
+  /// of the parquet table. For instance :
+  /// 0 foo.bar
+  ///       foo.bar.baz           0
+  ///       foo.bar.baz2          1
+  ///   foo.qux                   2
+  /// 1 foo2                      3
+  /// 2 foo3                      4
+  ///
+  /// i=0 will read foo.bar.baz, i=1 will read only foo.bar.baz2 and so on.
+  /// Only leaf fields have indices; foo itself doesn't have an index.
+  /// To get the index for a particular leaf field, one can use
+  /// manifest().schema_fields to get the top level fields, and then walk the
+  /// tree to identify the relevant leaf fields and access its column_index.
+  /// To get the total number of leaf fields, use FileMetadata.num_columns().
   virtual ::arrow::Status ReadTable(const std::vector<int>& column_indices,
                                     std::shared_ptr<::arrow::Table>* out) = 0;
 
@@ -301,6 +336,11 @@ class PARQUET_EXPORT FileReaderBuilder {
                        const ReaderProperties& properties = default_reader_properties(),
                        std::shared_ptr<FileMetaData> metadata = NULLPTR);
 
+  /// Create FileReaderBuilder from file path and optional properties / metadata
+  ::arrow::Status OpenFile(const std::string& path, bool memory_map = false,
+                           const ReaderProperties& props = default_reader_properties(),
+                           std::shared_ptr<FileMetaData> metadata = NULLPTR);
+
   ParquetFileReader* raw_reader() { return raw_reader_.get(); }
 
   /// Set Arrow MemoryPool for memory allocation
@@ -309,6 +349,7 @@ class PARQUET_EXPORT FileReaderBuilder {
   FileReaderBuilder* properties(const ArrowReaderProperties& arg_properties);
   /// Build FileReader instance
   ::arrow::Status Build(std::unique_ptr<FileReader>* out);
+  ::arrow::Result<std::unique_ptr<FileReader>> Build();
 
  private:
   ::arrow::MemoryPool* pool_;
diff --git a/cpp/src/parquet/arrow/reader_internal.cc b/cpp/src/parquet/arrow/reader_internal.cc
index 64fcc451808..a294b712a7c 100644
--- a/cpp/src/parquet/arrow/reader_internal.cc
+++ b/cpp/src/parquet/arrow/reader_internal.cc
@@ -23,6 +23,7 @@
 #include <cstring>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <type_traits>
 #include <vector>
 
@@ -43,7 +44,6 @@
 #include "arrow/util/endian.h"
 #include "arrow/util/int_util_overflow.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/ubsan.h"
 
 #include "parquet/arrow/reader.h"
@@ -638,20 +638,15 @@ struct DecimalConverter<DecimalArrayType, ByteArrayType> {
 /// small enough to fit in less 4 bytes or less than 8 bytes, respectively.
 /// This function implements the conversion from int32 and int64 arrays to decimal arrays.
 template <
-    typename ParquetIntegerType,
+    typename DecimalArrayType, typename ParquetIntegerType,
     typename = ::arrow::enable_if_t<std::is_same<ParquetIntegerType, Int32Type>::value ||
                                     std::is_same<ParquetIntegerType, Int64Type>::value>>
 static Status DecimalIntegerTransfer(RecordReader* reader, MemoryPool* pool,
                                      const std::shared_ptr<Field>& field, Datum* out) {
   // Decimal128 and Decimal256 are only Arrow constructs.  Parquet does not
   // specifically distinguish between decimal byte widths.
-  // Decimal256 isn't relevant here because the Arrow-Parquet C++ bindings never
-  // write Decimal values as integers and if the decimal value can fit in an
-  // integer it is wasteful to use Decimal256. Put another way, the only
-  // way an integer column could be construed as Decimal256 is if an arrow
-  // schema was stored as metadata in the file indicating the column was
-  // Decimal256. The current Arrow-Parquet C++ bindings will never do this.
-  DCHECK(field->type()->id() == ::arrow::Type::DECIMAL128);
+  DCHECK(field->type()->id() == ::arrow::Type::DECIMAL128 ||
+         field->type()->id() == ::arrow::Type::DECIMAL256);
 
   const int64_t length = reader->values_written();
 
@@ -674,16 +669,21 @@ static Status DecimalIntegerTransfer(RecordReader* reader, MemoryPool* pool,
     // sign/zero extend int32_t values, otherwise a no-op
     const auto value = static_cast<int64_t>(values[i]);
 
-    ::arrow::Decimal128 decimal(value);
-    decimal.ToBytes(out_ptr);
+    if constexpr (std::is_same_v<DecimalArrayType, Decimal128Array>) {
+      ::arrow::Decimal128 decimal(value);
+      decimal.ToBytes(out_ptr);
+    } else {
+      ::arrow::Decimal256 decimal(value);
+      decimal.ToBytes(out_ptr);
+    }
   }
 
   if (reader->nullable_values() && field->nullable()) {
     std::shared_ptr<ResizableBuffer> is_valid = reader->ReleaseIsValid();
-    *out = std::make_shared<Decimal128Array>(field->type(), length, std::move(data),
-                                             is_valid, reader->null_count());
+    *out = std::make_shared<DecimalArrayType>(field->type(), length, std::move(data),
+                                              is_valid, reader->null_count());
   } else {
-    *out = std::make_shared<Decimal128Array>(field->type(), length, std::move(data));
+    *out = std::make_shared<DecimalArrayType>(field->type(), length, std::move(data));
   }
   return Status::OK();
 }
@@ -776,11 +776,11 @@ Status TransferColumnData(RecordReader* reader, const std::shared_ptr<Field>& va
     case ::arrow::Type::DECIMAL128: {
       switch (descr->physical_type()) {
         case ::parquet::Type::INT32: {
-          auto fn = DecimalIntegerTransfer<Int32Type>;
+          auto fn = DecimalIntegerTransfer<Decimal128Array, Int32Type>;
           RETURN_NOT_OK(fn(reader, pool, value_field, &result));
         } break;
         case ::parquet::Type::INT64: {
-          auto fn = &DecimalIntegerTransfer<Int64Type>;
+          auto fn = &DecimalIntegerTransfer<Decimal128Array, Int64Type>;
           RETURN_NOT_OK(fn(reader, pool, value_field, &result));
         } break;
         case ::parquet::Type::BYTE_ARRAY: {
@@ -799,6 +799,14 @@ Status TransferColumnData(RecordReader* reader, const std::shared_ptr<Field>& va
     } break;
     case ::arrow::Type::DECIMAL256:
       switch (descr->physical_type()) {
+        case ::parquet::Type::INT32: {
+          auto fn = DecimalIntegerTransfer<Decimal256Array, Int32Type>;
+          RETURN_NOT_OK(fn(reader, pool, value_field, &result));
+        } break;
+        case ::parquet::Type::INT64: {
+          auto fn = &DecimalIntegerTransfer<Decimal256Array, Int64Type>;
+          RETURN_NOT_OK(fn(reader, pool, value_field, &result));
+        } break;
         case ::parquet::Type::BYTE_ARRAY: {
           auto fn = &TransferDecimal<Decimal256Array, ByteArrayType>;
           RETURN_NOT_OK(fn(reader, pool, value_field, &result));
@@ -809,7 +817,8 @@ Status TransferColumnData(RecordReader* reader, const std::shared_ptr<Field>& va
         } break;
         default:
           return Status::Invalid(
-              "Physical type for decimal256 must be fixed length binary");
+              "Physical type for decimal256 must be int32, int64, byte array, or fixed "
+              "length binary");
       }
       break;
 
diff --git a/cpp/src/parquet/arrow/reader_writer_benchmark.cc b/cpp/src/parquet/arrow/reader_writer_benchmark.cc
index 6445bb02758..95c4a659297 100644
--- a/cpp/src/parquet/arrow/reader_writer_benchmark.cc
+++ b/cpp/src/parquet/arrow/reader_writer_benchmark.cc
@@ -197,6 +197,56 @@ BENCHMARK_TEMPLATE2(BM_WriteColumn, true, DoubleType);
 BENCHMARK_TEMPLATE2(BM_WriteColumn, false, BooleanType);
 BENCHMARK_TEMPLATE2(BM_WriteColumn, true, BooleanType);
 
+int32_t kInfiniteUniqueValues = -1;
+
+std::shared_ptr<::arrow::Table> RandomStringTable(int64_t length, int64_t unique_values,
+                                                  int64_t null_percentage) {
+  std::shared_ptr<::arrow::DataType> type = ::arrow::utf8();
+  std::shared_ptr<::arrow::Array> arr;
+  ::arrow::random::RandomArrayGenerator generator(/*seed=*/500);
+  double null_probability = static_cast<double>(null_percentage) / 100.0;
+  if (unique_values == kInfiniteUniqueValues) {
+    arr = generator.String(length, /*min_length=*/3, /*max_length=*/32,
+                           /*null_probability=*/null_probability);
+  } else {
+    arr = generator.StringWithRepeats(length, /*unique=*/unique_values,
+                                      /*min_length=*/3, /*max_length=*/32,
+                                      /*null_probability=*/null_probability);
+  }
+  return ::arrow::Table::Make(
+      ::arrow::schema({::arrow::field("column", type, null_percentage > 0)}), {arr});
+}
+
+static void BM_WriteBinaryColumn(::benchmark::State& state) {
+  std::shared_ptr<::arrow::Table> table =
+      RandomStringTable(BENCHMARK_SIZE, state.range(1), state.range(0));
+
+  while (state.KeepRunning()) {
+    auto output = CreateOutputStream();
+    EXIT_NOT_OK(
+        WriteTable(*table, ::arrow::default_memory_pool(), output, BENCHMARK_SIZE));
+  }
+
+  // Offsets + data
+  int64_t total_bytes = table->column(0)->chunk(0)->data()->buffers[1]->size() +
+                        table->column(0)->chunk(0)->data()->buffers[2]->size();
+  state.SetItemsProcessed(BENCHMARK_SIZE * state.iterations());
+  state.SetBytesProcessed(total_bytes * state.iterations());
+}
+
+BENCHMARK(BM_WriteBinaryColumn)
+    ->ArgNames({"null_probability", "unique_values"})
+    // We vary unique values to trigger the dictionary-encoded (for low-cardinality)
+    // and plain (for high-cardinality) code paths.
+    ->Args({0, 32})
+    ->Args({0, kInfiniteUniqueValues})
+    ->Args({1, 32})
+    ->Args({50, 32})
+    ->Args({99, 32})
+    ->Args({1, kInfiniteUniqueValues})
+    ->Args({50, kInfiniteUniqueValues})
+    ->Args({99, kInfiniteUniqueValues});
+
 template <typename T>
 struct Examples {
   static constexpr std::array<T, 2> values() { return {127, 128}; }
@@ -208,7 +258,7 @@ struct Examples<bool> {
 };
 
 static void BenchmarkReadTable(::benchmark::State& state, const ::arrow::Table& table,
-                               int64_t num_values = -1, int64_t bytes_per_value = -1) {
+                               int64_t num_values = -1, int64_t total_bytes = -1) {
   auto output = CreateOutputStream();
   EXIT_NOT_OK(
       WriteTable(table, ::arrow::default_memory_pool(), output, table.num_rows()));
@@ -228,20 +278,20 @@ static void BenchmarkReadTable(::benchmark::State& state, const ::arrow::Table&
     num_values = table.num_rows();
   }
   state.SetItemsProcessed(num_values * state.iterations());
-  if (bytes_per_value != -1) {
-    state.SetBytesProcessed(num_values * state.iterations() * bytes_per_value);
+  if (total_bytes != -1) {
+    state.SetBytesProcessed(total_bytes * state.iterations());
   }
 }
 
 static void BenchmarkReadArray(::benchmark::State& state,
                                const std::shared_ptr<Array>& array, bool nullable,
-                               int64_t num_values = -1, int64_t bytes_per_value = -1) {
+                               int64_t num_values = -1, int64_t total_bytes = -1) {
   auto schema = ::arrow::schema({field("s", array->type(), nullable)});
   auto table = ::arrow::Table::Make(schema, {array}, array->length());
 
   EXIT_NOT_OK(table->Validate());
 
-  BenchmarkReadTable(state, *table, num_values, bytes_per_value);
+  BenchmarkReadTable(state, *table, num_values, total_bytes);
 }
 
 //
@@ -259,7 +309,7 @@ static void BM_ReadColumn(::benchmark::State& state) {
       TableFromVector<ParquetType>(values, nullable, state.range(0));
 
   BenchmarkReadTable(state, *table, table->num_rows(),
-                     sizeof(typename ParquetType::c_type));
+                     sizeof(typename ParquetType::c_type) * table->num_rows());
 }
 
 // There are two parameters here that cover different data distributions.
@@ -319,6 +369,33 @@ BENCHMARK_TEMPLATE2(BM_ReadColumn, true, BooleanType)
     ->Args({kAlternatingOrNa, 1})
     ->Args({5, 10});
 
+//
+// Benchmark reading binary column
+//
+
+static void BM_ReadBinaryColumn(::benchmark::State& state) {
+  std::shared_ptr<::arrow::Table> table =
+      RandomStringTable(BENCHMARK_SIZE, state.range(1), state.range(0));
+
+  // Offsets + data
+  int64_t total_bytes = table->column(0)->chunk(0)->data()->buffers[1]->size() +
+                        table->column(0)->chunk(0)->data()->buffers[2]->size();
+  BenchmarkReadTable(state, *table, table->num_rows(), total_bytes);
+}
+
+BENCHMARK(BM_ReadBinaryColumn)
+    ->ArgNames({"null_probability", "unique_values"})
+    // We vary unique values to trigger the dictionary-encoded (for low-cardinality)
+    // and plain (for high-cardinality) code paths.
+    ->Args({0, 32})
+    ->Args({0, kInfiniteUniqueValues})
+    ->Args({1, 32})
+    ->Args({50, 32})
+    ->Args({99, 32})
+    ->Args({1, kInfiniteUniqueValues})
+    ->Args({50, kInfiniteUniqueValues})
+    ->Args({99, kInfiniteUniqueValues});
+
 //
 // Benchmark reading a nested column
 //
@@ -383,7 +460,7 @@ static void BM_ReadStructColumn(::benchmark::State& state) {
   ::arrow::random::RandomArrayGenerator rng(42);
   auto array = MakeStructArray(&rng, kNumValues, null_probability);
 
-  BenchmarkReadArray(state, array, nullable, kNumValues, kBytesPerValue);
+  BenchmarkReadArray(state, array, nullable, kNumValues, kBytesPerValue * kNumValues);
 }
 
 BENCHMARK(BM_ReadStructColumn)->Apply(NestedReadArguments);
@@ -402,7 +479,7 @@ static void BM_ReadStructOfStructColumn(::benchmark::State& state) {
   auto values2 = MakeStructArray(&rng, kNumValues, null_probability);
   auto array = MakeStructArray(&rng, {values1, values2}, null_probability);
 
-  BenchmarkReadArray(state, array, nullable, kNumValues, kBytesPerValue);
+  BenchmarkReadArray(state, array, nullable, kNumValues, kBytesPerValue * kNumValues);
 }
 
 BENCHMARK(BM_ReadStructOfStructColumn)->Apply(NestedReadArguments);
@@ -426,7 +503,7 @@ static void BM_ReadStructOfListColumn(::benchmark::State& state) {
   auto array = MakeStructArray(&rng, {list1, list2}, null_probability,
                                /*propagate_validity =*/true);
 
-  BenchmarkReadArray(state, array, nullable, kNumValues, kBytesPerValue);
+  BenchmarkReadArray(state, array, nullable, kNumValues, kBytesPerValue * kNumValues);
 }
 
 BENCHMARK(BM_ReadStructOfListColumn)->Apply(NestedReadArguments);
@@ -445,7 +522,7 @@ static void BM_ReadListColumn(::benchmark::State& state) {
 
   auto array = rng.List(*values, kNumValues / 10, null_probability);
 
-  BenchmarkReadArray(state, array, nullable, kNumValues, kBytesPerValue);
+  BenchmarkReadArray(state, array, nullable, kNumValues, kBytesPerValue * kNumValues);
 }
 
 BENCHMARK(BM_ReadListColumn)->Apply(NestedReadArguments);
@@ -464,7 +541,7 @@ static void BM_ReadListOfStructColumn(::benchmark::State& state) {
 
   auto array = rng.List(*values, kNumValues / 10, null_probability);
 
-  BenchmarkReadArray(state, array, nullable, kNumValues, kBytesPerValue);
+  BenchmarkReadArray(state, array, nullable, kNumValues, kBytesPerValue * kNumValues);
 }
 
 BENCHMARK(BM_ReadListOfStructColumn)->Apply(NestedReadArguments);
@@ -484,7 +561,7 @@ static void BM_ReadListOfListColumn(::benchmark::State& state) {
   auto inner = rng.List(*values, kNumValues / 10, null_probability);
   auto array = rng.List(*inner, kNumValues / 100, null_probability);
 
-  BenchmarkReadArray(state, array, nullable, kNumValues, kBytesPerValue);
+  BenchmarkReadArray(state, array, nullable, kNumValues, kBytesPerValue * kNumValues);
 }
 
 BENCHMARK(BM_ReadListOfListColumn)->Apply(NestedReadArguments);
diff --git a/cpp/src/parquet/arrow/schema.cc b/cpp/src/parquet/arrow/schema.cc
index 716083f8a58..267b892e4b4 100644
--- a/cpp/src/parquet/arrow/schema.cc
+++ b/cpp/src/parquet/arrow/schema.cc
@@ -30,6 +30,7 @@
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
+#include "arrow/util/string.h"
 #include "arrow/util/value_parsing.h"
 
 #include "parquet/arrow/schema_internal.h"
@@ -44,6 +45,8 @@ using arrow::FieldVector;
 using arrow::KeyValueMetadata;
 using arrow::Status;
 using arrow::internal::checked_cast;
+using arrow::internal::EndsWith;
+using arrow::internal::ToChars;
 
 using ArrowType = arrow::DataType;
 using ArrowTypeId = arrow::Type;
@@ -242,7 +245,7 @@ static constexpr char FIELD_ID_KEY[] = "PARQUET:field_id";
 
 std::shared_ptr<::arrow::KeyValueMetadata> FieldIdMetadata(int field_id) {
   if (field_id >= 0) {
-    return ::arrow::key_value_metadata({FIELD_ID_KEY}, {std::to_string(field_id)});
+    return ::arrow::key_value_metadata({FIELD_ID_KEY}, {ToChars(field_id)});
   } else {
     return nullptr;
   }
@@ -351,11 +354,15 @@ Status FieldToNode(const std::string& name, const std::shared_ptr<Field>& field,
     } break;
     case ArrowTypeId::DECIMAL128:
     case ArrowTypeId::DECIMAL256: {
-      type = ParquetType::FIXED_LEN_BYTE_ARRAY;
       const auto& decimal_type = static_cast<const ::arrow::DecimalType&>(*field->type());
       precision = decimal_type.precision();
       scale = decimal_type.scale();
-      length = DecimalType::DecimalSize(precision);
+      if (properties.integer_annotate_decimal() && 1 <= precision && precision <= 18) {
+        type = precision <= 9 ? ParquetType ::INT32 : ParquetType ::INT64;
+      } else {
+        type = ParquetType::FIXED_LEN_BYTE_ARRAY;
+        length = DecimalType::DecimalSize(precision);
+      }
       PARQUET_CATCH_NOT_OK(logical_type = LogicalType::Decimal(precision, scale));
     } break;
     case ArrowTypeId::DATE32:
@@ -496,8 +503,8 @@ Status PopulateLeaf(int column_index, const std::shared_ptr<Field>& field,
 //   If the name is array or ends in _tuple, this should be a list of struct
 //   even for single child elements.
 bool HasStructListName(const GroupNode& node) {
-  ::arrow::util::string_view name{node.name()};
-  return name == "array" || name.ends_with("_tuple");
+  ::std::string_view name{node.name()};
+  return name == "array" || EndsWith(name, "_tuple");
 }
 
 Status GroupToStruct(const GroupNode& node, LevelInfo current_levels,
@@ -763,7 +770,7 @@ Status NodeToSchemaField(const Node& node, LevelInfo current_levels,
                                   /*nullable=*/false, FieldIdMetadata(node.field_id()));
       out->level_info = current_levels;
       // At this point current_levels has consider this list the ancestor so restore
-      // the actual ancenstor.
+      // the actual ancestor.
       out->level_info.repeated_ancestor_def_level = repeated_ancestor_def_level;
       return Status::OK();
     } else {
diff --git a/cpp/src/parquet/arrow/test_util.h b/cpp/src/parquet/arrow/test_util.h
index 495b6ebba27..16c03130c96 100644
--- a/cpp/src/parquet/arrow/test_util.h
+++ b/cpp/src/parquet/arrow/test_util.h
@@ -129,16 +129,14 @@ ::arrow::enable_if_fixed_size_binary<ArrowType, Status> NonNullArray(
   return builder.Finish(out);
 }
 
+template <int32_t byte_width>
 static void random_decimals(int64_t n, uint32_t seed, int32_t precision, uint8_t* out) {
   auto gen = ::arrow::random::RandomArrayGenerator(seed);
   std::shared_ptr<Array> decimals;
-  int32_t byte_width = 0;
-  if (precision <= ::arrow::Decimal128Type::kMaxPrecision) {
+  if constexpr (byte_width == 16) {
     decimals = gen.Decimal128(::arrow::decimal128(precision, 0), n);
-    byte_width = ::arrow::Decimal128Type::kByteWidth;
   } else {
     decimals = gen.Decimal256(::arrow::decimal256(precision, 0), n);
-    byte_width = ::arrow::Decimal256Type::kByteWidth;
   }
   std::memcpy(out, decimals->data()->GetValues<uint8_t>(1, 0), byte_width * n);
 }
@@ -158,7 +156,8 @@ NonNullArray(size_t size, std::shared_ptr<Array>* out) {
   constexpr int32_t seed = 0;
 
   ARROW_ASSIGN_OR_RAISE(auto out_buf, ::arrow::AllocateBuffer(size * byte_width));
-  random_decimals(size, seed, kDecimalPrecision, out_buf->mutable_data());
+  random_decimals<::arrow::Decimal128Type::kByteWidth>(size, seed, kDecimalPrecision,
+                                                       out_buf->mutable_data());
 
   RETURN_NOT_OK(builder.AppendValues(out_buf->data(), size));
   return builder.Finish(out);
@@ -179,7 +178,8 @@ NonNullArray(size_t size, std::shared_ptr<Array>* out) {
   constexpr int32_t seed = 0;
 
   ARROW_ASSIGN_OR_RAISE(auto out_buf, ::arrow::AllocateBuffer(size * byte_width));
-  random_decimals(size, seed, kDecimalPrecision, out_buf->mutable_data());
+  random_decimals<::arrow::Decimal256Type::kByteWidth>(size, seed, kDecimalPrecision,
+                                                       out_buf->mutable_data());
 
   RETURN_NOT_OK(builder.AppendValues(out_buf->data(), size));
   return builder.Finish(out);
@@ -341,7 +341,8 @@ NullableArray(size_t size, size_t num_nulls, uint32_t seed,
 
   ARROW_ASSIGN_OR_RAISE(auto out_buf, ::arrow::AllocateBuffer(size * byte_width));
 
-  random_decimals(size, seed, precision, out_buf->mutable_data());
+  random_decimals<::arrow::Decimal128Type::kByteWidth>(size, seed, precision,
+                                                       out_buf->mutable_data());
 
   ::arrow::Decimal128Builder builder(type);
   RETURN_NOT_OK(builder.AppendValues(out_buf->data(), size, valid_bytes.data()));
@@ -367,7 +368,8 @@ NullableArray(size_t size, size_t num_nulls, uint32_t seed,
 
   ARROW_ASSIGN_OR_RAISE(auto out_buf, ::arrow::AllocateBuffer(size * byte_width));
 
-  random_decimals(size, seed, precision, out_buf->mutable_data());
+  random_decimals<::arrow::Decimal256Type::kByteWidth>(size, seed, precision,
+                                                       out_buf->mutable_data());
 
   ::arrow::Decimal256Builder builder(type);
   RETURN_NOT_OK(builder.AppendValues(out_buf->data(), size, valid_bytes.data()));
diff --git a/cpp/src/parquet/arrow/writer.cc b/cpp/src/parquet/arrow/writer.cc
index cf174dc61c8..39c46a7b170 100644
--- a/cpp/src/parquet/arrow/writer.cc
+++ b/cpp/src/parquet/arrow/writer.cc
@@ -19,6 +19,7 @@
 
 #include <algorithm>
 #include <deque>
+#include <memory>
 #include <string>
 #include <type_traits>
 #include <utility>
@@ -27,13 +28,13 @@
 #include "arrow/array.h"
 #include "arrow/extension_type.h"
 #include "arrow/ipc/writer.h"
+#include "arrow/record_batch.h"
 #include "arrow/table.h"
 #include "arrow/type.h"
 #include "arrow/util/base64.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/make_unique.h"
 
 #include "parquet/arrow/path_internal.h"
 #include "parquet/arrow/reader_internal.h"
@@ -58,7 +59,9 @@ using arrow::ListArray;
 using arrow::MemoryPool;
 using arrow::NumericArray;
 using arrow::PrimitiveArray;
+using arrow::RecordBatch;
 using arrow::ResizableBuffer;
+using arrow::Result;
 using arrow::Status;
 using arrow::Table;
 using arrow::TimeUnit;
@@ -113,8 +116,10 @@ class ArrowColumnWriterV2 {
   // level_builders should contain one MultipathLevelBuilder per chunk of the
   // Arrow-column to write.
   ArrowColumnWriterV2(std::vector<std::unique_ptr<MultipathLevelBuilder>> level_builders,
-                      int leaf_count, RowGroupWriter* row_group_writer)
+                      int start_leaf_column_index, int leaf_count,
+                      RowGroupWriter* row_group_writer)
       : level_builders_(std::move(level_builders)),
+        start_leaf_column_index_(start_leaf_column_index),
         leaf_count_(leaf_count),
         row_group_writer_(row_group_writer) {}
 
@@ -126,7 +131,12 @@ class ArrowColumnWriterV2 {
   Status Write(ArrowWriteContext* ctx) {
     for (int leaf_idx = 0; leaf_idx < leaf_count_; leaf_idx++) {
       ColumnWriter* column_writer;
-      PARQUET_CATCH_NOT_OK(column_writer = row_group_writer_->NextColumn());
+      if (row_group_writer_->buffered()) {
+        const int column_index = start_leaf_column_index_ + leaf_idx;
+        PARQUET_CATCH_NOT_OK(column_writer = row_group_writer_->column(column_index));
+      } else {
+        PARQUET_CATCH_NOT_OK(column_writer = row_group_writer_->NextColumn());
+      }
       for (auto& level_builder : level_builders_) {
         RETURN_NOT_OK(level_builder->Write(
             leaf_idx, ctx, [&](const MultipathLevelBuilderResult& result) {
@@ -146,7 +156,9 @@ class ArrowColumnWriterV2 {
             }));
       }
 
-      PARQUET_CATCH_NOT_OK(column_writer->Close());
+      if (!row_group_writer_->buffered()) {
+        PARQUET_CATCH_NOT_OK(column_writer->Close());
+      }
     }
     return Status::OK();
   }
@@ -161,13 +173,14 @@ class ArrowColumnWriterV2 {
   // RowGroupWriters (we could construct each builder on demand in that case).
   static ::arrow::Result<std::unique_ptr<ArrowColumnWriterV2>> Make(
       const ChunkedArray& data, int64_t offset, const int64_t size,
-      const SchemaManifest& schema_manifest, RowGroupWriter* row_group_writer) {
+      const SchemaManifest& schema_manifest, RowGroupWriter* row_group_writer,
+      int start_leaf_column_index = -1) {
     int64_t absolute_position = 0;
     int chunk_index = 0;
     int64_t chunk_offset = 0;
     if (data.length() == 0) {
-      return ::arrow::internal::make_unique<ArrowColumnWriterV2>(
-          std::vector<std::unique_ptr<MultipathLevelBuilder>>{},
+      return std::make_unique<ArrowColumnWriterV2>(
+          std::vector<std::unique_ptr<MultipathLevelBuilder>>{}, start_leaf_column_index,
           CalculateLeafCount(data.type().get()), row_group_writer);
     }
     while (chunk_index < data.num_chunks() && absolute_position < offset) {
@@ -191,9 +204,16 @@ class ArrowColumnWriterV2 {
     std::vector<std::unique_ptr<MultipathLevelBuilder>> builders;
     const int leaf_count = CalculateLeafCount(data.type().get());
     bool is_nullable = false;
-    // The row_group_writer hasn't been advanced yet so add 1 to the current
-    // which is the one this instance will start writing for.
-    int column_index = row_group_writer->current_column() + 1;
+
+    int column_index = 0;
+    if (row_group_writer->buffered()) {
+      column_index = start_leaf_column_index;
+    } else {
+      // The row_group_writer hasn't been advanced yet so add 1 to the current
+      // which is the one this instance will start writing for.
+      column_index = row_group_writer->current_column() + 1;
+    }
+
     for (int leaf_offset = 0; leaf_offset < leaf_count; ++leaf_offset) {
       const SchemaField* schema_field = nullptr;
       RETURN_NOT_OK(
@@ -239,13 +259,16 @@ class ArrowColumnWriterV2 {
       }
       values_written += chunk_write_size;
     }
-    return ::arrow::internal::make_unique<ArrowColumnWriterV2>(
-        std::move(builders), leaf_count, row_group_writer);
+    return std::make_unique<ArrowColumnWriterV2>(std::move(builders), column_index,
+                                                 leaf_count, row_group_writer);
   }
 
+  int leaf_count() const { return leaf_count_; }
+
  private:
   // One builder per column-chunk.
   std::vector<std::unique_ptr<MultipathLevelBuilder>> level_builders_;
+  int start_leaf_column_index_;
   int leaf_count_;
   RowGroupWriter* row_group_writer_;
 };
@@ -303,12 +326,16 @@ class FileWriterImpl : public FileWriter {
                           int64_t size) override {
     if (arrow_properties_->engine_version() == ArrowWriterProperties::V2 ||
         arrow_properties_->engine_version() == ArrowWriterProperties::V1) {
+      if (row_group_writer_->buffered()) {
+        return Status::Invalid("Cannot write column chunk into the buffered row group.");
+      }
       ARROW_ASSIGN_OR_RAISE(
           std::unique_ptr<ArrowColumnWriterV2> writer,
           ArrowColumnWriterV2::Make(*data, offset, size, schema_manifest_,
                                     row_group_writer_));
       return writer->Write(&column_write_context_);
     }
+
     return Status::NotImplemented("Unknown engine version.");
   }
 
@@ -354,6 +381,58 @@ class FileWriterImpl : public FileWriter {
     return Status::OK();
   }
 
+  Status NewBufferedRowGroup() override {
+    if (row_group_writer_ != nullptr) {
+      PARQUET_CATCH_NOT_OK(row_group_writer_->Close());
+    }
+    PARQUET_CATCH_NOT_OK(row_group_writer_ = writer_->AppendBufferedRowGroup());
+    return Status::OK();
+  }
+
+  Status WriteRecordBatch(const RecordBatch& batch) override {
+    if (batch.num_rows() == 0) {
+      return Status::OK();
+    }
+
+    // Max number of rows allowed in a row group.
+    const int64_t max_row_group_length = this->properties().max_row_group_length();
+
+    if (row_group_writer_ == nullptr || !row_group_writer_->buffered() ||
+        row_group_writer_->num_rows() >= max_row_group_length) {
+      RETURN_NOT_OK(NewBufferedRowGroup());
+    }
+
+    auto WriteBatch = [&](int64_t offset, int64_t size) {
+      int column_index_start = 0;
+      for (int i = 0; i < batch.num_columns(); i++) {
+        ChunkedArray chunkedArray(batch.column(i));
+        ARROW_ASSIGN_OR_RAISE(
+            std::unique_ptr<ArrowColumnWriterV2> writer,
+            ArrowColumnWriterV2::Make(chunkedArray, offset, size, schema_manifest_,
+                                      row_group_writer_, column_index_start));
+        RETURN_NOT_OK(writer->Write(&column_write_context_));
+        column_index_start += writer->leaf_count();
+      }
+      return Status::OK();
+    };
+
+    int64_t offset = 0;
+    while (offset < batch.num_rows()) {
+      const int64_t batch_size =
+          std::min(max_row_group_length - row_group_writer_->num_rows(),
+                   batch.num_rows() - offset);
+      RETURN_NOT_OK(WriteBatch(offset, batch_size));
+      offset += batch_size;
+
+      // Flush current row group if it is full.
+      if (row_group_writer_->num_rows() >= max_row_group_length) {
+        RETURN_NOT_OK(NewBufferedRowGroup());
+      }
+    }
+
+    return Status::OK();
+  }
+
   const WriterProperties& properties() const { return *writer_->properties(); }
 
   ::arrow::MemoryPool* memory_pool() const override {
@@ -396,8 +475,10 @@ Status FileWriter::Open(const ::arrow::Schema& schema, ::arrow::MemoryPool* pool
                         std::shared_ptr<::arrow::io::OutputStream> sink,
                         std::shared_ptr<WriterProperties> properties,
                         std::unique_ptr<FileWriter>* writer) {
-  return Open(std::move(schema), pool, std::move(sink), std::move(properties),
-              default_arrow_writer_properties(), writer);
+  ARROW_ASSIGN_OR_RAISE(
+      *writer, Open(std::move(schema), pool, std::move(sink), std::move(properties),
+                    default_arrow_writer_properties()));
+  return Status::OK();
 }
 
 Status GetSchemaMetadata(const ::arrow::Schema& schema, ::arrow::MemoryPool* pool,
@@ -432,6 +513,16 @@ Status FileWriter::Open(const ::arrow::Schema& schema, ::arrow::MemoryPool* pool
                         std::shared_ptr<WriterProperties> properties,
                         std::shared_ptr<ArrowWriterProperties> arrow_properties,
                         std::unique_ptr<FileWriter>* writer) {
+  ARROW_ASSIGN_OR_RAISE(*writer, Open(std::move(schema), pool, std::move(sink),
+                                      std::move(properties), arrow_properties));
+  return Status::OK();
+}
+
+Result<std::unique_ptr<FileWriter>> FileWriter::Open(
+    const ::arrow::Schema& schema, ::arrow::MemoryPool* pool,
+    std::shared_ptr<::arrow::io::OutputStream> sink,
+    std::shared_ptr<WriterProperties> properties,
+    std::shared_ptr<ArrowWriterProperties> arrow_properties) {
   std::shared_ptr<SchemaDescriptor> parquet_schema;
   RETURN_NOT_OK(
       ToParquetSchema(&schema, *properties, *arrow_properties, &parquet_schema));
@@ -446,9 +537,12 @@ Status FileWriter::Open(const ::arrow::Schema& schema, ::arrow::MemoryPool* pool
                                                              std::move(properties),
                                                              std::move(metadata)));
 
+  std::unique_ptr<FileWriter> writer;
   auto schema_ptr = std::make_shared<::arrow::Schema>(schema);
-  return Make(pool, std::move(base_writer), std::move(schema_ptr),
-              std::move(arrow_properties), writer);
+  RETURN_NOT_OK(Make(pool, std::move(base_writer), std::move(schema_ptr),
+                     std::move(arrow_properties), &writer));
+
+  return writer;
 }
 
 Status WriteFileMetaData(const FileMetaData& file_metadata,
@@ -468,9 +562,9 @@ Status WriteTable(const ::arrow::Table& table, ::arrow::MemoryPool* pool,
                   std::shared_ptr<WriterProperties> properties,
                   std::shared_ptr<ArrowWriterProperties> arrow_properties) {
   std::unique_ptr<FileWriter> writer;
-  RETURN_NOT_OK(FileWriter::Open(*table.schema(), pool, std::move(sink),
-                                 std::move(properties), std::move(arrow_properties),
-                                 &writer));
+  ARROW_ASSIGN_OR_RAISE(
+      writer, FileWriter::Open(*table.schema(), pool, std::move(sink),
+                               std::move(properties), std::move(arrow_properties)));
   RETURN_NOT_OK(writer->WriteTable(table, chunk_size));
   return writer->Close();
 }
diff --git a/cpp/src/parquet/arrow/writer.h b/cpp/src/parquet/arrow/writer.h
index f31f3d03def..d97c2d49e22 100644
--- a/cpp/src/parquet/arrow/writer.h
+++ b/cpp/src/parquet/arrow/writer.h
@@ -27,6 +27,7 @@ namespace arrow {
 
 class Array;
 class ChunkedArray;
+class RecordBatch;
 class Schema;
 class Table;
 
@@ -41,8 +42,11 @@ namespace arrow {
 
 /// \brief Iterative FileWriter class
 ///
-/// Start a new RowGroup or Chunk with NewRowGroup.
-/// Write column-by-column the whole column chunk.
+/// For basic usage, can write a Table at a time, creating one or more row
+/// groups per write call.
+///
+/// For advanced usage, can write column-by-column: Start a new RowGroup or
+/// Chunk with NewRowGroup, then write column-by-column the whole column chunk.
 ///
 /// If PARQUET:field_id is present as a metadata key on a field, and the corresponding
 /// value is a nonnegative integer, then it will be used as the field_id in the parquet
@@ -54,23 +58,52 @@ class PARQUET_EXPORT FileWriter {
                               std::shared_ptr<ArrowWriterProperties> arrow_properties,
                               std::unique_ptr<FileWriter>* out);
 
+  /// \brief Try to create an Arrow to Parquet file writer.
+  ///
+  /// \param schema schema of data that will be passed.
+  /// \param pool memory pool to use.
+  /// \param sink output stream to write Parquet data.
+  /// \param properties general Parquet writer properties.
+  /// \param arrow_properties Arrow-specific writer properties.
+  ///
+  /// \since 11.0.0
+  static ::arrow::Result<std::unique_ptr<FileWriter>> Open(
+      const ::arrow::Schema& schema, MemoryPool* pool,
+      std::shared_ptr<::arrow::io::OutputStream> sink,
+      std::shared_ptr<WriterProperties> properties = default_writer_properties(),
+      std::shared_ptr<ArrowWriterProperties> arrow_properties =
+          default_arrow_writer_properties());
+
+  ARROW_DEPRECATED("Deprecated in 11.0.0. Use Result-returning variants instead.")
   static ::arrow::Status Open(const ::arrow::Schema& schema, MemoryPool* pool,
                               std::shared_ptr<::arrow::io::OutputStream> sink,
                               std::shared_ptr<WriterProperties> properties,
                               std::unique_ptr<FileWriter>* writer);
-
+  ARROW_DEPRECATED("Deprecated in 11.0.0. Use Result-returning variants instead.")
   static ::arrow::Status Open(const ::arrow::Schema& schema, MemoryPool* pool,
                               std::shared_ptr<::arrow::io::OutputStream> sink,
                               std::shared_ptr<WriterProperties> properties,
                               std::shared_ptr<ArrowWriterProperties> arrow_properties,
                               std::unique_ptr<FileWriter>* writer);
 
+  /// Return the Arrow schema to be written to.
   virtual std::shared_ptr<::arrow::Schema> schema() const = 0;
 
   /// \brief Write a Table to Parquet.
-  virtual ::arrow::Status WriteTable(const ::arrow::Table& table, int64_t chunk_size) = 0;
-
+  ///
+  /// \param table Arrow table to write.
+  /// \param chunk_size maximum number of rows to write per row group.
+  virtual ::arrow::Status WriteTable(
+      const ::arrow::Table& table, int64_t chunk_size = DEFAULT_MAX_ROW_GROUP_LENGTH) = 0;
+
+  /// \brief Start a new row group.
+  ///
+  /// Returns an error if not all columns have been written.
+  ///
+  /// \param chunk_size the number of rows in the next row group.
   virtual ::arrow::Status NewRowGroup(int64_t chunk_size) = 0;
+
+  /// \brief Write ColumnChunk in row group using an array.
   virtual ::arrow::Status WriteColumnChunk(const ::arrow::Array& data) = 0;
 
   /// \brief Write ColumnChunk in row group using slice of a ChunkedArray
@@ -78,12 +111,34 @@ class PARQUET_EXPORT FileWriter {
       const std::shared_ptr<::arrow::ChunkedArray>& data, int64_t offset,
       int64_t size) = 0;
 
+  /// \brief Write ColumnChunk in a row group using a ChunkedArray
   virtual ::arrow::Status WriteColumnChunk(
       const std::shared_ptr<::arrow::ChunkedArray>& data) = 0;
+
+  /// \brief Start a new buffered row group.
+  ///
+  /// Returns an error if not all columns have been written.
+  virtual ::arrow::Status NewBufferedRowGroup() = 0;
+
+  /// \brief Write a RecordBatch into the buffered row group.
+  ///
+  /// Multiple RecordBatches can be written into the same row group
+  /// through this method.
+  ///
+  /// WriterProperties.max_row_group_length() is respected and a new
+  /// row group will be created if the current row group exceeds the
+  /// limit.
+  ///
+  /// Batches get flushed to the output stream once NewBufferedRowGroup()
+  /// or Close() is called.
+  virtual ::arrow::Status WriteRecordBatch(const ::arrow::RecordBatch& batch) = 0;
+
+  /// \brief Write the footer and close the file.
   virtual ::arrow::Status Close() = 0;
   virtual ~FileWriter();
 
   virtual MemoryPool* memory_pool() const = 0;
+  /// \brief Return the file metadata, only available after calling Close().
   virtual const std::shared_ptr<FileMetaData> metadata() const = 0;
 };
 
@@ -98,9 +153,20 @@ ::arrow::Status WriteMetaDataFile(const FileMetaData& file_metadata,
                                   ::arrow::io::OutputStream* sink);
 
 /// \brief Write a Table to Parquet.
+///
+/// This writes one table in a single shot. To write a Parquet file with
+/// multiple tables iteratively, see parquet::arrow::FileWriter.
+///
+/// \param table Table to write.
+/// \param pool memory pool to use.
+/// \param sink output stream to write Parquet data.
+/// \param chunk_size maximum number of rows to write per row group.
+/// \param properties general Parquet writer properties.
+/// \param arrow_properties Arrow-specific writer properties.
 ::arrow::Status PARQUET_EXPORT
 WriteTable(const ::arrow::Table& table, MemoryPool* pool,
-           std::shared_ptr<::arrow::io::OutputStream> sink, int64_t chunk_size,
+           std::shared_ptr<::arrow::io::OutputStream> sink,
+           int64_t chunk_size = DEFAULT_MAX_ROW_GROUP_LENGTH,
            std::shared_ptr<WriterProperties> properties = default_writer_properties(),
            std::shared_ptr<ArrowWriterProperties> arrow_properties =
                default_arrow_writer_properties());
diff --git a/cpp/src/parquet/column_reader.cc b/cpp/src/parquet/column_reader.cc
index 523030fd783..3670af49fbf 100644
--- a/cpp/src/parquet/column_reader.cc
+++ b/cpp/src/parquet/column_reader.cc
@@ -24,6 +24,7 @@
 #include <iostream>
 #include <memory>
 #include <string>
+#include <type_traits>
 #include <unordered_map>
 #include <utility>
 #include <vector>
@@ -60,7 +61,17 @@ using arrow::internal::MultiplyWithOverflow;
 namespace bit_util = arrow::bit_util;
 
 namespace parquet {
+
 namespace {
+
+// The minimum number of repetition/definition levels to decode at a time, for
+// better vectorized performance when doing many smaller record reads
+constexpr int64_t kMinLevelBatchSize = 1024;
+
+// Batch size for reading and throwing away values during skip.
+// Both RecordReader and the ColumnReader use this for skipping.
+constexpr int64_t kSkipScratchBatchSize = 1024;
+
 inline bool HasSpacedValues(const ColumnDescriptor* descr) {
   if (descr->max_repetition_level() > 0) {
     // repeated+flat case
@@ -112,8 +123,8 @@ int LevelDecoder::SetData(Encoding::type encoding, int16_t max_level,
       }
       const uint8_t* decoder_data = data + 4;
       if (!rle_decoder_) {
-        rle_decoder_.reset(
-            new ::arrow::util::RleDecoder(decoder_data, num_bytes, bit_width_));
+        rle_decoder_ = std::make_unique<::arrow::util::RleDecoder>(decoder_data,
+                                                                   num_bytes, bit_width_);
       } else {
         rle_decoder_->Reset(decoder_data, num_bytes, bit_width_);
       }
@@ -130,7 +141,8 @@ int LevelDecoder::SetData(Encoding::type encoding, int16_t max_level,
         throw ParquetException("Received invalid number of bytes (corrupt data page?)");
       }
       if (!bit_packed_decoder_) {
-        bit_packed_decoder_.reset(new ::arrow::bit_util::BitReader(data, num_bytes));
+        bit_packed_decoder_ =
+            std::make_unique<::arrow::bit_util::BitReader>(data, num_bytes);
       } else {
         bit_packed_decoder_->Reset(data, num_bytes);
       }
@@ -155,7 +167,8 @@ void LevelDecoder::SetDataV2(int32_t num_bytes, int16_t max_level,
   bit_width_ = bit_util::Log2(max_level + 1);
 
   if (!rle_decoder_) {
-    rle_decoder_.reset(new ::arrow::util::RleDecoder(data, num_bytes, bit_width_));
+    rle_decoder_ =
+        std::make_unique<::arrow::util::RleDecoder>(data, num_bytes, bit_width_);
   } else {
     rle_decoder_->Reset(data, num_bytes, bit_width_);
   }
@@ -213,6 +226,12 @@ EncodedStatistics ExtractStatsFromHeader(const H& header) {
   return page_statistics;
 }
 
+void CheckNumValuesInHeader(int num_values) {
+  if (num_values < 0) {
+    throw ParquetException("Invalid page header (negative number of values)");
+  }
+}
+
 // ----------------------------------------------------------------------
 // SerializedPageReader deserializes Thrift metadata and pages that have been
 // assembled in a serialized stream for storing in a Parquet files
@@ -222,15 +241,15 @@ EncodedStatistics ExtractStatsFromHeader(const H& header) {
 // and the page metadata.
 class SerializedPageReader : public PageReader {
  public:
-  SerializedPageReader(std::shared_ptr<ArrowInputStream> stream, int64_t total_num_rows,
+  SerializedPageReader(std::shared_ptr<ArrowInputStream> stream, int64_t total_num_values,
                        Compression::type codec, const ReaderProperties& properties,
                        const CryptoContext* crypto_ctx, bool always_compressed)
       : properties_(properties),
         stream_(std::move(stream)),
         decompression_buffer_(AllocateBuffer(properties_.memory_pool(), 0)),
         page_ordinal_(0),
-        seen_num_rows_(0),
-        total_num_rows_(total_num_rows),
+        seen_num_values_(0),
+        total_num_values_(total_num_values),
         decryption_buffer_(AllocateBuffer(properties_.memory_pool(), 0)) {
     if (crypto_ctx != nullptr) {
       crypto_ctx_ = *crypto_ctx;
@@ -248,7 +267,7 @@ class SerializedPageReader : public PageReader {
 
  private:
   void UpdateDecryption(const std::shared_ptr<Decryptor>& decryptor, int8_t module_type,
-                        const std::string& page_aad);
+                        std::string* page_aad);
 
   void InitDecryption();
 
@@ -256,6 +275,11 @@ class SerializedPageReader : public PageReader {
                                              int compressed_len, int uncompressed_len,
                                              int levels_byte_len = 0);
 
+  // Returns true for non-data pages, and if we should skip based on
+  // data_page_filter_. Performs basic checks on values in the page header.
+  // Fills in data_page_statistics.
+  bool ShouldSkipPage(EncodedStatistics* data_page_statistics);
+
   const ReaderProperties properties_;
   std::shared_ptr<ArrowInputStream> stream_;
 
@@ -278,16 +302,16 @@ class SerializedPageReader : public PageReader {
 
   // The ordinal fields in the context below are used for AAD suffix calculation.
   CryptoContext crypto_ctx_;
-  int16_t page_ordinal_;  // page ordinal does not count the dictionary page
+  int32_t page_ordinal_;  // page ordinal does not count the dictionary page
 
   // Maximum allowed page size
   uint32_t max_page_header_size_;
 
-  // Number of rows read in data pages so far
-  int64_t seen_num_rows_;
+  // Number of values read in data pages so far
+  int64_t seen_num_values_;
 
-  // Number of rows in all the data pages
-  int64_t total_num_rows_;
+  // Number of values in all the data pages
+  int64_t total_num_values_;
 
   // data_page_aad_ and data_page_header_aad_ contain the AAD for data page and data page
   // header in a single column respectively.
@@ -316,8 +340,7 @@ void SerializedPageReader::InitDecryption() {
 }
 
 void SerializedPageReader::UpdateDecryption(const std::shared_ptr<Decryptor>& decryptor,
-                                            int8_t module_type,
-                                            const std::string& page_aad) {
+                                            int8_t module_type, std::string* page_aad) {
   DCHECK(decryptor != nullptr);
   if (crypto_ctx_.start_decrypt_with_dictionary_page) {
     std::string aad = encryption::CreateModuleAad(
@@ -325,17 +348,66 @@ void SerializedPageReader::UpdateDecryption(const std::shared_ptr<Decryptor>& de
         crypto_ctx_.column_ordinal, kNonPageOrdinal);
     decryptor->UpdateAad(aad);
   } else {
-    encryption::QuickUpdatePageAad(page_aad, page_ordinal_);
-    decryptor->UpdateAad(page_aad);
+    encryption::QuickUpdatePageAad(page_ordinal_, page_aad);
+    decryptor->UpdateAad(*page_aad);
   }
 }
 
+bool SerializedPageReader::ShouldSkipPage(EncodedStatistics* data_page_statistics) {
+  const PageType::type page_type = LoadEnumSafe(&current_page_header_.type);
+  if (page_type == PageType::DATA_PAGE) {
+    const format::DataPageHeader& header = current_page_header_.data_page_header;
+    CheckNumValuesInHeader(header.num_values);
+    *data_page_statistics = ExtractStatsFromHeader(header);
+    seen_num_values_ += header.num_values;
+    if (data_page_filter_) {
+      const EncodedStatistics* filter_statistics =
+          data_page_statistics->is_set() ? data_page_statistics : nullptr;
+      DataPageStats data_page_stats(filter_statistics, header.num_values,
+                                    /*num_rows=*/std::nullopt);
+      if (data_page_filter_(data_page_stats)) {
+        return true;
+      }
+    }
+  } else if (page_type == PageType::DATA_PAGE_V2) {
+    const format::DataPageHeaderV2& header = current_page_header_.data_page_header_v2;
+    CheckNumValuesInHeader(header.num_values);
+    if (header.num_rows < 0) {
+      throw ParquetException("Invalid page header (negative number of rows)");
+    }
+    if (header.definition_levels_byte_length < 0 ||
+        header.repetition_levels_byte_length < 0) {
+      throw ParquetException("Invalid page header (negative levels byte length)");
+    }
+    *data_page_statistics = ExtractStatsFromHeader(header);
+    seen_num_values_ += header.num_values;
+    if (data_page_filter_) {
+      const EncodedStatistics* filter_statistics =
+          data_page_statistics->is_set() ? data_page_statistics : nullptr;
+      DataPageStats data_page_stats(filter_statistics, header.num_values,
+                                    header.num_rows);
+      if (data_page_filter_(data_page_stats)) {
+        return true;
+      }
+    }
+  } else if (page_type == PageType::DICTIONARY_PAGE) {
+    const format::DictionaryPageHeader& dict_header =
+        current_page_header_.dictionary_page_header;
+    CheckNumValuesInHeader(dict_header.num_values);
+  } else {
+    // We don't know what this page type is. We're allowed to skip non-data
+    // pages.
+    return true;
+  }
+  return false;
+}
+
 std::shared_ptr<Page> SerializedPageReader::NextPage() {
   ThriftDeserializer deserializer(properties_);
 
   // Loop here because there may be unhandled page types that we skip until
   // finding a page that we do know what to do with
-  while (seen_num_rows_ < total_num_rows_) {
+  while (seen_num_values_ < total_num_values_) {
     uint32_t header_size = 0;
     uint32_t allowed_page_size = kDefaultPageHeaderSize;
 
@@ -353,7 +425,7 @@ std::shared_ptr<Page> SerializedPageReader::NextPage() {
       try {
         if (crypto_ctx_.meta_decryptor != nullptr) {
           UpdateDecryption(crypto_ctx_.meta_decryptor, encryption::kDictionaryPageHeader,
-                           data_page_header_aad_);
+                           &data_page_header_aad_);
         }
         deserializer.DeserializeMessage(reinterpret_cast<const uint8_t*>(view.data()),
                                         &header_size, &current_page_header_,
@@ -379,9 +451,15 @@ std::shared_ptr<Page> SerializedPageReader::NextPage() {
       throw ParquetException("Invalid page header");
     }
 
+    EncodedStatistics data_page_statistics;
+    if (ShouldSkipPage(&data_page_statistics)) {
+      PARQUET_THROW_NOT_OK(stream_->Advance(compressed_len));
+      continue;
+    }
+
     if (crypto_ctx_.data_decryptor != nullptr) {
       UpdateDecryption(crypto_ctx_.data_decryptor, encryption::kDictionaryPage,
-                       data_page_aad_);
+                       &data_page_aad_);
     }
 
     // Read the compressed data page.
@@ -396,26 +474,22 @@ std::shared_ptr<Page> SerializedPageReader::NextPage() {
     // Decrypt it if we need to
     if (crypto_ctx_.data_decryptor != nullptr) {
       PARQUET_THROW_NOT_OK(decryption_buffer_->Resize(
-          compressed_len - crypto_ctx_.data_decryptor->CiphertextSizeDelta(), false));
+          compressed_len - crypto_ctx_.data_decryptor->CiphertextSizeDelta(),
+          /*shrink_to_fit=*/false));
       compressed_len = crypto_ctx_.data_decryptor->Decrypt(
           page_buffer->data(), compressed_len, decryption_buffer_->mutable_data());
 
       page_buffer = decryption_buffer_;
     }
 
+    // Uncompress and construct the pages to return.
     const PageType::type page_type = LoadEnumSafe(&current_page_header_.type);
-
     if (page_type == PageType::DICTIONARY_PAGE) {
       crypto_ctx_.start_decrypt_with_dictionary_page = false;
       const format::DictionaryPageHeader& dict_header =
           current_page_header_.dictionary_page_header;
-
       bool is_sorted = dict_header.__isset.is_sorted ? dict_header.is_sorted : false;
-      if (dict_header.num_values < 0) {
-        throw ParquetException("Invalid page header (negative number of values)");
-      }
 
-      // Uncompress if needed
       page_buffer =
           DecompressIfNeeded(std::move(page_buffer), compressed_len, uncompressed_len);
 
@@ -425,14 +499,6 @@ std::shared_ptr<Page> SerializedPageReader::NextPage() {
     } else if (page_type == PageType::DATA_PAGE) {
       ++page_ordinal_;
       const format::DataPageHeader& header = current_page_header_.data_page_header;
-
-      if (header.num_values < 0) {
-        throw ParquetException("Invalid page header (negative number of values)");
-      }
-      EncodedStatistics page_statistics = ExtractStatsFromHeader(header);
-      seen_num_rows_ += header.num_values;
-
-      // Uncompress if needed
       page_buffer =
           DecompressIfNeeded(std::move(page_buffer), compressed_len, uncompressed_len);
 
@@ -440,24 +506,15 @@ std::shared_ptr<Page> SerializedPageReader::NextPage() {
                                           LoadEnumSafe(&header.encoding),
                                           LoadEnumSafe(&header.definition_level_encoding),
                                           LoadEnumSafe(&header.repetition_level_encoding),
-                                          uncompressed_len, page_statistics);
+                                          uncompressed_len, data_page_statistics);
     } else if (page_type == PageType::DATA_PAGE_V2) {
       ++page_ordinal_;
       const format::DataPageHeaderV2& header = current_page_header_.data_page_header_v2;
 
-      if (header.num_values < 0) {
-        throw ParquetException("Invalid page header (negative number of values)");
-      }
-      if (header.definition_levels_byte_length < 0 ||
-          header.repetition_levels_byte_length < 0) {
-        throw ParquetException("Invalid page header (negative levels byte length)");
-      }
       // Arrow prior to 3.0.0 set is_compressed to false but still compressed.
       bool is_compressed =
           (header.__isset.is_compressed ? header.is_compressed : false) ||
           always_compressed_;
-      EncodedStatistics page_statistics = ExtractStatsFromHeader(header);
-      seen_num_rows_ += header.num_values;
 
       // Uncompress if needed
       int levels_byte_len;
@@ -476,11 +533,10 @@ std::shared_ptr<Page> SerializedPageReader::NextPage() {
           page_buffer, header.num_values, header.num_nulls, header.num_rows,
           LoadEnumSafe(&header.encoding), header.definition_levels_byte_length,
           header.repetition_levels_byte_length, uncompressed_len, is_compressed,
-          page_statistics);
+          data_page_statistics);
     } else {
-      // We don't know what this page type is. We're allowed to skip non-data
-      // pages.
-      continue;
+      throw ParquetException(
+          "Internal error, we have already skipped non-data pages in ShouldSkipPage()");
     }
   }
   return std::shared_ptr<Page>(nullptr);
@@ -498,7 +554,8 @@ std::shared_ptr<Buffer> SerializedPageReader::DecompressIfNeeded(
 
   // Grow the uncompressed buffer if we need to.
   if (uncompressed_len > static_cast<int>(decompression_buffer_->size())) {
-    PARQUET_THROW_NOT_OK(decompression_buffer_->Resize(uncompressed_len, false));
+    PARQUET_THROW_NOT_OK(
+        decompression_buffer_->Resize(uncompressed_len, /*shrink_to_fit=*/false));
   }
 
   if (levels_byte_len > 0) {
@@ -519,23 +576,23 @@ std::shared_ptr<Buffer> SerializedPageReader::DecompressIfNeeded(
 }  // namespace
 
 std::unique_ptr<PageReader> PageReader::Open(std::shared_ptr<ArrowInputStream> stream,
-                                             int64_t total_num_rows,
+                                             int64_t total_num_values,
                                              Compression::type codec,
                                              const ReaderProperties& properties,
                                              bool always_compressed,
                                              const CryptoContext* ctx) {
   return std::unique_ptr<PageReader>(new SerializedPageReader(
-      std::move(stream), total_num_rows, codec, properties, ctx, always_compressed));
+      std::move(stream), total_num_values, codec, properties, ctx, always_compressed));
 }
 
 std::unique_ptr<PageReader> PageReader::Open(std::shared_ptr<ArrowInputStream> stream,
-                                             int64_t total_num_rows,
+                                             int64_t total_num_values,
                                              Compression::type codec,
                                              bool always_compressed,
                                              ::arrow::MemoryPool* pool,
                                              const CryptoContext* ctx) {
   return std::unique_ptr<PageReader>(
-      new SerializedPageReader(std::move(stream), total_num_rows, codec,
+      new SerializedPageReader(std::move(stream), total_num_values, codec,
                                ReaderProperties(pool), ctx, always_compressed));
 }
 
@@ -752,8 +809,11 @@ class ColumnReaderImplBase {
       repetition_level_decoder_.SetDataV2(page.repetition_levels_byte_length(),
                                           max_rep_level_,
                                           static_cast<int>(num_buffered_values_), buffer);
-      buffer += page.repetition_levels_byte_length();
     }
+    // ARROW-17453: Even if max_rep_level_ is 0, there may still be
+    // repetition level bytes written and/or reported in the header by
+    // some writers (e.g. Athena)
+    buffer += page.repetition_levels_byte_length();
 
     if (max_def_level_ > 0) {
       definition_level_decoder_.SetDataV2(page.definition_levels_byte_length(),
@@ -798,6 +858,12 @@ class ColumnReaderImplBase {
           decoders_[static_cast<int>(encoding)] = std::move(decoder);
           break;
         }
+        case Encoding::RLE: {
+          auto decoder = MakeTypedDecoder<DType>(Encoding::RLE, descr_);
+          current_decoder_ = decoder.get();
+          decoders_[static_cast<int>(encoding)] = std::move(decoder);
+          break;
+        }
         case Encoding::RLE_DICTIONARY:
           throw ParquetException("Dictionary page must be before data page.");
 
@@ -830,6 +896,10 @@ class ColumnReaderImplBase {
                               static_cast<int>(data_size));
   }
 
+  int64_t available_values_current_page() const {
+    return num_buffered_values_ - num_decoded_values_;
+  }
+
   const ColumnDescriptor* descr_;
   const int16_t max_def_level_;
   const int16_t max_rep_level_;
@@ -901,7 +971,7 @@ class TypedColumnReaderImpl : public TypedColumnReader<DType>,
                           int64_t* levels_read, int64_t* values_read,
                           int64_t* null_count) override;
 
-  int64_t Skip(int64_t num_rows_to_skip) override;
+  int64_t Skip(int64_t num_values_to_skip) override;
 
   Type::type type() const override { return this->descr_->physical_type(); }
 
@@ -919,6 +989,14 @@ class TypedColumnReaderImpl : public TypedColumnReader<DType>,
     this->exposed_encoding_ = encoding;
   }
 
+  // Allocate enough scratch space to accommodate skipping 16-bit levels or any
+  // value type.
+  void InitScratchForSkip();
+
+  // Scratch space for reading and throwing away rep/def levels and values when
+  // skipping.
+  std::shared_ptr<ResizableBuffer> scratch_for_skip_;
+
  private:
   // Read dictionary indices. Similar to ReadValues but decode data to dictionary indices.
   // This function is called only by ReadBatchWithDictionary().
@@ -1002,7 +1080,7 @@ int64_t TypedColumnReaderImpl<DType>::ReadBatchWithDictionary(
 
   // Read dictionary indices.
   *indices_read = ReadDictionaryIndices(indices_to_read, indices);
-  int64_t total_indices = std::max(num_def_levels, *indices_read);
+  int64_t total_indices = std::max<int64_t>(num_def_levels, *indices_read);
   // Some callers use a batch size of 0 just to get the dictionary.
   int64_t expected_values =
       std::min(batch_size, this->num_buffered_values_ - this->num_decoded_values_);
@@ -1033,7 +1111,7 @@ int64_t TypedColumnReaderImpl<DType>::ReadBatch(int64_t batch_size, int16_t* def
   ReadLevels(batch_size, def_levels, rep_levels, &num_def_levels, &values_to_read);
 
   *values_read = this->ReadValues(values_to_read, values);
-  int64_t total_values = std::max(num_def_levels, *values_read);
+  int64_t total_values = std::max<int64_t>(num_def_levels, *values_read);
   int64_t expected_values =
       std::min(batch_size, this->num_buffered_values_ - this->num_decoded_values_);
   if (total_values == 0 && expected_values > 0) {
@@ -1130,38 +1208,43 @@ int64_t TypedColumnReaderImpl<DType>::ReadBatchSpaced(
 }
 
 template <typename DType>
-int64_t TypedColumnReaderImpl<DType>::Skip(int64_t num_rows_to_skip) {
-  int64_t rows_to_skip = num_rows_to_skip;
-  while (HasNext() && rows_to_skip > 0) {
-    // If the number of rows to skip is more than the number of undecoded values, skip the
-    // Page.
-    if (rows_to_skip > (this->num_buffered_values_ - this->num_decoded_values_)) {
-      rows_to_skip -= this->num_buffered_values_ - this->num_decoded_values_;
-      this->num_decoded_values_ = this->num_buffered_values_;
+void TypedColumnReaderImpl<DType>::InitScratchForSkip() {
+  if (this->scratch_for_skip_ == nullptr) {
+    int value_size = type_traits<DType::type_num>::value_byte_size;
+    this->scratch_for_skip_ = AllocateBuffer(
+        this->pool_, kSkipScratchBatchSize * std::max<int>(sizeof(int16_t), value_size));
+  }
+}
+
+template <typename DType>
+int64_t TypedColumnReaderImpl<DType>::Skip(int64_t num_values_to_skip) {
+  int64_t values_to_skip = num_values_to_skip;
+  // Optimization: Do not call HasNext() when values_to_skip == 0.
+  while (values_to_skip > 0 && HasNext()) {
+    // If the number of values to skip is more than the number of undecoded values, skip
+    // the Page.
+    const int64_t available_values = this->available_values_current_page();
+    if (values_to_skip >= available_values) {
+      values_to_skip -= available_values;
+      this->ConsumeBufferedValues(available_values);
     } else {
       // We need to read this Page
       // Jump to the right offset in the Page
-      int64_t batch_size = 1024;  // ReadBatch with a smaller memory footprint
       int64_t values_read = 0;
-
-      // This will be enough scratch space to accommodate 16-bit levels or any
-      // value type
-      int value_size = type_traits<DType::type_num>::value_byte_size;
-      std::shared_ptr<ResizableBuffer> scratch = AllocateBuffer(
-          this->pool_, batch_size * std::max<int>(sizeof(int16_t), value_size));
-
+      InitScratchForSkip();
+      ARROW_DCHECK_NE(this->scratch_for_skip_, nullptr);
       do {
-        batch_size = std::min(batch_size, rows_to_skip);
-        values_read =
-            ReadBatch(static_cast<int>(batch_size),
-                      reinterpret_cast<int16_t*>(scratch->mutable_data()),
-                      reinterpret_cast<int16_t*>(scratch->mutable_data()),
-                      reinterpret_cast<T*>(scratch->mutable_data()), &values_read);
-        rows_to_skip -= values_read;
-      } while (values_read > 0 && rows_to_skip > 0);
+        int64_t batch_size = std::min(kSkipScratchBatchSize, values_to_skip);
+        values_read = ReadBatch(
+            static_cast<int>(batch_size),
+            reinterpret_cast<int16_t*>(this->scratch_for_skip_->mutable_data()),
+            reinterpret_cast<int16_t*>(this->scratch_for_skip_->mutable_data()),
+            reinterpret_cast<T*>(this->scratch_for_skip_->mutable_data()), &values_read);
+        values_to_skip -= values_read;
+      } while (values_read > 0 && values_to_skip > 0);
     }
   }
-  return num_rows_to_skip - rows_to_skip;
+  return num_values_to_skip - values_to_skip;
 }
 
 }  // namespace
@@ -1208,27 +1291,24 @@ std::shared_ptr<ColumnReader> ColumnReader::Make(const ColumnDescriptor* descr,
 // RecordReader
 
 namespace internal {
-namespace {
 
-// The minimum number of repetition/definition levels to decode at a time, for
-// better vectorized performance when doing many smaller record reads
-constexpr int64_t kMinLevelBatchSize = 1024;
+namespace {
 
 template <typename DType>
-class TypedRecordReader : public ColumnReaderImplBase<DType>,
+class TypedRecordReader : public TypedColumnReaderImpl<DType>,
                           virtual public RecordReader {
  public:
   using T = typename DType::c_type;
-  using BASE = ColumnReaderImplBase<DType>;
+  using BASE = TypedColumnReaderImpl<DType>;
   TypedRecordReader(const ColumnDescriptor* descr, LevelInfo leaf_info, MemoryPool* pool)
-      : BASE(descr, pool) {
+      // Pager must be set using SetPageReader.
+      : BASE(descr, /* pager = */ nullptr, pool) {
     leaf_info_ = leaf_info;
     nullable_values_ = leaf_info.HasNullableValues();
     at_record_start_ = true;
-    records_read_ = 0;
     values_written_ = 0;
-    values_capacity_ = 0;
     null_count_ = 0;
+    values_capacity_ = 0;
     levels_written_ = 0;
     levels_position_ = 0;
     levels_capacity_ = 0;
@@ -1243,10 +1323,6 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
     Reset();
   }
 
-  int64_t available_values_current_page() const {
-    return this->num_buffered_values_ - this->num_decoded_values_;
-  }
-
   // Compute the values capacity in bytes for the given number of elements
   int64_t bytes_for_values(int64_t nitems) const {
     int64_t type_size = GetTypeByteSize(this->descr_->physical_type());
@@ -1265,7 +1341,7 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
       records_read += ReadRecordData(num_records);
     }
 
-    int64_t level_batch_size = std::max(kMinLevelBatchSize, num_records);
+    int64_t level_batch_size = std::max<int64_t>(kMinLevelBatchSize, num_records);
 
     // If we are in the middle of a record, we continue until reaching the
     // desired number of records or the end of the current record if we've found
@@ -1285,7 +1361,8 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
 
       /// We perform multiple batch reads until we either exhaust the row group
       /// or observe the desired number of records
-      int64_t batch_size = std::min(level_batch_size, available_values_current_page());
+      int64_t batch_size =
+          std::min(level_batch_size, this->available_values_current_page());
 
       // No more data in column
       if (batch_size == 0) {
@@ -1326,6 +1403,222 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
     return records_read;
   }
 
+  // Throw away levels from start_levels_position to levels_position_.
+  // Will update levels_position_, levels_written_, and levels_capacity_
+  // accordingly and move the levels to left to fill in the gap.
+  // It will resize the buffer without releasing the memory allocation.
+  void ThrowAwayLevels(int64_t start_levels_position) {
+    ARROW_DCHECK_LE(levels_position_, levels_written_);
+    ARROW_DCHECK_LE(start_levels_position, levels_position_);
+    ARROW_DCHECK_GT(this->max_def_level_, 0);
+    ARROW_DCHECK_NE(def_levels_, nullptr);
+
+    int64_t gap = levels_position_ - start_levels_position;
+    if (gap == 0) return;
+
+    int64_t levels_remaining = levels_written_ - gap;
+
+    auto left_shift = [&](::arrow::ResizableBuffer* buffer) {
+      int16_t* data = reinterpret_cast<int16_t*>(buffer->mutable_data());
+      std::copy(data + levels_position_, data + levels_written_,
+                data + start_levels_position);
+      PARQUET_THROW_NOT_OK(buffer->Resize(levels_remaining * sizeof(int16_t),
+                                          /*shrink_to_fit=*/false));
+    };
+
+    left_shift(def_levels_.get());
+
+    if (this->max_rep_level_ > 0) {
+      ARROW_DCHECK_NE(rep_levels_, nullptr);
+      left_shift(rep_levels_.get());
+    }
+
+    levels_written_ -= gap;
+    levels_position_ -= gap;
+    levels_capacity_ -= gap;
+  }
+
+  // Skip records that we have in our buffer. This function is only for
+  // non-repeated fields.
+  int64_t SkipRecordsInBufferNonRepeated(int64_t num_records) {
+    ARROW_DCHECK_EQ(this->max_rep_level_, 0);
+    if (!this->has_values_to_process() || num_records == 0) return 0;
+
+    int64_t remaining_records = levels_written_ - levels_position_;
+    int64_t skipped_records = std::min(num_records, remaining_records);
+    int64_t start_levels_position = levels_position_;
+    // Since there is no repetition, number of levels equals number of records.
+    levels_position_ += skipped_records;
+
+    // We skipped the levels by incrementing 'levels_position_'. For values
+    // we do not have a buffer, so we need to read them and throw them away.
+    // First we need to figure out how many present/not-null values there are.
+    std::shared_ptr<::arrow::ResizableBuffer> valid_bits;
+    valid_bits = AllocateBuffer(this->pool_);
+    PARQUET_THROW_NOT_OK(valid_bits->Resize(bit_util::BytesForBits(skipped_records),
+                                            /*shrink_to_fit=*/true));
+    ValidityBitmapInputOutput validity_io;
+    validity_io.values_read_upper_bound = skipped_records;
+    validity_io.valid_bits = valid_bits->mutable_data();
+    validity_io.valid_bits_offset = 0;
+    DefLevelsToBitmap(def_levels() + start_levels_position, skipped_records,
+                      this->leaf_info_, &validity_io);
+    int64_t values_to_read = validity_io.values_read - validity_io.null_count;
+
+    // Now that we have figured out number of values to read, we do not need
+    // these levels anymore. We will remove these values from the buffer.
+    // This requires shifting the levels in the buffer to left. So this will
+    // update levels_position_ and levels_written_.
+    ThrowAwayLevels(start_levels_position);
+    // For values, we do not have them in buffer, so we will read them and
+    // throw them away.
+    ReadAndThrowAwayValues(values_to_read);
+
+    // Mark the levels as read in the underlying column reader.
+    this->ConsumeBufferedValues(skipped_records);
+
+    return skipped_records;
+  }
+
+  // Attempts to skip num_records from the buffer. Will throw away levels
+  // and corresponding values for the records it skipped and consumes them from the
+  // underlying decoder. Will advance levels_position_ and update
+  // at_record_start_.
+  // Returns how many records were skipped.
+  int64_t DelimitAndSkipRecordsInBuffer(int64_t num_records) {
+    if (num_records == 0) return 0;
+    // Look at the buffered levels, delimit them based on
+    // (rep_level == 0), report back how many records are in there, and
+    // fill in how many not-null values (def_level == max_def_level_).
+    // DelimitRecords updates levels_position_.
+    int64_t start_levels_position = levels_position_;
+    int64_t values_seen = 0;
+    int64_t skipped_records = DelimitRecords(num_records, &values_seen);
+    ReadAndThrowAwayValues(values_seen);
+    // Mark those levels and values as consumed in the the underlying page.
+    // This must be done before we throw away levels since it updates
+    // levels_position_ and levels_written_.
+    this->ConsumeBufferedValues(levels_position_ - start_levels_position);
+    // Updated levels_position_ and levels_written_.
+    ThrowAwayLevels(start_levels_position);
+    return skipped_records;
+  }
+
+  // Skip records for repeated fields. For repeated fields, we are technically
+  // reading and throwing away the levels and values since we do not know the record
+  // boundaries in advance. Keep filling the buffer and skipping until we reach the
+  // desired number of records or we run out of values in the column chunk.
+  // Returns number of skipped records.
+  int64_t SkipRecordsRepeated(int64_t num_records) {
+    ARROW_DCHECK_GT(this->max_rep_level_, 0);
+    int64_t skipped_records = 0;
+
+    // First consume what is in the buffer.
+    if (levels_position_ < levels_written_) {
+      // This updates at_record_start_.
+      skipped_records = DelimitAndSkipRecordsInBuffer(num_records);
+    }
+
+    int64_t level_batch_size =
+        std::max<int64_t>(kMinLevelBatchSize, num_records - skipped_records);
+
+    // If 'at_record_start_' is false, but (skipped_records == num_records), it
+    // means that for the last record that was counted, we have not seen all
+    // of it's values yet.
+    while (!at_record_start_ || skipped_records < num_records) {
+      // Is there more data to read in this row group?
+      // HasNextInternal() will advance to the next page if necessary.
+      if (!this->HasNextInternal()) {
+        if (!at_record_start_) {
+          // We ended the row group while inside a record that we haven't seen
+          // the end of yet. So increment the record count for the last record
+          // in the row group
+          ++skipped_records;
+          at_record_start_ = true;
+        }
+        break;
+      }
+
+      // Read some more levels.
+      int64_t batch_size =
+          std::min(level_batch_size, this->available_values_current_page());
+      // No more data in column. This must be an empty page.
+      // If we had exhausted the last page, HasNextInternal() must have advanced
+      // to the next page. So there must be available values to process.
+      if (batch_size == 0) {
+        break;
+      }
+
+      // For skip we will read the levels and append them to the end
+      // of the def_levels and rep_levels just like for read.
+      ReserveLevels(batch_size);
+
+      int16_t* def_levels = this->def_levels() + levels_written_;
+      int16_t* rep_levels = this->rep_levels() + levels_written_;
+
+      int64_t levels_read = 0;
+      levels_read = this->ReadDefinitionLevels(batch_size, def_levels);
+      if (this->ReadRepetitionLevels(batch_size, rep_levels) != levels_read) {
+        throw ParquetException("Number of decoded rep / def levels did not match");
+      }
+
+      levels_written_ += levels_read;
+      int64_t remaining_records = num_records - skipped_records;
+      // This updates at_record_start_.
+      skipped_records += DelimitAndSkipRecordsInBuffer(remaining_records);
+    }
+
+    return skipped_records;
+  }
+
+  // Read 'num_values' values and throw them away.
+  // Throws an error if it could not read 'num_values'.
+  void ReadAndThrowAwayValues(int64_t num_values) {
+    int64_t values_left = num_values;
+    int64_t values_read = 0;
+
+    // Allocate enough scratch space to accommodate 16-bit levels or any
+    // value type
+    this->InitScratchForSkip();
+    ARROW_DCHECK_NE(this->scratch_for_skip_, nullptr);
+    do {
+      int64_t batch_size = std::min<int64_t>(kSkipScratchBatchSize, values_left);
+      values_read = this->ReadValues(
+          batch_size, reinterpret_cast<T*>(this->scratch_for_skip_->mutable_data()));
+      values_left -= values_read;
+    } while (values_read > 0 && values_left > 0);
+    if (values_left > 0) {
+      std::stringstream ss;
+      ss << "Could not read and throw away " << num_values << " values";
+      throw ParquetException(ss.str());
+    }
+  }
+
+  int64_t SkipRecords(int64_t num_records) override {
+    // Top level required field. Number of records equals to number of levels,
+    // and there is not read-ahead for levels.
+    if (this->max_rep_level_ == 0 && this->max_def_level_ == 0) {
+      return this->Skip(num_records);
+    }
+    int64_t skipped_records = 0;
+    if (this->max_rep_level_ == 0) {
+      // Non-repeated optional field.
+      // First consume whatever is in the buffer.
+      skipped_records = SkipRecordsInBufferNonRepeated(num_records);
+
+      ARROW_DCHECK_LE(skipped_records, num_records);
+
+      // For records that we have not buffered, we will use the column
+      // reader's Skip to do the remaining Skip. Since the field is not
+      // repeated number of levels to skip is the same as number of records
+      // to skip.
+      skipped_records += this->Skip(num_records - skipped_records);
+    } else {
+      skipped_records += this->SkipRecordsRepeated(num_records);
+    }
+    return skipped_records;
+  }
+
   // We may outwardly have the appearance of having exhausted a column chunk
   // when in fact we are in the middle of processing the last batch
   bool has_values_to_process() const { return levels_position_ < levels_written_; }
@@ -1333,7 +1626,8 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
   std::shared_ptr<ResizableBuffer> ReleaseValues() override {
     if (uses_values_) {
       auto result = values_;
-      PARQUET_THROW_NOT_OK(result->Resize(bytes_for_values(values_written_), true));
+      PARQUET_THROW_NOT_OK(
+          result->Resize(bytes_for_values(values_written_), /*shrink_to_fit=*/true));
       values_ = AllocateBuffer(this->pool_);
       values_capacity_ = 0;
       return result;
@@ -1345,7 +1639,8 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
   std::shared_ptr<ResizableBuffer> ReleaseIsValid() override {
     if (leaf_info_.HasNullableValues()) {
       auto result = valid_bits_;
-      PARQUET_THROW_NOT_OK(result->Resize(bit_util::BytesForBits(values_written_), true));
+      PARQUET_THROW_NOT_OK(result->Resize(bit_util::BytesForBits(values_written_),
+                                          /*shrink_to_fit=*/true));
       valid_bits_ = AllocateBuffer(this->pool_);
       return result;
     } else {
@@ -1354,7 +1649,8 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
   }
 
   // Process written repetition/definition levels to reach the end of
-  // records. Process no more levels than necessary to delimit the indicated
+  // records. Only used for repeated fields.
+  // Process no more levels than necessary to delimit the indicated
   // number of logical records. Updates internal state of RecordReader
   //
   // \return Number of records delimited
@@ -1432,9 +1728,11 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
         if (MultiplyWithOverflow(new_levels_capacity, kItemSize, &capacity_in_bytes)) {
           throw ParquetException("Allocation size too large (corrupt file?)");
         }
-        PARQUET_THROW_NOT_OK(def_levels_->Resize(capacity_in_bytes, false));
+        PARQUET_THROW_NOT_OK(
+            def_levels_->Resize(capacity_in_bytes, /*shrink_to_fit=*/false));
         if (this->max_rep_level_ > 0) {
-          PARQUET_THROW_NOT_OK(rep_levels_->Resize(capacity_in_bytes, false));
+          PARQUET_THROW_NOT_OK(
+              rep_levels_->Resize(capacity_in_bytes, /*shrink_to_fit=*/false));
         }
         levels_capacity_ = new_levels_capacity;
       }
@@ -1448,8 +1746,8 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
       // XXX(wesm): A hack to avoid memory allocation when reading directly
       // into builder classes
       if (uses_values_) {
-        PARQUET_THROW_NOT_OK(
-            values_->Resize(bytes_for_values(new_values_capacity), false));
+        PARQUET_THROW_NOT_OK(values_->Resize(bytes_for_values(new_values_capacity),
+                                             /*shrink_to_fit=*/false));
       }
       values_capacity_ = new_values_capacity;
     }
@@ -1457,7 +1755,8 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
       int64_t valid_bytes_new = bit_util::BytesForBits(values_capacity_);
       if (valid_bits_->size() < valid_bytes_new) {
         int64_t valid_bytes_old = bit_util::BytesForBits(values_written_);
-        PARQUET_THROW_NOT_OK(valid_bits_->Resize(valid_bytes_new, false));
+        PARQUET_THROW_NOT_OK(
+            valid_bits_->Resize(valid_bytes_new, /*shrink_to_fit=*/false));
 
         // Avoid valgrind warnings
         memset(valid_bits_->mutable_data() + valid_bytes_old, 0,
@@ -1470,29 +1769,10 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
     ResetValues();
 
     if (levels_written_ > 0) {
-      const int64_t levels_remaining = levels_written_ - levels_position_;
-      // Shift remaining levels to beginning of buffer and trim to only the number
-      // of decoded levels remaining
-      int16_t* def_data = def_levels();
-      int16_t* rep_data = rep_levels();
-
-      std::copy(def_data + levels_position_, def_data + levels_written_, def_data);
-      PARQUET_THROW_NOT_OK(
-          def_levels_->Resize(levels_remaining * sizeof(int16_t), false));
-
-      if (this->max_rep_level_ > 0) {
-        std::copy(rep_data + levels_position_, rep_data + levels_written_, rep_data);
-        PARQUET_THROW_NOT_OK(
-            rep_levels_->Resize(levels_remaining * sizeof(int16_t), false));
-      }
-
-      levels_written_ -= levels_position_;
-      levels_position_ = 0;
-      levels_capacity_ = levels_remaining;
+      // Throw away levels from 0 to levels_position_.
+      ThrowAwayLevels(0);
     }
 
-    records_read_ = 0;
-
     // Call Finish on the binary builders to reset them
   }
 
@@ -1527,7 +1807,7 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
   int64_t ReadRecordData(int64_t num_records) {
     // Conservative upper bound
     const int64_t possible_num_values =
-        std::max(num_records, levels_written_ - levels_position_);
+        std::max<int64_t>(num_records, levels_written_ - levels_position_);
     ReserveValues(possible_num_values);
 
     const int64_t start_levels_position = levels_position_;
@@ -1539,7 +1819,7 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
     } else if (this->max_def_level_ > 0) {
       // No repetition levels, skip delimiting logic. Each level represents a
       // null or not null entry
-      records_read = std::min(levels_written_ - levels_position_, num_records);
+      records_read = std::min<int64_t>(levels_written_ - levels_position_, num_records);
 
       // This is advanced by DelimitRecords, which we skipped
       levels_position_ += records_read;
@@ -1609,9 +1889,9 @@ class TypedRecordReader : public ColumnReaderImplBase<DType>,
     if (values_written_ > 0) {
       // Resize to 0, but do not shrink to fit
       if (uses_values_) {
-        PARQUET_THROW_NOT_OK(values_->Resize(0, false));
+        PARQUET_THROW_NOT_OK(values_->Resize(0, /*shrink_to_fit=*/false));
       }
-      PARQUET_THROW_NOT_OK(valid_bits_->Resize(0, false));
+      PARQUET_THROW_NOT_OK(valid_bits_->Resize(0, /*shrink_to_fit=*/false));
       values_written_ = 0;
       values_capacity_ = 0;
       null_count_ = 0;
@@ -1635,7 +1915,7 @@ class FLBARecordReader : public TypedRecordReader<FLBAType>,
     DCHECK_EQ(descr_->physical_type(), Type::FIXED_LEN_BYTE_ARRAY);
     int byte_width = descr_->type_length();
     std::shared_ptr<::arrow::DataType> type = ::arrow::fixed_size_binary(byte_width);
-    builder_.reset(new ::arrow::FixedSizeBinaryBuilder(type, this->pool_));
+    builder_ = std::make_unique<::arrow::FixedSizeBinaryBuilder>(type, this->pool_);
   }
 
   ::arrow::ArrayVector GetBuilderChunks() override {
@@ -1687,7 +1967,7 @@ class ByteArrayChunkedRecordReader : public TypedRecordReader<ByteArrayType>,
                                ::arrow::MemoryPool* pool)
       : TypedRecordReader<ByteArrayType>(descr, leaf_info, pool) {
     DCHECK_EQ(descr_->physical_type(), Type::BYTE_ARRAY);
-    accumulator_.builder.reset(new ::arrow::BinaryBuilder(pool));
+    accumulator_.builder = std::make_unique<::arrow::BinaryBuilder>(pool);
   }
 
   ::arrow::ArrayVector GetBuilderChunks() override {
diff --git a/cpp/src/parquet/column_reader.h b/cpp/src/parquet/column_reader.h
index 1d35e3988ca..b5f96f8fc4a 100644
--- a/cpp/src/parquet/column_reader.h
+++ b/cpp/src/parquet/column_reader.h
@@ -24,6 +24,7 @@
 
 #include "parquet/exception.h"
 #include "parquet/level_conversion.h"
+#include "parquet/metadata.h"
 #include "parquet/platform.h"
 #include "parquet/properties.h"
 #include "parquet/schema.h"
@@ -55,6 +56,26 @@ static constexpr uint32_t kDefaultMaxPageHeaderSize = 16 * 1024 * 1024;
 // 16 KB is the default expected page header size
 static constexpr uint32_t kDefaultPageHeaderSize = 16 * 1024;
 
+// \brief DataPageStats stores encoded statistics and number of values/rows for
+// a page.
+struct PARQUET_EXPORT DataPageStats {
+  DataPageStats(const EncodedStatistics* encoded_statistics, int32_t num_values,
+                std::optional<int32_t> num_rows)
+      : encoded_statistics(encoded_statistics),
+        num_values(num_values),
+        num_rows(num_rows) {}
+
+  // Encoded statistics extracted from the page header.
+  // Nullptr if there are no statistics in the page header.
+  const EncodedStatistics* encoded_statistics;
+  // Number of values stored in the page. Filled for both V1 and V2 data pages.
+  // For repeated fields, this can be greater than number of rows. For
+  // non-repeated fields, this will be the same as the number of rows.
+  int32_t num_values;
+  // Number of rows stored in the page. std::nullopt if not available.
+  std::optional<int32_t> num_rows;
+};
+
 class PARQUET_EXPORT LevelDecoder {
  public:
   LevelDecoder();
@@ -100,25 +121,44 @@ struct CryptoContext {
 // Abstract page iterator interface. This way, we can feed column pages to the
 // ColumnReader through whatever mechanism we choose
 class PARQUET_EXPORT PageReader {
+  using DataPageFilter = std::function<bool(const DataPageStats&)>;
+
  public:
   virtual ~PageReader() = default;
 
   static std::unique_ptr<PageReader> Open(
-      std::shared_ptr<ArrowInputStream> stream, int64_t total_num_rows,
+      std::shared_ptr<ArrowInputStream> stream, int64_t total_num_values,
       Compression::type codec, bool always_compressed = false,
       ::arrow::MemoryPool* pool = ::arrow::default_memory_pool(),
       const CryptoContext* ctx = NULLPTR);
   static std::unique_ptr<PageReader> Open(std::shared_ptr<ArrowInputStream> stream,
-                                          int64_t total_num_rows, Compression::type codec,
+                                          int64_t total_num_values,
+                                          Compression::type codec,
                                           const ReaderProperties& properties,
                                           bool always_compressed = false,
                                           const CryptoContext* ctx = NULLPTR);
 
+  // If data_page_filter is present (not null), NextPage() will call the
+  // callback function exactly once per page in the order the pages appear in
+  // the column. If the callback function returns true the page will be
+  // skipped. The callback will be called only if the page type is DATA_PAGE or
+  // DATA_PAGE_V2. Dictionary pages will not be skipped.
+  // Caller is responsible for checking that statistics are correct using
+  // ApplicationVersion::HasCorrectStatistics().
+  // \note API EXPERIMENTAL
+  void set_data_page_filter(DataPageFilter data_page_filter) {
+    data_page_filter_ = std::move(data_page_filter);
+  }
+
   // @returns: shared_ptr<Page>(nullptr) on EOS, std::shared_ptr<Page>
   // containing new Page otherwise
   virtual std::shared_ptr<Page> NextPage() = 0;
 
   virtual void set_max_page_header_size(uint32_t size) = 0;
+
+ protected:
+  // Callback that decides if we should skip a page or not.
+  DataPageFilter data_page_filter_;
 };
 
 class PARQUET_EXPORT ColumnReader {
@@ -218,9 +258,15 @@ class TypedColumnReader : public ColumnReader {
                                   int64_t valid_bits_offset, int64_t* levels_read,
                                   int64_t* values_read, int64_t* null_count) = 0;
 
-  // Skip reading levels
-  // Returns the number of levels skipped
-  virtual int64_t Skip(int64_t num_rows_to_skip) = 0;
+  // Skip reading values. This method will work for both repeated and
+  // non-repeated fields. Note that this method is skipping values and not
+  // records. This distinction is important for repeated fields, meaning that
+  // we are not skipping over the values to the next record. For example,
+  // consider the following two consecutive records containing one repeated field:
+  // {[1, 2, 3]}, {[4, 5]}. If we Skip(2), our next read value will be 3, which
+  // is inside the first record.
+  // Returns the number of values skipped.
+  virtual int64_t Skip(int64_t num_values_to_skip) = 0;
 
   // Read a batch of repetition levels, definition levels, and indices from the
   // column. And read the dictionary if a dictionary page is encountered during
@@ -260,7 +306,7 @@ namespace internal {
 ///
 /// \note API EXPERIMENTAL
 /// \since 1.3.0
-class RecordReader {
+class PARQUET_EXPORT RecordReader {
  public:
   static std::shared_ptr<RecordReader> Make(
       const ColumnDescriptor* descr, LevelInfo leaf_info,
@@ -270,9 +316,17 @@ class RecordReader {
   virtual ~RecordReader() = default;
 
   /// \brief Attempt to read indicated number of records from column chunk
+  /// Note that for repeated fields, a record may have more than one value
+  /// and all of them are read.
   /// \return number of records read
   virtual int64_t ReadRecords(int64_t num_records) = 0;
 
+  /// \brief Attempt to skip indicated number of records from column chunk.
+  /// Note that for repeated fields, a record may have more than one value
+  /// and all of them are skipped.
+  /// \return number of records skipped
+  virtual int64_t SkipRecords(int64_t num_records) = 0;
+
   /// \brief Pre-allocate space for data. Results in better flat read performance
   virtual void Reserve(int64_t num_values) = 0;
 
@@ -292,7 +346,8 @@ class RecordReader {
   /// process
   virtual bool HasMoreData() const = 0;
 
-  /// \brief Advance record reader to the next row group
+  /// \brief Advance record reader to the next row group. Must be set before
+  /// any records could be read/skipped.
   /// \param[in] reader obtained from RowGroupReader::GetColumnPageReader
   virtual void SetPageReader(std::unique_ptr<PageReader> reader) = 0;
 
@@ -312,6 +367,7 @@ class RecordReader {
   uint8_t* values() const { return values_->mutable_data(); }
 
   /// \brief Number of values written including nulls (if any)
+  /// There is no read-ahead/buffering for values.
   int64_t values_written() const { return values_written_; }
 
   /// \brief Number of definition / repetition levels (from those that have
@@ -319,10 +375,12 @@ class RecordReader {
   int64_t levels_position() const { return levels_position_; }
 
   /// \brief Number of definition / repetition levels that have been written
-  /// internally in the reader
+  /// internally in the reader. This may be larger than values_written() because
+  /// for repeated fields we need to look at the levels in advance to figure out
+  /// the record boundaries.
   int64_t levels_written() const { return levels_written_; }
 
-  /// \brief Number of nulls in the leaf
+  /// \brief Number of nulls in the leaf that we have read so far.
   int64_t null_count() const { return null_count_; }
 
   /// \brief True if the leaf values are nullable
@@ -332,28 +390,49 @@ class RecordReader {
   bool read_dictionary() const { return read_dictionary_; }
 
  protected:
+  /// \brief Indicates if we can have nullable values.
   bool nullable_values_;
 
   bool at_record_start_;
   int64_t records_read_;
 
+  /// \brief Stores values. These values are populated based on each ReadRecords
+  /// call. No extra values are buffered for the next call. SkipRecords will not
+  /// add any value to this buffer.
+  std::shared_ptr<::arrow::ResizableBuffer> values_;
+  /// \brief False for BYTE_ARRAY, in which case we don't allocate the values
+  /// buffer and we directly read into builder classes.
+  bool uses_values_;
+
+  /// \brief Values that we have read into 'values_' + 'null_count_'.
   int64_t values_written_;
   int64_t values_capacity_;
   int64_t null_count_;
 
-  int64_t levels_written_;
-  int64_t levels_position_;
-  int64_t levels_capacity_;
-
-  std::shared_ptr<::arrow::ResizableBuffer> values_;
-  // In the case of false, don't allocate the values buffer (when we directly read into
-  // builder classes).
-  bool uses_values_;
-
+  /// \brief Each bit corresponds to one element in 'values_' and specifies if it
+  /// is null or not null.
   std::shared_ptr<::arrow::ResizableBuffer> valid_bits_;
+
+  /// \brief Buffer for definition levels. May contain more levels than
+  /// is actually read. This is because we read levels ahead to
+  /// figure out record boundaries for repeated fields.
+  /// For flat required fields, 'def_levels_' and 'rep_levels_' are not
+  ///  populated. For non-repeated fields 'rep_levels_' is not populated.
+  /// 'def_levels_' and 'rep_levels_' must be of the same size if present.
   std::shared_ptr<::arrow::ResizableBuffer> def_levels_;
+  /// \brief Buffer for repetition levels. Only populated for repeated
+  /// fields.
   std::shared_ptr<::arrow::ResizableBuffer> rep_levels_;
 
+  /// \brief Number of definition / repetition levels that have been written
+  /// internally in the reader. This may be larger than values_written() since
+  /// for repeated fields we need to look at the levels in advance to figure out
+  /// the record boundaries.
+  int64_t levels_written_;
+  /// \brief Position of the next level that should be consumed.
+  int64_t levels_position_;
+  int64_t levels_capacity_;
+
   bool read_dictionary_ = false;
 };
 
diff --git a/cpp/src/parquet/column_reader_benchmark.cc b/cpp/src/parquet/column_reader_benchmark.cc
new file mode 100644
index 00000000000..00af976851f
--- /dev/null
+++ b/cpp/src/parquet/column_reader_benchmark.cc
@@ -0,0 +1,157 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "benchmark/benchmark.h"
+#include "parquet/column_page.h"
+#include "parquet/column_reader.h"
+#include "parquet/schema.h"
+#include "parquet/test_util.h"
+#include "parquet/types.h"
+
+namespace parquet {
+
+using benchmark::DoNotOptimize;
+using parquet::Repetition;
+using parquet::test::MakePages;
+using schema::NodePtr;
+
+namespace benchmark {
+
+class BenchmarkHelper {
+ public:
+  BenchmarkHelper(Repetition::type repetition, int num_pages, int levels_per_page) {
+    NodePtr type = schema::Int32("b", repetition);
+
+    if (repetition == Repetition::REQUIRED) {
+      descr_ = std::make_unique<ColumnDescriptor>(type, 0, 0);
+    } else if (repetition == Repetition::OPTIONAL) {
+      descr_ = std::make_unique<ColumnDescriptor>(type, 1, 0);
+    } else {
+      descr_ = std::make_unique<ColumnDescriptor>(type, 1, 1);
+    }
+
+    // Vectors filled with random rep/defs and values to make pages.
+    std::vector<int32_t> values;
+    std::vector<int16_t> def_levels;
+    std::vector<int16_t> rep_levels;
+    std::vector<uint8_t> data_buffer;
+    MakePages<Int32Type>(descr_.get(), num_pages, levels_per_page, def_levels, rep_levels,
+                         values, data_buffer, pages_, Encoding::PLAIN);
+    for (const auto& page : pages_) {
+      total_size_ += page->size();
+    }
+  }
+
+  Int32Reader* ResetReader() {
+    std::unique_ptr<PageReader> pager;
+    pager.reset(new test::MockPageReader(pages_));
+    column_reader_ = ColumnReader::Make(descr_.get(), std::move(pager));
+    return static_cast<Int32Reader*>(column_reader_.get());
+  }
+
+  int64_t total_size() const { return total_size_; }
+
+ private:
+  std::vector<std::shared_ptr<Page>> pages_;
+  std::unique_ptr<ColumnDescriptor> descr_;
+  std::shared_ptr<ColumnReader> column_reader_;
+  int64_t total_size_ = 0;
+};
+
+// Benchmarks Skip for ColumnReader with the following parameters in order:
+// - repetition: 0 for REQUIRED, 1 for OPTIONAL, 2 for REPEATED.
+// - batch_size: sets how many values to read at each call.
+static void ColumnReaderSkipInt32(::benchmark::State& state) {
+  const auto repetition = static_cast<Repetition::type>(state.range(0));
+  const auto batch_size = static_cast<int64_t>(state.range(1));
+
+  BenchmarkHelper helper(repetition, /*num_pages=*/16, /*levels_per_page=*/80000);
+
+  for (auto _ : state) {
+    state.PauseTiming();
+    Int32Reader* reader = helper.ResetReader();
+    int64_t values_count = -1;
+    state.ResumeTiming();
+    while (values_count != 0) {
+      DoNotOptimize(values_count = reader->Skip(batch_size));
+    }
+  }
+
+  state.SetBytesProcessed(state.iterations() * helper.total_size());
+}
+
+// Benchmarks ReadBatch for ColumnReader with the following parameters in order:
+// - repetition: 0 for REQUIRED, 1 for OPTIONAL, 2 for REPEATED.
+// - batch_size: sets how many values to read at each call.
+static void ColumnReaderReadBatchInt32(::benchmark::State& state) {
+  const auto repetition = static_cast<Repetition::type>(state.range(0));
+  const auto batch_size = static_cast<int64_t>(state.range(1));
+
+  BenchmarkHelper helper(repetition, /*num_pages=*/16, /*levels_per_page=*/80000);
+
+  // Vectors to read the values into.
+  std::vector<int32_t> read_values(batch_size, -1);
+  std::vector<int16_t> read_defs(batch_size, -1);
+  std::vector<int16_t> read_reps(batch_size, -1);
+  for (auto _ : state) {
+    state.PauseTiming();
+    Int32Reader* reader = helper.ResetReader();
+    int64_t values_count = -1;
+    state.ResumeTiming();
+    while (values_count != 0) {
+      int64_t values_read = 0;
+      DoNotOptimize(values_count =
+                        reader->ReadBatch(batch_size, read_defs.data(), read_reps.data(),
+                                          read_values.data(), &values_read));
+    }
+  }
+
+  state.SetBytesProcessed(state.iterations() * helper.total_size());
+}
+
+BENCHMARK(ColumnReaderSkipInt32)
+    ->ArgNames({"Repetition", "BatchSize"})
+    ->Args({0, 100})
+    ->Args({0, 1000})
+    ->Args({0, 10000})
+    ->Args({0, 100000})
+    ->Args({1, 100})
+    ->Args({1, 1000})
+    ->Args({1, 10000})
+    ->Args({1, 100000})
+    ->Args({2, 100})
+    ->Args({2, 1000})
+    ->Args({2, 10000})
+    ->Args({2, 100000});
+
+BENCHMARK(ColumnReaderReadBatchInt32)
+    ->ArgNames({"Repetition", "BatchSize"})
+    ->Args({0, 100})
+    ->Args({0, 1000})
+    ->Args({0, 10000})
+    ->Args({0, 100000})
+    ->Args({1, 100})
+    ->Args({1, 1000})
+    ->Args({1, 10000})
+    ->Args({1, 100000})
+    ->Args({2, 100})
+    ->Args({2, 1000})
+    ->Args({2, 10000})
+    ->Args({2, 100000});
+
+}  // namespace benchmark
+}  // namespace parquet
diff --git a/cpp/src/parquet/column_reader_test.cc b/cpp/src/parquet/column_reader_test.cc
index eddfdfb04e8..29414b6b4d0 100644
--- a/cpp/src/parquet/column_reader_test.cc
+++ b/cpp/src/parquet/column_reader_test.cc
@@ -15,6 +15,7 @@
 // specific language governing permissions and limitations
 // under the License.
 
+#include <gmock/gmock.h>
 #include <gtest/gtest.h>
 
 #include <algorithm>
@@ -26,8 +27,8 @@
 #include <utility>
 #include <vector>
 
+#include "arrow/array/array_binary.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/make_unique.h"
 #include "parquet/column_page.h"
 #include "parquet/column_reader.h"
 #include "parquet/schema.h"
@@ -36,7 +37,10 @@
 
 namespace parquet {
 
+using parquet::Repetition;
+using parquet::internal::BinaryRecordReader;
 using schema::NodePtr;
+using testing::ElementsAre;
 
 namespace test {
 
@@ -75,9 +79,8 @@ static inline bool vector_equal_with_def_levels(const std::vector<T>& left,
 class TestPrimitiveReader : public ::testing::Test {
  public:
   void InitReader(const ColumnDescriptor* d) {
-    std::unique_ptr<PageReader> pager_;
-    pager_.reset(new test::MockPageReader(pages_));
-    reader_ = ColumnReader::Make(d, std::move(pager_));
+    auto pager = std::make_unique<MockPageReader>(pages_);
+    reader_ = ColumnReader::Make(d, std::move(pager));
   }
 
   void CheckResults() {
@@ -261,9 +264,10 @@ TEST_F(TestPrimitiveReader, TestInt32FlatRepeated) {
   ASSERT_NO_FATAL_FAILURE(ExecuteDict(num_pages, levels_per_page, &descr));
 }
 
-TEST_F(TestPrimitiveReader, TestInt32FlatRequiredSkip) {
+// Tests skipping around page boundaries.
+TEST_F(TestPrimitiveReader, TestSkipAroundPageBoundries) {
   int levels_per_page = 100;
-  int num_pages = 5;
+  int num_pages = 7;
   max_def_level_ = 0;
   max_rep_level_ = 0;
   NodePtr type = schema::Int32("b", Repetition::REQUIRED);
@@ -287,36 +291,54 @@ TEST_F(TestPrimitiveReader, TestInt32FlatRequiredSkip) {
                     &values_read);
   std::vector<int32_t> sub_values(
       values_.begin() + 2 * levels_per_page,
-      values_.begin() + static_cast<int>(2.5 * static_cast<double>(levels_per_page)));
+      values_.begin() + static_cast<int>(2.5 * levels_per_page));
   ASSERT_TRUE(vector_equal(sub_values, vresult));
 
-  // 2) skip_size == page_size (skip across two pages)
+  // 2) skip_size == page_size (skip across two pages from page 2.5 to 3.5)
   levels_skipped = reader->Skip(levels_per_page);
   ASSERT_EQ(levels_per_page, levels_skipped);
-  // Read half a page
+  // Read half a page (page 3.5 to 4)
+  reader->ReadBatch(levels_per_page / 2, dresult.data(), rresult.data(), vresult.data(),
+                    &values_read);
+  sub_values.clear();
+  sub_values.insert(sub_values.end(),
+                    values_.begin() + static_cast<int>(3.5 * levels_per_page),
+                    values_.begin() + 4 * levels_per_page);
+  ASSERT_TRUE(vector_equal(sub_values, vresult));
+
+  // 3) skip_size == page_size (skip page 4 from start of the page to the end)
+  levels_skipped = reader->Skip(levels_per_page);
+  ASSERT_EQ(levels_per_page, levels_skipped);
+  // Read half a page (page 5 to 5.5)
   reader->ReadBatch(levels_per_page / 2, dresult.data(), rresult.data(), vresult.data(),
                     &values_read);
   sub_values.clear();
-  sub_values.insert(
-      sub_values.end(),
-      values_.begin() + static_cast<int>(3.5 * static_cast<double>(levels_per_page)),
-      values_.begin() + 4 * levels_per_page);
+  sub_values.insert(sub_values.end(),
+                    values_.begin() + static_cast<int>(5.0 * levels_per_page),
+                    values_.begin() + static_cast<int>(5.5 * levels_per_page));
   ASSERT_TRUE(vector_equal(sub_values, vresult));
 
-  // 3) skip_size < page_size (skip limited to a single page)
-  // Skip half a page
+  // 4) skip_size < page_size (skip limited to a single page)
+  // Skip half a page (page 5.5 to 6)
   levels_skipped = reader->Skip(levels_per_page / 2);
   ASSERT_EQ(0.5 * levels_per_page, levels_skipped);
-  // Read half a page
+  // Read half a page (6 to 6.5)
   reader->ReadBatch(levels_per_page / 2, dresult.data(), rresult.data(), vresult.data(),
                     &values_read);
   sub_values.clear();
-  sub_values.insert(
-      sub_values.end(),
-      values_.begin() + static_cast<int>(4.5 * static_cast<double>(levels_per_page)),
-      values_.end());
+  sub_values.insert(sub_values.end(),
+                    values_.begin() + static_cast<int>(6.0 * levels_per_page),
+                    values_.begin() + static_cast<int>(6.5 * levels_per_page));
   ASSERT_TRUE(vector_equal(sub_values, vresult));
 
+  // 5) skip_size = 0
+  levels_skipped = reader->Skip(0);
+  ASSERT_EQ(0, levels_skipped);
+
+  // 6) Skip past the end page.
+  levels_skipped = reader->Skip(levels_per_page / 2 + 10);
+  ASSERT_EQ(levels_per_page / 2, levels_skipped);
+
   values_.clear();
   def_levels_.clear();
   rep_levels_.clear();
@@ -324,6 +346,55 @@ TEST_F(TestPrimitiveReader, TestInt32FlatRequiredSkip) {
   reader_.reset();
 }
 
+// Skip with repeated field. This test makes it clear that we are skipping
+// values and not records.
+TEST_F(TestPrimitiveReader, TestSkipRepeatedField) {
+  // Example schema: message M { repeated int32 b = 1 }
+  max_def_level_ = 1;
+  max_rep_level_ = 1;
+  NodePtr type = schema::Int32("b", Repetition::REPEATED);
+  const ColumnDescriptor descr(type, max_def_level_, max_rep_level_);
+  // Example rows: {}, {[10, 10]}, {[20, 20, 20]}
+  std::vector<int32_t> values = {10, 10, 20, 20, 20};
+  std::vector<int16_t> def_levels = {0, 1, 1, 1, 1, 1};
+  std::vector<int16_t> rep_levels = {0, 0, 1, 0, 1, 1};
+  num_values_ = static_cast<int>(def_levels.size());
+  std::shared_ptr<DataPageV1> page = MakeDataPage<Int32Type>(
+      &descr, values, num_values_, Encoding::PLAIN, /*indices=*/{},
+      /*indices_size=*/0, def_levels, max_def_level_, rep_levels, max_rep_level_);
+
+  pages_.push_back(std::move(page));
+
+  InitReader(&descr);
+  Int32Reader* reader = static_cast<Int32Reader*>(reader_.get());
+
+  // Vecotrs to hold read values, definition levels, and repetition levels.
+  std::vector<int32_t> read_vals(4, -1);
+  std::vector<int16_t> read_defs(4, -1);
+  std::vector<int16_t> read_reps(4, -1);
+
+  // Skip two levels.
+  int64_t levels_skipped = reader->Skip(2);
+  ASSERT_EQ(2, levels_skipped);
+
+  int64_t num_read_values = 0;
+  // Read the next set of values
+  reader->ReadBatch(10, read_defs.data(), read_reps.data(), read_vals.data(),
+                    &num_read_values);
+  ASSERT_EQ(num_read_values, 4);
+  // Note that we end up in the record with {[10, 10]}
+  ASSERT_TRUE(vector_equal({10, 20, 20, 20}, read_vals));
+  ASSERT_TRUE(vector_equal({1, 1, 1, 1}, read_defs));
+  ASSERT_TRUE(vector_equal({1, 0, 1, 1}, read_reps));
+
+  // No values remain in data page
+  levels_skipped = reader->Skip(2);
+  ASSERT_EQ(0, levels_skipped);
+  reader->ReadBatch(10, read_defs.data(), read_reps.data(), read_vals.data(),
+                    &num_read_values);
+  ASSERT_EQ(num_read_values, 0);
+}
+
 // Page claims to have two values but only 1 is present.
 TEST_F(TestPrimitiveReader, TestReadValuesMissing) {
   max_def_level_ = 1;
@@ -356,6 +427,39 @@ TEST_F(TestPrimitiveReader, TestReadValuesMissing) {
                ParquetException);
 }
 
+// Repetition level byte length reported in Page but Max Repetition level
+// is zero for the column.
+TEST_F(TestPrimitiveReader, TestRepetitionLvlBytesWithMaxRepetitionZero) {
+  constexpr int batch_size = 4;
+  max_def_level_ = 1;
+  max_rep_level_ = 0;
+  NodePtr type = schema::Int32("a", Repetition::OPTIONAL);
+  const ColumnDescriptor descr(type, max_def_level_, max_rep_level_);
+  // Bytes here came from the example parquet file in ARROW-17453's int32
+  // column which was delta bit-packed. The key part is the first three
+  // bytes: the page header reports 1 byte for repetition levels even
+  // though the max rep level is 0. If that byte isn't skipped then
+  // we get def levels of [1, 1, 0, 0] instead of the correct [1, 1, 1, 0].
+  const std::vector<uint8_t> page_data{0x3,  0x3, 0x7, 0x80, 0x1, 0x4, 0x3,
+                                       0x18, 0x1, 0x2, 0x0,  0x0, 0x0, 0xc,
+                                       0x0,  0x0, 0x0, 0x0,  0x0, 0x0, 0x0};
+
+  std::shared_ptr<DataPageV2> data_page =
+      std::make_shared<DataPageV2>(Buffer::Wrap(page_data.data(), page_data.size()), 4, 1,
+                                   4, Encoding::DELTA_BINARY_PACKED, 2, 1, 21);
+
+  pages_.push_back(data_page);
+  InitReader(&descr);
+  auto reader = static_cast<Int32Reader*>(reader_.get());
+  int16_t def_levels_out[batch_size];
+  int32_t values[batch_size];
+  int64_t values_read;
+  ASSERT_TRUE(reader->HasNext());
+  EXPECT_EQ(4, reader->ReadBatch(batch_size, def_levels_out, /*replevels=*/nullptr,
+                                 values, &values_read));
+  EXPECT_EQ(3, values_read);
+}
+
 // Page claims to have two values but only 1 is present.
 TEST_F(TestPrimitiveReader, TestReadValuesMissingWithDictionary) {
   constexpr int batch_size = 1;
@@ -478,7 +582,7 @@ TEST_F(TestPrimitiveReader, TestDictionaryEncodedPagesWithExposeEncoding) {
   int64_t total_indices = 0;
   int64_t indices_read = 0;
   int64_t value_size = values.size();
-  auto indices = ::arrow::internal::make_unique<int32_t[]>(value_size);
+  auto indices = std::make_unique<int32_t[]>(value_size);
   while (total_indices < value_size && reader->HasNext()) {
     const ByteArray* tmp_dict = nullptr;
     int32_t tmp_dict_len = 0;
@@ -531,7 +635,7 @@ TEST_F(TestPrimitiveReader, TestNonDictionaryEncodedPagesWithExposeEncoding) {
   const ByteArray* dict = nullptr;
   int32_t dict_len = 0;
   int64_t indices_read = 0;
-  auto indices = ::arrow::internal::make_unique<int32_t[]>(value_size);
+  auto indices = std::make_unique<int32_t[]>(value_size);
   // Dictionary cannot be exposed when it's not fully dictionary encoded
   EXPECT_THROW(reader->ReadBatchWithDictionary(value_size, /*def_levels=*/nullptr,
                                                /*rep_levels=*/nullptr, indices.get(),
@@ -540,5 +644,572 @@ TEST_F(TestPrimitiveReader, TestNonDictionaryEncodedPagesWithExposeEncoding) {
   pages_.clear();
 }
 
+class RecordReaderTest : public ::testing::Test {
+ public:
+  const int32_t kNullValue = -1;
+
+  void Init(int32_t max_def_level, int32_t max_rep_level, Repetition::type repetition) {
+    level_info_.def_level = max_def_level;
+    level_info_.rep_level = max_rep_level;
+    repetition_type_ = repetition;
+
+    NodePtr type = schema::Int32("b", repetition);
+    descr_ = std::make_unique<ColumnDescriptor>(type, level_info_.def_level,
+                                                level_info_.rep_level);
+
+    record_reader_ = internal::RecordReader::Make(descr_.get(), level_info_);
+  }
+
+  void CheckReadValues(std::vector<int32_t> expected_values,
+                       std::vector<int16_t> expected_defs,
+                       std::vector<int16_t> expected_reps) {
+    const auto read_values = reinterpret_cast<const int32_t*>(record_reader_->values());
+    std::vector<int32_t> read_vals(read_values,
+                                   read_values + record_reader_->values_written());
+    ASSERT_EQ(read_vals.size(), expected_values.size());
+    for (size_t i = 0; i < expected_values.size(); ++i) {
+      if (expected_values[i] != kNullValue) {
+        ASSERT_EQ(expected_values[i], read_values[i]);
+      }
+    }
+
+    if (repetition_type_ != Repetition::REQUIRED) {
+      std::vector<int16_t> read_defs(
+          record_reader_->def_levels(),
+          record_reader_->def_levels() + record_reader_->levels_position());
+      ASSERT_TRUE(vector_equal(expected_defs, read_defs));
+    }
+
+    if (repetition_type_ == Repetition::REPEATED) {
+      std::vector<int16_t> read_reps(
+          record_reader_->rep_levels(),
+          record_reader_->rep_levels() + record_reader_->levels_position());
+      ASSERT_TRUE(vector_equal(expected_reps, read_reps));
+    }
+  }
+
+  void CheckState(int64_t values_written, int64_t null_count, int64_t levels_written,
+                  int64_t levels_position) {
+    ASSERT_EQ(record_reader_->values_written(), values_written);
+    ASSERT_EQ(record_reader_->null_count(), null_count);
+    ASSERT_EQ(record_reader_->levels_written(), levels_written);
+    ASSERT_EQ(record_reader_->levels_position(), levels_position);
+  }
+
+ protected:
+  std::shared_ptr<internal::RecordReader> record_reader_;
+  std::unique_ptr<ColumnDescriptor> descr_;
+  internal::LevelInfo level_info_;
+  Repetition::type repetition_type_;
+};
+
+// Tests reading a repeated field using the RecordReader.
+TEST_F(RecordReaderTest, BasicReadRepeatedField) {
+  Init(/*max_def_level=*/1, /*max_rep_level=*/1, Repetition::REPEATED);
+
+  // Records look like: {[10], null, [20, 20], null, [30, 30, 30], null}
+  std::vector<std::shared_ptr<Page>> pages;
+  std::vector<int32_t> values = {10, 20, 20, 30, 30, 30};
+  std::vector<int16_t> def_levels = {1, 0, 1, 1, 0, 1, 1, 1, 0};
+  std::vector<int16_t> rep_levels = {0, 0, 0, 1, 0, 0, 1, 1, 0};
+
+  std::shared_ptr<DataPageV1> page = MakeDataPage<Int32Type>(
+      descr_.get(), values, /*num_values=*/static_cast<int>(def_levels.size()),
+      Encoding::PLAIN,
+      /*indices=*/{},
+      /*indices_size=*/0, def_levels, level_info_.def_level, rep_levels,
+      level_info_.rep_level);
+  pages.push_back(std::move(page));
+  auto pager = std::make_unique<MockPageReader>(pages);
+  record_reader_->SetPageReader(std::move(pager));
+
+  // Read [10], null
+  int64_t records_read = record_reader_->ReadRecords(/*num_records=*/2);
+  ASSERT_EQ(records_read, 2);
+  CheckState(/*values_written=*/2, /*null_count=*/1, /*levels_written=*/9,
+             /*levels_position=*/2);
+  CheckReadValues(/*expected_values=*/{10, kNullValue}, /*expected_defs=*/{1, 0},
+                  /*expected_reps=*/{0, 0});
+  record_reader_->Reset();
+  CheckState(/*values_written=*/0, /*null_count=*/0, /*levels_written=*/7,
+             /*levels_position=*/0);
+  // Read [20, 20], null, [30, 30, 30]
+  records_read = record_reader_->ReadRecords(/*num_records=*/3);
+  ASSERT_EQ(records_read, 3);
+  CheckState(/*values_written=*/6, /*null_count=*/1, /*levels_written=*/7,
+             /*levels_position=*/6);
+  CheckReadValues(/*expected_values=*/{20, 20, kNullValue, 30, 30, 30},
+                  /*expected_defs=*/{1, 1, 0, 1, 1, 1},
+                  /*expected_reps=*/{0, 1, 0, 0, 1, 1});
+  record_reader_->Reset();
+  CheckState(/*values_written=*/0, /*null_count=*/0, /*levels_written=*/1,
+             /*levels_position=*/0);
+  // Read the last null value and read past the end.
+  records_read = record_reader_->ReadRecords(/*num_records=*/3);
+  ASSERT_EQ(records_read, 1);
+  CheckState(/*values_written=*/1, /*null_count=*/1, /*levels_written=*/1,
+             /*levels_position=*/1);
+  CheckReadValues(/*expected_values=*/{kNullValue},
+                  /*expected_defs=*/{0},
+                  /*expected_reps=*/{0});
+  record_reader_->Reset();
+  CheckState(/*values_written=*/0, /*null_count=*/0, /*levels_written=*/0,
+             /*levels_position=*/0);
+}
+
+// Test that we can skip required top level field.
+TEST_F(RecordReaderTest, SkipRequiredTopLevel) {
+  Init(/*max_def_level=*/0, /*max_rep_level=*/0, Repetition::REQUIRED);
+
+  std::vector<std::shared_ptr<Page>> pages;
+  std::vector<int32_t> values = {10, 20, 20, 30, 30, 30};
+  std::shared_ptr<DataPageV1> page = MakeDataPage<Int32Type>(
+      descr_.get(), values, /*num_values=*/static_cast<int>(values.size()),
+      Encoding::PLAIN,
+      /*indices=*/{},
+      /*indices_size=*/0, /*def_levels=*/{}, level_info_.def_level,
+      /*rep_levels=*/{}, level_info_.rep_level);
+  pages.push_back(std::move(page));
+  auto pager = std::make_unique<MockPageReader>(pages);
+  record_reader_->SetPageReader(std::move(pager));
+
+  int64_t records_skipped = record_reader_->SkipRecords(/*num_records=*/3);
+  ASSERT_EQ(records_skipped, 3);
+  CheckState(/*values_written=*/0, /*null_count=*/0, /*levels_written=*/0,
+             /*levels_position=*/0);
+
+  int64_t records_read = record_reader_->ReadRecords(/*num_records=*/2);
+  ASSERT_EQ(records_read, 2);
+  CheckState(/*values_written=*/2, /*null_count=*/0, /*levels_written=*/0,
+             /*levels_position=*/0);
+  CheckReadValues(/*expected_values=*/{30, 30}, /*expected_defs=*/{},
+                  /*expected_reps=*/{});
+  record_reader_->Reset();
+  CheckState(/*values_written=*/0, /*null_count=*/0, /*levels_written=*/0,
+             /*levels_position=*/0);
+}
+
+// Skip an optional field. Intentionally included some null values.
+TEST_F(RecordReaderTest, SkipOptional) {
+  Init(/*max_def_level=*/1, /*max_rep_level=*/0, Repetition::OPTIONAL);
+
+  // Records look like {null, 10, 20, 30, null, 40, 50, 60}
+  std::vector<std::shared_ptr<Page>> pages;
+  std::vector<int32_t> values = {10, 20, 30, 40, 50, 60};
+  std::vector<int16_t> def_levels = {0, 1, 1, 0, 1, 1, 1, 1};
+
+  std::shared_ptr<DataPageV1> page = MakeDataPage<Int32Type>(
+      descr_.get(), values, /*num_values=*/static_cast<int>(values.size()),
+      Encoding::PLAIN,
+      /*indices=*/{},
+      /*indices_size=*/0, def_levels, level_info_.def_level,
+      /*rep_levels=*/{}, level_info_.rep_level);
+  pages.push_back(std::move(page));
+  auto pager = std::make_unique<MockPageReader>(pages);
+  record_reader_->SetPageReader(std::move(pager));
+
+  {
+    // Skip {null, 10}
+    // This also tests when we start with a Skip.
+    int64_t records_skipped = record_reader_->SkipRecords(/*num_records=*/2);
+    ASSERT_EQ(records_skipped, 2);
+    CheckState(/*values_written=*/0, /*null_count=*/0, /*levels_written=*/0,
+               /*levels_position=*/0);
+  }
+
+  {
+    // Read 3 records: {20, null, 30}
+    int64_t records_read = record_reader_->ReadRecords(/*num_records=*/3);
+
+    ASSERT_EQ(records_read, 3);
+    // values_written() includes null values.
+    // We had skipped 2 of the levels above. So there is only 6 left in total to
+    // read, and we read 3 of them here.
+    CheckState(/*values_written=*/3, /*null_count=*/1, /*levels_written=*/6,
+               /*levels_position=*/3);
+
+    // ReadRecords for optional fields uses ReadValuesSpaced, so there is a
+    // placeholder for null.
+    CheckReadValues(/*expected_values=*/{20, kNullValue, 30}, /*expected_defs=*/{1, 0, 1},
+                    /*expected_reps=*/{});
+  }
+
+  {
+    // Skip {40, 50}.
+    int64_t records_skipped = record_reader_->SkipRecords(/*num_records=*/2);
+    ASSERT_EQ(records_skipped, 2);
+    CheckState(/*values_written=*/3, /*null_count=*/1, /*levels_written=*/4,
+               /*levels_position=*/3);
+    CheckReadValues(/*expected_values=*/{20, kNullValue, 30}, /*expected_defs=*/{1, 0, 1},
+                    /*expected_reps=*/{});
+    // Reset after a Skip.
+    record_reader_->Reset();
+    CheckState(/*values_written=*/0, /*null_count=*/0, /*levels_written=*/1,
+               /*levels_position=*/0);
+  }
+
+  {
+    // Read to the end of the column. Read {60}
+    // This test checks that ReadAndThrowAwayValues works, since if it
+    // does not we would read the wrong values.
+    int64_t records_read = record_reader_->ReadRecords(/*num_records=*/1);
+
+    ASSERT_EQ(records_read, 1);
+    CheckState(/*values_written=*/1, /*null_count=*/0, /*levels_written=*/1,
+               /*levels_position=*/1);
+    CheckReadValues(/*expected_values=*/{60},
+                    /*expected_defs=*/{1},
+                    /*expected_reps=*/{});
+  }
+
+  // We have exhausted all the records.
+  ASSERT_EQ(record_reader_->ReadRecords(/*num_records=*/3), 0);
+  ASSERT_EQ(record_reader_->SkipRecords(/*num_records=*/3), 0);
+}
+
+// Test skipping for repeated fields.
+TEST_F(RecordReaderTest, SkipRepeated) {
+  Init(/*max_def_level=*/1, /*max_rep_level=*/1, Repetition::REPEATED);
+
+  // Records look like {null, [20, 20, 20], null, [30, 30], [40]}
+  std::vector<std::shared_ptr<Page>> pages;
+  std::vector<int32_t> values = {20, 20, 20, 30, 30, 40};
+  std::vector<int16_t> def_levels = {0, 1, 1, 1, 0, 1, 1, 1};
+  std::vector<int16_t> rep_levels = {0, 0, 1, 1, 0, 0, 1, 0};
+
+  std::shared_ptr<DataPageV1> page = MakeDataPage<Int32Type>(
+      descr_.get(), values, /*num_values=*/static_cast<int>(values.size()),
+      Encoding::PLAIN,
+      /*indices=*/{},
+      /*indices_size=*/0, def_levels, level_info_.def_level, rep_levels,
+      level_info_.rep_level);
+  pages.push_back(std::move(page));
+  auto pager = std::make_unique<MockPageReader>(pages);
+  record_reader_->SetPageReader(std::move(pager));
+
+  {
+    // This should skip the first null record.
+    int64_t records_skipped = record_reader_->SkipRecords(/*num_records=*/1);
+    ASSERT_EQ(records_skipped, 1);
+    ASSERT_EQ(record_reader_->values_written(), 0);
+    ASSERT_EQ(record_reader_->null_count(), 0);
+    // For repeated fields, we need to read the levels to find the record
+    // boundaries and skip. So some levels are read, however, the skipped
+    // level should not be there after the skip. That's why levels_position()
+    // is 0.
+    CheckState(/*values_written=*/0, /*null_count=*/0, /*levels_written=*/7,
+               /*levels_position=*/0);
+    CheckReadValues(/*expected_values=*/{},
+                    /*expected_defs=*/{},
+                    /*expected_reps=*/{});
+  }
+
+  {
+    // Read [20, 20, 20]
+    int64_t records_read = record_reader_->ReadRecords(/*num_records=*/1);
+    ASSERT_EQ(records_read, 1);
+    CheckState(/*values_written=*/3, /*null_count=*/0, /*levels_written=*/7,
+               /*levels_position=*/3);
+    CheckReadValues(/*expected_values=*/{20, 20, 20},
+                    /*expected_defs=*/{1, 1, 1},
+                    /*expected_reps=*/{0, 1, 1});
+  }
+
+  {
+    // Skip the null record and also skip [30, 30]
+    int64_t records_skipped = record_reader_->SkipRecords(/*num_records=*/2);
+    ASSERT_EQ(records_skipped, 2);
+    // We remove the skipped levels from the buffer.
+    CheckState(/*values_written=*/3, /*null_count=*/0, /*levels_written=*/4,
+               /*levels_position=*/3);
+    CheckReadValues(/*expected_values=*/{20, 20, 20},
+                    /*expected_defs=*/{1, 1, 1},
+                    /*expected_reps=*/{0, 1, 1});
+  }
+
+  {
+    // Read [40]
+    int64_t records_read = record_reader_->ReadRecords(/*num_records=*/1);
+    ASSERT_EQ(records_read, 1);
+    CheckState(/*values_written=*/4, /*null_count=*/0, /*levels_written=*/4,
+               /*levels_position=*/4);
+    CheckReadValues(/*expected_values=*/{20, 20, 20, 40},
+                    /*expected_defs=*/{1, 1, 1, 1},
+                    /*expected_reps=*/{0, 1, 1, 0});
+  }
+}
+
+// Tests that for repeated fields, we first consume what is in the buffer
+// before reading more levels.
+TEST_F(RecordReaderTest, SkipRepeatedConsumeBufferFirst) {
+  Init(/*max_def_level=*/1, /*max_rep_level=*/1, Repetition::REPEATED);
+
+  std::vector<std::shared_ptr<Page>> pages;
+  std::vector<int32_t> values(2048, 10);
+  std::vector<int16_t> def_levels(2048, 1);
+  std::vector<int16_t> rep_levels(2048, 0);
+
+  std::shared_ptr<DataPageV1> page = MakeDataPage<Int32Type>(
+      descr_.get(), values, /*num_values=*/static_cast<int>(values.size()),
+      Encoding::PLAIN,
+      /*indices=*/{},
+      /*indices_size=*/0, def_levels, level_info_.def_level, rep_levels,
+      level_info_.rep_level);
+  pages.push_back(std::move(page));
+  auto pager = std::make_unique<MockPageReader>(pages);
+  record_reader_->SetPageReader(std::move(pager));
+  {
+    // Read 1000 records. We will read 1024 levels because that is the minimum
+    // number of levels to read.
+    int64_t records_read = record_reader_->ReadRecords(/*num_records=*/1000);
+    ASSERT_EQ(records_read, 1000);
+    CheckState(/*values_written=*/1000, /*null_count=*/0, /*levels_written=*/1024,
+               /*levels_position=*/1000);
+    std::vector<int32_t> expected_values(1000, 10);
+    std::vector<int16_t> expected_def_levels(1000, 1);
+    std::vector<int16_t> expected_rep_levels(1000, 0);
+    CheckReadValues(expected_values, expected_def_levels, expected_rep_levels);
+    // Reset removes the already consumed values and levels.
+    record_reader_->Reset();
+  }
+
+  {  // Skip 12 records. Since we already have 24 in the buffer, we should not be
+    // reading any more levels into the buffer, we will just consume 12 of it.
+    int64_t records_skipped = record_reader_->SkipRecords(/*num_records=*/12);
+    ASSERT_EQ(records_skipped, 12);
+    CheckState(/*values_written=*/0, /*null_count=*/0, /*levels_written=*/12,
+               /*levels_position=*/0);
+    // Everthing is empty because we reset the reader before this skip.
+    CheckReadValues(/*expected_values=*/{}, /*expected_def_levels=*/{},
+                    /*expected_rep_levels=*/{});
+  }
+}
+
+// Test reading when one record spans multiple pages for a repeated field.
+TEST_F(RecordReaderTest, ReadPartialRecord) {
+  Init(/*max_def_level=*/1, /*max_rep_level=*/1, Repetition::REPEATED);
+
+  std::vector<std::shared_ptr<Page>> pages;
+
+  // Page 1: {[10], [20, 20, 20 ... } continues to next page.
+  {
+    std::shared_ptr<DataPageV1> page = MakeDataPage<Int32Type>(
+        descr_.get(), /*values=*/{10, 20, 20, 20}, /*num_values=*/4, Encoding::PLAIN,
+        /*indices=*/{},
+        /*indices_size=*/0, /*def_levels=*/{1, 1, 1, 1}, level_info_.def_level,
+        /*rep_levels=*/{0, 0, 1, 1}, level_info_.rep_level);
+    pages.push_back(std::move(page));
+  }
+
+  // Page 2: {... 20, 20, ...} continues from previous page and to next page.
+  {
+    std::shared_ptr<DataPageV1> page = MakeDataPage<Int32Type>(
+        descr_.get(), /*values=*/{20, 20}, /*num_values=*/2, Encoding::PLAIN,
+        /*indices=*/{},
+        /*indices_size=*/0, /*def_levels=*/{1, 1}, level_info_.def_level,
+        /*rep_levels=*/{1, 1}, level_info_.rep_level);
+    pages.push_back(std::move(page));
+  }
+
+  // Page 3: { ... 20], [30]} continues from previous page.
+  {
+    std::shared_ptr<DataPageV1> page = MakeDataPage<Int32Type>(
+        descr_.get(), /*values=*/{20, 30}, /*num_values=*/2, Encoding::PLAIN,
+        /*indices=*/{},
+        /*indices_size=*/0, /*def_levels=*/{1, 1}, level_info_.def_level,
+        /*rep_levels=*/{1, 0}, level_info_.rep_level);
+    pages.push_back(std::move(page));
+  }
+
+  auto pager = std::make_unique<MockPageReader>(pages);
+  record_reader_->SetPageReader(std::move(pager));
+
+  {
+    // Read [10]
+    int64_t records_read = record_reader_->ReadRecords(/*num_records=*/1);
+    ASSERT_EQ(records_read, 1);
+    CheckState(/*values_written=*/1, /*null_count=*/0, /*levels_written=*/4,
+               /*levels_position=*/1);
+    CheckReadValues(/*expected_values=*/{10},
+                    /*expected_defs=*/{1},
+                    /*expected_reps=*/{0});
+  }
+
+  {
+    // Read [20, 20, 20, 20, 20, 20] that spans multiple pages.
+    int64_t records_read = record_reader_->ReadRecords(/*num_records=*/1);
+    ASSERT_EQ(records_read, 1);
+    CheckState(/*values_written=*/7, /*null_count=*/0, /*levels_written=*/8,
+               /*levels_position=*/7);
+    CheckReadValues(/*expected_values=*/{10, 20, 20, 20, 20, 20, 20},
+                    /*expected_defs=*/{1, 1, 1, 1, 1, 1, 1},
+                    /*expected_reps=*/{0, 0, 1, 1, 1, 1, 1});
+  }
+
+  {
+    // Read [30]
+    int64_t records_read = record_reader_->ReadRecords(/*num_records=*/1);
+    ASSERT_EQ(records_read, 1);
+    CheckState(/*values_written=*/8, /*null_count=*/0, /*levels_written=*/8,
+               /*levels_position=*/8);
+    CheckReadValues(/*expected_values=*/{10, 20, 20, 20, 20, 20, 20, 30},
+                    /*expected_defs=*/{1, 1, 1, 1, 1, 1, 1, 1},
+                    /*expected_reps=*/{0, 0, 1, 1, 1, 1, 1, 0});
+  }
+}
+
+// Test skipping for repeated fields for the case when one record spans multiple
+// pages.
+TEST_F(RecordReaderTest, SkipPartialRecord) {
+  Init(/*max_def_level=*/1, /*max_rep_level=*/1, Repetition::REPEATED);
+
+  std::vector<std::shared_ptr<Page>> pages;
+
+  // Page 1: {[10], [20, 20, 20 ... } continues to next page.
+  {
+    std::shared_ptr<DataPageV1> page = MakeDataPage<Int32Type>(
+        descr_.get(), /*values=*/{10, 20, 20, 20}, /*num_values=*/4, Encoding::PLAIN,
+        /*indices=*/{},
+        /*indices_size=*/0, /*def_levels=*/{1, 1, 1, 1}, level_info_.def_level,
+        /*rep_levels=*/{0, 0, 1, 1}, level_info_.rep_level);
+    pages.push_back(std::move(page));
+  }
+
+  // Page 2: {... 20, 20, ...} continues from previous page and to next page.
+  {
+    std::shared_ptr<DataPageV1> page = MakeDataPage<Int32Type>(
+        descr_.get(), /*values=*/{20, 20}, /*num_values=*/2, Encoding::PLAIN,
+        /*indices=*/{},
+        /*indices_size=*/0, /*def_levels=*/{1, 1}, level_info_.def_level,
+        /*rep_levels=*/{1, 1}, level_info_.rep_level);
+    pages.push_back(std::move(page));
+  }
+
+  // Page 3: { ... 20, [30]} continues from previous page.
+  {
+    std::shared_ptr<DataPageV1> page = MakeDataPage<Int32Type>(
+        descr_.get(), /*values=*/{20, 30}, /*num_values=*/2, Encoding::PLAIN,
+        /*indices=*/{},
+        /*indices_size=*/0, /*def_levels=*/{1, 1}, level_info_.def_level,
+        /*rep_levels=*/{1, 0}, level_info_.rep_level);
+    pages.push_back(std::move(page));
+  }
+
+  auto pager = std::make_unique<MockPageReader>(pages);
+  record_reader_->SetPageReader(std::move(pager));
+
+  {
+    // Read [10]
+    int64_t records_read = record_reader_->ReadRecords(/*num_records=*/1);
+    ASSERT_EQ(records_read, 1);
+    // There are 4 levels in the first page.
+    CheckState(/*values_written=*/1, /*null_count=*/0, /*levels_written=*/4,
+               /*levels_position=*/1);
+    CheckReadValues(/*expected_values=*/{10},
+                    /*expected_defs=*/{1},
+                    /*expected_reps=*/{0});
+  }
+
+  {
+    // Skip the record that goes across pages.
+    int64_t records_skipped = record_reader_->SkipRecords(/*num_records=*/1);
+    ASSERT_EQ(records_skipped, 1);
+    CheckState(/*values_written=*/1, /*null_count=*/0, /*levels_written=*/2,
+               /*levels_position=*/1);
+    CheckReadValues(/*expected_values=*/{10},
+                    /*expected_defs=*/{1},
+                    /*expected_reps=*/{0});
+  }
+
+  {
+    // Read [30]
+    int64_t records_read = record_reader_->ReadRecords(/*num_records=*/1);
+
+    ASSERT_EQ(records_read, 1);
+    CheckState(/*values_written=*/2, /*null_count=*/0, /*levels_written=*/2,
+               /*levels_position=*/2);
+    CheckReadValues(/*expected_values=*/{10, 30},
+                    /*expected_defs=*/{1, 1},
+                    /*expected_reps=*/{0, 0});
+  }
+}
+
+// Test that SkipRecords works on ByteArrays. Specifically, this is testing
+// ReadAndThrowAwayValues for ByteArrays.
+TEST(RecordReaderByteArrayTest, SkipByteArray) {
+  internal::LevelInfo level_info;
+  level_info.def_level = 1;
+  level_info.rep_level = 0;
+
+  // Must use REPEATED to exercise ReadAndThrowAwayValues for ByteArrays. It
+  // does not do any buffering for Optional or Required fields as it calls
+  // ResetValues after every read.
+  NodePtr type = schema::ByteArray("b", Repetition::OPTIONAL);
+  const ColumnDescriptor descr(type, level_info.def_level, level_info.rep_level);
+
+  std::vector<std::shared_ptr<Page>> pages;
+  int levels_per_page = 90;
+  int num_pages = 1;
+
+  std::vector<int16_t> def_levels;
+  std::vector<int16_t> rep_levels;
+  std::vector<ByteArray> values;
+  std::vector<uint8_t> buffer;
+
+  MakePages<ByteArrayType>(&descr, num_pages, levels_per_page, def_levels, rep_levels,
+                           values, buffer, pages, Encoding::PLAIN);
+
+  auto pager = std::make_unique<MockPageReader>(pages);
+
+  std::shared_ptr<internal::RecordReader> record_reader =
+      internal::RecordReader::Make(&descr, level_info);
+  record_reader->SetPageReader(std::move(pager));
+
+  // Read one-third of the page.
+  ASSERT_EQ(record_reader->ReadRecords(/*num_records=*/30), 30);
+
+  // Skip 30 records.
+  ASSERT_EQ(record_reader->SkipRecords(/*num_records=*/30), 30);
+
+  // Read 60 more records. Only 30 will be read, since we read 30 and skipped 30,
+  // so only 30 is left.
+  ASSERT_EQ(record_reader->ReadRecords(/*num_records=*/60), 30);
+
+  auto binary_reader = dynamic_cast<BinaryRecordReader*>(record_reader.get());
+  ASSERT_NE(binary_reader, nullptr);
+  // Chunks are reset after this call.
+  ::arrow::ArrayVector array_vector = binary_reader->GetBuilderChunks();
+  ASSERT_EQ(array_vector.size(), 1);
+  auto binary_array = dynamic_cast<::arrow::BinaryArray*>(array_vector[0].get());
+  ASSERT_NE(binary_array, nullptr);
+  ASSERT_EQ(binary_array->length(), 60);
+
+  // Our values above are not spaced, however, the RecordReader will
+  // read spaced for nullable values.
+  // Create spaced expected values.
+  std::vector<std::string_view> expected_values;
+  size_t values_index = 0;
+  for (int i = 0; i < 90; ++i) {
+    if (def_levels[i] == 0) {
+      expected_values.emplace_back();
+      continue;
+    }
+    expected_values.emplace_back(reinterpret_cast<const char*>(values[values_index].ptr),
+                                 values[values_index].len);
+    ++values_index;
+  }
+
+  // Check that the expected values match the actual values.
+  for (size_t i = 0; i < 30; ++i) {
+    ASSERT_EQ(expected_values[i].compare(binary_array->GetView(i)), 0);
+    ASSERT_EQ(def_levels[i] == 0, binary_array->IsNull(i));
+  }
+  // Repeat for the next range that we read.
+  for (size_t i = 60; i < 90; ++i) {
+    ASSERT_EQ(expected_values[i].compare(binary_array->GetView(i - 30)), 0);
+    ASSERT_EQ(def_levels[i] == 0, binary_array->IsNull(i - 30));
+  }
+}
+
 }  // namespace test
 }  // namespace parquet
diff --git a/cpp/src/parquet/column_writer.cc b/cpp/src/parquet/column_writer.cc
index f7898c02d47..27ec640cec9 100644
--- a/cpp/src/parquet/column_writer.cc
+++ b/cpp/src/parquet/column_writer.cc
@@ -22,7 +22,6 @@
 #include <cstring>
 #include <map>
 #include <memory>
-#include <string>
 #include <utility>
 #include <vector>
 
@@ -41,6 +40,7 @@
 #include "arrow/util/endian.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/rle_encoding.h"
+#include "arrow/util/type_traits.h"
 #include "arrow/visit_array_inline.h"
 #include "parquet/column_page.h"
 #include "parquet/encoding.h"
@@ -74,9 +74,10 @@ namespace {
 // Visitor that exracts the value buffer from a FlatArray at a given offset.
 struct ValueBufferSlicer {
   template <typename T>
-  ::arrow::enable_if_base_binary<typename T::TypeClass, Status> Visit(const T& array) {
+  ::arrow::enable_if_base_binary<typename T::TypeClass, Status> Visit(
+      const T& array, std::shared_ptr<Buffer>* buffer) {
     auto data = array.data();
-    buffer_ =
+    *buffer =
         SliceBuffer(data->buffers[1], data->offset * sizeof(typename T::offset_type),
                     data->length * sizeof(typename T::offset_type));
     return Status::OK();
@@ -84,9 +85,9 @@ struct ValueBufferSlicer {
 
   template <typename T>
   ::arrow::enable_if_fixed_size_binary<typename T::TypeClass, Status> Visit(
-      const T& array) {
+      const T& array, std::shared_ptr<Buffer>* buffer) {
     auto data = array.data();
-    buffer_ = SliceBuffer(data->buffers[1], data->offset * array.byte_width(),
+    *buffer = SliceBuffer(data->buffers[1], data->offset * array.byte_width(),
                           data->length * array.byte_width());
     return Status::OK();
   }
@@ -95,29 +96,30 @@ struct ValueBufferSlicer {
   ::arrow::enable_if_t<::arrow::has_c_type<typename T::TypeClass>::value &&
                            !std::is_same<BooleanType, typename T::TypeClass>::value,
                        Status>
-  Visit(const T& array) {
+  Visit(const T& array, std::shared_ptr<Buffer>* buffer) {
     auto data = array.data();
-    buffer_ = SliceBuffer(
+    *buffer = SliceBuffer(
         data->buffers[1],
         ::arrow::TypeTraits<typename T::TypeClass>::bytes_required(data->offset),
         ::arrow::TypeTraits<typename T::TypeClass>::bytes_required(data->length));
     return Status::OK();
   }
 
-  Status Visit(const ::arrow::BooleanArray& array) {
+  Status Visit(const ::arrow::BooleanArray& array, std::shared_ptr<Buffer>* buffer) {
     auto data = array.data();
     if (bit_util::IsMultipleOf8(data->offset)) {
-      buffer_ = SliceBuffer(data->buffers[1], bit_util::BytesForBits(data->offset),
+      *buffer = SliceBuffer(data->buffers[1], bit_util::BytesForBits(data->offset),
                             bit_util::BytesForBits(data->length));
       return Status::OK();
     }
-    PARQUET_ASSIGN_OR_THROW(buffer_,
+    PARQUET_ASSIGN_OR_THROW(*buffer,
                             ::arrow::internal::CopyBitmap(pool_, data->buffers[1]->data(),
                                                           data->offset, data->length));
     return Status::OK();
   }
 #define NOT_IMPLEMENTED_VISIT(ArrowTypePrefix)                                      \
-  Status Visit(const ::arrow::ArrowTypePrefix##Array& array) {                      \
+  Status Visit(const ::arrow::ArrowTypePrefix##Array& array,                        \
+               std::shared_ptr<Buffer>* buffer) {                                   \
     return Status::NotImplemented("Slicing not implemented for " #ArrowTypePrefix); \
   }
 
@@ -133,7 +135,6 @@ struct ValueBufferSlicer {
 #undef NOT_IMPLEMENTED_VISIT
 
   MemoryPool* pool_;
-  std::shared_ptr<Buffer> buffer_;
 };
 
 internal::LevelInfo ComputeLevelInfo(const ColumnDescriptor* descr) {
@@ -172,13 +173,13 @@ void LevelEncoder::Init(Encoding::type encoding, int16_t max_level,
   encoding_ = encoding;
   switch (encoding) {
     case Encoding::RLE: {
-      rle_encoder_.reset(new RleEncoder(data, data_size, bit_width_));
+      rle_encoder_ = std::make_unique<RleEncoder>(data, data_size, bit_width_);
       break;
     }
     case Encoding::BIT_PACKED: {
       int num_bytes =
           static_cast<int>(bit_util::BytesForBits(num_buffered_values * bit_width_));
-      bit_packed_encoder_.reset(new BitWriter(data, num_bytes));
+      bit_packed_encoder_ = std::make_unique<BitWriter>(data, num_bytes);
       break;
     }
     default:
@@ -268,7 +269,7 @@ class SerializedPageWriter : public PageWriter {
       InitEncryption();
     }
     compressor_ = GetCodec(codec, compression_level);
-    thrift_serializer_.reset(new ThriftSerializer);
+    thrift_serializer_ = std::make_unique<ThriftSerializer>();
   }
 
   int64_t WriteDictionaryPage(const DictionaryPage& page) override {
@@ -482,12 +483,12 @@ class SerializedPageWriter : public PageWriter {
         break;
       }
       case encryption::kDataPage: {
-        encryption::QuickUpdatePageAad(data_page_aad_, page_ordinal_);
+        encryption::QuickUpdatePageAad(page_ordinal_, &data_page_aad_);
         data_encryptor_->UpdateAad(data_page_aad_);
         break;
       }
       case encryption::kDataPageHeader: {
-        encryption::QuickUpdatePageAad(data_page_header_aad_, page_ordinal_);
+        encryption::QuickUpdatePageAad(page_ordinal_, &data_page_header_aad_);
         meta_encryptor_->UpdateAad(data_page_header_aad_);
         break;
       }
@@ -516,7 +517,7 @@ class SerializedPageWriter : public PageWriter {
   int64_t data_page_offset_;
   int64_t total_uncompressed_size_;
   int64_t total_compressed_size_;
-  int16_t page_ordinal_;
+  int32_t page_ordinal_;
   int16_t row_group_ordinal_;
   int16_t column_ordinal_;
 
@@ -548,10 +549,10 @@ class BufferedPageWriter : public PageWriter {
                      std::shared_ptr<Encryptor> data_encryptor = nullptr)
       : final_sink_(std::move(sink)), metadata_(metadata), has_dictionary_pages_(false) {
     in_memory_sink_ = CreateOutputStream(pool);
-    pager_ = std::unique_ptr<SerializedPageWriter>(
-        new SerializedPageWriter(in_memory_sink_, codec, compression_level, metadata,
-                                 row_group_ordinal, current_column_ordinal, pool,
-                                 std::move(meta_encryptor), std::move(data_encryptor)));
+    pager_ = std::make_unique<SerializedPageWriter>(
+        in_memory_sink_, codec, compression_level, metadata, row_group_ordinal,
+        current_column_ordinal, pool, std::move(meta_encryptor),
+        std::move(data_encryptor));
   }
 
   int64_t WriteDictionaryPage(const DictionaryPage& page) override {
@@ -607,15 +608,13 @@ std::unique_ptr<PageWriter> PageWriter::Open(
     bool buffered_row_group, std::shared_ptr<Encryptor> meta_encryptor,
     std::shared_ptr<Encryptor> data_encryptor) {
   if (buffered_row_group) {
-    return std::unique_ptr<PageWriter>(
-        new BufferedPageWriter(std::move(sink), codec, compression_level, metadata,
-                               row_group_ordinal, column_chunk_ordinal, pool,
-                               std::move(meta_encryptor), std::move(data_encryptor)));
+    return std::make_unique<BufferedPageWriter>(
+        std::move(sink), codec, compression_level, metadata, row_group_ordinal,
+        column_chunk_ordinal, pool, std::move(meta_encryptor), std::move(data_encryptor));
   } else {
-    return std::unique_ptr<PageWriter>(
-        new SerializedPageWriter(std::move(sink), codec, compression_level, metadata,
-                                 row_group_ordinal, column_chunk_ordinal, pool,
-                                 std::move(meta_encryptor), std::move(data_encryptor)));
+    return std::make_unique<SerializedPageWriter>(
+        std::move(sink), codec, compression_level, metadata, row_group_ordinal,
+        column_chunk_ordinal, pool, std::move(meta_encryptor), std::move(data_encryptor));
   }
 }
 
@@ -886,9 +885,9 @@ void ColumnWriterImpl::BuildDataPageV1(int64_t definition_levels_rle_size,
     PARQUET_ASSIGN_OR_THROW(
         auto compressed_data_copy,
         compressed_data->CopySlice(0, compressed_data->size(), allocator_));
-    std::unique_ptr<DataPage> page_ptr(new DataPageV1(
+    std::unique_ptr<DataPage> page_ptr = std::make_unique<DataPageV1>(
         compressed_data_copy, static_cast<int32_t>(num_buffered_values_), encoding_,
-        Encoding::RLE, Encoding::RLE, uncompressed_size, page_stats));
+        Encoding::RLE, Encoding::RLE, uncompressed_size, page_stats);
     total_compressed_bytes_ += page_ptr->size() + sizeof(format::PageHeader);
 
     data_pages_.push_back(std::move(page_ptr));
@@ -937,9 +936,9 @@ void ColumnWriterImpl::BuildDataPageV2(int64_t definition_levels_rle_size,
   if (has_dictionary_ && !fallback_) {  // Save pages until end of dictionary encoding
     PARQUET_ASSIGN_OR_THROW(auto data_copy,
                             combined->CopySlice(0, combined->size(), allocator_));
-    std::unique_ptr<DataPage> page_ptr(new DataPageV2(
+    std::unique_ptr<DataPage> page_ptr = std::make_unique<DataPageV2>(
         combined, num_values, null_count, num_values, encoding_, def_levels_byte_length,
-        rep_levels_byte_length, uncompressed_size, pager_->has_compressor(), page_stats));
+        rep_levels_byte_length, uncompressed_size, pager_->has_compressor(), page_stats);
     total_compressed_bytes_ += page_ptr->size() + sizeof(format::PageHeader);
     data_pages_.push_back(std::move(page_ptr));
   } else {
@@ -1318,10 +1317,9 @@ class TypedColumnWriterImpl : public ColumnWriterImpl, public TypedColumnWriter<
     buffers[0] = bits_buffer_;
     // Should be a leaf array.
     DCHECK_GT(buffers.size(), 1);
-    ValueBufferSlicer slicer{memory_pool, /*buffer=*/nullptr};
+    ValueBufferSlicer slicer{memory_pool};
     if (array->data()->offset > 0) {
-      RETURN_NOT_OK(::arrow::VisitArrayInline(*array, &slicer));
-      buffers[1] = slicer.buffer_;
+      RETURN_NOT_OK(::arrow::VisitArrayInline(*array, &slicer, &buffers[1]));
     }
     return ::arrow::MakeArray(std::make_shared<ArrayData>(
         array->type(), array->length(), std::move(buffers), new_null_count));
@@ -1481,6 +1479,43 @@ Status TypedColumnWriterImpl<DType>::WriteArrowDictionary(
     value_offset += batch_num_spaced_values;
   };
 
+  auto update_stats = [&]() {
+    // TODO(PARQUET-2068) This approach may make two copies.  First, a copy of the
+    // indices array to a (hopefully smaller) referenced indices array.  Second, a copy
+    // of the values array to a (probably not smaller) referenced values array.
+    //
+    // Once the MinMax kernel supports all data types we should use that kernel instead
+    // as it does not make any copies.
+    ::arrow::compute::ExecContext exec_ctx(ctx->memory_pool);
+    exec_ctx.set_use_threads(false);
+
+    std::shared_ptr<::arrow::Array> referenced_dictionary;
+    // If dictionary is the same dictionary we already have, just use that
+    if (preserved_dictionary_ && preserved_dictionary_ == dictionary) {
+      referenced_dictionary = preserved_dictionary_;
+    } else {
+      PARQUET_ASSIGN_OR_THROW(::arrow::Datum referenced_indices,
+                              ::arrow::compute::Unique(*indices, &exec_ctx));
+
+      // On first run, we might be able to re-use the existing dictionary
+      if (referenced_indices.length() == dictionary->length()) {
+        referenced_dictionary = dictionary;
+      } else {
+        PARQUET_ASSIGN_OR_THROW(
+            ::arrow::Datum referenced_dictionary_datum,
+            ::arrow::compute::Take(dictionary, referenced_indices,
+                                   ::arrow::compute::TakeOptions(/*boundscheck=*/false),
+                                   &exec_ctx));
+        referenced_dictionary = referenced_dictionary_datum.make_array();
+      }
+    }
+
+    int64_t non_null_count = indices->length() - indices->null_count();
+    page_statistics_->IncrementNullCount(num_levels - non_null_count);
+    page_statistics_->IncrementNumValues(non_null_count);
+    page_statistics_->Update(*referenced_dictionary, /*update_counts=*/false);
+  };
+
   // Handle seeing dictionary for the first time
   if (!preserved_dictionary_) {
     // It's a new dictionary. Call PutDictionary and keep track of it
@@ -1495,37 +1530,18 @@ Status TypedColumnWriterImpl<DType>::WriteArrowDictionary(
     }
 
     if (page_statistics_ != nullptr) {
-      // TODO(PARQUET-2068) This approach may make two copies.  First, a copy of the
-      // indices array to a (hopefully smaller) referenced indices array.  Second, a copy
-      // of the values array to a (probably not smaller) referenced values array.
-      //
-      // Once the MinMax kernel supports all data types we should use that kernel instead
-      // as it does not make any copies.
-      ::arrow::compute::ExecContext exec_ctx(ctx->memory_pool);
-      exec_ctx.set_use_threads(false);
-      PARQUET_ASSIGN_OR_THROW(::arrow::Datum referenced_indices,
-                              ::arrow::compute::Unique(*indices, &exec_ctx));
-      std::shared_ptr<::arrow::Array> referenced_dictionary;
-      if (referenced_indices.length() == dictionary->length()) {
-        referenced_dictionary = dictionary;
-      } else {
-        PARQUET_ASSIGN_OR_THROW(
-            ::arrow::Datum referenced_dictionary_datum,
-            ::arrow::compute::Take(dictionary, referenced_indices,
-                                   ::arrow::compute::TakeOptions(/*boundscheck=*/false),
-                                   &exec_ctx));
-        referenced_dictionary = referenced_dictionary_datum.make_array();
-      }
-      int64_t non_null_count = indices->length() - indices->null_count();
-      page_statistics_->IncrementNullCount(num_levels - non_null_count);
-      page_statistics_->IncrementNumValues(non_null_count);
-      page_statistics_->Update(*referenced_dictionary, /*update_counts=*/false);
+      update_stats();
     }
     preserved_dictionary_ = dictionary;
   } else if (!dictionary->Equals(*preserved_dictionary_)) {
     // Dictionary has changed
     PARQUET_CATCH_NOT_OK(FallbackToPlainEncoding());
     return WriteDense();
+  } else {
+    // Dictionary is same, but we need to update stats
+    if (page_statistics_ != nullptr) {
+      update_stats();
+    }
   }
 
   PARQUET_CATCH_NOT_OK(
@@ -1660,6 +1676,47 @@ struct SerializeFunctor<Int32Type, ::arrow::Date64Type> {
   }
 };
 
+template <typename ParquetType, typename ArrowType>
+struct SerializeFunctor<
+    ParquetType, ArrowType,
+    ::arrow::enable_if_t<::arrow::is_decimal_type<ArrowType>::value&& ::arrow::internal::
+                             IsOneOf<ParquetType, Int32Type, Int64Type>::value>> {
+  using value_type = typename ParquetType::c_type;
+
+  Status Serialize(const typename ::arrow::TypeTraits<ArrowType>::ArrayType& array,
+                   ArrowWriteContext* ctx, value_type* out) {
+    if (array.null_count() == 0) {
+      for (int64_t i = 0; i < array.length(); i++) {
+        out[i] = TransferValue<ArrowType::kByteWidth>(array.Value(i));
+      }
+    } else {
+      for (int64_t i = 0; i < array.length(); i++) {
+        out[i] =
+            array.IsValid(i) ? TransferValue<ArrowType::kByteWidth>(array.Value(i)) : 0;
+      }
+    }
+
+    return Status::OK();
+  }
+
+  template <int byte_width>
+  value_type TransferValue(const uint8_t* in) const {
+    static_assert(byte_width == 16 || byte_width == 32,
+                  "only 16 and 32 byte Decimals supported");
+    value_type value = 0;
+    if constexpr (byte_width == 16) {
+      ::arrow::Decimal128 decimal_value(in);
+      PARQUET_THROW_NOT_OK(decimal_value.ToInteger(&value));
+    } else {
+      ::arrow::Decimal256 decimal_value(in);
+      // Decimal256 does not provide ToInteger, but we are sure it fits in the target
+      // integer type.
+      value = static_cast<value_type>(decimal_value.low_bits());
+    }
+    return value;
+  }
+};
+
 template <>
 struct SerializeFunctor<Int32Type, ::arrow::Time32Type> {
   Status Serialize(const ::arrow::Time32Array& array, ArrowWriteContext*, int32_t* out) {
@@ -1693,6 +1750,8 @@ Status TypedColumnWriterImpl<Int32Type>::WriteArrowDense(
       WRITE_ZERO_COPY_CASE(DATE32, Date32Type, Int32Type)
       WRITE_SERIALIZE_CASE(DATE64, Date64Type, Int32Type)
       WRITE_SERIALIZE_CASE(TIME32, Time32Type, Int32Type)
+      WRITE_SERIALIZE_CASE(DECIMAL128, Decimal128Type, Int32Type)
+      WRITE_SERIALIZE_CASE(DECIMAL256, Decimal256Type, Int32Type)
     default:
       ARROW_UNSUPPORTED()
   }
@@ -1863,6 +1922,8 @@ Status TypedColumnWriterImpl<Int64Type>::WriteArrowDense(
       WRITE_SERIALIZE_CASE(UINT64, UInt64Type, Int64Type)
       WRITE_ZERO_COPY_CASE(TIME64, Time64Type, Int64Type)
       WRITE_ZERO_COPY_CASE(DURATION, DurationType, Int64Type)
+      WRITE_SERIALIZE_CASE(DECIMAL128, Decimal128Type, Int64Type)
+      WRITE_SERIALIZE_CASE(DECIMAL256, Decimal256Type, Int64Type)
     default:
       ARROW_UNSUPPORTED();
   }
@@ -1981,7 +2042,11 @@ struct SerializeFunctor<
 // Requires a custom serializer because decimal in parquet are in big-endian
 // format. Thus, a temporary local buffer is required.
 template <typename ParquetType, typename ArrowType>
-struct SerializeFunctor<ParquetType, ArrowType, ::arrow::enable_if_decimal<ArrowType>> {
+struct SerializeFunctor<
+    ParquetType, ArrowType,
+    ::arrow::enable_if_t<
+        ::arrow::is_decimal_type<ArrowType>::value &&
+        !::arrow::internal::IsOneOf<ParquetType, Int32Type, Int64Type>::value>> {
   Status Serialize(const typename ::arrow::TypeTraits<ArrowType>::ArrayType& array,
                    ArrowWriteContext* ctx, FLBA* out) {
     AllocateScratch(array, ctx);
diff --git a/cpp/src/parquet/column_writer_test.cc b/cpp/src/parquet/column_writer_test.cc
index 2cd21628b3f..0da78264832 100644
--- a/cpp/src/parquet/column_writer_test.cc
+++ b/cpp/src/parquet/column_writer_test.cc
@@ -400,7 +400,8 @@ typedef ::testing::Types<Int32Type, Int64Type, Int96Type, FloatType, DoubleType,
 
 TYPED_TEST_SUITE(TestPrimitiveWriter, TestTypes);
 
-using TestNullValuesWriter = TestPrimitiveWriter<Int32Type>;
+using TestValuesWriterInt32Type = TestPrimitiveWriter<Int32Type>;
+using TestValuesWriterInt64Type = TestPrimitiveWriter<Int64Type>;
 
 TYPED_TEST(TestPrimitiveWriter, RequiredPlain) {
   this->TestRequiredWithEncoding(Encoding::PLAIN);
@@ -418,11 +419,17 @@ TYPED_TEST(TestPrimitiveWriter, RequiredRLE) {
 TYPED_TEST(TestPrimitiveWriter, RequiredBitPacked) {
   this->TestRequiredWithEncoding(Encoding::BIT_PACKED);
 }
+*/
+
+TEST_F(TestValuesWriterInt32Type, RequiredDeltaBinaryPacked) {
+  this->TestRequiredWithEncoding(Encoding::DELTA_BINARY_PACKED);
+}
 
-TYPED_TEST(TestPrimitiveWriter, RequiredDeltaBinaryPacked) {
+TEST_F(TestValuesWriterInt64Type, RequiredDeltaBinaryPacked) {
   this->TestRequiredWithEncoding(Encoding::DELTA_BINARY_PACKED);
 }
 
+/*
 TYPED_TEST(TestPrimitiveWriter, RequiredDeltaLengthByteArray) {
   this->TestRequiredWithEncoding(Encoding::DELTA_LENGTH_BYTE_ARRAY);
 }
@@ -430,11 +437,11 @@ TYPED_TEST(TestPrimitiveWriter, RequiredDeltaLengthByteArray) {
 TYPED_TEST(TestPrimitiveWriter, RequiredDeltaByteArray) {
   this->TestRequiredWithEncoding(Encoding::DELTA_BYTE_ARRAY);
 }
+*/
 
 TYPED_TEST(TestPrimitiveWriter, RequiredRLEDictionary) {
   this->TestRequiredWithEncoding(Encoding::RLE_DICTIONARY);
 }
-*/
 
 TYPED_TEST(TestPrimitiveWriter, RequiredPlainWithStats) {
   this->TestRequiredWithSettings(Encoding::PLAIN, Compression::UNCOMPRESSED, false, true,
@@ -647,7 +654,7 @@ TEST(TestWriter, NullValuesBuffer) {
 
 // PARQUET-719
 // Test case for NULL values
-TEST_F(TestNullValuesWriter, OptionalNullValueChunk) {
+TEST_F(TestValuesWriterInt32Type, OptionalNullValueChunk) {
   this->SetUpSchema(Repetition::OPTIONAL);
 
   this->GenerateData(LARGE_SIZE);
diff --git a/cpp/src/parquet/encoding.cc b/cpp/src/parquet/encoding.cc
index 5a0184b1860..b9472d72aeb 100644
--- a/cpp/src/parquet/encoding.cc
+++ b/cpp/src/parquet/encoding.cc
@@ -23,6 +23,7 @@
 #include <limits>
 #include <memory>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
@@ -42,7 +43,6 @@
 #include "arrow/util/int_util_overflow.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/rle_encoding.h"
-#include "arrow/util/string_view.h"
 #include "arrow/util/ubsan.h"
 #include "arrow/visit_data_inline.h"
 #include "parquet/exception.h"
@@ -56,7 +56,7 @@ using arrow::Status;
 using arrow::VisitNullBitmapInline;
 using arrow::internal::AddWithOverflow;
 using arrow::internal::checked_cast;
-using arrow::util::string_view;
+using std::string_view;
 
 template <typename T>
 using ArrowPoolVector = std::vector<T, ::arrow::stl::allocator<T>>;
@@ -154,7 +154,7 @@ class PlainEncoder : public EncoderImpl, virtual public TypedEncoder<DType> {
 
     PARQUET_THROW_NOT_OK(::arrow::VisitArraySpanInline<typename ArrayType::TypeClass>(
         *array.data(),
-        [&](::arrow::util::string_view view) {
+        [&](::std::string_view view) {
           if (ARROW_PREDICT_FALSE(view.size() > kMaxByteArraySize)) {
             return Status::Invalid("Parquet cannot store strings with size 2GB or more");
           }
@@ -617,7 +617,7 @@ class DictEncoderImpl : public EncoderImpl, virtual public DictEncoder<DType> {
   void PutBinaryArray(const ArrayType& array) {
     PARQUET_THROW_NOT_OK(::arrow::VisitArraySpanInline<typename ArrayType::TypeClass>(
         *array.data(),
-        [&](::arrow::util::string_view view) {
+        [&](::std::string_view view) {
           if (ARROW_PREDICT_FALSE(view.size() > kMaxByteArraySize)) {
             return Status::Invalid("Parquet cannot store strings with size 2GB or more");
           }
@@ -658,7 +658,7 @@ void DictEncoderImpl<DType>::WriteDict(uint8_t* buffer) {
 // ByteArray and FLBA already have the dictionary encoded in their data heaps
 template <>
 void DictEncoderImpl<ByteArrayType>::WriteDict(uint8_t* buffer) {
-  memo_table_.VisitValues(0, [&buffer](const ::arrow::util::string_view& v) {
+  memo_table_.VisitValues(0, [&buffer](const ::std::string_view& v) {
     uint32_t len = static_cast<uint32_t>(v.length());
     memcpy(buffer, &len, sizeof(len));
     buffer += sizeof(len);
@@ -669,7 +669,7 @@ void DictEncoderImpl<ByteArrayType>::WriteDict(uint8_t* buffer) {
 
 template <>
 void DictEncoderImpl<FLBAType>::WriteDict(uint8_t* buffer) {
-  memo_table_.VisitValues(0, [&](const ::arrow::util::string_view& v) {
+  memo_table_.VisitValues(0, [&](const ::std::string_view& v) {
     DCHECK_EQ(v.length(), static_cast<size_t>(type_length_));
     memcpy(buffer, v.data(), type_length_);
     buffer += type_length_;
@@ -1146,9 +1146,7 @@ int PlainDecoder<DType>::Decode(T* buffer, int max_values) {
   return max_values;
 }
 
-class PlainBooleanDecoder : public DecoderImpl,
-                            virtual public TypedDecoder<BooleanType>,
-                            virtual public BooleanDecoder {
+class PlainBooleanDecoder : public DecoderImpl, virtual public BooleanDecoder {
  public:
   explicit PlainBooleanDecoder(const ColumnDescriptor* descr);
   void SetData(int num_values, const uint8_t* data, int len) override;
@@ -1173,7 +1171,7 @@ PlainBooleanDecoder::PlainBooleanDecoder(const ColumnDescriptor* descr)
 
 void PlainBooleanDecoder::SetData(int num_values, const uint8_t* data, int len) {
   num_values_ = num_values;
-  bit_reader_.reset(new bit_util::BitReader(data, len));
+  bit_reader_ = std::make_unique<bit_util::BitReader>(data, len);
 }
 
 int PlainBooleanDecoder::DecodeArrow(
@@ -2062,6 +2060,290 @@ class DictByteArrayDecoderImpl : public DictDecoderImpl<ByteArrayType>,
   }
 };
 
+// ----------------------------------------------------------------------
+// DeltaBitPackEncoder
+
+/// DeltaBitPackEncoder is an encoder for the DeltaBinary Packing format
+/// as per the parquet spec. See:
+/// https://github.com/apache/parquet-format/blob/master/Encodings.md#delta-encoding-delta_binary_packed--5
+///
+/// Consists of a header followed by blocks of delta encoded values binary packed.
+///
+///  Format
+///    [header] [block 1] [block 2] ... [block N]
+///
+///  Header
+///    [block size] [number of mini blocks per block] [total value count] [first value]
+///
+///  Block
+///    [min delta] [list of bitwidths of the mini blocks] [miniblocks]
+///
+/// Sets aside bytes at the start of the internal buffer where the header will be written,
+/// and only writes the header when FlushValues is called before returning it.
+///
+/// To encode a block, we will:
+///
+/// 1. Compute the differences between consecutive elements. For the first element in the
+/// block, use the last element in the previous block or, in the case of the first block,
+/// use the first value of the whole sequence, stored in the header.
+///
+/// 2. Compute the frame of reference (the minimum of the deltas in the block). Subtract
+/// this min delta from all deltas in the block. This guarantees that all values are
+/// non-negative.
+///
+/// 3. Encode the frame of reference (min delta) as a zigzag ULEB128 int followed by the
+/// bit widths of the mini blocks and the delta values (minus the min delta) bit packed
+/// per mini block.
+///
+/// Supports only INT32 and INT64.
+
+template <typename DType>
+class DeltaBitPackEncoder : public EncoderImpl, virtual public TypedEncoder<DType> {
+  // Maximum possible header size
+  static constexpr uint32_t kMaxPageHeaderWriterSize = 32;
+  static constexpr uint32_t kValuesPerBlock = 128;
+  static constexpr uint32_t kMiniBlocksPerBlock = 4;
+
+ public:
+  using T = typename DType::c_type;
+  using UT = std::make_unsigned_t<T>;
+  using TypedEncoder<DType>::Put;
+
+  explicit DeltaBitPackEncoder(const ColumnDescriptor* descr, MemoryPool* pool,
+                               const uint32_t values_per_block = kValuesPerBlock,
+                               const uint32_t mini_blocks_per_block = kMiniBlocksPerBlock)
+      : EncoderImpl(descr, Encoding::DELTA_BINARY_PACKED, pool),
+        values_per_block_(values_per_block),
+        mini_blocks_per_block_(mini_blocks_per_block),
+        values_per_mini_block_(values_per_block / mini_blocks_per_block),
+        deltas_(values_per_block, ::arrow::stl::allocator<T>(pool)),
+        bits_buffer_(
+            AllocateBuffer(pool, (kMiniBlocksPerBlock + values_per_block) * sizeof(T))),
+        sink_(pool),
+        bit_writer_(bits_buffer_->mutable_data(),
+                    static_cast<int>(bits_buffer_->size())) {
+    if (values_per_block_ % 128 != 0) {
+      throw ParquetException(
+          "the number of values in a block must be multiple of 128, but it's " +
+          std::to_string(values_per_block_));
+    }
+    if (values_per_mini_block_ % 32 != 0) {
+      throw ParquetException(
+          "the number of values in a miniblock must be multiple of 32, but it's " +
+          std::to_string(values_per_mini_block_));
+    }
+    if (values_per_block % mini_blocks_per_block != 0) {
+      throw ParquetException(
+          "the number of values per block % number of miniblocks per block must be 0, "
+          "but it's " +
+          std::to_string(values_per_block % mini_blocks_per_block));
+    }
+    // Reserve enough space at the beginning of the buffer for largest possible header.
+    PARQUET_THROW_NOT_OK(sink_.Advance(kMaxPageHeaderWriterSize));
+  }
+
+  std::shared_ptr<Buffer> FlushValues() override;
+
+  int64_t EstimatedDataEncodedSize() override { return sink_.length(); }
+
+  void Put(const ::arrow::Array& values) override;
+
+  void Put(const T* buffer, int num_values) override;
+
+  void PutSpaced(const T* src, int num_values, const uint8_t* valid_bits,
+                 int64_t valid_bits_offset) override;
+
+  void FlushBlock();
+
+ private:
+  const uint32_t values_per_block_;
+  const uint32_t mini_blocks_per_block_;
+  const uint32_t values_per_mini_block_;
+  uint32_t values_current_block_{0};
+  uint32_t total_value_count_{0};
+  UT first_value_{0};
+  UT current_value_{0};
+  ArrowPoolVector<UT> deltas_;
+  std::shared_ptr<ResizableBuffer> bits_buffer_;
+  ::arrow::BufferBuilder sink_;
+  ::arrow::bit_util::BitWriter bit_writer_;
+};
+
+template <typename DType>
+void DeltaBitPackEncoder<DType>::Put(const T* src, int num_values) {
+  if (num_values == 0) {
+    return;
+  }
+
+  int idx = 0;
+  if (total_value_count_ == 0) {
+    current_value_ = src[0];
+    first_value_ = current_value_;
+    idx = 1;
+  }
+  total_value_count_ += num_values;
+
+  while (idx < num_values) {
+    UT value = static_cast<UT>(src[idx]);
+    // Calculate deltas. The possible overflow is handled by use of unsigned integers
+    // making subtraction operations well-defined and correct even in case of overflow.
+    // Encoded integers will wrap back around on decoding.
+    // See http://en.wikipedia.org/wiki/Modular_arithmetic#Integers_modulo_n
+    deltas_[values_current_block_] = value - current_value_;
+    current_value_ = value;
+    idx++;
+    values_current_block_++;
+    if (values_current_block_ == values_per_block_) {
+      FlushBlock();
+    }
+  }
+}
+
+template <typename DType>
+void DeltaBitPackEncoder<DType>::FlushBlock() {
+  if (values_current_block_ == 0) {
+    return;
+  }
+
+  const UT min_delta =
+      *std::min_element(deltas_.begin(), deltas_.begin() + values_current_block_);
+  bit_writer_.PutZigZagVlqInt(static_cast<T>(min_delta));
+
+  // Call to GetNextBytePtr reserves mini_blocks_per_block_ bytes of space to write
+  // bit widths of miniblocks as they become known during the encoding.
+  uint8_t* bit_width_data = bit_writer_.GetNextBytePtr(mini_blocks_per_block_);
+  DCHECK(bit_width_data != nullptr);
+
+  const uint32_t num_miniblocks =
+      static_cast<uint32_t>(std::ceil(static_cast<double>(values_current_block_) /
+                                      static_cast<double>(values_per_mini_block_)));
+  for (uint32_t i = 0; i < num_miniblocks; i++) {
+    const uint32_t values_current_mini_block =
+        std::min(values_per_mini_block_, values_current_block_);
+
+    const uint32_t start = i * values_per_mini_block_;
+    const UT max_delta = *std::max_element(
+        deltas_.begin() + start, deltas_.begin() + start + values_current_mini_block);
+
+    // The minimum number of bits required to write any of values in deltas_ vector.
+    // See overflow comment above.
+    const auto bit_width = bit_width_data[i] =
+        bit_util::NumRequiredBits(max_delta - min_delta);
+
+    for (uint32_t j = start; j < start + values_current_mini_block; j++) {
+      // See overflow comment above.
+      const UT value = deltas_[j] - min_delta;
+      bit_writer_.PutValue(value, bit_width);
+    }
+    // If there are not enough values to fill the last mini block, we pad the mini block
+    // with zeroes so that its length is the number of values in a full mini block
+    // multiplied by the bit width.
+    for (uint32_t j = values_current_mini_block; j < values_per_mini_block_; j++) {
+      bit_writer_.PutValue(0, bit_width);
+    }
+    values_current_block_ -= values_current_mini_block;
+  }
+
+  // If, in the last block, less than <number of miniblocks in a block> miniblocks are
+  // needed to store the values, the bytes storing the bit widths of the unneeded
+  // miniblocks are still present, their value should be zero, but readers must accept
+  // arbitrary values as well.
+  for (uint32_t i = num_miniblocks; i < mini_blocks_per_block_; i++) {
+    bit_width_data[i] = 0;
+  }
+  DCHECK_EQ(values_current_block_, 0);
+
+  bit_writer_.Flush();
+  PARQUET_THROW_NOT_OK(sink_.Append(bit_writer_.buffer(), bit_writer_.bytes_written()));
+  bit_writer_.Clear();
+}
+
+template <typename DType>
+std::shared_ptr<Buffer> DeltaBitPackEncoder<DType>::FlushValues() {
+  if (values_current_block_ > 0) {
+    FlushBlock();
+  }
+  PARQUET_ASSIGN_OR_THROW(auto buffer, sink_.Finish(/*shrink_to_fit=*/true));
+
+  uint8_t header_buffer_[kMaxPageHeaderWriterSize] = {};
+  bit_util::BitWriter header_writer(header_buffer_, sizeof(header_buffer_));
+  if (!header_writer.PutVlqInt(values_per_block_) ||
+      !header_writer.PutVlqInt(mini_blocks_per_block_) ||
+      !header_writer.PutVlqInt(total_value_count_) ||
+      !header_writer.PutZigZagVlqInt(static_cast<T>(first_value_))) {
+    throw ParquetException("header writing error");
+  }
+  header_writer.Flush();
+
+  // We reserved enough space at the beginning of the buffer for largest possible header
+  // and data was written immediately after. We now write the header data immediately
+  // before the end of reserved space.
+  const size_t offset_bytes = kMaxPageHeaderWriterSize - header_writer.bytes_written();
+  std::memcpy(buffer->mutable_data() + offset_bytes, header_buffer_,
+              header_writer.bytes_written());
+
+  // Reset counter of cached values
+  total_value_count_ = 0;
+  // Reserve enough space at the beginning of the buffer for largest possible header.
+  PARQUET_THROW_NOT_OK(sink_.Advance(kMaxPageHeaderWriterSize));
+
+  // Excess bytes at the beginning are sliced off and ignored.
+  return SliceBuffer(buffer, offset_bytes);
+}
+
+template <>
+void DeltaBitPackEncoder<Int32Type>::Put(const ::arrow::Array& values) {
+  const ::arrow::ArrayData& data = *values.data();
+  if (values.type_id() != ::arrow::Type::INT32) {
+    throw ParquetException("Expected Int32TArray, got ", values.type()->ToString());
+  }
+  if (data.length > std::numeric_limits<int32_t>::max()) {
+    throw ParquetException("Array cannot be longer than ",
+                           std::numeric_limits<int32_t>::max());
+  }
+
+  if (values.null_count() == 0) {
+    Put(data.GetValues<int32_t>(1), static_cast<int>(data.length));
+  } else {
+    PutSpaced(data.GetValues<int32_t>(1), static_cast<int>(data.length),
+              data.GetValues<uint8_t>(0, 0), data.offset);
+  }
+}
+
+template <>
+void DeltaBitPackEncoder<Int64Type>::Put(const ::arrow::Array& values) {
+  const ::arrow::ArrayData& data = *values.data();
+  if (values.type_id() != ::arrow::Type::INT64) {
+    throw ParquetException("Expected Int64TArray, got ", values.type()->ToString());
+  }
+  if (data.length > std::numeric_limits<int32_t>::max()) {
+    throw ParquetException("Array cannot be longer than ",
+                           std::numeric_limits<int32_t>::max());
+  }
+  if (values.null_count() == 0) {
+    Put(data.GetValues<int64_t>(1), static_cast<int>(data.length));
+  } else {
+    PutSpaced(data.GetValues<int64_t>(1), static_cast<int>(data.length),
+              data.GetValues<uint8_t>(0, 0), data.offset);
+  }
+}
+
+template <typename DType>
+void DeltaBitPackEncoder<DType>::PutSpaced(const T* src, int num_values,
+                                           const uint8_t* valid_bits,
+                                           int64_t valid_bits_offset) {
+  if (valid_bits != NULLPTR) {
+    PARQUET_ASSIGN_OR_THROW(auto buffer, ::arrow::AllocateBuffer(num_values * sizeof(T),
+                                                                 this->memory_pool()));
+    T* data = reinterpret_cast<T*>(buffer->mutable_data());
+    int num_valid_values = ::arrow::util::internal::SpacedCompress<T>(
+        src, num_values, valid_bits, valid_bits_offset, data);
+    Put(data, num_valid_values);
+  } else {
+    Put(src, num_values);
+  }
+}
+
 // ----------------------------------------------------------------------
 // DeltaBitPackDecoder
 
@@ -2069,6 +2351,7 @@ template <typename DType>
 class DeltaBitPackDecoder : public DecoderImpl, virtual public TypedDecoder<DType> {
  public:
   typedef typename DType::c_type T;
+  using UT = std::make_unsigned_t<T>;
 
   explicit DeltaBitPackDecoder(const ColumnDescriptor* descr,
                                MemoryPool* pool = ::arrow::default_memory_pool())
@@ -2089,7 +2372,7 @@ class DeltaBitPackDecoder : public DecoderImpl, virtual public TypedDecoder<DTyp
   // DeltaByteArrayDecoder
   void SetDecoder(int num_values, std::shared_ptr<::arrow::bit_util::BitReader> decoder) {
     this->num_values_ = num_values;
-    decoder_ = decoder;
+    decoder_ = std::move(decoder);
     InitHeader();
   }
 
@@ -2143,6 +2426,11 @@ class DeltaBitPackDecoder : public DecoderImpl, virtual public TypedDecoder<DTyp
     if (values_per_block_ == 0) {
       throw ParquetException("cannot have zero value per block");
     }
+    if (values_per_block_ % 128 != 0) {
+      throw ParquetException(
+          "the number of values in a block must be multiple of 128, but it's " +
+          std::to_string(values_per_block_));
+    }
     if (mini_blocks_per_block_ == 0) {
       throw ParquetException("cannot have zero miniblock per block");
     }
@@ -2171,7 +2459,9 @@ class DeltaBitPackDecoder : public DecoderImpl, virtual public TypedDecoder<DTyp
         ParquetException::EofException();
       }
       if (bit_width_data[i] > kMaxDeltaBitWidth) {
-        throw ParquetException("delta bit width larger than integer bit width");
+        throw ParquetException("delta bit width " + std::to_string(bit_width_data[i]) +
+                               " larger than integer bit width " +
+                               std::to_string(kMaxDeltaBitWidth));
       }
     }
     mini_block_idx_ = 0;
@@ -2191,7 +2481,20 @@ class DeltaBitPackDecoder : public DecoderImpl, virtual public TypedDecoder<DTyp
       if (ARROW_PREDICT_FALSE(values_current_mini_block_ == 0)) {
         if (ARROW_PREDICT_FALSE(!block_initialized_)) {
           buffer[i++] = last_value_;
-          if (ARROW_PREDICT_FALSE(i == max_values)) break;
+          DCHECK_EQ(i, 1);  // we're at the beginning of the page
+          if (ARROW_PREDICT_FALSE(i == max_values)) {
+            // When block is uninitialized and i reaches max_values we have two
+            // different possibilities:
+            // 1. total_value_count_ == 1, which means that the page may have only
+            // one value (encoded in the header), and we should not initialize
+            // any block.
+            // 2. total_value_count_ != 1, which means we should initialize the
+            // incoming block for subsequent reads.
+            if (total_value_count_ != 1) {
+              InitBlock();
+            }
+            break;
+          }
           InitBlock();
         } else {
           ++mini_block_idx_;
@@ -2212,10 +2515,9 @@ class DeltaBitPackDecoder : public DecoderImpl, virtual public TypedDecoder<DTyp
       }
       for (int j = 0; j < values_decode; ++j) {
         // Addition between min_delta, packed int and last_value should be treated as
-        // unsigned addtion. Overflow is as expected.
-        uint64_t delta =
-            static_cast<uint64_t>(min_delta_) + static_cast<uint64_t>(buffer[i + j]);
-        buffer[i + j] = static_cast<T>(delta + static_cast<uint64_t>(last_value_));
+        // unsigned addition. Overflow is as expected.
+        buffer[i + j] = static_cast<UT>(min_delta_) + static_cast<UT>(buffer[i + j]) +
+                        static_cast<UT>(last_value_);
         last_value_ = buffer[i + j];
       }
       values_current_mini_block_ -= values_decode;
@@ -2355,6 +2657,66 @@ class DeltaLengthByteArrayDecoder : public DecoderImpl,
   std::shared_ptr<ResizableBuffer> buffered_data_;
 };
 
+// ----------------------------------------------------------------------
+// RLE_BOOLEAN_DECODER
+
+class RleBooleanDecoder : public DecoderImpl, virtual public BooleanDecoder {
+ public:
+  explicit RleBooleanDecoder(const ColumnDescriptor* descr)
+      : DecoderImpl(descr, Encoding::RLE) {}
+
+  void SetData(int num_values, const uint8_t* data, int len) override {
+    num_values_ = num_values;
+    uint32_t num_bytes = 0;
+
+    if (len < 4) {
+      throw ParquetException("Received invalid length : " + std::to_string(len) +
+                             " (corrupt data page?)");
+    }
+    // Load the first 4 bytes in little-endian, which indicates the length
+    num_bytes =
+        ::arrow::bit_util::ToLittleEndian(::arrow::util::SafeLoadAs<uint32_t>(data));
+    if (num_bytes < 0 || num_bytes > static_cast<uint32_t>(len - 4)) {
+      throw ParquetException("Received invalid number of bytes : " +
+                             std::to_string(num_bytes) + " (corrupt data page?)");
+    }
+
+    auto decoder_data = data + 4;
+    decoder_ = std::make_shared<::arrow::util::RleDecoder>(decoder_data, num_bytes,
+                                                           /*bit_width=*/1);
+  }
+
+  int Decode(bool* buffer, int max_values) override {
+    max_values = std::min(max_values, num_values_);
+
+    if (decoder_->GetBatch(buffer, max_values) != max_values) {
+      ParquetException::EofException();
+    }
+    num_values_ -= max_values;
+    return max_values;
+  }
+
+  int Decode(uint8_t* buffer, int max_values) override {
+    ParquetException::NYI("Decode(uint8_t*, int) for RleBooleanDecoder");
+  }
+
+  int DecodeArrow(int num_values, int null_count, const uint8_t* valid_bits,
+                  int64_t valid_bits_offset,
+                  typename EncodingTraits<BooleanType>::Accumulator* out) override {
+    ParquetException::NYI("DecodeArrow for RleBooleanDecoder");
+  }
+
+  int DecodeArrow(
+      int num_values, int null_count, const uint8_t* valid_bits,
+      int64_t valid_bits_offset,
+      typename EncodingTraits<BooleanType>::DictAccumulator* builder) override {
+    ParquetException::NYI("DecodeArrow for RleBooleanDecoder");
+  }
+
+ private:
+  std::shared_ptr<::arrow::util::RleDecoder> decoder_;
+};
+
 // ----------------------------------------------------------------------
 // DELTA_BYTE_ARRAY
 
@@ -2651,19 +3013,19 @@ std::unique_ptr<Encoder> MakeEncoder(Type::type type_num, Encoding::type encodin
   if (use_dictionary) {
     switch (type_num) {
       case Type::INT32:
-        return std::unique_ptr<Encoder>(new DictEncoderImpl<Int32Type>(descr, pool));
+        return std::make_unique<DictEncoderImpl<Int32Type>>(descr, pool);
       case Type::INT64:
-        return std::unique_ptr<Encoder>(new DictEncoderImpl<Int64Type>(descr, pool));
+        return std::make_unique<DictEncoderImpl<Int64Type>>(descr, pool);
       case Type::INT96:
-        return std::unique_ptr<Encoder>(new DictEncoderImpl<Int96Type>(descr, pool));
+        return std::make_unique<DictEncoderImpl<Int96Type>>(descr, pool);
       case Type::FLOAT:
-        return std::unique_ptr<Encoder>(new DictEncoderImpl<FloatType>(descr, pool));
+        return std::make_unique<DictEncoderImpl<FloatType>>(descr, pool);
       case Type::DOUBLE:
-        return std::unique_ptr<Encoder>(new DictEncoderImpl<DoubleType>(descr, pool));
+        return std::make_unique<DictEncoderImpl<DoubleType>>(descr, pool);
       case Type::BYTE_ARRAY:
-        return std::unique_ptr<Encoder>(new DictEncoderImpl<ByteArrayType>(descr, pool));
+        return std::make_unique<DictEncoderImpl<ByteArrayType>>(descr, pool);
       case Type::FIXED_LEN_BYTE_ARRAY:
-        return std::unique_ptr<Encoder>(new DictEncoderImpl<FLBAType>(descr, pool));
+        return std::make_unique<DictEncoderImpl<FLBAType>>(descr, pool);
       default:
         DCHECK(false) << "Encoder not implemented";
         break;
@@ -2671,21 +3033,21 @@ std::unique_ptr<Encoder> MakeEncoder(Type::type type_num, Encoding::type encodin
   } else if (encoding == Encoding::PLAIN) {
     switch (type_num) {
       case Type::BOOLEAN:
-        return std::unique_ptr<Encoder>(new PlainEncoder<BooleanType>(descr, pool));
+        return std::make_unique<PlainEncoder<BooleanType>>(descr, pool);
       case Type::INT32:
-        return std::unique_ptr<Encoder>(new PlainEncoder<Int32Type>(descr, pool));
+        return std::make_unique<PlainEncoder<Int32Type>>(descr, pool);
       case Type::INT64:
-        return std::unique_ptr<Encoder>(new PlainEncoder<Int64Type>(descr, pool));
+        return std::make_unique<PlainEncoder<Int64Type>>(descr, pool);
       case Type::INT96:
-        return std::unique_ptr<Encoder>(new PlainEncoder<Int96Type>(descr, pool));
+        return std::make_unique<PlainEncoder<Int96Type>>(descr, pool);
       case Type::FLOAT:
-        return std::unique_ptr<Encoder>(new PlainEncoder<FloatType>(descr, pool));
+        return std::make_unique<PlainEncoder<FloatType>>(descr, pool);
       case Type::DOUBLE:
-        return std::unique_ptr<Encoder>(new PlainEncoder<DoubleType>(descr, pool));
+        return std::make_unique<PlainEncoder<DoubleType>>(descr, pool);
       case Type::BYTE_ARRAY:
-        return std::unique_ptr<Encoder>(new PlainEncoder<ByteArrayType>(descr, pool));
+        return std::make_unique<PlainEncoder<ByteArrayType>>(descr, pool);
       case Type::FIXED_LEN_BYTE_ARRAY:
-        return std::unique_ptr<Encoder>(new PlainEncoder<FLBAType>(descr, pool));
+        return std::make_unique<PlainEncoder<FLBAType>>(descr, pool);
       default:
         DCHECK(false) << "Encoder not implemented";
         break;
@@ -2693,15 +3055,24 @@ std::unique_ptr<Encoder> MakeEncoder(Type::type type_num, Encoding::type encodin
   } else if (encoding == Encoding::BYTE_STREAM_SPLIT) {
     switch (type_num) {
       case Type::FLOAT:
-        return std::unique_ptr<Encoder>(
-            new ByteStreamSplitEncoder<FloatType>(descr, pool));
+        return std::make_unique<ByteStreamSplitEncoder<FloatType>>(descr, pool);
       case Type::DOUBLE:
-        return std::unique_ptr<Encoder>(
-            new ByteStreamSplitEncoder<DoubleType>(descr, pool));
+        return std::make_unique<ByteStreamSplitEncoder<DoubleType>>(descr, pool);
       default:
         throw ParquetException("BYTE_STREAM_SPLIT only supports FLOAT and DOUBLE");
         break;
     }
+  } else if (encoding == Encoding::DELTA_BINARY_PACKED) {
+    switch (type_num) {
+      case Type::INT32:
+        return std::make_unique<DeltaBitPackEncoder<Int32Type>>(descr, pool);
+      case Type::INT64:
+        return std::make_unique<DeltaBitPackEncoder<Int64Type>>(descr, pool);
+      default:
+        throw ParquetException(
+            "DELTA_BINARY_PACKED encoder only supports INT32 and INT64");
+        break;
+    }
   } else {
     ParquetException::NYI("Selected encoding is not supported");
   }
@@ -2714,30 +3085,30 @@ std::unique_ptr<Decoder> MakeDecoder(Type::type type_num, Encoding::type encodin
   if (encoding == Encoding::PLAIN) {
     switch (type_num) {
       case Type::BOOLEAN:
-        return std::unique_ptr<Decoder>(new PlainBooleanDecoder(descr));
+        return std::make_unique<PlainBooleanDecoder>(descr);
       case Type::INT32:
-        return std::unique_ptr<Decoder>(new PlainDecoder<Int32Type>(descr));
+        return std::make_unique<PlainDecoder<Int32Type>>(descr);
       case Type::INT64:
-        return std::unique_ptr<Decoder>(new PlainDecoder<Int64Type>(descr));
+        return std::make_unique<PlainDecoder<Int64Type>>(descr);
       case Type::INT96:
-        return std::unique_ptr<Decoder>(new PlainDecoder<Int96Type>(descr));
+        return std::make_unique<PlainDecoder<Int96Type>>(descr);
       case Type::FLOAT:
-        return std::unique_ptr<Decoder>(new PlainDecoder<FloatType>(descr));
+        return std::make_unique<PlainDecoder<FloatType>>(descr);
       case Type::DOUBLE:
-        return std::unique_ptr<Decoder>(new PlainDecoder<DoubleType>(descr));
+        return std::make_unique<PlainDecoder<DoubleType>>(descr);
       case Type::BYTE_ARRAY:
-        return std::unique_ptr<Decoder>(new PlainByteArrayDecoder(descr));
+        return std::make_unique<PlainByteArrayDecoder>(descr);
       case Type::FIXED_LEN_BYTE_ARRAY:
-        return std::unique_ptr<Decoder>(new PlainFLBADecoder(descr));
+        return std::make_unique<PlainFLBADecoder>(descr);
       default:
         break;
     }
   } else if (encoding == Encoding::BYTE_STREAM_SPLIT) {
     switch (type_num) {
       case Type::FLOAT:
-        return std::unique_ptr<Decoder>(new ByteStreamSplitDecoder<FloatType>(descr));
+        return std::make_unique<ByteStreamSplitDecoder<FloatType>>(descr);
       case Type::DOUBLE:
-        return std::unique_ptr<Decoder>(new ByteStreamSplitDecoder<DoubleType>(descr));
+        return std::make_unique<ByteStreamSplitDecoder<DoubleType>>(descr);
       default:
         throw ParquetException("BYTE_STREAM_SPLIT only supports FLOAT and DOUBLE");
         break;
@@ -2745,23 +3116,29 @@ std::unique_ptr<Decoder> MakeDecoder(Type::type type_num, Encoding::type encodin
   } else if (encoding == Encoding::DELTA_BINARY_PACKED) {
     switch (type_num) {
       case Type::INT32:
-        return std::unique_ptr<Decoder>(new DeltaBitPackDecoder<Int32Type>(descr));
+        return std::make_unique<DeltaBitPackDecoder<Int32Type>>(descr);
       case Type::INT64:
-        return std::unique_ptr<Decoder>(new DeltaBitPackDecoder<Int64Type>(descr));
+        return std::make_unique<DeltaBitPackDecoder<Int64Type>>(descr);
       default:
-        throw ParquetException("DELTA_BINARY_PACKED only supports INT32 and INT64");
+        throw ParquetException(
+            "DELTA_BINARY_PACKED decoder only supports INT32 and INT64");
         break;
     }
   } else if (encoding == Encoding::DELTA_BYTE_ARRAY) {
     if (type_num == Type::BYTE_ARRAY) {
-      return std::unique_ptr<Decoder>(new DeltaByteArrayDecoder(descr));
+      return std::make_unique<DeltaByteArrayDecoder>(descr);
     }
     throw ParquetException("DELTA_BYTE_ARRAY only supports BYTE_ARRAY");
   } else if (encoding == Encoding::DELTA_LENGTH_BYTE_ARRAY) {
     if (type_num == Type::BYTE_ARRAY) {
-      return std::unique_ptr<Decoder>(new DeltaLengthByteArrayDecoder(descr));
+      return std::make_unique<DeltaLengthByteArrayDecoder>(descr);
     }
     throw ParquetException("DELTA_LENGTH_BYTE_ARRAY only supports BYTE_ARRAY");
+  } else if (encoding == Encoding::RLE) {
+    if (type_num == Type::BOOLEAN) {
+      return std::make_unique<RleBooleanDecoder>(descr);
+    }
+    throw ParquetException("RLE encoding only supports BOOLEAN");
   } else {
     ParquetException::NYI("Selected encoding is not supported");
   }
@@ -2777,19 +3154,19 @@ std::unique_ptr<Decoder> MakeDictDecoder(Type::type type_num,
     case Type::BOOLEAN:
       ParquetException::NYI("Dictionary encoding not implemented for boolean type");
     case Type::INT32:
-      return std::unique_ptr<Decoder>(new DictDecoderImpl<Int32Type>(descr, pool));
+      return std::make_unique<DictDecoderImpl<Int32Type>>(descr, pool);
     case Type::INT64:
-      return std::unique_ptr<Decoder>(new DictDecoderImpl<Int64Type>(descr, pool));
+      return std::make_unique<DictDecoderImpl<Int64Type>>(descr, pool);
     case Type::INT96:
-      return std::unique_ptr<Decoder>(new DictDecoderImpl<Int96Type>(descr, pool));
+      return std::make_unique<DictDecoderImpl<Int96Type>>(descr, pool);
     case Type::FLOAT:
-      return std::unique_ptr<Decoder>(new DictDecoderImpl<FloatType>(descr, pool));
+      return std::make_unique<DictDecoderImpl<FloatType>>(descr, pool);
     case Type::DOUBLE:
-      return std::unique_ptr<Decoder>(new DictDecoderImpl<DoubleType>(descr, pool));
+      return std::make_unique<DictDecoderImpl<DoubleType>>(descr, pool);
     case Type::BYTE_ARRAY:
-      return std::unique_ptr<Decoder>(new DictByteArrayDecoderImpl(descr, pool));
+      return std::make_unique<DictByteArrayDecoderImpl>(descr, pool);
     case Type::FIXED_LEN_BYTE_ARRAY:
-      return std::unique_ptr<Decoder>(new DictDecoderImpl<FLBAType>(descr, pool));
+      return std::make_unique<DictDecoderImpl<FLBAType>>(descr, pool);
     default:
       break;
   }
diff --git a/cpp/src/parquet/encoding.h b/cpp/src/parquet/encoding.h
index b9ca7a7ee68..374a02cf491 100644
--- a/cpp/src/parquet/encoding.h
+++ b/cpp/src/parquet/encoding.h
@@ -397,6 +397,14 @@ class DictDecoder : virtual public TypedDecoder<DType> {
 class BooleanDecoder : virtual public TypedDecoder<BooleanType> {
  public:
   using TypedDecoder<BooleanType>::Decode;
+
+  /// \brief Decode and bit-pack values into a buffer
+  ///
+  /// \param[in] buffer destination for decoded values
+  /// This buffer will contain bit-packed values.
+  /// \param[in] max_values max values to decode.
+  /// \return The number of values decoded. Should be identical to max_values except
+  /// at the end of the current data page.
   virtual int Decode(uint8_t* buffer, int max_values) = 0;
 };
 
diff --git a/cpp/src/parquet/encoding_benchmark.cc b/cpp/src/parquet/encoding_benchmark.cc
index 7c5eafd1513..e6a3c2c58ca 100644
--- a/cpp/src/parquet/encoding_benchmark.cc
+++ b/cpp/src/parquet/encoding_benchmark.cc
@@ -31,6 +31,7 @@
 #include "parquet/schema.h"
 
 #include <cmath>
+#include <limits>
 #include <random>
 
 using arrow::default_memory_pool;
@@ -452,6 +453,122 @@ BENCHMARK(BM_ByteStreamSplitEncode_Float_Avx512)->Range(MIN_RANGE, MAX_RANGE);
 BENCHMARK(BM_ByteStreamSplitEncode_Double_Avx512)->Range(MIN_RANGE, MAX_RANGE);
 #endif
 
+template <typename DType>
+static auto MakeDeltaBitPackingInputFixed(size_t length) {
+  using T = typename DType::c_type;
+  return std::vector<T>(length, 42);
+}
+
+template <typename DType>
+static auto MakeDeltaBitPackingInputNarrow(size_t length) {
+  using T = typename DType::c_type;
+  auto numbers = std::vector<T>(length);
+  ::arrow::randint<T, T>(length, 0, 1000, &numbers);
+  return numbers;
+}
+
+template <typename DType>
+static auto MakeDeltaBitPackingInputWide(size_t length) {
+  using T = typename DType::c_type;
+  auto numbers = std::vector<T>(length);
+  ::arrow::randint<T, T>(length, std::numeric_limits<T>::min() >> 2,
+                         std::numeric_limits<T>::max() >> 2, &numbers);
+  return numbers;
+}
+
+template <typename DType, typename NumberGenerator>
+static void BM_DeltaBitPackingEncode(benchmark::State& state, NumberGenerator gen) {
+  using T = typename DType::c_type;
+  std::vector<T> values = gen(state.range(0));
+  auto encoder = MakeTypedEncoder<DType>(Encoding::DELTA_BINARY_PACKED);
+  for (auto _ : state) {
+    encoder->Put(values.data(), static_cast<int>(values.size()));
+    encoder->FlushValues();
+  }
+  state.SetBytesProcessed(state.iterations() * values.size() * sizeof(T));
+  state.SetItemsProcessed(state.iterations() * values.size());
+}
+
+static void BM_DeltaBitPackingEncode_Int32_Fixed(benchmark::State& state) {
+  BM_DeltaBitPackingEncode<Int32Type>(state, MakeDeltaBitPackingInputFixed<Int32Type>);
+}
+
+static void BM_DeltaBitPackingEncode_Int64_Fixed(benchmark::State& state) {
+  BM_DeltaBitPackingEncode<Int64Type>(state, MakeDeltaBitPackingInputFixed<Int64Type>);
+}
+
+static void BM_DeltaBitPackingEncode_Int32_Narrow(benchmark::State& state) {
+  BM_DeltaBitPackingEncode<Int32Type>(state, MakeDeltaBitPackingInputNarrow<Int32Type>);
+}
+
+static void BM_DeltaBitPackingEncode_Int64_Narrow(benchmark::State& state) {
+  BM_DeltaBitPackingEncode<Int64Type>(state, MakeDeltaBitPackingInputNarrow<Int64Type>);
+}
+
+static void BM_DeltaBitPackingEncode_Int32_Wide(benchmark::State& state) {
+  BM_DeltaBitPackingEncode<Int32Type>(state, MakeDeltaBitPackingInputWide<Int32Type>);
+}
+
+static void BM_DeltaBitPackingEncode_Int64_Wide(benchmark::State& state) {
+  BM_DeltaBitPackingEncode<Int64Type>(state, MakeDeltaBitPackingInputWide<Int64Type>);
+}
+
+BENCHMARK(BM_DeltaBitPackingEncode_Int32_Fixed)->Range(MIN_RANGE, MAX_RANGE);
+BENCHMARK(BM_DeltaBitPackingEncode_Int64_Fixed)->Range(MIN_RANGE, MAX_RANGE);
+BENCHMARK(BM_DeltaBitPackingEncode_Int32_Narrow)->Range(MIN_RANGE, MAX_RANGE);
+BENCHMARK(BM_DeltaBitPackingEncode_Int64_Narrow)->Range(MIN_RANGE, MAX_RANGE);
+BENCHMARK(BM_DeltaBitPackingEncode_Int32_Wide)->Range(MIN_RANGE, MAX_RANGE);
+BENCHMARK(BM_DeltaBitPackingEncode_Int64_Wide)->Range(MIN_RANGE, MAX_RANGE);
+
+template <typename DType, typename NumberGenerator>
+static void BM_DeltaBitPackingDecode(benchmark::State& state, NumberGenerator gen) {
+  using T = typename DType::c_type;
+  std::vector<T> values = gen(state.range(0));
+  auto encoder = MakeTypedEncoder<DType>(Encoding::DELTA_BINARY_PACKED);
+  encoder->Put(values.data(), static_cast<int>(values.size()));
+  std::shared_ptr<Buffer> buf = encoder->FlushValues();
+
+  for (auto _ : state) {
+    auto decoder = MakeTypedDecoder<DType>(Encoding::DELTA_BINARY_PACKED);
+    decoder->SetData(static_cast<int>(values.size()), buf->data(),
+                     static_cast<int>(buf->size()));
+    decoder->Decode(values.data(), static_cast<int>(values.size()));
+  }
+  state.SetBytesProcessed(state.iterations() * state.range(0) * sizeof(T));
+  state.SetItemsProcessed(state.iterations() * state.range(0));
+}
+
+static void BM_DeltaBitPackingDecode_Int32_Fixed(benchmark::State& state) {
+  BM_DeltaBitPackingDecode<Int32Type>(state, MakeDeltaBitPackingInputFixed<Int32Type>);
+}
+
+static void BM_DeltaBitPackingDecode_Int64_Fixed(benchmark::State& state) {
+  BM_DeltaBitPackingDecode<Int64Type>(state, MakeDeltaBitPackingInputFixed<Int64Type>);
+}
+
+static void BM_DeltaBitPackingDecode_Int32_Narrow(benchmark::State& state) {
+  BM_DeltaBitPackingDecode<Int32Type>(state, MakeDeltaBitPackingInputNarrow<Int32Type>);
+}
+
+static void BM_DeltaBitPackingDecode_Int64_Narrow(benchmark::State& state) {
+  BM_DeltaBitPackingDecode<Int64Type>(state, MakeDeltaBitPackingInputNarrow<Int64Type>);
+}
+
+static void BM_DeltaBitPackingDecode_Int32_Wide(benchmark::State& state) {
+  BM_DeltaBitPackingDecode<Int32Type>(state, MakeDeltaBitPackingInputWide<Int32Type>);
+}
+
+static void BM_DeltaBitPackingDecode_Int64_Wide(benchmark::State& state) {
+  BM_DeltaBitPackingDecode<Int64Type>(state, MakeDeltaBitPackingInputWide<Int64Type>);
+}
+
+BENCHMARK(BM_DeltaBitPackingDecode_Int32_Fixed)->Range(MIN_RANGE, MAX_RANGE);
+BENCHMARK(BM_DeltaBitPackingDecode_Int64_Fixed)->Range(MIN_RANGE, MAX_RANGE);
+BENCHMARK(BM_DeltaBitPackingDecode_Int32_Narrow)->Range(MIN_RANGE, MAX_RANGE);
+BENCHMARK(BM_DeltaBitPackingDecode_Int64_Narrow)->Range(MIN_RANGE, MAX_RANGE);
+BENCHMARK(BM_DeltaBitPackingDecode_Int32_Wide)->Range(MIN_RANGE, MAX_RANGE);
+BENCHMARK(BM_DeltaBitPackingDecode_Int64_Wide)->Range(MIN_RANGE, MAX_RANGE);
+
 template <typename Type>
 static void DecodeDict(std::vector<typename Type::c_type>& values,
                        benchmark::State& state) {
@@ -538,8 +655,8 @@ class BenchmarkDecodeArrow : public ::benchmark::Fixture {
   }
 
   void InitDataInputs() {
-    // Generate a random string dictionary without any nulls so that this dataset can be
-    // used for benchmarking the DecodeArrowNonNull API
+    // Generate a random string dictionary without any nulls so that this dataset can
+    // be used for benchmarking the DecodeArrowNonNull API
     constexpr int repeat_factor = 8;
     constexpr int64_t min_length = 2;
     constexpr int64_t max_length = 10;
@@ -682,7 +799,7 @@ class BM_ArrowBinaryDict : public BenchmarkDecodeArrow {
   template <typename PutValuesFunc>
   void DoEncode(PutValuesFunc&& put_values) {
     auto node = schema::ByteArray("name");
-    descr_ = std::unique_ptr<ColumnDescriptor>(new ColumnDescriptor(node, 0, 0));
+    descr_ = std::make_unique<ColumnDescriptor>(node, 0, 0);
 
     auto encoder = MakeTypedEncoder<ByteArrayType>(Encoding::PLAIN,
                                                    /*use_dictionary=*/true, descr_.get());
diff --git a/cpp/src/parquet/encoding_test.cc b/cpp/src/parquet/encoding_test.cc
index 6b494205c5e..b8363d29cdb 100644
--- a/cpp/src/parquet/encoding_test.cc
+++ b/cpp/src/parquet/encoding_test.cc
@@ -52,9 +52,40 @@ namespace parquet {
 
 namespace test {
 
-TEST(VectorBooleanTest, TestEncodeDecode) {
+TEST(VectorBooleanTest, TestEncodeBoolDecode) {
+  // PARQUET-454
+  const int nvalues = 10000;
+  bool decode_buffer[nvalues] = {false};
+
+  int nbytes = static_cast<int>(bit_util::BytesForBits(nvalues));
+
+  std::vector<bool> draws;
+  ::arrow::random_is_valid(nvalues, 0.5 /* null prob */, &draws, 0 /* seed */);
+
+  std::unique_ptr<BooleanEncoder> encoder =
+      MakeTypedEncoder<BooleanType>(Encoding::PLAIN);
+  encoder->Put(draws, nvalues);
+
+  std::unique_ptr<BooleanDecoder> decoder =
+      MakeTypedDecoder<BooleanType>(Encoding::PLAIN);
+
+  std::shared_ptr<Buffer> encode_buffer = encoder->FlushValues();
+  ASSERT_EQ(nbytes, encode_buffer->size());
+
+  decoder->SetData(nvalues, encode_buffer->data(),
+                   static_cast<int>(encode_buffer->size()));
+  int values_decoded = decoder->Decode(&decode_buffer[0], nvalues);
+  ASSERT_EQ(nvalues, values_decoded);
+
+  for (int i = 0; i < nvalues; ++i) {
+    ASSERT_EQ(draws[i], decode_buffer[i]);
+  }
+}
+
+TEST(VectorBooleanTest, TestEncodeIntDecode) {
   // PARQUET-454
   int nvalues = 10000;
+
   int nbytes = static_cast<int>(bit_util::BytesForBits(nvalues));
 
   std::vector<bool> draws;
@@ -93,6 +124,12 @@ void GenerateData(int num_values, T* out, std::vector<uint8_t>* heap) {
                  std::numeric_limits<T>::max(), out);
 }
 
+template <typename T>
+void GenerateBoundData(int num_values, T* out, T min, T max, std::vector<uint8_t>* heap) {
+  // seed the prng so failure is deterministic
+  random_numbers(num_values, 0, min, max, out);
+}
+
 template <>
 void GenerateData<bool>(int num_values, bool* out, std::vector<uint8_t>* heap) {
   // seed the prng so failure is deterministic
@@ -448,7 +485,7 @@ class TestArrowBuilderDecoding : public ::testing::Test {
   }
 
   std::unique_ptr<DictBuilder> CreateDictBuilder() {
-    return std::unique_ptr<DictBuilder>(new DictBuilder(default_memory_pool()));
+    return std::make_unique<DictBuilder>(default_memory_pool());
   }
 
   // Setup encoder/decoder pair for testing with
@@ -931,7 +968,7 @@ class DictEncoding : public TestArrowBuilderDecoding {
  public:
   void SetupEncoderDecoder() override {
     auto node = schema::ByteArray("name");
-    descr_ = std::unique_ptr<ColumnDescriptor>(new ColumnDescriptor(node, 0, 0));
+    descr_ = std::make_unique<ColumnDescriptor>(node, 0, 0);
     encoder_ = MakeTypedEncoder<ByteArrayType>(Encoding::PLAIN, /*use_dictionary=*/true,
                                                descr_.get());
     if (null_count_ == 0) {
@@ -1245,5 +1282,150 @@ TEST(ByteStreamSplitEncodeDecode, InvalidDataTypes) {
   ASSERT_THROW(MakeTypedDecoder<FLBAType>(Encoding::BYTE_STREAM_SPLIT), ParquetException);
 }
 
+// ----------------------------------------------------------------------
+// DELTA_BINARY_PACKED encode/decode tests.
+
+template <typename Type>
+class TestDeltaBitPackEncoding : public TestEncodingBase<Type> {
+ public:
+  using c_type = typename Type::c_type;
+  static constexpr int TYPE = Type::type_num;
+  static constexpr size_t kNumRoundTrips = 3;
+  const std::vector<int> kReadBatchSizes = {1, 11};
+
+  void InitBoundData(int nvalues, int repeats, c_type half_range) {
+    num_values_ = nvalues * repeats;
+    input_bytes_.resize(num_values_ * sizeof(c_type));
+    output_bytes_.resize(num_values_ * sizeof(c_type));
+    draws_ = reinterpret_cast<c_type*>(input_bytes_.data());
+    decode_buf_ = reinterpret_cast<c_type*>(output_bytes_.data());
+    GenerateBoundData<c_type>(nvalues, draws_, -half_range, half_range, &data_buffer_);
+
+    // add some repeated values
+    for (int j = 1; j < repeats; ++j) {
+      for (int i = 0; i < nvalues; ++i) {
+        draws_[nvalues * j + i] = draws_[i];
+      }
+    }
+  }
+
+  void ExecuteBound(int nvalues, int repeats, c_type half_range) {
+    InitBoundData(nvalues, repeats, half_range);
+    CheckRoundtrip();
+  }
+
+  void ExecuteSpacedBound(int nvalues, int repeats, int64_t valid_bits_offset,
+                          double null_probability, c_type half_range) {
+    InitBoundData(nvalues, repeats, half_range);
+
+    int64_t size = num_values_ + valid_bits_offset;
+    auto rand = ::arrow::random::RandomArrayGenerator(1923);
+    const auto array = rand.UInt8(size, 0, 100, null_probability);
+    const auto valid_bits = array->null_bitmap_data();
+    CheckRoundtripSpaced(valid_bits, valid_bits_offset);
+  }
+
+  void CheckRoundtrip() override {
+    auto encoder =
+        MakeTypedEncoder<Type>(Encoding::DELTA_BINARY_PACKED, false, descr_.get());
+    auto decoder = MakeTypedDecoder<Type>(Encoding::DELTA_BINARY_PACKED, descr_.get());
+    auto read_batch_sizes = kReadBatchSizes;
+    read_batch_sizes.push_back(num_values_);
+    // Encode a number of times to exercise the flush logic
+    for (size_t i = 0; i < kNumRoundTrips; ++i) {
+      encoder->Put(draws_, num_values_);
+      encode_buffer_ = encoder->FlushValues();
+      // Exercise different batch sizes
+      for (const int read_batch_size : read_batch_sizes) {
+        decoder->SetData(num_values_, encode_buffer_->data(),
+                         static_cast<int>(encode_buffer_->size()));
+
+        int values_decoded = 0;
+        while (values_decoded < num_values_) {
+          values_decoded +=
+              decoder->Decode(decode_buf_ + values_decoded, read_batch_size);
+        }
+        ASSERT_EQ(num_values_, values_decoded);
+        ASSERT_NO_FATAL_FAILURE(VerifyResults<c_type>(decode_buf_, draws_, num_values_));
+      }
+    }
+  }
+
+  void CheckRoundtripSpaced(const uint8_t* valid_bits,
+                            int64_t valid_bits_offset) override {
+    auto encoder =
+        MakeTypedEncoder<Type>(Encoding::DELTA_BINARY_PACKED, false, descr_.get());
+    auto decoder = MakeTypedDecoder<Type>(Encoding::DELTA_BINARY_PACKED, descr_.get());
+    int null_count = 0;
+    for (auto i = 0; i < num_values_; i++) {
+      if (!bit_util::GetBit(valid_bits, valid_bits_offset + i)) {
+        null_count++;
+      }
+    }
+
+    for (size_t i = 0; i < kNumRoundTrips; ++i) {
+      encoder->PutSpaced(draws_, num_values_, valid_bits, valid_bits_offset);
+      encode_buffer_ = encoder->FlushValues();
+      decoder->SetData(num_values_ - null_count, encode_buffer_->data(),
+                       static_cast<int>(encode_buffer_->size()));
+      auto values_decoded = decoder->DecodeSpaced(decode_buf_, num_values_, null_count,
+                                                  valid_bits, valid_bits_offset);
+      ASSERT_EQ(num_values_, values_decoded);
+      ASSERT_NO_FATAL_FAILURE(VerifyResultsSpaced<c_type>(
+          decode_buf_, draws_, num_values_, valid_bits, valid_bits_offset));
+    }
+  }
+
+ protected:
+  USING_BASE_MEMBERS();
+  std::vector<uint8_t> input_bytes_;
+  std::vector<uint8_t> output_bytes_;
+};
+
+using TestDeltaBitPackEncodingTypes = ::testing::Types<Int32Type, Int64Type>;
+TYPED_TEST_SUITE(TestDeltaBitPackEncoding, TestDeltaBitPackEncodingTypes);
+
+TYPED_TEST(TestDeltaBitPackEncoding, BasicRoundTrip) {
+  using T = typename TypeParam::c_type;
+  int values_per_block = 128;
+  int values_per_mini_block = 32;
+
+  // Size a multiple of miniblock size
+  ASSERT_NO_FATAL_FAILURE(this->Execute(values_per_mini_block * 10, 10));
+  // Size a multiple of block size
+  ASSERT_NO_FATAL_FAILURE(this->Execute(values_per_block * 10, 10));
+  // Size multiple of neither miniblock nor block size
+  ASSERT_NO_FATAL_FAILURE(
+      this->Execute((values_per_mini_block * values_per_block) + 1, 10));
+  ASSERT_NO_FATAL_FAILURE(this->Execute(0, 0));
+  ASSERT_NO_FATAL_FAILURE(this->ExecuteSpaced(
+      /*nvalues*/ 1234, /*repeats*/ 1, /*valid_bits_offset*/ 64,
+      /*null_probability*/ 0.1));
+
+  // All identical values
+  ASSERT_NO_FATAL_FAILURE(
+      this->ExecuteBound(/*nvalues*/ 2000, /*repeats*/ 50, /*half_range*/ 0));
+  ASSERT_NO_FATAL_FAILURE(this->ExecuteSpacedBound(
+      /*nvalues*/ 1234, /*repeats*/ 1, /*valid_bits_offset*/ 64,
+      /*null_probability*/ 0.1,
+      /*half_range*/ 0));
+
+  // Various delta bitwidths, including the full datatype width
+  const int max_bitwidth = sizeof(T) * 8;
+  std::vector<int> bitwidths = {
+      1, 2, 3, 5, 8, 11, 16, max_bitwidth - 8, max_bitwidth - 1, max_bitwidth};
+  for (int bitwidth : bitwidths) {
+    T half_range =
+        std::numeric_limits<T>::max() >> static_cast<uint32_t>(max_bitwidth - bitwidth);
+
+    ASSERT_NO_FATAL_FAILURE(
+        this->ExecuteBound(/*nvalues*/ 2000, /*repeats*/ 50, half_range));
+    ASSERT_NO_FATAL_FAILURE(this->ExecuteSpacedBound(
+        /*nvalues*/ 1234, /*repeats*/ 1, /*valid_bits_offset*/ 64,
+        /*null_probability*/ 0.1,
+        /*half_range*/ half_range));
+  }
+}
+
 }  // namespace test
 }  // namespace parquet
diff --git a/cpp/src/parquet/encryption/crypto_factory.cc b/cpp/src/parquet/encryption/crypto_factory.cc
index 384516bff47..316793c73db 100644
--- a/cpp/src/parquet/encryption/crypto_factory.cc
+++ b/cpp/src/parquet/encryption/crypto_factory.cc
@@ -15,10 +15,11 @@
 // specific language governing permissions and limitations
 // under the License.
 
+#include <string_view>
+
 #include "arrow/result.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/string.h"
-#include "arrow/util/string_view.h"
 
 #include "parquet/encryption/crypto_factory.h"
 #include "parquet/encryption/encryption_internal.h"
@@ -94,7 +95,7 @@ ColumnPathToEncryptionPropertiesMap CryptoFactory::GetColumnEncryptionProperties
     int dek_length, const std::string& column_keys, FileKeyWrapper* key_wrapper) {
   ColumnPathToEncryptionPropertiesMap encrypted_columns;
 
-  std::vector<::arrow::util::string_view> key_to_columns =
+  std::vector<::std::string_view> key_to_columns =
       ::arrow::internal::SplitString(column_keys, ';');
   for (size_t i = 0; i < key_to_columns.size(); ++i) {
     std::string cur_key_to_columns =
@@ -103,7 +104,7 @@ ColumnPathToEncryptionPropertiesMap CryptoFactory::GetColumnEncryptionProperties
       continue;
     }
 
-    std::vector<::arrow::util::string_view> parts =
+    std::vector<::std::string_view> parts =
         ::arrow::internal::SplitString(cur_key_to_columns, ':');
     if (parts.size() != 2) {
       std::ostringstream message;
@@ -118,7 +119,7 @@ ColumnPathToEncryptionPropertiesMap CryptoFactory::GetColumnEncryptionProperties
     }
 
     std::string column_names_str = ::arrow::internal::TrimString(std::string(parts[1]));
-    std::vector<::arrow::util::string_view> column_names =
+    std::vector<::std::string_view> column_names =
         ::arrow::internal::SplitString(column_names_str, ',');
     if (0 == column_names.size()) {
       throw ParquetException("No columns to encrypt defined for key: " + column_key_id);
diff --git a/cpp/src/parquet/encryption/encryption_internal.cc b/cpp/src/parquet/encryption/encryption_internal.cc
index fee3434d09e..1c4d3d8dc48 100644
--- a/cpp/src/parquet/encryption/encryption_internal.cc
+++ b/cpp/src/parquet/encryption/encryption_internal.cc
@@ -597,9 +597,19 @@ static std::string ShortToBytesLe(int16_t input) {
   return std::string(reinterpret_cast<char const*>(output), 2);
 }
 
+static void CheckPageOrdinal(int32_t page_ordinal) {
+  if (ARROW_PREDICT_FALSE(page_ordinal > std::numeric_limits<int16_t>::max())) {
+    throw ParquetException("Encrypted Parquet files can't have more than " +
+                           std::to_string(std::numeric_limits<int16_t>::max()) +
+                           " pages per chunk: got " + std::to_string(page_ordinal));
+  }
+}
+
 std::string CreateModuleAad(const std::string& file_aad, int8_t module_type,
                             int16_t row_group_ordinal, int16_t column_ordinal,
-                            int16_t page_ordinal) {
+                            int32_t page_ordinal) {
+  CheckPageOrdinal(page_ordinal);
+  const int16_t page_ordinal_short = static_cast<int16_t>(page_ordinal);
   int8_t type_ordinal_bytes[1];
   type_ordinal_bytes[0] = module_type;
   std::string type_ordinal_bytes_str(reinterpret_cast<char const*>(type_ordinal_bytes),
@@ -616,7 +626,7 @@ std::string CreateModuleAad(const std::string& file_aad, int8_t module_type,
         << column_ordinal_bytes;
     return out.str();
   }
-  std::string page_ordinal_bytes = ShortToBytesLe(page_ordinal);
+  std::string page_ordinal_bytes = ShortToBytesLe(page_ordinal_short);
   std::ostringstream out;
   out << file_aad << type_ordinal_bytes_str << row_group_ordinal_bytes
       << column_ordinal_bytes << page_ordinal_bytes;
@@ -630,11 +640,11 @@ std::string CreateFooterAad(const std::string& aad_prefix_bytes) {
 
 // Update last two bytes with new page ordinal (instead of creating new page AAD
 // from scratch)
-void QuickUpdatePageAad(const std::string& AAD, int16_t new_page_ordinal) {
-  std::string page_ordinal_bytes = ShortToBytesLe(new_page_ordinal);
-  int length = static_cast<int>(AAD.size());
-  std::memcpy(reinterpret_cast<int16_t*>(const_cast<char*>(AAD.c_str() + length - 2)),
-              reinterpret_cast<const int16_t*>(page_ordinal_bytes.c_str()), 2);
+void QuickUpdatePageAad(int32_t new_page_ordinal, std::string* AAD) {
+  CheckPageOrdinal(new_page_ordinal);
+  const std::string page_ordinal_bytes =
+      ShortToBytesLe(static_cast<int16_t>(new_page_ordinal));
+  std::memcpy(AAD->data() + AAD->length() - 2, page_ordinal_bytes.data(), 2);
 }
 
 void RandBytes(unsigned char* buf, int num) { RAND_bytes(buf, num); }
diff --git a/cpp/src/parquet/encryption/encryption_internal.h b/cpp/src/parquet/encryption/encryption_internal.h
index ede338182f5..24093c68be5 100644
--- a/cpp/src/parquet/encryption/encryption_internal.h
+++ b/cpp/src/parquet/encryption/encryption_internal.h
@@ -119,12 +119,12 @@ class AesDecryptor {
 
 std::string CreateModuleAad(const std::string& file_aad, int8_t module_type,
                             int16_t row_group_ordinal, int16_t column_ordinal,
-                            int16_t page_ordinal);
+                            int32_t page_ordinal);
 
 std::string CreateFooterAad(const std::string& aad_prefix_bytes);
 
 // Update last two bytes of page (or page header) module AAD
-void QuickUpdatePageAad(const std::string& AAD, int16_t new_page_ordinal);
+void QuickUpdatePageAad(int32_t new_page_ordinal, std::string* AAD);
 
 // Wraps OpenSSL RAND_bytes function
 void RandBytes(unsigned char* buf, int num);
diff --git a/cpp/src/parquet/encryption/encryption_internal_nossl.cc b/cpp/src/parquet/encryption/encryption_internal_nossl.cc
index 540ee16f78f..bb203f0fd87 100644
--- a/cpp/src/parquet/encryption/encryption_internal_nossl.cc
+++ b/cpp/src/parquet/encryption/encryption_internal_nossl.cc
@@ -99,7 +99,7 @@ int AesDecryptor::CiphertextSizeDelta() {
 
 std::string CreateModuleAad(const std::string& file_aad, int8_t module_type,
                             int16_t row_group_ordinal, int16_t column_ordinal,
-                            int16_t page_ordinal) {
+                            int32_t page_ordinal) {
   ThrowOpenSSLRequiredException();
   return "";
 }
@@ -109,7 +109,7 @@ std::string CreateFooterAad(const std::string& aad_prefix_bytes) {
   return "";
 }
 
-void QuickUpdatePageAad(const std::string& AAD, int16_t new_page_ordinal) {
+void QuickUpdatePageAad(int32_t new_page_ordinal, std::string* AAD) {
   ThrowOpenSSLRequiredException();
 }
 
diff --git a/cpp/src/parquet/encryption/key_metadata.h b/cpp/src/parquet/encryption/key_metadata.h
index 2281b96e60e..b6dc349f19b 100644
--- a/cpp/src/parquet/encryption/key_metadata.h
+++ b/cpp/src/parquet/encryption/key_metadata.h
@@ -18,8 +18,7 @@
 #pragma once
 
 #include <string>
-
-#include "arrow/util/variant.h"
+#include <variant>
 
 #include "parquet/encryption/key_material.h"
 #include "parquet/exception.h"
@@ -70,14 +69,14 @@ class PARQUET_EXPORT KeyMetadata {
     if (!is_internal_storage_) {
       throw ParquetException("key material is stored externally.");
     }
-    return ::arrow::util::get<KeyMaterial>(key_material_or_reference_);
+    return ::std::get<KeyMaterial>(key_material_or_reference_);
   }
 
   const std::string& key_reference() const {
     if (is_internal_storage_) {
       throw ParquetException("key material is stored internally.");
     }
-    return ::arrow::util::get<std::string>(key_material_or_reference_);
+    return ::std::get<std::string>(key_material_or_reference_);
   }
 
  private:
@@ -87,7 +86,7 @@ class PARQUET_EXPORT KeyMetadata {
   bool is_internal_storage_;
   /// If is_internal_storage_ is true, KeyMaterial is set,
   /// else a string referencing to an outside "key material" is set.
-  ::arrow::util::Variant<KeyMaterial, std::string> key_material_or_reference_;
+  ::std::variant<KeyMaterial, std::string> key_material_or_reference_;
 };
 
 }  // namespace encryption
diff --git a/cpp/src/parquet/encryption/key_toolkit_internal.cc b/cpp/src/parquet/encryption/key_toolkit_internal.cc
index dc9c070e7a3..6e0e4e6c65e 100644
--- a/cpp/src/parquet/encryption/key_toolkit_internal.cc
+++ b/cpp/src/parquet/encryption/key_toolkit_internal.cc
@@ -45,7 +45,7 @@ std::string EncryptKeyLocally(const std::string& key_bytes, const std::string& m
       static_cast<int>(aad.size()), reinterpret_cast<uint8_t*>(&encrypted_key[0]));
 
   return ::arrow::util::base64_encode(
-      ::arrow::util::string_view(encrypted_key.data(), encrypted_key_len));
+      ::std::string_view(encrypted_key.data(), encrypted_key_len));
 }
 
 std::string DecryptKeyLocally(const std::string& encoded_encrypted_key,
diff --git a/cpp/src/parquet/file_deserialize_test.cc b/cpp/src/parquet/file_deserialize_test.cc
index d0d333256fb..76f34a1eecb 100644
--- a/cpp/src/parquet/file_deserialize_test.cc
+++ b/cpp/src/parquet/file_deserialize_test.cc
@@ -21,23 +21,24 @@
 #include <cstring>
 #include <memory>
 
+#include "arrow/io/memory.h"
+#include "arrow/status.h"
+#include "arrow/testing/gtest_util.h"
+#include "arrow/util/compression.h"
 #include "parquet/column_page.h"
 #include "parquet/column_reader.h"
 #include "parquet/exception.h"
 #include "parquet/file_reader.h"
+#include "parquet/metadata.h"
 #include "parquet/platform.h"
 #include "parquet/test_util.h"
 #include "parquet/thrift_internal.h"
 #include "parquet/types.h"
 
-#include "arrow/io/memory.h"
-#include "arrow/status.h"
-#include "arrow/testing/gtest_util.h"
-#include "arrow/util/compression.h"
-
 namespace parquet {
 
 using ::arrow::io::BufferReader;
+using ::parquet::DataPageStats;
 
 // Adds page statistics occupying a certain amount of bytes (for testing very
 // large page headers)
@@ -123,6 +124,27 @@ class TestPageSerde : public ::testing::Test {
     ASSERT_NO_THROW(serializer.Serialize(&page_header_, out_stream_.get()));
   }
 
+  void WriteDictionaryPageHeader(int32_t uncompressed_size = 0,
+                                 int32_t compressed_size = 0) {
+    page_header_.__set_dictionary_page_header(dictionary_page_header_);
+    page_header_.uncompressed_page_size = uncompressed_size;
+    page_header_.compressed_page_size = compressed_size;
+    page_header_.type = format::PageType::DICTIONARY_PAGE;
+
+    ThriftSerializer serializer;
+    ASSERT_NO_THROW(serializer.Serialize(&page_header_, out_stream_.get()));
+  }
+
+  void WriteIndexPageHeader(int32_t uncompressed_size = 0, int32_t compressed_size = 0) {
+    page_header_.__set_index_page_header(index_page_header_);
+    page_header_.uncompressed_page_size = uncompressed_size;
+    page_header_.compressed_page_size = compressed_size;
+    page_header_.type = format::PageType::INDEX_PAGE;
+
+    ThriftSerializer serializer;
+    ASSERT_NO_THROW(serializer.Serialize(&page_header_, out_stream_.get()));
+  }
+
   void ResetStream() { out_stream_ = CreateOutputStream(); }
 
   void EndStream() { PARQUET_ASSIGN_OR_THROW(out_buffer_, out_stream_->Finish()); }
@@ -135,6 +157,8 @@ class TestPageSerde : public ::testing::Test {
   format::PageHeader page_header_;
   format::DataPageHeader data_page_header_;
   format::DataPageHeaderV2 data_page_header_v2_;
+  format::IndexPageHeader index_page_header_;
+  format::DictionaryPageHeader dictionary_page_header_;
 };
 
 void CheckDataPageHeader(const format::DataPageHeader expected, const Page* page) {
@@ -177,6 +201,305 @@ TEST_F(TestPageSerde, DataPageV1) {
   ASSERT_NO_FATAL_FAILURE(CheckDataPageHeader(data_page_header_, current_page.get()));
 }
 
+// Templated test class to test page filtering for both format::DataPageHeader
+// and format::DataPageHeaderV2.
+template <typename T>
+class PageFilterTest : public TestPageSerde {
+ public:
+  const int kNumPages = 10;
+  void WriteStream();
+  void WritePageWithoutStats();
+  void CheckNumRows(std::optional<int32_t> num_rows, const T& header);
+
+ protected:
+  std::vector<T> data_page_headers_;
+  int total_rows_ = 0;
+};
+
+template <>
+void PageFilterTest<format::DataPageHeader>::WriteStream() {
+  for (int i = 0; i < kNumPages; ++i) {
+    // Vary the number of rows to produce different headers.
+    int32_t num_rows = i + 100;
+    total_rows_ += num_rows;
+    int data_size = i + 1024;
+    this->data_page_header_.__set_num_values(num_rows);
+    this->data_page_header_.statistics.__set_min_value("A" + std::to_string(i));
+    this->data_page_header_.statistics.__set_max_value("Z" + std::to_string(i));
+    this->data_page_header_.statistics.__set_null_count(0);
+    this->data_page_header_.statistics.__set_distinct_count(num_rows);
+    this->data_page_header_.__isset.statistics = true;
+    ASSERT_NO_FATAL_FAILURE(
+        this->WriteDataPageHeader(/*max_serialized_len=*/1024, data_size, data_size));
+    data_page_headers_.push_back(this->data_page_header_);
+    // Also write data, to make sure we skip the data correctly.
+    std::vector<uint8_t> faux_data(data_size);
+    ASSERT_OK(this->out_stream_->Write(faux_data.data(), data_size));
+  }
+  this->EndStream();
+}
+
+template <>
+void PageFilterTest<format::DataPageHeaderV2>::WriteStream() {
+  for (int i = 0; i < kNumPages; ++i) {
+    // Vary the number of rows to produce different headers.
+    int32_t num_rows = i + 100;
+    total_rows_ += num_rows;
+    int data_size = i + 1024;
+    this->data_page_header_v2_.__set_num_values(num_rows);
+    this->data_page_header_v2_.__set_num_rows(num_rows);
+    this->data_page_header_v2_.statistics.__set_min_value("A" + std::to_string(i));
+    this->data_page_header_v2_.statistics.__set_max_value("Z" + std::to_string(i));
+    this->data_page_header_v2_.statistics.__set_null_count(0);
+    this->data_page_header_v2_.statistics.__set_distinct_count(num_rows);
+    this->data_page_header_v2_.__isset.statistics = true;
+    ASSERT_NO_FATAL_FAILURE(
+        this->WriteDataPageHeaderV2(/*max_serialized_len=*/1024, data_size, data_size));
+    data_page_headers_.push_back(this->data_page_header_v2_);
+    // Also write data, to make sure we skip the data correctly.
+    std::vector<uint8_t> faux_data(data_size);
+    ASSERT_OK(this->out_stream_->Write(faux_data.data(), data_size));
+  }
+  this->EndStream();
+}
+
+template <>
+void PageFilterTest<format::DataPageHeader>::WritePageWithoutStats() {
+  int32_t num_rows = 100;
+  total_rows_ += num_rows;
+  int data_size = 1024;
+  this->data_page_header_.__set_num_values(num_rows);
+  ASSERT_NO_FATAL_FAILURE(
+      this->WriteDataPageHeader(/*max_serialized_len=*/1024, data_size, data_size));
+  data_page_headers_.push_back(this->data_page_header_);
+  std::vector<uint8_t> faux_data(data_size);
+  ASSERT_OK(this->out_stream_->Write(faux_data.data(), data_size));
+  this->EndStream();
+}
+
+template <>
+void PageFilterTest<format::DataPageHeaderV2>::WritePageWithoutStats() {
+  int32_t num_rows = 100;
+  total_rows_ += num_rows;
+  int data_size = 1024;
+  this->data_page_header_v2_.__set_num_values(num_rows);
+  this->data_page_header_v2_.__set_num_rows(num_rows);
+  ASSERT_NO_FATAL_FAILURE(
+      this->WriteDataPageHeaderV2(/*max_serialized_len=*/1024, data_size, data_size));
+  data_page_headers_.push_back(this->data_page_header_v2_);
+  std::vector<uint8_t> faux_data(data_size);
+  ASSERT_OK(this->out_stream_->Write(faux_data.data(), data_size));
+  this->EndStream();
+}
+
+template <>
+void PageFilterTest<format::DataPageHeader>::CheckNumRows(
+    std::optional<int32_t> num_rows, const format::DataPageHeader& header) {
+  ASSERT_EQ(num_rows, std::nullopt);
+}
+
+template <>
+void PageFilterTest<format::DataPageHeaderV2>::CheckNumRows(
+    std::optional<int32_t> num_rows, const format::DataPageHeaderV2& header) {
+  ASSERT_EQ(*num_rows, header.num_rows);
+}
+
+using DataPageHeaderTypes =
+    ::testing::Types<format::DataPageHeader, format::DataPageHeaderV2>;
+TYPED_TEST_SUITE(PageFilterTest, DataPageHeaderTypes);
+
+// Test that the returned encoded_statistics is nullptr when there are no
+// statistics in the page header.
+TYPED_TEST(PageFilterTest, TestPageWithoutStatistics) {
+  this->WritePageWithoutStats();
+
+  auto stream = std::make_shared<::arrow::io::BufferReader>(this->out_buffer_);
+  this->page_reader_ =
+      PageReader::Open(stream, this->total_rows_, Compression::UNCOMPRESSED);
+
+  int num_pages = 0;
+  bool is_stats_null = false;
+  auto read_all_pages = [&](const DataPageStats& stats) -> bool {
+    is_stats_null = stats.encoded_statistics == nullptr;
+    ++num_pages;
+    return false;
+  };
+
+  this->page_reader_->set_data_page_filter(read_all_pages);
+  std::shared_ptr<Page> current_page = this->page_reader_->NextPage();
+  ASSERT_EQ(num_pages, 1);
+  ASSERT_EQ(is_stats_null, true);
+  ASSERT_EQ(this->page_reader_->NextPage(), nullptr);
+}
+
+// Creates a number of pages and skips some of them with the page filter callback.
+TYPED_TEST(PageFilterTest, TestPageFilterCallback) {
+  this->WriteStream();
+
+  {  // Read all pages.
+     // Also check that the encoded statistics passed to the callback function
+     // are right.
+    auto stream = std::make_shared<::arrow::io::BufferReader>(this->out_buffer_);
+    this->page_reader_ =
+        PageReader::Open(stream, this->total_rows_, Compression::UNCOMPRESSED);
+
+    std::vector<EncodedStatistics> read_stats;
+    std::vector<int64_t> read_num_values;
+    std::vector<std::optional<int32_t>> read_num_rows;
+    auto read_all_pages = [&](const DataPageStats& stats) -> bool {
+      DCHECK_NE(stats.encoded_statistics, nullptr);
+      read_stats.push_back(*stats.encoded_statistics);
+      read_num_values.push_back(stats.num_values);
+      read_num_rows.push_back(stats.num_rows);
+      return false;
+    };
+
+    this->page_reader_->set_data_page_filter(read_all_pages);
+    for (int i = 0; i < this->kNumPages; ++i) {
+      std::shared_ptr<Page> current_page = this->page_reader_->NextPage();
+      ASSERT_NE(current_page, nullptr);
+      ASSERT_NO_FATAL_FAILURE(
+          CheckDataPageHeader(this->data_page_headers_[i], current_page.get()));
+      auto data_page = static_cast<const DataPage*>(current_page.get());
+      const EncodedStatistics encoded_statistics = data_page->statistics();
+      ASSERT_EQ(read_stats[i].max(), encoded_statistics.max());
+      ASSERT_EQ(read_stats[i].min(), encoded_statistics.min());
+      ASSERT_EQ(read_stats[i].null_count, encoded_statistics.null_count);
+      ASSERT_EQ(read_stats[i].distinct_count, encoded_statistics.distinct_count);
+      ASSERT_EQ(read_num_values[i], this->data_page_headers_[i].num_values);
+      this->CheckNumRows(read_num_rows[i], this->data_page_headers_[i]);
+    }
+    ASSERT_EQ(this->page_reader_->NextPage(), nullptr);
+  }
+
+  {  // Skip all pages.
+    auto stream = std::make_shared<::arrow::io::BufferReader>(this->out_buffer_);
+    this->page_reader_ =
+        PageReader::Open(stream, this->total_rows_, Compression::UNCOMPRESSED);
+
+    auto skip_all_pages = [](const DataPageStats& stats) -> bool { return true; };
+
+    this->page_reader_->set_data_page_filter(skip_all_pages);
+    std::shared_ptr<Page> current_page = this->page_reader_->NextPage();
+    ASSERT_EQ(this->page_reader_->NextPage(), nullptr);
+  }
+
+  {  // Skip every other page.
+    auto stream = std::make_shared<::arrow::io::BufferReader>(this->out_buffer_);
+    this->page_reader_ =
+        PageReader::Open(stream, this->total_rows_, Compression::UNCOMPRESSED);
+
+    // Skip pages with even number of values.
+    auto skip_even_pages = [](const DataPageStats& stats) -> bool {
+      if (stats.num_values % 2 == 0) return true;
+      return false;
+    };
+
+    this->page_reader_->set_data_page_filter(skip_even_pages);
+
+    for (int i = 0; i < this->kNumPages; ++i) {
+      // Only pages with odd number of values are read.
+      if (i % 2 != 0) {
+        std::shared_ptr<Page> current_page = this->page_reader_->NextPage();
+        ASSERT_NE(current_page, nullptr);
+        ASSERT_NO_FATAL_FAILURE(
+            CheckDataPageHeader(this->data_page_headers_[i], current_page.get()));
+      }
+    }
+    // We should have exhausted reading the pages by reading the odd pages only.
+    ASSERT_EQ(this->page_reader_->NextPage(), nullptr);
+  }
+}
+
+// Set the page filter more than once. The new filter should be effective
+// on the next NextPage() call.
+TYPED_TEST(PageFilterTest, TestChangingPageFilter) {
+  this->WriteStream();
+
+  auto stream = std::make_shared<::arrow::io::BufferReader>(this->out_buffer_);
+  this->page_reader_ =
+      PageReader::Open(stream, this->total_rows_, Compression::UNCOMPRESSED);
+
+  // This callback will always return false.
+  auto read_all_pages = [](const DataPageStats& stats) -> bool { return false; };
+  this->page_reader_->set_data_page_filter(read_all_pages);
+  std::shared_ptr<Page> current_page = this->page_reader_->NextPage();
+  ASSERT_NE(current_page, nullptr);
+  ASSERT_NO_FATAL_FAILURE(
+      CheckDataPageHeader(this->data_page_headers_[0], current_page.get()));
+
+  // This callback will skip all pages.
+  auto skip_all_pages = [](const DataPageStats& stats) -> bool { return true; };
+  this->page_reader_->set_data_page_filter(skip_all_pages);
+  ASSERT_EQ(this->page_reader_->NextPage(), nullptr);
+}
+
+// Test that we do not skip dictionary pages.
+TEST_F(TestPageSerde, DoesNotFilterDictionaryPages) {
+  int data_size = 1024;
+  std::vector<uint8_t> faux_data(data_size);
+
+  ASSERT_NO_FATAL_FAILURE(
+      WriteDataPageHeader(/*max_serialized_len=*/1024, data_size, data_size));
+  ASSERT_OK(out_stream_->Write(faux_data.data(), data_size));
+
+  ASSERT_NO_FATAL_FAILURE(WriteDictionaryPageHeader(data_size, data_size));
+  ASSERT_OK(out_stream_->Write(faux_data.data(), data_size));
+
+  ASSERT_NO_FATAL_FAILURE(
+      WriteDataPageHeader(/*max_serialized_len=*/1024, data_size, data_size));
+  ASSERT_OK(out_stream_->Write(faux_data.data(), data_size));
+  EndStream();
+
+  // Try to read it back while asking for all data pages to be skipped.
+  auto stream = std::make_shared<::arrow::io::BufferReader>(out_buffer_);
+  page_reader_ = PageReader::Open(stream, /*num_rows=*/100, Compression::UNCOMPRESSED);
+
+  auto skip_all_pages = [](const DataPageStats& stats) -> bool { return true; };
+
+  page_reader_->set_data_page_filter(skip_all_pages);
+  // The first data page is skipped, so we are now at the dictionary page.
+  std::shared_ptr<Page> current_page = page_reader_->NextPage();
+  ASSERT_NE(current_page, nullptr);
+  ASSERT_EQ(current_page->type(), PageType::DICTIONARY_PAGE);
+  // The data page after dictionary page is skipped.
+  ASSERT_EQ(page_reader_->NextPage(), nullptr);
+}
+
+// Tests that we successfully skip non-data pages.
+TEST_F(TestPageSerde, SkipsNonDataPages) {
+  int data_size = 1024;
+  std::vector<uint8_t> faux_data(data_size);
+  ASSERT_NO_FATAL_FAILURE(WriteIndexPageHeader(data_size, data_size));
+  ASSERT_OK(out_stream_->Write(faux_data.data(), data_size));
+
+  ASSERT_NO_FATAL_FAILURE(
+      WriteDataPageHeader(/*max_serialized_len=*/1024, data_size, data_size));
+  ASSERT_OK(out_stream_->Write(faux_data.data(), data_size));
+
+  ASSERT_NO_FATAL_FAILURE(WriteIndexPageHeader(data_size, data_size));
+  ASSERT_OK(out_stream_->Write(faux_data.data(), data_size));
+  ASSERT_NO_FATAL_FAILURE(WriteIndexPageHeader(data_size, data_size));
+  ASSERT_OK(out_stream_->Write(faux_data.data(), data_size));
+
+  ASSERT_NO_FATAL_FAILURE(
+      WriteDataPageHeader(/*max_serialized_len=*/1024, data_size, data_size));
+  ASSERT_OK(out_stream_->Write(faux_data.data(), data_size));
+  ASSERT_NO_FATAL_FAILURE(WriteIndexPageHeader(data_size, data_size));
+  ASSERT_OK(out_stream_->Write(faux_data.data(), data_size));
+  EndStream();
+
+  auto stream = std::make_shared<::arrow::io::BufferReader>(out_buffer_);
+  page_reader_ = PageReader::Open(stream, /*num_rows=*/100, Compression::UNCOMPRESSED);
+
+  // Only the two data pages are returned.
+  std::shared_ptr<Page> current_page = page_reader_->NextPage();
+  ASSERT_EQ(current_page->type(), PageType::DATA_PAGE);
+  current_page = page_reader_->NextPage();
+  ASSERT_EQ(current_page->type(), PageType::DATA_PAGE);
+  ASSERT_EQ(page_reader_->NextPage(), nullptr);
+}
+
 TEST_F(TestPageSerde, DataPageV2) {
   int stats_size = 512;
   const int32_t num_rows = 4444;
diff --git a/cpp/src/parquet/file_reader.cc b/cpp/src/parquet/file_reader.cc
index 90e19e594ed..520317539b5 100644
--- a/cpp/src/parquet/file_reader.cc
+++ b/cpp/src/parquet/file_reader.cc
@@ -294,9 +294,9 @@ class SerializedFile : public ParquetFileReader::Contents {
   }
 
   std::shared_ptr<RowGroupReader> GetRowGroup(int i) override {
-    std::unique_ptr<SerializedRowGroup> contents(
-        new SerializedRowGroup(source_, cached_source_, source_size_,
-                               file_metadata_.get(), i, properties_, file_decryptor_));
+    std::unique_ptr<SerializedRowGroup> contents = std::make_unique<SerializedRowGroup>(
+        source_, cached_source_, source_size_, file_metadata_.get(), i, properties_,
+        file_decryptor_);
     return std::make_shared<RowGroupReader>(std::move(contents));
   }
 
@@ -434,7 +434,8 @@ class SerializedFile : public ParquetFileReader::Contents {
     END_PARQUET_CATCH_EXCEPTIONS
     // Assumes this is kept alive externally
     return source_->ReadAsync(source_size_ - footer_read_size, footer_read_size)
-        .Then([=](const std::shared_ptr<::arrow::Buffer>& footer_buffer)
+        .Then([this,
+               footer_read_size](const std::shared_ptr<::arrow::Buffer>& footer_buffer)
                   -> ::arrow::Future<> {
           uint32_t metadata_len;
           BEGIN_PARQUET_CATCH_EXCEPTIONS
@@ -452,7 +453,8 @@ class SerializedFile : public ParquetFileReader::Contents {
                                                     footer_read_size, metadata_len);
           }
           return source_->ReadAsync(metadata_start, metadata_len)
-              .Then([=](const std::shared_ptr<::arrow::Buffer>& metadata_buffer) {
+              .Then([this, footer_buffer, footer_read_size, metadata_len](
+                        const std::shared_ptr<::arrow::Buffer>& metadata_buffer) {
                 return ParseMaybeEncryptedMetaDataAsync(footer_buffer, metadata_buffer,
                                                         footer_read_size, metadata_len);
               });
@@ -478,7 +480,8 @@ class SerializedFile : public ParquetFileReader::Contents {
       int64_t metadata_start = read_size.first;
       metadata_len = read_size.second;
       return source_->ReadAsync(metadata_start, metadata_len)
-          .Then([=](const std::shared_ptr<::arrow::Buffer>& metadata_buffer) {
+          .Then([this, metadata_len, is_encrypted_footer](
+                    const std::shared_ptr<::arrow::Buffer>& metadata_buffer) {
             // Continue and read the file footer
             return ParseMetaDataFinal(metadata_buffer, metadata_len, is_encrypted_footer);
           });
@@ -725,7 +728,7 @@ std::unique_ptr<ParquetFileReader> ParquetFileReader::Open(
     std::shared_ptr<::arrow::io::RandomAccessFile> source, const ReaderProperties& props,
     std::shared_ptr<FileMetaData> metadata) {
   auto contents = SerializedFile::Open(std::move(source), props, std::move(metadata));
-  std::unique_ptr<ParquetFileReader> result(new ParquetFileReader());
+  std::unique_ptr<ParquetFileReader> result = std::make_unique<ParquetFileReader>();
   result->Open(std::move(contents));
   return result;
 }
@@ -759,7 +762,7 @@ ::arrow::Future<std::unique_ptr<ParquetFileReader>> ParquetFileReader::OpenAsync
       completed.MarkFinished(contents.status());
       return;
     }
-    std::unique_ptr<ParquetFileReader> result(new ParquetFileReader());
+    std::unique_ptr<ParquetFileReader> result = std::make_unique<ParquetFileReader>();
     result->Open(fut.MoveResult().MoveValueUnsafe());
     completed.MarkFinished(std::move(result));
   });
diff --git a/cpp/src/parquet/file_writer.cc b/cpp/src/parquet/file_writer.cc
index deac9586e5a..35b1a3ae56a 100644
--- a/cpp/src/parquet/file_writer.cc
+++ b/cpp/src/parquet/file_writer.cc
@@ -18,6 +18,7 @@
 #include "parquet/file_writer.h"
 
 #include <cstddef>
+#include <memory>
 #include <ostream>
 #include <string>
 #include <utility>
@@ -61,6 +62,8 @@ int64_t RowGroupWriter::total_bytes_written() const {
   return contents_->total_bytes_written();
 }
 
+bool RowGroupWriter::buffered() const { return contents_->buffered(); }
+
 int RowGroupWriter::current_column() { return contents_->current_column(); }
 
 int RowGroupWriter::num_columns() const { return contents_->num_columns(); }
@@ -176,6 +179,8 @@ class RowGroupSerializer : public RowGroupWriter::Contents {
     return total_bytes_written;
   }
 
+  bool buffered() const override { return buffered_row_group_; }
+
   void Close() override {
     if (!closed_) {
       closed_ = true;
@@ -314,7 +319,7 @@ class FileSerializer : public ParquetFileWriter::Contents {
     std::unique_ptr<RowGroupWriter::Contents> contents(new RowGroupSerializer(
         sink_, rg_metadata, static_cast<int16_t>(num_row_groups_ - 1), properties_.get(),
         buffered_row_group, file_encryptor_.get()));
-    row_group_writer_.reset(new RowGroupWriter(std::move(contents)));
+    row_group_writer_ = std::make_unique<RowGroupWriter>(std::move(contents));
     return row_group_writer_.get();
   }
 
@@ -416,8 +421,8 @@ class FileSerializer : public ParquetFileWriter::Contents {
         }
       }
 
-      file_encryptor_.reset(new InternalFileEncryptor(file_encryption_properties,
-                                                      properties_->memory_pool()));
+      file_encryptor_ = std::make_unique<InternalFileEncryptor>(
+          file_encryption_properties, properties_->memory_pool());
       if (file_encryption_properties->encrypted_footer()) {
         PARQUET_THROW_NOT_OK(sink_->Write(kParquetEMagic, 4));
       } else {
diff --git a/cpp/src/parquet/file_writer.h b/cpp/src/parquet/file_writer.h
index 4cfc24719a3..e6d8608a754 100644
--- a/cpp/src/parquet/file_writer.h
+++ b/cpp/src/parquet/file_writer.h
@@ -56,6 +56,8 @@ class PARQUET_EXPORT RowGroupWriter {
     virtual int64_t total_bytes_written() const = 0;
     // total bytes still compressed but not written
     virtual int64_t total_compressed_bytes() const = 0;
+
+    virtual bool buffered() const = 0;
   };
 
   explicit RowGroupWriter(std::unique_ptr<Contents> contents);
@@ -91,6 +93,10 @@ class PARQUET_EXPORT RowGroupWriter {
   int64_t total_bytes_written() const;
   int64_t total_compressed_bytes() const;
 
+  /// Returns whether the current RowGroupWriter is in the buffered mode and is created
+  /// by calling ParquetFileWriter::AppendBufferedRowGroup.
+  bool buffered() const;
+
  private:
   // Holds a pointer to an instance of Contents implementation
   std::unique_ptr<Contents> contents_;
diff --git a/cpp/src/parquet/level_comparison.cc b/cpp/src/parquet/level_comparison.cc
index 30614ae61fb..c9ad6b76c72 100644
--- a/cpp/src/parquet/level_comparison.cc
+++ b/cpp/src/parquet/level_comparison.cc
@@ -44,10 +44,10 @@ struct GreaterThanDynamicFunction {
   using FunctionType = decltype(&GreaterThanBitmap);
 
   static std::vector<std::pair<DispatchLevel, FunctionType>> implementations() {
-    return {
-      { DispatchLevel::NONE, standard::GreaterThanBitmapImpl }
+    return {{DispatchLevel::NONE, standard::GreaterThanBitmapImpl}
 #if defined(ARROW_HAVE_RUNTIME_AVX2)
-      , { DispatchLevel::AVX2, GreaterThanBitmapAvx2 }
+            ,
+            {DispatchLevel::AVX2, GreaterThanBitmapAvx2}
 #endif
     };
   }
@@ -57,10 +57,10 @@ struct MinMaxDynamicFunction {
   using FunctionType = decltype(&FindMinMax);
 
   static std::vector<std::pair<DispatchLevel, FunctionType>> implementations() {
-    return {
-      { DispatchLevel::NONE, standard::FindMinMaxImpl }
+    return {{DispatchLevel::NONE, standard::FindMinMaxImpl}
 #if defined(ARROW_HAVE_RUNTIME_AVX2)
-      , { DispatchLevel::AVX2, FindMinMaxAvx2 }
+            ,
+            {DispatchLevel::AVX2, FindMinMaxAvx2}
 #endif
     };
   }
diff --git a/cpp/src/parquet/level_conversion.cc b/cpp/src/parquet/level_conversion.cc
index ffdca476ddd..49ae15d6408 100644
--- a/cpp/src/parquet/level_conversion.cc
+++ b/cpp/src/parquet/level_conversion.cc
@@ -18,12 +18,12 @@
 
 #include <algorithm>
 #include <limits>
+#include <optional>
 
 #include "arrow/util/bit_run_reader.h"
 #include "arrow/util/bit_util.h"
 #include "arrow/util/cpu_info.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/optional.h"
 #include "parquet/exception.h"
 
 #include "parquet/level_comparison.h"
@@ -36,7 +36,7 @@ namespace internal {
 namespace {
 
 using ::arrow::internal::CpuInfo;
-using ::arrow::util::optional;
+using ::std::optional;
 
 template <typename OffsetType>
 void DefRepLevelsToListInfo(const int16_t* def_levels, const int16_t* rep_levels,
diff --git a/cpp/src/parquet/metadata.cc b/cpp/src/parquet/metadata.cc
index 1b2a3df9c43..9e8412217d7 100644
--- a/cpp/src/parquet/metadata.cc
+++ b/cpp/src/parquet/metadata.cc
@@ -21,19 +21,18 @@
 #include <cinttypes>
 #include <ostream>
 #include <string>
+#include <string_view>
 #include <utility>
 #include <vector>
 
 #include "arrow/io/memory.h"
 #include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/string_view.h"
 #include "parquet/encryption/encryption_internal.h"
 #include "parquet/encryption/internal_file_decryptor.h"
 #include "parquet/exception.h"
 #include "parquet/schema.h"
 #include "parquet/schema_internal.h"
-#include "parquet/statistics.h"
 #include "parquet/thrift_internal.h"
 
 namespace parquet {
@@ -164,7 +163,7 @@ std::unique_ptr<ColumnCryptoMetaData> ColumnCryptoMetaData::Make(
 }
 
 ColumnCryptoMetaData::ColumnCryptoMetaData(const uint8_t* metadata)
-    : impl_(new ColumnCryptoMetaDataImpl(
+    : impl_(std::make_unique<ColumnCryptoMetaDataImpl>(
           reinterpret_cast<const format::ColumnCryptoMetaData*>(metadata))) {}
 
 ColumnCryptoMetaData::~ColumnCryptoMetaData() = default;
@@ -312,6 +311,20 @@ class ColumnChunkMetaData::ColumnChunkMetaDataImpl {
     }
   }
 
+  std::optional<IndexLocation> GetColumnIndexLocation() const {
+    if (column_->__isset.column_index_offset && column_->__isset.column_index_length) {
+      return IndexLocation{column_->column_index_offset, column_->column_index_length};
+    }
+    return std::nullopt;
+  }
+
+  std::optional<IndexLocation> GetOffsetIndexLocation() const {
+    if (column_->__isset.offset_index_offset && column_->__isset.offset_index_length) {
+      return IndexLocation{column_->offset_index_offset, column_->offset_index_length};
+    }
+    return std::nullopt;
+  }
+
  private:
   mutable std::shared_ptr<Statistics> possible_stats_;
   std::vector<Encoding::type> encodings_;
@@ -420,6 +433,14 @@ std::unique_ptr<ColumnCryptoMetaData> ColumnChunkMetaData::crypto_metadata() con
   return impl_->crypto_metadata();
 }
 
+std::optional<IndexLocation> ColumnChunkMetaData::GetColumnIndexLocation() const {
+  return impl_->GetColumnIndexLocation();
+}
+
+std::optional<IndexLocation> ColumnChunkMetaData::GetOffsetIndexLocation() const {
+  return impl_->GetOffsetIndexLocation();
+}
+
 bool ColumnChunkMetaData::Equals(const ColumnChunkMetaData& other) const {
   return impl_->Equals(*other.impl_);
 }
@@ -436,7 +457,13 @@ class RowGroupMetaData::RowGroupMetaDataImpl {
         schema_(schema),
         properties_(properties),
         writer_version_(writer_version),
-        file_decryptor_(std::move(file_decryptor)) {}
+        file_decryptor_(std::move(file_decryptor)) {
+    if (ARROW_PREDICT_FALSE(row_group_->columns.size() >
+                            static_cast<size_t>(std::numeric_limits<int>::max()))) {
+      throw ParquetException("Row group had too many columns: ",
+                             row_group_->columns.size());
+    }
+  }
 
   bool Equals(const RowGroupMetaDataImpl& other) const {
     return *row_group_ == *other.row_group_;
@@ -457,10 +484,10 @@ class RowGroupMetaData::RowGroupMetaDataImpl {
   inline const SchemaDescriptor* schema() const { return schema_; }
 
   std::unique_ptr<ColumnChunkMetaData> ColumnChunk(int i) {
-    if (i < num_columns()) {
+    if (i >= 0 && i < num_columns()) {
       return ColumnChunkMetaData::Make(&row_group_->columns[i], schema_->Column(i),
                                        properties_, writer_version_, row_group_->ordinal,
-                                       static_cast<int16_t>(i), file_decryptor_);
+                                       i, file_decryptor_);
     }
     throw ParquetException("The file only has ", num_columns(),
                            " columns, requested metadata for column: ", i);
@@ -656,7 +683,7 @@ class FileMetaData::FileMetaDataImpl {
   }
 
   std::unique_ptr<RowGroupMetaData> RowGroup(int i) {
-    if (!(i < num_row_groups())) {
+    if (!(i >= 0 && i < num_row_groups())) {
       std::stringstream ss;
       ss << "The file only has " << num_row_groups()
          << " row groups, requested metadata for row group: " << i;
@@ -685,13 +712,20 @@ class FileMetaData::FileMetaDataImpl {
   }
 
   format::RowGroup& row_group(int i) {
-    DCHECK_LT(i, num_row_groups());
+    if (!(i >= 0 && i < num_row_groups())) {
+      std::stringstream ss;
+      ss << "The file only has " << num_row_groups()
+         << " row groups, requested metadata for row group: " << i;
+      throw ParquetException(ss.str());
+    }
     return metadata_->row_groups[i];
   }
 
   void AppendRowGroups(const std::unique_ptr<FileMetaDataImpl>& other) {
-    if (!schema()->Equals(*other->schema())) {
-      throw ParquetException("AppendRowGroups requires equal schemas.");
+    std::ostringstream diff_output;
+    if (!schema()->Equals(*other->schema(), &diff_output)) {
+      auto msg = "AppendRowGroups requires equal schemas.\n" + diff_output.str();
+      throw ParquetException(msg);
     }
 
     // ARROW-13654: `other` may point to self, be careful not to enter an infinite loop
@@ -1050,8 +1084,8 @@ class ApplicationVersionParser {
 
  private:
   bool IsSpace(const std::string& string, const size_t& offset) {
-    auto target = ::arrow::util::string_view(string).substr(offset, 1);
-    return target.find_first_of(spaces_) != ::arrow::util::string_view::npos;
+    auto target = ::std::string_view(string).substr(offset, 1);
+    return target.find_first_of(spaces_) != ::std::string_view::npos;
   }
 
   void RemovePrecedingSpaces(const std::string& string, size_t& start,
diff --git a/cpp/src/parquet/metadata.h b/cpp/src/parquet/metadata.h
index bd59c628dc8..e929353b538 100644
--- a/cpp/src/parquet/metadata.h
+++ b/cpp/src/parquet/metadata.h
@@ -20,6 +20,7 @@
 #include <cstdint>
 #include <map>
 #include <memory>
+#include <optional>
 #include <string>
 #include <utility>
 #include <vector>
@@ -118,6 +119,14 @@ struct PageEncodingStats {
   int32_t count;
 };
 
+/// \brief Public struct for location to page index in ColumnChunkMetaData.
+struct IndexLocation {
+  /// File offset of the given index, in bytes
+  int64_t offset;
+  /// Length of the given index, in bytes
+  int32_t length;
+};
+
 /// \brief ColumnChunkMetaData is a proxy around format::ColumnChunkMetaData.
 class PARQUET_EXPORT ColumnChunkMetaData {
  public:
@@ -170,6 +179,8 @@ class PARQUET_EXPORT ColumnChunkMetaData {
   int64_t total_compressed_size() const;
   int64_t total_uncompressed_size() const;
   std::unique_ptr<ColumnCryptoMetaData> crypto_metadata() const;
+  std::optional<IndexLocation> GetColumnIndexLocation() const;
+  std::optional<IndexLocation> GetOffsetIndexLocation() const;
 
  private:
   explicit ColumnChunkMetaData(
@@ -271,11 +282,20 @@ class PARQUET_EXPORT FileMetaData {
 
   bool Equals(const FileMetaData& other) const;
 
-  /// \brief The number of top-level columns in the schema.
+  /// \brief The number of parquet "leaf" columns.
   ///
   /// Parquet thrift definition requires that nested schema elements are
-  /// flattened. This method returns the number of columns in the un-flattened
+  /// flattened. This method returns the number of columns in the flattened
   /// version.
+  /// For instance, if the schema looks like this :
+  /// 0 foo.bar
+  ///       foo.bar.baz           0
+  ///       foo.bar.baz2          1
+  ///   foo.qux                   2
+  /// 1 foo2                      3
+  /// 2 foo3                      4
+  /// This method will return 5, because there are 5 "leaf" fields (so 5
+  /// flattened fields)
   int num_columns() const;
 
   /// \brief The number of flattened schema elements.
diff --git a/cpp/src/parquet/metadata_test.cc b/cpp/src/parquet/metadata_test.cc
index a89d3d97fa9..a0989ad73e3 100644
--- a/cpp/src/parquet/metadata_test.cc
+++ b/cpp/src/parquet/metadata_test.cc
@@ -20,8 +20,10 @@
 #include <gtest/gtest.h>
 
 #include "arrow/util/key_value_metadata.h"
+#include "parquet/file_reader.h"
 #include "parquet/schema.h"
 #include "parquet/statistics.h"
+#include "parquet/test_util.h"
 #include "parquet/thrift_internal.h"
 #include "parquet/types.h"
 
@@ -292,6 +294,44 @@ TEST(Metadata, TestKeyValueMetadata) {
   EXPECT_TRUE(f_accessor->key_value_metadata()->Equals(*kvmeta));
 }
 
+TEST(Metadata, TestReadPageIndex) {
+  std::string dir_string(parquet::test::get_data_dir());
+  std::string path = dir_string + "/alltypes_tiny_pages.parquet";
+  auto reader = ParquetFileReader::OpenFile(path, false);
+  auto file_metadata = reader->metadata();
+  ASSERT_EQ(1, file_metadata->num_row_groups());
+  auto row_group_metadata = file_metadata->RowGroup(0);
+  ASSERT_EQ(13, row_group_metadata->num_columns());
+  std::vector<int64_t> ci_offsets = {323583, 327502, 328009, 331928, 335847,
+                                     339766, 350345, 354264, 364843, 384342,
+                                     -1,     386473, 390392};
+  std::vector<int32_t> ci_lengths = {3919,  507,   3919, 3919, 3919, 10579, 3919,
+                                     10579, 19499, 2131, -1,   3919, 3919};
+  std::vector<int64_t> oi_offsets = {394311, 397814, 398637, 401888, 405139,
+                                     408390, 413670, 416921, 422201, 431936,
+                                     435457, 446002, 449253};
+  std::vector<int32_t> oi_lengths = {3503, 823,  3251, 3251,  3251, 5280, 3251,
+                                     5280, 9735, 3521, 10545, 3251, 3251};
+  for (int i = 0; i < row_group_metadata->num_columns(); ++i) {
+    auto col_chunk_metadata = row_group_metadata->ColumnChunk(i);
+    auto ci_location = col_chunk_metadata->GetColumnIndexLocation();
+    if (i == 10) {
+      // column_id 10 does not have column index
+      ASSERT_FALSE(ci_location.has_value());
+    } else {
+      ASSERT_TRUE(ci_location.has_value());
+    }
+    if (ci_location.has_value()) {
+      ASSERT_EQ(ci_offsets.at(i), ci_location->offset);
+      ASSERT_EQ(ci_lengths.at(i), ci_location->length);
+    }
+    auto oi_location = col_chunk_metadata->GetOffsetIndexLocation();
+    ASSERT_TRUE(oi_location.has_value());
+    ASSERT_EQ(oi_offsets.at(i), oi_location->offset);
+    ASSERT_EQ(oi_lengths.at(i), oi_location->length);
+  }
+}
+
 TEST(ApplicationVersion, Basics) {
   ApplicationVersion version("parquet-mr version 1.7.9");
   ApplicationVersion version1("parquet-mr version 1.8.0");
diff --git a/cpp/src/parquet/page_index.cc b/cpp/src/parquet/page_index.cc
new file mode 100644
index 00000000000..559d3659882
--- /dev/null
+++ b/cpp/src/parquet/page_index.cc
@@ -0,0 +1,234 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "parquet/page_index.h"
+#include "parquet/encoding.h"
+#include "parquet/exception.h"
+#include "parquet/schema.h"
+#include "parquet/statistics.h"
+#include "parquet/thrift_internal.h"
+
+#include "arrow/util/unreachable.h"
+
+#include <limits>
+#include <numeric>
+
+namespace parquet {
+
+namespace {
+
+template <typename DType>
+void Decode(std::unique_ptr<typename EncodingTraits<DType>::Decoder>& decoder,
+            const std::string& input, std::vector<typename DType::c_type>* output,
+            size_t output_index) {
+  if (ARROW_PREDICT_FALSE(output_index >= output->size())) {
+    throw ParquetException("Index out of bound");
+  }
+
+  decoder->SetData(/*num_values=*/1, reinterpret_cast<const uint8_t*>(input.c_str()),
+                   static_cast<int>(input.size()));
+  const auto num_values = decoder->Decode(&output->at(output_index), /*max_values=*/1);
+  if (ARROW_PREDICT_FALSE(num_values != 1)) {
+    throw ParquetException("Could not decode statistics value");
+  }
+}
+
+template <>
+void Decode<BooleanType>(std::unique_ptr<BooleanDecoder>& decoder,
+                         const std::string& input, std::vector<bool>* output,
+                         size_t output_index) {
+  if (ARROW_PREDICT_FALSE(output_index >= output->size())) {
+    throw ParquetException("Index out of bound");
+  }
+
+  bool value;
+  decoder->SetData(/*num_values=*/1, reinterpret_cast<const uint8_t*>(input.c_str()),
+                   static_cast<int>(input.size()));
+  const auto num_values = decoder->Decode(&value, /*max_values=*/1);
+  if (ARROW_PREDICT_FALSE(num_values != 1)) {
+    throw ParquetException("Could not decode statistics value");
+  }
+  output->at(output_index) = value;
+}
+
+template <>
+void Decode<ByteArrayType>(std::unique_ptr<ByteArrayDecoder>&, const std::string& input,
+                           std::vector<ByteArray>* output, size_t output_index) {
+  if (ARROW_PREDICT_FALSE(output_index >= output->size())) {
+    throw ParquetException("Index out of bound");
+  }
+
+  if (ARROW_PREDICT_FALSE(input.size() >
+                          static_cast<size_t>(std::numeric_limits<uint32_t>::max()))) {
+    throw ParquetException("Invalid encoded byte array length");
+  }
+
+  output->at(output_index) = {/*len=*/static_cast<uint32_t>(input.size()),
+                              /*ptr=*/reinterpret_cast<const uint8_t*>(input.data())};
+}
+
+template <typename DType>
+class TypedColumnIndexImpl : public TypedColumnIndex<DType> {
+ public:
+  using T = typename DType::c_type;
+
+  TypedColumnIndexImpl(const ColumnDescriptor& descr,
+                       const format::ColumnIndex& column_index)
+      : column_index_(column_index) {
+    // Make sure the number of pages is valid and it does not overflow to int32_t.
+    const size_t num_pages = column_index_.null_pages.size();
+    if (num_pages >= static_cast<size_t>(std::numeric_limits<int32_t>::max()) ||
+        column_index_.min_values.size() != num_pages ||
+        column_index_.max_values.size() != num_pages ||
+        (column_index_.__isset.null_counts &&
+         column_index_.null_counts.size() != num_pages)) {
+      throw ParquetException("Invalid column index");
+    }
+
+    const size_t num_non_null_pages = static_cast<size_t>(std::accumulate(
+        column_index_.null_pages.cbegin(), column_index_.null_pages.cend(), 0,
+        [](int32_t num_non_null_pages, bool null_page) {
+          return num_non_null_pages + (null_page ? 0 : 1);
+        }));
+    DCHECK_LE(num_non_null_pages, num_pages);
+
+    // Allocate slots for decoded values.
+    min_values_.resize(num_pages);
+    max_values_.resize(num_pages);
+    non_null_page_indices_.reserve(num_non_null_pages);
+
+    // Decode min and max values according to the physical type.
+    // Note that null page are skipped.
+    auto plain_decoder = MakeTypedDecoder<DType>(Encoding::PLAIN, &descr);
+    for (size_t i = 0; i < num_pages; ++i) {
+      if (!column_index_.null_pages[i]) {
+        // The check on `num_pages` has guaranteed the cast below is safe.
+        non_null_page_indices_.emplace_back(static_cast<int32_t>(i));
+        Decode<DType>(plain_decoder, column_index_.min_values[i], &min_values_, i);
+        Decode<DType>(plain_decoder, column_index_.max_values[i], &max_values_, i);
+      }
+    }
+    DCHECK_EQ(num_non_null_pages, non_null_page_indices_.size());
+  }
+
+  const std::vector<bool>& null_pages() const override {
+    return column_index_.null_pages;
+  }
+
+  const std::vector<std::string>& encoded_min_values() const override {
+    return column_index_.min_values;
+  }
+
+  const std::vector<std::string>& encoded_max_values() const override {
+    return column_index_.max_values;
+  }
+
+  BoundaryOrder::type boundary_order() const override {
+    return LoadEnumSafe(&column_index_.boundary_order);
+  }
+
+  bool has_null_counts() const override { return column_index_.__isset.null_counts; }
+
+  const std::vector<int64_t>& null_counts() const override {
+    return column_index_.null_counts;
+  }
+
+  const std::vector<int32_t>& non_null_page_indices() const override {
+    return non_null_page_indices_;
+  }
+
+  const std::vector<T>& min_values() const override { return min_values_; }
+
+  const std::vector<T>& max_values() const override { return max_values_; }
+
+ private:
+  /// Wrapped thrift column index.
+  const format::ColumnIndex column_index_;
+  /// Decoded typed min/max values. Undefined for null pages.
+  std::vector<T> min_values_;
+  std::vector<T> max_values_;
+  /// A list of page indices for non-null pages.
+  std::vector<int32_t> non_null_page_indices_;
+};
+
+class OffsetIndexImpl : public OffsetIndex {
+ public:
+  explicit OffsetIndexImpl(const format::OffsetIndex& offset_index) {
+    page_locations_.reserve(offset_index.page_locations.size());
+    for (const auto& page_location : offset_index.page_locations) {
+      page_locations_.emplace_back(PageLocation{page_location.offset,
+                                                page_location.compressed_page_size,
+                                                page_location.first_row_index});
+    }
+  }
+
+  const std::vector<PageLocation>& page_locations() const override {
+    return page_locations_;
+  }
+
+ private:
+  std::vector<PageLocation> page_locations_;
+};
+
+}  // namespace
+
+// ----------------------------------------------------------------------
+// Public factory functions
+
+std::unique_ptr<ColumnIndex> ColumnIndex::Make(const ColumnDescriptor& descr,
+                                               const void* serialized_index,
+                                               uint32_t index_len,
+                                               const ReaderProperties& properties) {
+  format::ColumnIndex column_index;
+  ThriftDeserializer deserializer(properties);
+  deserializer.DeserializeMessage(reinterpret_cast<const uint8_t*>(serialized_index),
+                                  &index_len, &column_index);
+  switch (descr.physical_type()) {
+    case Type::BOOLEAN:
+      return std::make_unique<TypedColumnIndexImpl<BooleanType>>(descr, column_index);
+    case Type::INT32:
+      return std::make_unique<TypedColumnIndexImpl<Int32Type>>(descr, column_index);
+    case Type::INT64:
+      return std::make_unique<TypedColumnIndexImpl<Int64Type>>(descr, column_index);
+    case Type::INT96:
+      return std::make_unique<TypedColumnIndexImpl<Int96Type>>(descr, column_index);
+    case Type::FLOAT:
+      return std::make_unique<TypedColumnIndexImpl<FloatType>>(descr, column_index);
+    case Type::DOUBLE:
+      return std::make_unique<TypedColumnIndexImpl<DoubleType>>(descr, column_index);
+    case Type::BYTE_ARRAY:
+      return std::make_unique<TypedColumnIndexImpl<ByteArrayType>>(descr, column_index);
+    case Type::FIXED_LEN_BYTE_ARRAY:
+      return std::make_unique<TypedColumnIndexImpl<FLBAType>>(descr, column_index);
+    case Type::UNDEFINED:
+      return nullptr;
+  }
+  ::arrow::Unreachable("Cannot make ColumnIndex of an unknown type");
+  return nullptr;
+}
+
+std::unique_ptr<OffsetIndex> OffsetIndex::Make(const void* serialized_index,
+                                               uint32_t index_len,
+                                               const ReaderProperties& properties) {
+  format::OffsetIndex offset_index;
+  ThriftDeserializer deserializer(properties);
+  deserializer.DeserializeMessage(reinterpret_cast<const uint8_t*>(serialized_index),
+                                  &index_len, &offset_index);
+  return std::make_unique<OffsetIndexImpl>(offset_index);
+}
+
+}  // namespace parquet
diff --git a/cpp/src/parquet/page_index.h b/cpp/src/parquet/page_index.h
new file mode 100644
index 00000000000..13dae40f56c
--- /dev/null
+++ b/cpp/src/parquet/page_index.h
@@ -0,0 +1,129 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#pragma once
+
+#include "parquet/types.h"
+
+#include <vector>
+
+namespace parquet {
+
+class ColumnDescriptor;
+class ReaderProperties;
+
+/// \brief ColumnIndex is a proxy around format::ColumnIndex.
+class PARQUET_EXPORT ColumnIndex {
+ public:
+  /// \brief Create a ColumnIndex from a serialized thrift message.
+  static std::unique_ptr<ColumnIndex> Make(const ColumnDescriptor& descr,
+                                           const void* serialized_index,
+                                           uint32_t index_len,
+                                           const ReaderProperties& properties);
+
+  virtual ~ColumnIndex() = default;
+
+  /// \brief A bitmap with a bit set for each data page that has only null values.
+  ///
+  /// The length of this vector is equal to the number of data pages in the column.
+  virtual const std::vector<bool>& null_pages() const = 0;
+
+  /// \brief A vector of encoded lower bounds for each data page in this column.
+  ///
+  /// `null_pages` should be inspected first, as only pages with non-null values
+  /// may have their lower bounds populated.
+  virtual const std::vector<std::string>& encoded_min_values() const = 0;
+
+  /// \brief A vector of encoded upper bounds for each data page in this column.
+  ///
+  /// `null_pages` should be inspected first, as only pages with non-null values
+  /// may have their upper bounds populated.
+  virtual const std::vector<std::string>& encoded_max_values() const = 0;
+
+  /// \brief The ordering of lower and upper bounds.
+  ///
+  /// The boundary order applies accross all lower bounds, and all upper bounds,
+  /// respectively. However, the order between lower bounds and upper bounds
+  /// cannot be derived from this.
+  virtual BoundaryOrder::type boundary_order() const = 0;
+
+  /// \brief Whether per-page null count information is available.
+  virtual bool has_null_counts() const = 0;
+
+  /// \brief An optional vector with the number of null values in each data page.
+  ///
+  /// `has_null_counts` should be called first to determine if this information is
+  /// available.
+  virtual const std::vector<int64_t>& null_counts() const = 0;
+
+  /// \brief A vector of page indices for non-null pages.
+  virtual const std::vector<int32_t>& non_null_page_indices() const = 0;
+};
+
+/// \brief Typed implementation of ColumnIndex.
+template <typename DType>
+class PARQUET_EXPORT TypedColumnIndex : public ColumnIndex {
+ public:
+  using T = typename DType::c_type;
+
+  /// \brief A vector of lower bounds for each data page in this column.
+  ///
+  /// This is like `encoded_min_values`, but with the values decoded according to
+  /// the column's physical type.
+  /// `min_values` and `max_values` can be used together with `boundary_order`
+  /// in order to prune some data pages when searching for specific values.
+  virtual const std::vector<T>& min_values() const = 0;
+
+  /// \brief A vector of upper bounds for each data page in this column.
+  ///
+  /// Just like `min_values`, but for upper bounds instead of lower bounds.
+  virtual const std::vector<T>& max_values() const = 0;
+};
+
+using BoolColumnIndex = TypedColumnIndex<BooleanType>;
+using Int32ColumnIndex = TypedColumnIndex<Int32Type>;
+using Int64ColumnIndex = TypedColumnIndex<Int64Type>;
+using FloatColumnIndex = TypedColumnIndex<FloatType>;
+using DoubleColumnIndex = TypedColumnIndex<DoubleType>;
+using ByteArrayColumnIndex = TypedColumnIndex<ByteArrayType>;
+using FLBAColumnIndex = TypedColumnIndex<FLBAType>;
+
+/// \brief PageLocation is a proxy around format::PageLocation.
+struct PARQUET_EXPORT PageLocation {
+  /// File offset of the data page.
+  int64_t offset;
+  /// Total compressed size of the data page and header.
+  int32_t compressed_page_size;
+  /// Row id of the first row in the page within the row group.
+  int64_t first_row_index;
+};
+
+/// \brief OffsetIndex is a proxy around format::OffsetIndex.
+class PARQUET_EXPORT OffsetIndex {
+ public:
+  /// \brief Create a OffsetIndex from a serialized thrift message.
+  static std::unique_ptr<OffsetIndex> Make(const void* serialized_index,
+                                           uint32_t index_len,
+                                           const ReaderProperties& properties);
+
+  virtual ~OffsetIndex() = default;
+
+  /// \brief A vector of locations for each data page in this column.
+  virtual const std::vector<PageLocation>& page_locations() const = 0;
+};
+
+}  // namespace parquet
diff --git a/cpp/src/parquet/page_index_test.cc b/cpp/src/parquet/page_index_test.cc
new file mode 100644
index 00000000000..6d1cdc2c97a
--- /dev/null
+++ b/cpp/src/parquet/page_index_test.cc
@@ -0,0 +1,259 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include "parquet/page_index.h"
+
+#include <gtest/gtest.h>
+
+#include "arrow/io/file.h"
+#include "parquet/file_reader.h"
+#include "parquet/schema.h"
+#include "parquet/test_util.h"
+#include "parquet/thrift_internal.h"
+
+namespace parquet {
+
+TEST(PageIndex, ReadOffsetIndex) {
+  std::string dir_string(parquet::test::get_data_dir());
+  std::string path = dir_string + "/alltypes_tiny_pages.parquet";
+  auto reader = ParquetFileReader::OpenFile(path, false);
+  auto file_metadata = reader->metadata();
+
+  // Get offset index location to column 0 of row group 0.
+  const int row_group_id = 0;
+  const int column_id = 0;
+  ASSERT_LT(row_group_id, file_metadata->num_row_groups());
+  ASSERT_LT(column_id, file_metadata->num_columns());
+  auto index_location = file_metadata->RowGroup(row_group_id)
+                            ->ColumnChunk(column_id)
+                            ->GetOffsetIndexLocation();
+  ASSERT_TRUE(index_location.has_value());
+
+  // Read serialized offset index from the file.
+  std::shared_ptr<::arrow::io::RandomAccessFile> source;
+  PARQUET_ASSIGN_OR_THROW(source, ::arrow::io::ReadableFile::Open(path));
+  PARQUET_ASSIGN_OR_THROW(auto buffer,
+                          source->ReadAt(index_location->offset, index_location->length));
+  PARQUET_THROW_NOT_OK(source->Close());
+
+  // Deserialize offset index.
+  auto properties = default_reader_properties();
+  std::unique_ptr<OffsetIndex> offset_index = OffsetIndex::Make(
+      buffer->data(), static_cast<uint32_t>(buffer->size()), properties);
+
+  // Verify only partial data as it contains 325 pages in total.
+  const size_t num_pages = 325;
+  const std::vector<size_t> page_indices = {0, 100, 200, 300};
+  const std::vector<PageLocation> page_locations = {
+      PageLocation{4, 109, 0}, PageLocation{11480, 133, 2244},
+      PageLocation{22980, 133, 4494}, PageLocation{34480, 133, 6744}};
+
+  ASSERT_EQ(num_pages, offset_index->page_locations().size());
+  for (size_t i = 0; i < page_indices.size(); ++i) {
+    size_t page_id = page_indices.at(i);
+    const auto& read_page_location = offset_index->page_locations().at(page_id);
+    const auto& expected_page_location = page_locations.at(i);
+    ASSERT_EQ(expected_page_location.offset, read_page_location.offset);
+    ASSERT_EQ(expected_page_location.compressed_page_size,
+              read_page_location.compressed_page_size);
+    ASSERT_EQ(expected_page_location.first_row_index, read_page_location.first_row_index);
+  }
+}
+
+template <typename DType, typename T = typename DType::c_type>
+void TestReadTypedColumnIndex(const std::string& file_name, int column_id,
+                              size_t num_pages, BoundaryOrder::type boundary_order,
+                              const std::vector<size_t>& page_indices,
+                              const std::vector<bool>& null_pages,
+                              const std::vector<T>& min_values,
+                              const std::vector<T>& max_values,
+                              bool has_null_counts = false,
+                              const std::vector<int64_t>& null_counts = {}) {
+  std::string dir_string(parquet::test::get_data_dir());
+  std::string path = dir_string + "/" + file_name;
+  auto reader = ParquetFileReader::OpenFile(path, false);
+  auto file_metadata = reader->metadata();
+
+  // Get column index location to a specific column chunk.
+  const int row_group_id = 0;
+  ASSERT_LT(row_group_id, file_metadata->num_row_groups());
+  ASSERT_LT(column_id, file_metadata->num_columns());
+  auto index_location = file_metadata->RowGroup(row_group_id)
+                            ->ColumnChunk(column_id)
+                            ->GetColumnIndexLocation();
+  ASSERT_TRUE(index_location.has_value());
+
+  // Read serialized column index from the file.
+  std::shared_ptr<::arrow::io::RandomAccessFile> source;
+  PARQUET_ASSIGN_OR_THROW(source, ::arrow::io::ReadableFile::Open(path));
+  PARQUET_ASSIGN_OR_THROW(auto buffer,
+                          source->ReadAt(index_location->offset, index_location->length));
+  PARQUET_THROW_NOT_OK(source->Close());
+
+  // Deserialize column index.
+  auto properties = default_reader_properties();
+  auto descr = file_metadata->schema()->Column(column_id);
+  std::unique_ptr<ColumnIndex> column_index = ColumnIndex::Make(
+      *descr, buffer->data(), static_cast<uint32_t>(buffer->size()), properties);
+  auto typed_column_index = dynamic_cast<TypedColumnIndex<DType>*>(column_index.get());
+  ASSERT_TRUE(typed_column_index != nullptr);
+
+  // Verify only partial data as there are too many pages.
+  ASSERT_EQ(num_pages, column_index->null_pages().size());
+  ASSERT_EQ(has_null_counts, column_index->has_null_counts());
+  ASSERT_EQ(boundary_order, column_index->boundary_order());
+  for (size_t i = 0; i < page_indices.size(); ++i) {
+    size_t page_id = page_indices.at(i);
+    ASSERT_EQ(null_pages.at(i), column_index->null_pages().at(page_id));
+    if (has_null_counts) {
+      ASSERT_EQ(null_counts.at(i), column_index->null_counts().at(page_id));
+    }
+    // min/max values are only meaningful for non-null pages.
+    if (!null_pages.at(i)) {
+      if constexpr (std::is_same_v<T, double>) {
+        ASSERT_DOUBLE_EQ(min_values.at(i), typed_column_index->min_values().at(page_id));
+        ASSERT_DOUBLE_EQ(max_values.at(i), typed_column_index->max_values().at(page_id));
+      } else if constexpr (std::is_same_v<T, float>) {
+        ASSERT_FLOAT_EQ(min_values.at(i), typed_column_index->min_values().at(page_id));
+        ASSERT_FLOAT_EQ(max_values.at(i), typed_column_index->max_values().at(page_id));
+      } else if constexpr (std::is_same_v<T, FLBA>) {
+        auto len = descr->type_length();
+        ASSERT_EQ(0, ::memcmp(min_values.at(i).ptr,
+                              typed_column_index->min_values().at(page_id).ptr, len));
+        ASSERT_EQ(0, ::memcmp(max_values.at(i).ptr,
+                              typed_column_index->max_values().at(page_id).ptr, len));
+      } else {
+        ASSERT_EQ(min_values.at(i), typed_column_index->min_values().at(page_id));
+        ASSERT_EQ(max_values.at(i), typed_column_index->max_values().at(page_id));
+      }
+    }
+  }
+}
+
+TEST(PageIndex, ReadInt64ColumnIndex) {
+  const int column_id = 5;
+  const size_t num_pages = 528;
+  const BoundaryOrder::type boundary_order = BoundaryOrder::Unordered;
+  const std::vector<size_t> page_indices = {0, 99, 426, 520};
+  const std::vector<bool> null_pages = {false, false, false, false};
+  const bool has_null_counts = true;
+  const std::vector<int64_t> null_counts = {0, 0, 0, 0};
+  const std::vector<int64_t> min_values = {0, 10, 0, 0};
+  const std::vector<int64_t> max_values = {90, 90, 80, 70};
+
+  TestReadTypedColumnIndex<Int64Type>(
+      "alltypes_tiny_pages.parquet", column_id, num_pages, boundary_order, page_indices,
+      null_pages, min_values, max_values, has_null_counts, null_counts);
+}
+
+TEST(PageIndex, ReadDoubleColumnIndex) {
+  const int column_id = 7;
+  const size_t num_pages = 528;
+  const BoundaryOrder::type boundary_order = BoundaryOrder::Unordered;
+  const std::vector<size_t> page_indices = {0, 51, 212, 527};
+  const std::vector<bool> null_pages = {false, false, false, false};
+  const bool has_null_counts = true;
+  const std::vector<int64_t> null_counts = {0, 0, 0, 0};
+  const std::vector<double> min_values = {-0, 30.3, 10.1, 40.4};
+  const std::vector<double> max_values = {90.9, 90.9, 90.9, 60.6};
+
+  TestReadTypedColumnIndex<DoubleType>(
+      "alltypes_tiny_pages.parquet", column_id, num_pages, boundary_order, page_indices,
+      null_pages, min_values, max_values, has_null_counts, null_counts);
+}
+
+TEST(PageIndex, ReadByteArrayColumnIndex) {
+  const int column_id = 9;
+  const size_t num_pages = 352;
+  const BoundaryOrder::type boundary_order = BoundaryOrder::Ascending;
+  const std::vector<size_t> page_indices = {0, 128, 256};
+  const std::vector<bool> null_pages = {false, false, false};
+  const bool has_null_counts = true;
+  const std::vector<int64_t> null_counts = {0, 0, 0};
+
+  // All min values are "0" and max values are "9".
+  const std::string_view min_value = "0";
+  const std::string_view max_value = "9";
+  const std::vector<ByteArray> min_values = {ByteArray{min_value}, ByteArray{min_value},
+                                             ByteArray{min_value}};
+  const std::vector<ByteArray> max_values = {ByteArray{max_value}, ByteArray{max_value},
+                                             ByteArray{max_value}};
+
+  TestReadTypedColumnIndex<ByteArrayType>(
+      "alltypes_tiny_pages.parquet", column_id, num_pages, boundary_order, page_indices,
+      null_pages, min_values, max_values, has_null_counts, null_counts);
+}
+
+TEST(PageIndex, ReadBoolColumnIndex) {
+  const int column_id = 1;
+  const size_t num_pages = 82;
+  const BoundaryOrder::type boundary_order = BoundaryOrder::Ascending;
+  const std::vector<size_t> page_indices = {0, 16, 64};
+  const std::vector<bool> null_pages = {false, false, false};
+  const bool has_null_counts = true;
+  const std::vector<int64_t> null_counts = {0, 0, 0};
+  const std::vector<bool> min_values = {false, false, false};
+  const std::vector<bool> max_values = {true, true, true};
+
+  TestReadTypedColumnIndex<BooleanType>(
+      "alltypes_tiny_pages.parquet", column_id, num_pages, boundary_order, page_indices,
+      null_pages, min_values, max_values, has_null_counts, null_counts);
+}
+
+TEST(PageIndex, ReadFixedLengthByteArrayColumnIndex) {
+  auto to_flba = [](const char* ptr) {
+    return FLBA{reinterpret_cast<const uint8_t*>(ptr)};
+  };
+
+  const int column_id = 0;
+  const size_t num_pages = 10;
+  const BoundaryOrder::type boundary_order = BoundaryOrder::Descending;
+  const std::vector<size_t> page_indices = {0, 4, 8};
+  const std::vector<bool> null_pages = {false, false, false};
+  const bool has_null_counts = true;
+  const std::vector<int64_t> null_counts = {9, 13, 9};
+  const std::vector<const char*> min_literals = {"\x00\x00\x03\x85", "\x00\x00\x01\xF5",
+                                                 "\x00\x00\x00\x65"};
+  const std::vector<const char*> max_literals = {"\x00\x00\x03\xE8", "\x00\x00\x02\x58",
+                                                 "\x00\x00\x00\xC8"};
+  const std::vector<FLBA> min_values = {
+      to_flba(min_literals[0]), to_flba(min_literals[1]), to_flba(min_literals[2])};
+  const std::vector<FLBA> max_values = {
+      to_flba(max_literals[0]), to_flba(max_literals[1]), to_flba(max_literals[2])};
+
+  TestReadTypedColumnIndex<FLBAType>(
+      "fixed_length_byte_array.parquet", column_id, num_pages, boundary_order,
+      page_indices, null_pages, min_values, max_values, has_null_counts, null_counts);
+}
+
+TEST(PageIndex, ReadColumnIndexWithNullPage) {
+  const int column_id = 0;
+  const size_t num_pages = 10;
+  const BoundaryOrder::type boundary_order = BoundaryOrder::Unordered;
+  const std::vector<size_t> page_indices = {2, 4, 8};
+  const std::vector<bool> null_pages = {true, false, false};
+  const bool has_null_counts = true;
+  const std::vector<int64_t> null_counts = {100, 16, 8};
+  const std::vector<int32_t> min_values = {0, -2048691758, -2046900272};
+  const std::vector<int32_t> max_values = {0, 2143189382, 2087168549};
+
+  TestReadTypedColumnIndex<Int32Type>(
+      "int32_with_null_pages.parquet", column_id, num_pages, boundary_order, page_indices,
+      null_pages, min_values, max_values, has_null_counts, null_counts);
+}
+
+}  // namespace parquet
diff --git a/cpp/src/parquet/parquet.pc.in b/cpp/src/parquet/parquet.pc.in
index e510bb1d6bf..b992eba8199 100644
--- a/cpp/src/parquet/parquet.pc.in
+++ b/cpp/src/parquet/parquet.pc.in
@@ -29,3 +29,4 @@ Version: @ARROW_VERSION@
 Requires: arrow
 Libs: -L${libdir} -lparquet
 Cflags: -I${includedir}
+Cflags.private: -DPARQUET_STATIC
diff --git a/cpp/src/parquet/printer.cc b/cpp/src/parquet/printer.cc
index dfd4bd802ee..e43643176f7 100644
--- a/cpp/src/parquet/printer.cc
+++ b/cpp/src/parquet/printer.cc
@@ -39,6 +39,25 @@ namespace parquet {
 
 class ColumnReader;
 
+namespace {
+
+void PrintPageEncodingStats(std::ostream& stream,
+                            const std::vector<PageEncodingStats>& encoding_stats) {
+  for (size_t i = 0; i < encoding_stats.size(); ++i) {
+    const auto& encoding = encoding_stats.at(i);
+    stream << EncodingToString(encoding.encoding);
+    if (encoding.page_type == parquet::PageType::DICTIONARY_PAGE) {
+      // Explicitly tell if this encoding comes from a dictionary page
+      stream << "(DICT_PAGE)";
+    }
+    if (i + 1 != encoding_stats.size()) {
+      stream << " ";
+    }
+  }
+}
+
+}  // namespace
+
 // ----------------------------------------------------------------------
 // ParquetFilePrinter::DebugPrint
 
@@ -131,9 +150,13 @@ void ParquetFilePrinter::DebugPrint(std::ostream& stream, std::list<int> selecte
              << "  Compression: "
              << ::arrow::internal::AsciiToUpper(
                     Codec::GetCodecAsString(column_chunk->compression()))
-             << ", Encodings:";
-      for (auto encoding : column_chunk->encodings()) {
-        stream << " " << EncodingToString(encoding);
+             << ", Encodings: ";
+      if (column_chunk->encoding_stats().empty()) {
+        for (auto encoding : column_chunk->encodings()) {
+          stream << EncodingToString(encoding) << " ";
+        }
+      } else {
+        PrintPageEncodingStats(stream, column_chunk->encoding_stats());
       }
       stream << std::endl
              << "  Uncompressed Size: " << column_chunk->total_uncompressed_size()
@@ -271,8 +294,12 @@ void ParquetFilePrinter::JSONPrint(std::ostream& stream, std::list<int> selected
              << ::arrow::internal::AsciiToUpper(
                     Codec::GetCodecAsString(column_chunk->compression()))
              << "\", \"Encodings\": \"";
-      for (auto encoding : column_chunk->encodings()) {
-        stream << EncodingToString(encoding) << " ";
+      if (column_chunk->encoding_stats().empty()) {
+        for (auto encoding : column_chunk->encodings()) {
+          stream << EncodingToString(encoding) << " ";
+        }
+      } else {
+        PrintPageEncodingStats(stream, column_chunk->encoding_stats());
       }
       stream << "\", "
              << "\"UncompressedSize\": \"" << column_chunk->total_uncompressed_size()
diff --git a/cpp/src/parquet/properties.h b/cpp/src/parquet/properties.h
index 1d5c360cc14..edb5e44f02e 100644
--- a/cpp/src/parquet/properties.h
+++ b/cpp/src/parquet/properties.h
@@ -73,24 +73,39 @@ class PARQUET_EXPORT ReaderProperties {
   /// The primary reason for this control knobs is for resource control and not
   /// performance.
   bool is_buffered_stream_enabled() const { return buffered_stream_enabled_; }
+  /// Enable buffered stream reading.
   void enable_buffered_stream() { buffered_stream_enabled_ = true; }
+  /// Disable buffered stream reading.
   void disable_buffered_stream() { buffered_stream_enabled_ = false; }
 
+  /// Return the size of the buffered stream buffer.
   int64_t buffer_size() const { return buffer_size_; }
+  /// Set the size of the buffered stream buffer in bytes.
   void set_buffer_size(int64_t size) { buffer_size_ = size; }
 
+  /// \brief Return the size limit on thrift strings.
+  ///
+  /// This limit helps prevent space and time bombs in files, but may need to
+  /// be increased in order to read files with especially large headers.
   int32_t thrift_string_size_limit() const { return thrift_string_size_limit_; }
+  /// Set the size limit on thrift strings.
   void set_thrift_string_size_limit(int32_t size) { thrift_string_size_limit_ = size; }
 
+  /// \brief Return the size limit on thrift containers.
+  ///
+  /// This limit helps prevent space and time bombs in files, but may need to
+  /// be increased in order to read files with especially large headers.
   int32_t thrift_container_size_limit() const { return thrift_container_size_limit_; }
+  /// Set the size limit on thrift containers.
   void set_thrift_container_size_limit(int32_t size) {
     thrift_container_size_limit_ = size;
   }
 
+  /// Set the decryption properties.
   void file_decryption_properties(std::shared_ptr<FileDecryptionProperties> decryption) {
     file_decryption_properties_ = std::move(decryption);
   }
-
+  /// Return the decryption properties.
   const std::shared_ptr<FileDecryptionProperties>& file_decryption_properties() const {
     return file_decryption_properties_;
   }
@@ -184,7 +199,8 @@ class PARQUET_EXPORT WriterProperties {
           pagesize_(kDefaultDataPageSize),
           version_(ParquetVersion::PARQUET_2_4),
           data_page_version_(ParquetDataPageVersion::V1),
-          created_by_(DEFAULT_CREATED_BY) {}
+          created_by_(DEFAULT_CREATED_BY),
+          integer_annotate_decimal_(false) {}
     virtual ~Builder() {}
 
     /// Specify the memory pool for the writer. Default default_memory_pool.
@@ -435,6 +451,22 @@ class PARQUET_EXPORT WriterProperties {
       return this->disable_statistics(path->ToDotString());
     }
 
+    /// Enable integer type to annotate decimal type as below:
+    ///   int32: 1 <= precision <= 9
+    ///   int64: 10 <= precision <= 18
+    /// Default disabled.
+    Builder* enable_integer_annotate_decimal() {
+      integer_annotate_decimal_ = true;
+      return this;
+    }
+
+    /// Disable integer type to annotate decimal type.
+    /// Default disabled.
+    Builder* disable_integer_annotate_decimal() {
+      integer_annotate_decimal_ = false;
+      return this;
+    }
+
     /// \brief Build the WriterProperties with the builder parameters.
     /// \return The WriterProperties defined by the builder.
     std::shared_ptr<WriterProperties> build() {
@@ -459,7 +491,8 @@ class PARQUET_EXPORT WriterProperties {
       return std::shared_ptr<WriterProperties>(new WriterProperties(
           pool_, dictionary_pagesize_limit_, write_batch_size_, max_row_group_length_,
           pagesize_, version_, created_by_, std::move(file_encryption_properties_),
-          default_column_properties_, column_properties, data_page_version_));
+          default_column_properties_, column_properties, data_page_version_,
+          integer_annotate_decimal_));
     }
 
    private:
@@ -471,6 +504,7 @@ class PARQUET_EXPORT WriterProperties {
     ParquetVersion::type version_;
     ParquetDataPageVersion data_page_version_;
     std::string created_by_;
+    bool integer_annotate_decimal_;
 
     std::shared_ptr<FileEncryptionProperties> file_encryption_properties_;
 
@@ -501,6 +535,8 @@ class PARQUET_EXPORT WriterProperties {
 
   inline std::string created_by() const { return parquet_created_by_; }
 
+  inline bool integer_annotate_decimal() const { return integer_annotate_decimal_; }
+
   inline Encoding::type dictionary_index_encoding() const {
     if (parquet_version_ == ParquetVersion::PARQUET_1_0) {
       return Encoding::PLAIN_DICTIONARY;
@@ -569,7 +605,7 @@ class PARQUET_EXPORT WriterProperties {
       std::shared_ptr<FileEncryptionProperties> file_encryption_properties,
       const ColumnProperties& default_column_properties,
       const std::unordered_map<std::string, ColumnProperties>& column_properties,
-      ParquetDataPageVersion data_page_version)
+      ParquetDataPageVersion data_page_version, bool integer_annotate_decimal)
       : pool_(pool),
         dictionary_pagesize_limit_(dictionary_pagesize_limit),
         write_batch_size_(write_batch_size),
@@ -578,6 +614,7 @@ class PARQUET_EXPORT WriterProperties {
         parquet_data_page_version_(data_page_version),
         parquet_version_(version),
         parquet_created_by_(created_by),
+        integer_annotate_decimal_(integer_annotate_decimal),
         file_encryption_properties_(file_encryption_properties),
         default_column_properties_(default_column_properties),
         column_properties_(column_properties) {}
@@ -590,6 +627,7 @@ class PARQUET_EXPORT WriterProperties {
   ParquetDataPageVersion parquet_data_page_version_;
   ParquetVersion::type parquet_version_;
   std::string parquet_created_by_;
+  bool integer_annotate_decimal_;
 
   std::shared_ptr<FileEncryptionProperties> file_encryption_properties_;
 
@@ -618,10 +656,19 @@ class PARQUET_EXPORT ArrowReaderProperties {
         cache_options_(::arrow::io::CacheOptions::Defaults()),
         coerce_int96_timestamp_unit_(::arrow::TimeUnit::NANO) {}
 
+  /// \brief Set whether to use the IO thread pool to parse columns in parallel.
+  ///
+  /// Default is false.
   void set_use_threads(bool use_threads) { use_threads_ = use_threads; }
-
+  /// Return whether will use multiple threads.
   bool use_threads() const { return use_threads_; }
 
+  /// \brief Set whether to read a particular column as dictionary encoded.
+  ///
+  /// If the file metadata contains a serialized Arrow schema, then ...
+  ////
+  /// This is only supported for columns with a Parquet physical type of
+  /// BYTE_ARRAY, such as string or binary types.
   void set_read_dictionary(int column_index, bool read_dict) {
     if (read_dict) {
       read_dict_indices_.insert(column_index);
@@ -629,6 +676,7 @@ class PARQUET_EXPORT ArrowReaderProperties {
       read_dict_indices_.erase(column_index);
     }
   }
+  /// Return whether the column at the index will be read as dictionary.
   bool read_dictionary(int column_index) const {
     if (read_dict_indices_.find(column_index) != read_dict_indices_.end()) {
       return true;
@@ -637,28 +685,31 @@ class PARQUET_EXPORT ArrowReaderProperties {
     }
   }
 
+  /// \brief Set the maximum number of rows to read into a chunk or record batch.
+  ///
+  /// Will only be fewer rows when there are no more rows in the file.
   void set_batch_size(int64_t batch_size) { batch_size_ = batch_size; }
-
+  /// Return the batch size.
   int64_t batch_size() const { return batch_size_; }
 
-  /// Enable read coalescing.
+  /// Enable read coalescing (default false).
   ///
   /// When enabled, the Arrow reader will pre-buffer necessary regions
   /// of the file in-memory. This is intended to improve performance on
   /// high-latency filesystems (e.g. Amazon S3).
   void set_pre_buffer(bool pre_buffer) { pre_buffer_ = pre_buffer; }
-
+  /// Return whether read coalescing is enabled.
   bool pre_buffer() const { return pre_buffer_; }
 
   /// Set options for read coalescing. This can be used to tune the
   /// implementation for characteristics of different filesystems.
   void set_cache_options(::arrow::io::CacheOptions options) { cache_options_ = options; }
-
+  /// Return the options for read coalescing.
   const ::arrow::io::CacheOptions& cache_options() const { return cache_options_; }
 
   /// Set execution context for read coalescing.
   void set_io_context(const ::arrow::io::IOContext& ctx) { io_context_ = ctx; }
-
+  /// Return the execution context used for read coalescing.
   const ::arrow::io::IOContext& io_context() const { return io_context_; }
 
   /// Set timestamp unit to use for deprecated INT96-encoded timestamps
@@ -704,27 +755,39 @@ class PARQUET_EXPORT ArrowWriterProperties {
           engine_version_(V2) {}
     virtual ~Builder() = default;
 
+    /// \brief Disable writing legacy int96 timestamps (default disabled).
     Builder* disable_deprecated_int96_timestamps() {
       write_timestamps_as_int96_ = false;
       return this;
     }
 
+    /// \brief Enable writing legacy int96 timestamps (default disabled).
+    ///
+    /// May be turned on to write timestamps compatible with older Parquet writers.
+    /// This takes precedent over coerce_timestamps.
     Builder* enable_deprecated_int96_timestamps() {
       write_timestamps_as_int96_ = true;
       return this;
     }
 
+    /// \brief Coerce all timestamps to the specified time unit.
+    /// \param unit time unit to truncate to.
+    /// For Parquet versions 1.0 and 2.4, nanoseconds are casted to microseconds.
     Builder* coerce_timestamps(::arrow::TimeUnit::type unit) {
       coerce_timestamps_enabled_ = true;
       coerce_timestamps_unit_ = unit;
       return this;
     }
 
+    /// \brief Allow loss of data when truncating timestamps.
+    ///
+    /// This is disallowed by default and an error will be returned.
     Builder* allow_truncated_timestamps() {
       truncated_timestamps_allowed_ = true;
       return this;
     }
 
+    /// \brief Disallow loss of data when truncating timestamps (default).
     Builder* disallow_truncated_timestamps() {
       truncated_timestamps_allowed_ = false;
       return this;
@@ -738,21 +801,31 @@ class PARQUET_EXPORT ArrowWriterProperties {
       return this;
     }
 
+    /// \brief When enabled, will not preserve Arrow field names for list types.
+    ///
+    /// Instead of using the field names Arrow uses for the values array of
+    /// list types (default "item"), will use "entries", as is specified in
+    /// the Parquet spec.
+    ///
+    /// This is disabled by default, but will be enabled by default in future.
     Builder* enable_compliant_nested_types() {
       compliant_nested_types_ = true;
       return this;
     }
 
+    /// Preserve Arrow list field name (default behavior).
     Builder* disable_compliant_nested_types() {
       compliant_nested_types_ = false;
       return this;
     }
 
+    /// Set the version of the Parquet writer engine.
     Builder* set_engine_version(EngineVersion version) {
       engine_version_ = version;
       return this;
     }
 
+    /// Create the final properties.
     std::shared_ptr<ArrowWriterProperties> build() {
       return std::shared_ptr<ArrowWriterProperties>(new ArrowWriterProperties(
           write_timestamps_as_int96_, coerce_timestamps_enabled_, coerce_timestamps_unit_,
diff --git a/cpp/src/parquet/reader_test.cc b/cpp/src/parquet/reader_test.cc
index 7776d995c02..e17f7a91f9b 100644
--- a/cpp/src/parquet/reader_test.cc
+++ b/cpp/src/parquet/reader_test.cc
@@ -31,7 +31,6 @@
 #include "arrow/testing/gtest_util.h"
 #include "arrow/testing/random.h"
 #include "arrow/util/checked_cast.h"
-#include "arrow/util/make_unique.h"
 
 #include "parquet/column_reader.h"
 #include "parquet/column_scanner.h"
@@ -87,6 +86,10 @@ std::string lz4_raw_compressed_larger() {
   return data_file("lz4_raw_compressed_larger.parquet");
 }
 
+std::string overflow_i16_page_oridinal() {
+  return data_file("overflow_i16_page_cnt.parquet");
+}
+
 // TODO: Assert on definition and repetition levels
 template <typename DType, typename ValueType>
 void AssertColumnValues(std::shared_ptr<TypedColumnReader<DType>> col, int64_t batch_size,
@@ -127,6 +130,127 @@ void CheckRowGroupMetadata(const RowGroupMetaData* rg_metadata,
   }
 }
 
+class TestBooleanRLE : public ::testing::Test {
+ public:
+  void SetUp() {
+    reader_ = ParquetFileReader::OpenFile(data_file("rle_boolean_encoding.parquet"));
+  }
+
+  void TearDown() {}
+
+ protected:
+  std::unique_ptr<ParquetFileReader> reader_;
+};
+
+TEST_F(TestBooleanRLE, TestBooleanScanner) {
+  int nvalues = 68;
+  int validation_values = 16;
+
+  auto group = reader_->RowGroup(0);
+
+  // column 0, id
+  auto scanner = std::make_shared<BoolScanner>(group->Column(0));
+
+  bool val = false;
+  bool is_null = false;
+
+  // For this file, 3rd and 16th index value is null
+  std::vector<bool> expected_null = {false, false, true,  false, false, false,
+                                     false, false, false, false, false, false,
+                                     false, false, false, true};
+  std::vector<bool> expected_value = {true,  false, false, true, true,  false,
+                                      false, true,  true,  true, false, false,
+                                      true,  true,  false, false};
+
+  // Assert sizes are same
+  ASSERT_EQ(validation_values, expected_null.size());
+  ASSERT_EQ(validation_values, expected_value.size());
+
+  for (int i = 0; i < validation_values; i++) {
+    ASSERT_TRUE(scanner->HasNext());
+    ASSERT_TRUE(scanner->NextValue(&val, &is_null));
+
+    ASSERT_EQ(expected_null[i], is_null);
+
+    // Only validate val if not null
+    if (!is_null) {
+      ASSERT_EQ(expected_value[i], val);
+    }
+  }
+
+  // Loop through rest of the values to assert data exists
+  for (int i = validation_values; i < nvalues; i++) {
+    ASSERT_TRUE(scanner->HasNext());
+    ASSERT_TRUE(scanner->NextValue(&val, &is_null));
+  }
+
+  // Attempt to read past end of column
+  ASSERT_FALSE(scanner->HasNext());
+  ASSERT_FALSE(scanner->NextValue(&val, &is_null));
+}
+
+TEST_F(TestBooleanRLE, TestBatchRead) {
+  int nvalues = 68;
+  int num_row_groups = 1;
+  int metadata_size = 111;
+
+  auto group = reader_->RowGroup(0);
+
+  // column 0, id
+  auto col = std::dynamic_pointer_cast<BoolReader>(group->Column(0));
+
+  // This file only has 68 rows
+  ASSERT_EQ(nvalues, reader_->metadata()->num_rows());
+  // This file only has 1 row group
+  ASSERT_EQ(num_row_groups, reader_->metadata()->num_row_groups());
+  // Size of the metadata is 111 bytes
+  ASSERT_EQ(metadata_size, reader_->metadata()->size());
+  // This row group must have 68 rows
+  ASSERT_EQ(nvalues, group->metadata()->num_rows());
+
+  // Check if the column is encoded with RLE
+  auto col_chunk = group->metadata()->ColumnChunk(0);
+  ASSERT_TRUE(std::find(col_chunk->encodings().begin(), col_chunk->encodings().end(),
+                        Encoding::RLE) != col_chunk->encodings().end());
+
+  // Assert column has values to be read
+  ASSERT_TRUE(col->HasNext());
+  int64_t curr_batch_read = 0;
+
+  const int16_t batch_size = 17;
+  const int16_t num_nulls = 2;
+  int16_t def_levels[batch_size];
+  int16_t rep_levels[batch_size];
+  bool values[batch_size];
+  std::fill_n(values, batch_size, false);
+
+  auto levels_read =
+      col->ReadBatch(batch_size, def_levels, rep_levels, values, &curr_batch_read);
+  ASSERT_EQ(batch_size, levels_read);
+
+  // Since two value's are null value, expect batches read to be num_nulls less than
+  // indicated batch_size
+  ASSERT_EQ(batch_size - num_nulls, curr_batch_read);
+
+  // 3rd index is null value
+  ASSERT_THAT(def_levels,
+              testing::ElementsAre(1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1));
+
+  // Validate inserted data is as expected
+  ASSERT_THAT(values,
+              testing::ElementsAre(1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0));
+
+  // Loop through rest of the values and assert batch_size read
+  for (int i = batch_size; i < nvalues; i = i + batch_size) {
+    levels_read =
+        col->ReadBatch(batch_size, def_levels, rep_levels, values, &curr_batch_read);
+    ASSERT_EQ(batch_size, levels_read);
+  }
+
+  // Now read past the end of the file
+  ASSERT_FALSE(col->HasNext());
+}
+
 class TestTextDeltaLengthByteArray : public ::testing::Test {
  public:
   void SetUp() {
@@ -153,7 +277,7 @@ TEST_F(TestTextDeltaLengthByteArray, TestTextScanner) {
     ASSERT_FALSE(is_null);
     std::string expected = expected_prefix + std::to_string(i * i);
     ASSERT_TRUE(val.len == expected.length());
-    ASSERT_EQ(::arrow::util::string_view(reinterpret_cast<const char*>(val.ptr), val.len),
+    ASSERT_EQ(::std::string_view(reinterpret_cast<const char*>(val.ptr), val.len),
               expected);
   }
   ASSERT_FALSE(scanner->HasNext());
@@ -200,9 +324,9 @@ TEST_F(TestTextDeltaLengthByteArray, TestBatchRead) {
       auto expected =
           expected_prefix + std::to_string((i + values_read) * (i + values_read));
       ASSERT_TRUE(values[i].len == expected.length());
-      ASSERT_EQ(::arrow::util::string_view(reinterpret_cast<const char*>(values[i].ptr),
-                                           values[i].len),
-                expected);
+      ASSERT_EQ(
+          ::std::string_view(reinterpret_cast<const char*>(values[i].ptr), values[i].len),
+          expected);
     }
     values_read += curr_batch_read;
   }
@@ -427,12 +551,12 @@ Column 1: b (INT32)
 --- Rows: 3 ---
 Column 0
   Values: 18  Statistics Not Set
-  Compression: SNAPPY, Encodings: RLE PLAIN_DICTIONARY
+  Compression: SNAPPY, Encodings: PLAIN_DICTIONARY(DICT_PAGE) PLAIN_DICTIONARY
   Uncompressed Size: 103, Compressed Size: 104
 Column 1
   Values: 3, Null Values: 0, Distinct Values: 0
   Max: 1, Min: 1
-  Compression: SNAPPY, Encodings: BIT_PACKED PLAIN_DICTIONARY
+  Compression: SNAPPY, Encodings: PLAIN_DICTIONARY(DICT_PAGE) PLAIN_DICTIONARY
   Uncompressed Size: 52, Compressed Size: 56
 )###";
   std::string values_output = R"###(--- Values ---
@@ -612,7 +736,7 @@ TEST(TestFileReader, BufferedReadsWithDictionary) {
       row_group->ColumnWithExposeEncoding(0, ExposedEncoding::DICTIONARY));
   EXPECT_EQ(col_reader->GetExposedEncoding(), ExposedEncoding::DICTIONARY);
 
-  auto indices = ::arrow::internal::make_unique<int32_t[]>(num_rows);
+  auto indices = std::make_unique<int32_t[]>(num_rows);
   const double* dict = nullptr;
   int32_t dict_len = 0;
   for (int row_index = 0; row_index < num_rows; ++row_index) {
@@ -895,4 +1019,44 @@ INSTANTIATE_TEST_SUITE_P(Lz4CodecTests, TestCodec, ::testing::ValuesIn(test_code
                          testing::PrintToStringParamName());
 #endif  // ARROW_WITH_LZ4
 
+// Test reading a data file with a ColumnChunk contains more than
+// INT16_MAX pages. (GH-15074).
+TEST(TestFileReader, TestOverflowInt16PageOrdinal) {
+  ReaderProperties reader_props;
+  auto file_reader = ParquetFileReader::OpenFile(overflow_i16_page_oridinal(),
+                                                 /*memory_map=*/false, reader_props);
+  auto metadata_ptr = file_reader->metadata();
+  EXPECT_EQ(1, metadata_ptr->num_row_groups());
+  EXPECT_EQ(1, metadata_ptr->num_columns());
+  auto row_group = file_reader->RowGroup(0);
+
+  {
+    auto column_reader =
+        std::dynamic_pointer_cast<TypedColumnReader<BooleanType>>(row_group->Column(0));
+    EXPECT_NE(nullptr, column_reader);
+    constexpr int kBatchLength = 1024;
+    std::array<bool, kBatchLength> boolean_values{};
+    int64_t total_values = 0;
+    int64_t values_read = 0;
+    do {
+      values_read = 0;
+      column_reader->ReadBatch(kBatchLength, nullptr, nullptr, boolean_values.data(),
+                               &values_read);
+      total_values += values_read;
+      for (int i = 0; i < values_read; ++i) {
+        EXPECT_FALSE(boolean_values[i]);
+      }
+    } while (values_read != 0);
+    EXPECT_EQ(40000, total_values);
+  }
+  {
+    auto page_reader = row_group->GetColumnPageReader(0);
+    int32_t page_ordinal = 0;
+    while (page_reader->NextPage() != nullptr) {
+      ++page_ordinal;
+    }
+    EXPECT_EQ(40000, page_ordinal);
+  }
+}
+
 }  // namespace parquet
diff --git a/cpp/src/parquet/schema.cc b/cpp/src/parquet/schema.cc
index cfa6bdb2912..5437fa2208a 100644
--- a/cpp/src/parquet/schema.cc
+++ b/cpp/src/parquet/schema.cc
@@ -32,9 +32,6 @@
 using parquet::format::SchemaElement;
 
 namespace parquet {
-
-namespace schema {
-
 namespace {
 
 void ThrowInvalidLogicalType(const LogicalType& logical_type) {
@@ -43,8 +40,19 @@ void ThrowInvalidLogicalType(const LogicalType& logical_type) {
   throw ParquetException(ss.str());
 }
 
+void CheckColumnBounds(int column_index, size_t max_columns) {
+  if (ARROW_PREDICT_FALSE(column_index < 0 ||
+                          static_cast<size_t>(column_index) >= max_columns)) {
+    std::stringstream ss;
+    ss << "Invalid Column Index: " << column_index << " Num columns: " << max_columns;
+    throw ParquetException(ss.str());
+  }
+}
+
 }  // namespace
 
+namespace schema {
+
 // ----------------------------------------------------------------------
 // ColumnPath
 
@@ -794,13 +802,23 @@ void SchemaDescriptor::Init(NodePtr schema) {
   }
 }
 
-bool SchemaDescriptor::Equals(const SchemaDescriptor& other) const {
+bool SchemaDescriptor::Equals(const SchemaDescriptor& other,
+                              std::ostream* diff_output) const {
   if (this->num_columns() != other.num_columns()) {
+    if (diff_output != nullptr) {
+      *diff_output << "This schema has " << this->num_columns() << " columns, other has "
+                   << other.num_columns();
+    }
     return false;
   }
 
   for (int i = 0; i < this->num_columns(); ++i) {
     if (!this->Column(i)->Equals(*other.Column(i))) {
+      if (diff_output != nullptr) {
+        *diff_output << "The two columns with index " << i << " differ." << std::endl
+                     << this->Column(i)->ToString() << std::endl
+                     << other.Column(i)->ToString() << std::endl;
+      }
       return false;
     }
   }
@@ -864,7 +882,7 @@ bool ColumnDescriptor::Equals(const ColumnDescriptor& other) const {
 }
 
 const ColumnDescriptor* SchemaDescriptor::Column(int i) const {
-  DCHECK(i >= 0 && i < static_cast<int>(leaves_.size()));
+  CheckColumnBounds(i, leaves_.size());
   return &leaves_[i];
 }
 
@@ -889,7 +907,7 @@ int SchemaDescriptor::ColumnIndex(const Node& node) const {
 }
 
 const schema::Node* SchemaDescriptor::GetColumnRoot(int i) const {
-  DCHECK(i >= 0 && i < static_cast<int>(leaves_.size()));
+  CheckColumnBounds(i, leaves_.size());
   return leaf_to_base_.find(i)->second.get();
 }
 
diff --git a/cpp/src/parquet/schema.h b/cpp/src/parquet/schema.h
index 9e06040226b..f6c5416a1e0 100644
--- a/cpp/src/parquet/schema.h
+++ b/cpp/src/parquet/schema.h
@@ -285,7 +285,7 @@ class PARQUET_EXPORT GroupNode : public Node {
 
   bool Equals(const Node* other) const override;
 
-  NodePtr field(int i) const { return fields_[i]; }
+  const NodePtr& field(int i) const { return fields_[i]; }
   // Get the index of a field by its name, or negative value if not found.
   // If several fields share the same name, it is unspecified which one
   // is returned.
@@ -432,7 +432,7 @@ class PARQUET_EXPORT SchemaDescriptor {
   // Get the index of a column by its node, or negative value if not found.
   int ColumnIndex(const schema::Node& node) const;
 
-  bool Equals(const SchemaDescriptor& other) const;
+  bool Equals(const SchemaDescriptor& other, std::ostream* diff_output = NULLPTR) const;
 
   // The number of physical columns appearing in the file
   int num_columns() const { return static_cast<int>(leaves_.size()); }
diff --git a/cpp/src/parquet/statistics.cc b/cpp/src/parquet/statistics.cc
index 591925554fa..deba7ad3c21 100644
--- a/cpp/src/parquet/statistics.cc
+++ b/cpp/src/parquet/statistics.cc
@@ -21,6 +21,7 @@
 #include <cmath>
 #include <cstring>
 #include <limits>
+#include <optional>
 #include <type_traits>
 #include <utility>
 
@@ -30,7 +31,6 @@
 #include "arrow/util/bit_run_reader.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/logging.h"
-#include "arrow/util/optional.h"
 #include "arrow/util/ubsan.h"
 #include "arrow/visit_data_inline.h"
 #include "parquet/encoding.h"
@@ -276,7 +276,7 @@ template <bool is_signed>
 struct CompareHelper<FLBAType, is_signed>
     : public BinaryLikeCompareHelperBase<FLBAType, is_signed> {};
 
-using ::arrow::util::optional;
+using ::std::optional;
 
 template <typename T>
 ::arrow::enable_if_t<std::is_integral<T>::value, optional<std::pair<T, T>>>
@@ -297,11 +297,11 @@ CleanStatistic(std::pair<T, T> min_max) {
 
   // Ignore if one of the value is nan.
   if (std::isnan(min) || std::isnan(max)) {
-    return ::arrow::util::nullopt;
+    return ::std::nullopt;
   }
 
   if (min == std::numeric_limits<T>::max() && max == std::numeric_limits<T>::lowest()) {
-    return ::arrow::util::nullopt;
+    return ::std::nullopt;
   }
 
   T zero{};
@@ -319,7 +319,7 @@ CleanStatistic(std::pair<T, T> min_max) {
 
 optional<std::pair<FLBA, FLBA>> CleanStatistic(std::pair<FLBA, FLBA> min_max) {
   if (min_max.first.ptr == nullptr || min_max.second.ptr == nullptr) {
-    return ::arrow::util::nullopt;
+    return ::std::nullopt;
   }
   return min_max;
 }
@@ -327,7 +327,7 @@ optional<std::pair<FLBA, FLBA>> CleanStatistic(std::pair<FLBA, FLBA> min_max) {
 optional<std::pair<ByteArray, ByteArray>> CleanStatistic(
     std::pair<ByteArray, ByteArray> min_max) {
   if (min_max.first.ptr == nullptr || min_max.second.ptr == nullptr) {
-    return ::arrow::util::nullopt;
+    return ::std::nullopt;
   }
   return min_max;
 }
@@ -858,6 +858,17 @@ std::shared_ptr<Statistics> Statistics::Make(Type::type physical_type, const voi
   return nullptr;
 }
 
+std::shared_ptr<Statistics> Statistics::Make(const ColumnDescriptor* descr,
+                                             const EncodedStatistics* encoded_stats,
+                                             int64_t num_values,
+                                             ::arrow::MemoryPool* pool) {
+  DCHECK(encoded_stats != nullptr);
+  return Make(descr, encoded_stats->min(), encoded_stats->max(), num_values,
+              encoded_stats->null_count, encoded_stats->distinct_count,
+              encoded_stats->has_min && encoded_stats->has_max,
+              encoded_stats->has_null_count, encoded_stats->has_distinct_count, pool);
+}
+
 std::shared_ptr<Statistics> Statistics::Make(const ColumnDescriptor* descr,
                                              const std::string& encoded_min,
                                              const std::string& encoded_max,
diff --git a/cpp/src/parquet/statistics.h b/cpp/src/parquet/statistics.h
index b4e9fb382a4..71d9b662baa 100644
--- a/cpp/src/parquet/statistics.h
+++ b/cpp/src/parquet/statistics.h
@@ -216,6 +216,14 @@ class PARQUET_EXPORT Statistics {
       bool has_distinct_count,
       ::arrow::MemoryPool* pool = ::arrow::default_memory_pool());
 
+  // Helper function to convert EncodedStatistics to Statistics.
+  // EncodedStatistics does not contain number of non-null values, and it can be
+  // passed using the num_values parameter.
+  static std::shared_ptr<Statistics> Make(
+      const ColumnDescriptor* descr, const EncodedStatistics* encoded_statistics,
+      int64_t num_values = -1,
+      ::arrow::MemoryPool* pool = ::arrow::default_memory_pool());
+
   /// \brief Return true if the count of null values is set
   virtual bool HasNullCount() const = 0;
 
diff --git a/cpp/src/parquet/statistics_test.cc b/cpp/src/parquet/statistics_test.cc
index 03da895380e..8b9a42aa18b 100644
--- a/cpp/src/parquet/statistics_test.cc
+++ b/cpp/src/parquet/statistics_test.cc
@@ -133,14 +133,14 @@ TEST(Comparison, UnsignedByteArray) {
   ASSERT_TRUE(comparator->Compare(s1ba, s2ba));
 
   // Multi-byte UTF-8 characters
-  s1 = u8"braten";
-  s2 = u8"bügeln";
+  s1 = "braten";
+  s2 = "bügeln";
   s1ba = ByteArrayFromString(s1);
   s2ba = ByteArrayFromString(s2);
   ASSERT_TRUE(comparator->Compare(s1ba, s2ba));
 
-  s1 = u8"ünk123456";  // ü = 252
-  s2 = u8"ănk123456";  // ă = 259
+  s1 = "ünk123456";  // ü = 252
+  s2 = "ănk123456";  // ă = 259
   s1ba = ByteArrayFromString(s1);
   s2ba = ByteArrayFromString(s2);
   ASSERT_TRUE(comparator->Compare(s1ba, s2ba));
@@ -859,8 +859,8 @@ void TestStatisticsSortOrder<ByteArrayType>::SetValues() {
   int max_byte_array_len = 10;
   size_t nbytes = NUM_VALUES * max_byte_array_len;
   values_buf_.resize(nbytes);
-  std::vector<std::string> vals = {u8"c123", u8"b123", u8"a123", u8"d123", u8"e123",
-                                   u8"f123", u8"g123", u8"h123", u8"i123", u8"ü123"};
+  std::vector<std::string> vals = {"c123", "b123", "a123", "d123", "e123",
+                                   "f123", "g123", "h123", "i123", "ü123"};
 
   uint8_t* base = &values_buf_.data()[0];
   for (int i = 0; i < NUM_VALUES; i++) {
@@ -922,7 +922,7 @@ void TestByteArrayStatisticsFromArrow() {
   using ArrayType = typename TypeTraits::ArrayType;
 
   auto values = ArrayFromJSON(TypeTraits::type_singleton(),
-                              u8"[\"c123\", \"b123\", \"a123\", null, "
+                              "[\"c123\", \"b123\", \"a123\", null, "
                               "null, \"f123\", \"g123\", \"h123\", \"i123\", \"ü123\"]");
 
   const auto& typed_values = static_cast<const ArrayType&>(*values);
diff --git a/cpp/src/parquet/stream_reader.h b/cpp/src/parquet/stream_reader.h
index 806b0e8ad9a..e16f8ee694c 100644
--- a/cpp/src/parquet/stream_reader.h
+++ b/cpp/src/parquet/stream_reader.h
@@ -22,10 +22,10 @@
 #include <cstdint>
 #include <cstring>
 #include <memory>
+#include <optional>
 #include <string>
 #include <vector>
 
-#include "arrow/util/optional.h"
 #include "parquet/column_reader.h"
 #include "parquet/file_reader.h"
 #include "parquet/stream_writer.h"
@@ -44,9 +44,9 @@ namespace parquet {
 /// Required and optional fields are supported:
 /// - Required fields are read using operator>>(T)
 /// - Optional fields are read with
-///   operator>>(arrow::util::optional<T>)
+///   operator>>(std::optional<T>)
 ///
-/// Note that operator>>(arrow::util::optional<T>) can be used to read
+/// Note that operator>>(std::optional<T>) can be used to read
 /// required fields.
 ///
 /// Similarly operator>>(T) can be used to read optional fields.
@@ -58,7 +58,7 @@ namespace parquet {
 class PARQUET_EXPORT StreamReader {
  public:
   template <typename T>
-  using optional = ::arrow::util::optional<T>;
+  using optional = ::std::optional<T>;
 
   // N.B. Default constructed objects are not usable.  This
   //      constructor is provided so that the object may be move
diff --git a/cpp/src/parquet/stream_reader_test.cc b/cpp/src/parquet/stream_reader_test.cc
index eb7b133740e..aa0ff25b10d 100644
--- a/cpp/src/parquet/stream_reader_test.cc
+++ b/cpp/src/parquet/stream_reader_test.cc
@@ -34,7 +34,7 @@ namespace test {
 
 template <typename T>
 using optional = StreamReader::optional<T>;
-using ::arrow::util::nullopt;
+using ::std::nullopt;
 
 struct TestData {
   static void init() { std::time(&ts_offset_); }
diff --git a/cpp/src/parquet/stream_writer.cc b/cpp/src/parquet/stream_writer.cc
index 253ebf1bc91..dc76c2935d4 100644
--- a/cpp/src/parquet/stream_writer.cc
+++ b/cpp/src/parquet/stream_writer.cc
@@ -136,7 +136,7 @@ StreamWriter& StreamWriter::operator<<(const std::string& v) {
   return WriteVariableLength(v.data(), v.size());
 }
 
-StreamWriter& StreamWriter::operator<<(::arrow::util::string_view v) {
+StreamWriter& StreamWriter::operator<<(::std::string_view v) {
   return WriteVariableLength(v.data(), v.size());
 }
 
diff --git a/cpp/src/parquet/stream_writer.h b/cpp/src/parquet/stream_writer.h
index d0db850c341..f95d39fd1d5 100644
--- a/cpp/src/parquet/stream_writer.h
+++ b/cpp/src/parquet/stream_writer.h
@@ -21,11 +21,11 @@
 #include <chrono>
 #include <cstdint>
 #include <memory>
+#include <optional>
 #include <string>
+#include <string_view>
 #include <vector>
 
-#include "arrow/util/optional.h"
-#include "arrow/util/string_view.h"
 #include "parquet/column_writer.h"
 #include "parquet/file_writer.h"
 
@@ -48,11 +48,11 @@ namespace parquet {
 /// Required and optional fields are supported:
 /// - Required fields are written using operator<<(T)
 /// - Optional fields are written using
-///   operator<<(arrow::util::optional<T>).
+///   operator<<(std::optional<T>).
 ///
 /// Note that operator<<(T) can be used to write optional fields.
 ///
-/// Similarly, operator<<(arrow::util::optional<T>) can be used to
+/// Similarly, operator<<(std::optional<T>) can be used to
 /// write required fields.  However if the optional parameter does not
 /// have a value (i.e. it is nullopt) then a ParquetException will be
 /// raised.
@@ -62,7 +62,7 @@ namespace parquet {
 class PARQUET_EXPORT StreamWriter {
  public:
   template <typename T>
-  using optional = ::arrow::util::optional<T>;
+  using optional = ::std::optional<T>;
 
   // N.B. Default constructed objects are not usable.  This
   //      constructor is provided so that the object may be move
@@ -123,7 +123,7 @@ class PARQUET_EXPORT StreamWriter {
 
   /// \brief Helper class to write fixed length strings.
   /// This is useful as the standard string view (such as
-  /// arrow::util::string_view) is for variable length data.
+  /// std::string_view) is for variable length data.
   struct PARQUET_EXPORT FixedStringView {
     FixedStringView() = default;
 
@@ -149,7 +149,7 @@ class PARQUET_EXPORT StreamWriter {
   /// \brief Output operators for variable length strings.
   StreamWriter& operator<<(const char* v);
   StreamWriter& operator<<(const std::string& v);
-  StreamWriter& operator<<(::arrow::util::string_view v);
+  StreamWriter& operator<<(::std::string_view v);
 
   /// \brief Output operator for optional fields.
   template <typename T>
diff --git a/cpp/src/parquet/symbols.map b/cpp/src/parquet/symbols.map
index 4bf032dd584..a91686ef0ec 100644
--- a/cpp/src/parquet/symbols.map
+++ b/cpp/src/parquet/symbols.map
@@ -31,9 +31,9 @@
 	  apache::thrift::*;
 
       # devtoolset or -static-libstdc++ - the Red Hat devtoolset statically
-      # links c++11 symbols into binaries so that the result may be executed on
+      # links c++1x symbols into binaries so that the result may be executed on
       # a system with an older libstdc++ which doesn't include the necessary
-      # c++11 symbols.
+      # c++1x symbols.
       std::*;
       *std::__once_call*;
     };
diff --git a/cpp/src/parquet/thrift_internal.h b/cpp/src/parquet/thrift_internal.h
index 3c74dfc07b4..9cc702dfcdd 100644
--- a/cpp/src/parquet/thrift_internal.h
+++ b/cpp/src/parquet/thrift_internal.h
@@ -100,6 +100,10 @@ static inline Compression::type FromThriftUnsafe(format::CompressionCodec::type
   }
 }
 
+static inline BoundaryOrder::type FromThriftUnsafe(format::BoundaryOrder::type type) {
+  return static_cast<BoundaryOrder::type>(type);
+}
+
 namespace internal {
 
 template <typename T>
@@ -130,6 +134,11 @@ struct ThriftEnumTypeTraits<::parquet::format::PageType::type> {
   using ParquetEnum = PageType;
 };
 
+template <>
+struct ThriftEnumTypeTraits<::parquet::format::BoundaryOrder::type> {
+  using ParquetEnum = BoundaryOrder;
+};
+
 // If the parquet file is corrupted it is possible the enum value decoded
 // will not be in the range of defined values, which is undefined behaviour.
 // This facility prevents this by loading the value as the underlying type
@@ -401,7 +410,7 @@ class ThriftDeserializer {
     return std::shared_ptr<ThriftBuffer>(
         new ThriftBuffer(buf, len, ThriftBuffer::OBSERVE, conf));
 #else
-    return std::shared_ptr<ThriftBuffer>(new ThriftBuffer(buf, len));
+    return std::make_shared<ThriftBuffer>(buf, len);
 #endif
   }
 
diff --git a/cpp/src/parquet/types.cc b/cpp/src/parquet/types.cc
index 349fc682aad..532fd4c3d7b 100644
--- a/cpp/src/parquet/types.cc
+++ b/cpp/src/parquet/types.cc
@@ -73,7 +73,7 @@ std::unique_ptr<Codec> GetCodec(Compression::type codec, int compression_level)
   return result;
 }
 
-std::string FormatStatValue(Type::type parquet_type, ::arrow::util::string_view val) {
+std::string FormatStatValue(Type::type parquet_type, ::std::string_view val) {
   std::stringstream result;
 
   const char* bytes = val.data();
diff --git a/cpp/src/parquet/types.h b/cpp/src/parquet/types.h
index b419bf5dcf9..6ec6870d3a0 100644
--- a/cpp/src/parquet/types.h
+++ b/cpp/src/parquet/types.h
@@ -20,11 +20,11 @@
 #include <algorithm>
 #include <cstdint>
 #include <cstring>
+#include <iterator>
 #include <memory>
 #include <sstream>
 #include <string>
-
-#include "arrow/util/string_view.h"
+#include <string_view>
 
 #include "parquet/platform.h"
 #include "parquet/type_fwd.h"
@@ -532,13 +532,24 @@ class ColumnOrder {
   ColumnOrder::type column_order_;
 };
 
+/// \brief BoundaryOrder is a proxy around format::BoundaryOrder.
+struct BoundaryOrder {
+  enum type {
+    Unordered = 0,
+    Ascending = 1,
+    Descending = 2,
+    // Should always be last element
+    UNDEFINED = 3
+  };
+};
+
 // ----------------------------------------------------------------------
 
 struct ByteArray {
   ByteArray() : len(0), ptr(NULLPTR) {}
   ByteArray(uint32_t len, const uint8_t* ptr) : len(len), ptr(ptr) {}
 
-  ByteArray(::arrow::util::string_view view)  // NOLINT implicit conversion
+  ByteArray(::std::string_view view)  // NOLINT implicit conversion
       : ByteArray(static_cast<uint32_t>(view.size()),
                   reinterpret_cast<const uint8_t*>(view.data())) {}
   uint32_t len;
@@ -743,7 +754,7 @@ PARQUET_EXPORT std::string ConvertedTypeToString(ConvertedType::type t);
 PARQUET_EXPORT std::string TypeToString(Type::type t);
 
 PARQUET_EXPORT std::string FormatStatValue(Type::type parquet_type,
-                                           ::arrow::util::string_view val);
+                                           ::std::string_view val);
 
 PARQUET_EXPORT int GetTypeByteSize(Type::type t);
 
diff --git a/cpp/src/plasma/CMakeLists.txt b/cpp/src/plasma/CMakeLists.txt
index d78a5ccfdcc..68f1c5ffa91 100644
--- a/cpp/src/plasma/CMakeLists.txt
+++ b/cpp/src/plasma/CMakeLists.txt
@@ -52,15 +52,25 @@ set(PLASMA_STORE_SRCS
     store.cc
     thirdparty/ae/ae.c)
 
-set(PLASMA_LINK_LIBS arrow::flatbuffers arrow_shared)
-set(PLASMA_STATIC_LINK_LIBS arrow::flatbuffers arrow_static)
+set(PLASMA_SHARED_LINK_LIBS arrow::flatbuffers)
+set(PLASMA_STATIC_LINK_LIBS arrow::flatbuffers)
+set(PLASMA_SHARED_INSTALL_INTERFACE_LIBS)
+set(PLASMA_STATIC_INSTALL_INTERFACE_LIBS)
 
 if(ARROW_CUDA)
-  list(INSERT PLASMA_LINK_LIBS 0 arrow_cuda_shared)
-  list(INSERT PLASMA_STATIC_LINK_LIBS 0 arrow_cuda_static)
+  list(APPEND PLASMA_SHARED_LINK_LIBS arrow_cuda_shared)
+  list(APPEND PLASMA_STATIC_LINK_LIBS arrow_cuda_static)
+  list(APPEND PLASMA_SHARED_INSTALL_INTERFACE_LIBS ArrowCUDA::arrow_cuda_shared)
+  list(APPEND PLASMA_STATIC_INSTALL_INTERFACE_LIBS ArrowCUDA::arrow_cuda_static)
   add_definitions(-DPLASMA_CUDA)
+else()
+  list(APPEND PLASMA_SHARED_INSTALL_INTERFACE_LIBS Arrow::arrow_shared)
+  list(APPEND PLASMA_STATIC_INSTALL_INTERFACE_LIBS Arrow::arrow_static)
 endif()
 
+list(APPEND PLASMA_SHARED_LINK_LIBS arrow_shared)
+list(APPEND PLASMA_STATIC_LINK_LIBS arrow_static)
+
 if(CXX_LINKER_SUPPORTS_VERSION_SCRIPT)
   set(PLASMA_SHARED_LINK_FLAGS
       "-Wl,--version-script=${CMAKE_CURRENT_SOURCE_DIR}/symbols.map")
@@ -73,21 +83,24 @@ add_arrow_lib(plasma
               plasma
               SOURCES
               ${PLASMA_SRCS}
+              DEFINITIONS
+              "ARROW_EXPORTING"
+              "_PLASMA_NO_DEPRECATE"
               OUTPUTS
               PLASMA_LIBRARIES
               SHARED_LINK_FLAGS
               ${PLASMA_SHARED_LINK_FLAGS}
               SHARED_LINK_LIBS
-              ${PLASMA_LINK_LIBS}
+              ${PLASMA_SHARED_LINK_LIBS}
+              SHARED_INSTALL_INTERFACE_LIBS
+              ${PLASMA_SHARED_INSTALL_INTERFACE_LIBS}
               STATIC_LINK_LIBS
-              ${PLASMA_STATIC_LINK_LIBS})
+              ${PLASMA_STATIC_LINK_LIBS}
+              STATIC_INSTALL_INTERFACE_LIBS
+              ${PLASMA_STATIC_INSTALL_INTERFACE_LIBS})
 
 add_dependencies(plasma ${PLASMA_LIBRARIES})
 
-foreach(LIB_TARGET ${PLASMA_LIBRARIES})
-  target_compile_definitions(${LIB_TARGET} PRIVATE ARROW_EXPORTING)
-endforeach()
-
 # The optimization flag -O3 is suggested by dlmalloc.c, which is #included in
 # malloc.cc; we set it here regardless of whether we do a debug or release build.
 set_source_files_properties(dlmalloc.cc PROPERTIES COMPILE_FLAGS "-O3")
@@ -120,6 +133,7 @@ else()
   target_link_libraries(plasma-store-server plasma_shared ${PLASMA_LINK_LIBS})
 endif()
 target_link_libraries(plasma-store-server ${GFLAGS_LIBRARIES})
+target_compile_definitions(plasma-store-server PRIVATE _PLASMA_NO_DEPRECATE)
 add_dependencies(plasma plasma-store-server)
 
 if(ARROW_RPATH_ORIGIN)
@@ -154,46 +168,9 @@ install(FILES common.h
 # Plasma store
 set_target_properties(plasma-store-server PROPERTIES INSTALL_RPATH_USE_LINK_PATH TRUE)
 install(TARGETS plasma-store-server ${INSTALL_IS_OPTIONAL}
+        EXPORT plasma_targets
         DESTINATION ${CMAKE_INSTALL_BINDIR})
 
-if(ARROW_PLASMA_JAVA_CLIENT)
-  # Plasma java client support
-  find_package(JNI REQUIRED)
-  # add jni support
-  include_directories(${JAVA_INCLUDE_PATH})
-  include_directories(${JAVA_INCLUDE_PATH2})
-  if(JNI_FOUND)
-    message(STATUS "JNI_INCLUDE_DIRS = ${JNI_INCLUDE_DIRS}")
-    message(STATUS "JNI_LIBRARIES = ${JNI_LIBRARIES}")
-  else()
-    message(WARNING "Could not find JNI")
-  endif()
-
-  add_compile_options("-I$ENV{JAVA_HOME}/include/")
-  if(WIN32)
-    add_compile_options("-I$ENV{JAVA_HOME}/include/win32")
-  elseif(APPLE)
-    add_compile_options("-I$ENV{JAVA_HOME}/include/darwin")
-  else() # linux
-    add_compile_options("-I$ENV{JAVA_HOME}/include/linux")
-  endif()
-
-  include_directories("${CMAKE_CURRENT_LIST_DIR}/lib/java")
-
-  file(GLOB PLASMA_LIBRARY_EXT_java_SRC lib/java/*.cc lib/*.cc)
-  add_library(plasma_java SHARED ${PLASMA_LIBRARY_EXT_java_SRC})
-
-  if(APPLE)
-    target_link_libraries(plasma_java
-                          plasma_shared
-                          ${PLASMA_LINK_LIBS}
-                          "-undefined dynamic_lookup"
-                          ${PTHREAD_LIBRARY})
-  else(APPLE)
-    target_link_libraries(plasma_java plasma_shared ${PLASMA_LINK_LIBS}
-                          ${PTHREAD_LIBRARY})
-  endif(APPLE)
-endif()
 #
 # Unit tests
 #
@@ -213,11 +190,13 @@ function(ADD_PLASMA_TEST REL_TEST_NAME)
                 "plasma"
                 LABELS
                 "plasma-tests"
+                DEFINITIONS
+                _PLASMA_NO_DEPRECATE
                 ${ARG_UNPARSED_ARGUMENTS})
 endfunction()
 
 if(ARROW_BUILD_SHARED)
-  set(PLASMA_TEST_LIBS plasma_shared ${PLASMA_LINK_LIBS})
+  set(PLASMA_TEST_LIBS plasma_shared ${PLASMA_SHARED_LINK_LIBS})
 else()
   set(PLASMA_TEST_LIBS plasma_static ${PLASMA_STATIC_LINK_LIBS})
 endif()
diff --git a/cpp/src/plasma/PlasmaConfig.cmake.in b/cpp/src/plasma/PlasmaConfig.cmake.in
index b4b39afd0c9..ec3c51ec281 100644
--- a/cpp/src/plasma/PlasmaConfig.cmake.in
+++ b/cpp/src/plasma/PlasmaConfig.cmake.in
@@ -22,18 +22,29 @@
 #
 # This config sets the following targets in your project::
 #
-#   plasma_shared - for linked as shared library if shared library is built
-#   plasma_static - for linked as static library if static library is built
+#   Plasma::plasma_shared - for linked as shared library if shared library is built
+#   Plasma::plasma_static - for linked as static library if static library is built
+#   Plasma::plasma-store-server - for plasma-store-server executable
 
 @PACKAGE_INIT@
 
 include(CMakeFindDependencyMacro)
 find_dependency(Arrow)
+if(ARROW_CUDA)
+  find_dependency(ArrowCUDA)
+endif()
 
-set(PLASMA_STORE_SERVER "@CMAKE_INSTALL_FULL_BINDIR@/plasma-store-server@CMAKE_EXECUTABLE_SUFFIX@")
+set(PLASMA_VERSION "@ARROW_VERSION@")
+set(PLASMA_SO_VERSION "@ARROW_SO_VERSION@")
+set(PLASMA_FULL_SO_VERSION "@ARROW_FULL_SO_VERSION@")
 
-# Load targets only once. If we load targets multiple times, CMake reports
-# already existent target error.
-if(NOT (TARGET plasma_shared OR TARGET plasma_static))
-  include("${CMAKE_CURRENT_LIST_DIR}/PlasmaTargets.cmake")
-endif()
+set(PLASMA_STORE_SERVER
+    "@CMAKE_INSTALL_FULL_BINDIR@/plasma-store-server@CMAKE_EXECUTABLE_SUFFIX@")
+
+include("${CMAKE_CURRENT_LIST_DIR}/PlasmaTargets.cmake")
+
+arrow_keep_backward_compatibility(Plasma plasma)
+
+check_required_components(Plasma)
+
+arrow_show_details(Plasma PLASMA)
diff --git a/cpp/src/plasma/client.cc b/cpp/src/plasma/client.cc
index 852cdda7841..74d5cc192d1 100644
--- a/cpp/src/plasma/client.cc
+++ b/cpp/src/plasma/client.cc
@@ -351,8 +351,7 @@ uint8_t* PlasmaClient::Impl::LookupOrMmap(int fd, int store_fd_val, int64_t map_
   if (entry != mmap_table_.end()) {
     return entry->second->pointer();
   } else {
-    mmap_table_[store_fd_val] =
-        std::unique_ptr<ClientMmapTableEntry>(new ClientMmapTableEntry(fd, map_size));
+    mmap_table_[store_fd_val] = std::make_unique<ClientMmapTableEntry>(fd, map_size);
     return mmap_table_[store_fd_val]->pointer();
   }
 }
@@ -392,8 +391,7 @@ void PlasmaClient::Impl::IncrementObjectCount(const ObjectID& object_id,
   if (elem == objects_in_use_.end()) {
     // Add this object ID to the hash table of object IDs in use. The
     // corresponding call to free happens in PlasmaClient::Release.
-    objects_in_use_[object_id] =
-        std::unique_ptr<ObjectInUseEntry>(new ObjectInUseEntry());
+    objects_in_use_[object_id] = std::make_unique<ObjectInUseEntry>();
     objects_in_use_[object_id]->object = *object;
     objects_in_use_[object_id]->count = 0;
     objects_in_use_[object_id]->is_sealed = is_sealed;
@@ -676,7 +674,7 @@ Status PlasmaClient::Impl::Get(const std::vector<ObjectID>& object_ids,
                                int64_t timeout_ms, std::vector<ObjectBuffer>* out) {
   std::lock_guard<std::recursive_mutex> guard(client_mutex_);
 
-  const auto wrap_buffer = [=](const ObjectID& object_id,
+  const auto wrap_buffer = [&](const ObjectID& object_id,
                                const std::shared_ptr<Buffer>& buffer) {
     return std::make_shared<PlasmaBuffer>(shared_from_this(), object_id, buffer);
   };
diff --git a/cpp/src/plasma/common.h b/cpp/src/plasma/common.h
index 071e55ea30e..aab50563529 100644
--- a/cpp/src/plasma/common.h
+++ b/cpp/src/plasma/common.h
@@ -36,6 +36,10 @@
 #include "arrow/gpu/cuda_api.h"
 #endif
 
+#ifndef _PLASMA_NO_DEPRECATE
+#warning "Plasma is deprecated since Arrow 10.0.0. It will be removed in 12.0.0 or so."
+#endif
+
 namespace plasma {
 
 enum class ObjectLocation : int32_t { Local, Remote, NotFound };
@@ -74,7 +78,8 @@ class ARROW_EXPORT UniqueID {
   uint8_t id_[kUniqueIDSize];
 };
 
-static_assert(std::is_pod<UniqueID>::value, "UniqueID must be plain old data");
+static_assert(std::is_trivial_v<UniqueID> && std::is_standard_layout_v<UniqueID>,
+              "UniqueID must be plain old data");
 
 typedef UniqueID ObjectID;
 
diff --git a/cpp/src/plasma/common_generated.h b/cpp/src/plasma/common_generated.h
index ba9ef6e72d0..f9cd881d548 100644
--- a/cpp/src/plasma/common_generated.h
+++ b/cpp/src/plasma/common_generated.h
@@ -15,22 +15,14 @@ struct ObjectInfoT;
 
 struct ObjectInfoT : public flatbuffers::NativeTable {
   typedef ObjectInfo TableType;
-  std::string object_id;
-  int64_t data_size;
-  int64_t metadata_size;
-  int32_t ref_count;
-  int64_t create_time;
-  int64_t construct_duration;
-  std::string digest;
-  bool is_deletion;
-  ObjectInfoT()
-      : data_size(0),
-        metadata_size(0),
-        ref_count(0),
-        create_time(0),
-        construct_duration(0),
-        is_deletion(false) {
-  }
+  std::string object_id{};
+  int64_t data_size = 0;
+  int64_t metadata_size = 0;
+  int32_t ref_count = 0;
+  int64_t create_time = 0;
+  int64_t construct_duration = 0;
+  std::string digest{};
+  bool is_deletion = false;
 };
 
 struct ObjectInfo FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -121,7 +113,6 @@ struct ObjectInfoBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  ObjectInfoBuilder &operator=(const ObjectInfoBuilder &);
   flatbuffers::Offset<ObjectInfo> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<ObjectInfo>(end);
@@ -178,7 +169,7 @@ inline flatbuffers::Offset<ObjectInfo> CreateObjectInfoDirect(
 flatbuffers::Offset<ObjectInfo> CreateObjectInfo(flatbuffers::FlatBufferBuilder &_fbb, const ObjectInfoT *_o, const flatbuffers::rehasher_function_t *_rehasher = nullptr);
 
 inline ObjectInfoT *ObjectInfo::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::ObjectInfoT> _o = std::unique_ptr<plasma::flatbuf::ObjectInfoT>(new ObjectInfoT());
+  auto _o = std::unique_ptr<ObjectInfoT>(new ObjectInfoT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
diff --git a/cpp/src/plasma/events.cc b/cpp/src/plasma/events.cc
index 28ff1267545..b553f55a626 100644
--- a/cpp/src/plasma/events.cc
+++ b/cpp/src/plasma/events.cc
@@ -51,7 +51,7 @@ bool EventLoop::AddFileEvent(int fd, int events, const FileCallback& callback) {
   if (file_callbacks_.find(fd) != file_callbacks_.end()) {
     return false;
   }
-  auto data = std::unique_ptr<FileCallback>(new FileCallback(callback));
+  auto data = std::make_unique<FileCallback>(callback);
   void* context = reinterpret_cast<void*>(data.get());
   // Try to add the file descriptor.
   int err = aeCreateFileEvent(loop_, fd, events, EventLoop::FileEventCallback, context);
@@ -90,7 +90,7 @@ void EventLoop::Shutdown() {
 EventLoop::~EventLoop() { Shutdown(); }
 
 int64_t EventLoop::AddTimer(int64_t timeout, const TimerCallback& callback) {
-  auto data = std::unique_ptr<TimerCallback>(new TimerCallback(callback));
+  auto data = std::make_unique<TimerCallback>(callback);
   void* context = reinterpret_cast<void*>(data.get());
   int64_t timer_id =
       aeCreateTimeEvent(loop_, timeout, EventLoop::TimerEventCallback, context, NULL);
diff --git a/cpp/src/plasma/lib/java/org_apache_arrow_plasma_PlasmaClientJNI.h b/cpp/src/plasma/lib/java/org_apache_arrow_plasma_PlasmaClientJNI.h
deleted file mode 100644
index 8a18be91deb..00000000000
--- a/cpp/src/plasma/lib/java/org_apache_arrow_plasma_PlasmaClientJNI.h
+++ /dev/null
@@ -1,141 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-/* DO NOT EDIT THIS FILE - it is machine generated */
-#include <jni.h>
-/* Header for class org_apache_arrow_plasma_PlasmaClientJNI */
-
-#ifndef _Included_org_apache_arrow_plasma_PlasmaClientJNI
-#define _Included_org_apache_arrow_plasma_PlasmaClientJNI
-#ifdef __cplusplus
-extern "C" {
-#endif
-/*
- * Class:     org_apache_arrow_plasma_PlasmaClientJNI
- * Method:    connect
- * Signature: (Ljava/lang/String;Ljava/lang/String;I)J
- */
-JNIEXPORT jlong JNICALL Java_org_apache_arrow_plasma_PlasmaClientJNI_connect(
-    JNIEnv*, jclass, jstring, jstring, jint);
-
-/*
- * Class:     org_apache_arrow_plasma_PlasmaClientJNI
- * Method:    disconnect
- * Signature: (J)V
- */
-JNIEXPORT void JNICALL Java_org_apache_arrow_plasma_PlasmaClientJNI_disconnect(JNIEnv*,
-                                                                               jclass,
-                                                                               jlong);
-
-/*
- * Class:     org_apache_arrow_plasma_PlasmaClientJNI
- * Method:    create
- * Signature: (J[BI[B)Ljava/nio/ByteBuffer;
- */
-JNIEXPORT jobject JNICALL Java_org_apache_arrow_plasma_PlasmaClientJNI_create(
-    JNIEnv*, jclass, jlong, jbyteArray, jint, jbyteArray);
-
-/*
- * Class:     org_apache_arrow_plasma_PlasmaClientJNI
- * Method:    hash
- * Signature: (J[B)[B
- */
-JNIEXPORT jbyteArray JNICALL
-Java_org_apache_arrow_plasma_PlasmaClientJNI_hash(JNIEnv*, jclass, jlong, jbyteArray);
-
-/*
- * Class:     org_apache_arrow_plasma_PlasmaClientJNI
- * Method:    seal
- * Signature: (J[B)V
- */
-JNIEXPORT void JNICALL Java_org_apache_arrow_plasma_PlasmaClientJNI_seal(JNIEnv*, jclass,
-                                                                         jlong,
-                                                                         jbyteArray);
-
-/*
- * Class:     org_apache_arrow_plasma_PlasmaClientJNI
- * Method:    release
- * Signature: (J[B)V
- */
-JNIEXPORT void JNICALL Java_org_apache_arrow_plasma_PlasmaClientJNI_release(JNIEnv*,
-                                                                            jclass, jlong,
-                                                                            jbyteArray);
-
-/*
- * Class:     org_apache_arrow_plasma_PlasmaClientJNI
- * Method:    delete
- * Signature: (J[B)V
- */
-JNIEXPORT void JNICALL Java_org_apache_arrow_plasma_PlasmaClientJNI_delete(JNIEnv*,
-                                                                           jclass, jlong,
-                                                                           jbyteArray);
-
-/*
- * Class:     org_apache_arrow_plasma_PlasmaClientJNI
- * Method:    get
- * Signature: (J[[BI)[[Ljava/nio/ByteBuffer;
- */
-JNIEXPORT jobjectArray JNICALL Java_org_apache_arrow_plasma_PlasmaClientJNI_get(
-    JNIEnv*, jclass, jlong, jobjectArray, jint);
-
-/*
- * Class:     org_apache_arrow_plasma_PlasmaClientJNI
- * Method:    contains
- * Signature: (J[B)Z
- */
-JNIEXPORT jboolean JNICALL
-Java_org_apache_arrow_plasma_PlasmaClientJNI_contains(JNIEnv*, jclass, jlong, jbyteArray);
-
-/*
- * Class:     org_apache_arrow_plasma_PlasmaClientJNI
- * Method:    fetch
- * Signature: (J[[B)V
- */
-JNIEXPORT void JNICALL Java_org_apache_arrow_plasma_PlasmaClientJNI_fetch(JNIEnv*, jclass,
-                                                                          jlong,
-                                                                          jobjectArray);
-
-/*
- * Class:     org_apache_arrow_plasma_PlasmaClientJNI
- * Method:    wait
- * Signature: (J[[BII)[[B
- */
-JNIEXPORT jobjectArray JNICALL Java_org_apache_arrow_plasma_PlasmaClientJNI_wait(
-    JNIEnv*, jclass, jlong, jobjectArray, jint, jint);
-
-/*
- * Class:     org_apache_arrow_plasma_PlasmaClientJNI
- * Method:    evict
- * Signature: (JJ)J
- */
-JNIEXPORT jlong JNICALL Java_org_apache_arrow_plasma_PlasmaClientJNI_evict(JNIEnv*,
-                                                                           jclass, jlong,
-                                                                           jlong);
-
-/*
- * Class:     org_apache_arrow_plasma_PlasmaClientJNI
- * Method:    list
- * Signature: (J)[[B
- */
-JNIEXPORT jobjectArray JNICALL Java_org_apache_arrow_plasma_PlasmaClientJNI_list(JNIEnv*,
-                                                                                 jclass,
-                                                                                 jlong);
-
-#ifdef __cplusplus
-}
-#endif
-#endif
diff --git a/cpp/src/plasma/plasma_generated.h b/cpp/src/plasma/plasma_generated.h
index 340f043bc83..99e1849e6fd 100644
--- a/cpp/src/plasma/plasma_generated.h
+++ b/cpp/src/plasma/plasma_generated.h
@@ -339,8 +339,17 @@ FLATBUFFERS_MANUALLY_ALIGNED_STRUCT(8) PlasmaObjectSpec FLATBUFFERS_FINAL_CLASS
   int32_t padding1__;
 
  public:
-  PlasmaObjectSpec() {
-    memset(static_cast<void *>(this), 0, sizeof(PlasmaObjectSpec));
+  PlasmaObjectSpec()
+      : segment_index_(0),
+        padding0__(0),
+        data_offset_(0),
+        data_size_(0),
+        metadata_offset_(0),
+        metadata_size_(0),
+        device_num_(0),
+        padding1__(0) {
+    (void)padding0__;
+    (void)padding1__;
   }
   PlasmaObjectSpec(int32_t _segment_index, uint64_t _data_offset, uint64_t _data_size, uint64_t _metadata_offset, uint64_t _metadata_size, int32_t _device_num)
       : segment_index_(flatbuffers::EndianScalar(_segment_index)),
@@ -351,8 +360,6 @@ FLATBUFFERS_MANUALLY_ALIGNED_STRUCT(8) PlasmaObjectSpec FLATBUFFERS_FINAL_CLASS
         metadata_size_(flatbuffers::EndianScalar(_metadata_size)),
         device_num_(flatbuffers::EndianScalar(_device_num)),
         padding1__(0) {
-    (void)padding0__;
-    (void)padding1__;
   }
   int32_t segment_index() const {
     return flatbuffers::EndianScalar(segment_index_);
@@ -377,11 +384,8 @@ FLATBUFFERS_STRUCT_END(PlasmaObjectSpec, 48);
 
 struct PlasmaSetOptionsRequestT : public flatbuffers::NativeTable {
   typedef PlasmaSetOptionsRequest TableType;
-  std::string client_name;
-  int64_t output_memory_quota;
-  PlasmaSetOptionsRequestT()
-      : output_memory_quota(0) {
-  }
+  std::string client_name{};
+  int64_t output_memory_quota = 0;
 };
 
 struct PlasmaSetOptionsRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -423,7 +427,6 @@ struct PlasmaSetOptionsRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaSetOptionsRequestBuilder &operator=(const PlasmaSetOptionsRequestBuilder &);
   flatbuffers::Offset<PlasmaSetOptionsRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaSetOptionsRequest>(end);
@@ -456,10 +459,7 @@ flatbuffers::Offset<PlasmaSetOptionsRequest> CreatePlasmaSetOptionsRequest(flatb
 
 struct PlasmaSetOptionsReplyT : public flatbuffers::NativeTable {
   typedef PlasmaSetOptionsReply TableType;
-  plasma::flatbuf::PlasmaError error;
-  PlasmaSetOptionsReplyT()
-      : error(plasma::flatbuf::PlasmaError::OK) {
-  }
+  plasma::flatbuf::PlasmaError error = plasma::flatbuf::PlasmaError::OK;
 };
 
 struct PlasmaSetOptionsReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -492,7 +492,6 @@ struct PlasmaSetOptionsReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaSetOptionsReplyBuilder &operator=(const PlasmaSetOptionsReplyBuilder &);
   flatbuffers::Offset<PlasmaSetOptionsReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaSetOptionsReply>(end);
@@ -512,8 +511,6 @@ flatbuffers::Offset<PlasmaSetOptionsReply> CreatePlasmaSetOptionsReply(flatbuffe
 
 struct PlasmaGetDebugStringRequestT : public flatbuffers::NativeTable {
   typedef PlasmaGetDebugStringRequest TableType;
-  PlasmaGetDebugStringRequestT() {
-  }
 };
 
 struct PlasmaGetDebugStringRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -536,7 +533,6 @@ struct PlasmaGetDebugStringRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaGetDebugStringRequestBuilder &operator=(const PlasmaGetDebugStringRequestBuilder &);
   flatbuffers::Offset<PlasmaGetDebugStringRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaGetDebugStringRequest>(end);
@@ -554,9 +550,7 @@ flatbuffers::Offset<PlasmaGetDebugStringRequest> CreatePlasmaGetDebugStringReque
 
 struct PlasmaGetDebugStringReplyT : public flatbuffers::NativeTable {
   typedef PlasmaGetDebugStringReply TableType;
-  std::string debug_string;
-  PlasmaGetDebugStringReplyT() {
-  }
+  std::string debug_string{};
 };
 
 struct PlasmaGetDebugStringReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -590,7 +584,6 @@ struct PlasmaGetDebugStringReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaGetDebugStringReplyBuilder &operator=(const PlasmaGetDebugStringReplyBuilder &);
   flatbuffers::Offset<PlasmaGetDebugStringReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaGetDebugStringReply>(end);
@@ -619,17 +612,11 @@ flatbuffers::Offset<PlasmaGetDebugStringReply> CreatePlasmaGetDebugStringReply(f
 
 struct PlasmaCreateRequestT : public flatbuffers::NativeTable {
   typedef PlasmaCreateRequest TableType;
-  std::string object_id;
-  bool evict_if_full;
-  uint64_t data_size;
-  uint64_t metadata_size;
-  int32_t device_num;
-  PlasmaCreateRequestT()
-      : evict_if_full(false),
-        data_size(0),
-        metadata_size(0),
-        device_num(0) {
-  }
+  std::string object_id{};
+  bool evict_if_full = false;
+  uint64_t data_size = 0;
+  uint64_t metadata_size = 0;
+  int32_t device_num = 0;
 };
 
 struct PlasmaCreateRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -695,7 +682,6 @@ struct PlasmaCreateRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaCreateRequestBuilder &operator=(const PlasmaCreateRequestBuilder &);
   flatbuffers::Offset<PlasmaCreateRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaCreateRequest>(end);
@@ -740,9 +726,7 @@ flatbuffers::Offset<PlasmaCreateRequest> CreatePlasmaCreateRequest(flatbuffers::
 
 struct CudaHandleT : public flatbuffers::NativeTable {
   typedef CudaHandle TableType;
-  std::vector<uint8_t> handle;
-  CudaHandleT() {
-  }
+  std::vector<uint8_t> handle{};
 };
 
 struct CudaHandle FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -776,7 +760,6 @@ struct CudaHandleBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  CudaHandleBuilder &operator=(const CudaHandleBuilder &);
   flatbuffers::Offset<CudaHandle> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<CudaHandle>(end);
@@ -805,17 +788,12 @@ flatbuffers::Offset<CudaHandle> CreateCudaHandle(flatbuffers::FlatBufferBuilder
 
 struct PlasmaCreateReplyT : public flatbuffers::NativeTable {
   typedef PlasmaCreateReply TableType;
-  std::string object_id;
-  std::unique_ptr<plasma::flatbuf::PlasmaObjectSpec> plasma_object;
-  plasma::flatbuf::PlasmaError error;
-  int32_t store_fd;
-  int64_t mmap_size;
-  std::unique_ptr<plasma::flatbuf::CudaHandleT> ipc_handle;
-  PlasmaCreateReplyT()
-      : error(plasma::flatbuf::PlasmaError::OK),
-        store_fd(0),
-        mmap_size(0) {
-  }
+  std::string object_id{};
+  std::unique_ptr<plasma::flatbuf::PlasmaObjectSpec> plasma_object{};
+  plasma::flatbuf::PlasmaError error = plasma::flatbuf::PlasmaError::OK;
+  int32_t store_fd = 0;
+  int64_t mmap_size = 0;
+  std::unique_ptr<plasma::flatbuf::CudaHandleT> ipc_handle{};
 };
 
 struct PlasmaCreateReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -890,7 +868,6 @@ struct PlasmaCreateReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaCreateReplyBuilder &operator=(const PlasmaCreateReplyBuilder &);
   flatbuffers::Offset<PlasmaCreateReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaCreateReply>(end);
@@ -939,14 +916,11 @@ flatbuffers::Offset<PlasmaCreateReply> CreatePlasmaCreateReply(flatbuffers::Flat
 
 struct PlasmaCreateAndSealRequestT : public flatbuffers::NativeTable {
   typedef PlasmaCreateAndSealRequest TableType;
-  std::string object_id;
-  bool evict_if_full;
-  std::string data;
-  std::string metadata;
-  std::string digest;
-  PlasmaCreateAndSealRequestT()
-      : evict_if_full(false) {
-  }
+  std::string object_id{};
+  bool evict_if_full = false;
+  std::string data{};
+  std::string metadata{};
+  std::string digest{};
 };
 
 struct PlasmaCreateAndSealRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -1015,7 +989,6 @@ struct PlasmaCreateAndSealRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaCreateAndSealRequestBuilder &operator=(const PlasmaCreateAndSealRequestBuilder &);
   flatbuffers::Offset<PlasmaCreateAndSealRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaCreateAndSealRequest>(end);
@@ -1063,10 +1036,7 @@ flatbuffers::Offset<PlasmaCreateAndSealRequest> CreatePlasmaCreateAndSealRequest
 
 struct PlasmaCreateAndSealReplyT : public flatbuffers::NativeTable {
   typedef PlasmaCreateAndSealReply TableType;
-  plasma::flatbuf::PlasmaError error;
-  PlasmaCreateAndSealReplyT()
-      : error(plasma::flatbuf::PlasmaError::OK) {
-  }
+  plasma::flatbuf::PlasmaError error = plasma::flatbuf::PlasmaError::OK;
 };
 
 struct PlasmaCreateAndSealReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -1099,7 +1069,6 @@ struct PlasmaCreateAndSealReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaCreateAndSealReplyBuilder &operator=(const PlasmaCreateAndSealReplyBuilder &);
   flatbuffers::Offset<PlasmaCreateAndSealReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaCreateAndSealReply>(end);
@@ -1119,14 +1088,11 @@ flatbuffers::Offset<PlasmaCreateAndSealReply> CreatePlasmaCreateAndSealReply(fla
 
 struct PlasmaCreateAndSealBatchRequestT : public flatbuffers::NativeTable {
   typedef PlasmaCreateAndSealBatchRequest TableType;
-  std::vector<std::string> object_ids;
-  bool evict_if_full;
-  std::vector<std::string> data;
-  std::vector<std::string> metadata;
-  std::vector<std::string> digest;
-  PlasmaCreateAndSealBatchRequestT()
-      : evict_if_full(false) {
-  }
+  std::vector<std::string> object_ids{};
+  bool evict_if_full = false;
+  std::vector<std::string> data{};
+  std::vector<std::string> metadata{};
+  std::vector<std::string> digest{};
 };
 
 struct PlasmaCreateAndSealBatchRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -1199,7 +1165,6 @@ struct PlasmaCreateAndSealBatchRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaCreateAndSealBatchRequestBuilder &operator=(const PlasmaCreateAndSealBatchRequestBuilder &);
   flatbuffers::Offset<PlasmaCreateAndSealBatchRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaCreateAndSealBatchRequest>(end);
@@ -1247,10 +1212,7 @@ flatbuffers::Offset<PlasmaCreateAndSealBatchRequest> CreatePlasmaCreateAndSealBa
 
 struct PlasmaCreateAndSealBatchReplyT : public flatbuffers::NativeTable {
   typedef PlasmaCreateAndSealBatchReply TableType;
-  plasma::flatbuf::PlasmaError error;
-  PlasmaCreateAndSealBatchReplyT()
-      : error(plasma::flatbuf::PlasmaError::OK) {
-  }
+  plasma::flatbuf::PlasmaError error = plasma::flatbuf::PlasmaError::OK;
 };
 
 struct PlasmaCreateAndSealBatchReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -1283,7 +1245,6 @@ struct PlasmaCreateAndSealBatchReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaCreateAndSealBatchReplyBuilder &operator=(const PlasmaCreateAndSealBatchReplyBuilder &);
   flatbuffers::Offset<PlasmaCreateAndSealBatchReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaCreateAndSealBatchReply>(end);
@@ -1303,9 +1264,7 @@ flatbuffers::Offset<PlasmaCreateAndSealBatchReply> CreatePlasmaCreateAndSealBatc
 
 struct PlasmaAbortRequestT : public flatbuffers::NativeTable {
   typedef PlasmaAbortRequest TableType;
-  std::string object_id;
-  PlasmaAbortRequestT() {
-  }
+  std::string object_id{};
 };
 
 struct PlasmaAbortRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -1339,7 +1298,6 @@ struct PlasmaAbortRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaAbortRequestBuilder &operator=(const PlasmaAbortRequestBuilder &);
   flatbuffers::Offset<PlasmaAbortRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaAbortRequest>(end);
@@ -1368,9 +1326,7 @@ flatbuffers::Offset<PlasmaAbortRequest> CreatePlasmaAbortRequest(flatbuffers::Fl
 
 struct PlasmaAbortReplyT : public flatbuffers::NativeTable {
   typedef PlasmaAbortReply TableType;
-  std::string object_id;
-  PlasmaAbortReplyT() {
-  }
+  std::string object_id{};
 };
 
 struct PlasmaAbortReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -1404,7 +1360,6 @@ struct PlasmaAbortReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaAbortReplyBuilder &operator=(const PlasmaAbortReplyBuilder &);
   flatbuffers::Offset<PlasmaAbortReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaAbortReply>(end);
@@ -1433,10 +1388,8 @@ flatbuffers::Offset<PlasmaAbortReply> CreatePlasmaAbortReply(flatbuffers::FlatBu
 
 struct PlasmaSealRequestT : public flatbuffers::NativeTable {
   typedef PlasmaSealRequest TableType;
-  std::string object_id;
-  std::string digest;
-  PlasmaSealRequestT() {
-  }
+  std::string object_id{};
+  std::string digest{};
 };
 
 struct PlasmaSealRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -1479,7 +1432,6 @@ struct PlasmaSealRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaSealRequestBuilder &operator=(const PlasmaSealRequestBuilder &);
   flatbuffers::Offset<PlasmaSealRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaSealRequest>(end);
@@ -1513,11 +1465,8 @@ flatbuffers::Offset<PlasmaSealRequest> CreatePlasmaSealRequest(flatbuffers::Flat
 
 struct PlasmaSealReplyT : public flatbuffers::NativeTable {
   typedef PlasmaSealReply TableType;
-  std::string object_id;
-  plasma::flatbuf::PlasmaError error;
-  PlasmaSealReplyT()
-      : error(plasma::flatbuf::PlasmaError::OK) {
-  }
+  std::string object_id{};
+  plasma::flatbuf::PlasmaError error = plasma::flatbuf::PlasmaError::OK;
 };
 
 struct PlasmaSealReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -1559,7 +1508,6 @@ struct PlasmaSealReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaSealReplyBuilder &operator=(const PlasmaSealReplyBuilder &);
   flatbuffers::Offset<PlasmaSealReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaSealReply>(end);
@@ -1592,11 +1540,8 @@ flatbuffers::Offset<PlasmaSealReply> CreatePlasmaSealReply(flatbuffers::FlatBuff
 
 struct PlasmaGetRequestT : public flatbuffers::NativeTable {
   typedef PlasmaGetRequest TableType;
-  std::vector<std::string> object_ids;
-  int64_t timeout_ms;
-  PlasmaGetRequestT()
-      : timeout_ms(0) {
-  }
+  std::vector<std::string> object_ids{};
+  int64_t timeout_ms = 0;
 };
 
 struct PlasmaGetRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -1639,7 +1584,6 @@ struct PlasmaGetRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaGetRequestBuilder &operator=(const PlasmaGetRequestBuilder &);
   flatbuffers::Offset<PlasmaGetRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaGetRequest>(end);
@@ -1672,13 +1616,11 @@ flatbuffers::Offset<PlasmaGetRequest> CreatePlasmaGetRequest(flatbuffers::FlatBu
 
 struct PlasmaGetReplyT : public flatbuffers::NativeTable {
   typedef PlasmaGetReply TableType;
-  std::vector<std::string> object_ids;
-  std::vector<plasma::flatbuf::PlasmaObjectSpec> plasma_objects;
-  std::vector<int32_t> store_fds;
-  std::vector<int64_t> mmap_sizes;
-  std::vector<std::unique_ptr<plasma::flatbuf::CudaHandleT>> handles;
-  PlasmaGetReplyT() {
-  }
+  std::vector<std::string> object_ids{};
+  std::vector<plasma::flatbuf::PlasmaObjectSpec> plasma_objects{};
+  std::vector<int32_t> store_fds{};
+  std::vector<int64_t> mmap_sizes{};
+  std::vector<std::unique_ptr<plasma::flatbuf::CudaHandleT>> handles{};
 };
 
 struct PlasmaGetReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -1750,7 +1692,6 @@ struct PlasmaGetReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaGetReplyBuilder &operator=(const PlasmaGetReplyBuilder &);
   flatbuffers::Offset<PlasmaGetReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaGetReply>(end);
@@ -1799,9 +1740,7 @@ flatbuffers::Offset<PlasmaGetReply> CreatePlasmaGetReply(flatbuffers::FlatBuffer
 
 struct PlasmaReleaseRequestT : public flatbuffers::NativeTable {
   typedef PlasmaReleaseRequest TableType;
-  std::string object_id;
-  PlasmaReleaseRequestT() {
-  }
+  std::string object_id{};
 };
 
 struct PlasmaReleaseRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -1835,7 +1774,6 @@ struct PlasmaReleaseRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaReleaseRequestBuilder &operator=(const PlasmaReleaseRequestBuilder &);
   flatbuffers::Offset<PlasmaReleaseRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaReleaseRequest>(end);
@@ -1864,11 +1802,8 @@ flatbuffers::Offset<PlasmaReleaseRequest> CreatePlasmaReleaseRequest(flatbuffers
 
 struct PlasmaReleaseReplyT : public flatbuffers::NativeTable {
   typedef PlasmaReleaseReply TableType;
-  std::string object_id;
-  plasma::flatbuf::PlasmaError error;
-  PlasmaReleaseReplyT()
-      : error(plasma::flatbuf::PlasmaError::OK) {
-  }
+  std::string object_id{};
+  plasma::flatbuf::PlasmaError error = plasma::flatbuf::PlasmaError::OK;
 };
 
 struct PlasmaReleaseReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -1910,7 +1845,6 @@ struct PlasmaReleaseReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaReleaseReplyBuilder &operator=(const PlasmaReleaseReplyBuilder &);
   flatbuffers::Offset<PlasmaReleaseReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaReleaseReply>(end);
@@ -1943,11 +1877,8 @@ flatbuffers::Offset<PlasmaReleaseReply> CreatePlasmaReleaseReply(flatbuffers::Fl
 
 struct PlasmaDeleteRequestT : public flatbuffers::NativeTable {
   typedef PlasmaDeleteRequest TableType;
-  int32_t count;
-  std::vector<std::string> object_ids;
-  PlasmaDeleteRequestT()
-      : count(0) {
-  }
+  int32_t count = 0;
+  std::vector<std::string> object_ids{};
 };
 
 struct PlasmaDeleteRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -1990,7 +1921,6 @@ struct PlasmaDeleteRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaDeleteRequestBuilder &operator=(const PlasmaDeleteRequestBuilder &);
   flatbuffers::Offset<PlasmaDeleteRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaDeleteRequest>(end);
@@ -2023,12 +1953,9 @@ flatbuffers::Offset<PlasmaDeleteRequest> CreatePlasmaDeleteRequest(flatbuffers::
 
 struct PlasmaDeleteReplyT : public flatbuffers::NativeTable {
   typedef PlasmaDeleteReply TableType;
-  int32_t count;
-  std::vector<std::string> object_ids;
-  std::vector<plasma::flatbuf::PlasmaError> errors;
-  PlasmaDeleteReplyT()
-      : count(0) {
-  }
+  int32_t count = 0;
+  std::vector<std::string> object_ids{};
+  std::vector<plasma::flatbuf::PlasmaError> errors{};
 };
 
 struct PlasmaDeleteReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2080,7 +2007,6 @@ struct PlasmaDeleteReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaDeleteReplyBuilder &operator=(const PlasmaDeleteReplyBuilder &);
   flatbuffers::Offset<PlasmaDeleteReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaDeleteReply>(end);
@@ -2118,9 +2044,7 @@ flatbuffers::Offset<PlasmaDeleteReply> CreatePlasmaDeleteReply(flatbuffers::Flat
 
 struct PlasmaContainsRequestT : public flatbuffers::NativeTable {
   typedef PlasmaContainsRequest TableType;
-  std::string object_id;
-  PlasmaContainsRequestT() {
-  }
+  std::string object_id{};
 };
 
 struct PlasmaContainsRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2154,7 +2078,6 @@ struct PlasmaContainsRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaContainsRequestBuilder &operator=(const PlasmaContainsRequestBuilder &);
   flatbuffers::Offset<PlasmaContainsRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaContainsRequest>(end);
@@ -2183,11 +2106,8 @@ flatbuffers::Offset<PlasmaContainsRequest> CreatePlasmaContainsRequest(flatbuffe
 
 struct PlasmaContainsReplyT : public flatbuffers::NativeTable {
   typedef PlasmaContainsReply TableType;
-  std::string object_id;
-  int32_t has_object;
-  PlasmaContainsReplyT()
-      : has_object(0) {
-  }
+  std::string object_id{};
+  int32_t has_object = 0;
 };
 
 struct PlasmaContainsReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2229,7 +2149,6 @@ struct PlasmaContainsReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaContainsReplyBuilder &operator=(const PlasmaContainsReplyBuilder &);
   flatbuffers::Offset<PlasmaContainsReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaContainsReply>(end);
@@ -2262,8 +2181,6 @@ flatbuffers::Offset<PlasmaContainsReply> CreatePlasmaContainsReply(flatbuffers::
 
 struct PlasmaListRequestT : public flatbuffers::NativeTable {
   typedef PlasmaListRequest TableType;
-  PlasmaListRequestT() {
-  }
 };
 
 struct PlasmaListRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2286,7 +2203,6 @@ struct PlasmaListRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaListRequestBuilder &operator=(const PlasmaListRequestBuilder &);
   flatbuffers::Offset<PlasmaListRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaListRequest>(end);
@@ -2304,9 +2220,7 @@ flatbuffers::Offset<PlasmaListRequest> CreatePlasmaListRequest(flatbuffers::Flat
 
 struct PlasmaListReplyT : public flatbuffers::NativeTable {
   typedef PlasmaListReply TableType;
-  std::vector<std::unique_ptr<plasma::flatbuf::ObjectInfoT>> objects;
-  PlasmaListReplyT() {
-  }
+  std::vector<std::unique_ptr<plasma::flatbuf::ObjectInfoT>> objects{};
 };
 
 struct PlasmaListReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2341,7 +2255,6 @@ struct PlasmaListReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaListReplyBuilder &operator=(const PlasmaListReplyBuilder &);
   flatbuffers::Offset<PlasmaListReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaListReply>(end);
@@ -2370,8 +2283,6 @@ flatbuffers::Offset<PlasmaListReply> CreatePlasmaListReply(flatbuffers::FlatBuff
 
 struct PlasmaConnectRequestT : public flatbuffers::NativeTable {
   typedef PlasmaConnectRequest TableType;
-  PlasmaConnectRequestT() {
-  }
 };
 
 struct PlasmaConnectRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2394,7 +2305,6 @@ struct PlasmaConnectRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaConnectRequestBuilder &operator=(const PlasmaConnectRequestBuilder &);
   flatbuffers::Offset<PlasmaConnectRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaConnectRequest>(end);
@@ -2412,10 +2322,7 @@ flatbuffers::Offset<PlasmaConnectRequest> CreatePlasmaConnectRequest(flatbuffers
 
 struct PlasmaConnectReplyT : public flatbuffers::NativeTable {
   typedef PlasmaConnectReply TableType;
-  int64_t memory_capacity;
-  PlasmaConnectReplyT()
-      : memory_capacity(0) {
-  }
+  int64_t memory_capacity = 0;
 };
 
 struct PlasmaConnectReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2448,7 +2355,6 @@ struct PlasmaConnectReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaConnectReplyBuilder &operator=(const PlasmaConnectReplyBuilder &);
   flatbuffers::Offset<PlasmaConnectReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaConnectReply>(end);
@@ -2468,10 +2374,7 @@ flatbuffers::Offset<PlasmaConnectReply> CreatePlasmaConnectReply(flatbuffers::Fl
 
 struct PlasmaEvictRequestT : public flatbuffers::NativeTable {
   typedef PlasmaEvictRequest TableType;
-  uint64_t num_bytes;
-  PlasmaEvictRequestT()
-      : num_bytes(0) {
-  }
+  uint64_t num_bytes = 0;
 };
 
 struct PlasmaEvictRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2504,7 +2407,6 @@ struct PlasmaEvictRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaEvictRequestBuilder &operator=(const PlasmaEvictRequestBuilder &);
   flatbuffers::Offset<PlasmaEvictRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaEvictRequest>(end);
@@ -2524,10 +2426,7 @@ flatbuffers::Offset<PlasmaEvictRequest> CreatePlasmaEvictRequest(flatbuffers::Fl
 
 struct PlasmaEvictReplyT : public flatbuffers::NativeTable {
   typedef PlasmaEvictReply TableType;
-  uint64_t num_bytes;
-  PlasmaEvictReplyT()
-      : num_bytes(0) {
-  }
+  uint64_t num_bytes = 0;
 };
 
 struct PlasmaEvictReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2560,7 +2459,6 @@ struct PlasmaEvictReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaEvictReplyBuilder &operator=(const PlasmaEvictReplyBuilder &);
   flatbuffers::Offset<PlasmaEvictReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaEvictReply>(end);
@@ -2580,8 +2478,6 @@ flatbuffers::Offset<PlasmaEvictReply> CreatePlasmaEvictReply(flatbuffers::FlatBu
 
 struct PlasmaSubscribeRequestT : public flatbuffers::NativeTable {
   typedef PlasmaSubscribeRequest TableType;
-  PlasmaSubscribeRequestT() {
-  }
 };
 
 struct PlasmaSubscribeRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2604,7 +2500,6 @@ struct PlasmaSubscribeRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaSubscribeRequestBuilder &operator=(const PlasmaSubscribeRequestBuilder &);
   flatbuffers::Offset<PlasmaSubscribeRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaSubscribeRequest>(end);
@@ -2622,9 +2517,7 @@ flatbuffers::Offset<PlasmaSubscribeRequest> CreatePlasmaSubscribeRequest(flatbuf
 
 struct PlasmaNotificationT : public flatbuffers::NativeTable {
   typedef PlasmaNotification TableType;
-  std::vector<std::unique_ptr<plasma::flatbuf::ObjectInfoT>> object_info;
-  PlasmaNotificationT() {
-  }
+  std::vector<std::unique_ptr<plasma::flatbuf::ObjectInfoT>> object_info{};
 };
 
 struct PlasmaNotification FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2659,7 +2552,6 @@ struct PlasmaNotificationBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaNotificationBuilder &operator=(const PlasmaNotificationBuilder &);
   flatbuffers::Offset<PlasmaNotification> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaNotification>(end);
@@ -2688,12 +2580,9 @@ flatbuffers::Offset<PlasmaNotification> CreatePlasmaNotification(flatbuffers::Fl
 
 struct PlasmaDataRequestT : public flatbuffers::NativeTable {
   typedef PlasmaDataRequest TableType;
-  std::string object_id;
-  std::string address;
-  int32_t port;
-  PlasmaDataRequestT()
-      : port(0) {
-  }
+  std::string object_id{};
+  std::string address{};
+  int32_t port = 0;
 };
 
 struct PlasmaDataRequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2744,7 +2633,6 @@ struct PlasmaDataRequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaDataRequestBuilder &operator=(const PlasmaDataRequestBuilder &);
   flatbuffers::Offset<PlasmaDataRequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaDataRequest>(end);
@@ -2782,13 +2670,9 @@ flatbuffers::Offset<PlasmaDataRequest> CreatePlasmaDataRequest(flatbuffers::Flat
 
 struct PlasmaDataReplyT : public flatbuffers::NativeTable {
   typedef PlasmaDataReply TableType;
-  std::string object_id;
-  uint64_t object_size;
-  uint64_t metadata_size;
-  PlasmaDataReplyT()
-      : object_size(0),
-        metadata_size(0) {
-  }
+  std::string object_id{};
+  uint64_t object_size = 0;
+  uint64_t metadata_size = 0;
 };
 
 struct PlasmaDataReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2838,7 +2722,6 @@ struct PlasmaDataReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaDataReplyBuilder &operator=(const PlasmaDataReplyBuilder &);
   flatbuffers::Offset<PlasmaDataReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaDataReply>(end);
@@ -2875,9 +2758,7 @@ flatbuffers::Offset<PlasmaDataReply> CreatePlasmaDataReply(flatbuffers::FlatBuff
 
 struct PlasmaRefreshLRURequestT : public flatbuffers::NativeTable {
   typedef PlasmaRefreshLRURequest TableType;
-  std::vector<std::string> object_ids;
-  PlasmaRefreshLRURequestT() {
-  }
+  std::vector<std::string> object_ids{};
 };
 
 struct PlasmaRefreshLRURequest FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2912,7 +2793,6 @@ struct PlasmaRefreshLRURequestBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaRefreshLRURequestBuilder &operator=(const PlasmaRefreshLRURequestBuilder &);
   flatbuffers::Offset<PlasmaRefreshLRURequest> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaRefreshLRURequest>(end);
@@ -2941,8 +2821,6 @@ flatbuffers::Offset<PlasmaRefreshLRURequest> CreatePlasmaRefreshLRURequest(flatb
 
 struct PlasmaRefreshLRUReplyT : public flatbuffers::NativeTable {
   typedef PlasmaRefreshLRUReply TableType;
-  PlasmaRefreshLRUReplyT() {
-  }
 };
 
 struct PlasmaRefreshLRUReply FLATBUFFERS_FINAL_CLASS : private flatbuffers::Table {
@@ -2965,7 +2843,6 @@ struct PlasmaRefreshLRUReplyBuilder {
         : fbb_(_fbb) {
     start_ = fbb_.StartTable();
   }
-  PlasmaRefreshLRUReplyBuilder &operator=(const PlasmaRefreshLRUReplyBuilder &);
   flatbuffers::Offset<PlasmaRefreshLRUReply> Finish() {
     const auto end = fbb_.EndTable(start_);
     auto o = flatbuffers::Offset<PlasmaRefreshLRUReply>(end);
@@ -2982,7 +2859,7 @@ inline flatbuffers::Offset<PlasmaRefreshLRUReply> CreatePlasmaRefreshLRUReply(
 flatbuffers::Offset<PlasmaRefreshLRUReply> CreatePlasmaRefreshLRUReply(flatbuffers::FlatBufferBuilder &_fbb, const PlasmaRefreshLRUReplyT *_o, const flatbuffers::rehasher_function_t *_rehasher = nullptr);
 
 inline PlasmaSetOptionsRequestT *PlasmaSetOptionsRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaSetOptionsRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaSetOptionsRequestT>(new PlasmaSetOptionsRequestT());
+  auto _o = std::unique_ptr<PlasmaSetOptionsRequestT>(new PlasmaSetOptionsRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3011,7 +2888,7 @@ inline flatbuffers::Offset<PlasmaSetOptionsRequest> CreatePlasmaSetOptionsReques
 }
 
 inline PlasmaSetOptionsReplyT *PlasmaSetOptionsReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaSetOptionsReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaSetOptionsReplyT>(new PlasmaSetOptionsReplyT());
+  auto _o = std::unique_ptr<PlasmaSetOptionsReplyT>(new PlasmaSetOptionsReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3037,7 +2914,7 @@ inline flatbuffers::Offset<PlasmaSetOptionsReply> CreatePlasmaSetOptionsReply(fl
 }
 
 inline PlasmaGetDebugStringRequestT *PlasmaGetDebugStringRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaGetDebugStringRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaGetDebugStringRequestT>(new PlasmaGetDebugStringRequestT());
+  auto _o = std::unique_ptr<PlasmaGetDebugStringRequestT>(new PlasmaGetDebugStringRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3060,7 +2937,7 @@ inline flatbuffers::Offset<PlasmaGetDebugStringRequest> CreatePlasmaGetDebugStri
 }
 
 inline PlasmaGetDebugStringReplyT *PlasmaGetDebugStringReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaGetDebugStringReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaGetDebugStringReplyT>(new PlasmaGetDebugStringReplyT());
+  auto _o = std::unique_ptr<PlasmaGetDebugStringReplyT>(new PlasmaGetDebugStringReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3086,7 +2963,7 @@ inline flatbuffers::Offset<PlasmaGetDebugStringReply> CreatePlasmaGetDebugString
 }
 
 inline PlasmaCreateRequestT *PlasmaCreateRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaCreateRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaCreateRequestT>(new PlasmaCreateRequestT());
+  auto _o = std::unique_ptr<PlasmaCreateRequestT>(new PlasmaCreateRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3124,7 +3001,7 @@ inline flatbuffers::Offset<PlasmaCreateRequest> CreatePlasmaCreateRequest(flatbu
 }
 
 inline CudaHandleT *CudaHandle::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::CudaHandleT> _o = std::unique_ptr<plasma::flatbuf::CudaHandleT>(new CudaHandleT());
+  auto _o = std::unique_ptr<CudaHandleT>(new CudaHandleT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3150,7 +3027,7 @@ inline flatbuffers::Offset<CudaHandle> CreateCudaHandle(flatbuffers::FlatBufferB
 }
 
 inline PlasmaCreateReplyT *PlasmaCreateReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaCreateReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaCreateReplyT>(new PlasmaCreateReplyT());
+  auto _o = std::unique_ptr<PlasmaCreateReplyT>(new PlasmaCreateReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3191,7 +3068,7 @@ inline flatbuffers::Offset<PlasmaCreateReply> CreatePlasmaCreateReply(flatbuffer
 }
 
 inline PlasmaCreateAndSealRequestT *PlasmaCreateAndSealRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaCreateAndSealRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaCreateAndSealRequestT>(new PlasmaCreateAndSealRequestT());
+  auto _o = std::unique_ptr<PlasmaCreateAndSealRequestT>(new PlasmaCreateAndSealRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3229,7 +3106,7 @@ inline flatbuffers::Offset<PlasmaCreateAndSealRequest> CreatePlasmaCreateAndSeal
 }
 
 inline PlasmaCreateAndSealReplyT *PlasmaCreateAndSealReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaCreateAndSealReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaCreateAndSealReplyT>(new PlasmaCreateAndSealReplyT());
+  auto _o = std::unique_ptr<PlasmaCreateAndSealReplyT>(new PlasmaCreateAndSealReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3255,7 +3132,7 @@ inline flatbuffers::Offset<PlasmaCreateAndSealReply> CreatePlasmaCreateAndSealRe
 }
 
 inline PlasmaCreateAndSealBatchRequestT *PlasmaCreateAndSealBatchRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaCreateAndSealBatchRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaCreateAndSealBatchRequestT>(new PlasmaCreateAndSealBatchRequestT());
+  auto _o = std::unique_ptr<PlasmaCreateAndSealBatchRequestT>(new PlasmaCreateAndSealBatchRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3293,7 +3170,7 @@ inline flatbuffers::Offset<PlasmaCreateAndSealBatchRequest> CreatePlasmaCreateAn
 }
 
 inline PlasmaCreateAndSealBatchReplyT *PlasmaCreateAndSealBatchReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaCreateAndSealBatchReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaCreateAndSealBatchReplyT>(new PlasmaCreateAndSealBatchReplyT());
+  auto _o = std::unique_ptr<PlasmaCreateAndSealBatchReplyT>(new PlasmaCreateAndSealBatchReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3319,7 +3196,7 @@ inline flatbuffers::Offset<PlasmaCreateAndSealBatchReply> CreatePlasmaCreateAndS
 }
 
 inline PlasmaAbortRequestT *PlasmaAbortRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaAbortRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaAbortRequestT>(new PlasmaAbortRequestT());
+  auto _o = std::unique_ptr<PlasmaAbortRequestT>(new PlasmaAbortRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3345,7 +3222,7 @@ inline flatbuffers::Offset<PlasmaAbortRequest> CreatePlasmaAbortRequest(flatbuff
 }
 
 inline PlasmaAbortReplyT *PlasmaAbortReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaAbortReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaAbortReplyT>(new PlasmaAbortReplyT());
+  auto _o = std::unique_ptr<PlasmaAbortReplyT>(new PlasmaAbortReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3371,7 +3248,7 @@ inline flatbuffers::Offset<PlasmaAbortReply> CreatePlasmaAbortReply(flatbuffers:
 }
 
 inline PlasmaSealRequestT *PlasmaSealRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaSealRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaSealRequestT>(new PlasmaSealRequestT());
+  auto _o = std::unique_ptr<PlasmaSealRequestT>(new PlasmaSealRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3400,7 +3277,7 @@ inline flatbuffers::Offset<PlasmaSealRequest> CreatePlasmaSealRequest(flatbuffer
 }
 
 inline PlasmaSealReplyT *PlasmaSealReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaSealReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaSealReplyT>(new PlasmaSealReplyT());
+  auto _o = std::unique_ptr<PlasmaSealReplyT>(new PlasmaSealReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3429,7 +3306,7 @@ inline flatbuffers::Offset<PlasmaSealReply> CreatePlasmaSealReply(flatbuffers::F
 }
 
 inline PlasmaGetRequestT *PlasmaGetRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaGetRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaGetRequestT>(new PlasmaGetRequestT());
+  auto _o = std::unique_ptr<PlasmaGetRequestT>(new PlasmaGetRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3458,7 +3335,7 @@ inline flatbuffers::Offset<PlasmaGetRequest> CreatePlasmaGetRequest(flatbuffers:
 }
 
 inline PlasmaGetReplyT *PlasmaGetReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaGetReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaGetReplyT>(new PlasmaGetReplyT());
+  auto _o = std::unique_ptr<PlasmaGetReplyT>(new PlasmaGetReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3496,7 +3373,7 @@ inline flatbuffers::Offset<PlasmaGetReply> CreatePlasmaGetReply(flatbuffers::Fla
 }
 
 inline PlasmaReleaseRequestT *PlasmaReleaseRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaReleaseRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaReleaseRequestT>(new PlasmaReleaseRequestT());
+  auto _o = std::unique_ptr<PlasmaReleaseRequestT>(new PlasmaReleaseRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3522,7 +3399,7 @@ inline flatbuffers::Offset<PlasmaReleaseRequest> CreatePlasmaReleaseRequest(flat
 }
 
 inline PlasmaReleaseReplyT *PlasmaReleaseReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaReleaseReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaReleaseReplyT>(new PlasmaReleaseReplyT());
+  auto _o = std::unique_ptr<PlasmaReleaseReplyT>(new PlasmaReleaseReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3551,7 +3428,7 @@ inline flatbuffers::Offset<PlasmaReleaseReply> CreatePlasmaReleaseReply(flatbuff
 }
 
 inline PlasmaDeleteRequestT *PlasmaDeleteRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaDeleteRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaDeleteRequestT>(new PlasmaDeleteRequestT());
+  auto _o = std::unique_ptr<PlasmaDeleteRequestT>(new PlasmaDeleteRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3580,7 +3457,7 @@ inline flatbuffers::Offset<PlasmaDeleteRequest> CreatePlasmaDeleteRequest(flatbu
 }
 
 inline PlasmaDeleteReplyT *PlasmaDeleteReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaDeleteReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaDeleteReplyT>(new PlasmaDeleteReplyT());
+  auto _o = std::unique_ptr<PlasmaDeleteReplyT>(new PlasmaDeleteReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3612,7 +3489,7 @@ inline flatbuffers::Offset<PlasmaDeleteReply> CreatePlasmaDeleteReply(flatbuffer
 }
 
 inline PlasmaContainsRequestT *PlasmaContainsRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaContainsRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaContainsRequestT>(new PlasmaContainsRequestT());
+  auto _o = std::unique_ptr<PlasmaContainsRequestT>(new PlasmaContainsRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3638,7 +3515,7 @@ inline flatbuffers::Offset<PlasmaContainsRequest> CreatePlasmaContainsRequest(fl
 }
 
 inline PlasmaContainsReplyT *PlasmaContainsReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaContainsReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaContainsReplyT>(new PlasmaContainsReplyT());
+  auto _o = std::unique_ptr<PlasmaContainsReplyT>(new PlasmaContainsReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3667,7 +3544,7 @@ inline flatbuffers::Offset<PlasmaContainsReply> CreatePlasmaContainsReply(flatbu
 }
 
 inline PlasmaListRequestT *PlasmaListRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaListRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaListRequestT>(new PlasmaListRequestT());
+  auto _o = std::unique_ptr<PlasmaListRequestT>(new PlasmaListRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3690,7 +3567,7 @@ inline flatbuffers::Offset<PlasmaListRequest> CreatePlasmaListRequest(flatbuffer
 }
 
 inline PlasmaListReplyT *PlasmaListReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaListReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaListReplyT>(new PlasmaListReplyT());
+  auto _o = std::unique_ptr<PlasmaListReplyT>(new PlasmaListReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3716,7 +3593,7 @@ inline flatbuffers::Offset<PlasmaListReply> CreatePlasmaListReply(flatbuffers::F
 }
 
 inline PlasmaConnectRequestT *PlasmaConnectRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaConnectRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaConnectRequestT>(new PlasmaConnectRequestT());
+  auto _o = std::unique_ptr<PlasmaConnectRequestT>(new PlasmaConnectRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3739,7 +3616,7 @@ inline flatbuffers::Offset<PlasmaConnectRequest> CreatePlasmaConnectRequest(flat
 }
 
 inline PlasmaConnectReplyT *PlasmaConnectReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaConnectReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaConnectReplyT>(new PlasmaConnectReplyT());
+  auto _o = std::unique_ptr<PlasmaConnectReplyT>(new PlasmaConnectReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3765,7 +3642,7 @@ inline flatbuffers::Offset<PlasmaConnectReply> CreatePlasmaConnectReply(flatbuff
 }
 
 inline PlasmaEvictRequestT *PlasmaEvictRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaEvictRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaEvictRequestT>(new PlasmaEvictRequestT());
+  auto _o = std::unique_ptr<PlasmaEvictRequestT>(new PlasmaEvictRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3791,7 +3668,7 @@ inline flatbuffers::Offset<PlasmaEvictRequest> CreatePlasmaEvictRequest(flatbuff
 }
 
 inline PlasmaEvictReplyT *PlasmaEvictReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaEvictReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaEvictReplyT>(new PlasmaEvictReplyT());
+  auto _o = std::unique_ptr<PlasmaEvictReplyT>(new PlasmaEvictReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3817,7 +3694,7 @@ inline flatbuffers::Offset<PlasmaEvictReply> CreatePlasmaEvictReply(flatbuffers:
 }
 
 inline PlasmaSubscribeRequestT *PlasmaSubscribeRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaSubscribeRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaSubscribeRequestT>(new PlasmaSubscribeRequestT());
+  auto _o = std::unique_ptr<PlasmaSubscribeRequestT>(new PlasmaSubscribeRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3840,7 +3717,7 @@ inline flatbuffers::Offset<PlasmaSubscribeRequest> CreatePlasmaSubscribeRequest(
 }
 
 inline PlasmaNotificationT *PlasmaNotification::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaNotificationT> _o = std::unique_ptr<plasma::flatbuf::PlasmaNotificationT>(new PlasmaNotificationT());
+  auto _o = std::unique_ptr<PlasmaNotificationT>(new PlasmaNotificationT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3866,7 +3743,7 @@ inline flatbuffers::Offset<PlasmaNotification> CreatePlasmaNotification(flatbuff
 }
 
 inline PlasmaDataRequestT *PlasmaDataRequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaDataRequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaDataRequestT>(new PlasmaDataRequestT());
+  auto _o = std::unique_ptr<PlasmaDataRequestT>(new PlasmaDataRequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3898,7 +3775,7 @@ inline flatbuffers::Offset<PlasmaDataRequest> CreatePlasmaDataRequest(flatbuffer
 }
 
 inline PlasmaDataReplyT *PlasmaDataReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaDataReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaDataReplyT>(new PlasmaDataReplyT());
+  auto _o = std::unique_ptr<PlasmaDataReplyT>(new PlasmaDataReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3930,7 +3807,7 @@ inline flatbuffers::Offset<PlasmaDataReply> CreatePlasmaDataReply(flatbuffers::F
 }
 
 inline PlasmaRefreshLRURequestT *PlasmaRefreshLRURequest::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaRefreshLRURequestT> _o = std::unique_ptr<plasma::flatbuf::PlasmaRefreshLRURequestT>(new PlasmaRefreshLRURequestT());
+  auto _o = std::unique_ptr<PlasmaRefreshLRURequestT>(new PlasmaRefreshLRURequestT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
@@ -3956,7 +3833,7 @@ inline flatbuffers::Offset<PlasmaRefreshLRURequest> CreatePlasmaRefreshLRUReques
 }
 
 inline PlasmaRefreshLRUReplyT *PlasmaRefreshLRUReply::UnPack(const flatbuffers::resolver_function_t *_resolver) const {
-  std::unique_ptr<plasma::flatbuf::PlasmaRefreshLRUReplyT> _o = std::unique_ptr<plasma::flatbuf::PlasmaRefreshLRUReplyT>(new PlasmaRefreshLRUReplyT());
+  auto _o = std::unique_ptr<PlasmaRefreshLRUReplyT>(new PlasmaRefreshLRUReplyT());
   UnPackTo(_o.get(), _resolver);
   return _o.release();
 }
diff --git a/cpp/src/plasma/protocol.cc b/cpp/src/plasma/protocol.cc
index a3fe87de827..2aa5dcb46c8 100644
--- a/cpp/src/plasma/protocol.cc
+++ b/cpp/src/plasma/protocol.cc
@@ -583,7 +583,7 @@ Status ReadListReply(const uint8_t* data, size_t size, ObjectTable* objects) {
   DCHECK(VerifyFlatbuffer(message, data, size));
   for (auto const object : *message->objects()) {
     ObjectID object_id = ObjectID::from_binary(object->object_id()->str());
-    auto entry = std::unique_ptr<ObjectTableEntry>(new ObjectTableEntry());
+    auto entry = std::make_unique<ObjectTableEntry>();
     entry->data_size = object->data_size();
     entry->metadata_size = object->metadata_size();
     entry->ref_count = object->ref_count();
diff --git a/cpp/src/plasma/quota_aware_policy.cc b/cpp/src/plasma/quota_aware_policy.cc
index 67c4e924820..a909a227e60 100644
--- a/cpp/src/plasma/quota_aware_policy.cc
+++ b/cpp/src/plasma/quota_aware_policy.cc
@@ -60,7 +60,7 @@ bool QuotaAwarePolicy::SetClientQuota(Client* client, int64_t output_memory_quot
   // those objects will be lazily evicted on the next call
   cache_.AdjustCapacity(-output_memory_quota);
   per_client_cache_[client] =
-      std::unique_ptr<LRUCache>(new LRUCache(client->name, output_memory_quota));
+      std::make_unique<LRUCache>(client->name, output_memory_quota);
   return true;
 }
 
diff --git a/cpp/src/plasma/store.cc b/cpp/src/plasma/store.cc
index 032a12fcfac..e5f2bfb216a 100644
--- a/cpp/src/plasma/store.cc
+++ b/cpp/src/plasma/store.cc
@@ -271,7 +271,7 @@ PlasmaError PlasmaStore::CreateObject(const ObjectID& object_id, bool evict_if_f
 #endif
   }
 
-  auto ptr = std::unique_ptr<ObjectTableEntry>(new ObjectTableEntry());
+  auto ptr = std::make_unique<ObjectTableEntry>();
   entry = store_info_.objects.emplace(object_id, std::move(ptr)).first->second.get();
   entry->data_size = data_size;
   entry->metadata_size = metadata_size;
diff --git a/cpp/src/plasma/test/serialization_tests.cc b/cpp/src/plasma/test/serialization_tests.cc
index a9eea7be71a..6d14b14a76e 100644
--- a/cpp/src/plasma/test/serialization_tests.cc
+++ b/cpp/src/plasma/test/serialization_tests.cc
@@ -82,7 +82,8 @@ class TestPlasmaSerialization : public ::testing::Test {
 
     std::stringstream ss;
     ss << temp_dir_->path().ToString() << "fileXXXXXX";
-    strncpy(path, ss.str().c_str(), sizeof(path));
+    strncpy(path, ss.str().c_str(), sizeof(path) - 1);
+    path[sizeof(path) - 1] = '\0';
     ARROW_LOG(INFO) << "file path: '" << path << "'";
     return mkstemp(path);
   }
diff --git a/cpp/src/skyhook/client/file_skyhook.cc b/cpp/src/skyhook/client/file_skyhook.cc
index cc262803533..725b04a345b 100644
--- a/cpp/src/skyhook/client/file_skyhook.cc
+++ b/cpp/src/skyhook/client/file_skyhook.cc
@@ -14,6 +14,7 @@
 // KIND, either express or implied.  See the License for the
 // specific language governing permissions and limitations
 // under the License.
+
 #include "skyhook/client/file_skyhook.h"
 #include "skyhook/protocol/rados_protocol.h"
 #include "skyhook/protocol/skyhook_protocol.h"
@@ -132,7 +133,7 @@ arrow::Result<std::shared_ptr<SkyhookFileFormat>> SkyhookFileFormat::Make(
 
 SkyhookFileFormat::SkyhookFileFormat(std::shared_ptr<RadosConnCtx> ctx,
                                      std::string file_format)
-    : impl_(new Impl(std::move(ctx), std::move(file_format))) {}
+    : FileFormat(nullptr), impl_(new Impl(std::move(ctx), std::move(file_format))) {}
 
 SkyhookFileFormat::~SkyhookFileFormat() = default;
 
diff --git a/cpp/src/skyhook/protocol/rados_protocol.h b/cpp/src/skyhook/protocol/rados_protocol.h
index 3e5fac7640b..6a0b2ea0067 100644
--- a/cpp/src/skyhook/protocol/rados_protocol.h
+++ b/cpp/src/skyhook/protocol/rados_protocol.h
@@ -19,16 +19,17 @@
 #include <rados/librados.hpp>
 
 #include "arrow/status.h"
-#include "arrow/util/make_unique.h"
 
 #include "skyhook/client/file_skyhook.h"
 
+#include <memory>
+
 namespace skyhook {
 namespace rados {
 
 class IoCtxInterface {
  public:
-  IoCtxInterface() { ioCtx = arrow::internal::make_unique<librados::IoCtx>(); }
+  IoCtxInterface() { ioCtx = std::make_unique<librados::IoCtx>(); }
   /// \brief Read from a RADOS object.
   ///
   /// \param[in] oid the ID of the object to read.
@@ -60,7 +61,7 @@ class IoCtxInterface {
 
 class RadosInterface {
  public:
-  RadosInterface() { cluster = arrow::internal::make_unique<librados::Rados>(); }
+  RadosInterface() { cluster = std::make_unique<librados::Rados>(); }
   /// Initializes a cluster handle.
   arrow::Status init2(const char* const name, const char* const clustername,
                       uint64_t flags);
@@ -83,8 +84,8 @@ class RadosConn {
  public:
   explicit RadosConn(std::shared_ptr<skyhook::RadosConnCtx> ctx)
       : ctx(std::move(ctx)),
-        rados(arrow::internal::make_unique<RadosInterface>()),
-        io_ctx(arrow::internal::make_unique<IoCtxInterface>()),
+        rados(std::make_unique<RadosInterface>()),
+        io_ctx(std::make_unique<IoCtxInterface>()),
         connected(false) {}
   ~RadosConn();
   /// Connect to the Ceph cluster.
diff --git a/cpp/submodules/parquet-testing b/cpp/submodules/parquet-testing
index b76cde43bad..5b82793ef71 160000
--- a/cpp/submodules/parquet-testing
+++ b/cpp/submodules/parquet-testing
@@ -1 +1 @@
-Subproject commit b76cde43bad62ebf531ae3736d7a59cf645d3a6f
+Subproject commit 5b82793ef7196f7b3583e85669ced211cd8b5ff2
diff --git a/cpp/thirdparty/versions.txt b/cpp/thirdparty/versions.txt
index cdb048327ff..2611944cf26 100644
--- a/cpp/thirdparty/versions.txt
+++ b/cpp/thirdparty/versions.txt
@@ -57,9 +57,8 @@ ARROW_GTEST_BUILD_VERSION=1.11.0
 ARROW_GTEST_BUILD_SHA256_CHECKSUM=b4870bf121ff7795ba20d20bcdd8627b8e088f2d1dab299a031c1034eddc93d5
 ARROW_JEMALLOC_BUILD_VERSION=5.3.0
 ARROW_JEMALLOC_BUILD_SHA256_CHECKSUM=2db82d1e7119df3e71b7640219b6dfe84789bc0537983c3b7ac4f7189aecfeaa
-# Include post-1.9.3 fixes for undefined behaviour
-ARROW_LZ4_BUILD_VERSION=8f61d8eb7c6979769a484cde8df61ff7c4c77765
-ARROW_LZ4_BUILD_SHA256_CHECKSUM=5b072d848f2f93fddb97e1143e22c1bd7fa19fc8431ee69e21758190a88125b4
+ARROW_LZ4_BUILD_VERSION=v1.9.4
+ARROW_LZ4_BUILD_SHA256_CHECKSUM=0b0e3aa07c8c063ddf40b082bdf7e37a1562bda40a0ff5272957f3e987e0e54b
 ARROW_MIMALLOC_BUILD_VERSION=v2.0.6
 ARROW_MIMALLOC_BUILD_SHA256_CHECKSUM=9f05c94cc2b017ed13698834ac2a3567b6339a8bde27640df5a1581d49d05ce5
 ARROW_NLOHMANN_JSON_BUILD_VERSION=v3.10.5
@@ -68,8 +67,8 @@ ARROW_OPENTELEMETRY_BUILD_VERSION=v1.4.1
 ARROW_OPENTELEMETRY_BUILD_SHA256_CHECKSUM=301b1ab74a664723560f46c29f228360aff1e2d63e930b963755ea077ae67524
 ARROW_OPENTELEMETRY_PROTO_BUILD_VERSION=v0.17.0
 ARROW_OPENTELEMETRY_PROTO_BUILD_SHA256_CHECKSUM=f269fbcb30e17b03caa1decd231ce826e59d7651c0f71c3b28eb5140b4bb5412
-ARROW_ORC_BUILD_VERSION=1.7.5
-ARROW_ORC_BUILD_SHA256_CHECKSUM=b90cae5853e3ea0e5bf64e3883d09d871ec280536e0bb2cc52d08f79f0be0010
+ARROW_ORC_BUILD_VERSION=1.8.1
+ARROW_ORC_BUILD_SHA256_CHECKSUM=ba5877bd737e1fbc69822d3861b8e84854640bf2439b7ddad536d6303dd3638d
 ARROW_PROTOBUF_BUILD_VERSION=v21.3
 ARROW_PROTOBUF_BUILD_SHA256_CHECKSUM=2f723218f6cb709ae4cdc4fb5ed56a5951fc5d466f0128ce4c946b8c78c8c49f
 # Because of https://github.com/Tencent/rapidjson/pull/1323, we require
@@ -82,21 +81,18 @@ ARROW_RE2_BUILD_SHA256_CHECKSUM=f89c61410a072e5cbcf8c27e3a778da7d6fd2f2b5b1445cd
 # 1.1.9 is patched to implement https://github.com/google/snappy/pull/148 if this is bumped, remove the patch
 ARROW_SNAPPY_BUILD_VERSION=1.1.9
 ARROW_SNAPPY_BUILD_SHA256_CHECKSUM=75c1fbb3d618dd3a0483bff0e26d0a92b495bbe5059c8b4f1c962b478b6e06e7
-# There is a bug in GCC < 4.9 with Snappy 1.1.9, so revert to 1.1.8 for those (ARROW-14661)
-ARROW_SNAPPY_OLD_BUILD_VERSION=1.1.8
-ARROW_SNAPPY_OLD_BUILD_SHA256_CHECKSUM=16b677f07832a612b0836178db7f374e414f94657c138e6993cbfc5dcc58651f
-ARROW_SUBSTRAIT_BUILD_VERSION=v0.6.0
-ARROW_SUBSTRAIT_BUILD_SHA256_CHECKSUM=7b8583b9684477e9027f417bbfb4febb8acfeb01923dcaa7cf0fd3f921d69c88
+ARROW_SUBSTRAIT_BUILD_VERSION=v0.20.0
+ARROW_SUBSTRAIT_BUILD_SHA256_CHECKSUM=5ceaa559ccef29a7825b5e5d4b5e7eed384830294f08bec913feecdd903a94cf
 ARROW_THRIFT_BUILD_VERSION=0.16.0
 ARROW_THRIFT_BUILD_SHA256_CHECKSUM=f460b5c1ca30d8918ff95ea3eb6291b3951cf518553566088f3f2be8981f6209
 ARROW_UCX_BUILD_VERSION=1.12.1
 ARROW_UCX_BUILD_SHA256_CHECKSUM=9bef31aed0e28bf1973d28d74d9ac4f8926c43ca3b7010bd22a084e164e31b71
 ARROW_UTF8PROC_BUILD_VERSION=v2.7.0
 ARROW_UTF8PROC_BUILD_SHA256_CHECKSUM=4bb121e297293c0fd55f08f83afab6d35d48f0af4ecc07523ad8ec99aa2b12a1
-ARROW_XSIMD_BUILD_VERSION=8.1.0
-ARROW_XSIMD_BUILD_SHA256_CHECKSUM=d52551360d37709675237d2a0418e28f70995b5b7cdad7c674626bcfbbf48328
-ARROW_ZLIB_BUILD_VERSION=1.2.12
-ARROW_ZLIB_BUILD_SHA256_CHECKSUM=91844808532e5ce316b3c010929493c0244f3d37593afd6de04f71821d5136d9
+ARROW_XSIMD_BUILD_VERSION=9.0.1
+ARROW_XSIMD_BUILD_SHA256_CHECKSUM=b1bb5f92167fd3a4f25749db0be7e61ed37e0a5d943490f3accdcd2cd2918cc0
+ARROW_ZLIB_BUILD_VERSION=1.2.13
+ARROW_ZLIB_BUILD_SHA256_CHECKSUM=b3a24de97a8fdbc835b9833169501030b8977031bcb54b3b3ac13740f846ab30
 ARROW_ZSTD_BUILD_VERSION=v1.5.2
 ARROW_ZSTD_BUILD_SHA256_CHECKSUM=f7de13462f7a82c29ab865820149e778cbfe01087b3a55b5332707abf9db4a6e
 
diff --git a/cpp/vcpkg.json b/cpp/vcpkg.json
index 915777f0899..98a26db246a 100644
--- a/cpp/vcpkg.json
+++ b/cpp/vcpkg.json
@@ -1,6 +1,6 @@
 {
   "name": "arrow",
-  "version-string": "10.0.0-SNAPSHOT",
+  "version-string": "11.0.0",
   "dependencies": [
     "abseil",
     {
diff --git a/cpp/x86_64/libarrow_cdata_jni.dylib b/cpp/x86_64/libarrow_cdata_jni.dylib
new file mode 100755
index 00000000000..647724ae2a7
Binary files /dev/null and b/cpp/x86_64/libarrow_cdata_jni.dylib differ
diff --git a/cpp/x86_64/libarrow_dataset_jni.dylib b/cpp/x86_64/libarrow_dataset_jni.dylib
new file mode 100755
index 00000000000..4beae651f22
Binary files /dev/null and b/cpp/x86_64/libarrow_dataset_jni.dylib differ
diff --git a/cpp/x86_64/libarrow_orc_jni.dylib b/cpp/x86_64/libarrow_orc_jni.dylib
new file mode 100755
index 00000000000..7b9efdf1acd
Binary files /dev/null and b/cpp/x86_64/libarrow_orc_jni.dylib differ
diff --git a/cpp/x86_64/libgandiva_jni.dylib b/cpp/x86_64/libgandiva_jni.dylib
new file mode 100755
index 00000000000..5d59ec79f4c
Binary files /dev/null and b/cpp/x86_64/libgandiva_jni.dylib differ
diff --git a/csharp/Directory.Build.props b/csharp/Directory.Build.props
index 51c9e772123..c65399b61bc 100644
--- a/csharp/Directory.Build.props
+++ b/csharp/Directory.Build.props
@@ -29,7 +29,7 @@
     <Product>Apache Arrow library</Product>
     <Copyright>Copyright 2016-2019 The Apache Software Foundation</Copyright>
     <Company>The Apache Software Foundation</Company>
-    <Version>10.0.0-SNAPSHOT</Version>
+    <Version>11.0.0</Version>
   </PropertyGroup>
 
   <PropertyGroup>
@@ -43,6 +43,7 @@
   <PropertyGroup>
     <Authors>The Apache Software Foundation</Authors>
     <PackageIconUrl>https://www.apache.org/images/feather.png</PackageIconUrl>
+    <!-- We can't use PackageLicenseExpression; the license file also contains 3rd-party notices. -->
     <PackageLicenseFile>LICENSE.txt</PackageLicenseFile>
     <PackageProjectUrl>https://arrow.apache.org/</PackageProjectUrl>
     <PackageTags>apache arrow</PackageTags>
diff --git a/csharp/src/Apache.Arrow/Apache.Arrow.csproj b/csharp/src/Apache.Arrow/Apache.Arrow.csproj
index 70f821218d5..51f188ae87b 100644
--- a/csharp/src/Apache.Arrow/Apache.Arrow.csproj
+++ b/csharp/src/Apache.Arrow/Apache.Arrow.csproj
@@ -1,19 +1,21 @@
 <Project Sdk="Microsoft.NET.Sdk">
 
   <PropertyGroup>
-    <TargetFrameworks>netstandard1.3;netcoreapp3.1</TargetFrameworks>
+    <TargetFrameworks>netstandard1.3;netstandard2.0;netcoreapp3.1</TargetFrameworks>
     <AllowUnsafeBlocks>true</AllowUnsafeBlocks>
     <DefineConstants>$(DefineConstants);UNSAFE_BYTEBUFFER;BYTEBUFFER_NO_BOUNDS_CHECK;ENABLE_SPAN_T</DefineConstants>
     
     <Description>Apache Arrow is a cross-language development platform for in-memory data. It specifies a standardized language-independent columnar memory format for flat and hierarchical data, organized for efficient analytic operations on modern hardware.</Description>
   </PropertyGroup>
 
-  <ItemGroup>
-    <PackageReference Include="System.Buffers" Version="4.5.0" />
-    <PackageReference Include="System.Memory" Version="4.5.2" />
-    <PackageReference Include="System.Runtime.CompilerServices.Unsafe" Version="4.5.2" />
-    <PackageReference Include="System.Threading.Tasks.Extensions" Version="4.5.2" />
+  <ItemGroup Condition="'$(TargetFrameworkIdentifier)' == '.NETStandard'">
+    <PackageReference Include="System.Buffers" Version="4.5.1" />
+    <PackageReference Include="System.Memory" Version="4.5.5" />
+    <PackageReference Include="System.Runtime.CompilerServices.Unsafe" Version="4.5.3" />
+    <PackageReference Include="System.Threading.Tasks.Extensions" Version="4.5.4" />
+  </ItemGroup>
 
+  <ItemGroup>
     <PackageReference Include="Microsoft.SourceLink.GitHub" Version="1.0.0" PrivateAssets="All" />
   </ItemGroup>
 
diff --git a/csharp/test/Apache.Arrow.Flight.Tests/TestWebFactory.cs b/csharp/test/Apache.Arrow.Flight.Tests/TestWebFactory.cs
index 9e6ebc476bb..74873e733bf 100644
--- a/csharp/test/Apache.Arrow.Flight.Tests/TestWebFactory.cs
+++ b/csharp/test/Apache.Arrow.Flight.Tests/TestWebFactory.cs
@@ -15,11 +15,14 @@
 
 using System;
 using System.Collections.Generic;
+using System.Linq;
 using System.Net;
 using System.Text;
 using Apache.Arrow.Flight.TestWeb;
 using Grpc.Net.Client;
 using Microsoft.AspNetCore.Hosting;
+using Microsoft.AspNetCore.Hosting.Server;
+using Microsoft.AspNetCore.Hosting.Server.Features;
 using Microsoft.AspNetCore.Server.Kestrel.Core;
 using Microsoft.Extensions.DependencyInjection;
 using Microsoft.Extensions.Hosting;
@@ -29,11 +32,20 @@ namespace Apache.Arrow.Flight.Tests
     public class TestWebFactory : IDisposable
     {
         readonly IHost host;
+        private int _port;
 
         public TestWebFactory(FlightStore flightStore)
         {
             host = WebHostBuilder(flightStore).Build(); //Create the server
             host.Start();
+            var addressInfo = host.Services.GetRequiredService<IServer>().Features.Get<IServerAddressesFeature>();
+            if (addressInfo == null)
+            {
+                throw new Exception("No address info could be found for configured server");
+            }
+            var address = addressInfo.Addresses.First();
+            var addressUri = new Uri(address);
+            _port = addressUri.Port;
             AppContext.SetSwitch(
                 "System.Net.Http.SocketsHttpHandler.Http2UnencryptedSupport", true);
         }
@@ -46,7 +58,7 @@ private IHostBuilder WebHostBuilder(FlightStore flightStore)
                             webBuilder
                             .ConfigureKestrel(c =>
                             {
-                                c.Listen(IPEndPoint.Parse("0.0.0.0:5001"), l => l.Protocols = HttpProtocols.Http2);
+                                c.ListenAnyIP(0, l => l.Protocols = HttpProtocols.Http2);
                             })
                             .UseStartup<Startup>()
                             .ConfigureServices(services =>
@@ -58,7 +70,7 @@ private IHostBuilder WebHostBuilder(FlightStore flightStore)
 
         public string GetAddress()
         {
-            return "http://127.0.0.1:5001";
+            return $"http://127.0.0.1:{_port}";
         }
 
         public GrpcChannel GetChannel()
diff --git a/dev/README.md b/dev/README.md
index 6b7bc0271f9..151f33b384a 100644
--- a/dev/README.md
+++ b/dev/README.md
@@ -76,7 +76,7 @@ Type the pull request number (from https://github.com/apache/arrow/pulls) and hi
 title	Blah Blah Blah
 source	repo/branch
 target	master
-url	https://api.github.com/repos/apache/arrow/pulls/X
+url	https://api.github.com/apache/arrow/pulls/X
 === JIRA ARROW-#Y ===
 Summary		Blah Blah Blah
 Assignee	Name
@@ -84,8 +84,25 @@ Components	C++
 Status		In Progress
 URL		https://issues.apache.org/jira/browse/ARROW-#Y
 
-Proceed with merging pull request #3? (y/n):
+Proceed with merging pull request #X? (y/n):
 ```
+
+```
+=== Pull Request #X ===
+title	GH-#Y: [Component] Title
+source	repo/branch
+target	master
+url	https://api.github.com/apache/arrow/pulls/X
+=== GITHUB #Y ===
+Summary		[Component] Title
+Assignee	Name
+Components	Python
+Status		open
+URL		https://github.com/apache/arrow/issues/Y
+
+Proceed with merging pull request #X? (y/n): y
+```
+
 If this looks good, type y and hit enter.
 ```
 Author 1: Name
@@ -93,10 +110,21 @@ Pull request #X merged!
 Merge hash: #hash
 
 Would you like to update the associated JIRA? (y/n): y
-Enter comma-separated fix version(s) [9.0.0]:
+Enter comma-separated fix version(s) [11.0.0]:
+```
+
 ```
-You can just hit enter and the associated JIRA will be resolved
-with the current fix version.
+Author 1: Name
+Pull request #X merged!
+Merge hash: #hash
+
+Would you like to update the associated issue? (y/n): y
+Enter fix version [11.0.0]:
+```
+
+You can just hit enter and the associated JIRA or GitHub issue
+will be resolved with the current fix version.
+
 ```
 Successfully resolved ARROW-#Y!
 === JIRA ARROW-#Y ===
@@ -107,6 +135,16 @@ Status		Resolved
 URL		https://issues.apache.org/jira/browse/ARROW-#Y
 ```
 
+```
+Successfully resolved #Y!
+=== GITHUB #Y ===
+Summary		[Component] Title
+Assignee	Name
+Components	Python
+Status		closed
+URL		https://github.com/apache/arrow/issues/Y```
+```
+
 ## Verifying Release Candidates
 
 We have provided a script to assist with verifying release candidates on Linux
diff --git a/dev/archery/archery/bot.py b/dev/archery/archery/bot.py
index fb300f554c0..6a9b78cf160 100644
--- a/dev/archery/archery/bot.py
+++ b/dev/archery/archery/bot.py
@@ -143,7 +143,7 @@ def handle_issue_comment(self, command, payload):
             # https://developer.github.com/v4/enum/commentauthorassociation/
             # Checking  privileges here enables the bot to respond
             # without relying on the handler.
-            allowed_roles = {'OWNER', 'MEMBER', 'CONTRIBUTOR'}
+            allowed_roles = {'OWNER', 'MEMBER', 'CONTRIBUTOR', 'COLLABORATOR'}
             if payload['comment']['author_association'] not in allowed_roles:
                 raise EventError(
                     "Only contributors can submit requests to this bot. "
@@ -232,8 +232,10 @@ def _clone_arrow_and_crossbow(dest, crossbow_repo, pull_request):
               help='Additional task parameters for rendering the CI templates')
 @click.option('--arrow-version', '-v', default=None,
               help='Set target version explicitly.')
+@click.option('--wait', default=60,
+              help='Wait the specified seconds before generating a report.')
 @click.pass_obj
-def submit(obj, tasks, groups, params, arrow_version):
+def submit(obj, tasks, groups, params, arrow_version, wait):
     """
     Submit crossbow testing tasks.
 
@@ -259,6 +261,7 @@ def submit(obj, tasks, groups, params, arrow_version):
 
         # parse additional job parameters
         params = dict([p.split("=") for p in params])
+        params['pr_number'] = pull_request.number
 
         # instantiate the job object
         job = Job.from_config(config=config, target=target, tasks=tasks,
@@ -269,7 +272,8 @@ def submit(obj, tasks, groups, params, arrow_version):
         queue.push()
 
         # render the response comment's content
-        report = CommentReport(job, crossbow_repo=crossbow_repo)
+        report = CommentReport(job, crossbow_repo=crossbow_repo,
+                               wait_for_task=wait)
 
         # send the response
         pull_request.create_issue_comment(report.show())
diff --git a/dev/archery/archery/cli.py b/dev/archery/archery/cli.py
index 8b4c38b42fa..105a64c0603 100644
--- a/dev/archery/archery/cli.py
+++ b/dev/archery/archery/cli.py
@@ -172,8 +172,6 @@ def _apply_options(cmd, options):
               help="Build the Arrow IPC extensions.")
 @click.option("--with-json", default=None, type=BOOL,
               help="Build the Arrow JSON parser module.")
-@click.option("--with-jni", default=None, type=BOOL,
-              help="Build the Arrow JNI lib.")
 @click.option("--with-mimalloc", default=None, type=BOOL,
               help="Build the Arrow mimalloc based allocator.")
 @click.option("--with-parquet", default=None, type=BOOL,
@@ -531,7 +529,7 @@ def benchmark_run(ctx, rev_or_path, src, preserve, output, cmake_extras,
               help="Hide counters field in diff report.")
 @click.argument("contender", metavar="[<contender>",
                 default=ArrowSources.WORKSPACE, required=False)
-@click.argument("baseline", metavar="[<baseline>]]", default="origin/master",
+@click.argument("baseline", metavar="[<baseline>]]", default="origin/HEAD",
                 required=False)
 @click.pass_context
 def benchmark_diff(ctx, src, preserve, output, language, cmake_extras,
@@ -544,7 +542,8 @@ def benchmark_diff(ctx, src, preserve, output, language, cmake_extras,
 
     The caller can optionally specify both the contender and the baseline. If
     unspecified, the contender will default to the current workspace (like git)
-    and the baseline will default to master.
+    and the baseline will default to the mainline development branch (i.e.
+    default git branch).
 
     Each target (contender or baseline) can either be a git revision
     (commit, tag, special values like HEAD) or a cmake build directory. This
@@ -561,16 +560,18 @@ def benchmark_diff(ctx, src, preserve, output, language, cmake_extras,
     Examples:
 
     \b
-    # Compare workspace (contender) with master (baseline)
+    # Compare workspace (contender) against the mainline development branch
+    # (baseline)
     \b
     archery benchmark diff
 
     \b
-    # Compare master (contender) with latest version (baseline)
+    # Compare the mainline development branch (contender) against the latest
+    # version (baseline)
     \b
     export LAST=$(git tag -l "apache-arrow-[0-9]*" | sort -rV | head -1)
     \b
-    archery benchmark diff master "$LAST"
+    archery benchmark diff <default-branch> "$LAST"
 
     \b
     # Compare g++7 (contender) with clang++-8 (baseline) builds
diff --git a/dev/archery/archery/crossbow/cli.py b/dev/archery/archery/crossbow/cli.py
index 8bdc490958b..a44115c2bc6 100644
--- a/dev/archery/archery/crossbow/cli.py
+++ b/dev/archery/archery/crossbow/cli.py
@@ -15,8 +15,10 @@
 # specific language governing permissions and limitations
 # under the License.
 
+from datetime import date
 from pathlib import Path
 import time
+import sys
 
 import click
 
@@ -95,7 +97,7 @@ def check_config(obj, config_path):
                    'locally. Examples: https://github.com/apache/arrow or '
                    'https://github.com/kszucs/arrow.')
 @click.option('--arrow-branch', '-b', default=None,
-              help='Give the branch name explicitly, e.g. master, ARROW-1949.')
+              help='Give the branch name explicitly, e.g. ARROW-1949.')
 @click.option('--arrow-sha', '-t', default=None,
               help='Set commit SHA or Tag name explicitly, e.g. f67a515, '
                    'apache-arrow-0.11.1.')
@@ -156,12 +158,10 @@ def submit(obj, tasks, groups, params, job_prefix, config_path, arrow_version,
 
 
 @crossbow.command()
-@click.option('--base-branch', default="master",
+@click.option('--base-branch', default=None,
               help='Set base branch for the PR.')
 @click.option('--create-pr', is_flag=True, default=False,
               help='Create GitHub Pull Request')
-@click.option('--github-token', envvar='ARROW_GITHUB_API_TOKEN',
-              help='OAuth token to create PR and comments in the arrow repo')
 @click.option('--head-branch', default=None,
               help='Give the branch name explicitly, e.g. release-9.0.0-rc0')
 @click.option('--pr-body', default=None,
@@ -184,7 +184,7 @@ def submit(obj, tasks, groups, params, job_prefix, config_path, arrow_version,
 @click.option('--verify-wheels', is_flag=True, default=False,
               help='Trigger the verify wheels jobs')
 @click.pass_obj
-def verify_release_candidate(obj, base_branch, create_pr, github_token,
+def verify_release_candidate(obj, base_branch, create_pr,
                              head_branch, pr_body, pr_title, remote,
                              rc, version, verify_binaries, verify_source,
                              verify_wheels):
@@ -193,9 +193,10 @@ def verify_release_candidate(obj, base_branch, create_pr, github_token,
 
     # Redefine Arrow repo to use the correct arrow remote.
     arrow = Repo(path=obj['arrow'].path, remote_url=remote)
+
     response = arrow.github_pr(title=pr_title, head=head_branch,
                                base=base_branch, body=pr_body,
-                               github_token=github_token,
+                               github_token=obj['queue'].github_token,
                                create=create_pr)
 
     # If we want to trigger any verification job we add a comment to the PR.
@@ -226,7 +227,7 @@ def verify_release_candidate(obj, base_branch, create_pr, github_token,
                    'locally. Examples: https://github.com/apache/arrow or '
                    'https://github.com/kszucs/arrow.')
 @click.option('--arrow-branch', '-b', default=None,
-              help='Give the branch name explicitly, e.g. master, ARROW-1949.')
+              help='Give the branch name explicitly, e.g. ARROW-1949.')
 @click.option('--arrow-sha', '-t', default=None,
               help='Set commit SHA or Tag name explicitly, e.g. f67a515, '
                    'apache-arrow-0.11.1.')
@@ -273,37 +274,47 @@ def highlight(code):
               help='Fetch references (branches and tags) from the remote')
 @click.option('--task-filter', '-f', 'task_filters', multiple=True,
               help='Glob pattern for filtering relevant tasks')
+@click.option('--validate/--no-validate', default=False,
+              help='Return non-zero exit code '
+                   'if there is any non-success task')
 @click.pass_obj
-def status(obj, job_name, fetch, task_filters):
+def status(obj, job_name, fetch, task_filters, validate):
     output = obj['output']
     queue = obj['queue']
     if fetch:
         queue.fetch()
     job = queue.get(job_name)
 
+    success = True
+
+    def asset_callback(task_name, task, asset):
+        nonlocal success
+        if task.status().combined_state in {'error', 'failure'}:
+            success = False
+        if asset is None:
+            success = False
+
     report = ConsoleReport(job, task_filters=task_filters)
-    report.show(output)
+    report.show(output, asset_callback=asset_callback)
+    if validate and not success:
+        sys.exit(1)
 
 
 @crossbow.command()
 @click.option('--arrow-remote', '-r', default=None,
               help='Set GitHub remote explicitly, which is going to be cloned '
                    'on the CI services. Note, that no validation happens '
-                   'locally. Examples: https://github.com/apache/arrow or '
-                   'https://github.com/raulcd/arrow.')
+                   'locally. Examples: "https://github.com/apache/arrow" or '
+                   '"raulcd/arrow".')
 @click.option('--crossbow', '-c', default='ursacomputing/crossbow',
               help='Crossbow repository on github to use')
 @click.option('--fetch/--no-fetch', default=True,
               help='Fetch references (branches and tags) from the remote')
-@click.option('--github-token', envvar='ARROW_GITHUB_API_TOKEN',
-              help='OAuth token to create comments in the arrow repo. '
-                   'Only necessary if --track-on-pr-titled is set.')
 @click.option('--job-name', required=True)
 @click.option('--pr-title', required=True,
               help='Track the job submitted on PR with given title')
 @click.pass_obj
-def report_pr(obj, arrow_remote, crossbow, fetch, github_token, job_name,
-              pr_title):
+def report_pr(obj, arrow_remote, crossbow, fetch, job_name, pr_title):
     arrow = obj['arrow']
     queue = obj['queue']
     if fetch:
@@ -313,7 +324,7 @@ def report_pr(obj, arrow_remote, crossbow, fetch, github_token, job_name,
     report = CommentReport(job, crossbow_repo=crossbow)
     target_arrow = Repo(path=arrow.path, remote_url=arrow_remote)
     pull_request = target_arrow.github_pr(title=pr_title,
-                                          github_token=github_token,
+                                          github_token=queue.github_token,
                                           create=False)
     # render the response comment's content on the PR
     pull_request.create_comment(report.show())
@@ -392,10 +403,10 @@ def report(obj, job_name, sender_name, sender_email, recipient_email,
             smtp_server=smtp_server,
             smtp_port=smtp_port,
             recipient_email=recipient_email,
-            message=email_report.render("text")
+            message=email_report.render("nightly_report")
         )
     else:
-        output.write(email_report.render("text"))
+        output.write(email_report.render("nightly_report"))
 
 
 @crossbow.command()
@@ -536,3 +547,112 @@ def upload_artifacts(obj, tag, sha, patterns, method):
     queue.github_overwrite_release_assets(
         tag_name=tag, target_commitish=sha, method=method, patterns=patterns
     )
+
+
+@crossbow.command()
+@click.option('--dry-run/--execute', default=False,
+              help='Just display process, don\'t download anything')
+@click.option('--days', default=90,
+              help='Branches older than this amount of days will be deleted')
+@click.option('--maximum', default=1000,
+              help='Maximum limit of branches to delete for a single run')
+@click.pass_obj
+def delete_old_branches(obj, dry_run, days, maximum):
+    """
+    Deletes branches on queue repository (crossbow) that are older than number
+    of days.
+    With a maximum number of branches to be deleted. This is required to avoid
+    triggering GitHub protection limits.
+    """
+    queue = obj['queue']
+    ts = time.time() - days * 24 * 3600
+    refs = []
+    for ref in queue.repo.listall_reference_objects():
+        commit = ref.peel()
+        if commit.commit_time < ts and not ref.name.startswith(
+                "refs/remotes/origin/pr/"):
+            # Check if reference is a remote reference to point
+            # to the remote head.
+            ref_name = ref.name
+            if ref_name.startswith("refs/remotes/origin"):
+                ref_name = ref_name.replace("remotes/origin", "heads")
+            refs.append(f":{ref_name}")
+
+    def batch_gen(iterable, step):
+        total_length = len(iterable)
+        to_delete = min(total_length, maximum)
+        print(f"Total number of references to be deleted: {to_delete}")
+        for index in range(0, to_delete, step):
+            yield iterable[index:min(index + step, to_delete)]
+
+    for batch in batch_gen(refs, 50):
+        if not dry_run:
+            queue.push(batch)
+        else:
+            print(batch)
+
+
+@crossbow.command()
+@click.option('--days', default=30,
+              help='Notification will be sent if expiration date is '
+                   'closer than the number of days.')
+@click.option('--sender-name', '-n',
+              help='Name to use for report e-mail.')
+@click.option('--sender-email', '-e',
+              help='E-mail to use for report e-mail.')
+@click.option('--recipient-email', '-r',
+              help='Where to send the e-mail report')
+@click.option('--smtp-user', '-u',
+              help='E-mail address to use for SMTP login')
+@click.option('--smtp-password', '-P',
+              help='SMTP password to use for report e-mail.')
+@click.option('--smtp-server', '-s', default='smtp.gmail.com',
+              help='SMTP server to use for report e-mail.')
+@click.option('--smtp-port', '-p', default=465,
+              help='SMTP port to use for report e-mail.')
+@click.option('--send/--dry-run', default=False,
+              help='Just display the report, don\'t send it')
+@click.pass_obj
+def notify_token_expiration(obj, days, sender_name, sender_email,
+                            recipient_email, smtp_user, smtp_password,
+                            smtp_server, smtp_port, send):
+    """
+    Check if token is close to expiration and send email notifying.
+    """
+    output = obj['output']
+    queue = obj['queue']
+
+    token_expiration_date = queue.token_expiration_date()
+    days_left = 0
+    if token_expiration_date:
+        days_left = (token_expiration_date - date.today()).days
+        if days_left > days:
+            output.write("Notification not sent. " +
+                         f"Token will expire in {days_left} days.")
+            return
+
+    class TokenExpirationReport:
+        def __init__(self, token_expiration_date, days_left):
+            self.token_expiration_date = token_expiration_date
+            self.days_left = days_left
+
+    email_report = EmailReport(
+        report=TokenExpirationReport(
+            token_expiration_date or "ALREADY_EXPIRED", days_left),
+        sender_name=sender_name,
+        sender_email=sender_email,
+        recipient_email=recipient_email
+    )
+
+    message = email_report.render("token_expiration").strip()
+    if send:
+        ReportUtils.send_email(
+            smtp_user=smtp_user,
+            smtp_password=smtp_password,
+            smtp_server=smtp_server,
+            smtp_port=smtp_port,
+            recipient_email=recipient_email,
+            message=message
+        )
+    else:
+        output.write(message)
diff --git a/dev/archery/archery/crossbow/core.py b/dev/archery/archery/crossbow/core.py
index 49f915ec82d..fbb76d92aec 100644
--- a/dev/archery/archery/crossbow/core.py
+++ b/dev/archery/archery/crossbow/core.py
@@ -28,6 +28,7 @@
 from io import StringIO
 from pathlib import Path
 from datetime import date
+import warnings
 
 import jinja2
 from ruamel.yaml import YAML
@@ -133,7 +134,7 @@ def format_all(items, pattern):
 
 # configurations for setting up branch skipping
 # - appveyor has a feature to skip builds without an appveyor.yml
-# - travis reads from the master branch and applies the rules
+# - travis reads from the default branch and applies the rules
 # - circle requires the configuration to be present on all branch, even ones
 #   that are configured to be skipped
 # - azure skips branches without azure-pipelines.yml by default
@@ -199,7 +200,7 @@ def credentials(self, url, username_from_url, allowed_types):
 
         if (allowed_types &
                 pygit2.credentials.GIT_CREDENTIAL_USERPASS_PLAINTEXT):
-            return pygit2.UserPass(self.token, 'x-oauth-basic')
+            return pygit2.UserPass('x-oauth-basic', self.token)
         else:
             return None
 
@@ -209,12 +210,16 @@ def _git_ssh_to_https(url):
 
 
 def _parse_github_user_repo(remote_url):
-    m = re.match(r'.*\/([^\/]+)\/([^\/\.]+)(\.git)?$', remote_url)
+    # TODO: use a proper URL parser instead?
+    m = re.match(r'.*\/([^\/]+)\/([^\/\.]+)(\.git|/)?$', remote_url)
     if m is None:
-        raise CrossbowError(
-            "Unable to parse the github owner and repository from the "
-            "repository's remote url '{}'".format(remote_url)
-        )
+        # Perhaps it's simply "username/reponame"?
+        m = re.match(r'^(\w+)/(\w+)$', remote_url)
+        if m is None:
+            raise CrossbowError(
+                f"Unable to parse the github owner and repository from the "
+                f"repository's remote url {remote_url!r}"
+            )
     user, repo = m.group(1), m.group(2)
     return user, repo
 
@@ -357,6 +362,29 @@ def signature(self):
         return pygit2.Signature(self.user_name, self.user_email,
                                 int(time.time()))
 
+    @property
+    def default_branch_name(self):
+        default_branch_name = os.getenv("ARCHERY_DEFAULT_BRANCH")
+
+        if default_branch_name is None:
+            try:
+                ref_obj = self.repo.references["refs/remotes/origin/HEAD"]
+                target_name = ref_obj.target
+                target_name_tokenized = target_name.split("/")
+                default_branch_name = target_name_tokenized[-1]
+            except KeyError:
+                # TODO: ARROW-18011 to track changing the hard coded default
+                # value from "master" to "main".
+                default_branch_name = "master"
+                warnings.warn('Unable to determine default branch name: '
+                              'ARCHERY_DEFAULT_BRANCH environment variable is '
+                              'not set. Git repository does not contain a '
+                              '\'refs/remotes/origin/HEAD\'reference. Setting '
+                              'the default branch name to ' +
+                              default_branch_name, RuntimeWarning)
+
+        return default_branch_name
+
     def create_tree(self, files):
         builder = self.repo.TreeBuilder()
 
@@ -378,7 +406,7 @@ def create_commit(self, files, parents=None, message='',
         if parents is None:
             # by default use the main branch as the base of the new branch
             # required to reuse github actions cache across crossbow tasks
-            commit, _ = self.repo.resolve_refish("master")
+            commit, _ = self.repo.resolve_refish(self.default_branch_name)
             parents = [commit.id]
         tree_id = self.create_tree(files)
 
@@ -416,22 +444,39 @@ def file_contents(self, commit_id, file):
         blob = self.repo[entry.id]
         return blob.data
 
+    def _github_login(self, github_token):
+        """Returns a logged in github3.GitHub instance"""
+        if not _have_github3:
+            raise ImportError('Must install github3.py')
+        github_token = github_token or self.github_token
+        session = github3.session.GitHubSession(
+            default_connect_timeout=10,
+            default_read_timeout=30
+        )
+        github = github3.GitHub(session=session)
+        github.login(token=github_token)
+        return github
+
     def as_github_repo(self, github_token=None):
         """Converts it to a repository object which wraps the GitHub API"""
         if self._github_repo is None:
-            if not _have_github3:
-                raise ImportError('Must install github3.py')
-            github_token = github_token or self.github_token
+            github = self._github_login(github_token)
             username, reponame = _parse_github_user_repo(self.remote_url)
-            session = github3.session.GitHubSession(
-                default_connect_timeout=10,
-                default_read_timeout=30
-            )
-            github = github3.GitHub(session=session)
-            github.login(token=github_token)
             self._github_repo = github.repository(username, reponame)
         return self._github_repo
 
+    def token_expiration_date(self, github_token=None):
+        """Returns the expiration date for the github_token provided"""
+        github = self._github_login(github_token)
+        # github3 hides the headers from us. Use the _get method
+        # to access the response headers.
+        resp = github._get(github.session.base_url)
+        # Response in the form '2023-01-23 10:40:28 UTC'
+        date_string = resp.headers.get(
+            'github-authentication-token-expiration')
+        if date_string:
+            return date.fromisoformat(date_string.split()[0])
+
     def github_commit(self, sha):
         repo = self.as_github_repo()
         return repo.commit(sha)
@@ -542,8 +587,11 @@ def github_overwrite_release_assets(self, tag_name, target_commitish,
                         'Unsupported upload method {}'.format(method)
                     )
 
-    def github_pr(self, title, head=None, base="master", body=None,
+    def github_pr(self, title, head=None, base=None, body=None,
                   github_token=None, create=False):
+        if create:
+            # Default value for base is the default_branch_name
+            base = self.default_branch_name if base is None else base
         github_token = github_token or self.github_token
         repo = self.as_github_repo(github_token=github_token)
         if create:
@@ -557,7 +605,8 @@ def github_pr(self, title, head=None, base="master", body=None,
                 if title in pull.title:
                     return pull
             raise CrossbowError(
-                f"Pull request with Title: {title} not found"
+                f"Pull request with Title: {title!r} not found "
+                f"in repository {repo.full_name!r}"
             )
 
 
@@ -659,7 +708,7 @@ def put(self, job, prefix='build', increment_job_id=True):
             raise CrossbowError('`job.branch` is automatically generated, '
                                 'thus it must be blank')
 
-        job._queue = self
+        job.queue = self
         if increment_job_id:
             # auto increment and set next job id, e.g. build-85
             job.branch = self._next_job_id(prefix)
@@ -675,6 +724,7 @@ def put(self, job, prefix='build', increment_job_id=True):
             params = {
                 **job.params,
                 "arrow": job.target,
+                "job": job,
                 "queue_remote_url": self.remote_url
             }
             files = task.render_files(job.template_searchpath, params=params)
@@ -695,7 +745,7 @@ def get_version(root, **kwargs):
 
     # query the calculated version based on the git tags
     kwargs['describe_command'] = (
-        'git describe --dirty --tags --long --match "apache-arrow-[0-9].*"'
+        'git describe --dirty --tags --long --match "apache-arrow-[0-9]*.*"'
     )
     version = parse_git_version(root, **kwargs)
     tag = str(version.tag)
@@ -732,14 +782,19 @@ class Target(Serializable):
     (currently only an email address where the notification should be sent).
     """
 
-    def __init__(self, head, branch, remote, version, email=None):
+    def __init__(self, head, branch, remote, version, r_version, email=None):
         self.head = head
         self.email = email
         self.branch = branch
         self.remote = remote
         self.github_repo = "/".join(_parse_github_user_repo(remote))
         self.version = version
+        self.r_version = r_version
         self.no_rc_version = re.sub(r'-rc\d+\Z', '', version)
+        self.no_rc_r_version = re.sub(r'-rc\d+\Z', '', r_version)
+        # TODO(ARROW-17552): Remove "master" from default_branch after
+        #                    migration to "main".
+        self.default_branch = ['main', 'master']
         # Semantic Versioning 1.0.0: https://semver.org/spec/v1.0.0.html
         #
         # > A pre-release version number MAY be denoted by appending an
@@ -753,6 +808,14 @@ def __init__(self, head, branch, remote, version, email=None):
         #   '0.16.1-dev10'
         self.no_rc_semver_version = \
             re.sub(r'\.(dev\d+)\Z', r'-\1', self.no_rc_version)
+        # Substitute dev version for SNAPSHOT
+        #
+        # Example:
+        #
+        # '10.0.0.dev235' ->
+        # '10.0.0-SNAPSHOT'
+        self.no_rc_snapshot_version = re.sub(
+            r'\.(dev\d+)$', '-SNAPSHOT', self.no_rc_version)
 
     @classmethod
     def from_repo(cls, repo, head=None, branch=None, remote=None, version=None,
@@ -774,8 +837,44 @@ def from_repo(cls, repo, head=None, branch=None, remote=None, version=None,
         if email is None:
             email = repo.user_email
 
+        version_dev_match = re.match(r".*\.dev(\d+)$", version)
+        if version_dev_match:
+            with open(f"{repo.path}/r/DESCRIPTION") as description_file:
+                description = description_file.read()
+                r_version_pattern = re.compile(r"^Version:\s*(.*)$",
+                                               re.MULTILINE)
+                r_version = re.findall(r_version_pattern, description)[0]
+            if r_version:
+                version_dev = int(version_dev_match[1])
+                # "1_0000_00_00 +" is for generating a greater version
+                # than YYYYMMDD. For example, 1_0000_00_01
+                # (version_dev == 1 case) is greater than 2022_10_16.
+                #
+                # Why do we need a greater version than YYYYMMDD? It's
+                # for keeping backward compatibility. We used
+                # MAJOR.MINOR.PATCH.YYYYMMDD as our nightly package
+                # version. (See also ARROW-16403). If we use "9000 +
+                # version_dev" here, a developer that used
+                # 9.0.0.20221016 can't upgrade to the later nightly
+                # package unless we release 10.0.0. Because 9.0.0.9234
+                # or something is less than 9.0.0.20221016.
+                r_version_dev = 1_0000_00_00 + version_dev
+                # version: 10.0.0.dev234
+                # r_version: 9.0.0.9000
+                # -> 9.0.0.100000234
+                r_version = re.sub(r"\.9000\Z", f".{r_version_dev}", r_version)
+            else:
+                r_version = version
+        else:
+            r_version = version
+
         return cls(head=head, email=email, branch=branch, remote=remote,
-                   version=version)
+                   version=version, r_version=r_version)
+
+    def is_default_branch(self):
+        # TODO(ARROW-17552): Switch the condition to "is" instead of "in"
+        #                    once "master" is removed from "default_branch".
+        return self.branch in self.default_branch
 
 
 class Task(Serializable):
@@ -790,7 +889,7 @@ class Task(Serializable):
     submitting the job to a queue.
     """
 
-    def __init__(self, ci, template, artifacts=None, params=None):
+    def __init__(self, name, ci, template, artifacts=None, params=None):
         assert ci in {
             'circle',
             'travis',
@@ -799,6 +898,7 @@ def __init__(self, ci, template, artifacts=None, params=None):
             'github',
             'drone',
         }
+        self.name = name
         self.ci = ci
         self.template = template
         self.artifacts = artifacts or []
@@ -1011,6 +1111,7 @@ def render_tasks(self, params=None):
         params = {
             **self.params,
             "arrow": self.target,
+            "job": self,
             **(params or {})
         }
         for task_name, task in self.tasks.items():
@@ -1077,14 +1178,19 @@ def from_config(cls, config, target, tasks=None, groups=None, params=None):
 
         # instantiate the tasks
         tasks = {}
-        versions = {'version': target.version,
-                    'no_rc_version': target.no_rc_version,
-                    'no_rc_semver_version': target.no_rc_semver_version}
+        versions = {
+            'version': target.version,
+            'no_rc_version': target.no_rc_version,
+            'no_rc_semver_version': target.no_rc_semver_version,
+            'no_rc_snapshot_version': target.no_rc_snapshot_version,
+            'r_version': target.r_version,
+            'no_rc_r_version': target.no_rc_r_version,
+        }
         for task_name, task in task_definitions.items():
+            task = task.copy()
             artifacts = task.pop('artifacts', None) or []  # because of yaml
             artifacts = [fn.format(**versions) for fn in artifacts]
-            tasks[task_name] = Task(artifacts=artifacts, **task)
-
+            tasks[task_name] = Task(task_name, artifacts=artifacts, **task)
         return cls(target=target, tasks=tasks, params=params,
                    template_searchpath=config.template_searchpath)
 
@@ -1219,7 +1325,7 @@ def validate(self):
         # validate that the tasks are constructible
         for task_name, task in self['tasks'].items():
             try:
-                Task(**task)
+                Task(task_name, **task)
             except Exception as e:
                 raise CrossbowError(
                     'Unable to construct a task object from the '
@@ -1227,22 +1333,33 @@ def validate(self):
                     'is: `{}`'.format(task_name, str(e))
                 )
 
+        # Get the default branch name from the repository
+        arrow_source_dir = ArrowSources.find()
+        repo = Repo(arrow_source_dir.path)
+
         # validate that the defined tasks are renderable, in order to to that
         # define the required object with dummy data
         target = Target(
             head='e279a7e06e61c14868ca7d71dea795420aea6539',
-            branch='master',
+            branch=repo.default_branch_name,
             remote='https://github.com/apache/arrow',
             version='1.0.0dev123',
+            r_version='0.13.0.100000123',
             email='dummy@example.ltd'
         )
+        job = Job.from_config(config=self,
+                              target=target,
+                              tasks=self['tasks'],
+                              groups=self['groups'],
+                              params={})
 
         for task_name, task in self['tasks'].items():
-            task = Task(**task)
+            task = Task(task_name, **task)
             files = task.render_files(
                 self.template_searchpath,
                 params=dict(
                     arrow=target,
+                    job=job,
                     queue_remote_url='https://github.com/org/crossbow'
                 )
             )
diff --git a/dev/archery/archery/crossbow/reports.py b/dev/archery/archery/crossbow/reports.py
index 88ecefda91c..1cf19841c69 100644
--- a/dev/archery/archery/crossbow/reports.py
+++ b/dev/archery/archery/crossbow/reports.py
@@ -20,6 +20,7 @@
 import operator
 import fnmatch
 import functools
+import time
 
 import click
 import requests
@@ -41,7 +42,7 @@ class Report:
         "arrow_commit",
     ]
 
-    def __init__(self, job, task_filters=None):
+    def __init__(self, job, task_filters=None, wait_for_task=None):
         self.job = job
 
         tasks = sorted(job.tasks.items())
@@ -53,6 +54,7 @@ def __init__(self, job, task_filters=None):
             tasks = [(name, task) for name, task in tasks if name in filtered]
 
         self._tasks = dict(tasks)
+        self._wait_for_task = wait_for_task
 
     @property
     def repo_url(self):
@@ -66,10 +68,16 @@ def branch_url(self, branch):
         return '{}/tree/{}'.format(self.repo_url, branch)
 
     def task_url(self, task):
-        if task.status().build_links:
+        build_links = task.status().build_links
+        # Only wait if the link to the actual build is not present
+        # and refresh task status.
+        if not build_links and self._wait_for_task:
+            time.sleep(self._wait_for_task)
+            build_links = task.status(force_query=True).build_links
+        if build_links:
             # show link to the actual build, some CI providers implement
             # the statuses API others implement the checks API, retrieve any.
-            return task.status().build_links[0]
+            return build_links[0]
         else:
             # show link to the branch if no status build link was found.
             return self.branch_url(task.branch)
@@ -257,7 +265,8 @@ def write_csv(cls, report, add_headers=True):
 
 class EmailReport(JinjaReport):
     templates = {
-        'text': 'email_nightly_report.txt.j2',
+        'nightly_report': 'email_nightly_report.txt.j2',
+        'token_expiration': 'email_token_expiration.txt.j2',
     }
     fields = [
         'report',
@@ -269,12 +278,11 @@ class EmailReport(JinjaReport):
 
 class CommentReport(Report):
 
-    _markdown_badge = '[![{title}]({badge})]({url})'
+    _markdown_badge = '[![{title}]({badge})]({{url}})'
 
     badges = {
         'github': _markdown_badge.format(
             title='Github Actions',
-            url='https://github.com/{repo}/actions?query=branch:{branch}',
             badge=(
                 'https://github.com/{repo}/workflows/Crossbow/'
                 'badge.svg?branch={branch}'
@@ -282,43 +290,35 @@ class CommentReport(Report):
         ),
         'azure': _markdown_badge.format(
             title='Azure',
-            url=(
-                'https://dev.azure.com/{repo}/_build/latest'
-                '?definitionId=1&branchName={branch}'
-            ),
             badge=(
                 'https://dev.azure.com/{repo}/_apis/build/status/'
                 '{repo_dotted}?branchName={branch}'
             )
         ),
         'travis': _markdown_badge.format(
-            title='TravisCI',
-            url='https://app.travis-ci.com/github/{repo}/branches',
+            title='Travis CI',
             badge='https://img.shields.io/travis/{repo}/{branch}.svg'
         ),
         'circle': _markdown_badge.format(
             title='CircleCI',
-            url='https://circleci.com/gh/{repo}/tree/{branch}',
             badge=(
                 'https://img.shields.io/circleci/build/github'
                 '/{repo}/{branch}.svg'
             )
         ),
         'appveyor': _markdown_badge.format(
-            title='Appveyor',
-            url='https://ci.appveyor.com/project/{repo}/history',
+            title='AppVeyor',
             badge='https://img.shields.io/appveyor/ci/{repo}/{branch}.svg'
         ),
         'drone': _markdown_badge.format(
             title='Drone',
-            url='https://cloud.drone.io/{repo}',
             badge='https://img.shields.io/drone/build/{repo}/{branch}.svg'
         ),
     }
 
-    def __init__(self, job, crossbow_repo):
+    def __init__(self, job, crossbow_repo, wait_for_task=None):
         self.crossbow_repo = crossbow_repo
-        super().__init__(job)
+        super().__init__(job, wait_for_task=wait_for_task)
 
     def show(self):
         url = 'https://github.com/{repo}/branches/all?query={branch}'
@@ -338,7 +338,8 @@ def show(self):
                 badge = template.format(
                     repo=self.crossbow_repo,
                     repo_dotted=self.crossbow_repo.replace('/', '.'),
-                    branch=branch
+                    branch=branch,
+                    url=self.task_url(task)
                 )
             except KeyError:
                 badge = 'unsupported CI service `{}`'.format(task.ci)
diff --git a/dev/archery/archery/crossbow/tests/fixtures/chat-report-extra-message-failure.txt b/dev/archery/archery/crossbow/tests/fixtures/chat-report-extra-message-failure.txt
index a595838e026..e5565eb8754 100644
--- a/dev/archery/archery/crossbow/tests/fixtures/chat-report-extra-message-failure.txt
+++ b/dev/archery/archery/crossbow/tests/fixtures/chat-report-extra-message-failure.txt
@@ -1,5 +1,5 @@
 
-*<https://crossbow.voltrondata.com|Archery crossbow report> for <https://github.com/apache/crossbow/branches/all?query=ursabot-1|ursabot-1>*
+*<http://crossbow.voltrondata.com|Archery crossbow report> for <https://github.com/apache/crossbow/branches/all?query=ursabot-1|ursabot-1>*
 
 :x: *1 failed jobs*
 - <https://github.com/apache/crossbow/runs/2|wheel-osx-cp37m>
diff --git a/dev/archery/archery/crossbow/tests/fixtures/chat-report-extra-message-success.txt b/dev/archery/archery/crossbow/tests/fixtures/chat-report-extra-message-success.txt
index 8d9a2efcdd9..b5a0d48805c 100644
--- a/dev/archery/archery/crossbow/tests/fixtures/chat-report-extra-message-success.txt
+++ b/dev/archery/archery/crossbow/tests/fixtures/chat-report-extra-message-success.txt
@@ -1,5 +1,5 @@
 
-*<https://crossbow.voltrondata.com|Archery crossbow report> for <https://github.com/apache/crossbow/branches/all?query=ursabot-1|ursabot-1>*
+*<http://crossbow.voltrondata.com|Archery crossbow report> for <https://github.com/apache/crossbow/branches/all?query=ursabot-1|ursabot-1>*
 
 
 :tada: *4 successful jobs*
diff --git a/dev/archery/archery/crossbow/tests/fixtures/chat-report.txt b/dev/archery/archery/crossbow/tests/fixtures/chat-report.txt
index 85d5dc7f954..e4c6bd8a521 100644
--- a/dev/archery/archery/crossbow/tests/fixtures/chat-report.txt
+++ b/dev/archery/archery/crossbow/tests/fixtures/chat-report.txt
@@ -1,5 +1,5 @@
 
-*<https://crossbow.voltrondata.com|Archery crossbow report> for <https://github.com/apache/crossbow/branches/all?query=ursabot-1|ursabot-1>*
+*<http://crossbow.voltrondata.com|Archery crossbow report> for <https://github.com/apache/crossbow/branches/all?query=ursabot-1|ursabot-1>*
 
 :x: *1 failed jobs*
 - <https://github.com/apache/crossbow/runs/2|wheel-osx-cp37m>
diff --git a/dev/archery/archery/crossbow/tests/fixtures/crossbow-job-no-failure.yaml b/dev/archery/archery/crossbow/tests/fixtures/crossbow-job-no-failure.yaml
index 15e8ca3ff5e..eb03bbee0bd 100644
--- a/dev/archery/archery/crossbow/tests/fixtures/crossbow-job-no-failure.yaml
+++ b/dev/archery/archery/crossbow/tests/fixtures/crossbow-job-no-failure.yaml
@@ -5,7 +5,9 @@ target: !Target
   branch: refs/pull/4435/merge
   remote: https://github.com/apache/arrow
   version: 0.13.0.dev306
+  r_version: 0.12.0.100000306
   no_rc_version: 0.13.0.dev306
+  no_rc_r_version: 0.12.0.100000306
 tasks:
   docker-cpp-cmake32: !Task
     ci: circle
@@ -64,4 +66,4 @@ branch: ursabot-1
 _queue: !Queue
   path: the_path
   github_token: xxxxxxxxx
-  _remote_url: https://github.com/apache/crossbow
\ No newline at end of file
+  _remote_url: https://github.com/apache/crossbow
diff --git a/dev/archery/archery/crossbow/tests/fixtures/crossbow-job.yaml b/dev/archery/archery/crossbow/tests/fixtures/crossbow-job.yaml
index 90eab704988..f6de07dd456 100644
--- a/dev/archery/archery/crossbow/tests/fixtures/crossbow-job.yaml
+++ b/dev/archery/archery/crossbow/tests/fixtures/crossbow-job.yaml
@@ -5,7 +5,9 @@ target: !Target
   branch: refs/pull/4435/merge
   remote: https://github.com/apache/arrow
   version: 0.13.0.dev306
+  r_version: 0.12.0.100000306
   no_rc_version: 0.13.0.dev306
+  no_rc_r_version: 0.12.0.100000306
 tasks:
   docker-cpp-cmake32: !Task
     ci: circle
@@ -64,4 +66,4 @@ branch: ursabot-1
 _queue: !Queue
   path: the_path
   github_token: xxxxxxxxx
-  _remote_url: https://github.com/apache/crossbow
\ No newline at end of file
+  _remote_url: https://github.com/apache/crossbow
diff --git a/dev/archery/archery/crossbow/tests/fixtures/crossbow-success-message.md b/dev/archery/archery/crossbow/tests/fixtures/crossbow-success-message.md
index 7da0184945e..414410ab287 100644
--- a/dev/archery/archery/crossbow/tests/fixtures/crossbow-success-message.md
+++ b/dev/archery/archery/crossbow/tests/fixtures/crossbow-success-message.md
@@ -4,7 +4,7 @@ Submitted crossbow builds: [{repo} @ {branch}](https://github.com/{repo}/branche
 
 |Task|Status|
 |----|------|
-|docker-cpp-cmake32|[![CircleCI](https://img.shields.io/circleci/build/github/{repo}/{branch}-circle-docker-cpp-cmake32.svg)](https://circleci.com/gh/{repo}/tree/{branch}-circle-docker-cpp-cmake32)|
-|wheel-osx-cp36m|[![TravisCI](https://img.shields.io/travis/{repo}/{branch}-travis-wheel-osx-cp36m.svg)](https://app.travis-ci.com/github/{repo}/branches)|
-|wheel-osx-cp37m|[![TravisCI](https://img.shields.io/travis/{repo}/{branch}-travis-wheel-osx-cp37m.svg)](https://app.travis-ci.com/github/{repo}/branches)|
-|wheel-win-cp36m|[![Appveyor](https://img.shields.io/appveyor/ci/{repo}/{branch}-appveyor-wheel-win-cp36m.svg)](https://ci.appveyor.com/project/{repo}/history)|
+|docker-cpp-cmake32|[![CircleCI](https://img.shields.io/circleci/build/github/{repo}/{branch}-circle-docker-cpp-cmake32.svg)](https://github.com/apache/crossbow/runs/1)|
+|wheel-osx-cp36m|[![Travis CI](https://img.shields.io/travis/{repo}/{branch}-travis-wheel-osx-cp36m.svg)](https://github.com/apache/crossbow/runs/3)|
+|wheel-osx-cp37m|[![Travis CI](https://img.shields.io/travis/{repo}/{branch}-travis-wheel-osx-cp37m.svg)](https://github.com/apache/crossbow/runs/2)|
+|wheel-win-cp36m|[![AppVeyor](https://img.shields.io/appveyor/ci/{repo}/{branch}-appveyor-wheel-win-cp36m.svg)](https://github.com/apache/crossbow/runs/4)|
diff --git a/dev/archery/archery/crossbow/tests/fixtures/email-report.txt b/dev/archery/archery/crossbow/tests/fixtures/email-report.txt
index 81360bf3cb9..4480b5b515d 100644
--- a/dev/archery/archery/crossbow/tests/fixtures/email-report.txt
+++ b/dev/archery/archery/crossbow/tests/fixtures/email-report.txt
@@ -4,7 +4,7 @@ Subject: [NIGHTLY] Arrow Build Report for Job ursabot-1: 2 failed, 1 pending
 
 Arrow Build Report for Job ursabot-1
 
-See https://crossbow.voltrondata.com/ for more information.
+See http://crossbow.voltrondata.com/ for more information.
 
 All tasks: https://github.com/apache/crossbow/branches/all?query=ursabot-1
 
diff --git a/dev/archery/archery/crossbow/tests/test_reports.py b/dev/archery/archery/crossbow/tests/test_reports.py
index 6f9eeec5c92..601d3af1ff1 100644
--- a/dev/archery/archery/crossbow/tests/test_reports.py
+++ b/dev/archery/archery/crossbow/tests/test_reports.py
@@ -80,7 +80,9 @@ def test_crossbow_email_report(load_fixture):
                                sender_email="sender@arrow.com",
                                recipient_email="recipient@arrow.com")
 
-    assert email_report.render("text") == textwrap.dedent(expected_msg)
+    assert (
+        email_report.render("nightly_report") == textwrap.dedent(expected_msg)
+    )
 
 
 def test_crossbow_export_report(load_fixture):
diff --git a/dev/archery/archery/docker/cli.py b/dev/archery/archery/docker/cli.py
index bbdd2261db6..42caecd7427 100644
--- a/dev/archery/archery/docker/cli.py
+++ b/dev/archery/archery/docker/cli.py
@@ -16,6 +16,7 @@
 # under the License.
 
 import os
+import sys
 
 import click
 
@@ -216,7 +217,8 @@ def docker_run(obj, image, command, *, env, user, force_pull, force_build,
     PYTHON=3.8 archery docker run conda-python
 
     # disable the cache only for the leaf image
-    PANDAS=master archery docker run --no-leaf-cache conda-python-pandas
+    PANDAS=upstream_devel archery docker run --no-leaf-cache \
+        conda-python-pandas
 
     # entirely skip building the image
     archery docker run --no-pull --no-build conda-python
@@ -289,3 +291,27 @@ def docker_compose_images(obj):
     click.echo('Available images:')
     for image in compose.images():
         click.echo(f' - {image}')
+
+
+@docker.command('info')
+@click.argument('service_name')
+@click.option('--show', '-s', required=False,
+              help="Show only specific docker-compose key. Examples of keys:"
+                   " command, environment, build, dockerfile")
+@click.pass_obj
+def docker_compose_info(obj, service_name, show):
+    """Show docker-compose definition info for service_name.
+
+    SERVICE_NAME is the name of the docker service defined on
+    the docker-compose. Look at `archery docker images` output for names.
+    """
+    compose = obj['compose']
+    try:
+        service = compose.config.raw_config["services"][service_name]
+    except KeyError:
+        click.echo(f'Service name {service_name} could not be found', err=True)
+        sys.exit(1)
+    else:
+        click.echo(f'Service {service_name} docker-compose config:')
+        output = "\n".join(compose.info(service, show))
+        click.echo(output)
diff --git a/dev/archery/archery/docker/core.py b/dev/archery/archery/docker/core.py
index 4d6da095b80..b0e9d32552c 100644
--- a/dev/archery/archery/docker/core.py
+++ b/dev/archery/archery/docker/core.py
@@ -16,7 +16,7 @@
 # under the License.
 
 import os
-import re
+import shlex
 import subprocess
 from io import StringIO
 
@@ -24,6 +24,7 @@
 from ruamel.yaml import YAML
 
 from ..utils.command import Command, default_bin
+from ..utils.source import arrow_path
 from ..compat import _ensure_path
 
 
@@ -42,12 +43,6 @@ def flatten(node, parents=None):
         raise TypeError(node)
 
 
-def _sanitize_command(cmd):
-    if isinstance(cmd, list):
-        cmd = " ".join(cmd)
-    return re.sub(r"\s+", " ", cmd)
-
-
 _arch_short_mapping = {
     'arm64v8': 'arm64',
 }
@@ -100,12 +95,12 @@ def _read_config(self, config_path, compose_bin):
         """
         yaml = YAML()
         with config_path.open() as fp:
-            config = yaml.load(fp)
+            self.raw_config = yaml.load(fp)
 
-        services = config['services'].keys()
-        self.hierarchy = dict(flatten(config.get('x-hierarchy', {})))
-        self.limit_presets = config.get('x-limit-presets', {})
-        self.with_gpus = config.get('x-with-gpus', [])
+        services = self.raw_config['services'].keys()
+        self.hierarchy = dict(flatten(self.raw_config.get('x-hierarchy', {})))
+        self.limit_presets = self.raw_config.get('x-limit-presets', {})
+        self.with_gpus = self.raw_config.get('x-with-gpus', [])
         nodes = self.hierarchy.keys()
         errors = []
 
@@ -294,7 +289,7 @@ def _build(service, use_cache):
 
                 args.extend([
                     '--output', 'type=docker',
-                    '-f', service['build']['dockerfile'],
+                    '-f', arrow_path(service['build']['dockerfile']),
                     '-t', service['image'],
                     service['build'].get('context', '.')
                 ])
@@ -306,7 +301,7 @@ def _build(service, use_cache):
                 for img in cache_from:
                     args.append('--cache-from="{}"'.format(img))
                 args.extend([
-                    '-f', service['build']['dockerfile'],
+                    '-f', arrow_path(service['build']['dockerfile']),
                     '-t', service['image'],
                     service['build'].get('context', '.')
                 ])
@@ -347,7 +342,8 @@ def run(self, service_name, command=None, *, env=None, volumes=None,
 
             # append env variables from the compose conf
             for k, v in service.get('environment', {}).items():
-                args.extend(['-e', '{}={}'.format(k, v)])
+                if v is not None:
+                    args.extend(['-e', '{}={}'.format(k, v)])
 
             # append volumes from the compose conf
             for v in service.get('volumes', []):
@@ -381,10 +377,13 @@ def run(self, service_name, command=None, *, env=None, volumes=None,
             if command is not None:
                 args.append(command)
             else:
-                # replace whitespaces from the preformatted compose command
-                cmd = _sanitize_command(service.get('command', ''))
+                cmd = service.get('command', '')
                 if cmd:
-                    args.append(cmd)
+                    # service command might be already defined as a list
+                    # on the docker-compose yaml file.
+                    if isinstance(cmd, list):
+                        cmd = shlex.join(cmd)
+                    args.extend(shlex.split(cmd))
 
             # execute as a plain docker cli command
             self._execute_docker('run', '--rm', *args)
@@ -419,3 +418,22 @@ def _push(service):
 
     def images(self):
         return sorted(self.config.hierarchy.keys())
+
+    def info(self, key_name, filters=None, prefix=' '):
+        output = []
+        for key, value in key_name.items():
+            if hasattr(value, 'items'):
+                temp_filters = filters
+                if key == filters or filters is None:
+                    output.append(f'{prefix} {key}')
+                    # Keep showing this specific key
+                    # as parent matched filter
+                    temp_filters = None
+                output.extend(self.info(value, temp_filters, prefix + "  "))
+            else:
+                if key == filters or filters is None:
+                    output.append(
+                        f'{prefix} {key}: ' +
+                        f'{value if value is not None else "<inherited>"}'
+                    )
+        return output
diff --git a/dev/archery/archery/docker/tests/test_docker.py b/dev/archery/archery/docker/tests/test_docker.py
index c268bb2312d..386b7c2bdae 100644
--- a/dev/archery/archery/docker/tests/test_docker.py
+++ b/dev/archery/archery/docker/tests/test_docker.py
@@ -114,6 +114,11 @@
 arrow_compose_yml = """
 version: '3.5'
 
+x-sccache: &sccache
+  AWS_ACCESS_KEY_ID:
+  AWS_SECRET_ACCESS_KEY:
+  SCCACHE_BUCKET:
+
 x-with-gpus:
   - ubuntu-cuda
 
@@ -162,6 +167,8 @@
     image: org/ubuntu-cpp-cmake32
   ubuntu-c-glib:
     image: org/ubuntu-c-glib
+    environment:
+      <<: [*sccache]
   ubuntu-ruby:
     image: org/ubuntu-ruby
   ubuntu-cuda:
@@ -252,12 +259,12 @@ def test_arrow_example_validation_passes(arrow_compose_path):
 def test_compose_default_params_and_env(arrow_compose_path):
     compose = DockerCompose(arrow_compose_path, params=dict(
         UBUNTU='18.04',
-        DASK='master'
+        DASK='upstream_devel'
     ))
     assert compose.config.dotenv == arrow_compose_env
     assert compose.config.params == {
         'UBUNTU': '18.04',
-        'DASK': 'master',
+        'DASK': 'upstream_devel',
     }
 
 
@@ -485,7 +492,7 @@ def test_compose_push(arrow_compose_path):
 def test_compose_error(arrow_compose_path):
     compose = DockerCompose(arrow_compose_path, params=dict(
         PYTHON='3.8',
-        PANDAS='master'
+        PANDAS='upstream_devel'
     ))
 
     error = subprocess.CalledProcessError(99, [])
@@ -496,7 +503,7 @@ def test_compose_error(arrow_compose_path):
     exception_message = str(exc.value)
     assert "exited with a non-zero exit code 99" in exception_message
     assert "PANDAS: latest" in exception_message
-    assert "export PANDAS=master" in exception_message
+    assert "export PANDAS=upstream_devel" in exception_message
 
 
 def test_image_with_gpu(arrow_compose_path):
@@ -509,7 +516,7 @@ def test_image_with_gpu(arrow_compose_path):
             "-e", "OTHER_ENV=2",
             "-v", "/host:/container:rw",
             "org/ubuntu-cuda",
-            '/bin/bash -c "echo 1 > /tmp/dummy && cat /tmp/dummy"'
+            "/bin/bash", "-c", "echo 1 > /tmp/dummy && cat /tmp/dummy",
         ]
     ]
     with assert_docker_calls(compose, expected_calls):
@@ -529,3 +536,39 @@ def test_listing_images(arrow_compose_path):
         'ubuntu-cuda',
         'ubuntu-ruby',
     ]
+
+
+def test_service_info(arrow_compose_path):
+    compose = DockerCompose(arrow_compose_path)
+    service = compose.config.raw_config["services"]["conda-cpp"]
+    assert compose.info(service) == [
+        "  image: org/conda-cpp",
+        "  build",
+        "    context: .",
+        "    dockerfile: ci/docker/conda-cpp.dockerfile"
+    ]
+
+
+def test_service_info_filters(arrow_compose_path):
+    compose = DockerCompose(arrow_compose_path)
+    service = compose.config.raw_config["services"]["conda-cpp"]
+    assert compose.info(service, filters="dockerfile") == [
+        "    dockerfile: ci/docker/conda-cpp.dockerfile"
+    ]
+
+
+def test_service_info_non_existing_filters(arrow_compose_path):
+    compose = DockerCompose(arrow_compose_path)
+    service = compose.config.raw_config["services"]["conda-cpp"]
+    assert compose.info(service, filters="non-existing") == []
+
+
+def test_service_info_inherited_env(arrow_compose_path):
+    compose = DockerCompose(arrow_compose_path)
+    service = compose.config.raw_config["services"]["ubuntu-c-glib"]
+    assert compose.info(service, filters="environment") == [
+        "  environment",
+        "    AWS_ACCESS_KEY_ID: <inherited>",
+        "    AWS_SECRET_ACCESS_KEY: <inherited>",
+        "    SCCACHE_BUCKET: <inherited>"
+    ]
diff --git a/dev/archery/archery/integration/datagen.py b/dev/archery/archery/integration/datagen.py
index a559c54b47c..69397fc0412 100644
--- a/dev/archery/archery/integration/datagen.py
+++ b/dev/archery/archery/integration/datagen.py
@@ -1647,7 +1647,6 @@ def _temp_path():
         .skip_category('Go')
         .skip_category('JS'),
 
-        # TODO(ARROW-3039, ARROW-5267): Dictionaries in GO
         generate_dictionary_case()
         .skip_category('C#'),
 
diff --git a/dev/archery/archery/integration/runner.py b/dev/archery/archery/integration/runner.py
index 6d6adb3c29c..887cbf92fed 100644
--- a/dev/archery/archery/integration/runner.py
+++ b/dev/archery/archery/integration/runner.py
@@ -35,8 +35,8 @@
 from .tester_java import JavaTester
 from .tester_js import JSTester
 from .tester_csharp import CSharpTester
-from .util import (ARROW_ROOT_DEFAULT, guid, SKIP_ARROW, SKIP_FLIGHT,
-                   printer)
+from .util import guid, SKIP_ARROW, SKIP_FLIGHT, printer
+from ..utils.source import ARROW_ROOT_DEFAULT
 from . import datagen
 
 
@@ -140,7 +140,6 @@ def _gold_tests(self, gold_dir):
             if prefix == '2.0.0-compression':
                 skip.add("C#")
                 skip.add("JS")
-                skip.add("Rust")
 
             # See https://github.com/apache/arrow/pull/9822 for how to
             # disable specific compression type tests.
@@ -430,11 +429,15 @@ def run_all_tests(with_cpp=True, with_java=True, with_js=True,
         Scenario(
             "middleware",
             description="Ensure headers are propagated via middleware.",
-            skip={"Rust"}   # TODO(ARROW-10961): tonic upgrade needed
         ),
         Scenario(
             "flight_sql",
             description="Ensure Flight SQL protocol is working as expected.",
+            skip={"Rust"}
+        ),
+        Scenario(
+            "flight_sql:extension",
+            description="Ensure Flight SQL extensions work as expected.",
             skip={"Rust", "Go"}
         ),
     ]
diff --git a/dev/archery/archery/integration/tester_cpp.py b/dev/archery/archery/integration/tester_cpp.py
index d59198361b5..52cc565dc00 100644
--- a/dev/archery/archery/integration/tester_cpp.py
+++ b/dev/archery/archery/integration/tester_cpp.py
@@ -20,7 +20,8 @@
 import subprocess
 
 from .tester import Tester
-from .util import run_cmd, ARROW_ROOT_DEFAULT, log
+from .util import run_cmd, log
+from ..utils.source import ARROW_ROOT_DEFAULT
 
 
 _EXE_PATH = os.environ.get(
diff --git a/dev/archery/archery/integration/tester_csharp.py b/dev/archery/archery/integration/tester_csharp.py
index 144709f2e95..3f24d5f2641 100644
--- a/dev/archery/archery/integration/tester_csharp.py
+++ b/dev/archery/archery/integration/tester_csharp.py
@@ -18,7 +18,8 @@
 import os
 
 from .tester import Tester
-from .util import run_cmd, ARROW_ROOT_DEFAULT, log
+from .util import run_cmd, log
+from ..utils.source import ARROW_ROOT_DEFAULT
 
 
 _EXE_PATH = os.path.join(
diff --git a/dev/archery/archery/integration/tester_java.py b/dev/archery/archery/integration/tester_java.py
index 4c85a3a30b1..45855079eb7 100644
--- a/dev/archery/archery/integration/tester_java.py
+++ b/dev/archery/archery/integration/tester_java.py
@@ -20,7 +20,8 @@
 import subprocess
 
 from .tester import Tester
-from .util import run_cmd, ARROW_ROOT_DEFAULT, log
+from .util import run_cmd, log
+from ..utils.source import ARROW_ROOT_DEFAULT
 
 
 def load_version_from_pom():
diff --git a/dev/archery/archery/integration/tester_js.py b/dev/archery/archery/integration/tester_js.py
index 80faefb8d86..6544a1fc6cc 100644
--- a/dev/archery/archery/integration/tester_js.py
+++ b/dev/archery/archery/integration/tester_js.py
@@ -18,7 +18,9 @@
 import os
 
 from .tester import Tester
-from .util import run_cmd, ARROW_ROOT_DEFAULT, log
+from .util import run_cmd, log
+from ..utils.source import ARROW_ROOT_DEFAULT
+
 
 _EXE_PATH = os.path.join(ARROW_ROOT_DEFAULT, 'js/bin')
 _VALIDATE = os.path.join(_EXE_PATH, 'integration.js')
diff --git a/dev/archery/archery/integration/tester_rust.py b/dev/archery/archery/integration/tester_rust.py
index 0e8943f2a8d..c7a94de2197 100644
--- a/dev/archery/archery/integration/tester_rust.py
+++ b/dev/archery/archery/integration/tester_rust.py
@@ -20,7 +20,8 @@
 import subprocess
 
 from .tester import Tester
-from .util import run_cmd, ARROW_ROOT_DEFAULT, log
+from .util import run_cmd, log
+from ..utils.source import ARROW_ROOT_DEFAULT
 
 
 _EXE_PATH = os.path.join(ARROW_ROOT_DEFAULT, "rust/target/debug")
diff --git a/dev/archery/archery/integration/util.py b/dev/archery/archery/integration/util.py
index a4c4982ecb3..80ba30052e4 100644
--- a/dev/archery/archery/integration/util.py
+++ b/dev/archery/archery/integration/util.py
@@ -17,7 +17,6 @@
 
 import contextlib
 import io
-import os
 import random
 import socket
 import subprocess
@@ -36,11 +35,6 @@ def guid():
 SKIP_ARROW = 'arrow'
 SKIP_FLIGHT = 'flight'
 
-ARROW_ROOT_DEFAULT = os.environ.get(
-    'ARROW_ROOT',
-    os.path.abspath(__file__).rsplit("/", 5)[0]
-)
-
 
 class _Printer:
     """
diff --git a/dev/archery/archery/lang/cpp.py b/dev/archery/archery/lang/cpp.py
index f113b43ba6e..c571719fbc8 100644
--- a/dev/archery/archery/lang/cpp.py
+++ b/dev/archery/archery/lang/cpp.py
@@ -54,7 +54,7 @@ def __init__(self,
                  with_dataset=None, with_filesystem=None, with_flight=None,
                  with_gandiva=None, with_gcs=None, with_hdfs=None,
                  with_hiveserver2=None,
-                 with_ipc=True, with_json=None, with_jni=None,
+                 with_ipc=True, with_json=None,
                  with_mimalloc=None, with_jemalloc=None,
                  with_parquet=None, with_plasma=None, with_python=True,
                  with_r=None, with_s3=None,
@@ -101,7 +101,6 @@ def __init__(self,
         self.with_hiveserver2 = with_hiveserver2
         self.with_ipc = with_ipc
         self.with_json = with_json
-        self.with_jni = with_jni
         self.with_mimalloc = with_mimalloc
         self.with_jemalloc = with_jemalloc
         self.with_parquet = with_parquet
@@ -134,8 +133,14 @@ def __init__(self,
             self.with_parquet = coalesce(with_parquet, True)
 
         if self.with_python:
-            self.with_zlib = coalesce(with_zlib, True)
+            self.with_compute = coalesce(with_compute, True)
+            self.with_csv = coalesce(with_csv, True)
+            self.with_dataset = coalesce(with_dataset, True)
+            self.with_filesystem = coalesce(with_filesystem, True)
+            self.with_hdfs = coalesce(with_hdfs, True)
+            self.with_json = coalesce(with_json, True)
             self.with_lz4 = coalesce(with_lz4, True)
+            self.with_zlib = coalesce(with_zlib, True)
 
         if self.with_dataset:
             self.with_filesystem = coalesce(with_filesystem, True)
@@ -224,12 +229,10 @@ def _gen_defs(self):
         yield ("ARROW_HDFS", truthifier(self.with_hdfs))
         yield ("ARROW_IPC", truthifier(self.with_ipc))
         yield ("ARROW_JSON", truthifier(self.with_json))
-        yield ("ARROW_JNI", truthifier(self.with_jni))
         yield ("ARROW_MIMALLOC", truthifier(self.with_mimalloc))
         yield ("ARROW_JEMALLOC", truthifier(self.with_jemalloc))
         yield ("ARROW_PARQUET", truthifier(self.with_parquet))
         yield ("ARROW_PLASMA", truthifier(self.with_plasma))
-        yield ("ARROW_PYTHON", truthifier(self.with_python))
         yield ("ARROW_S3", truthifier(self.with_s3))
 
         # Compressions
diff --git a/dev/archery/archery/release/cli.py b/dev/archery/archery/release/cli.py
index 4fbf93861e6..ed15dcb1ed6 100644
--- a/dev/archery/archery/release/cli.py
+++ b/dev/archery/archery/release/cli.py
@@ -20,34 +20,33 @@
 import click
 
 from ..utils.cli import validate_arrow_sources
-from .core import Jira, CachedJira, Release
+from .core import IssueTracker, Release
 
 
 @click.group('release')
 @click.option("--src", metavar="<arrow_src>", default=None,
               callback=validate_arrow_sources,
               help="Specify Arrow source directory.")
-@click.option("--jira-cache", type=click.Path(), default=None,
-              help="File path to cache queried JIRA issues per version.")
+@click.option('--github-token', '-t', default=None,
+              envvar="CROSSBOW_GITHUB_TOKEN",
+              help='OAuth token for GitHub authentication')
 @click.pass_obj
-def release(obj, src, jira_cache):
+def release(obj, src, github_token):
     """Release releated commands."""
-    jira = Jira()
-    if jira_cache is not None:
-        jira = CachedJira(jira_cache, jira=jira)
 
-    obj['jira'] = jira
+    obj['issue_tracker'] = IssueTracker(github_token=github_token)
     obj['repo'] = src.path
 
 
-@release.command('curate', help="Lists release related Jira issues.")
+@release.command('curate', help="Lists release related issues.")
 @click.argument('version')
 @click.option('--minimal/--full', '-m/-f',
-              help="Only show actionable Jira issues.", default=False)
+              help="Only show actionable issues.", default=False)
 @click.pass_obj
 def release_curate(obj, version, minimal):
     """Release curation."""
-    release = Release.from_jira(version, jira=obj['jira'], repo=obj['repo'])
+    release = Release(version, repo=obj['repo'],
+                      issue_tracker=obj['issue_tracker'])
     curation = release.curate(minimal)
 
     click.echo(curation.render('console'))
@@ -64,10 +63,10 @@ def release_changelog():
 @click.pass_obj
 def release_changelog_add(obj, version):
     """Prepend the changelog with the current release"""
-    jira, repo = obj['jira'], obj['repo']
+    repo, issue_tracker = obj['repo'], obj['issue_tracker']
 
     # just handle the current version
-    release = Release.from_jira(version, jira=jira, repo=repo)
+    release = Release(version, repo=repo, issue_tracker=issue_tracker)
     if release.is_released:
         raise ValueError('This version has been already released!')
 
@@ -87,10 +86,10 @@ def release_changelog_add(obj, version):
 @click.pass_obj
 def release_changelog_generate(obj, version, output):
     """Generate the changelog of a specific release."""
-    jira, repo = obj['jira'], obj['repo']
+    repo, issue_tracker = obj['repo'], obj['issue_tracker']
 
     # just handle the current version
-    release = Release.from_jira(version, jira=jira, repo=repo)
+    release = Release(version, repo=repo, issue_tracker=issue_tracker)
 
     changelog = release.changelog()
     output.write(changelog.render('markdown'))
@@ -100,13 +99,15 @@ def release_changelog_generate(obj, version, output):
 @click.pass_obj
 def release_changelog_regenerate(obj):
     """Regeneretate the whole CHANGELOG.md file"""
-    jira, repo = obj['jira'], obj['repo']
+    issue_tracker, repo = obj['issue_tracker'], obj['repo']
     changelogs = []
+    issue_tracker = IssueTracker(issue_tracker=issue_tracker)
 
-    for version in jira.project_versions('ARROW'):
+    for version in issue_tracker.project_versions():
         if not version.released:
             continue
-        release = Release.from_jira(version, jira=jira, repo=repo)
+        release = Release(version, repo=repo,
+                          issue_tracker=issue_tracker)
         click.echo('Querying changelog for version: {}'.format(version))
         changelogs.append(release.changelog())
 
@@ -129,7 +130,9 @@ def release_cherry_pick(obj, version, dry_run, recreate):
     """
     Cherry pick commits.
     """
-    release = Release.from_jira(version, jira=obj['jira'], repo=obj['repo'])
+    issue_tracker = obj['issue_tracker']
+    release = Release(version,
+                      repo=obj['repo'], issue_tracker=issue_tracker)
 
     if not dry_run:
         release.cherry_pick_commits(recreate_branch=recreate)
diff --git a/dev/archery/archery/release/core.py b/dev/archery/archery/release/core.py
index 2c775c7506b..822d408f88c 100644
--- a/dev/archery/archery/release/core.py
+++ b/dev/archery/archery/release/core.py
@@ -18,18 +18,19 @@
 from abc import abstractmethod
 from collections import defaultdict
 import functools
-import re
+import os
 import pathlib
-import shelve
+import re
 import warnings
 
 from git import Repo
+from github import Github
 from jira import JIRA
 from semver import VersionInfo as SemVer
 
 from ..utils.source import ArrowSources
 from ..utils.logger import logger
-from .reports import ReleaseCuration, JiraChangelog
+from .reports import ReleaseCuration, ReleaseChangelog
 
 
 def cached_property(fn):
@@ -57,13 +58,29 @@ def from_jira(cls, jira_version):
             release_date=getattr(jira_version, 'releaseDate', None)
         )
 
+    @classmethod
+    def from_milestone(cls, milestone):
+        return cls.parse(
+            milestone.title,
+            released=milestone.state == "closed",
+            release_date=milestone.due_on
+        )
+
+
+ORIGINAL_ARROW_REGEX = re.compile(
+    r"\*This issue was originally created as " +
+    r"\[(?P<issue>ARROW\-(?P<issue_id>(\d+)))\]"
+)
+
 
 class Issue:
 
-    def __init__(self, key, type, summary):
+    def __init__(self, key, type, summary, github_issue=None):
         self.key = key
         self.type = type
         self.summary = summary
+        self.github_issue_id = getattr(github_issue, "number", None)
+        self._github_issue = github_issue
 
     @classmethod
     def from_jira(cls, jira_issue):
@@ -73,13 +90,49 @@ def from_jira(cls, jira_issue):
             summary=jira_issue.fields.summary
         )
 
+    @classmethod
+    def from_github(cls, github_issue):
+        original_jira = cls.original_jira_id(github_issue)
+        key = original_jira or github_issue.number
+        return cls(
+            key=key,
+            type=next(
+                iter(
+                    [
+                        label.name for label in github_issue.labels
+                        if label.name.startswith("Type:")
+                    ]
+                ), None),
+            summary=github_issue.title,
+            github_issue=github_issue
+        )
+
     @property
     def project(self):
+        if isinstance(self.key, int):
+            return 'GH'
         return self.key.split('-')[0]
 
     @property
     def number(self):
-        return int(self.key.split('-')[1])
+        if isinstance(self.key, str):
+            return int(self.key.split('-')[1])
+        else:
+            return self.key
+
+    @cached_property
+    def is_pr(self):
+        return bool(self._github_issue and self._github_issue.pull_request)
+
+    @classmethod
+    def original_jira_id(cls, github_issue):
+        # All migrated issues contain body
+        if not github_issue.body:
+            return None
+        matches = ORIGINAL_ARROW_REGEX.search(github_issue.body)
+        if matches:
+            values = matches.groupdict()
+            return values['issue']
 
 
 class Jira(JIRA):
@@ -87,54 +140,54 @@ class Jira(JIRA):
     def __init__(self, url='https://issues.apache.org/jira'):
         super().__init__(url)
 
-    def project_version(self, version_string, project='ARROW'):
-        # query version from jira to populated with additional metadata
-        versions = {str(v): v for v in self.project_versions(project)}
-        return versions[version_string]
+    def issue(self, key):
+        return Issue.from_jira(super().issue(key))
+
+
+class IssueTracker:
+
+    def __init__(self, github_token=None):
+        github = Github(github_token)
+        self.github_repo = github.get_repo('apache/arrow')
+
+    def project_version(self, version_string):
+        for milestone in self.project_versions():
+            if milestone == version_string:
+                return milestone
 
-    def project_versions(self, project):
+    def project_versions(self):
         versions = []
-        for v in super().project_versions(project):
+        milestones = self.github_repo.get_milestones(state="all")
+        for milestone in milestones:
             try:
-                versions.append(Version.from_jira(v))
+                versions.append(Version.from_milestone(milestone))
             except ValueError:
                 # ignore invalid semantic versions like JS-0.4.0
                 continue
         return sorted(versions, reverse=True)
 
-    def issue(self, key):
-        return Issue.from_jira(super().issue(key))
-
-    def project_issues(self, version, project='ARROW'):
-        query = "project={} AND fixVersion={}".format(project, version)
-        issues = super().search_issues(query, maxResults=False)
-        return list(map(Issue.from_jira, issues))
-
-
-class CachedJira:
-
-    def __init__(self, cache_path, jira=None):
-        self.jira = jira or Jira()
-        self.cache_path = cache_path
+    def _milestone_from_semver(self, semver):
+        milestones = self.github_repo.get_milestones(state="all")
+        for milestone in milestones:
+            try:
+                if milestone.title == semver:
+                    return milestone
+            except ValueError:
+                # ignore invalid semantic versions like JS-0.3.0
+                continue
 
-    def __getattr__(self, name):
-        attr = getattr(self.jira, name)
-        return self._cached(name, attr) if callable(attr) else attr
+    def project_issues(self, version):
+        issues = self.github_repo.get_issues(
+            milestone=self._milestone_from_semver(version),
+            state="all")
+        return list(map(Issue.from_github, issues))
 
-    def _cached(self, name, method):
-        def wrapper(*args, **kwargs):
-            key = str((name, args, kwargs))
-            with shelve.open(self.cache_path) as cache:
-                try:
-                    result = cache[key]
-                except KeyError:
-                    cache[key] = result = method(*args, **kwargs)
-            return result
-        return wrapper
+    def issue(self, key):
+        return Issue.from_github(self.github_repo.get_issue(key))
 
 
 _TITLE_REGEX = re.compile(
-    r"(?P<issue>(?P<project>(ARROW|PARQUET))\-\d+)?\s*:?\s*"
+    r"(?P<issue>(?P<project>(ARROW|PARQUET|GH))\-(?P<issue_id>(\d+)))?\s*:?\s*"
     r"(?P<minor>(MINOR))?\s*:?\s*"
     r"(?P<components>\[.*\])?\s*(?P<summary>.*)"
 )
@@ -144,9 +197,10 @@ def wrapper(*args, **kwargs):
 class CommitTitle:
 
     def __init__(self, summary, project=None, issue=None, minor=None,
-                 components=None):
+                 components=None, issue_id=None):
         self.project = project
         self.issue = issue
+        self.issue_id = issue_id
         self.components = components or []
         self.summary = summary
         self.minor = bool(minor)
@@ -185,6 +239,7 @@ def parse(cls, headline):
             values['summary'],
             project=values.get('project'),
             issue=values.get('issue'),
+            issue_id=values.get('issue_id'),
             minor=values.get('minor'),
             components=components
         )
@@ -229,7 +284,8 @@ def title(self):
 
 class Release:
 
-    def __new__(self, version, jira=None, repo=None):
+    def __new__(self, version, repo=None, github_token=None,
+                issue_tracker=None):
         if isinstance(version, str):
             version = Version.parse(version)
         elif not isinstance(version, Version):
@@ -249,15 +305,7 @@ def __new__(self, version, jira=None, repo=None):
 
         return super().__new__(klass)
 
-    def __init__(self, version, jira, repo):
-        if jira is None:
-            jira = Jira()
-        elif isinstance(jira, str):
-            jira = Jira(jira)
-        elif not isinstance(jira, (Jira, CachedJira)):
-            raise TypeError("`jira` argument must be a server url or a valid "
-                            "Jira instance")
-
+    def __init__(self, version, repo, issue_tracker):
         if repo is None:
             arrow = ArrowSources.find()
             repo = Repo(arrow.path)
@@ -268,13 +316,14 @@ def __init__(self, version, jira, repo):
                             "instance")
 
         if isinstance(version, str):
-            version = jira.project_version(version, project='ARROW')
+            version = issue_tracker.project_version(version)
+
         elif not isinstance(version, Version):
             raise TypeError(version)
 
         self.version = version
-        self.jira = jira
         self.repo = repo
+        self.issue_tracker = issue_tracker
 
     def __repr__(self):
         if self.version.released:
@@ -283,10 +332,6 @@ def __repr__(self):
             status = "pending"
         return f"<{self.__class__.__name__} {self.version!r} {status}>"
 
-    @staticmethod
-    def from_jira(version, jira=None, repo=None):
-        return Release(version, jira, repo)
-
     @property
     def is_released(self):
         return self.version.released
@@ -321,7 +366,8 @@ def previous(self):
             # first release doesn't have a previous one
             return None
         else:
-            return Release.from_jira(previous, jira=self.jira, repo=self.repo)
+            return Release(previous, repo=self.repo,
+                           issue_tracker=self.issue_tracker)
 
     @cached_property
     def next(self):
@@ -331,13 +377,21 @@ def next(self):
             raise ValueError("There is no upcoming release set in JIRA after "
                              f"version {self.version}")
         upcoming = self.siblings[position - 1]
-        return Release.from_jira(upcoming, jira=self.jira, repo=self.repo)
+        return Release(upcoming, repo=self.repo,
+                       issue_tracker=self.issue_tracker)
 
     @cached_property
     def issues(self):
-        issues = self.jira.project_issues(self.version, project='ARROW')
+        issues = self.issue_tracker.project_issues(
+            self.version
+        )
         return {i.key: i for i in issues}
 
+    @cached_property
+    def github_issue_ids(self):
+        return {v.github_issue_id for v in self.issues.values()
+                if v.github_issue_id}
+
     @cached_property
     def commits(self):
         """
@@ -350,7 +404,11 @@ def commits(self):
             lower = self.repo.tags[self.previous.tag]
 
         if self.version.released:
-            upper = self.repo.tags[self.tag]
+            try:
+                upper = self.repo.tags[self.tag]
+            except IndexError:
+                warnings.warn(f"Release tag `{self.tag}` doesn't exist.")
+                return []
         else:
             try:
                 upper = self.repo.branches[self.branch]
@@ -361,30 +419,88 @@ def commits(self):
         commit_range = f"{lower}..{upper}"
         return list(map(Commit, self.repo.iter_commits(commit_range)))
 
+    @cached_property
+    def jira_instance(self):
+        return Jira()
+
+    @cached_property
+    def default_branch(self):
+        default_branch_name = os.getenv("ARCHERY_DEFAULT_BRANCH")
+
+        if default_branch_name is None:
+            # Set up repo object
+            arrow = ArrowSources.find()
+            repo = Repo(arrow.path)
+            origin = repo.remotes["origin"]
+            origin_refs = origin.refs
+
+            try:
+                # Get git.RemoteReference object to origin/HEAD
+                # If the reference does not exist, a KeyError will be thrown
+                origin_head = origin_refs["HEAD"]
+
+                # Get git.RemoteReference object to origin/default-branch-name
+                origin_head_reference = origin_head.reference
+
+                # Get string value of remote head reference, should return
+                # "origin/main" or "origin/master"
+                origin_head_name = origin_head_reference.name
+                origin_head_name_tokenized = origin_head_name.split("/")
+
+                # The last token is the default branch name
+                default_branch_name = origin_head_name_tokenized[-1]
+            except (KeyError, IndexError):
+                # Use a hard-coded default value to set default_branch_name
+                # TODO: ARROW-18011 to track changing the hard coded default
+                # value from "master" to "main".
+                default_branch_name = "master"
+                warnings.warn('Unable to determine default branch name: '
+                              'ARCHERY_DEFAULT_BRANCH environment variable is '
+                              'not set. Git repository does not contain a '
+                              '\'refs/remotes/origin/HEAD\'reference. Setting '
+                              'the default branch name to ' +
+                              default_branch_name, RuntimeWarning)
+
+        return default_branch_name
+
     def curate(self, minimal=False):
-        # handle commits with parquet issue key specially and query them from
-        # jira and add it to the issues
+        # handle commits with parquet issue key specially
         release_issues = self.issues
-
-        within, outside, nojira, parquet = [], [], [], []
+        within, outside, noissue, parquet, minor = [], [], [], [], []
         for c in self.commits:
             if c.issue is None:
-                nojira.append(c)
-            elif c.issue in release_issues:
-                within.append((release_issues[c.issue], c))
+                if c.title.minor:
+                    minor.append(c)
+                else:
+                    noissue.append(c)
+            elif c.project == 'GH':
+                if int(c.issue_id) in release_issues:
+                    within.append((release_issues[int(c.issue_id)], c))
+                else:
+                    outside.append(
+                        (self.issue_tracker.issue(int(c.issue_id)), c))
+            elif c.project == 'ARROW':
+                if c.issue in release_issues:
+                    within.append((release_issues[c.issue], c))
+                else:
+                    outside.append((self.jira_instance.issue(c.issue), c))
             elif c.project == 'PARQUET':
-                parquet.append((self.jira.issue(c.issue), c))
+                parquet.append((self.jira_instance.issue(c.issue), c))
             else:
-                outside.append((self.jira.issue(c.issue), c))
+                warnings.warn(
+                    f'Issue {c.issue} is not MINOR nor pertains to GH' +
+                    ', ARROW or PARQUET')
+                outside.append((c.issue, c))
 
         # remaining jira tickets
         within_keys = {i.key for i, c in within}
+        # Take into account that some issues milestoned are prs
         nopatch = [issue for key, issue in release_issues.items()
-                   if key not in within_keys]
+                   if key not in within_keys and issue.is_pr is False]
 
         return ReleaseCuration(release=self, within=within, outside=outside,
-                               nojira=nojira, parquet=parquet, nopatch=nopatch,
-                               minimal=minimal)
+                               noissue=noissue, parquet=parquet,
+                               nopatch=nopatch, minimal=minimal, minor=minor)
 
     def changelog(self):
         issue_commit_pairs = []
@@ -410,21 +526,31 @@ def changelog(self):
             'Task': 'New Features and Improvements',
             'Test': 'Bug Fixes',
             'Wish': 'New Features and Improvements',
+            'Type: bug': 'Bug Fixes',
+            'Type: enhancement': 'New Features and Improvements',
+            'Type: task': 'New Features and Improvements',
+            'Type: test': 'Bug Fixes',
+            'Type: usage': 'New Features and Improvements',
         }
         categories = defaultdict(list)
         for issue, commit in issue_commit_pairs:
-            categories[issue_types[issue.type]].append((issue, commit))
+            try:
+                categories[issue_types[issue.type]].append((issue, commit))
+            except KeyError:
+                # If issue or pr don't have a type assume task.
+                # Currently the label for type is not mandatory on GitHub.
+                categories[issue_types['Type: task']].append((issue, commit))
 
         # sort issues by the issue key in ascending order
         for issues in categories.values():
             issues.sort(key=lambda pair: (pair[0].project, pair[0].number))
 
-        return JiraChangelog(release=self, categories=categories)
+        return ReleaseChangelog(release=self, categories=categories)
 
     def commits_to_pick(self, exclude_already_applied=True):
-        # collect commits applied on the main branch since the root of the
+        # collect commits applied on the default branch since the root of the
         # maintenance branch (the previous major release)
-        commit_range = f"{self.previous.tag}..master"
+        commit_range = f"{self.previous.tag}..{self.default_branch}"
 
         # keeping the original order of the commits helps to minimize the merge
         # conflicts during cherry-picks
@@ -440,10 +566,18 @@ def commits_to_pick(self, exclude_already_applied=True):
 
         # iterate over the commits applied on the main branch and filter out
         # the ones that are included in the jira release
-        patches_to_pick = [c for c in commits if
-                           c.issue in self.issues and
-                           c.title not in already_applied]
-
+        patches_to_pick = []
+        for c in commits:
+            key = c.issue
+            # For the release we assume all issues that have to be
+            # cherry-picked are merged with the GH issue id instead of the
+            # JIRA ARROW one. That's why we use github_issues along with
+            # issues. This is only to correct the mapping for migrated issues.
+            if c.issue and c.issue.startswith("GH-"):
+                key = int(c.issue_id)
+            if ((key in self.github_issue_ids or key in self.issues) and
+                    c.title not in already_applied):
+                patches_to_pick.append(c)
         return reversed(patches_to_pick)
 
     def cherry_pick_commits(self, recreate_branch=True):
@@ -476,7 +610,7 @@ def branch(self):
 
     @property
     def base_branch(self):
-        return "master"
+        return self.default_branch
 
     @cached_property
     def siblings(self):
@@ -484,7 +618,7 @@ def siblings(self):
         Filter only the major releases.
         """
         # handle minor releases before 1.0 as major releases
-        return [v for v in self.jira.project_versions('ARROW')
+        return [v for v in self.issue_tracker.project_versions()
                 if v.patch == 0 and (v.major == 0 or v.minor == 0)]
 
 
@@ -503,7 +637,8 @@ def siblings(self):
         """
         Filter the major and minor releases.
         """
-        return [v for v in self.jira.project_versions('ARROW') if v.patch == 0]
+        return [v for v in self.issue_tracker.project_versions()
+                if v.patch == 0]
 
 
 class PatchRelease(Release):
@@ -521,4 +656,4 @@ def siblings(self):
         """
         No filtering, consider all releases.
         """
-        return self.jira.project_versions('ARROW')
+        return self.issue_tracker.project_versions()
diff --git a/dev/archery/archery/release/reports.py b/dev/archery/archery/release/reports.py
index 43093487c02..4299eaa7ede 100644
--- a/dev/archery/archery/release/reports.py
+++ b/dev/archery/archery/release/reports.py
@@ -27,14 +27,15 @@ class ReleaseCuration(JinjaReport):
         'release',
         'within',
         'outside',
-        'nojira',
+        'noissue',
         'parquet',
         'nopatch',
-        'minimal'
+        'minimal',
+        'minor'
     ]
 
 
-class JiraChangelog(JinjaReport):
+class ReleaseChangelog(JinjaReport):
     templates = {
         'markdown': 'release_changelog.md.j2',
         'html': 'release_changelog.html.j2'
diff --git a/dev/archery/archery/release/tests/test_release.py b/dev/archery/archery/release/tests/test_release.py
index 1283b4bcb4f..22b43c7cb3b 100644
--- a/dev/archery/archery/release/tests/test_release.py
+++ b/dev/archery/archery/release/tests/test_release.py
@@ -19,13 +19,29 @@
 
 from archery.release.core import (
     Release, MajorRelease, MinorRelease, PatchRelease,
-    Jira, Version, Issue, CommitTitle, Commit
+    IssueTracker, Version, Issue, CommitTitle, Commit
 )
 from archery.testing import DotDict
 
 
 # subset of issues per revision
 _issues = {
+    "3.0.0": [
+        Issue("GH-9784", type="Bug", summary="[C++] Title"),
+        Issue("GH-9767", type="New Feature", summary="[Crossbow] Title"),
+        Issue("GH-1231", type="Bug", summary="[Java] Title"),
+        Issue("GH-1244", type="Bug", summary="[C++] Title"),
+        Issue("GH-1301", type="Bug", summary="[Python][Archery] Title")
+    ],
+    "2.0.0": [
+        Issue("ARROW-9784", type="Bug", summary="[Java] Title"),
+        Issue("ARROW-9767", type="New Feature", summary="[Crossbow] Title"),
+        Issue("GH-1230", type="Bug", summary="[Dev] Title"),
+        Issue("ARROW-9694", type="Bug", summary="[Release] Title"),
+        Issue("ARROW-5643", type="Bug", summary="[Go] Title"),
+        Issue("GH-1243", type="Bug", summary="[Python] Title"),
+        Issue("GH-1300", type="Bug", summary="[CI][Archery] Title")
+    ],
     "1.0.1": [
         Issue("ARROW-9684", type="Bug", summary="[C++] Title"),
         Issue("ARROW-9667", type="New Feature", summary="[Crossbow] Title"),
@@ -62,13 +78,14 @@
 }
 
 
-class FakeJira(Jira):
+class FakeIssueTracker(IssueTracker):
 
     def __init__(self):
         pass
 
-    def project_versions(self, project='ARROW'):
+    def project_versions(self):
         return [
+            Version.parse("4.0.0", released=False),
             Version.parse("3.0.0", released=False),
             Version.parse("2.0.0", released=False),
             Version.parse("1.1.0", released=False),
@@ -82,16 +99,16 @@ def project_versions(self, project='ARROW'):
             Version.parse("0.15.0", released=True),
         ]
 
-    def project_issues(self, version, project='ARROW'):
+    def project_issues(self, version):
         return _issues[str(version)]
 
 
 @pytest.fixture
-def fake_jira():
-    return FakeJira()
+def fake_issue_tracker():
+    return FakeIssueTracker()
 
 
-def test_version(fake_jira):
+def test_version(fake_issue_tracker):
     v = Version.parse("1.2.5")
     assert str(v) == "1.2.5"
     assert v.major == 1
@@ -109,7 +126,7 @@ def test_version(fake_jira):
     assert v.release_date == "2020-01-01"
 
 
-def test_issue(fake_jira):
+def test_issue(fake_issue_tracker):
     i = Issue("ARROW-1234", type='Bug', summary="title")
     assert i.key == "ARROW-1234"
     assert i.type == "Bug"
@@ -212,78 +229,78 @@ def test_commit_title():
     assert t.minor is False
 
 
-def test_release_basics(fake_jira):
-    r = Release.from_jira("1.0.0", jira=fake_jira)
+def test_release_basics(fake_issue_tracker):
+    r = Release("1.0.0", repo=None, issue_tracker=fake_issue_tracker)
     assert isinstance(r, MajorRelease)
     assert r.is_released is True
     assert r.branch == 'maint-1.0.0'
     assert r.tag == 'apache-arrow-1.0.0'
 
-    r = Release.from_jira("1.1.0", jira=fake_jira)
+    r = Release("1.1.0", repo=None, issue_tracker=fake_issue_tracker)
     assert isinstance(r, MinorRelease)
     assert r.is_released is False
     assert r.branch == 'maint-1.x.x'
     assert r.tag == 'apache-arrow-1.1.0'
 
     # minor releases before 1.0 are treated as major releases
-    r = Release.from_jira("0.17.0", jira=fake_jira)
+    r = Release("0.17.0", repo=None, issue_tracker=fake_issue_tracker)
     assert isinstance(r, MajorRelease)
     assert r.is_released is True
     assert r.branch == 'maint-0.17.0'
     assert r.tag == 'apache-arrow-0.17.0'
 
-    r = Release.from_jira("0.17.1", jira=fake_jira)
+    r = Release("0.17.1", repo=None, issue_tracker=fake_issue_tracker)
     assert isinstance(r, PatchRelease)
     assert r.is_released is True
     assert r.branch == 'maint-0.17.x'
     assert r.tag == 'apache-arrow-0.17.1'
 
 
-def test_previous_and_next_release(fake_jira):
-    r = Release.from_jira("3.0.0", jira=fake_jira)
+def test_previous_and_next_release(fake_issue_tracker):
+    r = Release("4.0.0", repo=None, issue_tracker=fake_issue_tracker)
     assert isinstance(r.previous, MajorRelease)
-    assert r.previous.version == Version.parse("2.0.0")
+    assert r.previous.version == Version.parse("3.0.0")
     with pytest.raises(ValueError, match="There is no upcoming release set"):
         assert r.next
 
-    r = Release.from_jira("2.0.0", jira=fake_jira)
+    r = Release("3.0.0", repo=None, issue_tracker=fake_issue_tracker)
     assert isinstance(r.previous, MajorRelease)
     assert isinstance(r.next, MajorRelease)
-    assert r.previous.version == Version.parse("1.0.0")
-    assert r.next.version == Version.parse("3.0.0")
+    assert r.previous.version == Version.parse("2.0.0")
+    assert r.next.version == Version.parse("4.0.0")
 
-    r = Release.from_jira("1.1.0", jira=fake_jira)
+    r = Release("1.1.0", repo=None, issue_tracker=fake_issue_tracker)
     assert isinstance(r.previous, MajorRelease)
     assert isinstance(r.next, MajorRelease)
     assert r.previous.version == Version.parse("1.0.0")
     assert r.next.version == Version.parse("2.0.0")
 
-    r = Release.from_jira("1.0.0", jira=fake_jira)
+    r = Release("1.0.0", repo=None, issue_tracker=fake_issue_tracker)
     assert isinstance(r.next, MajorRelease)
     assert isinstance(r.previous, MajorRelease)
     assert r.previous.version == Version.parse("0.17.0")
     assert r.next.version == Version.parse("2.0.0")
 
-    r = Release.from_jira("0.17.0", jira=fake_jira)
+    r = Release("0.17.0", repo=None, issue_tracker=fake_issue_tracker)
     assert isinstance(r.previous, MajorRelease)
     assert r.previous.version == Version.parse("0.16.0")
 
-    r = Release.from_jira("0.15.2", jira=fake_jira)
+    r = Release("0.15.2", repo=None, issue_tracker=fake_issue_tracker)
     assert isinstance(r.previous, PatchRelease)
     assert isinstance(r.next, MajorRelease)
     assert r.previous.version == Version.parse("0.15.1")
     assert r.next.version == Version.parse("0.16.0")
 
-    r = Release.from_jira("0.15.1", jira=fake_jira)
+    r = Release("0.15.1", repo=None, issue_tracker=fake_issue_tracker)
     assert isinstance(r.previous, MajorRelease)
     assert isinstance(r.next, PatchRelease)
     assert r.previous.version == Version.parse("0.15.0")
     assert r.next.version == Version.parse("0.15.2")
 
 
-def test_release_issues(fake_jira):
+def test_release_issues(fake_issue_tracker):
     # major release issues
-    r = Release.from_jira("1.0.0", jira=fake_jira)
+    r = Release("1.0.0", repo=None, issue_tracker=fake_issue_tracker)
     assert r.issues.keys() == set([
         "ARROW-300",
         "ARROW-4427",
@@ -295,7 +312,7 @@ def test_release_issues(fake_jira):
         "ARROW-8973"
     ])
     # minor release issues
-    r = Release.from_jira("0.17.0", jira=fake_jira)
+    r = Release("0.17.0", repo=None, issue_tracker=fake_issue_tracker)
     assert r.issues.keys() == set([
         "ARROW-2882",
         "ARROW-2587",
@@ -305,7 +322,7 @@ def test_release_issues(fake_jira):
         "ARROW-1636",
     ])
     # patch release issues
-    r = Release.from_jira("1.0.1", jira=fake_jira)
+    r = Release("1.0.1", repo=None, issue_tracker=fake_issue_tracker)
     assert r.issues.keys() == set([
         "ARROW-9684",
         "ARROW-9667",
@@ -315,6 +332,16 @@ def test_release_issues(fake_jira):
         "ARROW-9609",
         "ARROW-9606"
     ])
+    r = Release("2.0.0", repo=None, issue_tracker=fake_issue_tracker)
+    assert r.issues.keys() == set([
+        "ARROW-9784",
+        "ARROW-9767",
+        "GH-1230",
+        "ARROW-9694",
+        "ARROW-5643",
+        "GH-1243",
+        "GH-1300"
+    ])
 
 
 @pytest.mark.parametrize(('version', 'ncommits'), [
@@ -323,8 +350,8 @@ def test_release_issues(fake_jira):
     ("0.17.0", 569),
     ("0.15.1", 41)
 ])
-def test_release_commits(fake_jira, version, ncommits):
-    r = Release.from_jira(version, jira=fake_jira)
+def test_release_commits(fake_issue_tracker, version, ncommits):
+    r = Release(version, repo=None, issue_tracker=fake_issue_tracker)
     assert len(r.commits) == ncommits
     for c in r.commits:
         assert isinstance(c, Commit)
@@ -332,8 +359,8 @@ def test_release_commits(fake_jira, version, ncommits):
         assert c.url.endswith(c.hexsha)
 
 
-def test_maintenance_patch_selection(fake_jira):
-    r = Release.from_jira("0.17.1", jira=fake_jira)
+def test_maintenance_patch_selection(fake_issue_tracker):
+    r = Release("0.17.1", repo=None, issue_tracker=fake_issue_tracker)
 
     shas_to_pick = [
         c.hexsha for c in r.commits_to_pick(exclude_already_applied=False)
diff --git a/dev/archery/archery/templates/chat_nightly_report.txt.j2 b/dev/archery/archery/templates/chat_nightly_report.txt.j2
index f15ffabf9a6..ab68f201ab2 100644
--- a/dev/archery/archery/templates/chat_nightly_report.txt.j2
+++ b/dev/archery/archery/templates/chat_nightly_report.txt.j2
@@ -16,7 +16,7 @@
 # specific language governing permissions and limitations
 # under the License.
 #}
-*<https://crossbow.voltrondata.com|Archery crossbow report> for <{{ report.url(report.job.branch) }}|{{ report.job.branch }}>*
+*<http://crossbow.voltrondata.com|Archery crossbow report> for <{{ report.url(report.job.branch) }}|{{ report.job.branch }}>*
 {% if report.tasks_by_state["failure"] %}
 :x: *{{ report.tasks_by_state["failure"] | length }} failed jobs*
 {% for task_name, task in report.tasks_by_state["failure"] | dictsort -%}
diff --git a/dev/archery/archery/templates/email_nightly_report.txt.j2 b/dev/archery/archery/templates/email_nightly_report.txt.j2
index a0abe49395d..e3345bdb073 100644
--- a/dev/archery/archery/templates/email_nightly_report.txt.j2
+++ b/dev/archery/archery/templates/email_nightly_report.txt.j2
@@ -24,7 +24,7 @@ Subject: [NIGHTLY] Arrow Build Report for Job {{report.job.branch}}: {{ (report.
 
 Arrow Build Report for Job {{ report.job.branch }}
 
-See https://crossbow.voltrondata.com/ for more information.
+See http://crossbow.voltrondata.com/ for more information.
 
 All tasks: {{ report.url(report.job.branch) }}
 {% if report.tasks_by_state["failure"] %}
diff --git a/dev/archery/archery/templates/email_token_expiration.txt.j2 b/dev/archery/archery/templates/email_token_expiration.txt.j2
new file mode 100644
index 00000000000..54c2005e57e
--- /dev/null
+++ b/dev/archery/archery/templates/email_token_expiration.txt.j2
@@ -0,0 +1,26 @@
+{#
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+#}
+From: {{ sender_name }} <{{ sender_email }}>
+To: {{ recipient_email }}
+Subject: [CI] Arrow Crossbow Token Expiration in {{ report.token_expiration_date }}
+
+The Arrow Crossbow Token will expire in {{ report.days_left }} days.
+
+Please generate a new Token. Send it to Apache INFRA to update the CROSSBOW_GITHUB_TOKEN.
+Update it on the crossbow repository and in the Azure pipelines.
diff --git a/dev/archery/archery/templates/release_changelog.md.j2 b/dev/archery/archery/templates/release_changelog.md.j2
index 0c9efbc42f7..0eedb217a8b 100644
--- a/dev/archery/archery/templates/release_changelog.md.j2
+++ b/dev/archery/archery/templates/release_changelog.md.j2
@@ -23,7 +23,11 @@
 ## {{ category }}
 
 {% for issue, commit in issue_commit_pairs -%}
+{% if issue.project in ('ARROW', 'PARQUET') -%}
 * [{{ issue.key }}](https://issues.apache.org/jira/browse/{{ issue.key }}) - {{ commit.title.to_string(with_issue=False) if commit else issue.summary | md }}
+{% else -%}
+* [GH-{{ issue.key }}](https://github.com/apache/arrow/issues/{{ issue.key }}) - {{ commit.title.to_string(with_issue=False) if commit else issue.summary | md }}
+{% endif -%}
 {% endfor %}
 
 {% endfor %}
diff --git a/dev/archery/archery/templates/release_curation.txt.j2 b/dev/archery/archery/templates/release_curation.txt.j2
index 4f524d001ce..0796f451625 100644
--- a/dev/archery/archery/templates/release_curation.txt.j2
+++ b/dev/archery/archery/templates/release_curation.txt.j2
@@ -17,26 +17,30 @@
 # under the License.
 #}
 {%- if not minimal -%}
-Total number of JIRA tickets assigned to version {{ release.version }}: {{ release.issues|length }}
+### Total number of GitHub tickets assigned to version {{ release.version }}: {{ release.issues|length }}
 
-Total number of applied patches since version {{ release.previous.version }}: {{ release.commits|length }}
+### Total number of applied patches since version {{ release.previous.version }}: {{ release.commits|length }}
 
-Patches with assigned issue in version {{ release.version }}:
+### Patches with assigned issue in version {{ release.version }}: {{ within|length }}
 {% for issue, commit in within -%}
  - {{ commit.url }} {{ commit.title }}
 {% endfor %}
 {% endif -%}
-Patches with assigned issue outside of version {{ release.version }}:
+### Patches with assigned issue outside of version {{ release.version }}: {{ outside|length }}
 {% for issue, commit in outside -%}
  - {{ commit.url }} {{ commit.title }}
 {% endfor %}
 {% if not minimal -%}
-Patches in version {{ release.version }} without a linked issue:
-{% for commit in nojira -%}
+### Minor patches in version {{ release.version }}: {{ minor|length }}
+{% for commit in minor -%}
  - {{ commit.url }} {{ commit.title }}
 {% endfor %}
-JIRA issues in version {{ release.version }} without a linked patch:
+### Patches in version {{ release.version }} without a linked issue:
+{% for commit in noissue -%}
+ - {{ commit.url }} {{ commit.title }}
+{% endfor %}
+### JIRA issues in version {{ release.version }} without a linked patch: {{ nopatch|length }}
 {% for issue in nopatch -%}
- - https://issues.apache.org/jira/browse/{{ issue.key }}
+ - https://github.com/apache/arrow/issues/{{ issue.key }}
 {% endfor %}
 {%- endif -%}
\ No newline at end of file
diff --git a/dev/archery/archery/utils/lint.py b/dev/archery/archery/utils/lint.py
index 696dafe2b50..ab9eb97754c 100644
--- a/dev/archery/archery/utils/lint.py
+++ b/dev/archery/archery/utils/lint.py
@@ -149,6 +149,7 @@ def cmake_linter(src, fix=False):
         include_patterns=[
             'ci/**/*.cmake',
             'cpp/CMakeLists.txt',
+            'cpp/src/**/*.cmake.in',
             'cpp/src/**/CMakeLists.txt',
             'cpp/examples/**/CMakeLists.txt',
             'cpp/cmake_modules/*.cmake',
@@ -190,6 +191,7 @@ def python_linter(src, fix=False):
                 "python/pyarrow/**/*.pxd",
                 "python/pyarrow/**/*.pxi",
                 "python/examples/**/*.py",
+                "dev/*.py",
                 "dev/archery/**/*.py",
                 "dev/release/**/*.py"]
     files = [setup_py]
@@ -228,6 +230,7 @@ def python_linter(src, fix=False):
 
     yield LintResult.from_cmd(
         flake8("--extend-exclude=" + ','.join(flake8_exclude),
+               "--config=" + os.path.join(src.python, "setup.cfg"),
                setup_py, src.pyarrow, os.path.join(src.python, "examples"),
                src.dev, check=False))
 
diff --git a/dev/archery/archery/utils/source.py b/dev/archery/archery/utils/source.py
index 1080cb75d67..e8f0ca92c47 100644
--- a/dev/archery/archery/utils/source.py
+++ b/dev/archery/archery/utils/source.py
@@ -22,6 +22,19 @@
 from .git import git
 
 
+ARROW_ROOT_DEFAULT = os.environ.get(
+    'ARROW_ROOT',
+    Path(__file__).resolve().parents[4]
+)
+
+
+def arrow_path(path):
+    """
+    Return full path to a file given its path inside the Arrow repo.
+    """
+    return os.path.join(ARROW_ROOT_DEFAULT, path)
+
+
 class InvalidArrowSource(Exception):
     pass
 
diff --git a/dev/archery/setup.py b/dev/archery/setup.py
index 4b13608cf83..51f066c9ede 100755
--- a/dev/archery/setup.py
+++ b/dev/archery/setup.py
@@ -31,7 +31,7 @@
     'lint': ['numpydoc==1.1.0', 'autopep8', 'flake8', 'cmake_format==0.6.13'],
     'benchmark': ['pandas'],
     'docker': ['ruamel.yaml', 'python-dotenv'],
-    'release': [jinja_req, 'jira', 'semver', 'gitpython'],
+    'release': ['pygithub', jinja_req, 'jira', 'semver', 'gitpython'],
     'crossbow': ['github3.py', jinja_req, 'pygit2>=1.6.0', 'requests',
                  'ruamel.yaml', 'setuptools_scm'],
     'crossbow-upload': ['github3.py', jinja_req, 'ruamel.yaml',
diff --git a/dev/conbench_envs/benchmarks.env b/dev/conbench_envs/benchmarks.env
index 6c151aa7c1f..c348129cfbf 100644
--- a/dev/conbench_envs/benchmarks.env
+++ b/dev/conbench_envs/benchmarks.env
@@ -14,6 +14,7 @@
 # limitations under the License.
 #
 
+CMAKE_BUILD_TYPE=release
 ARROW_BUILD_TESTS=OFF
 ARROW_BUILD_TYPE=release
 ARROW_DEPENDENCY_SOURCE=AUTO
@@ -25,7 +26,7 @@ ARROW_FLIGHT=OFF
 ARROW_GANDIVA=OFF
 ARROW_HDFS=ON
 ARROW_HOME=$CONDA_PREFIX
-ARROW_INSTALL_NAME_RPATH=OFF
+ARROW_INSTALL_NAME_RPATH=ON
 ARROW_MIMALLOC=ON
 ARROW_NO_DEPRECATED_API=ON
 ARROW_ORC=ON
diff --git a/dev/merge_arrow_pr.py b/dev/merge_arrow_pr.py
index a0c1398eb54..352befc3289 100755
--- a/dev/merge_arrow_pr.py
+++ b/dev/merge_arrow_pr.py
@@ -1,5 +1,4 @@
 #!/usr/bin/env python3
-
 #
 # Licensed to the Apache Software Foundation (ASF) under one or more
 # contributor license agreements.  See the NOTICE file distributed with
@@ -33,8 +32,7 @@
 # Configuration environment variables:
 #   - APACHE_JIRA_TOKEN: your Apache JIRA Personal Access Token
 #   - ARROW_GITHUB_API_TOKEN: a GitHub API token to use for API requests
-#   - PR_REMOTE_NAME: the name of the remote to the Apache git repo (set to
-#                     'apache' by default)
+#   - ARROW_GITHUB_ORG: the GitHub organisation ('apache' by default)
 #   - DEBUG: use for testing to avoid pushing to apache (0 by default)
 
 import configparser
@@ -54,17 +52,21 @@
     import jira.exceptions
 except ImportError:
     print("Could not find jira library. "
-          "Run 'sudo pip install jira' to install.")
+          "Run 'pip install jira' to install.")
     print("Exiting without trying to close the associated JIRA.")
     sys.exit(1)
 
 # Remote name which points to the GitHub site
-PR_REMOTE_NAME = os.environ.get("PR_REMOTE_NAME", "apache")
+ORG_NAME = (
+    os.environ.get("ARROW_GITHUB_ORG") or
+    os.environ.get("PR_REMOTE_NAME") or  # backward compatibility
+    "apache"
+)
+PROJECT_NAME = os.environ.get('ARROW_PROJECT_NAME') or "arrow"
 
 # For testing to avoid accidentally pushing to apache
 DEBUG = bool(int(os.environ.get("DEBUG", 0)))
 
-
 if DEBUG:
     print("**************** DEBUGGING ****************")
 
@@ -74,6 +76,8 @@
 
 def get_json(url, headers=None):
     response = requests.get(url, headers=headers)
+    if response.status_code != 200:
+        raise ValueError(response.json())
     return response.json()
 
 
@@ -106,20 +110,15 @@ def strip_ci_directives(commit_message):
     return _REGEX_CI_DIRECTIVE.sub('', commit_message)
 
 
-def fix_version_from_branch(branch, versions):
+def fix_version_from_branch(versions):
     # Note: Assumes this is a sorted (newest->oldest) list of un-released
     # versions
-    if branch == "master":
-        return versions[-1]
-    else:
-        branch_ver = branch.replace("branch-", "")
-        return [x for x in versions if x.name.startswith(branch_ver)][-1]
+    return versions[-1]
 
 
-# We can merge both ARROW and PARQUET patchesa
-SUPPORTED_PROJECTS = ['ARROW', 'PARQUET']
-PR_TITLE_REGEXEN = [(project, re.compile(r'^(' + project + r'-[0-9]+)\b.*$'))
-                    for project in SUPPORTED_PROJECTS]
+MIGRATION_COMMENT_REGEX = re.compile(
+    r"This issue has been migrated to \[issue #(?P<issue_id>(\d+))"
+)
 
 
 class JiraIssue(object):
@@ -139,46 +138,15 @@ def __init__(self, jira_con, jira_id, project, cmd):
     def current_fix_versions(self):
         return self.issue.fields.fixVersions
 
-    @classmethod
-    def sort_versions(cls, versions):
-        def version_tuple(x):
-            # Parquet versions are something like cpp-1.2.0
-            numeric_version = x.name.split("-", 1)[-1]
-            return tuple(int(_) for _ in numeric_version.split("."))
-        return sorted(versions, key=version_tuple, reverse=True)
-
-    def get_candidate_fix_versions(self, merge_branches=('master',),
-                                   maintenance_branches=()):
+    @property
+    def current_versions(self):
         # Only suggest versions starting with a number, like 0.x but not JS-0.x
         all_versions = self.jira_con.project_versions(self.project)
         unreleased_versions = [x for x in all_versions
                                if not x.raw['released']]
 
         mainline_versions = self._filter_mainline_versions(unreleased_versions)
-        mainline_versions = self.sort_versions(mainline_versions)
-
-        mainline_non_patch_versions = []
-        for v in mainline_versions:
-            (major, minor, patch) = v.name.split(".")
-            if patch == "0":
-                mainline_non_patch_versions.append(v)
-
-        if len(mainline_versions) > len(mainline_non_patch_versions):
-            # If there is a non-patch release, suggest that instead
-            mainline_versions = mainline_non_patch_versions
-
-        mainline_versions = self._filter_maintenance_versions(
-            mainline_versions, maintenance_branches
-        )
-        default_fix_versions = [
-            fix_version_from_branch(x, mainline_versions).name
-            for x in merge_branches]
-
-        return all_versions, default_fix_versions
-
-    def _filter_maintenance_versions(self, versions, maintenance_branches):
-        return [v for v in versions
-                if f"maint-{v.name}" not in maintenance_branches]
+        return mainline_versions
 
     def _filter_mainline_versions(self, versions):
         if self.project == 'PARQUET':
@@ -188,7 +156,7 @@ def _filter_mainline_versions(self, versions):
 
         return [x for x in versions if mainline_regex.match(x.name)]
 
-    def resolve(self, fix_versions, comment):
+    def resolve(self, fix_version, comment, *args):
         fields = self.issue.fields
         cur_status = fields.status.name
 
@@ -196,63 +164,179 @@ def resolve(self, fix_versions, comment):
             self.cmd.fail("JIRA issue %s already has status '%s'"
                           % (self.jira_id, cur_status))
 
-        if DEBUG:
-            print("JIRA issue %s untouched" % (self.jira_id))
-            return
-
         resolve = [x for x in self.jira_con.transitions(self.jira_id)
                    if x['name'] == "Resolve Issue"][0]
 
         # ARROW-6915: do not overwrite existing fix versions corresponding to
         # point releases
-        fix_versions = list(fix_versions)
+        fix_versions = [v.raw for v in self.jira_con.project_versions(
+            self.project) if v.name == fix_version]
         fix_version_names = set(x['name'] for x in fix_versions)
         for version in self.current_fix_versions:
             major, minor, patch = version.name.split('.')
             if patch != '0' and version.name not in fix_version_names:
                 fix_versions.append(version.raw)
 
-        self.jira_con.transition_issue(self.jira_id, resolve["id"],
-                                       comment=comment,
-                                       fixVersions=fix_versions)
-
-        print("Successfully resolved %s!" % (self.jira_id))
+        if DEBUG:
+            print("JIRA issue %s untouched -> %s" %
+                  (self.jira_id, [v["name"] for v in fix_versions]))
+        else:
+            self.jira_con.transition_issue(self.jira_id, resolve["id"],
+                                           comment=comment,
+                                           fixVersions=fix_versions)
+            print("Successfully resolved %s!" % (self.jira_id))
 
         self.issue = self.jira_con.issue(self.jira_id)
         self.show()
 
     def show(self):
         fields = self.issue.fields
-        print(format_jira_output(self.jira_id, fields.status.name,
-                                 fields.summary, fields.assignee,
-                                 fields.components))
+        print(format_issue_output("jira", self.jira_id, fields.status.name,
+                                  fields.summary, fields.assignee,
+                                  fields.components))
+
+    def github_issue_id(self):
+        try:
+            last_jira_comment = self.issue.fields.comment.comments[-1].body
+        except Exception:
+            # If no comment found or other issues ignore
+            return None
+        matches = MIGRATION_COMMENT_REGEX.search(last_jira_comment)
+        if matches:
+            values = matches.groupdict()
+            return "GH-" + values['issue_id']
+
+
+class GitHubIssue(object):
+
+    def __init__(self, github_api, github_id, cmd):
+        self.github_api = github_api
+        self.github_id = github_id
+        self.cmd = cmd
+
+        try:
+            self.issue = self.github_api.get_issue_data(github_id)
+        except Exception as e:
+            self.cmd.fail("GitHub could not find %s\n%s" % (github_id, e))
+
+    def get_label(self, prefix):
+        prefix = f"{prefix}:"
+        return [
+            lbl["name"][len(prefix):].strip()
+            for lbl in self.issue["labels"] if lbl["name"].startswith(prefix)
+        ]
+
+    @property
+    def components(self):
+        return self.get_label("Component")
+
+    @property
+    def assignees(self):
+        return [a["login"] for a in self.issue["assignees"]]
+
+    @property
+    def current_fix_versions(self):
+        return self.issue.get("milestone", {}).get("title")
+
+    @property
+    def current_versions(self):
+        all_versions = self.github_api.get_milestones()
+
+        unreleased_versions = [x for x in all_versions if x["state"] == "open"]
+        unreleased_versions = [x["title"] for x in unreleased_versions]
+
+        return unreleased_versions
 
+    def resolve(self, fix_version, comment, pr_body):
+        cur_status = self.issue["state"]
 
-def format_jira_output(jira_id, status, summary, assignee, components):
-    if assignee is None:
+        if cur_status == "closed":
+            self.cmd.fail("GitHub issue %s already has status '%s'"
+                          % (self.github_id, cur_status))
+
+        if DEBUG:
+            print("GitHub issue %s untouched -> %s" %
+                  (self.github_id, fix_version))
+        else:
+            self.github_api.assign_milestone(self.github_id, fix_version)
+            if f"Closes: #{self.github_id}" not in pr_body:
+                self.github_api.close_issue(self.github_id, comment)
+            print("Successfully resolved %s!" % (self.github_id))
+
+        self.issue = self.github_api.get_issue_data(self.github_id)
+        self.show()
+
+    def show(self):
+        issue = self.issue
+        print(format_issue_output("github", self.github_id, issue["state"],
+                                  issue["title"], ', '.join(self.assignees),
+                                  self.components))
+
+
+def get_candidate_fix_version(mainline_versions,
+                              maintenance_branches=()):
+
+    all_versions = [getattr(v, "name", v) for v in mainline_versions]
+
+    def version_tuple(x):
+        # Parquet versions are something like cpp-1.2.0
+        numeric_version = getattr(x, "name", x).split("-", 1)[-1]
+        return tuple(int(_) for _ in numeric_version.split("."))
+    all_versions = sorted(all_versions, key=version_tuple, reverse=True)
+
+    # Only suggest versions starting with a number, like 0.x but not JS-0.x
+    mainline_versions = all_versions
+    mainline_non_patch_versions = []
+    for v in mainline_versions:
+        (major, minor, patch) = v.split(".")
+        if patch == "0":
+            mainline_non_patch_versions.append(v)
+
+    if len(mainline_versions) > len(mainline_non_patch_versions):
+        # If there is a non-patch release, suggest that instead
+        mainline_versions = mainline_non_patch_versions
+
+    mainline_versions = [v for v in mainline_versions
+                         if f"maint-{v}" not in maintenance_branches]
+    default_fix_versions = fix_version_from_branch(mainline_versions)
+
+    return default_fix_versions
+
+
+def format_issue_output(issue_type, issue_id, status,
+                        summary, assignee, components):
+    if not assignee:
         assignee = "NOT ASSIGNED!!!"
     else:
-        assignee = assignee.displayName
+        assignee = getattr(assignee, "displayName", assignee)
 
     if len(components) == 0:
         components = 'NO COMPONENTS!!!'
     else:
-        components = ', '.join((x.name for x in components))
+        components = ', '.join((getattr(x, "name", x) for x in components))
 
-    return """=== JIRA {} ===
+    if issue_type == "jira":
+        url = '/'.join((JIRA_API_BASE, 'browse', issue_id))
+    else:
+        url = (
+            f'https://github.com/{ORG_NAME}/{PROJECT_NAME}/issues/{issue_id}'
+        )
+
+    return """=== {} {} ===
 Summary\t\t{}
 Assignee\t{}
 Components\t{}
 Status\t\t{}
-URL\t\t{}/{}""".format(jira_id, summary, assignee, components, status,
-                       '/'.join((JIRA_API_BASE, 'browse')), jira_id)
+URL\t\t{}""".format(issue_type.upper(), issue_id, summary, assignee,
+                    components, status, url)
 
 
 class GitHubAPI(object):
 
     def __init__(self, project_name, cmd):
-        self.github_api = ("https://api.github.com/repos/apache/{0}"
-                           .format(project_name))
+        self.github_api = (
+            f"https://api.github.com/repos/{ORG_NAME}/{project_name}"
+        )
 
         token = None
         config = load_configuration()
@@ -270,6 +354,19 @@ def __init__(self, project_name, cmd):
         }
         self.headers = headers
 
+    def get_milestones(self):
+        return get_json("%s/milestones" % (self.github_api, ),
+                        headers=self.headers)
+
+    def get_milestone_number(self, version):
+        return next((
+            m["number"] for m in self.get_milestones() if m["title"] == version
+        ), None)
+
+    def get_issue_data(self, number):
+        return get_json("%s/issues/%s" % (self.github_api, number),
+                        headers=self.headers)
+
     def get_pr_data(self, number):
         return get_json("%s/pulls/%s" % (self.github_api, number),
                         headers=self.headers)
@@ -282,6 +379,36 @@ def get_branches(self):
         return get_json("%s/branches" % (self.github_api),
                         headers=self.headers)
 
+    def close_issue(self, number, comment):
+        issue_url = f'{self.github_api}/issues/{number}'
+        comment_url = f'{self.github_api}/issues/{number}/comments'
+
+        r = requests.post(comment_url, json={
+                          "body": comment}, headers=self.headers)
+        if not r.ok:
+            raise ValueError(
+                f"Failed request: {comment_url}:{r.status_code} -> {r.json()}")
+
+        r = requests.patch(
+            issue_url, json={"state": "closed"}, headers=self.headers)
+        if not r.ok:
+            raise ValueError(
+                f"Failed request: {issue_url}:{r.status_code} -> {r.json()}")
+
+    def assign_milestone(self, number, version):
+        url = f'{self.github_api}/issues/{number}'
+        milestone_number = self.get_milestone_number(version)
+        if not milestone_number:
+            raise ValueError(f"Invalid version {version}, milestone not found")
+        payload = {
+            'milestone': milestone_number
+        }
+        r = requests.patch(url, headers=self.headers, json=payload)
+        if not r.ok:
+            raise ValueError(
+                f"Failed request: {url}:{r.status_code} -> {r.json()}")
+        return r.json()
+
     def merge_pr(self, number, commit_title, commit_message):
         url = f'{self.github_api}/pulls/{number}/merge'
         payload = {
@@ -323,6 +450,14 @@ def continue_maybe(self, prompt):
 
 
 class PullRequest(object):
+    GITHUB_PR_TITLE_PATTERN = re.compile(r'^GH-([0-9]+)\b.*$')
+    # We can merge PARQUET patches from JIRA or GH prefixed issues
+    JIRA_SUPPORTED_PROJECTS = ['PARQUET']
+    JIRA_PR_TITLE_REGEXEN = [
+        (project, re.compile(r'^(' + project + r'-[0-9]+)\b.*$'))
+        for project in JIRA_SUPPORTED_PROJECTS
+    ]
+    JIRA_UNSUPPORTED_ARROW = re.compile(r'^(ARROW-[0-9]+)\b.*$')
 
     def __init__(self, cmd, github_api, git_remote, jira_con, number):
         self.cmd = cmd
@@ -343,14 +478,14 @@ def __init__(self, cmd, github_api, git_remote, jira_con, number):
             raise
         self.description = "%s/%s" % (self.user_login, self.base_ref)
 
-        self.jira_issue = self._get_jira()
+        self.issue = self._get_issue()
 
     def show(self):
         print("\n=== Pull Request #%s ===" % self.number)
         print("title\t%s\nsource\t%s\ntarget\t%s\nurl\t%s"
               % (self.title, self.description, self.target_ref, self.url))
-        if self.jira_issue is not None:
-            self.jira_issue.show()
+        if self.issue is not None:
+            self.issue.show()
         else:
             print("Minor PR.  Please ensure it meets guidelines for minor.\n")
 
@@ -367,24 +502,37 @@ def maintenance_branches(self):
         return [x["name"] for x in self._github_api.get_branches()
                 if x["name"].startswith("maint-")]
 
-    def _get_jira(self):
+    def _get_issue(self):
         if self.title.startswith("MINOR:"):
             return None
 
-        jira_id = None
-        for project, regex in PR_TITLE_REGEXEN:
+        m = self.GITHUB_PR_TITLE_PATTERN.search(self.title)
+        if m:
+            github_id = m.group(1)
+            return GitHubIssue(self._github_api, github_id, self.cmd)
+
+        m = self.JIRA_UNSUPPORTED_ARROW.search(self.title)
+        if m:
+            old_jira_id = m.group(1)
+            jira_issue = JiraIssue(self.con, old_jira_id, 'ARROW', self.cmd)
+            self.cmd.fail("PR titles with ARROW- prefixed tickets on JIRA "
+                          "are unsupported, update the PR title from "
+                          f"{old_jira_id}. Possible GitHub id could be: "
+                          f"{jira_issue.github_issue_id()}")
+
+        for project, regex in self.JIRA_PR_TITLE_REGEXEN:
             m = regex.search(self.title)
             if m:
                 jira_id = m.group(1)
-                break
-
-        if jira_id is None:
-            options = ' or '.join('{0}-XXX'.format(project)
-                                  for project in SUPPORTED_PROJECTS)
-            self.cmd.fail("PR title should be prefixed by a jira id "
-                          "{0}, but found {1}".format(options, self.title))
+                return JiraIssue(self.con, jira_id, project, self.cmd)
 
-        return JiraIssue(self.con, jira_id, project, self.cmd)
+        options = ' or '.join(
+            '{0}-XXX'.format(project)
+            for project in self.JIRA_SUPPORTED_PROJECTS + ["GH"]
+        )
+        self.cmd.fail("PR title should be prefixed by a GitHub ID or a "
+                      "Jira ID, like: {0}, but found {1}".format(
+                          options, self.title))
 
     def merge(self):
         """
@@ -398,7 +546,8 @@ def format_commit_author(commit):
             email = author['email']
             return f'{name} <{email}>'
         commit_authors = [format_commit_author(commit) for commit in commits]
-        co_authored_by_re = re.compile(r'^Co-authored-by:\s*(.*)')
+        co_authored_by_re = re.compile(
+            r'^Co-authored-by:\s*(.*)', re.MULTILINE)
 
         def extract_co_authors(commit):
             message = commit['commit']['message']
@@ -426,7 +575,11 @@ def extract_co_authors(commit):
         commit_title = f'{self.title} (#{self.number})'
         commit_message_chunks = []
         if self.body is not None:
-            commit_message_chunks.append(self.body)
+            # Remove comments (i.e. <-- comment -->) from the PR description.
+            body = re.sub(r"<!--.*?-->", "", self.body, flags=re.DOTALL)
+            # avoid github user name references by inserting a space after @
+            body = re.sub(r"@(\w+)", "@ \\1", body)
+            commit_message_chunks.append(body)
 
         committer_name = run_cmd("git config --get user.name").strip()
         committer_email = run_cmd("git config --get user.email").strip()
@@ -443,9 +596,16 @@ def extract_co_authors(commit):
 
         commit_message = "\n\n".join(commit_message_chunks)
 
+        # Normalize line ends and collapse extraneous newlines. We allow two
+        # consecutive newlines for paragraph breaks but not more.
+        commit_message = "\n".join(commit_message.splitlines())
+        commit_message = re.sub("\n{2,}", "\n\n", commit_message)
+
         if DEBUG:
+            print("*** Commit title ***")
             print(commit_title)
             print()
+            print("*** Commit message ***")
             print(commit_message)
 
         if DEBUG:
@@ -485,25 +645,18 @@ def get_primary_author(cmd, distinct_authors):
     return primary_author, distinct_other_authors
 
 
-def prompt_for_fix_version(cmd, jira_issue, maintenance_branches=()):
-    (all_versions,
-     default_fix_versions) = jira_issue.get_candidate_fix_versions(
+def prompt_for_fix_version(cmd, issue, maintenance_branches=()):
+    default_fix_version = get_candidate_fix_version(
+        mainline_versions=issue.current_versions,
         maintenance_branches=maintenance_branches
     )
 
-    default_fix_versions = ",".join(default_fix_versions)
-
-    issue_fix_versions = cmd.prompt("Enter comma-separated "
-                                    "fix version(s) [%s]: "
-                                    % default_fix_versions)
-    if issue_fix_versions == "":
-        issue_fix_versions = default_fix_versions
-    issue_fix_versions = issue_fix_versions.replace(" ", "").split(",")
-
-    def get_version_json(version_str):
-        return [x for x in all_versions if x.name == version_str][0].raw
-
-    return [get_version_json(v) for v in issue_fix_versions]
+    issue_fix_version = cmd.prompt("Enter fix version [%s]: "
+                                   % default_fix_version)
+    if issue_fix_version == "":
+        issue_fix_version = default_fix_version
+    issue_fix_version = issue_fix_version.strip()
+    return issue_fix_version
 
 
 CONFIG_FILE = "~/.config/arrow/merge.conf"
@@ -550,9 +703,9 @@ def get_pr_num():
 def cli():
     # Location of your Arrow git clone
     ARROW_HOME = os.path.abspath(os.path.dirname(__file__))
-    PROJECT_NAME = os.environ.get('ARROW_PROJECT_NAME') or 'arrow'
-    print("ARROW_HOME = " + ARROW_HOME)
-    print("PROJECT_NAME = " + PROJECT_NAME)
+    print(f"ARROW_HOME = {ARROW_HOME}")
+    print(f"ORG_NAME = {ORG_NAME}")
+    print(f"PROJECT_NAME = {PROJECT_NAME}")
 
     cmd = CommandInput()
 
@@ -563,7 +716,7 @@ def cli():
     github_api = GitHubAPI(PROJECT_NAME, cmd)
 
     jira_con = connect_jira(cmd)
-    pr = PullRequest(cmd, github_api, PR_REMOTE_NAME, jira_con, pr_num)
+    pr = PullRequest(cmd, github_api, ORG_NAME, jira_con, pr_num)
 
     if pr.is_merged:
         print("Pull request %s has already been merged" % pr_num)
@@ -579,20 +732,19 @@ def cli():
 
     pr.merge()
 
-    if pr.jira_issue is None:
-        print("Minor PR.  No JIRA issue to update.\n")
+    if pr.issue is None:
+        print("Minor PR.  No issue to update.\n")
         return
 
-    cmd.continue_maybe("Would you like to update the associated JIRA?")
-    jira_comment = (
-        "Issue resolved by pull request %s\n[%s/%s]"
+    cmd.continue_maybe("Would you like to update the associated issue?")
+    issue_comment = (
+        "Issue resolved by pull request %s\n%s"
         % (pr_num,
-           "https://github.com/apache/" + PROJECT_NAME + "/pull",
-           pr_num))
-
-    fix_versions_json = prompt_for_fix_version(cmd, pr.jira_issue,
-                                               pr.maintenance_branches)
-    pr.jira_issue.resolve(fix_versions_json, jira_comment)
+           f"https://github.com/{ORG_NAME}/{PROJECT_NAME}/pull/{pr_num}")
+    )
+    fix_version = prompt_for_fix_version(cmd, pr.issue,
+                                         pr.maintenance_branches)
+    pr.issue.resolve(fix_version, issue_comment, pr.body)
 
 
 if __name__ == '__main__':
diff --git a/dev/release/01-prepare-test.rb b/dev/release/01-prepare-test.rb
index b498a297632..eb9b10e393c 100644
--- a/dev/release/01-prepare-test.rb
+++ b/dev/release/01-prepare-test.rb
@@ -54,7 +54,9 @@ def prepare(*targets)
   def test_linux_packages
     user = "Arrow Developers"
     email = "dev@arrow.apache.org"
-    prepare("LINUX_PACKAGES", "DEBFULLNAME" => user, "DEBEMAIL" => email)
+    stdout = prepare("LINUX_PACKAGES",
+                     "DEBFULLNAME" => user,
+                     "DEBEMAIL" => email)
     changes = parse_patch(git("log", "-n", "1", "-p"))
     sampled_changes = changes.collect do |change|
       {
@@ -91,9 +93,10 @@ def test_linux_packages
         ],
       },
     ]
-    assert_equal(expected_changes, sampled_changes)
+    assert_equal(expected_changes, sampled_changes, "Output:\n#{stdout}")
   end
 
+  data(:release_type, [:major, :minor, :patch])
   def test_version_pre_tag
     omit_on_release_branch
 
@@ -154,19 +157,32 @@ def test_version_pre_tag
            "+  url \"https://www.apache.org/dyn/closer.lua?path=arrow/arrow-#{@release_version}/apache-arrow-#{@release_version}.tar.gz\""],
         ],
       },
+    ]
+    unless release_type == :patch
+      expected_changes += [
+        {
+          path: "docs/source/_static/versions.json",
+          hunks: [
+            [
+              "-        \"name\": \"#{@release_compatible_version} (dev)\",",
+              "+        \"name\": \"#{@next_compatible_version} (dev)\",",
+              "-        \"name\": \"#{@previous_compatible_version} (stable)\",",
+              "+        \"name\": \"#{@release_compatible_version} (stable)\",",
+              "+    {",
+              "+        \"name\": \"#{@previous_compatible_version}\",",
+              "+        \"version\": \"#{@previous_compatible_version}/\"",
+              "+    },",
+            ],
+          ],
+        },
+      ]
+    end
+    expected_changes += [
       {
-        path: "docs/source/_static/versions.json",
+        path: "go/arrow/doc.go",
         hunks: [
-          [
-            "-        \"name\": \"#{@release_compatible_version} (dev)\",",
-            "+        \"name\": \"#{@next_compatible_version} (dev)\",",
-            "-        \"name\": \"#{@previous_compatible_version} (stable)\",",
-            "+        \"name\": \"#{@release_compatible_version} (stable)\",",
-            "+    {",
-            "+        \"name\": \"#{@previous_compatible_version}\",",
-            "+        \"version\": \"#{@previous_compatible_version}/\"",
-            "+    },",
-          ],
+          ["-const PkgVersion = \"#{@snapshot_version}\"",
+           "+const PkgVersion = \"#{@release_version}\""],
         ],
       },
       {
@@ -190,6 +206,13 @@ def test_version_pre_tag
            "+set(MLARROW_VERSION \"#{@release_version}\")"],
         ],
       },
+      {
+        path: "python/CMakeLists.txt",
+        hunks: [
+          ["-set(PYARROW_VERSION \"#{@snapshot_version}\")",
+           "+set(PYARROW_VERSION \"#{@release_version}\")"],
+        ],
+      },
       {
         path: "python/setup.py",
         hunks: [
@@ -211,22 +234,40 @@ def test_version_pre_tag
            "+\# arrow #{@release_version}"],
         ],
       },
-      {
-        path: "r/pkgdown/assets/versions.json",
-        hunks: [
-          [
-            "-        \"name\": \"#{@previous_version}.9000 (dev)\",",
-            "+        \"name\": \"#{@release_version}.9000 (dev)\",",
-            "-        \"name\": \"#{@previous_version} (release)\",",
-            "+        \"name\": \"#{@release_version} (release)\",",
-            "+    {",
-            "+        \"name\": \"#{@previous_version}\",",
-            "+        \"version\": \"#{@previous_compatible_version}/\"",
-            "+    },",
-          ]
-        ],
-      },
     ]
+    if release_type == :major
+      expected_changes += [
+        {
+          path: "r/pkgdown/assets/versions.json",
+          hunks: [
+            [
+              "-        \"name\": \"#{@previous_version}.9000 (dev)\",",
+              "+        \"name\": \"#{@release_version}.9000 (dev)\",",
+              "-        \"name\": \"#{@previous_version} (release)\",",
+              "+        \"name\": \"#{@release_version} (release)\",",
+              "+    {",
+              "+        \"name\": \"#{@previous_version}\",",
+              "+        \"version\": \"#{@previous_compatible_version}/\"",
+              "+    },",
+            ]
+          ],
+        },
+      ]
+    else
+      expected_changes += [
+        {
+          path: "r/pkgdown/assets/versions.json",
+          hunks: [
+            [
+              "-        \"name\": \"#{@previous_version}.9000 (dev)\",",
+              "+        \"name\": \"#{@release_version}.9000 (dev)\",",
+              "-        \"name\": \"#{@previous_version} (release)\",",
+              "+        \"name\": \"#{@release_version} (release)\",",
+            ]
+          ],
+        },
+      ]
+    end
 
     Dir.glob("java/**/pom.xml") do |path|
       version = "<version>#{@snapshot_version}</version>"
@@ -259,8 +300,9 @@ def test_version_pre_tag
       }
     end
 
-    prepare("VERSION_PRE_TAG")
+    stdout = prepare("VERSION_PRE_TAG")
     assert_equal(expected_changes.sort_by {|diff| diff[:path]},
-                 parse_patch(git("log", "-n", "1", "-p")))
+                 parse_patch(git("log", "-n", "1", "-p")),
+                 "Output:\n#{stdout}")
   end
 end
diff --git a/dev/release/02-source-test.rb b/dev/release/02-source-test.rb
index abb8f216086..85718b6645f 100644
--- a/dev/release/02-source-test.rb
+++ b/dev/release/02-source-test.rb
@@ -105,6 +105,21 @@ def test_vote
     search_url.open do |response|
       n_resolved_issues = JSON.parse(response.read)["total"]
     end
+    github_api_url = "https://api.github.com"
+    verify_prs = URI("#{github_api_url}/repos/apache/arrow/pulls" +
+                     "?state=open" +
+                     "&head=apache:release-#{@release_version}-rc0")
+    verify_pr_url = nil
+    headers = {
+      "Accept" => "application/vnd.github+json",
+    }
+    github_token = ENV["ARROW_GITHUB_API_TOKEN"]
+    if github_token
+      headers["Authorization"] = "Bearer #{github_token}"
+    end
+    verify_prs.open(headers) do |response|
+      verify_pr_url = (JSON.parse(response.read)[0] || {})["html_url"]
+    end
     output = source("VOTE")
     assert_equal(<<-VOTE.strip, output[/^-+$(.+?)^-+$/m, 1].strip)
 To: dev@arrow.apache.org
@@ -126,6 +141,8 @@ def test_vote
 Please download, verify checksums and signatures, run the unit tests,
 and vote on the release. See [13] for how to validate a release candidate.
 
+See also a verification result on GitHub pull request [14].
+
 The vote will be open for at least 72 hours.
 
 [ ] +1 Release this as Apache Arrow #{@release_version}
@@ -145,6 +162,7 @@ def test_vote
 [11]: https://apache.jfrog.io/artifactory/arrow/ubuntu-rc/
 [12]: https://github.com/apache/arrow/blob/#{@current_commit}/CHANGELOG.md
 [13]: https://cwiki.apache.org/confluence/display/ARROW/How+to+Verify+Release+Candidates
+[14]: #{verify_pr_url || "null"}
     VOTE
   end
 end
diff --git a/dev/release/02-source.sh b/dev/release/02-source.sh
index e0b61bbf67c..984d7af5941 100755
--- a/dev/release/02-source.sh
+++ b/dev/release/02-source.sh
@@ -18,7 +18,7 @@
 # under the License.
 #
 
-set -e
+set -eu
 
 : ${SOURCE_DEFAULT:=1}
 : ${SOURCE_RAT:=${SOURCE_DEFAULT}}
@@ -39,7 +39,7 @@ rc=$2
 
 tag=apache-arrow-${version}
 maint_branch=maint-${version}
-release_candidate_branch="release-${version}-rc${rc_number}"
+rc_branch="release-${version}-rc${rc}"
 tagrc=${tag}-rc${rc}
 rc_url="https://dist.apache.org/repos/dist/dev/arrow/${tagrc}"
 
@@ -128,13 +128,13 @@ fi
 
 # Create Pull Request and Crossbow comment to run verify source tasks
 if [ ${SOURCE_PR} -gt 0 ]; then
-  archery crossbow verify-release-candidate \
+  archery crossbow \
+    verify-release-candidate \
     --base-branch=${maint_branch} \
     --create-pr \
-    --github-token=${ARROW_GITHUB_API_TOKEN} \
-    --head-branch=${release_candidate_branch} \
+    --head-branch=${rc_branch} \
     --pr-body="PR to verify Release Candidate" \
-    --pr-title="WIP: [Release] Verify ${release_candidate_branch}" \
+    --pr-title="WIP: [Release] Verify ${rc_branch}" \
     --remote=https://github.com/apache/arrow \
     --rc=${rc} \
     --verify-source \
@@ -142,13 +142,22 @@ if [ ${SOURCE_PR} -gt 0 ]; then
 fi
 
 if [ ${SOURCE_VOTE} -gt 0 ]; then
+  jira_url="https://issues.apache.org/jira"
+  jql="project%20%3D%20ARROW%20AND%20status%20in%20%28Resolved%2C%20Closed%29%20AND%20fixVersion%20%3D%20${version}"
+  n_resolved_issues=$(curl "${jira_url}/rest/api/2/search/?jql=${jql}" | jq ".total")
+  curl_options=(--header "Accept: application/vnd.github+json")
+  if [ -n "${ARROW_GITHUB_API_TOKEN:-}" ]; then
+    curl_options+=(--header "Authorization: Bearer ${ARROW_GITHUB_API_TOKEN}")
+  fi
+  curl_options+=(--get)
+  curl_options+=(--data "state=open")
+  curl_options+=(--data "head=apache:${rc_branch}")
+  curl_options+=(https://api.github.com/repos/apache/arrow/pulls)
+  verify_pr_url=$(curl "${curl_options[@]}" | jq -r ".[0].html_url")
   echo "The following draft email has been created to send to the"
   echo "dev@arrow.apache.org mailing list"
   echo ""
   echo "---------------------------------------------------------"
-  jira_url="https://issues.apache.org/jira"
-  jql="project%20%3D%20ARROW%20AND%20status%20in%20%28Resolved%2C%20Closed%29%20AND%20fixVersion%20%3D%20${version}"
-  n_resolved_issues=$(curl "${jira_url}/rest/api/2/search/?jql=${jql}" | jq ".total")
   cat <<MAIL
 To: dev@arrow.apache.org
 Subject: [VOTE] Release Apache Arrow ${version} - RC${rc}
@@ -169,6 +178,8 @@ The changelog is located at [12].
 Please download, verify checksums and signatures, run the unit tests,
 and vote on the release. See [13] for how to validate a release candidate.
 
+See also a verification result on GitHub pull request [14].
+
 The vote will be open for at least 72 hours.
 
 [ ] +1 Release this as Apache Arrow ${version}
@@ -188,6 +199,7 @@ The vote will be open for at least 72 hours.
 [11]: https://apache.jfrog.io/artifactory/arrow/ubuntu-rc/
 [12]: https://github.com/apache/arrow/blob/${release_hash}/CHANGELOG.md
 [13]: https://cwiki.apache.org/confluence/display/ARROW/How+to+Verify+Release+Candidates
+[14]: ${verify_pr_url}
 MAIL
   echo "---------------------------------------------------------"
 fi
diff --git a/dev/release/03-binary-submit.sh b/dev/release/03-binary-submit.sh
index 47fd7ad49f2..d65b4e97c5f 100755
--- a/dev/release/03-binary-submit.sh
+++ b/dev/release/03-binary-submit.sh
@@ -17,7 +17,7 @@
 # specific language governing permissions and limitations
 # under the License.
 
-set -e
+set -eu
 
 if [ "$#" -ne 2 ]; then
   echo "Usage: $0 <version> <rc-num>"
@@ -25,10 +25,11 @@ if [ "$#" -ne 2 ]; then
 fi
 
 version=$1
-rc_number=$2
-version_with_rc="${version}-rc${rc_number}"
+rc=$2
+version_with_rc="${version}-rc${rc}"
 crossbow_job_prefix="release-${version_with_rc}"
 release_tag="apache-arrow-${version}"
+rc_branch="release-${version_with_rc}"
 
 : ${ARROW_REPOSITORY:="apache/arrow"}
 : ${ARROW_BRANCH:=$release_tag}
@@ -46,9 +47,9 @@ archery crossbow submit \
 
 # archery will add a comment to the automatically generated PR to track
 # the submitted jobs
-job_name=$(archery crossbow latest-prefix ${crossbow_job_prefix})
+job_name=$(archery crossbow latest-prefix --no-fetch ${crossbow_job_prefix})
 archery crossbow report-pr \
     --no-fetch \
     --arrow-remote "https://github.com/${ARROW_REPOSITORY}" \
     --job-name ${job_name} \
-    --pr-title "WIP: [Release] Verify ${release_candidate_branch}"
+    --pr-title "WIP: [Release] Verify ${rc_branch}"
diff --git a/dev/release/05-binary-upload.sh b/dev/release/05-binary-upload.sh
index d6163e7059d..ae240c02ddf 100755
--- a/dev/release/05-binary-upload.sh
+++ b/dev/release/05-binary-upload.sh
@@ -40,15 +40,15 @@ crossbow_package_dir="${SOURCE_DIR}/../../packages"
 
 : ${CROSSBOW_JOB_NUMBER:="0"}
 : ${CROSSBOW_JOB_ID:="${crossbow_job_prefix}-${CROSSBOW_JOB_NUMBER}"}
-artifact_dir="${crossbow_package_dir}/${CROSSBOW_JOB_ID}"
+: ${ARROW_ARTIFACTS_DIR:="${crossbow_package_dir}/${CROSSBOW_JOB_ID}"}
 
-if [ ! -e "$artifact_dir" ]; then
-  echo "$artifact_dir does not exist"
+if [ ! -e "${ARROW_ARTIFACTS_DIR}" ]; then
+  echo "${ARROW_ARTIFACTS_DIR} does not exist"
   exit 1
 fi
 
-if [ ! -d "$artifact_dir" ]; then
-  echo "$artifact_dir is not a directory"
+if [ ! -d "${ARROW_ARTIFACTS_DIR}" ]; then
+  echo "${ARROW_ARTIFACTS_DIR} is not a directory"
   exit 1
 fi
 
@@ -118,7 +118,7 @@ tmp_dir=binary/tmp
 mkdir -p "${tmp_dir}"
 source_artifacts_dir="${tmp_dir}/artifacts"
 rm -rf "${source_artifacts_dir}"
-cp -a "${artifact_dir}" "${source_artifacts_dir}"
+cp -a "${ARROW_ARTIFACTS_DIR}" "${source_artifacts_dir}"
 
 docker_run \
   ./runner.sh \
@@ -127,7 +127,11 @@ docker_run \
     APT_TARGETS=$(IFS=,; echo "${apt_targets[*]}") \
     ARTIFACTORY_API_KEY="${ARTIFACTORY_API_KEY}" \
     ARTIFACTS_DIR="${tmp_dir}/artifacts" \
+    DEB_PACKAGE_NAME=${DEB_PACKAGE_NAME:-} \
+    DRY_RUN=${DRY_RUN:-no} \
+    GPG_KEY_ID="${GPG_KEY_ID}" \
     RC=${rc} \
     STAGING=${STAGING:-no} \
+    VERBOSE=${VERBOSE:-no} \
     VERSION=${version} \
     YUM_TARGETS=$(IFS=,; echo "${yum_targets[*]}")
diff --git a/dev/release/06-java-upload.sh b/dev/release/06-java-upload.sh
index bdd4d7d964d..9d791f8ef7c 100755
--- a/dev/release/06-java-upload.sh
+++ b/dev/release/06-java-upload.sh
@@ -23,7 +23,7 @@ set -o pipefail
 
 SOURCE_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 
-if [ "$#" -ne 2 ]; then
+if [ $# -ne 2 ]; then
   echo "Usage: $0 <version> <rc-num>"
   exit
 fi
@@ -31,14 +31,19 @@ fi
 version=$1
 rc=$2
 
-pushd "${SOURCE_DIR}"
-if [ ! -f .env ]; then
-  echo "You must create $(pwd)/.env"
-  echo "You can use $(pwd)/.env.example as template"
-  exit 1
+: ${UPLOAD_DEFAULT=1}
+: ${UPLOAD_FORCE_SIGN=${UPLOAD_DEFAULT}}
+
+if [ ${UPLOAD_FORCE_SIGN} -gt 0 ]; then
+  pushd "${SOURCE_DIR}"
+  if [ ! -f .env ]; then
+    echo "You must create $(pwd)/.env"
+    echo "You can use $(pwd)/.env.example as template"
+    exit 1
+  fi
+  . .env
+  popd
 fi
-. .env
-popd
 
 version_with_rc="${version}-rc${rc}"
 crossbow_job_prefix="release-${version_with_rc}"
@@ -46,19 +51,19 @@ crossbow_package_dir="${SOURCE_DIR}/../../packages"
 
 : ${CROSSBOW_JOB_NUMBER:="0"}
 : ${CROSSBOW_JOB_ID:="${crossbow_job_prefix}-${CROSSBOW_JOB_NUMBER}"}
-artifact_dir="${crossbow_package_dir}/${CROSSBOW_JOB_ID}"
+: ${ARROW_ARTIFACTS_DIR:="${crossbow_package_dir}/${CROSSBOW_JOB_ID}/java-jars"}
 
-if [ ! -e "${artifact_dir}" ]; then
-  echo "${artifact_dir} does not exist"
+if [ ! -e "${ARROW_ARTIFACTS_DIR}" ]; then
+  echo "${ARROW_ARTIFACTS_DIR} does not exist"
   exit 1
 fi
 
-if [ ! -d "${artifact_dir}" ]; then
-  echo "${artifact_dir} is not a directory"
+if [ ! -d "${ARROW_ARTIFACTS_DIR}" ]; then
+  echo "${ARROW_ARTIFACTS_DIR} is not a directory"
   exit 1
 fi
 
-cd "${artifact_dir}/java-jars"
+pushd "${ARROW_ARTIFACTS_DIR}"
 
 files=
 types=
@@ -70,12 +75,14 @@ sign() {
   local type=$(echo "${path}" | grep -o "[^.]*$")
 
   local asc_path="${path}.asc"
-  rm -f "${asc_path}"
-  gpg \
-    --detach-sig \
-    --local-user "${GPG_KEY_ID}" \
-    --output "${asc_path}" \
-    "${path}"
+  if [ ${UPLOAD_FORCE_SIGN} -gt 0 ]; then
+    rm -f "${asc_path}"
+    gpg \
+      --detach-sig \
+      --local-user "${GPG_KEY_ID}" \
+      --output "${asc_path}" \
+      "${path}"
+  fi
   if [ -n "${files}" ]; then
     files="${files},"
     types="${types},"
@@ -136,6 +143,8 @@ for pom in *.pom; do
   popd
 done
 
+popd
+
 echo "Success!"
 echo "Press the 'Close' button manually by Web interface:"
 echo "    https://repository.apache.org/#stagingRepositories"
diff --git a/ci/scripts/install_kartothek.sh b/dev/release/07-binary-verify.sh
similarity index 69%
rename from ci/scripts/install_kartothek.sh
rename to dev/release/07-binary-verify.sh
index b715f5cf849..152e0979445 100755
--- a/ci/scripts/install_kartothek.sh
+++ b/dev/release/07-binary-verify.sh
@@ -18,22 +18,25 @@
 # under the License.
 
 set -e
+set -u
+set -o pipefail
 
 if [ "$#" -ne 2 ]; then
-  echo "Usage: $0 <kartothek version> <target directory>"
-  exit 1
+  echo "Usage: $0 <version> <rc-num>"
+  exit
 fi
 
-karthothek=$1
-target=$2
+version=$1
+rc=$2
 
-git clone --recurse-submodules https://github.com/JDASoftwareGroup/kartothek "${target}"
-if [ "${kartothek}" = "latest" ]; then
-  git -C "${target}" checkout $(git describe --tags);
-else
-  git -C "${target}" checkout ${kartothek};
-fi
+rc_branch="release-${version}-rc${rc}"
 
-pushd "${target}"
-pip install --no-deps .
-popd
+archery crossbow \
+  verify-release-candidate \
+  --head-branch=${rc_branch} \
+  --pr-title="WIP: [Release] Verify ${rc_branch}" \
+  --rc=${rc} \
+  --remote=https://github.com/apache/arrow \
+  --verify-binaries \
+  --verify-wheels \
+  --version=${version}
diff --git a/dev/release/binary-task.rb b/dev/release/binary-task.rb
index 857517d108b..e13e053e4a8 100644
--- a/dev/release/binary-task.rb
+++ b/dev/release/binary-task.rb
@@ -292,7 +292,7 @@ def close
 
     def request(method, headers, url, body: nil, &block)
       request = build_request(method, url, headers, body: body)
-      if ENV["DRY_RUN"]
+      if ENV["DRY_RUN"] == "yes"
         case request
         when Net::HTTP::Get, Net::HTTP::Head
         else
@@ -1088,6 +1088,7 @@ def available_apt_targets
       ["ubuntu", "bionic", "main"],
       ["ubuntu", "focal", "main"],
       ["ubuntu", "jammy", "main"],
+      ["ubuntu", "kinetic", "main"],
     ]
   end
 
@@ -1302,10 +1303,13 @@ def define_apt_rc_tasks
             Dir.glob("#{source_dir_prefix}*/**/*") do |path|
               next if File.directory?(path)
               base_name = File.basename(path)
-              if base_name.start_with?("apache-arrow-apt-source")
-                package_name = "apache-arrow-apt-source"
-              else
-                package_name = "apache-arrow"
+              package_name = ENV["DEB_PACKAGE_NAME"]
+              if package_name.nil? or package_name.empty?
+                if base_name.start_with?("apache-arrow-apt-source")
+                  package_name = "apache-arrow-apt-source"
+                else
+                  package_name = "apache-arrow"
+                end
               end
               destination_path = [
                 pool_dir,
@@ -1552,24 +1556,28 @@ def yum_update(base_dir, incoming_dir)
       target_dir = "#{incoming_dir}/#{distribution}/#{distribution_version}"
       target_dir = Pathname(target_dir)
       next unless target_dir.directory?
-      Dir.glob("#{target_dir}/**/repodata") do |repodata|
-        rm_rf(repodata, verbose: verbose?)
-      end
-      target_dir.glob("*") do |arch_dir|
-        next unless arch_dir.directory?
-        base_repodata_dir = [
-          base_dir,
-          distribution,
-          distribution_version,
-          File.basename(arch_dir),
-          "repodata",
-        ].join("/")
-        if File.exist?(base_repodata_dir)
+
+      base_target_dir = Pathname(base_dir) + distribution + distribution_version
+      if base_target_dir.exist?
+        base_target_dir.glob("*") do |base_arch_dir|
+          next unless base_arch_dir.directory?
+
+          base_repodata_dir = base_arch_dir + "repodata"
+          next unless base_repodata_dir.exist?
+
+          target_repodata_dir = target_dir + base_arch_dir.basename + "repodata"
+          rm_rf(target_repodata_dir, verbose: verbose?)
+          mkdir_p(target_repodata_dir.parent, verbose: verbose?)
           cp_r(base_repodata_dir,
-               arch_dir.to_s,
+               target_repodata_dir,
                preserve: true,
                verbose: verbose?)
         end
+      end
+
+      target_dir.glob("*") do |arch_dir|
+        next unless arch_dir.directory?
+
         packages = Tempfile.new("createrepo-c-packages")
         Pathname.glob("#{arch_dir}/*/*.rpm") do |rpm|
           relative_rpm = rpm.relative_path_from(arch_dir)
@@ -2001,3 +2009,195 @@ def define_summary_tasks
     end
   end
 end
+
+class LocalBinaryTask < BinaryTask
+  def initialize(packages, top_source_directory)
+    @packages = packages
+    @top_source_directory = top_source_directory
+    super()
+  end
+
+  def define
+    define_apt_test_task
+    define_yum_test_task
+  end
+
+  private
+  def resolve_docker_image(target)
+    case target
+    when /-(?:arm64|aarch64)\z/
+      target = Regexp.last_match.pre_match
+      platform = "linux/arm64"
+    else
+      platform = "linux/amd64"
+    end
+
+    case target
+    when /\Acentos-(\d+)-stream\z/
+      centos_stream_version = $1
+      image = "quay.io/centos/centos:stream#{centos_stream_version}"
+    else
+      case platform
+      when "linux/arm64"
+        image = "arm64v8/"
+      else
+        image = ""
+      end
+      target = target.gsub(/\Aamazon-linux/, "amazonlinux")
+      image << target.gsub(/-/, ":")
+    end
+
+    [platform, image]
+  end
+
+  def verify_apt_sh
+    "/host/dev/release/verify-apt.sh"
+  end
+
+  def verify_yum_sh
+    "/host/dev/release/verify-yum.sh"
+  end
+
+  def verify(target)
+    verify_command_line = [
+      "docker",
+      "run",
+      "--log-driver", "none",
+      "--rm",
+      "--security-opt", "seccomp=unconfined",
+      "--volume", "#{@top_source_directory}:/host:delegated",
+    ]
+    if $stdin.tty?
+      verify_command_line << "--interactive"
+      verify_command_line << "--tty"
+    else
+      verify_command_line.concat(["--attach", "STDOUT"])
+      verify_command_line.concat(["--attach", "STDERR"])
+    end
+    platform, docker_image = resolve_docker_image(target)
+    docker_info = JSON.parse(`docker info --format '{{json .}}'`)
+    case [platform, docker_info["Architecture"]]
+    when ["linux/amd64", "x86_64"],
+         ["linux/arm64", "aarch64"]
+      # Do nothing
+    else
+      verify_command_line.concat(["--platform", platform])
+    end
+    verify_command_line << docker_image
+    case target
+    when /\Adebian-/, /\Aubuntu-/
+      verify_command_line << verify_apt_sh
+    else
+      verify_command_line << verify_yum_sh
+    end
+    verify_command_line << version
+    verify_command_line << "local"
+    sh(*verify_command_line)
+  end
+
+  def apt_test_targets
+    targets = (ENV["APT_TARGETS"] || "").split(",")
+    targets = apt_test_targets_default if targets.empty?
+    targets
+  end
+
+  def apt_test_targets_default
+    # Disable arm64 targets by default for now
+    # because they require some setups on host.
+    [
+      "debian-buster",
+      # "debian-buster-arm64",
+      "debian-bullseye",
+      # "debian-bullseye-arm64",
+      "debian-bookworm",
+      # "debian-bookworm-arm64",
+      "ubuntu-bionic",
+      # "ubuntu-bionic-arm64",
+      "ubuntu-focal",
+      # "ubuntu-focal-arm64",
+      "ubuntu-impish",
+      # "ubuntu-impish-arm64",
+    ]
+  end
+
+  def define_apt_test_task
+    namespace :apt do
+      desc "Test deb packages"
+      task :test do
+        repositories_dir = "apt/repositories"
+        unless @packages.empty?
+          rm_rf(repositories_dir)
+          @packages.each do |package|
+            package_repositories = "#{package}/apt/repositories"
+            next unless File.exist?(package_repositories)
+            sh("rsync", "-av", "#{package_repositories}/", repositories_dir)
+          end
+        end
+        Dir.glob("#{repositories_dir}/ubuntu/pool/*") do |code_name_dir|
+          universe_dir = "#{code_name_dir}/universe"
+          next unless File.exist?(universe_dir)
+          mv(universe_dir, "#{code_name_dir}/main")
+        end
+        base_dir = "nonexistent"
+        merged_dir = "apt/merged"
+        apt_update(base_dir, repositories_dir, merged_dir)
+        Dir.glob("#{merged_dir}/*/dists/*") do |dists_code_name_dir|
+          prefix = dists_code_name_dir.split("/")[-3..-1].join("/")
+          mv(Dir.glob("#{dists_code_name_dir}/*Release*"),
+             "#{repositories_dir}/#{prefix}")
+        end
+        apt_test_targets.each do |target|
+          verify(target)
+        end
+      end
+    end
+  end
+
+  def yum_test_targets
+    targets = (ENV["YUM_TARGETS"] || "").split(",")
+    targets = yum_test_targets_default if targets.empty?
+    targets
+  end
+
+  def yum_test_targets_default
+    # Disable aarch64 targets by default for now
+    # because they require some setups on host.
+    [
+      "almalinux-9",
+      # "almalinux-9-aarch64",
+      "almalinux-8",
+      # "almalinux-8-aarch64",
+      "amazon-linux-2",
+      # "amazon-linux-2-aarch64",
+      "centos-9-stream",
+      # "centos-9-stream-aarch64",
+      "centos-8-stream",
+      # "centos-8-stream-aarch64",
+      "centos-7",
+      # "centos-7-aarch64",
+    ]
+  end
+
+  def define_yum_test_task
+    namespace :yum do
+      desc "Test RPM packages"
+      task :test do
+        repositories_dir = "yum/repositories"
+        unless @packages.empty?
+          rm_rf(repositories_dir)
+          @packages.each do |package|
+            package_repositories = "#{package}/yum/repositories"
+            next unless File.exist?(package_repositories)
+            sh("rsync", "-av", "#{package_repositories}/", repositories_dir)
+          end
+        end
+        rpm_sign(repositories_dir)
+        base_dir = "nonexistent"
+        yum_update(base_dir, repositories_dir)
+        yum_test_targets.each do |target|
+          verify(target)
+        end
+      end
+    end
+  end
+end
diff --git a/dev/release/download_rc_binaries.py b/dev/release/download_rc_binaries.py
index ebd66a274d8..49203cd4541 100755
--- a/dev/release/download_rc_binaries.py
+++ b/dev/release/download_rc_binaries.py
@@ -15,13 +15,17 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import re
+"""Download release binaries."""
 
 import argparse
 import concurrent.futures as cf
 import functools
+import json
 import os
+import random
+import re
 import subprocess
+import time
 import urllib.request
 
 
@@ -103,17 +107,37 @@ def _download_file(self, dest, path):
         print("Downloading {} to {}".format(path, dest_path))
 
         url = f'{self.URL_ROOT}/{path}'
+        self._download_url(url, dest_path)
 
+    def _download_url(self, url, dest_path, *, extra_args=None):
         cmd = [
-            'curl', '--fail', '--location', '--retry', '5',
-            '--output', dest_path, url
+            "curl",
+            "--fail",
+            "--location",
+            "--retry",
+            "5",
+            *(extra_args or []),
+            "--output",
+            dest_path,
+            url,
         ]
         proc = subprocess.Popen(cmd, stdout=subprocess.PIPE,
                                 stderr=subprocess.PIPE)
         stdout, stderr = proc.communicate()
         if proc.returncode != 0:
-            raise Exception("Downloading {} failed\nstdout: {}\nstderr: {}"
-                            .format(path, stdout, stderr))
+            try:
+                # Don't leave possibly partial file around
+                os.remove(dest_path)
+            except IOError:
+                pass
+            raise Exception(f"Downloading {url} failed\n"
+                            f"stdout: {stdout}\nstderr: {stderr}")
+
+    def _curl_version(self):
+        cmd = ["curl", "--version"]
+        out = subprocess.run(cmd, capture_output=True, check=True).stdout
+        match = re.search(r"curl (\d+)\.(\d+)\.(\d+) ", out.decode())
+        return (int(match.group(1)), int(match.group(2)), int(match.group(3)))
 
 
 class Artifactory(Downloader):
@@ -125,6 +149,73 @@ class Maven(Downloader):
         "/content/repositories/staging/org/apache/arrow"
 
 
+class GitHub(Downloader):
+    def __init__(self, repository, tag):
+        super().__init__()
+        if repository is None:
+            raise ValueError("--repository is required")
+        if tag is None:
+            raise ValueError("--tag is required")
+        self._repository = repository
+        self._tag = tag
+
+    def get_file_list(self, prefix, filter=None):
+        url = (f"https://api.github.com/repos/{self._repository}/"
+               f"releases/tags/{self._tag}")
+        print("Fetching release from", url)
+        request = urllib.request.Request(
+            url,
+            method="GET",
+            headers={
+                "Accept": "application/vnd.github+json",
+            },
+        )
+        raw_response = urllib.request.urlopen(request).read().decode()
+        response = json.loads(raw_response)
+
+        files = []
+        for asset in response["assets"]:
+            if filter and not filter(asset["name"]):
+                continue
+            # Don't use the API URL since it has a fairly strict rate
+            # limit unless logged in, and we have a lot of tiny
+            # artifacts
+            url = (
+                f"https://github.com/{self._repository}/"
+                f"releases/download/{self._tag}/{asset['name']}"
+            )
+            files.append((asset["name"], url))
+        return files
+
+    def _download_file(self, dest, asset):
+        name, url = asset
+
+        os.makedirs(dest, exist_ok=True)
+        dest_path = os.path.join(dest, name)
+        print(f"Downloading {url} to {dest_path}")
+
+        if os.path.isfile(dest_path):
+            print("Already downloaded", dest_path)
+            return
+
+        delay = random.randint(0, 3)
+        print(f"Waiting {delay} seconds to avoid rate limit")
+        time.sleep(delay)
+
+        extra_args = [
+            "--header",
+            "Accept: application/octet-stream",
+        ]
+        if self._curl_version() >= (7, 71, 0):
+            # Also retry 403s
+            extra_args.append("--retry-all-errors")
+        self._download_url(
+            url,
+            dest_path,
+            extra_args=extra_args
+        )
+
+
 def parallel_map_terminate_early(f, iterable, num_parallel):
     tasks = []
     with cf.ProcessPoolExecutor(num_parallel) as pool:
@@ -153,7 +244,8 @@ def parallel_map_terminate_early(f, iterable, num_parallel):
 
 
 def download_rc_binaries(version, rc_number, re_match=None, dest=None,
-                         num_parallel=None, target_package_type=None):
+                         num_parallel=None, target_package_type=None,
+                         repository=None, tag=None):
     version_string = '{}-rc{}'.format(version, rc_number)
     version_pattern = re.compile(r'\d+\.\d+\.\d+')
     if target_package_type:
@@ -171,6 +263,10 @@ def is_target(path):
         if package_type == 'jars':
             downloader = Maven()
             prefix = ''
+        elif package_type == 'github':
+            downloader = GitHub(repository, tag)
+            prefix = ''
+            filter = None
         elif package_type in ARROW_REPOSITORY_PACKAGE_TYPES:
             downloader = Artifactory()
             prefix = f'{package_type}-rc'
@@ -195,12 +291,26 @@ def is_target(path):
                               'to only download certain files'))
     parser.add_argument('--dest', type=str, default=os.getcwd(),
                         help='The output folder for the downloaded files')
-    parser.add_argument('--num_parallel', type=int, default=8,
+    parser.add_argument('--num_parallel', type=int,
+                        default=DEFAULT_PARALLEL_DOWNLOADS,
                         help='The number of concurrent downloads to do')
     parser.add_argument('--package_type', type=str, default=None,
                         help='The package type to be downloaded')
+    parser.add_argument('--repository', type=str,
+                        help=('The repository to pull from '
+                              '(required if --package_type=github)'))
+    parser.add_argument('--tag', type=str,
+                        help=('The release tag to download '
+                              '(required if --package_type=github)'))
     args = parser.parse_args()
 
-    download_rc_binaries(args.version, args.rc_number, dest=args.dest,
-                         re_match=args.regexp, num_parallel=args.num_parallel,
-                         target_package_type=args.package_type)
+    download_rc_binaries(
+        args.version,
+        args.rc_number,
+        dest=args.dest,
+        re_match=args.regexp,
+        num_parallel=args.num_parallel,
+        target_package_type=args.package_type,
+        repository=args.repository,
+        tag=args.tag,
+    )
diff --git a/dev/release/post-02-binary.sh b/dev/release/post-02-binary.sh
index f46bd73bf9e..980f6e3c19a 100755
--- a/dev/release/post-02-binary.sh
+++ b/dev/release/post-02-binary.sh
@@ -105,5 +105,6 @@ docker_run \
     ARTIFACTS_DIR="${tmp_dir}/artifacts" \
     RC=${rc} \
     STAGING=${STAGING:-no} \
+    VERBOSE=${VERBOSE:-no} \
     VERSION=${version} \
     YUM_TARGETS=$(IFS=,; echo "${yum_targets[*]}")
diff --git a/dev/release/post-03-website.sh b/dev/release/post-03-website.sh
index 0f41a97e664..fda9ca3d141 100755
--- a/dev/release/post-03-website.sh
+++ b/dev/release/post-03-website.sh
@@ -22,7 +22,7 @@ set -u
 
 SOURCE_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 ARROW_DIR="${SOURCE_DIR}/../.."
-ARROW_SITE_DIR="${ARROW_DIR}/../arrow-site"
+: ${ARROW_SITE_DIR:="${ARROW_DIR}/../arrow-site"}
 
 if [ "$#" -ne 2 ]; then
   echo "Usage: $0 <previous-version> <version>"
@@ -56,6 +56,7 @@ else
   release_type=major
 fi
 
+export TZ=UTC
 release_date=$(LANG=C date "+%-d %B %Y")
 previous_tag_date=$(git log -n 1 --pretty=%aI apache-arrow-${previous_version})
 rough_previous_release_date=$(date --date "${previous_tag_date}" +%s)
@@ -263,7 +264,7 @@ current:
   mirrors: 'https://www.apache.org/dyn/closer.lua/arrow/arrow-${version}/'
   tarball-name: 'apache-arrow-${version}.tar.gz'
   tarball-url: 'https://www.apache.org/dyn/closer.lua?action=download&filename=arrow/arrow-${version}/apache-arrow-${version}.tar.gz'
-  java-artifacts: 'http://search.maven.org/#search%7Cga%7C1%7Cg%3A%22org.apache.arrow%22%20AND%20v%3A%22${version}%22'
+  java-artifacts: 'https://search.maven.org/#search%7Cga%7C1%7Cg%3A%22org.apache.arrow%22%20AND%20v%3A%22${version}%22'
   asc: '${apache_download_url}/arrow/arrow-${version}/apache-arrow-${version}.tar.gz.asc'
   sha256: '${apache_download_url}/arrow/arrow-${version}/apache-arrow-${version}.tar.gz.sha256'
   sha512: '${apache_download_url}/arrow/arrow-${version}/apache-arrow-${version}.tar.gz.sha512'
diff --git a/dev/release/post-08-docs.sh b/dev/release/post-08-docs.sh
index ad74dbce8d0..6dce3ccc737 100755
--- a/dev/release/post-08-docs.sh
+++ b/dev/release/post-08-docs.sh
@@ -22,7 +22,7 @@ set -u
 
 SOURCE_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 ARROW_DIR="${SOURCE_DIR}/../.."
-ARROW_SITE_DIR="${ARROW_DIR}/../arrow-site"
+: ${ARROW_SITE_DIR:="${ARROW_DIR}/../arrow-site"}
 
 if [ "$#" -ne 2  ]; then
   echo "Usage: $0 <version> <previous_version>"
@@ -81,7 +81,8 @@ tar xvf docs.tar.gz
 rm -f docs.tar.gz
 git checkout docs/c_glib/index.html
 if [ "$is_major_release" = "yes" ] ; then
-  mv docs_temp docs/${previous_version}
+  previous_series=${previous_version%.*}
+  mv docs_temp docs/${previous_series}
 fi
 git add docs
 git commit -m "[Website] Update documentations for ${version}"
diff --git a/dev/release/post-09-python.sh b/dev/release/post-09-python.sh
index a014239ea45..65ef44afa66 100755
--- a/dev/release/post-09-python.sh
+++ b/dev/release/post-09-python.sh
@@ -23,28 +23,33 @@ set -o pipefail
 SOURCE_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 : ${TEST_PYPI:=0}
 
-if [ "$#" -ne 2 ]; then
-  echo "Usage: $0 <version> <rc-num>"
+if [ "$#" -ne 1 ]; then
+  echo "Usage: $0 <version>"
   exit
 fi
 
 version=$1
-rc=$2
 
 tmp=$(mktemp -d -t "arrow-post-python.XXXXX")
-${PYTHON:-python} \
-  "${SOURCE_DIR}/download_rc_binaries.py" \
-  ${version} \
-  ${rc} \
-  --dest="${tmp}" \
-  --package_type=python \
-  --regex=".*\.(whl|tar\.gz)$"
+base_url=https://apache.jfrog.io/artifactory/arrow/python/${version}
+curl \
+  --location \
+  ${base_url} | \
+  grep -E -o "pyarrow-${version}[a-zA-Z0-9._-]*\\.(tar\\.gz|whl)" | \
+  sort | \
+  uniq | while read artifact; do
+  curl \
+    --fail \
+    --location \
+    --output ${tmp}/${artifact} \
+    ${base_url}/${artifact}
+done
 
 if [ ${TEST_PYPI} -gt 0 ]; then
   TWINE_ARGS="--repository-url https://test.pypi.org/legacy/"
 fi
 
-twine upload ${TWINE_ARGS} ${tmp}/python-rc/${version}-rc${rc}/*.{whl,tar.gz}
+twine upload ${TWINE_ARGS} ${tmp}/*
 
 rm -rf "${tmp}"
 
diff --git a/dev/release/post-11-bump-versions-test.rb b/dev/release/post-11-bump-versions-test.rb
index 6770ca1c22e..9dd29f93aa5 100644
--- a/dev/release/post-11-bump-versions-test.rb
+++ b/dev/release/post-11-bump-versions-test.rb
@@ -44,7 +44,7 @@ def bump_versions(*targets)
     else
       additional_env = {}
     end
-    env = { "BUMP_DEFAULT" => "0" }
+    env = {"BUMP_DEFAULT" => "0"}
     targets.each do |target|
       env["BUMP_#{target}"] = "1"
     end
@@ -55,6 +55,7 @@ def bump_versions(*targets)
        @next_version)
   end
 
+  data(:release_type, [:major, :minor, :patch])
   def test_version_post_tag
     omit_on_release_branch
 
@@ -115,21 +116,27 @@ def test_version_post_tag
            "+  url \"https://www.apache.org/dyn/closer.lua?path=arrow/arrow-#{@release_version}.9000/apache-arrow-#{@release_version}.9000.tar.gz\""],
         ],
       },
-      {
-        path: "docs/source/_static/versions.json",
-        hunks: [
-          [
-            "-        \"name\": \"10.0 (dev)\",",
-            "+        \"name\": \"11.0 (dev)\",",
-            "-        \"name\": \"9.0 (stable)\",",
-            "+        \"name\": \"10.0 (stable)\",",
-            "+    {",
-            "+        \"name\": \"9.0\",",
-            "+        \"version\": \"9.0/\"",
-            "+    },",
+    ]
+    unless release_type == :patch
+      expected_changes += [
+        {
+          path: "docs/source/_static/versions.json",
+          hunks: [
+            [
+              "-        \"name\": \"#{@release_compatible_version} (dev)\",",
+              "+        \"name\": \"#{@next_compatible_version} (dev)\",",
+              "-        \"name\": \"#{@previous_compatible_version} (stable)\",",
+              "+        \"name\": \"#{@release_compatible_version} (stable)\",",
+              "+    {",
+              "+        \"name\": \"#{@previous_compatible_version}\",",
+              "+        \"version\": \"#{@previous_compatible_version}/\"",
+              "+    },",
+            ],
           ],
-        ],
-      },
+        },
+      ]
+    end
+    expected_changes += [
       {
         path: "js/package.json",
         hunks: [
@@ -144,6 +151,13 @@ def test_version_post_tag
            "+set(MLARROW_VERSION \"#{@next_snapshot_version}\")"],
         ],
       },
+      {
+        path: "python/CMakeLists.txt",
+        hunks: [
+          ["-set(PYARROW_VERSION \"#{@snapshot_version}\")",
+           "+set(PYARROW_VERSION \"#{@next_snapshot_version}\")"],
+        ],
+      },
       {
         path: "python/setup.py",
         hunks: [
@@ -167,46 +181,80 @@ def test_version_post_tag
            "+# arrow #{@release_version}",],
         ],
       },
-      {
-        path: "r/pkgdown/assets/versions.json",
-        hunks: [
-          [
-            "-        \"name\": \"9.0.0.9000 (dev)\",",
-            "+        \"name\": \"10.0.0.9000 (dev)\",",
-            "-        \"name\": \"9.0.0 (release)\",",
-            "+        \"name\": \"10.0.0 (release)\",",
-            "+    {",
-            "+        \"name\": \"9.0.0\",",
-            "+        \"version\": \"9.0/\"",
-            "+    },",
-          ],
-        ],
-      },
     ]
+    if release_type == :major
+      expected_changes += [
+        {
+          path: "r/pkgdown/assets/versions.json",
+          hunks: [
+            [
+              "-        \"name\": \"#{@previous_version}.9000 (dev)\",",
+              "+        \"name\": \"#{@release_version}.9000 (dev)\",",
+              "-        \"name\": \"#{@previous_version} (release)\",",
+              "+        \"name\": \"#{@release_version} (release)\",",
+              "+    {",
+              "+        \"name\": \"#{@previous_version}\",",
+              "+        \"version\": \"#{@previous_compatible_version}/\"",
+              "+    },",
+            ],
+          ],
+        },
+      ]
+    else
+      expected_changes += [
+        {
+          path: "r/pkgdown/assets/versions.json",
+          hunks: [
+            [
+              "-        \"name\": \"#{@previous_version}.9000 (dev)\",",
+              "+        \"name\": \"#{@release_version}.9000 (dev)\",",
+              "-        \"name\": \"#{@previous_version} (release)\",",
+              "+        \"name\": \"#{@release_version} (release)\",",
+            ],
+          ],
+        },
+      ]
+    end
 
     Dir.glob("go/**/{go.mod,*.go,*.go.*}") do |path|
+      if path == "go/arrow/doc.go"
+        expected_changes << {
+          path: path,
+          hunks: [
+            [
+              "-const PkgVersion = \"#{@snapshot_version}\"",
+              "+const PkgVersion = \"#{@next_snapshot_version}\"",
+            ],
+          ]
+        }
+        next
+      end
+
       import_path = "github.com/apache/arrow/go/v#{@snapshot_major_version}"
-      lines = File.readlines(path, chomp: true)
-      target_lines = lines.grep(/#{Regexp.escape(import_path)}/)
-      next if target_lines.empty?
       hunks = []
-      hunk = []
-      target_lines.each do |line|
-        hunk << "-#{line}"
-      end
-      target_lines.each do |line|
-        new_line = line.gsub("v#{@snapshot_major_version}") do
-          "v#{@next_major_version}"
+      if release_type == :major
+        lines = File.readlines(path, chomp: true)
+        target_lines = lines.grep(/#{Regexp.escape(import_path)}/)
+        next if target_lines.empty?
+        hunk = []
+        target_lines.each do |line|
+          hunk << "-#{line}"
+        end
+        target_lines.each do |line|
+          new_line = line.gsub("v#{@snapshot_major_version}") do
+            "v#{@next_major_version}"
+          end
+          hunk << "+#{new_line}"
         end
-        hunk << "+#{new_line}"
+        hunks << hunk
       end
-      hunks << hunk
       if path == "go/parquet/writer_properties.go"
         hunks << [
           "-\tDefaultCreatedBy          = \"parquet-go version #{@snapshot_version}\"",
           "+\tDefaultCreatedBy          = \"parquet-go version #{@next_snapshot_version}\"",
         ]
       end
+      next if hunks.empty?
       expected_changes << {hunks: hunks, path: path}
     end
 
@@ -241,13 +289,14 @@ def test_version_post_tag
       }
     end
 
-    bump_versions("VERSION_POST_TAG")
+    stdout = bump_versions("VERSION_POST_TAG")
     assert_equal(expected_changes.sort_by {|diff| diff[:path]},
-                 parse_patch(git("log", "-n", "1", "-p")))
+                 parse_patch(git("log", "-n", "1", "-p")),
+                 "Output:\n#{stdout}")
   end
 
   def test_deb_package_names
-    bump_versions("DEB_PACKAGE_NAMES")
+    stdout = bump_versions("DEB_PACKAGE_NAMES")
     changes = parse_patch(git("log", "-n", "1", "-p"))
     sampled_changes = changes.collect do |change|
       first_hunk = change[:hunks][0]
@@ -281,15 +330,15 @@ def test_deb_package_names
         path: "dev/tasks/tasks.yml",
       },
     ]
-    assert_equal(expected_changes, sampled_changes)
+    assert_equal(expected_changes, sampled_changes, "Output:\n#{stdout}")
   end
 
   def test_linux_packages
     name = "Arrow Developers"
     email = "dev@arrow.apache.org"
-    bump_versions("LINUX_PACKAGES",
-                  "DEBFULLNAME" => name,
-                  "DEBEMAIL" => email)
+    stdout = bump_versions("LINUX_PACKAGES",
+                           "DEBFULLNAME" => name,
+                           "DEBEMAIL" => email)
 
     release_time_string = git("log",
                               "--format=%aI",
@@ -349,6 +398,7 @@ def test_linux_packages
       },
     ]
     assert_equal(expected_changes,
-                 parse_patch(git("log", "-n", "1", "-p")))
+                 parse_patch(git("log", "-n", "1", "-p")),
+                 "Output:\n#{stdout}")
   end
 end
diff --git a/dev/release/post-11-bump-versions.sh b/dev/release/post-11-bump-versions.sh
index ad4403f1b4c..00f99d726af 100755
--- a/dev/release/post-11-bump-versions.sh
+++ b/dev/release/post-11-bump-versions.sh
@@ -41,6 +41,15 @@ version=$1
 next_version=$2
 next_version_snapshot="${next_version}-SNAPSHOT"
 
+case "${version}" in
+  *.0.0)
+    is_major_release=1
+    ;;
+  *)
+    is_major_release=0
+    ;;
+esac
+
 if [ ${BUMP_UPDATE_LOCAL_DEFAULT_BRANCH} -gt 0 ]; then
   echo "Updating local default branch"
   git fetch --all --prune --tags --force -j$(nproc)
@@ -68,8 +77,8 @@ if [ ${BUMP_DEB_PACKAGE_NAMES} -gt 0 ]; then
     cd $SOURCE_DIR/../tasks/linux-packages/apache-arrow
     for target in debian*/lib*${deb_lib_suffix}.install; do
       git mv \
-	${target} \
-	$(echo $target | sed -e "s/${deb_lib_suffix}/${next_deb_lib_suffix}/")
+        ${target} \
+        $(echo $target | sed -e "s/${deb_lib_suffix}/${next_deb_lib_suffix}/")
     done
     deb_lib_suffix_substitute_pattern="s/(lib(arrow|gandiva|parquet|plasma)[-a-z]*)${deb_lib_suffix}/\\1${next_deb_lib_suffix}/g"
     sed -i.bak -E -e "${deb_lib_suffix_substitute_pattern}" debian*/control*
@@ -107,7 +116,7 @@ if [ ${BUMP_PUSH} -gt 0 ]; then
   git push apache ${DEFAULT_BRANCH}
 fi
 
-if [ ${BUMP_TAG} -gt 0 ]; then
+if [ ${BUMP_TAG} -gt 0 -a ${is_major_release} -gt 0 ]; then
   dev_tag=apache-arrow-${next_version}.dev
   echo "Tagging ${dev_tag}"
   git tag ${dev_tag} ${DEFAULT_BRANCH}
diff --git a/dev/release/post-12-msys2.sh b/dev/release/post-12-msys2.sh
index b03cab6fb47..154887cf38e 100755
--- a/dev/release/post-12-msys2.sh
+++ b/dev/release/post-12-msys2.sh
@@ -46,7 +46,7 @@ if ! git remote | grep -q '^upstream$'; then
 fi
 
 echo "Updating repository: ${repository}"
-git fetch --all --prune --tags --force -j$(nproc)
+git fetch --all --prune --tags --force
 git checkout master
 git rebase upstream/master
 
@@ -71,10 +71,10 @@ rm ${pkgbuild}.bak
 git add ${pkgbuild}
 git commit -m "arrow: Update to ${version}"
 
-reverse_dependencies=(groonga)
-for reverse_dependency in "${reverse_dependencies[@]}"; do
-  pkgbuild=mingw-w64-${reverse_dependency}/PKGBUILD
-  echo "Incrementing ${reverse_dependency}'s pkgrel: ${pkgbuild}"
+for pkgbuild in $(grep -l -r '${MINGW_PACKAGE_PREFIX}-arrow' ./); do
+  dir=${pkgbuild%/PKGBUILD}
+  name=${dir#./mingw-w64-}
+  echo "Incrementing ${name}'s pkgrel: ${pkgbuild}"
   pkgrel=$(grep -o '^pkgrel=.*' ${pkgbuild} | cut -d= -f2)
   sed \
     -i.bak \
@@ -82,7 +82,7 @@ for reverse_dependency in "${reverse_dependencies[@]}"; do
     ${pkgbuild}
   rm ${pkgbuild}.bak
   git add ${pkgbuild}
-  git commit -m "${reverse_dependency}: Rebuild for arrow"
+  git commit -m "${name}: Rebuild for arrow"
 done
 
 git push origin ${branch}
@@ -93,3 +93,4 @@ owner=$(git remote get-url origin | \
           cut -d/ -f1)
 echo "Create a pull request:"
 echo "  https://github.com/${owner}/MINGW-packages/pull/new/${branch}"
+echo "with title: 'arrow: Update to ${version}'"
diff --git a/dev/release/post-13-homebrew.sh b/dev/release/post-13-homebrew.sh
index 7cc3ca44cf0..b5218eab962 100755
--- a/dev/release/post-13-homebrew.sh
+++ b/dev/release/post-13-homebrew.sh
@@ -38,12 +38,13 @@ if ! git remote | grep -q --fixed-strings ${github_user}; then
 fi
 
 echo "Updating working copy"
-git fetch --all --prune --tags --force -j$(nproc)
+git fetch --all --prune --tags --force
 
 branch=apache-arrow-${version}
 echo "Creating branch: ${branch}"
+git checkout master
 git branch -D ${branch} || :
-git checkout -b ${branch} origin/master
+git checkout -b ${branch}
 
 echo "Updating apache-arrow formulae"
 brew bump-formula-pr \
@@ -65,6 +66,16 @@ brew bump-formula-pr \
      --write-only \
      apache-arrow-glib
 
+for dependency in $(grep -l -r 'depends_on "apache-arrow"' Formula); do
+  dependency=${dependency#Formula/}
+  dependency=${dependency%.rb}
+  if [ ${dependency} = "apache-arrow-glib" ]; then
+    continue
+  fi
+  echo "Bumping revision of ${dependency} formulae"
+  brew bump-revision --message "(apache-arrow ${version})" ${dependency}
+done
+
 echo "Testing apache-arrow formulae"
 brew uninstall apache-arrow apache-arrow-glib || :
 brew install --build-from-source apache-arrow
diff --git a/dev/release/post-14-vcpkg.sh b/dev/release/post-14-vcpkg.sh
new file mode 100755
index 00000000000..8a7b669ed97
--- /dev/null
+++ b/dev/release/post-14-vcpkg.sh
@@ -0,0 +1,91 @@
+#!/usr/bin/env bash
+#
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+set -ue
+
+if [ "$#" -ne 2 ]; then
+  echo "Usage: $0 <version> <microsoft/vcpkg's fork repository>"
+  exit 1
+fi
+
+version=$1
+repository=$2
+
+if [ ! -d "${repository}" ]; then
+  echo "vcpkg/vcpkg's fork repository doesn't exist: ${repository}"
+  exit 1
+fi
+
+cd "${repository}"
+if [ ! -d .git ]; then
+  echo "not a Git repository: ${repository}"
+  exit 1
+fi
+
+if ! git remote | grep -q '^upstream$'; then
+  echo "'upstream' remote doesn't exist: ${repository}"
+  echo "Run the following command line in ${repository}:"
+  echo "  git remote add upstream https://github.com/microsoft/vcpkg.git"
+  exit 1
+fi
+
+echo "Updating repository: ${repository}"
+git fetch --all --prune --tags --force
+git checkout master
+git rebase upstream/master
+
+branch="arrow-${version}"
+echo "Creating branch: ${branch}"
+git branch -D ${branch} || :
+git checkout -b ${branch}
+
+port_arrow=ports/arrow
+echo "Updating: ${port_arrow}"
+sha512sum=$(curl \
+              --location \
+              "https://www.apache.org/dyn/closer.lua?action=download&filename=arrow/arrow-${version}/apache-arrow-${version}.tar.gz.sha512" | \
+              cut -d' ' -f1)
+sed \
+  -i.bak \
+  -e "s/^  \"version\": \".*\",$/  \"version\": \"${version}\",/" \
+  ${port_arrow}/vcpkg.json
+rm ${port_arrow}/vcpkg.json.bak
+sed \
+  -i.bak \
+  -e "s/^    SHA512 .*$/    SHA512 ${sha512sum}/" \
+  ${port_arrow}/portfile.cmake
+rm ${port_arrow}/portfile.cmake.bak
+git add ${port_arrow}/vcpkg.json
+git add ${port_arrow}/portfile.cmake
+git commit -m "[arrow] Update to ${version}"
+
+./vcpkg x-add-version --overwrite-version arrow
+git add versions
+git commit -m "Update versions"
+
+git push origin ${branch}
+
+
+owner=$(git remote get-url origin | \
+          grep -o '[a-zA-Z0-9_-]*/vcpkg' | \
+          cut -d/ -f1)
+echo "Create a pull request:"
+echo "  https://github.com/${owner}/vcpkg/pull/new/${branch}"
+echo
+echo "  Title: [arrow] Update to ${version}"
diff --git a/dev/release/rat_exclude_files.txt b/dev/release/rat_exclude_files.txt
index 58eacb68def..5b7428ef8b8 100644
--- a/dev/release/rat_exclude_files.txt
+++ b/dev/release/rat_exclude_files.txt
@@ -7,7 +7,6 @@
 *.csv
 *.json
 *.snap
-.github/ISSUE_TEMPLATE/question.md
 ci/etc/rprofile
 ci/etc/*.patch
 ci/vcpkg/*.patch
@@ -69,61 +68,57 @@ dev/tasks/linux-packages/apache-arrow/debian/gir1.2-parquet-1.0.install
 dev/tasks/linux-packages/apache-arrow/debian/gir1.2-plasma-1.0.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda-glib-dev.install
-dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda-glib1000.install
-dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda1000.install
+dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda-glib1100.install
+dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda1100.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-glib-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-glib-doc.doc-base
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-glib-doc.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-glib-doc.links
-dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-glib1000.install
-dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset1000.install
+dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-glib1100.install
+dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset1100.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-glib-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-glib-doc.doc-base
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-glib-doc.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-glib-doc.links
-dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-glib1000.install
+dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-glib1100.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-glib-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-glib-doc.doc-base
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-glib-doc.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-glib-doc.links
-dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-glib1000.install
-dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql1000.install
-dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight1000.install
+dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-glib1100.install
+dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql1100.install
+dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight1100.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-glib-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-glib-doc.doc-base
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-glib-doc.install
 dev/tasks/linux-packages/apache-arrow/debian/libarrow-glib-doc.links
-dev/tasks/linux-packages/apache-arrow/debian/libarrow-glib1000.install
-dev/tasks/linux-packages/apache-arrow/debian/libarrow-python-dev.install
-dev/tasks/linux-packages/apache-arrow/debian/libarrow-python-flight-dev.install
-dev/tasks/linux-packages/apache-arrow/debian/libarrow-python-flight1000.install
-dev/tasks/linux-packages/apache-arrow/debian/libarrow-python1000.install
-dev/tasks/linux-packages/apache-arrow/debian/libarrow1000.install
+dev/tasks/linux-packages/apache-arrow/debian/libarrow-glib1100.install
+dev/tasks/linux-packages/apache-arrow/debian/libarrow1100.install
 dev/tasks/linux-packages/apache-arrow/debian/libgandiva-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libgandiva-glib-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libgandiva-glib-doc.doc-base
 dev/tasks/linux-packages/apache-arrow/debian/libgandiva-glib-doc.install
 dev/tasks/linux-packages/apache-arrow/debian/libgandiva-glib-doc.links
-dev/tasks/linux-packages/apache-arrow/debian/libgandiva-glib1000.install
-dev/tasks/linux-packages/apache-arrow/debian/libgandiva1000.install
+dev/tasks/linux-packages/apache-arrow/debian/libgandiva-glib1100.install
+dev/tasks/linux-packages/apache-arrow/debian/libgandiva1100.install
 dev/tasks/linux-packages/apache-arrow/debian/libparquet-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libparquet-glib-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libparquet-glib-doc.doc-base
 dev/tasks/linux-packages/apache-arrow/debian/libparquet-glib-doc.install
 dev/tasks/linux-packages/apache-arrow/debian/libparquet-glib-doc.links
-dev/tasks/linux-packages/apache-arrow/debian/libparquet-glib1000.install
-dev/tasks/linux-packages/apache-arrow/debian/libparquet1000.install
+dev/tasks/linux-packages/apache-arrow/debian/libparquet-glib1100.install
+dev/tasks/linux-packages/apache-arrow/debian/libparquet1100.install
 dev/tasks/linux-packages/apache-arrow/debian/libplasma-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libplasma-glib-dev.install
 dev/tasks/linux-packages/apache-arrow/debian/libplasma-glib-doc.doc-base
 dev/tasks/linux-packages/apache-arrow/debian/libplasma-glib-doc.install
 dev/tasks/linux-packages/apache-arrow/debian/libplasma-glib-doc.links
-dev/tasks/linux-packages/apache-arrow/debian/libplasma-glib1000.install
-dev/tasks/linux-packages/apache-arrow/debian/libplasma1000.install
+dev/tasks/linux-packages/apache-arrow/debian/libplasma-glib1100.install
+dev/tasks/linux-packages/apache-arrow/debian/libplasma1100.install
 dev/tasks/linux-packages/apache-arrow/debian/patches/series
 dev/tasks/linux-packages/apache-arrow/debian/plasma-store-server.install
 dev/tasks/linux-packages/apache-arrow/debian/rules
@@ -133,6 +128,7 @@ dev/tasks/linux-packages/apache-arrow/debian/watch
 dev/tasks/requirements*.txt
 dev/tasks/conda-recipes/*
 docs/requirements.txt
+go.work.sum
 go/go.sum
 go/arrow/Gopkg.lock
 go/arrow/flight/internal/flight/Flight.pb.go
@@ -141,10 +137,15 @@ go/arrow/internal/cpu/*
 go/arrow/type_string.go
 go/arrow/cdata/test/go.sum
 go/arrow/unionmode_string.go
+go/arrow/compute/go.sum
 go/arrow/compute/datumkind_string.go
-go/arrow/compute/valueshape_string.go
+go/arrow/compute/funckind_string.go
+go/arrow/compute/internal/kernels/compareoperator_string.go
+go/arrow/compute/internal/kernels/roundmode_string.go
+go/arrow/compute/internal/kernels/_lib/vendored/*
 go/*.tmpldata
 go/*.s
+go/parquet/internal/encoding/testdata/timestamp.data
 go/parquet/internal/gen-go/parquet/GoUnusedProtection__.go
 go/parquet/internal/gen-go/parquet/parquet-consts.go
 go/parquet/internal/gen-go/parquet/parquet.go
@@ -213,3 +214,4 @@ r/inst/include/cpp11/*.hpp
 r/tools/nixlibs-allowlist.txt
 .gitattributes
 ruby/red-arrow/.yardopts
+.github/pull_request_template.md
\ No newline at end of file
diff --git a/dev/release/setup-rhel-rebuilds.sh b/dev/release/setup-rhel-rebuilds.sh
index 1fe3ba47dcf..9cdc5032159 100755
--- a/dev/release/setup-rhel-rebuilds.sh
+++ b/dev/release/setup-rhel-rebuilds.sh
@@ -21,6 +21,8 @@
 # verification Red Hat Enterprise Linux 8 clones in particular
 # on AlmaLinux 8 and Rocky Linux 8
 
+set -exu
+
 dnf -y install 'dnf-command(config-manager)'
 dnf config-manager --set-enabled powertools
 dnf -y update
@@ -49,5 +51,8 @@ dnf -y install \
   vala-devel \
   wget \
   which
+
 npm install -g yarn
+
+python3 -m pip install -U pip
 alternatives --set python /usr/bin/python3
diff --git a/dev/release/setup-ubuntu.sh b/dev/release/setup-ubuntu.sh
index fb8742581ac..6a55f25e4bc 100755
--- a/dev/release/setup-ubuntu.sh
+++ b/dev/release/setup-ubuntu.sh
@@ -53,6 +53,7 @@ esac
 
 apt-get install -y -q --no-install-recommends \
   build-essential \
+  bundler \
   clang \
   cmake \
   curl \
diff --git a/dev/release/test-helper.rb b/dev/release/test-helper.rb
index 33fa2017526..0111f913561 100644
--- a/dev/release/test-helper.rb
+++ b/dev/release/test-helper.rb
@@ -94,6 +94,10 @@ def parse_patch(patch)
 end
 
 module VersionDetectable
+  def release_type
+    (data || {})[:release_type] || :major
+  end
+
   def detect_versions
     top_dir = Pathname(__dir__).parent.parent
     cpp_cmake_lists = top_dir + "cpp" + "CMakeLists.txt"
@@ -102,14 +106,29 @@ def detect_versions
     @release_version = @snapshot_version.gsub(/-SNAPSHOT\z/, "")
     @release_compatible_version = @release_version.split(".")[0, 2].join(".")
     @so_version = compute_so_version(@release_version)
-    @next_version = @release_version.gsub(/\A\d+/) {|major| major.succ}
+    next_version_components = @release_version.split(".")
+    case release_type
+    when :major
+      next_version_components[0].succ!
+    when :minor
+      next_version_components[1].succ!
+    when :patch
+      next_version_components[2].succ!
+    else
+      raise "unknown release type: #{release_type.inspect}"
+    end
+    @next_version = next_version_components.join(".")
     @next_major_version = @next_version.split(".")[0]
     @next_compatible_version = @next_version.split(".")[0, 2].join(".")
     @next_snapshot_version = "#{@next_version}-SNAPSHOT"
     @next_so_version = compute_so_version(@next_version)
     r_description = top_dir + "r" + "DESCRIPTION"
     @previous_version = r_description.read[/^Version: (.+?)\.9000$/, 1]
-    @previous_compatible_version = @previous_version.split(".")[0, 2].join(".")
+    if @previous_version
+      @previous_compatible_version = @previous_version.split(".")[0, 2].join(".")
+    else
+      @previous_compatible_version = nil
+    end
   end
 
   def compute_so_version(version)
diff --git a/dev/release/utils-prepare.sh b/dev/release/utils-prepare.sh
index c68632b9d04..ceb51812c11 100644
--- a/dev/release/utils-prepare.sh
+++ b/dev/release/utils-prepare.sh
@@ -119,6 +119,11 @@ update_versions() {
     setup.py
   rm -f setup.py.bak
   git add setup.py
+  sed -i.bak -E -e \
+    "s/^set\(PYARROW_VERSION \".+\"\)/set(PYARROW_VERSION \"${version}\")/" \
+    CMakeLists.txt
+  rm -f CMakeLists.txt.bak
+  git add CMakeLists.txt
   popd
 
   pushd "${ARROW_DIR}/r"
@@ -156,6 +161,10 @@ update_versions() {
   sed -i.bak -E -e \
     "s/\"parquet-go version .+\"/\"parquet-go version ${version}\"/" \
     parquet/writer_properties.go
+  sed -i.bak -E -e \
+    "s/const PkgVersion = \".*/const PkgVersion = \"${version}\"/" \
+    arrow/doc.go
+
   find . -name "*.bak" -exec rm {} \;
   git add .
   popd
diff --git a/dev/release/utils-update-docs-versions.py b/dev/release/utils-update-docs-versions.py
index af9d05ec1c6..2acbe322a7d 100644
--- a/dev/release/utils-update-docs-versions.py
+++ b/dev/release/utils-update-docs-versions.py
@@ -21,36 +21,45 @@
 dir_path = sys.argv[1]
 # X.Y.Z
 version = sys.argv[2]
-# {X+1}.Y.Z
+# {X+1}.Y.Z, X.{Y+1}.Z or X.Y.{Z+1}
 next_version = sys.argv[3]
 
 main_versions_path = dir_path + "/docs/source/_static/versions.json"
 r_versions_path = dir_path + "/r/pkgdown/assets/versions.json"
 
+split_version = version.split(".")
+split_next_version = next_version.split(".")
+
+if split_next_version[1:] == ["0", "0"]:
+    release_type = "major"
+elif split_next_version[2:] == ["0"]:
+    release_type = "minor"
+else:
+    release_type = "patch"
+
 # Update main docs version script
+if release_type != "patch":
+    with open(main_versions_path) as json_file:
+        old_versions = json.load(json_file)
 
-with open(main_versions_path) as json_file:
-    old_versions = json.load(json_file)
+    dev_compatible_version = ".".join(split_next_version[:2])
+    stable_compatible_version = ".".join(split_version[:2])
+    previous_compatible_version = old_versions[1]["name"].split(" ")[0]
 
-split_version = version.split(".")
-split_next_version = next_version.split(".")
-dev_compatible_version = ".".join(split_next_version[:2])
-stable_compatible_version = ".".join(split_version[:2])
-previous_compatible_version = old_versions[1]["name"].split(" ")[0]
+    # Create new versions
+    new_versions = [
+        {"name": f"{dev_compatible_version} (dev)",
+         "version": "dev/"},
+        {"name": f"{stable_compatible_version} (stable)",
+         "version": ""},
+        {"name": previous_compatible_version,
+         "version": f"{previous_compatible_version}/"},
+        *old_versions[2:],
+    ]
+    with open(main_versions_path, 'w') as json_file:
+        json.dump(new_versions, json_file, indent=4)
+        json_file.write("\n")
 
-# Create new versions
-new_versions = [
-    {"name": f"{dev_compatible_version} (dev)",
-     "version": "dev/"},
-    {"name": f"{stable_compatible_version} (stable)",
-     "version": ""},
-    {"name": previous_compatible_version,
-     "version": f"{previous_compatible_version}/"},
-    *old_versions[2:],
-]
-with open(main_versions_path, 'w') as json_file:
-    json.dump(new_versions, json_file, indent=4)
-    json_file.write("\n")
 
 # Update R package version script
 
@@ -62,12 +71,19 @@
 previous_r_name = old_r_versions[1]["name"].split(" ")[0]
 previous_r_version = ".".join(previous_r_name.split(".")[:2])
 
-new_r_versions = [
-    {"name": f"{dev_r_version} (dev)", "version": "dev/"},
-    {"name": f"{release_r_version} (release)", "version": ""},
-    {"name": previous_r_name, "version": f"{previous_r_version}/"},
-    *old_r_versions[2:],
-]
+if release_type == "major":
+    new_r_versions = [
+        {"name": f"{dev_r_version} (dev)", "version": "dev/"},
+        {"name": f"{release_r_version} (release)", "version": ""},
+        {"name": previous_r_name, "version": f"{previous_r_version}/"},
+        *old_r_versions[2:],
+    ]
+else:
+    new_r_versions = [
+        {"name": f"{dev_r_version} (dev)", "version": "dev/"},
+        {"name": f"{release_r_version} (release)", "version": ""},
+        *old_r_versions[2:],
+    ]
 with open(r_versions_path, 'w') as json_file:
     json.dump(new_r_versions, json_file, indent=4)
     json_file.write("\n")
diff --git a/dev/release/verify-apt.sh b/dev/release/verify-apt.sh
index 121abdbc6eb..7503c0df7bb 100755
--- a/dev/release/verify-apt.sh
+++ b/dev/release/verify-apt.sh
@@ -36,7 +36,9 @@ fi
 VERSION="$1"
 TYPE="$2"
 
-local_prefix="/arrow/dev/tasks/linux-packages"
+SOURCE_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+TOP_SOURCE_DIR="${SOURCE_DIR}/../.."
+local_prefix="${TOP_SOURCE_DIR}/dev/tasks/linux-packages"
 
 
 echo "::group::Prepare repository"
@@ -61,6 +63,7 @@ case "${TYPE}" in
     ;;
 esac
 
+have_flight=yes
 have_plasma=yes
 have_python=yes
 workaround_missing_packages=()
@@ -76,6 +79,7 @@ case "${distribution}-${code_name}" in
     ;;
 esac
 if [ "$(arch)" = "aarch64" ]; then
+  have_flight=no
   have_plasma=no
 fi
 
@@ -146,12 +150,12 @@ required_packages+=(pkg-config)
 required_packages+=(${workaround_missing_packages[@]})
 ${APT_INSTALL} ${required_packages[@]}
 mkdir -p build
-cp -a /arrow/cpp/examples/minimal_build build/
+cp -a "${TOP_SOURCE_DIR}/cpp/examples/minimal_build" build/
 pushd build/minimal_build
 cmake .
 make -j$(nproc)
 ./arrow-example
-c++ -std=c++11 -o arrow-example example.cc $(pkg-config --cflags --libs arrow)
+c++ -std=c++17 -o arrow-example example.cc $(pkg-config --cflags --libs arrow)
 ./arrow-example
 popd
 echo "::endgroup::"
@@ -164,7 +168,7 @@ ${APT_INSTALL} libarrow-glib-dev=${package_version}
 ${APT_INSTALL} libarrow-glib-doc=${package_version}
 
 ${APT_INSTALL} valac
-cp -a /arrow/c_glib/example/vala build/
+cp -a "${TOP_SOURCE_DIR}/c_glib/example/vala" build/
 pushd build/vala
 valac --pkg arrow-glib --pkg posix build.vala
 ./build
@@ -184,23 +188,17 @@ ruby -r gi -e "p GI.load('ArrowDataset')"
 echo "::endgroup::"
 
 
-echo "::group::Test Apache Arrow Flight"
-${APT_INSTALL} libarrow-flight-glib-dev=${package_version}
-${APT_INSTALL} libarrow-flight-glib-doc=${package_version}
-ruby -r gi -e "p GI.load('ArrowFlight')"
-echo "::endgroup::"
-
-
-echo "::group::Test Apache Arrow Flight SQL"
-${APT_INSTALL} libarrow-flight-sql-glib-dev=${package_version}
-${APT_INSTALL} libarrow-flight-sql-glib-doc=${package_version}
-ruby -r gi -e "p GI.load('ArrowFlightSQL')"
-echo "::endgroup::"
-
+if [ "${have_flight}" = "yes" ]; then
+  echo "::group::Test Apache Arrow Flight"
+  ${APT_INSTALL} libarrow-flight-glib-dev=${package_version}
+  ${APT_INSTALL} libarrow-flight-glib-doc=${package_version}
+  ruby -r gi -e "p GI.load('ArrowFlight')"
+  echo "::endgroup::"
 
-if [ "${have_python}" = "yes" ]; then
-  echo "::group::Test libarrow-python"
-  ${APT_INSTALL} libarrow-python-dev=${package_version}
+  echo "::group::Test Apache Arrow Flight SQL"
+  ${APT_INSTALL} libarrow-flight-sql-glib-dev=${package_version}
+  ${APT_INSTALL} libarrow-flight-sql-glib-doc=${package_version}
+  ruby -r gi -e "p GI.load('ArrowFlightSQL')"
   echo "::endgroup::"
 fi
 
diff --git a/dev/release/verify-release-candidate.bat b/dev/release/verify-release-candidate.bat
index 396f0475e29..e7fddd1ff7c 100644
--- a/dev/release/verify-release-candidate.bat
+++ b/dev/release/verify-release-candidate.bat
@@ -94,13 +94,16 @@ cmake -G "%GENERATOR%" ^
       -DARROW_BOOST_USE_SHARED=ON ^
       -DARROW_BUILD_STATIC=OFF ^
       -DARROW_BUILD_TESTS=ON ^
+      -DARROW_COMPUTE=ON ^
+      -DARROW_CSV=ON ^
       -DARROW_CXXFLAGS="/MP" ^
       -DARROW_DATASET=ON ^
+      -DARROW_FILESYSTEM=ON ^
       -DARROW_FLIGHT=ON ^
+      -DARROW_HDFS=ON ^
+      -DARROW_JSON=ON ^
       -DARROW_MIMALLOC=ON ^
       -DARROW_PARQUET=ON ^
-      -DPARQUET_REQUIRE_ENCRYPTION=ON ^
-      -DARROW_PYTHON=ON ^
       -DARROW_WITH_BROTLI=ON ^
       -DARROW_WITH_BZ2=ON ^
       -DARROW_WITH_LZ4=ON ^
@@ -110,6 +113,7 @@ cmake -G "%GENERATOR%" ^
       -DCMAKE_BUILD_TYPE=%CONFIGURATION% ^
       -DCMAKE_INSTALL_PREFIX=%ARROW_HOME% ^
       -DCMAKE_UNITY_BUILD=ON ^
+      -DPARQUET_REQUIRE_ENCRYPTION=ON ^
       ..  || exit /B
 
 cmake --build . --target INSTALL --config Release || exit /B 1
diff --git a/dev/release/verify-release-candidate.sh b/dev/release/verify-release-candidate.sh
index 6127cd68d20..9e044d205b6 100755
--- a/dev/release/verify-release-candidate.sh
+++ b/dev/release/verify-release-candidate.sh
@@ -24,7 +24,7 @@
 # - JDK >=7
 # - gcc >= 4.8
 # - Node.js >= 11.12 (best way is to use nvm)
-# - Go >= 1.15
+# - Go >= 1.17
 # - Docker
 #
 # If using a non-system Boost, set BOOST_ROOT and add Boost libraries to
@@ -194,18 +194,21 @@ test_apt() {
                 "ubuntu:focal" \
                 "arm64v8/ubuntu:focal" \
                 "ubuntu:jammy" \
-                "arm64v8/ubuntu:jammy"; do \
+                "arm64v8/ubuntu:jammy" \
+                "ubuntu:kinetic" \
+                "arm64v8/ubuntu:kinetic"; do \
     case "${target}" in
       arm64v8/*)
         if [ "$(arch)" = "aarch64" -o -e /usr/bin/qemu-aarch64-static ]; then
           case "${target}" in
-          arm64v8/debian:buster|arm64v8/ubuntu:bionic|arm64v8/ubuntu:focal)
-            ;; # OK
-          *)
-            # qemu-user-static in Ubuntu 20.04 has a crash bug:
-            #   https://bugs.launchpad.net/qemu/+bug/1749393
-            continue
-            ;;
+            arm64v8/ubuntu:bionic|arm64v8/ubuntu:focal)
+              : # OK
+              ;;
+            *)
+              # qemu-user-static in Ubuntu 20.04 has a crash bug:
+              #   https://bugs.launchpad.net/qemu/+bug/1749393
+              continue
+              ;;
           esac
         else
           continue
@@ -213,6 +216,7 @@ test_apt() {
         ;;
     esac
     if ! docker run --rm -v "${ARROW_DIR}":/arrow:delegated \
+           --security-opt="seccomp=unconfined" \
            "${target}" \
            /arrow/dev/release/verify-apt.sh \
            "${VERSION}" \
@@ -325,7 +329,9 @@ install_nodejs() {
       PROFILE=/dev/null bash
     [ -s "$NVM_DIR/nvm.sh" ] && \. "$NVM_DIR/nvm.sh"
 
-    nvm install --lts
+    # ARROW-18335: "gulp bundle" failed with Node.js 18.
+    # nvm install --lts
+    nvm install 16
     show_info "Installed NodeJS $(node --version)"
   fi
 
@@ -396,10 +402,12 @@ install_go() {
 
   if command -v go > /dev/null; then
     show_info "Found $(go version) at $(command -v go)"
+    export GOPATH=${ARROW_TMPDIR}/gopath
+    mkdir -p $GOPATH
     return 0
   fi
 
-  local version=1.16.12
+  local version=1.17.13
   show_info "Installing go version ${version}..."
 
   local arch="$(uname -m)"
@@ -427,6 +435,7 @@ install_go() {
   export GOPATH=${prefix}/gopath
   export PATH=$GOROOT/bin:$GOPATH/bin:$PATH
 
+  mkdir -p $GOPATH
   show_info "$(go version) installed at $(which go)"
 
   GO_ALREADY_INSTALLED=1
@@ -582,6 +591,7 @@ test_and_install_cpp() {
 
   if [ "${USE_CONDA}" -gt 0 ]; then
     DEFAULT_DEPENDENCY_SOURCE="CONDA"
+    CMAKE_PREFIX_PATH="${CONDA_BACKUP_CMAKE_PREFIX_PATH}:${CMAKE_PREFIX_PATH}"
   else
     DEFAULT_DEPENDENCY_SOURCE="AUTO"
   fi
@@ -599,11 +609,14 @@ test_and_install_cpp() {
     -DARROW_BUILD_INTEGRATION=ON \
     -DARROW_BUILD_TESTS=ON \
     -DARROW_BUILD_UTILITIES=ON \
+    -DARROW_COMPUTE=ON \
+    -DARROW_CSV=ON \
     -DARROW_CUDA=${ARROW_CUDA} \
     -DARROW_DATASET=ON \
     -DARROW_DEPENDENCY_SOURCE=${ARROW_DEPENDENCY_SOURCE:-$DEFAULT_DEPENDENCY_SOURCE} \
-    -DARROW_FLIGHT_SQL=${ARROW_FLIGHT_SQL} \
+    -DARROW_FILESYSTEM=ON \
     -DARROW_FLIGHT=${ARROW_FLIGHT} \
+    -DARROW_FLIGHT_SQL=${ARROW_FLIGHT_SQL} \
     -DARROW_GANDIVA=${ARROW_GANDIVA} \
     -DARROW_GCS=${ARROW_GCS} \
     -DARROW_HDFS=ON \
@@ -611,7 +624,6 @@ test_and_install_cpp() {
     -DARROW_ORC=ON \
     -DARROW_PARQUET=ON \
     -DARROW_PLASMA=${ARROW_PLASMA} \
-    -DARROW_PYTHON=ON \
     -DARROW_S3=${ARROW_S3} \
     -DARROW_USE_CCACHE=${ARROW_USE_CCACHE:-ON} \
     -DARROW_VERBOSE_THIRDPARTY_BUILD=ON \
@@ -657,6 +669,10 @@ test_python() {
   maybe_setup_virtualenv cython numpy setuptools_scm setuptools || exit 1
   maybe_setup_conda --file ci/conda_env_python.txt || exit 1
 
+  if [ "${USE_CONDA}" -gt 0 ]; then
+    CMAKE_PREFIX_PATH="${CONDA_BACKUP_CMAKE_PREFIX_PATH}:${CMAKE_PREFIX_PATH}"
+  fi
+
   export PYARROW_PARALLEL=$NPROC
   export PYARROW_WITH_DATASET=1
   export PYARROW_WITH_HDFS=1
@@ -829,10 +845,11 @@ test_js() {
   show_header "Build and test JavaScript libraries"
 
   maybe_setup_nodejs || exit 1
-  maybe_setup_conda nodejs=17 || exit 1
+  maybe_setup_conda nodejs=16 || exit 1
 
   if ! command -v yarn &> /dev/null; then
-    npm install -g yarn
+    npm install yarn
+    PATH=$PWD/node_modules/yarn/bin:$PATH
   fi
 
   pushd js
@@ -851,9 +868,10 @@ test_go() {
   maybe_setup_go || exit 1
   maybe_setup_conda compilers go=1.17 || exit 1
 
-  pushd go/arrow
+  pushd go
   go get -v ./...
   go test ./...
+  go install ./...
   go clean -modcache
   popd
 }
@@ -935,8 +953,9 @@ ensure_source_directory() {
 
 test_source_distribution() {
   export ARROW_HOME=$ARROW_TMPDIR/install
+  export CMAKE_PREFIX_PATH=$ARROW_HOME${CMAKE_PREFIX_PATH:+:${CMAKE_PREFIX_PATH}}
   export PARQUET_HOME=$ARROW_TMPDIR/install
-  export PKG_CONFIG_PATH=$ARROW_HOME/lib/pkgconfig:${PKG_CONFIG_PATH:-}
+  export PKG_CONFIG_PATH=$ARROW_HOME/lib/pkgconfig${PKG_CONFIG_PATH:+:${PKG_CONFIG_PATH}}
 
   if [ "$(uname)" == "Darwin" ]; then
     NPROC=$(sysctl -n hw.ncpu)
@@ -1006,7 +1025,7 @@ test_linux_wheels() {
     local arch="x86_64"
   fi
 
-  local python_versions="3.7m 3.8 3.9 3.10"
+  local python_versions="${TEST_PYTHON_VERSIONS:-3.7m 3.8 3.9 3.10 3.11}"
   local platform_tags="manylinux_2_17_${arch}.manylinux2014_${arch}"
 
   for python in ${python_versions}; do
@@ -1015,7 +1034,7 @@ test_linux_wheels() {
       show_header "Testing Python ${pyver} wheel for platform ${platform}"
       CONDA_ENV=wheel-${pyver}-${platform} PYTHON_VERSION=${pyver} maybe_setup_conda || exit 1
       VENV_ENV=wheel-${pyver}-${platform} PYTHON_VERSION=${pyver} maybe_setup_virtualenv || continue
-      pip install pyarrow-${VERSION}-cp${pyver/.}-cp${python/.}-${platform}.whl
+      pip install pyarrow-${TEST_PYARROW_VERSION:-${VERSION}}-cp${pyver/.}-cp${python/.}-${platform}.whl
       INSTALL_PYARROW=OFF ARROW_GCS=${check_gcs} ${ARROW_DIR}/ci/scripts/python_wheel_unix_test.sh ${ARROW_SOURCE_DIR}
     done
   done
@@ -1028,12 +1047,12 @@ test_macos_wheels() {
 
   # apple silicon processor
   if [ "$(uname -m)" = "arm64" ]; then
-    local python_versions="3.8 3.9 3.10"
+    local python_versions="3.8 3.9 3.10 3.11"
     local platform_tags="macosx_11_0_arm64"
     local check_flight=OFF
   else
-    local python_versions="3.7m 3.8 3.9 3.10"
-    local platform_tags="macosx_10_9_x86_64 macosx_10_13_x86_64"
+    local python_versions="3.7m 3.8 3.9 3.10 3.11"
+    local platform_tags="macosx_10_14_x86_64"
   fi
 
   # verify arch-native wheels inside an arch-native conda environment
@@ -1054,48 +1073,37 @@ test_macos_wheels() {
         ${ARROW_DIR}/ci/scripts/python_wheel_unix_test.sh ${ARROW_SOURCE_DIR}
     done
   done
-
-  # verify arm64 and universal2 wheels using an universal2 python binary
-  # the interpreter should be installed from python.org:
-  #   https://www.python.org/ftp/python/3.9.6/python-3.9.6-macosx10.9.pkg
-  if [ "$(uname -m)" = "arm64" ]; then
-    for pyver in "3.9 3.10"; do
-      local python="/Library/Frameworks/Python.framework/Versions/${pyver}/bin/python${pyver}"
-
-      # create and activate a virtualenv for testing as arm64
-      for arch in "arm64" "x86_64"; do
-        VENV_ENV=wheel-${pyver}-universal2-${arch} PYTHON=${python} maybe_setup_virtualenv || continue
-        # install pyarrow's universal2 wheel
-        pip install pyarrow-${VERSION}-cp${pyver/.}-cp${pyver/.}-macosx_11_0_universal2.whl
-        # check the imports and execute the unittests
-        INSTALL_PYARROW=OFF ARROW_FLIGHT=${check_flight} \
-          arch -${arch} ${ARROW_DIR}/ci/scripts/python_wheel_unix_test.sh ${ARROW_SOURCE_DIR}
-      done
-    done
-  fi
 }
 
 test_wheels() {
   show_header "Downloading Python wheels"
   maybe_setup_conda python || exit 1
 
-  local download_dir=${ARROW_TMPDIR}/binaries
-  mkdir -p ${download_dir}
-
-  if [ "$(uname)" == "Darwin" ]; then
-    local filter_regex=.*macosx.*
+  local wheels_dir=
+  if [ "${SOURCE_KIND}" = "local" ]; then
+    wheels_dir="${ARROW_SOURCE_DIR}/python/repaired_wheels"
   else
-    local filter_regex=.*manylinux.*
-  fi
+    local download_dir=${ARROW_TMPDIR}/binaries
+    mkdir -p ${download_dir}
 
-  ${PYTHON:-python3} $SOURCE_DIR/download_rc_binaries.py $VERSION $RC_NUMBER \
-         --package_type python \
-         --regex=${filter_regex} \
-         --dest=${download_dir}
+    if [ "$(uname)" == "Darwin" ]; then
+      local filter_regex=.*macosx.*
+    else
+      local filter_regex=.*manylinux.*
+    fi
 
-  verify_dir_artifact_signatures ${download_dir}
+    ${PYTHON:-python3} \
+      $SOURCE_DIR/download_rc_binaries.py $VERSION $RC_NUMBER \
+      --package_type python \
+      --regex=${filter_regex} \
+      --dest=${download_dir}
+
+    verify_dir_artifact_signatures ${download_dir}
+
+    wheels_dir=${download_dir}/python-rc/${VERSION}-rc${RC_NUMBER}
+  fi
 
-  pushd ${download_dir}/python-rc/${VERSION}-rc${RC_NUMBER}
+  pushd ${wheels_dir}
 
   if [ "$(uname)" == "Darwin" ]; then
     test_macos_wheels
@@ -1110,7 +1118,7 @@ test_jars() {
   show_header "Testing Java JNI jars"
   maybe_setup_conda maven python || exit 1
 
-  local download_dir=jars
+  local download_dir=${ARROW_TMPDIR}/jars
   mkdir -p ${download_dir}
 
   ${PYTHON:-python3} $SOURCE_DIR/download_rc_binaries.py $VERSION $RC_NUMBER \
@@ -1193,5 +1201,5 @@ test_binary_distribution
 
 TEST_SUCCESS=yes
 
-echo 'Release candidate looks good!'
+echo "Release candidate ${VERSION}-RC${RC_NUMBER} looks good!"
 exit 0
diff --git a/dev/release/verify-yum.sh b/dev/release/verify-yum.sh
index 93bbcfe1366..3a1c0ec6ad6 100755
--- a/dev/release/verify-yum.sh
+++ b/dev/release/verify-yum.sh
@@ -36,7 +36,9 @@ fi
 VERSION="$1"
 TYPE="$2"
 
-local_prefix="/arrow/dev/tasks/linux-packages"
+SOURCE_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+TOP_SOURCE_DIR="${SOURCE_DIR}/../.."
+local_prefix="${TOP_SOURCE_DIR}/dev/tasks/linux-packages"
 
 artifactory_base_url="https://apache.jfrog.io/artifactory/arrow"
 
@@ -46,6 +48,8 @@ repository_version="${distribution_version}"
 
 cmake_package=cmake
 cmake_command=cmake
+devtoolset=
+scl_package=
 have_arrow_libs=no
 have_flight=yes
 have_gandiva=yes
@@ -71,6 +75,7 @@ case "${distribution}-${distribution_version}" in
     ;;
   almalinux-*)
     distribution_prefix="almalinux"
+    ruby_devel_packages+=(redhat-rpm-config)
     ;;
   amzn-2)
     distribution_prefix="amazon-linux"
@@ -93,6 +98,8 @@ case "${distribution}-${distribution_version}" in
     distribution_prefix="centos"
     cmake_package=cmake3
     cmake_command=cmake3
+    devtoolset=11
+    scl_package=centos-release-scl-rh
     have_arrow_libs=yes
     have_flight=no
     have_gandiva=no
@@ -192,20 +199,31 @@ echo "::endgroup::"
 
 echo "::group::Test Apache Arrow C++"
 ${install_command} --enablerepo=epel arrow-devel-${package_version}
+if [ -n "${devtoolset}" ]; then
+  ${install_command} ${scl_package}
+fi
 ${install_command} \
   ${cmake_package} \
-  gcc-c++ \
   git \
   libarchive \
-  make \
   pkg-config
+if [ -n "${devtoolset}" ]; then
+  ${install_command} \
+    devtoolset-${devtoolset}-gcc-c++ \
+    devtoolset-${devtoolset}-make
+  . /opt/rh/devtoolset-${devtoolset}/enable
+else
+  ${install_command} \
+    gcc-c++ \
+    make
+fi
 mkdir -p build
-cp -a /arrow/cpp/examples/minimal_build build/
+cp -a "${TOP_SOURCE_DIR}/cpp/examples/minimal_build" build/
 pushd build/minimal_build
 ${cmake_command} .
 make -j$(nproc)
 ./arrow-example
-c++ -std=c++11 -o arrow-example example.cc $(pkg-config --cflags --libs arrow)
+c++ -std=c++17 -o arrow-example example.cc $(pkg-config --cflags --libs arrow)
 ./arrow-example
 popd
 echo "::endgroup::"
@@ -218,7 +236,7 @@ if [ "${have_glib}" = "yes" ]; then
   ${install_command} --enablerepo=epel arrow-glib-doc-${package_version}
 
   ${install_command} vala
-  cp -a /arrow/c_glib/example/vala build/
+  cp -a "${TOP_SOURCE_DIR}/c_glib/example/vala" build/
   pushd build/vala
   valac --pkg arrow-glib --pkg posix build.vala
   ./build
@@ -250,12 +268,6 @@ if [ "${have_flight}" = "yes" ]; then
   echo "::endgroup::"
 fi
 
-if [ "${have_python}" = "yes" ]; then
-  echo "::group::Test libarrow-python"
-  ${install_command} --enablerepo=epel arrow-python-devel-${package_version}
-  echo "::endgroup::"
-fi
-
 echo "::group::Test Plasma"
 if [ "${have_glib}" = "yes" ]; then
   ${install_command} --enablerepo=epel plasma-glib-devel-${package_version}
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version7cuda_compiler_version10.2cxx_compiler_version7numpy1.18python3.7.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version7cuda_compiler_version10.2cxx_compiler_version7numpy1.18python3.7.____cpython.yaml
deleted file mode 100644
index 9c6fe5c3776..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version7cuda_compiler_version10.2cxx_compiler_version7numpy1.18python3.7.____cpython.yaml
+++ /dev/null
@@ -1,72 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- gcc
-c_compiler_version:
-- '7'
-cdt_name:
-- cos6
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler:
-- nvcc
-cuda_compiler_version:
-- '10.2'
-cxx_compiler:
-- gxx
-cxx_compiler_version:
-- '7'
-docker_image:
-- quay.io/condaforge/linux-anvil-cos7-cuda:10.2
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.7.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- linux-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-  - cuda_compiler_version
-  - cdt_name
-  - docker_image
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version7cuda_compiler_version10.2cxx_compiler_version7numpy1.18python3.8.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version7cuda_compiler_version10.2cxx_compiler_version7numpy1.18python3.8.____cpython.yaml
deleted file mode 100644
index 4a1f196024c..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version7cuda_compiler_version10.2cxx_compiler_version7numpy1.18python3.8.____cpython.yaml
+++ /dev/null
@@ -1,72 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- gcc
-c_compiler_version:
-- '7'
-cdt_name:
-- cos6
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler:
-- nvcc
-cuda_compiler_version:
-- '10.2'
-cxx_compiler:
-- gxx
-cxx_compiler_version:
-- '7'
-docker_image:
-- quay.io/condaforge/linux-anvil-cos7-cuda:10.2
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.8.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- linux-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-  - cuda_compiler_version
-  - cdt_name
-  - docker_image
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version7cuda_compiler_version10.2cxx_compiler_version7numpy1.19python3.9.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version7cuda_compiler_version10.2cxx_compiler_version7numpy1.19python3.9.____cpython.yaml
deleted file mode 100644
index cd9760a9031..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version7cuda_compiler_version10.2cxx_compiler_version7numpy1.19python3.9.____cpython.yaml
+++ /dev/null
@@ -1,72 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- gcc
-c_compiler_version:
-- '7'
-cdt_name:
-- cos6
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler:
-- nvcc
-cuda_compiler_version:
-- '10.2'
-cxx_compiler:
-- gxx
-cxx_compiler_version:
-- '7'
-docker_image:
-- quay.io/condaforge/linux-anvil-cos7-cuda:10.2
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.19'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.9.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- linux-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-  - cuda_compiler_version
-  - cdt_name
-  - docker_image
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.18python3.7.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.18python3.7.____cpython.yaml
deleted file mode 100644
index 3f6c8209e80..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.18python3.7.____cpython.yaml
+++ /dev/null
@@ -1,72 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- gcc
-c_compiler_version:
-- '9'
-cdt_name:
-- cos6
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler:
-- nvcc
-cuda_compiler_version:
-- None
-cxx_compiler:
-- gxx
-cxx_compiler_version:
-- '9'
-docker_image:
-- quay.io/condaforge/linux-anvil-cos7-x86_64
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.7.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- linux-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-  - cuda_compiler_version
-  - cdt_name
-  - docker_image
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.18python3.8.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.18python3.8.____cpython.yaml
deleted file mode 100644
index 85326a4b781..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.18python3.8.____cpython.yaml
+++ /dev/null
@@ -1,72 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- gcc
-c_compiler_version:
-- '9'
-cdt_name:
-- cos6
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler:
-- nvcc
-cuda_compiler_version:
-- None
-cxx_compiler:
-- gxx
-cxx_compiler_version:
-- '9'
-docker_image:
-- quay.io/condaforge/linux-anvil-cos7-x86_64
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.8.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- linux-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-  - cuda_compiler_version
-  - cdt_name
-  - docker_image
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.19python3.9.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.19python3.9.____cpython.yaml
deleted file mode 100644
index 20034ba4e8c..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.19python3.9.____cpython.yaml
+++ /dev/null
@@ -1,72 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- gcc
-c_compiler_version:
-- '9'
-cdt_name:
-- cos6
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler:
-- nvcc
-cuda_compiler_version:
-- None
-cxx_compiler:
-- gxx
-cxx_compiler_version:
-- '9'
-docker_image:
-- quay.io/condaforge/linux-anvil-cos7-x86_64
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.19'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.9.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- linux-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-  - cuda_compiler_version
-  - cdt_name
-  - docker_image
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version7cuda_compiler_version10.2cxx_compiler_version7numpy1.21python3.10.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_64_cuda_compiler_version10.2openssl3.yaml
similarity index 73%
rename from dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version7cuda_compiler_version10.2cxx_compiler_version7numpy1.21python3.10.____cpython.yaml
rename to dev/tasks/conda-recipes/.ci_support/linux_64_cuda_compiler_version10.2openssl3.yaml
index 581e907ed5f..31c61b17fc0 100644
--- a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version7cuda_compiler_version10.2cxx_compiler_version7numpy1.21python3.10.____cpython.yaml
+++ b/dev/tasks/conda-recipes/.ci_support/linux_64_cuda_compiler_version10.2openssl3.yaml
@@ -1,5 +1,9 @@
+aws_sdk_cpp:
+- 1.9.379
 bzip2:
 - '1'
+c_ares:
+- '1'
 c_compiler:
 - gcc
 c_compiler_version:
@@ -14,6 +18,8 @@ cuda_compiler:
 - nvcc
 cuda_compiler_version:
 - '10.2'
+cuda_compiler_version_min:
+- '10.2'
 cxx_compiler:
 - gxx
 cxx_compiler_version:
@@ -23,41 +29,43 @@ docker_image:
 gflags:
 - '2.2'
 glog:
-- '0.5'
+- '0.6'
 google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
+- 2.5.0
+libabseil:
+- '20220623.0'
+libgrpc:
+- '1.51'
 libprotobuf:
-- '3.19'
+- '3.21'
 lz4_c:
 - 1.9.3
 numpy:
 - '1.21'
+- '1.23'
+- '1.20'
+- '1.20'
 openssl:
-- 1.1.1
+- '3'
 orc:
-- 1.7.3
+- 1.8.0
 pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
   python:
     min_pin: x.x
     max_pin: x.x
-  zlib:
-    max_pin: x.x
 python:
 - 3.10.* *_cpython
+- 3.11.* *_cpython
+- 3.8.* *_cpython
+- 3.9.* *_cpython
 re2:
-- 2022.02.01
+- 2022.06.01
 snappy:
 - '1'
 target_platform:
 - linux-64
 thrift_cpp:
-- 0.15.0
+- 0.16.0
 zip_keys:
 - - c_compiler_version
   - cxx_compiler_version
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.21python3.10.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_64_cuda_compiler_versionNoneopenssl3.yaml
similarity index 71%
rename from dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.21python3.10.____cpython.yaml
rename to dev/tasks/conda-recipes/.ci_support/linux_64_cuda_compiler_versionNoneopenssl3.yaml
index d441464402b..e0629f86278 100644
--- a/dev/tasks/conda-recipes/.ci_support/linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.21python3.10.____cpython.yaml
+++ b/dev/tasks/conda-recipes/.ci_support/linux_64_cuda_compiler_versionNoneopenssl3.yaml
@@ -1,9 +1,13 @@
+aws_sdk_cpp:
+- 1.9.379
 bzip2:
 - '1'
+c_ares:
+- '1'
 c_compiler:
 - gcc
 c_compiler_version:
-- '9'
+- '11'
 cdt_name:
 - cos6
 channel_sources:
@@ -14,50 +18,54 @@ cuda_compiler:
 - nvcc
 cuda_compiler_version:
 - None
+cuda_compiler_version_min:
+- '10.2'
 cxx_compiler:
 - gxx
 cxx_compiler_version:
-- '9'
+- '11'
 docker_image:
 - quay.io/condaforge/linux-anvil-cos7-x86_64
 gflags:
 - '2.2'
 glog:
-- '0.5'
+- '0.6'
 google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
+- 2.5.0
+libabseil:
+- '20220623.0'
+libgrpc:
+- '1.51'
 libprotobuf:
-- '3.19'
+- '3.21'
 lz4_c:
 - 1.9.3
 numpy:
 - '1.21'
+- '1.23'
+- '1.20'
+- '1.20'
 openssl:
-- 1.1.1
+- '3'
 orc:
-- 1.7.3
+- 1.8.0
 pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
   python:
     min_pin: x.x
     max_pin: x.x
-  zlib:
-    max_pin: x.x
 python:
 - 3.10.* *_cpython
+- 3.11.* *_cpython
+- 3.8.* *_cpython
+- 3.9.* *_cpython
 re2:
-- 2022.02.01
+- 2022.06.01
 snappy:
 - '1'
 target_platform:
 - linux-64
 thrift_cpp:
-- 0.15.0
+- 0.16.0
 zip_keys:
 - - c_compiler_version
   - cxx_compiler_version
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_aarch64_numpy1.21python3.10.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_aarch64_cuda_compiler_versionNoneopenssl3.yaml
similarity index 75%
rename from dev/tasks/conda-recipes/.ci_support/linux_aarch64_numpy1.21python3.10.____cpython.yaml
rename to dev/tasks/conda-recipes/.ci_support/linux_aarch64_cuda_compiler_versionNoneopenssl3.yaml
index 19c5246d083..793c1afa7ab 100644
--- a/dev/tasks/conda-recipes/.ci_support/linux_aarch64_numpy1.21python3.10.____cpython.yaml
+++ b/dev/tasks/conda-recipes/.ci_support/linux_aarch64_cuda_compiler_versionNoneopenssl3.yaml
@@ -1,11 +1,15 @@
 BUILD:
 - aarch64-conda_cos7-linux-gnu
+aws_sdk_cpp:
+- 1.9.379
 bzip2:
 - '1'
+c_ares:
+- '1'
 c_compiler:
 - gcc
 c_compiler_version:
-- '9'
+- '11'
 cdt_arch:
 - aarch64
 cdt_name:
@@ -19,47 +23,49 @@ cuda_compiler_version:
 cxx_compiler:
 - gxx
 cxx_compiler_version:
-- '9'
+- '11'
 docker_image:
 - quay.io/condaforge/linux-anvil-cos7-x86_64
 gflags:
 - '2.2'
 glog:
-- '0.5'
+- '0.6'
 google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
+- 2.5.0
+libabseil:
+- '20220623.0'
+libgrpc:
+- '1.51'
 libprotobuf:
-- '3.19'
+- '3.21'
 lz4_c:
 - 1.9.3
 numpy:
 - '1.21'
+- '1.23'
+- '1.20'
+- '1.20'
 openssl:
-- 1.1.1
+- '3'
 orc:
-- 1.7.3
+- 1.8.0
 pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
   python:
     min_pin: x.x
     max_pin: x.x
-  zlib:
-    max_pin: x.x
 python:
 - 3.10.* *_cpython
+- 3.11.* *_cpython
+- 3.8.* *_cpython
+- 3.9.* *_cpython
 re2:
-- 2022.02.01
+- 2022.06.01
 snappy:
 - '1'
 target_platform:
 - linux-aarch64
 thrift_cpp:
-- 0.15.0
+- 0.16.0
 zip_keys:
 - - c_compiler_version
   - cxx_compiler_version
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_aarch64_numpy1.18python3.7.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_aarch64_numpy1.18python3.7.____cpython.yaml
deleted file mode 100644
index 9bf341a78c9..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/linux_aarch64_numpy1.18python3.7.____cpython.yaml
+++ /dev/null
@@ -1,74 +0,0 @@
-BUILD:
-- aarch64-conda_cos7-linux-gnu
-bzip2:
-- '1'
-c_compiler:
-- gcc
-c_compiler_version:
-- '9'
-cdt_arch:
-- aarch64
-cdt_name:
-- cos7
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler_version:
-- None
-cxx_compiler:
-- gxx
-cxx_compiler_version:
-- '9'
-docker_image:
-- quay.io/condaforge/linux-anvil-cos7-x86_64
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.7.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- linux-aarch64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-  - cuda_compiler_version
-  - cdt_name
-  - docker_image
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_aarch64_numpy1.18python3.8.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_aarch64_numpy1.18python3.8.____cpython.yaml
deleted file mode 100644
index 802123a913f..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/linux_aarch64_numpy1.18python3.8.____cpython.yaml
+++ /dev/null
@@ -1,74 +0,0 @@
-BUILD:
-- aarch64-conda_cos7-linux-gnu
-bzip2:
-- '1'
-c_compiler:
-- gcc
-c_compiler_version:
-- '9'
-cdt_arch:
-- aarch64
-cdt_name:
-- cos7
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler_version:
-- None
-cxx_compiler:
-- gxx
-cxx_compiler_version:
-- '9'
-docker_image:
-- quay.io/condaforge/linux-anvil-cos7-x86_64
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.8.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- linux-aarch64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-  - cuda_compiler_version
-  - cdt_name
-  - docker_image
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_aarch64_numpy1.19python3.9.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_aarch64_numpy1.19python3.9.____cpython.yaml
deleted file mode 100644
index ab619cc87ea..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/linux_aarch64_numpy1.19python3.9.____cpython.yaml
+++ /dev/null
@@ -1,74 +0,0 @@
-BUILD:
-- aarch64-conda_cos7-linux-gnu
-bzip2:
-- '1'
-c_compiler:
-- gcc
-c_compiler_version:
-- '9'
-cdt_arch:
-- aarch64
-cdt_name:
-- cos7
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler_version:
-- None
-cxx_compiler:
-- gxx
-cxx_compiler_version:
-- '9'
-docker_image:
-- quay.io/condaforge/linux-anvil-cos7-x86_64
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.19'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.9.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- linux-aarch64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-  - cuda_compiler_version
-  - cdt_name
-  - docker_image
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_ppc64le_numpy1.21python3.10.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_ppc64le_cuda_compiler_versionNoneopenssl3.yaml
similarity index 74%
rename from dev/tasks/conda-recipes/.ci_support/linux_ppc64le_numpy1.21python3.10.____cpython.yaml
rename to dev/tasks/conda-recipes/.ci_support/linux_ppc64le_cuda_compiler_versionNoneopenssl3.yaml
index 7c76681489c..6c81ae03b6d 100644
--- a/dev/tasks/conda-recipes/.ci_support/linux_ppc64le_numpy1.21python3.10.____cpython.yaml
+++ b/dev/tasks/conda-recipes/.ci_support/linux_ppc64le_cuda_compiler_versionNoneopenssl3.yaml
@@ -1,9 +1,13 @@
+aws_sdk_cpp:
+- 1.9.379
 bzip2:
 - '1'
+c_ares:
+- '1'
 c_compiler:
 - gcc
 c_compiler_version:
-- '7'
+- '11'
 cdt_name:
 - cos7
 channel_sources:
@@ -15,47 +19,49 @@ cuda_compiler_version:
 cxx_compiler:
 - gxx
 cxx_compiler_version:
-- '7'
+- '11'
 docker_image:
 - quay.io/condaforge/linux-anvil-cos7-x86_64
 gflags:
 - '2.2'
 glog:
-- '0.5'
+- '0.6'
 google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
+- 2.5.0
+libabseil:
+- '20220623.0'
+libgrpc:
+- '1.51'
 libprotobuf:
-- '3.19'
+- '3.21'
 lz4_c:
 - 1.9.3
 numpy:
 - '1.21'
+- '1.23'
+- '1.20'
+- '1.20'
 openssl:
-- 1.1.1
+- '3'
 orc:
-- 1.7.3
+- 1.8.0
 pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
   python:
     min_pin: x.x
     max_pin: x.x
-  zlib:
-    max_pin: x.x
 python:
 - 3.10.* *_cpython
+- 3.11.* *_cpython
+- 3.8.* *_cpython
+- 3.9.* *_cpython
 re2:
-- 2022.02.01
+- 2022.06.01
 snappy:
 - '1'
 target_platform:
 - linux-ppc64le
 thrift_cpp:
-- 0.15.0
+- 0.16.0
 zip_keys:
 - - c_compiler_version
   - cxx_compiler_version
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_ppc64le_numpy1.18python3.7.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_ppc64le_numpy1.18python3.7.____cpython.yaml
deleted file mode 100644
index 2bce24c6819..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/linux_ppc64le_numpy1.18python3.7.____cpython.yaml
+++ /dev/null
@@ -1,70 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- gcc
-c_compiler_version:
-- '7'
-cdt_name:
-- cos7
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler_version:
-- None
-cxx_compiler:
-- gxx
-cxx_compiler_version:
-- '7'
-docker_image:
-- quay.io/condaforge/linux-anvil-cos7-x86_64
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.7.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- linux-ppc64le
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-  - cuda_compiler_version
-  - cdt_name
-  - docker_image
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_ppc64le_numpy1.18python3.8.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_ppc64le_numpy1.18python3.8.____cpython.yaml
deleted file mode 100644
index 6942d589cd4..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/linux_ppc64le_numpy1.18python3.8.____cpython.yaml
+++ /dev/null
@@ -1,70 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- gcc
-c_compiler_version:
-- '7'
-cdt_name:
-- cos7
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler_version:
-- None
-cxx_compiler:
-- gxx
-cxx_compiler_version:
-- '7'
-docker_image:
-- quay.io/condaforge/linux-anvil-cos7-x86_64
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.8.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- linux-ppc64le
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-  - cuda_compiler_version
-  - cdt_name
-  - docker_image
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/linux_ppc64le_numpy1.19python3.9.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/linux_ppc64le_numpy1.19python3.9.____cpython.yaml
deleted file mode 100644
index dd69227c266..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/linux_ppc64le_numpy1.19python3.9.____cpython.yaml
+++ /dev/null
@@ -1,70 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- gcc
-c_compiler_version:
-- '7'
-cdt_name:
-- cos7
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler_version:
-- None
-cxx_compiler:
-- gxx
-cxx_compiler_version:
-- '7'
-docker_image:
-- quay.io/condaforge/linux-anvil-cos7-x86_64
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.19'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.9.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- linux-ppc64le
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-  - cuda_compiler_version
-  - cdt_name
-  - docker_image
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/osx_64_numpy1.18python3.7.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/osx_64_numpy1.18python3.7.____cpython.yaml
deleted file mode 100644
index 952ef45a8e6..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/osx_64_numpy1.18python3.7.____cpython.yaml
+++ /dev/null
@@ -1,67 +0,0 @@
-MACOSX_DEPLOYMENT_TARGET:
-- '10.9'
-bzip2:
-- '1'
-c_compiler:
-- clang
-c_compiler_version:
-- '11'
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler_version:
-- None
-cxx_compiler:
-- clangxx
-cxx_compiler_version:
-- '11'
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-macos_machine:
-- x86_64-apple-darwin13.4.0
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.7.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- osx-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/osx_64_numpy1.18python3.8.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/osx_64_numpy1.18python3.8.____cpython.yaml
deleted file mode 100644
index 22e92ad5d73..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/osx_64_numpy1.18python3.8.____cpython.yaml
+++ /dev/null
@@ -1,67 +0,0 @@
-MACOSX_DEPLOYMENT_TARGET:
-- '10.9'
-bzip2:
-- '1'
-c_compiler:
-- clang
-c_compiler_version:
-- '11'
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler_version:
-- None
-cxx_compiler:
-- clangxx
-cxx_compiler_version:
-- '11'
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-macos_machine:
-- x86_64-apple-darwin13.4.0
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.8.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- osx-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/osx_64_numpy1.19python3.9.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/osx_64_numpy1.19python3.9.____cpython.yaml
deleted file mode 100644
index 6d01a39891e..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/osx_64_numpy1.19python3.9.____cpython.yaml
+++ /dev/null
@@ -1,67 +0,0 @@
-MACOSX_DEPLOYMENT_TARGET:
-- '10.9'
-bzip2:
-- '1'
-c_compiler:
-- clang
-c_compiler_version:
-- '11'
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler_version:
-- None
-cxx_compiler:
-- clangxx
-cxx_compiler_version:
-- '11'
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-macos_machine:
-- x86_64-apple-darwin13.4.0
-numpy:
-- '1.19'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.9.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- osx-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/osx_64_numpy1.21python3.10.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/osx_64_openssl3.yaml
similarity index 72%
rename from dev/tasks/conda-recipes/.ci_support/osx_64_numpy1.21python3.10.____cpython.yaml
rename to dev/tasks/conda-recipes/.ci_support/osx_64_openssl3.yaml
index bbe311e4cd6..bff4181d549 100644
--- a/dev/tasks/conda-recipes/.ci_support/osx_64_numpy1.21python3.10.____cpython.yaml
+++ b/dev/tasks/conda-recipes/.ci_support/osx_64_openssl3.yaml
@@ -1,11 +1,15 @@
 MACOSX_DEPLOYMENT_TARGET:
 - '10.9'
+aws_sdk_cpp:
+- 1.9.379
 bzip2:
 - '1'
+c_ares:
+- '1'
 c_compiler:
 - clang
 c_compiler_version:
-- '11'
+- '14'
 channel_sources:
 - conda-forge
 channel_targets:
@@ -15,47 +19,49 @@ cuda_compiler_version:
 cxx_compiler:
 - clangxx
 cxx_compiler_version:
-- '11'
+- '14'
 gflags:
 - '2.2'
 glog:
-- '0.5'
+- '0.6'
 google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
+- 2.5.0
+libabseil:
+- '20220623.0'
+libgrpc:
+- '1.51'
 libprotobuf:
-- '3.19'
+- '3.21'
 lz4_c:
 - 1.9.3
 macos_machine:
 - x86_64-apple-darwin13.4.0
 numpy:
 - '1.21'
+- '1.23'
+- '1.20'
+- '1.20'
 openssl:
-- 1.1.1
+- '3'
 orc:
-- 1.7.3
+- 1.8.0
 pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
   python:
     min_pin: x.x
     max_pin: x.x
-  zlib:
-    max_pin: x.x
 python:
 - 3.10.* *_cpython
+- 3.11.* *_cpython
+- 3.8.* *_cpython
+- 3.9.* *_cpython
 re2:
-- 2022.02.01
+- 2022.06.01
 snappy:
 - '1'
 target_platform:
 - osx-64
 thrift_cpp:
-- 0.15.0
+- 0.16.0
 zip_keys:
 - - c_compiler_version
   - cxx_compiler_version
diff --git a/dev/tasks/conda-recipes/.ci_support/osx_arm64_numpy1.19python3.8.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/osx_arm64_numpy1.19python3.8.____cpython.yaml
deleted file mode 100644
index c951785200e..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/osx_arm64_numpy1.19python3.8.____cpython.yaml
+++ /dev/null
@@ -1,67 +0,0 @@
-MACOSX_DEPLOYMENT_TARGET:
-- '11.0'
-bzip2:
-- '1'
-c_compiler:
-- clang
-c_compiler_version:
-- '11'
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler_version:
-- None
-cxx_compiler:
-- clangxx
-cxx_compiler_version:
-- '11'
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-macos_machine:
-- arm64-apple-darwin20.0.0
-numpy:
-- '1.19'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.8.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- osx-arm64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/osx_arm64_numpy1.19python3.9.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/osx_arm64_numpy1.19python3.9.____cpython.yaml
deleted file mode 100644
index 143947084d9..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/osx_arm64_numpy1.19python3.9.____cpython.yaml
+++ /dev/null
@@ -1,67 +0,0 @@
-MACOSX_DEPLOYMENT_TARGET:
-- '11.0'
-bzip2:
-- '1'
-c_compiler:
-- clang
-c_compiler_version:
-- '11'
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler_version:
-- None
-cxx_compiler:
-- clangxx
-cxx_compiler_version:
-- '11'
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-macos_machine:
-- arm64-apple-darwin20.0.0
-numpy:
-- '1.19'
-openssl:
-- 1.1.1
-orc:
-- 1.7.3
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.9.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- osx-arm64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - c_compiler_version
-  - cxx_compiler_version
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/osx_arm64_numpy1.21python3.10.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/osx_arm64_openssl3.yaml
similarity index 72%
rename from dev/tasks/conda-recipes/.ci_support/osx_arm64_numpy1.21python3.10.____cpython.yaml
rename to dev/tasks/conda-recipes/.ci_support/osx_arm64_openssl3.yaml
index 807e8400905..2e9a5682b95 100644
--- a/dev/tasks/conda-recipes/.ci_support/osx_arm64_numpy1.21python3.10.____cpython.yaml
+++ b/dev/tasks/conda-recipes/.ci_support/osx_arm64_openssl3.yaml
@@ -1,11 +1,15 @@
 MACOSX_DEPLOYMENT_TARGET:
 - '11.0'
+aws_sdk_cpp:
+- 1.9.379
 bzip2:
 - '1'
+c_ares:
+- '1'
 c_compiler:
 - clang
 c_compiler_version:
-- '11'
+- '14'
 channel_sources:
 - conda-forge
 channel_targets:
@@ -15,47 +19,49 @@ cuda_compiler_version:
 cxx_compiler:
 - clangxx
 cxx_compiler_version:
-- '11'
+- '14'
 gflags:
 - '2.2'
 glog:
-- '0.5'
+- '0.6'
 google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
+- 2.5.0
+libabseil:
+- '20220623.0'
+libgrpc:
+- '1.51'
 libprotobuf:
-- '3.19'
+- '3.21'
 lz4_c:
 - 1.9.3
 macos_machine:
 - arm64-apple-darwin20.0.0
 numpy:
 - '1.21'
+- '1.23'
+- '1.20'
+- '1.20'
 openssl:
-- 1.1.1
+- '3'
 orc:
-- 1.7.3
+- 1.8.0
 pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
   python:
     min_pin: x.x
     max_pin: x.x
-  zlib:
-    max_pin: x.x
 python:
 - 3.10.* *_cpython
+- 3.11.* *_cpython
+- 3.8.* *_cpython
+- 3.9.* *_cpython
 re2:
-- 2022.02.01
+- 2022.06.01
 snappy:
 - '1'
 target_platform:
 - osx-arm64
 thrift_cpp:
-- 0.15.0
+- 0.16.0
 zip_keys:
 - - c_compiler_version
   - cxx_compiler_version
diff --git a/dev/tasks/conda-recipes/.ci_support/r/linux_64_r_base4.1.yaml b/dev/tasks/conda-recipes/.ci_support/r/linux_64_r_base4.1.yaml
index 00d944cb861..96784cc8b6f 100644
--- a/dev/tasks/conda-recipes/.ci_support/r/linux_64_r_base4.1.yaml
+++ b/dev/tasks/conda-recipes/.ci_support/r/linux_64_r_base4.1.yaml
@@ -1,7 +1,7 @@
 c_compiler:
 - gcc
 c_compiler_version:
-- '9'
+- '11'
 cdt_name:
 - cos6
 channel_sources:
@@ -11,7 +11,7 @@ channel_targets:
 cxx_compiler:
 - gxx
 cxx_compiler_version:
-- '9'
+- '11'
 docker_image:
 - quay.io/condaforge/linux-anvil-cos7-x86_64
 pin_run_as_build:
diff --git a/dev/tasks/conda-recipes/.ci_support/r/linux_64_r_base4.0.yaml b/dev/tasks/conda-recipes/.ci_support/r/linux_64_r_base4.2.yaml
similarity index 94%
rename from dev/tasks/conda-recipes/.ci_support/r/linux_64_r_base4.0.yaml
rename to dev/tasks/conda-recipes/.ci_support/r/linux_64_r_base4.2.yaml
index bb4dbcbbe63..38753baa7ed 100644
--- a/dev/tasks/conda-recipes/.ci_support/r/linux_64_r_base4.0.yaml
+++ b/dev/tasks/conda-recipes/.ci_support/r/linux_64_r_base4.2.yaml
@@ -1,7 +1,7 @@
 c_compiler:
 - gcc
 c_compiler_version:
-- '9'
+- '11'
 cdt_name:
 - cos6
 channel_sources:
@@ -11,7 +11,7 @@ channel_targets:
 cxx_compiler:
 - gxx
 cxx_compiler_version:
-- '9'
+- '11'
 docker_image:
 - quay.io/condaforge/linux-anvil-cos7-x86_64
 pin_run_as_build:
@@ -19,7 +19,7 @@ pin_run_as_build:
     min_pin: x.x
     max_pin: x.x
 r_base:
-- '4.0'
+- '4.2'
 target_platform:
 - linux-64
 zip_keys:
diff --git a/dev/tasks/conda-recipes/.ci_support/r/linux_aarch64_r_base4.1.yaml b/dev/tasks/conda-recipes/.ci_support/r/linux_aarch64_r_base4.1.yaml
new file mode 100644
index 00000000000..413d8c6583f
--- /dev/null
+++ b/dev/tasks/conda-recipes/.ci_support/r/linux_aarch64_r_base4.1.yaml
@@ -0,0 +1,31 @@
+BUILD:
+- aarch64-conda_cos7-linux-gnu
+c_compiler:
+- gcc
+c_compiler_version:
+- '11'
+cdt_arch:
+- aarch64
+cdt_name:
+- cos7
+channel_sources:
+- conda-forge
+channel_targets:
+- conda-forge main
+cxx_compiler:
+- gxx
+cxx_compiler_version:
+- '11'
+docker_image:
+- quay.io/condaforge/linux-anvil-cos7-x86_64
+pin_run_as_build:
+  r-base:
+    min_pin: x.x
+    max_pin: x.x
+r_base:
+- '4.1'
+target_platform:
+- linux-aarch64
+zip_keys:
+- - c_compiler_version
+  - cxx_compiler_version
diff --git a/dev/tasks/conda-recipes/.ci_support/r/linux_aarch64_r_base4.2.yaml b/dev/tasks/conda-recipes/.ci_support/r/linux_aarch64_r_base4.2.yaml
new file mode 100644
index 00000000000..2913bbb4f14
--- /dev/null
+++ b/dev/tasks/conda-recipes/.ci_support/r/linux_aarch64_r_base4.2.yaml
@@ -0,0 +1,31 @@
+BUILD:
+- aarch64-conda_cos7-linux-gnu
+c_compiler:
+- gcc
+c_compiler_version:
+- '11'
+cdt_arch:
+- aarch64
+cdt_name:
+- cos7
+channel_sources:
+- conda-forge
+channel_targets:
+- conda-forge main
+cxx_compiler:
+- gxx
+cxx_compiler_version:
+- '11'
+docker_image:
+- quay.io/condaforge/linux-anvil-cos7-x86_64
+pin_run_as_build:
+  r-base:
+    min_pin: x.x
+    max_pin: x.x
+r_base:
+- '4.2'
+target_platform:
+- linux-aarch64
+zip_keys:
+- - c_compiler_version
+  - cxx_compiler_version
diff --git a/dev/tasks/conda-recipes/.ci_support/r/osx_64_r_base4.1.yaml b/dev/tasks/conda-recipes/.ci_support/r/osx_64_r_base4.1.yaml
index 8926fd82b2d..7e5b3d08039 100644
--- a/dev/tasks/conda-recipes/.ci_support/r/osx_64_r_base4.1.yaml
+++ b/dev/tasks/conda-recipes/.ci_support/r/osx_64_r_base4.1.yaml
@@ -3,7 +3,7 @@ MACOSX_DEPLOYMENT_TARGET:
 c_compiler:
 - clang
 c_compiler_version:
-- '11'
+- '14'
 channel_sources:
 - conda-forge
 channel_targets:
@@ -11,7 +11,7 @@ channel_targets:
 cxx_compiler:
 - clangxx
 cxx_compiler_version:
-- '11'
+- '14'
 macos_machine:
 - x86_64-apple-darwin13.4.0
 pin_run_as_build:
diff --git a/dev/tasks/conda-recipes/.ci_support/r/osx_64_r_base4.0.yaml b/dev/tasks/conda-recipes/.ci_support/r/osx_64_r_base4.2.yaml
similarity index 94%
rename from dev/tasks/conda-recipes/.ci_support/r/osx_64_r_base4.0.yaml
rename to dev/tasks/conda-recipes/.ci_support/r/osx_64_r_base4.2.yaml
index 20f3879b30a..25437ee4adc 100644
--- a/dev/tasks/conda-recipes/.ci_support/r/osx_64_r_base4.0.yaml
+++ b/dev/tasks/conda-recipes/.ci_support/r/osx_64_r_base4.2.yaml
@@ -3,7 +3,7 @@ MACOSX_DEPLOYMENT_TARGET:
 c_compiler:
 - clang
 c_compiler_version:
-- '11'
+- '14'
 channel_sources:
 - conda-forge
 channel_targets:
@@ -11,7 +11,7 @@ channel_targets:
 cxx_compiler:
 - clangxx
 cxx_compiler_version:
-- '11'
+- '14'
 macos_machine:
 - x86_64-apple-darwin13.4.0
 pin_run_as_build:
@@ -19,7 +19,7 @@ pin_run_as_build:
     min_pin: x.x
     max_pin: x.x
 r_base:
-- '4.0'
+- '4.2'
 target_platform:
 - osx-64
 zip_keys:
diff --git a/dev/tasks/conda-recipes/.ci_support/r/osx_arm64_r_base4.1.yaml b/dev/tasks/conda-recipes/.ci_support/r/osx_arm64_r_base4.1.yaml
new file mode 100644
index 00000000000..5c58110332f
--- /dev/null
+++ b/dev/tasks/conda-recipes/.ci_support/r/osx_arm64_r_base4.1.yaml
@@ -0,0 +1,27 @@
+MACOSX_DEPLOYMENT_TARGET:
+- '11.0'
+c_compiler:
+- clang
+c_compiler_version:
+- '14'
+channel_sources:
+- conda-forge
+channel_targets:
+- conda-forge main
+cxx_compiler:
+- clangxx
+cxx_compiler_version:
+- '14'
+macos_machine:
+- arm64-apple-darwin20.0.0
+pin_run_as_build:
+  r-base:
+    min_pin: x.x
+    max_pin: x.x
+r_base:
+- '4.1'
+target_platform:
+- osx-arm64
+zip_keys:
+- - c_compiler_version
+  - cxx_compiler_version
diff --git a/dev/tasks/conda-recipes/.ci_support/r/osx_arm64_r_base4.2.yaml b/dev/tasks/conda-recipes/.ci_support/r/osx_arm64_r_base4.2.yaml
new file mode 100644
index 00000000000..1557b23ff96
--- /dev/null
+++ b/dev/tasks/conda-recipes/.ci_support/r/osx_arm64_r_base4.2.yaml
@@ -0,0 +1,27 @@
+MACOSX_DEPLOYMENT_TARGET:
+- '11.0'
+c_compiler:
+- clang
+c_compiler_version:
+- '14'
+channel_sources:
+- conda-forge
+channel_targets:
+- conda-forge main
+cxx_compiler:
+- clangxx
+cxx_compiler_version:
+- '14'
+macos_machine:
+- arm64-apple-darwin20.0.0
+pin_run_as_build:
+  r-base:
+    min_pin: x.x
+    max_pin: x.x
+r_base:
+- '4.2'
+target_platform:
+- osx-arm64
+zip_keys:
+- - c_compiler_version
+  - cxx_compiler_version
diff --git a/dev/tasks/conda-recipes/.ci_support/r/win_64_r_base4.1.yaml b/dev/tasks/conda-recipes/.ci_support/r/win_64_.yaml
similarity index 100%
rename from dev/tasks/conda-recipes/.ci_support/r/win_64_r_base4.1.yaml
rename to dev/tasks/conda-recipes/.ci_support/r/win_64_.yaml
diff --git a/dev/tasks/conda-recipes/.ci_support/r/win_64_r_base4.0.yaml b/dev/tasks/conda-recipes/.ci_support/r/win_64_r_base4.0.yaml
deleted file mode 100644
index bb8f9721636..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/r/win_64_r_base4.0.yaml
+++ /dev/null
@@ -1,12 +0,0 @@
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-pin_run_as_build:
-  r-base:
-    min_pin: x.x
-    max_pin: x.x
-r_base:
-- '4.0'
-target_platform:
-- win-64
diff --git a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2numpy1.18python3.7.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2numpy1.18python3.7.____cpython.yaml
deleted file mode 100644
index bcfe18d2671..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2numpy1.18python3.7.____cpython.yaml
+++ /dev/null
@@ -1,57 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- vs2017
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler:
-- nvcc
-cuda_compiler_version:
-- '10.2'
-cxx_compiler:
-- vs2017
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.7.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- win-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2numpy1.18python3.8.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2numpy1.18python3.8.____cpython.yaml
deleted file mode 100644
index 766615b6e4f..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2numpy1.18python3.8.____cpython.yaml
+++ /dev/null
@@ -1,57 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- vs2017
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler:
-- nvcc
-cuda_compiler_version:
-- '10.2'
-cxx_compiler:
-- vs2017
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.8.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- win-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2numpy1.19python3.9.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2numpy1.19python3.9.____cpython.yaml
deleted file mode 100644
index 2001de80794..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2numpy1.19python3.9.____cpython.yaml
+++ /dev/null
@@ -1,57 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- vs2017
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler:
-- nvcc
-cuda_compiler_version:
-- '10.2'
-cxx_compiler:
-- vs2017
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.19'
-openssl:
-- 1.1.1
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.9.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- win-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNonenumpy1.21python3.10.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2openssl3.yaml
similarity index 58%
rename from dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNonenumpy1.21python3.10.____cpython.yaml
rename to dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2openssl3.yaml
index 374e7ce82a7..7173299488e 100644
--- a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNonenumpy1.21python3.10.____cpython.yaml
+++ b/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2openssl3.yaml
@@ -1,7 +1,11 @@
+aws_sdk_cpp:
+- 1.9.379
 bzip2:
 - '1'
+c_ares:
+- '1'
 c_compiler:
-- vs2017
+- vs2019
 channel_sources:
 - conda-forge
 channel_targets:
@@ -9,45 +13,53 @@ channel_targets:
 cuda_compiler:
 - nvcc
 cuda_compiler_version:
-- None
+- '10.2'
+cuda_compiler_version_min:
+- '10.2'
 cxx_compiler:
-- vs2017
+- vs2019
 gflags:
 - '2.2'
 glog:
-- '0.5'
+- '0.6'
 google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
+- 2.5.0
+libabseil:
+- '20220623.0'
+libcrc32c:
+- '1.1'
+libcurl:
+- '7'
+libgrpc:
+- '1.51'
 libprotobuf:
-- '3.19'
+- '3.21'
 lz4_c:
 - 1.9.3
 numpy:
 - '1.21'
+- '1.23'
+- '1.20'
+- '1.20'
 openssl:
-- 1.1.1
+- '3'
 pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
   python:
     min_pin: x.x
     max_pin: x.x
-  zlib:
-    max_pin: x.x
 python:
 - 3.10.* *_cpython
+- 3.11.* *_cpython
+- 3.8.* *_cpython
+- 3.9.* *_cpython
 re2:
-- 2022.02.01
+- 2022.06.01
 snappy:
 - '1'
 target_platform:
 - win-64
 thrift_cpp:
-- 0.15.0
+- 0.16.0
 zip_keys:
 - - python
   - numpy
diff --git a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNonenumpy1.18python3.7.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNonenumpy1.18python3.7.____cpython.yaml
deleted file mode 100644
index a23b37e3ae2..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNonenumpy1.18python3.7.____cpython.yaml
+++ /dev/null
@@ -1,57 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- vs2017
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler:
-- nvcc
-cuda_compiler_version:
-- None
-cxx_compiler:
-- vs2017
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.7.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- win-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNonenumpy1.18python3.8.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNonenumpy1.18python3.8.____cpython.yaml
deleted file mode 100644
index dbf6186a4d2..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNonenumpy1.18python3.8.____cpython.yaml
+++ /dev/null
@@ -1,57 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- vs2017
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler:
-- nvcc
-cuda_compiler_version:
-- None
-cxx_compiler:
-- vs2017
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.18'
-openssl:
-- 1.1.1
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.8.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- win-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNonenumpy1.19python3.9.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNonenumpy1.19python3.9.____cpython.yaml
deleted file mode 100644
index 7341d646b6b..00000000000
--- a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNonenumpy1.19python3.9.____cpython.yaml
+++ /dev/null
@@ -1,57 +0,0 @@
-bzip2:
-- '1'
-c_compiler:
-- vs2017
-channel_sources:
-- conda-forge
-channel_targets:
-- conda-forge main
-cuda_compiler:
-- nvcc
-cuda_compiler_version:
-- None
-cxx_compiler:
-- vs2017
-gflags:
-- '2.2'
-glog:
-- '0.5'
-google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
-libprotobuf:
-- '3.19'
-lz4_c:
-- 1.9.3
-numpy:
-- '1.19'
-openssl:
-- 1.1.1
-pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
-  python:
-    min_pin: x.x
-    max_pin: x.x
-  zlib:
-    max_pin: x.x
-python:
-- 3.9.* *_cpython
-re2:
-- 2022.02.01
-snappy:
-- '1'
-target_platform:
-- win-64
-thrift_cpp:
-- 0.15.0
-zip_keys:
-- - python
-  - numpy
-zlib:
-- '1.2'
-zstd:
-- '1.5'
diff --git a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2numpy1.21python3.10.____cpython.yaml b/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNoneopenssl3.yaml
similarity index 60%
rename from dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2numpy1.21python3.10.____cpython.yaml
rename to dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNoneopenssl3.yaml
index a7c9c54c2e8..49fc4defc1b 100644
--- a/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_version10.2numpy1.21python3.10.____cpython.yaml
+++ b/dev/tasks/conda-recipes/.ci_support/win_64_cuda_compiler_versionNoneopenssl3.yaml
@@ -1,7 +1,11 @@
+aws_sdk_cpp:
+- 1.9.379
 bzip2:
 - '1'
+c_ares:
+- '1'
 c_compiler:
-- vs2017
+- vs2019
 channel_sources:
 - conda-forge
 channel_targets:
@@ -9,45 +13,53 @@ channel_targets:
 cuda_compiler:
 - nvcc
 cuda_compiler_version:
+- None
+cuda_compiler_version_min:
 - '10.2'
 cxx_compiler:
-- vs2017
+- vs2019
 gflags:
 - '2.2'
 glog:
-- '0.5'
+- '0.6'
 google_cloud_cpp:
-- '1.35'
-grpc_cpp:
-- '1.43'
+- 2.5.0
+libabseil:
+- '20220623.0'
+libcrc32c:
+- '1.1'
+libcurl:
+- '7'
+libgrpc:
+- '1.51'
 libprotobuf:
-- '3.19'
+- '3.21'
 lz4_c:
 - 1.9.3
 numpy:
 - '1.21'
+- '1.23'
+- '1.20'
+- '1.20'
 openssl:
-- 1.1.1
+- '3'
 pin_run_as_build:
-  bzip2:
-    max_pin: x
-  lz4-c:
-    max_pin: x.x.x
   python:
     min_pin: x.x
     max_pin: x.x
-  zlib:
-    max_pin: x.x
 python:
 - 3.10.* *_cpython
+- 3.11.* *_cpython
+- 3.8.* *_cpython
+- 3.9.* *_cpython
 re2:
-- 2022.02.01
+- 2022.06.01
 snappy:
 - '1'
 target_platform:
 - win-64
 thrift_cpp:
-- 0.15.0
+- 0.16.0
 zip_keys:
 - - python
   - numpy
diff --git a/dev/tasks/conda-recipes/README.md b/dev/tasks/conda-recipes/README.md
index 39f82f1b01a..fc40733249b 100644
--- a/dev/tasks/conda-recipes/README.md
+++ b/dev/tasks/conda-recipes/README.md
@@ -39,7 +39,7 @@ recipes. Most of these updates are touching the version pinning files
 (under `.ci_support`) and other CI related configuration files.
 
 Because all three recipes must be built in the same continuous integration
-job prefer porting from the [arrpw-cpp feedstock][arrow-cpp-feedstock].
+job prefer porting from the [arrow-cpp feedstock][arrow-cpp-feedstock].
 
 #### Updating the variants:
 
@@ -64,4 +64,4 @@ copied to the upstream feedstocks.
 
 [arrow-cpp-feedstock]: https://github.com/conda-forge/arrow-cpp-feedstock
 [parquet-cpp-feedstock]: https://github.com/conda-forge/parquet-cpp-feedstock
-[matrix-definition]: https://github.com/conda-forge/arrow-cpp-feedstock/blob/master/.azure-pipelines/azure-pipelines-linux.yml#L12
+[matrix-definition]: https://github.com/conda-forge/arrow-cpp-feedstock/blob/main/.azure-pipelines/azure-pipelines-linux.yml#L12
diff --git a/dev/tasks/conda-recipes/arrow-cpp/bld-arrow.bat b/dev/tasks/conda-recipes/arrow-cpp/bld-arrow.bat
index 7800123e7a0..b3c283ddb8f 100644
--- a/dev/tasks/conda-recipes/arrow-cpp/bld-arrow.bat
+++ b/dev/tasks/conda-recipes/arrow-cpp/bld-arrow.bat
@@ -15,38 +15,45 @@ if "%cuda_compiler_version%"=="None" (
 )
 
 cmake -G "Ninja" ^
-      -DBUILD_SHARED_LIBS=ON ^
-      -DCMAKE_INSTALL_PREFIX="%LIBRARY_PREFIX%" ^
-      -DARROW_DEPENDENCY_SOURCE=SYSTEM ^
-      -DARROW_PACKAGE_PREFIX="%LIBRARY_PREFIX%" ^
-      -DLLVM_TOOLS_BINARY_DIR="%LIBRARY_BIN%" ^
-      -DPython3_EXECUTABLE="%PYTHON%" ^
-      -DARROW_WITH_BZ2:BOOL=ON ^
-      -DARROW_WITH_ZLIB:BOOL=ON ^
-      -DARROW_WITH_ZSTD:BOOL=ON ^
-      -DARROW_WITH_LZ4:BOOL=ON ^
-      -DARROW_WITH_SNAPPY:BOOL=ON ^
-      -DARROW_WITH_BROTLI:BOOL=ON ^
       -DARROW_BOOST_USE_SHARED:BOOL=ON ^
+      -DARROW_BUILD_STATIC:BOOL=OFF ^
       -DARROW_BUILD_TESTS:BOOL=OFF ^
       -DARROW_BUILD_UTILITIES:BOOL=OFF ^
-      -DARROW_BUILD_STATIC:BOOL=OFF ^
-      -DCMAKE_BUILD_TYPE=release ^
-      -DARROW_SIMD_LEVEL=NONE ^
-      -DARROW_PYTHON:BOOL=ON ^
-      -DARROW_MIMALLOC:BOOL=ON ^
+      -DARROW_COMPUTE:BOOL=ON ^
+      -DARROW_CSV:BOOL=ON ^
       -DARROW_DATASET:BOOL=ON ^
+      -DARROW_DEPENDENCY_SOURCE=SYSTEM ^
+      -DARROW_FILESYSTEM:BOOL=ON ^
       -DARROW_FLIGHT:BOOL=ON ^
       -DARROW_FLIGHT_REQUIRE_TLSCREDENTIALSOPTIONS:BOOL=ON ^
-      -DARROW_HDFS:BOOL=ON ^
+      -DARROW_FLIGHT_SQL:BOOL=ON ^
+      -DARROW_GANDIVA:BOOL=ON ^
       -DARROW_GCS:BOOL=ON ^
+      -DARROW_HDFS:BOOL=ON ^
+      -DARROW_JSON:BOOL=ON ^
+      -DARROW_MIMALLOC:BOOL=ON ^
+      -DARROW_ORC:BOOL=OFF ^
+      -DARROW_PACKAGE_PREFIX="%LIBRARY_PREFIX%" ^
       -DARROW_PARQUET:BOOL=ON ^
-      -DPARQUET_REQUIRE_ENCRYPTION:BOOL=ON ^
-      -DARROW_GANDIVA:BOOL=ON ^
-      -DARROW_ORC:BOOL=ON ^
       -DARROW_S3:BOOL=ON ^
+      -DARROW_SIMD_LEVEL:STRING=NONE ^
+      -DARROW_SUBSTRAIT:BOOL=ON ^
+      -DARROW_USE_GLOG:BOOL=ON ^
+      -DARROW_WITH_BROTLI:BOOL=ON ^
+      -DARROW_WITH_BZ2:BOOL=ON ^
+      -DARROW_WITH_LZ4:BOOL=ON ^
+      -DARROW_WITH_SNAPPY:BOOL=ON ^
+      -DARROW_WITH_ZLIB:BOOL=ON ^
+      -DARROW_WITH_ZSTD:BOOL=ON ^
+      -DBUILD_SHARED_LIBS=ON ^
       -DBoost_NO_BOOST_CMAKE=ON ^
+      -DCMAKE_BUILD_TYPE=release ^
+      -DCMAKE_CXX_STANDARD=17 ^
+      -DCMAKE_INSTALL_PREFIX="%LIBRARY_PREFIX%" ^
       -DCMAKE_UNITY_BUILD=ON ^
+      -DLLVM_TOOLS_BINARY_DIR="%LIBRARY_BIN%" ^
+      -DPARQUET_REQUIRE_ENCRYPTION:BOOL=ON ^
+      -DPython3_EXECUTABLE="%PYTHON%" ^
       %EXTRA_CMAKE_ARGS% ^
       ..
 if errorlevel 1 exit 1
diff --git a/dev/tasks/conda-recipes/arrow-cpp/bld-pyarrow.bat b/dev/tasks/conda-recipes/arrow-cpp/bld-pyarrow.bat
index a03a37722fa..ed0e20554b7 100644
--- a/dev/tasks/conda-recipes/arrow-cpp/bld-pyarrow.bat
+++ b/dev/tasks/conda-recipes/arrow-cpp/bld-pyarrow.bat
@@ -17,14 +17,15 @@ pushd "%SRC_DIR%"\python
 SET ARROW_HOME=%LIBRARY_PREFIX%
 SET SETUPTOOLS_SCM_PRETEND_VERSION=%PKG_VERSION%
 SET PYARROW_BUILD_TYPE=release
-SET PYARROW_WITH_GCS=1
-SET PYARROW_WITH_S3=1
-SET PYARROW_WITH_HDFS=1
 SET PYARROW_WITH_DATASET=1
 SET PYARROW_WITH_FLIGHT=1
 SET PYARROW_WITH_GANDIVA=1
+SET PYARROW_WITH_GCS=1
+SET PYARROW_WITH_HDFS=1
 SET PYARROW_WITH_PARQUET=1
 SET PYARROW_WITH_PARQUET_ENCRYPTION=1
+SET PYARROW_WITH_S3=1
+SET PYARROW_WITH_SUBSTRAIT=1
 SET PYARROW_CMAKE_GENERATOR=Ninja
 
 :: Enable CUDA support
@@ -44,3 +45,6 @@ popd
 if [%PKG_NAME%] == [pyarrow] (
     rd /s /q %SP_DIR%\pyarrow\tests
 )
+
+:: generated by setup.py
+rmdir .\python\build /s /q
diff --git a/dev/tasks/conda-recipes/arrow-cpp/build-arrow.sh b/dev/tasks/conda-recipes/arrow-cpp/build-arrow.sh
old mode 100644
new mode 100755
index 791a82c4ba9..5a0d26d6c7a
--- a/dev/tasks/conda-recipes/arrow-cpp/build-arrow.sh
+++ b/dev/tasks/conda-recipes/arrow-cpp/build-arrow.sh
@@ -1,4 +1,4 @@
-#!/usr/bin/env bash
+#!/bin/bash
 
 set -e
 set -x
@@ -11,7 +11,11 @@ EXTRA_CMAKE_ARGS=""
 # Include g++'s system headers
 if [ "$(uname)" == "Linux" ]; then
   SYSTEM_INCLUDES=$(echo | ${CXX} -E -Wp,-v -xc++ - 2>&1 | grep '^ ' | awk '{print "-isystem;" substr($1, 1)}' | tr '\n' ';')
-  EXTRA_CMAKE_ARGS=" -DARROW_GANDIVA_PC_CXX_FLAGS=${SYSTEM_INCLUDES}"
+  ARROW_GANDIVA_PC_CXX_FLAGS="${SYSTEM_INCLUDES}"
+else
+  # See https://conda-forge.org/docs/maintainer/knowledge_base.html#newer-c-features-with-old-sdk
+  CXXFLAGS="${CXXFLAGS} -D_LIBCPP_DISABLE_AVAILABILITY"
+  ARROW_GANDIVA_PC_CXX_FLAGS="-D_LIBCPP_DISABLE_AVAILABILITY"
 fi
 
 # Enable CUDA support
@@ -35,47 +39,52 @@ else
 fi
 
 if [[ "${target_platform}" == "osx-arm64" ]]; then
-    # We need llvm 11+ support in Arrow for this
-    # Tell jemalloc to support 16K page size on apple arm64 silicon
-    EXTRA_CMAKE_ARGS=" ${EXTRA_CMAKE_ARGS} -DARROW_GANDIVA=OFF -DARROW_JEMALLOC_LG_PAGE=14"
+    EXTRA_CMAKE_ARGS="${EXTRA_CMAKE_ARGS} -DCLANG_EXECUTABLE=${BUILD_PREFIX}/bin/clang -DLLVM_LINK_EXECUTABLE=${BUILD_PREFIX}/bin/llvm-link"
     sed -ie "s;protoc-gen-grpc.*$;protoc-gen-grpc=${BUILD_PREFIX}/bin/grpc_cpp_plugin\";g" ../src/arrow/flight/CMakeLists.txt
-elif [[ "${target_platform}" == "linux-aarch64" ]]; then
-    # Tell jemalloc to support both 4k and 64k page arm64 systems
-    # See https://github.com/apache/arrow/pull/10940
-    EXTRA_CMAKE_ARGS=" ${EXTRA_CMAKE_ARGS} -DARROW_GANDIVA=ON -DARROW_JEMALLOC_LG_PAGE=16"
-else
-    EXTRA_CMAKE_ARGS=" ${EXTRA_CMAKE_ARGS} -DARROW_GANDIVA=ON"
+    sed -ie 's;"--with-jemalloc-prefix\=je_arrow_";"--with-jemalloc-prefix\=je_arrow_" "--with-lg-page\=14";g' ../cmake_modules/ThirdpartyToolchain.cmake
 fi
 
-if [[ "${target_platform}" == osx-* ]]; then
-   EXTRA_CMAKE_ARGS="${EXTRA_CMAKE_ARGS} -DCMAKE_CXX_STANDARD=14"
-else
-   EXTRA_CMAKE_ARGS="${EXTRA_CMAKE_ARGS} -DCMAKE_CXX_STANDARD=17"
+# disable -fno-plt, which causes problems with GCC on PPC
+if [[ "$target_platform" == "linux-ppc64le" ]]; then
+  CFLAGS="$(echo $CFLAGS | sed 's/-fno-plt //g')"
+  CXXFLAGS="$(echo $CXXFLAGS | sed 's/-fno-plt //g')"
 fi
 
-cmake \
+# Limit number of threads used to avoid hardware oversubscription
+if [[ "${target_platform}" == "linux-aarch64" ]] || [[ "${target_platform}" == "linux-ppc64le" ]]; then
+     export CMAKE_BUILD_PARALLEL_LEVEL=3
+fi
+
+cmake -GNinja \
     -DARROW_BOOST_USE_SHARED=ON \
     -DARROW_BUILD_BENCHMARKS=OFF \
     -DARROW_BUILD_STATIC=OFF \
     -DARROW_BUILD_TESTS=OFF \
     -DARROW_BUILD_UTILITIES=OFF \
-    -DBUILD_SHARED_LIBS=ON \
+    -DARROW_COMPUTE=ON \
+    -DARROW_CSV=ON \
+    -DARROW_CXXFLAGS="${CXXFLAGS}" \
     -DARROW_DATASET=ON \
     -DARROW_DEPENDENCY_SOURCE=SYSTEM \
+    -DARROW_FILESYSTEM=ON \
     -DARROW_FLIGHT=ON \
     -DARROW_FLIGHT_REQUIRE_TLSCREDENTIALSOPTIONS=ON \
+    -DARROW_FLIGHT_SQL=ON \
+    -DARROW_GANDIVA=ON \
+    -DARROW_GANDIVA_PC_CXX_FLAGS="${ARROW_GANDIVA_PC_CXX_FLAGS}" \
     -DARROW_GCS=ON \
     -DARROW_HDFS=ON \
     -DARROW_JEMALLOC=ON \
+    -DARROW_JSON=ON \
     -DARROW_MIMALLOC=ON \
     -DARROW_ORC=ON \
     -DARROW_PACKAGE_PREFIX=$PREFIX \
     -DARROW_PARQUET=ON \
-    -DPARQUET_REQUIRE_ENCRYPTION=ON \
     -DARROW_PLASMA=ON \
-    -DARROW_PYTHON=ON \
     -DARROW_S3=ON \
     -DARROW_SIMD_LEVEL=NONE \
+    -DARROW_SUBSTRAIT=ON \
+    -DARROW_USE_GLOG=ON \
     -DARROW_USE_LD_GOLD=ON \
     -DARROW_WITH_BROTLI=ON \
     -DARROW_WITH_BZ2=ON \
@@ -83,25 +92,18 @@ cmake \
     -DARROW_WITH_SNAPPY=ON \
     -DARROW_WITH_ZLIB=ON \
     -DARROW_WITH_ZSTD=ON \
+    -DBUILD_SHARED_LIBS=ON \
     -DCMAKE_BUILD_TYPE=release \
+    -DCMAKE_CXX_STANDARD=17 \
     -DCMAKE_INSTALL_LIBDIR=lib \
     -DCMAKE_INSTALL_PREFIX=$PREFIX \
     -DLLVM_TOOLS_BINARY_DIR=$PREFIX/bin \
-    -DPython3_EXECUTABLE=${PYTHON} \
+    -DPARQUET_REQUIRE_ENCRYPTION=ON \
     -DProtobuf_PROTOC_EXECUTABLE=$BUILD_PREFIX/bin/protoc \
-    -GNinja \
+    -DPython3_EXECUTABLE=${PYTHON} \
     ${EXTRA_CMAKE_ARGS} \
     ..
 
-# Commented out until jemalloc and mimalloc are fixed upstream
-if [[ "${target_platform}" == "osx-arm64" ]]; then
-     ninja jemalloc_ep-prefix/src/jemalloc_ep-stamp/jemalloc_ep-patch mimalloc_ep-prefix/src/mimalloc_ep-stamp/mimalloc_ep-patch
-     cp $BUILD_PREFIX/share/gnuconfig/config.* jemalloc_ep-prefix/src/jemalloc_ep/build-aux/
-     sed -ie 's/list(APPEND mi_cflags -march=native)//g' mimalloc_ep-prefix/src/mimalloc_ep/CMakeLists.txt
-     # Use the correct register for thread-local storage
-     sed -ie 's/tpidr_el0/tpidrro_el0/g' mimalloc_ep-prefix/src/mimalloc_ep/include/mimalloc-internal.h
-fi
-
-ninja install
+cmake --build . --target install --config Release
 
 popd
diff --git a/dev/tasks/conda-recipes/arrow-cpp/build-pyarrow.sh b/dev/tasks/conda-recipes/arrow-cpp/build-pyarrow.sh
index 6e23c5eed90..692ffb7806d 100644
--- a/dev/tasks/conda-recipes/arrow-cpp/build-pyarrow.sh
+++ b/dev/tasks/conda-recipes/arrow-cpp/build-pyarrow.sh
@@ -11,12 +11,7 @@ export PYARROW_BUILD_TYPE=release
 export PYARROW_BUNDLE_ARROW_CPP_HEADERS=0
 export PYARROW_WITH_DATASET=1
 export PYARROW_WITH_FLIGHT=1
-if [[ "${target_platform}" == "osx-arm64" ]]; then
-    # We need llvm 11+ support in Arrow for this
-    export PYARROW_WITH_GANDIVA=0
-else
-    export PYARROW_WITH_GANDIVA=1
-fi
+export PYARROW_WITH_GANDIVA=1
 export PYARROW_WITH_GCS=1
 export PYARROW_WITH_HDFS=1
 export PYARROW_WITH_ORC=1
@@ -24,6 +19,7 @@ export PYARROW_WITH_PARQUET=1
 export PYARROW_WITH_PARQUET_ENCRYPTION=1
 export PYARROW_WITH_PLASMA=1
 export PYARROW_WITH_S3=1
+export PYARROW_WITH_SUBSTRAIT=1
 export PYARROW_CMAKE_GENERATOR=Ninja
 export PYARROW_CMAKE_OPTIONS="-DARROW_SIMD_LEVEL=NONE"
 BUILD_EXT_FLAGS=""
@@ -40,6 +36,16 @@ if [[ "${target_platform}" == "linux-aarch64" ]]; then
     export PYARROW_CMAKE_OPTIONS="-DARROW_ARMV8_ARCH=armv8-a ${PYARROW_CMAKE_OPTIONS}"
 fi
 
+if [[ "${target_platform}" == osx-* ]]; then
+    # See https://conda-forge.org/docs/maintainer/knowledge_base.html#newer-c-features-with-old-sdk
+    CXXFLAGS="${CXXFLAGS} -D_LIBCPP_DISABLE_AVAILABILITY"
+fi
+
+# Limit number of threads used to avoid hardware oversubscription
+if [[ "${target_platform}" == "linux-aarch64" ]] || [[ "${target_platform}" == "linux-ppc64le" ]]; then
+     export CMAKE_BUILD_PARALLEL_LEVEL=4
+fi
+
 cd python
 
 $PYTHON setup.py \
@@ -50,3 +56,7 @@ $PYTHON setup.py \
 if [[ "$PKG_NAME" == "pyarrow" ]]; then
     rm -r ${SP_DIR}/pyarrow/tests
 fi
+
+# generated by setup.py
+rm -rf build
+cd ..
diff --git a/dev/tasks/conda-recipes/arrow-cpp/meta.yaml b/dev/tasks/conda-recipes/arrow-cpp/meta.yaml
index dcf1afe4a1a..1c3478582b5 100644
--- a/dev/tasks/conda-recipes/arrow-cpp/meta.yaml
+++ b/dev/tasks/conda-recipes/arrow-cpp/meta.yaml
@@ -4,9 +4,10 @@
 {% set build_ext_version = ARROW_VERSION %}
 {% set build_ext = "cuda" if cuda_enabled else "cpu" %}
 {% set proc_build_number = "0" %}
+{% set llvm_version = "14" %}
 
 package:
-  name: arrow-cpp-ext
+  name: apache-arrow
   version: {{ version }}
 
 source:
@@ -14,19 +15,27 @@ source:
 
 build:
   number: 0
-  # for cuda on win/linux, building with 9.2 is enough to be compatible with all later versions,
-  # since arrow is only using libcuda, and not libcudart.
-  skip: true  # [(win or linux) and cuda_compiler_version not in ("None", "10.2")]
-  skip: true  # [osx and cuda_compiler_version != "None"]
+  # for cuda support, building with one version is enough to be compatible with
+  # all later versions, since arrow is only using libcuda, and not libcudart.
+  skip: true  # [cuda_compiler_version not in ("None", cuda_compiler_version_min)]
+  # temporary: skip CUDA on aarch/ppc until cross-compilation works, see
+  # https://github.com/conda-forge/conda-forge-ci-setup-feedstock/pull/210
+  skip: true  # [(aarch64 or ppc64le) and (cuda_compiler_version != "None")]
   run_exports:
-    - {{ pin_subpackage("arrow-cpp", max_pin="x.x.x") }}
+    - {{ pin_subpackage("libarrow", max_pin="x.x.x") }}
 
 outputs:
-  - name: arrow-cpp-proc
+  - name: apache-arrow-proc
     version: {{ build_ext_version }}
     build:
       number: {{ proc_build_number }}
-      string: "{{ build_ext }}"
+      string: {{ build_ext }}
+      ignore_run_exports_from:
+        - openssl
+    requirements:
+      host:
+        # ensure we split the CI jobs per openssl version
+        - openssl
     test:
       commands:
         - exit 0
@@ -35,31 +44,48 @@ outputs:
       license: Apache-2.0
       license_file:
         - LICENSE.txt
-      summary: 'A meta-package to select Arrow build variant'
+      summary: A meta-package to select Arrow build variant
 
-  - name: arrow-cpp
+  # compat output for old mutex-package naming
+  - name: arrow-cpp-proc
+    version: {{ build_ext_version }}
+    build:
+      number: {{ proc_build_number }}
+      string: {{ build_ext }}
+      ignore_run_exports_from:
+        - openssl
+    requirements:
+      host:
+        # ensure we split the CI jobs per openssl version
+        - openssl
+      run:
+        - apache-arrow-proc ={{ build_ext_version }}={{ build_ext }}
+    test:
+      commands:
+        - exit 0
+
+  - name: libarrow
     script: build-arrow.sh  # [not win]
     script: bld-arrow.bat   # [win]
     version: {{ version }}
     build:
-      string: py{{ CONDA_PY }}h{{ PKG_HASH }}_{{ PKG_BUILDNUM }}_{{ build_ext }}
+      string: h{{ PKG_HASH }}_{{ PKG_BUILDNUM }}_{{ build_ext }}
       run_exports:
-        - {{ pin_subpackage("arrow-cpp", max_pin="x.x.x") }}
+        - {{ pin_subpackage("libarrow", max_pin="x.x.x") }}
       ignore_run_exports:
         - cudatoolkit
-      track_features:
-        {{ "- arrow-cuda" if cuda_enabled else "" }}
+      track_features: {{ "[arrow-cuda]" if cuda_enabled else "" }}
+      missing_dso_whitelist:
+        - "*/libcuda.so.*"    # [linux]
+        - "*/nvcuda.dll"      # [win]
     requirements:
       build:
-        - python                                 # [build_platform != target_platform]
-        - cross-python_{{ target_platform }}     # [build_platform != target_platform]
-        - cython                                 # [build_platform != target_platform]
-        - numpy                                  # [build_platform != target_platform]
+        - clangdev {{ llvm_version }}            # [osx and arm64]
+        - llvmdev {{ llvm_version }}             # [osx and arm64]
         - gnuconfig                              # [osx and arm64]
+        - libgrpc
         - libprotobuf
-        - grpc-cpp
-        # aws-sdk-cpp 1.8.* doesn't work with newer CMake
-        - cmake <3.22
+        - cmake
         - autoconf  # [unix]
         - ninja
         - make  # [unix]
@@ -67,8 +93,9 @@ outputs:
         - {{ compiler('cxx') }}
         - {{ compiler("cuda") }}  # [cuda_compiler_version != "None"]
       host:
-        # https://issues.apache.org/jira/browse/ARROW-15141
-        - aws-sdk-cpp 1.8.186
+        - clangdev {{ llvm_version }}
+        - llvmdev {{ llvm_version }}
+        - aws-sdk-cpp
         - boost-cpp >=1.70
         - brotli
         - bzip2
@@ -76,16 +103,19 @@ outputs:
         - gflags
         - glog
         - google-cloud-cpp
-        - grpc-cpp
+        - libabseil
+        # since libgoogle-cloud is static on windows, see
+        # https://github.com/conda-forge/google-cloud-cpp-feedstock/pull/108,
+        # its dependencies leak into the build here
+        - libcrc32c  # [win]
+        - libcurl    # [win]
+        - libgrpc
         - libprotobuf
-        - clangdev 10  # [not (osx and arm64)]
-        - llvmdev 10   # [not (osx and arm64)]
         - libutf8proc
         - lz4-c
-        - numpy
-        - orc  # [unix]
+        # gandiva depends on openssl
         - openssl
-        - python
+        - orc          # [unix]
         - rapidjson
         - re2
         - snappy
@@ -93,12 +123,48 @@ outputs:
         - xsimd
         - zlib
         - zstd
-      run:
-        - {{ pin_compatible('numpy', lower_bound='1.16') }}
-        - python
       run_constrained:
-        - arrow-cpp-proc * {{ build_ext }}
-        - cudatoolkit >=9.2  # [cuda_compiler_version != "None"]
+        - apache-arrow-proc =*={{ build_ext }}
+        - cudatoolkit >={{ cuda_compiler_version_min }}  # [cuda_compiler_version != "None"]
+        # make sure we don't co-install with old version of old package name
+        - arrow-cpp ={{ version }}
+
+    test:
+      commands:
+        {% set headers = [
+            "arrow/api.h", "arrow/flight/types.h", "arrow/flight/sql/api.h",
+            "gandiva/engine.h", "parquet/api/reader.h"
+        ] %}
+        {% set headers = headers + ["plasma/client.h"] %}  # [unix]
+        {% for each_header in headers %}
+        # headers
+        - test -f $PREFIX/include/{{ each_header }} || (echo "{{ each_header }} not found" && exit 1)  # [unix]
+        - if not exist %LIBRARY_INC%\{{ "\\".join(each_header.split("/")) }} exit 1                    # [win]
+        {% endfor %}
+
+        {% set libs = (cuda_compiler_version != "None") * ["arrow_cuda"] + [
+            "arrow", "arrow_dataset", "arrow_flight", "arrow_flight_sql",
+            "arrow_substrait", "gandiva", "parquet"
+        ] %}
+        {% set libs = libs + ["plasma"] %}  # [unix]
+        {% for each_lib in libs %}
+        # shared
+        - test -f $PREFIX/lib/lib{{ each_lib }}.so                 # [linux]
+        - test -f $PREFIX/lib/lib{{ each_lib }}.dylib              # [osx]
+        - if not exist %LIBRARY_BIN%\{{ each_lib }}.dll exit 1     # [win]
+        - if not exist %LIBRARY_LIB%\{{ each_lib }}.lib exit 1     # [win]
+
+        # absence of static libraries
+        - test ! -f $PREFIX/lib/lib{{ each_lib }}.a                # [unix]
+        - if exist %LIBRARY_LIB%\{{ each_lib }}_static.lib exit 1  # [win]
+        {% endfor %}
+
+        # absence of arrow_cuda for CPU builds
+        - test ! -f $PREFIX/lib/libarrow_cuda.so                   # [(cuda_compiler_version == "None") and linux]
+        - test ! -f $PREFIX/lib/libarrow_cuda.a                    # [(cuda_compiler_version == "None") and linux]
+        - if exist %LIBRARY_BIN%\arrow_cuda.dll exit 1             # [(cuda_compiler_version == "None") and win]
+        - if exist %LIBRARY_LIB%\arrow_cuda.lib exit 1             # [(cuda_compiler_version == "None") and win]
+        - if exist %LIBRARY_LIB%\arrow_cuda_static.lib exit 1      # [(cuda_compiler_version == "None") and win]
 
     about:
       home: http://github.com/apache/arrow
@@ -107,57 +173,23 @@ outputs:
         - LICENSE.txt
       summary: C++ libraries for Apache Arrow
 
+  # compat output for old naming scheme; switched for 10.0.0; keep for a few versions
+  - name: arrow-cpp
+    version: {{ version }}
+    build:
+      string: h{{ PKG_HASH }}_{{ PKG_BUILDNUM }}_{{ build_ext }}
+      run_exports:
+        - {{ pin_subpackage("libarrow", max_pin="x.x.x") }}
+    requirements:
+      host:
+        # make sure the builds for different openssl versions (with the same PKG_BUILDNUM) have different hashes
+        - openssl
+        - {{ pin_subpackage('libarrow', exact=True) }}
+      run:
+        - {{ pin_subpackage('libarrow', exact=True) }}
     test:
       commands:
-        # headers
-        - test -f $PREFIX/include/arrow/api.h              # [unix]
-        - test -f $PREFIX/include/arrow/flight/types.h     # [unix]
-        - test -f $PREFIX/include/plasma/client.h          # [unix]
-        - test -f $PREFIX/include/gandiva/engine.h         # [unix and not (osx and arm64)]
-        - test -f $PREFIX/include/parquet/api/reader.h     # [unix]
-        - if not exist %LIBRARY_INC%\\arrow\\api.h exit 1            # [win]
-        - if not exist %LIBRARY_INC%\\gandiva\\engine.h exit 1       # [win]
-        - if not exist %LIBRARY_INC%\\parquet\\api\\reader.h exit 1  # [win]
-
-        # shared
-        - test -f $PREFIX/lib/libarrow.so            # [linux]
-        - test -f $PREFIX/lib/libarrow_dataset.so    # [linux]
-        - test -f $PREFIX/lib/libarrow_flight.so     # [linux]
-        - test -f $PREFIX/lib/libarrow_python.so     # [linux]
-        - test -f $PREFIX/lib/libparquet.so          # [linux]
-        - test -f $PREFIX/lib/libgandiva.so          # [linux]
-        - test -f $PREFIX/lib/libplasma.so           # [linux]
-        - test -f $PREFIX/lib/libarrow_cuda${SHLIB_EXT}               # [(cuda_compiler_version != "None") and unix]
-        - test ! -f $PREFIX/lib/libarrow_cuda${SHLIB_EXT}             # [(cuda_compiler_version == "None") and unix]
-        - if not exist %PREFIX%\\Library\\bin\\arrow_cuda.dll exit 1  # [(cuda_compiler_version != "None") and win]
-        - if exist %PREFIX%\\Library\\bin\\arrow_cuda.dll exit 1      # [(cuda_compiler_version == "None") and win]
-        - test -f $PREFIX/lib/libarrow.dylib          # [osx]
-        - test -f $PREFIX/lib/libarrow_dataset.dylib  # [osx]
-        - test -f $PREFIX/lib/libarrow_python.dylib   # [osx]
-        - test -f $PREFIX/lib/libgandiva.dylib        # [osx and not arm64]
-        - test -f $PREFIX/lib/libparquet.dylib        # [osx]
-        - test -f $PREFIX/lib/libplasma.dylib         # [osx]
-        - if not exist %PREFIX%\\Library\\bin\\arrow.dll exit 1          # [win]
-        - if not exist %PREFIX%\\Library\\bin\\arrow_dataset.dll exit 1  # [win]
-        - if not exist %PREFIX%\\Library\\bin\\arrow_flight.dll exit 1   # [win]
-        - if not exist %PREFIX%\\Library\\bin\\arrow_python.dll exit 1   # [win]
-        - if not exist %PREFIX%\\Library\\bin\\parquet.dll exit 1        # [win]
-        - if not exist %PREFIX%\\Library\\bin\\gandiva.dll exit 1        # [win]
-
-        # absence of static libraries
-        - test ! -f $PREFIX/lib/libarrow.a          # [unix]
-        - test ! -f $PREFIX/lib/libarrow_dataset.a  # [unix]
-        - test ! -f $PREFIX/lib/libarrow_flight.a   # [unix]
-        - test ! -f $PREFIX/lib/libarrow_python.a   # [unix]
-        - test ! -f $PREFIX/lib/libplasma.a         # [unix]
-        - test ! -f $PREFIX/lib/libparquet.a        # [unix]
-        - test ! -f $PREFIX/lib/libgandiva.a        # [unix]
-        - if exist %PREFIX%\\Library\\lib\\arrow_static.lib exit 1          # [win]
-        - if exist %PREFIX%\\Library\\lib\\arrow_dataset_static.lib exit 1  # [win]
-        - if exist %PREFIX%\\Library\\lib\\arrow_flight_static.lib exit 1   # [win]
-        - if exist %PREFIX%\\Library\\lib\\arrow_python_static.lib exit 1   # [win]
-        - if exist %PREFIX%\\Library\\lib\\parquet_static.lib exit 1        # [win]
-        - if exist %PREFIX%\\Library\\lib\\gandiva_static.lib exit 1        # [win]
+        - exit 0
 
   - name: pyarrow
     script: build-pyarrow.sh  # [not win]
@@ -169,8 +201,15 @@ outputs:
         - cudatoolkit
       ignore_run_exports_from:
         - openssl
-      track_features:
-        {{ "- arrow-cuda" if cuda_enabled else "" }}
+      track_features: {{ "[arrow-cuda]" if cuda_enabled else "" }}
+      missing_dso_whitelist:
+        # not actually missing, but installed into SP_DIR, see tests
+        - "*/libarrow_python.so.*"            # [linux]
+        - "*/libarrow_python_flight.so.*"     # [linux]
+        - "*/libarrow_python.*.dylib"         # [osx]
+        - "*/libarrow_python_flight.*.dylib"  # [osx]
+        - "*/arrow_python.dll"                # [win]
+        - "*/arrow_python_flight.dll"         # [win]
     requirements:
       build:
         - python                                 # [build_platform != target_platform]
@@ -182,40 +221,37 @@ outputs:
         - make  # [unix]
         - {{ compiler('c') }}
         - {{ compiler('cxx') }}
-        # pyarrow does not require nvcc but it needs to link against libraries in arrow-cpp=*=*cuda
+        # pyarrow does not require nvcc but it needs to link against libraries in libarrow=*=*cuda
         - {{ compiler("cuda") }}  # [cuda_compiler_version != "None"]
       host:
-        - {{ pin_subpackage('arrow-cpp', exact=True) }}
+        - {{ pin_subpackage('libarrow', exact=True) }}
+        - clangdev {{ llvm_version }}
+        - llvmdev {{ llvm_version }}
         - cython
+        - gflags  # [unix]
         - numpy
-        - python
         - openssl
+        - python
         - setuptools
         - setuptools_scm
-        - six
       run:
-        - {{ pin_subpackage('arrow-cpp', exact=True) }}
-        - {{ pin_compatible('numpy', lower_bound='1.16') }}
+        - {{ pin_subpackage('libarrow', exact=True) }}
+        - {{ pin_compatible('numpy') }}
         # empty parquet-cpp metapackage, force old versions to be uninstalled
         - parquet-cpp 1.5.1.*
         - python
       run_constrained:
-        - arrow-cpp-proc * {{ build_ext }}
-        - cudatoolkit >=9.2  # [cuda_compiler_version != "None"]
-
-    about:
-      home: http://github.com/apache/arrow
-      license: Apache-2.0
-      license_file:
-        - LICENSE.txt
-      summary: Python libraries for Apache Arrow
+        - apache-arrow-proc =*={{ build_ext }}
+        - cudatoolkit >={{ cuda_compiler_version_min }}  # [cuda_compiler_version != "None"]
 
     test:
+      files:
+        - test_read_parquet.py
       imports:
         - pyarrow
         - pyarrow.dataset
         - pyarrow.flight
-        - pyarrow.gandiva  # [not (osx and arm64)]
+        - pyarrow.gandiva
         - pyarrow.orc      # [unix]
         - pyarrow.parquet
         - pyarrow.plasma   # [unix]
@@ -229,10 +265,29 @@ outputs:
         # However, we check below for (at least) the presence of a correctly-compiled module
         - pyarrow.cuda     # [cuda_compiler_version != "None" and not win]
       commands:
+        # libraries that depend on python (and hence aren't in libarrow itself)
+        - test -f ${SP_DIR}/pyarrow/libarrow_python.so                            # [linux]
+        - test -f ${SP_DIR}/pyarrow/libarrow_python_flight.so                     # [linux]
+        - test -f ${SP_DIR}/pyarrow/libarrow_python.dylib                         # [osx]
+        - test -f ${SP_DIR}/pyarrow/libarrow_python_flight.dylib                  # [osx]
+        - if not exist %SP_DIR%\pyarrow\arrow_python.dll exit 1                   # [win]
+        - if not exist %SP_DIR%\pyarrow\arrow_python_flight.dll exit 1            # [win]
+
+        - test -f ${SP_DIR}/pyarrow/include/arrow/python/pyarrow.h                # [unix]
+        - if not exist %SP_DIR%\pyarrow\include\arrow\python\pyarrow.h exit 1     # [win]
+
         - test ! -f ${SP_DIR}/pyarrow/tests/test_array.py                         # [unix]
         - if exist %SP_DIR%/pyarrow/tests/test_array.py exit 1                    # [win]
         # Need to remove dot from PY_VER; %MYVAR:x=y% replaces "x" in %MYVAR% with "y"
         - if not exist %SP_DIR%/pyarrow/_cuda.cp%PY_VER:.=%-win_amd64.pyd exit 1  # [win and cuda_compiler_version != "None"]
+        - python test_read_parquet.py
+
+    about:
+      home: http://github.com/apache/arrow
+      license: Apache-2.0
+      license_file:
+        - LICENSE.txt
+      summary: Python libraries for Apache Arrow
 
   - name: pyarrow-tests
     script: build-pyarrow.sh  # [not win]
@@ -244,8 +299,7 @@ outputs:
         - cudatoolkit
       ignore_run_exports_from:
         - openssl
-      track_features:
-        {{ "- arrow-cuda" if cuda_enabled else "" }}
+      track_features: {{ "[arrow-cuda]" if cuda_enabled else "" }}
     requirements:
       build:
         - python                                 # [build_platform != target_platform]
@@ -257,24 +311,82 @@ outputs:
         - make  # [unix]
         - {{ compiler('c') }}
         - {{ compiler('cxx') }}
-        # pyarrow does not require nvcc but it needs to link against libraries in arrow-cpp=*=*cuda
+        # pyarrow does not require nvcc but it needs to link against libraries in libarrow=*=*cuda
         - {{ compiler("cuda") }}  # [cuda_compiler_version != "None"]
       host:
-        - {{ pin_subpackage('arrow-cpp', exact=True) }}
+        - {{ pin_subpackage('libarrow', exact=True) }}
         - {{ pin_subpackage('pyarrow', exact=True) }}
+        - clangdev {{ llvm_version }}
+        - llvmdev {{ llvm_version }}
         - cython
         - numpy
-        - python
         - openssl
+        - python
         - setuptools
         - setuptools_scm
-        - six
       run:
         - {{ pin_subpackage('pyarrow', exact=True) }}
         - python
       run_constrained:
-        - arrow-cpp-proc * {{ build_ext }}
-        - cudatoolkit >=9.2  # [cuda_compiler_version != "None"]
+        - apache-arrow-proc =*={{ build_ext }}
+        - cudatoolkit >={{ cuda_compiler_version_min }}  # [cuda_compiler_version != "None"]
+
+    test:
+      requires:
+        - pytest
+        - pytest-lazy-fixture
+        - backports.zoneinfo  # [py<39]
+        - cffi
+        - cloudpickle
+        - cython
+        - fastparquet
+        - fsspec
+        - hypothesis
+        - pandas
+        # not all arches available in conda-forge; osx-arm not tested anyway
+        - pytorch *           # [unix and not ppc64le and py<311]
+        - scipy
+        # we're not building java bindings
+        # - jpype1
+        # doesn't get picked up correctly
+        # - libhdfs3
+        # causes segfaults
+        # - sparse
+        # not rebuilt for grpc 1.49 yet
+        # - tensorflow
+      source_files:
+        - testing/data
+      commands:
+        - cd ${SP_DIR}/pyarrow/tests                        # [unix]
+        - cd %SP_DIR%\pyarrow\tests                         # [win]
+        - export ARROW_TEST_DATA="${SRC_DIR}/testing/data"  # [unix]
+        - set "ARROW_TEST_DATA=%SRC_DIR%\testing\data"      # [win]
+
+        {% set tests_to_skip = "_not_a_real_test" %}
+        # we do not have GPUs in CI --> cannot test cuda
+        {% set tests_to_skip = tests_to_skip + " or test_cuda" %}
+        # skip tests that raise SIGINT and crash the test suite
+        {% set tests_to_skip = tests_to_skip + " or (test_csv and test_cancellation)" %}  # [linux]
+        {% set tests_to_skip = tests_to_skip + " or (test_flight and test_interrupt)" %}  # [linux]
+        # skip tests that make invalid(-for-conda) assumptions about the compilers setup
+        {% set tests_to_skip = tests_to_skip + " or test_cython_api" %}                   # [unix]
+        {% set tests_to_skip = tests_to_skip + " or test_visit_strings" %}                # [unix]
+        # skip tests that cannot succeed in emulation
+        {% set tests_to_skip = tests_to_skip + " or test_debug_memory_pool_disabled" %}   # [aarch64 or ppc64le]
+        {% set tests_to_skip = tests_to_skip + " or test_env_var_io_thread_count" %}      # [aarch64 or ppc64le]
+        # vvvvvvv TESTS THAT SHOULDN'T HAVE TO BE SKIPPED vvvvvvv
+        # failing on linux with "OSError: Could not connect to socket /tmp/[...]/plasma.sock"
+        {% set tests_to_skip = tests_to_skip + " or test_plasma" %}                       # [linux]
+        # "Unsupported backend 'nonexistent' specified in ARROW_DEFAULT_MEMORY_POOL"
+        {% set tests_to_skip = tests_to_skip + " or (test_memory and test_env_var)" %}    # [unix]
+        # test is broken; header is in $PREFIX, not $SP_DIR
+        {% set tests_to_skip = tests_to_skip + " or (test_misc and test_get_include)" %}  # [unix]
+        # ^^^^^^^ TESTS THAT SHOULDN'T HAVE TO BE SKIPPED ^^^^^^^
+
+        # crossbow CI: reduce to one python version, except on (unemulated) linux, where it's fast enough
+        - pytest -v -rfEs -k "not ({{ tests_to_skip }})"  # [linux64 or ((py==310) and not ppc64le)]
+        # NOTE: test suite is skipped on ppc due to bugs in QEMU code that cause
+        # CI to fail, even though the tests would run through on native hardware
 
     about:
       home: http://github.com/apache/arrow
@@ -283,11 +395,6 @@ outputs:
         - LICENSE.txt
       summary: Python test files for Apache Arrow
 
-    test:
-      commands:
-        - test -f ${SP_DIR}/pyarrow/tests/test_array.py             # [unix]
-        - if not exist %SP_DIR%/pyarrow/tests/test_array.py exit 1  # [win]
-
 about:
   home: http://github.com/apache/arrow
   license: Apache-2.0
@@ -311,3 +418,5 @@ extra:
     - pearu
     - nealrichardson
     - jakirkham
+    - h-vetinari
+  feedstock-name: arrow-cpp
diff --git a/dev/tasks/conda-recipes/arrow-cpp/test_read_parquet.py b/dev/tasks/conda-recipes/arrow-cpp/test_read_parquet.py
new file mode 100644
index 00000000000..5f76a4e22c9
--- /dev/null
+++ b/dev/tasks/conda-recipes/arrow-cpp/test_read_parquet.py
@@ -0,0 +1,5 @@
+import pyarrow as pa
+import pyarrow.parquet as pq
+
+table = pa.Table.from_pydict({"a": [1, 2]})
+pq.write_table(table, "test.parquet")
diff --git a/dev/tasks/conda-recipes/azure.clean.yml b/dev/tasks/conda-recipes/azure.clean.yml
index 84f167812b2..b68f3c93ef3 100644
--- a/dev/tasks/conda-recipes/azure.clean.yml
+++ b/dev/tasks/conda-recipes/azure.clean.yml
@@ -1,3 +1,20 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
 jobs:
 - job: linux
   pool:
@@ -17,12 +34,12 @@ jobs:
     displayName: Install requirements
 
   - script: |
-      {% if arrow.branch == 'master' %}
+      {% if arrow.is_default_branch() %}
       mkdir -p $HOME/.continuum/anaconda-client/tokens/
       echo $(CROSSBOW_ANACONDA_TOKEN) > $HOME/.continuum/anaconda-client/tokens/https%3A%2F%2Fapi.anaconda.org.token
       {% endif %}
       eval "$(conda shell.bash hook)"
       conda activate base
-      python3 arrow/dev/tasks/conda-recipes/clean.py {% if arrow.branch == 'master' %}FORCE{% endif %}
+      python3 arrow/dev/tasks/conda-recipes/clean.py {% if arrow.is_default_branch() %}FORCE{% endif %}
     displayName: Delete outdated packages
 
diff --git a/dev/tasks/conda-recipes/azure.linux.yml b/dev/tasks/conda-recipes/azure.linux.yml
index c05d284d25f..b9a54647cc5 100755
--- a/dev/tasks/conda-recipes/azure.linux.yml
+++ b/dev/tasks/conda-recipes/azure.linux.yml
@@ -34,5 +34,5 @@ jobs:
       CI=azure arrow/dev/tasks/conda-recipes/run_docker_build.sh $(pwd)/build_artifacts
     displayName: Run docker build
 
-  {{ macros.azure_upload_releases("build_artifacts/*/*.tar.bz2") }}
-  {{ macros.azure_upload_anaconda("build_artifacts/*/*.tar.bz2") }}
+  {{ macros.azure_upload_releases("build_artifacts/*/*.conda") }}
+  {{ macros.azure_upload_anaconda("build_artifacts/*/*.conda") }}
diff --git a/dev/tasks/conda-recipes/azure.osx.yml b/dev/tasks/conda-recipes/azure.osx.yml
index 505a17cebee..8b1db992ec7 100755
--- a/dev/tasks/conda-recipes/azure.osx.yml
+++ b/dev/tasks/conda-recipes/azure.osx.yml
@@ -3,7 +3,7 @@
 jobs:
 - job: osx
   pool:
-    vmImage: macOS-10.15
+    vmImage: macOS-11
   timeoutInMinutes: 360
   variables:
     CONFIG: {{ config }}
@@ -71,6 +71,7 @@ jobs:
       if [ ! -z "${R_CONFIG}" ]; then
         conda build r-arrow \
           -m ./.ci_support/r/${R_CONFIG}.yaml \
+          ${EXTRA_CB_OPTIONS:-} \
           --output-folder ./build_artifacts
       fi
     workingDirectory: arrow/dev/tasks/conda-recipes
@@ -80,5 +81,5 @@ jobs:
      sudo mv /usr/local/conda_mangled/* /usr/local/
     displayName: Unmangle homebrew
 
-  {{ macros.azure_upload_releases("arrow/dev/tasks/conda-recipes/build_artifacts/osx-*/*.tar.bz2") }}
-  {{ macros.azure_upload_anaconda("arrow/dev/tasks/conda-recipes/build_artifacts/osx-*/*.tar.bz2") }}
+  {{ macros.azure_upload_releases("arrow/dev/tasks/conda-recipes/build_artifacts/osx-*/*.conda") }}
+  {{ macros.azure_upload_anaconda("arrow/dev/tasks/conda-recipes/build_artifacts/osx-*/*.conda") }}
diff --git a/dev/tasks/conda-recipes/azure.win.yml b/dev/tasks/conda-recipes/azure.win.yml
index c8c534c4732..95c5fc10056 100755
--- a/dev/tasks/conda-recipes/azure.win.yml
+++ b/dev/tasks/conda-recipes/azure.win.yml
@@ -13,28 +13,6 @@ jobs:
     UPLOAD_PACKAGES: False
 
   steps:
-    - script: |
-        choco install vcpython27 -fdv -y --debug
-      condition: contains(variables['CONFIG'], 'vs2008')
-      displayName: Install vcpython27.msi (if needed)
-
-    - powershell: |
-        Set-PSDebug -Trace 1
-        $batchcontent = @"
-        ECHO ON
-        SET vcpython=C:\Program Files (x86)\Common Files\Microsoft\Visual C++ for Python\9.0
-        DIR "%vcpython%"
-        CALL "%vcpython%\vcvarsall.bat" %*
-        "@
-        $batchDir = "C:\Program Files (x86)\Common Files\Microsoft\Visual C++ for Python\9.0\VC"
-        $batchPath = "$batchDir" + "\vcvarsall.bat"
-        New-Item -Path $batchPath -ItemType "file" -Force
-        Set-Content -Value $batchcontent -Path $batchPath
-        Get-ChildItem -Path $batchDir
-        Get-ChildItem -Path ($batchDir + '\..')
-      condition: contains(variables['CONFIG'], 'vs2008')
-      displayName: Patch vs2008 (if needed)
-
     - task: PythonScript@0
       displayName: 'Download Miniforge'
       inputs:
@@ -48,6 +26,7 @@ jobs:
     - script: |
         start /wait "" %BUILD_ARTIFACTSTAGINGDIRECTORY%\Miniforge.exe /InstallationType=JustMe /RegisterPython=0 /S /D=C:\Miniforge
       displayName: Install Miniforge
+
     - powershell: Write-Host "##vso[task.prependpath]C:\Miniforge\Scripts"
       displayName: Add conda to PATH
 
@@ -83,7 +62,6 @@ jobs:
       workingDirectory: arrow\dev\tasks\conda-recipes
       env:
         PYTHONUNBUFFERED: 1
-      condition: not(contains(variables['CONFIG'], 'vs2008'))
 
     - script: |
         call activate base
@@ -94,5 +72,5 @@ jobs:
         PYTHONUNBUFFERED: 1
       condition: contains(variables['R_CONFIG'], 'win')
 
-    {{ macros.azure_upload_releases("D:\\bld\\win-64\\*.tar.bz2")|indent(2) }}
-    {{ macros.azure_upload_anaconda("D:\\bld\\win-64\\*.tar.bz2")|indent(2) }}
+    {{ macros.azure_upload_releases("D:\\bld\\win-64\\*.conda")|indent(2) }}
+    {{ macros.azure_upload_anaconda("D:\\bld\\win-64\\*.conda")|indent(2) }}
diff --git a/dev/tasks/conda-recipes/build_steps.sh b/dev/tasks/conda-recipes/build_steps.sh
index dfc468c0e44..b6bd1770c15 100755
--- a/dev/tasks/conda-recipes/build_steps.sh
+++ b/dev/tasks/conda-recipes/build_steps.sh
@@ -10,18 +10,19 @@
 # benefit from the improvement.
 
 set -xeuo pipefail
+export FEEDSTOCK_ROOT="${FEEDSTOCK_ROOT:-/home/conda/feedstock_root}"
 
 output_dir=${1}
 
 export PYTHONUNBUFFERED=1
-export FEEDSTOCK_ROOT="${FEEDSTOCK_ROOT:-/home/conda/feedstock_root}"
+export RECIPE_ROOT="${RECIPE_ROOT:-/home/conda/recipe_root}"
 export CI_SUPPORT="${FEEDSTOCK_ROOT}/.ci_support"
 export CONFIG_FILE="${CI_SUPPORT}/${CONFIG}.yaml"
 
 cat >~/.condarc <<CONDARC
 
 conda-build:
- root-dir: ${output_dir}
+  root-dir: ${output_dir}
 
 CONDARC
 
@@ -29,12 +30,16 @@ mamba install --update-specs --yes --quiet "conda-forge-ci-setup=3" conda-build
 mamba update --update-specs --yes --quiet "conda-forge-ci-setup=3" conda-build pip boa -c conda-forge
 
 # set up the condarc
-setup_conda_rc "${FEEDSTOCK_ROOT}" "${FEEDSTOCK_ROOT}" "${CONFIG_FILE}"
+setup_conda_rc "${FEEDSTOCK_ROOT}" "${RECIPE_ROOT}" "${CONFIG_FILE}"
 
 source run_conda_forge_build_setup
 
 # make the build number clobber
-make_build_number "${FEEDSTOCK_ROOT}" "${FEEDSTOCK_ROOT}" "${CONFIG_FILE}"
+make_build_number "${FEEDSTOCK_ROOT}" "${RECIPE_ROOT}" "${CONFIG_FILE}"
+
+if [[ "${HOST_PLATFORM}" != "${BUILD_PLATFORM}" ]] && [[ "${HOST_PLATFORM}" != linux-* ]] && [[ "${BUILD_WITH_CONDA_DEBUG:-0}" != 1 ]]; then
+    EXTRA_CB_OPTIONS="${EXTRA_CB_OPTIONS:-} --no-test"
+fi
 
 export CONDA_BLD_PATH="${output_dir}"
 
@@ -43,13 +48,15 @@ conda mambabuild \
     "${FEEDSTOCK_ROOT}/parquet-cpp" \
     -m "${CI_SUPPORT}/${CONFIG}.yaml" \
     --clobber-file "${CI_SUPPORT}/clobber_${CONFIG}.yaml" \
-    --output-folder "${output_dir}"
+    --output-folder "${output_dir}" \
+    ${EXTRA_CB_OPTIONS:-}
 
 if [ ! -z "${R_CONFIG:-}" ]; then
   conda mambabuild \
       "${FEEDSTOCK_ROOT}/r-arrow" \
       -m "${CI_SUPPORT}/r/${R_CONFIG}.yaml" \
-      --output-folder "${output_dir}"
+      --output-folder "${output_dir}" \
+      ${EXTRA_CB_OPTIONS:-}
 fi
 
 
diff --git a/dev/tasks/conda-recipes/clean.py b/dev/tasks/conda-recipes/clean.py
index 89874e0521d..3f30a8929ee 100644
--- a/dev/tasks/conda-recipes/clean.py
+++ b/dev/tasks/conda-recipes/clean.py
@@ -21,37 +21,56 @@
 ]
 
 
+class CommandFailedException(Exception):
+
+    def __init__(self, cmdline, output):
+        self.cmdline = cmdline
+        self.output = output
+
+
 def run_command(cmdline, **kwargs):
     kwargs.setdefault('capture_output', True)
     p = subprocess.run(cmdline, **kwargs)
     if p.returncode != 0:
         print(f"Command {cmdline} returned non-zero exit status "
               f"{p.returncode}", file=sys.stderr)
+        output = ""
         if p.stdout:
             print("Stdout was:\n" + "-" * 70, file=sys.stderr)
-            print(p.stdout.decode().rstrip(), file=sys.stderr)
+            output = p.stdout.decode().rstrip()
+            print(output, file=sys.stderr)
             print("-" * 70, file=sys.stderr)
         if p.stderr:
             print("Stderr was:\n" + "-" * 70, file=sys.stderr)
+            output = p.stderr.decode().rstrip()
             print(p.stderr.decode().rstrip(), file=sys.stderr)
             print("-" * 70, file=sys.stderr)
-        sys.exit(1)
+        raise CommandFailedException(cmdline=cmdline, output=output)
     return p.stdout
 
 
 def builds_to_delete(platform: str, to_delete: Set[str]) -> int:
-    pkgs_json = run_command(
-        [
-            "conda",
-            "search",
-            "--json",
-            "-c",
-            "arrow-nightlies",
-            "--override-channels",
-            "--subdir",
-            platform
-        ],
-    )
+    try:
+        pkgs_json = run_command(
+            [
+                "conda",
+                "search",
+                "--json",
+                "-c",
+                "arrow-nightlies",
+                "--override-channels",
+                "--subdir",
+                platform
+            ],
+        )
+    except CommandFailedException as ex:
+        # If the command failed due to no packages found, return
+        # 0 builds to delete.
+        if "PackagesNotFoundError" in ex.output:
+            return 0
+        else:
+            sys.exit(1)
+
     pkgs = json.loads(pkgs_json)
     num_builds = 0
 
diff --git a/dev/tasks/conda-recipes/r-arrow/bld.bat b/dev/tasks/conda-recipes/r-arrow/bld.bat
index a193ddc0a77..04d59f282d8 100644
--- a/dev/tasks/conda-recipes/r-arrow/bld.bat
+++ b/dev/tasks/conda-recipes/r-arrow/bld.bat
@@ -1,9 +1,14 @@
-bash %RECIPE_DIR%/build_win.sh
-IF %ERRORLEVEL% NEQ 0 exit 1
-cp %RECIPE_DIR%/configure.win r
-IF %ERRORLEVEL% NEQ 0 exit 1
-cp %RECIPE_DIR%/install.libs.R r/src
-IF %ERRORLEVEL% NEQ 0 exit 1
-set "MAKEFLAGS=-j%CPU_COUNT%"
-"%R%" CMD INSTALL --build r
-IF %ERRORLEVEL% NEQ 0 exit 1
+@echo on
+
+bash %RECIPE_DIR%/build_win.sh
+IF %ERRORLEVEL% NEQ 0 exit 1
+
+cp %RECIPE_DIR%/configure.win r
+IF %ERRORLEVEL% NEQ 0 exit 1
+
+cp %RECIPE_DIR%/install.libs.R r/src
+IF %ERRORLEVEL% NEQ 0 exit 1
+
+set "MAKEFLAGS=-j%CPU_COUNT%"
+"%R%" CMD INSTALL --build r
+IF %ERRORLEVEL% NEQ 0 exit 1
diff --git a/dev/tasks/conda-recipes/r-arrow/build.sh b/dev/tasks/conda-recipes/r-arrow/build.sh
old mode 100644
new mode 100755
index e868189a21f..340b2196a2c
--- a/dev/tasks/conda-recipes/r-arrow/build.sh
+++ b/dev/tasks/conda-recipes/r-arrow/build.sh
@@ -1,3 +1,16 @@
-#!/usr/bin/env bash
+#!/bin/bash
+set -ex
+
 export DISABLE_AUTOBREW=1
-$R CMD INSTALL --build r/.
+
+# arrow uses C++17
+export ARROW_R_CXXFLAGS="${ARROW_R_CXXFLAGS} -std=c++17"
+export LIBARROW_BUILD=false
+
+if [[ "${target_platform}" == osx-* ]]; then
+    # See https://conda-forge.org/docs/maintainer/knowledge_base.html#newer-c-features-with-old-sdk
+    export ARROW_R_CXXFLAGS="${ARROW_R_CXXFLAGS} -D_LIBCPP_DISABLE_AVAILABILITY"
+fi
+
+# ${R_ARGS} necessary to support cross-compilation
+${R} CMD INSTALL --build r/. ${R_ARGS}
diff --git a/dev/tasks/conda-recipes/r-arrow/build_win.sh b/dev/tasks/conda-recipes/r-arrow/build_win.sh
index 22c07d6e056..0c9a85ce394 100755
--- a/dev/tasks/conda-recipes/r-arrow/build_win.sh
+++ b/dev/tasks/conda-recipes/r-arrow/build_win.sh
@@ -1,8 +1,7 @@
-#!/usr/bin/env bash
+#!/bin/bash
 
 set -exuo pipefail
 
-
 # Rename arrow.dll to lib_arrow.dll to avoid conflicts with the arrow-cpp arrow.dll
 sed -i -e 's/void R_init_arrow/__declspec(dllexport) void R_init_lib_arrow/g' r/src/arrowExports.cpp
 sed -i -e 's/useDynLib(arrow/useDynLib(lib_arrow/g' r/NAMESPACE
diff --git a/dev/tasks/conda-recipes/r-arrow/configure.win b/dev/tasks/conda-recipes/r-arrow/configure.win
index 173a129b3bf..fb16a810b8f 100755
--- a/dev/tasks/conda-recipes/r-arrow/configure.win
+++ b/dev/tasks/conda-recipes/r-arrow/configure.win
@@ -4,5 +4,5 @@ set -euxo pipefail
 
 echo "PKG_CPPFLAGS=-DNDEBUG -I\"${LIBRARY_PREFIX}/include\" -I\"${PREFIX}/include\" -DARROW_R_WITH_PARQUET -DARROW_R_WITH_DATASET -DARROW_R_WITH_S3 -DARROW_R_WITH_JSON" > src/Makevars.win
 echo "PKG_CXXFLAGS=\$(CXX_VISIBILITY)" >> src/Makevars.win
-echo 'CXX_STD=CXX11' >> src/Makevars.win
+echo 'CXX_STD=CXX17' >> src/Makevars.win
 echo "PKG_LIBS=-L\"${LIBRARY_PREFIX}/lib\" -larrow_dataset -lparquet -larrow" >> src/Makevars.win
diff --git a/dev/tasks/conda-recipes/r-arrow/meta.yaml b/dev/tasks/conda-recipes/r-arrow/meta.yaml
index 1a906f34628..3d053a781b0 100644
--- a/dev/tasks/conda-recipes/r-arrow/meta.yaml
+++ b/dev/tasks/conda-recipes/r-arrow/meta.yaml
@@ -11,7 +11,7 @@ source:
 
 build:
   merge_build_host: true  # [win]
-  number: 1
+  number: 0
   rpaths:
     - lib/R/lib/
     - lib/
@@ -25,7 +25,6 @@ requirements:
     - r-purrr                    # [build_platform != target_platform]
     - r-rlang                    # [build_platform != target_platform]
     - r-tidyselect               # [build_platform != target_platform]
-    - python 3.9                 # [build_platform != target_platform]
     - {{ compiler('c') }}        # [not win]
     - {{ compiler('cxx') }}      # [not win]
     - {{ compiler('r_clang') }}  # [win]
@@ -38,8 +37,8 @@ requirements:
   host:
     # Needs to be here, otherwise merge_build_host runs into issues
     - pkg-config  # [win]
+    - libarrow {{ version }}
     - r-base
-    - arrow-cpp {{ version }}
     - r-r6
     - r-cpp11
     - r-assertthat
diff --git a/dev/tasks/conda-recipes/run_docker_build.sh b/dev/tasks/conda-recipes/run_docker_build.sh
index 7645c43e2fa..b5566cdb95e 100755
--- a/dev/tasks/conda-recipes/run_docker_build.sh
+++ b/dev/tasks/conda-recipes/run_docker_build.sh
@@ -16,6 +16,7 @@ build_dir=${1}
 THISDIR="$( cd "$( dirname "$0" )" >/dev/null && pwd )"
 ARROW_ROOT=$(cd "$THISDIR/../../.."; pwd;)
 FEEDSTOCK_ROOT=$THISDIR
+RECIPE_ROOT=$THISDIR
 
 docker info
 
@@ -64,6 +65,7 @@ docker run ${DOCKER_RUN_ARGS} \
            -v "${ARROW_ROOT}":/arrow:rw,z \
            -v "${build_dir}":/build:rw \
            -e FEEDSTOCK_ROOT="/arrow/dev/tasks/conda-recipes" \
+           -e RECIPE_ROOT="/arrow/dev/tasks/conda-recipes" \
            -e CONFIG \
            -e R_CONFIG \
            -e HOST_USER_ID \
diff --git a/dev/tasks/docker-tests/azure.linux.yml b/dev/tasks/docker-tests/azure.linux.yml
index db310fd05ee..be03957e925 100644
--- a/dev/tasks/docker-tests/azure.linux.yml
+++ b/dev/tasks/docker-tests/azure.linux.yml
@@ -30,12 +30,6 @@ jobs:
   {% endif %}
 
   steps:
-  - task: DockerInstaller@0
-    displayName: Docker Installer
-    inputs:
-      dockerVersion: 17.09.0-ce
-      releaseType: stable
-
   - task: UsePythonVersion@0
     inputs:
       versionSpec: '3.8'
@@ -59,6 +53,8 @@ jobs:
         {{ image }} \
         {{ command|default("") }}
     displayName: Execute Docker Build
+    env:
+    {{ macros.azure_set_sccache_envvars()|indent(4) }}
 
   {% if post_script is defined %}
   - script: |
diff --git a/dev/tasks/docker-tests/github.cuda.yml b/dev/tasks/docker-tests/github.cuda.yml
new file mode 100644
index 00000000000..b1b21c3e663
--- /dev/null
+++ b/dev/tasks/docker-tests/github.cuda.yml
@@ -0,0 +1,48 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+{% import 'macros.jinja' as macros with context %}
+
+{{ macros.github_header() }}
+
+jobs:
+  test:
+    name: |
+      Docker Test {{ flags|default("") }} {{ image }} {{ command|default("") }}
+    runs-on: ['self-hosted', 'cuda'] 
+{{ macros.github_set_env(env) }}
+    steps:
+      {{ macros.github_checkout_arrow(fetch_depth=fetch_depth|default(1))|indent }}
+      # python 3.8 is installed on the runner, no need to install
+      - name: Install archery
+        run: python -m pip install -e arrow/dev/archery[docker]
+      - name: Execute Docker Build
+        shell: bash
+        env:
+        {{ macros.github_set_sccache_envvars()|indent(8) }}
+        run: |
+          archery docker run \
+            -e SETUPTOOLS_SCM_PRETEND_VERSION="{{ arrow.no_rc_version }}" \
+            {{ flags|default("") }} \
+            {{ image }} \
+            {{ command|default("") }}
+    {% if arrow.is_default_branch() %}
+      {{ macros.github_login_dockerhub()|indent }}
+      - name: Push Docker Image
+        shell: bash
+        run: archery docker push {{ image }}
+    {% endif %}
diff --git a/dev/tasks/docker-tests/github.linux.yml b/dev/tasks/docker-tests/github.linux.yml
index 41d54981047..30a6814895f 100644
--- a/dev/tasks/docker-tests/github.linux.yml
+++ b/dev/tasks/docker-tests/github.linux.yml
@@ -24,18 +24,15 @@ jobs:
     name: |
       Docker Test {{ flags|default("") }} {{ image }} {{ command|default("") }}
     runs-on: ubuntu-latest
-  {% if env is defined %}
-    env:
-    {% for key, value in env.items() %}
-      {{ key }}: "{{ value }}"
-    {% endfor %}
-  {% endif %}
+{{ macros.github_set_env(env) }}
     steps:
-      {{ macros.github_checkout_arrow(fetch_depth=fetch_depth if fetch_depth is defined else 1)|indent }}
+      {{ macros.github_checkout_arrow(fetch_depth=fetch_depth|default(1))|indent }}
       {{ macros.github_install_archery()|indent }}
 
       - name: Execute Docker Build
         shell: bash
+        env:
+        {{ macros.github_set_sccache_envvars()|indent(8) }}
         run: |
           archery docker run \
             -e SETUPTOOLS_SCM_PRETEND_VERSION="{{ arrow.no_rc_version }}" \
@@ -67,7 +64,7 @@ jobs:
           path: arrow/r/check/arrow.Rcheck/tests/testthat.Rout*
           if-no-files-found: ignore
 
-    {% if arrow.branch == 'master' %}
+    {% if arrow.is_default_branch() %}
       {{ macros.github_login_dockerhub()|indent }}
       - name: Push Docker Image
         shell: bash
diff --git a/dev/tasks/docs/github.linux.yml b/dev/tasks/docs/github.linux.yml
new file mode 100644
index 00000000000..ef2c2e9a2a0
--- /dev/null
+++ b/dev/tasks/docs/github.linux.yml
@@ -0,0 +1,63 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+{% import 'macros.jinja' as macros with context %}
+{% set pr_number = pr_number|replace("Unset", arrow.branch) %}
+{{ macros.github_header() }}
+
+jobs:
+  test:
+    name: Docs Preview 
+    runs-on: ubuntu-latest
+{{ macros.github_set_env(env) }}
+    steps:
+      {{ macros.github_checkout_arrow(fetch_depth=fetch_depth|default(1))|indent }}
+      {{ macros.github_install_archery()|indent }}
+
+      - name: Execute Docker Build
+        shell: bash
+        env:
+          ARROW_JAVA_SKIP_GIT_PLUGIN: true
+        run: |
+          archery docker run \
+            -e SETUPTOOLS_SCM_PRETEND_VERSION="{{ arrow.no_rc_version }}" \
+            {{ flags|default("") }} \
+            {{ image }} \
+            {{ command|default("") }}
+      - name: Checkout Crossbow
+        uses: actions/checkout@v3
+        with:
+          ref: {{ default_branch|default("master") }}
+          path: crossbow
+          fetch-depth: 1
+      - name: Prepare docs
+        run: |
+          # build files are created by the docker user
+          sudo chown -R ${USER}: build
+          # These are only used while generating the page
+          rm -rf build/docs/.doctrees
+      - name: Upload preview to S3
+        env:
+          {%- raw %}
+          AWS_ACCESS_KEY_ID: ${{ secrets.CROSSBOW_DOCS_AWS_ACCESS_KEY_ID }}
+          AWS_SECRET_ACCESS_KEY: ${{ secrets.CROSSBOW_DOCS_AWS_SECRET_ACCESS_KEY }}
+          AWS_DEFAULT_REGION: ${{ secrets.CROSSBOW_DOCS_S3_BUCKET_REGION }} 
+          BUCKET: ${{ secrets.CROSSBOW_DOCS_S3_BUCKET }}
+          {% endraw %}
+        run: |
+          aws s3 cp build/docs/ $BUCKET/pr_docs/{{ pr_number }}/ --recursive
+          echo ":open_book: You can find the preview here: http://crossbow.voltrondata.com/pr_docs/{{ pr_number }}" >> $GITHUB_STEP_SUMMARY
diff --git a/dev/tasks/fuzz-tests/github.oss-fuzz.yml b/dev/tasks/fuzz-tests/github.oss-fuzz.yml
index e49d73d8d11..d7cf5162668 100644
--- a/dev/tasks/fuzz-tests/github.oss-fuzz.yml
+++ b/dev/tasks/fuzz-tests/github.oss-fuzz.yml
@@ -23,12 +23,7 @@ jobs:
   test:
     name: OSS-Fuzz build test
     runs-on: ubuntu-latest
-  {% if env is defined %}
-    env:
-    {% for key, value in env.items() %}
-      {{ key }}: "{{ value }}"
-    {% endfor %}
-  {% endif %}
+{{ macros.github_set_env(env) }}
     steps:
       {{ macros.github_checkout_arrow()|indent }}
 
diff --git a/dev/tasks/homebrew-formulae/apache-arrow-glib.rb b/dev/tasks/homebrew-formulae/apache-arrow-glib.rb
index 520ff41aec4..8bc483c29cf 100644
--- a/dev/tasks/homebrew-formulae/apache-arrow-glib.rb
+++ b/dev/tasks/homebrew-formulae/apache-arrow-glib.rb
@@ -24,12 +24,12 @@
 # OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
 # OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
-# https://github.com/Homebrew/homebrew-core/blob/master/Formula/apache-arrow-glib.rb
+# https://github.com/Homebrew/homebrew-core/blob/-/Formula/apache-arrow-glib.rb
 
 class ApacheArrowGlib < Formula
   desc "GLib bindings for Apache Arrow"
   homepage "https://arrow.apache.org/"
-  url "https://www.apache.org/dyn/closer.lua?path=arrow/arrow-10.0.0-SNAPSHOT/apache-arrow-10.0.0-SNAPSHOT.tar.gz"
+  url "https://www.apache.org/dyn/closer.lua?path=arrow/arrow-11.0.0/apache-arrow-11.0.0.tar.gz"
   sha256 "9948ddb6d4798b51552d0dca3252dd6e3a7d0f9702714fc6f5a1b59397ce1d28"
   license "Apache-2.0"
   head "https://github.com/apache/arrow.git"
@@ -38,7 +38,6 @@ class ApacheArrowGlib < Formula
     formula "apache-arrow"
   end
 
-  depends_on "glib-utils" => :build
   depends_on "gobject-introspection" => :build
   depends_on "meson" => :build
   depends_on "ninja" => :build
diff --git a/dev/tasks/homebrew-formulae/apache-arrow.rb b/dev/tasks/homebrew-formulae/apache-arrow.rb
index edb86d659f4..96d1077b7cb 100644
--- a/dev/tasks/homebrew-formulae/apache-arrow.rb
+++ b/dev/tasks/homebrew-formulae/apache-arrow.rb
@@ -24,12 +24,12 @@
 # OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
 # OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
-# https://github.com/Homebrew/homebrew-core/blob/master/Formula/apache-arrow.rb
+# https://github.com/Homebrew/homebrew-core/blob/-/Formula/apache-arrow.rb
 
 class ApacheArrow < Formula
   desc "Columnar in-memory analytics layer designed to accelerate big data"
   homepage "https://arrow.apache.org/"
-  url "https://www.apache.org/dyn/closer.lua?path=arrow/arrow-10.0.0-SNAPSHOT/apache-arrow-10.0.0-SNAPSHOT.tar.gz"
+  url "https://www.apache.org/dyn/closer.lua?path=arrow/arrow-11.0.0/apache-arrow-11.0.0.tar.gz"
   sha256 "9948ddb6d4798b51552d0dca3252dd6e3a7d0f9702714fc6f5a1b59397ce1d28"
   license "Apache-2.0"
   head "https://github.com/apache/arrow.git"
@@ -45,7 +45,7 @@ class ApacheArrow < Formula
   depends_on "numpy"
   depends_on "openssl@1.1"
   depends_on "protobuf"
-  depends_on "python@3.9"
+  depends_on "python@3.10"
   depends_on "rapidjson"
   depends_on "re2"
   depends_on "snappy"
@@ -60,6 +60,8 @@ class ApacheArrow < Formula
   fails_with gcc: "5"
 
   def install
+    python = "python3.10"
+
     # https://github.com/Homebrew/homebrew-core/issues/76537
     ENV.runtime_cpu_detection if Hardware::CPU.intel?
 
@@ -70,17 +72,22 @@ def install
     # link against system libc++ instead of llvm provided libc++
     ENV.remove "HOMEBREW_LIBRARY_PATHS", Formula["llvm"].opt_lib
     args = %W[
+      -DARROW_COMPUTE=ON
+      -DARROW_CSV=ON
+      -DARROW_DATASET=ON
+      -DARROW_FILESYSTEM=ON
       -DARROW_FLIGHT=ON
       -DARROW_GANDIVA=ON
       -DARROW_GCS=ON
+      -DARROW_HDFS=ON
       -DARROW_INSTALL_NAME_RPATH=OFF
       -DARROW_JEMALLOC=ON
+      -DARROW_JSON=ON
       -DARROW_MIMALLOC=ON
       -DARROW_ORC=ON
       -DARROW_PARQUET=ON
       -DARROW_PLASMA=ON
       -DARROW_PROTOBUF_USE_SHARED=ON
-      -DARROW_PYTHON=ON
       -DARROW_S3=ON
       -DARROW_WITH_BROTLI=ON
       -DARROW_WITH_BZ2=ON
@@ -91,7 +98,7 @@ def install
       -DARROW_WITH_ZSTD=ON
       -DCMAKE_CXX_STANDARD=17
       -DCMAKE_FIND_PACKAGE_PREFER_CONFIG=TRUE
-      -DPython3_EXECUTABLE=#{Formula["python@3.9"].bin/"python3"}
+      -DPython3_EXECUTABLE=#{which(python)}
     ]
 
     mkdir "build" do
@@ -109,7 +116,7 @@ def install
         return 0;
       }
     EOS
-    system ENV.cxx, "test.cpp", "-std=c++11", "-I#{include}", "-L#{lib}", "-larrow", "-o", "test"
+    system ENV.cxx, "test.cpp", "-std=c++17", "-I#{include}", "-L#{lib}", "-larrow", "-o", "test"
     system "./test"
   end
 end
diff --git a/dev/tasks/homebrew-formulae/autobrew/apache-arrow-static.rb b/dev/tasks/homebrew-formulae/autobrew/apache-arrow-static.rb
new file mode 100644
index 00000000000..84206978f35
--- /dev/null
+++ b/dev/tasks/homebrew-formulae/autobrew/apache-arrow-static.rb
@@ -0,0 +1,98 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+# Cloned from https://github.com/autobrew/homebrew-core/blob/high-sierra/Formula/apache-arrow.rb
+# Upstream any relevant changes (dependencies, build args ...)
+
+class ApacheArrowStatic < Formula
+  desc "Columnar in-memory analytics layer designed to accelerate big data"
+  homepage "https://arrow.apache.org/"
+  url "https://www.apache.org/dyn/closer.lua?path=arrow/arrow-8.0.0.9000/apache-arrow-8.0.0.9000.tar.gz"
+  # Uncomment and update to test on a release candidate
+  # mirror "https://dist.apache.org/repos/dist/dev/arrow/apache-arrow-8.0.0-rc1/apache-arrow-8.0.0.tar.gz"
+  sha256 "9948ddb6d4798b51552d0dca3252dd6e3a7d0f9702714fc6f5a1b59397ce1d28"
+  head "https://github.com/apache/arrow.git"
+
+  bottle do
+    sha256 cellar: :any, arm64_big_sur: "ef89d21a110b89840cc6148add685d407e75bd633bc8f79625eb33d00e3694b4"
+    sha256 cellar: :any, big_sur:       "6fcb9f55d44eb61d295a8020e039a0622bdc044b220cfffef855f3e3ab8057a1"
+    sha256 cellar: :any, catalina:      "bf71b17766688077fb9b4e679f309742c16524015287dd3633758c679752c977"
+  end
+
+  depends_on "boost" => :build
+  depends_on "cmake" => :build
+  depends_on "aws-sdk-cpp-static"
+  depends_on "brotli"
+  depends_on "lz4"
+  depends_on "snappy"
+  depends_on "thrift"
+  depends_on "zstd"
+
+  conflicts_with "apache-arrow", because: "both install Arrow"
+
+  def install
+    ENV.cxx11
+    # https://github.com/Homebrew/homebrew-core/issues/94724
+    # https://issues.apache.org/jira/browse/ARROW-15664
+    ENV["HOMEBREW_OPTIMIZATION_LEVEL"] = "O2"
+
+    args = %W[
+      -DARROW_BUILD_SHARED=OFF
+      -DARROW_BUILD_UTILITIES=ON
+      -DARROW_COMPUTE=ON
+      -DARROW_CSV=ON
+      -DARROW_DATASET=ON
+      -DARROW_FILESYSTEM=ON
+      -DARROW_GCS=ON
+      -DARROW_JEMALLOC=ON
+      -DARROW_JSON=ON
+      -DARROW_MIMALLOC=ON
+      -DARROW_PARQUET=ON
+      -DARROW_S3=ON
+      -DARROW_VERBOSE_THIRDPARTY_BUILD=ON
+      -DARROW_WITH_BROTLI=ON
+      -DARROW_WITH_BZ2=ON
+      -DARROW_WITH_LZ4=ON
+      -DARROW_WITH_SNAPPY=ON
+      -DARROW_WITH_ZLIB=ON
+      -DARROW_WITH_ZSTD=ON
+      -DLZ4_HOME=#{Formula["lz4"].prefix}
+      -DPARQUET_BUILD_EXECUTABLES=ON
+      -DTHRIFT_HOME=#{Formula["thrift"].prefix}
+    ]
+
+    mkdir "build"
+    cd "build" do
+      system "cmake", "../cpp", *std_cmake_args, *args
+      system "make"
+      system "make", "install"
+    end
+  end
+
+  test do
+    (testpath/"test.cpp").write <<~EOS
+      #include "arrow/api.h"
+      int main(void) {
+        arrow::int64();
+        return 0;
+      }
+    EOS
+    system ENV.cxx, "test.cpp", "-std=c++17", "-I#{include}", "-L#{lib}", \
+      "-larrow", "-larrow_bundled_dependencies", "-o", "test"
+    system "./test"
+  end
+end
diff --git a/dev/tasks/homebrew-formulae/autobrew/apache-arrow.rb b/dev/tasks/homebrew-formulae/autobrew/apache-arrow.rb
index a4491a4cc24..f720b15624f 100644
--- a/dev/tasks/homebrew-formulae/autobrew/apache-arrow.rb
+++ b/dev/tasks/homebrew-formulae/autobrew/apache-arrow.rb
@@ -15,25 +15,25 @@
 # specific language governing permissions and limitations
 # under the License.
 
-# https://github.com/autobrew/homebrew-core/blob/master/Formula/apache-arrow.rb
+# https://github.com/autobrew/homebrew-core/blob/-/Formula/apache-arrow.rb
 class ApacheArrow < Formula
   desc "Columnar in-memory analytics layer designed to accelerate big data"
   homepage "https://arrow.apache.org/"
-  url "https://www.apache.org/dyn/closer.lua?path=arrow/arrow-9.0.0.9000/apache-arrow-9.0.0.9000.tar.gz"
+  url "https://www.apache.org/dyn/closer.lua?path=arrow/arrow-11.0.0/apache-arrow-11.0.0.tar.gz"
   sha256 "9948ddb6d4798b51552d0dca3252dd6e3a7d0f9702714fc6f5a1b59397ce1d28"
   head "https://github.com/apache/arrow.git"
 
   bottle do
     cellar :any
-    sha256 "a55211ba6f464681b7ca1b48defdad9cfbe1cf6fad8ff9ec875dc5a3c8f3c5ed" => :el_capitan_or_later
+    sha256 "9cd44700798638b5e3ee8774b3929f3fad815290d05572d1f39f01d6423eaad0" => :high_sierra
     root_url "https://autobrew.github.io/bottles"
   end
 
   # NOTE: if you add something here, be sure to add to PKG_LIBS in r/tools/autobrew
   depends_on "boost" => :build
-  depends_on "brotli"
   depends_on "cmake" => :build
   depends_on "aws-sdk-cpp"
+  depends_on "brotli"
   depends_on "lz4"
   depends_on "snappy"
   depends_on "thrift"
@@ -46,17 +46,15 @@ def install
       -DARROW_BUILD_UTILITIES=ON
       -DARROW_COMPUTE=ON
       -DARROW_CSV=ON
+      -DARROW_CXXFLAGS="-D_LIBCPP_DISABLE_AVAILABILITY"
       -DARROW_DATASET=ON
       -DARROW_FILESYSTEM=ON
       -DARROW_GCS=ON
-      -DARROW_HDFS=OFF
       -DARROW_JEMALLOC=ON
       -DARROW_JSON=ON
       -DARROW_MIMALLOC=ON
       -DARROW_PARQUET=ON
-      -DARROW_PYTHON=OFF
       -DARROW_S3=ON
-      -DARROW_USE_GLOG=OFF
       -DARROW_VERBOSE_THIRDPARTY_BUILD=ON
       -DARROW_WITH_BROTLI=ON
       -DARROW_WITH_BZ2=ON
@@ -64,9 +62,8 @@ def install
       -DARROW_WITH_SNAPPY=ON
       -DARROW_WITH_ZLIB=ON
       -DARROW_WITH_ZSTD=ON
-      -DCMAKE_UNITY_BUILD=OFF
-      -DPARQUET_BUILD_EXECUTABLES=ON
       -DLZ4_HOME=#{Formula["lz4"].prefix}
+      -DPARQUET_BUILD_EXECUTABLES=ON
       -DTHRIFT_HOME=#{Formula["thrift"].prefix}
     ]
 
@@ -86,7 +83,8 @@ def install
         return 0;
       }
     EOS
-    system ENV.cxx, "test.cpp", "-std=c++11", "-I#{include}", "-L#{lib}", "-larrow", "-o", "test"
+    system ENV.cxx, "test.cpp", "-std=c++17", "-I#{include}", "-L#{lib}", \
+      "-larrow", "-larrow_bundled_dependencies", "-o", "test"
     system "./test"
   end
 end
diff --git a/dev/tasks/homebrew-formulae/github.macos.yml b/dev/tasks/homebrew-formulae/github.macos.yml
index 3abb1d45252..fd694737573 100644
--- a/dev/tasks/homebrew-formulae/github.macos.yml
+++ b/dev/tasks/homebrew-formulae/github.macos.yml
@@ -22,7 +22,7 @@
 jobs:
   homebrew:
     name: "Homebrew"
-    runs-on: macOS-latest
+    runs-on: macos-latest
     steps:
       {{ macros.github_checkout_arrow()|indent }}
 
diff --git a/dev/tasks/java-jars/github.yml b/dev/tasks/java-jars/github.yml
index 376ba78fe14..1a5439a54b3 100644
--- a/dev/tasks/java-jars/github.yml
+++ b/dev/tasks/java-jars/github.yml
@@ -22,38 +22,70 @@
 jobs:
 
   build-cpp-ubuntu:
-    name: Build C++ Libs Ubuntu
+    name: Build C++ libraries Ubuntu
     runs-on: ubuntu-latest
     steps:
       {{ macros.github_checkout_arrow()|indent }}
       {{ macros.github_install_archery()|indent }}
-      - name: Build C++ Libs
-        run: archery docker run java-jni-manylinux-2014
+      - name: Build C++ libraries
+        env:
+        {{ macros.github_set_sccache_envvars()|indent(8) }}
+        run: |
+          archery docker run \
+            -e ARROW_JAVA_BUILD=OFF \
+            -e ARROW_JAVA_TEST=OFF \
+            java-jni-manylinux-2014
       - name: Compress into single artifact to keep directory structure
         run: tar -cvzf arrow-shared-libs-linux.tar.gz arrow/java-dist/
-      - name: Upload Artifacts
+      - name: Upload artifacts
         uses: actions/upload-artifact@v2
         with:
           name: ubuntu-shared-lib
           path: arrow-shared-libs-linux.tar.gz
-    {% if arrow.branch == 'master' %}
+    {% if arrow.is_default_branch() %}
       {{ macros.github_login_dockerhub()|indent }}
-      - name: Push Docker Image
+      - name: Push Docker image
         shell: bash
         run: archery docker push java-jni-manylinux-2014
     {% endif %}
 
   build-cpp-macos:
-    name: Build C++ Libs MacOS
-    runs-on: macos-latest
+    {% set arch = '${{ matrix.platform.arch }}' %}
+    name: Build C++ libraries macOS {{ arch }}
+    runs-on: {{ '${{ matrix.platform.runs_on }}' }}
+    strategy:
+      fail-fast: false
+      matrix:
+        platform:
+          - { runs_on: ["macos-latest"], arch: "x86_64"}
     env:
       MACOSX_DEPLOYMENT_TARGET: "10.13"
     steps:
       {{ macros.github_checkout_arrow()|indent }}
-      {{ macros.github_install_archery()|indent }}
-      - name: Install Dependencies
+      - name: Set up Python
+        if: |
+          !contains(matrix.platform.runs_on, 'self-hosted')
+        uses: actions/setup-python@v4
+        with:
+          cache: 'pip'
+          python-version: 3.8
+      - name: Install Archery
+        shell: bash
+        run: pip install -e arrow/dev/archery[all]
+      - name: Install dependencies
         run: |
-          brew install --overwrite git
+          # We want to use llvm@14 to avoid shared z3
+          # dependency. llvm@14 doesn't depend on z3 and llvm depends
+          # on z3. And Homebrew's z3 provides only shared library. It
+          # doesn't provides static z3 because z3's CMake doesn't accept
+          # building both shared and static libraries at once.
+          # See also: Z3_BUILD_LIBZ3_SHARED in
+          # https://github.com/Z3Prover/z3/blob/master/README-CMake.md
+          #
+          # If llvm is installed, Apache Arrow C++ uses llvm rather than
+          # llvm@14 because llvm is newer than llvm@14.
+          brew uninstall llvm || :
+
           brew bundle --file=arrow/cpp/Brewfile
           # We want to link aws-sdk-cpp statically but Homebrew's
           # aws-sdk-cpp provides only shared library. If we have
@@ -61,59 +93,118 @@ jobs:
           # aws-sdk-cpp and bundled aws-sdk-cpp. We uninstall Homebrew's
           # aws-sdk-cpp to ensure using only bundled aws-sdk-cpp.
           brew uninstall aws-sdk-cpp
-      - name: Build C++ Libs
+          # We want to use bundled RE2 for static linking. If
+          # Homebrew's RE2 is installed, its header file may be used.
+          # We uninstall Homebrew's RE2 to ensure using bundled RE2.
+          brew uninstall grpc || : # gRPC depends on RE2
+          brew uninstall re2 || :
+
+          brew bundle --file=arrow/java/Brewfile
+      - name: Build C++ libraries
+        env:
+        {{ macros.github_set_sccache_envvars()|indent(8) }}
         run: |
+          echo "sccache is " $SCCACHE_BUCKET
           set -e
+          # make brew Java available to CMake
+          if [ "{{ arch }}" = "aarch_64" ]; then
+            export JAVA_HOME=$(brew --prefix openjdk@11)/libexec/openjdk.jdk/Contents/Home
+          fi
           arrow/ci/scripts/java_jni_macos_build.sh \
             $GITHUB_WORKSPACE/arrow \
             $GITHUB_WORKSPACE/arrow/cpp-build \
             $GITHUB_WORKSPACE/arrow/java-dist
       - name: Compress into single artifact to keep directory structure
-        run: tar -cvzf arrow-shared-libs-macos.tar.gz arrow/java-dist/
-      - name: Upload Artifacts
+        run: tar -cvzf arrow-shared-libs-macos-{{ arch }}.tar.gz arrow/java-dist/
+      - name: Upload artifacts
         uses: actions/upload-artifact@v2
         with:
-          name: macos-shared-lib
-          path: arrow-shared-libs-macos.tar.gz
+          name: macos-shared-lib-{{ arch }}
+          path: arrow-shared-libs-macos-{{ arch }}.tar.gz
+
+  build-cpp-windows:
+    name: Build C++ libraries Windows
+    runs-on: windows-2019
+    steps:
+      {{ macros.github_checkout_arrow()|indent }}
+      - name: Set up Java
+        uses: actions/setup-java@v3
+        with:
+          java-version: '11'
+          distribution: 'temurin'
+      - name: Download Timezone Database
+        shell: bash
+        run: arrow/ci/scripts/download_tz_database.sh
+      - name: Install sccache
+        shell: bash
+        run: arrow/ci/scripts/install_sccache.sh pc-windows-msvc $(pwd)/sccache
+      - name: Build C++ libraries
+        shell: cmd
+        env:
+        {{ macros.github_set_sccache_envvars()|indent(8) }}
+        run: |
+          call "C:\Program Files (x86)\Microsoft Visual Studio\2019\Enterprise\VC\Auxiliary\Build\vcvarsall.bat" x64
+          REM For ORC
+          set TZDIR=/c/msys64/usr/share/zoneinfo
+          bash -c "arrow/ci/scripts/java_jni_windows_build.sh $(pwd)/arrow $(pwd)/arrow/cpp-build $(pwd)/arrow/java-dist"
+      - name: Compress into single artifact to keep directory structure
+        shell: bash
+        run: tar -cvzf arrow-shared-libs-windows.tar.gz arrow/java-dist/
+      - name: Upload artifacts
+        uses: actions/upload-artifact@v2
+        with:
+          name: windows-shared-lib
+          path: arrow-shared-libs-windows.tar.gz
 
   package-jars:
-    name: Build Jar Files
+    name: Build jar files
     runs-on: macos-latest
-    needs: [build-cpp-macos, build-cpp-ubuntu]
+    needs:
+      - build-cpp-ubuntu
+      - build-cpp-macos
+      - build-cpp-windows
     steps:
       {{ macros.github_checkout_arrow(fetch_depth=0)|indent }}
-      - name: Download Linux C++ Libraries
-        uses: actions/download-artifact@v2
+      - name: Download Libraries
+        uses: actions/download-artifact@v3
         with:
-          name: ubuntu-shared-lib
-      - name: Download MacOS C++ Library
-        uses: actions/download-artifact@v2
-        with:
-          name: macos-shared-lib
-      - name: Descompress artifacts
+          path: artifacts
+      - name: Decompress artifacts
         run: |
+          mv artifacts/*/*.tar.gz .
           tar -xvzf arrow-shared-libs-linux.tar.gz
-          tar -xvzf arrow-shared-libs-macos.tar.gz
-      - name: Test that Shared Libraries Exist
+          tar -xvzf arrow-shared-libs-macos-x86_64.tar.gz
+          tar -xvzf arrow-shared-libs-windows.tar.gz
+      - name: Test that shared libraries exist
         run: |
           set -x
-          test -f arrow/java-dist/libarrow_cdata_jni.dylib
-          test -f arrow/java-dist/libarrow_dataset_jni.dylib
-          test -f arrow/java-dist/libgandiva_jni.dylib
-          test -f arrow/java-dist/libarrow_orc_jni.dylib
-          test -f arrow/java-dist/libarrow_cdata_jni.so
-          test -f arrow/java-dist/libarrow_dataset_jni.so
-          test -f arrow/java-dist/libarrow_orc_jni.so
-          test -f arrow/java-dist/libgandiva_jni.so
-      - name: Build Bundled Jar
+
+          test -f arrow/java-dist/x86_64/libarrow_cdata_jni.so
+          test -f arrow/java-dist/x86_64/libarrow_dataset_jni.so
+          test -f arrow/java-dist/x86_64/libarrow_orc_jni.so
+          test -f arrow/java-dist/x86_64/libgandiva_jni.so
+          test -f arrow/java-dist/x86_64/libplasma_java.so
+
+          test -f arrow/java-dist/x86_64/libarrow_cdata_jni.dylib
+          test -f arrow/java-dist/x86_64/libarrow_dataset_jni.dylib
+          test -f arrow/java-dist/x86_64/libarrow_orc_jni.dylib
+          test -f arrow/java-dist/x86_64/libgandiva_jni.dylib
+          test -f arrow/java-dist/x86_64/libplasma_java.dylib
+
+          test -f arrow/java-dist/x86_64/arrow_cdata_jni.dll
+          test -f arrow/java-dist/x86_64/arrow_dataset_jni.dll
+          test -f arrow/java-dist/x86_64/arrow_orc_jni.dll
+      - name: Build bundled jar
         run: |
           set -e
           pushd arrow/java
-          mvn versions:set -DnewVersion={{ arrow.no_rc_version }}
+          mvn versions:set -DnewVersion={{ arrow.no_rc_snapshot_version }}
           popd
           arrow/ci/scripts/java_full_build.sh \
             $GITHUB_WORKSPACE/arrow \
             $GITHUB_WORKSPACE/arrow/java-dist
       {{ macros.github_upload_releases(["arrow/java-dist/*.jar",
+                                        "arrow/java-dist/*.json",
                                         "arrow/java-dist/*.pom",
+                                        "arrow/java-dist/*.xml",
                                         "arrow/java-dist/*.zip"])|indent }}
diff --git a/dev/tasks/linux-packages/Rakefile b/dev/tasks/linux-packages/Rakefile
index 28fc37bb2a4..9634bd07f56 100644
--- a/dev/tasks/linux-packages/Rakefile
+++ b/dev/tasks/linux-packages/Rakefile
@@ -84,196 +84,18 @@ namespace :docker do
 end
 
 
-class LocalBinaryTask < BinaryTask
+class ApacheArrowLocalBinaryTask < LocalBinaryTask
   include Helper::ApacheArrow
 
   def initialize(packages)
-    @packages = packages
-    super()
-  end
-
-  def define
-    define_apt_test_task
-    define_yum_test_task
+    super(packages, File.expand_path(arrow_source_dir))
   end
 
   private
-  def latest_commit_time(git_directory)
-    cd(git_directory) do
-      return Time.iso8601(`git log -n 1 --format=%aI`.chomp).utc
-    end
-  end
-
   def version
     @version ||= detect_version(detect_release_time)
   end
-
-  def resolve_docker_image(target)
-    case target
-    when /-(?:arm64|aarch64)\z/
-      target = Regexp.last_match.pre_match
-      platform = "linux/arm64"
-    else
-      platform = "linux/amd64"
-    end
-
-    case target
-    when /\Acentos-(\d+)-stream\z/
-      centos_stream_version = $1
-      image = "quay.io/centos/centos:stream#{centos_stream_version}"
-    else
-      case platform
-      when "linux/arm64"
-        image = "arm64v8/"
-      else
-        image = ""
-      end
-      target = target.gsub(/\Aamazon-linux/, "amazonlinux")
-      image << target.gsub(/-/, ":")
-    end
-
-    [platform, image]
-  end
-
-  def verify(target)
-    verify_command_line = [
-      "docker",
-      "run",
-      "--log-driver", "none",
-      "--rm",
-      "--security-opt", "seccomp=unconfined",
-      "--volume", "#{File.expand_path(arrow_source_dir)}:/arrow:delegated",
-    ]
-    if $stdin.tty?
-      verify_command_line << "--interactive"
-      verify_command_line << "--tty"
-    else
-      verify_command_line.concat(["--attach", "STDOUT"])
-      verify_command_line.concat(["--attach", "STDERR"])
-    end
-    platform, docker_image = resolve_docker_image(target)
-    docker_info = JSON.parse(`docker info --format '{{json .}}'`)
-    case [platform, docker_info["Architecture"]]
-    when ["linux/amd64", "x86_64"],
-         ["linux/arm64", "aarch64"]
-      # Do nothing
-    else
-      verify_command_line.concat(["--platform", platform])
-    end
-    verify_command_line << docker_image
-    case target
-    when /\Adebian-/, /\Aubuntu-/
-      verify_command_line << "/arrow/dev/release/verify-apt.sh"
-    else
-      verify_command_line << "/arrow/dev/release/verify-yum.sh"
-    end
-    verify_command_line << version
-    verify_command_line << "local"
-    sh(*verify_command_line)
-  end
-
-  def apt_test_targets
-    targets = (ENV["APT_TARGETS"] || "").split(",")
-    targets = apt_test_targets_default if targets.empty?
-    targets
-  end
-
-  def apt_test_targets_default
-    # Disable arm64 targets by default for now
-    # because they require some setups on host.
-    [
-      "debian-buster",
-      # "debian-buster-arm64",
-      "debian-bullseye",
-      # "debian-bullseye-arm64",
-      "debian-bookworm",
-      # "debian-bookworm-arm64",
-      "ubuntu-bionic",
-      # "ubuntu-bionic-arm64",
-      "ubuntu-focal",
-      # "ubuntu-focal-arm64",
-      "ubuntu-impish",
-      # "ubuntu-impish-arm64",
-    ]
-  end
-
-  def define_apt_test_task
-    namespace :apt do
-      desc "Test deb packages"
-      task :test do
-        repositories_dir = "apt/repositories"
-        rm_rf(repositories_dir)
-        @packages.each do |package|
-          package_repositories = "#{package}/apt/repositories"
-          next unless File.exist?(package_repositories)
-          sh("rsync", "-av", "#{package_repositories}/", repositories_dir)
-        end
-        Dir.glob("#{repositories_dir}/ubuntu/pool/*") do |code_name_dir|
-          universe_dir = "#{code_name_dir}/universe"
-          next unless File.exist?(universe_dir)
-          mv(universe_dir, "#{code_name_dir}/main")
-        end
-        base_dir = "nonexistent"
-        merged_dir = "apt/merged"
-        apt_update(base_dir, repositories_dir, merged_dir)
-        Dir.glob("#{merged_dir}/*/dists/*") do |dists_code_name_dir|
-          prefix = dists_code_name_dir.split("/")[-3..-1].join("/")
-          mv(Dir.glob("#{dists_code_name_dir}/*Release*"),
-             "#{repositories_dir}/#{prefix}")
-        end
-        apt_test_targets.each do |target|
-          verify(target)
-        end
-      end
-    end
-  end
-
-  def yum_test_targets
-    targets = (ENV["YUM_TARGETS"] || "").split(",")
-    targets = yum_test_targets_default if targets.empty?
-    targets
-  end
-
-  def yum_test_targets_default
-    # Disable aarch64 targets by default for now
-    # because they require some setups on host.
-    [
-      "almalinux-9",
-      # "almalinux-9-aarch64",
-      "almalinux-8",
-      # "almalinux-8-aarch64",
-      "amazon-linux-2",
-      # "amazon-linux-2-aarch64",
-      "centos-9-stream",
-      # "centos-9-stream-aarch64",
-      "centos-8-stream",
-      # "centos-8-stream-aarch64",
-      "centos-7",
-      # "centos-7-aarch64",
-    ]
-  end
-
-  def define_yum_test_task
-    namespace :yum do
-      desc "Test RPM packages"
-      task :test do
-        repositories_dir = "yum/repositories"
-        rm_rf(repositories_dir)
-        @packages.each do |package|
-          package_repositories = "#{package}/yum/repositories"
-          next unless File.exist?(package_repositories)
-          sh("rsync", "-av", "#{package_repositories}/", repositories_dir)
-        end
-        rpm_sign(repositories_dir)
-        base_dir = "nonexistent"
-        yum_update(base_dir, repositories_dir)
-        yum_test_targets.each do |target|
-          verify(target)
-        end
-      end
-    end
-  end
 end
 
-local_binary_task = LocalBinaryTask.new(packages)
+local_binary_task = ApacheArrowLocalBinaryTask.new(packages)
 local_binary_task.define
diff --git a/dev/tasks/linux-packages/apache-arrow-apt-source/apt/ubuntu-kinetic/Dockerfile b/dev/tasks/linux-packages/apache-arrow-apt-source/apt/ubuntu-kinetic/Dockerfile
new file mode 100644
index 00000000000..498fd34ac12
--- /dev/null
+++ b/dev/tasks/linux-packages/apache-arrow-apt-source/apt/ubuntu-kinetic/Dockerfile
@@ -0,0 +1,41 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+FROM ubuntu:kinetic
+
+RUN \
+  echo "debconf debconf/frontend select Noninteractive" | \
+    debconf-set-selections
+
+RUN \
+  echo 'APT::Install-Recommends "false";' > \
+    /etc/apt/apt.conf.d/disable-install-recommends
+
+ARG DEBUG
+
+RUN \
+  quiet=$([ "${DEBUG}" = "yes" ] || echo "-qq") && \
+  apt update ${quiet} && \
+  apt install -y -V ${quiet} \
+    build-essential \
+    debhelper \
+    devscripts \
+    fakeroot \
+    gnupg \
+    lsb-release && \
+  apt clean && \
+  rm -rf /var/lib/apt/lists/*
diff --git a/dev/tasks/linux-packages/apache-arrow-apt-source/debian/changelog b/dev/tasks/linux-packages/apache-arrow-apt-source/debian/changelog
index d447f95eaa4..4ebc5f02d7c 100644
--- a/dev/tasks/linux-packages/apache-arrow-apt-source/debian/changelog
+++ b/dev/tasks/linux-packages/apache-arrow-apt-source/debian/changelog
@@ -1,3 +1,15 @@
+apache-arrow-apt-source (11.0.0-1) unstable; urgency=low
+
+  * New upstream release.
+
+ -- Raúl Cumplido <raulcumplido@gmail.com>  Wed, 18 Jan 2023 08:38:43 -0000
+
+apache-arrow-apt-source (10.0.0-1) unstable; urgency=low
+
+  * New upstream release.
+
+ -- Sutou Kouhei <kou@clear-code.com>  Thu, 20 Oct 2022 21:45:17 -0000
+
 apache-arrow-apt-source (9.0.0-1) unstable; urgency=low
 
   * New upstream release.
diff --git a/dev/tasks/linux-packages/apache-arrow-release/Rakefile b/dev/tasks/linux-packages/apache-arrow-release/Rakefile
index 2c9ddfc87ba..60cd4c94e93 100644
--- a/dev/tasks/linux-packages/apache-arrow-release/Rakefile
+++ b/dev/tasks/linux-packages/apache-arrow-release/Rakefile
@@ -47,9 +47,12 @@ class ApacheArrowReleasePackageTask < PackageTask
       File.open(keys_path, "w") do |keys_file|
         is_ed25519_key = false
         deny_lists = [
-          # "rpmkeys --import" reports error for this key.
+          # "rpmkeys --import" reports error for these keys.
           # It seems that a subkey of this key may be related. (Is SHA1 bad?)
           "8CAAD602",
+          # https://github.com/apache/arrow/issues/15007
+          # It seems that a subkey of this key may be related.
+          "B90EB64A3AF15545EC8A7B8803F0D5EA3790810C",
         ]
         is_denyed_key = false
         keys.each_line do |line|
@@ -63,6 +66,12 @@ class ApacheArrowReleasePackageTask < PackageTask
               is_denyed_key = true
               next
             end
+          when /\A\s+([\h]+)$/
+            long_finger_print = $1
+            if deny_lists.include?(long_finger_print)
+              is_denyed_key = true
+              next
+            end
           when "-----END PGP PUBLIC KEY BLOCK-----"
             if is_ed25519_key
               is_ed25519_key = false
diff --git a/dev/tasks/linux-packages/apache-arrow-release/yum/apache-arrow-release.spec.in b/dev/tasks/linux-packages/apache-arrow-release/yum/apache-arrow-release.spec.in
index d231eb2767a..c2d0d5bd568 100644
--- a/dev/tasks/linux-packages/apache-arrow-release/yum/apache-arrow-release.spec.in
+++ b/dev/tasks/linux-packages/apache-arrow-release/yum/apache-arrow-release.spec.in
@@ -95,6 +95,12 @@ else
 fi
 
 %changelog
+* Wed Jan 18 2023 Raúl Cumplido <raulcumplido@gmail.com> - 11.0.0-1
+- New upstream release.
+
+* Thu Oct 20 2022 Sutou Kouhei <kou@clear-code.com> - 10.0.0-1
+- New upstream release.
+
 * Fri Jul 29 2022 Krisztián Szűcs <szucs.krisztian@gmail.com> - 9.0.0-1
 - New upstream release.
 
diff --git a/dev/tasks/linux-packages/apache-arrow/Rakefile b/dev/tasks/linux-packages/apache-arrow/Rakefile
index cff8e468fea..016172d51dd 100644
--- a/dev/tasks/linux-packages/apache-arrow/Rakefile
+++ b/dev/tasks/linux-packages/apache-arrow/Rakefile
@@ -87,6 +87,16 @@ class ApacheArrowPackageTask < PackageTask
     false
   end
 
+  def apt_prepare_debian_control_c_ares(control, target)
+    case target
+    when /\Aubuntu-bionic/
+      use_system_c_ares = "#"
+    else
+      use_system_c_ares = ""
+    end
+    control.gsub(/@USE_SYSTEM_C_ARES@/, use_system_c_ares)
+  end
+
   def apt_prepare_debian_control_cuda_architecture(control, target)
     if apt_arm64_cuda_available_target?(target)
       cuda_architecture = "any"
@@ -96,14 +106,15 @@ class ApacheArrowPackageTask < PackageTask
     control.gsub(/@CUDA_ARCHITECTURE@/, cuda_architecture)
   end
 
-  def apt_prepare_debian_control_c_ares(control, target)
-    case target
-    when /\Aubuntu-bionic/
-      use_system_c_ares = "#"
+  def apt_prepare_debian_control_flight(control, target)
+    # We disable Flight for arm64 because Travis CI doesn't have
+    # enough resource to build with Flight.
+    if target.end_with?("-arm64")
+      enable_flight = "#"
     else
-      use_system_c_ares = ""
+      enable_flight = ""
     end
-    control.gsub(/@USE_SYSTEM_C_ARES@/, use_system_c_ares)
+    control.gsub(/@ENABLE_FLIGHT@/, enable_flight)
   end
 
   def apt_prepare_debian_control_grpc(control, target)
@@ -116,6 +127,31 @@ class ApacheArrowPackageTask < PackageTask
     control.gsub(/@USE_SYSTEM_GRPC@/, use_system_grpc)
   end
 
+  def apt_prepare_debian_control_protobuf(control, target)
+    # Flight requires Protobuf 3.15.0 or later but Ubuntu 22.04
+    # doesn't provide Protobuf 3.15.0 or later yet.
+    #
+    # See also:
+    #   * cpp/cmake_modules/ThirdpartyToolchain.cmake
+    #   * https://packages.debian.org/search?keywords=libprotobuf-dev
+    #   * https://packages.ubuntu.com/search?keywords=libprotobuf-dev
+    #
+    # We can use system Protobuf without Flight because we can use
+    # Protobuf 3.0.0 or later without Flight.
+    #
+    # We disable Flight for arm64 because Travis CI doesn't have
+    # enough resource to build with Flight.
+    #
+    # So, we can use system Protobuf only for arm64 for now.
+    case target
+    when /\Adebian-bookworm/, /-arm64\z/
+      use_system_protobuf = ""
+    else
+      use_system_protobuf = "#"
+    end
+    control.gsub(/@USE_SYSTEM_PROTOBUF@/, use_system_protobuf)
+  end
+
   def apt_prepare_debian_control_python(control, target)
     case target
     when /\Aubuntu-bionic/
@@ -158,9 +194,11 @@ class ApacheArrowPackageTask < PackageTask
 
   def apt_prepare_debian_control(control_in, target)
     control = control_in.dup
-    control = apt_prepare_debian_control_cuda_architecture(control, target)
     control = apt_prepare_debian_control_c_ares(control, target)
+    control = apt_prepare_debian_control_cuda_architecture(control, target)
+    control = apt_prepare_debian_control_flight(control, target)
     control = apt_prepare_debian_control_grpc(control, target)
+    control = apt_prepare_debian_control_protobuf(control, target)
     control = apt_prepare_debian_control_python(control, target)
     control = apt_prepare_debian_control_thrift(control, target)
     control = apt_prepare_debian_control_utf8proc(control, target)
diff --git a/dev/tasks/linux-packages/apache-arrow/apt/debian-bookworm/Dockerfile b/dev/tasks/linux-packages/apache-arrow/apt/debian-bookworm/Dockerfile
index 152ac08a7ca..aee005726a1 100644
--- a/dev/tasks/linux-packages/apache-arrow/apt/debian-bookworm/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/apt/debian-bookworm/Dockerfile
@@ -54,8 +54,8 @@ RUN \
     libgrpc++-dev \
     libgtest-dev \
     liblz4-dev \
-    libprotoc-dev \
     libprotobuf-dev \
+    libprotoc-dev \
     libre2-dev \
     libsnappy-dev \
     libssl-dev \
@@ -69,7 +69,6 @@ RUN \
     pkg-config \
     protobuf-compiler-grpc \
     python3-dev \
-    python3-numpy \
     python3-pip \
     rapidjson-dev \
     tzdata \
diff --git a/dev/tasks/linux-packages/apache-arrow/apt/debian-bullseye/Dockerfile b/dev/tasks/linux-packages/apache-arrow/apt/debian-bullseye/Dockerfile
index 440a07f09c2..bf5c24c0163 100644
--- a/dev/tasks/linux-packages/apache-arrow/apt/debian-bullseye/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/apt/debian-bullseye/Dockerfile
@@ -54,8 +54,8 @@ RUN \
     libgrpc++-dev \
     libgtest-dev \
     liblz4-dev \
-    libprotoc-dev \
     libprotobuf-dev \
+    libprotoc-dev \
     libre2-dev \
     libsnappy-dev \
     libssl-dev \
@@ -69,7 +69,6 @@ RUN \
     pkg-config \
     protobuf-compiler-grpc \
     python3-dev \
-    python3-numpy \
     python3-pip \
     rapidjson-dev \
     tzdata \
diff --git a/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-bionic/Dockerfile b/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-bionic/Dockerfile
index b897fa73a33..12bc265b009 100644
--- a/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-bionic/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-bionic/Dockerfile
@@ -49,6 +49,8 @@ RUN \
     libgoogle-glog-dev \
     libgtest-dev \
     liblz4-dev \
+    libprotobuf-dev \
+    libprotoc-dev \
     libre2-dev \
     libsnappy-dev \
     libssl-dev \
@@ -57,6 +59,7 @@ RUN \
     ninja-build \
     nlohmann-json-dev \
     pkg-config \
+    protobuf-compiler \
     python3-dev \
     python3-pip \
     python3-setuptools \
diff --git a/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-focal/Dockerfile b/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-focal/Dockerfile
index 5abee7c2e09..0a769382672 100644
--- a/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-focal/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-focal/Dockerfile
@@ -51,6 +51,8 @@ RUN \
     libgoogle-glog-dev \
     libgtest-dev \
     liblz4-dev \
+    libprotobuf-dev \
+    libprotoc-dev \
     libre2-dev \
     libsnappy-dev \
     libssl-dev \
@@ -62,8 +64,8 @@ RUN \
     ninja-build \
     nlohmann-json3-dev \
     pkg-config \
+    protobuf-compiler \
     python3-dev \
-    python3-numpy \
     python3-pip \
     python3-setuptools \
     rapidjson-dev \
diff --git a/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-jammy/Dockerfile b/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-jammy/Dockerfile
index 7e95c37642a..df36652c698 100644
--- a/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-jammy/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-jammy/Dockerfile
@@ -52,8 +52,8 @@ RUN \
     libgrpc++-dev \
     libgtest-dev \
     liblz4-dev \
-    libprotoc-dev \
     libprotobuf-dev \
+    libprotoc-dev \
     libre2-dev \
     libsnappy-dev \
     libssl-dev \
@@ -67,7 +67,6 @@ RUN \
     pkg-config \
     protobuf-compiler-grpc \
     python3-dev \
-    python3-numpy \
     python3-pip \
     python3-setuptools \
     rapidjson-dev \
diff --git a/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-kinetic-arm64/from b/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-kinetic-arm64/from
new file mode 100644
index 00000000000..fac693afa78
--- /dev/null
+++ b/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-kinetic-arm64/from
@@ -0,0 +1,18 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+arm64v8/ubuntu:kinetic
diff --git a/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-kinetic/Dockerfile b/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-kinetic/Dockerfile
new file mode 100644
index 00000000000..b371bc79496
--- /dev/null
+++ b/dev/tasks/linux-packages/apache-arrow/apt/ubuntu-kinetic/Dockerfile
@@ -0,0 +1,87 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+ARG FROM=ubuntu:kinetic
+FROM ${FROM}
+
+RUN \
+  echo "debconf debconf/frontend select Noninteractive" | \
+    debconf-set-selections
+
+RUN \
+  echo 'APT::Install-Recommends "false";' > \
+    /etc/apt/apt.conf.d/disable-install-recommends
+
+ARG DEBUG
+RUN \
+  quiet=$([ "${DEBUG}" = "yes" ] || echo "-qq") && \
+  apt update ${quiet} && \
+  apt install -y -V ${quiet} \
+    build-essential \
+    ccache \
+    clang \
+    clang-tools \
+    cmake \
+    debhelper \
+    devscripts \
+    git \
+    gtk-doc-tools \
+    libboost-filesystem-dev \
+    libboost-system-dev \
+    libbrotli-dev \
+    libbz2-dev \
+    libc-ares-dev \
+    libcurl4-openssl-dev \
+    libgirepository1.0-dev \
+    libglib2.0-doc \
+    libgmock-dev \
+    libgoogle-glog-dev \
+    libgrpc++-dev \
+    libgtest-dev \
+    liblz4-dev \
+    libmlir-15-dev \
+    libprotobuf-dev \
+    libprotoc-dev \
+    libre2-dev \
+    libsnappy-dev \
+    libssl-dev \
+    libthrift-dev \
+    libutf8proc-dev \
+    libzstd-dev \
+    llvm-dev \
+    lsb-release \
+    mlir-15-tools \
+    ninja-build \
+    nlohmann-json3-dev \
+    pkg-config \
+    protobuf-compiler-grpc \
+    python3-dev \
+    python3-pip \
+    python3-setuptools \
+    rapidjson-dev \
+    tzdata \
+    valac \
+    zlib1g-dev && \
+  if apt list | grep -q '^libcuda1'; then \
+    apt install -y -V ${quiet} nvidia-cuda-toolkit; \
+  else \
+    :; \
+  fi && \
+  apt clean && \
+  python3 -m pip install --no-use-pep517 meson && \
+  ln -s /usr/local/bin/meson /usr/bin/ && \
+  rm -rf /var/lib/apt/lists/*
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/changelog b/dev/tasks/linux-packages/apache-arrow/debian/changelog
index 208a8e247b6..9337b6470cc 100644
--- a/dev/tasks/linux-packages/apache-arrow/debian/changelog
+++ b/dev/tasks/linux-packages/apache-arrow/debian/changelog
@@ -1,3 +1,15 @@
+apache-arrow (11.0.0-1) unstable; urgency=low
+
+  * New upstream release.
+
+ -- Raúl Cumplido <raulcumplido@gmail.com>  Wed, 18 Jan 2023 08:38:43 -0000
+
+apache-arrow (10.0.0-1) unstable; urgency=low
+
+  * New upstream release.
+
+ -- Sutou Kouhei <kou@clear-code.com>  Thu, 20 Oct 2022 21:45:17 -0000
+
 apache-arrow (9.0.0-1) unstable; urgency=low
 
   * New upstream release.
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/control.in b/dev/tasks/linux-packages/apache-arrow/debian/control.in
index 12729cbf9f8..f47be9ba43b 100644
--- a/dev/tasks/linux-packages/apache-arrow/debian/control.in
+++ b/dev/tasks/linux-packages/apache-arrow/debian/control.in
@@ -16,11 +16,11 @@ Build-Depends:
   libcurl4-openssl-dev,
   libgirepository1.0-dev,
   libgoogle-glog-dev,
-@USE_SYSTEM_GRPC@  libgrpc++-dev,
+@ENABLE_FLIGHT@@USE_SYSTEM_GRPC@  libgrpc++-dev,
   libgtest-dev,
   liblz4-dev,
-@USE_SYSTEM_GRPC@  libprotoc-dev,
-@USE_SYSTEM_GRPC@  libprotobuf-dev,
+@USE_SYSTEM_PROTOBUF@  libprotobuf-dev,
+@USE_SYSTEM_PROTOBUF@  libprotoc-dev,
   libre2-dev,
   libsnappy-dev,
   libssl-dev,
@@ -31,9 +31,8 @@ Build-Depends:
   nlohmann-json-dev | nlohmann-json3-dev,
   nvidia-cuda-toolkit [!arm64],
   pkg-config,
-@USE_SYSTEM_GRPC@  protobuf-compiler-grpc,
-@ENABLE_PYTHON@  python3-dev,
-@ENABLE_PYTHON@  python3-numpy,
+@USE_SYSTEM_PROTOBUF@  protobuf-compiler,
+@ENABLE_FLIGHT@@USE_SYSTEM_GRPC@  protobuf-compiler-grpc,
   valac,
   tzdata,
   zlib1g-dev
@@ -41,7 +40,7 @@ Build-Depends-Indep: libglib2.0-doc
 Standards-Version: 3.9.8
 Homepage: https://arrow.apache.org/
 
-Package: libarrow1000
+Package: libarrow1100
 Section: libs
 Architecture: any
 Multi-Arch: same
@@ -53,47 +52,33 @@ Description: Apache Arrow is a data processing library for analysis
  .
  This package provides C++ library files.
 
-Package: libarrow-cuda1000
-Section: libs
-Architecture: @CUDA_ARCHITECTURE@
-Multi-Arch: same
-Pre-Depends: ${misc:Pre-Depends}
-Depends:
-  ${misc:Depends},
-  ${shlibs:Depends},
-  libarrow1000 (= ${binary:Version})
-Description: Apache Arrow is a data processing library for analysis
- .
- This package provides C++ library files for CUDA support.
-
-Package: libarrow-dataset1000
-Section: libs
+Package: arrow-tools
+Section: utils
 Architecture: any
 Multi-Arch: same
 Pre-Depends: ${misc:Pre-Depends}
 Depends:
   ${misc:Depends},
   ${shlibs:Depends},
-  libarrow1000 (= ${binary:Version}),
-  libparquet1000 (= ${binary:Version})
+  libarrow1100 (= ${binary:Version})
 Description: Apache Arrow is a data processing library for analysis
  .
- This package provides C++ library files for Dataset module.
+ This package provides tools.
 
-Package: libarrow-flight1000
+Package: libarrow-cuda1100
 Section: libs
-Architecture: any
+Architecture: @CUDA_ARCHITECTURE@
 Multi-Arch: same
 Pre-Depends: ${misc:Pre-Depends}
 Depends:
   ${misc:Depends},
   ${shlibs:Depends},
-  libarrow1000 (= ${binary:Version})
+  libarrow1100 (= ${binary:Version})
 Description: Apache Arrow is a data processing library for analysis
  .
- This package provides C++ library files for Flight RPC system.
+ This package provides C++ library files for CUDA support.
 
-Package: libarrow-flight-sql1000
+Package: libarrow-dataset1100
 Section: libs
 Architecture: any
 Multi-Arch: same
@@ -101,39 +86,37 @@ Pre-Depends: ${misc:Pre-Depends}
 Depends:
   ${misc:Depends},
   ${shlibs:Depends},
-  libarrow-flight1000 (= ${binary:Version})
+  libarrow1100 (= ${binary:Version}),
+  libparquet1100 (= ${binary:Version})
 Description: Apache Arrow is a data processing library for analysis
  .
- This package provides C++ library files for Flight SQL system.
-
-@ENABLE_PYTHON@Package: libarrow-python1000
-@ENABLE_PYTHON@Section: libs
-@ENABLE_PYTHON@Architecture: any
-@ENABLE_PYTHON@Multi-Arch: same
-@ENABLE_PYTHON@Pre-Depends: ${misc:Pre-Depends}
-@ENABLE_PYTHON@Depends:
-@ENABLE_PYTHON@  ${misc:Depends},
-@ENABLE_PYTHON@  ${shlibs:Depends},
-@ENABLE_PYTHON@  libarrow1000 (= ${binary:Version}),
-@ENABLE_PYTHON@  python3,
-@ENABLE_PYTHON@  python3-numpy
-@ENABLE_PYTHON@Description: Apache Arrow is a data processing library for analysis
-@ENABLE_PYTHON@ .
-@ENABLE_PYTHON@ This package provides C++ library files for Python support.
-
-@ENABLE_PYTHON@Package: libarrow-python-flight1000
-@ENABLE_PYTHON@Section: libs
-@ENABLE_PYTHON@Architecture: any
-@ENABLE_PYTHON@Multi-Arch: same
-@ENABLE_PYTHON@Pre-Depends: ${misc:Pre-Depends}
-@ENABLE_PYTHON@Depends:
-@ENABLE_PYTHON@  ${misc:Depends},
-@ENABLE_PYTHON@  ${shlibs:Depends},
-@ENABLE_PYTHON@  libarrow-flight1000 (= ${binary:Version}),
-@ENABLE_PYTHON@  libarrow-python1000 (= ${binary:Version})
-@ENABLE_PYTHON@Description: Apache Arrow is a data processing library for analysis
-@ENABLE_PYTHON@ .
-@ENABLE_PYTHON@ This package provides C++ library files for Flight and Python support.
+ This package provides C++ library files for Dataset module.
+
+@ENABLE_FLIGHT@Package: libarrow-flight1100
+@ENABLE_FLIGHT@Section: libs
+@ENABLE_FLIGHT@Architecture: any
+@ENABLE_FLIGHT@Multi-Arch: same
+@ENABLE_FLIGHT@Pre-Depends: ${misc:Pre-Depends}
+@ENABLE_FLIGHT@Depends:
+@ENABLE_FLIGHT@  ${misc:Depends},
+@ENABLE_FLIGHT@  ${shlibs:Depends},
+@ENABLE_FLIGHT@  libarrow1100 (= ${binary:Version})
+@ENABLE_FLIGHT@Description: Apache Arrow is a data processing library for analysis
+@ENABLE_FLIGHT@ .
+@ENABLE_FLIGHT@ This package provides C++ library files for Flight RPC system.
+
+@ENABLE_FLIGHT@Package: libarrow-flight-sql1100
+@ENABLE_FLIGHT@Section: libs
+@ENABLE_FLIGHT@Architecture: any
+@ENABLE_FLIGHT@Multi-Arch: same
+@ENABLE_FLIGHT@Pre-Depends: ${misc:Pre-Depends}
+@ENABLE_FLIGHT@Depends:
+@ENABLE_FLIGHT@  ${misc:Depends},
+@ENABLE_FLIGHT@  ${shlibs:Depends},
+@ENABLE_FLIGHT@  libarrow-flight1100 (= ${binary:Version})
+@ENABLE_FLIGHT@Description: Apache Arrow is a data processing library for analysis
+@ENABLE_FLIGHT@ .
+@ENABLE_FLIGHT@ This package provides C++ library files for Flight SQL system.
 
 Package: libarrow-dev
 Section: libdevel
@@ -141,12 +124,15 @@ Architecture: any
 Multi-Arch: same
 Depends:
   ${misc:Depends},
-  libarrow1000 (= ${binary:Version}),
+  libarrow1100 (= ${binary:Version}),
   libbrotli-dev,
   libbz2-dev,
 @USE_SYSTEM_C_ARES@  libc-ares-dev,
+  libcurl4-openssl-dev,
 @USE_SYSTEM_GRPC@  libgrpc++-dev,
   liblz4-dev,
+@USE_SYSTEM_PROTOBUF@  libprotobuf-dev,
+@USE_SYSTEM_PROTOBUF@  libprotoc-dev,
   libre2-dev,
   libsnappy-dev,
   libssl-dev,
@@ -167,7 +153,7 @@ Multi-Arch: same
 Depends:
   ${misc:Depends},
   libarrow-dev (= ${binary:Version}),
-  libarrow-cuda1000 (= ${binary:Version})
+  libarrow-cuda1100 (= ${binary:Version})
 Description: Apache Arrow is a data processing library for analysis
  .
  This package provides C++ header files for CUDA support.
@@ -179,62 +165,37 @@ Multi-Arch: same
 Depends:
   ${misc:Depends},
   libarrow-dev (= ${binary:Version}),
-  libarrow-dataset1000 (= ${binary:Version}),
+  libarrow-dataset1100 (= ${binary:Version}),
   libparquet-dev (= ${binary:Version})
 Description: Apache Arrow is a data processing library for analysis
  .
  This package provides C++ header files for dataset module.
 
-Package: libarrow-flight-dev
-Section: libdevel
-Architecture: any
-Multi-Arch: same
-Depends:
-  ${misc:Depends},
-  libarrow-dev (= ${binary:Version}),
-  libarrow-flight1000 (= ${binary:Version})
-Description: Apache Arrow is a data processing library for analysis
- .
- This package provides C++ header files for Flight RPC system.
-
-Package: libarrow-flight-sql-dev
-Section: libdevel
-Architecture: any
-Multi-Arch: same
-Depends:
-  ${misc:Depends},
-  libarrow-flight-dev (= ${binary:Version}),
-  libarrow-flight-sql1000 (= ${binary:Version})
-Description: Apache Arrow is a data processing library for analysis
- .
- This package provides C++ header files for Flight SQL system.
-
-@ENABLE_PYTHON@Package: libarrow-python-dev
-@ENABLE_PYTHON@Section: libdevel
-@ENABLE_PYTHON@Architecture: any
-@ENABLE_PYTHON@Multi-Arch: same
-@ENABLE_PYTHON@Depends:
-@ENABLE_PYTHON@  ${misc:Depends},
-@ENABLE_PYTHON@  libarrow-dev (= ${binary:Version}),
-@ENABLE_PYTHON@  libarrow-python1000 (= ${binary:Version})
-@ENABLE_PYTHON@Description: Apache Arrow is a data processing library for analysis
-@ENABLE_PYTHON@ .
-@ENABLE_PYTHON@ This package provides C++ header files for Python support.
-
-@ENABLE_PYTHON@Package: libarrow-python-flight-dev
-@ENABLE_PYTHON@Section: libdevel
-@ENABLE_PYTHON@Architecture: any
-@ENABLE_PYTHON@Multi-Arch: same
-@ENABLE_PYTHON@Depends:
-@ENABLE_PYTHON@  ${misc:Depends},
-@ENABLE_PYTHON@  libarrow-flight-dev (= ${binary:Version}),
-@ENABLE_PYTHON@  libarrow-python-dev (= ${binary:Version}),
-@ENABLE_PYTHON@  libarrow-python-flight1000 (= ${binary:Version})
-@ENABLE_PYTHON@Description: Apache Arrow is a data processing library for analysis
-@ENABLE_PYTHON@ .
-@ENABLE_PYTHON@ This package provides C++ header files for Flight and Python support.
-
-Package: libgandiva1000
+@ENABLE_FLIGHT@Package: libarrow-flight-dev
+@ENABLE_FLIGHT@Section: libdevel
+@ENABLE_FLIGHT@Architecture: any
+@ENABLE_FLIGHT@Multi-Arch: same
+@ENABLE_FLIGHT@Depends:
+@ENABLE_FLIGHT@  ${misc:Depends},
+@ENABLE_FLIGHT@  libarrow-dev (= ${binary:Version}),
+@ENABLE_FLIGHT@  libarrow-flight1100 (= ${binary:Version})
+@ENABLE_FLIGHT@Description: Apache Arrow is a data processing library for analysis
+@ENABLE_FLIGHT@ .
+@ENABLE_FLIGHT@ This package provides C++ header files for Flight RPC system.
+
+@ENABLE_FLIGHT@Package: libarrow-flight-sql-dev
+@ENABLE_FLIGHT@Section: libdevel
+@ENABLE_FLIGHT@Architecture: any
+@ENABLE_FLIGHT@Multi-Arch: same
+@ENABLE_FLIGHT@Depends:
+@ENABLE_FLIGHT@  ${misc:Depends},
+@ENABLE_FLIGHT@  libarrow-flight-dev (= ${binary:Version}),
+@ENABLE_FLIGHT@  libarrow-flight-sql1100 (= ${binary:Version})
+@ENABLE_FLIGHT@Description: Apache Arrow is a data processing library for analysis
+@ENABLE_FLIGHT@ .
+@ENABLE_FLIGHT@ This package provides C++ header files for Flight SQL system.
+
+Package: libgandiva1100
 Section: libs
 Architecture: any
 Multi-Arch: same
@@ -242,7 +203,7 @@ Pre-Depends: ${misc:Pre-Depends}
 Depends:
   ${misc:Depends},
   ${shlibs:Depends},
-  libarrow1000 (= ${binary:Version})
+  libarrow1100 (= ${binary:Version})
 Description: Gandiva is a toolset for compiling and evaluating expressions
  on Arrow Data.
  .
@@ -255,13 +216,13 @@ Multi-Arch: same
 Depends:
   ${misc:Depends},
   libarrow-dev (= ${binary:Version}),
-  libgandiva1000 (= ${binary:Version})
+  libgandiva1100 (= ${binary:Version})
 Description: Gandiva is a toolset for compiling and evaluating expressions
  on Arrow Data.
  .
  This package provides C++ header files.
 
-Package: libplasma1000
+Package: libplasma1100
 Section: libs
 Architecture: @CUDA_ARCHITECTURE@
 Multi-Arch: same
@@ -269,7 +230,7 @@ Pre-Depends: ${misc:Pre-Depends}
 Depends:
   ${misc:Depends},
   ${shlibs:Depends},
-  libarrow-cuda1000 (= ${binary:Version})
+  libarrow-cuda1100 (= ${binary:Version})
 Description: Plasma is an in-memory object store and cache for big data.
  .
  This package provides C++ library files to connect plasma-store-server.
@@ -281,7 +242,7 @@ Pre-Depends: ${misc:Pre-Depends}
 Depends:
   ${misc:Depends},
   ${shlibs:Depends},
-  libplasma1000 (= ${binary:Version})
+  libplasma1100 (= ${binary:Version})
 Description: Plasma is an in-memory object store and cache for big data.
  .
  This package provides plasma-store-server.
@@ -293,12 +254,12 @@ Multi-Arch: same
 Depends:
   ${misc:Depends},
   libarrow-cuda-dev (= ${binary:Version}),
-  libplasma1000 (= ${binary:Version})
+  libplasma1100 (= ${binary:Version})
 Description: Plasma is an in-memory object store and cache for big data.
  .
  This package provides C++ header files.
 
-Package: libparquet1000
+Package: libparquet1100
 Section: libs
 Architecture: any
 Multi-Arch: same
@@ -310,6 +271,19 @@ Description: Apache Parquet is a columnar storage format
  .
  This package provides C++ library files to process Apache Parquet format.
 
+Package: parquet-tools
+Section: utils
+Architecture: any
+Multi-Arch: same
+Pre-Depends: ${misc:Pre-Depends}
+Depends:
+  ${misc:Depends},
+  ${shlibs:Depends},
+  libparquet1100 (= ${binary:Version})
+Description: Apache Parquet is a columnar storage format
+ .
+ This package provides tools.
+
 Package: libparquet-dev
 Section: libdevel
 Architecture: any
@@ -317,12 +291,12 @@ Multi-Arch: same
 Depends:
   ${misc:Depends},
   libarrow-dev (= ${binary:Version}),
-  libparquet1000 (= ${binary:Version})
+  libparquet1100 (= ${binary:Version})
 Description: Apache Parquet is a columnar storage format
  .
  This package provides C++ header files.
 
-Package: libarrow-glib1000
+Package: libarrow-glib1100
 Section: libs
 Architecture: any
 Multi-Arch: same
@@ -330,7 +304,7 @@ Pre-Depends: ${misc:Pre-Depends}
 Depends:
   ${misc:Depends},
   ${shlibs:Depends},
-  libarrow1000 (= ${binary:Version})
+  libarrow1100 (= ${binary:Version})
 Description: Apache Arrow is a data processing library for analysis
  .
  This package provides GLib based library files.
@@ -354,7 +328,7 @@ Depends:
   ${misc:Depends},
   libglib2.0-dev,
   libarrow-dev (= ${binary:Version}),
-  libarrow-glib1000 (= ${binary:Version}),
+  libarrow-glib1100 (= ${binary:Version}),
   gir1.2-arrow-1.0 (= ${binary:Version})
 Suggests: libarrow-glib-doc
 Description: Apache Arrow is a data processing library for analysis
@@ -372,7 +346,7 @@ Description: Apache Arrow is a data processing library for analysis
  .
  This package provides documentations.
 
-Package: libarrow-cuda-glib1000
+Package: libarrow-cuda-glib1100
 Section: libs
 Architecture: @CUDA_ARCHITECTURE@
 Multi-Arch: same
@@ -380,8 +354,8 @@ Pre-Depends: ${misc:Pre-Depends}
 Depends:
   ${misc:Depends},
   ${shlibs:Depends},
-  libarrow-glib1000 (= ${binary:Version}),
-  libarrow-cuda1000 (= ${binary:Version})
+  libarrow-glib1100 (= ${binary:Version}),
+  libarrow-cuda1100 (= ${binary:Version})
 Description: Apache Arrow is a data processing library for analysis
  .
  This package provides GLib based library files for CUDA support.
@@ -406,13 +380,13 @@ Depends:
   ${misc:Depends},
   libarrow-cuda-dev (= ${binary:Version}),
   libarrow-glib-dev (= ${binary:Version}),
-  libarrow-cuda-glib1000 (= ${binary:Version}),
+  libarrow-cuda-glib1100 (= ${binary:Version}),
   gir1.2-arrow-cuda-1.0 (= ${binary:Version})
 Description: Apache Arrow is a data processing library for analysis
  .
  This package provides GLib based header files for CUDA support.
 
-Package: libarrow-dataset-glib1000
+Package: libarrow-dataset-glib1100
 Section: libs
 Architecture: any
 Multi-Arch: same
@@ -420,8 +394,8 @@ Pre-Depends: ${misc:Pre-Depends}
 Depends:
   ${misc:Depends},
   ${shlibs:Depends},
-  libarrow-glib1000 (= ${binary:Version}),
-  libarrow-dataset1000 (= ${binary:Version})
+  libarrow-glib1100 (= ${binary:Version}),
+  libarrow-dataset1100 (= ${binary:Version})
 Description: Apache Arrow is a data processing library for analysis
  .
  This package provides GLib based library files for dataset module.
@@ -446,7 +420,7 @@ Depends:
   ${misc:Depends},
   libarrow-dataset-dev (= ${binary:Version}),
   libarrow-glib-dev (= ${binary:Version}),
-  libarrow-dataset-glib1000 (= ${binary:Version}),
+  libarrow-dataset-glib1100 (= ${binary:Version}),
   gir1.2-arrow-dataset-1.0 (= ${binary:Version})
 Description: Apache Arrow is a data processing library for analysis
  .
@@ -463,111 +437,111 @@ Description: Apache Arrow is a data processing library for analysis
  .
  This package provides documentations for dataset module.
 
-Package: libarrow-flight-glib1000
-Section: libs
-Architecture: any
-Multi-Arch: same
-Pre-Depends: ${misc:Pre-Depends}
-Depends:
-  ${misc:Depends},
-  ${shlibs:Depends},
-  libarrow-glib1000 (= ${binary:Version}),
-  libarrow-flight1000 (= ${binary:Version})
-Description: Apache Arrow is a data processing library for analysis
- .
- This package provides GLib based library files for Apache Arrow Flight.
-
-Package: gir1.2-arrow-flight-1.0
-Section: introspection
-Architecture: any
-Multi-Arch: same
-Depends:
-  ${gir:Depends},
-  ${misc:Depends},
-  gir1.2-arrow-1.0 (= ${binary:Version})
-Description: Apache Arrow is a data processing library for analysis
- .
- This package provides GObject Introspection typelib files for Apache Arrow
- Flight.
-
-Package: libarrow-flight-glib-dev
-Section: libdevel
-Architecture: any
-Multi-Arch: same
-Depends:
-  ${misc:Depends},
-  libarrow-flight-dev (= ${binary:Version}),
-  libarrow-glib-dev (= ${binary:Version}),
-  libarrow-flight-glib1000 (= ${binary:Version}),
-  gir1.2-arrow-flight-1.0 (= ${binary:Version})
-Description: Apache Arrow is a data processing library for analysis
- .
- This package provides GLib based header files for Apache Arrow Flight.
-
-Package: libarrow-flight-glib-doc
-Section: doc
-Architecture: any
-Multi-Arch: foreign
-Depends:
-  ${misc:Depends}
-Recommends: libarrow-glib-doc
-Description: Apache Arrow is a data processing library for analysis
- .
- This package provides documentations for Apache Arrow Flight.
-
-Package: libarrow-flight-sql-glib1000
-Section: libs
-Architecture: any
-Multi-Arch: same
-Pre-Depends: ${misc:Pre-Depends}
-Depends:
-  ${misc:Depends},
-  ${shlibs:Depends},
-  libarrow-flight-glib1000 (= ${binary:Version}),
-  libarrow-flight-sql1000 (= ${binary:Version})
-Description: Apache Arrow is a data processing library for analysis
- .
- This package provides GLib based library files for Apache Arrow Flight SQL.
-
-Package: gir1.2-arrow-flight-sql-1.0
-Section: introspection
-Architecture: any
-Multi-Arch: same
-Depends:
-  ${gir:Depends},
-  ${misc:Depends},
-  gir1.2-arrow-flight-1.0 (= ${binary:Version})
-Description: Apache Arrow is a data processing library for analysis
- .
- This package provides GObject Introspection typelib files for Apache Arrow
- Flight SQL.
-
-Package: libarrow-flight-sql-glib-dev
-Section: libdevel
-Architecture: any
-Multi-Arch: same
-Depends:
-  ${misc:Depends},
-  libarrow-flight-sql-dev (= ${binary:Version}),
-  libarrow-flight-glib-dev (= ${binary:Version}),
-  libarrow-flight-sql-glib1000 (= ${binary:Version}),
-  gir1.2-arrow-flight-sql-1.0 (= ${binary:Version})
-Description: Apache Arrow is a data processing library for analysis
- .
- This package provides GLib based header files for Apache Arrow Flight SQL.
-
-Package: libarrow-flight-sql-glib-doc
-Section: doc
-Architecture: any
-Multi-Arch: foreign
-Depends:
-  ${misc:Depends}
-Recommends: libarrow-flight-glib-doc
-Description: Apache Arrow is a data processing library for analysis
- .
- This package provides documentations for Apache Arrow Flight SQL.
-
-Package: libgandiva-glib1000
+@ENABLE_FLIGHT@Package: libarrow-flight-glib1100
+@ENABLE_FLIGHT@Section: libs
+@ENABLE_FLIGHT@Architecture: any
+@ENABLE_FLIGHT@Multi-Arch: same
+@ENABLE_FLIGHT@Pre-Depends: ${misc:Pre-Depends}
+@ENABLE_FLIGHT@Depends:
+@ENABLE_FLIGHT@  ${misc:Depends},
+@ENABLE_FLIGHT@  ${shlibs:Depends},
+@ENABLE_FLIGHT@  libarrow-glib1100 (= ${binary:Version}),
+@ENABLE_FLIGHT@  libarrow-flight1100 (= ${binary:Version})
+@ENABLE_FLIGHT@Description: Apache Arrow is a data processing library for analysis
+@ENABLE_FLIGHT@ .
+@ENABLE_FLIGHT@ This package provides GLib based library files for Apache Arrow Flight.
+
+@ENABLE_FLIGHT@Package: gir1.2-arrow-flight-1.0
+@ENABLE_FLIGHT@Section: introspection
+@ENABLE_FLIGHT@Architecture: any
+@ENABLE_FLIGHT@Multi-Arch: same
+@ENABLE_FLIGHT@Depends:
+@ENABLE_FLIGHT@  ${gir:Depends},
+@ENABLE_FLIGHT@  ${misc:Depends},
+@ENABLE_FLIGHT@  gir1.2-arrow-1.0 (= ${binary:Version})
+@ENABLE_FLIGHT@Description: Apache Arrow is a data processing library for analysis
+@ENABLE_FLIGHT@ .
+@ENABLE_FLIGHT@ This package provides GObject Introspection typelib files for Apache Arrow
+@ENABLE_FLIGHT@ Flight.
+
+@ENABLE_FLIGHT@Package: libarrow-flight-glib-dev
+@ENABLE_FLIGHT@Section: libdevel
+@ENABLE_FLIGHT@Architecture: any
+@ENABLE_FLIGHT@Multi-Arch: same
+@ENABLE_FLIGHT@Depends:
+@ENABLE_FLIGHT@  ${misc:Depends},
+@ENABLE_FLIGHT@  libarrow-flight-dev (= ${binary:Version}),
+@ENABLE_FLIGHT@  libarrow-glib-dev (= ${binary:Version}),
+@ENABLE_FLIGHT@  libarrow-flight-glib1100 (= ${binary:Version}),
+@ENABLE_FLIGHT@  gir1.2-arrow-flight-1.0 (= ${binary:Version})
+@ENABLE_FLIGHT@Description: Apache Arrow is a data processing library for analysis
+@ENABLE_FLIGHT@ .
+@ENABLE_FLIGHT@ This package provides GLib based header files for Apache Arrow Flight.
+
+@ENABLE_FLIGHT@Package: libarrow-flight-glib-doc
+@ENABLE_FLIGHT@Section: doc
+@ENABLE_FLIGHT@Architecture: any
+@ENABLE_FLIGHT@Multi-Arch: foreign
+@ENABLE_FLIGHT@Depends:
+@ENABLE_FLIGHT@  ${misc:Depends}
+@ENABLE_FLIGHT@Recommends: libarrow-glib-doc
+@ENABLE_FLIGHT@Description: Apache Arrow is a data processing library for analysis
+@ENABLE_FLIGHT@ .
+@ENABLE_FLIGHT@ This package provides documentations for Apache Arrow Flight.
+
+@ENABLE_FLIGHT@Package: libarrow-flight-sql-glib1100
+@ENABLE_FLIGHT@Section: libs
+@ENABLE_FLIGHT@Architecture: any
+@ENABLE_FLIGHT@Multi-Arch: same
+@ENABLE_FLIGHT@Pre-Depends: ${misc:Pre-Depends}
+@ENABLE_FLIGHT@Depends:
+@ENABLE_FLIGHT@  ${misc:Depends},
+@ENABLE_FLIGHT@  ${shlibs:Depends},
+@ENABLE_FLIGHT@  libarrow-flight-glib1100 (= ${binary:Version}),
+@ENABLE_FLIGHT@  libarrow-flight-sql1100 (= ${binary:Version})
+@ENABLE_FLIGHT@Description: Apache Arrow is a data processing library for analysis
+@ENABLE_FLIGHT@ .
+@ENABLE_FLIGHT@ This package provides GLib based library files for Apache Arrow Flight SQL.
+
+@ENABLE_FLIGHT@Package: gir1.2-arrow-flight-sql-1.0
+@ENABLE_FLIGHT@Section: introspection
+@ENABLE_FLIGHT@Architecture: any
+@ENABLE_FLIGHT@Multi-Arch: same
+@ENABLE_FLIGHT@Depends:
+@ENABLE_FLIGHT@  ${gir:Depends},
+@ENABLE_FLIGHT@  ${misc:Depends},
+@ENABLE_FLIGHT@  gir1.2-arrow-flight-1.0 (= ${binary:Version})
+@ENABLE_FLIGHT@Description: Apache Arrow is a data processing library for analysis
+@ENABLE_FLIGHT@ .
+@ENABLE_FLIGHT@ This package provides GObject Introspection typelib files for Apache Arrow
+@ENABLE_FLIGHT@ Flight SQL.
+
+@ENABLE_FLIGHT@Package: libarrow-flight-sql-glib-dev
+@ENABLE_FLIGHT@Section: libdevel
+@ENABLE_FLIGHT@Architecture: any
+@ENABLE_FLIGHT@Multi-Arch: same
+@ENABLE_FLIGHT@Depends:
+@ENABLE_FLIGHT@  ${misc:Depends},
+@ENABLE_FLIGHT@  libarrow-flight-sql-dev (= ${binary:Version}),
+@ENABLE_FLIGHT@  libarrow-flight-glib-dev (= ${binary:Version}),
+@ENABLE_FLIGHT@  libarrow-flight-sql-glib1100 (= ${binary:Version}),
+@ENABLE_FLIGHT@  gir1.2-arrow-flight-sql-1.0 (= ${binary:Version})
+@ENABLE_FLIGHT@Description: Apache Arrow is a data processing library for analysis
+@ENABLE_FLIGHT@ .
+@ENABLE_FLIGHT@ This package provides GLib based header files for Apache Arrow Flight SQL.
+
+@ENABLE_FLIGHT@Package: libarrow-flight-sql-glib-doc
+@ENABLE_FLIGHT@Section: doc
+@ENABLE_FLIGHT@Architecture: any
+@ENABLE_FLIGHT@Multi-Arch: foreign
+@ENABLE_FLIGHT@Depends:
+@ENABLE_FLIGHT@  ${misc:Depends}
+@ENABLE_FLIGHT@Recommends: libarrow-flight-glib-doc
+@ENABLE_FLIGHT@Description: Apache Arrow is a data processing library for analysis
+@ENABLE_FLIGHT@ .
+@ENABLE_FLIGHT@ This package provides documentations for Apache Arrow Flight SQL.
+
+Package: libgandiva-glib1100
 Section: libs
 Architecture: any
 Multi-Arch: same
@@ -575,8 +549,8 @@ Pre-Depends: ${misc:Pre-Depends}
 Depends:
   ${misc:Depends},
   ${shlibs:Depends},
-  libarrow-glib1000 (= ${binary:Version}),
-  libgandiva1000 (= ${binary:Version})
+  libarrow-glib1100 (= ${binary:Version}),
+  libgandiva1100 (= ${binary:Version})
 Description: Gandiva is a toolset for compiling and evaluating expressions
  on Arrow Data.
  .
@@ -603,7 +577,7 @@ Depends:
   ${misc:Depends},
   libgandiva-dev (= ${binary:Version}),
   libarrow-glib-dev (= ${binary:Version}),
-  libgandiva-glib1000 (= ${binary:Version}),
+  libgandiva-glib1100 (= ${binary:Version}),
   gir1.2-gandiva-1.0 (= ${binary:Version})
 Description: Gandiva is a toolset for compiling and evaluating expressions
  on Arrow Data.
@@ -622,7 +596,7 @@ Description: Gandiva is a toolset for compiling and evaluating expressions
  .
  This package provides documentations.
 
-Package: libplasma-glib1000
+Package: libplasma-glib1100
 Section: libs
 Architecture: @CUDA_ARCHITECTURE@
 Multi-Arch: same
@@ -630,8 +604,8 @@ Pre-Depends: ${misc:Pre-Depends}
 Depends:
   ${misc:Depends},
   ${shlibs:Depends},
-  libarrow-cuda-glib1000 (= ${binary:Version}),
-  libplasma1000 (= ${binary:Version})
+  libarrow-cuda-glib1100 (= ${binary:Version}),
+  libplasma1100 (= ${binary:Version})
 Description: Plasma is an in-memory object store and cache for big data.
  .
  This package provides GLib based library files to connect plasma-store-server.
@@ -656,7 +630,7 @@ Depends:
   ${misc:Depends},
   libplasma-dev (= ${binary:Version}),
   libarrow-cuda-glib-dev (= ${binary:Version}),
-  libplasma-glib1000 (= ${binary:Version}),
+  libplasma-glib1100 (= ${binary:Version}),
   gir1.2-plasma-1.0 (= ${binary:Version})
 Description: Plasma is an in-memory object store and cache for big data.
  .
@@ -673,7 +647,7 @@ Description: Plasma is an in-memory object store and cache for big data.
  .
  This package provides documentations.
 
-Package: libparquet-glib1000
+Package: libparquet-glib1100
 Section: libs
 Architecture: any
 Multi-Arch: same
@@ -681,8 +655,8 @@ Pre-Depends: ${misc:Pre-Depends}
 Depends:
   ${misc:Depends},
   ${shlibs:Depends},
-  libarrow-glib1000 (= ${binary:Version}),
-  libparquet1000 (= ${binary:Version})
+  libarrow-glib1100 (= ${binary:Version}),
+  libparquet1100 (= ${binary:Version})
 Description: Apache Parquet is a columnar storage format
  .
  This package provides GLib based library files.
@@ -707,7 +681,7 @@ Depends:
   ${misc:Depends},
   libarrow-glib-dev (= ${binary:Version}),
   libparquet-dev (= ${binary:Version}),
-  libparquet-glib1000 (= ${binary:Version}),
+  libparquet-glib1100 (= ${binary:Version}),
   gir1.2-parquet-1.0 (= ${binary:Version})
 Suggests: libparquet-glib-doc
 Description: Apache Parquet is a columnar storage format
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda-dev.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda-dev.install
index 77e0b70f672..60061f0eece 100644
--- a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda-dev.install
+++ b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda-dev.install
@@ -1,6 +1,4 @@
-usr/lib/*/cmake/arrow/ArrowCUDAConfig*.cmake
-usr/lib/*/cmake/arrow/ArrowCUDATargets*.cmake
-usr/lib/*/cmake/arrow/FindArrowCUDA.cmake
+usr/lib/*/cmake/ArrowCUDA/
 usr/lib/*/libarrow_cuda.a
 usr/lib/*/libarrow_cuda.so
 usr/lib/*/pkgconfig/arrow-cuda.pc
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda-glib1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda-glib1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda-glib1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda-glib1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libarrow-cuda1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-dev.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-dev.install
index 53e727ae052..ec14ed67549 100644
--- a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-dev.install
+++ b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-dev.install
@@ -1,6 +1,4 @@
-usr/lib/*/cmake/arrow/ArrowDatasetConfig*.cmake
-usr/lib/*/cmake/arrow/ArrowDatasetTargets*.cmake
-usr/lib/*/cmake/arrow/FindArrowDataset.cmake
+usr/lib/*/cmake/ArrowDataset/
 usr/lib/*/libarrow_dataset.a
 usr/lib/*/libarrow_dataset.so
 usr/lib/*/pkgconfig/arrow-dataset.pc
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-glib1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-glib1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-glib1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset-glib1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libarrow-dataset1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-dev.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-dev.install
index 40a834ced42..9df014c54ca 100644
--- a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-dev.install
+++ b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-dev.install
@@ -1,11 +1,5 @@
 usr/include/arrow/
-usr/lib/*/cmake/arrow/ArrowConfig*.cmake
-usr/lib/*/cmake/arrow/ArrowOptions.cmake
-usr/lib/*/cmake/arrow/ArrowTargets*.cmake
-usr/lib/*/cmake/arrow/Find*Alt.cmake
-usr/lib/*/cmake/arrow/FindArrow.cmake
-usr/lib/*/cmake/arrow/Find[BTuz]*.cmake
-usr/lib/*/cmake/arrow/arrow-config.cmake
+usr/lib/*/cmake/Arrow/
 usr/lib/*/libarrow.a
 usr/lib/*/libarrow.so
 usr/lib/*/libarrow_bundled_dependencies.a
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-dev.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-dev.install
index 20ca33d8436..a2c49147663 100644
--- a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-dev.install
+++ b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-dev.install
@@ -1,6 +1,4 @@
-usr/lib/*/cmake/arrow/ArrowFlightConfig*.cmake
-usr/lib/*/cmake/arrow/ArrowFlightTargets*.cmake
-usr/lib/*/cmake/arrow/FindArrowFlight.cmake
+usr/lib/*/cmake/ArrowFlight/
 usr/lib/*/libarrow_flight.a
 usr/lib/*/libarrow_flight.so
 usr/lib/*/pkgconfig/arrow-flight.pc
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-glib1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-glib1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-glib1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-glib1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-dev.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-dev.install
index d71e84ff16c..54244343481 100644
--- a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-dev.install
+++ b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-dev.install
@@ -1,6 +1,4 @@
-usr/lib/*/cmake/arrow/ArrowFlightSqlConfig*.cmake
-usr/lib/*/cmake/arrow/ArrowFlightSqlTargets*.cmake
-usr/lib/*/cmake/arrow/FindArrowFlightSql.cmake
+usr/lib/*/cmake/ArrowFlightSql/
 usr/lib/*/libarrow_flight_sql.a
 usr/lib/*/libarrow_flight_sql.so
 usr/lib/*/pkgconfig/arrow-flight-sql.pc
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-glib1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-glib1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-glib1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql-glib1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight-sql1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libarrow-flight1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-glib1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-glib1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libarrow-glib1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libarrow-glib1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-python-dev.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-python-dev.install
deleted file mode 100644
index 807583f9845..00000000000
--- a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-python-dev.install
+++ /dev/null
@@ -1,6 +0,0 @@
-usr/lib/*/cmake/arrow/ArrowPythonConfig*.cmake
-usr/lib/*/cmake/arrow/ArrowPythonTargets*.cmake
-usr/lib/*/cmake/arrow/FindArrowPython.cmake
-usr/lib/*/libarrow_python.a
-usr/lib/*/libarrow_python.so
-usr/lib/*/pkgconfig/arrow-python.pc
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-python-flight-dev.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-python-flight-dev.install
deleted file mode 100644
index 6cf96e227e9..00000000000
--- a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-python-flight-dev.install
+++ /dev/null
@@ -1,6 +0,0 @@
-usr/lib/*/cmake/arrow/ArrowPythonFlightConfig*.cmake
-usr/lib/*/cmake/arrow/ArrowPythonFlightTargets*.cmake
-usr/lib/*/cmake/arrow/FindArrowPythonFlight.cmake
-usr/lib/*/libarrow_python_flight.a
-usr/lib/*/libarrow_python_flight.so
-usr/lib/*/pkgconfig/arrow-python-flight.pc
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-python-flight1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-python-flight1000.install
deleted file mode 100644
index b7cbfec1f05..00000000000
--- a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-python-flight1000.install
+++ /dev/null
@@ -1 +0,0 @@
-usr/lib/*/libarrow_python_flight.so.*
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-python1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow-python1000.install
deleted file mode 100644
index eef3e664837..00000000000
--- a/dev/tasks/linux-packages/apache-arrow/debian/libarrow-python1000.install
+++ /dev/null
@@ -1 +0,0 @@
-usr/lib/*/libarrow_python.so.*
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libarrow1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libarrow1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libarrow1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libarrow1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libgandiva-dev.install b/dev/tasks/linux-packages/apache-arrow/debian/libgandiva-dev.install
index 26e7e76fb38..27790f00a0d 100644
--- a/dev/tasks/linux-packages/apache-arrow/debian/libgandiva-dev.install
+++ b/dev/tasks/linux-packages/apache-arrow/debian/libgandiva-dev.install
@@ -1,7 +1,5 @@
 usr/include/gandiva/
-usr/lib/*/cmake/arrow/GandivaConfig*.cmake
-usr/lib/*/cmake/arrow/GandivaTargets*.cmake
-usr/lib/*/cmake/arrow/FindGandiva.cmake
+usr/lib/*/cmake/Gandiva/
 usr/lib/*/libgandiva.a
 usr/lib/*/libgandiva.so
 usr/lib/*/pkgconfig/gandiva.pc
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libgandiva-glib1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libgandiva-glib1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libgandiva-glib1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libgandiva-glib1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libgandiva1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libgandiva1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libgandiva1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libgandiva1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libparquet-dev.install b/dev/tasks/linux-packages/apache-arrow/debian/libparquet-dev.install
index e163115f035..73c4784adc8 100644
--- a/dev/tasks/linux-packages/apache-arrow/debian/libparquet-dev.install
+++ b/dev/tasks/linux-packages/apache-arrow/debian/libparquet-dev.install
@@ -1,7 +1,5 @@
 usr/include/parquet/
-usr/lib/*/cmake/arrow/ParquetConfig*.cmake
-usr/lib/*/cmake/arrow/ParquetTargets*.cmake
-usr/lib/*/cmake/arrow/FindParquet.cmake
+usr/lib/*/cmake/Parquet/
 usr/lib/*/libparquet.a
 usr/lib/*/libparquet.so
 usr/lib/*/pkgconfig/parquet.pc
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libparquet-glib1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libparquet-glib1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libparquet-glib1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libparquet-glib1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libparquet1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libparquet1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libparquet1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libparquet1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libplasma-dev.install b/dev/tasks/linux-packages/apache-arrow/debian/libplasma-dev.install
index c315d4dfc77..f5fcc3fcaea 100644
--- a/dev/tasks/linux-packages/apache-arrow/debian/libplasma-dev.install
+++ b/dev/tasks/linux-packages/apache-arrow/debian/libplasma-dev.install
@@ -1,7 +1,5 @@
 usr/include/plasma/
-usr/lib/*/cmake/arrow/PlasmaConfig*.cmake
-usr/lib/*/cmake/arrow/PlasmaTargets*.cmake
-usr/lib/*/cmake/arrow/FindPlasma.cmake
+usr/lib/*/cmake/Plasma/
 usr/lib/*/libplasma.a
 usr/lib/*/libplasma.so
 usr/lib/*/pkgconfig/plasma.pc
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libplasma-glib1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libplasma-glib1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libplasma-glib1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libplasma-glib1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/libplasma1000.install b/dev/tasks/linux-packages/apache-arrow/debian/libplasma1100.install
similarity index 100%
rename from dev/tasks/linux-packages/apache-arrow/debian/libplasma1000.install
rename to dev/tasks/linux-packages/apache-arrow/debian/libplasma1100.install
diff --git a/dev/tasks/linux-packages/apache-arrow/debian/rules b/dev/tasks/linux-packages/apache-arrow/debian/rules
index 2f3b694d680..c8d0628efa3 100755
--- a/dev/tasks/linux-packages/apache-arrow/debian/rules
+++ b/dev/tasks/linux-packages/apache-arrow/debian/rules
@@ -21,25 +21,27 @@ override_dh_auto_configure:
 	  ARROW_CUDA=OFF;					\
 	  ARROW_PLASMA=OFF;					\
 	fi;							\
-	if python3 -c 'import numpy' > /dev/null 2>&1; then	\
-	  ARROW_PYTHON=ON;					\
+	if [ $$(arch) = "x86_64" ]; then				\
+	  ARROW_FLIGHT=ON;					\
+	  ARROW_FLIGHT_SQL=ON;					\
 	else							\
-	  ARROW_PYTHON=OFF;					\
+	  ARROW_FLIGHT=OFF;					\
+	  ARROW_FLIGHT_SQL=OFF;					\
 	fi;							\
 	dh_auto_configure					\
 	  --sourcedirectory=cpp					\
 	  --builddirectory=cpp_build				\
 	  --buildsystem=cmake+ninja				\
 	  --							\
+	  -DARROW_BUILD_UTILITIES=ON				\
 	  -DARROW_COMPUTE=ON					\
 	  -DARROW_CSV=ON					\
 	  -DARROW_CUDA=$${ARROW_CUDA}				\
 	  -DARROW_DATASET=ON					\
 	  -DARROW_FILESYSTEM=ON					\
-	  -DARROW_FLIGHT=ON					\
-	  -DARROW_FLIGHT_SQL=ON					\
+	  -DARROW_FLIGHT=$${ARROW_FLIGHT}			\
+	  -DARROW_FLIGHT_SQL=$${ARROW_FLIGHT_SQL}		\
 	  -DARROW_GANDIVA=ON					\
-	  -DARROW_GANDIVA_JAVA=OFF				\
 	  -DARROW_GCS=ON					\
 	  -DARROW_HDFS=ON					\
 	  -DARROW_JSON=ON					\
@@ -48,7 +50,6 @@ override_dh_auto_configure:
 	  -DARROW_PACKAGE_KIND=deb				\
 	  -DARROW_PARQUET=ON					\
 	  -DARROW_PLASMA=$${ARROW_PLASMA}			\
-	  -DARROW_PYTHON=$${ARROW_PYTHON}			\
 	  -DARROW_S3=ON						\
 	  -DARROW_USE_CCACHE=OFF				\
 	  -DARROW_WITH_BROTLI=ON				\
@@ -58,11 +59,9 @@ override_dh_auto_configure:
 	  -DARROW_WITH_ZLIB=ON					\
 	  -DARROW_WITH_ZSTD=ON					\
 	  -DCMAKE_BUILD_TYPE=$(BUILD_TYPE)			\
-	  -DCMAKE_UNITY_BUILD=ON				\
 	  -DCUDAToolkit_ROOT=/usr				\
-	  -DPARQUET_REQUIRE_ENCRYPTION=ON			\
-	  -DPythonInterp_FIND_VERSION=ON			\
-	  -DPythonInterp_FIND_VERSION_MAJOR=3
+	  -DPARQUET_BUILD_EXECUTABLES=ON			\
+	  -DPARQUET_REQUIRE_ENCRYPTION=ON
 
 override_dh_auto_build:
 	dh_auto_build				\
diff --git a/dev/tasks/linux-packages/apache-arrow/yum/almalinux-8/Dockerfile b/dev/tasks/linux-packages/apache-arrow/yum/almalinux-8/Dockerfile
index a75fd022bda..5a5fd903bfc 100644
--- a/dev/tasks/linux-packages/apache-arrow/yum/almalinux-8/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/yum/almalinux-8/Dockerfile
@@ -52,8 +52,6 @@ RUN \
     openssl-devel \
     pkg-config \
     python39 \
-    python39-devel \
-    python39-numpy \
     python39-pip \
     re2-devel \
     # rapidjson-devel \
diff --git a/dev/tasks/linux-packages/apache-arrow/yum/almalinux-9/Dockerfile b/dev/tasks/linux-packages/apache-arrow/yum/almalinux-9/Dockerfile
index df63f7a1a7e..f3ae6295dfb 100644
--- a/dev/tasks/linux-packages/apache-arrow/yum/almalinux-9/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/yum/almalinux-9/Dockerfile
@@ -18,12 +18,15 @@
 ARG FROM=almalinux:9
 FROM ${FROM}
 
+ENV SCL=gcc-toolset-12
+
 ARG DEBUG
 
 RUN \
   quiet=$([ "${DEBUG}" = "yes" ] || echo "--quiet") && \
   dnf install -y ${quiet} epel-release && \
   dnf install --enablerepo=crb -y ${quiet} \
+    ${SCL} \
     bison \
     boost-devel \
     brotli-devel \
@@ -51,8 +54,6 @@ RUN \
     openssl-devel \
     pkg-config \
     python3 \
-    python3-devel \
-    python3-numpy \
     python3-pip \
     re2-devel \
     rapidjson-devel \
diff --git a/dev/tasks/linux-packages/apache-arrow/yum/arrow.spec.in b/dev/tasks/linux-packages/apache-arrow/yum/arrow.spec.in
index 5fe63284d0b..8b4a4a44fd0 100644
--- a/dev/tasks/linux-packages/apache-arrow/yum/arrow.spec.in
+++ b/dev/tasks/linux-packages/apache-arrow/yum/arrow.spec.in
@@ -22,6 +22,8 @@
 %define _amzn %{?amzn:%{amzn}}%{!?amzn:0}
 %define is_amazon_linux (%{_amzn} != 0)
 
+%define is_centos_7 (%{rhel} == 7 && !%{is_amazon_linux})
+
 %define major_version %(echo @VERSION@ | grep -o '^[0-9]*')
 
 %define boost_version %( \
@@ -56,6 +58,12 @@
 %define arrow_cmake_install DESTDIR="%{buildroot}" make -C %{arrow_cmake_builddir} install
 %endif
 
+%if %{is_centos_7}
+%define gcc_package devtoolset-11-gcc
+%else
+%define gcc_package gcc
+%endif
+
 %define use_boost (!%{is_amazon_linux})
 # TODO: Enable this on aarch64 too. This causes timeout on Travis CI.
 %define use_flight (%{rhel} >= 8 && "%{_arch}" != "aarch64")
@@ -64,7 +72,6 @@
 %define use_gflags (!%{is_amazon_linux})
 %define use_glog (%{rhel} <= 8)
 %define use_mimalloc (%{rhel} >= 8)
-%define use_python (%{rhel} >= 8)
 # TODO: Enable this. This works on local but is fragile on GitHub Actions and
 # Travis CI.
 # %%define use_s3 (%%{rhel} >= 8)
@@ -97,7 +104,7 @@ BuildRequires:	c-ares-devel
 BuildRequires:	cmake%{cmake_version}
 BuildRequires:	curl-devel
 BuildRequires:	flex
-BuildRequires:	gcc-c++
+BuildRequires:	%{gcc_package}-c++
 %if %{use_gflags}
 BuildRequires:	gflags-devel
 %endif
@@ -115,10 +122,6 @@ BuildRequires:	lz4-devel %{lz4_requirement}
 BuildRequires:	ninja-build
 BuildRequires:	openssl-devel
 BuildRequires:	pkgconfig
-%if %{use_python}
-BuildRequires:	python%{python_version}-devel
-BuildRequires:	python%{python_version}-numpy
-%endif
 %if %{have_rapidjson}
 BuildRequires:	rapidjson-devel
 %endif
@@ -153,6 +156,7 @@ Apache Arrow is a data processing library for analysis.
 cpp_build_type=release
 cd cpp
 %arrow_cmake \
+  -DARROW_BUILD_UTILITIES=ON \
   -DARROW_CSV=ON \
   -DARROW_DATASET=ON \
 %if %{use_flight}
@@ -174,9 +178,6 @@ cd cpp
   -DARROW_PACKAGE_KIND=rpm \
   -DARROW_PARQUET=ON \
   -DARROW_PLASMA=ON \
-%if %{use_python}
-  -DARROW_PYTHON=ON \
-%endif
 %if %{use_s3}
   -DARROW_S3=ON \
 %endif
@@ -188,11 +189,8 @@ cd cpp
   -DARROW_WITH_ZLIB=ON \
   -DARROW_WITH_ZSTD=ON \
   -DCMAKE_BUILD_TYPE=$cpp_build_type \
+  -DPARQUET_BUILD_EXECUTABLES=ON \
   -DPARQUET_REQUIRE_ENCRYPTION=ON \
-%if %{use_python}
-  -DPythonInterp_FIND_VERSION=ON \
-  -DPythonInterp_FIND_VERSION_MAJOR=3 \
-%endif
   -G"Unix Makefiles"
 %arrow_cmake_build
 cd -
@@ -263,6 +261,20 @@ This package contains the libraries for Apache Arrow C++.
 %license LICENSE.txt NOTICE.txt
 %{_libdir}/libarrow.so.*
 
+%package tools
+Summary:	Tools for Apache Arrow C++
+License:	Apache-2.0
+Requires:	%{name}%{major_version}-libs = %{version}-%{release}
+
+%description tools
+Tools for Apache Arrow C++.
+
+%files tools
+%defattr(-,root,root,-)
+%doc README.md
+%license LICENSE.txt NOTICE.txt
+%{_bindir}/arrow-*
+
 %package devel
 Summary:	Libraries and header files for Apache Arrow C++
 License:	Apache-2.0
@@ -272,6 +284,7 @@ Requires:	bzip2-devel
 %if %{use_flight}
 Requires:	c-ares-devel
 %endif
+Requires:	curl-devel
 %if %{use_gcs}
 Requires:	json-devel
 %endif
@@ -307,29 +320,7 @@ Libraries and header files for Apache Arrow C++.
 %exclude %{_includedir}/arrow/flight/
 %endif
 %exclude %{_includedir}/arrow/python/
-%{_libdir}/cmake/arrow/ArrowConfig*.cmake
-%{_libdir}/cmake/arrow/ArrowOptions.cmake
-%{_libdir}/cmake/arrow/ArrowTargets*.cmake
-%{_libdir}/cmake/arrow/FindArrow.cmake
-%{_libdir}/cmake/arrow/FindBrotli.cmake
-%{_libdir}/cmake/arrow/FindSnappyAlt.cmake
-%if %{have_thrift}
-%{_libdir}/cmake/arrow/FindThrift.cmake
-%endif
-%if %{use_flight}
-%{_libdir}/cmake/arrow/Findc-aresAlt.cmake
-%endif
-%{_libdir}/cmake/arrow/Findlz4Alt.cmake
-%if %{have_re2}
-%{_libdir}/cmake/arrow/Findre2Alt.cmake
-%endif
-%if %{have_utf8proc}
-%{_libdir}/cmake/arrow/Findutf8proc.cmake
-%endif
-%if %{have_zstd}
-%{_libdir}/cmake/arrow/Findzstd.cmake
-%endif
-%{_libdir}/cmake/arrow/arrow-config.cmake
+%{_libdir}/cmake/Arrow/
 %{_libdir}/libarrow.a
 %{_libdir}/libarrow.so
 %{_libdir}/libarrow_bundled_dependencies.a
@@ -368,9 +359,7 @@ Libraries and header files for Apache Arrow dataset.
 %doc README.md
 %license LICENSE.txt NOTICE.txt
 %{_includedir}/arrow/dataset/
-%{_libdir}/cmake/arrow/ArrowDatasetConfig*.cmake
-%{_libdir}/cmake/arrow/ArrowDatasetTargets*.cmake
-%{_libdir}/cmake/arrow/FindArrowDataset.cmake
+%{_libdir}/cmake/ArrowDataset/
 %{_libdir}/libarrow_dataset.a
 %{_libdir}/libarrow_dataset.so
 %{_libdir}/pkgconfig/arrow-dataset.pc
@@ -407,9 +396,7 @@ Libraries and header files for Apache Arrow Flight.
 %license LICENSE.txt NOTICE.txt
 %{_includedir}/arrow/flight/
 %exclude %{_includedir}/arrow/flight/sql/
-%{_libdir}/cmake/arrow/ArrowFlightConfig*.cmake
-%{_libdir}/cmake/arrow/ArrowFlightTargets*.cmake
-%{_libdir}/cmake/arrow/FindArrowFlight.cmake
+%{_libdir}/cmake/ArrowFlight/
 %{_libdir}/libarrow_flight.a
 %{_libdir}/libarrow_flight.so
 %{_libdir}/pkgconfig/arrow-flight.pc
@@ -442,9 +429,7 @@ Libraries and header files for Apache Arrow Flight SQL.
 %doc README.md
 %license LICENSE.txt NOTICE.txt
 %{_includedir}/arrow/flight/sql/
-%{_libdir}/cmake/arrow/ArrowFlightSqlConfig*.cmake
-%{_libdir}/cmake/arrow/ArrowFlightSqlTargets*.cmake
-%{_libdir}/cmake/arrow/FindArrowFlightSql.cmake
+%{_libdir}/cmake/ArrowFlightSql/
 %{_libdir}/libarrow_flight_sql.a
 %{_libdir}/libarrow_flight_sql.so
 %{_libdir}/pkgconfig/arrow-flight-sql.pc
@@ -481,94 +466,12 @@ Libraries and header files for Gandiva.
 %doc README.md
 %license LICENSE.txt NOTICE.txt
 %{_includedir}/gandiva/
-%{_libdir}/cmake/arrow/GandivaConfig*.cmake
-%{_libdir}/cmake/arrow/GandivaTargets*.cmake
-%{_libdir}/cmake/arrow/FindGandiva.cmake
+%{_libdir}/cmake/Gandiva/
 %{_libdir}/libgandiva.a
 %{_libdir}/libgandiva.so
 %{_libdir}/pkgconfig/gandiva.pc
 %endif
 
-%if %{use_python}
-%package -n %{name}%{major_version}-python-libs
-Summary:	Python integration library for Apache Arrow
-License:	Apache-2.0
-Requires:	%{name}%{major_version}-libs = %{version}-%{release}
-Requires:	python%{python_version}-numpy
-
-%description -n %{name}%{major_version}-python-libs
-This package contains the Python integration library for Apache Arrow.
-
-%files -n %{name}%{major_version}-python-libs
-%defattr(-,root,root,-)
-%doc README.md
-%license LICENSE.txt NOTICE.txt
-%{_libdir}/libarrow_python.so.*
-
-%package python-devel
-Summary:	Libraries and header files for Python integration library for Apache Arrow
-License:	Apache-2.0
-Requires:	%{name}%{major_version}-python-libs = %{version}-%{release}
-Requires:	%{name}-devel = %{version}-%{release}
-Requires:	python%{python_version}-devel
-
-%description python-devel
-Libraries and header files for Python integration library for Apache Arrow.
-
-%files python-devel
-%defattr(-,root,root,-)
-%doc README.md
-%license LICENSE.txt NOTICE.txt
-%{_includedir}/arrow/python/
-%exclude %{_includedir}/arrow/python/flight.h
-%{_libdir}/cmake/arrow/ArrowPythonConfig*.cmake
-%{_libdir}/cmake/arrow/ArrowPythonTargets*.cmake
-%{_libdir}/cmake/arrow/FindArrowPython.cmake
-%{_libdir}/libarrow_python.a
-%{_libdir}/libarrow_python.so
-%{_libdir}/pkgconfig/arrow-python.pc
-
-%if %{use_flight}
-%package -n %{name}%{major_version}-python-flight-libs
-Summary:	Python integration library for Apache Arrow Flight
-License:	Apache-2.0
-Requires:	%{name}%{major_version}-flight-libs = %{version}-%{release}
-Requires:	%{name}%{major_version}-python-libs = %{version}-%{release}
-
-%description -n %{name}%{major_version}-python-flight-libs
-This package contains the Python integration library for Apache Arrow Flight.
-
-%files -n %{name}%{major_version}-python-flight-libs
-%defattr(-,root,root,-)
-%doc README.md
-%license LICENSE.txt NOTICE.txt
-%{_libdir}/libarrow_python_flight.so.*
-
-%package python-flight-devel
-Summary:	Libraries and header files for Python integration library for Apache Arrow Flight.
-License:	Apache-2.0
-Requires:	%{name}%{major_version}-python-flight-libs = %{version}-%{release}
-Requires:	%{name}-flight-devel = %{version}-%{release}
-Requires:	%{name}-python-devel = %{version}-%{release}
-
-%description python-flight-devel
-Libraries and header files for Python integration library for
-Apache Arrow Flight.
-
-%files python-flight-devel
-%defattr(-,root,root,-)
-%doc README.md
-%license LICENSE.txt NOTICE.txt
-%{_includedir}/arrow/python/flight.h
-%{_libdir}/cmake/arrow/ArrowPythonFlightConfig*.cmake
-%{_libdir}/cmake/arrow/ArrowPythonFlightTargets*.cmake
-%{_libdir}/cmake/arrow/FindArrowPythonFlight.cmake
-%{_libdir}/libarrow_python_flight.a
-%{_libdir}/libarrow_python_flight.so
-%{_libdir}/pkgconfig/arrow-python-flight.pc
-%endif
-%endif
-
 %package -n plasma%{major_version}-libs
 Summary:	Runtime libraries for Plasma in-memory object store
 License:	Apache-2.0
@@ -611,9 +514,7 @@ Libraries and header files for Plasma in-memory object store.
 %doc README.md
 %license LICENSE.txt NOTICE.txt
 %{_includedir}/plasma/
-%{_libdir}/cmake/arrow/PlasmaConfig*.cmake
-%{_libdir}/cmake/arrow/PlasmaTargets*.cmake
-%{_libdir}/cmake/arrow/FindPlasma.cmake
+%{_libdir}/cmake/Plasma/
 %{_libdir}/libplasma.a
 %{_libdir}/libplasma.so
 %{_libdir}/pkgconfig/plasma*.pc
@@ -633,6 +534,20 @@ This package contains the libraries for Apache Parquet C++.
 %license LICENSE.txt NOTICE.txt
 %{_libdir}/libparquet.so.*
 
+%package -n parquet-tools
+Summary:	Tools for Apache Parquet C++
+License:	Apache-2.0
+Requires:	parquet%{major_version}-libs = %{version}-%{release}
+
+%description -n parquet-tools
+Tools for Apache Parquet C++.
+
+%files -n parquet-tools
+%defattr(-,root,root,-)
+%doc README.md
+%license LICENSE.txt NOTICE.txt
+%{_bindir}/parquet-*
+
 %package -n parquet-devel
 Summary:	Libraries and header files for Apache Parquet C++
 License:	Apache-2.0
@@ -648,9 +563,7 @@ Libraries and header files for Apache Parquet C++.
 %doc README.md
 %license LICENSE.txt NOTICE.txt
 %{_includedir}/parquet/
-%{_libdir}/cmake/arrow/ParquetConfig*.cmake
-%{_libdir}/cmake/arrow/ParquetTargets*.cmake
-%{_libdir}/cmake/arrow/FindParquet.cmake
+%{_libdir}/cmake/Parquet/
 %{_libdir}/libparquet.a
 %{_libdir}/libparquet.so
 %{_libdir}/pkgconfig/parquet*.pc
@@ -668,8 +581,8 @@ This package contains the libraries for Apache Arrow GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_libdir}/girepository-1.0/Arrow-*.typelib
 %{_libdir}/libarrow-glib.so.*
-%{_datadir}/gir-1.0/Arrow-1.0.gir
 
 %package glib-devel
 Summary:	Libraries and header files for Apache Arrow GLib
@@ -686,14 +599,14 @@ Libraries and header files for Apache Arrow GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_datadir}/arrow-glib/example/
+%{_datadir}/gir-1.0/Arrow-*.gir
+%{_datadir}/vala/vapi/arrow-glib.*
 %{_includedir}/arrow-glib/
 %{_libdir}/libarrow-glib.a
 %{_libdir}/libarrow-glib.so
 %{_libdir}/pkgconfig/arrow-glib.pc
 %{_libdir}/pkgconfig/arrow-orc-glib.pc
-%{_libdir}/girepository-1.0/Arrow-1.0.typelib
-%{_datadir}/arrow-glib/example/
-%{_datadir}/vala/vapi/arrow-glib.*
 
 %package glib-doc
 Summary:	Documentation for Apache Arrow GLib
@@ -722,8 +635,8 @@ This package contains the libraries for Apache Arrow Dataset GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_libdir}/girepository-1.0/ArrowDataset-*.typelib
 %{_libdir}/libarrow-dataset-glib.so.*
-%{_datadir}/gir-1.0/ArrowDataset-1.0.gir
 
 %package dataset-glib-devel
 Summary:	Libraries and header files for Apache Arrow Dataset GLib
@@ -739,12 +652,12 @@ Libraries and header files for Apache Arrow Dataset GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_datadir}/gir-1.0/ArrowDataset-*.gir
+%{_datadir}/vala/vapi/arrow-dataset-glib.*
 %{_includedir}/arrow-dataset-glib/
 %{_libdir}/libarrow-dataset-glib.a
 %{_libdir}/libarrow-dataset-glib.so
 %{_libdir}/pkgconfig/arrow-dataset-glib.pc
-%{_libdir}/girepository-1.0/ArrowDataset-1.0.typelib
-%{_datadir}/vala/vapi/arrow-dataset-glib.*
 
 %package dataset-glib-doc
 Summary:	Documentation for Apache Arrow Dataset GLib
@@ -773,8 +686,8 @@ This package contains the libraries for Apache Arrow Flight GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_libdir}/girepository-1.0/ArrowFlight-*.typelib
 %{_libdir}/libarrow-flight-glib.so.*
-%{_datadir}/gir-1.0/ArrowFlight-1.0.gir
 
 %package flight-glib-devel
 Summary:	Libraries and header files for Apache Arrow Flight GLib
@@ -790,12 +703,12 @@ Libraries and header files for Apache Arrow Flight GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_datadir}/gir-1.0/ArrowFlight-*.gir
+%{_datadir}/vala/vapi/arrow-flight-glib.*
 %{_includedir}/arrow-flight-glib/
 %{_libdir}/libarrow-flight-glib.a
 %{_libdir}/libarrow-flight-glib.so
 %{_libdir}/pkgconfig/arrow-flight-glib.pc
-%{_libdir}/girepository-1.0/ArrowFlight-1.0.typelib
-%{_datadir}/vala/vapi/arrow-flight-glib.*
 
 %package flight-glib-doc
 Summary:	Documentation for Apache Arrow Flight GLib
@@ -823,8 +736,8 @@ This package contains the libraries for Apache Arrow Flight SQL GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_libdir}/girepository-1.0/ArrowFlightSQL-*.typelib
 %{_libdir}/libarrow-flight-sql-glib.so.*
-%{_datadir}/gir-1.0/ArrowFlightSQL-1.0.gir
 
 %package flight-sql-glib-devel
 Summary:	Libraries and header files for Apache Arrow Flight SQL GLib
@@ -840,12 +753,12 @@ Libraries and header files for Apache Arrow Flight SQL GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_datadir}/gir-1.0/ArrowFlightSQL-*.gir
+%{_datadir}/vala/vapi/arrow-flight-sql-glib.*
 %{_includedir}/arrow-flight-sql-glib/
 %{_libdir}/libarrow-flight-sql-glib.a
 %{_libdir}/libarrow-flight-sql-glib.so
 %{_libdir}/pkgconfig/arrow-flight-sql-glib.pc
-%{_libdir}/girepository-1.0/ArrowFlightSQL-1.0.typelib
-%{_datadir}/vala/vapi/arrow-flight-sql-glib.*
 
 %package flight-sql-glib-doc
 Summary:	Documentation for Apache Arrow Flight SQL GLib
@@ -875,8 +788,8 @@ This package contains the libraries for Gandiva GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_libdir}/girepository-1.0/Gandiva-*.typelib
 %{_libdir}/libgandiva-glib.so.*
-%{_datadir}/gir-1.0/Gandiva-1.0.gir
 
 %package -n gandiva-glib-devel
 Summary:	Libraries and header files for Gandiva GLib
@@ -892,12 +805,12 @@ Libraries and header files for Gandiva GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_datadir}/gir-1.0/Gandiva-*.gir
+%{_datadir}/vala/vapi/gandiva-glib.*
 %{_includedir}/gandiva-glib/
 %{_libdir}/libgandiva-glib.a
 %{_libdir}/libgandiva-glib.so
 %{_libdir}/pkgconfig/gandiva-glib.pc
-%{_libdir}/girepository-1.0/Gandiva-1.0.typelib
-%{_datadir}/vala/vapi/gandiva-glib.*
 
 %package -n gandiva-glib-doc
 Summary:	Documentation for Gandiva GLib
@@ -926,8 +839,8 @@ This package contains the libraries for Plasma GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_libdir}/girepository-1.0/Plasma-*.typelib
 %{_libdir}/libplasma-glib.so.*
-%{_datadir}/gir-1.0/Plasma-1.0.gir
 
 %package -n plasma-glib-devel
 Summary:	Libraries and header files for Plasma GLib
@@ -943,12 +856,12 @@ Libraries and header files for Plasma GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_datadir}/gir-1.0/Plasma-*gir
+%{_datadir}/vala/vapi/plasma-glib.*
 %{_includedir}/plasma-glib/
 %{_libdir}/libplasma-glib.a
 %{_libdir}/libplasma-glib.so
 %{_libdir}/pkgconfig/plasma-glib.pc
-%{_libdir}/girepository-1.0/Plasma-1.0.typelib
-%{_datadir}/vala/vapi/plasma-glib.*
 
 %package -n plasma-glib-doc
 Summary:	Documentation for Plasma GLib
@@ -976,8 +889,8 @@ This package contains the libraries for Apache Parquet GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_libdir}/girepository-1.0/Parquet-*.typelib
 %{_libdir}/libparquet-glib.so.*
-%{_datadir}/gir-1.0/Parquet-1.0.gir
 
 %package -n parquet-glib-devel
 Summary:	Libraries and header files for Apache Parquet GLib
@@ -993,12 +906,12 @@ Libraries and header files for Apache Parquet GLib.
 %defattr(-,root,root,-)
 %doc README.md
 %license LICENSE.txt NOTICE.txt
+%{_datadir}/gir-1.0/Parquet-*.gir
+%{_datadir}/vala/vapi/parquet-glib.*
 %{_includedir}/parquet-glib/
 %{_libdir}/libparquet-glib.a
 %{_libdir}/libparquet-glib.so
 %{_libdir}/pkgconfig/parquet-glib.pc
-%{_libdir}/girepository-1.0/Parquet-1.0.typelib
-%{_datadir}/vala/vapi/parquet-glib.*
 
 %package -n parquet-glib-doc
 Summary:	Documentation for Apache Parquet GLib
@@ -1014,6 +927,12 @@ Documentation for Apache Parquet GLib.
 %{_datadir}/gtk-doc/html/parquet-glib/
 
 %changelog
+* Wed Jan 18 2023 Raúl Cumplido <raulcumplido@gmail.com> - 11.0.0-1
+- New upstream release.
+
+* Thu Oct 20 2022 Sutou Kouhei <kou@clear-code.com> - 10.0.0-1
+- New upstream release.
+
 * Fri Jul 29 2022 Krisztián Szűcs <szucs.krisztian@gmail.com> - 9.0.0-1
 - New upstream release.
 
diff --git a/dev/tasks/linux-packages/apache-arrow/yum/centos-7/Dockerfile b/dev/tasks/linux-packages/apache-arrow/yum/centos-7/Dockerfile
index 9c93e2f2407..1da8e0fb796 100644
--- a/dev/tasks/linux-packages/apache-arrow/yum/centos-7/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/yum/centos-7/Dockerfile
@@ -18,13 +18,20 @@
 ARG FROM=centos:7
 FROM ${FROM}
 
+ENV \
+  SCL=devtoolset-11
+
 ARG DEBUG
 
 RUN \
   quiet=$([ "${DEBUG}" = "yes" ] || echo "--quiet") && \
   yum update -y ${quiet} && \
-  yum install -y ${quiet} epel-release && \
   yum install -y ${quiet} \
+    centos-release-scl-rh \
+    epel-release && \
+  yum install -y ${quiet} \
+    ${SCL}-gcc-c++ \
+    ${SCL}-make \
     bison \
     boost169-devel \
     brotli-devel \
@@ -33,7 +40,6 @@ RUN \
     cmake3 \
     curl-devel \
     flex \
-    gcc-c++ \
     gflags-devel \
     git \
     glog-devel \
@@ -42,13 +48,10 @@ RUN \
     json-devel \
     libzstd-devel \
     lz4-devel \
-    make \
     ninja-build \
     openssl-devel \
     pkg-config \
     python36 \
-    python36-devel \
-    python36-numpy \
     rapidjson-devel \
     rpmdevtools \
     snappy-devel \
diff --git a/dev/tasks/linux-packages/apache-arrow/yum/centos-8-stream/Dockerfile b/dev/tasks/linux-packages/apache-arrow/yum/centos-8-stream/Dockerfile
index b29cc4565bd..5dba632628a 100644
--- a/dev/tasks/linux-packages/apache-arrow/yum/centos-8-stream/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/yum/centos-8-stream/Dockerfile
@@ -52,8 +52,6 @@ RUN \
     openssl-devel \
     pkg-config \
     python39 \
-    python39-devel \
-    python39-numpy \
     python39-pip \
     re2-devel \
     rapidjson-devel \
diff --git a/dev/tasks/linux-packages/apache-arrow/yum/centos-9-stream/Dockerfile b/dev/tasks/linux-packages/apache-arrow/yum/centos-9-stream/Dockerfile
index 38e6ae4531e..513a63fee81 100644
--- a/dev/tasks/linux-packages/apache-arrow/yum/centos-9-stream/Dockerfile
+++ b/dev/tasks/linux-packages/apache-arrow/yum/centos-9-stream/Dockerfile
@@ -18,12 +18,15 @@
 ARG FROM=quay.io/centos/centos:stream9
 FROM ${FROM}
 
+ENV SCL=gcc-toolset-12
+
 ARG DEBUG
 
 RUN \
   quiet=$([ "${DEBUG}" = "yes" ] || echo "--quiet") && \
   dnf install -y ${quiet} epel-release && \
   dnf install --enablerepo=crb -y ${quiet} \
+    ${SCL} \
     bison \
     boost-devel \
     brotli-devel \
@@ -51,8 +54,6 @@ RUN \
     openssl-devel \
     pkg-config \
     python3 \
-    python3-devel \
-    python3-numpy \
     python3-pip \
     re2-devel \
     rapidjson-devel \
@@ -64,3 +65,11 @@ RUN \
     vala \
     zlib-devel && \
   dnf clean ${quiet} all
+
+# Workaround: We can remove this once redhat-rpm-config uses "annobin"
+# not "gcc-annobin".
+RUN \
+  sed \
+    -i \
+    -e 's/gcc-annobin/annobin/g' \
+    /usr/lib/rpm/redhat/redhat-annobin-select-gcc-built-plugin
diff --git a/dev/tasks/linux-packages/apt/build.sh b/dev/tasks/linux-packages/apt/build.sh
index fd057613e6d..80566f57404 100755
--- a/dev/tasks/linux-packages/apt/build.sh
+++ b/dev/tasks/linux-packages/apt/build.sh
@@ -57,7 +57,7 @@ if which ccache > /dev/null 2>&1; then
   export CCACHE_COMPRESSLEVEL=6
   export CCACHE_DIR="${PWD}/ccache"
   export CCACHE_MAXSIZE=500M
-  ccache --show-stats
+  ccache --show-stats --verbose || :
   debuild_options+=(-eCCACHE_COMPILERCHECK)
   debuild_options+=(-eCCACHE_COMPRESS)
   debuild_options+=(-eCCACHE_COMPRESSLEVEL)
@@ -98,7 +98,7 @@ else
   run debuild "${debuild_options[@]}" "${dpkg_buildpackage_options[@]}" > /dev/null
 fi
 if which ccache > /dev/null 2>&1; then
-  ccache --show-stats
+  ccache --show-stats --verbose || :
 fi
 run cd -
 
diff --git a/dev/tasks/linux-packages/github.linux.amd64.yml b/dev/tasks/linux-packages/github.linux.amd64.yml
index f252a081d67..d6488d5e714 100644
--- a/dev/tasks/linux-packages/github.linux.amd64.yml
+++ b/dev/tasks/linux-packages/github.linux.amd64.yml
@@ -44,7 +44,6 @@ jobs:
           rake version:update
           rake docker:pull || :
           rake --trace {{ task_namespace }}:build BUILD_DIR=build
-          sudo rm -rf */*/build
           popd
         env:
           APT_TARGETS: {{ target }}
@@ -103,5 +102,5 @@ jobs:
           ARROW_VERSION: {{ arrow.version }}
           YUM_TARGETS: {{ target }}
 
-      {% set patterns = upload_extensions | format_all("arrow/dev/tasks/linux-packages/**/*{}") %}
+      {% set patterns = upload_extensions | format_all("arrow/dev/tasks/linux-packages/*/*/repositories/**/*{}") %}
       {{ macros.github_upload_releases(patterns)|indent }}
diff --git a/dev/tasks/linux-packages/helper.rb b/dev/tasks/linux-packages/helper.rb
index 30ac3b8982f..03ff845a1d1 100644
--- a/dev/tasks/linux-packages/helper.rb
+++ b/dev/tasks/linux-packages/helper.rb
@@ -18,6 +18,20 @@
 module Helper
   module ApacheArrow
     private
+    def git_directory?(directory)
+      candidate_paths = [".git", "HEAD"]
+      candidate_paths.any? do |candidate_path|
+        File.exist?(File.join(directory, candidate_path))
+      end
+    end
+
+    def latest_commit_time(git_directory)
+      return nil unless git_directory?(git_directory)
+      cd(git_directory) do
+        return Time.iso8601(`git log -n 1 --format=%aI`.chomp).utc
+      end
+    end
+
     def detect_release_time
       release_time_env = ENV["ARROW_RELEASE_TIME"]
       if release_time_env
diff --git a/dev/tasks/linux-packages/package-task.rb b/dev/tasks/linux-packages/package-task.rb
index 2c259b22a58..aba53c09088 100644
--- a/dev/tasks/linux-packages/package-task.rb
+++ b/dev/tasks/linux-packages/package-task.rb
@@ -77,20 +77,6 @@ def debug_build?
     ENV["DEBUG"] != "no"
   end
 
-  def git_directory?(directory)
-    candidate_paths = [".git", "HEAD"]
-    candidate_paths.any? do |candidate_path|
-      File.exist?(File.join(directory, candidate_path))
-    end
-  end
-
-  def latest_commit_time(git_directory)
-    return nil unless git_directory?(git_directory)
-    cd(git_directory) do
-      return Time.iso8601(`git log -n 1 --format=%aI`.chomp).utc
-    end
-  end
-
   def download(url, output_path)
     if File.directory?(output_path)
       base_name = url.split("/").last
@@ -290,6 +276,8 @@ def apt_targets_default
       # "ubuntu-focal-arm64",
       "ubuntu-jammy",
       # "ubuntu-jammy-arm64",
+      "ubuntu-kinetic",
+      # "ubuntu-kinetic-arm64",
     ]
   end
 
diff --git a/dev/tasks/linux-packages/travis.linux.arm64.yml b/dev/tasks/linux-packages/travis.linux.arm64.yml
index 78a086fc773..d95ab482417 100644
--- a/dev/tasks/linux-packages/travis.linux.arm64.yml
+++ b/dev/tasks/linux-packages/travis.linux.arm64.yml
@@ -79,7 +79,7 @@ before_script:
 
   # Build createrepo_c from source.
   # We can remove them when we can install createrepo_c package
-  - git clone --depth 1 https://github.com/rpm-software-management/createrepo_c.git
+  - git clone --depth 1 --branch 0.20.1 https://github.com/rpm-software-management/createrepo_c.git
   - pushd createrepo_c
   - |
       /usr/bin/cmake \
@@ -120,7 +120,6 @@ script:
         BUILD_DIR=build \
         DEB_BUILD_OPTIONS=parallel=2 \
         RPM_BUILD_NCPUS=2
-  - sudo rm -rf */*/build
   - popd
   # Push Docker image
   - pushd arrow/dev/tasks/linux-packages
@@ -161,5 +160,5 @@ script:
   - popd
 
 after_success:
-  {% set patterns = upload_extensions | format_all("arrow/dev/tasks/linux-packages/**/*{}") %}
+  {% set patterns = upload_extensions | format_all("arrow/dev/tasks/linux-packages/*/*/repositories/**/*{}") %}
   {{ macros.travis_upload_releases(patterns) }}
diff --git a/dev/tasks/linux-packages/yum/build.sh b/dev/tasks/linux-packages/yum/build.sh
index 735b7afa1e5..fad37e3c3c8 100755
--- a/dev/tasks/linux-packages/yum/build.sh
+++ b/dev/tasks/linux-packages/yum/build.sh
@@ -36,6 +36,9 @@ rpmbuild_options=
 if grep -q amazon /etc/system-release-cpe; then
   distribution=$(cut -d ":" -f 5 /etc/system-release-cpe | tr '_' '-')
   distribution_version=$(cut -d ":" -f 6 /etc/system-release-cpe)
+elif grep -q oracle /etc/system-release-cpe; then
+  distribution=oracle-linux
+  distribution_version=$(cut -d ":" -f 5 /etc/system-release-cpe)
 else
   distribution=$(cut -d ":" -f 4 /etc/system-release-cpe)
   distribution_version=$(cut -d ":" -f 5 /etc/system-release-cpe)
@@ -63,7 +66,7 @@ if which ccache > /dev/null 2>&1; then
   export CCACHE_COMPRESSLEVEL=6
   export CCACHE_MAXSIZE=500M
   export CCACHE_DIR="${PWD}/ccache"
-  ccache --show-stats
+  ccache --show-stats --verbose || :
   if [ -d "${lib_directory}/ccache" ]; then
     PATH="${lib_directory}/ccache:$PATH"
   fi
@@ -156,7 +159,7 @@ else
 fi
 
 if which ccache > /dev/null 2>&1; then
-  ccache --show-stats
+  ccache --show-stats --verbose || :
 fi
 
 run mv rpmbuild/RPMS/*/* "${rpm_dir}/"
diff --git a/dev/tasks/macros.jinja b/dev/tasks/macros.jinja
index c7f7c647b7b..9cb0c0f8a84 100644
--- a/dev/tasks/macros.jinja
+++ b/dev/tasks/macros.jinja
@@ -69,31 +69,49 @@ on:
     uses: actions/setup-python@v4
     with:
       python-version: 3.8
+  - name: Checkout Crossbow
+    uses: actions/checkout@v3
+    with:
+      path: crossbow
+      ref: {{ job.branch }}
   - name: Setup Crossbow
     shell: bash
-    run: pip install -e arrow/dev/archery[crossbow-upload]
+    run: pip install -e arrow/dev/archery[crossbow]
   - name: Upload artifacts
     shell: bash
     run: |
       archery crossbow \
-      --queue-path $(pwd) \
-      --queue-remote {{ queue_remote_url }} \
-      upload-artifacts \
-      --sha {{ task.branch }} \
-      --tag {{ task.tag }} \
-    {% if pattern is string %}
-      "{{ pattern }}"
-    {% elif pattern is iterable %}
-      {% for p in pattern %}
-      "{{ p }}" {{ "\\" if not loop.last else "" }}
-      {% endfor %}
-    {% endif %}
+        --queue-path $(pwd)/crossbow \
+        --queue-remote {{ queue_remote_url }} \
+        upload-artifacts \
+        --sha {{ task.branch }} \
+        --tag {{ task.tag }} \
+      {% if pattern is string %}
+        "{{ pattern }}"
+      {% elif pattern is iterable %}
+        {% for p in pattern %}
+        "{{ p }}" {{ "\\" if not loop.last else "" }}
+        {% endfor %}
+      {% endif %}
+    env:
+      CROSSBOW_GITHUB_TOKEN: {{ '${{ secrets.CROSSBOW_GITHUB_TOKEN || secrets.GITHUB_TOKEN }}' }}
+  - name: Verify uploaded artifacts
+    shell: bash
+    run: |
+      archery crossbow \
+        --queue-path $(pwd)/crossbow \
+        --queue-remote {{ queue_remote_url }} \
+        status \
+        --task-filter '{{ task.name }}' \
+        --no-fetch \
+        --validate \
+        {{ job.branch }}
     env:
       CROSSBOW_GITHUB_TOKEN: {{ '${{ secrets.CROSSBOW_GITHUB_TOKEN || secrets.GITHUB_TOKEN }}' }}
 {% endmacro %}
 
 {%- macro github_upload_gemfury(pattern) -%}
-  {%- if arrow.branch == 'master' -%}
+  {%- if arrow.is_default_branch() -%}
   - name: Upload package to Gemfury
     shell: bash
     run: |
@@ -139,7 +157,7 @@ on:
 {% endmacro %}
 
 {%- macro azure_upload_anaconda(pattern) -%}
-  {%- if arrow.branch == 'master' -%}
+  {%- if arrow.is_default_branch() -%}
   - task: CondaEnvironment@1
     inputs:
       packageSpecs: 'anaconda-client'
@@ -169,8 +187,8 @@ on:
 {% endmacro %}
 
 {%- macro travis_upload_releases(pattern) -%}
-  - sudo -H pip3 install pygit2==1.0 cryptography==36
-  - sudo -H pip3 install -e arrow/dev/archery[crossbow-upload]
+  - sudo -H pip3 install pygit2==1.8.0 cryptography==36
+  - sudo -H pip3 install -e arrow/dev/archery[crossbow]
   - |
     archery crossbow \
       --queue-path $(pwd) \
@@ -185,10 +203,20 @@ on:
       "{{ p }}" {{ "\\" if not loop.last else "" }}
       {% endfor %}
     {% endif %}
+  - git fetch origin {{ job.branch }}:remotes/origin/{{ job.branch }}
+  - |
+    archery crossbow \
+      --queue-path $(pwd) \
+      --queue-remote {{ queue_remote_url }} \
+      status \
+      --task-filter '{{ task.name }}' \
+      --no-fetch \
+      --validate \
+      {{ job.branch }}
 {% endmacro %}
 
 {%- macro travis_upload_gemfury(pattern) -%}
-  {%- if arrow.branch == 'master' -%}
+  {%- if arrow.is_default_branch() -%}
   - |
     WHEEL_PATH=$(echo arrow/python/repaired_wheels/*.whl)
     curl \
@@ -207,6 +235,10 @@ on:
       brew unlink python@2 || true
       brew config
       brew doctor || true
+      # The GHA runners install of python > 3.10 is incompatible with brew so we
+      # have to force overwritting of the symlinks
+      # see https://github.com/actions/runner-images/issues/6868
+      brew install --overwrite python@3.11 python@3.10
 
       ARROW_GLIB_FORMULA=$(echo ${ARROW_FORMULA} | sed -e 's/\.rb/-glib.rb/')
       echo "ARROW_GLIB_FORMULA=${ARROW_GLIB_FORMULA}" >> ${GITHUB_ENV}
@@ -215,7 +247,7 @@ on:
           continue
         fi
         # Pin the current commit in the formula to test so that
-        # we're not always pulling from master
+        # we're not always pulling from the tip of the default branch
         sed -i '' -E \
           -e 's@https://github.com/apache/arrow.git"$@{{ arrow.remote }}.git", revision: "{{ arrow.head }}"@' \
           ${formula}
@@ -226,7 +258,22 @@ on:
       done
 {% endmacro %}
 
-{%- macro github_change_r_pkg_version(is_fork, version = '\\2.\'\"$(date +%Y%m%d)\"\'' ) -%}
+{%- macro pin_brew_formulae(is_fork = false) -%}
+{#- This macro expects the cwd to be arrow/r -#}
+      # Copy all *brew formulae
+      cp ../dev/tasks/homebrew-formulae/autobrew/apache-arrow*.rb tools/
+
+      # Pin the git commit in the formula to match
+      cd tools
+      if [ "{{ is_fork }}" == "true" ]; then
+        sed -i.bak -E -e 's/apache\/arrow.git"$/{{ arrow.github_repo.split("/") | join("\/") }}.git", :revision => "'"{{ arrow.head }}"'"/' apache-arrow*.rb
+      else
+        sed -i.bak -E -e 's/arrow.git"$/arrow.git", :revision => "'"{{ arrow.head }}"'"/' apache-arrow*.rb
+      fi
+      rm -f apache-arrow*.rb.bak
+{% endmacro %}
+
+{%- macro github_change_r_pkg_version(is_fork, version) -%}
   - name: Modify version
     shell: bash
     run: |
@@ -236,29 +283,26 @@ on:
         DESCRIPTION
       head DESCRIPTION
       rm -f DESCRIPTION.bak
-      cp ../dev/tasks/homebrew-formulae/autobrew/apache-arrow.rb tools/apache-arrow.rb
 
-      # Pin the git commit in the formula to match
-      cd tools
-      if [ "{{ is_fork }}" == "true" ]; then
-        sed -i.bak -E -e 's/apache\/arrow.git"$/{{ arrow.github_repo.split("/") | join("\/") }}.git", :revision => "'"{{ arrow.head }}"'"/' apache-arrow.rb
-      else
-        sed -i.bak -E -e 's/arrow.git"$/arrow.git", :revision => "'"{{ arrow.head }}"'"/' apache-arrow.rb
-      fi
-      rm -f apache-arrow.rb.bak
+      {{ pin_brew_formulae(is_fork) }}
 {% endmacro %}
 
 {%- macro github_test_r_src_pkg() -%}
-  source("https://raw.githubusercontent.com/apache/arrow/master/ci/etc/rprofile")
+  source("https://raw.githubusercontent.com/apache/arrow/HEAD/ci/etc/rprofile")
+
+  # always remove arrow (mainly for self-hosted runners)
+  try(remove.packages("arrow"), silent = TRUE)
 
   install.packages(
     "arrow",
     repos = c(getOption("arrow.dev_repo"), getOption("repos")),
-    verbose = TRUE
+    verbose = TRUE,
+    INSTALL_opts = "--build"
   )
 
   library(arrow)
   read_parquet(system.file("v0.7.1.parquet", package = "arrow"))
+  print(arrow_info())
 
   # Our Version should always be > CRAN so we would detect a CRAN version here.
   stopifnot(packageVersion("arrow") == {{ '"${{needs.source.outputs.pkg_version}}"' }})
@@ -299,13 +343,61 @@ on:
     # tree not available in git-bash on windows
     run: |
       ls -R repo
-  - name: Add dev repo to .Rprofile
+  - name: Add repos to .Rprofile
     shell: Rscript {0}
     run: |
-      str <- paste0("options(arrow.dev_repo ='file://", getwd(), "/repo' )")
-      print(str)
       profile_path <- file.path(getwd(), ".Rprofile")
+      repo <- paste0("file://", getwd(), "/repo")
+      str <- paste0("options(arrow.repo = '", repo, "' )")
+      print(str)
+      write(str, file = profile_path, append = TRUE)
+      str <- paste0("options(arrow.dev_repo = '", repo, "' )")
+      print(str)
       write(str, file = profile_path, append = TRUE)
       # Set envvar for later steps by appending to $GITHUB_ENV
       write(paste0("R_PROFILE_USER=", profile_path), file = Sys.getenv("GITHUB_ENV"), append = TRUE)
   {% endmacro %}
+
+{# Detect if we are using a fork or the upstream repo #}
+  {% set is_upstream_b = arrow.github_repo == 'apache/arrow' %}
+  {# use filter to cast to string and convert to lowercase to match yaml boolean #}
+  {% set is_fork = (not is_upstream_b)|lower %}
+
+{% set r_release = {"ver": "4.2", "rt" : "42"} %}
+{% set r_oldrel = {"ver": "4.1", "rt" : "40"} %}
+
+{%- macro github_set_env(env) -%}
+  {% if env is defined %}
+    env:
+    {% for key, value in env.items() %}
+      {{ key }}: "{{ value }}"
+    {% endfor %}
+  {% endif %}
+{%- endmacro -%}
+
+{% macro github_set_sccache_envvars(sccache_key_prefix = "sccache") %}
+  {% set sccache_vars =  {
+            "AWS_ACCESS_KEY_ID": '${{ secrets.AWS_ACCESS_KEY_ID }}',
+            "AWS_SECRET_ACCESS_KEY": '${{ secrets.AWS_SECRET_ACCESS_KEY }}',
+            "SCCACHE_BUCKET": '${{ secrets.SCCACHE_BUCKET }}',
+            "SCCACHE_S3_KEY_PREFIX": sccache_key_prefix 
+          }
+ %}
+  {% for key, value in sccache_vars.items() %}
+  {{ key }}: "{{ value }}"
+  {% endfor %}
+{% endmacro %}
+
+{% macro azure_set_sccache_envvars(sccache_key_prefix = "sccache") %}
+  {% set sccache_vars = {
+            "AWS_ACCESS_KEY_ID": '$(AWS_ACCESS_KEY_ID)',
+            "AWS_SECRET_ACCESS_KEY": '$(AWS_SECRET_ACCESS_KEY)',
+            "SCCACHE_BUCKET": '$(SCCACHE_BUCKET)',
+            "SCCACHE_S3_KEY_PREFIX": sccache_key_prefix 
+          }
+  %}
+  {% for key, value in sccache_vars.items() %}
+  {{ key }}: "{{ value }}"
+  {% endfor %}
+{% endmacro %}
+
diff --git a/dev/tasks/nightlies.sample.yml b/dev/tasks/nightlies.sample.yml
index 710f7c0ad37..72ce971f09f 100644
--- a/dev/tasks/nightlies.sample.yml
+++ b/dev/tasks/nightlies.sample.yml
@@ -16,7 +16,7 @@
 # under the License.
 
 # this travis configuration can be used to submit cron scheduled tasks
-# 1. copy this file to one of crossbow's branch (master for example) with
+# 1. copy this file to one of crossbow's branches with
 #    filename .travis.yml
 # 2. setup daily cron jobs for that particular branch, see travis'
 #    documentation https://docs.travis-ci.com/user/cron-jobs/
@@ -36,7 +36,7 @@ before_install:
     - |
       echo ""
       echo "Installing a fresh version of Miniconda."
-      MINICONDA_URL="https://repo.continuum.io/miniconda"
+      MINICONDA_URL="https://repo.anaconda.com/miniconda"
       MINICONDA_FILE="Miniconda3-latest-Linux-x86_64.sh"
       curl -L -O "${MINICONDA_URL}/${MINICONDA_FILE}"
       bash $MINICONDA_FILE -b
diff --git a/dev/tasks/python-minimal-build/github.linux.yml b/dev/tasks/python-minimal-build/github.linux.yml
index 887197d17bf..e776312b93f 100644
--- a/dev/tasks/python-minimal-build/github.linux.yml
+++ b/dev/tasks/python-minimal-build/github.linux.yml
@@ -24,12 +24,7 @@ jobs:
     name: |
       Docker Python Minimal Build {{ flags|default("") }} {{ image }} {{ command|default("") }}
     runs-on: ubuntu-latest
-  {% if env is defined %}
-    env:
-    {% for key, value in env.items() %}
-      {{ key }}: "{{ value }}"
-    {% endfor %}
-  {% endif %}
+{{ macros.github_set_env(env) }}
     steps:
       {{ macros.github_checkout_arrow(submodules=false)|indent }}
 
diff --git a/dev/tasks/python-sdist/github.yml b/dev/tasks/python-sdist/github.yml
index 68371876ab8..ef36e358aa9 100644
--- a/dev/tasks/python-sdist/github.yml
+++ b/dev/tasks/python-sdist/github.yml
@@ -30,7 +30,7 @@ jobs:
       - name: Build sdist
         run: |
           archery docker run python-sdist
-          {% if arrow.branch == 'master' %}
+          {% if arrow.is_default_branch() %}
           archery docker push python-sdist || :
           {% endif %}
         env:
diff --git a/dev/tasks/python-wheels/github.linux.amd64.yml b/dev/tasks/python-wheels/github.linux.amd64.yml
index dc2386482f1..92665170727 100644
--- a/dev/tasks/python-wheels/github.linux.amd64.yml
+++ b/dev/tasks/python-wheels/github.linux.amd64.yml
@@ -21,7 +21,7 @@
 
 jobs:
   build:
-    name: "Build wheel for Manylinux {{ manylinux_version }}"
+    name: "Build wheel for manylinux {{ manylinux_version }}"
     runs-on: ubuntu-latest
     env:
       # archery uses these environment variables
@@ -37,6 +37,11 @@ jobs:
         shell: bash
         run: archery docker run -e SETUPTOOLS_SCM_PRETEND_VERSION={{ arrow.no_rc_version }} python-wheel-manylinux-{{ manylinux_version }}
 
+      - uses: actions/upload-artifact@v3
+        with:
+          name: wheel
+          path: arrow/python/repaired_wheels/*.whl
+
       # TODO(kszucs): auditwheel show
       - name: Test wheel
         shell: bash
@@ -44,10 +49,80 @@ jobs:
           archery docker run python-wheel-manylinux-test-imports
           archery docker run python-wheel-manylinux-test-unittests
 
+      - name: Test wheel on AlmaLinux 8
+        shell: bash
+        if: |
+          '{{ python_version }}' == '3.8'
+        env:
+          ALMALINUX: "8"
+        run: |
+          archery docker run \
+            -e TEST_DEFAULT=0 \
+            -e TEST_PYARROW_VERSION={{ arrow.no_rc_version }} \
+            -e TEST_PYTHON_VERSIONS={{ python_version }} \
+            -e TEST_WHEELS=1 \
+            almalinux-verify-rc
+
+      - name: Test wheel on Ubuntu 18.04
+        shell: bash
+        if: |
+          '{{ python_version }}' == '3.8'
+        env:
+          UBUNTU: "18.04"
+        run: |
+          archery docker run \
+            -e TEST_DEFAULT=0 \
+            -e TEST_PYARROW_VERSION={{ arrow.no_rc_version }} \
+            -e TEST_PYTHON_VERSIONS={{ python_version }} \
+            -e TEST_WHEELS=1 \
+            ubuntu-verify-rc
+
+      - name: Test wheel on Ubuntu 18.04
+        shell: bash
+        if: |
+          '{{ python_version }}' == '3.8'
+        env:
+          UBUNTU: "18.04"
+        run: |
+          archery docker run \
+            -e TEST_DEFAULT=0 \
+            -e TEST_PYARROW_VERSION={{ arrow.no_rc_version }} \
+            -e TEST_PYTHON_VERSIONS={{ python_version }} \
+            -e TEST_WHEELS=1 \
+            ubuntu-verify-rc
+
+      - name: Test wheel on Ubuntu 20.04
+        shell: bash
+        if: |
+          '{{ python_version }}' == '3.8'
+        env:
+          UBUNTU: "20.04"
+        run: |
+          archery docker run \
+            -e TEST_DEFAULT=0 \
+            -e TEST_PYARROW_VERSION={{ arrow.no_rc_version }} \
+            -e TEST_PYTHON_VERSIONS={{ python_version }} \
+            -e TEST_WHEELS=1 \
+            ubuntu-verify-rc
+
+      - name: Test wheel on Ubuntu 22.04
+        shell: bash
+        if: |
+          '{{ python_version }}' == '3.10'
+        env:
+          UBUNTU: "22.04"
+        run: |
+          archery docker run \
+            -e TEST_DEFAULT=0 \
+            -e TEST_PYARROW_VERSION={{ arrow.no_rc_version }} \
+            -e TEST_PYTHON_VERSIONS={{ python_version }} \
+            -e TEST_WHEELS=1 \
+            ubuntu-verify-rc
+
       {{ macros.github_upload_releases("arrow/python/repaired_wheels/*.whl")|indent }}
       {{ macros.github_upload_gemfury("arrow/python/repaired_wheels/*.whl")|indent }}
 
-      {% if arrow.branch == 'master' %}
+      {% if arrow.is_default_branch() %}
       - name: Push Docker Image
         shell: bash
         run: |
diff --git a/dev/tasks/python-wheels/github.osx.amd64.yml b/dev/tasks/python-wheels/github.osx.amd64.yml
index f83a4c1bf52..526412f8421 100644
--- a/dev/tasks/python-wheels/github.osx.amd64.yml
+++ b/dev/tasks/python-wheels/github.osx.amd64.yml
@@ -19,7 +19,6 @@
 {{ macros.github_header() }}
 
 env:
-  ARROW_S3: {{ arrow_s3 }}
   CC: "clang"
   CXX: "clang++"
   MACOSX_DEPLOYMENT_TARGET: "{{ macos_deployment_target }}"
@@ -34,8 +33,8 @@ env:
 
 jobs:
   build:
-    name: Build wheel for OS X
-    runs-on: macos-10.15
+    name: Build wheel for Python {{ python_version }} on macOS
+    runs-on: macos-latest
     env:
       VCPKG_BINARY_SOURCES: 'clear;nuget,GitHub,readwrite'
     steps:
@@ -65,9 +64,9 @@ jobs:
 
       - name: Setup NuGet Credentials
         shell: bash
-        env: 
+        env:
           GITHUB_TOKEN: {{ '${{ secrets.GITHUB_TOKEN }}' }}
-        run: |          
+        run: |
           mono `vcpkg fetch nuget | tail -n 1` \
             sources add \
             -source "https://nuget.pkg.github.com/$GITHUB_REPOSITORY_OWNER/index.json" \
@@ -75,18 +74,13 @@ jobs:
             -name "GitHub" \
             -username "$GITHUB_REPOSITORY_OWNER" \
             -password "$GITHUB_TOKEN" \
-          
+
           mono `vcpkg fetch nuget | tail -n 1` \
             setapikey "$GITHUB_TOKEN" \
             -source "https://nuget.pkg.github.com/$GITHUB_REPOSITORY_OWNER/index.json"
-          
+
       - name: Install Packages
         run: |
-          if [ "${ARROW_S3}" == "ON" ]; then
-            x_feature_s3="--x-feature=s3"
-          else
-            x_feature_s3=
-          fi
           vcpkg install \
             --clean-after-build \
             --x-install-root=${VCPKG_ROOT}/installed \
@@ -95,7 +89,7 @@ jobs:
             --x-feature=gcs \
             --x-feature=json \
             --x-feature=parquet \
-            ${x_feature_s3}
+            --x-feature=s3
 
       - name: Install Python {{ python_version }}
         shell: bash
@@ -109,15 +103,22 @@ jobs:
           pip install --upgrade pip wheel
           PYTHON=python arrow/ci/scripts/python_wheel_macos_build.sh x86_64 $(pwd)/arrow $(pwd)/build
 
-      - name: Test Wheel
+      - uses: actions/upload-artifact@v3
+        with:
+          name: wheel
+          path: arrow/python/repaired_wheels/*.whl
+
+      - name: Test Wheel on AMD64
         shell: bash
+        env:
+          PYTEST_ADDOPTS: "-k 'not test_cancellation'"
         run: |
-          $PYTHON -m venv test-env
-          source test-env/bin/activate
+          $PYTHON -m venv test-amd64-env
+          source test-amd64-env/bin/activate
           pip install --upgrade pip wheel
-          pip install -r arrow/python/requirements-wheel-test.txt
-          PYTHON=python arrow/ci/scripts/install_gcs_testbench.sh default
-          arrow/ci/scripts/python_wheel_unix_test.sh $(pwd)/arrow
+          arch -x86_64 pip install -r arrow/python/requirements-wheel-test.txt
+          PYTHON=python arch -x86_64 arrow/ci/scripts/install_gcs_testbench.sh default
+          arch -x86_64 arrow/ci/scripts/python_wheel_unix_test.sh $(pwd)/arrow
 
       {{ macros.github_upload_releases("arrow/python/repaired_wheels/*.whl")|indent }}
       {{ macros.github_upload_gemfury("arrow/python/repaired_wheels/*.whl")|indent }}
diff --git a/dev/tasks/python-wheels/github.osx.arm64.yml b/dev/tasks/python-wheels/github.osx.arm64.yml
index e5be422e2c3..2c796d162de 100644
--- a/dev/tasks/python-wheels/github.osx.arm64.yml
+++ b/dev/tasks/python-wheels/github.osx.arm64.yml
@@ -39,7 +39,7 @@ env:
 
 jobs:
   build:
-    name: Build wheel for OS X
+    name: Build wheel for Python {{ python_version }} on macOS
     runs-on: ["self-hosted", "macOS", "arm64"]
     steps:
       - name: Cleanup
@@ -58,7 +58,7 @@ jobs:
       - name: Install Vcpkg
         env:
           MACOSX_DEPLOYMENT_TARGET: "11.0"
-        run: arch -arm64 arrow/ci/scripts/install_vcpkg.sh $VCPKG_ROOT $VCPKG_VERSION
+        run:  arrow/ci/scripts/install_vcpkg.sh $VCPKG_ROOT $VCPKG_VERSION
 
       - name: Add Vcpkg to PATH
         run: echo ${VCPKG_ROOT} >> $GITHUB_PATH
@@ -67,7 +67,7 @@ jobs:
         env:
           VCPKG_DEFAULT_TRIPLET: arm64-osx-static-release
         run: |
-           arch -arm64 vcpkg install \
+          vcpkg install \
             --clean-after-build \
             --x-install-root=${VCPKG_ROOT}/installed \
             --x-manifest-root=arrow/ci/vcpkg \
@@ -85,47 +85,12 @@ jobs:
           $PYTHON -m venv build-arm64-env
           source build-arm64-env/bin/activate
           pip install --upgrade pip wheel
-          arch -arm64 arrow/ci/scripts/python_wheel_macos_build.sh arm64 $(pwd)/arrow $(pwd)/build
+          arrow/ci/scripts/python_wheel_macos_build.sh arm64 $(pwd)/arrow $(pwd)/build
 
-      {% if arch == "universal2" %}
-      - name: Install AMD64 Packages
-        env:
-          VCPKG_DEFAULT_TRIPLET: amd64-osx-static-release
-        run: |
-           arch -arm64 vcpkg install \
-            --clean-after-build \
-            --x-install-root=${VCPKG_ROOT}/installed \
-            --x-manifest-root=arrow/ci/vcpkg \
-            --x-feature=flight \
-            --x-feature=gcs \
-            --x-feature=json \
-            --x-feature=parquet \
-            --x-feature=s3
-
-      - name: Build AMD64 Wheel
-        env:
-          ARROW_SIMD_LEVEL: "NONE"
-          VCPKG_DEFAULT_TRIPLET: amd64-osx-static-release
-        run: |
-          $PYTHON -m venv build-amd64-env
-          source build-amd64-env/bin/activate
-          pip install --upgrade pip wheel
-          arch -x86_64 arrow/ci/scripts/python_wheel_macos_build.sh x86_64 $(pwd)/arrow $(pwd)/build
-
-      - name: Fuse AMD64 and ARM64 wheels
-        run: |
-          source build-amd64-env/bin/activate
-          pip install delocate
-
-          amd64_wheel=$(ls arrow/python/repaired_wheels/pyarrow*x86_64.whl)
-          arm64_wheel=$(ls arrow/python/repaired_wheels/pyarrow*arm64.whl)
-          echo "Fusing ${amd64_wheel} and ${arm64_wheel} into an universal2 wheel..."
-          delocate-fuse $amd64_wheel $arm64_wheel -w .
-
-          fused_wheel=$(ls *x86_64.whl)
-          rm arrow/python/repaired_wheels/*.whl
-          mv $fused_wheel arrow/python/repaired_wheels/${fused_wheel/x86_64/universal2}
-      {% endif %}
+      - uses: actions/upload-artifact@v3
+        with:
+          name: wheel
+          path: arrow/python/repaired_wheels/*.whl
 
       - name: Test Wheel on ARM64
         shell: bash
@@ -138,24 +103,10 @@ jobs:
           # libffi has to be installed on the m1 runner which causes issues with 
           # the cffi wheel. We build cffi with the flags pointing to the correct libffi location.
           LDFLAGS=-L$(brew --prefix libffi)/lib CFLAGS=-I$(brew --prefix libffi)/include \
-            arch -arm64 pip install cffi --no-binary :all:
-          arch -arm64 pip install -r arrow/python/requirements-wheel-test.txt
-          PYTHON=python arch -arm64 arrow/ci/scripts/install_gcs_testbench.sh default
-          arch -arm64 arrow/ci/scripts/python_wheel_unix_test.sh $(pwd)/arrow
-
-      {% if arch == "universal2" %}
-      - name: Test Wheel on AMD64
-        shell: bash
-        env:
-          PYTEST_ADDOPTS: "-k 'not test_cancellation'"
-        run: |
-          $PYTHON -m venv test-amd64-env
-          source test-amd64-env/bin/activate
-          pip install --upgrade pip wheel
-          arch -x86_64 pip install -r arrow/python/requirements-wheel-test.txt
-          PYTHON=python arch -x86_64 arrow/ci/scripts/install_gcs_testbench.sh default
-          arch -x86_64 arrow/ci/scripts/python_wheel_unix_test.sh $(pwd)/arrow
-      {% endif %}
+             pip install cffi --no-binary :all:
+           pip install -r arrow/python/requirements-wheel-test.txt
+          PYTHON=python  arrow/ci/scripts/install_gcs_testbench.sh default
+           arrow/ci/scripts/python_wheel_unix_test.sh $(pwd)/arrow
 
       - name: Upload artifacts
         shell: bash
@@ -164,12 +115,12 @@ jobs:
           source crossbow-env/bin/activate
           arch -x86_64 pip install -e arrow/dev/archery[crossbow-upload]
           arch -x86_64 archery crossbow \
-          --queue-path $(pwd) \
-          --queue-remote {{ queue_remote_url }} \
-          upload-artifacts \
-          --sha {{ task.branch }} \
-          --tag {{ task.tag }} \
-          "arrow/python/repaired_wheels/*.whl"
+            --queue-path $(pwd) \
+            --queue-remote {{ queue_remote_url }} \
+            upload-artifacts \
+            --sha {{ task.branch }} \
+            --tag {{ task.tag }} \
+            "arrow/python/repaired_wheels/*.whl"
         env:
           CROSSBOW_GITHUB_TOKEN: {{ "${{ secrets.CROSSBOW_GITHUB_TOKEN || secrets.GITHUB_TOKEN }}" }}
 
diff --git a/dev/tasks/python-wheels/github.windows.yml b/dev/tasks/python-wheels/github.windows.yml
index 6694e9feca6..0db4047951d 100644
--- a/dev/tasks/python-wheels/github.windows.yml
+++ b/dev/tasks/python-wheels/github.windows.yml
@@ -67,7 +67,7 @@ jobs:
       {{ macros.github_upload_releases("arrow/python/dist/*.whl")|indent }}
       {{ macros.github_upload_gemfury("arrow/python/dist/*.whl")|indent }}
 
-      {% if arrow.branch == 'master' %}
+      {% if arrow.is_default_branch() %}
       - name: Push Docker Image
         shell: cmd
         run: |
diff --git a/dev/tasks/python-wheels/travis.linux.arm64.yml b/dev/tasks/python-wheels/travis.linux.arm64.yml
index d32d89d8301..4557624856e 100644
--- a/dev/tasks/python-wheels/travis.linux.arm64.yml
+++ b/dev/tasks/python-wheels/travis.linux.arm64.yml
@@ -66,7 +66,7 @@ after_success:
   {{ macros.travis_upload_releases("arrow/python/repaired_wheels/*.whl") }}
   {{ macros.travis_upload_gemfury("arrow/python/repaired_wheels/*.whl") }}
 
-  {% if arrow.branch == 'master' %}
+  {% if arrow.is_default_branch() %}
   # Push the docker image to dockerhub
   - archery docker push python-wheel-manylinux-{{ manylinux_version }}
   - archery docker push python-wheel-manylinux-test-unittests
diff --git a/dev/tasks/r/azure.linux.yml b/dev/tasks/r/azure.linux.yml
index fd481419610..0cbc70ed00b 100644
--- a/dev/tasks/r/azure.linux.yml
+++ b/dev/tasks/r/azure.linux.yml
@@ -13,6 +13,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
+{% import 'macros.jinja' as macros with context %}
 
 jobs:
   - job: linux
@@ -42,11 +43,13 @@ jobs:
           export R_ORG={{ r_org }}
           export R_IMAGE={{ r_image }}
           export R_TAG={{ r_tag }}
-          export DEVTOOLSET_VERSION={{ devtoolset_version|default("-1") }}
+          export DEVTOOLSET_VERSION={{ devtoolset_version|default("") }}
           export R_CUSTOM_CCACHE={{ r_custom_ccache|default("false") }}
           docker-compose pull --ignore-pull-failures r
           docker-compose build r
         displayName: Docker build
+        env:
+        {{ macros.azure_set_sccache_envvars()|indent(8) }}
 
       - script: |
           set -ex
@@ -59,6 +62,8 @@ jobs:
           # if ARROW_R_DEV=TRUE. Pass `-e NOT_CRAN=false` to turn that off.
           docker-compose run {{ flags|default("") }} r
         displayName: Docker run
+        env:
+        {{ macros.azure_set_sccache_envvars()|indent(8) }}
 
       - script: |
           set -ex
diff --git a/dev/tasks/r/github.linux.arrow.version.back.compat.yml b/dev/tasks/r/github.linux.arrow.version.back.compat.yml
index 5b8e3a4eb2e..795a2076fde 100644
--- a/dev/tasks/r/github.linux.arrow.version.back.compat.yml
+++ b/dev/tasks/r/github.linux.arrow.version.back.compat.yml
@@ -31,13 +31,22 @@ jobs:
     steps:
       {{ macros.github_checkout_arrow()|indent }}
 
-      - uses: r-lib/actions/setup-r@v1
+      - uses: r-lib/actions/setup-r@v2
+      - name: Prepare PKG_CONFIG_PATH for Homebrew
+        run: |
+          # zstd is installed by Homebrew on GitHub Actions.
+          echo "PKG_CONFIG_PATH=$(brew --prefix)/lib/pkgconfig${PKG_CONFIG_PATH:+:${PKG_CONFIG_PATH}}" \
+            >> "$GITHUB_ENV"
       - name: Install dependencies
         run: |
           install.packages(c("remotes", "glue", "sys"))
           remotes::install_deps("arrow/r", dependencies = TRUE)
         shell: Rscript {0}
+      - name: Install sccache
+        run: arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
       - name: Install Arrow
+        env:
+        {{ macros.github_set_sccache_envvars()|indent(8) }}  
         run: |
           cd arrow/r
           R CMD INSTALL .
@@ -78,7 +87,7 @@ jobs:
     steps:
       {{ macros.github_checkout_arrow()|indent }}
 
-      - uses: r-lib/actions/setup-r@v1
+      - uses: r-lib/actions/setup-r@v2
         with:
           r-version: {{ '${{ matrix.config.r }}' }}
       - name: Install old Arrow
diff --git a/dev/tasks/r/github.linux.cran.yml b/dev/tasks/r/github.linux.cran.yml
index 5da0b377dd9..0aeb7cfa2b4 100644
--- a/dev/tasks/r/github.linux.cran.yml
+++ b/dev/tasks/r/github.linux.cran.yml
@@ -44,6 +44,8 @@ jobs:
 
       - name: Docker Run
         shell: bash
+        env:
+        {{ macros.github_set_sccache_envvars()|indent(8)}}
         # setting ARROW_SOURCE_HOME='' here ensures that we use the cpp source copied into tools/
         run: archery docker run -e ARROW_SOURCE_HOME='' r
       - name: Dump install logs
diff --git a/dev/tasks/r/github.linux.offline.build.yml b/dev/tasks/r/github.linux.offline.build.yml
index 29ff4250ec0..b116accda89 100644
--- a/dev/tasks/r/github.linux.offline.build.yml
+++ b/dev/tasks/r/github.linux.offline.build.yml
@@ -31,7 +31,7 @@ jobs:
     steps:
       {{ macros.github_checkout_arrow()|indent }}
 
-      - uses: r-lib/actions/setup-r@v1
+      - uses: r-lib/actions/setup-r@v2
       - name: Pull Arrow dependencies
         run: |
           cd arrow/r
@@ -58,7 +58,7 @@ jobs:
     steps:
       {{ macros.github_checkout_arrow()|indent }}
 
-      - uses: r-lib/actions/setup-r@v1
+      - uses: r-lib/actions/setup-r@v2
       - name: Download artifacts
         uses: actions/download-artifact@v2
         with:
@@ -66,8 +66,12 @@ jobs:
           path: arrow/r/
       - name: Install system dependencies
         run: |
-          sudo apt-get update
-          sudo apt install libcurl4-openssl-dev libssl-dev
+          sudo arrow/ci/scripts/r_install_system_dependencies.sh
+          arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
+        env:
+          ARROW_GCS: "ON"
+          ARROW_S3: "ON"
+          ARROW_SOURCE_HOME: arrow
       - name: Install dependencies
         run: |
           install.packages(c("remotes", "glue", "sys"))
@@ -77,6 +81,7 @@ jobs:
         env:
           TEST_OFFLINE_BUILD: true
           LIBARROW_MINIMAL: false
+        {{ macros.github_set_sccache_envvars()|indent(8)}}
         run: |
           cd arrow/r
           R CMD INSTALL --install-tests --no-test-load --no-docs --no-help --no-byte-compile arrow_with_deps.tar.gz
diff --git a/dev/tasks/r/github.linux.rchk.yml b/dev/tasks/r/github.linux.rchk.yml
index 9854e885f7a..2e2c91061af 100644
--- a/dev/tasks/r/github.linux.rchk.yml
+++ b/dev/tasks/r/github.linux.rchk.yml
@@ -48,7 +48,7 @@ jobs:
           docker run -v `pwd`/packages:/rchk/packages kalibera/rchk:latest /rchk/packages/arrow_*.tar.gz |& tee rchk.out
       - name: Confirm that rchk has no errors
         # Suspicious call, [UP], and [PB] are all of the error types currently at
-        # https://github.com/kalibera/cran-checks/tree/master/rchk/results
+        # https://github.com/kalibera/cran-checks/tree/HEAD/rchk/results
         # though this might not be exhaustive, there does not appear to be a way to have rchk return an error code
         # CRAN also will remove some of the outputs (especially those related to Rcpp and strptime, e.g.
         # ERROR: too many states (abstraction error?))
diff --git a/dev/tasks/r/github.linux.revdepcheck.yml b/dev/tasks/r/github.linux.revdepcheck.yml
deleted file mode 100644
index 7f37fc10802..00000000000
--- a/dev/tasks/r/github.linux.revdepcheck.yml
+++ /dev/null
@@ -1,57 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-{% import 'macros.jinja' as macros with context %}
-
-{{ macros.github_header() }}
-
-jobs:
-  r-versions:
-    name: "rstudio/r-base:latest-focal"
-    runs-on: ubuntu-latest
-    strategy:
-      fail-fast: false
-    env:
-      R_ORG: "rstudio"
-      R_IMAGE: "r-base"
-      R_TAG: "latest-focal"
-      ARROW_R_DEV: "TRUE"
-    steps:
-      {{ macros.github_checkout_arrow()|indent }}
-      {{ macros.github_install_archery()|indent }}
-
-      - name: Docker Run
-        shell: bash
-        run: archery docker run r-revdepcheck
-      - name: revdepcheck CRAN report
-        if: always()
-        shell: bash
-        run: cat arrow/r/revdep/cran.md
-      - name: revdepcheck failures
-        if: always()
-        shell: bash
-        run: cat arrow/r/revdep/failures.md
-      - name: revdepcheck problems
-        if: always()
-        shell: bash
-        run: cat arrow/r/revdep/problems.md
-      - name: Save the revdep output
-        if: always()
-        uses: actions/upload-artifact@v2
-        with:
-          name: revdepcheck-folder
-          path: arrow/r/revdep
diff --git a/dev/tasks/r/github.linux.versions.yml b/dev/tasks/r/github.linux.versions.yml
index b8ebc9c2325..07e55dda6be 100644
--- a/dev/tasks/r/github.linux.versions.yml
+++ b/dev/tasks/r/github.linux.versions.yml
@@ -46,6 +46,8 @@ jobs:
 
       - name: Docker Run
         shell: bash
+        env:
+        {{ macros.github_set_sccache_envvars()|indent(8)}}  
         run: archery docker run r
       - name: Dump install logs
         run: cat arrow/r/check/arrow.Rcheck/00install.out
diff --git a/dev/tasks/r/github.macos-linux.local.yml b/dev/tasks/r/github.macos-linux.local.yml
index e2363e0b967..520965e8ad1 100644
--- a/dev/tasks/r/github.macos-linux.local.yml
+++ b/dev/tasks/r/github.macos-linux.local.yml
@@ -23,6 +23,12 @@ jobs:
   autobrew:
     name: "install from local source"
     runs-on: {{ "${{ matrix.os }}" }}
+  {% if env is defined %}
+    env:
+    {% for key, value in env.items() %}
+      {{ key }}: "{{ value }}"
+    {% endfor %}
+  {% endif %}
     strategy:
       fail-fast: false
       matrix:
@@ -32,29 +38,30 @@ jobs:
       {{ macros.github_checkout_arrow()|indent }}
 
       - name: Configure non-autobrew dependencies (macos)
+        if: contains(matrix.os, 'macOS')
         run: |
-          cd arrow/r
           brew install openssl
-        if: contains(matrix.os, 'macOS')
+          brew install sccache
       - name: Configure non-autobrew dependencies (linux)
-        run: |
-          cd arrow/r
-          sudo apt-get update
-          sudo apt install libcurl4-openssl-dev libssl-dev
         if: contains(matrix.os, 'ubuntu')
-      - uses: r-lib/actions/setup-r@v1
-      - name: Install dependencies
-        run: |
-          install.packages("remotes")
-          remotes::install_deps("arrow/r", dependencies = TRUE)
-          remotes::install_cran(c("rcmdcheck", "sys", "sessioninfo"))
-        shell: Rscript {0}
-      - name: Session info
         run: |
-          options(width = 100)
-          pkgs <- installed.packages()[, "Package"]
-          sessioninfo::session_info(pkgs, include_base = TRUE)
-        shell: Rscript {0}
+          sudo env \
+            ARROW_GCS=ON \
+            ARROW_S3=ON \
+            ARROW_SOURCE_HOME=arrow \
+            arrow/ci/scripts/r_install_system_dependencies.sh
+          arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
+      - uses: r-lib/actions/setup-r@v2
+        with:
+          use-public-rspm: true
+      - name: Install dependencies
+        uses: r-lib/actions/setup-r-dependencies@v2
+        with:
+          cache: false # cache does not work on across branches
+          working-directory: arrow/r
+          extra-packages: |
+            any::rcmdcheck
+            any::sys
       - name: Install
         env:
           _R_CHECK_CRAN_INCOMING_: false
@@ -62,7 +69,9 @@ jobs:
           FORCE_BUNDLED_BUILD: true
           LIBARROW_MINIMAL: false
           ARROW_R_DEV: TRUE
+        {{ macros.github_set_sccache_envvars()|indent(8)}}
         run: |
+          sccache --start-server
           cd arrow/r
           R CMD INSTALL . --install-tests
       - name: Run the tests
diff --git a/dev/tasks/r/github.macos.autobrew.yml b/dev/tasks/r/github.macos.autobrew.yml
index c6c56277de9..67157e854ff 100644
--- a/dev/tasks/r/github.macos.autobrew.yml
+++ b/dev/tasks/r/github.macos.autobrew.yml
@@ -16,44 +16,62 @@
 # under the License.
 
 {% import 'macros.jinja' as macros with context %}
+{% set is_fork = macros.is_fork %}
 
 {{ macros.github_header() }}
 
 jobs:
   autobrew:
-    name: "Autobrew"
-    runs-on: macOS-10.15
+    name: "Autobrew {{ '${{ matrix.platform }} R ${{ matrix.r-version }}' }}"
+    runs-on: {{ "${{ matrix.platform }}" }}
+    strategy:
+      fail-fast: false
+      matrix:
+          platform:
+            - macos-11
+            - macos-10.13 # self-hosted
+          r-version:
+            - "{{ macros.r_release.ver }}"
+            - "{{ macros.r_oldrel.ver }}"
     steps:
       {{ macros.github_checkout_arrow()|indent }}
-
       - name: Configure autobrew script
         run: |
+          # minio and sccache are pre-installed on the self-hosted 10.13 runner
+          if [ {{ '${{ matrix.platform }}' }} != macos-10.13  ]; then
+            # install minio for tests
+            brew install minio
+            brew install sccache
+          fi
           cd arrow/r
-          # Put the formula inside r/ so that it's included in the package build
-          cp ../dev/tasks/homebrew-formulae/autobrew/apache-arrow.rb tools/apache-arrow.rb
-          # Pin the current commit in the formula to test so that we're not always pulling from master
-          sed -i.bak -E -e 's@https://github.com/apache/arrow.git"$@{{ arrow.remote }}.git", :revision => "{{ arrow.head }}"@' tools/apache-arrow.rb && rm -f tools/apache-arrow.rb.bak
-          # Sometimes crossbow gives a remote URL with .git and sometimes not. Make sure there's only one
-          sed -i.bak -E -e 's@.git.git@.git@' tools/apache-arrow.rb && rm -f tools/apache-arrow.rb.bak
-          # Get minio for S3 testing
-          brew install minio
-      - uses: r-lib/actions/setup-r@v1
-      - name: Install dependencies
-        run: |
-          install.packages("remotes")
-          remotes::install_deps("arrow/r", dependencies = TRUE)
-          remotes::install_cran(c("rcmdcheck", "sys", "sessioninfo"))
-        shell: Rscript {0}
-      - name: Session info
+          {{ macros.pin_brew_formulae(is_fork)|indent }}
+      - uses: r-lib/actions/setup-r@v2
+        if: matrix.platform != 'macos-10.13'
+        with:
+          r-version: {{ '${{ matrix.r-version }}' }}
+          use-public-rspm: true
+      - name: Setup R
+        if: matrix.platform == 'macos-10.13'
         run: |
-          options(width = 100)
-          pkgs <- installed.packages()[, "Package"]
-          sessioninfo::session_info(pkgs, include_base = TRUE)
-        shell: Rscript {0}
+          # rig is a system utility that allows for switching
+          # between pre-installed R version on the self-hosted runners
+          rig default {{ '${{ matrix.r-version }}' }}
+          rig system setup-user-lib
+          rig system add-pak 
+      - uses: r-lib/actions/setup-r-dependencies@v2
+        with:
+          working-directory: 'arrow/r'
+          extra-packages: |
+            any::rcmdcheck
+            any::sys
+            any::readr
       - name: Check
         env:
           _R_CHECK_CRAN_INCOMING_: false
+          NOT_CRAN: true
           ARROW_USE_PKG_CONFIG: false
+          ARROW_R_DEV: true
+        {{ macros.github_set_sccache_envvars()|indent(8)}}  
         run: arrow/ci/scripts/r_test.sh arrow
       - name: Dump install logs
         run: cat arrow/r/check/arrow.Rcheck/00install.out
diff --git a/dev/tasks/r/github.macos.brew.yml b/dev/tasks/r/github.macos.brew.yml
index a403a655954..7cf86d999db 100644
--- a/dev/tasks/r/github.macos.brew.yml
+++ b/dev/tasks/r/github.macos.brew.yml
@@ -27,15 +27,22 @@ jobs:
       {{ macros.github_checkout_arrow()|indent }}
 
       {{ macros.configure_homebrew_arrow(formula)|indent }}
-
       - name: Install apache-arrow
+        env:
+        {{ macros.github_set_sccache_envvars()|indent(8)}}  
         run: |
+          
+          brew install sccache
+          # for testing
+          brew install minio
+          
+          # TODO: Update the TODO for ARROW-16907 below to refer to main instead of master
+          #       after migrating the default branch to main.
           # TODO(ARROW-16907): apache/arrow@master seems to be installed already
           # so this does nothing on a branch/PR
           brew install -v --HEAD apache-arrow
-          # for testing
-          brew install minio
-      - uses: r-lib/actions/setup-r@v1
+
+      - uses: r-lib/actions/setup-r@v2
       - name: Install dependencies
         run: |
           install.packages("remotes")
diff --git a/dev/tasks/r/github.packages.yml b/dev/tasks/r/github.packages.yml
index 6e46b3ff439..b02fc0ade5c 100644
--- a/dev/tasks/r/github.packages.yml
+++ b/dev/tasks/r/github.packages.yml
@@ -17,16 +17,7 @@
 
 {% import 'macros.jinja' as macros with context %}
 
-# This allows us to set a custom version via param:
-# crossbow submit --param custom_version=8.5.3 r-binary-packages
-# if the param is unset defaults to the usual Ymd naming scheme
-{% set package_version = custom_version|default("\\2.\'\"$(date +%Y%m%d)\"\'") %}
-# We need this as boolean and string
-{% set is_upstream_b = arrow.github_repo == 'apache/arrow' %}
-# use filter to cast to string and convert to lowercase to match yaml boolean
-{% set is_fork = (not is_upstream_b)|lower %}
-{% set is_upstream = is_upstream_b|lower %}
-
+{% set is_fork = macros.is_fork %}
 
 {{ macros.github_header() }}
 
@@ -40,12 +31,12 @@ jobs:
       pkg_version: {{ '${{ steps.save-version.outputs.pkg_version }}' }}
     steps:
       {{ macros.github_checkout_arrow()|indent }}
-      {{ macros.github_change_r_pkg_version(is_fork, package_version)|indent }}
+      {{ macros.github_change_r_pkg_version(is_fork, arrow.no_rc_r_version)|indent }}
       - name: Save Version
         id: save-version
         shell: bash
         run: |
-          echo "::set-output name=pkg_version::$(grep ^Version arrow/r/DESCRIPTION | sed s/Version:\ //)"
+          echo "pkg_version=$(grep ^Version arrow/r/DESCRIPTION | sed s/Version:\ //)" >> $GITHUB_OUTPUT
 
       - uses: r-lib/actions/setup-r@v2
         with:
@@ -82,10 +73,12 @@ jobs:
       {{ macros.github_checkout_arrow()|indent }}
       {{ macros.github_change_r_pkg_version(is_fork, '${{ needs.source.outputs.pkg_version }}')|indent }}
       {{ macros.github_install_archery()|indent }}
+
       - name: Build libarrow
         shell: bash
         env:
-          UBUNTU: {{ '${{ matrix.config.version}}' }}
+          UBUNTU: {{ '"${{ matrix.config.version }}"' }}
+        {{ macros.github_set_sccache_envvars()|indent(8) }}
         run: |
           sudo sysctl -w kernel.core_pattern="core.%e.%p"
           ulimit -c unlimited
@@ -114,19 +107,20 @@ jobs:
       - run: git config --global core.autocrlf false
       {{ macros.github_checkout_arrow()|indent }}
       {{ macros.github_change_r_pkg_version(is_fork, '${{ needs.source.outputs.pkg_version }}')|indent }}
-
       - uses: r-lib/actions/setup-r@v2
         with:
           rtools-version: 40
           r-version: "4.0"
           Ncpus: 2
-
+      - name: Install sccache
+        shell: bash
+        run: arrow/ci/scripts/install_sccache.sh pc-windows-msvc $(pwd)/sccache
       - name: Build Arrow C++ with rtools40
         shell: bash
         env:
           ARROW_HOME: "arrow"
+        {{ macros.github_set_sccache_envvars()|indent(8) }}
         run: arrow/ci/scripts/r_windows_build.sh
-
       - name: Upload binary artifact
         uses: actions/upload-artifact@v3
         with:
@@ -135,43 +129,62 @@ jobs:
 
   r-packages:
     needs: [source, windows-cpp]
-    name: {{ '${{ matrix.platform }} ${{ matrix.r_version.r }}' }}
-    runs-on: {{ '${{ matrix.platform }}' }}
+    name: {{ '${{ matrix.platform.name }} ${{ matrix.r_version.r }}' }}
+    runs-on: {{ '${{ matrix.platform.runs_on }}' }}
     strategy:
       fail-fast: false
       matrix:
         platform:
-          - windows-latest
-          # This is newer than what CRAN builds on, but Travis is no longer an option for us, so...
-          - macos-10.15
-          # - devops-managed # No M1 until the runner application runs native
+          - { runs_on: 'windows-latest', name: "Windows"}
+          - { runs_on: ["self-hosted", "macos-10.13"], name: "macOS High Sierra"}
+          - { runs_on: ["self-hosted", "macOS", "arm64", "devops-managed"], name: "macOS Big Sur" }
         r_version:
-          - { rtools: 40, r: "4.1" }
-          - { rtools: 42, r: "4.2" }
+          - { rtools: "{{ macros.r_release.rt }}", r: "{{ macros.r_release.ver }}" }
+          - { rtools: "{{ macros.r_oldrel.rt }}", r: "{{ macros.r_oldrel.ver }}" }
     steps:
       - uses: r-lib/actions/setup-r@v2
+        # expression marker prevents the ! being parsed as yaml tag
+        if: {{ "${{ !contains(matrix.platform.runs_on, 'self-hosted') }}" }}
         with:
           r-version: {{ '${{ matrix.r_version.r }}' }}
           rtools-version: {{ '${{ matrix.r_version.rtools }}' }}
-          Ncpus: 2
+      - name: Setup R Self-Hosted
+        if: contains(matrix.platform.runs_on, 'self-hosted')
+        run: |
+          if [ "{{ "${{ contains(matrix.platform.runs_on, 'arm64') }}" }}" == "true" ]; then
+            rig_arch="-arm64"
+          fi
+          # rig is a system utility that allows for switching
+          # between pre-installed R version on the self-hosted runners
+          rig default {{ '${{ matrix.r_version.r }}' }}$rig_arch
+
+          rig system setup-user-lib
+          rig system add-pak
       {{ macros.github_setup_local_r_repo(false, true)|indent }}
+      - name: Prepare Dependency Installation
+
+        shell: bash
+        run: |
+          tar -xzf repo/src/contrib/arrow_*.tar.gz arrow/DESCRIPTION
+      - name: Install dependencies
+        uses: r-lib/actions/setup-r-dependencies@v2
+        with:
+           working-directory: 'arrow'
+           extra-packages: cpp11
+      - name: Install sccache
+        if: startsWith(matrix.platform, 'macos')
+        run: brew install sccache
       - name: Build Binary
         id: build
         shell: Rscript {0}
         env:
+          NOT_CRAN: "true" # actions/setup-r sets this implicitly
           ARROW_R_DEV: TRUE
+          # sccache for macos
+        {{ macros.github_set_sccache_envvars()|indent(8) }}
         run: |
           on_windows <- tolower(Sys.info()[["sysname"]]) == "windows"
 
-          # Install dependencies by installing (yesterday's) binary, then removing it
-          install.packages(c("arrow", "cpp11"),
-            type = "binary",
-            repos = c("https://nightlies.apache.org/arrow/r", "https://cloud.r-project.org")
-          )
-
-          cat("Remove old arrow version.\n")
-          remove.packages("arrow")
-
           # Build
           Sys.setenv(MAKEFLAGS = paste0("-j", parallel::detectCores()))
           INSTALL_opts <- "--build"
@@ -180,6 +193,9 @@ jobs:
             INSTALL_opts <- c(INSTALL_opts, "--strip")
           }
 
+          # always remove arrow (mainly for self-hosted runners)
+          try(remove.packages("arrow"), silent = TRUE)
+
           cat("Install arrow from dev repo.\n")
           install.packages(
             "arrow",
@@ -195,14 +211,14 @@ jobs:
 
           # encode contrib.url for artifact name
           cmd <- paste0(
-            "::set-output name=path::",
+            "path=",
             gsub(
               "/", "__",
               contrib.url("", type = "binary")
             ),
             "\n"
           )
-          cat(cmd)
+          cat(cmd, file = Sys.getenv("GITHUB_OUTPUT"), append = TRUE)
 
       - name: Upload binary artifact
         uses: actions/upload-artifact@v3
@@ -233,11 +249,7 @@ jobs:
           - {image: "rocker/r-ver:4.0.0"} # ubuntu-20.04
           - {image: "rocker/r-ver:3.6.3", libarrow_binary: "TRUE"} # debian:buster (10)
           - {image: "rstudio/r-base:4.1-bionic"} # ubuntu-18.04
-          - {image: "rstudio/r-base:4.2-centos7"}
-          # Even with devtoolset-8, binaries fail because glibc is older than
-          # what we build with on ubuntu-18.04 (uncomment to see the error)
-          # TODO(ARROW-16976): build binaries with older glibc
-          # - {image: "rstudio/r-base:4.2-centos7", devtoolset: "8"}
+          - {image: "rstudio/r-base:4.2-centos7", devtoolset: "8"}
     steps:
       # Get the arrow checkout just for the docker config scripts
       # Don't need submodules for this (hence false arg to macro): they fail on
@@ -259,16 +271,42 @@ jobs:
           ARROW_R_DEV: "TRUE"
           LIBARROW_BUILD: "FALSE"
           LIBARROW_BINARY: {{ '${{ matrix.config.libarrow_binary }}' }}
-          DEVTOOLSET_VERSION: {{ '${{ matrix.config.devtoolset }}' }}
         shell: bash
         run: |
-          if [[ "$DEVTOOLSET_VERSION" -gt 0 ]]; then
-            # enable the devtoolset version to use it
-            source /opt/rh/devtoolset-$DEVTOOLSET_VERSION/enable
-          fi
           Rscript -e '
           {{  macros.github_test_r_src_pkg()|indent(8) }}
           '
+      - name: Upload binary artifact
+        if: matrix.config.devtoolset
+        uses: actions/upload-artifact@v3
+        with:
+          name: r-pkg_centos7
+          path: arrow_*
+  test-centos-binary:
+    needs: test-linux-binary
+    runs-on: ubuntu-latest
+    container: "rstudio/r-base:4.2-centos7"
+    steps:
+      - uses: actions/download-artifact@v3
+        with:
+          name: r-pkg_centos7
+      - name: Install DTS Package
+        shell: Rscript {0}
+        run: |
+          pkg <- list.files(pattern = "arrow_*")
+          if(length(pkg) > 1) {
+            pkg <- pkg[[1]]
+            warning("Multiple packages found! Using first one.")
+          }
+
+          # Install dependencies from RSPM
+          install.packages("arrow", repos = "https://packagemanager.rstudio.com/all/__linux__/centos7/latest")
+          remove.packages("arrow")
+
+          install.packages(pkg)
+          library(arrow)
+          read_parquet(system.file("v0.7.1.parquet", package = "arrow"))
+          print(arrow_info())
 
   test-source:
     needs: source
@@ -280,10 +318,29 @@ jobs:
         with:
           install-r: false
       {{ macros.github_setup_local_r_repo(false, false)|indent }}
+      {{ macros.github_checkout_arrow()|indent }}
+      - name: Install sccache
+        shell: bash
+        run: |
+          arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin
+      - name: Install R package system dependencies
+        run: |
+          sudo arrow/ci/scripts/r_install_system_dependencies.sh
+        env:
+          ARROW_GCS: "ON"
+          ARROW_S3: "ON"
+          ARROW_SOURCE_HOME: arrow
+      - name: Remove arrow/
+        run: |
+          rm -rf arrow/
+      - name: Enable parallel build
+        run: |
+          echo "MAKEFLAGS=-j$(nproc)" >> $GITHUB_ENV
       - name: Install arrow from nightly repo
         env:
           # Test source build so be sure not to download a binary
           LIBARROW_BINARY: "FALSE"
+        {{ macros.github_set_sccache_envvars()|indent(8) }}
         shell: Rscript {0}
         run: |
           {{ macros.github_test_r_src_pkg()|indent(8) }}
@@ -293,12 +350,15 @@ jobs:
         env:
           LIBARROW_BINARY: "FALSE"
           ARROW_R_DEV: "TRUE"
+          CMAKE_FIND_DEBUG_MODE: "ON"
+        {{ macros.github_set_sccache_envvars()|indent(8) }}
+        shell: Rscript {0}
         run: |
           {{ macros.github_test_r_src_pkg()|indent(8) }}
 
   upload-binaries:
     # Only upload binaries if all tests pass.
-    needs: [ r-packages, test-source, test-linux-binary]
+    needs: [r-packages, test-source, test-linux-binary, test-centos-binary]
     name: Upload artifacts
     runs-on: ubuntu-latest
     steps:
diff --git a/dev/tasks/tasks.yml b/dev/tasks/tasks.yml
index 4b61cf0fcf8..8459fa381f2 100644
--- a/dev/tasks/tasks.yml
+++ b/dev/tasks/tasks.yml
@@ -17,7 +17,7 @@
 
 groups:
   # these groups are just for convenience
-  # makes it easier to submit related tasks
+  # makes it easier to submit related taskshttps://github.com/github/release-radar
 
 {############################# Packaging tasks ###############################}
 
@@ -85,9 +85,11 @@ groups:
     - homebrew-r-autobrew
     - homebrew-r-brew
     # r-conda tasks
-    - conda-linux-gcc-py*-cpu-r*
-    - conda-osx-clang-py*-r*
-    - conda-win-vs2017-py*-r*
+    - conda-linux-x64-cpu-r*
+    - conda-linux-aarch64-cpu-r*
+    - conda-osx-x64-cpu-r*
+    - conda-osx-arm64-cpu-r*
+    - conda-win-x64-cpu-r*
     - r-binary-packages
 
   ruby:
@@ -99,10 +101,8 @@ groups:
   integration:
     - test-*dask*
     - test-*hdfs*
-    - test-*kartothek*
     - test-*pandas*
     - test-*spark*
-    # - test-*turbodbc*
 
   example:
     - example-*
@@ -212,6 +212,7 @@ tasks:
         -e ARROW_CONAN_WITH_FLIGHT_RPC=True
         -e ARROW_CONAN_WITH_GLOG=True
         -e ARROW_CONAN_WITH_JEMALLOC=True
+        -e ARROW_CONAN_WITH_JSON=True
         -e ARROW_CONAN_WITH_LZ4=True
         -e ARROW_CONAN_WITH_SNAPPY=True
         -e ARROW_CONAN_WITH_ZSTD=True
@@ -228,7 +229,7 @@ tasks:
       image: minimal-{{ kind }}
 {% endfor %}
 
-  ############################## Conda Linux ############################
+  ############################# Conda Linux (x64) #############################
 
   conda-clean:
     ci: azure
@@ -240,225 +241,214 @@ tasks:
   #   the same feedstock as the dependency matrix is the same for them as
   #   Python and the OS are the main dimension. The R package `r-arrow` is
   #   an independent feedstock as it doesn't have the Python but the
-  #   R dimension. To limit the number of CI jobs, we are building `r-arrow`
-  #   with the Python 3.7 jobs.
+  #   R dimension.
   # * The files in `dev/tasks/conda-recipes/.ci_support/` are automatically
   #   generated and to be synced regularly from the feedstock. We have no way
   #   yet to generate them inside the arrow repository automatically.
 
-  conda-linux-gcc-py37-cpu-r40:
+  conda-linux-x64-cpu-r41:
     ci: azure
     template: conda-recipes/azure.linux.yml
     params:
-      config: linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.18python3.7.____cpython
-      r_config: linux_64_r_base4.0
-    artifacts:
-      - arrow-cpp-{no_rc_version}-py37(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py37(h[a-z0-9]+)_0_cpu.tar.bz2
-
-  conda-linux-gcc-py37-cpu-r41:
-    ci: azure
-    template: conda-recipes/azure.linux.yml
-    params:
-      config: linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.18python3.7.____cpython
+      config: linux_64_cuda_compiler_versionNoneopenssl3
       r_config: linux_64_r_base4.1
     artifacts:
-      - arrow-cpp-{no_rc_version}-py37(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py37(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - r-arrow-{no_rc_version}-r41(h[a-z0-9]+)_0.conda
 
-  conda-linux-gcc-py38-cpu:
+  conda-linux-x64-cpu-r42:
     ci: azure
     template: conda-recipes/azure.linux.yml
     params:
-      config: linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.18python3.8.____cpython
+      config: linux_64_cuda_compiler_versionNoneopenssl3
+      r_config: linux_64_r_base4.2
     artifacts:
-      - arrow-cpp-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - r-arrow-{no_rc_version}-r42(h[a-z0-9]+)_0.conda
 
-  conda-linux-gcc-py39-cpu:
+  conda-linux-x64-cpu-py3:
     ci: azure
     template: conda-recipes/azure.linux.yml
     params:
-      config: linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.19python3.9.____cpython
+      config: linux_64_cuda_compiler_versionNoneopenssl3
     artifacts:
-      - arrow-cpp-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py311(h[a-z0-9]+)_0_cpu.conda
 
-  conda-linux-gcc-py310-cpu:
+  conda-linux-x64-cuda-py3:
     ci: azure
     template: conda-recipes/azure.linux.yml
     params:
-      config: linux_64_c_compiler_version9cuda_compiler_versionNonecxx_compiler_version9numpy1.21python3.10.____cpython
+      config: linux_64_cuda_compiler_version10.2openssl3
     artifacts:
-      - arrow-cpp-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cuda.conda
+      - pyarrow-{no_rc_version}-py38(h[a-z0-9]+)_0_cuda.conda
+      - pyarrow-{no_rc_version}-py39(h[a-z0-9]+)_0_cuda.conda
+      - pyarrow-{no_rc_version}-py310(h[a-z0-9]+)_0_cuda.conda
+      - pyarrow-{no_rc_version}-py311(h[a-z0-9]+)_0_cuda.conda
 
-{% for python_version, numpy_version in [("3.7", "1.18"),
-                                         ("3.8", "1.18"),
-                                         ("3.9", "1.19"),
-                                         ("3.10", "1.21")] %}
-  {% set pyver = python_version | replace(".", "") %}
+  ########################### Conda Linux (aarch64) ###########################
 
-  conda-linux-gcc-py{{ pyver }}-cuda:
+  conda-linux-aarch64-cpu-r41:
     ci: azure
     template: conda-recipes/azure.linux.yml
     params:
-      config: linux_64_c_compiler_version7cuda_compiler_version10.2cxx_compiler_version7numpy{{ numpy_version }}python{{ python_version }}.____cpython
+      config: linux_aarch64_cuda_compiler_versionNoneopenssl3
+      r_config: linux_aarch64_r_base4.1
     artifacts:
-      - arrow-cpp-{no_rc_version}-py{{ pyver }}(h[a-z0-9]+)_0_cuda.tar.bz2
-      - pyarrow-{no_rc_version}-py{{ pyver }}(h[a-z0-9]+)_0_cuda.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - r-arrow-{no_rc_version}-r41(h[a-z0-9]+)_0.conda
 
-  conda-linux-gcc-py{{ pyver }}-arm64:
+  conda-linux-aarch64-cpu-r42:
     ci: azure
     template: conda-recipes/azure.linux.yml
     params:
-      config: linux_aarch64_numpy{{ numpy_version }}python{{ python_version }}.____cpython
+      config: linux_aarch64_cuda_compiler_versionNoneopenssl3
+      r_config: linux_aarch64_r_base4.2
     artifacts:
-      - arrow-cpp-{no_rc_version}-py{{ pyver }}(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py{{ pyver }}(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - r-arrow-{no_rc_version}-r42(h[a-z0-9]+)_0.conda
 
-  conda-linux-gcc-py{{ pyver }}-ppc64le:
+  conda-linux-aarch64-cpu-py3:
     ci: azure
     template: conda-recipes/azure.linux.yml
     params:
-      config: linux_ppc64le_numpy{{ numpy_version }}python{{ python_version }}.____cpython
+      config: linux_aarch64_cuda_compiler_versionNoneopenssl3
     artifacts:
-      - arrow-cpp-{no_rc_version}-py{{ pyver }}(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py{{ pyver }}(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py311(h[a-z0-9]+)_0_cpu.conda
 
-{% endfor %}
-
-  ############################## Conda OSX ####################################
+  ########################### Conda Linux (ppc64le) ###########################
 
-  conda-osx-clang-py37-r40:
+  conda-linux-ppc64le-cpu-py3:
     ci: azure
-    template: conda-recipes/azure.osx.yml
+    template: conda-recipes/azure.linux.yml
     params:
-      config:  osx_64_numpy1.18python3.7.____cpython
-      r_config: osx_64_r_base4.0
+      config: linux_ppc64le_cuda_compiler_versionNoneopenssl3
     artifacts:
-      - arrow-cpp-{no_rc_version}-py37(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py37(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py311(h[a-z0-9]+)_0_cpu.conda
+
+  ############################## Conda OSX (x64) ##############################
 
-  conda-osx-clang-py37-r41:
+  conda-osx-x64-cpu-r41:
     ci: azure
     template: conda-recipes/azure.osx.yml
     params:
-      config: osx_64_numpy1.18python3.7.____cpython
+      config:  osx_64_openssl3
       r_config: osx_64_r_base4.1
     artifacts:
-      - arrow-cpp-{no_rc_version}-py37(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py37(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - r-arrow-{no_rc_version}-r41(h[a-z0-9]+)_0.conda
 
-  conda-osx-clang-py38:
+  conda-osx-x64-cpu-r42:
     ci: azure
     template: conda-recipes/azure.osx.yml
     params:
-      config: osx_64_numpy1.18python3.8.____cpython
+      config: osx_64_openssl3
+      r_config: osx_64_r_base4.2
     artifacts:
-      - arrow-cpp-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - r-arrow-{no_rc_version}-r42(h[a-z0-9]+)_0.conda
 
-  conda-osx-clang-py39:
+  conda-osx-x64-cpu-py3:
     ci: azure
     template: conda-recipes/azure.osx.yml
     params:
-      config: osx_64_numpy1.19python3.9.____cpython
+      config: osx_64_openssl3
     artifacts:
-      - arrow-cpp-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py311(h[a-z0-9]+)_0_cpu.conda
 
-  conda-osx-clang-py310:
-    ci: azure
-    template: conda-recipes/azure.osx.yml
-    params:
-      config: osx_64_numpy1.21python3.10.____cpython
-    artifacts:
-      - arrow-cpp-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.tar.bz2
+  ############################# Conda OSX (arm64) #############################
 
-  conda-osx-arm64-clang-py38:
+  conda-osx-arm64-cpu-r41:
     ci: azure
     template: conda-recipes/azure.osx.yml
     params:
-      config: osx_arm64_numpy1.19python3.8.____cpython
+      config: osx_arm64_openssl3
+      r_config: osx_arm64_r_base4.1
     artifacts:
-      - arrow-cpp-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - r-arrow-{no_rc_version}-r41(h[a-z0-9]+)_0.conda
 
-  conda-osx-arm64-clang-py39:
+  conda-osx-arm64-cpu-r42:
     ci: azure
     template: conda-recipes/azure.osx.yml
     params:
-      config: osx_arm64_numpy1.19python3.9.____cpython
+      config: osx_arm64_openssl3
+      r_config: osx_arm64_r_base4.2
     artifacts:
-      - arrow-cpp-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - r-arrow-{no_rc_version}-r42(h[a-z0-9]+)_0.conda
 
-  conda-osx-arm64-clang-py310:
+  conda-osx-arm64-cpu-py3:
     ci: azure
     template: conda-recipes/azure.osx.yml
     params:
-      config: osx_arm64_numpy1.21python3.10.____cpython
+      config: osx_arm64_openssl3
     artifacts:
-      - arrow-cpp-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py311(h[a-z0-9]+)_0_cpu.conda
 
   ############################## Conda Windows ################################
 
-  conda-win-vs2017-py37-r40:
-    ci: azure
-    template: conda-recipes/azure.win.yml
-    params:
-      config: win_64_cuda_compiler_versionNonenumpy1.18python3.7.____cpython
-      r_config: win_64_r_base4.0
-    artifacts:
-      - arrow-cpp-{no_rc_version}-py37(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py37(h[a-z0-9]+)_0_cpu.tar.bz2
-
-  conda-win-vs2017-py37-r41:
+  conda-win-x64-cpu-r41:
     ci: azure
     template: conda-recipes/azure.win.yml
     params:
-      config: win_64_cuda_compiler_versionNonenumpy1.18python3.7.____cpython
-      r_config: win_64_r_base4.0
+      config: win_64_cuda_compiler_versionNoneopenssl3
+      r_config: win_64_
     artifacts:
-      - arrow-cpp-{no_rc_version}-py37(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py37(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - r-arrow-{no_rc_version}-r41(h[a-z0-9]+)_0.conda
 
-  conda-win-vs2017-py38:
-    ci: azure
-    template: conda-recipes/azure.win.yml
-    params:
-      config: win_64_cuda_compiler_versionNonenumpy1.18python3.8.____cpython
-    artifacts:
-      - arrow-cpp-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.tar.bz2
+  # conda-forge does not yet support R 4.2 on windows
 
-  conda-win-vs2017-py39:
+  conda-win-x64-cpu-py3:
     ci: azure
     template: conda-recipes/azure.win.yml
     params:
-      config: win_64_cuda_compiler_versionNonenumpy1.19python3.9.____cpython
+      config: win_64_cuda_compiler_versionNoneopenssl3
     artifacts:
-      - arrow-cpp-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.tar.bz2
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py38(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py39(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.conda
+      - pyarrow-{no_rc_version}-py311(h[a-z0-9]+)_0_cpu.conda
 
-  conda-win-vs2017-py310:
+  conda-win-x64-cuda-py3:
     ci: azure
     template: conda-recipes/azure.win.yml
     params:
-      config: win_64_cuda_compiler_versionNonenumpy1.21python3.10.____cpython
+      config: win_64_cuda_compiler_versionNoneopenssl3
     artifacts:
-      - arrow-cpp-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.tar.bz2
-      - pyarrow-{no_rc_version}-py310(h[a-z0-9]+)_0_cpu.tar.bz2
-
-# TODO: Windows CUDA
+      - libarrow-{no_rc_version}-(h[a-z0-9]+)_0_cuda.conda
+      - pyarrow-{no_rc_version}-py38(h[a-z0-9]+)_0_cuda.conda
+      - pyarrow-{no_rc_version}-py39(h[a-z0-9]+)_0_cuda.conda
+      - pyarrow-{no_rc_version}-py310(h[a-z0-9]+)_0_cuda.conda
+      - pyarrow-{no_rc_version}-py311(h[a-z0-9]+)_0_cuda.conda
 
 {% for python_version, python_tag, abi_tag in [("3.7", "cp37", "cp37m"),
                                                ("3.8", "cp38", "cp38"),
                                                ("3.9", "cp39", "cp39"),
-                                               ("3.10", "cp310", "cp310")] %}
+                                               ("3.10", "cp310", "cp310"),
+                                               ("3.11", "cp311", "cp311")] %}
 
 {############################## Wheel Linux ##################################}
 
@@ -476,9 +466,7 @@ tasks:
 
 {############################## Wheel OSX ####################################}
 
-# enable S3 and GCS support from macOS 10.13 so we don't need to bundle curl, crypt and ssl
-{% for macos_version, macos_codename, arrow_s3, arrow_gcs in [("10.9", "mavericks", "OFF", "OFF"),
-                                                              ("10.13", "high-sierra", "ON", "ON")] %}
+{% for macos_version, macos_codename in [("10.14", "mojave")] %}
   {% set platform_tag = "macosx_{}_x86_64".format(macos_version.replace('.', '_')) %}
 
   wheel-macos-{{ macos_codename }}-{{ python_tag }}-amd64:
@@ -487,8 +475,6 @@ tasks:
     params:
       python_version: "{{ python_version }}"
       macos_deployment_target: "{{ macos_version }}"
-      arrow_s3: "{{ arrow_s3 }}"
-      arrow_gcs: "{{ arrow_gcs }}"
     artifacts:
       - pyarrow-{no_rc_version}-{{ python_tag }}-{{ abi_tag }}-{{ platform_tag }}.whl
 
@@ -523,7 +509,7 @@ tasks:
     artifacts:
       - pyarrow-{no_rc_version}-cp38-cp38-macosx_11_0_arm64.whl
 
-{% for python_version, python_tag in [("3.9", "cp39"), ("3.10", "cp310")] %}
+{% for python_version, python_tag in [("3.9", "cp39"), ("3.10", "cp310"), ("3.11", "cp311")] %}
   wheel-macos-big-sur-{{ python_tag }}-arm64:
     ci: github
     template: python-wheels/github.osx.arm64.yml
@@ -533,16 +519,6 @@ tasks:
       macos_deployment_target: "11.0"
     artifacts:
       - pyarrow-{no_rc_version}-{{ python_tag }}-{{ python_tag }}-macosx_11_0_arm64.whl
-
-  wheel-macos-big-sur-{{ python_tag }}-universal2:
-    ci: github
-    template: python-wheels/github.osx.arm64.yml
-    params:
-      arch: universal2
-      python_version: "{{ python_version }}"
-      macos_deployment_target: "10.13"
-    artifacts:
-      - pyarrow-{no_rc_version}-{{ python_tag }}-{{ python_tag }}-macosx_10_13_universal2.whl
 {% endfor %}
 
 {############################ Python sdist ####################################}
@@ -559,7 +535,8 @@ tasks:
                   "debian-bookworm",
                   "ubuntu-bionic",
                   "ubuntu-focal",
-                  "ubuntu-jammy"] %}
+                  "ubuntu-jammy",
+                  "ubuntu-kinetic"] %}
   {% for architecture in ["amd64", "arm64"] %}
   {{ target }}-{{ architecture }}:
     {% if architecture == "amd64" %}
@@ -583,6 +560,7 @@ tasks:
         - .dsc
         - .orig.tar.gz
     artifacts:
+      - arrow-tools_{no_rc_version}-1_[a-z0-9]+.deb
     {% if architecture == "amd64" %}
       - apache-arrow-apt-source_{no_rc_version}-1.debian.tar.xz
       - apache-arrow-apt-source_{no_rc_version}-1.dsc
@@ -594,74 +572,73 @@ tasks:
     {% endif %}
       - gir1.2-arrow-1.0_{no_rc_version}-1_[a-z0-9]+.deb
       - gir1.2-arrow-dataset-1.0_{no_rc_version}-1_[a-z0-9]+.deb
+    {% if architecture == "amd64" %}
       - gir1.2-arrow-flight-1.0_{no_rc_version}-1_[a-z0-9]+.deb
       - gir1.2-arrow-flight-sql-1.0_{no_rc_version}-1_[a-z0-9]+.deb
+    {% endif %}
       - gir1.2-gandiva-1.0_{no_rc_version}-1_[a-z0-9]+.deb
       - gir1.2-parquet-1.0_{no_rc_version}-1_[a-z0-9]+.deb
       - libarrow-dataset-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libarrow-dataset-glib-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libarrow-dataset-glib-doc_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow-dataset-glib1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libarrow-dataset-glib1000_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow-dataset1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libarrow-dataset1000_{no_rc_version}-1_[a-z0-9]+.deb
+      - libarrow-dataset-glib1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libarrow-dataset-glib1100_{no_rc_version}-1_[a-z0-9]+.deb
+      - libarrow-dataset1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libarrow-dataset1100_{no_rc_version}-1_[a-z0-9]+.deb
       - libarrow-dev_{no_rc_version}-1_[a-z0-9]+.deb
+    {% if architecture == "amd64" %}
       - libarrow-flight-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libarrow-flight-glib-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libarrow-flight-glib-doc_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow-flight-glib1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libarrow-flight-glib1000_{no_rc_version}-1_[a-z0-9]+.deb
+      - libarrow-flight-glib1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libarrow-flight-glib1100_{no_rc_version}-1_[a-z0-9]+.deb
       - libarrow-flight-sql-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libarrow-flight-sql-glib-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libarrow-flight-sql-glib-doc_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow-flight-sql-glib1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libarrow-flight-sql-glib1000_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow-flight-sql1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libarrow-flight-sql1000_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow-flight1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libarrow-flight1000_{no_rc_version}-1_[a-z0-9]+.deb
+      - libarrow-flight-sql-glib1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libarrow-flight-sql-glib1100_{no_rc_version}-1_[a-z0-9]+.deb
+      - libarrow-flight-sql1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libarrow-flight-sql1100_{no_rc_version}-1_[a-z0-9]+.deb
+      - libarrow-flight1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libarrow-flight1100_{no_rc_version}-1_[a-z0-9]+.deb
+    {% endif %}
       - libarrow-glib-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libarrow-glib-doc_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow-glib1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libarrow-glib1000_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow-python-dev_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow-python-flight-dev_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow-python-flight1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libarrow-python-flight1000_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow-python1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libarrow-python1000_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libarrow1000_{no_rc_version}-1_[a-z0-9]+.deb
+      - libarrow-glib1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libarrow-glib1100_{no_rc_version}-1_[a-z0-9]+.deb
+      - libarrow1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libarrow1100_{no_rc_version}-1_[a-z0-9]+.deb
       - libgandiva-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libgandiva-glib-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libgandiva-glib-doc_{no_rc_version}-1_[a-z0-9]+.deb
-      - libgandiva-glib1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libgandiva-glib1000_{no_rc_version}-1_[a-z0-9]+.deb
-      - libgandiva1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libgandiva1000_{no_rc_version}-1_[a-z0-9]+.deb
+      - libgandiva-glib1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libgandiva-glib1100_{no_rc_version}-1_[a-z0-9]+.deb
+      - libgandiva1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libgandiva1100_{no_rc_version}-1_[a-z0-9]+.deb
       - libparquet-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libparquet-glib-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libparquet-glib-doc_{no_rc_version}-1_[a-z0-9]+.deb
-      - libparquet-glib1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libparquet-glib1000_{no_rc_version}-1_[a-z0-9]+.deb
-      - libparquet1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libparquet1000_{no_rc_version}-1_[a-z0-9]+.deb
+      - libparquet-glib1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libparquet-glib1100_{no_rc_version}-1_[a-z0-9]+.deb
+      - libparquet1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libparquet1100_{no_rc_version}-1_[a-z0-9]+.deb
+      - parquet-tools_{no_rc_version}-1_[a-z0-9]+.deb
     {% if architecture == "amd64" %}
       - gir1.2-arrow-cuda-1.0_{no_rc_version}-1_[a-z0-9]+.deb
       - gir1.2-plasma-1.0_{no_rc_version}-1_[a-z0-9]+.deb
       - libarrow-cuda-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libarrow-cuda-glib-dev_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow-cuda-glib1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libarrow-cuda-glib1000_{no_rc_version}-1_[a-z0-9]+.deb
-      - libarrow-cuda1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libarrow-cuda1000_{no_rc_version}-1_[a-z0-9]+.deb
+      - libarrow-cuda-glib1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libarrow-cuda-glib1100_{no_rc_version}-1_[a-z0-9]+.deb
+      - libarrow-cuda1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libarrow-cuda1100_{no_rc_version}-1_[a-z0-9]+.deb
       - libplasma-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libplasma-glib-dev_{no_rc_version}-1_[a-z0-9]+.deb
       - libplasma-glib-doc_{no_rc_version}-1_[a-z0-9]+.deb
-      - libplasma-glib1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libplasma-glib1000_{no_rc_version}-1_[a-z0-9]+.deb
-      - libplasma1000-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
-      - libplasma1000_{no_rc_version}-1_[a-z0-9]+.deb
+      - libplasma-glib1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libplasma-glib1100_{no_rc_version}-1_[a-z0-9]+.deb
+      - libplasma1100-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
+      - libplasma1100_{no_rc_version}-1_[a-z0-9]+.deb
       - plasma-store-server-dbgsym_{no_rc_version}-1_[a-z0-9]+.d?deb
       - plasma-store-server_{no_rc_version}-1_[a-z0-9]+.deb
     {% endif %}
@@ -716,7 +693,7 @@ tasks:
       - arrow-debugsource-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
     {% endif %}
       - arrow-devel-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
-    {% if not is_rhel7_based %}
+    {% if not is_rhel7_based and architecture == "amd64" %}
       - arrow-flight-devel-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
       - arrow-flight-glib-devel-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
       - arrow-flight-glib-doc-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
@@ -742,18 +719,12 @@ tasks:
       - arrow[0-9]+-libs-debuginfo-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
     {% endif %}
       - arrow[0-9]+-libs-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
-    {% if target != "amazon-linux-2" %}
-      - arrow-python-devel-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
-        {% if not is_rhel7_based %}
-      - arrow-python-flight-devel-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
-      - arrow[0-9]+-python-flight-libs-debuginfo-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
-      - arrow[0-9]+-python-flight-libs-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
-      - arrow[0-9]+-python-libs-debuginfo-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
-        {% endif %}
-      - arrow[0-9]+-python-libs-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
-    {% endif %}
     {% if architecture == "amd64" %}
       - arrow-{no_rc_version}-1.[a-z0-9]+.src.rpm
+    {% endif %}
+      - arrow-tools-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
+    {% if not is_rhel7_based %}
+      - arrow-tools-debuginfo-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
     {% endif %}
     {% if not is_rhel7_based and architecture == "amd64" %}
       - gandiva-devel-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
@@ -775,6 +746,10 @@ tasks:
       - parquet[0-9]+-libs-debuginfo-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
     {% endif %}
       - parquet[0-9]+-libs-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
+      - parquet-tools-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
+    {% if not is_rhel7_based %}
+      - parquet-tools-debuginfo-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
+    {% endif %}
       - plasma-devel-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
       - plasma-glib-devel-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
       - plasma-glib-doc-{no_rc_version}-1.[a-z0-9]+.[a-z0-9_]+.rpm
@@ -826,115 +801,168 @@ tasks:
     ci: github
     template: java-jars/github.yml
     artifacts:
-      - arrow-algorithm-{no_rc_version}-javadoc.jar
-      - arrow-algorithm-{no_rc_version}-sources.jar
-      - arrow-algorithm-{no_rc_version}-tests.jar
-      - arrow-algorithm-{no_rc_version}.jar
-      - arrow-algorithm-{no_rc_version}.pom
-      - arrow-avro-{no_rc_version}-javadoc.jar
-      - arrow-avro-{no_rc_version}-sources.jar
-      - arrow-avro-{no_rc_version}-tests.jar
-      - arrow-avro-{no_rc_version}.jar
-      - arrow-avro-{no_rc_version}.pom
-      - arrow-c-data-{no_rc_version}-javadoc.jar
-      - arrow-c-data-{no_rc_version}-sources.jar
-      - arrow-c-data-{no_rc_version}-tests.jar
-      - arrow-c-data-{no_rc_version}.jar
-      - arrow-c-data-{no_rc_version}.pom
-      - arrow-compression-{no_rc_version}-javadoc.jar
-      - arrow-compression-{no_rc_version}-sources.jar
-      - arrow-compression-{no_rc_version}-tests.jar
-      - arrow-compression-{no_rc_version}.jar
-      - arrow-compression-{no_rc_version}.pom
-      - arrow-dataset-{no_rc_version}-javadoc.jar
-      - arrow-dataset-{no_rc_version}-sources.jar
-      - arrow-dataset-{no_rc_version}-tests.jar
-      - arrow-dataset-{no_rc_version}.jar
-      - arrow-dataset-{no_rc_version}.pom
-      - arrow-flight-{no_rc_version}.pom
-      - arrow-format-{no_rc_version}-javadoc.jar
-      - arrow-format-{no_rc_version}-sources.jar
-      - arrow-format-{no_rc_version}-tests.jar
-      - arrow-format-{no_rc_version}.jar
-      - arrow-format-{no_rc_version}.pom
-      - arrow-gandiva-{no_rc_version}-javadoc.jar
-      - arrow-gandiva-{no_rc_version}-sources.jar
-      - arrow-gandiva-{no_rc_version}-tests.jar
-      - arrow-gandiva-{no_rc_version}.jar
-      - arrow-gandiva-{no_rc_version}.pom
-      - arrow-java-root-{no_rc_version}-source-release.zip
-      - arrow-java-root-{no_rc_version}.pom
-      - arrow-jdbc-{no_rc_version}-javadoc.jar
-      - arrow-jdbc-{no_rc_version}-sources.jar
-      - arrow-jdbc-{no_rc_version}-tests.jar
-      - arrow-jdbc-{no_rc_version}.jar
-      - arrow-jdbc-{no_rc_version}.pom
-      - arrow-memory-core-{no_rc_version}-javadoc.jar
-      - arrow-memory-core-{no_rc_version}-sources.jar
-      - arrow-memory-core-{no_rc_version}-tests.jar
-      - arrow-memory-core-{no_rc_version}.jar
-      - arrow-memory-core-{no_rc_version}.pom
-      - arrow-memory-netty-{no_rc_version}-javadoc.jar
-      - arrow-memory-netty-{no_rc_version}-sources.jar
-      - arrow-memory-netty-{no_rc_version}-tests.jar
-      - arrow-memory-netty-{no_rc_version}.jar
-      - arrow-memory-netty-{no_rc_version}.pom
-      - arrow-memory-unsafe-{no_rc_version}-javadoc.jar
-      - arrow-memory-unsafe-{no_rc_version}-sources.jar
-      - arrow-memory-unsafe-{no_rc_version}-tests.jar
-      - arrow-memory-unsafe-{no_rc_version}.jar
-      - arrow-memory-unsafe-{no_rc_version}.pom
-      - arrow-memory-{no_rc_version}.pom
-      - arrow-orc-{no_rc_version}-javadoc.jar
-      - arrow-orc-{no_rc_version}-sources.jar
-      - arrow-orc-{no_rc_version}-tests.jar
-      - arrow-orc-{no_rc_version}.jar
-      - arrow-orc-{no_rc_version}.pom
-      - arrow-performance-{no_rc_version}-sources.jar
-      - arrow-performance-{no_rc_version}-tests.jar
-      - arrow-performance-{no_rc_version}.jar
-      - arrow-performance-{no_rc_version}.pom
-      - arrow-plasma-{no_rc_version}-javadoc.jar
-      - arrow-plasma-{no_rc_version}-sources.jar
-      - arrow-plasma-{no_rc_version}-tests.jar
-      - arrow-plasma-{no_rc_version}.jar
-      - arrow-plasma-{no_rc_version}.pom
-      - arrow-tools-{no_rc_version}-jar-with-dependencies.jar
-      - arrow-tools-{no_rc_version}-javadoc.jar
-      - arrow-tools-{no_rc_version}-sources.jar
-      - arrow-tools-{no_rc_version}-tests.jar
-      - arrow-tools-{no_rc_version}.jar
-      - arrow-tools-{no_rc_version}.pom
-      - arrow-vector-{no_rc_version}-javadoc.jar
-      - arrow-vector-{no_rc_version}-shade-format-flatbuffers.jar
-      - arrow-vector-{no_rc_version}-sources.jar
-      - arrow-vector-{no_rc_version}-tests.jar
-      - arrow-vector-{no_rc_version}.jar
-      - arrow-vector-{no_rc_version}.pom
-      - flight-core-{no_rc_version}-jar-with-dependencies.jar
-      - flight-core-{no_rc_version}-javadoc.jar
-      - flight-core-{no_rc_version}-shaded-ext.jar
-      - flight-core-{no_rc_version}-shaded.jar
-      - flight-core-{no_rc_version}-sources.jar
-      - flight-core-{no_rc_version}-tests.jar
-      - flight-core-{no_rc_version}.jar
-      - flight-core-{no_rc_version}.pom
-      - flight-grpc-{no_rc_version}-javadoc.jar
-      - flight-grpc-{no_rc_version}-sources.jar
-      - flight-grpc-{no_rc_version}-tests.jar
-      - flight-grpc-{no_rc_version}.jar
-      - flight-grpc-{no_rc_version}.pom
-      - flight-integration-tests-{no_rc_version}-jar-with-dependencies.jar
-      - flight-integration-tests-{no_rc_version}-javadoc.jar
-      - flight-integration-tests-{no_rc_version}-sources.jar
-      - flight-integration-tests-{no_rc_version}-tests.jar
-      - flight-integration-tests-{no_rc_version}.jar
-      - flight-integration-tests-{no_rc_version}.pom
-      - flight-sql-{no_rc_version}-javadoc.jar
-      - flight-sql-{no_rc_version}-sources.jar
-      - flight-sql-{no_rc_version}-tests.jar
-      - flight-sql-{no_rc_version}.jar
-      - flight-sql-{no_rc_version}.pom
+      - arrow-algorithm-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-algorithm-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-algorithm-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-algorithm-{no_rc_snapshot_version}-sources.jar
+      - arrow-algorithm-{no_rc_snapshot_version}-tests.jar
+      - arrow-algorithm-{no_rc_snapshot_version}.jar
+      - arrow-algorithm-{no_rc_snapshot_version}.pom
+      - arrow-avro-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-avro-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-avro-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-avro-{no_rc_snapshot_version}-sources.jar
+      - arrow-avro-{no_rc_snapshot_version}-tests.jar
+      - arrow-avro-{no_rc_snapshot_version}.jar
+      - arrow-avro-{no_rc_snapshot_version}.pom
+      - arrow-c-data-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-c-data-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-c-data-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-c-data-{no_rc_snapshot_version}-sources.jar
+      - arrow-c-data-{no_rc_snapshot_version}-tests.jar
+      - arrow-c-data-{no_rc_snapshot_version}.jar
+      - arrow-c-data-{no_rc_snapshot_version}.pom
+      - arrow-compression-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-compression-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-compression-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-compression-{no_rc_snapshot_version}-sources.jar
+      - arrow-compression-{no_rc_snapshot_version}-tests.jar
+      - arrow-compression-{no_rc_snapshot_version}.jar
+      - arrow-compression-{no_rc_snapshot_version}.pom
+      - arrow-dataset-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-dataset-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-dataset-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-dataset-{no_rc_snapshot_version}-sources.jar
+      - arrow-dataset-{no_rc_snapshot_version}-tests.jar
+      - arrow-dataset-{no_rc_snapshot_version}.jar
+      - arrow-dataset-{no_rc_snapshot_version}.pom
+      - arrow-flight-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-flight-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-flight-{no_rc_snapshot_version}.pom
+      - arrow-format-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-format-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-format-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-format-{no_rc_snapshot_version}-sources.jar
+      - arrow-format-{no_rc_snapshot_version}-tests.jar
+      - arrow-format-{no_rc_snapshot_version}.jar
+      - arrow-format-{no_rc_snapshot_version}.pom
+      - arrow-gandiva-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-gandiva-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-gandiva-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-gandiva-{no_rc_snapshot_version}-sources.jar
+      - arrow-gandiva-{no_rc_snapshot_version}-tests.jar
+      - arrow-gandiva-{no_rc_snapshot_version}.jar
+      - arrow-gandiva-{no_rc_snapshot_version}.pom
+      - arrow-java-root-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-java-root-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-java-root-{no_rc_snapshot_version}-source-release.zip
+      - arrow-java-root-{no_rc_snapshot_version}.pom
+      - arrow-jdbc-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-jdbc-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-jdbc-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-jdbc-{no_rc_snapshot_version}-sources.jar
+      - arrow-jdbc-{no_rc_snapshot_version}-tests.jar
+      - arrow-jdbc-{no_rc_snapshot_version}.jar
+      - arrow-jdbc-{no_rc_snapshot_version}.pom
+      - arrow-memory-core-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-memory-core-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-memory-core-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-memory-core-{no_rc_snapshot_version}-sources.jar
+      - arrow-memory-core-{no_rc_snapshot_version}-tests.jar
+      - arrow-memory-core-{no_rc_snapshot_version}.jar
+      - arrow-memory-core-{no_rc_snapshot_version}.pom
+      - arrow-memory-netty-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-memory-netty-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-memory-netty-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-memory-netty-{no_rc_snapshot_version}-sources.jar
+      - arrow-memory-netty-{no_rc_snapshot_version}-tests.jar
+      - arrow-memory-netty-{no_rc_snapshot_version}.jar
+      - arrow-memory-netty-{no_rc_snapshot_version}.pom
+      - arrow-memory-unsafe-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-memory-unsafe-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-memory-unsafe-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-memory-unsafe-{no_rc_snapshot_version}-sources.jar
+      - arrow-memory-unsafe-{no_rc_snapshot_version}-tests.jar
+      - arrow-memory-unsafe-{no_rc_snapshot_version}.jar
+      - arrow-memory-unsafe-{no_rc_snapshot_version}.pom
+      - arrow-memory-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-memory-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-memory-{no_rc_snapshot_version}.pom
+      - arrow-orc-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-orc-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-orc-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-orc-{no_rc_snapshot_version}-sources.jar
+      - arrow-orc-{no_rc_snapshot_version}-tests.jar
+      - arrow-orc-{no_rc_snapshot_version}.jar
+      - arrow-orc-{no_rc_snapshot_version}.pom
+      - arrow-performance-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-performance-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-performance-{no_rc_snapshot_version}-sources.jar
+      - arrow-performance-{no_rc_snapshot_version}-tests.jar
+      - arrow-performance-{no_rc_snapshot_version}.jar
+      - arrow-performance-{no_rc_snapshot_version}.pom
+      - arrow-plasma-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-plasma-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-plasma-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-plasma-{no_rc_snapshot_version}-sources.jar
+      - arrow-plasma-{no_rc_snapshot_version}-tests.jar
+      - arrow-plasma-{no_rc_snapshot_version}.jar
+      - arrow-plasma-{no_rc_snapshot_version}.pom
+      - arrow-tools-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-tools-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-tools-{no_rc_snapshot_version}-jar-with-dependencies.jar
+      - arrow-tools-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-tools-{no_rc_snapshot_version}-sources.jar
+      - arrow-tools-{no_rc_snapshot_version}-tests.jar
+      - arrow-tools-{no_rc_snapshot_version}.jar
+      - arrow-tools-{no_rc_snapshot_version}.pom
+      - arrow-vector-{no_rc_snapshot_version}-cyclonedx.json
+      - arrow-vector-{no_rc_snapshot_version}-cyclonedx.xml
+      - arrow-vector-{no_rc_snapshot_version}-javadoc.jar
+      - arrow-vector-{no_rc_snapshot_version}-shade-format-flatbuffers.jar
+      - arrow-vector-{no_rc_snapshot_version}-sources.jar
+      - arrow-vector-{no_rc_snapshot_version}-tests.jar
+      - arrow-vector-{no_rc_snapshot_version}.jar
+      - arrow-vector-{no_rc_snapshot_version}.pom
+      - flight-core-{no_rc_snapshot_version}-cyclonedx.json
+      - flight-core-{no_rc_snapshot_version}-cyclonedx.xml
+      - flight-core-{no_rc_snapshot_version}-jar-with-dependencies.jar
+      - flight-core-{no_rc_snapshot_version}-javadoc.jar
+      - flight-core-{no_rc_snapshot_version}-shaded-ext.jar
+      - flight-core-{no_rc_snapshot_version}-shaded.jar
+      - flight-core-{no_rc_snapshot_version}-sources.jar
+      - flight-core-{no_rc_snapshot_version}-tests.jar
+      - flight-core-{no_rc_snapshot_version}.jar
+      - flight-core-{no_rc_snapshot_version}.pom
+      - flight-grpc-{no_rc_snapshot_version}-cyclonedx.json
+      - flight-grpc-{no_rc_snapshot_version}-cyclonedx.xml
+      - flight-grpc-{no_rc_snapshot_version}-javadoc.jar
+      - flight-grpc-{no_rc_snapshot_version}-sources.jar
+      - flight-grpc-{no_rc_snapshot_version}-tests.jar
+      - flight-grpc-{no_rc_snapshot_version}.jar
+      - flight-grpc-{no_rc_snapshot_version}.pom
+      - flight-integration-tests-{no_rc_snapshot_version}-cyclonedx.json
+      - flight-integration-tests-{no_rc_snapshot_version}-cyclonedx.xml
+      - flight-integration-tests-{no_rc_snapshot_version}-jar-with-dependencies.jar
+      - flight-integration-tests-{no_rc_snapshot_version}-javadoc.jar
+      - flight-integration-tests-{no_rc_snapshot_version}-sources.jar
+      - flight-integration-tests-{no_rc_snapshot_version}-tests.jar
+      - flight-integration-tests-{no_rc_snapshot_version}.jar
+      - flight-integration-tests-{no_rc_snapshot_version}.pom
+      - flight-sql-{no_rc_snapshot_version}-cyclonedx.json
+      - flight-sql-{no_rc_snapshot_version}-cyclonedx.xml
+      - flight-sql-{no_rc_snapshot_version}-javadoc.jar
+      - flight-sql-{no_rc_snapshot_version}-sources.jar
+      - flight-sql-{no_rc_snapshot_version}-tests.jar
+      - flight-sql-{no_rc_snapshot_version}.jar
+      - flight-sql-{no_rc_snapshot_version}.pom
+      - flight-sql-jdbc-driver-{no_rc_snapshot_version}-cyclonedx.json
+      - flight-sql-jdbc-driver-{no_rc_snapshot_version}-cyclonedx.xml
+      - flight-sql-jdbc-driver-{no_rc_snapshot_version}-javadoc.jar
+      - flight-sql-jdbc-driver-{no_rc_snapshot_version}-sources.jar
+      - flight-sql-jdbc-driver-{no_rc_snapshot_version}-tests.jar
+      - flight-sql-jdbc-driver-{no_rc_snapshot_version}.jar
+      - flight-sql-jdbc-driver-{no_rc_snapshot_version}.pom
 
   ############################## NuGet packages ###############################
 
@@ -955,16 +983,20 @@ tasks:
   r-binary-packages:
     ci: github
     template: r/github.packages.yml
+    params:
+      custom_version: Unset
     artifacts:
-      - r-lib__libarrow__bin__windows__arrow-[0-9\.]+\.zip
-      - r-lib__libarrow__bin__centos-7__arrow-[0-9\.]+\.zip
-      - r-lib__libarrow__bin__ubuntu-18.04__arrow-[0-9\.]+\.zip
-      - r-lib__libarrow__bin__ubuntu-22.04__arrow-[0-9\.]+\.zip
-      - r-pkg__bin__windows__contrib__4.1__arrow_[0-9\.]+\.zip
-      - r-pkg__bin__windows__contrib__4.2__arrow_[0-9\.]+\.zip
-      - r-pkg__bin__macosx__contrib__4.1__arrow_[0-9\.]+\.tgz
-      - r-pkg__bin__macosx__contrib__4.2__arrow_[0-9\.]+\.tgz
-      - r-pkg__src__contrib__arrow_[0-9\.]+\.tar\.gz
+      - r-lib__libarrow__bin__windows__arrow-{no_rc_r_version}\.zip
+      - r-lib__libarrow__bin__centos-7__arrow-{no_rc_r_version}\.zip
+      - r-lib__libarrow__bin__ubuntu-18.04__arrow-{no_rc_r_version}\.zip
+      - r-lib__libarrow__bin__ubuntu-22.04__arrow-{no_rc_r_version}\.zip
+      - r-pkg__bin__windows__contrib__4.1__arrow_{no_rc_r_version}\.zip
+      - r-pkg__bin__windows__contrib__4.2__arrow_{no_rc_r_version}\.zip
+      - r-pkg__bin__macosx__contrib__4.1__arrow_{no_rc_r_version}\.tgz
+      - r-pkg__bin__macosx__contrib__4.2__arrow_{no_rc_r_version}\.tgz
+      - r-pkg__bin__macosx__big-sur-arm64__contrib__4.1__arrow_{no_rc_r_version}\.tgz
+      - r-pkg__bin__macosx__big-sur-arm64__contrib__4.2__arrow_{no_rc_r_version}\.tgz
+      - r-pkg__src__contrib__arrow_{no_rc_r_version}\.tar\.gz
 
 
   ########################### Release verification ############################
@@ -1026,7 +1058,7 @@ tasks:
     params:
       target: {{ target }}
       use_conda: True
-      github_runner: "macos-10.15"
+      github_runner: "macos-latest"
   {% endfor %}
 
   {% for target in ["cpp",
@@ -1042,7 +1074,7 @@ tasks:
     template: verify-rc/github.macos.amd64.yml
     params:
       target: {{ target }}
-      github_runner: "macos-10.15"
+      github_runner: "macos-latest"
   {% endfor %}
 
   {% for target in ["cpp",
@@ -1066,22 +1098,13 @@ tasks:
       github_runner: ["self-hosted", "macOS", "arm64"]
   {% endfor %}
 
-  {% for macos_version in ["10.15", "11"] %}
+  {% for macos_version in ["11", "12"] %}
   verify-rc-binaries-wheels-macos-{{ macos_version }}-amd64:
     ci: github
     template: verify-rc/github.macos.amd64.yml
     params:
       github_runner: "macos-{{ macos_version }}"
       target: "wheels"
-
-  verify-rc-binaries-wheels-macos-{{ macos_version }}-amd64-conda:
-    ci: github
-    template: verify-rc/github.macos.amd64.yml
-    params:
-      env:
-        USE_CONDA: 1
-      github_runner: "macos-{{ macos_version }}"
-      target: "wheels"
   {% endfor %}
 
   verify-rc-binaries-wheels-macos-11-arm64:
@@ -1091,7 +1114,6 @@ tasks:
       env:
         PYTEST_ADDOPTS: "-k 'not test_cancellation'"
       github_runner: ["self-hosted", "macOS", "arm64"]
-      arch_emulation: arm64
       target: "wheels"
 
   ######################## Windows verification ##############################
@@ -1114,7 +1136,8 @@ tasks:
 
 ############################## Docker tests ##################################
 
-{% for image in ["conda-cpp",
+{% for image in ["alpine-linux-cpp",
+                 "conda-cpp",
                  "debian-c-glib",
                  "ubuntu-c-glib",
                  "debian-ruby",
@@ -1207,14 +1230,14 @@ tasks:
       flags: "-e ARROW_BUILD_SHARED=OFF -e ARROW_BUILD_STATIC=ON -e ARROW_TEST_LINKAGE=static"
       image: ubuntu-cpp
 
-{% for cpp_standard in [14, 17] %}
+{% for cpp_standard in [20] %}
   test-ubuntu-20.04-cpp-{{ cpp_standard }}:
     ci: github
     template: docker-tests/github.linux.yml
     params:
       env:
         UBUNTU: 20.04
-      flags: "-e CMAKE_ARGS=-DCMAKE_CXX_STANDARD={{ cpp_standard }}"
+      flags: "-e CMAKE_CXX_STANDARD={{ cpp_standard }}"
       image: ubuntu-cpp
 {% endfor %}
 
@@ -1230,7 +1253,7 @@ tasks:
         UBUNTU: 20.04
       image: ubuntu-cpp-thread-sanitizer
 
-{% for python_version in ["3.7", "3.8", "3.9", "3.10"] %}
+{% for python_version in ["3.7", "3.8", "3.9", "3.10", "3.11"] %}
   test-conda-python-{{ python_version }}:
     ci: github
     template: docker-tests/github.linux.yml
@@ -1309,6 +1332,13 @@ tasks:
     ci: github
     template: r/github.macos-linux.local.yml
 
+  test-r-install-local-minsizerel:
+    ci: github
+    template: r/github.macos-linux.local.yml
+    params:
+      env:
+        CMAKE_BUILD_TYPE: MinSizeRel
+
   test-r-devdocs:
     ci: github
     template: r/github.devdocs.yml
@@ -1317,7 +1347,7 @@ tasks:
     ci: azure
     template: r/azure.linux.yml
     params:
-      r_org: rocker
+      r_org: library
       r_image: r-base
       r_tag: latest
       flags: '-e ARROW_DEPENDENCY_SOURCE=BUNDLED'
@@ -1333,7 +1363,7 @@ tasks:
     ci: azure
     template: r/azure.linux.yml
     params:
-      r_org: rocker
+      r_org: library
       r_image: r-base
       r_tag: latest
       flags: '-e TEST_OFFLINE_BUILD=true'
@@ -1350,7 +1380,6 @@ tasks:
     ci: github
     template: r/github.linux.offline.build.yml
 
-
   test-r-rhub-debian-gcc-release-custom-ccache:
     ci: azure
     template: r/azure.linux.yml
@@ -1361,7 +1390,7 @@ tasks:
       r_custom_ccache: true
 
 {% for r_org, r_image, r_tag in [("rhub", "ubuntu-gcc-release", "latest"),
-                                 ("rocker", "r-base", "latest"),
+                                 ("library", "r-base", "latest"),
                                  ("rstudio", "r-base", "4.2-focal"),
                                  ("rstudio", "r-base", "4.1-opensuse153")] %}
   test-r-{{ r_org }}-{{ r_image }}-{{ r_tag }}:
@@ -1428,7 +1457,7 @@ tasks:
     ci: azure
     template: r/azure.linux.yml
     params:
-      r_org: rocker
+      r_org: library
       r_image: r-base
       r_tag: latest
       flags: "-e LIBARROW_MINIMAL=TRUE"
@@ -1450,17 +1479,13 @@ tasks:
         R_PRUNE_DEPS: TRUE
       image: fedora-r-clang-sanitizer
 
-  revdep-r-check:
-    ci: github
-    template: r/github.linux.revdepcheck.yml
-
-  test-debian-11-go-1.16:
+  test-debian-11-go-1.17:
     ci: azure
     template: docker-tests/azure.linux.yml
     params:
       env:
         DEBIAN: 11
-        GO: 1.16
+        GO: 1.17
       image: debian-go
 
   test-ubuntu-default-docs:
@@ -1477,6 +1502,20 @@ tasks:
     artifacts:
       - docs.tar.gz
 
+  ############################## CUDA tests #################################
+  
+  test-cuda-cpp:
+    ci: github
+    template: docker-tests/github.cuda.yml
+    params:
+      image: ubuntu-cuda-cpp
+  
+  test-cuda-python:
+    ci: github
+    template: docker-tests/github.cuda.yml
+    params:
+      image: ubuntu-cuda-python
+
   ############################## Fuzz tests #################################
 
   test-build-cpp-fuzz:
@@ -1492,11 +1531,11 @@ tasks:
 
   ############################## Integration tests ############################
 
-{% for python_version, pandas_version, numpy_version, cache_leaf in [("3.7", "0.24", "1.19", True),
+{% for python_version, pandas_version, numpy_version, cache_leaf in [("3.7", "1.0", "1.19", True),
                                                                      ("3.7", "latest", "latest", False),
                                                                      ("3.8", "latest", "latest", False),
                                                                      ("3.8", "nightly", "nightly", False),
-                                                                     ("3.9", "master", "nightly", False)] %}
+                                                                     ("3.9", "upstream_devel", "nightly", False)] %}
   test-conda-python-{{ python_version }}-pandas-{{ pandas_version }}:
     ci: github
     template: docker-tests/github.linux.yml
@@ -1516,7 +1555,7 @@ tasks:
       image: conda-python-pandas
 {% endfor %}
 
-{% for dask_version in ["latest", "master"] %}
+{% for dask_version in ["latest", "upstream_devel"] %}
   test-conda-python-3.9-dask-{{ dask_version }}:
     ci: github
     template: docker-tests/github.linux.yml
@@ -1529,33 +1568,6 @@ tasks:
       image: conda-python-dask
 {% endfor %}
 
-# Turbodbc is currently failing to build. See:
-# https://issues.apache.org/jira/browse/ARROW-15997
-# {% for turbodbc_version in ["latest", "master"] %}
-#   test-conda-python-3.7-turbodbc-{{ turbodbc_version }}:
-#     ci: github
-#     template: docker-tests/github.linux.yml
-#     params:
-#       env:
-#         PYTHON: 3.7
-#         TURBODBC: {{ turbodbc_version }}
-#       # use the latest turbodbc release, so prevent reusing any cached layers
-#       flags: --no-leaf-cache
-#       image: conda-python-turbodbc
-# {% endfor %}
-
-{% for kartothek_version in ["latest", "master"] %}
-  test-conda-python-3.7-kartothek-{{ kartothek_version }}:
-    ci: github
-    template: docker-tests/github.linux.yml
-    params:
-      env:
-        PYTHON: 3.7
-        KARTOTHEK: "{{ kartothek_version }}"
-      flags: --no-leaf-cache
-      image: conda-python-kartothek
-{% endfor %}
-
 {% for hdfs_version in ["2.9.2", "3.2.1"] %}
   test-conda-python-3.7-hdfs-{{ hdfs_version }}:
     ci: github
@@ -1592,3 +1604,20 @@ tasks:
       type: minimal_build
       run: {{ kind }}
 {% endfor %}
+
+  cpp-tutorial-example:
+    ci: github
+    template: cpp-examples/github.linux.yml
+    params:
+      type: tutorial_examples
+      run: tutorial
+
+############################## Utility tasks ############################
+  preview-docs:
+    ci: github
+    template: docs/github.linux.yml
+    params:
+      pr_number: Unset
+      artifacts: "build/docs.tar.gz"
+      flags: "-v $PWD/build/:/build/"
+      image: ubuntu-docs
diff --git a/dev/tasks/vcpkg-tests/cpp-build-vcpkg.bat b/dev/tasks/vcpkg-tests/cpp-build-vcpkg.bat
index 6423720c225..8f160ee7c4f 100644
--- a/dev/tasks/vcpkg-tests/cpp-build-vcpkg.bat
+++ b/dev/tasks/vcpkg-tests/cpp-build-vcpkg.bat
@@ -63,7 +63,6 @@ cmake -G "Visual Studio 16 2019" -A x64 ^
       -DARROW_FLIGHT=OFF ^
       -DARROW_MIMALLOC=ON ^
       -DARROW_PARQUET=ON ^
-      -DARROW_PYTHON=OFF ^
       -DARROW_WITH_BROTLI=ON ^
       -DARROW_WITH_BZ2=ON ^
       -DARROW_WITH_LZ4=ON ^
diff --git a/dev/tasks/verify-rc/github.linux.amd64.docker.yml b/dev/tasks/verify-rc/github.linux.amd64.docker.yml
index aa6b837e307..65b30b5c8d4 100644
--- a/dev/tasks/verify-rc/github.linux.amd64.docker.yml
+++ b/dev/tasks/verify-rc/github.linux.amd64.docker.yml
@@ -21,7 +21,7 @@
 
 jobs:
   test:
-    name: "Verify release candidate {{ distro }} source"
+    name: "Verify release candidate {{ distro }} {{ target }}"
     runs-on: ubuntu-latest
     {% if env is defined %}
     env:
@@ -43,7 +43,7 @@ jobs:
             -e TEST_{{ target|upper }}=1 \
             {{ distro }}-verify-rc
 
-    {% if arrow.branch == 'master' %}
+    {% if arrow.is_default_branch() %}
       {{ macros.github_login_dockerhub()|indent }}
       - name: Push Docker Image
         shell: bash
diff --git a/dev/tasks/verify-rc/github.linux.amd64.yml b/dev/tasks/verify-rc/github.linux.amd64.yml
index 3425c760e1e..8db6ed196bd 100644
--- a/dev/tasks/verify-rc/github.linux.amd64.yml
+++ b/dev/tasks/verify-rc/github.linux.amd64.yml
@@ -24,7 +24,7 @@
 jobs:
   verify:
     name: "Verify release candidate on Ubuntu"
-    runs-on: {{ github_runner|default("ubuntu-20.04") }}
+    runs-on: {{ github_runner|default("ubuntu-22.04") }}
     {% if env is defined %}
     env:
     {% for key, value in env.items() %}
diff --git a/dev/tasks/verify-rc/github.macos.amd64.yml b/dev/tasks/verify-rc/github.macos.amd64.yml
index 3ab9be31576..7205b333719 100644
--- a/dev/tasks/verify-rc/github.macos.amd64.yml
+++ b/dev/tasks/verify-rc/github.macos.amd64.yml
@@ -21,6 +21,10 @@
 
 {% set use_conda = use_conda|default(False) %}
 
+env:
+  # Current oldest supported version according to https://endoflife.date/macos
+  MACOSX_DEPLOYMENT_TARGET: "10.15"
+
 jobs:
   verify:
     name: "Verify release candidate on macOS"
@@ -39,6 +43,10 @@ jobs:
       - name: Install System Dependencies
         shell: bash
         run: |
+          rm -f /usr/local/bin/2to3*
+          rm -f /usr/local/bin/idle*
+          rm -f /usr/local/bin/pydoc3*
+          rm -f /usr/local/bin/python3*
           brew update
           brew install --overwrite git
           brew bundle --file=arrow/cpp/Brewfile
diff --git a/dev/tasks/verify-rc/github.macos.arm64.yml b/dev/tasks/verify-rc/github.macos.arm64.yml
index 10f684e6ac1..79cdf4479eb 100644
--- a/dev/tasks/verify-rc/github.macos.arm64.yml
+++ b/dev/tasks/verify-rc/github.macos.arm64.yml
@@ -46,5 +46,5 @@ jobs:
           export PATH="$(brew --prefix node@16)/bin:$PATH"
           export PATH="$(brew --prefix ruby)/bin:$PATH"
           export PKG_CONFIG_PATH="$(brew --prefix ruby)/lib/pkgconfig"
-          arch -{{ arch_emulation|default("arm64") }} arrow/dev/release/verify-release-candidate.sh \
+          arrow/dev/release/verify-release-candidate.sh \
             {{ release|default("") }} {{ rc|default("") }}
diff --git a/dev/test_merge_arrow_pr.py b/dev/test_merge_arrow_pr.py
index 2367c50b6b6..39576876d55 100755
--- a/dev/test_merge_arrow_pr.py
+++ b/dev/test_merge_arrow_pr.py
@@ -77,8 +77,12 @@ def transition_issue(self, jira_id, transition_id, comment=None,
             'fixVersions': fixVersions
         }
 
-    def get_candidate_fix_versions(self, maintenance_branches):
-        return SOURCE_VERSIONS, ['0.11.0']
+    @property
+    def current_versions(self):
+        all_versions = self._project_versions or SOURCE_VERSIONS
+        return [
+            v for v in all_versions if not v.raw.get("released")
+        ] + ['0.11.0']
 
     def project_versions(self, project):
         return self._project_versions
@@ -104,9 +108,10 @@ def test_jira_fix_versions():
                     transitions=TRANSITIONS)
 
     issue = merge_arrow_pr.JiraIssue(jira, 'ARROW-1234', 'ARROW', FakeCLI())
-    all_versions, default_versions = issue.get_candidate_fix_versions()
-    assert all_versions == SOURCE_VERSIONS
-    assert default_versions == ['0.9.0']
+    fix_version = merge_arrow_pr.get_candidate_fix_version(
+        issue.current_versions
+    )
+    assert fix_version == '0.9.0'
 
 
 def test_jira_fix_versions_filters_maintenance():
@@ -115,11 +120,11 @@ def test_jira_fix_versions_filters_maintenance():
                     transitions=TRANSITIONS)
 
     issue = merge_arrow_pr.JiraIssue(jira, 'ARROW-1234', 'ARROW', FakeCLI())
-    all_versions, default_versions = issue.get_candidate_fix_versions(
+    fix_version = merge_arrow_pr.get_candidate_fix_version(
+        issue.current_versions,
         maintenance_branches=maintenance_branches
     )
-    assert all_versions == SOURCE_VERSIONS
-    assert default_versions == ['0.10.0']
+    assert fix_version == '0.10.0'
 
 
 def test_jira_no_suggest_patch_release():
@@ -132,9 +137,10 @@ def test_jira_no_suggest_patch_release():
 
     jira = FakeJIRA(project_versions=versions, transitions=TRANSITIONS)
     issue = merge_arrow_pr.JiraIssue(jira, 'ARROW-1234', 'ARROW', FakeCLI())
-    all_versions, default_versions = issue.get_candidate_fix_versions()
-    assert all_versions == versions
-    assert default_versions == ['0.10.0']
+    fix_version = merge_arrow_pr.get_candidate_fix_version(
+        issue.current_versions
+    )
+    assert fix_version == '0.10.0'
 
 
 def test_jira_parquet_no_suggest_non_cpp():
@@ -153,9 +159,10 @@ def test_jira_parquet_no_suggest_non_cpp():
     jira = FakeJIRA(project_versions=versions, transitions=TRANSITIONS)
     issue = merge_arrow_pr.JiraIssue(jira, 'PARQUET-1713', 'PARQUET',
                                      FakeCLI())
-    all_versions, default_versions = issue.get_candidate_fix_versions()
-    assert all_versions == versions
-    assert default_versions == ['cpp-1.6.0']
+    fix_version = merge_arrow_pr.get_candidate_fix_version(
+        issue.current_versions
+    )
+    assert fix_version == 'cpp-1.6.0'
 
 
 def test_jira_invalid_issue():
@@ -174,16 +181,16 @@ def test_jira_resolve():
                     transitions=TRANSITIONS)
 
     my_comment = 'my comment'
-    fix_versions = [SOURCE_VERSIONS[1].raw]
+    fix_version = "0.10.0"
 
     issue = merge_arrow_pr.JiraIssue(jira, 'ARROW-1234', 'ARROW', FakeCLI())
-    issue.resolve(fix_versions, my_comment)
+    issue.resolve(fix_version, my_comment)
 
     assert jira.captured_transition == {
         'jira_id': 'ARROW-1234',
         'transition_id': 1,
         'comment': my_comment,
-        'fixVersions': fix_versions
+        'fixVersions': [{'name': '0.10.0', 'released': False}]
     }
 
 
@@ -193,16 +200,16 @@ def test_jira_resolve_non_mainline():
                     transitions=TRANSITIONS)
 
     my_comment = 'my comment'
-    fix_versions = [SOURCE_VERSIONS[0].raw]
+    fix_version = "JS-0.4.0"
 
     issue = merge_arrow_pr.JiraIssue(jira, 'ARROW-1234', 'ARROW', FakeCLI())
-    issue.resolve(fix_versions, my_comment)
+    issue.resolve(fix_version, my_comment)
 
     assert jira.captured_transition == {
         'jira_id': 'ARROW-1234',
         'transition_id': 1,
         'comment': my_comment,
-        'fixVersions': fix_versions
+        'fixVersions': [{'name': 'JS-0.4.0', 'released': False}]
     }
 
 
@@ -214,7 +221,7 @@ def test_jira_resolve_released_fix_version():
 
     cmd = FakeCLI(responses=['0.7.0'])
     fix_versions_json = merge_arrow_pr.prompt_for_fix_version(cmd, jira)
-    assert fix_versions_json == [RAW_VERSION_JSON[-1]]
+    assert fix_versions_json == "0.7.0"
 
 
 def test_multiple_authors_bad_input():
@@ -279,11 +286,16 @@ def test_no_unset_point_release_fix_version():
                          for v in ['0.17.0', '0.15.1', '0.14.2']])
     issue = FakeIssue(fields)
 
-    jira = FakeJIRA(issue=issue, project_versions=SOURCE_VERSIONS,
-                    transitions=TRANSITIONS)
+    jira = FakeJIRA(
+        issue=issue,
+        project_versions=[
+            FakeVersion(v, vdata) for v, vdata in versions_json.items()
+        ],
+        transitions=TRANSITIONS
+    )
 
     issue = merge_arrow_pr.JiraIssue(jira, 'ARROW-1234', 'ARROW', FakeCLI())
-    issue.resolve([versions_json['0.16.0']], "a comment")
+    issue.resolve('0.16.0', "a comment")
 
     assert jira.captured_transition == {
         'jira_id': 'ARROW-1234',
@@ -307,9 +319,10 @@ def test_jira_output_no_components():
     # ARROW-5472
     status = 'Interesting work'
     components = []
-    output = merge_arrow_pr.format_jira_output(
-        'ARROW-1234', 'Resolved', status, FakeAssignee('Foo Bar'),
-        components)
+    output = merge_arrow_pr.format_issue_output(
+        "jira", 'ARROW-1234', 'Resolved', status,
+        FakeAssignee('Foo Bar'), components
+    )
 
     assert output == """=== JIRA ARROW-1234 ===
 Summary\t\tInteresting work
@@ -318,9 +331,10 @@ def test_jira_output_no_components():
 Status\t\tResolved
 URL\t\thttps://issues.apache.org/jira/browse/ARROW-1234"""
 
-    output = merge_arrow_pr.format_jira_output(
-        'ARROW-1234', 'Resolved', status, FakeAssignee('Foo Bar'),
-        [FakeComponent('C++'), FakeComponent('Python')])
+    output = merge_arrow_pr.format_issue_output(
+        "jira", 'ARROW-1234', 'Resolved', status, FakeAssignee('Foo Bar'),
+        [FakeComponent('C++'), FakeComponent('Python')]
+    )
 
     assert output == """=== JIRA ARROW-1234 ===
 Summary\t\tInteresting work
@@ -332,9 +346,10 @@ def test_jira_output_no_components():
 
 def test_sorting_versions():
     versions_json = [
+        {'name': '11.0.0', 'released': False},
         {'name': '9.0.0', 'released': False},
         {'name': '10.0.0', 'released': False},
     ]
     versions = [FakeVersion(raw['name'], raw) for raw in versions_json]
-    ordered_versions = merge_arrow_pr.JiraIssue.sort_versions(versions)
-    assert ordered_versions[0].name == "10.0.0"
+    fix_version = merge_arrow_pr.get_candidate_fix_version(versions)
+    assert fix_version == "9.0.0"
diff --git a/docker-compose.yml b/docker-compose.yml
index 13d7a4da4f8..a596af81375 100644
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -62,6 +62,12 @@ x-ccache: &ccache
   CCACHE_MAXSIZE: 1G
   CCACHE_DIR: /ccache
 
+x-sccache: &sccache
+  AWS_ACCESS_KEY_ID:
+  AWS_SECRET_ACCESS_KEY:
+  SCCACHE_BUCKET:
+  SCCACHE_S3_KEY_PREFIX: ${SCCACHE_S3_KEY_PREFIX:-sccache}
+
 # CPU/memory limit presets to pass to Docker.
 #
 # Usage: archery docker run --resource-limit=github <image>
@@ -96,6 +102,7 @@ x-hierarchy:
   # descendant images if any. Archery checks that all node has a corresponding
   # service entry, so any new image/service must be listed here.
   - almalinux-verify-rc
+  - alpine-linux-cpp
   - centos-cpp-static
   - conda:
     - conda-cpp:
@@ -108,9 +115,7 @@ x-hierarchy:
         - conda-python-hdfs
         - conda-python-java-integration
         - conda-python-jpype
-        - conda-python-kartothek
         - conda-python-spark
-        - conda-python-turbodbc
   - conda-verify-rc
   - conan
   - debian-cpp:
@@ -121,7 +126,6 @@ x-hierarchy:
     - debian-go-cgo
     - debian-go-cgo-python
   - debian-java
-  - debian-java-jni
   - debian-js
   - fedora-cpp:
     - fedora-python
@@ -154,6 +158,7 @@ x-hierarchy:
   - postgres
   - python-wheel-manylinux-2014:
     - java-jni-manylinux-2014
+    - java-jni-manylinux-aarch64-2014
   - python-wheel-manylinux-test-imports
   - python-wheel-manylinux-test-unittests
   - python-wheel-windows-vs2017
@@ -162,6 +167,8 @@ x-hierarchy:
 volumes:
   almalinux-ccache:
     name: ${ARCH}-almalinux-ccache
+  alpine-linux-ccache:
+    name: ${ARCH}-alpine-linux-ccache
   conda-ccache:
     name: ${ARCH}-conda-ccache
   debian-ccache:
@@ -192,6 +199,36 @@ services:
   #     -e ARROW_TEST_LINKAGE=static \
   #     conda-cpp|debian-cpp|...
 
+  alpine-linux-cpp:
+    # Usage:
+    #   docker-compose build alpine-linux-cpp
+    #   docker-compose run --rm alpine-linux-cpp
+    # Parameters:
+    #   ALPINE_LINUX: 3.16
+    #   ARCH: amd64, arm64v8, ...
+    image: ${REPO}:${ARCH}-alpine-linux-${ALPINE_LINUX}-cpp
+    build:
+      context: .
+      dockerfile: ci/docker/alpine-linux-${ALPINE_LINUX}-cpp.dockerfile
+      cache_from:
+        - ${REPO}:${ARCH}-alpine-linux-${ALPINE_LINUX}-cpp
+      args:
+        arch: ${ARCH}
+    shm_size: &shm-size 2G
+    ulimits: &ulimits
+      core: ${ULIMIT_CORE}
+    environment:
+      <<: *ccache
+      ARROW_ENABLE_TIMING_TESTS:  # inherit
+      ARROW_MIMALLOC: "ON"
+    volumes: &alpine-linux-volumes
+      - .:/arrow:delegated
+      - ${DOCKER_VOLUME_PREFIX}alpine-linux-ccache:/ccache:delegated
+    command: >-
+      /bin/bash -c "
+        /arrow/ci/scripts/cpp_build.sh /arrow /build &&
+        /arrow/ci/scripts/cpp_test.sh /arrow /build"
+
   conda:
     # Base image for conda builds.
     #
@@ -229,11 +266,10 @@ services:
       args:
         repo: ${REPO}
         arch: ${ARCH}
-    shm_size: &shm-size 2G
-    ulimits: &ulimits
-      core: ${ULIMIT_CORE}
+    shm_size: *shm-size
+    ulimits: *ulimits
     environment:
-      <<: *ccache
+      <<: [*ccache, *sccache]
       ARROW_BUILD_BENCHMARKS: "ON"
       ARROW_BUILD_EXAMPLES: "ON"
       ARROW_ENABLE_TIMING_TESTS:  # inherit
@@ -245,8 +281,9 @@ services:
     volumes: &conda-volumes
       - .:/arrow:delegated
       - ${DOCKER_VOLUME_PREFIX}conda-ccache:/ccache:delegated
-    command:
-      ["/arrow/ci/scripts/cpp_build.sh /arrow /build &&
+    command: &conda-cpp-command
+      ["
+        /arrow/ci/scripts/cpp_build.sh /arrow /build &&
         /arrow/ci/scripts/cpp_test.sh /arrow /build"]
 
   conda-cpp-valgrind:
@@ -267,7 +304,7 @@ services:
         arch: ${ARCH}
     shm_size: *shm-size
     environment:
-      <<: *ccache
+      <<: [*ccache, *sccache]
       ARROW_CXXFLAGS: "-Og"  # Shrink test runtime by enabling minimal optimizations
       ARROW_ENABLE_TIMING_TESTS:  # inherit
       ARROW_FLIGHT: "OFF"
@@ -280,9 +317,7 @@ services:
       ARROW_USE_LD_GOLD: "ON"
       BUILD_WARNING_LEVEL: "PRODUCTION"
     volumes: *conda-volumes
-    command:
-      ["/arrow/ci/scripts/cpp_build.sh /arrow /build &&
-        /arrow/ci/scripts/cpp_test.sh /arrow /build"]
+    command: *conda-cpp-command
 
   debian-cpp:
     # Usage:
@@ -303,7 +338,7 @@ services:
     shm_size: *shm-size
     ulimits: *ulimits
     environment:
-      <<: *ccache
+      <<: [*ccache, *sccache]
       ARROW_ENABLE_TIMING_TESTS:  # inherit
       ARROW_MIMALLOC: "ON"
     volumes: &debian-volumes
@@ -322,7 +357,7 @@ services:
     #   docker-compose run --rm ubuntu-cpp
     # Parameters:
     #   ARCH: amd64, arm64v8, s390x, ...
-    #   UBUNTU: 18.04, 20.04
+    #   UBUNTU: 18.04, 20.04, 22.04
     image: ${REPO}:${ARCH}-ubuntu-${UBUNTU}-cpp
     build:
       context: .
@@ -344,7 +379,7 @@ services:
       - apparmor:unconfined
     ulimits: *ulimits
     environment:
-      <<: *ccache
+      <<: [*ccache, *sccache]
       ARROW_ENABLE_TIMING_TESTS:  # inherit
       ARROW_MIMALLOC: "ON"
     volumes: &ubuntu-volumes
@@ -358,7 +393,7 @@ services:
     #   docker-compose run --rm ubuntu-cpp-static
     # Parameters:
     #   ARCH: amd64, arm64v8, s390x, ...
-    #   UBUNTU: 18.04, 20.04
+    #   UBUNTU: 18.04, 20.04, 22.04
     image: ${REPO}:${ARCH}-ubuntu-${UBUNTU}-cpp-static
     build:
       context: .
@@ -380,14 +415,16 @@ services:
       - apparmor:unconfined
     ulimits: *ulimits
     environment:
-      <<: *ccache
+      <<: [*ccache, *sccache]
       ARROW_HOME: /arrow
       ARROW_DEPENDENCY_SOURCE: BUNDLED
       LIBARROW_MINIMAL: "false"
       ARROW_MIMALLOC: "ON"
     volumes: *ubuntu-volumes
-    command: /bin/bash -c "
-        cd /arrow && r/inst/build_arrow_static.sh"
+    command: &cpp-static-command
+      /bin/bash -c "
+        cd /arrow &&
+        r/inst/build_arrow_static.sh"
 
   centos-cpp-static:
     image: ${REPO}:centos-7-cpp-static
@@ -400,17 +437,12 @@ services:
     volumes:
       - .:/arrow:delegated
     environment:
-      <<: *ccache
+      <<: [*ccache, *sccache]
       ARROW_DEPENDENCY_SOURCE: BUNDLED
       ARROW_HOME: /arrow
       LIBARROW_MINIMAL: "false"
-      # Turn off features that aren't supported on CentOS 7 gcc 4.8
-      ARROW_GCS: "OFF"
-      ARROW_MIMALLOC: "OFF"
-      ARROW_S3: "OFF"
-    command: >
-      /bin/bash -c "
-        cd /arrow && r/inst/build_arrow_static.sh"
+    command: /bin/bash -c " 
+          scl enable devtoolset-8 '/arrow/r/inst/build_arrow_static.sh'"
 
   ubuntu-cpp-bundled:
     # Arrow build with BUNDLED dependencies
@@ -427,7 +459,7 @@ services:
     shm_size: *shm-size
     ulimits: *ulimits
     environment:
-      <<: *ccache
+      <<: [*ccache, *sccache]
       ARROW_DEPENDENCY_SOURCE: BUNDLED
       CMAKE_GENERATOR: "Unix Makefiles"
     volumes: *ubuntu-volumes
@@ -437,11 +469,9 @@ services:
     # Usage:
     #   docker-compose build cuda-cpp
     #   docker-compose run --rm cuda-cpp
-    # Also need to edit the host docker configuration as follows:
-    #   https://github.com/docker/compose/issues/6691#issuecomment-561504928
     # Parameters:
     #   ARCH: amd64
-    #   CUDA: 9.1, 10.0, 10.1
+    #   CUDA: <depends on your nvidia driver, should match system CUDA>
     image: ${REPO}:${ARCH}-ubuntu-${UBUNTU}-cuda-${CUDA}-cpp
     build:
       context: .
@@ -456,10 +486,33 @@ services:
     shm_size: *shm-size
     ulimits: *ulimits
     environment:
-      <<: *ccache
+      <<: [ *ccache, *sccache]
+      ARROW_BUILD_UTILITIES: "OFF"
+      ARROW_COMPUTE: "OFF"
+      ARROW_CSV: "OFF"
       ARROW_CUDA: "ON"
+      ARROW_DATASET: "OFF"
+      ARROW_ENABLE_TIMING_TESTS: "OFF"
+      ARROW_FILESYSTEM: "OFF"
+      ARROW_GANDIVA: "OFF"
+      ARROW_GCS: "OFF"
+      ARROW_HDFS: "OFF"
+      ARROW_JEMALLOC: "OFF"
+      ARROW_JSON: "OFF"
+      ARROW_ORC: "OFF"
+      ARROW_PARQUET: "OFF"
+      ARROW_PLASMA: "OFF"
+      ARROW_S3: "OFF"
+      ARROW_SUBSTRAIT: "OFF"
+      ARROW_WITH_OPENTELEMETRY: "OFF"
     volumes: *ubuntu-volumes
     command: *cpp-command
+    deploy: &cuda-deploy
+      resources:
+        reservations:
+          devices:
+            - driver: nvidia
+              capabilities: [gpu]
 
   ubuntu-cpp-sanitizer:
     # Usage:
@@ -467,7 +520,7 @@ services:
     #   docker-compose run --rm ubuntu-cpp-sanitizer
     # Parameters:
     #   ARCH: amd64, arm64v8, ...
-    #   UBUNTU: 18.04, 20.04
+    #   UBUNTU: 18.04, 20.04, 22.04
     image: ${REPO}:${ARCH}-ubuntu-${UBUNTU}-cpp
     cap_add:
       # For LeakSanitizer
@@ -504,7 +557,7 @@ services:
     #   docker-compose run --rm ubuntu-cpp-thread-sanitizer
     # Parameters:
     #   ARCH: amd64, arm64v8, ...
-    #   UBUNTU: 18.04, 20.04
+    #   UBUNTU: 18.04, 20.04, 22.04
     image: ${REPO}:${ARCH}-ubuntu-${UBUNTU}-cpp
     build:
       context: .
@@ -518,10 +571,11 @@ services:
     shm_size: *shm-size
     volumes: *ubuntu-volumes
     environment:
-      <<: *ccache
+      <<: [*ccache, *sccache]
       CC: clang-${CLANG_TOOLS}
       CXX: clang++-${CLANG_TOOLS}
       ARROW_BUILD_STATIC: "OFF"
+      ARROW_CTEST_TIMEOUT: 500
       ARROW_ENABLE_TIMING_TESTS:  # inherit
       ARROW_DATASET: "ON"
       ARROW_JEMALLOC: "OFF"
@@ -549,7 +603,7 @@ services:
     shm_size: *shm-size
     ulimits: *ulimits
     environment:
-      <<: *ccache
+      <<: [*ccache, *sccache]
       ARROW_ENABLE_TIMING_TESTS:  # inherit
       ARROW_MIMALLOC: "ON"
       Protobuf_SOURCE: "BUNDLED"  # Need Protobuf >= 3.15
@@ -568,12 +622,16 @@ services:
     #   See https://github.com/conan-io/conan-docker-tools#readme for
     #   available images.
     image: conanio/${CONAN}
+    user: root:root
     shm_size: *shm-size
     ulimits: *ulimits
+    environment:
+      <<: *sccache
     volumes:
       - .:/arrow:delegated
     command: >-
       /bin/bash -c "
+        /arrow/ci/scripts/install_sccache.sh unknown-linux-musl /usr/local/bin &&
         /arrow/ci/scripts/conan_setup.sh &&
         /arrow/ci/scripts/conan_build.sh /arrow /build"
 
@@ -614,7 +672,7 @@ services:
     #   docker-compose run --rm ubuntu-c-glib
     # Parameters:
     #   ARCH: amd64, arm64v8, ...
-    #   UBUNTU: 18.04, 20.04
+    #   UBUNTU: 18.04, 20.04, 22.04
     image: ${REPO}:${ARCH}-ubuntu-${UBUNTU}-c-glib
     build:
       context: .
@@ -674,7 +732,7 @@ services:
     #   docker-compose run --rm ubuntu-ruby
     # Parameters:
     #   ARCH: amd64, arm64v8, ...
-    #   UBUNTU: 18.04, 20.04
+    #   UBUNTU: 18.04, 20.04, 22.04
     image: ${REPO}:${ARCH}-ubuntu-${UBUNTU}-ruby
     build:
       context: .
@@ -713,10 +771,11 @@ services:
         python: ${PYTHON}
     shm_size: *shm-size
     environment:
-      <<: *ccache
+      <<: [*ccache, *sccache]
     volumes: *conda-volumes
     command: &python-conda-command
-      ["/arrow/ci/scripts/cpp_build.sh /arrow /build &&
+      ["
+        /arrow/ci/scripts/cpp_build.sh /arrow /build &&
         /arrow/ci/scripts/python_build.sh /arrow /build &&
         /arrow/ci/scripts/python_test.sh /arrow"]
 
@@ -727,7 +786,7 @@ services:
     #   docker-compose run --rm cuda-python
     # Parameters:
     #   ARCH: amd64
-    #   CUDA: 8.0, 10.0, ...
+    #   CUDA: <depends on your nvidia driver, should match system CUDA>
     image: ${REPO}:${ARCH}-ubuntu-${UBUNTU}-cuda-${CUDA}-python-3
     build:
       context: .
@@ -736,11 +795,31 @@ services:
         - ${REPO}:${ARCH}-ubuntu-${UBUNTU}-cuda-${CUDA}-python-3
       args:
         base: ${REPO}:${ARCH}-ubuntu-${UBUNTU}-cuda-${CUDA}-cpp
+        numba: ${NUMBA}
     shm_size: *shm-size
     environment:
-      <<: *ccache
+      <<: [ *ccache, *sccache ] 
+      ARROW_BUILD_UTILITIES: "OFF"
+      ARROW_COMPUTE: "ON"
+      ARROW_CSV: "ON"
       ARROW_CUDA: "ON"
+      ARROW_DATASET: "ON"
+      ARROW_ENABLE_TIMING_TESTS: "OFF"
+      ARROW_FILESYSTEM: "ON"
+      ARROW_GANDIVA: "OFF"
+      ARROW_GCS: "OFF"
+      ARROW_HDFS: "ON"
+      ARROW_JEMALLOC: "ON"
+      ARROW_JSON: "ON"
+      ARROW_ORC: "OFF"
+      ARROW_PARQUET: "ON"
+      ARROW_PLASMA: "OFF"
+      ARROW_S3: "OFF"
+      ARROW_SUBSTRAIT: "OFF"
+      ARROW_WITH_OPENTELEMETRY: "OFF"
+      SETUPTOOLS_SCM_PRETEND_VERSION:
     volumes: *ubuntu-volumes
+    deploy: *cuda-deploy
     command: &python-command >
       /bin/bash -c "
         /arrow/ci/scripts/cpp_build.sh /arrow /build &&
@@ -776,7 +855,7 @@ services:
     #   docker-compose run --rm ubuntu-python
     # Parameters:
     #   ARCH: amd64, arm64v8, ...
-    #   UBUNTU: 18.04, 20.04
+    #   UBUNTU: 18.04, 20.04, 22.04
     image: ${REPO}:${ARCH}-ubuntu-${UBUNTU}-python-3
     build:
       context: .
@@ -842,7 +921,7 @@ services:
     # Parameters:
     #   ARCH: amd64, arm64v8, ...
     #   PYARROW_VERSION: The test target pyarrow version such as "3.0.0"
-    #   UBUNTU: 18.04, 20.04
+    #   UBUNTU: 18.04, 20.04, 22.04
     image: ${REPO}:${ARCH}-ubuntu-${UBUNTU}-python-3
     build:
       context: .
@@ -874,7 +953,7 @@ services:
       args:
         arch: ${ARCH}
         arch_short: ${ARCH_SHORT}
-        base: quay.io/pypa/manylinux2014_${ARCH_ALIAS}:2021-10-11-14ac00e
+        base: quay.io/pypa/manylinux2014_${ARCH_ALIAS}:2022-10-25-fbea779
         vcpkg: ${VCPKG}
         python: ${PYTHON}
         manylinux: 2014
@@ -937,10 +1016,15 @@ services:
         target: "C:/arrow"
     command: arrow\\ci\\scripts\\python_wheel_windows_build.bat
 
-  # doesn't exit properly on fail
   python-wheel-windows-test:
-    image: python:${PYTHON}-windowsservercore-1809
+    image: ${REPO}:python-${PYTHON}-wheel-windows-test-vs2017-${PYTHON_WHEEL_WINDOWS_IMAGE_REVISION}
+    build:
+      args:
+        python: ${PYTHON}
+      context: .
+      dockerfile: ci/docker/python-wheel-windows-test-vs2017.dockerfile
     volumes:
+      - "${DOCKER_VOLUME_PREFIX}python-wheel-windows-clcache:C:/clcache"
       - type: bind
         source: .
         target: "C:/arrow"
@@ -960,10 +1044,34 @@ services:
       <<: *ccache
     volumes:
       - .:/arrow:delegated
+      - ${DOCKER_VOLUME_PREFIX}maven-cache:/root/.m2:delegated
       - ${DOCKER_VOLUME_PREFIX}python-wheel-manylinux2014-ccache:/ccache:delegated
     command:
-      ["pip install -e /arrow/dev/archery &&
-        /arrow/ci/scripts/java_jni_manylinux_build.sh /arrow /build /arrow/java-dist"]
+      ["pip install -e /arrow/dev/archery && \
+        /arrow/ci/scripts/java_jni_manylinux_build.sh /arrow /build /arrow/java-dist && \
+        source /opt/rh/rh-maven35/enable && \
+        /arrow/ci/scripts/java_build.sh /arrow /build /arrow/java-dist && \
+        /arrow/ci/scripts/java_test.sh /arrow /build /arrow/java-dist"]
+
+  java-jni-manylinux-aarch64-2014:
+    image: ${REPO}:${ARCH}-java-jni-manylinux-2014-vcpkg-${VCPKG}
+    build:
+      args:
+        base: ${REPO}:${ARCH}-python-${PYTHON}-wheel-manylinux-2014-vcpkg-${VCPKG}
+        java: 1.8.0
+      context: .
+      dockerfile: ci/docker/java-jni-manylinux-aarch64-201x.dockerfile
+      cache_from:
+        - ${REPO}:${ARCH}-java-jni-manylinux-2014-vcpkg-${VCPKG}
+    environment:
+      <<: *ccache
+    volumes:
+      - ${DOCKER_VOLUME_PREFIX}maven-cache:/root/.m2:delegated
+      - ${DOCKER_VOLUME_PREFIX}python-wheel-manylinux2014-ccache:/ccache:delegated
+    privileged: true
+    command:
+      [ "pip install -e /arrow/dev/archery && \
+        bash /arrow/ci/scripts/java_jni_manylinux_aarch64_build.sh /arrow /build /arrow/java-dist" ]
 
   ##############################  Integration #################################
 
@@ -992,16 +1100,13 @@ services:
         pandas: ${PANDAS}
     shm_size: *shm-size
     environment:
-      <<: *ccache
+      <<: [*ccache, *sccache]
       PARQUET_REQUIRE_ENCRYPTION:  # inherit
       PYTEST_ARGS:  # inherit
       HYPOTHESIS_PROFILE:  # inherit
       PYARROW_TEST_HYPOTHESIS:  # inherit
     volumes: *conda-volumes
-    command:
-      ["/arrow/ci/scripts/cpp_build.sh /arrow /build &&
-        /arrow/ci/scripts/python_build.sh /arrow /build &&
-        /arrow/ci/scripts/python_test.sh /arrow"]
+    command: *python-conda-command
 
   conda-python-docs:
     # Usage:
@@ -1023,7 +1128,7 @@ services:
       ["/arrow/ci/scripts/cpp_build.sh /arrow /build &&
         /arrow/ci/scripts/python_build.sh /arrow /build &&
         pip install -e /arrow/dev/archery[numpydoc] &&
-        archery numpydoc --allow-rule PR01,PR10 &&
+        archery numpydoc --allow-rule GL10,PR01,PR03,PR04,PR05,PR10,RT03,YD01 &&
         /arrow/ci/scripts/python_test.sh /arrow"]
 
   conda-python-dask:
@@ -1125,72 +1230,10 @@ services:
     command:
       [ "/arrow/ci/scripts/cpp_build.sh /arrow /build &&
           /arrow/ci/scripts/python_build.sh /arrow /build &&
-          /arrow/ci/scripts/java_jni_build.sh /arrow /build /tmp/dist/java &&
+          /arrow/ci/scripts/java_jni_build.sh /arrow $${ARROW_HOME} /build /tmp/dist/java/$$(arch) &&
           /arrow/ci/scripts/java_build.sh /arrow /build /tmp/dist/java &&
           /arrow/ci/scripts/java_cdata_integration.sh /arrow /tmp/dist/java" ]
 
-  conda-python-turbodbc:
-    # Possible $TURBODBC parameters:
-    #  - `latest`: latest release
-    #  - `master`: git master branch, use `docker-compose run --no-cache`
-    #  - `<version>`: specific version available under github releases
-    # Usage:
-    #   docker-compose build conda
-    #   docker-compose build conda-cpp
-    #   docker-compose build conda-python
-    #   docker-compose build conda-python-turbodbc
-    #   docker-compose run --rm conda-python-turbodbc
-    image: ${REPO}:${ARCH}-conda-python-${PYTHON}-turbodbc-${TURBODBC}
-    build:
-      context: .
-      dockerfile: ci/docker/conda-python-turbodbc.dockerfile
-      cache_from:
-        - ${REPO}:${ARCH}-conda-python-${PYTHON}-turbodbc-${TURBODBC}
-      args:
-        repo: ${REPO}
-        arch: ${ARCH}
-        python: ${PYTHON}
-        turbodbc: ${TURBODBC}
-    shm_size: *shm-size
-    environment:
-      <<: *ccache
-    volumes: *conda-volumes
-    command:
-      ["/arrow/ci/scripts/cpp_build.sh /arrow /build &&
-        /arrow/ci/scripts/python_build.sh /arrow /build &&
-        /arrow/ci/scripts/integration_turbodbc.sh /turbodbc /build"]
-
-  conda-python-kartothek:
-    # Possible $KARTOTHEK parameters:
-    #  - `latest`: latest release
-    #  - `master`: git master branch, use `docker-compose run --no-cache`
-    #  - `<version>`: specific version available under github releases
-    # Usage:
-    #   docker-compose build conda
-    #   docker-compose build conda-cpp
-    #   docker-compose build conda-python
-    #   docker-compose build conda-python-kartothek
-    #   docker-compose run --rm conda-python-kartothek
-    image: ${REPO}:${ARCH}-conda-python-${PYTHON}-kartothek-${KARTOTHEK}
-    build:
-      context: .
-      dockerfile: ci/docker/conda-python-kartothek.dockerfile
-      cache_from:
-        - ${REPO}:${ARCH}-conda-python-${PYTHON}-kartothek-${KARTOTHEK}
-      args:
-        repo: ${REPO}
-        arch: ${ARCH}
-        python: ${PYTHON}
-        kartothek: ${KARTOTHEK}
-    shm_size: *shm-size
-    environment:
-      <<: *ccache
-    volumes: *conda-volumes
-    command:
-      ["/arrow/ci/scripts/cpp_build.sh /arrow /build &&
-        /arrow/ci/scripts/python_build.sh /arrow /build &&
-        /arrow/ci/scripts/integration_kartothek.sh /kartothek /build"]
-
   ################################## R ########################################
 
   ubuntu-r:
@@ -1214,12 +1257,13 @@ services:
         r_duckdb_dev: ${R_DUCKDB_DEV:-}
     shm_size: *shm-size
     environment:
-      <<: *ccache
+      <<: [*ccache, *sccache]
       ARROW_R_CXXFLAGS: '-Werror'
       ARROW_FLIGHT: 'ON'
       LIBARROW_BUILD: 'false'
       NOT_CRAN: 'true'
       ARROW_R_DEV: ${ARROW_R_DEV}
+      ARROW_SOURCE_HOME: '/arrow'
     volumes: *ubuntu-volumes
     command: >
       /bin/bash -c "
@@ -1260,6 +1304,7 @@ services:
         r_custom_ccache: ${R_CUSTOM_CCACHE}
     shm_size: *shm-size
     environment:
+      <<: *sccache
       LIBARROW_DOWNLOAD: "false"
       ARROW_SOURCE_HOME: "/arrow"
       ARROW_R_DEV: ${ARROW_R_DEV}
@@ -1341,7 +1386,7 @@ services:
         r_bin: RDvalgrind
         tz: ${TZ}
     environment:
-      <<: *ccache
+      <<: [*ccache, *sccache]
       ARROW_R_DEV: ${ARROW_R_DEV}
       # AVX512 not supported by Valgrind (similar to ARROW-9851) some runners support AVX512 and some do not
       # so some build might pass without this setting, but we want to ensure that we stay to AVX2 regardless of runner.
@@ -1356,21 +1401,20 @@ services:
     # Usage:
     #   docker-compose build r-revdepcheck
     #   docker-compose run r-revdepcheck
-    image: ${REPO}:r-rstudio-r-base-4.0-focal-revdepcheck
+    image: ${REPO}:r-rstudio-r-base-4.2-focal-revdepcheck
     build:
       context: .
       dockerfile: ci/docker/linux-r.dockerfile
       cache_from:
-        - ${REPO}:r-rstudio-r-base-4.0-focal-revdepcheck
+        - ${REPO}:r-rstudio-r-base-4.2-focal-revdepcheck
       args:
-        base: rstudio/r-base:4.0-focal
+        base: rstudio/r-base:4.2-focal
         r_dev: ${ARROW_R_DEV}
         tz: ${TZ}
     shm_size: *shm-size
     environment:
-      LIBARROW_DOWNLOAD: "true"
-      LIBARROW_MINIMAL: "false"
-      ARROW_SOURCE_HOME: "/arrow"
+      N_JOBS:
+      ARROW_REVDEP_WORKERS:
       ARROW_R_DEV: "true"
     volumes: *ubuntu-volumes
     command: >
@@ -1391,6 +1435,7 @@ services:
       args:
         arch: ${ARCH}
         go: ${GO}
+        staticcheck: ${STATICCHECK}
     shm_size: *shm-size
     volumes: *debian-volumes
     command: &go-command >
@@ -1501,34 +1546,6 @@ services:
         /arrow/ci/scripts/java_build.sh /arrow /build &&
         /arrow/ci/scripts/java_test.sh /arrow /build"
 
-  debian-java-jni:
-    # Includes plasma test, jni for gandiva and orc, and C data interface.
-    # Usage:
-    #   docker-compose build debian-java
-    #   docker-compose build debian-java-jni
-    #   docker-compose run debian-java-jni
-    image: ${REPO}:${ARCH}-debian-9-java-${JDK}-maven-${MAVEN}-jni
-    build:
-      context: .
-      dockerfile: ci/docker/linux-apt-jni.dockerfile
-      cache_from:
-        - ${REPO}:${ARCH}-debian-9-java-${JDK}-maven-${MAVEN}-jni
-      args:
-        llvm: ${LLVM}
-    shm_size: *shm-size
-    environment:
-      <<: *ccache
-    volumes:
-      - .:/arrow:delegated
-      - ${DOCKER_VOLUME_PREFIX}maven-cache:/root/.m2:delegated
-      - ${DOCKER_VOLUME_PREFIX}debian-ccache:/ccache:delegated
-    command:
-      /bin/bash -c "
-        /arrow/ci/scripts/cpp_build.sh /arrow /build &&
-        /arrow/ci/scripts/java_jni_build.sh /arrow /build /tmp/java_dist &&
-        /arrow/ci/scripts/java_build.sh /arrow /build /tmp/java_dist &&
-        /arrow/ci/scripts/java_test.sh /arrow /build /tmp/java_dist"
-
   oracle-java:
     # Usage:
     #   docker-compose build oracle-java
@@ -1599,6 +1616,7 @@ services:
         base: ${REPO}:${ARCH}-ubuntu-${UBUNTU}-python-3
     environment:
       <<: *ccache
+      ARROW_JAVA_SKIP_GIT_PLUGIN:
       ARROW_CUDA: "ON"
       BUILD_DOCS_C_GLIB: "ON"
       BUILD_DOCS_CPP: "ON"
diff --git a/docs/source/_static/versions.json b/docs/source/_static/versions.json
index 013df079ec2..ee021310339 100644
--- a/docs/source/_static/versions.json
+++ b/docs/source/_static/versions.json
@@ -1,12 +1,20 @@
 [
     {
-        "name": "10.0 (dev)",
+        "name": "12.0 (dev)",
         "version": "dev/"
     },
     {
-        "name": "9.0 (stable)",
+        "name": "11.0 (stable)",
         "version": ""
     },
+    {
+        "name": "10.0",
+        "version": "10.0/"
+    },
+    {
+        "name": "9.0",
+        "version": "9.0/"
+    },
     {
         "name": "8.0",
         "version": "8.0/"
diff --git a/docs/source/_static/versionwarning.js b/docs/source/_static/versionwarning.js
new file mode 100644
index 00000000000..a9bea99affa
--- /dev/null
+++ b/docs/source/_static/versionwarning.js
@@ -0,0 +1,134 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+(function() {
+    // adapted 2022-11 from https://mne.tools/versionwarning.js
+    if (location.hostname == 'arrow.apache.org') {
+        $.getJSON("https://arrow.apache.org/docs/_static/versions.json", function(data){
+            var latestStable = data[1].name.replace(" (stable)","");
+            // HTML tags
+            var pre = '<div class="container-fluid alert-danger devbar"><div class="row no-gutters"><div class="col-12 text-center">';
+            var post = '</div></div></div>';
+            var anchor = 'class="btn btn-danger font-weight-bold ml-3 my-3 align-baseline"';
+            // Switch button message
+            var switch_dev = `Switch to unstable development release version`;
+            var switch_stable = `latest stable release (version ${latestStable})`;
+            // Path of the page
+            var location_array = location.pathname.split('/');
+            var versionPath = location_array[2];
+            var subPath = location_array[3];
+            var filePath = location_array.slice(3).join('/');
+            // Links to stable or dev versions
+            var uri_dev = `https://arrow.apache.org/docs/dev/${filePath}`;
+            var uri_stable = `https://arrow.apache.org/docs/${filePath}`;
+
+            if (versionPath == 'developers') {
+                // developers section in the stable version
+                filePath = location_array.slice(2).join('/');
+                uri_dev = `https://arrow.apache.org/docs/dev/${filePath}`;
+                $.ajax({
+                    type: 'HEAD',
+                    url: `${uri_dev}`,
+                    error: function() {
+                        filePath = '';
+                        uri_dev = `https://arrow.apache.org/docs/dev/${filePath}`;
+                    },
+                    complete: function() {
+                        var showWarning = `${pre}This is documentation for the stable version ` +
+                                        `of Apache Arrow (version ${latestStable}). For latest development practices: ` +
+                                        `<a ${anchor} href=${uri_dev}>${switch_dev}</a>${post}`
+                        $('.container-fluid').prepend(`${showWarning}`)
+                    }
+                });
+            } else if (versionPath.match(/^\d/) < "4") {
+                // old versions 1.0,. 2.0 or 3.0
+                $.ajax({
+                    type: 'HEAD',
+                    url: `${uri_stable}`,
+                    error: function() {
+                        filePath = '';
+                        uri_stable = `https://arrow.apache.org/docs/${filePath}`;
+                    },
+                    complete: function() {
+                        $.ajax({
+                            type: 'HEAD',
+                            url: `${uri_dev}`,
+                            error: function() {
+                                filePath = '';
+                                uri_dev = `https://arrow.apache.org/docs/dev/${filePath}`;
+                            },
+                            complete: function() {
+                                pre = '<p style="padding: 1em;font-size: 1em;border: 1px solid red;background: pink;">';
+                                post = '</p>';
+                                anchor = 'class="btn btn-danger" style="font-weight: bold; vertical-align: baseline;' +
+                                        'margin: 0.5rem; border-style: solid; border-color: white;"';
+                                var showWarning = `${pre}This is documentation for an old release of ` +
+                                                `Apache Arrow (version ${versionPath}). Try the` +
+                                                `<a ${anchor} href=${uri_stable}>${switch_stable}</a> or` +
+                                                `<a ${anchor} href=${uri_dev}>development (unstable) version. </a>${post}`
+                                $('.document').prepend(`${showWarning}`)
+                            }
+                        });
+                    }
+                });
+            } else if (versionPath.match(/^\d/) && subPath == 'developers') {
+                // older versions of developers section (with numbered version in the URL)
+                $.ajax({
+                    type: 'HEAD',
+                    url: `${uri_dev}`,
+                    error: function() {
+                        filePath = '';
+                        uri_dev = `https://arrow.apache.org/docs/dev/${filePath}`;
+                    },
+                    complete: function() {
+                        var showWarning = `${pre}This is documentation for an old release of Apache Arrow ` +
+                                        `(version ${versionPath}). For latest development practices: ` +
+                                        `<a ${anchor} href=${uri_dev}>${switch_dev} </a>${post}`
+                        $('.container-fluid').prepend(`${showWarning}`)
+                    }
+                });
+            } else if (versionPath.match(/^\d/)) {
+                // older versions (with numbered version in the URL)
+                $.ajax({
+                    type: 'HEAD',
+                    url: `${uri_stable}`,
+                    error: function() {
+                        filePath = '';
+                        uri_stable = `https://arrow.apache.org/docs/${filePath}`;
+                    },
+                    complete: function() {
+                        $.ajax({
+                            type: 'HEAD',
+                            url: `${uri_dev}`,
+                            error: function() {
+                                filePath = '';
+                                uri_dev = `https://arrow.apache.org/docs/dev/${filePath}`;
+                            },
+                            complete: function() {
+                                var showWarning = `${pre}This is documentation for an old release of ` +
+                                                `Apache Arrow (version ${versionPath}). Try the` +
+                                                `<a ${anchor} href=${uri_stable}>${switch_stable}</a> or` +
+                                                `<a ${anchor} href=${uri_dev}>development (unstable) version. </a>${post}`
+                                $('.container-fluid').prepend(`${showWarning}`)
+                            }
+                        });
+                    }
+                });
+            }
+        });
+    }
+})()
diff --git a/docs/source/_templates/layout.html b/docs/source/_templates/layout.html
index ceadc26be9f..ca39e8e5a8f 100644
--- a/docs/source/_templates/layout.html
+++ b/docs/source/_templates/layout.html
@@ -26,3 +26,9 @@
 {# Silence the navbar #}
 {% block docs_navbar %}
 {% endblock %}
+
+{# Add version warnings #}
+{% block footer %}
+  {{ super() }}
+  <script type="text/javascript" src="/docs/_static/versionwarning.js"></script>
+{% endblock %}
diff --git a/docs/source/cpp/api.rst b/docs/source/cpp/api.rst
index 3934f54aadb..33e66cfcfcb 100644
--- a/docs/source/cpp/api.rst
+++ b/docs/source/cpp/api.rst
@@ -32,6 +32,7 @@ API Reference
    api/table
    api/c_abi
    api/compute
+   api/gandiva
    api/tensor
    api/utilities
    api/async
diff --git a/docs/source/cpp/api/compute.rst b/docs/source/cpp/api/compute.rst
index d64362a4082..5e490fc4089 100644
--- a/docs/source/cpp/api/compute.rst
+++ b/docs/source/cpp/api/compute.rst
@@ -31,6 +31,13 @@ Abstract Function classes
    :content-only:
    :members:
 
+Function execution
+------------------
+
+.. doxygengroup:: compute-functions-executor
+   :content-only:
+   :members:
+
 Function registry
 -----------------
 
@@ -70,6 +77,11 @@ Streaming Execution Operators
    :members:
    :undoc-members:
 
+.. doxygengroup:: execnode-components
+   :content-only:
+   :members:
+   :undoc-members:
+
 Execution Plan Expressions
 --------------------------
 
diff --git a/docs/source/cpp/api/formats.rst b/docs/source/cpp/api/formats.rst
index 49fa5645f8b..264b9e4e7c6 100644
--- a/docs/source/cpp/api/formats.rst
+++ b/docs/source/cpp/api/formats.rst
@@ -67,6 +67,9 @@ Line-separated JSON
 .. doxygenclass:: arrow::json::TableReader
    :members:
 
+.. doxygenclass:: arrow::json::StreamingReader
+   :members:
+
 .. _cpp-api-parquet:
 
 Parquet reader
diff --git a/docs/source/cpp/api/gandiva.rst b/docs/source/cpp/api/gandiva.rst
new file mode 100644
index 00000000000..cd9f582c559
--- /dev/null
+++ b/docs/source/cpp/api/gandiva.rst
@@ -0,0 +1,70 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+..   http://www.apache.org/licenses/LICENSE-2.0
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+Gandiva Expression Compiler
+===========================
+
+TreeExprBuilder Class
+---------------------
+
+.. doxygenclass:: gandiva::TreeExprBuilder
+    :members:
+
+.. doxygenclass:: gandiva::Node
+    :members:
+
+.. doxygenclass:: gandiva::Expression
+    :members:
+
+.. doxygenclass:: gandiva::Condition
+    :members:
+
+
+Function registry
+-----------------
+
+.. doxygenclass:: gandiva::FunctionSignature
+    :members:
+
+.. doxygenfunction:: gandiva::GetRegisteredFunctionSignatures
+
+Configuration
+-------------
+
+.. doxygenclass:: gandiva::Configuration
+    :members:
+
+.. doxygenclass:: gandiva::ConfigurationBuilder
+    :members:
+
+..
+    TODO: Add doxygen strings to Configuration and Configuration builder members
+
+Projector
+---------
+
+.. doxygenclass:: gandiva::Projector
+    :members:
+
+
+Filter
+------
+
+
+.. doxygenclass:: gandiva::Filter
+    :members:
+
+.. doxygenclass:: gandiva::SelectionVector
+    :members:
diff --git a/docs/source/cpp/api/table.rst b/docs/source/cpp/api/table.rst
index 53e2d72e672..117c96d8281 100644
--- a/docs/source/cpp/api/table.rst
+++ b/docs/source/cpp/api/table.rst
@@ -43,3 +43,6 @@ Tables
 
 .. doxygenfunction:: arrow::ConcatenateTables
    :project: arrow_cpp
+
+.. doxygenfunction:: arrow::PromoteTableToSchema
+   :project: arrow_cpp
diff --git a/docs/source/cpp/arrays.rst b/docs/source/cpp/arrays.rst
index 9c1bade551b..37550229388 100644
--- a/docs/source/cpp/arrays.rst
+++ b/docs/source/cpp/arrays.rst
@@ -49,7 +49,7 @@ example a ``std::vector``.  Instead, several strategies can be used:
 
 * if the data already exists in memory with the right layout, you can wrap
   said memory inside :class:`arrow::Buffer` instances and then construct
-  a :class:`arrow::ArrowData` describing the array;
+  a :class:`arrow::ArrayData` describing the array;
 
   .. seealso:: :ref:`cpp_memory_management`
 
diff --git a/docs/source/cpp/build_system.rst b/docs/source/cpp/build_system.rst
index d4a0c82cc61..d5f63e67f6a 100644
--- a/docs/source/cpp/build_system.rst
+++ b/docs/source/cpp/build_system.rst
@@ -51,7 +51,7 @@ file into an executable linked with the Arrow C++ shared library:
    find_package(Arrow REQUIRED)
 
    add_executable(my_example my_example.cc)
-   target_link_libraries(my_example PRIVATE arrow_shared)
+   target_link_libraries(my_example PRIVATE Arrow::arrow_shared)
 
 Available variables and targets
 -------------------------------
@@ -67,15 +67,83 @@ CMake variables:
 In addition, it will have created some targets that you can link against
 (note these are plain strings, not variables):
 
-* ``arrow_shared`` links to the Arrow shared libraries
-* ``arrow_static`` links to the Arrow static libraries
+* ``Arrow::arrow_shared`` links to the Arrow shared libraries
+* ``Arrow::arrow_static`` links to the Arrow static libraries
+
+For backwards compatibility purposes the ``arrow_shared`` and ``arrow_static``
+targets are also available but we recommend using ``Arrow::arrow_shared`` and
+``Arrow::arrow_static`` respectively.
 
 In most cases, it is recommended to use the Arrow shared libraries.
 
+If Arrow is installed on a custom path instead of a common system one you
+will have to add the path where Arrow is installed to ``CMAKE_PREFIX_PATH``.
+
+``CMAKE_PREFIX_PATH`` can be defined as a `CMake variable
+<https://cmake.org/cmake/help/latest/variable/CMAKE_PREFIX_PATH.html>`_ or an
+`environment variable <https://cmake.org/cmake/help/latest/envvar/CMAKE_PREFIX_PATH.html>`_.
+
+Your system might already have a ``CMAKE_PREFIX_PATH`` environment variable
+defined, use the following to expand it with the path to your Arrow
+installation. In this case ``ARROW_ROOT`` is expected to contain the
+path to your Arrow installation:
+
+.. code-block:: shell
+
+   export CMAKE_PREFIX_PATH=${ARROW_ROOT}${CMAKE_PREFIX_PATH:+:${CMAKE_PREFIX_PATH}}
+
+In the case of using a CMake variable you can add it when configuring the
+project like the following to contain the possible existing
+``CMAKE_PREFIX_PATH`` environment variable:
+
+.. code-block:: shell
+
+   cmake ... -DCMAKE_PREFIX_PATH=${ARROW_ROOT}${CMAKE_PREFIX_PATH:+:${CMAKE_PREFIX_PATH}}
+
+.. note::
+   The usage of ``COMPONENTS`` on our ``find_package`` implementation is
+   currently not supported.
+
+Other available packages
+------------------------
+
+There are other available packages, they can also be used with the `find_package
+<https://cmake.org/cmake/help/latest/command/find_package.html>`_ directive.
+This is the list of available ones and the respective targets created:
+
++-----------------------------------------------+--------------------------------------------------------+-----------------------------------------------------+
+| find_package usage                            | shared target                                          | static target                                       |
++===============================================+========================================================+=====================================================+
+| ``find_package(ArrowCUDA REQUIRED)``          | ``ArrowCUDA::arrow_cuda_shared``                       | ``ArrowCUDA::arrow_cuda_static``                    |
++-----------------------------------------------+--------------------------------------------------------+-----------------------------------------------------+
+| ``find_package(ArrowDataset REQUIRED)``       | ``ArrowDataset::arrow_dataset_shared``                 | ``ArrowDataset::arrow_dataset_static``              |
++-----------------------------------------------+--------------------------------------------------------+-----------------------------------------------------+
+| ``find_package(ArrowFlight REQUIRED)``        | ``ArrowFlight::arrow_flight_shared``                   | ``ArrowFlight::arrow_flight_static``                |
++-----------------------------------------------+--------------------------------------------------------+-----------------------------------------------------+
+| ``find_package(ArrowFlightSql REQUIRED)``     | ``ArrowFlightSql::arrow_flight_sql_shared``            | ``ArrowFlightSql::arrow_flight_sql_static``         |
++-----------------------------------------------+--------------------------------------------------------+-----------------------------------------------------+
+| ``find_package(ArrowFlightTesting REQUIRED)`` | ``ArrowFlightTesting::arrow_flight_testing_shared``    | ``ArrowFlightTesting::arrow_flight_testing_static`` |
++-----------------------------------------------+--------------------------------------------------------+-----------------------------------------------------+
+| ``find_package(ArrowSubstrait REQUIRED)``     | ``ArrowSubstrait::arrow_substrait_shared``             | ``ArrowSubstrait::arrow_substrait_static``          |
++-----------------------------------------------+--------------------------------------------------------+-----------------------------------------------------+
+| ``find_package(ArrowTesting REQUIRED)``       | ``ArrowTesting::arrow_testing_shared``                 | ``ArrowTesting::arrow_testing_static``              |
++-----------------------------------------------+--------------------------------------------------------+-----------------------------------------------------+
+| ``find_package(Gandiva REQUIRED)``            | ``Gandiva::gandiva_shared``                            | ``Gandiva::gandiva_static``                         |
++-----------------------------------------------+--------------------------------------------------------+-----------------------------------------------------+
+| ``find_package(Parquet REQUIRED)``            | ``Parquet::parquet_shared``                            | ``Parquet::parquet_static``                         |
++-----------------------------------------------+--------------------------------------------------------+-----------------------------------------------------+
+| ``find_package(Plasma REQUIRED)``             | ``Plasma::plasma_shared``                              | ``Plasma::plasma_static``                           |
++-----------------------------------------------+--------------------------------------------------------+-----------------------------------------------------+
+
+``Plasma`` will also expose ``Plasma::plasma-store-server`` for the Plasma store server executable.
+
 .. note::
    CMake is case-sensitive.  The names and variables listed above have to be
    spelt exactly that way!
 
+.. warning::
+   Plasma is deprecated as of Arrow 10.0.0, and will be removed in 12.0.0 or so.
+
 .. seealso::
    A Docker-based :doc:`minimal build example <examples/cmake_minimal_build>`.
 
diff --git a/docs/source/cpp/compute.rst b/docs/source/cpp/compute.rst
index a354f42a4b1..4205cce1c00 100644
--- a/docs/source/cpp/compute.rst
+++ b/docs/source/cpp/compute.rst
@@ -19,6 +19,8 @@
 .. highlight:: cpp
 .. cpp:namespace:: arrow::compute
 
+.. _compute-cpp:
+
 =================
 Compute Functions
 =================
@@ -435,43 +437,45 @@ floating-point arguments will cast all arguments to floating-point, while mixed
 decimal and integer arguments will cast all arguments to decimals.
 Mixed time resolution temporal inputs will be cast to finest input resolution.
 
-+------------------+--------+------------------+----------------------+-------+
-| Function name    | Arity  | Input types      | Output type          | Notes |
-+==================+========+==================+======================+=======+
-| abs              | Unary  | Numeric          | Numeric              |       |
-+------------------+--------+------------------+----------------------+-------+
-| abs_checked      | Unary  | Numeric          | Numeric              |       |
-+------------------+--------+------------------+----------------------+-------+
-| add              | Binary | Numeric/Temporal | Numeric/Temporal     | \(1)  |
-+------------------+--------+------------------+----------------------+-------+
-| add_checked      | Binary | Numeric/Temporal | Numeric/Temporal     | \(1)  |
-+------------------+--------+------------------+----------------------+-------+
-| divide           | Binary | Numeric/Temporal | Numeric/Temporal     | \(1)  |
-+------------------+--------+------------------+----------------------+-------+
-| divide_checked   | Binary | Numeric/Temporal | Numeric/Temporal     | \(1)  |
-+------------------+--------+------------------+----------------------+-------+
-| multiply         | Binary | Numeric/Temporal | Numeric/Temporal     | \(1)  |
-+------------------+--------+------------------+----------------------+-------+
-| multiply_checked | Binary | Numeric/Temporal | Numeric/Temporal     | \(1)  |
-+------------------+--------+------------------+----------------------+-------+
-| negate           | Unary  | Numeric          | Numeric              |       |
-+------------------+--------+------------------+----------------------+-------+
-| negate_checked   | Unary  | Signed Numeric   | Signed Numeric       |       |
-+------------------+--------+------------------+----------------------+-------+
-| power            | Binary | Numeric          | Numeric              |       |
-+------------------+--------+------------------+----------------------+-------+
-| power_checked    | Binary | Numeric          | Numeric              |       |
-+------------------+--------+------------------+----------------------+-------+
-| sign             | Unary  | Numeric          | Int8/Float32/Float64 | \(2)  |
-+------------------+--------+------------------+----------------------+-------+
-| sqrt             | Unary  | Numeric          | Numeric              |       |
-+------------------+--------+------------------+----------------------+-------+
-| sqrt_checked     | Unary  | Numeric          | Numeric              |       |
-+------------------+--------+------------------+----------------------+-------+
-| subtract         | Binary | Numeric/Temporal | Numeric/Temporal     | \(1)  |
-+------------------+--------+------------------+----------------------+-------+
-| subtract_checked | Binary | Numeric/Temporal | Numeric/Temporal     | \(1)  |
-+------------------+--------+------------------+----------------------+-------+
++------------------+--------+-------------------------+----------------------+-------+
+| Function name    | Arity  | Input types             | Output type          | Notes |
++==================+========+=========================+======================+=======+
+| abs              | Unary  | Numeric                 | Numeric              |       |
++------------------+--------+-------------------------+----------------------+-------+
+| abs_checked      | Unary  | Numeric                 | Numeric              |       |
++------------------+--------+-------------------------+----------------------+-------+
+| add              | Binary | Numeric/Temporal        | Numeric/Temporal     | \(1)  |
++------------------+--------+-------------------------+----------------------+-------+
+| add_checked      | Binary | Numeric/Temporal        | Numeric/Temporal     | \(1)  |
++------------------+--------+-------------------------+----------------------+-------+
+| divide           | Binary | Numeric/Temporal        | Numeric/Temporal     | \(1)  |
++------------------+--------+-------------------------+----------------------+-------+
+| divide_checked   | Binary | Numeric/Temporal        | Numeric/Temporal     | \(1)  |
++------------------+--------+-------------------------+----------------------+-------+
+| exp              | Unary  | Numeric                 | Float32/Float64      |       |
++------------------+--------+-------------------------+----------------------+-------+
+| multiply         | Binary | Numeric/Temporal        | Numeric/Temporal     | \(1)  |
++------------------+--------+-------------------------+----------------------+-------+
+| multiply_checked | Binary | Numeric/Temporal        | Numeric/Temporal     | \(1)  |
++------------------+--------+-------------------------+----------------------+-------+
+| negate           | Unary  | Numeric                 | Numeric              |       |
++------------------+--------+-------------------------+----------------------+-------+
+| negate_checked   | Unary  | Signed Numeric          | Signed Numeric       |       |
++------------------+--------+-------------------------+----------------------+-------+
+| power            | Binary | Numeric                 | Numeric              |       |
++------------------+--------+-------------------------+----------------------+-------+
+| power_checked    | Binary | Numeric                 | Numeric              |       |
++------------------+--------+-------------------------+----------------------+-------+
+| sign             | Unary  | Numeric                 | Int8/Float32/Float64 | \(2)  |
++------------------+--------+-------------------------+----------------------+-------+
+| sqrt             | Unary  | Numeric                 | Numeric              |       |
++------------------+--------+-------------------------+----------------------+-------+
+| sqrt_checked     | Unary  | Numeric                 | Numeric              |       |
++------------------+--------+-------------------------+----------------------+-------+
+| subtract         | Binary | Numeric/Temporal        | Numeric/Temporal     | \(1)  |
++------------------+--------+-------------------------+----------------------+-------+
+| subtract_checked | Binary | Numeric/Temporal        | Numeric/Temporal     | \(1)  |
++------------------+--------+-------------------------+----------------------+-------+
 
 * \(1) Precision and scale of computed DECIMAL results
 
@@ -1087,13 +1091,18 @@ semantics follow Python slicing semantics: the start index is inclusive,
 the stop index exclusive; if the step is negative, the sequence is followed
 in reverse order.
 
-+--------------------------+------------+----------------+-----------------+--------------------------+---------+
-| Function name            | Arity      | Input types    | Output type     | Options class            | Notes   |
-+==========================+============+================+=================+==========================+=========+
-| utf8_slice_codeunits     | Unary      | String-like    | String-like     | :struct:`SliceOptions`   | \(1)    |
-+--------------------------+------------+----------------+-----------------+--------------------------+---------+
++--------------------------+------------+-------------------------+-------------------------+--------------------------+---------+
+| Function name            | Arity      | Input types             | Output type             | Options class            | Notes   |
++==========================+============+=========================+=========================+==========================+=========+
+| binary_slice             | Unary      | Binary-like             | Binary-like             | :struct:`SliceOptions`   | \(1)    |
++--------------------------+------------+-------------------------+-------------------------+--------------------------+---------+
+| utf8_slice_codeunits     | Unary      | String-like             | String-like             | :struct:`SliceOptions`   | \(2)    |
++--------------------------+------------+-------------------------+-------------------------+--------------------------+---------+
 
 * \(1) Slice string into a substring defined by (``start``, ``stop``, ``step``)
+  as given by :struct:`SliceOptions` where ``start`` and ``stop`` are measured
+  in bytes. Null inputs emit null.
+* \(2) Slice string into a substring defined by (``start``, ``stop``, ``step``)
   as given by :struct:`SliceOptions` where ``start`` and ``stop`` are measured
   in codeunits. Null inputs emit null.
 
@@ -1373,19 +1382,38 @@ null input value is converted into a null output value.
 +-----------------------------+------------------------------------+---------+
 | Extension                   | Extension storage type             |         |
 +-----------------------------+------------------------------------+---------+
-| List-like                   | List-like                          | \(2)    |
+| Struct                      | Struct                             | \(2)    |
++-----------------------------+------------------------------------+---------+
+| List-like                   | List-like                          | \(3)    |
++-----------------------------+------------------------------------+---------+
+| Map                         | Map or List of two-field struct    | \(4)    |
 +-----------------------------+------------------------------------+---------+
 | Null                        | Any                                |         |
 +-----------------------------+------------------------------------+---------+
+| Any                         | Extension                          | \(5)    |
++-----------------------------+------------------------------------+---------+
 
 * \(1) The dictionary indices are unchanged, the dictionary values are
   cast from the input value type to the output value type (if a conversion
   is available).
 
-* \(2) The list offsets are unchanged, the list values are cast from the
+* \(2) The field names of the output type must be the same or a subset of the
+  field names of the input type; they also must have the same order. Casting to
+  a subset of field names "selects" those fields such that each output field
+  matches the data of the input field with the same name.
+
+* \(3) The list offsets are unchanged, the list values are cast from the
   input value type to the output value type (if a conversion is
   available).
 
+* \(4) Offsets are unchanged, the keys and values are cast from respective input
+  to output types (if a conversion is available). If output type is a list of
+  struct, the key field is output as the first field and the value field the 
+  second field, regardless of field names chosen.
+
+* \(5) Any input type that can be cast to the resulting extension's storage type.
+  This excludes extension types, unless being cast to the same extension type.
+
 Temporal component extraction
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
@@ -1709,9 +1737,11 @@ Structural transforms
 +---------------------+------------+-------------------------------------+------------------+------------------------------+--------+
 | list_parent_indices | Unary      | List-like                           | Int64            |                              | \(3)   |
 +---------------------+------------+-------------------------------------+------------------+------------------------------+--------+
-| map_lookup          | Unary      | Map                                 | Computed         | :struct:`MapLookupOptions`   | \(4)   |
+| list_slice          | Unary      | List-like                           | List-like        | :struct:`ListSliceOptions`   | \(4)   |
 +---------------------+------------+-------------------------------------+------------------+------------------------------+--------+
-| struct_field        | Unary      | Struct or Union                     | Computed         | :struct:`StructFieldOptions` | \(5)   |
+| map_lookup          | Unary      | Map                                 | Computed         | :struct:`MapLookupOptions`   | \(5)   |
++---------------------+------------+-------------------------------------+------------------+------------------------------+--------+
+| struct_field        | Unary      | Struct or Union                     | Computed         | :struct:`StructFieldOptions` | \(6)   |
 +---------------------+------------+-------------------------------------+------------------+------------------------------+--------+
 
 * \(1) Output is an array of the same length as the input list array. The
@@ -1725,12 +1755,16 @@ Structural transforms
   in the list array is appended to the output.  Nulls in the parent list array
   are discarded.
 
-* \(4) Extract either the ``FIRST``, ``LAST`` or ``ALL`` items from a
+* \(4) For each list element, compute the slice of that list element, then
+  return another list-like array of those slices. Can return either a
+  fixed or variable size list-like array, as determined by options provided.
+
+* \(5) Extract either the ``FIRST``, ``LAST`` or ``ALL`` items from a
   map whose key match the given query key passed via options.
   The output type is an Array of items for the ``FIRST``/``LAST`` options
   and an Array of List of items for the ``ALL`` option.
 
-* \(5) Extract a child value based on a sequence of indices passed in
+* \(6) Extract a child value based on a sequence of indices passed in
   the options. The validity bitmap of the result will be the
   intersection of all intermediate validity bitmaps. For example, for
   an array with type ``struct<a: int32, b: struct<c: int64, d:
diff --git a/docs/source/cpp/conventions.rst b/docs/source/cpp/conventions.rst
index 07af8f0937a..ba61d747db8 100644
--- a/docs/source/cpp/conventions.rst
+++ b/docs/source/cpp/conventions.rst
@@ -29,8 +29,7 @@ there may be exceptions.
 Language version
 ----------------
 
-Arrow is C++11-compatible.  A few backports are used for newer functionality,
-for example the :class:`std::string_view` class.
+Starting with version 10.0, Arrow C++ is C++17-compatible.
 
 Namespacing
 -----------
diff --git a/docs/source/cpp/csv.rst b/docs/source/cpp/csv.rst
index d6bb66ce49e..6078ec58923 100644
--- a/docs/source/cpp/csv.rst
+++ b/docs/source/cpp/csv.rst
@@ -25,15 +25,26 @@ Reading and Writing CSV files
 =============================
 
 Arrow provides a fast CSV reader allowing ingestion of external data
-as Arrow tables.
+to create Arrow Tables or a stream of Arrow RecordBatches.
 
 .. seealso::
    :ref:`CSV reader/writer API reference <cpp-api-csv>`.
 
-Basic usage
-===========
+Reading CSV files
+=================
+
+Data in a CSV file can either be read in as a single Arrow Table using
+:class:`~arrow::csv::TableReader` or streamed as RecordBatches using
+:class:`~arrow::csv::StreamingReader`. See :ref:`Tradeoffs <cpp-csv-tradeoffs>` for a
+discussion of the tradeoffs between the two methods.
 
-A CSV file is read from a :class:`~arrow::io::InputStream`.
+Both these readers require an :class:`arrow::io::InputStream` instance
+representing the input file. Their behavior can be customized using a
+combination of :class:`~arrow::csv::ReadOptions`,
+:class:`~arrow::csv::ParseOptions`, and :class:`~arrow::csv::ConvertOptions`.
+
+TableReader
+-----------
 
 .. code-block:: cpp
 
@@ -56,19 +67,98 @@ A CSV file is read from a :class:`~arrow::io::InputStream`.
                                       parse_options,
                                       convert_options);
       if (!maybe_reader.ok()) {
-         // Handle TableReader instantiation error...
+        // Handle TableReader instantiation error...
       }
       std::shared_ptr<arrow::csv::TableReader> reader = *maybe_reader;
 
       // Read table from CSV file
       auto maybe_table = reader->Read();
       if (!maybe_table.ok()) {
-         // Handle CSV read error
-         // (for example a CSV syntax error or failed type conversion)
+        // Handle CSV read error
+        // (for example a CSV syntax error or failed type conversion)
       }
       std::shared_ptr<arrow::Table> table = *maybe_table;
    }
 
+StreamingReader
+---------------
+
+.. code-block:: cpp
+
+   #include "arrow/csv/api.h"
+
+   {
+      // ...
+      arrow::io::IOContext io_context = arrow::io::default_io_context();
+      std::shared_ptr<arrow::io::InputStream> input = ...;
+
+      auto read_options = arrow::csv::ReadOptions::Defaults();
+      auto parse_options = arrow::csv::ParseOptions::Defaults();
+      auto convert_options = arrow::csv::ConvertOptions::Defaults();
+
+      // Instantiate StreamingReader from input stream and options
+      auto maybe_reader =
+        arrow::csv::StreamingReader::Make(io_context,
+                                          input,
+                                          read_options,
+                                          parse_options,
+                                          convert_options);
+      if (!maybe_reader.ok()) {
+        // Handle StreamingReader instantiation error...
+      }
+      std::shared_ptr<arrow::csv::StreamingReader> reader = *maybe_reader;
+
+      // Set aside a RecordBatch pointer for re-use while streaming
+      std::shared_ptr<RecordBatch> batch;
+
+      while (true) {
+          // Attempt to read the first RecordBatch
+          arrow::Status status = reader->ReadNext(&batch);
+
+          if (!status.ok()) {
+            // Handle read error
+          }
+
+          if (batch == NULL) {
+            // Handle end of file
+            break;
+          }
+
+          // Do something with the batch
+      }
+   }
+
+.. _cpp-csv-tradeoffs:
+
+Tradeoffs
+---------
+
+The choice between using :class:`~arrow::csv::TableReader` or
+:class:`~arrow::csv::StreamingReader` will ultimately depend on the use case
+but there are a few tradeoffs to be aware of:
+
+1. **Memory usage:** :class:`~arrow::csv::TableReader` loads all of the data
+   into memory at once and, depending on the amount of data, may require
+   considerably more memory than :class:`~arrow::csv::StreamingReader` which
+   only loads one :class:`~arrow::RecordBatch` at a time. This is likely to be
+   the most significant tradeoff for users.
+2. **Speed:** When reading the entire contents of a CSV,
+   :class:`~arrow::csv::TableReader` will tend to be faster than
+   :class:`~arrow::csv::StreamingReader` because it makes better use of
+   available cores. See :ref:`Performance <cpp-csv-performance>` for more
+   details.
+3. **Flexibility:** :class:`~arrow::csv::StreamingReader` might be considered
+   less flexible than :class:`~arrow::csv::TableReader` because it performs type
+   inference only on the first block that's read in, after which point the types
+   are frozen and any data in subsequent blocks that cannot be converted to
+   those types will cause an error. Note that this can be remedied either by
+   setting :member:`ReadOptions::block_size` to a large enough value or by using
+   :member:`ConvertOptions::column_types` to set the desired data types
+   explicitly.
+
+Writing CSV files
+=================
+
 A CSV file is written to a :class:`~arrow::io::OutputStream`.
 
 .. code-block:: cpp
@@ -275,11 +365,13 @@ Write Options
 The format of written CSV files can be customized via :class:`~arrow::csv::WriteOptions`.
 Currently few options are available; more will be added in future releases.
 
+.. _cpp-csv-performance:
+
 Performance
 ===========
 
-By default, the CSV reader will parallelize reads in order to exploit all
-CPU cores on your machine.  You can change this setting in
+By default, :class:`~arrow::csv::TableReader` will parallelize reads in order to
+exploit all CPU cores on your machine.  You can change this setting in
 :member:`ReadOptions::use_threads`.  A reasonable expectation is at least
 100 MB/s per core on a performant desktop or laptop computer (measured in
 source CSV bytes, not target Arrow data bytes).
diff --git a/docs/source/cpp/dataset.rst b/docs/source/cpp/dataset.rst
index 4662f2f7c55..1f5d0476c28 100644
--- a/docs/source/cpp/dataset.rst
+++ b/docs/source/cpp/dataset.rst
@@ -18,6 +18,8 @@
 .. default-domain:: cpp
 .. highlight:: cpp
 
+.. _cpp-dataset:
+
 ================
 Tabular Datasets
 ================
@@ -33,14 +35,15 @@ Tabular Datasets
 The Arrow Datasets library provides functionality to efficiently work with
 tabular, potentially larger than memory, and multi-file datasets. This includes:
 
-* A unified interface that supports different sources and file formats
-  (currently, Parquet, ORC, Feather / Arrow IPC, and CSV files) and different
-  file systems (local, cloud).
+* A unified interface that supports different sources and file formats and
+  different file systems (local, cloud).
 * Discovery of sources (crawling directories, handling partitioned datasets with
   various partitioning schemes, basic schema normalization, ...)
 * Optimized reading with predicate pushdown (filtering rows), projection
   (selecting and deriving columns), and optionally parallel reading.
 
+The supported file formats currently are Parquet, Feather / Arrow IPC, CSV and
+ORC (note that ORC datasets can currently only be read and not yet written).
 The goal is to expand support to other file formats and data sources
 (e.g. database connections) in the future.
 
diff --git a/docs/source/cpp/datatypes.rst b/docs/source/cpp/datatypes.rst
index 2a31ac65a93..1d2133cbdf3 100644
--- a/docs/source/cpp/datatypes.rst
+++ b/docs/source/cpp/datatypes.rst
@@ -140,7 +140,7 @@ function for any numeric (integer or float) array:
              typename CType = typename DataType::c_type>
    arrow::enable_if_number<DataType, CType> SumArray(const ArrayType& array) {
      CType sum = 0;
-     for (arrow::util::optional<CType> value : array) {
+     for (std::optional<CType> value : array) {
        if (value.has_value()) {
          sum += value.value();
        }
@@ -192,7 +192,7 @@ here is how one might sum across columns of arbitrary numeric types:
    
      template <typename ArrayType, typename T = typename ArrayType::TypeClass>
      arrow::enable_if_number<T, arrow::Status> Visit(const ArrayType& array) {
-       for (arrow::util::optional<typename T::c_type> value : array) {
+       for (std::optional<typename T::c_type> value : array) {
          if (value.has_value()) {
            partial += static_cast<double>(value.value());
          }
@@ -205,4 +205,4 @@ Arrow also provides abstract visitor classes (:class:`arrow::TypeVisitor`,
 :class:`arrow::ScalarVisitor`, :class:`arrow::ArrayVisitor`) and an ``Accept()``
 method on each of the corresponding base types (e.g. :func:`arrow::Array::Accept`).
 However, these are not able to be implemented using template functions, so you
-will typically prefer using the inline type visitors.
\ No newline at end of file
+will typically prefer using the inline type visitors.
diff --git a/docs/source/cpp/flight.rst b/docs/source/cpp/flight.rst
index a941ead9040..e07a84e91ee 100644
--- a/docs/source/cpp/flight.rst
+++ b/docs/source/cpp/flight.rst
@@ -172,6 +172,197 @@ request/response. On the server, they can inspect incoming headers and
 fail the request; hence, they can be used to implement custom
 authentication methods.
 
+.. _flight-best-practices:
+
+Best practices
+==============
+
+gRPC
+----
+
+When using the default gRPC transport, options can be passed to it via
+:member:`arrow::flight::FlightClientOptions::generic_options`. For example:
+
+.. tab-set::
+
+   .. tab-item:: C++
+
+      .. code-block:: cpp
+
+         auto options = FlightClientOptions::Defaults();
+         // Set the period after which a keepalive ping is sent on transport.
+         options.generic_options.emplace_back(GRPC_ARG_KEEPALIVE_TIME_MS, 60000);
+
+   .. tab-item:: Python
+
+      .. code-block:: python
+
+         # Set the period after which a keepalive ping is sent on transport.
+         generic_options = [("GRPC_ARG_KEEPALIVE_TIME_MS", 60000)]
+         client = pyarrow.flight.FlightClient(server_uri, generic_options=generic_options)
+
+Also see `best gRPC practices`_ and available `gRPC keys`_.
+
+Re-use clients whenever possible
+--------------------------------
+
+Creating and closing clients requires setup and teardown on the client and
+server side which can take away from actually handling RPCs. Reuse clients
+whenever possible to avoid this. Note that clients are thread-safe, so a
+single client can be shared across multiple threads.
+
+Don’t round-robin load balance
+------------------------------
+
+`Round robin load balancing`_ means every client can have an open connection to
+every server, causing an unexpected number of open connections and depleting
+server resources.
+
+Debugging connection issues
+---------------------------
+
+When facing unexpected disconnects on long running connections use netstat to
+monitor the number of open connections. If number of connections is much
+greater than the number of clients it might cause issues.
+
+For debugging, certain environment variables enable logging in gRPC. For
+example, ``env GRPC_VERBOSITY=info GRPC_TRACE=http`` will print the initial
+headers (on both sides) so you can see if gRPC established the connection or
+not. It will also print when a message is sent, so you can tell if the
+connection is open or not.
+
+gRPC may not report connection errors until a call is actually made.
+Hence, to detect connection errors when creating a client, some sort
+of dummy RPC should be made.
+
+Memory management
+-----------------
+
+Flight tries to reuse allocations made by gRPC to avoid redundant
+data copies. However, this means that those allocations may not
+be tracked by the Arrow memory pool, and that memory usage behavior,
+such as whether free memory is returned to the system, is dependent
+on the allocator that gRPC uses (usually the system allocator).
+
+A quick way of testing: attach to the process with a debugger and call
+``malloc_trim``, or call :func:`ReleaseUnused <arrow::MemoryPool::ReleaseUnused>`
+on the system pool. If memory usage drops, then likely, there is memory
+allocated by gRPC or by the application that the system allocator was holding
+on to. This can be adjusted in platform-specific ways; see an investigation
+in ARROW-16697_ for an example of how this works on Linux/glibc. glibc malloc
+can be explicitly told to dump caches.
+
+Excessive traffic
+-----------------
+
+gRPC will spawn up to max threads quota of threads for concurrent clients. Those
+threads are not necessarily cleaned up (a "cached thread pool" in Java parlance).
+glibc malloc clears some per thread state and the default tuning never clears
+caches in some workloads.
+
+gRPC's default behaviour allows one server to accept many connections from many
+different clients, but if requests do a lot of work (as they may under Flight),
+the server may not be able to keep up. Configuring clients to retry
+with backoff (and potentially connect to a different node), would give more
+consistent quality of service.
+
+.. tab-set::
+
+   .. tab-item:: C++
+
+      .. code-block:: cpp
+
+         auto options = FlightClientOptions::Defaults();
+         // Set the minimum time between subsequent connection attempts.
+         options.generic_options.emplace_back(GRPC_ARG_MIN_RECONNECT_BACKOFF_MS, 2000);
+
+   .. tab-item:: Python
+
+      .. code-block:: python
+
+         # Set the minimum time between subsequent connection attempts.
+         generic_options = [("GRPC_ARG_MIN_RECONNECT_BACKOFF_MS", 2000)]
+         client = pyarrow.flight.FlightClient(server_uri, generic_options=generic_options)
+
+
+Limiting DoPut Batch Size
+--------------------------
+
+You may wish to limit the maximum batch size a client can submit to a server through
+DoPut, to prevent a request from taking up too much memory on the server. On
+the client-side, set :member:`arrow::flight::FlightClientOptions::write_size_limit_bytes`.
+On the server-side, set the gRPC option ``GRPC_ARG_MAX_RECEIVE_MESSAGE_LENGTH``.
+The client-side option will return an error that can be retried with smaller batches,
+while the server-side limit will close out the connection. Setting both can be wise, since
+the former provides a better user experience but the latter may be necessary to defend
+against impolite clients.
+
+Closing unresponsive connections
+--------------------------------
+
+1. A stale call can be closed using
+   :member:`arrow::flight::FlightCallOptions::stop_token`. This requires recording the
+   stop token at call establishment time.
+
+   .. tab-set::
+
+      .. tab-item:: C++
+
+         .. code-block:: cpp
+
+              StopSource stop_source;
+              FlightCallOptions options;
+              options.stop_token = stop_source.token();
+              stop_source.RequestStop(Status::Cancelled("StopSource"));
+              flight_client->DoAction(options, {});
+
+
+2. Use call timeouts. (This is a general gRPC best practice.)
+
+   .. tab-set::
+
+      .. tab-item:: C++
+
+         .. code-block:: cpp
+
+            FlightCallOptions options;
+            options.timeout = TimeoutDuration{0.2};
+            Status status = client->GetFlightInfo(options, FlightDescriptor{}).status();
+
+      .. tab-item:: Java
+
+         .. code-block:: java
+
+            Iterator<Result> results = client.doAction(new Action("hang"), CallOptions.timeout(0.2, TimeUnit.SECONDS));
+
+      .. tab-item:: Python
+
+         .. code-block:: python
+
+            options = pyarrow.flight.FlightCallOptions(timeout=0.2)
+            result = client.do_action(action, options=options)
+
+
+3. Client timeouts are not great for long-running streaming calls, where it may
+   be hard to choose a timeout for the entire operation. Instead, what is often
+   desired is a per-read or per-write timeout so that the operation fails if it
+   isn't making progress. This can be implemented with a background thread that
+   calls Cancel() on a timer, with the main thread resetting the timer every time
+   an operation completes successfully. For a fully-worked out example, see the
+   Cookbook.
+   
+   .. note:: There is a long standing ticket for a per-write/per-read timeout
+             instead of a per call timeout (ARROW-6062_), but this is not (easily)
+             possible to implement with the blocking gRPC API. 
+
+.. _best gRPC practices: https://grpc.io/docs/guides/performance/#general
+.. _gRPC keys: https://grpc.github.io/grpc/cpp/group__grpc__arg__keys.html
+.. _Round robin load balancing: https://github.com/grpc/grpc/blob/master/doc/load-balancing.md#round_robin
+.. _ARROW-15764: https://issues.apache.org/jira/browse/ARROW-15764
+.. _ARROW-16697: https://issues.apache.org/jira/browse/ARROW-16697
+.. _ARROW-6062: https://issues.apache.org/jira/browse/ARROW-6062
+
+
 Alternative Transports
 ======================
 
diff --git a/docs/source/cpp/gandiva.rst b/docs/source/cpp/gandiva.rst
new file mode 100644
index 00000000000..3686f94af0e
--- /dev/null
+++ b/docs/source/cpp/gandiva.rst
@@ -0,0 +1,158 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+.. default-domain:: cpp
+.. highlight:: cpp
+.. cpp:namespace:: gandiva
+
+===============================
+The Gandiva Expression Compiler
+===============================
+
+Gandiva is a runtime expression compiler that uses `LLVM`_ to generate
+efficient native code for compute on Arrow record batches.
+Gandiva only handles projections and filters; for other transformations, see
+:ref:`Compute Functions <compute-cpp>`.
+
+Gandiva was designed to take advantage of the Arrow memory format and modern
+hardware. From the Arrow memory model, since Arrow arrays have separate buffers for values and 
+validity bitmaps, values and their null status can often be processed 
+independently, allowing for better instruction pipelining. On modern hardware,
+compiling expressions using LLVM allows the execution to be optimized
+to the local runtime environment and hardware, including available SIMD
+instructions. To reduce optimization overhead, many Gandiva functions are
+pre-compiled into LLVM IR (intermediate representation).
+
+.. _LLVM: https://llvm.org/
+
+
+Building Expressions
+====================
+
+Gandiva provides a general expression representation where expressions are
+represented by a tree of nodes. The expression trees are built using
+:class:`TreeExprBuilder`. The leaves of the expression tree are typically
+field references, created by :func:`TreeExprBuilder::MakeField`, and
+literal values, created by :func:`TreeExprBuilder::MakeLiteral`. Nodes
+can be combined into more complex expression trees using:
+
+* :func:`TreeExprBuilder::MakeFunction` to create a function
+  node. (You can call :func:`GetRegisteredFunctionSignatures` to 
+  get a list of valid function signatures.)
+* :func:`TreeExprBuilder::MakeIf` to create if-else logic.
+* :func:`TreeExprBuilder::MakeAnd` and :func:`TreeExprBuilder::MakeOr`
+  to create boolean expressions. (For "not", use the ``not(bool)`` function in ``MakeFunction``.)
+* :func:`TreeExprBuilder::MakeInExpressionInt32` and the other "in expression"
+  functions to create set membership tests.
+
+Each of these functions create new composite nodes, which contain the leaf nodes
+(literals and field references) or other composite nodes as children. By 
+composing these, you can create arbitrarily complex expression trees.
+
+Once an expression tree is built, they are wrapped in either :class:`Expression`
+or :class:`Condition`, depending on how they will be used.
+``Expression`` is used in projections while ``Condition`` is used in filters.
+
+As an example, here is how to create an Expression representing ``x + 3`` and a
+Condition representing ``x < 3``:
+
+.. literalinclude:: ../../../cpp/examples/arrow/gandiva_example.cc
+   :language: cpp
+   :start-after: (Doc section: Create expressions)
+   :end-before: (Doc section: Create expressions)
+   :dedent: 2
+
+
+Projectors and Filters
+======================
+
+Gandiva's two execution kernels are :class:`Projector` and
+:class:`Filter`. ``Projector`` consumes a record batch and projects
+into a new record batch. ``Filter`` consumes a record batch and produces a
+:class:`SelectionVector` containing the indices that matched the condition.
+
+For both ``Projector`` and ``Filter``, optimization of the expression IR happens
+when creating instances. They are compiled against a static schema, so the
+schema of the record batches must be known at this point.
+
+Continuing with the ``expression`` and ``condition`` created in the previous
+section, here is an example of creating a Projector and a Filter:
+
+.. literalinclude:: ../../../cpp/examples/arrow/gandiva_example.cc
+   :language: cpp
+   :start-after: (Doc section: Create projector and filter)
+   :end-before: (Doc section: Create projector and filter)
+   :dedent: 2
+
+Once a Projector or Filter is created, it can be evaluated on Arrow record batches.
+These execution kernels are single-threaded on their own, but are designed to be
+reused to process distinct record batches in parallel.
+
+Evaluating projections
+----------------------
+
+Execution is performed with :func:`Projector::Evaluate`. This outputs 
+a vector of arrays, which can be passed along with the output schema to
+:func:`arrow::RecordBatch::Make()`.
+
+.. literalinclude:: ../../../cpp/examples/arrow/gandiva_example.cc
+   :language: cpp
+   :start-after: (Doc section: Evaluate projection)
+   :end-before: (Doc section: Evaluate projection)
+   :dedent: 2
+
+Evaluating filters
+------------------
+
+:func:`Filter::Evaluate` produces :class:`SelectionVector`,
+a vector of row indices that matched the filter condition. The selection vector
+is a wrapper around an arrow integer array, parameterized by bitwidth. When 
+creating the selection vector (you must initialize it *before* passing to 
+``Evaluate()``), you must choose the bitwidth, which determines the max index 
+value it can hold, and the max number of slots, which determines how many indices
+it may contain. In general, the max number of slots should be set to your batch 
+size and the bitwidth the smallest integer size that can represent all integers 
+less than the batch size. For example, if your batch size is 100k, set the 
+maximum number of slots to 100k and the bitwidth to 32 (since 2^16 = 64k which 
+would be too small).
+
+Once ``Evaluate()`` has been run and the :class:`SelectionVector` is
+populated, use the :func:`SelectionVector::ToArray()` method to get
+the underlying array and then :func:`::arrow::compute::Take()` to materialize the
+output record batch.
+
+.. literalinclude:: ../../../cpp/examples/arrow/gandiva_example.cc
+   :language: cpp
+   :start-after: (Doc section: Evaluate filter)
+   :end-before: (Doc section: Evaluate filter)
+   :dedent: 2
+
+Evaluating projections and filters
+----------------------------------
+
+Finally, you can also project while apply a selection vector, with 
+:func:`Projector::Evaluate()`. To do so, first make sure to initialize the
+:class:`Projector` with :func:`SelectionVector::GetMode()` so that the projector
+compiles with the correct bitwidth. Then you can pass the 
+:class:`SelectionVector` into the :func:`Projector::Evaluate()` method.
+
+
+.. literalinclude:: ../../../cpp/examples/arrow/gandiva_example.cc
+   :language: cpp
+   :start-after: (Doc section: Evaluate filter and projection)
+   :end-before: (Doc section: Evaluate filter and projection)
+   :dedent: 2
diff --git a/docs/source/cpp/gdb.rst b/docs/source/cpp/gdb.rst
index beb9267f567..ed1810a6720 100644
--- a/docs/source/cpp/gdb.rst
+++ b/docs/source/cpp/gdb.rst
@@ -165,5 +165,3 @@ Important utility classes are also covered:
 * :class:`arrow::Status` and :class:`arrow::Result`
 * :class:`arrow::Buffer` and subclasses
 * :class:`arrow::Decimal128`, :class:`arrow::Decimal256`
-* :class:`arrow::util::string_view`, :class:`arrow::util::optional`,
-  :class:`arrow::util::Variant`
diff --git a/docs/source/cpp/getting_started.rst b/docs/source/cpp/getting_started.rst
index 31095cbd217..89bd4559ef1 100644
--- a/docs/source/cpp/getting_started.rst
+++ b/docs/source/cpp/getting_started.rst
@@ -18,28 +18,31 @@
 .. default-domain:: cpp
 .. highlight:: cpp
 
-User Guide
-==========
+Getting Started
+===============
+
+The following articles demonstrate installation, use, and a basic understanding of Arrow.
+These articles will get you setup quickly using Arrow and give you a taste of what the
+library is capable of.
+Specifically, it contains: an installation and linking guide; documentation of conventions used 
+in the codebase and suggested for users; and tutorials, including: 
+
+* Building Arrow arrays and tabular structures 
+* Reading and writing Parquet, Arrow, and CSV files
+* Executing compute kernels on arrays
+* Reading and writing multi-file partitioned datasets
+
+Start here to gain a basic understanding of Arrow, and move on to the :doc:`/cpp/user_guide` to
+explore more specific topics and underlying concepts, or the :doc:`/cpp/api` to explore Arrow's 
+API. 
 
 .. toctree::
 
-   overview
-   conventions
    build_system
-   memory
-   arrays
-   datatypes
-   tables
-   compute
-   streaming_execution
-   io
-   ipc
-   orc
-   parquet
-   csv
-   json
-   dataset
-   flight
-   gdb
-   threading
-   env_vars
+   conventions
+   tutorials/basic_arrow.rst
+   tutorials/io_tutorial.rst
+   tutorials/compute_tutorial.rst
+   tutorials/datasets_tutorial.rst
+   
+   
diff --git a/docs/source/cpp/index.rst b/docs/source/cpp/index.rst
index 70329c07233..ab693af2c55 100644
--- a/docs/source/cpp/index.rst
+++ b/docs/source/cpp/index.rst
@@ -22,5 +22,6 @@ C++ Implementation
    :maxdepth: 2
 
    getting_started
+   user_guide
    Examples <examples/index>
    api
diff --git a/docs/source/cpp/json.rst b/docs/source/cpp/json.rst
index cdb742e6ce1..003e7685296 100644
--- a/docs/source/cpp/json.rst
+++ b/docs/source/cpp/json.rst
@@ -24,17 +24,24 @@
 Reading JSON files
 ==================
 
-Arrow allows reading line-separated JSON files as Arrow tables.  Each
-independent JSON object in the input file is converted to a row in
-the target Arrow table.
+Line-separated JSON files can either be read as a single Arrow Table
+with a :class:`~TableReader` or streamed as RecordBatches with a
+:class:`~StreamingReader`.
+
+Both of these readers require an :class:`arrow::io::InputStream` instance
+representing the input file. Their behavior can be customized using a
+combination of :class:`~ReadOptions`, :class:`~ParseOptions`, and
+other parameters.
 
 .. seealso::
    :ref:`JSON reader API reference <cpp-api-json>`.
 
-Basic usage
+TableReader
 ===========
 
-A JSON file is read from a :class:`~arrow::io::InputStream`.
+:class:`~TableReader` reads an entire file in one shot as a :class:`~arrow::Table`. Each
+independent JSON object in the input file is converted to a row in
+the output table.
 
 .. code-block:: cpp
 
@@ -66,6 +73,44 @@ A JSON file is read from a :class:`~arrow::io::InputStream`.
       }
    }
 
+StreamingReader
+===============
+
+:class:`~StreamingReader` reads a file incrementally from blocks of a roughly equal byte size, each yielding a
+:class:`~arrow::RecordBatch`. Each independent JSON object in a block
+is converted to a row in the output batch.
+
+All batches adhere to a consistent :class:`~arrow::Schema`, which is
+derived from the first loaded batch. Alternatively, an explicit schema
+may be passed via :class:`~ParseOptions`.
+
+.. code-block:: cpp
+
+   #include "arrow/json/api.h"
+
+   {
+      // ...
+      auto read_options = arrow::json::ReadOptions::Defaults();
+      auto parse_options = arrow::json::ParseOptions::Defaults();
+
+      std::shared_ptr<arrow::io::InputStream> stream;
+      auto result = arrow::json::StreamingReader::Make(stream,
+                                                       read_options,
+                                                       parse_options);
+      if (!result.ok()) {
+         // Handle instantiation error
+      }
+      std::shared_ptr<arrow::json::StreamingReader> reader = *result;
+
+      for (arrow::Result<std::shared_ptr<arrow::RecordBatch>> maybe_batch : *reader) {
+         if (!maybe_batch.ok()) {
+            // Handle read/parse error
+         }
+         std::shared_ptr<arrow::RecordBatch> batch = *maybe_batch;
+         // Operate on each batch...
+      }
+   }
+
 Data types
 ==========
 
@@ -75,7 +120,7 @@ objects.  The fields of top-level objects are taken to represent columns
 in the Arrow data.  For each name/value pair in a JSON object, there are
 two possible modes of deciding the output data type:
 
-* if the name is in :class:`ConvertOptions::explicit_schema`,
+* if the name is in :member:`ParseOptions::explicit_schema`,
   conversion of the JSON value to the corresponding Arrow data type is
   attempted;
 
diff --git a/docs/source/cpp/parquet.rst b/docs/source/cpp/parquet.rst
index 6f94660b783..edc42d54cff 100644
--- a/docs/source/cpp/parquet.rst
+++ b/docs/source/cpp/parquet.rst
@@ -32,6 +32,309 @@ is a space-efficient columnar storage format for complex data.  The Parquet
 C++ implementation is part of the Apache Arrow project and benefits
 from tight integration with the Arrow C++ classes and facilities.
 
+Reading Parquet files
+=====================
+
+The :class:`arrow::FileReader` class reads data into Arrow Tables and Record
+Batches.
+
+The :class:`StreamReader` class allows for data to be read using a C++ input
+stream approach to read fields column by column and row by row.  This approach
+is offered for ease of use and type-safety.  It is of course also useful when
+data must be streamed as files are read and written incrementally.
+
+Please note that the performance of the :class:`StreamReader` will not
+be as good due to the type checking and the fact that column values
+are processed one at a time.
+
+FileReader
+----------
+
+To read Parquet data into Arrow structures, use :class:`arrow::FileReader`.
+To construct, it requires a :class:`::arrow::io::RandomAccessFile` instance 
+representing the input file. To read the whole file at once, 
+use :func:`arrow::FileReader::ReadTable`:
+
+.. literalinclude:: ../../../cpp/examples/arrow/parquet_read_write.cc
+   :language: cpp
+   :start-after: arrow::Status ReadFullFile(
+   :end-before: return arrow::Status::OK();
+   :emphasize-lines: 9-10,14
+   :dedent: 2
+
+Finer-grained options are available through the
+:class:`arrow::FileReaderBuilder` helper class, which accepts the :class:`ReaderProperties`
+and :class:`ArrowReaderProperties` classes.
+
+For reading as a stream of batches, use the :func:`arrow::FileReader::GetRecordBatchReader`
+method to retrieve a :class:`arrow::RecordBatchReader`. It will use the batch 
+size set in :class:`ArrowReaderProperties`.
+
+.. literalinclude:: ../../../cpp/examples/arrow/parquet_read_write.cc
+   :language: cpp
+   :start-after: arrow::Status ReadInBatches(
+   :end-before: return arrow::Status::OK();
+   :emphasize-lines: 25
+   :dedent: 2
+
+.. seealso::
+
+   For reading multi-file datasets or pushing down filters to prune row groups,
+   see :ref:`Tabular Datasets<cpp-dataset>`.
+
+Performance and Memory Efficiency
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+For remote filesystems, use read coalescing (pre-buffering) to reduce number of API calls:
+
+.. code-block:: cpp
+
+   auto arrow_reader_props = parquet::ArrowReaderProperties();
+   reader_properties.set_prebuffer(true);
+
+The defaults are generally tuned towards good performance, but parallel column
+decoding is off by default. Enable it in the constructor of :class:`ArrowReaderProperties`:
+
+.. code-block:: cpp
+
+   auto arrow_reader_props = parquet::ArrowReaderProperties(/*use_threads=*/true);
+
+If memory efficiency is more important than performance, then:
+
+#. Do *not* turn on read coalescing (pre-buffering) in :class:`parquet::ArrowReaderProperties`.
+#. Read data in batches using :func:`arrow::FileReader::GetRecordBatchReader`.
+#. Turn on ``enable_buffered_stream`` in :class:`parquet::ReaderProperties`.
+
+In addition, if you know certain columns contain many repeated values, you can
+read them as :term:`dictionary encoded<dictionary-encoding>` columns. This is 
+enabled with the ``set_read_dictionary`` setting on :class:`ArrowReaderProperties`. 
+If the files were written with Arrow C++ and the ``store_schema`` was activated,
+then the original Arrow schema will be automatically read and will override this
+setting.
+
+StreamReader
+------------
+
+The :class:`StreamReader` allows for Parquet files to be read using
+standard C++ input operators which ensures type-safety.
+
+Please note that types must match the schema exactly i.e. if the
+schema field is an unsigned 16-bit integer then you must supply a
+``uint16_t`` type.
+
+Exceptions are used to signal errors.  A :class:`ParquetException` is
+thrown in the following circumstances:
+
+* Attempt to read field by supplying the incorrect type.
+
+* Attempt to read beyond end of row.
+
+* Attempt to read beyond end of file.
+
+.. code-block:: cpp
+
+   #include "arrow/io/file.h"
+   #include "parquet/stream_reader.h"
+
+   {
+      std::shared_ptr<arrow::io::ReadableFile> infile;
+
+      PARQUET_ASSIGN_OR_THROW(
+         infile,
+         arrow::io::ReadableFile::Open("test.parquet"));
+
+      parquet::StreamReader stream{parquet::ParquetFileReader::Open(infile)};
+
+      std::string article;
+      float price;
+      uint32_t quantity;
+
+      while ( !stream.eof() )
+      {
+         stream >> article >> price >> quantity >> parquet::EndRow;
+         // ...
+      }
+   }
+
+Writing Parquet files
+=====================
+
+WriteTable
+----------
+
+The :func:`arrow::WriteTable` function writes an entire
+:class:`::arrow::Table` to an output file.
+
+.. literalinclude:: ../../../cpp/examples/arrow/parquet_read_write.cc
+   :language: cpp
+   :start-after: arrow::Status WriteFullFile(
+   :end-before: return arrow::Status::OK();
+   :emphasize-lines: 19-21
+   :dedent: 2
+
+.. note::
+
+   Column compression is off by default in C++. See :ref:`below <parquet-writer-properties>` 
+   for how to choose a compression codec in the writer properties.
+
+To write out data batch-by-batch, use :class:`arrow::FileWriter`.
+
+.. literalinclude:: ../../../cpp/examples/arrow/parquet_read_write.cc
+   :language: cpp
+   :start-after: arrow::Status WriteInBatches(
+   :end-before: return arrow::Status::OK();
+   :emphasize-lines: 23-25,32,36
+   :dedent: 2
+
+StreamWriter
+------------
+
+The :class:`StreamWriter` allows for Parquet files to be written using
+standard C++ output operators, similar to reading with the :class:`StreamReader`
+class. This type-safe approach also ensures that rows are written without 
+omitting fields and allows for new row groups to be created automatically 
+(after certain volume of data) or explicitly by using the :type:`EndRowGroup` 
+stream modifier.
+
+Exceptions are used to signal errors.  A :class:`ParquetException` is
+thrown in the following circumstances:
+
+* Attempt to write a field using an incorrect type.
+
+* Attempt to write too many fields in a row.
+
+* Attempt to skip a required field.
+
+.. code-block:: cpp
+
+   #include "arrow/io/file.h"
+   #include "parquet/stream_writer.h"
+
+   {
+      std::shared_ptr<arrow::io::FileOutputStream> outfile;
+
+      PARQUET_ASSIGN_OR_THROW(
+         outfile,
+         arrow::io::FileOutputStream::Open("test.parquet"));
+
+      parquet::WriterProperties::Builder builder;
+      std::shared_ptr<parquet::schema::GroupNode> schema;
+
+      // Set up builder with required compression type etc.
+      // Define schema.
+      // ...
+
+      parquet::StreamWriter os{
+         parquet::ParquetFileWriter::Open(outfile, schema, builder.build())};
+
+      // Loop over some data structure which provides the required
+      // fields to be written and write each row.
+      for (const auto& a : getArticles())
+      {
+         os << a.name() << a.price() << a.quantity() << parquet::EndRow;
+      }
+   }
+
+.. _parquet-writer-properties:
+
+Writer properties
+-----------------
+
+To configure how Parquet files are written, use the :class:`WriterProperties::Builder`:
+
+.. code-block:: cpp
+
+   #include "parquet/arrow/writer.h"
+   #include "arrow/util/type_fwd.h"
+
+   using parquet::WriterProperties;
+   using parquet::ParquetVersion;
+   using parquet::ParquetDataPageVersion;
+   using arrow::Compression;
+
+   std::shared_ptr<WriterProperties> props = WriterProperties::Builder()
+      .max_row_group_length(64 * 1024)
+      .created_by("My Application")
+      .version(ParquetVersion::PARQUET_2_6)
+      .data_page_version(ParquetDataPageVersion::V2)
+      .compression(Compression::SNAPPY)
+      .build();
+
+The ``max_row_group_length`` sets an upper bound on the number of rows per row
+group that takes precedent over the ``chunk_size`` passed in the write methods.
+
+You can set the version of Parquet to write with ``version``, which determines
+which logical types are available. In addition, you can set the data page version
+with ``data_page_version``. It's V1 by default; setting to V2 will allow more
+optimal compression (skipping compressing pages where there isn't a space 
+benefit), but not all readers support this data page version.
+
+Compression is off by default, but to get the most out of Parquet, you should 
+also choose a compression codec. You can choose one for the whole file or 
+choose one for individual columns. If you choose a mix, the file-level option
+will apply to columns that don't have a specific compression codec. See 
+:class:`::arrow::Compression` for options.
+
+Column data encodings can likewise be applied at the file-level or at the 
+column level. By default, the writer will attempt to dictionary encode all 
+supported columns, unless the dictionary grows too large. This behavior can
+be changed at file-level or at the column level with ``disable_dictionary()``.
+When not using dictionary encoding, it will fallback to the encoding set for 
+the column or the overall file; by default ``Encoding::PLAIN``, but this can
+be changed with ``encoding()``.
+
+.. code-block:: cpp
+
+   #include "parquet/arrow/writer.h"
+   #include "arrow/util/type_fwd.h"
+
+   using parquet::WriterProperties;
+   using arrow::Compression;
+   using parquet::Encoding;
+
+   std::shared_ptr<WriterProperties> props = WriterProperties::Builder()
+     .compression(Compression::SNAPPY)        // Fallback
+     ->compression("colA", Compression::ZSTD) // Only applies to column "colA"
+     ->encoding(Encoding::BIT_PACKED)         // Fallback
+     ->encoding("colB", Encoding::RLE)        // Only applies to column "colB"
+     ->disable_dictionary("colB")             // Never dictionary-encode column "colB"
+     ->build();
+
+Statistics are enabled by default for all columns. You can disable statistics for
+all columns or specific columns using ``disable_statistics`` on the builder.
+There is a ``max_statistics_size`` which limits the maximum number of bytes that
+may be used for min and max values, useful for types like strings or binary blobs.
+
+There are also Arrow-specific settings that can be configured with
+:class:`parquet::ArrowWriterProperties`:
+
+.. code-block:: cpp
+
+   #include "parquet/arrow/writer.h"
+
+   using parquet::ArrowWriterProperties;
+
+   std::shared_ptr<ArrowWriterProperties> arrow_props = ArrowWriterProperties::Builder()
+      .enable_deprecated_int96_timestamps() // default False
+      ->store_schema() // default False
+      ->enable_compliant_nested_types() // default False
+      ->build();
+
+These options mostly dictate how Arrow types are converted to Parquet types.
+Turning on ``store_schema`` will cause the writer to store the serialized Arrow
+schema within the file metadata. Since there is no bijection between Parquet
+schemas and Arrow schemas, storing the Arrow schema allows the Arrow reader
+to more faithfully recreate the original data. This mapping from Parquet types
+back to original Arrow types includes:
+
+* Reading timestamps with original timezone information (Parquet does not
+  support time zones);
+* Reading Arrow types from their storage types (such as Duration from int64
+  columns);
+* Reading string and binary columns back into large variants with 64-bit offsets;
+* Reading back columns as dictionary encoded (whether an Arrow column and
+  the serialized Parquet version are dictionary encoded are independent).
+
 Supported Parquet features
 ==========================
 
@@ -95,14 +398,15 @@ Encodings
 +--------------------------+----------+----------+---------+
 | BYTE_STREAM_SPLIT        | ✓        | ✓        |         |
 +--------------------------+----------+----------+---------+
-| DELTA_BINARY_PACKED      | ✓        |          |         |
+| DELTA_BINARY_PACKED      | ✓        | ✓        |         |
 +--------------------------+----------+----------+---------+
 | DELTA_BYTE_ARRAY         | ✓        |          |         |
 +--------------------------+----------+----------+---------+
 | DELTA_LENGTH_BYTE_ARRAY  | ✓        |          |         |
 +--------------------------+----------+----------+---------+
 
-* \(1) Only supported for encoding definition and repetition levels, not values.
+* \(1) Only supported for encoding definition and repetition levels,
+  and boolean values.
 
 * \(2) On the write path, RLE_DICTIONARY is only enabled if Parquet format version
   2.4 or greater is selected in :func:`WriterProperties::version`.
@@ -264,172 +568,16 @@ More specifically, Parquet C++ supports:
 * EncryptionWithFooterKey and EncryptionWithColumnKey modes.
 * Encrypted Footer and Plaintext Footer modes.
 
+Miscellaneous
+-------------
 
-Reading Parquet files
-=====================
-
-The :class:`arrow::FileReader` class reads data for an entire
-file or row group into an :class:`::arrow::Table`.
-
-The :class:`StreamReader` and :class:`StreamWriter` classes allow for
-data to be written using a C++ input/output streams approach to
-read/write fields column by column and row by row.  This approach is
-offered for ease of use and type-safety.  It is of course also useful
-when data must be streamed as files are read and written
-incrementally.
-
-Please note that the performance of the :class:`StreamReader` and
-:class:`StreamWriter` classes will not be as good due to the type
-checking and the fact that column values are processed one at a time.
-
-FileReader
-----------
-
-The Parquet :class:`arrow::FileReader` requires a
-:class:`::arrow::io::RandomAccessFile` instance representing the input
-file.
-
-.. code-block:: cpp
-
-   #include "arrow/parquet/arrow/reader.h"
-
-   {
-      // ...
-      arrow::Status st;
-      arrow::MemoryPool* pool = default_memory_pool();
-      std::shared_ptr<arrow::io::RandomAccessFile> input = ...;
-
-      // Open Parquet file reader
-      std::unique_ptr<parquet::arrow::FileReader> arrow_reader;
-      st = parquet::arrow::OpenFile(input, pool, &arrow_reader);
-      if (!st.ok()) {
-         // Handle error instantiating file reader...
-      }
-
-      // Read entire file as a single Arrow table
-      std::shared_ptr<arrow::Table> table;
-      st = arrow_reader->ReadTable(&table);
-      if (!st.ok()) {
-         // Handle error reading Parquet data...
-      }
-   }
-
-Finer-grained options are available through the
-:class:`arrow::FileReaderBuilder` helper class.
-
-.. TODO write section about performance and memory efficiency
-
-StreamReader
-------------
-
-The :class:`StreamReader` allows for Parquet files to be read using
-standard C++ input operators which ensures type-safety.
-
-Please note that types must match the schema exactly i.e. if the
-schema field is an unsigned 16-bit integer then you must supply a
-uint16_t type.
-
-Exceptions are used to signal errors.  A :class:`ParquetException` is
-thrown in the following circumstances:
-
-* Attempt to read field by supplying the incorrect type.
-
-* Attempt to read beyond end of row.
-
-* Attempt to read beyond end of file.
-
-.. code-block:: cpp
-
-   #include "arrow/io/file.h"
-   #include "parquet/stream_reader.h"
-
-   {
-      std::shared_ptr<arrow::io::ReadableFile> infile;
-
-      PARQUET_ASSIGN_OR_THROW(
-         infile,
-         arrow::io::ReadableFile::Open("test.parquet"));
-
-      parquet::StreamReader os{parquet::ParquetFileReader::Open(infile)};
-
-      std::string article;
-      float price;
-      uint32_t quantity;
-
-      while ( !os.eof() )
-      {
-         os >> article >> price >> quantity >> parquet::EndRow;
-         // ...
-      }
-   }
-
-Writing Parquet files
-=====================
-
-WriteTable
-----------
-
-The :func:`arrow::WriteTable` function writes an entire
-:class:`::arrow::Table` to an output file.
-
-.. code-block:: cpp
-
-   #include "parquet/arrow/writer.h"
-
-   {
-      std::shared_ptr<arrow::io::FileOutputStream> outfile;
-      PARQUET_ASSIGN_OR_THROW(
-         outfile,
-         arrow::io::FileOutputStream::Open("test.parquet"));
-
-      PARQUET_THROW_NOT_OK(
-         parquet::arrow::WriteTable(table, arrow::default_memory_pool(), outfile, 3));
-   }
-
-StreamWriter
-------------
-
-The :class:`StreamWriter` allows for Parquet files to be written using
-standard C++ output operators.  This type-safe approach also ensures
-that rows are written without omitting fields and allows for new row
-groups to be created automatically (after certain volume of data) or
-explicitly by using the :type:`EndRowGroup` stream modifier.
-
-Exceptions are used to signal errors.  A :class:`ParquetException` is
-thrown in the following circumstances:
-
-* Attempt to write a field using an incorrect type.
-
-* Attempt to write too many fields in a row.
-
-* Attempt to skip a required field.
-
-.. code-block:: cpp
-
-   #include "arrow/io/file.h"
-   #include "parquet/stream_writer.h"
-
-   {
-      std::shared_ptr<arrow::io::FileOutputStream> outfile;
-
-      PARQUET_ASSIGN_OR_THROW(
-         outfile,
-         arrow::io::FileOutputStream::Open("test.parquet"));
-
-      parquet::WriterProperties::Builder builder;
-      std::shared_ptr<parquet::schema::GroupNode> schema;
-
-      // Set up builder with required compression type etc.
-      // Define schema.
-      // ...
-
-      parquet::StreamWriter os{
-         parquet::ParquetFileWriter::Open(outfile, schema, builder.build())};
++--------------------------+----------+----------+---------+
+| Feature                  | Reading  | Writing  | Notes   |
++==========================+==========+==========+=========+
+| Column Index             | ✓        |          | \(1)    |
++--------------------------+----------+----------+---------+
+| Offset Index             | ✓        |          | \(1)    |
++--------------------------+----------+----------+---------+
 
-      // Loop over some data structure which provides the required
-      // fields to be written and write each row.
-      for (const auto& a : getArticles())
-      {
-         os << a.name() << a.price() << a.quantity() << parquet::EndRow;
-      }
-   }
+* \(1) Access to the Column and Offset Index structures is provided, but
+  data read APIs do not currently make any use of them.
diff --git a/docs/source/cpp/streaming_execution.rst b/docs/source/cpp/streaming_execution.rst
index e49225637df..8186cbf3955 100644
--- a/docs/source/cpp/streaming_execution.rst
+++ b/docs/source/cpp/streaming_execution.rst
@@ -127,7 +127,7 @@ Read Relations
 Filter Relations
 ^^^^^^^^^^^^^^^^
 
- * No know caveats
+ * No known caveats
 
 Project Relations
 ^^^^^^^^^^^^^^^^^
@@ -144,6 +144,17 @@ Join Relations
    join key is supported.
  * The ``post_join_filter`` property is not supported and will be ignored.
 
+Aggregate Relations
+^^^^^^^^^^^^^^^^^^^
+
+ * At most one grouping set is supported.
+ * Each grouping expression must be a direct reference.
+ * Each measure's arguments must be direct references.
+ * A measure may not have a filter
+ * A measure may not have sorts
+ * A measure's invocation must be AGGREGATION_INVOCATION_ALL
+ * A measure's phase must be AGGREGATION_PHASE_INITIAL_TO_RESULT
+
 Expressions (general)
 ^^^^^^^^^^^^^^^^^^^^^
 
@@ -152,20 +163,125 @@ Expressions (general)
    grouping set.  Acero typically expects these expressions to be direct references.
    Planners should extract the implicit projection into a formal project relation
    before delivering the plan to Acero.
+ * Older versions of Isthmus would omit optional arguments instead of including them
+   as unspecified enums.  Acero will not support these plans.
 
 Literals
 ^^^^^^^^
 
  * A literal with non-default nullability will cause a plan to be rejected.
 
+Types
+^^^^^
+
+ * Acero does not have full support for non-nullable types and may allow input
+   to have nulls without rejecting it.
+ * The table below shows the mapping between Arrow types and Substrait type
+   classes that are currently supported
+
+.. list-table:: Substrait / Arrow Type Mapping
+   :widths: 25 25 50
+   :header-rows: 1
+
+   * - Substrait Type
+     - Arrow Type
+     - Caveat
+   * - boolean
+     - boolean
+     - 
+   * - i8
+     - int8
+     - 
+   * - i16
+     - int16
+     - 
+   * - i32
+     - int32
+     - 
+   * - i64
+     - int64
+     - 
+   * - fp32
+     - float32
+     - 
+   * - fp64
+     - float64
+     - 
+   * - string
+     - string
+     - 
+   * - binary
+     - binary
+     - 
+   * - timestamp
+     - timestamp<MICRO,"">
+     - 
+   * - timestamp_tz
+     - timestamp<MICRO,"UTC">
+     - 
+   * - date
+     - date32<DAY>
+     - 
+   * - time
+     - time64<MICRO>
+     - 
+   * - interval_year
+     - 
+     - Not currently supported
+   * - interval_day
+     - 
+     - Not currently supported
+   * - uuid
+     - 
+     - Not currently supported
+   * - FIXEDCHAR<L>
+     - 
+     - Not currently supported
+   * - VARCHAR<L>
+     - 
+     - Not currently supported
+   * - FIXEDBINARY<L>
+     - fixed_size_binary<L>
+     - 
+   * - DECIMAL<P,S>
+     - decimal128<P,S>
+     - 
+   * - STRUCT<T1...TN>
+     - struct<T1...TN>
+     - Arrow struct fields will have no name (empty string)
+   * - NSTRUCT<N:T1...N:Tn>
+     - 
+     - Not currently supported
+   * - LIST<T>
+     - list<T>
+     - 
+   * - MAP<K,V>
+     - map<K,V>
+     - K must not be nullable
+
 Functions
 ^^^^^^^^^
 
- * The only functions currently supported by Acero are:
-
-   * add
-   * equal
-   * is_not_distinct_from
+ * Acero does not support the legacy ``args`` style of declaring arguments
+ * The following functions have caveats or are not supported at all.  Note that
+   this is not a comprehensive list.  Functions are being added to Substrait at
+   a rapid pace and new functions may be missing.
+
+   * Acero does not support the SATURATE option for overflow
+   * Acero does not support kernels that take more than two arguments
+     for the functions ``and``, ``or``, ``xor``
+   * Acero does not support temporal arithmetic
+   * Acero does not support the following standard functions:
+
+     * ``is_not_distinct_from``
+     * ``like``
+     * ``substring``
+     * ``starts_with``
+     * ``ends_with``
+     * ``contains``
+     * ``count``
+     * ``count_distinct``
+     * ``approx_count_distinct``
 
  * The functions above must be referenced using the URI
    ``https://github.com/apache/arrow/blob/master/format/substrait/extension_types.yaml``
@@ -474,7 +590,7 @@ be quite tricky to configure.  To process data from files the scan operation is
 
 The source node requires some kind of function that can be called to poll for more data.  This
 function should take no arguments and should return an
-``arrow::Future<std::shared_ptr<arrow::util::optional<arrow::RecordBatch>>>``.
+``arrow::Future<std::optional<arrow::ExecBatch>>``.
 This function might be reading a file, iterating through an in memory structure, or receiving data
 from a network connection.  The arrow library refers to these functions as ``arrow::AsyncGenerator``
 and there are a number of utilities for working with these functions.  For this example we use 
@@ -633,7 +749,7 @@ execution definition. :class:`arrow::compute::SinkNodeOptions` interface is used
 the required options. Similar to the source operator the sink operator exposes the output
 with a function that returns a record batch future each time it is called.  It is expected the
 caller will repeatedly call this function until the generator function is exhausted (returns
-``arrow::util::optional::nullopt``).  If this function is not called often enough then record batches
+``std::optional::nullopt``).  If this function is not called often enough then record batches
 will accumulate in memory.  An execution plan should only have one
 "terminal" node (one sink node).  An :class:`ExecPlan` can terminate early due to cancellation or 
 an error, before the output is fully consumed. However, the plan can be safely destroyed independently
@@ -884,4 +1000,4 @@ Complete Example:
   :start-after: (Doc section: Execution Plan Documentation Example)
   :end-before: (Doc section: Execution Plan Documentation Example)
   :linenos:
-  :lineno-match:
\ No newline at end of file
+  :lineno-match:
diff --git a/docs/source/cpp/tables-versus-record-batches.svg b/docs/source/cpp/tables-versus-record-batches.svg
new file mode 100644
index 00000000000..d793b1de2bf
--- /dev/null
+++ b/docs/source/cpp/tables-versus-record-batches.svg
@@ -0,0 +1,102 @@
+<!--
+Licensed to the Apache Software Foundation (ASF) under one
+or more contributor license agreements.  See the NOTICE file
+distributed with this work for additional information
+regarding copyright ownership.  The ASF licenses this file
+to you under the Apache License, Version 2.0 (the
+"License"); you may not use this file except in compliance
+with the License.  You may obtain a copy of the License at
+
+  http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing,
+software distributed under the License is distributed on an
+"AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+KIND, either express or implied.  See the License for the
+specific language governing permissions and limitations
+under the License.
+-->
+<svg version="1.1" width="600" height="400" xmlns="http://www.w3.org/2000/svg">
+
+  <rect width="100%" height="100%" fill="white" />
+
+  <text id="heading" y="40" x="20">Arrow Table versus Record Batch</text>
+
+  <g transform="translate(20, 60)">
+    <rect width="250" height="260" x="0" y="0" fill="#ddd" />
+    <text class="label" x="10" y="20">Arrow Table</text>
+    <rect width="230" height="60" x="10" y="25" fill="green" />
+    <text class="label light" x="15" y="45">Schema</text>
+    <g transform="translate(0, 50)">
+      <rect width="65" height="30" x="15" y="0" fill="blue" />
+      <rect width="70" height="30" x="90" y="0" fill="blue" />
+      <rect width="65" height="30" x="170" y="0" fill="blue" />
+      <text class="label light" x="25" y="20">Field</text>
+    </g>
+    <g transform="translate(0, 95)">
+      <rect width="70" height="155" x="10" y="0" fill="orange" />
+      <rect width="70" height="155" x="90" y="0" fill="orange" />
+      <rect width="70" height="155" x="170" y="0" fill="orange" />
+      <text class="label" x="15" y="15"><tspan>Chunked</tspan>
+      <tspan x="15" dy="15">Array</tspan></text>
+      <g transform="translate(0, 35)">
+        <rect width="60" height="80" x="15" y="0" fill="#555" />
+        <rect width="60" height="30" x="15" y="85" fill="#555" />
+        <rect width="60" height="115" x="95" y="0" fill="#555" />
+        <rect width="60" height="35" x="175" y="0" fill="#555" />
+        <rect width="60" height="35" x="175" y="40" fill="#555" />
+        <rect width="60" height="35" x="175" y="80" fill="#555" />
+        <text class="label light" x="20" y="20">Array</text>
+      </g>
+    </g>
+  </g>
+
+  <text class="caption" x="20" y="350">A <tspan style="font-weight: bold">Table</tspan> is a C++ data structure,
+    allowing for a mixed chunking structure and very large arrays.</text>
+
+  <g transform="translate(320, 60)">
+    <rect width="250" height="260" x="0" y="0" fill="#ddd" />
+    <text class="label" x="10" y="20">Arrow Record Batch</text>
+    <rect width="230" height="60" x="10" y="25" fill="green" />
+    <text class="label light" x="15" y="45">Schema</text>
+    <g transform="translate(0, 50)">
+      <rect width="65" height="30" x="15" y="0" fill="blue" />
+      <rect width="70" height="30" x="90" y="0" fill="blue" />
+      <rect width="65" height="30" x="170" y="0" fill="blue" />
+      <text class="label light" x="25" y="20">Field</text>
+    </g>
+    <g transform="translate(0, 95)">
+      <rect width="70" height="155" x="10" y="0" fill="#555" />
+      <rect width="70" height="155" x="90" y="0" fill="#555" />
+      <rect width="70" height="155" x="170" y="0" fill="#555" />
+      <text class="label light" x="20" y="20">Array</text>
+    </g>
+  </g>
+
+  <text class="caption" x="20" y="370">
+    <tspan>A <tspan style="font-weight: bold">Record Batch</tspan> is a common Arrow data structure which is recognized by all implementations.</tspan>
+  </text>
+  <style>
+    text {
+      font-family: apple-system, BlinkMacSystemFont, Segoe UI, Roboto, Helvetica Neue, Arial, Noto Sans, Liberation Sans, sans-serif, Apple Color Emoji, Segoe UI Emoji, Segoe UI Symbol, Noto Color Emoji;
+    }
+
+    .label {
+      font-size: 12px;
+      font-weight: bold;
+      fill: #333;
+    }
+
+    .light {
+      fill: #ddd;
+    }
+
+    #heading {
+      font-size: 24px;
+    }
+
+    .caption {
+      font-size: 12px;
+    }
+  </style>
+</svg>
\ No newline at end of file
diff --git a/docs/source/cpp/tables.rst b/docs/source/cpp/tables.rst
index ea9198771cf..b28a9fc1e13 100644
--- a/docs/source/cpp/tables.rst
+++ b/docs/source/cpp/tables.rst
@@ -77,6 +77,18 @@ has a schema which must match its arrays' datatypes.
 Record batches are a convenient unit of work for various serialization
 and computation functions, possibly incremental.
 
+.. image:: tables-versus-record-batches.svg
+   :alt: A graphical representation of an Arrow Table and a Record Batch, with
+         structure as described in text above.
+
+Record batches can be sent between implementations, such as via 
+:ref:`IPC <format-ipc>` or
+via the :doc:`C Data Interface <../format/CDataInterface>`. Tables and 
+chunked arrays, on the other hand, are concepts in the C++ implementation,
+not in the Arrow format itself, so they aren't directly portable.
+
+However, a table can be converted to and built from a sequence of record 
+batches easily without needing to copy the underlying array buffers.
 A table can be streamed as an arbitrary number of record batches using
 a :class:`arrow::TableBatchReader`.  Conversely, a logical sequence of
 record batches can be assembled to form a table using one of the
diff --git a/docs/source/cpp/tutorials/basic_arrow.rst b/docs/source/cpp/tutorials/basic_arrow.rst
new file mode 100644
index 00000000000..06f5fde32e8
--- /dev/null
+++ b/docs/source/cpp/tutorials/basic_arrow.rst
@@ -0,0 +1,284 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+.. default-domain:: cpp
+.. highlight:: cpp
+
+.. cpp:namespace:: arrow
+
+===========================
+Basic Arrow Data Structures
+===========================
+
+Apache Arrow provides fundamental data structures for representing data:
+:class:`Array`, :class:`ChunkedArray`, :class:`RecordBatch`, and :class:`Table`. 
+This article shows how to construct these data structures from primitive 
+data types; specifically, we will work with integers of varying size 
+representing days, months, and years. We will use them to create the following data structures:
+
+#. Arrow :class:`Arrays <Array>`
+#. :class:`ChunkedArrays<ChunkedArray>` 
+#. :class:`RecordBatch`, from :class:`Arrays <Array>`
+#. :class:`Table`, from :class:`ChunkedArrays<ChunkedArray>` 
+
+Pre-requisites
+--------------
+Before continuing, make sure you have:
+
+#. An Arrow installation, which you can set up here: :doc:`/cpp/build_system`
+#. Understanding of how to use basic C++ data structures
+#. Understanding of basic C++ data types
+
+
+Setup
+-----
+
+Before trying out Arrow, we need to fill in a couple gaps:
+
+1. We need to include necessary headers.
+   
+2. ``A main()`` is needed to glue things together.
+
+Includes
+^^^^^^^^
+
+First, as ever, we need some includes. We'll get ``iostream`` for output, then import Arrow's basic
+functionality from ``api.h``, like so: 
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: Includes)
+  :end-before: (Doc section: Includes)
+
+Main()
+^^^^^^
+
+Next, we need a ``main()`` – a common pattern with Arrow looks like the
+following:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: Main)
+  :end-before: (Doc section: Main)
+
+This allows us to easily use Arrow’s error-handling macros, which will
+return back to ``main()`` with a :class:`arrow::Status` object if a failure occurs – and
+this ``main()`` will report the error. Note that this means Arrow never
+raises exceptions, instead relying upon returning :class:`Status`. For more on
+that, read here: :doc:`/cpp/conventions`.
+
+To accompany this ``main()``, we have a ``RunMain()`` from which any :class:`Status`
+objects can return – this is where we’ll write the rest of the program:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: RunMain Start)
+  :end-before: (Doc section: RunMain Start)
+
+
+Making an Arrow Array
+---------------------
+
+Building int8 Arrays
+^^^^^^^^^^^^^^^^^^^^
+
+Given that we have some data in standard C++ arrays, and want to use Arrow, we need to move
+the data from said arrays into Arrow arrays. We still guarantee contiguity of memory in an 
+:class:`Array`, so no worries about a performance loss when using :class:`Array` vs C++ arrays.
+The easiest way to construct an :class:`Array` uses an :class:`ArrayBuilder`. 
+
+.. seealso:: :doc:`/cpp/arrays` for more technical details on :class:`Array`
+
+The following code initializes an :class:`ArrayBuilder` for an :class:`Array` that will hold 8 bit
+integers. Specifically, it uses the ``AppendValues()`` method, present in concrete 
+:class:`arrow::ArrayBuilder` subclasses, to fill the :class:`ArrayBuilder` with the
+contents of a standard C++ array. Note the use of :c:macro:`ARROW_RETURN_NOT_OK`.
+If ``AppendValues()`` fails, this macro will return to ``main()``, which will
+print out the meaning of the failure.
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: int8builder 1 Append)
+  :end-before: (Doc section: int8builder 1 Append)
+
+Given an :class:`ArrayBuilder` has the values we want in our :class:`Array`, we can use 
+:func:`ArrayBuilder::Finish` to output the final structure to an :class:`Array` – specifically, 
+we output to a ``std::shared_ptr<arrow::Array>``. Note the use of :c:macro:`ARROW_ASSIGN_OR_RAISE`
+in the following code. :func:`~ArrayBuilder::Finish` outputs a :class:`arrow::Result` object, which :c:macro:`ARROW_ASSIGN_OR_RAISE` 
+can process. If the method fails, it will return to ``main()`` with a :class:`Status`
+that will explain what went wrong. If it succeeds, then it will assign
+the final output to the left-hand variable.
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: int8builder 1 Finish)
+  :end-before: (Doc section: int8builder 1 Finish)
+
+As soon as :class:`ArrayBuilder` has had its :func:`Finish <ArrayBuilder::Finish>` method called, its state resets, so
+it can be used again, as if it was fresh. Thus, we repeat the process above for our second array:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: int8builder 2)
+  :end-before: (Doc section: int8builder 2)
+
+Building int16 Arrays
+^^^^^^^^^^^^^^^^^^^^^
+
+An :class:`ArrayBuilder` has its type specified at the time of declaration.
+Once this is done, it cannot have its type changed. We have to make a new one when we switch to year data, which
+requires a 16-bit integer at the minimum. Of course, there’s an :class:`ArrayBuilder` for that. 
+It uses the exact same methods, but with the new data type:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: int16builder)
+  :end-before: (Doc section: int16builder)
+
+Now, we have three Arrow :class:`Arrays <arrow::Array>`, with some variance in type.
+
+Making a RecordBatch
+--------------------
+
+A columnar data format only really comes into play when you have a table. 
+So, let’s make one. The first kind we’ll make is the :class:`RecordBatch` – this 
+uses :class:`Arrays <Array>` internally, which means all data will be contiguous within each 
+column, but any appending or concatenating will require copying. Making a :class:`RecordBatch`
+has two steps, given existing :class:`Arrays <Array>`:
+
+#. Defining a :class:`Schema`
+#. Loading the :class:`Schema` and Arrays into the constructor
+
+Defining a Schema 
+^^^^^^^^^^^^^^^^^
+
+To get started making a :class:`RecordBatch`, we first need to define
+characteristics of the columns, each represented by a :class:`Field` instance.
+Each :class:`Field` contains a name and datatype for its associated column; then,
+a :class:`Schema` groups them together and sets the order of the columns, like
+so:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: Schema)
+  :end-before: (Doc section: Schema)
+
+Building a RecordBatch
+^^^^^^^^^^^^^^^^^^^^^^
+
+With data in :class:`Arrays <Array>` from the previous section, and column descriptions in our 
+:class:`Schema` from the previous step, we can make the :class:`RecordBatch`. Note that the 
+length of the columns is necessary, and the length is shared by all columns.
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: RBatch)
+  :end-before: (Doc section: RBatch)
+
+Now, we have our data in a nice tabular form, safely within the :class:`RecordBatch`.
+What we can do with this will be discussed in the later tutorials. 
+
+Making a ChunkedArray
+---------------------
+
+Let’s say that we want an array made up of sub-arrays, because it
+can be useful for avoiding data copies when concatenating, for parallelizing work, for fitting each chunk
+cutely into cache, or for exceeding the 2,147,483,647 row limit in a
+standard Arrow :class:`Array`. For this, Arrow offers :class:`ChunkedArray`, which can be
+made up of individual Arrow :class:`Arrays <Array>`. In this example, we can reuse the arrays
+we made earlier in part of our chunked array, allowing us to extend them without having to copy
+data. So, let’s build a few more :class:`Arrays <Array>`,
+using the same builders for ease of use:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: More Arrays)
+  :end-before: (Doc section: More Arrays)
+
+In order to support an arbitrary amount of :class:`Arrays <Array>` in the construction of the 
+:class:`ChunkedArray`, Arrow supplies :class:`ArrayVector`. This provides a vector for :class:`Arrays <Array>`,
+and we'll use it here to prepare to make a :class:`ChunkedArray`:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: ArrayVector)
+  :end-before: (Doc section: ArrayVector)
+
+In order to leverage Arrow, we do need to take that last step, and move into a :class:`ChunkedArray`:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: ChunkedArray Day)
+  :end-before: (Doc section: ChunkedArray Day)
+
+With a :class:`ChunkedArray` for our day values, we now just need to repeat the process
+for the month and year data:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: ChunkedArray Month Year)
+  :end-before: (Doc section: ChunkedArray Month Year)
+
+With that, we are left with three :class:`ChunkedArrays <ChunkedArray>`, varying in type. 
+
+Making a Table
+--------------
+
+One particularly useful thing we can do with the :class:`ChunkedArrays <ChunkedArray>` from the previous section is creating 
+:class:`Tables <Table>`. Much like a :class:`RecordBatch`, a :class:`Table` stores tabular data. However, a 
+:class:`Table` does not guarantee contiguity, due to being made up of :class:`ChunkedArrays <ChunkedArray>`.
+This can be useful for logic, paralellizing work, for fitting chunks into cache, or exceeding the 2,147,483,647 row limit
+present in :class:`Array` and, thus, :class:`RecordBatch`.
+
+If you read up to :class:`RecordBatch`, you may note that the :class:`Table` constructor in the following code is  
+effectively identical, it just happens to put the length of the columns
+in position 3, and makes a :class:`Table`. We re-use the :class:`Schema` from before, and
+make our :class:`Table`:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: Table)
+  :end-before: (Doc section: Table)
+
+Now, we have our data in a nice tabular form, safely within the :class:`Table`.
+What we can do with this will be discussed in the later tutorials. 
+
+Ending Program 
+--------------
+
+At the end, we just return :func:`Status::OK()`, so the ``main()`` knows that
+we’re done, and that everything’s okay.
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: Ret)
+  :end-before: (Doc section: Ret)
+
+Wrapping Up 
+-----------
+
+With that, you’ve created the fundamental data structures in Arrow, and
+can proceed to getting them in and out of a program with file I/O in the next article.
+
+Refer to the below for a copy of the complete code:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/arrow_example.cc
+  :language: cpp
+  :start-after: (Doc section: Basic Example)
+  :end-before: (Doc section: Basic Example)
+  :linenos:
+  :lineno-match:
\ No newline at end of file
diff --git a/docs/source/cpp/tutorials/compute_tutorial.rst b/docs/source/cpp/tutorials/compute_tutorial.rst
new file mode 100644
index 00000000000..bcb87e6a8f9
--- /dev/null
+++ b/docs/source/cpp/tutorials/compute_tutorial.rst
@@ -0,0 +1,343 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+.. default-domain:: cpp
+.. highlight:: cpp
+
+.. cpp:namespace:: arrow
+
+=============
+Arrow Compute
+=============
+
+Apache Arrow provides compute functions to facilitate efficient and
+portable data processing. In this article, you will use Arrow’s compute
+functionality to:
+
+1. Calculate a sum over a column
+
+2. Calculate element-wise sums over two columns
+
+3. Search for a value in a column
+
+Pre-requisites 
+---------------
+
+Before continuing, make sure you have:
+
+1. An Arrow installation, which you can set up here: :doc:`/cpp/build_system`
+
+2. An understanding of basic Arrow data structures from :doc:`/cpp/tutorials/basic_arrow`
+
+Setup
+-----
+
+Before running some computations, we need to fill in a couple gaps:
+
+1. We need to include necessary headers.
+   
+2. ``A main()`` is needed to glue things together.
+
+3. We need data to play with.
+   
+Includes
+^^^^^^^^
+
+Before writing C++ code, we need some includes. We'll get ``iostream`` for output, then import Arrow's 
+compute functionality: 
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Includes)
+  :end-before: (Doc section: Includes)
+
+Main()
+^^^^^^
+
+For our glue, we’ll use the ``main()`` pattern from the previous tutorial on
+data structures:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Main)
+  :end-before: (Doc section: Main)
+
+Which, like when we used it before, is paired with a ``RunMain()``:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: RunMain)
+  :end-before: (Doc section: RunMain)
+
+Generating Tables for Computation
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+Before we begin, we’ll initialize a :class:`Table` with two columns to play with. We’ll use
+the method from :doc:`/cpp/tutorials/basic_arrow`, so look back
+there if anything’s confusing:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Create Tables)
+  :end-before: (Doc section: Create Tables)
+
+Calculating a Sum over an Array
+-------------------------------
+
+Using a computation function has two general steps, which we separate
+here:
+
+1. Preparing a :class:`Datum` for output
+
+2. Calling :func:`compute::Sum`, a convenience function for summation over an :class:`Array`
+
+3. Retrieving and printing output
+
+Prepare Memory for Output with Datum
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+When computation is done, we need somewhere for our results to go. In
+Arrow, the object for such output is called :class:`Datum`. This object is used
+to pass around inputs and outputs in compute functions, and can contain
+many differently-shaped Arrow data structures. We’ll need it to retrieve
+the output from compute functions.
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Sum Datum Declaration)
+  :end-before: (Doc section: Sum Datum Declaration)
+
+Call Sum()
+^^^^^^^^^^
+
+Here, we’ll get our :class:`Table`, which has columns “A” and “B”, and sum over
+column “A.” For summation, there is a convenience function, called
+:func:`compute::Sum`, which reduces the complexity of the compute interface. We’ll look
+at the more complex version for the next computation. For a given
+function, refer to :doc:`/cpp/api/compute` to see if there is a
+convenience function. :func:`compute::Sum` takes in a given :class:`Array` or :class:`ChunkedArray`
+– here, we use :func:`Table::GetColumnByName` to pass in column A. Then, it outputs to
+a :class:`Datum`. Putting that all together, we get this:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Sum Call)
+  :end-before: (Doc section: Sum Call)
+
+Get Results from Datum
+^^^^^^^^^^^^^^^^^^^^^^
+
+The previous step leaves us with a :class:`Datum` which contains our sum.
+However, we cannot print it directly – its flexibility in holding
+arbitrary Arrow data structures means we have to retrieve our data
+carefully. First, to understand what’s in it, we can check which kind of
+data structure it is, then what kind of primitive is being held:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Sum Datum Type)
+  :end-before: (Doc section: Sum Datum Type)
+
+This should report the :class:`Datum` stores a :class:`Scalar` with a 64-bit integer. Just
+to see what the value is, we can print it out like so, which yields
+12891:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Sum Contents)
+  :end-before: (Doc section: Sum Contents)
+
+Now we’ve used :func:`compute::Sum` and gotten what we want out of it!
+
+Calculating Element-Wise Array Addition with CallFunction()
+-----------------------------------------------------------
+
+A next layer of complexity uses what :func:`compute::Sum` was helpfully hiding:
+:func:`compute::CallFunction`. For this example, we will explore how to use the more
+robust :func:`compute::CallFunction` with the “add” compute function. The pattern
+remains similar:
+
+1. Preparing a Datum for output
+
+2. Calling :func:`compute::CallFunction` with “add”
+
+3. Retrieving and printing output
+
+Prepare Memory for Output with Datum
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+Once more, we’ll need a Datum for any output we get:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Add Datum Declaration)
+  :end-before: (Doc section: Add Datum Declaration)
+
+Use CallFunction() with “add”
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+:func:`compute::CallFunction` takes the name of the desired function as its first
+argument, then the data inputs for said function as a vector in its
+second argument. Right now, we want an element-wise addition between
+columns “A” and “B”. So, we’ll ask for “add,” pass in columns “A and B”,
+and output to our :class:`Datum`. Put this all together, and we get:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Add Call)
+  :end-before: (Doc section: Add Call)
+
+.. seealso:: :ref:`compute-function-list` for a list of other functions to go with :func:`compute::CallFunction`
+
+Get Results from Datum
+^^^^^^^^^^^^^^^^^^^^^^
+
+Again, the :class:`Datum` needs some careful handling. Said handling is much
+easier when we know what’s in it. This :class:`Datum` holds a :class:`ChunkedArray` with
+32-bit integers, but we can print that to confirm:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Add Datum Type)
+  :end-before: (Doc section: Add Datum Type)
+
+Since it’s a :class:`ChunkedArray`, we request that from the :class:`Datum` – :class:`ChunkedArray`
+has a :func:`ChunkedArray::ToString` method, so we’ll use that to print out its contents:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Add Contents)
+  :end-before: (Doc section: Add Contents)
+
+The output looks like this::
+
+  Datum kind: ChunkedArray content type: int32
+  [
+    [
+      75376,
+      647,
+      2287,
+      5671,
+      5092
+    ]
+  ]
+
+Now, we’ve used :func:`compute::CallFunction`, instead of a convenience function! This
+enables a much wider range of available computations.
+
+Searching for a Value with CallFunction() and Options
+-----------------------------------------------------
+
+One class of computations remains. :func:`compute::CallFunction` uses a vector for data
+inputs, but computation often needs additional arguments to function. In
+order to supply this, computation functions may be associated with
+structs where their arguments can be defined. You can check a given
+function to see which struct it uses :ref:`here <compute-function-list>`. For this example, we’ll search for a value in column “A” using
+the “index” compute function. This process has three steps, as opposed
+to the two from before:
+
+1. Preparing a :class:`Datum` for output
+
+2. Preparing :class:`compute::IndexOptions`
+
+3. Calling :func:`compute::CallFunction` with “index” and :class:`compute::IndexOptions`
+
+4. Retrieving and printing output
+
+Prepare Memory for Output with Datum
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+We’ll need a :class:`Datum` for any output we get:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Index Datum Declare)
+  :end-before: (Doc section: Index Datum Declare)
+
+Configure “index” with IndexOptions
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+For this exploration, we’ll use the “index” function – this is a
+searching method, which returns the index of an input value. In order to
+pass this input value, we require an :class:`compute::IndexOptions` struct. So, let’s make
+that struct:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: IndexOptions Declare)
+  :end-before: (Doc section: IndexOptions Declare)
+
+In a searching function, one requires a target value. Here, we’ll use
+2223, the third item in column A, and configure our struct accordingly:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: IndexOptions Assign)
+  :end-before: (Doc section: IndexOptions Assign)
+
+Use CallFunction() with “index” and IndexOptions
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+To actually run the function, we use :func:`compute::CallFunction` again, this time
+passing our IndexOptions struct by reference as a third argument. As
+before, the first argument is the name of the function, and the second
+our data input:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Index Call)
+  :end-before: (Doc section: Index Call)
+
+Get Results from Datum
+^^^^^^^^^^^^^^^^^^^^^^
+
+One last time, let’s see what our :class:`Datum` has! This will be a :class:`Scalar` with
+a 64-bit integer, and the output will be 2:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Index Inspection)
+  :end-before: (Doc section: Index Inspection)
+
+Ending Program
+--------------
+
+At the end, we just return :func:`arrow::Status::OK`, so the ``main()`` knows that
+we’re done, and that everything’s okay, just like the preceding
+tutorials.
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Ret)
+  :end-before: (Doc section: Ret)
+
+With that, you’ve used compute functions which fall into the three main
+types – with and without convenience functions, then with an Options
+struct. Now you can process any :class:`Table` you need to, and solve whatever
+data problem you have that fits into memory!
+
+Which means that now we have to see how we can work with
+larger-than-memory datasets, via Arrow Datasets in the next article.
+
+Refer to the below for a copy of the complete code:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/compute_example.cc
+  :language: cpp
+  :start-after: (Doc section: Compute Example)
+  :end-before: (Doc section: Compute Example)
+  :linenos:
+  :lineno-match:
\ No newline at end of file
diff --git a/docs/source/cpp/tutorials/datasets_tutorial.rst b/docs/source/cpp/tutorials/datasets_tutorial.rst
new file mode 100644
index 00000000000..285fc24d8d5
--- /dev/null
+++ b/docs/source/cpp/tutorials/datasets_tutorial.rst
@@ -0,0 +1,453 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+.. default-domain:: cpp
+.. highlight:: cpp
+
+.. cpp:namespace:: arrow
+
+==============
+Arrow Datasets
+==============
+
+Arrow C++ provides the concept and implementation of :class:`Datasets <dataset::Dataset>` to work
+with fragmented data, which can be larger-than-memory, be that due to
+generating large amounts, reading in from a stream, or having a large
+file on disk. In this article, you will:
+
+1. read a multi-file partitioned dataset and put it into a Table,
+
+2. write out a partitioned dataset from a Table.
+
+Pre-requisites 
+---------------
+
+Before continuing, make sure you have:
+
+1. An Arrow installation, which you can set up here: :doc:`/cpp/build_system`
+
+2. An understanding of basic Arrow data structures from :doc:`/cpp/tutorials/basic_arrow`
+
+To witness the differences, it may be useful to have also read the :doc:`/cpp/tutorials/io_tutorial`. However, it is not required.
+
+Setup
+-----
+
+Before running some computations, we need to fill in a couple gaps:
+
+1. We need to include necessary headers.
+   
+2. A ``main()`` is needed to glue things together.
+
+3. We need data on disk to play with.
+
+Includes
+^^^^^^^^
+
+Before writing C++ code, we need some includes. We'll get ``iostream`` for output, then import Arrow's 
+compute functionality for each file type we'll work with in this article: 
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Includes)
+  :end-before: (Doc section: Includes)
+
+Main()
+^^^^^^
+
+For our glue, we’ll use the ``main()`` pattern from the previous tutorial on
+data structures:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Main)
+  :end-before: (Doc section: Main)
+
+Which, like when we used it before, is paired with a ``RunMain()``:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: RunMain)
+  :end-before: (Doc section: RunMain)
+
+Generating Files for Reading
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+We need some files to actually play with. In practice, you’ll likely
+have some input for your own application. Here, however, we want to
+explore without the overhead of supplying or finding a dataset, so let’s
+generate some to make this easy to follow. Feel free to read through
+this, but the concepts will be visited properly in this article – just
+copy it in, for now, and realize it ends with a partitioned dataset on
+disk:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Helper Functions)
+  :end-before: (Doc section: Helper Functions)
+
+In order to actually have these files, make sure the first thing called
+in ``RunMain()`` is our helper function ``PrepareEnv()``, which will get a
+dataset on disk for us to play with:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: PrepareEnv)
+  :end-before: (Doc section: PrepareEnv)
+
+Reading a Partitioned Dataset
+-----------------------------
+
+Reading a Dataset is a distinct task from reading a single file. The
+task takes more work than reading a single file, due to needing to be
+able to parse multiple files and/or folders. This process can be broken
+up into the following steps:
+
+1. Getting a :class:`fs::FileSystem` object for the local FS
+
+2. Create a :class:`fs::FileSelector` and use it to prepare a :class:`dataset::FileSystemDatasetFactory`
+
+3. Build a :class:`dataset::Dataset` using the :class:`dataset::FileSystemDatasetFactory`
+
+4. Use a :class:`dataset::Scanner` to read into a :class:`Table`
+
+Preparing a FileSystem Object
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+In order to begin, we’ll need to be able to interact with the local
+filesystem. In order to do that, we’ll need an :class:`fs::FileSystem` object.
+A :class:`fs::FileSystem` is an abstraction that lets us use the same interface
+regardless of using Amazon S3, Google Cloud Storage, or local disk – and
+we’ll be using local disk. So, let’s declare it:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: FileSystem Declare)
+  :end-before: (Doc section: FileSystem Declare)
+
+For this example, we’ll have our :class:`FileSystem’s <fs::FileSystem>` base path exist in the
+same directory as the executable. :func:`fs::FileSystemFromUriOrPath` lets us get
+a :class:`fs::FileSystem` object for any of the types of supported filesystems.
+Here, though, we’ll just pass our path:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: FileSystem Init)
+  :end-before: (Doc section: FileSystem Init)
+
+.. seealso:: :class:`fs::FileSystem` for the other supported filesystems.
+
+Creating a FileSystemDatasetFactory
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+A :class:`fs::FileSystem` stores a lot of metadata, but we need to be able to
+traverse it and parse that metadata. In Arrow, we use a :class:`FileSelector` to
+do so:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: FileSelector Declare)
+  :end-before: (Doc section: FileSelector Declare)
+
+This :class:`fs::FileSelector` isn’t able to do anything yet. In order to use it, we
+need to configure it – we’ll have it start any selection in
+“parquet_dataset,” which is where the environment preparation process
+has left us a dataset, and set recursive to true, which allows for
+traversal of folders.
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: FileSelector Config)
+  :end-before: (Doc section: FileSelector Config)
+
+To get a :class:`dataset::Dataset` from a :class:`fs::FileSystem`, we need to prepare a
+:class:`dataset::FileSystemDatasetFactory`. This is a long but descriptive name – it’ll
+make us a factory to get data from our :class:`fs::FileSystem`. First, we configure
+it by filling a :class:`dataset::FileSystemFactoryOptions` struct:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: FileSystemFactoryOptions)
+  :end-before: (Doc section: FileSystemFactoryOptions)
+
+There are many file formats, and we have to pick one that will be
+expected when actually reading. Parquet is what we have on disk, so of
+course we’ll ask for that when reading:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: File Format Setup)
+  :end-before: (Doc section: File Format Setup)
+
+After setting up the :class:`fs::FileSystem`, :class:`fs::FileSelector`, options, and file format,
+we can make that :class:`dataset::FileSystemDatasetFactory`. This simply requires passing
+in everything we’ve prepared and assigning that to a variable:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: FileSystemDatasetFactory Make)
+  :end-before: (Doc section: FileSystemDatasetFactory Make)
+
+Build Dataset using Factory
+^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+With a :class:`dataset::FileSystemDatasetFactory` set up, we can actually build our
+:class:`dataset::Dataset` with :func:`dataset::FileSystemDatasetFactory::Finish`, just 
+like with an :class:`ArrayBuilder` back in the basic tutorial:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: FileSystemDatasetFactory Finish)
+  :end-before: (Doc section: FileSystemDatasetFactory Finish)
+
+Now, we have a :class:`dataset::Dataset` object in memory. This does not mean that the
+entire dataset is manifested in memory, but that we now have access to
+tools that allow us to explore and use the dataset that is on disk. For
+example, we can grab the fragments (files) that make up our whole
+dataset, and print those out, along with some small info:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Dataset Fragments)
+  :end-before: (Doc section: Dataset Fragments)
+
+Move Dataset into Table
+^^^^^^^^^^^^^^^^^^^^^^^
+
+One way we can do something with :class:`Datasets <dataset::Dataset>` is getting 
+them into a :class:`Table`, where we can do anything we’ve learned we can do to 
+:class:`Tables <Table>` to that :class:`Table`. 
+
+.. seealso:: :doc:`/cpp/streaming_execution` for execution that avoids manifesting the entire dataset in memory.
+
+In order to move a :class:`Dataset’s <dataset::Dataset>` contents into a :class:`Table`, 
+we need a :class:`dataset::Scanner`, which scans the data and outputs it to the :class:`Table`. 
+First, we get a :class:`dataset::ScannerBuilder` from the :class:`dataset::Dataset`:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Read Scan Builder)
+  :end-before: (Doc section: Read Scan Builder)
+
+Of course, a Builder’s only use is to get us our :class:`dataset::Scanner`, so let’s use
+:func:`dataset::ScannerBuilder::Finish`:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Read Scanner)
+  :end-before: (Doc section: Read Scanner)
+
+Now that we have a tool to move through our :class:`dataset::Dataset`, let’s use it to get
+our :class:`Table`. :func:`dataset::Scanner::ToTable` offers exactly what we’re looking for,
+and we can print the results:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: To Table)
+  :end-before: (Doc section: To Table)
+
+This leaves us with a normal :class:`Table`. Again, to do things with :class:`Datasets <dataset::Dataset>`
+without moving to a :class:`Table`, consider using Acero.
+
+Writing a Dataset to Disk from Table
+------------------------------------
+
+Writing a :class:`dataset::Dataset` is a distinct task from writing a single file. The
+task takes more work than writing a single file, due to needing to be
+able to parse handle a partitioning scheme across multiple files and
+folders. This process can be broken up into the following steps:
+
+1. Prepare a :class:`TableBatchReader`
+
+2. Create a :class:`dataset::Scanner` to pull data from :class:`TableBatchReader`
+
+3. Prepare schema, partitioning, and file format options
+
+4. Set up :class:`dataset::FileSystemDatasetWriteOptions` – a struct that configures our writing functions
+
+5. Write dataset to disk
+
+Prepare Data from Table for Writing
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+We have a :class:`Table`, and we want to get a :class:`dataset::Dataset` on disk. In fact, for the
+sake of exploration, we’ll use a different partitioning scheme for the
+dataset – instead of just breaking into halves like the original
+fragments, we’ll partition based on each row’s value in the “a” column.
+
+To get started on that, let’s get a :class:`TableBatchReader`! This makes it very
+easy to write to a :class:`Dataset`, and can be used elsewhere whenever a :class:`Table`
+needs to be broken into a stream of :class:`RecordBatches <RecordBatch>`. Here, we can just use
+the :class:`TableBatchReader’s <TableBatchReader>` constructor, with our table:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: TableBatchReader)
+  :end-before: (Doc section: TableBatchReader)
+
+Create Scanner for Moving Table Data
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+The process for writing a :class:`dataset::Dataset`, once a source of data is available,
+is similar to the reverse of reading it. Before, we used a :class:`dataset::Scanner` in
+order to scan into a :class:`Table` – now, we need one to read out of our
+:class:`TableBatchReader`. To get that :class:`dataset::Scanner`, we’ll make a :class:`dataset::ScannerBuilder` 
+based on our :class:`TableBatchReader`, then use that Builder to build a :class:`dataset::Scanner`:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: WriteScanner)
+  :end-before: (Doc section: WriteScanner)
+
+Prepare Schema, Partitioning, and File Format Variables
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+Since we want to partition based on the “a” column, we need to declare
+that. When defining our partitioning :class:`Schema`, we’ll just have a single
+:class:`Field` that contains “a”:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Partition Schema)
+  :end-before: (Doc section: Partition Schema)
+
+This :class:`Schema` determines what the key is for partitioning, but we need to
+choose the algorithm that’ll do something with this key. We will use
+Hive-style again, this time with our schema passed to it as
+configuration:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Partition Create)
+  :end-before: (Doc section: Partition Create)
+
+Several file formats are available, but Parquet is commonly used with
+Arrow, so we’ll write back out to that:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Write Format)
+  :end-before: (Doc section: Write Format)
+
+Configure FileSystemDatasetWriteOptions 
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+In order to write to disk, we need some configuration. We’ll do so via
+setting values in a :class:`dataset::FileSystemDatasetWriteOptions` struct. We’ll
+initialize it with defaults where possible:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Write Options)
+  :end-before: (Doc section: Write Options)
+
+One important step in writing to file is having a :class:`fs::FileSystem` to target.
+Luckily, we have one from when we set it up for reading. This is a
+simple variable assignment:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Options FS)
+  :end-before: (Doc section: Options FS)
+
+Arrow can make the directory, but it does need a name for said
+directory, so let’s give it one, call it “write_dataset”:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Options Target)
+  :end-before: (Doc section: Options Target)
+
+We made a partitioning method previously, declaring that we’d use
+Hive-style – this is where we actually pass that to our writing
+function:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Options Partitioning)
+  :end-before: (Doc section: Options Partitioning)
+
+Part of what’ll happen is Arrow will break up files, thus preventing
+them from being too large to handle. This is what makes a dataset
+fragmented in the first place. In order to set this up, we need a base
+name for each fragment in a directory – in this case, we’ll have
+“part{i}.parquet”, which means the third file (within the same
+directory) will be called “part3.parquet”, for example:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Options Name Template)
+  :end-before: (Doc section: Options Name Template)
+
+Sometimes, data will be written to the same location more than once, and
+overwriting will be accepted. Since we may want to run this application
+more than once, we will set Arrow to overwrite existing data – if we
+didn’t, Arrow would abort due to seeing existing data after the first
+run of this application:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Options File Behavior)
+  :end-before: (Doc section: Options File Behavior)
+
+Write Dataset to Disk
+^^^^^^^^^^^^^^^^^^^^^
+
+Once the :class:`dataset::FileSystemDatasetWriteOptions` has been configured, and a
+:class:`dataset::Scanner` is prepared to parse the data, we can pass the Options and
+:class:`dataset::Scanner` to the :func:`dataset::FileSystemDataset::Write` to write out to
+disk:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Write Dataset)
+  :end-before: (Doc section: Write Dataset)
+
+You can review your disk to see that you’ve written a folder containing
+subfolders for every value of “a”, which each have Parquet files!
+
+Ending Program
+--------------
+
+At the end, we just return :func:`Status::OK`, so the ``main()`` knows that
+we’re done, and that everything’s okay, just like the preceding
+tutorials.
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Ret)
+  :end-before: (Doc section: Ret)
+
+With that, you’ve read and written partitioned datasets! This method,
+with some configuration, will work for any supported dataset format. For
+an example of such a dataset, the NYC Taxi dataset is a well-known
+one, which you can find `here <https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page>`_. 
+Now you can get larger-than-memory data mapped for use!
+
+Which means that now we have to be able to process this data without
+pulling it all into memory at once. For this, try Acero. 
+
+.. seealso:: :doc:`/cpp/streaming_execution` for more information on Acero.
+
+Refer to the below for a copy of the complete code:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/dataset_example.cc
+  :language: cpp
+  :start-after: (Doc section: Dataset Example)
+  :end-before: (Doc section: Dataset Example)
+  :linenos:
+  :lineno-match:
\ No newline at end of file
diff --git a/docs/source/cpp/tutorials/io_tutorial.rst b/docs/source/cpp/tutorials/io_tutorial.rst
new file mode 100644
index 00000000000..f981c94b83e
--- /dev/null
+++ b/docs/source/cpp/tutorials/io_tutorial.rst
@@ -0,0 +1,404 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+.. default-domain:: cpp
+.. highlight:: cpp
+
+.. cpp:namespace:: arrow
+
+==============
+Arrow File I/O
+==============
+
+Apache Arrow provides file I/O functions to facilitate use of Arrow from
+the start to end of an application. In this article, you will:
+
+1. Read an Arrow file into a :class:`RecordBatch` and write it back out afterwards
+
+2. Read a CSV file into a :class:`Table` and write it back out afterwards
+
+3. Read a Parquet file into a :class:`Table` and write it back out afterwards
+
+Pre-requisites 
+---------------
+
+Before continuing, make sure you have:
+
+1. An Arrow installation, which you can set up here: :doc:`/cpp/build_system`
+
+2. An understanding of basic Arrow data structures from :doc:`/cpp/tutorials/basic_arrow`
+
+3. A directory to run the final application in – this program will generate some files, so be prepared for that.
+
+Setup
+-----
+
+Before writing out some file I/O, we need to fill in a couple gaps:
+
+1. We need to include necessary headers.
+   
+2. A ``main()`` is needed to glue things together.
+
+3. We need files to play with.
+
+Includes
+^^^^^^^^
+
+Before writing C++ code, we need some includes. We'll get ``iostream`` for output, then import Arrow's 
+I/O functionality for each file type we'll work with in this article: 
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Includes)
+  :end-before: (Doc section: Includes)
+
+Main()
+^^^^^^
+
+For our glue, we’ll use the ``main()`` pattern from the previous tutorial on
+data structures:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Main)
+  :end-before: (Doc section: Main)
+
+Which, like when we used it before, is paired with a ``RunMain()``:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: RunMain)
+  :end-before: (Doc section: RunMain)
+
+Generating Files for Reading
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+We need some files to actually play with. In practice, you’ll likely
+have some input for your own application. Here, however, we want to
+explore doing I/O for the sake of it, so let’s generate some files to make
+this easy to follow. To create those, we’ll define a helper function
+that we’ll run first. Feel free to read through this, but the concepts
+used will be explained later in this article. Note that we’re using the
+day/month/year data from the previous tutorial. For now, just copy the
+function in:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: GenInitialFile)
+  :end-before: (Doc section: GenInitialFile)
+
+To get the files for the rest of your code to function, make sure to
+call ``GenInitialFile()`` as the very first line in ``RunMain()`` to initialize
+the environment:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Gen Files)
+  :end-before: (Doc section: Gen Files)
+
+I/O with Arrow Files
+--------------------
+
+We’re going to go through this step by step, reading then writing, as
+follows:
+
+1. Reading a file
+
+   a. Open the file
+
+   b. Bind file to :class:`ipc::RecordBatchFileReader`
+
+   c. Read file to :class:`RecordBatch`
+
+2. Writing a file
+
+   a. Get a :class:`io::FileOutputStream`
+
+   b. Write to file from :class:`RecordBatch`
+
+Opening a File
+^^^^^^^^^^^^^^
+
+To actually read a file, we need to get some sort of way to point to it.
+In Arrow, that means we’re going to get a :class:`io::ReadableFile` object – much
+like an :class:`ArrayBuilder` can clear and make new arrays, we can reassign this
+to new files, so we’ll use this instance throughout the examples:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: ReadableFile Definition)
+  :end-before: (Doc section: ReadableFile Definition)
+
+A :class:`io::ReadableFile` does little alone – we actually have it bind to a file
+with :func:`io::ReadableFile::Open`. For
+our purposes here, the default arguments suffice:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Arrow ReadableFile Open)
+  :end-before: (Doc section: Arrow ReadableFile Open)
+
+Opening an Arrow file Reader
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+An :class:`io::ReadableFile` is too generic to offer all functionality to read an Arrow file.
+We need to use it to get an :class:`ipc::RecordBatchFileReader` object. This object implements 
+all the logic needed to read an Arrow file with correct formatting. We get one through 
+:func:`ipc::RecordBatchFileReader::Open`:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Arrow Read Open)
+  :end-before: (Doc section: Arrow Read Open)
+
+Reading an Open Arrow File to RecordBatch
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+We have to use a :class:`RecordBatch` to read an Arrow file, so we’ll get a
+:class:`RecordBatch`. Once we have that, we can actually read the file. Arrow
+files can have multiple :class:`RecordBatches <RecordBatch>`, so we must pass an index. This
+file only has one, so pass 0:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Arrow Read)
+  :end-before: (Doc section: Arrow Read)
+
+Prepare a FileOutputStream
+^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+For output, we need a :class:`io::FileOutputStream`. Just like our :class:`io::ReadableFile`,
+we’ll be reusing this, so be ready for that. We open files the same way
+as when reading:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Arrow Write Open)
+  :end-before: (Doc section: Arrow Write Open)
+
+Write Arrow File from RecordBatch
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+Now, we grab our :class:`RecordBatch` we read into previously, and use it, along
+with our target file, to create a :class:`ipc::RecordBatchWriter`. The
+:class:`ipc::RecordBatchWriter` needs two things:
+
+1. the target file
+
+2. the :class:`Schema` for our :class:`RecordBatch` (in case we need to write more :class:`RecordBatches <RecordBatch>` of the same format.)
+
+The :class:`Schema` comes from our existing :class:`RecordBatch` and the target file is
+the output stream we just created.
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Arrow Writer)
+  :end-before: (Doc section: Arrow Writer)
+
+We can just call :func:`ipc::RecordBatchWriter::WriteRecordBatch` with our :class:`RecordBatch` to fill up our
+file:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Arrow Write)
+  :end-before: (Doc section: Arrow Write)
+
+For IPC in particular, the writer has to be closed since it anticipates more than one batch may be written. To do that:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Arrow Close)
+  :end-before: (Doc section: Arrow Close)
+
+Now we’ve read and written an IPC file!
+
+I/O with CSV
+------------
+
+We’re going to go through this step by step, reading then writing, as
+follows:
+
+1. Reading a file
+
+   a. Open the file
+
+   b. Prepare Table
+
+   c. Read File using :class:`csv::TableReader`
+
+2. Writing a file
+
+   a. Get a :class:`io::FileOutputStream`
+
+   b. Write to file from :class:`Table`
+
+Opening a CSV File
+^^^^^^^^^^^^^^^^^^
+
+For a CSV file, we need to open a :class:`io::ReadableFile`, just like an Arrow file,
+and reuse our :class:`io::ReadableFile` object from before to do so:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: CSV Read Open)
+  :end-before: (Doc section: CSV Read Open)
+
+Preparing a Table
+^^^^^^^^^^^^^^^^^
+
+CSV can be read into a :class:`Table`, so declare a pointer to a :class:`Table`:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: CSV Table Declare)
+  :end-before: (Doc section: CSV Table Declare)
+
+Read a CSV File to Table
+^^^^^^^^^^^^^^^^^^^^^^^^
+
+The CSV reader has option structs which need to be passed – luckily,
+there are defaults for these which we can pass directly. For reference
+on the other options, go here: :doc:`/cpp/api/formats`.
+without any special delimiters and is small, so we can make our reader
+with defaults:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: CSV Reader Make)
+  :end-before: (Doc section: CSV Reader Make)
+
+With the CSV reader primed, we can use its :func:`csv::TableReader::Read` method to fill our
+:class:`Table`:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: CSV Read)
+  :end-before: (Doc section: CSV Read)
+
+Write a CSV File from Table
+^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+CSV writing to :class:`Table` looks exactly like IPC writing to :class:`RecordBatch`,
+except with our :class:`Table`, and using :func:`ipc::RecordBatchWriter::WriteTable` instead of
+:func:`ipc::RecordBatchWriter::WriteRecordBatch`. Note that the same writer class is used -- 
+we're writing with :func:`ipc::RecordBatchWriter::WriteTable` because we have a :class:`Table`. We’ll target 
+a file, use our :class:`Table’s <Table>` :class:`Schema`, and then write the :class:`Table`:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: CSV Write)
+  :end-before: (Doc section: CSV Write)
+
+Now, we’ve read and written a CSV file!
+
+File I/O with Parquet
+---------------------
+
+We’re going to go through this step by step, reading then writing, as
+follows:
+
+1. Reading a file
+
+   a. Open the file
+
+   b. Prepare :class:`parquet::arrow::FileReader`
+
+   c. Read file to :class:`Table`
+
+2. Writing a file
+
+   a. Write :class:`Table` to file
+
+Opening a Parquet File
+^^^^^^^^^^^^^^^^^^^^^^
+
+Once more, this file format, Parquet, needs a :class:`io::ReadableFile`, which we
+already have, and for the :func:`io::ReadableFile::Open` method to be called on a file:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Parquet Read Open)
+  :end-before: (Doc section: Parquet Read Open)
+
+Setting up a Parquet Reader
+^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+As always, we need a Reader to actually read the file. We’ve been
+getting Readers for each file format from the Arrow namespace. This
+time, we enter the Parquet namespace to get the :class:`parquet::arrow::FileReader`:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Parquet FileReader)
+  :end-before: (Doc section: Parquet FileReader)
+
+Now, to set up our reader, we call :func:`parquet::arrow::OpenFile`. Yes, this is necessary
+even though we used :func:`io::ReadableFile::Open`. Note that we pass our
+:class:`parquet::arrow::FileReader` by reference, instead of assigning to it in output:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Parquet OpenFile)
+  :end-before: (Doc section: Parquet OpenFile)
+
+Reading a Parquet File to Table
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+With a prepared :class:`parquet::arrow::FileReader` in hand, we can read to a 
+:class:`Table`, except we must pass the :class:`Table` by reference instead of outputting to it:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Parquet Read)
+  :end-before: (Doc section: Parquet Read)
+
+Writing a Parquet File from Table
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+For single-shot writes, writing a Parquet file does not need a writer object. Instead, we give
+it our table, point to the memory pool it will use for any necessary
+memory consumption, tell it where to write, and the chunk size if it
+needs to break up the file at all:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Parquet Write)
+  :end-before: (Doc section: Parquet Write)
+
+Ending Program
+--------------
+
+At the end, we just return :func:`Status::OK`, so the ``main()`` knows that
+we’re done, and that everything’s okay. Just like in the first tutorial.
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: Return)
+  :end-before: (Doc section: Return)
+
+With that, you’ve read and written IPC, CSV, and Parquet in Arrow, and
+can properly load data and write output! Now, we can move into
+processing data with compute functions in the next article.
+
+Refer to the below for a copy of the complete code:
+
+.. literalinclude:: ../../../../cpp/examples/tutorial_examples/file_access_example.cc
+  :language: cpp
+  :start-after: (Doc section: File I/O)
+  :end-before: (Doc section: File I/O)
+  :linenos:
+  :lineno-match:
\ No newline at end of file
diff --git a/docs/source/cpp/user_guide.rst b/docs/source/cpp/user_guide.rst
new file mode 100644
index 00000000000..22f01ac6b4d
--- /dev/null
+++ b/docs/source/cpp/user_guide.rst
@@ -0,0 +1,44 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+.. default-domain:: cpp
+.. highlight:: cpp
+
+User Guide
+==========
+
+.. toctree::
+
+   overview
+   memory
+   arrays
+   datatypes
+   tables
+   compute
+   gandiva
+   streaming_execution
+   io
+   ipc
+   orc
+   parquet
+   csv
+   json
+   dataset
+   flight
+   gdb
+   threading
+   env_vars
diff --git a/docs/source/developers/bug_reports.rst b/docs/source/developers/bug_reports.rst
index 2a3cb6f3900..4dbb39136ce 100644
--- a/docs/source/developers/bug_reports.rst
+++ b/docs/source/developers/bug_reports.rst
@@ -18,82 +18,51 @@
 .. _bug-reports:
 
 ********************************
-Report bugs and propose features
+Bug reports and feature requests
 ********************************
 
-Using the software and sharing your experience is a very helpful contribution
-itself. Those who actively develop Arrow need feedback from users on what
-works and what doesn't. Alerting us to unexpected behavior and missing features,
-even if you can't solve the problems yourself, help us understand and prioritize
-work to improve the libraries.
+Arrow relies upon user feedback to identify defects and improvement
+opportunities. All users are encouraged to participate by creating bug reports
+and feature requests or commenting on existing issues. Even if you cannot
+contribute solutions to the issues yourself, your feedback helps us understand
+problems and prioritize work to improve the libraries.
 
-We use `JIRA <https://issues.apache.org/jira/projects/ARROW/issues>`_
-to manage our development "todo" list and to maintain changelogs for releases.
-In addition, the project's `Confluence site <https://cwiki.apache.org/confluence/display/ARROW>`_
-has some useful higher-level views of the JIRA issues.
+.. _github_issues:
 
-To create a JIRA issue, you'll need to have an account on the ASF JIRA, which
-you can `sign yourself up for <https://issues.apache.org/jira/secure/Signup!default.jspa>`_.
-The JIRA server hosts bugs and issues for multiple Apache projects. The JIRA
-project name for Arrow is "ARROW".
+GitHub issues
+=============
 
-You don't need any special permissions on JIRA to be able to create issues.
-Once you are more involved in the project and want to do more on JIRA, such as
-assign yourself an issue, you will need "Contributor" permissions on the
-Apache Arrow JIRA. To get this role, ask on the mailing list for a project
-maintainer's help.
+The Arrow project uses `GitHub issues <https://github.com/apache/arrow/issues>`_
+to track issues - both bug reports and feature requests.
 
+.. _creating-issues:
 
-.. _jira-tips:
+Creating issues
+===============
 
-Tips for using JIRA
-===================
+Apache Arrow relies upon community contributions to address reported bugs and
+feature requests. As with most software projects, contributor time and
+resources are finite. The following guidelines aim to produce high-quality
+bug reports and feature requests, enabling community contributors to respond
+to more issues, faster:
 
-Before you create a new issue, we recommend you first
-`search <https://issues.apache.org/jira/issues/?jql=project%20%3D%20ARROW%20AND%20resolution%20%3D%20Unresolved>`_
-among existing Arrow issues.
-
-When reporting a new issue, follow these conventions to help make sure the
-right people see it:
-
-* Use the **Component** field to indicate the area of the project that your
-  issue pertains to (for example "Python" or "C++").
-* Also prefix the issue title with the component name in brackets, for example
-  ``[Python] issue name`` ; this helps when navigating lists of open issues,
-  and it also makes our changelogs more readable. Most prefixes are exactly the 
-  same as the **Component** name, with the following exceptions:
-
-  * **Component:** Continuous Integration — **Summary prefix:** [CI]
-  * **Component:** Developer Tools — **Summary prefix:** [Dev]
-  * **Component:** Documentation — **Summary prefix:** [Docs]
+.. _check-existing-issues:
 
-* If you're reporting something that used to work in a previous version
-  but doesn't work in the current release, you can add the "Affects version"
-  field. For feature requests and other proposals, "Affects version" isn't
-  appropriate.
+Check existing issues
++++++++++++++++++++++
 
-Project maintainers may later tweak formatting and labels to help improve their
-visibility. They may add a "Fix version" to indicate that they're considering
-it for inclusion in the next release, though adding that tag is not a
-commitment that it will be done in the next release.
-
-.. _bug-report-tips:
+Before you create a new issue, we recommend you first
+`search <https://github.com/apache/arrow/issues>`_
+for unresolved existing issues identifying the same problem or feature request.
 
-Tips for successful bug reports
-================================
+.. _describe-issue:
 
-No one likes having bugs in their software, and in an ideal world, all bugs
-would get fixed as soon as they were reported. However, time and attention are
-finite, especially in an open-source project where most contributors are
-participating in their spare time. All contributors in Apache projects are
-volunteers and act as individuals, even if they are contributing to the project
-as part of their job responsibilities.
+Issue description
++++++++++++++++++
 
-In order for your bug to get prompt
-attention, there are things you can do to make it easier for contributors to
-reproduce and fix it.
-**When you're reporting a bug, please help us understand the issue by providing,
-to the best of your ability,**
+A clear description of the problem or requested feature is the most important
+element of any issue.  An effective description helps developers understand
+and efficiently engage on reported issues, and may include the following:
 
 * **Clear, minimal steps to reproduce the issue, with as few non-Arrow
   dependencies as possible.** If there's a problem on reading a file, try to
@@ -103,13 +72,15 @@ to the best of your ability,**
 * Any relevant operating system, language, and library version information
 * If it isn't obvious, clearly state the expected behavior and what actually
   happened.
+* Avoid overloading a single issue with multiple problems or feature requests.
+  Each issue should deal with a single bug or feature.
 
 If a developer can't get a failing unit test, they won't be able to know that
 the issue has been identified, and they won't know when it has been fixed.
 Try to anticipate the questions you might be asked by someone working to
 understand the issue and provide those supporting details up front.
 
-Good reproducible examples or minimal bug reports can be found in next tabs:
+Examples of good bug reports are found below:
 
 .. tab-set::
 
@@ -186,10 +157,60 @@ Good reproducible examples or minimal bug reports can be found in next tabs:
          #> 1 rows x 1 columns
          #> $x <timestamp[ns]>
 
-
-Other resources:
+Other resources for producing useful bug reports:
 
 * `Python: Craft Minimal Bug Reports by Matthew Rocklin <https://matthewrocklin.com/blog/work/2018/02/28/minimal-bug-reports>`_
 * `R: Tidyverse: Make a reprex <https://www.tidyverse.org/help/#reprex>`_
 * `R: Tidyverse's Reprex do's and don'ts <https://reprex.tidyverse.org/articles/reprex-dos-and-donts.html>`_
 * `Mozilla's bug-reporting guidelines <https://developer.mozilla.org/en-US/docs/Mozilla/QA/Bug_writing_guidelines>`_
+
+.. _identify-component:
+
+Identify Arrow component
+++++++++++++++++++++++++
+
+Arrow is an expansive project supporting many languages and organized into a
+number of components. Identifying the affected component(s) helps new issues
+get attention from appropriate contributors.
+
+* **Component label**, which can be added by a committer of the Apache Arrow
+  project, is used to indicate the area of the project that your issue pertains
+  to (for example "Component: Python" or "Component: C++").
+* Prefix the issue title with the component name in brackets, for example
+  ``[Python] issue summary`` ; this helps when navigating lists of open issues,
+  and it also makes our changelogs more readable. Most prefixes are exactly the
+  same as the **Component** name, with the following exceptions:
+
+  * **Component:** Continuous Integration — **Summary prefix:** [CI]
+  * **Component:** Developer Tools — **Summary prefix:** [Dev]
+  * **Component:** Documentation — **Summary prefix:** [Docs]
+
+.. _issue-lifecycle:
+
+Issue lifecycle
+===============
+
+Both bug reports and feature requests follow a defined lifecycle. If an issue
+is currently worked on, it should have a developer assigned. When an issue has
+reached a terminal status, it is closed with one of two outcomes:
+
+* **Closed as completed** - indicates the issue is complete; the PR that
+  resolved the issue should have been automatically linked by GitHub
+  (assuming the PR correctly mentioned the issue number).
+
+  If you are merging a PR it is good practice to add a comment
+  to the linked issue about which PR is resolving it. This way
+  GitHub crates a notification for anybody that collaborated on
+  the issue.
+
+* **closed as not planned** - indicates the issue is closed and should
+  not receive any further updates, but *without* action being taken.
+
+.. _issue-assignment:
+
+Issue assignment
+++++++++++++++++
+
+Assignment signals commitment to work on an issue, and contributors should
+self-assign issues when that work starts. Anyone can now self-assign issues
+by commenting ``take``.
diff --git a/docs/source/developers/computeir.rst b/docs/source/developers/computeir.rst
deleted file mode 100644
index 9ebe1d5afb2..00000000000
--- a/docs/source/developers/computeir.rst
+++ /dev/null
@@ -1,59 +0,0 @@
-.. Licensed to the Apache Software Foundation (ASF) under one
-.. or more contributor license agreements.  See the NOTICE file
-.. distributed with this work for additional information
-.. regarding copyright ownership.  The ASF licenses this file
-.. to you under the Apache License, Version 2.0 (the
-.. "License"); you may not use this file except in compliance
-.. with the License.  You may obtain a copy of the License at
-
-..   http://www.apache.org/licenses/LICENSE-2.0
-
-.. Unless required by applicable law or agreed to in writing,
-.. software distributed under the License is distributed on an
-.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-.. KIND, either express or implied.  See the License for the
-.. specific language governing permissions and limitations
-.. under the License.
-
-**********************************************
-Arrow Compute IR (Intermediate Representation)
-**********************************************
-
-In the same way that the Arrow format provides a powerful tool
-for communicating data, Compute IR is intended to provide a
-consistent format for representing analytical operations against
-that data. As an arrow-native expression of computation it includes
-information such as explicit types and schemas and arrow formatted
-literal data. It is also optimized for low runtime overhead in both
-serialization and deserialization.
-
-Built-in definitions are included to enable representation of
-relational algebraic operations- the contents of a "logical query plan".
-Compute IR also has first class support for representing operations
-which are not members of a minimal relational algebra, including
-implementation and optimization details- the contents of a "physical
-query plan". This approach is taken in emulation of `MLIR`_ (Multi-Level
-Intermediate Representation), a system which has had strong successes in
-spaces of comparable complexity to representation of analytic operations.
-To borrow terms from that project, there are two mutations of interest:
-
-* Replacement of representations with semantically equivalent representations
-  which will yield better performance for consumers- an optimization pass.
-* Replacement of abstract or generic representations with more specific
-  and potentially consumer-specific representations- a lowering pass.
-  This modification corresponds to the translation of a logical plan
-  to a physical plan.
-
-Allowing representation of physical plans (and plans which are between
-logical and physical) in Compute IR enables systems to define incremental
-optimization and lowering passes which operate on and produce valid
-Compute IR. This in turn enables communication, manipulation, and inspection
-at every stage of lowering/optimization by the same tools
-used for logical-plan-equivalent-IR. This is especially useful for systems
-where such passes may depend on information only available on every node
-of a distributed consumer (for example statistics unique to that node's
-local data) or may not be universal to all backends in a heterogeneous
-consumer (for example which optimizations nodes are capable of for
-non equi joins).
-
-.. _MLIR: https://mlir.llvm.org
diff --git a/docs/source/developers/continuous_integration/crossbow.rst b/docs/source/developers/continuous_integration/crossbow.rst
index 2515903a28d..fad74127e68 100644
--- a/docs/source/developers/continuous_integration/crossbow.rst
+++ b/docs/source/developers/continuous_integration/crossbow.rst
@@ -25,8 +25,8 @@ The content of ``arrow/dev/tasks`` directory aims for automating the process of
 Arrow packaging and integration testing.
 
 Packages:
-  - C++ and Python `conda-forge packages`_ for Linux, Mac and Windows
-  - Python `Wheels`_ for Linux, Mac and Windows
+  - C++ and Python `conda-forge packages`_ for Linux, macOS and Windows
+  - Python `Wheels`_ for Linux, macOS and Windows
   - C++ and GLib `Linux packages`_ for multiple distributions
   - Java for Gandiva
 
@@ -46,21 +46,21 @@ Executors
 
 Individual jobs are executed on public CI services, currently:
 
-- Linux: TravisCI, CircleCI, Azure Pipelines
-- Mac: TravisCI, Azure Pipelines
-- Windows: AppVeyor, Azure Pipelines
+- Linux: GitHub Actions, Travis CI, Azure Pipelines
+- macOS: GitHub Actions, Travis CI, Azure Pipelines
+- Windows: GitHub Actions, Azure Pipelines
 
 Queue
 ~~~~~
 
 Because of the nature of how the CI services work, the scheduling of
 jobs happens through an additional git repository, which acts like a job
-queue for the tasks. Anyone can host a ``queue`` repository which is usually
-called as ``crossbow``.
+queue for the tasks. Anyone can host a ``queue`` repository (usually
+named ``<ghuser>/crossbow``).
 
-A job is a git commit on a particular git branch, containing only the required
-configuration file to run the requested build (like ``.travis.yml``,
-``appveyor.yml`` or ``azure-pipelines.yml``).
+A job is a git commit on a particular git branch, containing the required
+configuration files to run the requested builds (like ``.travis.yml``, 
+``azure-pipelines.yml``, or ``crossbow.yml`` for `GitHub Actions`_ ).
 
 Scheduler
 ~~~~~~~~~
@@ -74,22 +74,20 @@ Install
 The following guide depends on GitHub, but theoretically any git
 server can be used.
 
-If you are not using the `ursacomputing/crossbow <https://github.com/ursacomputing/crossbow>`_
+If you are not using the `ursacomputing/crossbow`_
 repository, you will need to complete the first two steps, otherwise procede
 to step 3:
 
 1. `Create the queue repository`_
 
-2. Enable `TravisCI`_, `Appveyor`_, `Azure Pipelines`_ and `CircleCI`_
-   integrations on for the newly created queue repository.
+2. Enable `Travis CI`_ and `Azure Pipelines`_ integrations for the newly
+   created queue repository.
 
-   -  turn off Travis’ `auto cancellation`_ feature on branches
-
-3. Clone either ursacomputing/crossbow if you are using that, or the newly
+3. Clone either `ursacomputing/crossbow`_ if you are using that, or the newly
    created repository next to the arrow repository:
 
-   By default the scripts looks for ``crossbow`` next to arrow repository, but
-   this can configured through command line arguments.
+   By default the scripts looks for a ``crossbow`` clone next to the ``arrow``
+   directory, but this can configured through command line arguments.
 
    .. code:: bash
 
@@ -110,26 +108,21 @@ to step 3:
 
    or pass as an argument to the CLI script ``--github-token``
 
-6. Export the previously created GitHub token on both CI services:
+6. Add the previously created GitHub token to **Travis CI**:
 
    Use ``CROSSBOW_GITHUB_TOKEN`` encrypted environment variable. You can
-   set them at the following URLs, where ``ghuser`` is the GitHub
+   set it at the following URL, where ``ghuser`` is the GitHub
    username and ``ghrepo`` is the GitHub repository name (typically
    ``crossbow``):
 
-   -  TravisCI: ``https://travis-ci.org/<ghuser>/<ghrepo>/settings``
-   -  Appveyor:
-      ``https://ci.appveyor.com/project/<ghuser>/<ghrepo>/settings/environment``
-   -  CircleCI:
-      ``https://circleci.com/gh/<ghuser>/<ghrepo>/edit#env-vars``
-
-   On Appveyor check the ``skip branches without appveyor.yml`` checkbox
-   on the web UI under crossbow repository’s settings.
+   ``https://travis-ci.com/<ghuser>/<ghrepo>/settings``
 
+   - Confirm the `auto cancellation`_ feature is turned off for branch builds. This should be the default setting.
+   
 7. Install Python (minimum supported version is 3.7):
 
-   Miniconda is preferred, see installation instructions:
-   https://conda.io/docs/user-guide/install/index.html
+   | Miniconda is preferred, see installation instructions:
+   | https://conda.io/docs/user-guide/install/index.html
 
 8. Install the archery toolset containing crossbow itself:
 
@@ -176,8 +169,8 @@ The script does the following:
 3. Reads and renders the required build configurations with the
    parameters substituted.
 
-4. Create a branch per task, prefixed with the job id. For example to
-   build conda recipes on linux it will create a new branch:
+4. Create a branch per task, prefixed with the job id. For example, to
+   build conda recipes on linux, it will create a new branch:
    ``crossbow@build-<id>-conda-linux``.
 
 5. Pushes the modified branches to GitHub which triggers the builds. For
@@ -251,11 +244,11 @@ see its help page:
 .. _conda-forge packages: conda-recipes
 .. _Wheels: python-wheels
 .. _Linux packages: linux-packages
-.. _Create the queue repository: https://help.github.com/articles/creating-a-new-repository
-.. _TravisCI: https://travis-ci.org/getting_started
-.. _Appveyor: https://www.appveyor.com/docs/
-.. _CircleCI: https://circleci.com/docs/2.0/getting-started/
+.. _Create the queue repository: https://docs.github.com/en/repositories/creating-and-managing-repositories/creating-a-new-repository
+.. _Github Actions: https://docs.github.com/en/actions/quickstart
+.. _Travis CI: https://travis-ci.com/getting-started/
 .. _Azure Pipelines: https://docs.microsoft.com/en-us/azure/devops/pipelines/get-started/pipelines-sign-up
-.. _auto cancellation: https://docs.travis-ci.com/user/customizing-the-build/#Building-only-the-latest-commit
+.. _auto cancellation: https://docs.travis-ci.com/user/customizing-the-build/#building-only-the-latest-commit
 .. _Create a Personal Access Token: https://help.github.com/articles/creating-a-personal-access-token-for-the-command-line/
 .. _setuptools_scm: https://pypi.python.org/pypi/setuptools_scm
+.. _ursacomputing/crossbow: https://github.com/ursacomputing/crossbow
diff --git a/docs/source/developers/continuous_integration/docker.rst b/docs/source/developers/continuous_integration/docker.rst
index 7035dfe9ec6..49cbffe5a42 100644
--- a/docs/source/developers/continuous_integration/docker.rst
+++ b/docs/source/developers/continuous_integration/docker.rst
@@ -85,13 +85,13 @@ where the leaf image is ``conda-python-pandas``.
 
 .. code:: bash
 
-    PANDAS=master archery docker run --no-leaf-cache conda-python-pandas
+    PANDAS=upstream_devel archery docker run --no-leaf-cache conda-python-pandas
 
 Which translates to:
 
 .. code:: bash
 
-    export PANDAS=master
+    export PANDAS=upstream_devel
     docker-compose pull --ignore-pull-failures conda-cpp
     docker-compose pull --ignore-pull-failures conda-python
     docker-compose build conda-cpp
@@ -102,8 +102,8 @@ Which translates to:
 Note that it doesn't pull the conda-python-pandas image and disable the cache
 when building it.
 
-``PANDAS`` is a `build parameter <Docker Build Parameters>`_, see the
-defaults in the .env file.
+``PANDAS`` is a :ref:`build parameter <docker-build-parameters>`, see the
+defaults in the ``.env`` file.
 
 **To entirely skip building the image:**
 
@@ -178,6 +178,8 @@ image when building Glib, Ruby, R and Python bindings.
 This reduces duplication and streamlines maintenance, but makes the
 docker-compose configuration more complicated.
 
+.. _docker-build-parameters:
+
 Docker Build Parameters
 ~~~~~~~~~~~~~~~~~~~~~~~
 
diff --git a/docs/source/developers/continuous_integration/overview.rst b/docs/source/developers/continuous_integration/overview.rst
index 3c21c170631..9f558e68571 100644
--- a/docs/source/developers/continuous_integration/overview.rst
+++ b/docs/source/developers/continuous_integration/overview.rst
@@ -31,7 +31,7 @@ Some files central to Arrow CI are:
 
 We use :ref:`Docker<docker-builds>` in order to have portable and reproducible Linux builds, as well as running Windows builds in Windows containers.  We use :ref:`Archery<Archery>` and :ref:`Crossbow<Crossbow>` to help co-ordinate the various CI tasks.
 
-One thing to note is the some of the services defined in ``docker-compose.yml`` are interdependent.  When running services locally, you must either manually build its dependencies first, or build it via the use of ``archery run ...`` which automatically finds and builds dependencies.
+One thing to note is that some of the services defined in ``docker-compose.yml`` are interdependent.  When running services locally, you must either manually build its dependencies first, or build it via the use of ``archery run ...`` which automatically finds and builds dependencies.
 
 There are numerous important directories in the Arrow project which relate to CI:
 
@@ -56,7 +56,7 @@ The ``.yml`` files in ``.github/worflows`` are workflows which are run on GitHub
   - ``@github-actions autotune`` - runs a number of stylers/formatters, builds some of the docs, and commits the results
   - ``@github-actions rebase`` - rebases the PR onto the master branch
 - ``dev.yml`` - runs any time there is activity on a PR, or a PR is merged; it runs the linter and tests that the PR can be merged
-- ``dev_pr.yml`` - runs any time a PR is opened or updated; checks the formatting of the PR title, adds links to the appropriate JIRA ticket if included in the title (or adds a comment requesting the user fix this if not), and adds any relevant GitHub labels
+- ``dev_pr.yml`` - runs any time a PR is opened or updated; checks the formatting of the PR title, adds assignee to the appropriate GitHub issue if needed (or adds a comment requesting the user to include the issue id in the title), and adds any relevant GitHub labels
 
 There are two other files which define action-triggered builds:
 
@@ -69,8 +69,8 @@ Extended builds
 Crossbow is a subcomponent of Archery and can be used to manually trigger builds.  The tasks which can be run on Crossbow can be found in the ``dev/tasks`` directory.  This directory contains:
 
 - the file ``dev/tasks/tasks.yml`` containing the configuration for various tasks which can be run via Crossbow
-- subdirectories containing different task templates (specified using `jinja2 syntax <https://jinja2docs.readthedocs.io/en/stable/>`_), divided roughly by language or package management system.
+- subdirectories containing different task templates (specified using `jinja2 syntax <https://jinja.palletsprojects.com/>`_), divided roughly by language or package management system.
 
-Most of these tasks are run as part of the nightly builds, though also can be triggered manually by add a comment to a PR which begins with ``@github-actions crossbow submit`` followed by the name of the task to be run.
+Most of these tasks are run as part of the nightly builds, though they can also be triggered manually by add a comment to a PR which begins with ``@github-actions crossbow submit`` followed by the name of the task to be run.
 
 For convenience purpose, the tasks in ``dev/tasks/tasks.yml`` are defined in groups, which makes it simpler for multiple tasks to be submitted to Crossbow at once.  The task definitions here contain information about which service defined in ``docker-compose.yml`` to run, the CI service to run the task on, and which template file to use as the basis for that task.
diff --git a/docs/source/developers/cpp/building.rst b/docs/source/developers/cpp/building.rst
index b988bd2eebe..b99894d97a0 100644
--- a/docs/source/developers/cpp/building.rst
+++ b/docs/source/developers/cpp/building.rst
@@ -39,8 +39,8 @@ out-of-source. If you are not familiar with this terminology:
 
 Building requires:
 
-* A C++11-enabled compiler. On Linux, gcc 4.8 and higher should be
-  sufficient. For Windows, at least Visual Studio 2017 is required.
+* A C++17-enabled compiler. On Linux, gcc 7.1 and higher should be
+  sufficient. For Windows, at least Visual Studio VS2017 is required.
 * CMake 3.5 or higher
 * On Linux and macOS, either ``make`` or ``ninja`` build utilities
 * At least 1GB of RAM for a minimal build, 4GB for a minimal  
@@ -338,11 +338,11 @@ boolean flags to ``cmake``.
 * ``-DPARQUET_REQUIRE_ENCRYPTION=ON``: Parquet Modular Encryption
 * ``-DARROW_PLASMA=ON``: Plasma Shared Memory Object Store
 * ``-DARROW_PLASMA_JAVA_CLIENT=ON``: Build Java client for Plasma
-* ``-DARROW_PYTHON=ON``: Arrow Python C++ integration library (required for
-  building pyarrow). This library must be built against the same Python version
-  for which you are building pyarrow. NumPy must also be installed. Enabling
-  this option also enables ``ARROW_COMPUTE``, ``ARROW_CSV``, ``ARROW_DATASET``,
-  ``ARROW_FILESYSTEM``, ``ARROW_HDFS``, and ``ARROW_JSON``.
+* ``-DARROW_PYTHON=ON``: This option is deprecated since 10.0.0. This
+  will be removed in a future release. Use CMake presets instead. Or
+  you can enable ``ARROW_COMPUTE``, ``ARROW_CSV``, ``ARROW_DATASET``,
+  ``ARROW_FILESYSTEM``, ``ARROW_HDFS``, and ``ARROW_JSON`` directly
+  instead.
 * ``-DARROW_S3=ON``: Support for Amazon S3-compatible filesystems
 * ``-DARROW_WITH_RE2=ON`` Build with support for regular expressions using the re2 
   library, on by default and used when ``ARROW_COMPUTE`` or ``ARROW_GANDIVA`` is ``ON``
@@ -365,6 +365,9 @@ build times if they are not required for your application:
 
 * ``-DARROW_IPC=ON``: build the IPC extensions
 
+.. warning::
+   Plasma is deprecated as of Arrow 10.0.0, and will be removed in 12.0.0 or so.
+
 Optional Targets
 ~~~~~~~~~~~~~~~~
 
diff --git a/docs/source/developers/cpp/development.rst b/docs/source/developers/cpp/development.rst
index d9a1b20db2c..48fd5c1a31c 100644
--- a/docs/source/developers/cpp/development.rst
+++ b/docs/source/developers/cpp/development.rst
@@ -185,22 +185,28 @@ in a new out-of-source CMake build directory like so:
    mkdir -p $ARROW_ROOT/cpp/iwyu
    cd $ARROW_ROOT/cpp/iwyu
    cmake -DCMAKE_EXPORT_COMPILE_COMMANDS=ON \
-     -DARROW_PYTHON=ON \
-     -DARROW_PARQUET=ON \
-     -DARROW_FLIGHT=ON \
-     -DARROW_PLASMA=ON \
-     -DARROW_GANDIVA=ON \
      -DARROW_BUILD_BENCHMARKS=ON \
      -DARROW_BUILD_BENCHMARKS_REFERENCE=ON \
      -DARROW_BUILD_TESTS=ON \
      -DARROW_BUILD_UTILITIES=ON \
+     -DARROW_COMPUTE=ON \
+     -DARROW_CSV=ON \
+     -DARROW_DATASET=ON \
+     -DARROW_FILESYSTEM=ON \
+     -DARROW_FLIGHT=ON \
+     -DARROW_GANDIVA=ON \
+     -DARROW_HDFS=ON \
+     -DARROW_JSON=ON \
+     -DARROW_PARQUET=ON \
+     -DARROW_PLASMA=ON \
      -DARROW_S3=ON \
      -DARROW_WITH_BROTLI=ON \
      -DARROW_WITH_BZ2=ON \
      -DARROW_WITH_LZ4=ON \
      -DARROW_WITH_SNAPPY=ON \
      -DARROW_WITH_ZLIB=ON \
-     -DARROW_WITH_ZSTD=ON ..
+     -DARROW_WITH_ZSTD=ON \
+     ..
 
 In order for IWYU to run on the desired component in the codebase, it must be
 enabled by the CMake configuration flags. Once this is done, you can run IWYU
diff --git a/docs/source/developers/cpp/windows.rst b/docs/source/developers/cpp/windows.rst
index 38907aeb7fe..4d58be87f60 100644
--- a/docs/source/developers/cpp/windows.rst
+++ b/docs/source/developers/cpp/windows.rst
@@ -178,12 +178,12 @@ For newer versions of Visual Studio, specify the generator
 ``Visual Studio 16 2019`` or see ``cmake --help`` for available
 generators.
 
-Building with Ninja and clcache
+Building with Ninja and sccache
 ===============================
 
 The `Ninja <https://ninja-build.org/>`_ build system offers better build
-parallelization, and the optional `clcache
-<https://github.com/frerich/clcache/>`_ compiler cache keeps track of
+parallelization, and the optional `sccache
+<https://github.com/mozilla/sccache#local>`_ compiler cache keeps track of
 past compilations to avoid running them over and over again (in a way similar
 to the Unix-specific ``ccache``).
 
@@ -193,18 +193,15 @@ includes Ninja, run the initialization command shown
 run ``ninja --version``.
 
 If Ninja is not included in your version of Visual Studio, and you are using
-conda, activate your conda environment and install Ninja and clcache:
+conda, activate your conda environment and install Ninja:
 
 .. code-block:: shell
 
    activate arrow-dev
    conda install -c conda-forge ninja
-   pip install git+https://github.com/frerich/clcache.git
 
 If you are not using conda,
 `install Ninja from another source <https://github.com/ninja-build/ninja/wiki/Pre-built-Ninja-packages>`_
-and optionally
-`install clcache from another source <https://github.com/frerich/clcache/wiki/Installation>`_
 .
 
 After installation is complete, change working directory in ``cmd.exe`` to the root directory of Arrow and
@@ -216,26 +213,20 @@ do an out of source build by generating Ninja files:
    mkdir build
    cd build
    cmake -G "Ninja" ^
-         -DCMAKE_C_COMPILER=clcache ^
-         -DCMAKE_CXX_COMPILER=clcache ^
          -DARROW_BUILD_TESTS=ON ^
          -DGTest_SOURCE=BUNDLED ..
    cmake --build . --config Release
 
-Setting ``CMAKE_C_COMPILER`` and ``CMAKE_CXX_COMPILER`` in the command line
-of ``cmake`` is the preferred method of using ``clcache``. Alternatively, you
-can set ``CC`` and ``CXX`` environment variables before calling ``cmake``:
+To use ``sccache`` in local storage mode you need to set ``SCCACHE_DIR``
+environment variable before calling ``cmake``:
 
 .. code-block:: shell
 
    ...
-   set CC=clcache
-   set CXX=clcache
+   set SCCACHE_DIR=%LOCALAPPDATA%\Mozilla\sccache
    cmake -G "Ninja" ^
    ...
 
-
-
 Building with NMake
 ===================
 
diff --git a/docs/source/developers/guide/architectural_overview.rst b/docs/source/developers/guide/architectural_overview.rst
index 53f08b172c8..d8b1da0af7b 100644
--- a/docs/source/developers/guide/architectural_overview.rst
+++ b/docs/source/developers/guide/architectural_overview.rst
@@ -39,5 +39,31 @@ For an Architectural Overview of Arrow's libraries please
 refer to:
 
 - :ref:`py_arch_overview`
-- R package Architectural Overview (in progress, see
-  `issue ARROW-14280 <https://issues.apache.org/jira/browse/ARROW-14280>`_)
+- R package Architecture can be found on this page.
+
+
+R package Architectural Overview
+--------------------------------
+
+.. figure:: /developers/images/R_architectural_overview.png
+   :alt: Main parts of R package architecture: dplyr-*,
+         dplyr-funcs*, tools, tests and src/.
+
+* The ``r/R/dplyr-*`` files define the verbs used in a regular
+  dplyr syntax on Arrow objects.
+* The ``r/R/dplyr-funcs*`` files define bindings to Arrow C++
+  functions that can be used with already defined dplyr verbs.
+* All the C++ code connected to the R package lives in ``arrow/r/src``.
+  It also includes C++ code which connects libarrow (the Arrow C++
+  library) and the R code in package.
+* If the libarrow source package is bundled with R package using
+  ``make sync-cpp`` command then it will be included in the
+  ``r/tools/cpp`` folder.
+
+**Additionally**
+
+* The ``r/man`` directory includes generated R documentation that
+  shouldn't be updated directly but in the corresponding ``.R`` file.
+* The vignettes are
+  `"a long-form guide to the package" <https://r-pkgs.org/vignettes.html#introduction>`_
+  and can be found in ``r/vignettes``.
diff --git a/docs/source/developers/guide/communication.rst b/docs/source/developers/guide/communication.rst
index 36775988333..a8659f83ac0 100644
--- a/docs/source/developers/guide/communication.rst
+++ b/docs/source/developers/guide/communication.rst
@@ -52,64 +52,46 @@ Where to get help 👋
 
 For any question you may have or problems you are facing you can write to 
 user or development :ref:`mailing_list` or you can create an issue on
-:ref:`github`.
-
-For searching through the issues, reporting bugs and creating feature
-requests or proposals you can use :ref:`jira` issue tracker.
-
-.. _jira:
-
-JIRA
-~~~~
-
-When to use JIRA?
-
-- If you want to **report a bug**.
-- If you want to **propose a new feature**.
-- If you want to **propose a bigger change in the documentation**.
-
-In these cases you can create a JIRA issue and connect with other
-contributors in the issue comments. It is good to mention the
-way you are planning to solve the issue and have one of the Arrow
-developers agree with your basic proposal for fixing it. Better
-to ask before you spend too much of your time on something that we
-might think is not a good idea.
-
-.. seealso::
-
-   - :ref:`create_jira`
-   - :ref:`jira-tips` and :ref:`bug-report-tips`
-
-- If you want to **solve an issue that is already in JIRA**, you should
-  connect with other contributors in the issue comments.
-
-JIRA is used to discuss the problem before a Pull Request is possibly made
-(how to start, where to search for the solution, etc..).
+:ref:`github`. Also use GitHub to search through the issues, report bugs
+and create feature requests or proposals.
 
 .. _github:
 
 GitHub
 ~~~~~~
 
-Further options of communicating are provided through GitHub where the project
+Different options of communicating are provided through GitHub where the project
 is hosted. What we use are GitHub Issues and Pull Requests.
 
-When to use GitHub?
+You can use GitHub issues to:
+
+- **ask questions**,
+- **report a bug**,
 
-- If you have **a problem with building** one of the Arrow libraries, you can
-  create an issue on GitHub and discuss the possible solution (or write to the
-  user mailing list).
+  .. seealso::
+
+    :ref:`How to make good bug reports and feature requests <bug-reports>`
+
+- **propose a new feature**,
+- **propose a bigger change in the documentation**,
+- report **a problem with building** one of the Arrow libraries and discuss
+  the possible solution (or write to the user mailing list).
 
   Making an issue about things you are not sure about may feel intimidating,
   but it is also useful for others and the project.
 
   .. note::
-     Make sure to add which operating system and Arrow version you are using in the
-     issue description plus the debug information/error.
+     Make sure to add which operating system and Arrow version you are using
+     in the issue description plus the debug information/error.
+
+If you have **a new contribution already written**, you can create a Pull
+Request after creating a GitHub issue and mentioning the way you plan to
+implement it. It is important to have one of the Arrow developers agree with
+your basic proposal for fixing it. Better to ask before you spend too much of
+your time on something that we might think is not a good idea.
 
-- If you have **a new contribution already written**, you can create a Pull Request after
-  creating a JIRA ticket and mentioning the way you plan to implement it.
-- GitHub is also used to discuss your work after the **Pull Request** is made.
+If you want to **solve an issue that is already in GitHub**, you should
+connect with other contributors in the issue comments.
 
 .. _mailing_list:
 
@@ -117,10 +99,10 @@ Mailing Lists
 ~~~~~~~~~~~~~
 
 You can subscribe to the **user** or **development** mailing list and browse for
-previous topics or ask questions. Whereas discussion on GitHub and JIRA
-only notifies people who have subscribed to that particular Pull Request or issue,
-the mailing list allows you to broadcast to all users or developers. Use these when
-you want to get feedback or answers from a wider audience.
+previous topics or ask questions. Whereas discussion on GitHub only notifies people
+who are mentioned or are collaborating on a Pull Request, the mailing list allows
+you to broadcast to all users or developers. Use these when you want to get feedback
+or answers from a wider audience.
 
 There is also a **biweekly developers sync call** that anyone is welcome to join.
 It is announced on the development mailing list together with the link to join.
diff --git a/docs/source/developers/guide/documentation.rst b/docs/source/developers/guide/documentation.rst
index a2bf64ccdf0..8e0c7c9b909 100644
--- a/docs/source/developers/guide/documentation.rst
+++ b/docs/source/developers/guide/documentation.rst
@@ -37,26 +37,15 @@ incomplete or inaccurate, share your hard-earned knowledge
 with the rest of the community.
 
 If you didn't come across something to improve in the
-documentation itself, you can search for an issue on JIRA.
+documentation itself, you can search for an issue in GitHub.
 
 .. note::
-   When searching for JIRA issue that deals with documentation,
-   try selecting **Components** from the **More** tab in JIRA search
-   and select **Documentation** from the list.
+   When searching for an issue that deals with documentation,
+   navigate to `GitHub labels <https://github.com/apache/arrow/labels>`_
+   and select **Component: Documentation** or search for **Documentation**
+   in the "Search all labels" window.
 
-   See `Example search. <https://issues.apache.org/jira/issues/?jql=project%20%3D%20ARROW%20AND%20status%20%3D%20Open%20AND%20resolution%20%3D%20Unresolved%20AND%20component%20%3D%20Documentation%20AND%20assignee%20in%20(EMPTY)%20ORDER%20BY%20priority%20DESC%2C%20updated%20DESC>`_
-
-   .. figure:: /developers/images/jira_search_component.jpeg
-      :scale: 40 %
-      :alt: selecting Components in JIRA search
-
-      First select Components tab in JIRA.
-
-   .. figure:: /developers/images/jira_search_documentation.jpeg
-      :scale: 40 %
-      :alt: selecting Documentation in JIRA search
-
-      Then choose Documentation from the Components list.
+   See `Example search. <https://github.com/apache/arrow/issues?q=is%3Aopen+is%3Aissue+label%3A%22Component%3A+Documentation%22+>`_
 
 Documentation improvements are also a great way to gain some
 experience with our submission and review process without
diff --git a/docs/source/developers/guide/index.rst b/docs/source/developers/guide/index.rst
index 509a1c03702..353c8332ff0 100644
--- a/docs/source/developers/guide/index.rst
+++ b/docs/source/developers/guide/index.rst
@@ -82,7 +82,7 @@ of adding a basic feature.
    Arrow libraries include a wide range of functionalities and may require
    the installation of third-party packages, depending on which build
    options and components you enable. The C++ build guide
-   has suggestions for for commonly encountered issues - you can find it
+   has suggestions for commonly encountered issues - you can find it
    :ref:`here <cpp-development>`. 
    Anytime you are stuck, feel free to reach out via
    appropriate :ref:`communication` channel.
@@ -128,7 +128,7 @@ of adding a basic feature.
 
    Communication is very important. You may need some help solving problems
    you encounter on the way (this happens to developers all the time). Also,
-   if you have a JIRA issue you want to solve, then it is advisable to let the team
+   if you have a GitHub issue you want to solve, then it is advisable to let the team
    know you are working on it and may need some help.
 
    See possible channels of :ref:`communication`.
@@ -147,11 +147,23 @@ of adding a basic feature.
 If you are ready you can start with building Arrow or choose to follow
 one of the :ref:`tutorial-index` on writing an R binding or Python feature.
 
-You can also take a look at the :ref:`documentation` or
-:ref:`other-resources` section.
+Different ways to contribute
+============================
 
-**We want to encourage everyone to contribute to Arrow!**
+There are lots of ways to contribute to the project besides writing code!
+
+* Improving the **documentation** is a great way to start contributing!
+  For more information visit :ref:`documentation` section of the guide.
+
+* **Apache Arrow Cookbooks** are a collection of recipes for solving various problems 
+  and completing different tasks using Apache Arrow. They are also a great way to start
+  contributing. For more information visit
+  `How to contribute to Apache Arrow Cookbook <https://github.com/apache/arrow-cookbook/blob/main/CONTRIBUTING.md>`_
+  located in the Apache Arrow Cookbook repository.
 
+You are also welcome to take a look at :ref:`other-resources` section.
+
+**We want to encourage everyone to contribute to Arrow!**
 
 Full Table of Contents
 ======================
diff --git a/docs/source/developers/guide/resources.rst b/docs/source/developers/guide/resources.rst
index 43462591fd2..b53d104860d 100644
--- a/docs/source/developers/guide/resources.rst
+++ b/docs/source/developers/guide/resources.rst
@@ -31,9 +31,10 @@ Additional information and resources
 On this page we have listed resources that may be relevant or useful for
 contributors who want to learn more about different parts of Apache Arrow.
 
-.. Annotation Glossary
-.. -------------------
-.. ARROW-15130
+Glossary
+--------
+List of common terms in Apache Arrow project with a short description can
+be found in :doc:`the glossary <../../format/Glossary>`.
 
 Additional information
 ----------------------
diff --git a/docs/source/developers/guide/step_by_step/arrow_codebase.rst b/docs/source/developers/guide/step_by_step/arrow_codebase.rst
index 0250434ffe2..0beece991b1 100644
--- a/docs/source/developers/guide/step_by_step/arrow_codebase.rst
+++ b/docs/source/developers/guide/step_by_step/arrow_codebase.rst
@@ -128,7 +128,7 @@ C++ we must create the binding manually to use it in that implementation.
       As mentioned before, the underlying code is written in C++.
       Python then connects to it via Cython. If you
       are not familiar with it you can ask for help and remember,
-      **look for similar Pull Requests and JIRA issues!**
+      **look for similar Pull Requests and GitHub issues!**
 
       **Adding tests**
 
diff --git a/docs/source/developers/guide/step_by_step/building.rst b/docs/source/developers/guide/step_by_step/building.rst
index 6fa67c22a9e..e39c690e34b 100644
--- a/docs/source/developers/guide/step_by_step/building.rst
+++ b/docs/source/developers/guide/step_by_step/building.rst
@@ -131,7 +131,7 @@ Building other Arrow libraries
       As mentioned at the beginning of this page, the Python part of the Arrow
       project is built on top of the C++ library. In order to make changes in
       the Python part of Arrow as well as the C++ part of Arrow, you need to
-      build them separately..
+      build them separately.
 
       We hope this introduction was enough to help you start with the building
       process.
diff --git a/docs/source/developers/guide/step_by_step/finding_issues.rst b/docs/source/developers/guide/step_by_step/finding_issues.rst
index 3363c69519b..89c5a81b73d 100644
--- a/docs/source/developers/guide/step_by_step/finding_issues.rst
+++ b/docs/source/developers/guide/step_by_step/finding_issues.rst
@@ -18,11 +18,11 @@
 
 .. SCOPE OF THIS SECTION
 .. This section should include additional information
-.. about JIRA, how to find issues or how to create one.
+.. about GitHub, how to find issues or how to create one.
 .. Should not duplicate with Report bugs and propose features
 .. section:
 
-..   https://arrow.apache.org/docs/developers/contributing.html#tips-for-using-jira
+..   https://arrow.apache.org/docs/developers/bug_reports.html#bug-reports
 
 
 .. _finding-issues:
@@ -38,72 +38,25 @@ you might already have a bug to fix in mind, or a new feature that
 you want to implement. Or you still need an issue to work on and
 you need some help with finding one.
 
-For both cases, JIRA is the issue tracker that we use.
+For both cases, GitHub is the issue tracker that we use.
 
-First we will explain how to use JIRA if you have a fix or a feature
-to work on that doesn't yet have a JIRA ticket open, in which case you
-will need to create a JIRA ticket yourself.
+- If you do not have a GitHub account yet, navigate to the
+  `GitHub login page <https://github.com/join>`_ to create one.
+- If you need help with creating a new GitHub issue see the
+  `GitHub documentation <https://docs.github.com/en/issues/tracking-your-work-with-issues/creating-an-issue>`_.
 
-Secondly, we will show you a way to find good first issues to work on.
+When the ticket is created you can start a discussion about it in the GitHub comments.
 
-
-Creating a JIRA account
-==========================
-
-First thing you need to do is to make an account on the ASF JIRA following
-`this link <https://issues.apache.org/jira/secure/Signup!default.jspa>`_.
-You will be asked to select a language and choose an avatar if you wish. If
-the registration is successful you will see:
-
-.. figure:: /developers/images/jira_new_account.jpeg
-   :scale: 70 %
-   :alt: creating an ASF JIRA account
-
-   The window you get after creating an account on the ASF JIRA.
-
-
-.. _create_jira:
-
-How to create a JIRA issue
-==========================
-
-After creating an account you can click **Create an issue** and select
-**Apache Arrow project** and **Type** of the issue (Bug, Feature, …).
-
-.. figure:: /developers/images/jira_create_issue.jpeg
-   :scale: 70 %
-   :alt: creating JIRA issue
-
-   The window to create a JIRA issue.
-
-If you are already in JIRA dashboard click the red ``create`` button in
-the top to do the same.
-
-You are ready to create the issue! Add a title and a description following
-the :ref:`tips for using JIRA <jira-tips>` and you are ready to go!
-
-.. seealso::
-	:ref:`Tips for using JIRA <jira-tips>`
-
-You don’t need any special permissions on JIRA to be able to create issues.
-Once you are more involved in the project and want to do more on JIRA, for
-example assigning yourself an issue, you will need **“Contributor” permissions**.
-To get this role, ask on the :ref:`mailing_list` or in the comment of the JIRA
-issue you created.
-
-When the ticket is created you can start a discussion about it in the
-JIRA comments section.
-
-How we use JIRA to find an issue
-================================
+GitHub labels
+=============
 
 To make it easier for you to find issues that are well-suited for new
-contributors, we have added labels like “good-first-issue” or “beginner”
-to some JIRA tickets.
+contributors, we have added a label **“good-first-issue”** to some
+GitHub issues.
 
 .. seealso::
-   Search for good first/second issues with labels like in the `link here
-   <https://issues.apache.org/jira/issues/?filter=-4&jql=project%20%3D%20ARROW%20AND%20status%20%3D%20Open%20AND%20labels%20in%20(Beginner%2C%20beginner%2C%20beginners%2C%20beginnner%2C%20beginner-friendly%2C%20good-first-issue%2C%20good-second-issue%2C%20GoodForNewContributors%2C%20newbie%2C%20easyfix%2C%20documentation)%20order%20by%20created%20DESC>`_
+   Search for good first issues `good-first-issue label listing
+   <https://github.com/apache/arrow/labels/good-first-issue>`_
 
 The issues labeled as good first issues should take no more than two days or
 a weekend to fix them. Once you dig into the code you may find that the issue
@@ -111,32 +64,24 @@ is not easy at all - this can happen as the problem could be harder than the
 person who triaged the ticket expected it to be. Don't hesitate to write that
 in the comments.
 
-.. figure:: /developers/images/jira_good_first_issue.jpeg
-   :scale: 45 %
-   :alt: finding good first JIRA issue
-
-   Example of the list of good first issues.
-
 .. note::
    
-   When you find a JIRA issue you would like to work on, please mention your
-   interest in the comment section of that issue; that way we will know you
-   are working on it.
+   When you find a GitHub issue you would like to work on, please mention
+   your interest in the comment section of that issue; that way we will know
+   you are working on it.
 
-Also, do not hesitate to ask questions in the comment section of the issue.
-You can get some pointers about where to start and similar issues already solved.
+Also, do not hesitate to ask questions in the comment. You can get some
+pointers about where to start and similar issues already solved.
 
 **What if an issue is already asigned?**
-Anything that’s not in the “In Progress” state is fair game, even if it is
-“Assigned” to someone, particularly if it has not been recently updated.
 When in doubt, comment on the issue asking if they mind if you try to put
 together a pull request; interpret no response to mean that you’re free to
 proceed.
 
 **Ask questions**
-Please do ask questions, either on the JIRA itself or on the dev mailing list,
-if you have doubts about where to begin or what approach to take.
-This is particularly a good idea if this is your first code contribution,
+Please do ask questions, either on the GitHub issue itself or on the dev
+mailing list, if you have doubts about where to begin or what approach to
+take. This is particularly a good idea if this is your first code contribution,
 so you can get some sense of what the core developers in this part of the
 project think a good solution looks like. For best results, ask specific,
 direct questions, such as:
diff --git a/docs/source/developers/guide/step_by_step/pr_lifecycle.rst b/docs/source/developers/guide/step_by_step/pr_lifecycle.rst
index fa1e1a47f35..6cdb642bc3f 100644
--- a/docs/source/developers/guide/step_by_step/pr_lifecycle.rst
+++ b/docs/source/developers/guide/step_by_step/pr_lifecycle.rst
@@ -38,7 +38,7 @@ the official Arrow repository which is saved in your set up as
 ``upstream``.
 
 You should have Git set up by now, have cloned the repository,
-have successfully built Arrow and have a JIRA issue to work on.
+have successfully built Arrow and have a GitHub issue to work on.
 
 **Before making changes to the code, you should create a new
 branch in Git.**
@@ -189,16 +189,15 @@ that supports quality and with it you can learn a lot.
 
 If it still takes too long to get merged, do not hesitate to remind
 maintainers in the comment section of the pull request and post
-reminders on the JIRA ticket also.
+reminders on the GitHub issue also.
 
 How to get your pull request to be reviewed?
 --------------------------------------------
 
 Arrow maintainers will be notified when a pull request is created and
 they will get to it as soon as possible. If days pass and it still had
-not been reviewed go ahead and mention the reporter of the JIRA issue
-or a developer that you communicated with via JIRA comments, mailing
-list or GitHub.
+not been reviewed go ahead and mention the reporter of the GitHub issue
+or a developer that you communicated with via mailing list or GitHub.
 
 To put a **mention** in GitHub insert @ in the comment and select the
 username from the list.
diff --git a/docs/source/developers/guide/tutorials/python_tutorial.rst b/docs/source/developers/guide/tutorials/python_tutorial.rst
index 8184975e819..ad5e6462891 100644
--- a/docs/source/developers/guide/tutorials/python_tutorial.rst
+++ b/docs/source/developers/guide/tutorials/python_tutorial.rst
@@ -73,8 +73,8 @@ the instructions for the building process in this tutorial.
    For the **instructions** on how to build PyArrow refer to the
    :ref:`build_pyarrow` section.
 
-Create a JIRA issue for the new feature
----------------------------------------
+Create a GitHub issue for the new feature
+-----------------------------------------
 
 We will add a new feature that imitates an existing function
 ``min_max`` from the ``arrow.compute`` module but makes the
@@ -84,49 +84,18 @@ made-up function for the purpose of this guide.
 See the example of the ``pc.min_max`` in
 `this link <https://arrow.apache.org/cookbook/py/data.html#computing-mean-min-max-values-of-an-array>`_.
 
-First we need to create a JIRA issue as it doesn't exist yet.
-With a JIRA account created we will navigate to the
-`Apache Arrow JIRA dashboard <https://issues.apache.org/jira/projects/ARROW>`_
-and click on the **Create** button.
-
-.. figure:: /developers/images/python_tutorial_jira_title.jpeg
-   :scale: 70 %
-   :alt: JIRA dashboard with a window for creating a new issue.
-
-   Creating a JIRA issue, adding title (summary) and components.
-
-.. figure:: /developers/images/python_tutorial_jira_description.jpeg
-   :scale: 70 %
-   :alt: JIRA dashboard with a window for creating a
-         description for the new issue.
-
-   Creating a JIRA issue, adding a description.
+First we need to create a GitHub issue as it doesn't exist yet.
+With a GitHub account created we will navigate to the
+`GitHub issue dashboard <https://github.com/apache/arrow/issues>`_
+and click on the **New issue** button.
 
 We should make sure to assign ourselves to the issue to let others
-know we are working on it. If that option is not working, we would
-need to ask for a project maintainer’s help on the
-:ref:`mailing_list`.
-
-Lets also add some comments to start a conversation.
-
-.. figure:: /developers/images/python_tutorial_jira_comment.jpeg
-   :scale: 50 %
-   :alt: JIRA issue page where comment is being added.
-
-   Adding a comment to the JIRA ticket we created.
-
-We have successfully created a new JIRA issue with index
-`ARROW-14977 <https://issues.apache.org/jira/browse/ARROW-14977>`_.
-
-.. figure:: /developers/images/python_tutorial_jira_issue.jpeg
-   :scale: 50 %
-   :alt: JIRA page of the issue just created.
-
-   Our JIRA issue. Yay!
+know we are working on it. You can do that with adding a comment
+``take`` to the issue created.
 
 .. seealso::
 
-   To get more information on JIRA issues go to
+   To get more information on GitHub issues go to
    :ref:`finding-issues` part of the guide.
 
 Start the work on a new branch
@@ -531,9 +500,13 @@ by clicking on **Compare & pull request**.
 
    Notice bar on the Apache Arrow repository.
 
-First we need to change the Title to *ARROW-14977: [Python] Add a "made-up"*
-*feature for the guide tutorial* in order to match it
-with the JIRA issue. Note a punctuation mark was added!
+First we need to change the Title to *ARROW-14977: [Python] Add a "made-up"
+feature for the guide tutorial* in order to match it
+with the issue. Note a punctuation mark was added!
+
+*Extra note: when this tutorial was created, we had been using the Jira issue
+tracker. As we are currently using GitHub issues, the title would be prefixed
+with GH-14977: [Python] Add a "made-up" feature for the guide tutorial*.
 
 We will also add a description to make it clear to others what we are
 trying to do.
@@ -548,7 +521,7 @@ Pull Request in the Apache Arrow repository.
 
    Here it is, our Pull Request!
 
-The Pull Request gets connected to the JIRA issue and the CI is
+The Pull Request gets connected to the issue and the CI is
 running. After some time passes and we get a review we can correct
 the code, comment, resolve conversations and so on. The Pull Request
 we made can be viewed `here <https://github.com/apache/arrow/pull/11900>`_.
diff --git a/docs/source/developers/guide/tutorials/r_tutorial.rst b/docs/source/developers/guide/tutorials/r_tutorial.rst
index 3b8acaab657..a4ae9df139f 100644
--- a/docs/source/developers/guide/tutorials/r_tutorial.rst
+++ b/docs/source/developers/guide/tutorials/r_tutorial.rst
@@ -98,19 +98,12 @@ the instructions for the building process in this tutorial.
    For the **instructions** on how to build the R package refer to the
    `R developer docs <https://arrow.apache.org/docs/r/articles/developing.html>`_.
 
-JIRA issue
-----------
+The issue
+---------
 
-In this tutorial we will be tackling a JIRA issue for implementing
+In this tutorial we will be tackling an issue for implementing
 a simple binding for ``mday()`` function that will match that of the
-existing R function from ``lubridate``. The issue can be found on
-`this link <https://issues.apache.org/jira/browse/ARROW-14816>`_.
-
-.. figure:: /developers/images/R_tutorial_jira_issue.jpeg
-   :scale: 40 %
-   :alt: JIRA page of the issue for the R binding.
-
-   JIRA page of the issue for the lubridate::mday() binding.
+existing R function from ``lubridate``.
 
 .. note::
 
@@ -435,7 +428,11 @@ by clicking on **Compare & pull request**.
 
 First we need to change the Title to **ARROW-14816: [R] Implement
 bindings for lubridate::mday()** in order to match it with the
-JIRA issue. Note a punctuation mark was added!
+issue. Note a punctuation mark was added!
+
+*Extra note: when this tutorial was created, we had been using the Jira issue
+tracker. As we are currently using GitHub issues, the title would be prefixed
+with GH-14816: [R] Implement bindings for lubridate::mday()*.
 
 We will also add a description to make it clear to others what we are trying to do.
 
@@ -456,7 +453,7 @@ a Pull Request in the Apache Arrow repository.
 
    Here it is, our Pull Request!
 
-The pull request gets connected to the JIRA issue and the CI is running.
+The pull request gets connected to the issue and the CI is running.
 After some time passes and we get a review we can correct the code,
 comment, resolve conversations and so on.
 
diff --git a/docs/source/developers/images/R_architectural_overview.png b/docs/source/developers/images/R_architectural_overview.png
new file mode 100644
index 00000000000..7f897a41e21
Binary files /dev/null and b/docs/source/developers/images/R_architectural_overview.png differ
diff --git a/docs/source/developers/images/R_tutorial_jira_issue.jpeg b/docs/source/developers/images/R_tutorial_jira_issue.jpeg
deleted file mode 100644
index acab37e81e5..00000000000
Binary files a/docs/source/developers/images/R_tutorial_jira_issue.jpeg and /dev/null differ
diff --git a/docs/source/developers/images/jira_create_issue.jpeg b/docs/source/developers/images/jira_create_issue.jpeg
deleted file mode 100644
index 5aa41a738ef..00000000000
Binary files a/docs/source/developers/images/jira_create_issue.jpeg and /dev/null differ
diff --git a/docs/source/developers/images/jira_good_first_issue.jpeg b/docs/source/developers/images/jira_good_first_issue.jpeg
deleted file mode 100644
index 3d4a96bf433..00000000000
Binary files a/docs/source/developers/images/jira_good_first_issue.jpeg and /dev/null differ
diff --git a/docs/source/developers/images/jira_new_account.jpeg b/docs/source/developers/images/jira_new_account.jpeg
deleted file mode 100644
index 5e44a2d1270..00000000000
Binary files a/docs/source/developers/images/jira_new_account.jpeg and /dev/null differ
diff --git a/docs/source/developers/images/jira_search_component.jpeg b/docs/source/developers/images/jira_search_component.jpeg
deleted file mode 100644
index d69a05b4db4..00000000000
Binary files a/docs/source/developers/images/jira_search_component.jpeg and /dev/null differ
diff --git a/docs/source/developers/images/jira_search_documentation.jpeg b/docs/source/developers/images/jira_search_documentation.jpeg
deleted file mode 100644
index e3fcbc4a4d5..00000000000
Binary files a/docs/source/developers/images/jira_search_documentation.jpeg and /dev/null differ
diff --git a/docs/source/developers/images/python_tutorial_jira_comment.jpeg b/docs/source/developers/images/python_tutorial_jira_comment.jpeg
deleted file mode 100644
index 5460a2b87d0..00000000000
Binary files a/docs/source/developers/images/python_tutorial_jira_comment.jpeg and /dev/null differ
diff --git a/docs/source/developers/images/python_tutorial_jira_description.jpeg b/docs/source/developers/images/python_tutorial_jira_description.jpeg
deleted file mode 100644
index 46a3a73b078..00000000000
Binary files a/docs/source/developers/images/python_tutorial_jira_description.jpeg and /dev/null differ
diff --git a/docs/source/developers/images/python_tutorial_jira_issue.jpeg b/docs/source/developers/images/python_tutorial_jira_issue.jpeg
deleted file mode 100644
index 918fcbdc1de..00000000000
Binary files a/docs/source/developers/images/python_tutorial_jira_issue.jpeg and /dev/null differ
diff --git a/docs/source/developers/images/python_tutorial_jira_title.jpeg b/docs/source/developers/images/python_tutorial_jira_title.jpeg
deleted file mode 100644
index 9da8950d3a6..00000000000
Binary files a/docs/source/developers/images/python_tutorial_jira_title.jpeg and /dev/null differ
diff --git a/docs/source/developers/java/building.rst b/docs/source/developers/java/building.rst
index add2b11b278..3578b639074 100644
--- a/docs/source/developers/java/building.rst
+++ b/docs/source/developers/java/building.rst
@@ -47,11 +47,20 @@ repository:
     $ cd arrow
     $ git submodule update --init --recursive
 
-Basic Installation
-------------------
+These are the options available to compile Arrow Java modules with:
+
+* Maven build tool.
+* Docker Compose.
+* Archery.
+
+Building Java Modules
+---------------------
 
 To build the default modules, go to the project root and execute:
 
+Maven
+~~~~~
+
 .. code-block::
 
     $ cd arrow/java
@@ -59,111 +68,264 @@ To build the default modules, go to the project root and execute:
     $ java --version
     $ mvn clean install
 
-Building JNI Libraries on Linux
--------------------------------
+Docker compose
+~~~~~~~~~~~~~~
+
+.. code-block::
+
+    $ cd arrow/java
+    $ export JAVA_HOME=<absolute path to your java home>
+    $ java --version
+    $ docker-compose run debian-java
+
+Archery
+~~~~~~~
+
+.. code-block::
+
+    $ cd arrow/java
+    $ export JAVA_HOME=<absolute path to your java home>
+    $ java --version
+    $ archery docker run debian-java
+
+Building JNI Libraries (\*.dylib / \*.so / \*.dll)
+--------------------------------------------------
 
 First, we need to build the `C++ shared libraries`_ that the JNI bindings will use.
 We can build these manually or we can use `Archery`_ to build them using a Docker container
 (This will require installing Docker, Docker Compose, and Archery).
 
+.. note::
+   If you are building on Apple Silicon, be sure to use a JDK version that was compiled
+   for that architecture. See, for example, the `Azul JDK <https://www.azul.com/downloads/?os=macos&architecture=arm-64-bit&package=jdk>`_.
+
+   If you are building on Windows OS, see :ref:`Developing on Windows <developers-cpp-windows>`.
+
+Maven
+~~~~~
+
+- To build only the JNI C Data Interface library (MacOS / Linux):
+
+    .. code-block::
+
+        $ cd arrow/java
+        $ export JAVA_HOME=<absolute path to your java home>
+        $ java --version
+        $ mvn generate-resources -Pgenerate-libs-cdata-all-os -N
+        $ ls -latr ../java-dist/lib/<your system's architecture>
+        |__ libarrow_cdata_jni.dylib
+        |__ libarrow_cdata_jni.so
+
+- To build only the JNI C Data Interface library (Windows):
+
+    .. code-block::
+
+        $ cd arrow/java
+        $ mvn generate-resources -Pgenerate-libs-cdata-all-os -N
+        $ dir "../java-dist/bin/x86_64"
+        |__ arrow_cdata_jni.dll
+
+- To build all JNI libraries (MacOS / Linux) except the JNI C Data Interface library:
+
+    .. code-block::
+
+        $ cd arrow/java
+        $ export JAVA_HOME=<absolute path to your java home>
+        $ java --version
+        $ mvn generate-resources \
+            -Pgenerate-libs-jni-macos-linux \
+            -DARROW_GANDIVA=ON \
+            -DARROW_JAVA_JNI_ENABLE_GANDIVA=ON \
+            -N
+        $ ls -latr java-dist/lib/<your system's architecture>/*_{jni,java}.*
+        |__ libarrow_dataset_jni.dylib
+        |__ libarrow_orc_jni.dylib
+        |__ libgandiva_jni.dylib
+        |__ libplasma_java.dylib
+
+- To build all JNI libraries (Windows) except the JNI C Data Interface library:
+
+    .. code-block::
+
+        $ cd arrow/java
+        $ mvn generate-resources -Pgenerate-libs-jni-windows -N
+        $ dir "../java-dist/bin/x86_64"
+        |__ arrow_dataset_jni.dll
+
+CMake
+~~~~~
+
+- To build only the JNI C Data Interface library (MacOS / Linux):
+
+    .. code-block::
+
+        $ cd arrow
+        $ mkdir -p java-dist java-cdata
+        $ cmake \
+            -S java \
+            -B java-cdata \
+            -DARROW_JAVA_JNI_ENABLE_C=ON \
+            -DARROW_JAVA_JNI_ENABLE_DEFAULT=OFF \
+            -DBUILD_TESTING=OFF \
+            -DCMAKE_BUILD_TYPE=Release \
+            -DCMAKE_INSTALL_LIBDIR=lib/<your system's architecture> \
+            -DCMAKE_INSTALL_PREFIX=java-dist
+        $ cmake --build java-cdata --target install --config Release
+        $ ls -latr java-dist/lib
+        |__ libarrow_cdata_jni.dylib
+        |__ libarrow_cdata_jni.so
+
+- To build only the JNI C Data Interface library (Windows):
+
+    .. code-block::
+
+        $ cd arrow
+        $ mkdir java-dist, java-cdata
+        $ cmake ^
+            -S java ^
+            -B java-cdata ^
+            -DARROW_JAVA_JNI_ENABLE_C=ON ^
+            -DARROW_JAVA_JNI_ENABLE_DEFAULT=OFF ^
+            -DBUILD_TESTING=OFF ^
+            -DCMAKE_BUILD_TYPE=Release ^
+            -DCMAKE_INSTALL_LIBDIR=lib/x86_64 ^
+            -DCMAKE_INSTALL_PREFIX=java-dist
+        $ cmake --build java-cdata --target install --config Release
+        $ dir "java-dist/bin"
+        |__ arrow_cdata_jni.dll
+
+- To build all JNI libraries (MacOS / Linux) except the JNI C Data Interface library:
+
+    .. code-block::
+
+        $ cd arrow
+        $ brew bundle --file=cpp/Brewfile
+        Homebrew Bundle complete! 25 Brewfile dependencies now installed.
+        $ brew uninstall aws-sdk-cpp
+        (We can't use aws-sdk-cpp installed by Homebrew because it has
+        an issue: https://github.com/aws/aws-sdk-cpp/issues/1809 )
+        $ export JAVA_HOME=<absolute path to your java home>
+        $ mkdir -p java-dist cpp-jni
+        $ cmake \
+            -S cpp \
+            -B cpp-jni \
+            -DARROW_BUILD_SHARED=OFF \
+            -DARROW_CSV=ON \
+            -DARROW_DATASET=ON \
+            -DARROW_DEPENDENCY_SOURCE=BUNDLED \
+            -DARROW_DEPENDENCY_USE_SHARED=OFF \
+            -DARROW_FILESYSTEM=ON \
+            -DARROW_GANDIVA=ON \
+            -DARROW_GANDIVA_STATIC_LIBSTDCPP=ON \
+            -DARROW_ORC=ON \
+            -DARROW_PARQUET=ON \
+            -DARROW_PLASMA=ON \
+            -DARROW_S3=ON \
+            -DARROW_USE_CCACHE=ON \
+            -DCMAKE_BUILD_TYPE=Release \
+            -DCMAKE_INSTALL_LIBDIR=lib/<your system's architecture> \
+            -DCMAKE_INSTALL_PREFIX=java-dist \
+            -DCMAKE_UNITY_BUILD=ON
+        $ cmake --build cpp-jni --target install --config Release
+        $ cmake \
+            -S java \
+            -B java-jni \
+            -DARROW_JAVA_JNI_ENABLE_C=OFF \
+            -DARROW_JAVA_JNI_ENABLE_DEFAULT=ON \
+            -DBUILD_TESTING=OFF \
+            -DCMAKE_BUILD_TYPE=Release \
+            -DCMAKE_INSTALL_LIBDIR=lib/<your system's architecture> \
+            -DCMAKE_INSTALL_PREFIX=java-dist \
+            -DCMAKE_PREFIX_PATH=$PWD/java-dist
+        $ cmake --build java-jni --target install --config Release
+        $ ls -latr java-dist/lib/<your system's architecture>/*_{jni,java}.*
+        |__ libarrow_dataset_jni.dylib
+        |__ libarrow_orc_jni.dylib
+        |__ libgandiva_jni.dylib
+        |__ libplasma_java.dylib
+
+- To build all JNI libraries (Windows) except the JNI C Data Interface library
+  (Please note: Plasma and ORC are not available on Windows):
+
+    .. code-block::
+
+        $ cd arrow
+        $ mkdir java-dist, cpp-jni
+        $ cmake ^
+            -S cpp ^
+            -B cpp-jni ^
+            -DARROW_BUILD_SHARED=OFF ^
+            -DARROW_CSV=ON ^
+            -DARROW_DATASET=ON ^
+            -DARROW_DEPENDENCY_USE_SHARED=OFF ^
+            -DARROW_FILESYSTEM=ON ^
+            -DARROW_ORC=OFF ^
+            -DARROW_PARQUET=ON ^
+            -DARROW_S3=ON ^
+            -DARROW_USE_CCACHE=ON ^
+            -DARROW_WITH_BROTLI=ON ^
+            -DARROW_WITH_LZ4=ON ^
+            -DARROW_WITH_SNAPPY=ON ^
+            -DARROW_WITH_ZLIB=ON ^
+            -DARROW_WITH_ZSTD=ON ^
+            -DCMAKE_BUILD_TYPE=Release ^
+            -DCMAKE_INSTALL_LIBDIR=lib/x86_64 ^
+            -DCMAKE_INSTALL_PREFIX=java-dist ^
+            -DCMAKE_UNITY_BUILD=ON ^
+            -GNinja
+        $ cd cpp-jni
+        $ ninja install
+        $ cd ../
+        $ cmake ^
+            -S java ^
+            -B java-jni ^
+            -DARROW_JAVA_JNI_ENABLE_C=OFF ^
+            -DARROW_JAVA_JNI_ENABLE_DEFAULT=ON ^
+            -DARROW_JAVA_JNI_ENABLE_GANDIVA=OFF ^
+            -DARROW_JAVA_JNI_ENABLE_ORC=OFF ^
+            -DARROW_JAVA_JNI_ENABLE_PLASMA=OFF ^
+            -DBUILD_TESTING=OFF ^
+            -DCMAKE_BUILD_TYPE=Release ^
+            -DCMAKE_INSTALL_LIBDIR=lib/x86_64 ^
+            -DCMAKE_INSTALL_PREFIX=java-dist ^
+            -DCMAKE_PREFIX_PATH=$PWD/java-dist
+        $ cmake --build java-jni --target install --config Release
+        $ dir "java-dist/bin"
+        |__ arrow_dataset_jni.dll
+
+Archery
+~~~~~~~
+
 .. code-block::
 
     $ cd arrow
     $ archery docker run java-jni-manylinux-2014
-    $ ls -latr java-dist/
+    $ ls -latr java-dist/<your system's architecture>/
     |__ libarrow_cdata_jni.so
     |__ libarrow_dataset_jni.so
     |__ libarrow_orc_jni.so
     |__ libgandiva_jni.so
+    |__ libplasma_java.so
 
-Building JNI Libraries on MacOS
--------------------------------
-Note: If you are building on Apple Silicon, be sure to use a JDK version that was compiled for that architecture. See, for example, the `Azul JDK <https://www.azul.com/downloads/?os=macos&architecture=arm-64-bit&package=jdk>`_.
-
-To build only the C Data Interface library:
-
-.. code-block::
-
-    $ cd arrow
-    $ brew bundle --file=cpp/Brewfile
-    Homebrew Bundle complete! 25 Brewfile dependencies now installed.
-    $ export JAVA_HOME=<absolute path to your java home>
-    $ mkdir -p java-dist java-native-c
-    $ cd java-native-c
-    $ cmake \
-        -DCMAKE_BUILD_TYPE=Release \
-        -DCMAKE_INSTALL_PREFIX=../java-dist/lib \
-        ../java
-    $ cmake --build . --target install
-    $ ls -latr ../java-dist/lib
-    |__ libarrow_cdata_jni.dylib
-
-To build other JNI libraries:
-
-.. code-block::
+Building Java JNI Modules
+-------------------------
 
-    $ cd arrow
-    $ brew bundle --file=cpp/Brewfile
-    Homebrew Bundle complete! 25 Brewfile dependencies now installed.
-    $ export JAVA_HOME=<absolute path to your java home>
-    $ mkdir -p java-dist java-native-cpp
-    $ cd java-native-cpp
-    $ cmake \
-        -DARROW_BOOST_USE_SHARED=OFF \
-        -DARROW_BROTLI_USE_SHARED=OFF \
-        -DARROW_BZ2_USE_SHARED=OFF \
-        -DARROW_GFLAGS_USE_SHARED=OFF \
-        -DARROW_GRPC_USE_SHARED=OFF \
-        -DARROW_LZ4_USE_SHARED=OFF \
-        -DARROW_OPENSSL_USE_SHARED=OFF \
-        -DARROW_PROTOBUF_USE_SHARED=OFF \
-        -DARROW_SNAPPY_USE_SHARED=OFF \
-        -DARROW_THRIFT_USE_SHARED=OFF \
-        -DARROW_UTF8PROC_USE_SHARED=OFF \
-        -DARROW_ZSTD_USE_SHARED=OFF \
-        -DARROW_JNI=ON \
-        -DARROW_PARQUET=ON \
-        -DARROW_FILESYSTEM=ON \
-        -DARROW_DATASET=ON \
-        -DARROW_GANDIVA_JAVA=ON \
-        -DARROW_GANDIVA_STATIC_LIBSTDCPP=ON \
-        -DARROW_GANDIVA=ON \
-        -DARROW_ORC=ON \
-        -DARROW_PLASMA_JAVA_CLIENT=ON \
-        -DARROW_PLASMA=ON \
-        -DCMAKE_BUILD_TYPE=Release \
-        -DCMAKE_INSTALL_LIBDIR=lib \
-        -DCMAKE_INSTALL_PREFIX=../java-dist \
-        -DCMAKE_UNITY_BUILD=ON \
-        -Dre2_SOURCE=BUNDLED \
-        -DBoost_SOURCE=BUNDLED \
-        -Dutf8proc_SOURCE=BUNDLED \
-        -DSnappy_SOURCE=BUNDLED \
-        -DORC_SOURCE=BUNDLED \
-        -DZLIB_SOURCE=BUNDLED \
-        ../cpp
-    $ cmake --build . --target install
-    $ ls -latr  ../java-dist/lib
-    |__ libarrow_dataset_jni.dylib
-    |__ libarrow_orc_jni.dylib
-    |__ libgandiva_jni.dylib
-
-Building Arrow JNI Modules
---------------------------
-
-To compile the JNI bindings, use the ``arrow-c-data`` Maven profile:
+- To compile the JNI bindings, use the ``arrow-c-data`` Maven profile:
 
-.. code-block::
+    .. code-block::
 
-    $ cd arrow/java
-    $ mvn -Darrow.c.jni.dist.dir=<absolute path to your arrow folder>/java-dist/lib -Parrow-c-data clean install
+        $ cd arrow/java
+        $ mvn -Darrow.c.jni.dist.dir=<absolute path to your arrow folder>/java-dist/lib -Parrow-c-data clean install
 
-To compile the JNI bindings for ORC / Gandiva / Dataset, use the ``arrow-jni`` Maven profile:
+- To compile the JNI bindings for ORC / Gandiva / Dataset, use the ``arrow-jni`` Maven profile:
 
-.. code-block::
+    .. code-block::
 
-    $ cd arrow/java
-    $ mvn -Darrow.cpp.build.dir=<absolute path to your arrow folder>/java-dist/lib -Parrow-jni clean install
+        $ cd arrow/java
+        $ mvn \
+            -Darrow.cpp.build.dir=<absolute path to your arrow folder>/java-dist/lib/ \
+            -Darrow.c.jni.dist.dir=<absolute path to your arrow folder>/java-dist/lib/ \
+            -Parrow-jni clean install
 
 IDE Configuration
 =================
diff --git a/docs/source/developers/java/development.rst b/docs/source/developers/java/development.rst
index df910b8ea57..a699e055854 100644
--- a/docs/source/developers/java/development.rst
+++ b/docs/source/developers/java/development.rst
@@ -81,6 +81,15 @@ UI Benchmark:
 
 .. image:: img/conbench_benchmark.png
 
+Integration Testing
+===================
+
+Integration tests can be run via Archery:
+
+.. code-block::
+
+    $ archery integration --with-java true --with-cpp false --with-js false --with-csharp false --with-go false --with-rust false
+
 Code Style
 ==========
 
diff --git a/docs/source/developers/overview.rst b/docs/source/developers/overview.rst
index 3c580afba7a..91fcee0e2d0 100644
--- a/docs/source/developers/overview.rst
+++ b/docs/source/developers/overview.rst
@@ -33,8 +33,8 @@ checklist for using ``git``:
   "upstream".
 * Keep your fork's **master branch synced** with ``upstream/master``.
 * **Develop on branches**, rather than your own "master" branch.
-* It does not matter what you call your branch. Some people like to use the JIRA
-  number as branch name, others use descriptive names.
+* It does not matter what you call your branch. Some people like to use the GitHub
+  issue number as branch name, others use descriptive names.
 * **Sync your branch** with ``upstream/master`` **regularly**, as many commits are
   merged to master every day.
 * It is recommended to use ``git rebase`` rather than ``git merge``.
@@ -64,12 +64,18 @@ checklist for using ``git``:
     straightforward.
 
     Once you have an updated local copy, you can push to your remote repo.  Note, since your
-    remote repo still holds the old history, you would need to do a force push.
+    remote repo still holds the old history, you would need to do a force push.  Most pushes
+    should use ``--force-with-lease``:
 
     .. code:: console
 
-       $ git push --force origin branch
+       $ git push --force-with-lease origin branch
 
+    The option ``--force-with-lease`` will fail if the remote has commits that are not available
+    locally, for example if additional commits have been made by a colleague.  By using
+    ``--force-with-lease`` instead of ``--force``, you ensure those commits are not overwritten
+    and can fetch those changes if desired.
+    
   .. dropdown:: Setting rebase to be default
     :animate: fade-in-slide-down
     :class-container: sd-shadow-md
@@ -91,9 +97,12 @@ Pull request and review
 When contributing a patch, use this list as a checklist of Apache Arrow workflow:
 
 * Submit the patch as a **GitHub pull request** against the **master branch**.
-* So that your pull request syncs with the JIRA issue, **prefix your pull request
-  name with the JIRA issue id** (ex:
-  `ARROW-767: [C++] Filesystem abstraction <https://github.com/apache/arrow/pull/4225>`_).
+* So that your pull request syncs with the GitHub issue, **prefix your pull request
+  title with the GitHub issue id** (ex:
+  `GH-14866: [C++] Remove internal GroupBy implementation <https://github.com/apache/arrow/pull/14867>`_).
+  Similarly **prefix your pull request name with the JIRA issue id** (ex:
+  `ARROW-767: [C++] Filesystem abstraction <https://github.com/apache/arrow/pull/4225>`_)
+  in case the issue is still located in Jira.
 * Give the pull request a **clear, brief description**: when the pull request is
   merged, this will be retained in the extended commit message.
 * Make sure that your code **passes the unit tests**. You can find instructions how
@@ -131,7 +140,7 @@ will merge the pull request. This is done with a
 
   A pull request is merged with a squash merge so that all of your commits will be
   registered as a single commit to the master branch; this simplifies the
-  connection between JIRA issues and commits, makes it easier to bisect
+  connection between GitHub issues and commits, makes it easier to bisect
   history to identify where changes were introduced, and helps us be able to
   cherry-pick individual patches onto a maintenance branch.
 
diff --git a/docs/source/developers/python.rst b/docs/source/developers/python.rst
index 98ed93968a9..b32b77fa6c9 100644
--- a/docs/source/developers/python.rst
+++ b/docs/source/developers/python.rst
@@ -80,6 +80,14 @@ run
 
 and look for the "custom options" section.
 
+.. note::
+
+   There are a few low-level tests written directly in C++. These tests are
+   implemented in `pyarrow/src/python_test.cc <https://github.com/apache/arrow/blob/master/python/pyarrow/src/python_test.cc>`_,
+   but they are also wrapped in a ``pytest``-based
+   `test module <https://github.com/apache/arrow/blob/master/python/pyarrow/tests/test_cpp_internals.py>`_
+   run automatically as part of the PyArrow test suite.
+
 Test Groups
 -----------
 
@@ -101,7 +109,8 @@ The test groups currently include:
 * ``large_memory``: Test requiring a large amount of system RAM
 * ``orc``: Apache ORC tests
 * ``parquet``: Apache Parquet tests
-* ``plasma``: Plasma Object Store tests
+* ``plasma``: Plasma Object Store tests (deprecated since Arrow 10.0.0,
+  will be removed in 12.0.0 or so)
 * ``s3``: Tests for Amazon S3
 * ``tensorflow``: Tests that involve TensorFlow
 
@@ -138,8 +147,8 @@ For running the benchmarks, see :ref:`python-benchmarks`.
 
 .. _build_pyarrow:
 
-Building on Linux and MacOS
-=============================
+Building on Linux and macOS
+===========================
 
 System Requirements
 -------------------
@@ -189,7 +198,7 @@ dependencies for Arrow C++ and PyArrow as pre-built binaries, which can make
 Arrow development easier and faster.
 
 Let's create a conda environment with all the C++ build and Python dependencies
-from conda-forge, targeting development for Python 3.9:
+from conda-forge, targeting development for Python 3.10:
 
 On Linux and macOS:
 
@@ -201,7 +210,7 @@ On Linux and macOS:
           --file arrow/ci/conda_env_python.txt \
           --file arrow/ci/conda_env_gandiva.txt \
           compilers \
-          python=3.9 \
+          python=3.10 \
           pandas
 
 As of January 2019, the ``compilers`` package is needed on many Linux
@@ -278,6 +287,7 @@ about our build toolchain:
 
    $ export ARROW_HOME=$(pwd)/dist
    $ export LD_LIBRARY_PATH=$(pwd)/dist/lib:$LD_LIBRARY_PATH
+   $ export CMAKE_PREFIX_PATH=$ARROW_HOME:$CMAKE_PREFIX_PATH
 
 Build and test
 --------------
@@ -289,21 +299,24 @@ created above (stored in ``$ARROW_HOME``):
 
    $ mkdir arrow/cpp/build
    $ pushd arrow/cpp/build
-
    $ cmake -DCMAKE_INSTALL_PREFIX=$ARROW_HOME \
            -DCMAKE_INSTALL_LIBDIR=lib \
            -DCMAKE_BUILD_TYPE=Debug \
+           -DARROW_BUILD_TESTS=ON \
+           -DARROW_COMPUTE=ON \
+           -DARROW_CSV=ON \
            -DARROW_DATASET=ON \
+           -DARROW_FILESYSTEM=ON \
+           -DARROW_HDFS=ON \
+           -DARROW_JSON=ON \
+           -DARROW_PARQUET=ON \
+           -DARROW_WITH_BROTLI=ON \
            -DARROW_WITH_BZ2=ON \
-           -DARROW_WITH_ZLIB=ON \
-           -DARROW_WITH_ZSTD=ON \
            -DARROW_WITH_LZ4=ON \
            -DARROW_WITH_SNAPPY=ON \
-           -DARROW_WITH_BROTLI=ON \
-           -DARROW_PARQUET=ON \
+           -DARROW_WITH_ZLIB=ON \
+           -DARROW_WITH_ZSTD=ON \
            -DPARQUET_REQUIRE_ENCRYPTION=ON \
-           -DARROW_PYTHON=ON \
-           -DARROW_BUILD_TESTS=ON \
            ..
    $ make -j4
    $ make install
@@ -319,7 +332,8 @@ adding flags with ``ON``:
 * ``ARROW_ORC``: Support for Apache ORC file format
 * ``ARROW_PARQUET``: Support for Apache Parquet file format
 * ``PARQUET_REQUIRE_ENCRYPTION``: Support for Parquet Modular Encryption
-* ``ARROW_PLASMA``: Shared memory object store
+* ``ARROW_PLASMA``: Shared memory object store (deprecated since Arrow 10.0.0,
+  will be removed in 12.0.0 or so)
 
 Anything set to ``ON`` above can also be turned off. Note that some compression
 libraries are recommended for full Parquet support.
@@ -475,23 +489,20 @@ First, starting from a fresh clone of Apache Arrow:
          --file arrow\ci\conda_env_cpp.txt ^
          --file arrow\ci\conda_env_python.txt ^
          --file arrow\ci\conda_env_gandiva.txt ^
-         python=3.9
+         python=3.10
    $ conda activate pyarrow-dev
 
 Now, we build and install Arrow C++ libraries.
 
-We set a number of environment variables:
-
-- the path of the installation directory of the Arrow C++ libraries as
-  ``ARROW_HOME``
-- add the path of installed DLL libraries to ``PATH``
-- and the CMake generator to be used as ``PYARROW_CMAKE_GENERATOR``
+We set the path of the installation directory of the Arrow C++ libraries as
+``ARROW_HOME``. When using a conda environment, Arrow C++ is installed
+in the environment directory, which path is saved in the
+`CONDA_PREFIX <https://docs.conda.io/projects/conda-build/en/latest/user-guide/environment-variables.html#environment-variables-that-affect-the-build-process>`_
+environment variable.
 
 .. code-block::
 
-   $ set ARROW_HOME=%cd%\arrow-dist
-   $ set PATH=%ARROW_HOME%\bin;%PATH%
-   $ set PYARROW_CMAKE_GENERATOR=Visual Studio 15 2017 Win64
+   $ set ARROW_HOME=%CONDA_PREFIX%\Library
 
 Let's configure, build and install the Arrow C++ libraries:
 
@@ -499,18 +510,23 @@ Let's configure, build and install the Arrow C++ libraries:
 
    $ mkdir arrow\cpp\build
    $ pushd arrow\cpp\build
-   $ cmake -G "%PYARROW_CMAKE_GENERATOR%" ^
+   $ cmake -G "Ninja" ^
          -DCMAKE_INSTALL_PREFIX=%ARROW_HOME% ^
          -DCMAKE_UNITY_BUILD=ON ^
+         -DARROW_COMPUTE=ON ^
+         -DARROW_CSV=ON ^
          -DARROW_CXXFLAGS="/WX /MP" ^
-         -DARROW_WITH_LZ4=on ^
-         -DARROW_WITH_SNAPPY=on ^
-         -DARROW_WITH_ZLIB=on ^
-         -DARROW_WITH_ZSTD=on ^
-         -DARROW_PARQUET=on ^
-         -DARROW_PYTHON=on ^
+         -DARROW_DATASET=ON ^
+         -DARROW_FILESYSTEM=ON ^
+         -DARROW_HDFS=ON ^
+         -DARROW_JSON=ON ^
+         -DARROW_PARQUET=ON ^
+         -DARROW_WITH_LZ4=ON ^
+         -DARROW_WITH_SNAPPY=ON ^
+         -DARROW_WITH_ZLIB=ON ^
+         -DARROW_WITH_ZSTD=ON ^
          ..
-   $ cmake --build . --target INSTALL --config Release
+   $ cmake --build . --target install --config Release
    $ popd
 
 Now, we can build pyarrow:
@@ -519,6 +535,7 @@ Now, we can build pyarrow:
 
    $ pushd arrow\python
    $ set PYARROW_WITH_PARQUET=1
+   $ set CONDA_DLL_SEARCH_MODIFICATION_ENABLE=1
    $ python setup.py build_ext --inplace
    $ popd
 
@@ -527,6 +544,11 @@ Now, we can build pyarrow:
    For building pyarrow, the above defined environment variables need to also
    be set. Remember this if to want to re-build ``pyarrow`` after your initial build.
 
+.. note::
+
+   If you are using Conda with Python 3.9 or earlier, you must
+   set ``CONDA_DLL_SEARCH_MODIFICATION_ENABLE=1``.
+
 Then run the unit tests with:
 
 .. code-block::
@@ -541,69 +563,68 @@ Then run the unit tests with:
    the Python extension. This is recommended for development as it allows the
    C++ libraries to be re-built separately.
 
-   As a consequence however, ``python setup.py install`` will also not install
-   the Arrow C++ libraries. Therefore, to use ``pyarrow`` in python, ``PATH``
-   must contain the directory with the Arrow .dll-files.
+   If you are using the conda package manager then conda will ensure the Arrow C++
+   libraries are found. In case you are *not* using conda then you have to:
+
+   * add the path of installed DLL libraries to ``PATH`` every time before
+     importing ``pyarrow``, or
+   * bundle the Arrow C++ libraries with ``pyarrow``.
 
-   If you want to bundle the Arrow C++ libraries with ``pyarrow``, add
-   the ``--bundle-arrow-cpp`` option when building:
+   If you want to bundle the Arrow C++ libraries with ``pyarrow``, set the
+   ``PYARROW_BUNDLE_ARROW_CPP`` environment variable before building ``pyarrow``:
 
    .. code-block::
 
-      $ python setup.py build_ext --bundle-arrow-cpp
+      $ set PYARROW_BUNDLE_ARROW_CPP=1
+      $ python setup.py build_ext --inplace
 
-   Important: If you combine ``--bundle-arrow-cpp`` with ``--inplace`` the
-   Arrow C++ libraries get copied to the source tree and are not cleared
-   by ``python setup.py clean``. They remain in place and will take precedence
-   over any later Arrow C++ libraries contained in ``PATH``. This can lead to
-   incompatibilities when ``pyarrow`` is later built without
-   ``--bundle-arrow-cpp``.
+   Note that bundled Arrow C++ libraries will not be automatically
+   updated when rebuilding Arrow C++.
 
-Running C++ unit tests for Python integration
----------------------------------------------
+Caveats
+-------
 
-Running C++ unit tests should not be necessary for most developers. If you do
-want to run them, you need to pass ``-DARROW_BUILD_TESTS=ON`` during
-configuration of the Arrow C++ library build:
+The Plasma component is not supported on Windows.
+
+Deleting stale build artifacts
+==============================
+
+When there have been changes to the structure of the Arrow C++ library or PyArrow,
+a thorough cleaning is recommended as a first attempt to fixing build errors.
+
+.. note::
+
+   It is not necessarily intuitive from the error itself that the problem is due to stale artifacts.
+   Example of a build error from stale artifacts is "Unknown CMake command "arrow_keep_backward_compatibility"".
+
+To delete stale Arrow C++ build artifacts:
 
 .. code-block::
 
-   $ mkdir arrow\cpp\build
-   $ pushd arrow\cpp\build
-   $ cmake -G "%PYARROW_CMAKE_GENERATOR%" ^
-         -DCMAKE_INSTALL_PREFIX=%ARROW_HOME% ^
-         -DARROW_CXXFLAGS="/WX /MP" ^
-         -DARROW_PARQUET=on ^
-         -DARROW_PYTHON=on ^
-         -DARROW_BUILD_TESTS=ON ^
-         ..
-   $ cmake --build . --target INSTALL --config Release
-   $ popd
+   $ rm -rf arrow/cpp/build
 
-Getting ``arrow-python-test.exe`` (C++ unit tests for python integration) to
-run is a bit tricky because your ``%PYTHONHOME%`` must be configured to point
-to the active conda environment:
+To delete stale PyArrow build artifacts:
 
 .. code-block::
 
-   $ set PYTHONHOME=%CONDA_PREFIX%
-   $ pushd arrow\cpp\build\release\Release
-   $ arrow-python-test.exe
-   $ popd
+   $ git clean -Xfd python
+
+If using a Conda environment, there are some build artifacts that get installed in
+``$ARROW_HOME`` (aka ``$CONDA_PREFIX``). For example, ``$ARROW_HOME/lib/cmake/Arrow*``,
+``$ARROW_HOME/include/arrow``, ``$ARROW_HOME/lib/libarrow*``, etc.
+
+These files can be manually deleted. If unsure which files to erase, one approach
+is to recreate the Conda environment.
 
-To run all tests of the Arrow C++ library, you can also run ``ctest``:
+Either delete the current one, and start fresh:
 
 .. code-block::
 
-   $ set PYTHONHOME=%CONDA_PREFIX%
-   $ pushd arrow\cpp\build
-   $ ctest
-   $ popd
+   $ conda deactivate
+   $ conda remove -n pyarrow-dev
 
-Caveats
--------
+Or, less destructively, create a different environment with a different name.
 
-The Plasma component is not supported on Windows.
 
 Installing Nightly Packages
 ===========================
diff --git a/docs/source/developers/release.rst b/docs/source/developers/release.rst
index a37d02e5b7d..c8b7e15a140 100644
--- a/docs/source/developers/release.rst
+++ b/docs/source/developers/release.rst
@@ -61,12 +61,11 @@ generated properly.
         mvn clean install -Papache-release
 
     - Have the build requirements for cpp and c_glib installed.
-    - Set the JIRA_USERNAME and JIRA_PASSWORD environment variables
-    - Set the ARROW_GITHUB_API_TOKEN environment variable to automatically create the verify release Pull Request.
+    - Set the ``JIRA_USERNAME`` and ``JIRA_PASSWORD`` environment variables
+    - Set the ``CROSSBOW_GITHUB_TOKEN`` environment variable to automatically create the verify release Pull Request.
     - Install ``en_US.UTF-8`` locale. You can confirm available locales by ``locale -a``.
     - Install Python 3 as python
     - Create dev/release/.env from dev/release/.env.example. See the comments in dev/release/.env.example how to set each variable.
-    - Request to the Apache INFRA group to be aadded to `Bintray members <https://bintray.com/apache/>`_.
     - Setup :ref:`Crossbow<Crossbow>` as defined.
     - Have Docker and docker-compose installed.
 
@@ -185,6 +184,9 @@ Build source and binaries and submit them
     #   https://repository.apache.org/#stagingRepositories
     dev/release/06-java-upload.sh <version> <rc-number>
 
+    # Start verifications for binaries and wheels
+    dev/release/07-binary-verify.sh <version> <rc-number>
+
 Verify the Release
 ------------------
 
@@ -217,123 +219,413 @@ Be sure to go through on the following checklist:
 #. Start the new version on JIRA on the ARROW project
 #. Start the new version on JIRA for the related CPP PARQUET version
 #. Merge changes on release branch to maintenance branch for patch releases
+#. Add the new release to the Apache Reporter System
 #. Upload source
 #. Upload binaries
 #. Update website
 #. Update Homebrew packages
 #. Update MSYS2 package
 #. Upload RubyGems
-#. Upload JS packages
+#. Upload JavaScript packages
 #. Upload C# packages
 #. Update conda recipes
 #. Upload wheels/sdist to pypi
 #. Publish Maven artifacts
 #. Update R packages
 #. Update vcpkg port
+#. Update Conan recipe
 #. Bump versions
 #. Update tags for Go modules
 #. Update docs
+#. Update version in Apache Arrow Cookbook
+#. Announce the new release
+#. Publish release blog posts
 #. Remove old artifacts
 
-.. dropdown:: Marking the released version as "RELEASED" on JIRA
+.. dropdown:: Mark the released version as "RELEASED" on JIRA
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   - Open https://issues.apache.org/jira/plugins/servlet/project-config/ARROW/administer-versions
+   - Click "..." for the release version in "Actions" column
+   - Select "Release"
+   - Set "Release date"
+   - Click "Release" button
+
+.. dropdown:: Start the new version on JIRA
    :animate: fade-in-slide-down
    :class-title: sd-fs-5
    :class-container: sd-shadow-md
 
-    Open https://issues.apache.org/jira/plugins/servlet/project-config/ARROW/administer-versions
+   - Open https://issues.apache.org/jira/plugins/servlet/project-config/ARROW/administer-versions
+   - Click "..." for the next version in "Actions" column
+   - Select "Edit"
+   - Set "Start date"
+   - Click "Save" button
 
-    Click "..." for the release version in "Actions" column
+.. dropdown:: Merge changes on release branch to maintenance branch for patch releases
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
 
-    Select "Release"
+   Merge ``release-X.Y.Z-rcN`` to ``maint-X.Y.Z``:
 
-    Set "Release date"
+   .. code-block:: Bash
 
-    Click "Release" button
+      # git checkout maint-10.0.0
+      git checkout maint-X.Y.Z
+      # git merge release-10.0.0-rc0
+      git merge release-X.Y.Z-rcN
+      # git push -u apache maint-10.0.0
+      git push -u apache maint-X.Y.Z
 
-.. dropdown:: Starting the new version on JIRA
+.. dropdown:: Add the new release to the Apache Reporter System
    :animate: fade-in-slide-down
    :class-title: sd-fs-5
    :class-container: sd-shadow-md
 
-    Open https://issues.apache.org/jira/plugins/servlet/project-config/ARROW/administer-versions
+   Add relevant release data for Arrow to `Apache reporter <https://reporter.apache.org/addrelease.html?arrow>`_.
 
-    Click "..." for the next version in "Actions" column
+.. dropdown:: Upload source release artifacts to Subversion
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
 
-    Select "Edit"
+   A PMC member must commit the source release artifacts to Subversion:
 
-    Set "Start date"
+   .. code-block:: Bash
 
-    Click "Save" button
+      # dev/release/post-01-upload.sh 0.1.0 0
+      dev/release/post-01-upload.sh <version> <rc>
 
-.. dropdown:: Updating the Arrow website
+.. dropdown:: Upload binary release artifacts to Artifactory
    :animate: fade-in-slide-down
    :class-title: sd-fs-5
    :class-container: sd-shadow-md
 
-    Fork the `arrow-site repository <https://github.com/apache/arrow-site>`_ and clone it next to the arrow repository.
+   A committer must upload the binary release artifacts to Artifactory:
 
-    Generate the release note:
+   .. code-block:: Bash
 
-    .. code-block::
-    
-        # dev/release/post-03-website 0.13.0 0.14.0
-        dev/release/post-03-website <previous-version> <version>
-    
-    Create a pull-request and a Jira with the links the script shows at the end.
+      # dev/release/post-02-binary.sh 0.1.0 0
+      dev/release/post-02-binary.sh <version> <rc number>
 
-.. dropdown:: Uploading source release artifacts to SVN
+.. dropdown:: Update website
    :animate: fade-in-slide-down
    :class-title: sd-fs-5
    :class-container: sd-shadow-md
 
-    A PMC member must commit the source release artifacts to SVN:
+   Add a release note for the new version to our website and update the latest release information:
 
-    .. code-block::
-    
-        # dev/release/post-01-upload.sh 0.1.0 0
-        dev/release/post-01-upload.sh <version> <rc>
+   .. code-block:: Bash
+
+      ## Prepare your fork of https://github.com/apache/arrow-site .
+      ## You need to do this only once.
+      # git clone git@github.com:kou/arrow-site.git ../
+      git clone git@github.com:<YOUR_GITHUB_ID>/arrow-site.git ../
+      cd ../arrow-site
+      ## Add git@github.com:apache/arrow-site.git as "apache" remote.
+      git remote add apache git@github.com:apache/arrow-site.git
+      cd -
+
+      ## Generate a release note for the new version, update the
+      ## latest release information automatically.
+      # dev/release/post-03-website.sh 9.0.0 10.0.0
+      dev/release/post-03-website.sh OLD_X.OLD_Y.OLD_Z X.Y.Z
+
+   This script pushes a ``release-note-X.Y.Z`` branch to your ``apache/arrow-site`` fork. You need to open a pull request from the ``release-note-X.Y.Z`` branch on your Web browser.
 
-.. dropdown:: Uploading binary release artifacts to Artifactory
+.. dropdown:: Update Homebrew packages
    :animate: fade-in-slide-down
    :class-title: sd-fs-5
    :class-container: sd-shadow-md
 
-    A PMC member must upload the binary release artifacts to Artifactory:
+   Open a pull request to Homebrew:
 
-    .. code-block::
-    
-        # dev/release/post-02-binary.sh 0.1.0 0
-        dev/release/post-02-binary.sh <version> <rc number>
+   .. code-block:: Bash
+
+      ## You need to run this on macOS or Linux that Homebrew is installed.
+
+      ## Fork https://github.com/Homebrew/homebrew-core on GitHub.
+      ## You need to do this only once.
+      ##
+      ## Prepare your fork of https://github.com/Homebrew/homebrew-core .
+      ## You need to do this only once.
+      cd "$(brew --repository homebrew/core)"
+      # git remote add kou git@github.com:kou/homebrew-core.git
+      git remote add <YOUR_GITHUB_ID> git@github.com:<YOUR_GITHUB_ID>/homebrew-core.git
+      cd -
 
-.. dropdown:: Announcing release
+      # dev/release/post-13-homebrew.sh 10.0.0 kou
+      dev/release/post-13-homebrew.sh X.Y.Z <YOUR_GITHUB_ID>
+
+   This script pushes a ``apache-arrow-X.Y.Z`` branch to your ``Homebrew/homebrew-core`` fork. You need to create a pull request from the ``apache-arrow-X.Y.Z`` branch with ``apache-arrow, apache-arrow-glib: X.Y.Z`` title on your Web browser.
+
+.. dropdown:: Update MSYS2 packages
    :animate: fade-in-slide-down
    :class-title: sd-fs-5
    :class-container: sd-shadow-md
 
-    Add relevant release data for Arrow to `Apache reporter <https://reporter.apache.org/addrelease.html?arrow>`_.
+   Open a pull request to MSYS2:
+
+   .. code-block:: Bash
+
+      ## Fork https://github.com/msys2/MINGW-packages on GitHub.
+      ## You need to do this only once.
+      ##
+      ## Prepare your fork of https://github.com/msys2/MINGW-packages .
+      ## You need to do this only once.
+      # git clone git@github.com:kou/MINGW-packages.git ../
+      git clone git@github.com:<YOUR_GITHUB_ID>/MINGW-packages.git ../
+      cd ../MINGW-packages
+      ## Add https://github.com/msys2/MINGW-packages.git as "upstream" remote.
+      git remote add upstream https://github.com/msys2/MINGW-packages.git
+      cd -
 
-    Write a release announcement (see `example <https://lists.apache.org/thread/6rkjwvyjjfodrxffllh66pcqnp729n3k>`_) and send to announce@apache.org and dev@arrow.apache.org.
+      # dev/release/post-12-msys2.sh 10.0.0 ../MINGW-packages
+      dev/release/post-12-msys2.sh X.Y.Z <YOUR_MINGW_PACAKGES_FORK>
 
-    The announcement to announce@apache.org must be sent from your apache.org e-mail address to be accepted.
+   This script pushes a ``arrow-X.Y.Z`` branch to your ``msys2/MINGW-packages`` fork. You need to create a pull request from the ``arrow-X.Y.Z`` branch with ``arrow: Update to X.Y.Z`` title on your Web browser.
 
-.. dropdown:: Generating new API documentations and update the website
+.. dropdown:: Update RubyGems
    :animate: fade-in-slide-down
    :class-title: sd-fs-5
    :class-container: sd-shadow-md
 
-    The API documentation for C++, C Glib, Python, Java, and JavaScript can be generated via a Docker-based setup.
-    To generate the API documentation run the following command:
+   You need an account on https://rubygems.org/ to release Ruby packages.
 
-    .. code-block::
-    
-        # preferred to have a cuda capable device with a recent docker version to generate the cuda docs as well
-        # if you don't have an nvidia GPU please ask for help on the mailing list
-        dev/release/post-08-docs.sh <version>
-        
-        # without a cuda device it's still possible to generate the apidocs with the following archery command
-        archery docker run -v "${ARROW_SITE_DIR}/docs:/build/docs" -e ARROW_DOCS_VERSION="${version}" ubuntu-docs  
-    
-    Note, that on a case insensitive filesystem sphinx generate duplicate filenames, so there can be missing links on the documentation page. Please use a system (preferably Linux) to execute the command above. 
+   If you have an account on https://rubygems.org/ , you need to join owners of the following gems:
+
+   - red-arrow gem
+   - red-arrow-cuda gem
+   - red-arrow-dataset gem
+   - red-arrow-flight gem
+   - red-arrow-flight-sql gem
+   - red-gandiva gem
+   - red-parquet gem
+   - red-plasma gem
+
+   Existing owners can add a new account to the owners of them by the following command lines:
+
+   .. code-block:: Bash
+
+      gem owner red-arrow -a NEW_ACCOUNT
+      gem owner red-arrow-cuda -a NEW_ACCOUNT
+      gem owner red-arrow-dataset -a NEW_ACCOUNT
+      gem owner red-arrow-flight -a NEW_ACCOUNT
+      gem owner red-arrow-flight-sql -a NEW_ACCOUNT
+      gem owner red-gandiva -a NEW_ACCOUNT
+      gem owner red-parquet -a NEW_ACCOUNT
+      gem owner red-plasma -a NEW_ACCOUNT
+
+   Update RubyGems after Homebrew packages and MSYS2 packages are updated:
+
+   .. code-block:: Bash
+
+      # dev/release/post-04-ruby.sh 10.0.0
+      dev/release/post-04-ruby.sh X.Y.Z
+
+.. dropdown:: Update JavaScript packages
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   In order to publish the binary build to npm, you will need to get access to the project by asking one of the current collaborators listed at https://www.npmjs.com/package/apache-arrow packages.
+
+   When you have access, you can publish releases to npm by running the ``npm-release.sh`` script inside the JavaScript source release:
+
+   .. code-block:: Bash
+
+      # Login to npmjs.com (You need to do this only for the first time)
+      npm login --registry=https://registry.yarnpkg.com/
+
+      # dev/release/post-05-js.sh 10.0.0
+      dev/release/post-05-js.sh X.Y.Z
+
+.. dropdown:: Update C# packages
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   You need an account on https://www.nuget.org/. You need to join owners of Apache.Arrow package. Existing owners can invite you to the owners at https://www.nuget.org/packages/Apache.Arrow/Manage .
+
+   You need to create an API key at https://www.nuget.org/account/apikeys to upload from command line.
+
+   Install the latest .NET Core SDK from https://dotnet.microsoft.com/download .
+
+   .. code-block:: Bash
+
+      # NUGET_API_KEY=YOUR_NUGET_API_KEY dev/release/post-06-csharp.sh 10.0.0
+      NUGET_API_KEY=<your NuGet API key> dev/release/post-06-csharp.sh X.Y.Z
+
+.. dropdown:: Upload wheels/sdist to PyPI
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   pip binary packages (called "wheels") and source package (called "sdist") are built using the crossbow tool that we used above during the release candidate creation process and then uploaded to PyPI (Python Package Index) under the pyarrow package.
+
+   We use the twine tool to upload wheels to PyPI:
+
+   .. code-block:: Bash
+
+      # dev/release/post-09-python.sh 10.0.0
+      dev/release/post-09-python.sh <version>
+
+.. dropdown:: Publish Maven packages
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   - Logon to the Apache repository: https://repository.apache.org/#stagingRepositories
+   - Select the Arrow staging repository you created for RC: ``orgapachearrow-XXXX``
+   - Click the ``release`` button
+
+.. dropdown:: Update R packages
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   To publish the R package on CRAN, there are a few steps we need to do first
+   in order to ensure that binaries for Windows and macOS are available to CRAN.
+   Jeroen Ooms <jeroenooms@gmail.com> maintains several projects that build C++
+   dependencies for R packages for macOS and Windows. We test copies of these
+   same build scripts in our CI, and at release time, we need to send any
+   changes we have and update the versions/hashes upstream.
+
+   When the release candidate is made, make draft pull requests to each
+   repository using the rc, updating the version and SHA, as well as any cmake
+   build changes from the corresponding files in apache/arrow. Jeroen may
+   merge these PRs before the release vote passes, build the binary artifacts,
+   and publish them in the right places so that we can do pre-submission checks
+   (see below). After the release candidate vote passes, update these PRs
+   to point to the official (non-rc) URL and mark them as ready for review.
+   Jeroen will merge, build the binary artifacts, and publish them in the
+   right places. See the
+   `packaging checklist <https://github.com/apache/arrow/blob/master/r/PACKAGING.md>`_.
+   for a precise list of pull requests that must be made prior to submission
+   to CRAN.
+
+   Once these binary prerequisites have been satisfied, we can submit to CRAN.
+   Given the vagaries of the process, it is best if the R developers on the
+   project verify the CRAN-worthiness of the package before submitting.
+   Our CI systems give us some coverage for the things that CRAN checks, but
+   there are a couple of final tests we should do to confirm that the release
+   binaries will work and that everything runs on the same infrastructure that
+   CRAN has, which is difficult/impossible to emulate fully on Travis or with
+   Docker. For a precise list of checks, see the
+   `packaging checklist <https://github.com/apache/arrow/blob/master/r/PACKAGING.md>`_.
+
+   Once all checks are clean, we submit to CRAN, which has a web form for
+   uploading packages. The release process requires email confirmation
+   from the R package maintainer, currently Neal Richardson.
+
+.. dropdown:: Update vcpkg port
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   Open a pull request to vcpkg:
+
+   .. code-block:: Bash
+
+      ## Fork https://github.com/microsoft/vcpkg on GitHub.
+      ## You need to do this only once.
+      ##
+      ## Prepare your fork of https://github.com/microsoft/vcpkg .
+      ## You need to do this only once.
+      # git clone git@github.com:kou/vcpkg.git ../
+      git clone git@github.com:<YOUR_GITHUB_ID>/vcpkg.git ../
+      cd ../vcpkg
+      ./bootstrap-vcpkg.sh
+      ## Add https://github.com/microsoft/vcpkg.git as "upstream" remote.
+      git remote add upstream https://github.com/microsoft/vcpkg.git
+      cd -
+
+      # dev/release/post-14-vcpkg.sh 10.0.0 ../vcpkg
+      dev/release/post-14-vcpkg.sh X.Y.Z <YOUR_VCPKG_FORK>
+
+   This script pushes a ``arrow-X.Y.Z`` branch to your ``microsoft/vcpkg`` fork. You need to create a pull request from the ``arrow-X.Y.Z`` branch with ``[arrow] Update to X.Y.Z`` title on your Web browser.
+
+.. dropdown:: Update Conan port
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   TODO
+
+.. dropdown:: Bump versions
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   .. code-block:: Bash
+
+      # dev/release/post-11-bump-versions.sh 10.0.0 11.0.0
+      dev/release/post-11-bump-versions.sh X.Y.Z NEXT_X.NEXT_Y.NEXT_Z
+
+.. dropdown:: Update tags for Go modules
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   .. code-block:: Bash
+
+      # dev/release/post-10-go.sh 10.0.0
+      dev/release/post-10-go.sh X.Y.Z
+
+.. dropdown:: Update docs
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   The documentations are generated in the release process. We just need to upload the generated documentations:
+
+   .. code-block:: Bash
+
+      ## Prepare your fork of https://github.com/apache/arrow-site .
+      ## You need to do this only once.
+      # git clone git@github.com:kou/arrow-site.git ../
+      git clone git@github.com:<YOUR_GITHUB_ID>/arrow-site.git ../
+      cd ../arrow-site
+      ## Add git@github.com:apache/arrow-site.git as "apache" remote.
+      git remote add apache git@github.com:apache/arrow-site.git
+      cd -
+
+      # dev/release/post-08-docs.sh 10.0.0 9.0.0
+      dev/release/post-08-docs.sh X.Y.Z PREVIOUS_X.PREVIOUS_Y.PREVIOUS_Z
+
+.. dropdown:: Update version in Apache Arrow Cookbook
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   TODO
+
+.. dropdown:: Announce the new release
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   Write a release announcement (see `example <https://lists.apache.org/thread/6rkjwvyjjfodrxffllh66pcqnp729n3k>`_) and send to announce@apache.org and dev@arrow.apache.org.
+
+   The announcement to announce@apache.org must be sent from your apache.org e-mail address to be accepted.
+
+.. dropdown:: Publish release blog post
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   TODO
+
+.. dropdown:: Remove old artifacts
+   :animate: fade-in-slide-down
+   :class-title: sd-fs-5
+   :class-container: sd-shadow-md
+
+   Remove RC artifacts on https://dist.apache.org/repos/dist/dev/arrow/ and old release artifacts on https://dist.apache.org/repos/dist/release/arrow to follow `the ASF policy <https://infra.apache.org/release-download-pages.html#current-and-older-releases>`_:
 
-    This script assumes that the arrow-site repository is cloned next to the arrow source repository. Please note that most of the software must be built in order to create the documentation, so this step may take some time to run, especially the first time around as the Docker container will also have to be built.
+   .. code-block:: Bash
 
+      dev/release/post-07-remove-old-artifacts.sh
diff --git a/docs/source/developers/reviewing.rst b/docs/source/developers/reviewing.rst
index 3b036931172..947bfcaaf26 100644
--- a/docs/source/developers/reviewing.rst
+++ b/docs/source/developers/reviewing.rst
@@ -57,7 +57,7 @@ Scope and completeness
   confused if they hit problems introduced by a merged PR.
 
 * What changes are in-scope for a PR and what changes might/could/should be
-  pushed out of scope and have a follow-up JIRA created should be determined
+  pushed out of scope and have a follow-up issue created should be determined
   in collaboration between the authors and the reviewers.
 
 * When a large piece of functionality is being contributed and it seems
diff --git a/docs/source/format/ADBC.rst b/docs/source/format/ADBC.rst
new file mode 100644
index 00000000000..b71c8fe19fb
--- /dev/null
+++ b/docs/source/format/ADBC.rst
@@ -0,0 +1,299 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+=================================
+ADBC: Arrow Database Connectivity
+=================================
+
+Rationale
+=========
+
+The Arrow ecosystem lacks standard database interfaces built around
+Arrow data, especially for efficiently fetching large datasets
+(i.e. with minimal or no serialization and copying).  Without a common
+API, the end result is a mix of custom protocols (e.g. BigQuery,
+Snowflake) and adapters (e.g. Turbodbc_) scattered across languages.
+Consumers must laboriously wrap individual systems (as `DBI is
+contemplating`_ and `Trino does with connectors`_).
+
+ADBC aims to provide a minimal database client API standard, based on
+Arrow, for C, Go, and Java (with bindings for other languages).
+Applications code to this API standard (in much the same way as they
+would with JDBC or ODBC), but fetch result sets in Arrow format
+(e.g. via the :doc:`C Data Interface <./CDataInterface>`).  They then
+link to an implementation of the standard: either directly to a
+vendor-supplied driver for a particular database, or to a driver
+manager that abstracts across multiple drivers.  Drivers implement the
+standard using a database-specific API, such as Flight SQL.
+
+Goals
+-----
+
+- Provide a cross-language, Arrow-based API to standardize how clients
+  submit queries to and fetch Arrow data from databases.
+- Support both SQL dialects and the emergent `Substrait`_ standard.
+- Support explicitly partitioned/distributed result sets to work
+  better with contemporary distributed systems.
+- Allow for a variety of implementations to maximize reach.
+
+Non-goals
+---------
+
+- Replacing JDBC/ODBC in all use cases, particularly `OLTP`_ use
+  cases.
+- Requiring or enshrining a particular database protocol for the Arrow
+  ecosystem.
+
+Example use cases
+-----------------
+
+A C or C++ application wishes to retrieve bulk data from a Postgres
+database for further analysis.  The application is compiled against
+the ADBC header, and executes queries via the ADBC APIs.  The
+application is linked against the ADBC libpq driver.  At runtime, the
+driver submits queries to the database via the Postgres client
+libraries, and retrieves row-oriented results, which it then converts
+to Arrow format before returning them to the application.
+
+If the application wishes to retrieve data from a database supporting
+Flight SQL instead, it would link against the ADBC Flight SQL driver.
+At runtime, the driver would submit queries via Flight SQL and get
+back Arrow data, which is then passed unchanged and uncopied to the
+application.  (The application may have to edit the SQL queries, as
+ADBC does not translate between SQL dialects.)
+
+If the application wishes to work with multiple databases, it would
+link against the ADBC driver manager, and specify the desired driver
+at runtime.  The driver manager would pass on API calls to the correct
+driver, which handles the request.
+
+ADBC API Standard 1.0.0
+=======================
+
+ADBC is a language-specific set of interface definitions that can be
+implemented directly by a vendor-specific "driver" or a vendor-neutral
+"driver manager".
+
+Version 1.0.0 of the standard corresponds to tag adbc-1.0.0 of the
+repository ``apache/arrow-adbc``, which is commit
+f044edf5256abfb4c091b0ad2acc73afea2c93c0_.  Note that is is separate
+from releases of the actual implementations.
+
+See the language-specific pages for details:
+
+.. toctree::
+   :maxdepth: 1
+
+   ADBC/C
+   ADBC/Go
+   ADBC/Java
+
+Updating this specification
+===========================
+
+ADBC is versioned separately from the core Arrow project.  The API
+standard and components (driver manager, drivers) are also versioned
+separately, but both follow semantic versioning.
+
+For example: components may make backwards-compatible releases as
+1.0.0, 1.0.1, 1.1.0, 1.2.0, etc.  They may release
+backwards-incompatible versions such as 2.0.0, but which still
+implement the API standard version 1.0.0.
+
+Similarly, this documentation describes the ADBC API standard version
+1.0.0.  If/when an ABI-compatible revision is made
+(e.g. new standard options are defined), the next version would be
+1.1.0.  If incompatible changes are made (e.g. new API functions), the
+next version would be 2.0.0.
+
+Related work
+============
+
+In the initial proposal, a survey of existing solutions and systems
+was included, which is reproduced below for context, though note the
+descriptions are only kept up-to-date on a best-effort basis.
+
+Comparison with Arrow Flight SQL
+--------------------------------
+
+Flight SQL is a **client-server protocol** oriented at database
+developers.  By implementing Flight SQL, a database can support
+clients that use ADBC, JDBC, and ODBC.
+
+ADBC is an **API specification** oriented at database clients.  By
+coding to ADBC, an application can get Arrow data from a variety of
+databases that use different client technologies underneath.
+
+Hence, the two projects complement each other.  While Flight SQL
+provides a client that can be used directly, we expect applications
+would prefer to use ADBC instead of tying themselves to a particular
+database.
+
+Comparison with JDBC/ODBC
+-------------------------
+
+JDBC is a row-based API, so bridging JDBC to Arrow is hard to do
+efficiently.
+
+ODBC provides support for bulk data with `block cursors`_, and
+Turbodbc_ demonstrates that a performant Arrow-based API can be built
+on top. However, it is still an awkward fit for Arrow:
+
+- Nulls (‘indicator’ values) are `represented as integers`_, requiring
+  conversion.
+- `Result buffers are caller-allocated`_. This can force unnecessarily
+  copying data. ADBC uses the C Data Interface instead, eliminating
+  copies when possible (e.g. if the driver uses Flight SQL).
+- Some data types are represented differently, and require
+  conversion. `SQL_C_BINARY`_ can sidestep this for drivers and
+  applications that cooperate, but then applications would have to
+  treat Arrow-based and non-Arrow-based data sources differently.
+
+  - `Strings must be null-terminated`_, which would require a copy
+    into an Arrow array, or require that the application handle null
+    terminated strings in an array.
+  - It is implementation-defined whether strings may have embedded
+    nulls, but Arrow specifies UTF-8 strings for which 0x00 is a valid
+    byte.
+  - Because buffers are caller-allocated, the driver and application
+    must cooperate to handle large strings; `the driver must truncate
+    the value`_, and the application can try to fetch the value again.
+  - ODBC uses length buffers rather than offsets, requiring another
+    conversion to/from Arrow string arrays.
+  - `Time intervals use different representations`_.
+
+Hence, we think just extending ODBC is insufficient to meet the goals
+of ADBC. ODBC will always be valuable for wider database support, and
+providing an Arrow-based API on top of ODBC is useful. ADBC would
+allow implementing/optimizing this conversion in a common library,
+provide a simpler interface for consumers, and would provide an API
+that Arrow-native or otherwise columnar systems can implement to
+bypass this wrapper.
+
+.. figure:: ./ADBCQuadrants.svg
+
+   ADBC, JDBC, and ODBC are database-agnostic.  They define the
+   API that the application uses, but not how that API is implemented,
+   instead deferring to drivers to fulfill requests using the protocol
+   of their choice.  JDBC and (generally) ODBC offer results in a
+   row-oriented format, while ADBC offers columnar Arrow data.
+
+   Protocols/libraries like libpq (Postgres) and TDS (SQL Server) are
+   database-specific and row-oriented.  Multiple databases may
+   implement the same protocol to try to reuse each other's work,
+   e.g. several databases implement the Postgres wire protocol to
+   benefit from its driver implementations.  But the protocol itself
+   was not designed with multiple databases in mind, nor are they
+   generally meant to be used directly by applications.
+
+   Some database-specific protocols are Arrow-native, like those of
+   BigQuery and ClickHouse.  Flight SQL additionally is meant to be
+   database-agnostic, but it defines both the client-facing API and
+   the underlying protocol, so it's hard for applications to use it as
+   the API for databases that don't already implement Flight SQL.
+
+Existing database client APIs
+-----------------------------
+
+:doc:`Arrow Flight SQL <./FlightSql>`
+  A standard building on top of Arrow Flight, defining how to use
+  Flight to talk to databases, retrieve metadata, execute queries, and
+  so on. Provides a single client in C++ and Java language that talks
+  to any database servers implementing the protocol. Models its API
+  surface (though not API design) after JDBC and ODBC.
+
+`DBI for R <https://www.r-dbi.org/>`_
+  An R package/ecosystem of packages for database access. Provides a
+  single interface with "backends" for specific databases.  While
+  row-oriented, `integration with Arrow is under consideration`_,
+  including a sketch of effectively the same idea as ADBC.
+
+`JDBC <https://jcp.org/en/jsr/detail?id=221>`_
+  A Java library for database access, providing row-based
+  APIs. Provides a single interface with drivers for specific
+  databases.
+
+`ODBC <https://github.com/microsoft/ODBC-Specification>`_
+  A language-agnostic standard from the ISO/IEC for database access,
+  associated with Microsoft. Feature-wise, it is similar to JDBC (and
+  indeed JDBC can wrap ODBC drivers), but it offers columnar data
+  support through fetching buffers of column values. (See above for
+  caveats.) Provides a single C interface with drivers for specific
+  databases.
+
+`PEP 249 <https://www.python.org/dev/peps/pep-0249/>`_ (DBAPI 2.0)
+  A Python standard for database access providing row-based APIs. Not
+  a singular package, but rather a set of interfaces that packages
+  implement.
+
+Existing libraries
+------------------
+
+These are libraries which either 1) implement columnar data access for
+a particular system; or 2) could be used to implement such access.
+
+:doc:`Arrow Flight <./Flight>`
+  An RPC framework optimized for transferring Arrow record batches,
+  with application-specific extension points but without any higher
+  level semantics.
+
+:doc:`Arrow JDBC <../java/jdbc>`
+  A Java submodule, part of Arrow/Java, that uses the JDBC API to
+  produce Arrow data. Internally, it can read data only row-at-a-time.
+
+`arrow-odbc <https://github.com/pacman82/arrow-odbc>`_
+  A Rust community project that uses the ODBC API to produce Arrow
+  data, using ODBC’s buffer-based API to perform bulk copies. (See
+  also: Turbodbc.)
+
+`Arrowdantic <https://github.com/jorgecarleitao/arrowdantic/>`_
+  Python bindings for an implementation of ODBC<>Arrow in Rust.
+
+`pgeon <https://github.com/0x0L/pgeon>`_
+  A client that manually parses the Postgres wire format and produces
+  Arrow data, bypassing JDBC/ODBC. While it attempts to optimize this
+  case, the Postgres wire protocol is still row-oriented.
+
+`Turbodbc <https://turbodbc.readthedocs.io/en/latest/>`_
+  A set of Python ODBC bindings, implementing PEP 249, that also
+  provides APIs to fetch data as Arrow batches, optimizing the
+  conversion internally.
+
+Papers
+------
+
+Raasveldt, Mark, and Hannes Mühleisen. `“Don't Hold My Data Hostage -
+A Case for Client Protocol Redesign”`_. In *Proceedings of the VLDB
+Endowment*, 1022–1033, 2017.
+
+.. External link definitions follow
+
+.. _f044edf5256abfb4c091b0ad2acc73afea2c93c0: https://github.com/apache/arrow-adbc/commit/f044edf5256abfb4c091b0ad2acc73afea2c93c0
+.. _arrow-adbc: https://github.com/apache/arrow-adbc
+.. _block cursors: https://docs.microsoft.com/en-us/sql/odbc/reference/develop-app/block-cursors?view=sql-server-ver15
+.. _DBI is contemplating: https://r-dbi.github.io/dbi3/articles/dbi3.html
+.. _“Don't Hold My Data Hostage - A Case for Client Protocol Redesign”: https://ir.cwi.nl/pub/26415
+.. _integration with Arrow is under consideration: https://r-dbi.github.io/dbi3/articles/dbi3.html#using-arrowparquet-as-an-exchange-format
+.. _OLTP: https://en.wikipedia.org/wiki/Online_transaction_processing
+.. _represented as integers: https://docs.microsoft.com/en-us/sql/odbc/reference/develop-app/using-length-and-indicator-values?view=sql-server-ver15
+.. _Result buffers are caller-allocated: https://docs.microsoft.com/en-us/sql/odbc/reference/develop-app/allocating-and-freeing-buffers?view=sql-server-ver15
+.. _SQL_C_BINARY: https://docs.microsoft.com/en-us/sql/odbc/reference/appendixes/transferring-data-in-its-binary-form?view=sql-server-ver15
+.. _Strings must be null-terminated: https://docs.microsoft.com/en-us/sql/odbc/reference/develop-app/character-data-and-c-strings?view=sql-server-ver15
+.. _Substrait: https://substrait.io
+.. _the driver must truncate the value: https://docs.microsoft.com/en-us/sql/odbc/reference/develop-app/data-length-buffer-length-and-truncation?view=sql-server-ver15
+.. _Time intervals use different representations: https://docs.microsoft.com/en-us/sql/odbc/reference/appendixes/c-interval-structure?view=sql-server-ver15
+.. _Trino does with connectors: https://trino.io/docs/current/connector.html
diff --git a/docs/source/format/ADBC/C.rst b/docs/source/format/ADBC/C.rst
new file mode 100644
index 00000000000..ee0490df368
--- /dev/null
+++ b/docs/source/format/ADBC/C.rst
@@ -0,0 +1,33 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+========================
+ADBC C API Specification
+========================
+
+In C, ADBC consists of a self-contained header.  The header is
+reproduced in full here, and is intended to be self-documenting.
+
+From apache/arrow-adbc commit f044edf5256abfb4c091b0ad2acc73afea2c93c0_:
+
+.. literalinclude:: ../../../../format/adbc.h
+   :language: c
+   :linenos:
+   :lineno-match:
+   :lines: 166-1123
+
+.. _f044edf5256abfb4c091b0ad2acc73afea2c93c0: https://github.com/apache/arrow-adbc/commit/f044edf5256abfb4c091b0ad2acc73afea2c93c0
diff --git a/docs/source/format/ADBC/Go.rst b/docs/source/format/ADBC/Go.rst
new file mode 100644
index 00000000000..b94c291c625
--- /dev/null
+++ b/docs/source/format/ADBC/Go.rst
@@ -0,0 +1,31 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+=========================
+ADBC Go API Specification
+=========================
+
+In Go, ADBC consists of a set of interface definitions in the package
+``github.com/apache/arrow-adbc/go/adbc``.
+
+Broadly, the interfaces are organized similarly to the C API
+specification, and bindings to the C API can be created easily.
+
+See apache/arrow-adbc commit f044edf5256abfb4c091b0ad2acc73afea2c93c0_
+for the definitions.
+
+.. _f044edf5256abfb4c091b0ad2acc73afea2c93c0: https://github.com/apache/arrow-adbc/commit/f044edf5256abfb4c091b0ad2acc73afea2c93c0
diff --git a/docs/source/format/ADBC/Java.rst b/docs/source/format/ADBC/Java.rst
new file mode 100644
index 00000000000..a799fe07451
--- /dev/null
+++ b/docs/source/format/ADBC/Java.rst
@@ -0,0 +1,33 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+===========================
+ADBC Java API Specification
+===========================
+
+In Java, ADBC consists of a set of interface definitions in the
+package ``org.apache.arrow.adbc:adbc-core``.
+
+Broadly, the interfaces are organized similarly to the C API
+specification, but with conveniences for Java (actual enum
+definitions, constants for common Arrow schemas, etc.) and makes use
+of the Arrow Java libraries directly instead of the C Data Interface.
+
+See apache/arrow-adbc commit f044edf5256abfb4c091b0ad2acc73afea2c93c0_
+for the definitions.
+
+.. _f044edf5256abfb4c091b0ad2acc73afea2c93c0: https://github.com/apache/arrow-adbc/commit/f044edf5256abfb4c091b0ad2acc73afea2c93c0
diff --git a/docs/source/format/ADBCQuadrants.svg b/docs/source/format/ADBCQuadrants.svg
new file mode 100644
index 00000000000..6d79cf79afe
--- /dev/null
+++ b/docs/source/format/ADBCQuadrants.svg
@@ -0,0 +1,64 @@
+<!DOCTYPE svg PUBLIC "-//W3C//DTD SVG 1.1//EN" "http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd">
+<svg
+    version="1.1"
+    xmlns="http://www.w3.org/2000/svg"
+    xmlns:xlink="http://www.w3.org/1999/xlink"
+    xml:space="preserve"
+    width="500"
+    height="500"
+    viewBox="0 0 500 500"
+    >
+  <defs>
+    <marker
+        id="arrowleft"
+        orient="auto"
+        markerWidth="4"
+        markerHeight="4"
+        refX="4"
+        refY="2"
+        >
+      <path d="M4,0 V4 L0,2 Z" fill="#000000" />
+    </marker>
+    <marker
+        id="arrowright"
+        orient="auto"
+        markerWidth="4"
+        markerHeight="4"
+        refX="0"
+        refY="2"
+        >
+      <path d="M0,0 V4 L4,2 Z" fill="#000000" />
+    </marker>
+  </defs>
+  <style type="text/css">
+    /** Same font family as Sphinx theme */
+    text {
+      font-family: -apple-system, BlinkMacSystemFont, Segoe UI, "Helvetica Neue", Arial, sans-serif, Apple Color Emoji, Segoe UI Emoji, Segoe UI Symbol;
+    }
+  </style>
+
+  <!-- X-axis -->
+  <line x1="12" y1="250" x2="488" y2="250" stroke="#000000" stroke-width="2" marker-start="url(#arrowleft)" marker-end="url(#arrowright)" />
+
+  <text x="5" y="245" fill="#000000" font-size="14" font-weight="bold">Database-specific</text>
+  <text x="495" y="245" text-anchor="end" fill="#000000" font-size="14" font-weight="bold">Database-agnostic</text>
+
+  <!-- Y-axis -->
+  <line x1="250" y1="12" x2="250" y2="488" stroke="#000000" stroke-width="2" marker-start="url(#arrowleft)" marker-end="url(#arrowright)" />
+
+  <text x="255" y="5" dominant-baseline="hanging" fill="#000000" font-size="14" font-weight="bold">Arrow-native</text>
+  <text x="255" y="495" fill="#000000" font-size="14" font-weight="bold">Row-oriented</text>
+
+
+  <!-- Labels -->
+  <text x="375" y="125" dominant-baseline="middle" text-anchor="middle" fill="#000000" font-size="18">ADBC</text>
+
+  <text x="375" y="333.33333" dominant-baseline="middle" text-anchor="middle" fill="#000000" font-size="18">JDBC</text>
+  <text x="375" y="416.66666" dominant-baseline="middle" text-anchor="middle" fill="#000000" font-size="18">ODBC</text>
+
+  <text x="125" y="83.33333" dominant-baseline="middle" text-anchor="middle" fill="#000000" font-size="18">Flight SQL</text>
+  <text x="125" y="166.66666" dominant-baseline="middle" text-anchor="middle" fill="#000000" font-size="18">BigQuery wire protocol</text>
+
+  <text x="125" y="323.33333" dominant-baseline="middle" text-anchor="middle" fill="#000000" font-size="18"><tspan text-anchor="middle">libpq/Postgres</tspan><tspan x="125" dy="20" text-anchor="middle">wire protocol</tspan></text>
+  <text x="125" y="406.66666" dominant-baseline="middle" text-anchor="middle" fill="#000000" font-size="18"><tspan text-anchor="middle">TDS/SQL Server</tspan><tspan x="125" dy="20" text-anchor="middle">wire protocol</tspan></text>
+</svg>
diff --git a/docs/source/format/CDataInterface.rst b/docs/source/format/CDataInterface.rst
index e11692685b4..17a5e37cd7e 100644
--- a/docs/source/format/CDataInterface.rst
+++ b/docs/source/format/CDataInterface.rst
@@ -91,6 +91,7 @@ Pros of the IPC format vs. the data interface:
   (such as integrity checks, compression...).
 * Does not require explicit C data access.
 
+
 Data type description -- format strings
 =======================================
 
@@ -463,8 +464,10 @@ It has the following fields:
    buffers be aligned at least according to the type of primitive data that
    they contain. Consumers MAY decide not to support unaligned memory.
 
-   The pointer to the null bitmap buffer, if the data type specifies one,
-   MAY be NULL only if :c:member:`ArrowArray.null_count` is 0.
+   The buffer pointers MAY be null only in two situations:
+
+   1. for the null bitmap buffer, if :c:member:`ArrowArray.null_count` is 0;
+   2. for any buffer, if the size in bytes of the corresponding buffer would be 0.
 
    Buffers of children arrays are not included.
 
@@ -528,6 +531,10 @@ parameterized extension types).
 The ``ArrowArray`` structure exported from an extension array simply points
 to the storage data of the extension array.
 
+
+Semantics
+=========
+
 Memory management
 -----------------
 
@@ -667,6 +674,15 @@ A record batch can be trivially considered as an equivalent struct array. In
 this case the metadata of the top-level ``ArrowSchema`` can be used for the
 schema-level metadata of the record batch.
 
+Mutability
+----------
+
+Both the producer and the consumer SHOULD consider the exported data
+(that is, the data reachable through the ``buffers`` member of ``ArrowArray``)
+to be immutable, as either party could otherwise see inconsistent data while
+the other is mutating it.
+
+
 Example use case
 ================
 
diff --git a/docs/source/format/CanonicalExtensions.rst b/docs/source/format/CanonicalExtensions.rst
new file mode 100644
index 00000000000..3ede97ef7dc
--- /dev/null
+++ b/docs/source/format/CanonicalExtensions.rst
@@ -0,0 +1,75 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+.. _format_canonical_extensions:
+
+*************************
+Canonical Extension Types
+*************************
+
+============
+Introduction
+============
+
+The Arrow Columnar Format allows defining
+:ref:`extension types <format_metadata_extension_types>` so as to extend
+standard Arrow data types with custom semantics.  Often these semantics
+will be specific to a system or application.  However, it is beneficial
+to share the definitions of well-known extension types so as to improve
+interoperability between different systems integrating Arrow columnar data.
+
+Standardization
+===============
+
+These rules must be followed for the standardization of canonical extension
+types:
+
+* Canonical extension types are described and maintained below in this document.
+
+* Each canonical extension type requires a distinct discussion and vote
+  on the `Arrow development mailing-list <https://arrow.apache.org/community/>`__.
+
+* The specification text to be added *must* follow these requirements:
+
+  1) It *must* define a well-defined extension name starting with "``arrow.``".
+
+  2) Its parameters, if any, *must* be described in the proposal.
+
+  3) Its serialization *must* be described in the proposal and should
+     not require unduly implementation work or unusual software dependencies
+     (for example, a trivial custom text format or JSON would be acceptable).
+
+  4) Its expected semantics *should* be described as well and any
+     potential ambiguities or pain points addressed or at least mentioned.
+
+* The extension type *should* have one implementation submitted;
+  preferably two if non-trivial (for example if parameterized).
+
+Making Modifications
+====================
+
+Like standard Arrow data types, canonical extension types should be considered
+stable once standardized.  Modifying a canonical extension type (for example
+to expand the set of parameters) should be an exceptional event, follow the
+same rules as laid out above, and provide backwards compatibility guarantees.
+
+
+=============
+Official List
+=============
+
+No canonical extension types have been standardized yet.
diff --git a/docs/source/format/Columnar.rst b/docs/source/format/Columnar.rst
index 109b81e2b9d..578b234301c 100644
--- a/docs/source/format/Columnar.rst
+++ b/docs/source/format/Columnar.rst
@@ -21,7 +21,7 @@
 Arrow Columnar Format
 *********************
 
-*Version: 1.0*
+*Version: 1.3*
 
 The "Arrow Columnar Format" includes a language-agnostic in-memory
 data structure specification, metadata serialization, and a protocol
@@ -120,6 +120,12 @@ the different physical layouts defined by Arrow:
 * **Sparse** and **Dense Union**: a nested layout representing a
   sequence of values, each of which can have type chosen from a
   collection of child array types.
+* **Dictionary-Encoded**: a layout consisting of a sequence of
+  integers (any bit-width) which represent indexes into a dictionary
+  which could be of any type.
+* **Run-End Encoded (REE)**: a nested layout consisting of two child arrays,
+  one representing values, and one representing the logical index where
+  the run of a corresponding value ends.
 * **Null**: a sequence of all null values, having null logical type
 
 The Arrow columnar memory layout only applies to *data* and not
@@ -319,6 +325,8 @@ Generally the first slot in the offsets array is 0, and the last slot
 is the length of the values array. When serializing this layout, we
 recommend normalizing the offsets to start at 0.
 
+.. _variable-size-list-layout:
+
 Variable-size List Layout
 -------------------------
 
@@ -765,6 +773,84 @@ application.
 We discuss dictionary encoding as it relates to serialization further
 below.
 
+.. _run-end-encoded-layout:
+
+Run-End Encoded Layout
+----------------------
+
+Run-end encoding (REE) is a variation of run-length encoding (RLE). These
+encodings are well-suited for representing data containing sequences of the
+same value, called runs. In run-end encoding, each run is represented as a
+value and an integer giving the index in the array where the run ends.
+
+Any array can be run-end encoded. A run-end encoded array has no buffers
+by itself, but has two child arrays. The first child array, called the run ends array,
+holds either 16, 32, or 64-bit signed integers. The actual values of each run
+are held in the second child array.
+For the purposes of determining field names and schemas, these child arrays
+are prescribed the standard names of **run_ends** and **values** respectively.
+
+The values in the first child array represent the accumulated length of all runs 
+from the first to the current one, i.e. the logical index where the
+current run ends. This allows relatively efficient random access from a logical
+index using binary search. The length of an individual run can be determined by
+subtracting two adjacent values. (Contrast this with run-length encoding, in
+which the lengths of the runs are represented directly, and in which random
+access is less efficient.) 
+
+.. note::
+   Because the ``run_ends`` child array cannot have nulls, it's reasonable
+   to consider why the ``run_ends`` are a child array instead of just a
+   buffer, like the offsets for a :ref:`variable-size-list-layout`. This
+   layout was considered, but it was decided to use the child arrays. 
+
+   Child arrays allow us to keep the "logical length" (the decoded length)
+   associated with the parent array and the "physical length" (the number
+   of run ends) associated with the child arrays.  If ``run_ends`` was a
+   buffer in the parent array then the size of the buffer would be unrelated
+   to the length of the array and this would be confusing.
+
+
+A run must have have a length of at least 1. This means the values in the
+run ends array all are positive and in strictly ascending order. A run end cannot be
+null.
+
+As an example, you could have the following data: ::
+
+    type: Float32
+    [1.0, 1.0, 1.0, 1.0, null, null, 2.0]
+
+In Run-end-encoded form, this could appear as:
+
+::
+
+    * Length: 7, Null count: 2
+    * Child Arrays:
+
+      * run_ends (Int32):
+        * Length: 3, Null count: 0 (Run Ends cannot be null)
+        * Validity bitmap buffer: Not required (if it exists, it should be all 1s)
+        * Values buffer
+
+          | Bytes 0-3   | Bytes 4-7   | Bytes 8-11  | Bytes 12-63           |
+          |-------------|-------------|-------------|-----------------------|
+          | 4           | 6           | 7           | unspecified (padding) |
+
+      * values (Float32):
+        * Length: 3, Null count: 1
+        * Validity bitmap buffer:
+
+          | Byte 0 (validity bitmap) | Bytes 1-63            |
+          |--------------------------|-----------------------|
+          | 00000101                 | 0 (padding)           |
+
+        * Values buffer
+
+          | Bytes 0-3   | Bytes 4-7   | Bytes 8-11  | Bytes 12-63           |
+          |-------------|-------------|-------------|-----------------------|
+          | 1.0         | unspecified | 2.0         | unspecified (padding) |
+
+
 Buffer Listing for Each Layout
 ------------------------------
 
@@ -784,6 +870,7 @@ of memory buffers for each layout.
    "Dense Union",type ids,offsets,
    "Null",,,
    "Dictionary-encoded",validity,data (indices),
+   "Run-end encoded",,,
 
 Logical Types
 =============
@@ -1167,6 +1254,11 @@ structure. These extension keys are:
 * ``'ARROW:extension:metadata'`` for a serialized representation
   of the ``ExtensionType`` necessary to reconstruct the custom type
 
+.. note::
+   Extension names beginning with ``arrow.`` are reserved for
+   :ref:`canonical extension types <format_canonical_extensions>`,
+   they should not be used for third-party extension types.
+
 This extension metadata can annotate any of the built-in Arrow logical
 types. The intent is that an implementation that does not support an
 extension type can still handle the underlying data. For example a
@@ -1190,6 +1282,10 @@ extension types:
   metadata indicating the market trading calendar the data corresponds
   to
 
+.. seealso::
+   :ref:`format_canonical_extensions`
+
+
 Implementation guidelines
 =========================
 
@@ -1197,8 +1293,8 @@ An execution engine (or framework, or UDF executor, or storage engine,
 etc) can implement only a subset of the Arrow spec and/or extend it
 given the following constraints:
 
-Implementing a subset the spec
-------------------------------
+Implementing a subset of the spec
+---------------------------------
 
 * **If only producing (and not consuming) arrow vectors**: Any subset
   of the vector spec and the corresponding metadata can be implemented.
diff --git a/docs/source/format/Flight.rst b/docs/source/format/Flight.rst
index 5f67379b413..c7cfcea2779 100644
--- a/docs/source/format/Flight.rst
+++ b/docs/source/format/Flight.rst
@@ -185,7 +185,7 @@ can customize for their needs.
   connection as stateful (a "login" pattern).
 
   .. warning:: Unless a token is validated on every call, this pattern
-               is not secure, especially in the presenence of a layer
+               is not secure, especially in the presence of a layer
                7 load balancer, as is common with gRPC, or if gRPC
                transparently reconnects the client.
 
diff --git a/docs/source/format/Glossary.rst b/docs/source/format/Glossary.rst
index 423ebf85783..ac18c1618bc 100644
--- a/docs/source/format/Glossary.rst
+++ b/docs/source/format/Glossary.rst
@@ -52,6 +52,14 @@ Glossary
        device (e.g. GPU) memory, etc., though not all Arrow
        implementations support all of these possibilities.
 
+   canonical extension type
+       An :term:`extension type` that has been standardized by the
+       Arrow community so as to improve interoperability between
+       implementations.
+
+       .. seealso::
+          :ref:`format_canonical_extensions`.
+
    child array
    parent array
        In an array of a :term:`nested type`, the parent array
@@ -112,10 +120,10 @@ Glossary
 
    extension type
    storage type
-       A user-defined :term:`data type` that adds additional semantics
-       to an existing data type.  This allows implementations that do
-       not support a particular extension type to still handle the
-       underlying data type (the "storage type").
+       An extension type is an user-defined :term:`data type` that adds
+       additional semantics to an existing data type.  This allows
+       implementations that do not support a particular extension type to
+       still handle the underlying data type (the "storage type").
 
        For example, a UUID can be represented as a 16-byte fixed-size
        binary type.
@@ -196,7 +204,11 @@ Glossary
        different buffers for different indices.
 
        Not part of the columnar format; this term is specific to
-       certain language implementations of Arrow (primarily C++ and
-       its bindings).
+       certain language implementations of Arrow (for example C++ and
+       its bindings, and Go).
+
+       .. image:: ../cpp/tables-versus-record-batches.svg
+          :alt: A graphical representation of an Arrow Table and a 
+                Record Batch, with structure as described in text above.
 
        .. seealso:: :term:`chunked array`, :term:`record batch`
diff --git a/docs/source/format/Integration.rst b/docs/source/format/Integration.rst
index 8b91cdaf324..f625f57b94c 100644
--- a/docs/source/format/Integration.rst
+++ b/docs/source/format/Integration.rst
@@ -455,14 +455,16 @@ Gold File Integration Tests
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
 Pre-generated json and arrow IPC files (both file and stream format) exist
-in the `arrow-testing <https://github.com/apache/arrow-testing>` repository
+in the `arrow-testing <https://github.com/apache/arrow-testing>`__ repository
 in the ``data/arrow-ipc-stream/integration`` directory. These serve as
 *gold* files that are assumed to be correct for use in testing. They are 
 referenced by ``runner.py`` in the code for the :ref:`Archery <archery>`
 utility. Below are the test cases which are covered by them:
 
 * Backwards Compatibility
+
   - The following cases are tested using the 0.14.1 format:
+
     + datetime
     + decimals
     + dictionaries
@@ -472,10 +474,15 @@ utility. Below are the test cases which are covered by them:
     + primitives 
     + primitive with no batches
     + primitive with zero length batches
+
   - The following is tested for 0.17.1 format:
+
     + unions
+
 * Endianness
+
   - The following cases are tested with both Little Endian and Big Endian versions for auto conversion
+
     + custom metadata
     + datetime
     + decimals
@@ -497,7 +504,10 @@ utility. Below are the test cases which are covered by them:
     + primitive batches with zero length
     + recursive nested types
     + union types
+
 * Compression tests
+
   - LZ4
   - ZSTD
+
 * Batches with Shared Dictionaries
diff --git a/docs/source/index.rst b/docs/source/index.rst
index b3d232fbb86..4be72554cc8 100644
--- a/docs/source/index.rst
+++ b/docs/source/index.rst
@@ -74,11 +74,13 @@ target environment.**
 
    format/Versioning
    format/Columnar
+   format/CanonicalExtensions
    format/Flight
    format/FlightSql
    format/Integration
    format/CDataInterface
    format/CStreamInterface
+   format/ADBC
    format/Other
    format/Glossary
 
@@ -100,4 +102,3 @@ target environment.**
    developers/benchmarks
    developers/documentation
    developers/release
-   developers/computeir
diff --git a/docs/source/java/algorithm.rst b/docs/source/java/algorithm.rst
index f838398af88..316fd38fa09 100644
--- a/docs/source/java/algorithm.rst
+++ b/docs/source/java/algorithm.rst
@@ -32,7 +32,7 @@ elements can be compared in one of the two ways:
 Currently, this type of comparison is supported through the ``org.apache.arrow.vector.compare.VectorValueEqualizer``
 interface.
 
-2. **Ordering comparison**: there are three possible results for this type of comparisons: ``less than``, ``equal to ``
+2. **Ordering comparison**: there are three possible results for this type of comparisons: ``less than``, ``equal to``
 and ``greater than``. This comparison is supported by the abstract class ``org.apache.arrow.algorithm.sort.VectorValueComparator``.
 
 We provide default implementations to compare vector elements. However, users can also define ways
diff --git a/docs/source/java/cdata.rst b/docs/source/java/cdata.rst
index 44e4f230ba6..0f30fe10315 100644
--- a/docs/source/java/cdata.rst
+++ b/docs/source/java/cdata.rst
@@ -154,7 +154,7 @@ without writing JNI bindings ourselves.
                    include = {
                            "CDataCppBridge.h"
                    },
-                   compiler = {"cpp11"},
+                   compiler = {"cpp17"},
                    linkpath = {"/arrow/cpp/build/debug/"},
                    link = {"arrow"}
            )
@@ -436,9 +436,9 @@ CMakeLists.txt definition file:
    find_package(Arrow REQUIRED)
    message(STATUS "Arrow version: ${ARROW_VERSION}")
    include_directories(${JNI_INCLUDE_DIRS})
-   set(CMAKE_CXX_STANDARD 11)
+   set(CMAKE_CXX_STANDARD 17)
    add_executable(${PROJECT_NAME} main.cpp)
-   target_link_libraries(cdatacpptojava PRIVATE arrow_shared)
+   target_link_libraries(cdatacpptojava PRIVATE Arrow::arrow_shared)
    target_link_libraries(cdatacpptojava PRIVATE ${JNI_LIBRARIES})
 
 **Result**
diff --git a/docs/source/java/dataset.rst b/docs/source/java/dataset.rst
index acc14e11b5e..6315932a573 100644
--- a/docs/source/java/dataset.rst
+++ b/docs/source/java/dataset.rst
@@ -32,31 +32,50 @@ is not designed only for querying files but can be extended to serve all
 possible data sources such as from inter-process communication or from other
 network locations, etc.
 
+.. contents::
+
 Getting Started
 ===============
 
+Currently supported file formats are:
+
+- Apache Arrow (``.arrow``)
+- Apache ORC (``.orc``)
+- Apache Parquet (``.parquet``)
+- Comma-Separated Values (``.csv``)
+
 Below shows a simplest example of using Dataset to query a Parquet file in Java:
 
 .. code-block:: Java
 
     // read data from file /opt/example.parquet
     String uri = "file:/opt/example.parquet";
-    BufferAllocator allocator = new RootAllocator(Long.MAX_VALUE);
-    DatasetFactory factory = new FileSystemDatasetFactory(allocator,
-        NativeMemoryPool.getDefault(), FileFormat.PARQUET, uri);
-    Dataset dataset = factory.finish();
-    Scanner scanner = dataset.newScan(new ScanOptions(100)));
-    List<ArrowRecordBatch> batches = StreamSupport.stream(
-        scanner.scan().spliterator(), false)
-            .flatMap(t -> stream(t.execute()))
-            .collect(Collectors.toList());
-
-    // do something with read record batches, for example:
-    analyzeArrowData(batches);
-
-    // finished the analysis of the data, close all resources:
-    AutoCloseables.close(batches);
-    AutoCloseables.close(factory, dataset, scanner);
+    ScanOptions options = new ScanOptions(/*batchSize*/ 32768);
+    try (
+        BufferAllocator allocator = new RootAllocator();
+        DatasetFactory datasetFactory = new FileSystemDatasetFactory(
+                allocator, NativeMemoryPool.getDefault(),
+                FileFormat.PARQUET, uri);
+        Dataset dataset = datasetFactory.finish();
+        Scanner scanner = dataset.newScan(options);
+        ArrowReader reader = scanner.scanBatches()
+    ) {
+        List<ArrowRecordBatch> batches = new ArrayList<>();
+        while (reader.loadNextBatch()) {
+            try (VectorSchemaRoot root = reader.getVectorSchemaRoot()) {
+                final VectorUnloader unloader = new VectorUnloader(root);
+                batches.add(unloader.getRecordBatch());
+            }
+        }
+
+        // do something with read record batches, for example:
+        analyzeArrowData(batches);
+
+        // finished the analysis of the data, close all resources:
+        AutoCloseables.close(batches);
+    } catch (Exception e) {
+        e.printStackTrace();
+    }
 
 .. note::
     ``ArrowRecordBatch`` is a low-level composite Arrow data exchange format
@@ -65,6 +84,9 @@ Below shows a simplest example of using Dataset to query a Parquet file in Java:
     aware container ``VectorSchemaRoot`` by which user could be able to access
     decoded data conveniently in Java.
 
+    The ``ScanOptions batchSize`` argument takes effect only if it is set to a value
+    smaller than the number of rows in the recordbatch.
+
 .. seealso::
    Load record batches with :doc:`VectorSchemaRoot <vector_schema_root>`.
 
@@ -104,7 +126,7 @@ within method ``Scanner::schema()``:
 .. code-block:: Java
 
     Scanner scanner = dataset.newScan(
-        new ScanOptions(100, Optional.of(new String[] {"id", "name"})));
+        new ScanOptions(32768, Optional.of(new String[] {"id", "name"})));
     Schema projectedSchema = scanner.schema();
 
 .. _java-dataset-projection:
@@ -119,20 +141,20 @@ in the projection list will be accepted. For example:
 .. code-block:: Java
 
     String[] projection = new String[] {"id", "name"};
-    ScanOptions options = new ScanOptions(100, Optional.of(projection));
+    ScanOptions options = new ScanOptions(32768, Optional.of(projection));
 
 If no projection is needed, leave the optional projection argument absent in
 ScanOptions:
 
 .. code-block:: Java
 
-    ScanOptions options = new ScanOptions(100, Optional.empty());
+    ScanOptions options = new ScanOptions(32768, Optional.empty());
 
 Or use shortcut construtor:
 
 .. code-block:: Java
 
-    ScanOptions options = new ScanOptions(100);
+    ScanOptions options = new ScanOptions(32768);
 
 Then all columns will be emitted during scanning.
 
@@ -210,21 +232,60 @@ be thrown during scanning.
     dataset instances. Once the Java buffers are created the passed allocator
     will become their parent allocator.
 
+Usage Notes
+===========
+
 Native Object Resource Management
-=================================
+---------------------------------
+
 As another result of relying on JNI, all components related to
-``FileSystemDataset`` should be closed manually to release the corresponding
-native objects after using. For example:
+``FileSystemDataset`` should be closed manually or use try-with-resources to
+release the corresponding native objects after using. For example:
 
 .. code-block:: Java
 
-    DatasetFactory factory = new FileSystemDatasetFactory(allocator,
-        NativeMemoryPool.getDefault(), FileFormat.PARQUET, uri);
-    Dataset dataset = factory.finish();
-    Scanner scanner = dataset.newScan(new ScanOptions(100));
+    String uri = "file:/opt/example.parquet";
+    ScanOptions options = new ScanOptions(/*batchSize*/ 32768);
+    try (
+        BufferAllocator allocator = new RootAllocator();
+        DatasetFactory factory = new FileSystemDatasetFactory(
+                allocator, NativeMemoryPool.getDefault(),
+                FileFormat.PARQUET, uri);
+        Dataset dataset = factory.finish();
+        Scanner scanner = dataset.newScan(options)
+    ) {
+
+        // do something
+
+    } catch (Exception e) {
+        e.printStackTrace();
+    }
 
-    // do something
+If user forgets to close them then native object leakage might be caused.
 
-    AutoCloseables.close(factory, dataset, scanner);
+BatchSize
+---------
 
-If user forgets to close them then native object leakage might be caused.
+The ``batchSize`` argument of ``ScanOptions`` is a limit on the size of an individual batch.
+
+For example, let's try to read a Parquet file with gzip compression and 3 row groups:
+
+.. code-block::
+
+   # Let configure ScanOptions as:
+   ScanOptions options = new ScanOptions(/*batchSize*/ 32768);
+
+   $ parquet-tools meta data4_3rg_gzip.parquet
+   file schema: schema
+   age:         OPTIONAL INT64 R:0 D:1
+   name:        OPTIONAL BINARY L:STRING R:0 D:1
+   row group 1: RC:4 TS:182 OFFSET:4
+   row group 2: RC:4 TS:190 OFFSET:420
+   row group 3: RC:3 TS:179 OFFSET:838
+
+Here, we set the batchSize in ScanOptions to 32768. Because that's greater
+than the number of rows in the next batch, which is 4 rows because the first
+row group has only 4 rows, then the program gets only 4 rows. The scanner
+will not combine smaller batches to reach the limit, but it will split
+large batches to stay under the limit. So in the case the row group had more
+than 32768 rows, it would get split into blocks of 32768 rows or less.
diff --git a/docs/source/java/flight.rst b/docs/source/java/flight.rst
index 69a7d2b8d26..f62046ecd2a 100644
--- a/docs/source/java/flight.rst
+++ b/docs/source/java/flight.rst
@@ -201,6 +201,10 @@ request/response. On the server, they can inspect incoming headers and
 fail the request; hence, they can be used to implement custom
 authentication methods.
 
+:ref:`Flight best practices <flight-best-practices>`
+====================================================
+
+
 .. _`FlightClient`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/flight/FlightClient.html
 .. _`FlightProducer`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/flight/FlightProducer.html
 .. _`FlightServer`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/flight/FlightServer.html
diff --git a/docs/source/java/flight_sql.rst b/docs/source/java/flight_sql.rst
new file mode 100644
index 00000000000..dbf97238d4c
--- /dev/null
+++ b/docs/source/java/flight_sql.rst
@@ -0,0 +1,32 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+================
+Arrow Flight SQL
+================
+
+Arrow Flight SQL is an RPC framework for efficient transfer of Arrow data
+over the network.
+
+.. seealso::
+
+   :doc:`Flight SQL protocol documentation <../format/FlightSql>`
+        Documentation of the Flight SQL protocol.
+
+For usage information, see the `API documentation`_.
+
+.. _API documentation: https://arrow.apache.org/docs/java/reference/org/apache/arrow/flight/sql/package-summary.html
diff --git a/docs/source/java/flight_sql_jdbc_driver.rst b/docs/source/java/flight_sql_jdbc_driver.rst
new file mode 100644
index 00000000000..65b1a7162f4
--- /dev/null
+++ b/docs/source/java/flight_sql_jdbc_driver.rst
@@ -0,0 +1,128 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+============================
+Arrow Flight SQL JDBC Driver
+============================
+
+The Flight SQL JDBC driver is a JDBC driver implementation that uses
+the :doc:`Flight SQL protocol <../format/FlightSql>` under the hood.
+This driver can be used with any database that implements Flight SQL.
+
+.. contents::
+
+Installation and Requirements
+=============================
+
+The driver is compatible with JDK 8+.  On JDK 9+, the following JVM
+parameter is required:
+
+.. code-block:: shell
+
+   java --add-opens=java.base/java.nio=ALL-UNNAMED ...
+
+To add a dependency via Maven, use a ``pom.xml`` like the following:
+
+.. code-block:: xml
+
+   <?xml version="1.0" encoding="UTF-8"?>
+   <project xmlns="http://maven.apache.org/POM/4.0.0"
+            xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
+            xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
+     <modelVersion>4.0.0</modelVersion>
+     <groupId>org.example</groupId>
+     <artifactId>demo</artifactId>
+     <version>1.0-SNAPSHOT</version>
+     <properties>
+       <arrow.version>10.0.0</arrow.version>
+     </properties>
+     <dependencies>
+       <dependency>
+         <groupId>org.apache.arrow</groupId>
+         <artifactId>flight-sql-jdbc-driver</artifactId>
+         <version>${arrow.version}</version>
+       </dependency>
+     </dependencies>
+   </project>
+
+Connecting to a Database
+========================
+
+The URI format is as follows::
+
+  jdbc:arrow-flight-sql://HOSTNAME:PORT[/?param1=val1&param2=val2&...]
+
+For example, take this URI::
+
+  jdbc:arrow-flight-sql://localhost:12345/?username=admin&password=pass&useEncryption=1
+
+This will connect to a Flight SQL service running on ``localhost`` on
+port 12345.  It will create a secure, encrypted connection, and
+authenticate using the username ``admin`` and the password ``pass``.
+
+The components of the URI are as follows.
+
+* The URI scheme must be ``jdbc:arrow-flight-sql://``.
+* **HOSTNAME** is the hostname of the Flight SQL service.
+* **PORT** is the port of the Flight SQL service.
+
+Additional options can be passed as query parameters.  The supported
+parameters are:
+
+.. list-table::
+   :header-rows: 1
+
+   * - Parameter
+     - Default
+     - Description
+
+   * - disableCertificateVerification
+     - false
+     - When TLS is enabled, whether to verify the server certificate
+
+   * - password
+     - null
+     - The password for user/password authentication
+
+   * - threadPoolSize
+     - 1
+     - The size of an internal thread pool
+
+   * - token
+     - null
+     - The token used for token authentication
+
+   * - trustStore
+     - null
+     - When TLS is enabled, the path to the certificate store
+
+   * - trustStorePassword
+     - null
+     - When TLS is enabled, the password for the certificate store
+
+   * - useEncryption
+     - false
+     - Whether to use TLS (the default is an insecure, plaintext
+       connection)
+
+   * - username
+     - null
+     - The username for user/password authentication
+
+   * - useSystemTrustStore
+     - true
+     - When TLS is enabled, whether to use the system certificate store
diff --git a/docs/source/java/index.rst b/docs/source/java/index.rst
index ea08364858d..a1e924f9c09 100644
--- a/docs/source/java/index.rst
+++ b/docs/source/java/index.rst
@@ -30,9 +30,12 @@ on the Arrow format and other language bindings see the :doc:`parent documentati
    memory
    vector
    vector_schema_root
+   table
    ipc
    algorithm
    flight
+   flight_sql
+   flight_sql_jdbc_driver
    dataset
    cdata
    jdbc
diff --git a/docs/source/java/install.rst b/docs/source/java/install.rst
index 9eaf2b58834..b0ae9e19c69 100644
--- a/docs/source/java/install.rst
+++ b/docs/source/java/install.rst
@@ -15,36 +15,48 @@
 .. specific language governing permissions and limitations
 .. under the License.
 
+=======================
 Installing Java Modules
 =======================
 
 .. contents::
 
 System Compatibility
---------------------
+====================
 
 Java modules are regularly built and tested on macOS and Linux distributions.
 
 Java Compatibility
-------------------
+==================
 
-Java modules are currently compatible with JDK 8, 9, 10, 11, 17, and 18.
+Java modules are compatible with JDK 8 and above.
 Currently, JDK 8, 11, 17, and 18 are tested in CI.
 
 When using Java 9 or later, some JDK internals must be exposed by
-adding ``--add-opens=java.base/java.nio=ALL-UNNAMED``. Otherwise,
-you may see errors like ``module java.base does not "opens
+adding ``--add-opens=java.base/java.nio=ALL-UNNAMED`` to the ``java`` command:
+
+.. code-block:: shell
+
+   # Directly on the command line
+   $ java --add-opens=java.base/java.nio=ALL-UNNAMED -jar ...
+   # Indirectly via environment variables
+   $ env _JAVA_OPTIONS="--add-opens=java.base/java.nio=ALL-UNNAMED" java -jar ...
+
+Otherwise, you may see errors like ``module java.base does not "opens
 java.nio" to unnamed module``.
 
+If using Maven and Surefire for unit testing, :ref:`this argument must
+be added to Surefire as well <java-install-maven-testing>`.
+
 Installing from Maven
----------------------
+=====================
 
 By default, Maven will download from the central repository: https://repo.maven.apache.org/maven2/org/apache/arrow/
 
 Configure your pom.xml with the Java modules needed, for example:
 arrow-vector, and arrow-memory-netty.
 
-.. code-block::
+.. code-block:: xml
 
     <?xml version="1.0" encoding="UTF-8"?>
     <project xmlns="http://maven.apache.org/POM/4.0.0"
@@ -76,7 +88,7 @@ plugin. This plugin generates useful platform-dependent properties
 such as ``os.detected.name`` and ``os.detected.arch`` needed to resolve
 transitive dependencies of Flight.
 
-.. code-block::
+.. code-block:: xml
 
     <?xml version="1.0" encoding="UTF-8"?>
     <project xmlns="http://maven.apache.org/POM/4.0.0"
@@ -107,9 +119,11 @@ transitive dependencies of Flight.
         </build>
     </project>
 
-The ``--add-opens`` flag can be added when running unit tests through Maven:
+.. _java-install-maven-testing:
 
-.. code-block::
+The ``--add-opens`` flag must be added when running unit tests through Maven:
+
+.. code-block:: xml
 
     <build>
         <plugins>
@@ -131,6 +145,14 @@ Or they can be added via environment variable, for example when executing your c
     _JAVA_OPTIONS="--add-opens=java.base/java.nio=ALL-UNNAMED" mvn exec:java -Dexec.mainClass="YourMainCode"
 
 Installing from Source
-----------------------
+======================
 
 See :ref:`java-development`.
+
+IDE Configuration
+=================
+
+Generally, no additional configuration should be needed.  However,
+ensure your Maven or other build configuration has the ``--add-opens``
+flag as described above, so that the IDE picks it up and runs tests
+with that flag as well.
diff --git a/docs/source/java/ipc.rst b/docs/source/java/ipc.rst
index 7cab480c47e..01341ff2cc3 100644
--- a/docs/source/java/ipc.rst
+++ b/docs/source/java/ipc.rst
@@ -48,11 +48,16 @@ First, let's populate a :class:`VectorSchemaRoot` with a small batch of records
     VectorSchemaRoot root = new VectorSchemaRoot(fields, vectors);
 
 Now, we can begin writing a stream containing some number of these batches. For this we use :class:`ArrowStreamWriter`
-(DictionaryProvider used for any vectors that are dictionary encoded is optional and can be null))::
+(DictionaryProvider used for any vectors that are dictionary encoded is optional and can be null))
 
-    ByteArrayOutputStream out = new ByteArrayOutputStream();
-    ArrowStreamWriter writer = new ArrowStreamWriter(root, /*DictionaryProvider=*/null, Channels.newChannel(out));
+.. code-block:: Java
 
+    try (
+      ByteArrayOutputStream out = new ByteArrayOutputStream();
+      ArrowStreamWriter writer = new ArrowStreamWriter(root, /*DictionaryProvider=*/null, Channels.newChannel(out));
+    ) {
+      // ... do write into the ArrowStreamWriter
+    }
 
 Here we used an in-memory stream, but this could have been a socket or some other IO stream. Then we can do
 
@@ -69,88 +74,95 @@ Here we used an in-memory stream, but this could have been a socket or some othe
       VarCharVector childVector2 = (VarCharVector)root.getVector(1);
       childVector1.reset();
       childVector2.reset();
-      ... do some populate work here, could be different for each batch
+      // ... do some populate work here, could be different for each batch
       writer.writeBatch();
     }
 
-    // end
     writer.end();
 
-Note since the :class:`VectorSchemaRoot` in writer is a container that can hold batches, batches flow through
-:class:`VectorSchemaRoot` as part of a pipeline, so we need to populate data before `writeBatch` so that later batches
+Note that, since the :class:`VectorSchemaRoot` in the writer is a container that can hold batches, batches flow through
+:class:`VectorSchemaRoot` as part of a pipeline, so we need to populate data before `writeBatch`, so that later batches
 could overwrite previous ones.
 
 Now the :class:`ByteArrayOutputStream` contains the complete stream which contains 5 record batches.
-We can read such a stream with :class:`ArrowStreamReader`, note that :class:`VectorSchemaRoot` within
-reader will be loaded with new values on every call to :class:`loadNextBatch()`
+We can read such a stream with :class:`ArrowStreamReader`. Note that the :class:`VectorSchemaRoot` within the reader
+will be loaded with new values on every call to :class:`loadNextBatch()`
 
 .. code-block:: Java
 
     try (ArrowStreamReader reader = new ArrowStreamReader(new ByteArrayInputStream(out.toByteArray()), allocator)) {
-      Schema schema = reader.getVectorSchemaRoot().getSchema();
+      // This will be loaded with new values on every call to loadNextBatch
+      VectorSchemaRoot readRoot = reader.getVectorSchemaRoot();
+      Schema schema = readRoot.getSchema();
       for (int i = 0; i < 5; i++) {
-        // This will be loaded with new values on every call to loadNextBatch
-        VectorSchemaRoot readBatch = reader.getVectorSchemaRoot();
         reader.loadNextBatch();
-        ... do something with readBatch
+        // ... do something with readRoot
       }
-
     }
 
 Here we also give a simple example with dictionary encoded vectors
 
 .. code-block:: Java
 
+    // create provider
     DictionaryProvider.MapDictionaryProvider provider = new DictionaryProvider.MapDictionaryProvider();
-    // create dictionary and provider
-    final VarCharVector dictVector = new VarCharVector("dict", allocator);
-    dictVector.allocateNewSafe();
-    dictVector.setSafe(0, "aa".getBytes());
-    dictVector.setSafe(1, "bb".getBytes());
-    dictVector.setSafe(2, "cc".getBytes());
-    dictVector.setValueCount(3);
-
-    Dictionary dictionary =
-        new Dictionary(dictVector, new DictionaryEncoding(1L, false, /*indexType=*/null));
-    provider.put(dictionary);
-
-    // create vector and encode it
-    final VarCharVector vector = new VarCharVector("vector", allocator);
-    vector.allocateNewSafe();
-    vector.setSafe(0, "bb".getBytes());
-    vector.setSafe(1, "bb".getBytes());
-    vector.setSafe(2, "cc".getBytes());
-    vector.setSafe(3, "aa".getBytes());
-    vector.setValueCount(4);
-
-    // get the encoded vector
-    IntVector encodedVector = (IntVector) DictionaryEncoder.encode(vector, dictionary);
-
-    // create VectorSchemaRoot
-    List<Field> fields = Arrays.asList(encodedVector.getField());
-    List<FieldVector> vectors = Arrays.asList(encodedVector);
-    VectorSchemaRoot root = new VectorSchemaRoot(fields, vectors);
 
-    // write data
-    ByteArrayOutputStream out = new ByteArrayOutputStream();
-    ArrowStreamWriter writer = new ArrowStreamWriter(root, provider, Channels.newChannel(out));
-    writer.start();
-    writer.writeBatch();
-    writer.end();
+    try (
+      final VarCharVector dictVector = new VarCharVector("dict", allocator);
+      final VarCharVector vector = new VarCharVector("vector", allocator);
+    ) {
+      // create dictionary vector
+      dictVector.allocateNewSafe();
+      dictVector.setSafe(0, "aa".getBytes());
+      dictVector.setSafe(1, "bb".getBytes());
+      dictVector.setSafe(2, "cc".getBytes());
+      dictVector.setValueCount(3);
+
+      // create dictionary
+      Dictionary dictionary =
+          new Dictionary(dictVector, new DictionaryEncoding(1L, false, /*indexType=*/null));
+      provider.put(dictionary);
+
+      // create original data vector
+      vector.allocateNewSafe();
+      vector.setSafe(0, "bb".getBytes());
+      vector.setSafe(1, "bb".getBytes());
+      vector.setSafe(2, "cc".getBytes());
+      vector.setSafe(3, "aa".getBytes());
+      vector.setValueCount(4);
 
-    // read data
-    try (ArrowStreamReader reader = new ArrowStreamReader(new ByteArrayInputStream(out.toByteArray()), allocator)) {
-      reader.loadNextBatch();
-      VectorSchemaRoot readRoot = reader.getVectorSchemaRoot();
       // get the encoded vector
-      IntVector intVector = (IntVector) readRoot.getVector(0);
+      IntVector encodedVector = (IntVector) DictionaryEncoder.encode(vector, dictionary);
+
+      ByteArrayOutputStream out = new ByteArrayOutputStream();
 
-      // get dictionaries and decode the vector
-      Map<Long, Dictionary> dictionaryMap = reader.getDictionaryVectors();
-      long dictionaryId = intVector.getField().getDictionary().getId();
-      VarCharVector varCharVector =
-          (VarCharVector) DictionaryEncoder.decode(intVector, dictionaryMap.get(dictionaryId));
+      // create VectorSchemaRoot
+      List<Field> fields = Arrays.asList(encodedVector.getField());
+      List<FieldVector> vectors = Arrays.asList(encodedVector);
+      try (VectorSchemaRoot root = new VectorSchemaRoot(fields, vectors)) {
 
+          // write data
+          ArrowStreamWriter writer = new ArrowStreamWriter(root, provider, Channels.newChannel(out));
+          writer.start();
+          writer.writeBatch();
+          writer.end();
+      }
+
+      // read data
+      try (ArrowStreamReader reader = new ArrowStreamReader(new ByteArrayInputStream(out.toByteArray()), allocator)) {
+        reader.loadNextBatch();
+        VectorSchemaRoot readRoot = reader.getVectorSchemaRoot();
+        // get the encoded vector
+        IntVector intVector = (IntVector) readRoot.getVector(0);
+
+        // get dictionaries and decode the vector
+        Map<Long, Dictionary> dictionaryMap = reader.getDictionaryVectors();
+        long dictionaryId = intVector.getField().getDictionary().getId();
+        try (VarCharVector varCharVector =
+            (VarCharVector) DictionaryEncoder.decode(intVector, dictionaryMap.get(dictionaryId))) {
+          // ... use decoded vector
+        }
+      }
     }
 
 Writing and Reading Random Access Files
@@ -159,17 +171,20 @@ The :class:`ArrowFileWriter` has the same API as :class:`ArrowStreamWriter`
 
 .. code-block:: Java
 
-    ByteArrayOutputStream out = new ByteArrayOutputStream();
-    ArrowFileWriter writer = new ArrowFileWriter(root, null, Channels.newChannel(out));
-    writer.start();
-    // write the first batch
-    writer.writeBatch();
-    // write another four batches.
-    for (int i = 0; i < 4; i++) {
-      ... do populate work
+    try (
+      ByteArrayOutputStream out = new ByteArrayOutputStream();
+      ArrowFileWriter writer = new ArrowFileWriter(root, /*DictionaryProvider=*/null, Channels.newChannel(out));
+    ) {
+      writer.start();
+      // write the first batch
       writer.writeBatch();
+      // write another four batches.
+      for (int i = 0; i < 4; i++) {
+        // ... do populate work
+        writer.writeBatch();
+      }
+      writer.end();
     }
-    writer.end();
 
 The difference between :class:`ArrowFileReader` and :class:`ArrowStreamReader` is that the input source
 must have a ``seek`` method for random access. Because we have access to the entire payload, we know the
diff --git a/docs/source/java/memory.rst b/docs/source/java/memory.rst
index 23fa30e134e..63f79a466ed 100644
--- a/docs/source/java/memory.rst
+++ b/docs/source/java/memory.rst
@@ -19,20 +19,27 @@
 Memory Management
 =================
 
-The memory modules contain all the functionality that Arrow uses to manage memory (allocation and deallocation).
+The memory modules contain all the functionality that Arrow uses to allocate and deallocate memory. This document is divided in two parts:
+The first part, *Memory Basics*, provides a high-level introduction. The following section, *Arrow Memory In-Depth*, fills in the details. 
+
+.. contents::
+
+Memory Basics
+=============
 This section will introduce you to the major concepts in Java’s memory management:
 
 * `ArrowBuf`_
 * `BufferAllocator`_
 * Reference counting
 
-.. contents::
+It also provides some guidelines for working with memory in Arrow, and describes how to debug memory issues when they arise.
 
 Getting Started
-===============
+---------------
 
 Arrow's memory management is built around the needs of the columnar format and using off-heap memory.
-Also, it is its own independent implementation, and does not wrap the C++ implementation.
+Arrow Java has its own independent implementation. It does not wrap the C++ implementation, although the framework is flexible enough
+to be used with memory allocated in C++ that is used by Java code. 
 
 Arrow provides multiple modules: the core interfaces, and implementations of the interfaces.
 Users need the core interfaces, and exactly one of the implementations.
@@ -41,8 +48,9 @@ Users need the core interfaces, and exactly one of the implementations.
 * ``memory-netty``: An implementation of the memory interfaces based on the `Netty`_ library.
 * ``memory-unsafe``: An implementation of the memory interfaces based on the `sun.misc.Unsafe`_ library.
 
+
 ArrowBuf
-========
+--------
 
 ArrowBuf represents a single, contiguous region of `direct memory`_. It consists of an address and a length,
 and provides low-level interfaces for working with the contents, similar to ByteBuffer.
@@ -50,16 +58,19 @@ and provides low-level interfaces for working with the contents, similar to Byte
 Unlike (Direct)ByteBuffer, it has reference counting built in, as discussed later.
 
 Why Arrow Uses Direct Memory
-----------------------------
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
 * The JVM can optimize I/O operations when using direct memory/direct buffers; it will attempt to avoid copying buffer contents to/from an intermediate buffer. This can speed up IPC in Arrow.
 * Since Arrow always uses direct memory, JNI modules can directly wrap native memory addresses instead of copying data. We use this in modules like the C Data Interface.
 * Conversely, on the C++ side of the JNI boundary, we can directly access the memory in ArrowBuf without copying data.
 
 BufferAllocator
-===============
+---------------
 
-The `BufferAllocator`_ interface deals with allocating ArrowBufs for the application.
+The `BufferAllocator`_ is primarily an arena or nursery used for accounting of buffers (ArrowBuf instances). 
+As the name suggests, it can allocate new buffers associated with itself, but it can also 
+handle the accounting for buffers allocated elsewhere. For example, it handles the Java-side accounting for 
+memory allocated in C++ and shared with Java using the C-Data Interface. In the code below it performs an allocation:
 
 .. code-block:: Java
 
@@ -89,23 +100,23 @@ memory from a child allocator, those allocations are also reflected in all paren
 effectively sets the program-wide memory limit, and serves as the master bookkeeper for all memory allocations.
 
 Child allocators are not strictly required, but can help better organize code. For instance, a lower memory limit can
-be set for a particular section of code. When the allocator is closed, it then checks that that section didn't leak any
-memory. And child allocators can be named, which makes it easier to tell where an ArrowBuf came from during debugging.
+be set for a particular section of code. The child allocator can be closed when that section completes, 
+at which point it checks that that section didn't leak any memory. 
+Child allocators can also be named, which makes it easier to tell where an ArrowBuf came from during debugging.
 
 Reference counting
-==================
+------------------
 
-Direct memory is more expensive to allocate and deallocate. That's why allocators pool or cache direct buffers.
-
-Because we want to pool/cache buffers and manage them deterministically, we use manual reference counting instead of
-the garbage collector. This simply means that each buffer has a counter keeping track of the number of references to
+Because direct memory is expensive to allocate and deallocate, allocators may share direct buffers. To managed shared buffers 
+deterministically, we use manual reference counting instead of the garbage collector. 
+This simply means that each buffer has a counter keeping track of the number of references to
 the buffer, and the user is responsible for properly incrementing/decrementing the counter as the buffer is used.
 
-In Arrow, each ArrowBuf has an associated `ReferenceManager`_ that tracks the reference count, which can be retrieved
-with ArrowBuf.getReferenceManager(). The reference count can be updated with `ReferenceManager.release`_ and
-`ReferenceManager.retain`_.
+In Arrow, each ArrowBuf has an associated `ReferenceManager`_ that tracks the reference count. You can retrieve
+it with ArrowBuf.getReferenceManager(). The reference count is updated using `ReferenceManager.release`_ to decrement the count, 
+and `ReferenceManager.retain`_ to increment it. 
 
-Of course, this is tedious and error-prone, so usually, instead of directly working with buffers, we should use
+Of course, this is tedious and error-prone, so instead of directly working with buffers, we typically use
 higher-level APIs like ValueVector. Such classes generally implement Closeable/AutoCloseable and will automatically
 decrement the reference count when closed.
 
@@ -113,11 +124,11 @@ Allocators implement AutoCloseable as well. In this case, closing the allocator
 obtained from the allocator are closed. If not, ``close()`` method will raise an exception; this helps track
 memory leaks from unclosed buffers.
 
-As you see, reference counting needs to be handled carefully. To ensure that an
+Reference counting needs to be handled carefully. To ensure that an
 independent section of code has fully cleaned up all allocated buffers, use a new child allocator.
 
 Development Guidelines
-======================
+----------------------
 
 Applications should generally:
 
@@ -125,15 +136,18 @@ Applications should generally:
 * Create one RootAllocator at the start of the program.
 * ``close()`` allocators after use (whether they are child allocators or the RootAllocator), either manually or preferably via a try-with-resources statement.
 
-Debugging Memory Leaks/Allocation
-=================================
 
-Allocators have a debug mode that makes it easier to figure out where a leak is originated.
-To enable it, enable assertions with ``-ea`` or set the system property, ``-Darrow.memory.debug.allocator=true``.
-When enabled, a log will be kept of allocations.
+Debugging Memory Leaks/Allocation
+---------------------------------
 
-Arrow logs some allocation information via SLF4J; configure it properly to see these logs (e.g. via Logback/Apache Log4j).
+In ``DEBUG`` mode, the allocator and
+supporting classes will record additional debug tracking information to
+better track down memory leaks and issues. To enable DEBUG mode, either
+enable Java assertions with ``-ea`` or pass the following system
+property to the VM when starting
+``-Darrow.memory.debug.allocator=true``. 
 
+When DEBUG is enabled, a log will be kept of allocations. Configure SLF4J to see these logs (e.g. via Logback/Apache Log4j).
 Consider the following example to see how it helps us with the tracking of allocators:
 
 .. code-block:: Java
@@ -215,6 +229,9 @@ This will include information about allocation operations on the buffer with sta
          at jdk.jshell.execution.Util.forwardExecutionControlAndIO(Util.java:137)
          at jdk.jshell.execution.RemoteExecutionControl.main(RemoteExecutionControl.java:70)
 
+The BufferAllocator also provides a ``BufferAllocator.toVerboseString()`` which can be used in
+``DEBUG`` mode to get extensive stacktrace information and events associated with various Allocator behaviors.
+
 Finally, enabling the ``TRACE`` logging level will automatically provide this stack trace when the allocator is closed:
 
 .. code-block:: java
@@ -276,6 +293,7 @@ Finally, enabling the ``TRACE`` logging level will automatically provide this st
 .. _`ArrowBuf`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/memory/ArrowBuf.html
 .. _`ArrowBuf.print()`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/memory/ArrowBuf.html#print-java.lang.StringBuilder-int-org.apache.arrow.memory.BaseAllocator.Verbosity-
 .. _`BufferAllocator`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/memory/BufferAllocator.html
+.. _`BufferLedger`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/memory/BufferLedger.html
 .. _`RootAllocator`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/memory/RootAllocator.html
 .. _`newChildAllocator`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/memory/RootAllocator.html#newChildAllocator-java.lang.String-org.apache.arrow.memory.AllocationListener-long-long-
 .. _`Netty`: https://netty.io/wiki/
@@ -284,3 +302,155 @@ Finally, enabling the ``TRACE`` logging level will automatically provide this st
 .. _`ReferenceManager`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/memory/ReferenceManager.html
 .. _`ReferenceManager.release`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/memory/ReferenceManager.html#release--
 .. _`ReferenceManager.retain`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/memory/ReferenceManager.html#retain--
+
+Arrow Memory In-Depth
+=====================
+
+Design Principles
+-----------------
+Arrow’s memory model is based on the following basic concepts:
+
+-  Memory can be allocated up to some limit. That limit could be a real
+   limit (OS/JVM) or a locally imposed limit.
+-  Allocation operates in two phases: accounting then actual allocation.
+   Allocation could fail at either point.
+-  Allocation failure should be recoverable. In all cases, the Allocator
+   infrastructure should expose memory allocation failures (OS or
+   internal limit-based) as ``OutOfMemoryException``\ s.
+-  Any allocator can reserve memory when created. This memory shall be
+   held such that this allocator will always be able to allocate that
+   amount of memory.
+-  A particular application component should work to use a local
+   allocator to understand local memory usage and better debug memory
+   leaks.
+-  The same physical memory can be shared by multiple allocators and the
+   allocator must provide an accounting paradigm for this purpose.
+   
+Reserving Memory
+----------------
+
+Arrow provides two different ways to reserve memory:
+
+-  BufferAllocator accounting reservations: When a new allocator (other
+   than the ``RootAllocator``) is initialized, it can set aside memory
+   that it will keep locally for its lifetime. This is memory that will
+   never be released back to its parent allocator until the allocator is
+   closed.
+-  ``AllocationReservation`` via BufferAllocator.newReservation():
+   Allows a short-term preallocation strategy so that a particular
+   subsystem can ensure future memory is available to support a
+   particular request.   
+   
+Reference Counting Details
+--------------------------
+
+Typically, the ReferenceManager implementation used is an instance of `BufferLedger`_. 
+A BufferLedger is a ReferenceManager that also maintains the relationship between an ``AllocationManager``, 
+a ``BufferAllocator`` and one or more individual ``ArrowBuf``\ s
+
+All ArrowBufs (direct or sliced) related to a single BufferLedger/BufferAllocator combination 
+share the same reference count and either all will be valid or all will be invalid. 
+For simplicity of accounting, we treat that memory as being used by one
+of the BufferAllocators associated with the memory. When that allocator
+releases its claim on that memory, the memory ownership is then moved to
+another BufferLedger belonging to the same AllocationManager.
+
+Allocation Details
+------------------
+
+There are several Allocator types in Arrow Java:
+
+-  ``BufferAllocator`` - The public interface application users should be leveraging
+-  ``BaseAllocator`` - The base implementation of memory allocation, contains the meat of the Arrow allocator implementation
+-  ``RootAllocator`` - The root allocator. Typically only one created for a JVM. It serves as the parent/ancestor for child allocators
+-  ``ChildAllocator`` - A child allocator that derives from the root allocator
+
+Many BufferAllocators can reference the same piece of physical memory at the same
+time. It is the AllocationManager’s responsibility to ensure that in this situation, 
+all memory is accurately accounted for from the Root’s perspective
+and also to ensure that the memory is correctly released once all
+BufferAllocators have stopped using that memory.
+
+For simplicity of accounting, we treat that memory as being used by one
+of the BufferAllocators associated with the memory. When that allocator
+releases its claim on that memory, the memory ownership is then moved to
+another BufferLedger belonging to the same AllocationManager. Note that
+because a ArrowBuf.release() is what actually causes memory ownership
+transfer to occur, we always proceed with ownership transfer (even if
+that violates an allocator limit). It is the responsibility of the
+application owning a particular allocator to frequently confirm whether
+the allocator is over its memory limit (BufferAllocator.isOverLimit())
+and if so, attempt to aggressively release memory to ameliorate the
+situation.
+
+
+Object Hierarchy
+----------------
+
+There are two main ways that someone can look at the object hierarchy
+for Arrow’s memory management scheme. The first is a memory based
+perspective as below:
+
+Memory Perspective
+~~~~~~~~~~~~~~~~~~
+
+.. code-block:: none
+
+   + AllocationManager
+   |
+   |-- UnsignedDirectLittleEndian (One per AllocationManager)
+   |
+   |-+ BufferLedger 1 ==> Allocator A (owning)
+   | ` - ArrowBuf 1
+   |-+ BufferLedger 2 ==> Allocator B (non-owning)
+   | ` - ArrowBuf 2
+   |-+ BufferLedger 3 ==> Allocator C (non-owning)
+     | - ArrowBuf 3
+     | - ArrowBuf 4
+     ` - ArrowBuf 5
+
+In this picture, a piece of memory is owned by an allocator manager. An
+allocator manager is responsible for that piece of memory no matter
+which allocator(s) it is working with. An allocator manager will have
+relationships with a piece of raw memory (via its reference to
+UnsignedDirectLittleEndian) as well as references to each
+BufferAllocator it has a relationship to.
+
+Allocator Perspective
+~~~~~~~~~~~~~~~~~~~~~
+
+.. code-block:: none
+
+   + RootAllocator
+   |-+ ChildAllocator 1
+   | | - ChildAllocator 1.1
+   | ` ...
+   |
+   |-+ ChildAllocator 2
+   |-+ ChildAllocator 3
+   | |
+   | |-+ BufferLedger 1 ==> AllocationManager 1 (owning) ==> UDLE
+   | | `- ArrowBuf 1
+   | `-+ BufferLedger 2 ==> AllocationManager 2 (non-owning)==> UDLE
+   |   `- ArrowBuf 2
+   |
+   |-+ BufferLedger 3 ==> AllocationManager 1 (non-owning)==> UDLE
+   | ` - ArrowBuf 3
+   |-+ BufferLedger 4 ==> AllocationManager 2 (owning) ==> UDLE
+     | - ArrowBuf 4
+     | - ArrowBuf 5
+     ` - ArrowBuf 6
+
+In this picture, a RootAllocator owns three ChildAllocators. The first
+ChildAllocator (ChildAllocator 1) owns a subsequent ChildAllocator.
+ChildAllocator has two BufferLedgers/AllocationManager references.
+Coincidentally, each of these AllocationManager’s is also associated
+with the RootAllocator. In this case, one of the these
+AllocationManagers is owned by ChildAllocator 3 (AllocationManager 1)
+while the other AllocationManager (AllocationManager 2) is
+owned/accounted for by the RootAllocator. Note that in this scenario,
+ArrowBuf 1 is sharing the underlying memory as ArrowBuf 3. However the
+subset of that memory (e.g. through slicing) might be different. Also
+note that ArrowBuf 2 and ArrowBuf 4, 5 and 6 are also sharing the same
+underlying memory. Also note that ArrowBuf 4, 5 and 6 all share the same
+reference count and fate.
diff --git a/docs/source/java/quickstartguide.rst b/docs/source/java/quickstartguide.rst
index 40ed44651d4..5ce643db019 100644
--- a/docs/source/java/quickstartguide.rst
+++ b/docs/source/java/quickstartguide.rst
@@ -209,7 +209,7 @@ a streaming and/or random-access fashion depending on application requirements.
 
 **Write data to an arrow file**
 
-Example: Write the dataset from the previous example to an Arrow random-access file.
+Example: Write the dataset from the previous example to an Arrow IPC file (random-access).
 
 .. code-block:: Java
 
@@ -274,7 +274,7 @@ Example: Write the dataset from the previous example to an Arrow random-access f
 
 **Read data from an arrow file**
 
-Example: Read the dataset from the previous example to an Arrow random-access file.
+Example: Read the dataset from the previous example from an Arrow IPC file (random-access).
 
 .. code-block:: Java
 
diff --git a/docs/source/java/table.rst b/docs/source/java/table.rst
new file mode 100644
index 00000000000..603910f5169
--- /dev/null
+++ b/docs/source/java/table.rst
@@ -0,0 +1,378 @@
+.. Licensed to the Apache Software Foundation (ASF) under one
+.. or more contributor license agreements.  See the NOTICE file
+.. distributed with this work for additional information
+.. regarding copyright ownership.  The ASF licenses this file
+.. to you under the Apache License, Version 2.0 (the
+.. "License"); you may not use this file except in compliance
+.. with the License.  You may obtain a copy of the License at
+
+..   http://www.apache.org/licenses/LICENSE-2.0
+
+.. Unless required by applicable law or agreed to in writing,
+.. software distributed under the License is distributed on an
+.. "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+.. KIND, either express or implied.  See the License for the
+.. specific language governing permissions and limitations
+.. under the License.
+
+=====
+Table
+=====
+
+**NOTE**: The Table API is experimental and subject to change. See the list of limitations below.
+
+`Table`_ is an immutable tabular data structure based on `FieldVector`_. Like `VectorSchemaRoot`_, ``Table`` is a columnar data structure backed by Arrow arrays, or more specifically, by ``FieldVector`` objects. It differs from ``VectorSchemaRoot`` mainly in that it is fully immutable and lacks support for batch operations. Anyone processing batches of tabular data in a pipeline should continue to use ``VectorSchemaRoot``. Finally, the ``Table`` API is mainly row-oriented, so in some ways it's more like the JDBC API than the ``VectorSchemaRoot`` API, but you can still use ``FieldReaders`` to work with data in a columnar fashion.
+
+Mutation in Table and VectorSchemaRoot
+======================================
+
+``VectorSchemaRoot`` provides a thin wrapper on the vectors that hold its data. Individual vectors can be retrieved from a vector schema root. These vectors have *setters* for modifying their elements, making ``VectorSchemaRoot`` immutable only by convention. The protocol for mutating a vector is documented in the `ValueVector`_ interface:
+
+- values need to be written in order (e.g. index 0, 1, 2, 5)
+- null vectors start with all values as null before writing anything
+- for variable width types, the offset vector should be all zeros before writing
+- you must call setValueCount before a vector can be read
+- you should never write to a vector once it has been read.
+
+The rules aren't enforced by the API so the programmer is responsible for ensuring that they are followed. Failure to do so could lead to runtime exceptions.
+
+``Table``, on the other hand, is immutable. The underlying vectors are not exposed. When a table is created from existing vectors, their memory is transferred to new vectors, so subsequent changes to the original vectors can't impact the new table's values.
+
+Features and limitations
+======================================
+
+A basic set of table functionality is currently available:
+
+- Create a table from vectors or ``VectorSchemaRoot``
+- Iterate tables by row, or set the current row index directly
+- Access vector values as primitives, objects, and/or nullable `ValueHolder`_ instances (depending on type)
+- Get a ``FieldReader`` for any vector
+- Add and remove vectors, creating new tables
+- Encode and decode a table's vectors using dictionary encoding
+- Export table data for use by native code
+- Print representative data to TSV strings
+- Get a table's schema
+- Slice tables
+- Convert table to ``VectorSchemaRoot``
+
+Limitations in the 11.0.0 release:
+
+- No support ``ChunkedArray`` or any form of row-group. Support for chunked arrays or row groups will be considered for a future release.
+- No support for the C-Stream API. Support for the streaming API is contingent on chunked array support
+- No support for creating tables directly from Java POJOs. All data held by a table must be imported via a ``VectorSchemaRoot``, or from collections or arrays of vectors.
+
+The Table API
+=============
+
+Like ``VectorSchemaRoot``, a table contains a `Schema`_ and an ordered collection of ``FieldVector`` objects, but it is designed to be accessed via a row-oriented interface.
+
+Creating a Table from a VectorSchemaRoot
+****************************************
+
+Tables are created from a ``VectorSchemaRoot`` as shown below. The memory buffers holding the data are transferred from the vector schema root to new vectors in the new table, clearing the source vectors in the process. This ensures that the data in your new table is never changed. Since the buffers are transferred rather than copied, this is a very low overhead operation.
+
+.. code-block:: Java
+
+    Table t = new Table(someVectorSchemaRoot);
+
+If you now update the vectors held by the ``VectorSchemaRoot`` (using some version of  `ValueVector#setSafe()`), it would reflect those changes, but the values in table *t* are unchanged.
+
+Creating a Table from FieldVectors
+**********************************
+
+Tables can be created from ``FieldVectors`` as shown below, using 'var-arg' array arguments:
+
+.. code-block:: Java
+
+    IntVector myVector = createMyIntVector();
+    VectorSchemaRoot vsr1 = new VectorSchemaRoot(myVector);
+
+or by passing a collection:
+
+.. code-block:: Java
+
+    IntVector myVector = createMyIntVector();
+    List<FieldVector> fvList = List.of(myVector);
+    VectorSchemaRoot vsr1 = new VectorSchemaRoot(fvList);
+
+It is rarely a good idea to share vectors between multiple vector schema roots, and it would not be a good idea to share them between vector schema roots and tables. Creating a ``VectorSchemaRoot`` from a list of vectors does not cause the reference counts for the vectors to be incremented. Unless you manage the counts manually, the code below would lead to more references than reference counts, and that could lead to trouble. There is an implicit assumption that the vectors were created for use by *one* ``VectorSchemaRoot`` that this code violates.
+
+*Don't do this:*
+
+.. code-block:: Java
+
+    IntVector myVector = createMyIntVector();  // Reference count for myVector = 1
+    VectorSchemaRoot vsr1 = new VectorSchemaRoot(myVector); // Still one reference
+    VectorSchemaRoot vsr2 = new VectorSchemaRoot(myVector);
+    // Ref count is still one, but there are two VSRs with a reference to myVector
+    vsr2.clear(); // Reference count for myVector is 0.
+
+What is happening is that the reference counter works at a lower level than the ``VectorSchemaRoot`` interface. A reference counter counts references to `ArrowBuf`_ instances that control memory buffers. It doesn't count references to the vectors that hold those ArrowBufs. In the example above, each ``ArrowBuf`` is held by one vector, so there is only one reference. This distinction is blurred when you call the ``VectorSchemaRoot``'s clear() method, which frees the memory held by each of the vectors it references even though another instance references the same vectors.
+
+When you create tables from vectors, it's assumed that there are no external references to those vectors. To be certain, the buffers underlying these vectors are transferred to new vectors in the new table, and the original vectors are cleared.
+
+*Don't do this either, but note the difference from above:*
+
+.. code-block:: Java
+
+    IntVector myVector = createMyIntVector(); // Reference count for myVector = 1
+    Table t1 = new Table(myVector);
+    // myVector is cleared; Table t1 has a new hidden vector with the data from myVector
+    Table t2 = new Table(myVector);
+    // t2 has no rows because myVector was just cleared
+    // t1 continues to have the data from the original vector
+    t2.clear();
+    // no change because t2 is already empty and t1 is independent
+
+With tables, memory is explicitly transferred on instantiation so the buffers held by a table are held by *only* that table.
+
+Creating Tables with dictionary-encoded vectors
+***********************************************
+
+Another point of difference is that ``VectorSchemaRoot`` is uninformed about any dictionary-encoding of its vectors, while tables hold an optional `DictionaryProvider`_ instance. If any vectors in the source data are encoded, a DictionaryProvider must be set to un-encode the values.
+
+.. code-block:: Java
+
+    VectorSchemaRoot vsr = myVsr();
+    DictionaryProvider provider = myProvider();
+    Table t = new Table(vsr, provider);
+
+In ``Table``, dictionaries are used like they are with vectors. To decode a vector, the user provides the name of the vector to decode and the dictionary id:
+
+.. code-block:: Java
+
+    Table t = new Table(vsr, provider);
+    ValueVector decodedName = t.decode("name", 1L);
+
+To encode a vector from a table, a similar approach is used:
+
+.. code-block:: Java
+
+    Table t = new Table(vsr, provider);
+    ValueVector encodedName = t.encode("name", 1L);
+
+Freeing memory explicitly
+*************************
+
+Tables use off-heap memory that must be freed when it is no longer needed. ``Table`` implements ``AutoCloseable`` so the best way to create one is in a try-with-resources block:
+
+.. code-block:: Java
+
+    try (VectorSchemaRoot vsr = myMethodForGettingVsrs();
+        Table t = new Table(vsr)) {
+        // do useful things.
+    }
+
+If you don't use a try-with-resources block, you must close the table manually:
+
+.. code-block:: Java
+
+    try {
+        VectorSchemaRoot vsr = myMethodForGettingVsrs();
+        Table t = new Table(vsr);
+        // do useful things.
+    } finally {
+        vsr.close();
+        t.close();
+    }
+
+Manual closing should be performed in a finally block.
+
+Getting the schema
+******************
+
+You get the table's schema just as you would with a vector schema root:
+
+.. code-block:: Java
+
+    Schema s = table.getSchema();
+
+Adding and removing vectors
+***************************
+
+``Table`` provides facilities for adding and removing vectors modeled on the same functionality in ``VectorSchemaRoot``. These operations return new instances rather than modifying the original instance in-place.
+
+.. code-block:: Java
+
+    try (Table t = new Table(vectorList)) {
+        IntVector v3 = new IntVector("3", intFieldType, allocator);
+        Table t2 = t.addVector(2, v3);
+        Table t3 = t2.removeVector(1);
+        // don't forget to close t2 and t3
+    }
+
+Slicing tables
+**************
+
+``Table`` supports *slice()* operations, where a slice of a source table is a second Table that refers to a single, contiguous range of rows in the source.
+
+.. code-block:: Java
+
+    try (Table t = new Table(vectorList)) {
+        Table t2 = t.slice(100, 200); // creates a slice referencing the values in range (100, 200]
+        ...
+    }
+
+This raises the question: If you create a slice with *all* the values in the source table (as shown below), how would that differ from a new Table constructed with the same vectors as the source?
+
+.. code-block:: Java
+
+    try (Table t = new Table(vectorList)) {
+        Table t2 = t.slice(0, t.getRowCount()); // creates a slice referencing all the values in t
+        // ...
+    }
+
+The difference is that when you *construct* a new table, the buffers are transferred from the source vectors to new vectors in the destination. With a slice, both tables share the same underlying vectors. That's OK, though, since both tables are immutable.
+
+Using FieldReaders
+******************
+
+You can get a `FieldReader`_ for any vector in the Table passing either the `Field`_, vector index, or vector name as an argument. The signatures are the same as in ``VectorSchemaRoot``.
+
+.. code-block:: Java
+
+    FieldReader nameReader = table.getReader("user_name");
+
+Row operations
+**************
+
+Row-based access is supported by the `Row`_ object. ``Row`` provides *get()* methods by both vector name and vector position, but no *set()* operations.
+
+It is important to recognize that rows are NOT reified as objects, but rather operate like a cursor where the data from numerous logical rows in the table can be viewed (one at a time) using the same ``Row`` instance. See "Moving from row-to-row" below for information about navigating through the table.
+
+Getting a row
+*************
+
+Calling `immutableRow()` on any table instance returns a new ``Row`` instance.
+
+.. code-block:: Java
+
+    Row r = table.immutableRow();
+
+Moving from row-to-row
+**********************
+
+Since rows are iterable, you can traverse a table using a standard while loop:
+
+.. code-block:: Java
+
+    Row r = table.immutableRow();
+    while (r.hasNext()) {
+      r.next();
+      // do something useful here
+    }
+
+``Table`` implements `Iterable<Row>` so you can access rows directly from a table in an enhanced *for* loop:
+
+.. code-block:: Java
+
+    for (Row row: table) {
+      int age = row.getInt("age");
+      boolean nameIsNull = row.isNull("name");
+      ...
+    }
+
+Finally, while rows are usually iterated in the order of the underlying data vectors, but they are also positionable using the `Row#setPosition()` method, so you can skip to a specific row. Row numbers are 0-based.
+
+.. code-block:: Java
+
+    Row r = table.immutableRow();
+    int age101 = r.setPosition(101); // change position directly to 101
+
+Any changes to position are applied to all the columns in the table.
+
+Note that you must call `next()`, or `setPosition()` before accessing values via a row. Failure to do so results in a runtime exception.
+
+Read operations using rows
+**************************
+
+Methods are available for getting values by vector name and vector index, where index is the 0-based position of the vector in the table. For example, assuming 'age' is the 13th vector in 'table', the following two gets are equivalent:
+
+.. code-block:: Java
+
+    Row r = table.immutableRow();
+    r.next(); // position the row at the first value
+    int age1 = r.get("age"); // gets the value of vector named 'age' in the table at row 0
+    int age2 = r.get(12);    // gets the value of the 13th vector in the table at row 0
+
+You can also get value using a nullable ``ValueHolder``. For example:
+
+.. code-block:: Java
+
+    NullableIntHolder holder = new NullableIntHolder();
+    int b = row.getInt("age", holder);
+
+This can be used to retrieve values without creating a new Object for each.
+
+In addition to getting values, you can check if a value is null using `isNull()`. This is important if the vector contains any nulls, as asking for a value from a vector can cause NullPointerExceptions in some cases.
+
+.. code-block:: Java
+
+    boolean name0isNull = row.isNull("name");
+
+You can also get the current row number:
+
+.. code-block:: Java
+
+    int row = row.getRowNumber();
+
+Reading values as Objects
+*************************
+
+For any given vector type, the basic *get()* method returns a primitive value wherever possible. For example, *getTimeStampMicro()* returns a long value that encodes the timestamp. To get the LocalDateTime object representing that timestamp in Java, another method with 'Obj' appended to the name is provided.  For example:
+
+.. code-block:: Java
+
+    long ts = row.getTimeStampMicro();
+    LocalDateTime tsObject = row.getTimeStampMicroObj();
+
+The exception to this naming scheme is for complex vector types (List, Map, Schema, Union, DenseUnion, and ExtensionType). These always return objects rather than primitives so no "Obj" extension is required.  It is expected that some users may subclass ``Row`` to add getters that are more specific to their needs.
+
+Reading VarChars and LargeVarChars
+**********************************
+
+Strings in arrow are represented as byte arrays encoded with the UTF-8 charset. You can get either a String result or the actual byte array.
+
+.. code-block:: Java
+
+    byte[] b = row.getVarChar("first_name");
+    String s = row.getVarCharObj("first_name");       // uses the default encoding (UTF-8)
+
+Converting a Table to a VectorSchemaRoot
+****************************************
+
+Tables can be converted to vector schema roots using the *toVectorSchemaRoot()* method. Buffers are transferred to the vector schema root and the source table is cleared.
+
+.. code-block:: Java
+
+    VectorSchemaRoot root = myTable.toVectorSchemaRoot();
+
+Working with the C-Data interface
+*********************************
+
+The ability to work with native code is required for many Arrow features. This section describes how tables can be be exported for use with native code
+
+Exporting works by converting the data to a ``VectorSchemaRoot`` instance and using the existing facilities to transfer the data. You could do it yourself, but that isn't ideal because conversion to a vector schema root breaks the immutability guarantees. Using the `exportTable()` methods in the `Data`_ class avoids this concern.
+
+.. code-block:: Java
+
+    Data.exportTable(bufferAllocator, table, dictionaryProvider, outArrowArray);
+
+If the table contains dictionary-encoded vectors and was constructed with a ``DictionaryProvider``, the provider argument to `exportTable()` can be omitted and the table's provider attribute will be used:
+
+.. code-block:: Java
+
+    Data.exportTable(bufferAllocator, table, outArrowArray);
+
+.. _`ArrowBuf`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/memory/ArrowBuf.html
+.. _`Data`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/c/Data.html
+.. _`DictionaryProvider`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/dictionary/DictionaryProvider.html
+.. _`Field`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/types/pojo/Field.html
+.. _`FieldReader`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/complex/reader/FieldReader.html
+.. _`FieldVector`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/FieldVector.html
+.. _`Row`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/table/Row.html
+.. _`Schema`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/types/pojo/Schema.html
+.. _`Table`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/table/Table.html
+.. _`ValueHolder`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/holders/ValueHolder.html
+.. _`ValueVector`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/ValueVector.html
+.. _`VectorSchemaRoot`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/VectorSchemaRoot.html
diff --git a/docs/source/java/vector.rst b/docs/source/java/vector.rst
index ece07d0a777..377db71659c 100644
--- a/docs/source/java/vector.rst
+++ b/docs/source/java/vector.rst
@@ -186,7 +186,7 @@ Here is how to build a vector using writer
       writer.writeBigInt(2);
       writer.setPosition(2);
       writer.writeBigInt(3);
-      // writer.setPosition(3) is not called which means the forth value is null.
+      // writer.setPosition(3) is not called which means the fourth value is null.
       writer.setPosition(4);
       writer.writeBigInt(5);
       writer.setPosition(5);
@@ -268,6 +268,84 @@ For example, the code below shows how to build a :class:`ListVector` of int's us
      }
   }
 
+Dictionary Encoding
+===================
+
+Dictionary encoding is a form of compression where values of one type are replaced by values of a smaller type: an array of ints replacing an array of strings is a common example. The mapping between the original values and the replacements is held in a 'dictionary'. Since the dictionary needs only one copy of each of the longer values, the combination of the dictionary and the array of smaller values may use less memory. The more repetitive the original data, the greater the savings.
+
+A ``FieldVector`` can be dictionary encoded for performance or improved memory efficiency. Nearly any type of vector might be encoded if there are many values, but few unique values.
+
+There are a few steps involved in the encoding process:
+
+1. Create a regular, un-encoded vector and populate it
+2. Create a dictionary vector of the same type as the un-encoded vector. This vector must have the same values, but each unique value in the un-encoded vector need appear here only once.
+3. Create a ``Dictionary``. It will contain the dictionary vector, plus a ``DictionaryEncoding`` object that holds the encoding's metadata and settings values.
+4. Create a ``DictionaryEncoder``.
+5. Call the encode() method on the ``DictionaryEncoder`` to produce an encoded version of the original vector.
+6. (Optional) Call the decode() method on the encoded vector to re-create the original values.
+
+The encoded values will be integers. Depending on how many unique values you have, you can use ``TinyIntVector``, ``SmallIntVector``, ``IntVector``, or ``BigIntVector`` to hold them. You specify the type when you create your ``DictionaryEncoding`` instance. You might wonder where those integers come from: the dictionary vector is a regular vector, so the value's index position in that vector is used as its encoded value.
+
+Another critical attribute in ``DictionaryEncoding`` is the id. It's important to understand how the id is used, so we cover that later in this section.
+
+This result will be a new vector (for example, an ``IntVector``) that can act in place of the original vector (for example, a ``VarCharVector``). When you write the data in arrow format, it is both the new ``IntVector`` plus the dictionary that is written: you will need the dictionary later to retrieve the original values.
+
+.. code-block:: Java
+
+    // 1. create a vector for the un-encoded data and populate it
+    VarCharVector unencoded = new VarCharVector("unencoded", allocator);
+    // now put some data in it before continuing
+
+    // 2. create a vector to hold the dictionary and populate it
+    VarCharVector dictionaryVector = new VarCharVector("dictionary", allocator);
+
+    // 3. create a dictionary object
+    Dictionary dictionary = new Dictionary(dictionaryVector, new DictionaryEncoding(1L, false, null));
+
+    // 4. create a dictionary encoder
+    DictionaryEncoder encoder = new DictionaryEncoder.encode(dictionary, allocator);
+
+    // 5. encode the data
+    IntVector encoded = (IntVector) encoder.encode(unencoded);
+
+    // 6. re-create an un-encoded version from the encoded vector
+    VarCharVector decoded = (VarCharVector) encoder.decode(encoded);
+
+One thing we haven't discussed is how to create the dictionary vector from the original un-encoded values. That is left to the library user since a custom method will likely be more efficient than a general utility. Since the dictionary vector is just a normal vector, you can populate its values with the standard APIs.
+
+Finally, you can package a number of dictionaries together, which is useful if you're working with a ``VectorSchemaRoot`` with several dictionary-encoded vectors. This is done using an object called a ``DictionaryProvider``. as shown in the example below. Note that we don't put the dictionary vectors in the same ``VectorSchemaRoot`` as the data vectors, as they will generally have fewer values.
+
+
+.. code-block:: Java
+
+    DictionaryProvider.MapDictionaryProvider provider =
+        new DictionaryProvider.MapDictionaryProvider();
+
+    provider.put(dictionary);
+
+The ``DictionaryProvider`` is simply a map of identifiers to ``Dictionary`` objects, where each identifier is a long value. In the above code you will see it as the first argument to the ``DictionaryEncoding`` constructor.
+
+This is where the ``DictionaryEncoding``'s 'id' attribute comes in. This value is used to connect dictionaries to instances of ``VectorSchemaRoot``, using a ``DictionaryProvider``.  Here's how that works:
+
+* The ``VectorSchemaRoot`` has a ``Schema`` object containing a list of ``Field`` objects.
+* The field has an attribute called 'dictionary', but it holds a ``DictionaryEncoding`` rather than a ``Dictionary``
+* As mentioned, the ``DictionaryProvider`` holds dictionaries indexed by a long value. This value is the id from your ``DictionaryEncoding``.
+* To retrieve the dictionary for a vector in a ``VectorSchemaRoot``, you get the field associated with the vector, get its dictionary attribute, and use that object's id to look up the correct dictionary in the provider.
+
+.. code-block:: Java
+
+    // create the encoded vector, the Dictionary and DictionaryProvider as discussed above
+
+    // Create a VectorSchemaRoot with one encoded vector
+    VectorSchemaRoot vsr = new VectorSchemaRoot(List.of(encoded));
+
+    // now we want to decode our vector, so we retrieve its dictionary from the provider
+    Field f = vsr.getField(encoded.getName());
+    DictionaryEncoding encoding = f.getDictionary();
+    Dictionary dictionary = provider.get(encoding.getId());
+
+As you can see, a ``DictionaryProvider`` is handy for managing the dictionaries associated with a ``VectorSchemaRoot``. More importantly, it helps package the dictionaries for a ``VectorSchemaRoot`` when it's written. The classes ``ArrowFileWriter`` and ``ArrowStreamWriter`` both accept an optional ``DictionaryProvider`` argument for that purpose. You can find example code for writing dictionaries in the documentation for (:doc:`ipc`). ``ArrowReader`` and its subclasses also implement the ``DictionaryProvider`` interface, so you can retrieve the actual dictionaries when reading a file.
+
 Slicing
 =======
 
diff --git a/docs/source/java/vector_schema_root.rst b/docs/source/java/vector_schema_root.rst
index e7a1a160737..3615fe9c726 100644
--- a/docs/source/java/vector_schema_root.rst
+++ b/docs/source/java/vector_schema_root.rst
@@ -130,10 +130,34 @@ data:
     // 0 indicates start index (inclusive) and 5 indicated length (exclusive).
     VectorSchemaRoot newRoot = vectorSchemaRoot.slice(0, 5);
 
+Table
+=====
+
+A `Table`_ is an immutable tabular data structure, very similar to VectorSchemaRoot, in that it is also built on ValueVectors and schemas. Unlike VectorSchemaRoot, Table is not designed for batch processing. Here is a version of the example above, showing how to create a Table, rather than a VectorSchemaRoot:
+
+.. code-block:: Java
+
+    BitVector bitVector = new BitVector("boolean", allocator);
+    VarCharVector varCharVector = new VarCharVector("varchar", allocator);
+    bitVector.allocateNew();
+    varCharVector.allocateNew();
+    for (int i = 0; i < 10; i++) {
+      bitVector.setSafe(i, i % 2 == 0 ? 0 : 1);
+      varCharVector.setSafe(i, ("test" + i).getBytes(StandardCharsets.UTF_8));
+    }
+    bitVector.setValueCount(10);
+    varCharVector.setValueCount(10);
+
+    List<FieldVector> vectors = Arrays.asList(bitVector, varCharVector);
+    Table table = new Table(vectors);
+
+See the :doc:`table` documentation for more information.
+
 .. _`ArrowRecordBatch`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/ipc/message/ArrowRecordBatch.html
 .. _`Field`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/types/pojo/Field.html
 .. _`Flight`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/flight/package-summary.html
 .. _`Schema`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/types/pojo/Schema.html
+.. _`Table`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/table/Table.html
 .. _`VectorLoader`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/VectorLoader.html
 .. _`VectorSchemaRoot`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/VectorSchemaRoot.html
 .. _`VectorUnloader`: https://arrow.apache.org/docs/java/reference/org/apache/arrow/vector/VectorUnloader.html
diff --git a/docs/source/python/api/compute.rst b/docs/source/python/api/compute.rst
index 4a9208fd31b..1b5d7b1e052 100644
--- a/docs/source/python/api/compute.rst
+++ b/docs/source/python/api/compute.rst
@@ -342,6 +342,7 @@ String Slicing
 .. autosummary::
    :toctree: ../generated/
 
+   binary_slice
    utf8_slice_codeunits
 
 Containment Tests
@@ -500,6 +501,7 @@ Structural Transforms
    list_element
    list_flatten
    list_parent_indices
+   list_slice
    list_value_length
    make_struct
    map_lookup
@@ -525,6 +527,7 @@ Compute Options
    FilterOptions
    IndexOptions
    JoinOptions
+   ListSliceOptions
    MakeStructOptions
    MapLookupOptions
    MatchSubstringOptions
@@ -555,3 +558,12 @@ Compute Options
    TrimOptions
    VarianceOptions
    WeekOptions
+
+User-Defined Functions
+----------------------
+
+.. autosummary::
+   :toctree: ../generated/
+
+   register_scalar_function
+   ScalarUdfContext
diff --git a/docs/source/python/api/plasma.rst b/docs/source/python/api/plasma.rst
index 8df9e4e21ac..0ef21116cf4 100644
--- a/docs/source/python/api/plasma.rst
+++ b/docs/source/python/api/plasma.rst
@@ -22,6 +22,10 @@
 Plasma In-Memory Object Store
 =============================
 
+.. warning::
+
+   Plasma is deprecated since Arrow 10.0.0. It will be removed in 12.0.0 or so.
+
 Classes
 -------
 
diff --git a/docs/source/python/compute.rst b/docs/source/python/compute.rst
index bcbca9dff36..2ef4a1f754b 100644
--- a/docs/source/python/compute.rst
+++ b/docs/source/python/compute.rst
@@ -368,5 +368,148 @@ our ``even_filter`` with a ``pc.field("nums") > 5`` filter:
    nums: [[6,8,10]]
    chars: [["f","h","l"]]
 
-:class:`.Dataset` currently can be filtered using :meth:`.Dataset.to_table` method
-passing a ``filter`` argument. See :ref:`py-filter-dataset` in Dataset documentation.
+:class:`.Dataset` can similarly be filtered with the :meth:`.Dataset.filter` method.
+The method will return an instance of :class:`.Dataset` which will lazily
+apply the filter as soon as actual data of the dataset is accessed:
+
+   >>> dataset = ds.dataset(table)
+   >>> filtered = dataset.filter(pc.field("nums") < 5).filter(pc.field("nums") > 2)
+   >>> filtered.to_table()
+   pyarrow.Table
+   nums: int64
+   chars: string
+   ----
+   nums: [[3,4]]
+   chars: [["c","d"]]
+
+
+User-Defined Functions
+======================
+
+.. warning::
+   This API is **experimental**.
+
+PyArrow allows defining and registering custom compute functions.
+These functions can then be called from Python as well as C++ (and potentially
+any other implementation wrapping Arrow C++, such as the R ``arrow`` package)
+using their registered function name. 
+
+UDF support is limited to scalar functions. A scalar function is a function which
+executes elementwise operations on arrays or scalars. In general, the output of a
+scalar function does not depend on the order of values in the arguments. Note that
+such functions have a rough correspondence to the functions used in SQL expressions,
+or to NumPy `universal functions <https://numpy.org/doc/stable/reference/ufuncs.html>`_.
+
+To register a UDF, a function name, function docs, input types and
+output type need to be defined. Using :func:`pyarrow.compute.register_scalar_function`,
+
+.. code-block:: python
+
+   import numpy as np
+
+   import pyarrow as pa
+   import pyarrow.compute as pc
+
+   function_name = "numpy_gcd"
+   function_docs = {
+         "summary": "Calculates the greatest common divisor",
+         "description":
+            "Given 'x' and 'y' find the greatest number that divides\n"
+            "evenly into both x and y."
+   }
+
+   input_types = {
+      "x" : pa.int64(),
+      "y" : pa.int64()
+   }
+
+   output_type = pa.int64()
+
+   def to_np(val):
+       if isinstance(val, pa.Scalar):
+          return val.as_py()
+       else:
+          return np.array(val)
+
+   def gcd_numpy(ctx, x, y):
+       np_x = to_np(x)
+       np_y = to_np(y)
+       return pa.array(np.gcd(np_x, np_y))
+
+   pc.register_scalar_function(gcd_numpy,
+                              function_name,
+                              function_docs,
+                              input_types,
+                              output_type)
+   
+
+The implementation of a user-defined function always takes a first *context*
+parameter (named ``ctx`` in the example above) which is an instance of
+:class:`pyarrow.compute.ScalarUdfContext`.
+This context exposes several useful attributes, particularly a
+:attr:`~pyarrow.compute.ScalarUdfContext.memory_pool` to be used for
+allocations in the context of the user-defined function.
+
+You can call a user-defined function directly using :func:`pyarrow.compute.call_function`:
+
+.. code-block:: python
+
+   >>> pc.call_function("numpy_gcd", [pa.scalar(27), pa.scalar(63)])
+   <pyarrow.Int64Scalar: 9>
+   >>> pc.call_function("numpy_gcd", [pa.scalar(27), pa.array([81, 12, 5])])
+   <pyarrow.lib.Int64Array object at 0x7fcfa0e7b100>
+   [
+     27,
+     3,
+     1
+   ]
+
+Working with Datasets
+---------------------
+
+More generally, user-defined functions are usable everywhere a compute function
+can be referred by its name. For example, they can be called on a dataset's
+column using :meth:`Expression._call`.
+
+Consider an instance where the data is in a table and we want to compute
+the GCD of one column with the scalar value 30.  We will be re-using the
+"numpy_gcd" user-defined function that was created above:
+
+.. code-block:: python
+
+   >>> import pyarrow.dataset as ds
+   >>> data_table = pa.table({'category': ['A', 'B', 'C', 'D'], 'value': [90, 630, 1827, 2709]})
+   >>> dataset = ds.dataset(data_table)
+   >>> func_args = [pc.scalar(30), ds.field("value")]
+   >>> dataset.to_table(
+   ...             columns={
+   ...                 'gcd_value': ds.field('')._call("numpy_gcd", func_args),
+   ...                 'value': ds.field('value'),
+   ...                 'category': ds.field('category')
+   ...             })
+   pyarrow.Table
+   gcd_value: int64
+   value: int64
+   category: string
+   ----
+   gcd_value: [[30,30,3,3]]
+   value: [[90,630,1827,2709]]
+   category: [["A","B","C","D"]]
+
+Note that ``ds.field('')_call(...)`` returns a :func:`pyarrow.compute.Expression`.
+The arguments passed to this function call are expressions, not scalar values 
+(notice the difference between :func:`pyarrow.scalar` and :func:`pyarrow.compute.scalar`,
+the latter produces an expression). 
+This expression is evaluated when the projection operator executes it.
+
+Projection Expressions
+^^^^^^^^^^^^^^^^^^^^^^
+In the above example we used an expression to add a new column (``gcd_value``)
+to our table.  Adding new, dynamically computed, columns to a table is known as "projection"
+and there are limitations on what kinds of functions can be used in projection expressions.
+A projection function must emit a single output value for each input row.  That output value
+should be calculated entirely from the input row and should not depend on any other row.
+For example, the "numpy_gcd" function that we've been using as an example above is a valid
+function to use in a projection.  A "cumulative sum" function would not be a valid function
+since the result of each input row depends on the rows that came before.  A "drop nulls"
+function would also be invalid because it doesn't emit a value for some rows.
diff --git a/docs/source/python/dataset.rst b/docs/source/python/dataset.rst
index 2ac592d8d0c..6be5a800a5c 100644
--- a/docs/source/python/dataset.rst
+++ b/docs/source/python/dataset.rst
@@ -41,17 +41,17 @@ Tabular Datasets
 The ``pyarrow.dataset`` module provides functionality to efficiently work with
 tabular, potentially larger than memory, and multi-file datasets. This includes:
 
-* A unified interface that supports different sources and file formats
-  (Parquet, ORC, Feather / Arrow IPC, and CSV files) and different file systems
-  (local, cloud).
+* A unified interface that supports different sources and file formats and
+  different file systems (local, cloud).
 * Discovery of sources (crawling directories, handle directory-based partitioned
   datasets, basic schema normalization, ..)
 * Optimized reading with predicate pushdown (filtering rows), projection
   (selecting and deriving columns), and optionally parallel reading.
 
-Currently, only Parquet, ORC, Feather / Arrow IPC, and CSV files are
-supported. The goal is to expand this in the future to other file formats and
-data sources (e.g. database connections).
+The supported file formats currently are Parquet, Feather / Arrow IPC, CSV and
+ORC (note that ORC datasets can currently only be read and not yet written).
+The goal is to expand support to other file formats and data sources
+(e.g. database connections) in the future.
 
 For those familiar with the existing :class:`pyarrow.parquet.ParquetDataset` for
 reading Parquet datasets: ``pyarrow.dataset``'s goal is similar but not specific
diff --git a/docs/source/python/filesystems.rst b/docs/source/python/filesystems.rst
index a34ce88baea..40656f6b76f 100644
--- a/docs/source/python/filesystems.rst
+++ b/docs/source/python/filesystems.rst
@@ -156,6 +156,7 @@ addition, the constructor will also inspect configured S3 credentials as
 supported by AWS (for example the ``AWS_ACCESS_KEY_ID`` and
 ``AWS_SECRET_ACCESS_KEY`` environment variables).
 
+
 Example how you can read contents from a S3 bucket::
 
    >>> from pyarrow import fs
@@ -178,11 +179,33 @@ Example how you can read contents from a S3 bucket::
    >>> f.readall()
    b'some data'
 
+
+Note that it is important to configure :class:`S3FileSystem` with the correct
+region for the bucket being used. If `region` is not set, the AWS SDK will
+choose a value, defaulting to 'us-east-1' if the SDK version is <1.8.
+Otherwise it will try to use a variety of heuristics (environment variables,
+configuration profile, EC2 metadata server) to resolve the region.
+
+It is also possible to resolve the region from the bucket name for
+:class:`S3FileSystem` by using :func:`pyarrow.fs.resolve_s3_region` or
+:func:`pyarrow.fs.S3FileSystem.from_uri`.
+
+Here are a couple examples in code::
+
+   >>> from pyarrow import fs
+   >>> s3 = fs.S3FileSystem(region=fs.resolve_s3_region('my-test-bucket'))
+
+   # Or via URI:
+   >>> s3, path = fs.S3FileSystem.from_uri('s3://[access_key:secret_key@]bucket/path]')
+
+
 .. seealso::
 
    See the `AWS docs <https://docs.aws.amazon.com/sdk-for-cpp/v1/developer-guide/credentials.html>`__
    for the different ways to configure the AWS credentials.
 
+   :func:`pyarrow.fs.resolve_s3_region` for resolving region from a bucket name.
+
 
 .. _filesystem-gcs:
 
@@ -194,7 +217,15 @@ for GCS storage.
 
 If not running on Google Cloud Platform (GCP), this generally requires the
 environment variable ``GOOGLE_APPLICATION_CREDENTIALS`` to point to a
-JSON file containing credentials.
+JSON file containing credentials. Alternatively, use the ``gcloud`` CLI to
+generate a credentials file in the default location::
+
+   gcloud auth application-default login
+
+To connect to a public bucket without using any credentials, you must pass
+``anonymous=True`` to :class:`GcsFileSystem`. Otherwise, the filesystem
+will report ``Couldn't resolve host name`` since there are different host 
+names for authenticated and public access.
 
 Example showing how you can read contents from a GCS bucket::
 
diff --git a/docs/source/python/flight.rst b/docs/source/python/flight.rst
index d038bcce57c..f07b9511ccf 100644
--- a/docs/source/python/flight.rst
+++ b/docs/source/python/flight.rst
@@ -128,3 +128,6 @@ Middleware are fairly limited, but they can add headers to a
 request/response. On the server, they can inspect incoming headers and
 fail the request; hence, they can be used to implement custom
 authentication methods.
+
+:ref:`Flight best practices <flight-best-practices>`
+====================================================
diff --git a/docs/source/python/getting_involved.rst b/docs/source/python/getting_involved.rst
index 87fa0aca37f..f85a7ee575c 100644
--- a/docs/source/python/getting_involved.rst
+++ b/docs/source/python/getting_involved.rst
@@ -30,7 +30,7 @@ integrations in other projects, we'd be happy to have you involved:
   `dev-subscribe@arrow.apache.org <mailto:dev-subscribe@arrow.apache.org>`_.
   Share your ideas and use cases for the project or read through the
   `Archive <http://mail-archives.apache.org/mod_mbox/arrow-dev/>`_.
-* Follow our activity on `JIRA <https://issues.apache.org/jira/browse/ARROW>`_
+* Follow our activity on `GitHub <https://github.com/apache/arrow/issues>`_
 * Learn the `Format / Specification
   <https://github.com/apache/arrow/tree/master/format>`_
 
@@ -47,7 +47,7 @@ less complex to use. So while in some cases it might be easy to map what's
 in C++ to what's in Python, in many cases the C++ classes and methods are
 used as foundations to build easier to use entities.
 
-.. image:: py_arch_overview.svg
+.. image:: /python/images/py_arch_overview.svg
    :alt: Four layers of PyArrow architecture: .py, .pyx, .pxd and low level C++ code.
 
 * The ``*.py`` files in the pyarrow package are usually where the entities
@@ -69,7 +69,8 @@ used as foundations to build easier to use entities.
   for usage in Cython. Here the C++ classes and methods are declared as they are
   so that in the other ``.pyx`` files they can be used to implement Python classes,
   functions and helpers.
-* PyArrow is also based on dedicated pieces of code that are written into Arrow itself.
-  Those live into ``cpp/src/arrow/python`` directory and provide the low level
+* Apart from Arrow C++ library, which dependence is mentioned in the previous line,
+  PyArrow is also based on PyArrow C++, dedicated pieces of code that live in
+  ``python/pyarrow/src/arrow/python`` directory and provide the low level
   code for capabilities like converting to and from numpy or pandas and the classes
   that allow to use Python objects and callbacks in C++.
\ No newline at end of file
diff --git a/docs/source/python/images/py_arch_overview.svg b/docs/source/python/images/py_arch_overview.svg
new file mode 100644
index 00000000000..8f0dd8838ca
--- /dev/null
+++ b/docs/source/python/images/py_arch_overview.svg
@@ -0,0 +1 @@
+<svg version="1.1" viewBox="0.0 0.0 959.6850393700787 555.1574803149606" fill="none" stroke="none" stroke-linecap="square" stroke-miterlimit="10" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns="http://www.w3.org/2000/svg"><clipPath id="p.0"><path d="m0 0l959.68506 0l0 555.1575l-959.68506 0l0 -555.1575z" clip-rule="nonzero"/></clipPath><g clip-path="url(#p.0)"><path fill="#000000" fill-opacity="0.0" d="m0 0l959.68506 0l0 555.1575l-959.68506 0z" fill-rule="evenodd"/><path fill="#cfe2f3" d="m31.889763 414.0l272.6929 0l0 112.75592l-272.6929 0z" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m31.889763 414.0l272.6929 0l0 112.75592l-272.6929 0z" fill-rule="evenodd"/><path fill="#000000" d="m48.436638 473.75107l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm3.015625 7.25l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.891342 8.484375l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm7.656967 5.015625l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm5.761429 -3.125l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm9.96875 2.890625l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm12.540802 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm1.78125 3.78125l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm12.730179 -1.421875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188217 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.8281326 0 1.6875076 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.2031326 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.6189346 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078842 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0z" fill-rule="nonzero"/><path fill="#c9daf8" d="m335.0315 414.0l324.9449 0l0 109.88977l-324.9449 0z" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m335.0315 414.0l324.9449 0l0 109.88977l-324.9449 0z" fill-rule="evenodd"/><path fill="#000000" d="m345.26587 479.568l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813232 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766357 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297577 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.141357 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.4176636 3.46875l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813232 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm15.71875 -4.90625q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188202 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078857 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.457306 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm5.761444 -3.125l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm9.96875 2.890625l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm12.540802 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm1.78125 3.78125l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm12.730194 -1.421875q-0.921875 0.765625 -1.765625 1.09375q-0.8281555 0.3125 -1.7969055 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.9844055 -0.234375 2.9219055 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.8750305 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875305 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.6719055 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375305 0 1.6719055 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.1881714 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.2127075 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.6188965 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078857 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.457336 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.4176636 3.46875l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813232 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766357 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0z" fill-rule="nonzero"/><path fill="#000000" fill-opacity="0.0" d="m738.6221 470.61417l-78.64569 -1.669281" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m738.6221 470.61417l-72.64703 -1.5419617" fill-rule="evenodd"/><path fill="#000000" stroke="#000000" stroke-width="1.0" stroke-linecap="butt" d="m666.0101 467.42084l-4.5721436 1.5550537l4.502075 1.7476807z" fill-rule="evenodd"/><path fill="#000000" fill-opacity="0.0" d="m738.6221 404.3622l190.42517 0l0 132.50394l-190.42517 0z" fill-rule="evenodd"/><path fill="#000000" d="m749.0596 431.2822l0 -13.359375l5.046875 0q1.328125 0 2.03125 0.125q0.96875 0.171875 1.640625 0.640625q0.671875 0.453125 1.078125 1.28125q0.40625 0.828125 0.40625 1.828125q0 1.703125 -1.09375 2.890625q-1.078125 1.171875 -3.921875 1.171875l-3.421875 0l0 5.421875l-1.765625 0zm1.765625 -7.0l3.453125 0q1.71875 0 2.4375 -0.640625q0.71875 -0.640625 0.71875 -1.796875q0 -0.84375 -0.421875 -1.4375q-0.421875 -0.59375 -1.125 -0.78125q-0.4375 -0.125 -1.640625 -0.125l-3.421875 0l0 4.78125zm10.3966675 10.71875l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766357 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm21.824646 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm15.906982 1.71875l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm15.406921 5.765625l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm9.281982 -6.640625l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm10.457336 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm9.328125 2.359375q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm7.7819824 3.390625l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm8.230164 -1.640625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm15.406982 5.765625l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125z" fill-rule="nonzero"/><path fill="#000000" d="m749.2471 453.6822l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm11.120789 0l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm4.0476074 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.688171 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm6.59375 2.078125l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6052246 -10.0l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm3.5354004 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.688232 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.1569824 4.859375l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.1916504 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm7.7229614 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 -10.0l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm10.769836 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm8.485107 2.875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125z" fill-rule="nonzero"/><path fill="#000000" d="m748.85645 464.61343l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1447754 0l0 -9.671875l1.46875 0l0 1.359375q0.453125 -0.71875 1.203125 -1.140625q0.765625 -0.4375 1.71875 -0.4375q1.078125 0 1.765625 0.453125q0.6875 0.4375 0.96875 1.234375q1.15625 -1.6875 2.984375 -1.6875q1.453125 0 2.21875 0.796875q0.78125 0.796875 0.78125 2.453125l0 6.640625l-1.640625 0l0 -6.09375q0 -0.984375 -0.15625 -1.40625q-0.15625 -0.4375 -0.578125 -0.703125q-0.421875 -0.265625 -0.984375 -0.265625q-1.015625 0 -1.6875 0.6875q-0.671875 0.671875 -0.671875 2.15625l0 5.625l-1.640625 0l0 -6.28125q0 -1.09375 -0.40625 -1.640625q-0.40625 -0.546875 -1.3125 -0.546875q-0.6875 0 -1.28125 0.359375q-0.59375 0.359375 -0.859375 1.0625q-0.25 0.703125 -0.25 2.03125l0 5.015625l-1.640625 0zm15.5408325 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.844482 4.78125l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm10.81665 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.141357 5.765625l0 -9.671875l1.46875 0l0 1.359375q0.453125 -0.71875 1.203125 -1.140625q0.765625 -0.4375 1.71875 -0.4375q1.078125 0 1.765625 0.453125q0.6875 0.4375 0.96875 1.234375q1.15625 -1.6875 2.984375 -1.6875q1.453125 0 2.21875 0.796875q0.78125 0.796875 0.78125 2.453125l0 6.640625l-1.640625 0l0 -6.09375q0 -0.984375 -0.15625 -1.40625q-0.15625 -0.4375 -0.578125 -0.703125q-0.421875 -0.265625 -0.984375 -0.265625q-1.015625 0 -1.6875 0.6875q-0.671875 0.671875 -0.671875 2.15625l0 5.625l-1.640625 0l0 -6.28125q0 -1.09375 -0.40625 -1.640625q-0.40625 -0.546875 -1.3125 -0.546875q-0.6875 0 -1.28125 0.359375q-0.59375 0.359375 -0.859375 1.0625q-0.25 0.703125 -0.25 2.03125l0 5.015625l-1.640625 0zm22.165833 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.141296 5.765625l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm13.953857 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm8.230164 -1.640625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm15.406982 5.765625l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm14.465271 -6.640625l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1448364 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm25.293396 -4.6875l1.765625 0.453125q-0.5625 2.171875 -2.0 3.328125q-1.4375 1.140625 -3.53125 1.140625q-2.15625 0 -3.515625 -0.875q-1.34375 -0.890625 -2.0625 -2.546875q-0.703125 -1.671875 -0.703125 -3.59375q0 -2.078125 0.796875 -3.625q0.796875 -1.5625 2.265625 -2.359375q1.484375 -0.8125 3.25 -0.8125q2.0 0 3.359375 1.015625q1.375 1.015625 1.90625 2.875l-1.734375 0.40625q-0.46875 -1.453125 -1.359375 -2.109375q-0.875 -0.671875 -2.203125 -0.671875q-1.546875 0 -2.578125 0.734375q-1.03125 0.734375 -1.453125 1.984375q-0.421875 1.234375 -0.421875 2.5625q0 1.703125 0.5 2.96875q0.5 1.265625 1.546875 1.90625q1.046875 0.625 2.265625 0.625q1.484375 0 2.515625 -0.859375q1.03125 -0.859375 1.390625 -2.546875zm7.1760864 2.53125l0 -3.671875l-3.640625 0l0 -1.515625l3.640625 0l0 -3.640625l1.546875 0l0 3.640625l3.640625 0l0 1.515625l-3.640625 0l0 3.671875l-1.546875 0zm10.8949585 0l0 -3.671875l-3.640625 0l0 -1.515625l3.640625 0l0 -3.640625l1.546875 0l0 3.640625l3.640625 0l0 1.515625l-3.640625 0l0 3.671875l-1.546875 0zm7.8793335 2.15625l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0z" fill-rule="nonzero"/><path fill="#000000" d="m748.8096 498.4822l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.1916504 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1448364 0l0 -13.359375l1.640625 0l0 7.625l3.890625 -3.9375l2.109375 0l-3.6875 3.59375l4.0625 6.078125l-2.015625 0l-3.203125 -4.953125l-1.15625 1.125l0 3.828125l-1.640625 0zm15.953125 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm20.637146 2.21875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.40625 -1.296875q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm13.063232 0l-3.6875 -9.671875l1.734375 0l2.078125 5.796875q0.328125 0.9375 0.625 1.9375q0.203125 -0.765625 0.609375 -1.828125l2.140625 -5.90625l1.6875 0l-3.65625 9.671875l-1.53125 0zm13.265625 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.125671 5.765625l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.5720825 -2.890625l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm9.984375 -8.578125l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm3.5354614 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297546 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm19.137146 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm0.9958496 -3.375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625z" fill-rule="nonzero"/><path fill="#000000" d="m749.04395 520.8822l0 -13.359375l1.8125 0l7.015625 10.484375l0 -10.484375l1.6875 0l0 13.359375l-1.8125 0l-7.015625 -10.5l0 10.5l-1.6875 0zm19.613525 0l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm4.0476074 0l0 -9.671875l1.46875 0l0 1.359375q0.453125 -0.71875 1.203125 -1.140625q0.765625 -0.4375 1.71875 -0.4375q1.078125 0 1.765625 0.453125q0.6875 0.4375 0.96875 1.234375q1.15625 -1.6875 2.984375 -1.6875q1.453125 0 2.21875 0.796875q0.78125 0.796875 0.78125 2.453125l0 6.640625l-1.640625 0l0 -6.09375q0 -0.984375 -0.15625 -1.40625q-0.15625 -0.4375 -0.578125 -0.703125q-0.421875 -0.265625 -0.984375 -0.265625q-1.015625 0 -1.6875 0.6875q-0.671875 0.671875 -0.671875 2.15625l0 5.625l-1.640625 0l0 -6.28125q0 -1.09375 -0.40625 -1.640625q-0.40625 -0.546875 -1.3125 -0.546875q-0.6875 0 -1.28125 0.359375q-0.59375 0.359375 -0.859375 1.0625q-0.25 0.703125 -0.25 2.03125l0 5.015625l-1.640625 0zm15.7439575 0l0 -13.359375l5.046875 0q1.328125 0 2.03125 0.125q0.96875 0.171875 1.640625 0.640625q0.671875 0.453125 1.078125 1.28125q0.40625 0.828125 0.40625 1.828125q0 1.703125 -1.09375 2.890625q-1.078125 1.171875 -3.921875 1.171875l-3.421875 0l0 5.421875l-1.765625 0zm1.765625 -7.0l3.453125 0q1.71875 0 2.4375 -0.640625q0.71875 -0.640625 0.71875 -1.796875q0 -0.84375 -0.421875 -1.4375q-0.421875 -0.59375 -1.125 -0.78125q-0.4375 -0.125 -1.640625 -0.125l-3.421875 0l0 4.78125zm10.3966675 10.71875l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm22.214539 -5.296875q-0.8125 0.90625 -1.765625 1.359375q-0.953125 0.453125 -2.0625 0.453125q-2.046875 0 -3.25 -1.390625q-0.984375 -1.125 -0.984375 -2.53125q0 -1.234375 0.796875 -2.234375q0.796875 -1.0 2.390625 -1.75q-0.90625 -1.03125 -1.203125 -1.671875q-0.296875 -0.65625 -0.296875 -1.265625q0 -1.203125 0.9375 -2.078125q0.9375 -0.890625 2.375 -0.890625q1.359375 0 2.234375 0.84375q0.875 0.828125 0.875 2.0q0 1.90625 -2.53125 3.25l2.390625 3.0625q0.421875 -0.8125 0.640625 -1.859375l1.703125 0.359375q-0.4375 1.75 -1.1875 2.875q0.921875 1.21875 2.09375 2.046875l-1.109375 1.3125q-0.984375 -0.640625 -2.046875 -1.890625zm-3.328125 -6.953125q1.0625 -0.640625 1.375 -1.109375q0.3125 -0.46875 0.3125 -1.046875q0 -0.6875 -0.4375 -1.109375q-0.421875 -0.4375 -1.0625 -0.4375q-0.671875 0 -1.125 0.4375q-0.4375 0.421875 -0.4375 1.03125q0 0.3125 0.15625 0.65625q0.171875 0.34375 0.484375 0.734375l0.734375 0.84375zm2.296875 5.65625l-3.0 -3.71875q-1.328125 0.796875 -1.796875 1.46875q-0.46875 0.671875 -0.46875 1.34375q0 0.8125 0.640625 1.6875q0.65625 0.875 1.84375 0.875q0.734375 0 1.515625 -0.453125q0.796875 -0.46875 1.265625 -1.203125zm11.236267 2.875l0 -13.359375l5.046875 0q1.328125 0 2.03125 0.125q0.96875 0.171875 1.640625 0.640625q0.671875 0.453125 1.078125 1.28125q0.40625 0.828125 0.40625 1.828125q0 1.703125 -1.09375 2.890625q-1.078125 1.171875 -3.921875 1.171875l-3.421875 0l0 5.421875l-1.765625 0zm1.765625 -7.0l3.453125 0q1.71875 0 2.4375 -0.640625q0.71875 -0.640625 0.71875 -1.796875q0 -0.84375 -0.421875 -1.4375q-0.421875 -0.59375 -1.125 -0.78125q-0.4375 -0.125 -1.640625 -0.125l-3.421875 0l0 4.78125zm16.787354 5.8125q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.2037964 4.859375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.641357 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm15.594482 3.640625q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm3.5476074 1.96875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125z" fill-rule="nonzero"/><path fill="#d0e0e3" d="m31.889763 284.10498l628.0945 0l0 112.75592l-628.0945 0z" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m31.889763 284.10498l628.0945 0l0 112.75592l-628.0945 0z" fill-rule="evenodd"/><path fill="#000000" d="m42.124138 340.10605l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051788 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766342 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297592 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.141342 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 3.46875l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm15.718758 -4.90625q-0.921875 0.765625 -1.7656326 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.9843826 -0.234375 2.9218826 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.8750076 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.2500076 0 2.0156326 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.6718826 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.7500076 -0.421875 1.0937576 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188217 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078842 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.457321 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 -11.703125l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.144821 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.688217 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.96875 3.546875l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm10.519821 0l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm10.313217 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm15.906967 1.71875l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm8.485092 2.875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm8.75 3.125l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.370804 -0.234375l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.191696 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm5.644821 0l-1.515625 0l0 -13.359375l1.640625 0l0 4.765625q1.046875 -1.296875 2.65625 -1.296875q0.890625 0 1.6875 0.359375q0.796875 0.359375 1.3125 1.015625q0.515625 0.640625 0.796875 1.5625q0.296875 0.921875 0.296875 1.96875q0 2.484375 -1.234375 3.84375q-1.21875 1.359375 -2.953125 1.359375q-1.703125 0 -2.6875 -1.4375l0 1.21875zm-0.015625 -4.90625q0 1.734375 0.484375 2.515625q0.765625 1.265625 2.09375 1.265625q1.078125 0 1.859375 -0.9375q0.78125 -0.9375 0.78125 -2.78125q0 -1.890625 -0.75 -2.796875q-0.75 -0.90625 -1.828125 -0.90625q-1.0625 0 -1.859375 0.9375q-0.78125 0.9375 -0.78125 2.703125zm15.203827 3.71875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.1882324 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078827 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm11.114868 0l0 -1.875l1.875 0l0 1.875l-1.875 0zm4.7301636 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm7.7976074 4.78125l3.53125 -5.03125l-3.265625 -4.640625l2.046875 0l1.484375 2.265625q0.421875 0.640625 0.671875 1.078125q0.40625 -0.59375 0.734375 -1.0625l1.640625 -2.28125l1.953125 0l-3.34375 4.546875l3.59375 5.125l-2.015625 0l-1.984375 -3.0l-0.515625 -0.8125l-2.546875 3.8125l-1.984375 0zm16.6875 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125z" fill-rule="nonzero"/><path fill="#000000" d="m42.124138 362.10605l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051788 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766342 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297592 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.141342 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 3.46875l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm15.718758 -4.90625q-0.921875 0.765625 -1.7656326 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.9843826 -0.234375 2.9218826 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.8750076 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.2500076 0 2.0156326 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.6718826 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.7500076 -0.421875 1.0937576 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188217 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078842 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.457321 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 -11.703125l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.144821 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.688217 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.96875 3.546875l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm10.519821 0l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm10.313217 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm15.906967 1.71875l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm8.485092 2.875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm8.75 3.125l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.370804 -0.234375l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.191696 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm5.644821 0l-1.515625 0l0 -13.359375l1.640625 0l0 4.765625q1.046875 -1.296875 2.65625 -1.296875q0.890625 0 1.6875 0.359375q0.796875 0.359375 1.3125 1.015625q0.515625 0.640625 0.796875 1.5625q0.296875 0.921875 0.296875 1.96875q0 2.484375 -1.234375 3.84375q-1.21875 1.359375 -2.953125 1.359375q-1.703125 0 -2.6875 -1.4375l0 1.21875zm-0.015625 -4.90625q0 1.734375 0.484375 2.515625q0.765625 1.265625 2.09375 1.265625q1.078125 0 1.859375 -0.9375q0.78125 -0.9375 0.78125 -2.78125q0 -1.890625 -0.75 -2.796875q-0.75 -0.90625 -1.828125 -0.90625q-1.0625 0 -1.859375 0.9375q-0.78125 0.9375 -0.78125 2.703125zm15.203827 3.71875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.1882324 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078827 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.176086 3.703125l0 -1.1875l10.859375 0l0 1.1875l-10.859375 0zm11.172607 -9.28125q0.703125 -0.015625 1.140625 -0.375q0.453125 -0.359375 0.59375 -0.984375q0.140625 -0.625 0.140625 -2.140625q0.015625 -1.53125 0.0625 -2.015625q0.09375 -0.765625 0.3125 -1.234375q0.21875 -0.46875 0.546875 -0.734375q0.328125 -0.28125 0.84375 -0.421875q0.34375 -0.09375 1.125 -0.09375l0.515625 0l0 1.421875l-0.28125 0q-0.953125 0 -1.265625 0.34375q-0.3125 0.34375 -0.3125 1.53125q0 2.390625 -0.09375 3.015625q-0.15625 0.96875 -0.5625 1.5q-0.390625 0.53125 -1.234375 0.9375q1.0 0.421875 1.4375 1.28125q0.453125 0.859375 0.453125 2.8125q0 1.78125 0.046875 2.125q0.0625 0.609375 0.359375 0.859375q0.296875 0.25 1.171875 0.25l0.28125 0l0 1.421875l-0.515625 0q-0.890625 0 -1.296875 -0.140625q-0.578125 -0.203125 -0.96875 -0.6875q-0.375 -0.46875 -0.5 -1.1875q-0.109375 -0.71875 -0.125 -2.359375q0 -1.640625 -0.140625 -2.265625q-0.140625 -0.625 -0.59375 -0.984375q-0.4375 -0.375 -1.140625 -0.390625l0 -1.484375zm7.340271 5.578125l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm4.1364136 -2.890625l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm10.40625 2.890625l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0zm10.335327 0l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm4.7457886 0l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.1917114 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm3.8323364 0.796875l1.59375 0.234375q0.109375 0.75 0.5625 1.078125q0.609375 0.453125 1.671875 0.453125q1.140625 0 1.75 -0.453125q0.625 -0.453125 0.84375 -1.265625q0.125 -0.5 0.109375 -2.109375q-1.0625 1.265625 -2.671875 1.265625q-2.0 0 -3.09375 -1.4375q-1.09375 -1.4375 -1.09375 -3.453125q0 -1.390625 0.5 -2.5625q0.515625 -1.171875 1.453125 -1.796875q0.953125 -0.640625 2.25 -0.640625q1.703125 0 2.8125 1.375l0 -1.15625l1.515625 0l0 8.359375q0 2.265625 -0.46875 3.203125q-0.453125 0.9375 -1.453125 1.484375q-0.984375 0.546875 -2.453125 0.546875q-1.71875 0 -2.796875 -0.78125q-1.0625 -0.765625 -1.03125 -2.34375zm1.359375 -5.8125q0 1.90625 0.75 2.78125q0.765625 0.875 1.90625 0.875q1.125 0 1.890625 -0.859375q0.765625 -0.875 0.765625 -2.734375q0 -1.78125 -0.796875 -2.671875q-0.78125 -0.90625 -1.890625 -0.90625q-1.09375 0 -1.859375 0.890625q-0.765625 0.875 -0.765625 2.625zm9.328857 5.015625l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm13.953857 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm2.0270386 1.46875l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0zm10.335327 0l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm11.417664 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm15.453857 4.578125q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm7.7819824 3.390625l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm17.000732 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.125732 5.765625l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.6202393 0l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0zm9.288452 -10.90625l0.421875 -1.296875q1.453125 0.515625 2.109375 0.890625q-0.171875 -1.65625 -0.1875 -2.265625l1.328125 0q-0.03125 0.890625 -0.21875 2.25q0.9375 -0.46875 2.15625 -0.875l0.421875 1.296875q-1.15625 0.390625 -2.265625 0.515625q0.546875 0.484375 1.5625 1.71875l-1.09375 0.78125q-0.53125 -0.734375 -1.25 -1.96875q-0.671875 1.28125 -1.1875 1.96875l-1.078125 -0.78125q1.0625 -1.296875 1.515625 -1.71875q-1.171875 -0.234375 -2.234375 -0.515625zm12.385254 5.328125l0 1.484375q-0.703125 0.015625 -1.140625 0.390625q-0.4375 0.359375 -0.59375 0.984375q-0.140625 0.625 -0.15625 2.15625q0 1.515625 -0.046875 2.0q-0.078125 0.765625 -0.3125 1.21875q-0.21875 0.46875 -0.546875 0.75q-0.328125 0.28125 -0.84375 0.421875q-0.34375 0.09375 -1.125 0.09375l-0.515625 0l0 -1.421875l0.28125 0q0.953125 0 1.265625 -0.34375q0.3125 -0.34375 0.3125 -1.53125q0 -2.28125 0.078125 -2.890625q0.140625 -1.015625 0.578125 -1.609375q0.4375 -0.609375 1.25 -0.953125q-1.046875 -0.5 -1.484375 -1.328125q-0.421875 -0.828125 -0.421875 -2.78125q0 -1.78125 -0.046875 -2.125q-0.0625 -0.609375 -0.359375 -0.84375q-0.296875 -0.25 -1.171875 -0.25l-0.28125 0l0 -1.421875l0.515625 0q0.890625 0 1.296875 0.140625q0.578125 0.203125 0.953125 0.6875q0.390625 0.46875 0.5 1.1875q0.125 0.71875 0.125 2.359375q0.015625 1.640625 0.15625 2.265625q0.15625 0.609375 0.59375 0.984375q0.4375 0.359375 1.140625 0.375zm2.215271 5.578125l0 -1.875l1.875 0l0 1.875l-1.875 0zm4.7301636 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm7.7976074 4.78125l3.53125 -5.03125l-3.265625 -4.640625l2.046875 0l1.484375 2.265625q0.421875 0.640625 0.671875 1.078125q0.40625 -0.59375 0.734375 -1.0625l1.640625 -2.28125l1.953125 0l-3.34375 4.546875l3.59375 5.125l-2.015625 0l-1.984375 -3.0l-0.515625 -0.8125l-2.546875 3.8125l-1.984375 0zm16.6875 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125z" fill-rule="nonzero"/><path fill="#000000" fill-opacity="0.0" d="m737.68506 341.04987l-77.700806 -0.56692505" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m737.68506 341.04987l-71.70099 -0.5231323" fill-rule="evenodd"/><path fill="#000000" stroke="#000000" stroke-width="1.0" stroke-linecap="butt" d="m665.99615 338.87503l-4.550049 1.6185608l4.52594 1.6848145z" fill-rule="evenodd"/><path fill="#000000" fill-opacity="0.0" d="m737.68506 285.82153l190.42517 0l0 109.88974l-190.42517 0z" fill-rule="evenodd"/><path fill="#000000" d="m748.12256 312.74152l0 -13.359375l4.609375 0q1.546875 0 2.375 0.203125q1.140625 0.25 1.953125 0.953125q1.0625 0.890625 1.578125 2.28125q0.53125 1.390625 0.53125 3.171875q0 1.515625 -0.359375 2.703125q-0.359375 1.171875 -0.921875 1.9375q-0.546875 0.765625 -1.203125 1.21875q-0.65625 0.4375 -1.59375 0.671875q-0.9375 0.21875 -2.140625 0.21875l-4.828125 0zm1.765625 -1.578125l2.859375 0q1.3125 0 2.0625 -0.234375q0.75 -0.25 1.203125 -0.703125q0.625 -0.625 0.96875 -1.6875q0.359375 -1.0625 0.359375 -2.578125q0 -2.09375 -0.6875 -3.21875q-0.6875 -1.125 -1.671875 -1.5q-0.703125 -0.28125 -2.28125 -0.28125l-2.8125 0l0 10.203125zm18.12915 -1.53125l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm15.453857 2.21875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.96875 3.546875l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm10.504211 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.1882324 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm12.5407715 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm7.7819824 3.390625l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 -10.0l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm3.5354614 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.719421 -2.890625l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm14.55835 -1.953125q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.688171 4.84375l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm13.554138 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm17.000732 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625z" fill-rule="nonzero"/><path fill="#000000" d="m757.6538 330.454l1.765625 0.453125q-0.5625 2.171875 -2.0 3.328125q-1.4375 1.140625 -3.53125 1.140625q-2.15625 0 -3.515625 -0.875q-1.34375 -0.890625 -2.0625 -2.546875q-0.703125 -1.671875 -0.703125 -3.59375q0 -2.078125 0.796875 -3.625q0.796875 -1.5625 2.265625 -2.359375q1.484375 -0.8125 3.25 -0.8125q2.0 0 3.359375 1.015625q1.375 1.015625 1.90625 2.875l-1.734375 0.40625q-0.46875 -1.453125 -1.359375 -2.109375q-0.875 -0.671875 -2.203125 -0.671875q-1.546875 0 -2.578125 0.734375q-1.03125 0.734375 -1.453125 1.984375q-0.421875 1.234375 -0.421875 2.5625q0 1.703125 0.5 2.96875q0.5 1.265625 1.546875 1.90625q1.046875 0.625 2.265625 0.625q1.484375 0 2.515625 -0.859375q1.03125 -0.859375 1.390625 -2.546875zm7.1760254 2.53125l0 -3.671875l-3.640625 0l0 -1.515625l3.640625 0l0 -3.640625l1.546875 0l0 3.640625l3.640625 0l0 1.515625l-3.640625 0l0 3.671875l-1.546875 0zm10.8949585 0l0 -3.671875l-3.640625 0l0 -1.515625l3.640625 0l0 -3.640625l1.546875 0l0 3.640625l3.640625 0l0 1.515625l-3.640625 0l0 3.671875l-1.546875 0zm18.953308 -1.390625l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.96875 3.546875l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm10.50415 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm3.5476074 1.96875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm9.328125 0l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm16.609375 -0.21875l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm8.485107 2.875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm21.480164 1.703125q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.2038574 4.859375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.641357 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125z" fill-rule="nonzero"/><path fill="#000000" d="m748.31006 357.5415l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm11.120789 0l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm4.0476074 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.688171 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm6.59375 2.078125l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6052246 -10.0l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm3.5354004 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.719482 -2.890625l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm18.745789 1.421875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm16.688232 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm7.7819824 3.390625l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm13.100952 0.28125q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.1882324 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm12.8533325 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625z" fill-rule="nonzero"/><path fill="#000000" d="m754.24756 379.94153l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm3.3912964 -2.890625l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm16.609375 -0.21875l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm15.406982 5.765625l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm14.465271 -6.640625l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1448364 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm25.293396 -4.6875l1.765625 0.453125q-0.5625 2.171875 -2.0 3.328125q-1.4375 1.140625 -3.53125 1.140625q-2.15625 0 -3.515625 -0.875q-1.34375 -0.890625 -2.0625 -2.546875q-0.703125 -1.671875 -0.703125 -3.59375q0 -2.078125 0.796875 -3.625q0.796875 -1.5625 2.265625 -2.359375q1.484375 -0.8125 3.25 -0.8125q2.0 0 3.359375 1.015625q1.375 1.015625 1.90625 2.875l-1.734375 0.40625q-0.46875 -1.453125 -1.359375 -2.109375q-0.875 -0.671875 -2.203125 -0.671875q-1.546875 0 -2.578125 0.734375q-1.03125 0.734375 -1.453125 1.984375q-0.421875 1.234375 -0.421875 2.5625q0 1.703125 0.5 2.96875q0.5 1.265625 1.546875 1.90625q1.046875 0.625 2.265625 0.625q1.484375 0 2.515625 -0.859375q1.03125 -0.859375 1.390625 -2.546875zm3.6604614 8.40625l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766357 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297546 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0z" fill-rule="nonzero"/><path fill="#d0e0e3" d="m31.889763 154.20998l628.0945 0l0 112.755905l-628.0945 0z" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m31.889763 154.20998l628.0945 0l0 112.755905l-628.0945 0z" fill-rule="evenodd"/><path fill="#000000" d="m42.124138 210.21104l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051788 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766342 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297592 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.141342 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 3.46875l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm15.718758 -4.90625q-0.921875 0.765625 -1.7656326 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.9843826 -0.234375 2.9218826 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.8750076 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.2500076 0 2.0156326 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.6718826 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.7500076 -0.421875 1.0937576 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188217 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078842 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.457321 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.370804 -0.234375l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.191696 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm5.644821 0l-1.515625 0l0 -13.359375l1.640625 0l0 4.765625q1.046875 -1.296875 2.65625 -1.296875q0.890625 0 1.6875 0.359375q0.796875 0.359375 1.3125 1.015625q0.515625 0.640625 0.796875 1.5625q0.296875 0.921875 0.296875 1.96875q0 2.484375 -1.234375 3.84375q-1.21875 1.359375 -2.953125 1.359375q-1.703125 0 -2.6875 -1.4375l0 1.21875zm-0.015625 -4.90625q0 1.734375 0.484375 2.515625q0.765625 1.265625 2.09375 1.265625q1.078125 0 1.859375 -0.9375q0.78125 -0.9375 0.78125 -2.78125q0 -1.890625 -0.75 -2.796875q-0.75 -0.90625 -1.828125 -0.90625q-1.0625 0 -1.859375 0.9375q-0.78125 0.9375 -0.78125 2.703125zm9.344467 4.90625l0 -1.875l1.875 0l0 1.875l-1.875 0zm4.730179 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm8.3125 -3.71875l3.53125 -5.03125l-3.265625 -4.640625l2.046875 0l1.484375 2.265625q0.421875 0.640625 0.671875 1.078125q0.40625 -0.59375 0.734375 -1.0625l1.640625 -2.28125l1.953125 0l-3.34375 4.546875l3.59375 5.125l-2.015625 0l-1.984375 -3.0l-0.515625 -0.8125l-2.546875 3.8125l-1.984375 0z" fill-rule="nonzero"/><path fill="#000000" d="m42.124138 232.21104l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051788 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766342 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297592 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.141342 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 3.46875l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm15.718758 -4.90625q-0.921875 0.765625 -1.7656326 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.9843826 -0.234375 2.9218826 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.8750076 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.2500076 0 2.0156326 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.6718826 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.7500076 -0.421875 1.0937576 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188217 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078842 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.457321 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm5.698929 -5.8125q0.703125 -0.015625 1.140625 -0.375q0.453125 -0.359375 0.59375 -0.984375q0.140625 -0.625 0.140625 -2.140625q0.015625 -1.53125 0.0625 -2.015625q0.09375 -0.765625 0.3125 -1.234375q0.21875 -0.46875 0.546875 -0.734375q0.328125 -0.28125 0.84375 -0.421875q0.34375 -0.09375 1.125 -0.09375l0.515625 0l0 1.421875l-0.28125 0q-0.953125 0 -1.265625 0.34375q-0.3125 0.34375 -0.3125 1.53125q0 2.390625 -0.09375 3.015625q-0.15625 0.96875 -0.5625 1.5q-0.390625 0.53125 -1.234375 0.9375q1.0 0.421875 1.4375 1.28125q0.453125 0.859375 0.453125 2.8125q0 1.78125 0.046875 2.125q0.0625 0.609375 0.359375 0.859375q0.296875 0.25 1.171875 0.25l0.28125 0l0 1.421875l-0.515625 0q-0.890625 0 -1.296875 -0.140625q-0.578125 -0.203125 -0.96875 -0.6875q-0.375 -0.46875 -0.5 -1.1875q-0.109375 -0.71875 -0.125 -2.359375q0 -1.640625 -0.140625 -2.265625q-0.140625 -0.625 -0.59375 -0.984375q-0.4375 -0.375 -1.140625 -0.390625l0 -1.484375zm5.434021 9.28125l0 -1.1875l10.859375 0l0 1.1875l-10.859375 0zm18.203842 -7.25l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.40625 -1.296875q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297592 4.84375l0 -9.671875l1.46875 0l0 1.359375q0.453125 -0.71875 1.203125 -1.140625q0.765625 -0.4375 1.71875 -0.4375q1.078125 0 1.765625 0.453125q0.6875 0.4375 0.96875 1.234375q1.15625 -1.6875 2.984375 -1.6875q1.453125 0 2.21875 0.796875q0.78125 0.796875 0.78125 2.453125l0 6.640625l-1.640625 0l0 -6.09375q0 -0.984375 -0.15625 -1.40625q-0.15625 -0.4375 -0.578125 -0.703125q-0.421875 -0.265625 -0.984375 -0.265625q-1.015625 0 -1.6875 0.6875q-0.671875 0.671875 -0.671875 2.15625l0 5.625l-1.640625 0l0 -6.28125q0 -1.09375 -0.40625 -1.640625q-0.40625 -0.546875 -1.3125 -0.546875q-0.6875 0 -1.28125 0.359375q-0.59375 0.359375 -0.859375 1.0625q-0.25 0.703125 -0.25 2.03125l0 5.015625l-1.640625 0zm15.540802 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm15.219467 4.78125l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm7.625717 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm8.230179 -1.640625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.094452 5.765625l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.6135864 0l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0zm8.429108 3.703125l0 -1.1875l10.859375 0l0 1.1875l-10.859375 0zm18.203827 -7.25l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.359375 0.65625l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm12.671875 2.890625l-3.6875 -9.671875l1.734375 0l2.078125 5.796875q0.328125 0.9375 0.625 1.9375q0.203125 -0.765625 0.609375 -1.828125l2.140625 -5.90625l1.6875 0l-3.65625 9.671875l-1.53125 0zm5.677063 0l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0zm8.429077 3.703125l0 -1.1875l10.859375 0l0 1.1875l-10.859375 0zm18.156982 -3.703125l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm15.594482 3.640625q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm7.7819824 3.390625l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm7.9176636 0.28125q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm3.5476074 1.96875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm16.609375 -0.21875l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm12.719482 4.296875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm2.0270386 1.46875l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0zm8.429077 3.703125l0 -1.1875l10.859375 0l0 1.1875l-10.859375 0zm11.235107 -14.609375l0.421875 -1.296875q1.453125 0.515625 2.109375 0.890625q-0.171875 -1.65625 -0.1875 -2.265625l1.328125 0q-0.03125 0.890625 -0.21875 2.25q0.9375 -0.46875 2.15625 -0.875l0.421875 1.296875q-1.15625 0.390625 -2.265625 0.515625q0.546875 0.484375 1.5625 1.71875l-1.09375 0.78125q-0.53125 -0.734375 -1.25 -1.96875q-0.671875 1.28125 -1.1875 1.96875l-1.078125 -0.78125q1.0625 -1.296875 1.515625 -1.71875q-1.171875 -0.234375 -2.234375 -0.515625zm12.385254 5.328125l0 1.484375q-0.703125 0.015625 -1.140625 0.390625q-0.4375 0.359375 -0.59375 0.984375q-0.140625 0.625 -0.15625 2.15625q0 1.515625 -0.046875 2.0q-0.078125 0.765625 -0.3125 1.21875q-0.21875 0.46875 -0.546875 0.75q-0.328125 0.28125 -0.84375 0.421875q-0.34375 0.09375 -1.125 0.09375l-0.515625 0l0 -1.421875l0.28125 0q0.953125 0 1.265625 -0.34375q0.3125 -0.34375 0.3125 -1.53125q0 -2.28125 0.078125 -2.890625q0.140625 -1.015625 0.578125 -1.609375q0.4375 -0.609375 1.25 -0.953125q-1.046875 -0.5 -1.484375 -1.328125q-0.421875 -0.828125 -0.421875 -2.78125q0 -1.78125 -0.046875 -2.125q-0.0625 -0.609375 -0.359375 -0.84375q-0.296875 -0.25 -1.171875 -0.25l-0.28125 0l0 -1.421875l0.515625 0q0.890625 0 1.296875 0.140625q0.578125 0.203125 0.953125 0.6875q0.390625 0.46875 0.5 1.1875q0.125 0.71875 0.125 2.359375q0.015625 1.640625 0.15625 2.265625q0.15625 0.609375 0.59375 0.984375q0.4375 0.359375 1.140625 0.375zm2.215271 5.578125l0 -1.875l1.875 0l0 1.875l-1.875 0zm4.7301636 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813232 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm8.3125 -3.71875l3.53125 -5.03125l-3.265625 -4.640625l2.046875 0l1.484375 2.265625q0.421875 0.640625 0.671875 1.078125q0.40625 -0.59375 0.734375 -1.0625l1.640625 -2.28125l1.953125 0l-3.34375 4.546875l3.59375 5.125l-2.015625 0l-1.984375 -3.0l-0.515625 -0.8125l-2.546875 3.8125l-1.984375 0z" fill-rule="nonzero"/><path fill="#000000" fill-opacity="0.0" d="m737.68506 211.15486l-77.700806 -0.5669403" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m737.68506 211.15486l-71.70099 -0.52316284" fill-rule="evenodd"/><path fill="#000000" stroke="#000000" stroke-width="1.0" stroke-linecap="butt" d="m665.99615 208.98001l-4.550049 1.618576l4.52594 1.6847992z" fill-rule="evenodd"/><path fill="#000000" fill-opacity="0.0" d="m737.68506 155.92651l190.42517 0l0 109.88977l-190.42517 0z" fill-rule="evenodd"/><path fill="#000000" d="m757.6538 178.15901l1.765625 0.453125q-0.5625 2.171875 -2.0 3.328125q-1.4375 1.140625 -3.53125 1.140625q-2.15625 0 -3.515625 -0.875q-1.34375 -0.890625 -2.0625 -2.546875q-0.703125 -1.671875 -0.703125 -3.59375q0 -2.078125 0.796875 -3.625q0.796875 -1.5625 2.265625 -2.359375q1.484375 -0.8125 3.25 -0.8125q2.0 0 3.359375 1.015625q1.375 1.015625 1.90625 2.875l-1.734375 0.40625q-0.46875 -1.453125 -1.359375 -2.109375q-0.875 -0.671875 -2.203125 -0.671875q-1.546875 0 -2.578125 0.734375q-1.03125 0.734375 -1.453125 1.984375q-0.421875 1.234375 -0.421875 2.5625q0 1.703125 0.5 2.96875q0.5 1.265625 1.546875 1.90625q1.046875 0.625 2.265625 0.625q1.484375 0 2.515625 -0.859375q1.03125 -0.859375 1.390625 -2.546875zm3.6604004 8.40625l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6052246 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766296 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm15.559021 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1448364 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm13.953857 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm8.230164 -1.640625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.125732 5.765625l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.2282715 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.688232 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.1569824 4.859375l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0z" fill-rule="nonzero"/><path fill="#000000" d="m747.91943 193.77776l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1447754 0l0 -9.671875l1.46875 0l0 1.359375q0.453125 -0.71875 1.203125 -1.140625q0.765625 -0.4375 1.71875 -0.4375q1.078125 0 1.765625 0.453125q0.6875 0.4375 0.96875 1.234375q1.15625 -1.6875 2.984375 -1.6875q1.453125 0 2.21875 0.796875q0.78125 0.796875 0.78125 2.453125l0 6.640625l-1.640625 0l0 -6.09375q0 -0.984375 -0.15625 -1.40625q-0.15625 -0.4375 -0.578125 -0.703125q-0.421875 -0.265625 -0.984375 -0.265625q-1.015625 0 -1.6875 0.6875q-0.671875 0.671875 -0.671875 2.15625l0 5.625l-1.640625 0l0 -6.28125q0 -1.09375 -0.40625 -1.640625q-0.40625 -0.546875 -1.3125 -0.546875q-0.6875 0 -1.28125 0.359375q-0.59375 0.359375 -0.859375 1.0625q-0.25 0.703125 -0.25 2.03125l0 5.015625l-1.640625 0zm15.5408325 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.844482 4.78125l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm10.81665 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.141357 5.765625l0 -9.671875l1.46875 0l0 1.359375q0.453125 -0.71875 1.203125 -1.140625q0.765625 -0.4375 1.71875 -0.4375q1.078125 0 1.765625 0.453125q0.6875 0.4375 0.96875 1.234375q1.15625 -1.6875 2.984375 -1.6875q1.453125 0 2.21875 0.796875q0.78125 0.796875 0.78125 2.453125l0 6.640625l-1.640625 0l0 -6.09375q0 -0.984375 -0.15625 -1.40625q-0.15625 -0.4375 -0.578125 -0.703125q-0.421875 -0.265625 -0.984375 -0.265625q-1.015625 0 -1.6875 0.6875q-0.671875 0.671875 -0.671875 2.15625l0 5.625l-1.640625 0l0 -6.28125q0 -1.09375 -0.40625 -1.640625q-0.40625 -0.546875 -1.3125 -0.546875q-0.6875 0 -1.28125 0.359375q-0.59375 0.359375 -0.859375 1.0625q-0.25 0.703125 -0.25 2.03125l0 5.015625l-1.640625 0zm22.165833 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.141296 5.765625l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm13.953857 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm7.9176636 0.28125q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm7.7819824 3.390625l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 -10.0l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm3.5354614 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm14.949646 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.688232 4.84375l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0z" fill-rule="nonzero"/><path fill="#000000" d="m751.49756 226.17775l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm17.000732 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm14.527771 5.765625l0 -13.359375l5.046875 0q1.328125 0 2.03125 0.125q0.96875 0.171875 1.640625 0.640625q0.671875 0.453125 1.078125 1.28125q0.40625 0.828125 0.40625 1.828125q0 1.703125 -1.09375 2.890625q-1.078125 1.171875 -3.921875 1.171875l-3.421875 0l0 5.421875l-1.765625 0zm1.765625 -7.0l3.453125 0q1.71875 0 2.4375 -0.640625q0.71875 -0.640625 0.71875 -1.796875q0 -0.84375 -0.421875 -1.4375q-0.421875 -0.59375 -1.125 -0.78125q-0.4375 -0.125 -1.640625 -0.125l-3.421875 0l0 4.78125zm10.3966675 10.71875l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm8.140625 -3.71875l5.125 -13.359375l1.90625 0l5.46875 13.359375l-2.015625 0l-1.546875 -4.046875l-5.59375 0l-1.46875 4.046875l-1.875 0zm3.859375 -5.484375l4.53125 0l-1.40625 -3.703125q-0.625 -1.6875 -0.9375 -2.765625q-0.265625 1.28125 -0.71875 2.546875l-1.46875 3.921875zm9.8342285 5.484375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.2126465 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.6189575 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078796 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0z" fill-rule="nonzero"/><path fill="#000000" d="m747.91943 253.74963l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm15.203796 3.59375q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm10.516357 1.3125l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm3.015625 3.546875l0 -13.359375l1.640625 0l0 7.625l3.890625 -3.9375l2.109375 0l-3.6875 3.59375l4.0625 6.078125l-2.015625 0l-3.203125 -4.953125l-1.15625 1.125l0 3.828125l-1.640625 0zm15.640625 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm3.8913574 5.65625l1.59375 0.234375q0.109375 0.75 0.5625 1.078125q0.609375 0.453125 1.671875 0.453125q1.140625 0 1.75 -0.453125q0.625 -0.453125 0.84375 -1.265625q0.125 -0.5 0.109375 -2.109375q-1.0625 1.265625 -2.671875 1.265625q-2.0 0 -3.09375 -1.4375q-1.09375 -1.4375 -1.09375 -3.453125q0 -1.390625 0.5 -2.5625q0.515625 -1.171875 1.453125 -1.796875q0.953125 -0.640625 2.25 -0.640625q1.703125 0 2.8125 1.375l0 -1.15625l1.515625 0l0 8.359375q0 2.265625 -0.46875 3.203125q-0.453125 0.9375 -1.453125 1.484375q-0.984375 0.546875 -2.453125 0.546875q-1.71875 0 -2.796875 -0.78125q-1.0625 -0.765625 -1.03125 -2.34375zm1.359375 -5.8125q0 1.90625 0.75 2.78125q0.765625 0.875 1.90625 0.875q1.125 0 1.890625 -0.859375q0.765625 -0.875 0.765625 -2.734375q0 -1.78125 -0.796875 -2.671875q-0.78125 -0.90625 -1.890625 -0.90625q-1.09375 0 -1.859375 0.890625q-0.765625 0.875 -0.765625 2.625zm15.953857 1.90625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625z" fill-rule="nonzero"/><path fill="#d9ead3" d="m31.889763 16.737534l628.0945 0l0 112.755905l-628.0945 0z" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m31.889763 16.737534l628.0945 0l0 112.755905l-628.0945 0z" fill-rule="evenodd"/><path fill="#000000" d="m42.124138 83.73861l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051788 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766342 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297592 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.141342 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 3.46875l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm15.718758 -4.90625q-0.921875 0.765625 -1.7656326 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.9843826 -0.234375 2.9218826 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.8750076 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.2500076 0 2.0156326 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.6718826 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.7500076 -0.421875 1.0937576 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188217 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078842 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.457321 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm5.761429 -11.140625l0.421875 -1.296875q1.453125 0.515625 2.109375 0.890625q-0.171875 -1.65625 -0.1875 -2.265625l1.328125 0q-0.03125 0.890625 -0.21875 2.25q0.9375 -0.46875 2.15625 -0.875l0.421875 1.296875q-1.15625 0.390625 -2.265625 0.515625q0.546875 0.484375 1.5625 1.71875l-1.09375 0.78125q-0.53125 -0.734375 -1.25 -1.96875q-0.671875 1.28125 -1.1875 1.96875l-1.078125 -0.78125q1.0625 -1.296875 1.515625 -1.71875q-1.171875 -0.234375 -2.234375 -0.515625zm8.369644 10.90625l0 -1.875l1.875 0l0 1.875l-1.875 0zm4.730179 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125z" fill-rule="nonzero"/><path fill="#000000" fill-opacity="0.0" d="m737.68506 73.68241l-77.700806 -0.56692505" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m737.68506 73.68241l-71.70099 -0.5231476" fill-rule="evenodd"/><path fill="#000000" stroke="#000000" stroke-width="1.0" stroke-linecap="butt" d="m665.99615 71.507576l-4.550049 1.618576l4.52594 1.6847992z" fill-rule="evenodd"/><path fill="#000000" fill-opacity="0.0" d="m737.68506 29.47769l190.42517 0l0 87.27559l-190.42517 0z" fill-rule="evenodd"/><path fill="#000000" d="m748.12256 56.39769l0 -13.359375l5.046875 0q1.328125 0 2.03125 0.125q0.96875 0.171875 1.640625 0.640625q0.671875 0.453125 1.078125 1.28125q0.40625 0.828125 0.40625 1.828125q0 1.703125 -1.09375 2.890625q-1.078125 1.171875 -3.921875 1.171875l-3.421875 0l0 5.421875l-1.765625 0zm1.765625 -7.0l3.453125 0q1.71875 0 2.4375 -0.640625q0.71875 -0.640625 0.71875 -1.796875q0 -0.84375 -0.421875 -1.4375q-0.421875 -0.59375 -1.125 -0.78125q-0.4375 -0.125 -1.640625 -0.125l-3.421875 0l0 4.78125zm16.802917 7.0l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm5.5476074 0l-1.515625 0l0 -13.359375l1.640625 0l0 4.765625q1.046875 -1.296875 2.65625 -1.296875q0.890625 0 1.6875 0.359375q0.796875 0.359375 1.3125 1.015625q0.515625 0.640625 0.796875 1.5625q0.296875 0.921875 0.296875 1.96875q0 2.484375 -1.234375 3.84375q-1.21875 1.359375 -2.953125 1.359375q-1.703125 0 -2.6875 -1.4375l0 1.21875zm-0.015625 -4.90625q0 1.734375 0.484375 2.515625q0.765625 1.265625 2.09375 1.265625q1.078125 0 1.859375 -0.9375q0.78125 -0.9375 0.78125 -2.78125q0 -1.890625 -0.75 -2.796875q-0.75 -0.90625 -1.828125 -0.90625q-1.0625 0 -1.859375 0.9375q-0.78125 0.9375 -0.78125 2.703125zm8.844482 4.90625l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.1916504 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm10.457336 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm8.198914 -7.921875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1448364 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm13.953857 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm8.230164 -1.640625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.125732 5.765625l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.6188965 0l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm11.105225 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm10.516296 1.3125l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm9.640625 0.4375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm13.715271 0.921875q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.688232 4.84375l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0z" fill-rule="nonzero"/><path fill="#000000" d="m751.49756 77.32893l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm17.000732 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm14.527771 5.765625l0 -13.359375l5.046875 0q1.328125 0 2.03125 0.125q0.96875 0.171875 1.640625 0.640625q0.671875 0.453125 1.078125 1.28125q0.40625 0.828125 0.40625 1.828125q0 1.703125 -1.09375 2.890625q-1.078125 1.171875 -3.921875 1.171875l-3.421875 0l0 5.421875l-1.765625 0zm1.765625 -7.0l3.453125 0q1.71875 0 2.4375 -0.640625q0.71875 -0.640625 0.71875 -1.796875q0 -0.84375 -0.421875 -1.4375q-0.421875 -0.59375 -1.125 -0.78125q-0.4375 -0.125 -1.640625 -0.125l-3.421875 0l0 4.78125zm10.3966675 10.71875l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm8.140625 -3.71875l5.125 -13.359375l1.90625 0l5.46875 13.359375l-2.015625 0l-1.546875 -4.046875l-5.59375 0l-1.46875 4.046875l-1.875 0zm3.859375 -5.484375l4.53125 0l-1.40625 -3.703125q-0.625 -1.6875 -0.9375 -2.765625q-0.265625 1.28125 -0.71875 2.546875l-1.46875 3.921875zm9.8342285 5.484375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.2126465 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.6189575 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078796 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0z" fill-rule="nonzero"/><path fill="#000000" d="m747.91943 104.90081l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm15.203796 3.59375q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm10.516357 1.3125l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm3.015625 3.546875l0 -13.359375l1.640625 0l0 7.625l3.890625 -3.9375l2.109375 0l-3.6875 3.59375l4.0625 6.078125l-2.015625 0l-3.203125 -4.953125l-1.15625 1.125l0 3.828125l-1.640625 0zm15.640625 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm3.8913574 5.65625l1.59375 0.234375q0.109375 0.75 0.5625 1.078125q0.609375 0.453125 1.671875 0.453125q1.140625 0 1.75 -0.453125q0.625 -0.453125 0.84375 -1.265625q0.125 -0.5 0.109375 -2.109375q-1.0625 1.265625 -2.671875 1.265625q-2.0 0 -3.09375 -1.4375q-1.09375 -1.4375 -1.09375 -3.453125q0 -1.390625 0.5 -2.5625q0.515625 -1.171875 1.453125 -1.796875q0.953125 -0.640625 2.25 -0.640625q1.703125 0 2.8125 1.375l0 -1.15625l1.515625 0l0 8.359375q0 2.265625 -0.46875 3.203125q-0.453125 0.9375 -1.453125 1.484375q-0.984375 0.546875 -2.453125 0.546875q-1.71875 0 -2.796875 -0.78125q-1.0625 -0.765625 -1.03125 -2.34375zm1.359375 -5.8125q0 1.90625 0.75 2.78125q0.765625 0.875 1.90625 0.875q1.125 0 1.890625 -0.859375q0.765625 -0.875 0.765625 -2.734375q0 -1.78125 -0.796875 -2.671875q-0.78125 -0.90625 -1.890625 -0.90625q-1.09375 0 -1.859375 0.890625q-0.765625 0.875 -0.765625 2.625zm15.953857 1.90625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625z" fill-rule="nonzero"/></g></svg>
\ No newline at end of file
diff --git a/docs/source/python/install.rst b/docs/source/python/install.rst
index f884a9cc94b..f85b7522ebc 100644
--- a/docs/source/python/install.rst
+++ b/docs/source/python/install.rst
@@ -28,7 +28,7 @@ using a 64-bit system.
 Python Compatibility
 --------------------
 
-PyArrow is currently compatible with Python 3.7, 3.8, 3.9 and 3.10.
+PyArrow is currently compatible with Python 3.7, 3.8, 3.9, 3.10 and 3.11.
 
 Using Conda
 -----------
@@ -61,3 +61,18 @@ Installing from source
 ----------------------
 
 See :ref:`python-development`.
+
+Dependencies
+------------
+
+Required dependency
+
+* **NumPy 1.16.6** or higher.
+
+Optional dependencies
+
+* **pandas 1.0** or higher,
+* **cffi**.
+
+Additional packages PyArrow is compatible with are :ref:`fsspec <filesystem-fsspec>`
+and **pytz**, **dateutil** or **tzdata** package for timezones.
diff --git a/docs/source/python/integration/extending.rst b/docs/source/python/integration/extending.rst
index ec945e97ce2..b380fea7e90 100644
--- a/docs/source/python/integration/extending.rst
+++ b/docs/source/python/integration/extending.rst
@@ -31,7 +31,7 @@ C++ API
 
 .. default-domain:: cpp
 
-The Arrow C++ header files are bundled with a pyarrow installation.
+The Arrow C++ and PyArrow C++ header files are bundled with a pyarrow installation.
 To get the absolute path to this directory (like ``numpy.get_include()``), use:
 
 .. code-block:: python
@@ -50,12 +50,19 @@ This will not include other parts of the Arrow API, which you will need
 to include yourself (for example ``arrow/api.h``).
 
 When building C extensions that use the Arrow C++ libraries, you must add
-appropriate linker flags. We have provided functions ``pyarrow.get_libraries``
-and ``pyarrow.get_library_dirs`` which return a list of library names and
+appropriate linker flags. We have provided functions ``pa.get_libraries``
+and ``pa.get_library_dirs`` which return a list of library names and
 likely library install locations (if you installed pyarrow with pip or
 conda). These must be included when declaring your C extensions with
 setuptools (see below).
 
+.. note::
+
+   The PyArrow-specific C++ code is now a part of the PyArrow source tree
+   and not Arrow C++. That means the header files and ``arrow_python`` library
+   are not necessarily installed in the same location as that of Arrow C++ and
+   will no longer be automatically findable by CMake.
+
 Initializing the API
 ~~~~~~~~~~~~~~~~~~~~
 
@@ -434,12 +441,7 @@ To build this module, you will need a slightly customized ``setup.py`` file
         ext.library_dirs.extend(pa.get_library_dirs())
 
         if os.name == 'posix':
-            ext.extra_compile_args.append('-std=c++11')
-
-        # Try uncommenting the following line on Linux
-        # if you get weird linker errors or runtime crashes
-        # ext.define_macros.append(("_GLIBCXX_USE_CXX11_ABI", "0"))
-
+            ext.extra_compile_args.append('-std=c++17')
 
     setup(ext_modules=ext_modules)
 
@@ -476,7 +478,3 @@ the CentOS `devtoolset-9`. In addition to the other notes
 above, if you are compiling C++ using these shared libraries, you will need
 to make sure you use a compatible toolchain as well or you might see a
 segfault during runtime.
-
-Also, if you encounter errors when linking or loading the library, consider
-setting the ``_GLIBCXX_USE_CXX11_ABI`` preprocessor macro to ``0``
-(for example by adding ``-D_GLIBCXX_USE_CXX11_ABI=0`` to ``CFLAGS``).
diff --git a/docs/source/python/plasma.rst b/docs/source/python/plasma.rst
index 51c7b6eafee..c12a0ddbe96 100644
--- a/docs/source/python/plasma.rst
+++ b/docs/source/python/plasma.rst
@@ -21,6 +21,10 @@
 The Plasma In-Memory Object Store
 =================================
 
+.. warning::
+
+   Plasma is deprecated since Arrow 10.0.0. It will be removed in 12.0.0 or so.
+
 .. note::
 
    As present, Plasma is only supported for use on Linux and macOS.
diff --git a/docs/source/python/py_arch_overview.svg b/docs/source/python/py_arch_overview.svg
deleted file mode 100644
index 11f09eb8c6d..00000000000
--- a/docs/source/python/py_arch_overview.svg
+++ /dev/null
@@ -1 +0,0 @@
-<svg version="1.1" viewBox="0.0 0.0 959.6850393700787 555.1574803149606" fill="none" stroke="none" stroke-linecap="square" stroke-miterlimit="10" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns="http://www.w3.org/2000/svg"><clipPath id="p.0"><path d="m0 0l959.68506 0l0 555.1575l-959.68506 0l0 -555.1575z" clip-rule="nonzero"/></clipPath><g clip-path="url(#p.0)"><path fill="#000000" fill-opacity="0.0" d="m0 0l959.68506 0l0 555.1575l-959.68506 0z" fill-rule="evenodd"/><path fill="#cfe2f3" d="m31.889763 414.0l628.0945 0l0 112.75592l-628.0945 0z" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m31.889763 414.0l628.0945 0l0 112.75592l-628.0945 0z" fill-rule="evenodd"/><path fill="#000000" d="m48.436638 473.75107l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm3.015625 7.25l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.891342 8.484375l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm7.656967 5.015625l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm5.761429 -3.125l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm9.96875 2.890625l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm12.540802 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm1.78125 3.78125l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm12.730179 -1.421875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188217 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.8281326 0 1.6875076 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.2031326 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.6189346 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078842 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0z" fill-rule="nonzero"/><path fill="#c9daf8" d="m392.8399 441.00787l235.59052 0l0 58.740143l-235.59052 0z" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m392.8399 441.00787l235.59052 0l0 58.740143l-235.59052 0z" fill-rule="evenodd"/><path fill="#000000" d="m409.38678 473.75107l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm3.015625 7.25l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.891327 8.484375l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm7.6569824 5.015625l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm5.7614136 -3.125l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm9.96875 2.890625l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm12.540802 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm1.78125 3.78125l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm12.730194 -1.421875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188202 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078857 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.457336 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.4176636 3.46875l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813232 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766357 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297546 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0z" fill-rule="nonzero"/><path fill="#000000" fill-opacity="0.0" d="m738.6352 470.8504l-110.20477 -0.47244263" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m738.6352 470.8504l-104.20477 -0.44674683" fill-rule="evenodd"/><path fill="#000000" stroke="#000000" stroke-width="1.0" stroke-linecap="butt" d="m634.4375 468.75195l-4.545166 1.6322632l4.531006 1.6711731z" fill-rule="evenodd"/><path fill="#000000" fill-opacity="0.0" d="m730.10236 416.84253l190.42523 0l0 132.5039l-190.42523 0z" fill-rule="evenodd"/><path fill="#000000" d="m740.53986 443.7625l0 -13.359375l5.046875 0q1.328125 0 2.03125 0.125q0.96875 0.171875 1.640625 0.640625q0.671875 0.453125 1.078125 1.28125q0.40625 0.828125 0.40625 1.828125q0 1.703125 -1.09375 2.890625q-1.078125 1.171875 -3.921875 1.171875l-3.421875 0l0 5.421875l-1.765625 0zm1.765625 -7.0l3.453125 0q1.71875 0 2.4375 -0.640625q0.71875 -0.640625 0.71875 -1.796875q0 -0.84375 -0.421875 -1.4375q-0.421875 -0.59375 -1.125 -0.78125q-0.4375 -0.125 -1.640625 -0.125l-3.421875 0l0 4.78125zm10.3967285 10.71875l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766357 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297546 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm21.824646 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm15.906982 1.71875l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm15.406982 5.765625l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm9.281982 -6.640625l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm10.457275 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm9.328125 2.359375q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm7.7819824 3.390625l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm8.230164 -1.640625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm15.406982 5.765625l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125z" fill-rule="nonzero"/><path fill="#000000" d="m740.72736 466.1625l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm11.120789 0l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm4.0476074 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.688232 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm6.59375 2.078125l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 -10.0l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm3.5354614 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.688171 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.1569824 4.859375l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.1917114 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm7.7229614 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 -10.0l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm10.769836 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm8.485046 2.875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125z" fill-rule="nonzero"/><path fill="#000000" d="m740.33673 477.09375l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1448364 0l0 -9.671875l1.46875 0l0 1.359375q0.453125 -0.71875 1.203125 -1.140625q0.765625 -0.4375 1.71875 -0.4375q1.078125 0 1.765625 0.453125q0.6875 0.4375 0.96875 1.234375q1.15625 -1.6875 2.984375 -1.6875q1.453125 0 2.21875 0.796875q0.78125 0.796875 0.78125 2.453125l0 6.640625l-1.640625 0l0 -6.09375q0 -0.984375 -0.15625 -1.40625q-0.15625 -0.4375 -0.578125 -0.703125q-0.421875 -0.265625 -0.984375 -0.265625q-1.015625 0 -1.6875 0.6875q-0.671875 0.671875 -0.671875 2.15625l0 5.625l-1.640625 0l0 -6.28125q0 -1.09375 -0.40625 -1.640625q-0.40625 -0.546875 -1.3125 -0.546875q-0.6875 0 -1.28125 0.359375q-0.59375 0.359375 -0.859375 1.0625q-0.25 0.703125 -0.25 2.03125l0 5.015625l-1.640625 0zm15.5407715 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.844482 4.78125l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm10.816711 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.141357 5.765625l0 -9.671875l1.46875 0l0 1.359375q0.453125 -0.71875 1.203125 -1.140625q0.765625 -0.4375 1.71875 -0.4375q1.078125 0 1.765625 0.453125q0.6875 0.4375 0.96875 1.234375q1.15625 -1.6875 2.984375 -1.6875q1.453125 0 2.21875 0.796875q0.78125 0.796875 0.78125 2.453125l0 6.640625l-1.640625 0l0 -6.09375q0 -0.984375 -0.15625 -1.40625q-0.15625 -0.4375 -0.578125 -0.703125q-0.421875 -0.265625 -0.984375 -0.265625q-1.015625 0 -1.6875 0.6875q-0.671875 0.671875 -0.671875 2.15625l0 5.625l-1.640625 0l0 -6.28125q0 -1.09375 -0.40625 -1.640625q-0.40625 -0.546875 -1.3125 -0.546875q-0.6875 0 -1.28125 0.359375q-0.59375 0.359375 -0.859375 1.0625q-0.25 0.703125 -0.25 2.03125l0 5.015625l-1.640625 0zm22.165771 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.141357 5.765625l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm13.953857 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm8.230164 -1.640625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm15.406982 5.765625l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm14.465271 -6.640625l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1447754 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm25.293396 -4.6875l1.765625 0.453125q-0.5625 2.171875 -2.0 3.328125q-1.4375 1.140625 -3.53125 1.140625q-2.15625 0 -3.515625 -0.875q-1.34375 -0.890625 -2.0625 -2.546875q-0.703125 -1.671875 -0.703125 -3.59375q0 -2.078125 0.796875 -3.625q0.796875 -1.5625 2.265625 -2.359375q1.484375 -0.8125 3.25 -0.8125q2.0 0 3.359375 1.015625q1.375 1.015625 1.90625 2.875l-1.734375 0.40625q-0.46875 -1.453125 -1.359375 -2.109375q-0.875 -0.671875 -2.203125 -0.671875q-1.546875 0 -2.578125 0.734375q-1.03125 0.734375 -1.453125 1.984375q-0.421875 1.234375 -0.421875 2.5625q0 1.703125 0.5 2.96875q0.5 1.265625 1.546875 1.90625q1.046875 0.625 2.265625 0.625q1.484375 0 2.515625 -0.859375q1.03125 -0.859375 1.390625 -2.546875zm7.1760864 2.53125l0 -3.671875l-3.640625 0l0 -1.515625l3.640625 0l0 -3.640625l1.546875 0l0 3.640625l3.640625 0l0 1.515625l-3.640625 0l0 3.671875l-1.546875 0zm10.8949585 0l0 -3.671875l-3.640625 0l0 -1.515625l3.640625 0l0 -3.640625l1.546875 0l0 3.640625l3.640625 0l0 1.515625l-3.640625 0l0 3.671875l-1.546875 0zm7.8793335 2.15625l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0z" fill-rule="nonzero"/><path fill="#000000" d="m740.28986 510.96252l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.1917114 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1448364 0l0 -13.359375l1.640625 0l0 7.625l3.890625 -3.9375l2.109375 0l-3.6875 3.59375l4.0625 6.078125l-2.015625 0l-3.203125 -4.953125l-1.15625 1.125l0 3.828125l-1.640625 0zm15.953125 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm20.637146 2.21875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.40625 -1.296875q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297546 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm13.063232 0l-3.6875 -9.671875l1.734375 0l2.078125 5.796875q0.328125 0.9375 0.625 1.9375q0.203125 -0.765625 0.609375 -1.828125l2.140625 -5.90625l1.6875 0l-3.65625 9.671875l-1.53125 0zm13.265625 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.125732 5.765625l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.5720215 -2.890625l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm9.984375 -8.578125l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm3.5354614 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm19.137146 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm0.9957886 -3.375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625z" fill-rule="nonzero"/><path fill="#000000" d="m740.52423 533.3625l0 -13.359375l1.8125 0l7.015625 10.484375l0 -10.484375l1.6875 0l0 13.359375l-1.8125 0l-7.015625 -10.5l0 10.5l-1.6875 0zm19.613586 0l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm4.0476074 0l0 -9.671875l1.46875 0l0 1.359375q0.453125 -0.71875 1.203125 -1.140625q0.765625 -0.4375 1.71875 -0.4375q1.078125 0 1.765625 0.453125q0.6875 0.4375 0.96875 1.234375q1.15625 -1.6875 2.984375 -1.6875q1.453125 0 2.21875 0.796875q0.78125 0.796875 0.78125 2.453125l0 6.640625l-1.640625 0l0 -6.09375q0 -0.984375 -0.15625 -1.40625q-0.15625 -0.4375 -0.578125 -0.703125q-0.421875 -0.265625 -0.984375 -0.265625q-1.015625 0 -1.6875 0.6875q-0.671875 0.671875 -0.671875 2.15625l0 5.625l-1.640625 0l0 -6.28125q0 -1.09375 -0.40625 -1.640625q-0.40625 -0.546875 -1.3125 -0.546875q-0.6875 0 -1.28125 0.359375q-0.59375 0.359375 -0.859375 1.0625q-0.25 0.703125 -0.25 2.03125l0 5.015625l-1.640625 0zm15.7438965 0l0 -13.359375l5.046875 0q1.328125 0 2.03125 0.125q0.96875 0.171875 1.640625 0.640625q0.671875 0.453125 1.078125 1.28125q0.40625 0.828125 0.40625 1.828125q0 1.703125 -1.09375 2.890625q-1.078125 1.171875 -3.921875 1.171875l-3.421875 0l0 5.421875l-1.765625 0zm1.765625 -7.0l3.453125 0q1.71875 0 2.4375 -0.640625q0.71875 -0.640625 0.71875 -1.796875q0 -0.84375 -0.421875 -1.4375q-0.421875 -0.59375 -1.125 -0.78125q-0.4375 -0.125 -1.640625 -0.125l-3.421875 0l0 4.78125zm10.3967285 10.71875l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm22.214539 -5.296875q-0.8125 0.90625 -1.765625 1.359375q-0.953125 0.453125 -2.0625 0.453125q-2.046875 0 -3.25 -1.390625q-0.984375 -1.125 -0.984375 -2.53125q0 -1.234375 0.796875 -2.234375q0.796875 -1.0 2.390625 -1.75q-0.90625 -1.03125 -1.203125 -1.671875q-0.296875 -0.65625 -0.296875 -1.265625q0 -1.203125 0.9375 -2.078125q0.9375 -0.890625 2.375 -0.890625q1.359375 0 2.234375 0.84375q0.875 0.828125 0.875 2.0q0 1.90625 -2.53125 3.25l2.390625 3.0625q0.421875 -0.8125 0.640625 -1.859375l1.703125 0.359375q-0.4375 1.75 -1.1875 2.875q0.921875 1.21875 2.09375 2.046875l-1.109375 1.3125q-0.984375 -0.640625 -2.046875 -1.890625zm-3.328125 -6.953125q1.0625 -0.640625 1.375 -1.109375q0.3125 -0.46875 0.3125 -1.046875q0 -0.6875 -0.4375 -1.109375q-0.421875 -0.4375 -1.0625 -0.4375q-0.671875 0 -1.125 0.4375q-0.4375 0.421875 -0.4375 1.03125q0 0.3125 0.15625 0.65625q0.171875 0.34375 0.484375 0.734375l0.734375 0.84375zm2.296875 5.65625l-3.0 -3.71875q-1.328125 0.796875 -1.796875 1.46875q-0.46875 0.671875 -0.46875 1.34375q0 0.8125 0.640625 1.6875q0.65625 0.875 1.84375 0.875q0.734375 0 1.515625 -0.453125q0.796875 -0.46875 1.265625 -1.203125zm11.236267 2.875l0 -13.359375l5.046875 0q1.328125 0 2.03125 0.125q0.96875 0.171875 1.640625 0.640625q0.671875 0.453125 1.078125 1.28125q0.40625 0.828125 0.40625 1.828125q0 1.703125 -1.09375 2.890625q-1.078125 1.171875 -3.921875 1.171875l-3.421875 0l0 5.421875l-1.765625 0zm1.765625 -7.0l3.453125 0q1.71875 0 2.4375 -0.640625q0.71875 -0.640625 0.71875 -1.796875q0 -0.84375 -0.421875 -1.4375q-0.421875 -0.59375 -1.125 -0.78125q-0.4375 -0.125 -1.640625 -0.125l-3.421875 0l0 4.78125zm16.787292 5.8125q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.2038574 4.859375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.641357 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm15.594421 3.640625q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm3.5476074 1.96875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125z" fill-rule="nonzero"/><path fill="#d0e0e3" d="m31.889763 284.10498l628.0945 0l0 112.75592l-628.0945 0z" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m31.889763 284.10498l628.0945 0l0 112.75592l-628.0945 0z" fill-rule="evenodd"/><path fill="#000000" d="m42.124138 340.10605l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051788 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766342 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297592 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.141342 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 3.46875l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm15.718758 -4.90625q-0.921875 0.765625 -1.7656326 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.9843826 -0.234375 2.9218826 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.8750076 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.2500076 0 2.0156326 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.6718826 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.7500076 -0.421875 1.0937576 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188217 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078842 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.457321 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 -11.703125l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.144821 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.688217 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.96875 3.546875l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm10.519821 0l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm10.313217 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm15.906967 1.71875l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm8.485092 2.875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm8.75 3.125l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.370804 -0.234375l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.191696 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm5.644821 0l-1.515625 0l0 -13.359375l1.640625 0l0 4.765625q1.046875 -1.296875 2.65625 -1.296875q0.890625 0 1.6875 0.359375q0.796875 0.359375 1.3125 1.015625q0.515625 0.640625 0.796875 1.5625q0.296875 0.921875 0.296875 1.96875q0 2.484375 -1.234375 3.84375q-1.21875 1.359375 -2.953125 1.359375q-1.703125 0 -2.6875 -1.4375l0 1.21875zm-0.015625 -4.90625q0 1.734375 0.484375 2.515625q0.765625 1.265625 2.09375 1.265625q1.078125 0 1.859375 -0.9375q0.78125 -0.9375 0.78125 -2.78125q0 -1.890625 -0.75 -2.796875q-0.75 -0.90625 -1.828125 -0.90625q-1.0625 0 -1.859375 0.9375q-0.78125 0.9375 -0.78125 2.703125zm15.203827 3.71875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.1882324 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078827 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm11.114868 0l0 -1.875l1.875 0l0 1.875l-1.875 0zm4.7301636 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm7.7976074 4.78125l3.53125 -5.03125l-3.265625 -4.640625l2.046875 0l1.484375 2.265625q0.421875 0.640625 0.671875 1.078125q0.40625 -0.59375 0.734375 -1.0625l1.640625 -2.28125l1.953125 0l-3.34375 4.546875l3.59375 5.125l-2.015625 0l-1.984375 -3.0l-0.515625 -0.8125l-2.546875 3.8125l-1.984375 0zm16.6875 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125z" fill-rule="nonzero"/><path fill="#000000" d="m42.124138 362.10605l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051788 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766342 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297592 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.141342 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 3.46875l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm15.718758 -4.90625q-0.921875 0.765625 -1.7656326 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.9843826 -0.234375 2.9218826 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.8750076 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.2500076 0 2.0156326 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.6718826 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.7500076 -0.421875 1.0937576 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188217 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078842 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.457321 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 -11.703125l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.144821 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.688217 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.96875 3.546875l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm10.519821 0l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm10.313217 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm15.906967 1.71875l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm8.485092 2.875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm8.75 3.125l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.370804 -0.234375l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.191696 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm5.644821 0l-1.515625 0l0 -13.359375l1.640625 0l0 4.765625q1.046875 -1.296875 2.65625 -1.296875q0.890625 0 1.6875 0.359375q0.796875 0.359375 1.3125 1.015625q0.515625 0.640625 0.796875 1.5625q0.296875 0.921875 0.296875 1.96875q0 2.484375 -1.234375 3.84375q-1.21875 1.359375 -2.953125 1.359375q-1.703125 0 -2.6875 -1.4375l0 1.21875zm-0.015625 -4.90625q0 1.734375 0.484375 2.515625q0.765625 1.265625 2.09375 1.265625q1.078125 0 1.859375 -0.9375q0.78125 -0.9375 0.78125 -2.78125q0 -1.890625 -0.75 -2.796875q-0.75 -0.90625 -1.828125 -0.90625q-1.0625 0 -1.859375 0.9375q-0.78125 0.9375 -0.78125 2.703125zm15.203827 3.71875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.1882324 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078827 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.176086 3.703125l0 -1.1875l10.859375 0l0 1.1875l-10.859375 0zm11.172607 -9.28125q0.703125 -0.015625 1.140625 -0.375q0.453125 -0.359375 0.59375 -0.984375q0.140625 -0.625 0.140625 -2.140625q0.015625 -1.53125 0.0625 -2.015625q0.09375 -0.765625 0.3125 -1.234375q0.21875 -0.46875 0.546875 -0.734375q0.328125 -0.28125 0.84375 -0.421875q0.34375 -0.09375 1.125 -0.09375l0.515625 0l0 1.421875l-0.28125 0q-0.953125 0 -1.265625 0.34375q-0.3125 0.34375 -0.3125 1.53125q0 2.390625 -0.09375 3.015625q-0.15625 0.96875 -0.5625 1.5q-0.390625 0.53125 -1.234375 0.9375q1.0 0.421875 1.4375 1.28125q0.453125 0.859375 0.453125 2.8125q0 1.78125 0.046875 2.125q0.0625 0.609375 0.359375 0.859375q0.296875 0.25 1.171875 0.25l0.28125 0l0 1.421875l-0.515625 0q-0.890625 0 -1.296875 -0.140625q-0.578125 -0.203125 -0.96875 -0.6875q-0.375 -0.46875 -0.5 -1.1875q-0.109375 -0.71875 -0.125 -2.359375q0 -1.640625 -0.140625 -2.265625q-0.140625 -0.625 -0.59375 -0.984375q-0.4375 -0.375 -1.140625 -0.390625l0 -1.484375zm7.340271 5.578125l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm4.1364136 -2.890625l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm10.40625 2.890625l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0zm10.335327 0l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm4.7457886 0l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.1917114 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm3.8323364 0.796875l1.59375 0.234375q0.109375 0.75 0.5625 1.078125q0.609375 0.453125 1.671875 0.453125q1.140625 0 1.75 -0.453125q0.625 -0.453125 0.84375 -1.265625q0.125 -0.5 0.109375 -2.109375q-1.0625 1.265625 -2.671875 1.265625q-2.0 0 -3.09375 -1.4375q-1.09375 -1.4375 -1.09375 -3.453125q0 -1.390625 0.5 -2.5625q0.515625 -1.171875 1.453125 -1.796875q0.953125 -0.640625 2.25 -0.640625q1.703125 0 2.8125 1.375l0 -1.15625l1.515625 0l0 8.359375q0 2.265625 -0.46875 3.203125q-0.453125 0.9375 -1.453125 1.484375q-0.984375 0.546875 -2.453125 0.546875q-1.71875 0 -2.796875 -0.78125q-1.0625 -0.765625 -1.03125 -2.34375zm1.359375 -5.8125q0 1.90625 0.75 2.78125q0.765625 0.875 1.90625 0.875q1.125 0 1.890625 -0.859375q0.765625 -0.875 0.765625 -2.734375q0 -1.78125 -0.796875 -2.671875q-0.78125 -0.90625 -1.890625 -0.90625q-1.09375 0 -1.859375 0.890625q-0.765625 0.875 -0.765625 2.625zm9.328857 5.015625l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm13.953857 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm2.0270386 1.46875l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0zm10.335327 0l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm11.417664 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm15.453857 4.578125q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm7.7819824 3.390625l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm17.000732 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.125732 5.765625l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.6202393 0l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0zm9.288452 -10.90625l0.421875 -1.296875q1.453125 0.515625 2.109375 0.890625q-0.171875 -1.65625 -0.1875 -2.265625l1.328125 0q-0.03125 0.890625 -0.21875 2.25q0.9375 -0.46875 2.15625 -0.875l0.421875 1.296875q-1.15625 0.390625 -2.265625 0.515625q0.546875 0.484375 1.5625 1.71875l-1.09375 0.78125q-0.53125 -0.734375 -1.25 -1.96875q-0.671875 1.28125 -1.1875 1.96875l-1.078125 -0.78125q1.0625 -1.296875 1.515625 -1.71875q-1.171875 -0.234375 -2.234375 -0.515625zm12.385254 5.328125l0 1.484375q-0.703125 0.015625 -1.140625 0.390625q-0.4375 0.359375 -0.59375 0.984375q-0.140625 0.625 -0.15625 2.15625q0 1.515625 -0.046875 2.0q-0.078125 0.765625 -0.3125 1.21875q-0.21875 0.46875 -0.546875 0.75q-0.328125 0.28125 -0.84375 0.421875q-0.34375 0.09375 -1.125 0.09375l-0.515625 0l0 -1.421875l0.28125 0q0.953125 0 1.265625 -0.34375q0.3125 -0.34375 0.3125 -1.53125q0 -2.28125 0.078125 -2.890625q0.140625 -1.015625 0.578125 -1.609375q0.4375 -0.609375 1.25 -0.953125q-1.046875 -0.5 -1.484375 -1.328125q-0.421875 -0.828125 -0.421875 -2.78125q0 -1.78125 -0.046875 -2.125q-0.0625 -0.609375 -0.359375 -0.84375q-0.296875 -0.25 -1.171875 -0.25l-0.28125 0l0 -1.421875l0.515625 0q0.890625 0 1.296875 0.140625q0.578125 0.203125 0.953125 0.6875q0.390625 0.46875 0.5 1.1875q0.125 0.71875 0.125 2.359375q0.015625 1.640625 0.15625 2.265625q0.15625 0.609375 0.59375 0.984375q0.4375 0.359375 1.140625 0.375zm2.215271 5.578125l0 -1.875l1.875 0l0 1.875l-1.875 0zm4.7301636 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm7.7976074 4.78125l3.53125 -5.03125l-3.265625 -4.640625l2.046875 0l1.484375 2.265625q0.421875 0.640625 0.671875 1.078125q0.40625 -0.59375 0.734375 -1.0625l1.640625 -2.28125l1.953125 0l-3.34375 4.546875l3.59375 5.125l-2.015625 0l-1.984375 -3.0l-0.515625 -0.8125l-2.546875 3.8125l-1.984375 0zm16.6875 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125z" fill-rule="nonzero"/><path fill="#000000" fill-opacity="0.0" d="m737.68506 341.04987l-77.700806 -0.56692505" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m737.68506 341.04987l-71.70099 -0.5231323" fill-rule="evenodd"/><path fill="#000000" stroke="#000000" stroke-width="1.0" stroke-linecap="butt" d="m665.99615 338.87503l-4.550049 1.6185608l4.52594 1.6848145z" fill-rule="evenodd"/><path fill="#000000" fill-opacity="0.0" d="m737.68506 285.82153l190.42517 0l0 109.88974l-190.42517 0z" fill-rule="evenodd"/><path fill="#000000" d="m748.12256 312.74152l0 -13.359375l4.609375 0q1.546875 0 2.375 0.203125q1.140625 0.25 1.953125 0.953125q1.0625 0.890625 1.578125 2.28125q0.53125 1.390625 0.53125 3.171875q0 1.515625 -0.359375 2.703125q-0.359375 1.171875 -0.921875 1.9375q-0.546875 0.765625 -1.203125 1.21875q-0.65625 0.4375 -1.59375 0.671875q-0.9375 0.21875 -2.140625 0.21875l-4.828125 0zm1.765625 -1.578125l2.859375 0q1.3125 0 2.0625 -0.234375q0.75 -0.25 1.203125 -0.703125q0.625 -0.625 0.96875 -1.6875q0.359375 -1.0625 0.359375 -2.578125q0 -2.09375 -0.6875 -3.21875q-0.6875 -1.125 -1.671875 -1.5q-0.703125 -0.28125 -2.28125 -0.28125l-2.8125 0l0 10.203125zm18.12915 -1.53125l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm15.453857 2.21875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.96875 3.546875l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm10.504211 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.1882324 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm12.5407715 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm7.7819824 3.390625l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 -10.0l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm3.5354614 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.719421 -2.890625l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm14.55835 -1.953125q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.688171 4.84375l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm13.554138 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm17.000732 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625z" fill-rule="nonzero"/><path fill="#000000" d="m757.6538 330.454l1.765625 0.453125q-0.5625 2.171875 -2.0 3.328125q-1.4375 1.140625 -3.53125 1.140625q-2.15625 0 -3.515625 -0.875q-1.34375 -0.890625 -2.0625 -2.546875q-0.703125 -1.671875 -0.703125 -3.59375q0 -2.078125 0.796875 -3.625q0.796875 -1.5625 2.265625 -2.359375q1.484375 -0.8125 3.25 -0.8125q2.0 0 3.359375 1.015625q1.375 1.015625 1.90625 2.875l-1.734375 0.40625q-0.46875 -1.453125 -1.359375 -2.109375q-0.875 -0.671875 -2.203125 -0.671875q-1.546875 0 -2.578125 0.734375q-1.03125 0.734375 -1.453125 1.984375q-0.421875 1.234375 -0.421875 2.5625q0 1.703125 0.5 2.96875q0.5 1.265625 1.546875 1.90625q1.046875 0.625 2.265625 0.625q1.484375 0 2.515625 -0.859375q1.03125 -0.859375 1.390625 -2.546875zm7.1760254 2.53125l0 -3.671875l-3.640625 0l0 -1.515625l3.640625 0l0 -3.640625l1.546875 0l0 3.640625l3.640625 0l0 1.515625l-3.640625 0l0 3.671875l-1.546875 0zm10.8949585 0l0 -3.671875l-3.640625 0l0 -1.515625l3.640625 0l0 -3.640625l1.546875 0l0 3.640625l3.640625 0l0 1.515625l-3.640625 0l0 3.671875l-1.546875 0zm18.953308 -1.390625l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.96875 3.546875l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm10.50415 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm3.5476074 1.96875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm9.328125 0l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm16.609375 -0.21875l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm8.485107 2.875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm21.480164 1.703125q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.2038574 4.859375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.641357 0l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125z" fill-rule="nonzero"/><path fill="#000000" d="m748.31006 357.5415l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm11.120789 0l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm4.0476074 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.688171 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm6.59375 2.078125l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6052246 -10.0l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm3.5354004 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.719482 -2.890625l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm18.745789 1.421875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm16.688232 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm7.7819824 3.390625l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm13.100952 0.28125q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.1882324 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm12.8533325 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625z" fill-rule="nonzero"/><path fill="#000000" d="m754.24756 379.94153l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm3.3912964 -2.890625l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm16.609375 -0.21875l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm15.406982 5.765625l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm14.465271 -6.640625l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1448364 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm25.293396 -4.6875l1.765625 0.453125q-0.5625 2.171875 -2.0 3.328125q-1.4375 1.140625 -3.53125 1.140625q-2.15625 0 -3.515625 -0.875q-1.34375 -0.890625 -2.0625 -2.546875q-0.703125 -1.671875 -0.703125 -3.59375q0 -2.078125 0.796875 -3.625q0.796875 -1.5625 2.265625 -2.359375q1.484375 -0.8125 3.25 -0.8125q2.0 0 3.359375 1.015625q1.375 1.015625 1.90625 2.875l-1.734375 0.40625q-0.46875 -1.453125 -1.359375 -2.109375q-0.875 -0.671875 -2.203125 -0.671875q-1.546875 0 -2.578125 0.734375q-1.03125 0.734375 -1.453125 1.984375q-0.421875 1.234375 -0.421875 2.5625q0 1.703125 0.5 2.96875q0.5 1.265625 1.546875 1.90625q1.046875 0.625 2.265625 0.625q1.484375 0 2.515625 -0.859375q1.03125 -0.859375 1.390625 -2.546875zm3.6604614 8.40625l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766357 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297546 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0z" fill-rule="nonzero"/><path fill="#d0e0e3" d="m31.889763 154.20998l628.0945 0l0 112.755905l-628.0945 0z" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m31.889763 154.20998l628.0945 0l0 112.755905l-628.0945 0z" fill-rule="evenodd"/><path fill="#000000" d="m42.124138 210.21104l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051788 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766342 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297592 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.141342 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 3.46875l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm15.718758 -4.90625q-0.921875 0.765625 -1.7656326 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.9843826 -0.234375 2.9218826 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.8750076 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.2500076 0 2.0156326 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.6718826 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.7500076 -0.421875 1.0937576 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188217 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078842 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.457321 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.370804 -0.234375l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.191696 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm5.644821 0l-1.515625 0l0 -13.359375l1.640625 0l0 4.765625q1.046875 -1.296875 2.65625 -1.296875q0.890625 0 1.6875 0.359375q0.796875 0.359375 1.3125 1.015625q0.515625 0.640625 0.796875 1.5625q0.296875 0.921875 0.296875 1.96875q0 2.484375 -1.234375 3.84375q-1.21875 1.359375 -2.953125 1.359375q-1.703125 0 -2.6875 -1.4375l0 1.21875zm-0.015625 -4.90625q0 1.734375 0.484375 2.515625q0.765625 1.265625 2.09375 1.265625q1.078125 0 1.859375 -0.9375q0.78125 -0.9375 0.78125 -2.78125q0 -1.890625 -0.75 -2.796875q-0.75 -0.90625 -1.828125 -0.90625q-1.0625 0 -1.859375 0.9375q-0.78125 0.9375 -0.78125 2.703125zm9.344467 4.90625l0 -1.875l1.875 0l0 1.875l-1.875 0zm4.730179 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm8.3125 -3.71875l3.53125 -5.03125l-3.265625 -4.640625l2.046875 0l1.484375 2.265625q0.421875 0.640625 0.671875 1.078125q0.40625 -0.59375 0.734375 -1.0625l1.640625 -2.28125l1.953125 0l-3.34375 4.546875l3.59375 5.125l-2.015625 0l-1.984375 -3.0l-0.515625 -0.8125l-2.546875 3.8125l-1.984375 0z" fill-rule="nonzero"/><path fill="#000000" d="m42.124138 232.21104l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051788 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766342 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297592 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.141342 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 3.46875l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm15.718758 -4.90625q-0.921875 0.765625 -1.7656326 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.9843826 -0.234375 2.9218826 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.8750076 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.2500076 0 2.0156326 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.6718826 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.7500076 -0.421875 1.0937576 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188217 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078842 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.457321 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm5.698929 -5.8125q0.703125 -0.015625 1.140625 -0.375q0.453125 -0.359375 0.59375 -0.984375q0.140625 -0.625 0.140625 -2.140625q0.015625 -1.53125 0.0625 -2.015625q0.09375 -0.765625 0.3125 -1.234375q0.21875 -0.46875 0.546875 -0.734375q0.328125 -0.28125 0.84375 -0.421875q0.34375 -0.09375 1.125 -0.09375l0.515625 0l0 1.421875l-0.28125 0q-0.953125 0 -1.265625 0.34375q-0.3125 0.34375 -0.3125 1.53125q0 2.390625 -0.09375 3.015625q-0.15625 0.96875 -0.5625 1.5q-0.390625 0.53125 -1.234375 0.9375q1.0 0.421875 1.4375 1.28125q0.453125 0.859375 0.453125 2.8125q0 1.78125 0.046875 2.125q0.0625 0.609375 0.359375 0.859375q0.296875 0.25 1.171875 0.25l0.28125 0l0 1.421875l-0.515625 0q-0.890625 0 -1.296875 -0.140625q-0.578125 -0.203125 -0.96875 -0.6875q-0.375 -0.46875 -0.5 -1.1875q-0.109375 -0.71875 -0.125 -2.359375q0 -1.640625 -0.140625 -2.265625q-0.140625 -0.625 -0.59375 -0.984375q-0.4375 -0.375 -1.140625 -0.390625l0 -1.484375zm5.434021 9.28125l0 -1.1875l10.859375 0l0 1.1875l-10.859375 0zm18.203842 -7.25l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.40625 -1.296875q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297592 4.84375l0 -9.671875l1.46875 0l0 1.359375q0.453125 -0.71875 1.203125 -1.140625q0.765625 -0.4375 1.71875 -0.4375q1.078125 0 1.765625 0.453125q0.6875 0.4375 0.96875 1.234375q1.15625 -1.6875 2.984375 -1.6875q1.453125 0 2.21875 0.796875q0.78125 0.796875 0.78125 2.453125l0 6.640625l-1.640625 0l0 -6.09375q0 -0.984375 -0.15625 -1.40625q-0.15625 -0.4375 -0.578125 -0.703125q-0.421875 -0.265625 -0.984375 -0.265625q-1.015625 0 -1.6875 0.6875q-0.671875 0.671875 -0.671875 2.15625l0 5.625l-1.640625 0l0 -6.28125q0 -1.09375 -0.40625 -1.640625q-0.40625 -0.546875 -1.3125 -0.546875q-0.6875 0 -1.28125 0.359375q-0.59375 0.359375 -0.859375 1.0625q-0.25 0.703125 -0.25 2.03125l0 5.015625l-1.640625 0zm15.540802 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm15.219467 4.78125l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm7.625717 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm8.230179 -1.640625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.563202 5.765625l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0zm8.429108 3.703125l0 -1.1875l10.859375 0l0 1.1875l-10.859375 0zm18.203857 -7.25l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm2.359375 0.65625l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm12.671875 2.890625l-3.6875 -9.671875l1.734375 0l2.078125 5.796875q0.328125 0.9375 0.625 1.9375q0.203125 -0.765625 0.609375 -1.828125l2.140625 -5.90625l1.6875 0l-3.65625 9.671875l-1.53125 0zm5.6770935 0l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0zm8.429077 3.703125l0 -1.1875l10.859375 0l0 1.1875l-10.859375 0zm18.156982 -3.703125l0 -1.21875q-0.90625 1.4375 -2.703125 1.4375q-1.15625 0 -2.125 -0.640625q-0.96875 -0.640625 -1.5 -1.78125q-0.53125 -1.140625 -0.53125 -2.625q0 -1.453125 0.484375 -2.625q0.484375 -1.1875 1.4375 -1.8125q0.96875 -0.625 2.171875 -0.625q0.875 0 1.546875 0.375q0.6875 0.359375 1.109375 0.953125l0 -4.796875l1.640625 0l0 13.359375l-1.53125 0zm-5.171875 -4.828125q0 1.859375 0.78125 2.78125q0.78125 0.921875 1.84375 0.921875q1.078125 0 1.828125 -0.875q0.75 -0.890625 0.75 -2.6875q0 -1.984375 -0.765625 -2.90625q-0.765625 -0.9375 -1.890625 -0.9375q-1.078125 0 -1.8125 0.890625q-0.734375 0.890625 -0.734375 2.8125zm15.594482 3.640625q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm7.7819824 3.390625l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm7.9176636 0.28125q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm3.5476074 1.96875l1.625 -0.25q0.125 0.96875 0.75 1.5q0.625 0.515625 1.75 0.515625q1.125 0 1.671875 -0.453125q0.546875 -0.46875 0.546875 -1.09375q0 -0.546875 -0.484375 -0.875q-0.328125 -0.21875 -1.671875 -0.546875q-1.8125 -0.46875 -2.515625 -0.796875q-0.6875 -0.328125 -1.046875 -0.90625q-0.359375 -0.59375 -0.359375 -1.3125q0 -0.640625 0.296875 -1.1875q0.296875 -0.5625 0.8125 -0.921875q0.375 -0.28125 1.03125 -0.46875q0.671875 -0.203125 1.421875 -0.203125q1.140625 0 2.0 0.328125q0.859375 0.328125 1.265625 0.890625q0.421875 0.5625 0.578125 1.5l-1.609375 0.21875q-0.109375 -0.75 -0.640625 -1.171875q-0.515625 -0.421875 -1.46875 -0.421875q-1.140625 0 -1.625 0.375q-0.46875 0.375 -0.46875 0.875q0 0.3125 0.1875 0.578125q0.203125 0.265625 0.640625 0.4375q0.234375 0.09375 1.4375 0.421875q1.75 0.453125 2.4375 0.75q0.6875 0.296875 1.078125 0.859375q0.390625 0.5625 0.390625 1.40625q0 0.828125 -0.484375 1.546875q-0.46875 0.71875 -1.375 1.125q-0.90625 0.390625 -2.046875 0.390625q-1.875 0 -2.875 -0.78125q-0.984375 -0.78125 -1.25 -2.328125zm16.609375 -0.21875l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm12.719482 4.296875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm2.0270386 1.46875l0 -1.875l1.875 0l0 1.875q0 1.03125 -0.375 1.65625q-0.359375 0.640625 -1.15625 0.984375l-0.453125 -0.703125q0.515625 -0.21875 0.765625 -0.671875q0.25 -0.4375 0.28125 -1.265625l-0.9375 0zm8.429077 3.703125l0 -1.1875l10.859375 0l0 1.1875l-10.859375 0zm11.235107 -14.609375l0.421875 -1.296875q1.453125 0.515625 2.109375 0.890625q-0.171875 -1.65625 -0.1875 -2.265625l1.328125 0q-0.03125 0.890625 -0.21875 2.25q0.9375 -0.46875 2.15625 -0.875l0.421875 1.296875q-1.15625 0.390625 -2.265625 0.515625q0.546875 0.484375 1.5625 1.71875l-1.09375 0.78125q-0.53125 -0.734375 -1.25 -1.96875q-0.671875 1.28125 -1.1875 1.96875l-1.078125 -0.78125q1.0625 -1.296875 1.515625 -1.71875q-1.171875 -0.234375 -2.234375 -0.515625zm12.385254 5.328125l0 1.484375q-0.703125 0.015625 -1.140625 0.390625q-0.4375 0.359375 -0.59375 0.984375q-0.140625 0.625 -0.15625 2.15625q0 1.515625 -0.046875 2.0q-0.078125 0.765625 -0.3125 1.21875q-0.21875 0.46875 -0.546875 0.75q-0.328125 0.28125 -0.84375 0.421875q-0.34375 0.09375 -1.125 0.09375l-0.515625 0l0 -1.421875l0.28125 0q0.953125 0 1.265625 -0.34375q0.3125 -0.34375 0.3125 -1.53125q0 -2.28125 0.078125 -2.890625q0.140625 -1.015625 0.578125 -1.609375q0.4375 -0.609375 1.25 -0.953125q-1.046875 -0.5 -1.484375 -1.328125q-0.421875 -0.828125 -0.421875 -2.78125q0 -1.78125 -0.046875 -2.125q-0.0625 -0.609375 -0.359375 -0.84375q-0.296875 -0.25 -1.171875 -0.25l-0.28125 0l0 -1.421875l0.515625 0q0.890625 0 1.296875 0.140625q0.578125 0.203125 0.953125 0.6875q0.390625 0.46875 0.5 1.1875q0.125 0.71875 0.125 2.359375q0.015625 1.640625 0.15625 2.265625q0.15625 0.609375 0.59375 0.984375q0.4375 0.359375 1.140625 0.375zm2.215271 5.578125l0 -1.875l1.875 0l0 1.875l-1.875 0zm4.7301636 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813232 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm8.3125 -3.71875l3.53125 -5.03125l-3.265625 -4.640625l2.046875 0l1.484375 2.265625q0.421875 0.640625 0.671875 1.078125q0.40625 -0.59375 0.734375 -1.0625l1.640625 -2.28125l1.953125 0l-3.34375 4.546875l3.59375 5.125l-2.015625 0l-1.984375 -3.0l-0.515625 -0.8125l-2.546875 3.8125l-1.984375 0z" fill-rule="nonzero"/><path fill="#000000" fill-opacity="0.0" d="m737.68506 211.15486l-77.700806 -0.5669403" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m737.68506 211.15486l-71.70099 -0.52316284" fill-rule="evenodd"/><path fill="#000000" stroke="#000000" stroke-width="1.0" stroke-linecap="butt" d="m665.99615 208.98001l-4.550049 1.618576l4.52594 1.6847992z" fill-rule="evenodd"/><path fill="#000000" fill-opacity="0.0" d="m737.68506 155.92651l190.42517 0l0 109.88977l-190.42517 0z" fill-rule="evenodd"/><path fill="#000000" d="m757.6538 178.15901l1.765625 0.453125q-0.5625 2.171875 -2.0 3.328125q-1.4375 1.140625 -3.53125 1.140625q-2.15625 0 -3.515625 -0.875q-1.34375 -0.890625 -2.0625 -2.546875q-0.703125 -1.671875 -0.703125 -3.59375q0 -2.078125 0.796875 -3.625q0.796875 -1.5625 2.265625 -2.359375q1.484375 -0.8125 3.25 -0.8125q2.0 0 3.359375 1.015625q1.375 1.015625 1.90625 2.875l-1.734375 0.40625q-0.46875 -1.453125 -1.359375 -2.109375q-0.875 -0.671875 -2.203125 -0.671875q-1.546875 0 -2.578125 0.734375q-1.03125 0.734375 -1.453125 1.984375q-0.421875 1.234375 -0.421875 2.5625q0 1.703125 0.5 2.96875q0.5 1.265625 1.546875 1.90625q1.046875 0.625 2.265625 0.625q1.484375 0 2.515625 -0.859375q1.03125 -0.859375 1.390625 -2.546875zm3.6604004 8.40625l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6052246 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766296 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm15.559021 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1448364 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm13.953857 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm8.230164 -1.640625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.125732 5.765625l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.2282715 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm16.688232 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.1569824 4.859375l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0z" fill-rule="nonzero"/><path fill="#000000" d="m747.91943 193.77776l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1447754 0l0 -9.671875l1.46875 0l0 1.359375q0.453125 -0.71875 1.203125 -1.140625q0.765625 -0.4375 1.71875 -0.4375q1.078125 0 1.765625 0.453125q0.6875 0.4375 0.96875 1.234375q1.15625 -1.6875 2.984375 -1.6875q1.453125 0 2.21875 0.796875q0.78125 0.796875 0.78125 2.453125l0 6.640625l-1.640625 0l0 -6.09375q0 -0.984375 -0.15625 -1.40625q-0.15625 -0.4375 -0.578125 -0.703125q-0.421875 -0.265625 -0.984375 -0.265625q-1.015625 0 -1.6875 0.6875q-0.671875 0.671875 -0.671875 2.15625l0 5.625l-1.640625 0l0 -6.28125q0 -1.09375 -0.40625 -1.640625q-0.40625 -0.546875 -1.3125 -0.546875q-0.6875 0 -1.28125 0.359375q-0.59375 0.359375 -0.859375 1.0625q-0.25 0.703125 -0.25 2.03125l0 5.015625l-1.640625 0zm15.5408325 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.844482 4.78125l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm10.81665 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.141357 5.765625l0 -9.671875l1.46875 0l0 1.359375q0.453125 -0.71875 1.203125 -1.140625q0.765625 -0.4375 1.71875 -0.4375q1.078125 0 1.765625 0.453125q0.6875 0.4375 0.96875 1.234375q1.15625 -1.6875 2.984375 -1.6875q1.453125 0 2.21875 0.796875q0.78125 0.796875 0.78125 2.453125l0 6.640625l-1.640625 0l0 -6.09375q0 -0.984375 -0.15625 -1.40625q-0.15625 -0.4375 -0.578125 -0.703125q-0.421875 -0.265625 -0.984375 -0.265625q-1.015625 0 -1.6875 0.6875q-0.671875 0.671875 -0.671875 2.15625l0 5.625l-1.640625 0l0 -6.28125q0 -1.09375 -0.40625 -1.640625q-0.40625 -0.546875 -1.3125 -0.546875q-0.6875 0 -1.28125 0.359375q-0.59375 0.359375 -0.859375 1.0625q-0.25 0.703125 -0.25 2.03125l0 5.015625l-1.640625 0zm22.165833 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.141296 5.765625l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm13.953857 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm7.9176636 0.28125q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm7.7819824 3.390625l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 -10.0l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm3.5354614 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297607 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm14.949646 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.688232 4.84375l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0z" fill-rule="nonzero"/><path fill="#000000" d="m751.49756 226.17775l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm17.000732 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm14.527771 5.765625l0 -13.359375l5.046875 0q1.328125 0 2.03125 0.125q0.96875 0.171875 1.640625 0.640625q0.671875 0.453125 1.078125 1.28125q0.40625 0.828125 0.40625 1.828125q0 1.703125 -1.09375 2.890625q-1.078125 1.171875 -3.921875 1.171875l-3.421875 0l0 5.421875l-1.765625 0zm1.765625 -7.0l3.453125 0q1.71875 0 2.4375 -0.640625q0.71875 -0.640625 0.71875 -1.796875q0 -0.84375 -0.421875 -1.4375q-0.421875 -0.59375 -1.125 -0.78125q-0.4375 -0.125 -1.640625 -0.125l-3.421875 0l0 4.78125zm10.3966675 10.71875l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm8.140625 -3.71875l5.125 -13.359375l1.90625 0l5.46875 13.359375l-2.015625 0l-1.546875 -4.046875l-5.59375 0l-1.46875 4.046875l-1.875 0zm3.859375 -5.484375l4.53125 0l-1.40625 -3.703125q-0.625 -1.6875 -0.9375 -2.765625q-0.265625 1.28125 -0.71875 2.546875l-1.46875 3.921875zm9.8342285 5.484375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.2126465 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.6189575 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078796 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0z" fill-rule="nonzero"/><path fill="#000000" d="m747.91943 253.74963l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm15.203796 3.59375q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm10.516357 1.3125l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm3.015625 3.546875l0 -13.359375l1.640625 0l0 7.625l3.890625 -3.9375l2.109375 0l-3.6875 3.59375l4.0625 6.078125l-2.015625 0l-3.203125 -4.953125l-1.15625 1.125l0 3.828125l-1.640625 0zm15.640625 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm3.8913574 5.65625l1.59375 0.234375q0.109375 0.75 0.5625 1.078125q0.609375 0.453125 1.671875 0.453125q1.140625 0 1.75 -0.453125q0.625 -0.453125 0.84375 -1.265625q0.125 -0.5 0.109375 -2.109375q-1.0625 1.265625 -2.671875 1.265625q-2.0 0 -3.09375 -1.4375q-1.09375 -1.4375 -1.09375 -3.453125q0 -1.390625 0.5 -2.5625q0.515625 -1.171875 1.453125 -1.796875q0.953125 -0.640625 2.25 -0.640625q1.703125 0 2.8125 1.375l0 -1.15625l1.515625 0l0 8.359375q0 2.265625 -0.46875 3.203125q-0.453125 0.9375 -1.453125 1.484375q-0.984375 0.546875 -2.453125 0.546875q-1.71875 0 -2.796875 -0.78125q-1.0625 -0.765625 -1.03125 -2.34375zm1.359375 -5.8125q0 1.90625 0.75 2.78125q0.765625 0.875 1.90625 0.875q1.125 0 1.890625 -0.859375q0.765625 -0.875 0.765625 -2.734375q0 -1.78125 -0.796875 -2.671875q-0.78125 -0.90625 -1.890625 -0.90625q-1.09375 0 -1.859375 0.890625q-0.765625 0.875 -0.765625 2.625zm15.953857 1.90625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625z" fill-rule="nonzero"/><path fill="#d9ead3" d="m31.889763 16.737534l628.0945 0l0 112.755905l-628.0945 0z" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m31.889763 16.737534l628.0945 0l0 112.755905l-628.0945 0z" fill-rule="evenodd"/><path fill="#000000" d="m42.124138 83.73861l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm12.984375 -5.1875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051788 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm9.766342 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.297592 4.84375l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm9.141342 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm6.417679 3.46875l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm15.718758 -4.90625q-0.921875 0.765625 -1.7656326 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.9843826 -0.234375 2.9218826 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.8750076 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.2500076 0 2.0156326 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.6718826 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.7500076 -0.421875 1.0937576 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm4.188217 4.859375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.212677 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.618927 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078842 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0zm10.457321 0.234375l3.875 -13.8125l1.3125 0l-3.859375 13.8125l-1.328125 0zm5.761429 -11.140625l0.421875 -1.296875q1.453125 0.515625 2.109375 0.890625q-0.171875 -1.65625 -0.1875 -2.265625l1.328125 0q-0.03125 0.890625 -0.21875 2.25q0.9375 -0.46875 2.15625 -0.875l0.421875 1.296875q-1.15625 0.390625 -2.265625 0.515625q0.546875 0.484375 1.5625 1.71875l-1.09375 0.78125q-0.53125 -0.734375 -1.25 -1.96875q-0.671875 1.28125 -1.1875 1.96875l-1.078125 -0.78125q1.0625 -1.296875 1.515625 -1.71875q-1.171875 -0.234375 -2.234375 -0.515625zm8.369644 10.90625l0 -1.875l1.875 0l0 1.875l-1.875 0zm4.730179 3.703125l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm8.813217 8.5l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125z" fill-rule="nonzero"/><path fill="#000000" fill-opacity="0.0" d="m737.68506 73.68241l-77.700806 -0.56692505" fill-rule="evenodd"/><path stroke="#000000" stroke-width="1.0" stroke-linejoin="round" stroke-linecap="butt" d="m737.68506 73.68241l-71.70099 -0.5231476" fill-rule="evenodd"/><path fill="#000000" stroke="#000000" stroke-width="1.0" stroke-linecap="butt" d="m665.99615 71.507576l-4.550049 1.618576l4.52594 1.6847992z" fill-rule="evenodd"/><path fill="#000000" fill-opacity="0.0" d="m737.68506 29.47769l190.42517 0l0 87.27559l-190.42517 0z" fill-rule="evenodd"/><path fill="#000000" d="m748.12256 56.39769l0 -13.359375l5.046875 0q1.328125 0 2.03125 0.125q0.96875 0.171875 1.640625 0.640625q0.671875 0.453125 1.078125 1.28125q0.40625 0.828125 0.40625 1.828125q0 1.703125 -1.09375 2.890625q-1.078125 1.171875 -3.921875 1.171875l-3.421875 0l0 5.421875l-1.765625 0zm1.765625 -7.0l3.453125 0q1.71875 0 2.4375 -0.640625q0.71875 -0.640625 0.71875 -1.796875q0 -0.84375 -0.421875 -1.4375q-0.421875 -0.59375 -1.125 -0.78125q-0.4375 -0.125 -1.640625 -0.125l-3.421875 0l0 4.78125zm16.802917 7.0l0 -1.421875q-1.125 1.640625 -3.0625 1.640625q-0.859375 0 -1.609375 -0.328125q-0.734375 -0.328125 -1.09375 -0.828125q-0.359375 -0.5 -0.5 -1.21875q-0.109375 -0.46875 -0.109375 -1.53125l0 -5.984375l1.640625 0l0 5.359375q0 1.28125 0.109375 1.734375q0.15625 0.640625 0.65625 1.015625q0.5 0.375 1.234375 0.375q0.734375 0 1.375 -0.375q0.65625 -0.390625 0.921875 -1.03125q0.265625 -0.65625 0.265625 -1.890625l0 -5.1875l1.640625 0l0 9.671875l-1.46875 0zm5.5476074 0l-1.515625 0l0 -13.359375l1.640625 0l0 4.765625q1.046875 -1.296875 2.65625 -1.296875q0.890625 0 1.6875 0.359375q0.796875 0.359375 1.3125 1.015625q0.515625 0.640625 0.796875 1.5625q0.296875 0.921875 0.296875 1.96875q0 2.484375 -1.234375 3.84375q-1.21875 1.359375 -2.953125 1.359375q-1.703125 0 -2.6875 -1.4375l0 1.21875zm-0.015625 -4.90625q0 1.734375 0.484375 2.515625q0.765625 1.265625 2.09375 1.265625q1.078125 0 1.859375 -0.9375q0.78125 -0.9375 0.78125 -2.78125q0 -1.890625 -0.75 -2.796875q-0.75 -0.90625 -1.828125 -0.90625q-1.0625 0 -1.859375 0.9375q-0.78125 0.9375 -0.78125 2.703125zm8.844482 4.90625l0 -13.359375l1.640625 0l0 13.359375l-1.640625 0zm4.1916504 -11.46875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm10.457336 -3.546875l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm8.198914 -7.921875l0 -1.890625l1.640625 0l0 1.890625l-1.640625 0zm0 11.46875l0 -9.671875l1.640625 0l0 9.671875l-1.640625 0zm4.1448364 0l0 -9.671875l1.46875 0l0 1.375q1.0625 -1.59375 3.078125 -1.59375q0.875 0 1.609375 0.3125q0.734375 0.3125 1.09375 0.828125q0.375 0.5 0.515625 1.203125q0.09375 0.453125 0.09375 1.59375l0 5.953125l-1.640625 0l0 -5.890625q0 -1.0 -0.203125 -1.484375q-0.1875 -0.5 -0.671875 -0.796875q-0.484375 -0.296875 -1.140625 -0.296875q-1.046875 0 -1.8125 0.671875q-0.75 0.65625 -0.75 2.515625l0 5.28125l-1.640625 0zm13.953857 -1.46875l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm8.230164 -1.640625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm9.125732 5.765625l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.6188965 0l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0zm11.105225 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm10.516296 1.3125l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm9.640625 0.4375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm13.715271 0.921875q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm9.688232 4.84375l0 -8.40625l-1.453125 0l0 -1.265625l1.453125 0l0 -1.03125q0 -0.96875 0.171875 -1.453125q0.234375 -0.640625 0.828125 -1.03125q0.59375 -0.390625 1.671875 -0.390625q0.6875 0 1.53125 0.15625l-0.25 1.4375q-0.5 -0.09375 -0.953125 -0.09375q-0.75 0 -1.0625 0.328125q-0.3125 0.3125 -0.3125 1.1875l0 0.890625l1.890625 0l0 1.265625l-1.890625 0l0 8.40625l-1.625 0z" fill-rule="nonzero"/><path fill="#000000" d="m751.49756 77.32893l0.234375 1.453125q-0.6875 0.140625 -1.234375 0.140625q-0.890625 0 -1.390625 -0.28125q-0.484375 -0.28125 -0.6875 -0.734375q-0.203125 -0.46875 -0.203125 -1.9375l0 -5.578125l-1.203125 0l0 -1.265625l1.203125 0l0 -2.390625l1.625 -0.984375l0 3.375l1.65625 0l0 1.265625l-1.65625 0l0 5.671875q0 0.6875 0.078125 0.890625q0.09375 0.203125 0.28125 0.328125q0.203125 0.109375 0.578125 0.109375q0.265625 0 0.71875 -0.0625zm1.6051636 1.46875l0 -13.359375l1.640625 0l0 4.796875q1.140625 -1.328125 2.890625 -1.328125q1.078125 0 1.859375 0.421875q0.796875 0.421875 1.140625 1.171875q0.34375 0.75 0.34375 2.171875l0 6.125l-1.640625 0l0 -6.125q0 -1.234375 -0.53125 -1.796875q-0.53125 -0.5625 -1.515625 -0.5625q-0.71875 0 -1.359375 0.390625q-0.640625 0.375 -0.921875 1.015625q-0.265625 0.640625 -0.265625 1.78125l0 5.296875l-1.640625 0zm17.000732 -3.109375l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625zm14.527771 5.765625l0 -13.359375l5.046875 0q1.328125 0 2.03125 0.125q0.96875 0.171875 1.640625 0.640625q0.671875 0.453125 1.078125 1.28125q0.40625 0.828125 0.40625 1.828125q0 1.703125 -1.09375 2.890625q-1.078125 1.171875 -3.921875 1.171875l-3.421875 0l0 5.421875l-1.765625 0zm1.765625 -7.0l3.453125 0q1.71875 0 2.4375 -0.640625q0.71875 -0.640625 0.71875 -1.796875q0 -0.84375 -0.421875 -1.4375q-0.421875 -0.59375 -1.125 -0.78125q-0.4375 -0.125 -1.640625 -0.125l-3.421875 0l0 4.78125zm10.3966675 10.71875l-0.1875 -1.53125q0.546875 0.140625 0.9375 0.140625q0.546875 0 0.875 -0.1875q0.328125 -0.171875 0.546875 -0.5q0.15625 -0.25 0.5 -1.21875q0.046875 -0.140625 0.140625 -0.40625l-3.671875 -9.6875l1.765625 0l2.015625 5.59375q0.390625 1.078125 0.703125 2.25q0.28125 -1.125 0.671875 -2.203125l2.078125 -5.640625l1.640625 0l-3.6875 9.828125q-0.59375 1.609375 -0.921875 2.203125q-0.4375 0.8125 -1.0 1.1875q-0.5625 0.375 -1.34375 0.375q-0.484375 0 -1.0625 -0.203125zm8.140625 -3.71875l5.125 -13.359375l1.90625 0l5.46875 13.359375l-2.015625 0l-1.546875 -4.046875l-5.59375 0l-1.46875 4.046875l-1.875 0zm3.859375 -5.484375l4.53125 0l-1.40625 -3.703125q-0.625 -1.6875 -0.9375 -2.765625q-0.265625 1.28125 -0.71875 2.546875l-1.46875 3.921875zm9.8342285 5.484375l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm6.2126465 0l0 -9.671875l1.46875 0l0 1.46875q0.5625 -1.03125 1.03125 -1.359375q0.484375 -0.328125 1.0625 -0.328125q0.828125 0 1.6875 0.53125l-0.5625 1.515625q-0.609375 -0.359375 -1.203125 -0.359375q-0.546875 0 -0.96875 0.328125q-0.421875 0.328125 -0.609375 0.890625q-0.28125 0.875 -0.28125 1.921875l0 5.0625l-1.625 0zm5.6189575 -4.84375q0 -2.6875 1.484375 -3.96875q1.25 -1.078125 3.046875 -1.078125q2.0 0 3.265625 1.3125q1.265625 1.296875 1.265625 3.609375q0 1.859375 -0.5625 2.9375q-0.5625 1.0625 -1.640625 1.65625q-1.0625 0.59375 -2.328125 0.59375q-2.03125 0 -3.28125 -1.296875q-1.25 -1.3125 -1.25 -3.765625zm1.6875 0q0 1.859375 0.796875 2.796875q0.8125 0.921875 2.046875 0.921875q1.21875 0 2.03125 -0.921875q0.8125 -0.9375 0.8125 -2.84375q0 -1.796875 -0.8125 -2.71875q-0.8125 -0.921875 -2.03125 -0.921875q-1.234375 0 -2.046875 0.921875q-0.796875 0.90625 -0.796875 2.765625zm11.078796 4.84375l-2.96875 -9.671875l1.703125 0l1.53125 5.578125l0.578125 2.078125q0.046875 -0.15625 0.5 -2.0l1.546875 -5.65625l1.6875 0l1.4375 5.609375l0.484375 1.84375l0.5625 -1.859375l1.65625 -5.59375l1.59375 0l-3.03125 9.671875l-1.703125 0l-1.53125 -5.796875l-0.375 -1.640625l-1.953125 7.4375l-1.71875 0z" fill-rule="nonzero"/><path fill="#000000" d="m747.91943 104.90081l0 -13.375l1.484375 0l0 1.25q0.53125 -0.734375 1.1875 -1.09375q0.671875 -0.375 1.625 -0.375q1.234375 0 2.171875 0.640625q0.953125 0.625 1.4375 1.796875q0.484375 1.15625 0.484375 2.546875q0 1.484375 -0.53125 2.671875q-0.53125 1.1875 -1.546875 1.828125q-1.015625 0.625 -2.140625 0.625q-0.8125 0 -1.46875 -0.34375q-0.65625 -0.34375 -1.0625 -0.875l0 4.703125l-1.640625 0zm1.484375 -8.484375q0 1.859375 0.75 2.765625q0.765625 0.890625 1.828125 0.890625q1.09375 0 1.875 -0.921875q0.78125 -0.9375 0.78125 -2.875q0 -1.84375 -0.765625 -2.765625q-0.75 -0.921875 -1.8125 -0.921875q-1.046875 0 -1.859375 0.984375q-0.796875 0.96875 -0.796875 2.84375zm15.203796 3.59375q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm10.516357 1.3125l1.609375 0.21875q-0.265625 1.65625 -1.359375 2.609375q-1.078125 0.9375 -2.671875 0.9375q-1.984375 0 -3.1875 -1.296875q-1.203125 -1.296875 -1.203125 -3.71875q0 -1.578125 0.515625 -2.75q0.515625 -1.171875 1.578125 -1.75q1.0625 -0.59375 2.3125 -0.59375q1.578125 0 2.578125 0.796875q1.0 0.796875 1.28125 2.265625l-1.59375 0.234375q-0.234375 -0.96875 -0.8125 -1.453125q-0.578125 -0.5 -1.390625 -0.5q-1.234375 0 -2.015625 0.890625q-0.78125 0.890625 -0.78125 2.8125q0 1.953125 0.75 2.84375q0.75 0.875 1.953125 0.875q0.96875 0 1.609375 -0.59375q0.65625 -0.59375 0.828125 -1.828125zm3.015625 3.546875l0 -13.359375l1.640625 0l0 7.625l3.890625 -3.9375l2.109375 0l-3.6875 3.59375l4.0625 6.078125l-2.015625 0l-3.203125 -4.953125l-1.15625 1.125l0 3.828125l-1.640625 0zm15.640625 -1.1875q-0.921875 0.765625 -1.765625 1.09375q-0.828125 0.3125 -1.796875 0.3125q-1.59375 0 -2.453125 -0.78125q-0.859375 -0.78125 -0.859375 -1.984375q0 -0.71875 0.328125 -1.296875q0.328125 -0.59375 0.84375 -0.9375q0.53125 -0.359375 1.1875 -0.546875q0.46875 -0.125 1.453125 -0.25q1.984375 -0.234375 2.921875 -0.5625q0.015625 -0.34375 0.015625 -0.421875q0 -1.0 -0.46875 -1.421875q-0.625 -0.546875 -1.875 -0.546875q-1.15625 0 -1.703125 0.40625q-0.546875 0.40625 -0.8125 1.421875l-1.609375 -0.21875q0.21875 -1.015625 0.71875 -1.640625q0.5 -0.640625 1.453125 -0.984375q0.953125 -0.34375 2.1875 -0.34375q1.25 0 2.015625 0.296875q0.78125 0.28125 1.140625 0.734375q0.375 0.4375 0.515625 1.109375q0.078125 0.421875 0.078125 1.515625l0 2.1875q0 2.28125 0.109375 2.890625q0.109375 0.59375 0.40625 1.15625l-1.703125 0q-0.265625 -0.515625 -0.328125 -1.1875zm-0.140625 -3.671875q-0.890625 0.375 -2.671875 0.625q-1.015625 0.140625 -1.4375 0.328125q-0.421875 0.1875 -0.65625 0.53125q-0.21875 0.34375 -0.21875 0.78125q0 0.65625 0.5 1.09375q0.5 0.4375 1.453125 0.4375q0.9375 0 1.671875 -0.40625q0.75 -0.421875 1.09375 -1.140625q0.265625 -0.5625 0.265625 -1.640625l0 -0.609375zm3.8913574 5.65625l1.59375 0.234375q0.109375 0.75 0.5625 1.078125q0.609375 0.453125 1.671875 0.453125q1.140625 0 1.75 -0.453125q0.625 -0.453125 0.84375 -1.265625q0.125 -0.5 0.109375 -2.109375q-1.0625 1.265625 -2.671875 1.265625q-2.0 0 -3.09375 -1.4375q-1.09375 -1.4375 -1.09375 -3.453125q0 -1.390625 0.5 -2.5625q0.515625 -1.171875 1.453125 -1.796875q0.953125 -0.640625 2.25 -0.640625q1.703125 0 2.8125 1.375l0 -1.15625l1.515625 0l0 8.359375q0 2.265625 -0.46875 3.203125q-0.453125 0.9375 -1.453125 1.484375q-0.984375 0.546875 -2.453125 0.546875q-1.71875 0 -2.796875 -0.78125q-1.0625 -0.765625 -1.03125 -2.34375zm1.359375 -5.8125q0 1.90625 0.75 2.78125q0.765625 0.875 1.90625 0.875q1.125 0 1.890625 -0.859375q0.765625 -0.875 0.765625 -2.734375q0 -1.78125 -0.796875 -2.671875q-0.78125 -0.90625 -1.890625 -0.90625q-1.09375 0 -1.859375 0.890625q-0.765625 0.875 -0.765625 2.625zm15.953857 1.90625l1.6875 0.203125q-0.40625 1.484375 -1.484375 2.3125q-1.078125 0.8125 -2.765625 0.8125q-2.125 0 -3.375 -1.296875q-1.234375 -1.3125 -1.234375 -3.671875q0 -2.453125 1.25 -3.796875q1.265625 -1.34375 3.265625 -1.34375q1.9375 0 3.15625 1.328125q1.234375 1.3125 1.234375 3.703125q0 0.15625 0 0.4375l-7.21875 0q0.09375 1.59375 0.90625 2.453125q0.8125 0.84375 2.015625 0.84375q0.90625 0 1.546875 -0.46875q0.640625 -0.484375 1.015625 -1.515625zm-5.390625 -2.65625l5.40625 0q-0.109375 -1.21875 -0.625 -1.828125q-0.78125 -0.953125 -2.03125 -0.953125q-1.125 0 -1.90625 0.765625q-0.765625 0.75 -0.84375 2.015625z" fill-rule="nonzero"/></g></svg>
\ No newline at end of file
diff --git a/docs/source/python/timestamps.rst b/docs/source/python/timestamps.rst
index fb4da5cc04d..64a2a354ddd 100644
--- a/docs/source/python/timestamps.rst
+++ b/docs/source/python/timestamps.rst
@@ -67,7 +67,7 @@ The following cases assume the Spark configuration
     ...                               nanosecond=500, tz=timezone(timedelta(hours=-8)))]})
     >>> pdf
            naive                               aware
-           0 2018-10-01 2018-10-01 00:00:00.000000500-08:00
+           0 2019-01-01 2019-01-01 00:00:00.000000500-08:00
 
     >>> spark.conf.set("spark.sql.session.timeZone", "UTC")
     >>> utc_df = sqlContext.createDataFrame(pdf)
diff --git a/docs/source/status.rst b/docs/source/status.rst
index c8e6dc25bd1..fc637872255 100644
--- a/docs/source/status.rst
+++ b/docs/source/status.rst
@@ -40,13 +40,13 @@ Data Types
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
 | UInt8/16/32/64    | ✓     | ✓     | ✓     | ✓          |  ✓    |  ✓    | ✓     |
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
-| Float16           |       |       | ✓     |            |       |       | ✓     |
+| Float16           |       |       | ✓     |            |       |  ✓    | ✓     |
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
 | Float32/64        | ✓     | ✓     | ✓     | ✓          |  ✓    |  ✓    | ✓     |
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
 | Decimal128        | ✓     | ✓     | ✓     |            |  ✓    |  ✓    | ✓     |
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
-| Decimal256        | ✓     | ✓     | ✓     |            |  ✓    |       | ✓     |
+| Decimal256        | ✓     | ✓     | ✓     |            |  ✓    |  ✓    | ✓     |
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
 | Date32/64         | ✓     | ✓     | ✓     | ✓          |  ✓    |  ✓    | ✓     |
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
@@ -81,11 +81,11 @@ Data Types
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
 | Struct            | ✓     | ✓     | ✓     | ✓          |  ✓    |  ✓    | ✓     |
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
-| Map               | ✓     | ✓     | ✓     | ✓          |       |       | ✓     |
+| Map               | ✓     | ✓     | ✓     | ✓          |       |  ✓    | ✓     |
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
-| Dense Union       | ✓     | ✓     | ✓     |            |       |       | ✓     |
+| Dense Union       | ✓     | ✓     | ✓     |            |       |  ✓    | ✓     |
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
-| Sparse Union      | ✓     | ✓     | ✓     |            |       |       | ✓     |
+| Sparse Union      | ✓     | ✓     | ✓     |            |       |  ✓    | ✓     |
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
 
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
@@ -94,7 +94,7 @@ Data Types
 +===================+=======+=======+=======+============+=======+=======+=======+
 | Dictionary        | ✓     | ✓ (1) | ✓     | ✓ (1)      | ✓ (1) | ✓ (1) | ✓     |
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
-| Extension         | ✓     | ✓     | ✓     |            |       |       | ✓     |
+| Extension         | ✓     | ✓     | ✓     |            |       | ✓     | ✓     |
 +-------------------+-------+-------+-------+------------+-------+-------+-------+
 
 Notes:
@@ -128,7 +128,7 @@ IPC Format
 +-----------------------------+-------+-------+-------+------------+-------+-------+-------+
 | Sparse tensors              | ✓     |       |       |            |       |       |       |
 +-----------------------------+-------+-------+-------+------------+-------+-------+-------+
-| Buffer compression          | ✓     | ✓ (3) | ✓     |            |       |       | ✓     |
+| Buffer compression          | ✓     | ✓ (3) | ✓     |            |       |  ✓    | ✓     |
 +-----------------------------+-------+-------+-------+------------+-------+-------+-------+
 | Endianness conversion       | ✓ (2) |       | ✓ (2) |            |       |       |       |
 +-----------------------------+-------+-------+-------+------------+-------+-------+-------+
@@ -151,16 +151,14 @@ Notes:
 Flight RPC
 ==========
 
-.. note:: Flight RPC is still experimental.
-
 +--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
 | Flight RPC Transport                       | C++   | Java  | Go    | JavaScript | C#    | Rust  | Julia |
 +============================================+=======+=======+=======+============+=======+=======+=======+
-| gRPC_ transport (grpc:, grpc+tcp:)         | ✓     | ✓     | ✓     |            | ✓     |       |       |
+| gRPC_ transport (grpc:, grpc+tcp:)         | ✓     | ✓     | ✓     |            | ✓     | ✓     |       |
 +--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
-| gRPC domain socket transport (grpc+unix:)  | ✓     | ✓     | ✓     |            | ✓     |       |       |
+| gRPC domain socket transport (grpc+unix:)  | ✓     | ✓     | ✓     |            | ✓     | ✓     |       |
 +--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
-| gRPC + TLS transport (grpc+tls:)           | ✓     | ✓     | ✓     |            | ✓     |       |       |
+| gRPC + TLS transport (grpc+tls:)           | ✓     | ✓     | ✓     |            | ✓     | ✓     |       |
 +--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
 | UCX_ transport (ucx:)                      | ✓     |       |       |            |       |       |       |
 +--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
@@ -207,7 +205,7 @@ Supported features in the UCX transport:
 
 Notes:
 
-* \(1) No support for handshake or DoExchange.
+* \(1) No support for Handshake or DoExchange.
 * \(2) Support using AspNetCore authentication handlers.
 * \(3) Whether a single client can support multiple concurrent calls.
 * \(4) Only support for DoExchange, DoGet, DoPut, and GetFlightInfo.
@@ -222,6 +220,68 @@ Notes:
 .. _gRPC: https://grpc.io/
 .. _UCX: https://openucx.org/
 
+Flight SQL
+==========
+
+.. note:: Flight SQL is still experimental.
+
+The feature support refers to the client/server libraries only;
+databases which implement the Flight SQL protocol in turn will
+support/not support individual features.
+
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| Feature                                    | C++   | Java  | Go    | JavaScript | C#    | Rust  | Julia |
++============================================+=======+=======+=======+============+=======+=======+=======+
+| BeginSavepoint                             | ✓     | ✓     |       |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| BeginTransaction                           | ✓     | ✓     |       |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| CancelQuery                                | ✓     | ✓     |       |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| ClosePreparedStatement                     | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| CreatePreparedStatement                    | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| CreatePreparedSubstraitPlan                | ✓     | ✓     |       |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| EndSavepoint                               | ✓     | ✓     |       |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| EndTransaction                             | ✓     | ✓     |       |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| GetCatalogs                                | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| GetCrossReference                          | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| GetDbSchemas                               | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| GetExportedKeys                            | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| GetImportedKeys                            | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| GetPrimaryKeys                             | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| GetSqlInfo                                 | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| GetTables                                  | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| GetTableTypes                              | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| GetXdbcTypeInfo                            | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| PreparedStatementQuery                     | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| PreparedStatementUpdate                    | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| StatementSubstraitPlan                     | ✓     | ✓     |       |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| StatementQuery                             | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+| StatementUpdate                            | ✓     | ✓     | ✓     |            |       |       |       |
++--------------------------------------------+-------+-------+-------+------------+-------+-------+-------+
+
+.. seealso::
+   The :doc:`./format/FlightSql` specification.
+
 C Data Interface
 ================
 
@@ -261,18 +321,18 @@ C Stream Interface
 Third-Party Data Formats
 ========================
 
-+-----------------------------+---------+---------+-------+------------+-------+---------+-------+
-| Format                      | C++     | Java    | Go    | JavaScript | C#    | Rust    | Julia |
-|                             |         |         |       |            |       |         |       |
-+=============================+=========+=========+=======+============+=======+=========+=======+
-| Avro                        |         | R       |       |            |       |         |       |
-+-----------------------------+---------+---------+-------+------------+-------+---------+-------+
-| CSV                         | R/W     |         | R/W   |            |       | R/W     | R/W   |
-+-----------------------------+---------+---------+-------+------------+-------+---------+-------+
-| ORC                         | R/W     | R (2)   |       |            |       |         |       |
-+-----------------------------+---------+---------+-------+------------+-------+---------+-------+
-| Parquet                     | R/W     | R (3)   | R/W   |            |       | R/W (1) |       |
-+-----------------------------+---------+---------+-------+------------+-------+---------+-------+
++-----------------------------+---------+---------+-------+------------+-------+-------+-------+
+| Format                      | C++     | Java    | Go    | JavaScript | C#    | Rust  | Julia |
+|                             |         |         |       |            |       |       |       |
++=============================+=========+=========+=======+============+=======+=======+=======+
+| Avro                        |         | R       |       |            |       |       |       |
++-----------------------------+---------+---------+-------+------------+-------+-------+-------+
+| CSV                         | R/W     |         | R/W   |            |       | R/W   | R/W   |
++-----------------------------+---------+---------+-------+------------+-------+-------+-------+
+| ORC                         | R/W     | R (1)   |       |            |       |       |       |
++-----------------------------+---------+---------+-------+------------+-------+-------+-------+
+| Parquet                     | R/W     | R (2)   | R/W   |            |       | R/W   |       |
++-----------------------------+---------+---------+-------+------------+-------+-------+-------+
 
 Notes:
 
@@ -280,8 +340,6 @@ Notes:
 
 * *W* = Write supported
 
-* \(1) Nested read/write not supported.
-
-* \(2) Through JNI bindings. (Provided by ``org.apache.arrow.orc:arrow-orc``)
+* \(1) Through JNI bindings. (Provided by ``org.apache.arrow.orc:arrow-orc``)
 
-* \(3) Through JNI bindings to Arrow C++ Datasets. (Provided by ``org.apache.arrow:arrow-dataset``)
+* \(2) Through JNI bindings to Arrow C++ Datasets. (Provided by ``org.apache.arrow:arrow-dataset``)
diff --git a/format/Flight.proto b/format/Flight.proto
index 87e5fda796d..635b1793d2b 100644
--- a/format/Flight.proto
+++ b/format/Flight.proto
@@ -19,7 +19,7 @@
 syntax = "proto3";
 
 option java_package = "org.apache.arrow.flight.impl";
-option go_package = "github.com/apache/arrow/go/flight;flight";
+option go_package = "github.com/apache/arrow/go/arrow/flight/internal/flight";
 option csharp_namespace = "Apache.Arrow.Flight.Protocol";
 
 package arrow.flight.protocol;
diff --git a/format/FlightSql.proto b/format/FlightSql.proto
index 149f8831e13..d8a6cb5bfdb 100644
--- a/format/FlightSql.proto
+++ b/format/FlightSql.proto
@@ -20,6 +20,7 @@ syntax = "proto3";
 import "google/protobuf/descriptor.proto";
 
 option java_package = "org.apache.arrow.flight.sql.impl";
+option go_package = "github.com/apache/arrow/go/arrow/flight/internal/flight";
 package arrow.flight.protocol.sql;
 
 /*
@@ -89,6 +90,64 @@ enum SqlInfo {
    */
   FLIGHT_SQL_SERVER_READ_ONLY = 3;
 
+  /*
+   * Retrieves a boolean value indicating whether the Flight SQL Server supports executing
+   * SQL queries.
+   *
+   * Note that the absence of this info (as opposed to a false value) does not necessarily
+   * mean that SQL is not supported, as this property was not originally defined.
+   */
+  FLIGHT_SQL_SERVER_SQL = 4;
+
+  /*
+   * Retrieves a boolean value indicating whether the Flight SQL Server supports executing
+   * Substrait plans.
+   */
+  FLIGHT_SQL_SERVER_SUBSTRAIT = 5;
+
+  /*
+   * Retrieves a string value indicating the minimum supported Substrait version, or null
+   * if Substrait is not supported.
+   */
+  FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION = 6;
+
+  /*
+   * Retrieves a string value indicating the maximum supported Substrait version, or null
+   * if Substrait is not supported.
+   */
+  FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION = 7;
+
+  /*
+   * Retrieves an int32 indicating whether the Flight SQL Server supports the
+   * BeginTransaction/EndTransaction/BeginSavepoint/EndSavepoint actions.
+   *
+   * Even if this is not supported, the database may still support explicit "BEGIN
+   * TRANSACTION"/"COMMIT" SQL statements (see SQL_TRANSACTIONS_SUPPORTED); this property
+   * is only about whether the server implements the Flight SQL API endpoints.
+   *
+   * The possible values are listed in `SqlSupportedTransaction`.
+   */
+  FLIGHT_SQL_SERVER_TRANSACTION = 8;
+
+  /*
+   * Retrieves a boolean value indicating whether the Flight SQL Server supports explicit
+   * query cancellation (the CancelQuery action).
+   */
+  FLIGHT_SQL_SERVER_CANCEL = 9;
+
+  /*
+   * Retrieves an int32 indicating the timeout (in milliseconds) for prepared statement handles.
+   *
+   * If 0, there is no timeout.  Servers should reset the timeout when the handle is used in a command.
+   */
+  FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT = 100;
+
+  /*
+   * Retrieves an int32 indicating the timeout (in milliseconds) for transactions, since transactions are not tied to a connection.
+   *
+   * If 0, there is no timeout.  Servers should reset the timeout when the handle is used in a command.
+   */
+  FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT = 101;
 
   // SQL Syntax Information [500-1000): provides information about SQL syntax supported by the Flight SQL Server.
 
@@ -760,6 +819,18 @@ enum SqlInfo {
   SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED = 576;
 }
 
+// The level of support for Flight SQL transaction RPCs.
+enum SqlSupportedTransaction {
+  // Unknown/not indicated/no support
+  SQL_SUPPORTED_TRANSACTION_NONE = 0;
+  // Transactions, but not savepoints.
+  // A savepoint is a mark within a transaction that can be individually
+  // rolled back to. Not all databases support savepoints.
+  SQL_SUPPORTED_TRANSACTION_TRANSACTION = 1;
+  // Transactions and savepoints
+  SQL_SUPPORTED_TRANSACTION_SAVEPOINT = 2;
+}
+
 enum SqlSupportedCaseSensitivity {
   SQL_CASE_SENSITIVITY_UNKNOWN = 0;
   SQL_CASE_SENSITIVITY_CASE_INSENSITIVE = 1;
@@ -1405,7 +1476,7 @@ message CommandGetCrossReference {
   string fk_table = 6;
 }
 
-// SQL Execution Action Messages
+// Query Execution Action Messages
 
 /*
  * Request message for the "CreatePreparedStatement" action on a Flight SQL enabled backend.
@@ -1415,14 +1486,49 @@ message ActionCreatePreparedStatementRequest {
 
   // The valid SQL string to create a prepared statement for.
   string query = 1;
+  // Create/execute the prepared statement as part of this transaction (if
+  // unset, executions of the prepared statement will be auto-committed).
+  optional bytes transaction_id = 2;
 }
 
 /*
- * Wrap the result of a "GetPreparedStatement" action.
+ * An embedded message describing a Substrait plan to execute.
+ */
+message SubstraitPlan {
+  option (experimental) = true;
+
+  // The serialized substrait.Plan to create a prepared statement for.
+  // XXX(ARROW-16902): this is bytes instead of an embedded message
+  // because Protobuf does not really support one DLL using Protobuf
+  // definitions from another DLL.
+  bytes plan = 1;
+  // The Substrait release, e.g. "0.12.0". This information is not
+  // tracked in the plan itself, so this is the only way for consumers
+  // to potentially know if they can handle the plan.
+  string version = 2;
+}
+
+/*
+ * Request message for the "CreatePreparedSubstraitPlan" action on a Flight SQL enabled backend.
+ */
+message ActionCreatePreparedSubstraitPlanRequest {
+  option (experimental) = true;
+
+  // The serialized substrait.Plan to create a prepared statement for.
+  SubstraitPlan plan = 1;
+  // Create/execute the prepared statement as part of this transaction (if
+  // unset, executions of the prepared statement will be auto-committed).
+  optional bytes transaction_id = 2;
+}
+
+/*
+ * Wrap the result of a "CreatePreparedStatement" or "CreatePreparedSubstraitPlan" action.
  *
  * The resultant PreparedStatement can be closed either:
  * - Manually, through the "ClosePreparedStatement" action;
  * - Automatically, by a server timeout.
+ *
+ * The result should be wrapped in a google.protobuf.Any message.
  */
 message ActionCreatePreparedStatementResult {
   option (experimental) = true;
@@ -1450,8 +1556,113 @@ message ActionClosePreparedStatementRequest {
   bytes prepared_statement_handle = 1;
 }
 
+/*
+ * Request message for the "BeginTransaction" action.
+ * Begins a transaction.
+ */
+message ActionBeginTransactionRequest {
+  option (experimental) = true;
+}
+
+/*
+ * Request message for the "BeginSavepoint" action.
+ * Creates a savepoint within a transaction.
+ *
+ * Only supported if FLIGHT_SQL_TRANSACTION is
+ * FLIGHT_SQL_TRANSACTION_SUPPORT_SAVEPOINT.
+ */
+message ActionBeginSavepointRequest {
+  option (experimental) = true;
+
+  // The transaction to which a savepoint belongs.
+  bytes transaction_id = 1;
+  // Name for the savepoint.
+  string name = 2;
+}
+
+/*
+ * The result of a "BeginTransaction" action.
+ *
+ * The transaction can be manipulated with the "EndTransaction" action, or
+ * automatically via server timeout. If the transaction times out, then it is
+ * automatically rolled back.
+ *
+ * The result should be wrapped in a google.protobuf.Any message.
+ */
+message ActionBeginTransactionResult {
+  option (experimental) = true;
+
+  // Opaque handle for the transaction on the server.
+  bytes transaction_id = 1;
+}
+
+/*
+ * The result of a "BeginSavepoint" action.
+ *
+ * The transaction can be manipulated with the "EndSavepoint" action.
+ * If the associated transaction is committed, rolled back, or times
+ * out, then the savepoint is also invalidated.
+ *
+ * The result should be wrapped in a google.protobuf.Any message.
+ */
+message ActionBeginSavepointResult {
+  option (experimental) = true;
+
+  // Opaque handle for the savepoint on the server.
+  bytes savepoint_id = 1;
+}
+
+/*
+ * Request message for the "EndTransaction" action.
+ *
+ * Commit (COMMIT) or rollback (ROLLBACK) the transaction.
+ *
+ * If the action completes successfully, the transaction handle is
+ * invalidated, as are all associated savepoints.
+ */
+message ActionEndTransactionRequest {
+  option (experimental) = true;
 
-// SQL Execution Messages.
+  enum EndTransaction {
+    END_TRANSACTION_UNSPECIFIED = 0;
+    // Commit the transaction.
+    END_TRANSACTION_COMMIT = 1;
+    // Roll back the transaction.
+    END_TRANSACTION_ROLLBACK = 2;
+  }
+  // Opaque handle for the transaction on the server.
+  bytes transaction_id = 1;
+  // Whether to commit/rollback the given transaction.
+  EndTransaction action = 2;
+}
+
+/*
+ * Request message for the "EndSavepoint" action.
+ *
+ * Release (RELEASE) the savepoint or rollback (ROLLBACK) to the
+ * savepoint.
+ *
+ * Releasing a savepoint invalidates that savepoint.  Rolling back to
+ * a savepoint does not invalidate the savepoint, but invalidates all
+ * savepoints created after the current savepoint.
+ */
+message ActionEndSavepointRequest {
+  option (experimental) = true;
+
+  enum EndSavepoint {
+    END_SAVEPOINT_UNSPECIFIED = 0;
+    // Release the savepoint.
+    END_SAVEPOINT_RELEASE = 1;
+    // Roll back to a savepoint.
+    END_SAVEPOINT_ROLLBACK = 2;
+  }
+  // Opaque handle for the savepoint on the server.
+  bytes savepoint_id = 1;
+  // Whether to rollback/release the given savepoint.
+  EndSavepoint action = 2;
+}
+
+// Query Execution Messages.
 
 /*
  * Represents a SQL query. Used in the command member of FlightDescriptor
@@ -1475,6 +1686,35 @@ message CommandStatementQuery {
 
   // The SQL syntax.
   string query = 1;
+  // Include the query as part of this transaction (if unset, the query is auto-committed).
+  optional bytes transaction_id = 2;
+}
+
+/*
+ * Represents a Substrait plan. Used in the command member of FlightDescriptor
+ * for the following RPC calls:
+ *  - GetSchema: return the Arrow schema of the query.
+ *    Fields on this schema may contain the following metadata:
+ *    - ARROW:FLIGHT:SQL:CATALOG_NAME      - Table's catalog name
+ *    - ARROW:FLIGHT:SQL:DB_SCHEMA_NAME    - Database schema name
+ *    - ARROW:FLIGHT:SQL:TABLE_NAME        - Table name
+ *    - ARROW:FLIGHT:SQL:TYPE_NAME         - The data source-specific name for the data type of the column.
+ *    - ARROW:FLIGHT:SQL:PRECISION         - Column precision/size
+ *    - ARROW:FLIGHT:SQL:SCALE             - Column scale/decimal digits if applicable
+ *    - ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT - "1" indicates if the column is auto incremented, "0" otherwise.
+ *    - ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE - "1" indicates if the column is case sensitive, "0" otherwise.
+ *    - ARROW:FLIGHT:SQL:IS_READ_ONLY      - "1" indicates if the column is read only, "0" otherwise.
+ *    - ARROW:FLIGHT:SQL:IS_SEARCHABLE     - "1" indicates if the column is searchable via WHERE clause, "0" otherwise.
+ *  - GetFlightInfo: execute the query.
+ *  - DoPut: execute the query.
+ */
+message CommandStatementSubstraitPlan {
+  option (experimental) = true;
+
+  // A serialized substrait.Plan
+  SubstraitPlan plan = 1;
+  // Include the query as part of this transaction (if unset, the query is auto-committed).
+  optional bytes transaction_id = 2;
 }
 
 /**
@@ -1522,6 +1762,8 @@ message CommandStatementUpdate {
 
   // The SQL syntax.
   string query = 1;
+  // Include the query as part of this transaction (if unset, the query is auto-committed).
+  optional bytes transaction_id = 2;
 }
 
 /*
@@ -1549,6 +1791,57 @@ message DoPutUpdateResult {
   int64 record_count = 1;
 }
 
+/*
+ * Request message for the "CancelQuery" action.
+ *
+ * Explicitly cancel a running query.
+ *
+ * This lets a single client explicitly cancel work, no matter how many clients
+ * are involved/whether the query is distributed or not, given server support.
+ * The transaction/statement is not rolled back; it is the application's job to
+ * commit or rollback as appropriate. This only indicates the client no longer
+ * wishes to read the remainder of the query results or continue submitting
+ * data.
+ *
+ * This command is idempotent.
+ */
+message ActionCancelQueryRequest {
+  option (experimental) = true;
+
+  // The result of the GetFlightInfo RPC that initiated the query.
+  // XXX(ARROW-16902): this must be a serialized FlightInfo, but is
+  // rendered as bytes because Protobuf does not really support one
+  // DLL using Protobuf definitions from another DLL.
+  bytes info = 1;
+}
+
+/*
+ * The result of cancelling a query.
+ *
+ * The result should be wrapped in a google.protobuf.Any message.
+ */
+message ActionCancelQueryResult {
+  option (experimental) = true;
+
+  enum CancelResult {
+    // The cancellation status is unknown. Servers should avoid using
+    // this value (send a NOT_FOUND error if the requested query is
+    // not known). Clients can retry the request.
+    CANCEL_RESULT_UNSPECIFIED = 0;
+    // The cancellation request is complete. Subsequent requests with
+    // the same payload may return CANCELLED or a NOT_FOUND error.
+    CANCEL_RESULT_CANCELLED = 1;
+    // The cancellation request is in progress. The client may retry
+    // the cancellation request.
+    CANCEL_RESULT_CANCELLING = 2;
+    // The query is not cancellable. The client should not retry the
+    // cancellation request.
+    CANCEL_RESULT_NOT_CANCELLABLE = 3;
+  }
+
+  CancelResult result = 1;
+}
+
 extend google.protobuf.MessageOptions {
   bool experimental = 1000;
 }
diff --git a/format/Schema.fbs b/format/Schema.fbs
index 7ee827b5de8..ce29c25b7d1 100644
--- a/format/Schema.fbs
+++ b/format/Schema.fbs
@@ -19,8 +19,9 @@
 
 /// Format Version History.
 /// Version 1.0 - Forward and backwards compatibility guaranteed.
-/// Version 1.1 - Add Decimal256 (No format release).
-/// Version 1.2 (Pending)- Add Interval MONTH_DAY_NANO
+/// Version 1.1 - Add Decimal256.
+/// Version 1.2 - Add Interval MONTH_DAY_NANO.
+/// Version 1.3 - Add Run-End Encoded.
 
 namespace org.apache.arrow.flatbuf;
 
@@ -178,6 +179,14 @@ table FixedSizeBinary {
 table Bool {
 }
 
+/// Contains two child arrays, run_ends and values.
+/// The run_ends child array must be a 16/32/64-bit integer array
+/// which encodes the indices at which the run with the value in 
+/// each corresponding index in the values child array ends.
+/// Like list/struct types, the value array can be of any type.
+table RunEndEncoded {
+}
+
 /// Exact decimal value represented as an integer value in two's
 /// complement. Currently only 128-bit (16-byte) and 256-bit (32-byte) integers
 /// are used. The representation uses the endianness indicated
@@ -417,6 +426,7 @@ union Type {
   LargeBinary,
   LargeUtf8,
   LargeList,
+  RunEndEncoded,
 }
 
 /// ----------------------------------------------------------------------
diff --git a/format/adbc.h b/format/adbc.h
new file mode 100644
index 00000000000..a1ff53441db
--- /dev/null
+++ b/format/adbc.h
@@ -0,0 +1,1207 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+/// \file adbc.h ADBC: Arrow Database connectivity
+///
+/// An Arrow-based interface between applications and database
+/// drivers.  ADBC aims to provide a vendor-independent API for SQL
+/// and Substrait-based database access that is targeted at
+/// analytics/OLAP use cases.
+///
+/// This API is intended to be implemented directly by drivers and
+/// used directly by client applications.  To assist portability
+/// between different vendors, a "driver manager" library is also
+/// provided, which implements this same API, but dynamically loads
+/// drivers internally and forwards calls appropriately.
+///
+/// ADBC uses structs with free functions that operate on those
+/// structs to model objects.
+///
+/// In general, objects allow serialized access from multiple threads,
+/// but not concurrent access.  Specific implementations may permit
+/// multiple threads.
+///
+/// \version 1.0.0
+
+#pragma once
+
+#include <stddef.h>
+#include <stdint.h>
+
+/// \defgroup Arrow C Data Interface
+/// Definitions for the C Data Interface/C Stream Interface.
+///
+/// See https://arrow.apache.org/docs/format/CDataInterface.html
+///
+/// @{
+
+//! @cond Doxygen_Suppress
+
+#ifdef __cplusplus
+extern "C" {
+#endif
+
+// Extra guard for versions of Arrow without the canonical guard
+#ifndef ARROW_FLAG_DICTIONARY_ORDERED
+
+#ifndef ARROW_C_DATA_INTERFACE
+#define ARROW_C_DATA_INTERFACE
+
+#define ARROW_FLAG_DICTIONARY_ORDERED 1
+#define ARROW_FLAG_NULLABLE 2
+#define ARROW_FLAG_MAP_KEYS_SORTED 4
+
+struct ArrowSchema {
+  // Array type description
+  const char* format;
+  const char* name;
+  const char* metadata;
+  int64_t flags;
+  int64_t n_children;
+  struct ArrowSchema** children;
+  struct ArrowSchema* dictionary;
+
+  // Release callback
+  void (*release)(struct ArrowSchema*);
+  // Opaque producer-specific data
+  void* private_data;
+};
+
+struct ArrowArray {
+  // Array data description
+  int64_t length;
+  int64_t null_count;
+  int64_t offset;
+  int64_t n_buffers;
+  int64_t n_children;
+  const void** buffers;
+  struct ArrowArray** children;
+  struct ArrowArray* dictionary;
+
+  // Release callback
+  void (*release)(struct ArrowArray*);
+  // Opaque producer-specific data
+  void* private_data;
+};
+
+#endif  // ARROW_C_DATA_INTERFACE
+
+#ifndef ARROW_C_STREAM_INTERFACE
+#define ARROW_C_STREAM_INTERFACE
+
+struct ArrowArrayStream {
+  // Callback to get the stream type
+  // (will be the same for all arrays in the stream).
+  //
+  // Return value: 0 if successful, an `errno`-compatible error code otherwise.
+  //
+  // If successful, the ArrowSchema must be released independently from the stream.
+  int (*get_schema)(struct ArrowArrayStream*, struct ArrowSchema* out);
+
+  // Callback to get the next array
+  // (if no error and the array is released, the stream has ended)
+  //
+  // Return value: 0 if successful, an `errno`-compatible error code otherwise.
+  //
+  // If successful, the ArrowArray must be released independently from the stream.
+  int (*get_next)(struct ArrowArrayStream*, struct ArrowArray* out);
+
+  // Callback to get optional detailed error information.
+  // This must only be called if the last stream operation failed
+  // with a non-0 return code.
+  //
+  // Return value: pointer to a null-terminated character array describing
+  // the last error, or NULL if no description is available.
+  //
+  // The returned pointer is only valid until the next operation on this stream
+  // (including release).
+  const char* (*get_last_error)(struct ArrowArrayStream*);
+
+  // Release callback: release the stream's own resources.
+  // Note that arrays returned by `get_next` must be individually released.
+  void (*release)(struct ArrowArrayStream*);
+
+  // Opaque producer-specific data
+  void* private_data;
+};
+
+#endif  // ARROW_C_STREAM_INTERFACE
+#endif  // ARROW_FLAG_DICTIONARY_ORDERED
+
+//! @endcond
+
+/// @}
+
+#ifndef ADBC
+#define ADBC
+
+// Storage class macros for Windows
+// Allow overriding/aliasing with application-defined macros
+#if !defined(ADBC_EXPORT)
+#if defined(_WIN32)
+#if defined(ADBC_EXPORTING)
+#define ADBC_EXPORT __declspec(dllexport)
+#else
+#define ADBC_EXPORT __declspec(dllimport)
+#endif  // defined(ADBC_EXPORTING)
+#else
+#define ADBC_EXPORT
+#endif  // defined(_WIN32)
+#endif  // !defined(ADBC_EXPORT)
+
+/// \defgroup adbc-error-handling Error Handling
+/// ADBC uses integer error codes to signal errors. To provide more
+/// detail about errors, functions may also return an AdbcError via an
+/// optional out parameter, which can be inspected. If provided, it is
+/// the responsibility of the caller to zero-initialize the AdbcError
+/// value.
+///
+/// @{
+
+/// \brief Error codes for operations that may fail.
+typedef uint8_t AdbcStatusCode;
+
+/// \brief No error.
+#define ADBC_STATUS_OK 0
+/// \brief An unknown error occurred.
+///
+/// May indicate a driver-side or database-side error.
+#define ADBC_STATUS_UNKNOWN 1
+/// \brief The operation is not implemented or supported.
+///
+/// May indicate a driver-side or database-side error.
+#define ADBC_STATUS_NOT_IMPLEMENTED 2
+/// \brief A requested resource was not found.
+///
+/// May indicate a driver-side or database-side error.
+#define ADBC_STATUS_NOT_FOUND 3
+/// \brief A requested resource already exists.
+///
+/// May indicate a driver-side or database-side error.
+#define ADBC_STATUS_ALREADY_EXISTS 4
+/// \brief The arguments are invalid, likely a programming error.
+///
+/// For instance, they may be of the wrong format, or out of range.
+///
+/// May indicate a driver-side or database-side error.
+#define ADBC_STATUS_INVALID_ARGUMENT 5
+/// \brief The preconditions for the operation are not met, likely a
+///   programming error.
+///
+/// For instance, the object may be uninitialized, or may have not
+/// been fully configured.
+///
+/// May indicate a driver-side or database-side error.
+#define ADBC_STATUS_INVALID_STATE 6
+/// \brief Invalid data was processed (not a programming error).
+///
+/// For instance, a division by zero may have occurred during query
+/// execution.
+///
+/// May indicate a database-side error only.
+#define ADBC_STATUS_INVALID_DATA 7
+/// \brief The database's integrity was affected.
+///
+/// For instance, a foreign key check may have failed, or a uniqueness
+/// constraint may have been violated.
+///
+/// May indicate a database-side error only.
+#define ADBC_STATUS_INTEGRITY 8
+/// \brief An error internal to the driver or database occurred.
+///
+/// May indicate a driver-side or database-side error.
+#define ADBC_STATUS_INTERNAL 9
+/// \brief An I/O error occurred.
+///
+/// For instance, a remote service may be unavailable.
+///
+/// May indicate a driver-side or database-side error.
+#define ADBC_STATUS_IO 10
+/// \brief The operation was cancelled, not due to a timeout.
+///
+/// May indicate a driver-side or database-side error.
+#define ADBC_STATUS_CANCELLED 11
+/// \brief The operation was cancelled due to a timeout.
+///
+/// May indicate a driver-side or database-side error.
+#define ADBC_STATUS_TIMEOUT 12
+/// \brief Authentication failed.
+///
+/// May indicate a database-side error only.
+#define ADBC_STATUS_UNAUTHENTICATED 13
+/// \brief The client is not authorized to perform the given operation.
+///
+/// May indicate a database-side error only.
+#define ADBC_STATUS_UNAUTHORIZED 14
+
+/// \brief A detailed error message for an operation.
+struct ADBC_EXPORT AdbcError {
+  /// \brief The error message.
+  char* message;
+
+  /// \brief A vendor-specific error code, if applicable.
+  int32_t vendor_code;
+
+  /// \brief A SQLSTATE error code, if provided, as defined by the
+  ///   SQL:2003 standard.  If not set, it should be set to
+  ///   "\0\0\0\0\0".
+  char sqlstate[5];
+
+  /// \brief Release the contained error.
+  ///
+  /// Unlike other structures, this is an embedded callback to make it
+  /// easier for the driver manager and driver to cooperate.
+  void (*release)(struct AdbcError* error);
+};
+
+/// @}
+
+/// \defgroup adbc-constants Constants
+/// @{
+
+/// \brief ADBC revision 1.0.0.
+///
+/// When passed to an AdbcDriverInitFunc(), the driver parameter must
+/// point to an AdbcDriver.
+#define ADBC_VERSION_1_0_0 1000000
+
+/// \brief Canonical option value for enabling an option.
+///
+/// For use as the value in SetOption calls.
+#define ADBC_OPTION_VALUE_ENABLED "true"
+/// \brief Canonical option value for disabling an option.
+///
+/// For use as the value in SetOption calls.
+#define ADBC_OPTION_VALUE_DISABLED "false"
+
+/// \brief The database vendor/product name (e.g. the server name).
+///   (type: utf8).
+///
+/// \see AdbcConnectionGetInfo
+#define ADBC_INFO_VENDOR_NAME 0
+/// \brief The database vendor/product version (type: utf8).
+///
+/// \see AdbcConnectionGetInfo
+#define ADBC_INFO_VENDOR_VERSION 1
+/// \brief The database vendor/product Arrow library version (type:
+///   utf8).
+///
+/// \see AdbcConnectionGetInfo
+#define ADBC_INFO_VENDOR_ARROW_VERSION 2
+
+/// \brief The driver name (type: utf8).
+///
+/// \see AdbcConnectionGetInfo
+#define ADBC_INFO_DRIVER_NAME 100
+/// \brief The driver version (type: utf8).
+///
+/// \see AdbcConnectionGetInfo
+#define ADBC_INFO_DRIVER_VERSION 101
+/// \brief The driver Arrow library version (type: utf8).
+///
+/// \see AdbcConnectionGetInfo
+#define ADBC_INFO_DRIVER_ARROW_VERSION 102
+
+/// \brief Return metadata on catalogs, schemas, tables, and columns.
+///
+/// \see AdbcConnectionGetObjects
+#define ADBC_OBJECT_DEPTH_ALL 0
+/// \brief Return metadata on catalogs only.
+///
+/// \see AdbcConnectionGetObjects
+#define ADBC_OBJECT_DEPTH_CATALOGS 1
+/// \brief Return metadata on catalogs and schemas.
+///
+/// \see AdbcConnectionGetObjects
+#define ADBC_OBJECT_DEPTH_DB_SCHEMAS 2
+/// \brief Return metadata on catalogs, schemas, and tables.
+///
+/// \see AdbcConnectionGetObjects
+#define ADBC_OBJECT_DEPTH_TABLES 3
+/// \brief Return metadata on catalogs, schemas, tables, and columns.
+///
+/// \see AdbcConnectionGetObjects
+#define ADBC_OBJECT_DEPTH_COLUMNS ADBC_OBJECT_DEPTH_ALL
+
+/// \brief The name of the canonical option for whether autocommit is
+///   enabled.
+///
+/// \see AdbcConnectionSetOption
+#define ADBC_CONNECTION_OPTION_AUTOCOMMIT "adbc.connection.autocommit"
+
+/// \brief The name of the canonical option for whether the current
+///   connection should be restricted to being read-only.
+///
+/// \see AdbcConnectionSetOption
+#define ADBC_CONNECTION_OPTION_READ_ONLY "adbc.connection.readonly"
+
+/// \brief The name of the canonical option for setting the isolation
+///   level of a transaction.
+///
+/// Should only be used in conjunction with autocommit disabled and
+/// AdbcConnectionCommit / AdbcConnectionRollback. If the desired
+/// isolation level is not supported by a driver, it should return an
+/// appropriate error.
+///
+/// \see AdbcConnectionSetOption
+#define ADBC_CONNECTION_OPTION_ISOLATION_LEVEL \
+  "adbc.connection.transaction.isolation_level"
+
+/// \brief Use database or driver default isolation level
+///
+/// \see AdbcConnectionSetOption
+#define ADBC_OPTION_ISOLATION_LEVEL_DEFAULT \
+  "adbc.connection.transaction.isolation.default"
+
+/// \brief The lowest isolation level. Dirty reads are allowed, so one
+///   transaction may see not-yet-committed changes made by others.
+///
+/// \see AdbcConnectionSetOption
+#define ADBC_OPTION_ISOLATION_LEVEL_READ_UNCOMMITTED \
+  "adbc.connection.transaction.isolation.read_uncommitted"
+
+/// \brief Lock-based concurrency control keeps write locks until the
+///   end of the transaction, but read locks are released as soon as a
+///   SELECT is performed. Non-repeatable reads can occur in this
+///   isolation level.
+///
+/// More simply put, Read Committed is an isolation level that guarantees
+/// that any data read is committed at the moment it is read. It simply
+/// restricts the reader from seeing any intermediate, uncommitted,
+/// 'dirty' reads. It makes no promise whatsoever that if the transaction
+/// re-issues the read, it will find the same data; data is free to change
+/// after it is read.
+///
+/// \see AdbcConnectionSetOption
+#define ADBC_OPTION_ISOLATION_LEVEL_READ_COMMITTED \
+  "adbc.connection.transaction.isolation.read_committed"
+
+/// \brief Lock-based concurrency control keeps read AND write locks
+///   (acquired on selection data) until the end of the transaction.
+///
+/// However, range-locks are not managed, so phantom reads can occur.
+/// Write skew is possible at this isolation level in some systems.
+///
+/// \see AdbcConnectionSetOption
+#define ADBC_OPTION_ISOLATION_LEVEL_REPEATABLE_READ \
+  "adbc.connection.transaction.isolation.repeatable_read"
+
+/// \brief This isolation guarantees that all reads in the transaction
+///   will see a consistent snapshot of the database and the transaction
+///   should only successfully commit if no updates conflict with any
+///   concurrent updates made since that snapshot.
+///
+/// \see AdbcConnectionSetOption
+#define ADBC_OPTION_ISOLATION_LEVEL_SNAPSHOT \
+  "adbc.connection.transaction.isolation.snapshot"
+
+/// \brief Serializability requires read and write locks to be released
+///   only at the end of the transaction. This includes acquiring range-
+///   locks when a select query uses a ranged WHERE clause to avoid
+///   phantom reads.
+///
+/// \see AdbcConnectionSetOption
+#define ADBC_OPTION_ISOLATION_LEVEL_SERIALIZABLE \
+  "adbc.connection.transaction.isolation.serializable"
+
+/// \brief The central distinction between serializability and linearizability
+///   is that serializability is a global property; a property of an entire
+///   history of operations and transactions. Linearizability is a local
+///   property; a property of a single operation/transaction.
+///
+/// Linearizability can be viewed as a special case of strict serializability
+/// where transactions are restricted to consist of a single operation applied
+/// to a single object.
+///
+/// \see AdbcConnectionSetOption
+#define ADBC_OPTION_ISOLATION_LEVEL_LINEARIZABLE \
+  "adbc.connection.transaction.isolation.linearizable"
+
+/// \defgroup adbc-statement-ingestion Bulk Data Ingestion
+/// While it is possible to insert data via prepared statements, it can
+/// be more efficient to explicitly perform a bulk insert.  For
+/// compatible drivers, this can be accomplished by setting up and
+/// executing a statement.  Instead of setting a SQL query or Substrait
+/// plan, bind the source data via AdbcStatementBind, and set the name
+/// of the table to be created via AdbcStatementSetOption and the
+/// options below.  Then, call AdbcStatementExecute with
+/// ADBC_OUTPUT_TYPE_UPDATE.
+///
+/// @{
+
+/// \brief The name of the target table for a bulk insert.
+///
+/// The driver should attempt to create the table if it does not
+/// exist.  If the table exists but has a different schema,
+/// ADBC_STATUS_ALREADY_EXISTS should be raised.  Else, data should be
+/// appended to the target table.
+#define ADBC_INGEST_OPTION_TARGET_TABLE "adbc.ingest.target_table"
+/// \brief Whether to create (the default) or append.
+#define ADBC_INGEST_OPTION_MODE "adbc.ingest.mode"
+/// \brief Create the table and insert data; error if the table exists.
+#define ADBC_INGEST_OPTION_MODE_CREATE "adbc.ingest.mode.create"
+/// \brief Do not create the table, and insert data; error if the
+///   table does not exist (ADBC_STATUS_NOT_FOUND) or does not match
+///   the schema of the data to append (ADBC_STATUS_ALREADY_EXISTS).
+#define ADBC_INGEST_OPTION_MODE_APPEND "adbc.ingest.mode.append"
+
+/// @}
+
+/// @}
+
+/// \defgroup adbc-database Database Initialization
+/// Clients first initialize a database, then create a connection
+/// (below).  This gives the implementation a place to initialize and
+/// own any common connection state.  For example, in-memory databases
+/// can place ownership of the actual database in this object.
+/// @{
+
+/// \brief An instance of a database.
+///
+/// Must be kept alive as long as any connections exist.
+struct ADBC_EXPORT AdbcDatabase {
+  /// \brief Opaque implementation-defined state.
+  /// This field is NULLPTR iff the connection is unintialized/freed.
+  void* private_data;
+  /// \brief The associated driver (used by the driver manager to help
+  ///   track state).
+  struct AdbcDriver* private_driver;
+};
+
+/// @}
+
+/// \defgroup adbc-connection Connection Establishment
+/// Functions for creating, using, and releasing database connections.
+/// @{
+
+/// \brief An active database connection.
+///
+/// Provides methods for query execution, managing prepared
+/// statements, using transactions, and so on.
+///
+/// Connections are not required to be thread-safe, but they can be
+/// used from multiple threads so long as clients take care to
+/// serialize accesses to a connection.
+struct ADBC_EXPORT AdbcConnection {
+  /// \brief Opaque implementation-defined state.
+  /// This field is NULLPTR iff the connection is unintialized/freed.
+  void* private_data;
+  /// \brief The associated driver (used by the driver manager to help
+  ///   track state).
+  struct AdbcDriver* private_driver;
+};
+
+/// @}
+
+/// \defgroup adbc-statement Managing Statements
+/// Applications should first initialize a statement with
+/// AdbcStatementNew. Then, the statement should be configured with
+/// functions like AdbcStatementSetSqlQuery and
+/// AdbcStatementSetOption. Finally, the statement can be executed
+/// with AdbcStatementExecuteQuery (or call AdbcStatementPrepare first
+/// to turn it into a prepared statement instead).
+/// @{
+
+/// \brief A container for all state needed to execute a database
+/// query, such as the query itself, parameters for prepared
+/// statements, driver parameters, etc.
+///
+/// Statements may represent queries or prepared statements.
+///
+/// Statements may be used multiple times and can be reconfigured
+/// (e.g. they can be reused to execute multiple different queries).
+/// However, executing a statement (and changing certain other state)
+/// will invalidate result sets obtained prior to that execution.
+///
+/// Multiple statements may be created from a single connection.
+/// However, the driver may block or error if they are used
+/// concurrently (whether from a single thread or multiple threads).
+///
+/// Statements are not required to be thread-safe, but they can be
+/// used from multiple threads so long as clients take care to
+/// serialize accesses to a statement.
+struct ADBC_EXPORT AdbcStatement {
+  /// \brief Opaque implementation-defined state.
+  /// This field is NULLPTR iff the connection is unintialized/freed.
+  void* private_data;
+
+  /// \brief The associated driver (used by the driver manager to help
+  ///   track state).
+  struct AdbcDriver* private_driver;
+};
+
+/// \defgroup adbc-statement-partition Partitioned Results
+/// Some backends may internally partition the results. These
+/// partitions are exposed to clients who may wish to integrate them
+/// with a threaded or distributed execution model, where partitions
+/// can be divided among threads or machines and fetched in parallel.
+///
+/// To use partitioning, execute the statement with
+/// AdbcStatementExecutePartitions to get the partition descriptors.
+/// Call AdbcConnectionReadPartition to turn the individual
+/// descriptors into ArrowArrayStream instances.  This may be done on
+/// a different connection than the one the partition was created
+/// with, or even in a different process on another machine.
+///
+/// Drivers are not required to support partitioning.
+///
+/// @{
+
+/// \brief The partitions of a distributed/partitioned result set.
+struct AdbcPartitions {
+  /// \brief The number of partitions.
+  size_t num_partitions;
+
+  /// \brief The partitions of the result set, where each entry (up to
+  ///   num_partitions entries) is an opaque identifier that can be
+  ///   passed to AdbcConnectionReadPartition.
+  const uint8_t** partitions;
+
+  /// \brief The length of each corresponding entry in partitions.
+  const size_t* partition_lengths;
+
+  /// \brief Opaque implementation-defined state.
+  /// This field is NULLPTR iff the connection is unintialized/freed.
+  void* private_data;
+
+  /// \brief Release the contained partitions.
+  ///
+  /// Unlike other structures, this is an embedded callback to make it
+  /// easier for the driver manager and driver to cooperate.
+  void (*release)(struct AdbcPartitions* partitions);
+};
+
+/// @}
+
+/// @}
+
+/// \defgroup adbc-driver Driver Initialization
+///
+/// These functions are intended to help support integration between a
+/// driver and the driver manager.
+/// @{
+
+/// \brief An instance of an initialized database driver.
+///
+/// This provides a common interface for vendor-specific driver
+/// initialization routines. Drivers should populate this struct, and
+/// applications can call ADBC functions through this struct, without
+/// worrying about multiple definitions of the same symbol.
+struct ADBC_EXPORT AdbcDriver {
+  /// \brief Opaque driver-defined state.
+  /// This field is NULL if the driver is unintialized/freed (but
+  /// it need not have a value even if the driver is initialized).
+  void* private_data;
+  /// \brief Opaque driver manager-defined state.
+  /// This field is NULL if the driver is unintialized/freed (but
+  /// it need not have a value even if the driver is initialized).
+  void* private_manager;
+
+  /// \brief Release the driver and perform any cleanup.
+  ///
+  /// This is an embedded callback to make it easier for the driver
+  /// manager and driver to cooperate.
+  AdbcStatusCode (*release)(struct AdbcDriver* driver, struct AdbcError* error);
+
+  AdbcStatusCode (*DatabaseInit)(struct AdbcDatabase*, struct AdbcError*);
+  AdbcStatusCode (*DatabaseNew)(struct AdbcDatabase*, struct AdbcError*);
+  AdbcStatusCode (*DatabaseSetOption)(struct AdbcDatabase*, const char*, const char*,
+                                      struct AdbcError*);
+  AdbcStatusCode (*DatabaseRelease)(struct AdbcDatabase*, struct AdbcError*);
+
+  AdbcStatusCode (*ConnectionCommit)(struct AdbcConnection*, struct AdbcError*);
+  AdbcStatusCode (*ConnectionGetInfo)(struct AdbcConnection*, uint32_t*, size_t,
+                                      struct ArrowArrayStream*, struct AdbcError*);
+  AdbcStatusCode (*ConnectionGetObjects)(struct AdbcConnection*, int, const char*,
+                                         const char*, const char*, const char**,
+                                         const char*, struct ArrowArrayStream*,
+                                         struct AdbcError*);
+  AdbcStatusCode (*ConnectionGetTableSchema)(struct AdbcConnection*, const char*,
+                                             const char*, const char*,
+                                             struct ArrowSchema*, struct AdbcError*);
+  AdbcStatusCode (*ConnectionGetTableTypes)(struct AdbcConnection*,
+                                            struct ArrowArrayStream*, struct AdbcError*);
+  AdbcStatusCode (*ConnectionInit)(struct AdbcConnection*, struct AdbcDatabase*,
+                                   struct AdbcError*);
+  AdbcStatusCode (*ConnectionNew)(struct AdbcConnection*, struct AdbcError*);
+  AdbcStatusCode (*ConnectionSetOption)(struct AdbcConnection*, const char*, const char*,
+                                        struct AdbcError*);
+  AdbcStatusCode (*ConnectionReadPartition)(struct AdbcConnection*, const uint8_t*,
+                                            size_t, struct ArrowArrayStream*,
+                                            struct AdbcError*);
+  AdbcStatusCode (*ConnectionRelease)(struct AdbcConnection*, struct AdbcError*);
+  AdbcStatusCode (*ConnectionRollback)(struct AdbcConnection*, struct AdbcError*);
+
+  AdbcStatusCode (*StatementBind)(struct AdbcStatement*, struct ArrowArray*,
+                                  struct ArrowSchema*, struct AdbcError*);
+  AdbcStatusCode (*StatementBindStream)(struct AdbcStatement*, struct ArrowArrayStream*,
+                                        struct AdbcError*);
+  AdbcStatusCode (*StatementExecuteQuery)(struct AdbcStatement*, struct ArrowArrayStream*,
+                                          int64_t*, struct AdbcError*);
+  AdbcStatusCode (*StatementExecutePartitions)(struct AdbcStatement*, struct ArrowSchema*,
+                                               struct AdbcPartitions*, int64_t*,
+                                               struct AdbcError*);
+  AdbcStatusCode (*StatementGetParameterSchema)(struct AdbcStatement*,
+                                                struct ArrowSchema*, struct AdbcError*);
+  AdbcStatusCode (*StatementNew)(struct AdbcConnection*, struct AdbcStatement*,
+                                 struct AdbcError*);
+  AdbcStatusCode (*StatementPrepare)(struct AdbcStatement*, struct AdbcError*);
+  AdbcStatusCode (*StatementRelease)(struct AdbcStatement*, struct AdbcError*);
+  AdbcStatusCode (*StatementSetOption)(struct AdbcStatement*, const char*, const char*,
+                                       struct AdbcError*);
+  AdbcStatusCode (*StatementSetSqlQuery)(struct AdbcStatement*, const char*,
+                                         struct AdbcError*);
+  AdbcStatusCode (*StatementSetSubstraitPlan)(struct AdbcStatement*, const uint8_t*,
+                                              size_t, struct AdbcError*);
+};
+
+/// @}
+
+/// \addtogroup adbc-database
+/// @{
+
+/// \brief Allocate a new (but uninitialized) database.
+ADBC_EXPORT
+AdbcStatusCode AdbcDatabaseNew(struct AdbcDatabase* database, struct AdbcError* error);
+
+/// \brief Set a char* option.
+///
+/// Options may be set before AdbcDatabaseInit.  Some drivers may
+/// support setting options after initialization as well.
+///
+/// \return ADBC_STATUS_NOT_IMPLEMENTED if the option is not recognized
+ADBC_EXPORT
+AdbcStatusCode AdbcDatabaseSetOption(struct AdbcDatabase* database, const char* key,
+                                     const char* value, struct AdbcError* error);
+
+/// \brief Finish setting options and initialize the database.
+///
+/// Some drivers may support setting options after initialization
+/// as well.
+ADBC_EXPORT
+AdbcStatusCode AdbcDatabaseInit(struct AdbcDatabase* database, struct AdbcError* error);
+
+/// \brief Destroy this database. No connections may exist.
+/// \param[in] database The database to release.
+/// \param[out] error An optional location to return an error
+///   message if necessary.
+ADBC_EXPORT
+AdbcStatusCode AdbcDatabaseRelease(struct AdbcDatabase* database,
+                                   struct AdbcError* error);
+
+/// @}
+
+/// \addtogroup adbc-connection
+/// @{
+
+/// \brief Allocate a new (but uninitialized) connection.
+ADBC_EXPORT
+AdbcStatusCode AdbcConnectionNew(struct AdbcConnection* connection,
+                                 struct AdbcError* error);
+
+/// \brief Set a char* option.
+///
+/// Options may be set before AdbcConnectionInit.  Some drivers may
+/// support setting options after initialization as well.
+///
+/// \return ADBC_STATUS_NOT_IMPLEMENTED if the option is not recognized
+ADBC_EXPORT
+AdbcStatusCode AdbcConnectionSetOption(struct AdbcConnection* connection, const char* key,
+                                       const char* value, struct AdbcError* error);
+
+/// \brief Finish setting options and initialize the connection.
+///
+/// Some drivers may support setting options after initialization
+/// as well.
+ADBC_EXPORT
+AdbcStatusCode AdbcConnectionInit(struct AdbcConnection* connection,
+                                  struct AdbcDatabase* database, struct AdbcError* error);
+
+/// \brief Destroy this connection.
+///
+/// \param[in] connection The connection to release.
+/// \param[out] error An optional location to return an error
+///   message if necessary.
+ADBC_EXPORT
+AdbcStatusCode AdbcConnectionRelease(struct AdbcConnection* connection,
+                                     struct AdbcError* error);
+
+/// \defgroup adbc-connection-metadata Metadata
+/// Functions for retrieving metadata about the database.
+///
+/// Generally, these functions return an ArrowArrayStream that can be
+/// consumed to get the metadata as Arrow data.  The returned metadata
+/// has an expected schema given in the function docstring. Schema
+/// fields are nullable unless otherwise marked.  While no
+/// AdbcStatement is used in these functions, the result set may count
+/// as an active statement to the driver for the purposes of
+/// concurrency management (e.g. if the driver has a limit on
+/// concurrent active statements and it must execute a SQL query
+/// internally in order to implement the metadata function).
+///
+/// Some functions accept "search pattern" arguments, which are
+/// strings that can contain the special character "%" to match zero
+/// or more characters, or "_" to match exactly one character.  (See
+/// the documentation of DatabaseMetaData in JDBC or "Pattern Value
+/// Arguments" in the ODBC documentation.)  Escaping is not currently
+/// supported.
+///
+/// @{
+
+/// \brief Get metadata about the database/driver.
+///
+/// The result is an Arrow dataset with the following schema:
+///
+/// Field Name                  | Field Type
+/// ----------------------------|------------------------
+/// info_name                   | uint32 not null
+/// info_value                  | INFO_SCHEMA
+///
+/// INFO_SCHEMA is a dense union with members:
+///
+/// Field Name (Type Code)      | Field Type
+/// ----------------------------|------------------------
+/// string_value (0)            | utf8
+/// bool_value (1)              | bool
+/// int64_value (2)             | int64
+/// int32_bitmask (3)           | int32
+/// string_list (4)             | list<utf8>
+/// int32_to_int32_list_map (5) | map<int32, list<int32>>
+///
+/// Each metadatum is identified by an integer code.  The recognized
+/// codes are defined as constants.  Codes [0, 10_000) are reserved
+/// for ADBC usage.  Drivers/vendors will ignore requests for
+/// unrecognized codes (the row will be omitted from the result).
+///
+/// \param[in] connection The connection to query.
+/// \param[in] info_codes A list of metadata codes to fetch, or NULL
+///   to fetch all.
+/// \param[in] info_codes_length The length of the info_codes
+///   parameter.  Ignored if info_codes is NULL.
+/// \param[out] out The result set.
+/// \param[out] error Error details, if an error occurs.
+ADBC_EXPORT
+AdbcStatusCode AdbcConnectionGetInfo(struct AdbcConnection* connection,
+                                     uint32_t* info_codes, size_t info_codes_length,
+                                     struct ArrowArrayStream* out,
+                                     struct AdbcError* error);
+
+/// \brief Get a hierarchical view of all catalogs, database schemas,
+///   tables, and columns.
+///
+/// The result is an Arrow dataset with the following schema:
+///
+/// | Field Name               | Field Type              |
+/// |--------------------------|-------------------------|
+/// | catalog_name             | utf8                    |
+/// | catalog_db_schemas       | list<DB_SCHEMA_SCHEMA>  |
+///
+/// DB_SCHEMA_SCHEMA is a Struct with fields:
+///
+/// | Field Name               | Field Type              |
+/// |--------------------------|-------------------------|
+/// | db_schema_name           | utf8                    |
+/// | db_schema_tables         | list<TABLE_SCHEMA>      |
+///
+/// TABLE_SCHEMA is a Struct with fields:
+///
+/// | Field Name               | Field Type              |
+/// |--------------------------|-------------------------|
+/// | table_name               | utf8 not null           |
+/// | table_type               | utf8 not null           |
+/// | table_columns            | list<COLUMN_SCHEMA>     |
+/// | table_constraints        | list<CONSTRAINT_SCHEMA> |
+///
+/// COLUMN_SCHEMA is a Struct with fields:
+///
+/// | Field Name               | Field Type              | Comments |
+/// |--------------------------|-------------------------|----------|
+/// | column_name              | utf8 not null           |          |
+/// | ordinal_position         | int32                   | (1)      |
+/// | remarks                  | utf8                    | (2)      |
+/// | xdbc_data_type           | int16                   | (3)      |
+/// | xdbc_type_name           | utf8                    | (3)      |
+/// | xdbc_column_size         | int32                   | (3)      |
+/// | xdbc_decimal_digits      | int16                   | (3)      |
+/// | xdbc_num_prec_radix      | int16                   | (3)      |
+/// | xdbc_nullable            | int16                   | (3)      |
+/// | xdbc_column_def          | utf8                    | (3)      |
+/// | xdbc_sql_data_type       | int16                   | (3)      |
+/// | xdbc_datetime_sub        | int16                   | (3)      |
+/// | xdbc_char_octet_length   | int32                   | (3)      |
+/// | xdbc_is_nullable         | utf8                    | (3)      |
+/// | xdbc_scope_catalog       | utf8                    | (3)      |
+/// | xdbc_scope_schema        | utf8                    | (3)      |
+/// | xdbc_scope_table         | utf8                    | (3)      |
+/// | xdbc_is_autoincrement    | bool                    | (3)      |
+/// | xdbc_is_generatedcolumn  | bool                    | (3)      |
+///
+/// 1. The column's ordinal position in the table (starting from 1).
+/// 2. Database-specific description of the column.
+/// 3. Optional value.  Should be null if not supported by the driver.
+///    xdbc_ values are meant to provide JDBC/ODBC-compatible metadata
+///    in an agnostic manner.
+///
+/// CONSTRAINT_SCHEMA is a Struct with fields:
+///
+/// | Field Name               | Field Type              | Comments |
+/// |--------------------------|-------------------------|----------|
+/// | constraint_name          | utf8                    |          |
+/// | constraint_type          | utf8 not null           | (1)      |
+/// | constraint_column_names  | list<utf8> not null     | (2)      |
+/// | constraint_column_usage  | list<USAGE_SCHEMA>      | (3)      |
+///
+/// 1. One of 'CHECK', 'FOREIGN KEY', 'PRIMARY KEY', or 'UNIQUE'.
+/// 2. The columns on the current table that are constrained, in
+///    order.
+/// 3. For FOREIGN KEY only, the referenced table and columns.
+///
+/// USAGE_SCHEMA is a Struct with fields:
+///
+/// | Field Name               | Field Type              |
+/// |--------------------------|-------------------------|
+/// | fk_catalog               | utf8                    |
+/// | fk_db_schema             | utf8                    |
+/// | fk_table                 | utf8 not null           |
+/// | fk_column_name           | utf8 not null           |
+///
+/// \param[in] connection The database connection.
+/// \param[in] depth The level of nesting to display. If 0, display
+///   all levels. If 1, display only catalogs (i.e.  catalog_schemas
+///   will be null). If 2, display only catalogs and schemas
+///   (i.e. db_schema_tables will be null), and so on.
+/// \param[in] catalog Only show tables in the given catalog. If NULL,
+///   do not filter by catalog. If an empty string, only show tables
+///   without a catalog.  May be a search pattern (see section
+///   documentation).
+/// \param[in] db_schema Only show tables in the given database schema. If
+///   NULL, do not filter by database schema. If an empty string, only show
+///   tables without a database schema. May be a search pattern (see section
+///   documentation).
+/// \param[in] table_name Only show tables with the given name. If NULL, do not
+///   filter by name. May be a search pattern (see section documentation).
+/// \param[in] table_type Only show tables matching one of the given table
+///   types. If NULL, show tables of any type. Valid table types can be fetched
+///   from GetTableTypes.  Terminate the list with a NULL entry.
+/// \param[in] column_name Only show columns with the given name. If
+///   NULL, do not filter by name.  May be a search pattern (see
+///   section documentation).
+/// \param[out] out The result set.
+/// \param[out] error Error details, if an error occurs.
+ADBC_EXPORT
+AdbcStatusCode AdbcConnectionGetObjects(struct AdbcConnection* connection, int depth,
+                                        const char* catalog, const char* db_schema,
+                                        const char* table_name, const char** table_type,
+                                        const char* column_name,
+                                        struct ArrowArrayStream* out,
+                                        struct AdbcError* error);
+
+/// \brief Get the Arrow schema of a table.
+///
+/// \param[in] connection The database connection.
+/// \param[in] catalog The catalog (or nullptr if not applicable).
+/// \param[in] db_schema The database schema (or nullptr if not applicable).
+/// \param[in] table_name The table name.
+/// \param[out] schema The table schema.
+/// \param[out] error Error details, if an error occurs.
+ADBC_EXPORT
+AdbcStatusCode AdbcConnectionGetTableSchema(struct AdbcConnection* connection,
+                                            const char* catalog, const char* db_schema,
+                                            const char* table_name,
+                                            struct ArrowSchema* schema,
+                                            struct AdbcError* error);
+
+/// \brief Get a list of table types in the database.
+///
+/// The result is an Arrow dataset with the following schema:
+///
+/// Field Name     | Field Type
+/// ---------------|--------------
+/// table_type     | utf8 not null
+///
+/// \param[in] connection The database connection.
+/// \param[out] out The result set.
+/// \param[out] error Error details, if an error occurs.
+ADBC_EXPORT
+AdbcStatusCode AdbcConnectionGetTableTypes(struct AdbcConnection* connection,
+                                           struct ArrowArrayStream* out,
+                                           struct AdbcError* error);
+
+/// @}
+
+/// \defgroup adbc-connection-partition Partitioned Results
+/// Some databases may internally partition the results. These
+/// partitions are exposed to clients who may wish to integrate them
+/// with a threaded or distributed execution model, where partitions
+/// can be divided among threads or machines for processing.
+///
+/// Drivers are not required to support partitioning.
+///
+/// Partitions are not ordered. If the result set is sorted,
+/// implementations should return a single partition.
+///
+/// @{
+
+/// \brief Construct a statement for a partition of a query. The
+///   results can then be read independently.
+///
+/// A partition can be retrieved from AdbcPartitions.
+///
+/// \param[in] connection The connection to use.  This does not have
+///   to be the same connection that the partition was created on.
+/// \param[in] serialized_partition The partition descriptor.
+/// \param[in] serialized_length The partition descriptor length.
+/// \param[out] out The result set.
+/// \param[out] error Error details, if an error occurs.
+ADBC_EXPORT
+AdbcStatusCode AdbcConnectionReadPartition(struct AdbcConnection* connection,
+                                           const uint8_t* serialized_partition,
+                                           size_t serialized_length,
+                                           struct ArrowArrayStream* out,
+                                           struct AdbcError* error);
+
+/// @}
+
+/// \defgroup adbc-connection-transaction Transaction Semantics
+///
+/// Connections start out in auto-commit mode by default (if
+/// applicable for the given vendor). Use AdbcConnectionSetOption and
+/// ADBC_CONNECTION_OPTION_AUTO_COMMIT to change this.
+///
+/// @{
+
+/// \brief Commit any pending transactions. Only used if autocommit is
+///   disabled.
+///
+/// Behavior is undefined if this is mixed with SQL transaction
+/// statements.
+ADBC_EXPORT
+AdbcStatusCode AdbcConnectionCommit(struct AdbcConnection* connection,
+                                    struct AdbcError* error);
+
+/// \brief Roll back any pending transactions. Only used if autocommit
+///   is disabled.
+///
+/// Behavior is undefined if this is mixed with SQL transaction
+/// statements.
+ADBC_EXPORT
+AdbcStatusCode AdbcConnectionRollback(struct AdbcConnection* connection,
+                                      struct AdbcError* error);
+
+/// @}
+
+/// @}
+
+/// \addtogroup adbc-statement
+/// @{
+
+/// \brief Create a new statement for a given connection.
+///
+/// Set options on the statement, then call AdbcStatementExecuteQuery
+/// or AdbcStatementPrepare.
+ADBC_EXPORT
+AdbcStatusCode AdbcStatementNew(struct AdbcConnection* connection,
+                                struct AdbcStatement* statement, struct AdbcError* error);
+
+/// \brief Destroy a statement.
+/// \param[in] statement The statement to release.
+/// \param[out] error An optional location to return an error
+///   message if necessary.
+ADBC_EXPORT
+AdbcStatusCode AdbcStatementRelease(struct AdbcStatement* statement,
+                                    struct AdbcError* error);
+
+/// \brief Execute a statement and get the results.
+///
+/// This invalidates any prior result sets.
+///
+/// \param[in] statement The statement to execute.
+/// \param[out] out The results. Pass NULL if the client does not
+///   expect a result set.
+/// \param[out] rows_affected The number of rows affected if known,
+///   else -1. Pass NULL if the client does not want this information.
+/// \param[out] error An optional location to return an error
+///   message if necessary.
+ADBC_EXPORT
+AdbcStatusCode AdbcStatementExecuteQuery(struct AdbcStatement* statement,
+                                         struct ArrowArrayStream* out,
+                                         int64_t* rows_affected, struct AdbcError* error);
+
+/// \brief Turn this statement into a prepared statement to be
+///   executed multiple times.
+///
+/// This invalidates any prior result sets.
+ADBC_EXPORT
+AdbcStatusCode AdbcStatementPrepare(struct AdbcStatement* statement,
+                                    struct AdbcError* error);
+
+/// \defgroup adbc-statement-sql SQL Semantics
+/// Functions for executing SQL queries, or querying SQL-related
+/// metadata. Drivers are not required to support both SQL and
+/// Substrait semantics. If they do, it may be via converting
+/// between representations internally.
+/// @{
+
+/// \brief Set the SQL query to execute.
+///
+/// The query can then be executed with AdbcStatementExecute.  For
+/// queries expected to be executed repeatedly, AdbcStatementPrepare
+/// the statement first.
+///
+/// \param[in] statement The statement.
+/// \param[in] query The query to execute.
+/// \param[out] error Error details, if an error occurs.
+ADBC_EXPORT
+AdbcStatusCode AdbcStatementSetSqlQuery(struct AdbcStatement* statement,
+                                        const char* query, struct AdbcError* error);
+
+/// @}
+
+/// \defgroup adbc-statement-substrait Substrait Semantics
+/// Functions for executing Substrait plans, or querying
+/// Substrait-related metadata.  Drivers are not required to support
+/// both SQL and Substrait semantics.  If they do, it may be via
+/// converting between representations internally.
+/// @{
+
+/// \brief Set the Substrait plan to execute.
+///
+/// The query can then be executed with AdbcStatementExecute.  For
+/// queries expected to be executed repeatedly, AdbcStatementPrepare
+/// the statement first.
+///
+/// \param[in] statement The statement.
+/// \param[in] plan The serialized substrait.Plan to execute.
+/// \param[in] length The length of the serialized plan.
+/// \param[out] error Error details, if an error occurs.
+ADBC_EXPORT
+AdbcStatusCode AdbcStatementSetSubstraitPlan(struct AdbcStatement* statement,
+                                             const uint8_t* plan, size_t length,
+                                             struct AdbcError* error);
+
+/// @}
+
+/// \brief Bind Arrow data. This can be used for bulk inserts or
+///   prepared statements.
+///
+/// \param[in] statement The statement to bind to.
+/// \param[in] values The values to bind. The driver will call the
+///   release callback itself, although it may not do this until the
+///   statement is released.
+/// \param[in] schema The schema of the values to bind.
+/// \param[out] error An optional location to return an error message
+///   if necessary.
+ADBC_EXPORT
+AdbcStatusCode AdbcStatementBind(struct AdbcStatement* statement,
+                                 struct ArrowArray* values, struct ArrowSchema* schema,
+                                 struct AdbcError* error);
+
+/// \brief Bind Arrow data. This can be used for bulk inserts or
+///   prepared statements.
+/// \param[in] statement The statement to bind to.
+/// \param[in] stream The values to bind. The driver will call the
+///   release callback itself, although it may not do this until the
+///   statement is released.
+/// \param[out] error An optional location to return an error message
+///   if necessary.
+ADBC_EXPORT
+AdbcStatusCode AdbcStatementBindStream(struct AdbcStatement* statement,
+                                       struct ArrowArrayStream* stream,
+                                       struct AdbcError* error);
+
+/// \brief Get the schema for bound parameters.
+///
+/// This retrieves an Arrow schema describing the number, names, and
+/// types of the parameters in a parameterized statement.  The fields
+/// of the schema should be in order of the ordinal position of the
+/// parameters; named parameters should appear only once.
+///
+/// If the parameter does not have a name, or the name cannot be
+/// determined, the name of the corresponding field in the schema will
+/// be an empty string.  If the type cannot be determined, the type of
+/// the corresponding field will be NA (NullType).
+///
+/// This should be called after AdbcStatementPrepare.
+///
+/// \return ADBC_STATUS_NOT_IMPLEMENTED if the schema cannot be determined.
+ADBC_EXPORT
+AdbcStatusCode AdbcStatementGetParameterSchema(struct AdbcStatement* statement,
+                                               struct ArrowSchema* schema,
+                                               struct AdbcError* error);
+
+/// \brief Set a string option on a statement.
+ADBC_EXPORT
+AdbcStatusCode AdbcStatementSetOption(struct AdbcStatement* statement, const char* key,
+                                      const char* value, struct AdbcError* error);
+
+/// \addtogroup adbc-statement-partition
+/// @{
+
+/// \brief Execute a statement and get the results as a partitioned
+///   result set.
+///
+/// \param[in] statement The statement to execute.
+/// \param[out] schema The schema of the result set.
+/// \param[out] partitions The result partitions.
+/// \param[out] rows_affected The number of rows affected if known,
+///   else -1. Pass NULL if the client does not want this information.
+/// \param[out] error An optional location to return an error
+///   message if necessary.
+/// \return ADBC_STATUS_NOT_IMPLEMENTED if the driver does not support
+///   partitioned results
+ADBC_EXPORT
+AdbcStatusCode AdbcStatementExecutePartitions(struct AdbcStatement* statement,
+                                              struct ArrowSchema* schema,
+                                              struct AdbcPartitions* partitions,
+                                              int64_t* rows_affected,
+                                              struct AdbcError* error);
+
+/// @}
+
+/// @}
+
+/// \addtogroup adbc-driver
+/// @{
+
+/// \brief Common entry point for drivers via the driver manager
+///   (which uses dlopen(3)/LoadLibrary). The driver manager is told
+///   to load a library and call a function of this type to load the
+///   driver.
+///
+/// Although drivers may choose any name for this function, the
+/// recommended name is "AdbcDriverInit".
+///
+/// \param[in] version The ADBC revision to attempt to initialize (see
+///   ADBC_VERSION_1_0_0).
+/// \param[out] driver The table of function pointers to
+///   initialize. Should be a pointer to the appropriate struct for
+///   the given version (see the documentation for the version).
+/// \param[out] error An optional location to return an error message
+///   if necessary.
+/// \return ADBC_STATUS_OK if the driver was initialized, or
+///   ADBC_STATUS_NOT_IMPLEMENTED if the version is not supported.  In
+///   that case, clients may retry with a different version.
+typedef AdbcStatusCode (*AdbcDriverInitFunc)(int version, void* driver,
+                                             struct AdbcError* error);
+
+/// @}
+
+#endif  // ADBC
+
+#ifdef __cplusplus
+}
+#endif
diff --git a/go/arrow/_examples/helloworld/main.go b/go/arrow/_examples/helloworld/main.go
index c79f3f0202a..aabc6bd47fb 100644
--- a/go/arrow/_examples/helloworld/main.go
+++ b/go/arrow/_examples/helloworld/main.go
@@ -17,9 +17,9 @@
 package main
 
 import (
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/math"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/math"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func main() {
diff --git a/go/arrow/array.go b/go/arrow/array.go
index 52c8998c794..18f938220b6 100644
--- a/go/arrow/array.go
+++ b/go/arrow/array.go
@@ -20,7 +20,7 @@ import (
 	"encoding/json"
 	"fmt"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 // ArrayData is the underlying memory and metadata of an Arrow array, corresponding
diff --git a/go/arrow/array/array.go b/go/arrow/array/array.go
index 7db2a8f004b..ee8c216d082 100644
--- a/go/arrow/array/array.go
+++ b/go/arrow/array/array.go
@@ -19,9 +19,9 @@ package array
 import (
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
 )
 
 type arraymarshal interface {
diff --git a/go/arrow/array/array_test.go b/go/arrow/array/array_test.go
index f2cee669fa3..58730e42ce8 100644
--- a/go/arrow/array/array_test.go
+++ b/go/arrow/array/array_test.go
@@ -19,11 +19,11 @@ package array_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/tools"
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/types"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/tools"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/types"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
@@ -34,6 +34,7 @@ type testDataType struct {
 func (d *testDataType) ID() arrow.Type            { return d.id }
 func (d *testDataType) Name() string              { panic("implement me") }
 func (d *testDataType) BitWidth() int             { return 8 }
+func (d *testDataType) Bytes() int                { return 1 }
 func (d *testDataType) Fingerprint() string       { return "" }
 func (testDataType) Layout() arrow.DataTypeLayout { return arrow.DataTypeLayout{} }
 func (testDataType) String() string               { return "" }
diff --git a/go/arrow/array/binary.go b/go/arrow/array/binary.go
index 0ce181e9d77..d7a196d6e14 100644
--- a/go/arrow/array/binary.go
+++ b/go/arrow/array/binary.go
@@ -22,7 +22,7 @@ import (
 	"strings"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v11/arrow"
 	"github.com/goccy/go-json"
 )
 
diff --git a/go/arrow/array/binary_test.go b/go/arrow/array/binary_test.go
index 53baaf18ee1..8691bf8a0bd 100644
--- a/go/arrow/array/binary_test.go
+++ b/go/arrow/array/binary_test.go
@@ -22,9 +22,9 @@ import (
 
 	"github.com/stretchr/testify/assert"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestBinary(t *testing.T) {
diff --git a/go/arrow/array/binarybuilder.go b/go/arrow/array/binarybuilder.go
index 1674b864e16..55eeafa0060 100644
--- a/go/arrow/array/binarybuilder.go
+++ b/go/arrow/array/binarybuilder.go
@@ -24,9 +24,9 @@ import (
 	"reflect"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
@@ -173,6 +173,12 @@ func (b *BinaryBuilder) AppendStringValues(v []string, valid []bool) {
 	b.builder.unsafeAppendBoolsToBitmap(valid, len(v))
 }
 
+func (b *BinaryBuilder) UnsafeAppend(v []byte) {
+	b.appendNextOffset()
+	b.values.unsafeAppend(v)
+	b.UnsafeAppendBoolToBitmap(true)
+}
+
 func (b *BinaryBuilder) Value(i int) []byte {
 	start := b.getOffsetVal(i)
 	var end int
diff --git a/go/arrow/array/binarybuilder_test.go b/go/arrow/array/binarybuilder_test.go
index 1335b75fe65..b9eeb70ddc9 100644
--- a/go/arrow/array/binarybuilder_test.go
+++ b/go/arrow/array/binarybuilder_test.go
@@ -20,9 +20,9 @@ import (
 	"bytes"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/boolean.go b/go/arrow/array/boolean.go
index 2eed49bd65b..4318c72d768 100644
--- a/go/arrow/array/boolean.go
+++ b/go/arrow/array/boolean.go
@@ -20,9 +20,9 @@ import (
 	"fmt"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
diff --git a/go/arrow/array/boolean_test.go b/go/arrow/array/boolean_test.go
index 88cd8fc882b..599b00350a5 100644
--- a/go/arrow/array/boolean_test.go
+++ b/go/arrow/array/boolean_test.go
@@ -22,8 +22,8 @@ import (
 	"strings"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestBooleanSliceData(t *testing.T) {
diff --git a/go/arrow/array/booleanbuilder.go b/go/arrow/array/booleanbuilder.go
index 83e1fc6d31f..07588c89d19 100644
--- a/go/arrow/array/booleanbuilder.go
+++ b/go/arrow/array/booleanbuilder.go
@@ -23,10 +23,10 @@ import (
 	"strconv"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
@@ -187,6 +187,12 @@ func (b *BooleanBuilder) unmarshalOne(dec *json.Decoder) error {
 			return err
 		}
 		b.Append(val)
+	case json.Number:
+		val, err := strconv.ParseBool(v.String())
+		if err != nil {
+			return err
+		}
+		b.Append(val)
 	case nil:
 		b.AppendNull()
 	default:
@@ -210,6 +216,7 @@ func (b *BooleanBuilder) unmarshal(dec *json.Decoder) error {
 
 func (b *BooleanBuilder) UnmarshalJSON(data []byte) error {
 	dec := json.NewDecoder(bytes.NewReader(data))
+	dec.UseNumber()
 	t, err := dec.Token()
 	if err != nil {
 		return err
diff --git a/go/arrow/array/booleanbuilder_test.go b/go/arrow/array/booleanbuilder_test.go
index 469f9ec9d80..b46c68a7b89 100644
--- a/go/arrow/array/booleanbuilder_test.go
+++ b/go/arrow/array/booleanbuilder_test.go
@@ -19,9 +19,9 @@ package array_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/tools"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/tools"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/bufferbuilder.go b/go/arrow/array/bufferbuilder.go
index 6a91031c22b..6836762435a 100644
--- a/go/arrow/array/bufferbuilder.go
+++ b/go/arrow/array/bufferbuilder.go
@@ -19,9 +19,9 @@ package array
 import (
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 type bufBuilder interface {
@@ -131,6 +131,9 @@ func (b *bufferBuilder) Finish() (buffer *memory.Buffer) {
 	buffer = b.buffer
 	b.buffer = nil
 	b.Reset()
+	if buffer == nil {
+		buffer = memory.NewBufferBytes(nil)
+	}
 	return
 }
 
diff --git a/go/arrow/array/bufferbuilder_byte.go b/go/arrow/array/bufferbuilder_byte.go
index c34a409aa70..c5f7c1ae9b0 100644
--- a/go/arrow/array/bufferbuilder_byte.go
+++ b/go/arrow/array/bufferbuilder_byte.go
@@ -16,7 +16,7 @@
 
 package array
 
-import "github.com/apache/arrow/go/v10/arrow/memory"
+import "github.com/apache/arrow/go/v11/arrow/memory"
 
 type byteBufferBuilder struct {
 	bufferBuilder
diff --git a/go/arrow/array/bufferbuilder_numeric.gen.go b/go/arrow/array/bufferbuilder_numeric.gen.go
index 1b87e6eeb62..026367cc195 100644
--- a/go/arrow/array/bufferbuilder_numeric.gen.go
+++ b/go/arrow/array/bufferbuilder_numeric.gen.go
@@ -19,9 +19,9 @@
 package array
 
 import (
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 type int64BufferBuilder struct {
diff --git a/go/arrow/array/bufferbuilder_numeric.gen.go.tmpl b/go/arrow/array/bufferbuilder_numeric.gen.go.tmpl
index 71d03c0fdf6..c1720097959 100644
--- a/go/arrow/array/bufferbuilder_numeric.gen.go.tmpl
+++ b/go/arrow/array/bufferbuilder_numeric.gen.go.tmpl
@@ -17,9 +17,9 @@
 package array
 
 import (
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 {{range .In}}
diff --git a/go/arrow/array/bufferbuilder_numeric_test.go b/go/arrow/array/bufferbuilder_numeric_test.go
index 67c84380067..5322f7c4abc 100644
--- a/go/arrow/array/bufferbuilder_numeric_test.go
+++ b/go/arrow/array/bufferbuilder_numeric_test.go
@@ -20,8 +20,8 @@ import (
 	"testing"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/endian"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/builder.go b/go/arrow/array/builder.go
index 4733ba9bbee..8eebd5ac644 100644
--- a/go/arrow/array/builder.go
+++ b/go/arrow/array/builder.go
@@ -20,9 +20,9 @@ import (
 	"fmt"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
@@ -74,6 +74,8 @@ type Builder interface {
 	// a new array.
 	NewArray() arrow.Array
 
+	UnsafeAppendBoolToBitmap(bool)
+
 	init(capacity int)
 	resize(newBits int, init func(int))
 
@@ -304,7 +306,7 @@ func NewBuilder(mem memory.Allocator, dtype arrow.DataType) Builder {
 		}
 	case arrow.LIST:
 		typ := dtype.(*arrow.ListType)
-		return NewListBuilder(mem, typ.Elem())
+		return NewListBuilderWithField(mem, typ.ElemField())
 	case arrow.STRUCT:
 		typ := dtype.(*arrow.StructType)
 		return NewStructBuilder(mem, typ)
@@ -319,7 +321,7 @@ func NewBuilder(mem memory.Allocator, dtype arrow.DataType) Builder {
 		return NewDictionaryBuilder(mem, typ)
 	case arrow.LARGE_LIST:
 		typ := dtype.(*arrow.LargeListType)
-		return NewLargeListBuilder(mem, typ.Elem())
+		return NewLargeListBuilderWithField(mem, typ.ElemField())
 	case arrow.MAP:
 		typ := dtype.(*arrow.MapType)
 		return NewMapBuilder(mem, typ.KeyType(), typ.ItemType(), typ.KeysSorted)
diff --git a/go/arrow/array/builder_test.go b/go/arrow/array/builder_test.go
index efc62f9038d..e96a101a2e2 100644
--- a/go/arrow/array/builder_test.go
+++ b/go/arrow/array/builder_test.go
@@ -19,8 +19,8 @@ package array
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/tools"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/tools"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/compare.go b/go/arrow/array/compare.go
index 78075cd0f41..68143e00861 100644
--- a/go/arrow/array/compare.go
+++ b/go/arrow/array/compare.go
@@ -20,8 +20,8 @@ import (
 	"fmt"
 	"math"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/float16"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/float16"
 )
 
 // RecordEqual reports whether the two provided records are equal.
@@ -117,7 +117,7 @@ func ChunkedEqual(left, right *arrow.Chunked) bool {
 		return false
 	}
 
-	var isequal bool
+	var isequal bool = true
 	chunkedBinaryApply(left, right, func(left arrow.Array, lbeg, lend int64, right arrow.Array, rbeg, rend int64) bool {
 		isequal = SliceEqual(left, lbeg, lend, right, rbeg, rend)
 		return isequal
@@ -402,18 +402,18 @@ func (eq equalOption) f32(f1, f2 float32) bool {
 	v2 := float64(f2)
 	switch {
 	case eq.nansEq:
-		return math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
+		return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
 	default:
-		return math.Abs(v1-v2) <= eq.atol
+		return v1 == v2 || math.Abs(v1-v2) <= eq.atol
 	}
 }
 
 func (eq equalOption) f64(v1, v2 float64) bool {
 	switch {
 	case eq.nansEq:
-		return math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
+		return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
 	default:
-		return math.Abs(v1-v2) <= eq.atol
+		return v1 == v2 || math.Abs(v1-v2) <= eq.atol
 	}
 }
 
diff --git a/go/arrow/array/compare_test.go b/go/arrow/array/compare_test.go
index 62c7e39570f..f58c647ee9d 100644
--- a/go/arrow/array/compare_test.go
+++ b/go/arrow/array/compare_test.go
@@ -21,11 +21,11 @@ import (
 	"math"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/float16"
-	"github.com/apache/arrow/go/v10/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/float16"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/concat.go b/go/arrow/array/concat.go
index 22885f569ab..8ba1973d9ce 100644
--- a/go/arrow/array/concat.go
+++ b/go/arrow/array/concat.go
@@ -22,12 +22,12 @@ import (
 	"math"
 	"math/bits"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	"github.com/apache/arrow/go/v10/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"github.com/apache/arrow/go/v11/internal/utils"
 )
 
 // Concatenate creates a new arrow.Array which is the concatenation of the
@@ -382,7 +382,12 @@ func concat(data []arrow.ArrayData, mem memory.Allocator) (arrow.ArrayData, erro
 		out.buffers[0] = bm
 	}
 
-	switch dt := out.dtype.(type) {
+	dt := out.dtype
+	if dt.ID() == arrow.EXTENSION {
+		dt = dt.(arrow.ExtensionType).StorageType()
+	}
+
+	switch dt := dt.(type) {
 	case *arrow.NullType:
 	case *arrow.BooleanType:
 		bm, err := concatBitmaps(gatherBitmaps(data, 1), mem)
diff --git a/go/arrow/array/concat_test.go b/go/arrow/array/concat_test.go
index f3c1c7ea80f..8da274319fb 100644
--- a/go/arrow/array/concat_test.go
+++ b/go/arrow/array/concat_test.go
@@ -22,11 +22,11 @@ import (
 	"sort"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/gen"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/gen"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 	"github.com/stretchr/testify/suite"
diff --git a/go/arrow/array/data.go b/go/arrow/array/data.go
index c0610959694..043787ebcac 100644
--- a/go/arrow/array/data.go
+++ b/go/arrow/array/data.go
@@ -22,9 +22,9 @@ import (
 	"sync/atomic"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 // Data represents the memory and metadata of an Arrow array.
@@ -159,6 +159,8 @@ func (d *Data) Release() {
 // DataType returns the DataType of the data.
 func (d *Data) DataType() arrow.DataType { return d.dtype }
 
+func (d *Data) SetNullN(n int) { d.nulls = n }
+
 // NullN returns the number of nulls.
 func (d *Data) NullN() int { return d.nulls }
 
diff --git a/go/arrow/array/data_test.go b/go/arrow/array/data_test.go
index 7191f1e3457..ff3cbe42ce3 100644
--- a/go/arrow/array/data_test.go
+++ b/go/arrow/array/data_test.go
@@ -19,8 +19,8 @@ package array
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/decimal128.go b/go/arrow/array/decimal128.go
index 2d80a443454..d62c4ac5316 100644
--- a/go/arrow/array/decimal128.go
+++ b/go/arrow/array/decimal128.go
@@ -25,11 +25,11 @@ import (
 	"strings"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
@@ -265,25 +265,25 @@ func (b *Decimal128Builder) unmarshalOne(dec *json.Decoder) error {
 		return err
 	}
 
-	var out *big.Float
-
 	switch v := t.(type) {
 	case float64:
-		out = big.NewFloat(v)
+		val, err := decimal128.FromFloat64(v, b.dtype.Precision, b.dtype.Scale)
+		if err != nil {
+			return err
+		}
+		b.Append(val)
 	case string:
-		// there's no strong rationale for using ToNearestAway, it's just
-		// what got me the closest equivalent values with the values
-		// that I tested with, and there isn't a good way to push
-		// an option all the way down here to control it.
-		out, _, err = big.ParseFloat(v, 10, 128, big.ToNearestAway)
+		val, err := decimal128.FromString(v, b.dtype.Precision, b.dtype.Scale)
 		if err != nil {
 			return err
 		}
+		b.Append(val)
 	case json.Number:
-		out, _, err = big.ParseFloat(v.String(), 10, 128, big.ToNearestAway)
+		val, err := decimal128.FromString(v.String(), b.dtype.Precision, b.dtype.Scale)
 		if err != nil {
 			return err
 		}
+		b.Append(val)
 	case nil:
 		b.AppendNull()
 		return nil
@@ -295,8 +295,6 @@ func (b *Decimal128Builder) unmarshalOne(dec *json.Decoder) error {
 		}
 	}
 
-	val, _ := out.Mul(out, big.NewFloat(math.Pow10(int(b.dtype.Scale)))).Int(nil)
-	b.Append(decimal128.FromBigInt(val))
 	return nil
 }
 
diff --git a/go/arrow/array/decimal128_test.go b/go/arrow/array/decimal128_test.go
index 123da6c4ab3..f739f43cd6e 100644
--- a/go/arrow/array/decimal128_test.go
+++ b/go/arrow/array/decimal128_test.go
@@ -19,10 +19,10 @@ package array_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/decimal256.go b/go/arrow/array/decimal256.go
index 8ad45a6b8d6..51a8c0832f8 100644
--- a/go/arrow/array/decimal256.go
+++ b/go/arrow/array/decimal256.go
@@ -25,11 +25,11 @@ import (
 	"strings"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/decimal256"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
@@ -265,25 +265,25 @@ func (b *Decimal256Builder) unmarshalOne(dec *json.Decoder) error {
 		return err
 	}
 
-	var out *big.Float
-
 	switch v := t.(type) {
 	case float64:
-		out = big.NewFloat(v)
+		val, err := decimal256.FromFloat64(v, b.dtype.Precision, b.dtype.Scale)
+		if err != nil {
+			return err
+		}
+		b.Append(val)
 	case string:
-		// there's no strong rationale for using ToNearestAway, it's just
-		// what got me the closest equivalent values with the values
-		// that I tested with, and there isn't a good way to push
-		// an option all the way down here to control it.
-		out, _, err = big.ParseFloat(v, 10, 256, big.ToNearestAway)
+		out, err := decimal256.FromString(v, b.dtype.Precision, b.dtype.Scale)
 		if err != nil {
 			return err
 		}
+		b.Append(out)
 	case json.Number:
-		out, _, err = big.ParseFloat(v.String(), 10, 256, big.ToNearestAway)
+		out, err := decimal256.FromString(v.String(), b.dtype.Precision, b.dtype.Scale)
 		if err != nil {
 			return err
 		}
+		b.Append(out)
 	case nil:
 		b.AppendNull()
 		return nil
@@ -295,8 +295,6 @@ func (b *Decimal256Builder) unmarshalOne(dec *json.Decoder) error {
 		}
 	}
 
-	val, _ := out.Mul(out, big.NewFloat(math.Pow10(int(b.dtype.Scale)))).Int(nil)
-	b.Append(decimal256.FromBigInt(val))
 	return nil
 }
 
diff --git a/go/arrow/array/decimal256_test.go b/go/arrow/array/decimal256_test.go
index 6f44fd3e01e..bbc83e5be18 100644
--- a/go/arrow/array/decimal256_test.go
+++ b/go/arrow/array/decimal256_test.go
@@ -19,10 +19,10 @@ package array_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/decimal256"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/decimal_test.go b/go/arrow/array/decimal_test.go
index 65980d25f33..08c7646287f 100644
--- a/go/arrow/array/decimal_test.go
+++ b/go/arrow/array/decimal_test.go
@@ -21,12 +21,12 @@ import (
 	"math/big"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/decimal256"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/suite"
 )
 
diff --git a/go/arrow/array/dictionary.go b/go/arrow/array/dictionary.go
index 2409e296ca9..cbb80bf01eb 100644
--- a/go/arrow/array/dictionary.go
+++ b/go/arrow/array/dictionary.go
@@ -25,14 +25,14 @@ import (
 	"sync/atomic"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/float16"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/hashing"
-	"github.com/apache/arrow/go/v10/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/float16"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/hashing"
+	"github.com/apache/arrow/go/v11/internal/utils"
 	"github.com/goccy/go-json"
 )
 
diff --git a/go/arrow/array/dictionary_test.go b/go/arrow/array/dictionary_test.go
index 580c57a371a..6dc5af7a1f9 100644
--- a/go/arrow/array/dictionary_test.go
+++ b/go/arrow/array/dictionary_test.go
@@ -23,12 +23,12 @@ import (
 	"strings"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/types"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/types"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 	"github.com/stretchr/testify/suite"
diff --git a/go/arrow/array/extension.go b/go/arrow/array/extension.go
index 6de83fa3a6e..5b9107c7f77 100644
--- a/go/arrow/array/extension.go
+++ b/go/arrow/array/extension.go
@@ -20,8 +20,8 @@ import (
 	"fmt"
 	"reflect"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
diff --git a/go/arrow/array/extension_test.go b/go/arrow/array/extension_test.go
index e2d4cf969af..08bd23e9db0 100644
--- a/go/arrow/array/extension_test.go
+++ b/go/arrow/array/extension_test.go
@@ -19,10 +19,10 @@ package array_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/types"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/types"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/suite"
 )
 
diff --git a/go/arrow/array/fixed_size_list.go b/go/arrow/array/fixed_size_list.go
index c13f596663f..deb5d139242 100644
--- a/go/arrow/array/fixed_size_list.go
+++ b/go/arrow/array/fixed_size_list.go
@@ -22,10 +22,10 @@ import (
 	"strings"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
diff --git a/go/arrow/array/fixed_size_list_test.go b/go/arrow/array/fixed_size_list_test.go
index ab09b965c7d..f3320784236 100644
--- a/go/arrow/array/fixed_size_list_test.go
+++ b/go/arrow/array/fixed_size_list_test.go
@@ -20,9 +20,9 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestFixedSizeListArray(t *testing.T) {
diff --git a/go/arrow/array/fixedsize_binary.go b/go/arrow/array/fixedsize_binary.go
index 24f40363e9b..6812e0dc558 100644
--- a/go/arrow/array/fixedsize_binary.go
+++ b/go/arrow/array/fixedsize_binary.go
@@ -21,7 +21,7 @@ import (
 	"fmt"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v11/arrow"
 	"github.com/goccy/go-json"
 )
 
diff --git a/go/arrow/array/fixedsize_binary_test.go b/go/arrow/array/fixedsize_binary_test.go
index ec8f2f35637..450acd3da18 100644
--- a/go/arrow/array/fixedsize_binary_test.go
+++ b/go/arrow/array/fixedsize_binary_test.go
@@ -21,9 +21,9 @@ import (
 
 	"github.com/stretchr/testify/assert"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestFixedSizeBinary(t *testing.T) {
diff --git a/go/arrow/array/fixedsize_binarybuilder.go b/go/arrow/array/fixedsize_binarybuilder.go
index 7a600c13f5b..53d9d9b650f 100644
--- a/go/arrow/array/fixedsize_binarybuilder.go
+++ b/go/arrow/array/fixedsize_binarybuilder.go
@@ -23,9 +23,9 @@ import (
 	"reflect"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
@@ -89,6 +89,11 @@ func (b *FixedSizeBinaryBuilder) AppendEmptyValue() {
 	b.UnsafeAppendBoolToBitmap(true)
 }
 
+func (b *FixedSizeBinaryBuilder) UnsafeAppend(v []byte) {
+	b.values.unsafeAppend(v)
+	b.UnsafeAppendBoolToBitmap(true)
+}
+
 // AppendValues will append the values in the v slice. The valid slice determines which values
 // in v are valid (not null). The valid slice must either be empty or be equal in length to v. If empty,
 // all values in v are appended and considered valid.
diff --git a/go/arrow/array/fixedsize_binarybuilder_test.go b/go/arrow/array/fixedsize_binarybuilder_test.go
index 5564f34f4af..b88dbf9d7b5 100644
--- a/go/arrow/array/fixedsize_binarybuilder_test.go
+++ b/go/arrow/array/fixedsize_binarybuilder_test.go
@@ -19,8 +19,8 @@ package array
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/float16.go b/go/arrow/array/float16.go
index 9e63a7e76a9..a2466314ec0 100644
--- a/go/arrow/array/float16.go
+++ b/go/arrow/array/float16.go
@@ -20,8 +20,8 @@ import (
 	"fmt"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/float16"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/float16"
 	"github.com/goccy/go-json"
 )
 
diff --git a/go/arrow/array/float16_builder.go b/go/arrow/array/float16_builder.go
index 4947981debb..517a4bd5867 100644
--- a/go/arrow/array/float16_builder.go
+++ b/go/arrow/array/float16_builder.go
@@ -23,11 +23,11 @@ import (
 	"strconv"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/float16"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/float16"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
diff --git a/go/arrow/array/float16_builder_test.go b/go/arrow/array/float16_builder_test.go
index e42a5119e84..d14a523bf59 100644
--- a/go/arrow/array/float16_builder_test.go
+++ b/go/arrow/array/float16_builder_test.go
@@ -19,9 +19,9 @@ package array_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/float16"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/float16"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/interval.go b/go/arrow/array/interval.go
index 4a51195aed4..82424bec005 100644
--- a/go/arrow/array/interval.go
+++ b/go/arrow/array/interval.go
@@ -22,10 +22,10 @@ import (
 	"strings"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
diff --git a/go/arrow/array/interval_test.go b/go/arrow/array/interval_test.go
index 17a49d94d45..dad0aedf39b 100644
--- a/go/arrow/array/interval_test.go
+++ b/go/arrow/array/interval_test.go
@@ -20,9 +20,9 @@ import (
 	"math"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/json_reader.go b/go/arrow/array/json_reader.go
index 0056a34a44b..8fb88271c0f 100644
--- a/go/arrow/array/json_reader.go
+++ b/go/arrow/array/json_reader.go
@@ -22,9 +22,9 @@ import (
 	"io"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
diff --git a/go/arrow/array/json_reader_test.go b/go/arrow/array/json_reader_test.go
index 43e66824270..e57132de8a6 100644
--- a/go/arrow/array/json_reader_test.go
+++ b/go/arrow/array/json_reader_test.go
@@ -20,9 +20,9 @@ import (
 	"strings"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/list.go b/go/arrow/array/list.go
index a603f7f7ada..a6f11385244 100644
--- a/go/arrow/array/list.go
+++ b/go/arrow/array/list.go
@@ -22,10 +22,10 @@ import (
 	"strings"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
@@ -154,7 +154,7 @@ func (a *List) Release() {
 
 func (a *List) ValueOffsets(i int) (start, end int64) {
 	debug.Assert(i >= 0 && i < a.array.data.length, "index out of range")
-	start, end = int64(a.offsets[i]), int64(a.offsets[i+1])
+	start, end = int64(a.offsets[i+a.data.offset]), int64(a.offsets[i+a.data.offset+1])
 	return
 }
 
@@ -321,12 +321,31 @@ func NewListBuilder(mem memory.Allocator, etype arrow.DataType) *ListBuilder {
 	}
 }
 
+// NewListBuilderWithField takes a field to use for the child rather than just
+// a datatype to allow for more customization.
+func NewListBuilderWithField(mem memory.Allocator, field arrow.Field) *ListBuilder {
+	offsetBldr := NewInt32Builder(mem)
+	return &ListBuilder{
+		baseListBuilder{
+			builder:         builder{refCount: 1, mem: mem},
+			values:          NewBuilder(mem, field.Type),
+			offsets:         offsetBldr,
+			dt:              arrow.ListOfField(field),
+			appendOffsetVal: func(o int) { offsetBldr.Append(int32(o)) },
+		},
+	}
+}
+
 func (b *baseListBuilder) Type() arrow.DataType {
-	switch b.dt.ID() {
-	case arrow.LIST:
-		return arrow.ListOf(b.values.Type())
-	case arrow.LARGE_LIST:
-		return arrow.LargeListOf(b.values.Type())
+	switch dt := b.dt.(type) {
+	case *arrow.ListType:
+		f := dt.ElemField()
+		f.Type = b.values.Type()
+		return arrow.ListOfField(f)
+	case *arrow.LargeListType:
+		f := dt.ElemField()
+		f.Type = b.values.Type()
+		return arrow.LargeListOfField(f)
 	}
 	return nil
 }
@@ -346,6 +365,21 @@ func NewLargeListBuilder(mem memory.Allocator, etype arrow.DataType) *LargeListB
 	}
 }
 
+// NewLargeListBuilderWithField takes a field rather than just an element type
+// to allow for more customization of the final type of the LargeList Array
+func NewLargeListBuilderWithField(mem memory.Allocator, field arrow.Field) *LargeListBuilder {
+	offsetBldr := NewInt64Builder(mem)
+	return &LargeListBuilder{
+		baseListBuilder{
+			builder:         builder{refCount: 1, mem: mem},
+			values:          NewBuilder(mem, field.Type),
+			offsets:         offsetBldr,
+			dt:              arrow.LargeListOfField(field),
+			appendOffsetVal: func(o int) { offsetBldr.Append(int64(o)) },
+		},
+	}
+}
+
 // Release decreases the reference count by 1.
 // When the reference count goes to zero, the memory is freed.
 func (b *baseListBuilder) Release() {
@@ -356,15 +390,14 @@ func (b *baseListBuilder) Release() {
 			b.nullBitmap.Release()
 			b.nullBitmap = nil
 		}
+		b.values.Release()
+		b.offsets.Release()
 	}
 
-	b.values.Release()
-	b.offsets.Release()
 }
 
 func (b *baseListBuilder) appendNextOffset() {
 	b.appendOffsetVal(b.values.Len())
-	// b.offsets.Append(int32(b.values.Len()))
 }
 
 func (b *baseListBuilder) Append(v bool) {
@@ -454,9 +487,6 @@ func (b *LargeListBuilder) NewArray() arrow.Array {
 // NewListArray creates a List array from the memory buffers used by the builder and resets the ListBuilder
 // so it can be used to build a new array.
 func (b *ListBuilder) NewListArray() (a *List) {
-	if b.offsets.Len() != b.length+1 {
-		b.appendNextOffset()
-	}
 	data := b.newData()
 	a = NewListData(data)
 	data.Release()
@@ -466,9 +496,6 @@ func (b *ListBuilder) NewListArray() (a *List) {
 // NewLargeListArray creates a List array from the memory buffers used by the builder and resets the LargeListBuilder
 // so it can be used to build a new array.
 func (b *LargeListBuilder) NewLargeListArray() (a *LargeList) {
-	if b.offsets.Len() != b.length+1 {
-		b.appendNextOffset()
-	}
 	data := b.newData()
 	a = NewLargeListData(data)
 	data.Release()
@@ -476,6 +503,9 @@ func (b *LargeListBuilder) NewLargeListArray() (a *LargeList) {
 }
 
 func (b *baseListBuilder) newData() (data *Data) {
+	if b.offsets.Len() != b.length+1 {
+		b.appendNextOffset()
+	}
 	values := b.values.NewArray()
 	defer values.Release()
 
diff --git a/go/arrow/array/list_test.go b/go/arrow/array/list_test.go
index f493167f76a..39b60e2bbdc 100644
--- a/go/arrow/array/list_test.go
+++ b/go/arrow/array/list_test.go
@@ -20,9 +20,9 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestListArray(t *testing.T) {
@@ -33,6 +33,8 @@ func TestListArray(t *testing.T) {
 	}{
 		{arrow.LIST, []int32{0, 3, 3, 3, 7}, arrow.ListOf(arrow.PrimitiveTypes.Int32)},
 		{arrow.LARGE_LIST, []int64{0, 3, 3, 3, 7}, arrow.LargeListOf(arrow.PrimitiveTypes.Int32)},
+		{arrow.LIST, []int32{0, 3, 3, 3, 7}, arrow.ListOfField(arrow.Field{Name: "item", Type: arrow.PrimitiveTypes.Int32, Nullable: true})},
+		{arrow.LARGE_LIST, []int64{0, 3, 3, 3, 7}, arrow.LargeListOfField(arrow.Field{Name: "item", Type: arrow.PrimitiveTypes.Int32, Nullable: true})},
 	}
 
 	for _, tt := range tests {
diff --git a/go/arrow/array/map.go b/go/arrow/array/map.go
index 9c35fbe3ca2..4b7cb3c4565 100644
--- a/go/arrow/array/map.go
+++ b/go/arrow/array/map.go
@@ -20,8 +20,8 @@ import (
 	"bytes"
 	"fmt"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
@@ -222,6 +222,10 @@ func (b *MapBuilder) AppendValues(offsets []int32, valid []bool) {
 	b.listBuilder.AppendValues(offsets, valid)
 }
 
+func (b *MapBuilder) UnsafeAppendBoolToBitmap(v bool) {
+	b.listBuilder.UnsafeAppendBoolToBitmap(v)
+}
+
 func (b *MapBuilder) init(capacity int)                  { b.listBuilder.init(capacity) }
 func (b *MapBuilder) resize(newBits int, init func(int)) { b.listBuilder.resize(newBits, init) }
 
@@ -272,8 +276,8 @@ func (b *MapBuilder) ItemBuilder() Builder { return b.itemBuilder }
 // ValueBuilder can be used instead of separately using the Key/Item builders
 // to build the list as a List of Structs rather than building the keys/items
 // separately.
-func (b *MapBuilder) ValueBuilder() *StructBuilder {
-	return b.listBuilder.ValueBuilder().(*StructBuilder)
+func (b *MapBuilder) ValueBuilder() Builder {
+	return b.listBuilder.ValueBuilder()
 }
 
 func (b *MapBuilder) unmarshalOne(dec *json.Decoder) error {
@@ -299,6 +303,7 @@ func (b *MapBuilder) UnmarshalJSON(data []byte) error {
 }
 
 var (
-	_ arrow.Array = (*Map)(nil)
-	_ Builder     = (*MapBuilder)(nil)
+	_ arrow.Array     = (*Map)(nil)
+	_ Builder         = (*MapBuilder)(nil)
+	_ ListLikeBuilder = (*MapBuilder)(nil)
 )
diff --git a/go/arrow/array/map_test.go b/go/arrow/array/map_test.go
index 059b9c60361..7c0164bde90 100644
--- a/go/arrow/array/map_test.go
+++ b/go/arrow/array/map_test.go
@@ -19,9 +19,9 @@ package array_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/null.go b/go/arrow/array/null.go
index ddc5cf3833e..a93f0f73275 100644
--- a/go/arrow/array/null.go
+++ b/go/arrow/array/null.go
@@ -23,9 +23,9 @@ import (
 	"strings"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
diff --git a/go/arrow/array/null_test.go b/go/arrow/array/null_test.go
index 9165249f730..a353ea5460e 100644
--- a/go/arrow/array/null_test.go
+++ b/go/arrow/array/null_test.go
@@ -19,9 +19,9 @@ package array_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestNullArray(t *testing.T) {
diff --git a/go/arrow/array/numeric.gen.go b/go/arrow/array/numeric.gen.go
index d850a113b2e..96992985098 100644
--- a/go/arrow/array/numeric.gen.go
+++ b/go/arrow/array/numeric.gen.go
@@ -22,7 +22,7 @@ import (
 	"fmt"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v11/arrow"
 	"github.com/goccy/go-json"
 )
 
diff --git a/go/arrow/array/numeric.gen.go.tmpl b/go/arrow/array/numeric.gen.go.tmpl
index b6b7c11e4ea..84de4ae0370 100644
--- a/go/arrow/array/numeric.gen.go.tmpl
+++ b/go/arrow/array/numeric.gen.go.tmpl
@@ -21,7 +21,7 @@ import (
 	"strings"
 	"time"
 
-	"github.com/apache/arrow/go/v10/arrow"	
+	"github.com/apache/arrow/go/v11/arrow"	
 	"github.com/goccy/go-json"
 )
 
diff --git a/go/arrow/array/numeric_test.go b/go/arrow/array/numeric_test.go
index 5333b4424bf..e485ba47f92 100644
--- a/go/arrow/array/numeric_test.go
+++ b/go/arrow/array/numeric_test.go
@@ -17,12 +17,14 @@
 package array_test
 
 import (
+	"encoding/json"
+	"math"
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
@@ -135,6 +137,22 @@ func TestFloat64SliceDataWithNull(t *testing.T) {
 	}
 }
 
+func TestUnmarshalSpecialFloat(t *testing.T) {
+	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
+	defer pool.AssertSize(t, 0)
+
+	bldr := array.NewFloat32Builder(pool)
+	defer bldr.Release()
+
+	assert.NoError(t, json.Unmarshal([]byte(`[3.4, "Inf", "-Inf"]`), bldr))
+	arr := bldr.NewFloat32Array()
+	defer arr.Release()
+
+	assert.False(t, math.IsInf(float64(arr.Value(0)), 0), arr.Value(0))
+	assert.True(t, math.IsInf(float64(arr.Value(1)), 1), arr.Value(1))
+	assert.True(t, math.IsInf(float64(arr.Value(2)), -1), arr.Value(2))
+}
+
 func TestNewTime32Data(t *testing.T) {
 	data := []arrow.Time32{
 		arrow.Time32(1),
diff --git a/go/arrow/array/numericbuilder.gen.go b/go/arrow/array/numericbuilder.gen.go
index ed71d822386..f2087cfdb05 100644
--- a/go/arrow/array/numericbuilder.gen.go
+++ b/go/arrow/array/numericbuilder.gen.go
@@ -27,10 +27,10 @@ import (
 	"sync/atomic"
 	"time"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
@@ -2278,7 +2278,7 @@ func (b *TimestampBuilder) unmarshalOne(dec *json.Decoder) error {
 		b.AppendNull()
 	case string:
 		loc, _ := b.dtype.GetZone()
-		tm, err := arrow.TimestampFromStringInLocation(v, b.dtype.Unit, loc)
+		tm, _, err := arrow.TimestampFromStringInLocation(v, b.dtype.Unit, loc)
 
 		if err != nil {
 			return &json.UnmarshalTypeError{
diff --git a/go/arrow/array/numericbuilder.gen.go.tmpl b/go/arrow/array/numericbuilder.gen.go.tmpl
index f912c076fe3..15e7ff97994 100644
--- a/go/arrow/array/numericbuilder.gen.go.tmpl
+++ b/go/arrow/array/numericbuilder.gen.go.tmpl
@@ -17,10 +17,10 @@
 package array
 
 import (
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"	
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"	
 	"github.com/goccy/go-json"
 )
 
@@ -221,7 +221,7 @@ func (b *{{.Name}}Builder) unmarshalOne(dec *json.Decoder) error {
 	case string:
 {{if (eq .Name "Timestamp") -}}
 		loc, _ := b.dtype.GetZone()
-		tm, err := arrow.TimestampFromStringInLocation(v, b.dtype.Unit, loc)
+		tm, _, err := arrow.TimestampFromStringInLocation(v, b.dtype.Unit, loc)
 {{else -}}
 		tm, err := {{.QualifiedType}}FromString(v, b.dtype.Unit)
 {{end}}
diff --git a/go/arrow/array/numericbuilder.gen_test.go b/go/arrow/array/numericbuilder.gen_test.go
index 08119743dac..aa5bf9dabd7 100644
--- a/go/arrow/array/numericbuilder.gen_test.go
+++ b/go/arrow/array/numericbuilder.gen_test.go
@@ -21,9 +21,9 @@ package array_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/numericbuilder.gen_test.go.tmpl b/go/arrow/array/numericbuilder.gen_test.go.tmpl
index 582f9642f55..cfaa3e970b9 100644
--- a/go/arrow/array/numericbuilder.gen_test.go.tmpl
+++ b/go/arrow/array/numericbuilder.gen_test.go.tmpl
@@ -19,9 +19,9 @@ package array_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/record.go b/go/arrow/array/record.go
index 7890b0e99b9..e17b975774a 100644
--- a/go/arrow/array/record.go
+++ b/go/arrow/array/record.go
@@ -22,9 +22,9 @@ import (
 	"strings"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
@@ -153,6 +153,10 @@ func NewRecord(schema *arrow.Schema, cols []arrow.Array, nrows int64) *simpleRec
 }
 
 func (rec *simpleRecord) validate() error {
+	if rec.rows == 0 && len(rec.arrs) == 0 {
+		return nil
+	}
+
 	if len(rec.arrs) != len(rec.schema.Fields()) {
 		return fmt.Errorf("arrow/array: number of columns/fields mismatch")
 	}
@@ -353,8 +357,8 @@ func (b *RecordBuilder) UnmarshalJSON(data []byte) error {
 
 		indices := b.schema.FieldIndices(key)
 		if len(indices) == 0 {
-			_, err = dec.Token()
-			if err != nil {
+			var extra interface{}
+			if err := dec.Decode(&extra); err != nil {
 				return err
 			}
 			continue
diff --git a/go/arrow/array/record_test.go b/go/arrow/array/record_test.go
index d0cfd68c523..1d781fd11bf 100644
--- a/go/arrow/array/record_test.go
+++ b/go/arrow/array/record_test.go
@@ -21,9 +21,9 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
@@ -135,8 +135,7 @@ func TestRecord(t *testing.T) {
 		{
 			schema: schema,
 			cols:   nil,
-			rows:   -1,
-			err:    fmt.Errorf("arrow/array: number of columns/fields mismatch"),
+			rows:   0,
 		},
 		{
 			schema: schema,
diff --git a/go/arrow/array/string.go b/go/arrow/array/string.go
index 5cb73a79b5d..cd2a55b18ae 100644
--- a/go/arrow/array/string.go
+++ b/go/arrow/array/string.go
@@ -23,8 +23,8 @@ import (
 	"strings"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
@@ -330,6 +330,10 @@ func (b *StringBuilder) Value(i int) string {
 	return string(b.BinaryBuilder.Value(i))
 }
 
+// func (b *StringBuilder) UnsafeAppend(v string) {
+// 	b.BinaryBuilder.UnsafeAppend([]byte(v))
+// }
+
 // NewArray creates a String array from the memory buffers used by the builder and resets the StringBuilder
 // so it can be used to build a new array.
 func (b *StringBuilder) NewArray() arrow.Array {
@@ -423,6 +427,10 @@ func (b *LargeStringBuilder) Value(i int) string {
 	return string(b.BinaryBuilder.Value(i))
 }
 
+// func (b *LargeStringBuilder) UnsafeAppend(v string) {
+// 	b.BinaryBuilder.UnsafeAppend([]byte(v))
+// }
+
 // NewArray creates a String array from the memory buffers used by the builder and resets the StringBuilder
 // so it can be used to build a new array.
 func (b *LargeStringBuilder) NewArray() arrow.Array {
@@ -482,9 +490,18 @@ func (b *LargeStringBuilder) UnmarshalJSON(data []byte) error {
 	return b.unmarshal(dec)
 }
 
+type StringLikeBuilder interface {
+	Builder
+	Append(string)
+	UnsafeAppend([]byte)
+	ReserveData(int)
+}
+
 var (
-	_ arrow.Array = (*String)(nil)
-	_ arrow.Array = (*LargeString)(nil)
-	_ Builder     = (*StringBuilder)(nil)
-	_ Builder     = (*LargeStringBuilder)(nil)
+	_ arrow.Array       = (*String)(nil)
+	_ arrow.Array       = (*LargeString)(nil)
+	_ Builder           = (*StringBuilder)(nil)
+	_ Builder           = (*LargeStringBuilder)(nil)
+	_ StringLikeBuilder = (*StringBuilder)(nil)
+	_ StringLikeBuilder = (*LargeStringBuilder)(nil)
 )
diff --git a/go/arrow/array/string_test.go b/go/arrow/array/string_test.go
index 9632204d633..d26698018bd 100644
--- a/go/arrow/array/string_test.go
+++ b/go/arrow/array/string_test.go
@@ -21,10 +21,10 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/array/struct.go b/go/arrow/array/struct.go
index 2adf17623c0..b82e2f6ea08 100644
--- a/go/arrow/array/struct.go
+++ b/go/arrow/array/struct.go
@@ -23,10 +23,10 @@ import (
 	"strings"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 )
 
@@ -36,6 +36,40 @@ type Struct struct {
 	fields []arrow.Array
 }
 
+// NewStructArray constructs a new Struct Array out of the columns passed
+// in and the field names. The length of all cols must be the same and
+// there should be the same number of columns as names.
+func NewStructArray(cols []arrow.Array, names []string) (*Struct, error) {
+	return NewStructArrayWithNulls(cols, names, nil, 0, 0)
+}
+
+// NewStructArrayWithNulls is like NewStructArray as a convenience function,
+// but also takes in a null bitmap, the number of nulls, and an optional offset
+// to use for creating the Struct Array.
+func NewStructArrayWithNulls(cols []arrow.Array, names []string, nullBitmap *memory.Buffer, nullCount int, offset int) (*Struct, error) {
+	if len(cols) != len(names) {
+		return nil, fmt.Errorf("%w: mismatching number of fields and child arrays", arrow.ErrInvalid)
+	}
+	if len(cols) == 0 {
+		return nil, fmt.Errorf("%w: can't infer struct array length with 0 child arrays", arrow.ErrInvalid)
+	}
+	length := cols[0].Len()
+	children := make([]arrow.ArrayData, len(cols))
+	fields := make([]arrow.Field, len(cols))
+	for i, c := range cols {
+		if length != c.Len() {
+			return nil, fmt.Errorf("%w: mismatching child array lengths", arrow.ErrInvalid)
+		}
+		children[i] = c.Data()
+		fields[i].Name = names[i]
+		fields[i].Type = c.DataType()
+		fields[i].Nullable = true
+	}
+	data := NewData(arrow.StructOf(fields...), length, []*memory.Buffer{nullBitmap}, children, nullCount, offset)
+	defer data.Release()
+	return NewStructData(data), nil
+}
+
 // NewStructData returns a new Struct array value from data.
 func NewStructData(data arrow.ArrayData) *Struct {
 	a := &Struct{}
@@ -56,7 +90,10 @@ func (a *Struct) String() string {
 		if i > 0 {
 			o.WriteString(" ")
 		}
-		if !bytes.Equal(structBitmap, v.NullBitmapBytes()) {
+		if arrow.IsUnion(v.DataType().ID()) {
+			fmt.Fprintf(o, "%v", v)
+			continue
+		} else if !bytes.Equal(structBitmap, v.NullBitmapBytes()) {
 			masked := a.newStructFieldWithParentValidityMask(i)
 			fmt.Fprintf(o, "%v", masked)
 			masked.Release()
@@ -200,10 +237,10 @@ func (b *StructBuilder) Release() {
 			b.nullBitmap.Release()
 			b.nullBitmap = nil
 		}
-	}
 
-	for _, f := range b.fields {
-		f.Release()
+		for _, f := range b.fields {
+			f.Release()
+		}
 	}
 }
 
@@ -343,6 +380,8 @@ func (b *StructBuilder) unmarshalOne(dec *json.Decoder) error {
 
 			idx, ok := b.dtype.(*arrow.StructType).FieldIdx(key)
 			if !ok {
+				var extra interface{}
+				dec.Decode(&extra)
 				continue
 			}
 
diff --git a/go/arrow/array/struct_test.go b/go/arrow/array/struct_test.go
index 7bef10f9f87..677ecef29c1 100644
--- a/go/arrow/array/struct_test.go
+++ b/go/arrow/array/struct_test.go
@@ -20,9 +20,9 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestStructArray(t *testing.T) {
diff --git a/go/arrow/array/table.go b/go/arrow/array/table.go
index 0e17fd565a5..396102dd510 100644
--- a/go/arrow/array/table.go
+++ b/go/arrow/array/table.go
@@ -22,8 +22,8 @@ import (
 	"math"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
 )
 
 // NewColumnSlice returns a new zero-copy slice of the column with the indicated
diff --git a/go/arrow/array/table_test.go b/go/arrow/array/table_test.go
index 4230f0790c4..7e5e95e67ba 100644
--- a/go/arrow/array/table_test.go
+++ b/go/arrow/array/table_test.go
@@ -21,9 +21,9 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestChunked(t *testing.T) {
diff --git a/go/arrow/array/union.go b/go/arrow/array/union.go
index a7414fef4dd..a3e6f6832db 100644
--- a/go/arrow/array/union.go
+++ b/go/arrow/array/union.go
@@ -25,11 +25,11 @@ import (
 	"strings"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
 	"github.com/goccy/go-json"
 )
 
@@ -683,6 +683,10 @@ type UnionBuilder interface {
 	// Mode returns what kind of Union is being built, either arrow.SparseMode
 	// or arrow.DenseMode
 	Mode() arrow.UnionMode
+	// Child returns the builder for the requested child index.
+	// If an invalid index is requested (e.g. <0 or >len(children))
+	// then this will panic.
+	Child(idx int) Builder
 }
 
 type unionBuilder struct {
@@ -734,6 +738,20 @@ func newUnionBuilder(mem memory.Allocator, children []Builder, typ arrow.UnionTy
 	return b
 }
 
+func (b *unionBuilder) NumChildren() int {
+	return len(b.children)
+}
+
+func (b *unionBuilder) Child(idx int) Builder {
+	if idx < 0 || idx > len(b.children) {
+		panic("arrow/array: invalid child index for union builder")
+	}
+	return b.children[idx]
+}
+
+// Len returns the current number of elements in the builder.
+func (b *unionBuilder) Len() int { return b.typesBuilder.Len() }
+
 func (b *unionBuilder) Mode() arrow.UnionMode { return b.mode }
 
 func (b *unionBuilder) reserve(elements int, resize func(int)) {
diff --git a/go/arrow/array/union_test.go b/go/arrow/array/union_test.go
index ca6122c0ae9..fff73b35c54 100644
--- a/go/arrow/array/union_test.go
+++ b/go/arrow/array/union_test.go
@@ -17,12 +17,13 @@
 package array_test
 
 import (
+	"fmt"
 	"strings"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/suite"
 )
@@ -624,6 +625,8 @@ func (s *UnionBuilderSuite) appendBasics() {
 	s.appendInt(-10)
 	s.appendDbl(0.5)
 
+	s.Equal(9, s.unionBldr.Len())
+
 	s.actual = s.unionBldr.NewArray().(array.Union)
 	s.NoError(s.actual.ValidateFull())
 	s.createExpectedTypesArr()
@@ -639,6 +642,8 @@ func (s *UnionBuilderSuite) appendNullsAndEmptyValues() {
 	s.unionBldr.AppendEmptyValues(2)
 	s.expectedTypes = append(s.expectedTypes, s.I8, s.I8, s.I8)
 
+	s.Equal(8, s.unionBldr.Len())
+
 	s.actual = s.unionBldr.NewArray().(array.Union)
 	s.NoError(s.actual.ValidateFull())
 	s.createExpectedTypesArr()
@@ -663,6 +668,8 @@ func (s *UnionBuilderSuite) appendInferred() {
 	s.appendDbl(-1.0)
 	s.appendDbl(0.5)
 
+	s.Equal(9, s.unionBldr.Len())
+
 	s.actual = s.unionBldr.NewArray().(array.Union)
 	s.NoError(s.actual.ValidateFull())
 	s.createExpectedTypesArr()
@@ -694,6 +701,8 @@ func (s *UnionBuilderSuite) appendListOfInferred(utyp arrow.UnionType) *array.Li
 	s.EqualValues(2, s.DBL)
 	s.appendDbl(0.5)
 
+	s.Equal(4, s.unionBldr.Len())
+
 	s.createExpectedTypesArr()
 	return listBldr.NewListArray()
 }
@@ -946,7 +955,81 @@ func (s *UnionBuilderSuite) TestSparseUnionStructWithUnion() {
 	s.Truef(arrow.TypeEqual(expectedType, bldr.Type()), "expected: %s, got: %s", expectedType, bldr.Type())
 }
 
+func ExampleSparseUnionBuilder() {
+	dt1 := arrow.SparseUnionOf([]arrow.Field{
+		{Name: "c", Type: &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: arrow.BinaryTypes.String}},
+	}, []arrow.UnionTypeCode{0})
+	dt2 := arrow.StructOf(arrow.Field{Name: "a", Type: dt1})
+
+	pool := memory.DefaultAllocator
+	bldr := array.NewStructBuilder(pool, dt2)
+	defer bldr.Release()
+
+	bldrDt1 := bldr.FieldBuilder(0).(*array.SparseUnionBuilder)
+	binDictBldr := bldrDt1.Child(0).(*array.BinaryDictionaryBuilder)
+
+	bldr.Append(true)
+	bldrDt1.Append(0)
+	binDictBldr.AppendString("foo")
+
+	bldr.Append(true)
+	bldrDt1.Append(0)
+	binDictBldr.AppendString("bar")
+
+	out := bldr.NewArray().(*array.Struct)
+	defer out.Release()
+
+	fmt.Println(out)
+
+	// Output:
+	// {[{c=foo} {c=bar}]}
+}
+
 func TestUnions(t *testing.T) {
 	suite.Run(t, new(UnionFactorySuite))
 	suite.Run(t, new(UnionBuilderSuite))
 }
+
+func TestNestedUnionStructDict(t *testing.T) {
+	// ARROW-18274
+	dt1 := arrow.SparseUnionOf([]arrow.Field{
+		{Name: "c", Type: &arrow.DictionaryType{
+			IndexType: arrow.PrimitiveTypes.Uint16,
+			ValueType: arrow.BinaryTypes.String,
+			Ordered:   false,
+		}},
+	}, []arrow.UnionTypeCode{0})
+	dt2 := arrow.StructOf(
+		arrow.Field{Name: "b", Type: dt1},
+	)
+	dt3 := arrow.SparseUnionOf([]arrow.Field{
+		{Name: "a", Type: dt2},
+	}, []arrow.UnionTypeCode{0})
+	pool := memory.NewGoAllocator()
+
+	builder := array.NewSparseUnionBuilder(pool, dt3)
+	defer builder.Release()
+	arr := builder.NewArray()
+	defer arr.Release()
+	assert.Equal(t, 0, arr.Len())
+}
+
+func TestNestedUnionDictUnion(t *testing.T) {
+	dt1 := arrow.SparseUnionOf([]arrow.Field{
+		{Name: "c", Type: &arrow.DictionaryType{
+			IndexType: arrow.PrimitiveTypes.Uint16,
+			ValueType: arrow.BinaryTypes.String,
+			Ordered:   false,
+		}},
+	}, []arrow.UnionTypeCode{0})
+	dt2 := arrow.SparseUnionOf([]arrow.Field{
+		{Name: "a", Type: dt1},
+	}, []arrow.UnionTypeCode{0})
+	pool := memory.NewGoAllocator()
+
+	builder := array.NewSparseUnionBuilder(pool, dt2)
+	defer builder.Release()
+	arr := builder.NewArray()
+	defer arr.Release()
+	assert.Equal(t, 0, arr.Len())
+}
diff --git a/go/arrow/array/util.go b/go/arrow/array/util.go
index e0fc3e56beb..95b3e20f90e 100644
--- a/go/arrow/array/util.go
+++ b/go/arrow/array/util.go
@@ -22,10 +22,10 @@ import (
 	"io"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/hashing"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/hashing"
 	"github.com/goccy/go-json"
 )
 
@@ -237,6 +237,19 @@ func RecordToJSON(rec arrow.Record, w io.Writer) error {
 	return nil
 }
 
+func TableFromJSON(mem memory.Allocator, sc *arrow.Schema, recJSON []string, opt ...FromJSONOption) (arrow.Table, error) {
+	batches := make([]arrow.Record, len(recJSON))
+	for i, batchJSON := range recJSON {
+		batch, _, err := RecordFromJSON(mem, sc, strings.NewReader(batchJSON), opt...)
+		if err != nil {
+			return nil, err
+		}
+		defer batch.Release()
+		batches[i] = batch
+	}
+	return NewTableFromRecords(sc, batches), nil
+}
+
 func getDictArrayData(mem memory.Allocator, valueType arrow.DataType, memoTable hashing.MemoTable, startOffset int) (*Data, error) {
 	dictLen := memoTable.Size() - startOffset
 	buffers := []*memory.Buffer{nil, nil}
@@ -299,3 +312,181 @@ func DictArrayFromJSON(mem memory.Allocator, dt *arrow.DictionaryType, indicesJS
 
 	return NewDictionaryArray(dt, indices, dict), nil
 }
+
+func ChunkedFromJSON(mem memory.Allocator, dt arrow.DataType, chunkStrs []string, opts ...FromJSONOption) (*arrow.Chunked, error) {
+	chunks := make([]arrow.Array, len(chunkStrs))
+	defer func() {
+		for _, c := range chunks {
+			if c != nil {
+				c.Release()
+			}
+		}
+	}()
+
+	var err error
+	for i, c := range chunkStrs {
+		chunks[i], _, err = FromJSON(mem, dt, strings.NewReader(c), opts...)
+		if err != nil {
+			return nil, err
+		}
+	}
+
+	return arrow.NewChunked(dt, chunks), nil
+}
+
+func getMaxBufferLen(dt arrow.DataType, length int) int {
+	bufferLen := int(bitutil.BytesForBits(int64(length)))
+
+	maxOf := func(bl int) int {
+		if bl > bufferLen {
+			return bl
+		}
+		return bufferLen
+	}
+
+	switch dt := dt.(type) {
+	case *arrow.DictionaryType:
+		bufferLen = maxOf(getMaxBufferLen(dt.ValueType, length))
+		return maxOf(getMaxBufferLen(dt.IndexType, length))
+	case *arrow.FixedSizeBinaryType:
+		return maxOf(dt.ByteWidth * length)
+	case arrow.FixedWidthDataType:
+		return maxOf(int(bitutil.BytesForBits(int64(dt.BitWidth()))) * length)
+	case *arrow.StructType:
+		for _, f := range dt.Fields() {
+			bufferLen = maxOf(getMaxBufferLen(f.Type, length))
+		}
+		return bufferLen
+	case *arrow.SparseUnionType:
+		// type codes
+		bufferLen = maxOf(length)
+		// creates children of the same length of the union
+		for _, f := range dt.Fields() {
+			bufferLen = maxOf(getMaxBufferLen(f.Type, length))
+		}
+		return bufferLen
+	case *arrow.DenseUnionType:
+		// type codes
+		bufferLen = maxOf(length)
+		// offsets
+		bufferLen = maxOf(arrow.Int32SizeBytes * length)
+		// create children of length 1
+		for _, f := range dt.Fields() {
+			bufferLen = maxOf(getMaxBufferLen(f.Type, 1))
+		}
+		return bufferLen
+	case arrow.OffsetsDataType:
+		return maxOf(dt.OffsetTypeTraits().BytesRequired(length + 1))
+	case *arrow.FixedSizeListType:
+		return maxOf(getMaxBufferLen(dt.Elem(), int(dt.Len())*length))
+	case arrow.ExtensionType:
+		return maxOf(getMaxBufferLen(dt.StorageType(), length))
+	default:
+		panic(fmt.Errorf("arrow/array: arrayofnull not implemented for type %s", dt))
+	}
+}
+
+type nullArrayFactory struct {
+	mem memory.Allocator
+	dt  arrow.DataType
+	len int
+	buf *memory.Buffer
+}
+
+func (n *nullArrayFactory) create() *Data {
+	if n.buf == nil {
+		bufLen := getMaxBufferLen(n.dt, n.len)
+		n.buf = memory.NewResizableBuffer(n.mem)
+		n.buf.Resize(bufLen)
+		defer n.buf.Release()
+	}
+
+	var (
+		dt        = n.dt
+		bufs      = []*memory.Buffer{memory.SliceBuffer(n.buf, 0, int(bitutil.BytesForBits(int64(n.len))))}
+		childData []arrow.ArrayData
+		dictData  arrow.ArrayData
+	)
+	defer bufs[0].Release()
+
+	if ex, ok := dt.(arrow.ExtensionType); ok {
+		dt = ex.StorageType()
+	}
+
+	if nf, ok := dt.(arrow.NestedType); ok {
+		childData = make([]arrow.ArrayData, len(nf.Fields()))
+	}
+
+	switch dt := dt.(type) {
+	case *arrow.NullType:
+	case *arrow.DictionaryType:
+		bufs = append(bufs, n.buf)
+		arr := MakeArrayOfNull(n.mem, dt.ValueType, 0)
+		defer arr.Release()
+		dictData = arr.Data()
+	case arrow.FixedWidthDataType:
+		bufs = append(bufs, n.buf)
+	case arrow.BinaryDataType:
+		bufs = append(bufs, n.buf, n.buf)
+	case arrow.OffsetsDataType:
+		bufs = append(bufs, n.buf)
+		childData[0] = n.createChild(dt, 0, 0)
+		defer childData[0].Release()
+	case *arrow.FixedSizeListType:
+		childData[0] = n.createChild(dt, 0, n.len*int(dt.Len()))
+		defer childData[0].Release()
+	case *arrow.StructType:
+		for i := range dt.Fields() {
+			childData[i] = n.createChild(dt, i, n.len)
+			defer childData[i].Release()
+		}
+	case arrow.UnionType:
+		bufs[0].Release()
+		bufs[0] = nil
+		bufs = append(bufs, n.buf)
+		// buffer is zeroed, but 0 may not be a valid type code
+		if dt.TypeCodes()[0] != 0 {
+			bufs[1] = memory.NewResizableBuffer(n.mem)
+			bufs[1].Resize(n.len)
+			defer bufs[1].Release()
+			memory.Set(bufs[1].Bytes(), byte(dt.TypeCodes()[0]))
+		}
+
+		// for sparse unions we create children with the same length
+		childLen := n.len
+		if dt.Mode() == arrow.DenseMode {
+			// for dense unions, offsets are all 0 and make children
+			// with length 1
+			bufs = append(bufs, n.buf)
+			childLen = 1
+		}
+		for i := range dt.Fields() {
+			childData[i] = n.createChild(dt, i, childLen)
+			defer childData[i].Release()
+		}
+	}
+
+	out := NewData(n.dt, n.len, bufs, childData, n.len, 0)
+	if dictData != nil {
+		out.SetDictionary(dictData)
+	}
+	return out
+}
+
+func (n *nullArrayFactory) createChild(dt arrow.DataType, i, length int) *Data {
+	childFactory := &nullArrayFactory{
+		mem: n.mem, dt: n.dt.(arrow.NestedType).Fields()[i].Type,
+		len: length, buf: n.buf}
+	return childFactory.create()
+}
+
+// MakeArrayOfNull creates an array of size length which is all null of the given data type.
+func MakeArrayOfNull(mem memory.Allocator, dt arrow.DataType, length int) arrow.Array {
+	if dt.ID() == arrow.NULL {
+		return NewNull(length)
+	}
+
+	data := (&nullArrayFactory{mem: mem, dt: dt, len: length}).create()
+	defer data.Release()
+	return MakeFromData(data)
+}
diff --git a/go/arrow/array/util_test.go b/go/arrow/array/util_test.go
index 9a1539f33f1..928bb9fbc72 100644
--- a/go/arrow/array/util_test.go
+++ b/go/arrow/array/util_test.go
@@ -17,6 +17,7 @@
 package array_test
 
 import (
+	"bufio"
 	"bytes"
 	"fmt"
 	"io"
@@ -24,13 +25,14 @@ import (
 	"strings"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/goccy/go-json"
 	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
 )
 
 var typemap = map[arrow.DataType]reflect.Type{
@@ -456,3 +458,67 @@ func TestArrRecordsJSONRoundTrip(t *testing.T) {
 		})
 	}
 }
+
+func TestStructBuilderJSONUnknownNested(t *testing.T) {
+	dt := arrow.StructOf(
+		arrow.Field{Name: "region", Type: arrow.BinaryTypes.String},
+		arrow.Field{Name: "model", Type: arrow.PrimitiveTypes.Int32},
+		arrow.Field{Name: "sales", Type: arrow.PrimitiveTypes.Float32})
+
+	const data = `[
+		{"region": "NY", "model": "3", "sales": 742.0},
+		{"region": "CT", "model": "5", "sales": 742.0}
+	]`
+
+	const dataWithExtra = `[
+		{"region": "NY", "model": "3", "sales": 742.0, "extra": 1234},
+		{"region": "CT", "model": "5", "sales": 742.0, "extra_array": [1234], "extra_obj": {"nested": ["deeply"]}}
+	]`
+
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(t, 0)
+
+	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(data))
+	require.NoError(t, err)
+	require.NotNil(t, arr)
+	defer arr.Release()
+
+	arr2, _, err := array.FromJSON(mem, dt, strings.NewReader(dataWithExtra))
+	require.NoError(t, err)
+	require.NotNil(t, arr2)
+	defer arr2.Release()
+
+	assert.Truef(t, array.Equal(arr, arr2), "expected: %s\n actual: %s", arr, arr2)
+}
+
+func TestRecordBuilderUnmarshalJSONExtraFields(t *testing.T) {
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(t, 0)
+
+	schema := arrow.NewSchema([]arrow.Field{
+		{Name: "region", Type: arrow.BinaryTypes.String},
+		{Name: "model", Type: arrow.PrimitiveTypes.Int32},
+		{Name: "sales", Type: arrow.PrimitiveTypes.Float32},
+	}, nil)
+
+	bldr := array.NewRecordBuilder(mem, schema)
+	defer bldr.Release()
+
+	const data = `{"region": "NY", "model": "3", "sales": 742.0, "extra": 1234}
+	{"region": "NY", "model": "3", "sales": 742.0, "extra_array": [1234], "extra_obj": {"nested": ["deeply"]}}`
+
+	s := bufio.NewScanner(strings.NewReader(data))
+	require.True(t, s.Scan())
+	require.NoError(t, bldr.UnmarshalJSON(s.Bytes()))
+
+	rec1 := bldr.NewRecord()
+	defer rec1.Release()
+
+	require.True(t, s.Scan())
+	require.NoError(t, bldr.UnmarshalJSON(s.Bytes()))
+
+	rec2 := bldr.NewRecord()
+	defer rec2.Release()
+
+	assert.Truef(t, array.RecordEqual(rec1, rec2), "expected: %s\nactual: %s", rec1, rec2)
+}
diff --git a/go/arrow/arrio/arrio.go b/go/arrow/arrio/arrio.go
index 1115a772684..060612e4efb 100644
--- a/go/arrow/arrio/arrio.go
+++ b/go/arrow/arrio/arrio.go
@@ -22,7 +22,7 @@ import (
 	"errors"
 	"io"
 
-	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v11/arrow"
 )
 
 // Reader is the interface that wraps the Read method.
diff --git a/go/arrow/arrio/arrio_test.go b/go/arrow/arrio/arrio_test.go
index 57c75fcf0a4..95a5d4cc3fa 100644
--- a/go/arrow/arrio/arrio_test.go
+++ b/go/arrow/arrio/arrio_test.go
@@ -23,11 +23,11 @@ import (
 	"os"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/arrio"
-	"github.com/apache/arrow/go/v10/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/arrio"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 type copyKind int
diff --git a/go/arrow/bitutil/_lib/bitmap_ops.c b/go/arrow/bitutil/_lib/bitmap_ops.c
index 96817b2f2b5..f48b4d4d821 100644
--- a/go/arrow/bitutil/_lib/bitmap_ops.c
+++ b/go/arrow/bitutil/_lib/bitmap_ops.c
@@ -31,4 +31,16 @@ void FULL_NAME(bitmap_aligned_or)(const uint8_t* left, const uint8_t* right, uin
     for (int64_t i = 0; i < nbytes; ++i) {
         out[i] = left[i] | right[i];
     }
-}
\ No newline at end of file
+}
+
+void FULL_NAME(bitmap_aligned_and_not)(const uint8_t* left, const uint8_t* right, uint8_t* out, const int64_t nbytes) {
+    for (int64_t i = 0; i < nbytes; ++i) {
+        out[i] = left[i] & ~right[i];
+    }
+}
+
+void FULL_NAME(bitmap_aligned_xor)(const uint8_t* left, const uint8_t* right, uint8_t* out, const int64_t nbytes) {
+    for (int64_t i = 0; i < nbytes; ++i) {
+        out[i] = left[i] ^ right[i];
+    }
+}
diff --git a/go/arrow/bitutil/_lib/bitmap_ops_avx2_amd64.s b/go/arrow/bitutil/_lib/bitmap_ops_avx2_amd64.s
index 69f69d29708..a4010dab55b 100644
--- a/go/arrow/bitutil/_lib/bitmap_ops_avx2_amd64.s
+++ b/go/arrow/bitutil/_lib/bitmap_ops_avx2_amd64.s
@@ -207,6 +207,204 @@ bitmap_aligned_or_avx2:                 # @bitmap_aligned_or_avx2
 .Lfunc_end1:
 	.size	bitmap_aligned_or_avx2, .Lfunc_end1-bitmap_aligned_or_avx2
                                         # -- End function
+	.globl	bitmap_aligned_and_not_avx2     # -- Begin function bitmap_aligned_and_not_avx2
+	.p2align	4, 0x90
+	.type	bitmap_aligned_and_not_avx2,@function
+bitmap_aligned_and_not_avx2:            # @bitmap_aligned_and_not_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	rbx
+	and	rsp, -8
+	test	rcx, rcx
+	jle	.LBB2_12
+# %bb.1:
+	cmp	rcx, 127
+	ja	.LBB2_7
+# %bb.2:
+	xor	r8d, r8d
+	jmp	.LBB2_3
+.LBB2_7:
+	lea	r8, [rdx + rcx]
+	lea	rax, [rdi + rcx]
+	cmp	rax, rdx
+	seta	r11b
+	lea	rax, [rsi + rcx]
+	cmp	r8, rdi
+	seta	bl
+	cmp	rax, rdx
+	seta	r10b
+	cmp	r8, rsi
+	seta	r9b
+	xor	r8d, r8d
+	test	r11b, bl
+	jne	.LBB2_3
+# %bb.8:
+	and	r10b, r9b
+	jne	.LBB2_3
+# %bb.9:
+	mov	r8, rcx
+	and	r8, -128
+	xor	eax, eax
+	.p2align	4, 0x90
+.LBB2_10:                               # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rsi + rax]
+	vmovups	ymm1, ymmword ptr [rsi + rax + 32]
+	vmovups	ymm2, ymmword ptr [rsi + rax + 64]
+	vmovups	ymm3, ymmword ptr [rsi + rax + 96]
+	vandnps	ymm0, ymm0, ymmword ptr [rdi + rax]
+	vandnps	ymm1, ymm1, ymmword ptr [rdi + rax + 32]
+	vandnps	ymm2, ymm2, ymmword ptr [rdi + rax + 64]
+	vandnps	ymm3, ymm3, ymmword ptr [rdi + rax + 96]
+	vmovups	ymmword ptr [rdx + rax], ymm0
+	vmovups	ymmword ptr [rdx + rax + 32], ymm1
+	vmovups	ymmword ptr [rdx + rax + 64], ymm2
+	vmovups	ymmword ptr [rdx + rax + 96], ymm3
+	sub	rax, -128
+	cmp	r8, rax
+	jne	.LBB2_10
+# %bb.11:
+	cmp	r8, rcx
+	je	.LBB2_12
+.LBB2_3:
+	mov	r9, r8
+	not	r9
+	test	cl, 1
+	je	.LBB2_5
+# %bb.4:
+	mov	al, byte ptr [rsi + r8]
+	not	al
+	and	al, byte ptr [rdi + r8]
+	mov	byte ptr [rdx + r8], al
+	or	r8, 1
+.LBB2_5:
+	add	r9, rcx
+	je	.LBB2_12
+	.p2align	4, 0x90
+.LBB2_6:                                # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rsi + r8]
+	not	al
+	and	al, byte ptr [rdi + r8]
+	mov	byte ptr [rdx + r8], al
+	movzx	eax, byte ptr [rsi + r8 + 1]
+	not	al
+	and	al, byte ptr [rdi + r8 + 1]
+	mov	byte ptr [rdx + r8 + 1], al
+	add	r8, 2
+	cmp	rcx, r8
+	jne	.LBB2_6
+.LBB2_12:
+	lea	rsp, [rbp - 8]
+	pop	rbx
+	pop	rbp
+	vzeroupper
+	ret
+.Lfunc_end2:
+	.size	bitmap_aligned_and_not_avx2, .Lfunc_end2-bitmap_aligned_and_not_avx2
+                                        # -- End function
+	.globl	bitmap_aligned_xor_avx2         # -- Begin function bitmap_aligned_xor_avx2
+	.p2align	4, 0x90
+	.type	bitmap_aligned_xor_avx2,@function
+bitmap_aligned_xor_avx2:                # @bitmap_aligned_xor_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	rbx
+	and	rsp, -8
+	test	rcx, rcx
+	jle	.LBB3_12
+# %bb.1:
+	cmp	rcx, 127
+	ja	.LBB3_7
+# %bb.2:
+	xor	r10d, r10d
+	jmp	.LBB3_3
+.LBB3_7:
+	lea	r9, [rdx + rcx]
+	lea	rax, [rdi + rcx]
+	cmp	rax, rdx
+	seta	r11b
+	lea	rax, [rsi + rcx]
+	cmp	r9, rdi
+	seta	bl
+	cmp	rax, rdx
+	seta	r8b
+	cmp	r9, rsi
+	seta	r9b
+	xor	r10d, r10d
+	test	r11b, bl
+	jne	.LBB3_3
+# %bb.8:
+	and	r8b, r9b
+	jne	.LBB3_3
+# %bb.9:
+	mov	r10, rcx
+	and	r10, -128
+	xor	r8d, r8d
+	.p2align	4, 0x90
+.LBB3_10:                               # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rsi + r8]
+	vmovups	ymm1, ymmword ptr [rsi + r8 + 32]
+	vmovups	ymm2, ymmword ptr [rsi + r8 + 64]
+	vmovups	ymm3, ymmword ptr [rsi + r8 + 96]
+	vxorps	ymm0, ymm0, ymmword ptr [rdi + r8]
+	vxorps	ymm1, ymm1, ymmword ptr [rdi + r8 + 32]
+	vxorps	ymm2, ymm2, ymmword ptr [rdi + r8 + 64]
+	vxorps	ymm3, ymm3, ymmword ptr [rdi + r8 + 96]
+	vmovups	ymmword ptr [rdx + r8], ymm0
+	vmovups	ymmword ptr [rdx + r8 + 32], ymm1
+	vmovups	ymmword ptr [rdx + r8 + 64], ymm2
+	vmovups	ymmword ptr [rdx + r8 + 96], ymm3
+	sub	r8, -128
+	cmp	r10, r8
+	jne	.LBB3_10
+# %bb.11:
+	cmp	r10, rcx
+	je	.LBB3_12
+.LBB3_3:
+	mov	r8, r10
+	not	r8
+	add	r8, rcx
+	mov	r9, rcx
+	and	r9, 3
+	je	.LBB3_5
+	.p2align	4, 0x90
+.LBB3_4:                                # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rsi + r10]
+	xor	al, byte ptr [rdi + r10]
+	mov	byte ptr [rdx + r10], al
+	add	r10, 1
+	add	r9, -1
+	jne	.LBB3_4
+.LBB3_5:
+	cmp	r8, 3
+	jb	.LBB3_12
+	.p2align	4, 0x90
+.LBB3_6:                                # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rsi + r10]
+	xor	al, byte ptr [rdi + r10]
+	mov	byte ptr [rdx + r10], al
+	movzx	eax, byte ptr [rsi + r10 + 1]
+	xor	al, byte ptr [rdi + r10 + 1]
+	mov	byte ptr [rdx + r10 + 1], al
+	movzx	eax, byte ptr [rsi + r10 + 2]
+	xor	al, byte ptr [rdi + r10 + 2]
+	mov	byte ptr [rdx + r10 + 2], al
+	movzx	eax, byte ptr [rsi + r10 + 3]
+	xor	al, byte ptr [rdi + r10 + 3]
+	mov	byte ptr [rdx + r10 + 3], al
+	add	r10, 4
+	cmp	rcx, r10
+	jne	.LBB3_6
+.LBB3_12:
+	lea	rsp, [rbp - 8]
+	pop	rbx
+	pop	rbp
+	vzeroupper
+	ret
+.Lfunc_end3:
+	.size	bitmap_aligned_xor_avx2, .Lfunc_end3-bitmap_aligned_xor_avx2
+                                        # -- End function
 	.ident	"Ubuntu clang version 11.1.0-6"
 	.section	".note.GNU-stack","",@progbits
 	.addrsig
diff --git a/go/arrow/bitutil/_lib/bitmap_ops_sse4_amd64.s b/go/arrow/bitutil/_lib/bitmap_ops_sse4_amd64.s
index 9d028155b72..840c1a623bb 100644
--- a/go/arrow/bitutil/_lib/bitmap_ops_sse4_amd64.s
+++ b/go/arrow/bitutil/_lib/bitmap_ops_sse4_amd64.s
@@ -267,6 +267,264 @@ bitmap_aligned_or_sse4:                 # @bitmap_aligned_or_sse4
 .Lfunc_end1:
 	.size	bitmap_aligned_or_sse4, .Lfunc_end1-bitmap_aligned_or_sse4
                                         # -- End function
+	.globl	bitmap_aligned_and_not_sse4     # -- Begin function bitmap_aligned_and_not_sse4
+	.p2align	4, 0x90
+	.type	bitmap_aligned_and_not_sse4,@function
+bitmap_aligned_and_not_sse4:            # @bitmap_aligned_and_not_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	rbx
+	and	rsp, -8
+	test	rcx, rcx
+	jle	.LBB2_16
+# %bb.1:
+	cmp	rcx, 31
+	ja	.LBB2_7
+# %bb.2:
+	xor	r11d, r11d
+.LBB2_3:
+	mov	r8, r11
+	not	r8
+	test	cl, 1
+	je	.LBB2_5
+# %bb.4:
+	mov	al, byte ptr [rsi + r11]
+	not	al
+	and	al, byte ptr [rdi + r11]
+	mov	byte ptr [rdx + r11], al
+	or	r11, 1
+.LBB2_5:
+	add	r8, rcx
+	je	.LBB2_16
+	.p2align	4, 0x90
+.LBB2_6:                                # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rsi + r11]
+	not	al
+	and	al, byte ptr [rdi + r11]
+	mov	byte ptr [rdx + r11], al
+	movzx	eax, byte ptr [rsi + r11 + 1]
+	not	al
+	and	al, byte ptr [rdi + r11 + 1]
+	mov	byte ptr [rdx + r11 + 1], al
+	add	r11, 2
+	cmp	rcx, r11
+	jne	.LBB2_6
+	jmp	.LBB2_16
+.LBB2_7:
+	lea	r9, [rdx + rcx]
+	lea	rax, [rdi + rcx]
+	cmp	rax, rdx
+	seta	r10b
+	lea	rax, [rsi + rcx]
+	cmp	r9, rdi
+	seta	bl
+	cmp	rax, rdx
+	seta	r8b
+	cmp	r9, rsi
+	seta	r9b
+	xor	r11d, r11d
+	test	r10b, bl
+	jne	.LBB2_3
+# %bb.8:
+	and	r8b, r9b
+	jne	.LBB2_3
+# %bb.9:
+	mov	r11, rcx
+	and	r11, -32
+	lea	rax, [r11 - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB2_10
+# %bb.11:
+	mov	r10, r9
+	and	r10, -2
+	neg	r10
+	xor	r8d, r8d
+	.p2align	4, 0x90
+.LBB2_12:                               # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdi + r8]
+	movups	xmm1, xmmword ptr [rdi + r8 + 16]
+	movups	xmm2, xmmword ptr [rsi + r8]
+	andnps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rsi + r8 + 16]
+	andnps	xmm0, xmm1
+	movups	xmmword ptr [rdx + r8], xmm2
+	movups	xmmword ptr [rdx + r8 + 16], xmm0
+	movups	xmm0, xmmword ptr [rdi + r8 + 32]
+	movups	xmm1, xmmword ptr [rdi + r8 + 48]
+	movups	xmm2, xmmword ptr [rsi + r8 + 32]
+	andnps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rsi + r8 + 48]
+	andnps	xmm0, xmm1
+	movups	xmmword ptr [rdx + r8 + 32], xmm2
+	movups	xmmword ptr [rdx + r8 + 48], xmm0
+	add	r8, 64
+	add	r10, 2
+	jne	.LBB2_12
+# %bb.13:
+	test	r9b, 1
+	je	.LBB2_15
+.LBB2_14:
+	movups	xmm0, xmmword ptr [rdi + r8]
+	movups	xmm1, xmmword ptr [rdi + r8 + 16]
+	movups	xmm2, xmmword ptr [rsi + r8]
+	andnps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rsi + r8 + 16]
+	andnps	xmm0, xmm1
+	movups	xmmword ptr [rdx + r8], xmm2
+	movups	xmmword ptr [rdx + r8 + 16], xmm0
+.LBB2_15:
+	cmp	r11, rcx
+	jne	.LBB2_3
+.LBB2_16:
+	lea	rsp, [rbp - 8]
+	pop	rbx
+	pop	rbp
+	ret
+.LBB2_10:
+	xor	r8d, r8d
+	test	r9b, 1
+	jne	.LBB2_14
+	jmp	.LBB2_15
+.Lfunc_end2:
+	.size	bitmap_aligned_and_not_sse4, .Lfunc_end2-bitmap_aligned_and_not_sse4
+                                        # -- End function
+	.globl	bitmap_aligned_xor_sse4         # -- Begin function bitmap_aligned_xor_sse4
+	.p2align	4, 0x90
+	.type	bitmap_aligned_xor_sse4,@function
+bitmap_aligned_xor_sse4:                # @bitmap_aligned_xor_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	rbx
+	and	rsp, -8
+	test	rcx, rcx
+	jle	.LBB3_16
+# %bb.1:
+	cmp	rcx, 31
+	ja	.LBB3_7
+# %bb.2:
+	xor	r11d, r11d
+.LBB3_3:
+	mov	r8, r11
+	not	r8
+	add	r8, rcx
+	mov	r9, rcx
+	and	r9, 3
+	je	.LBB3_5
+	.p2align	4, 0x90
+.LBB3_4:                                # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rsi + r11]
+	xor	al, byte ptr [rdi + r11]
+	mov	byte ptr [rdx + r11], al
+	add	r11, 1
+	add	r9, -1
+	jne	.LBB3_4
+.LBB3_5:
+	cmp	r8, 3
+	jb	.LBB3_16
+	.p2align	4, 0x90
+.LBB3_6:                                # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rsi + r11]
+	xor	al, byte ptr [rdi + r11]
+	mov	byte ptr [rdx + r11], al
+	movzx	eax, byte ptr [rsi + r11 + 1]
+	xor	al, byte ptr [rdi + r11 + 1]
+	mov	byte ptr [rdx + r11 + 1], al
+	movzx	eax, byte ptr [rsi + r11 + 2]
+	xor	al, byte ptr [rdi + r11 + 2]
+	mov	byte ptr [rdx + r11 + 2], al
+	movzx	eax, byte ptr [rsi + r11 + 3]
+	xor	al, byte ptr [rdi + r11 + 3]
+	mov	byte ptr [rdx + r11 + 3], al
+	add	r11, 4
+	cmp	rcx, r11
+	jne	.LBB3_6
+	jmp	.LBB3_16
+.LBB3_7:
+	lea	r9, [rdx + rcx]
+	lea	rax, [rdi + rcx]
+	cmp	rax, rdx
+	seta	r10b
+	lea	rax, [rsi + rcx]
+	cmp	r9, rdi
+	seta	bl
+	cmp	rax, rdx
+	seta	r8b
+	cmp	r9, rsi
+	seta	r9b
+	xor	r11d, r11d
+	test	r10b, bl
+	jne	.LBB3_3
+# %bb.8:
+	and	r8b, r9b
+	jne	.LBB3_3
+# %bb.9:
+	mov	r11, rcx
+	and	r11, -32
+	lea	rax, [r11 - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB3_10
+# %bb.11:
+	mov	r10, r9
+	and	r10, -2
+	neg	r10
+	xor	r8d, r8d
+	.p2align	4, 0x90
+.LBB3_12:                               # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdi + r8]
+	movups	xmm1, xmmword ptr [rdi + r8 + 16]
+	movups	xmm2, xmmword ptr [rsi + r8]
+	xorps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rsi + r8 + 16]
+	xorps	xmm0, xmm1
+	movups	xmmword ptr [rdx + r8], xmm2
+	movups	xmmword ptr [rdx + r8 + 16], xmm0
+	movups	xmm0, xmmword ptr [rdi + r8 + 32]
+	movups	xmm1, xmmword ptr [rdi + r8 + 48]
+	movups	xmm2, xmmword ptr [rsi + r8 + 32]
+	xorps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rsi + r8 + 48]
+	xorps	xmm0, xmm1
+	movups	xmmword ptr [rdx + r8 + 32], xmm2
+	movups	xmmword ptr [rdx + r8 + 48], xmm0
+	add	r8, 64
+	add	r10, 2
+	jne	.LBB3_12
+# %bb.13:
+	test	r9b, 1
+	je	.LBB3_15
+.LBB3_14:
+	movups	xmm0, xmmword ptr [rdi + r8]
+	movups	xmm1, xmmword ptr [rdi + r8 + 16]
+	movups	xmm2, xmmword ptr [rsi + r8]
+	xorps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rsi + r8 + 16]
+	xorps	xmm0, xmm1
+	movups	xmmword ptr [rdx + r8], xmm2
+	movups	xmmword ptr [rdx + r8 + 16], xmm0
+.LBB3_15:
+	cmp	r11, rcx
+	jne	.LBB3_3
+.LBB3_16:
+	lea	rsp, [rbp - 8]
+	pop	rbx
+	pop	rbp
+	ret
+.LBB3_10:
+	xor	r8d, r8d
+	test	r9b, 1
+	jne	.LBB3_14
+	jmp	.LBB3_15
+.Lfunc_end3:
+	.size	bitmap_aligned_xor_sse4, .Lfunc_end3-bitmap_aligned_xor_sse4
+                                        # -- End function
 	.ident	"Ubuntu clang version 11.1.0-6"
 	.section	".note.GNU-stack","",@progbits
 	.addrsig
diff --git a/go/arrow/bitutil/bitmap_ops.go b/go/arrow/bitutil/bitmap_ops.go
index 62322b04b9d..7db750a6dd9 100644
--- a/go/arrow/bitutil/bitmap_ops.go
+++ b/go/arrow/bitutil/bitmap_ops.go
@@ -39,6 +39,29 @@ func alignedBitAndGo(left, right, out []byte) {
 	}
 }
 
+func alignedBitAndNotGo(left, right, out []byte) {
+	var (
+		nbytes = len(out)
+		i      = 0
+	)
+	if nbytes > uint64SizeBytes {
+		// case where we have enough bytes to operate on words
+		leftWords := bytesToUint64(left[i:])
+		rightWords := bytesToUint64(right[i:])
+		outWords := bytesToUint64(out[i:])
+
+		for w := range outWords {
+			outWords[w] = leftWords[w] &^ rightWords[w]
+		}
+
+		i += len(outWords) * uint64SizeBytes
+	}
+	// grab any remaining bytes that were fewer than a word
+	for ; i < nbytes; i++ {
+		out[i] = left[i] &^ right[i]
+	}
+}
+
 func alignedBitOrGo(left, right, out []byte) {
 	var (
 		nbytes = len(out)
@@ -61,3 +84,26 @@ func alignedBitOrGo(left, right, out []byte) {
 		out[i] = left[i] | right[i]
 	}
 }
+
+func alignedBitXorGo(left, right, out []byte) {
+	var (
+		nbytes = len(out)
+		i      = 0
+	)
+	if nbytes > uint64SizeBytes {
+		// case where we have enough bytes to operate on words
+		leftWords := bytesToUint64(left[i:])
+		rightWords := bytesToUint64(right[i:])
+		outWords := bytesToUint64(out[i:])
+
+		for w := range outWords {
+			outWords[w] = leftWords[w] ^ rightWords[w]
+		}
+
+		i += len(outWords) * uint64SizeBytes
+	}
+	// grab any remaining bytes that were fewer than a word
+	for ; i < nbytes; i++ {
+		out[i] = left[i] ^ right[i]
+	}
+}
diff --git a/go/arrow/bitutil/bitmap_ops_amd64.go b/go/arrow/bitutil/bitmap_ops_amd64.go
index 9aa5a6dd56b..ad0fd674ab9 100644
--- a/go/arrow/bitutil/bitmap_ops_amd64.go
+++ b/go/arrow/bitutil/bitmap_ops_amd64.go
@@ -25,11 +25,17 @@ func init() {
 	if cpu.X86.HasAVX2 {
 		bitAndOp.opAligned = bitmapAlignedAndAVX2
 		bitOrOp.opAligned = bitmapAlignedOrAVX2
+		bitAndNotOp.opAligned = bitmapAlignedAndNotAVX2
+		bitXorOp.opAligned = bitmapAlignedXorAVX2
 	} else if cpu.X86.HasSSE42 {
 		bitAndOp.opAligned = bitmapAlignedAndSSE4
 		bitOrOp.opAligned = bitmapAlignedOrSSE4
+		bitAndNotOp.opAligned = bitmapAlignedAndNotSSE4
+		bitXorOp.opAligned = bitmapAlignedXorSSE4
 	} else {
 		bitAndOp.opAligned = alignedBitAndGo
 		bitOrOp.opAligned = alignedBitOrGo
+		bitAndNotOp.opAligned = alignedBitAndNotGo
+		bitXorOp.opAligned = alignedBitXorGo
 	}
 }
diff --git a/go/arrow/bitutil/bitmap_ops_arm64.go b/go/arrow/bitutil/bitmap_ops_arm64.go
index 86c47639a9e..28d95d84ade 100644
--- a/go/arrow/bitutil/bitmap_ops_arm64.go
+++ b/go/arrow/bitutil/bitmap_ops_arm64.go
@@ -22,4 +22,6 @@ package bitutil
 func init() {
 	bitAndOp.opAligned = alignedBitAndGo
 	bitOrOp.opAligned = alignedBitOrGo
+	bitAndNotOp.opAligned = alignedBitAndNotGo
+	bitXorOp.opAligned = alignedBitXorGo
 }
diff --git a/go/arrow/bitutil/bitmap_ops_avx2_amd64.go b/go/arrow/bitutil/bitmap_ops_avx2_amd64.go
index 731b9807b79..1c01bd0f380 100644
--- a/go/arrow/bitutil/bitmap_ops_avx2_amd64.go
+++ b/go/arrow/bitutil/bitmap_ops_avx2_amd64.go
@@ -36,3 +36,17 @@ func _bitmap_aligned_or_avx2(left, right, out unsafe.Pointer, length int64)
 func bitmapAlignedOrAVX2(left, right, out []byte) {
 	_bitmap_aligned_or_avx2(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
 }
+
+//go:noescape
+func _bitmap_aligned_and_not_avx2(left, right, out unsafe.Pointer, length int64)
+
+func bitmapAlignedAndNotAVX2(left, right, out []byte) {
+	_bitmap_aligned_and_not_avx2(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
+}
+
+//go:noescape
+func _bitmap_aligned_xor_avx2(left, right, out unsafe.Pointer, length int64)
+
+func bitmapAlignedXorAVX2(left, right, out []byte) {
+	_bitmap_aligned_xor_avx2(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
+}
diff --git a/go/arrow/bitutil/bitmap_ops_avx2_amd64.s b/go/arrow/bitutil/bitmap_ops_avx2_amd64.s
index 2e2ade89617..00172e86592 100644
--- a/go/arrow/bitutil/bitmap_ops_avx2_amd64.s
+++ b/go/arrow/bitutil/bitmap_ops_avx2_amd64.s
@@ -190,3 +190,184 @@ LBB1_6:
 LBB1_12:
 	VZEROUPPER
 	RET
+
+TEXT ·_bitmap_aligned_and_not_avx2(SB), $0-32
+
+	MOVQ left+0(FP), DI
+	MOVQ right+8(FP), SI
+	MOVQ out+16(FP), DX
+	MOVQ length+24(FP), CX
+
+	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
+	JLE  LBB2_12
+	LONG $0x7ff98348         // cmp    rcx, 127
+	JA   LBB2_7
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	JMP  LBB2_3
+
+LBB2_7:
+	LONG $0x0a048d4c         // lea    r8, [rdx + rcx]
+	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	LONG $0xd3970f41         // seta    r11b
+	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
+	WORD $0x3949; BYTE $0xf8 // cmp    r8, rdi
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
+	LONG $0xd1970f41         // seta    r9b
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	WORD $0x8441; BYTE $0xdb // test    r11b, bl
+	JNE  LBB2_3
+	WORD $0x2045; BYTE $0xca // and    r10b, r9b
+	JNE  LBB2_3
+	WORD $0x8949; BYTE $0xc8 // mov    r8, rcx
+	LONG $0x80e08349         // and    r8, -128
+	WORD $0xc031             // xor    eax, eax
+
+LBB2_10:
+	LONG $0x0410fcc5; BYTE $0x06   // vmovups    ymm0, yword [rsi + rax]
+	LONG $0x4c10fcc5; WORD $0x2006 // vmovups    ymm1, yword [rsi + rax + 32]
+	LONG $0x5410fcc5; WORD $0x4006 // vmovups    ymm2, yword [rsi + rax + 64]
+	LONG $0x5c10fcc5; WORD $0x6006 // vmovups    ymm3, yword [rsi + rax + 96]
+	LONG $0x0455fcc5; BYTE $0x07   // vandnps    ymm0, ymm0, yword [rdi + rax]
+	LONG $0x4c55f4c5; WORD $0x2007 // vandnps    ymm1, ymm1, yword [rdi + rax + 32]
+	LONG $0x5455ecc5; WORD $0x4007 // vandnps    ymm2, ymm2, yword [rdi + rax + 64]
+	LONG $0x5c55e4c5; WORD $0x6007 // vandnps    ymm3, ymm3, yword [rdi + rax + 96]
+	LONG $0x0411fcc5; BYTE $0x02   // vmovups    yword [rdx + rax], ymm0
+	LONG $0x4c11fcc5; WORD $0x2002 // vmovups    yword [rdx + rax + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x4002 // vmovups    yword [rdx + rax + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x6002 // vmovups    yword [rdx + rax + 96], ymm3
+	LONG $0x80e88348               // sub    rax, -128
+	WORD $0x3949; BYTE $0xc0       // cmp    r8, rax
+	JNE  LBB2_10
+	WORD $0x3949; BYTE $0xc8       // cmp    r8, rcx
+	JE   LBB2_12
+
+LBB2_3:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0xc1f6; BYTE $0x01 // test    cl, 1
+	JE   LBB2_5
+	LONG $0x06048a42         // mov    al, byte [rsi + r8]
+	WORD $0xd0f6             // not    al
+	LONG $0x07042242         // and    al, byte [rdi + r8]
+	LONG $0x02048842         // mov    byte [rdx + r8], al
+	LONG $0x01c88349         // or    r8, 1
+
+LBB2_5:
+	WORD $0x0149; BYTE $0xc9 // add    r9, rcx
+	JE   LBB2_12
+
+LBB2_6:
+	LONG $0x04b60f42; BYTE $0x06   // movzx    eax, byte [rsi + r8]
+	WORD $0xd0f6                   // not    al
+	LONG $0x07042242               // and    al, byte [rdi + r8]
+	LONG $0x02048842               // mov    byte [rdx + r8], al
+	LONG $0x44b60f42; WORD $0x0106 // movzx    eax, byte [rsi + r8 + 1]
+	WORD $0xd0f6                   // not    al
+	LONG $0x07442242; BYTE $0x01   // and    al, byte [rdi + r8 + 1]
+	LONG $0x02448842; BYTE $0x01   // mov    byte [rdx + r8 + 1], al
+	LONG $0x02c08349               // add    r8, 2
+	WORD $0x394c; BYTE $0xc1       // cmp    rcx, r8
+	JNE  LBB2_6
+
+LBB2_12:
+	VZEROUPPER
+	RET
+
+TEXT ·_bitmap_aligned_xor_avx2(SB), $0-32
+
+	MOVQ left+0(FP), DI
+	MOVQ right+8(FP), SI
+	MOVQ out+16(FP), DX
+	MOVQ length+24(FP), CX
+
+	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
+	JLE  LBB3_12
+	LONG $0x7ff98348         // cmp    rcx, 127
+	JA   LBB3_7
+	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
+	JMP  LBB3_3
+
+LBB3_7:
+	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
+	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	LONG $0xd3970f41         // seta    r11b
+	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
+	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	LONG $0xd0970f41         // seta    r8b
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	LONG $0xd1970f41         // seta    r9b
+	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
+	WORD $0x8441; BYTE $0xdb // test    r11b, bl
+	JNE  LBB3_3
+	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
+	JNE  LBB3_3
+	WORD $0x8949; BYTE $0xca // mov    r10, rcx
+	LONG $0x80e28349         // and    r10, -128
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+
+LBB3_10:
+	LONG $0x107ca1c4; WORD $0x0604             // vmovups    ymm0, yword [rsi + r8]
+	LONG $0x107ca1c4; WORD $0x064c; BYTE $0x20 // vmovups    ymm1, yword [rsi + r8 + 32]
+	LONG $0x107ca1c4; WORD $0x0654; BYTE $0x40 // vmovups    ymm2, yword [rsi + r8 + 64]
+	LONG $0x107ca1c4; WORD $0x065c; BYTE $0x60 // vmovups    ymm3, yword [rsi + r8 + 96]
+	LONG $0x577ca1c4; WORD $0x0704             // vxorps    ymm0, ymm0, yword [rdi + r8]
+	LONG $0x5774a1c4; WORD $0x074c; BYTE $0x20 // vxorps    ymm1, ymm1, yword [rdi + r8 + 32]
+	LONG $0x576ca1c4; WORD $0x0754; BYTE $0x40 // vxorps    ymm2, ymm2, yword [rdi + r8 + 64]
+	LONG $0x5764a1c4; WORD $0x075c; BYTE $0x60 // vxorps    ymm3, ymm3, yword [rdi + r8 + 96]
+	LONG $0x117ca1c4; WORD $0x0204             // vmovups    yword [rdx + r8], ymm0
+	LONG $0x117ca1c4; WORD $0x024c; BYTE $0x20 // vmovups    yword [rdx + r8 + 32], ymm1
+	LONG $0x117ca1c4; WORD $0x0254; BYTE $0x40 // vmovups    yword [rdx + r8 + 64], ymm2
+	LONG $0x117ca1c4; WORD $0x025c; BYTE $0x60 // vmovups    yword [rdx + r8 + 96], ymm3
+	LONG $0x80e88349                           // sub    r8, -128
+	WORD $0x394d; BYTE $0xc2                   // cmp    r10, r8
+	JNE  LBB3_10
+	WORD $0x3949; BYTE $0xca                   // cmp    r10, rcx
+	JE   LBB3_12
+
+LBB3_3:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
+	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
+	LONG $0x03e18349         // and    r9, 3
+	JE   LBB3_5
+
+LBB3_4:
+	LONG $0x04b60f42; BYTE $0x16 // movzx    eax, byte [rsi + r10]
+	LONG $0x17043242             // xor    al, byte [rdi + r10]
+	LONG $0x12048842             // mov    byte [rdx + r10], al
+	LONG $0x01c28349             // add    r10, 1
+	LONG $0xffc18349             // add    r9, -1
+	JNE  LBB3_4
+
+LBB3_5:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_12
+
+LBB3_6:
+	LONG $0x04b60f42; BYTE $0x16   // movzx    eax, byte [rsi + r10]
+	LONG $0x17043242               // xor    al, byte [rdi + r10]
+	LONG $0x12048842               // mov    byte [rdx + r10], al
+	LONG $0x44b60f42; WORD $0x0116 // movzx    eax, byte [rsi + r10 + 1]
+	LONG $0x17443242; BYTE $0x01   // xor    al, byte [rdi + r10 + 1]
+	LONG $0x12448842; BYTE $0x01   // mov    byte [rdx + r10 + 1], al
+	LONG $0x44b60f42; WORD $0x0216 // movzx    eax, byte [rsi + r10 + 2]
+	LONG $0x17443242; BYTE $0x02   // xor    al, byte [rdi + r10 + 2]
+	LONG $0x12448842; BYTE $0x02   // mov    byte [rdx + r10 + 2], al
+	LONG $0x44b60f42; WORD $0x0316 // movzx    eax, byte [rsi + r10 + 3]
+	LONG $0x17443242; BYTE $0x03   // xor    al, byte [rdi + r10 + 3]
+	LONG $0x12448842; BYTE $0x03   // mov    byte [rdx + r10 + 3], al
+	LONG $0x04c28349               // add    r10, 4
+	WORD $0x394c; BYTE $0xd1       // cmp    rcx, r10
+	JNE  LBB3_6
+
+LBB3_12:
+	VZEROUPPER
+	RET
diff --git a/go/arrow/bitutil/bitmap_ops_noasm.go b/go/arrow/bitutil/bitmap_ops_noasm.go
index 785531c1c23..e25347791fe 100644
--- a/go/arrow/bitutil/bitmap_ops_noasm.go
+++ b/go/arrow/bitutil/bitmap_ops_noasm.go
@@ -22,4 +22,6 @@ package bitutil
 func init() {
 	bitAndOp.opAligned = alignedBitAndGo
 	bitOrOp.opAligned = alignedBitOrGo
+	bitAndNotOp.opAligned = alignedBitAndNotGo
+	bitXorOp.opAligned = alignedBitXorGo
 }
diff --git a/go/arrow/bitutil/bitmap_ops_ppc64le.go b/go/arrow/bitutil/bitmap_ops_ppc64le.go
new file mode 100644
index 00000000000..28d95d84ade
--- /dev/null
+++ b/go/arrow/bitutil/bitmap_ops_ppc64le.go
@@ -0,0 +1,27 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build !noasm
+// +build !noasm
+
+package bitutil
+
+func init() {
+	bitAndOp.opAligned = alignedBitAndGo
+	bitOrOp.opAligned = alignedBitOrGo
+	bitAndNotOp.opAligned = alignedBitAndNotGo
+	bitXorOp.opAligned = alignedBitXorGo
+}
diff --git a/go/arrow/bitutil/bitmap_ops_s390x.go b/go/arrow/bitutil/bitmap_ops_s390x.go
index 86c47639a9e..28d95d84ade 100644
--- a/go/arrow/bitutil/bitmap_ops_s390x.go
+++ b/go/arrow/bitutil/bitmap_ops_s390x.go
@@ -22,4 +22,6 @@ package bitutil
 func init() {
 	bitAndOp.opAligned = alignedBitAndGo
 	bitOrOp.opAligned = alignedBitOrGo
+	bitAndNotOp.opAligned = alignedBitAndNotGo
+	bitXorOp.opAligned = alignedBitXorGo
 }
diff --git a/go/arrow/bitutil/bitmap_ops_sse4_amd64.go b/go/arrow/bitutil/bitmap_ops_sse4_amd64.go
index 5d1fcf96829..f16bce12bbf 100644
--- a/go/arrow/bitutil/bitmap_ops_sse4_amd64.go
+++ b/go/arrow/bitutil/bitmap_ops_sse4_amd64.go
@@ -36,3 +36,17 @@ func _bitmap_aligned_or_sse4(left, right, out unsafe.Pointer, length int64)
 func bitmapAlignedOrSSE4(left, right, out []byte) {
 	_bitmap_aligned_or_sse4(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
 }
+
+//go:noescape
+func _bitmap_aligned_and_not_sse4(left, right, out unsafe.Pointer, length int64)
+
+func bitmapAlignedAndNotSSE4(left, right, out []byte) {
+	_bitmap_aligned_and_not_sse4(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
+}
+
+//go:noescape
+func _bitmap_aligned_xor_sse4(left, right, out unsafe.Pointer, length int64)
+
+func bitmapAlignedXorSSE4(left, right, out []byte) {
+	_bitmap_aligned_xor_sse4(unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), int64(len(out)))
+}
diff --git a/go/arrow/bitutil/bitmap_ops_sse4_amd64.s b/go/arrow/bitutil/bitmap_ops_sse4_amd64.s
index ad81cf63720..c15e186253a 100644
--- a/go/arrow/bitutil/bitmap_ops_sse4_amd64.s
+++ b/go/arrow/bitutil/bitmap_ops_sse4_amd64.s
@@ -254,3 +254,248 @@ LBB1_10:
 	LONG $0x01c1f641         // test    r9b, 1
 	JNE  LBB1_14
 	JMP  LBB1_15
+
+TEXT ·_bitmap_aligned_and_not_sse4(SB), $0-32
+
+	MOVQ left+0(FP), DI
+	MOVQ right+8(FP), SI
+	MOVQ out+16(FP), DX
+	MOVQ length+24(FP), CX
+
+	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
+	JLE  LBB2_16
+	LONG $0x1ff98348         // cmp    rcx, 31
+	JA   LBB2_7
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB2_3:
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0xc1f6; BYTE $0x01 // test    cl, 1
+	JE   LBB2_5
+	LONG $0x1e048a42         // mov    al, byte [rsi + r11]
+	WORD $0xd0f6             // not    al
+	LONG $0x1f042242         // and    al, byte [rdi + r11]
+	LONG $0x1a048842         // mov    byte [rdx + r11], al
+	LONG $0x01cb8349         // or    r11, 1
+
+LBB2_5:
+	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
+	JE   LBB2_16
+
+LBB2_6:
+	LONG $0x04b60f42; BYTE $0x1e   // movzx    eax, byte [rsi + r11]
+	WORD $0xd0f6                   // not    al
+	LONG $0x1f042242               // and    al, byte [rdi + r11]
+	LONG $0x1a048842               // mov    byte [rdx + r11], al
+	LONG $0x44b60f42; WORD $0x011e // movzx    eax, byte [rsi + r11 + 1]
+	WORD $0xd0f6                   // not    al
+	LONG $0x1f442242; BYTE $0x01   // and    al, byte [rdi + r11 + 1]
+	LONG $0x1a448842; BYTE $0x01   // mov    byte [rdx + r11 + 1], al
+	LONG $0x02c38349               // add    r11, 2
+	WORD $0x394c; BYTE $0xd9       // cmp    rcx, r11
+	JNE  LBB2_6
+	JMP  LBB2_16
+
+LBB2_7:
+	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
+	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	LONG $0xd2970f41         // seta    r10b
+	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
+	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	LONG $0xd0970f41         // seta    r8b
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	LONG $0xd1970f41         // seta    r9b
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x8441; BYTE $0xda // test    r10b, bl
+	JNE  LBB2_3
+	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
+	JNE  LBB2_3
+	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
+	LONG $0xe0e38349         // and    r11, -32
+	LONG $0xe0438d49         // lea    rax, [r11 - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB2_10
+	WORD $0x894d; BYTE $0xca // mov    r10, r9
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf749; BYTE $0xda // neg    r10
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+
+LBB2_12:
+	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
+	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
+	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
+	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
+	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
+	WORD $0x550f; BYTE $0xc1       // andnps    xmm0, xmm1
+	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
+	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
+	LONG $0x44100f42; WORD $0x2007 // movups    xmm0, oword [rdi + r8 + 32]
+	LONG $0x4c100f42; WORD $0x3007 // movups    xmm1, oword [rdi + r8 + 48]
+	LONG $0x54100f42; WORD $0x2006 // movups    xmm2, oword [rsi + r8 + 32]
+	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
+	LONG $0x44100f42; WORD $0x3006 // movups    xmm0, oword [rsi + r8 + 48]
+	WORD $0x550f; BYTE $0xc1       // andnps    xmm0, xmm1
+	LONG $0x54110f42; WORD $0x2002 // movups    oword [rdx + r8 + 32], xmm2
+	LONG $0x44110f42; WORD $0x3002 // movups    oword [rdx + r8 + 48], xmm0
+	LONG $0x40c08349               // add    r8, 64
+	LONG $0x02c28349               // add    r10, 2
+	JNE  LBB2_12
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB2_15
+
+LBB2_14:
+	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
+	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
+	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
+	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
+	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
+	WORD $0x550f; BYTE $0xc1       // andnps    xmm0, xmm1
+	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
+	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
+
+LBB2_15:
+	WORD $0x3949; BYTE $0xcb // cmp    r11, rcx
+	JNE  LBB2_3
+
+LBB2_16:
+	RET
+
+LBB2_10:
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	LONG $0x01c1f641         // test    r9b, 1
+	JNE  LBB2_14
+	JMP  LBB2_15
+
+TEXT ·_bitmap_aligned_xor_sse4(SB), $0-32
+
+	MOVQ left+0(FP), DI
+	MOVQ right+8(FP), SI
+	MOVQ out+16(FP), DX
+	MOVQ length+24(FP), CX
+
+	WORD $0x8548; BYTE $0xc9 // test    rcx, rcx
+	JLE  LBB3_16
+	LONG $0x1ff98348         // cmp    rcx, 31
+	JA   LBB3_7
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB3_3:
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x0149; BYTE $0xc8 // add    r8, rcx
+	WORD $0x8949; BYTE $0xc9 // mov    r9, rcx
+	LONG $0x03e18349         // and    r9, 3
+	JE   LBB3_5
+
+LBB3_4:
+	LONG $0x04b60f42; BYTE $0x1e // movzx    eax, byte [rsi + r11]
+	LONG $0x1f043242             // xor    al, byte [rdi + r11]
+	LONG $0x1a048842             // mov    byte [rdx + r11], al
+	LONG $0x01c38349             // add    r11, 1
+	LONG $0xffc18349             // add    r9, -1
+	JNE  LBB3_4
+
+LBB3_5:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_16
+
+LBB3_6:
+	LONG $0x04b60f42; BYTE $0x1e   // movzx    eax, byte [rsi + r11]
+	LONG $0x1f043242               // xor    al, byte [rdi + r11]
+	LONG $0x1a048842               // mov    byte [rdx + r11], al
+	LONG $0x44b60f42; WORD $0x011e // movzx    eax, byte [rsi + r11 + 1]
+	LONG $0x1f443242; BYTE $0x01   // xor    al, byte [rdi + r11 + 1]
+	LONG $0x1a448842; BYTE $0x01   // mov    byte [rdx + r11 + 1], al
+	LONG $0x44b60f42; WORD $0x021e // movzx    eax, byte [rsi + r11 + 2]
+	LONG $0x1f443242; BYTE $0x02   // xor    al, byte [rdi + r11 + 2]
+	LONG $0x1a448842; BYTE $0x02   // mov    byte [rdx + r11 + 2], al
+	LONG $0x44b60f42; WORD $0x031e // movzx    eax, byte [rsi + r11 + 3]
+	LONG $0x1f443242; BYTE $0x03   // xor    al, byte [rdi + r11 + 3]
+	LONG $0x1a448842; BYTE $0x03   // mov    byte [rdx + r11 + 3], al
+	LONG $0x04c38349               // add    r11, 4
+	WORD $0x394c; BYTE $0xd9       // cmp    rcx, r11
+	JNE  LBB3_6
+	JMP  LBB3_16
+
+LBB3_7:
+	LONG $0x0a0c8d4c         // lea    r9, [rdx + rcx]
+	LONG $0x0f048d48         // lea    rax, [rdi + rcx]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	LONG $0xd2970f41         // seta    r10b
+	LONG $0x0e048d48         // lea    rax, [rsi + rcx]
+	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	LONG $0xd0970f41         // seta    r8b
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	LONG $0xd1970f41         // seta    r9b
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x8441; BYTE $0xda // test    r10b, bl
+	JNE  LBB3_3
+	WORD $0x2045; BYTE $0xc8 // and    r8b, r9b
+	JNE  LBB3_3
+	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
+	LONG $0xe0e38349         // and    r11, -32
+	LONG $0xe0438d49         // lea    rax, [r11 - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_10
+	WORD $0x894d; BYTE $0xca // mov    r10, r9
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf749; BYTE $0xda // neg    r10
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+
+LBB3_12:
+	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
+	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
+	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
+	WORD $0x570f; BYTE $0xd0       // xorps    xmm2, xmm0
+	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
+	WORD $0x570f; BYTE $0xc1       // xorps    xmm0, xmm1
+	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
+	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
+	LONG $0x44100f42; WORD $0x2007 // movups    xmm0, oword [rdi + r8 + 32]
+	LONG $0x4c100f42; WORD $0x3007 // movups    xmm1, oword [rdi + r8 + 48]
+	LONG $0x54100f42; WORD $0x2006 // movups    xmm2, oword [rsi + r8 + 32]
+	WORD $0x570f; BYTE $0xd0       // xorps    xmm2, xmm0
+	LONG $0x44100f42; WORD $0x3006 // movups    xmm0, oword [rsi + r8 + 48]
+	WORD $0x570f; BYTE $0xc1       // xorps    xmm0, xmm1
+	LONG $0x54110f42; WORD $0x2002 // movups    oword [rdx + r8 + 32], xmm2
+	LONG $0x44110f42; WORD $0x3002 // movups    oword [rdx + r8 + 48], xmm0
+	LONG $0x40c08349               // add    r8, 64
+	LONG $0x02c28349               // add    r10, 2
+	JNE  LBB3_12
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB3_15
+
+LBB3_14:
+	LONG $0x04100f42; BYTE $0x07   // movups    xmm0, oword [rdi + r8]
+	LONG $0x4c100f42; WORD $0x1007 // movups    xmm1, oword [rdi + r8 + 16]
+	LONG $0x14100f42; BYTE $0x06   // movups    xmm2, oword [rsi + r8]
+	WORD $0x570f; BYTE $0xd0       // xorps    xmm2, xmm0
+	LONG $0x44100f42; WORD $0x1006 // movups    xmm0, oword [rsi + r8 + 16]
+	WORD $0x570f; BYTE $0xc1       // xorps    xmm0, xmm1
+	LONG $0x14110f42; BYTE $0x02   // movups    oword [rdx + r8], xmm2
+	LONG $0x44110f42; WORD $0x1002 // movups    oword [rdx + r8 + 16], xmm0
+
+LBB3_15:
+	WORD $0x3949; BYTE $0xcb // cmp    r11, rcx
+	JNE  LBB3_3
+
+LBB3_16:
+	RET
+
+LBB3_10:
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	LONG $0x01c1f641         // test    r9b, 1
+	JNE  LBB3_14
+	JMP  LBB3_15
diff --git a/go/arrow/bitutil/bitmaps.go b/go/arrow/bitutil/bitmaps.go
index 779d8933831..a9073bbb997 100644
--- a/go/arrow/bitutil/bitmaps.go
+++ b/go/arrow/bitutil/bitmaps.go
@@ -17,12 +17,14 @@
 package bitutil
 
 import (
+	"bytes"
+	"errors"
 	"math/bits"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/endian"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 // BitmapReader is a simple bitmap reader for a byte slice.
@@ -373,9 +375,14 @@ func (bm *BitmapWordWriter) PutNextTrailingByte(b byte, validBits int) {
 	}
 }
 
-// CopyBitmap copies the bitmap indicated by src, starting at bit offset srcOffset,
-// and copying length bits into dst, starting at bit offset dstOffset.
-func CopyBitmap(src []byte, srcOffset, length int, dst []byte, dstOffset int) {
+type transferMode int8
+
+const (
+	transferCopy transferMode = iota
+	transferInvert
+)
+
+func transferBitmap(mode transferMode, src []byte, srcOffset, length int, dst []byte, dstOffset int) {
 	if length == 0 {
 		// if there's nothing to write, end early.
 		return
@@ -392,12 +399,19 @@ func CopyBitmap(src []byte, srcOffset, length int, dst []byte, dstOffset int) {
 		nwords := rdr.Words()
 		for nwords > 0 {
 			nwords--
-			wr.PutNextWord(rdr.NextWord())
+			if mode == transferInvert {
+				wr.PutNextWord(^rdr.NextWord())
+			} else {
+				wr.PutNextWord(rdr.NextWord())
+			}
 		}
 		nbytes := rdr.TrailingBytes()
 		for nbytes > 0 {
 			nbytes--
 			bt, validBits := rdr.NextTrailingByte()
+			if mode == transferInvert {
+				bt = ^bt
+			}
 			wr.PutNextTrailingByte(bt, validBits)
 		}
 		return
@@ -416,14 +430,33 @@ func CopyBitmap(src []byte, srcOffset, length int, dst []byte, dstOffset int) {
 	// - high 5 bits: old bits from last byte of dest buffer
 	trailingBits := nbytes*8 - length
 	trailMask := byte(uint(1)<<(8-trailingBits)) - 1
-
-	copy(dst, src[:nbytes-1])
-	lastData := src[nbytes-1]
+	var lastData byte
+	if mode == transferInvert {
+		for i, b := range src[:nbytes-1] {
+			dst[i] = ^b
+		}
+		lastData = ^src[nbytes-1]
+	} else {
+		copy(dst, src[:nbytes-1])
+		lastData = src[nbytes-1]
+	}
 
 	dst[nbytes-1] &= ^trailMask
 	dst[nbytes-1] |= lastData & trailMask
 }
 
+// CopyBitmap copies the bitmap indicated by src, starting at bit offset srcOffset,
+// and copying length bits into dst, starting at bit offset dstOffset.
+func CopyBitmap(src []byte, srcOffset, length int, dst []byte, dstOffset int) {
+	transferBitmap(transferCopy, src, srcOffset, length, dst, dstOffset)
+}
+
+// InvertBitmap copies a bit range of a bitmap, inverting it as it copies
+// over into the destination.
+func InvertBitmap(src []byte, srcOffset, length int, dst []byte, dstOffset int) {
+	transferBitmap(transferInvert, src, srcOffset, length, dst, dstOffset)
+}
+
 type bitOp struct {
 	opWord    func(uint64, uint64) uint64
 	opByte    func(byte, byte) byte
@@ -439,6 +472,14 @@ var (
 		opWord: func(l, r uint64) uint64 { return l | r },
 		opByte: func(l, r byte) byte { return l | r },
 	}
+	bitAndNotOp = bitOp{
+		opWord: func(l, r uint64) uint64 { return l &^ r },
+		opByte: func(l, r byte) byte { return l &^ r },
+	}
+	bitXorOp = bitOp{
+		opWord: func(l, r uint64) uint64 { return l ^ r },
+		opByte: func(l, r byte) byte { return l ^ r },
+	}
 )
 
 func alignedBitmapOp(op bitOp, left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
@@ -449,17 +490,24 @@ func alignedBitmapOp(op bitOp, left, right []byte, lOffset, rOffset int64, out [
 	left = left[lOffset/8:]
 	right = right[rOffset/8:]
 	out = out[outOffset/8:]
+	endMask := (lOffset + length%8)
 	switch nbytes {
 	case 0:
 		return
 	case 1: // everything within a single byte
 		// (length+lOffset%8) <= 8
-		mask := PrecedingBitmask[lOffset%8] | TrailingBitmask[(lOffset+length)%8]
+		mask := PrecedingBitmask[lOffset%8]
+		if endMask != 0 {
+			mask |= TrailingBitmask[(lOffset+length)%8]
+		}
 		out[0] = (out[0] & mask) | (op.opByte(left[0], right[0]) &^ mask)
 	case 2: // don't send zero length to opAligned
 		firstByteMask := PrecedingBitmask[lOffset%8]
 		out[0] = (out[0] & firstByteMask) | (op.opByte(left[0], right[0]) &^ firstByteMask)
-		lastByteMask := TrailingBitmask[(lOffset+length)%8]
+		lastByteMask := byte(0)
+		if endMask != 0 {
+			lastByteMask = TrailingBitmask[(lOffset+length)%8]
+		}
 		out[1] = (out[1] & lastByteMask) | (op.opByte(left[1], right[1]) &^ lastByteMask)
 	default:
 		firstByteMask := PrecedingBitmask[lOffset%8]
@@ -467,7 +515,10 @@ func alignedBitmapOp(op bitOp, left, right []byte, lOffset, rOffset int64, out [
 
 		op.opAligned(left[1:nbytes-1], right[1:nbytes-1], out[1:nbytes-1])
 
-		lastByteMask := TrailingBitmask[(lOffset+length)%8]
+		lastByteMask := byte(0)
+		if endMask != 0 {
+			lastByteMask = TrailingBitmask[(lOffset+length)%8]
+		}
 		out[nbytes-1] = (out[nbytes-1] & lastByteMask) | (op.opByte(left[nbytes-1], right[nbytes-1]) &^ lastByteMask)
 	}
 }
@@ -520,3 +571,177 @@ func BitmapAndAlloc(mem memory.Allocator, left, right []byte, lOffset, rOffset i
 func BitmapOrAlloc(mem memory.Allocator, left, right []byte, lOffset, rOffset int64, length, outOffset int64) *memory.Buffer {
 	return BitmapOpAlloc(mem, bitOrOp, left, right, lOffset, rOffset, length, outOffset)
 }
+
+func BitmapAndNot(left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
+	BitmapOp(bitAndNotOp, left, right, lOffset, rOffset, out, outOffset, length)
+}
+
+func BitmapAndNotAlloc(mem memory.Allocator, left, right []byte, lOffset, rOffset int64, length, outOffset int64) *memory.Buffer {
+	return BitmapOpAlloc(mem, bitAndNotOp, left, right, lOffset, rOffset, length, outOffset)
+}
+
+func BitmapXor(left, right []byte, lOffset, rOffset int64, out []byte, outOffset int64, length int64) {
+	BitmapOp(bitXorOp, left, right, lOffset, rOffset, out, outOffset, length)
+}
+
+func BitmapXorAlloc(mem memory.Allocator, left, right []byte, lOffset, rOffset int64, length, outOffset int64) *memory.Buffer {
+	return BitmapOpAlloc(mem, bitXorOp, left, right, lOffset, rOffset, length, outOffset)
+}
+
+func BitmapEquals(left, right []byte, lOffset, rOffset int64, length int64) bool {
+	if lOffset%8 == 0 && rOffset%8 == 0 {
+		// byte aligned, fast path, can use bytes.Equal (memcmp)
+		byteLen := length / 8
+		lStart := lOffset / 8
+		rStart := rOffset / 8
+		if !bytes.Equal(left[lStart:lStart+byteLen], right[rStart:rStart+byteLen]) {
+			return false
+		}
+
+		// check trailing bits
+		for i := (length / 8) * 8; i < length; i++ {
+			if BitIsSet(left, int(lOffset+i)) != BitIsSet(right, int(rOffset+i)) {
+				return false
+			}
+		}
+		return true
+	}
+
+	lrdr := NewBitmapWordReader(left, int(lOffset), int(length))
+	rrdr := NewBitmapWordReader(right, int(rOffset), int(length))
+
+	nwords := lrdr.Words()
+	for nwords > 0 {
+		nwords--
+		if lrdr.NextWord() != rrdr.NextWord() {
+			return false
+		}
+	}
+
+	nbytes := lrdr.TrailingBytes()
+	for nbytes > 0 {
+		nbytes--
+		lbt, _ := lrdr.NextTrailingByte()
+		rbt, _ := rrdr.NextTrailingByte()
+		if lbt != rbt {
+			return false
+		}
+	}
+	return true
+}
+
+// OptionalBitIndexer is a convenience wrapper for getting bits from
+// a bitmap which may or may not be nil.
+type OptionalBitIndexer struct {
+	Bitmap []byte
+	Offset int
+}
+
+func (b *OptionalBitIndexer) GetBit(i int) bool {
+	return b.Bitmap == nil || BitIsSet(b.Bitmap, b.Offset+i)
+}
+
+type Bitmap struct {
+	Data        []byte
+	Offset, Len int64
+}
+
+func bitLength(bitmaps []Bitmap) (int64, error) {
+	for _, b := range bitmaps[1:] {
+		if b.Len != bitmaps[0].Len {
+			return -1, errors.New("bitmaps must be same length")
+		}
+	}
+	return bitmaps[0].Len, nil
+}
+
+func runVisitWordsAndWriteLoop(bitLen int64, rdrs []*BitmapWordReader, wrs []*BitmapWordWriter, visitor func(in, out []uint64)) {
+	const bitWidth int64 = int64(uint64SizeBits)
+
+	visited := make([]uint64, len(rdrs))
+	output := make([]uint64, len(wrs))
+
+	// every reader will have same number of words, since they are same
+	// length'ed. This will be inefficient in some cases. When there's
+	// offsets beyond the Word boundary, every word would have to be
+	// created from 2 adjoining words
+	nwords := int64(rdrs[0].Words())
+	bitLen -= nwords * bitWidth
+	for nwords > 0 {
+		nwords--
+		for i := range visited {
+			visited[i] = rdrs[i].NextWord()
+		}
+		visitor(visited, output)
+		for i := range output {
+			wrs[i].PutNextWord(output[i])
+		}
+	}
+
+	// every reader will have the same number of trailing bytes, because
+	// we already confirmed they have the same length. Because
+	// offsets beyond the Word boundary can cause adjoining words, the
+	// tailing portion could be more than one word remaining full/partial
+	// words to write.
+	if bitLen == 0 {
+		return
+	}
+
+	// convert the word visitor to a bytevisitor
+	byteVisitor := func(in, out []byte) {
+		for i, w := range in {
+			visited[i] = uint64(w)
+		}
+		visitor(visited, output)
+		for i, w := range output {
+			out[i] = byte(w)
+		}
+	}
+
+	visitedBytes := make([]byte, len(rdrs))
+	outputBytes := make([]byte, len(wrs))
+	nbytes := rdrs[0].trailingBytes
+	for nbytes > 0 {
+		nbytes--
+		memory.Set(visitedBytes, 0)
+		memory.Set(outputBytes, 0)
+
+		var validBits int
+		for i := range rdrs {
+			visitedBytes[i], validBits = rdrs[i].NextTrailingByte()
+		}
+		byteVisitor(visitedBytes, outputBytes)
+		for i, w := range outputBytes {
+			wrs[i].PutNextTrailingByte(w, validBits)
+		}
+	}
+}
+
+// VisitWordsAndWrite visits words of bits from each input bitmap and
+// collects outputs to a slice of output Bitmaps.
+//
+// All bitmaps must have identical lengths. The first bit in a visited
+// bitmap may be offset within the first visited word, but words will
+// otherwise contain densely packed bits loaded from the bitmap. That
+// offset within the first word is returned.
+//
+// NOTE: this function is efficient on 3+ sufficiently large bitmaps.
+// It also has a large prolog/epilog overhead and should be used
+// carefully in other cases. For 2 or fewer bitmaps, and/or smaller
+// bitmaps, try BitmapReader and or other utilities.
+func VisitWordsAndWrite(args []Bitmap, out []Bitmap, visitor func(in, out []uint64)) error {
+	bitLen, err := bitLength(args)
+	if err != nil {
+		return err
+	}
+
+	rdrs, wrs := make([]*BitmapWordReader, len(args)), make([]*BitmapWordWriter, len(out))
+	for i, in := range args {
+		rdrs[i] = NewBitmapWordReader(in.Data, int(in.Offset), int(in.Len))
+	}
+	for i, o := range out {
+		wrs[i] = NewBitmapWordWriter(o.Data, int(o.Offset), int(o.Len))
+	}
+	runVisitWordsAndWriteLoop(bitLen, rdrs, wrs, visitor)
+	return nil
+}
diff --git a/go/arrow/bitutil/bitmaps_test.go b/go/arrow/bitutil/bitmaps_test.go
index 50defcec086..80e55178bf2 100644
--- a/go/arrow/bitutil/bitmaps_test.go
+++ b/go/arrow/bitutil/bitmaps_test.go
@@ -22,8 +22,8 @@ import (
 	"strconv"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/suite"
 )
@@ -521,6 +521,22 @@ func TestBitmapOps(t *testing.T) {
 	suite.Run(t, new(BitmapOpSuite))
 }
 
+func TestSmallBitmapOp(t *testing.T) {
+	// 0b01111111 0b11001111
+	left := [2]byte{127, 207}
+	// 0b11111110 0b01111111
+	right := [2]byte{254, 127}
+	// 0b01111110 0b01001111
+	results := [2]byte{126, 79}
+
+	var out [2]byte
+	bitutil.BitmapAnd(left[:], right[:], 0, 0, out[:], 0, 8)
+	assert.Equal(t, results[:1], out[:1])
+
+	bitutil.BitmapAnd(left[:], right[:], 0, 0, out[:], 0, 16)
+	assert.Equal(t, results, out)
+}
+
 func createRandomBuffer(mem memory.Allocator, src *rand.Rand, nbytes int) []byte {
 	buf := mem.Allocate(nbytes)
 	src.Read(buf)
diff --git a/go/arrow/bitutil/bitutil.go b/go/arrow/bitutil/bitutil.go
index 36bb02fc705..0a29f8f780f 100644
--- a/go/arrow/bitutil/bitutil.go
+++ b/go/arrow/bitutil/bitutil.go
@@ -22,7 +22,7 @@ import (
 	"reflect"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 var (
diff --git a/go/arrow/bitutil/bitutil_test.go b/go/arrow/bitutil/bitutil_test.go
index c32b01cddd6..fcf668bc6ff 100644
--- a/go/arrow/bitutil/bitutil_test.go
+++ b/go/arrow/bitutil/bitutil_test.go
@@ -21,8 +21,8 @@ import (
 	"math/rand"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/tools"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/tools"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/cdata/cdata.go b/go/arrow/cdata/cdata.go
index 9e1f0b2076d..bbddc9c4d20 100644
--- a/go/arrow/cdata/cdata.go
+++ b/go/arrow/cdata/cdata.go
@@ -27,12 +27,17 @@ package cdata
 // int stream_get_schema(struct ArrowArrayStream* st, struct ArrowSchema* out) { return st->get_schema(st, out); }
 // int stream_get_next(struct ArrowArrayStream* st, struct ArrowArray* out) { return st->get_next(st, out); }
 // const char* stream_get_last_error(struct ArrowArrayStream* st) { return st->get_last_error(st); }
-// struct ArrowArray* get_arr() { return (struct ArrowArray*)(malloc(sizeof(struct ArrowArray))); }
+// struct ArrowArray* get_arr() {
+//	struct ArrowArray* out = (struct ArrowArray*)(malloc(sizeof(struct ArrowArray)));
+//	memset(out, 0, sizeof(struct ArrowArray));
+//	return out;
+// }
 // struct ArrowArrayStream* get_stream() { return (struct ArrowArrayStream*)malloc(sizeof(struct ArrowArrayStream)); }
 //
 import "C"
 
 import (
+	"errors"
 	"fmt"
 	"io"
 	"reflect"
@@ -42,10 +47,10 @@ import (
 	"syscall"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"golang.org/x/xerrors"
 )
 
@@ -174,6 +179,19 @@ func importSchema(schema *CArrowSchema) (ret arrow.Field, err error) {
 	dt, ok := formatToSimpleType[f]
 	if ok {
 		ret.Type = dt
+
+		if schema.dictionary != nil {
+			valueField, err := importSchema(schema.dictionary)
+			if err != nil {
+				return ret, err
+			}
+
+			ret.Type = &arrow.DictionaryType{
+				IndexType: ret.Type,
+				ValueType: valueField.Type,
+				Ordered:   schema.dictionary.flags&C.ARROW_FLAG_DICTIONARY_ORDERED != 0}
+		}
+
 		return
 	}
 
@@ -243,6 +261,39 @@ func importSchema(schema *CArrowSchema) (ret arrow.Field, err error) {
 			st := childFields[0].Type.(*arrow.StructType)
 			dt = arrow.MapOf(st.Field(0).Type, st.Field(1).Type)
 			dt.(*arrow.MapType).KeysSorted = (schema.flags & C.ARROW_FLAG_MAP_KEYS_SORTED) != 0
+		case 'u': // union
+			var mode arrow.UnionMode
+			switch f[2] {
+			case 'd':
+				mode = arrow.DenseMode
+			case 's':
+				mode = arrow.SparseMode
+			default:
+				err = fmt.Errorf("%w: invalid union type", arrow.ErrInvalid)
+				return
+			}
+
+			codes := strings.Split(strings.Split(f, ":")[1], ",")
+			typeCodes := make([]arrow.UnionTypeCode, 0, len(codes))
+			for _, i := range codes {
+				v, e := strconv.ParseInt(i, 10, 8)
+				if e != nil {
+					err = fmt.Errorf("%w: invalid type code: %s", arrow.ErrInvalid, e)
+					return
+				}
+				if v < 0 {
+					err = fmt.Errorf("%w: negative type code in union: format string %s", arrow.ErrInvalid, f)
+					return
+				}
+				typeCodes = append(typeCodes, arrow.UnionTypeCode(v))
+			}
+
+			if len(childFields) != len(typeCodes) {
+				err = fmt.Errorf("%w: ArrowArray struct number of children incompatible with format string", arrow.ErrInvalid)
+				return
+			}
+
+			dt = arrow.UnionOf(mode, childFields, typeCodes)
 		}
 	}
 
@@ -252,6 +303,7 @@ func importSchema(schema *CArrowSchema) (ret arrow.Field, err error) {
 	} else {
 		ret.Type = dt
 	}
+
 	return
 }
 
@@ -311,6 +363,18 @@ func (imp *cimporter) doImportChildren() error {
 		if err := imp.children[0].importChild(imp, children[0]); err != nil {
 			return err
 		}
+	case arrow.DENSE_UNION:
+		dt := imp.dt.(*arrow.DenseUnionType)
+		for i, c := range children {
+			imp.children[i].dt = dt.Fields()[i].Type
+			imp.children[i].importChild(imp, c)
+		}
+	case arrow.SPARSE_UNION:
+		dt := imp.dt.(*arrow.SparseUnionType)
+		for i, c := range children {
+			imp.children[i].dt = dt.Fields()[i].Type
+			imp.children[i].importChild(imp, c)
+		}
 	}
 
 	return nil
@@ -407,6 +471,66 @@ func (imp *cimporter) doImport(src *CArrowArray) error {
 		}
 
 		imp.data = array.NewData(dt, int(imp.arr.length), []*memory.Buffer{nulls}, children, int(imp.arr.null_count), int(imp.arr.offset))
+	case *arrow.DenseUnionType:
+		if err := imp.checkNoNulls(); err != nil {
+			return err
+		}
+
+		bufs := []*memory.Buffer{nil, nil, nil}
+		var err error
+		if imp.arr.n_buffers == 3 {
+			// legacy format exported by older arrow c++ versions
+			if bufs[1], err = imp.importFixedSizeBuffer(1, 1); err != nil {
+				return err
+			}
+			if bufs[2], err = imp.importFixedSizeBuffer(2, int64(arrow.Int32SizeBytes)); err != nil {
+				return err
+			}
+		} else {
+			if err := imp.checkNumBuffers(2); err != nil {
+				return err
+			}
+
+			if bufs[1], err = imp.importFixedSizeBuffer(0, 1); err != nil {
+				return err
+			}
+			if bufs[2], err = imp.importFixedSizeBuffer(1, int64(arrow.Int32SizeBytes)); err != nil {
+				return err
+			}
+		}
+
+		children := make([]arrow.ArrayData, len(imp.children))
+		for i := range imp.children {
+			children[i] = imp.children[i].data
+		}
+		imp.data = array.NewData(dt, int(imp.arr.length), bufs, children, 0, int(imp.arr.offset))
+	case *arrow.SparseUnionType:
+		if err := imp.checkNoNulls(); err != nil {
+			return err
+		}
+
+		var buf *memory.Buffer
+		var err error
+		if imp.arr.n_buffers == 2 {
+			// legacy format exported by older Arrow C++ versions
+			if buf, err = imp.importFixedSizeBuffer(1, 1); err != nil {
+				return err
+			}
+		} else {
+			if err := imp.checkNumBuffers(1); err != nil {
+				return err
+			}
+
+			if buf, err = imp.importFixedSizeBuffer(0, 1); err != nil {
+				return err
+			}
+		}
+
+		children := make([]arrow.ArrayData, len(imp.children))
+		for i := range imp.children {
+			children[i] = imp.children[i].data
+		}
+		imp.data = array.NewData(dt, int(imp.arr.length), []*memory.Buffer{nil, buf}, children, 0, int(imp.arr.offset))
 	default:
 		return fmt.Errorf("unimplemented type %s", dt)
 	}
@@ -414,21 +538,27 @@ func (imp *cimporter) doImport(src *CArrowArray) error {
 	return nil
 }
 
-func (imp *cimporter) importStringLike(offsetByteWidth int64) error {
-	if err := imp.checkNoChildren(); err != nil {
-		return err
+func (imp *cimporter) importStringLike(offsetByteWidth int64) (err error) {
+	if err = imp.checkNoChildren(); err != nil {
+		return
 	}
 
-	if err := imp.checkNumBuffers(3); err != nil {
-		return err
+	if err = imp.checkNumBuffers(3); err != nil {
+		return
 	}
 
-	nulls, err := imp.importNullBitmap(0)
-	if err != nil {
-		return err
+	var (
+		nulls, offsets, values *memory.Buffer
+	)
+
+	if nulls, err = imp.importNullBitmap(0); err != nil {
+		return
+	}
+
+	if offsets, err = imp.importOffsetsBuffer(1, offsetByteWidth); err != nil {
+		return
 	}
 
-	offsets := imp.importOffsetsBuffer(1, offsetByteWidth)
 	var nvals int64
 	switch offsetByteWidth {
 	case 4:
@@ -438,29 +568,34 @@ func (imp *cimporter) importStringLike(offsetByteWidth int64) error {
 		typedOffsets := arrow.Int64Traits.CastFromBytes(offsets.Bytes())
 		nvals = typedOffsets[imp.arr.offset+imp.arr.length]
 	}
-	values := imp.importVariableValuesBuffer(2, 1, nvals)
+	if values, err = imp.importVariableValuesBuffer(2, 1, nvals); err != nil {
+		return
+	}
 	imp.data = array.NewData(imp.dt, int(imp.arr.length), []*memory.Buffer{nulls, offsets, values}, nil, int(imp.arr.null_count), int(imp.arr.offset))
-	return nil
+	return
 }
 
-func (imp *cimporter) importListLike() error {
-	if err := imp.checkNumChildren(1); err != nil {
+func (imp *cimporter) importListLike() (err error) {
+	if err = imp.checkNumChildren(1); err != nil {
 		return err
 	}
 
-	if err := imp.checkNumBuffers(2); err != nil {
+	if err = imp.checkNumBuffers(2); err != nil {
 		return err
 	}
 
-	nulls, err := imp.importNullBitmap(0)
-	if err != nil {
-		return err
+	var nulls, offsets *memory.Buffer
+	if nulls, err = imp.importNullBitmap(0); err != nil {
+		return
 	}
 
 	offsetSize := imp.dt.Layout().Buffers[1].ByteWidth
-	offsets := imp.importOffsetsBuffer(1, int64(offsetSize))
+	if offsets, err = imp.importOffsetsBuffer(1, int64(offsetSize)); err != nil {
+		return
+	}
+
 	imp.data = array.NewData(imp.dt, int(imp.arr.length), []*memory.Buffer{nulls, offsets}, []arrow.ArrayData{imp.children[0].data}, int(imp.arr.null_count), int(imp.arr.offset))
-	return nil
+	return
 }
 
 func (imp *cimporter) importFixedSizePrimitive() error {
@@ -481,19 +616,42 @@ func (imp *cimporter) importFixedSizePrimitive() error {
 
 	fw := imp.dt.(arrow.FixedWidthDataType)
 	if bitutil.IsMultipleOf8(int64(fw.BitWidth())) {
-		values = imp.importFixedSizeBuffer(1, bitutil.BytesForBits(int64(fw.BitWidth())))
+		values, err = imp.importFixedSizeBuffer(1, bitutil.BytesForBits(int64(fw.BitWidth())))
 	} else {
 		if fw.BitWidth() != 1 {
 			return xerrors.New("invalid bitwidth")
 		}
-		values = imp.importBitsBuffer(1)
+		values, err = imp.importBitsBuffer(1)
+	}
+
+	if err != nil {
+		return err
+	}
+
+	var dict *array.Data
+	if dt, ok := imp.dt.(*arrow.DictionaryType); ok {
+		dictImp := &cimporter{dt: dt.ValueType}
+		if err := dictImp.doImport(imp.arr.dictionary); err != nil {
+			return err
+		}
+		defer dictImp.data.Release()
+
+		dict = dictImp.data.(*array.Data)
 	}
-	imp.data = array.NewData(imp.dt, int(imp.arr.length), []*memory.Buffer{nulls, values}, nil, int(imp.arr.null_count), int(imp.arr.offset))
+
+	imp.data = array.NewDataWithDictionary(imp.dt, int(imp.arr.length), []*memory.Buffer{nulls, values}, int(imp.arr.null_count), int(imp.arr.offset), dict)
 	return nil
 }
 
 func (imp *cimporter) checkNoChildren() error { return imp.checkNumChildren(0) }
 
+func (imp *cimporter) checkNoNulls() error {
+	if imp.arr.null_count != 0 {
+		return fmt.Errorf("%w: unexpected non-zero null count for imported type %s", arrow.ErrInvalid, imp.dt)
+	}
+	return nil
+}
+
 func (imp *cimporter) checkNumChildren(n int64) error {
 	if int64(imp.arr.n_children) != n {
 		return fmt.Errorf("expected %d children, for imported type %s, ArrowArray has %d", n, imp.dt, imp.arr.n_children)
@@ -508,15 +666,21 @@ func (imp *cimporter) checkNumBuffers(n int64) error {
 	return nil
 }
 
-func (imp *cimporter) importBuffer(bufferID int, sz int64) *memory.Buffer {
+func (imp *cimporter) importBuffer(bufferID int, sz int64) (*memory.Buffer, error) {
 	// this is not a copy, we're just having a slice which points at the data
 	// it's still owned by the C.ArrowArray object and its backing C++ object.
+	if imp.cbuffers[bufferID] == nil {
+		if sz != 0 {
+			return nil, errors.New("invalid buffer")
+		}
+		return memory.NewBufferBytes([]byte{}), nil
+	}
 	const maxLen = 0x7fffffff
 	data := (*[maxLen]byte)(unsafe.Pointer(imp.cbuffers[bufferID]))[:sz:sz]
-	return memory.NewBufferBytes(data)
+	return memory.NewBufferBytes(data), nil
 }
 
-func (imp *cimporter) importBitsBuffer(bufferID int) *memory.Buffer {
+func (imp *cimporter) importBitsBuffer(bufferID int) (*memory.Buffer, error) {
 	bufsize := bitutil.BytesForBits(int64(imp.arr.length) + int64(imp.arr.offset))
 	return imp.importBuffer(bufferID, bufsize)
 }
@@ -530,20 +694,20 @@ func (imp *cimporter) importNullBitmap(bufferID int) (*memory.Buffer, error) {
 		return nil, nil
 	}
 
-	return imp.importBitsBuffer(bufferID), nil
+	return imp.importBitsBuffer(bufferID)
 }
 
-func (imp *cimporter) importFixedSizeBuffer(bufferID int, byteWidth int64) *memory.Buffer {
+func (imp *cimporter) importFixedSizeBuffer(bufferID int, byteWidth int64) (*memory.Buffer, error) {
 	bufsize := byteWidth * int64(imp.arr.length+imp.arr.offset)
 	return imp.importBuffer(bufferID, bufsize)
 }
 
-func (imp *cimporter) importOffsetsBuffer(bufferID int, offsetsize int64) *memory.Buffer {
+func (imp *cimporter) importOffsetsBuffer(bufferID int, offsetsize int64) (*memory.Buffer, error) {
 	bufsize := offsetsize * int64((imp.arr.length + imp.arr.offset + 1))
 	return imp.importBuffer(bufferID, bufsize)
 }
 
-func (imp *cimporter) importVariableValuesBuffer(bufferID int, byteWidth, nvals int64) *memory.Buffer {
+func (imp *cimporter) importVariableValuesBuffer(bufferID int, byteWidth, nvals int64) (*memory.Buffer, error) {
 	bufsize := byteWidth * nvals
 	return imp.importBuffer(bufferID, int64(bufsize))
 }
@@ -557,50 +721,113 @@ func importCArrayAsType(arr *CArrowArray, dt arrow.DataType) (imp *cimporter, er
 func initReader(rdr *nativeCRecordBatchReader, stream *CArrowArrayStream) {
 	rdr.stream = C.get_stream()
 	C.ArrowArrayStreamMove(stream, rdr.stream)
+	rdr.arr = C.get_arr()
 	runtime.SetFinalizer(rdr, func(r *nativeCRecordBatchReader) {
+		if r.cur != nil {
+			r.cur.Release()
+		}
 		C.ArrowArrayStreamRelease(r.stream)
+		C.ArrowArrayRelease(r.arr)
 		C.free(unsafe.Pointer(r.stream))
+		C.free(unsafe.Pointer(r.arr))
 	})
 }
 
 // Record Batch reader that conforms to arrio.Reader for the ArrowArrayStream interface
 type nativeCRecordBatchReader struct {
 	stream *CArrowArrayStream
+	arr    *CArrowArray
 	schema *arrow.Schema
+
+	cur arrow.Record
+	err error
 }
 
-func (n *nativeCRecordBatchReader) getError(errno int) error {
-	return fmt.Errorf("%w: %s", syscall.Errno(errno), C.GoString(C.stream_get_last_error(n.stream)))
+// No need to implement retain and release here as we used runtime.SetFinalizer when constructing
+// the reader to free up the ArrowArrayStream memory when the garbage collector cleans it up.
+func (n *nativeCRecordBatchReader) Retain()  {}
+func (n *nativeCRecordBatchReader) Release() {}
+
+func (n *nativeCRecordBatchReader) Record() arrow.Record { return n.cur }
+
+func (n *nativeCRecordBatchReader) Next() bool {
+	err := n.next()
+	switch {
+	case err == nil:
+		return true
+	case err == io.EOF:
+		return false
+	}
+	n.err = err
+	return false
 }
 
-func (n *nativeCRecordBatchReader) Read() (arrow.Record, error) {
+func (n *nativeCRecordBatchReader) next() error {
 	if n.schema == nil {
 		var sc CArrowSchema
 		errno := C.stream_get_schema(n.stream, &sc)
 		if errno != 0 {
-			return nil, n.getError(int(errno))
+			return n.getError(int(errno))
 		}
 		defer C.ArrowSchemaRelease(&sc)
 		s, err := ImportCArrowSchema((*CArrowSchema)(&sc))
 		if err != nil {
-			return nil, err
+			return err
 		}
 
 		n.schema = s
 	}
 
-	arr := C.get_arr()
-	defer C.free(unsafe.Pointer(arr))
-	errno := C.stream_get_next(n.stream, arr)
+	if n.cur != nil {
+		n.cur.Release()
+		n.cur = nil
+	}
+
+	errno := C.stream_get_next(n.stream, n.arr)
 	if errno != 0 {
-		return nil, n.getError(int(errno))
+		return n.getError(int(errno))
 	}
 
-	if C.ArrowArrayIsReleased(arr) == 1 {
-		return nil, io.EOF
+	if C.ArrowArrayIsReleased(n.arr) == 1 {
+		return io.EOF
 	}
 
-	return ImportCRecordBatchWithSchema(arr, n.schema)
+	rec, err := ImportCRecordBatchWithSchema(n.arr, n.schema)
+	if err != nil {
+		return err
+	}
+
+	n.cur = rec
+	return nil
+}
+
+func (n *nativeCRecordBatchReader) Schema() *arrow.Schema {
+	if n.schema == nil {
+		var sc CArrowSchema
+		errno := C.stream_get_schema(n.stream, &sc)
+		if errno != 0 {
+			panic(n.getError(int(errno)))
+		}
+		defer C.ArrowSchemaRelease(&sc)
+		s, err := ImportCArrowSchema((*CArrowSchema)(&sc))
+		if err != nil {
+			panic(err)
+		}
+
+		n.schema = s
+	}
+	return n.schema
+}
+
+func (n *nativeCRecordBatchReader) getError(errno int) error {
+	return fmt.Errorf("%w: %s", syscall.Errno(errno), C.GoString(C.stream_get_last_error(n.stream)))
+}
+
+func (n *nativeCRecordBatchReader) Read() (arrow.Record, error) {
+	if err := n.next(); err != nil {
+		return nil, err
+	}
+	return n.cur, nil
 }
 
 func releaseArr(arr *CArrowArray) {
diff --git a/go/arrow/cdata/cdata_exports.go b/go/arrow/cdata/cdata_exports.go
index a3da68447db..555ab42adc4 100644
--- a/go/arrow/cdata/cdata_exports.go
+++ b/go/arrow/cdata/cdata_exports.go
@@ -36,13 +36,14 @@ import (
 	"encoding/binary"
 	"fmt"
 	"reflect"
+	"runtime/cgo"
 	"strings"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/endian"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
 )
 
 func encodeCMetadata(keys, values []string) []byte {
@@ -75,6 +76,7 @@ type schemaExporter struct {
 	metadata  []byte
 	flags     int64
 	children  []schemaExporter
+	dict      *schemaExporter
 }
 
 func (exp *schemaExporter) handleExtension(dt arrow.DataType) arrow.DataType {
@@ -227,6 +229,11 @@ func (exp *schemaExporter) exportFormat(dt arrow.DataType) string {
 			exp.flags |= C.ARROW_FLAG_MAP_KEYS_SORTED
 		}
 		return "+m"
+	case *arrow.DictionaryType:
+		if dt.Ordered {
+			exp.flags |= C.ARROW_FLAG_DICTIONARY_ORDERED
+		}
+		return exp.exportFormat(dt.IndexType)
 	}
 	panic("unsupported data type for export")
 }
@@ -239,6 +246,9 @@ func (exp *schemaExporter) export(field arrow.Field) {
 	}
 
 	switch dt := field.Type.(type) {
+	case *arrow.DictionaryType:
+		exp.dict = new(schemaExporter)
+		exp.dict.export(arrow.Field{Type: dt.ValueType})
 	case *arrow.ListType:
 		exp.children = make([]schemaExporter, 1)
 		exp.children[0].export(dt.ElemField())
@@ -308,6 +318,10 @@ func allocateBufferPtrArr(n int) (out []*C.void) {
 
 func (exp *schemaExporter) finish(out *CArrowSchema) {
 	out.dictionary = nil
+	if exp.dict != nil {
+		out.dictionary = (*CArrowSchema)(C.malloc(C.sizeof_struct_ArrowSchema))
+		exp.dict.finish(out.dictionary)
+	}
 	out.name = C.CString(exp.name)
 	out.format = C.CString(exp.format)
 	out.metadata = (*C.char)(C.CBytes(exp.metadata))
@@ -352,7 +366,7 @@ func exportArray(arr arrow.Array, out *CArrowArray, outSchema *CArrowSchema) {
 		buffers := allocateBufferPtrArr(len(arr.Data().Buffers()))
 		for i := range arr.Data().Buffers() {
 			buf := arr.Data().Buffers()[i]
-			if buf == nil {
+			if buf == nil || buf.Len() == 0 {
 				buffers[i] = nil
 				continue
 			}
@@ -362,10 +376,12 @@ func exportArray(arr arrow.Array, out *CArrowArray, outSchema *CArrowSchema) {
 		out.buffers = (*unsafe.Pointer)(unsafe.Pointer(&buffers[0]))
 	}
 
-	out.private_data = unsafe.Pointer(storeData(arr.Data()))
+	arr.Data().Retain()
+	h := cgo.NewHandle(arr.Data())
+	out.private_data = unsafe.Pointer(&h)
 	out.release = (*[0]byte)(C.goReleaseArray)
 	switch arr := arr.(type) {
-	case *array.List:
+	case array.ListLike:
 		out.n_children = 1
 		childPtrs := allocateArrowArrayPtrArr(1)
 		children := allocateArrowArrayArr(1)
@@ -379,13 +395,6 @@ func exportArray(arr arrow.Array, out *CArrowArray, outSchema *CArrowSchema) {
 		exportArray(arr.ListValues(), &children[0], nil)
 		childPtrs[0] = &children[0]
 		out.children = (**CArrowArray)(unsafe.Pointer(&childPtrs[0]))
-	case *array.Map:
-		out.n_children = 1
-		childPtrs := allocateArrowArrayPtrArr(1)
-		children := allocateArrowArrayArr(1)
-		exportArray(arr.ListValues(), &children[0], nil)
-		childPtrs[0] = &children[0]
-		out.children = (**CArrowArray)(unsafe.Pointer(&childPtrs[0]))
 	case *array.Struct:
 		out.n_children = C.int64_t(arr.NumField())
 		childPtrs := allocateArrowArrayPtrArr(arr.NumField())
@@ -395,8 +404,33 @@ func exportArray(arr arrow.Array, out *CArrowArray, outSchema *CArrowSchema) {
 			childPtrs[i] = &children[i]
 		}
 		out.children = (**CArrowArray)(unsafe.Pointer(&childPtrs[0]))
+	case *array.Dictionary:
+		out.dictionary = (*CArrowArray)(C.malloc(C.sizeof_struct_ArrowArray))
+		exportArray(arr.Dictionary(), out.dictionary, nil)
 	default:
 		out.n_children = 0
 		out.children = nil
 	}
 }
+
+type cRecordReader struct {
+	rdr array.RecordReader
+}
+
+func (rr cRecordReader) getSchema(out *CArrowSchema) int {
+	ExportArrowSchema(rr.rdr.Schema(), out)
+	return 0
+}
+
+func (rr cRecordReader) next(out *CArrowArray) int {
+	if rr.rdr.Next() {
+		ExportArrowRecordBatch(rr.rdr.Record(), out, nil)
+		return 0
+	}
+	releaseArr(out)
+	return 0
+}
+
+func (rr cRecordReader) release() {
+	rr.rdr.Release()
+}
diff --git a/go/arrow/cdata/cdata_test.go b/go/arrow/cdata/cdata_test.go
index 03c01181c13..84d212f2506 100644
--- a/go/arrow/cdata/cdata_test.go
+++ b/go/arrow/cdata/cdata_test.go
@@ -27,14 +27,16 @@ import (
 	"errors"
 	"io"
 	"runtime"
+	"runtime/cgo"
 	"testing"
 	"time"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
@@ -646,7 +648,6 @@ func TestRecordReaderStream(t *testing.T) {
 			}
 			assert.NoError(t, err)
 		}
-		defer rec.Release()
 
 		assert.EqualValues(t, 2, rec.NumCols())
 		assert.Equal(t, "a", rec.ColumnName(0))
@@ -660,3 +661,89 @@ func TestRecordReaderStream(t *testing.T) {
 		assert.Equal(t, "baz", rec.Column(1).(*array.String).Value(2))
 	}
 }
+
+func TestExportRecordReaderStream(t *testing.T) {
+	reclist := arrdata.Records["primitives"]
+	rdr, _ := array.NewRecordReader(reclist[0].Schema(), reclist)
+
+	out := createTestStreamObj()
+	ExportRecordReader(rdr, out)
+
+	assert.NotNil(t, out.get_schema)
+	assert.NotNil(t, out.get_next)
+	assert.NotNil(t, out.get_last_error)
+	assert.NotNil(t, out.release)
+	assert.NotNil(t, out.private_data)
+
+	h := *(*cgo.Handle)(out.private_data)
+	assert.Same(t, rdr, h.Value().(cRecordReader).rdr)
+
+	importedRdr := ImportCArrayStream(out, nil)
+	i := 0
+	for {
+		rec, err := importedRdr.Read()
+		if err != nil {
+			if errors.Is(err, io.EOF) {
+				break
+			}
+			assert.NoError(t, err)
+		}
+
+		assert.Truef(t, array.RecordEqual(reclist[i], rec), "expected: %s\ngot: %s", reclist[i], rec)
+		i++
+	}
+	assert.EqualValues(t, len(reclist), i)
+}
+
+func TestEmptyListExport(t *testing.T) {
+	bldr := array.NewBuilder(memory.DefaultAllocator, arrow.LargeListOf(arrow.PrimitiveTypes.Int32))
+	defer bldr.Release()
+
+	arr := bldr.NewArray()
+	defer arr.Release()
+
+	var out CArrowArray
+	ExportArrowArray(arr, &out, nil)
+
+	assert.Zero(t, out.length)
+	assert.Zero(t, out.null_count)
+	assert.Zero(t, out.offset)
+	assert.EqualValues(t, 2, out.n_buffers)
+	assert.NotNil(t, out.buffers)
+	assert.EqualValues(t, 1, out.n_children)
+	assert.NotNil(t, out.children)
+}
+
+func TestEmptyDictExport(t *testing.T) {
+	bldr := array.NewBuilder(memory.DefaultAllocator, &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String, Ordered: true})
+	defer bldr.Release()
+
+	arr := bldr.NewArray()
+	defer arr.Release()
+
+	var out CArrowArray
+	var sc CArrowSchema
+	ExportArrowArray(arr, &out, &sc)
+
+	assert.EqualValues(t, 'c', *sc.format)
+	assert.NotZero(t, sc.flags&1)
+	assert.Zero(t, sc.n_children)
+	assert.NotNil(t, sc.dictionary)
+	assert.EqualValues(t, 'u', *sc.dictionary.format)
+
+	assert.Zero(t, out.length)
+	assert.Zero(t, out.null_count)
+	assert.Zero(t, out.offset)
+	assert.EqualValues(t, 2, out.n_buffers)
+	assert.Zero(t, out.n_children)
+	assert.Nil(t, out.children)
+	assert.NotNil(t, out.dictionary)
+
+	assert.Zero(t, out.dictionary.length)
+	assert.Zero(t, out.dictionary.null_count)
+	assert.Zero(t, out.dictionary.offset)
+	assert.EqualValues(t, 3, out.dictionary.n_buffers)
+	assert.Zero(t, out.dictionary.n_children)
+	assert.Nil(t, out.dictionary.children)
+	assert.Nil(t, out.dictionary.dictionary)
+}
diff --git a/go/arrow/cdata/cdata_test_framework.go b/go/arrow/cdata/cdata_test_framework.go
index bb4db1e339b..0f062ded0dc 100644
--- a/go/arrow/cdata/cdata_test_framework.go
+++ b/go/arrow/cdata/cdata_test_framework.go
@@ -26,7 +26,11 @@ package cdata
 //
 // void setup_array_stream_test(const int n_batches, struct ArrowArrayStream* out);
 // struct ArrowArray* get_test_arr() { return (struct ArrowArray*)(malloc(sizeof(struct ArrowArray))); }
-// struct ArrowArrayStream* get_test_stream() { return (struct ArrowArrayStream*)malloc(sizeof(struct ArrowArrayStream)); }
+// struct ArrowArrayStream* get_test_stream() {
+//	struct ArrowArrayStream* out = (struct ArrowArrayStream*)malloc(sizeof(struct ArrowArrayStream));
+//	memset(out, 0, sizeof(struct ArrowArrayStream));
+//	return out;
+// }
 //
 // void release_test_arr(struct ArrowArray* arr) {
 //  for (int i = 0; i < arr->n_buffers; ++i) {
@@ -53,8 +57,8 @@ import "C"
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 const (
@@ -251,6 +255,10 @@ func createCArr(arr arrow.Array) *CArrowArray {
 	return carr
 }
 
+func createTestStreamObj() *CArrowArrayStream {
+	return C.get_test_stream()
+}
+
 func arrayStreamTest() *CArrowArrayStream {
 	st := C.get_test_stream()
 	C.setup_array_stream_test(2, st)
diff --git a/go/arrow/cdata/exports.go b/go/arrow/cdata/exports.go
index 4ad4b7fac31..daa8c8384f3 100644
--- a/go/arrow/cdata/exports.go
+++ b/go/arrow/cdata/exports.go
@@ -18,42 +18,24 @@ package cdata
 
 import (
 	"reflect"
-	"sync"
-	"sync/atomic"
+	"runtime/cgo"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 // #include <stdlib.h>
 // #include "arrow/c/helpers.h"
+//
+//	typedef const char cchar_t;
+//	extern int streamGetSchema(struct ArrowArrayStream*, struct ArrowSchema*);
+//	extern int streamGetNext(struct ArrowArrayStream*, struct ArrowArray*);
+//  extern const char* streamGetError(struct ArrowArrayStream*);
+//	extern void streamRelease(struct ArrowArrayStream*);
+//
 import "C"
 
-var (
-	handles   = sync.Map{}
-	handleIdx uintptr
-)
-
-type dataHandle uintptr
-
-func storeData(d arrow.ArrayData) dataHandle {
-	h := atomic.AddUintptr(&handleIdx, 1)
-	if h == 0 {
-		panic("cgo: ran out of space")
-	}
-	d.Retain()
-	handles.Store(h, d)
-	return dataHandle(h)
-}
-
-func (d dataHandle) releaseData() {
-	arrd, ok := handles.LoadAndDelete(uintptr(d))
-	if !ok {
-		panic("cgo: invalid datahandle")
-	}
-	arrd.(arrow.ArrayData).Release()
-}
-
 //export releaseExportedSchema
 func releaseExportedSchema(schema *CArrowSchema) {
 	if C.ArrowSchemaIsReleased(schema) == 1 {
@@ -69,6 +51,11 @@ func releaseExportedSchema(schema *CArrowSchema) {
 		return
 	}
 
+	if schema.dictionary != nil {
+		C.ArrowSchemaRelease(schema.dictionary)
+		C.free(unsafe.Pointer(schema.dictionary))
+	}
+
 	var children []*CArrowSchema
 	s := (*reflect.SliceHeader)(unsafe.Pointer(&children))
 	s.Data = uintptr(unsafe.Pointer(schema.children))
@@ -94,6 +81,11 @@ func releaseExportedArray(arr *CArrowArray) {
 		C.free(unsafe.Pointer(arr.buffers))
 	}
 
+	if arr.dictionary != nil {
+		C.ArrowArrayRelease(arr.dictionary)
+		C.free(unsafe.Pointer(arr.dictionary))
+	}
+
 	if arr.n_children > 0 {
 		var children []*CArrowArray
 		s := (*reflect.SliceHeader)(unsafe.Pointer(&children))
@@ -108,6 +100,42 @@ func releaseExportedArray(arr *CArrowArray) {
 		C.free(unsafe.Pointer(arr.children))
 	}
 
-	h := dataHandle(arr.private_data)
-	h.releaseData()
+	h := *(*cgo.Handle)(arr.private_data)
+	h.Value().(arrow.ArrayData).Release()
+	h.Delete()
+}
+
+//export streamGetSchema
+func streamGetSchema(handle *CArrowArrayStream, out *CArrowSchema) C.int {
+	h := *(*cgo.Handle)(handle.private_data)
+	rdr := h.Value().(cRecordReader)
+	return C.int(rdr.getSchema(out))
+}
+
+//export streamGetNext
+func streamGetNext(handle *CArrowArrayStream, out *CArrowArray) C.int {
+	h := *(*cgo.Handle)(handle.private_data)
+	rdr := h.Value().(cRecordReader)
+	return C.int(rdr.next(out))
+}
+
+//export streamGetError
+func streamGetError(*CArrowArrayStream) *C.cchar_t { return nil }
+
+//export streamRelease
+func streamRelease(handle *CArrowArrayStream) {
+	h := *(*cgo.Handle)(handle.private_data)
+	h.Value().(cRecordReader).release()
+	h.Delete()
+	handle.release = nil
+	handle.private_data = nil
+}
+
+func exportStream(rdr array.RecordReader, out *CArrowArrayStream) {
+	out.get_schema = (*[0]byte)(C.streamGetSchema)
+	out.get_next = (*[0]byte)(C.streamGetNext)
+	out.get_last_error = (*[0]byte)(C.streamGetError)
+	out.release = (*[0]byte)(C.streamRelease)
+	h := cgo.NewHandle(cRecordReader{rdr})
+	out.private_data = unsafe.Pointer(&h)
 }
diff --git a/go/arrow/cdata/interface.go b/go/arrow/cdata/interface.go
index e567ce599a4..336b0d981d9 100644
--- a/go/arrow/cdata/interface.go
+++ b/go/arrow/cdata/interface.go
@@ -22,10 +22,10 @@ package cdata
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/arrio"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/arrio"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"golang.org/x/xerrors"
 )
 
@@ -225,6 +225,15 @@ func ExportArrowArray(arr arrow.Array, out *CArrowArray, outSchema *CArrowSchema
 	exportArray(arr, out, outSchema)
 }
 
+// ExportRecordReader populates the CArrowArrayStream that is passed in with the appropriate
+// callbacks to be a working ArrowArrayStream utilizing the passed in RecordReader. The
+// CArrowArrayStream takes ownership of the RecordReader until the consumer calls the release
+// callback, as such it is unnecesary to call Release on the passed in reader unless it has
+// previously been retained.
+func ExportRecordReader(reader array.RecordReader, out *CArrowArrayStream) {
+	exportStream(reader, out)
+}
+
 // ReleaseCArrowArray calls ArrowArrayRelease on the passed in cdata array
 func ReleaseCArrowArray(arr *CArrowArray) { releaseArr(arr) }
 
diff --git a/go/arrow/cdata/test/test_cimport.go b/go/arrow/cdata/test/test_cimport.go
index 38afc1cc9d0..6383b50701e 100644
--- a/go/arrow/cdata/test/test_cimport.go
+++ b/go/arrow/cdata/test/test_cimport.go
@@ -23,10 +23,10 @@ import (
 	"fmt"
 	"runtime"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/cdata"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/cdata"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 // #include <stdint.h>
@@ -163,4 +163,16 @@ func importThenExportRecord(schemaIn, arrIn uintptr, schemaOut, arrOut uintptr)
 	cdata.ExportArrowRecordBatch(rec, cdata.ArrayFromPtr(arrOut), cdata.SchemaFromPtr(schemaOut))
 }
 
+//export roundtripArray
+func roundtripArray(arrIn, schema, arrOut uintptr) {
+	_, arr, err := cdata.ImportCArray(cdata.ArrayFromPtr(arrIn), cdata.SchemaFromPtr(schema))
+	if err != nil {
+		panic(err)
+	}
+	defer arr.Release()
+
+	outArr := cdata.ArrayFromPtr(arrOut)
+	cdata.ExportArrowArray(arr, outArr, nil)
+}
+
 func main() {}
diff --git a/go/arrow/cdata/test/test_export_to_cgo.py b/go/arrow/cdata/test/test_export_to_cgo.py
index f1cb733755b..e794a84bd43 100644
--- a/go/arrow/cdata/test/test_export_to_cgo.py
+++ b/go/arrow/cdata/test/test_export_to_cgo.py
@@ -43,6 +43,7 @@ def load_cgotest():
         void importThenExportSchema(uintptr_t input, uintptr_t output);
         void importThenExportRecord(uintptr_t schemaIn, uintptr_t arrIn, 
                                     uintptr_t schemaOut, uintptr_t arrOut);
+        void roundtripArray(uintptr_t arrIn, uintptr_t schema, uintptr_t arrOut);
         """)
     return ffi.dlopen(f'./cgotest.{libext}')
 
@@ -161,6 +162,68 @@ def test_batch_roundtrip(self):
             del c_schema
             del c_batch
 
+    # commented out types can be uncommented after
+    # GH-14875 is addressed
+    _test_pyarrow_types = [
+        pa.null(),
+        pa.bool_(),
+        pa.int32(),
+        pa.time32("s"),
+        pa.time64("us"),
+        pa.date32(),
+        pa.timestamp("us"),
+        pa.timestamp("us", tz="UTC"),
+        pa.timestamp("us", tz="Europe/Paris"),
+        pa.duration("s"),
+        pa.duration("ms"),
+        pa.duration("us"),
+        pa.duration("ns"),
+        pa.float16(),
+        pa.float32(),
+        pa.float64(),
+        pa.decimal128(19, 4),        
+        # pa.string(),
+        # pa.binary(),
+        # pa.binary(10),
+        # pa.large_string(),
+        # pa.large_binary(),
+        pa.list_(pa.int32()),
+        pa.list_(pa.int32(), 2),
+        pa.large_list(pa.uint16()),
+        pa.struct([
+            pa.field("a", pa.int32()),
+            pa.field("b", pa.int8()),
+            # pa.field("c", pa.string()),
+        ]),
+        pa.struct([
+            pa.field("a", pa.int32(), nullable=False),
+            pa.field("b", pa.int8(), nullable=False),
+            # pa.field("c", pa.string()),
+        ]),
+        pa.dictionary(pa.int8(), pa.int64()),
+        # pa.dictionary(pa.int8(), pa.string()),
+        # pa.map_(pa.string(), pa.int32()),
+        pa.map_(pa.int64(), pa.int32()),
+    ]
+
+    def test_empty_roundtrip(self):
+        for typ in self._test_pyarrow_types:
+            with self.subTest(typ=typ):
+                with self.assert_pyarrow_memory_released():
+                    a = pa.array([], typ)
+                    a._export_to_c(self.ptr_array)
+                    typ._export_to_c(self.ptr_schema)
+                    
+                    c_arr = ffi.new("struct ArrowArray*")
+                    ptr_arr = int(ffi.cast("uintptr_t", c_arr))
+
+                    cgotest.roundtripArray(self.ptr_array, self.ptr_schema, ptr_arr)
+                    b = pa.Array._import_from_c(ptr_arr, typ)
+                    b.validate(full=True)
+                    assert a.to_pylist() == b.to_pylist()
+                    assert a.type == b.type
+                    del a
+                    del b
 
 if __name__ == '__main__':
     unittest.main(verbosity=2)
diff --git a/go/arrow/compare.go b/go/arrow/compare.go
index 6cc01bc9a22..511abe22389 100644
--- a/go/arrow/compare.go
+++ b/go/arrow/compare.go
@@ -118,6 +118,9 @@ func TypeEqual(left, right DataType, opts ...TypeEqualOption) bool {
 			}
 		}
 		return true
+	case *TimestampType:
+		r := right.(*TimestampType)
+		return l.Unit == r.Unit && l.TimeZone == r.TimeZone
 	default:
 		return reflect.DeepEqual(left, right)
 	}
diff --git a/go/arrow/compute/arithmetic.go b/go/arrow/compute/arithmetic.go
new file mode 100644
index 00000000000..9bdeb8288af
--- /dev/null
+++ b/go/arrow/compute/arithmetic.go
@@ -0,0 +1,1228 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute
+
+import (
+	"context"
+	"fmt"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/kernels"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+)
+
+type (
+	RoundOptions           = kernels.RoundOptions
+	RoundMode              = kernels.RoundMode
+	RoundToMultipleOptions = kernels.RoundToMultipleOptions
+)
+
+const (
+	// Round to nearest integer less than or equal in magnitude (aka "floor")
+	RoundDown = kernels.RoundDown
+	// Round to nearest integer greater than or equal in magnitude (aka "ceil")
+	RoundUp = kernels.RoundUp
+	// Get integral part without fractional digits (aka "trunc")
+	RoundTowardsZero = kernels.TowardsZero
+	// Round negative values with DOWN and positive values with UP
+	RoundTowardsInfinity = kernels.AwayFromZero
+	// Round ties with DOWN (aka "round half towards negative infinity")
+	RoundHalfDown = kernels.HalfDown
+	// Round ties with UP (aka "round half towards positive infinity")
+	RoundHalfUp = kernels.HalfUp
+	// Round ties with TowardsZero (aka "round half away from infinity")
+	RoundHalfTowardsZero = kernels.HalfTowardsZero
+	// Round ties with AwayFromZero (aka "round half towards infinity")
+	RoundHalfTowardsInfinity = kernels.HalfAwayFromZero
+	// Round ties to nearest even integer
+	RoundHalfToEven = kernels.HalfToEven
+	// Round ties to nearest odd integer
+	RoundHalfToOdd = kernels.HalfToOdd
+)
+
+var (
+	DefaultRoundOptions           = RoundOptions{NDigits: 0, Mode: RoundHalfToEven}
+	DefaultRoundToMultipleOptions = RoundToMultipleOptions{
+		Multiple: scalar.NewFloat64Scalar(1), Mode: RoundHalfToEven}
+)
+
+type arithmeticFunction struct {
+	ScalarFunction
+
+	promote decimalPromotion
+}
+
+func (fn *arithmeticFunction) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
+	return execInternal(ctx, fn, opts, -1, args...)
+}
+
+func (fn *arithmeticFunction) checkDecimals(vals ...arrow.DataType) error {
+	if !hasDecimal(vals...) {
+		return nil
+	}
+
+	if len(vals) != 2 {
+		return nil
+	}
+
+	if fn.promote == decPromoteNone {
+		return fmt.Errorf("%w: invalid decimal function: %s", arrow.ErrInvalid, fn.name)
+	}
+
+	return castBinaryDecimalArgs(fn.promote, vals...)
+}
+
+func (fn *arithmeticFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
+	if err := fn.checkArity(len(vals)); err != nil {
+		return nil, err
+	}
+
+	if err := fn.checkDecimals(vals...); err != nil {
+		return nil, err
+	}
+
+	if kn, err := fn.DispatchExact(vals...); err == nil {
+		return kn, nil
+	}
+
+	ensureDictionaryDecoded(vals...)
+
+	// only promote types for binary funcs
+	if len(vals) == 2 {
+		replaceNullWithOtherType(vals...)
+		if unit, istime := commonTemporalResolution(vals...); istime {
+			replaceTemporalTypes(unit, vals...)
+		} else {
+			if dt := commonNumeric(vals...); dt != nil {
+				replaceTypes(dt, vals...)
+			}
+		}
+	}
+
+	return fn.DispatchExact(vals...)
+}
+
+// an arithmetic function which promotes integers and decimal
+// arguments to doubles.
+type arithmeticFloatingPointFunc struct {
+	arithmeticFunction
+}
+
+func (fn *arithmeticFloatingPointFunc) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
+	return execInternal(ctx, fn, opts, -1, args...)
+}
+
+func (fn *arithmeticFloatingPointFunc) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
+	if err := fn.checkArity(len(vals)); err != nil {
+		return nil, err
+	}
+
+	if kn, err := fn.DispatchExact(vals...); err == nil {
+		return kn, nil
+	}
+
+	ensureDictionaryDecoded(vals...)
+
+	if len(vals) == 2 {
+		replaceNullWithOtherType(vals...)
+	}
+
+	for i, v := range vals {
+		if arrow.IsInteger(v.ID()) || arrow.IsDecimal(v.ID()) {
+			vals[i] = arrow.PrimitiveTypes.Float64
+		}
+	}
+
+	if dt := commonNumeric(vals...); dt != nil {
+		replaceTypes(dt, vals...)
+	}
+
+	return fn.DispatchExact(vals...)
+}
+
+// function that promotes only decimal arguments to float64
+type arithmeticDecimalToFloatingPointFunc struct {
+	arithmeticFunction
+}
+
+func (fn *arithmeticDecimalToFloatingPointFunc) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
+	return execInternal(ctx, fn, opts, -1, args...)
+}
+
+func (fn *arithmeticDecimalToFloatingPointFunc) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
+	if err := fn.checkArity(len(vals)); err != nil {
+		return nil, err
+	}
+
+	if kn, err := fn.DispatchExact(vals...); err == nil {
+		return kn, nil
+	}
+
+	ensureDictionaryDecoded(vals...)
+	if len(vals) == 2 {
+		replaceNullWithOtherType(vals...)
+	}
+
+	for i, t := range vals {
+		if arrow.IsDecimal(t.ID()) {
+			vals[i] = arrow.PrimitiveTypes.Float64
+		}
+	}
+
+	if dt := commonNumeric(vals...); dt != nil {
+		replaceTypes(dt, vals...)
+	}
+
+	return fn.DispatchExact(vals...)
+}
+
+// function that promotes only integer arguments to float64
+type arithmeticIntegerToFloatingPointFunc struct {
+	arithmeticFunction
+}
+
+func (fn *arithmeticIntegerToFloatingPointFunc) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
+	return execInternal(ctx, fn, opts, -1, args...)
+}
+
+func (fn *arithmeticIntegerToFloatingPointFunc) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
+	if err := fn.checkArity(len(vals)); err != nil {
+		return nil, err
+	}
+
+	if err := fn.checkDecimals(vals...); err != nil {
+		return nil, err
+	}
+
+	if kn, err := fn.DispatchExact(vals...); err == nil {
+		return kn, nil
+	}
+
+	ensureDictionaryDecoded(vals...)
+	if len(vals) == 2 {
+		replaceNullWithOtherType(vals...)
+	}
+
+	for i, t := range vals {
+		if arrow.IsInteger(t.ID()) {
+			vals[i] = arrow.PrimitiveTypes.Float64
+		}
+	}
+
+	if dt := commonNumeric(vals...); dt != nil {
+		replaceTypes(dt, vals...)
+	}
+
+	return fn.DispatchExact(vals...)
+}
+
+var (
+	absoluteValueUncheckedDoc = FunctionDoc{
+		Summary: "Calculate the absolute value of the argument, element-wise",
+		Description: `Results will wrap around on integer overflow
+Use function "abs" if you want overflows to return an error`,
+		ArgNames: []string{"x"},
+	}
+	absoluteValueDoc = FunctionDoc{
+		Summary: "Calculate the absolute value of the argument element-wise",
+		Description: `This function returns an error on overflow. For a variant that
+won't fail on overflow, use function "abs_unchecked"`,
+		ArgNames: []string{"x"},
+	}
+	addUncheckedDoc = FunctionDoc{
+		Summary: "Add the arguments element-wise",
+		Description: `Results will wrap around on integer overflow
+Use the function "add" if you want overflow to return an error`,
+		ArgNames: []string{"x", "y"},
+	}
+	addDoc = FunctionDoc{
+		Summary: "Add the arguments element-wise",
+		Description: `This function returns an error on overflow.
+For a variant that won't fail on overflow, use function "add_unchecked"`,
+		ArgNames: []string{"x", "y"},
+	}
+	subUncheckedDoc = FunctionDoc{
+		Summary: "Subtract the arguments element-wise",
+		Description: `This Results will wrap around on integer overflow.
+Use the function "sub" if you want overflow to return an error`,
+		ArgNames: []string{"x", "y"},
+	}
+	subDoc = FunctionDoc{
+		Summary: "Subtract the arguments element-wise",
+		Description: `This function returns an error on overflow.
+For a variant that won't fail on overflow, use the function "sub_unchecked"`,
+		ArgNames: []string{"x", "y"},
+	}
+	mulUncheckedDoc = FunctionDoc{
+		Summary: "Multiply the arguments element-wise",
+		Description: `Results will wrap around on integer overflow.
+Use function "multiply" if you want overflow to return an error`,
+		ArgNames: []string{"x", "y"},
+	}
+	mulDoc = FunctionDoc{
+		Summary: "Multiply the arguments element-wise",
+		Description: `This function returns an error on overflow.
+For a variant that won't fail on overflow, use the function
+"multiply_unchecked"`,
+		ArgNames: []string{"x", "y"},
+	}
+	divUncheckedDoc = FunctionDoc{
+		Summary: "Divide the arguments element-wise",
+		Description: `Integer division by zero returns an error. However integer
+overflow wraps around, and floating-point division by zero returns Inf.
+Use the function "divide" if you want to get an error in all the 
+aforementioned cases.`,
+		ArgNames: []string{"dividend", "divisor"},
+	}
+	divDoc = FunctionDoc{
+		Summary: "Divide the arguments element-wise",
+		Description: `An error is returned when trying to divide by zero,
+or when integer overflow is encountered.`,
+		ArgNames: []string{"dividend", "divisor"},
+	}
+	negateUncheckedDoc = FunctionDoc{
+		Summary: "Negate the argument element-wise",
+		Description: `Results will wrap around on integer overflow
+Use function "negate" if you want overflow to return an error`,
+		ArgNames: []string{"x"},
+	}
+	negateDoc = FunctionDoc{
+		Summary: "Negate the argument element-wise",
+		Description: `This function returns an error on overflow. For a variant
+that doesn't fail on overflow, use the function "negate_unchecked".`,
+		ArgNames: []string{"x"},
+	}
+	powUncheckedDoc = FunctionDoc{
+		Summary: "Raise argument to a power element-wise",
+		Description: `Integers to negative integer powers return an error.
+However, integer overflow wraps around. If either base or exponent is null
+the result will be null.`,
+		ArgNames: []string{"base", "exponent"},
+	}
+	powDoc = FunctionDoc{
+		Summary: "Raise argument to a power element-wise",
+		Description: `An error is returned when an integer is raised to a negative
+power or an integer overflow occurs.`,
+		ArgNames: []string{"base", "exponent"},
+	}
+	sqrtUncheckedDoc = FunctionDoc{
+		Summary: "Takes the square root of arguments element-wise",
+		Description: `A negative argument returns an NaN. For a variant that returns
+an error, use function "sqrt"`,
+		ArgNames: []string{"x"},
+	}
+	sqrtDoc = FunctionDoc{
+		Summary: "Takes the square root of arguments element-wise",
+		Description: `A negative argument returns an error. For a variant that
+instead returns NaN, use function "sqrt_unchecked"`,
+		ArgNames: []string{"x"},
+	}
+	signDoc = FunctionDoc{
+		Summary: "Get the signedness of the arguments element-wise",
+		Description: `Output is -1 if <0, 1 if >0 and 0 for 0.
+NaN values return NaN. Integral values return signedness as Int8,
+and floating-point values return it with the same type as the input values.`,
+		ArgNames: []string{"x"},
+	}
+	bitWiseNotDoc = FunctionDoc{
+		Summary:     "Bit-wise negate the arguments element-wise",
+		Description: "Null values return null",
+		ArgNames:    []string{"x"},
+	}
+	bitWiseAndDoc = FunctionDoc{
+		Summary:     "Bit-wise AND the arguments element-wise",
+		Description: "Null values return null",
+		ArgNames:    []string{"x", "y"},
+	}
+	bitWiseOrDoc = FunctionDoc{
+		Summary:     "Bit-wise OR the arguments element-wise",
+		Description: "Null values return null",
+		ArgNames:    []string{"x", "y"},
+	}
+	bitWiseXorDoc = FunctionDoc{
+		Summary:     "Bit-wise XOR the arguments element-wise",
+		Description: "Null values return null",
+		ArgNames:    []string{"x", "y"},
+	}
+	shiftLeftUncheckedDoc = FunctionDoc{
+		Summary: "Left shift `x` by `y`",
+		Description: `The shift operates as if on the two's complement representation
+of the number. In other words, this is equivalent to multiplying "x" by 2
+to the power of "y", even if overflow occurs.
+"x" is returned if "y" (the amount to shift by) is (1) negative or (2)
+greater than or equal to the precision of "x".
+Use function "shift_left" if you want an invalid shift amount to
+return an error.`,
+		ArgNames: []string{"x", "y"},
+	}
+	shiftLeftDoc = FunctionDoc{
+		Summary: "Left shift `x` by `y`",
+		Description: `The shift operates as if on the two's complement representation
+of the number. In other words, this is equivalent to multiplying "x" by 2 
+to the power of "y", even if overflow occurs.
+An error is raised if "y" (the amount to shift by) is (1) negative or (2)
+greater than or equal to the precision of "x".
+See "shift_left_unchecked" for a variant that doesn't fail for an invalid
+shift amount.`,
+		ArgNames: []string{"x", "y"},
+	}
+	shiftRightUncheckedDoc = FunctionDoc{
+		Summary: "Right shift `x` by `y`",
+		Description: `This is equivalent to dividing "x" by 2 to the power "y".
+"x" is returned if "y" (the amount to shift by) is: (1) negative or
+(2) greater than or equal to the precision of "x".
+Use function "shift_right" if you want an invalid 
+shift amount to return an error.`,
+		ArgNames: []string{"x", "y"},
+	}
+	shiftRightDoc = FunctionDoc{
+		Summary: "Right shift `x` by `y`",
+		Description: `This is equivalent to dividing "x" by 2 to the power "y".
+An error is raised if "y" (the amount to shift by) is (1) negative or
+(2) greater than or equal to the precision of "x".
+See "shift_right_unchecked" for a variant that doesn't fail for
+an invalid shift amount.`,
+		ArgNames: []string{"x", "y"},
+	}
+	sinUncheckedDoc = FunctionDoc{
+		Summary: "Compute the sine",
+		Description: `NaN is returned for invalid input values; to raise an error
+instead, see "sin"`,
+		ArgNames: []string{"x"},
+	}
+	sinDoc = FunctionDoc{
+		Summary: "Compute the sine",
+		Description: `Invalid input values raise an error;
+to return NaN instead, see "sin_unchecked".`,
+		ArgNames: []string{"x"},
+	}
+	cosUncheckedDoc = FunctionDoc{
+		Summary: "Compute the cosine",
+		Description: `NaN is returned for invalid input values;
+to raise an error instead, see "cos".`,
+		ArgNames: []string{"x"},
+	}
+	cosDoc = FunctionDoc{
+		Summary: "Compute the cosine",
+		Description: `Infinite values raise an error;
+to return NaN instead, see "cos_unchecked".`,
+		ArgNames: []string{"x"},
+	}
+	tanUncheckedDoc = FunctionDoc{
+		Summary: "Compute the tangent",
+		Description: `NaN is returned for invalid input values;
+to raise an error instead see "tan".`,
+		ArgNames: []string{"x"},
+	}
+	tanDoc = FunctionDoc{
+		Summary: "Compute the tangent",
+		Description: `Infinite values raise an error;
+to return NaN instead, see "tan_unchecked".`,
+		ArgNames: []string{"x"},
+	}
+	asinUncheckedDoc = FunctionDoc{
+		Summary: "Compute the inverse sine",
+		Description: `NaN is returned for invalid input values;
+to raise an error instead, see "asin"`,
+		ArgNames: []string{"x"},
+	}
+	asinDoc = FunctionDoc{
+		Summary: "Compute the inverse sine",
+		Description: `Invalid input values raise an error;
+to return NaN instead see asin_unchecked.`,
+		ArgNames: []string{"x"},
+	}
+	acosUncheckedDoc = FunctionDoc{
+		Summary: "Compute the inverse cosine",
+		Description: `NaN is returned for invalid input values;
+to raise an error instead, see "acos".`,
+		ArgNames: []string{"x"},
+	}
+	acosDoc = FunctionDoc{
+		Summary: "Compute the inverse cosine",
+		Description: `Invalid input values raise an error;
+to return NaN instead, see "acos_unchecked".`,
+		ArgNames: []string{"x"},
+	}
+	atanDoc = FunctionDoc{
+		Summary: "Compute the inverse tangent of x",
+		Description: `The return value is in the range [-pi/2, pi/2];
+for a full return range [-pi, pi], see "atan2"`,
+		ArgNames: []string{"x"},
+	}
+	atan2Doc = FunctionDoc{
+		Summary:     "Compute the inverse tangent of y/x",
+		Description: "The return value is in the range [-pi, pi].",
+		ArgNames:    []string{"y", "x"},
+	}
+	lnUncheckedDoc = FunctionDoc{
+		Summary: "Compute natural logarithm",
+		Description: `Non-positive values return -Inf or NaN. Null values return null.
+Use function "ln" if you want non-positive values to raise an error.`,
+		ArgNames: []string{"x"},
+	}
+	lnDoc = FunctionDoc{
+		Summary: "Compute natural logarithm",
+		Description: `Non-positive values raise an error. Null values return null.
+Use function "ln_unchecked" if you want non-positive values to return 
+-Inf or NaN`,
+		ArgNames: []string{"x"},
+	}
+	log10UncheckedDoc = FunctionDoc{
+		Summary: "Compute base 10 logarithm",
+		Description: `Non-positive values return -Inf or NaN. Null values return null.
+Use function "log10" if you want non-positive values to raise an error.`,
+		ArgNames: []string{"x"},
+	}
+	log10Doc = FunctionDoc{
+		Summary: "Compute base 10 logarithm",
+		Description: `Non-positive values raise an error. Null values return null.
+Use function "log10_unchecked" if you want non-positive values to return
+-Inf or NaN.`,
+		ArgNames: []string{"x"},
+	}
+	log2UncheckedDoc = FunctionDoc{
+		Summary: "Compute base 2 logarithm",
+		Description: `Non-positive values return -Inf or NaN. Null values return null.
+Use function "log2" if you want non-positive values to raise an error.`,
+		ArgNames: []string{"x"},
+	}
+	log2Doc = FunctionDoc{
+		Summary: "Compute base 2 logarithm",
+		Description: `Non-positive values raise an error. Null values return null.
+Use function "log2_unchecked" if you want non-positive values to 
+return -Inf or NaN`,
+		ArgNames: []string{"x"},
+	}
+	log1pUncheckedDoc = FunctionDoc{
+		Summary: "Compute natural log of (1+x)",
+		Description: `Values <= -1 return -Inf or NaN. Null values return null.
+This function may be more precise than log(1 + x) for x close to zero.
+Use function "log1p" if you want invalid values to raise an error.`,
+		ArgNames: []string{"x"},
+	}
+	log1pDoc = FunctionDoc{
+		Summary: "Compute natural log of (1+x)",
+		Description: `Values <= -1 return -Inf or NaN. Null values return null.
+This function may be more precise than (1 + x) for x close to zero.
+Use function "log1p_unchecked" if you want invalid values to return
+-Inf or NaN.`,
+		ArgNames: []string{"x"},
+	}
+	logbUncheckedDoc = FunctionDoc{
+		Summary: "Compute base `b` logarithm",
+		Description: `Values <= 0 return -Inf or NaN. Null values return null.
+Use function "logb" if you want non-positive values to raise an error.`,
+		ArgNames: []string{"x", "b"},
+	}
+	logbDoc = FunctionDoc{
+		Summary: "Compute base `b` logarithm",
+		Description: `Values <= 0 returns an error. Null values return null.
+Use function "logb_unchecked" if you want non-positive values to return
+-Inf or NaN.`,
+		ArgNames: []string{"x", "b"},
+	}
+	floorDoc = FunctionDoc{
+		Summary:     "Round down to the nearest integer",
+		Description: "Compute the largest integer value not greater than `x`",
+		ArgNames:    []string{"x"},
+	}
+	ceilDoc = FunctionDoc{
+		Summary:     "Round up to the nearest integer",
+		Description: "Compute the smallest integer value not less than `x`",
+		ArgNames:    []string{"x"},
+	}
+	truncDoc = FunctionDoc{
+		Summary:     "Compute the integral part",
+		Description: "Compute the nearest integer not greater than `x`",
+		ArgNames:    []string{"x"},
+	}
+	roundDoc = FunctionDoc{
+		Summary: "Round to a given precision",
+		Description: `Options are used to control the number of digits and rounding mode.
+Default behavior is to round to the nearest integer and
+use half-to-even rule to break ties.`,
+		ArgNames:    []string{"x"},
+		OptionsType: "RoundOptions",
+	}
+	roundToMultipleDoc = FunctionDoc{
+		Summary: "Round to a given multiple",
+		Description: `Options are used to control the rounding multiple and rounding mode.
+Default behavior is to round to the nearest integer and
+use half-to-even rule to break ties.`,
+		ArgNames:    []string{"x"},
+		OptionsType: "RoundToMultipleOptions",
+	}
+)
+
+func RegisterScalarArithmetic(reg FunctionRegistry) {
+	ops := []struct {
+		funcName   string
+		op         kernels.ArithmeticOp
+		decPromote decimalPromotion
+		doc        FunctionDoc
+	}{
+		{"add_unchecked", kernels.OpAdd, decPromoteAdd, addUncheckedDoc},
+		{"add", kernels.OpAddChecked, decPromoteAdd, addDoc},
+	}
+
+	for _, o := range ops {
+		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), o.decPromote}
+		kns := append(kernels.GetArithmeticBinaryKernels(o.op), kernels.GetDecimalBinaryKernels(o.op)...)
+		kns = append(kns, kernels.GetArithmeticFunctionTimeDuration(o.op)...)
+		for _, k := range kns {
+			if err := fn.AddKernel(k); err != nil {
+				panic(err)
+			}
+		}
+
+		for _, unit := range arrow.TimeUnitValues {
+			inType := exec.NewMatchedInput(exec.TimestampTypeUnit(unit))
+			inDuration := exec.NewExactInput(&arrow.DurationType{Unit: unit})
+			ex := kernels.ArithmeticExecSameType(arrow.TIMESTAMP, o.op)
+			err := fn.AddNewKernel([]exec.InputType{inType, inDuration}, kernels.OutputFirstType, ex, nil)
+			if err != nil {
+				panic(err)
+			}
+			err = fn.AddNewKernel([]exec.InputType{inDuration, inType}, kernels.OutputLastType, ex, nil)
+			if err != nil {
+				panic(err)
+			}
+
+			matchDur := exec.NewMatchedInput(exec.DurationTypeUnit(unit))
+			ex = kernels.ArithmeticExecSameType(arrow.DURATION, o.op)
+			err = fn.AddNewKernel([]exec.InputType{matchDur, matchDur}, exec.NewOutputType(&arrow.DurationType{Unit: unit}), ex, nil)
+			if err != nil {
+				panic(err)
+			}
+		}
+
+		reg.AddFunction(fn, false)
+	}
+
+	ops = []struct {
+		funcName   string
+		op         kernels.ArithmeticOp
+		decPromote decimalPromotion
+		doc        FunctionDoc
+	}{
+		{"sub_unchecked", kernels.OpSub, decPromoteAdd, subUncheckedDoc},
+		{"sub", kernels.OpSubChecked, decPromoteAdd, subDoc},
+	}
+
+	for _, o := range ops {
+		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), o.decPromote}
+		kns := append(kernels.GetArithmeticBinaryKernels(o.op), kernels.GetDecimalBinaryKernels(o.op)...)
+		kns = append(kns, kernels.GetArithmeticFunctionTimeDuration(o.op)...)
+		for _, k := range kns {
+			if err := fn.AddKernel(k); err != nil {
+				panic(err)
+			}
+		}
+
+		for _, unit := range arrow.TimeUnitValues {
+			// timestamp - timestamp => duration
+			inType := exec.NewMatchedInput(exec.TimestampTypeUnit(unit))
+			ex := kernels.ArithmeticExecSameType(arrow.TIMESTAMP, o.op)
+			err := fn.AddNewKernel([]exec.InputType{inType, inType}, kernels.OutputResolveTemporal, ex, nil)
+			if err != nil {
+				panic(err)
+			}
+
+			// timestamp - duration => timestamp
+			inDuration := exec.NewExactInput(&arrow.DurationType{Unit: unit})
+			ex = kernels.ArithmeticExecSameType(arrow.TIMESTAMP, o.op)
+			err = fn.AddNewKernel([]exec.InputType{inType, inDuration}, kernels.OutputFirstType, ex, nil)
+			if err != nil {
+				panic(err)
+			}
+
+			// duration - duration = duration
+			matchDur := exec.NewMatchedInput(exec.DurationTypeUnit(unit))
+			ex = kernels.ArithmeticExecSameType(arrow.DURATION, o.op)
+			err = fn.AddNewKernel([]exec.InputType{matchDur, matchDur}, exec.NewOutputType(&arrow.DurationType{Unit: unit}), ex, nil)
+			if err != nil {
+				panic(err)
+			}
+		}
+
+		// time32 - time32 = duration
+		for _, unit := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond} {
+			inType := exec.NewMatchedInput(exec.Time32TypeUnit(unit))
+			internalEx := kernels.ArithmeticExecSameType(arrow.TIME32, o.op)
+			ex := func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+				if err := internalEx(ctx, batch, out); err != nil {
+					return err
+				}
+				// the allocated space is for duration (an int64) but we
+				// wrote the time32 - time32 as if the output was time32
+				// so a quick copy in reverse expands the int32s to int64.
+				rawData := exec.GetData[int32](out.Buffers[1].Buf)
+				outData := exec.GetData[int64](out.Buffers[1].Buf)
+
+				for i := out.Len - 1; i >= 0; i-- {
+					outData[i] = int64(rawData[i])
+				}
+				return nil
+			}
+
+			err := fn.AddNewKernel([]exec.InputType{inType, inType},
+				exec.NewOutputType(&arrow.DurationType{Unit: unit}), ex, nil)
+			if err != nil {
+				panic(err)
+			}
+		}
+
+		// time64 - time64 = duration
+		for _, unit := range []arrow.TimeUnit{arrow.Microsecond, arrow.Nanosecond} {
+			inType := exec.NewMatchedInput(exec.Time64TypeUnit(unit))
+			ex := kernels.ArithmeticExecSameType(arrow.TIME64, o.op)
+			err := fn.AddNewKernel([]exec.InputType{inType, inType}, exec.NewOutputType(&arrow.DurationType{Unit: unit}), ex, nil)
+			if err != nil {
+				panic(err)
+			}
+		}
+
+		inDate32 := exec.NewExactInput(arrow.FixedWidthTypes.Date32)
+		ex := kernels.SubtractDate32(o.op)
+		err := fn.AddNewKernel([]exec.InputType{inDate32, inDate32}, exec.NewOutputType(arrow.FixedWidthTypes.Duration_s), ex, nil)
+		if err != nil {
+			panic(err)
+		}
+
+		inDate64 := exec.NewExactInput(arrow.FixedWidthTypes.Date64)
+		ex = kernels.ArithmeticExecSameType(arrow.DATE64, o.op)
+		err = fn.AddNewKernel([]exec.InputType{inDate64, inDate64}, exec.NewOutputType(arrow.FixedWidthTypes.Duration_ms), ex, nil)
+		if err != nil {
+			panic(err)
+		}
+
+		reg.AddFunction(fn, false)
+	}
+
+	oplist := []struct {
+		funcName    string
+		op          kernels.ArithmeticOp
+		decPromote  decimalPromotion
+		doc         FunctionDoc
+		commutative bool
+	}{
+		{"multiply_unchecked", kernels.OpMul, decPromoteMultiply, mulUncheckedDoc, true},
+		{"multiply", kernels.OpMulChecked, decPromoteMultiply, mulDoc, true},
+		{"divide_unchecked", kernels.OpDiv, decPromoteDivide, divUncheckedDoc, false},
+		{"divide", kernels.OpDivChecked, decPromoteDivide, divDoc, false},
+	}
+
+	for _, o := range oplist {
+		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), o.decPromote}
+		for _, k := range append(kernels.GetArithmeticBinaryKernels(o.op), kernels.GetDecimalBinaryKernels(o.op)...) {
+			if err := fn.AddKernel(k); err != nil {
+				panic(err)
+			}
+		}
+
+		for _, unit := range arrow.TimeUnitValues {
+			durInput := exec.NewExactInput(&arrow.DurationType{Unit: unit})
+			i64Input := exec.NewExactInput(arrow.PrimitiveTypes.Int64)
+			durOutput := exec.NewOutputType(&arrow.DurationType{Unit: unit})
+			ex := kernels.ArithmeticExecSameType(arrow.DURATION, o.op)
+			err := fn.AddNewKernel([]exec.InputType{durInput, i64Input}, durOutput, ex, nil)
+			if err != nil {
+				panic(err)
+			}
+			if o.commutative {
+				err = fn.AddNewKernel([]exec.InputType{i64Input, durInput}, durOutput, ex, nil)
+				if err != nil {
+					panic(err)
+				}
+			}
+		}
+
+		reg.AddFunction(fn, false)
+	}
+
+	ops = []struct {
+		funcName   string
+		op         kernels.ArithmeticOp
+		decPromote decimalPromotion
+		doc        FunctionDoc
+	}{
+		{"abs_unchecked", kernels.OpAbsoluteValue, decPromoteNone, absoluteValueUncheckedDoc},
+		{"abs", kernels.OpAbsoluteValueChecked, decPromoteNone, absoluteValueDoc},
+		{"negate_unchecked", kernels.OpNegate, decPromoteNone, negateUncheckedDoc},
+	}
+
+	for _, o := range ops {
+		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Unary(), o.doc), decPromoteNone}
+		kns := append(kernels.GetArithmeticUnaryKernels(o.op), kernels.GetDecimalUnaryKernels(o.op)...)
+		for _, k := range kns {
+			if err := fn.AddKernel(k); err != nil {
+				panic(err)
+			}
+		}
+
+		reg.AddFunction(fn, false)
+	}
+
+	fn := &arithmeticFunction{*NewScalarFunction("negate", Unary(), negateDoc), decPromoteNone}
+	kns := append(kernels.GetArithmeticUnarySignedKernels(kernels.OpNegateChecked), kernels.GetDecimalUnaryKernels(kernels.OpNegateChecked)...)
+	for _, k := range kns {
+		if err := fn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+
+	reg.AddFunction(fn, false)
+
+	ops = []struct {
+		funcName   string
+		op         kernels.ArithmeticOp
+		decPromote decimalPromotion
+		doc        FunctionDoc
+	}{
+		{"sqrt_unchecked", kernels.OpSqrt, decPromoteNone, sqrtUncheckedDoc},
+		{"sqrt", kernels.OpSqrtChecked, decPromoteNone, sqrtDoc},
+		{"sin_unchecked", kernels.OpSin, decPromoteNone, sinUncheckedDoc},
+		{"sin", kernels.OpSinChecked, decPromoteNone, sinDoc},
+		{"cos_unchecked", kernels.OpCos, decPromoteNone, cosUncheckedDoc},
+		{"cos", kernels.OpCosChecked, decPromoteNone, cosDoc},
+		{"tan_unchecked", kernels.OpTan, decPromoteNone, tanUncheckedDoc},
+		{"tan", kernels.OpTanChecked, decPromoteNone, tanDoc},
+		{"asin_unchecked", kernels.OpAsin, decPromoteNone, asinUncheckedDoc},
+		{"asin", kernels.OpAsinChecked, decPromoteNone, asinDoc},
+		{"acos_unchecked", kernels.OpAcos, decPromoteNone, acosUncheckedDoc},
+		{"acos", kernels.OpAcosChecked, decPromoteNone, acosDoc},
+		{"atan", kernels.OpAtan, decPromoteNone, atanDoc},
+		{"ln_unchecked", kernels.OpLn, decPromoteNone, lnUncheckedDoc},
+		{"ln", kernels.OpLnChecked, decPromoteNone, lnDoc},
+		{"log10_unchecked", kernels.OpLog10, decPromoteNone, log10UncheckedDoc},
+		{"log10", kernels.OpLog10Checked, decPromoteNone, log10Doc},
+		{"log2_unchecked", kernels.OpLog2, decPromoteNone, log2UncheckedDoc},
+		{"log2", kernels.OpLog2Checked, decPromoteNone, log2Doc},
+		{"log1p_unchecked", kernels.OpLog1p, decPromoteNone, log1pUncheckedDoc},
+		{"log1p", kernels.OpLog1pChecked, decPromoteNone, log1pDoc},
+	}
+
+	for _, o := range ops {
+		fn := &arithmeticFloatingPointFunc{arithmeticFunction{*NewScalarFunction(o.funcName, Unary(), o.doc), decPromoteNone}}
+		kns := kernels.GetArithmeticUnaryFloatingPointKernels(o.op)
+		for _, k := range kns {
+			if err := fn.AddKernel(k); err != nil {
+				panic(err)
+			}
+		}
+
+		reg.AddFunction(fn, false)
+	}
+
+	ops = []struct {
+		funcName   string
+		op         kernels.ArithmeticOp
+		decPromote decimalPromotion
+		doc        FunctionDoc
+	}{
+		{"atan2", kernels.OpAtan2, decPromoteNone, atan2Doc},
+		{"logb_unchecked", kernels.OpLogb, decPromoteNone, logbUncheckedDoc},
+		{"logb", kernels.OpLogbChecked, decPromoteNone, logbDoc},
+	}
+
+	for _, o := range ops {
+		fn := &arithmeticFloatingPointFunc{arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), addDoc), decPromoteNone}}
+		kns := kernels.GetArithmeticFloatingPointKernels(o.op)
+		for _, k := range kns {
+			if err := fn.AddKernel(k); err != nil {
+				panic(err)
+			}
+		}
+
+		reg.AddFunction(fn, false)
+	}
+
+	fn = &arithmeticFunction{*NewScalarFunction("sign", Unary(), signDoc), decPromoteNone}
+	kns = kernels.GetArithmeticUnaryFixedIntOutKernels(arrow.PrimitiveTypes.Int8, kernels.OpSign)
+	for _, k := range kns {
+		if err := fn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+
+	reg.AddFunction(fn, false)
+
+	ops = []struct {
+		funcName   string
+		op         kernels.ArithmeticOp
+		decPromote decimalPromotion
+		doc        FunctionDoc
+	}{
+		{"power_unchecked", kernels.OpPower, decPromoteNone, powUncheckedDoc},
+		{"power", kernels.OpPowerChecked, decPromoteNone, powDoc},
+	}
+
+	for _, o := range ops {
+		fn := &arithmeticDecimalToFloatingPointFunc{arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), o.decPromote}}
+		kns := kernels.GetArithmeticBinaryKernels(o.op)
+		for _, k := range kns {
+			if err := fn.AddKernel(k); err != nil {
+				panic(err)
+			}
+		}
+		reg.AddFunction(fn, false)
+	}
+
+	bitWiseOps := []struct {
+		funcName string
+		op       kernels.BitwiseOp
+		doc      FunctionDoc
+	}{
+		{"bit_wise_and", kernels.OpBitAnd, bitWiseAndDoc},
+		{"bit_wise_or", kernels.OpBitOr, bitWiseOrDoc},
+		{"bit_wise_xor", kernels.OpBitXor, bitWiseXorDoc},
+	}
+
+	for _, o := range bitWiseOps {
+		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), decPromoteNone}
+		kns := kernels.GetBitwiseBinaryKernels(o.op)
+		for _, k := range kns {
+			if err := fn.AddKernel(k); err != nil {
+				panic(err)
+			}
+		}
+		reg.AddFunction(fn, false)
+	}
+
+	fn = &arithmeticFunction{*NewScalarFunction("bit_wise_not", Unary(), EmptyFuncDoc), decPromoteNone}
+	for _, k := range kernels.GetBitwiseUnaryKernels() {
+		if err := fn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+
+	reg.AddFunction(fn, false)
+
+	shiftOps := []struct {
+		funcName string
+		dir      kernels.ShiftDir
+		checked  bool
+		doc      FunctionDoc
+	}{
+		{"shift_left", kernels.ShiftLeft, true, shiftLeftDoc},
+		{"shift_left_unchecked", kernels.ShiftLeft, false, shiftLeftUncheckedDoc},
+		{"shift_right", kernels.ShiftRight, true, shiftRightDoc},
+		{"shift_right_unchecked", kernels.ShiftRight, false, shiftRightUncheckedDoc},
+	}
+
+	for _, o := range shiftOps {
+		fn := &arithmeticFunction{*NewScalarFunction(o.funcName, Binary(), o.doc), decPromoteNone}
+		kns := kernels.GetShiftKernels(o.dir, o.checked)
+		for _, k := range kns {
+			if err := fn.AddKernel(k); err != nil {
+				panic(err)
+			}
+		}
+		reg.AddFunction(fn, false)
+	}
+
+	floorFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("floor", Unary(), floorDoc), decPromoteNone}}
+	kns = kernels.GetSimpleRoundKernels(kernels.RoundDown)
+	for _, k := range kns {
+		if err := floorFn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+	floorFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)},
+		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal128.Num](kernels.RoundDown), nil)
+	floorFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)},
+		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal256.Num](kernels.RoundDown), nil)
+	reg.AddFunction(floorFn, false)
+
+	ceilFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("ceil", Unary(), ceilDoc), decPromoteNone}}
+	kns = kernels.GetSimpleRoundKernels(kernels.RoundUp)
+	for _, k := range kns {
+		if err := ceilFn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+	ceilFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)},
+		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal128.Num](kernels.RoundUp), nil)
+	ceilFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)},
+		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal256.Num](kernels.RoundUp), nil)
+	reg.AddFunction(ceilFn, false)
+
+	truncFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("trunc", Unary(), truncDoc), decPromoteNone}}
+	kns = kernels.GetSimpleRoundKernels(kernels.TowardsZero)
+	for _, k := range kns {
+		if err := truncFn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+	truncFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)},
+		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal128.Num](kernels.TowardsZero), nil)
+	truncFn.AddNewKernel([]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)},
+		kernels.OutputFirstType, kernels.FixedRoundDecimalExec[decimal256.Num](kernels.TowardsZero), nil)
+	reg.AddFunction(truncFn, false)
+
+	roundFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("round", Unary(), roundDoc), decPromoteNone}}
+	kns = kernels.GetRoundUnaryKernels(kernels.InitRoundState, kernels.UnaryRoundExec)
+	for _, k := range kns {
+		if err := roundFn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+
+	roundFn.defaultOpts = DefaultRoundOptions
+	reg.AddFunction(roundFn, false)
+
+	roundToMultipleFn := &arithmeticIntegerToFloatingPointFunc{arithmeticFunction{*NewScalarFunction("round_to_multiple", Unary(), roundToMultipleDoc), decPromoteNone}}
+	kns = kernels.GetRoundUnaryKernels(kernels.InitRoundToMultipleState, kernels.UnaryRoundToMultipleExec)
+	for _, k := range kns {
+		if err := roundToMultipleFn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+
+	roundToMultipleFn.defaultOpts = DefaultRoundToMultipleOptions
+	reg.AddFunction(roundToMultipleFn, false)
+}
+
+func impl(ctx context.Context, fn string, opts ArithmeticOptions, left, right Datum) (Datum, error) {
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, left, right)
+}
+
+// Add performs an addition between the passed in arguments (scalar or array)
+// and returns the result. If one argument is a scalar and the other is an
+// array, the scalar value is added to each value of the array.
+//
+// ArithmeticOptions specifies whether or not to check for overflows,
+// performance is faster if not explicitly checking for overflows but
+// will error on an overflow if NoCheckOverflow is false (default).
+func Add(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
+	return impl(ctx, "add", opts, left, right)
+}
+
+// Sub performs a subtraction between the passed in arguments (scalar or array)
+// and returns the result. If one argument is a scalar and the other is an
+// array, the scalar value is subtracted from each value of the array.
+//
+// ArithmeticOptions specifies whether or not to check for overflows,
+// performance is faster if not explicitly checking for overflows but
+// will error on an overflow if NoCheckOverflow is false (default).
+func Subtract(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
+	return impl(ctx, "sub", opts, left, right)
+}
+
+// Multiply performs a multiplication between the passed in arguments (scalar or array)
+// and returns the result. If one argument is a scalar and the other is an
+// array, the scalar value is multiplied against each value of the array.
+//
+// ArithmeticOptions specifies whether or not to check for overflows,
+// performance is faster if not explicitly checking for overflows but
+// will error on an overflow if NoCheckOverflow is false (default).
+func Multiply(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
+	return impl(ctx, "multiply", opts, left, right)
+}
+
+// Divide performs a division between the passed in arguments (scalar or array)
+// and returns the result. If one argument is a scalar and the other is an
+// array, the scalar value is used with each value of the array.
+//
+// ArithmeticOptions specifies whether or not to check for overflows,
+// performance is faster if not explicitly checking for overflows but
+// will error on an overflow if NoCheckOverflow is false (default).
+//
+// Will error on divide by zero regardless of whether or not checking for
+// overflows.
+func Divide(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
+	return impl(ctx, "divide", opts, left, right)
+}
+
+// AbsoluteValue returns the AbsoluteValue for each element in the input
+// argument. It accepts either a scalar or an array.
+//
+// ArithmeticOptions specifies whether or not to check for overflows,
+// performance is faster if not explicitly checking for overflows but
+// will error on an overflow if CheckOverflow is true.
+func AbsoluteValue(ctx context.Context, opts ArithmeticOptions, input Datum) (Datum, error) {
+	fn := "abs"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, input)
+}
+
+// Negate returns a result containing the negation of each element in the
+// input argument. It accepts either a scalar or an array.
+//
+// ArithmeticOptions specifies whether or not to check for overflows,
+// or to throw an error on unsigned types.
+func Negate(ctx context.Context, opts ArithmeticOptions, input Datum) (Datum, error) {
+	fn := "negate"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, input)
+}
+
+// Sign returns -1, 0, or 1 depending on the sign of each element in the
+// input. For x in the input:
+//
+//	if x > 0: 1
+//  if x < 0: -1
+//  if x == 0: 0
+//
+func Sign(ctx context.Context, input Datum) (Datum, error) {
+	return CallFunction(ctx, "sign", nil, input)
+}
+
+// Power returns base**exp for each element in the input arrays. Should work
+// for both Arrays and Scalars
+func Power(ctx context.Context, opts ArithmeticOptions, base, exp Datum) (Datum, error) {
+	fn := "power"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, base, exp)
+}
+
+// ShiftLeft only accepts integral types and shifts each element of the
+// first argument to the left by the value of the corresponding element
+// in the second argument.
+//
+// The value to shift by should be >= 0 and < precision of the type.
+func ShiftLeft(ctx context.Context, opts ArithmeticOptions, lhs, rhs Datum) (Datum, error) {
+	fn := "shift_left"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, lhs, rhs)
+}
+
+// ShiftRight only accepts integral types and shifts each element of the
+// first argument to the right by the value of the corresponding element
+// in the second argument.
+//
+// The value to shift by should be >= 0 and < precision of the type.
+func ShiftRight(ctx context.Context, opts ArithmeticOptions, lhs, rhs Datum) (Datum, error) {
+	fn := "shift_right"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, lhs, rhs)
+}
+
+func Sin(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
+	fn := "sin"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, arg)
+}
+
+func Cos(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
+	fn := "cos"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, arg)
+}
+
+func Tan(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
+	fn := "tan"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, arg)
+}
+
+func Asin(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
+	fn := "asin"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, arg)
+}
+
+func Acos(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
+	fn := "acos"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, arg)
+}
+
+func Atan(ctx context.Context, arg Datum) (Datum, error) {
+	return CallFunction(ctx, "atan", nil, arg)
+}
+
+func Atan2(ctx context.Context, x, y Datum) (Datum, error) {
+	return CallFunction(ctx, "atan2", nil, x, y)
+}
+
+func Ln(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
+	fn := "ln"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, arg)
+}
+
+func Log10(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
+	fn := "log10"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, arg)
+}
+
+func Log2(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
+	fn := "log2"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, arg)
+}
+
+func Log1p(ctx context.Context, opts ArithmeticOptions, arg Datum) (Datum, error) {
+	fn := "log1p"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, arg)
+}
+
+func Logb(ctx context.Context, opts ArithmeticOptions, x, base Datum) (Datum, error) {
+	fn := "logb"
+	if opts.NoCheckOverflow {
+		fn += "_unchecked"
+	}
+	return CallFunction(ctx, fn, nil, x, base)
+}
+
+func Round(ctx context.Context, opts RoundOptions, arg Datum) (Datum, error) {
+	return CallFunction(ctx, "round", &opts, arg)
+}
+
+func RoundToMultiple(ctx context.Context, opts RoundToMultipleOptions, arg Datum) (Datum, error) {
+	return CallFunction(ctx, "round_to_multiple", &opts, arg)
+}
diff --git a/go/arrow/compute/arithmetic_test.go b/go/arrow/compute/arithmetic_test.go
new file mode 100644
index 00000000000..dc6aa6243ef
--- /dev/null
+++ b/go/arrow/compute/arithmetic_test.go
@@ -0,0 +1,3504 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute_test
+
+import (
+	"context"
+	"fmt"
+	"math"
+	"strings"
+	"testing"
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/compute"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/kernels"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/gen"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"github.com/klauspost/cpuid/v2"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
+	"github.com/stretchr/testify/suite"
+	"golang.org/x/exp/constraints"
+)
+
+var (
+	CpuCacheSizes = [...]int{ // defaults
+		32 * 1024,   // level 1: 32K
+		256 * 1024,  // level 2: 256K
+		3072 * 1024, // level 3: 3M
+	}
+)
+
+func init() {
+	if cpuid.CPU.Cache.L1D != -1 {
+		CpuCacheSizes[0] = cpuid.CPU.Cache.L1D
+	}
+	if cpuid.CPU.Cache.L2 != -1 {
+		CpuCacheSizes[1] = cpuid.CPU.Cache.L2
+	}
+	if cpuid.CPU.Cache.L3 != -1 {
+		CpuCacheSizes[2] = cpuid.CPU.Cache.L3
+	}
+}
+
+func assertNullToNull(t *testing.T, ctx context.Context, fn string, mem memory.Allocator) {
+	f, ok := compute.GetFunctionRegistry().GetFunction(fn)
+	require.True(t, ok)
+	nulls := array.MakeArrayOfNull(mem, arrow.Null, 7)
+	defer nulls.Release()
+	n := f.Arity().NArgs
+
+	t.Run("null to null array", func(t *testing.T) {
+		args := make([]compute.Datum, n)
+		for i := 0; i < n; i++ {
+			args[i] = &compute.ArrayDatum{nulls.Data()}
+		}
+
+		result, err := compute.CallFunction(ctx, fn, nil, args...)
+		assert.NoError(t, err)
+		defer result.Release()
+		out := result.(*compute.ArrayDatum).MakeArray()
+		defer out.Release()
+		assertArraysEqual(t, nulls, out)
+	})
+
+	t.Run("null to null scalar", func(t *testing.T) {
+		args := make([]compute.Datum, n)
+		for i := 0; i < n; i++ {
+			args[i] = compute.NewDatum(scalar.ScalarNull)
+		}
+
+		result, err := compute.CallFunction(ctx, fn, nil, args...)
+		assert.NoError(t, err)
+		assertScalarEquals(t, scalar.ScalarNull, result.(*compute.ScalarDatum).Value)
+	})
+}
+
+type fnOpts interface {
+	compute.ArithmeticOptions | compute.RoundOptions | compute.RoundToMultipleOptions
+}
+
+type unaryArithmeticFunc[O fnOpts] func(context.Context, O, compute.Datum) (compute.Datum, error)
+
+// type unaryFunc = func(compute.Datum) (compute.Datum, error)
+
+type binaryArithmeticFunc = func(context.Context, compute.ArithmeticOptions, compute.Datum, compute.Datum) (compute.Datum, error)
+
+type binaryFunc = func(left, right compute.Datum) (compute.Datum, error)
+
+func assertScalarEquals(t *testing.T, expected, actual scalar.Scalar, opt ...scalar.EqualOption) {
+	assert.Truef(t, scalar.ApproxEquals(expected, actual, opt...), "expected: %s\ngot: %s", expected, actual)
+}
+
+func assertBinop(t *testing.T, fn binaryFunc, left, right, expected arrow.Array, opt []array.EqualOption, scalarOpt []scalar.EqualOption) {
+	actual, err := fn(&compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()})
+	require.NoError(t, err)
+	defer actual.Release()
+	assertDatumsEqual(t, &compute.ArrayDatum{Value: expected.Data()}, actual, opt, scalarOpt)
+
+	// also check (Scalar, Scalar) operations
+	for i := 0; i < expected.Len(); i++ {
+		s, err := scalar.GetScalar(expected, i)
+		require.NoError(t, err)
+		lhs, _ := scalar.GetScalar(left, i)
+		rhs, _ := scalar.GetScalar(right, i)
+
+		actual, err := fn(&compute.ScalarDatum{Value: lhs}, &compute.ScalarDatum{Value: rhs})
+		assert.NoError(t, err)
+		assertScalarEquals(t, s, actual.(*compute.ScalarDatum).Value, scalarOpt...)
+	}
+}
+
+func assertBinopErr(t *testing.T, fn binaryFunc, left, right arrow.Array, expectedMsg string) {
+	_, err := fn(&compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{Value: right.Data()})
+	assert.ErrorIs(t, err, arrow.ErrInvalid)
+	assert.ErrorContains(t, err, expectedMsg)
+}
+
+type BinaryFuncTestSuite struct {
+	suite.Suite
+
+	mem *memory.CheckedAllocator
+	ctx context.Context
+}
+
+func (b *BinaryFuncTestSuite) SetupTest() {
+	b.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
+	b.ctx = compute.WithAllocator(context.TODO(), b.mem)
+}
+
+func (b *BinaryFuncTestSuite) TearDownTest() {
+	b.mem.AssertSize(b.T(), 0)
+}
+
+func (b *BinaryFuncTestSuite) getArr(dt arrow.DataType, str string) arrow.Array {
+	arr, _, err := array.FromJSON(b.mem, dt, strings.NewReader(str), array.WithUseNumber())
+	b.Require().NoError(err)
+	return arr
+}
+
+type Float16BinaryFuncTestSuite struct {
+	BinaryFuncTestSuite
+}
+
+func (b *Float16BinaryFuncTestSuite) assertBinopErr(fn binaryFunc, lhs, rhs string) {
+	left, _, _ := array.FromJSON(b.mem, arrow.FixedWidthTypes.Float16, strings.NewReader(lhs), array.WithUseNumber())
+	defer left.Release()
+	right, _, _ := array.FromJSON(b.mem, arrow.FixedWidthTypes.Float16, strings.NewReader(rhs), array.WithUseNumber())
+	defer right.Release()
+
+	_, err := fn(&compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()})
+	b.ErrorIs(err, arrow.ErrNotImplemented)
+}
+
+func (b *Float16BinaryFuncTestSuite) TestAdd() {
+	for _, overflow := range []bool{false, true} {
+		b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
+			opts := compute.ArithmeticOptions{NoCheckOverflow: overflow}
+			b.assertBinopErr(func(left, right compute.Datum) (compute.Datum, error) {
+				return compute.Add(b.ctx, opts, left, right)
+			}, `[1.5]`, `[1.5]`)
+		})
+	}
+}
+
+func (b *Float16BinaryFuncTestSuite) TestSub() {
+	for _, overflow := range []bool{false, true} {
+		b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
+			opts := compute.ArithmeticOptions{NoCheckOverflow: overflow}
+			b.assertBinopErr(func(left, right compute.Datum) (compute.Datum, error) {
+				return compute.Subtract(b.ctx, opts, left, right)
+			}, `[1.5]`, `[1.5]`)
+		})
+	}
+}
+
+type BinaryArithmeticSuite[T exec.NumericTypes] struct {
+	BinaryFuncTestSuite
+
+	opts            compute.ArithmeticOptions
+	min, max        T
+	equalOpts       []array.EqualOption
+	scalarEqualOpts []scalar.EqualOption
+}
+
+func (BinaryArithmeticSuite[T]) DataType() arrow.DataType {
+	return exec.GetDataType[T]()
+}
+
+func (b *BinaryArithmeticSuite[T]) setNansEqual(val bool) {
+	b.equalOpts = []array.EqualOption{array.WithNaNsEqual(val)}
+	b.scalarEqualOpts = []scalar.EqualOption{scalar.WithNaNsEqual(val)}
+}
+
+func (b *BinaryArithmeticSuite[T]) SetupTest() {
+	b.BinaryFuncTestSuite.SetupTest()
+	b.opts.NoCheckOverflow = false
+}
+
+func (b *BinaryArithmeticSuite[T]) makeNullScalar() scalar.Scalar {
+	return scalar.MakeNullScalar(b.DataType())
+}
+
+func (b *BinaryArithmeticSuite[T]) makeScalar(val T) scalar.Scalar {
+	return scalar.MakeScalar(val)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopScalars(fn binaryArithmeticFunc, lhs, rhs T, expected T) {
+	left, right := b.makeScalar(lhs), b.makeScalar(rhs)
+	exp := b.makeScalar(expected)
+
+	actual, err := fn(b.ctx, b.opts, &compute.ScalarDatum{Value: left}, &compute.ScalarDatum{Value: right})
+	b.NoError(err)
+	sc := actual.(*compute.ScalarDatum).Value
+
+	assertScalarEquals(b.T(), exp, sc)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopScalarValArr(fn binaryArithmeticFunc, lhs T, rhs, expected string) {
+	left := b.makeScalar(lhs)
+	b.assertBinopScalarArr(fn, left, rhs, expected)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopScalarArr(fn binaryArithmeticFunc, lhs scalar.Scalar, rhs, expected string) {
+	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs))
+	defer right.Release()
+	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected))
+	defer exp.Release()
+
+	actual, err := fn(b.ctx, b.opts, &compute.ScalarDatum{Value: lhs}, &compute.ArrayDatum{Value: right.Data()})
+	b.NoError(err)
+	defer actual.Release()
+	assertDatumsEqual(b.T(), &compute.ArrayDatum{Value: exp.Data()}, actual, b.equalOpts, b.scalarEqualOpts)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopArrScalarExpArr(fn binaryArithmeticFunc, lhs string, rhs scalar.Scalar, exp arrow.Array) {
+	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs))
+	defer left.Release()
+
+	actual, err := fn(b.ctx, b.opts, &compute.ArrayDatum{left.Data()}, compute.NewDatum(rhs))
+	b.Require().NoError(err)
+	defer actual.Release()
+	assertDatumsEqual(b.T(), &compute.ArrayDatum{exp.Data()}, actual, b.equalOpts, b.scalarEqualOpts)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopArrScalarVal(fn binaryArithmeticFunc, lhs string, rhs T, expected string) {
+	right := b.makeScalar(rhs)
+	b.assertBinopArrScalar(fn, lhs, right, expected)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopArrScalar(fn binaryArithmeticFunc, lhs string, rhs scalar.Scalar, expected string) {
+	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs))
+	defer left.Release()
+	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected))
+	defer exp.Release()
+
+	actual, err := fn(b.ctx, b.opts, &compute.ArrayDatum{Value: left.Data()}, &compute.ScalarDatum{Value: rhs})
+	b.NoError(err)
+	defer actual.Release()
+	assertDatumsEqual(b.T(), &compute.ArrayDatum{Value: exp.Data()}, actual, b.equalOpts, b.scalarEqualOpts)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopArrs(fn binaryArithmeticFunc, lhs, rhs, exp arrow.Array) {
+	assertBinop(b.T(), func(left, right compute.Datum) (compute.Datum, error) {
+		return fn(b.ctx, b.opts, left, right)
+	}, lhs, rhs, exp, b.equalOpts, b.scalarEqualOpts)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopExpArr(fn binaryArithmeticFunc, lhs, rhs string, exp arrow.Array) {
+	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs), array.WithUseNumber())
+	defer left.Release()
+	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs), array.WithUseNumber())
+	defer right.Release()
+
+	b.assertBinopArrs(fn, left, right, exp)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinop(fn binaryArithmeticFunc, lhs, rhs, expected string) {
+	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs), array.WithUseNumber())
+	defer left.Release()
+	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs), array.WithUseNumber())
+	defer right.Release()
+	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected), array.WithUseNumber())
+	defer exp.Release()
+
+	b.assertBinopArrs(fn, left, right, exp)
+}
+
+func (b *BinaryArithmeticSuite[T]) setOverflowCheck(value bool) {
+	b.opts.NoCheckOverflow = !value
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopErr(fn binaryArithmeticFunc, lhs, rhs, expectedMsg string) {
+	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs), array.WithUseNumber())
+	defer left.Release()
+	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs), array.WithUseNumber())
+	defer right.Release()
+
+	assertBinopErr(b.T(), func(left, right compute.Datum) (compute.Datum, error) {
+		return fn(b.ctx, b.opts, left, right)
+	}, left, right, expectedMsg)
+}
+
+func (b *BinaryArithmeticSuite[T]) TestAdd() {
+	b.Run(b.DataType().String(), func() {
+		for _, overflow := range []bool{false, true} {
+			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
+				b.setOverflowCheck(overflow)
+
+				b.assertBinop(compute.Add, `[]`, `[]`, `[]`)
+				b.assertBinop(compute.Add, `[3, 2, 6]`, `[1, 0, 2]`, `[4, 2, 8]`)
+				// nulls on one side
+				b.assertBinop(compute.Add, `[null, 1, null]`, `[3, 4, 5]`, `[null, 5, null]`)
+				b.assertBinop(compute.Add, `[3, 4, 5]`, `[null, 1, null]`, `[null, 5, null]`)
+				// nulls on both sides
+				b.assertBinop(compute.Add, `[null, 1, 2]`, `[3, 4, null]`, `[null, 5, null]`)
+				// all nulls
+				b.assertBinop(compute.Add, `[null]`, `[null]`, `[null]`)
+
+				// scalar on the left
+				b.assertBinopScalarValArr(compute.Add, 3, `[1, 2]`, `[4, 5]`)
+				b.assertBinopScalarValArr(compute.Add, 3, `[null, 2]`, `[null, 5]`)
+				b.assertBinopScalarArr(compute.Add, b.makeNullScalar(), `[1, 2]`, `[null, null]`)
+				b.assertBinopScalarArr(compute.Add, b.makeNullScalar(), `[null, 2]`, `[null, null]`)
+				// scalar on the right
+				b.assertBinopArrScalarVal(compute.Add, `[1, 2]`, 3, `[4, 5]`)
+				b.assertBinopArrScalarVal(compute.Add, `[null, 2]`, 3, `[null, 5]`)
+				b.assertBinopArrScalar(compute.Add, `[1, 2]`, b.makeNullScalar(), `[null, null]`)
+				b.assertBinopArrScalar(compute.Add, `[null, 2]`, b.makeNullScalar(), `[null, null]`)
+
+				if !arrow.IsFloating(b.DataType().ID()) && overflow {
+					val := fmt.Sprintf("[%v]", b.max)
+					b.assertBinopErr(compute.Add, val, val, "overflow")
+				}
+			})
+		}
+	})
+}
+
+func (b *BinaryArithmeticSuite[T]) TestSub() {
+	b.Run(b.DataType().String(), func() {
+		for _, overflow := range []bool{false, true} {
+			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
+				b.setOverflowCheck(overflow)
+
+				b.assertBinop(compute.Subtract, `[]`, `[]`, `[]`)
+				b.assertBinop(compute.Subtract, `[3, 2, 6]`, `[1, 0, 2]`, `[2, 2, 4]`)
+				// nulls on one side
+				b.assertBinop(compute.Subtract, `[null, 4, null]`, `[2, 1, 0]`, `[null, 3, null]`)
+				b.assertBinop(compute.Subtract, `[3, 4, 5]`, `[null, 1, null]`, `[null, 3, null]`)
+				// nulls on both sides
+				b.assertBinop(compute.Subtract, `[null, 4, 3]`, `[2, 1, null]`, `[null, 3, null]`)
+				// all nulls
+				b.assertBinop(compute.Subtract, `[null]`, `[null]`, `[null]`)
+
+				// scalar on the left
+				b.assertBinopScalarValArr(compute.Subtract, 3, `[1, 2]`, `[2, 1]`)
+				b.assertBinopScalarValArr(compute.Subtract, 3, `[null, 2]`, `[null, 1]`)
+				b.assertBinopScalarArr(compute.Subtract, b.makeNullScalar(), `[1, 2]`, `[null, null]`)
+				b.assertBinopScalarArr(compute.Subtract, b.makeNullScalar(), `[null, 2]`, `[null, null]`)
+				// scalar on the right
+				b.assertBinopArrScalarVal(compute.Subtract, `[4, 5]`, 3, `[1, 2]`)
+				b.assertBinopArrScalarVal(compute.Subtract, `[null, 5]`, 3, `[null, 2]`)
+				b.assertBinopArrScalar(compute.Subtract, `[1, 2]`, b.makeNullScalar(), `[null, null]`)
+				b.assertBinopArrScalar(compute.Subtract, `[null, 2]`, b.makeNullScalar(), `[null, null]`)
+
+				if !arrow.IsFloating(b.DataType().ID()) && overflow {
+					b.assertBinopErr(compute.Subtract, fmt.Sprintf("[%v]", b.min), fmt.Sprintf("[%v]", b.max), "overflow")
+				}
+			})
+		}
+	})
+}
+
+func (b *BinaryArithmeticSuite[T]) TestMuliply() {
+	b.Run(b.DataType().String(), func() {
+		for _, overflow := range []bool{false, true} {
+			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
+				b.setOverflowCheck(overflow)
+
+				b.assertBinop(compute.Multiply, `[]`, `[]`, `[]`)
+				b.assertBinop(compute.Multiply, `[3, 2, 6]`, `[1, 0, 2]`, `[3, 0, 12]`)
+				// nulls on one side
+				b.assertBinop(compute.Multiply, `[null, 2, null]`, `[4, 5, 6]`, `[null, 10, null]`)
+				b.assertBinop(compute.Multiply, `[4, 5, 6]`, `[null, 2, null]`, `[null, 10, null]`)
+				// nulls on both sides
+				b.assertBinop(compute.Multiply, `[null, 2, 3]`, `[4, 5, null]`, `[null, 10, null]`)
+				// all nulls
+				b.assertBinop(compute.Multiply, `[null]`, `[null]`, `[null]`)
+
+				// scalar on left
+				b.assertBinopScalarValArr(compute.Multiply, 3, `[4, 5]`, `[12, 15]`)
+				b.assertBinopScalarValArr(compute.Multiply, 3, `[null, 5]`, `[null, 15]`)
+				b.assertBinopScalarArr(compute.Multiply, b.makeNullScalar(), `[1, 2]`, `[null, null]`)
+				b.assertBinopScalarArr(compute.Multiply, b.makeNullScalar(), `[null, 2]`, `[null, null]`)
+				// scalar on right
+				b.assertBinopArrScalarVal(compute.Multiply, `[4, 5]`, 3, `[12, 15]`)
+				b.assertBinopArrScalarVal(compute.Multiply, `[null, 5]`, 3, `[null, 15]`)
+				b.assertBinopArrScalar(compute.Multiply, `[1, 2]`, b.makeNullScalar(), `[null, null]`)
+				b.assertBinopArrScalar(compute.Multiply, `[null, 2]`, b.makeNullScalar(), `[null, null]`)
+			})
+		}
+	})
+}
+
+func (b *BinaryArithmeticSuite[T]) TestDiv() {
+	b.Run(b.DataType().String(), func() {
+		for _, overflow := range []bool{false, true} {
+			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
+				b.setOverflowCheck(overflow)
+
+				// empty arrays
+				b.assertBinop(compute.Divide, `[]`, `[]`, `[]`)
+				// ordinary arrays
+				b.assertBinop(compute.Divide, `[3, 2, 6]`, `[1, 1, 2]`, `[3, 2, 3]`)
+				// with nulls
+				b.assertBinop(compute.Divide, `[null, 10, 30, null, 20]`, `[1, 5, 2, 5, 10]`, `[null, 2, 15, null, 2]`)
+				if !arrow.IsFloating(b.DataType().ID()) {
+					// scalar divided by array
+					b.assertBinopScalarValArr(compute.Divide, 33, `[null, 1, 3, null, 2]`, `[null, 33, 11, null, 16]`)
+					// array divided by scalar
+					b.assertBinopArrScalarVal(compute.Divide, `[null, 10, 30, null, 2]`, 3, `[null, 3, 10, null, 0]`)
+					// scalar divided by scalar
+					b.assertBinopScalars(compute.Divide, 16, 7, 2)
+				} else {
+					b.assertBinop(compute.Divide, `[3.4, 0.64, 1.28]`, `[1, 2, 4]`, `[3.4, 0.32, 0.32]`)
+					b.assertBinop(compute.Divide, `[null, 1, 3.3, null, 2]`, `[1, 4, 2, 5, 0.1]`, `[null, 0.25, 1.65, null, 20]`)
+					b.assertBinopScalarValArr(compute.Divide, 10, `[null, 1, 2.5, null, 2, 5]`, `[null, 10, 4, null, 5, 2]`)
+					b.assertBinopArrScalarVal(compute.Divide, `[null, 1, 2.5, null, 2, 5]`, 10, `[null, 0.1, 0.25, null, 0.2, 0.5]`)
+
+					b.assertBinop(compute.Divide, `[3.4, "Inf", "-Inf"]`, `[1, 2, 3]`, `[3.4, "Inf", "-Inf"]`)
+					b.setNansEqual(true)
+					b.assertBinop(compute.Divide, `[3.4, "NaN", 2.0]`, `[1, 2, 2.0]`, `[3.4, "NaN", 1.0]`)
+					b.assertBinopScalars(compute.Divide, 21, 3, 7)
+				}
+			})
+		}
+	})
+}
+
+func (b *BinaryArithmeticSuite[T]) TestDivideByZero() {
+	if !arrow.IsFloating(b.DataType().ID()) {
+		for _, checkOverflow := range []bool{false, true} {
+			b.setOverflowCheck(checkOverflow)
+			b.assertBinopErr(compute.Divide, `[3, 2, 6]`, `[1, 1, 0]`, "divide by zero")
+		}
+	} else {
+		b.setOverflowCheck(true)
+		b.assertBinopErr(compute.Divide, `[3, 2, 6]`, `[1, 1, 0]`, "divide by zero")
+		b.assertBinopErr(compute.Divide, `[3, 2, 0]`, `[1, 1, 0]`, "divide by zero")
+		b.assertBinopErr(compute.Divide, `[3, 2, -6]`, `[1, 1, 0]`, "divide by zero")
+
+		b.setOverflowCheck(false)
+		b.setNansEqual(true)
+		b.assertBinop(compute.Divide, `[3, 2, 6]`, `[1, 1, 0]`, `[3, 2, "Inf"]`)
+		b.assertBinop(compute.Divide, `[3, 2, 0]`, `[1, 1, 0]`, `[3, 2, "NaN"]`)
+		b.assertBinop(compute.Divide, `[3, 2, -6]`, `[1, 1, 0]`, `[3, 2, "-Inf"]`)
+	}
+}
+
+func (b *BinaryArithmeticSuite[T]) TestPower() {
+	b.setNansEqual(true)
+	b.Run(b.DataType().String(), func() {
+		for _, checkOverflow := range []bool{false, true} {
+			b.Run(fmt.Sprintf("checkOverflow=%t", checkOverflow), func() {
+				b.setOverflowCheck(checkOverflow)
+
+				b.assertBinop(compute.Power, `[]`, `[]`, `[]`)
+				if !arrow.IsFloating(b.DataType().ID()) {
+					b.assertBinop(compute.Power, `[3, 2, 6, 2]`, `[1, 1, 2, 0]`, `[3, 2, 36, 1]`)
+					b.assertBinop(compute.Power, `[null, 2, 3, null, 20]`, `[1, 6, 2, 5, 1]`, `[null, 64, 9, null, 20]`)
+					b.assertBinopScalarValArr(compute.Power, 3, `[null, 3, 4, null, 2]`, `[null, 27, 81, null, 9]`)
+					b.assertBinopArrScalarVal(compute.Power, `[null, 10, 3, null, 2]`, 2, `[null, 100, 9, null, 4]`)
+					b.assertBinopScalars(compute.Power, 4, 3, 64)
+					b.assertBinop(compute.Power, `[0, 1, 0]`, `[0, 0, 42]`, `[1, 1, 0]`)
+
+					if checkOverflow {
+						b.assertBinopErr(compute.Power, fmt.Sprintf("[%v]", b.max), `[10]`, "overflow")
+					} else {
+						b.assertBinopScalars(compute.Power, b.max, 10, 1)
+					}
+				} else {
+					b.assertBinop(compute.Power, `[3.4, 16, 0.64, 1.2, 0]`, `[1, 0.5, 2, 4, 0]`, `[3.4, 4, 0.4096, 2.0736, 1]`)
+					b.assertBinop(compute.Power, `[null, 1, 3.3, null, 2]`, `[1, 4, 2, 5, 0.1]`, `[null, 1, 10.89, null, 1.07177346]`)
+					b.assertBinopScalarValArr(compute.Power, 10, `[null, 1, 2.5, null, 2, 5]`, `[null, 10, 316.227766017, null, 100, 100000]`)
+					b.assertBinopArrScalarVal(compute.Power, `[null, 1, 2.5, null, 2, 5]`, 10, `[null, 1, 9536.74316406, null, 1024, 9765625]`)
+					b.assertBinop(compute.Power, `[3.4, "Inf", "-Inf", 1.1, 10000]`, `[1, 2, 3, "Inf", 100000]`, `[3.4, "Inf", "-Inf", "Inf", "Inf"]`)
+					b.assertBinop(compute.Power, `[3.4, "NaN", 2.0]`, `[1, 2, 2.0]`, `[3.4, "NaN", 4.0]`)
+					b.assertBinop(compute.Power, `[0.0, 0.0]`, `[-1.0, -3.0]`, `["Inf", "Inf"]`)
+				}
+			})
+		}
+	})
+}
+
+type BinaryFloatingArithmeticSuite[T constraints.Float] struct {
+	BinaryArithmeticSuite[T]
+
+	smallest T
+}
+
+func (bs *BinaryFloatingArithmeticSuite[T]) TestTrigAtan2() {
+	bs.setNansEqual(true)
+	atan2 := func(ctx context.Context, _ compute.ArithmeticOptions, x, y compute.Datum) (compute.Datum, error) {
+		return compute.Atan2(ctx, x, y)
+	}
+
+	bs.assertBinop(atan2, `[]`, `[]`, `[]`)
+	bs.assertBinop(atan2, `[0, 0, null, "NaN"]`, `[null, "NaN", 0, 0]`, `[null, "NaN", null, "NaN"]`)
+	bs.assertBinop(atan2, `[0, 0, -0.0, 0, -0.0, 0, 1, 0, -1, "Inf", "-Inf", 0, 0]`,
+		`[0, 0, 0, -0.0, -0.0, 1, 0, -1, 0, 0, 0, "Inf", "-Inf"]`,
+		fmt.Sprintf("[0, 0, -0.0, %f, %f, 0, %f, %f, %f, %f, %f, 0, %f]",
+			math.Pi, -math.Pi, math.Pi/2, math.Pi, -math.Pi/2, math.Pi/2, -math.Pi/2, math.Pi))
+}
+
+func (bs *BinaryFloatingArithmeticSuite[T]) TestLog() {
+	bs.setNansEqual(true)
+	for _, overflow := range []bool{false, true} {
+		bs.setOverflowCheck(overflow)
+		bs.assertBinop(compute.Logb, `[1, 10, null, "NaN", "Inf"]`, `[100, 10, null, 2, 10]`,
+			`[0, 1, null, "NaN", "Inf"]`)
+		bs.assertBinopScalars(compute.Logb, bs.smallest, 10, T(math.Log(float64(bs.smallest))/math.Log(10)))
+		bs.assertBinopScalars(compute.Logb, bs.max, 10, T(math.Log(float64(bs.max))/math.Log(10)))
+	}
+
+	bs.setOverflowCheck(true)
+	bs.assertBinop(compute.Logb, `[1, 10, null]`, `[10, 10, null]`, `[0, 1, null]`)
+	bs.assertBinop(compute.Logb, `[1, 2, null]`, `[2, 2, null]`, `[0, 1, null]`)
+	bs.assertBinopArrScalarVal(compute.Logb, `[10, 100, 1000, null]`, 10, `[1, 2, 3, null]`)
+	bs.assertBinopArrScalarVal(compute.Logb, `[1, 2, 4, 8]`, 0.25, `[-0.0, -0.5, -1.0, -1.5]`)
+
+	bs.setOverflowCheck(false)
+	bs.assertBinopArrScalarVal(compute.Logb, `["-Inf", -1, 0, "Inf"]`, 10, `["NaN", "NaN", "-Inf", "Inf"]`)
+	bs.assertBinopArrScalarVal(compute.Logb, `["-Inf", -1, 0, "Inf"]`, 2, `["NaN", "NaN", "-Inf", "Inf"]`)
+	bs.assertBinop(compute.Logb, `["-Inf", -1, 0, "Inf"]`, `[2, 10, 0, 0]`, `["NaN", "NaN", "NaN", "NaN"]`)
+	bs.assertBinopArrScalarVal(compute.Logb, `["-Inf", -1, 0, "Inf"]`, 0, `["NaN", "NaN", "NaN", "NaN"]`)
+	bs.assertBinopArrScalarVal(compute.Logb, `["-Inf", -2, -1, "Inf"]`, 2, `["NaN", "NaN", "NaN", "Inf"]`)
+
+	bs.setOverflowCheck(true)
+	bs.assertBinopErr(compute.Logb, `[0]`, `[2]`, "logarithm of zero")
+	bs.assertBinopErr(compute.Logb, `[2]`, `[0]`, "logarithm of zero")
+	bs.assertBinopErr(compute.Logb, `[-1]`, `[2]`, "logarithm of negative number")
+	bs.assertBinopErr(compute.Logb, `["-Inf"]`, `[2]`, "logarithm of negative number")
+}
+
+type BinaryIntegralArithmeticSuite[T exec.IntTypes | exec.UintTypes] struct {
+	BinaryArithmeticSuite[T]
+}
+
+func (b *BinaryIntegralArithmeticSuite[T]) TestShiftLeft() {
+	b.Run(b.DataType().String(), func() {
+		for _, overflow := range []bool{false, true} {
+			b.Run(fmt.Sprintf("check_overflow=%t", overflow), func() {
+				b.setOverflowCheck(overflow)
+
+				b.assertBinop(compute.ShiftLeft, `[]`, `[]`, `[]`)
+				b.assertBinop(compute.ShiftLeft, `[0, 1, 2, 3]`, `[2, 3, 4, 5]`, `[0, 8, 32, 96]`)
+				b.assertBinop(compute.ShiftLeft, `[0, null, 2, 3]`, `[2, 3, 4, 5]`, `[0, null, 32, 96]`)
+				b.assertBinop(compute.ShiftLeft, `[0, 1, 2, 3]`, `[2, 3, null, 5]`, `[0, 8, null, 96]`)
+				b.assertBinop(compute.ShiftLeft, `[0, null, 2, 3]`, `[2, 3, null, 5]`, `[0, null, null, 96]`)
+				b.assertBinop(compute.ShiftLeft, `[null]`, `[null]`, `[null]`)
+				b.assertBinopScalarValArr(compute.ShiftLeft, 2, `[null, 5]`, `[null, 64]`)
+				b.assertBinopScalarArr(compute.ShiftLeft, b.makeNullScalar(), `[null, 5]`, `[null, null]`)
+				b.assertBinopArrScalarVal(compute.ShiftLeft, `[null, 5]`, 3, `[null, 40]`)
+				b.assertBinopArrScalar(compute.ShiftLeft, `[null, 5]`, b.makeNullScalar(), `[null, null]`)
+			})
+		}
+	})
+}
+
+func (b *BinaryIntegralArithmeticSuite[T]) TestShiftRight() {
+	b.Run(b.DataType().String(), func() {
+		for _, overflow := range []bool{false, true} {
+			b.Run(fmt.Sprintf("check_overflow=%t", overflow), func() {
+				b.setOverflowCheck(overflow)
+
+				b.assertBinop(compute.ShiftRight, `[]`, `[]`, `[]`)
+				b.assertBinop(compute.ShiftRight, `[0, 1, 4, 8]`, `[1, 1, 1, 4]`, `[0, 0, 2, 0]`)
+				b.assertBinop(compute.ShiftRight, `[0, null, 4, 8]`, `[1, 1, 1, 4]`, `[0, null, 2, 0]`)
+				b.assertBinop(compute.ShiftRight, `[0, 1, 4, 8]`, `[1, 1, null, 4]`, `[0, 0, null, 0]`)
+				b.assertBinop(compute.ShiftRight, `[0, null, 4, 8]`, `[1, 1, null, 4]`, `[0, null, null, 0]`)
+				b.assertBinop(compute.ShiftRight, `[null]`, `[null]`, `[null]`)
+				b.assertBinopScalarValArr(compute.ShiftRight, 64, `[null, 2, 6]`, `[null, 16, 1]`)
+				b.assertBinopScalarArr(compute.ShiftRight, b.makeNullScalar(), `[null, 2, 6]`, `[null, null, null]`)
+				b.assertBinopArrScalarVal(compute.ShiftRight, `[null, 3, 96]`, 3, `[null, 0, 12]`)
+				b.assertBinopArrScalar(compute.ShiftRight, `[null, 3, 96]`, b.makeNullScalar(), `[null, null, null]`)
+			})
+		}
+	})
+}
+
+func (b *BinaryIntegralArithmeticSuite[T]) TestShiftLeftOverflowError() {
+	b.Run(b.DataType().String(), func() {
+		bitWidth := b.DataType().(arrow.FixedWidthDataType).BitWidth()
+		if !arrow.IsUnsignedInteger(b.DataType().ID()) {
+			bitWidth--
+		}
+
+		b.setOverflowCheck(true)
+		b.assertBinop(compute.ShiftLeft, `[1]`, fmt.Sprintf("[%d]", bitWidth-1),
+			fmt.Sprintf("[%d]", T(1)<<(bitWidth-1)))
+		b.assertBinop(compute.ShiftLeft, `[2]`, fmt.Sprintf("[%d]", bitWidth-2),
+			fmt.Sprintf("[%d]", T(1)<<(bitWidth-1)))
+		if arrow.IsUnsignedInteger(b.DataType().ID()) {
+			b.assertBinop(compute.ShiftLeft, `[2]`, fmt.Sprintf("[%d]", bitWidth-1), `[0]`)
+			b.assertBinop(compute.ShiftLeft, `[4]`, fmt.Sprintf("[%d]", bitWidth-1), `[0]`)
+			b.assertBinopErr(compute.ShiftLeft, `[1]`, fmt.Sprintf("[%d]", bitWidth), "shift amount must be >= 0 and less than precision of type")
+		} else {
+			// shift a bit into the sign bit
+			b.assertBinop(compute.ShiftLeft, `[2]`, fmt.Sprintf("[%d]", bitWidth-1),
+				fmt.Sprintf("[%d]", b.min))
+			// shift a bit past the sign bit
+			b.assertBinop(compute.ShiftLeft, `[4]`, fmt.Sprintf("[%d]", bitWidth-1), `[0]`)
+			b.assertBinop(compute.ShiftLeft, fmt.Sprintf("[%d]", b.min), `[1]`, `[0]`)
+			b.assertBinopErr(compute.ShiftLeft, `[1, 2]`, `[1, -1]`, "shift amount must be >= 0 and less than precision of type")
+			b.assertBinopErr(compute.ShiftLeft, `[1]`, fmt.Sprintf("[%d]", bitWidth), "shift amount must be >= 0 and less than precision of type")
+
+			b.setOverflowCheck(false)
+			b.assertBinop(compute.ShiftLeft, `[1, 1]`, fmt.Sprintf("[-1, %d]", bitWidth), `[1, 1]`)
+		}
+	})
+}
+
+func (b *BinaryIntegralArithmeticSuite[T]) TestShiftRightOverflowError() {
+	b.Run(b.DataType().String(), func() {
+		bitWidth := b.DataType().(arrow.FixedWidthDataType).BitWidth()
+		if !arrow.IsUnsignedInteger(b.DataType().ID()) {
+			bitWidth--
+		}
+
+		b.setOverflowCheck(true)
+
+		b.assertBinop(compute.ShiftRight, fmt.Sprintf("[%d]", b.max), fmt.Sprintf("[%d]", bitWidth-1), `[1]`)
+		if arrow.IsUnsignedInteger(b.DataType().ID()) {
+			b.assertBinopErr(compute.ShiftRight, `[1]`, fmt.Sprintf("[%d]", bitWidth), "shift amount must be >= 0 and less than precision of type")
+		} else {
+			b.assertBinop(compute.ShiftRight, `[-1, -1]`, `[1, 5]`, `[-1, -1]`)
+			b.assertBinop(compute.ShiftRight, fmt.Sprintf("[%d]", b.min), `[1]`, fmt.Sprintf("[%d]", b.min/2))
+
+			b.assertBinopErr(compute.ShiftRight, `[1, 2]`, `[1, -1]`, "shift amount must be >= 0 and less than precision of type")
+			b.assertBinopErr(compute.ShiftRight, `[1]`, fmt.Sprintf("[%d]", bitWidth), "shift amount must be >= 0 and less than precision of type")
+
+			b.setOverflowCheck(false)
+			b.assertBinop(compute.ShiftRight, `[1, 1]`, fmt.Sprintf("[-1, %d]", bitWidth), `[1, 1]`)
+		}
+	})
+}
+
+func (b *BinaryIntegralArithmeticSuite[T]) TestTrig() {
+	// integer arguments promoted to float64, sanity check here
+	ty := b.DataType()
+	b.setNansEqual(true)
+	atan2 := func(ctx context.Context, _ compute.ArithmeticOptions, x, y compute.Datum) (compute.Datum, error) {
+		return compute.Atan2(ctx, x, y)
+	}
+
+	lhs, rhs := b.getArr(ty, `[0, 1]`), b.getArr(ty, `[1, 0]`)
+	defer lhs.Release()
+	defer rhs.Release()
+	exp := b.getArr(arrow.PrimitiveTypes.Float64, fmt.Sprintf(`[0, %f]`, math.Pi/2))
+	defer exp.Release()
+
+	b.assertBinopArrs(atan2, lhs, rhs, exp)
+}
+
+func (b *BinaryIntegralArithmeticSuite[T]) TestLog() {
+	// integer arguments promoted to double, sanity check here
+	exp1 := b.getArr(arrow.PrimitiveTypes.Float64, `[0, 1, null]`)
+	exp2 := b.getArr(arrow.PrimitiveTypes.Float64, `[1, 2, null]`)
+	defer exp1.Release()
+	defer exp2.Release()
+
+	b.assertBinopExpArr(compute.Logb, `[1, 10, null]`, `[10, 10, null]`, exp1)
+	b.assertBinopExpArr(compute.Logb, `[1, 2, null]`, `[2, 2, null]`, exp1)
+	b.assertBinopArrScalarExpArr(compute.Logb, `[10, 100, null]`, scalar.MakeScalar(T(10)), exp2)
+}
+
+func TestBinaryArithmetic(t *testing.T) {
+	suite.Run(t, &BinaryIntegralArithmeticSuite[int8]{BinaryArithmeticSuite[int8]{min: math.MinInt8, max: math.MaxInt8}})
+	suite.Run(t, &BinaryIntegralArithmeticSuite[uint8]{BinaryArithmeticSuite[uint8]{min: 0, max: math.MaxUint8}})
+	suite.Run(t, &BinaryIntegralArithmeticSuite[int16]{BinaryArithmeticSuite[int16]{min: math.MinInt16, max: math.MaxInt16}})
+	suite.Run(t, &BinaryIntegralArithmeticSuite[uint16]{BinaryArithmeticSuite[uint16]{min: 0, max: math.MaxUint16}})
+	suite.Run(t, &BinaryIntegralArithmeticSuite[int32]{BinaryArithmeticSuite[int32]{min: math.MinInt32, max: math.MaxInt32}})
+	suite.Run(t, &BinaryIntegralArithmeticSuite[uint32]{BinaryArithmeticSuite[uint32]{min: 0, max: math.MaxUint32}})
+	suite.Run(t, &BinaryIntegralArithmeticSuite[int64]{BinaryArithmeticSuite[int64]{min: math.MinInt64, max: math.MaxInt64}})
+	suite.Run(t, &BinaryIntegralArithmeticSuite[uint64]{BinaryArithmeticSuite[uint64]{min: 0, max: math.MaxUint64}})
+	suite.Run(t, &BinaryFloatingArithmeticSuite[float32]{BinaryArithmeticSuite[float32]{min: -math.MaxFloat32, max: math.MaxFloat32}, math.SmallestNonzeroFloat32})
+	suite.Run(t, &BinaryFloatingArithmeticSuite[float64]{BinaryArithmeticSuite[float64]{min: -math.MaxFloat64, max: math.MaxFloat64}, math.SmallestNonzeroFloat64})
+	suite.Run(t, new(Float16BinaryFuncTestSuite))
+	suite.Run(t, new(DecimalBinaryArithmeticSuite))
+	suite.Run(t, new(ScalarBinaryTemporalArithmeticSuite))
+}
+
+func TestBinaryArithmeticDispatchBest(t *testing.T) {
+	for _, name := range []string{"add", "sub", "multiply", "divide", "power"} {
+		for _, suffix := range []string{"", "_unchecked"} {
+			name += suffix
+			t.Run(name, func(t *testing.T) {
+
+				tests := []struct {
+					left, right arrow.DataType
+					expected    arrow.DataType
+				}{
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.Null, arrow.PrimitiveTypes.Int32},
+					{arrow.Null, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint32, arrow.PrimitiveTypes.Int64},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint64, arrow.PrimitiveTypes.Int64},
+					{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8},
+					{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Uint16},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32},
+					{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Float32},
+					{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float64},
+					{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64},
+						arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
+					{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64},
+						arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Float64},
+				}
+
+				for _, tt := range tests {
+					CheckDispatchBest(t, name, []arrow.DataType{tt.left, tt.right}, []arrow.DataType{tt.expected, tt.expected})
+				}
+			})
+		}
+	}
+}
+
+type DecimalArithmeticSuite struct {
+	BinaryFuncTestSuite
+}
+
+func (*DecimalArithmeticSuite) positiveScales() []arrow.DataType {
+	return []arrow.DataType{
+		&arrow.Decimal128Type{Precision: 4, Scale: 2},
+		&arrow.Decimal256Type{Precision: 4, Scale: 2},
+		&arrow.Decimal128Type{Precision: 38, Scale: 2},
+		&arrow.Decimal256Type{Precision: 76, Scale: 2},
+	}
+}
+
+func (*DecimalArithmeticSuite) negativeScales() []arrow.DataType {
+	return []arrow.DataType{
+		&arrow.Decimal128Type{Precision: 2, Scale: -2},
+		&arrow.Decimal256Type{Precision: 2, Scale: -2},
+	}
+}
+
+func (ds *DecimalArithmeticSuite) checkDecimalToFloat(fn string, args []compute.Datum) {
+	// validate that fn(*decimals) is the same as
+	// fn([cast(x, float64) x for x in decimals])
+
+	newArgs := make([]compute.Datum, len(args))
+	for i, arg := range args {
+		if arrow.IsDecimal(arg.(compute.ArrayLikeDatum).Type().ID()) {
+			casted, err := compute.CastDatum(ds.ctx, arg, compute.NewCastOptions(arrow.PrimitiveTypes.Float64, true))
+			ds.Require().NoError(err)
+			defer casted.Release()
+			newArgs[i] = casted
+		} else {
+			newArgs[i] = arg
+		}
+	}
+
+	expected, err := compute.CallFunction(ds.ctx, fn, nil, newArgs...)
+	ds.Require().NoError(err)
+	defer expected.Release()
+	actual, err := compute.CallFunction(ds.ctx, fn, nil, args...)
+	ds.Require().NoError(err)
+	defer actual.Release()
+
+	assertDatumsEqual(ds.T(), expected, actual, []array.EqualOption{array.WithNaNsEqual(true)}, []scalar.EqualOption{scalar.WithNaNsEqual(true)})
+}
+
+func (ds *DecimalArithmeticSuite) checkFail(fn string, args []compute.Datum, substr string, opts compute.FunctionOptions) {
+	_, err := compute.CallFunction(ds.ctx, fn, opts, args...)
+	ds.ErrorIs(err, arrow.ErrInvalid)
+	ds.ErrorContains(err, substr)
+}
+
+func (ds *DecimalArithmeticSuite) decimalArrayFromJSON(ty arrow.DataType, str string) arrow.Array {
+	arr, _, err := array.FromJSON(ds.mem, ty, strings.NewReader(str))
+	ds.Require().NoError(err)
+	return arr
+}
+
+type DecimalBinaryArithmeticSuite struct {
+	DecimalArithmeticSuite
+}
+
+func (ds *DecimalBinaryArithmeticSuite) TestDispatchBest() {
+	// decimal, floating point
+	ds.Run("dec/floatingpoint", func() {
+		for _, fn := range []string{"add", "sub", "multiply", "divide"} {
+			for _, suffix := range []string{"", "_unchecked"} {
+				fn += suffix
+				ds.Run(fn, func() {
+
+					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+						&arrow.Decimal128Type{Precision: 1, Scale: 0},
+						arrow.PrimitiveTypes.Float32}, []arrow.DataType{
+						arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32})
+					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+						&arrow.Decimal256Type{Precision: 1, Scale: 0}, arrow.PrimitiveTypes.Float64},
+						[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
+					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+						arrow.PrimitiveTypes.Float32, &arrow.Decimal256Type{Precision: 1, Scale: 0}},
+						[]arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32})
+					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+						arrow.PrimitiveTypes.Float64, &arrow.Decimal128Type{Precision: 1, Scale: 0}},
+						[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
+				})
+			}
+		}
+	})
+
+	// decimal, decimal => decimal
+	// decimal, integer => decimal
+	ds.Run("dec/dec_int", func() {
+		for _, fn := range []string{"add", "sub"} {
+			for _, suffix := range []string{"", "_unchecked"} {
+				fn += suffix
+				ds.Run(fn, func() {
+					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+						arrow.PrimitiveTypes.Int64, &arrow.Decimal128Type{Precision: 1, Scale: 0}},
+						[]arrow.DataType{&arrow.Decimal128Type{Precision: 19, Scale: 0},
+							&arrow.Decimal128Type{Precision: 1, Scale: 0}})
+					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+						&arrow.Decimal128Type{Precision: 1, Scale: 0}, arrow.PrimitiveTypes.Int64},
+						[]arrow.DataType{&arrow.Decimal128Type{Precision: 1, Scale: 0},
+							&arrow.Decimal128Type{Precision: 19, Scale: 0}})
+
+					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+						&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
+						[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 1},
+							&arrow.Decimal128Type{Precision: 2, Scale: 1}})
+					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+						&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
+						[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
+							&arrow.Decimal256Type{Precision: 2, Scale: 1}})
+					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+						&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
+						[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
+							&arrow.Decimal256Type{Precision: 2, Scale: 1}})
+					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+						&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
+						[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
+							&arrow.Decimal256Type{Precision: 2, Scale: 1}})
+
+					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+						&arrow.Decimal128Type{Precision: 2, Scale: 0}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
+						[]arrow.DataType{&arrow.Decimal128Type{Precision: 3, Scale: 1},
+							&arrow.Decimal128Type{Precision: 2, Scale: 1}})
+					CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+						&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 0}},
+						[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 1},
+							&arrow.Decimal128Type{Precision: 3, Scale: 1}})
+				})
+			}
+		}
+	})
+
+	{
+		fn := "multiply"
+		for _, suffix := range []string{"", "_unchecked"} {
+			fn += suffix
+			ds.Run(fn, func() {
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					arrow.PrimitiveTypes.Int64, &arrow.Decimal128Type{Precision: 1}},
+					[]arrow.DataType{&arrow.Decimal128Type{Precision: 19},
+						&arrow.Decimal128Type{Precision: 1}})
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal128Type{Precision: 1}, arrow.PrimitiveTypes.Int64},
+					[]arrow.DataType{&arrow.Decimal128Type{Precision: 1},
+						&arrow.Decimal128Type{Precision: 19}})
+
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
+					[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 1},
+						&arrow.Decimal128Type{Precision: 2, Scale: 1}})
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
+					[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
+						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
+					[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
+						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
+					[]arrow.DataType{&arrow.Decimal256Type{Precision: 2, Scale: 1},
+						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
+
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal128Type{Precision: 2, Scale: 0}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
+					[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 0},
+						&arrow.Decimal128Type{Precision: 2, Scale: 1}})
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 0}},
+					[]arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: 1},
+						&arrow.Decimal128Type{Precision: 2, Scale: 0}})
+			})
+		}
+	}
+
+	{
+		fn := "divide"
+		for _, suffix := range []string{"", "_unchecked"} {
+			fn += suffix
+			ds.Run(fn, func() {
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					arrow.PrimitiveTypes.Int64, &arrow.Decimal128Type{Precision: 1, Scale: 0}},
+					[]arrow.DataType{&arrow.Decimal128Type{Precision: 23, Scale: 4},
+						&arrow.Decimal128Type{Precision: 1, Scale: 0}})
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal128Type{Precision: 1, Scale: 0}, arrow.PrimitiveTypes.Int64},
+					[]arrow.DataType{&arrow.Decimal128Type{Precision: 21, Scale: 20},
+						&arrow.Decimal128Type{Precision: 19, Scale: 0}})
+
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
+					[]arrow.DataType{&arrow.Decimal128Type{Precision: 6, Scale: 5},
+						&arrow.Decimal128Type{Precision: 2, Scale: 1}})
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
+					[]arrow.DataType{&arrow.Decimal256Type{Precision: 6, Scale: 5},
+						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
+					[]arrow.DataType{&arrow.Decimal256Type{Precision: 6, Scale: 5},
+						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
+					[]arrow.DataType{&arrow.Decimal256Type{Precision: 6, Scale: 5},
+						&arrow.Decimal256Type{Precision: 2, Scale: 1}})
+
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal128Type{Precision: 2, Scale: 0}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
+					[]arrow.DataType{&arrow.Decimal128Type{Precision: 7, Scale: 5},
+						&arrow.Decimal128Type{Precision: 2, Scale: 1}})
+				CheckDispatchBest(ds.T(), fn, []arrow.DataType{
+					&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 0}},
+					[]arrow.DataType{&arrow.Decimal128Type{Precision: 5, Scale: 4},
+						&arrow.Decimal128Type{Precision: 2, Scale: 0}})
+			})
+		}
+	}
+
+	for _, name := range []string{"power", "power_unchecked", "atan2", "logb", "logb_unchecked"} {
+		ds.Run(name, func() {
+			CheckDispatchBest(ds.T(), name, []arrow.DataType{
+				&arrow.Decimal128Type{Precision: 2, Scale: 1}, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
+				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
+			CheckDispatchBest(ds.T(), name, []arrow.DataType{
+				&arrow.Decimal256Type{Precision: 2, Scale: 1}, &arrow.Decimal256Type{Precision: 2, Scale: 1}},
+				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
+			CheckDispatchBest(ds.T(), name, []arrow.DataType{
+				&arrow.Decimal128Type{Precision: 2, Scale: 1}, arrow.PrimitiveTypes.Int64},
+				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
+			CheckDispatchBest(ds.T(), name, []arrow.DataType{
+				arrow.PrimitiveTypes.Int32, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
+				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
+			CheckDispatchBest(ds.T(), name, []arrow.DataType{
+				&arrow.Decimal128Type{Precision: 2, Scale: 1}, arrow.PrimitiveTypes.Float64},
+				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
+			CheckDispatchBest(ds.T(), name, []arrow.DataType{
+				arrow.PrimitiveTypes.Float32, &arrow.Decimal128Type{Precision: 2, Scale: 1}},
+				[]arrow.DataType{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64})
+		})
+	}
+}
+
+func (ds *DecimalBinaryArithmeticSuite) TestAddSubtractDec128() {
+	left, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 30, Scale: 3},
+		strings.NewReader(`["1.000", "-123456789012345678901234567.890", "98765432109876543210.987", "-999999999999999999999999999.999"]`))
+	defer left.Release()
+	right, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 20, Scale: 9},
+		strings.NewReader(`["-1.000000000", "12345678901.234567890", "98765.432101234", "-99999999999.999999999"]`))
+	defer right.Release()
+	added, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 37, Scale: 9},
+		strings.NewReader(`["0.000000000", "-123456789012345666555555666.655432110", "98765432109876641976.419101234", "-1000000000000000099999999999.998999999"]`))
+	defer added.Release()
+	subtracted, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 37, Scale: 9},
+		strings.NewReader(`["2.000000000", "-123456789012345691246913469.124567890", "98765432109876444445.554898766", "-999999999999999899999999999.999000001"]`))
+	defer subtracted.Release()
+
+	leftDatum, rightDatum := &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()}
+	checkScalarBinary(ds.T(), "add", leftDatum, rightDatum, &compute.ArrayDatum{Value: added.Data()}, nil)
+	checkScalarBinary(ds.T(), "sub", leftDatum, rightDatum, &compute.ArrayDatum{Value: subtracted.Data()}, nil)
+}
+
+func (ds *DecimalBinaryArithmeticSuite) TestAddSubtractDec256() {
+	left, _, _ := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 30, Scale: 20},
+		strings.NewReader(`[
+			"-1.00000000000000000001",
+			"1234567890.12345678900000000000",
+			"-9876543210.09876543210987654321",
+			"9999999999.99999999999999999999"
+		  ]`))
+	defer left.Release()
+	right, _, _ := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 30, Scale: 10},
+		strings.NewReader(`[
+			"1.0000000000",
+			"-1234567890.1234567890",
+			"6789.5432101234",
+			"99999999999999999999.9999999999"
+		  ]`))
+	defer right.Release()
+	added, _, _ := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 41, Scale: 20},
+		strings.NewReader(`[
+			"-0.00000000000000000001",
+			"0.00000000000000000000",
+			"-9876536420.55555530870987654321",
+			"100000000009999999999.99999999989999999999"
+		  ]`))
+	defer added.Release()
+	subtracted, _, _ := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 41, Scale: 20},
+		strings.NewReader(`[
+			"-2.00000000000000000001",
+			"2469135780.24691357800000000000",
+			"-9876549999.64197555550987654321",
+			"-99999999989999999999.99999999990000000001"
+		  ]`))
+	defer subtracted.Release()
+
+	leftDatum, rightDatum := &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()}
+	checkScalarBinary(ds.T(), "add", leftDatum, rightDatum, &compute.ArrayDatum{Value: added.Data()}, nil)
+	checkScalarBinary(ds.T(), "sub", leftDatum, rightDatum, &compute.ArrayDatum{Value: subtracted.Data()}, nil)
+}
+
+func (ds *DecimalBinaryArithmeticSuite) TestAddSubScalars() {
+	ds.Run("scalar_array", func() {
+		left := scalar.NewDecimal128Scalar(decimal128.New(0, 123456), &arrow.Decimal128Type{Precision: 6, Scale: 1})
+		right, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 10, Scale: 3},
+			strings.NewReader(`["1.234", "1234.000", "-9876.543", "666.888"]`))
+		defer right.Release()
+		added, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 11, Scale: 3},
+			strings.NewReader(`["12346.834", "13579.600", "2469.057", "13012.488"]`))
+		defer added.Release()
+		leftSubRight, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 11, Scale: 3},
+			strings.NewReader(`["12344.366", "11111.600", "22222.143", "11678.712"]`))
+		defer leftSubRight.Release()
+		rightSubLeft, _, _ := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 11, Scale: 3},
+			strings.NewReader(`["-12344.366", "-11111.600", "-22222.143", "-11678.712"]`))
+		defer rightSubLeft.Release()
+
+		rightDatum := &compute.ArrayDatum{right.Data()}
+		addedDatum := &compute.ArrayDatum{added.Data()}
+		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), rightDatum, addedDatum, nil)
+		checkScalarBinary(ds.T(), "add", rightDatum, compute.NewDatum(left), addedDatum, nil)
+		checkScalarBinary(ds.T(), "sub", compute.NewDatum(left), rightDatum, &compute.ArrayDatum{leftSubRight.Data()}, nil)
+		checkScalarBinary(ds.T(), "sub", rightDatum, compute.NewDatum(left), &compute.ArrayDatum{rightSubLeft.Data()}, nil)
+	})
+
+	ds.Run("scalar_scalar", func() {
+		left := scalar.NewDecimal256Scalar(decimal256.FromU64(666), &arrow.Decimal256Type{Precision: 3})
+		right := scalar.NewDecimal256Scalar(decimal256.FromU64(888), &arrow.Decimal256Type{Precision: 3})
+		added := scalar.NewDecimal256Scalar(decimal256.FromU64(1554), &arrow.Decimal256Type{Precision: 4})
+		subtracted := scalar.NewDecimal256Scalar(decimal256.FromI64(-222), &arrow.Decimal256Type{Precision: 4})
+		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(added), nil)
+		checkScalarBinary(ds.T(), "sub", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(subtracted), nil)
+	})
+
+	ds.Run("dec128_dec256", func() {
+		left := scalar.NewDecimal128Scalar(decimal128.FromU64(666), &arrow.Decimal128Type{Precision: 3})
+		right := scalar.NewDecimal256Scalar(decimal256.FromU64(888), &arrow.Decimal256Type{Precision: 3})
+		added := scalar.NewDecimal256Scalar(decimal256.FromU64(1554), &arrow.Decimal256Type{Precision: 4})
+		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(added), nil)
+		checkScalarBinary(ds.T(), "add", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(added), nil)
+	})
+
+	ds.Run("decimal_float", func() {
+		left := scalar.NewDecimal128Scalar(decimal128.FromU64(666), &arrow.Decimal128Type{Precision: 3})
+		right := scalar.MakeScalar(float64(888))
+		added := scalar.MakeScalar(float64(1554))
+		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(added), nil)
+		checkScalarBinary(ds.T(), "add", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(added), nil)
+	})
+
+	ds.Run("decimal_integer", func() {
+		left := scalar.NewDecimal128Scalar(decimal128.FromU64(666), &arrow.Decimal128Type{Precision: 3})
+		right := scalar.MakeScalar(int64(888))
+		added := scalar.NewDecimal128Scalar(decimal128.FromU64(1554), &arrow.Decimal128Type{Precision: 20})
+		subtracted := scalar.NewDecimal128Scalar(decimal128.FromI64(-222), &arrow.Decimal128Type{Precision: 20})
+		checkScalarBinary(ds.T(), "add", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(added), nil)
+		checkScalarBinary(ds.T(), "sub", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(subtracted), nil)
+	})
+}
+
+func (ds *DecimalBinaryArithmeticSuite) TestMultiply() {
+	ds.Run("array x array, decimal128", func() {
+		left, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 20, Scale: 10},
+			strings.NewReader(`["1234567890.1234567890", "-0.0000000001", "-9999999999.9999999999"]`))
+		ds.Require().NoError(err)
+		defer left.Release()
+		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 13, Scale: 3},
+			strings.NewReader(`["1234567890.123", "0.001", "-9999999999.999"]`))
+		ds.Require().NoError(err)
+		defer right.Release()
+		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 34, Scale: 13},
+			strings.NewReader(`["1524157875323319737.98709039504701", "-0.0000000000001", "99999999999989999999.0000000000001"]`))
+		ds.Require().NoError(err)
+		defer expected.Release()
+
+		checkScalarBinary(ds.T(), "multiply_unchecked", &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()}, &compute.ArrayDatum{expected.Data()}, nil)
+	})
+
+	ds.Run("array x array decimal256", func() {
+		left, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 30, Scale: 3},
+			strings.NewReader(`["123456789012345678901234567.890", "0.000"]`))
+		ds.Require().NoError(err)
+		defer left.Release()
+		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 20, Scale: 9},
+			strings.NewReader(`["-12345678901.234567890", "99999999999.999999999"]`))
+		ds.Require().NoError(err)
+		defer right.Release()
+		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 51, Scale: 12},
+			strings.NewReader(`["-1524157875323883675034293577501905199.875019052100", "0.000000000000"]`))
+		ds.Require().NoError(err)
+		defer expected.Release()
+		checkScalarBinary(ds.T(), "multiply_unchecked", &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()}, &compute.ArrayDatum{expected.Data()}, nil)
+	})
+
+	ds.Run("scalar x array", func() {
+		left, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3, Scale: 2}, "3.14")
+		ds.Require().NoError(err)
+		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 1, Scale: 0},
+			strings.NewReader(`["1", "2", "3", "4", "5"]`))
+		ds.Require().NoError(err)
+		defer right.Release()
+		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 5, Scale: 2},
+			strings.NewReader(`["3.14", "6.28", "9.42", "12.56", "15.70"]`))
+		ds.Require().NoError(err)
+		defer expected.Release()
+
+		leftDatum, rightDatum := &compute.ScalarDatum{left}, &compute.ArrayDatum{right.Data()}
+		expDatum := &compute.ArrayDatum{expected.Data()}
+
+		checkScalarBinary(ds.T(), "multiply_unchecked", leftDatum, rightDatum, expDatum, nil)
+		checkScalarBinary(ds.T(), "multiply_unchecked", rightDatum, leftDatum, expDatum, nil)
+	})
+
+	ds.Run("scalar x scalar", func() {
+		left, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 1}, "1")
+		ds.Require().NoError(err)
+		right, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 1}, "1")
+		ds.Require().NoError(err)
+		expected, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "1")
+		ds.Require().NoError(err)
+		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
+	})
+
+	ds.Run("decimal128 x decimal256", func() {
+		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3, Scale: 2}, "6.66")
+		right, _ := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 3, Scale: 1}, "88.8")
+		expected, _ := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 7, Scale: 3}, "591.408")
+		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
+		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(expected), nil)
+	})
+
+	ds.Run("decimal x float", func() {
+		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "666")
+		right := scalar.MakeScalar(float64(888))
+		expected := scalar.MakeScalar(float64(591408))
+		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
+		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(expected), nil)
+	})
+
+	ds.Run("decimal x integer", func() {
+		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "666")
+		right := scalar.MakeScalar(int64(888))
+		expected, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 23}, "591408")
+		checkScalarBinary(ds.T(), "multiply_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
+	})
+}
+
+func (ds *DecimalBinaryArithmeticSuite) TestDivide() {
+	ds.Run("array / array, decimal128", func() {
+		left, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 13, Scale: 3},
+			strings.NewReader(`["1234567890.123", "0.001"]`))
+		ds.Require().NoError(err)
+		defer left.Release()
+		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 3, Scale: 0},
+			strings.NewReader(`["-987", "999"]`))
+		ds.Require().NoError(err)
+		defer right.Release()
+		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 17, Scale: 7},
+			strings.NewReader(`["-1250828.6627386", "0.0000010"]`))
+		ds.Require().NoError(err)
+		defer expected.Release()
+
+		checkScalarBinary(ds.T(), "divide_unchecked", &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()}, &compute.ArrayDatum{expected.Data()}, nil)
+	})
+
+	ds.Run("array / array decimal256", func() {
+		left, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 20, Scale: 10},
+			strings.NewReader(`["1234567890.1234567890", "9999999999.9999999999"]`))
+		ds.Require().NoError(err)
+		defer left.Release()
+		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 13, Scale: 3},
+			strings.NewReader(`["1234567890.123", "0.001"]`))
+		ds.Require().NoError(err)
+		defer right.Release()
+		expected, _, err := array.FromJSON(ds.mem, &arrow.Decimal256Type{Precision: 34, Scale: 21},
+			strings.NewReader(`["1.000000000000369999093", "9999999999999.999999900000000000000"]`))
+		ds.Require().NoError(err)
+		defer expected.Release()
+		checkScalarBinary(ds.T(), "divide_unchecked", &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()}, &compute.ArrayDatum{expected.Data()}, nil)
+	})
+
+	ds.Run("scalar / array", func() {
+		left, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 1, Scale: 0}, "1")
+		ds.Require().NoError(err)
+		right, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 1, Scale: 0},
+			strings.NewReader(`["1", "2", "3", "4"]`))
+		ds.Require().NoError(err)
+		defer right.Release()
+		leftDivRight, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 5, Scale: 4},
+			strings.NewReader(`["1.0000", "0.5000", "0.3333", "0.2500"]`))
+		ds.Require().NoError(err)
+		defer leftDivRight.Release()
+		rightDivLeft, _, err := array.FromJSON(ds.mem, &arrow.Decimal128Type{Precision: 5, Scale: 4},
+			strings.NewReader(`["1.0000", "2.0000", "3.0000", "4.0000"]`))
+		ds.Require().NoError(err)
+		defer rightDivLeft.Release()
+
+		leftDatum, rightDatum := &compute.ScalarDatum{left}, &compute.ArrayDatum{right.Data()}
+
+		checkScalarBinary(ds.T(), "divide_unchecked", leftDatum, rightDatum, &compute.ArrayDatum{leftDivRight.Data()}, nil)
+		checkScalarBinary(ds.T(), "divide_unchecked", rightDatum, leftDatum, &compute.ArrayDatum{rightDivLeft.Data()}, nil)
+	})
+
+	ds.Run("scalar / scalar", func() {
+		left, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 6, Scale: 5}, "2.71828")
+		ds.Require().NoError(err)
+		right, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 6, Scale: 5}, "3.14159")
+		ds.Require().NoError(err)
+		expected, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 13, Scale: 7}, "0.8652561")
+		ds.Require().NoError(err)
+		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(expected), nil)
+	})
+
+	ds.Run("decimal128 / decimal256", func() {
+		left, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 6, Scale: 5}, "2.71828")
+		ds.Require().NoError(err)
+		right, err := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 6, Scale: 5}, "3.14159")
+		ds.Require().NoError(err)
+		leftDivRight, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 13, Scale: 7}, "0.8652561")
+		ds.Require().NoError(err)
+		rightDivLeft, err := scalar.ParseScalar(&arrow.Decimal256Type{Precision: 13, Scale: 7}, "1.1557271")
+		ds.Require().NoError(err)
+		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(leftDivRight), nil)
+		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(rightDivLeft), nil)
+	})
+
+	ds.Run("decimal / float", func() {
+		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "100")
+		right := scalar.MakeScalar(float64(50))
+		leftDivRight := scalar.MakeScalar(float64(2))
+		rightDivLeft := scalar.MakeScalar(float64(0.5))
+		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(leftDivRight), nil)
+		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(rightDivLeft), nil)
+	})
+
+	ds.Run("decimal / integer", func() {
+		left, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 3}, "100")
+		right := scalar.MakeScalar(int64(50))
+		leftDivRight, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 23, Scale: 20}, "2.0000000000000000000")
+		rightDivLeft, _ := scalar.ParseScalar(&arrow.Decimal128Type{Precision: 23, Scale: 4}, "0.5000")
+		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(left), compute.NewDatum(right), compute.NewDatum(leftDivRight), nil)
+		checkScalarBinary(ds.T(), "divide_unchecked", compute.NewDatum(right), compute.NewDatum(left), compute.NewDatum(rightDivLeft), nil)
+	})
+}
+
+func (ds *DecimalBinaryArithmeticSuite) TestAtan2() {
+	// decimal arguments get promoted to float64, sanity check here
+	fn := "atan2"
+	for _, ty := range ds.positiveScales() {
+		empty := ds.getArr(ty, `[]`)
+		defer empty.Release()
+		ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{empty.Data()}})
+
+		larr := ds.getArr(ty, `["1.00", "10.00", "1.00", "2.00", null]`)
+		defer larr.Release()
+
+		ldatum := &compute.ArrayDatum{larr.Data()}
+
+		test := ds.getArr(ty, `["10.00", "10.00", "2.00", "2.00", null]`)
+		defer test.Release()
+		ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
+			&compute.ArrayDatum{test.Data()}})
+
+		test = ds.getArr(&arrow.Decimal128Type{Precision: 4, Scale: 2}, `["10.00", "10.00", "2.00", "2.00", null]`)
+		defer test.Release()
+		ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
+			&compute.ArrayDatum{test.Data()}})
+
+		ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
+			compute.NewDatum(scalar.MakeScalar(int64(10)))})
+		ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
+			compute.NewDatum(scalar.MakeScalar(float64(10)))})
+
+		larr = ds.getArr(arrow.PrimitiveTypes.Float64, `[1, 10, 1, 2, null]`)
+		defer larr.Release()
+
+		sc, _ := scalar.MakeScalarParam("10.00", ty)
+		ds.checkDecimalToFloat(fn, []compute.Datum{
+			&compute.ArrayDatum{larr.Data()},
+			compute.NewDatum(sc)})
+
+		larr = ds.getArr(arrow.PrimitiveTypes.Int64, `[1, 10, 1, 2, null]`)
+		defer larr.Release()
+		ds.checkDecimalToFloat(fn, []compute.Datum{
+			&compute.ArrayDatum{larr.Data()},
+			compute.NewDatum(sc)})
+	}
+
+	for _, ty := range ds.negativeScales() {
+		empty := ds.getArr(ty, `[]`)
+		defer empty.Release()
+		ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{empty.Data()}})
+
+		larr := ds.getArr(ty, `["12E2", "42E2", null]`)
+		defer larr.Release()
+		ds.checkDecimalToFloat(fn, []compute.Datum{
+			&compute.ArrayDatum{larr.Data()}, &compute.ArrayDatum{larr.Data()}})
+
+		rarr := ds.getArr(&arrow.Decimal128Type{Precision: 2, Scale: -2}, `["12E2", "42E2", null]`)
+		defer rarr.Release()
+
+		ds.checkDecimalToFloat(fn, []compute.Datum{
+			&compute.ArrayDatum{larr.Data()}, &compute.ArrayDatum{rarr.Data()}})
+		ds.checkDecimalToFloat(fn, []compute.Datum{
+			&compute.ArrayDatum{larr.Data()}, compute.NewDatum(scalar.MakeScalar(int64(10)))})
+	}
+}
+
+func (ds *DecimalBinaryArithmeticSuite) TestLogb() {
+	// decimal arguments get promoted to float64, sanity check here
+	for _, fn := range []string{"logb", "logb_unchecked"} {
+		ds.Run(fn, func() {
+			for _, ty := range ds.positiveScales() {
+				empty := ds.getArr(ty, `[]`)
+				defer empty.Release()
+				ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{empty.Data()}})
+
+				larr := ds.getArr(ty, `["1.00", "10.00", "1.00", "2.00", null]`)
+				defer larr.Release()
+
+				ldatum := &compute.ArrayDatum{larr.Data()}
+
+				test := ds.getArr(ty, `["10.00", "10.00", "2.00", "2.00", null]`)
+				defer test.Release()
+				ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
+					&compute.ArrayDatum{test.Data()}})
+
+				test = ds.getArr(&arrow.Decimal128Type{Precision: 4, Scale: 2}, `["10.00", "10.00", "2.00", "2.00", null]`)
+				defer test.Release()
+				ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
+					&compute.ArrayDatum{test.Data()}})
+
+				ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
+					compute.NewDatum(scalar.MakeScalar(int64(10)))})
+				ds.checkDecimalToFloat(fn, []compute.Datum{ldatum,
+					compute.NewDatum(scalar.MakeScalar(float64(10)))})
+
+				larr = ds.getArr(arrow.PrimitiveTypes.Float64, `[1, 10, 1, 2, null]`)
+				defer larr.Release()
+
+				sc, _ := scalar.MakeScalarParam("10.00", ty)
+				ds.checkDecimalToFloat(fn, []compute.Datum{
+					&compute.ArrayDatum{larr.Data()},
+					compute.NewDatum(sc)})
+
+				larr = ds.getArr(arrow.PrimitiveTypes.Int64, `[1, 10, 1, 2, null]`)
+				defer larr.Release()
+				ds.checkDecimalToFloat(fn, []compute.Datum{
+					&compute.ArrayDatum{larr.Data()},
+					compute.NewDatum(sc)})
+			}
+
+			for _, ty := range ds.negativeScales() {
+				empty := ds.getArr(ty, `[]`)
+				defer empty.Release()
+				ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{empty.Data()}})
+
+				larr := ds.getArr(ty, `["12E2", "42E2", null]`)
+				defer larr.Release()
+				ds.checkDecimalToFloat(fn, []compute.Datum{
+					&compute.ArrayDatum{larr.Data()}, &compute.ArrayDatum{larr.Data()}})
+
+				rarr := ds.getArr(&arrow.Decimal128Type{Precision: 2, Scale: -2}, `["12E2", "42E2", null]`)
+				defer rarr.Release()
+
+				ds.checkDecimalToFloat(fn, []compute.Datum{
+					&compute.ArrayDatum{larr.Data()}, &compute.ArrayDatum{rarr.Data()}})
+				ds.checkDecimalToFloat(fn, []compute.Datum{
+					&compute.ArrayDatum{larr.Data()}, compute.NewDatum(scalar.MakeScalar(int64(10)))})
+			}
+		})
+	}
+}
+
+type DecimalUnaryArithmeticSuite struct {
+	DecimalArithmeticSuite
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestAbsoluteValue() {
+	max128 := decimal128.GetMaxValue(38)
+	max256 := decimal256.GetMaxValue(76)
+	ds.Run("decimal", func() {
+		for _, fn := range []string{"abs_unchecked", "abs"} {
+			ds.Run(fn, func() {
+				for _, ty := range ds.positiveScales() {
+					ds.Run(ty.String(), func() {
+						empty, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`[]`))
+						defer empty.Release()
+						in, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["1.00", "-42.15", null]`))
+						defer in.Release()
+						exp, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["1.00", "42.15", null]`))
+						defer exp.Release()
+
+						checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, nil)
+						checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}}, &compute.ArrayDatum{exp.Data()}, nil)
+					})
+				}
+
+				checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal128Scalar(max128.Negate(), &arrow.Decimal128Type{Precision: 38}))},
+					compute.NewDatum(scalar.NewDecimal128Scalar(max128, &arrow.Decimal128Type{Precision: 38})), nil)
+				checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal256Scalar(max256.Negate(), &arrow.Decimal256Type{Precision: 76}))},
+					compute.NewDatum(scalar.NewDecimal256Scalar(max256, &arrow.Decimal256Type{Precision: 76})), nil)
+				for _, ty := range ds.negativeScales() {
+					ds.Run(ty.String(), func() {
+						empty, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`[]`))
+						defer empty.Release()
+						in, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["12E2", "-42E2", null]`))
+						defer in.Release()
+						exp, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["12E2", "42E2", null]`))
+						defer exp.Release()
+
+						checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, nil)
+						checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}}, &compute.ArrayDatum{exp.Data()}, nil)
+					})
+				}
+			})
+		}
+	})
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestNegate() {
+	max128 := decimal128.GetMaxValue(38)
+	max256 := decimal256.GetMaxValue(76)
+
+	for _, fn := range []string{"negate_unchecked", "negate"} {
+		ds.Run(fn, func() {
+			for _, ty := range ds.positiveScales() {
+				empty, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`[]`))
+				defer empty.Release()
+				in, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["0.00", "1.00", "-42.15", null]`))
+				defer in.Release()
+				exp, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["0.00", "-1.00", "42.15", null]`))
+				defer exp.Release()
+
+				checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, nil)
+				checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}}, &compute.ArrayDatum{exp.Data()}, nil)
+			}
+
+			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal128Scalar(max128.Negate(), &arrow.Decimal128Type{Precision: 38}))},
+				compute.NewDatum(scalar.NewDecimal128Scalar(max128, &arrow.Decimal128Type{Precision: 38})), nil)
+			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal256Scalar(max256.Negate(), &arrow.Decimal256Type{Precision: 76}))},
+				compute.NewDatum(scalar.NewDecimal256Scalar(max256, &arrow.Decimal256Type{Precision: 76})), nil)
+			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal128Scalar(max128, &arrow.Decimal128Type{Precision: 38}))},
+				compute.NewDatum(scalar.NewDecimal128Scalar(max128.Negate(), &arrow.Decimal128Type{Precision: 38})), nil)
+			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(scalar.NewDecimal256Scalar(max256, &arrow.Decimal256Type{Precision: 76}))},
+				compute.NewDatum(scalar.NewDecimal256Scalar(max256.Negate(), &arrow.Decimal256Type{Precision: 76})), nil)
+			for _, ty := range ds.negativeScales() {
+				ds.Run(ty.String(), func() {
+					empty, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`[]`))
+					defer empty.Release()
+					in, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["0", "12E2", "-42E2", null]`))
+					defer in.Release()
+					exp, _, _ := array.FromJSON(ds.mem, ty, strings.NewReader(`["0", "-12E2", "42E2", null]`))
+					defer exp.Release()
+
+					checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, nil)
+					checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}}, &compute.ArrayDatum{exp.Data()}, nil)
+				})
+			}
+		})
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestSquareRoot() {
+	for _, fn := range []string{"sqrt_unchecked", "sqrt"} {
+		ds.Run(fn, func() {
+			for _, ty := range ds.positiveScales() {
+				ds.Run(ty.String(), func() {
+					empty := ds.decimalArrayFromJSON(ty, `[]`)
+					defer empty.Release()
+					arr := ds.decimalArrayFromJSON(ty, `["4.00", "16.00", "36.00", null]`)
+					defer arr.Release()
+
+					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{Value: empty.Data()}})
+					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{Value: arr.Data()}})
+
+					neg := ds.decimalArrayFromJSON(ty, `["-2.00"]`)
+					defer neg.Release()
+					ds.checkFail("sqrt", []compute.Datum{&compute.ArrayDatum{Value: neg.Data()}}, "square root of negative number", nil)
+				})
+			}
+
+			for _, ty := range ds.negativeScales() {
+				ds.Run(ty.String(), func() {
+					empty := ds.decimalArrayFromJSON(ty, `[]`)
+					defer empty.Release()
+					arr := ds.decimalArrayFromJSON(ty, `["400", "1600", "3600", null]`)
+					defer arr.Release()
+
+					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{Value: empty.Data()}})
+					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{Value: arr.Data()}})
+
+					neg := ds.decimalArrayFromJSON(ty, `["-400"]`)
+					defer neg.Release()
+					ds.checkFail("sqrt", []compute.Datum{&compute.ArrayDatum{Value: neg.Data()}}, "square root of negative number", nil)
+				})
+			}
+		})
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestSign() {
+	max128 := decimal128.GetMaxValue(38)
+	max256 := decimal256.GetMaxValue(76)
+
+	for _, ty := range ds.positiveScales() {
+		empty := ds.decimalArrayFromJSON(ty, `[]`)
+		defer empty.Release()
+		emptyOut := ds.decimalArrayFromJSON(arrow.PrimitiveTypes.Int64, `[]`)
+		defer emptyOut.Release()
+		in := ds.decimalArrayFromJSON(ty, `["1.00", "0.00", "-42.15", null]`)
+		defer in.Release()
+		exp := ds.decimalArrayFromJSON(arrow.PrimitiveTypes.Int64, `[1, 0, -1, null]`)
+		defer exp.Release()
+
+		checkScalar(ds.T(), "sign", []compute.Datum{&compute.ArrayDatum{empty.Data()}},
+			&compute.ArrayDatum{emptyOut.Data()}, nil)
+		checkScalar(ds.T(), "sign", []compute.Datum{&compute.ArrayDatum{in.Data()}},
+			&compute.ArrayDatum{exp.Data()}, nil)
+	}
+
+	checkScalar(ds.T(), "sign", []compute.Datum{compute.NewDatum(
+		scalar.NewDecimal128Scalar(max128, &arrow.Decimal128Type{Precision: 38}))},
+		compute.NewDatum(scalar.MakeScalar(int64(1))), nil)
+	checkScalar(ds.T(), "sign", []compute.Datum{compute.NewDatum(
+		scalar.NewDecimal128Scalar(max128.Negate(), &arrow.Decimal128Type{Precision: 38}))},
+		compute.NewDatum(scalar.MakeScalar(int64(-1))), nil)
+	checkScalar(ds.T(), "sign", []compute.Datum{compute.NewDatum(
+		scalar.NewDecimal256Scalar(max256, &arrow.Decimal256Type{Precision: 38}))},
+		compute.NewDatum(scalar.MakeScalar(int64(1))), nil)
+	checkScalar(ds.T(), "sign", []compute.Datum{compute.NewDatum(
+		scalar.NewDecimal256Scalar(max256.Negate(), &arrow.Decimal256Type{Precision: 38}))},
+		compute.NewDatum(scalar.MakeScalar(int64(-1))), nil)
+
+	for _, ty := range ds.negativeScales() {
+		empty := ds.decimalArrayFromJSON(ty, `[]`)
+		defer empty.Release()
+		emptyOut := ds.decimalArrayFromJSON(arrow.PrimitiveTypes.Int64, `[]`)
+		defer emptyOut.Release()
+		in := ds.decimalArrayFromJSON(ty, `["12e2", "0.00", "-42E2", null]`)
+		defer in.Release()
+		exp := ds.decimalArrayFromJSON(arrow.PrimitiveTypes.Int64, `[1, 0, -1, null]`)
+		defer exp.Release()
+
+		checkScalar(ds.T(), "sign", []compute.Datum{&compute.ArrayDatum{empty.Data()}},
+			&compute.ArrayDatum{emptyOut.Data()}, nil)
+		checkScalar(ds.T(), "sign", []compute.Datum{&compute.ArrayDatum{in.Data()}},
+			&compute.ArrayDatum{exp.Data()}, nil)
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestTrigAcosAsin() {
+	for _, fn := range []string{"acos", "acos_unchecked", "asin", "asin_unchecked"} {
+		ds.Run(fn, func() {
+			for _, ty := range ds.positiveScales() {
+				ds.Run(ty.String(), func() {
+					empty := ds.decimalArrayFromJSON(ty, `[]`)
+					defer empty.Release()
+					vals := ds.decimalArrayFromJSON(ty, `["0.00", "-1.00", "1.00", null]`)
+					defer vals.Release()
+					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
+					ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
+				})
+			}
+		})
+	}
+
+	for _, fn := range []string{"acos", "asin"} {
+		ds.Run(fn, func() {
+			for _, ty := range ds.negativeScales() {
+				ds.Run(ty.String(), func() {
+					arr := ds.decimalArrayFromJSON(ty, `["12E2", "-42E2", null]`)
+					defer arr.Release()
+					ds.checkDecimalToFloat(fn+"_unchecked", []compute.Datum{&compute.ArrayDatum{arr.Data()}})
+					ds.checkFail(fn, []compute.Datum{&compute.ArrayDatum{arr.Data()}}, "domain error", nil)
+				})
+			}
+		})
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestAtan() {
+	fn := "atan"
+	for _, ty := range ds.positiveScales() {
+		ds.Run(ty.String(), func() {
+			empty := ds.decimalArrayFromJSON(ty, `[]`)
+			defer empty.Release()
+			vals := ds.decimalArrayFromJSON(ty, `["0.00", "-1.00", "1.00", null]`)
+			defer vals.Release()
+			ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
+			ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
+		})
+	}
+	for _, ty := range ds.negativeScales() {
+		ds.Run(ty.String(), func() {
+			empty := ds.decimalArrayFromJSON(ty, `[]`)
+			defer empty.Release()
+			vals := ds.decimalArrayFromJSON(ty, `["12E2", "-42E2", null]`)
+			defer vals.Release()
+			ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
+			ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
+		})
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestTrig() {
+	for _, fn := range []string{"cos", "sin", "tan"} {
+		for _, suffix := range []string{"", "_unchecked"} {
+			fn += suffix
+			ds.Run(fn, func() {
+				for _, ty := range ds.positiveScales() {
+					ds.Run(ty.String(), func() {
+						empty := ds.decimalArrayFromJSON(ty, `[]`)
+						defer empty.Release()
+						vals := ds.decimalArrayFromJSON(ty, `["0.00", "-1.00", "1.00", null]`)
+						defer vals.Release()
+						ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
+						ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
+					})
+				}
+				for _, ty := range ds.negativeScales() {
+					ds.Run(ty.String(), func() {
+						empty := ds.decimalArrayFromJSON(ty, `[]`)
+						defer empty.Release()
+						vals := ds.decimalArrayFromJSON(ty, `["12E2", "-42E2", null]`)
+						defer vals.Release()
+						ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}})
+						ds.checkDecimalToFloat(fn, []compute.Datum{&compute.ArrayDatum{vals.Data()}})
+					})
+				}
+			})
+		}
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestRound() {
+	options := compute.RoundOptions{NDigits: 2, Mode: compute.RoundDown}
+
+	cases := []struct {
+		mode compute.RoundMode
+		exp  string
+	}{
+		{compute.RoundDown, `["1.010", "1.010", "1.010", "1.010", "-1.010", "-1.020", "-1.020", "-1.020", null]`},
+		{compute.RoundUp, `["1.010", "1.020", "1.020", "1.020", "-1.010", "-1.010", "-1.010", "-1.010", null]`},
+		{compute.RoundTowardsZero, `["1.010", "1.010", "1.010", "1.010", "-1.010", "-1.010", "-1.010", "-1.010", null]`},
+		{compute.RoundTowardsInfinity, `["1.010", "1.020", "1.020", "1.020", "-1.010", "-1.020", "-1.020", "-1.020", null]`},
+		{compute.RoundHalfDown, `["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null]`},
+		{compute.RoundHalfUp, `["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null]`},
+		{compute.RoundHalfTowardsZero, `["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null]`},
+		{compute.RoundHalfTowardsInfinity, `["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null]`},
+		{compute.RoundHalfToEven, `["1.010", "1.010", "1.020", "1.020", "-1.010", "-1.010", "-1.020", "-1.020", null]`},
+		{compute.RoundHalfToOdd, `["1.010", "1.010", "1.010", "1.020", "-1.010", "-1.010", "-1.010", "-1.020", null]`},
+	}
+
+	fn := "round"
+	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 3}, &arrow.Decimal256Type{Precision: 4, Scale: 3}} {
+		ds.Run(ty.String(), func() {
+			values := ds.getArr(ty, `["1.010", "1.012", "1.015", "1.019", "-1.010", "-1.012", "-1.015", "-1.019", null]`)
+			defer values.Release()
+
+			for _, tt := range cases {
+				ds.Run(tt.mode.String(), func() {
+					options.Mode = tt.mode
+					exp := ds.getArr(ty, tt.exp)
+					defer exp.Release()
+					checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{values.Data()}},
+						&compute.ArrayDatum{exp.Data()}, options)
+				})
+			}
+		})
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestRoundTowardsInfinity() {
+	fn := "round"
+	options := compute.RoundOptions{NDigits: 0, Mode: compute.RoundTowardsInfinity}
+	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
+		ds.Run(ty.String(), func() {
+			empty := ds.getArr(ty, `[]`)
+			defer empty.Release()
+			vals := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
+			defer vals.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
+			input := []compute.Datum{&compute.ArrayDatum{vals.Data()}}
+
+			options.NDigits = 0
+
+			exp0 := ds.getArr(ty, `["1.00", "2.00", "2.00", "-42.00", "-43.00", "-43.00", null]`)
+			defer exp0.Release()
+
+			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{exp0.Data()}, options)
+
+			exp1 := ds.getArr(ty, `["1.00", "2.00", "1.10", "-42.00", "-43.00", "-42.20", null]`)
+			defer exp1.Release()
+
+			options.NDigits = 1
+			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{exp1.Data()}, options)
+
+			options.NDigits = 2
+			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{vals.Data()}, options)
+			options.NDigits = 4
+			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{vals.Data()}, options)
+			options.NDigits = 100
+			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{vals.Data()}, options)
+
+			options.NDigits = -1
+			neg := ds.getArr(ty, `["10.00", "10.00", "10.00", "-50.00", "-50.00", "-50.00", null]`)
+			defer neg.Release()
+			checkScalar(ds.T(), fn, input, &compute.ArrayDatum{neg.Data()}, options)
+
+			options.NDigits = -2
+			ds.checkFail(fn, input, "rounding to -2 digits will not fit in precision", options)
+			options.NDigits = -1
+
+			noprec := ds.getArr(ty, `["99.99"]`)
+			defer noprec.Release()
+			ds.checkFail(fn, []compute.Datum{&compute.ArrayDatum{noprec.Data()}}, "rounded value 100.00 does not fit in precision", options)
+		})
+	}
+
+	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: -2}, &arrow.Decimal256Type{Precision: 2, Scale: -2}} {
+		ds.Run(ty.String(), func() {
+			values := ds.getArr(ty, `["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null]`)
+			defer values.Release()
+
+			input := &compute.ArrayDatum{values.Data()}
+
+			options.NDigits = 0
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+			options.NDigits = 2
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+			options.NDigits = 100
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+			options.NDigits = -1
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+			options.NDigits = -2
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+			options.NDigits = -3
+			res := ds.getArr(ty, `["10E2", "20E2", "20E2", "-10E2", "-20E2", "-20E2", null]`)
+			defer res.Release()
+			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{res.Data()}, options)
+
+			options.NDigits = -4
+			ds.checkFail(fn, []compute.Datum{input}, "rounding to -4 digits will not fit in precision", options)
+		})
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestRoundHalfToEven() {
+	fn := "round"
+	options := compute.RoundOptions{NDigits: 0, Mode: compute.RoundHalfToEven}
+	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
+		ds.Run(ty.String(), func() {
+			empty := ds.getArr(ty, `[]`)
+			defer empty.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
+
+			values := ds.getArr(ty, `["1.00", "5.99", "1.01", "-42.00", "-42.99", "-42.15", "1.50", "2.50", "-5.50", "-2.55", null]`)
+			defer values.Release()
+			input := &compute.ArrayDatum{values.Data()}
+
+			exp0 := ds.getArr(ty, `["1.00", "6.00", "1.00", "-42.00", "-43.00", "-42.00", "2.00", "2.00", "-6.00", "-3.00", null]`)
+			defer exp0.Release()
+
+			exp1 := ds.getArr(ty, `["1.00", "6.00", "1.00", "-42.00", "-43.00", "-42.20", "1.50", "2.50", "-5.50", "-2.60", null]`)
+			defer exp1.Release()
+
+			expNeg1 := ds.getArr(ty, `["0.00", "10.00", "0.00", "-40.00", "-40.00", "-40.00", "0.00", "0.00", "-10.00", "0.00", null]`)
+			defer expNeg1.Release()
+
+			options.NDigits = 0
+			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp0.Data()}, options)
+			options.NDigits = 1
+			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp1.Data()}, options)
+			options.NDigits = 2
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+			options.NDigits = 4
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+			options.NDigits = 100
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+			options.NDigits = -1
+			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{expNeg1.Data()}, options)
+			options.NDigits = -2
+			ds.checkFail(fn, []compute.Datum{input}, "rounding to -2 digits will not fit in precision", options)
+			options.NDigits = -1
+			noprec := ds.getArr(ty, `["99.99"]`)
+			defer noprec.Release()
+			ds.checkFail(fn, []compute.Datum{&compute.ArrayDatum{noprec.Data()}}, "rounded value 100.00 does not fit in precision", options)
+		})
+	}
+	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: -2}, &arrow.Decimal256Type{Precision: 2, Scale: -2}} {
+		ds.Run(ty.String(), func() {
+			values := ds.getArr(ty, `["5E2", "10E2", "12E2", "15E2", "18E2", "-10E2", "-12E2", "-15E2", "-18E2", null]`)
+			defer values.Release()
+
+			input := &compute.ArrayDatum{values.Data()}
+
+			options.NDigits = 0
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+			options.NDigits = 2
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+			options.NDigits = 100
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+			options.NDigits = -1
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+			options.NDigits = -2
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+			options.NDigits = -3
+			res := ds.getArr(ty, `["0", "10E2", "10E2", "20E2", "20E2", "-10E2", "-10E2", "-20E2", "-20E2", null]`)
+			defer res.Release()
+			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{res.Data()}, options)
+
+			options.NDigits = -4
+			ds.checkFail(fn, []compute.Datum{input}, "rounding to -4 digits will not fit in precision", options)
+		})
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestRoundCeil() {
+	fn := "ceil"
+	for _, ty := range ds.positiveScales() {
+		ds.Run(ty.String(), func() {
+			empty := ds.getArr(ty, `[]`)
+			defer empty.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
+				&compute.ArrayDatum{empty.Data()}, nil)
+
+			in := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
+			defer in.Release()
+			out := ds.getArr(ty, `["1.00", "2.00", "2.00", "-42.00", "-42.00", "-42.00", null]`)
+			defer out.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}},
+				&compute.ArrayDatum{out.Data()}, nil)
+		})
+	}
+	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
+		ds.Run(ty.String(), func() {
+			sc, _ := scalar.MakeScalarParam("99.99", ty)
+			ds.checkFail(fn, []compute.Datum{compute.NewDatum(sc)}, "rounded value 100.00 does not fit in precision of decimal", nil)
+			sc, _ = scalar.MakeScalarParam("-99.99", ty)
+			out, _ := scalar.MakeScalarParam("-99.00", ty)
+			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(sc)}, compute.NewDatum(out), nil)
+		})
+	}
+	for _, ty := range ds.negativeScales() {
+		ds.Run(ty.String(), func() {
+			empty := ds.getArr(ty, `[]`)
+			defer empty.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
+				&compute.ArrayDatum{empty.Data()}, nil)
+
+			ex := ds.getArr(ty, `["12E2", "-42E2", null]`)
+			defer ex.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{ex.Data()}},
+				&compute.ArrayDatum{ex.Data()}, nil)
+		})
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestRoundFloor() {
+	fn := "floor"
+	for _, ty := range ds.positiveScales() {
+		ds.Run(ty.String(), func() {
+			empty := ds.getArr(ty, `[]`)
+			defer empty.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
+				&compute.ArrayDatum{empty.Data()}, nil)
+
+			in := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
+			defer in.Release()
+			out := ds.getArr(ty, `["1.00", "1.00", "1.00", "-42.00", "-43.00", "-43.00", null]`)
+			defer out.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}},
+				&compute.ArrayDatum{out.Data()}, nil)
+		})
+	}
+	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
+		ds.Run(ty.String(), func() {
+			sc, _ := scalar.MakeScalarParam("-99.99", ty)
+			ds.checkFail(fn, []compute.Datum{compute.NewDatum(sc)}, "rounded value -100.00 does not fit in precision of decimal", nil)
+			sc, _ = scalar.MakeScalarParam("99.99", ty)
+			out, _ := scalar.MakeScalarParam("99.00", ty)
+			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(sc)}, compute.NewDatum(out), nil)
+		})
+	}
+	for _, ty := range ds.negativeScales() {
+		ds.Run(ty.String(), func() {
+			empty := ds.getArr(ty, `[]`)
+			defer empty.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
+				&compute.ArrayDatum{empty.Data()}, nil)
+
+			ex := ds.getArr(ty, `["12E2", "-42E2", null]`)
+			defer ex.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{ex.Data()}},
+				&compute.ArrayDatum{ex.Data()}, nil)
+		})
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestRoundTrunc() {
+	fn := "trunc"
+	for _, ty := range ds.positiveScales() {
+		ds.Run(ty.String(), func() {
+			empty := ds.getArr(ty, `[]`)
+			defer empty.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
+				&compute.ArrayDatum{empty.Data()}, nil)
+
+			in := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
+			defer in.Release()
+			out := ds.getArr(ty, `["1.00", "1.00", "1.00", "-42.00", "-42.00", "-42.00", null]`)
+			defer out.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{in.Data()}},
+				&compute.ArrayDatum{out.Data()}, nil)
+		})
+	}
+	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
+		ds.Run(ty.String(), func() {
+			sc, _ := scalar.MakeScalarParam("99.99", ty)
+			out, _ := scalar.MakeScalarParam("99.00", ty)
+			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(sc)}, compute.NewDatum(out), nil)
+			sc, _ = scalar.MakeScalarParam("-99.99", ty)
+			out, _ = scalar.MakeScalarParam("-99.00", ty)
+			checkScalar(ds.T(), fn, []compute.Datum{compute.NewDatum(sc)}, compute.NewDatum(out), nil)
+		})
+	}
+	for _, ty := range ds.negativeScales() {
+		ds.Run(ty.String(), func() {
+			empty := ds.getArr(ty, `[]`)
+			defer empty.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}},
+				&compute.ArrayDatum{empty.Data()}, nil)
+
+			ex := ds.getArr(ty, `["12E2", "-42E2", null]`)
+			defer ex.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{ex.Data()}},
+				&compute.ArrayDatum{ex.Data()}, nil)
+		})
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestRoundToMultiple() {
+	fn := "round_to_multiple"
+	var options compute.RoundToMultipleOptions
+	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
+		ds.Run(ty.String(), func() {
+			if ty.ID() == arrow.DECIMAL128 {
+				options.Multiple, _ = scalar.MakeScalarParam(decimal128.FromI64(200), ty)
+			} else {
+				options.Multiple, _ = scalar.MakeScalarParam(decimal256.FromI64(200), ty)
+			}
+
+			values := ds.getArr(ty, `["-3.50", "-3.00", "-2.50", "-2.00", "-1.50", "-1.00", "-0.50", "0.00", "0.50", "1.00", "1.50", "2.00", "2.50", "3.00", "3.50", null]`)
+			defer values.Release()
+
+			input := []compute.Datum{&compute.ArrayDatum{values.Data()}}
+
+			tests := []struct {
+				mode compute.RoundMode
+				exp  string
+			}{
+				{compute.RoundDown, `["-4.00", "-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", null]`},
+				{compute.RoundUp, `["-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "-0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", "4.00", null]`},
+				{compute.RoundTowardsZero, `["-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "-0.00", "0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", null]`},
+				{compute.RoundTowardsInfinity, `["-4.00", "-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", "4.00", null]`},
+				{compute.RoundHalfDown, `["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", null]`},
+				{compute.RoundHalfUp, `["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", null]`},
+				{compute.RoundHalfTowardsZero, `["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", null]`},
+				{compute.RoundHalfTowardsInfinity, `["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "4.00", "4.00", null]`},
+				{compute.RoundHalfToEven, `["-4.00", "-4.00", "-2.00", "-2.00", "-2.00", "-0.00", "-0.00", "0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "4.00", "4.00", null]`},
+				{compute.RoundHalfToOdd, `["-4.00", "-2.00", "-2.00", "-2.00", "-2.00", "-2.00", "-0.00", "0.00", "0.00", "2.00", "2.00", "2.00", "2.00", "2.00", "4.00", null]`},
+			}
+
+			for _, tt := range tests {
+				ds.Run(tt.mode.String(), func() {
+					options.Mode = tt.mode
+
+					result := ds.getArr(ty, tt.exp)
+					defer result.Release()
+
+					checkScalar(ds.T(), fn, input, &compute.ArrayDatum{result.Data()}, options)
+				})
+			}
+		})
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestRoundToMultipleTowardsInfinity() {
+	fn := "round_to_multiple"
+	options := compute.RoundToMultipleOptions{Mode: compute.RoundTowardsInfinity}
+	setMultiple := func(ty arrow.DataType, val int64) {
+		if ty.ID() == arrow.DECIMAL128 {
+			options.Multiple = scalar.NewDecimal128Scalar(decimal128.FromI64(val), ty)
+		} else {
+			options.Multiple = scalar.NewDecimal256Scalar(decimal256.FromI64(val), ty)
+		}
+	}
+
+	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
+		ds.Run(ty.String(), func() {
+			empty := ds.getArr(ty, `[]`)
+			defer empty.Release()
+
+			values := ds.getArr(ty, `["1.00", "1.99", "1.01", "-42.00", "-42.99", "-42.15", null]`)
+			defer values.Release()
+
+			input := &compute.ArrayDatum{values.Data()}
+
+			setMultiple(ty, 25)
+			checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
+
+			exp25 := ds.getArr(ty, `["1.00", "2.00", "1.25", "-42.00", "-43.00", "-42.25", null]`)
+			defer exp25.Release()
+			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp25.Data()}, options)
+
+			setMultiple(ty, 1)
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+
+			setMultiple(&arrow.Decimal128Type{Precision: 2, Scale: 0}, 2)
+			exp20 := ds.getArr(ty, `["2.00", "2.00", "2.00", "-42.00", "-44.00", "-44.00", null]`)
+			defer exp20.Release()
+			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp20.Data()}, options)
+
+			setMultiple(ty, 0)
+			ds.checkFail(fn, []compute.Datum{input}, "rounding multiple must be positive", options)
+
+			options.Multiple = scalar.NewDecimal128Scalar(decimal128.Num{}, &arrow.Decimal128Type{Precision: 4, Scale: 2})
+			ds.checkFail(fn, []compute.Datum{input}, "rounding multiple must be positive", options)
+
+			tester := ds.getArr(ty, `["99.99"]`)
+			defer tester.Release()
+
+			testDatum := &compute.ArrayDatum{tester.Data()}
+
+			setMultiple(ty, -10)
+			ds.checkFail(fn, []compute.Datum{testDatum}, "rounding multiple must be positive", options)
+			setMultiple(ty, 100)
+			ds.checkFail(fn, []compute.Datum{testDatum}, "rounded value 100.00 does not fit in precision", options)
+			options.Multiple = scalar.NewFloat64Scalar(1)
+			ds.checkFail(fn, []compute.Datum{testDatum}, "rounded value 100.00 does not fit in precision", options)
+			options.Multiple = scalar.MakeNullScalar(&arrow.Decimal128Type{Precision: 3})
+			ds.checkFail(fn, []compute.Datum{testDatum}, "rounding multiple must be non-null and valid", options)
+			options.Multiple = nil
+			ds.checkFail(fn, []compute.Datum{testDatum}, "rounding multiple must be non-null and valid", options)
+		})
+	}
+
+	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: -2}, &arrow.Decimal256Type{Precision: 2, Scale: -2}} {
+		ds.Run(ty.String(), func() {
+			values := ds.getArr(ty, `["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null]`)
+			defer values.Release()
+
+			input := &compute.ArrayDatum{values.Data()}
+
+			setMultiple(ty, 4)
+			exp := ds.getArr(ty, `["12E2", "12E2", "20E2", "-12E2", "-12E2", "-20E2", null]`)
+			defer exp.Release()
+
+			checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp.Data()}, options)
+
+			setMultiple(ty, 1)
+			checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+		})
+	}
+}
+
+func (ds *DecimalUnaryArithmeticSuite) TestRoundToMultipleHalfToOdd() {
+	fn := "round_to_multiple"
+	options := compute.RoundToMultipleOptions{Mode: compute.RoundHalfToOdd}
+	setMultiple := func(ty arrow.DataType, val int64) {
+		if ty.ID() == arrow.DECIMAL128 {
+			options.Multiple = scalar.NewDecimal128Scalar(decimal128.FromI64(val), ty)
+		} else {
+			options.Multiple = scalar.NewDecimal256Scalar(decimal256.FromI64(val), ty)
+		}
+	}
+
+	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 4, Scale: 2}, &arrow.Decimal256Type{Precision: 4, Scale: 2}} {
+		empty := ds.getArr(ty, `[]`)
+		defer empty.Release()
+
+		values := ds.getArr(ty, `["-0.38", "-0.37", "-0.25", "-0.13", "-0.12", "0.00", "0.12", "0.13", "0.25", "0.37", "0.38", null]`)
+		defer values.Release()
+
+		input := &compute.ArrayDatum{values.Data()}
+
+		// there is no exact halfway point, check what happens
+		setMultiple(ty, 25)
+		checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
+
+		exp25 := ds.getArr(ty, `["-0.50", "-0.25", "-0.25", "-0.25", "-0.00", "0.00", "0.00", "0.25", "0.25", "0.25", "0.50", null]`)
+		defer exp25.Release()
+
+		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp25.Data()}, options)
+
+		setMultiple(ty, 1)
+		checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+		setMultiple(ty, 24)
+		checkScalar(ds.T(), fn, []compute.Datum{&compute.ArrayDatum{empty.Data()}}, &compute.ArrayDatum{empty.Data()}, options)
+
+		exp24 := ds.getArr(ty, `["-0.48", "-0.48", "-0.24", "-0.24", "-0.24", "0.00", "0.24", "0.24", "0.24", "0.48", "0.48", null]`)
+		defer exp24.Release()
+		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp24.Data()}, options)
+
+		setMultiple(&arrow.Decimal128Type{Precision: 3, Scale: 1}, 1)
+		exp1 := ds.getArr(ty, `["-0.40", "-0.40", "-0.30", "-0.10", "-0.10", "0.00", "0.10", "0.10", "0.30", "0.40", "0.40", null]`)
+		defer exp1.Release()
+
+		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp1.Data()}, options)
+	}
+
+	for _, ty := range []arrow.DataType{&arrow.Decimal128Type{Precision: 2, Scale: -2}, &arrow.Decimal256Type{Precision: 2, Scale: -2}} {
+		values := ds.getArr(ty, `["10E2", "12E2", "18E2", "-10E2", "-12E2", "-18E2", null]`)
+		defer values.Release()
+
+		exp4 := ds.getArr(ty, `["12E2", "12E2", "20E2", "-12E2", "-12E2", "-20E2", null]`)
+		defer exp4.Release()
+
+		exp5 := ds.getArr(ty, `["10E2", "10E2", "20E2", "-10E2", "-10E2", "-20E2", null]`)
+		defer exp5.Release()
+
+		input := &compute.ArrayDatum{values.Data()}
+		setMultiple(ty, 4)
+		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp4.Data()}, options)
+
+		setMultiple(ty, 5)
+		checkScalar(ds.T(), fn, []compute.Datum{input}, &compute.ArrayDatum{exp5.Data()}, options)
+
+		setMultiple(ty, 1)
+		checkScalar(ds.T(), fn, []compute.Datum{input}, input, options)
+	}
+}
+
+type ScalarBinaryTemporalArithmeticSuite struct {
+	BinaryFuncTestSuite
+}
+
+var (
+	date32JSON = `[0, 11016, -25932, 23148, 18262, 18261, 18260, 14609, 14610, 14612,
+	14613, 13149, 13148, 14241, 14242, 15340, null]`
+	date32JSON2 = `[365, 10650, -25901, 23118, 18263, 18259, 18260, 14609, 14610, 14612,
+	14613, 13149, 13148, 14240, 13937, 15400, null]`
+	date64JSON = `[0, 951782400000, -2240524800000, 1999987200000, 1577836800000,
+	1577750400000, 1577664000000, 1262217600000, 1262304000000, 1262476800000,
+	1262563200000, 1136073600000, 1135987200000, 1230422400000, 1230508800000,
+	1325376000000, null]`
+	date64JSON2 = `[31536000000, 920160000000, -2237846400000, 1997395200000,
+	1577923200000, 1577577600000, 1577664000000, 1262217600000, 1262304000000,
+	1262476800000, 1262563200000, 1136073600000, 1135987200000, 1230336000000,
+	1204156800000, 1330560000000, null]`
+	timeJSONs = `[59, 84203, 3560, 12800, 3905, 7810, 11715, 15620, 19525, 23430, 27335,
+	31240, 35145, 0, 0, 3723, null]`
+	timeJSONs2 = `[59, 84203, 12642, 7182, 68705, 7390, 915, 16820, 19525, 5430, 84959,
+	31207, 35145, 0, 0, 3723, null]`
+	timeJSONms = `[59123, 84203999, 3560001, 12800000, 3905001, 7810002, 11715003, 15620004,
+	19525005, 23430006, 27335000, 31240000, 35145000, 0, 0, 3723000, null]`
+	timeJSONms2 = `[59103, 84203999, 12642001, 7182000, 68705005, 7390000, 915003, 16820004,
+	19525005, 5430006, 84959000, 31207000, 35145000, 0, 0, 3723000, null]`
+	timeJSONus = `[59123456, 84203999999, 3560001001, 12800000000, 3905001000, 7810002000,
+	11715003000, 15620004132, 19525005321, 23430006163, 27335000000,
+	31240000000, 35145000000, 0, 0, 3723000000, null]`
+	timeJSONus2 = `[59103476, 84203999999, 12642001001, 7182000000, 68705005000, 7390000000,
+	915003000, 16820004432, 19525005021, 5430006163, 84959000000,
+	31207000000, 35145000000, 0, 0, 3723000000, null]`
+	timeJSONns = `[59123456789, 84203999999999, 3560001001001, 12800000000000, 3905001000000,
+	7810002000000, 11715003000000, 15620004132000, 19525005321000,
+	23430006163000, 27335000000000, 31240000000000, 35145000000000, 0, 0,
+	3723000000000, null]`
+	timeJSONns2 = `[59103476799, 84203999999909, 12642001001001, 7182000000000, 68705005000000,
+	7390000000000, 915003000000, 16820004432000, 19525005021000, 5430006163000,
+	84959000000000, 31207000000000, 35145000000000, 0, 0, 3723000000000, null]`
+)
+
+func (s *ScalarBinaryTemporalArithmeticSuite) TestTemporalAddSub() {
+	tests := []struct {
+		val1 string
+		val2 string
+		dt   arrow.DataType
+		exp  arrow.DataType
+	}{
+		{date32JSON, date32JSON2, arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Duration_s},
+		{date64JSON, date64JSON2, arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Duration_ms},
+		{timeJSONs, timeJSONs2, arrow.FixedWidthTypes.Time32s, arrow.FixedWidthTypes.Duration_s},
+		{timeJSONms, timeJSONms2, arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Duration_ms},
+		{timeJSONus, timeJSONus2, arrow.FixedWidthTypes.Time64us, arrow.FixedWidthTypes.Duration_us},
+		{timeJSONns, timeJSONns2, arrow.FixedWidthTypes.Time64ns, arrow.FixedWidthTypes.Duration_ns},
+	}
+
+	for _, tt := range tests {
+		s.Run(tt.dt.String(), func() {
+			for _, checked := range []bool{true, false} {
+				s.Run(fmt.Sprintf("checked=%t", checked), func() {
+					opts := compute.ArithmeticOptions{NoCheckOverflow: !checked}
+					arr1, _, _ := array.FromJSON(s.mem, tt.dt, strings.NewReader(tt.val1))
+					defer arr1.Release()
+					arr2, _, _ := array.FromJSON(s.mem, tt.dt, strings.NewReader(tt.val2))
+					defer arr2.Release()
+
+					datum1 := &compute.ArrayDatum{Value: arr1.Data()}
+					datum2 := &compute.ArrayDatum{Value: arr2.Data()}
+
+					result, err := compute.Subtract(s.ctx, opts, datum1, datum2)
+					s.Require().NoError(err)
+					defer result.Release()
+					res := result.(*compute.ArrayDatum)
+					s.Truef(arrow.TypeEqual(tt.exp, res.Type()),
+						"expected: %s\n got: %s", tt.exp, res.Type())
+
+					out, err := compute.Add(s.ctx, opts, datum2, result)
+					s.Require().NoError(err)
+					defer out.Release()
+
+					// date32 - date32 / date64 - date64 produce durations
+					// and date + duration == timestamp so we need to cast
+					// the timestamp back to a date in that case. Otherwise
+					// we get back time32/time64 in those cases and can
+					// compare them accurately.
+					if arrow.TypeEqual(arr1.DataType(), out.(*compute.ArrayDatum).Type()) {
+						assertDatumsEqual(s.T(), datum1, out, nil, nil)
+					} else {
+						casted, err := compute.CastDatum(s.ctx, out, compute.SafeCastOptions(arr1.DataType()))
+						s.Require().NoError(err)
+						defer casted.Release()
+						assertDatumsEqual(s.T(), datum1, casted, nil, nil)
+					}
+
+				})
+			}
+		})
+	}
+}
+
+func TestUnaryDispatchBest(t *testing.T) {
+	for _, fn := range []string{"abs"} {
+		for _, suffix := range []string{"", "_unchecked"} {
+			fn += suffix
+			t.Run(fn, func(t *testing.T) {
+				for _, ty := range numericTypes {
+					t.Run(ty.String(), func(t *testing.T) {
+						CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
+						CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
+							[]arrow.DataType{ty})
+					})
+				}
+			})
+		}
+	}
+
+	for _, fn := range []string{"negate_unchecked", "sign"} {
+		t.Run(fn, func(t *testing.T) {
+			for _, ty := range numericTypes {
+				t.Run(ty.String(), func(t *testing.T) {
+					CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
+					CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
+						[]arrow.DataType{ty})
+				})
+			}
+		})
+	}
+
+	for _, fn := range []string{"negate"} {
+		t.Run(fn, func(t *testing.T) {
+			for _, ty := range append(signedIntTypes, floatingTypes...) {
+				t.Run(ty.String(), func(t *testing.T) {
+					CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
+					CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
+						[]arrow.DataType{ty})
+				})
+			}
+		})
+	}
+
+	// float types (with _unchecked variants)
+	for _, fn := range []string{"ln", "log2", "log10", "log1p", "sin", "cos", "tan", "asin", "acos"} {
+		for _, suffix := range []string{"", "_unchecked"} {
+			fn += suffix
+			t.Run(fn, func(t *testing.T) {
+				for _, ty := range floatingTypes {
+					t.Run(ty.String(), func(t *testing.T) {
+						CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
+						CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
+							[]arrow.DataType{ty})
+					})
+				}
+			})
+		}
+	}
+
+	// float types (without _unchecked variants)
+	for _, fn := range []string{"atan", "sign", "floor", "ceil", "trunc", "round"} {
+		t.Run(fn, func(t *testing.T) {
+			for _, ty := range floatingTypes {
+				t.Run(ty.String(), func(t *testing.T) {
+					CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{ty})
+					CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
+						[]arrow.DataType{ty})
+				})
+			}
+		})
+	}
+
+	// integer -> float64 (with _unchecked variant)
+	for _, fn := range []string{"ln", "log2", "log10", "log1p", "sin", "cos", "tan", "asin", "acos"} {
+		for _, suffix := range []string{"", "_unchecked"} {
+			fn += suffix
+			t.Run(fn, func(t *testing.T) {
+				for _, ty := range integerTypes {
+					t.Run(ty.String(), func(t *testing.T) {
+						CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{arrow.PrimitiveTypes.Float64})
+						CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
+							[]arrow.DataType{arrow.PrimitiveTypes.Float64})
+					})
+				}
+			})
+		}
+	}
+
+	// integer -> float64 (without _unchecked variants)
+	for _, fn := range []string{"atan", "floor", "ceil", "trunc", "round"} {
+		t.Run(fn, func(t *testing.T) {
+			for _, ty := range integerTypes {
+				t.Run(ty.String(), func(t *testing.T) {
+					CheckDispatchBest(t, fn, []arrow.DataType{ty}, []arrow.DataType{arrow.PrimitiveTypes.Float64})
+					CheckDispatchBest(t, fn, []arrow.DataType{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: ty}},
+						[]arrow.DataType{arrow.PrimitiveTypes.Float64})
+				})
+			}
+		})
+	}
+}
+
+func TestUnaryArithmeticNull(t *testing.T) {
+	for _, fn := range []string{"abs", "negate", "acos", "asin", "cos", "ln", "log10", "log1p", "log2", "sin", "tan"} {
+		for _, suffix := range []string{"", "_unchecked"} {
+			fn += suffix
+			assertNullToNull(t, context.TODO(), fn, memory.DefaultAllocator)
+		}
+	}
+
+	for _, fn := range []string{"sign", "atan", "bit_wise_not", "floor", "ceil", "trunc", "round"} {
+		assertNullToNull(t, context.TODO(), fn, memory.DefaultAllocator)
+	}
+}
+
+type UnaryArithmeticSuite[T exec.NumericTypes, O fnOpts] struct {
+	suite.Suite
+
+	mem *memory.CheckedAllocator
+	ctx context.Context
+
+	opts O
+}
+
+func (us *UnaryArithmeticSuite[T, O]) SetupTest() {
+	us.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
+	us.ctx = compute.WithAllocator(context.TODO(), us.mem)
+	var def O
+	us.opts = def
+}
+
+func (us *UnaryArithmeticSuite[T, O]) TearDownTest() {
+	us.mem.AssertSize(us.T(), 0)
+}
+
+func (*UnaryArithmeticSuite[T, O]) datatype() arrow.DataType {
+	return exec.GetDataType[T]()
+}
+
+func (us *UnaryArithmeticSuite[T, O]) makeNullScalar() scalar.Scalar {
+	return scalar.MakeNullScalar(us.datatype())
+}
+
+func (us *UnaryArithmeticSuite[T, O]) makeScalar(v T) scalar.Scalar {
+	return scalar.MakeScalar(v)
+}
+
+func (us *UnaryArithmeticSuite[T, O]) makeArray(v ...T) arrow.Array {
+	return exec.ArrayFromSlice(us.mem, v)
+}
+
+func (us *UnaryArithmeticSuite[T, O]) getArr(dt arrow.DataType, str string) arrow.Array {
+	arr, _, err := array.FromJSON(us.mem, dt, strings.NewReader(str), array.WithUseNumber())
+	us.Require().NoError(err)
+	return arr
+}
+
+func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpValError(fn unaryArithmeticFunc[O], arg T, msg string) {
+	in := us.makeScalar(arg)
+	_, err := fn(us.ctx, us.opts, compute.NewDatum(in))
+	us.ErrorIs(err, arrow.ErrInvalid)
+	us.ErrorContains(err, msg)
+}
+
+func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpNotImplemented(fn unaryArithmeticFunc[O], arg T, msg string) {
+	in := us.makeScalar(arg)
+	_, err := fn(us.ctx, us.opts, compute.NewDatum(in))
+	us.ErrorIs(err, arrow.ErrNotImplemented)
+	us.ErrorContains(err, msg)
+}
+
+func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpVals(fn unaryArithmeticFunc[O], arg, expected T) {
+	in := us.makeScalar(arg)
+	exp := us.makeScalar(expected)
+
+	actual, err := fn(us.ctx, us.opts, compute.NewDatum(in))
+	us.Require().NoError(err)
+	assertScalarEquals(us.T(), exp, actual.(*compute.ScalarDatum).Value, scalar.WithNaNsEqual(true))
+}
+
+func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpScalars(fn unaryArithmeticFunc[O], arg, exp scalar.Scalar) {
+	actual, err := fn(us.ctx, us.opts, compute.NewDatum(arg))
+	us.Require().NoError(err)
+	assertScalarEquals(us.T(), exp, actual.(*compute.ScalarDatum).Value, scalar.WithNaNsEqual(true))
+}
+
+func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpArrs(fn unaryArithmeticFunc[O], arg, exp arrow.Array) {
+	datum := &compute.ArrayDatum{arg.Data()}
+	actual, err := fn(us.ctx, us.opts, datum)
+	us.Require().NoError(err)
+	defer actual.Release()
+	assertDatumsEqual(us.T(), &compute.ArrayDatum{exp.Data()}, actual, []array.EqualOption{array.WithNaNsEqual(true)}, []scalar.EqualOption{scalar.WithNaNsEqual(true)})
+
+	// also check scalar ops
+	for i := 0; i < arg.Len(); i++ {
+		expScalar, err := scalar.GetScalar(exp, i)
+		us.NoError(err)
+		argScalar, err := scalar.GetScalar(arg, i)
+		us.NoError(err)
+
+		actual, err := fn(us.ctx, us.opts, compute.NewDatum(argScalar))
+		us.Require().NoError(err)
+		assertDatumsEqual(us.T(), compute.NewDatum(expScalar), compute.NewDatum(actual), []array.EqualOption{array.WithNaNsEqual(true)}, []scalar.EqualOption{scalar.WithNaNsEqual(true)})
+	}
+}
+
+func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpExpArr(fn unaryArithmeticFunc[O], arg string, exp arrow.Array) {
+	in, _, err := array.FromJSON(us.mem, us.datatype(), strings.NewReader(arg), array.WithUseNumber())
+	us.Require().NoError(err)
+	defer in.Release()
+
+	us.assertUnaryOpArrs(fn, in, exp)
+}
+
+func (us *UnaryArithmeticSuite[T, O]) assertUnaryOp(fn unaryArithmeticFunc[O], arg, exp string) {
+	in, _, err := array.FromJSON(us.mem, us.datatype(), strings.NewReader(arg), array.WithUseNumber())
+	us.Require().NoError(err)
+	defer in.Release()
+	expected, _, err := array.FromJSON(us.mem, us.datatype(), strings.NewReader(exp), array.WithUseNumber())
+	us.Require().NoError(err)
+	defer expected.Release()
+
+	us.assertUnaryOpArrs(fn, in, expected)
+}
+
+func (us *UnaryArithmeticSuite[T, O]) assertUnaryOpErr(fn unaryArithmeticFunc[O], arg string, msg string) {
+	in, _, err := array.FromJSON(us.mem, us.datatype(), strings.NewReader(arg), array.WithUseNumber())
+	us.Require().NoError(err)
+	defer in.Release()
+
+	_, err = fn(us.ctx, us.opts, &compute.ArrayDatum{in.Data()})
+	us.ErrorIs(err, arrow.ErrInvalid)
+	us.ErrorContains(err, msg)
+}
+
+type UnaryArithmeticIntegral[T exec.IntTypes | exec.UintTypes] struct {
+	UnaryArithmeticSuite[T, compute.ArithmeticOptions]
+}
+
+func (us *UnaryArithmeticIntegral[T]) setOverflowCheck(v bool) {
+	us.opts.NoCheckOverflow = !v
+}
+
+func (us *UnaryArithmeticIntegral[T]) TestTrig() {
+	// integer arguments promoted to float64, sanity check here
+	atan := func(ctx context.Context, _ compute.ArithmeticOptions, arg compute.Datum) (compute.Datum, error) {
+		return compute.Atan(ctx, arg)
+	}
+
+	input := us.makeArray(0, 1)
+	defer input.Release()
+	for _, overflow := range []bool{false, true} {
+		us.setOverflowCheck(overflow)
+		sinOut := us.getArr(arrow.PrimitiveTypes.Float64, `[0, 0.8414709848078965]`)
+		defer sinOut.Release()
+		cosOut := us.getArr(arrow.PrimitiveTypes.Float64, `[1, 0.5403023058681398]`)
+		defer cosOut.Release()
+		tanOut := us.getArr(arrow.PrimitiveTypes.Float64, `[0, 1.5574077246549023]`)
+		defer tanOut.Release()
+		asinOut := us.getArr(arrow.PrimitiveTypes.Float64, fmt.Sprintf("[0, %f]", math.Pi/2))
+		defer asinOut.Release()
+		acosOut := us.getArr(arrow.PrimitiveTypes.Float64, fmt.Sprintf("[%f, 0]", math.Pi/2))
+		defer acosOut.Release()
+		atanOut := us.getArr(arrow.PrimitiveTypes.Float64, fmt.Sprintf("[0, %f]", math.Pi/4))
+		defer atanOut.Release()
+
+		us.assertUnaryOpArrs(compute.Sin, input, sinOut)
+		us.assertUnaryOpArrs(compute.Cos, input, cosOut)
+		us.assertUnaryOpArrs(compute.Tan, input, tanOut)
+		us.assertUnaryOpArrs(compute.Asin, input, asinOut)
+		us.assertUnaryOpArrs(compute.Acos, input, acosOut)
+		us.assertUnaryOpArrs(atan, input, atanOut)
+	}
+}
+
+func (us *UnaryArithmeticIntegral[T]) TestLog() {
+	// integer arguments promoted to double, sanity check here
+	ty := us.datatype()
+	for _, overflow := range []bool{false, true} {
+		us.setOverflowCheck(overflow)
+		exp1 := us.getArr(arrow.PrimitiveTypes.Float64, `[0, null]`)
+		defer exp1.Release()
+		exp2 := us.getArr(arrow.PrimitiveTypes.Float64, `[0, 1, null]`)
+		defer exp2.Release()
+
+		ln := us.getArr(ty, `[1, null]`)
+		defer ln.Release()
+		log10 := us.getArr(ty, `[1, 10, null]`)
+		defer log10.Release()
+		log2 := us.getArr(ty, `[1, 2, null]`)
+		defer log2.Release()
+		log1p := us.getArr(ty, `[0, null]`)
+		defer log1p.Release()
+
+		us.assertUnaryOpArrs(compute.Ln, ln, exp1)
+		us.assertUnaryOpArrs(compute.Log10, log10, exp2)
+		us.assertUnaryOpArrs(compute.Log2, log2, exp2)
+		us.assertUnaryOpArrs(compute.Log1p, log1p, exp1)
+	}
+}
+
+type UnaryArithmeticSigned[T exec.IntTypes] struct {
+	UnaryArithmeticIntegral[T]
+}
+
+func (us *UnaryArithmeticSigned[T]) TestAbsoluteValue() {
+	var (
+		dt  = us.datatype()
+		min = kernels.MinOf[T]()
+		max = kernels.MaxOf[T]()
+	)
+
+	fn := func(in, exp string) {
+		us.assertUnaryOp(compute.AbsoluteValue, in, exp)
+	}
+
+	us.Run(dt.String(), func() {
+		for _, checkOverflow := range []bool{true, false} {
+			us.setOverflowCheck(checkOverflow)
+			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
+				// empty array
+				fn(`[]`, `[]`)
+				// scalar/arrays with nulls
+				fn(`[null]`, `[null]`)
+				fn(`[1, null -10]`, `[1, null, 10]`)
+				us.assertUnaryOpScalars(compute.AbsoluteValue, us.makeNullScalar(), us.makeNullScalar())
+				// scalar/arrays with zeros
+				fn(`[0, -0]`, `[0, 0]`)
+				us.assertUnaryOpVals(compute.AbsoluteValue, -0, 0)
+				us.assertUnaryOpVals(compute.AbsoluteValue, 0, 0)
+				// ordinary scalars/arrays (positive inputs)
+				fn(`[1, 10, 127]`, `[1, 10, 127]`)
+				us.assertUnaryOpVals(compute.AbsoluteValue, 1, 1)
+				// ordinary scalars/arrays (negative inputs)
+				fn(`[-1, -10, -127]`, `[1, 10, 127]`)
+				us.assertUnaryOpVals(compute.AbsoluteValue, -1, 1)
+				// min/max
+				us.assertUnaryOpVals(compute.AbsoluteValue, max, max)
+				if checkOverflow {
+					us.assertUnaryOpValError(compute.AbsoluteValue, min, "overflow")
+				} else {
+					us.assertUnaryOpVals(compute.AbsoluteValue, min, min)
+				}
+			})
+		}
+	})
+}
+
+func (us *UnaryArithmeticSigned[T]) TestNegate() {
+	var (
+		dt  = us.datatype()
+		min = kernels.MinOf[T]()
+		max = kernels.MaxOf[T]()
+	)
+
+	fn := func(in, exp string) {
+		us.assertUnaryOp(compute.Negate, in, exp)
+	}
+
+	us.Run(dt.String(), func() {
+		for _, checkOverflow := range []bool{true, false} {
+			us.setOverflowCheck(checkOverflow)
+			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
+				fn(`[]`, `[]`)
+				// scalar/arrays with nulls
+				fn(`[null]`, `[null]`)
+				fn(`[1, null -10]`, `[-1, null, 10]`)
+				// ordinary scalars/arrays (positive inputs)
+				fn(`[1, 10, 127]`, `[-1, -10, -127]`)
+				us.assertUnaryOpVals(compute.Negate, 1, -1)
+				// ordinary scalars/arrays (negative inputs)
+				fn(`[-1, -10, -127]`, `[1, 10, 127]`)
+				us.assertUnaryOpVals(compute.Negate, -1, 1)
+				// min/max
+				us.assertUnaryOpVals(compute.Negate, min+1, max)
+				us.assertUnaryOpVals(compute.Negate, max, min+1)
+			})
+		}
+	})
+}
+
+type UnaryArithmeticUnsigned[T exec.UintTypes] struct {
+	UnaryArithmeticIntegral[T]
+}
+
+func (us *UnaryArithmeticUnsigned[T]) TestAbsoluteValue() {
+	var (
+		min, max T = 0, kernels.MaxOf[T]()
+	)
+
+	fn := func(in, exp string) {
+		us.assertUnaryOp(compute.AbsoluteValue, in, exp)
+	}
+
+	us.Run(us.datatype().String(), func() {
+		for _, checkOverflow := range []bool{true, false} {
+			us.setOverflowCheck(checkOverflow)
+			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
+				fn(`[]`, `[]`)
+				fn(`[null]`, `[null]`)
+				us.assertUnaryOpScalars(compute.AbsoluteValue, us.makeNullScalar(), us.makeNullScalar())
+				fn(`[0, 1, 10, 127]`, `[0, 1, 10, 127]`)
+				us.assertUnaryOpVals(compute.AbsoluteValue, min, min)
+				us.assertUnaryOpVals(compute.AbsoluteValue, max, max)
+			})
+		}
+	})
+}
+
+func (us *UnaryArithmeticUnsigned[T]) TestNegate() {
+	var (
+		dt = us.datatype()
+	)
+
+	fn := func(in, exp string) {
+		us.assertUnaryOp(compute.Negate, in, exp)
+	}
+
+	us.Run(dt.String(), func() {
+		us.setOverflowCheck(true)
+		us.assertUnaryOpNotImplemented(compute.Negate, 1, "no kernel matching input types")
+
+		us.setOverflowCheck(false)
+		fn(`[]`, `[]`)
+		fn(`[null]`, `[null]`)
+		us.assertUnaryOpVals(compute.Negate, 1, ^T(1)+1)
+	})
+}
+
+type UnaryArithmeticFloating[T constraints.Float] struct {
+	UnaryArithmeticSuite[T, compute.ArithmeticOptions]
+
+	min, max T
+	smallest T
+}
+
+func (us *UnaryArithmeticFloating[T]) setOverflowCheck(v bool) {
+	us.opts.NoCheckOverflow = !v
+}
+
+func (us *UnaryArithmeticFloating[T]) TestAbsoluteValue() {
+	fn := func(in, exp string) {
+		us.assertUnaryOp(compute.AbsoluteValue, in, exp)
+	}
+
+	us.Run(us.datatype().String(), func() {
+		for _, checkOverflow := range []bool{true, false} {
+			us.setOverflowCheck(checkOverflow)
+			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
+				fn(`[]`, `[]`)
+				fn(`[null]`, `[null]`)
+				fn(`[1.3, null, -10.80]`, `[1.3, null, 10.80]`)
+				us.assertUnaryOpScalars(compute.AbsoluteValue, us.makeNullScalar(), us.makeNullScalar())
+				fn(`[0.0, -0.0]`, `[0.0, 0.0]`)
+				us.assertUnaryOpVals(compute.AbsoluteValue, T(math.Copysign(0, -1)), 0)
+				us.assertUnaryOpVals(compute.AbsoluteValue, 0, 0)
+				fn(`[1.3, 10.80, 12748.001]`, `[1.3, 10.80, 12748.001]`)
+				us.assertUnaryOpVals(compute.AbsoluteValue, 1.3, 1.3)
+				fn(`[-1.3, -10.80, -12748.001]`, `[1.3, 10.80, 12748.001]`)
+				us.assertUnaryOpVals(compute.AbsoluteValue, -1.3, 1.3)
+				fn(`["Inf", "-Inf"]`, `["Inf", "Inf"]`)
+				us.assertUnaryOpVals(compute.AbsoluteValue, us.min, us.max)
+				us.assertUnaryOpVals(compute.AbsoluteValue, us.max, us.max)
+			})
+		}
+	})
+}
+
+func (us *UnaryArithmeticFloating[T]) TestNegate() {
+	var (
+		dt = us.datatype()
+	)
+
+	fn := func(in, exp string) {
+		us.assertUnaryOp(compute.Negate, in, exp)
+	}
+
+	us.Run(dt.String(), func() {
+		for _, checkOverflow := range []bool{true, false} {
+			us.setOverflowCheck(checkOverflow)
+			us.Run(fmt.Sprintf("check_overflow=%t", checkOverflow), func() {
+				fn(`[]`, `[]`)
+				// scalar/arrays with nulls
+				fn(`[null]`, `[null]`)
+				fn(`[1.5, null -10.25]`, `[-1.5, null, 10.25]`)
+				// ordinary scalars/arrays (positive inputs)
+				fn(`[0.5, 10.123, 127.321]`, `[-0.5, -10.123, -127.321]`)
+				us.assertUnaryOpVals(compute.Negate, 1.25, -1.25)
+				// ordinary scalars/arrays (negative inputs)
+				fn(`[-0.5, -10.123, -127.321]`, `[0.5, 10.123, 127.321]`)
+				us.assertUnaryOpVals(compute.Negate, -1.25, 1.25)
+				// min/max
+				us.assertUnaryOpVals(compute.Negate, us.min, us.max)
+				us.assertUnaryOpVals(compute.Negate, us.max, us.min)
+			})
+		}
+	})
+}
+
+func (us *UnaryArithmeticFloating[T]) TestTrigSin() {
+	us.setOverflowCheck(false)
+	us.assertUnaryOp(compute.Sin, `["Inf", "-Inf"]`, `["NaN", "NaN"]`)
+	for _, overflow := range []bool{false, true} {
+		us.setOverflowCheck(overflow)
+		us.assertUnaryOp(compute.Sin, `[]`, `[]`)
+		us.assertUnaryOp(compute.Sin, `[null, "NaN"]`, `[null, "NaN"]`)
+		arr := us.makeArray(0, math.Pi/2, math.Pi)
+		exp := us.makeArray(0, 1, 0)
+		defer arr.Release()
+		defer exp.Release()
+		us.assertUnaryOpArrs(compute.Sin, arr, exp)
+	}
+
+	us.setOverflowCheck(true)
+	us.assertUnaryOpErr(compute.Sin, `["Inf", "-Inf"]`, "domain error")
+}
+
+func (us *UnaryArithmeticFloating[T]) TestTrigCos() {
+	us.setOverflowCheck(false)
+	us.assertUnaryOp(compute.Cos, `["Inf", "-Inf"]`, `["NaN", "NaN"]`)
+	for _, overflow := range []bool{false, true} {
+		us.setOverflowCheck(overflow)
+		us.assertUnaryOp(compute.Cos, `[]`, `[]`)
+		us.assertUnaryOp(compute.Cos, `[null, "NaN"]`, `[null, "NaN"]`)
+		arr := us.makeArray(0, math.Pi/2, math.Pi)
+		exp := us.makeArray(1, 0, -1)
+		defer arr.Release()
+		defer exp.Release()
+		us.assertUnaryOpArrs(compute.Cos, arr, exp)
+	}
+
+	us.setOverflowCheck(true)
+	us.assertUnaryOpErr(compute.Cos, `["Inf", "-Inf"]`, "domain error")
+}
+
+func (us *UnaryArithmeticFloating[T]) TestTrigTan() {
+	us.setOverflowCheck(false)
+	us.assertUnaryOp(compute.Tan, `["Inf", "-Inf"]`, `["NaN", "NaN"]`)
+	for _, overflow := range []bool{false, true} {
+		us.setOverflowCheck(overflow)
+		us.assertUnaryOp(compute.Tan, `[]`, `[]`)
+		us.assertUnaryOp(compute.Tan, `[null, "NaN"]`, `[null, "NaN"]`)
+		// pi/2 isn't representable exactly -> there are no poles
+		// (i.e. tan(pi/2) is merely a large value and not +Inf)
+		arr := us.makeArray(0, math.Pi)
+		exp := us.makeArray(0, 0)
+		defer arr.Release()
+		defer exp.Release()
+		us.assertUnaryOpArrs(compute.Tan, arr, exp)
+	}
+
+	us.setOverflowCheck(true)
+	us.assertUnaryOpErr(compute.Tan, `["Inf", "-Inf"]`, "domain error")
+}
+
+func (us *UnaryArithmeticFloating[T]) TestTrigAsin() {
+	us.setOverflowCheck(false)
+	us.assertUnaryOp(compute.Asin, `["Inf", "-Inf", -2, 2]`, `["NaN", "NaN", "NaN", "NaN"]`)
+	for _, overflow := range []bool{false, true} {
+		us.setOverflowCheck(overflow)
+		us.assertUnaryOp(compute.Asin, `[]`, `[]`)
+		us.assertUnaryOp(compute.Asin, `[null, "NaN"]`, `[null, "NaN"]`)
+		arr := us.makeArray(0, 1, -1)
+		exp := us.makeArray(0, math.Pi/2, -math.Pi/2)
+		defer arr.Release()
+		defer exp.Release()
+		us.assertUnaryOpArrs(compute.Asin, arr, exp)
+	}
+
+	us.setOverflowCheck(true)
+	us.assertUnaryOpErr(compute.Asin, `["Inf", "-Inf", -2, 2]`, "domain error")
+}
+
+func (us *UnaryArithmeticFloating[T]) TestTrigAcos() {
+	us.setOverflowCheck(false)
+	us.assertUnaryOp(compute.Acos, `["Inf", "-Inf", -2, 2]`, `["NaN", "NaN", "NaN", "NaN"]`)
+	for _, overflow := range []bool{false, true} {
+		us.setOverflowCheck(overflow)
+		us.assertUnaryOp(compute.Acos, `[]`, `[]`)
+		us.assertUnaryOp(compute.Acos, `[null, "NaN"]`, `[null, "NaN"]`)
+		arr := us.makeArray(0, 1, -1)
+		exp := us.makeArray(math.Pi/2, 0, math.Pi)
+		defer arr.Release()
+		defer exp.Release()
+		us.assertUnaryOpArrs(compute.Acos, arr, exp)
+	}
+
+	us.setOverflowCheck(true)
+	us.assertUnaryOpErr(compute.Acos, `["Inf", "-Inf", -2, 2]`, "domain error")
+}
+
+func (us *UnaryArithmeticFloating[T]) TestTrigAtan() {
+	us.setOverflowCheck(false)
+	atan := func(ctx context.Context, _ compute.ArithmeticOptions, arg compute.Datum) (compute.Datum, error) {
+		return compute.Atan(ctx, arg)
+	}
+	us.assertUnaryOp(atan, `[]`, `[]`)
+	us.assertUnaryOp(atan, `[null, "NaN"]`, `[null, "NaN"]`)
+
+	arr := us.makeArray(0, 1, -1, T(math.Inf(1)), T(math.Inf(-1)))
+	exp := us.makeArray(0, math.Pi/4, -math.Pi/4, math.Pi/2, -math.Pi/2)
+	defer arr.Release()
+	defer exp.Release()
+	us.assertUnaryOpArrs(atan, arr, exp)
+}
+
+func (us *UnaryArithmeticFloating[T]) TestLog() {
+	for _, overflow := range []bool{false, true} {
+		us.setOverflowCheck(overflow)
+		us.Run(fmt.Sprintf("checked=%t", overflow), func() {
+			us.assertUnaryOp(compute.Ln, `[1, 2.718281828459045, null, "NaN", "Inf"]`,
+				`[0, 1, null, "NaN", "Inf"]`)
+			us.assertUnaryOpVals(compute.Ln, us.smallest, T(math.Log(float64(us.smallest))))
+			us.assertUnaryOpVals(compute.Ln, us.max, T(math.Log(float64(us.max))))
+			us.assertUnaryOp(compute.Log10, `[1, 10, null, "NaN", "Inf"]`, `[0, 1, null, "NaN", "Inf"]`)
+			us.assertUnaryOpVals(compute.Log10, us.smallest, T(math.Log10(float64(us.smallest))))
+			us.assertUnaryOpVals(compute.Log10, us.max, T(math.Log10(float64(us.max))))
+			us.assertUnaryOp(compute.Log2, `[1, 2, null, "NaN", "Inf"]`, `[0, 1, null, "NaN", "Inf"]`)
+			us.assertUnaryOpVals(compute.Log2, us.smallest, T(math.Log2(float64(us.smallest))))
+			us.assertUnaryOpVals(compute.Log2, us.max, T(math.Log2(float64(us.max))))
+			us.assertUnaryOp(compute.Log1p, `[0, 1.718281828459045, null, "NaN", "Inf"]`, `[0, 1, null, "NaN", "Inf"]`)
+			us.assertUnaryOpVals(compute.Log1p, us.smallest, T(math.Log1p(float64(us.smallest))))
+			us.assertUnaryOpVals(compute.Log1p, us.max, T(math.Log1p(float64(us.max))))
+		})
+	}
+
+	us.setOverflowCheck(false)
+	us.assertUnaryOp(compute.Ln, `["-Inf", -1, 0, "Inf"]`, `["NaN", "NaN", "-Inf", "Inf"]`)
+	us.assertUnaryOp(compute.Log10, `["-Inf", -1, 0, "Inf"]`, `["NaN", "NaN", "-Inf", "Inf"]`)
+	us.assertUnaryOp(compute.Log2, `["-Inf", -1, 0, "Inf"]`, `["NaN", "NaN", "-Inf", "Inf"]`)
+	us.assertUnaryOp(compute.Log1p, `["-Inf", -2, -1, "Inf"]`, `["NaN", "NaN", "-Inf", "Inf"]`)
+
+	us.setOverflowCheck(true)
+	us.assertUnaryOpErr(compute.Ln, `[0]`, "logarithm of zero")
+	us.assertUnaryOpErr(compute.Ln, `[-1]`, "logarithm of negative number")
+	us.assertUnaryOpErr(compute.Ln, `["-Inf"]`, "logarithm of negative number")
+	us.assertUnaryOpValError(compute.Ln, us.min, "logarithm of negative number")
+
+	us.assertUnaryOpErr(compute.Log10, `[0]`, "logarithm of zero")
+	us.assertUnaryOpErr(compute.Log10, `[-1]`, "logarithm of negative number")
+	us.assertUnaryOpErr(compute.Log10, `["-Inf"]`, "logarithm of negative number")
+	us.assertUnaryOpValError(compute.Log10, us.min, "logarithm of negative number")
+
+	us.assertUnaryOpErr(compute.Log2, `[0]`, "logarithm of zero")
+	us.assertUnaryOpErr(compute.Log2, `[-1]`, "logarithm of negative number")
+	us.assertUnaryOpErr(compute.Log2, `["-Inf"]`, "logarithm of negative number")
+	us.assertUnaryOpValError(compute.Log2, us.min, "logarithm of negative number")
+
+	us.assertUnaryOpErr(compute.Log1p, `[-1]`, "logarithm of zero")
+	us.assertUnaryOpErr(compute.Log1p, `[-2]`, "logarithm of negative number")
+	us.assertUnaryOpErr(compute.Log1p, `["-Inf"]`, "logarithm of negative number")
+	us.assertUnaryOpValError(compute.Log1p, us.min, "logarithm of negative number")
+}
+
+func TestUnaryArithmetic(t *testing.T) {
+	suite.Run(t, new(UnaryArithmeticSigned[int8]))
+	suite.Run(t, new(UnaryArithmeticSigned[int16]))
+	suite.Run(t, new(UnaryArithmeticSigned[int32]))
+	suite.Run(t, new(UnaryArithmeticSigned[int64]))
+	suite.Run(t, new(UnaryArithmeticUnsigned[uint8]))
+	suite.Run(t, new(UnaryArithmeticUnsigned[uint16]))
+	suite.Run(t, new(UnaryArithmeticUnsigned[uint32]))
+	suite.Run(t, new(UnaryArithmeticUnsigned[uint64]))
+	suite.Run(t, &UnaryArithmeticFloating[float32]{min: -math.MaxFloat32, max: math.MaxFloat32, smallest: math.SmallestNonzeroFloat32})
+	suite.Run(t, &UnaryArithmeticFloating[float64]{min: -math.MaxFloat64, max: math.MaxFloat64, smallest: math.SmallestNonzeroFloat64})
+	suite.Run(t, new(DecimalUnaryArithmeticSuite))
+}
+
+type BitwiseArithmeticSuite[T exec.IntTypes | exec.UintTypes] struct {
+	BinaryFuncTestSuite
+}
+
+func (bs *BitwiseArithmeticSuite[T]) datatype() arrow.DataType {
+	return exec.GetDataType[T]()
+}
+
+// to make it easier to test different widths, tests give bytes which
+// get repeated to make an array of the actual type
+func (bs *BitwiseArithmeticSuite[T]) expandByteArray(values []byte) arrow.Array {
+	vals := make([]T, len(values)+1)
+	sz := kernels.SizeOf[T]()
+	for i, v := range values {
+		memory.Set(unsafe.Slice((*byte)(unsafe.Pointer(&vals[i])), sz), v)
+	}
+	valid := make([]bool, len(vals))
+	for i := range values {
+		valid[i] = true
+	}
+	return exec.ArrayFromSliceWithValid(bs.mem, vals, valid)
+}
+
+func (bs *BitwiseArithmeticSuite[T]) assertBinaryOp(fn string, arg0, arg1, expected []byte) {
+	in0, in1 := bs.expandByteArray(arg0), bs.expandByteArray(arg1)
+	out := bs.expandByteArray(expected)
+	defer func() {
+		in0.Release()
+		in1.Release()
+		out.Release()
+	}()
+
+	actual, err := compute.CallFunction(bs.ctx, fn, nil, &compute.ArrayDatum{in0.Data()}, &compute.ArrayDatum{in1.Data()})
+	bs.Require().NoError(err)
+	defer actual.Release()
+	assertDatumsEqual(bs.T(), &compute.ArrayDatum{out.Data()}, actual, nil, nil)
+
+	for i := 0; i < out.Len(); i++ {
+		a0, err := scalar.GetScalar(in0, i)
+		bs.Require().NoError(err)
+		a1, err := scalar.GetScalar(in1, i)
+		bs.Require().NoError(err)
+		exp, err := scalar.GetScalar(out, i)
+		bs.Require().NoError(err)
+
+		actual, err := compute.CallFunction(bs.ctx, fn, nil, compute.NewDatum(a0), compute.NewDatum(a1))
+		bs.Require().NoError(err)
+		assertScalarEquals(bs.T(), exp, actual.(*compute.ScalarDatum).Value)
+	}
+}
+
+func (bs *BitwiseArithmeticSuite[T]) TestBitWiseAnd() {
+	bs.Run(bs.datatype().String(), func() {
+		bs.assertBinaryOp("bit_wise_and", []byte{0x00, 0xFF, 0x00, 0xFF},
+			[]byte{0x00, 0x00, 0xFF, 0xFF}, []byte{0x00, 0x00, 0x00, 0xFF})
+	})
+}
+
+func (bs *BitwiseArithmeticSuite[T]) TestBitWiseOr() {
+	bs.Run(bs.datatype().String(), func() {
+		bs.assertBinaryOp("bit_wise_or", []byte{0x00, 0xFF, 0x00, 0xFF},
+			[]byte{0x00, 0x00, 0xFF, 0xFF}, []byte{0x00, 0xFF, 0xFF, 0xFF})
+	})
+}
+
+func (bs *BitwiseArithmeticSuite[T]) TestBitWiseXor() {
+	bs.Run(bs.datatype().String(), func() {
+		bs.assertBinaryOp("bit_wise_xor", []byte{0x00, 0xFF, 0x00, 0xFF},
+			[]byte{0x00, 0x00, 0xFF, 0xFF}, []byte{0x00, 0xFF, 0xFF, 0x00})
+	})
+}
+
+func TestBitwiseArithmetic(t *testing.T) {
+	suite.Run(t, new(BitwiseArithmeticSuite[int8]))
+	suite.Run(t, new(BitwiseArithmeticSuite[uint8]))
+	suite.Run(t, new(BitwiseArithmeticSuite[int16]))
+	suite.Run(t, new(BitwiseArithmeticSuite[uint16]))
+	suite.Run(t, new(BitwiseArithmeticSuite[int32]))
+	suite.Run(t, new(BitwiseArithmeticSuite[uint32]))
+	suite.Run(t, new(BitwiseArithmeticSuite[int64]))
+	suite.Run(t, new(BitwiseArithmeticSuite[uint64]))
+}
+
+var roundModes = []compute.RoundMode{
+	compute.RoundDown,
+	compute.RoundUp,
+	compute.RoundTowardsZero,
+	compute.RoundTowardsInfinity,
+	compute.RoundHalfDown,
+	compute.RoundHalfUp,
+	compute.RoundHalfTowardsZero,
+	compute.RoundHalfTowardsInfinity,
+	compute.RoundHalfToEven,
+	compute.RoundHalfToOdd,
+}
+
+type UnaryRoundSuite[T exec.NumericTypes] struct {
+	UnaryArithmeticSuite[T, compute.RoundOptions]
+}
+
+func (us *UnaryRoundSuite[T]) setRoundMode(mode compute.RoundMode) {
+	us.opts.Mode = mode
+}
+
+func (us *UnaryRoundSuite[T]) setRoundNDigits(v int64) {
+	us.opts.NDigits = v
+}
+
+type UnaryRoundToMultipleSuite[T exec.NumericTypes] struct {
+	UnaryArithmeticSuite[T, compute.RoundToMultipleOptions]
+}
+
+func (us *UnaryRoundToMultipleSuite[T]) setRoundMode(mode compute.RoundMode) {
+	us.opts.Mode = mode
+}
+
+func (us *UnaryRoundToMultipleSuite[T]) setRoundMultiple(val float64) {
+	us.opts.Multiple = scalar.NewFloat64Scalar(val)
+}
+
+type UnaryRoundIntegral[T exec.IntTypes | exec.UintTypes] struct {
+	UnaryRoundSuite[T]
+}
+
+type UnaryRoundToMultipleIntegral[T exec.IntTypes | exec.UintTypes] struct {
+	UnaryRoundToMultipleSuite[T]
+}
+
+type UnaryRoundSigned[T exec.IntTypes] struct {
+	UnaryRoundIntegral[T]
+}
+
+func (us *UnaryRoundSigned[T]) TestRound() {
+	values := `[0, 1, -13, -50, 115]`
+	us.setRoundNDigits(0)
+
+	arr := us.getArr(arrow.PrimitiveTypes.Float64, values)
+	defer arr.Release()
+	for _, mode := range roundModes {
+		us.setRoundMode(mode)
+		us.assertUnaryOpExpArr(compute.Round, values, arr)
+	}
+
+	// test different round N-digits for nearest rounding mode
+	ndigExpected := []struct {
+		n   int64
+		exp string
+	}{
+		{-2, `[0, 0, -0.0, -100, 100]`},
+		{-1, `[0.0, 0.0, -10, -50, 120]`},
+		{0, values},
+		{1, values},
+		{2, values},
+	}
+	us.setRoundMode(compute.RoundHalfTowardsInfinity)
+	for _, tt := range ndigExpected {
+		us.Run(fmt.Sprintf("ndigits=%d", tt.n), func() {
+			us.setRoundNDigits(tt.n)
+			arr := us.getArr(arrow.PrimitiveTypes.Float64, tt.exp)
+			defer arr.Release()
+			us.assertUnaryOpExpArr(compute.Round, values, arr)
+		})
+	}
+}
+
+type UnaryRoundToMultipleSigned[T exec.IntTypes] struct {
+	UnaryRoundToMultipleIntegral[T]
+}
+
+func (us *UnaryRoundToMultipleSigned[T]) TestRoundToMultiple() {
+	values := `[0, 1, -13, -50, 115]`
+	us.setRoundMultiple(1)
+	for _, mode := range roundModes {
+		us.setRoundMode(mode)
+		arr := us.getArr(arrow.PrimitiveTypes.Float64, values)
+		defer arr.Release()
+		us.assertUnaryOpExpArr(compute.RoundToMultiple, values, arr)
+	}
+
+	tests := []struct {
+		mult float64
+		exp  string
+	}{
+		{2, `[0.0, 2, -14, -50, 116]`},
+		{0.05, `[0.0, 1, -13, -50, 115]`},
+		{0.1, values},
+		{10, `[0.0, 0.0, -10, -50, 120]`},
+		{100, `[0.0, 0.0, -0.0, -100, 100]`},
+	}
+
+	us.setRoundMode(compute.RoundHalfTowardsInfinity)
+	for _, tt := range tests {
+		us.setRoundMultiple(tt.mult)
+		arr := us.getArr(arrow.PrimitiveTypes.Float64, tt.exp)
+		defer arr.Release()
+		us.assertUnaryOpExpArr(compute.RoundToMultiple, values, arr)
+	}
+}
+
+type UnaryRoundUnsigned[T exec.UintTypes] struct {
+	UnaryRoundIntegral[T]
+}
+
+func (us *UnaryRoundUnsigned[T]) TestRound() {
+	values := `[0, 1, 13, 50, 115]`
+	us.setRoundNDigits(0)
+
+	arr := us.getArr(arrow.PrimitiveTypes.Float64, values)
+	defer arr.Release()
+	for _, mode := range roundModes {
+		us.setRoundMode(mode)
+		us.assertUnaryOpExpArr(compute.Round, values, arr)
+	}
+
+	// test different round N-digits for nearest rounding mode
+	ndigExpected := []struct {
+		n   int64
+		exp string
+	}{
+		{-2, `[0, 0, 0, 100, 100]`},
+		{-1, `[0.0, 0.0, 10, 50, 120]`},
+		{0, values},
+		{1, values},
+		{2, values},
+	}
+	us.setRoundMode(compute.RoundHalfTowardsInfinity)
+	for _, tt := range ndigExpected {
+		us.Run(fmt.Sprintf("ndigits=%d", tt.n), func() {
+			us.setRoundNDigits(tt.n)
+			arr := us.getArr(arrow.PrimitiveTypes.Float64, tt.exp)
+			defer arr.Release()
+			us.assertUnaryOpExpArr(compute.Round, values, arr)
+		})
+	}
+}
+
+type UnaryRoundToMultipleUnsigned[T exec.UintTypes] struct {
+	UnaryRoundToMultipleIntegral[T]
+}
+
+func (us *UnaryRoundToMultipleUnsigned[T]) TestRoundToMultiple() {
+	values := `[0, 1, 13, 50, 115]`
+	us.setRoundMultiple(1)
+	for _, mode := range roundModes {
+		us.setRoundMode(mode)
+		arr := us.getArr(arrow.PrimitiveTypes.Float64, values)
+		defer arr.Release()
+		us.assertUnaryOpExpArr(compute.RoundToMultiple, values, arr)
+	}
+
+	tests := []struct {
+		mult float64
+		exp  string
+	}{
+		{0.05, `[0, 1, 13, 50, 115]`},
+		{0.1, values},
+		{2, `[0, 2, 14, 50, 116]`},
+		{10, `[0, 0, 10, 50, 120]`},
+		{100, `[0, 0, 0, 100, 100]`},
+	}
+
+	us.setRoundMode(compute.RoundHalfTowardsInfinity)
+	for _, tt := range tests {
+		us.setRoundMultiple(tt.mult)
+		arr := us.getArr(arrow.PrimitiveTypes.Float64, tt.exp)
+		defer arr.Release()
+		us.assertUnaryOpExpArr(compute.RoundToMultiple, values, arr)
+	}
+}
+
+type UnaryRoundFloating[T constraints.Float] struct {
+	UnaryRoundSuite[T]
+}
+
+func (us *UnaryRoundFloating[T]) TestRound() {
+	values := `[3.2, 3.5, 3.7, 4.5, -3.2, -3.5, -3.7]`
+	rmodeExpected := []struct {
+		mode compute.RoundMode
+		exp  string
+	}{
+		{compute.RoundDown, `[3, 3, 3, 4, -4, -4, -4]`},
+		{compute.RoundUp, `[4, 4, 4, 5, -3, -3, -3]`},
+		{compute.RoundTowardsZero, `[3, 3, 3, 4, -3, -3, -3]`},
+		{compute.RoundTowardsInfinity, `[4, 4, 4, 5, -4, -4, -4]`},
+		{compute.RoundHalfDown, `[3, 3, 4, 4, -3, -4, -4]`},
+		{compute.RoundHalfUp, `[3, 4, 4, 5, -3, -3, -4]`},
+		{compute.RoundHalfTowardsZero, `[3, 3, 4, 4, -3, -3, -4]`},
+		{compute.RoundHalfToEven, `[3, 4, 4, 4, -3, -4, -4]`},
+		{compute.RoundHalfToOdd, `[3, 3, 4, 5, -3, -3, -4]`},
+	}
+	us.setRoundNDigits(0)
+	for _, tt := range rmodeExpected {
+		us.Run(tt.mode.String(), func() {
+			us.setRoundMode(tt.mode)
+			us.assertUnaryOp(compute.Round, `[]`, `[]`)
+			us.assertUnaryOp(compute.Round, `[null, 0, "Inf", "-Inf", "NaN"]`,
+				`[null, 0, "Inf", "-Inf", "NaN"]`)
+			us.assertUnaryOp(compute.Round, values, tt.exp)
+		})
+	}
+
+	// test different round n-digits for nearest rounding mode
+	values = `[320, 3.5, 3.075, 4.5, -3.212, -35.1234, -3.045]`
+	ndigitsExp := []struct {
+		n   int64
+		exp string
+	}{
+		{-2, `[300, 0.0, 0.0, 0.0, -0.0, -0.0, -0.0]`},
+		{-1, `[320, 0.0, 0.0, 0.0, -0.0, -40, -0.0]`},
+		{0, `[320, 4, 3, 5, -3, -35, -3]`},
+		{1, `[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3]`},
+		{2, `[320, 3.5, 3.08, 4.5, -3.21, -35.12, -3.05]`},
+	}
+
+	us.setRoundMode(compute.RoundHalfTowardsInfinity)
+	for _, tt := range ndigitsExp {
+		us.Run(fmt.Sprintf("ndigits=%d", tt.n), func() {
+			us.setRoundNDigits(tt.n)
+			us.assertUnaryOp(compute.Round, values, tt.exp)
+		})
+	}
+}
+
+type UnaryRoundToMultipleFloating[T constraints.Float] struct {
+	UnaryRoundToMultipleSuite[T]
+}
+
+func (us *UnaryRoundToMultipleFloating[T]) TestRoundToMultiple() {
+	values := `[3.2, 3.5, 3.7, 4.5, -3.2, -3.5, -3.7]`
+	rmodeExpected := []struct {
+		mode compute.RoundMode
+		exp  string
+	}{
+		{compute.RoundDown, `[3, 3, 3, 4, -4, -4, -4]`},
+		{compute.RoundUp, `[4, 4, 4, 5, -3, -3, -3]`},
+		{compute.RoundTowardsZero, `[3, 3, 3, 4, -3, -3, -3]`},
+		{compute.RoundTowardsInfinity, `[4, 4, 4, 5, -4, -4, -4]`},
+		{compute.RoundHalfDown, `[3, 3, 4, 4, -3, -4, -4]`},
+		{compute.RoundHalfUp, `[3, 4, 4, 5, -3, -3, -4]`},
+		{compute.RoundHalfTowardsZero, `[3, 3, 4, 4, -3, -3, -4]`},
+		{compute.RoundHalfToEven, `[3, 4, 4, 4, -3, -4, -4]`},
+		{compute.RoundHalfToOdd, `[3, 3, 4, 5, -3, -3, -4]`},
+	}
+	us.setRoundMultiple(1)
+	for _, tt := range rmodeExpected {
+		us.Run(tt.mode.String(), func() {
+			us.setRoundMode(tt.mode)
+			us.assertUnaryOp(compute.RoundToMultiple, `[]`, `[]`)
+			us.assertUnaryOp(compute.RoundToMultiple, `[null, 0, "Inf", "-Inf", "NaN"]`,
+				`[null, 0, "Inf", "-Inf", "NaN"]`)
+			us.assertUnaryOp(compute.RoundToMultiple, values, tt.exp)
+		})
+	}
+
+	// test different round n-digits for nearest rounding mode
+	values = `[320, 3.5, 3.075, 4.5, -3.212, -35.1234, -3.045]`
+	multAndExp := []struct {
+		mult float64
+		exp  string
+	}{
+		{0.05, `[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3.05]`},
+		{0.1, `[320, 3.5, 3.1, 4.5, -3.2, -35.1, -3]`},
+		{2, `[320, 4, 4, 4, -4, -36, -4]`},
+		{10, `[320, 0.0, 0.0, 0.0, -0.0, -40, -0.0]`},
+		{100, `[300, 0.0, 0.0, 0.0, -0.0, -0.0, -0.0]`},
+	}
+
+	us.setRoundMode(compute.RoundHalfTowardsInfinity)
+	for _, tt := range multAndExp {
+		us.Run(fmt.Sprintf("multiple=%f", tt.mult), func() {
+			us.setRoundMultiple(tt.mult)
+			us.assertUnaryOp(compute.RoundToMultiple, values, tt.exp)
+		})
+	}
+}
+
+func TestRounding(t *testing.T) {
+	suite.Run(t, new(UnaryRoundSigned[int8]))
+	suite.Run(t, new(UnaryRoundSigned[int16]))
+	suite.Run(t, new(UnaryRoundSigned[int32]))
+	suite.Run(t, new(UnaryRoundSigned[int64]))
+	suite.Run(t, new(UnaryRoundUnsigned[uint8]))
+	suite.Run(t, new(UnaryRoundUnsigned[uint16]))
+	suite.Run(t, new(UnaryRoundUnsigned[uint32]))
+	suite.Run(t, new(UnaryRoundUnsigned[uint64]))
+	suite.Run(t, new(UnaryRoundFloating[float32]))
+	suite.Run(t, new(UnaryRoundFloating[float64]))
+
+	suite.Run(t, new(UnaryRoundToMultipleSigned[int8]))
+	suite.Run(t, new(UnaryRoundToMultipleSigned[int16]))
+	suite.Run(t, new(UnaryRoundToMultipleSigned[int32]))
+	suite.Run(t, new(UnaryRoundToMultipleSigned[int64]))
+	suite.Run(t, new(UnaryRoundToMultipleUnsigned[uint8]))
+	suite.Run(t, new(UnaryRoundToMultipleUnsigned[uint16]))
+	suite.Run(t, new(UnaryRoundToMultipleUnsigned[uint32]))
+	suite.Run(t, new(UnaryRoundToMultipleUnsigned[uint64]))
+	suite.Run(t, new(UnaryRoundToMultipleFloating[float32]))
+	suite.Run(t, new(UnaryRoundToMultipleFloating[float64]))
+}
+
+const seed = 0x94378165
+
+type binaryOp = func(ctx context.Context, left, right compute.Datum) (compute.Datum, error)
+
+func Add(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
+	var opts compute.ArithmeticOptions
+	return compute.Add(ctx, opts, left, right)
+}
+
+func Subtract(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
+	var opts compute.ArithmeticOptions
+	return compute.Subtract(ctx, opts, left, right)
+}
+
+func AddUnchecked(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
+	opts := compute.ArithmeticOptions{NoCheckOverflow: true}
+	return compute.Add(ctx, opts, left, right)
+}
+
+func SubtractUnchecked(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
+	opts := compute.ArithmeticOptions{NoCheckOverflow: true}
+	return compute.Subtract(ctx, opts, left, right)
+}
+
+func arrayScalarKernel(b *testing.B, sz int, nullProp float64, op binaryOp, dt arrow.DataType) {
+	b.Run("array scalar", func(b *testing.B) {
+		var (
+			mem                     = memory.NewCheckedAllocator(memory.DefaultAllocator)
+			arraySize               = int64(sz / dt.(arrow.FixedWidthDataType).Bytes())
+			min       int64         = 6
+			max                     = min + 15
+			sc, _                   = scalar.MakeScalarParam(6, dt)
+			rhs       compute.Datum = &compute.ScalarDatum{Value: sc}
+			rng                     = gen.NewRandomArrayGenerator(seed, mem)
+		)
+
+		lhs := rng.Numeric(dt.ID(), arraySize, min, max, nullProp)
+		b.Cleanup(func() {
+			lhs.Release()
+		})
+
+		var (
+			res  compute.Datum
+			err  error
+			ctx  = context.Background()
+			left = &compute.ArrayDatum{Value: lhs.Data()}
+		)
+
+		b.SetBytes(arraySize)
+		b.ResetTimer()
+		for n := 0; n < b.N; n++ {
+			res, err = op(ctx, left, rhs)
+			b.StopTimer()
+			if err != nil {
+				b.Fatal(err)
+			}
+			res.Release()
+			b.StartTimer()
+		}
+	})
+}
+
+func arrayArrayKernel(b *testing.B, sz int, nullProp float64, op binaryOp, dt arrow.DataType) {
+	b.Run("array array", func(b *testing.B) {
+		var (
+			mem             = memory.NewCheckedAllocator(memory.DefaultAllocator)
+			arraySize       = int64(sz / dt.(arrow.FixedWidthDataType).Bytes())
+			rmin      int64 = 1
+			rmax            = rmin + 6 // 7
+			lmin            = rmax + 1 // 8
+			lmax            = lmin + 6 // 14
+			rng             = gen.NewRandomArrayGenerator(seed, mem)
+		)
+
+		lhs := rng.Numeric(dt.ID(), arraySize, lmin, lmax, nullProp)
+		rhs := rng.Numeric(dt.ID(), arraySize, rmin, rmax, nullProp)
+		b.Cleanup(func() {
+			lhs.Release()
+			rhs.Release()
+		})
+		var (
+			res   compute.Datum
+			err   error
+			ctx   = context.Background()
+			left  = &compute.ArrayDatum{Value: lhs.Data()}
+			right = &compute.ArrayDatum{Value: rhs.Data()}
+		)
+
+		b.SetBytes(arraySize)
+		b.ResetTimer()
+		for n := 0; n < b.N; n++ {
+			res, err = op(ctx, left, right)
+			b.StopTimer()
+			if err != nil {
+				b.Fatal(err)
+			}
+			res.Release()
+			b.StartTimer()
+		}
+	})
+}
+
+func BenchmarkScalarArithmetic(b *testing.B) {
+	args := []struct {
+		sz       int
+		nullProb float64
+	}{
+		{CpuCacheSizes[2], 0},
+		{CpuCacheSizes[2], 0.5},
+		{CpuCacheSizes[2], 1},
+	}
+
+	testfns := []struct {
+		name string
+		op   binaryOp
+	}{
+		{"Add", Add},
+		{"AddUnchecked", AddUnchecked},
+		{"Subtract", Subtract},
+		{"SubtractUnchecked", SubtractUnchecked},
+	}
+
+	for _, dt := range numericTypes {
+		b.Run(dt.String(), func(b *testing.B) {
+			for _, benchArgs := range args {
+				b.Run(fmt.Sprintf("sz=%d/nullprob=%.2f", benchArgs.sz, benchArgs.nullProb), func(b *testing.B) {
+					for _, tfn := range testfns {
+						b.Run(tfn.name, func(b *testing.B) {
+							arrayArrayKernel(b, benchArgs.sz, benchArgs.nullProb, tfn.op, dt)
+							arrayScalarKernel(b, benchArgs.sz, benchArgs.nullProb, tfn.op, dt)
+						})
+					}
+				})
+			}
+		})
+	}
+}
diff --git a/go/arrow/compute/cast.go b/go/arrow/compute/cast.go
new file mode 100644
index 00000000000..86917d8e74c
--- /dev/null
+++ b/go/arrow/compute/cast.go
@@ -0,0 +1,587 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute
+
+import (
+	"context"
+	"fmt"
+	"sync"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/kernels"
+)
+
+var (
+	castTable map[arrow.Type]*castFunction
+	castInit  sync.Once
+
+	castDoc = FunctionDoc{
+		Summary:         "cast values to another data type",
+		Description:     "Behavior when values wouldn't fit in the target type\ncan be controlled through CastOptions.",
+		ArgNames:        []string{"input"},
+		OptionsType:     "CastOptions",
+		OptionsRequired: true,
+	}
+	castMetaFunc = NewMetaFunction("cast", Unary(), castDoc,
+		func(ctx context.Context, fo FunctionOptions, d ...Datum) (Datum, error) {
+			castOpts := fo.(*CastOptions)
+			if castOpts == nil || castOpts.ToType == nil {
+				return nil, fmt.Errorf("%w: cast requires that options be passed with a ToType", arrow.ErrInvalid)
+			}
+
+			if arrow.TypeEqual(d[0].(ArrayLikeDatum).Type(), castOpts.ToType) {
+				return NewDatum(d[0]), nil
+			}
+
+			fn, err := getCastFunction(castOpts.ToType)
+			if err != nil {
+				return nil, fmt.Errorf("%w from %s", err, d[0].(ArrayLikeDatum).Type())
+			}
+
+			return fn.Execute(ctx, fo, d...)
+		})
+)
+
+func RegisterScalarCast(reg FunctionRegistry) {
+	reg.AddFunction(castMetaFunc, false)
+}
+
+type castFunction struct {
+	ScalarFunction
+
+	inIDs []arrow.Type
+	out   arrow.Type
+}
+
+func newCastFunction(name string, outType arrow.Type) *castFunction {
+	return &castFunction{
+		ScalarFunction: *NewScalarFunction(name, Unary(), EmptyFuncDoc),
+		out:            outType,
+		inIDs:          make([]arrow.Type, 0, 1),
+	}
+}
+
+func (cf *castFunction) AddTypeCast(in arrow.Type, kernel exec.ScalarKernel) error {
+	kernel.Init = exec.OptionsInit[kernels.CastState]
+	if err := cf.AddKernel(kernel); err != nil {
+		return err
+	}
+	cf.inIDs = append(cf.inIDs, in)
+	return nil
+}
+
+func (cf *castFunction) AddNewTypeCast(inID arrow.Type, inTypes []exec.InputType, out exec.OutputType,
+	ex exec.ArrayKernelExec, nullHandle exec.NullHandling, memAlloc exec.MemAlloc) error {
+
+	kn := exec.NewScalarKernel(inTypes, out, ex, nil)
+	kn.NullHandling = nullHandle
+	kn.MemAlloc = memAlloc
+	return cf.AddTypeCast(inID, kn)
+}
+
+func (cf *castFunction) DispatchExact(vals ...arrow.DataType) (exec.Kernel, error) {
+	if err := cf.checkArity(len(vals)); err != nil {
+		return nil, err
+	}
+
+	candidates := make([]*exec.ScalarKernel, 0, 1)
+	for i := range cf.kernels {
+		if cf.kernels[i].Signature.MatchesInputs(vals) {
+			candidates = append(candidates, &cf.kernels[i])
+		}
+	}
+
+	if len(candidates) == 0 {
+		return nil, fmt.Errorf("%w: unsupported cast from %s to %s using function %s",
+			arrow.ErrNotImplemented, vals[0], cf.out, cf.name)
+	}
+
+	if len(candidates) == 1 {
+		// one match!
+		return candidates[0], nil
+	}
+
+	// in this situation we may have both an EXACT type and
+	// a SAME_TYPE_ID match. So we will see if there is an exact
+	// match among the candidates and if not, we just return the
+	// first one
+	for _, k := range candidates {
+		arg0 := k.Signature.InputTypes[0]
+		if arg0.Kind == exec.InputExact {
+			// found one!
+			return k, nil
+		}
+	}
+
+	// just return some kernel that matches since we didn't find an exact
+	return candidates[0], nil
+}
+
+func unpackDictionary(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		dictArr  = batch.Values[0].Array.MakeArray().(*array.Dictionary)
+		opts     = ctx.State.(kernels.CastState)
+		dictType = dictArr.DataType().(*arrow.DictionaryType)
+		toType   = opts.ToType
+	)
+	defer dictArr.Release()
+
+	if !arrow.TypeEqual(toType, dictType) && !CanCast(dictType, toType) {
+		return fmt.Errorf("%w: cast type %s incompatible with dictionary type %s",
+			arrow.ErrInvalid, toType, dictType)
+	}
+
+	unpacked, err := TakeArray(ctx.Ctx, dictArr.Dictionary(), dictArr.Indices())
+	if err != nil {
+		return err
+	}
+	defer unpacked.Release()
+
+	if !arrow.TypeEqual(dictType, toType) {
+		unpacked, err = CastArray(ctx.Ctx, unpacked, &opts)
+		if err != nil {
+			return err
+		}
+		defer unpacked.Release()
+	}
+
+	out.TakeOwnership(unpacked.Data())
+	return nil
+}
+
+func CastFromExtension(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	opts := ctx.State.(kernels.CastState)
+
+	arr := batch.Values[0].Array.MakeArray().(array.ExtensionArray)
+	defer arr.Release()
+
+	castOpts := CastOptions(opts)
+	result, err := CastArray(ctx.Ctx, arr.Storage(), &castOpts)
+	if err != nil {
+		return err
+	}
+	defer result.Release()
+
+	out.TakeOwnership(result.Data())
+	return nil
+}
+
+func CastList[SrcOffsetT, DestOffsetT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		opts       = ctx.State.(kernels.CastState)
+		childType  = out.Type.(arrow.NestedType).Fields()[0].Type
+		input      = &batch.Values[0].Array
+		offsets    = exec.GetSpanOffsets[SrcOffsetT](input, 1)
+		isDowncast = kernels.SizeOf[SrcOffsetT]() > kernels.SizeOf[DestOffsetT]()
+	)
+
+	out.Buffers[0] = input.Buffers[0]
+	out.Buffers[1] = input.Buffers[1]
+
+	if input.Offset != 0 && len(input.Buffers[0].Buf) > 0 {
+		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(input.Len))
+		bitutil.CopyBitmap(input.Buffers[0].Buf, int(input.Offset), int(input.Len),
+			out.Buffers[0].Buf, 0)
+	}
+
+	// Handle list offsets
+	// Several cases possible:
+	//	- The source offset is non-zero, in which case we slice the
+	//	  underlying values and shift the list offsets (regardless of
+	//	  their respective types)
+	//	- the source offset is zero but the source and destination types
+	//	  have different list offset types, in which case we cast the offsets
+	//  - otherwise we simply keep the original offsets
+	if isDowncast {
+		if offsets[input.Len] > SrcOffsetT(kernels.MaxOf[DestOffsetT]()) {
+			return fmt.Errorf("%w: array of type %s too large to convert to %s",
+				arrow.ErrInvalid, input.Type, out.Type)
+		}
+	}
+
+	values := input.Children[0].MakeArray()
+	defer values.Release()
+
+	if input.Offset != 0 {
+		out.Buffers[1].WrapBuffer(
+			ctx.Allocate(out.Type.(arrow.OffsetsDataType).
+				OffsetTypeTraits().BytesRequired(int(input.Len) + 1)))
+
+		shiftedOffsets := exec.GetSpanOffsets[DestOffsetT](out, 1)
+		for i := 0; i < int(input.Len)+1; i++ {
+			shiftedOffsets[i] = DestOffsetT(offsets[i] - offsets[0])
+		}
+
+		values = array.NewSlice(values, int64(offsets[0]), int64(offsets[input.Len]))
+		defer values.Release()
+	} else if kernels.SizeOf[SrcOffsetT]() != kernels.SizeOf[DestOffsetT]() {
+		out.Buffers[1].WrapBuffer(ctx.Allocate(out.Type.(arrow.OffsetsDataType).
+			OffsetTypeTraits().BytesRequired(int(input.Len) + 1)))
+
+		kernels.DoStaticCast(exec.GetSpanOffsets[SrcOffsetT](input, 1),
+			exec.GetSpanOffsets[DestOffsetT](out, 1))
+	}
+
+	// handle values
+	opts.ToType = childType
+
+	castedValues, err := CastArray(ctx.Ctx, values, &opts)
+	if err != nil {
+		return err
+	}
+	defer castedValues.Release()
+
+	out.Children = make([]exec.ArraySpan, 1)
+	out.Children[0].SetMembers(castedValues.Data())
+	for i, b := range out.Children[0].Buffers {
+		if b.Owner != nil && b.Owner != values.Data().Buffers()[i] {
+			b.Owner.Retain()
+			b.SelfAlloc = true
+		}
+	}
+	return nil
+}
+
+func CastStruct(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		opts          = ctx.State.(kernels.CastState)
+		inType        = batch.Values[0].Array.Type.(*arrow.StructType)
+		outType       = out.Type.(*arrow.StructType)
+		inFieldCount  = len(inType.Fields())
+		outFieldCount = len(outType.Fields())
+	)
+
+	fieldsToSelect := make([]int, outFieldCount)
+	for i := range fieldsToSelect {
+		fieldsToSelect[i] = -1
+	}
+
+	outFieldIndex := 0
+	for inFieldIndex := 0; inFieldIndex < inFieldCount && outFieldIndex < outFieldCount; inFieldIndex++ {
+		inField := inType.Field(inFieldIndex)
+		outField := outType.Field(outFieldIndex)
+		if inField.Name == outField.Name {
+			if inField.Nullable && !outField.Nullable {
+				return fmt.Errorf("%w: cannot cast nullable field to non-nullable field: %s %s",
+					arrow.ErrType, inType, outType)
+			}
+			fieldsToSelect[outFieldIndex] = inFieldIndex
+			outFieldIndex++
+		}
+	}
+
+	if outFieldIndex < outFieldCount {
+		return fmt.Errorf("%w: struct fields don't match or are in the wrong order: Input: %s Output: %s",
+			arrow.ErrType, inType, outType)
+	}
+
+	input := &batch.Values[0].Array
+	if len(input.Buffers[0].Buf) > 0 {
+		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(input.Len))
+		bitutil.CopyBitmap(input.Buffers[0].Buf, int(input.Offset), int(input.Len),
+			out.Buffers[0].Buf, 0)
+	}
+
+	out.Children = make([]exec.ArraySpan, outFieldCount)
+	for outFieldIndex, idx := range fieldsToSelect {
+		values := input.Children[idx].MakeArray()
+		defer values.Release()
+		values = array.NewSlice(values, input.Offset, input.Len)
+		defer values.Release()
+
+		opts.ToType = outType.Field(outFieldIndex).Type
+		castedValues, err := CastArray(ctx.Ctx, values, &opts)
+		if err != nil {
+			return err
+		}
+		defer castedValues.Release()
+
+		out.Children[outFieldIndex].TakeOwnership(castedValues.Data())
+	}
+	return nil
+}
+
+func addListCast[SrcOffsetT, DestOffsetT int32 | int64](fn *castFunction, inType arrow.Type) error {
+	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(inType)},
+		kernels.OutputTargetType, CastList[SrcOffsetT, DestOffsetT], nil)
+	kernel.NullHandling = exec.NullComputedNoPrealloc
+	kernel.MemAlloc = exec.MemNoPrealloc
+	return fn.AddTypeCast(inType, kernel)
+}
+
+func addStructToStructCast(fn *castFunction) error {
+	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(arrow.STRUCT)},
+		kernels.OutputTargetType, CastStruct, nil)
+	kernel.NullHandling = exec.NullComputedNoPrealloc
+	return fn.AddTypeCast(arrow.STRUCT, kernel)
+}
+
+func addCastFuncs(fn []*castFunction) {
+	for _, f := range fn {
+		f.AddNewTypeCast(arrow.EXTENSION, []exec.InputType{exec.NewIDInput(arrow.EXTENSION)},
+			f.kernels[0].Signature.OutType, CastFromExtension,
+			exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
+		castTable[f.out] = f
+	}
+}
+
+func initCastTable() {
+	castTable = make(map[arrow.Type]*castFunction)
+	addCastFuncs(getBooleanCasts())
+	addCastFuncs(getNumericCasts())
+	addCastFuncs(getBinaryLikeCasts())
+	addCastFuncs(getTemporalCasts())
+	addCastFuncs(getNestedCasts())
+
+	nullToExt := newCastFunction("cast_extension", arrow.EXTENSION)
+	nullToExt.AddNewTypeCast(arrow.NULL, []exec.InputType{exec.NewExactInput(arrow.Null)},
+		kernels.OutputTargetType, kernels.CastFromNull, exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
+	castTable[arrow.EXTENSION] = nullToExt
+}
+
+func getCastFunction(to arrow.DataType) (*castFunction, error) {
+	castInit.Do(initCastTable)
+
+	fn, ok := castTable[to.ID()]
+	if ok {
+		return fn, nil
+	}
+
+	return nil, fmt.Errorf("%w: unsupported cast to %s", arrow.ErrNotImplemented, to)
+}
+
+func getNestedCasts() []*castFunction {
+	out := make([]*castFunction, 0)
+
+	addKernels := func(fn *castFunction, kernels []exec.ScalarKernel) {
+		for _, k := range kernels {
+			if err := fn.AddTypeCast(k.Signature.InputTypes[0].MatchID(), k); err != nil {
+				panic(err)
+			}
+		}
+	}
+
+	castLists := newCastFunction("cast_list", arrow.LIST)
+	addKernels(castLists, kernels.GetCommonCastKernels(arrow.LIST, kernels.OutputTargetType))
+	if err := addListCast[int32, int32](castLists, arrow.LIST); err != nil {
+		panic(err)
+	}
+	if err := addListCast[int64, int32](castLists, arrow.LARGE_LIST); err != nil {
+		panic(err)
+	}
+	out = append(out, castLists)
+
+	castLargeLists := newCastFunction("cast_large_list", arrow.LARGE_LIST)
+	addKernels(castLargeLists, kernels.GetCommonCastKernels(arrow.LARGE_LIST, kernels.OutputTargetType))
+	if err := addListCast[int32, int64](castLargeLists, arrow.LIST); err != nil {
+		panic(err)
+	}
+	if err := addListCast[int64, int64](castLargeLists, arrow.LARGE_LIST); err != nil {
+		panic(err)
+	}
+	out = append(out, castLargeLists)
+
+	castFsl := newCastFunction("cast_fixed_size_list", arrow.FIXED_SIZE_LIST)
+	addKernels(castFsl, kernels.GetCommonCastKernels(arrow.FIXED_SIZE_LIST, kernels.OutputTargetType))
+	out = append(out, castFsl)
+
+	castStruct := newCastFunction("cast_struct", arrow.STRUCT)
+	addKernels(castStruct, kernels.GetCommonCastKernels(arrow.STRUCT, kernels.OutputTargetType))
+	if err := addStructToStructCast(castStruct); err != nil {
+		panic(err)
+	}
+	out = append(out, castStruct)
+
+	return out
+}
+
+func getBooleanCasts() []*castFunction {
+	fn := newCastFunction("cast_boolean", arrow.BOOL)
+	kns := kernels.GetBooleanCastKernels()
+
+	for _, k := range kns {
+		if err := fn.AddTypeCast(k.Signature.InputTypes[0].Type.ID(), k); err != nil {
+			panic(err)
+		}
+	}
+
+	return []*castFunction{fn}
+}
+
+func getTemporalCasts() []*castFunction {
+	output := make([]*castFunction, 0)
+	addFn := func(name string, id arrow.Type, kernels []exec.ScalarKernel) {
+		fn := newCastFunction(name, id)
+		for _, k := range kernels {
+			if err := fn.AddTypeCast(k.Signature.InputTypes[0].MatchID(), k); err != nil {
+				panic(err)
+			}
+		}
+		fn.AddNewTypeCast(arrow.DICTIONARY, []exec.InputType{exec.NewIDInput(arrow.DICTIONARY)},
+			kernels[0].Signature.OutType, unpackDictionary, exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
+		output = append(output, fn)
+	}
+
+	addFn("cast_timestamp", arrow.TIMESTAMP, kernels.GetTimestampCastKernels())
+	addFn("cast_date32", arrow.DATE32, kernels.GetDate32CastKernels())
+	addFn("cast_date64", arrow.DATE64, kernels.GetDate64CastKernels())
+	addFn("cast_time32", arrow.TIME32, kernels.GetTime32CastKernels())
+	addFn("cast_time64", arrow.TIME64, kernels.GetTime64CastKernels())
+	addFn("cast_duration", arrow.DURATION, kernels.GetDurationCastKernels())
+	addFn("cast_month_day_nano_interval", arrow.INTERVAL_MONTH_DAY_NANO, kernels.GetIntervalCastKernels())
+	return output
+}
+
+func getNumericCasts() []*castFunction {
+	out := make([]*castFunction, 0)
+
+	getFn := func(name string, ty arrow.Type, kns []exec.ScalarKernel) *castFunction {
+		fn := newCastFunction(name, ty)
+		for _, k := range kns {
+			if err := fn.AddTypeCast(k.Signature.InputTypes[0].MatchID(), k); err != nil {
+				panic(err)
+			}
+		}
+
+		fn.AddNewTypeCast(arrow.DICTIONARY, []exec.InputType{exec.NewIDInput(arrow.DICTIONARY)},
+			kns[0].Signature.OutType, unpackDictionary, exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
+
+		return fn
+	}
+
+	out = append(out, getFn("cast_int8", arrow.INT8, kernels.GetCastToInteger[int8](arrow.PrimitiveTypes.Int8)))
+	out = append(out, getFn("cast_int16", arrow.INT16, kernels.GetCastToInteger[int8](arrow.PrimitiveTypes.Int16)))
+
+	castInt32 := getFn("cast_int32", arrow.INT32, kernels.GetCastToInteger[int32](arrow.PrimitiveTypes.Int32))
+	castInt32.AddTypeCast(arrow.DATE32,
+		kernels.GetZeroCastKernel(arrow.DATE32,
+			exec.NewExactInput(arrow.FixedWidthTypes.Date32),
+			exec.NewOutputType(arrow.PrimitiveTypes.Int32)))
+	castInt32.AddTypeCast(arrow.TIME32,
+		kernels.GetZeroCastKernel(arrow.TIME32,
+			exec.NewIDInput(arrow.TIME32), exec.NewOutputType(arrow.PrimitiveTypes.Int32)))
+	out = append(out, castInt32)
+
+	castInt64 := getFn("cast_int64", arrow.INT64, kernels.GetCastToInteger[int64](arrow.PrimitiveTypes.Int64))
+	castInt64.AddTypeCast(arrow.DATE64,
+		kernels.GetZeroCastKernel(arrow.DATE64,
+			exec.NewIDInput(arrow.DATE64),
+			exec.NewOutputType(arrow.PrimitiveTypes.Int64)))
+	castInt64.AddTypeCast(arrow.TIME64,
+		kernels.GetZeroCastKernel(arrow.TIME64,
+			exec.NewIDInput(arrow.TIME64),
+			exec.NewOutputType(arrow.PrimitiveTypes.Int64)))
+	castInt64.AddTypeCast(arrow.DURATION,
+		kernels.GetZeroCastKernel(arrow.DURATION,
+			exec.NewIDInput(arrow.DURATION),
+			exec.NewOutputType(arrow.PrimitiveTypes.Int64)))
+	castInt64.AddTypeCast(arrow.TIMESTAMP,
+		kernels.GetZeroCastKernel(arrow.TIMESTAMP,
+			exec.NewIDInput(arrow.TIMESTAMP),
+			exec.NewOutputType(arrow.PrimitiveTypes.Int64)))
+	out = append(out, castInt64)
+
+	out = append(out, getFn("cast_uint8", arrow.UINT8, kernels.GetCastToInteger[uint8](arrow.PrimitiveTypes.Uint8)))
+	out = append(out, getFn("cast_uint16", arrow.UINT16, kernels.GetCastToInteger[uint16](arrow.PrimitiveTypes.Uint16)))
+	out = append(out, getFn("cast_uint32", arrow.UINT32, kernels.GetCastToInteger[uint32](arrow.PrimitiveTypes.Uint32)))
+	out = append(out, getFn("cast_uint64", arrow.UINT64, kernels.GetCastToInteger[uint64](arrow.PrimitiveTypes.Uint64)))
+
+	out = append(out, getFn("cast_half_float", arrow.FLOAT16, kernels.GetCommonCastKernels(arrow.FLOAT16, exec.NewOutputType(arrow.FixedWidthTypes.Float16))))
+	out = append(out, getFn("cast_float", arrow.FLOAT32, kernels.GetCastToFloating[float32](arrow.PrimitiveTypes.Float32)))
+	out = append(out, getFn("cast_double", arrow.FLOAT64, kernels.GetCastToFloating[float64](arrow.PrimitiveTypes.Float64)))
+
+	// cast to decimal128
+	out = append(out, getFn("cast_decimal", arrow.DECIMAL128, kernels.GetCastToDecimal128()))
+	// cast to decimal256
+	out = append(out, getFn("cast_decimal256", arrow.DECIMAL256, kernels.GetCastToDecimal256()))
+	return out
+}
+
+func getBinaryLikeCasts() []*castFunction {
+	out := make([]*castFunction, 0)
+
+	addFn := func(name string, ty arrow.Type, kns []exec.ScalarKernel) {
+		fn := newCastFunction(name, ty)
+		for _, k := range kns {
+			if err := fn.AddTypeCast(k.Signature.InputTypes[0].MatchID(), k); err != nil {
+				panic(err)
+			}
+		}
+
+		fn.AddNewTypeCast(arrow.DICTIONARY, []exec.InputType{exec.NewIDInput(arrow.DICTIONARY)},
+			kns[0].Signature.OutType, unpackDictionary, exec.NullComputedNoPrealloc, exec.MemNoPrealloc)
+
+		out = append(out, fn)
+	}
+
+	addFn("cast_binary", arrow.BINARY, kernels.GetToBinaryKernels(arrow.BinaryTypes.Binary))
+	addFn("cast_large_binary", arrow.LARGE_BINARY, kernels.GetToBinaryKernels(arrow.BinaryTypes.LargeBinary))
+	addFn("cast_string", arrow.STRING, kernels.GetToBinaryKernels(arrow.BinaryTypes.String))
+	addFn("cast_large_string", arrow.LARGE_STRING, kernels.GetToBinaryKernels(arrow.BinaryTypes.LargeString))
+	addFn("cast_fixed_sized_binary", arrow.FIXED_SIZE_BINARY, kernels.GetFsbCastKernels())
+	return out
+}
+
+// CastDatum is a convenience function for casting a Datum to another type.
+// It is equivalent to calling CallFunction(ctx, "cast", opts, Datum) and
+// should work for Scalar, Array or ChunkedArray Datums.
+func CastDatum(ctx context.Context, val Datum, opts *CastOptions) (Datum, error) {
+	return CallFunction(ctx, "cast", opts, val)
+}
+
+// CastArray is a convenience function for casting an Array to another type.
+// It is equivalent to constructing a Datum for the array and using
+// CallFunction(ctx, "cast", ...).
+func CastArray(ctx context.Context, val arrow.Array, opts *CastOptions) (arrow.Array, error) {
+	d := NewDatum(val)
+	defer d.Release()
+
+	out, err := CastDatum(ctx, d, opts)
+	if err != nil {
+		return nil, err
+	}
+
+	defer out.Release()
+	return out.(*ArrayDatum).MakeArray(), nil
+}
+
+// CastToType is a convenience function equivalent to calling
+// CastArray(ctx, val, compute.SafeCastOptions(toType))
+func CastToType(ctx context.Context, val arrow.Array, toType arrow.DataType) (arrow.Array, error) {
+	return CastArray(ctx, val, SafeCastOptions(toType))
+}
+
+// CanCast returns true if there is an implementation for casting an array
+// or scalar value from the specified DataType to the other data type.
+func CanCast(from, to arrow.DataType) bool {
+	fn, err := getCastFunction(to)
+	if err != nil {
+		return false
+	}
+
+	for _, id := range fn.inIDs {
+		if from.ID() == id {
+			return true
+		}
+	}
+	return false
+}
diff --git a/go/arrow/compute/cast_test.go b/go/arrow/compute/cast_test.go
new file mode 100644
index 00000000000..479bc910fba
--- /dev/null
+++ b/go/arrow/compute/cast_test.go
@@ -0,0 +1,2867 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute_test
+
+import (
+	"context"
+	"fmt"
+	"math"
+	"strconv"
+	"strings"
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/gen"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/types"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
+	"github.com/stretchr/testify/suite"
+)
+
+func getScalars(inputs []compute.Datum, idx int) []scalar.Scalar {
+	out := make([]scalar.Scalar, len(inputs))
+	for i, in := range inputs {
+		if in.Kind() == compute.KindArray {
+			arr := in.(*compute.ArrayDatum).MakeArray()
+			defer arr.Release()
+			out[i], _ = scalar.GetScalar(arr, idx)
+		} else {
+			out[i] = in.(*compute.ScalarDatum).Value
+		}
+	}
+	return out
+}
+
+func getDatums[T any](inputs []T) []compute.Datum {
+	out := make([]compute.Datum, len(inputs))
+	for i, in := range inputs {
+		out[i] = compute.NewDatum(in)
+	}
+	return out
+}
+
+func assertArraysEqual(t *testing.T, expected, actual arrow.Array, opts ...array.EqualOption) bool {
+	return assert.Truef(t, array.ApproxEqual(expected, actual, opts...), "expected: %s\ngot: %s", expected, actual)
+}
+
+func assertDatumsEqual(t *testing.T, expected, actual compute.Datum, opts []array.EqualOption, scalarOpts []scalar.EqualOption) {
+	require.Equal(t, expected.Kind(), actual.Kind())
+
+	switch expected.Kind() {
+	case compute.KindScalar:
+		want := expected.(*compute.ScalarDatum).Value
+		got := actual.(*compute.ScalarDatum).Value
+		assert.Truef(t, scalar.ApproxEquals(want, got, scalarOpts...), "expected: %s\ngot: %s", want, got)
+	case compute.KindArray:
+		want := expected.(*compute.ArrayDatum).MakeArray()
+		got := actual.(*compute.ArrayDatum).MakeArray()
+		assertArraysEqual(t, want, got, opts...)
+		want.Release()
+		got.Release()
+	case compute.KindChunked:
+		want := expected.(*compute.ChunkedDatum).Value
+		got := actual.(*compute.ChunkedDatum).Value
+		assert.Truef(t, array.ChunkedEqual(want, got), "expected: %s\ngot: %s", want, got)
+	default:
+		assert.Truef(t, actual.Equals(expected), "expected: %s\ngot: %s", expected, actual)
+	}
+}
+
+func checkScalarNonRecursive(t *testing.T, funcName string, inputs []compute.Datum, expected compute.Datum, opts compute.FunctionOptions) {
+	out, err := compute.CallFunction(context.Background(), funcName, opts, inputs...)
+	assert.NoError(t, err)
+	defer out.Release()
+	assertDatumsEqual(t, expected, out, nil, nil)
+}
+
+func checkScalarWithScalars(t *testing.T, funcName string, inputs []scalar.Scalar, expected scalar.Scalar, opts compute.FunctionOptions) {
+	datums := getDatums(inputs)
+	defer func() {
+		for _, s := range inputs {
+			if r, ok := s.(scalar.Releasable); ok {
+				r.Release()
+			}
+		}
+		for _, d := range datums {
+			d.Release()
+		}
+	}()
+	out, err := compute.CallFunction(context.Background(), funcName, opts, datums...)
+	assert.NoError(t, err)
+	defer out.Release()
+	if !scalar.Equals(out.(*compute.ScalarDatum).Value, expected) {
+		var b strings.Builder
+		b.WriteString(funcName + "(")
+		for i, in := range inputs {
+			if i != 0 {
+				b.WriteByte(',')
+			}
+			b.WriteString(in.String())
+		}
+		b.WriteByte(')')
+		b.WriteString(" = " + out.(*compute.ScalarDatum).Value.String())
+		b.WriteString(" != " + expected.String())
+
+		if !arrow.TypeEqual(out.(*compute.ScalarDatum).Type(), expected.DataType()) {
+			fmt.Fprintf(&b, " (types differed: %s vs %s)",
+				out.(*compute.ScalarDatum).Type(), expected.DataType())
+		}
+		t.Fatalf(b.String())
+	}
+}
+
+func checkScalar(t *testing.T, funcName string, inputs []compute.Datum, expected compute.Datum, opts compute.FunctionOptions) {
+	checkScalarNonRecursive(t, funcName, inputs, expected, opts)
+
+	if expected.Kind() == compute.KindScalar {
+		return
+	}
+
+	exp := expected.(*compute.ArrayDatum).MakeArray()
+	defer exp.Release()
+
+	// check for at least 1 array, and make sure the others are of equal len
+	hasArray := false
+	for _, in := range inputs {
+		if in.Kind() == compute.KindArray {
+			assert.EqualValues(t, exp.Len(), in.(*compute.ArrayDatum).Len())
+			hasArray = true
+		}
+	}
+
+	require.True(t, hasArray)
+
+	// check all the input scalars
+	for i := 0; i < exp.Len(); i++ {
+		e, _ := scalar.GetScalar(exp, i)
+		checkScalarWithScalars(t, funcName, getScalars(inputs, i), e, opts)
+		if r, ok := e.(scalar.Releasable); ok {
+			r.Release()
+		}
+	}
+}
+
+func assertBufferSame(t *testing.T, left, right arrow.Array, idx int) {
+	assert.Same(t, left.Data().Buffers()[idx], right.Data().Buffers()[idx])
+}
+
+func checkScalarUnary(t *testing.T, funcName string, input compute.Datum, exp compute.Datum, opt compute.FunctionOptions) {
+	checkScalar(t, funcName, []compute.Datum{input}, exp, opt)
+}
+
+func checkCast(t *testing.T, input arrow.Array, exp arrow.Array, opts compute.CastOptions) {
+	opts.ToType = exp.DataType()
+	in, out := compute.NewDatum(input), compute.NewDatum(exp)
+	defer in.Release()
+	defer out.Release()
+	checkScalarUnary(t, "cast", in, out, &opts)
+}
+
+func checkCastFails(t *testing.T, input arrow.Array, opt compute.CastOptions) {
+	_, err := compute.CastArray(context.Background(), input, &opt)
+	assert.ErrorIs(t, err, arrow.ErrInvalid)
+
+	// for scalars, check that at least one of the input fails
+	// since many of the tests contain a mix of passing and failing values.
+	// in some cases we will want to check more precisely
+	nfail := 0
+	for i := 0; i < input.Len(); i++ {
+		sc, _ := scalar.GetScalar(input, i)
+		if r, ok := sc.(scalar.Releasable); ok {
+			defer r.Release()
+		}
+		d := compute.NewDatum(sc)
+		defer d.Release()
+		out, err := compute.CastDatum(context.Background(), d, &opt)
+		if err != nil {
+			nfail++
+		} else {
+			out.Release()
+		}
+	}
+	assert.Greater(t, nfail, 0)
+}
+
+func checkCastZeroCopy(t *testing.T, input arrow.Array, toType arrow.DataType, opts *compute.CastOptions) {
+	opts.ToType = toType
+	out, err := compute.CastArray(context.Background(), input, opts)
+	assert.NoError(t, err)
+	defer out.Release()
+
+	assert.Len(t, out.Data().Buffers(), len(input.Data().Buffers()))
+	for i := range out.Data().Buffers() {
+		assertBufferSame(t, out, input, i)
+	}
+}
+
+var (
+	signedIntTypes = []arrow.DataType{
+		arrow.PrimitiveTypes.Int8,
+		arrow.PrimitiveTypes.Int16,
+		arrow.PrimitiveTypes.Int32,
+		arrow.PrimitiveTypes.Int64,
+	}
+	unsignedIntTypes = []arrow.DataType{
+		arrow.PrimitiveTypes.Uint8,
+		arrow.PrimitiveTypes.Uint16,
+		arrow.PrimitiveTypes.Uint32,
+		arrow.PrimitiveTypes.Uint64,
+	}
+	integerTypes  = append(signedIntTypes, unsignedIntTypes...)
+	floatingTypes = []arrow.DataType{
+		arrow.PrimitiveTypes.Float32,
+		arrow.PrimitiveTypes.Float64,
+	}
+	numericTypes    = append(integerTypes, floatingTypes...)
+	baseBinaryTypes = []arrow.DataType{
+		arrow.BinaryTypes.Binary,
+		arrow.BinaryTypes.LargeBinary,
+		arrow.BinaryTypes.String,
+		arrow.BinaryTypes.LargeString,
+	}
+	dictIndexTypes = integerTypes
+)
+
+type CastSuite struct {
+	suite.Suite
+
+	mem *memory.CheckedAllocator
+}
+
+func (c *CastSuite) allocateEmptyBitmap(len int) *memory.Buffer {
+	buf := memory.NewResizableBuffer(c.mem)
+	buf.Resize(int(bitutil.BytesForBits(int64(len))))
+	return buf
+}
+
+func (c *CastSuite) maskArrayWithNullsAt(input arrow.Array, toMask []int) arrow.Array {
+	masked := input.Data().(*array.Data).Copy()
+	defer masked.Release()
+	if masked.Buffers()[0] != nil {
+		masked.Buffers()[0].Release()
+	}
+	masked.Buffers()[0] = c.allocateEmptyBitmap(input.Len())
+	masked.SetNullN(array.UnknownNullCount)
+
+	if original := input.NullBitmapBytes(); len(original) > 0 {
+		bitutil.CopyBitmap(original, input.Data().Offset(), input.Len(), masked.Buffers()[0].Bytes(), 0)
+	} else {
+		bitutil.SetBitsTo(masked.Buffers()[0].Bytes(), 0, int64(input.Len()), true)
+	}
+
+	for _, i := range toMask {
+		bitutil.SetBitTo(masked.Buffers()[0].Bytes(), i, false)
+	}
+
+	return array.MakeFromData(masked)
+}
+
+func (c *CastSuite) invalidUtf8Arr(dt arrow.DataType) arrow.Array {
+	bldr := array.NewBinaryBuilder(c.mem, dt.(arrow.BinaryDataType))
+	defer bldr.Release()
+
+	bldr.AppendValues([][]byte{
+		[]byte("Hi"),
+		[]byte("olá mundo"),
+		[]byte("你好世界"),
+		[]byte(""),
+		[]byte("\xa0\xa1"), // invalid utf8!
+	}, nil)
+
+	return bldr.NewArray()
+}
+
+type binaryBuilderAppend interface {
+	array.Builder
+	AppendValues([][]byte, []bool)
+}
+
+func (c *CastSuite) fixedSizeInvalidUtf8(dt arrow.DataType) arrow.Array {
+	var bldr binaryBuilderAppend
+	if dt.ID() == arrow.FIXED_SIZE_BINARY {
+		c.Require().Equal(3, dt.(*arrow.FixedSizeBinaryType).ByteWidth)
+		bldr = array.NewFixedSizeBinaryBuilder(c.mem, dt.(*arrow.FixedSizeBinaryType))
+	} else {
+		bldr = array.NewBinaryBuilder(c.mem, dt.(arrow.BinaryDataType))
+	}
+
+	defer bldr.Release()
+
+	bldr.AppendValues([][]byte{
+		[]byte("Hi!"),
+		[]byte("lá"),
+		[]byte("你"),
+		[]byte("   "),
+		[]byte("\xa0\xa1\xa2"), // invalid utf8!
+	}, nil)
+
+	return bldr.NewArray()
+}
+
+func (c *CastSuite) SetupTest() {
+	c.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
+}
+
+func (c *CastSuite) TearDownTest() {
+	c.mem.AssertSize(c.T(), 0)
+}
+
+func (c *CastSuite) TestCanCast() {
+	expectCanCast := func(from arrow.DataType, toSet []arrow.DataType, expected bool) {
+		for _, to := range toSet {
+			c.Equalf(expected, compute.CanCast(from, to), "CanCast from: %s, to: %s, expected: %t",
+				from, to, expected)
+		}
+	}
+
+	canCast := func(from arrow.DataType, toSet []arrow.DataType) {
+		expectCanCast(from, toSet, true)
+	}
+
+	cannotCast := func(from arrow.DataType, toSet []arrow.DataType) {
+		expectCanCast(from, toSet, false)
+	}
+
+	canCast(arrow.Null, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
+	canCast(arrow.Null, numericTypes)
+	canCast(arrow.Null, baseBinaryTypes)
+	canCast(arrow.Null, []arrow.DataType{
+		arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Timestamp_s,
+	})
+	cannotCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint16, ValueType: arrow.Null}, []arrow.DataType{arrow.Null})
+
+	canCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
+	canCast(arrow.FixedWidthTypes.Boolean, numericTypes)
+	canCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
+	cannotCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.FixedWidthTypes.Boolean}, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
+
+	cannotCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{arrow.Null})
+	cannotCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary})
+	cannotCast(arrow.FixedWidthTypes.Boolean, []arrow.DataType{
+		arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Timestamp_s})
+
+	for _, from := range numericTypes {
+		canCast(from, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
+		canCast(from, numericTypes)
+		canCast(from, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
+		canCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: from}, []arrow.DataType{from})
+
+		cannotCast(from, []arrow.DataType{arrow.Null})
+	}
+
+	for _, from := range baseBinaryTypes {
+		canCast(from, []arrow.DataType{arrow.FixedWidthTypes.Boolean})
+		canCast(from, numericTypes)
+		canCast(from, baseBinaryTypes)
+		canCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int64, ValueType: from}, []arrow.DataType{from})
+
+		// any cast which is valid for the dictionary is valid for the dictionary array
+		canCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Uint32, ValueType: from}, baseBinaryTypes)
+		canCast(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int16, ValueType: from}, baseBinaryTypes)
+
+		cannotCast(from, []arrow.DataType{arrow.Null})
+	}
+
+	canCast(arrow.BinaryTypes.String, []arrow.DataType{arrow.FixedWidthTypes.Timestamp_ms})
+	canCast(arrow.BinaryTypes.LargeString, []arrow.DataType{arrow.FixedWidthTypes.Timestamp_ns})
+	// no formatting supported
+	cannotCast(arrow.FixedWidthTypes.Timestamp_us, []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary})
+
+	canCast(&arrow.FixedSizeBinaryType{ByteWidth: 3}, []arrow.DataType{
+		arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary, arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString,
+		&arrow.FixedSizeBinaryType{ByteWidth: 3}})
+
+	arrow.RegisterExtensionType(types.NewSmallintType())
+	defer arrow.UnregisterExtensionType("smallint")
+	canCast(types.NewSmallintType(), []arrow.DataType{arrow.PrimitiveTypes.Int16})
+	canCast(types.NewSmallintType(), numericTypes) // any cast which is valid for storage is supported
+	canCast(arrow.Null, []arrow.DataType{types.NewSmallintType()})
+
+	canCast(arrow.FixedWidthTypes.Date32, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
+	canCast(arrow.FixedWidthTypes.Date64, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
+	canCast(arrow.FixedWidthTypes.Timestamp_ns, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
+	canCast(arrow.FixedWidthTypes.Timestamp_us, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
+	canCast(arrow.FixedWidthTypes.Time32ms, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
+	canCast(arrow.FixedWidthTypes.Time64ns, []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString})
+}
+
+func (c *CastSuite) checkCastFails(dt arrow.DataType, input string, opts *compute.CastOptions) {
+	inArr, _, _ := array.FromJSON(c.mem, dt, strings.NewReader(input), array.WithUseNumber())
+	defer inArr.Release()
+
+	checkCastFails(c.T(), inArr, *opts)
+}
+
+func (c *CastSuite) checkCastOpts(dtIn, dtOut arrow.DataType, inJSON, outJSON string, opts compute.CastOptions) {
+	inArr, _, _ := array.FromJSON(c.mem, dtIn, strings.NewReader(inJSON), array.WithUseNumber())
+	outArr, _, _ := array.FromJSON(c.mem, dtOut, strings.NewReader(outJSON), array.WithUseNumber())
+	defer inArr.Release()
+	defer outArr.Release()
+
+	checkCast(c.T(), inArr, outArr, opts)
+}
+
+func (c *CastSuite) checkCast(dtIn, dtOut arrow.DataType, inJSON, outJSON string) {
+	c.checkCastOpts(dtIn, dtOut, inJSON, outJSON, *compute.DefaultCastOptions(true))
+}
+
+func (c *CastSuite) checkCastArr(in arrow.Array, dtOut arrow.DataType, json string, opts compute.CastOptions) {
+	outArr, _, _ := array.FromJSON(c.mem, dtOut, strings.NewReader(json), array.WithUseNumber())
+	defer outArr.Release()
+	checkCast(c.T(), in, outArr, opts)
+}
+
+func (c *CastSuite) checkCastExp(dtIn arrow.DataType, inJSON string, exp arrow.Array) {
+	inArr, _, _ := array.FromJSON(c.mem, dtIn, strings.NewReader(inJSON), array.WithUseNumber())
+	defer inArr.Release()
+	checkCast(c.T(), inArr, exp, *compute.DefaultCastOptions(true))
+}
+
+func (c *CastSuite) TestNumericToBool() {
+	for _, dt := range numericTypes {
+		c.checkCast(dt, arrow.FixedWidthTypes.Boolean,
+			`[0, null, 127, 1, 0]`, `[false, null, true, true, false]`)
+	}
+
+	// check negative numbers
+	for _, dt := range []arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Float64} {
+		c.checkCast(dt, arrow.FixedWidthTypes.Boolean,
+			`[0, null, 127, -1, 0]`, `[false, null, true, true, false]`)
+	}
+}
+
+func (c *CastSuite) StringToBool() {
+	for _, dt := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+		c.checkCast(dt, arrow.FixedWidthTypes.Boolean,
+			`["False", null, "true", "True", "false"]`, `[false, null, true, true, false]`)
+
+		c.checkCast(dt, arrow.FixedWidthTypes.Boolean,
+			`["0", null, "1", "1", "0"]`, `[false, null, true, true, false]`)
+
+		opts := compute.NewCastOptions(arrow.FixedWidthTypes.Boolean, true)
+		c.checkCastFails(dt, `["false "]`, opts)
+		c.checkCastFails(dt, `["T"]`, opts)
+	}
+}
+
+func (c *CastSuite) TestToIntUpcast() {
+	c.checkCast(arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int32,
+		`[0, null, 127, -1, 0]`, `[0, null, 127, -1, 0]`)
+
+	c.checkCast(arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Int16,
+		`[0, 100, 200, 255, 0]`, `[0, 100, 200, 255, 0]`)
+}
+
+func (c *CastSuite) TestToIntDowncastSafe() {
+	// int16 to uint8 no overflow/underflow
+	c.checkCast(arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint8,
+		`[0, null, 200, 1, 2]`, `[0, null, 200, 1, 2]`)
+
+	// int16 to uint8, overflow
+	c.checkCastFails(arrow.PrimitiveTypes.Int16, `[0, null, 256, 0, 0]`,
+		compute.NewCastOptions(arrow.PrimitiveTypes.Uint8, true))
+	// and underflow
+	c.checkCastFails(arrow.PrimitiveTypes.Int16, `[0, null, -1, 0, 0]`,
+		compute.NewCastOptions(arrow.PrimitiveTypes.Uint8, true))
+
+	// int32 to int16, no overflow/underflow
+	c.checkCast(arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16,
+		`[0, null, 2000, 1, 2]`, `[0, null, 2000, 1, 2]`)
+
+	// int32 to int16, overflow
+	c.checkCastFails(arrow.PrimitiveTypes.Int32, `[0, null, 2000, 70000, 2]`,
+		compute.NewCastOptions(arrow.PrimitiveTypes.Int16, true))
+
+	// and underflow
+	c.checkCastFails(arrow.PrimitiveTypes.Int32, `[0, null, 2000, -70000, 2]`,
+		compute.NewCastOptions(arrow.PrimitiveTypes.Int16, true))
+
+	c.checkCastFails(arrow.PrimitiveTypes.Int32, `[0, null, 2000, -70000, 2]`,
+		compute.NewCastOptions(arrow.PrimitiveTypes.Uint8, true))
+
+}
+
+func (c *CastSuite) TestIntegerSignedToUnsigned() {
+	i32s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[-2147483648, null, -1, 65535, 2147483647]`))
+	defer i32s.Release()
+
+	// same width
+	checkCastFails(c.T(), i32s, *compute.NewCastOptions(arrow.PrimitiveTypes.Uint32, true))
+	// wider
+	checkCastFails(c.T(), i32s, *compute.NewCastOptions(arrow.PrimitiveTypes.Uint64, true))
+	// narrower
+	checkCastFails(c.T(), i32s, *compute.NewCastOptions(arrow.PrimitiveTypes.Uint16, true))
+
+	var options compute.CastOptions
+	options.AllowIntOverflow = true
+
+	u32s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Uint32,
+		strings.NewReader(`[2147483648, null, 4294967295, 65535, 2147483647]`))
+	defer u32s.Release()
+	checkCast(c.T(), i32s, u32s, options)
+
+	u64s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Uint64,
+		strings.NewReader(`[18446744071562067968, null, 18446744073709551615, 65535, 2147483647]`),
+		array.WithUseNumber()) // have to use WithUseNumber so it doesn't lose precision converting to float64
+	defer u64s.Release()
+	checkCast(c.T(), i32s, u64s, options)
+
+	// fail because of overflow, instead of underflow
+	i32s, _, _ = array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, null, 0, 65536, 2147483647]`))
+	defer i32s.Release()
+	checkCastFails(c.T(), i32s, *compute.NewCastOptions(arrow.PrimitiveTypes.Uint16, true))
+
+	u16s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Uint16, strings.NewReader(`[0, null, 0, 0, 65535]`))
+	defer u16s.Release()
+	checkCast(c.T(), i32s, u16s, options)
+}
+
+func (c *CastSuite) TestIntegerUnsignedToSigned() {
+	u32s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Uint32, strings.NewReader(`[4294967295, null, 0, 32768]`))
+	defer u32s.Release()
+	// same width
+	checkCastFails(c.T(), u32s, *compute.SafeCastOptions(arrow.PrimitiveTypes.Int32))
+
+	// narrower
+	checkCastFails(c.T(), u32s, *compute.SafeCastOptions(arrow.PrimitiveTypes.Int16))
+	sl := array.NewSlice(u32s, 1, int64(u32s.Len()))
+	defer sl.Release()
+	checkCastFails(c.T(), sl, *compute.SafeCastOptions(arrow.PrimitiveTypes.Int16))
+
+	var opts compute.CastOptions
+	opts.AllowIntOverflow = true
+	c.checkCastArr(u32s, arrow.PrimitiveTypes.Int32, `[-1, null, 0, 32768]`, opts)
+	c.checkCastArr(u32s, arrow.PrimitiveTypes.Int64, `[4294967295, null, 0, 32768]`, opts)
+	c.checkCastArr(u32s, arrow.PrimitiveTypes.Int16, `[-1, null, 0, -32768]`, opts)
+}
+
+func (c *CastSuite) TestToIntDowncastUnsafe() {
+	opts := compute.CastOptions{AllowIntOverflow: true}
+	c.checkCastOpts(arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint8,
+		`[0, null, 200, 1, 2]`, `[0, null, 200, 1, 2]`, opts)
+
+	c.checkCastOpts(arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Uint8,
+		`[0, null, 256, 1, 2, -1]`, `[0, null, 0, 1, 2, 255]`, opts)
+
+	c.checkCastOpts(arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16,
+		`[0, null, 2000, 1, 2, -1]`, `[0, null, 2000, 1, 2, -1]`, opts)
+
+	c.checkCastOpts(arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16,
+		`[0, null, 2000, 70000, -70000]`, `[0, null, 2000, 4464, -4464]`, opts)
+}
+
+func (c *CastSuite) TestFloatingToInt() {
+	for _, from := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64} {
+		for _, to := range []arrow.DataType{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64} {
+			// float to int no truncation
+			c.checkCast(from, to, `[1.0, null, 0.0, -1.0, 5.0]`, `[1, null, 0, -1, 5]`)
+
+			// float to int truncate error
+			opts := compute.SafeCastOptions(to)
+			c.checkCastFails(from, `[1.5, 0.0, null, 0.5, -1.5, 5.5]`, opts)
+
+			// float to int truncate allowed
+			opts.AllowFloatTruncate = true
+			c.checkCastOpts(from, to, `[1.5, 0.0, null, 0.5, -1.5, 5.5]`, `[1, 0, null, 0, -1, 5]`, *opts)
+		}
+	}
+}
+
+func (c *CastSuite) TestIntToFloating() {
+	for _, from := range []arrow.DataType{arrow.PrimitiveTypes.Uint32, arrow.PrimitiveTypes.Int32} {
+		two24 := `[16777216, 16777217]`
+		c.checkCastFails(from, two24, compute.SafeCastOptions(arrow.PrimitiveTypes.Float32))
+		one24 := `[16777216]`
+		c.checkCast(from, arrow.PrimitiveTypes.Float32, one24, one24)
+	}
+
+	i64s, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int64,
+		strings.NewReader(`[-9223372036854775808, -9223372036854775807, 0, 9223372036854775806,  9223372036854775807]`),
+		array.WithUseNumber())
+	defer i64s.Release()
+
+	checkCastFails(c.T(), i64s, *compute.SafeCastOptions(arrow.PrimitiveTypes.Float64))
+	masked := c.maskArrayWithNullsAt(i64s, []int{0, 1, 3, 4})
+	defer masked.Release()
+	c.checkCastArr(masked, arrow.PrimitiveTypes.Float64, `[null, null, 0, null, null]`, *compute.DefaultCastOptions(true))
+
+	c.checkCastFails(arrow.PrimitiveTypes.Uint64, `[9007199254740992, 9007199254740993]`, compute.SafeCastOptions(arrow.PrimitiveTypes.Float64))
+}
+
+func (c *CastSuite) TestDecimal128ToInt() {
+	opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Int64)
+
+	c.Run("no overflow no truncate", func() {
+		for _, allowIntOverflow := range []bool{false, true} {
+			c.Run(fmt.Sprintf("int_overflow=%t", allowIntOverflow), func() {
+				for _, allowDecTruncate := range []bool{false, true} {
+					c.Run(fmt.Sprintf("dec_truncate=%t", allowDecTruncate), func() {
+						opts.AllowIntOverflow = allowIntOverflow
+						opts.AllowDecimalTruncate = allowDecTruncate
+
+						noOverflowNoTrunc, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
+							strings.NewReader(`["02.0000000000", "-11.0000000000", "22.0000000000", "-121.000000000", null]`))
+
+						c.checkCastArr(noOverflowNoTrunc, arrow.PrimitiveTypes.Int64, `[2, -11, 22, -121, null]`, *opts)
+						noOverflowNoTrunc.Release()
+					})
+				}
+			})
+		}
+	})
+
+	c.Run("truncate no overflow", func() {
+		for _, allowIntOverflow := range []bool{false, true} {
+			c.Run("allow overflow"+strconv.FormatBool(allowIntOverflow), func() {
+				opts.AllowIntOverflow = allowIntOverflow
+				truncNoOverflow, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
+					strings.NewReader(`["02.1000000000", "-11.0000004500", "22.0000004500", "-121.1210000000", null]`))
+
+				opts.AllowDecimalTruncate = true
+				c.checkCastArr(truncNoOverflow, arrow.PrimitiveTypes.Int64, `[2, -11, 22, -121, null]`, *opts)
+
+				opts.AllowDecimalTruncate = false
+				checkCastFails(c.T(), truncNoOverflow, *opts)
+				truncNoOverflow.Release()
+			})
+		}
+	})
+
+	c.Run("overflow no truncate", func() {
+		for _, allowDecTruncate := range []bool{false, true} {
+			c.Run("allow truncate "+strconv.FormatBool(allowDecTruncate), func() {
+				opts.AllowDecimalTruncate = allowDecTruncate
+
+				overflowNoTrunc, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
+					strings.NewReader(`[
+						"12345678901234567890000.0000000000", 
+						"99999999999999999999999.0000000000",
+						null]`), array.WithUseNumber())
+				defer overflowNoTrunc.Release()
+				opts.AllowIntOverflow = true
+				c.checkCastArr(overflowNoTrunc, arrow.PrimitiveTypes.Int64,
+					// 12345678901234567890000 % 2**64, 99999999999999999999999 % 2**64
+					`[4807115922877858896, 200376420520689663, null]`, *opts)
+
+				opts.AllowIntOverflow = false
+				checkCastFails(c.T(), overflowNoTrunc, *opts)
+			})
+		}
+	})
+
+	c.Run("overflow and truncate", func() {
+		for _, allowIntOverFlow := range []bool{false, true} {
+			c.Run("allow overflow = "+strconv.FormatBool(allowIntOverFlow), func() {
+				for _, allowDecTruncate := range []bool{false, true} {
+					c.Run("allow truncate = "+strconv.FormatBool(allowDecTruncate), func() {
+						opts.AllowIntOverflow = allowIntOverFlow
+						opts.AllowDecimalTruncate = allowDecTruncate
+
+						overflowAndTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
+							strings.NewReader(`[
+							"12345678901234567890000.0045345000",
+							"99999999999999999999999.0000344300",
+							null]`), array.WithUseNumber())
+						defer overflowAndTruncate.Release()
+						if opts.AllowIntOverflow && opts.AllowDecimalTruncate {
+							c.checkCastArr(overflowAndTruncate, arrow.PrimitiveTypes.Int64,
+								// 12345678901234567890000 % 2**64, 99999999999999999999999 % 2**64
+								`[4807115922877858896, 200376420520689663, null]`, *opts)
+						} else {
+							checkCastFails(c.T(), overflowAndTruncate, *opts)
+						}
+					})
+				}
+			})
+		}
+	})
+
+	c.Run("negative scale", func() {
+		bldr := array.NewDecimal128Builder(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: -4})
+		defer bldr.Release()
+
+		var err error
+		for _, d := range []decimal128.Num{decimal128.FromU64(1234567890000), decimal128.FromI64(-120000)} {
+			d, err = d.Rescale(0, -4)
+			c.Require().NoError(err)
+			bldr.Append(d)
+		}
+		negScale := bldr.NewArray()
+		defer negScale.Release()
+
+		opts.AllowIntOverflow = true
+		opts.AllowDecimalTruncate = true
+		c.checkCastArr(negScale, arrow.PrimitiveTypes.Int64, `[1234567890000, -120000]`, *opts)
+	})
+}
+
+func (c *CastSuite) TestDecimal256ToInt() {
+	opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Int64)
+
+	c.Run("no overflow no truncate", func() {
+		for _, allowIntOverflow := range []bool{false, true} {
+			c.Run(fmt.Sprintf("int_overflow=%t", allowIntOverflow), func() {
+				for _, allowDecTruncate := range []bool{false, true} {
+					c.Run(fmt.Sprintf("dec_truncate=%t", allowDecTruncate), func() {
+						opts.AllowIntOverflow = allowIntOverflow
+						opts.AllowDecimalTruncate = allowDecTruncate
+
+						noOverflowNoTrunc, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 10},
+							strings.NewReader(`["02.0000000000", "-11.0000000000", "22.0000000000", "-121.000000000", null]`))
+
+						c.checkCastArr(noOverflowNoTrunc, arrow.PrimitiveTypes.Int64, `[2, -11, 22, -121, null]`, *opts)
+						noOverflowNoTrunc.Release()
+					})
+				}
+			})
+		}
+	})
+
+	c.Run("truncate no overflow", func() {
+		for _, allowIntOverflow := range []bool{false, true} {
+			c.Run("allow overflow"+strconv.FormatBool(allowIntOverflow), func() {
+				opts.AllowIntOverflow = allowIntOverflow
+				truncNoOverflow, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 10},
+					strings.NewReader(`["02.1000000000", "-11.0000004500", "22.0000004500", "-121.1210000000", null]`))
+
+				opts.AllowDecimalTruncate = true
+				c.checkCastArr(truncNoOverflow, arrow.PrimitiveTypes.Int64, `[2, -11, 22, -121, null]`, *opts)
+
+				opts.AllowDecimalTruncate = false
+				checkCastFails(c.T(), truncNoOverflow, *opts)
+				truncNoOverflow.Release()
+			})
+		}
+	})
+
+	c.Run("overflow no truncate", func() {
+		for _, allowDecTruncate := range []bool{false, true} {
+			c.Run("allow truncate "+strconv.FormatBool(allowDecTruncate), func() {
+				opts.AllowDecimalTruncate = allowDecTruncate
+
+				overflowNoTrunc, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 10},
+					strings.NewReader(`[
+						"1234567890123456789000000.0000000000",
+						"9999999999999999999999999.0000000000",
+						null]`), array.WithUseNumber())
+				defer overflowNoTrunc.Release()
+				opts.AllowIntOverflow = true
+				c.checkCastArr(overflowNoTrunc, arrow.PrimitiveTypes.Int64,
+					// 1234567890123456789000000 % 2**64, 9999999999999999999999999 % 2**64
+					`[1096246371337547584, 1590897978359414783, null]`, *opts)
+
+				opts.AllowIntOverflow = false
+				checkCastFails(c.T(), overflowNoTrunc, *opts)
+			})
+		}
+	})
+
+	c.Run("overflow and truncate", func() {
+		for _, allowIntOverFlow := range []bool{false, true} {
+			c.Run("allow overflow = "+strconv.FormatBool(allowIntOverFlow), func() {
+				for _, allowDecTruncate := range []bool{false, true} {
+					c.Run("allow truncate = "+strconv.FormatBool(allowDecTruncate), func() {
+						opts.AllowIntOverflow = allowIntOverFlow
+						opts.AllowDecimalTruncate = allowDecTruncate
+
+						overflowAndTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 10},
+							strings.NewReader(`[
+							"1234567890123456789000000.0045345000",
+							"9999999999999999999999999.0000344300",
+							null]`), array.WithUseNumber())
+						defer overflowAndTruncate.Release()
+						if opts.AllowIntOverflow && opts.AllowDecimalTruncate {
+							c.checkCastArr(overflowAndTruncate, arrow.PrimitiveTypes.Int64,
+								// 1234567890123456789000000 % 2**64, 9999999999999999999999999 % 2**64
+								`[1096246371337547584, 1590897978359414783, null]`, *opts)
+						} else {
+							checkCastFails(c.T(), overflowAndTruncate, *opts)
+						}
+					})
+				}
+			})
+		}
+	})
+
+	c.Run("negative scale", func() {
+		bldr := array.NewDecimal256Builder(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: -4})
+		defer bldr.Release()
+
+		var err error
+		for _, d := range []decimal256.Num{decimal256.FromU64(1234567890000), decimal256.FromI64(-120000)} {
+			d, err = d.Rescale(0, -4)
+			c.Require().NoError(err)
+			bldr.Append(d)
+		}
+		negScale := bldr.NewArray()
+		defer negScale.Release()
+
+		opts.AllowIntOverflow = true
+		opts.AllowDecimalTruncate = true
+		c.checkCastArr(negScale, arrow.PrimitiveTypes.Int64, `[1234567890000, -120000]`, *opts)
+	})
+}
+
+func (c *CastSuite) TestIntegerToDecimal() {
+	for _, decType := range []arrow.DataType{&arrow.Decimal128Type{Precision: 22, Scale: 2}, &arrow.Decimal256Type{Precision: 22, Scale: 2}} {
+		c.Run(decType.String(), func() {
+			for _, intType := range integerTypes {
+				c.Run(intType.String(), func() {
+					c.checkCast(intType, decType, `[0, 7, null, 100, 99]`, `["0.00", "7.00", null, "100.00", "99.00"]`)
+				})
+			}
+		})
+	}
+
+	c.Run("extreme value", func() {
+		for _, dt := range []arrow.DataType{&arrow.Decimal128Type{Precision: 19, Scale: 0}, &arrow.Decimal256Type{Precision: 19, Scale: 0}} {
+			c.Run(dt.String(), func() {
+				c.checkCast(arrow.PrimitiveTypes.Int64, dt,
+					`[-9223372036854775808, 9223372036854775807]`, `["-9223372036854775808", "9223372036854775807"]`)
+			})
+		}
+		for _, dt := range []arrow.DataType{&arrow.Decimal128Type{Precision: 20, Scale: 0}, &arrow.Decimal256Type{Precision: 20, Scale: 0}} {
+			c.Run(dt.String(), func() {
+				c.checkCast(arrow.PrimitiveTypes.Uint64, dt,
+					`[0, 18446744073709551615]`, `["0", "18446744073709551615"]`)
+			})
+		}
+	})
+
+	c.Run("insufficient output precision", func() {
+		var opts compute.CastOptions
+		opts.ToType = &arrow.Decimal128Type{Precision: 5, Scale: 3}
+		c.checkCastFails(arrow.PrimitiveTypes.Int8, `[0]`, &opts)
+
+		opts.ToType = &arrow.Decimal256Type{Precision: 76, Scale: 67}
+		c.checkCastFails(arrow.PrimitiveTypes.Int32, `[0]`, &opts)
+	})
+}
+
+func (c *CastSuite) TestDecimal128ToDecimal128() {
+	var opts compute.CastOptions
+
+	for _, allowDecTruncate := range []bool{false, true} {
+		c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
+			opts.AllowDecimalTruncate = allowDecTruncate
+
+			noTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
+				strings.NewReader(`["02.0000000000", "30.0000000000", "22.0000000000", "-121.0000000000", null]`))
+			expected, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 10},
+				strings.NewReader(`["02.", "30.", "22.", "-121.", null]`))
+
+			defer noTruncate.Release()
+			defer expected.Release()
+
+			checkCast(c.T(), noTruncate, expected, opts)
+			checkCast(c.T(), expected, noTruncate, opts)
+		})
+	}
+
+	c.Run("same scale diff precision", func() {
+		for _, allowDecTruncate := range []bool{false, true} {
+			c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
+				opts.AllowDecimalTruncate = allowDecTruncate
+
+				d52, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 5, Scale: 2},
+					strings.NewReader(`["12.34", "0.56"]`))
+				d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 4, Scale: 2},
+					strings.NewReader(`["12.34", "0.56"]`))
+
+				defer d52.Release()
+				defer d42.Release()
+
+				checkCast(c.T(), d52, d42, opts)
+				checkCast(c.T(), d42, d52, opts)
+			})
+		}
+	})
+
+	c.Run("rescale leads to trunc", func() {
+		dP38S10, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
+			strings.NewReader(`["-02.1234567890", "30.1234567890", null]`))
+		dP28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 0},
+			strings.NewReader(`["-02.", "30.", null]`))
+		dP38S10RoundTripped, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
+			strings.NewReader(`["-02.0000000000", "30.0000000000", null]`))
+		defer func() {
+			dP38S10.Release()
+			dP28S0.Release()
+			dP38S10RoundTripped.Release()
+		}()
+
+		opts.AllowDecimalTruncate = true
+		checkCast(c.T(), dP38S10, dP28S0, opts)
+		checkCast(c.T(), dP28S0, dP38S10RoundTripped, opts)
+
+		opts.AllowDecimalTruncate = false
+		opts.ToType = dP28S0.DataType()
+		checkCastFails(c.T(), dP38S10, opts)
+		checkCast(c.T(), dP28S0, dP38S10RoundTripped, opts)
+	})
+
+	c.Run("precision loss without rescale = trunc", func() {
+		d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 4, Scale: 2},
+			strings.NewReader(`["12.34"]`))
+		defer d42.Release()
+		for _, dt := range []arrow.DataType{
+			&arrow.Decimal128Type{Precision: 3, Scale: 2},
+			&arrow.Decimal128Type{Precision: 4, Scale: 3},
+			&arrow.Decimal128Type{Precision: 2, Scale: 1}} {
+
+			opts.AllowDecimalTruncate = true
+			opts.ToType = dt
+			out, err := compute.CastArray(context.Background(), d42, &opts)
+			out.Release()
+			c.NoError(err)
+
+			opts.AllowDecimalTruncate = false
+			opts.ToType = dt
+			checkCastFails(c.T(), d42, opts)
+		}
+	})
+}
+
+func (c *CastSuite) TestDecimal256ToDecimal256() {
+	var opts compute.CastOptions
+
+	for _, allowDecTruncate := range []bool{false, true} {
+		c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
+			opts.AllowDecimalTruncate = allowDecTruncate
+
+			noTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
+				strings.NewReader(`["02.0000000000", "30.0000000000", "22.0000000000", "-121.0000000000", null]`))
+			expected, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 28, Scale: 10},
+				strings.NewReader(`["02.", "30.", "22.", "-121.", null]`))
+
+			defer noTruncate.Release()
+			defer expected.Release()
+
+			checkCast(c.T(), noTruncate, expected, opts)
+			checkCast(c.T(), expected, noTruncate, opts)
+		})
+	}
+
+	c.Run("same scale diff precision", func() {
+		for _, allowDecTruncate := range []bool{false, true} {
+			c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
+				opts.AllowDecimalTruncate = allowDecTruncate
+
+				d52, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 5, Scale: 2},
+					strings.NewReader(`["12.34", "0.56"]`))
+				d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 4, Scale: 2},
+					strings.NewReader(`["12.34", "0.56"]`))
+
+				defer d52.Release()
+				defer d42.Release()
+
+				checkCast(c.T(), d52, d42, opts)
+				checkCast(c.T(), d42, d52, opts)
+			})
+		}
+	})
+
+	c.Run("rescale leads to trunc", func() {
+		dP38S10, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
+			strings.NewReader(`["-02.1234567890", "30.1234567890", null]`))
+		dP28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 28, Scale: 0},
+			strings.NewReader(`["-02.", "30.", null]`))
+		dP38S10RoundTripped, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
+			strings.NewReader(`["-02.0000000000", "30.0000000000", null]`))
+		defer func() {
+			dP38S10.Release()
+			dP28S0.Release()
+			dP38S10RoundTripped.Release()
+		}()
+
+		opts.AllowDecimalTruncate = true
+		checkCast(c.T(), dP38S10, dP28S0, opts)
+		checkCast(c.T(), dP28S0, dP38S10RoundTripped, opts)
+
+		opts.AllowDecimalTruncate = false
+		opts.ToType = dP28S0.DataType()
+		checkCastFails(c.T(), dP38S10, opts)
+		checkCast(c.T(), dP28S0, dP38S10RoundTripped, opts)
+	})
+
+	c.Run("precision loss without rescale = trunc", func() {
+		d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 4, Scale: 2},
+			strings.NewReader(`["12.34"]`))
+		defer d42.Release()
+		for _, dt := range []arrow.DataType{
+			&arrow.Decimal256Type{Precision: 3, Scale: 2},
+			&arrow.Decimal256Type{Precision: 4, Scale: 3},
+			&arrow.Decimal256Type{Precision: 2, Scale: 1}} {
+
+			opts.AllowDecimalTruncate = true
+			opts.ToType = dt
+			out, err := compute.CastArray(context.Background(), d42, &opts)
+			out.Release()
+			c.NoError(err)
+
+			opts.AllowDecimalTruncate = false
+			opts.ToType = dt
+			checkCastFails(c.T(), d42, opts)
+		}
+	})
+}
+
+func (c *CastSuite) TestDecimal128ToDecimal256() {
+	var opts compute.CastOptions
+
+	for _, allowDecTruncate := range []bool{false, true} {
+		c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
+			opts.AllowDecimalTruncate = allowDecTruncate
+
+			noTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
+				strings.NewReader(`["02.0000000000", "30.0000000000", "22.0000000000", "-121.0000000000", null]`))
+			expected, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 28, Scale: 10},
+				strings.NewReader(`["02.", "30.", "22.", "-121.", null]`))
+
+			defer noTruncate.Release()
+			defer expected.Release()
+
+			checkCast(c.T(), noTruncate, expected, opts)
+		})
+	}
+
+	c.Run("same scale diff precision", func() {
+		for _, allowDecTruncate := range []bool{false, true} {
+			c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
+				opts.AllowDecimalTruncate = allowDecTruncate
+
+				d52, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 5, Scale: 2},
+					strings.NewReader(`["12.34", "0.56"]`))
+				d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 4, Scale: 2},
+					strings.NewReader(`["12.34", "0.56"]`))
+				d402, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 40, Scale: 2},
+					strings.NewReader(`["12.34", "0.56"]`))
+
+				defer d52.Release()
+				defer d42.Release()
+				defer d402.Release()
+
+				checkCast(c.T(), d52, d42, opts)
+				checkCast(c.T(), d52, d402, opts)
+			})
+		}
+	})
+
+	c.Run("rescale leads to trunc", func() {
+		d128P38S10, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 38, Scale: 10},
+			strings.NewReader(`["-02.1234567890", "30.1234567890", null]`))
+		d128P28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 0},
+			strings.NewReader(`["-02.", "30.", null]`))
+		d256P28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 28, Scale: 0},
+			strings.NewReader(`["-02.", "30.", null]`))
+		d256P38S10RoundTripped, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
+			strings.NewReader(`["-02.0000000000", "30.0000000000", null]`))
+		defer func() {
+			d128P38S10.Release()
+			d128P28S0.Release()
+			d256P28S0.Release()
+			d256P38S10RoundTripped.Release()
+		}()
+
+		opts.AllowDecimalTruncate = true
+		checkCast(c.T(), d128P38S10, d256P28S0, opts)
+		checkCast(c.T(), d128P28S0, d256P38S10RoundTripped, opts)
+
+		opts.AllowDecimalTruncate = false
+		opts.ToType = d256P28S0.DataType()
+		checkCastFails(c.T(), d128P38S10, opts)
+		checkCast(c.T(), d128P28S0, d256P38S10RoundTripped, opts)
+	})
+
+	c.Run("precision loss without rescale = trunc", func() {
+		d128P4S2, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 4, Scale: 2},
+			strings.NewReader(`["12.34"]`))
+		defer d128P4S2.Release()
+		for _, dt := range []arrow.DataType{
+			&arrow.Decimal256Type{Precision: 3, Scale: 2},
+			&arrow.Decimal256Type{Precision: 4, Scale: 3},
+			&arrow.Decimal256Type{Precision: 2, Scale: 1}} {
+
+			opts.AllowDecimalTruncate = true
+			opts.ToType = dt
+			out, err := compute.CastArray(context.Background(), d128P4S2, &opts)
+			out.Release()
+			c.NoError(err)
+
+			opts.AllowDecimalTruncate = false
+			opts.ToType = dt
+			checkCastFails(c.T(), d128P4S2, opts)
+		}
+	})
+}
+
+func (c *CastSuite) TestDecimal256ToDecimal128() {
+	var opts compute.CastOptions
+
+	for _, allowDecTruncate := range []bool{false, true} {
+		c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
+			opts.AllowDecimalTruncate = allowDecTruncate
+
+			noTruncate, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 42, Scale: 10},
+				strings.NewReader(`["02.0000000000", "30.0000000000", "22.0000000000", "-121.0000000000", null]`))
+			expected, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 0},
+				strings.NewReader(`["02.", "30.", "22.", "-121.", null]`))
+
+			defer noTruncate.Release()
+			defer expected.Release()
+
+			checkCast(c.T(), noTruncate, expected, opts)
+			checkCast(c.T(), expected, noTruncate, opts)
+		})
+	}
+
+	c.Run("same scale diff precision", func() {
+		for _, allowDecTruncate := range []bool{false, true} {
+			c.Run("decTruncate="+strconv.FormatBool(allowDecTruncate), func() {
+				opts.AllowDecimalTruncate = allowDecTruncate
+
+				dP42S2, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 42, Scale: 2},
+					strings.NewReader(`["12.34", "0.56"]`))
+				d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 4, Scale: 2},
+					strings.NewReader(`["12.34", "0.56"]`))
+
+				defer dP42S2.Release()
+				defer d42.Release()
+
+				checkCast(c.T(), dP42S2, d42, opts)
+				checkCast(c.T(), d42, dP42S2, opts)
+			})
+		}
+	})
+
+	c.Run("rescale leads to trunc", func() {
+		d256P52S10, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 52, Scale: 10},
+			strings.NewReader(`["-02.1234567890", "30.1234567890", null]`))
+		d256P42S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 42, Scale: 0},
+			strings.NewReader(`["-02.", "30.", null]`))
+		d128P28S0, _, _ := array.FromJSON(c.mem, &arrow.Decimal128Type{Precision: 28, Scale: 0},
+			strings.NewReader(`["-02.", "30.", null]`))
+		d128P38S10RoundTripped, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 38, Scale: 10},
+			strings.NewReader(`["-02.0000000000", "30.0000000000", null]`))
+		defer func() {
+			d256P52S10.Release()
+			d256P42S0.Release()
+			d128P28S0.Release()
+			d128P38S10RoundTripped.Release()
+		}()
+
+		opts.AllowDecimalTruncate = true
+		checkCast(c.T(), d256P52S10, d128P28S0, opts)
+		checkCast(c.T(), d256P42S0, d128P38S10RoundTripped, opts)
+
+		opts.AllowDecimalTruncate = false
+		opts.ToType = d128P28S0.DataType()
+		checkCastFails(c.T(), d256P52S10, opts)
+		checkCast(c.T(), d256P42S0, d128P38S10RoundTripped, opts)
+	})
+
+	c.Run("precision loss without rescale = trunc", func() {
+		d42, _, _ := array.FromJSON(c.mem, &arrow.Decimal256Type{Precision: 4, Scale: 2},
+			strings.NewReader(`["12.34"]`))
+		defer d42.Release()
+		for _, dt := range []arrow.DataType{
+			&arrow.Decimal128Type{Precision: 3, Scale: 2},
+			&arrow.Decimal128Type{Precision: 4, Scale: 3},
+			&arrow.Decimal128Type{Precision: 2, Scale: 1}} {
+
+			opts.AllowDecimalTruncate = true
+			opts.ToType = dt
+			out, err := compute.CastArray(context.Background(), d42, &opts)
+			out.Release()
+			c.NoError(err)
+
+			opts.AllowDecimalTruncate = false
+			opts.ToType = dt
+			checkCastFails(c.T(), d42, opts)
+		}
+	})
+}
+
+func (c *CastSuite) TestFloatingToDecimal() {
+	for _, fltType := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64} {
+		c.Run("from "+fltType.String(), func() {
+			for _, decType := range []arrow.DataType{&arrow.Decimal128Type{Precision: 5, Scale: 2}, &arrow.Decimal256Type{Precision: 5, Scale: 2}} {
+				c.Run("to "+decType.String(), func() {
+					c.checkCast(fltType, decType,
+						`[0.0, null, 123.45, 123.456, 999.994]`, `["0.00", null, "123.45", "123.46", "999.99"]`)
+
+					c.Run("overflow", func() {
+						opts := compute.CastOptions{ToType: decType}
+						c.checkCastFails(fltType, `[999.996]`, &opts)
+
+						opts.AllowDecimalTruncate = true
+						c.checkCastOpts(fltType, decType, `[0.0, null, 999.996, 123.45, 999.994]`,
+							`["0.00", null, "0.00", "123.45", "999.99"]`, opts)
+					})
+				})
+			}
+		})
+	}
+
+	dec128 := func(prec, scale int32) arrow.DataType {
+		return &arrow.Decimal128Type{Precision: prec, Scale: scale}
+	}
+	dec256 := func(prec, scale int32) arrow.DataType {
+		return &arrow.Decimal256Type{Precision: prec, Scale: scale}
+	}
+
+	type decFunc func(int32, int32) arrow.DataType
+
+	for _, decType := range []decFunc{dec128, dec256} {
+		// 2**64 + 2**41 (exactly representable as a float)
+		c.checkCast(arrow.PrimitiveTypes.Float32, decType(20, 0),
+			`[1.8446746e+19, -1.8446746e+19]`,
+			`[18446746272732807168, -18446746272732807168]`)
+
+		c.checkCast(arrow.PrimitiveTypes.Float64, decType(20, 0),
+			`[1.8446744073709556e+19, -1.8446744073709556e+19]`,
+			`[18446744073709555712, -18446744073709555712]`)
+
+		c.checkCast(arrow.PrimitiveTypes.Float32, decType(20, 4),
+			`[1.8446746e+15, -1.8446746e+15]`,
+			`[1844674627273280.7168, -1844674627273280.7168]`)
+
+		c.checkCast(arrow.PrimitiveTypes.Float64, decType(20, 4),
+			`[1.8446744073709556e+15, -1.8446744073709556e+15]`,
+			`[1844674407370955.5712, -1844674407370955.5712]`)
+	}
+}
+
+func (c *CastSuite) TestDecimalToFloating() {
+	for _, flt := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64} {
+		c.Run(flt.String(), func() {
+			for _, dec := range []arrow.DataType{&arrow.Decimal128Type{Precision: 5, Scale: 2}, &arrow.Decimal256Type{Precision: 5, Scale: 2}} {
+				c.Run(dec.String(), func() {
+					c.checkCast(dec, flt, `["0.00", null, "123.45", "999.99"]`,
+						`[0.0, null, 123.45, 999.99]`)
+				})
+			}
+		})
+	}
+}
+
+func (c *CastSuite) TestDateToString() {
+	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+		c.checkCast(arrow.FixedWidthTypes.Date32, stype,
+			`[0, null]`, `["1970-01-01", null]`)
+		c.checkCast(arrow.FixedWidthTypes.Date64, stype,
+			`[86400000, null]`, `["1970-01-02", null]`)
+	}
+}
+
+func (c *CastSuite) TestTimeToString() {
+	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+		c.checkCast(arrow.FixedWidthTypes.Time32s, stype, `[1, 62]`, `["00:00:01", "00:01:02"]`)
+		c.checkCast(arrow.FixedWidthTypes.Time64ns, stype, `[0, 1]`, `["00:00:00.000000000", "00:00:00.000000001"]`)
+	}
+}
+
+func (c *CastSuite) TestTimestampToString() {
+	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+		c.checkCast(&arrow.TimestampType{Unit: arrow.Second}, stype,
+			`[-30610224000, -5364662400]`, `["1000-01-01 00:00:00", "1800-01-01 00:00:00"]`)
+
+		c.checkCast(&arrow.TimestampType{Unit: arrow.Millisecond}, stype,
+			`[-30610224000000, -5364662400000]`, `["1000-01-01 00:00:00.000", "1800-01-01 00:00:00.000"]`)
+
+		c.checkCast(&arrow.TimestampType{Unit: arrow.Microsecond}, stype,
+			`[-30610224000000000, -5364662400000000]`, `["1000-01-01 00:00:00.000000", "1800-01-01 00:00:00.000000"]`)
+
+		c.checkCast(&arrow.TimestampType{Unit: arrow.Nanosecond}, stype,
+			`[-596933876543210988, 349837323456789012]`, `["1951-02-01 01:02:03.456789012", "1981-02-01 01:02:03.456789012"]`)
+	}
+}
+
+func (c *CastSuite) TestTimestampWithZoneToString() {
+	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+		c.checkCast(arrow.FixedWidthTypes.Timestamp_s, stype,
+			`[-30610224000, -5364662400]`, `["1000-01-01 00:00:00Z", "1800-01-01 00:00:00Z"]`)
+
+		c.checkCast(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}, stype,
+			`[-34226955, 1456767743]`, `["1968-11-30 13:30:45-0700", "2016-02-29 10:42:23-0700"]`)
+
+		c.checkCast(&arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "America/Phoenix"}, stype,
+			`[-34226955877, 1456767743456]`, `["1968-11-30 13:30:44.123-0700", "2016-02-29 10:42:23.456-0700"]`)
+
+		c.checkCast(&arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: "America/Phoenix"}, stype,
+			`[-34226955877000, 1456767743456789]`, `["1968-11-30 13:30:44.123000-0700", "2016-02-29 10:42:23.456789-0700"]`)
+
+		c.checkCast(&arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "America/Phoenix"}, stype,
+			`[-34226955876543211, 1456767743456789246]`, `["1968-11-30 13:30:44.123456789-0700", "2016-02-29 10:42:23.456789246-0700"]`)
+	}
+}
+
+func (c *CastSuite) assertBinaryZeroCopy(lhs, rhs arrow.Array) {
+	// null bitmap and data buffers are always zero-copied
+	assertBufferSame(c.T(), lhs, rhs, 0)
+	assertBufferSame(c.T(), lhs, rhs, 2)
+
+	lOffsetByteWidth := lhs.DataType().Layout().Buffers[1].ByteWidth
+	rOffsetByteWidth := rhs.DataType().Layout().Buffers[1].ByteWidth
+	if lOffsetByteWidth == rOffsetByteWidth {
+		assertBufferSame(c.T(), lhs, rhs, 1)
+		return
+	}
+
+	offsets := make([]arrow.Array, 0, 2)
+	for _, arr := range []arrow.Array{lhs, rhs} {
+		length := arr.Len()
+		buffer := arr.Data().Buffers()[1]
+
+		byteWidth := arr.DataType().Layout().Buffers[1].ByteWidth
+		switch byteWidth {
+		case 4:
+			data := array.NewData(arrow.PrimitiveTypes.Int32, length, []*memory.Buffer{nil, buffer}, nil, 0, 0)
+			defer data.Release()
+			i32 := array.NewInt32Data(data)
+			i64, err := compute.CastArray(context.Background(), i32, compute.SafeCastOptions(arrow.PrimitiveTypes.Int64))
+			c.Require().NoError(err)
+			i32.Release()
+			defer i64.Release()
+			offsets = append(offsets, i64)
+		default:
+			data := array.NewData(arrow.PrimitiveTypes.Int64, length, []*memory.Buffer{nil, buffer}, nil, 0, 0)
+			defer data.Release()
+			i64 := array.NewInt64Data(data)
+			defer i64.Release()
+			offsets = append(offsets, i64)
+		}
+	}
+	c.Truef(array.Equal(offsets[0], offsets[1]), "lhs: %s\nrhs: %s", offsets[0], offsets[1])
+}
+
+func (c *CastSuite) TestBinaryToString() {
+	for _, btype := range []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary} {
+		c.Run(btype.String(), func() {
+			for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+				c.Run(stype.String(), func() {
+					// empty -> empty always works
+					c.checkCast(btype, stype, `[]`, `[]`)
+
+					invalidUtf8 := c.invalidUtf8Arr(btype)
+					defer invalidUtf8.Release()
+
+					invalidutf8Str := c.invalidUtf8Arr(stype)
+					defer invalidutf8Str.Release()
+
+					// invalid utf8 masked by a null bit is not an error
+					masked := c.maskArrayWithNullsAt(invalidUtf8, []int{4})
+					expMasked := c.maskArrayWithNullsAt(invalidutf8Str, []int{4})
+					defer masked.Release()
+					defer expMasked.Release()
+
+					checkCast(c.T(), masked, expMasked, *compute.SafeCastOptions(stype))
+
+					opts := compute.SafeCastOptions(stype)
+					checkCastFails(c.T(), invalidUtf8, *opts)
+
+					// override utf8 check
+					opts.AllowInvalidUtf8 = true
+					strs, err := compute.CastArray(context.Background(), invalidUtf8, opts)
+					c.NoError(err)
+					defer strs.Release()
+					c.assertBinaryZeroCopy(invalidUtf8, strs)
+				})
+			}
+		})
+	}
+
+	c.Run("fixed size binary", func() {
+		fromType := &arrow.FixedSizeBinaryType{ByteWidth: 3}
+		invalidUtf8Arr := c.fixedSizeInvalidUtf8(fromType)
+		defer invalidUtf8Arr.Release()
+		for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+			c.Run(stype.String(), func() {
+				c.checkCast(fromType, stype, `[]`, `[]`)
+
+				// invalid utf-8 masked by a null bit is not an error
+				strInvalidUtf8 := c.fixedSizeInvalidUtf8(stype)
+				defer strInvalidUtf8.Release()
+
+				masked := c.maskArrayWithNullsAt(invalidUtf8Arr, []int{4})
+				expMasked := c.maskArrayWithNullsAt(strInvalidUtf8, []int{4})
+				defer masked.Release()
+				defer expMasked.Release()
+
+				checkCast(c.T(), masked, expMasked, *compute.SafeCastOptions(stype))
+
+				opts := compute.SafeCastOptions(stype)
+				checkCastFails(c.T(), invalidUtf8Arr, *opts)
+
+				// override utf8 check
+				opts.AllowInvalidUtf8 = true
+				strs, err := compute.CastArray(context.Background(), invalidUtf8Arr, opts)
+				c.NoError(err)
+				defer strs.Release()
+
+				// null buffer is not always the same if input is sliced
+				assertBufferSame(c.T(), invalidUtf8Arr, strs, 0)
+
+				c.Same(invalidUtf8Arr.Data().Buffers()[1], strs.Data().Buffers()[2])
+			})
+		}
+	})
+}
+
+func (c *CastSuite) TestBinaryOrStringToBinary() {
+	for _, fromType := range baseBinaryTypes {
+		c.Run(fromType.String(), func() {
+			for _, toType := range []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary} {
+				c.Run(toType.String(), func() {
+					// empty -> empty always works
+					c.checkCast(fromType, toType, `[]`, `[]`)
+
+					invalidUtf8 := c.invalidUtf8Arr(fromType)
+					defer invalidUtf8.Release()
+
+					// invalid utf-8 is not an error for binary
+					out, err := compute.CastToType(context.Background(), invalidUtf8, toType)
+					c.NoError(err)
+					defer out.Release()
+					c.assertBinaryZeroCopy(invalidUtf8, out)
+
+					// invalid utf-8 masked by a null is also not an erro
+					invalidutf8Bin := c.invalidUtf8Arr(toType)
+					defer invalidutf8Bin.Release()
+
+					// invalid utf8 masked by a null bit is not an error
+					masked := c.maskArrayWithNullsAt(invalidUtf8, []int{4})
+					expMasked := c.maskArrayWithNullsAt(invalidutf8Bin, []int{4})
+					defer masked.Release()
+					defer expMasked.Release()
+
+					checkCast(c.T(), masked, expMasked, *compute.SafeCastOptions(toType))
+				})
+			}
+		})
+	}
+
+	c.Run("fixed size binary", func() {
+		fromType := &arrow.FixedSizeBinaryType{ByteWidth: 3}
+		invalidUtf8Arr := c.fixedSizeInvalidUtf8(fromType)
+		defer invalidUtf8Arr.Release()
+
+		checkCast(c.T(), invalidUtf8Arr, invalidUtf8Arr, *compute.DefaultCastOptions(true))
+		checkCastFails(c.T(), invalidUtf8Arr, *compute.SafeCastOptions(&arrow.FixedSizeBinaryType{ByteWidth: 5}))
+		for _, toType := range []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary} {
+			c.Run(toType.String(), func() {
+				c.checkCast(fromType, toType, `[]`, `[]`)
+
+				out, err := compute.CastToType(context.Background(), invalidUtf8Arr, toType)
+				c.NoError(err)
+				defer out.Release()
+				assertBufferSame(c.T(), invalidUtf8Arr, out, 0)
+
+				c.Same(invalidUtf8Arr.Data().Buffers()[1], out.Data().Buffers()[2])
+			})
+		}
+	})
+}
+
+func (c *CastSuite) TestStringToString() {
+	for _, fromType := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+		c.Run("from "+fromType.String(), func() {
+			for _, toType := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+				c.Run("to "+toType.String(), func() {
+					c.checkCast(fromType, toType, `[]`, `[]`)
+
+					invalidUtf8 := c.invalidUtf8Arr(fromType)
+					defer invalidUtf8.Release()
+
+					invalidutf8Str := c.invalidUtf8Arr(toType)
+					defer invalidutf8Str.Release()
+
+					// invalid utf8 masked by a null bit is not an error
+					masked := c.maskArrayWithNullsAt(invalidUtf8, []int{4})
+					expMasked := c.maskArrayWithNullsAt(invalidutf8Str, []int{4})
+					defer masked.Release()
+					defer expMasked.Release()
+
+					checkCast(c.T(), masked, expMasked, *compute.SafeCastOptions(toType))
+
+					opts := compute.SafeCastOptions(toType)
+					// override utf8 check
+					opts.AllowInvalidUtf8 = true
+					// utf-8 is not checked by cast when the origin (utf-8) guarantees utf-8
+					strs, err := compute.CastArray(context.Background(), invalidUtf8, opts)
+					c.NoError(err)
+					defer strs.Release()
+					c.assertBinaryZeroCopy(invalidUtf8, strs)
+				})
+			}
+		})
+	}
+}
+
+func (c *CastSuite) TestStringToInt() {
+	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+		for _, dt := range signedIntTypes {
+			c.checkCast(stype, dt,
+				`["0", null, "127", "-1", "0", "0x0", "0x7F"]`,
+				`[0, null, 127, -1, 0, 0, 127]`)
+		}
+
+		c.checkCast(stype, arrow.PrimitiveTypes.Int32,
+			`["2147483647", null, "-2147483648", "0", "0X0", "0x7FFFFFFF", "-0X1", "-0x10000000"]`,
+			`[2147483647, null, -2147483648, 0, 0, 2147483647, -1, -268435456]`)
+
+		c.checkCast(stype, arrow.PrimitiveTypes.Int64,
+			`["9223372036854775807", null, "-9223372036854775808", "0", "0x0", "0x7FFFFFFFFFFFFFFf", "-0x0FFFFFFFFFFFFFFF"]`,
+			`[9223372036854775807, null, -9223372036854775808, 0, 0, 9223372036854775807, -1152921504606846975]`)
+
+		for _, dt := range unsignedIntTypes {
+			c.checkCast(stype, dt, `["0", null, "127", "255", "0", "0x0", "0xff", "0X7f"]`,
+				`[0, null, 127, 255, 0, 0, 255, 127]`)
+		}
+
+		c.checkCast(stype, arrow.PrimitiveTypes.Uint32,
+			`["2147483647", null, "4294967295", "0", "0x0", "0x7FFFFFFf", "0xFFFFFFFF"]`,
+			`[2147483647, null, 4294967295, 0, 0, 2147483647, 4294967295]`)
+
+		c.checkCast(stype, arrow.PrimitiveTypes.Uint64,
+			`["9223372036854775807", null, "18446744073709551615", "0", "0x0", "0x7FFFFFFFFFFFFFFf", "0xfFFFFFFFFFFFFFFf"]`,
+			`[9223372036854775807, null, 18446744073709551615, 0, 0, 9223372036854775807, 18446744073709551615]`)
+
+		for _, notInt8 := range []string{"z", "12 z", "128", "-129", "0.5", "0x", "0xfff", "-0xf0"} {
+			c.checkCastFails(stype, `["`+notInt8+`"]`, compute.SafeCastOptions(arrow.PrimitiveTypes.Int8))
+		}
+
+		for _, notUint8 := range []string{"256", "-1", "0.5", "0x", "0x3wa", "0x123"} {
+			c.checkCastFails(stype, `["`+notUint8+`"]`, compute.SafeCastOptions(arrow.PrimitiveTypes.Uint8))
+		}
+	}
+}
+
+func (c *CastSuite) TestStringToFloating() {
+	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+		for _, dt := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64} {
+			c.checkCast(stype, dt, `["0.1", null, "127.3", "1e3", "200.4", "0.5"]`,
+				`[0.1, null, 127.3, 1000, 200.4, 0.5]`)
+
+			for _, notFloat := range []string{"z"} {
+				c.checkCastFails(stype, `["`+notFloat+`"]`, compute.SafeCastOptions(dt))
+			}
+		}
+	}
+}
+
+func (c *CastSuite) TestUnsupportedInputType() {
+	// casting to a supported target type, but with an unsupported
+	// input for that target type.
+	arr, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, 2, 3]`))
+	defer arr.Release()
+
+	toType := arrow.ListOf(arrow.BinaryTypes.String)
+	_, err := compute.CastToType(context.Background(), arr, toType)
+	c.ErrorIs(err, arrow.ErrNotImplemented)
+	c.ErrorContains(err, "function 'cast_list' has no kernel matching input types (int32)")
+
+	// test calling through the generic kernel API
+	datum := compute.NewDatum(arr)
+	defer datum.Release()
+	_, err = compute.CallFunction(context.Background(), "cast", compute.SafeCastOptions(toType), datum)
+	c.ErrorIs(err, arrow.ErrNotImplemented)
+	c.ErrorContains(err, "function 'cast_list' has no kernel matching input types (int32)")
+}
+
+func (c *CastSuite) TestUnsupportedTargetType() {
+	arr, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, 2, 3]`))
+	defer arr.Release()
+
+	toType := arrow.DenseUnionOf([]arrow.Field{{Name: "a", Type: arrow.PrimitiveTypes.Int32}}, []arrow.UnionTypeCode{0})
+	_, err := compute.CastToType(context.Background(), arr, toType)
+	c.ErrorIs(err, arrow.ErrNotImplemented)
+	c.ErrorContains(err, "unsupported cast to dense_union<a: type=int32=0> from int32")
+
+	// test calling through the generic kernel API
+	datum := compute.NewDatum(arr)
+	defer datum.Release()
+	_, err = compute.CallFunction(context.Background(), "cast", compute.SafeCastOptions(toType), datum)
+	c.ErrorIs(err, arrow.ErrNotImplemented)
+	c.ErrorContains(err, "unsupported cast to dense_union<a: type=int32=0> from int32")
+}
+
+func (c *CastSuite) checkCastSelfZeroCopy(dt arrow.DataType, json string) {
+	arr, _, _ := array.FromJSON(c.mem, dt, strings.NewReader(json))
+	defer arr.Release()
+
+	checkCastZeroCopy(c.T(), arr, dt, compute.NewCastOptions(dt, true))
+}
+
+func (c *CastSuite) checkCastZeroCopy(from arrow.DataType, json string, to arrow.DataType) {
+	arr, _, _ := array.FromJSON(c.mem, from, strings.NewReader(json))
+	defer arr.Release()
+	checkCastZeroCopy(c.T(), arr, to, compute.NewCastOptions(to, true))
+}
+
+func (c *CastSuite) TestTimestampToTimestamp() {
+	tests := []struct {
+		coarse, fine arrow.DataType
+	}{
+		{arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Timestamp_ms},
+		{arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Timestamp_us},
+		{arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Timestamp_ns},
+	}
+
+	var opts compute.CastOptions
+	for _, tt := range tests {
+		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
+			c.checkCast(tt.coarse, tt.fine, `[0, null, 200, 1, 2]`, `[0, null, 200000, 1000, 2000]`)
+
+			opts.AllowTimeTruncate = false
+			opts.ToType = tt.coarse
+			c.checkCastFails(tt.fine, `[0, null, 200456, 1123, 2456]`, &opts)
+
+			// with truncation allowed, divide/truncate
+			opts.AllowTimeTruncate = true
+			c.checkCastOpts(tt.fine, tt.coarse, `[0, null, 200456, 1123, 2456]`, `[0, null, 200, 1, 2]`, opts)
+		})
+	}
+
+	tests = []struct {
+		coarse, fine arrow.DataType
+	}{
+		{arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Timestamp_ns},
+	}
+
+	for _, tt := range tests {
+		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
+			c.checkCast(tt.coarse, tt.fine, `[0, null, 200, 1, 2]`, `[0, null, 200000000000, 1000000000, 2000000000]`)
+
+			opts.AllowTimeTruncate = false
+			opts.ToType = tt.coarse
+			c.checkCastFails(tt.fine, `[0, null, 200456000000, 1123000000, 2456000000]`, &opts)
+
+			// with truncation allowed, divide/truncate
+			opts.AllowTimeTruncate = true
+			c.checkCastOpts(tt.fine, tt.coarse, `[0, null, 200456000000, 1123000000, 2456000000]`, `[0, null, 200, 1, 2]`, opts)
+		})
+	}
+}
+
+func (c *CastSuite) TestTimestampZeroCopy() {
+	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Timestamp_s /*,  arrow.PrimitiveTypes.Int64*/} {
+		c.checkCastZeroCopy(arrow.FixedWidthTypes.Timestamp_s, `[0, null, 2000, 1000, 0]`, dt)
+	}
+
+	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int64, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Timestamp_s)
+}
+
+func (c *CastSuite) TestTimestampToTimestampMultiplyOverflow() {
+	opts := compute.CastOptions{ToType: arrow.FixedWidthTypes.Timestamp_ns}
+	// 1000-01-01, 1800-01-01, 2000-01-01, 2300-01-01, 3000-01-01
+	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_s, `[-30610224000, -5364662400, 946684800, 10413792000, 32503680000]`, &opts)
+}
+
+var (
+	timestampJSON = `["1970-01-01T00:00:59.123456789","2000-02-29T23:23:23.999999999",
+		"1899-01-01T00:59:20.001001001","2033-05-18T03:33:20.000000000",
+		"2020-01-01T01:05:05.001", "2019-12-31T02:10:10.002",
+		"2019-12-30T03:15:15.003", "2009-12-31T04:20:20.004132",
+		"2010-01-01T05:25:25.005321", "2010-01-03T06:30:30.006163",
+		"2010-01-04T07:35:35", "2006-01-01T08:40:40", "2005-12-31T09:45:45",
+		"2008-12-28", "2008-12-29", "2012-01-01 01:02:03", null]`
+	timestampSecondsJSON = `["1970-01-01T00:00:59","2000-02-29T23:23:23",
+		"1899-01-01T00:59:20","2033-05-18T03:33:20",
+		"2020-01-01T01:05:05", "2019-12-31T02:10:10",
+		"2019-12-30T03:15:15", "2009-12-31T04:20:20",
+		"2010-01-01T05:25:25", "2010-01-03T06:30:30",
+		"2010-01-04T07:35:35", "2006-01-01T08:40:40",
+		"2005-12-31T09:45:45", "2008-12-28", "2008-12-29",
+		"2012-01-01 01:02:03", null]`
+	timestampExtremeJSON = `["1677-09-20T00:00:59.123456", "2262-04-13T23:23:23.999999"]`
+)
+
+func (c *CastSuite) TestTimestampToDate() {
+	stamps, _, _ := array.FromJSON(c.mem, arrow.FixedWidthTypes.Timestamp_ns, strings.NewReader(timestampJSON))
+	defer stamps.Release()
+	date32, _, _ := array.FromJSON(c.mem, arrow.FixedWidthTypes.Date32,
+		strings.NewReader(`[
+			0, 11016, -25932, 23148,
+			18262, 18261, 18260, 14609,
+			14610, 14612, 14613, 13149,
+			13148, 14241, 14242, 15340, null
+		]`))
+	defer date32.Release()
+	date64, _, _ := array.FromJSON(c.mem, arrow.FixedWidthTypes.Date64,
+		strings.NewReader(`[
+		0, 951782400000, -2240524800000, 1999987200000,
+		1577836800000, 1577750400000, 1577664000000, 1262217600000,
+		1262304000000, 1262476800000, 1262563200000, 1136073600000,
+		1135987200000, 1230422400000, 1230508800000, 1325376000000, null]`), array.WithUseNumber())
+	defer date64.Release()
+
+	checkCast(c.T(), stamps, date32, *compute.DefaultCastOptions(true))
+	checkCast(c.T(), stamps, date64, *compute.DefaultCastOptions(true))
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Date32,
+		timestampExtremeJSON, `[-106753, 106753]`)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Date64,
+		timestampExtremeJSON, `[-9223459200000, 9223459200000]`)
+	for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Microsecond, arrow.Millisecond, arrow.Nanosecond} {
+		dt := &arrow.TimestampType{Unit: u}
+		c.checkCastExp(dt, timestampSecondsJSON, date32)
+		c.checkCastExp(dt, timestampSecondsJSON, date64)
+	}
+}
+
+func (c *CastSuite) TestZonedTimestampToDate() {
+	c.Run("Pacific/Marquesas", func() {
+		dt := &arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "Pacific/Marquesas"}
+		c.checkCast(dt, arrow.FixedWidthTypes.Date32,
+			timestampJSON, `[-1, 11016, -25933, 23147,
+				18261, 18260, 18259, 14608,
+				14609, 14611, 14612, 13148,
+				13148, 14240, 14241, 15339, null]`)
+		c.checkCast(dt, arrow.FixedWidthTypes.Date64, timestampJSON,
+			`[-86400000, 951782400000, -2240611200000, 1999900800000,
+			1577750400000, 1577664000000, 1577577600000, 1262131200000,
+			1262217600000, 1262390400000, 1262476800000, 1135987200000,
+			1135987200000, 1230336000000, 1230422400000, 1325289600000, null]`)
+	})
+
+	for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond, arrow.Microsecond, arrow.Nanosecond} {
+		dt := &arrow.TimestampType{Unit: u, TimeZone: "Australia/Broken_Hill"}
+		c.checkCast(dt, arrow.FixedWidthTypes.Date32, timestampSecondsJSON, `[
+			0, 11017, -25932, 23148,
+			18262, 18261, 18260, 14609,
+			14610, 14612, 14613, 13149,
+			13148, 14241, 14242, 15340, null]`)
+		c.checkCast(dt, arrow.FixedWidthTypes.Date64, timestampSecondsJSON, `[
+			0, 951868800000, -2240524800000, 1999987200000, 1577836800000,
+			1577750400000, 1577664000000, 1262217600000, 1262304000000,
+			1262476800000, 1262563200000, 1136073600000, 1135987200000,
+			1230422400000, 1230508800000, 1325376000000, null]`)
+	}
+
+	// invalid timezones
+	for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond, arrow.Microsecond, arrow.Nanosecond} {
+		dt := &arrow.TimestampType{Unit: u, TimeZone: "Mars/Mariner_Valley"}
+		c.checkCastFails(dt, timestampSecondsJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Date32, false))
+		c.checkCastFails(dt, timestampSecondsJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Date64, false))
+	}
+}
+
+func (c *CastSuite) TestTimestampToTime() {
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time64ns,
+		timestampJSON, `[
+			59123456789, 84203999999999, 3560001001001, 12800000000000,
+			3905001000000, 7810002000000, 11715003000000, 15620004132000,
+			19525005321000, 23430006163000, 27335000000000, 31240000000000,
+			35145000000000, 0, 0, 3723000000000, null]`)
+	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ns, timestampJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Time64us, true))
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time64us,
+		timestampExtremeJSON, `[59123456, 84203999999]`)
+
+	timesSec := `[59, 84203, 3560, 12800,
+				3905, 7810, 11715, 15620,
+				19525, 23430, 27335, 31240,
+				35145, 0, 0, 3723, null]`
+	timesMs := `[59000, 84203000, 3560000, 12800000,
+				3905000, 7810000, 11715000, 15620000,
+				19525000, 23430000, 27335000, 31240000,
+				35145000, 0, 0, 3723000, null]`
+	timesUs := `[59000000, 84203000000, 3560000000, 12800000000,
+				3905000000, 7810000000, 11715000000, 15620000000,
+				19525000000, 23430000000, 27335000000, 31240000000,
+				35145000000, 0, 0, 3723000000, null]`
+	timesNs := `[59000000000, 84203000000000, 3560000000000, 12800000000000,
+				3905000000000, 7810000000000, 11715000000000, 15620000000000,
+				19525000000000, 23430000000000, 27335000000000, 31240000000000,
+				35145000000000, 0, 0, 3723000000000, null]`
+
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time32s,
+		timestampSecondsJSON, timesSec)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time32ms,
+		timestampSecondsJSON, timesMs)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time32s,
+		timestampSecondsJSON, timesSec)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time32ms,
+		timestampSecondsJSON, timesMs)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time64us,
+		timestampSecondsJSON, timesUs)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time64ns,
+		timestampSecondsJSON, timesNs)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time32ms,
+		timestampSecondsJSON, timesMs)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time32s,
+		timestampSecondsJSON, timesSec)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time64us,
+		timestampSecondsJSON, timesUs)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time64ns,
+		timestampSecondsJSON, timesNs)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time32ms,
+		timestampSecondsJSON, timesMs)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time32s,
+		timestampSecondsJSON, timesSec)
+
+	trunc := compute.CastOptions{AllowTimeTruncate: true}
+
+	timestampsUS := `["1970-01-01T00:00:59.123456","2000-02-29T23:23:23.999999",
+					"1899-01-01T00:59:20.001001","2033-05-18T03:33:20.000000",
+					"2020-01-01T01:05:05.001", "2019-12-31T02:10:10.002",
+					"2019-12-30T03:15:15.003", "2009-12-31T04:20:20.004132",
+					"2010-01-01T05:25:25.005321", "2010-01-03T06:30:30.006163",
+					"2010-01-04T07:35:35", "2006-01-01T08:40:40", "2005-12-31T09:45:45",
+					"2008-12-28", "2008-12-29", "2012-01-01 01:02:03", null]`
+	timestampsMS := `["1970-01-01T00:00:59.123","2000-02-29T23:23:23.999",
+					"1899-01-01T00:59:20.001","2033-05-18T03:33:20.000",
+					"2020-01-01T01:05:05.001", "2019-12-31T02:10:10.002",
+					"2019-12-30T03:15:15.003", "2009-12-31T04:20:20.004",
+					"2010-01-01T05:25:25.005", "2010-01-03T06:30:30.006",
+					"2010-01-04T07:35:35", "2006-01-01T08:40:40", "2005-12-31T09:45:45",
+					"2008-12-28", "2008-12-29", "2012-01-01 01:02:03", null]`
+
+	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ns, timestampJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Time64us, true))
+	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ns, timestampJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Time32ms, true))
+	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ns, timestampJSON, compute.NewCastOptions(arrow.FixedWidthTypes.Time32s, true))
+	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_us, timestampsUS, compute.NewCastOptions(arrow.FixedWidthTypes.Time32ms, true))
+	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_us, timestampsUS, compute.NewCastOptions(arrow.FixedWidthTypes.Time32s, true))
+	c.checkCastFails(arrow.FixedWidthTypes.Timestamp_ms, timestampsMS, compute.NewCastOptions(arrow.FixedWidthTypes.Time32s, true))
+
+	timesNsUs := `[59123456, 84203999999, 3560001001, 12800000000,
+				3905001000, 7810002000, 11715003000, 15620004132,
+				19525005321, 23430006163, 27335000000, 31240000000,
+				35145000000, 0, 0, 3723000000, null]`
+	timesNsMs := `[59123, 84203999, 3560001, 12800000,
+				3905001, 7810002, 11715003, 15620004,
+				19525005, 23430006, 27335000, 31240000,
+				35145000, 0, 0, 3723000, null]`
+	timesUsNs := `[59123456000, 84203999999000, 3560001001000, 12800000000000,
+				3905001000000, 7810002000000, 11715003000000, 15620004132000,
+				19525005321000, 23430006163000, 27335000000000, 31240000000000,
+				35145000000000, 0, 0, 3723000000000, null]`
+	timesMsNs := `[59123000000, 84203999000000, 3560001000000, 12800000000000,
+				3905001000000, 7810002000000, 11715003000000, 15620004000000,
+				19525005000000, 23430006000000, 27335000000000, 31240000000000,
+				35145000000000, 0, 0, 3723000000000, null]`
+	timesMsUs := `[59123000, 84203999000, 3560001000, 12800000000,
+				3905001000, 7810002000, 11715003000, 15620004000,
+				19525005000, 23430006000, 27335000000, 31240000000,
+				35145000000, 0, 0, 3723000000, null]`
+
+	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time64us, timestampJSON, timesNsUs, trunc)
+	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time32ms, timestampJSON, timesNsMs, trunc)
+	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_ns, arrow.FixedWidthTypes.Time32s, timestampJSON, timesSec, trunc)
+	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time32ms, timestampsUS, timesNsMs, trunc)
+	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time32s, timestampsUS, timesSec, trunc)
+	c.checkCastOpts(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time32s, timestampsMS, timesSec, trunc)
+
+	// upscaling tests
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Time64ns, timestampsUS, timesUsNs)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time64ns, timestampsMS, timesMsNs)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Time64us, timestampsMS, timesMsUs)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time64ns, timestampSecondsJSON, timesNs)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time64us, timestampSecondsJSON, timesUs)
+	c.checkCast(arrow.FixedWidthTypes.Timestamp_s, arrow.FixedWidthTypes.Time32ms, timestampSecondsJSON, timesMs)
+
+	// invalid timezones
+	for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond, arrow.Microsecond, arrow.Nanosecond} {
+		dt := &arrow.TimestampType{Unit: u, TimeZone: "Mars/Mariner_Valley"}
+		switch u {
+		case arrow.Second, arrow.Millisecond:
+			c.checkCastFails(dt, timestampSecondsJSON, compute.NewCastOptions(&arrow.Time32Type{Unit: u}, false))
+		default:
+			c.checkCastFails(dt, timestampSecondsJSON, compute.NewCastOptions(&arrow.Time64Type{Unit: u}, false))
+		}
+	}
+}
+
+func (c *CastSuite) TestZonedTimestampToTime() {
+	c.checkCast(&arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "Pacific/Marquesas"},
+		arrow.FixedWidthTypes.Time64ns, timestampJSON, `[52259123456789, 50003999999999, 56480001001001, 65000000000000,
+			56105001000000, 60010002000000, 63915003000000, 67820004132000,
+			71725005321000, 75630006163000, 79535000000000, 83440000000000,
+			945000000000, 52200000000000, 52200000000000, 55923000000000, null]`)
+
+	timesSec := `[
+		34259, 35603, 35960, 47000,
+		41705, 45610, 49515, 53420,
+		57325, 61230, 65135, 69040,
+		72945, 37800, 37800, 41523, null
+	]`
+	timesMs := `[
+		34259000, 35603000, 35960000, 47000000,
+		41705000, 45610000, 49515000, 53420000,
+		57325000, 61230000, 65135000, 69040000,
+		72945000, 37800000, 37800000, 41523000, null
+	]`
+	timesUs := `[
+		34259000000, 35603000000, 35960000000, 47000000000,
+		41705000000, 45610000000, 49515000000, 53420000000,
+		57325000000, 61230000000, 65135000000, 69040000000,
+		72945000000, 37800000000, 37800000000, 41523000000, null
+	]`
+	timesNs := `[
+		34259000000000, 35603000000000, 35960000000000, 47000000000000,
+		41705000000000, 45610000000000, 49515000000000, 53420000000000,
+		57325000000000, 61230000000000, 65135000000000, 69040000000000,
+		72945000000000, 37800000000000, 37800000000000, 41523000000000, null
+	]`
+
+	c.checkCast(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "Australia/Broken_Hill"},
+		arrow.FixedWidthTypes.Time32s, timestampSecondsJSON, timesSec)
+	c.checkCast(&arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "Australia/Broken_Hill"},
+		arrow.FixedWidthTypes.Time32ms, timestampSecondsJSON, timesMs)
+	c.checkCast(&arrow.TimestampType{Unit: arrow.Microsecond, TimeZone: "Australia/Broken_Hill"},
+		arrow.FixedWidthTypes.Time64us, timestampSecondsJSON, timesUs)
+	c.checkCast(&arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "Australia/Broken_Hill"},
+		arrow.FixedWidthTypes.Time64ns, timestampSecondsJSON, timesNs)
+}
+
+func (c *CastSuite) TestTimeToTime() {
+	var opts compute.CastOptions
+
+	tests := []struct {
+		coarse, fine arrow.DataType
+	}{
+		{arrow.FixedWidthTypes.Time32s, arrow.FixedWidthTypes.Time32ms},
+		{arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Time64us},
+		{arrow.FixedWidthTypes.Time64us, arrow.FixedWidthTypes.Time64ns},
+	}
+
+	for _, tt := range tests {
+		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
+			coarse := `[0, null, 200, 1, 2]`
+			promoted := `[0, null, 200000, 1000, 2000]`
+			willBeTruncated := `[0, null, 200456, 1123, 2456]`
+
+			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
+
+			opts.AllowTimeTruncate = false
+			opts.ToType = tt.coarse
+			c.checkCastFails(tt.fine, willBeTruncated, &opts)
+
+			opts.AllowTimeTruncate = true
+			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
+		})
+	}
+
+	tests = []struct {
+		coarse, fine arrow.DataType
+	}{
+		{arrow.FixedWidthTypes.Time32s, arrow.FixedWidthTypes.Time64us},
+		{arrow.FixedWidthTypes.Time32ms, arrow.FixedWidthTypes.Time64ns},
+	}
+
+	for _, tt := range tests {
+		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
+			coarse := `[0, null, 200, 1, 2]`
+			promoted := `[0, null, 200000000, 1000000, 2000000]`
+			willBeTruncated := `[0, null, 200456000, 1123000, 2456000]`
+
+			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
+
+			opts.AllowTimeTruncate = false
+			opts.ToType = tt.coarse
+			c.checkCastFails(tt.fine, willBeTruncated, &opts)
+
+			opts.AllowTimeTruncate = true
+			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
+		})
+	}
+
+	tests = []struct {
+		coarse, fine arrow.DataType
+	}{
+		{arrow.FixedWidthTypes.Time32s, arrow.FixedWidthTypes.Time64ns},
+	}
+
+	for _, tt := range tests {
+		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
+			coarse := `[0, null, 200, 1, 2]`
+			promoted := `[0, null, 200000000000, 1000000000, 2000000000]`
+			willBeTruncated := `[0, null, 200456000000, 1123000000, 2456000000]`
+
+			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
+
+			opts.AllowTimeTruncate = false
+			opts.ToType = tt.coarse
+			c.checkCastFails(tt.fine, willBeTruncated, &opts)
+
+			opts.AllowTimeTruncate = true
+			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
+		})
+	}
+}
+
+func (c *CastSuite) TestTimeZeroCopy() {
+	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Time32s /*, arrow.PrimitiveTypes.Int32*/} {
+		c.checkCastZeroCopy(arrow.FixedWidthTypes.Time32s, `[0, null, 2000, 1000, 0]`, dt)
+	}
+	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int32, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Time32s)
+
+	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Time64us /*, arrow.PrimitiveTypes.Int64*/} {
+		c.checkCastZeroCopy(arrow.FixedWidthTypes.Time64us, `[0, null, 2000, 1000, 0]`, dt)
+	}
+	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int64, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Time64us)
+}
+
+func (c *CastSuite) TestDateToDate() {
+	day32 := `[0, null, 100, 1, 10]`
+	day64 := `[0, null,  8640000000, 86400000, 864000000]`
+
+	// multiply promotion
+	c.checkCast(arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64, day32, day64)
+	// no truncation
+	c.checkCast(arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Date32, day64, day32)
+
+	day64WillBeTruncated := `[0, null, 8640000123, 86400456, 864000789]`
+
+	opts := compute.CastOptions{ToType: arrow.FixedWidthTypes.Date32}
+	c.checkCastFails(arrow.FixedWidthTypes.Date64, day64WillBeTruncated, &opts)
+
+	opts.AllowTimeTruncate = true
+	c.checkCastOpts(arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Date32,
+		day64WillBeTruncated, day32, opts)
+}
+
+func (c *CastSuite) TestDateZeroCopy() {
+	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Date32 /*, arrow.PrimitiveTypes.Int32*/} {
+		c.checkCastZeroCopy(arrow.FixedWidthTypes.Date32, `[0, null, 2000, 1000, 0]`, dt)
+	}
+	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int32, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Date32)
+
+	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Date64 /*, arrow.PrimitiveTypes.Int64*/} {
+		c.checkCastZeroCopy(arrow.FixedWidthTypes.Date64, `[0, null, 172800000, 86400000, 0]`, dt)
+	}
+	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int64, `[0, null, 172800000, 86400000, 0]`, arrow.FixedWidthTypes.Date64)
+}
+
+func (c *CastSuite) TestDurationToDuration() {
+	var opts compute.CastOptions
+
+	tests := []struct {
+		coarse, fine arrow.DataType
+	}{
+		{arrow.FixedWidthTypes.Duration_s, arrow.FixedWidthTypes.Duration_ms},
+		{arrow.FixedWidthTypes.Duration_ms, arrow.FixedWidthTypes.Duration_us},
+		{arrow.FixedWidthTypes.Duration_us, arrow.FixedWidthTypes.Duration_ns},
+	}
+
+	for _, tt := range tests {
+		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
+			coarse := `[0, null, 200, 1, 2]`
+			promoted := `[0, null, 200000, 1000, 2000]`
+			willBeTruncated := `[0, null, 200456, 1123, 2456]`
+
+			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
+
+			opts.AllowTimeTruncate = false
+			opts.ToType = tt.coarse
+			c.checkCastFails(tt.fine, willBeTruncated, &opts)
+
+			opts.AllowTimeTruncate = true
+			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
+		})
+	}
+
+	tests = []struct {
+		coarse, fine arrow.DataType
+	}{
+		{arrow.FixedWidthTypes.Duration_s, arrow.FixedWidthTypes.Duration_us},
+		{arrow.FixedWidthTypes.Duration_ms, arrow.FixedWidthTypes.Duration_ns},
+	}
+
+	for _, tt := range tests {
+		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
+			coarse := `[0, null, 200, 1, 2]`
+			promoted := `[0, null, 200000000, 1000000, 2000000]`
+			willBeTruncated := `[0, null, 200456000, 1123000, 2456000]`
+
+			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
+
+			opts.AllowTimeTruncate = false
+			opts.ToType = tt.coarse
+			c.checkCastFails(tt.fine, willBeTruncated, &opts)
+
+			opts.AllowTimeTruncate = true
+			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
+		})
+	}
+
+	tests = []struct {
+		coarse, fine arrow.DataType
+	}{
+		{arrow.FixedWidthTypes.Duration_s, arrow.FixedWidthTypes.Duration_ns},
+	}
+
+	for _, tt := range tests {
+		c.Run("coarse "+tt.coarse.String()+" fine "+tt.fine.String(), func() {
+			coarse := `[0, null, 200, 1, 2]`
+			promoted := `[0, null, 200000000000, 1000000000, 2000000000]`
+			willBeTruncated := `[0, null, 200456000000, 1123000000, 2456000000]`
+
+			c.checkCast(tt.coarse, tt.fine, coarse, promoted)
+
+			opts.AllowTimeTruncate = false
+			opts.ToType = tt.coarse
+			c.checkCastFails(tt.fine, willBeTruncated, &opts)
+
+			opts.AllowTimeTruncate = true
+			c.checkCastOpts(tt.fine, tt.coarse, willBeTruncated, coarse, opts)
+		})
+	}
+}
+
+func (c *CastSuite) TestDurationZeroCopy() {
+	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Duration_s /*, arrow.PrimitiveTypes.Int64*/} {
+		c.checkCastZeroCopy(arrow.FixedWidthTypes.Duration_s, `[0, null, 2000, 1000, 0]`, dt)
+	}
+	c.checkCastZeroCopy(arrow.PrimitiveTypes.Int64, `[0, null, 2000, 1000, 0]`, arrow.FixedWidthTypes.Duration_s)
+}
+
+func (c *CastSuite) TestDurationToDurationMultiplyOverflow() {
+	opts := compute.CastOptions{ToType: arrow.FixedWidthTypes.Duration_ns}
+	c.checkCastFails(arrow.FixedWidthTypes.Duration_s, `[10000000000, 1, 2, 3, 10000000000]`, &opts)
+}
+
+func (c *CastSuite) TestStringToTimestamp() {
+	for _, dt := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+		c.checkCast(dt, &arrow.TimestampType{Unit: arrow.Second}, `["1970-01-01", null, "2000-02-29"]`, `[0, null, 951782400]`)
+		c.checkCast(dt, &arrow.TimestampType{Unit: arrow.Microsecond}, `["1970-01-01", null, "2000-02-29"]`, `[0, null, 951782400000000]`)
+
+		for _, u := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond, arrow.Microsecond, arrow.Nanosecond} {
+			for _, notTS := range []string{"", "xxx"} {
+				opts := compute.NewCastOptions(&arrow.TimestampType{Unit: u}, true)
+				c.checkCastFails(dt, `["`+notTS+`"]`, opts)
+			}
+		}
+
+		zoned, _, _ := array.FromJSON(c.mem, dt, strings.NewReader(`["2020-02-29T00:00:00Z", "2020-03-02T10:11:12+0102"]`))
+		defer zoned.Release()
+		mixed, _, _ := array.FromJSON(c.mem, dt, strings.NewReader(`["2020-03-02T10:11:12+0102", "2020-02-29T00:00:00"]`))
+		defer mixed.Release()
+
+		c.checkCastArr(zoned, &arrow.TimestampType{Unit: arrow.Second, TimeZone: "UTC"}, `[1582934400, 1583140152]`, *compute.DefaultCastOptions(true))
+
+		// timestamp with zone offset should not parse as naive
+		checkCastFails(c.T(), zoned, *compute.NewCastOptions(&arrow.TimestampType{Unit: arrow.Second}, true))
+
+		// mixed zoned/unzoned should not parse as naive
+		checkCastFails(c.T(), mixed, *compute.NewCastOptions(&arrow.TimestampType{Unit: arrow.Second}, true))
+
+		// timestamp with zone offset can parse as any time zone (since they're unambiguous)
+		c.checkCastArr(zoned, arrow.FixedWidthTypes.Timestamp_s, `[1582934400, 1583140152]`, *compute.DefaultCastOptions(true))
+		c.checkCastArr(zoned, &arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}, `[1582934400, 1583140152]`, *compute.DefaultCastOptions(true))
+	}
+}
+
+func (c *CastSuite) TestIntToString() {
+	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+		c.Run(stype.String(), func() {
+			c.checkCast(arrow.PrimitiveTypes.Int8, stype,
+				`[0, 1, 127, -128, null]`, `["0", "1", "127", "-128", null]`)
+
+			c.checkCast(arrow.PrimitiveTypes.Uint8, stype,
+				`[0, 1, 255, null]`, `["0", "1", "255", null]`)
+
+			c.checkCast(arrow.PrimitiveTypes.Int16, stype,
+				`[0, 1, 32767, -32768, null]`, `["0", "1", "32767", "-32768", null]`)
+
+			c.checkCast(arrow.PrimitiveTypes.Uint16, stype,
+				`[0, 1, 65535, null]`, `["0", "1", "65535", null]`)
+
+			c.checkCast(arrow.PrimitiveTypes.Int32, stype,
+				`[0, 1, 2147483647, -2147483648, null]`,
+				`["0", "1", "2147483647", "-2147483648", null]`)
+
+			c.checkCast(arrow.PrimitiveTypes.Uint32, stype,
+				`[0, 1, 4294967295, null]`, `["0", "1", "4294967295", null]`)
+
+			c.checkCast(arrow.PrimitiveTypes.Int64, stype,
+				`[0, 1, 9223372036854775807, -9223372036854775808, null]`,
+				`["0", "1", "9223372036854775807", "-9223372036854775808", null]`)
+
+			c.checkCast(arrow.PrimitiveTypes.Uint64, stype,
+				`[0, 1, 18446744073709551615, null]`, `["0", "1", "18446744073709551615", null]`)
+		})
+	}
+}
+
+func (c *CastSuite) TestFloatingToString() {
+	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+		c.Run(stype.String(), func() {
+			bldr := array.NewFloat32Builder(c.mem)
+			defer bldr.Release()
+			bldr.AppendValues([]float32{
+				0, float32(math.Copysign(0, -1)), 1.5, float32(math.Inf(-1)),
+				float32(math.Inf(0)), float32(math.NaN())}, nil)
+			bldr.AppendNull()
+			arr := bldr.NewArray()
+			defer arr.Release()
+
+			bldr64 := array.NewFloat64Builder(c.mem)
+			defer bldr64.Release()
+			bldr64.AppendValues([]float64{
+				0, math.Copysign(0, -1), 1.5, math.Inf(-1), math.Inf(0), math.NaN()}, nil)
+			bldr64.AppendNull()
+			arr64 := bldr64.NewArray()
+			defer arr64.Release()
+
+			c.checkCastArr(arr, stype, `["0", "-0", "1.5", "-Inf", "+Inf", "NaN", null]`, *compute.DefaultCastOptions(true))
+
+			c.checkCastArr(arr64, stype, `["0", "-0", "1.5", "-Inf", "+Inf", "NaN", null]`, *compute.DefaultCastOptions(true))
+		})
+	}
+}
+
+func (c *CastSuite) TestBooleanToString() {
+	for _, stype := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+		c.Run(stype.String(), func() {
+			c.checkCast(arrow.FixedWidthTypes.Boolean, stype,
+				`[true, true, false, null]`, `["true", "true", "false", null]`)
+		})
+	}
+}
+
+func (c *CastSuite) TestIdentityCasts() {
+	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Boolean, `[false, true, null, false]`)
+
+	c.checkCastSelfZeroCopy(arrow.Null, `[null, null, null]`)
+	for _, typ := range numericTypes {
+		c.checkCastSelfZeroCopy(typ, `[1, 2, null, 4]`)
+	}
+
+	// ["foo", "bar"] base64 encoded for binary
+	c.checkCastSelfZeroCopy(arrow.BinaryTypes.Binary, `["Zm9v", "YmFy"]`)
+	c.checkCastSelfZeroCopy(arrow.BinaryTypes.String, `["foo", "bar"]`)
+	c.checkCastSelfZeroCopy(&arrow.FixedSizeBinaryType{ByteWidth: 3}, `["Zm9v", "YmFy"]`)
+
+	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Time32ms, `[1, 2, 3, 4]`)
+	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Time64us, `[1, 2, 3, 4]`)
+	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Date32, `[1, 2, 3, 4]`)
+	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Date64, `[86400000, 0]`)
+	c.checkCastSelfZeroCopy(arrow.FixedWidthTypes.Timestamp_s, `[1, 2, 3, 4]`)
+
+	c.checkCastSelfZeroCopy(&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Int8},
+		`[1, 2, 3, 1, null, 3]`)
+}
+
+func (c *CastSuite) TestListToPrimitive() {
+	arr, _, _ := array.FromJSON(c.mem, arrow.ListOf(arrow.PrimitiveTypes.Int8), strings.NewReader(`[[1, 2], [3, 4]]`))
+	defer arr.Release()
+
+	_, err := compute.CastToType(context.Background(), arr, arrow.PrimitiveTypes.Uint8)
+	c.ErrorIs(err, arrow.ErrNotImplemented)
+}
+
+type makeList func(arrow.DataType) arrow.DataType
+
+var listFactories = []makeList{
+	func(dt arrow.DataType) arrow.DataType { return arrow.ListOf(dt) },
+	func(dt arrow.DataType) arrow.DataType { return arrow.LargeListOf(dt) },
+}
+
+func (c *CastSuite) checkListToList(valTypes []arrow.DataType, jsonData string) {
+	for _, makeSrc := range listFactories {
+		for _, makeDest := range listFactories {
+			for _, srcValueType := range valTypes {
+				for _, dstValueType := range valTypes {
+					srcType := makeSrc(srcValueType)
+					dstType := makeDest(dstValueType)
+					c.Run(fmt.Sprintf("from %s to %s", srcType, dstType), func() {
+						c.checkCast(srcType, dstType, jsonData, jsonData)
+					})
+				}
+			}
+		}
+	}
+}
+
+func (c *CastSuite) TestListToList() {
+	c.checkListToList([]arrow.DataType{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int64},
+		`[[0], [1], null, [2, 3, 4], [5, 6], null, [], [7], [8, 9]]`)
+}
+
+func (c *CastSuite) TestListToListNoNulls() {
+	c.checkListToList([]arrow.DataType{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int64},
+		`[[0], [1], [2, 3, 4], [5, 6], [], [7], [8, 9]]`)
+}
+
+func (c *CastSuite) TestListToListOptionsPassthru() {
+	for _, makeSrc := range listFactories {
+		for _, makeDest := range listFactories {
+			opts := compute.SafeCastOptions(makeDest(arrow.PrimitiveTypes.Int16))
+			c.checkCastFails(makeSrc(arrow.PrimitiveTypes.Int32), `[[87654321]]`, opts)
+
+			opts.AllowIntOverflow = true
+			c.checkCastOpts(makeSrc(arrow.PrimitiveTypes.Int32), makeDest(arrow.PrimitiveTypes.Int16),
+				`[[87654321]]`, `[[32689]]`, *opts)
+		}
+	}
+}
+
+func (c *CastSuite) checkStructToStruct(types []arrow.DataType) {
+	for _, srcType := range types {
+		c.Run(srcType.String(), func() {
+			for _, destType := range types {
+				c.Run(destType.String(), func() {
+					fieldNames := []string{"a", "b"}
+					a1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[1, 2, 3, 4, null]`))
+					b1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[null, 7, 8, 9, 0]`))
+					a2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[1, 2, 3, 4, null]`))
+					b2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[null, 7, 8, 9, 0]`))
+					src, _ := array.NewStructArray([]arrow.Array{a1, b1}, fieldNames)
+					dest, _ := array.NewStructArray([]arrow.Array{a2, b2}, fieldNames)
+					defer func() {
+						a1.Release()
+						b1.Release()
+						a2.Release()
+						b2.Release()
+						src.Release()
+						dest.Release()
+					}()
+
+					checkCast(c.T(), src, dest, *compute.DefaultCastOptions(true))
+					c.Run("with nulls", func() {
+						nullBitmap := memory.NewBufferBytes([]byte{10})
+						srcNullData := src.Data().(*array.Data).Copy()
+						srcNullData.Buffers()[0] = nullBitmap
+						srcNullData.SetNullN(3)
+						defer srcNullData.Release()
+						destNullData := dest.Data().(*array.Data).Copy()
+						destNullData.Buffers()[0] = nullBitmap
+						destNullData.SetNullN(3)
+						defer destNullData.Release()
+
+						srcNulls := array.NewStructData(srcNullData)
+						destNulls := array.NewStructData(destNullData)
+						defer srcNulls.Release()
+						defer destNulls.Release()
+
+						checkCast(c.T(), srcNulls, destNulls, *compute.DefaultCastOptions(true))
+					})
+				})
+			}
+		})
+	}
+}
+
+func (c *CastSuite) checkStructToStructSubset(types []arrow.DataType) {
+	for _, srcType := range types {
+		c.Run(srcType.String(), func() {
+			for _, destType := range types {
+				c.Run(destType.String(), func() {
+					fieldNames := []string{"a", "b", "c", "d", "e"}
+
+					a1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[1, 2, 5]`))
+					defer a1.Release()
+					b1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[3, 4, 7]`))
+					defer b1.Release()
+					c1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[9, 11, 44]`))
+					defer c1.Release()
+					d1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[6, 51, 49]`))
+					defer d1.Release()
+					e1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[19, 17, 74]`))
+					defer e1.Release()
+
+					a2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[1, 2, 5]`))
+					defer a2.Release()
+					b2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[3, 4, 7]`))
+					defer b2.Release()
+					c2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[9, 11, 44]`))
+					defer c2.Release()
+					d2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[6, 51, 49]`))
+					defer d2.Release()
+					e2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[19, 17, 74]`))
+					defer e2.Release()
+
+					src, _ := array.NewStructArray([]arrow.Array{a1, b1, c1, d1, e1}, fieldNames)
+					defer src.Release()
+					dest1, _ := array.NewStructArray([]arrow.Array{a2}, []string{"a"})
+					defer dest1.Release()
+
+					opts := *compute.DefaultCastOptions(true)
+					checkCast(c.T(), src, dest1, opts)
+
+					dest2, _ := array.NewStructArray([]arrow.Array{b2, c2}, []string{"b", "c"})
+					defer dest2.Release()
+					checkCast(c.T(), src, dest2, opts)
+
+					dest3, _ := array.NewStructArray([]arrow.Array{c2, d2, e2}, []string{"c", "d", "e"})
+					defer dest3.Release()
+					checkCast(c.T(), src, dest3, opts)
+
+					dest4, _ := array.NewStructArray([]arrow.Array{a2, b2, c2, e2}, []string{"a", "b", "c", "e"})
+					defer dest4.Release()
+					checkCast(c.T(), src, dest4, opts)
+
+					dest5, _ := array.NewStructArray([]arrow.Array{a2, b2, c2, d2, e2}, []string{"a", "b", "c", "d", "e"})
+					defer dest5.Release()
+					checkCast(c.T(), src, dest5, opts)
+
+					// field does not exist
+					dest6 := arrow.StructOf(
+						arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
+						arrow.Field{Name: "d", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
+						arrow.Field{Name: "f", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
+					)
+					options6 := compute.SafeCastOptions(dest6)
+					_, err := compute.CastArray(context.TODO(), src, options6)
+					c.ErrorIs(err, arrow.ErrType)
+					c.ErrorContains(err, "struct fields don't match or are in the wrong order")
+
+					// fields in wrong order
+					dest7 := arrow.StructOf(
+						arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
+						arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
+						arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
+					)
+					options7 := compute.SafeCastOptions(dest7)
+					_, err = compute.CastArray(context.TODO(), src, options7)
+					c.ErrorIs(err, arrow.ErrType)
+					c.ErrorContains(err, "struct fields don't match or are in the wrong order")
+				})
+			}
+		})
+	}
+}
+
+func (c *CastSuite) checkStructToStructSubsetWithNulls(types []arrow.DataType) {
+	for _, srcType := range types {
+		c.Run(srcType.String(), func() {
+			for _, destType := range types {
+				c.Run(destType.String(), func() {
+					fieldNames := []string{"a", "b", "c", "d", "e"}
+
+					a1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[1, 2, 5]`))
+					defer a1.Release()
+					b1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[3, null, 7]`))
+					defer b1.Release()
+					c1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[9, 11, 44]`))
+					defer c1.Release()
+					d1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[6, 51, null]`))
+					defer d1.Release()
+					e1, _, _ := array.FromJSON(c.mem, srcType, strings.NewReader(`[null, 17, 74]`))
+					defer e1.Release()
+
+					a2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[1, 2, 5]`))
+					defer a2.Release()
+					b2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[3, null, 7]`))
+					defer b2.Release()
+					c2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[9, 11, 44]`))
+					defer c2.Release()
+					d2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[6, 51, null]`))
+					defer d2.Release()
+					e2, _, _ := array.FromJSON(c.mem, destType, strings.NewReader(`[null, 17, 74]`))
+					defer e2.Release()
+
+					// 0, 1, 0
+					nullBitmap := memory.NewBufferBytes([]byte{2})
+					srcNull, _ := array.NewStructArrayWithNulls([]arrow.Array{a1, b1, c1, d1, e1}, fieldNames, nullBitmap, 2, 0)
+					defer srcNull.Release()
+
+					dest1Null, _ := array.NewStructArrayWithNulls([]arrow.Array{a2}, []string{"a"}, nullBitmap, -1, 0)
+					defer dest1Null.Release()
+					opts := compute.DefaultCastOptions(true)
+					checkCast(c.T(), srcNull, dest1Null, *opts)
+
+					dest2Null, _ := array.NewStructArrayWithNulls([]arrow.Array{b2, c2}, []string{"b", "c"}, nullBitmap, -1, 0)
+					defer dest2Null.Release()
+					checkCast(c.T(), srcNull, dest2Null, *opts)
+
+					dest3Null, _ := array.NewStructArrayWithNulls([]arrow.Array{a2, d2, e2}, []string{"a", "d", "e"}, nullBitmap, -1, 0)
+					defer dest3Null.Release()
+					checkCast(c.T(), srcNull, dest3Null, *opts)
+
+					dest4Null, _ := array.NewStructArrayWithNulls([]arrow.Array{a2, b2, c2, e2}, []string{"a", "b", "c", "e"}, nullBitmap, -1, 0)
+					defer dest4Null.Release()
+					checkCast(c.T(), srcNull, dest4Null, *opts)
+
+					dest5Null, _ := array.NewStructArrayWithNulls([]arrow.Array{a2, b2, c2, d2, e2}, []string{"a", "b", "c", "d", "e"}, nullBitmap, -1, 0)
+					defer dest5Null.Release()
+					checkCast(c.T(), srcNull, dest5Null, *opts)
+
+					// field does not exist
+					dest6Null := arrow.StructOf(
+						arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
+						arrow.Field{Name: "d", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
+						arrow.Field{Name: "f", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
+					)
+					options6Null := compute.SafeCastOptions(dest6Null)
+					_, err := compute.CastArray(context.TODO(), srcNull, options6Null)
+					c.ErrorIs(err, arrow.ErrType)
+					c.ErrorContains(err, "struct fields don't match or are in the wrong order")
+
+					// fields in wrong order
+					dest7Null := arrow.StructOf(
+						arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
+						arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int16, Nullable: true},
+						arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
+					)
+					options7Null := compute.SafeCastOptions(dest7Null)
+					_, err = compute.CastArray(context.TODO(), srcNull, options7Null)
+					c.ErrorIs(err, arrow.ErrType)
+					c.ErrorContains(err, "struct fields don't match or are in the wrong order")
+				})
+			}
+		})
+	}
+}
+
+func (c *CastSuite) TestStructToSameSizedAndNamedStruct() {
+	c.checkStructToStruct(numericTypes)
+}
+
+func (c *CastSuite) TestStructToStructSubset() {
+	c.checkStructToStructSubset(numericTypes)
+}
+
+func (c *CastSuite) TestStructToStructSubsetWithNulls() {
+	c.checkStructToStructSubsetWithNulls(numericTypes)
+}
+
+func (c *CastSuite) TestStructToSameSizedButDifferentNamedStruct() {
+	fieldNames := []string{"a", "b"}
+	a, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[1, 2]`))
+	defer a.Release()
+	b, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[3, 4]`))
+	defer b.Release()
+
+	src, _ := array.NewStructArray([]arrow.Array{a, b}, fieldNames)
+	defer src.Release()
+
+	dest := arrow.StructOf(
+		arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
+		arrow.Field{Name: "d", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
+	)
+	opts := compute.SafeCastOptions(dest)
+	_, err := compute.CastArray(context.TODO(), src, opts)
+	c.ErrorIs(err, arrow.ErrType)
+	c.ErrorContains(err, "struct fields don't match or are in the wrong order")
+}
+
+func (c *CastSuite) TestStructToBiggerStruct() {
+	fieldNames := []string{"a", "b"}
+	a, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[1, 2]`))
+	defer a.Release()
+	b, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[3, 4]`))
+	defer b.Release()
+
+	src, _ := array.NewStructArray([]arrow.Array{a, b}, fieldNames)
+	defer src.Release()
+
+	dest := arrow.StructOf(
+		arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
+		arrow.Field{Name: "b", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
+		arrow.Field{Name: "c", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
+	)
+	opts := compute.SafeCastOptions(dest)
+	_, err := compute.CastArray(context.TODO(), src, opts)
+	c.ErrorIs(err, arrow.ErrType)
+	c.ErrorContains(err, "struct fields don't match or are in the wrong order")
+}
+
+func (c *CastSuite) TestStructToDifferentNullabilityStruct() {
+	c.Run("non-nullable to nullable", func() {
+		fieldsSrcNonNullable := []arrow.Field{
+			{Name: "a", Type: arrow.PrimitiveTypes.Int8},
+			{Name: "b", Type: arrow.PrimitiveTypes.Int8},
+			{Name: "c", Type: arrow.PrimitiveTypes.Int8},
+		}
+		srcNonNull, _, err := array.FromJSON(c.mem, arrow.StructOf(fieldsSrcNonNullable...),
+			strings.NewReader(`[
+				{"a": 11, "b": 32, "c", 95},
+				{"a": 23, "b": 46, "c": 11},
+				{"a": 56, "b": 37, "c": 44}
+			]`))
+		c.Require().NoError(err)
+		defer srcNonNull.Release()
+
+		fieldsDest1Nullable := []arrow.Field{
+			{Name: "a", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
+			{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
+			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
+		}
+		destNullable, _, err := array.FromJSON(c.mem, arrow.StructOf(fieldsDest1Nullable...),
+			strings.NewReader(`[
+				{"a": 11, "b": 32, "c", 95},
+				{"a": 23, "b": 46, "c": 11},
+				{"a": 56, "b": 37, "c": 44}
+			]`))
+		c.Require().NoError(err)
+		defer destNullable.Release()
+
+		checkCast(c.T(), srcNonNull, destNullable, *compute.DefaultCastOptions(true))
+
+		fieldsDest2Nullable := []arrow.Field{
+			{Name: "a", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
+			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
+		}
+
+		data := array.NewData(arrow.StructOf(fieldsDest2Nullable...), destNullable.Len(), destNullable.Data().Buffers(),
+			[]arrow.ArrayData{destNullable.Data().Children()[0], destNullable.Data().Children()[2]},
+			destNullable.NullN(), 0)
+		defer data.Release()
+		dest2Nullable := array.NewStructData(data)
+		defer dest2Nullable.Release()
+		checkCast(c.T(), srcNonNull, dest2Nullable, *compute.DefaultCastOptions(true))
+
+		fieldsDest3Nullable := []arrow.Field{
+			{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
+		}
+
+		data = array.NewData(arrow.StructOf(fieldsDest3Nullable...), destNullable.Len(), destNullable.Data().Buffers(),
+			[]arrow.ArrayData{destNullable.Data().Children()[1]}, destNullable.NullN(), 0)
+		defer data.Release()
+		dest3Nullable := array.NewStructData(data)
+		defer dest3Nullable.Release()
+		checkCast(c.T(), srcNonNull, dest3Nullable, *compute.DefaultCastOptions(true))
+	})
+	c.Run("non-nullable to nullable", func() {
+		fieldsSrcNullable := []arrow.Field{
+			{Name: "a", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
+			{Name: "b", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
+			{Name: "c", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
+		}
+		srcNullable, _, err := array.FromJSON(c.mem, arrow.StructOf(fieldsSrcNullable...),
+			strings.NewReader(`[
+				{"a": 1, "b": 3, "c", 9},
+				{"a": null, "b": 4, "c": 11},
+				{"a": 5, "b": null, "c": 44}
+			]`))
+		c.Require().NoError(err)
+		defer srcNullable.Release()
+
+		fieldsDest1NonNullable := []arrow.Field{
+			{Name: "a", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
+			{Name: "b", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
+			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
+		}
+		dest1NonNullable := arrow.StructOf(fieldsDest1NonNullable...)
+		options1NoNullable := compute.SafeCastOptions(dest1NonNullable)
+		_, err = compute.CastArray(context.TODO(), srcNullable, options1NoNullable)
+		c.ErrorIs(err, arrow.ErrType)
+		c.ErrorContains(err, "cannot cast nullable field to non-nullable field")
+
+		fieldsDest2NonNullable := []arrow.Field{
+			{Name: "a", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
+			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
+		}
+		dest2NonNullable := arrow.StructOf(fieldsDest2NonNullable...)
+		options2NoNullable := compute.SafeCastOptions(dest2NonNullable)
+		_, err = compute.CastArray(context.TODO(), srcNullable, options2NoNullable)
+		c.ErrorIs(err, arrow.ErrType)
+		c.ErrorContains(err, "cannot cast nullable field to non-nullable field")
+
+		fieldsDest3NonNullable := []arrow.Field{
+			{Name: "c", Type: arrow.PrimitiveTypes.Int64, Nullable: false},
+		}
+		dest3NonNullable := arrow.StructOf(fieldsDest3NonNullable...)
+		options3NoNullable := compute.SafeCastOptions(dest3NonNullable)
+		_, err = compute.CastArray(context.TODO(), srcNullable, options3NoNullable)
+		c.ErrorIs(err, arrow.ErrType)
+		c.ErrorContains(err, "cannot cast nullable field to non-nullable field")
+	})
+}
+
+func (c *CastSuite) smallIntArrayFromJSON(data string) arrow.Array {
+	arr, _, _ := array.FromJSON(c.mem, types.NewSmallintType(), strings.NewReader(data))
+	return arr
+}
+
+func (c *CastSuite) TestExtensionTypeToIntDowncast() {
+	smallint := types.NewSmallintType()
+	arrow.RegisterExtensionType(smallint)
+	defer arrow.UnregisterExtensionType("smallint")
+
+	c.Run("smallint(int16) to int16", func() {
+		arr := c.smallIntArrayFromJSON(`[0, 100, 200, 1, 2]`)
+		defer arr.Release()
+
+		checkCastZeroCopy(c.T(), arr, arrow.PrimitiveTypes.Int16, compute.DefaultCastOptions(true))
+
+		c.checkCast(smallint, arrow.PrimitiveTypes.Uint8,
+			`[0, 100, 200, 1, 2]`, `[0, 100, 200, 1, 2]`)
+	})
+
+	c.Run("smallint(int16) to uint8 with overflow", func() {
+		opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Uint8)
+		c.checkCastFails(smallint, `[0, null, 256, 1, 3]`, opts)
+
+		opts.AllowIntOverflow = true
+		c.checkCastOpts(smallint, arrow.PrimitiveTypes.Uint8,
+			`[0, null, 256, 1, 3]`, `[0, null, 0, 1, 3]`, *opts)
+	})
+
+	c.Run("smallint(int16) to uint8 with underflow", func() {
+		opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Uint8)
+		c.checkCastFails(smallint, `[0, null, -1, 1, 3]`, opts)
+
+		opts.AllowIntOverflow = true
+		c.checkCastOpts(smallint, arrow.PrimitiveTypes.Uint8,
+			`[0, null, -1, 1, 3]`, `[0, null, 255, 1, 3]`, *opts)
+	})
+}
+
+func (c *CastSuite) TestNoOutBitmapIfIsAllValid() {
+	a, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[1]`))
+	defer a.Release()
+
+	opts := compute.SafeCastOptions(arrow.PrimitiveTypes.Int32)
+	result, err := compute.CastArray(context.Background(), a, opts)
+	c.NoError(err)
+	c.NotNil(a.Data().Buffers()[0])
+	c.Nil(result.Data().Buffers()[0])
+}
+
+func (c *CastSuite) TestFromDictionary() {
+	ctx := compute.WithAllocator(context.Background(), c.mem)
+
+	dictionaries := []arrow.Array{}
+
+	for _, ty := range numericTypes {
+		a, _, _ := array.FromJSON(c.mem, ty, strings.NewReader(`[23, 12, 45, 12, null]`))
+		defer a.Release()
+		dictionaries = append(dictionaries, a)
+	}
+
+	for _, ty := range []arrow.DataType{arrow.BinaryTypes.String, arrow.BinaryTypes.LargeString} {
+		a, _, _ := array.FromJSON(c.mem, ty, strings.NewReader(`["foo", "bar", "baz", "foo", null]`))
+		defer a.Release()
+		dictionaries = append(dictionaries, a)
+	}
+
+	for _, d := range dictionaries {
+		for _, ty := range dictIndexTypes {
+			indices, _, _ := array.FromJSON(c.mem, ty, strings.NewReader(`[4, 0, 1, 2, 0, 4, null, 2]`))
+
+			expected, err := compute.Take(ctx, compute.TakeOptions{}, &compute.ArrayDatum{d.Data()}, &compute.ArrayDatum{indices.Data()})
+			c.Require().NoError(err)
+			exp := expected.(*compute.ArrayDatum).MakeArray()
+
+			dictArr := array.NewDictionaryArray(&arrow.DictionaryType{IndexType: ty, ValueType: d.DataType()}, indices, d)
+			checkCast(c.T(), dictArr, exp, *compute.SafeCastOptions(d.DataType()))
+
+			indices.Release()
+			expected.Release()
+			exp.Release()
+			dictArr.Release()
+			return
+		}
+	}
+}
+
+func TestCasts(t *testing.T) {
+	suite.Run(t, new(CastSuite))
+}
+
+const rngseed = 0x94378165
+
+func benchmarkNumericCast(b *testing.B, fromType, toType arrow.DataType, opts compute.CastOptions, size, min, max int64, nullprob float64) {
+	rng := gen.NewRandomArrayGenerator(rngseed, memory.DefaultAllocator)
+	arr := rng.Numeric(fromType.ID(), size, min, max, nullprob)
+	var (
+		err   error
+		out   compute.Datum
+		ctx   = context.Background()
+		input = compute.NewDatum(arr.Data())
+	)
+
+	b.Cleanup(func() {
+		arr.Release()
+		input.Release()
+	})
+
+	opts.ToType = toType
+	b.ResetTimer()
+	b.SetBytes(size * int64(fromType.(arrow.FixedWidthDataType).Bytes()))
+	for i := 0; i < b.N; i++ {
+		out, err = compute.CastDatum(ctx, input, &opts)
+		if err != nil {
+			b.Fatal(err)
+		}
+		out.Release()
+	}
+}
+
+func benchmarkFloatingToIntegerCast(b *testing.B, fromType, toType arrow.DataType, opts compute.CastOptions, size, min, max int64, nullprob float64) {
+	rng := gen.NewRandomArrayGenerator(rngseed, memory.DefaultAllocator)
+	arr := rng.Numeric(toType.ID(), size, min, max, nullprob)
+	asFloat, err := compute.CastToType(context.Background(), arr, fromType)
+	if err != nil {
+		b.Fatal(err)
+	}
+	arr.Release()
+
+	var (
+		out   compute.Datum
+		ctx   = context.Background()
+		input = compute.NewDatum(asFloat.Data())
+	)
+
+	b.Cleanup(func() {
+		asFloat.Release()
+		input.Release()
+	})
+
+	opts.ToType = toType
+	b.ResetTimer()
+	b.SetBytes(size * int64(fromType.(arrow.FixedWidthDataType).Bytes()))
+	for i := 0; i < b.N; i++ {
+		out, err = compute.CastDatum(ctx, input, &opts)
+		if err != nil {
+			b.Fatal(err)
+		}
+		out.Release()
+	}
+}
+
+func BenchmarkCasting(b *testing.B) {
+	type benchfn func(b *testing.B, fromType, toType arrow.DataType, opts compute.CastOptions, size, min, max int64, nullprob float64)
+
+	tests := []struct {
+		from, to arrow.DataType
+		min, max int64
+		safe     bool
+		fn       benchfn
+	}{
+		{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int32, math.MinInt32, math.MaxInt32, true, benchmarkNumericCast},
+		{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int32, math.MinInt32, math.MaxInt32, false, benchmarkNumericCast},
+		{arrow.PrimitiveTypes.Uint32, arrow.PrimitiveTypes.Int32, 0, math.MaxInt32, true, benchmarkNumericCast},
+		{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Float64, 0, 1000, true, benchmarkNumericCast},
+		{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Float64, 0, 1000, false, benchmarkNumericCast},
+		{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Int32, -1000, 1000, true, benchmarkFloatingToIntegerCast},
+		{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Int32, -1000, 1000, false, benchmarkFloatingToIntegerCast},
+	}
+
+	for _, tt := range tests {
+		for _, sz := range []int64{int64(CpuCacheSizes[1]) /* L2 Cache Size */} {
+			for _, nullProb := range []float64{0, 0.1, 0.5, 0.9, 1} {
+				arraySize := sz / int64(tt.from.(arrow.FixedWidthDataType).Bytes())
+				opts := compute.DefaultCastOptions(tt.safe)
+				b.Run(fmt.Sprintf("sz=%d/nullprob=%.2f/from=%s/to=%s/safe=%t", arraySize, nullProb, tt.from, tt.to, tt.safe), func(b *testing.B) {
+					tt.fn(b, tt.from, tt.to, *opts, arraySize, tt.min, tt.max, nullProb)
+				})
+			}
+		}
+	}
+}
diff --git a/go/arrow/compute/datum.go b/go/arrow/compute/datum.go
index 1a0260ff8cd..b700e41b70d 100644
--- a/go/arrow/compute/datum.go
+++ b/go/arrow/compute/datum.go
@@ -14,56 +14,45 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
+//go:build go1.18
+
 package compute
 
 import (
 	"fmt"
-	"strings"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/scalar"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
 )
 
-//go:generate go run golang.org/x/tools/cmd/stringer -type=ValueShape -linecomment
 //go:generate go run golang.org/x/tools/cmd/stringer -type=DatumKind -linecomment
 
-// ValueShape is a brief description of the shape of a value (array, scalar or otherwise)
-type ValueShape int8
-
-const (
-	// either Array or Scalar
-	ShapeAny    ValueShape = iota // any
-	ShapeArray                    // array
-	ShapeScalar                   // scalar
-)
-
-// ValueDescr is a descriptor type giving both the shape and the datatype of a value
-// but without the data.
-type ValueDescr struct {
-	Shape ValueShape
-	Type  arrow.DataType
-}
-
-func (v *ValueDescr) String() string {
-	return fmt.Sprintf("%s [%s]", v.Shape, v.Type)
-}
-
 // DatumKind is an enum used for denoting which kind of type a datum is encapsulating
 type DatumKind int
 
 const (
-	KindNone       DatumKind = iota // none
-	KindScalar                      // scalar
-	KindArray                       // array
-	KindChunked                     // chunked_array
-	KindRecord                      // record_batch
-	KindTable                       // table
-	KindCollection                  // collection
+	KindNone    DatumKind = iota // none
+	KindScalar                   // scalar
+	KindArray                    // array
+	KindChunked                  // chunked_array
+	KindRecord                   // record_batch
+	KindTable                    // table
 )
 
 const UnknownLength int64 = -1
 
+// DatumIsValue returns true if the datum passed is a Scalar, Array
+// or ChunkedArray type (e.g. it contains a specific value not a
+// group of values)
+func DatumIsValue(d Datum) bool {
+	switch d.Kind() {
+	case KindScalar, KindArray, KindChunked:
+		return true
+	}
+	return false
+}
+
 // Datum is a variant interface for wrapping the various Arrow data structures
 // for now the various Datum types just hold a Value which is the type they
 // are wrapping, but it might make sense in the future for those types
@@ -74,6 +63,8 @@ type Datum interface {
 	Len() int64
 	Equals(Datum) bool
 	Release()
+
+	data() any
 }
 
 // ArrayLikeDatum is an interface for treating a Datum similarly to an Array,
@@ -82,8 +73,6 @@ type Datum interface {
 // a slice with 1 element for Array, and the slice of chunks for a chunked array.
 type ArrayLikeDatum interface {
 	Datum
-	Shape() ValueShape
-	Descr() ValueDescr
 	NullN() int64
 	Type() arrow.DataType
 	Chunks() []arrow.Array
@@ -107,6 +96,7 @@ func (EmptyDatum) Equals(other Datum) bool {
 	_, ok := other.(EmptyDatum)
 	return ok
 }
+func (EmptyDatum) data() any { return nil }
 
 // ScalarDatum contains a scalar value
 type ScalarDatum struct {
@@ -114,16 +104,14 @@ type ScalarDatum struct {
 }
 
 func (ScalarDatum) Kind() DatumKind         { return KindScalar }
-func (ScalarDatum) Shape() ValueShape       { return ShapeScalar }
 func (ScalarDatum) Len() int64              { return 1 }
 func (ScalarDatum) Chunks() []arrow.Array   { return nil }
 func (d *ScalarDatum) Type() arrow.DataType { return d.Value.DataType() }
 func (d *ScalarDatum) String() string       { return d.Value.String() }
-func (d *ScalarDatum) Descr() ValueDescr    { return ValueDescr{ShapeScalar, d.Value.DataType()} }
 func (d *ScalarDatum) ToScalar() (scalar.Scalar, error) {
 	return d.Value, nil
 }
-
+func (d *ScalarDatum) data() any { return d.Value }
 func (d *ScalarDatum) NullN() int64 {
 	if d.Value.IsValid() {
 		return 0
@@ -155,11 +143,9 @@ type ArrayDatum struct {
 }
 
 func (ArrayDatum) Kind() DatumKind           { return KindArray }
-func (ArrayDatum) Shape() ValueShape         { return ShapeArray }
 func (d *ArrayDatum) Type() arrow.DataType   { return d.Value.DataType() }
 func (d *ArrayDatum) Len() int64             { return int64(d.Value.Len()) }
 func (d *ArrayDatum) NullN() int64           { return int64(d.Value.NullN()) }
-func (d *ArrayDatum) Descr() ValueDescr      { return ValueDescr{ShapeArray, d.Value.DataType()} }
 func (d *ArrayDatum) String() string         { return fmt.Sprintf("Array:{%s}", d.Value.DataType()) }
 func (d *ArrayDatum) MakeArray() arrow.Array { return array.MakeFromData(d.Value) }
 func (d *ArrayDatum) Chunks() []arrow.Array  { return []arrow.Array{d.MakeArray()} }
@@ -170,7 +156,7 @@ func (d *ArrayDatum) Release() {
 	d.Value.Release()
 	d.Value = nil
 }
-
+func (d *ArrayDatum) data() any { return d.Value }
 func (d *ArrayDatum) Equals(other Datum) bool {
 	rhs, ok := other.(*ArrayDatum)
 	if !ok {
@@ -191,14 +177,12 @@ type ChunkedDatum struct {
 }
 
 func (ChunkedDatum) Kind() DatumKind          { return KindChunked }
-func (ChunkedDatum) Shape() ValueShape        { return ShapeArray }
 func (d *ChunkedDatum) Type() arrow.DataType  { return d.Value.DataType() }
 func (d *ChunkedDatum) Len() int64            { return int64(d.Value.Len()) }
 func (d *ChunkedDatum) NullN() int64          { return int64(d.Value.NullN()) }
-func (d *ChunkedDatum) Descr() ValueDescr     { return ValueDescr{ShapeArray, d.Value.DataType()} }
 func (d *ChunkedDatum) String() string        { return fmt.Sprintf("Array:{%s}", d.Value.DataType()) }
 func (d *ChunkedDatum) Chunks() []arrow.Array { return d.Value.Chunks() }
-
+func (d *ChunkedDatum) data() any             { return d.Value }
 func (d *ChunkedDatum) Release() {
 	d.Value.Release()
 	d.Value = nil
@@ -221,7 +205,7 @@ func (RecordDatum) Kind() DatumKind          { return KindRecord }
 func (RecordDatum) String() string           { return "RecordBatch" }
 func (r *RecordDatum) Len() int64            { return r.Value.NumRows() }
 func (r *RecordDatum) Schema() *arrow.Schema { return r.Value.Schema() }
-
+func (r *RecordDatum) data() any             { return r.Value }
 func (r *RecordDatum) Release() {
 	r.Value.Release()
 	r.Value = nil
@@ -244,7 +228,7 @@ func (TableDatum) Kind() DatumKind          { return KindTable }
 func (TableDatum) String() string           { return "Table" }
 func (d *TableDatum) Len() int64            { return d.Value.NumRows() }
 func (d *TableDatum) Schema() *arrow.Schema { return d.Value.Schema() }
-
+func (d *TableDatum) data() any             { return d.Value }
 func (d *TableDatum) Release() {
 	d.Value.Release()
 	d.Value = nil
@@ -257,48 +241,6 @@ func (d *TableDatum) Equals(other Datum) bool {
 	return false
 }
 
-// CollectionDatum is a slice of Datums
-type CollectionDatum []Datum
-
-func (CollectionDatum) Kind() DatumKind { return KindCollection }
-func (c CollectionDatum) Len() int64    { return int64(len(c)) }
-func (c CollectionDatum) String() string {
-	var b strings.Builder
-	b.WriteString("Collection(")
-	for i, d := range c {
-		if i > 0 {
-			b.WriteString(", ")
-		}
-		b.WriteString(d.String())
-	}
-	b.WriteByte(')')
-	return b.String()
-}
-
-func (c CollectionDatum) Release() {
-	for _, v := range c {
-		v.Release()
-	}
-}
-
-func (c CollectionDatum) Equals(other Datum) bool {
-	rhs, ok := other.(CollectionDatum)
-	if !ok {
-		return false
-	}
-
-	if len(c) != len(rhs) {
-		return false
-	}
-
-	for i := range c {
-		if !c[i].Equals(rhs[i]) {
-			return false
-		}
-	}
-	return true
-}
-
 // NewDatum will construct the appropriate Datum type based on what is passed in
 // as the argument.
 //
@@ -306,7 +248,6 @@ func (c CollectionDatum) Equals(other Datum) bool {
 // An array.Chunked gets a ChunkedDatum
 // An array.Record gets a RecordDatum
 // an array.Table gets a TableDatum
-// a []Datum gets a CollectionDatum
 // a scalar.Scalar gets a ScalarDatum
 //
 // Anything else is passed to scalar.MakeScalar and recieves a scalar
@@ -314,21 +255,40 @@ func (c CollectionDatum) Equals(other Datum) bool {
 func NewDatum(value interface{}) Datum {
 	switch v := value.(type) {
 	case Datum:
-		return v
+		return NewDatum(v.data())
 	case arrow.Array:
 		v.Data().Retain()
-		return &ArrayDatum{v.Data().(*array.Data)}
-	case *arrow.Chunked:
+		return &ArrayDatum{v.Data()}
+	case scalar.Releasable:
 		v.Retain()
+		return NewDatumWithoutOwning(v)
+	case scalar.Scalar:
+		return &ScalarDatum{v}
+	default:
+		return &ScalarDatum{scalar.MakeScalar(value)}
+	}
+}
+
+// NewDatumWithoutOwning is like NewDatum only it does not call Retain on
+// the passed in value (if applicable). This means that if the resulting
+// Datum should not have Release called on it and the original value needs
+// to outlive the Datum.
+//
+// Only use this if you know what you're doing. For the most part this is
+// just a convenience function.+-
+
+func NewDatumWithoutOwning(value interface{}) Datum {
+	switch v := value.(type) {
+	case arrow.Array:
+		return &ArrayDatum{v.Data()}
+	case arrow.ArrayData:
+		return &ArrayDatum{v}
+	case *arrow.Chunked:
 		return &ChunkedDatum{v}
 	case arrow.Record:
-		v.Retain()
 		return &RecordDatum{v}
 	case arrow.Table:
-		v.Retain()
 		return &TableDatum{v}
-	case []Datum:
-		return CollectionDatum(v)
 	case scalar.Scalar:
 		return &ScalarDatum{v}
 	default:
@@ -342,5 +302,4 @@ var (
 	_ ArrayLikeDatum = (*ChunkedDatum)(nil)
 	_ TableLikeDatum = (*RecordDatum)(nil)
 	_ TableLikeDatum = (*TableDatum)(nil)
-	_ Datum          = (CollectionDatum)(nil)
 )
diff --git a/go/arrow/compute/datumkind_string.go b/go/arrow/compute/datumkind_string.go
index 56cef315ac6..3603e5e4954 100644
--- a/go/arrow/compute/datumkind_string.go
+++ b/go/arrow/compute/datumkind_string.go
@@ -1,5 +1,7 @@
 // Code generated by "stringer -type=DatumKind -linecomment"; DO NOT EDIT.
 
+//go:build go1.18
+
 package compute
 
 import "strconv"
@@ -14,12 +16,11 @@ func _() {
 	_ = x[KindChunked-3]
 	_ = x[KindRecord-4]
 	_ = x[KindTable-5]
-	_ = x[KindCollection-6]
 }
 
-const _DatumKind_name = "nonescalararraychunked_arrayrecord_batchtablecollection"
+const _DatumKind_name = "nonescalararraychunked_arrayrecord_batchtable"
 
-var _DatumKind_index = [...]uint8{0, 4, 10, 15, 28, 40, 45, 55}
+var _DatumKind_index = [...]uint8{0, 4, 10, 15, 28, 40, 45}
 
 func (i DatumKind) String() string {
 	if i < 0 || i >= DatumKind(len(_DatumKind_index)-1) {
diff --git a/go/arrow/compute/doc.go b/go/arrow/compute/doc.go
new file mode 100644
index 00000000000..53a164e61e5
--- /dev/null
+++ b/go/arrow/compute/doc.go
@@ -0,0 +1,34 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// Package compute is a native-go implementation of an Acero-like
+// arrow compute engine. It requires go1.18+
+//
+// While consumers of Arrow that are able to use CGO could utilize the
+// C Data API (using the cdata package) and could link against the
+// acero library directly, there are consumers who cannot use CGO. This
+// is an attempt to provide for those users, and in general create a
+// native-go arrow compute engine.
+//
+// The overwhemling majority of things in this package require go1.18 as
+// it utilizes generics. The files in this package and its sub-packages
+// are all excluded from being built by go versions lower than 1.18 so
+// that the larger Arrow module itself is still compatible with go1.17.
+//
+// Everything in this package should be considered Experimental for now.
+package compute
+
+//go:generate stringer -type=FuncKind -linecomment
diff --git a/go/arrow/compute/exec.go b/go/arrow/compute/exec.go
new file mode 100644
index 00000000000..2920a7c4b1b
--- /dev/null
+++ b/go/arrow/compute/exec.go
@@ -0,0 +1,199 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute
+
+import (
+	"context"
+	"fmt"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+)
+
+func haveChunkedArray(values []Datum) bool {
+	for _, v := range values {
+		if v.Kind() == KindChunked {
+			return true
+		}
+	}
+	return false
+}
+
+// ExecSpanFromBatch constructs and returns a new ExecSpan from the values
+// inside of the ExecBatch which could be scalar or arrays.
+//
+// This is mostly used for tests but is also a convenience method for other
+// cases.
+func ExecSpanFromBatch(batch *ExecBatch) *exec.ExecSpan {
+	out := &exec.ExecSpan{Len: batch.Len, Values: make([]exec.ExecValue, len(batch.Values))}
+	for i, v := range batch.Values {
+		outVal := &out.Values[i]
+		if v.Kind() == KindScalar {
+			outVal.Scalar = v.(*ScalarDatum).Value
+		} else {
+			outVal.Array.SetMembers(v.(*ArrayDatum).Value)
+			outVal.Scalar = nil
+		}
+	}
+	return out
+}
+
+// this is the primary driver of execution
+func execInternal(ctx context.Context, fn Function, opts FunctionOptions, passedLen int64, args ...Datum) (result Datum, err error) {
+	if opts == nil {
+		if err = checkOptions(fn, opts); err != nil {
+			return
+		}
+		opts = fn.DefaultOptions()
+	}
+
+	// we only allow Array, ChunkedArray, and Scalars for now.
+	// RecordBatch and Table datums are disallowed.
+	if err = checkAllIsValue(args); err != nil {
+		return
+	}
+
+	inTypes := make([]arrow.DataType, len(args))
+	for i, a := range args {
+		inTypes[i] = a.(ArrayLikeDatum).Type()
+	}
+
+	var (
+		k        exec.Kernel
+		executor kernelExecutor
+	)
+
+	switch fn.Kind() {
+	case FuncScalar:
+		executor = scalarExecPool.Get().(*scalarExecutor)
+		defer func() {
+			executor.clear()
+			scalarExecPool.Put(executor.(*scalarExecutor))
+		}()
+	case FuncVector:
+		executor = vectorExecPool.Get().(*vectorExecutor)
+		defer func() {
+			executor.clear()
+			vectorExecPool.Put(executor.(*vectorExecutor))
+		}()
+	default:
+		return nil, fmt.Errorf("%w: direct execution of %s", arrow.ErrNotImplemented, fn.Kind())
+	}
+
+	if k, err = fn.DispatchBest(inTypes...); err != nil {
+		return
+	}
+
+	var newArgs []Datum
+	// cast arguments if necessary
+	for i, arg := range args {
+		if !arrow.TypeEqual(inTypes[i], arg.(ArrayLikeDatum).Type()) {
+			if newArgs == nil {
+				newArgs = make([]Datum, len(args))
+				copy(newArgs, args)
+			}
+			newArgs[i], err = CastDatum(ctx, arg, SafeCastOptions(inTypes[i]))
+			if err != nil {
+				return nil, err
+			}
+			defer newArgs[i].Release()
+		}
+	}
+	if newArgs != nil {
+		args = newArgs
+	}
+
+	kctx := &exec.KernelCtx{Ctx: ctx, Kernel: k}
+	init := k.GetInitFn()
+	kinitArgs := exec.KernelInitArgs{Kernel: k, Inputs: inTypes, Options: opts}
+	if init != nil {
+		kctx.State, err = init(kctx, kinitArgs)
+		if err != nil {
+			return
+		}
+	}
+
+	if err = executor.Init(kctx, kinitArgs); err != nil {
+		return
+	}
+
+	input := ExecBatch{Values: args, Len: 0}
+	if input.NumValues() == 0 {
+		if passedLen != -1 {
+			input.Len = passedLen
+		}
+	} else {
+		inferred, allSame := inferBatchLength(input.Values)
+		input.Len = inferred
+		switch fn.Kind() {
+		case FuncScalar:
+			if passedLen != -1 && passedLen != inferred {
+				return nil, fmt.Errorf("%w: passed batch length for execution did not match actual length for scalar fn execution",
+					arrow.ErrInvalid)
+			}
+		case FuncVector:
+			vkernel := k.(*exec.VectorKernel)
+			if !(allSame || !vkernel.CanExecuteChunkWise) {
+				return nil, fmt.Errorf("%w: vector kernel arguments must all be the same length", arrow.ErrInvalid)
+			}
+		}
+	}
+
+	ectx := GetExecCtx(ctx)
+
+	ctx, cancel := context.WithCancel(context.Background())
+	defer cancel()
+
+	ch := make(chan Datum, ectx.ExecChannelSize)
+	go func() {
+		defer close(ch)
+		if err = executor.Execute(ctx, &input, ch); err != nil {
+			cancel()
+		}
+	}()
+
+	result = executor.WrapResults(ctx, ch, haveChunkedArray(input.Values))
+	if err == nil {
+		debug.Assert(executor.CheckResultType(result) == nil, "invalid result type")
+	}
+
+	if ctx.Err() == context.Canceled && result != nil {
+		result.Release()
+	}
+
+	return
+}
+
+// CallFunction is a one-shot invoker for all types of functions.
+//
+// It will perform kernel-dispatch, argument checking, iteration of
+// ChunkedArray inputs and wrapping of outputs.
+//
+// To affect the execution options, you must call SetExecCtx and pass
+// the resulting context in here.
+func CallFunction(ctx context.Context, funcName string, opts FunctionOptions, args ...Datum) (Datum, error) {
+	ectx := GetExecCtx(ctx)
+	fn, ok := ectx.Registry.GetFunction(funcName)
+	if !ok {
+		return nil, fmt.Errorf("%w: function '%s' not found", arrow.ErrKey, funcName)
+	}
+
+	return fn.Execute(ctx, opts, args...)
+}
diff --git a/go/arrow/compute/exec_internals_test.go b/go/arrow/compute/exec_internals_test.go
new file mode 100644
index 00000000000..88438a00aa5
--- /dev/null
+++ b/go/arrow/compute/exec_internals_test.go
@@ -0,0 +1,585 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute
+
+import (
+	"bytes"
+	"context"
+	"fmt"
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/gen"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"github.com/stretchr/testify/suite"
+)
+
+type ComputeInternalsTestSuite struct {
+	suite.Suite
+
+	mem *memory.CheckedAllocator
+
+	execCtx ExecCtx
+	ctx     *exec.KernelCtx
+	rng     gen.RandomArrayGenerator
+}
+
+func (c *ComputeInternalsTestSuite) SetupTest() {
+	c.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
+	c.rng = gen.NewRandomArrayGenerator(0, c.mem)
+
+	c.resetCtx()
+}
+
+func (c *ComputeInternalsTestSuite) TearDownTest() {
+	c.mem.AssertSize(c.T(), 0)
+}
+
+func (c *ComputeInternalsTestSuite) assertArrayEqual(expected, got arrow.Array) {
+	c.Truef(array.Equal(expected, got), "expected: %s\ngot: %s", expected, got)
+}
+
+func (c *ComputeInternalsTestSuite) assertDatumEqual(expected arrow.Array, got Datum) {
+	arr := got.(*ArrayDatum).MakeArray()
+	defer arr.Release()
+	c.Truef(array.Equal(expected, arr), "expected: %s\ngot: %s", expected, arr)
+}
+
+func (c *ComputeInternalsTestSuite) resetCtx() {
+	c.execCtx = ExecCtx{Registry: GetFunctionRegistry(),
+		ChunkSize: DefaultMaxChunkSize, PreallocContiguous: true}
+	c.ctx = &exec.KernelCtx{Ctx: SetExecCtx(context.Background(), c.execCtx)}
+}
+
+func (c *ComputeInternalsTestSuite) getBoolArr(sz int64, trueprob, nullprob float64) arrow.Array {
+	return c.rng.Boolean(sz, trueprob, nullprob)
+}
+
+func (c *ComputeInternalsTestSuite) getUint8Arr(sz int64, nullprob float64) arrow.Array {
+	return c.rng.Uint8(sz, 0, 100, nullprob)
+}
+
+func (c *ComputeInternalsTestSuite) getInt32Arr(sz int64, nullprob float64) arrow.Array {
+	return c.rng.Int32(sz, 0, 1000, nullprob)
+}
+
+func (c *ComputeInternalsTestSuite) getFloat64Arr(sz int64, nullprob float64) arrow.Array {
+	return c.rng.Float64(sz, 0, 1000, nullprob)
+}
+
+func (c *ComputeInternalsTestSuite) getInt32Chunked(szs []int64) *arrow.Chunked {
+	chunks := make([]arrow.Array, 0)
+	for i, s := range szs {
+		chunks = append(chunks, c.getInt32Arr(s, 0.1))
+		defer chunks[i].Release()
+	}
+	return arrow.NewChunked(arrow.PrimitiveTypes.Int32, chunks)
+}
+
+func (c *ComputeInternalsTestSuite) assertValidityZeroExtraBits(data []byte, length, offset int) {
+	bitExtent := ((offset + length + 7) / 8) * 8
+	for i := offset + length; i < bitExtent; i++ {
+		c.False(bitutil.BitIsSet(data, i))
+	}
+}
+
+type PropagateNullsSuite struct {
+	ComputeInternalsTestSuite
+}
+
+func (p *PropagateNullsSuite) TestUnknownNullCountWithNullsZeroCopies() {
+	const length int = 16
+	bitmap := [8]byte{254, 0, 0, 0, 0, 0, 0, 0}
+	nulls := memory.NewBufferBytes(bitmap[:])
+
+	output := array.NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nil, nil}, nil, 0, 0)
+	input := array.NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nulls, nil}, nil, array.UnknownNullCount, 0)
+
+	var outSpan exec.ArraySpan
+	outSpan.SetMembers(output)
+	batch := ExecBatch{Values: []Datum{NewDatum(input)}, Len: int64(length)}
+	p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(&batch), &outSpan))
+	p.Same(nulls, outSpan.Buffers[0].Owner)
+	p.EqualValues(array.UnknownNullCount, outSpan.Nulls)
+	p.Equal(9, int(outSpan.Len)-bitutil.CountSetBits(outSpan.Buffers[0].Buf, int(outSpan.Offset), int(outSpan.Len)))
+}
+
+func (p *PropagateNullsSuite) TestUnknownNullCountWithoutNulls() {
+	const length int = 16
+	bitmap := [8]byte{255, 255, 0, 0, 0, 0, 0, 0}
+	nulls := memory.NewBufferBytes(bitmap[:])
+
+	output := array.NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nil, nil}, nil, 0, 0)
+	input := array.NewData(arrow.FixedWidthTypes.Boolean, length, []*memory.Buffer{nulls, nil}, nil, array.UnknownNullCount, 0)
+
+	var outSpan exec.ArraySpan
+	outSpan.SetMembers(output)
+	batch := ExecBatch{Values: []Datum{NewDatum(input)}, Len: int64(length)}
+	p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(&batch), &outSpan))
+	p.EqualValues(-1, outSpan.Nulls)
+	p.Same(nulls, outSpan.Buffers[0].Owner)
+}
+
+func (p *PropagateNullsSuite) TestSetAllNulls() {
+	const length int = 16
+	checkSetAll := func(vals []Datum, prealloc bool) {
+		// fresh bitmap with all 1s
+		bitmapData := [2]byte{255, 255}
+		preallocatedMem := memory.NewBufferBytes(bitmapData[:])
+
+		output := &exec.ArraySpan{
+			Type:  arrow.FixedWidthTypes.Boolean,
+			Len:   int64(length),
+			Nulls: array.UnknownNullCount,
+		}
+
+		if prealloc {
+			output.Buffers[0].SetBuffer(preallocatedMem)
+		}
+
+		batch := &ExecBatch{Values: vals, Len: int64(length)}
+		p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(batch), output))
+
+		if prealloc {
+			// ensure that the buffer object is the same when we pass preallocated
+			// memory to it
+			p.Same(preallocatedMem, output.Buffers[0].Owner)
+		} else {
+			defer output.Buffers[0].Owner.Release()
+		}
+
+		p.NotNil(output.Buffers[0].Buf)
+		expected := [2]byte{0, 0}
+		p.True(bytes.Equal(expected[:], output.Buffers[0].Buf))
+	}
+
+	var vals []Datum
+	const trueProb float64 = 0.5
+	p.Run("Null Scalar", func() {
+		i32Val := scalar.MakeScalar(int32(3))
+		vals = []Datum{NewDatum(i32Val), NewDatum(scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean))}
+		checkSetAll(vals, true)
+		checkSetAll(vals, false)
+
+		arr := p.getBoolArr(int64(length), trueProb, 0)
+		defer arr.Release()
+		vals[0] = NewDatum(arr)
+		defer vals[0].Release()
+		checkSetAll(vals, true)
+		checkSetAll(vals, false)
+	})
+
+	p.Run("one all null", func() {
+		arrAllNulls := p.getBoolArr(int64(length), trueProb, 1)
+		defer arrAllNulls.Release()
+		arrHalf := p.getBoolArr(int64(length), trueProb, 0.5)
+		defer arrHalf.Release()
+		vals = []Datum{NewDatum(arrHalf), NewDatum(arrAllNulls)}
+		defer vals[0].Release()
+		defer vals[1].Release()
+
+		checkSetAll(vals, true)
+		checkSetAll(vals, false)
+	})
+
+	p.Run("one value is NullType", func() {
+		nullarr := array.NewNull(length)
+		arr := p.getBoolArr(int64(length), trueProb, 0)
+		defer arr.Release()
+		vals = []Datum{NewDatum(arr), NewDatum(nullarr)}
+		defer vals[0].Release()
+		checkSetAll(vals, true)
+		checkSetAll(vals, false)
+	})
+
+	p.Run("Other scenarios", func() {
+		// an all-null bitmap is zero-copied over, even though
+		// there is a null-scalar earlier in the batch
+		outSpan := &exec.ArraySpan{
+			Type: arrow.FixedWidthTypes.Boolean,
+			Len:  int64(length),
+		}
+		arrAllNulls := p.getBoolArr(int64(length), trueProb, 1)
+		defer arrAllNulls.Release()
+
+		batch := &ExecBatch{
+			Values: []Datum{
+				NewDatum(scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean)),
+				NewDatum(arrAllNulls),
+			},
+			Len: int64(length),
+		}
+		defer batch.Values[1].Release()
+
+		p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(batch), outSpan))
+		p.Same(arrAllNulls.Data().Buffers()[0], outSpan.Buffers[0].Owner)
+		outSpan.Buffers[0].Owner.Release()
+	})
+}
+
+func (p *PropagateNullsSuite) TestSingleValueWithNulls() {
+	const length int64 = 100
+	arr := p.getBoolArr(length, 0.5, 0.5)
+	defer arr.Release()
+
+	checkSliced := func(offset int64, prealloc bool, outOffset int64) {
+		// unaligned bitmap, zero copy not possible
+		sliced := array.NewSlice(arr, offset, int64(arr.Len()))
+		defer sliced.Release()
+		vals := []Datum{NewDatum(sliced)}
+		defer vals[0].Release()
+
+		output := &exec.ArraySpan{
+			Type:   arrow.FixedWidthTypes.Boolean,
+			Len:    vals[0].Len(),
+			Offset: outOffset,
+		}
+
+		batch := &ExecBatch{Values: vals, Len: vals[0].Len()}
+
+		var preallocatedBitmap *memory.Buffer
+		if prealloc {
+			preallocatedBitmap = memory.NewResizableBuffer(p.mem)
+			preallocatedBitmap.Resize(int(bitutil.BytesForBits(int64(sliced.Len()) + outOffset)))
+			defer preallocatedBitmap.Release()
+			output.Buffers[0].SetBuffer(preallocatedBitmap)
+			output.Buffers[0].SelfAlloc = true
+		} else {
+			p.EqualValues(0, output.Offset)
+		}
+
+		p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(batch), output))
+		if !prealloc {
+			parentBuf := arr.Data().Buffers()[0]
+			if offset == 0 {
+				// validity bitmap same, no slice
+				p.Same(parentBuf, output.Buffers[0].Owner)
+			} else if offset%8 == 0 {
+				// validity bitmap sliced
+				p.NotSame(parentBuf, output.Buffers[0].Owner)
+				p.Same(parentBuf, output.Buffers[0].Owner.Parent())
+				defer output.Buffers[0].Owner.Release()
+			} else {
+				// new memory for offset not 0 mod 8
+				p.NotSame(parentBuf, output.Buffers[0].Owner)
+				p.Nil(output.Buffers[0].Owner.Parent())
+				defer output.Buffers[0].Owner.Release()
+			}
+		} else {
+			// preallocated, so check that the validity bitmap is unbothered
+			p.Same(preallocatedBitmap, output.Buffers[0].Owner)
+		}
+
+		p.EqualValues(sliced.NullN(), output.UpdateNullCount())
+		p.True(bitutil.BitmapEquals(
+			sliced.NullBitmapBytes(), output.Buffers[0].Buf,
+			int64(sliced.Data().Offset()), output.Offset, output.Len))
+		p.assertValidityZeroExtraBits(output.Buffers[0].Buf, int(output.Len), int(output.Offset))
+	}
+
+	tests := []struct {
+		offset, outoffset int64
+		prealloc          bool
+	}{
+		{8, 0, false},
+		{7, 0, false},
+		{8, 0, true},
+		{7, 0, true},
+		{8, 4, true},
+		{7, 4, true},
+	}
+
+	for _, tt := range tests {
+		name := fmt.Sprintf("off=%d,prealloc=%t,outoff=%d", tt.offset, tt.prealloc, tt.outoffset)
+		p.Run(name, func() {
+			checkSliced(tt.offset, tt.prealloc, tt.outoffset)
+		})
+	}
+}
+
+func (p *PropagateNullsSuite) TestIntersectsNulls() {
+	const length = 16
+	var (
+		// 0b01111111 0b11001111
+		bitmap1 = [8]byte{127, 207, 0, 0, 0, 0, 0, 0}
+		// 0b11111110 0b01111111
+		bitmap2 = [8]byte{254, 127, 0, 0, 0, 0, 0, 0}
+		// 0b11101111 0b11111110
+		bitmap3 = [8]byte{239, 254, 0, 0, 0, 0, 0, 0}
+	)
+
+	arr1 := array.NewData(arrow.FixedWidthTypes.Boolean, length,
+		[]*memory.Buffer{memory.NewBufferBytes(bitmap1[:]), nil}, nil, array.UnknownNullCount, 0)
+	arr2 := array.NewData(arrow.FixedWidthTypes.Boolean, length,
+		[]*memory.Buffer{memory.NewBufferBytes(bitmap2[:]), nil}, nil, array.UnknownNullCount, 0)
+	arr3 := array.NewData(arrow.FixedWidthTypes.Boolean, length,
+		[]*memory.Buffer{memory.NewBufferBytes(bitmap3[:]), nil}, nil, array.UnknownNullCount, 0)
+
+	checkCase := func(vals []Datum, exNullCount int, exBitmap []byte, prealloc bool, outoffset int) {
+		batch := &ExecBatch{Values: vals, Len: length}
+
+		output := &exec.ArraySpan{Type: arrow.FixedWidthTypes.Boolean, Len: length}
+
+		var nulls *memory.Buffer
+		if prealloc {
+			// make the buffer one byte bigger so we can have non-zero offsets
+			nulls = memory.NewResizableBuffer(p.mem)
+			nulls.Resize(3)
+			defer nulls.Release()
+			output.Buffers[0].SetBuffer(nulls)
+			output.Buffers[0].SelfAlloc = true
+		} else {
+			// non-zero output offset not permitted unless output memory is preallocated
+			p.Equal(0, outoffset)
+		}
+
+		output.Offset = int64(outoffset)
+
+		p.NoError(propagateNulls(p.ctx, ExecSpanFromBatch(batch), output))
+
+		// preallocated memory used
+		if prealloc {
+			p.Same(nulls, output.Buffers[0].Owner)
+		} else {
+			defer output.Buffers[0].Owner.Release()
+		}
+
+		p.EqualValues(array.UnknownNullCount, output.Nulls)
+		p.EqualValues(exNullCount, output.UpdateNullCount())
+
+		p.True(bitutil.BitmapEquals(exBitmap, output.Buffers[0].Buf, 0, output.Offset, length))
+		p.assertValidityZeroExtraBits(output.Buffers[0].Buf, int(output.Len), int(output.Offset))
+	}
+
+	p.Run("0b01101110 0b01001110", func() {
+		// 0b01101110 0b01001110
+		expected := [2]byte{110, 78}
+		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2), NewDatum(arr3)}, 7, expected[:], false, 0)
+		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2), NewDatum(arr3)}, 7, expected[:], true, 0)
+		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2), NewDatum(arr3)}, 7, expected[:], true, 4)
+	})
+
+	p.Run("0b01111110 0b01001111", func() {
+		expected := [2]byte{126, 79}
+		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2)}, 5, expected[:], false, 0)
+		checkCase([]Datum{NewDatum(arr1), NewDatum(arr2)}, 5, expected[:], true, 4)
+	})
+}
+
+func TestComputeInternals(t *testing.T) {
+	suite.Run(t, new(PropagateNullsSuite))
+}
+
+type ExecSpanItrSuite struct {
+	ComputeInternalsTestSuite
+
+	iter spanIterator
+}
+
+func (e *ExecSpanItrSuite) setupIterator(batch *ExecBatch, maxChunk int64) {
+	var err error
+	_, e.iter, err = iterateExecSpans(batch, maxChunk, true)
+	e.NoError(err)
+}
+
+func (e *ExecSpanItrSuite) checkIteration(input *ExecBatch, chunksize int, exBatchSizes []int) {
+	e.setupIterator(input, int64(chunksize))
+	var (
+		batch  exec.ExecSpan
+		curPos int64
+		pos    int64
+		next   bool
+	)
+
+	for _, sz := range exBatchSizes {
+		batch, pos, next = e.iter()
+		e.True(next)
+		e.EqualValues(sz, batch.Len)
+
+		for j, val := range input.Values {
+			switch val := val.(type) {
+			case *ScalarDatum:
+				e.Truef(scalar.Equals(batch.Values[j].Scalar, val.Value), "expected: %s\ngot: %s", val.Value, batch.Values[j].Scalar)
+			case *ArrayDatum:
+				arr := val.MakeArray()
+				sl := array.NewSlice(arr, curPos, curPos+batch.Len)
+				got := batch.Values[j].Array.MakeArray()
+
+				e.Truef(array.Equal(sl, got), "expected: %s\ngot: %s", sl, got)
+
+				got.Release()
+				arr.Release()
+				sl.Release()
+			case *ChunkedDatum:
+				carr := val.Value
+				if batch.Len == 0 {
+					e.Zero(carr.Len())
+				} else {
+					chkd := array.NewChunkedSlice(carr, curPos, curPos+batch.Len)
+					defer chkd.Release()
+					e.Len(chkd.Chunks(), 1)
+					got := batch.Values[j].Array.MakeArray()
+					defer got.Release()
+					e.Truef(array.Equal(got, chkd.Chunk(0)), "expected: %s\ngot: %s", chkd.Chunk(0), got)
+				}
+			}
+		}
+
+		curPos += int64(sz)
+		e.EqualValues(curPos, pos)
+	}
+
+	batch, pos, next = e.iter()
+	e.Zero(batch)
+	e.False(next)
+	e.EqualValues(input.Len, pos)
+}
+
+func (e *ExecSpanItrSuite) TestBasics() {
+	const length = 100
+
+	arr1 := e.getInt32Arr(length, 0.1)
+	defer arr1.Release()
+	arr2 := e.getFloat64Arr(length, 0.1)
+	defer arr2.Release()
+
+	input := &ExecBatch{
+		Len:    length,
+		Values: []Datum{NewDatum(arr1), NewDatum(arr2), NewDatum(int32(3))},
+	}
+	defer func() {
+		for _, v := range input.Values {
+			v.Release()
+		}
+	}()
+
+	e.Run("simple", func() {
+		e.setupIterator(input, DefaultMaxChunkSize)
+
+		batch, pos, next := e.iter()
+		e.True(next)
+		e.Len(batch.Values, 3)
+		e.EqualValues(length, batch.Len)
+		e.EqualValues(length, pos)
+
+		in1 := input.Values[0].(*ArrayDatum).MakeArray()
+		defer in1.Release()
+		in2 := input.Values[1].(*ArrayDatum).MakeArray()
+		defer in2.Release()
+		out1 := batch.Values[0].Array.MakeArray()
+		defer out1.Release()
+		out2 := batch.Values[1].Array.MakeArray()
+		defer out2.Release()
+
+		e.Truef(array.Equal(in1, out1), "expected: %s\ngot: %s", in1, out1)
+		e.Truef(array.Equal(in2, out2), "expected: %s\ngot: %s", in2, out2)
+		e.True(scalar.Equals(input.Values[2].(*ScalarDatum).Value, batch.Values[2].Scalar), input.Values[2].(*ScalarDatum).Value, batch.Values[2].Scalar)
+
+		_, pos, next = e.iter()
+		e.EqualValues(length, pos)
+		e.False(next)
+	})
+
+	e.Run("iterations", func() {
+		e.checkIteration(input, 16, []int{16, 16, 16, 16, 16, 16, 4})
+	})
+}
+
+func (e *ExecSpanItrSuite) TestInputValidation() {
+	arr1 := e.getInt32Arr(10, 0.1)
+	defer arr1.Release()
+	arr2 := e.getInt32Arr(9, 0.1)
+	defer arr2.Release()
+
+	// length mismatch
+	batch := &ExecBatch{
+		Values: []Datum{&ArrayDatum{arr1.Data()}, &ArrayDatum{arr2.Data()}},
+		Len:    10,
+	}
+
+	_, _, err := iterateExecSpans(batch, DefaultMaxChunkSize, true)
+	e.ErrorIs(err, arrow.ErrInvalid)
+
+	// swap order of input
+	batch.Values = []Datum{&ArrayDatum{arr2.Data()}, &ArrayDatum{arr1.Data()}}
+
+	_, _, err = iterateExecSpans(batch, DefaultMaxChunkSize, true)
+	e.ErrorIs(err, arrow.ErrInvalid)
+
+	batch.Values = []Datum{&ArrayDatum{arr1.Data()}}
+	_, _, err = iterateExecSpans(batch, DefaultMaxChunkSize, true)
+	e.NoError(err)
+}
+
+func (e *ExecSpanItrSuite) TestChunkedArrays() {
+	arr1 := e.getInt32Chunked([]int64{0, 20, 10})
+	defer arr1.Release()
+	arr2 := e.getInt32Chunked([]int64{15, 15})
+	defer arr2.Release()
+	arr3 := e.getInt32Arr(30, 0.1)
+	defer arr3.Release()
+
+	batch := &ExecBatch{
+		Values: []Datum{
+			&ChunkedDatum{arr1}, &ChunkedDatum{arr2}, &ArrayDatum{arr3.Data()},
+			NewDatum(int32(5)), NewDatum(scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean))},
+		Len: 30,
+	}
+
+	e.checkIteration(batch, 10, []int{10, 5, 5, 10})
+	e.checkIteration(batch, 20, []int{15, 5, 10})
+	e.checkIteration(batch, 30, []int{15, 5, 10})
+}
+
+func (e *ExecSpanItrSuite) TestZeroLengthInput() {
+	carr := arrow.NewChunked(arrow.PrimitiveTypes.Int32, []arrow.Array{})
+	checkArgs := func(batch *ExecBatch) {
+		_, itr, err := iterateExecSpans(batch, DefaultMaxChunkSize, true)
+		e.NoError(err)
+		itrSpan, _, next := itr()
+
+		e.False(next)
+		e.Zero(itrSpan)
+	}
+
+	input := &ExecBatch{Len: 0}
+
+	// zero-length chunkedarray with zero chunks
+	input.Values = []Datum{&ChunkedDatum{carr}}
+	checkArgs(input)
+
+	// zero-length array
+	arr := e.getInt32Arr(0, 0.1)
+	defer arr.Release()
+	input.Values = []Datum{&ArrayDatum{arr.Data()}}
+	checkArgs(input)
+
+	// chunkedarray with single empty chunk
+	carr = e.getInt32Chunked([]int64{0})
+	input.Values = []Datum{&ChunkedDatum{carr}}
+	checkArgs(input)
+}
+
+func TestExecSpanIterator(t *testing.T) {
+	suite.Run(t, new(ExecSpanItrSuite))
+}
diff --git a/go/arrow/compute/exec_test.go b/go/arrow/compute/exec_test.go
new file mode 100644
index 00000000000..09390110699
--- /dev/null
+++ b/go/arrow/compute/exec_test.go
@@ -0,0 +1,379 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute
+
+import (
+	"strings"
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"github.com/stretchr/testify/suite"
+)
+
+func ExecCopyArray(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	debug.Assert(len(batch.Values) == 1, "wrong number of values")
+	valueSize := int64(batch.Values[0].Type().(arrow.FixedWidthDataType).BitWidth() / 8)
+
+	arg0 := batch.Values[0].Array
+	dst := out.Buffers[1].Buf[out.Offset*valueSize:]
+	src := arg0.Buffers[1].Buf[arg0.Offset*valueSize:]
+	copy(dst, src[:batch.Len*valueSize])
+	return nil
+}
+
+func ExecComputedBitmap(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	// propagate nulls not used. check that out bitmap isn't the same already
+	// as the input bitmap
+	arg0 := batch.Values[0].Array
+	if bitutil.CountSetBits(arg0.Buffers[1].Buf, int(arg0.Offset), int(batch.Len)) > 0 {
+		// check that the bitmap hasn't already been copied
+		debug.Assert(!bitutil.BitmapEquals(arg0.Buffers[0].Buf, out.Buffers[0].Buf,
+			arg0.Offset, out.Offset, batch.Len), "bitmap should not have already been copied")
+	}
+
+	bitutil.CopyBitmap(arg0.Buffers[0].Buf, int(arg0.Offset), int(batch.Len), out.Buffers[0].Buf, int(out.Offset))
+	return ExecCopyArray(ctx, batch, out)
+}
+
+func ExecNoPreallocatedData(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	// validity preallocated, not data
+	debug.Assert(out.Offset == 0, "invalid offset for non-prealloc")
+	valueSize := int64(batch.Values[0].Type().(arrow.FixedWidthDataType).BitWidth() / 8)
+	out.Buffers[1].SetBuffer(ctx.Allocate(int(out.Len * valueSize)))
+	out.Buffers[1].SelfAlloc = true
+	return ExecCopyArray(ctx, batch, out)
+}
+
+func ExecNoPreallocatedAnything(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	// neither validity nor data preallocated
+	debug.Assert(out.Offset == 0, "invalid offset for non-prealloc")
+	out.Buffers[0].SetBuffer(ctx.AllocateBitmap(out.Len))
+	out.Buffers[0].SelfAlloc = true
+	arg0 := batch.Values[0].Array
+	bitutil.CopyBitmap(arg0.Buffers[0].Buf, int(arg0.Offset), int(batch.Len), out.Buffers[0].Buf, 0)
+
+	// reuse kernel that allocates data
+	return ExecNoPreallocatedData(ctx, batch, out)
+}
+
+type ExampleOptions struct {
+	Value scalar.Scalar
+}
+
+func (e *ExampleOptions) TypeName() string { return "example" }
+
+type ExampleState struct {
+	Value scalar.Scalar
+}
+
+func InitStateful(_ *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
+	value := args.Options.(*ExampleOptions).Value
+	return &ExampleState{Value: value}, nil
+}
+
+func ExecStateful(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	state := ctx.State.(*ExampleState)
+	multiplier := state.Value.(*scalar.Int32).Value
+
+	arg0 := batch.Values[0].Array
+	arg0Data := exec.GetSpanValues[int32](&arg0, 1)
+	dst := exec.GetSpanValues[int32](out, 1)
+	for i, v := range arg0Data {
+		dst[i] = v * multiplier
+	}
+	return nil
+}
+
+func ExecAddInt32(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	left := exec.GetSpanValues[int32](&batch.Values[0].Array, 1)
+	right := exec.GetSpanValues[int32](&batch.Values[1].Array, 1)
+	outValues := exec.GetSpanValues[int32](out, 1)
+	for i := 0; i < int(batch.Len); i++ {
+		outValues[i] = left[i] + right[i]
+	}
+	return nil
+}
+
+type CallScalarFuncSuite struct {
+	ComputeInternalsTestSuite
+}
+
+func (c *CallScalarFuncSuite) addCopyFuncs() {
+	registry = GetFunctionRegistry()
+
+	fn := NewScalarFunction("test_copy", Unary(), EmptyFuncDoc)
+	types := []arrow.DataType{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float64}
+	for _, t := range types {
+		c.NoError(fn.AddNewKernel([]exec.InputType{exec.NewExactInput(t)},
+			exec.NewOutputType(t), ExecCopyArray, nil))
+	}
+	c.True(registry.AddFunction(fn, false))
+
+	// a version which doesn't want the executor to call propagatenulls
+	fn2 := NewScalarFunction("test_copy_computed_bitmap", Unary(), EmptyFuncDoc)
+	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Uint8)},
+		exec.NewOutputType(arrow.PrimitiveTypes.Uint8), ExecComputedBitmap, nil)
+	kernel.NullHandling = exec.NullComputedPrealloc
+	c.NoError(fn2.AddKernel(kernel))
+	c.True(registry.AddFunction(fn2, false))
+}
+
+func (c *CallScalarFuncSuite) addNoPreallocFuncs() {
+	registry = GetFunctionRegistry()
+
+	// a function that allocates its own output memory. we have cases
+	// for both non-preallocated data and non-preallocated bitmap
+	f1 := NewScalarFunction("test_nopre_data", Unary(), EmptyFuncDoc)
+	f2 := NewScalarFunction("test_nopre_validity_or_data", Unary(), EmptyFuncDoc)
+
+	kernel := exec.NewScalarKernel(
+		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Uint8)},
+		exec.NewOutputType(arrow.PrimitiveTypes.Uint8),
+		ExecNoPreallocatedData, nil)
+	kernel.MemAlloc = exec.MemNoPrealloc
+	c.NoError(f1.AddKernel(kernel))
+
+	kernel.ExecFn = ExecNoPreallocatedAnything
+	kernel.NullHandling = exec.NullComputedNoPrealloc
+	c.NoError(f2.AddKernel(kernel))
+
+	c.True(registry.AddFunction(f1, false))
+	c.True(registry.AddFunction(f2, false))
+}
+
+func (c *CallScalarFuncSuite) addStatefulFunc() {
+	registry := GetFunctionRegistry()
+
+	// this functions behavior depends on a static parameter that
+	// is made available to the execution through its options object
+	fn := NewScalarFunction("test_stateful", Unary(), EmptyFuncDoc)
+
+	c.NoError(fn.AddNewKernel([]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int32)},
+		exec.NewOutputType(arrow.PrimitiveTypes.Int32), ExecStateful, InitStateful))
+
+	c.True(registry.AddFunction(fn, false))
+}
+
+func (c *CallScalarFuncSuite) addScalarFunc() {
+	registry := GetFunctionRegistry()
+
+	fn := NewScalarFunction("test_scalar_add_int32", Binary(), EmptyFuncDoc)
+	c.NoError(fn.AddNewKernel([]exec.InputType{
+		exec.NewExactInput(arrow.PrimitiveTypes.Int32),
+		exec.NewExactInput(arrow.PrimitiveTypes.Int32)},
+		exec.NewOutputType(arrow.PrimitiveTypes.Int32), ExecAddInt32, nil))
+	c.True(registry.AddFunction(fn, false))
+}
+
+func (c *CallScalarFuncSuite) SetupSuite() {
+	c.addCopyFuncs()
+	c.addNoPreallocFuncs()
+	c.addStatefulFunc()
+	c.addScalarFunc()
+}
+
+func (c *CallScalarFuncSuite) TestArgumentValidation() {
+	// copy accepts only a single array arg
+	arr := c.getInt32Arr(10, 0.1)
+	defer arr.Release()
+	d1 := &ArrayDatum{Value: arr.Data()}
+
+	c.Run("too many args", func() {
+		args := []Datum{d1, d1}
+		_, err := CallFunction(c.ctx.Ctx, "test_copy", nil, args...)
+		c.ErrorIs(err, arrow.ErrInvalid)
+	})
+
+	c.Run("too few args", func() {
+		_, err := CallFunction(c.ctx.Ctx, "test_copy", nil)
+		c.ErrorIs(err, arrow.ErrInvalid)
+	})
+
+	d1Scalar := NewDatum(int32(5))
+	result, err := CallFunction(c.ctx.Ctx, "test_copy", nil, d1)
+	c.NoError(err)
+	result.Release()
+	result, err = CallFunction(c.ctx.Ctx, "test_copy", nil, d1Scalar)
+	c.NoError(err)
+	result.Release()
+}
+
+func (c *CallScalarFuncSuite) TestPreallocationCases() {
+	nullProb := float64(0.2)
+	arr := c.getUint8Arr(100, nullProb)
+	defer arr.Release()
+
+	funcNames := []string{"test_copy", "test_copy_computed_bitmap"}
+	for _, funcName := range funcNames {
+		c.Run(funcName, func() {
+			c.resetCtx()
+
+			c.Run("single output default", func() {
+				result, err := CallFunction(c.ctx.Ctx, funcName, nil, &ArrayDatum{arr.Data()})
+				c.NoError(err)
+				defer result.Release()
+				c.Equal(KindArray, result.Kind())
+				c.assertDatumEqual(arr, result)
+			})
+
+			c.Run("exec chunks", func() {
+				// set the exec_chunksize to be smaller so now we have
+				// several invocations of the kernel,
+				// but still only one output array
+				c.execCtx.ChunkSize = 80
+				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, &ArrayDatum{arr.Data()})
+				c.NoError(err)
+				defer result.Release()
+				c.Equal(KindArray, result.Kind())
+				c.assertDatumEqual(arr, result)
+			})
+
+			c.Run("not multiple 8 chunk", func() {
+				// chunksize is not a multiple of 8
+				c.execCtx.ChunkSize = 11
+				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, &ArrayDatum{arr.Data()})
+				c.NoError(err)
+				defer result.Release()
+				c.Equal(KindArray, result.Kind())
+				c.assertDatumEqual(arr, result)
+			})
+
+			c.Run("chunked", func() {
+				// input is chunked, output is one big chunk
+				chk1, chk2 := array.NewSlice(arr, 0, 10), array.NewSlice(arr, 10, int64(arr.Len()))
+				defer chk1.Release()
+				defer chk2.Release()
+				carr := arrow.NewChunked(arr.DataType(), []arrow.Array{chk1, chk2})
+				defer carr.Release()
+
+				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, &ChunkedDatum{carr})
+				c.NoError(err)
+				defer result.Release()
+				c.Equal(KindChunked, result.Kind())
+				actual := result.(*ChunkedDatum).Value
+				c.Len(actual.Chunks(), 1)
+				c.Truef(array.ChunkedEqual(actual, carr), "expected: %s\ngot: %s", carr, actual)
+			})
+
+			c.Run("independent", func() {
+				// preallocate independently for each batch
+				c.execCtx.PreallocContiguous = false
+				c.execCtx.ChunkSize = 40
+				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, &ArrayDatum{arr.Data()})
+				c.NoError(err)
+				defer result.Release()
+				c.Equal(KindChunked, result.Kind())
+
+				carr := result.(*ChunkedDatum).Value
+				c.Len(carr.Chunks(), 3)
+				sl := array.NewSlice(arr, 0, 40)
+				defer sl.Release()
+				c.assertArrayEqual(sl, carr.Chunk(0))
+				sl = array.NewSlice(arr, 40, 80)
+				defer sl.Release()
+				c.assertArrayEqual(sl, carr.Chunk(1))
+				sl = array.NewSlice(arr, 80, int64(arr.Len()))
+				defer sl.Release()
+				c.assertArrayEqual(sl, carr.Chunk(2))
+			})
+		})
+	}
+}
+
+func (c *CallScalarFuncSuite) TestBasicNonStandardCases() {
+	// test some more cases
+	//
+	// * validity bitmap computed by kernel rather than propagate nulls
+	// * data not pre-allocated
+	// * validity bitmap not pre-allocated
+
+	nullProb := float64(0.2)
+	arr := c.getUint8Arr(1000, nullProb)
+	defer arr.Release()
+	args := []Datum{&ArrayDatum{arr.Data()}}
+
+	for _, funcName := range []string{"test_nopre_data", "test_nopre_validity_or_data"} {
+		c.Run("funcName", func() {
+			c.resetCtx()
+			c.Run("single output default", func() {
+				result, err := CallFunction(c.ctx.Ctx, funcName, nil, args...)
+				c.NoError(err)
+				defer result.Release()
+				c.Equal(KindArray, result.Kind())
+				c.assertDatumEqual(arr, result)
+			})
+
+			c.Run("split into 3 chunks", func() {
+				c.execCtx.ChunkSize = 400
+				result, err := CallFunction(SetExecCtx(c.ctx.Ctx, c.execCtx), funcName, nil, args...)
+				c.NoError(err)
+				defer result.Release()
+
+				c.Equal(KindChunked, result.Kind())
+
+				carr := result.(*ChunkedDatum).Value
+				c.Len(carr.Chunks(), 3)
+				sl := array.NewSlice(arr, 0, 400)
+				defer sl.Release()
+				c.assertArrayEqual(sl, carr.Chunk(0))
+				sl = array.NewSlice(arr, 400, 800)
+				defer sl.Release()
+				c.assertArrayEqual(sl, carr.Chunk(1))
+				sl = array.NewSlice(arr, 800, int64(arr.Len()))
+				defer sl.Release()
+				c.assertArrayEqual(sl, carr.Chunk(2))
+			})
+		})
+	}
+}
+
+func (c *CallScalarFuncSuite) TestStatefulKernel() {
+	input, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[1, 2, 3, null, 5]`))
+	defer input.Release()
+
+	multiplier := scalar.MakeScalar(int32(2))
+	expected, _, _ := array.FromJSON(c.mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[2, 4, 6, null, 10]`))
+	defer expected.Release()
+
+	options := &ExampleOptions{multiplier}
+	result, err := CallFunction(c.ctx.Ctx, "test_stateful", options, &ArrayDatum{input.Data()})
+	c.NoError(err)
+	defer result.Release()
+	c.assertDatumEqual(expected, result)
+}
+
+func (c *CallScalarFuncSuite) TestScalarFunction() {
+	args := []Datum{NewDatum(int32(5)), NewDatum(int32(7))}
+	result, err := CallFunction(c.ctx.Ctx, "test_scalar_add_int32", nil, args...)
+	c.NoError(err)
+	defer result.Release()
+
+	c.Equal(KindScalar, result.Kind())
+	expected := scalar.MakeScalar(int32(12))
+	c.True(scalar.Equals(expected, result.(*ScalarDatum).Value))
+}
+
+func TestCallScalarFunctions(t *testing.T) {
+	suite.Run(t, new(CallScalarFuncSuite))
+}
diff --git a/go/arrow/compute/executor.go b/go/arrow/compute/executor.go
new file mode 100644
index 00000000000..bccb5d9ddaf
--- /dev/null
+++ b/go/arrow/compute/executor.go
@@ -0,0 +1,1104 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute
+
+import (
+	"context"
+	"fmt"
+	"math"
+	"runtime"
+	"sync"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/internal"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+)
+
+// ExecCtx holds simple contextual information for execution
+// such as the default ChunkSize for batch iteration, whether or not
+// to ensure contiguous preallocations for kernels that want preallocation,
+// and a reference to the desired function registry to use.
+//
+// An ExecCtx should be placed into a context.Context by using
+// SetExecCtx and GetExecCtx to pass it along for execution.
+type ExecCtx struct {
+	// ChunkSize is the size used when iterating batches for execution
+	// ChunkSize elements will be operated on as a time unless an argument
+	// is a chunkedarray with a chunk that is smaller
+	ChunkSize int64
+	// PreallocContiguous determines whether preallocating memory for
+	// execution of compute attempts to preallocate a full contiguous
+	// buffer for all of the chunks beforehand.
+	PreallocContiguous bool
+	// Registry allows specifying the Function Registry to utilize
+	// when searching for kernel implementations.
+	Registry FunctionRegistry
+	// ExecChannelSize is the size of the channel used for passing
+	// exec results to the WrapResults function.
+	ExecChannelSize int
+	// NumParallel determines the number of parallel goroutines
+	// allowed for parallel executions.
+	NumParallel int
+}
+
+type ctxExecKey struct{}
+
+const DefaultMaxChunkSize = math.MaxInt64
+
+var (
+	// global default ExecCtx object, initialized with the
+	// default max chunk size, contiguous preallocations, and
+	// the default function registry.
+	defaultExecCtx ExecCtx
+
+	// WithAllocator returns a new context with the provided allocator
+	// embedded into the context.
+	WithAllocator = exec.WithAllocator
+	// GetAllocator retrieves the allocator from the context, or returns
+	// memory.DefaultAllocator if there was no allocator in the provided
+	// context.
+	GetAllocator = exec.GetAllocator
+)
+
+// DefaultExecCtx returns the default exec context which will be used
+// if there is no ExecCtx set into the context for execution.
+//
+// This can be called to get a copy of the default values which can
+// then be modified to set into a context.
+//
+// The default exec context uses the following values:
+//	- ChunkSize = DefaultMaxChunkSize (MaxInt64)
+//	- PreallocContiguous = true
+// 	- Registry = GetFunctionRegistry()
+//	- ExecChannelSize = 10
+//	- NumParallel = runtime.NumCPU()
+func DefaultExecCtx() ExecCtx { return defaultExecCtx }
+
+func init() {
+	defaultExecCtx.ChunkSize = DefaultMaxChunkSize
+	defaultExecCtx.PreallocContiguous = true
+	defaultExecCtx.Registry = GetFunctionRegistry()
+	defaultExecCtx.ExecChannelSize = 10
+	// default level of parallelism
+	// set to 1 to disable parallelization
+	defaultExecCtx.NumParallel = runtime.NumCPU()
+}
+
+// SetExecCtx returns a new child context containing the passed in ExecCtx
+func SetExecCtx(ctx context.Context, e ExecCtx) context.Context {
+	return context.WithValue(ctx, ctxExecKey{}, e)
+}
+
+// GetExecCtx returns an embedded ExecCtx from the provided context.
+// If it does not contain an ExecCtx, then the default one is returned.
+func GetExecCtx(ctx context.Context) ExecCtx {
+	e, ok := ctx.Value(ctxExecKey{}).(ExecCtx)
+	if ok {
+		return e
+	}
+	return defaultExecCtx
+}
+
+// ExecBatch is a unit of work for kernel execution. It contains a collection
+// of Array and Scalar values.
+//
+// ExecBatch is semantically similar to a RecordBatch but for a SQL-style
+// execution context. It represents a collection or records, but constant
+// "columns" are represented by Scalar values rather than having to be
+// converted into arrays with repeated values.
+type ExecBatch struct {
+	Values []Datum
+	// Guarantee is a predicate Expression guaranteed to evaluate to true for
+	// all rows in this batch.
+	Guarantee Expression
+	// Len is the semantic length of this ExecBatch. When the values are
+	// all scalars, the length should be set to 1 for non-aggregate kernels.
+	// Otherwise the length is taken from the array values. Aggregate kernels
+	// can have an ExecBatch formed by projecting just the partition columns
+	// from a batch in which case it would have scalar rows with length > 1
+	//
+	// If the array values are of length 0, then the length is 0 regardless of
+	// whether any values are Scalar.
+	Len int64
+}
+
+func (e ExecBatch) NumValues() int { return len(e.Values) }
+
+// simple struct for defining how to preallocate a particular buffer.
+type bufferPrealloc struct {
+	bitWidth int
+	addLen   int
+}
+
+func allocateDataBuffer(ctx *exec.KernelCtx, length, bitWidth int) *memory.Buffer {
+	switch bitWidth {
+	case 1:
+		return ctx.AllocateBitmap(int64(length))
+	default:
+		bufsiz := int(bitutil.BytesForBits(int64(length * bitWidth)))
+		return ctx.Allocate(bufsiz)
+	}
+}
+
+func addComputeDataPrealloc(dt arrow.DataType, widths []bufferPrealloc) []bufferPrealloc {
+	if typ, ok := dt.(arrow.FixedWidthDataType); ok {
+		return append(widths, bufferPrealloc{bitWidth: typ.BitWidth()})
+	}
+
+	switch dt.ID() {
+	case arrow.BINARY, arrow.STRING, arrow.LIST, arrow.MAP:
+		return append(widths, bufferPrealloc{bitWidth: 32, addLen: 1})
+	case arrow.LARGE_BINARY, arrow.LARGE_STRING, arrow.LARGE_LIST:
+		return append(widths, bufferPrealloc{bitWidth: 64, addLen: 1})
+	}
+	return widths
+}
+
+// enum to define a generalized assumption of the nulls in the inputs
+type nullGeneralization int8
+
+const (
+	nullGenPerhapsNull nullGeneralization = iota
+	nullGenAllValid
+	nullGenAllNull
+)
+
+func getNullGen(val *exec.ExecValue) nullGeneralization {
+	dtID := val.Type().ID()
+	switch {
+	case dtID == arrow.NULL:
+		return nullGenAllNull
+	case !internal.DefaultHasValidityBitmap(dtID):
+		return nullGenAllValid
+	case val.IsScalar():
+		if val.Scalar.IsValid() {
+			return nullGenAllValid
+		}
+		return nullGenAllNull
+	default:
+		arr := val.Array
+		// do not count if they haven't been counted already
+		if arr.Nulls == 0 || arr.Buffers[0].Buf == nil {
+			return nullGenAllValid
+		}
+
+		if arr.Nulls == arr.Len {
+			return nullGenAllNull
+		}
+	}
+	return nullGenPerhapsNull
+}
+
+func getNullGenDatum(datum Datum) nullGeneralization {
+	var val exec.ExecValue
+	switch datum.Kind() {
+	case KindArray:
+		val.Array.SetMembers(datum.(*ArrayDatum).Value)
+	case KindScalar:
+		val.Scalar = datum.(*ScalarDatum).Value
+	case KindChunked:
+		return nullGenPerhapsNull
+	default:
+		debug.Assert(false, "should be array, scalar, or chunked!")
+		return nullGenPerhapsNull
+	}
+	return getNullGen(&val)
+}
+
+// populate the validity bitmaps with the intersection of the nullity
+// of the arguments. If a preallocated bitmap is not provided, then one
+// will be allocated if needed (in some cases a bitmap can be zero-copied
+// from the arguments). If any Scalar value is null, then the entire
+// validity bitmap will be set to null.
+func propagateNulls(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ArraySpan) (err error) {
+	if out.Type.ID() == arrow.NULL {
+		// null output type is a no-op (rare but it happens)
+		return
+	}
+
+	// this function is ONLY able to write into output with non-zero offset
+	// when the bitmap is preallocated.
+	if out.Offset != 0 && out.Buffers[0].Buf == nil {
+		return fmt.Errorf("%w: can only propagate nulls into pre-allocated memory when output offset is non-zero", arrow.ErrInvalid)
+	}
+
+	var (
+		arrsWithNulls = make([]*exec.ArraySpan, 0, len(batch.Values))
+		isAllNull     bool
+		prealloc      bool = out.Buffers[0].Buf != nil
+	)
+
+	for i := range batch.Values {
+		v := &batch.Values[i]
+		nullGen := getNullGen(v)
+		if nullGen == nullGenAllNull {
+			isAllNull = true
+		}
+		if nullGen != nullGenAllValid && v.IsArray() {
+			arrsWithNulls = append(arrsWithNulls, &v.Array)
+		}
+	}
+
+	outBitmap := out.Buffers[0].Buf
+	if isAllNull {
+		// an all-null value gives us a short circuit opportunity
+		// output should all be null
+		out.Nulls = out.Len
+		if prealloc {
+			bitutil.SetBitsTo(outBitmap, out.Offset, out.Len, false)
+			return
+		}
+
+		// walk all the values with nulls instead of breaking on the first
+		// in case we find a bitmap that can be reused in the non-preallocated case
+		for _, arr := range arrsWithNulls {
+			if arr.Nulls == arr.Len && arr.Buffers[0].Owner != nil {
+				buf := arr.GetBuffer(0)
+				buf.Retain()
+				out.Buffers[0].Buf = buf.Bytes()
+				out.Buffers[0].Owner = buf
+				return
+			}
+		}
+
+		buf := ctx.AllocateBitmap(int64(out.Len))
+		out.Buffers[0].Owner = buf
+		out.Buffers[0].Buf = buf.Bytes()
+		out.Buffers[0].SelfAlloc = true
+		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, false)
+		return
+	}
+
+	out.Nulls = array.UnknownNullCount
+	switch len(arrsWithNulls) {
+	case 0:
+		out.Nulls = 0
+		if prealloc {
+			bitutil.SetBitsTo(outBitmap, out.Offset, out.Len, true)
+		}
+	case 1:
+		arr := arrsWithNulls[0]
+		out.Nulls = arr.Nulls
+		if prealloc {
+			bitutil.CopyBitmap(arr.Buffers[0].Buf, int(arr.Offset), int(arr.Len), outBitmap, int(out.Offset))
+			return
+		}
+
+		switch {
+		case arr.Offset == 0:
+			out.Buffers[0] = arr.Buffers[0]
+			out.Buffers[0].Owner.Retain()
+		case arr.Offset%8 == 0:
+			buf := memory.SliceBuffer(arr.GetBuffer(0), int(arr.Offset)/8, int(bitutil.BytesForBits(arr.Len)))
+			out.Buffers[0].Buf = buf.Bytes()
+			out.Buffers[0].Owner = buf
+		default:
+			buf := ctx.AllocateBitmap(int64(out.Len))
+			out.Buffers[0].Owner = buf
+			out.Buffers[0].Buf = buf.Bytes()
+			out.Buffers[0].SelfAlloc = true
+			bitutil.CopyBitmap(arr.Buffers[0].Buf, int(arr.Offset), int(arr.Len), out.Buffers[0].Buf, 0)
+		}
+		return
+
+	default:
+		if !prealloc {
+			buf := ctx.AllocateBitmap(int64(out.Len))
+			out.Buffers[0].Owner = buf
+			out.Buffers[0].Buf = buf.Bytes()
+			out.Buffers[0].SelfAlloc = true
+			outBitmap = out.Buffers[0].Buf
+		}
+
+		acc := func(left, right *exec.ArraySpan) {
+			debug.Assert(left.Buffers[0].Buf != nil, "invalid intersection for null propagation")
+			debug.Assert(right.Buffers[0].Buf != nil, "invalid intersection for null propagation")
+			bitutil.BitmapAnd(left.Buffers[0].Buf, right.Buffers[0].Buf, left.Offset, right.Offset, outBitmap, out.Offset, out.Len)
+		}
+
+		acc(arrsWithNulls[0], arrsWithNulls[1])
+		for _, arr := range arrsWithNulls[2:] {
+			acc(out, arr)
+		}
+	}
+	return
+}
+
+func inferBatchLength(values []Datum) (length int64, allSame bool) {
+	length, allSame = -1, true
+	areAllScalar := true
+	for _, arg := range values {
+		switch arg := arg.(type) {
+		case *ArrayDatum:
+			argLength := arg.Len()
+			if length < 0 {
+				length = argLength
+			} else {
+				if length != argLength {
+					allSame = false
+					return
+				}
+			}
+			areAllScalar = false
+		case *ChunkedDatum:
+			argLength := arg.Len()
+			if length < 0 {
+				length = argLength
+			} else {
+				if length != argLength {
+					allSame = false
+					return
+				}
+			}
+			areAllScalar = false
+		}
+	}
+
+	if areAllScalar && len(values) > 0 {
+		length = 1
+	} else if length < 0 {
+		length = 0
+	}
+	allSame = true
+	return
+}
+
+// kernelExecutor is the interface for all executors to initialize and
+// call kernel execution functions on batches.
+type kernelExecutor interface {
+	// Init must be called *after* the kernel's init method and any
+	// KernelState must be set into the KernelCtx *before* calling
+	// this Init method. This is to faciliate the case where
+	// Init may be expensive and does not need to be called
+	// again for each execution of the kernel. For example,
+	// the same lookup table can be re-used for all scanned batches
+	// in a dataset filter.
+	Init(*exec.KernelCtx, exec.KernelInitArgs) error
+	// Execute the kernel for the provided batch and pass the resulting
+	// Datum values to the provided channel.
+	Execute(context.Context, *ExecBatch, chan<- Datum) error
+	// WrapResults exists for the case where an executor wants to post process
+	// the batches of result datums. Such as creating a ChunkedArray from
+	// multiple output batches or so on. Results from individual batch
+	// executions should be read from the out channel, and WrapResults should
+	// return the final Datum result.
+	WrapResults(ctx context.Context, out <-chan Datum, chunkedArgs bool) Datum
+	// CheckResultType checks the actual result type against the resolved
+	// output type. If the types don't match an error is returned
+	CheckResultType(out Datum) error
+
+	clear()
+}
+
+// the base implementation for executing non-aggregate kernels.
+type nonAggExecImpl struct {
+	ctx              *exec.KernelCtx
+	ectx             ExecCtx
+	kernel           exec.NonAggKernel
+	outType          arrow.DataType
+	numOutBuf        int
+	dataPrealloc     []bufferPrealloc
+	preallocValidity bool
+}
+
+func (e *nonAggExecImpl) clear() {
+	e.ctx, e.kernel, e.outType = nil, nil, nil
+	if e.dataPrealloc != nil {
+		e.dataPrealloc = e.dataPrealloc[:0]
+	}
+}
+
+func (e *nonAggExecImpl) Init(ctx *exec.KernelCtx, args exec.KernelInitArgs) (err error) {
+	e.ctx, e.kernel = ctx, args.Kernel.(exec.NonAggKernel)
+	e.outType, err = e.kernel.GetSig().OutType.Resolve(ctx, args.Inputs)
+	e.ectx = GetExecCtx(ctx.Ctx)
+	return
+}
+
+func (e *nonAggExecImpl) prepareOutput(length int) *exec.ExecResult {
+	var nullCount int = array.UnknownNullCount
+
+	if e.kernel.GetNullHandling() == exec.NullNoOutput {
+		nullCount = 0
+	}
+
+	output := &exec.ArraySpan{
+		Type:  e.outType,
+		Len:   int64(length),
+		Nulls: int64(nullCount),
+	}
+
+	if e.preallocValidity {
+		buf := e.ctx.AllocateBitmap(int64(length))
+		output.Buffers[0].Owner = buf
+		output.Buffers[0].Buf = buf.Bytes()
+		output.Buffers[0].SelfAlloc = true
+	}
+
+	for i, pre := range e.dataPrealloc {
+		if pre.bitWidth >= 0 {
+			buf := allocateDataBuffer(e.ctx, length+pre.addLen, pre.bitWidth)
+			output.Buffers[i+1].Owner = buf
+			output.Buffers[i+1].Buf = buf.Bytes()
+			output.Buffers[i+1].SelfAlloc = true
+		}
+	}
+
+	return output
+}
+
+func (e *nonAggExecImpl) CheckResultType(out Datum) error {
+	typ := out.(ArrayLikeDatum).Type()
+	if typ != nil && !arrow.TypeEqual(e.outType, typ) {
+		return fmt.Errorf("%w: kernel type result mismatch: declared as %s, actual is %s",
+			arrow.ErrType, e.outType, typ)
+	}
+	return nil
+}
+
+type spanIterator func() (exec.ExecSpan, int64, bool)
+
+type scalarExecutor struct {
+	nonAggExecImpl
+
+	elideValidityBitmap bool
+	preallocAllBufs     bool
+	preallocContiguous  bool
+	allScalars          bool
+	iter                spanIterator
+	iterLen             int64
+}
+
+func (s *scalarExecutor) Execute(ctx context.Context, batch *ExecBatch, data chan<- Datum) (err error) {
+	s.allScalars, s.iter, err = iterateExecSpans(batch, s.ectx.ChunkSize, true)
+	if err != nil {
+		return
+	}
+
+	s.iterLen = batch.Len
+
+	if batch.Len == 0 {
+		result := array.MakeArrayOfNull(exec.GetAllocator(s.ctx.Ctx), s.outType, 0)
+		defer result.Release()
+		out := &exec.ArraySpan{}
+		out.SetMembers(result.Data())
+		return s.emitResult(out, data)
+	}
+
+	if err = s.setupPrealloc(batch.Len, batch.Values); err != nil {
+		return
+	}
+
+	return s.executeSpans(data)
+}
+
+func (s *scalarExecutor) WrapResults(ctx context.Context, out <-chan Datum, hasChunked bool) Datum {
+	var (
+		output Datum
+		acc    []arrow.Array
+	)
+
+	toChunked := func() {
+		acc = output.(ArrayLikeDatum).Chunks()
+		output.Release()
+		output = nil
+	}
+
+	// get first output
+	select {
+	case <-ctx.Done():
+		return nil
+	case output = <-out:
+		// if the inputs contained at least one chunked array
+		// then we want to return chunked output
+		if hasChunked {
+			toChunked()
+		}
+	}
+
+	for {
+		select {
+		case <-ctx.Done():
+			// context is done, either cancelled or a timeout.
+			// either way, we end early and return what we've got so far.
+			return output
+		case o, ok := <-out:
+			if !ok { // channel closed, wrap it up
+				if output != nil {
+					return output
+				}
+
+				for _, c := range acc {
+					defer c.Release()
+				}
+
+				chkd := arrow.NewChunked(s.outType, acc)
+				defer chkd.Release()
+				return NewDatum(chkd)
+			}
+
+			// if we get multiple batches of output, then we need
+			// to return it as a chunked array.
+			if acc == nil {
+				toChunked()
+			}
+
+			defer o.Release()
+			if o.Len() == 0 { // skip any empty batches
+				continue
+			}
+
+			acc = append(acc, o.(*ArrayDatum).MakeArray())
+		}
+	}
+}
+
+func (s *scalarExecutor) executeSpans(data chan<- Datum) (err error) {
+	var (
+		input  exec.ExecSpan
+		output exec.ExecResult
+		next   bool
+	)
+
+	if s.preallocContiguous {
+		// make one big output alloc
+		prealloc := s.prepareOutput(int(s.iterLen))
+		output = *prealloc
+
+		output.Offset = 0
+		var resultOffset int64
+		var nextOffset int64
+		for err == nil {
+			if input, nextOffset, next = s.iter(); !next {
+				break
+			}
+			output.SetSlice(resultOffset, input.Len)
+			err = s.executeSingleSpan(&input, &output)
+			resultOffset = nextOffset
+		}
+		if err != nil {
+			prealloc.Release()
+			return
+		}
+
+		return s.emitResult(prealloc, data)
+	}
+
+	// fully preallocating, but not contiguously
+	// we (maybe) preallocate only for the output of processing
+	// the current chunk
+	for err == nil {
+		if input, _, next = s.iter(); !next {
+			break
+		}
+
+		output = *s.prepareOutput(int(input.Len))
+		if err = s.executeSingleSpan(&input, &output); err != nil {
+			output.Release()
+			return
+		}
+		err = s.emitResult(&output, data)
+	}
+
+	return
+}
+
+func (s *scalarExecutor) executeSingleSpan(input *exec.ExecSpan, out *exec.ExecResult) error {
+	switch {
+	case out.Type.ID() == arrow.NULL:
+		out.Nulls = out.Len
+	case s.kernel.GetNullHandling() == exec.NullIntersection:
+		if !s.elideValidityBitmap {
+			propagateNulls(s.ctx, input, out)
+		}
+	case s.kernel.GetNullHandling() == exec.NullNoOutput:
+		out.Nulls = 0
+	}
+	return s.kernel.Exec(s.ctx, input, out)
+}
+
+func (s *scalarExecutor) setupPrealloc(totalLen int64, args []Datum) error {
+	s.numOutBuf = len(s.outType.Layout().Buffers)
+	outTypeID := s.outType.ID()
+	// default to no validity pre-allocation for the following cases:
+	// - Output Array is NullArray
+	// - kernel.NullHandling is ComputeNoPrealloc or OutputNotNull
+	s.preallocValidity = false
+
+	if outTypeID != arrow.NULL {
+		switch s.kernel.GetNullHandling() {
+		case exec.NullComputedPrealloc:
+			s.preallocValidity = true
+		case exec.NullIntersection:
+			s.elideValidityBitmap = true
+			for _, a := range args {
+				nullGen := getNullGenDatum(a) == nullGenAllValid
+				s.elideValidityBitmap = s.elideValidityBitmap && nullGen
+			}
+			s.preallocValidity = !s.elideValidityBitmap
+		case exec.NullNoOutput:
+			s.elideValidityBitmap = true
+		}
+	}
+
+	if s.kernel.GetMemAlloc() == exec.MemPrealloc {
+		s.dataPrealloc = addComputeDataPrealloc(s.outType, s.dataPrealloc)
+	}
+
+	// validity bitmap either preallocated or elided, and all data buffers allocated
+	// this is basically only true for primitive types that are not dict-encoded
+	s.preallocAllBufs =
+		((s.preallocValidity || s.elideValidityBitmap) && len(s.dataPrealloc) == (s.numOutBuf-1) &&
+			!arrow.IsNested(outTypeID) && outTypeID != arrow.DICTIONARY)
+
+	// contiguous prealloc only possible on non-nested types if all
+	// buffers are preallocated. otherwise we have to go chunk by chunk
+	//
+	// some kernels are also unable to write into sliced outputs, so
+	// we respect the kernel's attributes
+	s.preallocContiguous =
+		(s.ectx.PreallocContiguous && s.kernel.CanFillSlices() &&
+			s.preallocAllBufs)
+
+	return nil
+}
+
+func (s *scalarExecutor) emitResult(resultData *exec.ArraySpan, data chan<- Datum) error {
+	var output Datum
+	if len(resultData.Buffers[0].Buf) != 0 {
+		resultData.UpdateNullCount()
+	}
+	if s.allScalars {
+		// we boxed scalar inputs as ArraySpan so now we have to unbox the output
+		arr := resultData.MakeArray()
+		defer arr.Release()
+		sc, err := scalar.GetScalar(arr, 0)
+		if err != nil {
+			return err
+		}
+		if r, ok := sc.(scalar.Releasable); ok {
+			defer r.Release()
+		}
+		output = NewDatum(sc)
+	} else {
+		d := resultData.MakeData()
+		defer d.Release()
+		output = NewDatum(d)
+	}
+	data <- output
+	return nil
+}
+
+func checkAllIsValue(vals []Datum) error {
+	for _, v := range vals {
+		if !DatumIsValue(v) {
+			return fmt.Errorf("%w: tried executing function with non-value type: %s",
+				arrow.ErrInvalid, v)
+		}
+	}
+	return nil
+}
+
+func checkIfAllScalar(batch *ExecBatch) bool {
+	for _, v := range batch.Values {
+		if v.Kind() != KindScalar {
+			return false
+		}
+	}
+	return batch.NumValues() > 0
+}
+
+// iterateExecSpans sets up and returns a function which can iterate a batch
+// according to the chunk sizes. If the inputs contain chunked arrays, then
+// we will find the min(chunk sizes, maxChunkSize) to ensure we return
+// contiguous spans to execute on.
+//
+// the iteration function returns the next span to execute on, the current
+// position in the full batch, and a boolean indicating whether or not
+// a span was actually returned (there is data to process).
+func iterateExecSpans(batch *ExecBatch, maxChunkSize int64, promoteIfAllScalar bool) (haveAllScalars bool, itr spanIterator, err error) {
+	if batch.NumValues() > 0 {
+		inferred, allArgsSame := inferBatchLength(batch.Values)
+		if inferred != batch.Len {
+			return false, nil, fmt.Errorf("%w: value lengths differed from execbatch length", arrow.ErrInvalid)
+		}
+		if !allArgsSame {
+			return false, nil, fmt.Errorf("%w: array args must all be the same length", arrow.ErrInvalid)
+		}
+	}
+
+	var (
+		args           []Datum = batch.Values
+		haveChunked    bool
+		chunkIdxes           = make([]int, len(args))
+		valuePositions       = make([]int64, len(args))
+		valueOffsets         = make([]int64, len(args))
+		pos, length    int64 = 0, batch.Len
+	)
+	haveAllScalars = checkIfAllScalar(batch)
+	maxChunkSize = exec.Min(length, maxChunkSize)
+
+	span := exec.ExecSpan{Values: make([]exec.ExecValue, len(args)), Len: 0}
+	for i, a := range args {
+		switch arg := a.(type) {
+		case *ScalarDatum:
+			span.Values[i].Scalar = arg.Value
+		case *ArrayDatum:
+			span.Values[i].Array.SetMembers(arg.Value)
+			valueOffsets[i] = int64(arg.Value.Offset())
+		case *ChunkedDatum:
+			// populate from first chunk
+			carr := arg.Value
+			if len(carr.Chunks()) > 0 {
+				arr := carr.Chunk(0).Data()
+				span.Values[i].Array.SetMembers(arr)
+				valueOffsets[i] = int64(arr.Offset())
+			} else {
+				// fill as zero len
+				exec.FillZeroLength(carr.DataType(), &span.Values[i].Array)
+			}
+			haveChunked = true
+		}
+	}
+
+	if haveAllScalars && promoteIfAllScalar {
+		exec.PromoteExecSpanScalars(span)
+	}
+
+	nextChunkSpan := func(iterSz int64, span exec.ExecSpan) int64 {
+		for i := 0; i < len(args) && iterSz > 0; i++ {
+			// if the argument is not chunked, it's either a scalar or an array
+			// in which case it doesn't influence the size of the span
+			chunkedArg, ok := args[i].(*ChunkedDatum)
+			if !ok {
+				continue
+			}
+
+			arg := chunkedArg.Value
+			if len(arg.Chunks()) == 0 {
+				iterSz = 0
+				continue
+			}
+
+			var curChunk arrow.Array
+			for {
+				curChunk = arg.Chunk(chunkIdxes[i])
+				if valuePositions[i] == int64(curChunk.Len()) {
+					// chunk is zero-length, or was exhausted in the previous
+					// iteration, move to next chunk
+					chunkIdxes[i]++
+					curChunk = arg.Chunk(chunkIdxes[i])
+					span.Values[i].Array.SetMembers(curChunk.Data())
+					valuePositions[i] = 0
+					valueOffsets[i] = int64(curChunk.Data().Offset())
+					continue
+				}
+				break
+			}
+			iterSz = exec.Min(int64(curChunk.Len())-valuePositions[i], iterSz)
+		}
+		return iterSz
+	}
+
+	return haveAllScalars, func() (exec.ExecSpan, int64, bool) {
+		if pos == length {
+			return exec.ExecSpan{}, pos, false
+		}
+
+		iterationSize := exec.Min(length-pos, maxChunkSize)
+		if haveChunked {
+			iterationSize = nextChunkSpan(iterationSize, span)
+		}
+
+		span.Len = iterationSize
+		for i, a := range args {
+			if a.Kind() != KindScalar {
+				span.Values[i].Array.SetSlice(valuePositions[i]+valueOffsets[i], iterationSize)
+				valuePositions[i] += iterationSize
+			}
+		}
+
+		pos += iterationSize
+		debug.Assert(pos <= length, "bad state for iteration exec span")
+		return span, pos, true
+	}, nil
+}
+
+var (
+	// have a pool of scalar executors to avoid excessive object creation
+	scalarExecPool = sync.Pool{
+		New: func() any { return &scalarExecutor{} },
+	}
+	vectorExecPool = sync.Pool{
+		New: func() any { return &vectorExecutor{} },
+	}
+)
+
+func checkCanExecuteChunked(k *exec.VectorKernel) error {
+	if k.ExecChunked == nil {
+		return fmt.Errorf("%w: vector kernel cannot execute chunkwise and no chunked exec function defined", arrow.ErrInvalid)
+	}
+
+	if k.NullHandling == exec.NullIntersection {
+		return fmt.Errorf("%w: null pre-propagation is unsupported for chunkedarray execution in vector kernels", arrow.ErrInvalid)
+	}
+	return nil
+}
+
+type vectorExecutor struct {
+	nonAggExecImpl
+
+	iter    spanIterator
+	results []*exec.ArraySpan
+	iterLen int64
+
+	allScalars bool
+}
+
+func (v *vectorExecutor) Execute(ctx context.Context, batch *ExecBatch, data chan<- Datum) (err error) {
+	final := v.kernel.(*exec.VectorKernel).Finalize
+	if final != nil {
+		if v.results == nil {
+			v.results = make([]*exec.ArraySpan, 0, 1)
+		} else {
+			v.results = v.results[:0]
+		}
+	}
+	// some vector kernels have a separate code path for handling chunked
+	// arrays (VectorKernel.ExecChunked) so we check for any chunked
+	// arrays. If we do and an ExecChunked function is defined
+	// then we call that.
+	hasChunked := haveChunkedArray(batch.Values)
+	v.numOutBuf = len(v.outType.Layout().Buffers)
+	v.preallocValidity = v.kernel.GetNullHandling() != exec.NullComputedNoPrealloc &&
+		v.kernel.GetNullHandling() != exec.NullNoOutput
+	if v.kernel.GetMemAlloc() == exec.MemPrealloc {
+		v.dataPrealloc = addComputeDataPrealloc(v.outType, v.dataPrealloc)
+	}
+
+	if v.kernel.(*exec.VectorKernel).CanExecuteChunkWise {
+		v.allScalars, v.iter, err = iterateExecSpans(batch, v.ectx.ChunkSize, true)
+		v.iterLen = batch.Len
+
+		var (
+			input exec.ExecSpan
+			next  bool
+		)
+		if v.iterLen == 0 {
+			input.Values = make([]exec.ExecValue, batch.NumValues())
+			for i, v := range batch.Values {
+				exec.FillZeroLength(v.(ArrayLikeDatum).Type(), &input.Values[i].Array)
+			}
+			err = v.exec(&input, data)
+		}
+		for err == nil {
+			if input, _, next = v.iter(); !next {
+				break
+			}
+			err = v.exec(&input, data)
+		}
+		if err != nil {
+			return
+		}
+	} else {
+		// kernel cannot execute chunkwise. if we have any chunked arrays,
+		// then execchunked must be defined or we raise an error
+		if hasChunked {
+			if err = v.execChunked(batch, data); err != nil {
+				return
+			}
+		} else {
+			// no chunked arrays. we pack the args into an execspan
+			// and call regular exec code path
+			span := ExecSpanFromBatch(batch)
+			if checkIfAllScalar(batch) {
+				exec.PromoteExecSpanScalars(*span)
+			}
+			if err = v.exec(span, data); err != nil {
+				return
+			}
+		}
+	}
+
+	if final != nil {
+		// intermediate results require post-processing after execution is
+		// completed (possibly involving some accumulated state)
+		output, err := final(v.ctx, v.results)
+		if err != nil {
+			return err
+		}
+
+		for _, r := range output {
+			d := r.MakeData()
+			defer d.Release()
+			data <- NewDatum(d)
+		}
+	}
+
+	return nil
+}
+
+func (v *vectorExecutor) WrapResults(ctx context.Context, out <-chan Datum, hasChunked bool) Datum {
+	// if kernel doesn't output chunked, just grab the one output and return it
+	if !v.kernel.(*exec.VectorKernel).OutputChunked {
+		select {
+		case <-ctx.Done():
+			return nil
+		case output := <-out:
+			return output
+		}
+	}
+
+	// if execution yielded multiple chunks then the result is a chunked array
+	var (
+		output Datum
+		acc    []arrow.Array
+	)
+
+	toChunked := func() {
+		out := output.(ArrayLikeDatum).Chunks()
+		acc = make([]arrow.Array, 0, len(out))
+		for _, o := range out {
+			if o.Len() > 0 {
+				acc = append(acc, o)
+			}
+		}
+		if output.Kind() != KindChunked {
+			output.Release()
+		}
+		output = nil
+	}
+
+	// get first output
+	select {
+	case <-ctx.Done():
+		return nil
+	case output = <-out:
+		// if the inputs contained at least one chunked array
+		// then we want to return chunked output
+		if hasChunked {
+			toChunked()
+		}
+	}
+
+	for {
+		select {
+		case <-ctx.Done():
+			// context is done, either cancelled or a timeout.
+			// either way, we end early and return what we've got so far.
+			return output
+		case o, ok := <-out:
+			if !ok { // channel closed, wrap it up
+				if output != nil {
+					return output
+				}
+
+				for _, c := range acc {
+					defer c.Release()
+				}
+
+				chkd := arrow.NewChunked(v.outType, acc)
+				defer chkd.Release()
+				return NewDatum(chkd)
+			}
+
+			// if we get multiple batches of output, then we need
+			// to return it as a chunked array.
+			if acc == nil {
+				toChunked()
+			}
+
+			defer o.Release()
+			if o.Len() == 0 { // skip any empty batches
+				continue
+			}
+
+			acc = append(acc, o.(*ArrayDatum).MakeArray())
+		}
+	}
+}
+
+func (v *vectorExecutor) exec(span *exec.ExecSpan, data chan<- Datum) (err error) {
+	out := v.prepareOutput(int(span.Len))
+	if v.kernel.GetNullHandling() == exec.NullIntersection {
+		if err = propagateNulls(v.ctx, span, out); err != nil {
+			return
+		}
+	}
+	if err = v.kernel.Exec(v.ctx, span, out); err != nil {
+		return
+	}
+	return v.emitResult(out, data)
+}
+
+func (v *vectorExecutor) emitResult(result *exec.ArraySpan, data chan<- Datum) (err error) {
+	if v.kernel.(*exec.VectorKernel).Finalize == nil {
+		d := result.MakeData()
+		defer d.Release()
+		data <- NewDatum(d)
+	} else {
+		v.results = append(v.results, result)
+	}
+	return nil
+}
+
+func (v *vectorExecutor) execChunked(batch *ExecBatch, out chan<- Datum) error {
+	if err := checkCanExecuteChunked(v.kernel.(*exec.VectorKernel)); err != nil {
+		return err
+	}
+
+	output := v.prepareOutput(int(batch.Len))
+	input := make([]*arrow.Chunked, len(batch.Values))
+	for i, v := range batch.Values {
+		switch val := v.(type) {
+		case *ArrayDatum:
+			chks := val.Chunks()
+			input[i] = arrow.NewChunked(val.Type(), chks)
+			chks[0].Release()
+			defer input[i].Release()
+		case *ChunkedDatum:
+			input[i] = val.Value
+		default:
+			return fmt.Errorf("%w: handling with exec chunked", arrow.ErrNotImplemented)
+		}
+	}
+	result, err := v.kernel.(*exec.VectorKernel).ExecChunked(v.ctx, input, output)
+	if err != nil {
+		return err
+	}
+
+	if len(result) == 0 {
+		empty := output.MakeArray()
+		defer empty.Release()
+		out <- &ChunkedDatum{Value: arrow.NewChunked(output.Type, []arrow.Array{empty})}
+		return nil
+	}
+
+	for _, r := range result {
+		if err := v.emitResult(r, out); err != nil {
+			return err
+		}
+	}
+	return nil
+}
diff --git a/go/arrow/compute/expression.go b/go/arrow/compute/expression.go
index 8e895fc0c21..0231dbf6e5e 100644
--- a/go/arrow/compute/expression.go
+++ b/go/arrow/compute/expression.go
@@ -14,11 +14,12 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
+//go:build go1.18
+
 package compute
 
 import (
 	"bytes"
-	"context"
 	"encoding/hex"
 	"errors"
 	"fmt"
@@ -27,12 +28,14 @@ import (
 	"strconv"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/arrow/scalar"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/kernels"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
 )
 
 var hashSeed = maphash.MakeSeed()
@@ -58,31 +61,16 @@ type Expression interface {
 	// FieldRef returns a pointer to the underlying field reference, or nil if
 	// this expression is not a field reference.
 	FieldRef() *FieldRef
-	// Descr returns the shape of this expression will evaluate to including the type
-	// and whether it will be an Array, Scalar, or either.
-	Descr() ValueDescr
 	// Type returns the datatype this expression will evaluate to.
 	Type() arrow.DataType
 
 	Hash() uint64
 	Equals(Expression) bool
 
-	// Bind binds this expression to the given input schema, looking up appropriate
-	// underlying implementations and some expression simplification may be performed
-	// along with implicit casts being inserted.
-	// Any state necessary for execution will be initialized.
-	//
-	// This only works in conjunction with cgo and being able to link against the
-	// C++ libarrow.so compute library. If this was not built with the libarrow compute
-	// support, this will panic.
-	Bind(context.Context, memory.Allocator, *arrow.Schema) (Expression, error)
-
 	// Release releases the underlying bound C++ memory that is allocated when
 	// a Bind is performed. Any bound expression should get released to ensure
 	// no memory leaks.
 	Release()
-
-	boundExpr() boundRef
 }
 
 func printDatum(datum Datum) string {
@@ -109,13 +97,10 @@ func printDatum(datum Datum) string {
 // as a scalar, an array, or so on.
 type Literal struct {
 	Literal Datum
-
-	bound boundRef
 }
 
 func (Literal) FieldRef() *FieldRef     { return nil }
 func (l *Literal) String() string       { return printDatum(l.Literal) }
-func (l *Literal) boundExpr() boundRef  { return l.bound }
 func (l *Literal) Type() arrow.DataType { return l.Literal.(ArrayLikeDatum).Type() }
 func (l *Literal) IsBound() bool        { return l.Type() != nil }
 func (l *Literal) IsScalarExpr() bool   { return l.Literal.Kind() == KindScalar }
@@ -146,14 +131,6 @@ func (l *Literal) IsSatisfiable() bool {
 	return true
 }
 
-func (l *Literal) Descr() ValueDescr {
-	if ad, ok := l.Literal.(ArrayLikeDatum); ok {
-		return ad.Descr()
-	}
-
-	return ValueDescr{ShapeAny, nil}
-}
-
 func (l *Literal) Hash() uint64 {
 	if l.IsScalarExpr() {
 		return scalar.Hash(hashSeed, l.Literal.(*ScalarDatum).Value)
@@ -161,20 +138,8 @@ func (l *Literal) Hash() uint64 {
 	return 0
 }
 
-func (l *Literal) Bind(ctx context.Context, mem memory.Allocator, schema *arrow.Schema) (Expression, error) {
-	bound, _, _, _, err := bindExprSchema(ctx, mem, l, schema)
-	if err != nil {
-		return nil, err
-	}
-
-	return &Literal{l.Literal, bound}, nil
-}
-
 func (l *Literal) Release() {
 	l.Literal.Release()
-	if l.bound != 0 {
-		l.bound.release()
-	}
 }
 
 // Parameter represents a field reference and needs to be bound in order to determine
@@ -183,20 +148,16 @@ type Parameter struct {
 	ref *FieldRef
 
 	// post bind props
-	descr ValueDescr
+	dt    arrow.DataType
 	index int
-
-	bound boundRef
 }
 
 func (Parameter) IsNullLiteral() bool     { return false }
-func (p *Parameter) boundExpr() boundRef  { return p.bound }
-func (p *Parameter) Type() arrow.DataType { return p.descr.Type }
+func (p *Parameter) Type() arrow.DataType { return p.dt }
 func (p *Parameter) IsBound() bool        { return p.Type() != nil }
 func (p *Parameter) IsScalarExpr() bool   { return p.ref != nil }
 func (p *Parameter) IsSatisfiable() bool  { return p.Type() == nil || p.Type().ID() != arrow.NULL }
 func (p *Parameter) FieldRef() *FieldRef  { return p.ref }
-func (p *Parameter) Descr() ValueDescr    { return p.descr }
 func (p *Parameter) Hash() uint64         { return p.ref.Hash(hashSeed) }
 
 func (p *Parameter) String() string {
@@ -218,25 +179,7 @@ func (p *Parameter) Equals(other Expression) bool {
 	return false
 }
 
-func (p *Parameter) Bind(ctx context.Context, mem memory.Allocator, schema *arrow.Schema) (Expression, error) {
-	bound, descr, index, _, err := bindExprSchema(ctx, mem, p, schema)
-	if err != nil {
-		return nil, err
-	}
-
-	return &Parameter{
-		ref:   p.ref,
-		index: index,
-		descr: descr,
-		bound: bound,
-	}, nil
-}
-
-func (p *Parameter) Release() {
-	if p.bound != 0 {
-		p.bound.release()
-	}
-}
+func (p *Parameter) Release() {}
 
 type comparisonType int8
 
@@ -325,18 +268,15 @@ func optionsToString(fn FunctionOptions) string {
 type Call struct {
 	funcName string
 	args     []Expression
-	descr    ValueDescr
+	dt       arrow.DataType
 	options  FunctionOptions
 
 	cachedHash uint64
-	bound      boundRef
 }
 
-func (c *Call) boundExpr() boundRef  { return c.bound }
 func (c *Call) IsNullLiteral() bool  { return false }
 func (c *Call) FieldRef() *FieldRef  { return nil }
-func (c *Call) Descr() ValueDescr    { return c.descr }
-func (c *Call) Type() arrow.DataType { return c.descr.Type }
+func (c *Call) Type() arrow.DataType { return c.dt }
 func (c *Call) IsSatisfiable() bool  { return c.Type() == nil || c.Type().ID() != arrow.NULL }
 
 func (c *Call) String() string {
@@ -388,7 +328,7 @@ func (c *Call) Hash() uint64 {
 	h.WriteString(c.funcName)
 	c.cachedHash = h.Sum64()
 	for _, arg := range c.args {
-		c.cachedHash = hashCombine(c.cachedHash, arg.Hash())
+		c.cachedHash = exec.HashCombine(c.cachedHash, arg.Hash())
 	}
 	return c.cachedHash
 }
@@ -399,15 +339,13 @@ func (c *Call) IsScalarExpr() bool {
 			return false
 		}
 	}
-	return isFuncScalar(c.funcName)
+
+	return false
+	// return isFuncScalar(c.funcName)
 }
 
 func (c *Call) IsBound() bool {
-	if c.Type() == nil {
-		return false
-	}
-
-	return c.bound != 0
+	return c.Type() != nil
 }
 
 func (c *Call) Equals(other Expression) bool {
@@ -432,14 +370,6 @@ func (c *Call) Equals(other Expression) bool {
 	return reflect.DeepEqual(c.options, rhs.options)
 }
 
-func (c *Call) Bind(ctx context.Context, mem memory.Allocator, schema *arrow.Schema) (Expression, error) {
-	_, _, _, output, err := bindExprSchema(ctx, mem, c, schema)
-	if err != nil {
-		return nil, err
-	}
-	return output, nil
-}
-
 func (c *Call) Release() {
 	for _, a := range c.args {
 		a.Release()
@@ -447,9 +377,6 @@ func (c *Call) Release() {
 	if r, ok := c.options.(releasable); ok {
 		r.Release()
 	}
-	if c.bound != 0 {
-		c.bound.release()
-	}
 }
 
 // FunctionOptions can be any type which has a TypeName function. The fields
@@ -463,6 +390,10 @@ type FunctionOptionsEqual interface {
 	Equals(FunctionOptions) bool
 }
 
+type FunctionOptionsCloneable interface {
+	Clone() FunctionOptions
+}
+
 type MakeStructOptions struct {
 	FieldNames       []string          `compute:"field_names"`
 	FieldNullability []bool            `compute:"field_nullability"`
@@ -484,36 +415,28 @@ type StrptimeOptions struct {
 
 func (StrptimeOptions) TypeName() string { return "StrptimeOptions" }
 
-type NullSelectionBehavior int8
+type NullSelectionBehavior = kernels.NullSelectionBehavior
 
 const (
-	DropNulls NullSelectionBehavior = iota
-	EmitNulls
+	SelectionEmitNulls = kernels.EmitNulls
+	SelectionDropNulls = kernels.DropNulls
 )
 
-type FilterOptions struct {
-	NullSelection NullSelectionBehavior `compute:"null_selection_behavior"`
-}
-
-func (FilterOptions) TypeName() string { return "FilterOptions" }
-
 type ArithmeticOptions struct {
-	CheckOverflow bool `compute:"check_overflow"`
+	NoCheckOverflow bool `compute:"check_overflow"`
 }
 
 func (ArithmeticOptions) TypeName() string { return "ArithmeticOptions" }
 
-type CastOptions struct {
-	ToType               arrow.DataType `compute:"to_type"`
-	AllowIntOverflow     bool           `compute:"allow_int_overflow"`
-	AllowTimeTruncate    bool           `compute:"allow_time_truncate"`
-	AllowTimeOverflow    bool           `compute:"allow_time_overflow"`
-	AllowDecimalTruncate bool           `compute:"allow_decimal_truncate"`
-	AllowFloatTruncate   bool           `compute:"allow_float_truncate"`
-	AllowInvalidUtf8     bool           `compute:"allow_invalid_utf8"`
-}
+type (
+	CastOptions   = kernels.CastOptions
+	FilterOptions = kernels.FilterOptions
+	TakeOptions   = kernels.TakeOptions
+)
+
+func DefaultFilterOptions() *FilterOptions { return &FilterOptions{} }
 
-func (CastOptions) TypeName() string { return "CastOptions" }
+func DefaultTakeOptions() *TakeOptions { return &TakeOptions{BoundsCheck: true} }
 
 func DefaultCastOptions(safe bool) *CastOptions {
 	if safe {
@@ -529,6 +452,14 @@ func DefaultCastOptions(safe bool) *CastOptions {
 	}
 }
 
+func UnsafeCastOptions(dt arrow.DataType) *CastOptions {
+	return NewCastOptions(dt, false)
+}
+
+func SafeCastOptions(dt arrow.DataType) *CastOptions {
+	return NewCastOptions(dt, true)
+}
+
 func NewCastOptions(dt arrow.DataType, safe bool) *CastOptions {
 	opts := DefaultCastOptions(safe)
 	if dt != nil {
diff --git a/go/arrow/compute/expression_test.go b/go/arrow/compute/expression_test.go
index 50c255c2d7d..6a52426eff7 100644
--- a/go/arrow/compute/expression_test.go
+++ b/go/arrow/compute/expression_test.go
@@ -15,16 +15,18 @@
 // specific language governing permissions and limitations
 // under the License.
 
+//go:build go1.18
+
 package compute_test
 
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/compute"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/arrow/scalar"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/compute"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/compute/fieldref.go b/go/arrow/compute/fieldref.go
index 23dd3102d4c..449c521ece0 100644
--- a/go/arrow/compute/fieldref.go
+++ b/go/arrow/compute/fieldref.go
@@ -27,8 +27,8 @@ import (
 	"unicode"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 var (
diff --git a/go/arrow/compute/fieldref_test.go b/go/arrow/compute/fieldref_test.go
index cfada32ca0c..d2a9ad7af44 100644
--- a/go/arrow/compute/fieldref_test.go
+++ b/go/arrow/compute/fieldref_test.go
@@ -19,10 +19,10 @@ package compute_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/compute"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/compute"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/compute/funckind_string.go b/go/arrow/compute/funckind_string.go
new file mode 100644
index 00000000000..204e844133e
--- /dev/null
+++ b/go/arrow/compute/funckind_string.go
@@ -0,0 +1,29 @@
+// Code generated by "stringer -type=FuncKind -linecomment"; DO NOT EDIT.
+
+//go:build go1.18
+
+package compute
+
+import "strconv"
+
+func _() {
+	// An "invalid array index" compiler error signifies that the constant values have changed.
+	// Re-run the stringer command to generate them again.
+	var x [1]struct{}
+	_ = x[FuncScalar-0]
+	_ = x[FuncVector-1]
+	_ = x[FuncScalarAgg-2]
+	_ = x[FuncHashAgg-3]
+	_ = x[FuncMeta-4]
+}
+
+const _FuncKind_name = "ScalarVectorScalarAggregateHashAggregateMeta"
+
+var _FuncKind_index = [...]uint8{0, 6, 12, 27, 40, 44}
+
+func (i FuncKind) String() string {
+	if i < 0 || i >= FuncKind(len(_FuncKind_index)-1) {
+		return "FuncKind(" + strconv.FormatInt(int64(i), 10) + ")"
+	}
+	return _FuncKind_name[_FuncKind_index[i]:_FuncKind_index[i+1]]
+}
diff --git a/go/arrow/compute/functions.go b/go/arrow/compute/functions.go
new file mode 100644
index 00000000000..5afd813131a
--- /dev/null
+++ b/go/arrow/compute/functions.go
@@ -0,0 +1,430 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute
+
+import (
+	"context"
+	"fmt"
+	"strings"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+)
+
+type Function interface {
+	Name() string
+	Kind() FuncKind
+	Arity() Arity
+	Doc() FunctionDoc
+	NumKernels() int
+	Execute(context.Context, FunctionOptions, ...Datum) (Datum, error)
+	DispatchExact(...arrow.DataType) (exec.Kernel, error)
+	DispatchBest(...arrow.DataType) (exec.Kernel, error)
+	DefaultOptions() FunctionOptions
+	Validate() error
+}
+
+// Arity defines the number of required arguments for a function.
+//
+// Naming conventions are taken from https://en.wikipedia.org/wiki/Arity
+type Arity struct {
+	NArgs     int
+	IsVarArgs bool
+}
+
+// Convenience functions to generating Arities
+
+func Nullary() Arity            { return Arity{0, false} }
+func Unary() Arity              { return Arity{1, false} }
+func Binary() Arity             { return Arity{2, false} }
+func Ternary() Arity            { return Arity{3, false} }
+func VarArgs(minArgs int) Arity { return Arity{minArgs, true} }
+
+type FunctionDoc struct {
+	// A one-line summary of the function, using a verb.
+	//
+	// For example, "Add two numeric arrays or scalars"
+	Summary string
+	// A detailed description of the function, meant to follow the summary.
+	Description string
+	// Symbolic names (identifiers) for the function arguments.
+	//
+	// Can be used to generate nicer function signatures.
+	ArgNames []string
+	// Name of the options struct type, if any
+	OptionsType string
+	// Whether or not options are required for function execution.
+	//
+	// If false, then either there are no options for this function,
+	// or there is a usable default options value.
+	OptionsRequired bool
+}
+
+// EmptyFuncDoc is a reusable empty function doc definition for convenience.
+var EmptyFuncDoc FunctionDoc
+
+// FuncKind is an enum representing the type of a function
+type FuncKind int8
+
+const (
+	// A function that performs scalar data operations on whole arrays
+	// of data. Can generally process Array or Scalar values. The size
+	// of the output will be the same as the size (or broadcasted size,
+	// in the case of mixing Array and Scalar inputs) of the input.
+	FuncScalar FuncKind = iota // Scalar
+	// A function with array input and output whose behavior depends on
+	// the values of the entire arrays passed, rather than the value of
+	// each scalar value.
+	FuncVector // Vector
+	// A function that computes a scalar summary statistic from array input.
+	FuncScalarAgg // ScalarAggregate
+	// A function that computes grouped summary statistics from array
+	// input and an array of group identifiers.
+	FuncHashAgg // HashAggregate
+	// A function that dispatches to other functions and does not contain
+	// its own kernels.
+	FuncMeta // Meta
+)
+
+func validateFunctionSummary(summary string) error {
+	if strings.Contains(summary, "\n") {
+		return fmt.Errorf("%w: summary contains a newline", arrow.ErrInvalid)
+	}
+	if summary[len(summary)-1] == '.' {
+		return fmt.Errorf("%w: summary ends with a point", arrow.ErrInvalid)
+	}
+	return nil
+}
+
+func validateFunctionDescription(desc string) error {
+	if len(desc) != 0 && desc[len(desc)-1] == '\n' {
+		return fmt.Errorf("%w: description ends with a newline", arrow.ErrInvalid)
+	}
+
+	const maxLineSize = 78
+	for _, ln := range strings.Split(desc, "\n") {
+		if len(ln) > maxLineSize {
+			return fmt.Errorf("%w: description line length exceeds %d characters", arrow.ErrInvalid, maxLineSize)
+		}
+	}
+	return nil
+}
+
+// baseFunction is the base class for compute functions. Function
+// implementations should embed this baseFunction and will contain
+// a collection of "kernels" which are implementations of the function
+// for specific argument types. Selecting a viable kernel for
+// executing the function is referred to as "dispatching".
+type baseFunction struct {
+	name        string
+	kind        FuncKind
+	arity       Arity
+	doc         FunctionDoc
+	defaultOpts FunctionOptions
+}
+
+func (b *baseFunction) Name() string                    { return b.name }
+func (b *baseFunction) Kind() FuncKind                  { return b.kind }
+func (b *baseFunction) Arity() Arity                    { return b.arity }
+func (b *baseFunction) Doc() FunctionDoc                { return b.doc }
+func (b *baseFunction) DefaultOptions() FunctionOptions { return b.defaultOpts }
+func (b *baseFunction) Validate() error {
+	if b.doc.Summary == "" {
+		return nil
+	}
+
+	argCount := len(b.doc.ArgNames)
+	if argCount != b.arity.NArgs && !(b.arity.IsVarArgs && argCount == b.arity.NArgs+1) {
+		return fmt.Errorf("in function '%s': number of argument names for function doc != function arity", b.name)
+	}
+
+	if err := validateFunctionSummary(b.doc.Summary); err != nil {
+		return err
+	}
+	return validateFunctionDescription(b.doc.Description)
+}
+
+func checkOptions(fn Function, opts FunctionOptions) error {
+	if opts == nil && fn.Doc().OptionsRequired {
+		return fmt.Errorf("%w: function '%s' cannot be called without options", arrow.ErrInvalid, fn.Name())
+	}
+	return nil
+}
+
+func (b *baseFunction) checkArity(nargs int) error {
+	switch {
+	case b.arity.IsVarArgs && nargs < b.arity.NArgs:
+		return fmt.Errorf("%w: varargs function '%s' needs at least %d arguments, but only %d passed",
+			arrow.ErrInvalid, b.name, b.arity.NArgs, nargs)
+	case !b.arity.IsVarArgs && nargs != b.arity.NArgs:
+		return fmt.Errorf("%w: function '%s' accepts %d arguments but %d passed",
+			arrow.ErrInvalid, b.name, b.arity.NArgs, nargs)
+	}
+	return nil
+}
+
+// kernelType is a type contstraint interface that is used for funcImpl
+// generic definitions. It will be extended as other kernel types
+// are defined.
+//
+// Currently only ScalarKernels are allowed to be used.
+type kernelType interface {
+	exec.ScalarKernel | exec.VectorKernel
+
+	// specifying the Kernel interface here allows us to utilize
+	// the methods of the Kernel interface on the generic
+	// constrained type
+	exec.Kernel
+}
+
+// funcImpl is the basic implementation for any functions that use kernels
+// i.e. all except for Meta functions.
+type funcImpl[KT kernelType] struct {
+	baseFunction
+
+	kernels []KT
+}
+
+func (fi *funcImpl[KT]) DispatchExact(vals ...arrow.DataType) (*KT, error) {
+	if err := fi.checkArity(len(vals)); err != nil {
+		return nil, err
+	}
+
+	for i := range fi.kernels {
+		if fi.kernels[i].GetSig().MatchesInputs(vals) {
+			return &fi.kernels[i], nil
+		}
+	}
+
+	return nil, fmt.Errorf("%w: function '%s' has no kernel matching input types %s",
+		arrow.ErrNotImplemented, fi.name, arrow.TypesToString(vals))
+}
+
+func (fi *funcImpl[KT]) NumKernels() int { return len(fi.kernels) }
+func (fi *funcImpl[KT]) Kernels() []*KT {
+	res := make([]*KT, len(fi.kernels))
+	for i := range fi.kernels {
+		res[i] = &fi.kernels[i]
+	}
+	return res
+}
+
+// A ScalarFunction is a function that executes element-wise operations
+// on arrays or scalars, and therefore whose results generally do not
+// depent on the order of the values in the arguments. Accepts and returns
+// arrays that are all of the same size. These functions roughly correspond
+// to the functions used in most SQL expressions.
+type ScalarFunction struct {
+	funcImpl[exec.ScalarKernel]
+}
+
+// NewScalarFunction constructs a new ScalarFunction object with the passed in
+// name, arity and function doc.
+func NewScalarFunction(name string, arity Arity, doc FunctionDoc) *ScalarFunction {
+	return &ScalarFunction{
+		funcImpl: funcImpl[exec.ScalarKernel]{
+			baseFunction: baseFunction{
+				name:  name,
+				arity: arity,
+				doc:   doc,
+				kind:  FuncScalar,
+			},
+		},
+	}
+}
+
+func (s *ScalarFunction) SetDefaultOptions(opts FunctionOptions) {
+	s.defaultOpts = opts
+}
+
+func (s *ScalarFunction) DispatchExact(vals ...arrow.DataType) (exec.Kernel, error) {
+	return s.funcImpl.DispatchExact(vals...)
+}
+
+func (s *ScalarFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
+	return s.DispatchExact(vals...)
+}
+
+// AddNewKernel constructs a new kernel with the provided signature
+// and execution/init functions and then adds it to the function's list of
+// kernels. This assumes default null handling (intersection of validity bitmaps)
+func (s *ScalarFunction) AddNewKernel(inTypes []exec.InputType, outType exec.OutputType, execFn exec.ArrayKernelExec, init exec.KernelInitFn) error {
+	if err := s.checkArity(len(inTypes)); err != nil {
+		return err
+	}
+
+	if s.arity.IsVarArgs && len(inTypes) != 1 {
+		return fmt.Errorf("%w: varargs signatures must have exactly one input type", arrow.ErrInvalid)
+	}
+
+	sig := &exec.KernelSignature{
+		InputTypes: inTypes,
+		OutType:    outType,
+		IsVarArgs:  s.arity.IsVarArgs,
+	}
+
+	s.kernels = append(s.kernels, exec.NewScalarKernelWithSig(sig, execFn, init))
+	return nil
+}
+
+// AddKernel adds the provided kernel to the list of kernels
+// this function has. A copy of the kernel is added to the slice of kernels,
+// which means that a given kernel object can be created, added and then
+// reused to add other kernels.
+func (s *ScalarFunction) AddKernel(k exec.ScalarKernel) error {
+	if err := s.checkArity(len(k.Signature.InputTypes)); err != nil {
+		return err
+	}
+
+	if s.arity.IsVarArgs && !k.Signature.IsVarArgs {
+		return fmt.Errorf("%w: function accepts varargs but kernel signature does not", arrow.ErrInvalid)
+	}
+
+	s.kernels = append(s.kernels, k)
+	return nil
+}
+
+// Execute uses the passed in context, function options and arguments to eagerly
+// execute the function using kernel dispatch, batch iteration and memory
+// allocation details as defined by the kernel.
+//
+// If opts is nil, then the DefaultOptions() will be used.
+func (s *ScalarFunction) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
+	return execInternal(ctx, s, opts, -1, args...)
+}
+
+type VectorFunction struct {
+	funcImpl[exec.VectorKernel]
+}
+
+func NewVectorFunction(name string, arity Arity, doc FunctionDoc) *VectorFunction {
+	return &VectorFunction{
+		funcImpl: funcImpl[exec.VectorKernel]{
+			baseFunction: baseFunction{
+				name:  name,
+				arity: arity,
+				doc:   doc,
+				kind:  FuncVector,
+			},
+		},
+	}
+}
+
+func (f *VectorFunction) SetDefaultOptions(opts FunctionOptions) {
+	f.defaultOpts = opts
+}
+
+func (f *VectorFunction) DispatchExact(vals ...arrow.DataType) (exec.Kernel, error) {
+	return f.funcImpl.DispatchExact(vals...)
+}
+
+func (f *VectorFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
+	return f.DispatchExact(vals...)
+}
+
+func (f *VectorFunction) AddNewKernel(inTypes []exec.InputType, outType exec.OutputType, execFn exec.ArrayKernelExec, init exec.KernelInitFn) error {
+	if err := f.checkArity(len(inTypes)); err != nil {
+		return err
+	}
+
+	if f.arity.IsVarArgs && len(inTypes) != 1 {
+		return fmt.Errorf("%w: varags signatures must have exactly one input type", arrow.ErrInvalid)
+	}
+
+	sig := &exec.KernelSignature{
+		InputTypes: inTypes,
+		OutType:    outType,
+		IsVarArgs:  f.arity.IsVarArgs,
+	}
+	f.kernels = append(f.kernels, exec.NewVectorKernelWithSig(sig, execFn, init))
+	return nil
+}
+
+func (f *VectorFunction) AddKernel(kernel exec.VectorKernel) error {
+	if err := f.checkArity(len(kernel.Signature.InputTypes)); err != nil {
+		return err
+	}
+
+	if f.arity.IsVarArgs && !kernel.Signature.IsVarArgs {
+		return fmt.Errorf("%w: function accepts varargs but kernel signature does not", arrow.ErrInvalid)
+	}
+	f.kernels = append(f.kernels, kernel)
+	return nil
+}
+
+func (f *VectorFunction) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
+	return execInternal(ctx, f, opts, -1, args...)
+}
+
+// MetaFunctionImpl is the signature needed for implementing a MetaFunction
+// which is a function that dispatches to another function instead.
+type MetaFunctionImpl func(context.Context, FunctionOptions, ...Datum) (Datum, error)
+
+// MetaFunction is a function which dispatches to other functions, the impl
+// must not be nil.
+//
+// For Array, ChunkedArray and Scalar datums, this may rely on the execution
+// of concrete function types, but this must handle other Datum kinds on its
+// own.
+type MetaFunction struct {
+	baseFunction
+	impl MetaFunctionImpl
+}
+
+// NewMetaFunction constructs a new MetaFunction which will call the provided
+// impl for dispatching with the expected arity.
+//
+// Will panic if impl is nil.
+func NewMetaFunction(name string, arity Arity, doc FunctionDoc, impl MetaFunctionImpl) *MetaFunction {
+	if impl == nil {
+		panic("arrow/compute: cannot construct MetaFunction with nil impl")
+	}
+	return &MetaFunction{
+		baseFunction: baseFunction{
+			name:  name,
+			arity: arity,
+			doc:   doc,
+		},
+		impl: impl,
+	}
+}
+
+func (MetaFunction) NumKernels() int { return 0 }
+func (m *MetaFunction) DispatchExact(...arrow.DataType) (exec.Kernel, error) {
+	return nil, fmt.Errorf("%w: dispatch for metafunction", arrow.ErrNotImplemented)
+}
+
+func (m *MetaFunction) DispatchBest(...arrow.DataType) (exec.Kernel, error) {
+	return nil, fmt.Errorf("%w: dispatch for metafunction", arrow.ErrNotImplemented)
+}
+
+func (m *MetaFunction) Execute(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
+	if err := m.checkArity(len(args)); err != nil {
+		return nil, err
+	}
+	if err := checkOptions(m, opts); err != nil {
+		return nil, err
+	}
+
+	if opts == nil {
+		opts = m.defaultOpts
+	}
+
+	return m.impl(ctx, opts, args...)
+}
diff --git a/go/arrow/compute/functions_test.go b/go/arrow/compute/functions_test.go
new file mode 100644
index 00000000000..0fb769bd360
--- /dev/null
+++ b/go/arrow/compute/functions_test.go
@@ -0,0 +1,69 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute_test
+
+import (
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/compute"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
+)
+
+func TestArityBasics(t *testing.T) {
+	nullary := compute.Nullary()
+	assert.Equal(t, 0, nullary.NArgs)
+	assert.False(t, nullary.IsVarArgs)
+
+	unary := compute.Unary()
+	assert.Equal(t, 1, unary.NArgs)
+	assert.False(t, unary.IsVarArgs)
+
+	binary := compute.Binary()
+	assert.Equal(t, 2, binary.NArgs)
+	assert.False(t, binary.IsVarArgs)
+
+	ternary := compute.Ternary()
+	assert.Equal(t, 3, ternary.NArgs)
+	assert.False(t, ternary.IsVarArgs)
+
+	varargs := compute.VarArgs(2)
+	assert.Equal(t, 2, varargs.NArgs)
+	assert.True(t, varargs.IsVarArgs)
+}
+
+func CheckDispatchBest(t *testing.T, funcName string, originalTypes, expected []arrow.DataType) {
+	fn, exists := compute.GetFunctionRegistry().GetFunction(funcName)
+	require.True(t, exists)
+
+	vals := make([]arrow.DataType, len(originalTypes))
+	copy(vals, originalTypes)
+
+	actualKernel, err := fn.DispatchBest(vals...)
+	require.NoError(t, err)
+	expKernel, err := fn.DispatchExact(expected...)
+	require.NoError(t, err)
+
+	assert.Same(t, expKernel, actualKernel)
+	assert.Equal(t, len(expected), len(vals))
+	for i, v := range vals {
+		assert.True(t, arrow.TypeEqual(v, expected[i]), v.String(), expected[i].String())
+	}
+}
diff --git a/go/arrow/compute/hash_util.go b/go/arrow/compute/internal/exec/hash_util.go
similarity index 93%
rename from go/arrow/compute/hash_util.go
rename to go/arrow/compute/internal/exec/hash_util.go
index d0ecca5bc43..0c8f7df5a32 100644
--- a/go/arrow/compute/hash_util.go
+++ b/go/arrow/compute/internal/exec/hash_util.go
@@ -14,11 +14,11 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
-package compute
+package exec
 
 // ADAPTED FROM HASH UTILITIES FOR BOOST
 
-func hashCombine(seed, value uint64) uint64 {
+func HashCombine(seed, value uint64) uint64 {
 	seed ^= value + 0x9e3779b9 + (seed << 6) + (seed >> 2)
 	return seed
 }
diff --git a/go/arrow/compute/internal/exec/kernel.go b/go/arrow/compute/internal/exec/kernel.go
new file mode 100644
index 00000000000..bc19808b7d6
--- /dev/null
+++ b/go/arrow/compute/internal/exec/kernel.go
@@ -0,0 +1,661 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package exec
+
+import (
+	"context"
+	"fmt"
+	"hash/maphash"
+	"strings"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"golang.org/x/exp/slices"
+)
+
+var hashSeed = maphash.MakeSeed()
+
+type ctxAllocKey struct{}
+
+// WithAllocator returns a new context with the provided allocator
+// embedded into the context.
+func WithAllocator(ctx context.Context, mem memory.Allocator) context.Context {
+	return context.WithValue(ctx, ctxAllocKey{}, mem)
+}
+
+// GetAllocator retrieves the allocator from the context, or returns
+// memory.DefaultAllocator if there was no allocator in the provided
+// context.
+func GetAllocator(ctx context.Context) memory.Allocator {
+	mem, ok := ctx.Value(ctxAllocKey{}).(memory.Allocator)
+	if !ok {
+		return memory.DefaultAllocator
+	}
+	return mem
+}
+
+// Kernel defines the minimum interface required for the basic execution
+// kernel. It will grow as the implementation requires.
+type Kernel interface {
+	GetInitFn() KernelInitFn
+	GetSig() *KernelSignature
+}
+
+// NonAggKernel builds on the base Kernel interface for
+// non aggregate execution kernels. Specifically this will
+// represent Scalar and Vector kernels.
+type NonAggKernel interface {
+	Kernel
+	Exec(*KernelCtx, *ExecSpan, *ExecResult) error
+	GetNullHandling() NullHandling
+	GetMemAlloc() MemAlloc
+	CanFillSlices() bool
+}
+
+// KernelCtx is a small struct holding the context for a kernel execution
+// consisting of a pointer to the kernel, initialized state (if needed)
+// and the context for this execution.
+type KernelCtx struct {
+	Ctx    context.Context
+	Kernel Kernel
+	State  KernelState
+}
+
+func (k *KernelCtx) Allocate(bufsize int) *memory.Buffer {
+	buf := memory.NewResizableBuffer(GetAllocator(k.Ctx))
+	buf.Resize(bufsize)
+	return buf
+}
+
+func (k *KernelCtx) AllocateBitmap(nbits int64) *memory.Buffer {
+	nbytes := bitutil.BytesForBits(nbits)
+	return k.Allocate(int(nbytes))
+}
+
+// TypeMatcher define an interface for matching Input or Output types
+// for execution kernels. There are multiple implementations of this
+// interface provided by this package.
+type TypeMatcher interface {
+	fmt.Stringer
+	Matches(typ arrow.DataType) bool
+	Equals(other TypeMatcher) bool
+}
+
+type sameTypeIDMatcher struct {
+	accepted arrow.Type
+}
+
+func (s sameTypeIDMatcher) Matches(typ arrow.DataType) bool { return s.accepted == typ.ID() }
+func (s sameTypeIDMatcher) Equals(other TypeMatcher) bool {
+	if s == other {
+		return true
+	}
+
+	o, ok := other.(*sameTypeIDMatcher)
+	if !ok {
+		return false
+	}
+
+	return s.accepted == o.accepted
+}
+
+func (s sameTypeIDMatcher) String() string {
+	return "Type::" + s.accepted.String()
+}
+
+// SameTypeID returns a type matcher which will match
+// any DataType that uses the same arrow.Type ID as the one
+// passed in here.
+func SameTypeID(id arrow.Type) TypeMatcher { return &sameTypeIDMatcher{id} }
+
+type timeUnitMatcher struct {
+	id   arrow.Type
+	unit arrow.TimeUnit
+}
+
+func (s timeUnitMatcher) Matches(typ arrow.DataType) bool {
+	if typ.ID() != s.id {
+		return false
+	}
+	return s.unit == typ.(arrow.TemporalWithUnit).TimeUnit()
+}
+
+func (s timeUnitMatcher) String() string {
+	return strings.ToLower(s.id.String()) + "(" + s.unit.String() + ")"
+}
+
+func (s *timeUnitMatcher) Equals(other TypeMatcher) bool {
+	if s == other {
+		return true
+	}
+
+	o, ok := other.(*timeUnitMatcher)
+	if !ok {
+		return false
+	}
+	return o.id == s.id && o.unit == s.unit
+}
+
+// TimestampTypeUnit returns a TypeMatcher that will match only
+// a Timestamp datatype with the specified TimeUnit.
+func TimestampTypeUnit(unit arrow.TimeUnit) TypeMatcher {
+	return &timeUnitMatcher{arrow.TIMESTAMP, unit}
+}
+
+// Time32TypeUnit returns a TypeMatcher that will match only
+// a Time32 datatype with the specified TimeUnit.
+func Time32TypeUnit(unit arrow.TimeUnit) TypeMatcher {
+	return &timeUnitMatcher{arrow.TIME32, unit}
+}
+
+// Time64TypeUnit returns a TypeMatcher that will match only
+// a Time64 datatype with the specified TimeUnit.
+func Time64TypeUnit(unit arrow.TimeUnit) TypeMatcher {
+	return &timeUnitMatcher{arrow.TIME64, unit}
+}
+
+// DurationTypeUnit returns a TypeMatcher that will match only
+// a Duration datatype with the specified TimeUnit.
+func DurationTypeUnit(unit arrow.TimeUnit) TypeMatcher {
+	return &timeUnitMatcher{arrow.DURATION, unit}
+}
+
+type integerMatcher struct{}
+
+func (integerMatcher) String() string                  { return "integer" }
+func (integerMatcher) Matches(typ arrow.DataType) bool { return arrow.IsInteger(typ.ID()) }
+func (integerMatcher) Equals(other TypeMatcher) bool {
+	_, ok := other.(integerMatcher)
+	return ok
+}
+
+type binaryLikeMatcher struct{}
+
+func (binaryLikeMatcher) String() string                  { return "binary-like" }
+func (binaryLikeMatcher) Matches(typ arrow.DataType) bool { return arrow.IsBinaryLike(typ.ID()) }
+func (binaryLikeMatcher) Equals(other TypeMatcher) bool {
+	_, ok := other.(binaryLikeMatcher)
+	return ok
+}
+
+type largeBinaryLikeMatcher struct{}
+
+func (largeBinaryLikeMatcher) String() string { return "large-binary-like" }
+func (largeBinaryLikeMatcher) Matches(typ arrow.DataType) bool {
+	return arrow.IsLargeBinaryLike(typ.ID())
+}
+func (largeBinaryLikeMatcher) Equals(other TypeMatcher) bool {
+	_, ok := other.(largeBinaryLikeMatcher)
+	return ok
+}
+
+type fsbLikeMatcher struct{}
+
+func (fsbLikeMatcher) String() string                  { return "fixed-size-binary-like" }
+func (fsbLikeMatcher) Matches(typ arrow.DataType) bool { return arrow.IsFixedSizeBinary(typ.ID()) }
+func (fsbLikeMatcher) Equals(other TypeMatcher) bool {
+	_, ok := other.(fsbLikeMatcher)
+	return ok
+}
+
+// Integer returns a TypeMatcher which will match any integral type like int8 or uint16
+func Integer() TypeMatcher { return integerMatcher{} }
+
+// BinaryLike returns a TypeMatcher that will match Binary or String
+func BinaryLike() TypeMatcher { return binaryLikeMatcher{} }
+
+// LargeBinaryLike returns a TypeMatcher which will match LargeBinary or LargeString
+func LargeBinaryLike() TypeMatcher { return largeBinaryLikeMatcher{} }
+
+// FixedSizeBinaryLike returns a TypeMatcher that will match FixedSizeBinary
+// or Decimal128/256
+func FixedSizeBinaryLike() TypeMatcher { return fsbLikeMatcher{} }
+
+type primitiveMatcher struct{}
+
+func (primitiveMatcher) String() string                  { return "primitive" }
+func (primitiveMatcher) Matches(typ arrow.DataType) bool { return arrow.IsPrimitive(typ.ID()) }
+func (primitiveMatcher) Equals(other TypeMatcher) bool {
+	_, ok := other.(primitiveMatcher)
+	return ok
+}
+
+// Primitive returns a TypeMatcher that will match any type that arrow.IsPrimitive
+// returns true for.
+func Primitive() TypeMatcher { return primitiveMatcher{} }
+
+// InputKind is an enum representing the type of Input matching
+// that will be done. Either accepting any type, an exact specific type
+// or using a TypeMatcher.
+type InputKind int8
+
+const (
+	InputAny InputKind = iota
+	InputExact
+	InputUseMatcher
+)
+
+// InputType is used for type checking arguments passed to a kernel
+// and stored within a KernelSignature. The type-checking rule can
+// be supplied either with an exact DataType instance or a custom
+// TypeMatcher.
+type InputType struct {
+	Kind    InputKind
+	Type    arrow.DataType
+	Matcher TypeMatcher
+}
+
+func NewExactInput(dt arrow.DataType) InputType { return InputType{Kind: InputExact, Type: dt} }
+func NewMatchedInput(match TypeMatcher) InputType {
+	return InputType{Kind: InputUseMatcher, Matcher: match}
+}
+func NewIDInput(id arrow.Type) InputType { return NewMatchedInput(SameTypeID(id)) }
+
+func (it InputType) MatchID() arrow.Type {
+	switch it.Kind {
+	case InputExact:
+		return it.Type.ID()
+	case InputUseMatcher:
+		if idMatch, ok := it.Matcher.(*sameTypeIDMatcher); ok {
+			return idMatch.accepted
+		}
+	}
+	debug.Assert(false, "MatchID called on non-id matching InputType")
+	return -1
+}
+
+func (it InputType) String() string {
+	switch it.Kind {
+	case InputAny:
+		return "any"
+	case InputUseMatcher:
+		return it.Matcher.String()
+	case InputExact:
+		return it.Type.String()
+	}
+	return ""
+}
+
+func (it *InputType) Equals(other *InputType) bool {
+	if it == other {
+		return true
+	}
+
+	if it.Kind != other.Kind {
+		return false
+	}
+
+	switch it.Kind {
+	case InputAny:
+		return true
+	case InputExact:
+		return arrow.TypeEqual(it.Type, other.Type)
+	case InputUseMatcher:
+		return it.Matcher.Equals(other.Matcher)
+	default:
+		return false
+	}
+}
+
+func (it InputType) Hash() uint64 {
+	var h maphash.Hash
+
+	h.SetSeed(hashSeed)
+	result := HashCombine(h.Sum64(), uint64(it.Kind))
+	switch it.Kind {
+	case InputExact:
+		result = HashCombine(result, arrow.HashType(hashSeed, it.Type))
+	}
+	return result
+}
+
+func (it InputType) Matches(dt arrow.DataType) bool {
+	switch it.Kind {
+	case InputExact:
+		return arrow.TypeEqual(it.Type, dt)
+	case InputUseMatcher:
+		return it.Matcher.Matches(dt)
+	case InputAny:
+		return true
+	default:
+		debug.Assert(false, "invalid InputKind")
+		return true
+	}
+}
+
+// ResolveKind defines the way that a particular OutputType resolves
+// its type. Either it has a fixed type to resolve to or it contains
+// a Resolver which will compute the resolved type based on
+// the input types.
+type ResolveKind int8
+
+const (
+	ResolveFixed ResolveKind = iota
+	ResolveComputed
+)
+
+// TypeResolver is simply a function that takes a KernelCtx and a list of input types
+// and returns the resolved type or an error.
+type TypeResolver = func(*KernelCtx, []arrow.DataType) (arrow.DataType, error)
+
+type OutputType struct {
+	Kind     ResolveKind
+	Type     arrow.DataType
+	Resolver TypeResolver
+}
+
+func NewOutputType(dt arrow.DataType) OutputType {
+	return OutputType{Kind: ResolveFixed, Type: dt}
+}
+
+func NewComputedOutputType(resolver TypeResolver) OutputType {
+	return OutputType{Kind: ResolveComputed, Resolver: resolver}
+}
+
+func (o OutputType) String() string {
+	if o.Kind == ResolveFixed {
+		return o.Type.String()
+	}
+	return "computed"
+}
+
+func (o OutputType) Resolve(ctx *KernelCtx, types []arrow.DataType) (arrow.DataType, error) {
+	switch o.Kind {
+	case ResolveFixed:
+		return o.Type, nil
+	}
+
+	return o.Resolver(ctx, types)
+}
+
+// NullHandling is an enum representing how a particular Kernel
+// wants the executor to handle nulls.
+type NullHandling int8
+
+const (
+	// Compute the output validity bitmap by intersection the validity
+	// bitmaps of the arguments using bitwise-and operations. This means
+	// that values in the output are valid/non-null only if the corresponding
+	// values in all input arguments were valid/non-null. Kernels generally
+	// do not have to touch the bitmap afterwards, but a kernel's exec function
+	// is permitted to alter the bitmap after the null intersection is computed
+	// if necessary.
+	NullIntersection NullHandling = iota
+	// Kernel expects a pre-allocated buffer to write the result bitmap
+	// into.
+	NullComputedPrealloc
+	// Kernel will allocate and set the validity bitmap of the output
+	NullComputedNoPrealloc
+	// kernel output is never null and a validity bitmap doesn't need to
+	// be allocated
+	NullNoOutput
+)
+
+// MemAlloc is the preference for preallocating memory of fixed-width
+// type outputs during kernel execution.
+type MemAlloc int8
+
+const (
+	// For data types that support pre-allocation (fixed-width), the
+	// kernel expects to be provided a pre-allocated buffer to write into.
+	// Non-fixed-width types must always allocate their own buffers.
+	// The allocation is made for the same length as the execution batch,
+	// so vector kernels yielding differently sized outputs should not
+	// use this.
+	//
+	// It is valid for the data to not be preallocated but the validity
+	// bitmap is (or is computed using intersection).
+	//
+	// For variable-size output types like Binary or String, or for nested
+	// types, this option has no effect.
+	MemPrealloc MemAlloc = iota
+	// The kernel is responsible for allocating its own data buffer
+	// for fixed-width output types.
+	MemNoPrealloc
+)
+
+type KernelState any
+
+// KernelInitArgs are the arguments required to initialize an Kernel's
+// state using the input types and any options.
+type KernelInitArgs struct {
+	Kernel Kernel
+	Inputs []arrow.DataType
+	// Options are opaque and specific to the Kernel being initialized,
+	// may be nil if the kernel doesn't require options.
+	Options any
+}
+
+// KernelInitFn is any function that receives a KernelCtx and initialization
+// arguments and returns the initialized state or an error.
+type KernelInitFn = func(*KernelCtx, KernelInitArgs) (KernelState, error)
+
+// KernelSignature holds the input and output types for a kernel.
+//
+// Variable argument functions with a minimum of N arguments should pass
+// up to N input types to be used to validate for invocation. The first
+// N-1 types will be matched against the first N-1 arguments and the last
+// type will be matched against the remaining arguments.
+type KernelSignature struct {
+	InputTypes []InputType
+	OutType    OutputType
+	IsVarArgs  bool
+
+	// store the hashcode after it is computed so we don't
+	// need to recompute it
+	hashCode uint64
+}
+
+func (k KernelSignature) String() string {
+	var b strings.Builder
+	if k.IsVarArgs {
+		b.WriteString("varargs[")
+	} else {
+		b.WriteByte('(')
+	}
+
+	for i, t := range k.InputTypes {
+		if i != 0 {
+			b.WriteString(", ")
+		}
+		b.WriteString(t.String())
+	}
+	if k.IsVarArgs {
+		b.WriteString("*]")
+	} else {
+		b.WriteByte(')')
+	}
+
+	b.WriteString(" -> ")
+	b.WriteString(k.OutType.String())
+	return b.String()
+}
+
+func (k KernelSignature) Equals(other KernelSignature) bool {
+	if k.IsVarArgs != other.IsVarArgs {
+		return false
+	}
+
+	return slices.EqualFunc(k.InputTypes, other.InputTypes, func(e1, e2 InputType) bool {
+		return e1.Equals(&e2)
+	})
+}
+
+func (k *KernelSignature) Hash() uint64 {
+	if k.hashCode != 0 {
+		return k.hashCode
+	}
+
+	var h maphash.Hash
+	h.SetSeed(hashSeed)
+	result := h.Sum64()
+	for _, typ := range k.InputTypes {
+		result = HashCombine(result, typ.Hash())
+	}
+	k.hashCode = result
+	return result
+}
+
+func (k KernelSignature) MatchesInputs(types []arrow.DataType) bool {
+	switch k.IsVarArgs {
+	case true:
+		// check that it has enough to match at least the non-vararg types
+		if len(types) < (len(k.InputTypes) - 1) {
+			return false
+		}
+
+		for i, t := range types {
+			if !k.InputTypes[Min(i, len(k.InputTypes)-1)].Matches(t) {
+				return false
+			}
+		}
+	case false:
+		if len(types) != len(k.InputTypes) {
+			return false
+		}
+		for i, t := range types {
+			if !k.InputTypes[i].Matches(t) {
+				return false
+			}
+		}
+	}
+	return true
+}
+
+// ArrayKernelExec is an alias definition for a kernel's execution function.
+//
+// This is used for both stateless and stateful kernels. If a kernel
+// depends on some execution state, it can be accessed from the KernelCtx
+// object, which also contains the context.Context object which can be
+// used for shortcircuiting by checking context.Done / context.Err.
+// This allows kernels to control handling timeouts or cancellation of
+// computation.
+type ArrayKernelExec = func(*KernelCtx, *ExecSpan, *ExecResult) error
+
+type kernel struct {
+	Init           KernelInitFn
+	Signature      *KernelSignature
+	Data           KernelState
+	Parallelizable bool
+}
+
+func (k kernel) GetInitFn() KernelInitFn  { return k.Init }
+func (k kernel) GetSig() *KernelSignature { return k.Signature }
+
+// A ScalarKernel is the kernel implementation for a Scalar Function.
+// In addition to the members found in the base Kernel, it contains
+// the null handling and memory pre-allocation preferences.
+type ScalarKernel struct {
+	kernel
+
+	ExecFn             ArrayKernelExec
+	CanWriteIntoSlices bool
+	NullHandling       NullHandling
+	MemAlloc           MemAlloc
+}
+
+// NewScalarKernel constructs a new kernel for scalar execution, constructing
+// a KernelSignature with the provided input types and output type, and using
+// the passed in execution implementation and initialization function.
+func NewScalarKernel(in []InputType, out OutputType, exec ArrayKernelExec, init KernelInitFn) ScalarKernel {
+	return NewScalarKernelWithSig(&KernelSignature{
+		InputTypes: in,
+		OutType:    out,
+	}, exec, init)
+}
+
+// NewScalarKernelWithSig is a convenience when you already have a signature
+// to use for constructing a kernel. It's equivalent to passing the components
+// of the signature (input and output types) to NewScalarKernel.
+func NewScalarKernelWithSig(sig *KernelSignature, exec ArrayKernelExec, init KernelInitFn) ScalarKernel {
+	return ScalarKernel{
+		kernel:             kernel{Signature: sig, Init: init, Parallelizable: true},
+		ExecFn:             exec,
+		CanWriteIntoSlices: true,
+		NullHandling:       NullIntersection,
+		MemAlloc:           MemPrealloc,
+	}
+}
+
+func (s *ScalarKernel) Exec(ctx *KernelCtx, sp *ExecSpan, out *ExecResult) error {
+	return s.ExecFn(ctx, sp, out)
+}
+
+func (s ScalarKernel) GetNullHandling() NullHandling { return s.NullHandling }
+func (s ScalarKernel) GetMemAlloc() MemAlloc         { return s.MemAlloc }
+func (s ScalarKernel) CanFillSlices() bool           { return s.CanWriteIntoSlices }
+
+// ChunkedExec is the signature for executing a stateful vector kernel
+// against a ChunkedArray input. It is optional
+type ChunkedExec func(*KernelCtx, []*arrow.Chunked, *ExecResult) ([]*ExecResult, error)
+
+// FinalizeFunc is an optional finalizer function for any postprocessing
+// that may need to be done on data before returning it
+type FinalizeFunc func(*KernelCtx, []*ArraySpan) ([]*ArraySpan, error)
+
+// VectorKernel is a structure for implementations of vector functions.
+// It can optionally contain a finalizer function, the null handling
+// and memory pre-allocation preferences (different defaults from
+// scalar kernels when using NewVectorKernel), and other execution related
+// options.
+type VectorKernel struct {
+	kernel
+
+	ExecFn              ArrayKernelExec
+	ExecChunked         ChunkedExec
+	Finalize            FinalizeFunc
+	NullHandling        NullHandling
+	MemAlloc            MemAlloc
+	CanWriteIntoSlices  bool
+	CanExecuteChunkWise bool
+	OutputChunked       bool
+}
+
+// NewVectorKernel constructs a new kernel for execution of vector functions,
+// which take into account more than just the individual scalar values
+// of its input. Output of a vector kernel may be a different length
+// than its inputs.
+func NewVectorKernel(inTypes []InputType, outType OutputType, exec ArrayKernelExec, init KernelInitFn) VectorKernel {
+	return NewVectorKernelWithSig(&KernelSignature{
+		InputTypes: inTypes, OutType: outType}, exec, init)
+}
+
+// NewVectorKernelWithSig is a convenience function for creating a kernel
+// when you already have a signature constructed.
+func NewVectorKernelWithSig(sig *KernelSignature, exec ArrayKernelExec, init KernelInitFn) VectorKernel {
+	return VectorKernel{
+		kernel:              kernel{Signature: sig, Init: init, Parallelizable: true},
+		ExecFn:              exec,
+		CanWriteIntoSlices:  true,
+		CanExecuteChunkWise: true,
+		OutputChunked:       true,
+		NullHandling:        NullComputedNoPrealloc,
+		MemAlloc:            MemNoPrealloc,
+	}
+}
+
+func (s *VectorKernel) Exec(ctx *KernelCtx, sp *ExecSpan, out *ExecResult) error {
+	return s.ExecFn(ctx, sp, out)
+}
+
+func (s VectorKernel) GetNullHandling() NullHandling { return s.NullHandling }
+func (s VectorKernel) GetMemAlloc() MemAlloc         { return s.MemAlloc }
+func (s VectorKernel) CanFillSlices() bool           { return s.CanWriteIntoSlices }
diff --git a/go/arrow/compute/internal/exec/kernel_test.go b/go/arrow/compute/internal/exec/kernel_test.go
new file mode 100644
index 00000000000..5f95aa5f46b
--- /dev/null
+++ b/go/arrow/compute/internal/exec/kernel_test.go
@@ -0,0 +1,554 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package exec_test
+
+import (
+	"fmt"
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/compute"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"github.com/stretchr/testify/assert"
+)
+
+func TestTypeMatcherSameTypeID(t *testing.T) {
+	matcher := exec.SameTypeID(arrow.DECIMAL128)
+	assert.True(t, matcher.Matches(&arrow.Decimal128Type{Precision: 12, Scale: 2}))
+	assert.False(t, matcher.Matches(arrow.PrimitiveTypes.Int8))
+
+	assert.Equal(t, "Type::DECIMAL128", matcher.String())
+
+	assert.True(t, matcher.Equals(matcher))
+	assert.True(t, matcher.Equals(exec.SameTypeID(arrow.DECIMAL)))
+	assert.False(t, matcher.Equals(exec.SameTypeID(arrow.TIMESTAMP)))
+	assert.False(t, matcher.Equals(exec.Time32TypeUnit(arrow.Microsecond)))
+}
+
+func TestTypeMatcherTimestampTypeUnit(t *testing.T) {
+	matcher := exec.TimestampTypeUnit(arrow.Millisecond)
+	matcher2 := exec.Time32TypeUnit(arrow.Millisecond)
+	matcher3 := exec.Time64TypeUnit(arrow.Microsecond)
+	matcher4 := exec.DurationTypeUnit(arrow.Microsecond)
+
+	assert.True(t, matcher.Matches(arrow.FixedWidthTypes.Timestamp_ms))
+	assert.True(t, matcher.Matches(&arrow.TimestampType{Unit: arrow.Millisecond, TimeZone: "utc"}))
+	assert.False(t, matcher.Matches(arrow.FixedWidthTypes.Timestamp_s))
+	assert.False(t, matcher.Matches(arrow.FixedWidthTypes.Time32ms))
+	assert.True(t, matcher2.Matches(arrow.FixedWidthTypes.Time32ms))
+
+	assert.True(t, matcher3.Matches(arrow.FixedWidthTypes.Time64us))
+	assert.False(t, matcher3.Matches(arrow.FixedWidthTypes.Time64ns))
+	assert.True(t, matcher4.Matches(arrow.FixedWidthTypes.Duration_us))
+	assert.False(t, matcher4.Matches(arrow.FixedWidthTypes.Duration_ms))
+
+	// check String() representation
+	assert.Equal(t, "timestamp(s)", exec.TimestampTypeUnit(arrow.Second).String())
+	assert.Equal(t, "timestamp(ms)", exec.TimestampTypeUnit(arrow.Millisecond).String())
+	assert.Equal(t, "timestamp(us)", exec.TimestampTypeUnit(arrow.Microsecond).String())
+	assert.Equal(t, "timestamp(ns)", exec.TimestampTypeUnit(arrow.Nanosecond).String())
+
+	// equals implementation
+	assert.True(t, matcher.Equals(matcher))
+	assert.True(t, matcher.Equals(exec.TimestampTypeUnit(arrow.Millisecond)))
+	assert.False(t, matcher.Equals(exec.TimestampTypeUnit(arrow.Microsecond)))
+	assert.False(t, matcher.Equals(exec.Time32TypeUnit(arrow.Millisecond)))
+	assert.False(t, matcher3.Equals(matcher2))
+	assert.False(t, matcher4.Equals(matcher3))
+	assert.True(t, matcher4.Equals(exec.DurationTypeUnit(arrow.Microsecond)))
+	assert.False(t, matcher.Equals(exec.SameTypeID(arrow.TIMESTAMP)))
+}
+
+func TestIntegerMatcher(t *testing.T) {
+	match := exec.Integer()
+
+	assert.Equal(t, "integer", match.String())
+	assert.True(t, match.Matches(arrow.PrimitiveTypes.Int8))
+	assert.True(t, match.Matches(arrow.PrimitiveTypes.Uint64))
+	assert.True(t, match.Equals(exec.Integer()))
+	assert.False(t, match.Equals(exec.BinaryLike()))
+}
+
+func TestBinaryLikeMatcher(t *testing.T) {
+	match := exec.BinaryLike()
+
+	assert.Equal(t, "binary-like", match.String())
+	assert.True(t, match.Matches(arrow.BinaryTypes.String))
+	assert.True(t, match.Matches(arrow.BinaryTypes.Binary))
+	assert.False(t, match.Matches(arrow.BinaryTypes.LargeString))
+	assert.False(t, match.Matches(arrow.BinaryTypes.LargeBinary))
+	assert.False(t, match.Equals(exec.LargeBinaryLike()))
+	assert.True(t, match.Equals(exec.BinaryLike()))
+}
+
+func TestLargeBinaryLikeMatcher(t *testing.T) {
+	match := exec.LargeBinaryLike()
+
+	assert.Equal(t, "large-binary-like", match.String())
+	assert.False(t, match.Matches(arrow.BinaryTypes.String))
+	assert.False(t, match.Matches(arrow.BinaryTypes.Binary))
+	assert.True(t, match.Matches(arrow.BinaryTypes.LargeString))
+	assert.True(t, match.Matches(arrow.BinaryTypes.LargeBinary))
+	assert.True(t, match.Equals(exec.LargeBinaryLike()))
+	assert.False(t, match.Equals(exec.BinaryLike()))
+}
+
+func TestFixedSizeBinaryMatcher(t *testing.T) {
+	match := exec.FixedSizeBinaryLike()
+
+	assert.Equal(t, "fixed-size-binary-like", match.String())
+	assert.False(t, match.Matches(arrow.BinaryTypes.String))
+	assert.True(t, match.Matches(&arrow.Decimal128Type{Precision: 12, Scale: 5}))
+	assert.True(t, match.Matches(&arrow.Decimal256Type{Precision: 12, Scale: 10}))
+	assert.True(t, match.Matches(&arrow.FixedSizeBinaryType{}))
+	assert.False(t, match.Equals(exec.LargeBinaryLike()))
+	assert.True(t, match.Equals(exec.FixedSizeBinaryLike()))
+}
+
+func TestPrimitiveMatcher(t *testing.T) {
+	match := exec.Primitive()
+
+	assert.Equal(t, "primitive", match.String())
+	assert.True(t, match.Equals(exec.Primitive()))
+
+	types := []arrow.DataType{
+		arrow.FixedWidthTypes.Boolean,
+		arrow.PrimitiveTypes.Uint8,
+		arrow.PrimitiveTypes.Int8,
+		arrow.PrimitiveTypes.Uint16,
+		arrow.PrimitiveTypes.Int16,
+		arrow.PrimitiveTypes.Uint32,
+		arrow.PrimitiveTypes.Int32,
+		arrow.PrimitiveTypes.Uint64,
+		arrow.PrimitiveTypes.Int64,
+		arrow.FixedWidthTypes.Float16,
+		arrow.PrimitiveTypes.Float32,
+		arrow.PrimitiveTypes.Float64,
+		arrow.FixedWidthTypes.Date32,
+		arrow.FixedWidthTypes.Date64,
+		arrow.FixedWidthTypes.Time32ms,
+		arrow.FixedWidthTypes.Time64ns,
+		arrow.FixedWidthTypes.Timestamp_ms,
+		arrow.FixedWidthTypes.Duration_ms,
+		arrow.FixedWidthTypes.MonthInterval,
+		arrow.FixedWidthTypes.DayTimeInterval,
+		arrow.FixedWidthTypes.MonthDayNanoInterval,
+	}
+
+	for _, typ := range types {
+		assert.True(t, match.Matches(typ))
+	}
+
+	assert.False(t, match.Matches(arrow.Null))
+}
+
+func TestInputTypeAnyType(t *testing.T) {
+	var ty exec.InputType
+	assert.Equal(t, exec.InputAny, ty.Kind)
+}
+
+func TestInputType(t *testing.T) {
+	ty1 := exec.NewExactInput(arrow.PrimitiveTypes.Int8)
+	assert.Equal(t, exec.InputExact, ty1.Kind)
+	assert.True(t, arrow.TypeEqual(arrow.PrimitiveTypes.Int8, ty1.Type))
+	assert.Equal(t, "int8", ty1.String())
+
+	ty2 := exec.NewIDInput(arrow.DECIMAL)
+	assert.Equal(t, exec.InputUseMatcher, ty2.Kind)
+	assert.Equal(t, "Type::DECIMAL128", ty2.String())
+	assert.True(t, ty2.Matcher.Matches(&arrow.Decimal128Type{Precision: 12, Scale: 2}))
+	assert.False(t, ty2.Matcher.Matches(arrow.PrimitiveTypes.Int16))
+
+	ty3 := exec.NewMatchedInput(exec.TimestampTypeUnit(arrow.Microsecond))
+	assert.Equal(t, "timestamp(us)", ty3.String())
+
+	var ty4 exec.InputType
+	assert.Equal(t, "any", ty4.String())
+	// InputAny matches anything
+	assert.True(t, ty4.Matches((arrow.DataType)(nil)))
+}
+
+func TestInputTypeEquals(t *testing.T) {
+	t1 := exec.NewExactInput(arrow.PrimitiveTypes.Int8)
+	t2 := exec.NewExactInput(arrow.PrimitiveTypes.Int8)
+	t3 := exec.NewExactInput(arrow.PrimitiveTypes.Int32)
+
+	t5 := exec.NewIDInput(arrow.DECIMAL)
+	t6 := exec.NewIDInput(arrow.DECIMAL)
+
+	assert.True(t, t1.Equals(&t2))
+	assert.False(t, t1.Equals(&t3))
+	assert.False(t, t1.Equals(&t5))
+	assert.True(t, t5.Equals(&t5))
+	assert.True(t, t5.Equals(&t6))
+
+	var ty exec.InputType
+	assert.True(t, ty.Equals(&exec.InputType{Kind: exec.InputAny}))
+
+	// for now, an ID matcher for arrow.INT32 and a ExactInput for
+	// arrow.PrimitiveTypes.Int32 are treated as being different.
+	// this could be made equivalent later if desireable
+
+	// check that field metadata is excluded from equality checks
+	t7 := exec.NewExactInput(arrow.ListOfField(
+		arrow.Field{Name: "item", Type: arrow.BinaryTypes.String,
+			Nullable: true, Metadata: arrow.NewMetadata([]string{"foo"}, []string{"bar"})}))
+	t8 := exec.NewExactInput(arrow.ListOf(arrow.BinaryTypes.String))
+	assert.True(t, t7.Equals(&t8))
+}
+
+func TestInputTypeHash(t *testing.T) {
+	var (
+		t0 exec.InputType
+		t1 = exec.NewExactInput(arrow.PrimitiveTypes.Int8)
+		t2 = exec.NewIDInput(arrow.DECIMAL)
+	)
+
+	// these checks try to determine first of all whether hash
+	// always returns the same value, and whether the elements
+	// of the type are all incorporated into the hash
+	assert.Equal(t, t0.Hash(), t0.Hash())
+	assert.Equal(t, t1.Hash(), t1.Hash())
+	assert.Equal(t, t2.Hash(), t2.Hash())
+	assert.NotEqual(t, t0.Hash(), t1.Hash())
+	assert.NotEqual(t, t0.Hash(), t2.Hash())
+	assert.NotEqual(t, t1.Hash(), t2.Hash())
+}
+
+func TestInputTypeMatches(t *testing.T) {
+	in1 := exec.NewExactInput(arrow.PrimitiveTypes.Int8)
+
+	assert.True(t, in1.Matches(arrow.PrimitiveTypes.Int8))
+	assert.False(t, in1.Matches(arrow.PrimitiveTypes.Int16))
+
+	in2 := exec.NewIDInput(arrow.DECIMAL)
+	assert.True(t, in2.Matches(&arrow.Decimal128Type{Precision: 12, Scale: 2}))
+
+	ty2 := &arrow.Decimal128Type{Precision: 12, Scale: 2}
+	ty3 := arrow.PrimitiveTypes.Float64
+
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(t, 0)
+
+	arr2 := array.MakeArrayOfNull(mem, ty2, 1)
+	arr3 := array.MakeArrayOfNull(mem, ty3, 1)
+	defer arr2.Release()
+	defer arr3.Release()
+
+	scalar2, err := scalar.GetScalar(arr2, 0)
+	assert.NoError(t, err)
+
+	datumArr := compute.NewDatum(arr2)
+	defer datumArr.Release()
+	datumScalar := compute.NewDatum(scalar2)
+	defer datumScalar.Release()
+
+	assert.False(t, in2.Matches(ty3))
+	assert.False(t, in2.Matches(arr3.DataType()))
+}
+
+func TestOutputType(t *testing.T) {
+	ty1 := exec.NewOutputType(arrow.PrimitiveTypes.Int8)
+	assert.Equal(t, exec.ResolveFixed, ty1.Kind)
+	assert.True(t, arrow.TypeEqual(arrow.PrimitiveTypes.Int8, ty1.Type))
+
+	dummyResolver := func(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
+		return arrow.PrimitiveTypes.Int32, nil
+	}
+
+	ty2 := exec.NewComputedOutputType(dummyResolver)
+	assert.Equal(t, exec.ResolveComputed, ty2.Kind)
+
+	outType2, err := ty2.Resolve(nil, nil)
+	assert.NoError(t, err)
+	assert.Same(t, arrow.PrimitiveTypes.Int32, outType2)
+
+	ty3 := ty1
+	assert.Equal(t, exec.ResolveFixed, ty3.Kind)
+	assert.True(t, arrow.TypeEqual(ty1.Type, ty3.Type))
+
+	ty4 := ty2
+	assert.Equal(t, exec.ResolveComputed, ty4.Kind)
+	outType4, err := ty4.Resolve(nil, nil)
+	assert.NoError(t, err)
+	assert.Same(t, arrow.PrimitiveTypes.Int32, outType4)
+
+	assert.Equal(t, "int8", ty3.String())
+	assert.Equal(t, "computed", ty4.String())
+}
+
+func TestOutputTypeResolve(t *testing.T) {
+	ty1 := exec.NewOutputType(arrow.PrimitiveTypes.Int32)
+
+	result, err := ty1.Resolve(nil, nil)
+	assert.NoError(t, err)
+	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
+
+	result, err = ty1.Resolve(nil, []arrow.DataType{arrow.PrimitiveTypes.Int8})
+	assert.NoError(t, err)
+	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
+
+	result, err = ty1.Resolve(nil, []arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int8})
+	assert.NoError(t, err)
+	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
+
+	resolver := func(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
+		return args[0], nil
+	}
+	ty2 := exec.NewComputedOutputType(resolver)
+
+	result, err = ty2.Resolve(nil, []arrow.DataType{arrow.BinaryTypes.String})
+	assert.NoError(t, err)
+	assert.Same(t, arrow.BinaryTypes.String, result)
+
+	// type resolver that returns an error
+	ty3 := exec.NewComputedOutputType(func(_ *exec.KernelCtx, dt []arrow.DataType) (arrow.DataType, error) {
+		// checking the value types versus the function arity should be validated
+		// elsewhere. this is just for illustration purposes
+		if len(dt) == 0 {
+			return nil, fmt.Errorf("%w: need at least one argument", arrow.ErrInvalid)
+		}
+		return dt[0], nil
+	})
+
+	_, err = ty3.Resolve(nil, []arrow.DataType{})
+	assert.ErrorIs(t, err, arrow.ErrInvalid)
+
+	// resolver returns a fixed value
+	ty4 := exec.NewComputedOutputType(func(*exec.KernelCtx, []arrow.DataType) (arrow.DataType, error) {
+		return arrow.PrimitiveTypes.Int32, nil
+	})
+	result, err = ty4.Resolve(nil, []arrow.DataType{arrow.PrimitiveTypes.Int8})
+	assert.NoError(t, err)
+	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
+	result, err = ty4.Resolve(nil, []arrow.DataType{})
+	assert.NoError(t, err)
+	assert.Same(t, arrow.PrimitiveTypes.Int32, result)
+}
+
+func TestKernelSignatureEquals(t *testing.T) {
+	sig1 := exec.KernelSignature{
+		InputTypes: []exec.InputType{},
+		OutType:    exec.NewOutputType(arrow.BinaryTypes.String)}
+	sig1Copy := exec.KernelSignature{
+		InputTypes: []exec.InputType{},
+		OutType:    exec.NewOutputType(arrow.BinaryTypes.String)}
+	sig2 := exec.KernelSignature{
+		InputTypes: []exec.InputType{
+			exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
+		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
+	}
+
+	// output type doesn't matter (for now)
+	sig3 := exec.KernelSignature{
+		InputTypes: []exec.InputType{
+			exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
+		OutType: exec.NewOutputType(arrow.PrimitiveTypes.Int32),
+	}
+
+	sig4 := exec.KernelSignature{
+		InputTypes: []exec.InputType{
+			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
+			exec.NewExactInput(arrow.PrimitiveTypes.Int16),
+		},
+		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
+	}
+	sig4Copy := exec.KernelSignature{
+		InputTypes: []exec.InputType{
+			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
+			exec.NewExactInput(arrow.PrimitiveTypes.Int16),
+		},
+		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
+	}
+	sig5 := exec.KernelSignature{
+		InputTypes: []exec.InputType{
+			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
+			exec.NewExactInput(arrow.PrimitiveTypes.Int16),
+			exec.NewExactInput(arrow.PrimitiveTypes.Int32),
+		},
+		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
+	}
+
+	assert.True(t, sig1.Equals(sig1))
+	assert.True(t, sig2.Equals(sig3))
+	assert.False(t, sig3.Equals(sig4))
+
+	// different sig objects but same sig
+	assert.True(t, sig1.Equals(sig1Copy))
+	assert.True(t, sig4.Equals(sig4Copy))
+
+	// match first 2 args, but not third
+	assert.False(t, sig4.Equals(sig5))
+}
+
+func TestKernelSignatureVarArgsEqual(t *testing.T) {
+	sig1 := exec.KernelSignature{
+		InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
+		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
+		IsVarArgs:  true,
+	}
+	sig2 := exec.KernelSignature{
+		InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
+		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
+		IsVarArgs:  true,
+	}
+	sig3 := exec.KernelSignature{
+		InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
+		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
+	}
+
+	assert.True(t, sig1.Equals(sig2))
+	assert.False(t, sig2.Equals(sig3))
+}
+
+func TestKernelSignatureHash(t *testing.T) {
+	sig1 := exec.KernelSignature{
+		InputTypes: []exec.InputType{},
+		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
+	}
+	sig2 := exec.KernelSignature{
+		InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
+		OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
+	}
+	sig3 := exec.KernelSignature{
+		InputTypes: []exec.InputType{
+			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
+			exec.NewExactInput(arrow.PrimitiveTypes.Int32)},
+		OutType: exec.NewOutputType(arrow.BinaryTypes.String),
+	}
+
+	assert.Equal(t, sig1.Hash(), sig1.Hash())
+	assert.Equal(t, sig2.Hash(), sig2.Hash())
+	assert.NotEqual(t, sig1.Hash(), sig2.Hash())
+	assert.NotEqual(t, sig2.Hash(), sig3.Hash())
+}
+
+func TestKernelSignatureMatchesInputs(t *testing.T) {
+	// () -> boolean
+	sig1 := exec.KernelSignature{
+		OutType: exec.NewOutputType(arrow.FixedWidthTypes.Boolean)}
+
+	assert.True(t, sig1.MatchesInputs([]arrow.DataType{}))
+	assert.False(t, sig1.MatchesInputs([]arrow.DataType{arrow.PrimitiveTypes.Int8}))
+
+	// (int8, decimal) -> boolean
+	sig2 := exec.KernelSignature{
+		InputTypes: []exec.InputType{
+			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
+			exec.NewIDInput(arrow.DECIMAL)},
+		OutType: exec.NewOutputType(arrow.FixedWidthTypes.Boolean),
+	}
+	assert.False(t, sig2.MatchesInputs([]arrow.DataType{}))
+	assert.False(t, sig2.MatchesInputs([]arrow.DataType{arrow.PrimitiveTypes.Int8}))
+	assert.True(t, sig2.MatchesInputs([]arrow.DataType{
+		arrow.PrimitiveTypes.Int8,
+		&arrow.Decimal128Type{Precision: 12, Scale: 2}}))
+
+	// (int8, int32) -> boolean
+	sig3 := exec.KernelSignature{
+		InputTypes: []exec.InputType{
+			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
+			exec.NewExactInput(arrow.PrimitiveTypes.Int32),
+		},
+		OutType: exec.NewOutputType(arrow.FixedWidthTypes.Boolean),
+	}
+	assert.False(t, sig3.MatchesInputs(nil))
+	assert.True(t, sig3.MatchesInputs([]arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int32}))
+	assert.False(t, sig3.MatchesInputs([]arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int16}))
+}
+
+func TestKernelSignatureVarArgsMatchesInputs(t *testing.T) {
+	{
+		sig := exec.KernelSignature{
+			InputTypes: []exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
+			OutType:    exec.NewOutputType(arrow.BinaryTypes.String),
+			IsVarArgs:  true,
+		}
+
+		args := []arrow.DataType{arrow.PrimitiveTypes.Int8}
+		assert.True(t, sig.MatchesInputs(args))
+		args = append(args, arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int8)
+		assert.True(t, sig.MatchesInputs(args))
+		args = append(args, arrow.PrimitiveTypes.Int32)
+		assert.False(t, sig.MatchesInputs(args))
+	}
+	{
+		sig := exec.KernelSignature{
+			InputTypes: []exec.InputType{
+				exec.NewExactInput(arrow.PrimitiveTypes.Int8),
+				exec.NewExactInput(arrow.BinaryTypes.String),
+			},
+			OutType:   exec.NewOutputType(arrow.BinaryTypes.String),
+			IsVarArgs: true,
+		}
+
+		args := []arrow.DataType{arrow.PrimitiveTypes.Int8}
+		assert.True(t, sig.MatchesInputs(args))
+		args = append(args, arrow.BinaryTypes.String, arrow.BinaryTypes.String)
+		assert.True(t, sig.MatchesInputs(args))
+		args = append(args, arrow.PrimitiveTypes.Int32)
+		assert.False(t, sig.MatchesInputs(args))
+	}
+}
+
+func TestKernelSignatureToString(t *testing.T) {
+	inTypes := []exec.InputType{
+		exec.NewExactInput(arrow.PrimitiveTypes.Int8),
+		exec.NewIDInput(arrow.DECIMAL),
+		exec.NewExactInput(arrow.BinaryTypes.String),
+	}
+
+	sig := exec.KernelSignature{
+		InputTypes: inTypes, OutType: exec.NewOutputType(arrow.BinaryTypes.String),
+	}
+	assert.Equal(t, "(int8, Type::DECIMAL128, utf8) -> utf8", sig.String())
+
+	outType := exec.NewComputedOutputType(func(*exec.KernelCtx, []arrow.DataType) (arrow.DataType, error) {
+		return nil, arrow.ErrInvalid
+	})
+	sig2 := exec.KernelSignature{
+		InputTypes: []exec.InputType{
+			exec.NewExactInput(arrow.PrimitiveTypes.Int8),
+			exec.NewIDInput(arrow.DECIMAL)},
+		OutType: outType,
+	}
+	assert.Equal(t, "(int8, Type::DECIMAL128) -> computed", sig2.String())
+}
+
+func TestKernelSignatureVarArgsToString(t *testing.T) {
+	sig1 := exec.KernelSignature{
+		InputTypes: []exec.InputType{
+			exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
+		OutType:   exec.NewOutputType(arrow.BinaryTypes.String),
+		IsVarArgs: true,
+	}
+	assert.Equal(t, "varargs[int8*] -> utf8", sig1.String())
+
+	sig2 := exec.KernelSignature{
+		InputTypes: []exec.InputType{
+			exec.NewExactInput(arrow.BinaryTypes.String),
+			exec.NewExactInput(arrow.PrimitiveTypes.Int8)},
+		OutType:   exec.NewOutputType(arrow.BinaryTypes.String),
+		IsVarArgs: true,
+	}
+	assert.Equal(t, "varargs[utf8, int8*] -> utf8", sig2.String())
+}
diff --git a/go/arrow/compute/internal/exec/span.go b/go/arrow/compute/internal/exec/span.go
new file mode 100644
index 00000000000..c0a8bff04d1
--- /dev/null
+++ b/go/arrow/compute/internal/exec/span.go
@@ -0,0 +1,647 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package exec
+
+import (
+	"reflect"
+	"sync/atomic"
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+)
+
+// BufferSpan is a lightweight Buffer holder for ArraySpans that does not
+// take ownership of the underlying memory.Buffer at all or could be
+// used to reference raw byte slices instead.
+type BufferSpan struct {
+	// Buf should be the byte slice representing this buffer, if this is
+	// nil then this bufferspan should be considered empty.
+	Buf []byte
+	// Owner should point to an underlying parent memory.Buffer if this
+	// memory is owned by a different, existing, buffer. Retain is not
+	// called on this buffer, so it must not be released as long as
+	// this BufferSpan refers to it.
+	Owner *memory.Buffer
+	// SelfAlloc tracks whether or not this bufferspan is the only owner
+	// of the Owning memory.Buffer. This happens when preallocating
+	// memory or if a kernel allocates it's own buffer for a result.
+	// In these cases, we have to know so we can properly maintain the
+	// refcount if this is later turned into an ArrayData object.
+	SelfAlloc bool
+}
+
+// SetBuffer sets the given buffer into this BufferSpan and marks
+// SelfAlloc as false. This should be called when setting a buffer
+// that is externally owned/created.
+func (b *BufferSpan) SetBuffer(buf *memory.Buffer) {
+	b.Buf = buf.Bytes()
+	b.Owner = buf
+	b.SelfAlloc = false
+}
+
+// WrapBuffer wraps this bufferspan around a buffer and marks
+// SelfAlloc as true. This should be called when setting a buffer
+// that was allocated as part of an execution rather than just
+// re-using an existing buffer from an input array.
+func (b *BufferSpan) WrapBuffer(buf *memory.Buffer) {
+	b.Buf = buf.Bytes()
+	b.Owner = buf
+	b.SelfAlloc = true
+}
+
+// ArraySpan is a light-weight, non-owning version of arrow.ArrayData
+// for more efficient handling with computation and engines. We use
+// explicit go Arrays to define the buffers and some scratch space
+// for easily populating and shifting around pointers to memory without
+// having to worry about and deal with retain/release during calculations.
+type ArraySpan struct {
+	Type    arrow.DataType
+	Len     int64
+	Nulls   int64
+	Offset  int64
+	Buffers [3]BufferSpan
+
+	// Scratch is a holding spot for things such as
+	// offsets or union type codes when converting from scalars
+	Scratch [2]uint64
+
+	Children []ArraySpan
+}
+
+// if an error is encountered, call Release on a preallocated span
+// to ensure it releases any self-allocated buffers, it will
+// not call release on buffers it doesn't own (SelfAlloc != true)
+func (a *ArraySpan) Release() {
+	for _, c := range a.Children {
+		c.Release()
+	}
+
+	for _, b := range a.Buffers {
+		if b.SelfAlloc {
+			b.Owner.Release()
+		}
+	}
+}
+
+func (a *ArraySpan) MayHaveNulls() bool {
+	return atomic.LoadInt64(&a.Nulls) != 0 && a.Buffers[0].Buf != nil
+}
+
+// UpdateNullCount will count the bits in the null bitmap and update the
+// number of nulls if the current null count is unknown, otherwise it just
+// returns the value of a.Nulls
+func (a *ArraySpan) UpdateNullCount() int64 {
+	curNulls := atomic.LoadInt64(&a.Nulls)
+	if curNulls != array.UnknownNullCount {
+		return curNulls
+	}
+
+	newNulls := a.Len - int64(bitutil.CountSetBits(a.Buffers[0].Buf, int(a.Offset), int(a.Len)))
+	atomic.StoreInt64(&a.Nulls, newNulls)
+	return newNulls
+}
+
+// Dictionary returns a pointer to the array span for the dictionary which
+// we will always place as the first (and only) child if it exists.
+func (a *ArraySpan) Dictionary() *ArraySpan { return &a.Children[0] }
+
+// NumBuffers returns the number of expected buffers for this type
+func (a *ArraySpan) NumBuffers() int { return getNumBuffers(a.Type) }
+
+// MakeData generates an arrow.ArrayData object for this ArraySpan,
+// properly updating the buffer ref count if necessary.
+func (a *ArraySpan) MakeData() arrow.ArrayData {
+	var bufs [3]*memory.Buffer
+	for i := range bufs {
+		b := a.GetBuffer(i)
+		bufs[i] = b
+		if b != nil && a.Buffers[i].SelfAlloc {
+			// if this buffer is just a pointer to another existing buffer
+			// then we never bumped the refcount for that buffer.
+			// As a result, we won't call release here so that the call
+			// to array.NewData properly updates the ref counts of the buffers.
+			// If instead this buffer was allocated during calculation
+			// (such as during prealloc or by a kernel itself)
+			// then we need to release after we create the ArrayData so that it
+			// maintains the correct refcount of 1, giving the resulting
+			// ArrayData object ownership of this buffer.
+			defer b.Release()
+		}
+	}
+
+	var (
+		nulls    = int(atomic.LoadInt64(&a.Nulls))
+		length   = int(a.Len)
+		off      = int(a.Offset)
+		dt       = a.Type
+		children []arrow.ArrayData
+	)
+
+	if a.Type.ID() == arrow.NULL {
+		nulls = length
+	} else if len(a.Buffers[0].Buf) == 0 {
+		nulls = 0
+	}
+
+	// we use a.Type for the NewData call at the end, so we can
+	// handle extension types by using dt to point to the storage type
+	// and let the proper extension type get set into the ArrayData
+	// object we return.
+	if dt.ID() == arrow.EXTENSION {
+		dt = dt.(arrow.ExtensionType).StorageType()
+	}
+
+	if dt.ID() == arrow.DICTIONARY {
+		result := array.NewData(a.Type, length, bufs[:a.NumBuffers()], nil, nulls, off)
+		dict := a.Dictionary().MakeData()
+		defer dict.Release()
+		result.SetDictionary(dict)
+		return result
+	} else if dt.ID() == arrow.DENSE_UNION || dt.ID() == arrow.SPARSE_UNION {
+		bufs[0] = nil
+		nulls = 0
+	}
+
+	if len(a.Children) > 0 {
+		children = make([]arrow.ArrayData, len(a.Children))
+		for i, c := range a.Children {
+			d := c.MakeData()
+			defer d.Release()
+			children[i] = d
+		}
+	}
+	return array.NewData(a.Type, length, bufs[:a.NumBuffers()], children, nulls, off)
+}
+
+// MakeArray is a convenience function for calling array.MakeFromData(a.MakeData())
+func (a *ArraySpan) MakeArray() arrow.Array {
+	d := a.MakeData()
+	defer d.Release()
+	return array.MakeFromData(d)
+}
+
+// SetSlice updates the offset and length of this ArraySpan to refer to
+// a specific slice of the underlying buffers.
+func (a *ArraySpan) SetSlice(off, length int64) {
+	if off == a.Offset && length == a.Len {
+		// don't modify the nulls if the slice is the entire span
+		return
+	}
+
+	if a.Type.ID() != arrow.NULL {
+		if a.Nulls != 0 {
+			if a.Nulls == a.Len {
+				a.Nulls = length
+			} else {
+				a.Nulls = array.UnknownNullCount
+			}
+		}
+	} else {
+		a.Nulls = length
+	}
+
+	a.Offset, a.Len = off, length
+}
+
+// GetBuffer returns the buffer for the requested index. If this buffer
+// is owned by another array/arrayspan the Owning buffer is returned,
+// otherwise if this slice has no owning buffer, we call NewBufferBytes
+// to wrap it as a memory.Buffer. Can also return nil if there is no
+// buffer in this index.
+func (a *ArraySpan) GetBuffer(idx int) *memory.Buffer {
+	buf := a.Buffers[idx]
+	switch {
+	case buf.Owner != nil:
+		return buf.Owner
+	case buf.Buf != nil:
+		return memory.NewBufferBytes(buf.Buf)
+	}
+	return nil
+}
+
+// convenience function to resize the children slice if necessary,
+// or just shrink the slice without re-allocating if there's enough
+// capacity already.
+func (a *ArraySpan) resizeChildren(i int) {
+	if cap(a.Children) >= i {
+		a.Children = a.Children[:i]
+	} else {
+		a.Children = make([]ArraySpan, i)
+	}
+}
+
+// convenience function for populating the offsets buffer from a scalar
+// value's size.
+func setOffsetsForScalar[T int32 | int64](span *ArraySpan, buf []T, valueSize int64, bufidx int) {
+	buf[0] = 0
+	buf[1] = T(valueSize)
+
+	b := (*reflect.SliceHeader)(unsafe.Pointer(&buf))
+	s := (*reflect.SliceHeader)(unsafe.Pointer(&span.Buffers[bufidx].Buf))
+	s.Data = b.Data
+	s.Len = 2 * int(unsafe.Sizeof(T(0)))
+	s.Cap = s.Len
+
+	span.Buffers[bufidx].Owner = nil
+	span.Buffers[bufidx].SelfAlloc = false
+}
+
+// FillFromScalar populates this ArraySpan as if it were a 1 length array
+// with the single value equal to the passed in Scalar.
+func (a *ArraySpan) FillFromScalar(val scalar.Scalar) {
+	var (
+		trueBit  byte = 0x01
+		falseBit byte = 0x00
+	)
+
+	a.Type = val.DataType()
+	a.Len = 1
+	typeID := a.Type.ID()
+	if val.IsValid() {
+		a.Nulls = 0
+	} else {
+		a.Nulls = 1
+	}
+
+	if !arrow.IsUnion(typeID) && typeID != arrow.NULL {
+		if val.IsValid() {
+			a.Buffers[0].Buf = []byte{trueBit}
+		} else {
+			a.Buffers[0].Buf = []byte{falseBit}
+		}
+		a.Buffers[0].Owner = nil
+		a.Buffers[0].SelfAlloc = false
+	}
+
+	switch {
+	case typeID == arrow.BOOL:
+		if val.(*scalar.Boolean).Value {
+			a.Buffers[1].Buf = []byte{trueBit}
+		} else {
+			a.Buffers[1].Buf = []byte{falseBit}
+		}
+		a.Buffers[1].Owner = nil
+		a.Buffers[1].SelfAlloc = false
+	case arrow.IsPrimitive(typeID) || arrow.IsDecimal(typeID):
+		sc := val.(scalar.PrimitiveScalar)
+		a.Buffers[1].Buf = sc.Data()
+		a.Buffers[1].Owner = nil
+		a.Buffers[1].SelfAlloc = false
+	case typeID == arrow.DICTIONARY:
+		sc := val.(scalar.PrimitiveScalar)
+		a.Buffers[1].Buf = sc.Data()
+		a.Buffers[1].Owner = nil
+		a.Buffers[1].SelfAlloc = false
+		a.resizeChildren(1)
+		a.Children[0].SetMembers(val.(*scalar.Dictionary).Value.Dict.Data())
+	case arrow.IsBaseBinary(typeID):
+		sc := val.(scalar.BinaryScalar)
+		a.Buffers[1].Buf = arrow.Uint64Traits.CastToBytes(a.Scratch[:])
+		a.Buffers[1].Owner = nil
+		a.Buffers[1].SelfAlloc = false
+
+		var dataBuffer []byte
+		if sc.IsValid() {
+			dataBuffer = sc.Data()
+			a.Buffers[2].Owner = sc.Buffer()
+			a.Buffers[2].SelfAlloc = false
+		}
+		if arrow.IsBinaryLike(typeID) {
+			setOffsetsForScalar(a,
+				unsafe.Slice((*int32)(unsafe.Pointer(&a.Scratch[0])), 2),
+				int64(len(dataBuffer)), 1)
+		} else {
+			// large_binary_like
+			setOffsetsForScalar(a,
+				unsafe.Slice((*int64)(unsafe.Pointer(&a.Scratch[0])), 2),
+				int64(len(dataBuffer)), 1)
+		}
+		a.Buffers[2].Buf = dataBuffer
+	case typeID == arrow.FIXED_SIZE_BINARY:
+		sc := val.(scalar.BinaryScalar)
+		if !sc.IsValid() {
+			a.Buffers[1].Buf = make([]byte, sc.DataType().(*arrow.FixedSizeBinaryType).ByteWidth)
+			a.Buffers[1].Owner = nil
+			a.Buffers[1].SelfAlloc = false
+			break
+		}
+		a.Buffers[1].Buf = sc.Data()
+		a.Buffers[1].Owner = sc.Buffer()
+		a.Buffers[1].SelfAlloc = false
+	case arrow.IsListLike(typeID):
+		sc := val.(scalar.ListScalar)
+		valueLen := 0
+		a.resizeChildren(1)
+
+		if sc.GetList() != nil {
+			a.Children[0].SetMembers(sc.GetList().Data())
+			valueLen = sc.GetList().Len()
+		} else {
+			// even when the value is null, we must populate
+			// child data to yield a valid array. ugh
+			FillZeroLength(sc.DataType().(arrow.NestedType).Fields()[0].Type, &a.Children[0])
+		}
+
+		switch typeID {
+		case arrow.LIST, arrow.MAP:
+			setOffsetsForScalar(a,
+				unsafe.Slice((*int32)(unsafe.Pointer(&a.Scratch[0])), 2),
+				int64(valueLen), 1)
+		case arrow.LARGE_LIST:
+			setOffsetsForScalar(a,
+				unsafe.Slice((*int64)(unsafe.Pointer(&a.Scratch[0])), 2),
+				int64(valueLen), 1)
+		default:
+			// fixed size list has no second buffer
+			a.Buffers[1].Buf, a.Buffers[1].Owner = nil, nil
+			a.Buffers[1].SelfAlloc = false
+		}
+	case typeID == arrow.STRUCT:
+		sc := val.(*scalar.Struct)
+		a.Buffers[1].Buf = nil
+		a.Buffers[1].Owner = nil
+		a.Buffers[1].SelfAlloc = false
+		a.resizeChildren(len(sc.Value))
+		for i, v := range sc.Value {
+			a.Children[i].FillFromScalar(v)
+		}
+	case arrow.IsUnion(typeID):
+		// first buffer is kept null since unions have no validity vector
+		a.Buffers[0].Buf, a.Buffers[0].Owner = nil, nil
+		a.Buffers[0].SelfAlloc = false
+
+		a.Buffers[1].Buf = arrow.Uint64Traits.CastToBytes(a.Scratch[:])[:1]
+		a.Buffers[1].Owner = nil
+		a.Buffers[1].SelfAlloc = false
+		codes := unsafe.Slice((*arrow.UnionTypeCode)(unsafe.Pointer(&a.Buffers[1].Buf[0])), 1)
+
+		a.resizeChildren(len(a.Type.(arrow.UnionType).Fields()))
+		switch sc := val.(type) {
+		case *scalar.DenseUnion:
+			codes[0] = sc.TypeCode
+			// has offset, start 4 bytes in so it's aligned to the 32-bit boundaries
+			off := unsafe.Slice((*int32)(unsafe.Add(unsafe.Pointer(&a.Scratch[0]), arrow.Int32SizeBytes)), 2)
+			setOffsetsForScalar(a, off, 1, 2)
+			// we can't "see" the other arrays in the union, but we put the "active"
+			// union array in the right place and fill zero-length arrays for
+			// the others.
+			childIDS := a.Type.(arrow.UnionType).ChildIDs()
+			for i, f := range a.Type.(arrow.UnionType).Fields() {
+				if i == childIDS[sc.TypeCode] {
+					a.Children[i].FillFromScalar(sc.Value)
+				} else {
+					FillZeroLength(f.Type, &a.Children[i])
+				}
+			}
+		case *scalar.SparseUnion:
+			codes[0] = sc.TypeCode
+			// sparse union scalars have a full complement of child values
+			// even though only one of them is relevant, so we just fill them
+			// in here
+			for i, v := range sc.Value {
+				a.Children[i].FillFromScalar(v)
+			}
+		}
+	case typeID == arrow.EXTENSION:
+		// pass through storage
+		sc := val.(*scalar.Extension)
+		a.FillFromScalar(sc.Value)
+		// restore the extension type
+		a.Type = val.DataType()
+	case typeID == arrow.NULL:
+		for i := range a.Buffers {
+			a.Buffers[i].Buf = nil
+			a.Buffers[i].Owner = nil
+			a.Buffers[i].SelfAlloc = false
+		}
+	}
+}
+
+// TakeOwnership is like SetMembers only this takes ownership of
+// the buffers by calling Retain on them so that the passed in
+// ArrayData can be released without negatively affecting this
+// ArraySpan
+func (a *ArraySpan) TakeOwnership(data arrow.ArrayData) {
+	a.Type = data.DataType()
+	a.Len = int64(data.Len())
+	if a.Type.ID() == arrow.NULL {
+		a.Nulls = a.Len
+	} else {
+		a.Nulls = int64(data.NullN())
+	}
+	a.Offset = int64(data.Offset())
+
+	for i, b := range data.Buffers() {
+		if b != nil {
+			a.Buffers[i].WrapBuffer(b)
+			b.Retain()
+		} else {
+			a.Buffers[i].Buf = nil
+			a.Buffers[i].Owner = nil
+			a.Buffers[i].SelfAlloc = false
+		}
+	}
+
+	typeID := a.Type.ID()
+	if a.Buffers[0].Buf == nil {
+		switch typeID {
+		case arrow.NULL, arrow.SPARSE_UNION, arrow.DENSE_UNION:
+		default:
+			// should already be zero, but we make sure
+			a.Nulls = 0
+		}
+	}
+
+	for i := len(data.Buffers()); i < 3; i++ {
+		a.Buffers[i].Buf = nil
+		a.Buffers[i].Owner = nil
+		a.Buffers[i].SelfAlloc = false
+	}
+
+	if typeID == arrow.DICTIONARY {
+		if cap(a.Children) >= 1 {
+			a.Children = a.Children[:1]
+		} else {
+			a.Children = make([]ArraySpan, 1)
+		}
+		a.Children[0].TakeOwnership(data.Dictionary())
+	} else {
+		if cap(a.Children) >= len(data.Children()) {
+			a.Children = a.Children[:len(data.Children())]
+		} else {
+			a.Children = make([]ArraySpan, len(data.Children()))
+		}
+		for i, c := range data.Children() {
+			a.Children[i].TakeOwnership(c)
+		}
+	}
+}
+
+// SetMembers populates this ArraySpan from the given ArrayData object.
+// As this is a non-owning reference, the ArrayData object must not
+// be fully released while this ArraySpan is in use, otherwise any buffers
+// referenced will be released too
+func (a *ArraySpan) SetMembers(data arrow.ArrayData) {
+	a.Type = data.DataType()
+	a.Len = int64(data.Len())
+	if a.Type.ID() == arrow.NULL {
+		a.Nulls = a.Len
+	} else {
+		a.Nulls = int64(data.NullN())
+	}
+	a.Offset = int64(data.Offset())
+
+	for i, b := range data.Buffers() {
+		if b != nil {
+			a.Buffers[i].SetBuffer(b)
+		} else {
+			a.Buffers[i].Buf = nil
+			a.Buffers[i].Owner = nil
+			a.Buffers[i].SelfAlloc = false
+		}
+	}
+
+	typeID := a.Type.ID()
+	if a.Buffers[0].Buf == nil {
+		switch typeID {
+		case arrow.NULL, arrow.SPARSE_UNION, arrow.DENSE_UNION:
+		default:
+			// should already be zero, but we make sure
+			a.Nulls = 0
+		}
+	}
+
+	for i := len(data.Buffers()); i < 3; i++ {
+		a.Buffers[i].Buf = nil
+		a.Buffers[i].Owner = nil
+		a.Buffers[i].SelfAlloc = false
+	}
+
+	if typeID == arrow.DICTIONARY {
+		if cap(a.Children) >= 1 {
+			a.Children = a.Children[:1]
+		} else {
+			a.Children = make([]ArraySpan, 1)
+		}
+		a.Children[0].SetMembers(data.Dictionary())
+	} else {
+		if cap(a.Children) >= len(data.Children()) {
+			a.Children = a.Children[:len(data.Children())]
+		} else {
+			a.Children = make([]ArraySpan, len(data.Children()))
+		}
+		for i, c := range data.Children() {
+			a.Children[i].SetMembers(c)
+		}
+	}
+}
+
+// ExecValue represents a single input to an execution which could
+// be either an Array (ArraySpan) or a Scalar value
+type ExecValue struct {
+	Array  ArraySpan
+	Scalar scalar.Scalar
+}
+
+func (e *ExecValue) IsArray() bool  { return e.Scalar == nil }
+func (e *ExecValue) IsScalar() bool { return !e.IsArray() }
+
+func (e *ExecValue) Type() arrow.DataType {
+	if e.IsArray() {
+		return e.Array.Type
+	}
+	return e.Scalar.DataType()
+}
+
+// ExecResult is the result of a kernel execution and should be populated
+// by the execution functions and/or a kernel. For now we're just going to
+// alias an ArraySpan.
+type ExecResult = ArraySpan
+
+// ExecSpan represents a slice of inputs and is used to provide slices
+// of input values to iterate over.
+//
+// Len is the length of the span (all elements in Values should either
+// be scalar or an array with a length + offset of at least Len).
+type ExecSpan struct {
+	Len    int64
+	Values []ExecValue
+}
+
+func getNumBuffers(dt arrow.DataType) int {
+	switch dt.ID() {
+	case arrow.NULL, arrow.STRUCT, arrow.FIXED_SIZE_LIST:
+		return 1
+	case arrow.BINARY, arrow.LARGE_BINARY, arrow.STRING, arrow.LARGE_STRING, arrow.DENSE_UNION:
+		return 3
+	case arrow.EXTENSION:
+		return getNumBuffers(dt.(arrow.ExtensionType).StorageType())
+	default:
+		return 2
+	}
+}
+
+// FillZeroLength fills an ArraySpan with the appropriate information for
+// a Zero Length Array of the provided type.
+func FillZeroLength(dt arrow.DataType, span *ArraySpan) {
+	span.Scratch[0], span.Scratch[1] = 0, 0
+	span.Type = dt
+	span.Len = 0
+	numBufs := getNumBuffers(dt)
+	for i := 0; i < numBufs; i++ {
+		span.Buffers[i].Buf = arrow.Uint64Traits.CastToBytes(span.Scratch[:])[:0]
+		span.Buffers[i].Owner = nil
+	}
+
+	for i := numBufs; i < 3; i++ {
+		span.Buffers[i].Buf, span.Buffers[i].Owner = nil, nil
+	}
+
+	nt, ok := dt.(arrow.NestedType)
+	if !ok {
+		if len(span.Children) > 0 {
+			span.Children = span.Children[:0]
+		}
+		return
+	}
+
+	if cap(span.Children) >= len(nt.Fields()) {
+		span.Children = span.Children[:len(nt.Fields())]
+	} else {
+		span.Children = make([]ArraySpan, len(nt.Fields()))
+	}
+	for i, f := range nt.Fields() {
+		FillZeroLength(f.Type, &span.Children[i])
+	}
+}
+
+// PromoteExecSpanScalars promotes the values of the passed in ExecSpan
+// from scalars to Arrays of length 1 for each value.
+func PromoteExecSpanScalars(span ExecSpan) {
+	for i := range span.Values {
+		if span.Values[i].Scalar != nil {
+			span.Values[i].Array.FillFromScalar(span.Values[i].Scalar)
+			span.Values[i].Scalar = nil
+		}
+	}
+}
diff --git a/go/arrow/compute/internal/exec/span_test.go b/go/arrow/compute/internal/exec/span_test.go
new file mode 100644
index 00000000000..e2b51039bbe
--- /dev/null
+++ b/go/arrow/compute/internal/exec/span_test.go
@@ -0,0 +1,837 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package exec_test
+
+import (
+	"reflect"
+	"strings"
+	"testing"
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/types"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"github.com/stretchr/testify/assert"
+)
+
+func TestBufferSpan_SetBuffer(t *testing.T) {
+	type fields struct {
+		Buf       []byte
+		Owner     *memory.Buffer
+		SelfAlloc bool
+	}
+	type args struct {
+		buf *memory.Buffer
+	}
+	foo := []byte{0xde, 0xad, 0xbe, 0xef}
+	own := memory.NewBufferBytes(foo)
+	tests := []struct {
+		name   string
+		fields fields
+		args   args
+	}{
+		{"simple", fields{SelfAlloc: true}, args{own}},
+	}
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			b := &exec.BufferSpan{
+				Buf:       tt.fields.Buf,
+				Owner:     tt.fields.Owner,
+				SelfAlloc: tt.fields.SelfAlloc,
+			}
+			b.SetBuffer(tt.args.buf)
+			assert.Same(t, &foo[0], &b.Buf[0])
+			assert.Same(t, own, b.Owner)
+			assert.False(t, b.SelfAlloc)
+		})
+	}
+}
+
+func TestBufferSpan_WrapBuffer(t *testing.T) {
+	type fields struct {
+		Buf       []byte
+		Owner     *memory.Buffer
+		SelfAlloc bool
+	}
+	type args struct {
+		buf *memory.Buffer
+	}
+	foo := []byte{0xde, 0xad, 0xbe, 0xef}
+	own := memory.NewBufferBytes(foo)
+	tests := []struct {
+		name   string
+		fields fields
+		args   args
+	}{
+		{"simple", fields{SelfAlloc: false}, args{own}},
+	}
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			b := &exec.BufferSpan{
+				Buf:       tt.fields.Buf,
+				Owner:     tt.fields.Owner,
+				SelfAlloc: tt.fields.SelfAlloc,
+			}
+			b.WrapBuffer(tt.args.buf)
+			assert.Same(t, &foo[0], &b.Buf[0])
+			assert.Same(t, own, b.Owner)
+			assert.True(t, b.SelfAlloc)
+		})
+	}
+}
+
+func TestArraySpan_UpdateNullCount(t *testing.T) {
+	type fields struct {
+		Type     arrow.DataType
+		Len      int64
+		Nulls    int64
+		Offset   int64
+		Buffers  [3]exec.BufferSpan
+		Scratch  [2]uint64
+		Children []exec.ArraySpan
+	}
+	tests := []struct {
+		name   string
+		fields fields
+		want   int64
+	}{
+		{"known", fields{Nulls: 25}, 25},
+		{"unknown", fields{
+			Nulls:   array.UnknownNullCount,
+			Len:     8, // 0b01101101
+			Buffers: [3]exec.BufferSpan{{Buf: []byte{109}}, {}, {}}}, 3},
+		{"unknown with offset", fields{
+			Nulls:   array.UnknownNullCount,
+			Len:     4,
+			Offset:  2, // 0b01101101
+			Buffers: [3]exec.BufferSpan{{Buf: []byte{109}}, {}, {}}}, 1},
+	}
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			a := &exec.ArraySpan{
+				Type:     tt.fields.Type,
+				Len:      tt.fields.Len,
+				Nulls:    tt.fields.Nulls,
+				Offset:   tt.fields.Offset,
+				Buffers:  tt.fields.Buffers,
+				Scratch:  tt.fields.Scratch,
+				Children: tt.fields.Children,
+			}
+			if got := a.UpdateNullCount(); got != tt.want {
+				t.Errorf("ArraySpan.UpdateNullCount() = %v, want %v", got, tt.want)
+			}
+		})
+	}
+}
+
+func TestArraySpan_Dictionary(t *testing.T) {
+	type fields struct {
+		Type     arrow.DataType
+		Len      int64
+		Nulls    int64
+		Offset   int64
+		Buffers  [3]exec.BufferSpan
+		Scratch  [2]uint64
+		Children []exec.ArraySpan
+	}
+	children := []exec.ArraySpan{{}}
+	tests := []struct {
+		name   string
+		fields fields
+		want   *exec.ArraySpan
+	}{
+		{"basic", fields{Children: children}, &children[0]},
+	}
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			a := &exec.ArraySpan{
+				Type:     tt.fields.Type,
+				Len:      tt.fields.Len,
+				Nulls:    tt.fields.Nulls,
+				Offset:   tt.fields.Offset,
+				Buffers:  tt.fields.Buffers,
+				Scratch:  tt.fields.Scratch,
+				Children: tt.fields.Children,
+			}
+			if got := a.Dictionary(); !reflect.DeepEqual(got, tt.want) {
+				t.Errorf("ArraySpan.Dictionary() = %v, want %v", got, tt.want)
+			}
+		})
+	}
+}
+
+func TestArraySpan_NumBuffers(t *testing.T) {
+	type fields struct {
+		Type     arrow.DataType
+		Len      int64
+		Nulls    int64
+		Offset   int64
+		Buffers  [3]exec.BufferSpan
+		Scratch  [2]uint64
+		Children []exec.ArraySpan
+	}
+
+	arrow.RegisterExtensionType(types.NewUUIDType())
+	defer arrow.UnregisterExtensionType("uuid")
+
+	tests := []struct {
+		name   string
+		fields fields
+		want   int
+	}{
+		{"null", fields{Type: arrow.Null}, 1},
+		{"struct", fields{Type: arrow.StructOf()}, 1},
+		{"fixed size list", fields{Type: arrow.FixedSizeListOf(4, arrow.PrimitiveTypes.Int32)}, 1},
+		{"binary", fields{Type: arrow.BinaryTypes.Binary}, 3},
+		{"large binary", fields{Type: arrow.BinaryTypes.LargeBinary}, 3},
+		{"string", fields{Type: arrow.BinaryTypes.String}, 3},
+		{"large string", fields{Type: arrow.BinaryTypes.LargeString}, 3},
+		{"extension", fields{Type: types.NewUUIDType()}, 2},
+		{"int32", fields{Type: arrow.PrimitiveTypes.Int32}, 2},
+	}
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			a := &exec.ArraySpan{
+				Type:     tt.fields.Type,
+				Len:      tt.fields.Len,
+				Nulls:    tt.fields.Nulls,
+				Offset:   tt.fields.Offset,
+				Buffers:  tt.fields.Buffers,
+				Scratch:  tt.fields.Scratch,
+				Children: tt.fields.Children,
+			}
+			if got := a.NumBuffers(); got != tt.want {
+				t.Errorf("ArraySpan.NumBuffers() = %v, want %v", got, tt.want)
+			}
+		})
+	}
+}
+
+func TestArraySpan_MakeData(t *testing.T) {
+	type fields struct {
+		Type     arrow.DataType
+		Len      int64
+		Nulls    int64
+		Offset   int64
+		Buffers  [3]exec.BufferSpan
+		Scratch  [2]uint64
+		Children []exec.ArraySpan
+	}
+
+	var (
+		buf1 *memory.Buffer
+	)
+	arrow.RegisterExtensionType(types.NewDictExtensionType())
+	defer arrow.UnregisterExtensionType("dict-extension")
+
+	tests := []struct {
+		name   string
+		fields func(mem memory.Allocator) fields
+		want   func(mem memory.Allocator) arrow.ArrayData
+	}{
+		{"null type", func(mem memory.Allocator) fields {
+			return fields{
+				Type:  arrow.Null,
+				Len:   5,
+				Nulls: array.UnknownNullCount,
+			}
+		}, func(mem memory.Allocator) arrow.ArrayData {
+			return array.NewData(arrow.Null, 5, []*memory.Buffer{nil}, nil, 5, 0)
+		}},
+		{"zero len", func(mem memory.Allocator) fields {
+			return fields{Type: arrow.PrimitiveTypes.Int32}
+		}, func(mem memory.Allocator) arrow.ArrayData {
+			return array.NewData(arrow.PrimitiveTypes.Int32, 0, []*memory.Buffer{nil, nil}, nil, 0, 0)
+		}},
+		{"non-owning offset", func(mem memory.Allocator) fields {
+			ret := fields{
+				Type:   arrow.PrimitiveTypes.Int8,
+				Len:    4,
+				Nulls:  1,
+				Offset: 1,
+			}
+			buf1 = memory.NewResizableBuffer(mem)
+			buf1.Resize(1)
+			buf1.Bytes()[0] = 109
+			ret.Buffers[0].SetBuffer(buf1)
+			ret.Buffers[1].SetBuffer(memory.NewBufferBytes([]byte{5, 5, 5, 5, 5}))
+			return ret
+		}, func(mem memory.Allocator) arrow.ArrayData {
+			// created in the above func, we release after constructing
+			// the NewData so the refcount is as expected
+			defer buf1.Release()
+			return array.NewData(arrow.PrimitiveTypes.Int8, 4,
+				[]*memory.Buffer{buf1, memory.NewBufferBytes([]byte{5, 5, 5, 5, 5})}, nil, 1, 1)
+		}},
+		{"self-alloc", func(mem memory.Allocator) fields {
+			ret := fields{
+				Type: arrow.PrimitiveTypes.Int8,
+				Len:  4,
+			}
+			buf := memory.NewResizableBuffer(mem)
+			buf.Resize(1)
+			ret.Buffers[0].WrapBuffer(buf)
+			buf2 := memory.NewResizableBuffer(mem)
+			buf2.Resize(4)
+			ret.Buffers[1].WrapBuffer(buf2)
+			return ret
+		}, func(mem memory.Allocator) arrow.ArrayData {
+			buf := memory.NewResizableBuffer(mem)
+			buf.Resize(1)
+			defer buf.Release()
+			buf2 := memory.NewResizableBuffer(mem)
+			buf2.Resize(4)
+			defer buf2.Release()
+			return array.NewData(arrow.PrimitiveTypes.Int8, 4, []*memory.Buffer{buf, buf2}, nil, 0, 0)
+		}},
+		{"with children", func(mem memory.Allocator) fields {
+			ret := fields{
+				Type: arrow.ListOf(arrow.PrimitiveTypes.Int8),
+				Len:  1,
+				Children: []exec.ArraySpan{{
+					Type: arrow.PrimitiveTypes.Int8,
+					Len:  4,
+				}},
+			}
+			var offsets [8]byte
+			endian.Native.PutUint32(offsets[4:], 4)
+			ret.Buffers[1].SetBuffer(memory.NewBufferBytes(offsets[:]))
+			buf := memory.NewResizableBuffer(mem)
+			buf.Resize(4)
+			buf.Bytes()[0] = 1
+			buf.Bytes()[1] = 2
+			buf.Bytes()[2] = 3
+			buf.Bytes()[3] = 4
+
+			ret.Children[0].Buffers[1].WrapBuffer(buf)
+			return ret
+		}, func(mem memory.Allocator) arrow.ArrayData {
+			buf := memory.NewResizableBuffer(mem)
+			buf.Resize(4)
+			buf.Bytes()[0] = 1
+			buf.Bytes()[1] = 2
+			buf.Bytes()[2] = 3
+			buf.Bytes()[3] = 4
+			defer buf.Release()
+			child := array.NewData(arrow.PrimitiveTypes.Int8, 4, []*memory.Buffer{nil, buf}, nil, 0, 0)
+			defer child.Release()
+
+			var offsets [8]byte
+			endian.Native.PutUint32(offsets[4:], 4)
+
+			return array.NewData(arrow.ListOf(arrow.PrimitiveTypes.Int8), 1,
+				[]*memory.Buffer{nil, memory.NewBufferBytes(offsets[:])},
+				[]arrow.ArrayData{child}, 0, 0)
+		}},
+		{"dict-extension-type", func(mem memory.Allocator) fields {
+			// dict-extension-type is dict(Index: int8, Value: string)
+			// so there should be an int8 in the arrayspan and
+			// a child of a string arrayspan in the first index of
+			// Children
+			ret := fields{
+				Type: types.NewDictExtensionType(),
+				Len:  1,
+				Children: []exec.ArraySpan{{
+					Type: arrow.BinaryTypes.String,
+					Len:  2,
+				}},
+			}
+
+			indices := memory.NewResizableBuffer(mem)
+			indices.Resize(1)
+			indices.Bytes()[0] = 1
+			ret.Buffers[1].WrapBuffer(indices)
+
+			offsets := memory.NewResizableBuffer(mem)
+			offsets.Resize(3 * arrow.Int32SizeBytes)
+			copy(offsets.Bytes(), arrow.Int32Traits.CastToBytes([]int32{0, 5, 10}))
+
+			values := memory.NewResizableBuffer(mem)
+			values.Resize(len("HelloWorld"))
+			copy(values.Bytes(), []byte("HelloWorld"))
+
+			nulls := memory.NewResizableBuffer(mem)
+			nulls.Resize(1)
+			nulls.Bytes()[0] = 3
+			ret.Children[0].Buffers[0].WrapBuffer(nulls)
+			ret.Children[0].Buffers[1].WrapBuffer(offsets)
+			ret.Children[0].Buffers[2].WrapBuffer(values)
+
+			return ret
+		}, func(mem memory.Allocator) arrow.ArrayData {
+			dict, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["Hello", "World"]`))
+			defer dict.Release()
+			index, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[1]`))
+			defer index.Release()
+
+			out := array.NewData(types.NewDictExtensionType(), 1, []*memory.Buffer{nil, index.Data().Buffers()[1]}, nil, 0, 0)
+			out.SetDictionary(dict.Data())
+			return out
+		}},
+	}
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+			defer mem.AssertSize(t, 0)
+
+			t.Run("MakeData", func(t *testing.T) {
+				f := tt.fields(mem)
+				a := &exec.ArraySpan{
+					Type:     f.Type,
+					Len:      f.Len,
+					Nulls:    f.Nulls,
+					Offset:   f.Offset,
+					Buffers:  f.Buffers,
+					Scratch:  f.Scratch,
+					Children: f.Children,
+				}
+				got := a.MakeData()
+				want := tt.want(mem)
+				if !reflect.DeepEqual(got, want) {
+					t.Errorf("ArraySpan.MakeData() = %v, want %v", got, want)
+				}
+				want.Release()
+				got.Release()
+			})
+
+			t.Run("MakeArray", func(t *testing.T) {
+				f := tt.fields(mem)
+				a := &exec.ArraySpan{
+					Type:     f.Type,
+					Len:      f.Len,
+					Nulls:    f.Nulls,
+					Offset:   f.Offset,
+					Buffers:  f.Buffers,
+					Scratch:  f.Scratch,
+					Children: f.Children,
+				}
+				arr := a.MakeArray()
+				want := tt.want(mem)
+				defer want.Release()
+				exp := array.MakeFromData(want)
+
+				assert.Truef(t, array.Equal(arr, exp), "expected: %s\ngot: %s", exp, arr)
+
+				exp.Release()
+				arr.Release()
+			})
+		})
+	}
+}
+
+func TestArraySpan_SetSlice(t *testing.T) {
+	type fields struct {
+		Type     arrow.DataType
+		Len      int64
+		Nulls    int64
+		Offset   int64
+		Buffers  [3]exec.BufferSpan
+		Scratch  [2]uint64
+		Children []exec.ArraySpan
+	}
+	type args struct {
+		off    int64
+		length int64
+	}
+	tests := []struct {
+		name      string
+		fields    fields
+		args      args
+		wantNulls int64
+	}{
+		{"null type", fields{Type: arrow.Null}, args{5, 10}, 10},
+		{"not-null type", fields{Type: arrow.PrimitiveTypes.Int8}, args{5, 10}, 0},
+		{"not-null type with nulls", fields{Type: arrow.PrimitiveTypes.Int8, Nulls: -1}, args{5, 10}, array.UnknownNullCount},
+	}
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			a := &exec.ArraySpan{
+				Type:     tt.fields.Type,
+				Len:      tt.fields.Len,
+				Nulls:    tt.fields.Nulls,
+				Offset:   tt.fields.Offset,
+				Buffers:  tt.fields.Buffers,
+				Scratch:  tt.fields.Scratch,
+				Children: tt.fields.Children,
+			}
+			a.SetSlice(tt.args.off, tt.args.length)
+			assert.Equal(t, tt.args.off, a.Offset)
+			assert.Equal(t, tt.args.length, a.Len)
+			assert.Equal(t, tt.wantNulls, a.Nulls)
+		})
+	}
+}
+
+func TestArraySpan_FillFromScalar(t *testing.T) {
+	var (
+		expDecimalBuf [arrow.Decimal128SizeBytes]byte
+		expScratch    [2]uint64
+	)
+
+	endian.Native.PutUint64(expDecimalBuf[:], 1234)
+	endian.Native.PutUint32(arrow.Uint64Traits.CastToBytes(expScratch[:])[4:], 10)
+
+	dict, _, _ := array.FromJSON(memory.DefaultAllocator, arrow.BinaryTypes.String, strings.NewReader(`["Hello", "World"]`))
+	defer dict.Release()
+
+	tests := []struct {
+		name string
+		args scalar.Scalar
+		exp  exec.ArraySpan
+	}{
+		{"null-type",
+			scalar.MakeNullScalar(arrow.Null),
+			exec.ArraySpan{Type: arrow.Null, Len: 1, Nulls: 1}},
+		{"bool valid",
+			scalar.MakeScalar(true),
+			exec.ArraySpan{
+				Type:    arrow.FixedWidthTypes.Boolean,
+				Len:     1,
+				Nulls:   0,
+				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x01}}, {Buf: []byte{0x01}}, {}},
+			}},
+		{"bool valid false",
+			scalar.MakeScalar(false),
+			exec.ArraySpan{
+				Type:    arrow.FixedWidthTypes.Boolean,
+				Len:     1,
+				Nulls:   0,
+				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x01}}, {Buf: []byte{0x00}}, {}},
+			}},
+		{"primitive null",
+			scalar.MakeNullScalar(arrow.PrimitiveTypes.Int32),
+			exec.ArraySpan{
+				Type:    arrow.PrimitiveTypes.Int32,
+				Len:     1,
+				Nulls:   1,
+				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x00}}, {Buf: []byte{0, 0, 0, 0}}, {}},
+			}},
+		{"decimal valid",
+			scalar.NewDecimal128Scalar(decimal128.FromU64(1234), &arrow.Decimal128Type{Precision: 12, Scale: 2}),
+			exec.ArraySpan{
+				Type:    &arrow.Decimal128Type{Precision: 12, Scale: 2},
+				Len:     1,
+				Nulls:   0,
+				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x01}}, {Buf: expDecimalBuf[:]}, {}},
+			}},
+		{"dictionary scalar",
+			scalar.NewDictScalar(scalar.NewInt8Scalar(1), dict),
+			exec.ArraySpan{
+				Type:  &arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.BinaryTypes.String},
+				Len:   1,
+				Nulls: 0,
+				Buffers: [3]exec.BufferSpan{{Buf: []byte{0x01}},
+					{Buf: []byte{1}}, {},
+				},
+				Children: []exec.ArraySpan{{
+					Type: arrow.BinaryTypes.String,
+					Len:  2,
+					Buffers: [3]exec.BufferSpan{
+						{Buf: dict.NullBitmapBytes(), Owner: dict.Data().Buffers()[0]},
+						{Buf: dict.Data().Buffers()[1].Bytes(), Owner: dict.Data().Buffers()[1]},
+						{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]},
+					},
+				}},
+			},
+		},
+		{"binary scalar",
+			scalar.NewBinaryScalar(dict.Data().Buffers()[2], arrow.BinaryTypes.String),
+			exec.ArraySpan{
+				Type:    arrow.BinaryTypes.String,
+				Len:     1,
+				Nulls:   0,
+				Scratch: expScratch,
+				Buffers: [3]exec.BufferSpan{
+					{Buf: []byte{0x01}},
+					{Buf: arrow.Uint64Traits.CastToBytes(expScratch[:1])},
+					{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]}},
+			},
+		},
+		{"large binary",
+			scalar.NewLargeStringScalarFromBuffer(dict.Data().Buffers()[2]),
+			exec.ArraySpan{
+				Type:    arrow.BinaryTypes.LargeString,
+				Len:     1,
+				Nulls:   0,
+				Scratch: [2]uint64{0, 10},
+				Buffers: [3]exec.BufferSpan{
+					{Buf: []byte{0x01}},
+					{Buf: arrow.Uint64Traits.CastToBytes([]uint64{0, 10})},
+					{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]}},
+			}},
+		{"fixed size binary",
+			scalar.NewFixedSizeBinaryScalar(dict.Data().Buffers()[2], &arrow.FixedSizeBinaryType{ByteWidth: 10}),
+			exec.ArraySpan{
+				Type: &arrow.FixedSizeBinaryType{ByteWidth: 10},
+				Len:  1,
+				Buffers: [3]exec.BufferSpan{
+					{Buf: []byte{0x01}},
+					{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]}, {},
+				},
+			}},
+		{"map scalar null value",
+			scalar.MakeNullScalar(arrow.MapOf(arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String)),
+			exec.ArraySpan{
+				Type:  arrow.MapOf(arrow.PrimitiveTypes.Int8, arrow.BinaryTypes.String),
+				Len:   1,
+				Nulls: 1,
+				Buffers: [3]exec.BufferSpan{
+					{Buf: []byte{0}},
+					{Buf: []byte{0, 0, 0, 0, 0, 0, 0, 0}},
+					{},
+				},
+				Children: []exec.ArraySpan{{
+					Type: arrow.StructOf(arrow.Field{Name: "key", Type: arrow.PrimitiveTypes.Int8},
+						arrow.Field{Name: "value", Type: arrow.BinaryTypes.String, Nullable: true}),
+					Len:   0,
+					Nulls: 0,
+					Buffers: [3]exec.BufferSpan{
+						{Buf: []byte{}}, {}, {},
+					},
+					Children: []exec.ArraySpan{
+						{
+							Type: arrow.PrimitiveTypes.Int8,
+							Buffers: [3]exec.BufferSpan{
+								{Buf: []byte{}}, {Buf: []byte{}}, {},
+							},
+						},
+						{
+							Type: arrow.BinaryTypes.String,
+							Buffers: [3]exec.BufferSpan{
+								{Buf: []byte{}}, {Buf: []byte{}}, {Buf: []byte{}},
+							},
+						},
+					},
+				}},
+			}},
+		{"list scalar",
+			scalar.NewListScalarData(dict.Data()),
+			exec.ArraySpan{
+				Type: arrow.ListOf(arrow.BinaryTypes.String),
+				Len:  1,
+				Scratch: [2]uint64{
+					*(*uint64)(unsafe.Pointer(&[]int32{0, 2}[0])),
+					0,
+				},
+				Buffers: [3]exec.BufferSpan{
+					{Buf: []byte{0x1}},
+					{Buf: arrow.Int32Traits.CastToBytes([]int32{0, 2})},
+				},
+				Children: []exec.ArraySpan{{
+					Type: arrow.BinaryTypes.String,
+					Len:  2,
+					Buffers: [3]exec.BufferSpan{
+						{Buf: dict.NullBitmapBytes(), Owner: dict.Data().Buffers()[0]},
+						{Buf: dict.Data().Buffers()[1].Bytes(), Owner: dict.Data().Buffers()[1]},
+						{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]},
+					},
+				}},
+			},
+		},
+		{"large list scalar",
+			scalar.NewLargeListScalarData(dict.Data()),
+			exec.ArraySpan{
+				Type:    arrow.LargeListOf(arrow.BinaryTypes.String),
+				Len:     1,
+				Scratch: [2]uint64{0, 2},
+				Buffers: [3]exec.BufferSpan{
+					{Buf: []byte{0x1}},
+					{Buf: arrow.Int64Traits.CastToBytes([]int64{0, 2})},
+				},
+				Children: []exec.ArraySpan{{
+					Type: arrow.BinaryTypes.String,
+					Len:  2,
+					Buffers: [3]exec.BufferSpan{
+						{Buf: dict.NullBitmapBytes(), Owner: dict.Data().Buffers()[0]},
+						{Buf: dict.Data().Buffers()[1].Bytes(), Owner: dict.Data().Buffers()[1]},
+						{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]},
+					},
+				}},
+			},
+		},
+		{"fixed size list",
+			scalar.NewFixedSizeListScalar(dict),
+			exec.ArraySpan{
+				Type: arrow.FixedSizeListOf(2, arrow.BinaryTypes.String),
+				Len:  1,
+				Buffers: [3]exec.BufferSpan{
+					{Buf: []byte{0x1}},
+					{}, {},
+				},
+				Children: []exec.ArraySpan{{
+					Type: arrow.BinaryTypes.String,
+					Len:  2,
+					Buffers: [3]exec.BufferSpan{
+						{Buf: dict.NullBitmapBytes(), Owner: dict.Data().Buffers()[0]},
+						{Buf: dict.Data().Buffers()[1].Bytes(), Owner: dict.Data().Buffers()[1]},
+						{Buf: dict.Data().Buffers()[2].Bytes(), Owner: dict.Data().Buffers()[2]},
+					},
+				}},
+			},
+		},
+		{"struct scalar",
+			func() scalar.Scalar {
+				s, _ := scalar.NewStructScalarWithNames([]scalar.Scalar{
+					scalar.MakeScalar(int32(5)), scalar.MakeScalar(uint8(10)),
+				}, []string{"int32", "uint8"})
+				return s
+			}(),
+			exec.ArraySpan{
+				Type: arrow.StructOf(
+					arrow.Field{Name: "int32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+					arrow.Field{Name: "uint8", Type: arrow.PrimitiveTypes.Uint8, Nullable: true}),
+				Buffers: [3]exec.BufferSpan{
+					{Buf: []byte{0x1}}, {}, {},
+				},
+				Len: 1,
+				Children: []exec.ArraySpan{
+					{
+						Type: arrow.PrimitiveTypes.Int32,
+						Len:  1,
+						Buffers: [3]exec.BufferSpan{
+							{Buf: []byte{0x1}},
+							{Buf: arrow.Int32Traits.CastToBytes([]int32{5})},
+							{},
+						},
+					},
+					{
+						Type: arrow.PrimitiveTypes.Uint8,
+						Len:  1,
+						Buffers: [3]exec.BufferSpan{
+							{Buf: []byte{0x1}},
+							{Buf: []byte{10}},
+							{},
+						},
+					},
+				},
+			},
+		},
+		{"dense union scalar",
+			func() scalar.Scalar {
+				dt := arrow.UnionOf(arrow.DenseMode, []arrow.Field{
+					{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
+					{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
+					{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
+				}, []arrow.UnionTypeCode{3, 42, 43})
+				return scalar.NewDenseUnionScalar(scalar.MakeScalar(uint64(25)), 42, dt.(*arrow.DenseUnionType))
+			}(),
+			exec.ArraySpan{
+				Type: arrow.UnionOf(arrow.DenseMode, []arrow.Field{
+					{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
+					{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
+					{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
+				}, []arrow.UnionTypeCode{3, 42, 43}),
+				Len:     1,
+				Scratch: [2]uint64{42, 1},
+				Buffers: [3]exec.BufferSpan{{},
+					{Buf: []byte{42}}, {Buf: arrow.Int32Traits.CastToBytes([]int32{0, 1})},
+				},
+				Children: []exec.ArraySpan{
+					{
+						Type: arrow.BinaryTypes.String,
+						Buffers: [3]exec.BufferSpan{
+							{Buf: []byte{}}, {Buf: []byte{}}, {Buf: []byte{}},
+						},
+					},
+					{
+						Type: arrow.PrimitiveTypes.Uint64,
+						Len:  1,
+						Buffers: [3]exec.BufferSpan{
+							{Buf: []byte{0x1}},
+							{Buf: arrow.Uint64Traits.CastToBytes([]uint64{25})},
+							{},
+						},
+					},
+					{
+						Type: arrow.PrimitiveTypes.Uint64,
+						Buffers: [3]exec.BufferSpan{
+							{Buf: []byte{}}, {Buf: []byte{}}, {},
+						},
+					},
+				},
+			},
+		},
+		{"sparse union",
+			func() scalar.Scalar {
+				dt := arrow.UnionOf(arrow.SparseMode, []arrow.Field{
+					{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
+					{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
+					{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
+				}, []arrow.UnionTypeCode{3, 42, 43})
+				return scalar.NewSparseUnionScalarFromValue(scalar.MakeScalar(uint64(25)), 1, dt.(*arrow.SparseUnionType))
+			}(),
+			exec.ArraySpan{
+				Type: arrow.UnionOf(arrow.SparseMode, []arrow.Field{
+					{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
+					{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
+					{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
+				}, []arrow.UnionTypeCode{3, 42, 43}),
+				Len:     1,
+				Scratch: [2]uint64{42, 0},
+				Buffers: [3]exec.BufferSpan{{},
+					{Buf: []byte{42}}, {},
+				},
+				Children: []exec.ArraySpan{
+					{
+						Type:  arrow.BinaryTypes.String,
+						Len:   1,
+						Nulls: 1,
+						Buffers: [3]exec.BufferSpan{
+							{Buf: []byte{0x0}},
+							{Buf: []byte{0, 0, 0, 0, 0, 0, 0, 0}},
+							{},
+						},
+					},
+					{
+						Type: arrow.PrimitiveTypes.Uint64,
+						Len:  1,
+						Buffers: [3]exec.BufferSpan{
+							{Buf: []byte{0x1}},
+							{Buf: arrow.Uint64Traits.CastToBytes([]uint64{25})},
+							{},
+						},
+					},
+					{
+						Type:  arrow.PrimitiveTypes.Uint64,
+						Len:   1,
+						Nulls: 1,
+						Buffers: [3]exec.BufferSpan{
+							{Buf: []byte{0x0}}, {Buf: []byte{0, 0, 0, 0, 0, 0, 0, 0}}, {},
+						},
+					},
+				},
+			},
+		},
+	}
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			a := &exec.ArraySpan{
+				Nulls:   array.UnknownNullCount,
+				Buffers: [3]exec.BufferSpan{{SelfAlloc: true, Owner: &memory.Buffer{}}, {SelfAlloc: true, Owner: &memory.Buffer{}}, {}},
+			}
+			a.FillFromScalar(tt.args)
+			assert.Equal(t, tt.exp, *a)
+		})
+	}
+}
diff --git a/go/arrow/compute/internal/exec/utils.go b/go/arrow/compute/internal/exec/utils.go
new file mode 100644
index 00000000000..d6207dac010
--- /dev/null
+++ b/go/arrow/compute/internal/exec/utils.go
@@ -0,0 +1,392 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package exec
+
+import (
+	"fmt"
+	"math"
+	"reflect"
+	"sync/atomic"
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/float16"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"golang.org/x/exp/constraints"
+	"golang.org/x/exp/slices"
+)
+
+// IntTypes is a type constraint for raw values represented as signed
+// integer types by Arrow. We aren't just using constraints.Signed
+// because we don't want to include the raw `int` type here whose size
+// changes based on the architecture (int32 on 32-bit architectures and
+// int64 on 64-bit architectures).
+//
+// This will also cover types like MonthInterval or the time types
+// as their underlying types are int32 and int64 which will get covered
+// by using the ~
+type IntTypes interface {
+	~int8 | ~int16 | ~int32 | ~int64
+}
+
+// UintTypes is a type constraint for raw values represented as unsigned
+// integer types by Arrow. We aren't just using constraints.Unsigned
+// because we don't want to include the raw `uint` type here whose size
+// changes based on the architecture (uint32 on 32-bit architectures and
+// uint64 on 64-bit architectures). We also don't want to include uintptr
+type UintTypes interface {
+	~uint8 | ~uint16 | ~uint32 | ~uint64
+}
+
+// FloatTypes is a type constraint for raw values for representing
+// floating point values in Arrow. This consists of constraints.Float and
+// float16.Num
+type FloatTypes interface {
+	float16.Num | constraints.Float
+}
+
+// NumericTypes is a type constraint for just signed/unsigned integers
+// and float32/float64.
+type NumericTypes interface {
+	IntTypes | UintTypes | constraints.Float
+}
+
+// DecimalTypes is a type constraint for raw values representing larger
+// decimal type values in Arrow, specifically decimal128 and decimal256.
+type DecimalTypes interface {
+	decimal128.Num | decimal256.Num
+}
+
+// FixedWidthTypes is a type constraint for raw values in Arrow that
+// can be represented as FixedWidth byte slices. Specifically this is for
+// using Go generics to easily re-type a byte slice to a properly-typed
+// slice. Booleans are excluded here since they are represented by Arrow
+// as a bitmap and thus the buffer can't be just reinterpreted as a []bool
+type FixedWidthTypes interface {
+	IntTypes | UintTypes |
+		FloatTypes | DecimalTypes |
+		arrow.DayTimeInterval | arrow.MonthDayNanoInterval
+}
+
+type TemporalTypes interface {
+	arrow.Date32 | arrow.Date64 | arrow.Time32 | arrow.Time64 |
+		arrow.Timestamp | arrow.Duration | arrow.DayTimeInterval |
+		arrow.MonthInterval | arrow.MonthDayNanoInterval
+}
+
+func GetValues[T FixedWidthTypes](data arrow.ArrayData, i int) []T {
+	if data.Buffers()[i] == nil || data.Buffers()[i].Len() == 0 {
+		return nil
+	}
+	ret := unsafe.Slice((*T)(unsafe.Pointer(&data.Buffers()[i].Bytes()[0])), data.Offset()+data.Len())
+	return ret[data.Offset():]
+}
+
+// GetSpanValues returns a properly typed slice by reinterpreting
+// the buffer at index i using unsafe.Slice. This will take into account
+// the offset of the given ArraySpan.
+func GetSpanValues[T FixedWidthTypes](span *ArraySpan, i int) []T {
+	if len(span.Buffers[i].Buf) == 0 {
+		return nil
+	}
+	ret := unsafe.Slice((*T)(unsafe.Pointer(&span.Buffers[i].Buf[0])), span.Offset+span.Len)
+	return ret[span.Offset:]
+}
+
+// GetSpanOffsets is like GetSpanValues, except it is only for int32
+// or int64 and adds the additional 1 expected value for an offset
+// buffer (ie. len(output) == span.Len+1)
+func GetSpanOffsets[T int32 | int64](span *ArraySpan, i int) []T {
+	ret := unsafe.Slice((*T)(unsafe.Pointer(&span.Buffers[i].Buf[0])), span.Offset+span.Len+1)
+	return ret[span.Offset:]
+}
+
+func GetBytes[T FixedWidthTypes](in []T) []byte {
+	var z T
+	return unsafe.Slice((*byte)(unsafe.Pointer(&in[0])), len(in)*int(unsafe.Sizeof(z)))
+}
+
+func GetData[T FixedWidthTypes](in []byte) []T {
+	var z T
+	return unsafe.Slice((*T)(unsafe.Pointer(&in[0])), len(in)/int(unsafe.Sizeof(z)))
+}
+
+func Min[T constraints.Ordered](a, b T) T {
+	if a < b {
+		return a
+	}
+	return b
+}
+
+func Max[T constraints.Ordered](a, b T) T {
+	if a > b {
+		return a
+	}
+	return b
+}
+
+// OptionsInit should be used in the case where a KernelState is simply
+// represented with a specific type by value (instead of pointer).
+// This will initialize the KernelState as a value-copied instance of
+// the passed in function options argument to ensure separation
+// and allow the kernel to manipulate the options if necessary without
+// any negative consequences since it will have its own copy of the options.
+func OptionsInit[T any](_ *KernelCtx, args KernelInitArgs) (KernelState, error) {
+	if opts, ok := args.Options.(*T); ok {
+		return *opts, nil
+	}
+
+	return nil, fmt.Errorf("%w: attempted to initialize kernel state from invalid function options",
+		arrow.ErrInvalid)
+}
+
+var typMap = map[reflect.Type]arrow.DataType{
+	reflect.TypeOf(false):           arrow.FixedWidthTypes.Boolean,
+	reflect.TypeOf(int8(0)):         arrow.PrimitiveTypes.Int8,
+	reflect.TypeOf(int16(0)):        arrow.PrimitiveTypes.Int16,
+	reflect.TypeOf(int32(0)):        arrow.PrimitiveTypes.Int32,
+	reflect.TypeOf(int64(0)):        arrow.PrimitiveTypes.Int64,
+	reflect.TypeOf(uint8(0)):        arrow.PrimitiveTypes.Uint8,
+	reflect.TypeOf(uint16(0)):       arrow.PrimitiveTypes.Uint16,
+	reflect.TypeOf(uint32(0)):       arrow.PrimitiveTypes.Uint32,
+	reflect.TypeOf(uint64(0)):       arrow.PrimitiveTypes.Uint64,
+	reflect.TypeOf(float32(0)):      arrow.PrimitiveTypes.Float32,
+	reflect.TypeOf(float64(0)):      arrow.PrimitiveTypes.Float64,
+	reflect.TypeOf(string("")):      arrow.BinaryTypes.String,
+	reflect.TypeOf(arrow.Date32(0)): arrow.FixedWidthTypes.Date32,
+	reflect.TypeOf(arrow.Date64(0)): arrow.FixedWidthTypes.Date64,
+	reflect.TypeOf(true):            arrow.FixedWidthTypes.Boolean,
+	reflect.TypeOf(float16.Num{}):   arrow.FixedWidthTypes.Float16,
+}
+
+// GetDataType returns the appropriate arrow.DataType for the given type T
+// only for non-parametric types. This uses a map and reflection internally
+// so don't call this in a tight loop, instead call this once and then use
+// a closure with the result.
+func GetDataType[T NumericTypes | bool | string | float16.Num]() arrow.DataType {
+	var z T
+	return typMap[reflect.TypeOf(z)]
+}
+
+// GetType returns the appropriate arrow.Type type T, only for non-parameteric
+// types. This uses a map and reflection internally so don't call this in
+// a tight loop, instead call it once and then use a closure with the result.
+func GetType[T NumericTypes | bool | string]() arrow.Type {
+	var z T
+	return typMap[reflect.TypeOf(z)].ID()
+}
+
+type arrayBuilder[T NumericTypes | bool] interface {
+	array.Builder
+	Append(T)
+	AppendValues([]T, []bool)
+}
+
+func ArrayFromSlice[T NumericTypes | bool](mem memory.Allocator, data []T) arrow.Array {
+	bldr := array.NewBuilder(mem, typMap[reflect.TypeOf(data).Elem()]).(arrayBuilder[T])
+	defer bldr.Release()
+
+	bldr.AppendValues(data, nil)
+	return bldr.NewArray()
+}
+
+func ArrayFromSliceWithValid[T NumericTypes | bool](mem memory.Allocator, data []T, valid []bool) arrow.Array {
+	bldr := array.NewBuilder(mem, typMap[reflect.TypeOf(data).Elem()]).(arrayBuilder[T])
+	defer bldr.Release()
+
+	bldr.AppendValues(data, valid)
+	return bldr.NewArray()
+}
+
+func RechunkArraysConsistently(groups [][]arrow.Array) [][]arrow.Array {
+	if len(groups) <= 1 {
+		return groups
+	}
+
+	var totalLen int
+	for _, a := range groups[0] {
+		totalLen += a.Len()
+	}
+
+	if totalLen == 0 {
+		return groups
+	}
+
+	rechunked := make([][]arrow.Array, len(groups))
+	offsets := make([]int, len(groups))
+	// scan all array vectors at once, rechunking along the way
+	var start int64
+	for start < int64(totalLen) {
+		// first compute max possible length for next chunk
+		chunkLength := math.MaxInt64
+		for i, g := range groups {
+			offset := offsets[i]
+			// skip any done arrays including 0-length
+			for offset == g[0].Len() {
+				g = g[1:]
+				offset = 0
+			}
+			arr := g[0]
+			chunkLength = Min(chunkLength, arr.Len()-offset)
+
+			offsets[i] = offset
+			groups[i] = g
+		}
+
+		// now slice all the arrays along this chunk size
+		for i, g := range groups {
+			offset := offsets[i]
+			arr := g[0]
+			if offset == 0 && arr.Len() == chunkLength {
+				// slice spans entire array
+				arr.Retain()
+				rechunked[i] = append(rechunked[i], arr)
+			} else {
+				rechunked[i] = append(rechunked[i], array.NewSlice(arr, int64(offset), int64(offset+chunkLength)))
+			}
+			offsets[i] += chunkLength
+		}
+
+		start += int64(chunkLength)
+	}
+	return rechunked
+}
+
+type ChunkResolver struct {
+	offsets []int64
+	cached  int64
+}
+
+func NewChunkResolver(chunks []arrow.Array) *ChunkResolver {
+	offsets := make([]int64, len(chunks)+1)
+	var offset int64
+	for i, c := range chunks {
+		curOffset := offset
+		offset += int64(c.Len())
+		offsets[i] = curOffset
+	}
+	offsets[len(chunks)] = offset
+	return &ChunkResolver{offsets: offsets}
+}
+
+func (c *ChunkResolver) Resolve(idx int64) (chunk, index int64) {
+	// some algorithms consecutively access indexes that are a
+	// relatively small distance from each other, falling into
+	// the same chunk.
+	// This is trivial when merging (assuming each side of the
+	// merge uses its own resolver), but also in the inner
+	// recursive invocations of partitioning.
+	if len(c.offsets) <= 1 {
+		return 0, idx
+	}
+
+	cached := atomic.LoadInt64(&c.cached)
+	cacheHit := idx >= c.offsets[cached] && idx < c.offsets[cached+1]
+	if cacheHit {
+		return cached, idx - c.offsets[cached]
+	}
+
+	chkIdx, found := slices.BinarySearch(c.offsets, idx)
+	if !found {
+		chkIdx--
+	}
+
+	chunk, index = int64(chkIdx), idx-c.offsets[chkIdx]
+	atomic.StoreInt64(&c.cached, chunk)
+	return
+}
+
+type arrayTypes interface {
+	FixedWidthTypes | TemporalTypes | bool | string | []byte
+}
+
+type ArrayIter[T arrayTypes] interface {
+	Next() T
+}
+
+type BoolIter struct {
+	Rdr *bitutil.BitmapReader
+}
+
+func NewBoolIter(arr *ArraySpan) ArrayIter[bool] {
+	return &BoolIter{
+		Rdr: bitutil.NewBitmapReader(arr.Buffers[1].Buf, int(arr.Offset), int(arr.Len))}
+}
+
+func (b *BoolIter) Next() (out bool) {
+	out = b.Rdr.Set()
+	b.Rdr.Next()
+	return
+}
+
+type PrimitiveIter[T FixedWidthTypes] struct {
+	Values []T
+}
+
+func NewPrimitiveIter[T FixedWidthTypes](arr *ArraySpan) ArrayIter[T] {
+	return &PrimitiveIter[T]{Values: GetSpanValues[T](arr, 1)}
+}
+
+func (p *PrimitiveIter[T]) Next() (v T) {
+	v = p.Values[0]
+	p.Values = p.Values[1:]
+	return
+}
+
+type VarBinaryIter[OffsetT int32 | int64] struct {
+	Offsets []OffsetT
+	Data    []byte
+	Pos     int64
+}
+
+func NewVarBinaryIter[OffsetT int32 | int64](arr *ArraySpan) ArrayIter[[]byte] {
+	return &VarBinaryIter[OffsetT]{
+		Offsets: GetSpanOffsets[OffsetT](arr, 1),
+		Data:    arr.Buffers[2].Buf,
+	}
+}
+
+func (v *VarBinaryIter[OffsetT]) Next() []byte {
+	cur := v.Pos
+	v.Pos++
+	return v.Data[v.Offsets[cur]:v.Offsets[v.Pos]]
+}
+
+type FSBIter struct {
+	Data  []byte
+	Width int
+	Pos   int64
+}
+
+func NewFSBIter(arr *ArraySpan) ArrayIter[[]byte] {
+	return &FSBIter{
+		Data:  arr.Buffers[1].Buf,
+		Width: arr.Type.(arrow.FixedWidthDataType).Bytes(),
+	}
+}
+
+func (f *FSBIter) Next() []byte {
+	start := f.Width * int(f.Pos)
+	f.Pos++
+	return f.Data[start : start+f.Width]
+}
diff --git a/go/arrow/compute/internal/exec/utils_test.go b/go/arrow/compute/internal/exec/utils_test.go
new file mode 100644
index 00000000000..0109405ce66
--- /dev/null
+++ b/go/arrow/compute/internal/exec/utils_test.go
@@ -0,0 +1,111 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package exec_test
+
+import (
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/stretchr/testify/assert"
+)
+
+func TestRechunkConsistentArraysTrivial(t *testing.T) {
+	var groups [][]arrow.Array
+	rechunked := exec.RechunkArraysConsistently(groups)
+	assert.Zero(t, rechunked)
+
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(t, 0)
+
+	a1 := exec.ArrayFromSlice(mem, []int16{})
+	defer a1.Release()
+	a2 := exec.ArrayFromSlice(mem, []int16{})
+	defer a2.Release()
+	b1 := exec.ArrayFromSlice(mem, []int32{})
+	defer b1.Release()
+	groups = [][]arrow.Array{{a1, a2}, {}, {b1}}
+	rechunked = exec.RechunkArraysConsistently(groups)
+	assert.Len(t, rechunked, 3)
+
+	for _, arrvec := range rechunked {
+		for _, arr := range arrvec {
+			assert.Zero(t, arr.Len())
+		}
+	}
+}
+
+func assertEqual[T exec.NumericTypes](t *testing.T, mem memory.Allocator, arr arrow.Array, data []T) {
+	exp := exec.ArrayFromSlice(mem, data)
+	defer exp.Release()
+	assert.Truef(t, array.Equal(exp, arr), "expected: %s\ngot: %s", exp, arr)
+}
+
+func TestRechunkArraysConsistentlyPlain(t *testing.T) {
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(t, 0)
+
+	a1 := exec.ArrayFromSlice(mem, []int16{1, 2, 3})
+	defer a1.Release()
+	a2 := exec.ArrayFromSlice(mem, []int16{4, 5})
+	defer a2.Release()
+	a3 := exec.ArrayFromSlice(mem, []int16{6, 7, 8, 9})
+	defer a3.Release()
+
+	b1 := exec.ArrayFromSlice(mem, []int32{41, 42})
+	defer b1.Release()
+	b2 := exec.ArrayFromSlice(mem, []int32{43, 44, 45})
+	defer b2.Release()
+	b3 := exec.ArrayFromSlice(mem, []int32{46, 47})
+	defer b3.Release()
+	b4 := exec.ArrayFromSlice(mem, []int32{48, 49})
+	defer b4.Release()
+
+	groups := [][]arrow.Array{{a1, a2, a3}, {b1, b2, b3, b4}}
+	rechunked := exec.RechunkArraysConsistently(groups)
+	assert.Len(t, rechunked, 2)
+	ra := rechunked[0]
+	rb := rechunked[1]
+
+	assert.Len(t, ra, 5)
+	assertEqual(t, mem, ra[0], []int16{1, 2})
+	ra[0].Release()
+	assertEqual(t, mem, ra[1], []int16{3})
+	ra[1].Release()
+	assertEqual(t, mem, ra[2], []int16{4, 5})
+	ra[2].Release()
+	assertEqual(t, mem, ra[3], []int16{6, 7})
+	ra[3].Release()
+	assertEqual(t, mem, ra[4], []int16{8, 9})
+	ra[4].Release()
+
+	assert.Len(t, rb, 5)
+	assertEqual(t, mem, rb[0], []int32{41, 42})
+	rb[0].Release()
+	assertEqual(t, mem, rb[1], []int32{43})
+	rb[1].Release()
+	assertEqual(t, mem, rb[2], []int32{44, 45})
+	rb[2].Release()
+	assertEqual(t, mem, rb[3], []int32{46, 47})
+	rb[3].Release()
+	assertEqual(t, mem, rb[4], []int32{48, 49})
+	rb[4].Release()
+}
diff --git a/go/arrow/compute/internal/kernels/Makefile b/go/arrow/compute/internal/kernels/Makefile
new file mode 100644
index 00000000000..ac00bd837c0
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/Makefile
@@ -0,0 +1,110 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+# this converts rotate instructions from "ro[lr] <reg>" -> "ro[lr] <reg>, 1" for yasm compatibility
+PERL_FIXUP_ROTATE=perl -i -pe 's/(ro[rl]\s+\w{2,3})$$/\1, 1/'
+
+C2GOASM=c2goasm
+CC=clang-11
+CXX=clang++-11
+C_FLAGS=-target x86_64-unknown-none -masm=intel -mno-red-zone -mstackrealign -mllvm -inline-threshold=5000 \
+				-fno-asynchronous-unwind-tables -fno-exceptions -fno-rtti -O3 -fno-builtin -ffast-math -fno-jump-tables -I_lib -I../../../../internal/utils/_lib
+ASM_FLAGS_AVX2=-mavx2 -mfma
+ASM_FLAGS_SSE4=-msse4
+ASM_FLAGS_BMI2=-mbmi2
+ASM_FLAGS_POPCNT=-mpopcnt
+
+C_FLAGS_NEON=-O3 -fvectorize -mllvm -force-vector-width=16 -fno-asynchronous-unwind-tables -mno-red-zone -mstackrealign -fno-exceptions \
+	-fno-rtti -fno-builtin -ffast-math -fno-jump-tables -I_lib -I../../../../internal/utils/_lib
+
+GO_SOURCES  := $(shell find . -path ./_lib -prune -o -name '*.go' -not -name '*_test.go')
+ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -not -name '*_test.go')
+
+.PHONEY: assembly
+
+INTEL_SOURCES := \
+	cast_numeric_avx2_amd64.s cast_numeric_sse4_amd64.s constant_factor_avx2_amd64.s \
+	constant_factor_sse4_amd64.s base_arithmetic_avx2_amd64.s base_arithmetic_sse4_amd64.s \
+	scalar_comparison_avx2_amd64.s scalar_comparison_sse4_amd64.s
+
+#
+# ARROW-15336: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
+# min_max_neon_arm64.s was generated by asm2plan9s.
+# And manually formatted it as the Arm64 Plan9.
+#
+
+assembly: $(INTEL_SOURCES)
+
+_lib/cast_numeric_avx2_amd64.s: _lib/cast_numeric.cc
+	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@	
+
+_lib/cast_numeric_sse4_amd64.s: _lib/cast_numeric.cc
+	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
+
+_lib/cast_numeric_neon.s: _lib/cast_numeric.cc
+	$(CXX) -std=c++17 -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
+
+_lib/base_arithmetic_avx2_amd64.s: _lib/base_arithmetic.cc
+	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
+
+_lib/base_arithmetic_sse4_amd64.s: _lib/base_arithmetic.cc
+	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
+
+_lib/scalar_comparison_avx2_amd64.s: _lib/scalar_comparison.cc
+	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@	
+
+_lib/scalar_comparison_sse4_amd64.s: _lib/scalar_comparison.cc
+	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
+
+_lib/base_arithmetic_neon.s: _lib/base_arithmetic.cc
+	$(CXX) -std=c++17 -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
+
+_lib/constant_factor_avx2_amd64.s: _lib/constant_factor.c
+	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
+
+_lib/constant_factor_sse4_amd64.s: _lib/constant_factor.c
+	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
+
+_lib/constant_factor_neon.s: _lib/constant_factor.c
+	$(CC) -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
+
+cast_numeric_avx2_amd64.s: _lib/cast_numeric_avx2_amd64.s
+	$(C2GOASM) -a -f $^ $@
+
+cast_numeric_sse4_amd64.s: _lib/cast_numeric_sse4_amd64.s
+	$(C2GOASM) -a -f $^ $@
+
+constant_factor_avx2_amd64.s: _lib/constant_factor_avx2_amd64.s
+	$(C2GOASM) -a -f $^ $@
+
+constant_factor_sse4_amd64.s: _lib/constant_factor_sse4_amd64.s
+	$(C2GOASM) -a -f $^ $@
+
+base_arithmetic_avx2_amd64.s: _lib/base_arithmetic_avx2_amd64.s
+	$(C2GOASM) -a -f $^ $@
+
+base_arithmetic_sse4_amd64.s: _lib/base_arithmetic_sse4_amd64.s
+	$(C2GOASM) -a -f $^ $@
+
+scalar_comparison_avx2_amd64.s: _lib/scalar_comparison_avx2_amd64.s	
+	$(C2GOASM) -a -f $^ $@
+
+scalar_comparison_sse4_amd64.s: _lib/scalar_comparison_sse4_amd64.s
+	$(C2GOASM) -a -f $^ $@
+
+clean:
+	rm -f $(INTEL_SOURCES)
+	rm -f $(addprefix _lib/,$(INTEL_SOURCES))
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc b/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
new file mode 100644
index 00000000000..199c9d48ac6
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
@@ -0,0 +1,484 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+#include <arch.h>
+#include <math.h>
+#include <stdint.h>
+#include <limits.h>
+#include "types.h"
+#include "vendored/safe-math.h"
+
+// Corresponds to equivalent ArithmeticOp enum in base_arithmetic.go
+// for passing across which operation to perform. This allows simpler
+// implementation at the cost of having to pass the extra int8 and
+// perform a switch.
+//
+// In cases of small arrays, this is completely negligible. In cases
+// of large arrays, the time saved by using SIMD here is significantly
+// worth the cost.
+enum class optype : int8_t {
+    ADD,
+    SUB,
+    MUL,
+    DIV,
+    ABSOLUTE_VALUE,
+    NEGATE,
+    SQRT,
+    POWER,
+    SIN,
+    COS,
+    TAN,
+    ASIN,
+    ACOS,
+    ATAN,
+    ATAN2,
+    LN,
+    LOG10,
+    LOG2,
+    LOG1P,
+    LOGB,
+    SIGN,
+
+    // this impl doesn't actually perform any overflow checks as we need
+    // to only run overflow checks on non-null entries
+    ADD_CHECKED,
+    SUB_CHECKED,
+    MUL_CHECKED,
+    DIV_CHECKED,
+    ABSOLUTE_VALUE_CHECKED,
+    NEGATE_CHECKED,
+    SQRT_CHECKED,
+    POWER_CHECKED,
+    SIN_CHECKED,
+    COS_CHECKED,
+    TAN_CHECKED,
+    ASIN_CHECKED,
+    ACOS_CHECKED,    
+    LN_CHECKED,
+    LOG10_CHECKED,
+    LOG2_CHECKED,
+    LOG1P_CHECKED,
+    LOGB_CHECKED,
+};
+
+struct Add {
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr T Call(Arg0 left, Arg1 right) {
+        if constexpr (is_arithmetic_v<T>)
+            return left + right;
+    }
+};
+
+struct Sub {
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr T Call(Arg0 left, Arg1 right) {
+        if constexpr (is_arithmetic_v<T>)
+            return left - right;
+    }
+};
+
+struct AddChecked {
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr T Call(Arg0 left, Arg1 right) {
+        static_assert(is_same<T, Arg0>::value && is_same<T, Arg1>::value, "");
+        if constexpr(is_arithmetic_v<T>) {
+            return left + right;
+        }
+    }
+};
+
+
+struct SubChecked {
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr T Call(Arg0 left, Arg1 right) {
+        static_assert(is_same<T, Arg0>::value && is_same<T, Arg1>::value, "");
+        if constexpr(is_arithmetic_v<T>) {
+            return left - right;
+        }
+    }
+};
+
+template <typename T>
+using maybe_make_unsigned = conditional_t<is_integral_v<T> && !is_same_v<T, bool>, make_unsigned_t<T>, T>;
+
+template <typename T, typename Unsigned = maybe_make_unsigned<T>>
+constexpr Unsigned to_unsigned(T signed_) {
+    return static_cast<Unsigned>(signed_);
+}
+
+struct Multiply {
+    static_assert(is_same_v<decltype(int8_t() * int8_t()), int32_t>, "");
+    static_assert(is_same_v<decltype(uint8_t() * uint8_t()), int32_t>, "");
+    static_assert(is_same_v<decltype(int16_t() * int16_t()), int32_t>, "");
+    static_assert(is_same_v<decltype(uint16_t() * uint16_t()), int32_t>, "");
+    static_assert(is_same_v<decltype(int32_t() * int32_t()), int32_t>, "");
+    static_assert(is_same_v<decltype(uint32_t() * uint32_t()), uint32_t>, "");
+    static_assert(is_same_v<decltype(int64_t() * int64_t()), int64_t>, "");
+    static_assert(is_same_v<decltype(uint64_t() * uint64_t()), uint64_t>, "");
+
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr T Call(Arg0 left, Arg1 right) {
+        static_assert(is_same_v<T, Arg0> && is_same_v<T, Arg1>, "");
+        if constexpr(is_floating_point_v<T>) {
+            return left * right;
+        } else if constexpr(is_unsigned_v<T> && !is_same_v<T, uint16_t>) {
+            return left * right;
+        } else if constexpr(is_signed_v<T> && !is_same_v<T, int16_t>) {
+            return to_unsigned(left) * to_unsigned(right);
+        } else if constexpr(is_same_v<T, int16_t> || is_same_v<T, uint16_t>) {
+            // multiplication of 16 bit integer types implicitly promotes to
+            // signed 32 bit integer. However, some inputs may overflow (which
+            // triggers undefined behavior). Therefore we first cast to 32 bit
+            // unsigned integers where overflow is well defined.
+            return static_cast<uint32_t>(left) * static_cast<uint32_t>(right);
+        }
+    }
+};
+
+struct MultiplyChecked {
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr T Call(Arg0 left, Arg1 right) {
+        static_assert(is_same_v<T, Arg0> && is_same_v<T, Arg1>, "");
+        if constexpr(is_arithmetic_v<T>) {
+            return left * right;
+        }
+    }
+};
+
+struct AbsoluteValue {
+    template <typename T, typename Arg>
+    static constexpr T Call(Arg input) {
+        if constexpr(is_same_v<Arg, float>) {
+            *(((int*)&input)+0) &= 0x7fffffff;
+            return input;
+        } else if constexpr(is_same_v<Arg, double>) {
+            *(((int*)&input)+1) &= 0x7fffffff;
+            return input;
+        } else if constexpr(is_unsigned_v<Arg>) {
+            return input;
+        } else {
+            const auto mask = input >> (sizeof(Arg) * CHAR_BIT - 1);
+            return (input + mask) ^ mask;
+        }
+    }
+};
+
+struct AbsoluteValueChecked {
+    template <typename T, typename Arg>
+    static constexpr T Call(Arg input) {
+        if constexpr(is_same_v<Arg, float>) {
+            *(((int*)&input)+0) &= 0x7fffffff;
+            return input;
+        } else if constexpr(is_same_v<Arg, double>) {
+            *(((int*)&input)+1) &= 0x7fffffff;
+            return input;
+        } else if constexpr(is_unsigned_v<Arg>) {
+            return input;
+        } else {
+            const auto mask = input >> (sizeof(Arg) * CHAR_BIT - 1);
+            return (input + mask) ^ mask;
+        }
+    }
+};
+
+struct Negate {
+    template <typename T, typename Arg>
+    static constexpr T Call(Arg input) {
+        if constexpr(is_floating_point_v<Arg>) {
+            return -input;
+        } else if constexpr(is_unsigned_v<Arg>) {
+            return ~input + 1;
+        } else {
+            return -input;
+        }
+    }
+};
+
+struct NegateChecked {
+    template <typename T, typename Arg>
+    static constexpr T Call(Arg input) {
+        static_assert(is_same_v<T, Arg>, "");
+        if constexpr(is_floating_point_v<Arg>) {
+            return -input;
+        } else if constexpr(is_unsigned_v<Arg>) {
+            return 0;
+        } else {
+            return -input;
+        }
+    }
+};
+
+struct Sign {
+    template <typename T, typename Arg>
+    static constexpr T Call(Arg input) {
+        if constexpr(is_floating_point_v<Arg>) {
+            return isnan(input) ? input : ((input == 0) ? 0 : (signbit(input) ? -1 : 1));
+        } else if constexpr(is_unsigned_v<Arg>) {
+            return input > 0 ? 1 : 0;
+        } else if constexpr(is_signed_v<Arg>) {
+            return input > 0 ? 1 : (input ? -1 : 0);
+        }
+    }
+};
+
+template <typename T, typename Op, typename OutT = T>
+struct arithmetic_op_arr_arr_impl {
+    static inline void exec(const void* in_left, const void* in_right, void* out, const int len) {
+        const T* left = reinterpret_cast<const T*>(in_left);
+        const T* right = reinterpret_cast<const T*>(in_right);
+        OutT* output = reinterpret_cast<OutT*>(out);
+
+        for (int i = 0; i < len; ++i) {
+            output[i] = Op::template Call<OutT, T, T>(left[i], right[i]);
+        }
+    }
+};
+
+template <typename T, typename Op, typename OutT = T>
+struct arithmetic_op_arr_scalar_impl {
+    static inline void exec(const void* in_left, const void* scalar_right, void* out, const int len) {
+        const T* left = reinterpret_cast<const T*>(in_left);
+        const T right = *reinterpret_cast<const T*>(scalar_right);
+        OutT* output = reinterpret_cast<OutT*>(out);
+
+        for (int i = 0; i < len; ++i) {
+            output[i] = Op::template Call<OutT, T, T>(left[i], right);
+        }
+    }
+};
+
+template <typename T, typename Op, typename OutT = T>
+struct arithmetic_op_scalar_arr_impl {
+    static inline void exec(const void* scalar_left, const void* in_right, void* out, const int len) {
+        const T left = *reinterpret_cast<const T*>(scalar_left);
+        const T* right = reinterpret_cast<const T*>(in_right);
+        OutT* output = reinterpret_cast<OutT*>(out);
+
+        for (int i = 0; i < len; ++i) {
+            output[i] = Op::template Call<OutT, T, T>(left, right[i]);
+        }
+    }
+};
+
+template <typename T, typename Op, typename OutT = T>
+struct arithmetic_unary_op_impl {
+    static inline void exec(const void* arg, void* out, const int len) {
+        const T* input = reinterpret_cast<const T*>(arg);
+        OutT* output = reinterpret_cast<OutT*>(out);
+
+        for (int i = 0; i < len; ++i) {
+            output[i] = Op::template Call<OutT, T>(input[i]);
+        }
+    }
+};
+
+template <typename Op, template<typename...> typename Impl>
+static inline void arithmetic_op(const int type, const void* in_left, const void* in_right, void* output, const int len) {
+    const auto intype = static_cast<arrtype>(type);
+
+    switch (intype) {
+    case arrtype::UINT8:
+        return Impl<uint8_t, Op>::exec(in_left, in_right, output, len);
+    case arrtype::INT8:
+        return Impl<int8_t, Op>::exec(in_left, in_right, output, len);
+    case arrtype::UINT16:
+        return Impl<uint16_t, Op>::exec(in_left, in_right, output, len);
+    case arrtype::INT16:
+        return Impl<int16_t, Op>::exec(in_left, in_right, output, len);
+    case arrtype::UINT32:
+        return Impl<uint32_t, Op>::exec(in_left, in_right, output, len);
+    case arrtype::INT32:
+        return Impl<int32_t, Op>::exec(in_left, in_right, output, len);
+    case arrtype::UINT64:
+        return Impl<uint64_t, Op>::exec(in_left, in_right, output, len);
+    case arrtype::INT64:
+        return Impl<int64_t, Op>::exec(in_left, in_right, output, len);
+    case arrtype::FLOAT32:
+        return Impl<float, Op>::exec(in_left, in_right, output, len);
+    case arrtype::FLOAT64:
+        return Impl<double, Op>::exec(in_left, in_right, output, len);
+    default:
+        break;
+    }
+}
+
+template <typename Op, template <typename...> typename Impl, typename Input>
+static inline void arithmetic_op(const int otype, const void* input, void* output, const int len) {
+    const auto outtype = static_cast<arrtype>(otype);
+
+    switch (outtype) {
+    case arrtype::UINT8:
+        return Impl<Input, Op, uint8_t>::exec(input, output, len);
+    case arrtype::INT8:
+        return Impl<Input, Op, int8_t>::exec(input, output, len);
+    case arrtype::UINT16:
+        return Impl<Input, Op, uint16_t>::exec(input, output, len);
+    case arrtype::INT16:
+        return Impl<Input, Op, int16_t>::exec(input, output, len);
+    case arrtype::UINT32:
+        return Impl<Input, Op, uint32_t>::exec(input, output, len);
+    case arrtype::INT32:
+        return Impl<Input, Op, int32_t>::exec(input, output, len);
+    case arrtype::UINT64:
+        return Impl<Input, Op, uint64_t>::exec(input, output, len);
+    case arrtype::INT64:
+        return Impl<Input, Op, int64_t>::exec(input, output, len);
+    case arrtype::FLOAT32:
+        return Impl<Input, Op, float>::exec(input, output, len);
+    case arrtype::FLOAT64:
+        return Impl<Input, Op, double>::exec(input, output, len);
+    default:
+        break;
+    }
+}
+
+
+template <typename Op, template <typename...> typename Impl>
+static inline void arithmetic_op(const int type, const void* input, void* output, const int len) {
+    const auto intype = static_cast<arrtype>(type);
+
+    switch (intype) {
+    case arrtype::UINT8:
+        return Impl<uint8_t, Op>::exec(input, output, len);
+    case arrtype::INT8:
+        return Impl<int8_t, Op>::exec(input, output, len);
+    case arrtype::UINT16:
+        return Impl<uint16_t, Op>::exec(input, output, len);
+    case arrtype::INT16:
+        return Impl<int16_t, Op>::exec(input, output, len);
+    case arrtype::UINT32:
+        return Impl<uint32_t, Op>::exec(input, output, len);
+    case arrtype::INT32:
+        return Impl<int32_t, Op>::exec(input, output, len);
+    case arrtype::UINT64:
+        return Impl<uint64_t, Op>::exec(input, output, len);
+    case arrtype::INT64:
+        return Impl<int64_t, Op>::exec(input, output, len);
+    case arrtype::FLOAT32:
+        return Impl<float, Op>::exec(input, output, len);
+    case arrtype::FLOAT64:
+        return Impl<double, Op>::exec(input, output, len);
+    default:
+        break;
+    }
+}
+
+template <typename Op, template <typename...> typename Impl>
+static inline void arithmetic_op(const int itype, const int otype, const void* input, void* output, const int len) {
+    const auto intype = static_cast<arrtype>(itype);
+
+    switch (intype) {
+    case arrtype::UINT8:
+        return arithmetic_op<Op, Impl, uint8_t>(otype, input, output, len);
+    case arrtype::INT8:
+        return arithmetic_op<Op, Impl, int8_t>(otype, input, output, len);
+    case arrtype::UINT16:
+        return arithmetic_op<Op, Impl, uint16_t>(otype, input, output, len);
+    case arrtype::INT16:
+        return arithmetic_op<Op, Impl, int16_t>(otype, input, output, len);
+    case arrtype::UINT32:
+        return arithmetic_op<Op, Impl, uint32_t>(otype, input, output, len);
+    case arrtype::INT32:
+        return arithmetic_op<Op, Impl, int32_t>(otype, input, output, len);
+    case arrtype::UINT64:
+        return arithmetic_op<Op, Impl, uint64_t>(otype, input, output, len);
+    case arrtype::INT64:
+        return arithmetic_op<Op, Impl, int64_t>(otype, input, output, len);
+    case arrtype::FLOAT32:
+        return arithmetic_op<Op, Impl, float>(otype, input, output, len);
+    case arrtype::FLOAT64:
+        return arithmetic_op<Op, Impl, double>(otype, input, output, len);
+    default:
+        break;
+    }
+}
+
+template <template <typename...> class Impl>
+static inline void arithmetic_unary_impl_same_types(const int type, const int8_t op, const void* input, void* output, const int len) {
+    const auto opt = static_cast<optype>(op);
+
+    switch (opt) {
+    case optype::ABSOLUTE_VALUE:
+        return arithmetic_op<AbsoluteValue, Impl>(type, input, output, len);
+    case optype::ABSOLUTE_VALUE_CHECKED:
+        return arithmetic_op<AbsoluteValueChecked, Impl>(type, input, output, len);
+    case optype::NEGATE:
+        return arithmetic_op<Negate, Impl>(type, input, output, len);
+    case optype::NEGATE_CHECKED:
+        return arithmetic_op<NegateChecked, Impl>(type, input, output, len);
+    case optype::SIGN:
+        return arithmetic_op<Sign, Impl>(type, input, output, len);
+    default:
+        break;
+    }
+}
+
+
+template <template <typename...> class Impl>
+static inline void arithmetic_unary_impl(const int itype, const int otype, const int8_t op, const void* input, void* output, const int len) {
+    const auto opt = static_cast<optype>(op);
+
+    switch (opt) {
+    case optype::SIGN:
+        return arithmetic_op<Sign, Impl>(itype, otype, input, output, len);
+    default:
+        break;
+    }
+}
+
+template <template <typename...> class Impl>
+static inline void arithmetic_binary_impl(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
+    const auto opt = static_cast<optype>(op);
+
+    switch (opt) {
+    case optype::ADD:
+        return arithmetic_op<Add, Impl>(type, in_left, in_right, out, len);
+    case optype::ADD_CHECKED:
+        return arithmetic_op<AddChecked, Impl>(type, in_left, in_right, out, len);
+    case optype::SUB:
+        return arithmetic_op<Sub, Impl>(type, in_left, in_right, out, len);
+    case optype::SUB_CHECKED:
+        return arithmetic_op<SubChecked, Impl>(type, in_left, in_right, out, len);
+    case optype::MUL:
+        return arithmetic_op<Multiply, Impl>(type, in_left, in_right, out, len);
+    case optype::MUL_CHECKED:
+        return arithmetic_op<MultiplyChecked, Impl>(type, in_left, in_right, out, len);
+    default:
+        // don't implement divide here as we can only divide on non-null entries
+        // so we can avoid dividing by zero
+        break;
+    }
+}
+
+extern "C" void FULL_NAME(arithmetic_binary)(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
+    arithmetic_binary_impl<arithmetic_op_arr_arr_impl>(type, op, in_left, in_right, out, len);
+}
+
+extern "C" void FULL_NAME(arithmetic_arr_scalar)(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
+    arithmetic_binary_impl<arithmetic_op_arr_scalar_impl>(type, op, in_left, in_right, out, len);
+}
+
+extern "C" void FULL_NAME(arithmetic_scalar_arr)(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
+    arithmetic_binary_impl<arithmetic_op_scalar_arr_impl>(type, op, in_left, in_right, out, len);
+}
+
+extern "C" void FULL_NAME(arithmetic_unary_same_types)(const int type, const int8_t op, const void* input, void* output, const int len) {
+    arithmetic_unary_impl_same_types<arithmetic_unary_op_impl>(type, op, input, output, len);
+}
+
+extern "C" void FULL_NAME(arithmetic_unary_diff_type)(const int itype, const int otype, const int8_t op, const void* input, void* output, const int len) {
+    arithmetic_unary_impl<arithmetic_unary_op_impl>(itype, otype, op, input, output, len);
+}
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
new file mode 100644
index 00000000000..6a89e975170
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
@@ -0,0 +1,34899 @@
+	.text
+	.intel_syntax noprefix
+	.file	"base_arithmetic.cc"
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5                               # -- Begin function arithmetic_binary_avx2
+.LCPI0_0:
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.text
+	.globl	arithmetic_binary_avx2
+	.p2align	4, 0x90
+	.type	arithmetic_binary_avx2,@function
+arithmetic_binary_avx2:                 # @arithmetic_binary_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	cmp	sil, 20
+	jg	.LBB0_11
+# %bb.1:
+	test	sil, sil
+	je	.LBB0_21
+# %bb.2:
+	cmp	sil, 1
+	je	.LBB0_287
+# %bb.3:
+	cmp	sil, 2
+	jne	.LBB0_825
+# %bb.4:
+	cmp	edi, 6
+	jg	.LBB0_559
+# %bb.5:
+	cmp	edi, 3
+	jle	.LBB0_6
+# %bb.553:
+	cmp	edi, 4
+	je	.LBB0_602
+# %bb.554:
+	cmp	edi, 5
+	je	.LBB0_614
+# %bb.555:
+	cmp	edi, 6
+	jne	.LBB0_825
+# %bb.556:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.557:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_626
+# %bb.558:
+	xor	esi, esi
+.LBB0_631:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_633
+.LBB0_632:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	imul	edi, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_632
+.LBB0_633:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_634:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	imul	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	imul	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	imul	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	imul	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_634
+	jmp	.LBB0_825
+.LBB0_11:
+	cmp	sil, 21
+	je	.LBB0_154
+# %bb.12:
+	cmp	sil, 22
+	je	.LBB0_420
+# %bb.13:
+	cmp	sil, 23
+	jne	.LBB0_825
+# %bb.14:
+	cmp	edi, 6
+	jg	.LBB0_695
+# %bb.15:
+	cmp	edi, 3
+	jle	.LBB0_16
+# %bb.689:
+	cmp	edi, 4
+	je	.LBB0_738
+# %bb.690:
+	cmp	edi, 5
+	je	.LBB0_750
+# %bb.691:
+	cmp	edi, 6
+	jne	.LBB0_825
+# %bb.692:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.693:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_762
+# %bb.694:
+	xor	esi, esi
+.LBB0_767:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_769
+.LBB0_768:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	imul	edi, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_768
+.LBB0_769:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_770:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	imul	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	imul	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	imul	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	imul	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_770
+	jmp	.LBB0_825
+.LBB0_21:
+	cmp	edi, 6
+	jg	.LBB0_34
+# %bb.22:
+	cmp	edi, 3
+	jle	.LBB0_23
+# %bb.28:
+	cmp	edi, 4
+	je	.LBB0_67
+# %bb.29:
+	cmp	edi, 5
+	je	.LBB0_79
+# %bb.30:
+	cmp	edi, 6
+	jne	.LBB0_825
+# %bb.31:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.32:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_91
+# %bb.33:
+	xor	esi, esi
+	jmp	.LBB0_96
+.LBB0_287:
+	cmp	edi, 6
+	jg	.LBB0_300
+# %bb.288:
+	cmp	edi, 3
+	jle	.LBB0_289
+# %bb.294:
+	cmp	edi, 4
+	je	.LBB0_333
+# %bb.295:
+	cmp	edi, 5
+	je	.LBB0_345
+# %bb.296:
+	cmp	edi, 6
+	jne	.LBB0_825
+# %bb.297:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.298:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_357
+# %bb.299:
+	xor	esi, esi
+.LBB0_362:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_364
+.LBB0_363:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	sub	edi, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_363
+.LBB0_364:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_365:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_365
+	jmp	.LBB0_825
+.LBB0_154:
+	cmp	edi, 6
+	jg	.LBB0_167
+# %bb.155:
+	cmp	edi, 3
+	jle	.LBB0_156
+# %bb.161:
+	cmp	edi, 4
+	je	.LBB0_200
+# %bb.162:
+	cmp	edi, 5
+	je	.LBB0_212
+# %bb.163:
+	cmp	edi, 6
+	jne	.LBB0_825
+# %bb.164:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.165:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_224
+# %bb.166:
+	xor	esi, esi
+	jmp	.LBB0_229
+.LBB0_420:
+	cmp	edi, 6
+	jg	.LBB0_433
+# %bb.421:
+	cmp	edi, 3
+	jle	.LBB0_422
+# %bb.427:
+	cmp	edi, 4
+	je	.LBB0_466
+# %bb.428:
+	cmp	edi, 5
+	je	.LBB0_478
+# %bb.429:
+	cmp	edi, 6
+	jne	.LBB0_825
+# %bb.430:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.431:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_490
+# %bb.432:
+	xor	esi, esi
+.LBB0_495:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_497
+.LBB0_496:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	sub	edi, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_496
+.LBB0_497:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_498:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_498
+	jmp	.LBB0_825
+.LBB0_559:
+	cmp	edi, 8
+	jle	.LBB0_560
+# %bb.565:
+	cmp	edi, 9
+	je	.LBB0_656
+# %bb.566:
+	cmp	edi, 11
+	je	.LBB0_668
+# %bb.567:
+	cmp	edi, 12
+	jne	.LBB0_825
+# %bb.568:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.569:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_680
+# %bb.570:
+	xor	esi, esi
+.LBB0_685:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_687
+.LBB0_686:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_686
+.LBB0_687:
+	cmp	rdi, 3
+	jb	.LBB0_825
+.LBB0_688:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_688
+	jmp	.LBB0_825
+.LBB0_695:
+	cmp	edi, 8
+	jle	.LBB0_696
+# %bb.701:
+	cmp	edi, 9
+	je	.LBB0_792
+# %bb.702:
+	cmp	edi, 11
+	je	.LBB0_804
+# %bb.703:
+	cmp	edi, 12
+	jne	.LBB0_825
+# %bb.704:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.705:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_816
+# %bb.706:
+	xor	esi, esi
+.LBB0_821:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_823
+.LBB0_822:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_822
+.LBB0_823:
+	cmp	rdi, 3
+	jb	.LBB0_825
+.LBB0_824:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vmulsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_824
+	jmp	.LBB0_825
+.LBB0_34:
+	cmp	edi, 8
+	jle	.LBB0_35
+# %bb.40:
+	cmp	edi, 9
+	je	.LBB0_121
+# %bb.41:
+	cmp	edi, 11
+	je	.LBB0_133
+# %bb.42:
+	cmp	edi, 12
+	jne	.LBB0_825
+# %bb.43:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.44:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_145
+# %bb.45:
+	xor	esi, esi
+	jmp	.LBB0_150
+.LBB0_300:
+	cmp	edi, 8
+	jle	.LBB0_301
+# %bb.306:
+	cmp	edi, 9
+	je	.LBB0_387
+# %bb.307:
+	cmp	edi, 11
+	je	.LBB0_399
+# %bb.308:
+	cmp	edi, 12
+	jne	.LBB0_825
+# %bb.309:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.310:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_411
+# %bb.311:
+	xor	esi, esi
+.LBB0_416:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_418
+.LBB0_417:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_417
+.LBB0_418:
+	cmp	rdi, 3
+	jb	.LBB0_825
+.LBB0_419:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_419
+	jmp	.LBB0_825
+.LBB0_167:
+	cmp	edi, 8
+	jle	.LBB0_168
+# %bb.173:
+	cmp	edi, 9
+	je	.LBB0_254
+# %bb.174:
+	cmp	edi, 11
+	je	.LBB0_266
+# %bb.175:
+	cmp	edi, 12
+	jne	.LBB0_825
+# %bb.176:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.177:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_278
+# %bb.178:
+	xor	esi, esi
+	jmp	.LBB0_283
+.LBB0_433:
+	cmp	edi, 8
+	jle	.LBB0_434
+# %bb.439:
+	cmp	edi, 9
+	je	.LBB0_520
+# %bb.440:
+	cmp	edi, 11
+	je	.LBB0_532
+# %bb.441:
+	cmp	edi, 12
+	jne	.LBB0_825
+# %bb.442:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.443:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_544
+# %bb.444:
+	xor	esi, esi
+.LBB0_549:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_551
+.LBB0_550:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_550
+.LBB0_551:
+	cmp	rdi, 3
+	jb	.LBB0_825
+.LBB0_552:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_552
+	jmp	.LBB0_825
+.LBB0_6:
+	cmp	edi, 2
+	je	.LBB0_571
+# %bb.7:
+	cmp	edi, 3
+	jne	.LBB0_825
+# %bb.8:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.9:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_588
+# %bb.10:
+	xor	edi, edi
+	jmp	.LBB0_598
+.LBB0_16:
+	cmp	edi, 2
+	je	.LBB0_707
+# %bb.17:
+	cmp	edi, 3
+	jne	.LBB0_825
+# %bb.18:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.19:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_724
+# %bb.20:
+	xor	edi, edi
+	jmp	.LBB0_734
+.LBB0_23:
+	cmp	edi, 2
+	je	.LBB0_46
+# %bb.24:
+	cmp	edi, 3
+	jne	.LBB0_825
+# %bb.25:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.26:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_58
+# %bb.27:
+	xor	esi, esi
+	jmp	.LBB0_63
+.LBB0_289:
+	cmp	edi, 2
+	je	.LBB0_312
+# %bb.290:
+	cmp	edi, 3
+	jne	.LBB0_825
+# %bb.291:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.292:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_324
+# %bb.293:
+	xor	esi, esi
+	jmp	.LBB0_329
+.LBB0_156:
+	cmp	edi, 2
+	je	.LBB0_179
+# %bb.157:
+	cmp	edi, 3
+	jne	.LBB0_825
+# %bb.158:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.159:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_191
+# %bb.160:
+	xor	esi, esi
+	jmp	.LBB0_196
+.LBB0_422:
+	cmp	edi, 2
+	je	.LBB0_445
+# %bb.423:
+	cmp	edi, 3
+	jne	.LBB0_825
+# %bb.424:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.425:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_457
+# %bb.426:
+	xor	esi, esi
+	jmp	.LBB0_462
+.LBB0_560:
+	cmp	edi, 7
+	je	.LBB0_635
+# %bb.561:
+	cmp	edi, 8
+	jne	.LBB0_825
+# %bb.562:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.563:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_647
+# %bb.564:
+	xor	esi, esi
+	jmp	.LBB0_652
+.LBB0_696:
+	cmp	edi, 7
+	je	.LBB0_771
+# %bb.697:
+	cmp	edi, 8
+	jne	.LBB0_825
+# %bb.698:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.699:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_783
+# %bb.700:
+	xor	esi, esi
+	jmp	.LBB0_788
+.LBB0_35:
+	cmp	edi, 7
+	je	.LBB0_100
+# %bb.36:
+	cmp	edi, 8
+	jne	.LBB0_825
+# %bb.37:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.38:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_112
+# %bb.39:
+	xor	esi, esi
+	jmp	.LBB0_117
+.LBB0_301:
+	cmp	edi, 7
+	je	.LBB0_366
+# %bb.302:
+	cmp	edi, 8
+	jne	.LBB0_825
+# %bb.303:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.304:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_378
+# %bb.305:
+	xor	esi, esi
+	jmp	.LBB0_383
+.LBB0_168:
+	cmp	edi, 7
+	je	.LBB0_233
+# %bb.169:
+	cmp	edi, 8
+	jne	.LBB0_825
+# %bb.170:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.171:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_245
+# %bb.172:
+	xor	esi, esi
+	jmp	.LBB0_250
+.LBB0_434:
+	cmp	edi, 7
+	je	.LBB0_499
+# %bb.435:
+	cmp	edi, 8
+	jne	.LBB0_825
+# %bb.436:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.437:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_511
+# %bb.438:
+	xor	esi, esi
+	jmp	.LBB0_516
+.LBB0_602:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.603:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_605
+# %bb.604:
+	xor	esi, esi
+.LBB0_610:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_612
+.LBB0_611:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	imul	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_611
+.LBB0_612:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_613:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	imul	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	imul	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	imul	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	imul	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_613
+	jmp	.LBB0_825
+.LBB0_614:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.615:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_617
+# %bb.616:
+	xor	esi, esi
+.LBB0_622:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_624
+.LBB0_623:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	imul	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_623
+.LBB0_624:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_625:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	imul	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	imul	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	imul	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	imul	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_625
+	jmp	.LBB0_825
+.LBB0_738:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.739:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_741
+# %bb.740:
+	xor	esi, esi
+.LBB0_746:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_748
+.LBB0_747:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	imul	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_747
+.LBB0_748:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_749:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	imul	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	imul	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	imul	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	imul	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_749
+	jmp	.LBB0_825
+.LBB0_750:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.751:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_753
+# %bb.752:
+	xor	esi, esi
+.LBB0_758:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_760
+.LBB0_759:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	imul	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_759
+.LBB0_760:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_761:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	imul	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	imul	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	imul	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	imul	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_761
+	jmp	.LBB0_825
+.LBB0_67:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.68:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_70
+# %bb.69:
+	xor	esi, esi
+	jmp	.LBB0_75
+.LBB0_79:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.80:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_82
+# %bb.81:
+	xor	esi, esi
+	jmp	.LBB0_87
+.LBB0_333:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.334:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_336
+# %bb.335:
+	xor	esi, esi
+.LBB0_341:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_343
+.LBB0_342:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_342
+.LBB0_343:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_344:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_344
+	jmp	.LBB0_825
+.LBB0_345:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.346:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_348
+# %bb.347:
+	xor	esi, esi
+.LBB0_353:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_355
+.LBB0_354:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_354
+.LBB0_355:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_356:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_356
+	jmp	.LBB0_825
+.LBB0_200:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.201:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_203
+# %bb.202:
+	xor	esi, esi
+	jmp	.LBB0_208
+.LBB0_212:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.213:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_215
+# %bb.214:
+	xor	esi, esi
+	jmp	.LBB0_220
+.LBB0_466:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.467:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_469
+# %bb.468:
+	xor	esi, esi
+.LBB0_474:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_476
+.LBB0_475:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_475
+.LBB0_476:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_477:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_477
+	jmp	.LBB0_825
+.LBB0_478:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.479:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_481
+# %bb.480:
+	xor	esi, esi
+.LBB0_486:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_488
+.LBB0_487:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_487
+.LBB0_488:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_489:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_489
+	jmp	.LBB0_825
+.LBB0_656:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.657:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_659
+# %bb.658:
+	xor	esi, esi
+.LBB0_664:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_666
+.LBB0_665:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	imul	rdi, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_665
+.LBB0_666:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_667:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	imul	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	imul	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	imul	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	imul	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_667
+	jmp	.LBB0_825
+.LBB0_668:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.669:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_671
+# %bb.670:
+	xor	esi, esi
+.LBB0_676:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_678
+.LBB0_677:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_677
+.LBB0_678:
+	cmp	rdi, 3
+	jb	.LBB0_825
+.LBB0_679:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_679
+	jmp	.LBB0_825
+.LBB0_792:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.793:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_795
+# %bb.794:
+	xor	esi, esi
+.LBB0_800:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_802
+.LBB0_801:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	imul	rdi, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_801
+.LBB0_802:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_803:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	imul	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	imul	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	imul	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	imul	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_803
+	jmp	.LBB0_825
+.LBB0_804:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.805:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_807
+# %bb.806:
+	xor	esi, esi
+.LBB0_812:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_814
+.LBB0_813:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_813
+.LBB0_814:
+	cmp	rdi, 3
+	jb	.LBB0_825
+.LBB0_815:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vmulss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_815
+	jmp	.LBB0_825
+.LBB0_121:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.122:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_124
+# %bb.123:
+	xor	esi, esi
+	jmp	.LBB0_129
+.LBB0_133:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.134:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_136
+# %bb.135:
+	xor	esi, esi
+	jmp	.LBB0_141
+.LBB0_387:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.388:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_390
+# %bb.389:
+	xor	esi, esi
+.LBB0_395:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_397
+.LBB0_396:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	sub	rdi, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_396
+.LBB0_397:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_398:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_398
+	jmp	.LBB0_825
+.LBB0_399:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.400:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_402
+# %bb.401:
+	xor	esi, esi
+.LBB0_407:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_409
+.LBB0_408:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_408
+.LBB0_409:
+	cmp	rdi, 3
+	jb	.LBB0_825
+.LBB0_410:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_410
+	jmp	.LBB0_825
+.LBB0_254:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.255:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_257
+# %bb.256:
+	xor	esi, esi
+	jmp	.LBB0_262
+.LBB0_266:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.267:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_269
+# %bb.268:
+	xor	esi, esi
+	jmp	.LBB0_274
+.LBB0_520:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.521:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_523
+# %bb.522:
+	xor	esi, esi
+.LBB0_528:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_530
+.LBB0_529:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	sub	rdi, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_529
+.LBB0_530:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_531:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_531
+	jmp	.LBB0_825
+.LBB0_532:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.533:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_535
+# %bb.534:
+	xor	esi, esi
+.LBB0_540:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_542
+.LBB0_541:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_541
+.LBB0_542:
+	cmp	rdi, 3
+	jb	.LBB0_825
+.LBB0_543:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_543
+	jmp	.LBB0_825
+.LBB0_571:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.572:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_574
+# %bb.573:
+	xor	edi, edi
+	jmp	.LBB0_584
+.LBB0_707:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.708:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_710
+# %bb.709:
+	xor	edi, edi
+	jmp	.LBB0_720
+.LBB0_46:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.47:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_49
+# %bb.48:
+	xor	esi, esi
+	jmp	.LBB0_54
+.LBB0_312:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.313:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_315
+# %bb.314:
+	xor	esi, esi
+	jmp	.LBB0_320
+.LBB0_179:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.180:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_182
+# %bb.181:
+	xor	esi, esi
+	jmp	.LBB0_187
+.LBB0_445:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.446:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_448
+# %bb.447:
+	xor	esi, esi
+	jmp	.LBB0_453
+.LBB0_635:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.636:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_638
+# %bb.637:
+	xor	esi, esi
+	jmp	.LBB0_643
+.LBB0_771:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.772:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_774
+# %bb.773:
+	xor	esi, esi
+	jmp	.LBB0_779
+.LBB0_100:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.101:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_103
+# %bb.102:
+	xor	esi, esi
+	jmp	.LBB0_108
+.LBB0_366:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.367:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_369
+# %bb.368:
+	xor	esi, esi
+	jmp	.LBB0_374
+.LBB0_233:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.234:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_236
+# %bb.235:
+	xor	esi, esi
+	jmp	.LBB0_241
+.LBB0_499:
+	test	r9d, r9d
+	jle	.LBB0_825
+# %bb.500:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_502
+# %bb.501:
+	xor	esi, esi
+	jmp	.LBB0_507
+.LBB0_91:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_96
+# %bb.92:
+	and	al, dil
+	jne	.LBB0_96
+# %bb.93:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_94:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_94
+# %bb.95:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_96:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_98
+.LBB0_97:                               # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	add	edi, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_97
+.LBB0_98:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_99:                               # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_99
+	jmp	.LBB0_825
+.LBB0_224:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_229
+# %bb.225:
+	and	al, dil
+	jne	.LBB0_229
+# %bb.226:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_227:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_227
+# %bb.228:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_229:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_231
+.LBB0_230:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	add	edi, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_230
+.LBB0_231:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_232:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_232
+	jmp	.LBB0_825
+.LBB0_145:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_150
+# %bb.146:
+	and	al, dil
+	jne	.LBB0_150
+# %bb.147:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_148:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_148
+# %bb.149:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_150:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_152
+.LBB0_151:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_151
+.LBB0_152:
+	cmp	rdi, 3
+	jb	.LBB0_825
+.LBB0_153:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_153
+	jmp	.LBB0_825
+.LBB0_278:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_283
+# %bb.279:
+	and	al, dil
+	jne	.LBB0_283
+# %bb.280:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_281:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_281
+# %bb.282:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_283:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_285
+.LBB0_284:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_284
+.LBB0_285:
+	cmp	rdi, 3
+	jb	.LBB0_825
+.LBB0_286:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_286
+	jmp	.LBB0_825
+.LBB0_588:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	sil
+	xor	edi, edi
+	test	r9b, r11b
+	jne	.LBB0_598
+# %bb.589:
+	and	al, sil
+	jne	.LBB0_598
+# %bb.590:
+	mov	edi, r10d
+	and	edi, -32
+	lea	rsi, [rdi - 32]
+	mov	rax, rsi
+	shr	rax, 5
+	add	rax, 1
+	mov	r9d, eax
+	and	r9d, 3
+	cmp	rsi, 96
+	jae	.LBB0_592
+# %bb.591:
+	xor	esi, esi
+	jmp	.LBB0_594
+.LBB0_724:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	sil
+	xor	edi, edi
+	test	r9b, r11b
+	jne	.LBB0_734
+# %bb.725:
+	and	al, sil
+	jne	.LBB0_734
+# %bb.726:
+	mov	edi, r10d
+	and	edi, -32
+	lea	rsi, [rdi - 32]
+	mov	rax, rsi
+	shr	rax, 5
+	add	rax, 1
+	mov	r9d, eax
+	and	r9d, 3
+	cmp	rsi, 96
+	jae	.LBB0_728
+# %bb.727:
+	xor	esi, esi
+	jmp	.LBB0_730
+.LBB0_58:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_63
+# %bb.59:
+	and	al, dil
+	jne	.LBB0_63
+# %bb.60:
+	mov	esi, r10d
+	and	esi, -128
+	xor	edi, edi
+.LBB0_61:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_61
+# %bb.62:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_63:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_65
+.LBB0_64:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_64
+.LBB0_65:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_66:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_66
+	jmp	.LBB0_825
+.LBB0_324:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_329
+# %bb.325:
+	and	al, dil
+	jne	.LBB0_329
+# %bb.326:
+	mov	esi, r10d
+	and	esi, -128
+	xor	edi, edi
+.LBB0_327:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_327
+# %bb.328:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_329:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_331
+.LBB0_330:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_330
+.LBB0_331:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_332:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_332
+	jmp	.LBB0_825
+.LBB0_191:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_196
+# %bb.192:
+	and	al, dil
+	jne	.LBB0_196
+# %bb.193:
+	mov	esi, r10d
+	and	esi, -128
+	xor	edi, edi
+.LBB0_194:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_194
+# %bb.195:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_196:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_198
+.LBB0_197:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_197
+.LBB0_198:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_199:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_199
+	jmp	.LBB0_825
+.LBB0_457:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_462
+# %bb.458:
+	and	al, dil
+	jne	.LBB0_462
+# %bb.459:
+	mov	esi, r10d
+	and	esi, -128
+	xor	edi, edi
+.LBB0_460:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_460
+# %bb.461:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_462:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_464
+.LBB0_463:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_463
+.LBB0_464:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_465:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_465
+	jmp	.LBB0_825
+.LBB0_647:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_652
+# %bb.648:
+	and	al, dil
+	jne	.LBB0_652
+# %bb.649:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_650:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm7, ymmword ptr [rcx + 8*rdi + 96]
+	vpsrlq	ymm8, ymm4, 32
+	vpmuludq	ymm8, ymm8, ymm1
+	vpsrlq	ymm9, ymm1, 32
+	vpmuludq	ymm9, ymm9, ymm4
+	vpaddq	ymm8, ymm9, ymm8
+	vpsllq	ymm8, ymm8, 32
+	vpmuludq	ymm1, ymm4, ymm1
+	vpaddq	ymm1, ymm8, ymm1
+	vpsrlq	ymm4, ymm5, 32
+	vpmuludq	ymm4, ymm4, ymm2
+	vpsrlq	ymm8, ymm2, 32
+	vpmuludq	ymm8, ymm8, ymm5
+	vpaddq	ymm4, ymm8, ymm4
+	vpsllq	ymm4, ymm4, 32
+	vpmuludq	ymm2, ymm5, ymm2
+	vpaddq	ymm2, ymm2, ymm4
+	vpsrlq	ymm4, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm3
+	vpsrlq	ymm5, ymm3, 32
+	vpmuludq	ymm5, ymm6, ymm5
+	vpaddq	ymm4, ymm5, ymm4
+	vpsllq	ymm4, ymm4, 32
+	vpmuludq	ymm3, ymm6, ymm3
+	vpaddq	ymm3, ymm3, ymm4
+	vpsrlq	ymm4, ymm7, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpsrlq	ymm5, ymm0, 32
+	vpmuludq	ymm5, ymm7, ymm5
+	vpaddq	ymm4, ymm5, ymm4
+	vpsllq	ymm4, ymm4, 32
+	vpmuludq	ymm0, ymm7, ymm0
+	vpaddq	ymm0, ymm0, ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_650
+# %bb.651:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_652:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_654
+.LBB0_653:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	imul	rdi, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_653
+.LBB0_654:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_655:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	imul	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	imul	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	imul	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	imul	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_655
+	jmp	.LBB0_825
+.LBB0_783:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_788
+# %bb.784:
+	and	al, dil
+	jne	.LBB0_788
+# %bb.785:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_786:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm7, ymmword ptr [rcx + 8*rdi + 96]
+	vpsrlq	ymm8, ymm4, 32
+	vpmuludq	ymm8, ymm8, ymm1
+	vpsrlq	ymm9, ymm1, 32
+	vpmuludq	ymm9, ymm9, ymm4
+	vpaddq	ymm8, ymm9, ymm8
+	vpsllq	ymm8, ymm8, 32
+	vpmuludq	ymm1, ymm4, ymm1
+	vpaddq	ymm1, ymm8, ymm1
+	vpsrlq	ymm4, ymm5, 32
+	vpmuludq	ymm4, ymm4, ymm2
+	vpsrlq	ymm8, ymm2, 32
+	vpmuludq	ymm8, ymm8, ymm5
+	vpaddq	ymm4, ymm8, ymm4
+	vpsllq	ymm4, ymm4, 32
+	vpmuludq	ymm2, ymm5, ymm2
+	vpaddq	ymm2, ymm2, ymm4
+	vpsrlq	ymm4, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm3
+	vpsrlq	ymm5, ymm3, 32
+	vpmuludq	ymm5, ymm6, ymm5
+	vpaddq	ymm4, ymm5, ymm4
+	vpsllq	ymm4, ymm4, 32
+	vpmuludq	ymm3, ymm6, ymm3
+	vpaddq	ymm3, ymm3, ymm4
+	vpsrlq	ymm4, ymm7, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpsrlq	ymm5, ymm0, 32
+	vpmuludq	ymm5, ymm7, ymm5
+	vpaddq	ymm4, ymm5, ymm4
+	vpsllq	ymm4, ymm4, 32
+	vpmuludq	ymm0, ymm7, ymm0
+	vpaddq	ymm0, ymm0, ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_786
+# %bb.787:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_788:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_790
+.LBB0_789:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	imul	rdi, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_789
+.LBB0_790:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_791:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	imul	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	imul	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	imul	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	imul	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_791
+	jmp	.LBB0_825
+.LBB0_112:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_117
+# %bb.113:
+	and	al, dil
+	jne	.LBB0_117
+# %bb.114:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_115:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_115
+# %bb.116:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_117:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_119
+.LBB0_118:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	add	rdi, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_118
+.LBB0_119:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_120:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_120
+	jmp	.LBB0_825
+.LBB0_378:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_383
+# %bb.379:
+	and	al, dil
+	jne	.LBB0_383
+# %bb.380:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_381:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_381
+# %bb.382:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_383:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_385
+.LBB0_384:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	sub	rdi, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_384
+.LBB0_385:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_386:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_386
+	jmp	.LBB0_825
+.LBB0_245:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_250
+# %bb.246:
+	and	al, dil
+	jne	.LBB0_250
+# %bb.247:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_248:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_248
+# %bb.249:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_250:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_252
+.LBB0_251:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	add	rdi, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_251
+.LBB0_252:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_253:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_253
+	jmp	.LBB0_825
+.LBB0_511:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_516
+# %bb.512:
+	and	al, dil
+	jne	.LBB0_516
+# %bb.513:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_514:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_514
+# %bb.515:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_516:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_518
+.LBB0_517:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	sub	rdi, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_517
+.LBB0_518:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_519:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_519
+	jmp	.LBB0_825
+.LBB0_70:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_75
+# %bb.71:
+	and	al, dil
+	jne	.LBB0_75
+# %bb.72:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_73:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_73
+# %bb.74:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_75:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_77
+.LBB0_76:                               # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_76
+.LBB0_77:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_78:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_78
+	jmp	.LBB0_825
+.LBB0_82:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_87
+# %bb.83:
+	and	al, dil
+	jne	.LBB0_87
+# %bb.84:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_85:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_85
+# %bb.86:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_87:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_89
+.LBB0_88:                               # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_88
+.LBB0_89:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_90:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_90
+	jmp	.LBB0_825
+.LBB0_203:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_208
+# %bb.204:
+	and	al, dil
+	jne	.LBB0_208
+# %bb.205:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_206:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_206
+# %bb.207:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_208:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_210
+.LBB0_209:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_209
+.LBB0_210:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_211:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_211
+	jmp	.LBB0_825
+.LBB0_215:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_220
+# %bb.216:
+	and	al, dil
+	jne	.LBB0_220
+# %bb.217:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_218:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_218
+# %bb.219:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_220:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_222
+.LBB0_221:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_221
+.LBB0_222:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_223:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_223
+	jmp	.LBB0_825
+.LBB0_124:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_129
+# %bb.125:
+	and	al, dil
+	jne	.LBB0_129
+# %bb.126:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_127:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_127
+# %bb.128:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_129:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_131
+.LBB0_130:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	add	rdi, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_130
+.LBB0_131:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_132:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_132
+	jmp	.LBB0_825
+.LBB0_136:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_141
+# %bb.137:
+	and	al, dil
+	jne	.LBB0_141
+# %bb.138:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_139:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_139
+# %bb.140:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_141:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_143
+.LBB0_142:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_142
+.LBB0_143:
+	cmp	rdi, 3
+	jb	.LBB0_825
+.LBB0_144:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_144
+	jmp	.LBB0_825
+.LBB0_257:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_262
+# %bb.258:
+	and	al, dil
+	jne	.LBB0_262
+# %bb.259:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_260:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_260
+# %bb.261:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_262:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_264
+.LBB0_263:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	add	rdi, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_263
+.LBB0_264:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_265:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_265
+	jmp	.LBB0_825
+.LBB0_269:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_274
+# %bb.270:
+	and	al, dil
+	jne	.LBB0_274
+# %bb.271:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_272:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_272
+# %bb.273:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_274:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_276
+.LBB0_275:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_275
+.LBB0_276:
+	cmp	rdi, 3
+	jb	.LBB0_825
+.LBB0_277:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_277
+	jmp	.LBB0_825
+.LBB0_574:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	sil
+	xor	edi, edi
+	test	r9b, r11b
+	jne	.LBB0_584
+# %bb.575:
+	and	al, sil
+	jne	.LBB0_584
+# %bb.576:
+	mov	edi, r10d
+	and	edi, -32
+	lea	rsi, [rdi - 32]
+	mov	rax, rsi
+	shr	rax, 5
+	add	rax, 1
+	mov	r9d, eax
+	and	r9d, 3
+	cmp	rsi, 96
+	jae	.LBB0_578
+# %bb.577:
+	xor	esi, esi
+	jmp	.LBB0_580
+.LBB0_710:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	sil
+	xor	edi, edi
+	test	r9b, r11b
+	jne	.LBB0_720
+# %bb.711:
+	and	al, sil
+	jne	.LBB0_720
+# %bb.712:
+	mov	edi, r10d
+	and	edi, -32
+	lea	rsi, [rdi - 32]
+	mov	rax, rsi
+	shr	rax, 5
+	add	rax, 1
+	mov	r9d, eax
+	and	r9d, 3
+	cmp	rsi, 96
+	jae	.LBB0_714
+# %bb.713:
+	xor	esi, esi
+	jmp	.LBB0_716
+.LBB0_49:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_54
+# %bb.50:
+	and	al, dil
+	jne	.LBB0_54
+# %bb.51:
+	mov	esi, r10d
+	and	esi, -128
+	xor	edi, edi
+.LBB0_52:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_52
+# %bb.53:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_54:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_56
+.LBB0_55:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_55
+.LBB0_56:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_57:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_57
+	jmp	.LBB0_825
+.LBB0_315:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_320
+# %bb.316:
+	and	al, dil
+	jne	.LBB0_320
+# %bb.317:
+	mov	esi, r10d
+	and	esi, -128
+	xor	edi, edi
+.LBB0_318:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_318
+# %bb.319:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_320:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_322
+.LBB0_321:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_321
+.LBB0_322:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_323:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_323
+	jmp	.LBB0_825
+.LBB0_182:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_187
+# %bb.183:
+	and	al, dil
+	jne	.LBB0_187
+# %bb.184:
+	mov	esi, r10d
+	and	esi, -128
+	xor	edi, edi
+.LBB0_185:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_185
+# %bb.186:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_187:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_189
+.LBB0_188:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_188
+.LBB0_189:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_190:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_190
+	jmp	.LBB0_825
+.LBB0_448:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_453
+# %bb.449:
+	and	al, dil
+	jne	.LBB0_453
+# %bb.450:
+	mov	esi, r10d
+	and	esi, -128
+	xor	edi, edi
+.LBB0_451:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_451
+# %bb.452:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_453:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_455
+.LBB0_454:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_454
+.LBB0_455:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_456:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_456
+	jmp	.LBB0_825
+.LBB0_638:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_643
+# %bb.639:
+	and	al, dil
+	jne	.LBB0_643
+# %bb.640:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_641:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpmulld	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpmulld	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpmulld	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_641
+# %bb.642:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_643:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_645
+.LBB0_644:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	imul	edi, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_644
+.LBB0_645:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_646:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	imul	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	imul	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	imul	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	imul	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_646
+	jmp	.LBB0_825
+.LBB0_774:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_779
+# %bb.775:
+	and	al, dil
+	jne	.LBB0_779
+# %bb.776:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_777:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpmulld	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpmulld	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpmulld	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_777
+# %bb.778:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_779:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_781
+.LBB0_780:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	imul	edi, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_780
+.LBB0_781:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_782:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	imul	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	imul	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	imul	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	imul	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_782
+	jmp	.LBB0_825
+.LBB0_103:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_108
+# %bb.104:
+	and	al, dil
+	jne	.LBB0_108
+# %bb.105:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_106:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_106
+# %bb.107:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_108:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_110
+.LBB0_109:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	add	edi, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_109
+.LBB0_110:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_111:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_111
+	jmp	.LBB0_825
+.LBB0_369:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_374
+# %bb.370:
+	and	al, dil
+	jne	.LBB0_374
+# %bb.371:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_372:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_372
+# %bb.373:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_374:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_376
+.LBB0_375:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	sub	edi, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_375
+.LBB0_376:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_377:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_377
+	jmp	.LBB0_825
+.LBB0_236:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_241
+# %bb.237:
+	and	al, dil
+	jne	.LBB0_241
+# %bb.238:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_239:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_239
+# %bb.240:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_241:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_243
+.LBB0_242:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	add	edi, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_242
+.LBB0_243:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_244:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_244
+	jmp	.LBB0_825
+.LBB0_502:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_507
+# %bb.503:
+	and	al, dil
+	jne	.LBB0_507
+# %bb.504:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_505:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_505
+# %bb.506:
+	cmp	rsi, r10
+	je	.LBB0_825
+.LBB0_507:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_509
+.LBB0_508:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	sub	edi, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_508
+.LBB0_509:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_510:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_510
+	jmp	.LBB0_825
+.LBB0_626:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_631
+# %bb.627:
+	and	al, dil
+	jne	.LBB0_631
+# %bb.628:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_629:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpmulld	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpmulld	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpmulld	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_629
+# %bb.630:
+	cmp	rsi, r10
+	jne	.LBB0_631
+	jmp	.LBB0_825
+.LBB0_762:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_767
+# %bb.763:
+	and	al, dil
+	jne	.LBB0_767
+# %bb.764:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_765:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpmulld	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpmulld	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpmulld	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_765
+# %bb.766:
+	cmp	rsi, r10
+	jne	.LBB0_767
+	jmp	.LBB0_825
+.LBB0_357:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_362
+# %bb.358:
+	and	al, dil
+	jne	.LBB0_362
+# %bb.359:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_360:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_360
+# %bb.361:
+	cmp	rsi, r10
+	jne	.LBB0_362
+	jmp	.LBB0_825
+.LBB0_490:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_495
+# %bb.491:
+	and	al, dil
+	jne	.LBB0_495
+# %bb.492:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_493:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_493
+# %bb.494:
+	cmp	rsi, r10
+	jne	.LBB0_495
+	jmp	.LBB0_825
+.LBB0_680:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_685
+# %bb.681:
+	and	al, dil
+	jne	.LBB0_685
+# %bb.682:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_683:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmulpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vmulpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmulpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmulpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_683
+# %bb.684:
+	cmp	rsi, r10
+	jne	.LBB0_685
+	jmp	.LBB0_825
+.LBB0_816:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_821
+# %bb.817:
+	and	al, dil
+	jne	.LBB0_821
+# %bb.818:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_819:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmulpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vmulpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmulpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmulpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_819
+# %bb.820:
+	cmp	rsi, r10
+	jne	.LBB0_821
+	jmp	.LBB0_825
+.LBB0_411:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_416
+# %bb.412:
+	and	al, dil
+	jne	.LBB0_416
+# %bb.413:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_414:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vsubpd	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_414
+# %bb.415:
+	cmp	rsi, r10
+	jne	.LBB0_416
+	jmp	.LBB0_825
+.LBB0_544:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_549
+# %bb.545:
+	and	al, dil
+	jne	.LBB0_549
+# %bb.546:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_547:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vsubpd	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_547
+# %bb.548:
+	cmp	rsi, r10
+	jne	.LBB0_549
+	jmp	.LBB0_825
+.LBB0_605:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_610
+# %bb.606:
+	and	al, dil
+	jne	.LBB0_610
+# %bb.607:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_608:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpmullw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpmullw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpmullw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_608
+# %bb.609:
+	cmp	rsi, r10
+	jne	.LBB0_610
+	jmp	.LBB0_825
+.LBB0_617:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_622
+# %bb.618:
+	and	al, dil
+	jne	.LBB0_622
+# %bb.619:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_620:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpmullw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpmullw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpmullw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_620
+# %bb.621:
+	cmp	rsi, r10
+	jne	.LBB0_622
+	jmp	.LBB0_825
+.LBB0_741:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_746
+# %bb.742:
+	and	al, dil
+	jne	.LBB0_746
+# %bb.743:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_744:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpmullw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpmullw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpmullw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_744
+# %bb.745:
+	cmp	rsi, r10
+	jne	.LBB0_746
+	jmp	.LBB0_825
+.LBB0_753:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_758
+# %bb.754:
+	and	al, dil
+	jne	.LBB0_758
+# %bb.755:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_756:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpmullw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpmullw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpmullw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_756
+# %bb.757:
+	cmp	rsi, r10
+	jne	.LBB0_758
+	jmp	.LBB0_825
+.LBB0_336:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_341
+# %bb.337:
+	and	al, dil
+	jne	.LBB0_341
+# %bb.338:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_339:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_339
+# %bb.340:
+	cmp	rsi, r10
+	jne	.LBB0_341
+	jmp	.LBB0_825
+.LBB0_348:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_353
+# %bb.349:
+	and	al, dil
+	jne	.LBB0_353
+# %bb.350:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_351:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_351
+# %bb.352:
+	cmp	rsi, r10
+	jne	.LBB0_353
+	jmp	.LBB0_825
+.LBB0_469:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_474
+# %bb.470:
+	and	al, dil
+	jne	.LBB0_474
+# %bb.471:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_472:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_472
+# %bb.473:
+	cmp	rsi, r10
+	jne	.LBB0_474
+	jmp	.LBB0_825
+.LBB0_481:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_486
+# %bb.482:
+	and	al, dil
+	jne	.LBB0_486
+# %bb.483:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_484:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_484
+# %bb.485:
+	cmp	rsi, r10
+	jne	.LBB0_486
+	jmp	.LBB0_825
+.LBB0_659:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_664
+# %bb.660:
+	and	al, dil
+	jne	.LBB0_664
+# %bb.661:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_662:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm7, ymmword ptr [rcx + 8*rdi + 96]
+	vpsrlq	ymm8, ymm4, 32
+	vpmuludq	ymm8, ymm8, ymm1
+	vpsrlq	ymm9, ymm1, 32
+	vpmuludq	ymm9, ymm9, ymm4
+	vpaddq	ymm8, ymm9, ymm8
+	vpsllq	ymm8, ymm8, 32
+	vpmuludq	ymm1, ymm4, ymm1
+	vpaddq	ymm1, ymm8, ymm1
+	vpsrlq	ymm4, ymm5, 32
+	vpmuludq	ymm4, ymm4, ymm2
+	vpsrlq	ymm8, ymm2, 32
+	vpmuludq	ymm8, ymm8, ymm5
+	vpaddq	ymm4, ymm8, ymm4
+	vpsllq	ymm4, ymm4, 32
+	vpmuludq	ymm2, ymm5, ymm2
+	vpaddq	ymm2, ymm2, ymm4
+	vpsrlq	ymm4, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm3
+	vpsrlq	ymm5, ymm3, 32
+	vpmuludq	ymm5, ymm6, ymm5
+	vpaddq	ymm4, ymm5, ymm4
+	vpsllq	ymm4, ymm4, 32
+	vpmuludq	ymm3, ymm6, ymm3
+	vpaddq	ymm3, ymm3, ymm4
+	vpsrlq	ymm4, ymm7, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpsrlq	ymm5, ymm0, 32
+	vpmuludq	ymm5, ymm7, ymm5
+	vpaddq	ymm4, ymm5, ymm4
+	vpsllq	ymm4, ymm4, 32
+	vpmuludq	ymm0, ymm7, ymm0
+	vpaddq	ymm0, ymm0, ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_662
+# %bb.663:
+	cmp	rsi, r10
+	jne	.LBB0_664
+	jmp	.LBB0_825
+.LBB0_671:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_676
+# %bb.672:
+	and	al, dil
+	jne	.LBB0_676
+# %bb.673:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_674:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmulps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vmulps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmulps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmulps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_674
+# %bb.675:
+	cmp	rsi, r10
+	jne	.LBB0_676
+	jmp	.LBB0_825
+.LBB0_795:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_800
+# %bb.796:
+	and	al, dil
+	jne	.LBB0_800
+# %bb.797:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_798:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm7, ymmword ptr [rcx + 8*rdi + 96]
+	vpsrlq	ymm8, ymm4, 32
+	vpmuludq	ymm8, ymm8, ymm1
+	vpsrlq	ymm9, ymm1, 32
+	vpmuludq	ymm9, ymm9, ymm4
+	vpaddq	ymm8, ymm9, ymm8
+	vpsllq	ymm8, ymm8, 32
+	vpmuludq	ymm1, ymm4, ymm1
+	vpaddq	ymm1, ymm8, ymm1
+	vpsrlq	ymm4, ymm5, 32
+	vpmuludq	ymm4, ymm4, ymm2
+	vpsrlq	ymm8, ymm2, 32
+	vpmuludq	ymm8, ymm8, ymm5
+	vpaddq	ymm4, ymm8, ymm4
+	vpsllq	ymm4, ymm4, 32
+	vpmuludq	ymm2, ymm5, ymm2
+	vpaddq	ymm2, ymm2, ymm4
+	vpsrlq	ymm4, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm3
+	vpsrlq	ymm5, ymm3, 32
+	vpmuludq	ymm5, ymm6, ymm5
+	vpaddq	ymm4, ymm5, ymm4
+	vpsllq	ymm4, ymm4, 32
+	vpmuludq	ymm3, ymm6, ymm3
+	vpaddq	ymm3, ymm3, ymm4
+	vpsrlq	ymm4, ymm7, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpsrlq	ymm5, ymm0, 32
+	vpmuludq	ymm5, ymm7, ymm5
+	vpaddq	ymm4, ymm5, ymm4
+	vpsllq	ymm4, ymm4, 32
+	vpmuludq	ymm0, ymm7, ymm0
+	vpaddq	ymm0, ymm0, ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_798
+# %bb.799:
+	cmp	rsi, r10
+	jne	.LBB0_800
+	jmp	.LBB0_825
+.LBB0_807:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_812
+# %bb.808:
+	and	al, dil
+	jne	.LBB0_812
+# %bb.809:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_810:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmulps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vmulps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmulps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmulps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_810
+# %bb.811:
+	cmp	rsi, r10
+	jne	.LBB0_812
+	jmp	.LBB0_825
+.LBB0_390:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_395
+# %bb.391:
+	and	al, dil
+	jne	.LBB0_395
+# %bb.392:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_393:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_393
+# %bb.394:
+	cmp	rsi, r10
+	jne	.LBB0_395
+	jmp	.LBB0_825
+.LBB0_402:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_407
+# %bb.403:
+	and	al, dil
+	jne	.LBB0_407
+# %bb.404:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_405:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_405
+# %bb.406:
+	cmp	rsi, r10
+	jne	.LBB0_407
+	jmp	.LBB0_825
+.LBB0_523:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_528
+# %bb.524:
+	and	al, dil
+	jne	.LBB0_528
+# %bb.525:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_526:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_526
+# %bb.527:
+	cmp	rsi, r10
+	jne	.LBB0_528
+	jmp	.LBB0_825
+.LBB0_535:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_540
+# %bb.536:
+	and	al, dil
+	jne	.LBB0_540
+# %bb.537:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_538:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_538
+# %bb.539:
+	cmp	rsi, r10
+	jne	.LBB0_540
+	jmp	.LBB0_825
+.LBB0_592:
+	and	rax, -4
+	neg	rax
+	xor	esi, esi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+.LBB0_593:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi], ymm1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 32]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 64]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 64]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 96]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 96]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm1
+	sub	rsi, -128
+	add	rax, 4
+	jne	.LBB0_593
+.LBB0_594:
+	test	r9, r9
+	je	.LBB0_597
+# %bb.595:
+	neg	r9
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+.LBB0_596:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi], ymm1
+	add	rsi, 32
+	inc	r9
+	jne	.LBB0_596
+.LBB0_597:
+	cmp	rdi, r10
+	je	.LBB0_825
+.LBB0_598:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB0_600
+.LBB0_599:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB0_599
+.LBB0_600:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_601:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	byte ptr [rdx + rdi + 1]
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	byte ptr [rdx + rdi + 2]
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	byte ptr [rdx + rdi + 3]
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB0_601
+	jmp	.LBB0_825
+.LBB0_728:
+	and	rax, -4
+	neg	rax
+	xor	esi, esi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+.LBB0_729:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi], ymm1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 32]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 64]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 64]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 96]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 96]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm1
+	sub	rsi, -128
+	add	rax, 4
+	jne	.LBB0_729
+.LBB0_730:
+	test	r9, r9
+	je	.LBB0_733
+# %bb.731:
+	neg	r9
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+.LBB0_732:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi], ymm1
+	add	rsi, 32
+	inc	r9
+	jne	.LBB0_732
+.LBB0_733:
+	cmp	rdi, r10
+	je	.LBB0_825
+.LBB0_734:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB0_736
+.LBB0_735:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB0_735
+.LBB0_736:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_737:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	byte ptr [rdx + rdi + 1]
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	byte ptr [rdx + rdi + 2]
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	byte ptr [rdx + rdi + 3]
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB0_737
+	jmp	.LBB0_825
+.LBB0_578:
+	and	rax, -4
+	neg	rax
+	xor	esi, esi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+.LBB0_579:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi], ymm1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 32]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 64]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 64]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 96]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 96]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm1
+	sub	rsi, -128
+	add	rax, 4
+	jne	.LBB0_579
+.LBB0_580:
+	test	r9, r9
+	je	.LBB0_583
+# %bb.581:
+	neg	r9
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+.LBB0_582:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi], ymm1
+	add	rsi, 32
+	inc	r9
+	jne	.LBB0_582
+.LBB0_583:
+	cmp	rdi, r10
+	je	.LBB0_825
+.LBB0_584:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB0_586
+.LBB0_585:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB0_585
+.LBB0_586:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_587:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	byte ptr [rdx + rdi + 1]
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	byte ptr [rdx + rdi + 2]
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	byte ptr [rdx + rdi + 3]
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB0_587
+	jmp	.LBB0_825
+.LBB0_714:
+	and	rax, -4
+	neg	rax
+	xor	esi, esi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+.LBB0_715:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi], ymm1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 32]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 64]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 64]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi + 96]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi + 96]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm1
+	sub	rsi, -128
+	add	rax, 4
+	jne	.LBB0_715
+.LBB0_716:
+	test	r9, r9
+	je	.LBB0_719
+# %bb.717:
+	neg	r9
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_0] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+.LBB0_718:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rsi]
+	vmovdqu	ymm2, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm3, ymm1, ymm1        # ymm3 = ymm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpunpckhbw	ymm4, ymm2, ymm2        # ymm4 = ymm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm3, ymm4, ymm3
+	vpand	ymm3, ymm3, ymm0
+	vpunpcklbw	ymm1, ymm1, ymm1        # ymm1 = ymm1[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpunpcklbw	ymm2, ymm2, ymm2        # ymm2 = ymm2[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm1, ymm2, ymm1
+	vpand	ymm1, ymm1, ymm0
+	vpackuswb	ymm1, ymm1, ymm3
+	vmovdqu	ymmword ptr [r8 + rsi], ymm1
+	add	rsi, 32
+	inc	r9
+	jne	.LBB0_718
+.LBB0_719:
+	cmp	rdi, r10
+	je	.LBB0_825
+.LBB0_720:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB0_722
+.LBB0_721:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB0_721
+.LBB0_722:
+	cmp	r9, 3
+	jb	.LBB0_825
+.LBB0_723:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	byte ptr [rdx + rdi + 1]
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	byte ptr [rdx + rdi + 2]
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	byte ptr [rdx + rdi + 3]
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB0_723
+.LBB0_825:
+	mov	rsp, rbp
+	pop	rbp
+	vzeroupper
+	ret
+.Lfunc_end0:
+	.size	arithmetic_binary_avx2, .Lfunc_end0-arithmetic_binary_avx2
+                                        # -- End function
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5                               # -- Begin function arithmetic_arr_scalar_avx2
+.LCPI1_0:
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.text
+	.globl	arithmetic_arr_scalar_avx2
+	.p2align	4, 0x90
+	.type	arithmetic_arr_scalar_avx2,@function
+arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	cmp	sil, 20
+	jg	.LBB1_12
+# %bb.1:
+	test	sil, sil
+	je	.LBB1_23
+# %bb.2:
+	cmp	sil, 1
+	je	.LBB1_31
+# %bb.3:
+	cmp	sil, 2
+	jne	.LBB1_1109
+# %bb.4:
+	cmp	edi, 6
+	jg	.LBB1_55
+# %bb.5:
+	cmp	edi, 3
+	jle	.LBB1_97
+# %bb.6:
+	cmp	edi, 4
+	je	.LBB1_157
+# %bb.7:
+	cmp	edi, 5
+	je	.LBB1_160
+# %bb.8:
+	cmp	edi, 6
+	jne	.LBB1_1109
+# %bb.9:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.10:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_11
+# %bb.265:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_445
+# %bb.266:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_445
+.LBB1_11:
+	xor	esi, esi
+.LBB1_665:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_667
+.LBB1_666:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_666
+.LBB1_667:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_668:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_668
+	jmp	.LBB1_1109
+.LBB1_12:
+	cmp	sil, 21
+	je	.LBB1_39
+# %bb.13:
+	cmp	sil, 22
+	je	.LBB1_47
+# %bb.14:
+	cmp	sil, 23
+	jne	.LBB1_1109
+# %bb.15:
+	cmp	edi, 6
+	jg	.LBB1_62
+# %bb.16:
+	cmp	edi, 3
+	jle	.LBB1_102
+# %bb.17:
+	cmp	edi, 4
+	je	.LBB1_163
+# %bb.18:
+	cmp	edi, 5
+	je	.LBB1_166
+# %bb.19:
+	cmp	edi, 6
+	jne	.LBB1_1109
+# %bb.20:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.21:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_22
+# %bb.268:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_448
+# %bb.269:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_448
+.LBB1_22:
+	xor	esi, esi
+.LBB1_673:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_675
+.LBB1_674:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_674
+.LBB1_675:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_676:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_676
+	jmp	.LBB1_1109
+.LBB1_23:
+	cmp	edi, 6
+	jg	.LBB1_69
+# %bb.24:
+	cmp	edi, 3
+	jle	.LBB1_107
+# %bb.25:
+	cmp	edi, 4
+	je	.LBB1_169
+# %bb.26:
+	cmp	edi, 5
+	je	.LBB1_172
+# %bb.27:
+	cmp	edi, 6
+	jne	.LBB1_1109
+# %bb.28:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.29:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_30
+# %bb.271:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_451
+# %bb.272:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_451
+.LBB1_30:
+	xor	esi, esi
+.LBB1_681:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_683
+.LBB1_682:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_682
+.LBB1_683:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_684:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_684
+	jmp	.LBB1_1109
+.LBB1_31:
+	cmp	edi, 6
+	jg	.LBB1_76
+# %bb.32:
+	cmp	edi, 3
+	jle	.LBB1_112
+# %bb.33:
+	cmp	edi, 4
+	je	.LBB1_175
+# %bb.34:
+	cmp	edi, 5
+	je	.LBB1_178
+# %bb.35:
+	cmp	edi, 6
+	jne	.LBB1_1109
+# %bb.36:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.37:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_38
+# %bb.274:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_454
+# %bb.275:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_454
+.LBB1_38:
+	xor	esi, esi
+.LBB1_689:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_691
+.LBB1_690:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_690
+.LBB1_691:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_692:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_692
+	jmp	.LBB1_1109
+.LBB1_39:
+	cmp	edi, 6
+	jg	.LBB1_83
+# %bb.40:
+	cmp	edi, 3
+	jle	.LBB1_117
+# %bb.41:
+	cmp	edi, 4
+	je	.LBB1_181
+# %bb.42:
+	cmp	edi, 5
+	je	.LBB1_184
+# %bb.43:
+	cmp	edi, 6
+	jne	.LBB1_1109
+# %bb.44:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.45:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_46
+# %bb.277:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_457
+# %bb.278:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_457
+.LBB1_46:
+	xor	esi, esi
+.LBB1_697:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_699
+.LBB1_698:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_698
+.LBB1_699:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_700:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_700
+	jmp	.LBB1_1109
+.LBB1_47:
+	cmp	edi, 6
+	jg	.LBB1_90
+# %bb.48:
+	cmp	edi, 3
+	jle	.LBB1_122
+# %bb.49:
+	cmp	edi, 4
+	je	.LBB1_187
+# %bb.50:
+	cmp	edi, 5
+	je	.LBB1_190
+# %bb.51:
+	cmp	edi, 6
+	jne	.LBB1_1109
+# %bb.52:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.53:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_54
+# %bb.280:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_460
+# %bb.281:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_460
+.LBB1_54:
+	xor	esi, esi
+.LBB1_705:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_707
+.LBB1_706:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_706
+.LBB1_707:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_708:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_708
+	jmp	.LBB1_1109
+.LBB1_55:
+	cmp	edi, 8
+	jle	.LBB1_127
+# %bb.56:
+	cmp	edi, 9
+	je	.LBB1_193
+# %bb.57:
+	cmp	edi, 11
+	je	.LBB1_196
+# %bb.58:
+	cmp	edi, 12
+	jne	.LBB1_1109
+# %bb.59:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.60:
+	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB1_61
+# %bb.283:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_463
+# %bb.284:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_463
+.LBB1_61:
+	xor	ecx, ecx
+.LBB1_713:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_715
+.LBB1_714:                              # =>This Inner Loop Header: Depth=1
+	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_714
+.LBB1_715:
+	cmp	rsi, 3
+	jb	.LBB1_1109
+.LBB1_716:                              # =>This Inner Loop Header: Depth=1
+	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
+	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
+	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
+	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_716
+	jmp	.LBB1_1109
+.LBB1_62:
+	cmp	edi, 8
+	jle	.LBB1_132
+# %bb.63:
+	cmp	edi, 9
+	je	.LBB1_199
+# %bb.64:
+	cmp	edi, 11
+	je	.LBB1_202
+# %bb.65:
+	cmp	edi, 12
+	jne	.LBB1_1109
+# %bb.66:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.67:
+	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB1_68
+# %bb.286:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_466
+# %bb.287:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_466
+.LBB1_68:
+	xor	ecx, ecx
+.LBB1_721:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_723
+.LBB1_722:                              # =>This Inner Loop Header: Depth=1
+	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_722
+.LBB1_723:
+	cmp	rsi, 3
+	jb	.LBB1_1109
+.LBB1_724:                              # =>This Inner Loop Header: Depth=1
+	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
+	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
+	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	vmulsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
+	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_724
+	jmp	.LBB1_1109
+.LBB1_69:
+	cmp	edi, 8
+	jle	.LBB1_137
+# %bb.70:
+	cmp	edi, 9
+	je	.LBB1_205
+# %bb.71:
+	cmp	edi, 11
+	je	.LBB1_208
+# %bb.72:
+	cmp	edi, 12
+	jne	.LBB1_1109
+# %bb.73:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.74:
+	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB1_75
+# %bb.289:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_469
+# %bb.290:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_469
+.LBB1_75:
+	xor	ecx, ecx
+.LBB1_729:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_731
+.LBB1_730:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_730
+.LBB1_731:
+	cmp	rsi, 3
+	jb	.LBB1_1109
+.LBB1_732:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
+	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
+	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
+	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_732
+	jmp	.LBB1_1109
+.LBB1_76:
+	cmp	edi, 8
+	jle	.LBB1_142
+# %bb.77:
+	cmp	edi, 9
+	je	.LBB1_211
+# %bb.78:
+	cmp	edi, 11
+	je	.LBB1_214
+# %bb.79:
+	cmp	edi, 12
+	jne	.LBB1_1109
+# %bb.80:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.81:
+	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB1_82
+# %bb.292:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_472
+# %bb.293:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_472
+.LBB1_82:
+	xor	ecx, ecx
+.LBB1_737:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_739
+.LBB1_738:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_738
+.LBB1_739:
+	cmp	rsi, 3
+	jb	.LBB1_1109
+.LBB1_740:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_740
+	jmp	.LBB1_1109
+.LBB1_83:
+	cmp	edi, 8
+	jle	.LBB1_147
+# %bb.84:
+	cmp	edi, 9
+	je	.LBB1_217
+# %bb.85:
+	cmp	edi, 11
+	je	.LBB1_220
+# %bb.86:
+	cmp	edi, 12
+	jne	.LBB1_1109
+# %bb.87:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.88:
+	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB1_89
+# %bb.295:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_475
+# %bb.296:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_475
+.LBB1_89:
+	xor	ecx, ecx
+.LBB1_745:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_747
+.LBB1_746:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_746
+.LBB1_747:
+	cmp	rsi, 3
+	jb	.LBB1_1109
+.LBB1_748:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
+	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
+	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
+	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_748
+	jmp	.LBB1_1109
+.LBB1_90:
+	cmp	edi, 8
+	jle	.LBB1_152
+# %bb.91:
+	cmp	edi, 9
+	je	.LBB1_223
+# %bb.92:
+	cmp	edi, 11
+	je	.LBB1_226
+# %bb.93:
+	cmp	edi, 12
+	jne	.LBB1_1109
+# %bb.94:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.95:
+	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB1_96
+# %bb.298:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_478
+# %bb.299:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_478
+.LBB1_96:
+	xor	ecx, ecx
+.LBB1_753:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_755
+.LBB1_754:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_754
+.LBB1_755:
+	cmp	rsi, 3
+	jb	.LBB1_1109
+.LBB1_756:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_756
+	jmp	.LBB1_1109
+.LBB1_97:
+	cmp	edi, 2
+	je	.LBB1_229
+# %bb.98:
+	cmp	edi, 3
+	jne	.LBB1_1109
+# %bb.99:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.100:
+	mov	cl, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_101
+# %bb.301:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_481
+# %bb.302:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_481
+.LBB1_101:
+	xor	edi, edi
+.LBB1_627:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB1_629
+.LBB1_628:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB1_628
+.LBB1_629:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_630:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rdx + rdi + 1]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rdx + rdi + 2]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rdx + rdi + 3]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB1_630
+	jmp	.LBB1_1109
+.LBB1_102:
+	cmp	edi, 2
+	je	.LBB1_232
+# %bb.103:
+	cmp	edi, 3
+	jne	.LBB1_1109
+# %bb.104:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.105:
+	mov	cl, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_106
+# %bb.304:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_483
+# %bb.305:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_483
+.LBB1_106:
+	xor	edi, edi
+.LBB1_637:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB1_639
+.LBB1_638:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB1_638
+.LBB1_639:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_640:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rdx + rdi + 1]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rdx + rdi + 2]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rdx + rdi + 3]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB1_640
+	jmp	.LBB1_1109
+.LBB1_107:
+	cmp	edi, 2
+	je	.LBB1_235
+# %bb.108:
+	cmp	edi, 3
+	jne	.LBB1_1109
+# %bb.109:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.110:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_111
+# %bb.307:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_485
+# %bb.308:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_485
+.LBB1_111:
+	xor	esi, esi
+.LBB1_761:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_763
+.LBB1_762:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_762
+.LBB1_763:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_764:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_764
+	jmp	.LBB1_1109
+.LBB1_112:
+	cmp	edi, 2
+	je	.LBB1_238
+# %bb.113:
+	cmp	edi, 3
+	jne	.LBB1_1109
+# %bb.114:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.115:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_116
+# %bb.310:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_488
+# %bb.311:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_488
+.LBB1_116:
+	xor	esi, esi
+.LBB1_769:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_771
+.LBB1_770:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_770
+.LBB1_771:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_772:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_772
+	jmp	.LBB1_1109
+.LBB1_117:
+	cmp	edi, 2
+	je	.LBB1_241
+# %bb.118:
+	cmp	edi, 3
+	jne	.LBB1_1109
+# %bb.119:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.120:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_121
+# %bb.313:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_491
+# %bb.314:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_491
+.LBB1_121:
+	xor	esi, esi
+.LBB1_777:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_779
+.LBB1_778:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_778
+.LBB1_779:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_780:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_780
+	jmp	.LBB1_1109
+.LBB1_122:
+	cmp	edi, 2
+	je	.LBB1_244
+# %bb.123:
+	cmp	edi, 3
+	jne	.LBB1_1109
+# %bb.124:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.125:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_126
+# %bb.316:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_494
+# %bb.317:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_494
+.LBB1_126:
+	xor	esi, esi
+.LBB1_785:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_787
+.LBB1_786:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_786
+.LBB1_787:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_788:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_788
+	jmp	.LBB1_1109
+.LBB1_127:
+	cmp	edi, 7
+	je	.LBB1_247
+# %bb.128:
+	cmp	edi, 8
+	jne	.LBB1_1109
+# %bb.129:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.130:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_131
+# %bb.319:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_497
+# %bb.320:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_497
+.LBB1_131:
+	xor	esi, esi
+.LBB1_793:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_795
+.LBB1_794:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_794
+.LBB1_795:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_796:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_796
+	jmp	.LBB1_1109
+.LBB1_132:
+	cmp	edi, 7
+	je	.LBB1_250
+# %bb.133:
+	cmp	edi, 8
+	jne	.LBB1_1109
+# %bb.134:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.135:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_136
+# %bb.322:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_500
+# %bb.323:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_500
+.LBB1_136:
+	xor	esi, esi
+.LBB1_801:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_803
+.LBB1_802:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_802
+.LBB1_803:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_804:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_804
+	jmp	.LBB1_1109
+.LBB1_137:
+	cmp	edi, 7
+	je	.LBB1_253
+# %bb.138:
+	cmp	edi, 8
+	jne	.LBB1_1109
+# %bb.139:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.140:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_141
+# %bb.325:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_503
+# %bb.326:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_503
+.LBB1_141:
+	xor	esi, esi
+.LBB1_809:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_811
+.LBB1_810:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_810
+.LBB1_811:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_812:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_812
+	jmp	.LBB1_1109
+.LBB1_142:
+	cmp	edi, 7
+	je	.LBB1_256
+# %bb.143:
+	cmp	edi, 8
+	jne	.LBB1_1109
+# %bb.144:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.145:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_146
+# %bb.328:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_506
+# %bb.329:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_506
+.LBB1_146:
+	xor	esi, esi
+.LBB1_817:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_819
+.LBB1_818:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_818
+.LBB1_819:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_820:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_820
+	jmp	.LBB1_1109
+.LBB1_147:
+	cmp	edi, 7
+	je	.LBB1_259
+# %bb.148:
+	cmp	edi, 8
+	jne	.LBB1_1109
+# %bb.149:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.150:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_151
+# %bb.331:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_509
+# %bb.332:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_509
+.LBB1_151:
+	xor	esi, esi
+.LBB1_825:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_827
+.LBB1_826:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_826
+.LBB1_827:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_828:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_828
+	jmp	.LBB1_1109
+.LBB1_152:
+	cmp	edi, 7
+	je	.LBB1_262
+# %bb.153:
+	cmp	edi, 8
+	jne	.LBB1_1109
+# %bb.154:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.155:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_156
+# %bb.334:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_512
+# %bb.335:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_512
+.LBB1_156:
+	xor	esi, esi
+.LBB1_833:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_835
+.LBB1_834:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_834
+.LBB1_835:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_836:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_836
+	jmp	.LBB1_1109
+.LBB1_157:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.158:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_159
+# %bb.337:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_515
+# %bb.338:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_515
+.LBB1_159:
+	xor	esi, esi
+.LBB1_841:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_843
+.LBB1_842:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	imul	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_842
+.LBB1_843:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_844:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_844
+	jmp	.LBB1_1109
+.LBB1_160:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.161:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_162
+# %bb.340:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_518
+# %bb.341:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_518
+.LBB1_162:
+	xor	esi, esi
+.LBB1_849:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_851
+.LBB1_850:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	imul	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_850
+.LBB1_851:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_852:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_852
+	jmp	.LBB1_1109
+.LBB1_163:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.164:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_165
+# %bb.343:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_521
+# %bb.344:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_521
+.LBB1_165:
+	xor	esi, esi
+.LBB1_857:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_859
+.LBB1_858:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	imul	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_858
+.LBB1_859:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_860:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_860
+	jmp	.LBB1_1109
+.LBB1_166:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.167:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_168
+# %bb.346:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_524
+# %bb.347:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_524
+.LBB1_168:
+	xor	esi, esi
+.LBB1_865:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_867
+.LBB1_866:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	imul	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_866
+.LBB1_867:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_868:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_868
+	jmp	.LBB1_1109
+.LBB1_169:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.170:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_171
+# %bb.349:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_527
+# %bb.350:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_527
+.LBB1_171:
+	xor	esi, esi
+.LBB1_873:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_875
+.LBB1_874:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_874
+.LBB1_875:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_876:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_876
+	jmp	.LBB1_1109
+.LBB1_172:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.173:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_174
+# %bb.352:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_530
+# %bb.353:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_530
+.LBB1_174:
+	xor	esi, esi
+.LBB1_881:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_883
+.LBB1_882:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_882
+.LBB1_883:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_884:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_884
+	jmp	.LBB1_1109
+.LBB1_175:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.176:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_177
+# %bb.355:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_533
+# %bb.356:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_533
+.LBB1_177:
+	xor	esi, esi
+.LBB1_889:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_891
+.LBB1_890:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	edi, eax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_890
+.LBB1_891:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_892:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_892
+	jmp	.LBB1_1109
+.LBB1_178:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.179:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_180
+# %bb.358:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_536
+# %bb.359:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_536
+.LBB1_180:
+	xor	esi, esi
+.LBB1_897:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_899
+.LBB1_898:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	edi, eax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_898
+.LBB1_899:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_900:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_900
+	jmp	.LBB1_1109
+.LBB1_181:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.182:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_183
+# %bb.361:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_539
+# %bb.362:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_539
+.LBB1_183:
+	xor	esi, esi
+.LBB1_905:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_907
+.LBB1_906:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_906
+.LBB1_907:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_908:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_908
+	jmp	.LBB1_1109
+.LBB1_184:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.185:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_186
+# %bb.364:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_542
+# %bb.365:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_542
+.LBB1_186:
+	xor	esi, esi
+.LBB1_913:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_915
+.LBB1_914:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_914
+.LBB1_915:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_916:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_916
+	jmp	.LBB1_1109
+.LBB1_187:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.188:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_189
+# %bb.367:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_545
+# %bb.368:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_545
+.LBB1_189:
+	xor	esi, esi
+.LBB1_921:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_923
+.LBB1_922:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	edi, eax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_922
+.LBB1_923:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_924:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_924
+	jmp	.LBB1_1109
+.LBB1_190:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.191:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_192
+# %bb.370:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_548
+# %bb.371:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_548
+.LBB1_192:
+	xor	esi, esi
+.LBB1_929:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_931
+.LBB1_930:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	edi, eax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_930
+.LBB1_931:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_932:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_932
+	jmp	.LBB1_1109
+.LBB1_193:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.194:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_195
+# %bb.373:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_551
+# %bb.374:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_551
+.LBB1_195:
+	xor	esi, esi
+.LBB1_937:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_939
+.LBB1_938:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_938
+.LBB1_939:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_940:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_940
+	jmp	.LBB1_1109
+.LBB1_196:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.197:
+	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB1_198
+# %bb.376:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_554
+# %bb.377:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_554
+.LBB1_198:
+	xor	ecx, ecx
+.LBB1_945:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_947
+.LBB1_946:                              # =>This Inner Loop Header: Depth=1
+	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_946
+.LBB1_947:
+	cmp	rsi, 3
+	jb	.LBB1_1109
+.LBB1_948:                              # =>This Inner Loop Header: Depth=1
+	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
+	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
+	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
+	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
+	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
+	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_948
+	jmp	.LBB1_1109
+.LBB1_199:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.200:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_201
+# %bb.379:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_557
+# %bb.380:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_557
+.LBB1_201:
+	xor	esi, esi
+.LBB1_953:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_955
+.LBB1_954:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_954
+.LBB1_955:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_956:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_956
+	jmp	.LBB1_1109
+.LBB1_202:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.203:
+	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB1_204
+# %bb.382:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_560
+# %bb.383:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_560
+.LBB1_204:
+	xor	ecx, ecx
+.LBB1_961:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_963
+.LBB1_962:                              # =>This Inner Loop Header: Depth=1
+	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_962
+.LBB1_963:
+	cmp	rsi, 3
+	jb	.LBB1_1109
+.LBB1_964:                              # =>This Inner Loop Header: Depth=1
+	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
+	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
+	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
+	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
+	vmulss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
+	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_964
+	jmp	.LBB1_1109
+.LBB1_205:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.206:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_207
+# %bb.385:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_563
+# %bb.386:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_563
+.LBB1_207:
+	xor	esi, esi
+.LBB1_969:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_971
+.LBB1_970:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_970
+.LBB1_971:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_972:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_972
+	jmp	.LBB1_1109
+.LBB1_208:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.209:
+	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB1_210
+# %bb.388:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_566
+# %bb.389:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_566
+.LBB1_210:
+	xor	ecx, ecx
+.LBB1_977:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_979
+.LBB1_978:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_978
+.LBB1_979:
+	cmp	rsi, 3
+	jb	.LBB1_1109
+.LBB1_980:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
+	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
+	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
+	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_980
+	jmp	.LBB1_1109
+.LBB1_211:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.212:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_213
+# %bb.391:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_569
+# %bb.392:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_569
+.LBB1_213:
+	xor	esi, esi
+.LBB1_985:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_987
+.LBB1_986:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_986
+.LBB1_987:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_988:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_988
+	jmp	.LBB1_1109
+.LBB1_214:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.215:
+	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB1_216
+# %bb.394:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_572
+# %bb.395:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_572
+.LBB1_216:
+	xor	ecx, ecx
+.LBB1_993:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_995
+.LBB1_994:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_994
+.LBB1_995:
+	cmp	rsi, 3
+	jb	.LBB1_1109
+.LBB1_996:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_996
+	jmp	.LBB1_1109
+.LBB1_217:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.218:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_219
+# %bb.397:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_575
+# %bb.398:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_575
+.LBB1_219:
+	xor	esi, esi
+.LBB1_1001:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1003
+.LBB1_1002:                             # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1002
+.LBB1_1003:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_1004:                             # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1004
+	jmp	.LBB1_1109
+.LBB1_220:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.221:
+	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB1_222
+# %bb.400:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_578
+# %bb.401:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_578
+.LBB1_222:
+	xor	ecx, ecx
+.LBB1_1009:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_1011
+.LBB1_1010:                             # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_1010
+.LBB1_1011:
+	cmp	rsi, 3
+	jb	.LBB1_1109
+.LBB1_1012:                             # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
+	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
+	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
+	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_1012
+	jmp	.LBB1_1109
+.LBB1_223:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.224:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_225
+# %bb.403:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_581
+# %bb.404:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_581
+.LBB1_225:
+	xor	esi, esi
+.LBB1_1017:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1019
+.LBB1_1018:                             # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1018
+.LBB1_1019:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_1020:                             # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1020
+	jmp	.LBB1_1109
+.LBB1_226:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.227:
+	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB1_228
+# %bb.406:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_584
+# %bb.407:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_584
+.LBB1_228:
+	xor	ecx, ecx
+.LBB1_1025:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_1027
+.LBB1_1026:                             # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_1026
+.LBB1_1027:
+	cmp	rsi, 3
+	jb	.LBB1_1109
+.LBB1_1028:                             # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_1028
+	jmp	.LBB1_1109
+.LBB1_229:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.230:
+	mov	cl, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_231
+# %bb.409:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_587
+# %bb.410:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_587
+.LBB1_231:
+	xor	edi, edi
+.LBB1_647:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB1_649
+.LBB1_648:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB1_648
+.LBB1_649:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_650:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rdx + rdi + 1]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rdx + rdi + 2]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rdx + rdi + 3]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB1_650
+	jmp	.LBB1_1109
+.LBB1_232:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.233:
+	mov	cl, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_234
+# %bb.412:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_589
+# %bb.413:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_589
+.LBB1_234:
+	xor	edi, edi
+.LBB1_657:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB1_659
+.LBB1_658:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB1_658
+.LBB1_659:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_660:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rdx + rdi + 1]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rdx + rdi + 2]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rdx + rdi + 3]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB1_660
+	jmp	.LBB1_1109
+.LBB1_235:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.236:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_237
+# %bb.415:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_591
+# %bb.416:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_591
+.LBB1_237:
+	xor	esi, esi
+.LBB1_1033:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1035
+.LBB1_1034:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1034
+.LBB1_1035:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_1036:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1036
+	jmp	.LBB1_1109
+.LBB1_238:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.239:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_240
+# %bb.418:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_594
+# %bb.419:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_594
+.LBB1_240:
+	xor	esi, esi
+.LBB1_1041:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1043
+.LBB1_1042:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1042
+.LBB1_1043:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_1044:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1044
+	jmp	.LBB1_1109
+.LBB1_241:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.242:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_243
+# %bb.421:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_597
+# %bb.422:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_597
+.LBB1_243:
+	xor	esi, esi
+.LBB1_1049:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1051
+.LBB1_1050:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1050
+.LBB1_1051:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_1052:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1052
+	jmp	.LBB1_1109
+.LBB1_244:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.245:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_246
+# %bb.424:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_600
+# %bb.425:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_600
+.LBB1_246:
+	xor	esi, esi
+.LBB1_1057:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1059
+.LBB1_1058:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1058
+.LBB1_1059:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_1060:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1060
+	jmp	.LBB1_1109
+.LBB1_247:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.248:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_249
+# %bb.427:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_603
+# %bb.428:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_603
+.LBB1_249:
+	xor	esi, esi
+.LBB1_1065:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1067
+.LBB1_1066:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1066
+.LBB1_1067:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_1068:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1068
+	jmp	.LBB1_1109
+.LBB1_250:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.251:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_252
+# %bb.430:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_606
+# %bb.431:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_606
+.LBB1_252:
+	xor	esi, esi
+.LBB1_1073:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1075
+.LBB1_1074:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1074
+.LBB1_1075:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_1076:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1076
+	jmp	.LBB1_1109
+.LBB1_253:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.254:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_255
+# %bb.433:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_609
+# %bb.434:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_609
+.LBB1_255:
+	xor	esi, esi
+.LBB1_1081:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1083
+.LBB1_1082:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1082
+.LBB1_1083:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_1084:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1084
+	jmp	.LBB1_1109
+.LBB1_256:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.257:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_258
+# %bb.436:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_612
+# %bb.437:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_612
+.LBB1_258:
+	xor	esi, esi
+.LBB1_1089:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1091
+.LBB1_1090:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1090
+.LBB1_1091:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_1092:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1092
+	jmp	.LBB1_1109
+.LBB1_259:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.260:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_261
+# %bb.439:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_615
+# %bb.440:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_615
+.LBB1_261:
+	xor	esi, esi
+.LBB1_1097:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1099
+.LBB1_1098:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1098
+.LBB1_1099:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_1100:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1100
+	jmp	.LBB1_1109
+.LBB1_262:
+	test	r9d, r9d
+	jle	.LBB1_1109
+# %bb.263:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_264
+# %bb.442:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_618
+# %bb.443:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_618
+.LBB1_264:
+	xor	esi, esi
+.LBB1_1105:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1107
+.LBB1_1106:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1106
+.LBB1_1107:
+	cmp	r9, 3
+	jb	.LBB1_1109
+.LBB1_1108:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1108
+	jmp	.LBB1_1109
+.LBB1_445:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_661
+# %bb.446:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_447:                              # =>This Inner Loop Header: Depth=1
+	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_447
+	jmp	.LBB1_662
+.LBB1_448:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_669
+# %bb.449:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_450:                              # =>This Inner Loop Header: Depth=1
+	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_450
+	jmp	.LBB1_670
+.LBB1_451:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_677
+# %bb.452:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_453:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_453
+	jmp	.LBB1_678
+.LBB1_454:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_685
+# %bb.455:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_456:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_456
+	jmp	.LBB1_686
+.LBB1_457:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_693
+# %bb.458:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_459:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_459
+	jmp	.LBB1_694
+.LBB1_460:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_701
+# %bb.461:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_462:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_462
+	jmp	.LBB1_702
+.LBB1_463:
+	mov	ecx, eax
+	and	ecx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rcx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_709
+# %bb.464:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_465:                              # =>This Inner Loop Header: Depth=1
+	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vmulpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
+	vmulpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB1_465
+	jmp	.LBB1_710
+.LBB1_466:
+	mov	ecx, eax
+	and	ecx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rcx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_717
+# %bb.467:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_468:                              # =>This Inner Loop Header: Depth=1
+	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vmulpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
+	vmulpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB1_468
+	jmp	.LBB1_718
+.LBB1_469:
+	mov	ecx, eax
+	and	ecx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rcx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_725
+# %bb.470:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_471:                              # =>This Inner Loop Header: Depth=1
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB1_471
+	jmp	.LBB1_726
+.LBB1_472:
+	mov	ecx, eax
+	and	ecx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rcx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_733
+# %bb.473:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+.LBB1_474:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi + 128]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 160]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 192]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 224]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 224], ymm5
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB1_474
+	jmp	.LBB1_734
+.LBB1_475:
+	mov	ecx, eax
+	and	ecx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rcx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_741
+# %bb.476:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_477:                              # =>This Inner Loop Header: Depth=1
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB1_477
+	jmp	.LBB1_742
+.LBB1_478:
+	mov	ecx, eax
+	and	ecx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rcx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_749
+# %bb.479:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+.LBB1_480:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi + 128]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 160]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 192]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 224]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 224], ymm5
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB1_480
+	jmp	.LBB1_750
+.LBB1_481:
+	mov	edi, r10d
+	and	edi, -32
+	vmovd	xmm0, ecx
+	vpbroadcastb	ymm0, xmm0
+	lea	rsi, [rdi - 32]
+	mov	rax, rsi
+	shr	rax, 5
+	add	rax, 1
+	mov	r9d, eax
+	and	r9d, 3
+	cmp	rsi, 96
+	jae	.LBB1_621
+# %bb.482:
+	xor	esi, esi
+	jmp	.LBB1_623
+.LBB1_483:
+	mov	edi, r10d
+	and	edi, -32
+	vmovd	xmm0, ecx
+	vpbroadcastb	ymm0, xmm0
+	lea	rsi, [rdi - 32]
+	mov	rax, rsi
+	shr	rax, 5
+	add	rax, 1
+	mov	r9d, eax
+	and	r9d, 3
+	cmp	rsi, 96
+	jae	.LBB1_631
+# %bb.484:
+	xor	esi, esi
+	jmp	.LBB1_633
+.LBB1_485:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_757
+# %bb.486:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_487:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_487
+	jmp	.LBB1_758
+.LBB1_488:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_765
+# %bb.489:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_490:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_490
+	jmp	.LBB1_766
+.LBB1_491:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_773
+# %bb.492:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_493:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_493
+	jmp	.LBB1_774
+.LBB1_494:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_781
+# %bb.495:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_496:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_496
+	jmp	.LBB1_782
+.LBB1_497:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	vpsrlq	ymm1, ymm0, 32
+	test	rcx, rcx
+	je	.LBB1_789
+# %bb.498:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_499:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 224]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_499
+	jmp	.LBB1_790
+.LBB1_500:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	vpsrlq	ymm1, ymm0, 32
+	test	rcx, rcx
+	je	.LBB1_797
+# %bb.501:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_502:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 224]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_502
+	jmp	.LBB1_798
+.LBB1_503:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_805
+# %bb.504:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_505:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_505
+	jmp	.LBB1_806
+.LBB1_506:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_813
+# %bb.507:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_508:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_508
+	jmp	.LBB1_814
+.LBB1_509:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_821
+# %bb.510:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_511:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_511
+	jmp	.LBB1_822
+.LBB1_512:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_829
+# %bb.513:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_514:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_514
+	jmp	.LBB1_830
+.LBB1_515:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_837
+# %bb.516:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_517:                              # =>This Inner Loop Header: Depth=1
+	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_517
+	jmp	.LBB1_838
+.LBB1_518:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_845
+# %bb.519:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_520:                              # =>This Inner Loop Header: Depth=1
+	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_520
+	jmp	.LBB1_846
+.LBB1_521:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_853
+# %bb.522:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_523:                              # =>This Inner Loop Header: Depth=1
+	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_523
+	jmp	.LBB1_854
+.LBB1_524:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_861
+# %bb.525:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_526:                              # =>This Inner Loop Header: Depth=1
+	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpmullw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_526
+	jmp	.LBB1_862
+.LBB1_527:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_869
+# %bb.528:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_529:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_529
+	jmp	.LBB1_870
+.LBB1_530:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_877
+# %bb.531:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_532:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_532
+	jmp	.LBB1_878
+.LBB1_533:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_885
+# %bb.534:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_535:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_535
+	jmp	.LBB1_886
+.LBB1_536:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_893
+# %bb.537:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_538:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_538
+	jmp	.LBB1_894
+.LBB1_539:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_901
+# %bb.540:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_541:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_541
+	jmp	.LBB1_902
+.LBB1_542:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_909
+# %bb.543:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_544:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_544
+	jmp	.LBB1_910
+.LBB1_545:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_917
+# %bb.546:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_547:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_547
+	jmp	.LBB1_918
+.LBB1_548:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_925
+# %bb.549:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_550:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_550
+	jmp	.LBB1_926
+.LBB1_551:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	vpsrlq	ymm1, ymm0, 32
+	test	rcx, rcx
+	je	.LBB1_933
+# %bb.552:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_553:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 224]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_553
+	jmp	.LBB1_934
+.LBB1_554:
+	mov	ecx, eax
+	and	ecx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rcx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_941
+# %bb.555:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_556:                              # =>This Inner Loop Header: Depth=1
+	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vmulps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
+	vmulps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB1_556
+	jmp	.LBB1_942
+.LBB1_557:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	vpsrlq	ymm1, ymm0, 32
+	test	rcx, rcx
+	je	.LBB1_949
+# %bb.558:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_559:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 224]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_559
+	jmp	.LBB1_950
+.LBB1_560:
+	mov	ecx, eax
+	and	ecx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rcx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_957
+# %bb.561:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_562:                              # =>This Inner Loop Header: Depth=1
+	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vmulps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
+	vmulps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB1_562
+	jmp	.LBB1_958
+.LBB1_563:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_965
+# %bb.564:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_565:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_565
+	jmp	.LBB1_966
+.LBB1_566:
+	mov	ecx, eax
+	and	ecx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rcx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_973
+# %bb.567:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_568:                              # =>This Inner Loop Header: Depth=1
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB1_568
+	jmp	.LBB1_974
+.LBB1_569:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_981
+# %bb.570:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_571:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_571
+	jmp	.LBB1_982
+.LBB1_572:
+	mov	ecx, eax
+	and	ecx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rcx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_989
+# %bb.573:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+.LBB1_574:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi + 128]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 160]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 192]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 224]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 224], ymm5
+	add	rsi, 64
+	add	rdi, 2
+	jne	.LBB1_574
+	jmp	.LBB1_990
+.LBB1_575:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_997
+# %bb.576:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_577:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_577
+	jmp	.LBB1_998
+.LBB1_578:
+	mov	ecx, eax
+	and	ecx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rcx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_1005
+# %bb.579:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_580:                              # =>This Inner Loop Header: Depth=1
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB1_580
+	jmp	.LBB1_1006
+.LBB1_581:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1013
+# %bb.582:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_583:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_583
+	jmp	.LBB1_1014
+.LBB1_584:
+	mov	ecx, eax
+	and	ecx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rcx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_1021
+# %bb.585:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+.LBB1_586:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi + 128]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 160]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 192]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 224]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 224], ymm5
+	add	rsi, 64
+	add	rdi, 2
+	jne	.LBB1_586
+	jmp	.LBB1_1022
+.LBB1_587:
+	mov	edi, r10d
+	and	edi, -32
+	vmovd	xmm0, ecx
+	vpbroadcastb	ymm0, xmm0
+	lea	rsi, [rdi - 32]
+	mov	rax, rsi
+	shr	rax, 5
+	add	rax, 1
+	mov	r9d, eax
+	and	r9d, 3
+	cmp	rsi, 96
+	jae	.LBB1_641
+# %bb.588:
+	xor	esi, esi
+	jmp	.LBB1_643
+.LBB1_589:
+	mov	edi, r10d
+	and	edi, -32
+	vmovd	xmm0, ecx
+	vpbroadcastb	ymm0, xmm0
+	lea	rsi, [rdi - 32]
+	mov	rax, rsi
+	shr	rax, 5
+	add	rax, 1
+	mov	r9d, eax
+	and	r9d, 3
+	cmp	rsi, 96
+	jae	.LBB1_651
+# %bb.590:
+	xor	esi, esi
+	jmp	.LBB1_653
+.LBB1_591:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1029
+# %bb.592:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_593:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_593
+	jmp	.LBB1_1030
+.LBB1_594:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1037
+# %bb.595:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_596:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_596
+	jmp	.LBB1_1038
+.LBB1_597:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1045
+# %bb.598:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_599:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_599
+	jmp	.LBB1_1046
+.LBB1_600:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1053
+# %bb.601:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_602:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_602
+	jmp	.LBB1_1054
+.LBB1_603:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1061
+# %bb.604:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_605:                              # =>This Inner Loop Header: Depth=1
+	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_605
+	jmp	.LBB1_1062
+.LBB1_606:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1069
+# %bb.607:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_608:                              # =>This Inner Loop Header: Depth=1
+	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpmulld	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_608
+	jmp	.LBB1_1070
+.LBB1_609:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1077
+# %bb.610:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_611:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_611
+	jmp	.LBB1_1078
+.LBB1_612:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1085
+# %bb.613:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_614:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_614
+	jmp	.LBB1_1086
+.LBB1_615:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1093
+# %bb.616:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_617:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_617
+	jmp	.LBB1_1094
+.LBB1_618:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1101
+# %bb.619:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_620:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_620
+	jmp	.LBB1_1102
+.LBB1_621:
+	and	rax, -4
+	neg	rax
+	xor	esi, esi
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB1_622:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi], ymm4
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 32]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 64]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 96]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
+	sub	rsi, -128
+	add	rax, 4
+	jne	.LBB1_622
+.LBB1_623:
+	test	r9, r9
+	je	.LBB1_626
+# %bb.624:
+	neg	r9
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB1_625:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rdx + rsi]
+	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm4, ymm4, ymm1
+	vpand	ymm4, ymm4, ymm2
+	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm3, ymm3, ymm0
+	vpand	ymm3, ymm3, ymm2
+	vpackuswb	ymm3, ymm3, ymm4
+	vmovdqu	ymmword ptr [r8 + rsi], ymm3
+	add	rsi, 32
+	inc	r9
+	jne	.LBB1_625
+.LBB1_626:
+	cmp	rdi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_627
+.LBB1_631:
+	and	rax, -4
+	neg	rax
+	xor	esi, esi
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB1_632:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi], ymm4
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 32]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 64]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 96]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
+	sub	rsi, -128
+	add	rax, 4
+	jne	.LBB1_632
+.LBB1_633:
+	test	r9, r9
+	je	.LBB1_636
+# %bb.634:
+	neg	r9
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB1_635:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rdx + rsi]
+	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm4, ymm4, ymm1
+	vpand	ymm4, ymm4, ymm2
+	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm3, ymm3, ymm0
+	vpand	ymm3, ymm3, ymm2
+	vpackuswb	ymm3, ymm3, ymm4
+	vmovdqu	ymmword ptr [r8 + rsi], ymm3
+	add	rsi, 32
+	inc	r9
+	jne	.LBB1_635
+.LBB1_636:
+	cmp	rdi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_637
+.LBB1_641:
+	and	rax, -4
+	neg	rax
+	xor	esi, esi
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB1_642:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi], ymm4
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 32]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 64]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 96]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
+	sub	rsi, -128
+	add	rax, 4
+	jne	.LBB1_642
+.LBB1_643:
+	test	r9, r9
+	je	.LBB1_646
+# %bb.644:
+	neg	r9
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB1_645:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rdx + rsi]
+	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm4, ymm4, ymm1
+	vpand	ymm4, ymm4, ymm2
+	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm3, ymm3, ymm0
+	vpand	ymm3, ymm3, ymm2
+	vpackuswb	ymm3, ymm3, ymm4
+	vmovdqu	ymmword ptr [r8 + rsi], ymm3
+	add	rsi, 32
+	inc	r9
+	jne	.LBB1_645
+.LBB1_646:
+	cmp	rdi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_647
+.LBB1_651:
+	and	rax, -4
+	neg	rax
+	xor	esi, esi
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB1_652:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi], ymm4
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 32]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 64]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
+	vmovdqu	ymm4, ymmword ptr [rdx + rsi + 96]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
+	sub	rsi, -128
+	add	rax, 4
+	jne	.LBB1_652
+.LBB1_653:
+	test	r9, r9
+	je	.LBB1_656
+# %bb.654:
+	neg	r9
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB1_655:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rdx + rsi]
+	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm4, ymm4, ymm1
+	vpand	ymm4, ymm4, ymm2
+	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm3, ymm3, ymm0
+	vpand	ymm3, ymm3, ymm2
+	vpackuswb	ymm3, ymm3, ymm4
+	vmovdqu	ymmword ptr [r8 + rsi], ymm3
+	add	rsi, 32
+	inc	r9
+	jne	.LBB1_655
+.LBB1_656:
+	cmp	rdi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_657
+.LBB1_661:
+	xor	edi, edi
+.LBB1_662:
+	test	r9b, 1
+	je	.LBB1_664
+# %bb.663:
+	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_664:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_665
+.LBB1_669:
+	xor	edi, edi
+.LBB1_670:
+	test	r9b, 1
+	je	.LBB1_672
+# %bb.671:
+	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_672:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_673
+.LBB1_677:
+	xor	edi, edi
+.LBB1_678:
+	test	r9b, 1
+	je	.LBB1_680
+# %bb.679:
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_680:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_681
+.LBB1_685:
+	xor	edi, edi
+.LBB1_686:
+	test	r9b, 1
+	je	.LBB1_688
+# %bb.687:
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_688:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_689
+.LBB1_693:
+	xor	edi, edi
+.LBB1_694:
+	test	r9b, 1
+	je	.LBB1_696
+# %bb.695:
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_696:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_697
+.LBB1_701:
+	xor	edi, edi
+.LBB1_702:
+	test	r9b, 1
+	je	.LBB1_704
+# %bb.703:
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_704:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_705
+.LBB1_709:
+	xor	edi, edi
+.LBB1_710:
+	test	r9b, 1
+	je	.LBB1_712
+# %bb.711:
+	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vmulpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB1_712:
+	cmp	rcx, rax
+	je	.LBB1_1109
+	jmp	.LBB1_713
+.LBB1_717:
+	xor	edi, edi
+.LBB1_718:
+	test	r9b, 1
+	je	.LBB1_720
+# %bb.719:
+	vmulpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vmulpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmulpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vmulpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB1_720:
+	cmp	rcx, rax
+	je	.LBB1_1109
+	jmp	.LBB1_721
+.LBB1_725:
+	xor	edi, edi
+.LBB1_726:
+	test	r9b, 1
+	je	.LBB1_728
+# %bb.727:
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB1_728:
+	cmp	rcx, rax
+	je	.LBB1_1109
+	jmp	.LBB1_729
+.LBB1_733:
+	xor	esi, esi
+.LBB1_734:
+	test	r9b, 1
+	je	.LBB1_736
+# %bb.735:
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm1, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+.LBB1_736:
+	cmp	rcx, rax
+	je	.LBB1_1109
+	jmp	.LBB1_737
+.LBB1_741:
+	xor	edi, edi
+.LBB1_742:
+	test	r9b, 1
+	je	.LBB1_744
+# %bb.743:
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB1_744:
+	cmp	rcx, rax
+	je	.LBB1_1109
+	jmp	.LBB1_745
+.LBB1_749:
+	xor	esi, esi
+.LBB1_750:
+	test	r9b, 1
+	je	.LBB1_752
+# %bb.751:
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm1, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+.LBB1_752:
+	cmp	rcx, rax
+	je	.LBB1_1109
+	jmp	.LBB1_753
+.LBB1_757:
+	xor	edi, edi
+.LBB1_758:
+	test	r9b, 1
+	je	.LBB1_760
+# %bb.759:
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_760:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_761
+.LBB1_765:
+	xor	edi, edi
+.LBB1_766:
+	test	r9b, 1
+	je	.LBB1_768
+# %bb.767:
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_768:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_769
+.LBB1_773:
+	xor	edi, edi
+.LBB1_774:
+	test	r9b, 1
+	je	.LBB1_776
+# %bb.775:
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_776:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_777
+.LBB1_781:
+	xor	edi, edi
+.LBB1_782:
+	test	r9b, 1
+	je	.LBB1_784
+# %bb.783:
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_784:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_785
+.LBB1_789:
+	xor	edi, edi
+.LBB1_790:
+	test	r9b, 1
+	je	.LBB1_792
+# %bb.791:
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm1, ymm5, ymm1
+	vpsrlq	ymm6, ymm5, 32
+	vpmuludq	ymm6, ymm6, ymm0
+	vpaddq	ymm1, ymm1, ymm6
+	vpsllq	ymm1, ymm1, 32
+	vpmuludq	ymm0, ymm5, ymm0
+	vpaddq	ymm0, ymm0, ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_792:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_793
+.LBB1_797:
+	xor	edi, edi
+.LBB1_798:
+	test	r9b, 1
+	je	.LBB1_800
+# %bb.799:
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm1, ymm5, ymm1
+	vpsrlq	ymm6, ymm5, 32
+	vpmuludq	ymm6, ymm6, ymm0
+	vpaddq	ymm1, ymm1, ymm6
+	vpsllq	ymm1, ymm1, 32
+	vpmuludq	ymm0, ymm5, ymm0
+	vpaddq	ymm0, ymm0, ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_800:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_801
+.LBB1_805:
+	xor	edi, edi
+.LBB1_806:
+	test	r9b, 1
+	je	.LBB1_808
+# %bb.807:
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_808:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_809
+.LBB1_813:
+	xor	edi, edi
+.LBB1_814:
+	test	r9b, 1
+	je	.LBB1_816
+# %bb.815:
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_816:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_817
+.LBB1_821:
+	xor	edi, edi
+.LBB1_822:
+	test	r9b, 1
+	je	.LBB1_824
+# %bb.823:
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_824:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_825
+.LBB1_829:
+	xor	edi, edi
+.LBB1_830:
+	test	r9b, 1
+	je	.LBB1_832
+# %bb.831:
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_832:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_833
+.LBB1_837:
+	xor	edi, edi
+.LBB1_838:
+	test	r9b, 1
+	je	.LBB1_840
+# %bb.839:
+	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_840:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_841
+.LBB1_845:
+	xor	edi, edi
+.LBB1_846:
+	test	r9b, 1
+	je	.LBB1_848
+# %bb.847:
+	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_848:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_849
+.LBB1_853:
+	xor	edi, edi
+.LBB1_854:
+	test	r9b, 1
+	je	.LBB1_856
+# %bb.855:
+	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_856:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_857
+.LBB1_861:
+	xor	edi, edi
+.LBB1_862:
+	test	r9b, 1
+	je	.LBB1_864
+# %bb.863:
+	vpmullw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpmullw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_864:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_865
+.LBB1_869:
+	xor	edi, edi
+.LBB1_870:
+	test	r9b, 1
+	je	.LBB1_872
+# %bb.871:
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_872:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_873
+.LBB1_877:
+	xor	edi, edi
+.LBB1_878:
+	test	r9b, 1
+	je	.LBB1_880
+# %bb.879:
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_880:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_881
+.LBB1_885:
+	xor	edi, edi
+.LBB1_886:
+	test	r9b, 1
+	je	.LBB1_888
+# %bb.887:
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm0, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_888:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_889
+.LBB1_893:
+	xor	edi, edi
+.LBB1_894:
+	test	r9b, 1
+	je	.LBB1_896
+# %bb.895:
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm0, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_896:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_897
+.LBB1_901:
+	xor	edi, edi
+.LBB1_902:
+	test	r9b, 1
+	je	.LBB1_904
+# %bb.903:
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_904:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_905
+.LBB1_909:
+	xor	edi, edi
+.LBB1_910:
+	test	r9b, 1
+	je	.LBB1_912
+# %bb.911:
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_912:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_913
+.LBB1_917:
+	xor	edi, edi
+.LBB1_918:
+	test	r9b, 1
+	je	.LBB1_920
+# %bb.919:
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm0, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_920:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_921
+.LBB1_925:
+	xor	edi, edi
+.LBB1_926:
+	test	r9b, 1
+	je	.LBB1_928
+# %bb.927:
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm0, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_928:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_929
+.LBB1_933:
+	xor	edi, edi
+.LBB1_934:
+	test	r9b, 1
+	je	.LBB1_936
+# %bb.935:
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm1, ymm5, ymm1
+	vpsrlq	ymm6, ymm5, 32
+	vpmuludq	ymm6, ymm6, ymm0
+	vpaddq	ymm1, ymm1, ymm6
+	vpsllq	ymm1, ymm1, 32
+	vpmuludq	ymm0, ymm5, ymm0
+	vpaddq	ymm0, ymm0, ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_936:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_937
+.LBB1_941:
+	xor	edi, edi
+.LBB1_942:
+	test	r9b, 1
+	je	.LBB1_944
+# %bb.943:
+	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vmulps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB1_944:
+	cmp	rcx, rax
+	je	.LBB1_1109
+	jmp	.LBB1_945
+.LBB1_949:
+	xor	edi, edi
+.LBB1_950:
+	test	r9b, 1
+	je	.LBB1_952
+# %bb.951:
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm1, ymm5, ymm1
+	vpsrlq	ymm6, ymm5, 32
+	vpmuludq	ymm6, ymm6, ymm0
+	vpaddq	ymm1, ymm1, ymm6
+	vpsllq	ymm1, ymm1, 32
+	vpmuludq	ymm0, ymm5, ymm0
+	vpaddq	ymm0, ymm0, ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_952:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_953
+.LBB1_957:
+	xor	edi, edi
+.LBB1_958:
+	test	r9b, 1
+	je	.LBB1_960
+# %bb.959:
+	vmulps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vmulps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmulps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vmulps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB1_960:
+	cmp	rcx, rax
+	je	.LBB1_1109
+	jmp	.LBB1_961
+.LBB1_965:
+	xor	edi, edi
+.LBB1_966:
+	test	r9b, 1
+	je	.LBB1_968
+# %bb.967:
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_968:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_969
+.LBB1_973:
+	xor	edi, edi
+.LBB1_974:
+	test	r9b, 1
+	je	.LBB1_976
+# %bb.975:
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB1_976:
+	cmp	rcx, rax
+	je	.LBB1_1109
+	jmp	.LBB1_977
+.LBB1_981:
+	xor	edi, edi
+.LBB1_982:
+	test	r9b, 1
+	je	.LBB1_984
+# %bb.983:
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_984:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_985
+.LBB1_989:
+	xor	esi, esi
+.LBB1_990:
+	test	r9b, 1
+	je	.LBB1_992
+# %bb.991:
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm1, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
+.LBB1_992:
+	cmp	rcx, rax
+	je	.LBB1_1109
+	jmp	.LBB1_993
+.LBB1_997:
+	xor	edi, edi
+.LBB1_998:
+	test	r9b, 1
+	je	.LBB1_1000
+# %bb.999:
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_1000:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_1001
+.LBB1_1005:
+	xor	edi, edi
+.LBB1_1006:
+	test	r9b, 1
+	je	.LBB1_1008
+# %bb.1007:
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB1_1008:
+	cmp	rcx, rax
+	je	.LBB1_1109
+	jmp	.LBB1_1009
+.LBB1_1013:
+	xor	edi, edi
+.LBB1_1014:
+	test	r9b, 1
+	je	.LBB1_1016
+# %bb.1015:
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_1016:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_1017
+.LBB1_1021:
+	xor	esi, esi
+.LBB1_1022:
+	test	r9b, 1
+	je	.LBB1_1024
+# %bb.1023:
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm1, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
+.LBB1_1024:
+	cmp	rcx, rax
+	je	.LBB1_1109
+	jmp	.LBB1_1025
+.LBB1_1029:
+	xor	edi, edi
+.LBB1_1030:
+	test	r9b, 1
+	je	.LBB1_1032
+# %bb.1031:
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_1032:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_1033
+.LBB1_1037:
+	xor	edi, edi
+.LBB1_1038:
+	test	r9b, 1
+	je	.LBB1_1040
+# %bb.1039:
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_1040:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_1041
+.LBB1_1045:
+	xor	edi, edi
+.LBB1_1046:
+	test	r9b, 1
+	je	.LBB1_1048
+# %bb.1047:
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_1048:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_1049
+.LBB1_1053:
+	xor	edi, edi
+.LBB1_1054:
+	test	r9b, 1
+	je	.LBB1_1056
+# %bb.1055:
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_1056:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_1057
+.LBB1_1061:
+	xor	edi, edi
+.LBB1_1062:
+	test	r9b, 1
+	je	.LBB1_1064
+# %bb.1063:
+	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_1064:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_1065
+.LBB1_1069:
+	xor	edi, edi
+.LBB1_1070:
+	test	r9b, 1
+	je	.LBB1_1072
+# %bb.1071:
+	vpmulld	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpmulld	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_1072:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_1073
+.LBB1_1077:
+	xor	edi, edi
+.LBB1_1078:
+	test	r9b, 1
+	je	.LBB1_1080
+# %bb.1079:
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_1080:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_1081
+.LBB1_1085:
+	xor	edi, edi
+.LBB1_1086:
+	test	r9b, 1
+	je	.LBB1_1088
+# %bb.1087:
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_1088:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_1089
+.LBB1_1093:
+	xor	edi, edi
+.LBB1_1094:
+	test	r9b, 1
+	je	.LBB1_1096
+# %bb.1095:
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_1096:
+	cmp	rsi, r10
+	je	.LBB1_1109
+	jmp	.LBB1_1097
+.LBB1_1101:
+	xor	edi, edi
+.LBB1_1102:
+	test	r9b, 1
+	je	.LBB1_1104
+# %bb.1103:
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_1104:
+	cmp	rsi, r10
+	jne	.LBB1_1105
+.LBB1_1109:
+	mov	rsp, rbp
+	pop	rbp
+	vzeroupper
+	ret
+.Lfunc_end1:
+	.size	arithmetic_arr_scalar_avx2, .Lfunc_end1-arithmetic_arr_scalar_avx2
+                                        # -- End function
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5                               # -- Begin function arithmetic_scalar_arr_avx2
+.LCPI2_0:
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.text
+	.globl	arithmetic_scalar_arr_avx2
+	.p2align	4, 0x90
+	.type	arithmetic_scalar_arr_avx2,@function
+arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	cmp	sil, 20
+	jg	.LBB2_12
+# %bb.1:
+	test	sil, sil
+	je	.LBB2_23
+# %bb.2:
+	cmp	sil, 1
+	je	.LBB2_31
+# %bb.3:
+	cmp	sil, 2
+	jne	.LBB2_1109
+# %bb.4:
+	cmp	edi, 6
+	jg	.LBB2_55
+# %bb.5:
+	cmp	edi, 3
+	jle	.LBB2_97
+# %bb.6:
+	cmp	edi, 4
+	je	.LBB2_157
+# %bb.7:
+	cmp	edi, 5
+	je	.LBB2_160
+# %bb.8:
+	cmp	edi, 6
+	jne	.LBB2_1109
+# %bb.9:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.10:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_11
+# %bb.265:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_445
+# %bb.266:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_445
+.LBB2_11:
+	xor	esi, esi
+.LBB2_665:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_667
+.LBB2_666:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_666
+.LBB2_667:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_668:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_668
+	jmp	.LBB2_1109
+.LBB2_12:
+	cmp	sil, 21
+	je	.LBB2_39
+# %bb.13:
+	cmp	sil, 22
+	je	.LBB2_47
+# %bb.14:
+	cmp	sil, 23
+	jne	.LBB2_1109
+# %bb.15:
+	cmp	edi, 6
+	jg	.LBB2_62
+# %bb.16:
+	cmp	edi, 3
+	jle	.LBB2_102
+# %bb.17:
+	cmp	edi, 4
+	je	.LBB2_163
+# %bb.18:
+	cmp	edi, 5
+	je	.LBB2_166
+# %bb.19:
+	cmp	edi, 6
+	jne	.LBB2_1109
+# %bb.20:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.21:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_22
+# %bb.268:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_448
+# %bb.269:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_448
+.LBB2_22:
+	xor	esi, esi
+.LBB2_673:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_675
+.LBB2_674:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_674
+.LBB2_675:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_676:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_676
+	jmp	.LBB2_1109
+.LBB2_23:
+	cmp	edi, 6
+	jg	.LBB2_69
+# %bb.24:
+	cmp	edi, 3
+	jle	.LBB2_107
+# %bb.25:
+	cmp	edi, 4
+	je	.LBB2_169
+# %bb.26:
+	cmp	edi, 5
+	je	.LBB2_172
+# %bb.27:
+	cmp	edi, 6
+	jne	.LBB2_1109
+# %bb.28:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.29:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_30
+# %bb.271:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_451
+# %bb.272:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_451
+.LBB2_30:
+	xor	esi, esi
+.LBB2_681:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_683
+.LBB2_682:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_682
+.LBB2_683:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_684:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_684
+	jmp	.LBB2_1109
+.LBB2_31:
+	cmp	edi, 6
+	jg	.LBB2_76
+# %bb.32:
+	cmp	edi, 3
+	jle	.LBB2_112
+# %bb.33:
+	cmp	edi, 4
+	je	.LBB2_175
+# %bb.34:
+	cmp	edi, 5
+	je	.LBB2_178
+# %bb.35:
+	cmp	edi, 6
+	jne	.LBB2_1109
+# %bb.36:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.37:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_38
+# %bb.274:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_454
+# %bb.275:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_454
+.LBB2_38:
+	xor	esi, esi
+.LBB2_689:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_691
+.LBB2_690:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_690
+.LBB2_691:
+	cmp	rdx, 3
+	jb	.LBB2_1109
+.LBB2_692:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_692
+	jmp	.LBB2_1109
+.LBB2_39:
+	cmp	edi, 6
+	jg	.LBB2_83
+# %bb.40:
+	cmp	edi, 3
+	jle	.LBB2_117
+# %bb.41:
+	cmp	edi, 4
+	je	.LBB2_181
+# %bb.42:
+	cmp	edi, 5
+	je	.LBB2_184
+# %bb.43:
+	cmp	edi, 6
+	jne	.LBB2_1109
+# %bb.44:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.45:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_46
+# %bb.277:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_457
+# %bb.278:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_457
+.LBB2_46:
+	xor	esi, esi
+.LBB2_697:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_699
+.LBB2_698:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_698
+.LBB2_699:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_700:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_700
+	jmp	.LBB2_1109
+.LBB2_47:
+	cmp	edi, 6
+	jg	.LBB2_90
+# %bb.48:
+	cmp	edi, 3
+	jle	.LBB2_122
+# %bb.49:
+	cmp	edi, 4
+	je	.LBB2_187
+# %bb.50:
+	cmp	edi, 5
+	je	.LBB2_190
+# %bb.51:
+	cmp	edi, 6
+	jne	.LBB2_1109
+# %bb.52:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.53:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_54
+# %bb.280:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_460
+# %bb.281:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_460
+.LBB2_54:
+	xor	esi, esi
+.LBB2_705:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_707
+.LBB2_706:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_706
+.LBB2_707:
+	cmp	rdx, 3
+	jb	.LBB2_1109
+.LBB2_708:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_708
+	jmp	.LBB2_1109
+.LBB2_55:
+	cmp	edi, 8
+	jle	.LBB2_127
+# %bb.56:
+	cmp	edi, 9
+	je	.LBB2_193
+# %bb.57:
+	cmp	edi, 11
+	je	.LBB2_196
+# %bb.58:
+	cmp	edi, 12
+	jne	.LBB2_1109
+# %bb.59:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.60:
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB2_61
+# %bb.283:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_463
+# %bb.284:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_463
+.LBB2_61:
+	xor	edx, edx
+.LBB2_713:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_715
+.LBB2_714:                              # =>This Inner Loop Header: Depth=1
+	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_714
+.LBB2_715:
+	cmp	rsi, 3
+	jb	.LBB2_1109
+.LBB2_716:                              # =>This Inner Loop Header: Depth=1
+	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
+	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
+	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
+	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_716
+	jmp	.LBB2_1109
+.LBB2_62:
+	cmp	edi, 8
+	jle	.LBB2_132
+# %bb.63:
+	cmp	edi, 9
+	je	.LBB2_199
+# %bb.64:
+	cmp	edi, 11
+	je	.LBB2_202
+# %bb.65:
+	cmp	edi, 12
+	jne	.LBB2_1109
+# %bb.66:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.67:
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB2_68
+# %bb.286:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_466
+# %bb.287:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_466
+.LBB2_68:
+	xor	edx, edx
+.LBB2_721:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_723
+.LBB2_722:                              # =>This Inner Loop Header: Depth=1
+	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_722
+.LBB2_723:
+	cmp	rsi, 3
+	jb	.LBB2_1109
+.LBB2_724:                              # =>This Inner Loop Header: Depth=1
+	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
+	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
+	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	vmulsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
+	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_724
+	jmp	.LBB2_1109
+.LBB2_69:
+	cmp	edi, 8
+	jle	.LBB2_137
+# %bb.70:
+	cmp	edi, 9
+	je	.LBB2_205
+# %bb.71:
+	cmp	edi, 11
+	je	.LBB2_208
+# %bb.72:
+	cmp	edi, 12
+	jne	.LBB2_1109
+# %bb.73:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.74:
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB2_75
+# %bb.289:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_469
+# %bb.290:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_469
+.LBB2_75:
+	xor	edx, edx
+.LBB2_729:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_731
+.LBB2_730:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_730
+.LBB2_731:
+	cmp	rsi, 3
+	jb	.LBB2_1109
+.LBB2_732:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
+	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
+	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
+	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_732
+	jmp	.LBB2_1109
+.LBB2_76:
+	cmp	edi, 8
+	jle	.LBB2_142
+# %bb.77:
+	cmp	edi, 9
+	je	.LBB2_211
+# %bb.78:
+	cmp	edi, 11
+	je	.LBB2_214
+# %bb.79:
+	cmp	edi, 12
+	jne	.LBB2_1109
+# %bb.80:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.81:
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB2_82
+# %bb.292:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_472
+# %bb.293:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_472
+.LBB2_82:
+	xor	edx, edx
+.LBB2_737:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_739
+.LBB2_738:                              # =>This Inner Loop Header: Depth=1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_738
+.LBB2_739:
+	cmp	rsi, 3
+	jb	.LBB2_1109
+.LBB2_740:                              # =>This Inner Loop Header: Depth=1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
+	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
+	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
+	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_740
+	jmp	.LBB2_1109
+.LBB2_83:
+	cmp	edi, 8
+	jle	.LBB2_147
+# %bb.84:
+	cmp	edi, 9
+	je	.LBB2_217
+# %bb.85:
+	cmp	edi, 11
+	je	.LBB2_220
+# %bb.86:
+	cmp	edi, 12
+	jne	.LBB2_1109
+# %bb.87:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.88:
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB2_89
+# %bb.295:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_475
+# %bb.296:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_475
+.LBB2_89:
+	xor	edx, edx
+.LBB2_745:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_747
+.LBB2_746:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_746
+.LBB2_747:
+	cmp	rsi, 3
+	jb	.LBB2_1109
+.LBB2_748:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
+	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
+	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
+	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_748
+	jmp	.LBB2_1109
+.LBB2_90:
+	cmp	edi, 8
+	jle	.LBB2_152
+# %bb.91:
+	cmp	edi, 9
+	je	.LBB2_223
+# %bb.92:
+	cmp	edi, 11
+	je	.LBB2_226
+# %bb.93:
+	cmp	edi, 12
+	jne	.LBB2_1109
+# %bb.94:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.95:
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB2_96
+# %bb.298:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_478
+# %bb.299:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_478
+.LBB2_96:
+	xor	edx, edx
+.LBB2_753:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_755
+.LBB2_754:                              # =>This Inner Loop Header: Depth=1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_754
+.LBB2_755:
+	cmp	rsi, 3
+	jb	.LBB2_1109
+.LBB2_756:                              # =>This Inner Loop Header: Depth=1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
+	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
+	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
+	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_756
+	jmp	.LBB2_1109
+.LBB2_97:
+	cmp	edi, 2
+	je	.LBB2_229
+# %bb.98:
+	cmp	edi, 3
+	jne	.LBB2_1109
+# %bb.99:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.100:
+	mov	dl, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_101
+# %bb.301:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_481
+# %bb.302:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_481
+.LBB2_101:
+	xor	edi, edi
+.LBB2_627:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB2_629
+.LBB2_628:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB2_628
+.LBB2_629:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_630:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB2_630
+	jmp	.LBB2_1109
+.LBB2_102:
+	cmp	edi, 2
+	je	.LBB2_232
+# %bb.103:
+	cmp	edi, 3
+	jne	.LBB2_1109
+# %bb.104:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.105:
+	mov	dl, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_106
+# %bb.304:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_483
+# %bb.305:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_483
+.LBB2_106:
+	xor	edi, edi
+.LBB2_637:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB2_639
+.LBB2_638:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB2_638
+.LBB2_639:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_640:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB2_640
+	jmp	.LBB2_1109
+.LBB2_107:
+	cmp	edi, 2
+	je	.LBB2_235
+# %bb.108:
+	cmp	edi, 3
+	jne	.LBB2_1109
+# %bb.109:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.110:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_111
+# %bb.307:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_485
+# %bb.308:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_485
+.LBB2_111:
+	xor	esi, esi
+.LBB2_761:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_763
+.LBB2_762:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_762
+.LBB2_763:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_764:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_764
+	jmp	.LBB2_1109
+.LBB2_112:
+	cmp	edi, 2
+	je	.LBB2_238
+# %bb.113:
+	cmp	edi, 3
+	jne	.LBB2_1109
+# %bb.114:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.115:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_116
+# %bb.310:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_488
+# %bb.311:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_488
+.LBB2_116:
+	xor	esi, esi
+.LBB2_769:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_771
+.LBB2_770:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_770
+.LBB2_771:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_772:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_772
+	jmp	.LBB2_1109
+.LBB2_117:
+	cmp	edi, 2
+	je	.LBB2_241
+# %bb.118:
+	cmp	edi, 3
+	jne	.LBB2_1109
+# %bb.119:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.120:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_121
+# %bb.313:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_491
+# %bb.314:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_491
+.LBB2_121:
+	xor	esi, esi
+.LBB2_777:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_779
+.LBB2_778:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_778
+.LBB2_779:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_780:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_780
+	jmp	.LBB2_1109
+.LBB2_122:
+	cmp	edi, 2
+	je	.LBB2_244
+# %bb.123:
+	cmp	edi, 3
+	jne	.LBB2_1109
+# %bb.124:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.125:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_126
+# %bb.316:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_494
+# %bb.317:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_494
+.LBB2_126:
+	xor	esi, esi
+.LBB2_785:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_787
+.LBB2_786:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_786
+.LBB2_787:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_788:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_788
+	jmp	.LBB2_1109
+.LBB2_127:
+	cmp	edi, 7
+	je	.LBB2_247
+# %bb.128:
+	cmp	edi, 8
+	jne	.LBB2_1109
+# %bb.129:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.130:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_131
+# %bb.319:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_497
+# %bb.320:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_497
+.LBB2_131:
+	xor	esi, esi
+.LBB2_793:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_795
+.LBB2_794:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_794
+.LBB2_795:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_796:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_796
+	jmp	.LBB2_1109
+.LBB2_132:
+	cmp	edi, 7
+	je	.LBB2_250
+# %bb.133:
+	cmp	edi, 8
+	jne	.LBB2_1109
+# %bb.134:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.135:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_136
+# %bb.322:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_500
+# %bb.323:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_500
+.LBB2_136:
+	xor	esi, esi
+.LBB2_801:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_803
+.LBB2_802:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_802
+.LBB2_803:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_804:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_804
+	jmp	.LBB2_1109
+.LBB2_137:
+	cmp	edi, 7
+	je	.LBB2_253
+# %bb.138:
+	cmp	edi, 8
+	jne	.LBB2_1109
+# %bb.139:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.140:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_141
+# %bb.325:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_503
+# %bb.326:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_503
+.LBB2_141:
+	xor	esi, esi
+.LBB2_809:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_811
+.LBB2_810:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_810
+.LBB2_811:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_812:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_812
+	jmp	.LBB2_1109
+.LBB2_142:
+	cmp	edi, 7
+	je	.LBB2_256
+# %bb.143:
+	cmp	edi, 8
+	jne	.LBB2_1109
+# %bb.144:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.145:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_146
+# %bb.328:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_506
+# %bb.329:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_506
+.LBB2_146:
+	xor	esi, esi
+.LBB2_817:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_819
+.LBB2_818:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_818
+.LBB2_819:
+	cmp	rdx, 3
+	jb	.LBB2_1109
+.LBB2_820:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_820
+	jmp	.LBB2_1109
+.LBB2_147:
+	cmp	edi, 7
+	je	.LBB2_259
+# %bb.148:
+	cmp	edi, 8
+	jne	.LBB2_1109
+# %bb.149:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.150:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_151
+# %bb.331:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_509
+# %bb.332:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_509
+.LBB2_151:
+	xor	esi, esi
+.LBB2_825:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_827
+.LBB2_826:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_826
+.LBB2_827:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_828:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_828
+	jmp	.LBB2_1109
+.LBB2_152:
+	cmp	edi, 7
+	je	.LBB2_262
+# %bb.153:
+	cmp	edi, 8
+	jne	.LBB2_1109
+# %bb.154:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.155:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_156
+# %bb.334:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_512
+# %bb.335:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_512
+.LBB2_156:
+	xor	esi, esi
+.LBB2_833:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_835
+.LBB2_834:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_834
+.LBB2_835:
+	cmp	rdx, 3
+	jb	.LBB2_1109
+.LBB2_836:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_836
+	jmp	.LBB2_1109
+.LBB2_157:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.158:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_159
+# %bb.337:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_515
+# %bb.338:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_515
+.LBB2_159:
+	xor	esi, esi
+.LBB2_841:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_843
+.LBB2_842:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	imul	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_842
+.LBB2_843:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_844:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_844
+	jmp	.LBB2_1109
+.LBB2_160:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.161:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_162
+# %bb.340:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_518
+# %bb.341:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_518
+.LBB2_162:
+	xor	esi, esi
+.LBB2_849:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_851
+.LBB2_850:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	imul	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_850
+.LBB2_851:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_852:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_852
+	jmp	.LBB2_1109
+.LBB2_163:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.164:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_165
+# %bb.343:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_521
+# %bb.344:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_521
+.LBB2_165:
+	xor	esi, esi
+.LBB2_857:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_859
+.LBB2_858:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	imul	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_858
+.LBB2_859:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_860:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_860
+	jmp	.LBB2_1109
+.LBB2_166:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.167:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_168
+# %bb.346:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_524
+# %bb.347:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_524
+.LBB2_168:
+	xor	esi, esi
+.LBB2_865:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_867
+.LBB2_866:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	imul	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_866
+.LBB2_867:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_868:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_868
+	jmp	.LBB2_1109
+.LBB2_169:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.170:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_171
+# %bb.349:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_527
+# %bb.350:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_527
+.LBB2_171:
+	xor	esi, esi
+.LBB2_873:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_875
+.LBB2_874:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_874
+.LBB2_875:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_876:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_876
+	jmp	.LBB2_1109
+.LBB2_172:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.173:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_174
+# %bb.352:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_530
+# %bb.353:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_530
+.LBB2_174:
+	xor	esi, esi
+.LBB2_881:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_883
+.LBB2_882:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_882
+.LBB2_883:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_884:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_884
+	jmp	.LBB2_1109
+.LBB2_175:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.176:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_177
+# %bb.355:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_533
+# %bb.356:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_533
+.LBB2_177:
+	xor	esi, esi
+.LBB2_889:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_891
+.LBB2_890:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, eax
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_890
+.LBB2_891:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_892:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_892
+	jmp	.LBB2_1109
+.LBB2_178:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.179:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_180
+# %bb.358:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_536
+# %bb.359:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_536
+.LBB2_180:
+	xor	esi, esi
+.LBB2_897:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_899
+.LBB2_898:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, eax
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_898
+.LBB2_899:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_900:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_900
+	jmp	.LBB2_1109
+.LBB2_181:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.182:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_183
+# %bb.361:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_539
+# %bb.362:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_539
+.LBB2_183:
+	xor	esi, esi
+.LBB2_905:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_907
+.LBB2_906:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_906
+.LBB2_907:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_908:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_908
+	jmp	.LBB2_1109
+.LBB2_184:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.185:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_186
+# %bb.364:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_542
+# %bb.365:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_542
+.LBB2_186:
+	xor	esi, esi
+.LBB2_913:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_915
+.LBB2_914:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_914
+.LBB2_915:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_916:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_916
+	jmp	.LBB2_1109
+.LBB2_187:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.188:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_189
+# %bb.367:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_545
+# %bb.368:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_545
+.LBB2_189:
+	xor	esi, esi
+.LBB2_921:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_923
+.LBB2_922:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, eax
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_922
+.LBB2_923:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_924:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_924
+	jmp	.LBB2_1109
+.LBB2_190:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.191:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_192
+# %bb.370:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_548
+# %bb.371:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_548
+.LBB2_192:
+	xor	esi, esi
+.LBB2_929:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_931
+.LBB2_930:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, eax
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_930
+.LBB2_931:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_932:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_932
+	jmp	.LBB2_1109
+.LBB2_193:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.194:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_195
+# %bb.373:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_551
+# %bb.374:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_551
+.LBB2_195:
+	xor	esi, esi
+.LBB2_937:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_939
+.LBB2_938:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_938
+.LBB2_939:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_940:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_940
+	jmp	.LBB2_1109
+.LBB2_196:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.197:
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB2_198
+# %bb.376:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_554
+# %bb.377:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_554
+.LBB2_198:
+	xor	edx, edx
+.LBB2_945:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_947
+.LBB2_946:                              # =>This Inner Loop Header: Depth=1
+	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_946
+.LBB2_947:
+	cmp	rsi, 3
+	jb	.LBB2_1109
+.LBB2_948:                              # =>This Inner Loop Header: Depth=1
+	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
+	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
+	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
+	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
+	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
+	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_948
+	jmp	.LBB2_1109
+.LBB2_199:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.200:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_201
+# %bb.379:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_557
+# %bb.380:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_557
+.LBB2_201:
+	xor	esi, esi
+.LBB2_953:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_955
+.LBB2_954:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_954
+.LBB2_955:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_956:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_956
+	jmp	.LBB2_1109
+.LBB2_202:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.203:
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB2_204
+# %bb.382:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_560
+# %bb.383:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_560
+.LBB2_204:
+	xor	edx, edx
+.LBB2_961:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_963
+.LBB2_962:                              # =>This Inner Loop Header: Depth=1
+	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_962
+.LBB2_963:
+	cmp	rsi, 3
+	jb	.LBB2_1109
+.LBB2_964:                              # =>This Inner Loop Header: Depth=1
+	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
+	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
+	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
+	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
+	vmulss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
+	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_964
+	jmp	.LBB2_1109
+.LBB2_205:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.206:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_207
+# %bb.385:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_563
+# %bb.386:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_563
+.LBB2_207:
+	xor	esi, esi
+.LBB2_969:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_971
+.LBB2_970:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_970
+.LBB2_971:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_972:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_972
+	jmp	.LBB2_1109
+.LBB2_208:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.209:
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB2_210
+# %bb.388:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_566
+# %bb.389:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_566
+.LBB2_210:
+	xor	edx, edx
+.LBB2_977:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_979
+.LBB2_978:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_978
+.LBB2_979:
+	cmp	rsi, 3
+	jb	.LBB2_1109
+.LBB2_980:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
+	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
+	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
+	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_980
+	jmp	.LBB2_1109
+.LBB2_211:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.212:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_213
+# %bb.391:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_569
+# %bb.392:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_569
+.LBB2_213:
+	xor	esi, esi
+.LBB2_985:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_987
+.LBB2_986:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_986
+.LBB2_987:
+	cmp	rdx, 3
+	jb	.LBB2_1109
+.LBB2_988:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_988
+	jmp	.LBB2_1109
+.LBB2_214:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.215:
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB2_216
+# %bb.394:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_572
+# %bb.395:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_572
+.LBB2_216:
+	xor	edx, edx
+.LBB2_993:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_995
+.LBB2_994:                              # =>This Inner Loop Header: Depth=1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_994
+.LBB2_995:
+	cmp	rsi, 3
+	jb	.LBB2_1109
+.LBB2_996:                              # =>This Inner Loop Header: Depth=1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
+	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
+	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
+	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_996
+	jmp	.LBB2_1109
+.LBB2_217:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.218:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_219
+# %bb.397:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_575
+# %bb.398:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_575
+.LBB2_219:
+	xor	esi, esi
+.LBB2_1001:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1003
+.LBB2_1002:                             # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1002
+.LBB2_1003:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_1004:                             # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1004
+	jmp	.LBB2_1109
+.LBB2_220:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.221:
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB2_222
+# %bb.400:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_578
+# %bb.401:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_578
+.LBB2_222:
+	xor	edx, edx
+.LBB2_1009:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_1011
+.LBB2_1010:                             # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_1010
+.LBB2_1011:
+	cmp	rsi, 3
+	jb	.LBB2_1109
+.LBB2_1012:                             # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
+	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
+	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
+	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_1012
+	jmp	.LBB2_1109
+.LBB2_223:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.224:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_225
+# %bb.403:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_581
+# %bb.404:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_581
+.LBB2_225:
+	xor	esi, esi
+.LBB2_1017:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1019
+.LBB2_1018:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1018
+.LBB2_1019:
+	cmp	rdx, 3
+	jb	.LBB2_1109
+.LBB2_1020:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1020
+	jmp	.LBB2_1109
+.LBB2_226:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.227:
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB2_228
+# %bb.406:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_584
+# %bb.407:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_584
+.LBB2_228:
+	xor	edx, edx
+.LBB2_1025:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_1027
+.LBB2_1026:                             # =>This Inner Loop Header: Depth=1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_1026
+.LBB2_1027:
+	cmp	rsi, 3
+	jb	.LBB2_1109
+.LBB2_1028:                             # =>This Inner Loop Header: Depth=1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
+	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
+	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
+	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_1028
+	jmp	.LBB2_1109
+.LBB2_229:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.230:
+	mov	dl, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_231
+# %bb.409:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_587
+# %bb.410:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_587
+.LBB2_231:
+	xor	edi, edi
+.LBB2_647:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB2_649
+.LBB2_648:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB2_648
+.LBB2_649:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_650:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB2_650
+	jmp	.LBB2_1109
+.LBB2_232:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.233:
+	mov	dl, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_234
+# %bb.412:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_589
+# %bb.413:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_589
+.LBB2_234:
+	xor	edi, edi
+.LBB2_657:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB2_659
+.LBB2_658:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB2_658
+.LBB2_659:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_660:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB2_660
+	jmp	.LBB2_1109
+.LBB2_235:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.236:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_237
+# %bb.415:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_591
+# %bb.416:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_591
+.LBB2_237:
+	xor	esi, esi
+.LBB2_1033:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1035
+.LBB2_1034:                             # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1034
+.LBB2_1035:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_1036:                             # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1036
+	jmp	.LBB2_1109
+.LBB2_238:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.239:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_240
+# %bb.418:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_594
+# %bb.419:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_594
+.LBB2_240:
+	xor	esi, esi
+.LBB2_1041:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1043
+.LBB2_1042:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1042
+.LBB2_1043:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_1044:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1044
+	jmp	.LBB2_1109
+.LBB2_241:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.242:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_243
+# %bb.421:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_597
+# %bb.422:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_597
+.LBB2_243:
+	xor	esi, esi
+.LBB2_1049:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1051
+.LBB2_1050:                             # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1050
+.LBB2_1051:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_1052:                             # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1052
+	jmp	.LBB2_1109
+.LBB2_244:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.245:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_246
+# %bb.424:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_600
+# %bb.425:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_600
+.LBB2_246:
+	xor	esi, esi
+.LBB2_1057:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1059
+.LBB2_1058:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1058
+.LBB2_1059:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_1060:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1060
+	jmp	.LBB2_1109
+.LBB2_247:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.248:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_249
+# %bb.427:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_603
+# %bb.428:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_603
+.LBB2_249:
+	xor	esi, esi
+.LBB2_1065:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1067
+.LBB2_1066:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1066
+.LBB2_1067:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_1068:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1068
+	jmp	.LBB2_1109
+.LBB2_250:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.251:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_252
+# %bb.430:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_606
+# %bb.431:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_606
+.LBB2_252:
+	xor	esi, esi
+.LBB2_1073:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1075
+.LBB2_1074:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1074
+.LBB2_1075:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_1076:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1076
+	jmp	.LBB2_1109
+.LBB2_253:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.254:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_255
+# %bb.433:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_609
+# %bb.434:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_609
+.LBB2_255:
+	xor	esi, esi
+.LBB2_1081:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1083
+.LBB2_1082:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1082
+.LBB2_1083:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_1084:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1084
+	jmp	.LBB2_1109
+.LBB2_256:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.257:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_258
+# %bb.436:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_612
+# %bb.437:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_612
+.LBB2_258:
+	xor	esi, esi
+.LBB2_1089:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1091
+.LBB2_1090:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1090
+.LBB2_1091:
+	cmp	rdx, 3
+	jb	.LBB2_1109
+.LBB2_1092:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1092
+	jmp	.LBB2_1109
+.LBB2_259:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.260:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_261
+# %bb.439:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_615
+# %bb.440:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_615
+.LBB2_261:
+	xor	esi, esi
+.LBB2_1097:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1099
+.LBB2_1098:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1098
+.LBB2_1099:
+	cmp	r9, 3
+	jb	.LBB2_1109
+.LBB2_1100:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1100
+	jmp	.LBB2_1109
+.LBB2_262:
+	test	r9d, r9d
+	jle	.LBB2_1109
+# %bb.263:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_264
+# %bb.442:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_618
+# %bb.443:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_618
+.LBB2_264:
+	xor	esi, esi
+.LBB2_1105:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1107
+.LBB2_1106:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1106
+.LBB2_1107:
+	cmp	rdx, 3
+	jb	.LBB2_1109
+.LBB2_1108:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1108
+	jmp	.LBB2_1109
+.LBB2_445:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_661
+# %bb.446:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_447:                              # =>This Inner Loop Header: Depth=1
+	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_447
+	jmp	.LBB2_662
+.LBB2_448:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_669
+# %bb.449:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_450:                              # =>This Inner Loop Header: Depth=1
+	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_450
+	jmp	.LBB2_670
+.LBB2_451:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_677
+# %bb.452:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_453:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_453
+	jmp	.LBB2_678
+.LBB2_454:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r11d
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_685
+# %bb.455:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_456:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_456
+	jmp	.LBB2_686
+.LBB2_457:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_693
+# %bb.458:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_459:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_459
+	jmp	.LBB2_694
+.LBB2_460:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r11d
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_701
+# %bb.461:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_462:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_462
+	jmp	.LBB2_702
+.LBB2_463:
+	mov	edx, eax
+	and	edx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_709
+# %bb.464:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_465:                              # =>This Inner Loop Header: Depth=1
+	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vmulpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
+	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
+	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
+	vmulpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB2_465
+	jmp	.LBB2_710
+.LBB2_466:
+	mov	edx, eax
+	and	edx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_717
+# %bb.467:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_468:                              # =>This Inner Loop Header: Depth=1
+	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vmulpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
+	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
+	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
+	vmulpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB2_468
+	jmp	.LBB2_718
+.LBB2_469:
+	mov	edx, eax
+	and	edx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_725
+# %bb.470:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_471:                              # =>This Inner Loop Header: Depth=1
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB2_471
+	jmp	.LBB2_726
+.LBB2_472:
+	mov	edx, eax
+	and	edx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_733
+# %bb.473:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_474:                              # =>This Inner Loop Header: Depth=1
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB2_474
+	jmp	.LBB2_734
+.LBB2_475:
+	mov	edx, eax
+	and	edx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_741
+# %bb.476:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_477:                              # =>This Inner Loop Header: Depth=1
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB2_477
+	jmp	.LBB2_742
+.LBB2_478:
+	mov	edx, eax
+	and	edx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_749
+# %bb.479:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_480:                              # =>This Inner Loop Header: Depth=1
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB2_480
+	jmp	.LBB2_750
+.LBB2_481:
+	mov	edi, r10d
+	and	edi, -32
+	vmovd	xmm0, edx
+	vpbroadcastb	ymm0, xmm0
+	lea	rsi, [rdi - 32]
+	mov	rax, rsi
+	shr	rax, 5
+	add	rax, 1
+	mov	r9d, eax
+	and	r9d, 3
+	cmp	rsi, 96
+	jae	.LBB2_621
+# %bb.482:
+	xor	esi, esi
+	jmp	.LBB2_623
+.LBB2_483:
+	mov	edi, r10d
+	and	edi, -32
+	vmovd	xmm0, edx
+	vpbroadcastb	ymm0, xmm0
+	lea	rsi, [rdi - 32]
+	mov	rax, rsi
+	shr	rax, 5
+	add	rax, 1
+	mov	r9d, eax
+	and	r9d, 3
+	cmp	rsi, 96
+	jae	.LBB2_631
+# %bb.484:
+	xor	esi, esi
+	jmp	.LBB2_633
+.LBB2_485:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_757
+# %bb.486:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_487:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_487
+	jmp	.LBB2_758
+.LBB2_488:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_765
+# %bb.489:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_490:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_490
+	jmp	.LBB2_766
+.LBB2_491:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_773
+# %bb.492:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_493:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_493
+	jmp	.LBB2_774
+.LBB2_494:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_781
+# %bb.495:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_496:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_496
+	jmp	.LBB2_782
+.LBB2_497:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	vpsrlq	ymm1, ymm0, 32
+	test	rdx, rdx
+	je	.LBB2_789
+# %bb.498:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_499:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 128]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 160]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 192]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 224]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_499
+	jmp	.LBB2_790
+.LBB2_500:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	vpsrlq	ymm1, ymm0, 32
+	test	rdx, rdx
+	je	.LBB2_797
+# %bb.501:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_502:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 128]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 160]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 192]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 224]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_502
+	jmp	.LBB2_798
+.LBB2_503:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_805
+# %bb.504:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_505:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_505
+	jmp	.LBB2_806
+.LBB2_506:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r11
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_813
+# %bb.507:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_508:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_508
+	jmp	.LBB2_814
+.LBB2_509:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_821
+# %bb.510:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_511:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_511
+	jmp	.LBB2_822
+.LBB2_512:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r11
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_829
+# %bb.513:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_514:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_514
+	jmp	.LBB2_830
+.LBB2_515:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_837
+# %bb.516:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_517:                              # =>This Inner Loop Header: Depth=1
+	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_517
+	jmp	.LBB2_838
+.LBB2_518:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_845
+# %bb.519:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_520:                              # =>This Inner Loop Header: Depth=1
+	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_520
+	jmp	.LBB2_846
+.LBB2_521:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_853
+# %bb.522:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_523:                              # =>This Inner Loop Header: Depth=1
+	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_523
+	jmp	.LBB2_854
+.LBB2_524:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_861
+# %bb.525:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_526:                              # =>This Inner Loop Header: Depth=1
+	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpmullw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_526
+	jmp	.LBB2_862
+.LBB2_527:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_869
+# %bb.528:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_529:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_529
+	jmp	.LBB2_870
+.LBB2_530:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_877
+# %bb.531:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_532:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_532
+	jmp	.LBB2_878
+.LBB2_533:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_885
+# %bb.534:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_535:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_535
+	jmp	.LBB2_886
+.LBB2_536:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_893
+# %bb.537:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_538:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_538
+	jmp	.LBB2_894
+.LBB2_539:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_901
+# %bb.540:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_541:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_541
+	jmp	.LBB2_902
+.LBB2_542:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_909
+# %bb.543:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_544:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_544
+	jmp	.LBB2_910
+.LBB2_545:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_917
+# %bb.546:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_547:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_547
+	jmp	.LBB2_918
+.LBB2_548:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_925
+# %bb.549:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_550:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_550
+	jmp	.LBB2_926
+.LBB2_551:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	vpsrlq	ymm1, ymm0, 32
+	test	rdx, rdx
+	je	.LBB2_933
+# %bb.552:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_553:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 128]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 160]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 192]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 224]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_553
+	jmp	.LBB2_934
+.LBB2_554:
+	mov	edx, eax
+	and	edx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_941
+# %bb.555:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_556:                              # =>This Inner Loop Header: Depth=1
+	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vmulps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
+	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
+	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
+	vmulps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB2_556
+	jmp	.LBB2_942
+.LBB2_557:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	vpsrlq	ymm1, ymm0, 32
+	test	rdx, rdx
+	je	.LBB2_949
+# %bb.558:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_559:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 128]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 160]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 192]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 224]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_559
+	jmp	.LBB2_950
+.LBB2_560:
+	mov	edx, eax
+	and	edx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_957
+# %bb.561:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_562:                              # =>This Inner Loop Header: Depth=1
+	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vmulps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
+	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
+	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
+	vmulps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB2_562
+	jmp	.LBB2_958
+.LBB2_563:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_965
+# %bb.564:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_565:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_565
+	jmp	.LBB2_966
+.LBB2_566:
+	mov	edx, eax
+	and	edx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_973
+# %bb.567:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_568:                              # =>This Inner Loop Header: Depth=1
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB2_568
+	jmp	.LBB2_974
+.LBB2_569:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r11
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_981
+# %bb.570:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_571:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_571
+	jmp	.LBB2_982
+.LBB2_572:
+	mov	edx, eax
+	and	edx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_989
+# %bb.573:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_574:                              # =>This Inner Loop Header: Depth=1
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
+	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB2_574
+	jmp	.LBB2_990
+.LBB2_575:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_997
+# %bb.576:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_577:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_577
+	jmp	.LBB2_998
+.LBB2_578:
+	mov	edx, eax
+	and	edx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_1005
+# %bb.579:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_580:                              # =>This Inner Loop Header: Depth=1
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB2_580
+	jmp	.LBB2_1006
+.LBB2_581:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r11
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1013
+# %bb.582:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_583:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_583
+	jmp	.LBB2_1014
+.LBB2_584:
+	mov	edx, eax
+	and	edx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_1021
+# %bb.585:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_586:                              # =>This Inner Loop Header: Depth=1
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
+	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB2_586
+	jmp	.LBB2_1022
+.LBB2_587:
+	mov	edi, r10d
+	and	edi, -32
+	vmovd	xmm0, edx
+	vpbroadcastb	ymm0, xmm0
+	lea	rsi, [rdi - 32]
+	mov	rax, rsi
+	shr	rax, 5
+	add	rax, 1
+	mov	r9d, eax
+	and	r9d, 3
+	cmp	rsi, 96
+	jae	.LBB2_641
+# %bb.588:
+	xor	esi, esi
+	jmp	.LBB2_643
+.LBB2_589:
+	mov	edi, r10d
+	and	edi, -32
+	vmovd	xmm0, edx
+	vpbroadcastb	ymm0, xmm0
+	lea	rsi, [rdi - 32]
+	mov	rax, rsi
+	shr	rax, 5
+	add	rax, 1
+	mov	r9d, eax
+	and	r9d, 3
+	cmp	rsi, 96
+	jae	.LBB2_651
+# %bb.590:
+	xor	esi, esi
+	jmp	.LBB2_653
+.LBB2_591:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1029
+# %bb.592:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_593:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_593
+	jmp	.LBB2_1030
+.LBB2_594:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1037
+# %bb.595:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_596:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_596
+	jmp	.LBB2_1038
+.LBB2_597:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1045
+# %bb.598:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_599:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_599
+	jmp	.LBB2_1046
+.LBB2_600:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1053
+# %bb.601:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_602:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_602
+	jmp	.LBB2_1054
+.LBB2_603:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1061
+# %bb.604:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_605:                              # =>This Inner Loop Header: Depth=1
+	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_605
+	jmp	.LBB2_1062
+.LBB2_606:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1069
+# %bb.607:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_608:                              # =>This Inner Loop Header: Depth=1
+	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpmulld	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_608
+	jmp	.LBB2_1070
+.LBB2_609:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1077
+# %bb.610:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_611:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_611
+	jmp	.LBB2_1078
+.LBB2_612:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r11d
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1085
+# %bb.613:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_614:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_614
+	jmp	.LBB2_1086
+.LBB2_615:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1093
+# %bb.616:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_617:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_617
+	jmp	.LBB2_1094
+.LBB2_618:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r11d
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1101
+# %bb.619:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_620:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_620
+	jmp	.LBB2_1102
+.LBB2_621:
+	and	rax, -4
+	neg	rax
+	xor	esi, esi
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB2_622:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi], ymm4
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 64]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 96]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
+	sub	rsi, -128
+	add	rax, 4
+	jne	.LBB2_622
+.LBB2_623:
+	test	r9, r9
+	je	.LBB2_626
+# %bb.624:
+	neg	r9
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB2_625:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm4, ymm4, ymm1
+	vpand	ymm4, ymm4, ymm2
+	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm3, ymm3, ymm0
+	vpand	ymm3, ymm3, ymm2
+	vpackuswb	ymm3, ymm3, ymm4
+	vmovdqu	ymmword ptr [r8 + rsi], ymm3
+	add	rsi, 32
+	inc	r9
+	jne	.LBB2_625
+.LBB2_626:
+	cmp	rdi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_627
+.LBB2_631:
+	and	rax, -4
+	neg	rax
+	xor	esi, esi
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB2_632:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi], ymm4
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 64]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 96]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
+	sub	rsi, -128
+	add	rax, 4
+	jne	.LBB2_632
+.LBB2_633:
+	test	r9, r9
+	je	.LBB2_636
+# %bb.634:
+	neg	r9
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB2_635:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm4, ymm4, ymm1
+	vpand	ymm4, ymm4, ymm2
+	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm3, ymm3, ymm0
+	vpand	ymm3, ymm3, ymm2
+	vpackuswb	ymm3, ymm3, ymm4
+	vmovdqu	ymmword ptr [r8 + rsi], ymm3
+	add	rsi, 32
+	inc	r9
+	jne	.LBB2_635
+.LBB2_636:
+	cmp	rdi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_637
+.LBB2_641:
+	and	rax, -4
+	neg	rax
+	xor	esi, esi
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB2_642:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi], ymm4
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 64]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 96]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
+	sub	rsi, -128
+	add	rax, 4
+	jne	.LBB2_642
+.LBB2_643:
+	test	r9, r9
+	je	.LBB2_646
+# %bb.644:
+	neg	r9
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB2_645:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm4, ymm4, ymm1
+	vpand	ymm4, ymm4, ymm2
+	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm3, ymm3, ymm0
+	vpand	ymm3, ymm3, ymm2
+	vpackuswb	ymm3, ymm3, ymm4
+	vmovdqu	ymmword ptr [r8 + rsi], ymm3
+	add	rsi, 32
+	inc	r9
+	jne	.LBB2_645
+.LBB2_646:
+	cmp	rdi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_647
+.LBB2_651:
+	and	rax, -4
+	neg	rax
+	xor	esi, esi
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm3, ymm0, ymm0        # ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB2_652:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi], ymm4
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 64]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 96]
+	vpunpckhbw	ymm5, ymm4, ymm4        # ymm5 = ymm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm5, ymm5, ymm1
+	vpand	ymm5, ymm5, ymm2
+	vpunpcklbw	ymm4, ymm4, ymm4        # ymm4 = ymm4[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm4, ymm4, ymm3
+	vpand	ymm4, ymm4, ymm2
+	vpackuswb	ymm4, ymm4, ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm4
+	sub	rsi, -128
+	add	rax, 4
+	jne	.LBB2_652
+.LBB2_653:
+	test	r9, r9
+	je	.LBB2_656
+# %bb.654:
+	neg	r9
+	vpunpckhbw	ymm1, ymm0, ymm0        # ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_0] # ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpunpcklbw	ymm0, ymm0, ymm0        # ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+.LBB2_655:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
+	vpunpckhbw	ymm4, ymm3, ymm3        # ymm4 = ymm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
+	vpmullw	ymm4, ymm4, ymm1
+	vpand	ymm4, ymm4, ymm2
+	vpunpcklbw	ymm3, ymm3, ymm3        # ymm3 = ymm3[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
+	vpmullw	ymm3, ymm3, ymm0
+	vpand	ymm3, ymm3, ymm2
+	vpackuswb	ymm3, ymm3, ymm4
+	vmovdqu	ymmword ptr [r8 + rsi], ymm3
+	add	rsi, 32
+	inc	r9
+	jne	.LBB2_655
+.LBB2_656:
+	cmp	rdi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_657
+.LBB2_661:
+	xor	edi, edi
+.LBB2_662:
+	test	r9b, 1
+	je	.LBB2_664
+# %bb.663:
+	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpmulld	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_664:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_665
+.LBB2_669:
+	xor	edi, edi
+.LBB2_670:
+	test	r9b, 1
+	je	.LBB2_672
+# %bb.671:
+	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpmulld	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_672:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_673
+.LBB2_677:
+	xor	edi, edi
+.LBB2_678:
+	test	r9b, 1
+	je	.LBB2_680
+# %bb.679:
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_680:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_681
+.LBB2_685:
+	xor	edi, edi
+.LBB2_686:
+	test	r9b, 1
+	je	.LBB2_688
+# %bb.687:
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_688:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_689
+.LBB2_693:
+	xor	edi, edi
+.LBB2_694:
+	test	r9b, 1
+	je	.LBB2_696
+# %bb.695:
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_696:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_697
+.LBB2_701:
+	xor	edi, edi
+.LBB2_702:
+	test	r9b, 1
+	je	.LBB2_704
+# %bb.703:
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_704:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_705
+.LBB2_709:
+	xor	edi, edi
+.LBB2_710:
+	test	r9b, 1
+	je	.LBB2_712
+# %bb.711:
+	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vmulpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB2_712:
+	cmp	rdx, rax
+	je	.LBB2_1109
+	jmp	.LBB2_713
+.LBB2_717:
+	xor	edi, edi
+.LBB2_718:
+	test	r9b, 1
+	je	.LBB2_720
+# %bb.719:
+	vmulpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vmulpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmulpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vmulpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB2_720:
+	cmp	rdx, rax
+	je	.LBB2_1109
+	jmp	.LBB2_721
+.LBB2_725:
+	xor	edi, edi
+.LBB2_726:
+	test	r9b, 1
+	je	.LBB2_728
+# %bb.727:
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB2_728:
+	cmp	rdx, rax
+	je	.LBB2_1109
+	jmp	.LBB2_729
+.LBB2_733:
+	xor	edi, edi
+.LBB2_734:
+	test	r9b, 1
+	je	.LBB2_736
+# %bb.735:
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB2_736:
+	cmp	rdx, rax
+	je	.LBB2_1109
+	jmp	.LBB2_737
+.LBB2_741:
+	xor	edi, edi
+.LBB2_742:
+	test	r9b, 1
+	je	.LBB2_744
+# %bb.743:
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB2_744:
+	cmp	rdx, rax
+	je	.LBB2_1109
+	jmp	.LBB2_745
+.LBB2_749:
+	xor	edi, edi
+.LBB2_750:
+	test	r9b, 1
+	je	.LBB2_752
+# %bb.751:
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB2_752:
+	cmp	rdx, rax
+	je	.LBB2_1109
+	jmp	.LBB2_753
+.LBB2_757:
+	xor	edi, edi
+.LBB2_758:
+	test	r9b, 1
+	je	.LBB2_760
+# %bb.759:
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_760:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_761
+.LBB2_765:
+	xor	edi, edi
+.LBB2_766:
+	test	r9b, 1
+	je	.LBB2_768
+# %bb.767:
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_768:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_769
+.LBB2_773:
+	xor	edi, edi
+.LBB2_774:
+	test	r9b, 1
+	je	.LBB2_776
+# %bb.775:
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_776:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_777
+.LBB2_781:
+	xor	edi, edi
+.LBB2_782:
+	test	r9b, 1
+	je	.LBB2_784
+# %bb.783:
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_784:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_785
+.LBB2_789:
+	xor	edi, edi
+.LBB2_790:
+	test	r9b, 1
+	je	.LBB2_792
+# %bb.791:
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm1, ymm5, ymm1
+	vpsrlq	ymm6, ymm5, 32
+	vpmuludq	ymm6, ymm6, ymm0
+	vpaddq	ymm1, ymm1, ymm6
+	vpsllq	ymm1, ymm1, 32
+	vpmuludq	ymm0, ymm5, ymm0
+	vpaddq	ymm0, ymm0, ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_792:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_793
+.LBB2_797:
+	xor	edi, edi
+.LBB2_798:
+	test	r9b, 1
+	je	.LBB2_800
+# %bb.799:
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm1, ymm5, ymm1
+	vpsrlq	ymm6, ymm5, 32
+	vpmuludq	ymm6, ymm6, ymm0
+	vpaddq	ymm1, ymm1, ymm6
+	vpsllq	ymm1, ymm1, 32
+	vpmuludq	ymm0, ymm5, ymm0
+	vpaddq	ymm0, ymm0, ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_800:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_801
+.LBB2_805:
+	xor	edi, edi
+.LBB2_806:
+	test	r9b, 1
+	je	.LBB2_808
+# %bb.807:
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_808:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_809
+.LBB2_813:
+	xor	edi, edi
+.LBB2_814:
+	test	r9b, 1
+	je	.LBB2_816
+# %bb.815:
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_816:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_817
+.LBB2_821:
+	xor	edi, edi
+.LBB2_822:
+	test	r9b, 1
+	je	.LBB2_824
+# %bb.823:
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_824:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_825
+.LBB2_829:
+	xor	edi, edi
+.LBB2_830:
+	test	r9b, 1
+	je	.LBB2_832
+# %bb.831:
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_832:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_833
+.LBB2_837:
+	xor	edi, edi
+.LBB2_838:
+	test	r9b, 1
+	je	.LBB2_840
+# %bb.839:
+	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpmullw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_840:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_841
+.LBB2_845:
+	xor	edi, edi
+.LBB2_846:
+	test	r9b, 1
+	je	.LBB2_848
+# %bb.847:
+	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpmullw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_848:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_849
+.LBB2_853:
+	xor	edi, edi
+.LBB2_854:
+	test	r9b, 1
+	je	.LBB2_856
+# %bb.855:
+	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpmullw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_856:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_857
+.LBB2_861:
+	xor	edi, edi
+.LBB2_862:
+	test	r9b, 1
+	je	.LBB2_864
+# %bb.863:
+	vpmullw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpmullw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_864:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_865
+.LBB2_869:
+	xor	edi, edi
+.LBB2_870:
+	test	r9b, 1
+	je	.LBB2_872
+# %bb.871:
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_872:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_873
+.LBB2_877:
+	xor	edi, edi
+.LBB2_878:
+	test	r9b, 1
+	je	.LBB2_880
+# %bb.879:
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_880:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_881
+.LBB2_885:
+	xor	edi, edi
+.LBB2_886:
+	test	r9b, 1
+	je	.LBB2_888
+# %bb.887:
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_888:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_889
+.LBB2_893:
+	xor	edi, edi
+.LBB2_894:
+	test	r9b, 1
+	je	.LBB2_896
+# %bb.895:
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_896:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_897
+.LBB2_901:
+	xor	edi, edi
+.LBB2_902:
+	test	r9b, 1
+	je	.LBB2_904
+# %bb.903:
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_904:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_905
+.LBB2_909:
+	xor	edi, edi
+.LBB2_910:
+	test	r9b, 1
+	je	.LBB2_912
+# %bb.911:
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_912:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_913
+.LBB2_917:
+	xor	edi, edi
+.LBB2_918:
+	test	r9b, 1
+	je	.LBB2_920
+# %bb.919:
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_920:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_921
+.LBB2_925:
+	xor	edi, edi
+.LBB2_926:
+	test	r9b, 1
+	je	.LBB2_928
+# %bb.927:
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_928:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_929
+.LBB2_933:
+	xor	edi, edi
+.LBB2_934:
+	test	r9b, 1
+	je	.LBB2_936
+# %bb.935:
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm1, ymm5, ymm1
+	vpsrlq	ymm6, ymm5, 32
+	vpmuludq	ymm6, ymm6, ymm0
+	vpaddq	ymm1, ymm1, ymm6
+	vpsllq	ymm1, ymm1, 32
+	vpmuludq	ymm0, ymm5, ymm0
+	vpaddq	ymm0, ymm0, ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_936:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_937
+.LBB2_941:
+	xor	edi, edi
+.LBB2_942:
+	test	r9b, 1
+	je	.LBB2_944
+# %bb.943:
+	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vmulps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB2_944:
+	cmp	rdx, rax
+	je	.LBB2_1109
+	jmp	.LBB2_945
+.LBB2_949:
+	xor	edi, edi
+.LBB2_950:
+	test	r9b, 1
+	je	.LBB2_952
+# %bb.951:
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rdi + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm1, ymm5, ymm1
+	vpsrlq	ymm6, ymm5, 32
+	vpmuludq	ymm6, ymm6, ymm0
+	vpaddq	ymm1, ymm1, ymm6
+	vpsllq	ymm1, ymm1, 32
+	vpmuludq	ymm0, ymm5, ymm0
+	vpaddq	ymm0, ymm0, ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_952:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_953
+.LBB2_957:
+	xor	edi, edi
+.LBB2_958:
+	test	r9b, 1
+	je	.LBB2_960
+# %bb.959:
+	vmulps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vmulps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmulps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vmulps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB2_960:
+	cmp	rdx, rax
+	je	.LBB2_1109
+	jmp	.LBB2_961
+.LBB2_965:
+	xor	edi, edi
+.LBB2_966:
+	test	r9b, 1
+	je	.LBB2_968
+# %bb.967:
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_968:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_969
+.LBB2_973:
+	xor	edi, edi
+.LBB2_974:
+	test	r9b, 1
+	je	.LBB2_976
+# %bb.975:
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB2_976:
+	cmp	rdx, rax
+	je	.LBB2_1109
+	jmp	.LBB2_977
+.LBB2_981:
+	xor	edi, edi
+.LBB2_982:
+	test	r9b, 1
+	je	.LBB2_984
+# %bb.983:
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_984:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_985
+.LBB2_989:
+	xor	edi, edi
+.LBB2_990:
+	test	r9b, 1
+	je	.LBB2_992
+# %bb.991:
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB2_992:
+	cmp	rdx, rax
+	je	.LBB2_1109
+	jmp	.LBB2_993
+.LBB2_997:
+	xor	edi, edi
+.LBB2_998:
+	test	r9b, 1
+	je	.LBB2_1000
+# %bb.999:
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_1000:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_1001
+.LBB2_1005:
+	xor	edi, edi
+.LBB2_1006:
+	test	r9b, 1
+	je	.LBB2_1008
+# %bb.1007:
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB2_1008:
+	cmp	rdx, rax
+	je	.LBB2_1109
+	jmp	.LBB2_1009
+.LBB2_1013:
+	xor	edi, edi
+.LBB2_1014:
+	test	r9b, 1
+	je	.LBB2_1016
+# %bb.1015:
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_1016:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_1017
+.LBB2_1021:
+	xor	edi, edi
+.LBB2_1022:
+	test	r9b, 1
+	je	.LBB2_1024
+# %bb.1023:
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB2_1024:
+	cmp	rdx, rax
+	je	.LBB2_1109
+	jmp	.LBB2_1025
+.LBB2_1029:
+	xor	edi, edi
+.LBB2_1030:
+	test	r9b, 1
+	je	.LBB2_1032
+# %bb.1031:
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_1032:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_1033
+.LBB2_1037:
+	xor	edi, edi
+.LBB2_1038:
+	test	r9b, 1
+	je	.LBB2_1040
+# %bb.1039:
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_1040:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_1041
+.LBB2_1045:
+	xor	edi, edi
+.LBB2_1046:
+	test	r9b, 1
+	je	.LBB2_1048
+# %bb.1047:
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_1048:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_1049
+.LBB2_1053:
+	xor	edi, edi
+.LBB2_1054:
+	test	r9b, 1
+	je	.LBB2_1056
+# %bb.1055:
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_1056:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_1057
+.LBB2_1061:
+	xor	edi, edi
+.LBB2_1062:
+	test	r9b, 1
+	je	.LBB2_1064
+# %bb.1063:
+	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpmulld	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_1064:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_1065
+.LBB2_1069:
+	xor	edi, edi
+.LBB2_1070:
+	test	r9b, 1
+	je	.LBB2_1072
+# %bb.1071:
+	vpmulld	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpmulld	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpmulld	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_1072:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_1073
+.LBB2_1077:
+	xor	edi, edi
+.LBB2_1078:
+	test	r9b, 1
+	je	.LBB2_1080
+# %bb.1079:
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_1080:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_1081
+.LBB2_1085:
+	xor	edi, edi
+.LBB2_1086:
+	test	r9b, 1
+	je	.LBB2_1088
+# %bb.1087:
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_1088:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_1089
+.LBB2_1093:
+	xor	edi, edi
+.LBB2_1094:
+	test	r9b, 1
+	je	.LBB2_1096
+# %bb.1095:
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_1096:
+	cmp	rsi, r10
+	je	.LBB2_1109
+	jmp	.LBB2_1097
+.LBB2_1101:
+	xor	edi, edi
+.LBB2_1102:
+	test	r9b, 1
+	je	.LBB2_1104
+# %bb.1103:
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_1104:
+	cmp	rsi, r10
+	jne	.LBB2_1105
+.LBB2_1109:
+	mov	rsp, rbp
+	pop	rbp
+	vzeroupper
+	ret
+.Lfunc_end2:
+	.size	arithmetic_scalar_arr_avx2, .Lfunc_end2-arithmetic_scalar_arr_avx2
+                                        # -- End function
+	.section	.rodata.cst8,"aM",@progbits,8
+	.p2align	3                               # -- Begin function arithmetic_unary_same_types_avx2
+.LCPI3_0:
+	.quad	0x8000000000000000              # double -0
+.LCPI3_1:
+	.quad	0x3ff0000000000000              # double 1
+.LCPI3_4:
+	.quad	1                               # 0x1
+.LCPI3_8:
+	.quad	9223372036854775807             # 0x7fffffffffffffff
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4
+.LCPI3_2:
+	.quad	0x8000000000000000              # double -0
+	.quad	0x8000000000000000              # double -0
+.LCPI3_11:
+	.byte	0                               # 0x0
+	.byte	4                               # 0x4
+	.byte	8                               # 0x8
+	.byte	12                              # 0xc
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.section	.rodata.cst4,"aM",@progbits,4
+	.p2align	2
+.LCPI3_3:
+	.long	1                               # 0x1
+.LCPI3_7:
+	.long	0x80000000                      # float -0
+.LCPI3_9:
+	.long	2147483647                      # 0x7fffffff
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5
+.LCPI3_5:
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+.LCPI3_6:
+	.zero	32,1
+.LCPI3_10:
+	.byte	0                               # 0x0
+	.byte	1                               # 0x1
+	.byte	4                               # 0x4
+	.byte	5                               # 0x5
+	.byte	8                               # 0x8
+	.byte	9                               # 0x9
+	.byte	12                              # 0xc
+	.byte	13                              # 0xd
+	.byte	8                               # 0x8
+	.byte	9                               # 0x9
+	.byte	12                              # 0xc
+	.byte	13                              # 0xd
+	.byte	12                              # 0xc
+	.byte	13                              # 0xd
+	.byte	14                              # 0xe
+	.byte	15                              # 0xf
+	.byte	16                              # 0x10
+	.byte	17                              # 0x11
+	.byte	20                              # 0x14
+	.byte	21                              # 0x15
+	.byte	24                              # 0x18
+	.byte	25                              # 0x19
+	.byte	28                              # 0x1c
+	.byte	29                              # 0x1d
+	.byte	24                              # 0x18
+	.byte	25                              # 0x19
+	.byte	28                              # 0x1c
+	.byte	29                              # 0x1d
+	.byte	28                              # 0x1c
+	.byte	29                              # 0x1d
+	.byte	30                              # 0x1e
+	.byte	31                              # 0x1f
+	.text
+	.globl	arithmetic_unary_same_types_avx2
+	.p2align	4, 0x90
+	.type	arithmetic_unary_same_types_avx2,@function
+arithmetic_unary_same_types_avx2:       # @arithmetic_unary_same_types_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	cmp	sil, 19
+	jle	.LBB3_12
+# %bb.1:
+	cmp	sil, 20
+	je	.LBB3_22
+# %bb.2:
+	cmp	sil, 25
+	je	.LBB3_30
+# %bb.3:
+	cmp	sil, 26
+	jne	.LBB3_865
+# %bb.4:
+	cmp	edi, 6
+	jg	.LBB3_46
+# %bb.5:
+	cmp	edi, 3
+	jle	.LBB3_81
+# %bb.6:
+	cmp	edi, 4
+	je	.LBB3_131
+# %bb.7:
+	cmp	edi, 5
+	je	.LBB3_134
+# %bb.8:
+	cmp	edi, 6
+	jne	.LBB3_865
+# %bb.9:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.10:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB3_221
+# %bb.11:
+	xor	edx, edx
+	jmp	.LBB3_373
+.LBB3_12:
+	cmp	sil, 4
+	je	.LBB3_38
+# %bb.13:
+	cmp	sil, 5
+	jne	.LBB3_865
+# %bb.14:
+	cmp	edi, 6
+	jg	.LBB3_53
+# %bb.15:
+	cmp	edi, 3
+	jle	.LBB3_86
+# %bb.16:
+	cmp	edi, 4
+	je	.LBB3_137
+# %bb.17:
+	cmp	edi, 5
+	je	.LBB3_140
+# %bb.18:
+	cmp	edi, 6
+	jne	.LBB3_865
+# %bb.19:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.20:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_21
+# %bb.223:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_374
+# %bb.224:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_374
+.LBB3_21:
+	xor	esi, esi
+.LBB3_616:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_618
+.LBB3_617:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_617
+.LBB3_618:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_619:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_619
+	jmp	.LBB3_865
+.LBB3_22:
+	cmp	edi, 6
+	jg	.LBB3_60
+# %bb.23:
+	cmp	edi, 3
+	jle	.LBB3_91
+# %bb.24:
+	cmp	edi, 4
+	je	.LBB3_143
+# %bb.25:
+	cmp	edi, 5
+	je	.LBB3_146
+# %bb.26:
+	cmp	edi, 6
+	jne	.LBB3_865
+# %bb.27:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.28:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_29
+# %bb.226:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_377
+# %bb.227:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_377
+.LBB3_29:
+	xor	esi, esi
+.LBB3_380:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB3_382
+.LBB3_381:                              # =>This Inner Loop Header: Depth=1
+	xor	edi, edi
+	cmp	dword ptr [rdx + 4*rsi], 0
+	setne	dil
+	mov	dword ptr [rcx + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB3_381
+.LBB3_382:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_383:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	dword ptr [rdx + 4*rsi], 0
+	setne	al
+	mov	dword ptr [rcx + 4*rsi], eax
+	xor	eax, eax
+	cmp	dword ptr [rdx + 4*rsi + 4], 0
+	setne	al
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	xor	eax, eax
+	cmp	dword ptr [rdx + 4*rsi + 8], 0
+	setne	al
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	xor	eax, eax
+	cmp	dword ptr [rdx + 4*rsi + 12], 0
+	setne	al
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_383
+	jmp	.LBB3_865
+.LBB3_30:
+	cmp	edi, 6
+	jg	.LBB3_67
+# %bb.31:
+	cmp	edi, 3
+	jle	.LBB3_96
+# %bb.32:
+	cmp	edi, 4
+	je	.LBB3_149
+# %bb.33:
+	cmp	edi, 5
+	je	.LBB3_152
+# %bb.34:
+	cmp	edi, 6
+	jne	.LBB3_865
+# %bb.35:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.36:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_37
+# %bb.229:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_384
+# %bb.230:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_384
+.LBB3_37:
+	xor	esi, esi
+.LBB3_624:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_626
+.LBB3_625:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_625
+.LBB3_626:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_627:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_627
+	jmp	.LBB3_865
+.LBB3_38:
+	cmp	edi, 6
+	jg	.LBB3_74
+# %bb.39:
+	cmp	edi, 3
+	jle	.LBB3_101
+# %bb.40:
+	cmp	edi, 4
+	je	.LBB3_155
+# %bb.41:
+	cmp	edi, 5
+	je	.LBB3_158
+# %bb.42:
+	cmp	edi, 6
+	jne	.LBB3_865
+# %bb.43:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.44:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_45
+# %bb.232:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_387
+# %bb.233:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_387
+.LBB3_45:
+	xor	esi, esi
+.LBB3_632:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_634
+.LBB3_633:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_633
+.LBB3_634:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_635:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_635
+	jmp	.LBB3_865
+.LBB3_46:
+	cmp	edi, 8
+	jle	.LBB3_106
+# %bb.47:
+	cmp	edi, 9
+	je	.LBB3_161
+# %bb.48:
+	cmp	edi, 11
+	je	.LBB3_164
+# %bb.49:
+	cmp	edi, 12
+	jne	.LBB3_865
+# %bb.50:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.51:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_52
+# %bb.235:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_390
+# %bb.236:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_390
+.LBB3_52:
+	xor	esi, esi
+.LBB3_640:
+	mov	rax, rsi
+	not	rax
+	add	rax, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_643
+# %bb.641:
+	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
+.LBB3_642:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovlpd	qword ptr [rcx + 8*rsi], xmm1
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_642
+.LBB3_643:
+	cmp	rax, 3
+	jb	.LBB3_865
+# %bb.644:
+	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
+.LBB3_645:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovlpd	qword ptr [rcx + 8*rsi], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovlpd	qword ptr [rcx + 8*rsi + 8], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovlpd	qword ptr [rcx + 8*rsi + 16], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovlpd	qword ptr [rcx + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_645
+	jmp	.LBB3_865
+.LBB3_53:
+	cmp	edi, 8
+	jle	.LBB3_111
+# %bb.54:
+	cmp	edi, 9
+	je	.LBB3_167
+# %bb.55:
+	cmp	edi, 11
+	je	.LBB3_170
+# %bb.56:
+	cmp	edi, 12
+	jne	.LBB3_865
+# %bb.57:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.58:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_59
+# %bb.238:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_393
+# %bb.239:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_393
+.LBB3_59:
+	xor	esi, esi
+.LBB3_650:
+	mov	rax, rsi
+	not	rax
+	add	rax, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_653
+# %bb.651:
+	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
+.LBB3_652:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovlpd	qword ptr [rcx + 8*rsi], xmm1
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_652
+.LBB3_653:
+	cmp	rax, 3
+	jb	.LBB3_865
+# %bb.654:
+	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
+.LBB3_655:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovlpd	qword ptr [rcx + 8*rsi], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovlpd	qword ptr [rcx + 8*rsi + 8], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovlpd	qword ptr [rcx + 8*rsi + 16], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovlpd	qword ptr [rcx + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_655
+	jmp	.LBB3_865
+.LBB3_60:
+	cmp	edi, 8
+	jle	.LBB3_116
+# %bb.61:
+	cmp	edi, 9
+	je	.LBB3_173
+# %bb.62:
+	cmp	edi, 11
+	je	.LBB3_176
+# %bb.63:
+	cmp	edi, 12
+	jne	.LBB3_865
+# %bb.64:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.65:
+	mov	eax, r8d
+	cmp	r8d, 16
+	jb	.LBB3_66
+# %bb.241:
+	lea	rsi, [rdx + 8*rax]
+	cmp	rsi, rcx
+	jbe	.LBB3_396
+# %bb.242:
+	lea	rsi, [rcx + 8*rax]
+	cmp	rsi, rdx
+	jbe	.LBB3_396
+.LBB3_66:
+	xor	esi, esi
+.LBB3_399:
+	mov	rdi, rsi
+	not	rdi
+	test	al, 1
+	je	.LBB3_401
+# %bb.400:
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vandpd	xmm1, xmm0, xmmword ptr [rip + .LCPI3_2]
+	vmovddup	xmm2, qword ptr [rip + .LCPI3_1] # xmm2 = [1.0E+0,1.0E+0]
+                                        # xmm2 = mem[0,0]
+	vorpd	xmm1, xmm2, xmm1
+	vxorpd	xmm2, xmm2, xmm2
+	vcmpeqsd	xmm0, xmm0, xmm2
+	vandnpd	xmm0, xmm0, xmm1
+	vmovlpd	qword ptr [rcx + 8*rsi], xmm0
+	or	rsi, 1
+.LBB3_401:
+	add	rdi, rax
+	je	.LBB3_865
+# %bb.402:
+	vmovapd	xmm0, xmmword ptr [rip + .LCPI3_2] # xmm0 = [-0.0E+0,-0.0E+0]
+	vmovddup	xmm1, qword ptr [rip + .LCPI3_1] # xmm1 = [1.0E+0,1.0E+0]
+                                        # xmm1 = mem[0,0]
+	vxorpd	xmm2, xmm2, xmm2
+.LBB3_403:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm3, qword ptr [rdx + 8*rsi]   # xmm3 = mem[0],zero
+	vandpd	xmm4, xmm3, xmm0
+	vorpd	xmm4, xmm1, xmm4
+	vcmpeqsd	xmm3, xmm3, xmm2
+	vandnpd	xmm3, xmm3, xmm4
+	vmovlpd	qword ptr [rcx + 8*rsi], xmm3
+	vmovsd	xmm3, qword ptr [rdx + 8*rsi + 8] # xmm3 = mem[0],zero
+	vandpd	xmm4, xmm3, xmm0
+	vorpd	xmm4, xmm1, xmm4
+	vcmpeqsd	xmm3, xmm3, xmm2
+	vandnpd	xmm3, xmm3, xmm4
+	vmovlpd	qword ptr [rcx + 8*rsi + 8], xmm3
+	add	rsi, 2
+	cmp	rax, rsi
+	jne	.LBB3_403
+	jmp	.LBB3_865
+.LBB3_67:
+	cmp	edi, 8
+	jle	.LBB3_121
+# %bb.68:
+	cmp	edi, 9
+	je	.LBB3_179
+# %bb.69:
+	cmp	edi, 11
+	je	.LBB3_182
+# %bb.70:
+	cmp	edi, 12
+	jne	.LBB3_865
+# %bb.71:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.72:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_73
+# %bb.244:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_404
+# %bb.245:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_404
+.LBB3_73:
+	xor	esi, esi
+.LBB3_660:
+	movabs	r10, 9223372036854775807
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB3_662
+.LBB3_661:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	and	rdi, r10
+	mov	qword ptr [rcx + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB3_661
+.LBB3_662:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_663:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_663
+	jmp	.LBB3_865
+.LBB3_74:
+	cmp	edi, 8
+	jle	.LBB3_126
+# %bb.75:
+	cmp	edi, 9
+	je	.LBB3_185
+# %bb.76:
+	cmp	edi, 11
+	je	.LBB3_188
+# %bb.77:
+	cmp	edi, 12
+	jne	.LBB3_865
+# %bb.78:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.79:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_80
+# %bb.247:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_407
+# %bb.248:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_407
+.LBB3_80:
+	xor	esi, esi
+.LBB3_668:
+	movabs	r10, 9223372036854775807
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB3_670
+.LBB3_669:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	and	rdi, r10
+	mov	qword ptr [rcx + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB3_669
+.LBB3_670:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_671:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_671
+	jmp	.LBB3_865
+.LBB3_81:
+	cmp	edi, 2
+	je	.LBB3_191
+# %bb.82:
+	cmp	edi, 3
+	jne	.LBB3_865
+# %bb.83:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.84:
+	mov	r9d, r8d
+	cmp	r8d, 128
+	jb	.LBB3_85
+# %bb.250:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_410
+# %bb.251:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_410
+.LBB3_85:
+	xor	esi, esi
+.LBB3_676:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_678
+.LBB3_677:                              # =>This Inner Loop Header: Depth=1
+	movzx	r10d, byte ptr [rdx + rsi]
+	xor	eax, eax
+	sub	al, r10b
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_677
+.LBB3_678:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_679:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	xor	edi, edi
+	sub	dil, al
+	mov	byte ptr [rcx + rsi + 3], dil
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_679
+	jmp	.LBB3_865
+.LBB3_86:
+	cmp	edi, 2
+	je	.LBB3_194
+# %bb.87:
+	cmp	edi, 3
+	jne	.LBB3_865
+# %bb.88:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.89:
+	mov	r9d, r8d
+	cmp	r8d, 128
+	jb	.LBB3_90
+# %bb.253:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_413
+# %bb.254:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_413
+.LBB3_90:
+	xor	esi, esi
+.LBB3_684:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_686
+.LBB3_685:                              # =>This Inner Loop Header: Depth=1
+	movzx	r10d, byte ptr [rdx + rsi]
+	xor	eax, eax
+	sub	al, r10b
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_685
+.LBB3_686:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_687:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	xor	edi, edi
+	sub	dil, al
+	mov	byte ptr [rcx + rsi + 3], dil
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_687
+	jmp	.LBB3_865
+.LBB3_91:
+	cmp	edi, 2
+	je	.LBB3_197
+# %bb.92:
+	cmp	edi, 3
+	jne	.LBB3_865
+# %bb.93:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.94:
+	mov	r11d, r8d
+	cmp	r8d, 128
+	jb	.LBB3_95
+# %bb.256:
+	lea	rsi, [rdx + r11]
+	cmp	rsi, rcx
+	jbe	.LBB3_416
+# %bb.257:
+	lea	rsi, [rcx + r11]
+	cmp	rsi, rdx
+	jbe	.LBB3_416
+.LBB3_95:
+	xor	esi, esi
+.LBB3_419:
+	mov	r10, rsi
+	not	r10
+	test	r11b, 1
+	je	.LBB3_421
+# %bb.420:
+	mov	r8b, byte ptr [rdx + rsi]
+	test	r8b, r8b
+	setne	r9b
+	neg	r9b
+	test	r8b, r8b
+	movzx	r8d, r9b
+	mov	edi, 1
+	cmovle	edi, r8d
+	mov	byte ptr [rcx + rsi], dil
+	or	rsi, 1
+.LBB3_421:
+	add	r10, r11
+	je	.LBB3_865
+# %bb.422:
+	mov	edi, 1
+.LBB3_423:                              # =>This Inner Loop Header: Depth=1
+	movzx	r8d, byte ptr [rdx + rsi]
+	test	r8b, r8b
+	setne	al
+	neg	al
+	test	r8b, r8b
+	movzx	eax, al
+	cmovg	eax, edi
+	mov	byte ptr [rcx + rsi], al
+	movzx	r8d, byte ptr [rdx + rsi + 1]
+	test	r8b, r8b
+	setne	al
+	neg	al
+	test	r8b, r8b
+	movzx	eax, al
+	cmovg	eax, edi
+	mov	byte ptr [rcx + rsi + 1], al
+	add	rsi, 2
+	cmp	r11, rsi
+	jne	.LBB3_423
+	jmp	.LBB3_865
+.LBB3_96:
+	cmp	edi, 2
+	je	.LBB3_200
+# %bb.97:
+	cmp	edi, 3
+	jne	.LBB3_865
+# %bb.98:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.99:
+	mov	r10d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_100
+# %bb.259:
+	lea	rsi, [rdx + r10]
+	cmp	rsi, rcx
+	jbe	.LBB3_424
+# %bb.260:
+	lea	rsi, [rcx + r10]
+	cmp	rsi, rdx
+	jbe	.LBB3_424
+.LBB3_100:
+	xor	esi, esi
+.LBB3_427:
+	mov	r8, rsi
+	not	r8
+	test	r10b, 1
+	je	.LBB3_429
+# %bb.428:
+	movsx	edi, byte ptr [rdx + rsi]
+	mov	r9d, edi
+	sar	r9d, 7
+	add	edi, r9d
+	xor	edi, r9d
+	mov	byte ptr [rcx + rsi], dil
+	or	rsi, 1
+.LBB3_429:
+	add	r8, r10
+	je	.LBB3_865
+.LBB3_430:                              # =>This Inner Loop Header: Depth=1
+	movsx	edi, byte ptr [rdx + rsi]
+	mov	eax, edi
+	sar	eax, 7
+	add	edi, eax
+	xor	edi, eax
+	mov	byte ptr [rcx + rsi], dil
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	mov	edi, eax
+	sar	edi, 7
+	add	eax, edi
+	xor	eax, edi
+	mov	byte ptr [rcx + rsi + 1], al
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB3_430
+	jmp	.LBB3_865
+.LBB3_101:
+	cmp	edi, 2
+	je	.LBB3_203
+# %bb.102:
+	cmp	edi, 3
+	jne	.LBB3_865
+# %bb.103:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.104:
+	mov	r10d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_105
+# %bb.262:
+	lea	rsi, [rdx + r10]
+	cmp	rsi, rcx
+	jbe	.LBB3_431
+# %bb.263:
+	lea	rsi, [rcx + r10]
+	cmp	rsi, rdx
+	jbe	.LBB3_431
+.LBB3_105:
+	xor	esi, esi
+.LBB3_434:
+	mov	r8, rsi
+	not	r8
+	test	r10b, 1
+	je	.LBB3_436
+# %bb.435:
+	movsx	edi, byte ptr [rdx + rsi]
+	mov	r9d, edi
+	sar	r9d, 7
+	add	edi, r9d
+	xor	edi, r9d
+	mov	byte ptr [rcx + rsi], dil
+	or	rsi, 1
+.LBB3_436:
+	add	r8, r10
+	je	.LBB3_865
+.LBB3_437:                              # =>This Inner Loop Header: Depth=1
+	movsx	edi, byte ptr [rdx + rsi]
+	mov	eax, edi
+	sar	eax, 7
+	add	edi, eax
+	xor	edi, eax
+	mov	byte ptr [rcx + rsi], dil
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	mov	edi, eax
+	sar	edi, 7
+	add	eax, edi
+	xor	eax, edi
+	mov	byte ptr [rcx + rsi + 1], al
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB3_437
+	jmp	.LBB3_865
+.LBB3_106:
+	cmp	edi, 7
+	je	.LBB3_206
+# %bb.107:
+	cmp	edi, 8
+	jne	.LBB3_865
+# %bb.108:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.109:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB3_265
+# %bb.110:
+	xor	edx, edx
+	jmp	.LBB3_444
+.LBB3_111:
+	cmp	edi, 7
+	je	.LBB3_209
+# %bb.112:
+	cmp	edi, 8
+	jne	.LBB3_865
+# %bb.113:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.114:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_115
+# %bb.267:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_445
+# %bb.268:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_445
+.LBB3_115:
+	xor	esi, esi
+.LBB3_692:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_694
+.LBB3_693:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_693
+.LBB3_694:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_695:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_695
+	jmp	.LBB3_865
+.LBB3_116:
+	cmp	edi, 7
+	je	.LBB3_212
+# %bb.117:
+	cmp	edi, 8
+	jne	.LBB3_865
+# %bb.118:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.119:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_120
+# %bb.270:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_448
+# %bb.271:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_448
+.LBB3_120:
+	xor	esi, esi
+.LBB3_451:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB3_453
+.LBB3_452:                              # =>This Inner Loop Header: Depth=1
+	xor	edi, edi
+	cmp	qword ptr [rdx + 8*rsi], 0
+	setne	dil
+	mov	qword ptr [rcx + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB3_452
+.LBB3_453:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_454:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	qword ptr [rdx + 8*rsi], 0
+	setne	al
+	mov	qword ptr [rcx + 8*rsi], rax
+	xor	eax, eax
+	cmp	qword ptr [rdx + 8*rsi + 8], 0
+	setne	al
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	xor	eax, eax
+	cmp	qword ptr [rdx + 8*rsi + 16], 0
+	setne	al
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	xor	eax, eax
+	cmp	qword ptr [rdx + 8*rsi + 24], 0
+	setne	al
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_454
+	jmp	.LBB3_865
+.LBB3_121:
+	cmp	edi, 7
+	je	.LBB3_215
+# %bb.122:
+	cmp	edi, 8
+	jne	.LBB3_865
+# %bb.123:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.124:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_125
+# %bb.273:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_455
+# %bb.274:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_455
+.LBB3_125:
+	xor	esi, esi
+.LBB3_700:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_702
+.LBB3_701:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_701
+.LBB3_702:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_703:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_703
+	jmp	.LBB3_865
+.LBB3_126:
+	cmp	edi, 7
+	je	.LBB3_218
+# %bb.127:
+	cmp	edi, 8
+	jne	.LBB3_865
+# %bb.128:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.129:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_130
+# %bb.276:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_458
+# %bb.277:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_458
+.LBB3_130:
+	xor	esi, esi
+.LBB3_708:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_710
+.LBB3_709:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_709
+.LBB3_710:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_711:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_711
+	jmp	.LBB3_865
+.LBB3_131:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.132:
+	mov	r9d, r8d
+	cmp	r8d, 64
+	jae	.LBB3_279
+# %bb.133:
+	xor	edx, edx
+	jmp	.LBB3_467
+.LBB3_134:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.135:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_136
+# %bb.281:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_468
+# %bb.282:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_468
+.LBB3_136:
+	xor	esi, esi
+.LBB3_716:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB3_718
+.LBB3_717:                              # =>This Inner Loop Header: Depth=1
+	xor	edi, edi
+	sub	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB3_717
+.LBB3_718:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_719:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_719
+	jmp	.LBB3_865
+.LBB3_137:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.138:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_139
+# %bb.284:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_471
+# %bb.285:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_471
+.LBB3_139:
+	xor	esi, esi
+.LBB3_724:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB3_726
+.LBB3_725:                              # =>This Inner Loop Header: Depth=1
+	xor	edi, edi
+	sub	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB3_725
+.LBB3_726:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_727:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_727
+	jmp	.LBB3_865
+.LBB3_140:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.141:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_142
+# %bb.287:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_474
+# %bb.288:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_474
+.LBB3_142:
+	xor	esi, esi
+.LBB3_732:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB3_734
+.LBB3_733:                              # =>This Inner Loop Header: Depth=1
+	xor	edi, edi
+	sub	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB3_733
+.LBB3_734:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_735:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_735
+	jmp	.LBB3_865
+.LBB3_143:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.144:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_145
+# %bb.290:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_477
+# %bb.291:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_477
+.LBB3_145:
+	xor	esi, esi
+.LBB3_740:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB3_742
+.LBB3_741:                              # =>This Inner Loop Header: Depth=1
+	xor	edi, edi
+	cmp	word ptr [rdx + 2*rsi], 0
+	setne	dil
+	mov	word ptr [rcx + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB3_741
+.LBB3_742:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_743:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	word ptr [rdx + 2*rsi], 0
+	setne	al
+	mov	word ptr [rcx + 2*rsi], ax
+	xor	eax, eax
+	cmp	word ptr [rdx + 2*rsi + 2], 0
+	setne	al
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	xor	eax, eax
+	cmp	word ptr [rdx + 2*rsi + 4], 0
+	setne	al
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	xor	eax, eax
+	cmp	word ptr [rdx + 2*rsi + 6], 0
+	setne	al
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_743
+	jmp	.LBB3_865
+.LBB3_146:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.147:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_148
+# %bb.293:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_480
+# %bb.294:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_480
+.LBB3_148:
+	xor	esi, esi
+.LBB3_748:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_750
+# %bb.749:
+	movzx	r8d, word ptr [rdx + 2*rsi]
+	xor	r10d, r10d
+	test	r8w, r8w
+	setne	r10b
+	neg	r10d
+	test	r8w, r8w
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	word ptr [rcx + 2*rsi], di
+	or	rsi, 1
+.LBB3_750:
+	add	rax, r9
+	je	.LBB3_865
+# %bb.751:
+	mov	r8d, 1
+.LBB3_752:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	eax
+	test	di, di
+	cmovg	eax, r8d
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	xor	edi, edi
+	test	ax, ax
+	setne	dil
+	neg	edi
+	test	ax, ax
+	cmovg	edi, r8d
+	mov	word ptr [rcx + 2*rsi + 2], di
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_752
+	jmp	.LBB3_865
+.LBB3_149:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.150:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_151
+# %bb.296:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_483
+# %bb.297:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_483
+.LBB3_151:
+	xor	esi, esi
+.LBB3_598:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_600
+.LBB3_599:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_599
+.LBB3_600:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_601:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_601
+	jmp	.LBB3_865
+.LBB3_152:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.153:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_154
+# %bb.299:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_485
+# %bb.300:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_485
+.LBB3_154:
+	xor	esi, esi
+.LBB3_757:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_759
+# %bb.758:
+	movsx	edi, word ptr [rdx + 2*rsi]
+	mov	r8d, edi
+	sar	r8d, 15
+	add	edi, r8d
+	xor	edi, r8d
+	mov	word ptr [rcx + 2*rsi], di
+	or	rsi, 1
+.LBB3_759:
+	add	rax, r9
+	je	.LBB3_865
+.LBB3_760:                              # =>This Inner Loop Header: Depth=1
+	movsx	eax, word ptr [rdx + 2*rsi]
+	mov	edi, eax
+	sar	edi, 15
+	add	eax, edi
+	xor	eax, edi
+	mov	word ptr [rcx + 2*rsi], ax
+	movsx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	edi, eax
+	sar	edi, 15
+	add	eax, edi
+	xor	eax, edi
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_760
+	jmp	.LBB3_865
+.LBB3_155:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.156:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_157
+# %bb.302:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_488
+# %bb.303:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_488
+.LBB3_157:
+	xor	esi, esi
+.LBB3_608:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_610
+.LBB3_609:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_609
+.LBB3_610:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_611:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_611
+	jmp	.LBB3_865
+.LBB3_158:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.159:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_160
+# %bb.305:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_490
+# %bb.306:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_490
+.LBB3_160:
+	xor	esi, esi
+.LBB3_765:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_767
+# %bb.766:
+	movsx	edi, word ptr [rdx + 2*rsi]
+	mov	r8d, edi
+	sar	r8d, 15
+	add	edi, r8d
+	xor	edi, r8d
+	mov	word ptr [rcx + 2*rsi], di
+	or	rsi, 1
+.LBB3_767:
+	add	rax, r9
+	je	.LBB3_865
+.LBB3_768:                              # =>This Inner Loop Header: Depth=1
+	movsx	eax, word ptr [rdx + 2*rsi]
+	mov	edi, eax
+	sar	edi, 15
+	add	eax, edi
+	xor	eax, edi
+	mov	word ptr [rcx + 2*rsi], ax
+	movsx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	edi, eax
+	sar	edi, 15
+	add	eax, edi
+	xor	eax, edi
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_768
+	jmp	.LBB3_865
+.LBB3_161:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.162:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_163
+# %bb.308:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_493
+# %bb.309:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_493
+.LBB3_163:
+	xor	esi, esi
+.LBB3_773:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_775
+.LBB3_774:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_774
+.LBB3_775:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_776:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_776
+	jmp	.LBB3_865
+.LBB3_164:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.165:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_166
+# %bb.311:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_496
+# %bb.312:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_496
+.LBB3_166:
+	xor	esi, esi
+.LBB3_781:
+	mov	rax, rsi
+	not	rax
+	add	rax, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_784
+# %bb.782:
+	vbroadcastss	xmm0, dword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_783:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovss	dword ptr [rcx + 4*rsi], xmm1
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_783
+.LBB3_784:
+	cmp	rax, 3
+	jb	.LBB3_865
+# %bb.785:
+	vbroadcastss	xmm0, dword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_786:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovss	dword ptr [rcx + 4*rsi], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovss	dword ptr [rcx + 4*rsi + 4], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovss	dword ptr [rcx + 4*rsi + 8], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovss	dword ptr [rcx + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_786
+	jmp	.LBB3_865
+.LBB3_167:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.168:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_169
+# %bb.314:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_499
+# %bb.315:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_499
+.LBB3_169:
+	xor	esi, esi
+.LBB3_791:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_793
+.LBB3_792:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_792
+.LBB3_793:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_794:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_794
+	jmp	.LBB3_865
+.LBB3_170:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.171:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_172
+# %bb.317:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_502
+# %bb.318:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_502
+.LBB3_172:
+	xor	esi, esi
+.LBB3_799:
+	mov	rax, rsi
+	not	rax
+	add	rax, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_802
+# %bb.800:
+	vbroadcastss	xmm0, dword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_801:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovss	dword ptr [rcx + 4*rsi], xmm1
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_801
+.LBB3_802:
+	cmp	rax, 3
+	jb	.LBB3_865
+# %bb.803:
+	vbroadcastss	xmm0, dword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_804:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovss	dword ptr [rcx + 4*rsi], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovss	dword ptr [rcx + 4*rsi + 4], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovss	dword ptr [rcx + 4*rsi + 8], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
+	vxorpd	xmm1, xmm1, xmm0
+	vmovss	dword ptr [rcx + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_804
+	jmp	.LBB3_865
+.LBB3_173:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.174:
+	mov	r11d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_175
+# %bb.320:
+	lea	rsi, [rdx + 8*r11]
+	cmp	rsi, rcx
+	jbe	.LBB3_505
+# %bb.321:
+	lea	rsi, [rcx + 8*r11]
+	cmp	rsi, rdx
+	jbe	.LBB3_505
+.LBB3_175:
+	xor	esi, esi
+.LBB3_508:
+	mov	r10, rsi
+	not	r10
+	test	r11b, 1
+	je	.LBB3_510
+# %bb.509:
+	mov	r8, qword ptr [rdx + 8*rsi]
+	xor	r9d, r9d
+	test	r8, r8
+	setne	r9b
+	neg	r9
+	test	r8, r8
+	mov	edi, 1
+	cmovle	rdi, r9
+	mov	qword ptr [rcx + 8*rsi], rdi
+	or	rsi, 1
+.LBB3_510:
+	add	r10, r11
+	je	.LBB3_865
+# %bb.511:
+	mov	r8d, 1
+.LBB3_512:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	xor	edi, edi
+	test	rax, rax
+	setne	dil
+	neg	rdi
+	test	rax, rax
+	cmovg	rdi, r8
+	mov	qword ptr [rcx + 8*rsi], rdi
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	xor	edi, edi
+	test	rax, rax
+	setne	dil
+	neg	rdi
+	test	rax, rax
+	cmovg	rdi, r8
+	mov	qword ptr [rcx + 8*rsi + 8], rdi
+	add	rsi, 2
+	cmp	r11, rsi
+	jne	.LBB3_512
+	jmp	.LBB3_865
+.LBB3_176:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.177:
+	mov	eax, r8d
+	cmp	r8d, 32
+	jb	.LBB3_178
+# %bb.323:
+	lea	rsi, [rdx + 4*rax]
+	cmp	rsi, rcx
+	jbe	.LBB3_513
+# %bb.324:
+	lea	rsi, [rcx + 4*rax]
+	cmp	rsi, rdx
+	jbe	.LBB3_513
+.LBB3_178:
+	xor	esi, esi
+.LBB3_516:
+	mov	r8, rsi
+	not	r8
+	test	al, 1
+	je	.LBB3_518
+# %bb.517:
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vmovmskps	edi, xmm0
+	and	edi, 1
+	neg	edi
+	or	edi, 1
+	vcvtsi2ss	xmm1, xmm10, edi
+	vxorps	xmm2, xmm2, xmm2
+	vcmpeqss	xmm0, xmm0, xmm2
+	vandnps	xmm0, xmm0, xmm1
+	vmovss	dword ptr [rcx + 4*rsi], xmm0
+	or	rsi, 1
+.LBB3_518:
+	add	r8, rax
+	je	.LBB3_865
+# %bb.519:
+	vxorps	xmm0, xmm0, xmm0
+.LBB3_520:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	vmovmskps	edi, xmm1
+	and	edi, 1
+	neg	edi
+	or	edi, 1
+	vcvtsi2ss	xmm2, xmm10, edi
+	vcmpeqss	xmm1, xmm1, xmm0
+	vandnps	xmm1, xmm1, xmm2
+	vmovss	dword ptr [rcx + 4*rsi], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	vmovmskps	edi, xmm1
+	and	edi, 1
+	neg	edi
+	or	edi, 1
+	vcvtsi2ss	xmm2, xmm10, edi
+	vcmpeqss	xmm1, xmm1, xmm0
+	vandnps	xmm1, xmm1, xmm2
+	vmovss	dword ptr [rcx + 4*rsi + 4], xmm1
+	add	rsi, 2
+	cmp	rax, rsi
+	jne	.LBB3_520
+	jmp	.LBB3_865
+.LBB3_179:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.180:
+	mov	r10d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_181
+# %bb.326:
+	lea	rsi, [rdx + 8*r10]
+	cmp	rsi, rcx
+	jbe	.LBB3_521
+# %bb.327:
+	lea	rsi, [rcx + 8*r10]
+	cmp	rsi, rdx
+	jbe	.LBB3_521
+.LBB3_181:
+	xor	esi, esi
+.LBB3_524:
+	mov	r9, rsi
+	not	r9
+	test	r10b, 1
+	je	.LBB3_526
+# %bb.525:
+	mov	r8, qword ptr [rdx + 8*rsi]
+	mov	rdi, r8
+	neg	rdi
+	cmovl	rdi, r8
+	mov	qword ptr [rcx + 8*rsi], rdi
+	or	rsi, 1
+.LBB3_526:
+	add	r9, r10
+	je	.LBB3_865
+.LBB3_527:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	rdi, rax
+	neg	rdi
+	cmovl	rdi, rax
+	mov	qword ptr [rcx + 8*rsi], rdi
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	rdi, rax
+	neg	rdi
+	cmovl	rdi, rax
+	mov	qword ptr [rcx + 8*rsi + 8], rdi
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB3_527
+	jmp	.LBB3_865
+.LBB3_182:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.183:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_184
+# %bb.329:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_528
+# %bb.330:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_528
+.LBB3_184:
+	xor	esi, esi
+.LBB3_809:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_812
+# %bb.810:
+	mov	r10d, 2147483647
+.LBB3_811:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	and	eax, r10d
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_811
+.LBB3_812:
+	cmp	r8, 3
+	jb	.LBB3_865
+# %bb.813:
+	mov	eax, 2147483647
+.LBB3_814:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi], edi
+	mov	edi, dword ptr [rdx + 4*rsi + 4]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 4], edi
+	mov	edi, dword ptr [rdx + 4*rsi + 8]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 8], edi
+	mov	edi, dword ptr [rdx + 4*rsi + 12]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 12], edi
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_814
+	jmp	.LBB3_865
+.LBB3_185:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.186:
+	mov	r10d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_187
+# %bb.332:
+	lea	rsi, [rdx + 8*r10]
+	cmp	rsi, rcx
+	jbe	.LBB3_531
+# %bb.333:
+	lea	rsi, [rcx + 8*r10]
+	cmp	rsi, rdx
+	jbe	.LBB3_531
+.LBB3_187:
+	xor	esi, esi
+.LBB3_534:
+	mov	r9, rsi
+	not	r9
+	test	r10b, 1
+	je	.LBB3_536
+# %bb.535:
+	mov	r8, qword ptr [rdx + 8*rsi]
+	mov	rdi, r8
+	neg	rdi
+	cmovl	rdi, r8
+	mov	qword ptr [rcx + 8*rsi], rdi
+	or	rsi, 1
+.LBB3_536:
+	add	r9, r10
+	je	.LBB3_865
+.LBB3_537:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	rdi, rax
+	neg	rdi
+	cmovl	rdi, rax
+	mov	qword ptr [rcx + 8*rsi], rdi
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	rdi, rax
+	neg	rdi
+	cmovl	rdi, rax
+	mov	qword ptr [rcx + 8*rsi + 8], rdi
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB3_537
+	jmp	.LBB3_865
+.LBB3_188:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.189:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_190
+# %bb.335:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_538
+# %bb.336:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_538
+.LBB3_190:
+	xor	esi, esi
+.LBB3_819:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_822
+# %bb.820:
+	mov	r10d, 2147483647
+.LBB3_821:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	and	eax, r10d
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_821
+.LBB3_822:
+	cmp	r8, 3
+	jb	.LBB3_865
+# %bb.823:
+	mov	eax, 2147483647
+.LBB3_824:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi], edi
+	mov	edi, dword ptr [rdx + 4*rsi + 4]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 4], edi
+	mov	edi, dword ptr [rdx + 4*rsi + 8]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 8], edi
+	mov	edi, dword ptr [rdx + 4*rsi + 12]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 12], edi
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_824
+	jmp	.LBB3_865
+.LBB3_191:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.192:
+	mov	r9d, r8d
+	cmp	r8d, 128
+	jae	.LBB3_338
+# %bb.193:
+	xor	edx, edx
+	jmp	.LBB3_547
+.LBB3_194:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.195:
+	mov	r9d, r8d
+	cmp	r8d, 128
+	jb	.LBB3_196
+# %bb.340:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_548
+# %bb.341:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_548
+.LBB3_196:
+	xor	esi, esi
+.LBB3_829:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_831
+.LBB3_830:                              # =>This Inner Loop Header: Depth=1
+	movzx	r10d, byte ptr [rdx + rsi]
+	xor	eax, eax
+	sub	al, r10b
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_830
+.LBB3_831:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_832:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	xor	edi, edi
+	sub	dil, al
+	mov	byte ptr [rcx + rsi + 3], dil
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_832
+	jmp	.LBB3_865
+.LBB3_197:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.198:
+	mov	r9d, r8d
+	cmp	r8d, 128
+	jb	.LBB3_199
+# %bb.343:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_551
+# %bb.344:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_551
+.LBB3_199:
+	xor	esi, esi
+.LBB3_554:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB3_556
+.LBB3_555:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rdx + rsi], 0
+	setne	byte ptr [rcx + rsi]
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB3_555
+.LBB3_556:
+	cmp	rdi, 3
+	jb	.LBB3_865
+.LBB3_557:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rdx + rsi], 0
+	setne	byte ptr [rcx + rsi]
+	cmp	byte ptr [rdx + rsi + 1], 0
+	setne	byte ptr [rcx + rsi + 1]
+	cmp	byte ptr [rdx + rsi + 2], 0
+	setne	byte ptr [rcx + rsi + 2]
+	cmp	byte ptr [rdx + rsi + 3], 0
+	setne	byte ptr [rcx + rsi + 3]
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_557
+	jmp	.LBB3_865
+.LBB3_200:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.201:
+	mov	r9d, r8d
+	cmp	r8d, 128
+	jb	.LBB3_202
+# %bb.346:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_558
+# %bb.347:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_558
+.LBB3_202:
+	xor	esi, esi
+.LBB3_837:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_839
+.LBB3_838:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_838
+.LBB3_839:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_840:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_840
+	jmp	.LBB3_865
+.LBB3_203:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.204:
+	mov	r9d, r8d
+	cmp	r8d, 128
+	jb	.LBB3_205
+# %bb.349:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_561
+# %bb.350:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_561
+.LBB3_205:
+	xor	esi, esi
+.LBB3_845:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_847
+.LBB3_846:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_846
+.LBB3_847:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_848:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_848
+	jmp	.LBB3_865
+.LBB3_206:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.207:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_208
+# %bb.352:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_564
+# %bb.353:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_564
+.LBB3_208:
+	xor	esi, esi
+.LBB3_853:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_855
+.LBB3_854:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_854
+.LBB3_855:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_856:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_856
+	jmp	.LBB3_865
+.LBB3_209:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.210:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_211
+# %bb.355:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_567
+# %bb.356:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_567
+.LBB3_211:
+	xor	esi, esi
+.LBB3_861:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_863
+.LBB3_862:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_862
+.LBB3_863:
+	cmp	r8, 3
+	jb	.LBB3_865
+.LBB3_864:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_864
+	jmp	.LBB3_865
+.LBB3_212:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.213:
+	mov	r11d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_214
+# %bb.358:
+	lea	rsi, [rdx + 4*r11]
+	cmp	rsi, rcx
+	jbe	.LBB3_570
+# %bb.359:
+	lea	rsi, [rcx + 4*r11]
+	cmp	rsi, rdx
+	jbe	.LBB3_570
+.LBB3_214:
+	xor	esi, esi
+.LBB3_573:
+	mov	r10, rsi
+	not	r10
+	test	r11b, 1
+	je	.LBB3_575
+# %bb.574:
+	mov	r8d, dword ptr [rdx + 4*rsi]
+	xor	r9d, r9d
+	test	r8d, r8d
+	setne	r9b
+	neg	r9d
+	test	r8d, r8d
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	dword ptr [rcx + 4*rsi], edi
+	or	rsi, 1
+.LBB3_575:
+	add	r10, r11
+	je	.LBB3_865
+# %bb.576:
+	mov	r8d, 1
+.LBB3_577:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	xor	edi, edi
+	test	eax, eax
+	setne	dil
+	neg	edi
+	test	eax, eax
+	cmovg	edi, r8d
+	mov	dword ptr [rcx + 4*rsi], edi
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	xor	edi, edi
+	test	eax, eax
+	setne	dil
+	neg	edi
+	test	eax, eax
+	cmovg	edi, r8d
+	mov	dword ptr [rcx + 4*rsi + 4], edi
+	add	rsi, 2
+	cmp	r11, rsi
+	jne	.LBB3_577
+	jmp	.LBB3_865
+.LBB3_215:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.216:
+	mov	r10d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_217
+# %bb.361:
+	lea	rsi, [rdx + 4*r10]
+	cmp	rsi, rcx
+	jbe	.LBB3_578
+# %bb.362:
+	lea	rsi, [rcx + 4*r10]
+	cmp	rsi, rdx
+	jbe	.LBB3_578
+.LBB3_217:
+	xor	esi, esi
+.LBB3_581:
+	mov	r9, rsi
+	not	r9
+	test	r10b, 1
+	je	.LBB3_583
+# %bb.582:
+	mov	r8d, dword ptr [rdx + 4*rsi]
+	mov	edi, r8d
+	neg	edi
+	cmovl	edi, r8d
+	mov	dword ptr [rcx + 4*rsi], edi
+	or	rsi, 1
+.LBB3_583:
+	add	r9, r10
+	je	.LBB3_865
+.LBB3_584:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	edi, eax
+	neg	edi
+	cmovl	edi, eax
+	mov	dword ptr [rcx + 4*rsi], edi
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	edi, eax
+	neg	edi
+	cmovl	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 4], edi
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB3_584
+	jmp	.LBB3_865
+.LBB3_218:
+	test	r8d, r8d
+	jle	.LBB3_865
+# %bb.219:
+	mov	r10d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_220
+# %bb.364:
+	lea	rsi, [rdx + 4*r10]
+	cmp	rsi, rcx
+	jbe	.LBB3_585
+# %bb.365:
+	lea	rsi, [rcx + 4*r10]
+	cmp	rsi, rdx
+	jbe	.LBB3_585
+.LBB3_220:
+	xor	esi, esi
+.LBB3_588:
+	mov	r9, rsi
+	not	r9
+	test	r10b, 1
+	je	.LBB3_590
+# %bb.589:
+	mov	r8d, dword ptr [rdx + 4*rsi]
+	mov	edi, r8d
+	neg	edi
+	cmovl	edi, r8d
+	mov	dword ptr [rcx + 4*rsi], edi
+	or	rsi, 1
+.LBB3_590:
+	add	r9, r10
+	je	.LBB3_865
+.LBB3_591:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	edi, eax
+	neg	edi
+	cmovl	edi, eax
+	mov	dword ptr [rcx + 4*rsi], edi
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	edi, eax
+	neg	edi
+	cmovl	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 4], edi
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB3_591
+	jmp	.LBB3_865
+.LBB3_221:
+	mov	edx, r9d
+	and	edx, -32
+	lea	rax, [rdx - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	esi, edi
+	and	esi, 3
+	cmp	rax, 96
+	jae	.LBB3_367
+# %bb.222:
+	xor	eax, eax
+	jmp	.LBB3_369
+.LBB3_265:
+	mov	edx, r9d
+	and	edx, -16
+	lea	rax, [rdx - 16]
+	mov	rdi, rax
+	shr	rdi, 4
+	add	rdi, 1
+	mov	esi, edi
+	and	esi, 3
+	cmp	rax, 48
+	jae	.LBB3_438
+# %bb.266:
+	xor	eax, eax
+	jmp	.LBB3_440
+.LBB3_279:
+	mov	edx, r9d
+	and	edx, -64
+	lea	rax, [rdx - 64]
+	mov	rdi, rax
+	shr	rdi, 6
+	add	rdi, 1
+	mov	esi, edi
+	and	esi, 3
+	cmp	rax, 192
+	jae	.LBB3_461
+# %bb.280:
+	xor	eax, eax
+	jmp	.LBB3_463
+.LBB3_338:
+	mov	edx, r9d
+	and	edx, -128
+	lea	rax, [rdx - 128]
+	mov	rdi, rax
+	shr	rdi, 7
+	add	rdi, 1
+	mov	esi, edi
+	and	esi, 3
+	cmp	rax, 384
+	jae	.LBB3_541
+# %bb.339:
+	xor	eax, eax
+	jmp	.LBB3_543
+.LBB3_374:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_612
+# %bb.375:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_376:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_376
+	jmp	.LBB3_613
+.LBB3_377:
+	mov	esi, r9d
+	and	esi, -32
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+	vpbroadcastd	ymm1, dword ptr [rip + .LCPI3_3] # ymm1 = [1,1,1,1,1,1,1,1]
+.LBB3_378:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpandn	ymm3, ymm3, ymm1
+	vpcmpeqd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpcmpeqd	ymm5, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vpandn	ymm4, ymm4, ymm1
+	vpandn	ymm5, ymm5, ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm5
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB3_378
+# %bb.379:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_380
+.LBB3_384:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_620
+# %bb.385:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_386:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_386
+	jmp	.LBB3_621
+.LBB3_387:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_628
+# %bb.388:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_389:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_389
+	jmp	.LBB3_629
+.LBB3_390:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_636
+# %bb.391:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_392:                              # =>This Inner Loop Header: Depth=1
+	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
+	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_392
+	jmp	.LBB3_637
+.LBB3_393:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_646
+# %bb.394:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_395:                              # =>This Inner Loop Header: Depth=1
+	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
+	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_395
+	jmp	.LBB3_647
+.LBB3_396:
+	mov	esi, eax
+	and	esi, -16
+	xor	edi, edi
+	vxorpd	xmm0, xmm0, xmm0
+	vbroadcastsd	ymm1, qword ptr [rip + .LCPI3_0] # ymm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI3_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB3_397:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rdi + 32]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rdi + 64]
+	vmovupd	ymm6, ymmword ptr [rdx + 8*rdi + 96]
+	vandpd	ymm7, ymm3, ymm1
+	vorpd	ymm7, ymm2, ymm7
+	vandpd	ymm8, ymm4, ymm1
+	vorpd	ymm8, ymm8, ymm2
+	vandpd	ymm9, ymm5, ymm1
+	vorpd	ymm9, ymm9, ymm2
+	vandpd	ymm10, ymm6, ymm1
+	vorpd	ymm10, ymm10, ymm2
+	vcmpneqpd	ymm3, ymm3, ymm0
+	vandpd	ymm3, ymm3, ymm7
+	vcmpneqpd	ymm4, ymm4, ymm0
+	vandpd	ymm4, ymm8, ymm4
+	vcmpneqpd	ymm5, ymm5, ymm0
+	vandpd	ymm5, ymm9, ymm5
+	vcmpneqpd	ymm6, ymm6, ymm0
+	vandpd	ymm6, ymm10, ymm6
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm4
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm5
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm6
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB3_397
+# %bb.398:
+	cmp	rsi, rax
+	je	.LBB3_865
+	jmp	.LBB3_399
+.LBB3_404:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_656
+# %bb.405:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_8] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
+.LBB3_406:                              # =>This Inner Loop Header: Depth=1
+	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vandpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
+	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vandpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_406
+	jmp	.LBB3_657
+.LBB3_407:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_664
+# %bb.408:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_8] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
+.LBB3_409:                              # =>This Inner Loop Header: Depth=1
+	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vandpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
+	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vandpd	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_409
+	jmp	.LBB3_665
+.LBB3_410:
+	mov	esi, r9d
+	and	esi, -128
+	lea	rax, [rsi - 128]
+	mov	r8, rax
+	shr	r8, 7
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_672
+# %bb.411:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_412:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
+	vmovdqu	ymmword ptr [rcx + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [rcx + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [rcx + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [rcx + rdi + 224], ymm4
+	add	rdi, 256
+	add	rax, 2
+	jne	.LBB3_412
+	jmp	.LBB3_673
+.LBB3_413:
+	mov	esi, r9d
+	and	esi, -128
+	lea	rax, [rsi - 128]
+	mov	r8, rax
+	shr	r8, 7
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_680
+# %bb.414:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_415:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
+	vmovdqu	ymmword ptr [rcx + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [rcx + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [rcx + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [rcx + rdi + 224], ymm4
+	add	rdi, 256
+	add	rax, 2
+	jne	.LBB3_415
+	jmp	.LBB3_681
+.LBB3_416:
+	mov	esi, r11d
+	and	esi, -128
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_6] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB3_417:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm5, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm6, ymmword ptr [rdx + rdi + 96]
+	vpcmpeqb	ymm7, ymm3, ymm0
+	vpxor	ymm7, ymm7, ymm1
+	vpcmpeqb	ymm8, ymm4, ymm0
+	vpxor	ymm8, ymm8, ymm1
+	vpcmpeqb	ymm9, ymm5, ymm0
+	vpxor	ymm9, ymm9, ymm1
+	vpcmpeqb	ymm10, ymm6, ymm0
+	vpxor	ymm10, ymm10, ymm1
+	vpcmpgtb	ymm3, ymm2, ymm3
+	vpcmpgtb	ymm4, ymm2, ymm4
+	vpcmpgtb	ymm5, ymm2, ymm5
+	vpcmpgtb	ymm6, ymm2, ymm6
+	vpblendvb	ymm3, ymm2, ymm7, ymm3
+	vpblendvb	ymm4, ymm2, ymm8, ymm4
+	vpblendvb	ymm5, ymm2, ymm9, ymm5
+	vpblendvb	ymm6, ymm2, ymm10, ymm6
+	vmovdqu	ymmword ptr [rcx + rdi], ymm3
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm4
+	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm5
+	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm6
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB3_417
+# %bb.418:
+	cmp	rsi, r11
+	je	.LBB3_865
+	jmp	.LBB3_419
+.LBB3_424:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI3_11] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB3_425:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxbd	ymm1, qword ptr [rdx + rdi]
+	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 8]
+	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 16]
+	vpmovsxbd	ymm4, qword ptr [rdx + rdi + 24]
+	vpsrad	ymm5, ymm1, 7
+	vpsrad	ymm6, ymm2, 7
+	vpsrad	ymm7, ymm3, 7
+	vpsrad	ymm8, ymm4, 7
+	vpaddd	ymm1, ymm5, ymm1
+	vpaddd	ymm2, ymm6, ymm2
+	vpaddd	ymm3, ymm7, ymm3
+	vpaddd	ymm4, ymm8, ymm4
+	vpxor	ymm1, ymm1, ymm5
+	vpxor	ymm2, ymm2, ymm6
+	vpxor	ymm3, ymm3, ymm7
+	vpxor	ymm4, ymm8, ymm4
+	vextracti128	xmm5, ymm1, 1
+	vpshufb	xmm5, xmm5, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm5        # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1]
+	vextracti128	xmm5, ymm2, 1
+	vpshufb	xmm5, xmm5, xmm0
+	vpshufb	xmm2, xmm2, xmm0
+	vpunpckldq	xmm2, xmm2, xmm5        # xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1]
+	vextracti128	xmm5, ymm3, 1
+	vpshufb	xmm5, xmm5, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm3, xmm3, xmm5        # xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1]
+	vextracti128	xmm5, ymm4, 1
+	vpshufb	xmm5, xmm5, xmm0
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm1
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB3_425
+# %bb.426:
+	cmp	rsi, r10
+	je	.LBB3_865
+	jmp	.LBB3_427
+.LBB3_431:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI3_11] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB3_432:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxbd	ymm1, qword ptr [rdx + rdi]
+	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 8]
+	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 16]
+	vpmovsxbd	ymm4, qword ptr [rdx + rdi + 24]
+	vpsrad	ymm5, ymm1, 7
+	vpsrad	ymm6, ymm2, 7
+	vpsrad	ymm7, ymm3, 7
+	vpsrad	ymm8, ymm4, 7
+	vpaddd	ymm1, ymm5, ymm1
+	vpaddd	ymm2, ymm6, ymm2
+	vpaddd	ymm3, ymm7, ymm3
+	vpaddd	ymm4, ymm8, ymm4
+	vpxor	ymm1, ymm1, ymm5
+	vpxor	ymm2, ymm2, ymm6
+	vpxor	ymm3, ymm3, ymm7
+	vpxor	ymm4, ymm8, ymm4
+	vextracti128	xmm5, ymm1, 1
+	vpshufb	xmm5, xmm5, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm5        # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1]
+	vextracti128	xmm5, ymm2, 1
+	vpshufb	xmm5, xmm5, xmm0
+	vpshufb	xmm2, xmm2, xmm0
+	vpunpckldq	xmm2, xmm2, xmm5        # xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1]
+	vextracti128	xmm5, ymm3, 1
+	vpshufb	xmm5, xmm5, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm3, xmm3, xmm5        # xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1]
+	vextracti128	xmm5, ymm4, 1
+	vpshufb	xmm5, xmm5, xmm0
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm1
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB3_432
+# %bb.433:
+	cmp	rsi, r10
+	je	.LBB3_865
+	jmp	.LBB3_434
+.LBB3_445:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_688
+# %bb.446:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_447:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_447
+	jmp	.LBB3_689
+.LBB3_448:
+	mov	esi, r9d
+	and	esi, -16
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+	vpbroadcastq	ymm1, qword ptr [rip + .LCPI3_4] # ymm1 = [1,1,1,1]
+.LBB3_449:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpandn	ymm3, ymm3, ymm1
+	vpcmpeqq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpcmpeqq	ymm5, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vpandn	ymm4, ymm4, ymm1
+	vpandn	ymm5, ymm5, ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm3
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm4
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm5
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB3_449
+# %bb.450:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_451
+.LBB3_455:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_696
+# %bb.456:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_457:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_457
+	jmp	.LBB3_697
+.LBB3_458:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_704
+# %bb.459:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_460:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_460
+	jmp	.LBB3_705
+.LBB3_468:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_712
+# %bb.469:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_470:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_470
+	jmp	.LBB3_713
+.LBB3_471:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_720
+# %bb.472:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_473:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_473
+	jmp	.LBB3_721
+.LBB3_474:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_728
+# %bb.475:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_476:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_476
+	jmp	.LBB3_729
+.LBB3_477:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_736
+# %bb.478:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI3_5] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB3_479:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqw	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vpandn	ymm3, ymm3, ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm3
+	vpcmpeqw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqw	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vpandn	ymm3, ymm3, ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_479
+	jmp	.LBB3_737
+.LBB3_480:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_744
+# %bb.481:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_5] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB3_482:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm4, ymmword ptr [rdx + 2*rdi + 32]
+	vpcmpeqw	ymm5, ymm3, ymm0
+	vpxor	ymm5, ymm5, ymm1
+	vpcmpeqw	ymm6, ymm4, ymm0
+	vpxor	ymm6, ymm6, ymm1
+	vpcmpgtw	ymm3, ymm2, ymm3
+	vpcmpgtw	ymm4, ymm2, ymm4
+	vpblendvb	ymm3, ymm2, ymm5, ymm3
+	vpblendvb	ymm4, ymm2, ymm6, ymm4
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm3
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm4
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 2*rdi + 96]
+	vpcmpeqw	ymm5, ymm3, ymm0
+	vpxor	ymm5, ymm5, ymm1
+	vpcmpeqw	ymm6, ymm4, ymm0
+	vpxor	ymm6, ymm6, ymm1
+	vpcmpgtw	ymm3, ymm2, ymm3
+	vpcmpgtw	ymm4, ymm2, ymm4
+	vpblendvb	ymm3, ymm2, ymm5, ymm3
+	vpblendvb	ymm4, ymm2, ymm6, ymm4
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm4
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_482
+	jmp	.LBB3_745
+.LBB3_483:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 96
+	jae	.LBB3_592
+# %bb.484:
+	xor	eax, eax
+	jmp	.LBB3_594
+.LBB3_485:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_753
+# %bb.486:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI3_10] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
+.LBB3_487:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi]
+	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 16]
+	vpsrad	ymm3, ymm2, 15
+	vpsrad	ymm4, ymm1, 15
+	vpaddd	ymm1, ymm4, ymm1
+	vpaddd	ymm2, ymm3, ymm2
+	vpxor	ymm2, ymm2, ymm3
+	vpxor	ymm1, ymm1, ymm4
+	vpshufb	ymm1, ymm1, ymm0
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm0
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 32]
+	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 48]
+	vpsrad	ymm3, ymm2, 15
+	vpsrad	ymm4, ymm1, 15
+	vpaddd	ymm1, ymm4, ymm1
+	vpaddd	ymm2, ymm3, ymm2
+	vpxor	ymm2, ymm2, ymm3
+	vpxor	ymm1, ymm1, ymm4
+	vpshufb	ymm1, ymm1, ymm0
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm0
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_487
+	jmp	.LBB3_754
+.LBB3_488:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 96
+	jae	.LBB3_602
+# %bb.489:
+	xor	eax, eax
+	jmp	.LBB3_604
+.LBB3_490:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_761
+# %bb.491:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI3_10] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
+.LBB3_492:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi]
+	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 16]
+	vpsrad	ymm3, ymm2, 15
+	vpsrad	ymm4, ymm1, 15
+	vpaddd	ymm1, ymm4, ymm1
+	vpaddd	ymm2, ymm3, ymm2
+	vpxor	ymm2, ymm2, ymm3
+	vpxor	ymm1, ymm1, ymm4
+	vpshufb	ymm1, ymm1, ymm0
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm0
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 32]
+	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 48]
+	vpsrad	ymm3, ymm2, 15
+	vpsrad	ymm4, ymm1, 15
+	vpaddd	ymm1, ymm4, ymm1
+	vpaddd	ymm2, ymm3, ymm2
+	vpxor	ymm2, ymm2, ymm3
+	vpxor	ymm1, ymm1, ymm4
+	vpshufb	ymm1, ymm1, ymm0
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm0
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_492
+	jmp	.LBB3_762
+.LBB3_493:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_769
+# %bb.494:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_495:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_495
+	jmp	.LBB3_770
+.LBB3_496:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_777
+# %bb.497:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_7] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_498:                              # =>This Inner Loop Header: Depth=1
+	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm4
+	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm3
+	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_498
+	jmp	.LBB3_778
+.LBB3_499:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_787
+# %bb.500:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_501:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_501
+	jmp	.LBB3_788
+.LBB3_502:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_795
+# %bb.503:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_7] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_504:                              # =>This Inner Loop Header: Depth=1
+	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm4
+	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vxorpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm3
+	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_504
+	jmp	.LBB3_796
+.LBB3_505:
+	mov	esi, r11d
+	and	esi, -16
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpbroadcastq	ymm2, qword ptr [rip + .LCPI3_4] # ymm2 = [1,1,1,1]
+.LBB3_506:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm6, ymmword ptr [rdx + 8*rdi + 96]
+	vpcmpeqq	ymm7, ymm3, ymm0
+	vpxor	ymm7, ymm7, ymm1
+	vpcmpeqq	ymm8, ymm4, ymm0
+	vpxor	ymm8, ymm8, ymm1
+	vpcmpeqq	ymm9, ymm5, ymm0
+	vpxor	ymm9, ymm9, ymm1
+	vpcmpeqq	ymm10, ymm6, ymm0
+	vpxor	ymm10, ymm10, ymm1
+	vpcmpgtq	ymm3, ymm2, ymm3
+	vpcmpgtq	ymm4, ymm2, ymm4
+	vpcmpgtq	ymm5, ymm2, ymm5
+	vpcmpgtq	ymm6, ymm2, ymm6
+	vblendvpd	ymm3, ymm2, ymm7, ymm3
+	vblendvpd	ymm4, ymm2, ymm8, ymm4
+	vblendvpd	ymm5, ymm2, ymm9, ymm5
+	vblendvpd	ymm6, ymm2, ymm10, ymm6
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm4
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm5
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm6
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB3_506
+# %bb.507:
+	cmp	rsi, r11
+	je	.LBB3_865
+	jmp	.LBB3_508
+.LBB3_513:
+	mov	esi, eax
+	and	esi, -32
+	xor	edi, edi
+	vxorps	xmm0, xmm0, xmm0
+	vpbroadcastd	ymm1, dword ptr [rip + .LCPI3_3] # ymm1 = [1,1,1,1,1,1,1,1]
+.LBB3_514:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm5, ymmword ptr [rdx + 4*rdi + 96]
+	vpsrad	ymm6, ymm2, 31
+	vpor	ymm6, ymm6, ymm1
+	vpsrad	ymm7, ymm3, 31
+	vpor	ymm7, ymm7, ymm1
+	vpsrad	ymm8, ymm4, 31
+	vpor	ymm8, ymm8, ymm1
+	vpsrad	ymm9, ymm5, 31
+	vpor	ymm9, ymm9, ymm1
+	vcvtdq2ps	ymm6, ymm6
+	vcvtdq2ps	ymm7, ymm7
+	vcvtdq2ps	ymm8, ymm8
+	vcvtdq2ps	ymm9, ymm9
+	vcmpneqps	ymm2, ymm2, ymm0
+	vandps	ymm2, ymm2, ymm6
+	vcmpneqps	ymm3, ymm3, ymm0
+	vandps	ymm3, ymm3, ymm7
+	vcmpneqps	ymm4, ymm4, ymm0
+	vandps	ymm4, ymm8, ymm4
+	vcmpneqps	ymm5, ymm5, ymm0
+	vandps	ymm5, ymm9, ymm5
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm5
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB3_514
+# %bb.515:
+	cmp	rsi, rax
+	je	.LBB3_865
+	jmp	.LBB3_516
+.LBB3_521:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_522:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymm1
+	vblendvpd	ymm1, ymm1, ymm4, ymm1
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm5, ymm0, ymm2
+	vblendvpd	ymm2, ymm2, ymm5, ymm2
+	vpsubq	ymm5, ymm0, ymm3
+	vblendvpd	ymm3, ymm3, ymm5, ymm3
+	vpsubq	ymm5, ymm0, ymm4
+	vblendvpd	ymm4, ymm4, ymm5, ymm4
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB3_522
+# %bb.523:
+	cmp	rsi, r10
+	je	.LBB3_865
+	jmp	.LBB3_524
+.LBB3_528:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_805
+# %bb.529:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_9] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
+.LBB3_530:                              # =>This Inner Loop Header: Depth=1
+	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vandpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm4
+	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vandpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm3
+	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_530
+	jmp	.LBB3_806
+.LBB3_531:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_532:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymm1
+	vblendvpd	ymm1, ymm1, ymm4, ymm1
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm5, ymm0, ymm2
+	vblendvpd	ymm2, ymm2, ymm5, ymm2
+	vpsubq	ymm5, ymm0, ymm3
+	vblendvpd	ymm3, ymm3, ymm5, ymm3
+	vpsubq	ymm5, ymm0, ymm4
+	vblendvpd	ymm4, ymm4, ymm5, ymm4
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB3_532
+# %bb.533:
+	cmp	rsi, r10
+	je	.LBB3_865
+	jmp	.LBB3_534
+.LBB3_538:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_815
+# %bb.539:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_9] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
+.LBB3_540:                              # =>This Inner Loop Header: Depth=1
+	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vandpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm4
+	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vandpd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm3
+	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_540
+	jmp	.LBB3_816
+.LBB3_548:
+	mov	esi, r9d
+	and	esi, -128
+	lea	rax, [rsi - 128]
+	mov	r8, rax
+	shr	r8, 7
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_825
+# %bb.549:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_550:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
+	vmovdqu	ymmword ptr [rcx + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [rcx + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [rcx + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [rcx + rdi + 224], ymm4
+	add	rdi, 256
+	add	rax, 2
+	jne	.LBB3_550
+	jmp	.LBB3_826
+.LBB3_551:
+	mov	esi, r9d
+	and	esi, -128
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI3_6] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB3_552:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqb	ymm2, ymm0, ymmword ptr [rdx + rdi]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqb	ymm3, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpandn	ymm3, ymm3, ymm1
+	vpcmpeqb	ymm4, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpcmpeqb	ymm5, ymm0, ymmword ptr [rdx + rdi + 96]
+	vpandn	ymm4, ymm4, ymm1
+	vpandn	ymm5, ymm5, ymm1
+	vmovdqu	ymmword ptr [rcx + rdi], ymm2
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm3
+	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm4
+	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm5
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB3_552
+# %bb.553:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_554
+.LBB3_558:
+	mov	esi, r9d
+	and	esi, -128
+	lea	rax, [rsi - 128]
+	mov	r8, rax
+	shr	r8, 7
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_833
+# %bb.559:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_560:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + rdi]
+	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovups	ymmword ptr [rcx + rdi], ymm0
+	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
+	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
+	add	rdi, 256
+	add	rax, 2
+	jne	.LBB3_560
+	jmp	.LBB3_834
+.LBB3_561:
+	mov	esi, r9d
+	and	esi, -128
+	lea	rax, [rsi - 128]
+	mov	r8, rax
+	shr	r8, 7
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_841
+# %bb.562:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_563:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + rdi]
+	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovups	ymmword ptr [rcx + rdi], ymm0
+	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
+	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
+	add	rdi, 256
+	add	rax, 2
+	jne	.LBB3_563
+	jmp	.LBB3_842
+.LBB3_564:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_849
+# %bb.565:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_566:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_566
+	jmp	.LBB3_850
+.LBB3_567:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_857
+# %bb.568:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB3_569:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_569
+	jmp	.LBB3_858
+.LBB3_570:
+	mov	esi, r11d
+	and	esi, -32
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpbroadcastd	ymm2, dword ptr [rip + .LCPI3_3] # ymm2 = [1,1,1,1,1,1,1,1]
+.LBB3_571:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm5, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm6, ymmword ptr [rdx + 4*rdi + 96]
+	vpcmpeqd	ymm7, ymm3, ymm0
+	vpxor	ymm7, ymm7, ymm1
+	vpcmpeqd	ymm8, ymm4, ymm0
+	vpxor	ymm8, ymm8, ymm1
+	vpcmpeqd	ymm9, ymm5, ymm0
+	vpxor	ymm9, ymm9, ymm1
+	vpcmpeqd	ymm10, ymm6, ymm0
+	vpxor	ymm10, ymm10, ymm1
+	vpcmpgtd	ymm3, ymm2, ymm3
+	vpcmpgtd	ymm4, ymm2, ymm4
+	vpcmpgtd	ymm5, ymm2, ymm5
+	vpcmpgtd	ymm6, ymm2, ymm6
+	vblendvps	ymm3, ymm2, ymm7, ymm3
+	vblendvps	ymm4, ymm2, ymm8, ymm4
+	vblendvps	ymm5, ymm2, ymm9, ymm5
+	vblendvps	ymm6, ymm2, ymm10, ymm6
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm4
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm5
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm6
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB3_571
+# %bb.572:
+	cmp	rsi, r11
+	je	.LBB3_865
+	jmp	.LBB3_573
+.LBB3_578:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB3_579:                              # =>This Inner Loop Header: Depth=1
+	vpabsd	ymm0, ymmword ptr [rdx + 4*rdi]
+	vpabsd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpabsd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpabsd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB3_579
+# %bb.580:
+	cmp	rsi, r10
+	je	.LBB3_865
+	jmp	.LBB3_581
+.LBB3_585:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB3_586:                              # =>This Inner Loop Header: Depth=1
+	vpabsd	ymm0, ymmword ptr [rdx + 4*rdi]
+	vpabsd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpabsd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpabsd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB3_586
+# %bb.587:
+	cmp	rsi, r10
+	je	.LBB3_865
+	jmp	.LBB3_588
+.LBB3_367:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+	vxorpd	xmm0, xmm0, xmm0
+.LBB3_368:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymmword ptr [rcx + 4*rax], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 32], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 64], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 96], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 160], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 192], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 224], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 256], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 288], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 320], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 352], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 384], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 416], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 448], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rax + 480], ymm0
+	sub	rax, -128
+	add	rdi, 4
+	jne	.LBB3_368
+.LBB3_369:
+	test	rsi, rsi
+	je	.LBB3_372
+# %bb.370:
+	lea	rax, [rcx + 4*rax]
+	add	rax, 96
+	neg	rsi
+	vxorpd	xmm0, xmm0, xmm0
+.LBB3_371:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymmword ptr [rax - 96], ymm0
+	vmovupd	ymmword ptr [rax - 64], ymm0
+	vmovupd	ymmword ptr [rax - 32], ymm0
+	vmovupd	ymmword ptr [rax], ymm0
+	sub	rax, -128
+	inc	rsi
+	jne	.LBB3_371
+.LBB3_372:
+	cmp	rdx, r9
+	je	.LBB3_865
+	.p2align	4, 0x90
+.LBB3_373:                              # =>This Inner Loop Header: Depth=1
+	mov	dword ptr [rcx + 4*rdx], 0
+	add	rdx, 1
+	cmp	r9, rdx
+	jne	.LBB3_373
+	jmp	.LBB3_865
+.LBB3_438:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+	vxorpd	xmm0, xmm0, xmm0
+.LBB3_439:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymmword ptr [rcx + 8*rax], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 32], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 64], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 96], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 160], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 192], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 224], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 256], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 288], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 320], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 352], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 384], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 416], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 448], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rax + 480], ymm0
+	add	rax, 64
+	add	rdi, 4
+	jne	.LBB3_439
+.LBB3_440:
+	test	rsi, rsi
+	je	.LBB3_443
+# %bb.441:
+	lea	rax, [rcx + 8*rax]
+	add	rax, 96
+	neg	rsi
+	vxorpd	xmm0, xmm0, xmm0
+.LBB3_442:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymmword ptr [rax - 96], ymm0
+	vmovupd	ymmword ptr [rax - 64], ymm0
+	vmovupd	ymmword ptr [rax - 32], ymm0
+	vmovupd	ymmword ptr [rax], ymm0
+	sub	rax, -128
+	inc	rsi
+	jne	.LBB3_442
+.LBB3_443:
+	cmp	rdx, r9
+	je	.LBB3_865
+	.p2align	4, 0x90
+.LBB3_444:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rcx + 8*rdx], 0
+	add	rdx, 1
+	cmp	r9, rdx
+	jne	.LBB3_444
+	jmp	.LBB3_865
+.LBB3_461:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+	vxorpd	xmm0, xmm0, xmm0
+.LBB3_462:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymmword ptr [rcx + 2*rax], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 32], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 64], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 96], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 160], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 256], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 288], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 320], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 352], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 384], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 416], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 448], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 480], ymm0
+	add	rax, 256
+	add	rdi, 4
+	jne	.LBB3_462
+.LBB3_463:
+	test	rsi, rsi
+	je	.LBB3_466
+# %bb.464:
+	lea	rax, [rcx + 2*rax]
+	add	rax, 96
+	neg	rsi
+	vxorpd	xmm0, xmm0, xmm0
+.LBB3_465:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymmword ptr [rax - 96], ymm0
+	vmovupd	ymmword ptr [rax - 64], ymm0
+	vmovupd	ymmword ptr [rax - 32], ymm0
+	vmovupd	ymmword ptr [rax], ymm0
+	sub	rax, -128
+	inc	rsi
+	jne	.LBB3_465
+.LBB3_466:
+	cmp	rdx, r9
+	je	.LBB3_865
+	.p2align	4, 0x90
+.LBB3_467:                              # =>This Inner Loop Header: Depth=1
+	mov	word ptr [rcx + 2*rdx], 0
+	add	rdx, 1
+	cmp	r9, rdx
+	jne	.LBB3_467
+	jmp	.LBB3_865
+.LBB3_541:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+	vxorpd	xmm0, xmm0, xmm0
+.LBB3_542:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymmword ptr [rcx + rax], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 32], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 64], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 96], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 128], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 160], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 192], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 224], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 256], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 288], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 320], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 352], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 384], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 416], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 448], ymm0
+	vmovupd	ymmword ptr [rcx + rax + 480], ymm0
+	add	rax, 512
+	add	rdi, 4
+	jne	.LBB3_542
+.LBB3_543:
+	test	rsi, rsi
+	je	.LBB3_546
+# %bb.544:
+	add	rax, rcx
+	add	rax, 96
+	neg	rsi
+	vxorpd	xmm0, xmm0, xmm0
+.LBB3_545:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymmword ptr [rax - 96], ymm0
+	vmovupd	ymmword ptr [rax - 64], ymm0
+	vmovupd	ymmword ptr [rax - 32], ymm0
+	vmovupd	ymmword ptr [rax], ymm0
+	sub	rax, -128
+	inc	rsi
+	jne	.LBB3_545
+.LBB3_546:
+	cmp	rdx, r9
+	je	.LBB3_865
+	.p2align	4, 0x90
+.LBB3_547:                              # =>This Inner Loop Header: Depth=1
+	mov	byte ptr [rcx + rdx], 0
+	add	rdx, 1
+	cmp	r9, rdx
+	jne	.LBB3_547
+.LBB3_865:
+	mov	rsp, rbp
+	pop	rbp
+	vzeroupper
+	ret
+.LBB3_592:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB3_593:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
+	vmovups	ymmword ptr [rcx + 2*rax], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
+	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
+	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
+	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
+	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
+	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
+	sub	rax, -128
+	add	rdi, 4
+	jne	.LBB3_593
+.LBB3_594:
+	test	r8, r8
+	je	.LBB3_597
+# %bb.595:
+	add	rax, rax
+	add	rax, 32
+	neg	r8
+.LBB3_596:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
+	vmovupd	ymm1, ymmword ptr [rdx + rax]
+	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
+	vmovupd	ymmword ptr [rcx + rax], ymm1
+	add	rax, 64
+	inc	r8
+	jne	.LBB3_596
+.LBB3_597:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_598
+.LBB3_602:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB3_603:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
+	vmovups	ymmword ptr [rcx + 2*rax], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
+	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
+	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
+	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
+	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
+	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
+	sub	rax, -128
+	add	rdi, 4
+	jne	.LBB3_603
+.LBB3_604:
+	test	r8, r8
+	je	.LBB3_607
+# %bb.605:
+	add	rax, rax
+	add	rax, 32
+	neg	r8
+.LBB3_606:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
+	vmovupd	ymm1, ymmword ptr [rdx + rax]
+	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
+	vmovupd	ymmword ptr [rcx + rax], ymm1
+	add	rax, 64
+	inc	r8
+	jne	.LBB3_606
+.LBB3_607:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_608
+.LBB3_612:
+	xor	edi, edi
+.LBB3_613:
+	test	r8b, 1
+	je	.LBB3_615
+# %bb.614:
+	vpxor	xmm0, xmm0, xmm0
+	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm0
+.LBB3_615:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_616
+.LBB3_620:
+	xor	edi, edi
+.LBB3_621:
+	test	r8b, 1
+	je	.LBB3_623
+# %bb.622:
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB3_623:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_624
+.LBB3_628:
+	xor	edi, edi
+.LBB3_629:
+	test	r8b, 1
+	je	.LBB3_631
+# %bb.630:
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB3_631:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_632
+.LBB3_636:
+	xor	edi, edi
+.LBB3_637:
+	test	r8b, 1
+	je	.LBB3_639
+# %bb.638:
+	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vxorpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm0
+.LBB3_639:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_640
+.LBB3_646:
+	xor	edi, edi
+.LBB3_647:
+	test	r8b, 1
+	je	.LBB3_649
+# %bb.648:
+	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vxorpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm0
+.LBB3_649:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_650
+.LBB3_656:
+	xor	edi, edi
+.LBB3_657:
+	test	r8b, 1
+	je	.LBB3_659
+# %bb.658:
+	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_8] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
+	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vandpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm0
+.LBB3_659:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_660
+.LBB3_664:
+	xor	edi, edi
+.LBB3_665:
+	test	r8b, 1
+	je	.LBB3_667
+# %bb.666:
+	vbroadcastsd	ymm0, qword ptr [rip + .LCPI3_8] # ymm0 = [9223372036854775807,9223372036854775807,9223372036854775807,9223372036854775807]
+	vandpd	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vandpd	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vandpd	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vandpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm0
+.LBB3_667:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_668
+.LBB3_672:
+	xor	edi, edi
+.LBB3_673:
+	test	r8b, 1
+	je	.LBB3_675
+# %bb.674:
+	vpxor	xmm0, xmm0, xmm0
+	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm0
+.LBB3_675:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_676
+.LBB3_680:
+	xor	edi, edi
+.LBB3_681:
+	test	r8b, 1
+	je	.LBB3_683
+# %bb.682:
+	vpxor	xmm0, xmm0, xmm0
+	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm0
+.LBB3_683:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_684
+.LBB3_688:
+	xor	edi, edi
+.LBB3_689:
+	test	r8b, 1
+	je	.LBB3_691
+# %bb.690:
+	vpxor	xmm0, xmm0, xmm0
+	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm0
+.LBB3_691:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_692
+.LBB3_696:
+	xor	edi, edi
+.LBB3_697:
+	test	r8b, 1
+	je	.LBB3_699
+# %bb.698:
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB3_699:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_700
+.LBB3_704:
+	xor	edi, edi
+.LBB3_705:
+	test	r8b, 1
+	je	.LBB3_707
+# %bb.706:
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB3_707:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_708
+.LBB3_712:
+	xor	edi, edi
+.LBB3_713:
+	test	r8b, 1
+	je	.LBB3_715
+# %bb.714:
+	vpxor	xmm0, xmm0, xmm0
+	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpsubw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
+.LBB3_715:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_716
+.LBB3_720:
+	xor	edi, edi
+.LBB3_721:
+	test	r8b, 1
+	je	.LBB3_723
+# %bb.722:
+	vpxor	xmm0, xmm0, xmm0
+	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpsubw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
+.LBB3_723:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_724
+.LBB3_728:
+	xor	edi, edi
+.LBB3_729:
+	test	r8b, 1
+	je	.LBB3_731
+# %bb.730:
+	vpxor	xmm0, xmm0, xmm0
+	vpsubw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpsubw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
+.LBB3_731:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_732
+.LBB3_736:
+	xor	edi, edi
+.LBB3_737:
+	test	r8b, 1
+	je	.LBB3_739
+# %bb.738:
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_5] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpcmpeqw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vpandn	ymm1, ymm1, ymm2
+	vpandn	ymm0, ymm0, ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
+.LBB3_739:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_740
+.LBB3_744:
+	xor	edi, edi
+.LBB3_745:
+	test	r8b, 1
+	je	.LBB3_747
+# %bb.746:
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpxor	xmm2, xmm2, xmm2
+	vpcmpeqw	ymm3, ymm0, ymm2
+	vpcmpeqd	ymm4, ymm4, ymm4
+	vpxor	ymm3, ymm3, ymm4
+	vpcmpeqw	ymm2, ymm1, ymm2
+	vpxor	ymm2, ymm2, ymm4
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI3_5] # ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpcmpgtw	ymm0, ymm4, ymm0
+	vpcmpgtw	ymm1, ymm4, ymm1
+	vpblendvb	ymm0, ymm4, ymm3, ymm0
+	vpblendvb	ymm1, ymm4, ymm2, ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
+.LBB3_747:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_748
+.LBB3_753:
+	xor	edi, edi
+.LBB3_754:
+	test	r8b, 1
+	je	.LBB3_756
+# %bb.755:
+	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
+	vpsrad	ymm2, ymm1, 15
+	vpsrad	ymm3, ymm0, 15
+	vpaddd	ymm0, ymm3, ymm0
+	vpaddd	ymm1, ymm2, ymm1
+	vpxor	ymm1, ymm1, ymm2
+	vpxor	ymm0, ymm0, ymm3
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_10] # ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
+	vpshufb	ymm0, ymm0, ymm2
+	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
+	vpshufb	ymm1, ymm1, ymm2
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
+.LBB3_756:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_757
+.LBB3_761:
+	xor	edi, edi
+.LBB3_762:
+	test	r8b, 1
+	je	.LBB3_764
+# %bb.763:
+	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
+	vpsrad	ymm2, ymm1, 15
+	vpsrad	ymm3, ymm0, 15
+	vpaddd	ymm0, ymm3, ymm0
+	vpaddd	ymm1, ymm2, ymm1
+	vpxor	ymm1, ymm1, ymm2
+	vpxor	ymm0, ymm0, ymm3
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI3_10] # ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
+	vpshufb	ymm0, ymm0, ymm2
+	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
+	vpshufb	ymm1, ymm1, ymm2
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
+.LBB3_764:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_765
+.LBB3_769:
+	xor	edi, edi
+.LBB3_770:
+	test	r8b, 1
+	je	.LBB3_772
+# %bb.771:
+	vpxor	xmm0, xmm0, xmm0
+	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm0
+.LBB3_772:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_773
+.LBB3_777:
+	xor	edi, edi
+.LBB3_778:
+	test	r8b, 1
+	je	.LBB3_780
+# %bb.779:
+	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_7] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vxorpd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm0
+.LBB3_780:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_781
+.LBB3_787:
+	xor	edi, edi
+.LBB3_788:
+	test	r8b, 1
+	je	.LBB3_790
+# %bb.789:
+	vpxor	xmm0, xmm0, xmm0
+	vpsubq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm0
+.LBB3_790:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_791
+.LBB3_795:
+	xor	edi, edi
+.LBB3_796:
+	test	r8b, 1
+	je	.LBB3_798
+# %bb.797:
+	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_7] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vxorpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vxorpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vxorpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vxorpd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm0
+.LBB3_798:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_799
+.LBB3_805:
+	xor	edi, edi
+.LBB3_806:
+	test	r8b, 1
+	je	.LBB3_808
+# %bb.807:
+	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_9] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
+	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vandpd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm0
+.LBB3_808:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_809
+.LBB3_815:
+	xor	edi, edi
+.LBB3_816:
+	test	r8b, 1
+	je	.LBB3_818
+# %bb.817:
+	vbroadcastss	ymm0, dword ptr [rip + .LCPI3_9] # ymm0 = [2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647]
+	vandpd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vandpd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vandpd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vandpd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm0
+.LBB3_818:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_819
+.LBB3_825:
+	xor	edi, edi
+.LBB3_826:
+	test	r8b, 1
+	je	.LBB3_828
+# %bb.827:
+	vpxor	xmm0, xmm0, xmm0
+	vpsubb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + rdi + 96], ymm0
+.LBB3_828:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_829
+.LBB3_833:
+	xor	edi, edi
+.LBB3_834:
+	test	r8b, 1
+	je	.LBB3_836
+# %bb.835:
+	vmovupd	ymm0, ymmword ptr [rdx + rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovupd	ymmword ptr [rcx + rdi], ymm0
+	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
+.LBB3_836:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_837
+.LBB3_841:
+	xor	edi, edi
+.LBB3_842:
+	test	r8b, 1
+	je	.LBB3_844
+# %bb.843:
+	vmovupd	ymm0, ymmword ptr [rdx + rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovupd	ymmword ptr [rcx + rdi], ymm0
+	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
+.LBB3_844:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_845
+.LBB3_849:
+	xor	edi, edi
+.LBB3_850:
+	test	r8b, 1
+	je	.LBB3_852
+# %bb.851:
+	vpxor	xmm0, xmm0, xmm0
+	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm0
+.LBB3_852:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_853
+.LBB3_857:
+	xor	edi, edi
+.LBB3_858:
+	test	r8b, 1
+	je	.LBB3_860
+# %bb.859:
+	vpxor	xmm0, xmm0, xmm0
+	vpsubd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm0
+.LBB3_860:
+	cmp	rsi, r9
+	je	.LBB3_865
+	jmp	.LBB3_861
+.Lfunc_end3:
+	.size	arithmetic_unary_same_types_avx2, .Lfunc_end3-arithmetic_unary_same_types_avx2
+                                        # -- End function
+	.section	.rodata.cst8,"aM",@progbits,8
+	.p2align	3                               # -- Begin function arithmetic_unary_diff_type_avx2
+.LCPI4_0:
+	.quad	0x8000000000000000              # double -0
+.LCPI4_1:
+	.quad	0x3ff0000000000000              # double 1
+.LCPI4_6:
+	.quad	0x43e0000000000000              # double 9.2233720368547758E+18
+.LCPI4_7:
+	.quad	0x41e0000000000000              # double 2147483648
+.LCPI4_13:
+	.quad	0xbff0000000000000              # double -1
+.LCPI4_15:
+	.quad	1                               # 0x1
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4
+.LCPI4_2:
+	.quad	0x8000000000000000              # double -0
+	.quad	0x8000000000000000              # double -0
+.LCPI4_11:
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+.LCPI4_12:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_16:
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.zero	2
+	.zero	2
+	.zero	2
+	.zero	2
+.LCPI4_17:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_19:
+	.zero	16,1
+	.section	.rodata.cst4,"aM",@progbits,4
+	.p2align	2
+.LCPI4_3:
+	.long	0x7fffffff                      # float NaN
+.LCPI4_4:
+	.long	0x80000000                      # float -0
+.LCPI4_5:
+	.long	0x3f800000                      # float 1
+.LCPI4_8:
+	.long	1                               # 0x1
+.LCPI4_9:
+	.long	0x5f000000                      # float 9.22337203E+18
+.LCPI4_10:
+	.long	0x4f000000                      # float 2.14748365E+9
+.LCPI4_14:
+	.long	0xbf800000                      # float -1
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5
+.LCPI4_18:
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+.LCPI4_20:
+	.zero	32,1
+	.text
+	.globl	arithmetic_unary_diff_type_avx2
+	.p2align	4, 0x90
+	.type	arithmetic_unary_diff_type_avx2,@function
+arithmetic_unary_diff_type_avx2:        # @arithmetic_unary_diff_type_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r14
+	push	rbx
+	and	rsp, -8
+	cmp	dl, 20
+	jne	.LBB4_1351
+# %bb.1:
+	cmp	edi, 6
+	jg	.LBB4_14
+# %bb.2:
+	cmp	edi, 3
+	jle	.LBB4_26
+# %bb.3:
+	cmp	edi, 4
+	je	.LBB4_46
+# %bb.4:
+	cmp	edi, 5
+	je	.LBB4_54
+# %bb.5:
+	cmp	edi, 6
+	jne	.LBB4_1351
+# %bb.6:
+	cmp	esi, 6
+	jg	.LBB4_94
+# %bb.7:
+	cmp	esi, 3
+	jle	.LBB4_164
+# %bb.8:
+	cmp	esi, 4
+	je	.LBB4_267
+# %bb.9:
+	cmp	esi, 5
+	je	.LBB4_270
+# %bb.10:
+	cmp	esi, 6
+	jne	.LBB4_1351
+# %bb.11:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.12:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB4_13
+# %bb.447:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_870
+# %bb.448:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_870
+.LBB4_13:
+	xor	edx, edx
+.LBB4_873:
+	mov	r9, rdx
+	not	r9
+	add	r9, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_875
+.LBB4_874:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_874
+.LBB4_875:
+	cmp	r9, 3
+	jb	.LBB4_1351
+.LBB4_876:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx + 4], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx + 4], esi
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx + 8], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx + 8], esi
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx + 12], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx + 12], esi
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_876
+	jmp	.LBB4_1351
+.LBB4_14:
+	cmp	edi, 8
+	jle	.LBB4_36
+# %bb.15:
+	cmp	edi, 9
+	je	.LBB4_62
+# %bb.16:
+	cmp	edi, 11
+	je	.LBB4_70
+# %bb.17:
+	cmp	edi, 12
+	jne	.LBB4_1351
+# %bb.18:
+	cmp	esi, 6
+	jg	.LBB4_101
+# %bb.19:
+	cmp	esi, 3
+	jle	.LBB4_169
+# %bb.20:
+	cmp	esi, 4
+	je	.LBB4_273
+# %bb.21:
+	cmp	esi, 5
+	je	.LBB4_276
+# %bb.22:
+	cmp	esi, 6
+	jne	.LBB4_1351
+# %bb.23:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.24:
+	mov	eax, r9d
+	xor	r10d, r10d
+	cmp	r9d, 4
+	jae	.LBB4_450
+# %bb.25:
+	xor	esi, esi
+	jmp	.LBB4_1292
+.LBB4_26:
+	cmp	edi, 2
+	je	.LBB4_78
+# %bb.27:
+	cmp	edi, 3
+	jne	.LBB4_1351
+# %bb.28:
+	cmp	esi, 6
+	jg	.LBB4_108
+# %bb.29:
+	cmp	esi, 3
+	jle	.LBB4_174
+# %bb.30:
+	cmp	esi, 4
+	je	.LBB4_279
+# %bb.31:
+	cmp	esi, 5
+	je	.LBB4_282
+# %bb.32:
+	cmp	esi, 6
+	jne	.LBB4_1351
+# %bb.33:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.34:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jb	.LBB4_35
+# %bb.453:
+	lea	rdx, [rcx + r11]
+	cmp	rdx, r8
+	jbe	.LBB4_877
+# %bb.454:
+	lea	rdx, [r8 + 4*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_877
+.LBB4_35:
+	xor	edx, edx
+.LBB4_880:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_882
+# %bb.881:
+	mov	r9b, byte ptr [rcx + rdx]
+	xor	r10d, r10d
+	test	r9b, r9b
+	setne	r10b
+	neg	r10d
+	test	r9b, r9b
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	dword ptr [r8 + 4*rdx], edi
+	or	rdx, 1
+.LBB4_882:
+	add	rsi, r11
+	je	.LBB4_1351
+# %bb.883:
+	mov	esi, 1
+.LBB4_884:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	dword ptr [r8 + 4*rdx], edi
+	movzx	eax, byte ptr [rcx + rdx + 1]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	dword ptr [r8 + 4*rdx + 4], edi
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_884
+	jmp	.LBB4_1351
+.LBB4_36:
+	cmp	edi, 7
+	je	.LBB4_86
+# %bb.37:
+	cmp	edi, 8
+	jne	.LBB4_1351
+# %bb.38:
+	cmp	esi, 6
+	jg	.LBB4_115
+# %bb.39:
+	cmp	esi, 3
+	jle	.LBB4_179
+# %bb.40:
+	cmp	esi, 4
+	je	.LBB4_285
+# %bb.41:
+	cmp	esi, 5
+	je	.LBB4_288
+# %bb.42:
+	cmp	esi, 6
+	jne	.LBB4_1351
+# %bb.43:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.44:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_456
+# %bb.45:
+	xor	edx, edx
+	jmp	.LBB4_459
+.LBB4_46:
+	cmp	esi, 6
+	jg	.LBB4_122
+# %bb.47:
+	cmp	esi, 3
+	jle	.LBB4_184
+# %bb.48:
+	cmp	esi, 4
+	je	.LBB4_291
+# %bb.49:
+	cmp	esi, 5
+	je	.LBB4_294
+# %bb.50:
+	cmp	esi, 6
+	jne	.LBB4_1351
+# %bb.51:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.52:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jae	.LBB4_460
+# %bb.53:
+	xor	edx, edx
+	jmp	.LBB4_463
+.LBB4_54:
+	cmp	esi, 6
+	jg	.LBB4_129
+# %bb.55:
+	cmp	esi, 3
+	jle	.LBB4_189
+# %bb.56:
+	cmp	esi, 4
+	je	.LBB4_297
+# %bb.57:
+	cmp	esi, 5
+	je	.LBB4_300
+# %bb.58:
+	cmp	esi, 6
+	jne	.LBB4_1351
+# %bb.59:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.60:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB4_464
+# %bb.61:
+	xor	edx, edx
+	jmp	.LBB4_467
+.LBB4_62:
+	cmp	esi, 6
+	jg	.LBB4_136
+# %bb.63:
+	cmp	esi, 3
+	jle	.LBB4_194
+# %bb.64:
+	cmp	esi, 4
+	je	.LBB4_303
+# %bb.65:
+	cmp	esi, 5
+	je	.LBB4_306
+# %bb.66:
+	cmp	esi, 6
+	jne	.LBB4_1351
+# %bb.67:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.68:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB4_469
+# %bb.69:
+	xor	edx, edx
+	jmp	.LBB4_472
+.LBB4_70:
+	cmp	esi, 6
+	jg	.LBB4_143
+# %bb.71:
+	cmp	esi, 3
+	jle	.LBB4_199
+# %bb.72:
+	cmp	esi, 4
+	je	.LBB4_309
+# %bb.73:
+	cmp	esi, 5
+	je	.LBB4_312
+# %bb.74:
+	cmp	esi, 6
+	jne	.LBB4_1351
+# %bb.75:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.76:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jae	.LBB4_474
+# %bb.77:
+	xor	edx, edx
+	jmp	.LBB4_1298
+.LBB4_78:
+	cmp	esi, 6
+	jg	.LBB4_150
+# %bb.79:
+	cmp	esi, 3
+	jle	.LBB4_204
+# %bb.80:
+	cmp	esi, 4
+	je	.LBB4_315
+# %bb.81:
+	cmp	esi, 5
+	je	.LBB4_318
+# %bb.82:
+	cmp	esi, 6
+	jne	.LBB4_1351
+# %bb.83:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.84:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB4_85
+# %bb.477:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_885
+# %bb.478:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_885
+.LBB4_85:
+	xor	edx, edx
+.LBB4_888:
+	mov	r9, rdx
+	not	r9
+	add	r9, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_890
+.LBB4_889:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_889
+.LBB4_890:
+	cmp	r9, 3
+	jb	.LBB4_1351
+.LBB4_891:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx + 4], esi
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx + 8], esi
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx + 12], esi
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_891
+	jmp	.LBB4_1351
+.LBB4_86:
+	cmp	esi, 6
+	jg	.LBB4_157
+# %bb.87:
+	cmp	esi, 3
+	jle	.LBB4_209
+# %bb.88:
+	cmp	esi, 4
+	je	.LBB4_321
+# %bb.89:
+	cmp	esi, 5
+	je	.LBB4_324
+# %bb.90:
+	cmp	esi, 6
+	jne	.LBB4_1351
+# %bb.91:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.92:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jb	.LBB4_93
+# %bb.480:
+	lea	rdx, [rcx + 4*r11]
+	cmp	rdx, r8
+	jbe	.LBB4_892
+# %bb.481:
+	lea	rdx, [r8 + 4*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_892
+.LBB4_93:
+	xor	edx, edx
+.LBB4_895:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_897
+# %bb.896:
+	mov	r9d, dword ptr [rcx + 4*rdx]
+	xor	r10d, r10d
+	test	r9d, r9d
+	setne	r10b
+	neg	r10d
+	test	r9d, r9d
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	dword ptr [r8 + 4*rdx], edi
+	or	rdx, 1
+.LBB4_897:
+	add	rsi, r11
+	je	.LBB4_1351
+# %bb.898:
+	mov	esi, 1
+.LBB4_899:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rdx]
+	xor	eax, eax
+	test	edi, edi
+	setne	al
+	neg	eax
+	test	edi, edi
+	cmovg	eax, esi
+	mov	dword ptr [r8 + 4*rdx], eax
+	mov	eax, dword ptr [rcx + 4*rdx + 4]
+	xor	edi, edi
+	test	eax, eax
+	setne	dil
+	neg	edi
+	test	eax, eax
+	cmovg	edi, esi
+	mov	dword ptr [r8 + 4*rdx + 4], edi
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_899
+	jmp	.LBB4_1351
+.LBB4_94:
+	cmp	esi, 8
+	jle	.LBB4_214
+# %bb.95:
+	cmp	esi, 9
+	je	.LBB4_327
+# %bb.96:
+	cmp	esi, 11
+	je	.LBB4_330
+# %bb.97:
+	cmp	esi, 12
+	jne	.LBB4_1351
+# %bb.98:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.99:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_483
+# %bb.100:
+	xor	edx, edx
+	jmp	.LBB4_486
+.LBB4_101:
+	cmp	esi, 8
+	jle	.LBB4_219
+# %bb.102:
+	cmp	esi, 9
+	je	.LBB4_333
+# %bb.103:
+	cmp	esi, 11
+	je	.LBB4_336
+# %bb.104:
+	cmp	esi, 12
+	jne	.LBB4_1351
+# %bb.105:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.106:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB4_107
+# %bb.490:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_900
+# %bb.491:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_900
+.LBB4_107:
+	xor	edx, edx
+.LBB4_903:
+	mov	rsi, rdx
+	not	rsi
+	test	al, 1
+	je	.LBB4_905
+# %bb.904:
+	vmovsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
+	vandpd	xmm1, xmm0, xmmword ptr [rip + .LCPI4_2]
+	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
+                                        # xmm2 = mem[0,0]
+	vorpd	xmm1, xmm2, xmm1
+	vxorpd	xmm2, xmm2, xmm2
+	vcmpeqsd	xmm0, xmm0, xmm2
+	vandnpd	xmm0, xmm0, xmm1
+	vmovlpd	qword ptr [r8 + 8*rdx], xmm0
+	or	rdx, 1
+.LBB4_905:
+	add	rsi, rax
+	je	.LBB4_1351
+# %bb.906:
+	vmovapd	xmm0, xmmword ptr [rip + .LCPI4_2] # xmm0 = [-0.0E+0,-0.0E+0]
+	vmovddup	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = [1.0E+0,1.0E+0]
+                                        # xmm1 = mem[0,0]
+	vxorpd	xmm2, xmm2, xmm2
+.LBB4_907:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
+	vandpd	xmm4, xmm3, xmm0
+	vorpd	xmm4, xmm1, xmm4
+	vcmpeqsd	xmm3, xmm3, xmm2
+	vandnpd	xmm3, xmm3, xmm4
+	vmovlpd	qword ptr [r8 + 8*rdx], xmm3
+	vmovsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
+	vandpd	xmm4, xmm3, xmm0
+	vorpd	xmm4, xmm1, xmm4
+	vcmpeqsd	xmm3, xmm3, xmm2
+	vandnpd	xmm3, xmm3, xmm4
+	vmovlpd	qword ptr [r8 + 8*rdx + 8], xmm3
+	add	rdx, 2
+	cmp	rax, rdx
+	jne	.LBB4_907
+	jmp	.LBB4_1351
+.LBB4_108:
+	cmp	esi, 8
+	jle	.LBB4_224
+# %bb.109:
+	cmp	esi, 9
+	je	.LBB4_339
+# %bb.110:
+	cmp	esi, 11
+	je	.LBB4_342
+# %bb.111:
+	cmp	esi, 12
+	jne	.LBB4_1351
+# %bb.112:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.113:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB4_114
+# %bb.493:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_908
+# %bb.494:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_908
+.LBB4_114:
+	xor	edx, edx
+.LBB4_911:
+	mov	rsi, rdx
+	not	rsi
+	test	al, 1
+	je	.LBB4_1254
+# %bb.912:
+	cmp	byte ptr [rcx + rdx], 0
+	jne	.LBB4_1250
+# %bb.913:
+	vpxor	xmm0, xmm0, xmm0
+	jmp	.LBB4_1251
+.LBB4_115:
+	cmp	esi, 8
+	jle	.LBB4_229
+# %bb.116:
+	cmp	esi, 9
+	je	.LBB4_345
+# %bb.117:
+	cmp	esi, 11
+	je	.LBB4_348
+# %bb.118:
+	cmp	esi, 12
+	jne	.LBB4_1351
+# %bb.119:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.120:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_496
+# %bb.121:
+	xor	edx, edx
+	jmp	.LBB4_499
+.LBB4_122:
+	cmp	esi, 8
+	jle	.LBB4_234
+# %bb.123:
+	cmp	esi, 9
+	je	.LBB4_351
+# %bb.124:
+	cmp	esi, 11
+	je	.LBB4_354
+# %bb.125:
+	cmp	esi, 12
+	jne	.LBB4_1351
+# %bb.126:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.127:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_503
+# %bb.128:
+	xor	edx, edx
+	jmp	.LBB4_506
+.LBB4_129:
+	cmp	esi, 8
+	jle	.LBB4_239
+# %bb.130:
+	cmp	esi, 9
+	je	.LBB4_357
+# %bb.131:
+	cmp	esi, 11
+	je	.LBB4_360
+# %bb.132:
+	cmp	esi, 12
+	jne	.LBB4_1351
+# %bb.133:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.134:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_510
+# %bb.135:
+	xor	edx, edx
+	jmp	.LBB4_513
+.LBB4_136:
+	cmp	esi, 8
+	jle	.LBB4_244
+# %bb.137:
+	cmp	esi, 9
+	je	.LBB4_363
+# %bb.138:
+	cmp	esi, 11
+	je	.LBB4_366
+# %bb.139:
+	cmp	esi, 12
+	jne	.LBB4_1351
+# %bb.140:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.141:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_519
+# %bb.142:
+	xor	edx, edx
+	jmp	.LBB4_522
+.LBB4_143:
+	cmp	esi, 8
+	jle	.LBB4_249
+# %bb.144:
+	cmp	esi, 9
+	je	.LBB4_369
+# %bb.145:
+	cmp	esi, 11
+	je	.LBB4_372
+# %bb.146:
+	cmp	esi, 12
+	jne	.LBB4_1351
+# %bb.147:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.148:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_528
+# %bb.149:
+	xor	edx, edx
+	jmp	.LBB4_531
+.LBB4_150:
+	cmp	esi, 8
+	jle	.LBB4_257
+# %bb.151:
+	cmp	esi, 9
+	je	.LBB4_375
+# %bb.152:
+	cmp	esi, 11
+	je	.LBB4_378
+# %bb.153:
+	cmp	esi, 12
+	jne	.LBB4_1351
+# %bb.154:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.155:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB4_156
+# %bb.535:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_914
+# %bb.536:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_914
+.LBB4_156:
+	xor	edx, edx
+.LBB4_917:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_922
+# %bb.918:
+	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
+	jmp	.LBB4_920
+.LBB4_919:                              #   in Loop: Header=BB4_920 Depth=1
+	vmovq	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	je	.LBB4_922
+.LBB4_920:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_919
+# %bb.921:                              #   in Loop: Header=BB4_920 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	jmp	.LBB4_919
+.LBB4_157:
+	cmp	esi, 8
+	jle	.LBB4_262
+# %bb.158:
+	cmp	esi, 9
+	je	.LBB4_381
+# %bb.159:
+	cmp	esi, 11
+	je	.LBB4_384
+# %bb.160:
+	cmp	esi, 12
+	jne	.LBB4_1351
+# %bb.161:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.162:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_538
+# %bb.163:
+	xor	edx, edx
+	jmp	.LBB4_541
+.LBB4_164:
+	cmp	esi, 2
+	je	.LBB4_387
+# %bb.165:
+	cmp	esi, 3
+	jne	.LBB4_1351
+# %bb.166:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.167:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB4_168
+# %bb.547:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_933
+# %bb.548:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_933
+.LBB4_168:
+	xor	edx, edx
+.LBB4_936:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_938
+.LBB4_937:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_937
+.LBB4_938:
+	cmp	rsi, 3
+	jb	.LBB4_1351
+.LBB4_939:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	dword ptr [rcx + 4*rdx + 4], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	dword ptr [rcx + 4*rdx + 8], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	dword ptr [rcx + 4*rdx + 12], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_939
+	jmp	.LBB4_1351
+.LBB4_169:
+	cmp	esi, 2
+	je	.LBB4_390
+# %bb.170:
+	cmp	esi, 3
+	jne	.LBB4_1351
+# %bb.171:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.172:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB4_173
+# %bb.550:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_940
+# %bb.551:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_940
+.LBB4_173:
+	xor	edx, edx
+.LBB4_943:
+	mov	rsi, rdx
+	not	rsi
+	test	al, 1
+	je	.LBB4_945
+# %bb.944:
+	vmovsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
+	xor	edi, edi
+	vpxor	xmm1, xmm1, xmm1
+	vucomisd	xmm1, xmm0
+	vandpd	xmm0, xmm0, xmmword ptr [rip + .LCPI4_2]
+	vmovddup	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = [1.0E+0,1.0E+0]
+                                        # xmm1 = mem[0,0]
+	vorpd	xmm0, xmm1, xmm0
+	vcvttsd2si	ebx, xmm0
+	cmove	ebx, edi
+	mov	byte ptr [r8 + rdx], bl
+	or	rdx, 1
+.LBB4_945:
+	add	rsi, rax
+	je	.LBB4_1351
+# %bb.946:
+	xor	esi, esi
+	vxorpd	xmm0, xmm0, xmm0
+	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
+	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
+                                        # xmm2 = mem[0,0]
+.LBB4_947:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
+	vucomisd	xmm0, xmm3
+	vandpd	xmm3, xmm3, xmm1
+	vorpd	xmm3, xmm2, xmm3
+	vcvttsd2si	edi, xmm3
+	cmove	edi, esi
+	mov	byte ptr [r8 + rdx], dil
+	vmovsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
+	vucomisd	xmm0, xmm3
+	vandpd	xmm3, xmm3, xmm1
+	vorpd	xmm3, xmm2, xmm3
+	vcvttsd2si	edi, xmm3
+	cmove	edi, esi
+	mov	byte ptr [r8 + rdx + 1], dil
+	add	rdx, 2
+	cmp	rax, rdx
+	jne	.LBB4_947
+	jmp	.LBB4_1351
+.LBB4_174:
+	cmp	esi, 2
+	je	.LBB4_393
+# %bb.175:
+	cmp	esi, 3
+	jne	.LBB4_1351
+# %bb.176:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.177:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB4_178
+# %bb.553:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_948
+# %bb.554:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_948
+.LBB4_178:
+	xor	r11d, r11d
+.LBB4_951:
+	mov	rsi, r11
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_953
+# %bb.952:
+	mov	dil, byte ptr [rcx + r11]
+	test	dil, dil
+	setne	r9b
+	neg	r9b
+	test	dil, dil
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + r11], dil
+	or	r11, 1
+.LBB4_953:
+	add	rsi, r10
+	je	.LBB4_1351
+# %bb.954:
+	mov	esi, 1
+.LBB4_955:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + r11]
+	test	al, al
+	setne	dl
+	neg	dl
+	test	al, al
+	movzx	eax, dl
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11], al
+	movzx	eax, byte ptr [rcx + r11 + 1]
+	test	al, al
+	setne	dl
+	neg	dl
+	test	al, al
+	movzx	eax, dl
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11 + 1], al
+	add	r11, 2
+	cmp	r10, r11
+	jne	.LBB4_955
+	jmp	.LBB4_1351
+.LBB4_179:
+	cmp	esi, 2
+	je	.LBB4_396
+# %bb.180:
+	cmp	esi, 3
+	jne	.LBB4_1351
+# %bb.181:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.182:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB4_183
+# %bb.556:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_956
+# %bb.557:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_956
+.LBB4_183:
+	xor	edx, edx
+.LBB4_959:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_961
+.LBB4_960:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_960
+.LBB4_961:
+	cmp	rsi, 3
+	jb	.LBB4_1351
+.LBB4_962:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	qword ptr [rcx + 8*rdx + 8], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	qword ptr [rcx + 8*rdx + 16], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	qword ptr [rcx + 8*rdx + 24], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_962
+	jmp	.LBB4_1351
+.LBB4_184:
+	cmp	esi, 2
+	je	.LBB4_399
+# %bb.185:
+	cmp	esi, 3
+	jne	.LBB4_1351
+# %bb.186:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.187:
+	mov	eax, r9d
+	cmp	r9d, 64
+	jb	.LBB4_188
+# %bb.559:
+	lea	rdx, [rcx + 2*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_963
+# %bb.560:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_963
+.LBB4_188:
+	xor	edx, edx
+.LBB4_966:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_968
+.LBB4_967:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_967
+.LBB4_968:
+	cmp	rsi, 3
+	jb	.LBB4_1351
+.LBB4_969:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	word ptr [rcx + 2*rdx + 2], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	word ptr [rcx + 2*rdx + 4], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	word ptr [rcx + 2*rdx + 6], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_969
+	jmp	.LBB4_1351
+.LBB4_189:
+	cmp	esi, 2
+	je	.LBB4_402
+# %bb.190:
+	cmp	esi, 3
+	jne	.LBB4_1351
+# %bb.191:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.192:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jb	.LBB4_193
+# %bb.562:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_970
+# %bb.563:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_970
+.LBB4_193:
+	xor	r11d, r11d
+.LBB4_973:
+	mov	rsi, r11
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_975
+# %bb.974:
+	movzx	edi, word ptr [rcx + 2*r11]
+	test	di, di
+	setne	r9b
+	neg	r9b
+	test	di, di
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + r11], dil
+	or	r11, 1
+.LBB4_975:
+	add	rsi, r10
+	je	.LBB4_1351
+# %bb.976:
+	mov	esi, 1
+.LBB4_977:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*r11]
+	test	di, di
+	setne	al
+	neg	al
+	test	di, di
+	movzx	eax, al
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11], al
+	movzx	eax, word ptr [rcx + 2*r11 + 2]
+	test	ax, ax
+	setne	dl
+	neg	dl
+	test	ax, ax
+	movzx	eax, dl
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11 + 1], al
+	add	r11, 2
+	cmp	r10, r11
+	jne	.LBB4_977
+	jmp	.LBB4_1351
+.LBB4_194:
+	cmp	esi, 2
+	je	.LBB4_405
+# %bb.195:
+	cmp	esi, 3
+	jne	.LBB4_1351
+# %bb.196:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.197:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_198
+# %bb.565:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_978
+# %bb.566:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_978
+.LBB4_198:
+	xor	r11d, r11d
+.LBB4_981:
+	mov	rsi, r11
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_983
+# %bb.982:
+	mov	rdi, qword ptr [rcx + 8*r11]
+	test	rdi, rdi
+	setne	r9b
+	neg	r9b
+	test	rdi, rdi
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + r11], dil
+	or	r11, 1
+.LBB4_983:
+	add	rsi, r10
+	je	.LBB4_1351
+# %bb.984:
+	mov	esi, 1
+.LBB4_985:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*r11]
+	test	rdi, rdi
+	setne	al
+	neg	al
+	test	rdi, rdi
+	movzx	eax, al
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11], al
+	mov	rax, qword ptr [rcx + 8*r11 + 8]
+	test	rax, rax
+	setne	dl
+	neg	dl
+	test	rax, rax
+	movzx	eax, dl
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11 + 1], al
+	add	r11, 2
+	cmp	r10, r11
+	jne	.LBB4_985
+	jmp	.LBB4_1351
+.LBB4_199:
+	cmp	esi, 2
+	je	.LBB4_408
+# %bb.200:
+	cmp	esi, 3
+	jne	.LBB4_1351
+# %bb.201:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.202:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB4_203
+# %bb.568:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_986
+# %bb.569:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_986
+.LBB4_203:
+	xor	edx, edx
+.LBB4_989:
+	mov	rsi, rdx
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_991
+# %bb.990:
+	vmovd	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
+	vmovd	edi, xmm0
+	test	edi, edi
+	setns	dil
+	add	dil, dil
+	add	dil, -1
+	xor	r9d, r9d
+	vpxor	xmm1, xmm1, xmm1
+	vucomiss	xmm1, xmm0
+	movzx	edi, dil
+	cmove	edi, r9d
+	mov	byte ptr [r8 + rdx], dil
+	or	rdx, 1
+.LBB4_991:
+	add	rsi, r10
+	je	.LBB4_1351
+# %bb.992:
+	xor	esi, esi
+	vxorps	xmm0, xmm0, xmm0
+.LBB4_993:                              # =>This Inner Loop Header: Depth=1
+	vmovd	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	vmovd	edi, xmm1
+	test	edi, edi
+	setns	al
+	add	al, al
+	add	al, -1
+	vucomiss	xmm0, xmm1
+	movzx	eax, al
+	cmove	eax, esi
+	mov	byte ptr [r8 + rdx], al
+	vmovd	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
+	vmovd	eax, xmm1
+	test	eax, eax
+	setns	al
+	add	al, al
+	add	al, -1
+	vucomiss	xmm0, xmm1
+	movzx	eax, al
+	cmove	eax, esi
+	mov	byte ptr [r8 + rdx + 1], al
+	add	rdx, 2
+	cmp	r10, rdx
+	jne	.LBB4_993
+	jmp	.LBB4_1351
+.LBB4_204:
+	cmp	esi, 2
+	je	.LBB4_411
+# %bb.205:
+	cmp	esi, 3
+	jne	.LBB4_1351
+# %bb.206:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.207:
+	mov	eax, r9d
+	cmp	r9d, 128
+	jb	.LBB4_208
+# %bb.571:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_994
+# %bb.572:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_994
+.LBB4_208:
+	xor	edx, edx
+.LBB4_997:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_999
+.LBB4_998:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_998
+.LBB4_999:
+	cmp	rsi, 3
+	jb	.LBB4_1351
+.LBB4_1000:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1000
+	jmp	.LBB4_1351
+.LBB4_209:
+	cmp	esi, 2
+	je	.LBB4_414
+# %bb.210:
+	cmp	esi, 3
+	jne	.LBB4_1351
+# %bb.211:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.212:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB4_213
+# %bb.574:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_1001
+# %bb.575:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_1001
+.LBB4_213:
+	xor	r11d, r11d
+.LBB4_1004:
+	mov	rsi, r11
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1006
+# %bb.1005:
+	mov	edi, dword ptr [rcx + 4*r11]
+	test	edi, edi
+	setne	r9b
+	neg	r9b
+	test	edi, edi
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + r11], dil
+	or	r11, 1
+.LBB4_1006:
+	add	rsi, r10
+	je	.LBB4_1351
+# %bb.1007:
+	mov	esi, 1
+.LBB4_1008:                             # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*r11]
+	test	edi, edi
+	setne	al
+	neg	al
+	test	edi, edi
+	movzx	eax, al
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11], al
+	mov	eax, dword ptr [rcx + 4*r11 + 4]
+	test	eax, eax
+	setne	dl
+	neg	dl
+	test	eax, eax
+	movzx	eax, dl
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11 + 1], al
+	add	r11, 2
+	cmp	r10, r11
+	jne	.LBB4_1008
+	jmp	.LBB4_1351
+.LBB4_214:
+	cmp	esi, 7
+	je	.LBB4_417
+# %bb.215:
+	cmp	esi, 8
+	jne	.LBB4_1351
+# %bb.216:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.217:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_577
+# %bb.218:
+	xor	edx, edx
+	jmp	.LBB4_580
+.LBB4_219:
+	cmp	esi, 7
+	je	.LBB4_420
+# %bb.220:
+	cmp	esi, 8
+	jne	.LBB4_1351
+# %bb.221:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.222:
+	mov	r10d, r9d
+	movabs	r11, -9223372036854775808
+	cmp	r9d, 4
+	jae	.LBB4_581
+# %bb.223:
+	xor	esi, esi
+	jmp	.LBB4_1286
+.LBB4_224:
+	cmp	esi, 7
+	je	.LBB4_423
+# %bb.225:
+	cmp	esi, 8
+	jne	.LBB4_1351
+# %bb.226:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.227:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_228
+# %bb.584:
+	lea	rdx, [rcx + r11]
+	cmp	rdx, r8
+	jbe	.LBB4_1009
+# %bb.585:
+	lea	rdx, [r8 + 8*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_1009
+.LBB4_228:
+	xor	edx, edx
+.LBB4_1012:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1014
+# %bb.1013:
+	mov	r9b, byte ptr [rcx + rdx]
+	xor	r10d, r10d
+	test	r9b, r9b
+	setne	r10b
+	neg	r10
+	test	r9b, r9b
+	mov	edi, 1
+	cmovle	rdi, r10
+	mov	qword ptr [r8 + 8*rdx], rdi
+	or	rdx, 1
+.LBB4_1014:
+	add	rsi, r11
+	je	.LBB4_1351
+# %bb.1015:
+	mov	esi, 1
+.LBB4_1016:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	rdi
+	test	al, al
+	cmovg	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx], rdi
+	movzx	eax, byte ptr [rcx + rdx + 1]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	rdi
+	test	al, al
+	cmovg	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx + 8], rdi
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1016
+	jmp	.LBB4_1351
+.LBB4_229:
+	cmp	esi, 7
+	je	.LBB4_426
+# %bb.230:
+	cmp	esi, 8
+	jne	.LBB4_1351
+# %bb.231:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.232:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB4_233
+# %bb.587:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1017
+# %bb.588:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1017
+.LBB4_233:
+	xor	edx, edx
+.LBB4_1020:
+	mov	r9, rdx
+	not	r9
+	add	r9, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1022
+.LBB4_1021:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1021
+.LBB4_1022:
+	cmp	r9, 3
+	jb	.LBB4_1351
+.LBB4_1023:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx + 8], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx + 8], rsi
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx + 16], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx + 16], rsi
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx + 24], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx + 24], rsi
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1023
+	jmp	.LBB4_1351
+.LBB4_234:
+	cmp	esi, 7
+	je	.LBB4_429
+# %bb.235:
+	cmp	esi, 8
+	jne	.LBB4_1351
+# %bb.236:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.237:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_590
+# %bb.238:
+	xor	edx, edx
+	jmp	.LBB4_593
+.LBB4_239:
+	cmp	esi, 7
+	je	.LBB4_432
+# %bb.240:
+	cmp	esi, 8
+	jne	.LBB4_1351
+# %bb.241:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.242:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB4_594
+# %bb.243:
+	xor	edx, edx
+	jmp	.LBB4_597
+.LBB4_244:
+	cmp	esi, 7
+	je	.LBB4_435
+# %bb.245:
+	cmp	esi, 8
+	jne	.LBB4_1351
+# %bb.246:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.247:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_248
+# %bb.599:
+	lea	rdx, [rcx + 8*r11]
+	cmp	rdx, r8
+	jbe	.LBB4_1024
+# %bb.600:
+	lea	rdx, [r8 + 8*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_1024
+.LBB4_248:
+	xor	edx, edx
+.LBB4_1027:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1029
+# %bb.1028:
+	mov	r9, qword ptr [rcx + 8*rdx]
+	xor	r10d, r10d
+	test	r9, r9
+	setne	r10b
+	neg	r10
+	test	r9, r9
+	mov	edi, 1
+	cmovle	rdi, r10
+	mov	qword ptr [r8 + 8*rdx], rdi
+	or	rdx, 1
+.LBB4_1029:
+	add	rsi, r11
+	je	.LBB4_1351
+# %bb.1030:
+	mov	esi, 1
+.LBB4_1031:                             # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rdx]
+	xor	eax, eax
+	test	rdi, rdi
+	setne	al
+	neg	rax
+	test	rdi, rdi
+	cmovg	rax, rsi
+	mov	qword ptr [r8 + 8*rdx], rax
+	mov	rax, qword ptr [rcx + 8*rdx + 8]
+	xor	edi, edi
+	test	rax, rax
+	setne	dil
+	neg	rdi
+	test	rax, rax
+	cmovg	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx + 8], rdi
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1031
+	jmp	.LBB4_1351
+.LBB4_249:
+	cmp	esi, 7
+	je	.LBB4_438
+# %bb.250:
+	cmp	esi, 8
+	jne	.LBB4_1351
+# %bb.251:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.252:
+	mov	r10d, r9d
+	cmp	r9d, 1
+	jne	.LBB4_602
+# %bb.253:
+	xor	eax, eax
+	jmp	.LBB4_254
+.LBB4_257:
+	cmp	esi, 7
+	je	.LBB4_441
+# %bb.258:
+	cmp	esi, 8
+	jne	.LBB4_1351
+# %bb.259:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.260:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB4_261
+# %bb.610:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1032
+# %bb.611:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1032
+.LBB4_261:
+	xor	edx, edx
+.LBB4_1035:
+	mov	r9, rdx
+	not	r9
+	add	r9, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1037
+.LBB4_1036:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1036
+.LBB4_1037:
+	cmp	r9, 3
+	jb	.LBB4_1351
+.LBB4_1038:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx + 8], rsi
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx + 16], rsi
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx + 24], rsi
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1038
+	jmp	.LBB4_1351
+.LBB4_262:
+	cmp	esi, 7
+	je	.LBB4_444
+# %bb.263:
+	cmp	esi, 8
+	jne	.LBB4_1351
+# %bb.264:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.265:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB4_613
+# %bb.266:
+	xor	edx, edx
+	jmp	.LBB4_616
+.LBB4_267:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.268:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jae	.LBB4_618
+# %bb.269:
+	xor	edx, edx
+	jmp	.LBB4_621
+.LBB4_270:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.271:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jae	.LBB4_622
+# %bb.272:
+	xor	edx, edx
+	jmp	.LBB4_625
+.LBB4_273:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.274:
+	mov	eax, r9d
+	xor	edx, edx
+	cmp	r9d, 16
+	jae	.LBB4_626
+# %bb.275:
+	xor	esi, esi
+	jmp	.LBB4_629
+.LBB4_276:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.277:
+	mov	eax, r9d
+	xor	edx, edx
+	cmp	r9d, 16
+	jae	.LBB4_631
+# %bb.278:
+	xor	esi, esi
+	jmp	.LBB4_634
+.LBB4_279:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.280:
+	mov	r11d, r9d
+	cmp	r9d, 64
+	jb	.LBB4_281
+# %bb.636:
+	lea	rdx, [rcx + r11]
+	cmp	rdx, r8
+	jbe	.LBB4_1039
+# %bb.637:
+	lea	rdx, [r8 + 2*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_1039
+.LBB4_281:
+	xor	edx, edx
+.LBB4_1042:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1044
+# %bb.1043:
+	mov	r9b, byte ptr [rcx + rdx]
+	xor	r10d, r10d
+	test	r9b, r9b
+	setne	r10b
+	neg	r10d
+	test	r9b, r9b
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	word ptr [r8 + 2*rdx], di
+	or	rdx, 1
+.LBB4_1044:
+	add	rsi, r11
+	je	.LBB4_1351
+# %bb.1045:
+	mov	esi, 1
+.LBB4_1046:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	word ptr [r8 + 2*rdx], di
+	movzx	eax, byte ptr [rcx + rdx + 1]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	word ptr [r8 + 2*rdx + 2], di
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1046
+	jmp	.LBB4_1351
+.LBB4_282:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.283:
+	mov	r11d, r9d
+	cmp	r9d, 64
+	jb	.LBB4_284
+# %bb.639:
+	lea	rdx, [rcx + r11]
+	cmp	rdx, r8
+	jbe	.LBB4_1047
+# %bb.640:
+	lea	rdx, [r8 + 2*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_1047
+.LBB4_284:
+	xor	edx, edx
+.LBB4_1050:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1052
+# %bb.1051:
+	mov	r9b, byte ptr [rcx + rdx]
+	xor	r10d, r10d
+	test	r9b, r9b
+	setne	r10b
+	neg	r10d
+	test	r9b, r9b
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	word ptr [r8 + 2*rdx], di
+	or	rdx, 1
+.LBB4_1052:
+	add	rsi, r11
+	je	.LBB4_1351
+# %bb.1053:
+	mov	esi, 1
+.LBB4_1054:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	word ptr [r8 + 2*rdx], di
+	movzx	eax, byte ptr [rcx + rdx + 1]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	word ptr [r8 + 2*rdx + 2], di
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1054
+	jmp	.LBB4_1351
+.LBB4_285:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.286:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_642
+# %bb.287:
+	xor	edx, edx
+	jmp	.LBB4_645
+.LBB4_288:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.289:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_646
+# %bb.290:
+	xor	edx, edx
+	jmp	.LBB4_649
+.LBB4_291:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.292:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB4_293
+# %bb.650:
+	lea	rdx, [rcx + 2*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1055
+# %bb.651:
+	lea	rdx, [r8 + 2*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1055
+.LBB4_293:
+	xor	edx, edx
+.LBB4_1321:
+	mov	r9, rdx
+	not	r9
+	add	r9, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1323
+.LBB4_1322:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1322
+.LBB4_1323:
+	cmp	r9, 3
+	jb	.LBB4_1351
+.LBB4_1324:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx + 2], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx + 2], si
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx + 4], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx + 4], si
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx + 6], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx + 6], si
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1324
+	jmp	.LBB4_1351
+.LBB4_294:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.295:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB4_296
+# %bb.653:
+	lea	rdx, [rcx + 2*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1058
+# %bb.654:
+	lea	rdx, [r8 + 2*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1058
+.LBB4_296:
+	xor	edx, edx
+.LBB4_1329:
+	mov	r9, rdx
+	not	r9
+	add	r9, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1331
+.LBB4_1330:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1330
+.LBB4_1331:
+	cmp	r9, 3
+	jb	.LBB4_1351
+.LBB4_1332:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx + 2], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx + 2], si
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx + 4], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx + 4], si
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx + 6], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx + 6], si
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1332
+	jmp	.LBB4_1351
+.LBB4_297:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.298:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jb	.LBB4_299
+# %bb.656:
+	lea	rdx, [rcx + 2*r11]
+	cmp	rdx, r8
+	jbe	.LBB4_1061
+# %bb.657:
+	lea	rdx, [r8 + 2*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_1061
+.LBB4_299:
+	xor	edx, edx
+.LBB4_1337:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1339
+# %bb.1338:
+	movzx	r9d, word ptr [rcx + 2*rdx]
+	xor	r10d, r10d
+	test	r9w, r9w
+	setne	r10b
+	neg	r10d
+	test	r9w, r9w
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	word ptr [r8 + 2*rdx], di
+	or	rdx, 1
+.LBB4_1339:
+	add	rsi, r11
+	je	.LBB4_1351
+# %bb.1340:
+	mov	esi, 1
+.LBB4_1341:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rdx]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	eax
+	test	di, di
+	cmovg	eax, esi
+	mov	word ptr [r8 + 2*rdx], ax
+	movzx	eax, word ptr [rcx + 2*rdx + 2]
+	xor	edi, edi
+	test	ax, ax
+	setne	dil
+	neg	edi
+	test	ax, ax
+	cmovg	edi, esi
+	mov	word ptr [r8 + 2*rdx + 2], di
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1341
+	jmp	.LBB4_1351
+.LBB4_300:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.301:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jb	.LBB4_302
+# %bb.659:
+	lea	rdx, [rcx + 2*r11]
+	cmp	rdx, r8
+	jbe	.LBB4_1064
+# %bb.660:
+	lea	rdx, [r8 + 2*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_1064
+.LBB4_302:
+	xor	edx, edx
+.LBB4_1346:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1348
+# %bb.1347:
+	movzx	r9d, word ptr [rcx + 2*rdx]
+	xor	r10d, r10d
+	test	r9w, r9w
+	setne	r10b
+	neg	r10d
+	test	r9w, r9w
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	word ptr [r8 + 2*rdx], di
+	or	rdx, 1
+.LBB4_1348:
+	add	rsi, r11
+	je	.LBB4_1351
+# %bb.1349:
+	mov	esi, 1
+.LBB4_1350:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rdx]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	eax
+	test	di, di
+	cmovg	eax, esi
+	mov	word ptr [r8 + 2*rdx], ax
+	movzx	eax, word ptr [rcx + 2*rdx + 2]
+	xor	edi, edi
+	test	ax, ax
+	setne	dil
+	neg	edi
+	test	ax, ax
+	cmovg	edi, esi
+	mov	word ptr [r8 + 2*rdx + 2], di
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1350
+	jmp	.LBB4_1351
+.LBB4_303:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.304:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB4_662
+# %bb.305:
+	xor	edx, edx
+	jmp	.LBB4_665
+.LBB4_306:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.307:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB4_667
+# %bb.308:
+	xor	edx, edx
+	jmp	.LBB4_670
+.LBB4_309:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.310:
+	mov	eax, r9d
+	xor	r10d, r10d
+	cmp	r9d, 32
+	jae	.LBB4_672
+# %bb.311:
+	xor	esi, esi
+	jmp	.LBB4_675
+.LBB4_312:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.313:
+	mov	eax, r9d
+	xor	r10d, r10d
+	cmp	r9d, 32
+	jae	.LBB4_677
+# %bb.314:
+	xor	esi, esi
+	jmp	.LBB4_680
+.LBB4_315:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.316:
+	mov	eax, r9d
+	cmp	r9d, 64
+	jb	.LBB4_317
+# %bb.682:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1067
+# %bb.683:
+	lea	rdx, [r8 + 2*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1067
+.LBB4_317:
+	xor	edx, edx
+.LBB4_1070:
+	mov	r9, rdx
+	not	r9
+	add	r9, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1072
+.LBB4_1071:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1071
+.LBB4_1072:
+	cmp	r9, 3
+	jb	.LBB4_1351
+.LBB4_1073:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx + 2], si
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx + 4], si
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx + 6], si
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1073
+	jmp	.LBB4_1351
+.LBB4_318:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.319:
+	mov	eax, r9d
+	cmp	r9d, 64
+	jb	.LBB4_320
+# %bb.685:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1074
+# %bb.686:
+	lea	rdx, [r8 + 2*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1074
+.LBB4_320:
+	xor	edx, edx
+.LBB4_1077:
+	mov	r9, rdx
+	not	r9
+	add	r9, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1079
+.LBB4_1078:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1078
+.LBB4_1079:
+	cmp	r9, 3
+	jb	.LBB4_1351
+.LBB4_1080:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx + 2], si
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx + 4], si
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx + 6], si
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1080
+	jmp	.LBB4_1351
+.LBB4_321:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.322:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB4_688
+# %bb.323:
+	xor	edx, edx
+	jmp	.LBB4_691
+.LBB4_324:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.325:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB4_693
+# %bb.326:
+	xor	edx, edx
+	jmp	.LBB4_696
+.LBB4_327:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.328:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_698
+# %bb.329:
+	xor	edx, edx
+	jmp	.LBB4_701
+.LBB4_330:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.331:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jae	.LBB4_702
+# %bb.332:
+	xor	edx, edx
+	jmp	.LBB4_705
+.LBB4_333:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.334:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jae	.LBB4_709
+# %bb.335:
+	xor	edx, edx
+	jmp	.LBB4_1306
+.LBB4_336:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.337:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_712
+# %bb.338:
+	xor	edx, edx
+	jmp	.LBB4_715
+.LBB4_339:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.340:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_341
+# %bb.719:
+	lea	rdx, [rcx + r11]
+	cmp	rdx, r8
+	jbe	.LBB4_1081
+# %bb.720:
+	lea	rdx, [r8 + 8*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_1081
+.LBB4_341:
+	xor	edx, edx
+.LBB4_1084:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1086
+# %bb.1085:
+	mov	r9b, byte ptr [rcx + rdx]
+	xor	r10d, r10d
+	test	r9b, r9b
+	setne	r10b
+	neg	r10
+	test	r9b, r9b
+	mov	edi, 1
+	cmovle	rdi, r10
+	mov	qword ptr [r8 + 8*rdx], rdi
+	or	rdx, 1
+.LBB4_1086:
+	add	rsi, r11
+	je	.LBB4_1351
+# %bb.1087:
+	mov	esi, 1
+.LBB4_1088:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	rdi
+	test	al, al
+	cmovg	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx], rdi
+	movzx	eax, byte ptr [rcx + rdx + 1]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	rdi
+	test	al, al
+	cmovg	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx + 8], rdi
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1088
+	jmp	.LBB4_1351
+.LBB4_342:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.343:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB4_344
+# %bb.722:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1089
+# %bb.723:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1089
+.LBB4_344:
+	xor	edx, edx
+.LBB4_1092:
+	mov	rsi, rdx
+	not	rsi
+	test	al, 1
+	je	.LBB4_1269
+# %bb.1093:
+	cmp	byte ptr [rcx + rdx], 0
+	jne	.LBB4_1265
+# %bb.1094:
+	vpxor	xmm0, xmm0, xmm0
+	jmp	.LBB4_1266
+.LBB4_345:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.346:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB4_347
+# %bb.725:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1095
+# %bb.726:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1095
+.LBB4_347:
+	xor	edx, edx
+.LBB4_1098:
+	mov	r9, rdx
+	not	r9
+	add	r9, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1100
+.LBB4_1099:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1099
+.LBB4_1100:
+	cmp	r9, 3
+	jb	.LBB4_1351
+.LBB4_1101:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx + 8], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx + 8], rsi
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx + 16], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx + 16], rsi
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx + 24], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx + 24], rsi
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1101
+	jmp	.LBB4_1351
+.LBB4_348:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.349:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_728
+# %bb.350:
+	xor	edx, edx
+	jmp	.LBB4_731
+.LBB4_351:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.352:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_735
+# %bb.353:
+	xor	edx, edx
+	jmp	.LBB4_738
+.LBB4_354:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.355:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jae	.LBB4_739
+# %bb.356:
+	xor	edx, edx
+	jmp	.LBB4_742
+.LBB4_357:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.358:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB4_746
+# %bb.359:
+	xor	edx, edx
+	jmp	.LBB4_749
+.LBB4_360:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.361:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jae	.LBB4_751
+# %bb.362:
+	xor	edx, edx
+	jmp	.LBB4_754
+.LBB4_363:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.364:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_365
+# %bb.760:
+	lea	rdx, [rcx + 8*r11]
+	cmp	rdx, r8
+	jbe	.LBB4_1102
+# %bb.761:
+	lea	rdx, [r8 + 8*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_1102
+.LBB4_365:
+	xor	edx, edx
+.LBB4_1105:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1107
+# %bb.1106:
+	mov	r9, qword ptr [rcx + 8*rdx]
+	xor	r10d, r10d
+	test	r9, r9
+	setne	r10b
+	neg	r10
+	test	r9, r9
+	mov	edi, 1
+	cmovle	rdi, r10
+	mov	qword ptr [r8 + 8*rdx], rdi
+	or	rdx, 1
+.LBB4_1107:
+	add	rsi, r11
+	je	.LBB4_1351
+# %bb.1108:
+	mov	esi, 1
+.LBB4_1109:                             # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rdx]
+	xor	eax, eax
+	test	rdi, rdi
+	setne	al
+	neg	rax
+	test	rdi, rdi
+	cmovg	rax, rsi
+	mov	qword ptr [r8 + 8*rdx], rax
+	mov	rax, qword ptr [rcx + 8*rdx + 8]
+	xor	edi, edi
+	test	rax, rax
+	setne	dil
+	neg	rdi
+	test	rax, rax
+	cmovg	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx + 8], rdi
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1109
+	jmp	.LBB4_1351
+.LBB4_366:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.367:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_763
+# %bb.368:
+	xor	edx, edx
+	jmp	.LBB4_766
+.LBB4_369:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.370:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB4_772
+# %bb.371:
+	xor	edx, edx
+	jmp	.LBB4_1312
+.LBB4_372:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.373:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB4_374
+# %bb.775:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1110
+# %bb.776:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1110
+.LBB4_374:
+	xor	edx, edx
+.LBB4_1113:
+	mov	rsi, rdx
+	not	rsi
+	test	al, 1
+	je	.LBB4_1115
+# %bb.1114:
+	vmovss	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
+	vmovmskps	edi, xmm0
+	and	edi, 1
+	neg	edi
+	or	edi, 1
+	vcvtsi2ss	xmm1, xmm10, edi
+	vxorps	xmm2, xmm2, xmm2
+	vcmpeqss	xmm0, xmm0, xmm2
+	vandnps	xmm0, xmm0, xmm1
+	vmovss	dword ptr [r8 + 4*rdx], xmm0
+	or	rdx, 1
+.LBB4_1115:
+	add	rsi, rax
+	je	.LBB4_1351
+# %bb.1116:
+	vxorps	xmm0, xmm0, xmm0
+.LBB4_1117:                             # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	vmovmskps	esi, xmm1
+	and	esi, 1
+	neg	esi
+	or	esi, 1
+	vcvtsi2ss	xmm2, xmm10, esi
+	vcmpeqss	xmm1, xmm1, xmm0
+	vandnps	xmm1, xmm1, xmm2
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	vmovss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
+	vmovmskps	esi, xmm1
+	and	esi, 1
+	neg	esi
+	or	esi, 1
+	vcvtsi2ss	xmm2, xmm10, esi
+	vcmpeqss	xmm1, xmm1, xmm0
+	vandnps	xmm1, xmm1, xmm2
+	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
+	add	rdx, 2
+	cmp	rax, rdx
+	jne	.LBB4_1117
+	jmp	.LBB4_1351
+.LBB4_375:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.376:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB4_377
+# %bb.778:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1118
+# %bb.779:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1118
+.LBB4_377:
+	xor	edx, edx
+.LBB4_1121:
+	mov	r9, rdx
+	not	r9
+	add	r9, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1123
+.LBB4_1122:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1122
+.LBB4_1123:
+	cmp	r9, 3
+	jb	.LBB4_1351
+.LBB4_1124:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx + 8], rsi
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx + 16], rsi
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx + 24], rsi
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1124
+	jmp	.LBB4_1351
+.LBB4_378:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.379:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB4_380
+# %bb.781:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1125
+# %bb.782:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1125
+.LBB4_380:
+	xor	edx, edx
+.LBB4_1128:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1133
+# %bb.1129:
+	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+	jmp	.LBB4_1131
+.LBB4_1130:                             #   in Loop: Header=BB4_1131 Depth=1
+	vmovd	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	je	.LBB4_1133
+.LBB4_1131:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_1130
+# %bb.1132:                             #   in Loop: Header=BB4_1131 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	jmp	.LBB4_1130
+.LBB4_381:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.382:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB4_784
+# %bb.383:
+	xor	edx, edx
+	jmp	.LBB4_787
+.LBB4_384:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.385:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jae	.LBB4_789
+# %bb.386:
+	xor	edx, edx
+	jmp	.LBB4_792
+.LBB4_387:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.388:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB4_389
+# %bb.798:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1144
+# %bb.799:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1144
+.LBB4_389:
+	xor	edx, edx
+.LBB4_1147:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1149
+.LBB4_1148:                             # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1148
+.LBB4_1149:
+	cmp	rsi, 3
+	jb	.LBB4_1351
+.LBB4_1150:                             # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	dword ptr [rcx + 4*rdx + 4], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	dword ptr [rcx + 4*rdx + 8], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	dword ptr [rcx + 4*rdx + 12], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1150
+	jmp	.LBB4_1351
+.LBB4_390:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.391:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB4_392
+# %bb.801:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1151
+# %bb.802:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1151
+.LBB4_392:
+	xor	edx, edx
+.LBB4_1154:
+	mov	rsi, rdx
+	not	rsi
+	test	al, 1
+	je	.LBB4_1156
+# %bb.1155:
+	vmovsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
+	xor	edi, edi
+	vpxor	xmm1, xmm1, xmm1
+	vucomisd	xmm1, xmm0
+	vandpd	xmm0, xmm0, xmmword ptr [rip + .LCPI4_2]
+	vmovddup	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = [1.0E+0,1.0E+0]
+                                        # xmm1 = mem[0,0]
+	vorpd	xmm0, xmm1, xmm0
+	vcvttsd2si	ebx, xmm0
+	cmove	ebx, edi
+	mov	byte ptr [r8 + rdx], bl
+	or	rdx, 1
+.LBB4_1156:
+	add	rsi, rax
+	je	.LBB4_1351
+# %bb.1157:
+	xor	esi, esi
+	vxorpd	xmm0, xmm0, xmm0
+	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
+	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
+                                        # xmm2 = mem[0,0]
+.LBB4_1158:                             # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
+	vucomisd	xmm0, xmm3
+	vandpd	xmm3, xmm3, xmm1
+	vorpd	xmm3, xmm2, xmm3
+	vcvttsd2si	edi, xmm3
+	cmove	edi, esi
+	mov	byte ptr [r8 + rdx], dil
+	vmovsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
+	vucomisd	xmm0, xmm3
+	vandpd	xmm3, xmm3, xmm1
+	vorpd	xmm3, xmm2, xmm3
+	vcvttsd2si	edi, xmm3
+	cmove	edi, esi
+	mov	byte ptr [r8 + rdx + 1], dil
+	add	rdx, 2
+	cmp	rax, rdx
+	jne	.LBB4_1158
+	jmp	.LBB4_1351
+.LBB4_393:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.394:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB4_395
+# %bb.804:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_1159
+# %bb.805:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_1159
+.LBB4_395:
+	xor	r11d, r11d
+.LBB4_1162:
+	mov	rsi, r11
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1164
+# %bb.1163:
+	mov	dil, byte ptr [rcx + r11]
+	test	dil, dil
+	setne	r9b
+	neg	r9b
+	test	dil, dil
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + r11], dil
+	or	r11, 1
+.LBB4_1164:
+	add	rsi, r10
+	je	.LBB4_1351
+# %bb.1165:
+	mov	esi, 1
+.LBB4_1166:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + r11]
+	test	al, al
+	setne	dl
+	neg	dl
+	test	al, al
+	movzx	eax, dl
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11], al
+	movzx	eax, byte ptr [rcx + r11 + 1]
+	test	al, al
+	setne	dl
+	neg	dl
+	test	al, al
+	movzx	eax, dl
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11 + 1], al
+	add	r11, 2
+	cmp	r10, r11
+	jne	.LBB4_1166
+	jmp	.LBB4_1351
+.LBB4_396:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.397:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB4_398
+# %bb.807:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1167
+# %bb.808:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1167
+.LBB4_398:
+	xor	edx, edx
+.LBB4_1170:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1172
+.LBB4_1171:                             # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1171
+.LBB4_1172:
+	cmp	rsi, 3
+	jb	.LBB4_1351
+.LBB4_1173:                             # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	qword ptr [rcx + 8*rdx + 8], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	qword ptr [rcx + 8*rdx + 16], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	qword ptr [rcx + 8*rdx + 24], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1173
+	jmp	.LBB4_1351
+.LBB4_399:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.400:
+	mov	eax, r9d
+	cmp	r9d, 64
+	jb	.LBB4_401
+# %bb.810:
+	lea	rdx, [rcx + 2*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1174
+# %bb.811:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1174
+.LBB4_401:
+	xor	edx, edx
+.LBB4_1177:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1179
+.LBB4_1178:                             # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1178
+.LBB4_1179:
+	cmp	rsi, 3
+	jb	.LBB4_1351
+.LBB4_1180:                             # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	word ptr [rcx + 2*rdx + 2], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	word ptr [rcx + 2*rdx + 4], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	word ptr [rcx + 2*rdx + 6], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1180
+	jmp	.LBB4_1351
+.LBB4_402:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.403:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jb	.LBB4_404
+# %bb.813:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_1181
+# %bb.814:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_1181
+.LBB4_404:
+	xor	r11d, r11d
+.LBB4_1184:
+	mov	rsi, r11
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1186
+# %bb.1185:
+	movzx	edi, word ptr [rcx + 2*r11]
+	test	di, di
+	setne	r9b
+	neg	r9b
+	test	di, di
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + r11], dil
+	or	r11, 1
+.LBB4_1186:
+	add	rsi, r10
+	je	.LBB4_1351
+# %bb.1187:
+	mov	esi, 1
+.LBB4_1188:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*r11]
+	test	di, di
+	setne	al
+	neg	al
+	test	di, di
+	movzx	eax, al
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11], al
+	movzx	eax, word ptr [rcx + 2*r11 + 2]
+	test	ax, ax
+	setne	dl
+	neg	dl
+	test	ax, ax
+	movzx	eax, dl
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11 + 1], al
+	add	r11, 2
+	cmp	r10, r11
+	jne	.LBB4_1188
+	jmp	.LBB4_1351
+.LBB4_405:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.406:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_407
+# %bb.816:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_1189
+# %bb.817:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_1189
+.LBB4_407:
+	xor	r11d, r11d
+.LBB4_1192:
+	mov	rsi, r11
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1194
+# %bb.1193:
+	mov	rdi, qword ptr [rcx + 8*r11]
+	test	rdi, rdi
+	setne	r9b
+	neg	r9b
+	test	rdi, rdi
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + r11], dil
+	or	r11, 1
+.LBB4_1194:
+	add	rsi, r10
+	je	.LBB4_1351
+# %bb.1195:
+	mov	esi, 1
+.LBB4_1196:                             # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*r11]
+	test	rdi, rdi
+	setne	al
+	neg	al
+	test	rdi, rdi
+	movzx	eax, al
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11], al
+	mov	rax, qword ptr [rcx + 8*r11 + 8]
+	test	rax, rax
+	setne	dl
+	neg	dl
+	test	rax, rax
+	movzx	eax, dl
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11 + 1], al
+	add	r11, 2
+	cmp	r10, r11
+	jne	.LBB4_1196
+	jmp	.LBB4_1351
+.LBB4_408:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.409:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB4_410
+# %bb.819:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_1197
+# %bb.820:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_1197
+.LBB4_410:
+	xor	edx, edx
+.LBB4_1200:
+	mov	rsi, rdx
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1202
+# %bb.1201:
+	vmovd	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
+	vmovd	edi, xmm0
+	test	edi, edi
+	setns	dil
+	add	dil, dil
+	add	dil, -1
+	xor	r9d, r9d
+	vpxor	xmm1, xmm1, xmm1
+	vucomiss	xmm1, xmm0
+	movzx	edi, dil
+	cmove	edi, r9d
+	mov	byte ptr [r8 + rdx], dil
+	or	rdx, 1
+.LBB4_1202:
+	add	rsi, r10
+	je	.LBB4_1351
+# %bb.1203:
+	xor	esi, esi
+	vxorps	xmm0, xmm0, xmm0
+.LBB4_1204:                             # =>This Inner Loop Header: Depth=1
+	vmovd	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	vmovd	edi, xmm1
+	test	edi, edi
+	setns	al
+	add	al, al
+	add	al, -1
+	vucomiss	xmm0, xmm1
+	movzx	eax, al
+	cmove	eax, esi
+	mov	byte ptr [r8 + rdx], al
+	vmovd	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
+	vmovd	eax, xmm1
+	test	eax, eax
+	setns	al
+	add	al, al
+	add	al, -1
+	vucomiss	xmm0, xmm1
+	movzx	eax, al
+	cmove	eax, esi
+	mov	byte ptr [r8 + rdx + 1], al
+	add	rdx, 2
+	cmp	r10, rdx
+	jne	.LBB4_1204
+	jmp	.LBB4_1351
+.LBB4_411:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.412:
+	mov	eax, r9d
+	cmp	r9d, 128
+	jb	.LBB4_413
+# %bb.822:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1205
+# %bb.823:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1205
+.LBB4_413:
+	xor	edx, edx
+.LBB4_1208:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1210
+.LBB4_1209:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1209
+.LBB4_1210:
+	cmp	rsi, 3
+	jb	.LBB4_1351
+.LBB4_1211:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1211
+	jmp	.LBB4_1351
+.LBB4_414:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.415:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB4_416
+# %bb.825:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_1212
+# %bb.826:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_1212
+.LBB4_416:
+	xor	r11d, r11d
+.LBB4_1215:
+	mov	rsi, r11
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1217
+# %bb.1216:
+	mov	edi, dword ptr [rcx + 4*r11]
+	test	edi, edi
+	setne	r9b
+	neg	r9b
+	test	edi, edi
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + r11], dil
+	or	r11, 1
+.LBB4_1217:
+	add	rsi, r10
+	je	.LBB4_1351
+# %bb.1218:
+	mov	esi, 1
+.LBB4_1219:                             # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*r11]
+	test	edi, edi
+	setne	al
+	neg	al
+	test	edi, edi
+	movzx	eax, al
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11], al
+	mov	eax, dword ptr [rcx + 4*r11 + 4]
+	test	eax, eax
+	setne	dl
+	neg	dl
+	test	eax, eax
+	movzx	eax, dl
+	cmovg	eax, esi
+	mov	byte ptr [r8 + r11 + 1], al
+	add	r11, 2
+	cmp	r10, r11
+	jne	.LBB4_1219
+	jmp	.LBB4_1351
+.LBB4_417:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.418:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB4_419
+# %bb.828:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1220
+# %bb.829:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1220
+.LBB4_419:
+	xor	edx, edx
+.LBB4_1223:
+	mov	r9, rdx
+	not	r9
+	add	r9, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1225
+.LBB4_1224:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1224
+.LBB4_1225:
+	cmp	r9, 3
+	jb	.LBB4_1351
+.LBB4_1226:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx + 4], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx + 4], esi
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx + 8], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx + 8], esi
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx + 12], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx + 12], esi
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1226
+	jmp	.LBB4_1351
+.LBB4_420:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.421:
+	mov	eax, r9d
+	xor	edx, edx
+	cmp	r9d, 16
+	jae	.LBB4_831
+# %bb.422:
+	xor	esi, esi
+	jmp	.LBB4_834
+.LBB4_423:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.424:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jb	.LBB4_425
+# %bb.836:
+	lea	rdx, [rcx + r11]
+	cmp	rdx, r8
+	jbe	.LBB4_1227
+# %bb.837:
+	lea	rdx, [r8 + 4*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_1227
+.LBB4_425:
+	xor	edx, edx
+.LBB4_1230:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1232
+# %bb.1231:
+	mov	r9b, byte ptr [rcx + rdx]
+	xor	r10d, r10d
+	test	r9b, r9b
+	setne	r10b
+	neg	r10d
+	test	r9b, r9b
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	dword ptr [r8 + 4*rdx], edi
+	or	rdx, 1
+.LBB4_1232:
+	add	rsi, r11
+	je	.LBB4_1351
+# %bb.1233:
+	mov	esi, 1
+.LBB4_1234:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	dword ptr [r8 + 4*rdx], edi
+	movzx	eax, byte ptr [rcx + rdx + 1]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	dword ptr [r8 + 4*rdx + 4], edi
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1234
+	jmp	.LBB4_1351
+.LBB4_426:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.427:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jae	.LBB4_839
+# %bb.428:
+	xor	edx, edx
+	jmp	.LBB4_842
+.LBB4_429:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.430:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jae	.LBB4_843
+# %bb.431:
+	xor	edx, edx
+	jmp	.LBB4_846
+.LBB4_432:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.433:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB4_847
+# %bb.434:
+	xor	edx, edx
+	jmp	.LBB4_850
+.LBB4_435:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.436:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB4_852
+# %bb.437:
+	xor	edx, edx
+	jmp	.LBB4_855
+.LBB4_438:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.439:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jae	.LBB4_857
+# %bb.440:
+	xor	edx, edx
+	jmp	.LBB4_860
+.LBB4_441:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.442:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB4_443
+# %bb.864:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_1235
+# %bb.865:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_1235
+.LBB4_443:
+	xor	edx, edx
+.LBB4_1238:
+	mov	r9, rdx
+	not	r9
+	add	r9, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1240
+.LBB4_1239:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1239
+.LBB4_1240:
+	cmp	r9, 3
+	jb	.LBB4_1351
+.LBB4_1241:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx + 4], esi
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx + 8], esi
+	xor	esi, esi
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx + 12], esi
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1241
+	jmp	.LBB4_1351
+.LBB4_444:
+	test	r9d, r9d
+	jle	.LBB4_1351
+# %bb.445:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jb	.LBB4_446
+# %bb.867:
+	lea	rdx, [rcx + 4*r11]
+	cmp	rdx, r8
+	jbe	.LBB4_1242
+# %bb.868:
+	lea	rdx, [r8 + 4*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_1242
+.LBB4_446:
+	xor	edx, edx
+.LBB4_1245:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1247
+# %bb.1246:
+	mov	r9d, dword ptr [rcx + 4*rdx]
+	xor	r10d, r10d
+	test	r9d, r9d
+	setne	r10b
+	neg	r10d
+	test	r9d, r9d
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	dword ptr [r8 + 4*rdx], edi
+	or	rdx, 1
+.LBB4_1247:
+	add	rsi, r11
+	je	.LBB4_1351
+# %bb.1248:
+	mov	esi, 1
+.LBB4_1249:                             # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rdx]
+	xor	eax, eax
+	test	edi, edi
+	setne	al
+	neg	eax
+	test	edi, edi
+	cmovg	eax, esi
+	mov	dword ptr [r8 + 4*rdx], eax
+	mov	eax, dword ptr [rcx + 4*rdx + 4]
+	xor	edi, edi
+	test	eax, eax
+	setne	dil
+	neg	edi
+	test	eax, eax
+	cmovg	edi, esi
+	mov	dword ptr [r8 + 4*rdx + 4], edi
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1249
+	jmp	.LBB4_1351
+.LBB4_922:
+	cmp	rsi, 3
+	jb	.LBB4_1351
+# %bb.923:
+	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
+	jmp	.LBB4_925
+.LBB4_924:                              #   in Loop: Header=BB4_925 Depth=1
+	vmovq	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_925:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_926
+# %bb.929:                              #   in Loop: Header=BB4_925 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	vmovq	qword ptr [r8 + 8*rdx], xmm1
+	cmp	byte ptr [rcx + rdx + 1], 0
+	vmovdqa	xmm1, xmm0
+	je	.LBB4_930
+.LBB4_927:                              #   in Loop: Header=BB4_925 Depth=1
+	vmovq	qword ptr [r8 + 8*rdx + 8], xmm1
+	cmp	byte ptr [rcx + rdx + 2], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_928
+.LBB4_931:                              #   in Loop: Header=BB4_925 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	vmovq	qword ptr [r8 + 8*rdx + 16], xmm1
+	cmp	byte ptr [rcx + rdx + 3], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_924
+	jmp	.LBB4_932
+.LBB4_926:                              #   in Loop: Header=BB4_925 Depth=1
+	vmovq	qword ptr [r8 + 8*rdx], xmm1
+	cmp	byte ptr [rcx + rdx + 1], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_927
+.LBB4_930:                              #   in Loop: Header=BB4_925 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	vmovq	qword ptr [r8 + 8*rdx + 8], xmm1
+	cmp	byte ptr [rcx + rdx + 2], 0
+	vmovdqa	xmm1, xmm0
+	je	.LBB4_931
+.LBB4_928:                              #   in Loop: Header=BB4_925 Depth=1
+	vmovq	qword ptr [r8 + 8*rdx + 16], xmm1
+	cmp	byte ptr [rcx + rdx + 3], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_924
+.LBB4_932:                              #   in Loop: Header=BB4_925 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	jmp	.LBB4_924
+.LBB4_1133:
+	cmp	rsi, 3
+	jb	.LBB4_1351
+# %bb.1134:
+	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+	jmp	.LBB4_1136
+.LBB4_1135:                             #   in Loop: Header=BB4_1136 Depth=1
+	vmovd	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_1136:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_1137
+# %bb.1140:                             #   in Loop: Header=BB4_1136 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	vmovd	dword ptr [r8 + 4*rdx], xmm1
+	cmp	byte ptr [rcx + rdx + 1], 0
+	vmovdqa	xmm1, xmm0
+	je	.LBB4_1141
+.LBB4_1138:                             #   in Loop: Header=BB4_1136 Depth=1
+	vmovd	dword ptr [r8 + 4*rdx + 4], xmm1
+	cmp	byte ptr [rcx + rdx + 2], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_1139
+.LBB4_1142:                             #   in Loop: Header=BB4_1136 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	vmovd	dword ptr [r8 + 4*rdx + 8], xmm1
+	cmp	byte ptr [rcx + rdx + 3], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_1135
+	jmp	.LBB4_1143
+.LBB4_1137:                             #   in Loop: Header=BB4_1136 Depth=1
+	vmovd	dword ptr [r8 + 4*rdx], xmm1
+	cmp	byte ptr [rcx + rdx + 1], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_1138
+.LBB4_1141:                             #   in Loop: Header=BB4_1136 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	vmovd	dword ptr [r8 + 4*rdx + 4], xmm1
+	cmp	byte ptr [rcx + rdx + 2], 0
+	vmovdqa	xmm1, xmm0
+	je	.LBB4_1142
+.LBB4_1139:                             #   in Loop: Header=BB4_1136 Depth=1
+	vmovd	dword ptr [r8 + 4*rdx + 8], xmm1
+	cmp	byte ptr [rcx + rdx + 3], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_1135
+.LBB4_1143:                             #   in Loop: Header=BB4_1136 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	jmp	.LBB4_1135
+.LBB4_450:
+	mov	esi, eax
+	and	esi, -4
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB4_1288
+# %bb.451:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vbroadcastsd	ymm1, qword ptr [rip + .LCPI4_1] # ymm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	vxorpd	xmm8, xmm8, xmm8
+	vbroadcastsd	ymm3, qword ptr [rip + .LCPI4_7] # ymm3 = [2.147483648E+9,2.147483648E+9,2.147483648E+9,2.147483648E+9]
+	vbroadcastss	xmm4, dword ptr [rip + .LCPI4_4] # xmm4 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB4_452:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm5, ymmword ptr [rcx + 8*rdi]
+	vcmpeqpd	ymm6, ymm8, ymm5
+	vandpd	ymm5, ymm5, ymm0
+	vorpd	ymm5, ymm1, ymm5
+	vcmpltpd	ymm7, ymm5, ymm3
+	vextractf128	xmm2, ymm7, 1
+	vpackssdw	xmm2, xmm7, xmm2
+	vsubpd	ymm7, ymm5, ymm3
+	vcvttpd2dq	xmm7, ymm7
+	vcvttpd2dq	xmm5, ymm5
+	vxorpd	xmm7, xmm7, xmm4
+	vblendvps	xmm2, xmm7, xmm5, xmm2
+	vextractf128	xmm5, ymm6, 1
+	vpackssdw	xmm5, xmm6, xmm5
+	vpandn	xmm2, xmm5, xmm2
+	vmovdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 32]
+	vcmpeqpd	ymm5, ymm8, ymm2
+	vextractf128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vandpd	ymm2, ymm2, ymm0
+	vorpd	ymm2, ymm1, ymm2
+	vcmpltpd	ymm6, ymm2, ymm3
+	vextractf128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vsubpd	ymm7, ymm2, ymm3
+	vcvttpd2dq	xmm7, ymm7
+	vxorpd	xmm7, xmm7, xmm4
+	vcvttpd2dq	xmm2, ymm2
+	vblendvps	xmm2, xmm7, xmm2, xmm6
+	vpandn	xmm2, xmm5, xmm2
+	vmovdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB4_452
+	jmp	.LBB4_1289
+.LBB4_456:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+.LBB4_457:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpand	xmm3, xmm3, xmm2
+	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpand	xmm4, xmm4, xmm2
+	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpand	xmm5, xmm5, xmm2
+	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
+	vpxor	ymm6, ymm6, ymm1
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpand	xmm6, xmm6, xmm2
+	vmovdqu	xmmword ptr [r8 + 4*rsi], xmm3
+	vmovdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
+	vmovdqu	xmmword ptr [r8 + 4*rsi + 32], xmm5
+	vmovdqu	xmmword ptr [r8 + 4*rsi + 48], xmm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_457
+# %bb.458:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_459:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_459
+	jmp	.LBB4_1351
+.LBB4_460:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
+.LBB4_461:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqw	xmm3, xmm0, xmmword ptr [rcx + 2*rsi]
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxwd	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	vpcmpeqw	xmm4, xmm0, xmmword ptr [rcx + 2*rsi + 16]
+	vpand	ymm3, ymm3, ymm2
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxwd	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	vpand	ymm4, ymm4, ymm2
+	vpcmpeqw	xmm5, xmm0, xmmword ptr [rcx + 2*rsi + 32]
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxwd	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	vpand	ymm5, ymm5, ymm2
+	vpcmpeqw	xmm6, xmm0, xmmword ptr [rcx + 2*rsi + 48]
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxwd	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	vpand	ymm6, ymm6, ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm6
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_461
+# %bb.462:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_463:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_463
+	jmp	.LBB4_1351
+.LBB4_464:
+	mov	edx, r10d
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
+.LBB4_465:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm3, xmmword ptr [rcx + 2*rsi]
+	vmovdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
+	vmovdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
+	vmovdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
+	vpcmpgtw	xmm7, xmm3, xmm0
+	vpmovsxwd	ymm9, xmm7
+	vpcmpgtw	xmm1, xmm4, xmm0
+	vpmovsxwd	ymm10, xmm1
+	vpcmpgtw	xmm7, xmm5, xmm0
+	vpmovsxwd	ymm7, xmm7
+	vpcmpgtw	xmm1, xmm6, xmm0
+	vpmovsxwd	ymm1, xmm1
+	vpcmpeqw	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxwd	ymm3, xmm3
+	vpcmpeqw	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxwd	ymm4, xmm4
+	vpcmpeqw	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxwd	ymm5, xmm5
+	vpcmpeqw	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxwd	ymm6, xmm6
+	vblendvps	ymm3, ymm3, ymm2, ymm9
+	vblendvps	ymm4, ymm4, ymm2, ymm10
+	vblendvps	ymm5, ymm5, ymm2, ymm7
+	vblendvps	ymm1, ymm6, ymm2, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_465
+# %bb.466:
+	cmp	rdx, r10
+	je	.LBB4_1351
+.LBB4_467:
+	mov	esi, 1
+.LBB4_468:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rdx]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	eax
+	test	di, di
+	cmovg	eax, esi
+	mov	dword ptr [r8 + 4*rdx], eax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_468
+	jmp	.LBB4_1351
+.LBB4_469:
+	mov	edx, r10d
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm8, ymm8, ymm8
+	vbroadcastss	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+.LBB4_470:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
+	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi + 96]
+	vpcmpgtq	ymm3, ymm4, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpackssdw	xmm9, xmm3, xmm1
+	vpcmpgtq	ymm1, ymm5, ymm0
+	vextracti128	xmm3, ymm1, 1
+	vpackssdw	xmm10, xmm1, xmm3
+	vpcmpgtq	ymm3, ymm6, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpackssdw	xmm11, xmm3, xmm1
+	vpcmpgtq	ymm3, ymm7, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpackssdw	xmm1, xmm3, xmm1
+	vpcmpeqq	ymm3, ymm4, ymm0
+	vpxor	ymm3, ymm8, ymm3
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpcmpeqq	ymm4, ymm5, ymm0
+	vpxor	ymm4, ymm8, ymm4
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpcmpeqq	ymm5, ymm6, ymm0
+	vpxor	ymm5, ymm8, ymm5
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpcmpeqq	ymm6, ymm7, ymm0
+	vpxor	ymm6, ymm8, ymm6
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vblendvps	xmm3, xmm3, xmm2, xmm9
+	vblendvps	xmm4, xmm4, xmm2, xmm10
+	vblendvps	xmm5, xmm5, xmm2, xmm11
+	vblendvps	xmm1, xmm6, xmm2, xmm1
+	vmovups	xmmword ptr [r8 + 4*rsi], xmm3
+	vmovups	xmmword ptr [r8 + 4*rsi + 16], xmm4
+	vmovups	xmmword ptr [r8 + 4*rsi + 32], xmm5
+	vmovups	xmmword ptr [r8 + 4*rsi + 48], xmm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_470
+# %bb.471:
+	cmp	rdx, r10
+	je	.LBB4_1351
+.LBB4_472:
+	mov	esi, 1
+.LBB4_473:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rdx]
+	xor	eax, eax
+	test	rdi, rdi
+	setne	al
+	neg	eax
+	test	rdi, rdi
+	cmovg	eax, esi
+	mov	dword ptr [r8 + 4*rdx], eax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_473
+	jmp	.LBB4_1351
+.LBB4_474:
+	mov	edx, eax
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1294
+# %bb.475:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	vpbroadcastd	ymm0, dword ptr [rip + .LCPI4_8] # ymm0 = [1,1,1,1,1,1,1,1]
+	vxorps	xmm1, xmm1, xmm1
+	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_10] # ymm2 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
+	vbroadcastss	ymm3, dword ptr [rip + .LCPI4_4] # ymm3 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB4_476:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi]
+	vpsrad	ymm5, ymm4, 31
+	vpor	ymm5, ymm5, ymm0
+	vcvtdq2ps	ymm5, ymm5
+	vcmpltps	ymm6, ymm5, ymm2
+	vsubps	ymm7, ymm5, ymm2
+	vcvttps2dq	ymm7, ymm7
+	vxorps	ymm7, ymm7, ymm3
+	vcvttps2dq	ymm5, ymm5
+	vblendvps	ymm5, ymm7, ymm5, ymm6
+	vcmpneqps	ymm4, ymm4, ymm1
+	vandps	ymm4, ymm4, ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm4
+	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 32]
+	vpsrad	ymm5, ymm4, 31
+	vpor	ymm5, ymm5, ymm0
+	vcvtdq2ps	ymm5, ymm5
+	vcmpltps	ymm6, ymm5, ymm2
+	vsubps	ymm7, ymm5, ymm2
+	vcvttps2dq	ymm7, ymm7
+	vxorps	ymm7, ymm7, ymm3
+	vcvttps2dq	ymm5, ymm5
+	vblendvps	ymm5, ymm7, ymm5, ymm6
+	vcmpneqps	ymm4, ymm4, ymm1
+	vandps	ymm4, ymm4, ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_476
+	jmp	.LBB4_1295
+.LBB4_483:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpbroadcastd	xmm1, dword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
+.LBB4_484:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqd	xmm2, xmm0, xmmword ptr [rcx + 4*rsi]
+	vpandn	xmm2, xmm2, xmm1
+	vcvtdq2pd	ymm2, xmm2
+	vpcmpeqd	xmm3, xmm0, xmmword ptr [rcx + 4*rsi + 16]
+	vpandn	xmm3, xmm3, xmm1
+	vcvtdq2pd	ymm3, xmm3
+	vpcmpeqd	xmm4, xmm0, xmmword ptr [rcx + 4*rsi + 32]
+	vpandn	xmm4, xmm4, xmm1
+	vcvtdq2pd	ymm4, xmm4
+	vpcmpeqd	xmm5, xmm0, xmmword ptr [rcx + 4*rsi + 48]
+	vpandn	xmm5, xmm5, xmm1
+	vcvtdq2pd	ymm5, xmm5
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_484
+# %bb.485:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_486:
+	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
+	jmp	.LBB4_488
+.LBB4_487:                              #   in Loop: Header=BB4_488 Depth=1
+	vmovq	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_488:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_487
+# %bb.489:                              #   in Loop: Header=BB4_488 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	jmp	.LBB4_487
+.LBB4_496:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+.LBB4_497:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpand	xmm3, xmm3, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpand	xmm4, xmm4, xmm2
+	vcvtdq2pd	ymm4, xmm4
+	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpand	xmm5, xmm5, xmm2
+	vcvtdq2pd	ymm5, xmm5
+	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
+	vpxor	ymm6, ymm6, ymm1
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpand	xmm6, xmm6, xmm2
+	vcvtdq2pd	ymm6, xmm6
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_497
+# %bb.498:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_499:
+	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
+	jmp	.LBB4_501
+.LBB4_500:                              #   in Loop: Header=BB4_501 Depth=1
+	vmovq	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_501:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rdx], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_500
+# %bb.502:                              #   in Loop: Header=BB4_501 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	jmp	.LBB4_500
+.LBB4_503:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+.LBB4_504:                              # =>This Inner Loop Header: Depth=1
+	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
+	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
+	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
+	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
+	vpcmpeqw	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxwd	xmm3, xmm3              # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
+	vpand	xmm3, xmm3, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vpcmpeqw	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxwd	xmm4, xmm4              # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
+	vpand	xmm4, xmm4, xmm2
+	vcvtdq2pd	ymm4, xmm4
+	vpcmpeqw	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxwd	xmm5, xmm5              # xmm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero
+	vpand	xmm5, xmm5, xmm2
+	vcvtdq2pd	ymm5, xmm5
+	vpcmpeqw	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxwd	xmm6, xmm6              # xmm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero
+	vpand	xmm6, xmm6, xmm2
+	vcvtdq2pd	ymm6, xmm6
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_504
+# %bb.505:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_506:
+	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
+	jmp	.LBB4_508
+.LBB4_507:                              #   in Loop: Header=BB4_508 Depth=1
+	vmovq	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_508:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_507
+# %bb.509:                              #   in Loop: Header=BB4_508 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	jmp	.LBB4_507
+.LBB4_510:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_511:                              # =>This Inner Loop Header: Depth=1
+	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
+	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
+	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
+	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
+	vpcmpgtw	xmm7, xmm3, xmm0
+	vpmovsxwq	ymm9, xmm7
+	vpcmpgtw	xmm1, xmm4, xmm0
+	vpmovsxwq	ymm10, xmm1
+	vpcmpgtw	xmm7, xmm5, xmm0
+	vpmovsxwq	ymm7, xmm7
+	vpcmpgtw	xmm1, xmm6, xmm0
+	vpcmpeqw	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxwd	xmm3, xmm3
+	vcvtdq2pd	ymm3, xmm3
+	vpcmpeqw	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxwd	xmm4, xmm4
+	vcvtdq2pd	ymm4, xmm4
+	vpcmpeqw	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxwd	xmm5, xmm5
+	vcvtdq2pd	ymm5, xmm5
+	vpmovsxwq	ymm1, xmm1
+	vpcmpeqw	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxwd	xmm6, xmm6
+	vcvtdq2pd	ymm6, xmm6
+	vblendvpd	ymm3, ymm3, ymm2, ymm9
+	vblendvpd	ymm4, ymm4, ymm2, ymm10
+	vblendvpd	ymm5, ymm5, ymm2, ymm7
+	vblendvpd	ymm1, ymm6, ymm2, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_511
+# %bb.512:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_513:
+	vmovsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
+	vmovsd	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = mem[0],zero
+	jmp	.LBB4_515
+.LBB4_514:                              #   in Loop: Header=BB4_515 Depth=1
+	vmovsd	qword ptr [r8 + 8*rdx], xmm3
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_515:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	vmovapd	xmm2, xmm0
+	jne	.LBB4_517
+# %bb.516:                              #   in Loop: Header=BB4_515 Depth=1
+	vxorpd	xmm2, xmm2, xmm2
+.LBB4_517:                              #   in Loop: Header=BB4_515 Depth=1
+	vmovapd	xmm3, xmm1
+	jg	.LBB4_514
+# %bb.518:                              #   in Loop: Header=BB4_515 Depth=1
+	vmovapd	xmm3, xmm2
+	jmp	.LBB4_514
+.LBB4_519:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm11, ymm11, ymm11
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_520:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rsi]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 32]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 64]
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 96]
+	vpcmpgtq	ymm7, ymm3, ymm0
+	vpcmpgtq	ymm8, ymm4, ymm0
+	vpcmpgtq	ymm9, ymm5, ymm0
+	vpcmpgtq	ymm10, ymm6, ymm0
+	vpcmpeqq	ymm3, ymm3, ymm0
+	vpxor	ymm3, ymm11, ymm3
+	vextracti128	xmm1, ymm3, 1
+	vpackssdw	xmm1, xmm3, xmm1
+	vcvtdq2pd	ymm1, xmm1
+	vpcmpeqq	ymm3, ymm4, ymm0
+	vpxor	ymm3, ymm11, ymm3
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vcvtdq2pd	ymm3, xmm3
+	vpcmpeqq	ymm4, ymm5, ymm0
+	vpxor	ymm4, ymm11, ymm4
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vcvtdq2pd	ymm4, xmm4
+	vpcmpeqq	ymm5, ymm6, ymm0
+	vpxor	ymm5, ymm11, ymm5
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vcvtdq2pd	ymm5, xmm5
+	vblendvpd	ymm1, ymm1, ymm2, ymm7
+	vblendvpd	ymm3, ymm3, ymm2, ymm8
+	vblendvpd	ymm4, ymm4, ymm2, ymm9
+	vblendvpd	ymm5, ymm5, ymm2, ymm10
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_520
+# %bb.521:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_522:
+	vmovsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
+	vmovsd	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = mem[0],zero
+	jmp	.LBB4_524
+.LBB4_523:                              #   in Loop: Header=BB4_524 Depth=1
+	vmovsd	qword ptr [r8 + 8*rdx], xmm3
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_524:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rdx], 0
+	vmovapd	xmm2, xmm0
+	jne	.LBB4_526
+# %bb.525:                              #   in Loop: Header=BB4_524 Depth=1
+	vxorpd	xmm2, xmm2, xmm2
+.LBB4_526:                              #   in Loop: Header=BB4_524 Depth=1
+	vmovapd	xmm3, xmm1
+	jg	.LBB4_523
+# %bb.527:                              #   in Loop: Header=BB4_524 Depth=1
+	vmovapd	xmm3, xmm2
+	jmp	.LBB4_523
+.LBB4_528:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vxorps	xmm8, xmm8, xmm8
+	vpbroadcastd	xmm1, dword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
+.LBB4_529:                              # =>This Inner Loop Header: Depth=1
+	vmovups	xmm2, xmmword ptr [rcx + 4*rsi]
+	vmovups	xmm3, xmmword ptr [rcx + 4*rsi + 16]
+	vmovups	xmm4, xmmword ptr [rcx + 4*rsi + 32]
+	vmovups	xmm5, xmmword ptr [rcx + 4*rsi + 48]
+	vcmpeqps	xmm6, xmm8, xmm2
+	vpmovsxdq	ymm6, xmm6
+	vcmpeqps	xmm7, xmm8, xmm3
+	vpmovsxdq	ymm7, xmm7
+	vcmpeqps	xmm0, xmm8, xmm4
+	vpmovsxdq	ymm9, xmm0
+	vcmpeqps	xmm0, xmm8, xmm5
+	vpmovsxdq	ymm0, xmm0
+	vpsrad	xmm2, xmm2, 31
+	vpor	xmm2, xmm2, xmm1
+	vpsrad	xmm3, xmm3, 31
+	vpor	xmm3, xmm3, xmm1
+	vpsrad	xmm4, xmm4, 31
+	vpor	xmm4, xmm4, xmm1
+	vpsrad	xmm5, xmm5, 31
+	vpor	xmm5, xmm5, xmm1
+	vcvtdq2ps	xmm2, xmm2
+	vcvtdq2ps	xmm3, xmm3
+	vcvtdq2ps	xmm4, xmm4
+	vcvtdq2ps	xmm5, xmm5
+	vcvtps2pd	ymm2, xmm2
+	vpandn	ymm2, ymm6, ymm2
+	vcvtps2pd	ymm3, xmm3
+	vpandn	ymm3, ymm7, ymm3
+	vcvtps2pd	ymm4, xmm4
+	vcvtps2pd	ymm5, xmm5
+	vpandn	ymm4, ymm9, ymm4
+	vpandn	ymm0, ymm0, ymm5
+	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm0
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_529
+# %bb.530:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_531:
+	vpxor	xmm0, xmm0, xmm0
+	jmp	.LBB4_533
+.LBB4_532:                              #   in Loop: Header=BB4_533 Depth=1
+	vmovq	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_533:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm2, dword ptr [rcx + 4*rdx]   # xmm2 = mem[0],zero,zero,zero
+	vpxor	xmm1, xmm1, xmm1
+	vucomiss	xmm0, xmm2
+	je	.LBB4_532
+# %bb.534:                              #   in Loop: Header=BB4_533 Depth=1
+	vmovmskps	esi, xmm2
+	and	esi, 1
+	neg	esi
+	or	esi, 1
+	vcvtsi2ss	xmm1, xmm10, esi
+	vcvtss2sd	xmm1, xmm1, xmm1
+	jmp	.LBB4_532
+.LBB4_538:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_539:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm3, xmmword ptr [rcx + 4*rsi]
+	vmovdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
+	vmovdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
+	vmovdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
+	vpcmpgtd	xmm7, xmm3, xmm0
+	vpmovsxdq	ymm9, xmm7
+	vpcmpgtd	xmm1, xmm4, xmm0
+	vpmovsxdq	ymm10, xmm1
+	vpcmpgtd	xmm7, xmm5, xmm0
+	vpmovsxdq	ymm7, xmm7
+	vpcmpgtd	xmm1, xmm6, xmm0
+	vpmovsxdq	ymm1, xmm1
+	vpcmpeqd	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vcvtdq2pd	ymm3, xmm3
+	vpcmpeqd	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vcvtdq2pd	ymm4, xmm4
+	vpcmpeqd	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vcvtdq2pd	ymm5, xmm5
+	vpcmpeqd	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vcvtdq2pd	ymm6, xmm6
+	vblendvpd	ymm3, ymm3, ymm2, ymm9
+	vblendvpd	ymm4, ymm4, ymm2, ymm10
+	vblendvpd	ymm5, ymm5, ymm2, ymm7
+	vblendvpd	ymm1, ymm6, ymm2, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_539
+# %bb.540:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_541:
+	vmovsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
+	vmovsd	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = mem[0],zero
+	jmp	.LBB4_543
+.LBB4_542:                              #   in Loop: Header=BB4_543 Depth=1
+	vmovsd	qword ptr [r8 + 8*rdx], xmm3
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_543:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	vmovapd	xmm2, xmm0
+	jne	.LBB4_545
+# %bb.544:                              #   in Loop: Header=BB4_543 Depth=1
+	vxorpd	xmm2, xmm2, xmm2
+.LBB4_545:                              #   in Loop: Header=BB4_543 Depth=1
+	vmovapd	xmm3, xmm1
+	jg	.LBB4_542
+# %bb.546:                              #   in Loop: Header=BB4_543 Depth=1
+	vmovapd	xmm3, xmm2
+	jmp	.LBB4_542
+.LBB4_577:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_578:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqd	xmm3, xmm0, xmmword ptr [rcx + 4*rsi]
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxdq	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
+	vpcmpeqd	xmm4, xmm0, xmmword ptr [rcx + 4*rsi + 16]
+	vpand	ymm3, ymm3, ymm2
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxdq	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
+	vpand	ymm4, ymm4, ymm2
+	vpcmpeqd	xmm5, xmm0, xmmword ptr [rcx + 4*rsi + 32]
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxdq	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero
+	vpand	ymm5, ymm5, ymm2
+	vpcmpeqd	xmm6, xmm0, xmmword ptr [rcx + 4*rsi + 48]
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxdq	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero
+	vpand	ymm6, ymm6, ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_578
+# %bb.579:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_580:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_580
+	jmp	.LBB4_1351
+.LBB4_581:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB4_1282
+# %bb.582:
+	mov	r14, r9
+	and	r14, -2
+	neg	r14
+	xor	edi, edi
+	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vxorpd	xmm8, xmm8, xmm8
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	vmovsd	xmm3, qword ptr [rip + .LCPI4_6] # xmm3 = mem[0],zero
+.LBB4_583:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi]
+	vandpd	ymm5, ymm4, ymm0
+	vorpd	ymm5, ymm2, ymm5
+	vextractf128	xmm6, ymm5, 1
+	vsubsd	xmm7, xmm6, xmm3
+	vcvttsd2si	rbx, xmm7
+	xor	rbx, r11
+	vcvttsd2si	rdx, xmm6
+	vucomisd	xmm6, xmm3
+	cmovae	rdx, rbx
+	vpermilps	xmm6, xmm6, 78          # xmm6 = xmm6[2,3,0,1]
+	vsubsd	xmm7, xmm6, xmm3
+	vcvttsd2si	rbx, xmm7
+	xor	rbx, r11
+	vcvttsd2si	rax, xmm6
+	vucomisd	xmm6, xmm3
+	vmovq	xmm6, rdx
+	cmovae	rax, rbx
+	vmovq	xmm7, rax
+	vsubsd	xmm1, xmm5, xmm3
+	vcvttsd2si	rax, xmm1
+	xor	rax, r11
+	vcvttsd2si	rdx, xmm5
+	vucomisd	xmm5, xmm3
+	cmovae	rdx, rax
+	vpermilps	xmm1, xmm5, 78          # xmm1 = xmm5[2,3,0,1]
+	vsubsd	xmm5, xmm1, xmm3
+	vcvttsd2si	rax, xmm5
+	vmovq	xmm5, rdx
+	xor	rax, r11
+	vcvttsd2si	rdx, xmm1
+	vucomisd	xmm1, xmm3
+	vpunpcklqdq	xmm1, xmm6, xmm7        # xmm1 = xmm6[0],xmm7[0]
+	cmovae	rdx, rax
+	vmovq	xmm6, rdx
+	vpunpcklqdq	xmm5, xmm5, xmm6        # xmm5 = xmm5[0],xmm6[0]
+	vinserti128	ymm1, ymm5, xmm1, 1
+	vcmpneqpd	ymm4, ymm8, ymm4
+	vandpd	ymm1, ymm4, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi + 32]
+	vandpd	ymm1, ymm4, ymm0
+	vorpd	ymm1, ymm2, ymm1
+	vextractf128	xmm5, ymm1, 1
+	vsubsd	xmm6, xmm5, xmm3
+	vcvttsd2si	rax, xmm6
+	xor	rax, r11
+	vcvttsd2si	rdx, xmm5
+	vucomisd	xmm5, xmm3
+	cmovae	rdx, rax
+	vpermilps	xmm5, xmm5, 78          # xmm5 = xmm5[2,3,0,1]
+	vsubsd	xmm6, xmm5, xmm3
+	vcvttsd2si	rax, xmm6
+	vmovq	xmm6, rdx
+	xor	rax, r11
+	vcvttsd2si	rdx, xmm5
+	vucomisd	xmm5, xmm3
+	cmovae	rdx, rax
+	vmovq	xmm5, rdx
+	vsubsd	xmm7, xmm1, xmm3
+	vcvttsd2si	rax, xmm7
+	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
+	xor	rax, r11
+	vcvttsd2si	rdx, xmm1
+	vucomisd	xmm1, xmm3
+	cmovae	rdx, rax
+	vpermilps	xmm1, xmm1, 78          # xmm1 = xmm1[2,3,0,1]
+	vsubsd	xmm6, xmm1, xmm3
+	vcvttsd2si	rax, xmm6
+	vmovq	xmm6, rdx
+	xor	rax, r11
+	vcvttsd2si	rdx, xmm1
+	vucomisd	xmm1, xmm3
+	cmovae	rdx, rax
+	vmovq	xmm1, rdx
+	vpunpcklqdq	xmm1, xmm6, xmm1        # xmm1 = xmm6[0],xmm1[0]
+	vinserti128	ymm1, ymm1, xmm5, 1
+	vcmpneqpd	ymm4, ymm8, ymm4
+	vandpd	ymm1, ymm4, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	add	rdi, 8
+	add	r14, 2
+	jne	.LBB4_583
+	jmp	.LBB4_1283
+.LBB4_590:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_591:                              # =>This Inner Loop Header: Depth=1
+	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
+	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
+	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
+	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
+	vpcmpeqw	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
+	vpand	ymm3, ymm3, ymm2
+	vpcmpeqw	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxwq	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
+	vpand	ymm4, ymm4, ymm2
+	vpcmpeqw	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxwq	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
+	vpand	ymm5, ymm5, ymm2
+	vpcmpeqw	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxwq	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
+	vpand	ymm6, ymm6, ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_591
+# %bb.592:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_593:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_593
+	jmp	.LBB4_1351
+.LBB4_594:
+	mov	edx, r10d
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_595:                              # =>This Inner Loop Header: Depth=1
+	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
+	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
+	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
+	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
+	vpcmpgtw	xmm7, xmm3, xmm0
+	vpmovsxwq	ymm9, xmm7
+	vpcmpgtw	xmm1, xmm4, xmm0
+	vpmovsxwq	ymm10, xmm1
+	vpcmpgtw	xmm7, xmm5, xmm0
+	vpmovsxwq	ymm7, xmm7
+	vpcmpgtw	xmm1, xmm6, xmm0
+	vpmovsxwq	ymm1, xmm1
+	vpcmpeqw	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxwq	ymm3, xmm3
+	vpcmpeqw	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxwq	ymm4, xmm4
+	vpcmpeqw	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxwq	ymm5, xmm5
+	vpcmpeqw	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxwq	ymm6, xmm6
+	vblendvpd	ymm3, ymm3, ymm2, ymm9
+	vblendvpd	ymm4, ymm4, ymm2, ymm10
+	vblendvpd	ymm5, ymm5, ymm2, ymm7
+	vblendvpd	ymm1, ymm6, ymm2, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_595
+# %bb.596:
+	cmp	rdx, r10
+	je	.LBB4_1351
+.LBB4_597:
+	mov	esi, 1
+.LBB4_598:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rdx]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	rax
+	test	di, di
+	cmovg	rax, rsi
+	mov	qword ptr [r8 + 8*rdx], rax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_598
+	jmp	.LBB4_1351
+.LBB4_602:
+	mov	esi, r10d
+	and	esi, -2
+	xor	eax, eax
+	vxorps	xmm0, xmm0, xmm0
+	vmovss	xmm1, dword ptr [rip + .LCPI4_9] # xmm1 = mem[0],zero,zero,zero
+	movabs	r9, -9223372036854775808
+	jmp	.LBB4_605
+.LBB4_603:                              #   in Loop: Header=BB4_605 Depth=1
+	vmovmskps	edx, xmm2
+	and	edx, 1
+	neg	edx
+	or	edx, 1
+	vcvtsi2ss	xmm2, xmm4, edx
+	vsubss	xmm3, xmm2, xmm1
+	vcvttss2si	rdi, xmm3
+	xor	rdi, r9
+	vcvttss2si	rdx, xmm2
+	vucomiss	xmm2, xmm1
+	cmovae	rdx, rdi
+	mov	qword ptr [r8 + 8*rax + 8], rdx
+	add	rax, 2
+	cmp	rsi, rax
+	je	.LBB4_254
+.LBB4_605:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm2, dword ptr [rcx + 4*rax]   # xmm2 = mem[0],zero,zero,zero
+	vucomiss	xmm0, xmm2
+	jne	.LBB4_607
+# %bb.606:                              #   in Loop: Header=BB4_605 Depth=1
+	xor	edx, edx
+	jmp	.LBB4_608
+.LBB4_607:                              #   in Loop: Header=BB4_605 Depth=1
+	vmovmskps	edx, xmm2
+	and	edx, 1
+	neg	edx
+	or	edx, 1
+	vcvtsi2ss	xmm2, xmm4, edx
+	vsubss	xmm3, xmm2, xmm1
+	vcvttss2si	rdi, xmm3
+	xor	rdi, r9
+	vcvttss2si	rdx, xmm2
+	vucomiss	xmm2, xmm1
+	cmovae	rdx, rdi
+.LBB4_608:                              #   in Loop: Header=BB4_605 Depth=1
+	mov	qword ptr [r8 + 8*rax], rdx
+	vmovss	xmm2, dword ptr [rcx + 4*rax + 4] # xmm2 = mem[0],zero,zero,zero
+	vucomiss	xmm0, xmm2
+	jne	.LBB4_603
+# %bb.609:                              #   in Loop: Header=BB4_605 Depth=1
+	xor	edx, edx
+	mov	qword ptr [r8 + 8*rax + 8], rdx
+	add	rax, 2
+	cmp	rsi, rax
+	jne	.LBB4_605
+.LBB4_254:
+	test	r10b, 1
+	je	.LBB4_1351
+# %bb.255:
+	vmovss	xmm0, dword ptr [rcx + 4*rax]   # xmm0 = mem[0],zero,zero,zero
+	vxorps	xmm1, xmm1, xmm1
+	vucomiss	xmm1, xmm0
+	jne	.LBB4_1280
+# %bb.256:
+	xor	ecx, ecx
+	jmp	.LBB4_1281
+.LBB4_613:
+	mov	edx, r10d
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_614:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm3, xmmword ptr [rcx + 4*rsi]
+	vmovdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
+	vmovdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
+	vmovdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
+	vpcmpgtd	xmm7, xmm3, xmm0
+	vpmovsxdq	ymm9, xmm7
+	vpcmpgtd	xmm1, xmm4, xmm0
+	vpmovsxdq	ymm10, xmm1
+	vpcmpgtd	xmm7, xmm5, xmm0
+	vpmovsxdq	ymm7, xmm7
+	vpcmpgtd	xmm1, xmm6, xmm0
+	vpmovsxdq	ymm1, xmm1
+	vpcmpeqd	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxdq	ymm3, xmm3
+	vpcmpeqd	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxdq	ymm4, xmm4
+	vpcmpeqd	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxdq	ymm5, xmm5
+	vpcmpeqd	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxdq	ymm6, xmm6
+	vblendvpd	ymm3, ymm3, ymm2, ymm9
+	vblendvpd	ymm4, ymm4, ymm2, ymm10
+	vblendvpd	ymm5, ymm5, ymm2, ymm7
+	vblendvpd	ymm1, ymm6, ymm2, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_614
+# %bb.615:
+	cmp	rdx, r10
+	je	.LBB4_1351
+.LBB4_616:
+	mov	esi, 1
+.LBB4_617:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rdx]
+	xor	eax, eax
+	test	edi, edi
+	setne	al
+	neg	rax
+	test	edi, edi
+	cmovg	rax, rsi
+	mov	qword ptr [r8 + 8*rdx], rax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_617
+	jmp	.LBB4_1351
+.LBB4_618:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+.LBB4_619:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
+	vpxor	ymm2, ymm2, ymm1
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vpsrlw	xmm2, xmm2, 15
+	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpsrlw	xmm3, xmm3, 15
+	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpsrlw	xmm4, xmm4, 15
+	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpsrlw	xmm5, xmm5, 15
+	vmovdqu	xmmword ptr [r8 + 2*rsi], xmm2
+	vmovdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
+	vmovdqu	xmmword ptr [r8 + 2*rsi + 32], xmm4
+	vmovdqu	xmmword ptr [r8 + 2*rsi + 48], xmm5
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_619
+# %bb.620:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_621:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_621
+	jmp	.LBB4_1351
+.LBB4_622:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+.LBB4_623:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
+	vpxor	ymm2, ymm2, ymm1
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vpsrlw	xmm2, xmm2, 15
+	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpsrlw	xmm3, xmm3, 15
+	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpsrlw	xmm4, xmm4, 15
+	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpsrlw	xmm5, xmm5, 15
+	vmovdqu	xmmword ptr [r8 + 2*rsi], xmm2
+	vmovdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
+	vmovdqu	xmmword ptr [r8 + 2*rsi + 32], xmm4
+	vmovdqu	xmmword ptr [r8 + 2*rsi + 48], xmm5
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_623
+# %bb.624:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_625:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_625
+	jmp	.LBB4_1351
+.LBB4_626:
+	mov	esi, eax
+	and	esi, -16
+	xor	edi, edi
+	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vxorpd	xmm9, xmm9, xmm9
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	vpxor	xmm10, xmm10, xmm10
+.LBB4_627:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi]
+	vmovupd	ymm5, ymmword ptr [rcx + 8*rdi + 32]
+	vmovupd	ymm6, ymmword ptr [rcx + 8*rdi + 64]
+	vmovupd	ymm7, ymmword ptr [rcx + 8*rdi + 96]
+	vcmpeqpd	ymm8, ymm9, ymm4
+	vextractf128	xmm1, ymm8, 1
+	vpackssdw	xmm1, xmm8, xmm1
+	vpackssdw	xmm11, xmm1, xmm1
+	vcmpeqpd	ymm8, ymm9, ymm5
+	vextractf128	xmm3, ymm8, 1
+	vpackssdw	xmm3, xmm8, xmm3
+	vpackssdw	xmm12, xmm3, xmm3
+	vcmpeqpd	ymm8, ymm9, ymm6
+	vextractf128	xmm1, ymm8, 1
+	vpackssdw	xmm1, xmm8, xmm1
+	vpackssdw	xmm1, xmm1, xmm1
+	vcmpeqpd	ymm8, ymm9, ymm7
+	vextractf128	xmm3, ymm8, 1
+	vpackssdw	xmm3, xmm8, xmm3
+	vpackssdw	xmm3, xmm3, xmm3
+	vandpd	ymm4, ymm4, ymm0
+	vorpd	ymm4, ymm2, ymm4
+	vandpd	ymm5, ymm5, ymm0
+	vorpd	ymm5, ymm2, ymm5
+	vandpd	ymm6, ymm6, ymm0
+	vorpd	ymm6, ymm2, ymm6
+	vandpd	ymm7, ymm7, ymm0
+	vorpd	ymm7, ymm2, ymm7
+	vcvttpd2dq	xmm4, ymm4
+	vcvttpd2dq	xmm5, ymm5
+	vpackusdw	xmm4, xmm4, xmm4
+	vpackusdw	xmm5, xmm5, xmm5
+	vcvttpd2dq	xmm6, ymm6
+	vpackusdw	xmm6, xmm6, xmm6
+	vcvttpd2dq	xmm7, ymm7
+	vpackusdw	xmm7, xmm7, xmm7
+	vpblendvb	xmm4, xmm4, xmm10, xmm11
+	vpblendvb	xmm5, xmm5, xmm10, xmm12
+	vpblendvb	xmm1, xmm6, xmm10, xmm1
+	vpblendvb	xmm3, xmm7, xmm10, xmm3
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vinserti128	ymm3, ymm4, xmm5, 1
+	vpunpcklqdq	ymm1, ymm3, ymm1        # ymm1 = ymm3[0],ymm1[0],ymm3[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB4_627
+# %bb.628:
+	cmp	rsi, rax
+	je	.LBB4_1351
+.LBB4_629:
+	vxorpd	xmm0, xmm0, xmm0
+	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
+	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
+                                        # xmm2 = mem[0,0]
+.LBB4_630:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
+	vucomisd	xmm0, xmm3
+	vandpd	xmm3, xmm3, xmm1
+	vorpd	xmm3, xmm2, xmm3
+	vcvttsd2si	edi, xmm3
+	cmove	edi, edx
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB4_630
+	jmp	.LBB4_1351
+.LBB4_631:
+	mov	esi, eax
+	and	esi, -16
+	xor	edi, edi
+	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vxorpd	xmm9, xmm9, xmm9
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	vpxor	xmm10, xmm10, xmm10
+.LBB4_632:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi]
+	vmovupd	ymm5, ymmword ptr [rcx + 8*rdi + 32]
+	vmovupd	ymm6, ymmword ptr [rcx + 8*rdi + 64]
+	vmovupd	ymm7, ymmword ptr [rcx + 8*rdi + 96]
+	vcmpeqpd	ymm8, ymm9, ymm4
+	vextractf128	xmm1, ymm8, 1
+	vpackssdw	xmm1, xmm8, xmm1
+	vpackssdw	xmm11, xmm1, xmm1
+	vcmpeqpd	ymm8, ymm9, ymm5
+	vextractf128	xmm3, ymm8, 1
+	vpackssdw	xmm3, xmm8, xmm3
+	vpackssdw	xmm12, xmm3, xmm3
+	vcmpeqpd	ymm8, ymm9, ymm6
+	vextractf128	xmm1, ymm8, 1
+	vpackssdw	xmm1, xmm8, xmm1
+	vpackssdw	xmm1, xmm1, xmm1
+	vcmpeqpd	ymm8, ymm9, ymm7
+	vextractf128	xmm3, ymm8, 1
+	vpackssdw	xmm3, xmm8, xmm3
+	vpackssdw	xmm3, xmm3, xmm3
+	vandpd	ymm4, ymm4, ymm0
+	vorpd	ymm4, ymm2, ymm4
+	vandpd	ymm5, ymm5, ymm0
+	vorpd	ymm5, ymm2, ymm5
+	vandpd	ymm6, ymm6, ymm0
+	vorpd	ymm6, ymm2, ymm6
+	vandpd	ymm7, ymm7, ymm0
+	vorpd	ymm7, ymm2, ymm7
+	vcvttpd2dq	xmm4, ymm4
+	vcvttpd2dq	xmm5, ymm5
+	vpackssdw	xmm4, xmm4, xmm4
+	vpackssdw	xmm5, xmm5, xmm5
+	vcvttpd2dq	xmm6, ymm6
+	vpackssdw	xmm6, xmm6, xmm6
+	vcvttpd2dq	xmm7, ymm7
+	vpackssdw	xmm7, xmm7, xmm7
+	vpblendvb	xmm4, xmm4, xmm10, xmm11
+	vpblendvb	xmm5, xmm5, xmm10, xmm12
+	vpblendvb	xmm1, xmm6, xmm10, xmm1
+	vpblendvb	xmm3, xmm7, xmm10, xmm3
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vinserti128	ymm3, ymm4, xmm5, 1
+	vpunpcklqdq	ymm1, ymm3, ymm1        # ymm1 = ymm3[0],ymm1[0],ymm3[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB4_632
+# %bb.633:
+	cmp	rsi, rax
+	je	.LBB4_1351
+.LBB4_634:
+	vxorpd	xmm0, xmm0, xmm0
+	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
+	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
+                                        # xmm2 = mem[0,0]
+.LBB4_635:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
+	vucomisd	xmm0, xmm3
+	vandpd	xmm3, xmm3, xmm1
+	vorpd	xmm3, xmm2, xmm3
+	vcvttsd2si	edi, xmm3
+	cmove	edi, edx
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB4_635
+	jmp	.LBB4_1351
+.LBB4_642:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_16] # xmm2 = <1,1,1,1,u,u,u,u>
+.LBB4_643:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpackssdw	xmm3, xmm3, xmm3
+	vpand	xmm3, xmm3, xmm2
+	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpackssdw	xmm4, xmm4, xmm4
+	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
+	vpand	xmm4, xmm4, xmm2
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpackssdw	xmm5, xmm5, xmm5
+	vpand	xmm5, xmm5, xmm2
+	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
+	vpxor	ymm6, ymm6, ymm1
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpackssdw	xmm6, xmm6, xmm6
+	vpand	xmm6, xmm6, xmm2
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vpunpcklqdq	ymm3, ymm3, ymm5        # ymm3 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
+	vpermq	ymm3, ymm3, 216                 # ymm3 = ymm3[0,2,1,3]
+	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_643
+# %bb.644:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_645:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_645
+	jmp	.LBB4_1351
+.LBB4_646:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_16] # xmm2 = <1,1,1,1,u,u,u,u>
+.LBB4_647:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpackssdw	xmm3, xmm3, xmm3
+	vpand	xmm3, xmm3, xmm2
+	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpackssdw	xmm4, xmm4, xmm4
+	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
+	vpand	xmm4, xmm4, xmm2
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpackssdw	xmm5, xmm5, xmm5
+	vpand	xmm5, xmm5, xmm2
+	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
+	vpxor	ymm6, ymm6, ymm1
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpackssdw	xmm6, xmm6, xmm6
+	vpand	xmm6, xmm6, xmm2
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vpunpcklqdq	ymm3, ymm3, ymm5        # ymm3 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
+	vpermq	ymm3, ymm3, 216                 # ymm3 = ymm3[0,2,1,3]
+	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_647
+# %bb.648:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_649:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_649
+	jmp	.LBB4_1351
+.LBB4_662:
+	mov	edx, r10d
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm9, ymm9, ymm9
+	vmovdqa	xmm10, xmmword ptr [rip + .LCPI4_16] # xmm10 = <1,1,1,1,u,u,u,u>
+.LBB4_663:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi]
+	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
+	vpcmpgtq	ymm3, ymm7, ymm0
+	vextracti128	xmm5, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm5
+	vpackssdw	xmm11, xmm3, xmm3
+	vpcmpgtq	ymm5, ymm8, ymm0
+	vextracti128	xmm1, ymm5, 1
+	vpackssdw	xmm1, xmm5, xmm1
+	vpackssdw	xmm12, xmm1, xmm1
+	vpcmpgtq	ymm1, ymm6, ymm0
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vpackssdw	xmm1, xmm1, xmm1
+	vpcmpgtq	ymm2, ymm4, ymm0
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vpackssdw	xmm2, xmm2, xmm2
+	vpcmpeqq	ymm3, ymm7, ymm0
+	vpxor	ymm3, ymm9, ymm3
+	vextracti128	xmm7, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm7
+	vpackssdw	xmm3, xmm3, xmm3
+	vpcmpeqq	ymm7, ymm8, ymm0
+	vpxor	ymm7, ymm9, ymm7
+	vextracti128	xmm5, ymm7, 1
+	vpackssdw	xmm5, xmm7, xmm5
+	vpackssdw	xmm5, xmm5, xmm5
+	vpcmpeqq	ymm6, ymm6, ymm0
+	vpxor	ymm6, ymm9, ymm6
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpackssdw	xmm6, xmm6, xmm6
+	vpcmpeqq	ymm4, ymm4, ymm0
+	vpxor	ymm4, ymm9, ymm4
+	vextracti128	xmm7, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm7
+	vpackssdw	xmm4, xmm4, xmm4
+	vpblendvb	xmm3, xmm3, xmm10, xmm11
+	vpblendvb	xmm5, xmm5, xmm10, xmm12
+	vpblendvb	xmm1, xmm6, xmm10, xmm1
+	vpblendvb	xmm2, xmm4, xmm10, xmm2
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vinserti128	ymm2, ymm3, xmm5, 1
+	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_663
+# %bb.664:
+	cmp	rdx, r10
+	je	.LBB4_1351
+.LBB4_665:
+	mov	esi, 1
+.LBB4_666:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rdx]
+	xor	eax, eax
+	test	rdi, rdi
+	setne	al
+	neg	eax
+	test	rdi, rdi
+	cmovg	eax, esi
+	mov	word ptr [r8 + 2*rdx], ax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_666
+	jmp	.LBB4_1351
+.LBB4_667:
+	mov	edx, r10d
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm9, ymm9, ymm9
+	vmovdqa	xmm10, xmmword ptr [rip + .LCPI4_16] # xmm10 = <1,1,1,1,u,u,u,u>
+.LBB4_668:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi]
+	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
+	vpcmpgtq	ymm3, ymm7, ymm0
+	vextracti128	xmm5, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm5
+	vpackssdw	xmm11, xmm3, xmm3
+	vpcmpgtq	ymm5, ymm8, ymm0
+	vextracti128	xmm1, ymm5, 1
+	vpackssdw	xmm1, xmm5, xmm1
+	vpackssdw	xmm12, xmm1, xmm1
+	vpcmpgtq	ymm1, ymm6, ymm0
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vpackssdw	xmm1, xmm1, xmm1
+	vpcmpgtq	ymm2, ymm4, ymm0
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vpackssdw	xmm2, xmm2, xmm2
+	vpcmpeqq	ymm3, ymm7, ymm0
+	vpxor	ymm3, ymm9, ymm3
+	vextracti128	xmm7, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm7
+	vpackssdw	xmm3, xmm3, xmm3
+	vpcmpeqq	ymm7, ymm8, ymm0
+	vpxor	ymm7, ymm9, ymm7
+	vextracti128	xmm5, ymm7, 1
+	vpackssdw	xmm5, xmm7, xmm5
+	vpackssdw	xmm5, xmm5, xmm5
+	vpcmpeqq	ymm6, ymm6, ymm0
+	vpxor	ymm6, ymm9, ymm6
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpackssdw	xmm6, xmm6, xmm6
+	vpcmpeqq	ymm4, ymm4, ymm0
+	vpxor	ymm4, ymm9, ymm4
+	vextracti128	xmm7, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm7
+	vpackssdw	xmm4, xmm4, xmm4
+	vpblendvb	xmm3, xmm3, xmm10, xmm11
+	vpblendvb	xmm5, xmm5, xmm10, xmm12
+	vpblendvb	xmm1, xmm6, xmm10, xmm1
+	vpblendvb	xmm2, xmm4, xmm10, xmm2
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vinserti128	ymm2, ymm3, xmm5, 1
+	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_668
+# %bb.669:
+	cmp	rdx, r10
+	je	.LBB4_1351
+.LBB4_670:
+	mov	esi, 1
+.LBB4_671:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rdx]
+	xor	eax, eax
+	test	rdi, rdi
+	setne	al
+	neg	eax
+	test	rdi, rdi
+	cmovg	eax, esi
+	mov	word ptr [r8 + 2*rdx], ax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_671
+	jmp	.LBB4_1351
+.LBB4_672:
+	mov	esi, eax
+	and	esi, -32
+	xor	edi, edi
+	vxorps	xmm9, xmm9, xmm9
+	vpcmpeqd	ymm10, ymm10, ymm10
+	vmovdqa	xmm11, xmmword ptr [rip + .LCPI4_11] # xmm11 = [1,1,1,1,1,1,1,1]
+	vpcmpeqd	xmm12, xmm12, xmm12
+.LBB4_673:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm4, ymmword ptr [rcx + 4*rdi]
+	vmovups	ymm5, ymmword ptr [rcx + 4*rdi + 32]
+	vmovups	ymm6, ymmword ptr [rcx + 4*rdi + 64]
+	vmovups	ymm7, ymmword ptr [rcx + 4*rdi + 96]
+	vcmpeqps	ymm8, ymm9, ymm4
+	vextractf128	xmm0, ymm8, 1
+	vpackssdw	xmm13, xmm8, xmm0
+	vcmpeqps	ymm8, ymm9, ymm5
+	vextractf128	xmm1, ymm8, 1
+	vpackssdw	xmm1, xmm8, xmm1
+	vcmpeqps	ymm8, ymm9, ymm6
+	vextractf128	xmm2, ymm8, 1
+	vpackssdw	xmm2, xmm8, xmm2
+	vcmpeqps	ymm8, ymm9, ymm7
+	vextractf128	xmm3, ymm8, 1
+	vpackssdw	xmm3, xmm8, xmm3
+	vpcmpgtd	ymm4, ymm4, ymm10
+	vextracti128	xmm0, ymm4, 1
+	vpackssdw	xmm0, xmm4, xmm0
+	vpcmpgtd	ymm4, ymm5, ymm10
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpcmpgtd	ymm5, ymm6, ymm10
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpcmpgtd	ymm6, ymm7, ymm10
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpblendvb	xmm0, xmm12, xmm11, xmm0
+	vpandn	xmm0, xmm13, xmm0
+	vpblendvb	xmm4, xmm12, xmm11, xmm4
+	vpandn	xmm1, xmm1, xmm4
+	vpblendvb	xmm4, xmm12, xmm11, xmm5
+	vpblendvb	xmm5, xmm12, xmm11, xmm6
+	vpandn	xmm2, xmm2, xmm4
+	vpandn	xmm3, xmm3, xmm5
+	vmovdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	vmovdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	vmovdqu	xmmword ptr [r8 + 2*rdi + 48], xmm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB4_673
+# %bb.674:
+	cmp	rsi, rax
+	je	.LBB4_1351
+.LBB4_675:
+	vpxor	xmm0, xmm0, xmm0
+.LBB4_676:                              # =>This Inner Loop Header: Depth=1
+	vmovd	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	vmovd	edi, xmm1
+	xor	edx, edx
+	test	edi, edi
+	setns	dl
+	vucomiss	xmm0, xmm1
+	lea	edx, [rdx + rdx - 1]
+	cmove	edx, r10d
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB4_676
+	jmp	.LBB4_1351
+.LBB4_677:
+	mov	esi, eax
+	and	esi, -32
+	xor	edi, edi
+	vxorps	xmm9, xmm9, xmm9
+	vpcmpeqd	ymm10, ymm10, ymm10
+	vmovdqa	xmm11, xmmword ptr [rip + .LCPI4_11] # xmm11 = [1,1,1,1,1,1,1,1]
+	vpcmpeqd	xmm12, xmm12, xmm12
+.LBB4_678:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm4, ymmword ptr [rcx + 4*rdi]
+	vmovups	ymm5, ymmword ptr [rcx + 4*rdi + 32]
+	vmovups	ymm6, ymmword ptr [rcx + 4*rdi + 64]
+	vmovups	ymm7, ymmword ptr [rcx + 4*rdi + 96]
+	vcmpeqps	ymm8, ymm9, ymm4
+	vextractf128	xmm0, ymm8, 1
+	vpackssdw	xmm13, xmm8, xmm0
+	vcmpeqps	ymm8, ymm9, ymm5
+	vextractf128	xmm1, ymm8, 1
+	vpackssdw	xmm1, xmm8, xmm1
+	vcmpeqps	ymm8, ymm9, ymm6
+	vextractf128	xmm2, ymm8, 1
+	vpackssdw	xmm2, xmm8, xmm2
+	vcmpeqps	ymm8, ymm9, ymm7
+	vextractf128	xmm3, ymm8, 1
+	vpackssdw	xmm3, xmm8, xmm3
+	vpcmpgtd	ymm4, ymm4, ymm10
+	vextracti128	xmm0, ymm4, 1
+	vpackssdw	xmm0, xmm4, xmm0
+	vpcmpgtd	ymm4, ymm5, ymm10
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpcmpgtd	ymm5, ymm6, ymm10
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpcmpgtd	ymm6, ymm7, ymm10
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpblendvb	xmm0, xmm12, xmm11, xmm0
+	vpandn	xmm0, xmm13, xmm0
+	vpblendvb	xmm4, xmm12, xmm11, xmm4
+	vpandn	xmm1, xmm1, xmm4
+	vpblendvb	xmm4, xmm12, xmm11, xmm5
+	vpblendvb	xmm5, xmm12, xmm11, xmm6
+	vpandn	xmm2, xmm2, xmm4
+	vpandn	xmm3, xmm3, xmm5
+	vmovdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	vmovdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	vmovdqu	xmmword ptr [r8 + 2*rdi + 48], xmm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB4_678
+# %bb.679:
+	cmp	rsi, rax
+	je	.LBB4_1351
+.LBB4_680:
+	vpxor	xmm0, xmm0, xmm0
+.LBB4_681:                              # =>This Inner Loop Header: Depth=1
+	vmovd	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	vmovd	edi, xmm1
+	xor	edx, edx
+	test	edi, edi
+	setns	dl
+	vucomiss	xmm0, xmm1
+	lea	edx, [rdx + rdx - 1]
+	cmove	edx, r10d
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB4_681
+	jmp	.LBB4_1351
+.LBB4_688:
+	mov	edx, r10d
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm8, ymm8, ymm8
+	vmovdqa	xmm9, xmmword ptr [rip + .LCPI4_11] # xmm9 = [1,1,1,1,1,1,1,1]
+.LBB4_689:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi]
+	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 64]
+	vmovdqu	ymm7, ymmword ptr [rcx + 4*rsi + 96]
+	vpcmpgtd	ymm3, ymm4, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpackssdw	xmm10, xmm3, xmm1
+	vpcmpgtd	ymm1, ymm5, ymm0
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm11, xmm1, xmm2
+	vpcmpgtd	ymm2, ymm6, ymm0
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vpcmpgtd	ymm3, ymm7, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpackssdw	xmm1, xmm3, xmm1
+	vpcmpeqd	ymm3, ymm4, ymm0
+	vpxor	ymm3, ymm8, ymm3
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpcmpeqd	ymm4, ymm5, ymm0
+	vpxor	ymm4, ymm8, ymm4
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpcmpeqd	ymm5, ymm6, ymm0
+	vpxor	ymm5, ymm8, ymm5
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpcmpeqd	ymm6, ymm7, ymm0
+	vpxor	ymm6, ymm8, ymm6
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpblendvb	xmm3, xmm3, xmm9, xmm10
+	vpblendvb	xmm4, xmm4, xmm9, xmm11
+	vpblendvb	xmm2, xmm5, xmm9, xmm2
+	vpblendvb	xmm1, xmm6, xmm9, xmm1
+	vmovdqu	xmmword ptr [r8 + 2*rsi], xmm3
+	vmovdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
+	vmovdqu	xmmword ptr [r8 + 2*rsi + 32], xmm2
+	vmovdqu	xmmword ptr [r8 + 2*rsi + 48], xmm1
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_689
+# %bb.690:
+	cmp	rdx, r10
+	je	.LBB4_1351
+.LBB4_691:
+	mov	esi, 1
+.LBB4_692:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rdx]
+	xor	eax, eax
+	test	edi, edi
+	setne	al
+	neg	eax
+	test	edi, edi
+	cmovg	eax, esi
+	mov	word ptr [r8 + 2*rdx], ax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_692
+	jmp	.LBB4_1351
+.LBB4_693:
+	mov	edx, r10d
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm8, ymm8, ymm8
+	vmovdqa	xmm9, xmmword ptr [rip + .LCPI4_11] # xmm9 = [1,1,1,1,1,1,1,1]
+.LBB4_694:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi]
+	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 64]
+	vmovdqu	ymm7, ymmword ptr [rcx + 4*rsi + 96]
+	vpcmpgtd	ymm3, ymm4, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpackssdw	xmm10, xmm3, xmm1
+	vpcmpgtd	ymm1, ymm5, ymm0
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm11, xmm1, xmm2
+	vpcmpgtd	ymm2, ymm6, ymm0
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vpcmpgtd	ymm3, ymm7, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpackssdw	xmm1, xmm3, xmm1
+	vpcmpeqd	ymm3, ymm4, ymm0
+	vpxor	ymm3, ymm8, ymm3
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpcmpeqd	ymm4, ymm5, ymm0
+	vpxor	ymm4, ymm8, ymm4
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpcmpeqd	ymm5, ymm6, ymm0
+	vpxor	ymm5, ymm8, ymm5
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpcmpeqd	ymm6, ymm7, ymm0
+	vpxor	ymm6, ymm8, ymm6
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpblendvb	xmm3, xmm3, xmm9, xmm10
+	vpblendvb	xmm4, xmm4, xmm9, xmm11
+	vpblendvb	xmm2, xmm5, xmm9, xmm2
+	vpblendvb	xmm1, xmm6, xmm9, xmm1
+	vmovdqu	xmmword ptr [r8 + 2*rsi], xmm3
+	vmovdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
+	vmovdqu	xmmword ptr [r8 + 2*rsi + 32], xmm2
+	vmovdqu	xmmword ptr [r8 + 2*rsi + 48], xmm1
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_694
+# %bb.695:
+	cmp	rdx, r10
+	je	.LBB4_1351
+.LBB4_696:
+	mov	esi, 1
+.LBB4_697:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rdx]
+	xor	eax, eax
+	test	edi, edi
+	setne	al
+	neg	eax
+	test	edi, edi
+	cmovg	eax, esi
+	mov	word ptr [r8 + 2*rdx], ax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_697
+	jmp	.LBB4_1351
+.LBB4_698:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_699:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqd	xmm3, xmm0, xmmword ptr [rcx + 4*rsi]
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxdq	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
+	vpcmpeqd	xmm4, xmm0, xmmword ptr [rcx + 4*rsi + 16]
+	vpand	ymm3, ymm3, ymm2
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxdq	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
+	vpand	ymm4, ymm4, ymm2
+	vpcmpeqd	xmm5, xmm0, xmmword ptr [rcx + 4*rsi + 32]
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxdq	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero
+	vpand	ymm5, ymm5, ymm2
+	vpcmpeqd	xmm6, xmm0, xmmword ptr [rcx + 4*rsi + 48]
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxdq	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero
+	vpand	ymm6, ymm6, ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_699
+# %bb.700:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_701:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_701
+	jmp	.LBB4_1351
+.LBB4_702:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_5] # ymm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_703:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
+	vpandn	ymm3, ymm3, ymm1
+	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
+	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
+	vpandn	ymm4, ymm4, ymm1
+	vpandn	ymm5, ymm5, ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm5
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_703
+# %bb.704:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_705:
+	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+	jmp	.LBB4_707
+.LBB4_706:                              #   in Loop: Header=BB4_707 Depth=1
+	vmovd	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_707:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_706
+# %bb.708:                              #   in Loop: Header=BB4_707 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	jmp	.LBB4_706
+.LBB4_709:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1302
+# %bb.710:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	vxorpd	xmm0, xmm0, xmm0
+	vbroadcastsd	ymm1, qword ptr [rip + .LCPI4_0] # ymm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_711:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rsi]
+	vandpd	ymm4, ymm3, ymm1
+	vorpd	ymm4, ymm2, ymm4
+	vextractf128	xmm5, ymm4, 1
+	vcvttsd2si	rbx, xmm5
+	vmovq	xmm6, rbx
+	vpermilps	xmm5, xmm5, 78          # xmm5 = xmm5[2,3,0,1]
+	vcvttsd2si	rbx, xmm5
+	vmovq	xmm5, rbx
+	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
+	vcvttsd2si	rbx, xmm4
+	vmovq	xmm6, rbx
+	vpermilps	xmm4, xmm4, 78          # xmm4 = xmm4[2,3,0,1]
+	vcvttsd2si	rbx, xmm4
+	vmovq	xmm4, rbx
+	vpunpcklqdq	xmm4, xmm6, xmm4        # xmm4 = xmm6[0],xmm4[0]
+	vinserti128	ymm4, ymm4, xmm5, 1
+	vcmpneqpd	ymm3, ymm3, ymm0
+	vandpd	ymm3, ymm3, ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rsi + 32]
+	vandpd	ymm4, ymm3, ymm1
+	vorpd	ymm4, ymm2, ymm4
+	vextractf128	xmm5, ymm4, 1
+	vcvttsd2si	rbx, xmm5
+	vmovq	xmm6, rbx
+	vpermilps	xmm5, xmm5, 78          # xmm5 = xmm5[2,3,0,1]
+	vcvttsd2si	rbx, xmm5
+	vmovq	xmm5, rbx
+	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
+	vcvttsd2si	rbx, xmm4
+	vmovq	xmm6, rbx
+	vpermilps	xmm4, xmm4, 78          # xmm4 = xmm4[2,3,0,1]
+	vcvttsd2si	rbx, xmm4
+	vmovq	xmm4, rbx
+	vpunpcklqdq	xmm4, xmm6, xmm4        # xmm4 = xmm6[0],xmm4[0]
+	vinserti128	ymm4, ymm4, xmm5, 1
+	vcmpneqpd	ymm3, ymm3, ymm0
+	vandpd	ymm3, ymm3, ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_711
+	jmp	.LBB4_1303
+.LBB4_712:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vbroadcastsd	ymm0, qword ptr [rip + .LCPI4_1] # ymm0 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	vcvtpd2ps	xmm2, ymm0
+	vxorpd	xmm8, xmm8, xmm8
+	vbroadcastss	xmm1, dword ptr [rip + .LCPI4_3] # xmm1 = [NaN,NaN,NaN,NaN]
+	vandpd	xmm2, xmm2, xmm1
+.LBB4_713:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rsi]
+	vmovupd	ymm4, ymmword ptr [rcx + 8*rsi + 32]
+	vmovupd	ymm5, ymmword ptr [rcx + 8*rsi + 64]
+	vmovupd	ymm6, ymmword ptr [rcx + 8*rsi + 96]
+	vcmpeqpd	ymm7, ymm8, ymm3
+	vextractf128	xmm0, ymm7, 1
+	vpackssdw	xmm9, xmm7, xmm0
+	vcmpeqpd	ymm7, ymm8, ymm4
+	vextractf128	xmm0, ymm7, 1
+	vpackssdw	xmm10, xmm7, xmm0
+	vcmpeqpd	ymm7, ymm8, ymm5
+	vextractf128	xmm0, ymm7, 1
+	vpackssdw	xmm11, xmm7, xmm0
+	vcmpeqpd	ymm7, ymm8, ymm6
+	vextractf128	xmm0, ymm7, 1
+	vpackssdw	xmm0, xmm7, xmm0
+	vcvtpd2ps	xmm3, ymm3
+	vandnpd	xmm3, xmm1, xmm3
+	vorpd	xmm3, xmm2, xmm3
+	vcvtpd2ps	xmm4, ymm4
+	vpandn	xmm3, xmm9, xmm3
+	vandnpd	xmm4, xmm1, xmm4
+	vorpd	xmm4, xmm2, xmm4
+	vpandn	xmm4, xmm10, xmm4
+	vcvtpd2ps	xmm5, ymm5
+	vandnpd	xmm5, xmm1, xmm5
+	vorpd	xmm5, xmm2, xmm5
+	vpandn	xmm5, xmm11, xmm5
+	vcvtpd2ps	xmm6, ymm6
+	vandnpd	xmm6, xmm1, xmm6
+	vorpd	xmm6, xmm2, xmm6
+	vpandn	xmm0, xmm0, xmm6
+	vmovdqu	xmmword ptr [r8 + 4*rsi], xmm3
+	vmovdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
+	vmovdqu	xmmword ptr [r8 + 4*rsi + 32], xmm5
+	vmovdqu	xmmword ptr [r8 + 4*rsi + 48], xmm0
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_713
+# %bb.714:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_715:
+	vxorpd	xmm0, xmm0, xmm0
+	vpbroadcastd	xmm1, dword ptr [rip + .LCPI4_4] # xmm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_5] # xmm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	jmp	.LBB4_717
+.LBB4_716:                              #   in Loop: Header=BB4_717 Depth=1
+	vmovd	dword ptr [r8 + 4*rdx], xmm3
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_717:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm4, qword ptr [rcx + 8*rdx]   # xmm4 = mem[0],zero
+	vucomisd	xmm0, xmm4
+	vpxor	xmm3, xmm3, xmm3
+	je	.LBB4_716
+# %bb.718:                              #   in Loop: Header=BB4_717 Depth=1
+	vcvtsd2ss	xmm3, xmm4, xmm4
+	vpand	xmm3, xmm3, xmm1
+	vpor	xmm3, xmm2, xmm3
+	jmp	.LBB4_716
+.LBB4_728:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_5] # xmm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_729:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpand	xmm3, xmm3, xmm2
+	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpand	xmm4, xmm4, xmm2
+	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpand	xmm5, xmm5, xmm2
+	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
+	vpxor	ymm6, ymm6, ymm1
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpand	xmm6, xmm6, xmm2
+	vmovdqu	xmmword ptr [r8 + 4*rsi], xmm3
+	vmovdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
+	vmovdqu	xmmword ptr [r8 + 4*rsi + 32], xmm5
+	vmovdqu	xmmword ptr [r8 + 4*rsi + 48], xmm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_729
+# %bb.730:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_731:
+	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+	jmp	.LBB4_733
+.LBB4_732:                              #   in Loop: Header=BB4_733 Depth=1
+	vmovd	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_733:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rdx], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_732
+# %bb.734:                              #   in Loop: Header=BB4_733 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	jmp	.LBB4_732
+.LBB4_735:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_736:                              # =>This Inner Loop Header: Depth=1
+	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
+	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
+	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
+	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
+	vpcmpeqw	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxwq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
+	vpand	ymm3, ymm3, ymm2
+	vpcmpeqw	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxwq	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
+	vpand	ymm4, ymm4, ymm2
+	vpcmpeqw	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxwq	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
+	vpand	ymm5, ymm5, ymm2
+	vpcmpeqw	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxwq	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
+	vpand	ymm6, ymm6, ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_736
+# %bb.737:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_738:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_738
+	jmp	.LBB4_1351
+.LBB4_739:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
+.LBB4_740:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqw	xmm3, xmm0, xmmword ptr [rcx + 2*rsi]
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxwd	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	vpand	ymm3, ymm3, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vpcmpeqw	xmm4, xmm0, xmmword ptr [rcx + 2*rsi + 16]
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxwd	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	vpand	ymm4, ymm4, ymm2
+	vcvtdq2ps	ymm4, ymm4
+	vpcmpeqw	xmm5, xmm0, xmmword ptr [rcx + 2*rsi + 32]
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxwd	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	vpand	ymm5, ymm5, ymm2
+	vcvtdq2ps	ymm5, ymm5
+	vpcmpeqw	xmm6, xmm0, xmmword ptr [rcx + 2*rsi + 48]
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxwd	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	vpand	ymm6, ymm6, ymm2
+	vcvtdq2ps	ymm6, ymm6
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_740
+# %bb.741:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_742:
+	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+	jmp	.LBB4_744
+.LBB4_743:                              #   in Loop: Header=BB4_744 Depth=1
+	vmovd	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_744:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	vmovdqa	xmm1, xmm0
+	jne	.LBB4_743
+# %bb.745:                              #   in Loop: Header=BB4_744 Depth=1
+	vpxor	xmm1, xmm1, xmm1
+	jmp	.LBB4_743
+.LBB4_746:
+	mov	edx, r10d
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_747:                              # =>This Inner Loop Header: Depth=1
+	vmovq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
+	vmovq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
+	vmovq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
+	vmovq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
+	vpcmpgtw	xmm7, xmm3, xmm0
+	vpmovsxwq	ymm9, xmm7
+	vpcmpgtw	xmm1, xmm4, xmm0
+	vpmovsxwq	ymm10, xmm1
+	vpcmpgtw	xmm7, xmm5, xmm0
+	vpmovsxwq	ymm7, xmm7
+	vpcmpgtw	xmm1, xmm6, xmm0
+	vpmovsxwq	ymm1, xmm1
+	vpcmpeqw	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxwq	ymm3, xmm3
+	vpcmpeqw	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxwq	ymm4, xmm4
+	vpcmpeqw	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxwq	ymm5, xmm5
+	vpcmpeqw	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxwq	ymm6, xmm6
+	vblendvpd	ymm3, ymm3, ymm2, ymm9
+	vblendvpd	ymm4, ymm4, ymm2, ymm10
+	vblendvpd	ymm5, ymm5, ymm2, ymm7
+	vblendvpd	ymm1, ymm6, ymm2, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_747
+# %bb.748:
+	cmp	rdx, r10
+	je	.LBB4_1351
+.LBB4_749:
+	mov	esi, 1
+.LBB4_750:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rdx]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	rax
+	test	di, di
+	cmovg	rax, rsi
+	mov	qword ptr [r8 + 8*rdx], rax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_750
+	jmp	.LBB4_1351
+.LBB4_751:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_5] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_752:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm3, xmmword ptr [rcx + 2*rsi]
+	vmovdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
+	vmovdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
+	vmovdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
+	vpcmpgtw	xmm7, xmm3, xmm0
+	vpmovsxwd	ymm9, xmm7
+	vpcmpgtw	xmm1, xmm4, xmm0
+	vpmovsxwd	ymm10, xmm1
+	vpcmpgtw	xmm7, xmm5, xmm0
+	vpmovsxwd	ymm7, xmm7
+	vpcmpgtw	xmm1, xmm6, xmm0
+	vpmovsxwd	ymm1, xmm1
+	vpcmpeqw	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxwd	ymm3, xmm3
+	vcvtdq2ps	ymm3, ymm3
+	vpcmpeqw	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxwd	ymm4, xmm4
+	vcvtdq2ps	ymm4, ymm4
+	vpcmpeqw	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxwd	ymm5, xmm5
+	vcvtdq2ps	ymm5, ymm5
+	vpcmpeqw	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxwd	ymm6, xmm6
+	vcvtdq2ps	ymm6, ymm6
+	vblendvps	ymm3, ymm3, ymm2, ymm9
+	vblendvps	ymm4, ymm4, ymm2, ymm10
+	vblendvps	ymm5, ymm5, ymm2, ymm7
+	vblendvps	ymm1, ymm6, ymm2, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_752
+# %bb.753:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_754:
+	vmovss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
+	vmovss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
+	jmp	.LBB4_756
+.LBB4_755:                              #   in Loop: Header=BB4_756 Depth=1
+	vmovss	dword ptr [r8 + 4*rdx], xmm3
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_756:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	vmovaps	xmm2, xmm0
+	jne	.LBB4_758
+# %bb.757:                              #   in Loop: Header=BB4_756 Depth=1
+	vxorps	xmm2, xmm2, xmm2
+.LBB4_758:                              #   in Loop: Header=BB4_756 Depth=1
+	vmovaps	xmm3, xmm1
+	jg	.LBB4_755
+# %bb.759:                              #   in Loop: Header=BB4_756 Depth=1
+	vmovaps	xmm3, xmm2
+	jmp	.LBB4_755
+.LBB4_763:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm9, ymm9, ymm9
+	vbroadcastss	xmm2, dword ptr [rip + .LCPI4_5] # xmm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_764:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi]
+	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi + 32]
+	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 64]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
+	vpcmpgtq	ymm3, ymm6, ymm0
+	vextracti128	xmm5, ymm3, 1
+	vpackssdw	xmm10, xmm3, xmm5
+	vpcmpgtq	ymm5, ymm7, ymm0
+	vextracti128	xmm1, ymm5, 1
+	vpackssdw	xmm11, xmm5, xmm1
+	vpcmpgtq	ymm1, ymm8, ymm0
+	vextracti128	xmm3, ymm1, 1
+	vpackssdw	xmm12, xmm1, xmm3
+	vpcmpgtq	ymm3, ymm4, ymm0
+	vextracti128	xmm5, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm5
+	vpcmpeqq	ymm5, ymm6, ymm0
+	vpxor	ymm5, ymm9, ymm5
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vcvtdq2ps	xmm5, xmm5
+	vpcmpeqq	ymm6, ymm7, ymm0
+	vpxor	ymm6, ymm9, ymm6
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vcvtdq2ps	xmm6, xmm6
+	vpcmpeqq	ymm7, ymm8, ymm0
+	vpxor	ymm7, ymm9, ymm7
+	vextracti128	xmm1, ymm7, 1
+	vpackssdw	xmm1, xmm7, xmm1
+	vcvtdq2ps	xmm1, xmm1
+	vpcmpeqq	ymm4, ymm4, ymm0
+	vpxor	ymm4, ymm9, ymm4
+	vextracti128	xmm7, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm7
+	vcvtdq2ps	xmm4, xmm4
+	vblendvps	xmm5, xmm5, xmm2, xmm10
+	vblendvps	xmm6, xmm6, xmm2, xmm11
+	vblendvps	xmm1, xmm1, xmm2, xmm12
+	vblendvps	xmm3, xmm4, xmm2, xmm3
+	vmovups	xmmword ptr [r8 + 4*rsi], xmm5
+	vmovups	xmmword ptr [r8 + 4*rsi + 16], xmm6
+	vmovups	xmmword ptr [r8 + 4*rsi + 32], xmm1
+	vmovups	xmmword ptr [r8 + 4*rsi + 48], xmm3
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_764
+# %bb.765:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_766:
+	vmovss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
+	vmovss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
+	jmp	.LBB4_768
+.LBB4_767:                              #   in Loop: Header=BB4_768 Depth=1
+	vmovss	dword ptr [r8 + 4*rdx], xmm3
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_768:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rdx], 0
+	vmovaps	xmm2, xmm0
+	jne	.LBB4_770
+# %bb.769:                              #   in Loop: Header=BB4_768 Depth=1
+	vxorps	xmm2, xmm2, xmm2
+.LBB4_770:                              #   in Loop: Header=BB4_768 Depth=1
+	vmovaps	xmm3, xmm1
+	jg	.LBB4_767
+# %bb.771:                              #   in Loop: Header=BB4_768 Depth=1
+	vmovaps	xmm3, xmm2
+	jmp	.LBB4_767
+.LBB4_772:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1308
+# %bb.773:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	vxorps	xmm0, xmm0, xmm0
+	vpbroadcastd	xmm1, dword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
+.LBB4_774:                              # =>This Inner Loop Header: Depth=1
+	vmovups	xmm2, xmmword ptr [rcx + 4*rsi]
+	vcmpeqps	xmm3, xmm2, xmm0
+	vpmovsxdq	ymm3, xmm3
+	vpsrad	xmm2, xmm2, 31
+	vpor	xmm2, xmm2, xmm1
+	vcvtdq2ps	xmm2, xmm2
+	vpermilps	xmm4, xmm2, 231         # xmm4 = xmm2[3,1,2,3]
+	vcvttss2si	rax, xmm4
+	vmovq	xmm4, rax
+	vpermilpd	xmm5, xmm2, 1           # xmm5 = xmm2[1,0]
+	vcvttss2si	rax, xmm5
+	vmovq	xmm5, rax
+	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
+	vcvttss2si	rax, xmm2
+	vmovq	xmm5, rax
+	vmovshdup	xmm2, xmm2              # xmm2 = xmm2[1,1,3,3]
+	vcvttss2si	rax, xmm2
+	vmovq	xmm2, rax
+	vpunpcklqdq	xmm2, xmm5, xmm2        # xmm2 = xmm5[0],xmm2[0]
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vpandn	ymm2, ymm3, ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovdqu	xmm2, xmmword ptr [rcx + 4*rsi + 16]
+	vpsrad	xmm3, xmm2, 31
+	vpor	xmm3, xmm3, xmm1
+	vcvtdq2ps	xmm3, xmm3
+	vpermilps	xmm4, xmm3, 231         # xmm4 = xmm3[3,1,2,3]
+	vcvttss2si	rax, xmm4
+	vpermilpd	xmm4, xmm3, 1           # xmm4 = xmm3[1,0]
+	vcvttss2si	r11, xmm4
+	vcvttss2si	rbx, xmm3
+	vmovq	xmm4, rax
+	vmovshdup	xmm3, xmm3              # xmm3 = xmm3[1,1,3,3]
+	vcvttss2si	rax, xmm3
+	vmovq	xmm3, r11
+	vmovq	xmm5, rbx
+	vcmpeqps	xmm2, xmm2, xmm0
+	vpmovsxdq	ymm2, xmm2
+	vpunpcklqdq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0]
+	vmovq	xmm4, rax
+	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vpandn	ymm2, ymm2, ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm2
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_774
+	jmp	.LBB4_1309
+.LBB4_784:
+	mov	edx, r10d
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_785:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm3, xmmword ptr [rcx + 4*rsi]
+	vmovdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
+	vmovdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
+	vmovdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
+	vpcmpgtd	xmm7, xmm3, xmm0
+	vpmovsxdq	ymm9, xmm7
+	vpcmpgtd	xmm1, xmm4, xmm0
+	vpmovsxdq	ymm10, xmm1
+	vpcmpgtd	xmm7, xmm5, xmm0
+	vpmovsxdq	ymm7, xmm7
+	vpcmpgtd	xmm1, xmm6, xmm0
+	vpmovsxdq	ymm1, xmm1
+	vpcmpeqd	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxdq	ymm3, xmm3
+	vpcmpeqd	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxdq	ymm4, xmm4
+	vpcmpeqd	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxdq	ymm5, xmm5
+	vpcmpeqd	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxdq	ymm6, xmm6
+	vblendvpd	ymm3, ymm3, ymm2, ymm9
+	vblendvpd	ymm4, ymm4, ymm2, ymm10
+	vblendvpd	ymm5, ymm5, ymm2, ymm7
+	vblendvpd	ymm1, ymm6, ymm2, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_785
+# %bb.786:
+	cmp	rdx, r10
+	je	.LBB4_1351
+.LBB4_787:
+	mov	esi, 1
+.LBB4_788:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rdx]
+	xor	eax, eax
+	test	edi, edi
+	setne	al
+	neg	rax
+	test	edi, edi
+	cmovg	rax, rsi
+	mov	qword ptr [r8 + 8*rdx], rax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_788
+	jmp	.LBB4_1351
+.LBB4_789:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_5] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_790:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi]
+	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 32]
+	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 64]
+	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 96]
+	vpcmpgtd	ymm7, ymm3, ymm0
+	vpcmpgtd	ymm8, ymm4, ymm0
+	vpcmpgtd	ymm9, ymm5, ymm0
+	vpcmpgtd	ymm10, ymm6, ymm0
+	vpcmpeqd	ymm3, ymm3, ymm0
+	vpxor	ymm3, ymm3, ymm1
+	vcvtdq2ps	ymm3, ymm3
+	vpcmpeqd	ymm4, ymm4, ymm0
+	vpxor	ymm4, ymm4, ymm1
+	vcvtdq2ps	ymm4, ymm4
+	vpcmpeqd	ymm5, ymm5, ymm0
+	vpxor	ymm5, ymm5, ymm1
+	vcvtdq2ps	ymm5, ymm5
+	vpcmpeqd	ymm6, ymm6, ymm0
+	vpxor	ymm6, ymm6, ymm1
+	vcvtdq2ps	ymm6, ymm6
+	vblendvps	ymm3, ymm3, ymm2, ymm7
+	vblendvps	ymm4, ymm4, ymm2, ymm8
+	vblendvps	ymm5, ymm5, ymm2, ymm9
+	vblendvps	ymm6, ymm6, ymm2, ymm10
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_790
+# %bb.791:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_792:
+	vmovss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
+	vmovss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
+	jmp	.LBB4_794
+.LBB4_793:                              #   in Loop: Header=BB4_794 Depth=1
+	vmovss	dword ptr [r8 + 4*rdx], xmm3
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_794:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	vmovaps	xmm2, xmm0
+	jne	.LBB4_796
+# %bb.795:                              #   in Loop: Header=BB4_794 Depth=1
+	vxorps	xmm2, xmm2, xmm2
+.LBB4_796:                              #   in Loop: Header=BB4_794 Depth=1
+	vmovaps	xmm3, xmm1
+	jg	.LBB4_793
+# %bb.797:                              #   in Loop: Header=BB4_794 Depth=1
+	vmovaps	xmm3, xmm2
+	jmp	.LBB4_793
+.LBB4_831:
+	mov	esi, eax
+	and	esi, -16
+	xor	edi, edi
+	vxorpd	xmm8, xmm8, xmm8
+	vbroadcastsd	ymm1, qword ptr [rip + .LCPI4_0] # ymm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_832:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi]
+	vmovupd	ymm4, ymmword ptr [rcx + 8*rdi + 32]
+	vmovupd	ymm5, ymmword ptr [rcx + 8*rdi + 64]
+	vmovupd	ymm6, ymmword ptr [rcx + 8*rdi + 96]
+	vcmpeqpd	ymm7, ymm8, ymm3
+	vextractf128	xmm0, ymm7, 1
+	vpackssdw	xmm9, xmm7, xmm0
+	vcmpeqpd	ymm7, ymm8, ymm4
+	vextractf128	xmm0, ymm7, 1
+	vpackssdw	xmm10, xmm7, xmm0
+	vcmpeqpd	ymm7, ymm8, ymm5
+	vextractf128	xmm0, ymm7, 1
+	vpackssdw	xmm11, xmm7, xmm0
+	vcmpeqpd	ymm7, ymm8, ymm6
+	vextractf128	xmm0, ymm7, 1
+	vpackssdw	xmm0, xmm7, xmm0
+	vandpd	ymm3, ymm3, ymm1
+	vorpd	ymm3, ymm2, ymm3
+	vandpd	ymm4, ymm4, ymm1
+	vorpd	ymm4, ymm2, ymm4
+	vandpd	ymm5, ymm5, ymm1
+	vorpd	ymm5, ymm2, ymm5
+	vandpd	ymm6, ymm6, ymm1
+	vorpd	ymm6, ymm2, ymm6
+	vcvttpd2dq	xmm3, ymm3
+	vpandn	xmm3, xmm9, xmm3
+	vcvttpd2dq	xmm4, ymm4
+	vpandn	xmm4, xmm10, xmm4
+	vcvttpd2dq	xmm5, ymm5
+	vcvttpd2dq	xmm6, ymm6
+	vpandn	xmm5, xmm11, xmm5
+	vpandn	xmm0, xmm0, xmm6
+	vmovdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	vmovdqu	xmmword ptr [r8 + 4*rdi + 16], xmm4
+	vmovdqu	xmmword ptr [r8 + 4*rdi + 32], xmm5
+	vmovdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB4_832
+# %bb.833:
+	cmp	rsi, rax
+	je	.LBB4_1351
+.LBB4_834:
+	vpxor	xmm0, xmm0, xmm0
+	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
+	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
+                                        # xmm2 = mem[0,0]
+.LBB4_835:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
+	vucomisd	xmm0, xmm3
+	vandpd	xmm3, xmm3, xmm1
+	vorpd	xmm3, xmm2, xmm3
+	vcvttsd2si	edi, xmm3
+	cmove	edi, edx
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB4_835
+	jmp	.LBB4_1351
+.LBB4_839:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+.LBB4_840:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpand	xmm3, xmm3, xmm2
+	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpand	xmm4, xmm4, xmm2
+	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpand	xmm5, xmm5, xmm2
+	vpcmpeqq	ymm6, ymm0, ymmword ptr [rcx + 8*rsi + 96]
+	vpxor	ymm6, ymm6, ymm1
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpand	xmm6, xmm6, xmm2
+	vmovdqu	xmmword ptr [r8 + 4*rsi], xmm3
+	vmovdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
+	vmovdqu	xmmword ptr [r8 + 4*rsi + 32], xmm5
+	vmovdqu	xmmword ptr [r8 + 4*rsi + 48], xmm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_840
+# %bb.841:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_842:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_842
+	jmp	.LBB4_1351
+.LBB4_843:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
+.LBB4_844:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqw	xmm3, xmm0, xmmword ptr [rcx + 2*rsi]
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxwd	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	vpcmpeqw	xmm4, xmm0, xmmword ptr [rcx + 2*rsi + 16]
+	vpand	ymm3, ymm3, ymm2
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxwd	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	vpand	ymm4, ymm4, ymm2
+	vpcmpeqw	xmm5, xmm0, xmmword ptr [rcx + 2*rsi + 32]
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxwd	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	vpand	ymm5, ymm5, ymm2
+	vpcmpeqw	xmm6, xmm0, xmmword ptr [rcx + 2*rsi + 48]
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxwd	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	vpand	ymm6, ymm6, ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm6
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_844
+# %bb.845:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_846:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_846
+	jmp	.LBB4_1351
+.LBB4_847:
+	mov	edx, r10d
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
+.LBB4_848:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm3, xmmword ptr [rcx + 2*rsi]
+	vmovdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
+	vmovdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
+	vmovdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
+	vpcmpgtw	xmm7, xmm3, xmm0
+	vpmovsxwd	ymm9, xmm7
+	vpcmpgtw	xmm1, xmm4, xmm0
+	vpmovsxwd	ymm10, xmm1
+	vpcmpgtw	xmm7, xmm5, xmm0
+	vpmovsxwd	ymm7, xmm7
+	vpcmpgtw	xmm1, xmm6, xmm0
+	vpmovsxwd	ymm1, xmm1
+	vpcmpeqw	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxwd	ymm3, xmm3
+	vpcmpeqw	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxwd	ymm4, xmm4
+	vpcmpeqw	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxwd	ymm5, xmm5
+	vpcmpeqw	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxwd	ymm6, xmm6
+	vblendvps	ymm3, ymm3, ymm2, ymm9
+	vblendvps	ymm4, ymm4, ymm2, ymm10
+	vblendvps	ymm5, ymm5, ymm2, ymm7
+	vblendvps	ymm1, ymm6, ymm2, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_848
+# %bb.849:
+	cmp	rdx, r10
+	je	.LBB4_1351
+.LBB4_850:
+	mov	esi, 1
+.LBB4_851:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rdx]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	eax
+	test	di, di
+	cmovg	eax, esi
+	mov	dword ptr [r8 + 4*rdx], eax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_851
+	jmp	.LBB4_1351
+.LBB4_852:
+	mov	edx, r10d
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm8, ymm8, ymm8
+	vbroadcastss	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+.LBB4_853:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
+	vmovdqu	ymm7, ymmword ptr [rcx + 8*rsi + 96]
+	vpcmpgtq	ymm3, ymm4, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpackssdw	xmm9, xmm3, xmm1
+	vpcmpgtq	ymm1, ymm5, ymm0
+	vextracti128	xmm3, ymm1, 1
+	vpackssdw	xmm10, xmm1, xmm3
+	vpcmpgtq	ymm3, ymm6, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpackssdw	xmm11, xmm3, xmm1
+	vpcmpgtq	ymm3, ymm7, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpackssdw	xmm1, xmm3, xmm1
+	vpcmpeqq	ymm3, ymm4, ymm0
+	vpxor	ymm3, ymm8, ymm3
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpcmpeqq	ymm4, ymm5, ymm0
+	vpxor	ymm4, ymm8, ymm4
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpcmpeqq	ymm5, ymm6, ymm0
+	vpxor	ymm5, ymm8, ymm5
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpcmpeqq	ymm6, ymm7, ymm0
+	vpxor	ymm6, ymm8, ymm6
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vblendvps	xmm3, xmm3, xmm2, xmm9
+	vblendvps	xmm4, xmm4, xmm2, xmm10
+	vblendvps	xmm5, xmm5, xmm2, xmm11
+	vblendvps	xmm1, xmm6, xmm2, xmm1
+	vmovups	xmmword ptr [r8 + 4*rsi], xmm3
+	vmovups	xmmword ptr [r8 + 4*rsi + 16], xmm4
+	vmovups	xmmword ptr [r8 + 4*rsi + 32], xmm5
+	vmovups	xmmword ptr [r8 + 4*rsi + 48], xmm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_853
+# %bb.854:
+	cmp	rdx, r10
+	je	.LBB4_1351
+.LBB4_855:
+	mov	esi, 1
+.LBB4_856:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rdx]
+	xor	eax, eax
+	test	rdi, rdi
+	setne	al
+	neg	eax
+	test	rdi, rdi
+	cmovg	eax, esi
+	mov	dword ptr [r8 + 4*rdx], eax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_856
+	jmp	.LBB4_1351
+.LBB4_857:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vxorps	xmm0, xmm0, xmm0
+	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_8] # ymm1 = [1,1,1,1,1,1,1,1]
+.LBB4_858:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rsi]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi + 32]
+	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 64]
+	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 96]
+	vpsrad	ymm6, ymm2, 31
+	vpor	ymm6, ymm6, ymm1
+	vpsrad	ymm7, ymm3, 31
+	vpor	ymm7, ymm7, ymm1
+	vpsrad	ymm8, ymm4, 31
+	vpor	ymm8, ymm8, ymm1
+	vpsrad	ymm9, ymm5, 31
+	vpor	ymm9, ymm9, ymm1
+	vcvtdq2ps	ymm6, ymm6
+	vcvtdq2ps	ymm7, ymm7
+	vcvtdq2ps	ymm8, ymm8
+	vcvtdq2ps	ymm9, ymm9
+	vcvttps2dq	ymm6, ymm6
+	vcvttps2dq	ymm7, ymm7
+	vcvttps2dq	ymm8, ymm8
+	vcvttps2dq	ymm9, ymm9
+	vcmpneqps	ymm2, ymm2, ymm0
+	vandps	ymm2, ymm2, ymm6
+	vcmpneqps	ymm3, ymm3, ymm0
+	vandps	ymm3, ymm3, ymm7
+	vcmpneqps	ymm4, ymm4, ymm0
+	vandps	ymm4, ymm8, ymm4
+	vcmpneqps	ymm5, ymm5, ymm0
+	vandps	ymm5, ymm9, ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_858
+# %bb.859:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_860:
+	vxorps	xmm0, xmm0, xmm0
+	jmp	.LBB4_862
+.LBB4_861:                              #   in Loop: Header=BB4_862 Depth=1
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_862:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	xor	esi, esi
+	vucomiss	xmm0, xmm1
+	je	.LBB4_861
+# %bb.863:                              #   in Loop: Header=BB4_862 Depth=1
+	vmovmskps	esi, xmm1
+	and	esi, 1
+	neg	esi
+	or	esi, 1
+	vcvtsi2ss	xmm1, xmm10, esi
+	vcvttss2si	esi, xmm1
+	jmp	.LBB4_861
+.LBB4_870:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_8] # ymm1 = [1,1,1,1,1,1,1,1]
+.LBB4_871:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
+	vpandn	ymm3, ymm3, ymm1
+	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
+	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
+	vpandn	ymm4, ymm4, ymm1
+	vpandn	ymm5, ymm5, ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm5
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_871
+# %bb.872:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_873
+.LBB4_877:
+	mov	edx, r11d
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
+.LBB4_878:                              # =>This Inner Loop Header: Depth=1
+	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
+	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
+	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
+	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
+	vpcmpgtb	xmm7, xmm3, xmm0
+	vpmovsxbd	ymm9, xmm7
+	vpcmpgtb	xmm1, xmm4, xmm0
+	vpmovsxbd	ymm10, xmm1
+	vpcmpgtb	xmm7, xmm5, xmm0
+	vpmovsxbd	ymm7, xmm7
+	vpcmpgtb	xmm1, xmm6, xmm0
+	vpmovsxbd	ymm1, xmm1
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxbd	ymm3, xmm3
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxbd	ymm4, xmm4
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxbd	ymm5, xmm5
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxbd	ymm6, xmm6
+	vblendvps	ymm3, ymm3, ymm2, ymm9
+	vblendvps	ymm4, ymm4, ymm2, ymm10
+	vblendvps	ymm5, ymm5, ymm2, ymm7
+	vblendvps	ymm1, ymm6, ymm2, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_878
+# %bb.879:
+	cmp	rdx, r11
+	je	.LBB4_1351
+	jmp	.LBB4_880
+.LBB4_885:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
+.LBB4_886:                              # =>This Inner Loop Header: Depth=1
+	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
+	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
+	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
+	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxbd	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero
+	vpand	ymm3, ymm3, ymm2
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxbd	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero,xmm4[4],zero,zero,zero,xmm4[5],zero,zero,zero,xmm4[6],zero,zero,zero,xmm4[7],zero,zero,zero
+	vpand	ymm4, ymm4, ymm2
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxbd	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero,xmm5[4],zero,zero,zero,xmm5[5],zero,zero,zero,xmm5[6],zero,zero,zero,xmm5[7],zero,zero,zero
+	vpand	ymm5, ymm5, ymm2
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxbd	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
+	vpand	ymm6, ymm6, ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm6
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_886
+# %bb.887:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_888
+.LBB4_892:
+	mov	edx, r11d
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
+.LBB4_893:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi]
+	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 32]
+	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 64]
+	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 96]
+	vpcmpeqd	ymm7, ymm3, ymm0
+	vpxor	ymm7, ymm7, ymm1
+	vpcmpeqd	ymm8, ymm4, ymm0
+	vpxor	ymm8, ymm8, ymm1
+	vpcmpeqd	ymm9, ymm5, ymm0
+	vpxor	ymm9, ymm9, ymm1
+	vpcmpeqd	ymm10, ymm6, ymm0
+	vpxor	ymm10, ymm10, ymm1
+	vpcmpgtd	ymm3, ymm2, ymm3
+	vpcmpgtd	ymm4, ymm2, ymm4
+	vpcmpgtd	ymm5, ymm2, ymm5
+	vpcmpgtd	ymm6, ymm2, ymm6
+	vblendvps	ymm3, ymm2, ymm7, ymm3
+	vblendvps	ymm4, ymm2, ymm8, ymm4
+	vblendvps	ymm5, ymm2, ymm9, ymm5
+	vblendvps	ymm6, ymm2, ymm10, ymm6
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_893
+# %bb.894:
+	cmp	rdx, r11
+	je	.LBB4_1351
+	jmp	.LBB4_895
+.LBB4_900:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vxorpd	xmm0, xmm0, xmm0
+	vbroadcastsd	ymm1, qword ptr [rip + .LCPI4_0] # ymm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_901:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rsi]
+	vmovupd	ymm4, ymmword ptr [rcx + 8*rsi + 32]
+	vmovupd	ymm5, ymmword ptr [rcx + 8*rsi + 64]
+	vmovupd	ymm6, ymmword ptr [rcx + 8*rsi + 96]
+	vandpd	ymm7, ymm3, ymm1
+	vorpd	ymm7, ymm2, ymm7
+	vandpd	ymm8, ymm4, ymm1
+	vorpd	ymm8, ymm8, ymm2
+	vandpd	ymm9, ymm5, ymm1
+	vorpd	ymm9, ymm9, ymm2
+	vandpd	ymm10, ymm6, ymm1
+	vorpd	ymm10, ymm10, ymm2
+	vcmpneqpd	ymm3, ymm3, ymm0
+	vandpd	ymm3, ymm3, ymm7
+	vcmpneqpd	ymm4, ymm4, ymm0
+	vandpd	ymm4, ymm8, ymm4
+	vcmpneqpd	ymm5, ymm5, ymm0
+	vandpd	ymm5, ymm9, ymm5
+	vcmpneqpd	ymm6, ymm6, ymm0
+	vandpd	ymm6, ymm10, ymm6
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_901
+# %bb.902:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_903
+.LBB4_908:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_909:                              # =>This Inner Loop Header: Depth=1
+	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
+	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
+	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
+	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
+	vpcmpgtb	xmm7, xmm3, xmm0
+	vpmovsxbq	ymm9, xmm7
+	vpcmpgtb	xmm1, xmm4, xmm0
+	vpmovsxbq	ymm10, xmm1
+	vpcmpgtb	xmm7, xmm5, xmm0
+	vpmovsxbq	ymm7, xmm7
+	vpcmpgtb	xmm1, xmm6, xmm0
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxbd	xmm3, xmm3
+	vcvtdq2pd	ymm3, xmm3
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxbd	xmm4, xmm4
+	vcvtdq2pd	ymm4, xmm4
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxbd	xmm5, xmm5
+	vcvtdq2pd	ymm5, xmm5
+	vpmovsxbq	ymm1, xmm1
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxbd	xmm6, xmm6
+	vcvtdq2pd	ymm6, xmm6
+	vblendvpd	ymm3, ymm3, ymm2, ymm9
+	vblendvpd	ymm4, ymm4, ymm2, ymm10
+	vblendvpd	ymm5, ymm5, ymm2, ymm7
+	vblendvpd	ymm1, ymm6, ymm2, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_909
+# %bb.910:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_911
+.LBB4_914:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+.LBB4_915:                              # =>This Inner Loop Header: Depth=1
+	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
+	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
+	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
+	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxbd	xmm3, xmm3              # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
+	vpand	xmm3, xmm3, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxbd	xmm4, xmm4              # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
+	vpand	xmm4, xmm4, xmm2
+	vcvtdq2pd	ymm4, xmm4
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxbd	xmm5, xmm5              # xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
+	vpand	xmm5, xmm5, xmm2
+	vcvtdq2pd	ymm5, xmm5
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxbd	xmm6, xmm6              # xmm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
+	vpand	xmm6, xmm6, xmm2
+	vcvtdq2pd	ymm6, xmm6
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_915
+# %bb.916:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_917
+.LBB4_933:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_12] # xmm2 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+.LBB4_934:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpacksswb	xmm3, xmm3, xmm3
+	vpand	xmm3, xmm3, xmm2
+	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 32]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpacksswb	xmm4, xmm4, xmm4
+	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 64]
+	vpand	xmm4, xmm4, xmm2
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpacksswb	xmm5, xmm5, xmm5
+	vpand	xmm5, xmm5, xmm2
+	vpcmpeqd	ymm6, ymm0, ymmword ptr [rcx + 4*rsi + 96]
+	vpxor	ymm6, ymm6, ymm1
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpacksswb	xmm6, xmm6, xmm6
+	vpand	xmm6, xmm6, xmm2
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vpunpcklqdq	ymm3, ymm3, ymm5        # ymm3 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
+	vpermq	ymm3, ymm3, 216                 # ymm3 = ymm3[0,2,1,3]
+	vmovdqu	ymmword ptr [r8 + rsi], ymm3
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_934
+# %bb.935:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_936
+.LBB4_940:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpbroadcastq	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vxorpd	xmm10, xmm10, xmm10
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	vpxor	xmm11, xmm11, xmm11
+.LBB4_941:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm6, ymmword ptr [rcx + 8*rsi]
+	vmovupd	ymm7, ymmword ptr [rcx + 8*rsi + 32]
+	vmovupd	ymm8, ymmword ptr [rcx + 8*rsi + 64]
+	vmovupd	ymm9, ymmword ptr [rcx + 8*rsi + 96]
+	vcmpeqpd	ymm4, ymm10, ymm6
+	vextractf128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpackssdw	xmm4, xmm4, xmm4
+	vpacksswb	xmm12, xmm4, xmm4
+	vcmpeqpd	ymm5, ymm10, ymm7
+	vextractf128	xmm1, ymm5, 1
+	vpackssdw	xmm1, xmm5, xmm1
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm13, xmm1, xmm1
+	vcmpeqpd	ymm1, ymm8, ymm10
+	vextractf128	xmm3, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm3
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm1, xmm1, xmm1
+	vcmpeqpd	ymm3, ymm9, ymm10
+	vextractf128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpackssdw	xmm3, xmm3, xmm3
+	vpacksswb	xmm3, xmm3, xmm3
+	vandpd	ymm4, ymm6, ymm0
+	vorpd	ymm4, ymm2, ymm4
+	vandpd	ymm6, ymm7, ymm0
+	vorpd	ymm6, ymm2, ymm6
+	vandpd	ymm7, ymm8, ymm0
+	vorpd	ymm7, ymm2, ymm7
+	vandpd	ymm8, ymm9, ymm0
+	vorpd	ymm8, ymm8, ymm2
+	vcvttpd2dq	xmm4, ymm4
+	vpackssdw	xmm4, xmm4, xmm4
+	vpacksswb	xmm4, xmm4, xmm4
+	vcvttpd2dq	xmm6, ymm6
+	vpackssdw	xmm6, xmm6, xmm6
+	vpacksswb	xmm6, xmm6, xmm6
+	vcvttpd2dq	xmm7, ymm7
+	vpackssdw	xmm7, xmm7, xmm7
+	vpacksswb	xmm7, xmm7, xmm7
+	vcvttpd2dq	xmm5, ymm8
+	vpackssdw	xmm5, xmm5, xmm5
+	vpacksswb	xmm5, xmm5, xmm5
+	vpblendvb	xmm4, xmm4, xmm11, xmm12
+	vpblendvb	xmm6, xmm6, xmm11, xmm13
+	vpblendvb	xmm1, xmm7, xmm11, xmm1
+	vpunpckldq	xmm4, xmm4, xmm6        # xmm4 = xmm4[0],xmm6[0],xmm4[1],xmm6[1]
+	vpblendvb	xmm3, xmm5, xmm11, xmm3
+	vpunpckldq	xmm1, xmm1, xmm3        # xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
+	vpunpcklqdq	xmm1, xmm4, xmm1        # xmm1 = xmm4[0],xmm1[0]
+	vmovdqu	xmmword ptr [r8 + rsi], xmm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_941
+# %bb.942:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_943
+.LBB4_948:
+	mov	r11d, r10d
+	and	r11d, -128
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_20] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_949:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
+	vmovdqu	ymm5, ymmword ptr [rcx + rsi + 64]
+	vmovdqu	ymm6, ymmword ptr [rcx + rsi + 96]
+	vpcmpeqb	ymm7, ymm3, ymm0
+	vpxor	ymm7, ymm7, ymm1
+	vpcmpeqb	ymm8, ymm4, ymm0
+	vpxor	ymm8, ymm8, ymm1
+	vpcmpeqb	ymm9, ymm5, ymm0
+	vpxor	ymm9, ymm9, ymm1
+	vpcmpeqb	ymm10, ymm6, ymm0
+	vpxor	ymm10, ymm10, ymm1
+	vpcmpgtb	ymm3, ymm2, ymm3
+	vpcmpgtb	ymm4, ymm2, ymm4
+	vpcmpgtb	ymm5, ymm2, ymm5
+	vpcmpgtb	ymm6, ymm2, ymm6
+	vpblendvb	ymm3, ymm2, ymm7, ymm3
+	vpblendvb	ymm4, ymm2, ymm8, ymm4
+	vpblendvb	ymm5, ymm2, ymm9, ymm5
+	vpblendvb	ymm6, ymm2, ymm10, ymm6
+	vmovdqu	ymmword ptr [r8 + rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm6
+	sub	rsi, -128
+	cmp	r11, rsi
+	jne	.LBB4_949
+# %bb.950:
+	cmp	r11, r10
+	je	.LBB4_1351
+	jmp	.LBB4_951
+.LBB4_956:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_17] # xmm2 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_957:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpackssdw	xmm3, xmm3, xmm3
+	vpacksswb	xmm3, xmm3, xmm3
+	vpand	xmm3, xmm3, xmm2
+	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpackssdw	xmm4, xmm4, xmm4
+	vpacksswb	xmm4, xmm4, xmm4
+	vpand	xmm4, xmm4, xmm2
+	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
+	vpunpckldq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]
+	vpxor	ymm4, ymm5, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpackssdw	xmm4, xmm4, xmm4
+	vpacksswb	xmm4, xmm4, xmm4
+	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 96]
+	vpand	xmm4, xmm4, xmm2
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpackssdw	xmm5, xmm5, xmm5
+	vpacksswb	xmm5, xmm5, xmm5
+	vpand	xmm5, xmm5, xmm2
+	vpunpckldq	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
+	vpunpcklqdq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0]
+	vmovdqu	xmmword ptr [r8 + rsi], xmm3
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_957
+# %bb.958:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_959
+.LBB4_963:
+	mov	edx, eax
+	and	edx, -64
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_19] # xmm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_964:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rsi]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpacksswb	xmm3, xmm3, xmm4
+	vpand	xmm3, xmm3, xmm2
+	vpcmpeqw	ymm4, ymm0, ymmword ptr [rcx + 2*rsi + 32]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpacksswb	xmm4, xmm4, xmm5
+	vpand	xmm4, xmm4, xmm2
+	vpcmpeqw	ymm5, ymm0, ymmword ptr [rcx + 2*rsi + 64]
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpacksswb	xmm5, xmm5, xmm6
+	vpand	xmm5, xmm5, xmm2
+	vpcmpeqw	ymm6, ymm0, ymmword ptr [rcx + 2*rsi + 96]
+	vpxor	ymm6, ymm6, ymm1
+	vextracti128	xmm7, ymm6, 1
+	vpacksswb	xmm6, xmm6, xmm7
+	vpand	xmm6, xmm6, xmm2
+	vmovdqu	xmmword ptr [r8 + rsi], xmm3
+	vmovdqu	xmmword ptr [r8 + rsi + 16], xmm4
+	vmovdqu	xmmword ptr [r8 + rsi + 32], xmm5
+	vmovdqu	xmmword ptr [r8 + rsi + 48], xmm6
+	add	rsi, 64
+	cmp	rdx, rsi
+	jne	.LBB4_964
+# %bb.965:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_966
+.LBB4_970:
+	mov	r11d, r10d
+	and	r11d, -64
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm8, ymm8, ymm8
+	vmovdqa	xmm9, xmmword ptr [rip + .LCPI4_19] # xmm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_971:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi]
+	vmovdqu	ymm5, ymmword ptr [rcx + 2*rsi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 2*rsi + 64]
+	vmovdqu	ymm7, ymmword ptr [rcx + 2*rsi + 96]
+	vpcmpgtw	ymm3, ymm4, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpacksswb	xmm10, xmm3, xmm1
+	vpcmpgtw	ymm1, ymm5, ymm0
+	vextracti128	xmm2, ymm1, 1
+	vpacksswb	xmm11, xmm1, xmm2
+	vpcmpgtw	ymm2, ymm6, ymm0
+	vextracti128	xmm3, ymm2, 1
+	vpacksswb	xmm2, xmm2, xmm3
+	vpcmpgtw	ymm3, ymm7, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpacksswb	xmm1, xmm3, xmm1
+	vpcmpeqw	ymm3, ymm4, ymm0
+	vpxor	ymm3, ymm8, ymm3
+	vextracti128	xmm4, ymm3, 1
+	vpacksswb	xmm3, xmm3, xmm4
+	vpcmpeqw	ymm4, ymm5, ymm0
+	vpxor	ymm4, ymm8, ymm4
+	vextracti128	xmm5, ymm4, 1
+	vpacksswb	xmm4, xmm4, xmm5
+	vpcmpeqw	ymm5, ymm6, ymm0
+	vpxor	ymm5, ymm8, ymm5
+	vextracti128	xmm6, ymm5, 1
+	vpacksswb	xmm5, xmm5, xmm6
+	vpcmpeqw	ymm6, ymm7, ymm0
+	vpxor	ymm6, ymm8, ymm6
+	vextracti128	xmm7, ymm6, 1
+	vpacksswb	xmm6, xmm6, xmm7
+	vpblendvb	xmm3, xmm3, xmm9, xmm10
+	vpblendvb	xmm4, xmm4, xmm9, xmm11
+	vpblendvb	xmm2, xmm5, xmm9, xmm2
+	vpblendvb	xmm1, xmm6, xmm9, xmm1
+	vmovdqu	xmmword ptr [r8 + rsi], xmm3
+	vmovdqu	xmmword ptr [r8 + rsi + 16], xmm4
+	vmovdqu	xmmword ptr [r8 + rsi + 32], xmm2
+	vmovdqu	xmmword ptr [r8 + rsi + 48], xmm1
+	add	rsi, 64
+	cmp	r11, rsi
+	jne	.LBB4_971
+# %bb.972:
+	cmp	r11, r10
+	je	.LBB4_1351
+	jmp	.LBB4_973
+.LBB4_978:
+	mov	r11d, r10d
+	and	r11d, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm9, ymm9, ymm9
+	vmovdqa	xmm11, xmmword ptr [rip + .LCPI4_17] # xmm11 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_979:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm10, ymmword ptr [rcx + 8*rsi]
+	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
+	vpcmpgtq	ymm1, ymm10, ymm0
+	vextracti128	xmm3, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm3
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm12, xmm1, xmm1
+	vpcmpgtq	ymm1, ymm8, ymm0
+	vextracti128	xmm5, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm5
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm13, xmm1, xmm1
+	vpcmpgtq	ymm1, ymm6, ymm0
+	vextracti128	xmm7, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm7
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm7, xmm1, xmm1
+	vpcmpgtq	ymm1, ymm4, ymm0
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm1, xmm1, xmm1
+	vpcmpeqq	ymm2, ymm10, ymm0
+	vpxor	ymm2, ymm9, ymm2
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vpackssdw	xmm2, xmm2, xmm2
+	vpacksswb	xmm2, xmm2, xmm2
+	vpcmpeqq	ymm3, ymm8, ymm0
+	vpxor	ymm3, ymm9, ymm3
+	vextracti128	xmm5, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm5
+	vpackssdw	xmm3, xmm3, xmm3
+	vpacksswb	xmm3, xmm3, xmm3
+	vpcmpeqq	ymm5, ymm6, ymm0
+	vpxor	ymm5, ymm9, ymm5
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpackssdw	xmm5, xmm5, xmm5
+	vpacksswb	xmm5, xmm5, xmm5
+	vpcmpeqq	ymm4, ymm4, ymm0
+	vpxor	ymm4, ymm9, ymm4
+	vextracti128	xmm6, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm6
+	vpackssdw	xmm4, xmm4, xmm4
+	vpacksswb	xmm4, xmm4, xmm4
+	vpblendvb	xmm2, xmm2, xmm11, xmm12
+	vpblendvb	xmm3, xmm3, xmm11, xmm13
+	vpblendvb	xmm5, xmm5, xmm11, xmm7
+	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
+	vpblendvb	xmm1, xmm4, xmm11, xmm1
+	vpunpckldq	xmm1, xmm5, xmm1        # xmm1 = xmm5[0],xmm1[0],xmm5[1],xmm1[1]
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	vmovdqu	xmmword ptr [r8 + rsi], xmm1
+	add	rsi, 16
+	cmp	r11, rsi
+	jne	.LBB4_979
+# %bb.980:
+	cmp	r11, r10
+	je	.LBB4_1351
+	jmp	.LBB4_981
+.LBB4_986:
+	mov	edx, r10d
+	and	edx, -32
+	xor	esi, esi
+	vxorps	xmm12, xmm12, xmm12
+	vpcmpeqd	ymm13, ymm13, ymm13
+	vmovdqa	xmm14, xmmword ptr [rip + .LCPI4_12] # xmm14 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+	vpcmpeqd	xmm15, xmm15, xmm15
+.LBB4_987:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm9, ymmword ptr [rcx + 4*rsi]
+	vmovups	ymm10, ymmword ptr [rcx + 4*rsi + 32]
+	vmovups	ymm11, ymmword ptr [rcx + 4*rsi + 64]
+	vmovups	ymm7, ymmword ptr [rcx + 4*rsi + 96]
+	vcmpeqps	ymm4, ymm9, ymm12
+	vextractf128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpacksswb	xmm8, xmm4, xmm4
+	vcmpeqps	ymm4, ymm10, ymm12
+	vextractf128	xmm6, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm6
+	vpacksswb	xmm6, xmm4, xmm4
+	vcmpeqps	ymm4, ymm11, ymm12
+	vextractf128	xmm0, ymm4, 1
+	vpackssdw	xmm0, xmm4, xmm0
+	vpacksswb	xmm4, xmm0, xmm0
+	vcmpeqps	ymm0, ymm12, ymm7
+	vextractf128	xmm1, ymm0, 1
+	vpackssdw	xmm0, xmm0, xmm1
+	vpacksswb	xmm0, xmm0, xmm0
+	vpcmpgtd	ymm1, ymm9, ymm13
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vpacksswb	xmm1, xmm1, xmm1
+	vpcmpgtd	ymm2, ymm10, ymm13
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vpacksswb	xmm2, xmm2, xmm2
+	vpcmpgtd	ymm3, ymm11, ymm13
+	vextracti128	xmm5, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm5
+	vpacksswb	xmm3, xmm3, xmm3
+	vpcmpgtd	ymm5, ymm7, ymm13
+	vextracti128	xmm7, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm7
+	vpblendvb	xmm1, xmm15, xmm14, xmm1
+	vpacksswb	xmm5, xmm5, xmm5
+	vpandn	xmm1, xmm8, xmm1
+	vpblendvb	xmm2, xmm15, xmm14, xmm2
+	vpblendvb	xmm3, xmm15, xmm14, xmm3
+	vpblendvb	xmm5, xmm15, xmm14, xmm5
+	vpxor	xmm7, xmm7, xmm7
+	vpblendvb	xmm2, xmm2, xmm7, xmm6
+	vpblendvb	xmm0, xmm5, xmm7, xmm0
+	vpandn	xmm3, xmm4, xmm3
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [r8 + rsi], ymm0
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_987
+# %bb.988:
+	cmp	rdx, r10
+	je	.LBB4_1351
+	jmp	.LBB4_989
+.LBB4_994:
+	mov	edx, eax
+	and	edx, -128
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_20] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_995:                              # =>This Inner Loop Header: Depth=1
+	vpcmpeqb	ymm2, ymm0, ymmword ptr [rcx + rsi]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqb	ymm3, ymm0, ymmword ptr [rcx + rsi + 32]
+	vpandn	ymm3, ymm3, ymm1
+	vpcmpeqb	ymm4, ymm0, ymmword ptr [rcx + rsi + 64]
+	vpcmpeqb	ymm5, ymm0, ymmword ptr [rcx + rsi + 96]
+	vpandn	ymm4, ymm4, ymm1
+	vpandn	ymm5, ymm5, ymm1
+	vmovdqu	ymmword ptr [r8 + rsi], ymm2
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm5
+	sub	rsi, -128
+	cmp	rdx, rsi
+	jne	.LBB4_995
+# %bb.996:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_997
+.LBB4_1001:
+	mov	r11d, r10d
+	and	r11d, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm9, ymm9, ymm9
+	vmovdqa	xmm10, xmmword ptr [rip + .LCPI4_12] # xmm10 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+.LBB4_1002:                             # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm7, ymmword ptr [rcx + 4*rsi]
+	vmovdqu	ymm8, ymmword ptr [rcx + 4*rsi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 64]
+	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 96]
+	vpcmpgtd	ymm3, ymm7, ymm0
+	vextracti128	xmm5, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm5
+	vpacksswb	xmm11, xmm3, xmm3
+	vpcmpgtd	ymm5, ymm8, ymm0
+	vextracti128	xmm1, ymm5, 1
+	vpackssdw	xmm1, xmm5, xmm1
+	vpacksswb	xmm12, xmm1, xmm1
+	vpcmpgtd	ymm1, ymm6, ymm0
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vpacksswb	xmm1, xmm1, xmm1
+	vpcmpgtd	ymm2, ymm4, ymm0
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vpacksswb	xmm2, xmm2, xmm2
+	vpcmpeqd	ymm3, ymm7, ymm0
+	vpxor	ymm3, ymm9, ymm3
+	vextracti128	xmm7, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm7
+	vpacksswb	xmm3, xmm3, xmm3
+	vpcmpeqd	ymm7, ymm8, ymm0
+	vpxor	ymm7, ymm9, ymm7
+	vextracti128	xmm5, ymm7, 1
+	vpackssdw	xmm5, xmm7, xmm5
+	vpacksswb	xmm5, xmm5, xmm5
+	vpcmpeqd	ymm6, ymm6, ymm0
+	vpxor	ymm6, ymm9, ymm6
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpacksswb	xmm6, xmm6, xmm6
+	vpcmpeqd	ymm4, ymm4, ymm0
+	vpxor	ymm4, ymm9, ymm4
+	vextracti128	xmm7, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm7
+	vpacksswb	xmm4, xmm4, xmm4
+	vpblendvb	xmm3, xmm3, xmm10, xmm11
+	vpblendvb	xmm5, xmm5, xmm10, xmm12
+	vpblendvb	xmm1, xmm6, xmm10, xmm1
+	vpblendvb	xmm2, xmm4, xmm10, xmm2
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vinserti128	ymm2, ymm3, xmm5, 1
+	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [r8 + rsi], ymm1
+	add	rsi, 32
+	cmp	r11, rsi
+	jne	.LBB4_1002
+# %bb.1003:
+	cmp	r11, r10
+	je	.LBB4_1351
+	jmp	.LBB4_1004
+.LBB4_1009:
+	mov	edx, r11d
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_1010:                             # =>This Inner Loop Header: Depth=1
+	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
+	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
+	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
+	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
+	vpcmpgtb	xmm7, xmm3, xmm0
+	vpmovsxbq	ymm9, xmm7
+	vpcmpgtb	xmm1, xmm4, xmm0
+	vpmovsxbq	ymm10, xmm1
+	vpcmpgtb	xmm7, xmm5, xmm0
+	vpmovsxbq	ymm7, xmm7
+	vpcmpgtb	xmm1, xmm6, xmm0
+	vpmovsxbq	ymm1, xmm1
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxbq	ymm3, xmm3
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxbq	ymm4, xmm4
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxbq	ymm5, xmm5
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxbq	ymm6, xmm6
+	vblendvpd	ymm3, ymm3, ymm2, ymm9
+	vblendvpd	ymm4, ymm4, ymm2, ymm10
+	vblendvpd	ymm5, ymm5, ymm2, ymm7
+	vblendvpd	ymm1, ymm6, ymm2, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_1010
+# %bb.1011:
+	cmp	rdx, r11
+	je	.LBB4_1351
+	jmp	.LBB4_1012
+.LBB4_1017:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpbroadcastq	ymm1, qword ptr [rip + .LCPI4_15] # ymm1 = [1,1,1,1]
+.LBB4_1018:                             # =>This Inner Loop Header: Depth=1
+	vpcmpeqq	ymm2, ymm0, ymmword ptr [rcx + 8*rsi]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi + 32]
+	vpandn	ymm3, ymm3, ymm1
+	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 64]
+	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 96]
+	vpandn	ymm4, ymm4, ymm1
+	vpandn	ymm5, ymm5, ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm5
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_1018
+# %bb.1019:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1020
+.LBB4_1024:
+	mov	edx, r11d
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_1025:                             # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rsi]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 32]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 64]
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 96]
+	vpcmpeqq	ymm7, ymm3, ymm0
+	vpxor	ymm7, ymm7, ymm1
+	vpcmpeqq	ymm8, ymm4, ymm0
+	vpxor	ymm8, ymm8, ymm1
+	vpcmpeqq	ymm9, ymm5, ymm0
+	vpxor	ymm9, ymm9, ymm1
+	vpcmpeqq	ymm10, ymm6, ymm0
+	vpxor	ymm10, ymm10, ymm1
+	vpcmpgtq	ymm3, ymm2, ymm3
+	vpcmpgtq	ymm4, ymm2, ymm4
+	vpcmpgtq	ymm5, ymm2, ymm5
+	vpcmpgtq	ymm6, ymm2, ymm6
+	vblendvpd	ymm3, ymm2, ymm7, ymm3
+	vblendvpd	ymm4, ymm2, ymm8, ymm4
+	vblendvpd	ymm5, ymm2, ymm9, ymm5
+	vblendvpd	ymm6, ymm2, ymm10, ymm6
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_1025
+# %bb.1026:
+	cmp	rdx, r11
+	je	.LBB4_1351
+	jmp	.LBB4_1027
+.LBB4_1032:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_1033:                             # =>This Inner Loop Header: Depth=1
+	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
+	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
+	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
+	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxbq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero,xmm3[2],zero,zero,zero,zero,zero,zero,zero,xmm3[3],zero,zero,zero,zero,zero,zero,zero
+	vpand	ymm3, ymm3, ymm2
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxbq	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero,xmm4[2],zero,zero,zero,zero,zero,zero,zero,xmm4[3],zero,zero,zero,zero,zero,zero,zero
+	vpand	ymm4, ymm4, ymm2
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxbq	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,zero,zero,zero,zero,xmm5[1],zero,zero,zero,zero,zero,zero,zero,xmm5[2],zero,zero,zero,zero,zero,zero,zero,xmm5[3],zero,zero,zero,zero,zero,zero,zero
+	vpand	ymm5, ymm5, ymm2
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxbq	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,zero,zero,zero,zero,xmm6[1],zero,zero,zero,zero,zero,zero,zero,xmm6[2],zero,zero,zero,zero,zero,zero,zero,xmm6[3],zero,zero,zero,zero,zero,zero,zero
+	vpand	ymm6, ymm6, ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_1033
+# %bb.1034:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1035
+.LBB4_1039:
+	mov	edx, r11d
+	and	edx, -64
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vmovdqa	ymm9, ymmword ptr [rip + .LCPI4_18] # ymm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_1040:                             # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm3, xmmword ptr [rcx + rsi]
+	vmovdqu	xmm4, xmmword ptr [rcx + rsi + 16]
+	vmovdqu	xmm5, xmmword ptr [rcx + rsi + 32]
+	vmovdqu	xmm6, xmmword ptr [rcx + rsi + 48]
+	vpcmpgtb	xmm7, xmm3, xmm0
+	vpmovsxbw	ymm10, xmm7
+	vpcmpgtb	xmm1, xmm4, xmm0
+	vpmovsxbw	ymm1, xmm1
+	vpcmpgtb	xmm2, xmm5, xmm0
+	vpmovsxbw	ymm2, xmm2
+	vpcmpgtb	xmm7, xmm6, xmm0
+	vpmovsxbw	ymm7, xmm7
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxbw	ymm3, xmm3
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxbw	ymm4, xmm4
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxbw	ymm5, xmm5
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxbw	ymm6, xmm6
+	vpblendvb	ymm3, ymm3, ymm9, ymm10
+	vpblendvb	ymm1, ymm4, ymm9, ymm1
+	vpblendvb	ymm2, ymm5, ymm9, ymm2
+	vpblendvb	ymm4, ymm6, ymm9, ymm7
+	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm4
+	add	rsi, 64
+	cmp	rdx, rsi
+	jne	.LBB4_1040
+# %bb.1041:
+	cmp	rdx, r11
+	je	.LBB4_1351
+	jmp	.LBB4_1042
+.LBB4_1047:
+	mov	edx, r11d
+	and	edx, -64
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vmovdqa	ymm9, ymmword ptr [rip + .LCPI4_18] # ymm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_1048:                             # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm3, xmmword ptr [rcx + rsi]
+	vmovdqu	xmm4, xmmword ptr [rcx + rsi + 16]
+	vmovdqu	xmm5, xmmword ptr [rcx + rsi + 32]
+	vmovdqu	xmm6, xmmword ptr [rcx + rsi + 48]
+	vpcmpgtb	xmm7, xmm3, xmm0
+	vpmovsxbw	ymm10, xmm7
+	vpcmpgtb	xmm1, xmm4, xmm0
+	vpmovsxbw	ymm1, xmm1
+	vpcmpgtb	xmm2, xmm5, xmm0
+	vpmovsxbw	ymm2, xmm2
+	vpcmpgtb	xmm7, xmm6, xmm0
+	vpmovsxbw	ymm7, xmm7
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxbw	ymm3, xmm3
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxbw	ymm4, xmm4
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxbw	ymm5, xmm5
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxbw	ymm6, xmm6
+	vpblendvb	ymm3, ymm3, ymm9, ymm10
+	vpblendvb	ymm1, ymm4, ymm9, ymm1
+	vpblendvb	ymm2, ymm5, ymm9, ymm2
+	vpblendvb	ymm4, ymm6, ymm9, ymm7
+	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm4
+	add	rsi, 64
+	cmp	rdx, rsi
+	jne	.LBB4_1048
+# %bb.1049:
+	cmp	rdx, r11
+	je	.LBB4_1351
+	jmp	.LBB4_1050
+.LBB4_1055:
+	mov	edx, eax
+	and	edx, -32
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1317
+# %bb.1056:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_18] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_1057:                             # =>This Inner Loop Header: Depth=1
+	vpcmpeqw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vpandn	ymm3, ymm3, ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm3
+	vpcmpeqw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vpandn	ymm3, ymm3, ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB4_1057
+	jmp	.LBB4_1318
+.LBB4_1058:
+	mov	edx, eax
+	and	edx, -32
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1325
+# %bb.1059:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_18] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_1060:                             # =>This Inner Loop Header: Depth=1
+	vpcmpeqw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vpandn	ymm3, ymm3, ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm3
+	vpcmpeqw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vpandn	ymm3, ymm3, ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB4_1060
+	jmp	.LBB4_1326
+.LBB4_1061:
+	mov	edx, r11d
+	and	edx, -32
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1333
+# %bb.1062:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_1063:                             # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rsi]
+	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi + 32]
+	vpcmpeqw	ymm5, ymm3, ymm0
+	vpxor	ymm5, ymm5, ymm1
+	vpcmpeqw	ymm6, ymm4, ymm0
+	vpxor	ymm6, ymm6, ymm1
+	vpcmpgtw	ymm3, ymm2, ymm3
+	vpcmpgtw	ymm4, ymm2, ymm4
+	vpblendvb	ymm3, ymm2, ymm5, ymm3
+	vpblendvb	ymm4, ymm2, ymm6, ymm4
+	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm4
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rsi + 64]
+	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi + 96]
+	vpcmpeqw	ymm5, ymm3, ymm0
+	vpxor	ymm5, ymm5, ymm1
+	vpcmpeqw	ymm6, ymm4, ymm0
+	vpxor	ymm6, ymm6, ymm1
+	vpcmpgtw	ymm3, ymm2, ymm3
+	vpcmpgtw	ymm4, ymm2, ymm4
+	vpblendvb	ymm3, ymm2, ymm5, ymm3
+	vpblendvb	ymm4, ymm2, ymm6, ymm4
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm4
+	add	rsi, 64
+	add	rdi, 2
+	jne	.LBB4_1063
+	jmp	.LBB4_1334
+.LBB4_1064:
+	mov	edx, r11d
+	and	edx, -32
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1342
+# %bb.1065:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_1066:                             # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rsi]
+	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi + 32]
+	vpcmpeqw	ymm5, ymm3, ymm0
+	vpxor	ymm5, ymm5, ymm1
+	vpcmpeqw	ymm6, ymm4, ymm0
+	vpxor	ymm6, ymm6, ymm1
+	vpcmpgtw	ymm3, ymm2, ymm3
+	vpcmpgtw	ymm4, ymm2, ymm4
+	vpblendvb	ymm3, ymm2, ymm5, ymm3
+	vpblendvb	ymm4, ymm2, ymm6, ymm4
+	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm4
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rsi + 64]
+	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi + 96]
+	vpcmpeqw	ymm5, ymm3, ymm0
+	vpxor	ymm5, ymm5, ymm1
+	vpcmpeqw	ymm6, ymm4, ymm0
+	vpxor	ymm6, ymm6, ymm1
+	vpcmpgtw	ymm3, ymm2, ymm3
+	vpcmpgtw	ymm4, ymm2, ymm4
+	vpblendvb	ymm3, ymm2, ymm5, ymm3
+	vpblendvb	ymm4, ymm2, ymm6, ymm4
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm4
+	add	rsi, 64
+	add	rdi, 2
+	jne	.LBB4_1066
+	jmp	.LBB4_1343
+.LBB4_1067:
+	mov	edx, eax
+	and	edx, -64
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_1068:                             # =>This Inner Loop Header: Depth=1
+	vpcmpeqb	xmm3, xmm0, xmmword ptr [rcx + rsi]
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxbw	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero,xmm3[8],zero,xmm3[9],zero,xmm3[10],zero,xmm3[11],zero,xmm3[12],zero,xmm3[13],zero,xmm3[14],zero,xmm3[15],zero
+	vpcmpeqb	xmm4, xmm0, xmmword ptr [rcx + rsi + 16]
+	vpand	ymm3, ymm3, ymm2
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxbw	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero,xmm4[8],zero,xmm4[9],zero,xmm4[10],zero,xmm4[11],zero,xmm4[12],zero,xmm4[13],zero,xmm4[14],zero,xmm4[15],zero
+	vpand	ymm4, ymm4, ymm2
+	vpcmpeqb	xmm5, xmm0, xmmword ptr [rcx + rsi + 32]
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxbw	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero,xmm5[8],zero,xmm5[9],zero,xmm5[10],zero,xmm5[11],zero,xmm5[12],zero,xmm5[13],zero,xmm5[14],zero,xmm5[15],zero
+	vpand	ymm5, ymm5, ymm2
+	vpcmpeqb	xmm6, xmm0, xmmword ptr [rcx + rsi + 48]
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxbw	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero,xmm6[8],zero,xmm6[9],zero,xmm6[10],zero,xmm6[11],zero,xmm6[12],zero,xmm6[13],zero,xmm6[14],zero,xmm6[15],zero
+	vpand	ymm6, ymm6, ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm6
+	add	rsi, 64
+	cmp	rdx, rsi
+	jne	.LBB4_1068
+# %bb.1069:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1070
+.LBB4_1074:
+	mov	edx, eax
+	and	edx, -64
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_1075:                             # =>This Inner Loop Header: Depth=1
+	vpcmpeqb	xmm3, xmm0, xmmword ptr [rcx + rsi]
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxbw	ymm3, xmm3              # ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero,xmm3[8],zero,xmm3[9],zero,xmm3[10],zero,xmm3[11],zero,xmm3[12],zero,xmm3[13],zero,xmm3[14],zero,xmm3[15],zero
+	vpcmpeqb	xmm4, xmm0, xmmword ptr [rcx + rsi + 16]
+	vpand	ymm3, ymm3, ymm2
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxbw	ymm4, xmm4              # ymm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero,xmm4[8],zero,xmm4[9],zero,xmm4[10],zero,xmm4[11],zero,xmm4[12],zero,xmm4[13],zero,xmm4[14],zero,xmm4[15],zero
+	vpand	ymm4, ymm4, ymm2
+	vpcmpeqb	xmm5, xmm0, xmmword ptr [rcx + rsi + 32]
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxbw	ymm5, xmm5              # ymm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero,xmm5[8],zero,xmm5[9],zero,xmm5[10],zero,xmm5[11],zero,xmm5[12],zero,xmm5[13],zero,xmm5[14],zero,xmm5[15],zero
+	vpand	ymm5, ymm5, ymm2
+	vpcmpeqb	xmm6, xmm0, xmmword ptr [rcx + rsi + 48]
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxbw	ymm6, xmm6              # ymm6 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero,xmm6[8],zero,xmm6[9],zero,xmm6[10],zero,xmm6[11],zero,xmm6[12],zero,xmm6[13],zero,xmm6[14],zero,xmm6[15],zero
+	vpand	ymm6, ymm6, ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 96], ymm6
+	add	rsi, 64
+	cmp	rdx, rsi
+	jne	.LBB4_1075
+# %bb.1076:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1077
+.LBB4_1081:
+	mov	edx, r11d
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_1082:                             # =>This Inner Loop Header: Depth=1
+	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
+	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
+	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
+	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
+	vpcmpgtb	xmm7, xmm3, xmm0
+	vpmovsxbq	ymm9, xmm7
+	vpcmpgtb	xmm1, xmm4, xmm0
+	vpmovsxbq	ymm10, xmm1
+	vpcmpgtb	xmm7, xmm5, xmm0
+	vpmovsxbq	ymm7, xmm7
+	vpcmpgtb	xmm1, xmm6, xmm0
+	vpmovsxbq	ymm1, xmm1
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxbq	ymm3, xmm3
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxbq	ymm4, xmm4
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxbq	ymm5, xmm5
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxbq	ymm6, xmm6
+	vblendvpd	ymm3, ymm3, ymm2, ymm9
+	vblendvpd	ymm4, ymm4, ymm2, ymm10
+	vblendvpd	ymm5, ymm5, ymm2, ymm7
+	vblendvpd	ymm1, ymm6, ymm2, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_1082
+# %bb.1083:
+	cmp	rdx, r11
+	je	.LBB4_1351
+	jmp	.LBB4_1084
+.LBB4_1089:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_5] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_1090:                             # =>This Inner Loop Header: Depth=1
+	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
+	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
+	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
+	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
+	vpcmpgtb	xmm7, xmm3, xmm0
+	vpmovsxbd	ymm9, xmm7
+	vpcmpgtb	xmm1, xmm4, xmm0
+	vpmovsxbd	ymm10, xmm1
+	vpcmpgtb	xmm7, xmm5, xmm0
+	vpmovsxbd	ymm7, xmm7
+	vpcmpgtb	xmm1, xmm6, xmm0
+	vpmovsxbd	ymm1, xmm1
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxbd	ymm3, xmm3
+	vcvtdq2ps	ymm3, ymm3
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxbd	ymm4, xmm4
+	vcvtdq2ps	ymm4, ymm4
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxbd	ymm5, xmm5
+	vcvtdq2ps	ymm5, ymm5
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxbd	ymm6, xmm6
+	vcvtdq2ps	ymm6, ymm6
+	vblendvps	ymm3, ymm3, ymm2, ymm9
+	vblendvps	ymm4, ymm4, ymm2, ymm10
+	vblendvps	ymm5, ymm5, ymm2, ymm7
+	vblendvps	ymm1, ymm6, ymm2, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_1090
+# %bb.1091:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1092
+.LBB4_1095:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpbroadcastq	ymm1, qword ptr [rip + .LCPI4_15] # ymm1 = [1,1,1,1]
+.LBB4_1096:                             # =>This Inner Loop Header: Depth=1
+	vpcmpeqq	ymm2, ymm0, ymmword ptr [rcx + 8*rsi]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi + 32]
+	vpandn	ymm3, ymm3, ymm1
+	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 64]
+	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 96]
+	vpandn	ymm4, ymm4, ymm1
+	vpandn	ymm5, ymm5, ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm5
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_1096
+# %bb.1097:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1098
+.LBB4_1102:
+	mov	edx, r11d
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_1103:                             # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rsi]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 32]
+	vmovdqu	ymm5, ymmword ptr [rcx + 8*rsi + 64]
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 96]
+	vpcmpeqq	ymm7, ymm3, ymm0
+	vpxor	ymm7, ymm7, ymm1
+	vpcmpeqq	ymm8, ymm4, ymm0
+	vpxor	ymm8, ymm8, ymm1
+	vpcmpeqq	ymm9, ymm5, ymm0
+	vpxor	ymm9, ymm9, ymm1
+	vpcmpeqq	ymm10, ymm6, ymm0
+	vpxor	ymm10, ymm10, ymm1
+	vpcmpgtq	ymm3, ymm2, ymm3
+	vpcmpgtq	ymm4, ymm2, ymm4
+	vpcmpgtq	ymm5, ymm2, ymm5
+	vpcmpgtq	ymm6, ymm2, ymm6
+	vblendvpd	ymm3, ymm2, ymm7, ymm3
+	vblendvpd	ymm4, ymm2, ymm8, ymm4
+	vblendvpd	ymm5, ymm2, ymm9, ymm5
+	vblendvpd	ymm6, ymm2, ymm10, ymm6
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_1103
+# %bb.1104:
+	cmp	rdx, r11
+	je	.LBB4_1351
+	jmp	.LBB4_1105
+.LBB4_1110:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vxorps	xmm0, xmm0, xmm0
+	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_8] # ymm1 = [1,1,1,1,1,1,1,1]
+.LBB4_1111:                             # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rsi]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi + 32]
+	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 64]
+	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 96]
+	vpsrad	ymm6, ymm2, 31
+	vpor	ymm6, ymm6, ymm1
+	vpsrad	ymm7, ymm3, 31
+	vpor	ymm7, ymm7, ymm1
+	vpsrad	ymm8, ymm4, 31
+	vpor	ymm8, ymm8, ymm1
+	vpsrad	ymm9, ymm5, 31
+	vpor	ymm9, ymm9, ymm1
+	vcvtdq2ps	ymm6, ymm6
+	vcvtdq2ps	ymm7, ymm7
+	vcvtdq2ps	ymm8, ymm8
+	vcvtdq2ps	ymm9, ymm9
+	vcmpneqps	ymm2, ymm2, ymm0
+	vandps	ymm2, ymm2, ymm6
+	vcmpneqps	ymm3, ymm3, ymm0
+	vandps	ymm3, ymm3, ymm7
+	vcmpneqps	ymm4, ymm4, ymm0
+	vandps	ymm4, ymm8, ymm4
+	vcmpneqps	ymm5, ymm5, ymm0
+	vandps	ymm5, ymm9, ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_1111
+# %bb.1112:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1113
+.LBB4_1118:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastq	ymm2, qword ptr [rip + .LCPI4_15] # ymm2 = [1,1,1,1]
+.LBB4_1119:                             # =>This Inner Loop Header: Depth=1
+	vmovd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
+	vmovd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
+	vmovd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
+	vmovd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxbq	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero,xmm3[2],zero,zero,zero,zero,zero,zero,zero,xmm3[3],zero,zero,zero,zero,zero,zero,zero
+	vpand	ymm3, ymm3, ymm2
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxbq	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero,xmm4[2],zero,zero,zero,zero,zero,zero,zero,xmm4[3],zero,zero,zero,zero,zero,zero,zero
+	vpand	ymm4, ymm4, ymm2
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxbq	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,zero,zero,zero,zero,xmm5[1],zero,zero,zero,zero,zero,zero,zero,xmm5[2],zero,zero,zero,zero,zero,zero,zero,xmm5[3],zero,zero,zero,zero,zero,zero,zero
+	vpand	ymm5, ymm5, ymm2
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxbq	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,zero,zero,zero,zero,xmm6[1],zero,zero,zero,zero,zero,zero,zero,xmm6[2],zero,zero,zero,zero,zero,zero,zero,xmm6[3],zero,zero,zero,zero,zero,zero,zero
+	vpand	ymm6, ymm6, ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + 8*rsi + 96], ymm6
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_1119
+# %bb.1120:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1121
+.LBB4_1125:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
+.LBB4_1126:                             # =>This Inner Loop Header: Depth=1
+	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
+	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
+	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
+	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxbd	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero
+	vpand	ymm3, ymm3, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxbd	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero,xmm4[4],zero,zero,zero,xmm4[5],zero,zero,zero,xmm4[6],zero,zero,zero,xmm4[7],zero,zero,zero
+	vpand	ymm4, ymm4, ymm2
+	vcvtdq2ps	ymm4, ymm4
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxbd	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero,xmm5[4],zero,zero,zero,xmm5[5],zero,zero,zero,xmm5[6],zero,zero,zero,xmm5[7],zero,zero,zero
+	vpand	ymm5, ymm5, ymm2
+	vcvtdq2ps	ymm5, ymm5
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxbd	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
+	vpand	ymm6, ymm6, ymm2
+	vcvtdq2ps	ymm6, ymm6
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_1126
+# %bb.1127:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1128
+.LBB4_1144:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_12] # xmm2 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+.LBB4_1145:                             # =>This Inner Loop Header: Depth=1
+	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpacksswb	xmm3, xmm3, xmm3
+	vpand	xmm3, xmm3, xmm2
+	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 32]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpacksswb	xmm4, xmm4, xmm4
+	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 64]
+	vpand	xmm4, xmm4, xmm2
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpacksswb	xmm5, xmm5, xmm5
+	vpand	xmm5, xmm5, xmm2
+	vpcmpeqd	ymm6, ymm0, ymmword ptr [rcx + 4*rsi + 96]
+	vpxor	ymm6, ymm6, ymm1
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpacksswb	xmm6, xmm6, xmm6
+	vpand	xmm6, xmm6, xmm2
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vpunpcklqdq	ymm3, ymm3, ymm5        # ymm3 = ymm3[0],ymm5[0],ymm3[2],ymm5[2]
+	vpermq	ymm3, ymm3, 216                 # ymm3 = ymm3[0,2,1,3]
+	vmovdqu	ymmword ptr [r8 + rsi], ymm3
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_1145
+# %bb.1146:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1147
+.LBB4_1151:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpbroadcastq	ymm0, qword ptr [rip + .LCPI4_0] # ymm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vxorpd	xmm10, xmm10, xmm10
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	vpxor	xmm11, xmm11, xmm11
+.LBB4_1152:                             # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm6, ymmword ptr [rcx + 8*rsi]
+	vmovupd	ymm7, ymmword ptr [rcx + 8*rsi + 32]
+	vmovupd	ymm8, ymmword ptr [rcx + 8*rsi + 64]
+	vmovupd	ymm9, ymmword ptr [rcx + 8*rsi + 96]
+	vcmpeqpd	ymm4, ymm10, ymm6
+	vextractf128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpackssdw	xmm4, xmm4, xmm4
+	vpacksswb	xmm12, xmm4, xmm4
+	vcmpeqpd	ymm5, ymm10, ymm7
+	vextractf128	xmm1, ymm5, 1
+	vpackssdw	xmm1, xmm5, xmm1
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm13, xmm1, xmm1
+	vcmpeqpd	ymm1, ymm8, ymm10
+	vextractf128	xmm3, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm3
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm1, xmm1, xmm1
+	vcmpeqpd	ymm3, ymm9, ymm10
+	vextractf128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpackssdw	xmm3, xmm3, xmm3
+	vpacksswb	xmm3, xmm3, xmm3
+	vandpd	ymm4, ymm6, ymm0
+	vorpd	ymm4, ymm2, ymm4
+	vandpd	ymm6, ymm7, ymm0
+	vorpd	ymm6, ymm2, ymm6
+	vandpd	ymm7, ymm8, ymm0
+	vorpd	ymm7, ymm2, ymm7
+	vandpd	ymm8, ymm9, ymm0
+	vorpd	ymm8, ymm8, ymm2
+	vcvttpd2dq	xmm4, ymm4
+	vpackusdw	xmm4, xmm4, xmm4
+	vpackuswb	xmm4, xmm4, xmm4
+	vcvttpd2dq	xmm6, ymm6
+	vpackusdw	xmm6, xmm6, xmm6
+	vpackuswb	xmm6, xmm6, xmm6
+	vcvttpd2dq	xmm7, ymm7
+	vpackusdw	xmm7, xmm7, xmm7
+	vpackuswb	xmm7, xmm7, xmm7
+	vcvttpd2dq	xmm5, ymm8
+	vpackusdw	xmm5, xmm5, xmm5
+	vpackuswb	xmm5, xmm5, xmm5
+	vpblendvb	xmm4, xmm4, xmm11, xmm12
+	vpblendvb	xmm6, xmm6, xmm11, xmm13
+	vpblendvb	xmm1, xmm7, xmm11, xmm1
+	vpunpckldq	xmm4, xmm4, xmm6        # xmm4 = xmm4[0],xmm6[0],xmm4[1],xmm6[1]
+	vpblendvb	xmm3, xmm5, xmm11, xmm3
+	vpunpckldq	xmm1, xmm1, xmm3        # xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1]
+	vpunpcklqdq	xmm1, xmm4, xmm1        # xmm1 = xmm4[0],xmm1[0]
+	vmovdqu	xmmword ptr [r8 + rsi], xmm1
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_1152
+# %bb.1153:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1154
+.LBB4_1159:
+	mov	r11d, r10d
+	and	r11d, -128
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_20] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_1160:                             # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + rsi]
+	vmovdqu	ymm4, ymmword ptr [rcx + rsi + 32]
+	vmovdqu	ymm5, ymmword ptr [rcx + rsi + 64]
+	vmovdqu	ymm6, ymmword ptr [rcx + rsi + 96]
+	vpcmpeqb	ymm7, ymm3, ymm0
+	vpxor	ymm7, ymm7, ymm1
+	vpcmpeqb	ymm8, ymm4, ymm0
+	vpxor	ymm8, ymm8, ymm1
+	vpcmpeqb	ymm9, ymm5, ymm0
+	vpxor	ymm9, ymm9, ymm1
+	vpcmpeqb	ymm10, ymm6, ymm0
+	vpxor	ymm10, ymm10, ymm1
+	vpcmpgtb	ymm3, ymm2, ymm3
+	vpcmpgtb	ymm4, ymm2, ymm4
+	vpcmpgtb	ymm5, ymm2, ymm5
+	vpcmpgtb	ymm6, ymm2, ymm6
+	vpblendvb	ymm3, ymm2, ymm7, ymm3
+	vpblendvb	ymm4, ymm2, ymm8, ymm4
+	vpblendvb	ymm5, ymm2, ymm9, ymm5
+	vpblendvb	ymm6, ymm2, ymm10, ymm6
+	vmovdqu	ymmword ptr [r8 + rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm6
+	sub	rsi, -128
+	cmp	r11, rsi
+	jne	.LBB4_1160
+# %bb.1161:
+	cmp	r11, r10
+	je	.LBB4_1351
+	jmp	.LBB4_1162
+.LBB4_1167:
+	mov	edx, eax
+	and	edx, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_17] # xmm2 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_1168:                             # =>This Inner Loop Header: Depth=1
+	vpcmpeqq	ymm3, ymm0, ymmword ptr [rcx + 8*rsi]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vpackssdw	xmm3, xmm3, xmm3
+	vpacksswb	xmm3, xmm3, xmm3
+	vpand	xmm3, xmm3, xmm2
+	vpcmpeqq	ymm4, ymm0, ymmword ptr [rcx + 8*rsi + 32]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpackssdw	xmm4, xmm4, xmm4
+	vpacksswb	xmm4, xmm4, xmm4
+	vpand	xmm4, xmm4, xmm2
+	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 64]
+	vpunpckldq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1]
+	vpxor	ymm4, ymm5, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpackssdw	xmm4, xmm4, xmm4
+	vpacksswb	xmm4, xmm4, xmm4
+	vpcmpeqq	ymm5, ymm0, ymmword ptr [rcx + 8*rsi + 96]
+	vpand	xmm4, xmm4, xmm2
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpackssdw	xmm5, xmm5, xmm5
+	vpacksswb	xmm5, xmm5, xmm5
+	vpand	xmm5, xmm5, xmm2
+	vpunpckldq	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1]
+	vpunpcklqdq	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0]
+	vmovdqu	xmmword ptr [r8 + rsi], xmm3
+	add	rsi, 16
+	cmp	rdx, rsi
+	jne	.LBB4_1168
+# %bb.1169:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1170
+.LBB4_1174:
+	mov	edx, eax
+	and	edx, -64
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vmovdqa	xmm2, xmmword ptr [rip + .LCPI4_19] # xmm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_1175:                             # =>This Inner Loop Header: Depth=1
+	vpcmpeqw	ymm3, ymm0, ymmword ptr [rcx + 2*rsi]
+	vpxor	ymm3, ymm3, ymm1
+	vextracti128	xmm4, ymm3, 1
+	vpacksswb	xmm3, xmm3, xmm4
+	vpand	xmm3, xmm3, xmm2
+	vpcmpeqw	ymm4, ymm0, ymmword ptr [rcx + 2*rsi + 32]
+	vpxor	ymm4, ymm4, ymm1
+	vextracti128	xmm5, ymm4, 1
+	vpacksswb	xmm4, xmm4, xmm5
+	vpand	xmm4, xmm4, xmm2
+	vpcmpeqw	ymm5, ymm0, ymmword ptr [rcx + 2*rsi + 64]
+	vpxor	ymm5, ymm5, ymm1
+	vextracti128	xmm6, ymm5, 1
+	vpacksswb	xmm5, xmm5, xmm6
+	vpand	xmm5, xmm5, xmm2
+	vpcmpeqw	ymm6, ymm0, ymmword ptr [rcx + 2*rsi + 96]
+	vpxor	ymm6, ymm6, ymm1
+	vextracti128	xmm7, ymm6, 1
+	vpacksswb	xmm6, xmm6, xmm7
+	vpand	xmm6, xmm6, xmm2
+	vmovdqu	xmmword ptr [r8 + rsi], xmm3
+	vmovdqu	xmmword ptr [r8 + rsi + 16], xmm4
+	vmovdqu	xmmword ptr [r8 + rsi + 32], xmm5
+	vmovdqu	xmmword ptr [r8 + rsi + 48], xmm6
+	add	rsi, 64
+	cmp	rdx, rsi
+	jne	.LBB4_1175
+# %bb.1176:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1177
+.LBB4_1181:
+	mov	r11d, r10d
+	and	r11d, -64
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm8, ymm8, ymm8
+	vmovdqa	xmm9, xmmword ptr [rip + .LCPI4_19] # xmm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_1182:                             # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rcx + 2*rsi]
+	vmovdqu	ymm5, ymmword ptr [rcx + 2*rsi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 2*rsi + 64]
+	vmovdqu	ymm7, ymmword ptr [rcx + 2*rsi + 96]
+	vpcmpgtw	ymm3, ymm4, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpacksswb	xmm10, xmm3, xmm1
+	vpcmpgtw	ymm1, ymm5, ymm0
+	vextracti128	xmm2, ymm1, 1
+	vpacksswb	xmm11, xmm1, xmm2
+	vpcmpgtw	ymm2, ymm6, ymm0
+	vextracti128	xmm3, ymm2, 1
+	vpacksswb	xmm2, xmm2, xmm3
+	vpcmpgtw	ymm3, ymm7, ymm0
+	vextracti128	xmm1, ymm3, 1
+	vpacksswb	xmm1, xmm3, xmm1
+	vpcmpeqw	ymm3, ymm4, ymm0
+	vpxor	ymm3, ymm8, ymm3
+	vextracti128	xmm4, ymm3, 1
+	vpacksswb	xmm3, xmm3, xmm4
+	vpcmpeqw	ymm4, ymm5, ymm0
+	vpxor	ymm4, ymm8, ymm4
+	vextracti128	xmm5, ymm4, 1
+	vpacksswb	xmm4, xmm4, xmm5
+	vpcmpeqw	ymm5, ymm6, ymm0
+	vpxor	ymm5, ymm8, ymm5
+	vextracti128	xmm6, ymm5, 1
+	vpacksswb	xmm5, xmm5, xmm6
+	vpcmpeqw	ymm6, ymm7, ymm0
+	vpxor	ymm6, ymm8, ymm6
+	vextracti128	xmm7, ymm6, 1
+	vpacksswb	xmm6, xmm6, xmm7
+	vpblendvb	xmm3, xmm3, xmm9, xmm10
+	vpblendvb	xmm4, xmm4, xmm9, xmm11
+	vpblendvb	xmm2, xmm5, xmm9, xmm2
+	vpblendvb	xmm1, xmm6, xmm9, xmm1
+	vmovdqu	xmmword ptr [r8 + rsi], xmm3
+	vmovdqu	xmmword ptr [r8 + rsi + 16], xmm4
+	vmovdqu	xmmword ptr [r8 + rsi + 32], xmm2
+	vmovdqu	xmmword ptr [r8 + rsi + 48], xmm1
+	add	rsi, 64
+	cmp	r11, rsi
+	jne	.LBB4_1182
+# %bb.1183:
+	cmp	r11, r10
+	je	.LBB4_1351
+	jmp	.LBB4_1184
+.LBB4_1189:
+	mov	r11d, r10d
+	and	r11d, -16
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm9, ymm9, ymm9
+	vmovdqa	xmm11, xmmword ptr [rip + .LCPI4_17] # xmm11 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_1190:                             # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm10, ymmword ptr [rcx + 8*rsi]
+	vmovdqu	ymm8, ymmword ptr [rcx + 8*rsi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 8*rsi + 64]
+	vmovdqu	ymm4, ymmword ptr [rcx + 8*rsi + 96]
+	vpcmpgtq	ymm1, ymm10, ymm0
+	vextracti128	xmm3, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm3
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm12, xmm1, xmm1
+	vpcmpgtq	ymm1, ymm8, ymm0
+	vextracti128	xmm5, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm5
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm13, xmm1, xmm1
+	vpcmpgtq	ymm1, ymm6, ymm0
+	vextracti128	xmm7, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm7
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm7, xmm1, xmm1
+	vpcmpgtq	ymm1, ymm4, ymm0
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm1, xmm1, xmm1
+	vpcmpeqq	ymm2, ymm10, ymm0
+	vpxor	ymm2, ymm9, ymm2
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vpackssdw	xmm2, xmm2, xmm2
+	vpacksswb	xmm2, xmm2, xmm2
+	vpcmpeqq	ymm3, ymm8, ymm0
+	vpxor	ymm3, ymm9, ymm3
+	vextracti128	xmm5, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm5
+	vpackssdw	xmm3, xmm3, xmm3
+	vpacksswb	xmm3, xmm3, xmm3
+	vpcmpeqq	ymm5, ymm6, ymm0
+	vpxor	ymm5, ymm9, ymm5
+	vextracti128	xmm6, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm6
+	vpackssdw	xmm5, xmm5, xmm5
+	vpacksswb	xmm5, xmm5, xmm5
+	vpcmpeqq	ymm4, ymm4, ymm0
+	vpxor	ymm4, ymm9, ymm4
+	vextracti128	xmm6, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm6
+	vpackssdw	xmm4, xmm4, xmm4
+	vpacksswb	xmm4, xmm4, xmm4
+	vpblendvb	xmm2, xmm2, xmm11, xmm12
+	vpblendvb	xmm3, xmm3, xmm11, xmm13
+	vpblendvb	xmm5, xmm5, xmm11, xmm7
+	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
+	vpblendvb	xmm1, xmm4, xmm11, xmm1
+	vpunpckldq	xmm1, xmm5, xmm1        # xmm1 = xmm5[0],xmm1[0],xmm5[1],xmm1[1]
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	vmovdqu	xmmword ptr [r8 + rsi], xmm1
+	add	rsi, 16
+	cmp	r11, rsi
+	jne	.LBB4_1190
+# %bb.1191:
+	cmp	r11, r10
+	je	.LBB4_1351
+	jmp	.LBB4_1192
+.LBB4_1197:
+	mov	edx, r10d
+	and	edx, -32
+	xor	esi, esi
+	vxorps	xmm12, xmm12, xmm12
+	vpcmpeqd	ymm13, ymm13, ymm13
+	vmovdqa	xmm14, xmmword ptr [rip + .LCPI4_12] # xmm14 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+	vpcmpeqd	xmm15, xmm15, xmm15
+.LBB4_1198:                             # =>This Inner Loop Header: Depth=1
+	vmovups	ymm9, ymmword ptr [rcx + 4*rsi]
+	vmovups	ymm10, ymmword ptr [rcx + 4*rsi + 32]
+	vmovups	ymm11, ymmword ptr [rcx + 4*rsi + 64]
+	vmovups	ymm7, ymmword ptr [rcx + 4*rsi + 96]
+	vcmpeqps	ymm4, ymm9, ymm12
+	vextractf128	xmm5, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm5
+	vpacksswb	xmm8, xmm4, xmm4
+	vcmpeqps	ymm4, ymm10, ymm12
+	vextractf128	xmm6, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm6
+	vpacksswb	xmm6, xmm4, xmm4
+	vcmpeqps	ymm4, ymm11, ymm12
+	vextractf128	xmm0, ymm4, 1
+	vpackssdw	xmm0, xmm4, xmm0
+	vpacksswb	xmm4, xmm0, xmm0
+	vcmpeqps	ymm0, ymm12, ymm7
+	vextractf128	xmm1, ymm0, 1
+	vpackssdw	xmm0, xmm0, xmm1
+	vpacksswb	xmm0, xmm0, xmm0
+	vpcmpgtd	ymm1, ymm9, ymm13
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vpacksswb	xmm1, xmm1, xmm1
+	vpcmpgtd	ymm2, ymm10, ymm13
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vpacksswb	xmm2, xmm2, xmm2
+	vpcmpgtd	ymm3, ymm11, ymm13
+	vextracti128	xmm5, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm5
+	vpacksswb	xmm3, xmm3, xmm3
+	vpcmpgtd	ymm5, ymm7, ymm13
+	vextracti128	xmm7, ymm5, 1
+	vpackssdw	xmm5, xmm5, xmm7
+	vpblendvb	xmm1, xmm15, xmm14, xmm1
+	vpacksswb	xmm5, xmm5, xmm5
+	vpandn	xmm1, xmm8, xmm1
+	vpblendvb	xmm2, xmm15, xmm14, xmm2
+	vpblendvb	xmm3, xmm15, xmm14, xmm3
+	vpblendvb	xmm5, xmm15, xmm14, xmm5
+	vpxor	xmm7, xmm7, xmm7
+	vpblendvb	xmm2, xmm2, xmm7, xmm6
+	vpblendvb	xmm0, xmm5, xmm7, xmm0
+	vpandn	xmm3, xmm4, xmm3
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [r8 + rsi], ymm0
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_1198
+# %bb.1199:
+	cmp	rdx, r10
+	je	.LBB4_1351
+	jmp	.LBB4_1200
+.LBB4_1205:
+	mov	edx, eax
+	and	edx, -128
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_20] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_1206:                             # =>This Inner Loop Header: Depth=1
+	vpcmpeqb	ymm2, ymm0, ymmword ptr [rcx + rsi]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqb	ymm3, ymm0, ymmword ptr [rcx + rsi + 32]
+	vpandn	ymm3, ymm3, ymm1
+	vpcmpeqb	ymm4, ymm0, ymmword ptr [rcx + rsi + 64]
+	vpcmpeqb	ymm5, ymm0, ymmword ptr [rcx + rsi + 96]
+	vpandn	ymm4, ymm4, ymm1
+	vpandn	ymm5, ymm5, ymm1
+	vmovdqu	ymmword ptr [r8 + rsi], ymm2
+	vmovdqu	ymmword ptr [r8 + rsi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + rsi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + rsi + 96], ymm5
+	sub	rsi, -128
+	cmp	rdx, rsi
+	jne	.LBB4_1206
+# %bb.1207:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1208
+.LBB4_1212:
+	mov	r11d, r10d
+	and	r11d, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm9, ymm9, ymm9
+	vmovdqa	xmm10, xmmword ptr [rip + .LCPI4_12] # xmm10 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+.LBB4_1213:                             # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm7, ymmword ptr [rcx + 4*rsi]
+	vmovdqu	ymm8, ymmword ptr [rcx + 4*rsi + 32]
+	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 64]
+	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 96]
+	vpcmpgtd	ymm3, ymm7, ymm0
+	vextracti128	xmm5, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm5
+	vpacksswb	xmm11, xmm3, xmm3
+	vpcmpgtd	ymm5, ymm8, ymm0
+	vextracti128	xmm1, ymm5, 1
+	vpackssdw	xmm1, xmm5, xmm1
+	vpacksswb	xmm12, xmm1, xmm1
+	vpcmpgtd	ymm1, ymm6, ymm0
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vpacksswb	xmm1, xmm1, xmm1
+	vpcmpgtd	ymm2, ymm4, ymm0
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vpacksswb	xmm2, xmm2, xmm2
+	vpcmpeqd	ymm3, ymm7, ymm0
+	vpxor	ymm3, ymm9, ymm3
+	vextracti128	xmm7, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm7
+	vpacksswb	xmm3, xmm3, xmm3
+	vpcmpeqd	ymm7, ymm8, ymm0
+	vpxor	ymm7, ymm9, ymm7
+	vextracti128	xmm5, ymm7, 1
+	vpackssdw	xmm5, xmm7, xmm5
+	vpacksswb	xmm5, xmm5, xmm5
+	vpcmpeqd	ymm6, ymm6, ymm0
+	vpxor	ymm6, ymm9, ymm6
+	vextracti128	xmm7, ymm6, 1
+	vpackssdw	xmm6, xmm6, xmm7
+	vpacksswb	xmm6, xmm6, xmm6
+	vpcmpeqd	ymm4, ymm4, ymm0
+	vpxor	ymm4, ymm9, ymm4
+	vextracti128	xmm7, ymm4, 1
+	vpackssdw	xmm4, xmm4, xmm7
+	vpacksswb	xmm4, xmm4, xmm4
+	vpblendvb	xmm3, xmm3, xmm10, xmm11
+	vpblendvb	xmm5, xmm5, xmm10, xmm12
+	vpblendvb	xmm1, xmm6, xmm10, xmm1
+	vpblendvb	xmm2, xmm4, xmm10, xmm2
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vinserti128	ymm2, ymm3, xmm5, 1
+	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [r8 + rsi], ymm1
+	add	rsi, 32
+	cmp	r11, rsi
+	jne	.LBB4_1213
+# %bb.1214:
+	cmp	r11, r10
+	je	.LBB4_1351
+	jmp	.LBB4_1215
+.LBB4_1220:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpbroadcastd	ymm1, dword ptr [rip + .LCPI4_8] # ymm1 = [1,1,1,1,1,1,1,1]
+.LBB4_1221:                             # =>This Inner Loop Header: Depth=1
+	vpcmpeqd	ymm2, ymm0, ymmword ptr [rcx + 4*rsi]
+	vpandn	ymm2, ymm2, ymm1
+	vpcmpeqd	ymm3, ymm0, ymmword ptr [rcx + 4*rsi + 32]
+	vpandn	ymm3, ymm3, ymm1
+	vpcmpeqd	ymm4, ymm0, ymmword ptr [rcx + 4*rsi + 64]
+	vpcmpeqd	ymm5, ymm0, ymmword ptr [rcx + 4*rsi + 96]
+	vpandn	ymm4, ymm4, ymm1
+	vpandn	ymm5, ymm5, ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm5
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_1221
+# %bb.1222:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1223
+.LBB4_1227:
+	mov	edx, r11d
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm8, xmm8, xmm8
+	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
+.LBB4_1228:                             # =>This Inner Loop Header: Depth=1
+	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
+	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
+	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
+	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
+	vpcmpgtb	xmm7, xmm3, xmm0
+	vpmovsxbd	ymm9, xmm7
+	vpcmpgtb	xmm1, xmm4, xmm0
+	vpmovsxbd	ymm10, xmm1
+	vpcmpgtb	xmm7, xmm5, xmm0
+	vpmovsxbd	ymm7, xmm7
+	vpcmpgtb	xmm1, xmm6, xmm0
+	vpmovsxbd	ymm1, xmm1
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm8, xmm3
+	vpmovsxbd	ymm3, xmm3
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm8, xmm4
+	vpmovsxbd	ymm4, xmm4
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm8, xmm5
+	vpmovsxbd	ymm5, xmm5
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm8, xmm6
+	vpmovsxbd	ymm6, xmm6
+	vblendvps	ymm3, ymm3, ymm2, ymm9
+	vblendvps	ymm4, ymm4, ymm2, ymm10
+	vblendvps	ymm5, ymm5, ymm2, ymm7
+	vblendvps	ymm1, ymm6, ymm2, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_1228
+# %bb.1229:
+	cmp	rdx, r11
+	je	.LBB4_1351
+	jmp	.LBB4_1230
+.LBB4_1235:
+	mov	edx, eax
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	xmm1, xmm1, xmm1
+	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
+.LBB4_1236:                             # =>This Inner Loop Header: Depth=1
+	vmovq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
+	vmovq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
+	vmovq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
+	vmovq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
+	vpcmpeqb	xmm3, xmm3, xmm0
+	vpxor	xmm3, xmm3, xmm1
+	vpmovzxbd	ymm3, xmm3              # ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero
+	vpand	ymm3, ymm3, ymm2
+	vpcmpeqb	xmm4, xmm4, xmm0
+	vpxor	xmm4, xmm4, xmm1
+	vpmovzxbd	ymm4, xmm4              # ymm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero,xmm4[4],zero,zero,zero,xmm4[5],zero,zero,zero,xmm4[6],zero,zero,zero,xmm4[7],zero,zero,zero
+	vpand	ymm4, ymm4, ymm2
+	vpcmpeqb	xmm5, xmm5, xmm0
+	vpxor	xmm5, xmm5, xmm1
+	vpmovzxbd	ymm5, xmm5              # ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero,xmm5[4],zero,zero,zero,xmm5[5],zero,zero,zero,xmm5[6],zero,zero,zero,xmm5[7],zero,zero,zero
+	vpand	ymm5, ymm5, ymm2
+	vpcmpeqb	xmm6, xmm6, xmm0
+	vpxor	xmm6, xmm6, xmm1
+	vpmovzxbd	ymm6, xmm6              # ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
+	vpand	ymm6, ymm6, ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovdqu	ymmword ptr [r8 + 4*rsi + 96], ymm6
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_1236
+# %bb.1237:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1238
+.LBB4_1242:
+	mov	edx, r11d
+	and	edx, -32
+	xor	esi, esi
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
+.LBB4_1243:                             # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rsi]
+	vmovdqu	ymm4, ymmword ptr [rcx + 4*rsi + 32]
+	vmovdqu	ymm5, ymmword ptr [rcx + 4*rsi + 64]
+	vmovdqu	ymm6, ymmword ptr [rcx + 4*rsi + 96]
+	vpcmpeqd	ymm7, ymm3, ymm0
+	vpxor	ymm7, ymm7, ymm1
+	vpcmpeqd	ymm8, ymm4, ymm0
+	vpxor	ymm8, ymm8, ymm1
+	vpcmpeqd	ymm9, ymm5, ymm0
+	vpxor	ymm9, ymm9, ymm1
+	vpcmpeqd	ymm10, ymm6, ymm0
+	vpxor	ymm10, ymm10, ymm1
+	vpcmpgtd	ymm3, ymm2, ymm3
+	vpcmpgtd	ymm4, ymm2, ymm4
+	vpcmpgtd	ymm5, ymm2, ymm5
+	vpcmpgtd	ymm6, ymm2, ymm6
+	vblendvps	ymm3, ymm2, ymm7, ymm3
+	vblendvps	ymm4, ymm2, ymm8, ymm4
+	vblendvps	ymm5, ymm2, ymm9, ymm5
+	vblendvps	ymm6, ymm2, ymm10, ymm6
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm5
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm6
+	add	rsi, 32
+	cmp	rdx, rsi
+	jne	.LBB4_1243
+# %bb.1244:
+	cmp	rdx, r11
+	je	.LBB4_1351
+	jmp	.LBB4_1245
+.LBB4_1250:
+	vmovq	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
+.LBB4_1251:
+	jle	.LBB4_1253
+# %bb.1252:
+	vmovq	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = mem[0],zero
+.LBB4_1253:
+	vmovq	qword ptr [r8 + 8*rdx], xmm0
+	or	rdx, 1
+.LBB4_1254:
+	add	rsi, rax
+	je	.LBB4_1351
+# %bb.1255:
+	vmovsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
+	vmovsd	xmm1, qword ptr [rip + .LCPI4_1] # xmm1 = mem[0],zero
+	jmp	.LBB4_1257
+.LBB4_1256:                             #   in Loop: Header=BB4_1257 Depth=1
+	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm3
+	add	rdx, 2
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_1257:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	vmovapd	xmm2, xmm0
+	jne	.LBB4_1258
+# %bb.1261:                             #   in Loop: Header=BB4_1257 Depth=1
+	vxorpd	xmm2, xmm2, xmm2
+	vmovapd	xmm3, xmm1
+	jle	.LBB4_1262
+.LBB4_1259:                             #   in Loop: Header=BB4_1257 Depth=1
+	vmovsd	qword ptr [r8 + 8*rdx], xmm3
+	cmp	byte ptr [rcx + rdx + 1], 0
+	vmovapd	xmm2, xmm0
+	jne	.LBB4_1260
+.LBB4_1263:                             #   in Loop: Header=BB4_1257 Depth=1
+	vxorpd	xmm2, xmm2, xmm2
+	vmovapd	xmm3, xmm1
+	jg	.LBB4_1256
+	jmp	.LBB4_1264
+.LBB4_1258:                             #   in Loop: Header=BB4_1257 Depth=1
+	vmovapd	xmm3, xmm1
+	jg	.LBB4_1259
+.LBB4_1262:                             #   in Loop: Header=BB4_1257 Depth=1
+	vmovapd	xmm3, xmm2
+	vmovsd	qword ptr [r8 + 8*rdx], xmm3
+	cmp	byte ptr [rcx + rdx + 1], 0
+	vmovapd	xmm2, xmm0
+	je	.LBB4_1263
+.LBB4_1260:                             #   in Loop: Header=BB4_1257 Depth=1
+	vmovapd	xmm3, xmm1
+	jg	.LBB4_1256
+.LBB4_1264:                             #   in Loop: Header=BB4_1257 Depth=1
+	vmovapd	xmm3, xmm2
+	jmp	.LBB4_1256
+.LBB4_1265:
+	vmovd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
+.LBB4_1266:
+	jle	.LBB4_1268
+# %bb.1267:
+	vmovd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+.LBB4_1268:
+	vmovd	dword ptr [r8 + 4*rdx], xmm0
+	or	rdx, 1
+.LBB4_1269:
+	add	rsi, rax
+	je	.LBB4_1351
+# %bb.1270:
+	vmovss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
+	vmovss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
+	jmp	.LBB4_1272
+.LBB4_1271:                             #   in Loop: Header=BB4_1272 Depth=1
+	vmovss	dword ptr [r8 + 4*rdx + 4], xmm3
+	add	rdx, 2
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_1272:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	vmovaps	xmm2, xmm0
+	jne	.LBB4_1273
+# %bb.1276:                             #   in Loop: Header=BB4_1272 Depth=1
+	vxorps	xmm2, xmm2, xmm2
+	vmovaps	xmm3, xmm1
+	jle	.LBB4_1277
+.LBB4_1274:                             #   in Loop: Header=BB4_1272 Depth=1
+	vmovss	dword ptr [r8 + 4*rdx], xmm3
+	cmp	byte ptr [rcx + rdx + 1], 0
+	vmovaps	xmm2, xmm0
+	jne	.LBB4_1275
+.LBB4_1278:                             #   in Loop: Header=BB4_1272 Depth=1
+	vxorps	xmm2, xmm2, xmm2
+	vmovaps	xmm3, xmm1
+	jg	.LBB4_1271
+	jmp	.LBB4_1279
+.LBB4_1273:                             #   in Loop: Header=BB4_1272 Depth=1
+	vmovaps	xmm3, xmm1
+	jg	.LBB4_1274
+.LBB4_1277:                             #   in Loop: Header=BB4_1272 Depth=1
+	vmovaps	xmm3, xmm2
+	vmovss	dword ptr [r8 + 4*rdx], xmm3
+	cmp	byte ptr [rcx + rdx + 1], 0
+	vmovaps	xmm2, xmm0
+	je	.LBB4_1278
+.LBB4_1275:                             #   in Loop: Header=BB4_1272 Depth=1
+	vmovaps	xmm3, xmm1
+	jg	.LBB4_1271
+.LBB4_1279:                             #   in Loop: Header=BB4_1272 Depth=1
+	vmovaps	xmm3, xmm2
+	jmp	.LBB4_1271
+.LBB4_1282:
+	xor	edi, edi
+.LBB4_1283:
+	test	r9b, 1
+	je	.LBB4_1285
+# %bb.1284:
+	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
+	vxorpd	xmm1, xmm1, xmm1
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_0] # ymm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vbroadcastsd	ymm3, qword ptr [rip + .LCPI4_1] # ymm3 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	vandpd	ymm2, ymm0, ymm2
+	vorpd	ymm3, ymm3, ymm2
+	vextractf128	xmm4, ymm3, 1
+	vmovsd	xmm2, qword ptr [rip + .LCPI4_6] # xmm2 = mem[0],zero
+	vsubsd	xmm5, xmm4, xmm2
+	vcvttsd2si	rax, xmm5
+	xor	rax, r11
+	vcvttsd2si	rdx, xmm4
+	vucomisd	xmm4, xmm2
+	cmovae	rdx, rax
+	vmovq	xmm5, rdx
+	vpermilps	xmm4, xmm4, 78          # xmm4 = xmm4[2,3,0,1]
+	vsubsd	xmm6, xmm4, xmm2
+	vcvttsd2si	rax, xmm6
+	xor	rax, r11
+	vcvttsd2si	rdx, xmm4
+	vucomisd	xmm4, xmm2
+	cmovae	rdx, rax
+	vmovq	xmm4, rdx
+	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
+	vsubsd	xmm5, xmm3, xmm2
+	vcvttsd2si	rax, xmm5
+	xor	rax, r11
+	vcvttsd2si	rdx, xmm3
+	vucomisd	xmm3, xmm2
+	cmovae	rdx, rax
+	vmovq	xmm5, rdx
+	vpermilps	xmm3, xmm3, 78          # xmm3 = xmm3[2,3,0,1]
+	vsubsd	xmm6, xmm3, xmm2
+	vcvttsd2si	rax, xmm6
+	xor	rax, r11
+	vcvttsd2si	rdx, xmm3
+	vucomisd	xmm3, xmm2
+	cmovae	rdx, rax
+	vmovq	xmm2, rdx
+	vpunpcklqdq	xmm2, xmm5, xmm2        # xmm2 = xmm5[0],xmm2[0]
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vcmpneqpd	ymm0, ymm0, ymm1
+	vandpd	ymm0, ymm0, ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
+.LBB4_1285:
+	cmp	rsi, r10
+	je	.LBB4_1351
+.LBB4_1286:
+	vmovddup	xmm0, qword ptr [rip + .LCPI4_1] # xmm0 = [1.0E+0,1.0E+0]
+                                        # xmm0 = mem[0,0]
+	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
+	vmovsd	xmm2, qword ptr [rip + .LCPI4_6] # xmm2 = mem[0],zero
+	xor	eax, eax
+	vxorpd	xmm3, xmm3, xmm3
+.LBB4_1287:                             # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm4, qword ptr [rcx + 8*rsi]   # xmm4 = mem[0],zero
+	vandpd	xmm5, xmm4, xmm1
+	vorpd	xmm5, xmm0, xmm5
+	vsubsd	xmm6, xmm5, xmm2
+	vcvttsd2si	rdx, xmm6
+	xor	rdx, r11
+	vcvttsd2si	rdi, xmm5
+	vucomisd	xmm5, xmm2
+	cmovae	rdi, rdx
+	vucomisd	xmm3, xmm4
+	cmove	rdi, rax
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	cmp	r10, rsi
+	jne	.LBB4_1287
+	jmp	.LBB4_1351
+.LBB4_1280:
+	vmovmskps	ecx, xmm0
+	and	ecx, 1
+	neg	ecx
+	or	ecx, 1
+	vcvtsi2ss	xmm0, xmm4, ecx
+	vmovss	xmm1, dword ptr [rip + .LCPI4_9] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm2, xmm0, xmm1
+	vcvttss2si	rcx, xmm2
+	movabs	rdx, -9223372036854775808
+	xor	rdx, rcx
+	vcvttss2si	rcx, xmm0
+	vucomiss	xmm0, xmm1
+	cmovae	rcx, rdx
+.LBB4_1281:
+	mov	qword ptr [r8 + 8*rax], rcx
+	jmp	.LBB4_1351
+.LBB4_1288:
+	xor	edi, edi
+.LBB4_1289:
+	test	r9b, 1
+	je	.LBB4_1291
+# %bb.1290:
+	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
+	vxorpd	xmm1, xmm1, xmm1
+	vcmpeqpd	ymm1, ymm0, ymm1
+	vextractf128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_0] # ymm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vandpd	ymm0, ymm0, ymm2
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_1] # ymm2 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	vorpd	ymm0, ymm2, ymm0
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_7] # ymm2 = [2.147483648E+9,2.147483648E+9,2.147483648E+9,2.147483648E+9]
+	vcmpltpd	ymm3, ymm0, ymm2
+	vextractf128	xmm4, ymm3, 1
+	vsubpd	ymm2, ymm0, ymm2
+	vcvttpd2dq	xmm2, ymm2
+	vbroadcastss	xmm5, dword ptr [rip + .LCPI4_4] # xmm5 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vpackssdw	xmm3, xmm3, xmm4
+	vxorpd	xmm2, xmm2, xmm5
+	vcvttpd2dq	xmm0, ymm0
+	vblendvps	xmm0, xmm2, xmm0, xmm3
+	vpandn	xmm0, xmm1, xmm0
+	vmovdqu	xmmword ptr [r8 + 4*rdi], xmm0
+.LBB4_1291:
+	cmp	rsi, rax
+	je	.LBB4_1351
+.LBB4_1292:
+	vxorpd	xmm0, xmm0, xmm0
+	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
+	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
+                                        # xmm2 = mem[0,0]
+.LBB4_1293:                             # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
+	vucomisd	xmm0, xmm3
+	vandpd	xmm3, xmm3, xmm1
+	vorpd	xmm3, xmm2, xmm3
+	vcvttsd2si	rdx, xmm3
+	cmove	edx, r10d
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB4_1293
+	jmp	.LBB4_1351
+.LBB4_1294:
+	xor	esi, esi
+.LBB4_1295:
+	test	r9b, 1
+	je	.LBB4_1297
+# %bb.1296:
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rsi]
+	vpsrad	ymm1, ymm0, 31
+	vpbroadcastd	ymm2, dword ptr [rip + .LCPI4_8] # ymm2 = [1,1,1,1,1,1,1,1]
+	vpor	ymm1, ymm1, ymm2
+	vcvtdq2ps	ymm1, ymm1
+	vbroadcastss	ymm2, dword ptr [rip + .LCPI4_10] # ymm2 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
+	vcmpltps	ymm3, ymm1, ymm2
+	vsubps	ymm2, ymm1, ymm2
+	vcvttps2dq	ymm2, ymm2
+	vbroadcastss	ymm4, dword ptr [rip + .LCPI4_4] # ymm4 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vxorps	ymm2, ymm2, ymm4
+	vcvttps2dq	ymm1, ymm1
+	vblendvps	ymm1, ymm2, ymm1, ymm3
+	vxorps	xmm2, xmm2, xmm2
+	vcmpneqps	ymm0, ymm0, ymm2
+	vandps	ymm0, ymm0, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm0
+.LBB4_1297:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_1298:
+	vpxor	xmm0, xmm0, xmm0
+	jmp	.LBB4_1300
+.LBB4_1299:                             #   in Loop: Header=BB4_1300 Depth=1
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1351
+.LBB4_1300:                             # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	xor	esi, esi
+	vucomiss	xmm0, xmm1
+	je	.LBB4_1299
+# %bb.1301:                             #   in Loop: Header=BB4_1300 Depth=1
+	vmovmskps	esi, xmm1
+	and	esi, 1
+	neg	esi
+	or	esi, 1
+	vcvtsi2ss	xmm1, xmm8, esi
+	vcvttss2si	rsi, xmm1
+	jmp	.LBB4_1299
+.LBB4_1302:
+	xor	esi, esi
+.LBB4_1303:
+	test	r9b, 1
+	je	.LBB4_1305
+# %bb.1304:
+	vmovupd	ymm0, ymmword ptr [rcx + 8*rsi]
+	vxorpd	xmm1, xmm1, xmm1
+	vbroadcastsd	ymm2, qword ptr [rip + .LCPI4_0] # ymm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	vandpd	ymm2, ymm0, ymm2
+	vbroadcastsd	ymm3, qword ptr [rip + .LCPI4_1] # ymm3 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	vorpd	ymm2, ymm3, ymm2
+	vextractf128	xmm3, ymm2, 1
+	vcvttsd2si	rdi, xmm3
+	vmovq	xmm4, rdi
+	vpermilps	xmm3, xmm3, 78          # xmm3 = xmm3[2,3,0,1]
+	vcvttsd2si	rdi, xmm3
+	vmovq	xmm3, rdi
+	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
+	vcvttsd2si	rdi, xmm2
+	vmovq	xmm4, rdi
+	vpermilps	xmm2, xmm2, 78          # xmm2 = xmm2[2,3,0,1]
+	vcvttsd2si	rdi, xmm2
+	vmovq	xmm2, rdi
+	vpunpcklqdq	xmm2, xmm4, xmm2        # xmm2 = xmm4[0],xmm2[0]
+	vinserti128	ymm2, ymm2, xmm3, 1
+	vcmpneqpd	ymm0, ymm0, ymm1
+	vandpd	ymm0, ymm0, ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm0
+.LBB4_1305:
+	cmp	rdx, rax
+	je	.LBB4_1351
+.LBB4_1306:
+	xor	esi, esi
+	vxorpd	xmm0, xmm0, xmm0
+	vmovapd	xmm1, xmmword ptr [rip + .LCPI4_2] # xmm1 = [-0.0E+0,-0.0E+0]
+	vmovddup	xmm2, qword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
+                                        # xmm2 = mem[0,0]
+.LBB4_1307:                             # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
+	vucomisd	xmm0, xmm3
+	vandpd	xmm3, xmm3, xmm1
+	vorpd	xmm3, xmm2, xmm3
+	vcvttsd2si	rdi, xmm3
+	cmove	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx], rdi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_1307
+	jmp	.LBB4_1351
+.LBB4_1308:
+	xor	esi, esi
+.LBB4_1309:
+	test	r9b, 1
+	je	.LBB4_1311
+# %bb.1310:
+	vmovups	xmm0, xmmword ptr [rcx + 4*rsi]
+	vpxor	xmm1, xmm1, xmm1
+	vcmpeqps	xmm1, xmm0, xmm1
+	vpmovsxdq	ymm1, xmm1
+	vpsrad	xmm0, xmm0, 31
+	vpbroadcastd	xmm2, dword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+	vpor	xmm0, xmm0, xmm2
+	vcvtdq2ps	xmm0, xmm0
+	vpermilps	xmm2, xmm0, 231         # xmm2 = xmm0[3,1,2,3]
+	vcvttss2si	rax, xmm2
+	vmovq	xmm2, rax
+	vpermilpd	xmm3, xmm0, 1           # xmm3 = xmm0[1,0]
+	vcvttss2si	rax, xmm3
+	vmovq	xmm3, rax
+	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
+	vcvttss2si	rax, xmm0
+	vmovq	xmm3, rax
+	vmovshdup	xmm0, xmm0              # xmm0 = xmm0[1,1,3,3]
+	vcvttss2si	rax, xmm0
+	vmovq	xmm0, rax
+	vpunpcklqdq	xmm0, xmm3, xmm0        # xmm0 = xmm3[0],xmm0[0]
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vpandn	ymm0, ymm1, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rsi], ymm0
+.LBB4_1311:
+	cmp	rdx, r10
+	je	.LBB4_1351
+.LBB4_1312:
+	vxorps	xmm0, xmm0, xmm0
+	jmp	.LBB4_1315
+.LBB4_1313:                             #   in Loop: Header=BB4_1315 Depth=1
+	vmovmskps	eax, xmm1
+	and	eax, 1
+	neg	eax
+	or	eax, 1
+	vcvtsi2ss	xmm1, xmm6, eax
+	vcvttss2si	rsi, xmm1
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	cmp	r10, rdx
+	je	.LBB4_1351
+.LBB4_1315:                             # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	vucomiss	xmm0, xmm1
+	jne	.LBB4_1313
+# %bb.1316:                             #   in Loop: Header=BB4_1315 Depth=1
+	xor	esi, esi
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_1315
+	jmp	.LBB4_1351
+.LBB4_1317:
+	xor	edi, edi
+.LBB4_1318:
+	test	r9b, 1
+	je	.LBB4_1320
+# %bb.1319:
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpcmpeqw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vpandn	ymm1, ymm1, ymm2
+	vpandn	ymm0, ymm0, ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB4_1320:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1321
+.LBB4_1325:
+	xor	edi, edi
+.LBB4_1326:
+	test	r9b, 1
+	je	.LBB4_1328
+# %bb.1327:
+	vpxor	xmm0, xmm0, xmm0
+	vpcmpeqw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI4_18] # ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpcmpeqw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vpandn	ymm1, ymm1, ymm2
+	vpandn	ymm0, ymm0, ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB4_1328:
+	cmp	rdx, rax
+	je	.LBB4_1351
+	jmp	.LBB4_1329
+.LBB4_1333:
+	xor	esi, esi
+.LBB4_1334:
+	test	r9b, 1
+	je	.LBB4_1336
+# %bb.1335:
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rsi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rsi + 32]
+	vpxor	xmm2, xmm2, xmm2
+	vpcmpeqw	ymm3, ymm0, ymm2
+	vpcmpeqd	ymm4, ymm4, ymm4
+	vpxor	ymm3, ymm3, ymm4
+	vpcmpeqw	ymm2, ymm1, ymm2
+	vpxor	ymm2, ymm2, ymm4
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI4_18] # ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpcmpgtw	ymm0, ymm4, ymm0
+	vpcmpgtw	ymm1, ymm4, ymm1
+	vpblendvb	ymm0, ymm4, ymm3, ymm0
+	vpblendvb	ymm1, ymm4, ymm2, ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm1
+.LBB4_1336:
+	cmp	rdx, r11
+	je	.LBB4_1351
+	jmp	.LBB4_1337
+.LBB4_1342:
+	xor	esi, esi
+.LBB4_1343:
+	test	r9b, 1
+	je	.LBB4_1345
+# %bb.1344:
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rsi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rsi + 32]
+	vpxor	xmm2, xmm2, xmm2
+	vpcmpeqw	ymm3, ymm0, ymm2
+	vpcmpeqd	ymm4, ymm4, ymm4
+	vpxor	ymm3, ymm3, ymm4
+	vpcmpeqw	ymm2, ymm1, ymm2
+	vpxor	ymm2, ymm2, ymm4
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI4_18] # ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpcmpgtw	ymm0, ymm4, ymm0
+	vpcmpgtw	ymm1, ymm4, ymm1
+	vpblendvb	ymm0, ymm4, ymm3, ymm0
+	vpblendvb	ymm1, ymm4, ymm2, ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rsi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rsi + 32], ymm1
+.LBB4_1345:
+	cmp	rdx, r11
+	jne	.LBB4_1346
+.LBB4_1351:
+	lea	rsp, [rbp - 16]
+	pop	rbx
+	pop	r14
+	pop	rbp
+	vzeroupper
+	ret
+.Lfunc_end4:
+	.size	arithmetic_unary_diff_type_avx2, .Lfunc_end4-arithmetic_unary_diff_type_avx2
+                                        # -- End function
+	.ident	"Ubuntu clang version 11.1.0-6"
+	.section	".note.GNU-stack","",@progbits
+	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
new file mode 100644
index 00000000000..1b2db4159cf
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
@@ -0,0 +1,38194 @@
+	.text
+	.intel_syntax noprefix
+	.file	"base_arithmetic.cc"
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4                               # -- Begin function arithmetic_binary_sse4
+.LCPI0_0:
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.text
+	.globl	arithmetic_binary_sse4
+	.p2align	4, 0x90
+	.type	arithmetic_binary_sse4,@function
+arithmetic_binary_sse4:                 # @arithmetic_binary_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	cmp	sil, 20
+	jg	.LBB0_11
+# %bb.1:
+	test	sil, sil
+	je	.LBB0_21
+# %bb.2:
+	cmp	sil, 1
+	je	.LBB0_367
+# %bb.3:
+	cmp	sil, 2
+	jne	.LBB0_1013
+# %bb.4:
+	cmp	edi, 6
+	jg	.LBB0_719
+# %bb.5:
+	cmp	edi, 3
+	jle	.LBB0_6
+# %bb.713:
+	cmp	edi, 4
+	je	.LBB0_760
+# %bb.714:
+	cmp	edi, 5
+	je	.LBB0_776
+# %bb.715:
+	cmp	edi, 6
+	jne	.LBB0_1013
+# %bb.716:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.717:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_792
+# %bb.718:
+	xor	esi, esi
+.LBB0_801:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_803
+.LBB0_802:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	imul	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_802
+.LBB0_803:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_804:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	imul	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	imul	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	imul	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	imul	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_804
+	jmp	.LBB0_1013
+.LBB0_11:
+	cmp	sil, 21
+	je	.LBB0_194
+# %bb.12:
+	cmp	sil, 22
+	je	.LBB0_540
+# %bb.13:
+	cmp	sil, 23
+	jne	.LBB0_1013
+# %bb.14:
+	cmp	edi, 6
+	jg	.LBB0_869
+# %bb.15:
+	cmp	edi, 3
+	jle	.LBB0_16
+# %bb.863:
+	cmp	edi, 4
+	je	.LBB0_910
+# %bb.864:
+	cmp	edi, 5
+	je	.LBB0_926
+# %bb.865:
+	cmp	edi, 6
+	jne	.LBB0_1013
+# %bb.866:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.867:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_942
+# %bb.868:
+	xor	esi, esi
+.LBB0_951:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_953
+.LBB0_952:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	imul	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_952
+.LBB0_953:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_954:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	imul	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	imul	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	imul	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	imul	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_954
+	jmp	.LBB0_1013
+.LBB0_21:
+	cmp	edi, 6
+	jg	.LBB0_34
+# %bb.22:
+	cmp	edi, 3
+	jle	.LBB0_23
+# %bb.28:
+	cmp	edi, 4
+	je	.LBB0_75
+# %bb.29:
+	cmp	edi, 5
+	je	.LBB0_91
+# %bb.30:
+	cmp	edi, 6
+	jne	.LBB0_1013
+# %bb.31:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.32:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_107
+# %bb.33:
+	xor	esi, esi
+.LBB0_116:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_118
+.LBB0_117:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_117
+.LBB0_118:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_119:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_119
+	jmp	.LBB0_1013
+.LBB0_367:
+	cmp	edi, 6
+	jg	.LBB0_380
+# %bb.368:
+	cmp	edi, 3
+	jle	.LBB0_369
+# %bb.374:
+	cmp	edi, 4
+	je	.LBB0_421
+# %bb.375:
+	cmp	edi, 5
+	je	.LBB0_437
+# %bb.376:
+	cmp	edi, 6
+	jne	.LBB0_1013
+# %bb.377:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.378:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_453
+# %bb.379:
+	xor	esi, esi
+.LBB0_462:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_464
+.LBB0_463:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_463
+.LBB0_464:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_465:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_465
+	jmp	.LBB0_1013
+.LBB0_194:
+	cmp	edi, 6
+	jg	.LBB0_207
+# %bb.195:
+	cmp	edi, 3
+	jle	.LBB0_196
+# %bb.201:
+	cmp	edi, 4
+	je	.LBB0_248
+# %bb.202:
+	cmp	edi, 5
+	je	.LBB0_264
+# %bb.203:
+	cmp	edi, 6
+	jne	.LBB0_1013
+# %bb.204:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.205:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_280
+# %bb.206:
+	xor	esi, esi
+.LBB0_289:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_291
+.LBB0_290:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_290
+.LBB0_291:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_292:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_292
+	jmp	.LBB0_1013
+.LBB0_540:
+	cmp	edi, 6
+	jg	.LBB0_553
+# %bb.541:
+	cmp	edi, 3
+	jle	.LBB0_542
+# %bb.547:
+	cmp	edi, 4
+	je	.LBB0_594
+# %bb.548:
+	cmp	edi, 5
+	je	.LBB0_610
+# %bb.549:
+	cmp	edi, 6
+	jne	.LBB0_1013
+# %bb.550:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.551:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_626
+# %bb.552:
+	xor	esi, esi
+.LBB0_635:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_637
+.LBB0_636:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_636
+.LBB0_637:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_638:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_638
+	jmp	.LBB0_1013
+.LBB0_719:
+	cmp	edi, 8
+	jle	.LBB0_720
+# %bb.725:
+	cmp	edi, 9
+	je	.LBB0_826
+# %bb.726:
+	cmp	edi, 11
+	je	.LBB0_834
+# %bb.727:
+	cmp	edi, 12
+	jne	.LBB0_1013
+# %bb.728:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.729:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_850
+# %bb.730:
+	xor	esi, esi
+.LBB0_859:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_861
+.LBB0_860:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	mulsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_860
+.LBB0_861:
+	cmp	rax, 3
+	jb	.LBB0_1013
+.LBB0_862:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	mulsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	mulsd	xmm0, qword ptr [rdx + 8*rsi + 8]
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	mulsd	xmm0, qword ptr [rdx + 8*rsi + 16]
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	mulsd	xmm0, qword ptr [rdx + 8*rsi + 24]
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_862
+	jmp	.LBB0_1013
+.LBB0_869:
+	cmp	edi, 8
+	jle	.LBB0_870
+# %bb.875:
+	cmp	edi, 9
+	je	.LBB0_976
+# %bb.876:
+	cmp	edi, 11
+	je	.LBB0_984
+# %bb.877:
+	cmp	edi, 12
+	jne	.LBB0_1013
+# %bb.878:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.879:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_1000
+# %bb.880:
+	xor	esi, esi
+.LBB0_1009:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_1011
+.LBB0_1010:                             # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	mulsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1010
+.LBB0_1011:
+	cmp	rax, 3
+	jb	.LBB0_1013
+.LBB0_1012:                             # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	mulsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	mulsd	xmm0, qword ptr [rdx + 8*rsi + 8]
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	mulsd	xmm0, qword ptr [rdx + 8*rsi + 16]
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	mulsd	xmm0, qword ptr [rdx + 8*rsi + 24]
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_1012
+	jmp	.LBB0_1013
+.LBB0_34:
+	cmp	edi, 8
+	jle	.LBB0_35
+# %bb.40:
+	cmp	edi, 9
+	je	.LBB0_149
+# %bb.41:
+	cmp	edi, 11
+	je	.LBB0_165
+# %bb.42:
+	cmp	edi, 12
+	jne	.LBB0_1013
+# %bb.43:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.44:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_181
+# %bb.45:
+	xor	esi, esi
+.LBB0_190:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_192
+.LBB0_191:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_191
+.LBB0_192:
+	cmp	rax, 3
+	jb	.LBB0_1013
+.LBB0_193:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 8]
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 16]
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 24]
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_193
+	jmp	.LBB0_1013
+.LBB0_380:
+	cmp	edi, 8
+	jle	.LBB0_381
+# %bb.386:
+	cmp	edi, 9
+	je	.LBB0_495
+# %bb.387:
+	cmp	edi, 11
+	je	.LBB0_511
+# %bb.388:
+	cmp	edi, 12
+	jne	.LBB0_1013
+# %bb.389:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.390:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_527
+# %bb.391:
+	xor	esi, esi
+.LBB0_536:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_538
+.LBB0_537:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_537
+.LBB0_538:
+	cmp	rax, 3
+	jb	.LBB0_1013
+.LBB0_539:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 8]
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 16]
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 24]
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_539
+	jmp	.LBB0_1013
+.LBB0_207:
+	cmp	edi, 8
+	jle	.LBB0_208
+# %bb.213:
+	cmp	edi, 9
+	je	.LBB0_322
+# %bb.214:
+	cmp	edi, 11
+	je	.LBB0_338
+# %bb.215:
+	cmp	edi, 12
+	jne	.LBB0_1013
+# %bb.216:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.217:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_354
+# %bb.218:
+	xor	esi, esi
+.LBB0_363:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_365
+.LBB0_364:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_364
+.LBB0_365:
+	cmp	rax, 3
+	jb	.LBB0_1013
+.LBB0_366:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 8]
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 16]
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 24]
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_366
+	jmp	.LBB0_1013
+.LBB0_553:
+	cmp	edi, 8
+	jle	.LBB0_554
+# %bb.559:
+	cmp	edi, 9
+	je	.LBB0_668
+# %bb.560:
+	cmp	edi, 11
+	je	.LBB0_684
+# %bb.561:
+	cmp	edi, 12
+	jne	.LBB0_1013
+# %bb.562:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.563:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_700
+# %bb.564:
+	xor	esi, esi
+.LBB0_709:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_711
+.LBB0_710:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_710
+.LBB0_711:
+	cmp	rax, 3
+	jb	.LBB0_1013
+.LBB0_712:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 8]
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 16]
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 24]
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_712
+	jmp	.LBB0_1013
+.LBB0_6:
+	cmp	edi, 2
+	je	.LBB0_731
+# %bb.7:
+	cmp	edi, 3
+	jne	.LBB0_1013
+# %bb.8:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.9:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_747
+# %bb.10:
+	xor	edi, edi
+.LBB0_756:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB0_758
+.LBB0_757:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB0_757
+.LBB0_758:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_759:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	byte ptr [rdx + rdi + 1]
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	byte ptr [rdx + rdi + 2]
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	byte ptr [rdx + rdi + 3]
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB0_759
+	jmp	.LBB0_1013
+.LBB0_16:
+	cmp	edi, 2
+	je	.LBB0_881
+# %bb.17:
+	cmp	edi, 3
+	jne	.LBB0_1013
+# %bb.18:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.19:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_897
+# %bb.20:
+	xor	edi, edi
+.LBB0_906:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB0_908
+.LBB0_907:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB0_907
+.LBB0_908:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_909:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	byte ptr [rdx + rdi + 1]
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	byte ptr [rdx + rdi + 2]
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	byte ptr [rdx + rdi + 3]
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB0_909
+	jmp	.LBB0_1013
+.LBB0_23:
+	cmp	edi, 2
+	je	.LBB0_46
+# %bb.24:
+	cmp	edi, 3
+	jne	.LBB0_1013
+# %bb.25:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.26:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_62
+# %bb.27:
+	xor	esi, esi
+.LBB0_71:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_73
+.LBB0_72:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_72
+.LBB0_73:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_74:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_74
+	jmp	.LBB0_1013
+.LBB0_369:
+	cmp	edi, 2
+	je	.LBB0_392
+# %bb.370:
+	cmp	edi, 3
+	jne	.LBB0_1013
+# %bb.371:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.372:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_408
+# %bb.373:
+	xor	esi, esi
+.LBB0_417:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_419
+.LBB0_418:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_418
+.LBB0_419:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_420:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_420
+	jmp	.LBB0_1013
+.LBB0_196:
+	cmp	edi, 2
+	je	.LBB0_219
+# %bb.197:
+	cmp	edi, 3
+	jne	.LBB0_1013
+# %bb.198:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.199:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_235
+# %bb.200:
+	xor	esi, esi
+.LBB0_244:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_246
+.LBB0_245:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_245
+.LBB0_246:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_247:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_247
+	jmp	.LBB0_1013
+.LBB0_542:
+	cmp	edi, 2
+	je	.LBB0_565
+# %bb.543:
+	cmp	edi, 3
+	jne	.LBB0_1013
+# %bb.544:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.545:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_581
+# %bb.546:
+	xor	esi, esi
+.LBB0_590:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_592
+.LBB0_591:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_591
+.LBB0_592:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_593:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_593
+	jmp	.LBB0_1013
+.LBB0_720:
+	cmp	edi, 7
+	je	.LBB0_805
+# %bb.721:
+	cmp	edi, 8
+	jne	.LBB0_1013
+# %bb.722:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.723:
+	mov	esi, r9d
+	lea	rdi, [rsi - 1]
+	mov	r9d, esi
+	and	r9d, 3
+	cmp	rdi, 3
+	jae	.LBB0_821
+# %bb.724:
+	xor	edi, edi
+	jmp	.LBB0_823
+.LBB0_870:
+	cmp	edi, 7
+	je	.LBB0_955
+# %bb.871:
+	cmp	edi, 8
+	jne	.LBB0_1013
+# %bb.872:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.873:
+	mov	esi, r9d
+	lea	rdi, [rsi - 1]
+	mov	r9d, esi
+	and	r9d, 3
+	cmp	rdi, 3
+	jae	.LBB0_971
+# %bb.874:
+	xor	edi, edi
+	jmp	.LBB0_973
+.LBB0_35:
+	cmp	edi, 7
+	je	.LBB0_120
+# %bb.36:
+	cmp	edi, 8
+	jne	.LBB0_1013
+# %bb.37:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.38:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_136
+# %bb.39:
+	xor	esi, esi
+.LBB0_145:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_147
+.LBB0_146:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_146
+.LBB0_147:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_148:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_148
+	jmp	.LBB0_1013
+.LBB0_381:
+	cmp	edi, 7
+	je	.LBB0_466
+# %bb.382:
+	cmp	edi, 8
+	jne	.LBB0_1013
+# %bb.383:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.384:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_482
+# %bb.385:
+	xor	esi, esi
+.LBB0_491:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_493
+.LBB0_492:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_492
+.LBB0_493:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_494:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_494
+	jmp	.LBB0_1013
+.LBB0_208:
+	cmp	edi, 7
+	je	.LBB0_293
+# %bb.209:
+	cmp	edi, 8
+	jne	.LBB0_1013
+# %bb.210:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.211:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_309
+# %bb.212:
+	xor	esi, esi
+.LBB0_318:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_320
+.LBB0_319:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_319
+.LBB0_320:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_321:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_321
+	jmp	.LBB0_1013
+.LBB0_554:
+	cmp	edi, 7
+	je	.LBB0_639
+# %bb.555:
+	cmp	edi, 8
+	jne	.LBB0_1013
+# %bb.556:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.557:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_655
+# %bb.558:
+	xor	esi, esi
+.LBB0_664:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_666
+.LBB0_665:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_665
+.LBB0_666:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_667:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_667
+	jmp	.LBB0_1013
+.LBB0_760:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.761:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_763
+# %bb.762:
+	xor	esi, esi
+.LBB0_772:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_774
+.LBB0_773:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	imul	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_773
+.LBB0_774:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_775:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	imul	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	imul	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	imul	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	imul	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_775
+	jmp	.LBB0_1013
+.LBB0_776:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.777:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_779
+# %bb.778:
+	xor	esi, esi
+.LBB0_788:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_790
+.LBB0_789:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	imul	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_789
+.LBB0_790:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_791:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	imul	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	imul	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	imul	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	imul	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_791
+	jmp	.LBB0_1013
+.LBB0_910:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.911:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_913
+# %bb.912:
+	xor	esi, esi
+.LBB0_922:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_924
+.LBB0_923:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	imul	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_923
+.LBB0_924:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_925:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	imul	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	imul	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	imul	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	imul	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_925
+	jmp	.LBB0_1013
+.LBB0_926:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.927:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_929
+# %bb.928:
+	xor	esi, esi
+.LBB0_938:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_940
+.LBB0_939:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	imul	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_939
+.LBB0_940:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_941:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	imul	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	imul	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	imul	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	imul	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_941
+	jmp	.LBB0_1013
+.LBB0_75:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.76:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_78
+# %bb.77:
+	xor	esi, esi
+.LBB0_87:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_89
+.LBB0_88:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_88
+.LBB0_89:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_90:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_90
+	jmp	.LBB0_1013
+.LBB0_91:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.92:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_94
+# %bb.93:
+	xor	esi, esi
+.LBB0_103:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_105
+.LBB0_104:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_104
+.LBB0_105:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_106:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_106
+	jmp	.LBB0_1013
+.LBB0_421:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.422:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_424
+# %bb.423:
+	xor	esi, esi
+.LBB0_433:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_435
+.LBB0_434:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_434
+.LBB0_435:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_436:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_436
+	jmp	.LBB0_1013
+.LBB0_437:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.438:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_440
+# %bb.439:
+	xor	esi, esi
+.LBB0_449:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_451
+.LBB0_450:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_450
+.LBB0_451:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_452:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_452
+	jmp	.LBB0_1013
+.LBB0_248:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.249:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_251
+# %bb.250:
+	xor	esi, esi
+.LBB0_260:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_262
+.LBB0_261:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_261
+.LBB0_262:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_263:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_263
+	jmp	.LBB0_1013
+.LBB0_264:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.265:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_267
+# %bb.266:
+	xor	esi, esi
+.LBB0_276:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_278
+.LBB0_277:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_277
+.LBB0_278:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_279:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_279
+	jmp	.LBB0_1013
+.LBB0_594:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.595:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_597
+# %bb.596:
+	xor	esi, esi
+.LBB0_606:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_608
+.LBB0_607:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_607
+.LBB0_608:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_609:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_609
+	jmp	.LBB0_1013
+.LBB0_610:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.611:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_613
+# %bb.612:
+	xor	esi, esi
+.LBB0_622:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_624
+.LBB0_623:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_623
+.LBB0_624:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_625:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_625
+	jmp	.LBB0_1013
+.LBB0_826:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.827:
+	mov	esi, r9d
+	lea	rdi, [rsi - 1]
+	mov	r9d, esi
+	and	r9d, 3
+	cmp	rdi, 3
+	jae	.LBB0_829
+# %bb.828:
+	xor	edi, edi
+	jmp	.LBB0_831
+.LBB0_834:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.835:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_837
+# %bb.836:
+	xor	esi, esi
+.LBB0_846:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_848
+.LBB0_847:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	mulss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_847
+.LBB0_848:
+	cmp	rax, 3
+	jb	.LBB0_1013
+.LBB0_849:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	mulss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	mulss	xmm0, dword ptr [rdx + 4*rsi + 4]
+	movss	dword ptr [r8 + 4*rsi + 4], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	mulss	xmm0, dword ptr [rdx + 4*rsi + 8]
+	movss	dword ptr [r8 + 4*rsi + 8], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	mulss	xmm0, dword ptr [rdx + 4*rsi + 12]
+	movss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_849
+	jmp	.LBB0_1013
+.LBB0_976:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.977:
+	mov	esi, r9d
+	lea	rdi, [rsi - 1]
+	mov	r9d, esi
+	and	r9d, 3
+	cmp	rdi, 3
+	jae	.LBB0_979
+# %bb.978:
+	xor	edi, edi
+	jmp	.LBB0_981
+.LBB0_984:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.985:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_987
+# %bb.986:
+	xor	esi, esi
+.LBB0_996:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_998
+.LBB0_997:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	mulss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_997
+.LBB0_998:
+	cmp	rax, 3
+	jb	.LBB0_1013
+.LBB0_999:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	mulss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	mulss	xmm0, dword ptr [rdx + 4*rsi + 4]
+	movss	dword ptr [r8 + 4*rsi + 4], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	mulss	xmm0, dword ptr [rdx + 4*rsi + 8]
+	movss	dword ptr [r8 + 4*rsi + 8], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	mulss	xmm0, dword ptr [rdx + 4*rsi + 12]
+	movss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_999
+	jmp	.LBB0_1013
+.LBB0_149:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.150:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_152
+# %bb.151:
+	xor	esi, esi
+.LBB0_161:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_163
+.LBB0_162:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_162
+.LBB0_163:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_164:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_164
+	jmp	.LBB0_1013
+.LBB0_165:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.166:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_168
+# %bb.167:
+	xor	esi, esi
+.LBB0_177:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_179
+.LBB0_178:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_178
+.LBB0_179:
+	cmp	rax, 3
+	jb	.LBB0_1013
+.LBB0_180:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 4]
+	movss	dword ptr [r8 + 4*rsi + 4], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 8]
+	movss	dword ptr [r8 + 4*rsi + 8], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 12]
+	movss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_180
+	jmp	.LBB0_1013
+.LBB0_495:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.496:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_498
+# %bb.497:
+	xor	esi, esi
+.LBB0_507:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_509
+.LBB0_508:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_508
+.LBB0_509:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_510:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_510
+	jmp	.LBB0_1013
+.LBB0_511:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.512:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_514
+# %bb.513:
+	xor	esi, esi
+.LBB0_523:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_525
+.LBB0_524:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_524
+.LBB0_525:
+	cmp	rax, 3
+	jb	.LBB0_1013
+.LBB0_526:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
+	movss	dword ptr [r8 + 4*rsi + 4], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
+	movss	dword ptr [r8 + 4*rsi + 8], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
+	movss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_526
+	jmp	.LBB0_1013
+.LBB0_322:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.323:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_325
+# %bb.324:
+	xor	esi, esi
+.LBB0_334:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_336
+.LBB0_335:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_335
+.LBB0_336:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_337:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_337
+	jmp	.LBB0_1013
+.LBB0_338:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.339:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_341
+# %bb.340:
+	xor	esi, esi
+.LBB0_350:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_352
+.LBB0_351:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_351
+.LBB0_352:
+	cmp	rax, 3
+	jb	.LBB0_1013
+.LBB0_353:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 4]
+	movss	dword ptr [r8 + 4*rsi + 4], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 8]
+	movss	dword ptr [r8 + 4*rsi + 8], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 12]
+	movss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_353
+	jmp	.LBB0_1013
+.LBB0_668:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.669:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_671
+# %bb.670:
+	xor	esi, esi
+.LBB0_680:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_682
+.LBB0_681:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_681
+.LBB0_682:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_683:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_683
+	jmp	.LBB0_1013
+.LBB0_684:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.685:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_687
+# %bb.686:
+	xor	esi, esi
+.LBB0_696:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_698
+.LBB0_697:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_697
+.LBB0_698:
+	cmp	rax, 3
+	jb	.LBB0_1013
+.LBB0_699:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
+	movss	dword ptr [r8 + 4*rsi + 4], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
+	movss	dword ptr [r8 + 4*rsi + 8], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
+	movss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_699
+	jmp	.LBB0_1013
+.LBB0_731:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.732:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_734
+# %bb.733:
+	xor	edi, edi
+.LBB0_743:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB0_745
+.LBB0_744:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB0_744
+.LBB0_745:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_746:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	byte ptr [rdx + rdi + 1]
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	byte ptr [rdx + rdi + 2]
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	byte ptr [rdx + rdi + 3]
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB0_746
+	jmp	.LBB0_1013
+.LBB0_881:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.882:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_884
+# %bb.883:
+	xor	edi, edi
+.LBB0_893:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB0_895
+.LBB0_894:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB0_894
+.LBB0_895:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_896:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	byte ptr [rdx + rdi]
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	byte ptr [rdx + rdi + 1]
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	byte ptr [rdx + rdi + 2]
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	byte ptr [rdx + rdi + 3]
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB0_896
+	jmp	.LBB0_1013
+.LBB0_46:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.47:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_49
+# %bb.48:
+	xor	esi, esi
+.LBB0_58:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_60
+.LBB0_59:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_59
+.LBB0_60:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_61:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_61
+	jmp	.LBB0_1013
+.LBB0_392:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.393:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_395
+# %bb.394:
+	xor	esi, esi
+.LBB0_404:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_406
+.LBB0_405:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_405
+.LBB0_406:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_407:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_407
+	jmp	.LBB0_1013
+.LBB0_219:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.220:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_222
+# %bb.221:
+	xor	esi, esi
+.LBB0_231:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_233
+.LBB0_232:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_232
+.LBB0_233:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_234:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_234
+	jmp	.LBB0_1013
+.LBB0_565:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.566:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_568
+# %bb.567:
+	xor	esi, esi
+.LBB0_577:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_579
+.LBB0_578:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_578
+.LBB0_579:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_580:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_580
+	jmp	.LBB0_1013
+.LBB0_805:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.806:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_808
+# %bb.807:
+	xor	esi, esi
+.LBB0_817:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_819
+.LBB0_818:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	imul	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_818
+.LBB0_819:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_820:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	imul	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	imul	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	imul	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	imul	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_820
+	jmp	.LBB0_1013
+.LBB0_955:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.956:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_958
+# %bb.957:
+	xor	esi, esi
+.LBB0_967:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_969
+.LBB0_968:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	imul	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_968
+.LBB0_969:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_970:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	imul	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	imul	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	imul	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	imul	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_970
+	jmp	.LBB0_1013
+.LBB0_120:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.121:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_123
+# %bb.122:
+	xor	esi, esi
+.LBB0_132:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_134
+.LBB0_133:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_133
+.LBB0_134:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_135:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_135
+	jmp	.LBB0_1013
+.LBB0_466:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.467:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_469
+# %bb.468:
+	xor	esi, esi
+.LBB0_478:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_480
+.LBB0_479:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_479
+.LBB0_480:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_481:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_481
+	jmp	.LBB0_1013
+.LBB0_293:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.294:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_296
+# %bb.295:
+	xor	esi, esi
+.LBB0_305:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_307
+.LBB0_306:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_306
+.LBB0_307:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_308:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_308
+	jmp	.LBB0_1013
+.LBB0_639:
+	test	r9d, r9d
+	jle	.LBB0_1013
+# %bb.640:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_642
+# %bb.641:
+	xor	esi, esi
+.LBB0_651:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_653
+.LBB0_652:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_652
+.LBB0_653:
+	cmp	r9, 3
+	jb	.LBB0_1013
+.LBB0_654:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_654
+	jmp	.LBB0_1013
+.LBB0_792:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_801
+# %bb.793:
+	and	al, dil
+	jne	.LBB0_801
+# %bb.794:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_795
+# %bb.796:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_797:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	pmulld	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	pmulld	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	pmulld	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_797
+	jmp	.LBB0_798
+.LBB0_942:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_951
+# %bb.943:
+	and	al, dil
+	jne	.LBB0_951
+# %bb.944:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_945
+# %bb.946:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_947:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	pmulld	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	pmulld	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	pmulld	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_947
+	jmp	.LBB0_948
+.LBB0_107:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_116
+# %bb.108:
+	and	al, dil
+	jne	.LBB0_116
+# %bb.109:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_110
+# %bb.111:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_112:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_112
+	jmp	.LBB0_113
+.LBB0_453:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_462
+# %bb.454:
+	and	al, dil
+	jne	.LBB0_462
+# %bb.455:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_456
+# %bb.457:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_458:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_458
+	jmp	.LBB0_459
+.LBB0_280:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_289
+# %bb.281:
+	and	al, dil
+	jne	.LBB0_289
+# %bb.282:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_283
+# %bb.284:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_285:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_285
+	jmp	.LBB0_286
+.LBB0_626:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_635
+# %bb.627:
+	and	al, dil
+	jne	.LBB0_635
+# %bb.628:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_629
+# %bb.630:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_631:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_631
+	jmp	.LBB0_632
+.LBB0_850:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_859
+# %bb.851:
+	and	al, dil
+	jne	.LBB0_859
+# %bb.852:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_853
+# %bb.854:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_855:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	mulpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	mulpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	mulpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	mulpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_855
+	jmp	.LBB0_856
+.LBB0_1000:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_1009
+# %bb.1001:
+	and	al, dil
+	jne	.LBB0_1009
+# %bb.1002:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_1003
+# %bb.1004:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_1005:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	mulpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	mulpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	mulpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	mulpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_1005
+	jmp	.LBB0_1006
+.LBB0_181:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_190
+# %bb.182:
+	and	al, dil
+	jne	.LBB0_190
+# %bb.183:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_184
+# %bb.185:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_186:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_186
+	jmp	.LBB0_187
+.LBB0_527:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_536
+# %bb.528:
+	and	al, dil
+	jne	.LBB0_536
+# %bb.529:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_530
+# %bb.531:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_532:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_532
+	jmp	.LBB0_533
+.LBB0_354:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_363
+# %bb.355:
+	and	al, dil
+	jne	.LBB0_363
+# %bb.356:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_357
+# %bb.358:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_359:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_359
+	jmp	.LBB0_360
+.LBB0_700:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_709
+# %bb.701:
+	and	al, dil
+	jne	.LBB0_709
+# %bb.702:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_703
+# %bb.704:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_705:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_705
+	jmp	.LBB0_706
+.LBB0_747:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	sil
+	xor	edi, edi
+	test	r9b, r11b
+	jne	.LBB0_756
+# %bb.748:
+	and	al, sil
+	jne	.LBB0_756
+# %bb.749:
+	mov	edi, r10d
+	and	edi, -32
+	lea	rax, [rdi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_750
+# %bb.751:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	eax, eax
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_0] # xmm0 = [255,255,255,255,255,255,255,255]
+.LBB0_752:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rax]
+	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm3, xmmword ptr [rcx + rax]
+	movdqu	xmm4, xmmword ptr [rcx + rax + 16]
+	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	pmullw	xmm6, xmm5
+	pand	xmm6, xmm0
+	packuswb	xmm6, xmm3
+	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm4, xmm2
+	pand	xmm4, xmm0
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	packuswb	xmm3, xmm4
+	movdqu	xmmword ptr [r8 + rax], xmm6
+	movdqu	xmmword ptr [r8 + rax + 16], xmm3
+	movdqu	xmm1, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rax + 48]
+	movdqu	xmm3, xmmword ptr [rcx + rax + 32]
+	movdqu	xmm4, xmmword ptr [rcx + rax + 48]
+	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	pmullw	xmm6, xmm5
+	pand	xmm6, xmm0
+	packuswb	xmm6, xmm3
+	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm4, xmm2
+	pand	xmm4, xmm0
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	packuswb	xmm3, xmm4
+	movdqu	xmmword ptr [r8 + rax + 32], xmm6
+	movdqu	xmmword ptr [r8 + rax + 48], xmm3
+	add	rax, 64
+	add	rsi, 2
+	jne	.LBB0_752
+	jmp	.LBB0_753
+.LBB0_897:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	sil
+	xor	edi, edi
+	test	r9b, r11b
+	jne	.LBB0_906
+# %bb.898:
+	and	al, sil
+	jne	.LBB0_906
+# %bb.899:
+	mov	edi, r10d
+	and	edi, -32
+	lea	rax, [rdi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_900
+# %bb.901:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	eax, eax
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_0] # xmm0 = [255,255,255,255,255,255,255,255]
+.LBB0_902:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rax]
+	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm3, xmmword ptr [rcx + rax]
+	movdqu	xmm4, xmmword ptr [rcx + rax + 16]
+	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	pmullw	xmm6, xmm5
+	pand	xmm6, xmm0
+	packuswb	xmm6, xmm3
+	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm4, xmm2
+	pand	xmm4, xmm0
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	packuswb	xmm3, xmm4
+	movdqu	xmmword ptr [r8 + rax], xmm6
+	movdqu	xmmword ptr [r8 + rax + 16], xmm3
+	movdqu	xmm1, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rax + 48]
+	movdqu	xmm3, xmmword ptr [rcx + rax + 32]
+	movdqu	xmm4, xmmword ptr [rcx + rax + 48]
+	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	pmullw	xmm6, xmm5
+	pand	xmm6, xmm0
+	packuswb	xmm6, xmm3
+	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm4, xmm2
+	pand	xmm4, xmm0
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	packuswb	xmm3, xmm4
+	movdqu	xmmword ptr [r8 + rax + 32], xmm6
+	movdqu	xmmword ptr [r8 + rax + 48], xmm3
+	add	rax, 64
+	add	rsi, 2
+	jne	.LBB0_902
+	jmp	.LBB0_903
+.LBB0_62:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_71
+# %bb.63:
+	and	al, dil
+	jne	.LBB0_71
+# %bb.64:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_65
+# %bb.66:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_67:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_67
+	jmp	.LBB0_68
+.LBB0_408:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_417
+# %bb.409:
+	and	al, dil
+	jne	.LBB0_417
+# %bb.410:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_411
+# %bb.412:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_413:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_413
+	jmp	.LBB0_414
+.LBB0_235:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_244
+# %bb.236:
+	and	al, dil
+	jne	.LBB0_244
+# %bb.237:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_238
+# %bb.239:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_240:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_240
+	jmp	.LBB0_241
+.LBB0_581:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_590
+# %bb.582:
+	and	al, dil
+	jne	.LBB0_590
+# %bb.583:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_584
+# %bb.585:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_586:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_586
+	jmp	.LBB0_587
+.LBB0_821:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_822:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rdi]
+	imul	rax, qword ptr [rdx + 8*rdi]
+	mov	qword ptr [r8 + 8*rdi], rax
+	mov	rax, qword ptr [rcx + 8*rdi + 8]
+	imul	rax, qword ptr [rdx + 8*rdi + 8]
+	mov	qword ptr [r8 + 8*rdi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rdi + 16]
+	imul	rax, qword ptr [rdx + 8*rdi + 16]
+	mov	qword ptr [r8 + 8*rdi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rdi + 24]
+	imul	rax, qword ptr [rdx + 8*rdi + 24]
+	mov	qword ptr [r8 + 8*rdi + 24], rax
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_822
+.LBB0_823:
+	test	r9, r9
+	je	.LBB0_1013
+# %bb.824:
+	lea	rsi, [r8 + 8*rdi]
+	lea	rcx, [rcx + 8*rdi]
+	lea	rdx, [rdx + 8*rdi]
+	xor	edi, edi
+.LBB0_825:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rdi]
+	imul	rax, qword ptr [rdx + 8*rdi]
+	mov	qword ptr [rsi + 8*rdi], rax
+	add	rdi, 1
+	cmp	r9, rdi
+	jne	.LBB0_825
+	jmp	.LBB0_1013
+.LBB0_971:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_972:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rdi]
+	imul	rax, qword ptr [rdx + 8*rdi]
+	mov	qword ptr [r8 + 8*rdi], rax
+	mov	rax, qword ptr [rcx + 8*rdi + 8]
+	imul	rax, qword ptr [rdx + 8*rdi + 8]
+	mov	qword ptr [r8 + 8*rdi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rdi + 16]
+	imul	rax, qword ptr [rdx + 8*rdi + 16]
+	mov	qword ptr [r8 + 8*rdi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rdi + 24]
+	imul	rax, qword ptr [rdx + 8*rdi + 24]
+	mov	qword ptr [r8 + 8*rdi + 24], rax
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_972
+.LBB0_973:
+	test	r9, r9
+	je	.LBB0_1013
+# %bb.974:
+	lea	rsi, [r8 + 8*rdi]
+	lea	rcx, [rcx + 8*rdi]
+	lea	rdx, [rdx + 8*rdi]
+	xor	edi, edi
+.LBB0_975:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rdi]
+	imul	rax, qword ptr [rdx + 8*rdi]
+	mov	qword ptr [rsi + 8*rdi], rax
+	add	rdi, 1
+	cmp	r9, rdi
+	jne	.LBB0_975
+	jmp	.LBB0_1013
+.LBB0_136:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_145
+# %bb.137:
+	and	al, dil
+	jne	.LBB0_145
+# %bb.138:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_139
+# %bb.140:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_141:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_141
+	jmp	.LBB0_142
+.LBB0_482:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_491
+# %bb.483:
+	and	al, dil
+	jne	.LBB0_491
+# %bb.484:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_485
+# %bb.486:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_487:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_487
+	jmp	.LBB0_488
+.LBB0_309:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_318
+# %bb.310:
+	and	al, dil
+	jne	.LBB0_318
+# %bb.311:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_312
+# %bb.313:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_314:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_314
+	jmp	.LBB0_315
+.LBB0_655:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_664
+# %bb.656:
+	and	al, dil
+	jne	.LBB0_664
+# %bb.657:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_658
+# %bb.659:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_660:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_660
+	jmp	.LBB0_661
+.LBB0_763:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_772
+# %bb.764:
+	and	al, dil
+	jne	.LBB0_772
+# %bb.765:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_766
+# %bb.767:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_768:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	pmullw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	pmullw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
+	pmullw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_768
+	jmp	.LBB0_769
+.LBB0_779:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_788
+# %bb.780:
+	and	al, dil
+	jne	.LBB0_788
+# %bb.781:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_782
+# %bb.783:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_784:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	pmullw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	pmullw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
+	pmullw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_784
+	jmp	.LBB0_785
+.LBB0_913:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_922
+# %bb.914:
+	and	al, dil
+	jne	.LBB0_922
+# %bb.915:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_916
+# %bb.917:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_918:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	pmullw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	pmullw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
+	pmullw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_918
+	jmp	.LBB0_919
+.LBB0_929:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_938
+# %bb.930:
+	and	al, dil
+	jne	.LBB0_938
+# %bb.931:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_932
+# %bb.933:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_934:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	pmullw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	pmullw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
+	pmullw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_934
+	jmp	.LBB0_935
+.LBB0_78:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_87
+# %bb.79:
+	and	al, dil
+	jne	.LBB0_87
+# %bb.80:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_81
+# %bb.82:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_83:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_83
+	jmp	.LBB0_84
+.LBB0_94:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_103
+# %bb.95:
+	and	al, dil
+	jne	.LBB0_103
+# %bb.96:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_97
+# %bb.98:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_99:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_99
+	jmp	.LBB0_100
+.LBB0_424:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_433
+# %bb.425:
+	and	al, dil
+	jne	.LBB0_433
+# %bb.426:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_427
+# %bb.428:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_429:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_429
+	jmp	.LBB0_430
+.LBB0_440:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_449
+# %bb.441:
+	and	al, dil
+	jne	.LBB0_449
+# %bb.442:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_443
+# %bb.444:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_445:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_445
+	jmp	.LBB0_446
+.LBB0_251:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_260
+# %bb.252:
+	and	al, dil
+	jne	.LBB0_260
+# %bb.253:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_254
+# %bb.255:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_256:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_256
+	jmp	.LBB0_257
+.LBB0_267:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_276
+# %bb.268:
+	and	al, dil
+	jne	.LBB0_276
+# %bb.269:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_270
+# %bb.271:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_272:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_272
+	jmp	.LBB0_273
+.LBB0_597:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_606
+# %bb.598:
+	and	al, dil
+	jne	.LBB0_606
+# %bb.599:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_600
+# %bb.601:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_602:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_602
+	jmp	.LBB0_603
+.LBB0_613:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_622
+# %bb.614:
+	and	al, dil
+	jne	.LBB0_622
+# %bb.615:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_616
+# %bb.617:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_618:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_618
+	jmp	.LBB0_619
+.LBB0_829:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_830:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rdi]
+	imul	rax, qword ptr [rdx + 8*rdi]
+	mov	qword ptr [r8 + 8*rdi], rax
+	mov	rax, qword ptr [rcx + 8*rdi + 8]
+	imul	rax, qword ptr [rdx + 8*rdi + 8]
+	mov	qword ptr [r8 + 8*rdi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rdi + 16]
+	imul	rax, qword ptr [rdx + 8*rdi + 16]
+	mov	qword ptr [r8 + 8*rdi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rdi + 24]
+	imul	rax, qword ptr [rdx + 8*rdi + 24]
+	mov	qword ptr [r8 + 8*rdi + 24], rax
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_830
+.LBB0_831:
+	test	r9, r9
+	je	.LBB0_1013
+# %bb.832:
+	lea	rsi, [r8 + 8*rdi]
+	lea	rcx, [rcx + 8*rdi]
+	lea	rdx, [rdx + 8*rdi]
+	xor	edi, edi
+.LBB0_833:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rdi]
+	imul	rax, qword ptr [rdx + 8*rdi]
+	mov	qword ptr [rsi + 8*rdi], rax
+	add	rdi, 1
+	cmp	r9, rdi
+	jne	.LBB0_833
+	jmp	.LBB0_1013
+.LBB0_837:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_846
+# %bb.838:
+	and	al, dil
+	jne	.LBB0_846
+# %bb.839:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_840
+# %bb.841:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_842:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	mulps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	mulps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	mulps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	mulps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_842
+	jmp	.LBB0_843
+.LBB0_979:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_980:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rdi]
+	imul	rax, qword ptr [rdx + 8*rdi]
+	mov	qword ptr [r8 + 8*rdi], rax
+	mov	rax, qword ptr [rcx + 8*rdi + 8]
+	imul	rax, qword ptr [rdx + 8*rdi + 8]
+	mov	qword ptr [r8 + 8*rdi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rdi + 16]
+	imul	rax, qword ptr [rdx + 8*rdi + 16]
+	mov	qword ptr [r8 + 8*rdi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rdi + 24]
+	imul	rax, qword ptr [rdx + 8*rdi + 24]
+	mov	qword ptr [r8 + 8*rdi + 24], rax
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_980
+.LBB0_981:
+	test	r9, r9
+	je	.LBB0_1013
+# %bb.982:
+	lea	rsi, [r8 + 8*rdi]
+	lea	rcx, [rcx + 8*rdi]
+	lea	rdx, [rdx + 8*rdi]
+	xor	edi, edi
+.LBB0_983:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rdi]
+	imul	rax, qword ptr [rdx + 8*rdi]
+	mov	qword ptr [rsi + 8*rdi], rax
+	add	rdi, 1
+	cmp	r9, rdi
+	jne	.LBB0_983
+.LBB0_1013:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.LBB0_987:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_996
+# %bb.988:
+	and	al, dil
+	jne	.LBB0_996
+# %bb.989:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_990
+# %bb.991:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_992:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	mulps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	mulps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	mulps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	mulps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_992
+	jmp	.LBB0_993
+.LBB0_152:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_161
+# %bb.153:
+	and	al, dil
+	jne	.LBB0_161
+# %bb.154:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_155
+# %bb.156:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_157:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_157
+	jmp	.LBB0_158
+.LBB0_168:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_177
+# %bb.169:
+	and	al, dil
+	jne	.LBB0_177
+# %bb.170:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_171
+# %bb.172:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_173:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_173
+	jmp	.LBB0_174
+.LBB0_498:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_507
+# %bb.499:
+	and	al, dil
+	jne	.LBB0_507
+# %bb.500:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_501
+# %bb.502:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_503:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_503
+	jmp	.LBB0_504
+.LBB0_514:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_523
+# %bb.515:
+	and	al, dil
+	jne	.LBB0_523
+# %bb.516:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_517
+# %bb.518:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_519:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_519
+	jmp	.LBB0_520
+.LBB0_325:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_334
+# %bb.326:
+	and	al, dil
+	jne	.LBB0_334
+# %bb.327:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_328
+# %bb.329:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_330:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_330
+	jmp	.LBB0_331
+.LBB0_341:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_350
+# %bb.342:
+	and	al, dil
+	jne	.LBB0_350
+# %bb.343:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_344
+# %bb.345:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_346:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_346
+	jmp	.LBB0_347
+.LBB0_671:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_680
+# %bb.672:
+	and	al, dil
+	jne	.LBB0_680
+# %bb.673:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_674
+# %bb.675:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_676:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_676
+	jmp	.LBB0_677
+.LBB0_687:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_696
+# %bb.688:
+	and	al, dil
+	jne	.LBB0_696
+# %bb.689:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_690
+# %bb.691:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_692:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_692
+	jmp	.LBB0_693
+.LBB0_734:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	sil
+	xor	edi, edi
+	test	r9b, r11b
+	jne	.LBB0_743
+# %bb.735:
+	and	al, sil
+	jne	.LBB0_743
+# %bb.736:
+	mov	edi, r10d
+	and	edi, -32
+	lea	rax, [rdi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_737
+# %bb.738:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	eax, eax
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_0] # xmm0 = [255,255,255,255,255,255,255,255]
+.LBB0_739:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rax]
+	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm3, xmmword ptr [rcx + rax]
+	movdqu	xmm4, xmmword ptr [rcx + rax + 16]
+	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	pmullw	xmm6, xmm5
+	pand	xmm6, xmm0
+	packuswb	xmm6, xmm3
+	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm4, xmm2
+	pand	xmm4, xmm0
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	packuswb	xmm3, xmm4
+	movdqu	xmmword ptr [r8 + rax], xmm6
+	movdqu	xmmword ptr [r8 + rax + 16], xmm3
+	movdqu	xmm1, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rax + 48]
+	movdqu	xmm3, xmmword ptr [rcx + rax + 32]
+	movdqu	xmm4, xmmword ptr [rcx + rax + 48]
+	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	pmullw	xmm6, xmm5
+	pand	xmm6, xmm0
+	packuswb	xmm6, xmm3
+	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm4, xmm2
+	pand	xmm4, xmm0
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	packuswb	xmm3, xmm4
+	movdqu	xmmword ptr [r8 + rax + 32], xmm6
+	movdqu	xmmword ptr [r8 + rax + 48], xmm3
+	add	rax, 64
+	add	rsi, 2
+	jne	.LBB0_739
+	jmp	.LBB0_740
+.LBB0_884:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	sil
+	xor	edi, edi
+	test	r9b, r11b
+	jne	.LBB0_893
+# %bb.885:
+	and	al, sil
+	jne	.LBB0_893
+# %bb.886:
+	mov	edi, r10d
+	and	edi, -32
+	lea	rax, [rdi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_887
+# %bb.888:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	eax, eax
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_0] # xmm0 = [255,255,255,255,255,255,255,255]
+.LBB0_889:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rax]
+	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm3, xmmword ptr [rcx + rax]
+	movdqu	xmm4, xmmword ptr [rcx + rax + 16]
+	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	pmullw	xmm6, xmm5
+	pand	xmm6, xmm0
+	packuswb	xmm6, xmm3
+	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm4, xmm2
+	pand	xmm4, xmm0
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	packuswb	xmm3, xmm4
+	movdqu	xmmword ptr [r8 + rax], xmm6
+	movdqu	xmmword ptr [r8 + rax + 16], xmm3
+	movdqu	xmm1, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rax + 48]
+	movdqu	xmm3, xmmword ptr [rcx + rax + 32]
+	movdqu	xmm4, xmmword ptr [rcx + rax + 48]
+	pmovzxbw	xmm5, xmm1                      # xmm5 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm6, xmm3                      # xmm6 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	pmullw	xmm6, xmm5
+	pand	xmm6, xmm0
+	packuswb	xmm6, xmm3
+	pmovzxbw	xmm1, xmm2                      # xmm1 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm3, xmm4                      # xmm3 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm4, xmm2
+	pand	xmm4, xmm0
+	pmullw	xmm3, xmm1
+	pand	xmm3, xmm0
+	packuswb	xmm3, xmm4
+	movdqu	xmmword ptr [r8 + rax + 32], xmm6
+	movdqu	xmmword ptr [r8 + rax + 48], xmm3
+	add	rax, 64
+	add	rsi, 2
+	jne	.LBB0_889
+	jmp	.LBB0_890
+.LBB0_49:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_58
+# %bb.50:
+	and	al, dil
+	jne	.LBB0_58
+# %bb.51:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_52
+# %bb.53:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_54:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_54
+	jmp	.LBB0_55
+.LBB0_395:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_404
+# %bb.396:
+	and	al, dil
+	jne	.LBB0_404
+# %bb.397:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_398
+# %bb.399:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_400:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_400
+	jmp	.LBB0_401
+.LBB0_222:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_231
+# %bb.223:
+	and	al, dil
+	jne	.LBB0_231
+# %bb.224:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_225
+# %bb.226:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_227:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_227
+	jmp	.LBB0_228
+.LBB0_568:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_577
+# %bb.569:
+	and	al, dil
+	jne	.LBB0_577
+# %bb.570:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_571
+# %bb.572:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_573:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_573
+	jmp	.LBB0_574
+.LBB0_808:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_817
+# %bb.809:
+	and	al, dil
+	jne	.LBB0_817
+# %bb.810:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_811
+# %bb.812:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_813:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	pmulld	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	pmulld	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	pmulld	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_813
+	jmp	.LBB0_814
+.LBB0_958:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_967
+# %bb.959:
+	and	al, dil
+	jne	.LBB0_967
+# %bb.960:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_961
+# %bb.962:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_963:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	pmulld	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	pmulld	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	pmulld	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_963
+	jmp	.LBB0_964
+.LBB0_123:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_132
+# %bb.124:
+	and	al, dil
+	jne	.LBB0_132
+# %bb.125:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_126
+# %bb.127:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_128:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_128
+	jmp	.LBB0_129
+.LBB0_469:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_478
+# %bb.470:
+	and	al, dil
+	jne	.LBB0_478
+# %bb.471:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_472
+# %bb.473:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_474:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_474
+	jmp	.LBB0_475
+.LBB0_296:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_305
+# %bb.297:
+	and	al, dil
+	jne	.LBB0_305
+# %bb.298:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_299
+# %bb.300:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_301:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_301
+	jmp	.LBB0_302
+.LBB0_642:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_651
+# %bb.643:
+	and	al, dil
+	jne	.LBB0_651
+# %bb.644:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_645
+# %bb.646:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_647:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_647
+	jmp	.LBB0_648
+.LBB0_795:
+	xor	edi, edi
+.LBB0_798:
+	test	r9b, 1
+	je	.LBB0_800
+# %bb.799:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	pmulld	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_800:
+	cmp	rsi, r10
+	jne	.LBB0_801
+	jmp	.LBB0_1013
+.LBB0_945:
+	xor	edi, edi
+.LBB0_948:
+	test	r9b, 1
+	je	.LBB0_950
+# %bb.949:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	pmulld	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_950:
+	cmp	rsi, r10
+	jne	.LBB0_951
+	jmp	.LBB0_1013
+.LBB0_110:
+	xor	edi, edi
+.LBB0_113:
+	test	r9b, 1
+	je	.LBB0_115
+# %bb.114:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_115:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_116
+.LBB0_456:
+	xor	edi, edi
+.LBB0_459:
+	test	r9b, 1
+	je	.LBB0_461
+# %bb.460:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_461:
+	cmp	rsi, r10
+	jne	.LBB0_462
+	jmp	.LBB0_1013
+.LBB0_283:
+	xor	edi, edi
+.LBB0_286:
+	test	r9b, 1
+	je	.LBB0_288
+# %bb.287:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_288:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_289
+.LBB0_629:
+	xor	edi, edi
+.LBB0_632:
+	test	r9b, 1
+	je	.LBB0_634
+# %bb.633:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_634:
+	cmp	rsi, r10
+	jne	.LBB0_635
+	jmp	.LBB0_1013
+.LBB0_853:
+	xor	edi, edi
+.LBB0_856:
+	test	r9b, 1
+	je	.LBB0_858
+# %bb.857:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	mulpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	mulpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_858:
+	cmp	rsi, r10
+	jne	.LBB0_859
+	jmp	.LBB0_1013
+.LBB0_1003:
+	xor	edi, edi
+.LBB0_1006:
+	test	r9b, 1
+	je	.LBB0_1008
+# %bb.1007:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	mulpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	mulpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_1008:
+	cmp	rsi, r10
+	jne	.LBB0_1009
+	jmp	.LBB0_1013
+.LBB0_184:
+	xor	edi, edi
+.LBB0_187:
+	test	r9b, 1
+	je	.LBB0_189
+# %bb.188:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_189:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_190
+.LBB0_530:
+	xor	edi, edi
+.LBB0_533:
+	test	r9b, 1
+	je	.LBB0_535
+# %bb.534:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_535:
+	cmp	rsi, r10
+	jne	.LBB0_536
+	jmp	.LBB0_1013
+.LBB0_357:
+	xor	edi, edi
+.LBB0_360:
+	test	r9b, 1
+	je	.LBB0_362
+# %bb.361:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_362:
+	cmp	rsi, r10
+	jne	.LBB0_363
+	jmp	.LBB0_1013
+.LBB0_703:
+	xor	edi, edi
+.LBB0_706:
+	test	r9b, 1
+	je	.LBB0_708
+# %bb.707:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_708:
+	cmp	rsi, r10
+	jne	.LBB0_709
+	jmp	.LBB0_1013
+.LBB0_750:
+	xor	eax, eax
+.LBB0_753:
+	test	r9b, 1
+	je	.LBB0_755
+# %bb.754:
+	movdqu	xmm1, xmmword ptr [rdx + rax]
+	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm3, xmmword ptr [rcx + rax]
+	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
+	pmovzxbw	xmm4, xmm1                      # xmm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm5, xmm3                      # xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm1
+	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [255,255,255,255,255,255,255,255]
+	pand	xmm3, xmm1
+	pmullw	xmm5, xmm4
+	pand	xmm5, xmm1
+	packuswb	xmm5, xmm3
+	pmovzxbw	xmm3, xmm2                      # xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm4, xmm0                      # xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm0, xmm2
+	pand	xmm0, xmm1
+	pmullw	xmm4, xmm3
+	pand	xmm4, xmm1
+	packuswb	xmm4, xmm0
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmmword ptr [r8 + rax + 16], xmm4
+.LBB0_755:
+	cmp	rdi, r10
+	jne	.LBB0_756
+	jmp	.LBB0_1013
+.LBB0_900:
+	xor	eax, eax
+.LBB0_903:
+	test	r9b, 1
+	je	.LBB0_905
+# %bb.904:
+	movdqu	xmm1, xmmword ptr [rdx + rax]
+	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm3, xmmword ptr [rcx + rax]
+	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
+	pmovzxbw	xmm4, xmm1                      # xmm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm5, xmm3                      # xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm1
+	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [255,255,255,255,255,255,255,255]
+	pand	xmm3, xmm1
+	pmullw	xmm5, xmm4
+	pand	xmm5, xmm1
+	packuswb	xmm5, xmm3
+	pmovzxbw	xmm3, xmm2                      # xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm4, xmm0                      # xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm0, xmm2
+	pand	xmm0, xmm1
+	pmullw	xmm4, xmm3
+	pand	xmm4, xmm1
+	packuswb	xmm4, xmm0
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmmword ptr [r8 + rax + 16], xmm4
+.LBB0_905:
+	cmp	rdi, r10
+	jne	.LBB0_906
+	jmp	.LBB0_1013
+.LBB0_65:
+	xor	edi, edi
+.LBB0_68:
+	test	r9b, 1
+	je	.LBB0_70
+# %bb.69:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB0_70:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_71
+.LBB0_411:
+	xor	edi, edi
+.LBB0_414:
+	test	r9b, 1
+	je	.LBB0_416
+# %bb.415:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+.LBB0_416:
+	cmp	rsi, r10
+	jne	.LBB0_417
+	jmp	.LBB0_1013
+.LBB0_238:
+	xor	edi, edi
+.LBB0_241:
+	test	r9b, 1
+	je	.LBB0_243
+# %bb.242:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB0_243:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_244
+.LBB0_584:
+	xor	edi, edi
+.LBB0_587:
+	test	r9b, 1
+	je	.LBB0_589
+# %bb.588:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+.LBB0_589:
+	cmp	rsi, r10
+	jne	.LBB0_590
+	jmp	.LBB0_1013
+.LBB0_139:
+	xor	edi, edi
+.LBB0_142:
+	test	r9b, 1
+	je	.LBB0_144
+# %bb.143:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_144:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_145
+.LBB0_485:
+	xor	edi, edi
+.LBB0_488:
+	test	r9b, 1
+	je	.LBB0_490
+# %bb.489:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_490:
+	cmp	rsi, r10
+	jne	.LBB0_491
+	jmp	.LBB0_1013
+.LBB0_312:
+	xor	edi, edi
+.LBB0_315:
+	test	r9b, 1
+	je	.LBB0_317
+# %bb.316:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_317:
+	cmp	rsi, r10
+	jne	.LBB0_318
+	jmp	.LBB0_1013
+.LBB0_658:
+	xor	edi, edi
+.LBB0_661:
+	test	r9b, 1
+	je	.LBB0_663
+# %bb.662:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_663:
+	cmp	rsi, r10
+	jne	.LBB0_664
+	jmp	.LBB0_1013
+.LBB0_766:
+	xor	edi, edi
+.LBB0_769:
+	test	r9b, 1
+	je	.LBB0_771
+# %bb.770:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	pmullw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_771:
+	cmp	rsi, r10
+	jne	.LBB0_772
+	jmp	.LBB0_1013
+.LBB0_782:
+	xor	edi, edi
+.LBB0_785:
+	test	r9b, 1
+	je	.LBB0_787
+# %bb.786:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	pmullw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_787:
+	cmp	rsi, r10
+	jne	.LBB0_788
+	jmp	.LBB0_1013
+.LBB0_916:
+	xor	edi, edi
+.LBB0_919:
+	test	r9b, 1
+	je	.LBB0_921
+# %bb.920:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	pmullw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_921:
+	cmp	rsi, r10
+	jne	.LBB0_922
+	jmp	.LBB0_1013
+.LBB0_932:
+	xor	edi, edi
+.LBB0_935:
+	test	r9b, 1
+	je	.LBB0_937
+# %bb.936:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	pmullw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_937:
+	cmp	rsi, r10
+	jne	.LBB0_938
+	jmp	.LBB0_1013
+.LBB0_81:
+	xor	edi, edi
+.LBB0_84:
+	test	r9b, 1
+	je	.LBB0_86
+# %bb.85:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_86:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_87
+.LBB0_97:
+	xor	edi, edi
+.LBB0_100:
+	test	r9b, 1
+	je	.LBB0_102
+# %bb.101:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_102:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_103
+.LBB0_427:
+	xor	edi, edi
+.LBB0_430:
+	test	r9b, 1
+	je	.LBB0_432
+# %bb.431:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+.LBB0_432:
+	cmp	rsi, r10
+	jne	.LBB0_433
+	jmp	.LBB0_1013
+.LBB0_443:
+	xor	edi, edi
+.LBB0_446:
+	test	r9b, 1
+	je	.LBB0_448
+# %bb.447:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+.LBB0_448:
+	cmp	rsi, r10
+	jne	.LBB0_449
+	jmp	.LBB0_1013
+.LBB0_254:
+	xor	edi, edi
+.LBB0_257:
+	test	r9b, 1
+	je	.LBB0_259
+# %bb.258:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_259:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_260
+.LBB0_270:
+	xor	edi, edi
+.LBB0_273:
+	test	r9b, 1
+	je	.LBB0_275
+# %bb.274:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_275:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_276
+.LBB0_600:
+	xor	edi, edi
+.LBB0_603:
+	test	r9b, 1
+	je	.LBB0_605
+# %bb.604:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+.LBB0_605:
+	cmp	rsi, r10
+	jne	.LBB0_606
+	jmp	.LBB0_1013
+.LBB0_616:
+	xor	edi, edi
+.LBB0_619:
+	test	r9b, 1
+	je	.LBB0_621
+# %bb.620:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+.LBB0_621:
+	cmp	rsi, r10
+	jne	.LBB0_622
+	jmp	.LBB0_1013
+.LBB0_840:
+	xor	edi, edi
+.LBB0_843:
+	test	r9b, 1
+	je	.LBB0_845
+# %bb.844:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	mulps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	mulps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_845:
+	cmp	rsi, r10
+	jne	.LBB0_846
+	jmp	.LBB0_1013
+.LBB0_990:
+	xor	edi, edi
+.LBB0_993:
+	test	r9b, 1
+	je	.LBB0_995
+# %bb.994:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	mulps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	mulps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_995:
+	cmp	rsi, r10
+	jne	.LBB0_996
+	jmp	.LBB0_1013
+.LBB0_155:
+	xor	edi, edi
+.LBB0_158:
+	test	r9b, 1
+	je	.LBB0_160
+# %bb.159:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_160:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_161
+.LBB0_171:
+	xor	edi, edi
+.LBB0_174:
+	test	r9b, 1
+	je	.LBB0_176
+# %bb.175:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_176:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_177
+.LBB0_501:
+	xor	edi, edi
+.LBB0_504:
+	test	r9b, 1
+	je	.LBB0_506
+# %bb.505:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_506:
+	cmp	rsi, r10
+	jne	.LBB0_507
+	jmp	.LBB0_1013
+.LBB0_517:
+	xor	edi, edi
+.LBB0_520:
+	test	r9b, 1
+	je	.LBB0_522
+# %bb.521:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_522:
+	cmp	rsi, r10
+	jne	.LBB0_523
+	jmp	.LBB0_1013
+.LBB0_328:
+	xor	edi, edi
+.LBB0_331:
+	test	r9b, 1
+	je	.LBB0_333
+# %bb.332:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_333:
+	cmp	rsi, r10
+	jne	.LBB0_334
+	jmp	.LBB0_1013
+.LBB0_344:
+	xor	edi, edi
+.LBB0_347:
+	test	r9b, 1
+	je	.LBB0_349
+# %bb.348:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_349:
+	cmp	rsi, r10
+	jne	.LBB0_350
+	jmp	.LBB0_1013
+.LBB0_674:
+	xor	edi, edi
+.LBB0_677:
+	test	r9b, 1
+	je	.LBB0_679
+# %bb.678:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_679:
+	cmp	rsi, r10
+	jne	.LBB0_680
+	jmp	.LBB0_1013
+.LBB0_690:
+	xor	edi, edi
+.LBB0_693:
+	test	r9b, 1
+	je	.LBB0_695
+# %bb.694:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_695:
+	cmp	rsi, r10
+	jne	.LBB0_696
+	jmp	.LBB0_1013
+.LBB0_737:
+	xor	eax, eax
+.LBB0_740:
+	test	r9b, 1
+	je	.LBB0_742
+# %bb.741:
+	movdqu	xmm1, xmmword ptr [rdx + rax]
+	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm3, xmmword ptr [rcx + rax]
+	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
+	pmovzxbw	xmm4, xmm1                      # xmm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm5, xmm3                      # xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm1
+	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [255,255,255,255,255,255,255,255]
+	pand	xmm3, xmm1
+	pmullw	xmm5, xmm4
+	pand	xmm5, xmm1
+	packuswb	xmm5, xmm3
+	pmovzxbw	xmm3, xmm2                      # xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm4, xmm0                      # xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm0, xmm2
+	pand	xmm0, xmm1
+	pmullw	xmm4, xmm3
+	pand	xmm4, xmm1
+	packuswb	xmm4, xmm0
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmmword ptr [r8 + rax + 16], xmm4
+.LBB0_742:
+	cmp	rdi, r10
+	jne	.LBB0_743
+	jmp	.LBB0_1013
+.LBB0_887:
+	xor	eax, eax
+.LBB0_890:
+	test	r9b, 1
+	je	.LBB0_892
+# %bb.891:
+	movdqu	xmm1, xmmword ptr [rdx + rax]
+	movdqu	xmm2, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm3, xmmword ptr [rcx + rax]
+	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
+	pmovzxbw	xmm4, xmm1                      # xmm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	punpckhbw	xmm1, xmm1              # xmm1 = xmm1[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm5, xmm3                      # xmm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm1
+	movdqa	xmm1, xmmword ptr [rip + .LCPI0_0] # xmm1 = [255,255,255,255,255,255,255,255]
+	pand	xmm3, xmm1
+	pmullw	xmm5, xmm4
+	pand	xmm5, xmm1
+	packuswb	xmm5, xmm3
+	pmovzxbw	xmm3, xmm2                      # xmm3 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm4, xmm0                      # xmm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm0, xmm2
+	pand	xmm0, xmm1
+	pmullw	xmm4, xmm3
+	pand	xmm4, xmm1
+	packuswb	xmm4, xmm0
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmmword ptr [r8 + rax + 16], xmm4
+.LBB0_892:
+	cmp	rdi, r10
+	jne	.LBB0_893
+	jmp	.LBB0_1013
+.LBB0_52:
+	xor	edi, edi
+.LBB0_55:
+	test	r9b, 1
+	je	.LBB0_57
+# %bb.56:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB0_57:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_58
+.LBB0_398:
+	xor	edi, edi
+.LBB0_401:
+	test	r9b, 1
+	je	.LBB0_403
+# %bb.402:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+.LBB0_403:
+	cmp	rsi, r10
+	jne	.LBB0_404
+	jmp	.LBB0_1013
+.LBB0_225:
+	xor	edi, edi
+.LBB0_228:
+	test	r9b, 1
+	je	.LBB0_230
+# %bb.229:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB0_230:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_231
+.LBB0_571:
+	xor	edi, edi
+.LBB0_574:
+	test	r9b, 1
+	je	.LBB0_576
+# %bb.575:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+.LBB0_576:
+	cmp	rsi, r10
+	jne	.LBB0_577
+	jmp	.LBB0_1013
+.LBB0_811:
+	xor	edi, edi
+.LBB0_814:
+	test	r9b, 1
+	je	.LBB0_816
+# %bb.815:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	pmulld	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_816:
+	cmp	rsi, r10
+	jne	.LBB0_817
+	jmp	.LBB0_1013
+.LBB0_961:
+	xor	edi, edi
+.LBB0_964:
+	test	r9b, 1
+	je	.LBB0_966
+# %bb.965:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	pmulld	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_966:
+	cmp	rsi, r10
+	jne	.LBB0_967
+	jmp	.LBB0_1013
+.LBB0_126:
+	xor	edi, edi
+.LBB0_129:
+	test	r9b, 1
+	je	.LBB0_131
+# %bb.130:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_131:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_132
+.LBB0_472:
+	xor	edi, edi
+.LBB0_475:
+	test	r9b, 1
+	je	.LBB0_477
+# %bb.476:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_477:
+	cmp	rsi, r10
+	jne	.LBB0_478
+	jmp	.LBB0_1013
+.LBB0_299:
+	xor	edi, edi
+.LBB0_302:
+	test	r9b, 1
+	je	.LBB0_304
+# %bb.303:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_304:
+	cmp	rsi, r10
+	je	.LBB0_1013
+	jmp	.LBB0_305
+.LBB0_645:
+	xor	edi, edi
+.LBB0_648:
+	test	r9b, 1
+	je	.LBB0_650
+# %bb.649:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_650:
+	cmp	rsi, r10
+	jne	.LBB0_651
+	jmp	.LBB0_1013
+.Lfunc_end0:
+	.size	arithmetic_binary_sse4, .Lfunc_end0-arithmetic_binary_sse4
+                                        # -- End function
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4                               # -- Begin function arithmetic_arr_scalar_sse4
+.LCPI1_0:
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.text
+	.globl	arithmetic_arr_scalar_sse4
+	.p2align	4, 0x90
+	.type	arithmetic_arr_scalar_sse4,@function
+arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	cmp	sil, 20
+	jg	.LBB1_12
+# %bb.1:
+	test	sil, sil
+	je	.LBB1_23
+# %bb.2:
+	cmp	sil, 1
+	je	.LBB1_31
+# %bb.3:
+	cmp	sil, 2
+	jne	.LBB1_1069
+# %bb.4:
+	cmp	edi, 6
+	jg	.LBB1_55
+# %bb.5:
+	cmp	edi, 3
+	jle	.LBB1_97
+# %bb.6:
+	cmp	edi, 4
+	je	.LBB1_157
+# %bb.7:
+	cmp	edi, 5
+	je	.LBB1_160
+# %bb.8:
+	cmp	edi, 6
+	jne	.LBB1_1069
+# %bb.9:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.10:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_11
+# %bb.265:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_453
+# %bb.266:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_453
+.LBB1_11:
+	xor	esi, esi
+.LBB1_625:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_627
+.LBB1_626:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_626
+.LBB1_627:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_628:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_628
+	jmp	.LBB1_1069
+.LBB1_12:
+	cmp	sil, 21
+	je	.LBB1_39
+# %bb.13:
+	cmp	sil, 22
+	je	.LBB1_47
+# %bb.14:
+	cmp	sil, 23
+	jne	.LBB1_1069
+# %bb.15:
+	cmp	edi, 6
+	jg	.LBB1_62
+# %bb.16:
+	cmp	edi, 3
+	jle	.LBB1_102
+# %bb.17:
+	cmp	edi, 4
+	je	.LBB1_163
+# %bb.18:
+	cmp	edi, 5
+	je	.LBB1_166
+# %bb.19:
+	cmp	edi, 6
+	jne	.LBB1_1069
+# %bb.20:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.21:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_22
+# %bb.268:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_456
+# %bb.269:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_456
+.LBB1_22:
+	xor	esi, esi
+.LBB1_633:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_635
+.LBB1_634:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_634
+.LBB1_635:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_636:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_636
+	jmp	.LBB1_1069
+.LBB1_23:
+	cmp	edi, 6
+	jg	.LBB1_69
+# %bb.24:
+	cmp	edi, 3
+	jle	.LBB1_107
+# %bb.25:
+	cmp	edi, 4
+	je	.LBB1_169
+# %bb.26:
+	cmp	edi, 5
+	je	.LBB1_172
+# %bb.27:
+	cmp	edi, 6
+	jne	.LBB1_1069
+# %bb.28:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.29:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_30
+# %bb.271:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_459
+# %bb.272:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_459
+.LBB1_30:
+	xor	esi, esi
+.LBB1_641:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_643
+.LBB1_642:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_642
+.LBB1_643:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_644:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_644
+	jmp	.LBB1_1069
+.LBB1_31:
+	cmp	edi, 6
+	jg	.LBB1_76
+# %bb.32:
+	cmp	edi, 3
+	jle	.LBB1_112
+# %bb.33:
+	cmp	edi, 4
+	je	.LBB1_175
+# %bb.34:
+	cmp	edi, 5
+	je	.LBB1_178
+# %bb.35:
+	cmp	edi, 6
+	jne	.LBB1_1069
+# %bb.36:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.37:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_38
+# %bb.274:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_462
+# %bb.275:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_462
+.LBB1_38:
+	xor	esi, esi
+.LBB1_649:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_651
+.LBB1_650:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_650
+.LBB1_651:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_652:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_652
+	jmp	.LBB1_1069
+.LBB1_39:
+	cmp	edi, 6
+	jg	.LBB1_83
+# %bb.40:
+	cmp	edi, 3
+	jle	.LBB1_117
+# %bb.41:
+	cmp	edi, 4
+	je	.LBB1_181
+# %bb.42:
+	cmp	edi, 5
+	je	.LBB1_184
+# %bb.43:
+	cmp	edi, 6
+	jne	.LBB1_1069
+# %bb.44:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.45:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_46
+# %bb.277:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_465
+# %bb.278:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_465
+.LBB1_46:
+	xor	esi, esi
+.LBB1_657:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_659
+.LBB1_658:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_658
+.LBB1_659:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_660:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_660
+	jmp	.LBB1_1069
+.LBB1_47:
+	cmp	edi, 6
+	jg	.LBB1_90
+# %bb.48:
+	cmp	edi, 3
+	jle	.LBB1_122
+# %bb.49:
+	cmp	edi, 4
+	je	.LBB1_187
+# %bb.50:
+	cmp	edi, 5
+	je	.LBB1_190
+# %bb.51:
+	cmp	edi, 6
+	jne	.LBB1_1069
+# %bb.52:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.53:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_54
+# %bb.280:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_468
+# %bb.281:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_468
+.LBB1_54:
+	xor	esi, esi
+.LBB1_665:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_667
+.LBB1_666:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_666
+.LBB1_667:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_668:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_668
+	jmp	.LBB1_1069
+.LBB1_55:
+	cmp	edi, 8
+	jle	.LBB1_127
+# %bb.56:
+	cmp	edi, 9
+	je	.LBB1_193
+# %bb.57:
+	cmp	edi, 11
+	je	.LBB1_196
+# %bb.58:
+	cmp	edi, 12
+	jne	.LBB1_1069
+# %bb.59:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.60:
+	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB1_61
+# %bb.283:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_471
+# %bb.284:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_471
+.LBB1_61:
+	xor	ecx, ecx
+.LBB1_673:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_675
+.LBB1_674:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_674
+.LBB1_675:
+	cmp	rsi, 3
+	jb	.LBB1_1069
+.LBB1_676:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_676
+	jmp	.LBB1_1069
+.LBB1_62:
+	cmp	edi, 8
+	jle	.LBB1_132
+# %bb.63:
+	cmp	edi, 9
+	je	.LBB1_199
+# %bb.64:
+	cmp	edi, 11
+	je	.LBB1_202
+# %bb.65:
+	cmp	edi, 12
+	jne	.LBB1_1069
+# %bb.66:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.67:
+	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB1_68
+# %bb.286:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_474
+# %bb.287:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_474
+.LBB1_68:
+	xor	ecx, ecx
+.LBB1_681:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_683
+.LBB1_682:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_682
+.LBB1_683:
+	cmp	rsi, 3
+	jb	.LBB1_1069
+.LBB1_684:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_684
+	jmp	.LBB1_1069
+.LBB1_69:
+	cmp	edi, 8
+	jle	.LBB1_137
+# %bb.70:
+	cmp	edi, 9
+	je	.LBB1_205
+# %bb.71:
+	cmp	edi, 11
+	je	.LBB1_208
+# %bb.72:
+	cmp	edi, 12
+	jne	.LBB1_1069
+# %bb.73:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.74:
+	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB1_75
+# %bb.289:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_477
+# %bb.290:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_477
+.LBB1_75:
+	xor	ecx, ecx
+.LBB1_689:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_691
+.LBB1_690:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_690
+.LBB1_691:
+	cmp	rsi, 3
+	jb	.LBB1_1069
+.LBB1_692:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_692
+	jmp	.LBB1_1069
+.LBB1_76:
+	cmp	edi, 8
+	jle	.LBB1_142
+# %bb.77:
+	cmp	edi, 9
+	je	.LBB1_211
+# %bb.78:
+	cmp	edi, 11
+	je	.LBB1_214
+# %bb.79:
+	cmp	edi, 12
+	jne	.LBB1_1069
+# %bb.80:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.81:
+	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB1_82
+# %bb.292:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_480
+# %bb.293:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_480
+.LBB1_82:
+	xor	ecx, ecx
+.LBB1_697:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_699
+.LBB1_698:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_698
+.LBB1_699:
+	cmp	rsi, 3
+	jb	.LBB1_1069
+.LBB1_700:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_700
+	jmp	.LBB1_1069
+.LBB1_83:
+	cmp	edi, 8
+	jle	.LBB1_147
+# %bb.84:
+	cmp	edi, 9
+	je	.LBB1_217
+# %bb.85:
+	cmp	edi, 11
+	je	.LBB1_220
+# %bb.86:
+	cmp	edi, 12
+	jne	.LBB1_1069
+# %bb.87:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.88:
+	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB1_89
+# %bb.295:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_483
+# %bb.296:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_483
+.LBB1_89:
+	xor	ecx, ecx
+.LBB1_705:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_707
+.LBB1_706:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_706
+.LBB1_707:
+	cmp	rsi, 3
+	jb	.LBB1_1069
+.LBB1_708:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_708
+	jmp	.LBB1_1069
+.LBB1_90:
+	cmp	edi, 8
+	jle	.LBB1_152
+# %bb.91:
+	cmp	edi, 9
+	je	.LBB1_223
+# %bb.92:
+	cmp	edi, 11
+	je	.LBB1_226
+# %bb.93:
+	cmp	edi, 12
+	jne	.LBB1_1069
+# %bb.94:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.95:
+	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB1_96
+# %bb.298:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_486
+# %bb.299:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_486
+.LBB1_96:
+	xor	ecx, ecx
+.LBB1_713:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_715
+.LBB1_714:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_714
+.LBB1_715:
+	cmp	rsi, 3
+	jb	.LBB1_1069
+.LBB1_716:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_716
+	jmp	.LBB1_1069
+.LBB1_97:
+	cmp	edi, 2
+	je	.LBB1_229
+# %bb.98:
+	cmp	edi, 3
+	jne	.LBB1_1069
+# %bb.99:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.100:
+	mov	cl, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_101
+# %bb.301:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_489
+# %bb.302:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_489
+.LBB1_101:
+	xor	edi, edi
+.LBB1_721:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB1_723
+.LBB1_722:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB1_722
+.LBB1_723:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_724:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rdx + rdi + 1]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rdx + rdi + 2]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rdx + rdi + 3]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB1_724
+	jmp	.LBB1_1069
+.LBB1_102:
+	cmp	edi, 2
+	je	.LBB1_232
+# %bb.103:
+	cmp	edi, 3
+	jne	.LBB1_1069
+# %bb.104:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.105:
+	mov	cl, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_106
+# %bb.304:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_492
+# %bb.305:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_492
+.LBB1_106:
+	xor	edi, edi
+.LBB1_729:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB1_731
+.LBB1_730:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB1_730
+.LBB1_731:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_732:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rdx + rdi + 1]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rdx + rdi + 2]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rdx + rdi + 3]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB1_732
+	jmp	.LBB1_1069
+.LBB1_107:
+	cmp	edi, 2
+	je	.LBB1_235
+# %bb.108:
+	cmp	edi, 3
+	jne	.LBB1_1069
+# %bb.109:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.110:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_111
+# %bb.307:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_495
+# %bb.308:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_495
+.LBB1_111:
+	xor	esi, esi
+.LBB1_737:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_739
+.LBB1_738:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_738
+.LBB1_739:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_740:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_740
+	jmp	.LBB1_1069
+.LBB1_112:
+	cmp	edi, 2
+	je	.LBB1_238
+# %bb.113:
+	cmp	edi, 3
+	jne	.LBB1_1069
+# %bb.114:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.115:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_116
+# %bb.310:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_498
+# %bb.311:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_498
+.LBB1_116:
+	xor	esi, esi
+.LBB1_745:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_747
+.LBB1_746:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_746
+.LBB1_747:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_748:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_748
+	jmp	.LBB1_1069
+.LBB1_117:
+	cmp	edi, 2
+	je	.LBB1_241
+# %bb.118:
+	cmp	edi, 3
+	jne	.LBB1_1069
+# %bb.119:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.120:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_121
+# %bb.313:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_501
+# %bb.314:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_501
+.LBB1_121:
+	xor	esi, esi
+.LBB1_753:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_755
+.LBB1_754:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_754
+.LBB1_755:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_756:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_756
+	jmp	.LBB1_1069
+.LBB1_122:
+	cmp	edi, 2
+	je	.LBB1_244
+# %bb.123:
+	cmp	edi, 3
+	jne	.LBB1_1069
+# %bb.124:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.125:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_126
+# %bb.316:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_504
+# %bb.317:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_504
+.LBB1_126:
+	xor	esi, esi
+.LBB1_761:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_763
+.LBB1_762:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_762
+.LBB1_763:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_764:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_764
+	jmp	.LBB1_1069
+.LBB1_127:
+	cmp	edi, 7
+	je	.LBB1_247
+# %bb.128:
+	cmp	edi, 8
+	jne	.LBB1_1069
+# %bb.129:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.130:
+	mov	rax, qword ptr [rcx]
+	mov	esi, r9d
+	lea	rdi, [rsi - 1]
+	mov	r9d, esi
+	and	r9d, 3
+	cmp	rdi, 3
+	jae	.LBB1_319
+# %bb.131:
+	xor	edi, edi
+	jmp	.LBB1_321
+.LBB1_132:
+	cmp	edi, 7
+	je	.LBB1_250
+# %bb.133:
+	cmp	edi, 8
+	jne	.LBB1_1069
+# %bb.134:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.135:
+	mov	rax, qword ptr [rcx]
+	mov	esi, r9d
+	lea	rdi, [rsi - 1]
+	mov	r9d, esi
+	and	r9d, 3
+	cmp	rdi, 3
+	jae	.LBB1_324
+# %bb.136:
+	xor	edi, edi
+	jmp	.LBB1_326
+.LBB1_137:
+	cmp	edi, 7
+	je	.LBB1_253
+# %bb.138:
+	cmp	edi, 8
+	jne	.LBB1_1069
+# %bb.139:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.140:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_141
+# %bb.329:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_507
+# %bb.330:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_507
+.LBB1_141:
+	xor	esi, esi
+.LBB1_769:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_771
+.LBB1_770:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_770
+.LBB1_771:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_772:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_772
+	jmp	.LBB1_1069
+.LBB1_142:
+	cmp	edi, 7
+	je	.LBB1_256
+# %bb.143:
+	cmp	edi, 8
+	jne	.LBB1_1069
+# %bb.144:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.145:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_146
+# %bb.332:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_510
+# %bb.333:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_510
+.LBB1_146:
+	xor	esi, esi
+.LBB1_777:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_779
+.LBB1_778:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_778
+.LBB1_779:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_780:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_780
+	jmp	.LBB1_1069
+.LBB1_147:
+	cmp	edi, 7
+	je	.LBB1_259
+# %bb.148:
+	cmp	edi, 8
+	jne	.LBB1_1069
+# %bb.149:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.150:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_151
+# %bb.335:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_513
+# %bb.336:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_513
+.LBB1_151:
+	xor	esi, esi
+.LBB1_785:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_787
+.LBB1_786:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_786
+.LBB1_787:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_788:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_788
+	jmp	.LBB1_1069
+.LBB1_152:
+	cmp	edi, 7
+	je	.LBB1_262
+# %bb.153:
+	cmp	edi, 8
+	jne	.LBB1_1069
+# %bb.154:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.155:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_156
+# %bb.338:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_516
+# %bb.339:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_516
+.LBB1_156:
+	xor	esi, esi
+.LBB1_793:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_795
+.LBB1_794:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_794
+.LBB1_795:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_796:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_796
+	jmp	.LBB1_1069
+.LBB1_157:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.158:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_159
+# %bb.341:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_519
+# %bb.342:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_519
+.LBB1_159:
+	xor	esi, esi
+.LBB1_801:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_803
+.LBB1_802:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_802
+.LBB1_803:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_804:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_804
+	jmp	.LBB1_1069
+.LBB1_160:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.161:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_162
+# %bb.344:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_522
+# %bb.345:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_522
+.LBB1_162:
+	xor	esi, esi
+.LBB1_809:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_811
+.LBB1_810:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_810
+.LBB1_811:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_812:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_812
+	jmp	.LBB1_1069
+.LBB1_163:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.164:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_165
+# %bb.347:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_525
+# %bb.348:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_525
+.LBB1_165:
+	xor	esi, esi
+.LBB1_817:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_819
+.LBB1_818:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_818
+.LBB1_819:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_820:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_820
+	jmp	.LBB1_1069
+.LBB1_166:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.167:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_168
+# %bb.350:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_528
+# %bb.351:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_528
+.LBB1_168:
+	xor	esi, esi
+.LBB1_825:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_827
+.LBB1_826:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_826
+.LBB1_827:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_828:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	imul	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_828
+	jmp	.LBB1_1069
+.LBB1_169:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.170:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_171
+# %bb.353:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_531
+# %bb.354:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_531
+.LBB1_171:
+	xor	esi, esi
+.LBB1_833:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_835
+.LBB1_834:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_834
+.LBB1_835:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_836:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_836
+	jmp	.LBB1_1069
+.LBB1_172:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.173:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_174
+# %bb.356:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_534
+# %bb.357:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_534
+.LBB1_174:
+	xor	esi, esi
+.LBB1_841:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_843
+.LBB1_842:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_842
+.LBB1_843:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_844:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_844
+	jmp	.LBB1_1069
+.LBB1_175:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.176:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_177
+# %bb.359:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_537
+# %bb.360:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_537
+.LBB1_177:
+	xor	esi, esi
+.LBB1_849:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_851
+.LBB1_850:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_850
+.LBB1_851:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_852:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_852
+	jmp	.LBB1_1069
+.LBB1_178:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.179:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_180
+# %bb.362:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_540
+# %bb.363:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_540
+.LBB1_180:
+	xor	esi, esi
+.LBB1_857:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_859
+.LBB1_858:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_858
+.LBB1_859:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_860:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_860
+	jmp	.LBB1_1069
+.LBB1_181:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.182:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_183
+# %bb.365:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_543
+# %bb.366:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_543
+.LBB1_183:
+	xor	esi, esi
+.LBB1_865:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_867
+.LBB1_866:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_866
+.LBB1_867:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_868:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_868
+	jmp	.LBB1_1069
+.LBB1_184:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.185:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_186
+# %bb.368:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_546
+# %bb.369:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_546
+.LBB1_186:
+	xor	esi, esi
+.LBB1_873:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_875
+.LBB1_874:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_874
+.LBB1_875:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_876:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_876
+	jmp	.LBB1_1069
+.LBB1_187:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.188:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_189
+# %bb.371:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_549
+# %bb.372:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_549
+.LBB1_189:
+	xor	esi, esi
+.LBB1_881:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_883
+.LBB1_882:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_882
+.LBB1_883:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_884:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_884
+	jmp	.LBB1_1069
+.LBB1_190:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.191:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_192
+# %bb.374:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_552
+# %bb.375:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_552
+.LBB1_192:
+	xor	esi, esi
+.LBB1_889:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_891
+.LBB1_890:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_890
+.LBB1_891:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_892:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_892
+	jmp	.LBB1_1069
+.LBB1_193:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.194:
+	mov	rax, qword ptr [rcx]
+	mov	esi, r9d
+	lea	rdi, [rsi - 1]
+	mov	r9d, esi
+	and	r9d, 3
+	cmp	rdi, 3
+	jae	.LBB1_377
+# %bb.195:
+	xor	edi, edi
+	jmp	.LBB1_379
+.LBB1_196:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.197:
+	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB1_198
+# %bb.382:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_555
+# %bb.383:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_555
+.LBB1_198:
+	xor	ecx, ecx
+.LBB1_897:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_899
+.LBB1_898:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_898
+.LBB1_899:
+	cmp	rsi, 3
+	jb	.LBB1_1069
+.LBB1_900:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_900
+	jmp	.LBB1_1069
+.LBB1_199:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.200:
+	mov	rax, qword ptr [rcx]
+	mov	esi, r9d
+	lea	rdi, [rsi - 1]
+	mov	r9d, esi
+	and	r9d, 3
+	cmp	rdi, 3
+	jae	.LBB1_385
+# %bb.201:
+	xor	edi, edi
+	jmp	.LBB1_387
+.LBB1_202:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.203:
+	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB1_204
+# %bb.390:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_558
+# %bb.391:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_558
+.LBB1_204:
+	xor	ecx, ecx
+.LBB1_905:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_907
+.LBB1_906:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_906
+.LBB1_907:
+	cmp	rsi, 3
+	jb	.LBB1_1069
+.LBB1_908:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_908
+	jmp	.LBB1_1069
+.LBB1_205:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.206:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_207
+# %bb.393:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_561
+# %bb.394:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_561
+.LBB1_207:
+	xor	esi, esi
+.LBB1_913:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_915
+.LBB1_914:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_914
+.LBB1_915:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_916:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_916
+	jmp	.LBB1_1069
+.LBB1_208:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.209:
+	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB1_210
+# %bb.396:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_564
+# %bb.397:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_564
+.LBB1_210:
+	xor	ecx, ecx
+.LBB1_921:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_923
+.LBB1_922:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_922
+.LBB1_923:
+	cmp	rsi, 3
+	jb	.LBB1_1069
+.LBB1_924:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_924
+	jmp	.LBB1_1069
+.LBB1_211:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.212:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_213
+# %bb.399:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_567
+# %bb.400:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_567
+.LBB1_213:
+	xor	esi, esi
+.LBB1_929:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_931
+.LBB1_930:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_930
+.LBB1_931:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_932:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_932
+	jmp	.LBB1_1069
+.LBB1_214:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.215:
+	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB1_216
+# %bb.402:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_570
+# %bb.403:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_570
+.LBB1_216:
+	xor	ecx, ecx
+.LBB1_937:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_939
+.LBB1_938:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_938
+.LBB1_939:
+	cmp	rsi, 3
+	jb	.LBB1_1069
+.LBB1_940:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_940
+	jmp	.LBB1_1069
+.LBB1_217:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.218:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_219
+# %bb.405:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_573
+# %bb.406:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_573
+.LBB1_219:
+	xor	esi, esi
+.LBB1_945:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_947
+.LBB1_946:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_946
+.LBB1_947:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_948:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_948
+	jmp	.LBB1_1069
+.LBB1_220:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.221:
+	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB1_222
+# %bb.408:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_576
+# %bb.409:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_576
+.LBB1_222:
+	xor	ecx, ecx
+.LBB1_953:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_955
+.LBB1_954:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_954
+.LBB1_955:
+	cmp	rsi, 3
+	jb	.LBB1_1069
+.LBB1_956:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_956
+	jmp	.LBB1_1069
+.LBB1_223:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.224:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_225
+# %bb.411:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_579
+# %bb.412:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_579
+.LBB1_225:
+	xor	esi, esi
+.LBB1_961:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_963
+.LBB1_962:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_962
+.LBB1_963:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_964:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_964
+	jmp	.LBB1_1069
+.LBB1_226:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.227:
+	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB1_228
+# %bb.414:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_582
+# %bb.415:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_582
+.LBB1_228:
+	xor	ecx, ecx
+.LBB1_969:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_971
+.LBB1_970:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_970
+.LBB1_971:
+	cmp	rsi, 3
+	jb	.LBB1_1069
+.LBB1_972:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_972
+	jmp	.LBB1_1069
+.LBB1_229:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.230:
+	mov	cl, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_231
+# %bb.417:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_585
+# %bb.418:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_585
+.LBB1_231:
+	xor	edi, edi
+.LBB1_977:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB1_979
+.LBB1_978:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB1_978
+.LBB1_979:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_980:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rdx + rdi + 1]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rdx + rdi + 2]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rdx + rdi + 3]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB1_980
+	jmp	.LBB1_1069
+.LBB1_232:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.233:
+	mov	cl, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_234
+# %bb.420:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_588
+# %bb.421:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_588
+.LBB1_234:
+	xor	edi, edi
+.LBB1_985:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB1_987
+.LBB1_986:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB1_986
+.LBB1_987:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_988:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	mul	cl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rdx + rdi + 1]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rdx + rdi + 2]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rdx + rdi + 3]
+	mul	cl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB1_988
+	jmp	.LBB1_1069
+.LBB1_235:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.236:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_237
+# %bb.423:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_591
+# %bb.424:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_591
+.LBB1_237:
+	xor	esi, esi
+.LBB1_993:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_995
+.LBB1_994:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_994
+.LBB1_995:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_996:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_996
+	jmp	.LBB1_1069
+.LBB1_238:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.239:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_240
+# %bb.426:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_594
+# %bb.427:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_594
+.LBB1_240:
+	xor	esi, esi
+.LBB1_1001:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1003
+.LBB1_1002:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1002
+.LBB1_1003:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_1004:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1004
+	jmp	.LBB1_1069
+.LBB1_241:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.242:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_243
+# %bb.429:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_597
+# %bb.430:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_597
+.LBB1_243:
+	xor	esi, esi
+.LBB1_1009:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1011
+.LBB1_1010:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1010
+.LBB1_1011:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_1012:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1012
+	jmp	.LBB1_1069
+.LBB1_244:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.245:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_246
+# %bb.432:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_600
+# %bb.433:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_600
+.LBB1_246:
+	xor	esi, esi
+.LBB1_1017:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1019
+.LBB1_1018:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1018
+.LBB1_1019:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_1020:                             # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1020
+	jmp	.LBB1_1069
+.LBB1_247:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.248:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_249
+# %bb.435:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_603
+# %bb.436:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_603
+.LBB1_249:
+	xor	esi, esi
+.LBB1_1025:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1027
+.LBB1_1026:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1026
+.LBB1_1027:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_1028:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1028
+	jmp	.LBB1_1069
+.LBB1_250:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.251:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_252
+# %bb.438:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_606
+# %bb.439:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_606
+.LBB1_252:
+	xor	esi, esi
+.LBB1_1033:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1035
+.LBB1_1034:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1034
+.LBB1_1035:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_1036:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	imul	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1036
+	jmp	.LBB1_1069
+.LBB1_253:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.254:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_255
+# %bb.441:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_609
+# %bb.442:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_609
+.LBB1_255:
+	xor	esi, esi
+.LBB1_1041:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1043
+.LBB1_1042:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1042
+.LBB1_1043:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_1044:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1044
+	jmp	.LBB1_1069
+.LBB1_256:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.257:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_258
+# %bb.444:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_612
+# %bb.445:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_612
+.LBB1_258:
+	xor	esi, esi
+.LBB1_1049:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1051
+.LBB1_1050:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1050
+.LBB1_1051:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_1052:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1052
+	jmp	.LBB1_1069
+.LBB1_259:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.260:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_261
+# %bb.447:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_615
+# %bb.448:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_615
+.LBB1_261:
+	xor	esi, esi
+.LBB1_1057:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1059
+.LBB1_1058:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1058
+.LBB1_1059:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_1060:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1060
+	jmp	.LBB1_1069
+.LBB1_262:
+	test	r9d, r9d
+	jle	.LBB1_1069
+# %bb.263:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_264
+# %bb.450:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_618
+# %bb.451:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_618
+.LBB1_264:
+	xor	esi, esi
+.LBB1_1065:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_1067
+.LBB1_1066:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_1066
+.LBB1_1067:
+	cmp	r9, 3
+	jb	.LBB1_1069
+.LBB1_1068:                             # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_1068
+	jmp	.LBB1_1069
+.LBB1_319:
+	and	esi, -4
+	xor	edi, edi
+.LBB1_320:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rdi]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi], rcx
+	mov	rcx, qword ptr [rdx + 8*rdi + 8]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rdi + 16]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rdi + 24]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi + 24], rcx
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB1_320
+.LBB1_321:
+	test	r9, r9
+	je	.LBB1_1069
+# %bb.322:
+	lea	rsi, [r8 + 8*rdi]
+	lea	rdx, [rdx + 8*rdi]
+	xor	edi, edi
+.LBB1_323:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rdi]
+	imul	rcx, rax
+	mov	qword ptr [rsi + 8*rdi], rcx
+	add	rdi, 1
+	cmp	r9, rdi
+	jne	.LBB1_323
+	jmp	.LBB1_1069
+.LBB1_324:
+	and	esi, -4
+	xor	edi, edi
+.LBB1_325:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rdi]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi], rcx
+	mov	rcx, qword ptr [rdx + 8*rdi + 8]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rdi + 16]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rdi + 24]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi + 24], rcx
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB1_325
+.LBB1_326:
+	test	r9, r9
+	je	.LBB1_1069
+# %bb.327:
+	lea	rsi, [r8 + 8*rdi]
+	lea	rdx, [rdx + 8*rdi]
+	xor	edi, edi
+.LBB1_328:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rdi]
+	imul	rcx, rax
+	mov	qword ptr [rsi + 8*rdi], rcx
+	add	rdi, 1
+	cmp	r9, rdi
+	jne	.LBB1_328
+	jmp	.LBB1_1069
+.LBB1_377:
+	and	esi, -4
+	xor	edi, edi
+.LBB1_378:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rdi]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi], rcx
+	mov	rcx, qword ptr [rdx + 8*rdi + 8]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rdi + 16]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rdi + 24]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi + 24], rcx
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB1_378
+.LBB1_379:
+	test	r9, r9
+	je	.LBB1_1069
+# %bb.380:
+	lea	rsi, [r8 + 8*rdi]
+	lea	rdx, [rdx + 8*rdi]
+	xor	edi, edi
+.LBB1_381:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rdi]
+	imul	rcx, rax
+	mov	qword ptr [rsi + 8*rdi], rcx
+	add	rdi, 1
+	cmp	r9, rdi
+	jne	.LBB1_381
+	jmp	.LBB1_1069
+.LBB1_385:
+	and	esi, -4
+	xor	edi, edi
+.LBB1_386:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rdi]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi], rcx
+	mov	rcx, qword ptr [rdx + 8*rdi + 8]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rdi + 16]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rdi + 24]
+	imul	rcx, rax
+	mov	qword ptr [r8 + 8*rdi + 24], rcx
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB1_386
+.LBB1_387:
+	test	r9, r9
+	je	.LBB1_1069
+# %bb.388:
+	lea	rsi, [r8 + 8*rdi]
+	lea	rdx, [rdx + 8*rdi]
+	xor	edi, edi
+.LBB1_389:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rdi]
+	imul	rcx, rax
+	mov	qword ptr [rsi + 8*rdi], rcx
+	add	rdi, 1
+	cmp	r9, rdi
+	jne	.LBB1_389
+.LBB1_1069:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.LBB1_453:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_621
+# %bb.454:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_455:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_455
+	jmp	.LBB1_622
+.LBB1_456:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_629
+# %bb.457:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_458:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_458
+	jmp	.LBB1_630
+.LBB1_459:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_637
+# %bb.460:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_461:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_461
+	jmp	.LBB1_638
+.LBB1_462:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_645
+# %bb.463:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_464:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_464
+	jmp	.LBB1_646
+.LBB1_465:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_653
+# %bb.466:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_467:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_467
+	jmp	.LBB1_654
+.LBB1_468:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_661
+# %bb.469:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_470:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_470
+	jmp	.LBB1_662
+.LBB1_471:
+	mov	ecx, eax
+	and	ecx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rcx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_669
+# %bb.472:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_473:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	mulpd	xmm2, xmm1
+	mulpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
+	mulpd	xmm2, xmm1
+	mulpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB1_473
+	jmp	.LBB1_670
+.LBB1_474:
+	mov	ecx, eax
+	and	ecx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rcx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_677
+# %bb.475:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_476:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	mulpd	xmm2, xmm1
+	mulpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
+	mulpd	xmm2, xmm1
+	mulpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB1_476
+	jmp	.LBB1_678
+.LBB1_477:
+	mov	ecx, eax
+	and	ecx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rcx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_685
+# %bb.478:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_479:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB1_479
+	jmp	.LBB1_686
+.LBB1_480:
+	mov	ecx, eax
+	and	ecx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rcx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_693
+# %bb.481:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_482:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB1_482
+	jmp	.LBB1_694
+.LBB1_483:
+	mov	ecx, eax
+	and	ecx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rcx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_701
+# %bb.484:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_485:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB1_485
+	jmp	.LBB1_702
+.LBB1_486:
+	mov	ecx, eax
+	and	ecx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rcx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_709
+# %bb.487:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_488:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB1_488
+	jmp	.LBB1_710
+.LBB1_489:
+	mov	edi, r10d
+	and	edi, -32
+	movzx	eax, cl
+	movd	xmm0, eax
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rdi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	test	rax, rax
+	je	.LBB1_717
+# %bb.490:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	eax, eax
+	movdqa	xmm2, xmm0
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI1_0] # xmm3 = [255,255,255,255,255,255,255,255]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+.LBB1_491:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rdx + rax]
+	movdqu	xmm6, xmmword ptr [rdx + rax + 16]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax], xmm7
+	movdqu	xmmword ptr [r8 + rax + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm6, xmmword ptr [rdx + rax + 48]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax + 32], xmm7
+	movdqu	xmmword ptr [r8 + rax + 48], xmm5
+	add	rax, 64
+	add	rsi, 2
+	jne	.LBB1_491
+	jmp	.LBB1_718
+.LBB1_492:
+	mov	edi, r10d
+	and	edi, -32
+	movzx	eax, cl
+	movd	xmm0, eax
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rdi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	test	rax, rax
+	je	.LBB1_725
+# %bb.493:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	eax, eax
+	movdqa	xmm2, xmm0
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI1_0] # xmm3 = [255,255,255,255,255,255,255,255]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+.LBB1_494:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rdx + rax]
+	movdqu	xmm6, xmmword ptr [rdx + rax + 16]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax], xmm7
+	movdqu	xmmword ptr [r8 + rax + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm6, xmmword ptr [rdx + rax + 48]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax + 32], xmm7
+	movdqu	xmmword ptr [r8 + rax + 48], xmm5
+	add	rax, 64
+	add	rsi, 2
+	jne	.LBB1_494
+	jmp	.LBB1_726
+.LBB1_495:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_733
+# %bb.496:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_497:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_497
+	jmp	.LBB1_734
+.LBB1_498:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_741
+# %bb.499:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_500:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_500
+	jmp	.LBB1_742
+.LBB1_501:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_749
+# %bb.502:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_503:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_503
+	jmp	.LBB1_750
+.LBB1_504:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_757
+# %bb.505:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_506:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_506
+	jmp	.LBB1_758
+.LBB1_507:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_765
+# %bb.508:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_509:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_509
+	jmp	.LBB1_766
+.LBB1_510:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_773
+# %bb.511:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_512:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_512
+	jmp	.LBB1_774
+.LBB1_513:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_781
+# %bb.514:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_515:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_515
+	jmp	.LBB1_782
+.LBB1_516:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_789
+# %bb.517:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_518:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_518
+	jmp	.LBB1_790
+.LBB1_519:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_797
+# %bb.520:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_521:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_521
+	jmp	.LBB1_798
+.LBB1_522:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_805
+# %bb.523:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_524:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_524
+	jmp	.LBB1_806
+.LBB1_525:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_813
+# %bb.526:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_527:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_527
+	jmp	.LBB1_814
+.LBB1_528:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_821
+# %bb.529:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_530:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_530
+	jmp	.LBB1_822
+.LBB1_531:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_829
+# %bb.532:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_533:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_533
+	jmp	.LBB1_830
+.LBB1_534:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_837
+# %bb.535:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_536:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_536
+	jmp	.LBB1_838
+.LBB1_537:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_845
+# %bb.538:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_539:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_539
+	jmp	.LBB1_846
+.LBB1_540:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_853
+# %bb.541:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_542:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_542
+	jmp	.LBB1_854
+.LBB1_543:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_861
+# %bb.544:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_545:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_545
+	jmp	.LBB1_862
+.LBB1_546:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_869
+# %bb.547:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_548:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_548
+	jmp	.LBB1_870
+.LBB1_549:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_877
+# %bb.550:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_551:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_551
+	jmp	.LBB1_878
+.LBB1_552:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_885
+# %bb.553:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_554:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_554
+	jmp	.LBB1_886
+.LBB1_555:
+	mov	ecx, eax
+	and	ecx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rcx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_893
+# %bb.556:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_557:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	mulps	xmm2, xmm1
+	mulps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
+	mulps	xmm2, xmm1
+	mulps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB1_557
+	jmp	.LBB1_894
+.LBB1_558:
+	mov	ecx, eax
+	and	ecx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rcx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_901
+# %bb.559:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_560:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	mulps	xmm2, xmm1
+	mulps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
+	mulps	xmm2, xmm1
+	mulps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB1_560
+	jmp	.LBB1_902
+.LBB1_561:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_909
+# %bb.562:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_563:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_563
+	jmp	.LBB1_910
+.LBB1_564:
+	mov	ecx, eax
+	and	ecx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rcx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_917
+# %bb.565:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_566:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB1_566
+	jmp	.LBB1_918
+.LBB1_567:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_925
+# %bb.568:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_569:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_569
+	jmp	.LBB1_926
+.LBB1_570:
+	mov	ecx, eax
+	and	ecx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rcx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_933
+# %bb.571:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_572:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB1_572
+	jmp	.LBB1_934
+.LBB1_573:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_941
+# %bb.574:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_575:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_575
+	jmp	.LBB1_942
+.LBB1_576:
+	mov	ecx, eax
+	and	ecx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rcx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_949
+# %bb.577:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_578:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB1_578
+	jmp	.LBB1_950
+.LBB1_579:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_957
+# %bb.580:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_581:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_581
+	jmp	.LBB1_958
+.LBB1_582:
+	mov	ecx, eax
+	and	ecx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rcx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_965
+# %bb.583:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_584:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB1_584
+	jmp	.LBB1_966
+.LBB1_585:
+	mov	edi, r10d
+	and	edi, -32
+	movzx	eax, cl
+	movd	xmm0, eax
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rdi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	test	rax, rax
+	je	.LBB1_973
+# %bb.586:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	eax, eax
+	movdqa	xmm2, xmm0
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI1_0] # xmm3 = [255,255,255,255,255,255,255,255]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+.LBB1_587:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rdx + rax]
+	movdqu	xmm6, xmmword ptr [rdx + rax + 16]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax], xmm7
+	movdqu	xmmword ptr [r8 + rax + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm6, xmmword ptr [rdx + rax + 48]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax + 32], xmm7
+	movdqu	xmmword ptr [r8 + rax + 48], xmm5
+	add	rax, 64
+	add	rsi, 2
+	jne	.LBB1_587
+	jmp	.LBB1_974
+.LBB1_588:
+	mov	edi, r10d
+	and	edi, -32
+	movzx	eax, cl
+	movd	xmm0, eax
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rdi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	test	rax, rax
+	je	.LBB1_981
+# %bb.589:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	eax, eax
+	movdqa	xmm2, xmm0
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI1_0] # xmm3 = [255,255,255,255,255,255,255,255]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+.LBB1_590:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rdx + rax]
+	movdqu	xmm6, xmmword ptr [rdx + rax + 16]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax], xmm7
+	movdqu	xmmword ptr [r8 + rax + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm6, xmmword ptr [rdx + rax + 48]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax + 32], xmm7
+	movdqu	xmmword ptr [r8 + rax + 48], xmm5
+	add	rax, 64
+	add	rsi, 2
+	jne	.LBB1_590
+	jmp	.LBB1_982
+.LBB1_591:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_989
+# %bb.592:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_593:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_593
+	jmp	.LBB1_990
+.LBB1_594:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_997
+# %bb.595:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_596:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_596
+	jmp	.LBB1_998
+.LBB1_597:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1005
+# %bb.598:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_599:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_599
+	jmp	.LBB1_1006
+.LBB1_600:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1013
+# %bb.601:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_602:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_602
+	jmp	.LBB1_1014
+.LBB1_603:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1021
+# %bb.604:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_605:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_605
+	jmp	.LBB1_1022
+.LBB1_606:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1029
+# %bb.607:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_608:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_608
+	jmp	.LBB1_1030
+.LBB1_609:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1037
+# %bb.610:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_611:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_611
+	jmp	.LBB1_1038
+.LBB1_612:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1045
+# %bb.613:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_614:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_614
+	jmp	.LBB1_1046
+.LBB1_615:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1053
+# %bb.616:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_617:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_617
+	jmp	.LBB1_1054
+.LBB1_618:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_1061
+# %bb.619:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_620:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_620
+	jmp	.LBB1_1062
+.LBB1_621:
+	xor	edi, edi
+.LBB1_622:
+	test	r9b, 1
+	je	.LBB1_624
+# %bb.623:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_624:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_625
+.LBB1_629:
+	xor	edi, edi
+.LBB1_630:
+	test	r9b, 1
+	je	.LBB1_632
+# %bb.631:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_632:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_633
+.LBB1_637:
+	xor	edi, edi
+.LBB1_638:
+	test	r9b, 1
+	je	.LBB1_640
+# %bb.639:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_640:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_641
+.LBB1_645:
+	xor	edi, edi
+.LBB1_646:
+	test	r9b, 1
+	je	.LBB1_648
+# %bb.647:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_648:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_649
+.LBB1_653:
+	xor	edi, edi
+.LBB1_654:
+	test	r9b, 1
+	je	.LBB1_656
+# %bb.655:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_656:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_657
+.LBB1_661:
+	xor	edi, edi
+.LBB1_662:
+	test	r9b, 1
+	je	.LBB1_664
+# %bb.663:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_664:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_665
+.LBB1_669:
+	xor	edi, edi
+.LBB1_670:
+	test	r9b, 1
+	je	.LBB1_672
+# %bb.671:
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	mulpd	xmm2, xmm1
+	mulpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB1_672:
+	cmp	rcx, rax
+	je	.LBB1_1069
+	jmp	.LBB1_673
+.LBB1_677:
+	xor	edi, edi
+.LBB1_678:
+	test	r9b, 1
+	je	.LBB1_680
+# %bb.679:
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	mulpd	xmm2, xmm1
+	mulpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB1_680:
+	cmp	rcx, rax
+	je	.LBB1_1069
+	jmp	.LBB1_681
+.LBB1_685:
+	xor	edi, edi
+.LBB1_686:
+	test	r9b, 1
+	je	.LBB1_688
+# %bb.687:
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB1_688:
+	cmp	rcx, rax
+	je	.LBB1_1069
+	jmp	.LBB1_689
+.LBB1_693:
+	xor	edi, edi
+.LBB1_694:
+	test	r9b, 1
+	je	.LBB1_696
+# %bb.695:
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB1_696:
+	cmp	rcx, rax
+	je	.LBB1_1069
+	jmp	.LBB1_697
+.LBB1_701:
+	xor	edi, edi
+.LBB1_702:
+	test	r9b, 1
+	je	.LBB1_704
+# %bb.703:
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB1_704:
+	cmp	rcx, rax
+	je	.LBB1_1069
+	jmp	.LBB1_705
+.LBB1_709:
+	xor	edi, edi
+.LBB1_710:
+	test	r9b, 1
+	je	.LBB1_712
+# %bb.711:
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB1_712:
+	cmp	rcx, rax
+	je	.LBB1_1069
+	jmp	.LBB1_713
+.LBB1_717:
+	xor	eax, eax
+.LBB1_718:
+	test	r9b, 1
+	je	.LBB1_720
+# %bb.719:
+	movdqu	xmm2, xmmword ptr [rdx + rax]
+	movdqu	xmm3, xmmword ptr [rdx + rax + 16]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm2, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI1_0] # xmm4 = [255,255,255,255,255,255,255,255]
+	pand	xmm2, xmm4
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm4
+	packuswb	xmm5, xmm2
+	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm0
+	pand	xmm3, xmm4
+	pmullw	xmm2, xmm1
+	pand	xmm2, xmm4
+	packuswb	xmm2, xmm3
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmmword ptr [r8 + rax + 16], xmm2
+.LBB1_720:
+	cmp	rdi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_721
+.LBB1_725:
+	xor	eax, eax
+.LBB1_726:
+	test	r9b, 1
+	je	.LBB1_728
+# %bb.727:
+	movdqu	xmm2, xmmword ptr [rdx + rax]
+	movdqu	xmm3, xmmword ptr [rdx + rax + 16]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm2, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI1_0] # xmm4 = [255,255,255,255,255,255,255,255]
+	pand	xmm2, xmm4
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm4
+	packuswb	xmm5, xmm2
+	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm0
+	pand	xmm3, xmm4
+	pmullw	xmm2, xmm1
+	pand	xmm2, xmm4
+	packuswb	xmm2, xmm3
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmmword ptr [r8 + rax + 16], xmm2
+.LBB1_728:
+	cmp	rdi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_729
+.LBB1_733:
+	xor	edi, edi
+.LBB1_734:
+	test	r9b, 1
+	je	.LBB1_736
+# %bb.735:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_736:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_737
+.LBB1_741:
+	xor	edi, edi
+.LBB1_742:
+	test	r9b, 1
+	je	.LBB1_744
+# %bb.743:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_744:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_745
+.LBB1_749:
+	xor	edi, edi
+.LBB1_750:
+	test	r9b, 1
+	je	.LBB1_752
+# %bb.751:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_752:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_753
+.LBB1_757:
+	xor	edi, edi
+.LBB1_758:
+	test	r9b, 1
+	je	.LBB1_760
+# %bb.759:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_760:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_761
+.LBB1_765:
+	xor	edi, edi
+.LBB1_766:
+	test	r9b, 1
+	je	.LBB1_768
+# %bb.767:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_768:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_769
+.LBB1_773:
+	xor	edi, edi
+.LBB1_774:
+	test	r9b, 1
+	je	.LBB1_776
+# %bb.775:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_776:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_777
+.LBB1_781:
+	xor	edi, edi
+.LBB1_782:
+	test	r9b, 1
+	je	.LBB1_784
+# %bb.783:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_784:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_785
+.LBB1_789:
+	xor	edi, edi
+.LBB1_790:
+	test	r9b, 1
+	je	.LBB1_792
+# %bb.791:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_792:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_793
+.LBB1_797:
+	xor	edi, edi
+.LBB1_798:
+	test	r9b, 1
+	je	.LBB1_800
+# %bb.799:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_800:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_801
+.LBB1_805:
+	xor	edi, edi
+.LBB1_806:
+	test	r9b, 1
+	je	.LBB1_808
+# %bb.807:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_808:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_809
+.LBB1_813:
+	xor	edi, edi
+.LBB1_814:
+	test	r9b, 1
+	je	.LBB1_816
+# %bb.815:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_816:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_817
+.LBB1_821:
+	xor	edi, edi
+.LBB1_822:
+	test	r9b, 1
+	je	.LBB1_824
+# %bb.823:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_824:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_825
+.LBB1_829:
+	xor	edi, edi
+.LBB1_830:
+	test	r9b, 1
+	je	.LBB1_832
+# %bb.831:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_832:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_833
+.LBB1_837:
+	xor	edi, edi
+.LBB1_838:
+	test	r9b, 1
+	je	.LBB1_840
+# %bb.839:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_840:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_841
+.LBB1_845:
+	xor	edi, edi
+.LBB1_846:
+	test	r9b, 1
+	je	.LBB1_848
+# %bb.847:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_848:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_849
+.LBB1_853:
+	xor	edi, edi
+.LBB1_854:
+	test	r9b, 1
+	je	.LBB1_856
+# %bb.855:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_856:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_857
+.LBB1_861:
+	xor	edi, edi
+.LBB1_862:
+	test	r9b, 1
+	je	.LBB1_864
+# %bb.863:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_864:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_865
+.LBB1_869:
+	xor	edi, edi
+.LBB1_870:
+	test	r9b, 1
+	je	.LBB1_872
+# %bb.871:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_872:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_873
+.LBB1_877:
+	xor	edi, edi
+.LBB1_878:
+	test	r9b, 1
+	je	.LBB1_880
+# %bb.879:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_880:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_881
+.LBB1_885:
+	xor	edi, edi
+.LBB1_886:
+	test	r9b, 1
+	je	.LBB1_888
+# %bb.887:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_888:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_889
+.LBB1_893:
+	xor	edi, edi
+.LBB1_894:
+	test	r9b, 1
+	je	.LBB1_896
+# %bb.895:
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	mulps	xmm2, xmm1
+	mulps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB1_896:
+	cmp	rcx, rax
+	je	.LBB1_1069
+	jmp	.LBB1_897
+.LBB1_901:
+	xor	edi, edi
+.LBB1_902:
+	test	r9b, 1
+	je	.LBB1_904
+# %bb.903:
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	mulps	xmm2, xmm1
+	mulps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB1_904:
+	cmp	rcx, rax
+	je	.LBB1_1069
+	jmp	.LBB1_905
+.LBB1_909:
+	xor	edi, edi
+.LBB1_910:
+	test	r9b, 1
+	je	.LBB1_912
+# %bb.911:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_912:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_913
+.LBB1_917:
+	xor	edi, edi
+.LBB1_918:
+	test	r9b, 1
+	je	.LBB1_920
+# %bb.919:
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB1_920:
+	cmp	rcx, rax
+	je	.LBB1_1069
+	jmp	.LBB1_921
+.LBB1_925:
+	xor	edi, edi
+.LBB1_926:
+	test	r9b, 1
+	je	.LBB1_928
+# %bb.927:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_928:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_929
+.LBB1_933:
+	xor	edi, edi
+.LBB1_934:
+	test	r9b, 1
+	je	.LBB1_936
+# %bb.935:
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB1_936:
+	cmp	rcx, rax
+	je	.LBB1_1069
+	jmp	.LBB1_937
+.LBB1_941:
+	xor	edi, edi
+.LBB1_942:
+	test	r9b, 1
+	je	.LBB1_944
+# %bb.943:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_944:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_945
+.LBB1_949:
+	xor	edi, edi
+.LBB1_950:
+	test	r9b, 1
+	je	.LBB1_952
+# %bb.951:
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB1_952:
+	cmp	rcx, rax
+	je	.LBB1_1069
+	jmp	.LBB1_953
+.LBB1_957:
+	xor	edi, edi
+.LBB1_958:
+	test	r9b, 1
+	je	.LBB1_960
+# %bb.959:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_960:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_961
+.LBB1_965:
+	xor	edi, edi
+.LBB1_966:
+	test	r9b, 1
+	je	.LBB1_968
+# %bb.967:
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB1_968:
+	cmp	rcx, rax
+	je	.LBB1_1069
+	jmp	.LBB1_969
+.LBB1_973:
+	xor	eax, eax
+.LBB1_974:
+	test	r9b, 1
+	je	.LBB1_976
+# %bb.975:
+	movdqu	xmm2, xmmword ptr [rdx + rax]
+	movdqu	xmm3, xmmword ptr [rdx + rax + 16]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm2, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI1_0] # xmm4 = [255,255,255,255,255,255,255,255]
+	pand	xmm2, xmm4
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm4
+	packuswb	xmm5, xmm2
+	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm0
+	pand	xmm3, xmm4
+	pmullw	xmm2, xmm1
+	pand	xmm2, xmm4
+	packuswb	xmm2, xmm3
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmmword ptr [r8 + rax + 16], xmm2
+.LBB1_976:
+	cmp	rdi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_977
+.LBB1_981:
+	xor	eax, eax
+.LBB1_982:
+	test	r9b, 1
+	je	.LBB1_984
+# %bb.983:
+	movdqu	xmm2, xmmword ptr [rdx + rax]
+	movdqu	xmm3, xmmword ptr [rdx + rax + 16]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm2, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI1_0] # xmm4 = [255,255,255,255,255,255,255,255]
+	pand	xmm2, xmm4
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm4
+	packuswb	xmm5, xmm2
+	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm0
+	pand	xmm3, xmm4
+	pmullw	xmm2, xmm1
+	pand	xmm2, xmm4
+	packuswb	xmm2, xmm3
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmmword ptr [r8 + rax + 16], xmm2
+.LBB1_984:
+	cmp	rdi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_985
+.LBB1_989:
+	xor	edi, edi
+.LBB1_990:
+	test	r9b, 1
+	je	.LBB1_992
+# %bb.991:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_992:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_993
+.LBB1_997:
+	xor	edi, edi
+.LBB1_998:
+	test	r9b, 1
+	je	.LBB1_1000
+# %bb.999:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_1000:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_1001
+.LBB1_1005:
+	xor	edi, edi
+.LBB1_1006:
+	test	r9b, 1
+	je	.LBB1_1008
+# %bb.1007:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_1008:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_1009
+.LBB1_1013:
+	xor	edi, edi
+.LBB1_1014:
+	test	r9b, 1
+	je	.LBB1_1016
+# %bb.1015:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_1016:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_1017
+.LBB1_1021:
+	xor	edi, edi
+.LBB1_1022:
+	test	r9b, 1
+	je	.LBB1_1024
+# %bb.1023:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_1024:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_1025
+.LBB1_1029:
+	xor	edi, edi
+.LBB1_1030:
+	test	r9b, 1
+	je	.LBB1_1032
+# %bb.1031:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_1032:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_1033
+.LBB1_1037:
+	xor	edi, edi
+.LBB1_1038:
+	test	r9b, 1
+	je	.LBB1_1040
+# %bb.1039:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_1040:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_1041
+.LBB1_1045:
+	xor	edi, edi
+.LBB1_1046:
+	test	r9b, 1
+	je	.LBB1_1048
+# %bb.1047:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_1048:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_1049
+.LBB1_1053:
+	xor	edi, edi
+.LBB1_1054:
+	test	r9b, 1
+	je	.LBB1_1056
+# %bb.1055:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_1056:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_1057
+.LBB1_1061:
+	xor	edi, edi
+.LBB1_1062:
+	test	r9b, 1
+	je	.LBB1_1064
+# %bb.1063:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_1064:
+	cmp	rsi, r10
+	je	.LBB1_1069
+	jmp	.LBB1_1065
+.Lfunc_end1:
+	.size	arithmetic_arr_scalar_sse4, .Lfunc_end1-arithmetic_arr_scalar_sse4
+                                        # -- End function
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4                               # -- Begin function arithmetic_scalar_arr_sse4
+.LCPI2_0:
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.text
+	.globl	arithmetic_scalar_arr_sse4
+	.p2align	4, 0x90
+	.type	arithmetic_scalar_arr_sse4,@function
+arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	cmp	sil, 20
+	jg	.LBB2_12
+# %bb.1:
+	test	sil, sil
+	je	.LBB2_23
+# %bb.2:
+	cmp	sil, 1
+	je	.LBB2_31
+# %bb.3:
+	cmp	sil, 2
+	jne	.LBB2_1069
+# %bb.4:
+	cmp	edi, 6
+	jg	.LBB2_55
+# %bb.5:
+	cmp	edi, 3
+	jle	.LBB2_97
+# %bb.6:
+	cmp	edi, 4
+	je	.LBB2_157
+# %bb.7:
+	cmp	edi, 5
+	je	.LBB2_160
+# %bb.8:
+	cmp	edi, 6
+	jne	.LBB2_1069
+# %bb.9:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.10:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_11
+# %bb.265:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_453
+# %bb.266:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_453
+.LBB2_11:
+	xor	esi, esi
+.LBB2_625:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_627
+.LBB2_626:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_626
+.LBB2_627:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_628:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_628
+	jmp	.LBB2_1069
+.LBB2_12:
+	cmp	sil, 21
+	je	.LBB2_39
+# %bb.13:
+	cmp	sil, 22
+	je	.LBB2_47
+# %bb.14:
+	cmp	sil, 23
+	jne	.LBB2_1069
+# %bb.15:
+	cmp	edi, 6
+	jg	.LBB2_62
+# %bb.16:
+	cmp	edi, 3
+	jle	.LBB2_102
+# %bb.17:
+	cmp	edi, 4
+	je	.LBB2_163
+# %bb.18:
+	cmp	edi, 5
+	je	.LBB2_166
+# %bb.19:
+	cmp	edi, 6
+	jne	.LBB2_1069
+# %bb.20:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.21:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_22
+# %bb.268:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_456
+# %bb.269:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_456
+.LBB2_22:
+	xor	esi, esi
+.LBB2_633:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_635
+.LBB2_634:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_634
+.LBB2_635:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_636:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_636
+	jmp	.LBB2_1069
+.LBB2_23:
+	cmp	edi, 6
+	jg	.LBB2_69
+# %bb.24:
+	cmp	edi, 3
+	jle	.LBB2_107
+# %bb.25:
+	cmp	edi, 4
+	je	.LBB2_169
+# %bb.26:
+	cmp	edi, 5
+	je	.LBB2_172
+# %bb.27:
+	cmp	edi, 6
+	jne	.LBB2_1069
+# %bb.28:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.29:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_30
+# %bb.271:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_459
+# %bb.272:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_459
+.LBB2_30:
+	xor	esi, esi
+.LBB2_641:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_643
+.LBB2_642:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_642
+.LBB2_643:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_644:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_644
+	jmp	.LBB2_1069
+.LBB2_31:
+	cmp	edi, 6
+	jg	.LBB2_76
+# %bb.32:
+	cmp	edi, 3
+	jle	.LBB2_112
+# %bb.33:
+	cmp	edi, 4
+	je	.LBB2_175
+# %bb.34:
+	cmp	edi, 5
+	je	.LBB2_178
+# %bb.35:
+	cmp	edi, 6
+	jne	.LBB2_1069
+# %bb.36:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.37:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_38
+# %bb.274:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_462
+# %bb.275:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_462
+.LBB2_38:
+	xor	esi, esi
+.LBB2_649:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_651
+.LBB2_650:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_650
+.LBB2_651:
+	cmp	rdx, 3
+	jb	.LBB2_1069
+.LBB2_652:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_652
+	jmp	.LBB2_1069
+.LBB2_39:
+	cmp	edi, 6
+	jg	.LBB2_83
+# %bb.40:
+	cmp	edi, 3
+	jle	.LBB2_117
+# %bb.41:
+	cmp	edi, 4
+	je	.LBB2_181
+# %bb.42:
+	cmp	edi, 5
+	je	.LBB2_184
+# %bb.43:
+	cmp	edi, 6
+	jne	.LBB2_1069
+# %bb.44:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.45:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_46
+# %bb.277:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_465
+# %bb.278:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_465
+.LBB2_46:
+	xor	esi, esi
+.LBB2_657:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_659
+.LBB2_658:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_658
+.LBB2_659:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_660:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_660
+	jmp	.LBB2_1069
+.LBB2_47:
+	cmp	edi, 6
+	jg	.LBB2_90
+# %bb.48:
+	cmp	edi, 3
+	jle	.LBB2_122
+# %bb.49:
+	cmp	edi, 4
+	je	.LBB2_187
+# %bb.50:
+	cmp	edi, 5
+	je	.LBB2_190
+# %bb.51:
+	cmp	edi, 6
+	jne	.LBB2_1069
+# %bb.52:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.53:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_54
+# %bb.280:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_468
+# %bb.281:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_468
+.LBB2_54:
+	xor	esi, esi
+.LBB2_665:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_667
+.LBB2_666:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_666
+.LBB2_667:
+	cmp	rdx, 3
+	jb	.LBB2_1069
+.LBB2_668:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_668
+	jmp	.LBB2_1069
+.LBB2_55:
+	cmp	edi, 8
+	jle	.LBB2_127
+# %bb.56:
+	cmp	edi, 9
+	je	.LBB2_193
+# %bb.57:
+	cmp	edi, 11
+	je	.LBB2_196
+# %bb.58:
+	cmp	edi, 12
+	jne	.LBB2_1069
+# %bb.59:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.60:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB2_61
+# %bb.283:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_471
+# %bb.284:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_471
+.LBB2_61:
+	xor	edx, edx
+.LBB2_673:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_675
+.LBB2_674:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_674
+.LBB2_675:
+	cmp	rsi, 3
+	jb	.LBB2_1069
+.LBB2_676:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_676
+	jmp	.LBB2_1069
+.LBB2_62:
+	cmp	edi, 8
+	jle	.LBB2_132
+# %bb.63:
+	cmp	edi, 9
+	je	.LBB2_199
+# %bb.64:
+	cmp	edi, 11
+	je	.LBB2_202
+# %bb.65:
+	cmp	edi, 12
+	jne	.LBB2_1069
+# %bb.66:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.67:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB2_68
+# %bb.286:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_474
+# %bb.287:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_474
+.LBB2_68:
+	xor	edx, edx
+.LBB2_681:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_683
+.LBB2_682:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_682
+.LBB2_683:
+	cmp	rsi, 3
+	jb	.LBB2_1069
+.LBB2_684:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
+	mulsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_684
+	jmp	.LBB2_1069
+.LBB2_69:
+	cmp	edi, 8
+	jle	.LBB2_137
+# %bb.70:
+	cmp	edi, 9
+	je	.LBB2_205
+# %bb.71:
+	cmp	edi, 11
+	je	.LBB2_208
+# %bb.72:
+	cmp	edi, 12
+	jne	.LBB2_1069
+# %bb.73:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.74:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB2_75
+# %bb.289:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_477
+# %bb.290:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_477
+.LBB2_75:
+	xor	edx, edx
+.LBB2_689:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_691
+.LBB2_690:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_690
+.LBB2_691:
+	cmp	rsi, 3
+	jb	.LBB2_1069
+.LBB2_692:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_692
+	jmp	.LBB2_1069
+.LBB2_76:
+	cmp	edi, 8
+	jle	.LBB2_142
+# %bb.77:
+	cmp	edi, 9
+	je	.LBB2_211
+# %bb.78:
+	cmp	edi, 11
+	je	.LBB2_214
+# %bb.79:
+	cmp	edi, 12
+	jne	.LBB2_1069
+# %bb.80:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.81:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB2_82
+# %bb.292:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_480
+# %bb.293:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_480
+.LBB2_82:
+	xor	edx, edx
+.LBB2_697:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_699
+.LBB2_698:                              # =>This Inner Loop Header: Depth=1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx]
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_698
+.LBB2_699:
+	cmp	rsi, 3
+	jb	.LBB2_1069
+.LBB2_700:                              # =>This Inner Loop Header: Depth=1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx]
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 8]
+	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 16]
+	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 24]
+	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_700
+	jmp	.LBB2_1069
+.LBB2_83:
+	cmp	edi, 8
+	jle	.LBB2_147
+# %bb.84:
+	cmp	edi, 9
+	je	.LBB2_217
+# %bb.85:
+	cmp	edi, 11
+	je	.LBB2_220
+# %bb.86:
+	cmp	edi, 12
+	jne	.LBB2_1069
+# %bb.87:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.88:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB2_89
+# %bb.295:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_483
+# %bb.296:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_483
+.LBB2_89:
+	xor	edx, edx
+.LBB2_705:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_707
+.LBB2_706:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_706
+.LBB2_707:
+	cmp	rsi, 3
+	jb	.LBB2_1069
+.LBB2_708:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_708
+	jmp	.LBB2_1069
+.LBB2_90:
+	cmp	edi, 8
+	jle	.LBB2_152
+# %bb.91:
+	cmp	edi, 9
+	je	.LBB2_223
+# %bb.92:
+	cmp	edi, 11
+	je	.LBB2_226
+# %bb.93:
+	cmp	edi, 12
+	jne	.LBB2_1069
+# %bb.94:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.95:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB2_96
+# %bb.298:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_486
+# %bb.299:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_486
+.LBB2_96:
+	xor	edx, edx
+.LBB2_713:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_715
+.LBB2_714:                              # =>This Inner Loop Header: Depth=1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx]
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_714
+.LBB2_715:
+	cmp	rsi, 3
+	jb	.LBB2_1069
+.LBB2_716:                              # =>This Inner Loop Header: Depth=1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx]
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 8]
+	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 16]
+	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 24]
+	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_716
+	jmp	.LBB2_1069
+.LBB2_97:
+	cmp	edi, 2
+	je	.LBB2_229
+# %bb.98:
+	cmp	edi, 3
+	jne	.LBB2_1069
+# %bb.99:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.100:
+	mov	dl, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_101
+# %bb.301:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_489
+# %bb.302:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_489
+.LBB2_101:
+	xor	edi, edi
+.LBB2_721:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB2_723
+.LBB2_722:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB2_722
+.LBB2_723:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_724:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB2_724
+	jmp	.LBB2_1069
+.LBB2_102:
+	cmp	edi, 2
+	je	.LBB2_232
+# %bb.103:
+	cmp	edi, 3
+	jne	.LBB2_1069
+# %bb.104:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.105:
+	mov	dl, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_106
+# %bb.304:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_492
+# %bb.305:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_492
+.LBB2_106:
+	xor	edi, edi
+.LBB2_729:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB2_731
+.LBB2_730:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB2_730
+.LBB2_731:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_732:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB2_732
+	jmp	.LBB2_1069
+.LBB2_107:
+	cmp	edi, 2
+	je	.LBB2_235
+# %bb.108:
+	cmp	edi, 3
+	jne	.LBB2_1069
+# %bb.109:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.110:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_111
+# %bb.307:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_495
+# %bb.308:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_495
+.LBB2_111:
+	xor	esi, esi
+.LBB2_737:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_739
+.LBB2_738:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_738
+.LBB2_739:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_740:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_740
+	jmp	.LBB2_1069
+.LBB2_112:
+	cmp	edi, 2
+	je	.LBB2_238
+# %bb.113:
+	cmp	edi, 3
+	jne	.LBB2_1069
+# %bb.114:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.115:
+	mov	r11b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_116
+# %bb.310:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_498
+# %bb.311:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_498
+.LBB2_116:
+	xor	esi, esi
+.LBB2_745:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_747
+.LBB2_746:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_746
+.LBB2_747:
+	cmp	rdx, 3
+	jb	.LBB2_1069
+.LBB2_748:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_748
+	jmp	.LBB2_1069
+.LBB2_117:
+	cmp	edi, 2
+	je	.LBB2_241
+# %bb.118:
+	cmp	edi, 3
+	jne	.LBB2_1069
+# %bb.119:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.120:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_121
+# %bb.313:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_501
+# %bb.314:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_501
+.LBB2_121:
+	xor	esi, esi
+.LBB2_753:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_755
+.LBB2_754:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_754
+.LBB2_755:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_756:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_756
+	jmp	.LBB2_1069
+.LBB2_122:
+	cmp	edi, 2
+	je	.LBB2_244
+# %bb.123:
+	cmp	edi, 3
+	jne	.LBB2_1069
+# %bb.124:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.125:
+	mov	r11b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_126
+# %bb.316:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_504
+# %bb.317:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_504
+.LBB2_126:
+	xor	esi, esi
+.LBB2_761:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_763
+.LBB2_762:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_762
+.LBB2_763:
+	cmp	rdx, 3
+	jb	.LBB2_1069
+.LBB2_764:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_764
+	jmp	.LBB2_1069
+.LBB2_127:
+	cmp	edi, 7
+	je	.LBB2_247
+# %bb.128:
+	cmp	edi, 8
+	jne	.LBB2_1069
+# %bb.129:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.130:
+	mov	rax, qword ptr [rdx]
+	mov	esi, r9d
+	lea	rdi, [rsi - 1]
+	mov	r9d, esi
+	and	r9d, 3
+	cmp	rdi, 3
+	jae	.LBB2_319
+# %bb.131:
+	xor	edi, edi
+	jmp	.LBB2_321
+.LBB2_132:
+	cmp	edi, 7
+	je	.LBB2_250
+# %bb.133:
+	cmp	edi, 8
+	jne	.LBB2_1069
+# %bb.134:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.135:
+	mov	rax, qword ptr [rdx]
+	mov	esi, r9d
+	lea	rdi, [rsi - 1]
+	mov	r9d, esi
+	and	r9d, 3
+	cmp	rdi, 3
+	jae	.LBB2_324
+# %bb.136:
+	xor	edi, edi
+	jmp	.LBB2_326
+.LBB2_137:
+	cmp	edi, 7
+	je	.LBB2_253
+# %bb.138:
+	cmp	edi, 8
+	jne	.LBB2_1069
+# %bb.139:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.140:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_141
+# %bb.329:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_507
+# %bb.330:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_507
+.LBB2_141:
+	xor	esi, esi
+.LBB2_769:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_771
+.LBB2_770:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_770
+.LBB2_771:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_772:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_772
+	jmp	.LBB2_1069
+.LBB2_142:
+	cmp	edi, 7
+	je	.LBB2_256
+# %bb.143:
+	cmp	edi, 8
+	jne	.LBB2_1069
+# %bb.144:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.145:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_146
+# %bb.332:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_510
+# %bb.333:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_510
+.LBB2_146:
+	xor	esi, esi
+.LBB2_777:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_779
+.LBB2_778:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_778
+.LBB2_779:
+	cmp	rdx, 3
+	jb	.LBB2_1069
+.LBB2_780:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_780
+	jmp	.LBB2_1069
+.LBB2_147:
+	cmp	edi, 7
+	je	.LBB2_259
+# %bb.148:
+	cmp	edi, 8
+	jne	.LBB2_1069
+# %bb.149:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.150:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_151
+# %bb.335:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_513
+# %bb.336:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_513
+.LBB2_151:
+	xor	esi, esi
+.LBB2_785:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_787
+.LBB2_786:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_786
+.LBB2_787:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_788:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_788
+	jmp	.LBB2_1069
+.LBB2_152:
+	cmp	edi, 7
+	je	.LBB2_262
+# %bb.153:
+	cmp	edi, 8
+	jne	.LBB2_1069
+# %bb.154:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.155:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_156
+# %bb.338:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_516
+# %bb.339:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_516
+.LBB2_156:
+	xor	esi, esi
+.LBB2_793:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_795
+.LBB2_794:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_794
+.LBB2_795:
+	cmp	rdx, 3
+	jb	.LBB2_1069
+.LBB2_796:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_796
+	jmp	.LBB2_1069
+.LBB2_157:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.158:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_159
+# %bb.341:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_519
+# %bb.342:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_519
+.LBB2_159:
+	xor	esi, esi
+.LBB2_801:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_803
+.LBB2_802:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_802
+.LBB2_803:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_804:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_804
+	jmp	.LBB2_1069
+.LBB2_160:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.161:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_162
+# %bb.344:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_522
+# %bb.345:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_522
+.LBB2_162:
+	xor	esi, esi
+.LBB2_809:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_811
+.LBB2_810:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_810
+.LBB2_811:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_812:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_812
+	jmp	.LBB2_1069
+.LBB2_163:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.164:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_165
+# %bb.347:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_525
+# %bb.348:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_525
+.LBB2_165:
+	xor	esi, esi
+.LBB2_817:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_819
+.LBB2_818:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_818
+.LBB2_819:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_820:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_820
+	jmp	.LBB2_1069
+.LBB2_166:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.167:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_168
+# %bb.350:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_528
+# %bb.351:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_528
+.LBB2_168:
+	xor	esi, esi
+.LBB2_825:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_827
+.LBB2_826:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_826
+.LBB2_827:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_828:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	imul	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_828
+	jmp	.LBB2_1069
+.LBB2_169:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.170:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_171
+# %bb.353:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_531
+# %bb.354:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_531
+.LBB2_171:
+	xor	esi, esi
+.LBB2_833:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_835
+.LBB2_834:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_834
+.LBB2_835:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_836:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_836
+	jmp	.LBB2_1069
+.LBB2_172:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.173:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_174
+# %bb.356:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_534
+# %bb.357:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_534
+.LBB2_174:
+	xor	esi, esi
+.LBB2_841:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_843
+.LBB2_842:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_842
+.LBB2_843:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_844:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_844
+	jmp	.LBB2_1069
+.LBB2_175:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.176:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_177
+# %bb.359:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_537
+# %bb.360:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_537
+.LBB2_177:
+	xor	esi, esi
+.LBB2_849:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_851
+.LBB2_850:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_850
+.LBB2_851:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_852:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_852
+	jmp	.LBB2_1069
+.LBB2_178:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.179:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_180
+# %bb.362:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_540
+# %bb.363:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_540
+.LBB2_180:
+	xor	esi, esi
+.LBB2_857:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_859
+.LBB2_858:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_858
+.LBB2_859:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_860:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_860
+	jmp	.LBB2_1069
+.LBB2_181:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.182:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_183
+# %bb.365:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_543
+# %bb.366:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_543
+.LBB2_183:
+	xor	esi, esi
+.LBB2_865:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_867
+.LBB2_866:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_866
+.LBB2_867:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_868:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_868
+	jmp	.LBB2_1069
+.LBB2_184:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.185:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_186
+# %bb.368:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_546
+# %bb.369:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_546
+.LBB2_186:
+	xor	esi, esi
+.LBB2_873:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_875
+.LBB2_874:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_874
+.LBB2_875:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_876:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_876
+	jmp	.LBB2_1069
+.LBB2_187:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.188:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_189
+# %bb.371:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_549
+# %bb.372:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_549
+.LBB2_189:
+	xor	esi, esi
+.LBB2_881:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_883
+.LBB2_882:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_882
+.LBB2_883:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_884:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_884
+	jmp	.LBB2_1069
+.LBB2_190:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.191:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_192
+# %bb.374:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_552
+# %bb.375:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_552
+.LBB2_192:
+	xor	esi, esi
+.LBB2_889:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_891
+.LBB2_890:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_890
+.LBB2_891:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_892:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_892
+	jmp	.LBB2_1069
+.LBB2_193:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.194:
+	mov	rax, qword ptr [rdx]
+	mov	esi, r9d
+	lea	rdi, [rsi - 1]
+	mov	r9d, esi
+	and	r9d, 3
+	cmp	rdi, 3
+	jae	.LBB2_377
+# %bb.195:
+	xor	edi, edi
+	jmp	.LBB2_379
+.LBB2_196:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.197:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB2_198
+# %bb.382:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_555
+# %bb.383:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_555
+.LBB2_198:
+	xor	edx, edx
+.LBB2_897:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_899
+.LBB2_898:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_898
+.LBB2_899:
+	cmp	rsi, 3
+	jb	.LBB2_1069
+.LBB2_900:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 4], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 8], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_900
+	jmp	.LBB2_1069
+.LBB2_199:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.200:
+	mov	rax, qword ptr [rdx]
+	mov	esi, r9d
+	lea	rdi, [rsi - 1]
+	mov	r9d, esi
+	and	r9d, 3
+	cmp	rdi, 3
+	jae	.LBB2_385
+# %bb.201:
+	xor	edi, edi
+	jmp	.LBB2_387
+.LBB2_202:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.203:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB2_204
+# %bb.390:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_558
+# %bb.391:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_558
+.LBB2_204:
+	xor	edx, edx
+.LBB2_905:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_907
+.LBB2_906:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_906
+.LBB2_907:
+	cmp	rsi, 3
+	jb	.LBB2_1069
+.LBB2_908:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 4], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 8], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
+	mulss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_908
+	jmp	.LBB2_1069
+.LBB2_205:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.206:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_207
+# %bb.393:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_561
+# %bb.394:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_561
+.LBB2_207:
+	xor	esi, esi
+.LBB2_913:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_915
+.LBB2_914:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_914
+.LBB2_915:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_916:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_916
+	jmp	.LBB2_1069
+.LBB2_208:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.209:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB2_210
+# %bb.396:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_564
+# %bb.397:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_564
+.LBB2_210:
+	xor	edx, edx
+.LBB2_921:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_923
+.LBB2_922:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_922
+.LBB2_923:
+	cmp	rsi, 3
+	jb	.LBB2_1069
+.LBB2_924:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 4], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 8], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_924
+	jmp	.LBB2_1069
+.LBB2_211:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.212:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_213
+# %bb.399:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_567
+# %bb.400:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_567
+.LBB2_213:
+	xor	esi, esi
+.LBB2_929:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_931
+.LBB2_930:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_930
+.LBB2_931:
+	cmp	rdx, 3
+	jb	.LBB2_1069
+.LBB2_932:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_932
+	jmp	.LBB2_1069
+.LBB2_214:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.215:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB2_216
+# %bb.402:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_570
+# %bb.403:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_570
+.LBB2_216:
+	xor	edx, edx
+.LBB2_937:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_939
+.LBB2_938:                              # =>This Inner Loop Header: Depth=1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx]
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_938
+.LBB2_939:
+	cmp	rsi, 3
+	jb	.LBB2_1069
+.LBB2_940:                              # =>This Inner Loop Header: Depth=1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx]
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 4]
+	movss	dword ptr [r8 + 4*rdx + 4], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 8]
+	movss	dword ptr [r8 + 4*rdx + 8], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 12]
+	movss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_940
+	jmp	.LBB2_1069
+.LBB2_217:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.218:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_219
+# %bb.405:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_573
+# %bb.406:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_573
+.LBB2_219:
+	xor	esi, esi
+.LBB2_945:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_947
+.LBB2_946:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_946
+.LBB2_947:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_948:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_948
+	jmp	.LBB2_1069
+.LBB2_220:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.221:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB2_222
+# %bb.408:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_576
+# %bb.409:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_576
+.LBB2_222:
+	xor	edx, edx
+.LBB2_953:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_955
+.LBB2_954:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_954
+.LBB2_955:
+	cmp	rsi, 3
+	jb	.LBB2_1069
+.LBB2_956:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 4], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 8], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_956
+	jmp	.LBB2_1069
+.LBB2_223:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.224:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_225
+# %bb.411:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_579
+# %bb.412:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_579
+.LBB2_225:
+	xor	esi, esi
+.LBB2_961:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_963
+.LBB2_962:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_962
+.LBB2_963:
+	cmp	rdx, 3
+	jb	.LBB2_1069
+.LBB2_964:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_964
+	jmp	.LBB2_1069
+.LBB2_226:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.227:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB2_228
+# %bb.414:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_582
+# %bb.415:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_582
+.LBB2_228:
+	xor	edx, edx
+.LBB2_969:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_971
+.LBB2_970:                              # =>This Inner Loop Header: Depth=1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx]
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_970
+.LBB2_971:
+	cmp	rsi, 3
+	jb	.LBB2_1069
+.LBB2_972:                              # =>This Inner Loop Header: Depth=1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx]
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 4]
+	movss	dword ptr [r8 + 4*rdx + 4], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 8]
+	movss	dword ptr [r8 + 4*rdx + 8], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 12]
+	movss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_972
+	jmp	.LBB2_1069
+.LBB2_229:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.230:
+	mov	dl, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_231
+# %bb.417:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_585
+# %bb.418:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_585
+.LBB2_231:
+	xor	edi, edi
+.LBB2_977:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB2_979
+.LBB2_978:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB2_978
+.LBB2_979:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_980:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB2_980
+	jmp	.LBB2_1069
+.LBB2_232:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.233:
+	mov	dl, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_234
+# %bb.420:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_588
+# %bb.421:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_588
+.LBB2_234:
+	xor	edi, edi
+.LBB2_985:
+	mov	r9, rdi
+	not	r9
+	add	r9, r10
+	mov	rsi, r10
+	and	rsi, 3
+	je	.LBB2_987
+.LBB2_986:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	add	rdi, 1
+	add	rsi, -1
+	jne	.LBB2_986
+.LBB2_987:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_988:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdi]
+	mul	dl
+	mov	byte ptr [r8 + rdi], al
+	movzx	eax, byte ptr [rcx + rdi + 1]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 1], al
+	movzx	eax, byte ptr [rcx + rdi + 2]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 2], al
+	movzx	eax, byte ptr [rcx + rdi + 3]
+	mul	dl
+	mov	byte ptr [r8 + rdi + 3], al
+	add	rdi, 4
+	cmp	r10, rdi
+	jne	.LBB2_988
+	jmp	.LBB2_1069
+.LBB2_235:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.236:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_237
+# %bb.423:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_591
+# %bb.424:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_591
+.LBB2_237:
+	xor	esi, esi
+.LBB2_993:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_995
+.LBB2_994:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_994
+.LBB2_995:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_996:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_996
+	jmp	.LBB2_1069
+.LBB2_238:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.239:
+	mov	r11b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_240
+# %bb.426:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_594
+# %bb.427:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_594
+.LBB2_240:
+	xor	esi, esi
+.LBB2_1001:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1003
+.LBB2_1002:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1002
+.LBB2_1003:
+	cmp	rdx, 3
+	jb	.LBB2_1069
+.LBB2_1004:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1004
+	jmp	.LBB2_1069
+.LBB2_241:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.242:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_243
+# %bb.429:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_597
+# %bb.430:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_597
+.LBB2_243:
+	xor	esi, esi
+.LBB2_1009:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1011
+.LBB2_1010:                             # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1010
+.LBB2_1011:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_1012:                             # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1012
+	jmp	.LBB2_1069
+.LBB2_244:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.245:
+	mov	r11b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_246
+# %bb.432:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_600
+# %bb.433:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_600
+.LBB2_246:
+	xor	esi, esi
+.LBB2_1017:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1019
+.LBB2_1018:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1018
+.LBB2_1019:
+	cmp	rdx, 3
+	jb	.LBB2_1069
+.LBB2_1020:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1020
+	jmp	.LBB2_1069
+.LBB2_247:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.248:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_249
+# %bb.435:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_603
+# %bb.436:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_603
+.LBB2_249:
+	xor	esi, esi
+.LBB2_1025:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1027
+.LBB2_1026:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1026
+.LBB2_1027:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_1028:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1028
+	jmp	.LBB2_1069
+.LBB2_250:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.251:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_252
+# %bb.438:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_606
+# %bb.439:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_606
+.LBB2_252:
+	xor	esi, esi
+.LBB2_1033:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1035
+.LBB2_1034:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1034
+.LBB2_1035:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_1036:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	imul	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1036
+	jmp	.LBB2_1069
+.LBB2_253:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.254:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_255
+# %bb.441:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_609
+# %bb.442:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_609
+.LBB2_255:
+	xor	esi, esi
+.LBB2_1041:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1043
+.LBB2_1042:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1042
+.LBB2_1043:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_1044:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1044
+	jmp	.LBB2_1069
+.LBB2_256:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.257:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_258
+# %bb.444:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_612
+# %bb.445:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_612
+.LBB2_258:
+	xor	esi, esi
+.LBB2_1049:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1051
+.LBB2_1050:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1050
+.LBB2_1051:
+	cmp	rdx, 3
+	jb	.LBB2_1069
+.LBB2_1052:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1052
+	jmp	.LBB2_1069
+.LBB2_259:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.260:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_261
+# %bb.447:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_615
+# %bb.448:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_615
+.LBB2_261:
+	xor	esi, esi
+.LBB2_1057:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1059
+.LBB2_1058:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1058
+.LBB2_1059:
+	cmp	r9, 3
+	jb	.LBB2_1069
+.LBB2_1060:                             # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1060
+	jmp	.LBB2_1069
+.LBB2_262:
+	test	r9d, r9d
+	jle	.LBB2_1069
+# %bb.263:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_264
+# %bb.450:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_618
+# %bb.451:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_618
+.LBB2_264:
+	xor	esi, esi
+.LBB2_1065:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_1067
+.LBB2_1066:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_1066
+.LBB2_1067:
+	cmp	rdx, 3
+	jb	.LBB2_1069
+.LBB2_1068:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_1068
+	jmp	.LBB2_1069
+.LBB2_319:
+	and	esi, -4
+	xor	edi, edi
+.LBB2_320:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rdi]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi], rdx
+	mov	rdx, qword ptr [rcx + 8*rdi + 8]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rdi + 16]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rdi + 24]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi + 24], rdx
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB2_320
+.LBB2_321:
+	test	r9, r9
+	je	.LBB2_1069
+# %bb.322:
+	lea	rsi, [r8 + 8*rdi]
+	lea	rcx, [rcx + 8*rdi]
+	xor	edi, edi
+.LBB2_323:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rdi]
+	imul	rdx, rax
+	mov	qword ptr [rsi + 8*rdi], rdx
+	add	rdi, 1
+	cmp	r9, rdi
+	jne	.LBB2_323
+	jmp	.LBB2_1069
+.LBB2_324:
+	and	esi, -4
+	xor	edi, edi
+.LBB2_325:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rdi]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi], rdx
+	mov	rdx, qword ptr [rcx + 8*rdi + 8]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rdi + 16]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rdi + 24]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi + 24], rdx
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB2_325
+.LBB2_326:
+	test	r9, r9
+	je	.LBB2_1069
+# %bb.327:
+	lea	rsi, [r8 + 8*rdi]
+	lea	rcx, [rcx + 8*rdi]
+	xor	edi, edi
+.LBB2_328:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rdi]
+	imul	rdx, rax
+	mov	qword ptr [rsi + 8*rdi], rdx
+	add	rdi, 1
+	cmp	r9, rdi
+	jne	.LBB2_328
+	jmp	.LBB2_1069
+.LBB2_377:
+	and	esi, -4
+	xor	edi, edi
+.LBB2_378:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rdi]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi], rdx
+	mov	rdx, qword ptr [rcx + 8*rdi + 8]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rdi + 16]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rdi + 24]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi + 24], rdx
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB2_378
+.LBB2_379:
+	test	r9, r9
+	je	.LBB2_1069
+# %bb.380:
+	lea	rsi, [r8 + 8*rdi]
+	lea	rcx, [rcx + 8*rdi]
+	xor	edi, edi
+.LBB2_381:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rdi]
+	imul	rdx, rax
+	mov	qword ptr [rsi + 8*rdi], rdx
+	add	rdi, 1
+	cmp	r9, rdi
+	jne	.LBB2_381
+	jmp	.LBB2_1069
+.LBB2_385:
+	and	esi, -4
+	xor	edi, edi
+.LBB2_386:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rdi]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi], rdx
+	mov	rdx, qword ptr [rcx + 8*rdi + 8]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rdi + 16]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rdi + 24]
+	imul	rdx, rax
+	mov	qword ptr [r8 + 8*rdi + 24], rdx
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB2_386
+.LBB2_387:
+	test	r9, r9
+	je	.LBB2_1069
+# %bb.388:
+	lea	rsi, [r8 + 8*rdi]
+	lea	rcx, [rcx + 8*rdi]
+	xor	edi, edi
+.LBB2_389:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rdi]
+	imul	rdx, rax
+	mov	qword ptr [rsi + 8*rdi], rdx
+	add	rdi, 1
+	cmp	r9, rdi
+	jne	.LBB2_389
+.LBB2_1069:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.LBB2_453:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_621
+# %bb.454:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_455:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_455
+	jmp	.LBB2_622
+.LBB2_456:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_629
+# %bb.457:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_458:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_458
+	jmp	.LBB2_630
+.LBB2_459:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_637
+# %bb.460:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_461:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_461
+	jmp	.LBB2_638
+.LBB2_462:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r11d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_645
+# %bb.463:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_464:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_464
+	jmp	.LBB2_646
+.LBB2_465:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_653
+# %bb.466:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_467:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_467
+	jmp	.LBB2_654
+.LBB2_468:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r11d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_661
+# %bb.469:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_470:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_470
+	jmp	.LBB2_662
+.LBB2_471:
+	mov	edx, eax
+	and	edx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_669
+# %bb.472:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_473:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	mulpd	xmm2, xmm1
+	mulpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
+	mulpd	xmm2, xmm1
+	mulpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB2_473
+	jmp	.LBB2_670
+.LBB2_474:
+	mov	edx, eax
+	and	edx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_677
+# %bb.475:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_476:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	mulpd	xmm2, xmm1
+	mulpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
+	mulpd	xmm2, xmm1
+	mulpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB2_476
+	jmp	.LBB2_678
+.LBB2_477:
+	mov	edx, eax
+	and	edx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_685
+# %bb.478:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_479:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB2_479
+	jmp	.LBB2_686
+.LBB2_480:
+	mov	edx, eax
+	and	edx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_693
+# %bb.481:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_482:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	movapd	xmm2, xmm1
+	subpd	xmm2, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	movapd	xmm2, xmm1
+	subpd	xmm2, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB2_482
+	jmp	.LBB2_694
+.LBB2_483:
+	mov	edx, eax
+	and	edx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_701
+# %bb.484:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_485:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB2_485
+	jmp	.LBB2_702
+.LBB2_486:
+	mov	edx, eax
+	and	edx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_709
+# %bb.487:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_488:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	movapd	xmm2, xmm1
+	subpd	xmm2, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	movapd	xmm2, xmm1
+	subpd	xmm2, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB2_488
+	jmp	.LBB2_710
+.LBB2_489:
+	mov	edi, r10d
+	and	edi, -32
+	movzx	eax, dl
+	movd	xmm0, eax
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rdi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	test	rax, rax
+	je	.LBB2_717
+# %bb.490:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	eax, eax
+	movdqa	xmm2, xmm0
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI2_0] # xmm3 = [255,255,255,255,255,255,255,255]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+.LBB2_491:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + rax]
+	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax], xmm7
+	movdqu	xmmword ptr [r8 + rax + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
+	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax + 32], xmm7
+	movdqu	xmmword ptr [r8 + rax + 48], xmm5
+	add	rax, 64
+	add	rsi, 2
+	jne	.LBB2_491
+	jmp	.LBB2_718
+.LBB2_492:
+	mov	edi, r10d
+	and	edi, -32
+	movzx	eax, dl
+	movd	xmm0, eax
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rdi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	test	rax, rax
+	je	.LBB2_725
+# %bb.493:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	eax, eax
+	movdqa	xmm2, xmm0
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI2_0] # xmm3 = [255,255,255,255,255,255,255,255]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+.LBB2_494:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + rax]
+	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax], xmm7
+	movdqu	xmmword ptr [r8 + rax + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
+	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax + 32], xmm7
+	movdqu	xmmword ptr [r8 + rax + 48], xmm5
+	add	rax, 64
+	add	rsi, 2
+	jne	.LBB2_494
+	jmp	.LBB2_726
+.LBB2_495:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, al
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_733
+# %bb.496:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_497:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_497
+	jmp	.LBB2_734
+.LBB2_498:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, r11b
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_741
+# %bb.499:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_500:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_500
+	jmp	.LBB2_742
+.LBB2_501:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, al
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_749
+# %bb.502:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_503:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_503
+	jmp	.LBB2_750
+.LBB2_504:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, r11b
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_757
+# %bb.505:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_506:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_506
+	jmp	.LBB2_758
+.LBB2_507:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_765
+# %bb.508:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_509:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_509
+	jmp	.LBB2_766
+.LBB2_510:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r11
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_773
+# %bb.511:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_512:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_512
+	jmp	.LBB2_774
+.LBB2_513:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_781
+# %bb.514:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_515:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_515
+	jmp	.LBB2_782
+.LBB2_516:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r11
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_789
+# %bb.517:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_518:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_518
+	jmp	.LBB2_790
+.LBB2_519:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_797
+# %bb.520:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_521:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_521
+	jmp	.LBB2_798
+.LBB2_522:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_805
+# %bb.523:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_524:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_524
+	jmp	.LBB2_806
+.LBB2_525:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_813
+# %bb.526:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_527:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_527
+	jmp	.LBB2_814
+.LBB2_528:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_821
+# %bb.529:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_530:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_530
+	jmp	.LBB2_822
+.LBB2_531:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_829
+# %bb.532:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_533:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_533
+	jmp	.LBB2_830
+.LBB2_534:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_837
+# %bb.535:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_536:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_536
+	jmp	.LBB2_838
+.LBB2_537:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_845
+# %bb.538:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_539:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_539
+	jmp	.LBB2_846
+.LBB2_540:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_853
+# %bb.541:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_542:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_542
+	jmp	.LBB2_854
+.LBB2_543:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_861
+# %bb.544:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_545:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_545
+	jmp	.LBB2_862
+.LBB2_546:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_869
+# %bb.547:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_548:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_548
+	jmp	.LBB2_870
+.LBB2_549:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_877
+# %bb.550:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_551:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_551
+	jmp	.LBB2_878
+.LBB2_552:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_885
+# %bb.553:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_554:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_554
+	jmp	.LBB2_886
+.LBB2_555:
+	mov	edx, eax
+	and	edx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_893
+# %bb.556:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_557:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	mulps	xmm2, xmm1
+	mulps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
+	mulps	xmm2, xmm1
+	mulps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB2_557
+	jmp	.LBB2_894
+.LBB2_558:
+	mov	edx, eax
+	and	edx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_901
+# %bb.559:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_560:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	mulps	xmm2, xmm1
+	mulps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
+	mulps	xmm2, xmm1
+	mulps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB2_560
+	jmp	.LBB2_902
+.LBB2_561:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_909
+# %bb.562:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_563:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_563
+	jmp	.LBB2_910
+.LBB2_564:
+	mov	edx, eax
+	and	edx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_917
+# %bb.565:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_566:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB2_566
+	jmp	.LBB2_918
+.LBB2_567:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r11
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_925
+# %bb.568:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_569:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_569
+	jmp	.LBB2_926
+.LBB2_570:
+	mov	edx, eax
+	and	edx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_933
+# %bb.571:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_572:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rdi], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB2_572
+	jmp	.LBB2_934
+.LBB2_573:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_941
+# %bb.574:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_575:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_575
+	jmp	.LBB2_942
+.LBB2_576:
+	mov	edx, eax
+	and	edx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_949
+# %bb.577:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_578:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB2_578
+	jmp	.LBB2_950
+.LBB2_579:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r11
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_957
+# %bb.580:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_581:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_581
+	jmp	.LBB2_958
+.LBB2_582:
+	mov	edx, eax
+	and	edx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_965
+# %bb.583:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_584:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rdi], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB2_584
+	jmp	.LBB2_966
+.LBB2_585:
+	mov	edi, r10d
+	and	edi, -32
+	movzx	eax, dl
+	movd	xmm0, eax
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rdi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	test	rax, rax
+	je	.LBB2_973
+# %bb.586:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	eax, eax
+	movdqa	xmm2, xmm0
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI2_0] # xmm3 = [255,255,255,255,255,255,255,255]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+.LBB2_587:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + rax]
+	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax], xmm7
+	movdqu	xmmword ptr [r8 + rax + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
+	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax + 32], xmm7
+	movdqu	xmmword ptr [r8 + rax + 48], xmm5
+	add	rax, 64
+	add	rsi, 2
+	jne	.LBB2_587
+	jmp	.LBB2_974
+.LBB2_588:
+	mov	edi, r10d
+	and	edi, -32
+	movzx	eax, dl
+	movd	xmm0, eax
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rdi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	pmovzxbw	xmm1, xmm0                      # xmm1 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	test	rax, rax
+	je	.LBB2_981
+# %bb.589:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	eax, eax
+	movdqa	xmm2, xmm0
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI2_0] # xmm3 = [255,255,255,255,255,255,255,255]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+.LBB2_590:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + rax]
+	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax], xmm7
+	movdqu	xmmword ptr [r8 + rax + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
+	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
+	pmovzxbw	xmm7, xmm5                      # xmm7 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero,xmm5[4],zero,xmm5[5],zero,xmm5[6],zero,xmm5[7],zero
+	punpckhbw	xmm5, xmm5              # xmm5 = xmm5[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm5, xmm2
+	pand	xmm5, xmm3
+	pmullw	xmm7, xmm1
+	pand	xmm7, xmm3
+	packuswb	xmm7, xmm5
+	pmovzxbw	xmm5, xmm6                      # xmm5 = xmm6[0],zero,xmm6[1],zero,xmm6[2],zero,xmm6[3],zero,xmm6[4],zero,xmm6[5],zero,xmm6[6],zero,xmm6[7],zero
+	punpckhbw	xmm6, xmm6              # xmm6 = xmm6[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm6, xmm4
+	pand	xmm6, xmm3
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm3
+	packuswb	xmm5, xmm6
+	movdqu	xmmword ptr [r8 + rax + 32], xmm7
+	movdqu	xmmword ptr [r8 + rax + 48], xmm5
+	add	rax, 64
+	add	rsi, 2
+	jne	.LBB2_590
+	jmp	.LBB2_982
+.LBB2_591:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, al
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_989
+# %bb.592:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_593:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_593
+	jmp	.LBB2_990
+.LBB2_594:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, r11b
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_997
+# %bb.595:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_596:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_596
+	jmp	.LBB2_998
+.LBB2_597:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, al
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1005
+# %bb.598:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_599:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_599
+	jmp	.LBB2_1006
+.LBB2_600:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, r11b
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1013
+# %bb.601:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_602:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_602
+	jmp	.LBB2_1014
+.LBB2_603:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1021
+# %bb.604:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_605:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_605
+	jmp	.LBB2_1022
+.LBB2_606:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1029
+# %bb.607:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_608:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_608
+	jmp	.LBB2_1030
+.LBB2_609:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1037
+# %bb.610:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_611:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_611
+	jmp	.LBB2_1038
+.LBB2_612:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r11d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1045
+# %bb.613:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_614:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_614
+	jmp	.LBB2_1046
+.LBB2_615:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1053
+# %bb.616:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_617:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_617
+	jmp	.LBB2_1054
+.LBB2_618:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r11d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_1061
+# %bb.619:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_620:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_620
+	jmp	.LBB2_1062
+.LBB2_621:
+	xor	edi, edi
+.LBB2_622:
+	test	r9b, 1
+	je	.LBB2_624
+# %bb.623:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB2_624:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_625
+.LBB2_629:
+	xor	edi, edi
+.LBB2_630:
+	test	r9b, 1
+	je	.LBB2_632
+# %bb.631:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB2_632:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_633
+.LBB2_637:
+	xor	edi, edi
+.LBB2_638:
+	test	r9b, 1
+	je	.LBB2_640
+# %bb.639:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB2_640:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_641
+.LBB2_645:
+	xor	edi, edi
+.LBB2_646:
+	test	r9b, 1
+	je	.LBB2_648
+# %bb.647:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	psubd	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB2_648:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_649
+.LBB2_653:
+	xor	edi, edi
+.LBB2_654:
+	test	r9b, 1
+	je	.LBB2_656
+# %bb.655:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB2_656:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_657
+.LBB2_661:
+	xor	edi, edi
+.LBB2_662:
+	test	r9b, 1
+	je	.LBB2_664
+# %bb.663:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	psubd	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB2_664:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_665
+.LBB2_669:
+	xor	edi, edi
+.LBB2_670:
+	test	r9b, 1
+	je	.LBB2_672
+# %bb.671:
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	mulpd	xmm2, xmm1
+	mulpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB2_672:
+	cmp	rdx, rax
+	je	.LBB2_1069
+	jmp	.LBB2_673
+.LBB2_677:
+	xor	edi, edi
+.LBB2_678:
+	test	r9b, 1
+	je	.LBB2_680
+# %bb.679:
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	mulpd	xmm2, xmm1
+	mulpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB2_680:
+	cmp	rdx, rax
+	je	.LBB2_1069
+	jmp	.LBB2_681
+.LBB2_685:
+	xor	edi, edi
+.LBB2_686:
+	test	r9b, 1
+	je	.LBB2_688
+# %bb.687:
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB2_688:
+	cmp	rdx, rax
+	je	.LBB2_1069
+	jmp	.LBB2_689
+.LBB2_693:
+	xor	edi, edi
+.LBB2_694:
+	test	r9b, 1
+	je	.LBB2_696
+# %bb.695:
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	subpd	xmm1, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB2_696:
+	cmp	rdx, rax
+	je	.LBB2_1069
+	jmp	.LBB2_697
+.LBB2_701:
+	xor	edi, edi
+.LBB2_702:
+	test	r9b, 1
+	je	.LBB2_704
+# %bb.703:
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB2_704:
+	cmp	rdx, rax
+	je	.LBB2_1069
+	jmp	.LBB2_705
+.LBB2_709:
+	xor	edi, edi
+.LBB2_710:
+	test	r9b, 1
+	je	.LBB2_712
+# %bb.711:
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	subpd	xmm1, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB2_712:
+	cmp	rdx, rax
+	je	.LBB2_1069
+	jmp	.LBB2_713
+.LBB2_717:
+	xor	eax, eax
+.LBB2_718:
+	test	r9b, 1
+	je	.LBB2_720
+# %bb.719:
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	movdqu	xmm3, xmmword ptr [rcx + rax + 16]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm2, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI2_0] # xmm4 = [255,255,255,255,255,255,255,255]
+	pand	xmm2, xmm4
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm4
+	packuswb	xmm5, xmm2
+	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm0
+	pand	xmm3, xmm4
+	pmullw	xmm2, xmm1
+	pand	xmm2, xmm4
+	packuswb	xmm2, xmm3
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmmword ptr [r8 + rax + 16], xmm2
+.LBB2_720:
+	cmp	rdi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_721
+.LBB2_725:
+	xor	eax, eax
+.LBB2_726:
+	test	r9b, 1
+	je	.LBB2_728
+# %bb.727:
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	movdqu	xmm3, xmmword ptr [rcx + rax + 16]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm2, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI2_0] # xmm4 = [255,255,255,255,255,255,255,255]
+	pand	xmm2, xmm4
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm4
+	packuswb	xmm5, xmm2
+	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm0
+	pand	xmm3, xmm4
+	pmullw	xmm2, xmm1
+	pand	xmm2, xmm4
+	packuswb	xmm2, xmm3
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmmword ptr [r8 + rax + 16], xmm2
+.LBB2_728:
+	cmp	rdi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_729
+.LBB2_733:
+	xor	edi, edi
+.LBB2_734:
+	test	r9b, 1
+	je	.LBB2_736
+# %bb.735:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB2_736:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_737
+.LBB2_741:
+	xor	edi, edi
+.LBB2_742:
+	test	r9b, 1
+	je	.LBB2_744
+# %bb.743:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	psubb	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB2_744:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_745
+.LBB2_749:
+	xor	edi, edi
+.LBB2_750:
+	test	r9b, 1
+	je	.LBB2_752
+# %bb.751:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB2_752:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_753
+.LBB2_757:
+	xor	edi, edi
+.LBB2_758:
+	test	r9b, 1
+	je	.LBB2_760
+# %bb.759:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	psubb	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB2_760:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_761
+.LBB2_765:
+	xor	edi, edi
+.LBB2_766:
+	test	r9b, 1
+	je	.LBB2_768
+# %bb.767:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB2_768:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_769
+.LBB2_773:
+	xor	edi, edi
+.LBB2_774:
+	test	r9b, 1
+	je	.LBB2_776
+# %bb.775:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	psubq	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB2_776:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_777
+.LBB2_781:
+	xor	edi, edi
+.LBB2_782:
+	test	r9b, 1
+	je	.LBB2_784
+# %bb.783:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB2_784:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_785
+.LBB2_789:
+	xor	edi, edi
+.LBB2_790:
+	test	r9b, 1
+	je	.LBB2_792
+# %bb.791:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	psubq	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB2_792:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_793
+.LBB2_797:
+	xor	edi, edi
+.LBB2_798:
+	test	r9b, 1
+	je	.LBB2_800
+# %bb.799:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB2_800:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_801
+.LBB2_805:
+	xor	edi, edi
+.LBB2_806:
+	test	r9b, 1
+	je	.LBB2_808
+# %bb.807:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB2_808:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_809
+.LBB2_813:
+	xor	edi, edi
+.LBB2_814:
+	test	r9b, 1
+	je	.LBB2_816
+# %bb.815:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB2_816:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_817
+.LBB2_821:
+	xor	edi, edi
+.LBB2_822:
+	test	r9b, 1
+	je	.LBB2_824
+# %bb.823:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	pmullw	xmm1, xmm0
+	pmullw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB2_824:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_825
+.LBB2_829:
+	xor	edi, edi
+.LBB2_830:
+	test	r9b, 1
+	je	.LBB2_832
+# %bb.831:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB2_832:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_833
+.LBB2_837:
+	xor	edi, edi
+.LBB2_838:
+	test	r9b, 1
+	je	.LBB2_840
+# %bb.839:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB2_840:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_841
+.LBB2_845:
+	xor	edi, edi
+.LBB2_846:
+	test	r9b, 1
+	je	.LBB2_848
+# %bb.847:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	psubw	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB2_848:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_849
+.LBB2_853:
+	xor	edi, edi
+.LBB2_854:
+	test	r9b, 1
+	je	.LBB2_856
+# %bb.855:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	psubw	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB2_856:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_857
+.LBB2_861:
+	xor	edi, edi
+.LBB2_862:
+	test	r9b, 1
+	je	.LBB2_864
+# %bb.863:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB2_864:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_865
+.LBB2_869:
+	xor	edi, edi
+.LBB2_870:
+	test	r9b, 1
+	je	.LBB2_872
+# %bb.871:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB2_872:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_873
+.LBB2_877:
+	xor	edi, edi
+.LBB2_878:
+	test	r9b, 1
+	je	.LBB2_880
+# %bb.879:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	psubw	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB2_880:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_881
+.LBB2_885:
+	xor	edi, edi
+.LBB2_886:
+	test	r9b, 1
+	je	.LBB2_888
+# %bb.887:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	psubw	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB2_888:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_889
+.LBB2_893:
+	xor	edi, edi
+.LBB2_894:
+	test	r9b, 1
+	je	.LBB2_896
+# %bb.895:
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	mulps	xmm2, xmm1
+	mulps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB2_896:
+	cmp	rdx, rax
+	je	.LBB2_1069
+	jmp	.LBB2_897
+.LBB2_901:
+	xor	edi, edi
+.LBB2_902:
+	test	r9b, 1
+	je	.LBB2_904
+# %bb.903:
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	mulps	xmm2, xmm1
+	mulps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB2_904:
+	cmp	rdx, rax
+	je	.LBB2_1069
+	jmp	.LBB2_905
+.LBB2_909:
+	xor	edi, edi
+.LBB2_910:
+	test	r9b, 1
+	je	.LBB2_912
+# %bb.911:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB2_912:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_913
+.LBB2_917:
+	xor	edi, edi
+.LBB2_918:
+	test	r9b, 1
+	je	.LBB2_920
+# %bb.919:
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB2_920:
+	cmp	rdx, rax
+	je	.LBB2_1069
+	jmp	.LBB2_921
+.LBB2_925:
+	xor	edi, edi
+.LBB2_926:
+	test	r9b, 1
+	je	.LBB2_928
+# %bb.927:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	psubq	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB2_928:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_929
+.LBB2_933:
+	xor	edi, edi
+.LBB2_934:
+	test	r9b, 1
+	je	.LBB2_936
+# %bb.935:
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	subps	xmm1, xmm3
+	movups	xmmword ptr [r8 + 4*rdi], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB2_936:
+	cmp	rdx, rax
+	je	.LBB2_1069
+	jmp	.LBB2_937
+.LBB2_941:
+	xor	edi, edi
+.LBB2_942:
+	test	r9b, 1
+	je	.LBB2_944
+# %bb.943:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB2_944:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_945
+.LBB2_949:
+	xor	edi, edi
+.LBB2_950:
+	test	r9b, 1
+	je	.LBB2_952
+# %bb.951:
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB2_952:
+	cmp	rdx, rax
+	je	.LBB2_1069
+	jmp	.LBB2_953
+.LBB2_957:
+	xor	edi, edi
+.LBB2_958:
+	test	r9b, 1
+	je	.LBB2_960
+# %bb.959:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	psubq	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB2_960:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_961
+.LBB2_965:
+	xor	edi, edi
+.LBB2_966:
+	test	r9b, 1
+	je	.LBB2_968
+# %bb.967:
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	subps	xmm1, xmm3
+	movups	xmmword ptr [r8 + 4*rdi], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB2_968:
+	cmp	rdx, rax
+	je	.LBB2_1069
+	jmp	.LBB2_969
+.LBB2_973:
+	xor	eax, eax
+.LBB2_974:
+	test	r9b, 1
+	je	.LBB2_976
+# %bb.975:
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	movdqu	xmm3, xmmword ptr [rcx + rax + 16]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm2, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI2_0] # xmm4 = [255,255,255,255,255,255,255,255]
+	pand	xmm2, xmm4
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm4
+	packuswb	xmm5, xmm2
+	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm0
+	pand	xmm3, xmm4
+	pmullw	xmm2, xmm1
+	pand	xmm2, xmm4
+	packuswb	xmm2, xmm3
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmmword ptr [r8 + rax + 16], xmm2
+.LBB2_976:
+	cmp	rdi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_977
+.LBB2_981:
+	xor	eax, eax
+.LBB2_982:
+	test	r9b, 1
+	je	.LBB2_984
+# %bb.983:
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	movdqu	xmm3, xmmword ptr [rcx + rax + 16]
+	movdqa	xmm4, xmm0
+	punpckhbw	xmm4, xmm4              # xmm4 = xmm4[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm5, xmm2                      # xmm5 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
+	punpckhbw	xmm2, xmm2              # xmm2 = xmm2[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm2, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI2_0] # xmm4 = [255,255,255,255,255,255,255,255]
+	pand	xmm2, xmm4
+	pmullw	xmm5, xmm1
+	pand	xmm5, xmm4
+	packuswb	xmm5, xmm2
+	punpckhbw	xmm0, xmm0              # xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmovzxbw	xmm2, xmm3                      # xmm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	punpckhbw	xmm3, xmm3              # xmm3 = xmm3[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
+	pmullw	xmm3, xmm0
+	pand	xmm3, xmm4
+	pmullw	xmm2, xmm1
+	pand	xmm2, xmm4
+	packuswb	xmm2, xmm3
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmmword ptr [r8 + rax + 16], xmm2
+.LBB2_984:
+	cmp	rdi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_985
+.LBB2_989:
+	xor	edi, edi
+.LBB2_990:
+	test	r9b, 1
+	je	.LBB2_992
+# %bb.991:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB2_992:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_993
+.LBB2_997:
+	xor	edi, edi
+.LBB2_998:
+	test	r9b, 1
+	je	.LBB2_1000
+# %bb.999:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	psubb	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB2_1000:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_1001
+.LBB2_1005:
+	xor	edi, edi
+.LBB2_1006:
+	test	r9b, 1
+	je	.LBB2_1008
+# %bb.1007:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB2_1008:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_1009
+.LBB2_1013:
+	xor	edi, edi
+.LBB2_1014:
+	test	r9b, 1
+	je	.LBB2_1016
+# %bb.1015:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	psubb	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB2_1016:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_1017
+.LBB2_1021:
+	xor	edi, edi
+.LBB2_1022:
+	test	r9b, 1
+	je	.LBB2_1024
+# %bb.1023:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB2_1024:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_1025
+.LBB2_1029:
+	xor	edi, edi
+.LBB2_1030:
+	test	r9b, 1
+	je	.LBB2_1032
+# %bb.1031:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB2_1032:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_1033
+.LBB2_1037:
+	xor	edi, edi
+.LBB2_1038:
+	test	r9b, 1
+	je	.LBB2_1040
+# %bb.1039:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB2_1040:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_1041
+.LBB2_1045:
+	xor	edi, edi
+.LBB2_1046:
+	test	r9b, 1
+	je	.LBB2_1048
+# %bb.1047:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	psubd	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB2_1048:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_1049
+.LBB2_1053:
+	xor	edi, edi
+.LBB2_1054:
+	test	r9b, 1
+	je	.LBB2_1056
+# %bb.1055:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB2_1056:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_1057
+.LBB2_1061:
+	xor	edi, edi
+.LBB2_1062:
+	test	r9b, 1
+	je	.LBB2_1064
+# %bb.1063:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	psubd	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB2_1064:
+	cmp	rsi, r10
+	je	.LBB2_1069
+	jmp	.LBB2_1065
+.Lfunc_end2:
+	.size	arithmetic_scalar_arr_sse4, .Lfunc_end2-arithmetic_scalar_arr_sse4
+                                        # -- End function
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4                               # -- Begin function arithmetic_unary_same_types_sse4
+.LCPI3_0:
+	.quad	0x8000000000000000              # double -0
+	.quad	0x8000000000000000              # double -0
+.LCPI3_1:
+	.quad	0x3ff0000000000000              # double 1
+	.quad	0x3ff0000000000000              # double 1
+.LCPI3_3:
+	.long	1                               # 0x1
+	.long	1                               # 0x1
+	.long	1                               # 0x1
+	.long	1                               # 0x1
+.LCPI3_4:
+	.quad	1                               # 0x1
+	.quad	1                               # 0x1
+.LCPI3_5:
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+.LCPI3_6:
+	.zero	16,1
+.LCPI3_7:
+	.long	0x80000000                      # float -0
+	.long	0x80000000                      # float -0
+	.long	0x80000000                      # float -0
+	.long	0x80000000                      # float -0
+.LCPI3_8:
+	.quad	9223372036854775807             # 0x7fffffffffffffff
+	.quad	9223372036854775807             # 0x7fffffffffffffff
+.LCPI3_9:
+	.long	2147483647                      # 0x7fffffff
+	.long	2147483647                      # 0x7fffffff
+	.long	2147483647                      # 0x7fffffff
+	.long	2147483647                      # 0x7fffffff
+.LCPI3_10:
+	.byte	255                             # 0xff
+	.byte	0                               # 0x0
+	.byte	0                               # 0x0
+	.byte	0                               # 0x0
+	.byte	255                             # 0xff
+	.byte	0                               # 0x0
+	.byte	0                               # 0x0
+	.byte	0                               # 0x0
+	.byte	255                             # 0xff
+	.byte	0                               # 0x0
+	.byte	0                               # 0x0
+	.byte	0                               # 0x0
+	.byte	255                             # 0xff
+	.byte	0                               # 0x0
+	.byte	0                               # 0x0
+	.byte	0                               # 0x0
+	.section	.rodata.cst8,"aM",@progbits,8
+	.p2align	3
+.LCPI3_2:
+	.quad	0x3ff0000000000000              # double 1
+	.text
+	.globl	arithmetic_unary_same_types_sse4
+	.p2align	4, 0x90
+	.type	arithmetic_unary_same_types_sse4,@function
+arithmetic_unary_same_types_sse4:       # @arithmetic_unary_same_types_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	cmp	sil, 19
+	jle	.LBB3_12
+# %bb.1:
+	cmp	sil, 20
+	je	.LBB3_22
+# %bb.2:
+	cmp	sil, 25
+	je	.LBB3_30
+# %bb.3:
+	cmp	sil, 26
+	jne	.LBB3_923
+# %bb.4:
+	cmp	edi, 6
+	jg	.LBB3_46
+# %bb.5:
+	cmp	edi, 3
+	jle	.LBB3_81
+# %bb.6:
+	cmp	edi, 4
+	je	.LBB3_131
+# %bb.7:
+	cmp	edi, 5
+	je	.LBB3_134
+# %bb.8:
+	cmp	edi, 6
+	jne	.LBB3_923
+# %bb.9:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.10:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB3_221
+# %bb.11:
+	xor	edx, edx
+	jmp	.LBB3_373
+.LBB3_12:
+	cmp	sil, 4
+	je	.LBB3_38
+# %bb.13:
+	cmp	sil, 5
+	jne	.LBB3_923
+# %bb.14:
+	cmp	edi, 6
+	jg	.LBB3_53
+# %bb.15:
+	cmp	edi, 3
+	jle	.LBB3_86
+# %bb.16:
+	cmp	edi, 4
+	je	.LBB3_137
+# %bb.17:
+	cmp	edi, 5
+	je	.LBB3_140
+# %bb.18:
+	cmp	edi, 6
+	jne	.LBB3_923
+# %bb.19:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.20:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_21
+# %bb.223:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_374
+# %bb.224:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_374
+.LBB3_21:
+	xor	esi, esi
+.LBB3_614:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_616
+.LBB3_615:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_615
+.LBB3_616:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_617:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_617
+	jmp	.LBB3_923
+.LBB3_22:
+	cmp	edi, 6
+	jg	.LBB3_60
+# %bb.23:
+	cmp	edi, 3
+	jle	.LBB3_91
+# %bb.24:
+	cmp	edi, 4
+	je	.LBB3_143
+# %bb.25:
+	cmp	edi, 5
+	je	.LBB3_146
+# %bb.26:
+	cmp	edi, 6
+	jne	.LBB3_923
+# %bb.27:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.28:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_29
+# %bb.226:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_377
+# %bb.227:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_377
+.LBB3_29:
+	xor	esi, esi
+.LBB3_622:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_624
+.LBB3_623:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	dword ptr [rdx + 4*rsi], 0
+	setne	al
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_623
+.LBB3_624:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_625:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	dword ptr [rdx + 4*rsi], 0
+	setne	al
+	mov	dword ptr [rcx + 4*rsi], eax
+	xor	eax, eax
+	cmp	dword ptr [rdx + 4*rsi + 4], 0
+	setne	al
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	xor	eax, eax
+	cmp	dword ptr [rdx + 4*rsi + 8], 0
+	setne	al
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	xor	eax, eax
+	cmp	dword ptr [rdx + 4*rsi + 12], 0
+	setne	al
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_625
+	jmp	.LBB3_923
+.LBB3_30:
+	cmp	edi, 6
+	jg	.LBB3_67
+# %bb.31:
+	cmp	edi, 3
+	jle	.LBB3_96
+# %bb.32:
+	cmp	edi, 4
+	je	.LBB3_149
+# %bb.33:
+	cmp	edi, 5
+	je	.LBB3_152
+# %bb.34:
+	cmp	edi, 6
+	jne	.LBB3_923
+# %bb.35:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.36:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_37
+# %bb.229:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_380
+# %bb.230:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_380
+.LBB3_37:
+	xor	esi, esi
+.LBB3_536:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_538
+.LBB3_537:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_537
+.LBB3_538:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_539:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_539
+	jmp	.LBB3_923
+.LBB3_38:
+	cmp	edi, 6
+	jg	.LBB3_74
+# %bb.39:
+	cmp	edi, 3
+	jle	.LBB3_101
+# %bb.40:
+	cmp	edi, 4
+	je	.LBB3_155
+# %bb.41:
+	cmp	edi, 5
+	je	.LBB3_158
+# %bb.42:
+	cmp	edi, 6
+	jne	.LBB3_923
+# %bb.43:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.44:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_45
+# %bb.232:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_382
+# %bb.233:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_382
+.LBB3_45:
+	xor	esi, esi
+.LBB3_546:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_548
+.LBB3_547:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_547
+.LBB3_548:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_549:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_549
+	jmp	.LBB3_923
+.LBB3_46:
+	cmp	edi, 8
+	jle	.LBB3_106
+# %bb.47:
+	cmp	edi, 9
+	je	.LBB3_161
+# %bb.48:
+	cmp	edi, 11
+	je	.LBB3_164
+# %bb.49:
+	cmp	edi, 12
+	jne	.LBB3_923
+# %bb.50:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.51:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_52
+# %bb.235:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_384
+# %bb.236:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_384
+.LBB3_52:
+	xor	esi, esi
+.LBB3_630:
+	mov	rax, rsi
+	not	rax
+	add	rax, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_633
+# %bb.631:
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
+.LBB3_632:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	xorpd	xmm1, xmm0
+	movlpd	qword ptr [rcx + 8*rsi], xmm1
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_632
+.LBB3_633:
+	cmp	rax, 3
+	jb	.LBB3_923
+# %bb.634:
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
+.LBB3_635:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	xorpd	xmm1, xmm0
+	movlpd	qword ptr [rcx + 8*rsi], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
+	xorpd	xmm1, xmm0
+	movlpd	qword ptr [rcx + 8*rsi + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
+	xorpd	xmm1, xmm0
+	movlpd	qword ptr [rcx + 8*rsi + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
+	xorpd	xmm1, xmm0
+	movlpd	qword ptr [rcx + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_635
+	jmp	.LBB3_923
+.LBB3_53:
+	cmp	edi, 8
+	jle	.LBB3_111
+# %bb.54:
+	cmp	edi, 9
+	je	.LBB3_167
+# %bb.55:
+	cmp	edi, 11
+	je	.LBB3_170
+# %bb.56:
+	cmp	edi, 12
+	jne	.LBB3_923
+# %bb.57:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.58:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_59
+# %bb.238:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_387
+# %bb.239:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_387
+.LBB3_59:
+	xor	esi, esi
+.LBB3_640:
+	mov	rax, rsi
+	not	rax
+	add	rax, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_643
+# %bb.641:
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
+.LBB3_642:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	xorpd	xmm1, xmm0
+	movlpd	qword ptr [rcx + 8*rsi], xmm1
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_642
+.LBB3_643:
+	cmp	rax, 3
+	jb	.LBB3_923
+# %bb.644:
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
+.LBB3_645:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	xorpd	xmm1, xmm0
+	movlpd	qword ptr [rcx + 8*rsi], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
+	xorpd	xmm1, xmm0
+	movlpd	qword ptr [rcx + 8*rsi + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
+	xorpd	xmm1, xmm0
+	movlpd	qword ptr [rcx + 8*rsi + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
+	xorpd	xmm1, xmm0
+	movlpd	qword ptr [rcx + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_645
+	jmp	.LBB3_923
+.LBB3_60:
+	cmp	edi, 8
+	jle	.LBB3_116
+# %bb.61:
+	cmp	edi, 9
+	je	.LBB3_173
+# %bb.62:
+	cmp	edi, 11
+	je	.LBB3_176
+# %bb.63:
+	cmp	edi, 12
+	jne	.LBB3_923
+# %bb.64:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.65:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_66
+# %bb.241:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_390
+# %bb.242:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_390
+.LBB3_66:
+	xor	esi, esi
+.LBB3_650:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_652
+# %bb.651:
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	movapd	xmm1, xmmword ptr [rip + .LCPI3_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	andpd	xmm1, xmm0
+	movsd	xmm2, qword ptr [rip + .LCPI3_2] # xmm2 = mem[0],zero
+	orpd	xmm2, xmm1
+	xorpd	xmm1, xmm1
+	cmpeqsd	xmm1, xmm0
+	andnpd	xmm1, xmm2
+	movlpd	qword ptr [rcx + 8*rsi], xmm1
+	or	rsi, 1
+.LBB3_652:
+	add	rax, r9
+	je	.LBB3_923
+# %bb.653:
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
+	movsd	xmm1, qword ptr [rip + .LCPI3_2] # xmm1 = mem[0],zero
+	xorpd	xmm2, xmm2
+.LBB3_654:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm3, qword ptr [rdx + 8*rsi]   # xmm3 = mem[0],zero
+	movapd	xmm4, xmm3
+	andpd	xmm4, xmm0
+	orpd	xmm4, xmm1
+	cmpeqsd	xmm3, xmm2
+	andnpd	xmm3, xmm4
+	movlpd	qword ptr [rcx + 8*rsi], xmm3
+	movsd	xmm3, qword ptr [rdx + 8*rsi + 8] # xmm3 = mem[0],zero
+	movapd	xmm4, xmm3
+	andpd	xmm4, xmm0
+	orpd	xmm4, xmm1
+	cmpeqsd	xmm3, xmm2
+	andnpd	xmm3, xmm4
+	movlpd	qword ptr [rcx + 8*rsi + 8], xmm3
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_654
+	jmp	.LBB3_923
+.LBB3_67:
+	cmp	edi, 8
+	jle	.LBB3_121
+# %bb.68:
+	cmp	edi, 9
+	je	.LBB3_179
+# %bb.69:
+	cmp	edi, 11
+	je	.LBB3_182
+# %bb.70:
+	cmp	edi, 12
+	jne	.LBB3_923
+# %bb.71:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.72:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_73
+# %bb.244:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_393
+# %bb.245:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_393
+.LBB3_73:
+	xor	esi, esi
+.LBB3_659:
+	movabs	r10, 9223372036854775807
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB3_661
+.LBB3_660:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	and	rdi, r10
+	mov	qword ptr [rcx + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB3_660
+.LBB3_661:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_662:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_662
+	jmp	.LBB3_923
+.LBB3_74:
+	cmp	edi, 8
+	jle	.LBB3_126
+# %bb.75:
+	cmp	edi, 9
+	je	.LBB3_185
+# %bb.76:
+	cmp	edi, 11
+	je	.LBB3_188
+# %bb.77:
+	cmp	edi, 12
+	jne	.LBB3_923
+# %bb.78:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.79:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_80
+# %bb.247:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_396
+# %bb.248:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_396
+.LBB3_80:
+	xor	esi, esi
+.LBB3_667:
+	movabs	r10, 9223372036854775807
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB3_669
+.LBB3_668:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	and	rdi, r10
+	mov	qword ptr [rcx + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB3_668
+.LBB3_669:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_670:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	and	rax, r10
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_670
+	jmp	.LBB3_923
+.LBB3_81:
+	cmp	edi, 2
+	je	.LBB3_191
+# %bb.82:
+	cmp	edi, 3
+	jne	.LBB3_923
+# %bb.83:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.84:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_85
+# %bb.250:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_399
+# %bb.251:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_399
+.LBB3_85:
+	xor	esi, esi
+.LBB3_675:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_677
+.LBB3_676:                              # =>This Inner Loop Header: Depth=1
+	movzx	r10d, byte ptr [rdx + rsi]
+	xor	eax, eax
+	sub	al, r10b
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_676
+.LBB3_677:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_678:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	xor	edi, edi
+	sub	dil, al
+	mov	byte ptr [rcx + rsi + 3], dil
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_678
+	jmp	.LBB3_923
+.LBB3_86:
+	cmp	edi, 2
+	je	.LBB3_194
+# %bb.87:
+	cmp	edi, 3
+	jne	.LBB3_923
+# %bb.88:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.89:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_90
+# %bb.253:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_402
+# %bb.254:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_402
+.LBB3_90:
+	xor	esi, esi
+.LBB3_683:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_685
+.LBB3_684:                              # =>This Inner Loop Header: Depth=1
+	movzx	r10d, byte ptr [rdx + rsi]
+	xor	eax, eax
+	sub	al, r10b
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_684
+.LBB3_685:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_686:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	xor	edi, edi
+	sub	dil, al
+	mov	byte ptr [rcx + rsi + 3], dil
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_686
+	jmp	.LBB3_923
+.LBB3_91:
+	cmp	edi, 2
+	je	.LBB3_197
+# %bb.92:
+	cmp	edi, 3
+	jne	.LBB3_923
+# %bb.93:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.94:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_95
+# %bb.256:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_405
+# %bb.257:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_405
+.LBB3_95:
+	xor	esi, esi
+.LBB3_691:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_693
+# %bb.692:
+	mov	dil, byte ptr [rdx + rsi]
+	test	dil, dil
+	setne	r8b
+	neg	r8b
+	test	dil, dil
+	movzx	r8d, r8b
+	mov	edi, 1
+	cmovle	edi, r8d
+	mov	byte ptr [rcx + rsi], dil
+	or	rsi, 1
+.LBB3_693:
+	add	rax, r9
+	je	.LBB3_923
+# %bb.694:
+	mov	edi, 1
+.LBB3_695:                              # =>This Inner Loop Header: Depth=1
+	movzx	r8d, byte ptr [rdx + rsi]
+	test	r8b, r8b
+	setne	al
+	neg	al
+	test	r8b, r8b
+	movzx	eax, al
+	cmovg	eax, edi
+	mov	byte ptr [rcx + rsi], al
+	movzx	r8d, byte ptr [rdx + rsi + 1]
+	test	r8b, r8b
+	setne	al
+	neg	al
+	test	r8b, r8b
+	movzx	eax, al
+	cmovg	eax, edi
+	mov	byte ptr [rcx + rsi + 1], al
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_695
+	jmp	.LBB3_923
+.LBB3_96:
+	cmp	edi, 2
+	je	.LBB3_200
+# %bb.97:
+	cmp	edi, 3
+	jne	.LBB3_923
+# %bb.98:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.99:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_100
+# %bb.259:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_408
+# %bb.260:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_408
+.LBB3_100:
+	xor	esi, esi
+.LBB3_700:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_702
+# %bb.701:
+	movsx	edi, byte ptr [rdx + rsi]
+	mov	r8d, edi
+	sar	r8d, 7
+	add	edi, r8d
+	xor	edi, r8d
+	mov	byte ptr [rcx + rsi], dil
+	or	rsi, 1
+.LBB3_702:
+	add	rax, r9
+	je	.LBB3_923
+.LBB3_703:                              # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	edi, eax
+	sar	edi, 7
+	add	eax, edi
+	xor	eax, edi
+	mov	byte ptr [rcx + rsi], al
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	mov	edi, eax
+	sar	edi, 7
+	add	eax, edi
+	xor	eax, edi
+	mov	byte ptr [rcx + rsi + 1], al
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_703
+	jmp	.LBB3_923
+.LBB3_101:
+	cmp	edi, 2
+	je	.LBB3_203
+# %bb.102:
+	cmp	edi, 3
+	jne	.LBB3_923
+# %bb.103:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.104:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_105
+# %bb.262:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_411
+# %bb.263:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_411
+.LBB3_105:
+	xor	esi, esi
+.LBB3_708:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_710
+# %bb.709:
+	movsx	edi, byte ptr [rdx + rsi]
+	mov	r8d, edi
+	sar	r8d, 7
+	add	edi, r8d
+	xor	edi, r8d
+	mov	byte ptr [rcx + rsi], dil
+	or	rsi, 1
+.LBB3_710:
+	add	rax, r9
+	je	.LBB3_923
+.LBB3_711:                              # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	edi, eax
+	sar	edi, 7
+	add	eax, edi
+	xor	eax, edi
+	mov	byte ptr [rcx + rsi], al
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	mov	edi, eax
+	sar	edi, 7
+	add	eax, edi
+	xor	eax, edi
+	mov	byte ptr [rcx + rsi + 1], al
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_711
+	jmp	.LBB3_923
+.LBB3_106:
+	cmp	edi, 7
+	je	.LBB3_206
+# %bb.107:
+	cmp	edi, 8
+	jne	.LBB3_923
+# %bb.108:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.109:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB3_265
+# %bb.110:
+	xor	edx, edx
+	jmp	.LBB3_420
+.LBB3_111:
+	cmp	edi, 7
+	je	.LBB3_209
+# %bb.112:
+	cmp	edi, 8
+	jne	.LBB3_923
+# %bb.113:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.114:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_115
+# %bb.267:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_421
+# %bb.268:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_421
+.LBB3_115:
+	xor	esi, esi
+.LBB3_716:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_718
+.LBB3_717:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_717
+.LBB3_718:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_719:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_719
+	jmp	.LBB3_923
+.LBB3_116:
+	cmp	edi, 7
+	je	.LBB3_212
+# %bb.117:
+	cmp	edi, 8
+	jne	.LBB3_923
+# %bb.118:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.119:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_120
+# %bb.270:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_424
+# %bb.271:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_424
+.LBB3_120:
+	xor	esi, esi
+.LBB3_724:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_726
+.LBB3_725:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	qword ptr [rdx + 8*rsi], 0
+	setne	al
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_725
+.LBB3_726:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_727:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	qword ptr [rdx + 8*rsi], 0
+	setne	al
+	mov	qword ptr [rcx + 8*rsi], rax
+	xor	eax, eax
+	cmp	qword ptr [rdx + 8*rsi + 8], 0
+	setne	al
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	xor	eax, eax
+	cmp	qword ptr [rdx + 8*rsi + 16], 0
+	setne	al
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	xor	eax, eax
+	cmp	qword ptr [rdx + 8*rsi + 24], 0
+	setne	al
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_727
+	jmp	.LBB3_923
+.LBB3_121:
+	cmp	edi, 7
+	je	.LBB3_215
+# %bb.122:
+	cmp	edi, 8
+	jne	.LBB3_923
+# %bb.123:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.124:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_125
+# %bb.273:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_427
+# %bb.274:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_427
+.LBB3_125:
+	xor	esi, esi
+.LBB3_556:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_558
+.LBB3_557:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_557
+.LBB3_558:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_559:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_559
+	jmp	.LBB3_923
+.LBB3_126:
+	cmp	edi, 7
+	je	.LBB3_218
+# %bb.127:
+	cmp	edi, 8
+	jne	.LBB3_923
+# %bb.128:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.129:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_130
+# %bb.276:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_429
+# %bb.277:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_429
+.LBB3_130:
+	xor	esi, esi
+.LBB3_566:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_568
+.LBB3_567:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_567
+.LBB3_568:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_569:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_569
+	jmp	.LBB3_923
+.LBB3_131:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.132:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB3_279
+# %bb.133:
+	xor	edx, edx
+	jmp	.LBB3_437
+.LBB3_134:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.135:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_136
+# %bb.281:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_438
+# %bb.282:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_438
+.LBB3_136:
+	xor	esi, esi
+.LBB3_732:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_734
+.LBB3_733:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_733
+.LBB3_734:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_735:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_735
+	jmp	.LBB3_923
+.LBB3_137:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.138:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_139
+# %bb.284:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_441
+# %bb.285:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_441
+.LBB3_139:
+	xor	esi, esi
+.LBB3_740:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_742
+.LBB3_741:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_741
+.LBB3_742:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_743:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_743
+	jmp	.LBB3_923
+.LBB3_140:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.141:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_142
+# %bb.287:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_444
+# %bb.288:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_444
+.LBB3_142:
+	xor	esi, esi
+.LBB3_748:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_750
+.LBB3_749:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_749
+.LBB3_750:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_751:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	xor	eax, eax
+	sub	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_751
+	jmp	.LBB3_923
+.LBB3_143:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.144:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_145
+# %bb.290:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_447
+# %bb.291:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_447
+.LBB3_145:
+	xor	esi, esi
+.LBB3_756:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_758
+.LBB3_757:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	word ptr [rdx + 2*rsi], 0
+	setne	al
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_757
+.LBB3_758:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_759:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	word ptr [rdx + 2*rsi], 0
+	setne	al
+	mov	word ptr [rcx + 2*rsi], ax
+	xor	eax, eax
+	cmp	word ptr [rdx + 2*rsi + 2], 0
+	setne	al
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	xor	eax, eax
+	cmp	word ptr [rdx + 2*rsi + 4], 0
+	setne	al
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	xor	eax, eax
+	cmp	word ptr [rdx + 2*rsi + 6], 0
+	setne	al
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_759
+	jmp	.LBB3_923
+.LBB3_146:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.147:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_148
+# %bb.293:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_450
+# %bb.294:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_450
+.LBB3_148:
+	xor	esi, esi
+.LBB3_764:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_766
+# %bb.765:
+	movzx	r8d, word ptr [rdx + 2*rsi]
+	xor	r10d, r10d
+	test	r8w, r8w
+	setne	r10b
+	neg	r10d
+	test	r8w, r8w
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	word ptr [rcx + 2*rsi], di
+	or	rsi, 1
+.LBB3_766:
+	add	rax, r9
+	je	.LBB3_923
+# %bb.767:
+	mov	r8d, 1
+.LBB3_768:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	eax
+	test	di, di
+	cmovg	eax, r8d
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	xor	edi, edi
+	test	ax, ax
+	setne	dil
+	neg	edi
+	test	ax, ax
+	cmovg	edi, r8d
+	mov	word ptr [rcx + 2*rsi + 2], di
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_768
+	jmp	.LBB3_923
+.LBB3_149:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.150:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_151
+# %bb.296:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_453
+# %bb.297:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_453
+.LBB3_151:
+	xor	esi, esi
+.LBB3_576:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_578
+.LBB3_577:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_577
+.LBB3_578:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_579:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_579
+	jmp	.LBB3_923
+.LBB3_152:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.153:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_154
+# %bb.299:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_455
+# %bb.300:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_455
+.LBB3_154:
+	xor	esi, esi
+.LBB3_773:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_775
+# %bb.774:
+	movsx	edi, word ptr [rdx + 2*rsi]
+	mov	r8d, edi
+	sar	r8d, 15
+	add	edi, r8d
+	xor	edi, r8d
+	mov	word ptr [rcx + 2*rsi], di
+	or	rsi, 1
+.LBB3_775:
+	add	rax, r9
+	je	.LBB3_923
+.LBB3_776:                              # =>This Inner Loop Header: Depth=1
+	movsx	eax, word ptr [rdx + 2*rsi]
+	mov	edi, eax
+	sar	edi, 15
+	add	eax, edi
+	xor	eax, edi
+	mov	word ptr [rcx + 2*rsi], ax
+	movsx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	edi, eax
+	sar	edi, 15
+	add	eax, edi
+	xor	eax, edi
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_776
+	jmp	.LBB3_923
+.LBB3_155:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.156:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB3_157
+# %bb.302:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_458
+# %bb.303:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_458
+.LBB3_157:
+	xor	esi, esi
+.LBB3_586:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_588
+.LBB3_587:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_587
+.LBB3_588:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_589:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_589
+	jmp	.LBB3_923
+.LBB3_158:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.159:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_160
+# %bb.305:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_460
+# %bb.306:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_460
+.LBB3_160:
+	xor	esi, esi
+.LBB3_781:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_783
+# %bb.782:
+	movsx	edi, word ptr [rdx + 2*rsi]
+	mov	r8d, edi
+	sar	r8d, 15
+	add	edi, r8d
+	xor	edi, r8d
+	mov	word ptr [rcx + 2*rsi], di
+	or	rsi, 1
+.LBB3_783:
+	add	rax, r9
+	je	.LBB3_923
+.LBB3_784:                              # =>This Inner Loop Header: Depth=1
+	movsx	eax, word ptr [rdx + 2*rsi]
+	mov	edi, eax
+	sar	edi, 15
+	add	eax, edi
+	xor	eax, edi
+	mov	word ptr [rcx + 2*rsi], ax
+	movsx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	edi, eax
+	sar	edi, 15
+	add	eax, edi
+	xor	eax, edi
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_784
+	jmp	.LBB3_923
+.LBB3_161:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.162:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_163
+# %bb.308:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_463
+# %bb.309:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_463
+.LBB3_163:
+	xor	esi, esi
+.LBB3_789:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_791
+.LBB3_790:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_790
+.LBB3_791:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_792:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_792
+	jmp	.LBB3_923
+.LBB3_164:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.165:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_166
+# %bb.311:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_466
+# %bb.312:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_466
+.LBB3_166:
+	xor	esi, esi
+.LBB3_797:
+	mov	rax, rsi
+	not	rax
+	add	rax, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_800
+# %bb.798:
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_799:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	xorpd	xmm1, xmm0
+	movss	dword ptr [rcx + 4*rsi], xmm1
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_799
+.LBB3_800:
+	cmp	rax, 3
+	jb	.LBB3_923
+# %bb.801:
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_802:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	xorpd	xmm1, xmm0
+	movss	dword ptr [rcx + 4*rsi], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	xorpd	xmm1, xmm0
+	movss	dword ptr [rcx + 4*rsi + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
+	xorpd	xmm1, xmm0
+	movss	dword ptr [rcx + 4*rsi + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
+	xorpd	xmm1, xmm0
+	movss	dword ptr [rcx + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_802
+	jmp	.LBB3_923
+.LBB3_167:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.168:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_169
+# %bb.314:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_469
+# %bb.315:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_469
+.LBB3_169:
+	xor	esi, esi
+.LBB3_807:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_809
+.LBB3_808:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_808
+.LBB3_809:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_810:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	xor	eax, eax
+	sub	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_810
+	jmp	.LBB3_923
+.LBB3_170:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.171:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_172
+# %bb.317:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_472
+# %bb.318:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_472
+.LBB3_172:
+	xor	esi, esi
+.LBB3_815:
+	mov	rax, rsi
+	not	rax
+	add	rax, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_818
+# %bb.816:
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_817:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	xorpd	xmm1, xmm0
+	movss	dword ptr [rcx + 4*rsi], xmm1
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_817
+.LBB3_818:
+	cmp	rax, 3
+	jb	.LBB3_923
+# %bb.819:
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_820:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	xorpd	xmm1, xmm0
+	movss	dword ptr [rcx + 4*rsi], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	xorpd	xmm1, xmm0
+	movss	dword ptr [rcx + 4*rsi + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
+	xorpd	xmm1, xmm0
+	movss	dword ptr [rcx + 4*rsi + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
+	xorpd	xmm1, xmm0
+	movss	dword ptr [rcx + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_820
+	jmp	.LBB3_923
+.LBB3_173:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.174:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_175
+# %bb.320:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_475
+# %bb.321:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_475
+.LBB3_175:
+	xor	esi, esi
+.LBB3_825:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_827
+# %bb.826:
+	mov	r8, qword ptr [rdx + 8*rsi]
+	xor	r10d, r10d
+	test	r8, r8
+	setne	r10b
+	neg	r10
+	test	r8, r8
+	mov	edi, 1
+	cmovle	rdi, r10
+	mov	qword ptr [rcx + 8*rsi], rdi
+	or	rsi, 1
+.LBB3_827:
+	add	rax, r9
+	je	.LBB3_923
+# %bb.828:
+	mov	r8d, 1
+.LBB3_829:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	xor	eax, eax
+	test	rdi, rdi
+	setne	al
+	neg	rax
+	test	rdi, rdi
+	cmovg	rax, r8
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	xor	edi, edi
+	test	rax, rax
+	setne	dil
+	neg	rdi
+	test	rax, rax
+	cmovg	rdi, r8
+	mov	qword ptr [rcx + 8*rsi + 8], rdi
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_829
+	jmp	.LBB3_923
+.LBB3_176:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.177:
+	mov	eax, r8d
+	cmp	r8d, 8
+	jb	.LBB3_178
+# %bb.323:
+	lea	rsi, [rdx + 4*rax]
+	cmp	rsi, rcx
+	jbe	.LBB3_478
+# %bb.324:
+	lea	rsi, [rcx + 4*rax]
+	cmp	rsi, rdx
+	jbe	.LBB3_478
+.LBB3_178:
+	xor	esi, esi
+.LBB3_481:
+	mov	r8, rsi
+	not	r8
+	test	al, 1
+	je	.LBB3_483
+# %bb.482:
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	movmskps	edi, xmm0
+	and	edi, 1
+	neg	edi
+	or	edi, 1
+	xorps	xmm1, xmm1
+	cvtsi2ss	xmm1, edi
+	xorps	xmm2, xmm2
+	cmpeqss	xmm2, xmm0
+	andnps	xmm2, xmm1
+	movss	dword ptr [rcx + 4*rsi], xmm2
+	or	rsi, 1
+.LBB3_483:
+	add	r8, rax
+	je	.LBB3_923
+# %bb.484:
+	xorps	xmm0, xmm0
+.LBB3_485:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	movmskps	edi, xmm1
+	and	edi, 1
+	neg	edi
+	or	edi, 1
+	xorps	xmm2, xmm2
+	cvtsi2ss	xmm2, edi
+	cmpeqss	xmm1, xmm0
+	andnps	xmm1, xmm2
+	movss	dword ptr [rcx + 4*rsi], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	movmskps	edi, xmm1
+	and	edi, 1
+	neg	edi
+	or	edi, 1
+	xorps	xmm2, xmm2
+	cvtsi2ss	xmm2, edi
+	cmpeqss	xmm1, xmm0
+	andnps	xmm1, xmm2
+	movss	dword ptr [rcx + 4*rsi + 4], xmm1
+	add	rsi, 2
+	cmp	rax, rsi
+	jne	.LBB3_485
+	jmp	.LBB3_923
+.LBB3_179:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.180:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_181
+# %bb.326:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_486
+# %bb.327:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_486
+.LBB3_181:
+	xor	esi, esi
+.LBB3_834:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_836
+# %bb.835:
+	mov	r8, qword ptr [rdx + 8*rsi]
+	mov	rdi, r8
+	neg	rdi
+	cmovl	rdi, r8
+	mov	qword ptr [rcx + 8*rsi], rdi
+	or	rsi, 1
+.LBB3_836:
+	add	rax, r9
+	je	.LBB3_923
+.LBB3_837:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	rdi, rax
+	neg	rdi
+	cmovl	rdi, rax
+	mov	qword ptr [rcx + 8*rsi], rdi
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	rdi, rax
+	neg	rdi
+	cmovl	rdi, rax
+	mov	qword ptr [rcx + 8*rsi + 8], rdi
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_837
+	jmp	.LBB3_923
+.LBB3_182:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.183:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_184
+# %bb.329:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_489
+# %bb.330:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_489
+.LBB3_184:
+	xor	esi, esi
+.LBB3_842:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_845
+# %bb.843:
+	mov	r10d, 2147483647
+.LBB3_844:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	and	eax, r10d
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_844
+.LBB3_845:
+	cmp	r8, 3
+	jb	.LBB3_923
+# %bb.846:
+	mov	eax, 2147483647
+.LBB3_847:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi], edi
+	mov	edi, dword ptr [rdx + 4*rsi + 4]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 4], edi
+	mov	edi, dword ptr [rdx + 4*rsi + 8]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 8], edi
+	mov	edi, dword ptr [rdx + 4*rsi + 12]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 12], edi
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_847
+	jmp	.LBB3_923
+.LBB3_185:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.186:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB3_187
+# %bb.332:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_492
+# %bb.333:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_492
+.LBB3_187:
+	xor	esi, esi
+.LBB3_852:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_854
+# %bb.853:
+	mov	r8, qword ptr [rdx + 8*rsi]
+	mov	rdi, r8
+	neg	rdi
+	cmovl	rdi, r8
+	mov	qword ptr [rcx + 8*rsi], rdi
+	or	rsi, 1
+.LBB3_854:
+	add	rax, r9
+	je	.LBB3_923
+.LBB3_855:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	rdi, rax
+	neg	rdi
+	cmovl	rdi, rax
+	mov	qword ptr [rcx + 8*rsi], rdi
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	rdi, rax
+	neg	rdi
+	cmovl	rdi, rax
+	mov	qword ptr [rcx + 8*rsi + 8], rdi
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_855
+	jmp	.LBB3_923
+.LBB3_188:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.189:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_190
+# %bb.335:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_495
+# %bb.336:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_495
+.LBB3_190:
+	xor	esi, esi
+.LBB3_860:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_863
+# %bb.861:
+	mov	r10d, 2147483647
+.LBB3_862:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	and	eax, r10d
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_862
+.LBB3_863:
+	cmp	r8, 3
+	jb	.LBB3_923
+# %bb.864:
+	mov	eax, 2147483647
+.LBB3_865:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi], edi
+	mov	edi, dword ptr [rdx + 4*rsi + 4]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 4], edi
+	mov	edi, dword ptr [rdx + 4*rsi + 8]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 8], edi
+	mov	edi, dword ptr [rdx + 4*rsi + 12]
+	and	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 12], edi
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_865
+	jmp	.LBB3_923
+.LBB3_191:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.192:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB3_338
+# %bb.193:
+	xor	edx, edx
+	jmp	.LBB3_504
+.LBB3_194:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.195:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_196
+# %bb.340:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_505
+# %bb.341:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_505
+.LBB3_196:
+	xor	esi, esi
+.LBB3_870:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_872
+.LBB3_871:                              # =>This Inner Loop Header: Depth=1
+	movzx	r10d, byte ptr [rdx + rsi]
+	xor	eax, eax
+	sub	al, r10b
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_871
+.LBB3_872:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_873:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	xor	eax, eax
+	sub	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	xor	edi, edi
+	sub	dil, al
+	mov	byte ptr [rcx + rsi + 3], dil
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_873
+	jmp	.LBB3_923
+.LBB3_197:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.198:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_199
+# %bb.343:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_508
+# %bb.344:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_508
+.LBB3_199:
+	xor	esi, esi
+.LBB3_878:
+	mov	rax, rsi
+	not	rax
+	add	rax, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_880
+.LBB3_879:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rdx + rsi], 0
+	setne	byte ptr [rcx + rsi]
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_879
+.LBB3_880:
+	cmp	rax, 3
+	jb	.LBB3_923
+.LBB3_881:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rdx + rsi], 0
+	setne	byte ptr [rcx + rsi]
+	cmp	byte ptr [rdx + rsi + 1], 0
+	setne	byte ptr [rcx + rsi + 1]
+	cmp	byte ptr [rdx + rsi + 2], 0
+	setne	byte ptr [rcx + rsi + 2]
+	cmp	byte ptr [rdx + rsi + 3], 0
+	setne	byte ptr [rcx + rsi + 3]
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_881
+	jmp	.LBB3_923
+.LBB3_200:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.201:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_202
+# %bb.346:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_511
+# %bb.347:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_511
+.LBB3_202:
+	xor	esi, esi
+.LBB3_596:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_598
+.LBB3_597:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_597
+.LBB3_598:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_599:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_599
+	jmp	.LBB3_923
+.LBB3_203:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.204:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB3_205
+# %bb.349:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB3_513
+# %bb.350:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB3_513
+.LBB3_205:
+	xor	esi, esi
+.LBB3_606:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_608
+.LBB3_607:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_607
+.LBB3_608:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_609:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_609
+	jmp	.LBB3_923
+.LBB3_206:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.207:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_208
+# %bb.352:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_515
+# %bb.353:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_515
+.LBB3_208:
+	xor	esi, esi
+.LBB3_886:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_888
+.LBB3_887:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_887
+.LBB3_888:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_889:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_889
+	jmp	.LBB3_923
+.LBB3_209:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.210:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_211
+# %bb.355:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_518
+# %bb.356:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_518
+.LBB3_211:
+	xor	esi, esi
+.LBB3_894:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB3_896
+.LBB3_895:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB3_895
+.LBB3_896:
+	cmp	r8, 3
+	jb	.LBB3_923
+.LBB3_897:                              # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	xor	eax, eax
+	sub	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB3_897
+	jmp	.LBB3_923
+.LBB3_212:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.213:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_214
+# %bb.358:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_521
+# %bb.359:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_521
+.LBB3_214:
+	xor	esi, esi
+.LBB3_902:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_904
+# %bb.903:
+	mov	r8d, dword ptr [rdx + 4*rsi]
+	xor	r10d, r10d
+	test	r8d, r8d
+	setne	r10b
+	neg	r10d
+	test	r8d, r8d
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	dword ptr [rcx + 4*rsi], edi
+	or	rsi, 1
+.LBB3_904:
+	add	rax, r9
+	je	.LBB3_923
+# %bb.905:
+	mov	r8d, 1
+.LBB3_906:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	xor	eax, eax
+	test	edi, edi
+	setne	al
+	neg	eax
+	test	edi, edi
+	cmovg	eax, r8d
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	xor	edi, edi
+	test	eax, eax
+	setne	dil
+	neg	edi
+	test	eax, eax
+	cmovg	edi, r8d
+	mov	dword ptr [rcx + 4*rsi + 4], edi
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_906
+	jmp	.LBB3_923
+.LBB3_215:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.216:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_217
+# %bb.361:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_524
+# %bb.362:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_524
+.LBB3_217:
+	xor	esi, esi
+.LBB3_911:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_913
+# %bb.912:
+	mov	r8d, dword ptr [rdx + 4*rsi]
+	mov	edi, r8d
+	neg	edi
+	cmovl	edi, r8d
+	mov	dword ptr [rcx + 4*rsi], edi
+	or	rsi, 1
+.LBB3_913:
+	add	rax, r9
+	je	.LBB3_923
+.LBB3_914:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	edi, eax
+	neg	edi
+	cmovl	edi, eax
+	mov	dword ptr [rcx + 4*rsi], edi
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	edi, eax
+	neg	edi
+	cmovl	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 4], edi
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_914
+	jmp	.LBB3_923
+.LBB3_218:
+	test	r8d, r8d
+	jle	.LBB3_923
+# %bb.219:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB3_220
+# %bb.364:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB3_527
+# %bb.365:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB3_527
+.LBB3_220:
+	xor	esi, esi
+.LBB3_919:
+	mov	rax, rsi
+	not	rax
+	test	r9b, 1
+	je	.LBB3_921
+# %bb.920:
+	mov	r8d, dword ptr [rdx + 4*rsi]
+	mov	edi, r8d
+	neg	edi
+	cmovl	edi, r8d
+	mov	dword ptr [rcx + 4*rsi], edi
+	or	rsi, 1
+.LBB3_921:
+	add	rax, r9
+	je	.LBB3_923
+.LBB3_922:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	edi, eax
+	neg	edi
+	cmovl	edi, eax
+	mov	dword ptr [rcx + 4*rsi], edi
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	edi, eax
+	neg	edi
+	cmovl	edi, eax
+	mov	dword ptr [rcx + 4*rsi + 4], edi
+	add	rsi, 2
+	cmp	r9, rsi
+	jne	.LBB3_922
+	jmp	.LBB3_923
+.LBB3_221:
+	mov	edx, r9d
+	and	edx, -8
+	lea	rax, [rdx - 8]
+	mov	rdi, rax
+	shr	rdi, 3
+	add	rdi, 1
+	mov	esi, edi
+	and	esi, 7
+	cmp	rax, 56
+	jae	.LBB3_367
+# %bb.222:
+	xor	eax, eax
+	jmp	.LBB3_369
+.LBB3_265:
+	mov	edx, r9d
+	and	edx, -4
+	lea	rax, [rdx - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	esi, edi
+	and	esi, 7
+	cmp	rax, 28
+	jae	.LBB3_414
+# %bb.266:
+	xor	eax, eax
+	jmp	.LBB3_416
+.LBB3_279:
+	mov	edx, r9d
+	and	edx, -16
+	lea	rax, [rdx - 16]
+	mov	rdi, rax
+	shr	rdi, 4
+	add	rdi, 1
+	mov	esi, edi
+	and	esi, 7
+	cmp	rax, 112
+	jae	.LBB3_431
+# %bb.280:
+	xor	eax, eax
+	jmp	.LBB3_433
+.LBB3_338:
+	mov	edx, r9d
+	and	edx, -32
+	lea	rax, [rdx - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	esi, edi
+	and	esi, 7
+	cmp	rax, 224
+	jae	.LBB3_498
+# %bb.339:
+	xor	eax, eax
+	jmp	.LBB3_500
+.LBB3_374:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_610
+# %bb.375:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_376:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	pxor	xmm2, xmm2
+	psubd	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubd	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm2
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	pxor	xmm2, xmm2
+	psubd	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubd	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB3_376
+	jmp	.LBB3_611
+.LBB3_377:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_618
+# %bb.378:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI3_3] # xmm1 = [1,1,1,1]
+.LBB3_379:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	pcmpeqd	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqd	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm2
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm3
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm3, xmmword ptr [rdx + 4*rdi + 48]
+	pcmpeqd	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqd	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB3_379
+	jmp	.LBB3_619
+.LBB3_380:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	rdi, rax
+	shr	rdi, 3
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 24
+	jae	.LBB3_530
+# %bb.381:
+	xor	eax, eax
+	jmp	.LBB3_532
+.LBB3_382:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	rdi, rax
+	shr	rdi, 3
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 24
+	jae	.LBB3_540
+# %bb.383:
+	xor	eax, eax
+	jmp	.LBB3_542
+.LBB3_384:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_626
+# %bb.385:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
+.LBB3_386:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	xorpd	xmm1, xmm0
+	xorpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	xorpd	xmm1, xmm0
+	xorpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB3_386
+	jmp	.LBB3_627
+.LBB3_387:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_636
+# %bb.388:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_0] # xmm0 = [-0.0E+0,-0.0E+0]
+.LBB3_389:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	xorpd	xmm1, xmm0
+	xorpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	xorpd	xmm1, xmm0
+	xorpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB3_389
+	jmp	.LBB3_637
+.LBB3_390:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_646
+# %bb.391:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	xorpd	xmm0, xmm0
+	movapd	xmm1, xmmword ptr [rip + .LCPI3_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	movapd	xmm2, xmmword ptr [rip + .LCPI3_1] # xmm2 = [1.0E+0,1.0E+0]
+.LBB3_392:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm4, xmmword ptr [rdx + 8*rdi + 16]
+	movapd	xmm5, xmm3
+	andpd	xmm5, xmm1
+	orpd	xmm5, xmm2
+	movapd	xmm6, xmm4
+	andpd	xmm6, xmm1
+	orpd	xmm6, xmm2
+	cmpneqpd	xmm3, xmm0
+	andpd	xmm3, xmm5
+	cmpneqpd	xmm4, xmm0
+	andpd	xmm4, xmm6
+	movupd	xmmword ptr [rcx + 8*rdi], xmm3
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm4
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm4, xmmword ptr [rdx + 8*rdi + 48]
+	movapd	xmm5, xmm3
+	andpd	xmm5, xmm1
+	orpd	xmm5, xmm2
+	movapd	xmm6, xmm4
+	andpd	xmm6, xmm1
+	orpd	xmm6, xmm2
+	cmpneqpd	xmm3, xmm0
+	andpd	xmm3, xmm5
+	cmpneqpd	xmm4, xmm0
+	andpd	xmm4, xmm6
+	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm3
+	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm4
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB3_392
+	jmp	.LBB3_647
+.LBB3_393:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_655
+# %bb.394:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_8] # xmm0 = [9223372036854775807,9223372036854775807]
+.LBB3_395:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	andpd	xmm1, xmm0
+	andpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	andpd	xmm1, xmm0
+	andpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB3_395
+	jmp	.LBB3_656
+.LBB3_396:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_663
+# %bb.397:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_8] # xmm0 = [9223372036854775807,9223372036854775807]
+.LBB3_398:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	andpd	xmm1, xmm0
+	andpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	andpd	xmm1, xmm0
+	andpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB3_398
+	jmp	.LBB3_664
+.LBB3_399:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_671
+# %bb.400:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_401:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	pxor	xmm2, xmm2
+	psubb	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubb	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + rdi], xmm2
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	pxor	xmm2, xmm2
+	psubb	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubb	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + rdi + 48], xmm0
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_401
+	jmp	.LBB3_672
+.LBB3_402:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_679
+# %bb.403:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_404:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	pxor	xmm2, xmm2
+	psubb	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubb	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + rdi], xmm2
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	pxor	xmm2, xmm2
+	psubb	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubb	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + rdi + 48], xmm0
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_404
+	jmp	.LBB3_680
+.LBB3_405:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_687
+# %bb.406:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI3_6] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB3_407:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rdx + rdi]
+	movdqu	xmm6, xmmword ptr [rdx + rdi + 16]
+	movdqa	xmm0, xmm4
+	pcmpgtb	xmm0, xmm5
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtb	xmm1, xmm6
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	pblendvb	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqu	xmmword ptr [rcx + rdi], xmm7
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm6, xmmword ptr [rdx + rdi + 48]
+	movdqa	xmm0, xmm4
+	pcmpgtb	xmm0, xmm5
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtb	xmm1, xmm6
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	pblendvb	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqu	xmmword ptr [rcx + rdi + 32], xmm7
+	movdqu	xmmword ptr [rcx + rdi + 48], xmm5
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_407
+	jmp	.LBB3_688
+.LBB3_408:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_696
+# %bb.409:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm8, xmmword ptr [rip + .LCPI3_10] # xmm8 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
+.LBB3_410:                              # =>This Inner Loop Header: Depth=1
+	pmovsxbd	xmm4, dword ptr [rdx + rdi + 12]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi + 8]
+	pmovsxbd	xmm3, dword ptr [rdx + rdi + 4]
+	pmovsxbd	xmm2, dword ptr [rdx + rdi]
+	movdqa	xmm5, xmm2
+	psrad	xmm5, 7
+	movdqa	xmm6, xmm3
+	psrad	xmm6, 7
+	movdqa	xmm7, xmm1
+	psrad	xmm7, 7
+	movdqa	xmm0, xmm4
+	psrad	xmm0, 7
+	paddd	xmm4, xmm0
+	paddd	xmm1, xmm7
+	paddd	xmm3, xmm6
+	paddd	xmm2, xmm5
+	pxor	xmm2, xmm5
+	pxor	xmm3, xmm6
+	pxor	xmm1, xmm7
+	pxor	xmm4, xmm0
+	pand	xmm4, xmm8
+	pand	xmm1, xmm8
+	packusdw	xmm1, xmm4
+	pand	xmm3, xmm8
+	pand	xmm2, xmm8
+	packusdw	xmm2, xmm3
+	packuswb	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + rdi], xmm2
+	pmovsxbd	xmm4, dword ptr [rdx + rdi + 28]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi + 24]
+	pmovsxbd	xmm3, dword ptr [rdx + rdi + 20]
+	pmovsxbd	xmm2, dword ptr [rdx + rdi + 16]
+	movdqa	xmm0, xmm2
+	psrad	xmm0, 7
+	movdqa	xmm5, xmm3
+	psrad	xmm5, 7
+	movdqa	xmm6, xmm1
+	psrad	xmm6, 7
+	movdqa	xmm7, xmm4
+	psrad	xmm7, 7
+	paddd	xmm4, xmm7
+	paddd	xmm1, xmm6
+	paddd	xmm3, xmm5
+	paddd	xmm2, xmm0
+	pxor	xmm2, xmm0
+	pxor	xmm3, xmm5
+	pxor	xmm1, xmm6
+	pxor	xmm4, xmm7
+	pand	xmm4, xmm8
+	pand	xmm1, xmm8
+	packusdw	xmm1, xmm4
+	pand	xmm3, xmm8
+	pand	xmm2, xmm8
+	packusdw	xmm2, xmm3
+	packuswb	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_410
+	jmp	.LBB3_697
+.LBB3_411:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_704
+# %bb.412:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm8, xmmword ptr [rip + .LCPI3_10] # xmm8 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
+.LBB3_413:                              # =>This Inner Loop Header: Depth=1
+	pmovsxbd	xmm4, dword ptr [rdx + rdi + 12]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi + 8]
+	pmovsxbd	xmm3, dword ptr [rdx + rdi + 4]
+	pmovsxbd	xmm2, dword ptr [rdx + rdi]
+	movdqa	xmm5, xmm2
+	psrad	xmm5, 7
+	movdqa	xmm6, xmm3
+	psrad	xmm6, 7
+	movdqa	xmm7, xmm1
+	psrad	xmm7, 7
+	movdqa	xmm0, xmm4
+	psrad	xmm0, 7
+	paddd	xmm4, xmm0
+	paddd	xmm1, xmm7
+	paddd	xmm3, xmm6
+	paddd	xmm2, xmm5
+	pxor	xmm2, xmm5
+	pxor	xmm3, xmm6
+	pxor	xmm1, xmm7
+	pxor	xmm4, xmm0
+	pand	xmm4, xmm8
+	pand	xmm1, xmm8
+	packusdw	xmm1, xmm4
+	pand	xmm3, xmm8
+	pand	xmm2, xmm8
+	packusdw	xmm2, xmm3
+	packuswb	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + rdi], xmm2
+	pmovsxbd	xmm4, dword ptr [rdx + rdi + 28]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi + 24]
+	pmovsxbd	xmm3, dword ptr [rdx + rdi + 20]
+	pmovsxbd	xmm2, dword ptr [rdx + rdi + 16]
+	movdqa	xmm0, xmm2
+	psrad	xmm0, 7
+	movdqa	xmm5, xmm3
+	psrad	xmm5, 7
+	movdqa	xmm6, xmm1
+	psrad	xmm6, 7
+	movdqa	xmm7, xmm4
+	psrad	xmm7, 7
+	paddd	xmm4, xmm7
+	paddd	xmm1, xmm6
+	paddd	xmm3, xmm5
+	paddd	xmm2, xmm0
+	pxor	xmm2, xmm0
+	pxor	xmm3, xmm5
+	pxor	xmm1, xmm6
+	pxor	xmm4, xmm7
+	pand	xmm4, xmm8
+	pand	xmm1, xmm8
+	packusdw	xmm1, xmm4
+	pand	xmm3, xmm8
+	pand	xmm2, xmm8
+	packusdw	xmm2, xmm3
+	packuswb	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_413
+	jmp	.LBB3_705
+.LBB3_421:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_712
+# %bb.422:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_423:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pxor	xmm2, xmm2
+	psubq	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubq	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 8*rdi], xmm2
+	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	pxor	xmm2, xmm2
+	psubq	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubq	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB3_423
+	jmp	.LBB3_713
+.LBB3_424:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_720
+# %bb.425:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI3_4] # xmm1 = [1,1]
+.LBB3_426:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	pcmpeqq	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqq	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [rcx + 8*rdi], xmm2
+	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm3
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm3, xmmword ptr [rdx + 8*rdi + 48]
+	pcmpeqq	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqq	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [rcx + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB3_426
+	jmp	.LBB3_721
+.LBB3_427:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB3_550
+# %bb.428:
+	xor	eax, eax
+	jmp	.LBB3_552
+.LBB3_429:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB3_560
+# %bb.430:
+	xor	eax, eax
+	jmp	.LBB3_562
+.LBB3_438:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_728
+# %bb.439:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_440:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	pxor	xmm2, xmm2
+	psubw	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubw	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	pxor	xmm2, xmm2
+	psubw	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubw	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_440
+	jmp	.LBB3_729
+.LBB3_441:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_736
+# %bb.442:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_443:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	pxor	xmm2, xmm2
+	psubw	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubw	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	pxor	xmm2, xmm2
+	psubw	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubw	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_443
+	jmp	.LBB3_737
+.LBB3_444:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_744
+# %bb.445:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_446:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	pxor	xmm2, xmm2
+	psubw	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubw	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	pxor	xmm2, xmm2
+	psubw	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubw	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_446
+	jmp	.LBB3_745
+.LBB3_447:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_752
+# %bb.448:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI3_5] # xmm1 = [1,1,1,1,1,1,1,1]
+.LBB3_449:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm3, xmmword ptr [rdx + 2*rdi + 16]
+	pcmpeqw	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqw	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm3
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm3, xmmword ptr [rdx + 2*rdi + 48]
+	pcmpeqw	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqw	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_449
+	jmp	.LBB3_753
+.LBB3_450:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_760
+# %bb.451:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI3_5] # xmm4 = [1,1,1,1,1,1,1,1]
+.LBB3_452:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm6, xmmword ptr [rdx + 2*rdi + 16]
+	movdqa	xmm0, xmm4
+	pcmpgtw	xmm0, xmm5
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtw	xmm1, xmm6
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	pblendvb	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm7
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm6, xmmword ptr [rdx + 2*rdi + 48]
+	movdqa	xmm0, xmm4
+	pcmpgtw	xmm0, xmm5
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtw	xmm1, xmm6
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	pblendvb	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm7
+	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm5
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB3_452
+	jmp	.LBB3_761
+.LBB3_453:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	rdi, rax
+	shr	rdi, 4
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 48
+	jae	.LBB3_570
+# %bb.454:
+	xor	eax, eax
+	jmp	.LBB3_572
+.LBB3_455:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_769
+# %bb.456:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	pxor	xmm0, xmm0
+.LBB3_457:                              # =>This Inner Loop Header: Depth=1
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
+	pmovsxwd	xmm2, qword ptr [rdx + 2*rdi]
+	movdqa	xmm3, xmm2
+	psrad	xmm3, 15
+	movdqa	xmm4, xmm1
+	psrad	xmm4, 15
+	paddd	xmm1, xmm4
+	paddd	xmm2, xmm3
+	pxor	xmm2, xmm3
+	pxor	xmm1, xmm4
+	pblendw	xmm1, xmm0, 170                 # xmm1 = xmm1[0],xmm0[1],xmm1[2],xmm0[3],xmm1[4],xmm0[5],xmm1[6],xmm0[7]
+	pblendw	xmm2, xmm0, 170                 # xmm2 = xmm2[0],xmm0[1],xmm2[2],xmm0[3],xmm2[4],xmm0[5],xmm2[6],xmm0[7]
+	packusdw	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
+	pmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 16]
+	movdqa	xmm3, xmm2
+	psrad	xmm3, 15
+	movdqa	xmm4, xmm1
+	psrad	xmm4, 15
+	paddd	xmm1, xmm4
+	paddd	xmm2, xmm3
+	pxor	xmm2, xmm3
+	pxor	xmm1, xmm4
+	pblendw	xmm1, xmm0, 170                 # xmm1 = xmm1[0],xmm0[1],xmm1[2],xmm0[3],xmm1[4],xmm0[5],xmm1[6],xmm0[7]
+	pblendw	xmm2, xmm0, 170                 # xmm2 = xmm2[0],xmm0[1],xmm2[2],xmm0[3],xmm2[4],xmm0[5],xmm2[6],xmm0[7]
+	packusdw	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB3_457
+	jmp	.LBB3_770
+.LBB3_458:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	rdi, rax
+	shr	rdi, 4
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 48
+	jae	.LBB3_580
+# %bb.459:
+	xor	eax, eax
+	jmp	.LBB3_582
+.LBB3_460:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_777
+# %bb.461:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	pxor	xmm0, xmm0
+.LBB3_462:                              # =>This Inner Loop Header: Depth=1
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
+	pmovsxwd	xmm2, qword ptr [rdx + 2*rdi]
+	movdqa	xmm3, xmm2
+	psrad	xmm3, 15
+	movdqa	xmm4, xmm1
+	psrad	xmm4, 15
+	paddd	xmm1, xmm4
+	paddd	xmm2, xmm3
+	pxor	xmm2, xmm3
+	pxor	xmm1, xmm4
+	pblendw	xmm1, xmm0, 170                 # xmm1 = xmm1[0],xmm0[1],xmm1[2],xmm0[3],xmm1[4],xmm0[5],xmm1[6],xmm0[7]
+	pblendw	xmm2, xmm0, 170                 # xmm2 = xmm2[0],xmm0[1],xmm2[2],xmm0[3],xmm2[4],xmm0[5],xmm2[6],xmm0[7]
+	packusdw	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
+	pmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 16]
+	movdqa	xmm3, xmm2
+	psrad	xmm3, 15
+	movdqa	xmm4, xmm1
+	psrad	xmm4, 15
+	paddd	xmm1, xmm4
+	paddd	xmm2, xmm3
+	pxor	xmm2, xmm3
+	pxor	xmm1, xmm4
+	pblendw	xmm1, xmm0, 170                 # xmm1 = xmm1[0],xmm0[1],xmm1[2],xmm0[3],xmm1[4],xmm0[5],xmm1[6],xmm0[7]
+	pblendw	xmm2, xmm0, 170                 # xmm2 = xmm2[0],xmm0[1],xmm2[2],xmm0[3],xmm2[4],xmm0[5],xmm2[6],xmm0[7]
+	packusdw	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB3_462
+	jmp	.LBB3_778
+.LBB3_463:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_785
+# %bb.464:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_465:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pxor	xmm2, xmm2
+	psubq	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubq	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 8*rdi], xmm2
+	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	pxor	xmm2, xmm2
+	psubq	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubq	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB3_465
+	jmp	.LBB3_786
+.LBB3_466:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_793
+# %bb.467:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_468:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm1, xmmword ptr [rdx + 4*rdi]
+	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	xorpd	xmm1, xmm0
+	xorpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 4*rdi], xmm1
+	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm2
+	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	xorpd	xmm1, xmm0
+	xorpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm1
+	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB3_468
+	jmp	.LBB3_794
+.LBB3_469:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_803
+# %bb.470:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_471:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pxor	xmm2, xmm2
+	psubq	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubq	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 8*rdi], xmm2
+	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	pxor	xmm2, xmm2
+	psubq	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubq	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB3_471
+	jmp	.LBB3_804
+.LBB3_472:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_811
+# %bb.473:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_7] # xmm0 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB3_474:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm1, xmmword ptr [rdx + 4*rdi]
+	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	xorpd	xmm1, xmm0
+	xorpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 4*rdi], xmm1
+	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm2
+	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	xorpd	xmm1, xmm0
+	xorpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm1
+	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB3_474
+	jmp	.LBB3_812
+.LBB3_475:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_821
+# %bb.476:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI3_4] # xmm4 = [1,1]
+.LBB3_477:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm6, xmmword ptr [rdx + 8*rdi + 16]
+	movdqa	xmm0, xmm4
+	pcmpgtq	xmm0, xmm5
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtq	xmm1, xmm6
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	blendvpd	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	blendvpd	xmm5, xmm6, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi], xmm7
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm6, xmmword ptr [rdx + 8*rdi + 48]
+	movdqa	xmm0, xmm4
+	pcmpgtq	xmm0, xmm5
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtq	xmm1, xmm6
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	blendvpd	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	blendvpd	xmm5, xmm6, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm7
+	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm5
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB3_477
+	jmp	.LBB3_822
+.LBB3_478:
+	mov	esi, eax
+	and	esi, -8
+	xor	edi, edi
+	xorps	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI3_3] # xmm1 = [1,1,1,1]
+.LBB3_479:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	movdqa	xmm4, xmm2
+	psrad	xmm4, 31
+	por	xmm4, xmm1
+	movdqa	xmm5, xmm3
+	psrad	xmm5, 31
+	por	xmm5, xmm1
+	cvtdq2ps	xmm4, xmm4
+	cvtdq2ps	xmm5, xmm5
+	cmpneqps	xmm2, xmm0
+	andps	xmm2, xmm4
+	cmpneqps	xmm3, xmm0
+	andps	xmm3, xmm5
+	movups	xmmword ptr [rcx + 4*rdi], xmm2
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm3
+	add	rdi, 8
+	cmp	rsi, rdi
+	jne	.LBB3_479
+# %bb.480:
+	cmp	rsi, rax
+	je	.LBB3_923
+	jmp	.LBB3_481
+.LBB3_486:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_830
+# %bb.487:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_488:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	pxor	xmm3, xmm3
+	psubq	xmm3, xmm1
+	movdqa	xmm0, xmm1
+	blendvpd	xmm1, xmm3, xmm0
+	pxor	xmm3, xmm3
+	psubq	xmm3, xmm2
+	movdqa	xmm0, xmm2
+	blendvpd	xmm2, xmm3, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	pxor	xmm3, xmm3
+	psubq	xmm3, xmm1
+	movdqa	xmm0, xmm1
+	blendvpd	xmm1, xmm3, xmm0
+	pxor	xmm3, xmm3
+	psubq	xmm3, xmm2
+	movdqa	xmm0, xmm2
+	blendvpd	xmm2, xmm3, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB3_488
+	jmp	.LBB3_831
+.LBB3_489:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_838
+# %bb.490:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_9] # xmm0 = [2147483647,2147483647,2147483647,2147483647]
+.LBB3_491:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm1, xmmword ptr [rdx + 4*rdi]
+	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	andpd	xmm1, xmm0
+	andpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 4*rdi], xmm1
+	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm2
+	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	andpd	xmm1, xmm0
+	andpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm1
+	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB3_491
+	jmp	.LBB3_839
+.LBB3_492:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_848
+# %bb.493:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_494:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	pxor	xmm3, xmm3
+	psubq	xmm3, xmm1
+	movdqa	xmm0, xmm1
+	blendvpd	xmm1, xmm3, xmm0
+	pxor	xmm3, xmm3
+	psubq	xmm3, xmm2
+	movdqa	xmm0, xmm2
+	blendvpd	xmm2, xmm3, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	pxor	xmm3, xmm3
+	psubq	xmm3, xmm1
+	movdqa	xmm0, xmm1
+	blendvpd	xmm1, xmm3, xmm0
+	pxor	xmm3, xmm3
+	psubq	xmm3, xmm2
+	movdqa	xmm0, xmm2
+	blendvpd	xmm2, xmm3, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB3_494
+	jmp	.LBB3_849
+.LBB3_495:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_856
+# %bb.496:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movapd	xmm0, xmmword ptr [rip + .LCPI3_9] # xmm0 = [2147483647,2147483647,2147483647,2147483647]
+.LBB3_497:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm1, xmmword ptr [rdx + 4*rdi]
+	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	andpd	xmm1, xmm0
+	andpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 4*rdi], xmm1
+	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm2
+	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movupd	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	andpd	xmm1, xmm0
+	andpd	xmm2, xmm0
+	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm1
+	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB3_497
+	jmp	.LBB3_857
+.LBB3_505:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_866
+# %bb.506:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_507:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	pxor	xmm2, xmm2
+	psubb	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubb	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + rdi], xmm2
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	pxor	xmm2, xmm2
+	psubb	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubb	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + rdi + 48], xmm0
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_507
+	jmp	.LBB3_867
+.LBB3_508:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_874
+# %bb.509:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI3_6] # xmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB3_510:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rdx + rdi]
+	movdqu	xmm3, xmmword ptr [rdx + rdi + 16]
+	pcmpeqb	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqb	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [rcx + rdi], xmm2
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm3
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm3, xmmword ptr [rdx + rdi + 48]
+	pcmpeqb	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqb	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [rcx + rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + rdi + 48], xmm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB3_510
+	jmp	.LBB3_875
+.LBB3_511:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 96
+	jae	.LBB3_590
+# %bb.512:
+	xor	eax, eax
+	jmp	.LBB3_592
+.LBB3_513:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 96
+	jae	.LBB3_600
+# %bb.514:
+	xor	eax, eax
+	jmp	.LBB3_602
+.LBB3_515:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_882
+# %bb.516:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_517:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	pxor	xmm2, xmm2
+	psubd	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubd	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm2
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	pxor	xmm2, xmm2
+	psubd	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubd	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB3_517
+	jmp	.LBB3_883
+.LBB3_518:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_890
+# %bb.519:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_520:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	pxor	xmm2, xmm2
+	psubd	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubd	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm2
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	pxor	xmm2, xmm2
+	psubd	xmm2, xmm0
+	pxor	xmm0, xmm0
+	psubd	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB3_520
+	jmp	.LBB3_891
+.LBB3_521:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_898
+# %bb.522:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI3_3] # xmm4 = [1,1,1,1]
+.LBB3_523:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm6, xmmword ptr [rdx + 4*rdi + 16]
+	movdqa	xmm0, xmm4
+	pcmpgtd	xmm0, xmm5
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtd	xmm1, xmm6
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	blendvps	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	blendvps	xmm5, xmm6, xmm0
+	movups	xmmword ptr [rcx + 4*rdi], xmm7
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm6, xmmword ptr [rdx + 4*rdi + 48]
+	movdqa	xmm0, xmm4
+	pcmpgtd	xmm0, xmm5
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtd	xmm1, xmm6
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	blendvps	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	blendvps	xmm5, xmm6, xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 32], xmm7
+	movups	xmmword ptr [rcx + 4*rdi + 48], xmm5
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB3_523
+	jmp	.LBB3_899
+.LBB3_524:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_907
+# %bb.525:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_526:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	pabsd	xmm0, xmm0
+	pabsd	xmm1, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	pabsd	xmm0, xmm0
+	pabsd	xmm1, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB3_526
+	jmp	.LBB3_908
+.LBB3_527:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB3_915
+# %bb.528:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB3_529:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	pabsd	xmm0, xmm0
+	pabsd	xmm1, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	pabsd	xmm0, xmm0
+	pabsd	xmm1, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB3_529
+	jmp	.LBB3_916
+.LBB3_367:
+	and	rdi, -8
+	neg	rdi
+	xor	eax, eax
+	xorpd	xmm0, xmm0
+.LBB3_368:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmmword ptr [rcx + 4*rax], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 16], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 32], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 48], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 64], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 80], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 112], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 128], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 144], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 160], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 176], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 192], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 208], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 224], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 240], xmm0
+	add	rax, 64
+	add	rdi, 8
+	jne	.LBB3_368
+.LBB3_369:
+	test	rsi, rsi
+	je	.LBB3_372
+# %bb.370:
+	lea	rax, [rcx + 4*rax]
+	add	rax, 16
+	neg	rsi
+	xorpd	xmm0, xmm0
+.LBB3_371:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmmword ptr [rax - 16], xmm0
+	movupd	xmmword ptr [rax], xmm0
+	add	rax, 32
+	inc	rsi
+	jne	.LBB3_371
+.LBB3_372:
+	cmp	rdx, r9
+	je	.LBB3_923
+	.p2align	4, 0x90
+.LBB3_373:                              # =>This Inner Loop Header: Depth=1
+	mov	dword ptr [rcx + 4*rdx], 0
+	add	rdx, 1
+	cmp	r9, rdx
+	jne	.LBB3_373
+	jmp	.LBB3_923
+.LBB3_414:
+	and	rdi, -8
+	neg	rdi
+	xor	eax, eax
+	xorpd	xmm0, xmm0
+.LBB3_415:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmmword ptr [rcx + 8*rax], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 16], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 48], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 80], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 112], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 128], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 144], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 160], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 176], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 192], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 208], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 224], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 240], xmm0
+	add	rax, 32
+	add	rdi, 8
+	jne	.LBB3_415
+.LBB3_416:
+	test	rsi, rsi
+	je	.LBB3_419
+# %bb.417:
+	lea	rax, [rcx + 8*rax]
+	add	rax, 16
+	neg	rsi
+	xorpd	xmm0, xmm0
+.LBB3_418:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmmword ptr [rax - 16], xmm0
+	movupd	xmmword ptr [rax], xmm0
+	add	rax, 32
+	inc	rsi
+	jne	.LBB3_418
+.LBB3_419:
+	cmp	rdx, r9
+	je	.LBB3_923
+	.p2align	4, 0x90
+.LBB3_420:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rcx + 8*rdx], 0
+	add	rdx, 1
+	cmp	r9, rdx
+	jne	.LBB3_420
+	jmp	.LBB3_923
+.LBB3_431:
+	and	rdi, -8
+	neg	rdi
+	xor	eax, eax
+	xorpd	xmm0, xmm0
+.LBB3_432:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmmword ptr [rcx + 2*rax], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 16], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 32], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 48], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 64], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 80], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 112], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 128], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 144], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 160], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 176], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 192], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 208], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 224], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 240], xmm0
+	sub	rax, -128
+	add	rdi, 8
+	jne	.LBB3_432
+.LBB3_433:
+	test	rsi, rsi
+	je	.LBB3_436
+# %bb.434:
+	lea	rax, [rcx + 2*rax]
+	add	rax, 16
+	neg	rsi
+	xorpd	xmm0, xmm0
+.LBB3_435:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmmword ptr [rax - 16], xmm0
+	movupd	xmmword ptr [rax], xmm0
+	add	rax, 32
+	inc	rsi
+	jne	.LBB3_435
+.LBB3_436:
+	cmp	rdx, r9
+	je	.LBB3_923
+	.p2align	4, 0x90
+.LBB3_437:                              # =>This Inner Loop Header: Depth=1
+	mov	word ptr [rcx + 2*rdx], 0
+	add	rdx, 1
+	cmp	r9, rdx
+	jne	.LBB3_437
+	jmp	.LBB3_923
+.LBB3_498:
+	and	rdi, -8
+	neg	rdi
+	xor	eax, eax
+	xorpd	xmm0, xmm0
+.LBB3_499:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmmword ptr [rcx + rax], xmm0
+	movupd	xmmword ptr [rcx + rax + 16], xmm0
+	movupd	xmmword ptr [rcx + rax + 32], xmm0
+	movupd	xmmword ptr [rcx + rax + 48], xmm0
+	movupd	xmmword ptr [rcx + rax + 64], xmm0
+	movupd	xmmword ptr [rcx + rax + 80], xmm0
+	movupd	xmmword ptr [rcx + rax + 96], xmm0
+	movupd	xmmword ptr [rcx + rax + 112], xmm0
+	movupd	xmmword ptr [rcx + rax + 128], xmm0
+	movupd	xmmword ptr [rcx + rax + 144], xmm0
+	movupd	xmmword ptr [rcx + rax + 160], xmm0
+	movupd	xmmword ptr [rcx + rax + 176], xmm0
+	movupd	xmmword ptr [rcx + rax + 192], xmm0
+	movupd	xmmword ptr [rcx + rax + 208], xmm0
+	movupd	xmmword ptr [rcx + rax + 224], xmm0
+	movupd	xmmword ptr [rcx + rax + 240], xmm0
+	add	rax, 256
+	add	rdi, 8
+	jne	.LBB3_499
+.LBB3_500:
+	test	rsi, rsi
+	je	.LBB3_503
+# %bb.501:
+	add	rax, rcx
+	add	rax, 16
+	neg	rsi
+	xorpd	xmm0, xmm0
+.LBB3_502:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmmword ptr [rax - 16], xmm0
+	movupd	xmmword ptr [rax], xmm0
+	add	rax, 32
+	inc	rsi
+	jne	.LBB3_502
+.LBB3_503:
+	cmp	rdx, r9
+	je	.LBB3_923
+	.p2align	4, 0x90
+.LBB3_504:                              # =>This Inner Loop Header: Depth=1
+	mov	byte ptr [rcx + rdx], 0
+	add	rdx, 1
+	cmp	r9, rdx
+	jne	.LBB3_504
+.LBB3_923:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.LBB3_530:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB3_531:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rax]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movups	xmmword ptr [rcx + 4*rax], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
+	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
+	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
+	add	rax, 32
+	add	rdi, 4
+	jne	.LBB3_531
+.LBB3_532:
+	test	r8, r8
+	je	.LBB3_535
+# %bb.533:
+	lea	rax, [4*rax + 16]
+	neg	r8
+.LBB3_534:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB3_534
+.LBB3_535:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_536
+.LBB3_540:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB3_541:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rax]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movups	xmmword ptr [rcx + 4*rax], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
+	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
+	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
+	add	rax, 32
+	add	rdi, 4
+	jne	.LBB3_541
+.LBB3_542:
+	test	r8, r8
+	je	.LBB3_545
+# %bb.543:
+	lea	rax, [4*rax + 16]
+	neg	r8
+.LBB3_544:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB3_544
+.LBB3_545:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_546
+.LBB3_550:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB3_551:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 8*rax]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movups	xmmword ptr [rcx + 8*rax], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
+	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
+	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB3_551
+.LBB3_552:
+	test	r8, r8
+	je	.LBB3_555
+# %bb.553:
+	lea	rax, [8*rax + 16]
+	neg	r8
+.LBB3_554:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB3_554
+.LBB3_555:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_556
+.LBB3_560:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB3_561:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 8*rax]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movups	xmmword ptr [rcx + 8*rax], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
+	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
+	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB3_561
+.LBB3_562:
+	test	r8, r8
+	je	.LBB3_565
+# %bb.563:
+	lea	rax, [8*rax + 16]
+	neg	r8
+.LBB3_564:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB3_564
+.LBB3_565:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_566
+.LBB3_570:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB3_571:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 2*rax]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movups	xmmword ptr [rcx + 2*rax], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
+	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
+	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
+	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
+	add	rax, 64
+	add	rdi, 4
+	jne	.LBB3_571
+.LBB3_572:
+	test	r8, r8
+	je	.LBB3_575
+# %bb.573:
+	add	rax, rax
+	add	rax, 16
+	neg	r8
+.LBB3_574:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB3_574
+.LBB3_575:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_576
+.LBB3_580:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB3_581:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 2*rax]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movups	xmmword ptr [rcx + 2*rax], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
+	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
+	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
+	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
+	add	rax, 64
+	add	rdi, 4
+	jne	.LBB3_581
+.LBB3_582:
+	test	r8, r8
+	je	.LBB3_585
+# %bb.583:
+	add	rax, rax
+	add	rax, 16
+	neg	r8
+.LBB3_584:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB3_584
+.LBB3_585:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_586
+.LBB3_590:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB3_591:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + rax]
+	movups	xmm1, xmmword ptr [rdx + rax + 16]
+	movups	xmmword ptr [rcx + rax], xmm0
+	movups	xmmword ptr [rcx + rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + rax + 32]
+	movups	xmm1, xmmword ptr [rdx + rax + 48]
+	movups	xmmword ptr [rcx + rax + 32], xmm0
+	movups	xmmword ptr [rcx + rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + rax + 64]
+	movups	xmm1, xmmword ptr [rdx + rax + 80]
+	movups	xmmword ptr [rcx + rax + 64], xmm0
+	movups	xmmword ptr [rcx + rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + rax + 112]
+	movupd	xmmword ptr [rcx + rax + 96], xmm0
+	movupd	xmmword ptr [rcx + rax + 112], xmm1
+	sub	rax, -128
+	add	rdi, 4
+	jne	.LBB3_591
+.LBB3_592:
+	test	r8, r8
+	je	.LBB3_595
+# %bb.593:
+	add	rax, 16
+	neg	r8
+.LBB3_594:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB3_594
+.LBB3_595:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_596
+.LBB3_600:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB3_601:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + rax]
+	movups	xmm1, xmmword ptr [rdx + rax + 16]
+	movups	xmmword ptr [rcx + rax], xmm0
+	movups	xmmword ptr [rcx + rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + rax + 32]
+	movups	xmm1, xmmword ptr [rdx + rax + 48]
+	movups	xmmword ptr [rcx + rax + 32], xmm0
+	movups	xmmword ptr [rcx + rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + rax + 64]
+	movups	xmm1, xmmword ptr [rdx + rax + 80]
+	movups	xmmword ptr [rcx + rax + 64], xmm0
+	movups	xmmword ptr [rcx + rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + rax + 112]
+	movupd	xmmword ptr [rcx + rax + 96], xmm0
+	movupd	xmmword ptr [rcx + rax + 112], xmm1
+	sub	rax, -128
+	add	rdi, 4
+	jne	.LBB3_601
+.LBB3_602:
+	test	r8, r8
+	je	.LBB3_605
+# %bb.603:
+	add	rax, 16
+	neg	r8
+.LBB3_604:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB3_604
+.LBB3_605:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_606
+.LBB3_610:
+	xor	edi, edi
+.LBB3_611:
+	test	r8b, 1
+	je	.LBB3_613
+# %bb.612:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	pxor	xmm2, xmm2
+	pxor	xmm3, xmm3
+	psubd	xmm3, xmm0
+	psubd	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm3
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm2
+.LBB3_613:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_614
+.LBB3_618:
+	xor	edi, edi
+.LBB3_619:
+	test	r8b, 1
+	je	.LBB3_621
+# %bb.620:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm0, xmm2
+	movdqa	xmm3, xmmword ptr [rip + .LCPI3_3] # xmm3 = [1,1,1,1]
+	pandn	xmm0, xmm3
+	pcmpeqd	xmm1, xmm2
+	pandn	xmm1, xmm3
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB3_621:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_622
+.LBB3_626:
+	xor	edi, edi
+.LBB3_627:
+	test	r8b, 1
+	je	.LBB3_629
+# %bb.628:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movapd	xmm2, xmmword ptr [rip + .LCPI3_0] # xmm2 = [-0.0E+0,-0.0E+0]
+	xorpd	xmm0, xmm2
+	xorpd	xmm1, xmm2
+	movupd	xmmword ptr [rcx + 8*rdi], xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
+.LBB3_629:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_630
+.LBB3_636:
+	xor	edi, edi
+.LBB3_637:
+	test	r8b, 1
+	je	.LBB3_639
+# %bb.638:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movapd	xmm2, xmmword ptr [rip + .LCPI3_0] # xmm2 = [-0.0E+0,-0.0E+0]
+	xorpd	xmm0, xmm2
+	xorpd	xmm1, xmm2
+	movupd	xmmword ptr [rcx + 8*rdi], xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
+.LBB3_639:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_640
+.LBB3_646:
+	xor	edi, edi
+.LBB3_647:
+	test	r8b, 1
+	je	.LBB3_649
+# %bb.648:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmmword ptr [rip + .LCPI3_0] # xmm3 = [-0.0E+0,-0.0E+0]
+	movapd	xmm4, xmm0
+	andpd	xmm4, xmm3
+	movapd	xmm5, xmmword ptr [rip + .LCPI3_1] # xmm5 = [1.0E+0,1.0E+0]
+	orpd	xmm4, xmm5
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm5
+	cmpneqpd	xmm0, xmm2
+	andpd	xmm0, xmm4
+	cmpneqpd	xmm1, xmm2
+	andpd	xmm1, xmm3
+	movupd	xmmword ptr [rcx + 8*rdi], xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
+.LBB3_649:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_650
+.LBB3_655:
+	xor	edi, edi
+.LBB3_656:
+	test	r8b, 1
+	je	.LBB3_658
+# %bb.657:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movapd	xmm2, xmmword ptr [rip + .LCPI3_8] # xmm2 = [9223372036854775807,9223372036854775807]
+	andpd	xmm0, xmm2
+	andpd	xmm1, xmm2
+	movupd	xmmword ptr [rcx + 8*rdi], xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
+.LBB3_658:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_659
+.LBB3_663:
+	xor	edi, edi
+.LBB3_664:
+	test	r8b, 1
+	je	.LBB3_666
+# %bb.665:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movapd	xmm2, xmmword ptr [rip + .LCPI3_8] # xmm2 = [9223372036854775807,9223372036854775807]
+	andpd	xmm0, xmm2
+	andpd	xmm1, xmm2
+	movupd	xmmword ptr [rcx + 8*rdi], xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
+.LBB3_666:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_667
+.LBB3_671:
+	xor	edi, edi
+.LBB3_672:
+	test	r8b, 1
+	je	.LBB3_674
+# %bb.673:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	pxor	xmm2, xmm2
+	pxor	xmm3, xmm3
+	psubb	xmm3, xmm0
+	psubb	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + rdi], xmm3
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
+.LBB3_674:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_675
+.LBB3_679:
+	xor	edi, edi
+.LBB3_680:
+	test	r8b, 1
+	je	.LBB3_682
+# %bb.681:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	pxor	xmm2, xmm2
+	pxor	xmm3, xmm3
+	psubb	xmm3, xmm0
+	psubb	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + rdi], xmm3
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
+.LBB3_682:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_683
+.LBB3_687:
+	xor	edi, edi
+.LBB3_688:
+	test	r8b, 1
+	je	.LBB3_690
+# %bb.689:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	pxor	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI3_6] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	movdqa	xmm0, xmm4
+	pcmpgtb	xmm0, xmm1
+	movdqa	xmm5, xmm1
+	pcmpeqb	xmm5, xmm3
+	pcmpeqd	xmm1, xmm1
+	pxor	xmm5, xmm1
+	pcmpeqb	xmm3, xmm2
+	pxor	xmm3, xmm1
+	movdqa	xmm1, xmm4
+	pcmpgtb	xmm1, xmm2
+	movdqa	xmm2, xmm4
+	pblendvb	xmm2, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm3, xmm0
+	movdqu	xmmword ptr [rcx + rdi], xmm2
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm4
+.LBB3_690:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_691
+.LBB3_696:
+	xor	edi, edi
+.LBB3_697:
+	test	r8b, 1
+	je	.LBB3_699
+# %bb.698:
+	pmovsxbd	xmm3, dword ptr [rdx + rdi + 12]
+	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
+	pmovsxbd	xmm2, dword ptr [rdx + rdi + 4]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi]
+	movdqa	xmm4, xmm1
+	psrad	xmm4, 7
+	movdqa	xmm5, xmm2
+	psrad	xmm5, 7
+	movdqa	xmm6, xmm0
+	psrad	xmm6, 7
+	movdqa	xmm7, xmm3
+	psrad	xmm7, 7
+	paddd	xmm3, xmm7
+	paddd	xmm0, xmm6
+	paddd	xmm2, xmm5
+	paddd	xmm1, xmm4
+	pxor	xmm1, xmm4
+	pxor	xmm2, xmm5
+	pxor	xmm0, xmm6
+	pxor	xmm3, xmm7
+	movdqa	xmm4, xmmword ptr [rip + .LCPI3_10] # xmm4 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
+	pand	xmm3, xmm4
+	pand	xmm0, xmm4
+	packusdw	xmm0, xmm3
+	pand	xmm2, xmm4
+	pand	xmm1, xmm4
+	packusdw	xmm1, xmm2
+	packuswb	xmm1, xmm0
+	movdqu	xmmword ptr [rcx + rdi], xmm1
+.LBB3_699:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_700
+.LBB3_704:
+	xor	edi, edi
+.LBB3_705:
+	test	r8b, 1
+	je	.LBB3_707
+# %bb.706:
+	pmovsxbd	xmm3, dword ptr [rdx + rdi + 12]
+	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
+	pmovsxbd	xmm2, dword ptr [rdx + rdi + 4]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi]
+	movdqa	xmm4, xmm1
+	psrad	xmm4, 7
+	movdqa	xmm5, xmm2
+	psrad	xmm5, 7
+	movdqa	xmm6, xmm0
+	psrad	xmm6, 7
+	movdqa	xmm7, xmm3
+	psrad	xmm7, 7
+	paddd	xmm3, xmm7
+	paddd	xmm0, xmm6
+	paddd	xmm2, xmm5
+	paddd	xmm1, xmm4
+	pxor	xmm1, xmm4
+	pxor	xmm2, xmm5
+	pxor	xmm0, xmm6
+	pxor	xmm3, xmm7
+	movdqa	xmm4, xmmword ptr [rip + .LCPI3_10] # xmm4 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
+	pand	xmm3, xmm4
+	pand	xmm0, xmm4
+	packusdw	xmm0, xmm3
+	pand	xmm2, xmm4
+	pand	xmm1, xmm4
+	packusdw	xmm1, xmm2
+	packuswb	xmm1, xmm0
+	movdqu	xmmword ptr [rcx + rdi], xmm1
+.LBB3_707:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_708
+.LBB3_712:
+	xor	edi, edi
+.LBB3_713:
+	test	r8b, 1
+	je	.LBB3_715
+# %bb.714:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pxor	xmm2, xmm2
+	pxor	xmm3, xmm3
+	psubq	xmm3, xmm0
+	psubq	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + 8*rdi], xmm3
+	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm2
+.LBB3_715:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_716
+.LBB3_720:
+	xor	edi, edi
+.LBB3_721:
+	test	r8b, 1
+	je	.LBB3_723
+# %bb.722:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqq	xmm0, xmm2
+	movdqa	xmm3, xmmword ptr [rip + .LCPI3_4] # xmm3 = [1,1]
+	pandn	xmm0, xmm3
+	pcmpeqq	xmm1, xmm2
+	pandn	xmm1, xmm3
+	movdqu	xmmword ptr [rcx + 8*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
+.LBB3_723:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_724
+.LBB3_728:
+	xor	edi, edi
+.LBB3_729:
+	test	r8b, 1
+	je	.LBB3_731
+# %bb.730:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	pxor	xmm2, xmm2
+	pxor	xmm3, xmm3
+	psubw	xmm3, xmm0
+	psubw	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm3
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
+.LBB3_731:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_732
+.LBB3_736:
+	xor	edi, edi
+.LBB3_737:
+	test	r8b, 1
+	je	.LBB3_739
+# %bb.738:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	pxor	xmm2, xmm2
+	pxor	xmm3, xmm3
+	psubw	xmm3, xmm0
+	psubw	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm3
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
+.LBB3_739:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_740
+.LBB3_744:
+	xor	edi, edi
+.LBB3_745:
+	test	r8b, 1
+	je	.LBB3_747
+# %bb.746:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	pxor	xmm2, xmm2
+	pxor	xmm3, xmm3
+	psubw	xmm3, xmm0
+	psubw	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm3
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
+.LBB3_747:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_748
+.LBB3_752:
+	xor	edi, edi
+.LBB3_753:
+	test	r8b, 1
+	je	.LBB3_755
+# %bb.754:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqw	xmm0, xmm2
+	movdqa	xmm3, xmmword ptr [rip + .LCPI3_5] # xmm3 = [1,1,1,1,1,1,1,1]
+	pandn	xmm0, xmm3
+	pcmpeqw	xmm1, xmm2
+	pandn	xmm1, xmm3
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+.LBB3_755:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_756
+.LBB3_760:
+	xor	edi, edi
+.LBB3_761:
+	test	r8b, 1
+	je	.LBB3_763
+# %bb.762:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	pxor	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI3_5] # xmm4 = [1,1,1,1,1,1,1,1]
+	movdqa	xmm0, xmm4
+	pcmpgtw	xmm0, xmm1
+	movdqa	xmm5, xmm1
+	pcmpeqw	xmm5, xmm3
+	pcmpeqd	xmm1, xmm1
+	pxor	xmm5, xmm1
+	pcmpeqw	xmm3, xmm2
+	pxor	xmm3, xmm1
+	movdqa	xmm1, xmm4
+	pcmpgtw	xmm1, xmm2
+	movdqa	xmm2, xmm4
+	pblendvb	xmm2, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm3, xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm2
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm4
+.LBB3_763:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_764
+.LBB3_769:
+	xor	edi, edi
+.LBB3_770:
+	test	r8b, 1
+	je	.LBB3_772
+# %bb.771:
+	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 8]
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi]
+	movdqa	xmm2, xmm1
+	psrad	xmm2, 15
+	movdqa	xmm3, xmm0
+	psrad	xmm3, 15
+	paddd	xmm0, xmm3
+	paddd	xmm1, xmm2
+	pxor	xmm1, xmm2
+	pxor	xmm0, xmm3
+	pxor	xmm2, xmm2
+	pblendw	xmm0, xmm2, 170                 # xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
+	pblendw	xmm1, xmm2, 170                 # xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
+	packusdw	xmm1, xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
+.LBB3_772:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_773
+.LBB3_777:
+	xor	edi, edi
+.LBB3_778:
+	test	r8b, 1
+	je	.LBB3_780
+# %bb.779:
+	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 8]
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi]
+	movdqa	xmm2, xmm1
+	psrad	xmm2, 15
+	movdqa	xmm3, xmm0
+	psrad	xmm3, 15
+	paddd	xmm0, xmm3
+	paddd	xmm1, xmm2
+	pxor	xmm1, xmm2
+	pxor	xmm0, xmm3
+	pxor	xmm2, xmm2
+	pblendw	xmm0, xmm2, 170                 # xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
+	pblendw	xmm1, xmm2, 170                 # xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
+	packusdw	xmm1, xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
+.LBB3_780:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_781
+.LBB3_785:
+	xor	edi, edi
+.LBB3_786:
+	test	r8b, 1
+	je	.LBB3_788
+# %bb.787:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pxor	xmm2, xmm2
+	pxor	xmm3, xmm3
+	psubq	xmm3, xmm0
+	psubq	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + 8*rdi], xmm3
+	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm2
+.LBB3_788:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_789
+.LBB3_793:
+	xor	edi, edi
+.LBB3_794:
+	test	r8b, 1
+	je	.LBB3_796
+# %bb.795:
+	movupd	xmm0, xmmword ptr [rdx + 4*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movapd	xmm2, xmmword ptr [rip + .LCPI3_7] # xmm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	xorpd	xmm0, xmm2
+	xorpd	xmm1, xmm2
+	movupd	xmmword ptr [rcx + 4*rdi], xmm0
+	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB3_796:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_797
+.LBB3_803:
+	xor	edi, edi
+.LBB3_804:
+	test	r8b, 1
+	je	.LBB3_806
+# %bb.805:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pxor	xmm2, xmm2
+	pxor	xmm3, xmm3
+	psubq	xmm3, xmm0
+	psubq	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + 8*rdi], xmm3
+	movdqu	xmmword ptr [rcx + 8*rdi + 16], xmm2
+.LBB3_806:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_807
+.LBB3_811:
+	xor	edi, edi
+.LBB3_812:
+	test	r8b, 1
+	je	.LBB3_814
+# %bb.813:
+	movupd	xmm0, xmmword ptr [rdx + 4*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movapd	xmm2, xmmword ptr [rip + .LCPI3_7] # xmm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	xorpd	xmm0, xmm2
+	xorpd	xmm1, xmm2
+	movupd	xmmword ptr [rcx + 4*rdi], xmm0
+	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB3_814:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_815
+.LBB3_821:
+	xor	edi, edi
+.LBB3_822:
+	test	r8b, 1
+	je	.LBB3_824
+# %bb.823:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	pxor	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI3_4] # xmm4 = [1,1]
+	movdqa	xmm0, xmm4
+	pcmpgtq	xmm0, xmm1
+	movdqa	xmm5, xmm1
+	pcmpeqq	xmm5, xmm3
+	pcmpeqd	xmm1, xmm1
+	pxor	xmm5, xmm1
+	pcmpeqq	xmm3, xmm2
+	pxor	xmm3, xmm1
+	movdqa	xmm1, xmm4
+	pcmpgtq	xmm1, xmm2
+	movdqa	xmm2, xmm4
+	blendvpd	xmm2, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm4, xmm3, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi], xmm2
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm4
+.LBB3_824:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_825
+.LBB3_830:
+	xor	edi, edi
+.LBB3_831:
+	test	r8b, 1
+	je	.LBB3_833
+# %bb.832:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	pxor	xmm3, xmm3
+	pxor	xmm4, xmm4
+	psubq	xmm4, xmm1
+	movdqa	xmm0, xmm1
+	blendvpd	xmm1, xmm4, xmm0
+	psubq	xmm3, xmm2
+	movdqa	xmm0, xmm2
+	blendvpd	xmm2, xmm3, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
+.LBB3_833:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_834
+.LBB3_838:
+	xor	edi, edi
+.LBB3_839:
+	test	r8b, 1
+	je	.LBB3_841
+# %bb.840:
+	movupd	xmm0, xmmword ptr [rdx + 4*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movapd	xmm2, xmmword ptr [rip + .LCPI3_9] # xmm2 = [2147483647,2147483647,2147483647,2147483647]
+	andpd	xmm0, xmm2
+	andpd	xmm1, xmm2
+	movupd	xmmword ptr [rcx + 4*rdi], xmm0
+	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB3_841:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_842
+.LBB3_848:
+	xor	edi, edi
+.LBB3_849:
+	test	r8b, 1
+	je	.LBB3_851
+# %bb.850:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	pxor	xmm3, xmm3
+	pxor	xmm4, xmm4
+	psubq	xmm4, xmm1
+	movdqa	xmm0, xmm1
+	blendvpd	xmm1, xmm4, xmm0
+	psubq	xmm3, xmm2
+	movdqa	xmm0, xmm2
+	blendvpd	xmm2, xmm3, xmm0
+	movupd	xmmword ptr [rcx + 8*rdi], xmm1
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm2
+.LBB3_851:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_852
+.LBB3_856:
+	xor	edi, edi
+.LBB3_857:
+	test	r8b, 1
+	je	.LBB3_859
+# %bb.858:
+	movupd	xmm0, xmmword ptr [rdx + 4*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movapd	xmm2, xmmword ptr [rip + .LCPI3_9] # xmm2 = [2147483647,2147483647,2147483647,2147483647]
+	andpd	xmm0, xmm2
+	andpd	xmm1, xmm2
+	movupd	xmmword ptr [rcx + 4*rdi], xmm0
+	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB3_859:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_860
+.LBB3_866:
+	xor	edi, edi
+.LBB3_867:
+	test	r8b, 1
+	je	.LBB3_869
+# %bb.868:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	pxor	xmm2, xmm2
+	pxor	xmm3, xmm3
+	psubb	xmm3, xmm0
+	psubb	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + rdi], xmm3
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm2
+.LBB3_869:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_870
+.LBB3_874:
+	xor	edi, edi
+.LBB3_875:
+	test	r8b, 1
+	je	.LBB3_877
+# %bb.876:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqb	xmm0, xmm2
+	movdqa	xmm3, xmmword ptr [rip + .LCPI3_6] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pandn	xmm0, xmm3
+	pcmpeqb	xmm1, xmm2
+	pandn	xmm1, xmm3
+	movdqu	xmmword ptr [rcx + rdi], xmm0
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
+.LBB3_877:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_878
+.LBB3_882:
+	xor	edi, edi
+.LBB3_883:
+	test	r8b, 1
+	je	.LBB3_885
+# %bb.884:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	pxor	xmm2, xmm2
+	pxor	xmm3, xmm3
+	psubd	xmm3, xmm0
+	psubd	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm3
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm2
+.LBB3_885:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_886
+.LBB3_890:
+	xor	edi, edi
+.LBB3_891:
+	test	r8b, 1
+	je	.LBB3_893
+# %bb.892:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	pxor	xmm2, xmm2
+	pxor	xmm3, xmm3
+	psubd	xmm3, xmm0
+	psubd	xmm2, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm3
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm2
+.LBB3_893:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_894
+.LBB3_898:
+	xor	edi, edi
+.LBB3_899:
+	test	r8b, 1
+	je	.LBB3_901
+# %bb.900:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pxor	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI3_3] # xmm4 = [1,1,1,1]
+	movdqa	xmm0, xmm4
+	pcmpgtd	xmm0, xmm1
+	movdqa	xmm5, xmm1
+	pcmpeqd	xmm5, xmm3
+	pcmpeqd	xmm1, xmm1
+	pxor	xmm5, xmm1
+	pcmpeqd	xmm3, xmm2
+	pxor	xmm3, xmm1
+	movdqa	xmm1, xmm4
+	pcmpgtd	xmm1, xmm2
+	movdqa	xmm2, xmm4
+	blendvps	xmm2, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm4, xmm3, xmm0
+	movups	xmmword ptr [rcx + 4*rdi], xmm2
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm4
+.LBB3_901:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_902
+.LBB3_907:
+	xor	edi, edi
+.LBB3_908:
+	test	r8b, 1
+	je	.LBB3_910
+# %bb.909:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	pabsd	xmm0, xmm0
+	pabsd	xmm1, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB3_910:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_911
+.LBB3_915:
+	xor	edi, edi
+.LBB3_916:
+	test	r8b, 1
+	je	.LBB3_918
+# %bb.917:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	pabsd	xmm0, xmm0
+	pabsd	xmm1, xmm1
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB3_918:
+	cmp	rsi, r9
+	je	.LBB3_923
+	jmp	.LBB3_919
+.Lfunc_end3:
+	.size	arithmetic_unary_same_types_sse4, .Lfunc_end3-arithmetic_unary_same_types_sse4
+                                        # -- End function
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4                               # -- Begin function arithmetic_unary_diff_type_sse4
+.LCPI4_0:
+	.quad	0x8000000000000000              # double -0
+	.quad	0x8000000000000000              # double -0
+.LCPI4_1:
+	.quad	0x3ff0000000000000              # double 1
+	.quad	0x3ff0000000000000              # double 1
+.LCPI4_3:
+	.long	0x7fffffff                      # float NaN
+	.long	0x7fffffff                      # float NaN
+	.long	0x7fffffff                      # float NaN
+	.long	0x7fffffff                      # float NaN
+.LCPI4_4:
+	.long	0x80000000                      # float -0
+	.long	0x80000000                      # float -0
+	.long	0x80000000                      # float -0
+	.long	0x80000000                      # float -0
+.LCPI4_7:
+	.byte	0                               # 0x0
+	.byte	4                               # 0x4
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_8:
+	.long	1                               # 0x1
+	.long	1                               # 0x1
+	.long	1                               # 0x1
+	.long	1                               # 0x1
+.LCPI4_10:
+	.long	0x4f000000                      # float 2.14748365E+9
+	.long	0x4f000000                      # float 2.14748365E+9
+	.long	0x4f000000                      # float 2.14748365E+9
+	.long	0x4f000000                      # float 2.14748365E+9
+.LCPI4_11:
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.zero	2
+	.zero	2
+	.zero	2
+	.zero	2
+.LCPI4_12:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_15:
+	.quad	1                               # 0x1
+	.quad	1                               # 0x1
+.LCPI4_16:
+	.long	1                               # 0x1
+	.long	1                               # 0x1
+	.zero	4
+	.zero	4
+.LCPI4_17:
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.zero	2
+	.zero	2
+	.zero	2
+	.zero	2
+	.zero	2
+	.zero	2
+.LCPI4_18:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_19:
+	.long	0x3f800000                      # float 1
+	.long	0x3f800000                      # float 1
+	.long	0x3f800000                      # float 1
+	.long	0x3f800000                      # float 1
+.LCPI4_20:
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+	.short	1                               # 0x1
+.LCPI4_21:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_22:
+	.zero	16,1
+	.section	.rodata.cst8,"aM",@progbits,8
+	.p2align	3
+.LCPI4_2:
+	.quad	0x3ff0000000000000              # double 1
+.LCPI4_6:
+	.quad	0x43e0000000000000              # double 9.2233720368547758E+18
+.LCPI4_13:
+	.quad	0xbff0000000000000              # double -1
+	.section	.rodata.cst4,"aM",@progbits,4
+	.p2align	2
+.LCPI4_5:
+	.long	0x3f800000                      # float 1
+.LCPI4_9:
+	.long	0x5f000000                      # float 9.22337203E+18
+.LCPI4_14:
+	.long	0xbf800000                      # float -1
+	.text
+	.globl	arithmetic_unary_diff_type_sse4
+	.p2align	4, 0x90
+	.type	arithmetic_unary_diff_type_sse4,@function
+arithmetic_unary_diff_type_sse4:        # @arithmetic_unary_diff_type_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r14
+	push	rbx
+	and	rsp, -8
+	cmp	dl, 20
+	jne	.LBB4_1655
+# %bb.1:
+	cmp	edi, 6
+	jg	.LBB4_14
+# %bb.2:
+	cmp	edi, 3
+	jle	.LBB4_26
+# %bb.3:
+	cmp	edi, 4
+	je	.LBB4_46
+# %bb.4:
+	cmp	edi, 5
+	je	.LBB4_54
+# %bb.5:
+	cmp	edi, 6
+	jne	.LBB4_1655
+# %bb.6:
+	cmp	esi, 6
+	jg	.LBB4_94
+# %bb.7:
+	cmp	esi, 3
+	jle	.LBB4_200
+# %bb.8:
+	cmp	esi, 4
+	je	.LBB4_303
+# %bb.9:
+	cmp	esi, 5
+	je	.LBB4_306
+# %bb.10:
+	cmp	esi, 6
+	jne	.LBB4_1655
+# %bb.11:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.12:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB4_13
+# %bb.494:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_496
+# %bb.495:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_496
+.LBB4_13:
+	xor	edx, edx
+.LBB4_1232:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB4_1234
+.LBB4_1233:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx], eax
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1233
+.LBB4_1234:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1235:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx], eax
+	xor	eax, eax
+	cmp	dword ptr [rcx + 4*rdx + 4], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx + 4], eax
+	xor	eax, eax
+	cmp	dword ptr [rcx + 4*rdx + 8], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx + 8], eax
+	xor	eax, eax
+	cmp	dword ptr [rcx + 4*rdx + 12], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx + 12], eax
+	add	rdx, 4
+	cmp	r10, rdx
+	jne	.LBB4_1235
+	jmp	.LBB4_1655
+.LBB4_14:
+	cmp	edi, 8
+	jle	.LBB4_36
+# %bb.15:
+	cmp	edi, 9
+	je	.LBB4_62
+# %bb.16:
+	cmp	edi, 11
+	je	.LBB4_70
+# %bb.17:
+	cmp	edi, 12
+	jne	.LBB4_1655
+# %bb.18:
+	cmp	esi, 6
+	jg	.LBB4_106
+# %bb.19:
+	cmp	esi, 3
+	jle	.LBB4_205
+# %bb.20:
+	cmp	esi, 4
+	je	.LBB4_309
+# %bb.21:
+	cmp	esi, 5
+	je	.LBB4_312
+# %bb.22:
+	cmp	esi, 6
+	jne	.LBB4_1655
+# %bb.23:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.24:
+	mov	r11d, r9d
+	xor	r10d, r10d
+	cmp	r9d, 4
+	jae	.LBB4_499
+# %bb.25:
+	xor	esi, esi
+	jmp	.LBB4_1110
+.LBB4_26:
+	cmp	edi, 2
+	je	.LBB4_78
+# %bb.27:
+	cmp	edi, 3
+	jne	.LBB4_1655
+# %bb.28:
+	cmp	esi, 6
+	jg	.LBB4_113
+# %bb.29:
+	cmp	esi, 3
+	jle	.LBB4_210
+# %bb.30:
+	cmp	esi, 4
+	je	.LBB4_315
+# %bb.31:
+	cmp	esi, 5
+	je	.LBB4_318
+# %bb.32:
+	cmp	esi, 6
+	jne	.LBB4_1655
+# %bb.33:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.34:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB4_35
+# %bb.502:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_504
+# %bb.503:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_504
+.LBB4_35:
+	xor	edx, edx
+.LBB4_1240:
+	mov	rsi, rdx
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1242
+# %bb.1241:
+	mov	r9b, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	r9b, r9b
+	setne	dil
+	neg	edi
+	test	r9b, r9b
+	mov	eax, 1
+	cmovle	eax, edi
+	mov	dword ptr [r8 + 4*rdx], eax
+	or	rdx, 1
+.LBB4_1242:
+	add	rsi, r10
+	je	.LBB4_1655
+# %bb.1243:
+	mov	esi, 1
+.LBB4_1244:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	dword ptr [r8 + 4*rdx], edi
+	movzx	eax, byte ptr [rcx + rdx + 1]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	dword ptr [r8 + 4*rdx + 4], edi
+	add	rdx, 2
+	cmp	r10, rdx
+	jne	.LBB4_1244
+	jmp	.LBB4_1655
+.LBB4_36:
+	cmp	edi, 7
+	je	.LBB4_86
+# %bb.37:
+	cmp	edi, 8
+	jne	.LBB4_1655
+# %bb.38:
+	cmp	esi, 6
+	jg	.LBB4_123
+# %bb.39:
+	cmp	esi, 3
+	jle	.LBB4_215
+# %bb.40:
+	cmp	esi, 4
+	je	.LBB4_321
+# %bb.41:
+	cmp	esi, 5
+	je	.LBB4_324
+# %bb.42:
+	cmp	esi, 6
+	jne	.LBB4_1655
+# %bb.43:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.44:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jae	.LBB4_507
+# %bb.45:
+	xor	edx, edx
+	jmp	.LBB4_998
+.LBB4_46:
+	cmp	esi, 6
+	jg	.LBB4_135
+# %bb.47:
+	cmp	esi, 3
+	jle	.LBB4_220
+# %bb.48:
+	cmp	esi, 4
+	je	.LBB4_327
+# %bb.49:
+	cmp	esi, 5
+	je	.LBB4_330
+# %bb.50:
+	cmp	esi, 6
+	jne	.LBB4_1655
+# %bb.51:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.52:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jae	.LBB4_510
+# %bb.53:
+	xor	edx, edx
+	jmp	.LBB4_1116
+.LBB4_54:
+	cmp	esi, 6
+	jg	.LBB4_147
+# %bb.55:
+	cmp	esi, 3
+	jle	.LBB4_225
+# %bb.56:
+	cmp	esi, 4
+	je	.LBB4_333
+# %bb.57:
+	cmp	esi, 5
+	je	.LBB4_336
+# %bb.58:
+	cmp	esi, 6
+	jne	.LBB4_1655
+# %bb.59:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.60:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB4_513
+# %bb.61:
+	xor	edx, edx
+	jmp	.LBB4_1121
+.LBB4_62:
+	cmp	esi, 6
+	jg	.LBB4_157
+# %bb.63:
+	cmp	esi, 3
+	jle	.LBB4_230
+# %bb.64:
+	cmp	esi, 4
+	je	.LBB4_339
+# %bb.65:
+	cmp	esi, 5
+	je	.LBB4_342
+# %bb.66:
+	cmp	esi, 6
+	jne	.LBB4_1655
+# %bb.67:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.68:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB4_516
+# %bb.69:
+	xor	edx, edx
+	jmp	.LBB4_1127
+.LBB4_70:
+	cmp	esi, 6
+	jg	.LBB4_167
+# %bb.71:
+	cmp	esi, 3
+	jle	.LBB4_235
+# %bb.72:
+	cmp	esi, 4
+	je	.LBB4_345
+# %bb.73:
+	cmp	esi, 5
+	je	.LBB4_348
+# %bb.74:
+	cmp	esi, 6
+	jne	.LBB4_1655
+# %bb.75:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.76:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jae	.LBB4_519
+# %bb.77:
+	xor	edx, edx
+	jmp	.LBB4_1133
+.LBB4_78:
+	cmp	esi, 6
+	jg	.LBB4_178
+# %bb.79:
+	cmp	esi, 3
+	jle	.LBB4_240
+# %bb.80:
+	cmp	esi, 4
+	je	.LBB4_351
+# %bb.81:
+	cmp	esi, 5
+	je	.LBB4_354
+# %bb.82:
+	cmp	esi, 6
+	jne	.LBB4_1655
+# %bb.83:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.84:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB4_85
+# %bb.522:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_524
+# %bb.523:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_524
+.LBB4_85:
+	xor	edx, edx
+.LBB4_1249:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB4_1251
+.LBB4_1250:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx], eax
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1250
+.LBB4_1251:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1252:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx], eax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx + 4], eax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx + 8], eax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx + 12], eax
+	add	rdx, 4
+	cmp	r10, rdx
+	jne	.LBB4_1252
+	jmp	.LBB4_1655
+.LBB4_86:
+	cmp	esi, 6
+	jg	.LBB4_190
+# %bb.87:
+	cmp	esi, 3
+	jle	.LBB4_245
+# %bb.88:
+	cmp	esi, 4
+	je	.LBB4_357
+# %bb.89:
+	cmp	esi, 5
+	je	.LBB4_360
+# %bb.90:
+	cmp	esi, 6
+	jne	.LBB4_1655
+# %bb.91:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.92:
+	mov	r11d, r9d
+	cmp	r9d, 8
+	jb	.LBB4_93
+# %bb.527:
+	lea	rdx, [rcx + 4*r11]
+	cmp	rdx, r8
+	jbe	.LBB4_529
+# %bb.528:
+	lea	rdx, [r8 + 4*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_529
+.LBB4_93:
+	xor	edx, edx
+.LBB4_1257:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1259
+# %bb.1258:
+	mov	r9d, dword ptr [rcx + 4*rdx]
+	xor	r10d, r10d
+	test	r9d, r9d
+	setne	r10b
+	neg	r10d
+	test	r9d, r9d
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	dword ptr [r8 + 4*rdx], edi
+	or	rdx, 1
+.LBB4_1259:
+	add	rsi, r11
+	je	.LBB4_1655
+# %bb.1260:
+	mov	esi, 1
+.LBB4_1261:                             # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rdx]
+	xor	eax, eax
+	test	edi, edi
+	setne	al
+	neg	eax
+	test	edi, edi
+	cmovg	eax, esi
+	mov	dword ptr [r8 + 4*rdx], eax
+	mov	eax, dword ptr [rcx + 4*rdx + 4]
+	xor	edi, edi
+	test	eax, eax
+	setne	dil
+	neg	edi
+	test	eax, eax
+	cmovg	edi, esi
+	mov	dword ptr [r8 + 4*rdx + 4], edi
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1261
+	jmp	.LBB4_1655
+.LBB4_94:
+	cmp	esi, 8
+	jle	.LBB4_250
+# %bb.95:
+	cmp	esi, 9
+	je	.LBB4_363
+# %bb.96:
+	cmp	esi, 11
+	je	.LBB4_366
+# %bb.97:
+	cmp	esi, 12
+	jne	.LBB4_1655
+# %bb.98:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.99:
+	mov	edx, r9d
+	lea	rsi, [rdx - 1]
+	mov	eax, edx
+	and	eax, 3
+	cmp	rsi, 3
+	jae	.LBB4_532
+# %bb.100:
+	xor	esi, esi
+.LBB4_101:
+	test	rax, rax
+	je	.LBB4_1655
+# %bb.102:
+	lea	rdx, [r8 + 8*rsi]
+	lea	rcx, [rcx + 4*rsi]
+	xor	esi, esi
+	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
+	jmp	.LBB4_104
+.LBB4_103:                              #   in Loop: Header=BB4_104 Depth=1
+	movsd	qword ptr [rdx + 8*rsi], xmm1
+	add	rsi, 1
+	cmp	rax, rsi
+	je	.LBB4_1655
+.LBB4_104:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rsi], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_103
+# %bb.105:                              #   in Loop: Header=BB4_104 Depth=1
+	xorpd	xmm1, xmm1
+	jmp	.LBB4_103
+.LBB4_106:
+	cmp	esi, 8
+	jle	.LBB4_255
+# %bb.107:
+	cmp	esi, 9
+	je	.LBB4_369
+# %bb.108:
+	cmp	esi, 11
+	je	.LBB4_372
+# %bb.109:
+	cmp	esi, 12
+	jne	.LBB4_1655
+# %bb.110:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.111:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB4_112
+# %bb.542:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_544
+# %bb.543:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_544
+.LBB4_112:
+	xor	edx, edx
+.LBB4_1266:
+	mov	rsi, rdx
+	not	rsi
+	test	al, 1
+	je	.LBB4_1268
+# %bb.1267:
+	movsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	andpd	xmm1, xmm0
+	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
+	orpd	xmm2, xmm1
+	xorpd	xmm1, xmm1
+	cmpeqsd	xmm1, xmm0
+	andnpd	xmm1, xmm2
+	movlpd	qword ptr [r8 + 8*rdx], xmm1
+	or	rdx, 1
+.LBB4_1268:
+	add	rsi, rax
+	je	.LBB4_1655
+# %bb.1269:
+	movapd	xmm0, xmmword ptr [rip + .LCPI4_0] # xmm0 = [-0.0E+0,-0.0E+0]
+	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
+	xorpd	xmm2, xmm2
+.LBB4_1270:                             # =>This Inner Loop Header: Depth=1
+	movsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
+	movapd	xmm4, xmm3
+	andpd	xmm4, xmm0
+	orpd	xmm4, xmm1
+	cmpeqsd	xmm3, xmm2
+	andnpd	xmm3, xmm4
+	movlpd	qword ptr [r8 + 8*rdx], xmm3
+	movsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
+	movapd	xmm4, xmm3
+	andpd	xmm4, xmm0
+	orpd	xmm4, xmm1
+	cmpeqsd	xmm3, xmm2
+	andnpd	xmm3, xmm4
+	movlpd	qword ptr [r8 + 8*rdx + 8], xmm3
+	add	rdx, 2
+	cmp	rax, rdx
+	jne	.LBB4_1270
+	jmp	.LBB4_1655
+.LBB4_113:
+	cmp	esi, 8
+	jle	.LBB4_260
+# %bb.114:
+	cmp	esi, 9
+	je	.LBB4_375
+# %bb.115:
+	cmp	esi, 11
+	je	.LBB4_378
+# %bb.116:
+	cmp	esi, 12
+	jne	.LBB4_1655
+# %bb.117:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.118:
+	mov	edx, r9d
+	cmp	r9d, 1
+	jne	.LBB4_547
+# %bb.119:
+	xor	eax, eax
+.LBB4_120:
+	test	dl, 1
+	je	.LBB4_1655
+# %bb.121:
+	cmp	byte ptr [rcx + rax], 0
+	jne	.LBB4_982
+.LBB4_122:
+	xorpd	xmm0, xmm0
+	jmp	.LBB4_983
+.LBB4_123:
+	cmp	esi, 8
+	jle	.LBB4_265
+# %bb.124:
+	cmp	esi, 9
+	je	.LBB4_381
+# %bb.125:
+	cmp	esi, 11
+	je	.LBB4_384
+# %bb.126:
+	cmp	esi, 12
+	jne	.LBB4_1655
+# %bb.127:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.128:
+	mov	edx, r9d
+	lea	rsi, [rdx - 1]
+	mov	eax, edx
+	and	eax, 3
+	cmp	rsi, 3
+	jae	.LBB4_557
+# %bb.129:
+	xor	esi, esi
+.LBB4_130:
+	test	rax, rax
+	je	.LBB4_1655
+# %bb.131:
+	lea	rdx, [r8 + 8*rsi]
+	lea	rcx, [rcx + 8*rsi]
+	xor	esi, esi
+	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
+	jmp	.LBB4_133
+.LBB4_132:                              #   in Loop: Header=BB4_133 Depth=1
+	movsd	qword ptr [rdx + 8*rsi], xmm1
+	add	rsi, 1
+	cmp	rax, rsi
+	je	.LBB4_1655
+.LBB4_133:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rsi], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_132
+# %bb.134:                              #   in Loop: Header=BB4_133 Depth=1
+	xorpd	xmm1, xmm1
+	jmp	.LBB4_132
+.LBB4_135:
+	cmp	esi, 8
+	jle	.LBB4_270
+# %bb.136:
+	cmp	esi, 9
+	je	.LBB4_392
+# %bb.137:
+	cmp	esi, 11
+	je	.LBB4_395
+# %bb.138:
+	cmp	esi, 12
+	jne	.LBB4_1655
+# %bb.139:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.140:
+	mov	edx, r9d
+	lea	rsi, [rdx - 1]
+	mov	eax, edx
+	and	eax, 3
+	cmp	rsi, 3
+	jae	.LBB4_567
+# %bb.141:
+	xor	esi, esi
+.LBB4_142:
+	test	rax, rax
+	je	.LBB4_1655
+# %bb.143:
+	lea	rdx, [r8 + 8*rsi]
+	lea	rcx, [rcx + 2*rsi]
+	xor	esi, esi
+	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
+	jmp	.LBB4_145
+.LBB4_144:                              #   in Loop: Header=BB4_145 Depth=1
+	movsd	qword ptr [rdx + 8*rsi], xmm1
+	add	rsi, 1
+	cmp	rax, rsi
+	je	.LBB4_1655
+.LBB4_145:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rsi], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_144
+# %bb.146:                              #   in Loop: Header=BB4_145 Depth=1
+	xorpd	xmm1, xmm1
+	jmp	.LBB4_144
+.LBB4_147:
+	cmp	esi, 8
+	jle	.LBB4_275
+# %bb.148:
+	cmp	esi, 9
+	je	.LBB4_398
+# %bb.149:
+	cmp	esi, 11
+	je	.LBB4_401
+# %bb.150:
+	cmp	esi, 12
+	jne	.LBB4_1655
+# %bb.151:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.152:
+	mov	edx, r9d
+	cmp	r9d, 1
+	jne	.LBB4_577
+# %bb.153:
+	xor	eax, eax
+.LBB4_154:
+	test	dl, 1
+	je	.LBB4_1655
+# %bb.155:
+	cmp	word ptr [rcx + 2*rax], 0
+	je	.LBB4_122
+.LBB4_982:
+	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
+.LBB4_983:
+	jle	.LBB4_985
+# %bb.984:
+	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
+.LBB4_985:
+	movsd	qword ptr [r8 + 8*rax], xmm0
+	jmp	.LBB4_1655
+.LBB4_157:
+	cmp	esi, 8
+	jle	.LBB4_280
+# %bb.158:
+	cmp	esi, 9
+	je	.LBB4_404
+# %bb.159:
+	cmp	esi, 11
+	je	.LBB4_407
+# %bb.160:
+	cmp	esi, 12
+	jne	.LBB4_1655
+# %bb.161:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.162:
+	mov	edx, r9d
+	cmp	r9d, 1
+	jne	.LBB4_587
+# %bb.163:
+	xor	eax, eax
+.LBB4_164:
+	test	dl, 1
+	je	.LBB4_1655
+# %bb.165:
+	cmp	qword ptr [rcx + 8*rax], 0
+	je	.LBB4_122
+	jmp	.LBB4_982
+.LBB4_167:
+	cmp	esi, 8
+	jle	.LBB4_285
+# %bb.168:
+	cmp	esi, 9
+	je	.LBB4_413
+# %bb.169:
+	cmp	esi, 11
+	je	.LBB4_419
+# %bb.170:
+	cmp	esi, 12
+	jne	.LBB4_1655
+# %bb.171:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.172:
+	mov	edx, r9d
+	cmp	r9d, 1
+	jne	.LBB4_597
+# %bb.173:
+	xor	eax, eax
+.LBB4_174:
+	test	dl, 1
+	je	.LBB4_1655
+# %bb.175:
+	movss	xmm1, dword ptr [rcx + 4*rax]   # xmm1 = mem[0],zero,zero,zero
+	xorps	xmm0, xmm0
+	xorps	xmm2, xmm2
+	ucomiss	xmm2, xmm1
+	je	.LBB4_177
+# %bb.176:
+	movmskps	ecx, xmm1
+	and	ecx, 1
+	neg	ecx
+	or	ecx, 1
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, ecx
+	cvtss2sd	xmm0, xmm0
+.LBB4_177:
+	movsd	qword ptr [r8 + 8*rax], xmm0
+	jmp	.LBB4_1655
+.LBB4_178:
+	cmp	esi, 8
+	jle	.LBB4_293
+# %bb.179:
+	cmp	esi, 9
+	je	.LBB4_422
+# %bb.180:
+	cmp	esi, 11
+	je	.LBB4_425
+# %bb.181:
+	cmp	esi, 12
+	jne	.LBB4_1655
+# %bb.182:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.183:
+	mov	edx, r9d
+	lea	rsi, [rdx - 1]
+	mov	eax, edx
+	and	eax, 3
+	cmp	rsi, 3
+	jae	.LBB4_603
+# %bb.184:
+	xor	esi, esi
+.LBB4_185:
+	test	rax, rax
+	je	.LBB4_1655
+# %bb.186:
+	lea	rdx, [r8 + 8*rsi]
+	add	rcx, rsi
+	xor	esi, esi
+	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
+	jmp	.LBB4_188
+.LBB4_187:                              #   in Loop: Header=BB4_188 Depth=1
+	movsd	qword ptr [rdx + 8*rsi], xmm1
+	add	rsi, 1
+	cmp	rax, rsi
+	je	.LBB4_1655
+.LBB4_188:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rsi], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_187
+# %bb.189:                              #   in Loop: Header=BB4_188 Depth=1
+	xorpd	xmm1, xmm1
+	jmp	.LBB4_187
+.LBB4_190:
+	cmp	esi, 8
+	jle	.LBB4_298
+# %bb.191:
+	cmp	esi, 9
+	je	.LBB4_428
+# %bb.192:
+	cmp	esi, 11
+	je	.LBB4_431
+# %bb.193:
+	cmp	esi, 12
+	jne	.LBB4_1655
+# %bb.194:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.195:
+	mov	edx, r9d
+	cmp	r9d, 1
+	jne	.LBB4_613
+# %bb.196:
+	xor	eax, eax
+.LBB4_197:
+	test	dl, 1
+	je	.LBB4_1655
+# %bb.198:
+	cmp	dword ptr [rcx + 4*rax], 0
+	je	.LBB4_122
+	jmp	.LBB4_982
+.LBB4_200:
+	cmp	esi, 2
+	je	.LBB4_434
+# %bb.201:
+	cmp	esi, 3
+	jne	.LBB4_1655
+# %bb.202:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.203:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB4_204
+# %bb.623:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_625
+# %bb.624:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_625
+.LBB4_204:
+	xor	edx, edx
+.LBB4_1275:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1277
+.LBB4_1276:                             # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1276
+.LBB4_1277:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1278:                             # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	dword ptr [rcx + 4*rdx + 4], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	dword ptr [rcx + 4*rdx + 8], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	dword ptr [rcx + 4*rdx + 12], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1278
+	jmp	.LBB4_1655
+.LBB4_205:
+	cmp	esi, 2
+	je	.LBB4_437
+# %bb.206:
+	cmp	esi, 3
+	jne	.LBB4_1655
+# %bb.207:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.208:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB4_209
+# %bb.628:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_630
+# %bb.629:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_630
+.LBB4_209:
+	xor	edx, edx
+.LBB4_1283:
+	mov	rsi, rdx
+	not	rsi
+	test	al, 1
+	je	.LBB4_1285
+# %bb.1284:
+	movsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
+	xor	r9d, r9d
+	pxor	xmm1, xmm1
+	ucomisd	xmm1, xmm0
+	andpd	xmm0, xmmword ptr [rip + .LCPI4_0]
+	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
+	orpd	xmm1, xmm0
+	cvttsd2si	edi, xmm1
+	cmove	edi, r9d
+	mov	byte ptr [r8 + rdx], dil
+	or	rdx, 1
+.LBB4_1285:
+	add	rsi, rax
+	je	.LBB4_1655
+# %bb.1286:
+	xor	esi, esi
+	xorpd	xmm0, xmm0
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
+.LBB4_1287:                             # =>This Inner Loop Header: Depth=1
+	movsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
+	ucomisd	xmm0, xmm3
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm2
+	cvttsd2si	edi, xmm3
+	cmove	edi, esi
+	mov	byte ptr [r8 + rdx], dil
+	movsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
+	ucomisd	xmm0, xmm3
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm2
+	cvttsd2si	edi, xmm3
+	cmove	edi, esi
+	mov	byte ptr [r8 + rdx + 1], dil
+	add	rdx, 2
+	cmp	rax, rdx
+	jne	.LBB4_1287
+	jmp	.LBB4_1655
+.LBB4_210:
+	cmp	esi, 2
+	je	.LBB4_440
+# %bb.211:
+	cmp	esi, 3
+	jne	.LBB4_1655
+# %bb.212:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.213:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB4_214
+# %bb.633:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_635
+# %bb.634:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_635
+.LBB4_214:
+	xor	esi, esi
+.LBB4_1292:
+	mov	rax, rsi
+	not	rax
+	test	r10b, 1
+	je	.LBB4_1294
+# %bb.1293:
+	mov	dil, byte ptr [rcx + rsi]
+	test	dil, dil
+	setne	r9b
+	neg	r9b
+	test	dil, dil
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + rsi], dil
+	or	rsi, 1
+.LBB4_1294:
+	add	rax, r10
+	je	.LBB4_1655
+# %bb.1295:
+	mov	edi, 1
+.LBB4_1296:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	test	al, al
+	setne	dl
+	neg	dl
+	test	al, al
+	movzx	eax, dl
+	cmovg	eax, edi
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	test	al, al
+	setne	dl
+	neg	dl
+	test	al, al
+	movzx	eax, dl
+	cmovg	eax, edi
+	mov	byte ptr [r8 + rsi + 1], al
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB4_1296
+	jmp	.LBB4_1655
+.LBB4_215:
+	cmp	esi, 2
+	je	.LBB4_443
+# %bb.216:
+	cmp	esi, 3
+	jne	.LBB4_1655
+# %bb.217:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.218:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB4_219
+# %bb.638:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_640
+# %bb.639:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_640
+.LBB4_219:
+	xor	edx, edx
+.LBB4_1301:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1303
+.LBB4_1302:                             # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1302
+.LBB4_1303:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1304:                             # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	qword ptr [rcx + 8*rdx + 8], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	qword ptr [rcx + 8*rdx + 16], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	qword ptr [rcx + 8*rdx + 24], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1304
+	jmp	.LBB4_1655
+.LBB4_220:
+	cmp	esi, 2
+	je	.LBB4_446
+# %bb.221:
+	cmp	esi, 3
+	jne	.LBB4_1655
+# %bb.222:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.223:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB4_224
+# %bb.643:
+	lea	rdx, [rcx + 2*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_645
+# %bb.644:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_645
+.LBB4_224:
+	xor	edx, edx
+.LBB4_1309:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1311
+.LBB4_1310:                             # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1310
+.LBB4_1311:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1312:                             # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	word ptr [rcx + 2*rdx + 2], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	word ptr [rcx + 2*rdx + 4], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	word ptr [rcx + 2*rdx + 6], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1312
+	jmp	.LBB4_1655
+.LBB4_225:
+	cmp	esi, 2
+	je	.LBB4_449
+# %bb.226:
+	cmp	esi, 3
+	jne	.LBB4_1655
+# %bb.227:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.228:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_229
+# %bb.648:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_650
+# %bb.649:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_650
+.LBB4_229:
+	xor	esi, esi
+.LBB4_1317:
+	mov	rax, rsi
+	not	rax
+	test	r10b, 1
+	je	.LBB4_1319
+# %bb.1318:
+	movzx	edi, word ptr [rcx + 2*rsi]
+	test	di, di
+	setne	r9b
+	neg	r9b
+	test	di, di
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + rsi], dil
+	or	rsi, 1
+.LBB4_1319:
+	add	rax, r10
+	je	.LBB4_1655
+# %bb.1320:
+	mov	r9d, 1
+.LBB4_1321:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	test	di, di
+	setne	al
+	neg	al
+	test	di, di
+	movzx	eax, al
+	cmovg	eax, r9d
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	test	ax, ax
+	setne	dl
+	neg	dl
+	test	ax, ax
+	movzx	eax, dl
+	cmovg	eax, r9d
+	mov	byte ptr [r8 + rsi + 1], al
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB4_1321
+	jmp	.LBB4_1655
+.LBB4_230:
+	cmp	esi, 2
+	je	.LBB4_452
+# %bb.231:
+	cmp	esi, 3
+	jne	.LBB4_1655
+# %bb.232:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.233:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB4_234
+# %bb.653:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_655
+# %bb.654:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_655
+.LBB4_234:
+	xor	esi, esi
+.LBB4_1326:
+	mov	rdx, rsi
+	not	rdx
+	test	r10b, 1
+	je	.LBB4_1328
+# %bb.1327:
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	test	rdi, rdi
+	setne	al
+	neg	al
+	test	rdi, rdi
+	movzx	eax, al
+	mov	edi, 1
+	cmovle	edi, eax
+	mov	byte ptr [r8 + rsi], dil
+	or	rsi, 1
+.LBB4_1328:
+	add	rdx, r10
+	je	.LBB4_1655
+# %bb.1329:
+	mov	edi, 1
+.LBB4_1330:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	test	rax, rax
+	setne	dl
+	neg	dl
+	test	rax, rax
+	movzx	eax, dl
+	cmovg	eax, edi
+	mov	byte ptr [r8 + rsi], al
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	test	rax, rax
+	setne	dl
+	neg	dl
+	test	rax, rax
+	movzx	eax, dl
+	cmovg	eax, edi
+	mov	byte ptr [r8 + rsi + 1], al
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB4_1330
+	jmp	.LBB4_1655
+.LBB4_235:
+	cmp	esi, 2
+	je	.LBB4_455
+# %bb.236:
+	cmp	esi, 3
+	jne	.LBB4_1655
+# %bb.237:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.238:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB4_239
+# %bb.658:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_660
+# %bb.659:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_660
+.LBB4_239:
+	xor	edx, edx
+.LBB4_1335:
+	mov	rsi, rdx
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1337
+# %bb.1336:
+	movd	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
+	movd	edi, xmm0
+	test	edi, edi
+	setns	al
+	add	al, al
+	add	al, -1
+	xor	edi, edi
+	pxor	xmm1, xmm1
+	ucomiss	xmm1, xmm0
+	movzx	eax, al
+	cmove	eax, edi
+	mov	byte ptr [r8 + rdx], al
+	or	rdx, 1
+.LBB4_1337:
+	add	rsi, r10
+	je	.LBB4_1655
+# %bb.1338:
+	xor	esi, esi
+	xorps	xmm0, xmm0
+.LBB4_1339:                             # =>This Inner Loop Header: Depth=1
+	movd	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	movd	eax, xmm1
+	test	eax, eax
+	setns	al
+	add	al, al
+	add	al, -1
+	ucomiss	xmm0, xmm1
+	movzx	eax, al
+	cmove	eax, esi
+	mov	byte ptr [r8 + rdx], al
+	movd	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
+	movd	eax, xmm1
+	test	eax, eax
+	setns	al
+	add	al, al
+	add	al, -1
+	ucomiss	xmm0, xmm1
+	movzx	eax, al
+	cmove	eax, esi
+	mov	byte ptr [r8 + rdx + 1], al
+	add	rdx, 2
+	cmp	r10, rdx
+	jne	.LBB4_1339
+	jmp	.LBB4_1655
+.LBB4_240:
+	cmp	esi, 2
+	je	.LBB4_458
+# %bb.241:
+	cmp	esi, 3
+	jne	.LBB4_1655
+# %bb.242:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.243:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB4_244
+# %bb.663:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_665
+# %bb.664:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_665
+.LBB4_244:
+	xor	edx, edx
+.LBB4_1344:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1346
+.LBB4_1345:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1345
+.LBB4_1346:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1347:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1347
+	jmp	.LBB4_1655
+.LBB4_245:
+	cmp	esi, 2
+	je	.LBB4_461
+# %bb.246:
+	cmp	esi, 3
+	jne	.LBB4_1655
+# %bb.247:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.248:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB4_249
+# %bb.668:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_670
+# %bb.669:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_670
+.LBB4_249:
+	xor	esi, esi
+.LBB4_1352:
+	mov	rax, rsi
+	not	rax
+	test	r10b, 1
+	je	.LBB4_1354
+# %bb.1353:
+	mov	edi, dword ptr [rcx + 4*rsi]
+	test	edi, edi
+	setne	r9b
+	neg	r9b
+	test	edi, edi
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + rsi], dil
+	or	rsi, 1
+.LBB4_1354:
+	add	rax, r10
+	je	.LBB4_1655
+# %bb.1355:
+	mov	r9d, 1
+.LBB4_1356:                             # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	test	edi, edi
+	setne	al
+	neg	al
+	test	edi, edi
+	movzx	eax, al
+	cmovg	eax, r9d
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	test	eax, eax
+	setne	dl
+	neg	dl
+	test	eax, eax
+	movzx	eax, dl
+	cmovg	eax, r9d
+	mov	byte ptr [r8 + rsi + 1], al
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB4_1356
+	jmp	.LBB4_1655
+.LBB4_250:
+	cmp	esi, 7
+	je	.LBB4_464
+# %bb.251:
+	cmp	esi, 8
+	jne	.LBB4_1655
+# %bb.252:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.253:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jae	.LBB4_673
+# %bb.254:
+	xor	edx, edx
+	jmp	.LBB4_1003
+.LBB4_255:
+	cmp	esi, 7
+	je	.LBB4_467
+# %bb.256:
+	cmp	esi, 8
+	jne	.LBB4_1655
+# %bb.257:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.258:
+	mov	r10d, r9d
+	movabs	r11, -9223372036854775808
+	cmp	r9d, 1
+	jne	.LBB4_676
+# %bb.259:
+	xor	esi, esi
+	jmp	.LBB4_1008
+.LBB4_260:
+	cmp	esi, 7
+	je	.LBB4_470
+# %bb.261:
+	cmp	esi, 8
+	jne	.LBB4_1655
+# %bb.262:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.263:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB4_264
+# %bb.679:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_681
+# %bb.680:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_681
+.LBB4_264:
+	xor	edx, edx
+.LBB4_1361:
+	mov	rsi, rdx
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1363
+# %bb.1362:
+	mov	al, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	rdi
+	test	al, al
+	mov	eax, 1
+	cmovle	rax, rdi
+	mov	qword ptr [r8 + 8*rdx], rax
+	or	rdx, 1
+.LBB4_1363:
+	add	rsi, r10
+	je	.LBB4_1655
+# %bb.1364:
+	mov	esi, 1
+.LBB4_1365:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	rdi
+	test	al, al
+	cmovg	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx], rdi
+	movzx	eax, byte ptr [rcx + rdx + 1]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	rdi
+	test	al, al
+	cmovg	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx + 8], rdi
+	add	rdx, 2
+	cmp	r10, rdx
+	jne	.LBB4_1365
+	jmp	.LBB4_1655
+.LBB4_265:
+	cmp	esi, 7
+	je	.LBB4_473
+# %bb.266:
+	cmp	esi, 8
+	jne	.LBB4_1655
+# %bb.267:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.268:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB4_269
+# %bb.684:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_686
+# %bb.685:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_686
+.LBB4_269:
+	xor	edx, edx
+.LBB4_1370:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB4_1372
+.LBB4_1371:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx], rax
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1371
+.LBB4_1372:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1373:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx], rax
+	xor	eax, eax
+	cmp	qword ptr [rcx + 8*rdx + 8], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx + 8], rax
+	xor	eax, eax
+	cmp	qword ptr [rcx + 8*rdx + 16], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx + 16], rax
+	xor	eax, eax
+	cmp	qword ptr [rcx + 8*rdx + 24], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx + 24], rax
+	add	rdx, 4
+	cmp	r10, rdx
+	jne	.LBB4_1373
+	jmp	.LBB4_1655
+.LBB4_270:
+	cmp	esi, 7
+	je	.LBB4_476
+# %bb.271:
+	cmp	esi, 8
+	jne	.LBB4_1655
+# %bb.272:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.273:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jae	.LBB4_689
+# %bb.274:
+	xor	edx, edx
+	jmp	.LBB4_1014
+.LBB4_275:
+	cmp	esi, 7
+	je	.LBB4_479
+# %bb.276:
+	cmp	esi, 8
+	jne	.LBB4_1655
+# %bb.277:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.278:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB4_692
+# %bb.279:
+	xor	edx, edx
+	jmp	.LBB4_1019
+.LBB4_280:
+	cmp	esi, 7
+	je	.LBB4_482
+# %bb.281:
+	cmp	esi, 8
+	jne	.LBB4_1655
+# %bb.282:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.283:
+	mov	r11d, r9d
+	cmp	r9d, 4
+	jb	.LBB4_284
+# %bb.695:
+	lea	rdx, [rcx + 8*r11]
+	cmp	rdx, r8
+	jbe	.LBB4_697
+# %bb.696:
+	lea	rdx, [r8 + 8*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_697
+.LBB4_284:
+	xor	edx, edx
+.LBB4_1378:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1380
+# %bb.1379:
+	mov	r9, qword ptr [rcx + 8*rdx]
+	xor	r10d, r10d
+	test	r9, r9
+	setne	r10b
+	neg	r10
+	test	r9, r9
+	mov	edi, 1
+	cmovle	rdi, r10
+	mov	qword ptr [r8 + 8*rdx], rdi
+	or	rdx, 1
+.LBB4_1380:
+	add	rsi, r11
+	je	.LBB4_1655
+# %bb.1381:
+	mov	esi, 1
+.LBB4_1382:                             # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rdx]
+	xor	eax, eax
+	test	rdi, rdi
+	setne	al
+	neg	rax
+	test	rdi, rdi
+	cmovg	rax, rsi
+	mov	qword ptr [r8 + 8*rdx], rax
+	mov	rax, qword ptr [rcx + 8*rdx + 8]
+	xor	edi, edi
+	test	rax, rax
+	setne	dil
+	neg	rdi
+	test	rax, rax
+	cmovg	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx + 8], rdi
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1382
+	jmp	.LBB4_1655
+.LBB4_285:
+	cmp	esi, 7
+	je	.LBB4_485
+# %bb.286:
+	cmp	esi, 8
+	jne	.LBB4_1655
+# %bb.287:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.288:
+	mov	r10d, r9d
+	cmp	r9d, 1
+	jne	.LBB4_700
+# %bb.289:
+	xor	eax, eax
+	jmp	.LBB4_290
+.LBB4_293:
+	cmp	esi, 7
+	je	.LBB4_488
+# %bb.294:
+	cmp	esi, 8
+	jne	.LBB4_1655
+# %bb.295:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.296:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB4_297
+# %bb.708:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_710
+# %bb.709:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_710
+.LBB4_297:
+	xor	edx, edx
+.LBB4_1387:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB4_1389
+.LBB4_1388:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx], rax
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1388
+.LBB4_1389:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1390:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx], rax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx + 8], rax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx + 16], rax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx + 24], rax
+	add	rdx, 4
+	cmp	r10, rdx
+	jne	.LBB4_1390
+	jmp	.LBB4_1655
+.LBB4_298:
+	cmp	esi, 7
+	je	.LBB4_491
+# %bb.299:
+	cmp	esi, 8
+	jne	.LBB4_1655
+# %bb.300:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.301:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB4_713
+# %bb.302:
+	xor	edx, edx
+	jmp	.LBB4_1025
+.LBB4_303:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.304:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jae	.LBB4_716
+# %bb.305:
+	xor	edx, edx
+	jmp	.LBB4_1141
+.LBB4_306:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.307:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jae	.LBB4_719
+# %bb.308:
+	xor	edx, edx
+	jmp	.LBB4_1146
+.LBB4_309:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.310:
+	mov	eax, r9d
+	xor	r10d, r10d
+	cmp	r9d, 4
+	jae	.LBB4_722
+# %bb.311:
+	xor	esi, esi
+	jmp	.LBB4_1151
+.LBB4_312:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.313:
+	mov	eax, r9d
+	xor	r10d, r10d
+	cmp	r9d, 4
+	jae	.LBB4_725
+# %bb.314:
+	xor	esi, esi
+	jmp	.LBB4_1157
+.LBB4_315:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.316:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_317
+# %bb.728:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_730
+# %bb.729:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_730
+.LBB4_317:
+	xor	edx, edx
+.LBB4_1395:
+	mov	rsi, rdx
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1397
+# %bb.1396:
+	mov	r9b, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	r9b, r9b
+	setne	dil
+	neg	edi
+	test	r9b, r9b
+	mov	eax, 1
+	cmovle	eax, edi
+	mov	word ptr [r8 + 2*rdx], ax
+	or	rdx, 1
+.LBB4_1397:
+	add	rsi, r10
+	je	.LBB4_1655
+# %bb.1398:
+	mov	esi, 1
+.LBB4_1399:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	word ptr [r8 + 2*rdx], di
+	movzx	eax, byte ptr [rcx + rdx + 1]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	word ptr [r8 + 2*rdx + 2], di
+	add	rdx, 2
+	cmp	r10, rdx
+	jne	.LBB4_1399
+	jmp	.LBB4_1655
+.LBB4_318:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.319:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_320
+# %bb.733:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_735
+# %bb.734:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_735
+.LBB4_320:
+	xor	edx, edx
+.LBB4_1404:
+	mov	rsi, rdx
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1406
+# %bb.1405:
+	mov	r9b, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	r9b, r9b
+	setne	dil
+	neg	edi
+	test	r9b, r9b
+	mov	eax, 1
+	cmovle	eax, edi
+	mov	word ptr [r8 + 2*rdx], ax
+	or	rdx, 1
+.LBB4_1406:
+	add	rsi, r10
+	je	.LBB4_1655
+# %bb.1407:
+	mov	esi, 1
+.LBB4_1408:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	word ptr [r8 + 2*rdx], di
+	movzx	eax, byte ptr [rcx + rdx + 1]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	word ptr [r8 + 2*rdx + 2], di
+	add	rdx, 2
+	cmp	r10, rdx
+	jne	.LBB4_1408
+	jmp	.LBB4_1655
+.LBB4_321:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.322:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jae	.LBB4_738
+# %bb.323:
+	xor	edx, edx
+	jmp	.LBB4_1031
+.LBB4_324:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.325:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jae	.LBB4_741
+# %bb.326:
+	xor	edx, edx
+	jmp	.LBB4_1036
+.LBB4_327:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.328:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_329
+# %bb.744:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_746
+# %bb.745:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_746
+.LBB4_329:
+	xor	edx, edx
+.LBB4_1413:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB4_1415
+.LBB4_1414:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx], ax
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1414
+.LBB4_1415:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1416:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx], ax
+	xor	eax, eax
+	cmp	word ptr [rcx + 2*rdx + 2], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx + 2], ax
+	xor	eax, eax
+	cmp	word ptr [rcx + 2*rdx + 4], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx + 4], ax
+	xor	eax, eax
+	cmp	word ptr [rcx + 2*rdx + 6], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx + 6], ax
+	add	rdx, 4
+	cmp	r10, rdx
+	jne	.LBB4_1416
+	jmp	.LBB4_1655
+.LBB4_330:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.331:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_332
+# %bb.749:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_751
+# %bb.750:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_751
+.LBB4_332:
+	xor	edx, edx
+.LBB4_1421:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB4_1423
+.LBB4_1422:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx], ax
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1422
+.LBB4_1423:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1424:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx], ax
+	xor	eax, eax
+	cmp	word ptr [rcx + 2*rdx + 2], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx + 2], ax
+	xor	eax, eax
+	cmp	word ptr [rcx + 2*rdx + 4], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx + 4], ax
+	xor	eax, eax
+	cmp	word ptr [rcx + 2*rdx + 6], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx + 6], ax
+	add	rdx, 4
+	cmp	r10, rdx
+	jne	.LBB4_1424
+	jmp	.LBB4_1655
+.LBB4_333:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.334:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_335
+# %bb.754:
+	lea	rdx, [rcx + 2*r11]
+	cmp	rdx, r8
+	jbe	.LBB4_756
+# %bb.755:
+	lea	rdx, [r8 + 2*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_756
+.LBB4_335:
+	xor	edx, edx
+.LBB4_1429:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1431
+# %bb.1430:
+	movzx	r9d, word ptr [rcx + 2*rdx]
+	xor	r10d, r10d
+	test	r9w, r9w
+	setne	r10b
+	neg	r10d
+	test	r9w, r9w
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	word ptr [r8 + 2*rdx], di
+	or	rdx, 1
+.LBB4_1431:
+	add	rsi, r11
+	je	.LBB4_1655
+# %bb.1432:
+	mov	esi, 1
+.LBB4_1433:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rdx]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	eax
+	test	di, di
+	cmovg	eax, esi
+	mov	word ptr [r8 + 2*rdx], ax
+	movzx	eax, word ptr [rcx + 2*rdx + 2]
+	xor	edi, edi
+	test	ax, ax
+	setne	dil
+	neg	edi
+	test	ax, ax
+	cmovg	edi, esi
+	mov	word ptr [r8 + 2*rdx + 2], di
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1433
+	jmp	.LBB4_1655
+.LBB4_336:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.337:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_338
+# %bb.759:
+	lea	rdx, [rcx + 2*r11]
+	cmp	rdx, r8
+	jbe	.LBB4_761
+# %bb.760:
+	lea	rdx, [r8 + 2*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_761
+.LBB4_338:
+	xor	edx, edx
+.LBB4_1438:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1440
+# %bb.1439:
+	movzx	r9d, word ptr [rcx + 2*rdx]
+	xor	r10d, r10d
+	test	r9w, r9w
+	setne	r10b
+	neg	r10d
+	test	r9w, r9w
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	word ptr [r8 + 2*rdx], di
+	or	rdx, 1
+.LBB4_1440:
+	add	rsi, r11
+	je	.LBB4_1655
+# %bb.1441:
+	mov	esi, 1
+.LBB4_1442:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rdx]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	eax
+	test	di, di
+	cmovg	eax, esi
+	mov	word ptr [r8 + 2*rdx], ax
+	movzx	eax, word ptr [rcx + 2*rdx + 2]
+	xor	edi, edi
+	test	ax, ax
+	setne	dil
+	neg	edi
+	test	ax, ax
+	cmovg	edi, esi
+	mov	word ptr [r8 + 2*rdx + 2], di
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1442
+	jmp	.LBB4_1655
+.LBB4_339:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.340:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB4_764
+# %bb.341:
+	xor	edx, edx
+	jmp	.LBB4_1041
+.LBB4_342:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.343:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB4_767
+# %bb.344:
+	xor	edx, edx
+	jmp	.LBB4_1163
+.LBB4_345:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.346:
+	mov	eax, r9d
+	xor	r10d, r10d
+	cmp	r9d, 8
+	jae	.LBB4_770
+# %bb.347:
+	xor	esi, esi
+	jmp	.LBB4_1169
+.LBB4_348:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.349:
+	mov	eax, r9d
+	xor	r10d, r10d
+	cmp	r9d, 8
+	jae	.LBB4_773
+# %bb.350:
+	xor	esi, esi
+	jmp	.LBB4_1175
+.LBB4_351:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.352:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_353
+# %bb.776:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_778
+# %bb.777:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_778
+.LBB4_353:
+	xor	edx, edx
+.LBB4_1447:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB4_1449
+.LBB4_1448:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx], ax
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1448
+.LBB4_1449:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1450:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx], ax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx + 2], ax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx + 4], ax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx + 6], ax
+	add	rdx, 4
+	cmp	r10, rdx
+	jne	.LBB4_1450
+	jmp	.LBB4_1655
+.LBB4_354:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.355:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_356
+# %bb.781:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_783
+# %bb.782:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_783
+.LBB4_356:
+	xor	edx, edx
+.LBB4_1455:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB4_1457
+.LBB4_1456:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx], ax
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1456
+.LBB4_1457:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1458:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx], ax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx + 2], ax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx + 4], ax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	al
+	mov	word ptr [r8 + 2*rdx + 6], ax
+	add	rdx, 4
+	cmp	r10, rdx
+	jne	.LBB4_1458
+	jmp	.LBB4_1655
+.LBB4_357:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.358:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB4_786
+# %bb.359:
+	xor	edx, edx
+	jmp	.LBB4_1047
+.LBB4_360:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.361:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB4_789
+# %bb.362:
+	xor	edx, edx
+	jmp	.LBB4_1053
+.LBB4_363:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.364:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jae	.LBB4_792
+# %bb.365:
+	xor	edx, edx
+	jmp	.LBB4_1181
+.LBB4_366:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.367:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jae	.LBB4_795
+# %bb.368:
+	xor	edx, edx
+	jmp	.LBB4_1186
+.LBB4_369:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.370:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jae	.LBB4_798
+# %bb.371:
+	xor	edx, edx
+	jmp	.LBB4_1194
+.LBB4_372:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.373:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jae	.LBB4_801
+# %bb.374:
+	xor	edx, edx
+	jmp	.LBB4_1200
+.LBB4_375:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.376:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB4_377
+# %bb.804:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_806
+# %bb.805:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_806
+.LBB4_377:
+	xor	edx, edx
+.LBB4_1463:
+	mov	rsi, rdx
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1465
+# %bb.1464:
+	mov	al, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	rdi
+	test	al, al
+	mov	eax, 1
+	cmovle	rax, rdi
+	mov	qword ptr [r8 + 8*rdx], rax
+	or	rdx, 1
+.LBB4_1465:
+	add	rsi, r10
+	je	.LBB4_1655
+# %bb.1466:
+	mov	esi, 1
+.LBB4_1467:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	rdi
+	test	al, al
+	cmovg	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx], rdi
+	movzx	eax, byte ptr [rcx + rdx + 1]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	rdi
+	test	al, al
+	cmovg	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx + 8], rdi
+	add	rdx, 2
+	cmp	r10, rdx
+	jne	.LBB4_1467
+	jmp	.LBB4_1655
+.LBB4_378:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.379:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB4_380
+# %bb.809:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_811
+# %bb.810:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_811
+.LBB4_380:
+	xor	edx, edx
+.LBB4_1472:
+	mov	rsi, rdx
+	not	rsi
+	test	al, 1
+	je	.LBB4_1479
+# %bb.1473:
+	cmp	byte ptr [rcx + rdx], 0
+	jne	.LBB4_1475
+# %bb.1474:
+	pxor	xmm0, xmm0
+	jmp	.LBB4_1476
+.LBB4_381:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.382:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB4_383
+# %bb.814:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_816
+# %bb.815:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_816
+.LBB4_383:
+	xor	edx, edx
+.LBB4_1494:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB4_1496
+.LBB4_1495:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx], rax
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1495
+.LBB4_1496:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1497:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx], rax
+	xor	eax, eax
+	cmp	qword ptr [rcx + 8*rdx + 8], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx + 8], rax
+	xor	eax, eax
+	cmp	qword ptr [rcx + 8*rdx + 16], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx + 16], rax
+	xor	eax, eax
+	cmp	qword ptr [rcx + 8*rdx + 24], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx + 24], rax
+	add	rdx, 4
+	cmp	r10, rdx
+	jne	.LBB4_1497
+	jmp	.LBB4_1655
+.LBB4_384:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.385:
+	mov	edx, r9d
+	lea	rsi, [rdx - 1]
+	mov	eax, edx
+	and	eax, 3
+	cmp	rsi, 3
+	jae	.LBB4_819
+# %bb.386:
+	xor	esi, esi
+.LBB4_387:
+	test	rax, rax
+	je	.LBB4_1655
+# %bb.388:
+	lea	rdx, [r8 + 4*rsi]
+	lea	rcx, [rcx + 8*rsi]
+	xor	esi, esi
+	movss	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+	jmp	.LBB4_390
+.LBB4_389:                              #   in Loop: Header=BB4_390 Depth=1
+	movss	dword ptr [rdx + 4*rsi], xmm1
+	add	rsi, 1
+	cmp	rax, rsi
+	je	.LBB4_1655
+.LBB4_390:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rsi], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_389
+# %bb.391:                              #   in Loop: Header=BB4_390 Depth=1
+	xorpd	xmm1, xmm1
+	jmp	.LBB4_389
+.LBB4_392:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.393:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jae	.LBB4_829
+# %bb.394:
+	xor	edx, edx
+	jmp	.LBB4_1059
+.LBB4_395:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.396:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jae	.LBB4_832
+# %bb.397:
+	xor	edx, edx
+	jmp	.LBB4_1208
+.LBB4_398:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.399:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB4_835
+# %bb.400:
+	xor	edx, edx
+	jmp	.LBB4_1216
+.LBB4_401:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.402:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jae	.LBB4_838
+# %bb.403:
+	xor	edx, edx
+	jmp	.LBB4_1222
+.LBB4_404:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.405:
+	mov	r11d, r9d
+	cmp	r9d, 4
+	jb	.LBB4_406
+# %bb.841:
+	lea	rdx, [rcx + 8*r11]
+	cmp	rdx, r8
+	jbe	.LBB4_843
+# %bb.842:
+	lea	rdx, [r8 + 8*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_843
+.LBB4_406:
+	xor	edx, edx
+.LBB4_1502:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1504
+# %bb.1503:
+	mov	r9, qword ptr [rcx + 8*rdx]
+	xor	r10d, r10d
+	test	r9, r9
+	setne	r10b
+	neg	r10
+	test	r9, r9
+	mov	edi, 1
+	cmovle	rdi, r10
+	mov	qword ptr [r8 + 8*rdx], rdi
+	or	rdx, 1
+.LBB4_1504:
+	add	rsi, r11
+	je	.LBB4_1655
+# %bb.1505:
+	mov	esi, 1
+.LBB4_1506:                             # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rdx]
+	xor	eax, eax
+	test	rdi, rdi
+	setne	al
+	neg	rax
+	test	rdi, rdi
+	cmovg	rax, rsi
+	mov	qword ptr [r8 + 8*rdx], rax
+	mov	rax, qword ptr [rcx + 8*rdx + 8]
+	xor	edi, edi
+	test	rax, rax
+	setne	dil
+	neg	rdi
+	test	rax, rax
+	cmovg	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx + 8], rdi
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1506
+	jmp	.LBB4_1655
+.LBB4_407:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.408:
+	mov	edx, r9d
+	cmp	r9d, 1
+	jne	.LBB4_846
+# %bb.409:
+	xor	eax, eax
+.LBB4_410:
+	test	dl, 1
+	je	.LBB4_1655
+# %bb.411:
+	cmp	qword ptr [rcx + 8*rax], 0
+	jne	.LBB4_989
+# %bb.412:
+	xorpd	xmm0, xmm0
+	jmp	.LBB4_990
+.LBB4_413:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.414:
+	mov	edx, r9d
+	cmp	r9d, 1
+	jne	.LBB4_856
+# %bb.415:
+	xor	eax, eax
+	jmp	.LBB4_416
+.LBB4_419:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.420:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB4_421
+# %bb.864:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_866
+# %bb.865:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_866
+.LBB4_421:
+	xor	edx, edx
+.LBB4_869:
+	mov	rsi, rdx
+	not	rsi
+	test	al, 1
+	je	.LBB4_871
+# %bb.870:
+	movss	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
+	movmskps	edi, xmm0
+	and	edi, 1
+	neg	edi
+	or	edi, 1
+	xorps	xmm1, xmm1
+	cvtsi2ss	xmm1, edi
+	xorps	xmm2, xmm2
+	cmpeqss	xmm2, xmm0
+	andnps	xmm2, xmm1
+	movss	dword ptr [r8 + 4*rdx], xmm2
+	or	rdx, 1
+.LBB4_871:
+	add	rsi, rax
+	je	.LBB4_1655
+# %bb.872:
+	xorps	xmm0, xmm0
+.LBB4_873:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	movmskps	esi, xmm1
+	and	esi, 1
+	neg	esi
+	or	esi, 1
+	xorps	xmm2, xmm2
+	cvtsi2ss	xmm2, esi
+	cmpeqss	xmm1, xmm0
+	andnps	xmm1, xmm2
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
+	movmskps	esi, xmm1
+	and	esi, 1
+	neg	esi
+	or	esi, 1
+	xorps	xmm2, xmm2
+	cvtsi2ss	xmm2, esi
+	cmpeqss	xmm1, xmm0
+	andnps	xmm1, xmm2
+	movss	dword ptr [r8 + 4*rdx + 4], xmm1
+	add	rdx, 2
+	cmp	rax, rdx
+	jne	.LBB4_873
+	jmp	.LBB4_1655
+.LBB4_422:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.423:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB4_424
+# %bb.874:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_876
+# %bb.875:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_876
+.LBB4_424:
+	xor	edx, edx
+.LBB4_1511:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB4_1513
+.LBB4_1512:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx], rax
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1512
+.LBB4_1513:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1514:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx], rax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx + 8], rax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx + 16], rax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	al
+	mov	qword ptr [r8 + 8*rdx + 24], rax
+	add	rdx, 4
+	cmp	r10, rdx
+	jne	.LBB4_1514
+	jmp	.LBB4_1655
+.LBB4_425:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.426:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB4_427
+# %bb.879:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_881
+# %bb.880:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_881
+.LBB4_427:
+	xor	edx, edx
+.LBB4_1519:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1524
+# %bb.1520:
+	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+	jmp	.LBB4_1522
+.LBB4_1521:                             #   in Loop: Header=BB4_1522 Depth=1
+	movd	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	je	.LBB4_1524
+.LBB4_1522:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	movdqa	xmm1, xmm0
+	jne	.LBB4_1521
+# %bb.1523:                             #   in Loop: Header=BB4_1522 Depth=1
+	pxor	xmm1, xmm1
+	jmp	.LBB4_1521
+.LBB4_428:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.429:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB4_884
+# %bb.430:
+	xor	edx, edx
+	jmp	.LBB4_1064
+.LBB4_431:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.432:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jae	.LBB4_887
+# %bb.433:
+	xor	edx, edx
+	jmp	.LBB4_1070
+.LBB4_434:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.435:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB4_436
+# %bb.890:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_892
+# %bb.891:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_892
+.LBB4_436:
+	xor	edx, edx
+.LBB4_1539:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1541
+.LBB4_1540:                             # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1540
+.LBB4_1541:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1542:                             # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	dword ptr [rcx + 4*rdx + 4], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	dword ptr [rcx + 4*rdx + 8], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	dword ptr [rcx + 4*rdx + 12], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1542
+	jmp	.LBB4_1655
+.LBB4_437:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.438:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB4_439
+# %bb.895:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_897
+# %bb.896:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_897
+.LBB4_439:
+	xor	edx, edx
+.LBB4_1547:
+	mov	rsi, rdx
+	not	rsi
+	test	al, 1
+	je	.LBB4_1549
+# %bb.1548:
+	movsd	xmm0, qword ptr [rcx + 8*rdx]   # xmm0 = mem[0],zero
+	xor	r9d, r9d
+	pxor	xmm1, xmm1
+	ucomisd	xmm1, xmm0
+	andpd	xmm0, xmmword ptr [rip + .LCPI4_0]
+	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
+	orpd	xmm1, xmm0
+	cvttsd2si	edi, xmm1
+	cmove	edi, r9d
+	mov	byte ptr [r8 + rdx], dil
+	or	rdx, 1
+.LBB4_1549:
+	add	rsi, rax
+	je	.LBB4_1655
+# %bb.1550:
+	xor	esi, esi
+	xorpd	xmm0, xmm0
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
+.LBB4_1551:                             # =>This Inner Loop Header: Depth=1
+	movsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
+	ucomisd	xmm0, xmm3
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm2
+	cvttsd2si	edi, xmm3
+	cmove	edi, esi
+	mov	byte ptr [r8 + rdx], dil
+	movsd	xmm3, qword ptr [rcx + 8*rdx + 8] # xmm3 = mem[0],zero
+	ucomisd	xmm0, xmm3
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm2
+	cvttsd2si	edi, xmm3
+	cmove	edi, esi
+	mov	byte ptr [r8 + rdx + 1], dil
+	add	rdx, 2
+	cmp	rax, rdx
+	jne	.LBB4_1551
+	jmp	.LBB4_1655
+.LBB4_440:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.441:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB4_442
+# %bb.900:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_902
+# %bb.901:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_902
+.LBB4_442:
+	xor	esi, esi
+.LBB4_1556:
+	mov	rax, rsi
+	not	rax
+	test	r10b, 1
+	je	.LBB4_1558
+# %bb.1557:
+	mov	dil, byte ptr [rcx + rsi]
+	test	dil, dil
+	setne	r9b
+	neg	r9b
+	test	dil, dil
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + rsi], dil
+	or	rsi, 1
+.LBB4_1558:
+	add	rax, r10
+	je	.LBB4_1655
+# %bb.1559:
+	mov	edi, 1
+.LBB4_1560:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	test	al, al
+	setne	dl
+	neg	dl
+	test	al, al
+	movzx	eax, dl
+	cmovg	eax, edi
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	test	al, al
+	setne	dl
+	neg	dl
+	test	al, al
+	movzx	eax, dl
+	cmovg	eax, edi
+	mov	byte ptr [r8 + rsi + 1], al
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB4_1560
+	jmp	.LBB4_1655
+.LBB4_443:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.444:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB4_445
+# %bb.905:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_907
+# %bb.906:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_907
+.LBB4_445:
+	xor	edx, edx
+.LBB4_1565:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1567
+.LBB4_1566:                             # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1566
+.LBB4_1567:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1568:                             # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	qword ptr [rcx + 8*rdx + 8], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	qword ptr [rcx + 8*rdx + 16], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	qword ptr [rcx + 8*rdx + 24], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1568
+	jmp	.LBB4_1655
+.LBB4_446:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.447:
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB4_448
+# %bb.910:
+	lea	rdx, [rcx + 2*rax]
+	cmp	rdx, r8
+	jbe	.LBB4_912
+# %bb.911:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_912
+.LBB4_448:
+	xor	edx, edx
+.LBB4_1573:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1575
+.LBB4_1574:                             # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1574
+.LBB4_1575:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1576:                             # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	word ptr [rcx + 2*rdx + 2], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	word ptr [rcx + 2*rdx + 4], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	word ptr [rcx + 2*rdx + 6], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1576
+	jmp	.LBB4_1655
+.LBB4_449:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.450:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB4_451
+# %bb.915:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_917
+# %bb.916:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_917
+.LBB4_451:
+	xor	esi, esi
+.LBB4_1581:
+	mov	rax, rsi
+	not	rax
+	test	r10b, 1
+	je	.LBB4_1583
+# %bb.1582:
+	movzx	edi, word ptr [rcx + 2*rsi]
+	test	di, di
+	setne	r9b
+	neg	r9b
+	test	di, di
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + rsi], dil
+	or	rsi, 1
+.LBB4_1583:
+	add	rax, r10
+	je	.LBB4_1655
+# %bb.1584:
+	mov	r9d, 1
+.LBB4_1585:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	test	di, di
+	setne	al
+	neg	al
+	test	di, di
+	movzx	eax, al
+	cmovg	eax, r9d
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	test	ax, ax
+	setne	dl
+	neg	dl
+	test	ax, ax
+	movzx	eax, dl
+	cmovg	eax, r9d
+	mov	byte ptr [r8 + rsi + 1], al
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB4_1585
+	jmp	.LBB4_1655
+.LBB4_452:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.453:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB4_454
+# %bb.920:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_922
+# %bb.921:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_922
+.LBB4_454:
+	xor	esi, esi
+.LBB4_1590:
+	mov	rdx, rsi
+	not	rdx
+	test	r10b, 1
+	je	.LBB4_1592
+# %bb.1591:
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	test	rdi, rdi
+	setne	al
+	neg	al
+	test	rdi, rdi
+	movzx	eax, al
+	mov	edi, 1
+	cmovle	edi, eax
+	mov	byte ptr [r8 + rsi], dil
+	or	rsi, 1
+.LBB4_1592:
+	add	rdx, r10
+	je	.LBB4_1655
+# %bb.1593:
+	mov	edi, 1
+.LBB4_1594:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	test	rax, rax
+	setne	dl
+	neg	dl
+	test	rax, rax
+	movzx	eax, dl
+	cmovg	eax, edi
+	mov	byte ptr [r8 + rsi], al
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	test	rax, rax
+	setne	dl
+	neg	dl
+	test	rax, rax
+	movzx	eax, dl
+	cmovg	eax, edi
+	mov	byte ptr [r8 + rsi + 1], al
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB4_1594
+	jmp	.LBB4_1655
+.LBB4_455:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.456:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB4_457
+# %bb.925:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_927
+# %bb.926:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_927
+.LBB4_457:
+	xor	edx, edx
+.LBB4_1599:
+	mov	rsi, rdx
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1601
+# %bb.1600:
+	movd	xmm0, dword ptr [rcx + 4*rdx]   # xmm0 = mem[0],zero,zero,zero
+	movd	edi, xmm0
+	test	edi, edi
+	setns	al
+	add	al, al
+	add	al, -1
+	xor	edi, edi
+	pxor	xmm1, xmm1
+	ucomiss	xmm1, xmm0
+	movzx	eax, al
+	cmove	eax, edi
+	mov	byte ptr [r8 + rdx], al
+	or	rdx, 1
+.LBB4_1601:
+	add	rsi, r10
+	je	.LBB4_1655
+# %bb.1602:
+	xor	esi, esi
+	xorps	xmm0, xmm0
+.LBB4_1603:                             # =>This Inner Loop Header: Depth=1
+	movd	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	movd	eax, xmm1
+	test	eax, eax
+	setns	al
+	add	al, al
+	add	al, -1
+	ucomiss	xmm0, xmm1
+	movzx	eax, al
+	cmove	eax, esi
+	mov	byte ptr [r8 + rdx], al
+	movd	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
+	movd	eax, xmm1
+	test	eax, eax
+	setns	al
+	add	al, al
+	add	al, -1
+	ucomiss	xmm0, xmm1
+	movzx	eax, al
+	cmove	eax, esi
+	mov	byte ptr [r8 + rdx + 1], al
+	add	rdx, 2
+	cmp	r10, rdx
+	jne	.LBB4_1603
+	jmp	.LBB4_1655
+.LBB4_458:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.459:
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB4_460
+# %bb.930:
+	lea	rdx, [rcx + rax]
+	cmp	rdx, r8
+	jbe	.LBB4_932
+# %bb.931:
+	lea	rdx, [r8 + rax]
+	cmp	rdx, rcx
+	jbe	.LBB4_932
+.LBB4_460:
+	xor	edx, edx
+.LBB4_1608:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB4_1610
+.LBB4_1609:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	setne	byte ptr [r8 + rdx]
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1609
+.LBB4_1610:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1611:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	setne	byte ptr [r8 + rdx]
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	byte ptr [r8 + rdx + 1]
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	byte ptr [r8 + rdx + 2]
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	byte ptr [r8 + rdx + 3]
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB4_1611
+	jmp	.LBB4_1655
+.LBB4_461:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.462:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB4_463
+# %bb.935:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_937
+# %bb.936:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_937
+.LBB4_463:
+	xor	esi, esi
+.LBB4_1616:
+	mov	rax, rsi
+	not	rax
+	test	r10b, 1
+	je	.LBB4_1618
+# %bb.1617:
+	mov	edi, dword ptr [rcx + 4*rsi]
+	test	edi, edi
+	setne	r9b
+	neg	r9b
+	test	edi, edi
+	movzx	r9d, r9b
+	mov	edi, 1
+	cmovle	edi, r9d
+	mov	byte ptr [r8 + rsi], dil
+	or	rsi, 1
+.LBB4_1618:
+	add	rax, r10
+	je	.LBB4_1655
+# %bb.1619:
+	mov	r9d, 1
+.LBB4_1620:                             # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	test	edi, edi
+	setne	al
+	neg	al
+	test	edi, edi
+	movzx	eax, al
+	cmovg	eax, r9d
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	test	eax, eax
+	setne	dl
+	neg	dl
+	test	eax, eax
+	movzx	eax, dl
+	cmovg	eax, r9d
+	mov	byte ptr [r8 + rsi + 1], al
+	add	rsi, 2
+	cmp	r10, rsi
+	jne	.LBB4_1620
+	jmp	.LBB4_1655
+.LBB4_464:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.465:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB4_466
+# %bb.940:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB4_942
+# %bb.941:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_942
+.LBB4_466:
+	xor	edx, edx
+.LBB4_1625:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB4_1627
+.LBB4_1626:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx], eax
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1626
+.LBB4_1627:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1628:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx], eax
+	xor	eax, eax
+	cmp	dword ptr [rcx + 4*rdx + 4], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx + 4], eax
+	xor	eax, eax
+	cmp	dword ptr [rcx + 4*rdx + 8], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx + 8], eax
+	xor	eax, eax
+	cmp	dword ptr [rcx + 4*rdx + 12], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx + 12], eax
+	add	rdx, 4
+	cmp	r10, rdx
+	jne	.LBB4_1628
+	jmp	.LBB4_1655
+.LBB4_467:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.468:
+	mov	eax, r9d
+	xor	r10d, r10d
+	cmp	r9d, 4
+	jae	.LBB4_945
+# %bb.469:
+	xor	esi, esi
+	jmp	.LBB4_1080
+.LBB4_470:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.471:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB4_472
+# %bb.948:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_950
+# %bb.949:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_950
+.LBB4_472:
+	xor	edx, edx
+.LBB4_1633:
+	mov	rsi, rdx
+	not	rsi
+	test	r10b, 1
+	je	.LBB4_1635
+# %bb.1634:
+	mov	r9b, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	r9b, r9b
+	setne	dil
+	neg	edi
+	test	r9b, r9b
+	mov	eax, 1
+	cmovle	eax, edi
+	mov	dword ptr [r8 + 4*rdx], eax
+	or	rdx, 1
+.LBB4_1635:
+	add	rsi, r10
+	je	.LBB4_1655
+# %bb.1636:
+	mov	esi, 1
+.LBB4_1637:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rdx]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	dword ptr [r8 + 4*rdx], edi
+	movzx	eax, byte ptr [rcx + rdx + 1]
+	xor	edi, edi
+	test	al, al
+	setne	dil
+	neg	edi
+	test	al, al
+	cmovg	edi, esi
+	mov	dword ptr [r8 + 4*rdx + 4], edi
+	add	rdx, 2
+	cmp	r10, rdx
+	jne	.LBB4_1637
+	jmp	.LBB4_1655
+.LBB4_473:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.474:
+	mov	eax, r9d
+	cmp	r9d, 4
+	jae	.LBB4_953
+# %bb.475:
+	xor	edx, edx
+	jmp	.LBB4_1086
+.LBB4_476:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.477:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jae	.LBB4_956
+# %bb.478:
+	xor	edx, edx
+	jmp	.LBB4_1091
+.LBB4_479:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.480:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB4_959
+# %bb.481:
+	xor	edx, edx
+	jmp	.LBB4_1096
+.LBB4_482:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.483:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB4_962
+# %bb.484:
+	xor	edx, edx
+	jmp	.LBB4_1102
+.LBB4_485:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.486:
+	mov	eax, r9d
+	cmp	r9d, 8
+	jae	.LBB4_965
+# %bb.487:
+	xor	edx, edx
+	jmp	.LBB4_968
+.LBB4_488:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.489:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB4_490
+# %bb.972:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB4_974
+# %bb.973:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB4_974
+.LBB4_490:
+	xor	edx, edx
+.LBB4_1642:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB4_1644
+.LBB4_1643:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx], eax
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB4_1643
+.LBB4_1644:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+.LBB4_1645:                             # =>This Inner Loop Header: Depth=1
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx], eax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 1], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx + 4], eax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 2], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx + 8], eax
+	xor	eax, eax
+	cmp	byte ptr [rcx + rdx + 3], 0
+	setne	al
+	mov	dword ptr [r8 + 4*rdx + 12], eax
+	add	rdx, 4
+	cmp	r10, rdx
+	jne	.LBB4_1645
+	jmp	.LBB4_1655
+.LBB4_491:
+	test	r9d, r9d
+	jle	.LBB4_1655
+# %bb.492:
+	mov	r11d, r9d
+	cmp	r9d, 8
+	jb	.LBB4_493
+# %bb.977:
+	lea	rdx, [rcx + 4*r11]
+	cmp	rdx, r8
+	jbe	.LBB4_979
+# %bb.978:
+	lea	rdx, [r8 + 4*r11]
+	cmp	rdx, rcx
+	jbe	.LBB4_979
+.LBB4_493:
+	xor	edx, edx
+.LBB4_1650:
+	mov	rsi, rdx
+	not	rsi
+	test	r11b, 1
+	je	.LBB4_1652
+# %bb.1651:
+	mov	r9d, dword ptr [rcx + 4*rdx]
+	xor	r10d, r10d
+	test	r9d, r9d
+	setne	r10b
+	neg	r10d
+	test	r9d, r9d
+	mov	edi, 1
+	cmovle	edi, r10d
+	mov	dword ptr [r8 + 4*rdx], edi
+	or	rdx, 1
+.LBB4_1652:
+	add	rsi, r11
+	je	.LBB4_1655
+# %bb.1653:
+	mov	esi, 1
+.LBB4_1654:                             # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rdx]
+	xor	eax, eax
+	test	edi, edi
+	setne	al
+	neg	eax
+	test	edi, edi
+	cmovg	eax, esi
+	mov	dword ptr [r8 + 4*rdx], eax
+	mov	eax, dword ptr [rcx + 4*rdx + 4]
+	xor	edi, edi
+	test	eax, eax
+	setne	dil
+	neg	edi
+	test	eax, eax
+	cmovg	edi, esi
+	mov	dword ptr [r8 + 4*rdx + 4], edi
+	add	rdx, 2
+	cmp	r11, rdx
+	jne	.LBB4_1654
+	jmp	.LBB4_1655
+.LBB4_1524:
+	cmp	rsi, 3
+	jb	.LBB4_1655
+# %bb.1525:
+	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+	jmp	.LBB4_1527
+.LBB4_1526:                             #   in Loop: Header=BB4_1527 Depth=1
+	movd	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	je	.LBB4_1655
+.LBB4_1527:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	movdqa	xmm1, xmm0
+	jne	.LBB4_1528
+# %bb.1531:                             #   in Loop: Header=BB4_1527 Depth=1
+	pxor	xmm1, xmm1
+	movd	dword ptr [r8 + 4*rdx], xmm1
+	cmp	byte ptr [rcx + rdx + 1], 0
+	movdqa	xmm1, xmm0
+	je	.LBB4_1532
+.LBB4_1529:                             #   in Loop: Header=BB4_1527 Depth=1
+	movd	dword ptr [r8 + 4*rdx + 4], xmm1
+	cmp	byte ptr [rcx + rdx + 2], 0
+	movdqa	xmm1, xmm0
+	jne	.LBB4_1530
+.LBB4_1533:                             #   in Loop: Header=BB4_1527 Depth=1
+	pxor	xmm1, xmm1
+	movd	dword ptr [r8 + 4*rdx + 8], xmm1
+	cmp	byte ptr [rcx + rdx + 3], 0
+	movdqa	xmm1, xmm0
+	jne	.LBB4_1526
+	jmp	.LBB4_1534
+.LBB4_1528:                             #   in Loop: Header=BB4_1527 Depth=1
+	movd	dword ptr [r8 + 4*rdx], xmm1
+	cmp	byte ptr [rcx + rdx + 1], 0
+	movdqa	xmm1, xmm0
+	jne	.LBB4_1529
+.LBB4_1532:                             #   in Loop: Header=BB4_1527 Depth=1
+	pxor	xmm1, xmm1
+	movd	dword ptr [r8 + 4*rdx + 4], xmm1
+	cmp	byte ptr [rcx + rdx + 2], 0
+	movdqa	xmm1, xmm0
+	je	.LBB4_1533
+.LBB4_1530:                             #   in Loop: Header=BB4_1527 Depth=1
+	movd	dword ptr [r8 + 4*rdx + 8], xmm1
+	cmp	byte ptr [rcx + rdx + 3], 0
+	movdqa	xmm1, xmm0
+	jne	.LBB4_1526
+.LBB4_1534:                             #   in Loop: Header=BB4_1527 Depth=1
+	pxor	xmm1, xmm1
+	jmp	.LBB4_1526
+.LBB4_499:
+	mov	esi, r11d
+	and	esi, -4
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB4_1106
+# %bb.500:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+	xorpd	xmm0, xmm0
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
+.LBB4_501:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm5, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm3, xmm5
+	cmpeqpd	xmm3, xmm0
+	shufps	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
+	movapd	xmm4, xmm6
+	cmpeqpd	xmm4, xmm0
+	andpd	xmm5, xmm1
+	orpd	xmm5, xmm2
+	andpd	xmm6, xmm1
+	orpd	xmm6, xmm2
+	pshufd	xmm7, xmm5, 238                 # xmm7 = xmm5[2,3,2,3]
+	cvttsd2si	rax, xmm7
+	cvttsd2si	rbx, xmm5
+	movd	xmm5, ebx
+	pinsrd	xmm5, eax, 1
+	pshufd	xmm7, xmm6, 238                 # xmm7 = xmm6[2,3,2,3]
+	cvttsd2si	rax, xmm7
+	cvttsd2si	rbx, xmm6
+	shufps	xmm4, xmm4, 232                 # xmm4 = xmm4[0,2,2,3]
+	movd	xmm6, ebx
+	pinsrd	xmm6, eax, 1
+	andnps	xmm3, xmm5
+	andnps	xmm4, xmm6
+	movlhps	xmm3, xmm4                      # xmm3 = xmm3[0],xmm4[0]
+	movups	xmmword ptr [r8 + 4*rdi], xmm3
+	movupd	xmm5, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 48]
+	movapd	xmm3, xmm5
+	cmpeqpd	xmm3, xmm0
+	shufps	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
+	movapd	xmm4, xmm6
+	cmpeqpd	xmm4, xmm0
+	shufps	xmm4, xmm4, 232                 # xmm4 = xmm4[0,2,2,3]
+	andpd	xmm5, xmm1
+	orpd	xmm5, xmm2
+	andpd	xmm6, xmm1
+	pshufd	xmm7, xmm5, 238                 # xmm7 = xmm5[2,3,2,3]
+	cvttsd2si	rax, xmm7
+	orpd	xmm6, xmm2
+	cvttsd2si	rbx, xmm5
+	movd	xmm5, ebx
+	pinsrd	xmm5, eax, 1
+	andnps	xmm3, xmm5
+	pshufd	xmm5, xmm6, 238                 # xmm5 = xmm6[2,3,2,3]
+	cvttsd2si	rax, xmm5
+	cvttsd2si	rbx, xmm6
+	movd	xmm5, ebx
+	pinsrd	xmm5, eax, 1
+	andnps	xmm4, xmm5
+	movlhps	xmm3, xmm4                      # xmm3 = xmm3[0],xmm4[0]
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB4_501
+	jmp	.LBB4_1107
+.LBB4_507:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_994
+# %bb.508:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI4_16] # xmm1 = <1,1,u,u>
+.LBB4_509:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
+	pcmpeqq	xmm2, xmm0
+	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
+	pandn	xmm2, xmm1
+	pcmpeqq	xmm3, xmm0
+	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
+	pandn	xmm3, xmm1
+	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 48]
+	pcmpeqq	xmm2, xmm0
+	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
+	pandn	xmm2, xmm1
+	pcmpeqq	xmm3, xmm0
+	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
+	pandn	xmm3, xmm1
+	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm2
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_509
+	jmp	.LBB4_995
+.LBB4_510:
+	mov	edx, eax
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1112
+# %bb.511:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+.LBB4_512:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
+	pand	xmm3, xmm2
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
+	movq	xmm3, qword ptr [rcx + 2*rsi + 16] # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + 2*rsi + 24] # xmm4 = mem[0],zero
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
+	pand	xmm3, xmm2
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm4
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_512
+	jmp	.LBB4_1113
+.LBB4_513:
+	mov	edx, r10d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1117
+# %bb.514:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+.LBB4_515:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm5, qword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + 2*rsi + 8] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	pmovsxwd	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	pmovsxwd	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxwd	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxwd	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
+	movq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	pmovsxwd	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	pmovsxwd	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxwd	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxwd	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_515
+	jmp	.LBB4_1118
+.LBB4_516:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1123
+# %bb.517:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_16] # xmm4 = <1,1,u,u>
+.LBB4_518:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
+	movdqa	xmm0, xmm5
+	pcmpgtq	xmm0, xmm2
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	movdqa	xmm1, xmm6
+	pcmpgtq	xmm1, xmm2
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pcmpeqq	xmm5, xmm2
+	pshufd	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
+	pxor	xmm5, xmm3
+	pcmpeqq	xmm6, xmm2
+	pshufd	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
+	pxor	xmm6, xmm3
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
+	movups	xmmword ptr [r8 + 4*rsi], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
+	movdqa	xmm0, xmm5
+	pcmpgtq	xmm0, xmm2
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	movdqa	xmm1, xmm6
+	pcmpgtq	xmm1, xmm2
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pcmpeqq	xmm5, xmm2
+	pshufd	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
+	pxor	xmm5, xmm3
+	pcmpeqq	xmm6, xmm2
+	pshufd	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
+	pxor	xmm6, xmm3
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_518
+	jmp	.LBB4_1124
+.LBB4_519:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1129
+# %bb.520:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	xorps	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+	movaps	xmm3, xmmword ptr [rip + .LCPI4_10] # xmm3 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_4] # xmm4 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+.LBB4_521:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
+	movdqa	xmm0, xmm5
+	psrad	xmm0, 31
+	por	xmm0, xmm2
+	cvtdq2ps	xmm6, xmm0
+	movaps	xmm0, xmm6
+	cmpltps	xmm0, xmm3
+	cvttps2dq	xmm7, xmm6
+	subps	xmm6, xmm3
+	cvttps2dq	xmm6, xmm6
+	xorps	xmm6, xmm4
+	blendvps	xmm6, xmm7, xmm0
+	cmpneqps	xmm5, xmm1
+	andps	xmm5, xmm6
+	movups	xmmword ptr [r8 + 4*rsi], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 16]
+	movdqa	xmm0, xmm5
+	psrad	xmm0, 31
+	por	xmm0, xmm2
+	cvtdq2ps	xmm6, xmm0
+	movaps	xmm0, xmm6
+	cmpltps	xmm0, xmm3
+	cvttps2dq	xmm7, xmm6
+	subps	xmm6, xmm3
+	cvttps2dq	xmm6, xmm6
+	xorps	xmm6, xmm4
+	blendvps	xmm6, xmm7, xmm0
+	cmpneqps	xmm5, xmm1
+	andps	xmm5, xmm6
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_521
+	jmp	.LBB4_1130
+.LBB4_532:
+	and	edx, -4
+	xor	esi, esi
+	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
+	jmp	.LBB4_534
+.LBB4_533:                              #   in Loop: Header=BB4_534 Depth=1
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	rdx, rsi
+	je	.LBB4_101
+.LBB4_534:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rsi], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_535
+# %bb.538:                              #   in Loop: Header=BB4_534 Depth=1
+	xorpd	xmm1, xmm1
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	cmp	dword ptr [rcx + 4*rsi + 4], 0
+	movapd	xmm1, xmm0
+	je	.LBB4_539
+.LBB4_536:                              #   in Loop: Header=BB4_534 Depth=1
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	cmp	dword ptr [rcx + 4*rsi + 8], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_537
+.LBB4_540:                              #   in Loop: Header=BB4_534 Depth=1
+	xorpd	xmm1, xmm1
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	cmp	dword ptr [rcx + 4*rsi + 12], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_533
+	jmp	.LBB4_541
+.LBB4_535:                              #   in Loop: Header=BB4_534 Depth=1
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	cmp	dword ptr [rcx + 4*rsi + 4], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_536
+.LBB4_539:                              #   in Loop: Header=BB4_534 Depth=1
+	xorpd	xmm1, xmm1
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	cmp	dword ptr [rcx + 4*rsi + 8], 0
+	movapd	xmm1, xmm0
+	je	.LBB4_540
+.LBB4_537:                              #   in Loop: Header=BB4_534 Depth=1
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	cmp	dword ptr [rcx + 4*rsi + 12], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_533
+.LBB4_541:                              #   in Loop: Header=BB4_534 Depth=1
+	xorpd	xmm1, xmm1
+	jmp	.LBB4_533
+.LBB4_547:
+	mov	esi, edx
+	and	esi, -2
+	xor	eax, eax
+	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
+	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
+	jmp	.LBB4_549
+.LBB4_548:                              #   in Loop: Header=BB4_549 Depth=1
+	movsd	qword ptr [r8 + 8*rax + 8], xmm3
+	add	rax, 2
+	cmp	rsi, rax
+	je	.LBB4_120
+.LBB4_549:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rax], 0
+	movapd	xmm2, xmm0
+	jne	.LBB4_550
+# %bb.553:                              #   in Loop: Header=BB4_549 Depth=1
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmm1
+	jle	.LBB4_554
+.LBB4_551:                              #   in Loop: Header=BB4_549 Depth=1
+	movsd	qword ptr [r8 + 8*rax], xmm3
+	cmp	byte ptr [rcx + rax + 1], 0
+	movapd	xmm2, xmm0
+	jne	.LBB4_552
+.LBB4_555:                              #   in Loop: Header=BB4_549 Depth=1
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmm1
+	jg	.LBB4_548
+	jmp	.LBB4_556
+.LBB4_550:                              #   in Loop: Header=BB4_549 Depth=1
+	movapd	xmm3, xmm1
+	jg	.LBB4_551
+.LBB4_554:                              #   in Loop: Header=BB4_549 Depth=1
+	movapd	xmm3, xmm2
+	movsd	qword ptr [r8 + 8*rax], xmm3
+	cmp	byte ptr [rcx + rax + 1], 0
+	movapd	xmm2, xmm0
+	je	.LBB4_555
+.LBB4_552:                              #   in Loop: Header=BB4_549 Depth=1
+	movapd	xmm3, xmm1
+	jg	.LBB4_548
+.LBB4_556:                              #   in Loop: Header=BB4_549 Depth=1
+	movapd	xmm3, xmm2
+	jmp	.LBB4_548
+.LBB4_557:
+	and	edx, -4
+	xor	esi, esi
+	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
+	jmp	.LBB4_559
+.LBB4_558:                              #   in Loop: Header=BB4_559 Depth=1
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	rdx, rsi
+	je	.LBB4_130
+.LBB4_559:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rsi], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_560
+# %bb.563:                              #   in Loop: Header=BB4_559 Depth=1
+	xorpd	xmm1, xmm1
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	cmp	qword ptr [rcx + 8*rsi + 8], 0
+	movapd	xmm1, xmm0
+	je	.LBB4_564
+.LBB4_561:                              #   in Loop: Header=BB4_559 Depth=1
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	cmp	qword ptr [rcx + 8*rsi + 16], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_562
+.LBB4_565:                              #   in Loop: Header=BB4_559 Depth=1
+	xorpd	xmm1, xmm1
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	cmp	qword ptr [rcx + 8*rsi + 24], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_558
+	jmp	.LBB4_566
+.LBB4_560:                              #   in Loop: Header=BB4_559 Depth=1
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	cmp	qword ptr [rcx + 8*rsi + 8], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_561
+.LBB4_564:                              #   in Loop: Header=BB4_559 Depth=1
+	xorpd	xmm1, xmm1
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	cmp	qword ptr [rcx + 8*rsi + 16], 0
+	movapd	xmm1, xmm0
+	je	.LBB4_565
+.LBB4_562:                              #   in Loop: Header=BB4_559 Depth=1
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	cmp	qword ptr [rcx + 8*rsi + 24], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_558
+.LBB4_566:                              #   in Loop: Header=BB4_559 Depth=1
+	xorpd	xmm1, xmm1
+	jmp	.LBB4_558
+.LBB4_567:
+	and	edx, -4
+	xor	esi, esi
+	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
+	jmp	.LBB4_569
+.LBB4_568:                              #   in Loop: Header=BB4_569 Depth=1
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	rdx, rsi
+	je	.LBB4_142
+.LBB4_569:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rsi], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_570
+# %bb.573:                              #   in Loop: Header=BB4_569 Depth=1
+	xorpd	xmm1, xmm1
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	cmp	word ptr [rcx + 2*rsi + 2], 0
+	movapd	xmm1, xmm0
+	je	.LBB4_574
+.LBB4_571:                              #   in Loop: Header=BB4_569 Depth=1
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	cmp	word ptr [rcx + 2*rsi + 4], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_572
+.LBB4_575:                              #   in Loop: Header=BB4_569 Depth=1
+	xorpd	xmm1, xmm1
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	cmp	word ptr [rcx + 2*rsi + 6], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_568
+	jmp	.LBB4_576
+.LBB4_570:                              #   in Loop: Header=BB4_569 Depth=1
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	cmp	word ptr [rcx + 2*rsi + 2], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_571
+.LBB4_574:                              #   in Loop: Header=BB4_569 Depth=1
+	xorpd	xmm1, xmm1
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	cmp	word ptr [rcx + 2*rsi + 4], 0
+	movapd	xmm1, xmm0
+	je	.LBB4_575
+.LBB4_572:                              #   in Loop: Header=BB4_569 Depth=1
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	cmp	word ptr [rcx + 2*rsi + 6], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_568
+.LBB4_576:                              #   in Loop: Header=BB4_569 Depth=1
+	xorpd	xmm1, xmm1
+	jmp	.LBB4_568
+.LBB4_577:
+	mov	esi, edx
+	and	esi, -2
+	xor	eax, eax
+	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
+	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
+	jmp	.LBB4_579
+.LBB4_578:                              #   in Loop: Header=BB4_579 Depth=1
+	movsd	qword ptr [r8 + 8*rax + 8], xmm3
+	add	rax, 2
+	cmp	rsi, rax
+	je	.LBB4_154
+.LBB4_579:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rax], 0
+	movapd	xmm2, xmm0
+	jne	.LBB4_580
+# %bb.583:                              #   in Loop: Header=BB4_579 Depth=1
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmm1
+	jle	.LBB4_584
+.LBB4_581:                              #   in Loop: Header=BB4_579 Depth=1
+	movsd	qword ptr [r8 + 8*rax], xmm3
+	cmp	word ptr [rcx + 2*rax + 2], 0
+	movapd	xmm2, xmm0
+	jne	.LBB4_582
+.LBB4_585:                              #   in Loop: Header=BB4_579 Depth=1
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmm1
+	jg	.LBB4_578
+	jmp	.LBB4_586
+.LBB4_580:                              #   in Loop: Header=BB4_579 Depth=1
+	movapd	xmm3, xmm1
+	jg	.LBB4_581
+.LBB4_584:                              #   in Loop: Header=BB4_579 Depth=1
+	movapd	xmm3, xmm2
+	movsd	qword ptr [r8 + 8*rax], xmm3
+	cmp	word ptr [rcx + 2*rax + 2], 0
+	movapd	xmm2, xmm0
+	je	.LBB4_585
+.LBB4_582:                              #   in Loop: Header=BB4_579 Depth=1
+	movapd	xmm3, xmm1
+	jg	.LBB4_578
+.LBB4_586:                              #   in Loop: Header=BB4_579 Depth=1
+	movapd	xmm3, xmm2
+	jmp	.LBB4_578
+.LBB4_587:
+	mov	esi, edx
+	and	esi, -2
+	xor	eax, eax
+	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
+	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
+	jmp	.LBB4_589
+.LBB4_588:                              #   in Loop: Header=BB4_589 Depth=1
+	movsd	qword ptr [r8 + 8*rax + 8], xmm3
+	add	rax, 2
+	cmp	rsi, rax
+	je	.LBB4_164
+.LBB4_589:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rax], 0
+	movapd	xmm2, xmm0
+	jne	.LBB4_590
+# %bb.593:                              #   in Loop: Header=BB4_589 Depth=1
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmm1
+	jle	.LBB4_594
+.LBB4_591:                              #   in Loop: Header=BB4_589 Depth=1
+	movsd	qword ptr [r8 + 8*rax], xmm3
+	cmp	qword ptr [rcx + 8*rax + 8], 0
+	movapd	xmm2, xmm0
+	jne	.LBB4_592
+.LBB4_595:                              #   in Loop: Header=BB4_589 Depth=1
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmm1
+	jg	.LBB4_588
+	jmp	.LBB4_596
+.LBB4_590:                              #   in Loop: Header=BB4_589 Depth=1
+	movapd	xmm3, xmm1
+	jg	.LBB4_591
+.LBB4_594:                              #   in Loop: Header=BB4_589 Depth=1
+	movapd	xmm3, xmm2
+	movsd	qword ptr [r8 + 8*rax], xmm3
+	cmp	qword ptr [rcx + 8*rax + 8], 0
+	movapd	xmm2, xmm0
+	je	.LBB4_595
+.LBB4_592:                              #   in Loop: Header=BB4_589 Depth=1
+	movapd	xmm3, xmm1
+	jg	.LBB4_588
+.LBB4_596:                              #   in Loop: Header=BB4_589 Depth=1
+	movapd	xmm3, xmm2
+	jmp	.LBB4_588
+.LBB4_597:
+	mov	esi, edx
+	and	esi, -2
+	xor	eax, eax
+	xorps	xmm0, xmm0
+	jmp	.LBB4_599
+.LBB4_598:                              #   in Loop: Header=BB4_599 Depth=1
+	movsd	qword ptr [r8 + 8*rax + 8], xmm1
+	add	rax, 2
+	cmp	rsi, rax
+	je	.LBB4_174
+.LBB4_599:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm2, dword ptr [rcx + 4*rax]   # xmm2 = mem[0],zero,zero,zero
+	xorpd	xmm1, xmm1
+	ucomiss	xmm0, xmm2
+	xorpd	xmm3, xmm3
+	je	.LBB4_601
+# %bb.600:                              #   in Loop: Header=BB4_599 Depth=1
+	movmskps	edi, xmm2
+	and	edi, 1
+	neg	edi
+	or	edi, 1
+	xorps	xmm2, xmm2
+	cvtsi2ss	xmm2, edi
+	xorps	xmm3, xmm3
+	cvtss2sd	xmm3, xmm2
+.LBB4_601:                              #   in Loop: Header=BB4_599 Depth=1
+	movsd	qword ptr [r8 + 8*rax], xmm3
+	movss	xmm2, dword ptr [rcx + 4*rax + 4] # xmm2 = mem[0],zero,zero,zero
+	ucomiss	xmm0, xmm2
+	je	.LBB4_598
+# %bb.602:                              #   in Loop: Header=BB4_599 Depth=1
+	movmskps	edi, xmm2
+	and	edi, 1
+	neg	edi
+	or	edi, 1
+	xorps	xmm1, xmm1
+	cvtsi2ss	xmm1, edi
+	cvtss2sd	xmm1, xmm1
+	jmp	.LBB4_598
+.LBB4_603:
+	and	edx, -4
+	xor	esi, esi
+	movsd	xmm0, qword ptr [rip + .LCPI4_2] # xmm0 = mem[0],zero
+	jmp	.LBB4_605
+.LBB4_604:                              #   in Loop: Header=BB4_605 Depth=1
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	rdx, rsi
+	je	.LBB4_185
+.LBB4_605:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rsi], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_606
+# %bb.609:                              #   in Loop: Header=BB4_605 Depth=1
+	xorpd	xmm1, xmm1
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	cmp	byte ptr [rcx + rsi + 1], 0
+	movapd	xmm1, xmm0
+	je	.LBB4_610
+.LBB4_607:                              #   in Loop: Header=BB4_605 Depth=1
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	cmp	byte ptr [rcx + rsi + 2], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_608
+.LBB4_611:                              #   in Loop: Header=BB4_605 Depth=1
+	xorpd	xmm1, xmm1
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	cmp	byte ptr [rcx + rsi + 3], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_604
+	jmp	.LBB4_612
+.LBB4_606:                              #   in Loop: Header=BB4_605 Depth=1
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	cmp	byte ptr [rcx + rsi + 1], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_607
+.LBB4_610:                              #   in Loop: Header=BB4_605 Depth=1
+	xorpd	xmm1, xmm1
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	cmp	byte ptr [rcx + rsi + 2], 0
+	movapd	xmm1, xmm0
+	je	.LBB4_611
+.LBB4_608:                              #   in Loop: Header=BB4_605 Depth=1
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	cmp	byte ptr [rcx + rsi + 3], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_604
+.LBB4_612:                              #   in Loop: Header=BB4_605 Depth=1
+	xorpd	xmm1, xmm1
+	jmp	.LBB4_604
+.LBB4_613:
+	mov	esi, edx
+	and	esi, -2
+	xor	eax, eax
+	movsd	xmm0, qword ptr [rip + .LCPI4_13] # xmm0 = mem[0],zero
+	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
+	jmp	.LBB4_615
+.LBB4_614:                              #   in Loop: Header=BB4_615 Depth=1
+	movsd	qword ptr [r8 + 8*rax + 8], xmm3
+	add	rax, 2
+	cmp	rsi, rax
+	je	.LBB4_197
+.LBB4_615:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rax], 0
+	movapd	xmm2, xmm0
+	jne	.LBB4_616
+# %bb.619:                              #   in Loop: Header=BB4_615 Depth=1
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmm1
+	jle	.LBB4_620
+.LBB4_617:                              #   in Loop: Header=BB4_615 Depth=1
+	movsd	qword ptr [r8 + 8*rax], xmm3
+	cmp	dword ptr [rcx + 4*rax + 4], 0
+	movapd	xmm2, xmm0
+	jne	.LBB4_618
+.LBB4_621:                              #   in Loop: Header=BB4_615 Depth=1
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmm1
+	jg	.LBB4_614
+	jmp	.LBB4_622
+.LBB4_616:                              #   in Loop: Header=BB4_615 Depth=1
+	movapd	xmm3, xmm1
+	jg	.LBB4_617
+.LBB4_620:                              #   in Loop: Header=BB4_615 Depth=1
+	movapd	xmm3, xmm2
+	movsd	qword ptr [r8 + 8*rax], xmm3
+	cmp	dword ptr [rcx + 4*rax + 4], 0
+	movapd	xmm2, xmm0
+	je	.LBB4_621
+.LBB4_618:                              #   in Loop: Header=BB4_615 Depth=1
+	movapd	xmm3, xmm1
+	jg	.LBB4_614
+.LBB4_622:                              #   in Loop: Header=BB4_615 Depth=1
+	movapd	xmm3, xmm2
+	jmp	.LBB4_614
+.LBB4_673:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_999
+# %bb.674:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
+.LBB4_675:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm3, qword ptr [rcx + 4*rsi]   # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + 4*rsi + 8] # xmm4 = mem[0],zero
+	pcmpeqd	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxdq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero
+	pand	xmm3, xmm2
+	pcmpeqd	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxdq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
+	movq	xmm3, qword ptr [rcx + 4*rsi + 16] # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + 4*rsi + 24] # xmm4 = mem[0],zero
+	pcmpeqd	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxdq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero
+	pand	xmm3, xmm2
+	pcmpeqd	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxdq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_675
+	jmp	.LBB4_1000
+.LBB4_676:
+	mov	esi, r10d
+	and	esi, -2
+	lea	rax, [rsi - 2]
+	mov	r9, rax
+	shr	r9
+	add	r9, 1
+	test	rax, rax
+	je	.LBB4_1004
+# %bb.677:
+	mov	r14, r9
+	and	r14, -2
+	neg	r14
+	xor	edi, edi
+	xorpd	xmm0, xmm0
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
+	movsd	xmm3, qword ptr [rip + .LCPI4_6] # xmm3 = mem[0],zero
+.LBB4_678:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm4, xmmword ptr [rcx + 8*rdi]
+	movapd	xmm5, xmm4
+	andpd	xmm5, xmm1
+	orpd	xmm5, xmm2
+	movapd	xmm6, xmm5
+	subsd	xmm6, xmm3
+	cvttsd2si	rbx, xmm6
+	xor	rbx, r11
+	cvttsd2si	rdx, xmm5
+	ucomisd	xmm5, xmm3
+	cmovae	rdx, rbx
+	pshufd	xmm5, xmm5, 238                 # xmm5 = xmm5[2,3,2,3]
+	movdqa	xmm6, xmm5
+	subsd	xmm6, xmm3
+	cvttsd2si	rbx, xmm6
+	xor	rbx, r11
+	cvttsd2si	rax, xmm5
+	ucomisd	xmm5, xmm3
+	cmovae	rax, rbx
+	movq	xmm5, rdx
+	movq	xmm6, rax
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	cmpneqpd	xmm4, xmm0
+	andpd	xmm4, xmm5
+	movupd	xmmword ptr [r8 + 8*rdi], xmm4
+	movupd	xmm4, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm5, xmm4
+	andpd	xmm5, xmm1
+	orpd	xmm5, xmm2
+	movapd	xmm6, xmm5
+	subsd	xmm6, xmm3
+	cvttsd2si	rax, xmm6
+	xor	rax, r11
+	cvttsd2si	rdx, xmm5
+	ucomisd	xmm5, xmm3
+	cmovae	rdx, rax
+	pshufd	xmm5, xmm5, 238                 # xmm5 = xmm5[2,3,2,3]
+	movdqa	xmm6, xmm5
+	subsd	xmm6, xmm3
+	cvttsd2si	rax, xmm6
+	xor	rax, r11
+	cvttsd2si	rbx, xmm5
+	ucomisd	xmm5, xmm3
+	cmovae	rbx, rax
+	movq	xmm5, rdx
+	movq	xmm6, rbx
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	cmpneqpd	xmm4, xmm0
+	andpd	xmm4, xmm5
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm4
+	add	rdi, 4
+	add	r14, 2
+	jne	.LBB4_678
+	jmp	.LBB4_1005
+.LBB4_689:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1010
+# %bb.690:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
+.LBB4_691:                              # =>This Inner Loop Header: Depth=1
+	movd	xmm3, dword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero,zero,zero
+	movd	xmm4, dword ptr [rcx + 2*rsi + 4] # xmm4 = mem[0],zero,zero,zero
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxwq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
+	pand	xmm3, xmm2
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxwq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
+	movd	xmm3, dword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero,zero,zero
+	movd	xmm4, dword ptr [rcx + 2*rsi + 12] # xmm4 = mem[0],zero,zero,zero
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxwq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
+	pand	xmm3, xmm2
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxwq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_691
+	jmp	.LBB4_1011
+.LBB4_692:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1015
+# %bb.693:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+.LBB4_694:                              # =>This Inner Loop Header: Depth=1
+	movd	xmm5, dword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero,zero,zero
+	movd	xmm6, dword ptr [rcx + 2*rsi + 4] # xmm6 = mem[0],zero,zero,zero
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	pmovsxwq	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	pmovsxwq	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxwq	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxwq	xmm6, xmm6
+	blendvpd	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm6, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm5
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
+	movd	xmm5, dword ptr [rcx + 2*rsi + 8] # xmm5 = mem[0],zero,zero,zero
+	movd	xmm6, dword ptr [rcx + 2*rsi + 12] # xmm6 = mem[0],zero,zero,zero
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	pmovsxwq	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	pmovsxwq	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxwq	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxwq	xmm6, xmm6
+	blendvpd	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm6, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
+	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_694
+	jmp	.LBB4_1016
+.LBB4_700:
+	mov	esi, r10d
+	and	esi, -2
+	xor	eax, eax
+	xorps	xmm0, xmm0
+	movss	xmm1, dword ptr [rip + .LCPI4_9] # xmm1 = mem[0],zero,zero,zero
+	movabs	r9, -9223372036854775808
+	jmp	.LBB4_703
+.LBB4_701:                              #   in Loop: Header=BB4_703 Depth=1
+	movmskps	edx, xmm2
+	and	edx, 1
+	neg	edx
+	or	edx, 1
+	xorps	xmm2, xmm2
+	cvtsi2ss	xmm2, edx
+	movaps	xmm3, xmm2
+	subss	xmm3, xmm1
+	cvttss2si	rdi, xmm3
+	xor	rdi, r9
+	cvttss2si	rdx, xmm2
+	ucomiss	xmm2, xmm1
+	cmovae	rdx, rdi
+	mov	qword ptr [r8 + 8*rax + 8], rdx
+	add	rax, 2
+	cmp	rsi, rax
+	je	.LBB4_290
+.LBB4_703:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm2, dword ptr [rcx + 4*rax]   # xmm2 = mem[0],zero,zero,zero
+	ucomiss	xmm0, xmm2
+	jne	.LBB4_705
+# %bb.704:                              #   in Loop: Header=BB4_703 Depth=1
+	xor	edx, edx
+	jmp	.LBB4_706
+.LBB4_705:                              #   in Loop: Header=BB4_703 Depth=1
+	movmskps	edx, xmm2
+	and	edx, 1
+	neg	edx
+	or	edx, 1
+	xorps	xmm2, xmm2
+	cvtsi2ss	xmm2, edx
+	movaps	xmm3, xmm2
+	subss	xmm3, xmm1
+	cvttss2si	rdi, xmm3
+	xor	rdi, r9
+	cvttss2si	rdx, xmm2
+	ucomiss	xmm2, xmm1
+	cmovae	rdx, rdi
+.LBB4_706:                              #   in Loop: Header=BB4_703 Depth=1
+	mov	qword ptr [r8 + 8*rax], rdx
+	movss	xmm2, dword ptr [rcx + 4*rax + 4] # xmm2 = mem[0],zero,zero,zero
+	ucomiss	xmm0, xmm2
+	jne	.LBB4_701
+# %bb.707:                              #   in Loop: Header=BB4_703 Depth=1
+	xor	edx, edx
+	mov	qword ptr [r8 + 8*rax + 8], rdx
+	add	rax, 2
+	cmp	rsi, rax
+	jne	.LBB4_703
+.LBB4_290:
+	test	r10b, 1
+	je	.LBB4_1655
+# %bb.291:
+	movss	xmm0, dword ptr [rcx + 4*rax]   # xmm0 = mem[0],zero,zero,zero
+	xorps	xmm1, xmm1
+	ucomiss	xmm1, xmm0
+	jne	.LBB4_993
+# %bb.292:
+	xor	ecx, ecx
+	mov	qword ptr [r8 + 8*rax], rcx
+	jmp	.LBB4_1655
+.LBB4_713:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1021
+# %bb.714:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+.LBB4_715:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm5, qword ptr [rcx + 4*rsi]   # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + 4*rsi + 8] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	pmovsxdq	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	pmovsxdq	xmm1, xmm1
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxdq	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxdq	xmm6, xmm6
+	blendvpd	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm6, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm5
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
+	movq	xmm5, qword ptr [rcx + 4*rsi + 16] # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + 4*rsi + 24] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	pmovsxdq	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	pmovsxdq	xmm1, xmm1
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxdq	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxdq	xmm6, xmm6
+	blendvpd	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm6, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
+	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_715
+	jmp	.LBB4_1022
+.LBB4_716:
+	mov	edx, eax
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1137
+# %bb.717:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_11] # xmm2 = <1,1,1,1,u,u,u,u>
+.LBB4_718:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
+	pcmpeqd	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqd	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	pand	xmm4, xmm2
+	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm3
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 32]
+	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 48]
+	pcmpeqd	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqd	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	pand	xmm4, xmm2
+	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_718
+	jmp	.LBB4_1138
+.LBB4_719:
+	mov	edx, eax
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1142
+# %bb.720:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_11] # xmm2 = <1,1,1,1,u,u,u,u>
+.LBB4_721:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
+	pcmpeqd	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqd	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	pand	xmm4, xmm2
+	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm3
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 32]
+	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 48]
+	pcmpeqd	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqd	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	pand	xmm4, xmm2
+	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_721
+	jmp	.LBB4_1143
+.LBB4_722:
+	mov	esi, eax
+	and	esi, -4
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB4_1147
+# %bb.723:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_1] # xmm4 = [1.0E+0,1.0E+0]
+.LBB4_724:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm5, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm0, xmm5
+	cmpeqpd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movapd	xmm1, xmm6
+	cmpeqpd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	andpd	xmm5, xmm3
+	orpd	xmm5, xmm4
+	andpd	xmm6, xmm3
+	orpd	xmm6, xmm4
+	cvttpd2dq	xmm5, xmm5
+	pshuflw	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3,4,5,6,7]
+	cvttpd2dq	xmm6, xmm6
+	pshuflw	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3,4,5,6,7]
+	pblendvb	xmm5, xmm2, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm2, xmm0
+	movd	dword ptr [r8 + 2*rdi], xmm5
+	movd	dword ptr [r8 + 2*rdi + 4], xmm6
+	movupd	xmm5, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 48]
+	movapd	xmm0, xmm5
+	cmpeqpd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movapd	xmm1, xmm6
+	cmpeqpd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	andpd	xmm5, xmm3
+	orpd	xmm5, xmm4
+	andpd	xmm6, xmm3
+	orpd	xmm6, xmm4
+	cvttpd2dq	xmm5, xmm5
+	pshuflw	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3,4,5,6,7]
+	cvttpd2dq	xmm6, xmm6
+	pshuflw	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3,4,5,6,7]
+	pblendvb	xmm5, xmm2, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm2, xmm0
+	movd	dword ptr [r8 + 2*rdi + 8], xmm5
+	movd	dword ptr [r8 + 2*rdi + 12], xmm6
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB4_724
+	jmp	.LBB4_1148
+.LBB4_725:
+	mov	esi, eax
+	and	esi, -4
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB4_1153
+# %bb.726:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_1] # xmm4 = [1.0E+0,1.0E+0]
+.LBB4_727:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm5, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm0, xmm5
+	cmpeqpd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movapd	xmm1, xmm6
+	cmpeqpd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	andpd	xmm5, xmm3
+	orpd	xmm5, xmm4
+	andpd	xmm6, xmm3
+	orpd	xmm6, xmm4
+	cvttpd2dq	xmm5, xmm5
+	pshuflw	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3,4,5,6,7]
+	cvttpd2dq	xmm6, xmm6
+	pshuflw	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3,4,5,6,7]
+	pblendvb	xmm5, xmm2, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm2, xmm0
+	movd	dword ptr [r8 + 2*rdi], xmm5
+	movd	dword ptr [r8 + 2*rdi + 4], xmm6
+	movupd	xmm5, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm6, xmmword ptr [rcx + 8*rdi + 48]
+	movapd	xmm0, xmm5
+	cmpeqpd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movapd	xmm1, xmm6
+	cmpeqpd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	andpd	xmm5, xmm3
+	orpd	xmm5, xmm4
+	andpd	xmm6, xmm3
+	orpd	xmm6, xmm4
+	cvttpd2dq	xmm5, xmm5
+	pshuflw	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3,4,5,6,7]
+	cvttpd2dq	xmm6, xmm6
+	pshuflw	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3,4,5,6,7]
+	pblendvb	xmm5, xmm2, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm2, xmm0
+	movd	dword ptr [r8 + 2*rdi + 8], xmm5
+	movd	dword ptr [r8 + 2*rdi + 12], xmm6
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB4_727
+	jmp	.LBB4_1154
+.LBB4_738:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1027
+# %bb.739:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_17] # xmm2 = <1,1,u,u,u,u,u,u>
+.LBB4_740:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 16]
+	pcmpeqq	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packssdw	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqq	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packssdw	xmm4, xmm4
+	pand	xmm4, xmm2
+	movd	dword ptr [r8 + 2*rsi], xmm3
+	movd	dword ptr [r8 + 2*rsi + 4], xmm4
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 48]
+	pcmpeqq	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packssdw	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqq	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packssdw	xmm4, xmm4
+	pand	xmm4, xmm2
+	movd	dword ptr [r8 + 2*rsi + 8], xmm3
+	movd	dword ptr [r8 + 2*rsi + 12], xmm4
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_740
+	jmp	.LBB4_1028
+.LBB4_741:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1032
+# %bb.742:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_17] # xmm2 = <1,1,u,u,u,u,u,u>
+.LBB4_743:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 16]
+	pcmpeqq	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packssdw	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqq	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packssdw	xmm4, xmm4
+	pand	xmm4, xmm2
+	movd	dword ptr [r8 + 2*rsi], xmm3
+	movd	dword ptr [r8 + 2*rsi + 4], xmm4
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 48]
+	pcmpeqq	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packssdw	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqq	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packssdw	xmm4, xmm4
+	pand	xmm4, xmm2
+	movd	dword ptr [r8 + 2*rsi + 8], xmm3
+	movd	dword ptr [r8 + 2*rsi + 12], xmm4
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_743
+	jmp	.LBB4_1033
+.LBB4_764:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1037
+# %bb.765:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
+.LBB4_766:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
+	movdqa	xmm0, xmm5
+	pcmpgtq	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtq	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	packssdw	xmm5, xmm5
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	packssdw	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	movd	dword ptr [r8 + 2*rsi], xmm5
+	movd	dword ptr [r8 + 2*rsi + 4], xmm6
+	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
+	movdqa	xmm0, xmm5
+	pcmpgtq	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtq	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	packssdw	xmm5, xmm5
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	packssdw	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	movd	dword ptr [r8 + 2*rsi + 8], xmm5
+	movd	dword ptr [r8 + 2*rsi + 12], xmm6
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_766
+	jmp	.LBB4_1038
+.LBB4_767:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1159
+# %bb.768:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
+.LBB4_769:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
+	movdqa	xmm0, xmm5
+	pcmpgtq	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtq	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	packssdw	xmm5, xmm5
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	packssdw	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	movd	dword ptr [r8 + 2*rsi], xmm5
+	movd	dword ptr [r8 + 2*rsi + 4], xmm6
+	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
+	movdqa	xmm0, xmm5
+	pcmpgtq	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtq	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	packssdw	xmm5, xmm5
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	packssdw	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	movd	dword ptr [r8 + 2*rsi + 8], xmm5
+	movd	dword ptr [r8 + 2*rsi + 12], xmm6
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_769
+	jmp	.LBB4_1160
+.LBB4_770:
+	mov	esi, eax
+	and	esi, -8
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB4_1165
+# %bb.771:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+	xorps	xmm4, xmm4
+	pcmpeqd	xmm8, xmm8
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_11] # xmm6 = <1,1,1,1,u,u,u,u>
+.LBB4_772:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rcx + 4*rdi]
+	movups	xmm1, xmmword ptr [rcx + 4*rdi + 16]
+	movaps	xmm2, xmm0
+	cmpeqps	xmm2, xmm4
+	packssdw	xmm2, xmm2
+	movaps	xmm3, xmm1
+	cmpeqps	xmm3, xmm4
+	packssdw	xmm3, xmm3
+	pcmpgtd	xmm0, xmm8
+	packssdw	xmm0, xmm0
+	pcmpgtd	xmm1, xmm8
+	packssdw	xmm1, xmm1
+	pcmpeqd	xmm7, xmm7
+	pblendvb	xmm7, xmm6, xmm0
+	pcmpeqd	xmm5, xmm5
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqa	xmm0, xmm2
+	pblendvb	xmm7, xmm4, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm5, xmm4, xmm0
+	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm7
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rcx + 4*rdi + 48]
+	movaps	xmm2, xmm0
+	cmpeqps	xmm2, xmm4
+	packssdw	xmm2, xmm2
+	movaps	xmm3, xmm1
+	cmpeqps	xmm3, xmm4
+	packssdw	xmm3, xmm3
+	pcmpgtd	xmm0, xmm8
+	packssdw	xmm0, xmm0
+	pcmpgtd	xmm1, xmm8
+	pcmpeqd	xmm5, xmm5
+	pblendvb	xmm5, xmm6, xmm0
+	packssdw	xmm1, xmm1
+	pcmpeqd	xmm7, xmm7
+	movdqa	xmm0, xmm1
+	pblendvb	xmm7, xmm6, xmm0
+	movdqa	xmm0, xmm2
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm7, xmm4, xmm0
+	punpcklqdq	xmm5, xmm7              # xmm5 = xmm5[0],xmm7[0]
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm5
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB4_772
+	jmp	.LBB4_1166
+.LBB4_773:
+	mov	esi, eax
+	and	esi, -8
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB4_1171
+# %bb.774:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+	xorps	xmm4, xmm4
+	pcmpeqd	xmm8, xmm8
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_11] # xmm6 = <1,1,1,1,u,u,u,u>
+.LBB4_775:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rcx + 4*rdi]
+	movups	xmm1, xmmword ptr [rcx + 4*rdi + 16]
+	movaps	xmm2, xmm0
+	cmpeqps	xmm2, xmm4
+	packssdw	xmm2, xmm2
+	movaps	xmm3, xmm1
+	cmpeqps	xmm3, xmm4
+	packssdw	xmm3, xmm3
+	pcmpgtd	xmm0, xmm8
+	packssdw	xmm0, xmm0
+	pcmpgtd	xmm1, xmm8
+	packssdw	xmm1, xmm1
+	pcmpeqd	xmm7, xmm7
+	pblendvb	xmm7, xmm6, xmm0
+	pcmpeqd	xmm5, xmm5
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqa	xmm0, xmm2
+	pblendvb	xmm7, xmm4, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm5, xmm4, xmm0
+	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm7
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rcx + 4*rdi + 48]
+	movaps	xmm2, xmm0
+	cmpeqps	xmm2, xmm4
+	packssdw	xmm2, xmm2
+	movaps	xmm3, xmm1
+	cmpeqps	xmm3, xmm4
+	packssdw	xmm3, xmm3
+	pcmpgtd	xmm0, xmm8
+	packssdw	xmm0, xmm0
+	pcmpgtd	xmm1, xmm8
+	pcmpeqd	xmm5, xmm5
+	pblendvb	xmm5, xmm6, xmm0
+	packssdw	xmm1, xmm1
+	pcmpeqd	xmm7, xmm7
+	movdqa	xmm0, xmm1
+	pblendvb	xmm7, xmm6, xmm0
+	movdqa	xmm0, xmm2
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm7, xmm4, xmm0
+	punpcklqdq	xmm5, xmm7              # xmm5 = xmm5[0],xmm7[0]
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm5
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB4_775
+	jmp	.LBB4_1172
+.LBB4_786:
+	mov	edx, r10d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1043
+# %bb.787:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
+.LBB4_788:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm5
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_788
+	jmp	.LBB4_1044
+.LBB4_789:
+	mov	edx, r10d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1049
+# %bb.790:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
+.LBB4_791:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm5
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_791
+	jmp	.LBB4_1050
+.LBB4_792:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1177
+# %bb.793:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
+.LBB4_794:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm3, qword ptr [rcx + 4*rsi]   # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + 4*rsi + 8] # xmm4 = mem[0],zero
+	pcmpeqd	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxdq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero
+	pand	xmm3, xmm2
+	pcmpeqd	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxdq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
+	movq	xmm3, qword ptr [rcx + 4*rsi + 16] # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + 4*rsi + 24] # xmm4 = mem[0],zero
+	pcmpeqd	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxdq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero
+	pand	xmm3, xmm2
+	pcmpeqd	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxdq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_794
+	jmp	.LBB4_1178
+.LBB4_795:
+	mov	edx, eax
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1182
+# %bb.796:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI4_19] # xmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_797:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
+	pcmpeqd	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqd	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm3
+	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 32]
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 48]
+	pcmpeqd	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqd	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm3
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_797
+	jmp	.LBB4_1183
+.LBB4_798:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1190
+# %bb.799:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	xorpd	xmm0, xmm0
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
+.LBB4_800:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm3, xmmword ptr [rcx + 8*rsi]
+	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 16]
+	movapd	xmm5, xmm3
+	andpd	xmm5, xmm1
+	orpd	xmm5, xmm2
+	movapd	xmm6, xmm4
+	andpd	xmm6, xmm1
+	orpd	xmm6, xmm2
+	cvttsd2si	rbx, xmm5
+	movq	xmm7, rbx
+	pshufd	xmm5, xmm5, 238                 # xmm5 = xmm5[2,3,2,3]
+	cvttsd2si	rbx, xmm5
+	movq	xmm5, rbx
+	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
+	cvttsd2si	rbx, xmm6
+	movq	xmm5, rbx
+	pshufd	xmm6, xmm6, 238                 # xmm6 = xmm6[2,3,2,3]
+	cvttsd2si	rbx, xmm6
+	movq	xmm6, rbx
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	cmpneqpd	xmm3, xmm0
+	andpd	xmm3, xmm7
+	cmpneqpd	xmm4, xmm0
+	andpd	xmm4, xmm5
+	movupd	xmmword ptr [r8 + 8*rsi], xmm3
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm4
+	movupd	xmm3, xmmword ptr [rcx + 8*rsi + 32]
+	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 48]
+	movapd	xmm5, xmm3
+	andpd	xmm5, xmm1
+	orpd	xmm5, xmm2
+	movapd	xmm6, xmm4
+	andpd	xmm6, xmm1
+	orpd	xmm6, xmm2
+	cvttsd2si	rbx, xmm5
+	movq	xmm7, rbx
+	pshufd	xmm5, xmm5, 238                 # xmm5 = xmm5[2,3,2,3]
+	cvttsd2si	rbx, xmm5
+	movq	xmm5, rbx
+	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
+	cvttsd2si	rbx, xmm6
+	movq	xmm5, rbx
+	pshufd	xmm6, xmm6, 238                 # xmm6 = xmm6[2,3,2,3]
+	cvttsd2si	rbx, xmm6
+	movq	xmm6, rbx
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	cmpneqpd	xmm3, xmm0
+	andpd	xmm3, xmm7
+	cmpneqpd	xmm4, xmm0
+	andpd	xmm4, xmm5
+	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm3
+	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm4
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_800
+	jmp	.LBB4_1191
+.LBB4_801:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1196
+# %bb.802:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	xorpd	xmm8, xmm8
+	cvtpd2ps	xmm1, xmmword ptr [rip + .LCPI4_1]
+	movaps	xmm9, xmmword ptr [rip + .LCPI4_3] # xmm9 = [NaN,NaN,NaN,NaN]
+	movshdup	xmm3, xmm1                      # xmm3 = xmm1[1,1,3,3]
+	andps	xmm3, xmm9
+	andps	xmm1, xmm9
+.LBB4_803:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm4, xmmword ptr [rcx + 8*rsi]
+	movupd	xmm6, xmmword ptr [rcx + 8*rsi + 16]
+	xorps	xmm5, xmm5
+	cvtsd2ss	xmm5, xmm4
+	cmpeqpd	xmm4, xmm8
+	shufps	xmm4, xmm4, 232                 # xmm4 = xmm4[0,2,2,3]
+	xorps	xmm7, xmm7
+	cvtsd2ss	xmm7, xmm6
+	cmpeqpd	xmm6, xmm8
+	shufps	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	cvtsd2ss	xmm0, xmm0
+	movaps	xmm2, xmm9
+	andnps	xmm2, xmm0
+	orps	xmm2, xmm3
+	movaps	xmm0, xmm9
+	andnps	xmm0, xmm5
+	orps	xmm0, xmm1
+	unpcklps	xmm0, xmm2                      # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
+	andnps	xmm4, xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	cvtsd2ss	xmm0, xmm0
+	movaps	xmm2, xmm9
+	andnps	xmm2, xmm0
+	orps	xmm2, xmm3
+	movaps	xmm0, xmm9
+	andnps	xmm0, xmm7
+	orps	xmm0, xmm1
+	unpcklps	xmm0, xmm2                      # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
+	andnps	xmm6, xmm0
+	movlhps	xmm4, xmm6                      # xmm4 = xmm4[0],xmm6[0]
+	movups	xmmword ptr [r8 + 4*rsi], xmm4
+	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 32]
+	movupd	xmm0, xmmword ptr [rcx + 8*rsi + 48]
+	xorps	xmm2, xmm2
+	cvtsd2ss	xmm2, xmm4
+	cmpeqpd	xmm4, xmm8
+	shufps	xmm4, xmm4, 232                 # xmm4 = xmm4[0,2,2,3]
+	xorps	xmm5, xmm5
+	cvtsd2ss	xmm5, xmm0
+	cmpeqpd	xmm0, xmm8
+	movsd	xmm6, qword ptr [rcx + 8*rsi + 40] # xmm6 = mem[0],zero
+	cvtsd2ss	xmm6, xmm6
+	shufps	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	movaps	xmm7, xmm9
+	andnps	xmm7, xmm6
+	orps	xmm7, xmm3
+	movaps	xmm6, xmm9
+	andnps	xmm6, xmm2
+	orps	xmm6, xmm1
+	unpcklps	xmm6, xmm7                      # xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1]
+	andnps	xmm4, xmm6
+	movsd	xmm2, qword ptr [rcx + 8*rsi + 56] # xmm2 = mem[0],zero
+	cvtsd2ss	xmm2, xmm2
+	movaps	xmm6, xmm9
+	andnps	xmm6, xmm2
+	orps	xmm6, xmm3
+	movaps	xmm2, xmm9
+	andnps	xmm2, xmm5
+	orps	xmm2, xmm1
+	unpcklps	xmm2, xmm6                      # xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1]
+	andnps	xmm0, xmm2
+	movlhps	xmm4, xmm0                      # xmm4 = xmm4[0],xmm0[0]
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_803
+	jmp	.LBB4_1197
+.LBB4_819:
+	and	edx, -4
+	xor	esi, esi
+	movss	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+	jmp	.LBB4_821
+.LBB4_820:                              #   in Loop: Header=BB4_821 Depth=1
+	movss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	rdx, rsi
+	je	.LBB4_387
+.LBB4_821:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rsi], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_822
+# %bb.825:                              #   in Loop: Header=BB4_821 Depth=1
+	xorpd	xmm1, xmm1
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	cmp	qword ptr [rcx + 8*rsi + 8], 0
+	movapd	xmm1, xmm0
+	je	.LBB4_826
+.LBB4_823:                              #   in Loop: Header=BB4_821 Depth=1
+	movss	dword ptr [r8 + 4*rsi + 4], xmm1
+	cmp	qword ptr [rcx + 8*rsi + 16], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_824
+.LBB4_827:                              #   in Loop: Header=BB4_821 Depth=1
+	xorpd	xmm1, xmm1
+	movss	dword ptr [r8 + 4*rsi + 8], xmm1
+	cmp	qword ptr [rcx + 8*rsi + 24], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_820
+	jmp	.LBB4_828
+.LBB4_822:                              #   in Loop: Header=BB4_821 Depth=1
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	cmp	qword ptr [rcx + 8*rsi + 8], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_823
+.LBB4_826:                              #   in Loop: Header=BB4_821 Depth=1
+	xorpd	xmm1, xmm1
+	movss	dword ptr [r8 + 4*rsi + 4], xmm1
+	cmp	qword ptr [rcx + 8*rsi + 16], 0
+	movapd	xmm1, xmm0
+	je	.LBB4_827
+.LBB4_824:                              #   in Loop: Header=BB4_821 Depth=1
+	movss	dword ptr [r8 + 4*rsi + 8], xmm1
+	cmp	qword ptr [rcx + 8*rsi + 24], 0
+	movapd	xmm1, xmm0
+	jne	.LBB4_820
+.LBB4_828:                              #   in Loop: Header=BB4_821 Depth=1
+	xorpd	xmm1, xmm1
+	jmp	.LBB4_820
+.LBB4_829:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1055
+# %bb.830:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
+.LBB4_831:                              # =>This Inner Loop Header: Depth=1
+	movd	xmm3, dword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero,zero,zero
+	movd	xmm4, dword ptr [rcx + 2*rsi + 4] # xmm4 = mem[0],zero,zero,zero
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxwq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
+	pand	xmm3, xmm2
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxwq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
+	movd	xmm3, dword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero,zero,zero
+	movd	xmm4, dword ptr [rcx + 2*rsi + 12] # xmm4 = mem[0],zero,zero,zero
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxwq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
+	pand	xmm3, xmm2
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxwq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_831
+	jmp	.LBB4_1056
+.LBB4_832:
+	mov	edx, eax
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1204
+# %bb.833:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+.LBB4_834:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
+	pand	xmm3, xmm2
+	cvtdq2ps	xmm3, xmm3
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
+	pand	xmm4, xmm2
+	cvtdq2ps	xmm4, xmm4
+	movups	xmmword ptr [r8 + 4*rsi], xmm3
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
+	movq	xmm3, qword ptr [rcx + 2*rsi + 16] # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + 2*rsi + 24] # xmm4 = mem[0],zero
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
+	pand	xmm3, xmm2
+	cvtdq2ps	xmm3, xmm3
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
+	pand	xmm4, xmm2
+	cvtdq2ps	xmm4, xmm4
+	movups	xmmword ptr [r8 + 4*rsi + 32], xmm3
+	movups	xmmword ptr [r8 + 4*rsi + 48], xmm4
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_834
+	jmp	.LBB4_1205
+.LBB4_835:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1212
+# %bb.836:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+.LBB4_837:                              # =>This Inner Loop Header: Depth=1
+	movd	xmm5, dword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero,zero,zero
+	movd	xmm6, dword ptr [rcx + 2*rsi + 4] # xmm6 = mem[0],zero,zero,zero
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	pmovsxwq	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	pmovsxwq	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxwq	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxwq	xmm6, xmm6
+	blendvpd	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm6, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm5
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
+	movd	xmm5, dword ptr [rcx + 2*rsi + 8] # xmm5 = mem[0],zero,zero,zero
+	movd	xmm6, dword ptr [rcx + 2*rsi + 12] # xmm6 = mem[0],zero,zero,zero
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	pmovsxwq	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	pmovsxwq	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxwq	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxwq	xmm6, xmm6
+	blendvpd	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm6, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
+	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_837
+	jmp	.LBB4_1213
+.LBB4_838:
+	mov	edx, eax
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1218
+# %bb.839:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_840:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm5, qword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + 2*rsi + 8] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	pmovsxwd	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	pmovsxwd	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxwd	xmm5, xmm5
+	cvtdq2ps	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxwd	xmm6, xmm6
+	cvtdq2ps	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
+	movq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	pmovsxwd	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	pmovsxwd	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxwd	xmm5, xmm5
+	cvtdq2ps	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxwd	xmm6, xmm6
+	cvtdq2ps	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_840
+	jmp	.LBB4_1219
+.LBB4_846:
+	mov	esi, edx
+	and	esi, -2
+	xor	eax, eax
+	movss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
+	movss	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
+	jmp	.LBB4_848
+.LBB4_847:                              #   in Loop: Header=BB4_848 Depth=1
+	movss	dword ptr [r8 + 4*rax + 4], xmm3
+	add	rax, 2
+	cmp	rsi, rax
+	je	.LBB4_410
+.LBB4_848:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rcx + 8*rax], 0
+	movapd	xmm2, xmm0
+	jne	.LBB4_849
+# %bb.852:                              #   in Loop: Header=BB4_848 Depth=1
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmm1
+	jle	.LBB4_853
+.LBB4_850:                              #   in Loop: Header=BB4_848 Depth=1
+	movss	dword ptr [r8 + 4*rax], xmm3
+	cmp	qword ptr [rcx + 8*rax + 8], 0
+	movapd	xmm2, xmm0
+	jne	.LBB4_851
+.LBB4_854:                              #   in Loop: Header=BB4_848 Depth=1
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmm1
+	jg	.LBB4_847
+	jmp	.LBB4_855
+.LBB4_849:                              #   in Loop: Header=BB4_848 Depth=1
+	movapd	xmm3, xmm1
+	jg	.LBB4_850
+.LBB4_853:                              #   in Loop: Header=BB4_848 Depth=1
+	movapd	xmm3, xmm2
+	movss	dword ptr [r8 + 4*rax], xmm3
+	cmp	qword ptr [rcx + 8*rax + 8], 0
+	movapd	xmm2, xmm0
+	je	.LBB4_854
+.LBB4_851:                              #   in Loop: Header=BB4_848 Depth=1
+	movapd	xmm3, xmm1
+	jg	.LBB4_847
+.LBB4_855:                              #   in Loop: Header=BB4_848 Depth=1
+	movapd	xmm3, xmm2
+	jmp	.LBB4_847
+.LBB4_856:
+	mov	esi, edx
+	and	esi, -2
+	xor	eax, eax
+	xorps	xmm0, xmm0
+	jmp	.LBB4_859
+.LBB4_857:                              #   in Loop: Header=BB4_859 Depth=1
+	movmskps	edi, xmm1
+	and	edi, 1
+	neg	edi
+	or	edi, 1
+	xorps	xmm1, xmm1
+	cvtsi2ss	xmm1, edi
+	cvttss2si	rdi, xmm1
+	mov	qword ptr [r8 + 8*rax + 8], rdi
+	add	rax, 2
+	cmp	rsi, rax
+	je	.LBB4_416
+.LBB4_859:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rax]   # xmm1 = mem[0],zero,zero,zero
+	ucomiss	xmm0, xmm1
+	jne	.LBB4_861
+# %bb.860:                              #   in Loop: Header=BB4_859 Depth=1
+	xor	edi, edi
+	jmp	.LBB4_862
+.LBB4_861:                              #   in Loop: Header=BB4_859 Depth=1
+	movmskps	edi, xmm1
+	and	edi, 1
+	neg	edi
+	or	edi, 1
+	xorps	xmm1, xmm1
+	cvtsi2ss	xmm1, edi
+	cvttss2si	rdi, xmm1
+.LBB4_862:                              #   in Loop: Header=BB4_859 Depth=1
+	mov	qword ptr [r8 + 8*rax], rdi
+	movss	xmm1, dword ptr [rcx + 4*rax + 4] # xmm1 = mem[0],zero,zero,zero
+	ucomiss	xmm0, xmm1
+	jne	.LBB4_857
+# %bb.863:                              #   in Loop: Header=BB4_859 Depth=1
+	xor	edi, edi
+	mov	qword ptr [r8 + 8*rax + 8], rdi
+	add	rax, 2
+	cmp	rsi, rax
+	jne	.LBB4_859
+.LBB4_416:
+	test	dl, 1
+	je	.LBB4_1655
+# %bb.417:
+	movss	xmm0, dword ptr [rcx + 4*rax]   # xmm0 = mem[0],zero,zero,zero
+	xorps	xmm1, xmm1
+	ucomiss	xmm1, xmm0
+	jne	.LBB4_1104
+# %bb.418:
+	xor	ecx, ecx
+	jmp	.LBB4_1105
+.LBB4_884:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1060
+# %bb.885:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+.LBB4_886:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm5, qword ptr [rcx + 4*rsi]   # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + 4*rsi + 8] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	pmovsxdq	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	pmovsxdq	xmm1, xmm1
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxdq	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxdq	xmm6, xmm6
+	blendvpd	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm6, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm5
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
+	movq	xmm5, qword ptr [rcx + 4*rsi + 16] # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + 4*rsi + 24] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	pmovsxdq	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	pmovsxdq	xmm1, xmm1
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxdq	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxdq	xmm6, xmm6
+	blendvpd	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm6, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
+	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_886
+	jmp	.LBB4_1061
+.LBB4_887:
+	mov	edx, eax
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1066
+# %bb.888:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_889:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	cvtdq2ps	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	cvtdq2ps	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
+	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	cvtdq2ps	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	cvtdq2ps	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_889
+	jmp	.LBB4_1067
+.LBB4_945:
+	mov	esi, eax
+	and	esi, -4
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB4_1076
+# %bb.946:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+	xorpd	xmm0, xmm0
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
+.LBB4_947:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm4, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm5, xmm3
+	cmpeqpd	xmm5, xmm0
+	shufps	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
+	movapd	xmm6, xmm4
+	cmpeqpd	xmm6, xmm0
+	shufps	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm2
+	andpd	xmm4, xmm1
+	orpd	xmm4, xmm2
+	cvttpd2dq	xmm3, xmm3
+	cvttpd2dq	xmm4, xmm4
+	andnps	xmm5, xmm3
+	andnps	xmm6, xmm4
+	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
+	movups	xmmword ptr [r8 + 4*rdi], xmm5
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm4, xmmword ptr [rcx + 8*rdi + 48]
+	movapd	xmm5, xmm3
+	cmpeqpd	xmm5, xmm0
+	shufps	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
+	movapd	xmm6, xmm4
+	cmpeqpd	xmm6, xmm0
+	shufps	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm2
+	andpd	xmm4, xmm1
+	orpd	xmm4, xmm2
+	cvttpd2dq	xmm3, xmm3
+	andnps	xmm5, xmm3
+	cvttpd2dq	xmm3, xmm4
+	andnps	xmm6, xmm3
+	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm5
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB4_947
+	jmp	.LBB4_1077
+.LBB4_953:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1082
+# %bb.954:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI4_16] # xmm1 = <1,1,u,u>
+.LBB4_955:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
+	pcmpeqq	xmm2, xmm0
+	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
+	pandn	xmm2, xmm1
+	pcmpeqq	xmm3, xmm0
+	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
+	pandn	xmm3, xmm1
+	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 48]
+	pcmpeqq	xmm2, xmm0
+	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
+	pandn	xmm2, xmm1
+	pcmpeqq	xmm3, xmm0
+	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
+	pandn	xmm3, xmm1
+	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm2
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_955
+	jmp	.LBB4_1083
+.LBB4_956:
+	mov	edx, eax
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1087
+# %bb.957:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+.LBB4_958:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm3, qword ptr [rcx + 2*rsi]   # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + 2*rsi + 8] # xmm4 = mem[0],zero
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
+	pand	xmm3, xmm2
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
+	movq	xmm3, qword ptr [rcx + 2*rsi + 16] # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + 2*rsi + 24] # xmm4 = mem[0],zero
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxwd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
+	pand	xmm3, xmm2
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxwd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm4
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_958
+	jmp	.LBB4_1088
+.LBB4_959:
+	mov	edx, r10d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1092
+# %bb.960:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+.LBB4_961:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm5, qword ptr [rcx + 2*rsi]   # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + 2*rsi + 8] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	pmovsxwd	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	pmovsxwd	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxwd	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxwd	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
+	movq	xmm5, qword ptr [rcx + 2*rsi + 16] # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + 2*rsi + 24] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	pmovsxwd	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	pmovsxwd	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxwd	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxwd	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_961
+	jmp	.LBB4_1093
+.LBB4_962:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1098
+# %bb.963:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_16] # xmm4 = <1,1,u,u>
+.LBB4_964:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
+	movdqa	xmm0, xmm5
+	pcmpgtq	xmm0, xmm2
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	movdqa	xmm1, xmm6
+	pcmpgtq	xmm1, xmm2
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pcmpeqq	xmm5, xmm2
+	pshufd	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
+	pxor	xmm5, xmm3
+	pcmpeqq	xmm6, xmm2
+	pshufd	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
+	pxor	xmm6, xmm3
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
+	movups	xmmword ptr [r8 + 4*rsi], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
+	movdqa	xmm0, xmm5
+	pcmpgtq	xmm0, xmm2
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	movdqa	xmm1, xmm6
+	pcmpgtq	xmm1, xmm2
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pcmpeqq	xmm5, xmm2
+	pshufd	xmm5, xmm5, 232                 # xmm5 = xmm5[0,2,2,3]
+	pxor	xmm5, xmm3
+	pcmpeqq	xmm6, xmm2
+	pshufd	xmm6, xmm6, 232                 # xmm6 = xmm6[0,2,2,3]
+	pxor	xmm6, xmm3
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movlhps	xmm5, xmm6                      # xmm5 = xmm5[0],xmm6[0]
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_964
+	jmp	.LBB4_1099
+.LBB4_965:
+	mov	edx, eax
+	and	edx, -8
+	xor	esi, esi
+	xorps	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
+.LBB4_966:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
+	movdqa	xmm4, xmm2
+	psrad	xmm4, 31
+	por	xmm4, xmm1
+	movdqa	xmm5, xmm3
+	psrad	xmm5, 31
+	por	xmm5, xmm1
+	cvtdq2ps	xmm4, xmm4
+	cvtdq2ps	xmm5, xmm5
+	cvttps2dq	xmm4, xmm4
+	cvttps2dq	xmm5, xmm5
+	cmpneqps	xmm2, xmm0
+	andps	xmm2, xmm4
+	cmpneqps	xmm3, xmm0
+	andps	xmm3, xmm5
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
+	add	rsi, 8
+	cmp	rdx, rsi
+	jne	.LBB4_966
+# %bb.967:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_968:
+	xorps	xmm0, xmm0
+	jmp	.LBB4_970
+.LBB4_969:                              #   in Loop: Header=BB4_970 Depth=1
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1655
+.LBB4_970:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	xor	esi, esi
+	ucomiss	xmm0, xmm1
+	je	.LBB4_969
+# %bb.971:                              #   in Loop: Header=BB4_970 Depth=1
+	movmskps	esi, xmm1
+	and	esi, 1
+	neg	esi
+	or	esi, 1
+	xorps	xmm1, xmm1
+	cvtsi2ss	xmm1, esi
+	cvttss2si	esi, xmm1
+	jmp	.LBB4_969
+.LBB4_496:
+	mov	edx, r10d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1228
+# %bb.497:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
+.LBB4_498:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
+	pcmpeqd	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqd	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm3
+	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 32]
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 48]
+	pcmpeqd	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqd	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm3
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_498
+	jmp	.LBB4_1229
+.LBB4_504:
+	mov	edx, r10d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1236
+# %bb.505:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+.LBB4_506:                              # =>This Inner Loop Header: Depth=1
+	movd	xmm5, dword ptr [rcx + rsi]     # xmm5 = mem[0],zero,zero,zero
+	movd	xmm6, dword ptr [rcx + rsi + 4] # xmm6 = mem[0],zero,zero,zero
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbd	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbd	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbd	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbd	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
+	movd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
+	movd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbd	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbd	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbd	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbd	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_506
+	jmp	.LBB4_1237
+.LBB4_524:
+	mov	edx, r10d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1245
+# %bb.525:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+.LBB4_526:                              # =>This Inner Loop Header: Depth=1
+	movd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
+	movd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
+	pand	xmm3, xmm2
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
+	movd	xmm3, dword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero,zero,zero
+	movd	xmm4, dword ptr [rcx + rsi + 12] # xmm4 = mem[0],zero,zero,zero
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
+	pand	xmm3, xmm2
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm4
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_526
+	jmp	.LBB4_1246
+.LBB4_529:
+	mov	edx, r11d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1253
+# %bb.530:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+.LBB4_531:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
+	movdqa	xmm0, xmm4
+	pcmpgtd	xmm0, xmm5
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtd	xmm1, xmm6
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	blendvps	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	blendvps	xmm5, xmm6, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm7
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
+	movdqa	xmm0, xmm4
+	pcmpgtd	xmm0, xmm5
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtd	xmm1, xmm6
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	blendvps	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	blendvps	xmm5, xmm6, xmm0
+	movups	xmmword ptr [r8 + 4*rsi + 32], xmm7
+	movups	xmmword ptr [r8 + 4*rsi + 48], xmm5
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_531
+	jmp	.LBB4_1254
+.LBB4_544:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1262
+# %bb.545:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	xorpd	xmm0, xmm0
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	movapd	xmm2, xmmword ptr [rip + .LCPI4_1] # xmm2 = [1.0E+0,1.0E+0]
+.LBB4_546:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm3, xmmword ptr [rcx + 8*rsi]
+	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 16]
+	movapd	xmm5, xmm3
+	andpd	xmm5, xmm1
+	orpd	xmm5, xmm2
+	movapd	xmm6, xmm4
+	andpd	xmm6, xmm1
+	orpd	xmm6, xmm2
+	cmpneqpd	xmm3, xmm0
+	andpd	xmm3, xmm5
+	cmpneqpd	xmm4, xmm0
+	andpd	xmm4, xmm6
+	movupd	xmmword ptr [r8 + 8*rsi], xmm3
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm4
+	movupd	xmm3, xmmword ptr [rcx + 8*rsi + 32]
+	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 48]
+	movapd	xmm5, xmm3
+	andpd	xmm5, xmm1
+	orpd	xmm5, xmm2
+	movapd	xmm6, xmm4
+	andpd	xmm6, xmm1
+	orpd	xmm6, xmm2
+	cmpneqpd	xmm3, xmm0
+	andpd	xmm3, xmm5
+	cmpneqpd	xmm4, xmm0
+	andpd	xmm4, xmm6
+	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm3
+	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm4
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_546
+	jmp	.LBB4_1263
+.LBB4_625:
+	mov	edx, eax
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1271
+# %bb.626:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_12] # xmm2 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_627:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
+	pcmpeqd	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqd	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm2
+	movd	dword ptr [r8 + rsi], xmm3
+	movd	dword ptr [r8 + rsi + 4], xmm4
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 32]
+	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 48]
+	pcmpeqd	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqd	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm2
+	movd	dword ptr [r8 + rsi + 8], xmm3
+	movd	dword ptr [r8 + rsi + 12], xmm4
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_627
+	jmp	.LBB4_1272
+.LBB4_630:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1279
+# %bb.631:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_1] # xmm4 = [1.0E+0,1.0E+0]
+	movdqa	xmm5, xmmword ptr [rip + .LCPI4_7] # xmm5 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_632:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm6, xmmword ptr [rcx + 8*rsi]
+	movupd	xmm7, xmmword ptr [rcx + 8*rsi + 16]
+	movapd	xmm0, xmm6
+	cmpeqpd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movapd	xmm1, xmm7
+	cmpeqpd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	andpd	xmm6, xmm3
+	orpd	xmm6, xmm4
+	andpd	xmm7, xmm3
+	orpd	xmm7, xmm4
+	cvttpd2dq	xmm6, xmm6
+	pshufb	xmm6, xmm5
+	cvttpd2dq	xmm7, xmm7
+	pshufb	xmm7, xmm5
+	pblendvb	xmm6, xmm2, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm7, xmm2, xmm0
+	pextrw	word ptr [r8 + rsi], xmm6, 0
+	pextrw	word ptr [r8 + rsi + 2], xmm7, 0
+	movupd	xmm6, xmmword ptr [rcx + 8*rsi + 32]
+	movupd	xmm7, xmmword ptr [rcx + 8*rsi + 48]
+	movapd	xmm0, xmm6
+	cmpeqpd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movapd	xmm1, xmm7
+	cmpeqpd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	andpd	xmm6, xmm3
+	orpd	xmm6, xmm4
+	andpd	xmm7, xmm3
+	orpd	xmm7, xmm4
+	cvttpd2dq	xmm6, xmm6
+	pshufb	xmm6, xmm5
+	cvttpd2dq	xmm7, xmm7
+	pshufb	xmm7, xmm5
+	pblendvb	xmm6, xmm2, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm7, xmm2, xmm0
+	pextrw	word ptr [r8 + rsi + 4], xmm6, 0
+	pextrw	word ptr [r8 + rsi + 6], xmm7, 0
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_632
+	jmp	.LBB4_1280
+.LBB4_635:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB4_1288
+# %bb.636:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	eax, eax
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_22] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_637:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + rax]
+	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
+	movdqa	xmm0, xmm4
+	pcmpgtb	xmm0, xmm5
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtb	xmm1, xmm6
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	pblendvb	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqu	xmmword ptr [r8 + rax], xmm7
+	movdqu	xmmword ptr [r8 + rax + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
+	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
+	movdqa	xmm0, xmm4
+	pcmpgtb	xmm0, xmm5
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtb	xmm1, xmm6
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	pblendvb	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqu	xmmword ptr [r8 + rax + 32], xmm7
+	movdqu	xmmword ptr [r8 + rax + 48], xmm5
+	add	rax, 64
+	add	rdi, 2
+	jne	.LBB4_637
+	jmp	.LBB4_1289
+.LBB4_640:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1297
+# %bb.641:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_18] # xmm2 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_642:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 16]
+	pcmpeqq	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqq	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pextrw	word ptr [r8 + rsi], xmm3, 0
+	pand	xmm4, xmm2
+	pextrw	word ptr [r8 + rsi + 2], xmm4, 0
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 48]
+	pcmpeqq	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqq	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pextrw	word ptr [r8 + rsi + 4], xmm3, 0
+	pand	xmm4, xmm2
+	pextrw	word ptr [r8 + rsi + 6], xmm4, 0
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_642
+	jmp	.LBB4_1298
+.LBB4_645:
+	mov	edx, eax
+	and	edx, -16
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1305
+# %bb.646:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_21] # xmm2 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+.LBB4_647:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm3, xmmword ptr [rcx + 2*rsi]
+	movdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm2
+	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
+	movdqu	xmmword ptr [r8 + rsi], xmm3
+	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 32]
+	movdqu	xmm4, xmmword ptr [rcx + 2*rsi + 48]
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm2
+	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
+	movdqu	xmmword ptr [r8 + rsi + 16], xmm3
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB4_647
+	jmp	.LBB4_1306
+.LBB4_650:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB4_1313
+# %bb.651:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	eax, eax
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+.LBB4_652:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 2*rax]
+	movdqu	xmm6, xmmword ptr [rcx + 2*rax + 16]
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	packsswb	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packsswb	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packsswb	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + 2*rax + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 2*rax + 48]
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	packsswb	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packsswb	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packsswb	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	movdqu	xmmword ptr [r8 + rax + 16], xmm5
+	add	rax, 32
+	add	rdi, 2
+	jne	.LBB4_652
+	jmp	.LBB4_1314
+.LBB4_655:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB4_1322
+# %bb.656:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	eax, eax
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_657:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 8*rax]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rax + 16]
+	movdqa	xmm0, xmm5
+	pcmpgtq	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtq	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	pextrw	word ptr [r8 + rax], xmm5, 0
+	pextrw	word ptr [r8 + rax + 2], xmm6, 0
+	movdqu	xmm5, xmmword ptr [rcx + 8*rax + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rax + 48]
+	movdqa	xmm0, xmm5
+	pcmpgtq	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtq	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	pextrw	word ptr [r8 + rax + 4], xmm5, 0
+	pextrw	word ptr [r8 + rax + 6], xmm6, 0
+	add	rax, 8
+	add	rdi, 2
+	jne	.LBB4_657
+	jmp	.LBB4_1323
+.LBB4_660:
+	mov	edx, r10d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1331
+# %bb.661:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	xorps	xmm4, xmm4
+	pcmpeqd	xmm8, xmm8
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_12] # xmm6 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_662:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rcx + 4*rsi]
+	movups	xmm1, xmmword ptr [rcx + 4*rsi + 16]
+	movaps	xmm2, xmm0
+	cmpeqps	xmm2, xmm4
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movaps	xmm3, xmm1
+	cmpeqps	xmm3, xmm4
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pcmpgtd	xmm0, xmm8
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pcmpgtd	xmm1, xmm8
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqd	xmm7, xmm7
+	pblendvb	xmm7, xmm6, xmm0
+	pcmpeqd	xmm5, xmm5
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqa	xmm0, xmm2
+	pblendvb	xmm7, xmm4, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm5, xmm4, xmm0
+	movd	dword ptr [r8 + rsi], xmm7
+	movd	dword ptr [r8 + rsi + 4], xmm5
+	movups	xmm0, xmmword ptr [rcx + 4*rsi + 32]
+	movups	xmm1, xmmword ptr [rcx + 4*rsi + 48]
+	movaps	xmm2, xmm0
+	cmpeqps	xmm2, xmm4
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movaps	xmm3, xmm1
+	cmpeqps	xmm3, xmm4
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pcmpgtd	xmm0, xmm8
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pcmpgtd	xmm1, xmm8
+	packssdw	xmm1, xmm1
+	pcmpeqd	xmm5, xmm5
+	pblendvb	xmm5, xmm6, xmm0
+	packsswb	xmm1, xmm1
+	pcmpeqd	xmm7, xmm7
+	movdqa	xmm0, xmm1
+	pblendvb	xmm7, xmm6, xmm0
+	movdqa	xmm0, xmm2
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm7, xmm4, xmm0
+	movd	dword ptr [r8 + rsi + 8], xmm5
+	movd	dword ptr [r8 + rsi + 12], xmm7
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_662
+	jmp	.LBB4_1332
+.LBB4_665:
+	mov	edx, eax
+	and	edx, -32
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1340
+# %bb.666:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI4_22] # xmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_667:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rcx + rsi]
+	movdqu	xmm3, xmmword ptr [rcx + rsi + 16]
+	pcmpeqb	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqb	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + rsi], xmm2
+	movdqu	xmmword ptr [r8 + rsi + 16], xmm3
+	movdqu	xmm2, xmmword ptr [rcx + rsi + 32]
+	movdqu	xmm3, xmmword ptr [rcx + rsi + 48]
+	pcmpeqb	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqb	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + rsi + 32], xmm2
+	movdqu	xmmword ptr [r8 + rsi + 48], xmm3
+	add	rsi, 64
+	add	rdi, 2
+	jne	.LBB4_667
+	jmp	.LBB4_1341
+.LBB4_670:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB4_1348
+# %bb.671:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	eax, eax
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_672:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 4*rax]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rax + 16]
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	movd	dword ptr [r8 + rax], xmm5
+	movd	dword ptr [r8 + rax + 4], xmm6
+	movdqu	xmm5, xmmword ptr [rcx + 4*rax + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rax + 48]
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	movd	dword ptr [r8 + rax + 8], xmm5
+	movd	dword ptr [r8 + rax + 12], xmm6
+	add	rax, 16
+	add	rdi, 2
+	jne	.LBB4_672
+	jmp	.LBB4_1349
+.LBB4_681:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1357
+# %bb.682:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+.LBB4_683:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + rsi]
+	movd	xmm5, eax
+	movzx	eax, word ptr [rcx + rsi + 2]
+	movd	xmm6, eax
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbq	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbq	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbq	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbq	xmm6, xmm6
+	blendvpd	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm6, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm5
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
+	movzx	eax, word ptr [rcx + rsi + 4]
+	movd	xmm5, eax
+	movzx	eax, word ptr [rcx + rsi + 6]
+	movd	xmm6, eax
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbq	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbq	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbq	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbq	xmm6, xmm6
+	blendvpd	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm6, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
+	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_683
+	jmp	.LBB4_1358
+.LBB4_686:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1366
+# %bb.687:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI4_15] # xmm1 = [1,1]
+.LBB4_688:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
+	pcmpeqq	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqq	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm3
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 48]
+	pcmpeqq	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqq	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm3
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_688
+	jmp	.LBB4_1367
+.LBB4_697:
+	mov	edx, r11d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1374
+# %bb.698:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+.LBB4_699:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
+	movdqa	xmm0, xmm4
+	pcmpgtq	xmm0, xmm5
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtq	xmm1, xmm6
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	blendvpd	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	blendvpd	xmm5, xmm6, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm7
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
+	movdqa	xmm0, xmm4
+	pcmpgtq	xmm0, xmm5
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtq	xmm1, xmm6
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	blendvpd	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	blendvpd	xmm5, xmm6, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm7
+	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm5
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_699
+	jmp	.LBB4_1375
+.LBB4_710:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1383
+# %bb.711:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
+.LBB4_712:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + rsi]
+	movd	xmm3, eax
+	movzx	eax, word ptr [rcx + rsi + 2]
+	movd	xmm4, eax
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero
+	pand	xmm3, xmm2
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
+	movzx	eax, word ptr [rcx + rsi + 4]
+	movd	xmm3, eax
+	movzx	eax, word ptr [rcx + rsi + 6]
+	movd	xmm4, eax
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero
+	pand	xmm3, xmm2
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_712
+	jmp	.LBB4_1384
+.LBB4_730:
+	mov	edx, r10d
+	and	edx, -16
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1391
+# %bb.731:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
+.LBB4_732:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm5, qword ptr [rcx + rsi]     # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + rsi + 8] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbw	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbw	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbw	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbw	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm5
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm6
+	movq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbw	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbw	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbw	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbw	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm5
+	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm6
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB4_732
+	jmp	.LBB4_1392
+.LBB4_735:
+	mov	edx, r10d
+	and	edx, -16
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1400
+# %bb.736:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
+.LBB4_737:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm5, qword ptr [rcx + rsi]     # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + rsi + 8] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbw	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbw	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbw	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbw	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm5
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm6
+	movq	xmm5, qword ptr [rcx + rsi + 16] # xmm5 = mem[0],zero
+	movq	xmm6, qword ptr [rcx + rsi + 24] # xmm6 = mem[0],zero
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbw	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbw	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbw	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbw	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm5
+	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm6
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB4_737
+	jmp	.LBB4_1401
+.LBB4_746:
+	mov	edx, r10d
+	and	edx, -16
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1409
+# %bb.747:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI4_20] # xmm1 = [1,1,1,1,1,1,1,1]
+.LBB4_748:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rcx + 2*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 16]
+	pcmpeqw	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqw	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
+	movdqu	xmm2, xmmword ptr [rcx + 2*rsi + 32]
+	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 48]
+	pcmpeqw	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqw	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm3
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB4_748
+	jmp	.LBB4_1410
+.LBB4_751:
+	mov	edx, r10d
+	and	edx, -16
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1417
+# %bb.752:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI4_20] # xmm1 = [1,1,1,1,1,1,1,1]
+.LBB4_753:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rcx + 2*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 16]
+	pcmpeqw	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqw	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
+	movdqu	xmm2, xmmword ptr [rcx + 2*rsi + 32]
+	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 48]
+	pcmpeqw	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqw	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm3
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB4_753
+	jmp	.LBB4_1418
+.LBB4_756:
+	mov	edx, r11d
+	and	edx, -16
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1425
+# %bb.757:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
+.LBB4_758:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 2*rsi]
+	movdqu	xmm6, xmmword ptr [rcx + 2*rsi + 16]
+	movdqa	xmm0, xmm4
+	pcmpgtw	xmm0, xmm5
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtw	xmm1, xmm6
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	pblendvb	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm7
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
+	movdqa	xmm0, xmm4
+	pcmpgtw	xmm0, xmm5
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtw	xmm1, xmm6
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	pblendvb	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm7
+	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm5
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB4_758
+	jmp	.LBB4_1426
+.LBB4_761:
+	mov	edx, r11d
+	and	edx, -16
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1434
+# %bb.762:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
+.LBB4_763:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 2*rsi]
+	movdqu	xmm6, xmmword ptr [rcx + 2*rsi + 16]
+	movdqa	xmm0, xmm4
+	pcmpgtw	xmm0, xmm5
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtw	xmm1, xmm6
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	pblendvb	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm7
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + 2*rsi + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 2*rsi + 48]
+	movdqa	xmm0, xmm4
+	pcmpgtw	xmm0, xmm5
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtw	xmm1, xmm6
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	pblendvb	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm7
+	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm5
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB4_763
+	jmp	.LBB4_1435
+.LBB4_778:
+	mov	edx, r10d
+	and	edx, -16
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1443
+# %bb.779:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_20] # xmm2 = [1,1,1,1,1,1,1,1]
+.LBB4_780:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbw	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	pand	xmm3, xmm2
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbw	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
+	movq	xmm3, qword ptr [rcx + rsi + 16] # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + rsi + 24] # xmm4 = mem[0],zero
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbw	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	pand	xmm3, xmm2
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbw	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm4
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB4_780
+	jmp	.LBB4_1444
+.LBB4_783:
+	mov	edx, r10d
+	and	edx, -16
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1451
+# %bb.784:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_20] # xmm2 = [1,1,1,1,1,1,1,1]
+.LBB4_785:                              # =>This Inner Loop Header: Depth=1
+	movq	xmm3, qword ptr [rcx + rsi]     # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + rsi + 8] # xmm4 = mem[0],zero
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbw	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	pand	xmm3, xmm2
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbw	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
+	movq	xmm3, qword ptr [rcx + rsi + 16] # xmm3 = mem[0],zero
+	movq	xmm4, qword ptr [rcx + rsi + 24] # xmm4 = mem[0],zero
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbw	xmm3, xmm3                      # xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
+	pand	xmm3, xmm2
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbw	xmm4, xmm4                      # xmm4 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero,xmm4[4],zero,xmm4[5],zero,xmm4[6],zero,xmm4[7],zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 2*rsi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rsi + 48], xmm4
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB4_785
+	jmp	.LBB4_1452
+.LBB4_806:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1459
+# %bb.807:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+.LBB4_808:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + rsi]
+	movd	xmm5, eax
+	movzx	eax, word ptr [rcx + rsi + 2]
+	movd	xmm6, eax
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbq	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbq	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbq	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbq	xmm6, xmm6
+	blendvpd	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm6, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm5
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm6
+	movzx	eax, word ptr [rcx + rsi + 4]
+	movd	xmm5, eax
+	movzx	eax, word ptr [rcx + rsi + 6]
+	movd	xmm6, eax
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbq	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbq	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbq	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbq	xmm6, xmm6
+	blendvpd	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm6, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm5
+	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm6
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_808
+	jmp	.LBB4_1460
+.LBB4_811:
+	mov	edx, eax
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1468
+# %bb.812:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+.LBB4_813:                              # =>This Inner Loop Header: Depth=1
+	movd	xmm5, dword ptr [rcx + rsi]     # xmm5 = mem[0],zero,zero,zero
+	movd	xmm6, dword ptr [rcx + rsi + 4] # xmm6 = mem[0],zero,zero,zero
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbd	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbd	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbd	xmm5, xmm5
+	cvtdq2ps	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbd	xmm6, xmm6
+	cvtdq2ps	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
+	movd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
+	movd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbd	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbd	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbd	xmm5, xmm5
+	cvtdq2ps	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbd	xmm6, xmm6
+	cvtdq2ps	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_813
+	jmp	.LBB4_1469
+.LBB4_816:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1490
+# %bb.817:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI4_15] # xmm1 = [1,1]
+.LBB4_818:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
+	pcmpeqq	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqq	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm3
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 48]
+	pcmpeqq	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqq	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm3
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_818
+	jmp	.LBB4_1491
+.LBB4_843:
+	mov	edx, r11d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1498
+# %bb.844:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+.LBB4_845:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 16]
+	movdqa	xmm0, xmm4
+	pcmpgtq	xmm0, xmm5
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtq	xmm1, xmm6
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	blendvpd	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	blendvpd	xmm5, xmm6, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm7
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rsi + 48]
+	movdqa	xmm0, xmm4
+	pcmpgtq	xmm0, xmm5
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtq	xmm1, xmm6
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	blendvpd	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	blendvpd	xmm5, xmm6, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi + 32], xmm7
+	movupd	xmmword ptr [r8 + 8*rsi + 48], xmm5
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_845
+	jmp	.LBB4_1499
+.LBB4_989:
+	movss	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
+.LBB4_990:
+	jle	.LBB4_992
+# %bb.991:
+	movss	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+.LBB4_992:
+	movss	dword ptr [r8 + 4*rax], xmm0
+	jmp	.LBB4_1655
+.LBB4_866:
+	mov	edx, eax
+	and	edx, -8
+	xor	esi, esi
+	xorps	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
+.LBB4_867:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
+	movdqa	xmm4, xmm2
+	psrad	xmm4, 31
+	por	xmm4, xmm1
+	movdqa	xmm5, xmm3
+	psrad	xmm5, 31
+	por	xmm5, xmm1
+	cvtdq2ps	xmm4, xmm4
+	cvtdq2ps	xmm5, xmm5
+	cmpneqps	xmm2, xmm0
+	andps	xmm2, xmm4
+	cmpneqps	xmm3, xmm0
+	andps	xmm3, xmm5
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
+	add	rsi, 8
+	cmp	rdx, rsi
+	jne	.LBB4_867
+# %bb.868:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_869
+.LBB4_876:
+	mov	edx, r10d
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1507
+# %bb.877:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_15] # xmm2 = [1,1]
+.LBB4_878:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + rsi]
+	movd	xmm3, eax
+	movzx	eax, word ptr [rcx + rsi + 2]
+	movd	xmm4, eax
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero
+	pand	xmm3, xmm2
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm4
+	movzx	eax, word ptr [rcx + rsi + 4]
+	movd	xmm3, eax
+	movzx	eax, word ptr [rcx + rsi + 6]
+	movd	xmm4, eax
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbq	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,zero,zero,zero,zero,xmm3[1],zero,zero,zero,zero,zero,zero,zero
+	pand	xmm3, xmm2
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbq	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,zero,zero,zero,zero,xmm4[1],zero,zero,zero,zero,zero,zero,zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 8*rsi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi + 48], xmm4
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_878
+	jmp	.LBB4_1508
+.LBB4_881:
+	mov	edx, eax
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1515
+# %bb.882:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+.LBB4_883:                              # =>This Inner Loop Header: Depth=1
+	movd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
+	movd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
+	pand	xmm3, xmm2
+	cvtdq2ps	xmm3, xmm3
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
+	pand	xmm4, xmm2
+	cvtdq2ps	xmm4, xmm4
+	movups	xmmword ptr [r8 + 4*rsi], xmm3
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
+	movd	xmm3, dword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero,zero,zero
+	movd	xmm4, dword ptr [rcx + rsi + 12] # xmm4 = mem[0],zero,zero,zero
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
+	pand	xmm3, xmm2
+	cvtdq2ps	xmm3, xmm3
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
+	pand	xmm4, xmm2
+	cvtdq2ps	xmm4, xmm4
+	movups	xmmword ptr [r8 + 4*rsi + 32], xmm3
+	movups	xmmword ptr [r8 + 4*rsi + 48], xmm4
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_883
+	jmp	.LBB4_1516
+.LBB4_892:
+	mov	edx, eax
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1535
+# %bb.893:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_12] # xmm2 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_894:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 16]
+	pcmpeqd	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqd	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm2
+	movd	dword ptr [r8 + rsi], xmm3
+	movd	dword ptr [r8 + rsi + 4], xmm4
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 32]
+	movdqu	xmm4, xmmword ptr [rcx + 4*rsi + 48]
+	pcmpeqd	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqd	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm2
+	movd	dword ptr [r8 + rsi + 8], xmm3
+	movd	dword ptr [r8 + rsi + 12], xmm4
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_894
+	jmp	.LBB4_1536
+.LBB4_897:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1543
+# %bb.898:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_1] # xmm4 = [1.0E+0,1.0E+0]
+	movdqa	xmm5, xmmword ptr [rip + .LCPI4_7] # xmm5 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_899:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm6, xmmword ptr [rcx + 8*rsi]
+	movupd	xmm7, xmmword ptr [rcx + 8*rsi + 16]
+	movapd	xmm0, xmm6
+	cmpeqpd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movapd	xmm1, xmm7
+	cmpeqpd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	andpd	xmm6, xmm3
+	orpd	xmm6, xmm4
+	andpd	xmm7, xmm3
+	orpd	xmm7, xmm4
+	cvttpd2dq	xmm6, xmm6
+	pshufb	xmm6, xmm5
+	cvttpd2dq	xmm7, xmm7
+	pshufb	xmm7, xmm5
+	pblendvb	xmm6, xmm2, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm7, xmm2, xmm0
+	pextrw	word ptr [r8 + rsi], xmm6, 0
+	pextrw	word ptr [r8 + rsi + 2], xmm7, 0
+	movupd	xmm6, xmmword ptr [rcx + 8*rsi + 32]
+	movupd	xmm7, xmmword ptr [rcx + 8*rsi + 48]
+	movapd	xmm0, xmm6
+	cmpeqpd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movapd	xmm1, xmm7
+	cmpeqpd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	andpd	xmm6, xmm3
+	orpd	xmm6, xmm4
+	andpd	xmm7, xmm3
+	orpd	xmm7, xmm4
+	cvttpd2dq	xmm6, xmm6
+	pshufb	xmm6, xmm5
+	cvttpd2dq	xmm7, xmm7
+	pshufb	xmm7, xmm5
+	pblendvb	xmm6, xmm2, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm7, xmm2, xmm0
+	pextrw	word ptr [r8 + rsi + 4], xmm6, 0
+	pextrw	word ptr [r8 + rsi + 6], xmm7, 0
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_899
+	jmp	.LBB4_1544
+.LBB4_902:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB4_1552
+# %bb.903:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	eax, eax
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_22] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_904:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + rax]
+	movdqu	xmm6, xmmword ptr [rcx + rax + 16]
+	movdqa	xmm0, xmm4
+	pcmpgtb	xmm0, xmm5
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtb	xmm1, xmm6
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	pblendvb	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqu	xmmword ptr [r8 + rax], xmm7
+	movdqu	xmmword ptr [r8 + rax + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + rax + 32]
+	movdqu	xmm6, xmmword ptr [rcx + rax + 48]
+	movdqa	xmm0, xmm4
+	pcmpgtb	xmm0, xmm5
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtb	xmm1, xmm6
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	pblendvb	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqu	xmmword ptr [r8 + rax + 32], xmm7
+	movdqu	xmmword ptr [r8 + rax + 48], xmm5
+	add	rax, 64
+	add	rdi, 2
+	jne	.LBB4_904
+	jmp	.LBB4_1553
+.LBB4_907:
+	mov	edx, eax
+	and	edx, -4
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1561
+# %bb.908:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_18] # xmm2 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_909:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 16]
+	pcmpeqq	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqq	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pextrw	word ptr [r8 + rsi], xmm3, 0
+	pand	xmm4, xmm2
+	pextrw	word ptr [r8 + rsi + 2], xmm4, 0
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 32]
+	movdqu	xmm4, xmmword ptr [rcx + 8*rsi + 48]
+	pcmpeqq	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqq	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pextrw	word ptr [r8 + rsi + 4], xmm3, 0
+	pand	xmm4, xmm2
+	pextrw	word ptr [r8 + rsi + 6], xmm4, 0
+	add	rsi, 8
+	add	rdi, 2
+	jne	.LBB4_909
+	jmp	.LBB4_1562
+.LBB4_912:
+	mov	edx, eax
+	and	edx, -16
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1569
+# %bb.913:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_21] # xmm2 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+.LBB4_914:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm3, xmmword ptr [rcx + 2*rsi]
+	movdqu	xmm4, xmmword ptr [rcx + 2*rsi + 16]
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm2
+	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
+	movdqu	xmmword ptr [r8 + rsi], xmm3
+	movdqu	xmm3, xmmword ptr [rcx + 2*rsi + 32]
+	movdqu	xmm4, xmmword ptr [rcx + 2*rsi + 48]
+	pcmpeqw	xmm3, xmm0
+	pxor	xmm3, xmm1
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm2
+	pcmpeqw	xmm4, xmm0
+	pxor	xmm4, xmm1
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm2
+	punpcklqdq	xmm3, xmm4              # xmm3 = xmm3[0],xmm4[0]
+	movdqu	xmmword ptr [r8 + rsi + 16], xmm3
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB4_914
+	jmp	.LBB4_1570
+.LBB4_917:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB4_1577
+# %bb.918:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	eax, eax
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+.LBB4_919:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 2*rax]
+	movdqu	xmm6, xmmword ptr [rcx + 2*rax + 16]
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	packsswb	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packsswb	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packsswb	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	movdqu	xmmword ptr [r8 + rax], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + 2*rax + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 2*rax + 48]
+	movdqa	xmm0, xmm5
+	pcmpgtw	xmm0, xmm2
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtw	xmm1, xmm2
+	packsswb	xmm1, xmm1
+	pcmpeqw	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packsswb	xmm5, xmm5
+	pcmpeqw	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packsswb	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	movdqu	xmmword ptr [r8 + rax + 16], xmm5
+	add	rax, 32
+	add	rdi, 2
+	jne	.LBB4_919
+	jmp	.LBB4_1578
+.LBB4_922:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB4_1586
+# %bb.923:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	eax, eax
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_924:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 8*rax]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rax + 16]
+	movdqa	xmm0, xmm5
+	pcmpgtq	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtq	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	pextrw	word ptr [r8 + rax], xmm5, 0
+	pextrw	word ptr [r8 + rax + 2], xmm6, 0
+	movdqu	xmm5, xmmword ptr [rcx + 8*rax + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 8*rax + 48]
+	movdqa	xmm0, xmm5
+	pcmpgtq	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtq	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqq	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pcmpeqq	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	pextrw	word ptr [r8 + rax + 4], xmm5, 0
+	pextrw	word ptr [r8 + rax + 6], xmm6, 0
+	add	rax, 8
+	add	rdi, 2
+	jne	.LBB4_924
+	jmp	.LBB4_1587
+.LBB4_927:
+	mov	edx, r10d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1595
+# %bb.928:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	xorps	xmm4, xmm4
+	pcmpeqd	xmm8, xmm8
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_12] # xmm6 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_929:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rcx + 4*rsi]
+	movups	xmm1, xmmword ptr [rcx + 4*rsi + 16]
+	movaps	xmm2, xmm0
+	cmpeqps	xmm2, xmm4
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movaps	xmm3, xmm1
+	cmpeqps	xmm3, xmm4
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pcmpgtd	xmm0, xmm8
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pcmpgtd	xmm1, xmm8
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqd	xmm7, xmm7
+	pblendvb	xmm7, xmm6, xmm0
+	pcmpeqd	xmm5, xmm5
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqa	xmm0, xmm2
+	pblendvb	xmm7, xmm4, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm5, xmm4, xmm0
+	movd	dword ptr [r8 + rsi], xmm7
+	movd	dword ptr [r8 + rsi + 4], xmm5
+	movups	xmm0, xmmword ptr [rcx + 4*rsi + 32]
+	movups	xmm1, xmmword ptr [rcx + 4*rsi + 48]
+	movaps	xmm2, xmm0
+	cmpeqps	xmm2, xmm4
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movaps	xmm3, xmm1
+	cmpeqps	xmm3, xmm4
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pcmpgtd	xmm0, xmm8
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pcmpgtd	xmm1, xmm8
+	packssdw	xmm1, xmm1
+	pcmpeqd	xmm5, xmm5
+	pblendvb	xmm5, xmm6, xmm0
+	packsswb	xmm1, xmm1
+	pcmpeqd	xmm7, xmm7
+	movdqa	xmm0, xmm1
+	pblendvb	xmm7, xmm6, xmm0
+	movdqa	xmm0, xmm2
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm7, xmm4, xmm0
+	movd	dword ptr [r8 + rsi + 8], xmm5
+	movd	dword ptr [r8 + rsi + 12], xmm7
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_929
+	jmp	.LBB4_1596
+.LBB4_932:
+	mov	edx, eax
+	and	edx, -32
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1604
+# %bb.933:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI4_22] # xmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+.LBB4_934:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rcx + rsi]
+	movdqu	xmm3, xmmword ptr [rcx + rsi + 16]
+	pcmpeqb	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqb	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + rsi], xmm2
+	movdqu	xmmword ptr [r8 + rsi + 16], xmm3
+	movdqu	xmm2, xmmword ptr [rcx + rsi + 32]
+	movdqu	xmm3, xmmword ptr [rcx + rsi + 48]
+	pcmpeqb	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqb	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + rsi + 32], xmm2
+	movdqu	xmmword ptr [r8 + rsi + 48], xmm3
+	add	rsi, 64
+	add	rdi, 2
+	jne	.LBB4_934
+	jmp	.LBB4_1605
+.LBB4_937:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB4_1612
+# %bb.938:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	eax, eax
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB4_939:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 4*rax]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rax + 16]
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	movd	dword ptr [r8 + rax], xmm5
+	movd	dword ptr [r8 + rax + 4], xmm6
+	movdqu	xmm5, xmmword ptr [rcx + 4*rax + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rax + 48]
+	movdqa	xmm0, xmm5
+	pcmpgtd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pblendvb	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm4, xmm0
+	movd	dword ptr [r8 + rax + 8], xmm5
+	movd	dword ptr [r8 + rax + 12], xmm6
+	add	rax, 16
+	add	rdi, 2
+	jne	.LBB4_939
+	jmp	.LBB4_1613
+.LBB4_942:
+	mov	edx, r10d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1621
+# %bb.943:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI4_8] # xmm1 = [1,1,1,1]
+.LBB4_944:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
+	pcmpeqd	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqd	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm3
+	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 32]
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 48]
+	pcmpeqd	xmm2, xmm0
+	pandn	xmm2, xmm1
+	pcmpeqd	xmm3, xmm0
+	pandn	xmm3, xmm1
+	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm3
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_944
+	jmp	.LBB4_1622
+.LBB4_950:
+	mov	edx, r10d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1629
+# %bb.951:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+.LBB4_952:                              # =>This Inner Loop Header: Depth=1
+	movd	xmm5, dword ptr [rcx + rsi]     # xmm5 = mem[0],zero,zero,zero
+	movd	xmm6, dword ptr [rcx + rsi + 4] # xmm6 = mem[0],zero,zero,zero
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbd	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbd	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbd	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbd	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm6
+	movd	xmm5, dword ptr [rcx + rsi + 8] # xmm5 = mem[0],zero,zero,zero
+	movd	xmm6, dword ptr [rcx + rsi + 12] # xmm6 = mem[0],zero,zero,zero
+	movdqa	xmm0, xmm5
+	pcmpgtb	xmm0, xmm2
+	pmovsxbd	xmm0, xmm0
+	movdqa	xmm1, xmm6
+	pcmpgtb	xmm1, xmm2
+	pmovsxbd	xmm1, xmm1
+	pcmpeqb	xmm5, xmm2
+	pxor	xmm5, xmm3
+	pmovsxbd	xmm5, xmm5
+	pcmpeqb	xmm6, xmm2
+	pxor	xmm6, xmm3
+	pmovsxbd	xmm6, xmm6
+	blendvps	xmm5, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm6, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi + 32], xmm5
+	movups	xmmword ptr [r8 + 4*rsi + 48], xmm6
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_952
+	jmp	.LBB4_1630
+.LBB4_974:
+	mov	edx, r10d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1638
+# %bb.975:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm0, xmm0
+	pcmpeqd	xmm1, xmm1
+	movdqa	xmm2, xmmword ptr [rip + .LCPI4_8] # xmm2 = [1,1,1,1]
+.LBB4_976:                              # =>This Inner Loop Header: Depth=1
+	movd	xmm3, dword ptr [rcx + rsi]     # xmm3 = mem[0],zero,zero,zero
+	movd	xmm4, dword ptr [rcx + rsi + 4] # xmm4 = mem[0],zero,zero,zero
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
+	pand	xmm3, xmm2
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm4
+	movd	xmm3, dword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero,zero,zero
+	movd	xmm4, dword ptr [rcx + rsi + 12] # xmm4 = mem[0],zero,zero,zero
+	pcmpeqb	xmm3, xmm0
+	pxor	xmm3, xmm1
+	pmovzxbd	xmm3, xmm3                      # xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
+	pand	xmm3, xmm2
+	pcmpeqb	xmm4, xmm0
+	pxor	xmm4, xmm1
+	pmovzxbd	xmm4, xmm4                      # xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
+	pand	xmm4, xmm2
+	movdqu	xmmword ptr [r8 + 4*rsi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rsi + 48], xmm4
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_976
+	jmp	.LBB4_1639
+.LBB4_979:
+	mov	edx, r11d
+	and	edx, -8
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB4_1646
+# %bb.980:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+.LBB4_981:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm5, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 16]
+	movdqa	xmm0, xmm4
+	pcmpgtd	xmm0, xmm5
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtd	xmm1, xmm6
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	blendvps	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	blendvps	xmm5, xmm6, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm7
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm5
+	movdqu	xmm5, xmmword ptr [rcx + 4*rsi + 32]
+	movdqu	xmm6, xmmword ptr [rcx + 4*rsi + 48]
+	movdqa	xmm0, xmm4
+	pcmpgtd	xmm0, xmm5
+	pcmpeqd	xmm5, xmm2
+	pxor	xmm5, xmm3
+	movdqa	xmm1, xmm4
+	pcmpgtd	xmm1, xmm6
+	pcmpeqd	xmm6, xmm2
+	pxor	xmm6, xmm3
+	movdqa	xmm7, xmm4
+	blendvps	xmm7, xmm5, xmm0
+	movdqa	xmm5, xmm4
+	movdqa	xmm0, xmm1
+	blendvps	xmm5, xmm6, xmm0
+	movups	xmmword ptr [r8 + 4*rsi + 32], xmm7
+	movups	xmmword ptr [r8 + 4*rsi + 48], xmm5
+	add	rsi, 16
+	add	rdi, 2
+	jne	.LBB4_981
+	jmp	.LBB4_1647
+.LBB4_1475:
+	movd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
+.LBB4_1476:
+	jle	.LBB4_1478
+# %bb.1477:
+	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+.LBB4_1478:
+	movd	dword ptr [r8 + 4*rdx], xmm0
+	or	rdx, 1
+.LBB4_1479:
+	add	rsi, rax
+	je	.LBB4_1655
+# %bb.1480:
+	movd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
+	movd	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
+	jmp	.LBB4_1482
+.LBB4_1481:                             #   in Loop: Header=BB4_1482 Depth=1
+	movd	dword ptr [r8 + 4*rdx + 4], xmm3
+	add	rdx, 2
+	cmp	rax, rdx
+	je	.LBB4_1655
+.LBB4_1482:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rcx + rdx], 0
+	movdqa	xmm2, xmm0
+	jne	.LBB4_1483
+# %bb.1486:                             #   in Loop: Header=BB4_1482 Depth=1
+	pxor	xmm2, xmm2
+	movdqa	xmm3, xmm1
+	jle	.LBB4_1487
+.LBB4_1484:                             #   in Loop: Header=BB4_1482 Depth=1
+	movd	dword ptr [r8 + 4*rdx], xmm3
+	cmp	byte ptr [rcx + rdx + 1], 0
+	movdqa	xmm2, xmm0
+	jne	.LBB4_1485
+.LBB4_1488:                             #   in Loop: Header=BB4_1482 Depth=1
+	pxor	xmm2, xmm2
+	movdqa	xmm3, xmm1
+	jg	.LBB4_1481
+	jmp	.LBB4_1489
+.LBB4_1483:                             #   in Loop: Header=BB4_1482 Depth=1
+	movdqa	xmm3, xmm1
+	jg	.LBB4_1484
+.LBB4_1487:                             #   in Loop: Header=BB4_1482 Depth=1
+	movdqa	xmm3, xmm2
+	movd	dword ptr [r8 + 4*rdx], xmm3
+	cmp	byte ptr [rcx + rdx + 1], 0
+	movdqa	xmm2, xmm0
+	je	.LBB4_1488
+.LBB4_1485:                             #   in Loop: Header=BB4_1482 Depth=1
+	movdqa	xmm3, xmm1
+	jg	.LBB4_1481
+.LBB4_1489:                             #   in Loop: Header=BB4_1482 Depth=1
+	movdqa	xmm3, xmm2
+	jmp	.LBB4_1481
+.LBB4_994:
+	xor	esi, esi
+.LBB4_995:
+	test	r9b, 1
+	je	.LBB4_997
+# %bb.996:
+	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqq	xmm0, xmm2
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI4_16] # xmm3 = <1,1,u,u>
+	pandn	xmm0, xmm3
+	pcmpeqq	xmm1, xmm2
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pandn	xmm1, xmm3
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
+.LBB4_997:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_998:                              # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_998
+	jmp	.LBB4_1655
+.LBB4_999:
+	xor	esi, esi
+.LBB4_1000:
+	test	r9b, 1
+	je	.LBB4_1002
+# %bb.1001:
+	movq	xmm0, qword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero
+	movq	xmm1, qword ptr [rcx + 4*rsi + 8] # xmm1 = mem[0],zero
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxdq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	pand	xmm0, xmm4
+	pcmpeqd	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxdq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero
+	pand	xmm1, xmm4
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
+.LBB4_1002:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1003:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_1003
+	jmp	.LBB4_1655
+.LBB4_1004:
+	xor	edi, edi
+.LBB4_1005:
+	test	r9b, 1
+	je	.LBB4_1007
+# %bb.1006:
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi]
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	andpd	xmm1, xmm0
+	orpd	xmm1, xmmword ptr [rip + .LCPI4_1]
+	movsd	xmm2, qword ptr [rip + .LCPI4_6] # xmm2 = mem[0],zero
+	movapd	xmm3, xmm1
+	subsd	xmm3, xmm2
+	cvttsd2si	rax, xmm3
+	xor	rax, r11
+	cvttsd2si	rdx, xmm1
+	ucomisd	xmm1, xmm2
+	cmovae	rdx, rax
+	movq	xmm3, rdx
+	pshufd	xmm1, xmm1, 238                 # xmm1 = xmm1[2,3,2,3]
+	movdqa	xmm4, xmm1
+	subsd	xmm4, xmm2
+	cvttsd2si	rax, xmm4
+	xor	rax, r11
+	cvttsd2si	rdx, xmm1
+	ucomisd	xmm1, xmm2
+	xorpd	xmm1, xmm1
+	cmovae	rdx, rax
+	movq	xmm2, rdx
+	punpcklqdq	xmm3, xmm2              # xmm3 = xmm3[0],xmm2[0]
+	cmpneqpd	xmm1, xmm0
+	andpd	xmm1, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi], xmm1
+.LBB4_1007:
+	cmp	rsi, r10
+	je	.LBB4_1655
+.LBB4_1008:
+	movapd	xmm0, xmmword ptr [rip + .LCPI4_0] # xmm0 = [-0.0E+0,-0.0E+0]
+	movsd	xmm1, qword ptr [rip + .LCPI4_2] # xmm1 = mem[0],zero
+	movsd	xmm2, qword ptr [rip + .LCPI4_6] # xmm2 = mem[0],zero
+	xor	eax, eax
+	xorpd	xmm3, xmm3
+.LBB4_1009:                             # =>This Inner Loop Header: Depth=1
+	movsd	xmm4, qword ptr [rcx + 8*rsi]   # xmm4 = mem[0],zero
+	movapd	xmm5, xmm4
+	andpd	xmm5, xmm0
+	orpd	xmm5, xmm1
+	movapd	xmm6, xmm5
+	subsd	xmm6, xmm2
+	cvttsd2si	rdx, xmm6
+	xor	rdx, r11
+	cvttsd2si	rdi, xmm5
+	ucomisd	xmm5, xmm2
+	cmovae	rdi, rdx
+	ucomisd	xmm3, xmm4
+	cmove	rdi, rax
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	cmp	r10, rsi
+	jne	.LBB4_1009
+	jmp	.LBB4_1655
+.LBB4_1010:
+	xor	esi, esi
+.LBB4_1011:
+	test	r9b, 1
+	je	.LBB4_1013
+# %bb.1012:
+	movd	xmm0, dword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero,zero,zero
+	movd	xmm1, dword ptr [rcx + 2*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	pxor	xmm2, xmm2
+	pcmpeqw	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxwq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	pand	xmm0, xmm4
+	pcmpeqw	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxwq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero
+	pand	xmm1, xmm4
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
+.LBB4_1013:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1014:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_1014
+	jmp	.LBB4_1655
+.LBB4_1015:
+	xor	esi, esi
+.LBB4_1016:
+	test	r9b, 1
+	je	.LBB4_1018
+# %bb.1017:
+	movd	xmm2, dword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero,zero,zero
+	movd	xmm3, dword ptr [rcx + 2*rsi + 4] # xmm3 = mem[0],zero,zero,zero
+	xorpd	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtw	xmm0, xmm4
+	pmovsxwq	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtw	xmm1, xmm4
+	pmovsxwq	xmm1, xmm1
+	pcmpeqw	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxwq	xmm2, xmm2
+	pcmpeqw	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxwq	xmm3, xmm3
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	blendvpd	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm3, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm2
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
+.LBB4_1018:
+	cmp	rdx, r10
+	je	.LBB4_1655
+.LBB4_1019:
+	mov	esi, 1
+.LBB4_1020:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rdx]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	rax
+	test	di, di
+	cmovg	rax, rsi
+	mov	qword ptr [r8 + 8*rdx], rax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_1020
+	jmp	.LBB4_1655
+.LBB4_993:
+	movmskps	ecx, xmm0
+	and	ecx, 1
+	neg	ecx
+	or	ecx, 1
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, ecx
+	movss	xmm1, dword ptr [rip + .LCPI4_9] # xmm1 = mem[0],zero,zero,zero
+	movaps	xmm2, xmm0
+	subss	xmm2, xmm1
+	cvttss2si	rcx, xmm2
+	movabs	rdx, -9223372036854775808
+	xor	rdx, rcx
+	cvttss2si	rcx, xmm0
+	ucomiss	xmm0, xmm1
+	cmovae	rcx, rdx
+	mov	qword ptr [r8 + 8*rax], rcx
+	jmp	.LBB4_1655
+.LBB4_1021:
+	xor	esi, esi
+.LBB4_1022:
+	test	r9b, 1
+	je	.LBB4_1024
+# %bb.1023:
+	movq	xmm2, qword ptr [rcx + 4*rsi]   # xmm2 = mem[0],zero
+	movq	xmm3, qword ptr [rcx + 4*rsi + 8] # xmm3 = mem[0],zero
+	xorpd	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtd	xmm0, xmm4
+	pmovsxdq	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtd	xmm1, xmm4
+	pmovsxdq	xmm1, xmm1
+	pcmpeqd	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxdq	xmm2, xmm2
+	pcmpeqd	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxdq	xmm3, xmm3
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	blendvpd	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm3, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm2
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
+.LBB4_1024:
+	cmp	rdx, r10
+	je	.LBB4_1655
+.LBB4_1025:
+	mov	esi, 1
+.LBB4_1026:                             # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rdx]
+	xor	eax, eax
+	test	edi, edi
+	setne	al
+	neg	rax
+	test	edi, edi
+	cmovg	rax, rsi
+	mov	qword ptr [r8 + 8*rdx], rax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_1026
+	jmp	.LBB4_1655
+.LBB4_1027:
+	xor	esi, esi
+.LBB4_1028:
+	test	r9b, 1
+	je	.LBB4_1030
+# %bb.1029:
+	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqq	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
+	pand	xmm0, xmm4
+	pcmpeqq	xmm1, xmm2
+	pxor	xmm1, xmm3
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	pand	xmm1, xmm4
+	movd	dword ptr [r8 + 2*rsi], xmm0
+	movd	dword ptr [r8 + 2*rsi + 4], xmm1
+.LBB4_1030:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1031:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_1031
+	jmp	.LBB4_1655
+.LBB4_1032:
+	xor	esi, esi
+.LBB4_1033:
+	test	r9b, 1
+	je	.LBB4_1035
+# %bb.1034:
+	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqq	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
+	pand	xmm0, xmm4
+	pcmpeqq	xmm1, xmm2
+	pxor	xmm1, xmm3
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	pand	xmm1, xmm4
+	movd	dword ptr [r8 + 2*rsi], xmm0
+	movd	dword ptr [r8 + 2*rsi + 4], xmm1
+.LBB4_1035:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1036:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_1036
+	jmp	.LBB4_1655
+.LBB4_1037:
+	xor	esi, esi
+.LBB4_1038:
+	test	r9b, 1
+	je	.LBB4_1040
+# %bb.1039:
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
+	pxor	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtq	xmm0, xmm4
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtq	xmm1, xmm4
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	pcmpeqq	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	packssdw	xmm2, xmm2
+	packssdw	xmm2, xmm2
+	pcmpeqq	xmm3, xmm4
+	pxor	xmm3, xmm5
+	packssdw	xmm3, xmm3
+	packssdw	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	movd	dword ptr [r8 + 2*rsi], xmm2
+	movd	dword ptr [r8 + 2*rsi + 4], xmm3
+.LBB4_1040:
+	cmp	rdx, r10
+	je	.LBB4_1655
+.LBB4_1041:
+	mov	esi, 1
+.LBB4_1042:                             # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rdx]
+	xor	eax, eax
+	test	rdi, rdi
+	setne	al
+	neg	eax
+	test	rdi, rdi
+	cmovg	eax, esi
+	mov	word ptr [r8 + 2*rdx], ax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_1042
+	jmp	.LBB4_1655
+.LBB4_1043:
+	xor	esi, esi
+.LBB4_1044:
+	test	r9b, 1
+	je	.LBB4_1046
+# %bb.1045:
+	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
+	pxor	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtd	xmm0, xmm4
+	packssdw	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtd	xmm1, xmm4
+	packssdw	xmm1, xmm1
+	pcmpeqd	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	packssdw	xmm2, xmm2
+	pcmpeqd	xmm3, xmm4
+	pxor	xmm3, xmm5
+	packssdw	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
+.LBB4_1046:
+	cmp	rdx, r10
+	je	.LBB4_1655
+.LBB4_1047:
+	mov	esi, 1
+.LBB4_1048:                             # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rdx]
+	xor	eax, eax
+	test	edi, edi
+	setne	al
+	neg	eax
+	test	edi, edi
+	cmovg	eax, esi
+	mov	word ptr [r8 + 2*rdx], ax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_1048
+	jmp	.LBB4_1655
+.LBB4_1049:
+	xor	esi, esi
+.LBB4_1050:
+	test	r9b, 1
+	je	.LBB4_1052
+# %bb.1051:
+	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
+	pxor	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtd	xmm0, xmm4
+	packssdw	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtd	xmm1, xmm4
+	packssdw	xmm1, xmm1
+	pcmpeqd	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	packssdw	xmm2, xmm2
+	pcmpeqd	xmm3, xmm4
+	pxor	xmm3, xmm5
+	packssdw	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
+.LBB4_1052:
+	cmp	rdx, r10
+	je	.LBB4_1655
+.LBB4_1053:
+	mov	esi, 1
+.LBB4_1054:                             # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rdx]
+	xor	eax, eax
+	test	edi, edi
+	setne	al
+	neg	eax
+	test	edi, edi
+	cmovg	eax, esi
+	mov	word ptr [r8 + 2*rdx], ax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_1054
+	jmp	.LBB4_1655
+.LBB4_1055:
+	xor	esi, esi
+.LBB4_1056:
+	test	r9b, 1
+	je	.LBB4_1058
+# %bb.1057:
+	movd	xmm0, dword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero,zero,zero
+	movd	xmm1, dword ptr [rcx + 2*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	pxor	xmm2, xmm2
+	pcmpeqw	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxwq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	pand	xmm0, xmm4
+	pcmpeqw	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxwq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero
+	pand	xmm1, xmm4
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
+.LBB4_1058:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1059:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_1059
+	jmp	.LBB4_1655
+.LBB4_1060:
+	xor	esi, esi
+.LBB4_1061:
+	test	r9b, 1
+	je	.LBB4_1063
+# %bb.1062:
+	movq	xmm2, qword ptr [rcx + 4*rsi]   # xmm2 = mem[0],zero
+	movq	xmm3, qword ptr [rcx + 4*rsi + 8] # xmm3 = mem[0],zero
+	xorpd	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtd	xmm0, xmm4
+	pmovsxdq	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtd	xmm1, xmm4
+	pmovsxdq	xmm1, xmm1
+	pcmpeqd	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxdq	xmm2, xmm2
+	pcmpeqd	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxdq	xmm3, xmm3
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	blendvpd	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm3, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm2
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
+.LBB4_1063:
+	cmp	rdx, r10
+	je	.LBB4_1655
+.LBB4_1064:
+	mov	esi, 1
+.LBB4_1065:                             # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rdx]
+	xor	eax, eax
+	test	edi, edi
+	setne	al
+	neg	rax
+	test	edi, edi
+	cmovg	rax, rsi
+	mov	qword ptr [r8 + 8*rdx], rax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_1065
+	jmp	.LBB4_1655
+.LBB4_1066:
+	xor	esi, esi
+.LBB4_1067:
+	test	r9b, 1
+	je	.LBB4_1069
+# %bb.1068:
+	movdqu	xmm2, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 4*rsi + 16]
+	xorps	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtd	xmm0, xmm4
+	movdqa	xmm1, xmm3
+	pcmpgtd	xmm1, xmm4
+	pcmpeqd	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	cvtdq2ps	xmm2, xmm2
+	pcmpeqd	xmm3, xmm4
+	pxor	xmm3, xmm5
+	cvtdq2ps	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	blendvps	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm3, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
+.LBB4_1069:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1070:
+	movd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
+	movd	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
+	jmp	.LBB4_1072
+.LBB4_1071:                             #   in Loop: Header=BB4_1072 Depth=1
+	movd	dword ptr [r8 + 4*rdx], xmm3
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1655
+.LBB4_1072:                             # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	movdqa	xmm2, xmm0
+	jne	.LBB4_1074
+# %bb.1073:                             #   in Loop: Header=BB4_1072 Depth=1
+	pxor	xmm2, xmm2
+.LBB4_1074:                             #   in Loop: Header=BB4_1072 Depth=1
+	movdqa	xmm3, xmm1
+	jg	.LBB4_1071
+# %bb.1075:                             #   in Loop: Header=BB4_1072 Depth=1
+	movdqa	xmm3, xmm2
+	jmp	.LBB4_1071
+.LBB4_1076:
+	xor	edi, edi
+.LBB4_1077:
+	test	r9b, 1
+	je	.LBB4_1079
+# %bb.1078:
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rcx + 8*rdi + 16]
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmm0
+	cmpeqpd	xmm3, xmm2
+	shufps	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
+	cmpeqpd	xmm2, xmm1
+	shufps	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_0] # xmm4 = [-0.0E+0,-0.0E+0]
+	andpd	xmm0, xmm4
+	movapd	xmm5, xmmword ptr [rip + .LCPI4_1] # xmm5 = [1.0E+0,1.0E+0]
+	orpd	xmm0, xmm5
+	andpd	xmm1, xmm4
+	orpd	xmm1, xmm5
+	cvttpd2dq	xmm0, xmm0
+	cvttpd2dq	xmm1, xmm1
+	andnps	xmm3, xmm0
+	andnps	xmm2, xmm1
+	movlhps	xmm3, xmm2                      # xmm3 = xmm3[0],xmm2[0]
+	movups	xmmword ptr [r8 + 4*rdi], xmm3
+.LBB4_1079:
+	cmp	rsi, rax
+	je	.LBB4_1655
+.LBB4_1080:
+	xorpd	xmm0, xmm0
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
+.LBB4_1081:                             # =>This Inner Loop Header: Depth=1
+	movsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
+	ucomisd	xmm0, xmm3
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm2
+	cvttsd2si	edx, xmm3
+	cmove	edx, r10d
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB4_1081
+	jmp	.LBB4_1655
+.LBB4_1082:
+	xor	esi, esi
+.LBB4_1083:
+	test	r9b, 1
+	je	.LBB4_1085
+# %bb.1084:
+	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqq	xmm0, xmm2
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI4_16] # xmm3 = <1,1,u,u>
+	pandn	xmm0, xmm3
+	pcmpeqq	xmm1, xmm2
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pandn	xmm1, xmm3
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
+.LBB4_1085:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1086:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	qword ptr [rcx + 8*rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_1086
+	jmp	.LBB4_1655
+.LBB4_1087:
+	xor	esi, esi
+.LBB4_1088:
+	test	r9b, 1
+	je	.LBB4_1090
+# %bb.1089:
+	movq	xmm0, qword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero
+	movq	xmm1, qword ptr [rcx + 2*rsi + 8] # xmm1 = mem[0],zero
+	pxor	xmm2, xmm2
+	pcmpeqw	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxwd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+	pand	xmm0, xmm4
+	pcmpeqw	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxwd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
+	pand	xmm1, xmm4
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
+.LBB4_1090:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1091:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_1091
+	jmp	.LBB4_1655
+.LBB4_1092:
+	xor	esi, esi
+.LBB4_1093:
+	test	r9b, 1
+	je	.LBB4_1095
+# %bb.1094:
+	movq	xmm2, qword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero
+	movq	xmm3, qword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero
+	xorps	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtw	xmm0, xmm4
+	pmovsxwd	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtw	xmm1, xmm4
+	pmovsxwd	xmm1, xmm1
+	pcmpeqw	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxwd	xmm2, xmm2
+	pcmpeqw	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxwd	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+	blendvps	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm3, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
+.LBB4_1095:
+	cmp	rdx, r10
+	je	.LBB4_1655
+.LBB4_1096:
+	mov	esi, 1
+.LBB4_1097:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rdx]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	eax
+	test	di, di
+	cmovg	eax, esi
+	mov	dword ptr [r8 + 4*rdx], eax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_1097
+	jmp	.LBB4_1655
+.LBB4_1098:
+	xor	esi, esi
+.LBB4_1099:
+	test	r9b, 1
+	je	.LBB4_1101
+# %bb.1100:
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
+	xorps	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtq	xmm0, xmm4
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	movdqa	xmm1, xmm3
+	pcmpgtq	xmm1, xmm4
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pcmpeqq	xmm2, xmm4
+	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pcmpeqq	xmm3, xmm4
+	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
+	pxor	xmm3, xmm5
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_16] # xmm4 = <1,1,u,u>
+	blendvps	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm3, xmm4, xmm0
+	movlhps	xmm2, xmm3                      # xmm2 = xmm2[0],xmm3[0]
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+.LBB4_1101:
+	cmp	rdx, r10
+	je	.LBB4_1655
+.LBB4_1102:
+	mov	esi, 1
+.LBB4_1103:                             # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rdx]
+	xor	eax, eax
+	test	rdi, rdi
+	setne	al
+	neg	eax
+	test	rdi, rdi
+	cmovg	eax, esi
+	mov	dword ptr [r8 + 4*rdx], eax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_1103
+	jmp	.LBB4_1655
+.LBB4_1106:
+	xor	edi, edi
+.LBB4_1107:
+	test	r9b, 1
+	je	.LBB4_1109
+# %bb.1108:
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	xorpd	xmm1, xmm1
+	movapd	xmm0, xmm3
+	cmpeqpd	xmm0, xmm1
+	shufps	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	cmpeqpd	xmm1, xmm2
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_0] # xmm4 = [-0.0E+0,-0.0E+0]
+	andpd	xmm3, xmm4
+	movapd	xmm5, xmmword ptr [rip + .LCPI4_1] # xmm5 = [1.0E+0,1.0E+0]
+	orpd	xmm3, xmm5
+	andpd	xmm2, xmm4
+	orpd	xmm2, xmm5
+	pshufd	xmm4, xmm3, 238                 # xmm4 = xmm3[2,3,2,3]
+	cvttsd2si	rax, xmm4
+	cvttsd2si	rdx, xmm3
+	movd	xmm3, edx
+	pinsrd	xmm3, eax, 1
+	pshufd	xmm4, xmm2, 238                 # xmm4 = xmm2[2,3,2,3]
+	cvttsd2si	rax, xmm4
+	cvttsd2si	rdx, xmm2
+	shufps	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	movd	xmm2, edx
+	pinsrd	xmm2, eax, 1
+	andnps	xmm0, xmm3
+	andnps	xmm1, xmm2
+	movlhps	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
+	movups	xmmword ptr [r8 + 4*rdi], xmm0
+.LBB4_1109:
+	cmp	rsi, r11
+	je	.LBB4_1655
+.LBB4_1110:
+	xorpd	xmm0, xmm0
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
+.LBB4_1111:                             # =>This Inner Loop Header: Depth=1
+	movsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
+	ucomisd	xmm0, xmm3
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm2
+	cvttsd2si	rax, xmm3
+	cmove	eax, r10d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	cmp	r11, rsi
+	jne	.LBB4_1111
+	jmp	.LBB4_1655
+.LBB4_1112:
+	xor	esi, esi
+.LBB4_1113:
+	test	r9b, 1
+	je	.LBB4_1115
+# %bb.1114:
+	movq	xmm0, qword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero
+	movq	xmm1, qword ptr [rcx + 2*rsi + 8] # xmm1 = mem[0],zero
+	pxor	xmm2, xmm2
+	pcmpeqw	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxwd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+	pand	xmm0, xmm4
+	pcmpeqw	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxwd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
+	pand	xmm1, xmm4
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
+.LBB4_1115:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1116:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	word ptr [rcx + 2*rdx], 0
+	setne	sil
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_1116
+	jmp	.LBB4_1655
+.LBB4_1117:
+	xor	esi, esi
+.LBB4_1118:
+	test	r9b, 1
+	je	.LBB4_1120
+# %bb.1119:
+	movq	xmm2, qword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero
+	movq	xmm3, qword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero
+	xorps	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtw	xmm0, xmm4
+	pmovsxwd	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtw	xmm1, xmm4
+	pmovsxwd	xmm1, xmm1
+	pcmpeqw	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxwd	xmm2, xmm2
+	pcmpeqw	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxwd	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+	blendvps	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm3, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
+.LBB4_1120:
+	cmp	rdx, r10
+	je	.LBB4_1655
+.LBB4_1121:
+	mov	esi, 1
+.LBB4_1122:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rdx]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	eax
+	test	di, di
+	cmovg	eax, esi
+	mov	dword ptr [r8 + 4*rdx], eax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_1122
+	jmp	.LBB4_1655
+.LBB4_1123:
+	xor	esi, esi
+.LBB4_1124:
+	test	r9b, 1
+	je	.LBB4_1126
+# %bb.1125:
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
+	xorps	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtq	xmm0, xmm4
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	movdqa	xmm1, xmm3
+	pcmpgtq	xmm1, xmm4
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pcmpeqq	xmm2, xmm4
+	pshufd	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pcmpeqq	xmm3, xmm4
+	pshufd	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3]
+	pxor	xmm3, xmm5
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_16] # xmm4 = <1,1,u,u>
+	blendvps	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm3, xmm4, xmm0
+	movlhps	xmm2, xmm3                      # xmm2 = xmm2[0],xmm3[0]
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+.LBB4_1126:
+	cmp	rdx, r10
+	je	.LBB4_1655
+.LBB4_1127:
+	mov	esi, 1
+.LBB4_1128:                             # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rdx]
+	xor	eax, eax
+	test	rdi, rdi
+	setne	al
+	neg	eax
+	test	rdi, rdi
+	cmovg	eax, esi
+	mov	dword ptr [r8 + 4*rdx], eax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_1128
+	jmp	.LBB4_1655
+.LBB4_1129:
+	xor	esi, esi
+.LBB4_1130:
+	test	r9b, 1
+	je	.LBB4_1132
+# %bb.1131:
+	movups	xmm0, xmmword ptr [rcx + 4*rsi]
+	xorps	xmm1, xmm1
+	cmpneqps	xmm1, xmm0
+	psrad	xmm0, 31
+	por	xmm0, xmmword ptr [rip + .LCPI4_8]
+	cvtdq2ps	xmm2, xmm0
+	movaps	xmm3, xmmword ptr [rip + .LCPI4_10] # xmm3 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
+	movaps	xmm0, xmm2
+	cmpltps	xmm0, xmm3
+	cvttps2dq	xmm4, xmm2
+	subps	xmm2, xmm3
+	cvttps2dq	xmm2, xmm2
+	xorps	xmm2, xmmword ptr [rip + .LCPI4_4]
+	blendvps	xmm2, xmm4, xmm0
+	andps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rsi], xmm1
+.LBB4_1132:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1133:
+	xorps	xmm0, xmm0
+	jmp	.LBB4_1135
+.LBB4_1134:                             #   in Loop: Header=BB4_1135 Depth=1
+	mov	dword ptr [r8 + 4*rdx], esi
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1655
+.LBB4_1135:                             # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	xor	esi, esi
+	ucomiss	xmm0, xmm1
+	je	.LBB4_1134
+# %bb.1136:                             #   in Loop: Header=BB4_1135 Depth=1
+	movmskps	esi, xmm1
+	and	esi, 1
+	neg	esi
+	or	esi, 1
+	xorps	xmm1, xmm1
+	cvtsi2ss	xmm1, esi
+	cvttss2si	rsi, xmm1
+	jmp	.LBB4_1134
+.LBB4_1137:
+	xor	esi, esi
+.LBB4_1138:
+	test	r9b, 1
+	je	.LBB4_1140
+# %bb.1139:
+	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	packssdw	xmm0, xmm0
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
+	pand	xmm0, xmm4
+	pcmpeqd	xmm1, xmm2
+	pxor	xmm1, xmm3
+	packssdw	xmm1, xmm1
+	pand	xmm1, xmm4
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
+.LBB4_1140:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1141:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_1141
+	jmp	.LBB4_1655
+.LBB4_1142:
+	xor	esi, esi
+.LBB4_1143:
+	test	r9b, 1
+	je	.LBB4_1145
+# %bb.1144:
+	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	packssdw	xmm0, xmm0
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <1,1,1,1,u,u,u,u>
+	pand	xmm0, xmm4
+	pcmpeqd	xmm1, xmm2
+	pxor	xmm1, xmm3
+	packssdw	xmm1, xmm1
+	pand	xmm1, xmm4
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
+.LBB4_1145:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1146:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	sil
+	mov	word ptr [r8 + 2*rdx], si
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_1146
+	jmp	.LBB4_1655
+.LBB4_1147:
+	xor	edi, edi
+.LBB4_1148:
+	test	r9b, 1
+	je	.LBB4_1150
+# %bb.1149:
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	xorpd	xmm4, xmm4
+	movapd	xmm0, xmm2
+	cmpeqpd	xmm0, xmm4
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movapd	xmm1, xmm3
+	cmpeqpd	xmm1, xmm4
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	movapd	xmm5, xmmword ptr [rip + .LCPI4_0] # xmm5 = [-0.0E+0,-0.0E+0]
+	andpd	xmm2, xmm5
+	movapd	xmm6, xmmword ptr [rip + .LCPI4_1] # xmm6 = [1.0E+0,1.0E+0]
+	orpd	xmm2, xmm6
+	andpd	xmm3, xmm5
+	orpd	xmm3, xmm6
+	cvttpd2dq	xmm2, xmm2
+	cvttpd2dq	xmm3, xmm3
+	pshuflw	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3,4,5,6,7]
+	pshuflw	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3,4,5,6,7]
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	movd	dword ptr [r8 + 2*rdi], xmm2
+	movd	dword ptr [r8 + 2*rdi + 4], xmm3
+.LBB4_1150:
+	cmp	rsi, rax
+	je	.LBB4_1655
+.LBB4_1151:
+	pxor	xmm0, xmm0
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
+.LBB4_1152:                             # =>This Inner Loop Header: Depth=1
+	movsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
+	ucomisd	xmm0, xmm3
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm2
+	cvttsd2si	edx, xmm3
+	cmove	edx, r10d
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB4_1152
+	jmp	.LBB4_1655
+.LBB4_1153:
+	xor	edi, edi
+.LBB4_1154:
+	test	r9b, 1
+	je	.LBB4_1156
+# %bb.1155:
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	xorpd	xmm4, xmm4
+	movapd	xmm0, xmm2
+	cmpeqpd	xmm0, xmm4
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movapd	xmm1, xmm3
+	cmpeqpd	xmm1, xmm4
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	movapd	xmm5, xmmword ptr [rip + .LCPI4_0] # xmm5 = [-0.0E+0,-0.0E+0]
+	andpd	xmm2, xmm5
+	movapd	xmm6, xmmword ptr [rip + .LCPI4_1] # xmm6 = [1.0E+0,1.0E+0]
+	orpd	xmm2, xmm6
+	andpd	xmm3, xmm5
+	orpd	xmm3, xmm6
+	cvttpd2dq	xmm2, xmm2
+	cvttpd2dq	xmm3, xmm3
+	pshuflw	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3,4,5,6,7]
+	pshuflw	xmm3, xmm3, 232                 # xmm3 = xmm3[0,2,2,3,4,5,6,7]
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	movd	dword ptr [r8 + 2*rdi], xmm2
+	movd	dword ptr [r8 + 2*rdi + 4], xmm3
+.LBB4_1156:
+	cmp	rsi, rax
+	je	.LBB4_1655
+.LBB4_1157:
+	pxor	xmm0, xmm0
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
+.LBB4_1158:                             # =>This Inner Loop Header: Depth=1
+	movsd	xmm3, qword ptr [rcx + 8*rsi]   # xmm3 = mem[0],zero
+	ucomisd	xmm0, xmm3
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm2
+	cvttsd2si	edx, xmm3
+	cmove	edx, r10d
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB4_1158
+	jmp	.LBB4_1655
+.LBB4_1159:
+	xor	esi, esi
+.LBB4_1160:
+	test	r9b, 1
+	je	.LBB4_1162
+# %bb.1161:
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rsi + 16]
+	pxor	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtq	xmm0, xmm4
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtq	xmm1, xmm4
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	pcmpeqq	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	packssdw	xmm2, xmm2
+	packssdw	xmm2, xmm2
+	pcmpeqq	xmm3, xmm4
+	pxor	xmm3, xmm5
+	packssdw	xmm3, xmm3
+	packssdw	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_17] # xmm4 = <1,1,u,u,u,u,u,u>
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	movd	dword ptr [r8 + 2*rsi], xmm2
+	movd	dword ptr [r8 + 2*rsi + 4], xmm3
+.LBB4_1162:
+	cmp	rdx, r10
+	je	.LBB4_1655
+.LBB4_1163:
+	mov	esi, 1
+.LBB4_1164:                             # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rdx]
+	xor	eax, eax
+	test	rdi, rdi
+	setne	al
+	neg	eax
+	test	rdi, rdi
+	cmovg	eax, esi
+	mov	word ptr [r8 + 2*rdx], ax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_1164
+	jmp	.LBB4_1655
+.LBB4_1165:
+	xor	edi, edi
+.LBB4_1166:
+	test	r9b, 1
+	je	.LBB4_1168
+# %bb.1167:
+	movups	xmm0, xmmword ptr [rcx + 4*rdi]
+	movups	xmm1, xmmword ptr [rcx + 4*rdi + 16]
+	xorps	xmm4, xmm4
+	movaps	xmm2, xmm0
+	cmpeqps	xmm2, xmm4
+	packssdw	xmm2, xmm2
+	movaps	xmm3, xmm1
+	cmpeqps	xmm3, xmm4
+	packssdw	xmm3, xmm3
+	pcmpeqd	xmm5, xmm5
+	pcmpgtd	xmm0, xmm5
+	packssdw	xmm0, xmm0
+	pcmpgtd	xmm1, xmm5
+	packssdw	xmm1, xmm1
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_11] # xmm6 = <1,1,1,1,u,u,u,u>
+	pcmpeqd	xmm7, xmm7
+	pblendvb	xmm7, xmm6, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqa	xmm0, xmm2
+	pblendvb	xmm7, xmm4, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm5, xmm4, xmm0
+	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm7
+.LBB4_1168:
+	cmp	rsi, rax
+	je	.LBB4_1655
+.LBB4_1169:
+	pxor	xmm0, xmm0
+.LBB4_1170:                             # =>This Inner Loop Header: Depth=1
+	movd	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	movd	edx, xmm1
+	xor	edi, edi
+	test	edx, edx
+	setns	dil
+	ucomiss	xmm0, xmm1
+	lea	edx, [rdi + rdi - 1]
+	cmove	edx, r10d
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB4_1170
+	jmp	.LBB4_1655
+.LBB4_1171:
+	xor	edi, edi
+.LBB4_1172:
+	test	r9b, 1
+	je	.LBB4_1174
+# %bb.1173:
+	movups	xmm0, xmmword ptr [rcx + 4*rdi]
+	movups	xmm1, xmmword ptr [rcx + 4*rdi + 16]
+	xorps	xmm4, xmm4
+	movaps	xmm2, xmm0
+	cmpeqps	xmm2, xmm4
+	packssdw	xmm2, xmm2
+	movaps	xmm3, xmm1
+	cmpeqps	xmm3, xmm4
+	packssdw	xmm3, xmm3
+	pcmpeqd	xmm5, xmm5
+	pcmpgtd	xmm0, xmm5
+	packssdw	xmm0, xmm0
+	pcmpgtd	xmm1, xmm5
+	packssdw	xmm1, xmm1
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_11] # xmm6 = <1,1,1,1,u,u,u,u>
+	pcmpeqd	xmm7, xmm7
+	pblendvb	xmm7, xmm6, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqa	xmm0, xmm2
+	pblendvb	xmm7, xmm4, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm5, xmm4, xmm0
+	punpcklqdq	xmm7, xmm5              # xmm7 = xmm7[0],xmm5[0]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm7
+.LBB4_1174:
+	cmp	rsi, rax
+	je	.LBB4_1655
+.LBB4_1175:
+	pxor	xmm0, xmm0
+.LBB4_1176:                             # =>This Inner Loop Header: Depth=1
+	movd	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	movd	edx, xmm1
+	xor	edi, edi
+	test	edx, edx
+	setns	dil
+	ucomiss	xmm0, xmm1
+	lea	edx, [rdi + rdi - 1]
+	cmove	edx, r10d
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB4_1176
+	jmp	.LBB4_1655
+.LBB4_1177:
+	xor	esi, esi
+.LBB4_1178:
+	test	r9b, 1
+	je	.LBB4_1180
+# %bb.1179:
+	movq	xmm0, qword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero
+	movq	xmm1, qword ptr [rcx + 4*rsi + 8] # xmm1 = mem[0],zero
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxdq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	pand	xmm0, xmm4
+	pcmpeqd	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxdq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero
+	pand	xmm1, xmm4
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
+.LBB4_1180:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1181:                             # =>This Inner Loop Header: Depth=1
+	xor	esi, esi
+	cmp	dword ptr [rcx + 4*rdx], 0
+	setne	sil
+	mov	qword ptr [r8 + 8*rdx], rsi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_1181
+	jmp	.LBB4_1655
+.LBB4_1182:
+	xor	esi, esi
+.LBB4_1183:
+	test	r9b, 1
+	je	.LBB4_1185
+# %bb.1184:
+	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm0, xmm2
+	movdqa	xmm3, xmmword ptr [rip + .LCPI4_19] # xmm3 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	pandn	xmm0, xmm3
+	pcmpeqd	xmm1, xmm2
+	pandn	xmm1, xmm3
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
+.LBB4_1185:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1186:
+	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+	jmp	.LBB4_1188
+.LBB4_1187:                             #   in Loop: Header=BB4_1188 Depth=1
+	movd	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1655
+.LBB4_1188:                             # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rcx + 4*rdx], 0
+	movdqa	xmm1, xmm0
+	jne	.LBB4_1187
+# %bb.1189:                             #   in Loop: Header=BB4_1188 Depth=1
+	pxor	xmm1, xmm1
+	jmp	.LBB4_1187
+.LBB4_1190:
+	xor	esi, esi
+.LBB4_1191:
+	test	r9b, 1
+	je	.LBB4_1193
+# %bb.1192:
+	movupd	xmm0, xmmword ptr [rcx + 8*rsi]
+	movupd	xmm1, xmmword ptr [rcx + 8*rsi + 16]
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
+	movapd	xmm4, xmm0
+	andpd	xmm4, xmm3
+	movapd	xmm5, xmmword ptr [rip + .LCPI4_1] # xmm5 = [1.0E+0,1.0E+0]
+	orpd	xmm4, xmm5
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm5
+	cvttsd2si	rdi, xmm4
+	movq	xmm5, rdi
+	pshufd	xmm4, xmm4, 238                 # xmm4 = xmm4[2,3,2,3]
+	cvttsd2si	rdi, xmm4
+	movq	xmm4, rdi
+	punpcklqdq	xmm5, xmm4              # xmm5 = xmm5[0],xmm4[0]
+	cvttsd2si	rdi, xmm3
+	movq	xmm4, rdi
+	pshufd	xmm3, xmm3, 238                 # xmm3 = xmm3[2,3,2,3]
+	cvttsd2si	rdi, xmm3
+	movq	xmm3, rdi
+	punpcklqdq	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0]
+	cmpneqpd	xmm0, xmm2
+	andpd	xmm0, xmm5
+	cmpneqpd	xmm1, xmm2
+	andpd	xmm1, xmm4
+	movupd	xmmword ptr [r8 + 8*rsi], xmm0
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm1
+.LBB4_1193:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1194:
+	xor	esi, esi
+	xorpd	xmm0, xmm0
+	movapd	xmm1, xmmword ptr [rip + .LCPI4_0] # xmm1 = [-0.0E+0,-0.0E+0]
+	movsd	xmm2, qword ptr [rip + .LCPI4_2] # xmm2 = mem[0],zero
+.LBB4_1195:                             # =>This Inner Loop Header: Depth=1
+	movsd	xmm3, qword ptr [rcx + 8*rdx]   # xmm3 = mem[0],zero
+	ucomisd	xmm0, xmm3
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm2
+	cvttsd2si	rdi, xmm3
+	cmove	rdi, rsi
+	mov	qword ptr [r8 + 8*rdx], rdi
+	add	rdx, 1
+	cmp	rax, rdx
+	jne	.LBB4_1195
+	jmp	.LBB4_1655
+.LBB4_1196:
+	xor	esi, esi
+.LBB4_1197:
+	test	r9b, 1
+	je	.LBB4_1199
+# %bb.1198:
+	movupd	xmm2, xmmword ptr [rcx + 8*rsi]
+	movupd	xmm8, xmmword ptr [rcx + 8*rsi + 16]
+	xorps	xmm0, xmm0
+	cvtsd2ss	xmm3, xmm2
+	cmpeqpd	xmm2, xmm0
+	shufps	xmm2, xmm2, 232                 # xmm2 = xmm2[0,2,2,3]
+	cvtpd2ps	xmm4, xmmword ptr [rip + .LCPI4_1]
+	cmpeqpd	xmm0, xmm8
+	movsd	xmm5, qword ptr [rcx + 8*rsi + 8] # xmm5 = mem[0],zero
+	cvtsd2ss	xmm5, xmm5
+	shufps	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	movaps	xmm6, xmmword ptr [rip + .LCPI4_3] # xmm6 = [NaN,NaN,NaN,NaN]
+	movaps	xmm7, xmm6
+	andnps	xmm7, xmm5
+	movshdup	xmm5, xmm4                      # xmm5 = xmm4[1,1,3,3]
+	andps	xmm5, xmm6
+	orps	xmm7, xmm5
+	movaps	xmm1, xmm6
+	andnps	xmm1, xmm3
+	andps	xmm4, xmm6
+	orps	xmm1, xmm4
+	unpcklps	xmm1, xmm7                      # xmm1 = xmm1[0],xmm7[0],xmm1[1],xmm7[1]
+	andnps	xmm2, xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rsi + 24] # xmm1 = mem[0],zero
+	cvtsd2ss	xmm1, xmm1
+	movaps	xmm3, xmm6
+	andnps	xmm3, xmm1
+	orps	xmm3, xmm5
+	xorps	xmm1, xmm1
+	cvtsd2ss	xmm1, xmm8
+	andnps	xmm6, xmm1
+	orps	xmm6, xmm4
+	unpcklps	xmm6, xmm3                      # xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1]
+	andnps	xmm0, xmm6
+	movlhps	xmm2, xmm0                      # xmm2 = xmm2[0],xmm0[0]
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+.LBB4_1199:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1200:
+	xorps	xmm0, xmm0
+	movaps	xmm1, xmmword ptr [rip + .LCPI4_4] # xmm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+	movss	xmm2, dword ptr [rip + .LCPI4_5] # xmm2 = mem[0],zero,zero,zero
+	jmp	.LBB4_1202
+.LBB4_1201:                             #   in Loop: Header=BB4_1202 Depth=1
+	movss	dword ptr [r8 + 4*rdx], xmm3
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1655
+.LBB4_1202:                             # =>This Inner Loop Header: Depth=1
+	movsd	xmm4, qword ptr [rcx + 8*rdx]   # xmm4 = mem[0],zero
+	ucomisd	xmm0, xmm4
+	xorps	xmm3, xmm3
+	je	.LBB4_1201
+# %bb.1203:                             #   in Loop: Header=BB4_1202 Depth=1
+	xorps	xmm3, xmm3
+	cvtsd2ss	xmm3, xmm4
+	andps	xmm3, xmm1
+	orps	xmm3, xmm2
+	jmp	.LBB4_1201
+.LBB4_1204:
+	xor	esi, esi
+.LBB4_1205:
+	test	r9b, 1
+	je	.LBB4_1207
+# %bb.1206:
+	movq	xmm0, qword ptr [rcx + 2*rsi]   # xmm0 = mem[0],zero
+	movq	xmm1, qword ptr [rcx + 2*rsi + 8] # xmm1 = mem[0],zero
+	pxor	xmm2, xmm2
+	pcmpeqw	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxwd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+	pand	xmm0, xmm4
+	cvtdq2ps	xmm0, xmm0
+	pcmpeqw	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxwd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
+	pand	xmm1, xmm4
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [r8 + 4*rsi], xmm0
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm1
+.LBB4_1207:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1208:
+	movd	xmm0, dword ptr [rip + .LCPI4_5] # xmm0 = mem[0],zero,zero,zero
+	jmp	.LBB4_1210
+.LBB4_1209:                             #   in Loop: Header=BB4_1210 Depth=1
+	movd	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1655
+.LBB4_1210:                             # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	movdqa	xmm1, xmm0
+	jne	.LBB4_1209
+# %bb.1211:                             #   in Loop: Header=BB4_1210 Depth=1
+	pxor	xmm1, xmm1
+	jmp	.LBB4_1209
+.LBB4_1212:
+	xor	esi, esi
+.LBB4_1213:
+	test	r9b, 1
+	je	.LBB4_1215
+# %bb.1214:
+	movd	xmm2, dword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero,zero,zero
+	movd	xmm3, dword ptr [rcx + 2*rsi + 4] # xmm3 = mem[0],zero,zero,zero
+	xorpd	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtw	xmm0, xmm4
+	pmovsxwq	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtw	xmm1, xmm4
+	pmovsxwq	xmm1, xmm1
+	pcmpeqw	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxwq	xmm2, xmm2
+	pcmpeqw	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxwq	xmm3, xmm3
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	blendvpd	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm3, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm2
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
+.LBB4_1215:
+	cmp	rdx, r10
+	je	.LBB4_1655
+.LBB4_1216:
+	mov	esi, 1
+.LBB4_1217:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rdx]
+	xor	eax, eax
+	test	di, di
+	setne	al
+	neg	rax
+	test	di, di
+	cmovg	rax, rsi
+	mov	qword ptr [r8 + 8*rdx], rax
+	add	rdx, 1
+	cmp	r10, rdx
+	jne	.LBB4_1217
+	jmp	.LBB4_1655
+.LBB4_1218:
+	xor	esi, esi
+.LBB4_1219:
+	test	r9b, 1
+	je	.LBB4_1221
+# %bb.1220:
+	movq	xmm2, qword ptr [rcx + 2*rsi]   # xmm2 = mem[0],zero
+	movq	xmm3, qword ptr [rcx + 2*rsi + 8] # xmm3 = mem[0],zero
+	xorps	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtw	xmm0, xmm4
+	pmovsxwd	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtw	xmm1, xmm4
+	pmovsxwd	xmm1, xmm1
+	pcmpeqw	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxwd	xmm2, xmm2
+	cvtdq2ps	xmm2, xmm2
+	pcmpeqw	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxwd	xmm3, xmm3
+	cvtdq2ps	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	blendvps	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm3, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
+.LBB4_1221:
+	cmp	rdx, rax
+	je	.LBB4_1655
+.LBB4_1222:
+	movd	xmm0, dword ptr [rip + .LCPI4_14] # xmm0 = mem[0],zero,zero,zero
+	movd	xmm1, dword ptr [rip + .LCPI4_5] # xmm1 = mem[0],zero,zero,zero
+	jmp	.LBB4_1224
+.LBB4_1223:                             #   in Loop: Header=BB4_1224 Depth=1
+	movd	dword ptr [r8 + 4*rdx], xmm3
+	add	rdx, 1
+	cmp	rax, rdx
+	je	.LBB4_1655
+.LBB4_1224:                             # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rcx + 2*rdx], 0
+	movdqa	xmm2, xmm0
+	jne	.LBB4_1226
+# %bb.1225:                             #   in Loop: Header=BB4_1224 Depth=1
+	pxor	xmm2, xmm2
+.LBB4_1226:                             #   in Loop: Header=BB4_1224 Depth=1
+	movdqa	xmm3, xmm1
+	jg	.LBB4_1223
+# %bb.1227:                             #   in Loop: Header=BB4_1224 Depth=1
+	movdqa	xmm3, xmm2
+	jmp	.LBB4_1223
+.LBB4_1104:
+	movmskps	ecx, xmm0
+	and	ecx, 1
+	neg	ecx
+	or	ecx, 1
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, ecx
+	cvttss2si	rcx, xmm0
+.LBB4_1105:
+	mov	qword ptr [r8 + 8*rax], rcx
+.LBB4_1655:
+	lea	rsp, [rbp - 16]
+	pop	rbx
+	pop	r14
+	pop	rbp
+	ret
+.LBB4_1228:
+	xor	esi, esi
+.LBB4_1229:
+	test	r9b, 1
+	je	.LBB4_1231
+# %bb.1230:
+	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm0, xmm2
+	movdqa	xmm3, xmmword ptr [rip + .LCPI4_8] # xmm3 = [1,1,1,1]
+	pandn	xmm0, xmm3
+	pcmpeqd	xmm1, xmm2
+	pandn	xmm1, xmm3
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
+.LBB4_1231:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1232
+.LBB4_1236:
+	xor	esi, esi
+.LBB4_1237:
+	test	r9b, 1
+	je	.LBB4_1239
+# %bb.1238:
+	movd	xmm2, dword ptr [rcx + rsi]     # xmm2 = mem[0],zero,zero,zero
+	movd	xmm3, dword ptr [rcx + rsi + 4] # xmm3 = mem[0],zero,zero,zero
+	xorps	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtb	xmm0, xmm4
+	pmovsxbd	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtb	xmm1, xmm4
+	pmovsxbd	xmm1, xmm1
+	pcmpeqb	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxbd	xmm2, xmm2
+	pcmpeqb	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxbd	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+	blendvps	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm3, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
+.LBB4_1239:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1240
+.LBB4_1245:
+	xor	esi, esi
+.LBB4_1246:
+	test	r9b, 1
+	je	.LBB4_1248
+# %bb.1247:
+	movd	xmm0, dword ptr [rcx + rsi]     # xmm0 = mem[0],zero,zero,zero
+	movd	xmm1, dword ptr [rcx + rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	pxor	xmm2, xmm2
+	pcmpeqb	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxbd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+	pand	xmm0, xmm4
+	pcmpeqb	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxbd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
+	pand	xmm1, xmm4
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
+.LBB4_1248:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1249
+.LBB4_1253:
+	xor	esi, esi
+.LBB4_1254:
+	test	r9b, 1
+	je	.LBB4_1256
+# %bb.1255:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 16]
+	pxor	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+	movdqa	xmm0, xmm4
+	pcmpgtd	xmm0, xmm1
+	movdqa	xmm5, xmm1
+	pcmpeqd	xmm5, xmm3
+	pcmpeqd	xmm1, xmm1
+	pxor	xmm5, xmm1
+	pcmpeqd	xmm3, xmm2
+	pxor	xmm3, xmm1
+	movdqa	xmm1, xmm4
+	pcmpgtd	xmm1, xmm2
+	movdqa	xmm2, xmm4
+	blendvps	xmm2, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm4, xmm3, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
+.LBB4_1256:
+	cmp	rdx, r11
+	je	.LBB4_1655
+	jmp	.LBB4_1257
+.LBB4_1262:
+	xor	esi, esi
+.LBB4_1263:
+	test	r9b, 1
+	je	.LBB4_1265
+# %bb.1264:
+	movupd	xmm0, xmmword ptr [rcx + 8*rsi]
+	movupd	xmm1, xmmword ptr [rcx + 8*rsi + 16]
+	xorpd	xmm2, xmm2
+	movapd	xmm3, xmmword ptr [rip + .LCPI4_0] # xmm3 = [-0.0E+0,-0.0E+0]
+	movapd	xmm4, xmm0
+	andpd	xmm4, xmm3
+	movapd	xmm5, xmmword ptr [rip + .LCPI4_1] # xmm5 = [1.0E+0,1.0E+0]
+	orpd	xmm4, xmm5
+	andpd	xmm3, xmm1
+	orpd	xmm3, xmm5
+	cmpneqpd	xmm0, xmm2
+	andpd	xmm0, xmm4
+	cmpneqpd	xmm1, xmm2
+	andpd	xmm1, xmm3
+	movupd	xmmword ptr [r8 + 8*rsi], xmm0
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm1
+.LBB4_1265:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_1266
+.LBB4_1271:
+	xor	esi, esi
+.LBB4_1272:
+	test	r9b, 1
+	je	.LBB4_1274
+# %bb.1273:
+	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	pand	xmm0, xmm4
+	pcmpeqd	xmm1, xmm2
+	pxor	xmm1, xmm3
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm4
+	movd	dword ptr [r8 + rsi], xmm0
+	movd	dword ptr [r8 + rsi + 4], xmm1
+.LBB4_1274:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_1275
+.LBB4_1279:
+	xor	esi, esi
+.LBB4_1280:
+	test	r9b, 1
+	je	.LBB4_1282
+# %bb.1281:
+	movupd	xmm3, xmmword ptr [rcx + 8*rsi]
+	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 16]
+	xorpd	xmm2, xmm2
+	movapd	xmm0, xmm3
+	cmpeqpd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movapd	xmm1, xmm4
+	cmpeqpd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	movapd	xmm5, xmmword ptr [rip + .LCPI4_0] # xmm5 = [-0.0E+0,-0.0E+0]
+	andpd	xmm3, xmm5
+	movapd	xmm6, xmmword ptr [rip + .LCPI4_1] # xmm6 = [1.0E+0,1.0E+0]
+	orpd	xmm3, xmm6
+	andpd	xmm4, xmm5
+	orpd	xmm4, xmm6
+	cvttpd2dq	xmm3, xmm3
+	movdqa	xmm5, xmmword ptr [rip + .LCPI4_7] # xmm5 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	pshufb	xmm3, xmm5
+	cvttpd2dq	xmm4, xmm4
+	pshufb	xmm4, xmm5
+	pblendvb	xmm3, xmm2, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm2, xmm0
+	pextrw	word ptr [r8 + rsi], xmm3, 0
+	pextrw	word ptr [r8 + rsi + 2], xmm4, 0
+.LBB4_1282:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_1283
+.LBB4_1288:
+	xor	eax, eax
+.LBB4_1289:
+	test	r9b, 1
+	je	.LBB4_1291
+# %bb.1290:
+	movdqu	xmm1, xmmword ptr [rcx + rax]
+	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
+	pxor	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_22] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	movdqa	xmm0, xmm4
+	pcmpgtb	xmm0, xmm1
+	movdqa	xmm5, xmm1
+	pcmpeqb	xmm5, xmm3
+	pcmpeqd	xmm1, xmm1
+	pxor	xmm5, xmm1
+	pcmpeqb	xmm3, xmm2
+	pxor	xmm3, xmm1
+	movdqa	xmm1, xmm4
+	pcmpgtb	xmm1, xmm2
+	movdqa	xmm2, xmm4
+	pblendvb	xmm2, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm3, xmm0
+	movdqu	xmmword ptr [r8 + rax], xmm2
+	movdqu	xmmword ptr [r8 + rax + 16], xmm4
+.LBB4_1291:
+	cmp	rsi, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1292
+.LBB4_1297:
+	xor	esi, esi
+.LBB4_1298:
+	test	r9b, 1
+	je	.LBB4_1300
+# %bb.1299:
+	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqq	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	pand	xmm0, xmm4
+	pcmpeqq	xmm1, xmm2
+	pxor	xmm1, xmm3
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pextrw	word ptr [r8 + rsi], xmm0, 0
+	pand	xmm1, xmm4
+	pextrw	word ptr [r8 + rsi + 2], xmm1, 0
+.LBB4_1300:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_1301
+.LBB4_1305:
+	xor	esi, esi
+.LBB4_1306:
+	test	r9b, 1
+	je	.LBB4_1308
+# %bb.1307:
+	movdqu	xmm0, xmmword ptr [rcx + 2*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 2*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqw	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	packsswb	xmm0, xmm0
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+	pand	xmm0, xmm4
+	pcmpeqw	xmm1, xmm2
+	pxor	xmm1, xmm3
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm4
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [r8 + rsi], xmm0
+.LBB4_1308:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_1309
+.LBB4_1313:
+	xor	eax, eax
+.LBB4_1314:
+	test	r9b, 1
+	je	.LBB4_1316
+# %bb.1315:
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	movdqu	xmm3, xmmword ptr [rcx + 2*rax + 16]
+	pxor	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtw	xmm0, xmm4
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtw	xmm1, xmm4
+	packsswb	xmm1, xmm1
+	pcmpeqw	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	packsswb	xmm2, xmm2
+	pcmpeqw	xmm3, xmm4
+	pxor	xmm3, xmm5
+	packsswb	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
+	movdqu	xmmword ptr [r8 + rax], xmm2
+.LBB4_1316:
+	cmp	rsi, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1317
+.LBB4_1322:
+	xor	eax, eax
+.LBB4_1323:
+	test	r9b, 1
+	je	.LBB4_1325
+# %bb.1324:
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rax + 16]
+	pxor	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtq	xmm0, xmm4
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtq	xmm1, xmm4
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqq	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	packssdw	xmm2, xmm2
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pcmpeqq	xmm3, xmm4
+	pxor	xmm3, xmm5
+	packssdw	xmm3, xmm3
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	pextrw	word ptr [r8 + rax], xmm2, 0
+	pextrw	word ptr [r8 + rax + 2], xmm3, 0
+.LBB4_1325:
+	cmp	rsi, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1326
+.LBB4_1331:
+	xor	esi, esi
+.LBB4_1332:
+	test	r9b, 1
+	je	.LBB4_1334
+# %bb.1333:
+	movups	xmm0, xmmword ptr [rcx + 4*rsi]
+	movups	xmm1, xmmword ptr [rcx + 4*rsi + 16]
+	xorps	xmm4, xmm4
+	movaps	xmm2, xmm0
+	cmpeqps	xmm2, xmm4
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movaps	xmm3, xmm1
+	cmpeqps	xmm3, xmm4
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pcmpeqd	xmm5, xmm5
+	pcmpgtd	xmm0, xmm5
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pcmpgtd	xmm1, xmm5
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_12] # xmm6 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	pcmpeqd	xmm7, xmm7
+	pblendvb	xmm7, xmm6, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqa	xmm0, xmm2
+	pblendvb	xmm7, xmm4, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm5, xmm4, xmm0
+	movd	dword ptr [r8 + rsi], xmm7
+	movd	dword ptr [r8 + rsi + 4], xmm5
+.LBB4_1334:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1335
+.LBB4_1340:
+	xor	esi, esi
+.LBB4_1341:
+	test	r9b, 1
+	je	.LBB4_1343
+# %bb.1342:
+	movdqu	xmm0, xmmword ptr [rcx + rsi]
+	movdqu	xmm1, xmmword ptr [rcx + rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqb	xmm0, xmm2
+	movdqa	xmm3, xmmword ptr [rip + .LCPI4_22] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pandn	xmm0, xmm3
+	pcmpeqb	xmm1, xmm2
+	pandn	xmm1, xmm3
+	movdqu	xmmword ptr [r8 + rsi], xmm0
+	movdqu	xmmword ptr [r8 + rsi + 16], xmm1
+.LBB4_1343:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_1344
+.LBB4_1348:
+	xor	eax, eax
+.LBB4_1349:
+	test	r9b, 1
+	je	.LBB4_1351
+# %bb.1350:
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	movdqu	xmm3, xmmword ptr [rcx + 4*rax + 16]
+	pxor	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtd	xmm0, xmm4
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtd	xmm1, xmm4
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqd	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pcmpeqd	xmm3, xmm4
+	pxor	xmm3, xmm5
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	movd	dword ptr [r8 + rax], xmm2
+	movd	dword ptr [r8 + rax + 4], xmm3
+.LBB4_1351:
+	cmp	rsi, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1352
+.LBB4_1357:
+	xor	esi, esi
+.LBB4_1358:
+	test	r9b, 1
+	je	.LBB4_1360
+# %bb.1359:
+	movzx	eax, word ptr [rcx + rsi]
+	movd	xmm2, eax
+	movzx	eax, word ptr [rcx + rsi + 2]
+	movd	xmm3, eax
+	xorpd	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtb	xmm0, xmm4
+	pmovsxbq	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtb	xmm1, xmm4
+	pmovsxbq	xmm1, xmm1
+	pcmpeqb	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxbq	xmm2, xmm2
+	pcmpeqb	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxbq	xmm3, xmm3
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	blendvpd	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm3, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm2
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
+.LBB4_1360:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1361
+.LBB4_1366:
+	xor	esi, esi
+.LBB4_1367:
+	test	r9b, 1
+	je	.LBB4_1369
+# %bb.1368:
+	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqq	xmm0, xmm2
+	movdqa	xmm3, xmmword ptr [rip + .LCPI4_15] # xmm3 = [1,1]
+	pandn	xmm0, xmm3
+	pcmpeqq	xmm1, xmm2
+	pandn	xmm1, xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
+.LBB4_1369:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1370
+.LBB4_1374:
+	xor	esi, esi
+.LBB4_1375:
+	test	r9b, 1
+	je	.LBB4_1377
+# %bb.1376:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 16]
+	pxor	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	movdqa	xmm0, xmm4
+	pcmpgtq	xmm0, xmm1
+	movdqa	xmm5, xmm1
+	pcmpeqq	xmm5, xmm3
+	pcmpeqd	xmm1, xmm1
+	pxor	xmm5, xmm1
+	pcmpeqq	xmm3, xmm2
+	pxor	xmm3, xmm1
+	movdqa	xmm1, xmm4
+	pcmpgtq	xmm1, xmm2
+	movdqa	xmm2, xmm4
+	blendvpd	xmm2, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm4, xmm3, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm2
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm4
+.LBB4_1377:
+	cmp	rdx, r11
+	je	.LBB4_1655
+	jmp	.LBB4_1378
+.LBB4_1383:
+	xor	esi, esi
+.LBB4_1384:
+	test	r9b, 1
+	je	.LBB4_1386
+# %bb.1385:
+	movzx	eax, word ptr [rcx + rsi]
+	movd	xmm0, eax
+	movzx	eax, word ptr [rcx + rsi + 2]
+	movd	xmm1, eax
+	pxor	xmm2, xmm2
+	pcmpeqb	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxbq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	pand	xmm0, xmm4
+	pcmpeqb	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxbq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,zero,zero,zero,zero,xmm1[1],zero,zero,zero,zero,zero,zero,zero
+	pand	xmm1, xmm4
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
+.LBB4_1386:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1387
+.LBB4_1391:
+	xor	esi, esi
+.LBB4_1392:
+	test	r9b, 1
+	je	.LBB4_1394
+# %bb.1393:
+	movq	xmm2, qword ptr [rcx + rsi]     # xmm2 = mem[0],zero
+	movq	xmm3, qword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero
+	pxor	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtb	xmm0, xmm4
+	pmovsxbw	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtb	xmm1, xmm4
+	pmovsxbw	xmm1, xmm1
+	pcmpeqb	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxbw	xmm2, xmm2
+	pcmpeqb	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxbw	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
+.LBB4_1394:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1395
+.LBB4_1400:
+	xor	esi, esi
+.LBB4_1401:
+	test	r9b, 1
+	je	.LBB4_1403
+# %bb.1402:
+	movq	xmm2, qword ptr [rcx + rsi]     # xmm2 = mem[0],zero
+	movq	xmm3, qword ptr [rcx + rsi + 8] # xmm3 = mem[0],zero
+	pxor	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtb	xmm0, xmm4
+	pmovsxbw	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtb	xmm1, xmm4
+	pmovsxbw	xmm1, xmm1
+	pcmpeqb	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxbw	xmm2, xmm2
+	pcmpeqb	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxbw	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm3
+.LBB4_1403:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1404
+.LBB4_1409:
+	xor	esi, esi
+.LBB4_1410:
+	test	r9b, 1
+	je	.LBB4_1412
+# %bb.1411:
+	movdqu	xmm0, xmmword ptr [rcx + 2*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 2*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqw	xmm0, xmm2
+	movdqa	xmm3, xmmword ptr [rip + .LCPI4_20] # xmm3 = [1,1,1,1,1,1,1,1]
+	pandn	xmm0, xmm3
+	pcmpeqw	xmm1, xmm2
+	pandn	xmm1, xmm3
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm1
+.LBB4_1412:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1413
+.LBB4_1417:
+	xor	esi, esi
+.LBB4_1418:
+	test	r9b, 1
+	je	.LBB4_1420
+# %bb.1419:
+	movdqu	xmm0, xmmword ptr [rcx + 2*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 2*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqw	xmm0, xmm2
+	movdqa	xmm3, xmmword ptr [rip + .LCPI4_20] # xmm3 = [1,1,1,1,1,1,1,1]
+	pandn	xmm0, xmm3
+	pcmpeqw	xmm1, xmm2
+	pandn	xmm1, xmm3
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm1
+.LBB4_1420:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1421
+.LBB4_1425:
+	xor	esi, esi
+.LBB4_1426:
+	test	r9b, 1
+	je	.LBB4_1428
+# %bb.1427:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rsi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rsi + 16]
+	pxor	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
+	movdqa	xmm0, xmm4
+	pcmpgtw	xmm0, xmm1
+	movdqa	xmm5, xmm1
+	pcmpeqw	xmm5, xmm3
+	pcmpeqd	xmm1, xmm1
+	pxor	xmm5, xmm1
+	pcmpeqw	xmm3, xmm2
+	pxor	xmm3, xmm1
+	movdqa	xmm1, xmm4
+	pcmpgtw	xmm1, xmm2
+	movdqa	xmm2, xmm4
+	pblendvb	xmm2, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm3, xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
+.LBB4_1428:
+	cmp	rdx, r11
+	je	.LBB4_1655
+	jmp	.LBB4_1429
+.LBB4_1434:
+	xor	esi, esi
+.LBB4_1435:
+	test	r9b, 1
+	je	.LBB4_1437
+# %bb.1436:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rsi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rsi + 16]
+	pxor	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
+	movdqa	xmm0, xmm4
+	pcmpgtw	xmm0, xmm1
+	movdqa	xmm5, xmm1
+	pcmpeqw	xmm5, xmm3
+	pcmpeqd	xmm1, xmm1
+	pxor	xmm5, xmm1
+	pcmpeqw	xmm3, xmm2
+	pxor	xmm3, xmm1
+	movdqa	xmm1, xmm4
+	pcmpgtw	xmm1, xmm2
+	movdqa	xmm2, xmm4
+	pblendvb	xmm2, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm3, xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm4
+.LBB4_1437:
+	cmp	rdx, r11
+	je	.LBB4_1655
+	jmp	.LBB4_1438
+.LBB4_1443:
+	xor	esi, esi
+.LBB4_1444:
+	test	r9b, 1
+	je	.LBB4_1446
+# %bb.1445:
+	movq	xmm0, qword ptr [rcx + rsi]     # xmm0 = mem[0],zero
+	movq	xmm1, qword ptr [rcx + rsi + 8] # xmm1 = mem[0],zero
+	pxor	xmm2, xmm2
+	pcmpeqb	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxbw	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
+	pand	xmm0, xmm4
+	pcmpeqb	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxbw	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	pand	xmm1, xmm4
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm1
+.LBB4_1446:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1447
+.LBB4_1451:
+	xor	esi, esi
+.LBB4_1452:
+	test	r9b, 1
+	je	.LBB4_1454
+# %bb.1453:
+	movq	xmm0, qword ptr [rcx + rsi]     # xmm0 = mem[0],zero
+	movq	xmm1, qword ptr [rcx + rsi + 8] # xmm1 = mem[0],zero
+	pxor	xmm2, xmm2
+	pcmpeqb	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxbw	xmm0, xmm0                      # xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_20] # xmm4 = [1,1,1,1,1,1,1,1]
+	pand	xmm0, xmm4
+	pcmpeqb	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxbw	xmm1, xmm1                      # xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+	pand	xmm1, xmm4
+	movdqu	xmmword ptr [r8 + 2*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rsi + 16], xmm1
+.LBB4_1454:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1455
+.LBB4_1459:
+	xor	esi, esi
+.LBB4_1460:
+	test	r9b, 1
+	je	.LBB4_1462
+# %bb.1461:
+	movzx	eax, word ptr [rcx + rsi]
+	movd	xmm2, eax
+	movzx	eax, word ptr [rcx + rsi + 2]
+	movd	xmm3, eax
+	xorpd	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtb	xmm0, xmm4
+	pmovsxbq	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtb	xmm1, xmm4
+	pmovsxbq	xmm1, xmm1
+	pcmpeqb	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxbq	xmm2, xmm2
+	pcmpeqb	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxbq	xmm3, xmm3
+	movapd	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	blendvpd	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm3, xmm4, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm2
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm3
+.LBB4_1462:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1463
+.LBB4_1468:
+	xor	esi, esi
+.LBB4_1469:
+	test	r9b, 1
+	je	.LBB4_1471
+# %bb.1470:
+	movd	xmm2, dword ptr [rcx + rsi]     # xmm2 = mem[0],zero,zero,zero
+	movd	xmm3, dword ptr [rcx + rsi + 4] # xmm3 = mem[0],zero,zero,zero
+	xorps	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtb	xmm0, xmm4
+	pmovsxbd	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtb	xmm1, xmm4
+	pmovsxbd	xmm1, xmm1
+	pcmpeqb	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxbd	xmm2, xmm2
+	cvtdq2ps	xmm2, xmm2
+	pcmpeqb	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxbd	xmm3, xmm3
+	cvtdq2ps	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_19] # xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+	blendvps	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm3, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
+.LBB4_1471:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_1472
+.LBB4_1490:
+	xor	esi, esi
+.LBB4_1491:
+	test	r9b, 1
+	je	.LBB4_1493
+# %bb.1492:
+	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqq	xmm0, xmm2
+	movdqa	xmm3, xmmword ptr [rip + .LCPI4_15] # xmm3 = [1,1]
+	pandn	xmm0, xmm3
+	pcmpeqq	xmm1, xmm2
+	pandn	xmm1, xmm3
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
+.LBB4_1493:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1494
+.LBB4_1498:
+	xor	esi, esi
+.LBB4_1499:
+	test	r9b, 1
+	je	.LBB4_1501
+# %bb.1500:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rsi + 16]
+	pxor	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	movdqa	xmm0, xmm4
+	pcmpgtq	xmm0, xmm1
+	movdqa	xmm5, xmm1
+	pcmpeqq	xmm5, xmm3
+	pcmpeqd	xmm1, xmm1
+	pxor	xmm5, xmm1
+	pcmpeqq	xmm3, xmm2
+	pxor	xmm3, xmm1
+	movdqa	xmm1, xmm4
+	pcmpgtq	xmm1, xmm2
+	movdqa	xmm2, xmm4
+	blendvpd	xmm2, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	blendvpd	xmm4, xmm3, xmm0
+	movupd	xmmword ptr [r8 + 8*rsi], xmm2
+	movupd	xmmword ptr [r8 + 8*rsi + 16], xmm4
+.LBB4_1501:
+	cmp	rdx, r11
+	je	.LBB4_1655
+	jmp	.LBB4_1502
+.LBB4_1507:
+	xor	esi, esi
+.LBB4_1508:
+	test	r9b, 1
+	je	.LBB4_1510
+# %bb.1509:
+	movzx	eax, word ptr [rcx + rsi]
+	movd	xmm0, eax
+	movzx	eax, word ptr [rcx + rsi + 2]
+	movd	xmm1, eax
+	pxor	xmm2, xmm2
+	pcmpeqb	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxbq	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,zero,zero,zero,zero,xmm0[1],zero,zero,zero,zero,zero,zero,zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_15] # xmm4 = [1,1]
+	pand	xmm0, xmm4
+	pcmpeqb	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxbq	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,zero,zero,zero,zero,xmm1[1],zero,zero,zero,zero,zero,zero,zero
+	pand	xmm1, xmm4
+	movdqu	xmmword ptr [r8 + 8*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rsi + 16], xmm1
+.LBB4_1510:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1511
+.LBB4_1515:
+	xor	esi, esi
+.LBB4_1516:
+	test	r9b, 1
+	je	.LBB4_1518
+# %bb.1517:
+	movd	xmm0, dword ptr [rcx + rsi]     # xmm0 = mem[0],zero,zero,zero
+	movd	xmm1, dword ptr [rcx + rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	pxor	xmm2, xmm2
+	pcmpeqb	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxbd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+	pand	xmm0, xmm4
+	cvtdq2ps	xmm0, xmm0
+	pcmpeqb	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxbd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
+	pand	xmm1, xmm4
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [r8 + 4*rsi], xmm0
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm1
+.LBB4_1518:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_1519
+.LBB4_1535:
+	xor	esi, esi
+.LBB4_1536:
+	test	r9b, 1
+	je	.LBB4_1538
+# %bb.1537:
+	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	pand	xmm0, xmm4
+	pcmpeqd	xmm1, xmm2
+	pxor	xmm1, xmm3
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm4
+	movd	dword ptr [r8 + rsi], xmm0
+	movd	dword ptr [r8 + rsi + 4], xmm1
+.LBB4_1538:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_1539
+.LBB4_1543:
+	xor	esi, esi
+.LBB4_1544:
+	test	r9b, 1
+	je	.LBB4_1546
+# %bb.1545:
+	movupd	xmm3, xmmword ptr [rcx + 8*rsi]
+	movupd	xmm4, xmmword ptr [rcx + 8*rsi + 16]
+	xorpd	xmm2, xmm2
+	movapd	xmm0, xmm3
+	cmpeqpd	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movapd	xmm1, xmm4
+	cmpeqpd	xmm1, xmm2
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	movapd	xmm5, xmmword ptr [rip + .LCPI4_0] # xmm5 = [-0.0E+0,-0.0E+0]
+	andpd	xmm3, xmm5
+	movapd	xmm6, xmmword ptr [rip + .LCPI4_1] # xmm6 = [1.0E+0,1.0E+0]
+	orpd	xmm3, xmm6
+	andpd	xmm4, xmm5
+	orpd	xmm4, xmm6
+	cvttpd2dq	xmm3, xmm3
+	movdqa	xmm5, xmmword ptr [rip + .LCPI4_7] # xmm5 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	pshufb	xmm3, xmm5
+	cvttpd2dq	xmm4, xmm4
+	pshufb	xmm4, xmm5
+	pblendvb	xmm3, xmm2, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm2, xmm0
+	pextrw	word ptr [r8 + rsi], xmm3, 0
+	pextrw	word ptr [r8 + rsi + 2], xmm4, 0
+.LBB4_1546:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_1547
+.LBB4_1552:
+	xor	eax, eax
+.LBB4_1553:
+	test	r9b, 1
+	je	.LBB4_1555
+# %bb.1554:
+	movdqu	xmm1, xmmword ptr [rcx + rax]
+	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
+	pxor	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_22] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	movdqa	xmm0, xmm4
+	pcmpgtb	xmm0, xmm1
+	movdqa	xmm5, xmm1
+	pcmpeqb	xmm5, xmm3
+	pcmpeqd	xmm1, xmm1
+	pxor	xmm5, xmm1
+	pcmpeqb	xmm3, xmm2
+	pxor	xmm3, xmm1
+	movdqa	xmm1, xmm4
+	pcmpgtb	xmm1, xmm2
+	movdqa	xmm2, xmm4
+	pblendvb	xmm2, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm3, xmm0
+	movdqu	xmmword ptr [r8 + rax], xmm2
+	movdqu	xmmword ptr [r8 + rax + 16], xmm4
+.LBB4_1555:
+	cmp	rsi, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1556
+.LBB4_1561:
+	xor	esi, esi
+.LBB4_1562:
+	test	r9b, 1
+	je	.LBB4_1564
+# %bb.1563:
+	movdqu	xmm0, xmmword ptr [rcx + 8*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 8*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqq	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	pand	xmm0, xmm4
+	pcmpeqq	xmm1, xmm2
+	pxor	xmm1, xmm3
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pextrw	word ptr [r8 + rsi], xmm0, 0
+	pand	xmm1, xmm4
+	pextrw	word ptr [r8 + rsi + 2], xmm1, 0
+.LBB4_1564:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_1565
+.LBB4_1569:
+	xor	esi, esi
+.LBB4_1570:
+	test	r9b, 1
+	je	.LBB4_1572
+# %bb.1571:
+	movdqu	xmm0, xmmword ptr [rcx + 2*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 2*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqw	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	packsswb	xmm0, xmm0
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+	pand	xmm0, xmm4
+	pcmpeqw	xmm1, xmm2
+	pxor	xmm1, xmm3
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm4
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [r8 + rsi], xmm0
+.LBB4_1572:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_1573
+.LBB4_1577:
+	xor	eax, eax
+.LBB4_1578:
+	test	r9b, 1
+	je	.LBB4_1580
+# %bb.1579:
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	movdqu	xmm3, xmmword ptr [rcx + 2*rax + 16]
+	pxor	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtw	xmm0, xmm4
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtw	xmm1, xmm4
+	packsswb	xmm1, xmm1
+	pcmpeqw	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	packsswb	xmm2, xmm2
+	pcmpeqw	xmm3, xmm4
+	pxor	xmm3, xmm5
+	packsswb	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_21] # xmm4 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
+	movdqu	xmmword ptr [r8 + rax], xmm2
+.LBB4_1580:
+	cmp	rsi, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1581
+.LBB4_1586:
+	xor	eax, eax
+.LBB4_1587:
+	test	r9b, 1
+	je	.LBB4_1589
+# %bb.1588:
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	movdqu	xmm3, xmmword ptr [rcx + 8*rax + 16]
+	pxor	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtq	xmm0, xmm4
+	packssdw	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtq	xmm1, xmm4
+	packssdw	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqq	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	packssdw	xmm2, xmm2
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pcmpeqq	xmm3, xmm4
+	pxor	xmm3, xmm5
+	packssdw	xmm3, xmm3
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_18] # xmm4 = <1,1,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	pextrw	word ptr [r8 + rax], xmm2, 0
+	pextrw	word ptr [r8 + rax + 2], xmm3, 0
+.LBB4_1589:
+	cmp	rsi, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1590
+.LBB4_1595:
+	xor	esi, esi
+.LBB4_1596:
+	test	r9b, 1
+	je	.LBB4_1598
+# %bb.1597:
+	movups	xmm0, xmmword ptr [rcx + 4*rsi]
+	movups	xmm1, xmmword ptr [rcx + 4*rsi + 16]
+	xorps	xmm4, xmm4
+	movaps	xmm2, xmm0
+	cmpeqps	xmm2, xmm4
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movaps	xmm3, xmm1
+	cmpeqps	xmm3, xmm4
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pcmpeqd	xmm5, xmm5
+	pcmpgtd	xmm0, xmm5
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pcmpgtd	xmm1, xmm5
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_12] # xmm6 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	pcmpeqd	xmm7, xmm7
+	pblendvb	xmm7, xmm6, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm6, xmm0
+	movdqa	xmm0, xmm2
+	pblendvb	xmm7, xmm4, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm5, xmm4, xmm0
+	movd	dword ptr [r8 + rsi], xmm7
+	movd	dword ptr [r8 + rsi + 4], xmm5
+.LBB4_1598:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1599
+.LBB4_1604:
+	xor	esi, esi
+.LBB4_1605:
+	test	r9b, 1
+	je	.LBB4_1607
+# %bb.1606:
+	movdqu	xmm0, xmmword ptr [rcx + rsi]
+	movdqu	xmm1, xmmword ptr [rcx + rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqb	xmm0, xmm2
+	movdqa	xmm3, xmmword ptr [rip + .LCPI4_22] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pandn	xmm0, xmm3
+	pcmpeqb	xmm1, xmm2
+	pandn	xmm1, xmm3
+	movdqu	xmmword ptr [r8 + rsi], xmm0
+	movdqu	xmmword ptr [r8 + rsi + 16], xmm1
+.LBB4_1607:
+	cmp	rdx, rax
+	je	.LBB4_1655
+	jmp	.LBB4_1608
+.LBB4_1612:
+	xor	eax, eax
+.LBB4_1613:
+	test	r9b, 1
+	je	.LBB4_1615
+# %bb.1614:
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	movdqu	xmm3, xmmword ptr [rcx + 4*rax + 16]
+	pxor	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtd	xmm0, xmm4
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtd	xmm1, xmm4
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pcmpeqd	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pcmpeqd	xmm3, xmm4
+	pxor	xmm3, xmm5
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_12] # xmm4 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm3, xmm4, xmm0
+	movd	dword ptr [r8 + rax], xmm2
+	movd	dword ptr [r8 + rax + 4], xmm3
+.LBB4_1615:
+	cmp	rsi, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1616
+.LBB4_1621:
+	xor	esi, esi
+.LBB4_1622:
+	test	r9b, 1
+	je	.LBB4_1624
+# %bb.1623:
+	movdqu	xmm0, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm1, xmmword ptr [rcx + 4*rsi + 16]
+	pxor	xmm2, xmm2
+	pcmpeqd	xmm0, xmm2
+	movdqa	xmm3, xmmword ptr [rip + .LCPI4_8] # xmm3 = [1,1,1,1]
+	pandn	xmm0, xmm3
+	pcmpeqd	xmm1, xmm2
+	pandn	xmm1, xmm3
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
+.LBB4_1624:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1625
+.LBB4_1629:
+	xor	esi, esi
+.LBB4_1630:
+	test	r9b, 1
+	je	.LBB4_1632
+# %bb.1631:
+	movd	xmm2, dword ptr [rcx + rsi]     # xmm2 = mem[0],zero,zero,zero
+	movd	xmm3, dword ptr [rcx + rsi + 4] # xmm3 = mem[0],zero,zero,zero
+	xorps	xmm4, xmm4
+	movdqa	xmm0, xmm2
+	pcmpgtb	xmm0, xmm4
+	pmovsxbd	xmm0, xmm0
+	movdqa	xmm1, xmm3
+	pcmpgtb	xmm1, xmm4
+	pmovsxbd	xmm1, xmm1
+	pcmpeqb	xmm2, xmm4
+	pcmpeqd	xmm5, xmm5
+	pxor	xmm2, xmm5
+	pmovsxbd	xmm2, xmm2
+	pcmpeqb	xmm3, xmm4
+	pxor	xmm3, xmm5
+	pmovsxbd	xmm3, xmm3
+	movaps	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+	blendvps	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm3, xmm4, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm3
+.LBB4_1632:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1633
+.LBB4_1638:
+	xor	esi, esi
+.LBB4_1639:
+	test	r9b, 1
+	je	.LBB4_1641
+# %bb.1640:
+	movd	xmm0, dword ptr [rcx + rsi]     # xmm0 = mem[0],zero,zero,zero
+	movd	xmm1, dword ptr [rcx + rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	pxor	xmm2, xmm2
+	pcmpeqb	xmm0, xmm2
+	pcmpeqd	xmm3, xmm3
+	pxor	xmm0, xmm3
+	pmovzxbd	xmm0, xmm0                      # xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+	pand	xmm0, xmm4
+	pcmpeqb	xmm1, xmm2
+	pxor	xmm1, xmm3
+	pmovzxbd	xmm1, xmm1                      # xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
+	pand	xmm1, xmm4
+	movdqu	xmmword ptr [r8 + 4*rsi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rsi + 16], xmm1
+.LBB4_1641:
+	cmp	rdx, r10
+	je	.LBB4_1655
+	jmp	.LBB4_1642
+.LBB4_1646:
+	xor	esi, esi
+.LBB4_1647:
+	test	r9b, 1
+	je	.LBB4_1649
+# %bb.1648:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rsi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rsi + 16]
+	pxor	xmm3, xmm3
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = [1,1,1,1]
+	movdqa	xmm0, xmm4
+	pcmpgtd	xmm0, xmm1
+	movdqa	xmm5, xmm1
+	pcmpeqd	xmm5, xmm3
+	pcmpeqd	xmm1, xmm1
+	pxor	xmm5, xmm1
+	pcmpeqd	xmm3, xmm2
+	pxor	xmm3, xmm1
+	movdqa	xmm1, xmm4
+	pcmpgtd	xmm1, xmm2
+	movdqa	xmm2, xmm4
+	blendvps	xmm2, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	blendvps	xmm4, xmm3, xmm0
+	movups	xmmword ptr [r8 + 4*rsi], xmm2
+	movups	xmmword ptr [r8 + 4*rsi + 16], xmm4
+.LBB4_1649:
+	cmp	rdx, r11
+	je	.LBB4_1655
+	jmp	.LBB4_1650
+.Lfunc_end4:
+	.size	arithmetic_unary_diff_type_sse4, .Lfunc_end4-arithmetic_unary_diff_type_sse4
+                                        # -- End function
+	.ident	"Ubuntu clang version 11.1.0-6"
+	.section	".note.GNU-stack","",@progbits
+	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/cast_numeric.cc b/go/arrow/compute/internal/kernels/_lib/cast_numeric.cc
new file mode 100644
index 00000000000..1e8c821ea5e
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/cast_numeric.cc
@@ -0,0 +1,104 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+#include <arch.h>
+#include <stdint.h>
+#include "types.h"
+
+template <typename I, typename O>
+static inline void FULL_NAME(cast_tmpl_numeric)(const I* in, O* out, const int len) {
+    for (int i = 0; i < len; ++i) {
+        out[i] = static_cast<O>(in[i]);
+    }
+}
+
+template <typename I>
+static inline void FULL_NAME(cast_type_numeric_impl)(const arrtype otype, const I* in, void* out, const int len) {
+    switch (otype) {
+    case arrtype::UINT8:
+        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<uint8_t*>(out), len);
+        break;
+    case arrtype::INT8:
+        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<int8_t*>(out), len);
+        break;
+    case arrtype::UINT16:
+        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<uint16_t*>(out), len);
+        break;
+    case arrtype::INT16:
+        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<int16_t*>(out), len);
+        break;
+    case arrtype::UINT32:
+        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<uint32_t*>(out), len);
+        break;
+    case arrtype::INT32:
+        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<int32_t*>(out), len);
+        break;
+    case arrtype::UINT64:
+        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<uint64_t*>(out), len);
+        break;
+    case arrtype::INT64:
+        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<int64_t*>(out), len);
+        break;
+    case arrtype::FLOAT32:
+        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<float*>(out), len);
+        break;
+    case arrtype::FLOAT64:
+        FULL_NAME(cast_tmpl_numeric)(in, reinterpret_cast<double*>(out), len);
+        break;
+    default:
+        break;
+    }
+}
+
+extern "C" void FULL_NAME(cast_type_numeric)(const int itype, const int otype, const void* input, void* output, const int len) {
+    const auto in = static_cast<arrtype>(itype);
+    const auto out = static_cast<arrtype>(otype);
+
+    switch (in) {    
+    case arrtype::UINT8:
+        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const uint8_t*>(input), output, len);
+        break;
+    case arrtype::INT8:
+        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const int8_t*>(input), output, len);
+        break;
+    case arrtype::UINT16:
+        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const uint16_t*>(input), output, len);
+        break;    
+    case arrtype::INT16:
+        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const int16_t*>(input), output, len);
+        break;    
+    case arrtype::UINT32:
+        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const uint32_t*>(input), output, len);
+        break;
+    case arrtype::INT32:
+        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const int32_t*>(input), output, len);
+        break;    
+    case arrtype::UINT64:
+        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const uint64_t*>(input), output, len);
+        break;    
+    case arrtype::INT64:
+        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const int64_t*>(input), output, len);
+        break;    
+    case arrtype::FLOAT32:
+        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const float*>(input), output, len);
+        break;    
+    case arrtype::FLOAT64:
+        FULL_NAME(cast_type_numeric_impl)(out, reinterpret_cast<const double*>(input), output, len);
+        break;    
+    default:
+        break;
+    }
+}
\ No newline at end of file
diff --git a/go/arrow/compute/internal/kernels/_lib/cast_numeric_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/cast_numeric_avx2_amd64.s
new file mode 100644
index 00000000000..bed3562e2da
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/cast_numeric_avx2_amd64.s
@@ -0,0 +1,11337 @@
+	.text
+	.intel_syntax noprefix
+	.file	"cast_numeric.cc"
+	.section	.rodata.cst8,"aM",@progbits,8
+	.p2align	3                               # -- Begin function cast_type_numeric_avx2
+.LCPI0_0:
+	.quad	0x43e0000000000000              # double 9.2233720368547758E+18
+.LCPI0_5:
+	.quad	4841369599423283200             # 0x4330000000000000
+.LCPI0_6:
+	.quad	4985484787499139072             # 0x4530000000000000
+.LCPI0_7:
+	.quad	0x4530000000100000              # double 1.9342813118337666E+25
+.LCPI0_10:
+	.quad	1                               # 0x1
+	.section	.rodata.cst4,"aM",@progbits,4
+	.p2align	2
+.LCPI0_1:
+	.long	0x5f000000                      # float 9.22337203E+18
+.LCPI0_2:
+	.long	0x4f000000                      # float 2.14748365E+9
+.LCPI0_3:
+	.long	2147483648                      # 0x80000000
+.LCPI0_13:
+	.long	1258291200                      # 0x4b000000
+.LCPI0_14:
+	.long	1392508928                      # 0x53000000
+.LCPI0_15:
+	.long	0x53000080                      # float 5.49764202E+11
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4
+.LCPI0_4:
+	.byte	0                               # 0x0
+	.byte	8                               # 0x8
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI0_8:
+	.long	1127219200                      # 0x43300000
+	.long	1160773632                      # 0x45300000
+	.long	0                               # 0x0
+	.long	0                               # 0x0
+.LCPI0_9:
+	.quad	0x4330000000000000              # double 4503599627370496
+	.quad	0x4530000000000000              # double 1.9342813113834067E+25
+.LCPI0_12:
+	.byte	0                               # 0x0
+	.byte	4                               # 0x4
+	.byte	8                               # 0x8
+	.byte	12                              # 0xc
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5
+.LCPI0_11:
+	.byte	0                               # 0x0
+	.byte	1                               # 0x1
+	.byte	4                               # 0x4
+	.byte	5                               # 0x5
+	.byte	8                               # 0x8
+	.byte	9                               # 0x9
+	.byte	12                              # 0xc
+	.byte	13                              # 0xd
+	.byte	8                               # 0x8
+	.byte	9                               # 0x9
+	.byte	12                              # 0xc
+	.byte	13                              # 0xd
+	.byte	12                              # 0xc
+	.byte	13                              # 0xd
+	.byte	14                              # 0xe
+	.byte	15                              # 0xf
+	.byte	16                              # 0x10
+	.byte	17                              # 0x11
+	.byte	20                              # 0x14
+	.byte	21                              # 0x15
+	.byte	24                              # 0x18
+	.byte	25                              # 0x19
+	.byte	28                              # 0x1c
+	.byte	29                              # 0x1d
+	.byte	24                              # 0x18
+	.byte	25                              # 0x19
+	.byte	28                              # 0x1c
+	.byte	29                              # 0x1d
+	.byte	28                              # 0x1c
+	.byte	29                              # 0x1d
+	.byte	30                              # 0x1e
+	.byte	31                              # 0x1f
+.LCPI0_16:
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.short	255                             # 0xff
+	.text
+	.globl	cast_type_numeric_avx2
+	.p2align	4, 0x90
+	.type	cast_type_numeric_avx2,@function
+cast_type_numeric_avx2:                 # @cast_type_numeric_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r14
+	push	rbx
+	and	rsp, -8
+	cmp	edi, 6
+	jg	.LBB0_13
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB0_25
+# %bb.2:
+	cmp	edi, 4
+	je	.LBB0_45
+# %bb.3:
+	cmp	edi, 5
+	je	.LBB0_53
+# %bb.4:
+	cmp	edi, 6
+	jne	.LBB0_1553
+# %bb.5:
+	cmp	esi, 6
+	jg	.LBB0_93
+# %bb.6:
+	cmp	esi, 3
+	jle	.LBB0_163
+# %bb.7:
+	cmp	esi, 4
+	je	.LBB0_263
+# %bb.8:
+	cmp	esi, 5
+	je	.LBB0_266
+# %bb.9:
+	cmp	esi, 6
+	jne	.LBB0_1553
+# %bb.10:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.11:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_12
+# %bb.443:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_742
+# %bb.444:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_742
+.LBB0_12:
+	xor	esi, esi
+.LBB0_1189:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1191
+.LBB0_1190:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1190
+.LBB0_1191:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1192:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1192
+	jmp	.LBB0_1553
+.LBB0_13:
+	cmp	edi, 8
+	jle	.LBB0_35
+# %bb.14:
+	cmp	edi, 9
+	je	.LBB0_61
+# %bb.15:
+	cmp	edi, 11
+	je	.LBB0_69
+# %bb.16:
+	cmp	edi, 12
+	jne	.LBB0_1553
+# %bb.17:
+	cmp	esi, 6
+	jg	.LBB0_100
+# %bb.18:
+	cmp	esi, 3
+	jle	.LBB0_168
+# %bb.19:
+	cmp	esi, 4
+	je	.LBB0_269
+# %bb.20:
+	cmp	esi, 5
+	je	.LBB0_272
+# %bb.21:
+	cmp	esi, 6
+	jne	.LBB0_1553
+# %bb.22:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.23:
+	mov	esi, r8d
+	lea	rdi, [rsi - 1]
+	mov	eax, esi
+	and	eax, 3
+	cmp	rdi, 3
+	jae	.LBB0_446
+# %bb.24:
+	xor	edi, edi
+	jmp	.LBB0_448
+.LBB0_25:
+	cmp	edi, 2
+	je	.LBB0_77
+# %bb.26:
+	cmp	edi, 3
+	jne	.LBB0_1553
+# %bb.27:
+	cmp	esi, 6
+	jg	.LBB0_107
+# %bb.28:
+	cmp	esi, 3
+	jle	.LBB0_173
+# %bb.29:
+	cmp	esi, 4
+	je	.LBB0_275
+# %bb.30:
+	cmp	esi, 5
+	je	.LBB0_278
+# %bb.31:
+	cmp	esi, 6
+	jne	.LBB0_1553
+# %bb.32:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.33:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_34
+# %bb.451:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_745
+# %bb.452:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_745
+.LBB0_34:
+	xor	esi, esi
+.LBB0_1197:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1199
+.LBB0_1198:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1198
+.LBB0_1199:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1200:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	movsx	eax, byte ptr [rdx + rsi + 2]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	movsx	eax, byte ptr [rdx + rsi + 3]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1200
+	jmp	.LBB0_1553
+.LBB0_35:
+	cmp	edi, 7
+	je	.LBB0_85
+# %bb.36:
+	cmp	edi, 8
+	jne	.LBB0_1553
+# %bb.37:
+	cmp	esi, 6
+	jg	.LBB0_114
+# %bb.38:
+	cmp	esi, 3
+	jle	.LBB0_178
+# %bb.39:
+	cmp	esi, 4
+	je	.LBB0_281
+# %bb.40:
+	cmp	esi, 5
+	je	.LBB0_284
+# %bb.41:
+	cmp	esi, 6
+	jne	.LBB0_1553
+# %bb.42:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.43:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_454
+# %bb.44:
+	xor	esi, esi
+	jmp	.LBB0_918
+.LBB0_45:
+	cmp	esi, 6
+	jg	.LBB0_121
+# %bb.46:
+	cmp	esi, 3
+	jle	.LBB0_183
+# %bb.47:
+	cmp	esi, 4
+	je	.LBB0_287
+# %bb.48:
+	cmp	esi, 5
+	je	.LBB0_290
+# %bb.49:
+	cmp	esi, 6
+	jne	.LBB0_1553
+# %bb.50:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.51:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_457
+# %bb.52:
+	xor	esi, esi
+	jmp	.LBB0_1024
+.LBB0_53:
+	cmp	esi, 6
+	jg	.LBB0_128
+# %bb.54:
+	cmp	esi, 3
+	jle	.LBB0_188
+# %bb.55:
+	cmp	esi, 4
+	je	.LBB0_293
+# %bb.56:
+	cmp	esi, 5
+	je	.LBB0_296
+# %bb.57:
+	cmp	esi, 6
+	jne	.LBB0_1553
+# %bb.58:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.59:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_460
+# %bb.60:
+	xor	esi, esi
+	jmp	.LBB0_1029
+.LBB0_61:
+	cmp	esi, 6
+	jg	.LBB0_135
+# %bb.62:
+	cmp	esi, 3
+	jle	.LBB0_193
+# %bb.63:
+	cmp	esi, 4
+	je	.LBB0_299
+# %bb.64:
+	cmp	esi, 5
+	je	.LBB0_302
+# %bb.65:
+	cmp	esi, 6
+	jne	.LBB0_1553
+# %bb.66:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.67:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_463
+# %bb.68:
+	xor	esi, esi
+	jmp	.LBB0_1034
+.LBB0_69:
+	cmp	esi, 6
+	jg	.LBB0_142
+# %bb.70:
+	cmp	esi, 3
+	jle	.LBB0_198
+# %bb.71:
+	cmp	esi, 4
+	je	.LBB0_305
+# %bb.72:
+	cmp	esi, 5
+	je	.LBB0_308
+# %bb.73:
+	cmp	esi, 6
+	jne	.LBB0_1553
+# %bb.74:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.75:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_466
+# %bb.76:
+	xor	esi, esi
+	jmp	.LBB0_1039
+.LBB0_77:
+	cmp	esi, 6
+	jg	.LBB0_149
+# %bb.78:
+	cmp	esi, 3
+	jle	.LBB0_203
+# %bb.79:
+	cmp	esi, 4
+	je	.LBB0_311
+# %bb.80:
+	cmp	esi, 5
+	je	.LBB0_314
+# %bb.81:
+	cmp	esi, 6
+	jne	.LBB0_1553
+# %bb.82:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.83:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_84
+# %bb.469:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_748
+# %bb.470:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_748
+.LBB0_84:
+	xor	esi, esi
+.LBB0_1205:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1207
+.LBB0_1206:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1206
+.LBB0_1207:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1208:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1208
+	jmp	.LBB0_1553
+.LBB0_85:
+	cmp	esi, 6
+	jg	.LBB0_156
+# %bb.86:
+	cmp	esi, 3
+	jle	.LBB0_208
+# %bb.87:
+	cmp	esi, 4
+	je	.LBB0_317
+# %bb.88:
+	cmp	esi, 5
+	je	.LBB0_320
+# %bb.89:
+	cmp	esi, 6
+	jne	.LBB0_1553
+# %bb.90:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.91:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_92
+# %bb.472:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_751
+# %bb.473:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_751
+.LBB0_92:
+	xor	esi, esi
+.LBB0_1213:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1215
+.LBB0_1214:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1214
+.LBB0_1215:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1216:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1216
+	jmp	.LBB0_1553
+.LBB0_93:
+	cmp	esi, 8
+	jle	.LBB0_213
+# %bb.94:
+	cmp	esi, 9
+	je	.LBB0_323
+# %bb.95:
+	cmp	esi, 11
+	je	.LBB0_326
+# %bb.96:
+	cmp	esi, 12
+	jne	.LBB0_1553
+# %bb.97:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.98:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_475
+# %bb.99:
+	xor	esi, esi
+	jmp	.LBB0_1044
+.LBB0_100:
+	cmp	esi, 8
+	jle	.LBB0_218
+# %bb.101:
+	cmp	esi, 9
+	je	.LBB0_329
+# %bb.102:
+	cmp	esi, 11
+	je	.LBB0_332
+# %bb.103:
+	cmp	esi, 12
+	jne	.LBB0_1553
+# %bb.104:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.105:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_106
+# %bb.478:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_754
+# %bb.479:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_754
+.LBB0_106:
+	xor	esi, esi
+.LBB0_1221:
+	mov	rax, rsi
+	not	rax
+	add	rax, r9
+	mov	rdi, r9
+	and	rdi, 7
+	je	.LBB0_1223
+.LBB0_1222:                             # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rbx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1222
+.LBB0_1223:
+	cmp	rax, 7
+	jb	.LBB0_1553
+.LBB0_1224:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 32]
+	mov	qword ptr [rcx + 8*rsi + 32], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 40]
+	mov	qword ptr [rcx + 8*rsi + 40], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 48]
+	mov	qword ptr [rcx + 8*rsi + 48], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 56]
+	mov	qword ptr [rcx + 8*rsi + 56], rax
+	add	rsi, 8
+	cmp	r9, rsi
+	jne	.LBB0_1224
+	jmp	.LBB0_1553
+.LBB0_107:
+	cmp	esi, 8
+	jle	.LBB0_223
+# %bb.108:
+	cmp	esi, 9
+	je	.LBB0_335
+# %bb.109:
+	cmp	esi, 11
+	je	.LBB0_338
+# %bb.110:
+	cmp	esi, 12
+	jne	.LBB0_1553
+# %bb.111:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.112:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_113
+# %bb.481:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_757
+# %bb.482:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_757
+.LBB0_113:
+	xor	esi, esi
+.LBB0_1229:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1231
+.LBB0_1230:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	vcvtsi2sd	xmm0, xmm4, eax
+	vmovsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1230
+.LBB0_1231:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1232:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	vcvtsi2sd	xmm0, xmm4, eax
+	vmovsd	qword ptr [rcx + 8*rsi], xmm0
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	vcvtsi2sd	xmm0, xmm4, eax
+	vmovsd	qword ptr [rcx + 8*rsi + 8], xmm0
+	movsx	eax, byte ptr [rdx + rsi + 2]
+	vcvtsi2sd	xmm0, xmm4, eax
+	vmovsd	qword ptr [rcx + 8*rsi + 16], xmm0
+	movsx	eax, byte ptr [rdx + rsi + 3]
+	vcvtsi2sd	xmm0, xmm4, eax
+	vmovsd	qword ptr [rcx + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1232
+	jmp	.LBB0_1553
+.LBB0_114:
+	cmp	esi, 8
+	jle	.LBB0_228
+# %bb.115:
+	cmp	esi, 9
+	je	.LBB0_341
+# %bb.116:
+	cmp	esi, 11
+	je	.LBB0_344
+# %bb.117:
+	cmp	esi, 12
+	jne	.LBB0_1553
+# %bb.118:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.119:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_484
+# %bb.120:
+	xor	esi, esi
+	jmp	.LBB0_923
+.LBB0_121:
+	cmp	esi, 8
+	jle	.LBB0_233
+# %bb.122:
+	cmp	esi, 9
+	je	.LBB0_347
+# %bb.123:
+	cmp	esi, 11
+	je	.LBB0_350
+# %bb.124:
+	cmp	esi, 12
+	jne	.LBB0_1553
+# %bb.125:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.126:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_487
+# %bb.127:
+	xor	esi, esi
+	jmp	.LBB0_1049
+.LBB0_128:
+	cmp	esi, 8
+	jle	.LBB0_238
+# %bb.129:
+	cmp	esi, 9
+	je	.LBB0_353
+# %bb.130:
+	cmp	esi, 11
+	je	.LBB0_356
+# %bb.131:
+	cmp	esi, 12
+	jne	.LBB0_1553
+# %bb.132:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.133:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_490
+# %bb.134:
+	xor	esi, esi
+	jmp	.LBB0_1054
+.LBB0_135:
+	cmp	esi, 8
+	jle	.LBB0_243
+# %bb.136:
+	cmp	esi, 9
+	je	.LBB0_359
+# %bb.137:
+	cmp	esi, 11
+	je	.LBB0_362
+# %bb.138:
+	cmp	esi, 12
+	jne	.LBB0_1553
+# %bb.139:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.140:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_493
+# %bb.141:
+	xor	esi, esi
+	jmp	.LBB0_1059
+.LBB0_142:
+	cmp	esi, 8
+	jle	.LBB0_248
+# %bb.143:
+	cmp	esi, 9
+	je	.LBB0_365
+# %bb.144:
+	cmp	esi, 11
+	je	.LBB0_368
+# %bb.145:
+	cmp	esi, 12
+	jne	.LBB0_1553
+# %bb.146:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.147:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_496
+# %bb.148:
+	xor	esi, esi
+	jmp	.LBB0_1064
+.LBB0_149:
+	cmp	esi, 8
+	jle	.LBB0_253
+# %bb.150:
+	cmp	esi, 9
+	je	.LBB0_371
+# %bb.151:
+	cmp	esi, 11
+	je	.LBB0_374
+# %bb.152:
+	cmp	esi, 12
+	jne	.LBB0_1553
+# %bb.153:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.154:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_155
+# %bb.499:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_760
+# %bb.500:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_760
+.LBB0_155:
+	xor	esi, esi
+.LBB0_1237:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1239
+.LBB0_1238:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	vcvtsi2sd	xmm0, xmm4, eax
+	vmovsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1238
+.LBB0_1239:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1240:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	vcvtsi2sd	xmm0, xmm4, eax
+	vmovsd	qword ptr [rcx + 8*rsi], xmm0
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	vcvtsi2sd	xmm0, xmm4, eax
+	vmovsd	qword ptr [rcx + 8*rsi + 8], xmm0
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	vcvtsi2sd	xmm0, xmm4, eax
+	vmovsd	qword ptr [rcx + 8*rsi + 16], xmm0
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	vcvtsi2sd	xmm0, xmm4, eax
+	vmovsd	qword ptr [rcx + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1240
+	jmp	.LBB0_1553
+.LBB0_156:
+	cmp	esi, 8
+	jle	.LBB0_258
+# %bb.157:
+	cmp	esi, 9
+	je	.LBB0_377
+# %bb.158:
+	cmp	esi, 11
+	je	.LBB0_380
+# %bb.159:
+	cmp	esi, 12
+	jne	.LBB0_1553
+# %bb.160:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.161:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_502
+# %bb.162:
+	xor	esi, esi
+	jmp	.LBB0_929
+.LBB0_163:
+	cmp	esi, 2
+	je	.LBB0_383
+# %bb.164:
+	cmp	esi, 3
+	jne	.LBB0_1553
+# %bb.165:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.166:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_167
+# %bb.505:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_763
+# %bb.506:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_763
+.LBB0_167:
+	xor	esi, esi
+.LBB0_1245:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1247
+.LBB0_1246:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1246
+.LBB0_1247:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1248:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 4]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 8]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 12]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1248
+	jmp	.LBB0_1553
+.LBB0_168:
+	cmp	esi, 2
+	je	.LBB0_386
+# %bb.169:
+	cmp	esi, 3
+	jne	.LBB0_1553
+# %bb.170:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.171:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_172
+# %bb.508:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_766
+# %bb.509:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_766
+.LBB0_172:
+	xor	esi, esi
+.LBB0_1253:
+	mov	rax, rsi
+	not	rax
+	add	rax, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1255
+.LBB0_1254:                             # =>This Inner Loop Header: Depth=1
+	vcvttsd2si	ebx, qword ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], bl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1254
+.LBB0_1255:
+	cmp	rax, 3
+	jb	.LBB0_1553
+.LBB0_1256:                             # =>This Inner Loop Header: Depth=1
+	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 8]
+	mov	byte ptr [rcx + rsi + 1], al
+	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 16]
+	mov	byte ptr [rcx + rsi + 2], al
+	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 24]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1256
+	jmp	.LBB0_1553
+.LBB0_173:
+	cmp	esi, 2
+	je	.LBB0_389
+# %bb.174:
+	cmp	esi, 3
+	jne	.LBB0_1553
+# %bb.175:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.176:
+	mov	r9d, r8d
+	cmp	r8d, 128
+	jb	.LBB0_177
+# %bb.511:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_769
+# %bb.512:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_769
+.LBB0_177:
+	xor	esi, esi
+.LBB0_1261:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1263
+.LBB0_1262:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1262
+.LBB0_1263:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1264:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1264
+	jmp	.LBB0_1553
+.LBB0_178:
+	cmp	esi, 2
+	je	.LBB0_392
+# %bb.179:
+	cmp	esi, 3
+	jne	.LBB0_1553
+# %bb.180:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.181:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_182
+# %bb.514:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_772
+# %bb.515:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_772
+.LBB0_182:
+	xor	esi, esi
+.LBB0_1269:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1271
+.LBB0_1270:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1270
+.LBB0_1271:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1272:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 8]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 16]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 24]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1272
+	jmp	.LBB0_1553
+.LBB0_183:
+	cmp	esi, 2
+	je	.LBB0_395
+# %bb.184:
+	cmp	esi, 3
+	jne	.LBB0_1553
+# %bb.185:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.186:
+	mov	r9d, r8d
+	cmp	r8d, 64
+	jb	.LBB0_187
+# %bb.517:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_775
+# %bb.518:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_775
+.LBB0_187:
+	xor	esi, esi
+.LBB0_1277:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1279
+.LBB0_1278:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1278
+.LBB0_1279:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1280:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 2]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 4]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 6]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1280
+	jmp	.LBB0_1553
+.LBB0_188:
+	cmp	esi, 2
+	je	.LBB0_398
+# %bb.189:
+	cmp	esi, 3
+	jne	.LBB0_1553
+# %bb.190:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.191:
+	mov	r9d, r8d
+	cmp	r8d, 64
+	jb	.LBB0_192
+# %bb.520:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_778
+# %bb.521:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_778
+.LBB0_192:
+	xor	esi, esi
+.LBB0_1285:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1287
+.LBB0_1286:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1286
+.LBB0_1287:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1288:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 2]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 4]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 6]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1288
+	jmp	.LBB0_1553
+.LBB0_193:
+	cmp	esi, 2
+	je	.LBB0_401
+# %bb.194:
+	cmp	esi, 3
+	jne	.LBB0_1553
+# %bb.195:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.196:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_197
+# %bb.523:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_781
+# %bb.524:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_781
+.LBB0_197:
+	xor	esi, esi
+.LBB0_1293:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1295
+.LBB0_1294:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1294
+.LBB0_1295:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1296:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 8]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 16]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 24]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1296
+	jmp	.LBB0_1553
+.LBB0_198:
+	cmp	esi, 2
+	je	.LBB0_404
+# %bb.199:
+	cmp	esi, 3
+	jne	.LBB0_1553
+# %bb.200:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.201:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_202
+# %bb.526:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_784
+# %bb.527:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_784
+.LBB0_202:
+	xor	esi, esi
+.LBB0_1301:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1303
+.LBB0_1302:                             # =>This Inner Loop Header: Depth=1
+	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1302
+.LBB0_1303:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1304:                             # =>This Inner Loop Header: Depth=1
+	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	byte ptr [rcx + rsi + 1], al
+	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	byte ptr [rcx + rsi + 2], al
+	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1304
+	jmp	.LBB0_1553
+.LBB0_203:
+	cmp	esi, 2
+	je	.LBB0_407
+# %bb.204:
+	cmp	esi, 3
+	jne	.LBB0_1553
+# %bb.205:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.206:
+	mov	r9d, r8d
+	cmp	r8d, 128
+	jb	.LBB0_207
+# %bb.529:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_787
+# %bb.530:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_787
+.LBB0_207:
+	xor	esi, esi
+.LBB0_1309:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1311
+.LBB0_1310:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1310
+.LBB0_1311:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1312:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1312
+	jmp	.LBB0_1553
+.LBB0_208:
+	cmp	esi, 2
+	je	.LBB0_410
+# %bb.209:
+	cmp	esi, 3
+	jne	.LBB0_1553
+# %bb.210:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.211:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_212
+# %bb.532:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_790
+# %bb.533:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_790
+.LBB0_212:
+	xor	esi, esi
+.LBB0_1317:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1319
+.LBB0_1318:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1318
+.LBB0_1319:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1320:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 4]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 8]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 12]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1320
+	jmp	.LBB0_1553
+.LBB0_213:
+	cmp	esi, 7
+	je	.LBB0_413
+# %bb.214:
+	cmp	esi, 8
+	jne	.LBB0_1553
+# %bb.215:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.216:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_535
+# %bb.217:
+	xor	esi, esi
+	jmp	.LBB0_934
+.LBB0_218:
+	cmp	esi, 7
+	je	.LBB0_416
+# %bb.219:
+	cmp	esi, 8
+	jne	.LBB0_1553
+# %bb.220:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.221:
+	mov	r9d, r8d
+	movabs	r11, -9223372036854775808
+	cmp	r8d, 4
+	jae	.LBB0_538
+# %bb.222:
+	xor	r14d, r14d
+	jmp	.LBB0_799
+.LBB0_223:
+	cmp	esi, 7
+	je	.LBB0_419
+# %bb.224:
+	cmp	esi, 8
+	jne	.LBB0_1553
+# %bb.225:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.226:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_227
+# %bb.540:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_801
+# %bb.541:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_801
+.LBB0_227:
+	xor	esi, esi
+.LBB0_1325:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1327
+.LBB0_1326:                             # =>This Inner Loop Header: Depth=1
+	movsx	rax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1326
+.LBB0_1327:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1328:                             # =>This Inner Loop Header: Depth=1
+	movsx	rax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	movsx	rax, byte ptr [rdx + rsi + 1]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	movsx	rax, byte ptr [rdx + rsi + 2]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	movsx	rax, byte ptr [rdx + rsi + 3]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1328
+	jmp	.LBB0_1553
+.LBB0_228:
+	cmp	esi, 7
+	je	.LBB0_422
+# %bb.229:
+	cmp	esi, 8
+	jne	.LBB0_1553
+# %bb.230:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.231:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_232
+# %bb.543:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_804
+# %bb.544:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_804
+.LBB0_232:
+	xor	esi, esi
+.LBB0_1333:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1335
+.LBB0_1334:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1334
+.LBB0_1335:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1336:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1336
+	jmp	.LBB0_1553
+.LBB0_233:
+	cmp	esi, 7
+	je	.LBB0_425
+# %bb.234:
+	cmp	esi, 8
+	jne	.LBB0_1553
+# %bb.235:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.236:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_546
+# %bb.237:
+	xor	esi, esi
+	jmp	.LBB0_939
+.LBB0_238:
+	cmp	esi, 7
+	je	.LBB0_428
+# %bb.239:
+	cmp	esi, 8
+	jne	.LBB0_1553
+# %bb.240:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.241:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_549
+# %bb.242:
+	xor	esi, esi
+	jmp	.LBB0_944
+.LBB0_243:
+	cmp	esi, 7
+	je	.LBB0_431
+# %bb.244:
+	cmp	esi, 8
+	jne	.LBB0_1553
+# %bb.245:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.246:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_247
+# %bb.552:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_807
+# %bb.553:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_807
+.LBB0_247:
+	xor	esi, esi
+.LBB0_1341:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1343
+.LBB0_1342:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1342
+.LBB0_1343:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1344:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1344
+	jmp	.LBB0_1553
+.LBB0_248:
+	cmp	esi, 7
+	je	.LBB0_434
+# %bb.249:
+	cmp	esi, 8
+	jne	.LBB0_1553
+# %bb.250:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.251:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_555
+# %bb.252:
+	xor	r14d, r14d
+	jmp	.LBB0_816
+.LBB0_253:
+	cmp	esi, 7
+	je	.LBB0_437
+# %bb.254:
+	cmp	esi, 8
+	jne	.LBB0_1553
+# %bb.255:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.256:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_257
+# %bb.557:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_818
+# %bb.558:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_818
+.LBB0_257:
+	xor	esi, esi
+.LBB0_1349:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1351
+.LBB0_1350:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1350
+.LBB0_1351:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1352:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1352
+	jmp	.LBB0_1553
+.LBB0_258:
+	cmp	esi, 7
+	je	.LBB0_440
+# %bb.259:
+	cmp	esi, 8
+	jne	.LBB0_1553
+# %bb.260:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.261:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_560
+# %bb.262:
+	xor	esi, esi
+	jmp	.LBB0_949
+.LBB0_263:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.264:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_563
+# %bb.265:
+	xor	esi, esi
+	jmp	.LBB0_1069
+.LBB0_266:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.267:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_566
+# %bb.268:
+	xor	esi, esi
+	jmp	.LBB0_1074
+.LBB0_269:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.270:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_569
+# %bb.271:
+	xor	esi, esi
+	jmp	.LBB0_1079
+.LBB0_272:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.273:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_572
+# %bb.274:
+	xor	esi, esi
+	jmp	.LBB0_1084
+.LBB0_275:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.276:
+	mov	r9d, r8d
+	cmp	r8d, 64
+	jb	.LBB0_277
+# %bb.575:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_821
+# %bb.576:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_821
+.LBB0_277:
+	xor	esi, esi
+.LBB0_1357:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1359
+.LBB0_1358:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1358
+.LBB0_1359:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1360:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movsx	eax, byte ptr [rdx + rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movsx	eax, byte ptr [rdx + rsi + 3]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1360
+	jmp	.LBB0_1553
+.LBB0_278:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.279:
+	mov	r9d, r8d
+	cmp	r8d, 64
+	jb	.LBB0_280
+# %bb.578:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_824
+# %bb.579:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_824
+.LBB0_280:
+	xor	esi, esi
+.LBB0_1365:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1367
+.LBB0_1366:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1366
+.LBB0_1367:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1368:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movsx	eax, byte ptr [rdx + rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movsx	eax, byte ptr [rdx + rsi + 3]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1368
+	jmp	.LBB0_1553
+.LBB0_281:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.282:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_581
+# %bb.283:
+	xor	esi, esi
+	jmp	.LBB0_954
+.LBB0_284:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.285:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_584
+# %bb.286:
+	xor	esi, esi
+	jmp	.LBB0_959
+.LBB0_287:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.288:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_289
+# %bb.587:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_827
+# %bb.588:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_827
+.LBB0_289:
+	xor	esi, esi
+.LBB0_1151:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1153
+.LBB0_1152:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1152
+.LBB0_1153:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1154:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1154
+	jmp	.LBB0_1553
+.LBB0_290:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.291:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_292
+# %bb.590:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_829
+# %bb.591:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_829
+.LBB0_292:
+	xor	esi, esi
+.LBB0_1161:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1163
+.LBB0_1162:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1162
+.LBB0_1163:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1164:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1164
+	jmp	.LBB0_1553
+.LBB0_293:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.294:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_295
+# %bb.593:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_831
+# %bb.594:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_831
+.LBB0_295:
+	xor	esi, esi
+.LBB0_1171:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1173
+.LBB0_1172:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1172
+.LBB0_1173:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1174:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1174
+	jmp	.LBB0_1553
+.LBB0_296:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.297:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_298
+# %bb.596:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_833
+# %bb.597:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_833
+.LBB0_298:
+	xor	esi, esi
+.LBB0_1181:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1183
+.LBB0_1182:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1182
+.LBB0_1183:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1184:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1184
+	jmp	.LBB0_1553
+.LBB0_299:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.300:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_599
+# %bb.301:
+	xor	esi, esi
+	jmp	.LBB0_964
+.LBB0_302:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.303:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_602
+# %bb.304:
+	xor	esi, esi
+	jmp	.LBB0_1089
+.LBB0_305:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.306:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_605
+# %bb.307:
+	xor	esi, esi
+	jmp	.LBB0_1094
+.LBB0_308:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.309:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_608
+# %bb.310:
+	xor	esi, esi
+	jmp	.LBB0_1099
+.LBB0_311:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.312:
+	mov	r9d, r8d
+	cmp	r8d, 64
+	jb	.LBB0_313
+# %bb.611:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_835
+# %bb.612:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_835
+.LBB0_313:
+	xor	esi, esi
+.LBB0_1373:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1375
+.LBB0_1374:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1374
+.LBB0_1375:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1376:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1376
+	jmp	.LBB0_1553
+.LBB0_314:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.315:
+	mov	r9d, r8d
+	cmp	r8d, 64
+	jb	.LBB0_316
+# %bb.614:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_838
+# %bb.615:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_838
+.LBB0_316:
+	xor	esi, esi
+.LBB0_1381:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1383
+.LBB0_1382:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1382
+.LBB0_1383:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1384:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1384
+	jmp	.LBB0_1553
+.LBB0_317:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.318:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_617
+# %bb.319:
+	xor	esi, esi
+	jmp	.LBB0_969
+.LBB0_320:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.321:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_620
+# %bb.322:
+	xor	esi, esi
+	jmp	.LBB0_974
+.LBB0_323:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.324:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_623
+# %bb.325:
+	xor	esi, esi
+	jmp	.LBB0_1104
+.LBB0_326:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.327:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_626
+# %bb.328:
+	xor	esi, esi
+	jmp	.LBB0_1109
+.LBB0_329:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.330:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_629
+# %bb.331:
+	xor	esi, esi
+	jmp	.LBB0_1114
+.LBB0_332:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.333:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_632
+# %bb.334:
+	xor	esi, esi
+	jmp	.LBB0_1119
+.LBB0_335:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.336:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_337
+# %bb.635:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_841
+# %bb.636:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_841
+.LBB0_337:
+	xor	esi, esi
+.LBB0_1389:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1391
+.LBB0_1390:                             # =>This Inner Loop Header: Depth=1
+	movsx	rax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1390
+.LBB0_1391:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1392:                             # =>This Inner Loop Header: Depth=1
+	movsx	rax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	movsx	rax, byte ptr [rdx + rsi + 1]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	movsx	rax, byte ptr [rdx + rsi + 2]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	movsx	rax, byte ptr [rdx + rsi + 3]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1392
+	jmp	.LBB0_1553
+.LBB0_338:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.339:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_340
+# %bb.638:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_844
+# %bb.639:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_844
+.LBB0_340:
+	xor	esi, esi
+.LBB0_1397:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1399
+.LBB0_1398:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	vcvtsi2ss	xmm0, xmm4, eax
+	vmovss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1398
+.LBB0_1399:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1400:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	vcvtsi2ss	xmm0, xmm4, eax
+	vmovss	dword ptr [rcx + 4*rsi], xmm0
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	vcvtsi2ss	xmm0, xmm4, eax
+	vmovss	dword ptr [rcx + 4*rsi + 4], xmm0
+	movsx	eax, byte ptr [rdx + rsi + 2]
+	vcvtsi2ss	xmm0, xmm4, eax
+	vmovss	dword ptr [rcx + 4*rsi + 8], xmm0
+	movsx	eax, byte ptr [rdx + rsi + 3]
+	vcvtsi2ss	xmm0, xmm4, eax
+	vmovss	dword ptr [rcx + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1400
+	jmp	.LBB0_1553
+.LBB0_341:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.342:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_343
+# %bb.641:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_847
+# %bb.642:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_847
+.LBB0_343:
+	xor	esi, esi
+.LBB0_1405:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1407
+.LBB0_1406:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1406
+.LBB0_1407:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1408:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1408
+	jmp	.LBB0_1553
+.LBB0_344:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.345:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_644
+# %bb.346:
+	xor	esi, esi
+	jmp	.LBB0_858
+.LBB0_347:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.348:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_646
+# %bb.349:
+	xor	esi, esi
+	jmp	.LBB0_979
+.LBB0_350:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.351:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_649
+# %bb.352:
+	xor	esi, esi
+	jmp	.LBB0_1124
+.LBB0_353:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.354:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_652
+# %bb.355:
+	xor	esi, esi
+	jmp	.LBB0_1129
+.LBB0_356:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.357:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_655
+# %bb.358:
+	xor	esi, esi
+	jmp	.LBB0_1134
+.LBB0_359:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.360:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_361
+# %bb.658:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_860
+# %bb.659:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_860
+.LBB0_361:
+	xor	esi, esi
+.LBB0_1413:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1415
+.LBB0_1414:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1414
+.LBB0_1415:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1416:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1416
+	jmp	.LBB0_1553
+.LBB0_362:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.363:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_661
+# %bb.364:
+	xor	esi, esi
+	jmp	.LBB0_1139
+.LBB0_365:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.366:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_664
+# %bb.367:
+	xor	esi, esi
+	jmp	.LBB0_1144
+.LBB0_368:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.369:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_370
+# %bb.667:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_863
+# %bb.668:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_863
+.LBB0_370:
+	xor	esi, esi
+.LBB0_1421:
+	mov	rax, rsi
+	not	rax
+	add	rax, r9
+	mov	rdi, r9
+	and	rdi, 7
+	je	.LBB0_1423
+.LBB0_1422:                             # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], ebx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1422
+.LBB0_1423:
+	cmp	rax, 7
+	jb	.LBB0_1553
+.LBB0_1424:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 16]
+	mov	dword ptr [rcx + 4*rsi + 16], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 20]
+	mov	dword ptr [rcx + 4*rsi + 20], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 24]
+	mov	dword ptr [rcx + 4*rsi + 24], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 28]
+	mov	dword ptr [rcx + 4*rsi + 28], eax
+	add	rsi, 8
+	cmp	r9, rsi
+	jne	.LBB0_1424
+	jmp	.LBB0_1553
+.LBB0_371:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.372:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_373
+# %bb.670:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_866
+# %bb.671:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_866
+.LBB0_373:
+	xor	esi, esi
+.LBB0_1429:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1431
+.LBB0_1430:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1430
+.LBB0_1431:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1432:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1432
+	jmp	.LBB0_1553
+.LBB0_374:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.375:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_376
+# %bb.673:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_869
+# %bb.674:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_869
+.LBB0_376:
+	xor	esi, esi
+.LBB0_1437:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1439
+.LBB0_1438:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	vcvtsi2ss	xmm0, xmm4, eax
+	vmovss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1438
+.LBB0_1439:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1440:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	vcvtsi2ss	xmm0, xmm4, eax
+	vmovss	dword ptr [rcx + 4*rsi], xmm0
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	vcvtsi2ss	xmm0, xmm4, eax
+	vmovss	dword ptr [rcx + 4*rsi + 4], xmm0
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	vcvtsi2ss	xmm0, xmm4, eax
+	vmovss	dword ptr [rcx + 4*rsi + 8], xmm0
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	vcvtsi2ss	xmm0, xmm4, eax
+	vmovss	dword ptr [rcx + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1440
+	jmp	.LBB0_1553
+.LBB0_377:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.378:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_676
+# %bb.379:
+	xor	esi, esi
+	jmp	.LBB0_984
+.LBB0_380:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.381:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_679
+# %bb.382:
+	xor	esi, esi
+	jmp	.LBB0_989
+.LBB0_383:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.384:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_385
+# %bb.682:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_872
+# %bb.683:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_872
+.LBB0_385:
+	xor	esi, esi
+.LBB0_1445:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1447
+.LBB0_1446:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1446
+.LBB0_1447:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1448:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 4]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 8]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 12]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1448
+	jmp	.LBB0_1553
+.LBB0_386:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.387:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_388
+# %bb.685:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_875
+# %bb.686:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_875
+.LBB0_388:
+	xor	esi, esi
+.LBB0_1453:
+	mov	rax, rsi
+	not	rax
+	add	rax, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1455
+.LBB0_1454:                             # =>This Inner Loop Header: Depth=1
+	vcvttsd2si	ebx, qword ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], bl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1454
+.LBB0_1455:
+	cmp	rax, 3
+	jb	.LBB0_1553
+.LBB0_1456:                             # =>This Inner Loop Header: Depth=1
+	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 8]
+	mov	byte ptr [rcx + rsi + 1], al
+	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 16]
+	mov	byte ptr [rcx + rsi + 2], al
+	vcvttsd2si	eax, qword ptr [rdx + 8*rsi + 24]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1456
+	jmp	.LBB0_1553
+.LBB0_389:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.390:
+	mov	r9d, r8d
+	cmp	r8d, 128
+	jb	.LBB0_391
+# %bb.688:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_878
+# %bb.689:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_878
+.LBB0_391:
+	xor	esi, esi
+.LBB0_1461:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1463
+.LBB0_1462:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1462
+.LBB0_1463:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1464:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1464
+	jmp	.LBB0_1553
+.LBB0_392:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.393:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_394
+# %bb.691:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_881
+# %bb.692:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_881
+.LBB0_394:
+	xor	esi, esi
+.LBB0_1469:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1471
+.LBB0_1470:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1470
+.LBB0_1471:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1472:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 8]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 16]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 24]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1472
+	jmp	.LBB0_1553
+.LBB0_395:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.396:
+	mov	r9d, r8d
+	cmp	r8d, 64
+	jb	.LBB0_397
+# %bb.694:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_884
+# %bb.695:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_884
+.LBB0_397:
+	xor	esi, esi
+.LBB0_1477:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1479
+.LBB0_1478:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1478
+.LBB0_1479:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1480:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 2]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 4]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 6]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1480
+	jmp	.LBB0_1553
+.LBB0_398:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.399:
+	mov	r9d, r8d
+	cmp	r8d, 64
+	jb	.LBB0_400
+# %bb.697:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_887
+# %bb.698:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_887
+.LBB0_400:
+	xor	esi, esi
+.LBB0_1485:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1487
+.LBB0_1486:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1486
+.LBB0_1487:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1488:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 2]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 4]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 6]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1488
+	jmp	.LBB0_1553
+.LBB0_401:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.402:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_403
+# %bb.700:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_890
+# %bb.701:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_890
+.LBB0_403:
+	xor	esi, esi
+.LBB0_1493:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1495
+.LBB0_1494:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1494
+.LBB0_1495:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1496:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 8]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 16]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 24]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1496
+	jmp	.LBB0_1553
+.LBB0_404:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.405:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_406
+# %bb.703:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_893
+# %bb.704:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_893
+.LBB0_406:
+	xor	esi, esi
+.LBB0_1501:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1503
+.LBB0_1502:                             # =>This Inner Loop Header: Depth=1
+	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1502
+.LBB0_1503:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1504:                             # =>This Inner Loop Header: Depth=1
+	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	byte ptr [rcx + rsi + 1], al
+	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	byte ptr [rcx + rsi + 2], al
+	vcvttss2si	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1504
+	jmp	.LBB0_1553
+.LBB0_407:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.408:
+	mov	r9d, r8d
+	cmp	r8d, 128
+	jb	.LBB0_409
+# %bb.706:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_896
+# %bb.707:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_896
+.LBB0_409:
+	xor	esi, esi
+.LBB0_1509:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1511
+.LBB0_1510:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1510
+.LBB0_1511:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1512:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1512
+	jmp	.LBB0_1553
+.LBB0_410:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.411:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_412
+# %bb.709:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_899
+# %bb.710:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_899
+.LBB0_412:
+	xor	esi, esi
+.LBB0_1517:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1519
+.LBB0_1518:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1518
+.LBB0_1519:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1520:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 4]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 8]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 12]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1520
+	jmp	.LBB0_1553
+.LBB0_413:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.414:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_415
+# %bb.712:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_902
+# %bb.713:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_902
+.LBB0_415:
+	xor	esi, esi
+.LBB0_1525:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1527
+.LBB0_1526:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1526
+.LBB0_1527:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1528:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1528
+	jmp	.LBB0_1553
+.LBB0_416:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.417:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_715
+# %bb.418:
+	xor	esi, esi
+	jmp	.LBB0_994
+.LBB0_419:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.420:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_421
+# %bb.718:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_905
+# %bb.719:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_905
+.LBB0_421:
+	xor	esi, esi
+.LBB0_1533:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1535
+.LBB0_1534:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1534
+.LBB0_1535:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1536:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	movsx	eax, byte ptr [rdx + rsi + 2]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	movsx	eax, byte ptr [rdx + rsi + 3]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1536
+	jmp	.LBB0_1553
+.LBB0_422:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.423:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_721
+# %bb.424:
+	xor	esi, esi
+	jmp	.LBB0_999
+.LBB0_425:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.426:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_724
+# %bb.427:
+	xor	esi, esi
+	jmp	.LBB0_1004
+.LBB0_428:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.429:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_727
+# %bb.430:
+	xor	esi, esi
+	jmp	.LBB0_1009
+.LBB0_431:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.432:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jae	.LBB0_730
+# %bb.433:
+	xor	esi, esi
+	jmp	.LBB0_1014
+.LBB0_434:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.435:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jae	.LBB0_733
+# %bb.436:
+	xor	esi, esi
+	jmp	.LBB0_1019
+.LBB0_437:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.438:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_439
+# %bb.736:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_908
+# %bb.737:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_908
+.LBB0_439:
+	xor	esi, esi
+.LBB0_1541:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1543
+.LBB0_1542:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1542
+.LBB0_1543:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1544:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1544
+	jmp	.LBB0_1553
+.LBB0_440:
+	test	r8d, r8d
+	jle	.LBB0_1553
+# %bb.441:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_442
+# %bb.739:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_911
+# %bb.740:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_911
+.LBB0_442:
+	xor	esi, esi
+.LBB0_1549:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1551
+.LBB0_1550:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1550
+.LBB0_1551:
+	cmp	r8, 3
+	jb	.LBB0_1553
+.LBB0_1552:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1552
+	jmp	.LBB0_1553
+.LBB0_446:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_447:                              # =>This Inner Loop Header: Depth=1
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi]
+	mov	dword ptr [rcx + 4*rdi], ebx
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 8]
+	mov	dword ptr [rcx + 4*rdi + 4], ebx
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 16]
+	mov	dword ptr [rcx + 4*rdi + 8], ebx
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 24]
+	mov	dword ptr [rcx + 4*rdi + 12], ebx
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_447
+.LBB0_448:
+	test	rax, rax
+	je	.LBB0_1553
+# %bb.449:
+	lea	rcx, [rcx + 4*rdi]
+	lea	rdx, [rdx + 8*rdi]
+	xor	esi, esi
+.LBB0_450:                              # =>This Inner Loop Header: Depth=1
+	vcvttsd2si	rdi, qword ptr [rdx + 8*rsi]
+	mov	dword ptr [rcx + 4*rsi], edi
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB0_450
+	jmp	.LBB0_1553
+.LBB0_454:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_914
+# %bb.455:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_456:                              # =>This Inner Loop Header: Depth=1
+	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
+	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
+	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
+	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
+	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
+	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
+	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
+	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
+	vmovups	xmm0, xmmword ptr [rdx + 8*rdi + 128]
+	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 160]
+	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 192]
+	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 224]
+	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 144], 136 # xmm0 = xmm0[0,2],mem[0,2]
+	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 176], 136 # xmm1 = xmm1[0,2],mem[0,2]
+	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 208], 136 # xmm2 = xmm2[0,2],mem[0,2]
+	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 240], 136 # xmm3 = xmm3[0,2],mem[0,2]
+	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_456
+	jmp	.LBB0_915
+.LBB0_457:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1020
+# %bb.458:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_459:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_459
+	jmp	.LBB0_1021
+.LBB0_460:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1025
+# %bb.461:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_462:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
+	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
+	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64]
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80]
+	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96]
+	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112]
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_462
+	jmp	.LBB0_1026
+.LBB0_463:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1030
+# %bb.464:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_465:                              # =>This Inner Loop Header: Depth=1
+	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
+	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
+	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
+	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
+	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
+	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
+	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
+	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
+	vmovups	xmm0, xmmword ptr [rdx + 8*rdi + 128]
+	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 160]
+	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 192]
+	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 224]
+	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 144], 136 # xmm0 = xmm0[0,2],mem[0,2]
+	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 176], 136 # xmm1 = xmm1[0,2],mem[0,2]
+	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 208], 136 # xmm2 = xmm2[0,2],mem[0,2]
+	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 240], 136 # xmm3 = xmm3[0,2],mem[0,2]
+	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_465
+	jmp	.LBB0_1031
+.LBB0_466:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1035
+# %bb.467:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vbroadcastss	xmm0, dword ptr [rip + .LCPI0_2] # xmm0 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
+	vbroadcastss	xmm1, dword ptr [rip + .LCPI0_3] # xmm1 = [2147483648,2147483648,2147483648,2147483648]
+.LBB0_468:                              # =>This Inner Loop Header: Depth=1
+	vmovups	xmm2, xmmword ptr [rdx + 4*rdi]
+	vmovups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	vmovups	xmm4, xmmword ptr [rdx + 4*rdi + 32]
+	vcmpltps	xmm5, xmm2, xmm0
+	vsubps	xmm6, xmm2, xmm0
+	vcvttps2dq	xmm6, xmm6
+	vxorps	xmm6, xmm6, xmm1
+	vcvttps2dq	xmm2, xmm2
+	vblendvps	xmm2, xmm6, xmm2, xmm5
+	vmovups	xmm5, xmmword ptr [rdx + 4*rdi + 48]
+	vcmpltps	xmm6, xmm3, xmm0
+	vsubps	xmm7, xmm3, xmm0
+	vcvttps2dq	xmm7, xmm7
+	vxorps	xmm7, xmm7, xmm1
+	vcvttps2dq	xmm3, xmm3
+	vblendvps	xmm3, xmm7, xmm3, xmm6
+	vcmpltps	xmm6, xmm4, xmm0
+	vsubps	xmm7, xmm4, xmm0
+	vcvttps2dq	xmm7, xmm7
+	vxorps	xmm7, xmm7, xmm1
+	vcvttps2dq	xmm4, xmm4
+	vblendvps	xmm4, xmm7, xmm4, xmm6
+	vcmpltps	xmm6, xmm5, xmm0
+	vsubps	xmm7, xmm5, xmm0
+	vcvttps2dq	xmm7, xmm7
+	vxorps	xmm7, xmm7, xmm1
+	vcvttps2dq	xmm5, xmm5
+	vblendvps	xmm5, xmm7, xmm5, xmm6
+	vmovups	xmmword ptr [rcx + 4*rdi], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm3
+	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm4
+	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm5
+	vmovups	xmm2, xmmword ptr [rdx + 4*rdi + 64]
+	vmovups	xmm3, xmmword ptr [rdx + 4*rdi + 80]
+	vmovups	xmm4, xmmword ptr [rdx + 4*rdi + 96]
+	vcmpltps	xmm5, xmm2, xmm0
+	vsubps	xmm6, xmm2, xmm0
+	vcvttps2dq	xmm6, xmm6
+	vxorps	xmm6, xmm6, xmm1
+	vcvttps2dq	xmm2, xmm2
+	vblendvps	xmm2, xmm6, xmm2, xmm5
+	vmovups	xmm5, xmmword ptr [rdx + 4*rdi + 112]
+	vcmpltps	xmm6, xmm3, xmm0
+	vsubps	xmm7, xmm3, xmm0
+	vcvttps2dq	xmm7, xmm7
+	vxorps	xmm7, xmm7, xmm1
+	vcvttps2dq	xmm3, xmm3
+	vblendvps	xmm3, xmm7, xmm3, xmm6
+	vcmpltps	xmm6, xmm4, xmm0
+	vsubps	xmm7, xmm4, xmm0
+	vcvttps2dq	xmm7, xmm7
+	vxorps	xmm7, xmm7, xmm1
+	vcvttps2dq	xmm4, xmm4
+	vblendvps	xmm4, xmm7, xmm4, xmm6
+	vcmpltps	xmm6, xmm5, xmm0
+	vsubps	xmm7, xmm5, xmm0
+	vcvttps2dq	xmm7, xmm7
+	vxorps	xmm7, xmm7, xmm1
+	vcvttps2dq	xmm5, xmm5
+	vblendvps	xmm5, xmm7, xmm5, xmm6
+	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm3
+	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm4
+	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm5
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_468
+	jmp	.LBB0_1036
+.LBB0_475:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1040
+# %bb.476:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_5] # ymm0 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
+.LBB0_477:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 16] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 32] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm4, xmmword ptr [rdx + 4*rdi + 48] # ymm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpor	ymm1, ymm1, ymm0
+	vsubpd	ymm1, ymm1, ymm0
+	vpor	ymm2, ymm2, ymm0
+	vsubpd	ymm2, ymm2, ymm0
+	vpor	ymm3, ymm3, ymm0
+	vsubpd	ymm3, ymm3, ymm0
+	vpor	ymm4, ymm4, ymm0
+	vsubpd	ymm4, ymm4, ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm4
+	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 64] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 80] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 96] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm4, xmmword ptr [rdx + 4*rdi + 112] # ymm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpor	ymm1, ymm1, ymm0
+	vsubpd	ymm1, ymm1, ymm0
+	vpor	ymm2, ymm2, ymm0
+	vsubpd	ymm2, ymm2, ymm0
+	vpor	ymm3, ymm3, ymm0
+	vsubpd	ymm3, ymm3, ymm0
+	vpor	ymm4, ymm4, ymm0
+	vsubpd	ymm4, ymm4, ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_477
+	jmp	.LBB0_1041
+.LBB0_484:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_919
+# %bb.485:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_5] # ymm0 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
+	vpxor	xmm1, xmm1, xmm1
+	vpbroadcastq	ymm2, qword ptr [rip + .LCPI0_6] # ymm2 = [4985484787499139072,4985484787499139072,4985484787499139072,4985484787499139072]
+	vbroadcastsd	ymm3, qword ptr [rip + .LCPI0_7] # ymm3 = [1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25]
+.LBB0_486:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm6, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm7, ymmword ptr [rdx + 8*rdi + 96]
+	vpblendd	ymm8, ymm4, ymm1, 170           # ymm8 = ymm4[0],ymm1[1],ymm4[2],ymm1[3],ymm4[4],ymm1[5],ymm4[6],ymm1[7]
+	vpor	ymm8, ymm8, ymm0
+	vpsrlq	ymm4, ymm4, 32
+	vpor	ymm4, ymm4, ymm2
+	vsubpd	ymm4, ymm4, ymm3
+	vaddpd	ymm4, ymm8, ymm4
+	vpblendd	ymm8, ymm5, ymm1, 170           # ymm8 = ymm5[0],ymm1[1],ymm5[2],ymm1[3],ymm5[4],ymm1[5],ymm5[6],ymm1[7]
+	vpor	ymm8, ymm8, ymm0
+	vpsrlq	ymm5, ymm5, 32
+	vpor	ymm5, ymm5, ymm2
+	vsubpd	ymm5, ymm5, ymm3
+	vaddpd	ymm5, ymm8, ymm5
+	vpblendd	ymm8, ymm6, ymm1, 170           # ymm8 = ymm6[0],ymm1[1],ymm6[2],ymm1[3],ymm6[4],ymm1[5],ymm6[6],ymm1[7]
+	vpor	ymm8, ymm8, ymm0
+	vpsrlq	ymm6, ymm6, 32
+	vpor	ymm6, ymm6, ymm2
+	vsubpd	ymm6, ymm6, ymm3
+	vaddpd	ymm6, ymm8, ymm6
+	vpblendd	ymm8, ymm7, ymm1, 170           # ymm8 = ymm7[0],ymm1[1],ymm7[2],ymm1[3],ymm7[4],ymm1[5],ymm7[6],ymm1[7]
+	vpor	ymm8, ymm8, ymm0
+	vpsrlq	ymm7, ymm7, 32
+	vpor	ymm7, ymm7, ymm2
+	vsubpd	ymm7, ymm7, ymm3
+	vaddpd	ymm7, ymm8, ymm7
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm4
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm5
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm6
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm7
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm5, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm6, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm7, ymmword ptr [rdx + 8*rdi + 224]
+	vpblendd	ymm8, ymm4, ymm1, 170           # ymm8 = ymm4[0],ymm1[1],ymm4[2],ymm1[3],ymm4[4],ymm1[5],ymm4[6],ymm1[7]
+	vpor	ymm8, ymm8, ymm0
+	vpsrlq	ymm4, ymm4, 32
+	vpor	ymm4, ymm4, ymm2
+	vsubpd	ymm4, ymm4, ymm3
+	vaddpd	ymm4, ymm8, ymm4
+	vpblendd	ymm8, ymm5, ymm1, 170           # ymm8 = ymm5[0],ymm1[1],ymm5[2],ymm1[3],ymm5[4],ymm1[5],ymm5[6],ymm1[7]
+	vpor	ymm8, ymm8, ymm0
+	vpsrlq	ymm5, ymm5, 32
+	vpor	ymm5, ymm5, ymm2
+	vsubpd	ymm5, ymm5, ymm3
+	vaddpd	ymm5, ymm8, ymm5
+	vpblendd	ymm8, ymm6, ymm1, 170           # ymm8 = ymm6[0],ymm1[1],ymm6[2],ymm1[3],ymm6[4],ymm1[5],ymm6[6],ymm1[7]
+	vpor	ymm8, ymm8, ymm0
+	vpsrlq	ymm6, ymm6, 32
+	vpor	ymm6, ymm6, ymm2
+	vsubpd	ymm6, ymm6, ymm3
+	vaddpd	ymm6, ymm8, ymm6
+	vpblendd	ymm8, ymm7, ymm1, 170           # ymm8 = ymm7[0],ymm1[1],ymm7[2],ymm1[3],ymm7[4],ymm1[5],ymm7[6],ymm1[7]
+	vpor	ymm8, ymm8, ymm0
+	vpsrlq	ymm7, ymm7, 32
+	vpor	ymm7, ymm7, ymm2
+	vsubpd	ymm7, ymm7, ymm3
+	vaddpd	ymm7, ymm8, ymm7
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm4
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm5
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm6
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm7
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_486
+	jmp	.LBB0_920
+.LBB0_487:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1045
+# %bb.488:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_489:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxwd	xmm0, qword ptr [rdx + 2*rdi] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxwd	xmm2, qword ptr [rdx + 2*rdi + 16] # xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxwd	xmm3, qword ptr [rdx + 2*rdi + 24] # xmm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vcvtdq2pd	ymm0, xmm0
+	vcvtdq2pd	ymm1, xmm1
+	vcvtdq2pd	ymm2, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovzxwd	xmm0, qword ptr [rdx + 2*rdi + 32] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 40] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxwd	xmm2, qword ptr [rdx + 2*rdi + 48] # xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxwd	xmm3, qword ptr [rdx + 2*rdi + 56] # xmm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vcvtdq2pd	ymm0, xmm0
+	vcvtdq2pd	ymm1, xmm1
+	vcvtdq2pd	ymm2, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_489
+	jmp	.LBB0_1046
+.LBB0_490:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1050
+# %bb.491:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_492:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
+	vpmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
+	vpmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 16]
+	vpmovsxwd	xmm3, qword ptr [rdx + 2*rdi + 24]
+	vcvtdq2pd	ymm0, xmm0
+	vcvtdq2pd	ymm1, xmm1
+	vcvtdq2pd	ymm2, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 32]
+	vpmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 40]
+	vpmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 48]
+	vpmovsxwd	xmm3, qword ptr [rdx + 2*rdi + 56]
+	vcvtdq2pd	ymm0, xmm0
+	vcvtdq2pd	ymm1, xmm1
+	vcvtdq2pd	ymm2, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_492
+	jmp	.LBB0_1051
+.LBB0_493:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1055
+# %bb.494:
+	mov	r10, r8
+	and	r10, -2
+	neg	r10
+	xor	edi, edi
+.LBB0_495:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	vpextrq	rax, xmm0, 1
+	vcvtsi2sd	xmm2, xmm11, rax
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
+	vmovq	rax, xmm0
+	vcvtsi2sd	xmm0, xmm11, rax
+	vpextrq	rax, xmm1, 1
+	vcvtsi2sd	xmm4, xmm11, rax
+	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 48]
+	vmovq	rax, xmm1
+	vcvtsi2sd	xmm1, xmm11, rax
+	vpextrq	rax, xmm5, 1
+	vcvtsi2sd	xmm6, xmm11, rax
+	vunpcklpd	xmm8, xmm0, xmm2        # xmm8 = xmm0[0],xmm2[0]
+	vmovq	rax, xmm5
+	vcvtsi2sd	xmm2, xmm11, rax
+	vpextrq	rax, xmm3, 1
+	vcvtsi2sd	xmm5, xmm11, rax
+	vunpcklpd	xmm10, xmm1, xmm4       # xmm10 = xmm1[0],xmm4[0]
+	vmovq	rax, xmm3
+	vcvtsi2sd	xmm3, xmm11, rax
+	vunpcklpd	xmm9, xmm2, xmm6        # xmm9 = xmm2[0],xmm6[0]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 80]
+	vpextrq	rax, xmm4, 1
+	vunpcklpd	xmm3, xmm3, xmm5        # xmm3 = xmm3[0],xmm5[0]
+	vcvtsi2sd	xmm5, xmm11, rax
+	vmovq	rax, xmm4
+	vcvtsi2sd	xmm4, xmm11, rax
+	vunpcklpd	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0]
+	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 64]
+	vpextrq	rax, xmm5, 1
+	vcvtsi2sd	xmm6, xmm11, rax
+	vmovq	rax, xmm5
+	vcvtsi2sd	xmm5, xmm11, rax
+	vmovdqu	xmm7, xmmword ptr [rdx + 8*rdi + 112]
+	vpextrq	rax, xmm7, 1
+	vcvtsi2sd	xmm0, xmm11, rax
+	vmovq	rax, xmm7
+	vcvtsi2sd	xmm7, xmm11, rax
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 96]
+	vpextrq	rax, xmm2, 1
+	vcvtsi2sd	xmm1, xmm11, rax
+	vunpcklpd	xmm5, xmm5, xmm6        # xmm5 = xmm5[0],xmm6[0]
+	vmovq	rax, xmm2
+	vcvtsi2sd	xmm2, xmm11, rax
+	vunpcklpd	xmm0, xmm7, xmm0        # xmm0 = xmm7[0],xmm0[0]
+	vunpcklpd	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	vmovupd	xmmword ptr [rcx + 8*rdi + 16], xmm10
+	vmovupd	xmmword ptr [rcx + 8*rdi], xmm8
+	vmovupd	xmmword ptr [rcx + 8*rdi + 32], xmm3
+	vmovupd	xmmword ptr [rcx + 8*rdi + 48], xmm9
+	vmovupd	xmmword ptr [rcx + 8*rdi + 64], xmm5
+	vmovupd	xmmword ptr [rcx + 8*rdi + 80], xmm4
+	vmovupd	xmmword ptr [rcx + 8*rdi + 96], xmm1
+	vmovupd	xmmword ptr [rcx + 8*rdi + 112], xmm0
+	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 144]
+	vpextrq	rax, xmm0, 1
+	vcvtsi2sd	xmm2, xmm11, rax
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
+	vmovq	rax, xmm0
+	vcvtsi2sd	xmm0, xmm11, rax
+	vpextrq	rax, xmm1, 1
+	vcvtsi2sd	xmm4, xmm11, rax
+	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 176]
+	vmovq	rax, xmm1
+	vcvtsi2sd	xmm1, xmm11, rax
+	vpextrq	rax, xmm5, 1
+	vcvtsi2sd	xmm6, xmm11, rax
+	vunpcklpd	xmm8, xmm0, xmm2        # xmm8 = xmm0[0],xmm2[0]
+	vmovq	rax, xmm5
+	vcvtsi2sd	xmm2, xmm11, rax
+	vpextrq	rax, xmm3, 1
+	vcvtsi2sd	xmm5, xmm11, rax
+	vunpcklpd	xmm10, xmm1, xmm4       # xmm10 = xmm1[0],xmm4[0]
+	vmovq	rax, xmm3
+	vcvtsi2sd	xmm3, xmm11, rax
+	vunpcklpd	xmm9, xmm2, xmm6        # xmm9 = xmm2[0],xmm6[0]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 208]
+	vpextrq	rax, xmm4, 1
+	vunpcklpd	xmm3, xmm3, xmm5        # xmm3 = xmm3[0],xmm5[0]
+	vcvtsi2sd	xmm5, xmm11, rax
+	vmovq	rax, xmm4
+	vcvtsi2sd	xmm4, xmm11, rax
+	vunpcklpd	xmm4, xmm4, xmm5        # xmm4 = xmm4[0],xmm5[0]
+	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 192]
+	vpextrq	rax, xmm5, 1
+	vcvtsi2sd	xmm6, xmm11, rax
+	vmovq	rax, xmm5
+	vcvtsi2sd	xmm5, xmm11, rax
+	vmovdqu	xmm7, xmmword ptr [rdx + 8*rdi + 240]
+	vpextrq	rax, xmm7, 1
+	vcvtsi2sd	xmm0, xmm11, rax
+	vmovq	rax, xmm7
+	vcvtsi2sd	xmm7, xmm11, rax
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 224]
+	vpextrq	rax, xmm2, 1
+	vcvtsi2sd	xmm1, xmm11, rax
+	vunpcklpd	xmm5, xmm5, xmm6        # xmm5 = xmm5[0],xmm6[0]
+	vmovq	rax, xmm2
+	vcvtsi2sd	xmm2, xmm11, rax
+	vunpcklpd	xmm0, xmm7, xmm0        # xmm0 = xmm7[0],xmm0[0]
+	vunpcklpd	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	vmovupd	xmmword ptr [rcx + 8*rdi + 144], xmm10
+	vmovupd	xmmword ptr [rcx + 8*rdi + 128], xmm8
+	vmovupd	xmmword ptr [rcx + 8*rdi + 160], xmm3
+	vmovupd	xmmword ptr [rcx + 8*rdi + 176], xmm9
+	vmovupd	xmmword ptr [rcx + 8*rdi + 192], xmm5
+	vmovupd	xmmword ptr [rcx + 8*rdi + 208], xmm4
+	vmovupd	xmmword ptr [rcx + 8*rdi + 224], xmm1
+	vmovupd	xmmword ptr [rcx + 8*rdi + 240], xmm0
+	add	rdi, 32
+	add	r10, 2
+	jne	.LBB0_495
+	jmp	.LBB0_1056
+.LBB0_496:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1060
+# %bb.497:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_498:                              # =>This Inner Loop Header: Depth=1
+	vcvtps2pd	ymm0, xmmword ptr [rdx + 4*rdi]
+	vcvtps2pd	ymm1, xmmword ptr [rdx + 4*rdi + 16]
+	vcvtps2pd	ymm2, xmmword ptr [rdx + 4*rdi + 32]
+	vcvtps2pd	ymm3, xmmword ptr [rdx + 4*rdi + 48]
+	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vcvtps2pd	ymm0, xmmword ptr [rdx + 4*rdi + 64]
+	vcvtps2pd	ymm1, xmmword ptr [rdx + 4*rdi + 80]
+	vcvtps2pd	ymm2, xmmword ptr [rdx + 4*rdi + 96]
+	vcvtps2pd	ymm3, xmmword ptr [rdx + 4*rdi + 112]
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_498
+	jmp	.LBB0_1061
+.LBB0_502:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_925
+# %bb.503:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_504:                              # =>This Inner Loop Header: Depth=1
+	vcvtdq2pd	ymm0, xmmword ptr [rdx + 4*rdi]
+	vcvtdq2pd	ymm1, xmmword ptr [rdx + 4*rdi + 16]
+	vcvtdq2pd	ymm2, xmmword ptr [rdx + 4*rdi + 32]
+	vcvtdq2pd	ymm3, xmmword ptr [rdx + 4*rdi + 48]
+	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vcvtdq2pd	ymm0, xmmword ptr [rdx + 4*rdi + 64]
+	vcvtdq2pd	ymm1, xmmword ptr [rdx + 4*rdi + 80]
+	vcvtdq2pd	ymm2, xmmword ptr [rdx + 4*rdi + 96]
+	vcvtdq2pd	ymm3, xmmword ptr [rdx + 4*rdi + 112]
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_504
+	jmp	.LBB0_926
+.LBB0_535:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_930
+# %bb.536:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_537:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_537
+	jmp	.LBB0_931
+.LBB0_538:
+	mov	r14d, r9d
+	and	r14d, -4
+	lea	rax, [r14 - 4]
+	mov	r10, rax
+	shr	r10, 2
+	add	r10, 1
+	mov	r8d, r10d
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_793
+# %bb.539:
+	xor	eax, eax
+	jmp	.LBB0_795
+.LBB0_546:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_935
+# %bb.547:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_548:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_548
+	jmp	.LBB0_936
+.LBB0_549:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_940
+# %bb.550:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_551:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi]
+	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 8]
+	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 16]
+	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 24]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi + 32]
+	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 40]
+	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 48]
+	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 56]
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_551
+	jmp	.LBB0_941
+.LBB0_555:
+	mov	r14d, r9d
+	and	r14d, -4
+	lea	rax, [r14 - 4]
+	mov	r10, rax
+	shr	r10, 2
+	add	r10, 1
+	mov	r8d, r10d
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_810
+# %bb.556:
+	xor	eax, eax
+	jmp	.LBB0_812
+.LBB0_560:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_945
+# %bb.561:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_562:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi]
+	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16]
+	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32]
+	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi + 64]
+	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 80]
+	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 96]
+	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 112]
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_562
+	jmp	.LBB0_946
+.LBB0_563:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1065
+# %bb.564:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_11] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
+.LBB0_565:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpshufb	ymm1, ymm1, ymm0
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm0
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vpshufb	ymm3, ymm3, ymm0
+	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
+	vpshufb	ymm4, ymm4, ymm0
+	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpshufb	ymm1, ymm1, ymm0
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm0
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vpshufb	ymm3, ymm3, ymm0
+	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
+	vpshufb	ymm4, ymm4, ymm0
+	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm3
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm4
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_565
+	jmp	.LBB0_1066
+.LBB0_566:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1070
+# %bb.567:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_11] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
+.LBB0_568:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpshufb	ymm1, ymm1, ymm0
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm0
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vpshufb	ymm3, ymm3, ymm0
+	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
+	vpshufb	ymm4, ymm4, ymm0
+	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpshufb	ymm1, ymm1, ymm0
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm0
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vpshufb	ymm3, ymm3, ymm0
+	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
+	vpshufb	ymm4, ymm4, ymm0
+	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm3
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm4
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_568
+	jmp	.LBB0_1071
+.LBB0_569:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1075
+# %bb.570:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_571:                              # =>This Inner Loop Header: Depth=1
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
+	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
+	vinsertf128	ymm2, ymm2, xmm3, 1
+	vpackusdw	ymm2, ymm2, ymm0
+	vinsertf128	ymm0, ymm0, xmm1, 1
+	vpackusdw	ymm0, ymm0, ymm0
+	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 192]
+	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 224]
+	vinsertf128	ymm2, ymm2, xmm3, 1
+	vpackusdw	ymm2, ymm2, ymm0
+	vinsertf128	ymm0, ymm0, xmm1, 1
+	vpackusdw	ymm0, ymm0, ymm0
+	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_571
+	jmp	.LBB0_1076
+.LBB0_572:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1080
+# %bb.573:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_574:                              # =>This Inner Loop Header: Depth=1
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
+	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
+	vinsertf128	ymm2, ymm2, xmm3, 1
+	vpackssdw	ymm2, ymm2, ymm0
+	vinsertf128	ymm0, ymm0, xmm1, 1
+	vpackssdw	ymm0, ymm0, ymm0
+	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 192]
+	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 224]
+	vinsertf128	ymm2, ymm2, xmm3, 1
+	vpackssdw	ymm2, ymm2, ymm0
+	vinsertf128	ymm0, ymm0, xmm1, 1
+	vpackssdw	ymm0, ymm0, ymm0
+	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_574
+	jmp	.LBB0_1081
+.LBB0_581:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_950
+# %bb.582:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB0_583:                              # =>This Inner Loop Header: Depth=1
+	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vinserti128	ymm1, ymm6, xmm1, 1
+	vinserti128	ymm5, ymm5, xmm7, 1
+	vpackusdw	ymm1, ymm5, ymm1
+	vpackusdw	ymm1, ymm1, ymm0
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vinserti128	ymm3, ymm8, xmm3, 1
+	vpackusdw	ymm2, ymm3, ymm2
+	vpackusdw	ymm2, ymm2, ymm0
+	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
+	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi + 128], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 144], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 160], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 176], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 192], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 208], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 224], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 240], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vinserti128	ymm1, ymm6, xmm1, 1
+	vinserti128	ymm5, ymm5, xmm7, 1
+	vpackusdw	ymm1, ymm5, ymm1
+	vpackusdw	ymm1, ymm1, ymm0
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vinserti128	ymm3, ymm8, xmm3, 1
+	vpackusdw	ymm2, ymm3, ymm2
+	vpackusdw	ymm2, ymm2, ymm0
+	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_583
+	jmp	.LBB0_951
+.LBB0_584:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_955
+# %bb.585:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB0_586:                              # =>This Inner Loop Header: Depth=1
+	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vinserti128	ymm1, ymm6, xmm1, 1
+	vinserti128	ymm5, ymm5, xmm7, 1
+	vpackusdw	ymm1, ymm5, ymm1
+	vpackusdw	ymm1, ymm1, ymm0
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vinserti128	ymm3, ymm8, xmm3, 1
+	vpackusdw	ymm2, ymm3, ymm2
+	vpackusdw	ymm2, ymm2, ymm0
+	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
+	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi + 128], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 144], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 160], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 176], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 192], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 208], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 224], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 240], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vinserti128	ymm1, ymm6, xmm1, 1
+	vinserti128	ymm5, ymm5, xmm7, 1
+	vpackusdw	ymm1, ymm5, ymm1
+	vpackusdw	ymm1, ymm1, ymm0
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vinserti128	ymm3, ymm8, xmm3, 1
+	vpackusdw	ymm2, ymm3, ymm2
+	vpackusdw	ymm2, ymm2, ymm0
+	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_586
+	jmp	.LBB0_956
+.LBB0_599:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_960
+# %bb.600:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB0_601:                              # =>This Inner Loop Header: Depth=1
+	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vinserti128	ymm1, ymm6, xmm1, 1
+	vinserti128	ymm5, ymm5, xmm7, 1
+	vpackusdw	ymm1, ymm5, ymm1
+	vpackusdw	ymm1, ymm1, ymm0
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vinserti128	ymm3, ymm8, xmm3, 1
+	vpackusdw	ymm2, ymm3, ymm2
+	vpackusdw	ymm2, ymm2, ymm0
+	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
+	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi + 128], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 144], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 160], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 176], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 192], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 208], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 224], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 240], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vinserti128	ymm1, ymm6, xmm1, 1
+	vinserti128	ymm5, ymm5, xmm7, 1
+	vpackusdw	ymm1, ymm5, ymm1
+	vpackusdw	ymm1, ymm1, ymm0
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vinserti128	ymm3, ymm8, xmm3, 1
+	vpackusdw	ymm2, ymm3, ymm2
+	vpackusdw	ymm2, ymm2, ymm0
+	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_601
+	jmp	.LBB0_961
+.LBB0_602:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1085
+# %bb.603:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vpxor	xmm0, xmm0, xmm0
+.LBB0_604:                              # =>This Inner Loop Header: Depth=1
+	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vinserti128	ymm1, ymm6, xmm1, 1
+	vinserti128	ymm5, ymm5, xmm7, 1
+	vpackusdw	ymm1, ymm5, ymm1
+	vpackusdw	ymm1, ymm1, ymm0
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vinserti128	ymm3, ymm8, xmm3, 1
+	vpackusdw	ymm2, ymm3, ymm2
+	vpackusdw	ymm2, ymm2, ymm0
+	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm1
+	vpblendw	xmm8, xmm0, xmmword ptr [rdx + 8*rdi + 128], 17 # xmm8 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 144], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 160], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 176], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 192], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 208], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 224], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi + 240], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vinserti128	ymm1, ymm6, xmm1, 1
+	vinserti128	ymm5, ymm5, xmm7, 1
+	vpackusdw	ymm1, ymm5, ymm1
+	vpackusdw	ymm1, ymm1, ymm0
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vinserti128	ymm3, ymm8, xmm3, 1
+	vpackusdw	ymm2, ymm3, ymm2
+	vpackusdw	ymm2, ymm2, ymm0
+	vpunpcklqdq	ymm1, ymm2, ymm1        # ymm1 = ymm2[0],ymm1[0],ymm2[2],ymm1[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_604
+	jmp	.LBB0_1086
+.LBB0_605:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1090
+# %bb.606:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_607:                              # =>This Inner Loop Header: Depth=1
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
+	vextracti128	xmm1, ymm0, 1
+	vpackusdw	xmm0, xmm0, xmm1
+	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vextracti128	xmm2, ymm1, 1
+	vpackusdw	xmm1, xmm1, xmm2
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vextracti128	xmm3, ymm2, 1
+	vpackusdw	xmm2, xmm2, xmm3
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vextracti128	xmm4, ymm3, 1
+	vpackusdw	xmm3, xmm3, xmm4
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vextracti128	xmm1, ymm0, 1
+	vpackusdw	xmm0, xmm0, xmm1
+	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vextracti128	xmm2, ymm1, 1
+	vpackusdw	xmm1, xmm1, xmm2
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 192]
+	vextracti128	xmm3, ymm2, 1
+	vpackusdw	xmm2, xmm2, xmm3
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 224]
+	vextracti128	xmm4, ymm3, 1
+	vpackusdw	xmm3, xmm3, xmm4
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm0
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_607
+	jmp	.LBB0_1091
+.LBB0_608:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1095
+# %bb.609:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_610:                              # =>This Inner Loop Header: Depth=1
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
+	vextracti128	xmm1, ymm0, 1
+	vpackssdw	xmm0, xmm0, xmm1
+	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vextracti128	xmm1, ymm0, 1
+	vpackssdw	xmm0, xmm0, xmm1
+	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 192]
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 224]
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm0
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_610
+	jmp	.LBB0_1096
+.LBB0_617:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_965
+# %bb.618:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_11] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
+.LBB0_619:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpshufb	ymm1, ymm1, ymm0
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm0
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vpshufb	ymm3, ymm3, ymm0
+	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
+	vpshufb	ymm4, ymm4, ymm0
+	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpshufb	ymm1, ymm1, ymm0
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm0
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vpshufb	ymm3, ymm3, ymm0
+	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
+	vpshufb	ymm4, ymm4, ymm0
+	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm3
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm4
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_619
+	jmp	.LBB0_966
+.LBB0_620:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_970
+# %bb.621:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_11] # ymm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
+.LBB0_622:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpshufb	ymm1, ymm1, ymm0
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm0
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vpshufb	ymm3, ymm3, ymm0
+	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
+	vpshufb	ymm4, ymm4, ymm0
+	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpshufb	ymm1, ymm1, ymm0
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm0
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vpshufb	ymm3, ymm3, ymm0
+	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
+	vpshufb	ymm4, ymm4, ymm0
+	vpermq	ymm4, ymm4, 232                 # ymm4 = ymm4[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 64], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 80], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 96], xmm3
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 112], xmm4
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_622
+	jmp	.LBB0_971
+.LBB0_623:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1100
+# %bb.624:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_625:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_625
+	jmp	.LBB0_1101
+.LBB0_626:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1105
+# %bb.627:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	vpbroadcastd	ymm0, dword ptr [rip + .LCPI0_13] # ymm0 = [1258291200,1258291200,1258291200,1258291200,1258291200,1258291200,1258291200,1258291200]
+	xor	edi, edi
+	vpbroadcastd	ymm1, dword ptr [rip + .LCPI0_14] # ymm1 = [1392508928,1392508928,1392508928,1392508928,1392508928,1392508928,1392508928,1392508928]
+	vbroadcastss	ymm2, dword ptr [rip + .LCPI0_15] # ymm2 = [5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11]
+.LBB0_628:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm5, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm6, ymmword ptr [rdx + 4*rdi + 96]
+	vpblendw	ymm7, ymm3, ymm0, 170           # ymm7 = ymm3[0],ymm0[1],ymm3[2],ymm0[3],ymm3[4],ymm0[5],ymm3[6],ymm0[7],ymm3[8],ymm0[9],ymm3[10],ymm0[11],ymm3[12],ymm0[13],ymm3[14],ymm0[15]
+	vpsrld	ymm3, ymm3, 16
+	vpblendw	ymm3, ymm3, ymm1, 170           # ymm3 = ymm3[0],ymm1[1],ymm3[2],ymm1[3],ymm3[4],ymm1[5],ymm3[6],ymm1[7],ymm3[8],ymm1[9],ymm3[10],ymm1[11],ymm3[12],ymm1[13],ymm3[14],ymm1[15]
+	vsubps	ymm3, ymm3, ymm2
+	vaddps	ymm3, ymm7, ymm3
+	vpblendw	ymm7, ymm4, ymm0, 170           # ymm7 = ymm4[0],ymm0[1],ymm4[2],ymm0[3],ymm4[4],ymm0[5],ymm4[6],ymm0[7],ymm4[8],ymm0[9],ymm4[10],ymm0[11],ymm4[12],ymm0[13],ymm4[14],ymm0[15]
+	vpsrld	ymm4, ymm4, 16
+	vpblendw	ymm4, ymm4, ymm1, 170           # ymm4 = ymm4[0],ymm1[1],ymm4[2],ymm1[3],ymm4[4],ymm1[5],ymm4[6],ymm1[7],ymm4[8],ymm1[9],ymm4[10],ymm1[11],ymm4[12],ymm1[13],ymm4[14],ymm1[15]
+	vsubps	ymm4, ymm4, ymm2
+	vaddps	ymm4, ymm7, ymm4
+	vpblendw	ymm7, ymm5, ymm0, 170           # ymm7 = ymm5[0],ymm0[1],ymm5[2],ymm0[3],ymm5[4],ymm0[5],ymm5[6],ymm0[7],ymm5[8],ymm0[9],ymm5[10],ymm0[11],ymm5[12],ymm0[13],ymm5[14],ymm0[15]
+	vpsrld	ymm5, ymm5, 16
+	vpblendw	ymm5, ymm5, ymm1, 170           # ymm5 = ymm5[0],ymm1[1],ymm5[2],ymm1[3],ymm5[4],ymm1[5],ymm5[6],ymm1[7],ymm5[8],ymm1[9],ymm5[10],ymm1[11],ymm5[12],ymm1[13],ymm5[14],ymm1[15]
+	vsubps	ymm5, ymm5, ymm2
+	vaddps	ymm5, ymm7, ymm5
+	vpblendw	ymm7, ymm6, ymm0, 170           # ymm7 = ymm6[0],ymm0[1],ymm6[2],ymm0[3],ymm6[4],ymm0[5],ymm6[6],ymm0[7],ymm6[8],ymm0[9],ymm6[10],ymm0[11],ymm6[12],ymm0[13],ymm6[14],ymm0[15]
+	vpsrld	ymm6, ymm6, 16
+	vpblendw	ymm6, ymm6, ymm1, 170           # ymm6 = ymm6[0],ymm1[1],ymm6[2],ymm1[3],ymm6[4],ymm1[5],ymm6[6],ymm1[7],ymm6[8],ymm1[9],ymm6[10],ymm1[11],ymm6[12],ymm1[13],ymm6[14],ymm1[15]
+	vsubps	ymm6, ymm6, ymm2
+	vaddps	ymm6, ymm7, ymm6
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm4
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm5
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm6
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm5, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm6, ymmword ptr [rdx + 4*rdi + 224]
+	vpblendw	ymm7, ymm3, ymm0, 170           # ymm7 = ymm3[0],ymm0[1],ymm3[2],ymm0[3],ymm3[4],ymm0[5],ymm3[6],ymm0[7],ymm3[8],ymm0[9],ymm3[10],ymm0[11],ymm3[12],ymm0[13],ymm3[14],ymm0[15]
+	vpsrld	ymm3, ymm3, 16
+	vpblendw	ymm3, ymm3, ymm1, 170           # ymm3 = ymm3[0],ymm1[1],ymm3[2],ymm1[3],ymm3[4],ymm1[5],ymm3[6],ymm1[7],ymm3[8],ymm1[9],ymm3[10],ymm1[11],ymm3[12],ymm1[13],ymm3[14],ymm1[15]
+	vsubps	ymm3, ymm3, ymm2
+	vaddps	ymm3, ymm7, ymm3
+	vpblendw	ymm7, ymm4, ymm0, 170           # ymm7 = ymm4[0],ymm0[1],ymm4[2],ymm0[3],ymm4[4],ymm0[5],ymm4[6],ymm0[7],ymm4[8],ymm0[9],ymm4[10],ymm0[11],ymm4[12],ymm0[13],ymm4[14],ymm0[15]
+	vpsrld	ymm4, ymm4, 16
+	vpblendw	ymm4, ymm4, ymm1, 170           # ymm4 = ymm4[0],ymm1[1],ymm4[2],ymm1[3],ymm4[4],ymm1[5],ymm4[6],ymm1[7],ymm4[8],ymm1[9],ymm4[10],ymm1[11],ymm4[12],ymm1[13],ymm4[14],ymm1[15]
+	vsubps	ymm4, ymm4, ymm2
+	vaddps	ymm4, ymm7, ymm4
+	vpblendw	ymm7, ymm5, ymm0, 170           # ymm7 = ymm5[0],ymm0[1],ymm5[2],ymm0[3],ymm5[4],ymm0[5],ymm5[6],ymm0[7],ymm5[8],ymm0[9],ymm5[10],ymm0[11],ymm5[12],ymm0[13],ymm5[14],ymm0[15]
+	vpsrld	ymm5, ymm5, 16
+	vpblendw	ymm5, ymm5, ymm1, 170           # ymm5 = ymm5[0],ymm1[1],ymm5[2],ymm1[3],ymm5[4],ymm1[5],ymm5[6],ymm1[7],ymm5[8],ymm1[9],ymm5[10],ymm1[11],ymm5[12],ymm1[13],ymm5[14],ymm1[15]
+	vsubps	ymm5, ymm5, ymm2
+	vaddps	ymm5, ymm7, ymm5
+	vpblendw	ymm7, ymm6, ymm0, 170           # ymm7 = ymm6[0],ymm0[1],ymm6[2],ymm0[3],ymm6[4],ymm0[5],ymm6[6],ymm0[7],ymm6[8],ymm0[9],ymm6[10],ymm0[11],ymm6[12],ymm0[13],ymm6[14],ymm0[15]
+	vpsrld	ymm6, ymm6, 16
+	vpblendw	ymm6, ymm6, ymm1, 170           # ymm6 = ymm6[0],ymm1[1],ymm6[2],ymm1[3],ymm6[4],ymm1[5],ymm6[6],ymm1[7],ymm6[8],ymm1[9],ymm6[10],ymm1[11],ymm6[12],ymm1[13],ymm6[14],ymm1[15]
+	vsubps	ymm6, ymm6, ymm2
+	vaddps	ymm6, ymm7, ymm6
+	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm4
+	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm5
+	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm6
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_628
+	jmp	.LBB0_1106
+.LBB0_629:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1110
+# %bb.630:
+	mov	r10, r8
+	and	r10, -2
+	neg	r10
+	xor	edi, edi
+.LBB0_631:                              # =>This Inner Loop Header: Depth=1
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 8]
+	vmovq	xmm0, rbx
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi]
+	vmovq	xmm1, rbx
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 24]
+	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 16]
+	vmovq	xmm1, rbx
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 56]
+	vmovq	xmm2, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 48]
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	vmovq	xmm2, rbx
+	vmovq	xmm3, rax
+	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 40]
+	vmovq	xmm3, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 32]
+	vmovq	xmm4, rax
+	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 88]
+	vmovq	xmm4, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 80]
+	vmovq	xmm5, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 72]
+	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 64]
+	vmovq	xmm5, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 120]
+	vmovq	xmm6, rbx
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 112]
+	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
+	vmovq	xmm6, rax
+	vmovq	xmm7, rbx
+	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 104]
+	vmovq	xmm7, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 96]
+	vmovq	xmm0, rax
+	vpunpcklqdq	xmm0, xmm0, xmm7        # xmm0 = xmm0[0],xmm7[0]
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 8*rdi], xmm8
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 48], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 64], xmm5
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 80], xmm4
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 96], xmm0
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 112], xmm6
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 136]
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 128]
+	vmovq	xmm0, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 152]
+	vmovq	xmm1, rbx
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 144]
+	vmovq	xmm2, rax
+	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
+	vmovq	xmm1, rbx
+	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 184]
+	vmovq	xmm2, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 176]
+	vmovq	xmm3, rax
+	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 168]
+	vmovq	xmm3, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 160]
+	vmovq	xmm4, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 216]
+	vmovq	xmm5, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 208]
+	vmovq	xmm6, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 200]
+	vmovq	xmm7, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 192]
+	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
+	vpunpcklqdq	xmm4, xmm6, xmm5        # xmm4 = xmm6[0],xmm5[0]
+	vmovq	xmm5, rax
+	vpunpcklqdq	xmm5, xmm5, xmm7        # xmm5 = xmm5[0],xmm7[0]
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 248]
+	vmovq	xmm6, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 240]
+	vmovq	xmm7, rax
+	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 232]
+	vmovq	xmm7, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 224]
+	vmovq	xmm0, rax
+	vpunpcklqdq	xmm0, xmm0, xmm7        # xmm0 = xmm0[0],xmm7[0]
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 144], xmm1
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 128], xmm8
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 160], xmm3
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 176], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 192], xmm5
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 208], xmm4
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 224], xmm0
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 240], xmm6
+	add	rdi, 32
+	add	r10, 2
+	jne	.LBB0_631
+	jmp	.LBB0_1111
+.LBB0_632:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1115
+# %bb.633:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_634:                              # =>This Inner Loop Header: Depth=1
+	vcvtpd2ps	xmm0, ymmword ptr [rdx + 8*rdi]
+	vcvtpd2ps	xmm1, ymmword ptr [rdx + 8*rdi + 32]
+	vcvtpd2ps	xmm2, ymmword ptr [rdx + 8*rdi + 64]
+	vcvtpd2ps	xmm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovupd	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovupd	xmmword ptr [rcx + 4*rdi + 48], xmm3
+	vcvtpd2ps	xmm0, ymmword ptr [rdx + 8*rdi + 128]
+	vcvtpd2ps	xmm1, ymmword ptr [rdx + 8*rdi + 160]
+	vcvtpd2ps	xmm2, ymmword ptr [rdx + 8*rdi + 192]
+	vcvtpd2ps	xmm3, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	xmmword ptr [rcx + 4*rdi + 64], xmm0
+	vmovupd	xmmword ptr [rcx + 4*rdi + 80], xmm1
+	vmovupd	xmmword ptr [rcx + 4*rdi + 96], xmm2
+	vmovupd	xmmword ptr [rcx + 4*rdi + 112], xmm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_634
+	jmp	.LBB0_1116
+.LBB0_644:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r10, rax
+	shr	r10, 2
+	add	r10, 1
+	mov	r8d, r10d
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_850
+# %bb.645:
+	xor	eax, eax
+	jmp	.LBB0_852
+.LBB0_646:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_975
+# %bb.647:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_648:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_648
+	jmp	.LBB0_976
+.LBB0_649:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1120
+# %bb.650:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_651:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vcvtdq2ps	ymm0, ymm0
+	vcvtdq2ps	ymm1, ymm1
+	vcvtdq2ps	ymm2, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vcvtdq2ps	ymm0, ymm0
+	vcvtdq2ps	ymm1, ymm1
+	vcvtdq2ps	ymm2, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_651
+	jmp	.LBB0_1121
+.LBB0_652:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1125
+# %bb.653:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_654:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi]
+	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 8]
+	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 16]
+	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 24]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi + 32]
+	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 40]
+	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 48]
+	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 56]
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_654
+	jmp	.LBB0_1126
+.LBB0_655:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1130
+# %bb.656:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_657:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
+	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
+	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
+	vcvtdq2ps	ymm0, ymm0
+	vcvtdq2ps	ymm1, ymm1
+	vcvtdq2ps	ymm2, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64]
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80]
+	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96]
+	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112]
+	vcvtdq2ps	ymm0, ymm0
+	vcvtdq2ps	ymm1, ymm1
+	vcvtdq2ps	ymm2, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_657
+	jmp	.LBB0_1131
+.LBB0_661:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1135
+# %bb.662:
+	mov	r10, r8
+	and	r10, -2
+	neg	r10
+	xor	edi, edi
+.LBB0_663:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	vpextrq	rax, xmm0, 1
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	vcvtsi2ss	xmm2, xmm8, rax
+	vmovq	rax, xmm0
+	vcvtsi2ss	xmm0, xmm8, rax
+	vmovq	rax, xmm1
+	vcvtsi2ss	xmm3, xmm8, rax
+	vpextrq	rax, xmm1, 1
+	vcvtsi2ss	xmm1, xmm8, rax
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 32]
+	vpextrq	rax, xmm4, 1
+	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 48]
+	vcvtsi2ss	xmm6, xmm8, rax
+	vmovq	rax, xmm4
+	vcvtsi2ss	xmm4, xmm8, rax
+	vmovq	rax, xmm5
+	vcvtsi2ss	xmm7, xmm8, rax
+	vinsertps	xmm0, xmm0, xmm2, 16    # xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
+	vinsertps	xmm0, xmm0, xmm3, 32    # xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
+	vpextrq	rax, xmm5, 1
+	vinsertps	xmm0, xmm0, xmm1, 48    # xmm0 = xmm0[0,1,2],xmm1[0]
+	vcvtsi2ss	xmm1, xmm8, rax
+	vinsertps	xmm2, xmm4, xmm6, 16    # xmm2 = xmm4[0],xmm6[0],xmm4[2,3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
+	vpextrq	rax, xmm3, 1
+	vcvtsi2ss	xmm4, xmm8, rax
+	vmovq	rax, xmm3
+	vcvtsi2ss	xmm3, xmm8, rax
+	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 80]
+	vmovq	rax, xmm5
+	vcvtsi2ss	xmm6, xmm8, rax
+	vinsertps	xmm2, xmm2, xmm7, 32    # xmm2 = xmm2[0,1],xmm7[0],xmm2[3]
+	vinsertps	xmm1, xmm2, xmm1, 48    # xmm1 = xmm2[0,1,2],xmm1[0]
+	vpextrq	rax, xmm5, 1
+	vinsertps	xmm2, xmm3, xmm4, 16    # xmm2 = xmm3[0],xmm4[0],xmm3[2,3]
+	vcvtsi2ss	xmm3, xmm8, rax
+	vinsertps	xmm2, xmm2, xmm6, 32    # xmm2 = xmm2[0,1],xmm6[0],xmm2[3]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
+	vpextrq	rax, xmm4, 1
+	vcvtsi2ss	xmm5, xmm8, rax
+	vmovq	rax, xmm4
+	vcvtsi2ss	xmm4, xmm8, rax
+	vmovdqu	xmm6, xmmword ptr [rdx + 8*rdi + 112]
+	vmovq	rax, xmm6
+	vcvtsi2ss	xmm7, xmm8, rax
+	vinsertps	xmm2, xmm2, xmm3, 48    # xmm2 = xmm2[0,1,2],xmm3[0]
+	vinsertps	xmm3, xmm4, xmm5, 16    # xmm3 = xmm4[0],xmm5[0],xmm4[2,3]
+	vpextrq	rax, xmm6, 1
+	vinsertps	xmm3, xmm3, xmm7, 32    # xmm3 = xmm3[0,1],xmm7[0],xmm3[3]
+	vcvtsi2ss	xmm4, xmm8, rax
+	vinsertps	xmm3, xmm3, xmm4, 48    # xmm3 = xmm3[0,1,2],xmm4[0]
+	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
+	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi + 128]
+	vpextrq	rax, xmm0, 1
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 144]
+	vcvtsi2ss	xmm2, xmm8, rax
+	vmovq	rax, xmm0
+	vcvtsi2ss	xmm0, xmm8, rax
+	vmovq	rax, xmm1
+	vcvtsi2ss	xmm3, xmm8, rax
+	vpextrq	rax, xmm1, 1
+	vcvtsi2ss	xmm1, xmm8, rax
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 160]
+	vpextrq	rax, xmm4, 1
+	vcvtsi2ss	xmm5, xmm8, rax
+	vmovq	rax, xmm4
+	vcvtsi2ss	xmm4, xmm8, rax
+	vinsertps	xmm0, xmm0, xmm2, 16    # xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 176]
+	vpextrq	r11, xmm2, 1
+	vmovq	rax, xmm2
+	vcvtsi2ss	xmm2, xmm8, rax
+	vinsertps	xmm0, xmm0, xmm3, 32    # xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
+	vcvtsi2ss	xmm3, xmm8, r11
+	vinsertps	xmm0, xmm0, xmm1, 48    # xmm0 = xmm0[0,1,2],xmm1[0]
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 192]
+	vpextrq	rax, xmm1, 1
+	vinsertps	xmm4, xmm4, xmm5, 16    # xmm4 = xmm4[0],xmm5[0],xmm4[2,3]
+	vcvtsi2ss	xmm5, xmm8, rax
+	vmovq	rax, xmm1
+	vcvtsi2ss	xmm1, xmm8, rax
+	vinsertps	xmm2, xmm4, xmm2, 32    # xmm2 = xmm4[0,1],xmm2[0],xmm4[3]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 208]
+	vpextrq	r11, xmm4, 1
+	vmovq	rax, xmm4
+	vcvtsi2ss	xmm4, xmm8, rax
+	vinsertps	xmm2, xmm2, xmm3, 48    # xmm2 = xmm2[0,1,2],xmm3[0]
+	vcvtsi2ss	xmm3, xmm8, r11
+	vinsertps	xmm1, xmm1, xmm5, 16    # xmm1 = xmm1[0],xmm5[0],xmm1[2,3]
+	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 224]
+	vpextrq	rax, xmm5, 1
+	vinsertps	xmm1, xmm1, xmm4, 32    # xmm1 = xmm1[0,1],xmm4[0],xmm1[3]
+	vcvtsi2ss	xmm4, xmm8, rax
+	vmovq	rax, xmm5
+	vcvtsi2ss	xmm5, xmm8, rax
+	vinsertps	xmm1, xmm1, xmm3, 48    # xmm1 = xmm1[0,1,2],xmm3[0]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
+	vpextrq	r11, xmm3, 1
+	vmovq	rax, xmm3
+	vcvtsi2ss	xmm3, xmm8, rax
+	vinsertps	xmm4, xmm5, xmm4, 16    # xmm4 = xmm5[0],xmm4[0],xmm5[2,3]
+	vcvtsi2ss	xmm5, xmm8, r11
+	vinsertps	xmm3, xmm4, xmm3, 32    # xmm3 = xmm4[0,1],xmm3[0],xmm4[3]
+	vinsertps	xmm3, xmm3, xmm5, 48    # xmm3 = xmm3[0,1,2],xmm5[0]
+	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
+	add	rdi, 32
+	add	r10, 2
+	jne	.LBB0_663
+	jmp	.LBB0_1136
+.LBB0_664:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1140
+# %bb.665:
+	mov	r10, r8
+	and	r10, -2
+	neg	r10
+	xor	edi, edi
+.LBB0_666:                              # =>This Inner Loop Header: Depth=1
+	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 4]
+	vmovq	xmm0, rbx
+	vcvttss2si	rbx, dword ptr [rdx + 4*rdi]
+	vmovq	xmm1, rbx
+	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 12]
+	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 8]
+	vmovq	xmm1, rbx
+	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 28]
+	vmovq	xmm2, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 24]
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	vmovq	xmm2, rbx
+	vmovq	xmm3, rax
+	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 20]
+	vmovq	xmm3, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 16]
+	vmovq	xmm4, rax
+	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 44]
+	vmovq	xmm4, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 40]
+	vmovq	xmm5, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 36]
+	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
+	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 32]
+	vmovq	xmm5, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 60]
+	vmovq	xmm6, rbx
+	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 56]
+	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
+	vmovq	xmm6, rax
+	vmovq	xmm7, rbx
+	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 52]
+	vmovq	xmm7, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 48]
+	vmovq	xmm0, rax
+	vpunpcklqdq	xmm0, xmm0, xmm7        # xmm0 = xmm0[0],xmm7[0]
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 8*rdi], xmm8
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 48], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 64], xmm5
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 80], xmm4
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 96], xmm0
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 112], xmm6
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 68]
+	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 64]
+	vmovq	xmm0, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 76]
+	vmovq	xmm1, rbx
+	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 72]
+	vmovq	xmm2, rax
+	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
+	vmovq	xmm1, rbx
+	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 92]
+	vmovq	xmm2, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 88]
+	vmovq	xmm3, rax
+	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 84]
+	vmovq	xmm3, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 80]
+	vmovq	xmm4, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 108]
+	vmovq	xmm5, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 104]
+	vmovq	xmm6, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 100]
+	vmovq	xmm7, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 96]
+	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
+	vpunpcklqdq	xmm4, xmm6, xmm5        # xmm4 = xmm6[0],xmm5[0]
+	vmovq	xmm5, rax
+	vpunpcklqdq	xmm5, xmm5, xmm7        # xmm5 = xmm5[0],xmm7[0]
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 124]
+	vmovq	xmm6, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 120]
+	vmovq	xmm7, rax
+	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 116]
+	vmovq	xmm7, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 112]
+	vmovq	xmm0, rax
+	vpunpcklqdq	xmm0, xmm0, xmm7        # xmm0 = xmm0[0],xmm7[0]
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 144], xmm1
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 128], xmm8
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 160], xmm3
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 176], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 192], xmm5
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 208], xmm4
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 224], xmm0
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 240], xmm6
+	add	rdi, 32
+	add	r10, 2
+	jne	.LBB0_666
+	jmp	.LBB0_1141
+.LBB0_676:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_980
+# %bb.677:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_678:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi]
+	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16]
+	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32]
+	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi + 64]
+	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 80]
+	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 96]
+	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 112]
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_678
+	jmp	.LBB0_981
+.LBB0_679:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_985
+# %bb.680:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_681:                              # =>This Inner Loop Header: Depth=1
+	vcvtdq2ps	ymm0, ymmword ptr [rdx + 4*rdi]
+	vcvtdq2ps	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vcvtdq2ps	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vcvtdq2ps	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vcvtdq2ps	ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vcvtdq2ps	ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vcvtdq2ps	ymm2, ymmword ptr [rdx + 4*rdi + 192]
+	vcvtdq2ps	ymm3, ymmword ptr [rdx + 4*rdi + 224]
+	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_681
+	jmp	.LBB0_986
+.LBB0_715:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_990
+# %bb.716:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_717:                              # =>This Inner Loop Header: Depth=1
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
+	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovupd	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovupd	xmmword ptr [rcx + 4*rdi + 48], xmm3
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 192]
+	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	xmmword ptr [rcx + 4*rdi + 64], xmm0
+	vmovupd	xmmword ptr [rcx + 4*rdi + 80], xmm1
+	vmovupd	xmmword ptr [rcx + 4*rdi + 96], xmm2
+	vmovupd	xmmword ptr [rcx + 4*rdi + 112], xmm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_717
+	jmp	.LBB0_991
+.LBB0_721:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_995
+# %bb.722:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_723:                              # =>This Inner Loop Header: Depth=1
+	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
+	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
+	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
+	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
+	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
+	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
+	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
+	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
+	vmovups	xmm0, xmmword ptr [rdx + 8*rdi + 128]
+	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 160]
+	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 192]
+	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 224]
+	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 144], 136 # xmm0 = xmm0[0,2],mem[0,2]
+	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 176], 136 # xmm1 = xmm1[0,2],mem[0,2]
+	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 208], 136 # xmm2 = xmm2[0,2],mem[0,2]
+	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 240], 136 # xmm3 = xmm3[0,2],mem[0,2]
+	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_723
+	jmp	.LBB0_996
+.LBB0_724:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1000
+# %bb.725:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_726:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_726
+	jmp	.LBB0_1001
+.LBB0_727:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1005
+# %bb.728:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_729:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
+	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
+	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi + 64]
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 80]
+	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 96]
+	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 112]
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_729
+	jmp	.LBB0_1006
+.LBB0_730:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1010
+# %bb.731:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_732:                              # =>This Inner Loop Header: Depth=1
+	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
+	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
+	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
+	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
+	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
+	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
+	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
+	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
+	vmovups	xmm0, xmmword ptr [rdx + 8*rdi + 128]
+	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 160]
+	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 192]
+	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 224]
+	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 144], 136 # xmm0 = xmm0[0,2],mem[0,2]
+	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 176], 136 # xmm1 = xmm1[0,2],mem[0,2]
+	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 208], 136 # xmm2 = xmm2[0,2],mem[0,2]
+	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 240], 136 # xmm3 = xmm3[0,2],mem[0,2]
+	vmovups	xmmword ptr [rcx + 4*rdi + 64], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 80], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 96], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 112], xmm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_732
+	jmp	.LBB0_1011
+.LBB0_733:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1015
+# %bb.734:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_735:                              # =>This Inner Loop Header: Depth=1
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
+	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 192]
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_735
+	jmp	.LBB0_1016
+.LBB0_742:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1185
+# %bb.743:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_744:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_744
+	jmp	.LBB0_1186
+.LBB0_745:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1193
+# %bb.746:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_747:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
+	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
+	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
+	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vpmovsxbd	ymm0, qword ptr [rdx + rdi + 32]
+	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 40]
+	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 48]
+	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 56]
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_747
+	jmp	.LBB0_1194
+.LBB0_748:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1201
+# %bb.749:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_750:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vpmovzxbd	ymm0, qword ptr [rdx + rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_750
+	jmp	.LBB0_1202
+.LBB0_751:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1209
+# %bb.752:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_753:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_753
+	jmp	.LBB0_1210
+.LBB0_754:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1217
+# %bb.755:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_756:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_756
+	jmp	.LBB0_1218
+.LBB0_757:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1225
+# %bb.758:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_759:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxbd	xmm0, dword ptr [rdx + rdi]
+	vpmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
+	vpmovsxbd	xmm2, dword ptr [rdx + rdi + 8]
+	vpmovsxbd	xmm3, dword ptr [rdx + rdi + 12]
+	vcvtdq2pd	ymm0, xmm0
+	vcvtdq2pd	ymm1, xmm1
+	vcvtdq2pd	ymm2, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovsxbd	xmm0, dword ptr [rdx + rdi + 16]
+	vpmovsxbd	xmm1, dword ptr [rdx + rdi + 20]
+	vpmovsxbd	xmm2, dword ptr [rdx + rdi + 24]
+	vpmovsxbd	xmm3, dword ptr [rdx + rdi + 28]
+	vcvtdq2pd	ymm0, xmm0
+	vcvtdq2pd	ymm1, xmm1
+	vcvtdq2pd	ymm2, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_759
+	jmp	.LBB0_1226
+.LBB0_760:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1233
+# %bb.761:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_762:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxbd	xmm0, dword ptr [rdx + rdi] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxbd	xmm2, dword ptr [rdx + rdi + 8] # xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxbd	xmm3, dword ptr [rdx + rdi + 12] # xmm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vcvtdq2pd	ymm0, xmm0
+	vcvtdq2pd	ymm1, xmm1
+	vcvtdq2pd	ymm2, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovzxbd	xmm0, dword ptr [rdx + rdi + 16] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxbd	xmm1, dword ptr [rdx + rdi + 20] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxbd	xmm2, dword ptr [rdx + rdi + 24] # xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxbd	xmm3, dword ptr [rdx + rdi + 28] # xmm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vcvtdq2pd	ymm0, xmm0
+	vcvtdq2pd	ymm1, xmm1
+	vcvtdq2pd	ymm2, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_762
+	jmp	.LBB0_1234
+.LBB0_763:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1241
+# %bb.764:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_765:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
+	vpshufb	xmm4, xmm4, xmm0
+	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
+	vpshufb	xmm5, xmm5, xmm0
+	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm1
+	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 144]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 176]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 208]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 192]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 240]
+	vpshufb	xmm4, xmm4, xmm0
+	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 224]
+	vpshufb	xmm5, xmm5, xmm0
+	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm1
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_765
+	jmp	.LBB0_1242
+.LBB0_766:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1249
+# %bb.767:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_768:                              # =>This Inner Loop Header: Depth=1
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
+	vpackssdw	xmm0, xmm0, xmm0
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpacksswb	xmm0, xmm0, xmm0
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm1, xmm1, xmm1
+	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 64]
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm1, xmm1, xmm1
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 96]
+	vpackssdw	xmm2, xmm2, xmm2
+	vpacksswb	xmm2, xmm2, xmm2
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
+	vmovdqu	xmmword ptr [rcx + rdi], xmm0
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
+	vpackssdw	xmm0, xmm0, xmm0
+	vpacksswb	xmm0, xmm0, xmm0
+	vpackssdw	xmm1, xmm1, xmm1
+	vpacksswb	xmm1, xmm1, xmm1
+	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 192]
+	vpackssdw	xmm1, xmm1, xmm1
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 224]
+	vpacksswb	xmm1, xmm1, xmm1
+	vpackssdw	xmm2, xmm2, xmm2
+	vpacksswb	xmm2, xmm2, xmm2
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_768
+	jmp	.LBB0_1250
+.LBB0_769:
+	mov	esi, r9d
+	and	esi, -128
+	lea	rax, [rsi - 128]
+	mov	r8, rax
+	shr	r8, 7
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1257
+# %bb.770:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_771:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + rdi]
+	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovups	ymmword ptr [rcx + rdi], ymm0
+	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
+	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
+	add	rdi, 256
+	add	rax, 2
+	jne	.LBB0_771
+	jmp	.LBB0_1258
+.LBB0_772:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1265
+# %bb.773:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_774:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
+	vpshufb	xmm2, xmm2, xmm0
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
+	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
+	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
+	vmovdqu	xmmword ptr [rcx + rdi], xmm1
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 144]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 176]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 208]
+	vpshufb	xmm2, xmm2, xmm0
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 192]
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 224]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
+	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
+	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_774
+	jmp	.LBB0_1266
+.LBB0_775:
+	mov	esi, r9d
+	and	esi, -64
+	lea	rax, [rsi - 64]
+	mov	r8, rax
+	shr	r8, 6
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1273
+# %bb.776:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+.LBB0_777:                              # =>This Inner Loop Header: Depth=1
+	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vextracti128	xmm2, ymm1, 1
+	vpackuswb	xmm1, xmm1, xmm2
+	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vextracti128	xmm3, ymm2, 1
+	vpackuswb	xmm2, xmm2, xmm3
+	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vextracti128	xmm4, ymm3, 1
+	vpackuswb	xmm3, xmm3, xmm4
+	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vextracti128	xmm5, ymm4, 1
+	vpackuswb	xmm4, xmm4, xmm5
+	vmovdqu	xmmword ptr [rcx + rdi], xmm1
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm4
+	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 128]
+	vextracti128	xmm2, ymm1, 1
+	vpackuswb	xmm1, xmm1, xmm2
+	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 160]
+	vextracti128	xmm3, ymm2, 1
+	vpackuswb	xmm2, xmm2, xmm3
+	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 192]
+	vextracti128	xmm4, ymm3, 1
+	vpackuswb	xmm3, xmm3, xmm4
+	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 224]
+	vextracti128	xmm5, ymm4, 1
+	vpackuswb	xmm4, xmm4, xmm5
+	vmovdqu	xmmword ptr [rcx + rdi + 64], xmm1
+	vmovdqu	xmmword ptr [rcx + rdi + 80], xmm2
+	vmovdqu	xmmword ptr [rcx + rdi + 96], xmm3
+	vmovdqu	xmmword ptr [rcx + rdi + 112], xmm4
+	sub	rdi, -128
+	add	rax, 2
+	jne	.LBB0_777
+	jmp	.LBB0_1274
+.LBB0_778:
+	mov	esi, r9d
+	and	esi, -64
+	lea	rax, [rsi - 64]
+	mov	r8, rax
+	shr	r8, 6
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1281
+# %bb.779:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+.LBB0_780:                              # =>This Inner Loop Header: Depth=1
+	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vextracti128	xmm2, ymm1, 1
+	vpackuswb	xmm1, xmm1, xmm2
+	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vextracti128	xmm3, ymm2, 1
+	vpackuswb	xmm2, xmm2, xmm3
+	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vextracti128	xmm4, ymm3, 1
+	vpackuswb	xmm3, xmm3, xmm4
+	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vextracti128	xmm5, ymm4, 1
+	vpackuswb	xmm4, xmm4, xmm5
+	vmovdqu	xmmword ptr [rcx + rdi], xmm1
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm4
+	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 128]
+	vextracti128	xmm2, ymm1, 1
+	vpackuswb	xmm1, xmm1, xmm2
+	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 160]
+	vextracti128	xmm3, ymm2, 1
+	vpackuswb	xmm2, xmm2, xmm3
+	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 192]
+	vextracti128	xmm4, ymm3, 1
+	vpackuswb	xmm3, xmm3, xmm4
+	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 224]
+	vextracti128	xmm5, ymm4, 1
+	vpackuswb	xmm4, xmm4, xmm5
+	vmovdqu	xmmword ptr [rcx + rdi + 64], xmm1
+	vmovdqu	xmmword ptr [rcx + rdi + 80], xmm2
+	vmovdqu	xmmword ptr [rcx + rdi + 96], xmm3
+	vmovdqu	xmmword ptr [rcx + rdi + 112], xmm4
+	sub	rdi, -128
+	add	rax, 2
+	jne	.LBB0_780
+	jmp	.LBB0_1282
+.LBB0_781:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1289
+# %bb.782:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_783:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
+	vpshufb	xmm2, xmm2, xmm0
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
+	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
+	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
+	vmovdqu	xmmword ptr [rcx + rdi], xmm1
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 144]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 176]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 208]
+	vpshufb	xmm2, xmm2, xmm0
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 192]
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 224]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
+	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
+	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_783
+	jmp	.LBB0_1290
+.LBB0_784:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1297
+# %bb.785:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_786:                              # =>This Inner Loop Header: Depth=1
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
+	vextracti128	xmm1, ymm0, 1
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vpackssdw	xmm0, xmm0, xmm1
+	vextracti128	xmm1, ymm2, 1
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vpackssdw	xmm1, xmm2, xmm1
+	vextracti128	xmm2, ymm3, 1
+	vcvttps2dq	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpackssdw	xmm2, xmm3, xmm2
+	vextracti128	xmm3, ymm4, 1
+	vpackssdw	xmm3, xmm4, xmm3
+	vinserti128	ymm2, ymm2, xmm3, 1
+	vpacksswb	ymm2, ymm2, ymm0
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vpacksswb	ymm0, ymm0, ymm0
+	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm0
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vextracti128	xmm1, ymm0, 1
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vpackssdw	xmm0, xmm0, xmm1
+	vextracti128	xmm1, ymm2, 1
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vpackssdw	xmm1, xmm2, xmm1
+	vextracti128	xmm2, ymm3, 1
+	vcvttps2dq	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpackssdw	xmm2, xmm3, xmm2
+	vextracti128	xmm3, ymm4, 1
+	vpackssdw	xmm3, xmm4, xmm3
+	vinserti128	ymm2, ymm2, xmm3, 1
+	vpacksswb	ymm2, ymm2, ymm0
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vpacksswb	ymm0, ymm0, ymm0
+	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm0
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_786
+	jmp	.LBB0_1298
+.LBB0_787:
+	mov	esi, r9d
+	and	esi, -128
+	lea	rax, [rsi - 128]
+	mov	r8, rax
+	shr	r8, 7
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1305
+# %bb.788:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_789:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + rdi]
+	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovups	ymmword ptr [rcx + rdi], ymm0
+	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
+	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
+	add	rdi, 256
+	add	rax, 2
+	jne	.LBB0_789
+	jmp	.LBB0_1306
+.LBB0_790:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1313
+# %bb.791:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_792:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
+	vpshufb	xmm4, xmm4, xmm0
+	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
+	vpshufb	xmm5, xmm5, xmm0
+	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm1
+	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 144]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 176]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 208]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 192]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 240]
+	vpshufb	xmm4, xmm4, xmm0
+	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 224]
+	vpshufb	xmm5, xmm5, xmm0
+	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm1
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_792
+	jmp	.LBB0_1314
+.LBB0_801:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1321
+# %bb.802:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_803:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxbq	ymm0, dword ptr [rdx + rdi]
+	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 4]
+	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 8]
+	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 12]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovsxbq	ymm0, dword ptr [rdx + rdi + 16]
+	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 20]
+	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 24]
+	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 28]
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_803
+	jmp	.LBB0_1322
+.LBB0_804:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1329
+# %bb.805:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_806:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_806
+	jmp	.LBB0_1330
+.LBB0_807:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1337
+# %bb.808:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_809:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_809
+	jmp	.LBB0_1338
+.LBB0_818:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1345
+# %bb.819:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_820:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxbq	ymm0, dword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 4] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 8] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 12] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovzxbq	ymm0, dword ptr [rdx + rdi + 16] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 20] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 24] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 28] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_820
+	jmp	.LBB0_1346
+.LBB0_821:
+	mov	esi, r9d
+	and	esi, -64
+	lea	rax, [rsi - 64]
+	mov	r8, rax
+	shr	r8, 6
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1353
+# %bb.822:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_823:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi]
+	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 16]
+	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 32]
+	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 48]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
+	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi + 64]
+	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 80]
+	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 96]
+	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 112]
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 224], ymm3
+	sub	rdi, -128
+	add	rax, 2
+	jne	.LBB0_823
+	jmp	.LBB0_1354
+.LBB0_824:
+	mov	esi, r9d
+	and	esi, -64
+	lea	rax, [rsi - 64]
+	mov	r8, rax
+	shr	r8, 6
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1361
+# %bb.825:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_826:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi]
+	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 16]
+	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 32]
+	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 48]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
+	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi + 64]
+	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 80]
+	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 96]
+	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 112]
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 224], ymm3
+	sub	rdi, -128
+	add	rax, 2
+	jne	.LBB0_826
+	jmp	.LBB0_1362
+.LBB0_827:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 96
+	jae	.LBB0_1145
+# %bb.828:
+	xor	eax, eax
+	jmp	.LBB0_1147
+.LBB0_829:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 96
+	jae	.LBB0_1155
+# %bb.830:
+	xor	eax, eax
+	jmp	.LBB0_1157
+.LBB0_831:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 96
+	jae	.LBB0_1165
+# %bb.832:
+	xor	eax, eax
+	jmp	.LBB0_1167
+.LBB0_833:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 96
+	jae	.LBB0_1175
+# %bb.834:
+	xor	eax, eax
+	jmp	.LBB0_1177
+.LBB0_835:
+	mov	esi, r9d
+	and	esi, -64
+	lea	rax, [rsi - 64]
+	mov	r8, rax
+	shr	r8, 6
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1369
+# %bb.836:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_837:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
+	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 224], ymm3
+	sub	rdi, -128
+	add	rax, 2
+	jne	.LBB0_837
+	jmp	.LBB0_1370
+.LBB0_838:
+	mov	esi, r9d
+	and	esi, -64
+	lea	rax, [rsi - 64]
+	mov	r8, rax
+	shr	r8, 6
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1377
+# %bb.839:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_840:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
+	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi + 64] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 80] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 96] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 112] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 224], ymm3
+	sub	rdi, -128
+	add	rax, 2
+	jne	.LBB0_840
+	jmp	.LBB0_1378
+.LBB0_841:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1385
+# %bb.842:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_843:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxbq	ymm0, dword ptr [rdx + rdi]
+	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 4]
+	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 8]
+	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 12]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovsxbq	ymm0, dword ptr [rdx + rdi + 16]
+	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 20]
+	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 24]
+	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 28]
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_843
+	jmp	.LBB0_1386
+.LBB0_844:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1393
+# %bb.845:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_846:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
+	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
+	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
+	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
+	vcvtdq2ps	ymm0, ymm0
+	vcvtdq2ps	ymm1, ymm1
+	vcvtdq2ps	ymm2, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vpmovsxbd	ymm0, qword ptr [rdx + rdi + 32]
+	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 40]
+	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 48]
+	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 56]
+	vcvtdq2ps	ymm0, ymm0
+	vcvtdq2ps	ymm1, ymm1
+	vcvtdq2ps	ymm2, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_846
+	jmp	.LBB0_1394
+.LBB0_847:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1401
+# %bb.848:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_849:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_849
+	jmp	.LBB0_1402
+.LBB0_860:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1409
+# %bb.861:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_862:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovups	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_862
+	jmp	.LBB0_1410
+.LBB0_863:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1417
+# %bb.864:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_865:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_865
+	jmp	.LBB0_1418
+.LBB0_866:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1425
+# %bb.867:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_868:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxbq	ymm0, dword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 4] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 8] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 12] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+	vpmovzxbq	ymm0, dword ptr [rdx + rdi + 16] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 20] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 24] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 28] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 224], ymm3
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_868
+	jmp	.LBB0_1426
+.LBB0_869:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1433
+# %bb.870:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_871:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vcvtdq2ps	ymm0, ymm0
+	vcvtdq2ps	ymm1, ymm1
+	vcvtdq2ps	ymm2, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vpmovzxbd	ymm0, qword ptr [rdx + rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vcvtdq2ps	ymm0, ymm0
+	vcvtdq2ps	ymm1, ymm1
+	vcvtdq2ps	ymm2, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_871
+	jmp	.LBB0_1434
+.LBB0_872:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1441
+# %bb.873:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_874:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
+	vpshufb	xmm4, xmm4, xmm0
+	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
+	vpshufb	xmm5, xmm5, xmm0
+	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm1
+	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 144]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 176]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 208]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 192]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 240]
+	vpshufb	xmm4, xmm4, xmm0
+	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 224]
+	vpshufb	xmm5, xmm5, xmm0
+	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm1
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_874
+	jmp	.LBB0_1442
+.LBB0_875:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1449
+# %bb.876:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_877:                              # =>This Inner Loop Header: Depth=1
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
+	vpackusdw	xmm0, xmm0, xmm0
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpackuswb	xmm0, xmm0, xmm0
+	vpackusdw	xmm1, xmm1, xmm1
+	vpackuswb	xmm1, xmm1, xmm1
+	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 64]
+	vpackusdw	xmm1, xmm1, xmm1
+	vpackuswb	xmm1, xmm1, xmm1
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 96]
+	vpackusdw	xmm2, xmm2, xmm2
+	vpackuswb	xmm2, xmm2, xmm2
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
+	vmovdqu	xmmword ptr [rcx + rdi], xmm0
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi + 128]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 160]
+	vpackusdw	xmm0, xmm0, xmm0
+	vpackuswb	xmm0, xmm0, xmm0
+	vpackusdw	xmm1, xmm1, xmm1
+	vpackuswb	xmm1, xmm1, xmm1
+	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 192]
+	vpackusdw	xmm1, xmm1, xmm1
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 224]
+	vpackuswb	xmm1, xmm1, xmm1
+	vpackusdw	xmm2, xmm2, xmm2
+	vpackuswb	xmm2, xmm2, xmm2
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_877
+	jmp	.LBB0_1450
+.LBB0_878:
+	mov	esi, r9d
+	and	esi, -128
+	lea	rax, [rsi - 128]
+	mov	r8, rax
+	shr	r8, 7
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1457
+# %bb.879:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_880:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + rdi]
+	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovups	ymmword ptr [rcx + rdi], ymm0
+	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
+	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
+	add	rdi, 256
+	add	rax, 2
+	jne	.LBB0_880
+	jmp	.LBB0_1458
+.LBB0_881:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1465
+# %bb.882:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_883:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
+	vpshufb	xmm2, xmm2, xmm0
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
+	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
+	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
+	vmovdqu	xmmword ptr [rcx + rdi], xmm1
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 144]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 176]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 208]
+	vpshufb	xmm2, xmm2, xmm0
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 192]
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 224]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
+	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
+	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_883
+	jmp	.LBB0_1466
+.LBB0_884:
+	mov	esi, r9d
+	and	esi, -64
+	lea	rax, [rsi - 64]
+	mov	r8, rax
+	shr	r8, 6
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1473
+# %bb.885:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+.LBB0_886:                              # =>This Inner Loop Header: Depth=1
+	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vextracti128	xmm2, ymm1, 1
+	vpackuswb	xmm1, xmm1, xmm2
+	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vextracti128	xmm3, ymm2, 1
+	vpackuswb	xmm2, xmm2, xmm3
+	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vextracti128	xmm4, ymm3, 1
+	vpackuswb	xmm3, xmm3, xmm4
+	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vextracti128	xmm5, ymm4, 1
+	vpackuswb	xmm4, xmm4, xmm5
+	vmovdqu	xmmword ptr [rcx + rdi], xmm1
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm4
+	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 128]
+	vextracti128	xmm2, ymm1, 1
+	vpackuswb	xmm1, xmm1, xmm2
+	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 160]
+	vextracti128	xmm3, ymm2, 1
+	vpackuswb	xmm2, xmm2, xmm3
+	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 192]
+	vextracti128	xmm4, ymm3, 1
+	vpackuswb	xmm3, xmm3, xmm4
+	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 224]
+	vextracti128	xmm5, ymm4, 1
+	vpackuswb	xmm4, xmm4, xmm5
+	vmovdqu	xmmword ptr [rcx + rdi + 64], xmm1
+	vmovdqu	xmmword ptr [rcx + rdi + 80], xmm2
+	vmovdqu	xmmword ptr [rcx + rdi + 96], xmm3
+	vmovdqu	xmmword ptr [rcx + rdi + 112], xmm4
+	sub	rdi, -128
+	add	rax, 2
+	jne	.LBB0_886
+	jmp	.LBB0_1474
+.LBB0_887:
+	mov	esi, r9d
+	and	esi, -64
+	lea	rax, [rsi - 64]
+	mov	r8, rax
+	shr	r8, 6
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1481
+# %bb.888:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+.LBB0_889:                              # =>This Inner Loop Header: Depth=1
+	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vextracti128	xmm2, ymm1, 1
+	vpackuswb	xmm1, xmm1, xmm2
+	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vextracti128	xmm3, ymm2, 1
+	vpackuswb	xmm2, xmm2, xmm3
+	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vextracti128	xmm4, ymm3, 1
+	vpackuswb	xmm3, xmm3, xmm4
+	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vextracti128	xmm5, ymm4, 1
+	vpackuswb	xmm4, xmm4, xmm5
+	vmovdqu	xmmword ptr [rcx + rdi], xmm1
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm4
+	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 128]
+	vextracti128	xmm2, ymm1, 1
+	vpackuswb	xmm1, xmm1, xmm2
+	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 160]
+	vextracti128	xmm3, ymm2, 1
+	vpackuswb	xmm2, xmm2, xmm3
+	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 192]
+	vextracti128	xmm4, ymm3, 1
+	vpackuswb	xmm3, xmm3, xmm4
+	vpand	ymm4, ymm0, ymmword ptr [rdx + 2*rdi + 224]
+	vextracti128	xmm5, ymm4, 1
+	vpackuswb	xmm4, xmm4, xmm5
+	vmovdqu	xmmword ptr [rcx + rdi + 64], xmm1
+	vmovdqu	xmmword ptr [rcx + rdi + 80], xmm2
+	vmovdqu	xmmword ptr [rcx + rdi + 96], xmm3
+	vmovdqu	xmmword ptr [rcx + rdi + 112], xmm4
+	sub	rdi, -128
+	add	rax, 2
+	jne	.LBB0_889
+	jmp	.LBB0_1482
+.LBB0_890:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1489
+# %bb.891:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_892:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
+	vpshufb	xmm2, xmm2, xmm0
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
+	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
+	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
+	vmovdqu	xmmword ptr [rcx + rdi], xmm1
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 144]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 176]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 208]
+	vpshufb	xmm2, xmm2, xmm0
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 192]
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 240]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 224]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpcklwd	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
+	vpunpckldq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
+	vpunpcklqdq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0]
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_892
+	jmp	.LBB0_1490
+.LBB0_893:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1497
+# %bb.894:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_895:                              # =>This Inner Loop Header: Depth=1
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
+	vextracti128	xmm1, ymm0, 1
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vpackssdw	xmm0, xmm0, xmm1
+	vextracti128	xmm1, ymm2, 1
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vpackssdw	xmm1, xmm2, xmm1
+	vextracti128	xmm2, ymm3, 1
+	vcvttps2dq	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpackssdw	xmm2, xmm3, xmm2
+	vextracti128	xmm3, ymm4, 1
+	vpackssdw	xmm3, xmm4, xmm3
+	vinserti128	ymm2, ymm2, xmm3, 1
+	vpackuswb	ymm2, ymm2, ymm0
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vpackuswb	ymm0, ymm0, ymm0
+	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm0
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vextracti128	xmm1, ymm0, 1
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vpackssdw	xmm0, xmm0, xmm1
+	vextracti128	xmm1, ymm2, 1
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vpackssdw	xmm1, xmm2, xmm1
+	vextracti128	xmm2, ymm3, 1
+	vcvttps2dq	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpackssdw	xmm2, xmm3, xmm2
+	vextracti128	xmm3, ymm4, 1
+	vpackssdw	xmm3, xmm4, xmm3
+	vinserti128	ymm2, ymm2, xmm3, 1
+	vpackuswb	ymm2, ymm2, ymm0
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vpackuswb	ymm0, ymm0, ymm0
+	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm0
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_895
+	jmp	.LBB0_1498
+.LBB0_896:
+	mov	esi, r9d
+	and	esi, -128
+	lea	rax, [rsi - 128]
+	mov	r8, rax
+	shr	r8, 7
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1505
+# %bb.897:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_898:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + rdi]
+	vmovups	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovups	ymmword ptr [rcx + rdi], ymm0
+	vmovups	ymmword ptr [rcx + rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + rdi + 224]
+	vmovupd	ymmword ptr [rcx + rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + rdi + 224], ymm3
+	add	rdi, 256
+	add	rax, 2
+	jne	.LBB0_898
+	jmp	.LBB0_1506
+.LBB0_899:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1513
+# %bb.900:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_901:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
+	vpshufb	xmm4, xmm4, xmm0
+	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
+	vpshufb	xmm5, xmm5, xmm0
+	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm1
+	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 144]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 176]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 208]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 192]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 240]
+	vpshufb	xmm4, xmm4, xmm0
+	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 224]
+	vpshufb	xmm5, xmm5, xmm0
+	vpunpckldq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0],xmm5[1],xmm4[1]
+	vinserti128	ymm3, ymm3, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm1, ymm1, ymm3        # ymm1 = ymm1[0],ymm3[0],ymm1[2],ymm3[2]
+	vpermq	ymm1, ymm1, 216                 # ymm1 = ymm1[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi + 32], ymm1
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_901
+	jmp	.LBB0_1514
+.LBB0_902:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1521
+# %bb.903:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_904:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_904
+	jmp	.LBB0_1522
+.LBB0_905:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1529
+# %bb.906:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_907:                              # =>This Inner Loop Header: Depth=1
+	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
+	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
+	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
+	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vpmovsxbd	ymm0, qword ptr [rdx + rdi + 32]
+	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 40]
+	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 48]
+	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 56]
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_907
+	jmp	.LBB0_1530
+.LBB0_908:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1537
+# %bb.909:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_910:                              # =>This Inner Loop Header: Depth=1
+	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vpmovzxbd	ymm0, qword ptr [rdx + rdi + 32] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 40] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 48] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 56] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_910
+	jmp	.LBB0_1538
+.LBB0_911:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1545
+# %bb.912:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_913:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 192]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 224]
+	vmovupd	ymmword ptr [rcx + 4*rdi + 128], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 160], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 192], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 224], ymm3
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_913
+	jmp	.LBB0_1546
+.LBB0_793:
+	and	r10, -4
+	neg	r10
+	xor	eax, eax
+	vmovsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
+.LBB0_794:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rax + 8] # xmm1 = mem[0],zero
+	vsubsd	xmm2, xmm1, xmm0
+	vcvttsd2si	rbx, xmm2
+	vmovsd	xmm2, qword ptr [rdx + 8*rax]   # xmm2 = mem[0],zero
+	xor	rbx, r11
+	vcvttsd2si	rsi, xmm1
+	vucomisd	xmm1, xmm0
+	cmovae	rsi, rbx
+	vsubsd	xmm1, xmm2, xmm0
+	vcvttsd2si	rbx, xmm1
+	xor	rbx, r11
+	vcvttsd2si	rdi, xmm2
+	vucomisd	xmm2, xmm0
+	vmovq	xmm1, rsi
+	cmovae	rdi, rbx
+	vmovq	xmm2, rdi
+	vmovsd	xmm3, qword ptr [rdx + 8*rax + 24] # xmm3 = mem[0],zero
+	vsubsd	xmm4, xmm3, xmm0
+	vcvttsd2si	rsi, xmm4
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm3
+	vucomisd	xmm3, xmm0
+	cmovae	rdi, rsi
+	vmovsd	xmm2, qword ptr [rdx + 8*rax + 16] # xmm2 = mem[0],zero
+	vsubsd	xmm3, xmm2, xmm0
+	vcvttsd2si	rsi, xmm3
+	vmovq	xmm3, rdi
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm2
+	vucomisd	xmm2, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm2, rdi
+	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
+	vmovdqu	xmmword ptr [rcx + 8*rax + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rax], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rax + 40] # xmm1 = mem[0],zero
+	vsubsd	xmm2, xmm1, xmm0
+	vcvttsd2si	rsi, xmm2
+	vmovsd	xmm2, qword ptr [rdx + 8*rax + 32] # xmm2 = mem[0],zero
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm1
+	vucomisd	xmm1, xmm0
+	cmovae	rdi, rsi
+	vsubsd	xmm1, xmm2, xmm0
+	vcvttsd2si	rsi, xmm1
+	xor	rsi, r11
+	vcvttsd2si	rbx, xmm2
+	vucomisd	xmm2, xmm0
+	vmovq	xmm1, rdi
+	cmovae	rbx, rsi
+	vmovq	xmm2, rbx
+	vmovsd	xmm3, qword ptr [rdx + 8*rax + 56] # xmm3 = mem[0],zero
+	vsubsd	xmm4, xmm3, xmm0
+	vcvttsd2si	rsi, xmm4
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm3
+	vucomisd	xmm3, xmm0
+	cmovae	rdi, rsi
+	vmovsd	xmm2, qword ptr [rdx + 8*rax + 48] # xmm2 = mem[0],zero
+	vsubsd	xmm3, xmm2, xmm0
+	vcvttsd2si	rsi, xmm3
+	vmovq	xmm3, rdi
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm2
+	vucomisd	xmm2, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm2, rdi
+	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
+	vmovdqu	xmmword ptr [rcx + 8*rax + 48], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rax + 32], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rax + 72] # xmm1 = mem[0],zero
+	vsubsd	xmm2, xmm1, xmm0
+	vcvttsd2si	rsi, xmm2
+	vmovsd	xmm2, qword ptr [rdx + 8*rax + 64] # xmm2 = mem[0],zero
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm1
+	vucomisd	xmm1, xmm0
+	cmovae	rdi, rsi
+	vsubsd	xmm1, xmm2, xmm0
+	vcvttsd2si	rsi, xmm1
+	xor	rsi, r11
+	vcvttsd2si	rbx, xmm2
+	vucomisd	xmm2, xmm0
+	vmovq	xmm1, rdi
+	cmovae	rbx, rsi
+	vmovq	xmm2, rbx
+	vmovsd	xmm3, qword ptr [rdx + 8*rax + 88] # xmm3 = mem[0],zero
+	vsubsd	xmm4, xmm3, xmm0
+	vcvttsd2si	rsi, xmm4
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm3
+	vucomisd	xmm3, xmm0
+	cmovae	rdi, rsi
+	vmovsd	xmm2, qword ptr [rdx + 8*rax + 80] # xmm2 = mem[0],zero
+	vsubsd	xmm3, xmm2, xmm0
+	vcvttsd2si	rsi, xmm3
+	vmovq	xmm3, rdi
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm2
+	vucomisd	xmm2, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm2, rdi
+	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
+	vmovdqu	xmmword ptr [rcx + 8*rax + 80], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rax + 64], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rax + 104] # xmm1 = mem[0],zero
+	vsubsd	xmm2, xmm1, xmm0
+	vcvttsd2si	rsi, xmm2
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm1
+	vucomisd	xmm1, xmm0
+	cmovae	rdi, rsi
+	vmovsd	xmm1, qword ptr [rdx + 8*rax + 96] # xmm1 = mem[0],zero
+	vsubsd	xmm2, xmm1, xmm0
+	vcvttsd2si	rsi, xmm2
+	xor	rsi, r11
+	vcvttsd2si	rbx, xmm1
+	vucomisd	xmm1, xmm0
+	cmovae	rbx, rsi
+	vmovq	xmm1, rdi
+	vmovq	xmm2, rbx
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	vmovsd	xmm2, qword ptr [rdx + 8*rax + 120] # xmm2 = mem[0],zero
+	vsubsd	xmm3, xmm2, xmm0
+	vcvttsd2si	rsi, xmm3
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm2
+	vucomisd	xmm2, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm2, rdi
+	vmovsd	xmm3, qword ptr [rdx + 8*rax + 112] # xmm3 = mem[0],zero
+	vsubsd	xmm4, xmm3, xmm0
+	vcvttsd2si	rsi, xmm4
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm3
+	vucomisd	xmm3, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm3, rdi
+	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
+	vmovdqu	xmmword ptr [rcx + 8*rax + 112], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rax + 96], xmm1
+	add	rax, 16
+	add	r10, 4
+	jne	.LBB0_794
+.LBB0_795:
+	test	r8, r8
+	je	.LBB0_798
+# %bb.796:
+	shl	rax, 3
+	neg	r8
+	vmovsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
+.LBB0_797:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + rax + 8] # xmm1 = mem[0],zero
+	vsubsd	xmm2, xmm1, xmm0
+	vcvttsd2si	rsi, xmm2
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm1
+	vucomisd	xmm1, xmm0
+	cmovae	rdi, rsi
+	vmovsd	xmm1, qword ptr [rdx + rax]     # xmm1 = mem[0],zero
+	vsubsd	xmm2, xmm1, xmm0
+	vcvttsd2si	rsi, xmm2
+	xor	rsi, r11
+	vcvttsd2si	rbx, xmm1
+	vucomisd	xmm1, xmm0
+	cmovae	rbx, rsi
+	vmovq	xmm1, rdi
+	vmovq	xmm2, rbx
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	vmovsd	xmm2, qword ptr [rdx + rax + 24] # xmm2 = mem[0],zero
+	vsubsd	xmm3, xmm2, xmm0
+	vcvttsd2si	rsi, xmm3
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm2
+	vucomisd	xmm2, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm2, rdi
+	vmovsd	xmm3, qword ptr [rdx + rax + 16] # xmm3 = mem[0],zero
+	vsubsd	xmm4, xmm3, xmm0
+	vcvttsd2si	rsi, xmm4
+	xor	rsi, r11
+	vcvttsd2si	rdi, xmm3
+	vucomisd	xmm3, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm3, rdi
+	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
+	vmovdqu	xmmword ptr [rcx + rax + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_797
+.LBB0_798:
+	cmp	r14, r9
+	je	.LBB0_1553
+.LBB0_799:
+	vmovsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
+.LBB0_800:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*r14]   # xmm1 = mem[0],zero
+	vsubsd	xmm2, xmm1, xmm0
+	vcvttsd2si	rax, xmm2
+	xor	rax, r11
+	vcvttsd2si	rsi, xmm1
+	vucomisd	xmm0, xmm1
+	cmovbe	rsi, rax
+	mov	qword ptr [rcx + 8*r14], rsi
+	add	r14, 1
+	cmp	r9, r14
+	jne	.LBB0_800
+	jmp	.LBB0_1553
+.LBB0_810:
+	and	r10, -4
+	neg	r10
+	xor	eax, eax
+	vmovss	xmm0, dword ptr [rip + .LCPI0_1] # xmm0 = mem[0],zero,zero,zero
+	movabs	r11, -9223372036854775808
+.LBB0_811:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rax + 4] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm2, xmm1, xmm0
+	vcvttss2si	rdi, xmm2
+	vmovss	xmm2, dword ptr [rdx + 4*rax]   # xmm2 = mem[0],zero,zero,zero
+	xor	rdi, r11
+	vcvttss2si	rbx, xmm1
+	vucomiss	xmm1, xmm0
+	cmovae	rbx, rdi
+	vsubss	xmm1, xmm2, xmm0
+	vcvttss2si	rdi, xmm1
+	xor	rdi, r11
+	vcvttss2si	rsi, xmm2
+	vucomiss	xmm2, xmm0
+	vmovq	xmm1, rbx
+	cmovae	rsi, rdi
+	vmovq	xmm2, rsi
+	vmovss	xmm3, dword ptr [rdx + 4*rax + 12] # xmm3 = mem[0],zero,zero,zero
+	vsubss	xmm4, xmm3, xmm0
+	vcvttss2si	rsi, xmm4
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	xor	rsi, r11
+	vcvttss2si	rdi, xmm3
+	vucomiss	xmm3, xmm0
+	cmovae	rdi, rsi
+	vmovss	xmm2, dword ptr [rdx + 4*rax + 8] # xmm2 = mem[0],zero,zero,zero
+	vsubss	xmm3, xmm2, xmm0
+	vcvttss2si	rsi, xmm3
+	vmovq	xmm3, rdi
+	xor	rsi, r11
+	vcvttss2si	rdi, xmm2
+	vucomiss	xmm2, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm2, rdi
+	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
+	vmovdqu	xmmword ptr [rcx + 8*rax + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rax], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rax + 20] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm2, xmm1, xmm0
+	vcvttss2si	rsi, xmm2
+	vmovss	xmm2, dword ptr [rdx + 4*rax + 16] # xmm2 = mem[0],zero,zero,zero
+	xor	rsi, r11
+	vcvttss2si	rdi, xmm1
+	vucomiss	xmm1, xmm0
+	cmovae	rdi, rsi
+	vsubss	xmm1, xmm2, xmm0
+	vcvttss2si	rsi, xmm1
+	xor	rsi, r11
+	vcvttss2si	rbx, xmm2
+	vucomiss	xmm2, xmm0
+	vmovq	xmm1, rdi
+	cmovae	rbx, rsi
+	vmovq	xmm2, rbx
+	vmovss	xmm3, dword ptr [rdx + 4*rax + 28] # xmm3 = mem[0],zero,zero,zero
+	vsubss	xmm4, xmm3, xmm0
+	vcvttss2si	rsi, xmm4
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	xor	rsi, r11
+	vcvttss2si	rdi, xmm3
+	vucomiss	xmm3, xmm0
+	cmovae	rdi, rsi
+	vmovss	xmm2, dword ptr [rdx + 4*rax + 24] # xmm2 = mem[0],zero,zero,zero
+	vsubss	xmm3, xmm2, xmm0
+	vcvttss2si	rsi, xmm3
+	vmovq	xmm3, rdi
+	xor	rsi, r11
+	vcvttss2si	rdi, xmm2
+	vucomiss	xmm2, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm2, rdi
+	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
+	vmovdqu	xmmword ptr [rcx + 8*rax + 48], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rax + 32], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rax + 36] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm2, xmm1, xmm0
+	vcvttss2si	rsi, xmm2
+	vmovss	xmm2, dword ptr [rdx + 4*rax + 32] # xmm2 = mem[0],zero,zero,zero
+	xor	rsi, r11
+	vcvttss2si	rdi, xmm1
+	vucomiss	xmm1, xmm0
+	cmovae	rdi, rsi
+	vsubss	xmm1, xmm2, xmm0
+	vcvttss2si	rsi, xmm1
+	xor	rsi, r11
+	vcvttss2si	rbx, xmm2
+	vucomiss	xmm2, xmm0
+	vmovq	xmm1, rdi
+	cmovae	rbx, rsi
+	vmovq	xmm2, rbx
+	vmovss	xmm3, dword ptr [rdx + 4*rax + 44] # xmm3 = mem[0],zero,zero,zero
+	vsubss	xmm4, xmm3, xmm0
+	vcvttss2si	rsi, xmm4
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	xor	rsi, r11
+	vcvttss2si	rdi, xmm3
+	vucomiss	xmm3, xmm0
+	cmovae	rdi, rsi
+	vmovss	xmm2, dword ptr [rdx + 4*rax + 40] # xmm2 = mem[0],zero,zero,zero
+	vsubss	xmm3, xmm2, xmm0
+	vcvttss2si	rsi, xmm3
+	vmovq	xmm3, rdi
+	xor	rsi, r11
+	vcvttss2si	rdi, xmm2
+	vucomiss	xmm2, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm2, rdi
+	vpunpcklqdq	xmm2, xmm2, xmm3        # xmm2 = xmm2[0],xmm3[0]
+	vmovdqu	xmmword ptr [rcx + 8*rax + 80], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rax + 64], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rax + 52] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm2, xmm1, xmm0
+	vcvttss2si	rsi, xmm2
+	xor	rsi, r11
+	vcvttss2si	rdi, xmm1
+	vucomiss	xmm1, xmm0
+	cmovae	rdi, rsi
+	vmovss	xmm1, dword ptr [rdx + 4*rax + 48] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm2, xmm1, xmm0
+	vcvttss2si	rsi, xmm2
+	xor	rsi, r11
+	vcvttss2si	rbx, xmm1
+	vucomiss	xmm1, xmm0
+	cmovae	rbx, rsi
+	vmovq	xmm1, rdi
+	vmovq	xmm2, rbx
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	vmovss	xmm2, dword ptr [rdx + 4*rax + 60] # xmm2 = mem[0],zero,zero,zero
+	vsubss	xmm3, xmm2, xmm0
+	vcvttss2si	rsi, xmm3
+	xor	rsi, r11
+	vcvttss2si	rdi, xmm2
+	vucomiss	xmm2, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm2, rdi
+	vmovss	xmm3, dword ptr [rdx + 4*rax + 56] # xmm3 = mem[0],zero,zero,zero
+	vsubss	xmm4, xmm3, xmm0
+	vcvttss2si	rsi, xmm4
+	xor	rsi, r11
+	vcvttss2si	rdi, xmm3
+	vucomiss	xmm3, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm3, rdi
+	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
+	vmovdqu	xmmword ptr [rcx + 8*rax + 112], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rax + 96], xmm1
+	add	rax, 16
+	add	r10, 4
+	jne	.LBB0_811
+.LBB0_812:
+	test	r8, r8
+	je	.LBB0_815
+# %bb.813:
+	shl	rax, 2
+	neg	r8
+	vmovss	xmm0, dword ptr [rip + .LCPI0_1] # xmm0 = mem[0],zero,zero,zero
+	movabs	r10, -9223372036854775808
+.LBB0_814:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + rax + 4] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm2, xmm1, xmm0
+	vcvttss2si	rsi, xmm2
+	xor	rsi, r10
+	vcvttss2si	rbx, xmm1
+	vucomiss	xmm1, xmm0
+	cmovae	rbx, rsi
+	vmovss	xmm1, dword ptr [rdx + rax]     # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm2, xmm1, xmm0
+	vcvttss2si	rsi, xmm2
+	xor	rsi, r10
+	vcvttss2si	rdi, xmm1
+	vucomiss	xmm1, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm1, rbx
+	vmovq	xmm2, rdi
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	vmovss	xmm2, dword ptr [rdx + rax + 12] # xmm2 = mem[0],zero,zero,zero
+	vsubss	xmm3, xmm2, xmm0
+	vcvttss2si	rsi, xmm3
+	xor	rsi, r10
+	vcvttss2si	rdi, xmm2
+	vucomiss	xmm2, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm2, rdi
+	vmovss	xmm3, dword ptr [rdx + rax + 8] # xmm3 = mem[0],zero,zero,zero
+	vsubss	xmm4, xmm3, xmm0
+	vcvttss2si	rsi, xmm4
+	xor	rsi, r10
+	vcvttss2si	rdi, xmm3
+	vucomiss	xmm3, xmm0
+	cmovae	rdi, rsi
+	vmovq	xmm3, rdi
+	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
+	vmovdqu	xmmword ptr [rcx + 2*rax + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rax], xmm1
+	add	rax, 16
+	inc	r8
+	jne	.LBB0_814
+.LBB0_815:
+	cmp	r14, r9
+	je	.LBB0_1553
+.LBB0_816:
+	vmovss	xmm0, dword ptr [rip + .LCPI0_1] # xmm0 = mem[0],zero,zero,zero
+	movabs	rax, -9223372036854775808
+.LBB0_817:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*r14]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm2, xmm1, xmm0
+	vcvttss2si	rsi, xmm2
+	xor	rsi, rax
+	vcvttss2si	rdi, xmm1
+	vucomiss	xmm0, xmm1
+	cmovbe	rdi, rsi
+	mov	qword ptr [rcx + 8*r14], rdi
+	add	r14, 1
+	cmp	r9, r14
+	jne	.LBB0_817
+	jmp	.LBB0_1553
+.LBB0_850:
+	and	r10, -4
+	neg	r10
+	xor	eax, eax
+	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_10] # ymm0 = [1,1,1,1]
+.LBB0_851:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax]
+	vpand	ymm2, ymm1, ymm0
+	vpsrlq	ymm3, ymm1, 1
+	vpor	ymm2, ymm3, ymm2
+	vblendvpd	ymm1, ymm1, ymm2, ymm1
+	vpextrq	rdi, xmm1, 1
+	vcvtsi2ss	xmm2, xmm5, rdi
+	vmovq	rdi, xmm1
+	vcvtsi2ss	xmm3, xmm5, rdi
+	vextracti128	xmm1, ymm1, 1
+	vmovq	rdi, xmm1
+	vcvtsi2ss	xmm4, xmm5, rdi
+	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
+	vpextrq	rdi, xmm1, 1
+	vinsertps	xmm1, xmm2, xmm4, 32    # xmm1 = xmm2[0,1],xmm4[0],xmm2[3]
+	vcvtsi2ss	xmm2, xmm5, rdi
+	vinsertps	xmm1, xmm1, xmm2, 48    # xmm1 = xmm1[0,1,2],xmm2[0]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rax]
+	vpackssdw	xmm2, xmm2, xmmword ptr [rdx + 8*rax + 16]
+	vaddps	xmm3, xmm1, xmm1
+	vblendvps	xmm1, xmm1, xmm3, xmm2
+	vmovups	xmmword ptr [rcx + 4*rax], xmm1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 32]
+	vpand	ymm2, ymm1, ymm0
+	vpsrlq	ymm3, ymm1, 1
+	vpor	ymm2, ymm3, ymm2
+	vblendvpd	ymm1, ymm1, ymm2, ymm1
+	vpextrq	rdi, xmm1, 1
+	vcvtsi2ss	xmm2, xmm5, rdi
+	vmovq	rdi, xmm1
+	vcvtsi2ss	xmm3, xmm5, rdi
+	vextracti128	xmm1, ymm1, 1
+	vmovq	rdi, xmm1
+	vcvtsi2ss	xmm4, xmm5, rdi
+	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
+	vpextrq	rdi, xmm1, 1
+	vinsertps	xmm1, xmm2, xmm4, 32    # xmm1 = xmm2[0,1],xmm4[0],xmm2[3]
+	vcvtsi2ss	xmm2, xmm5, rdi
+	vinsertps	xmm1, xmm1, xmm2, 48    # xmm1 = xmm1[0,1,2],xmm2[0]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rax + 32]
+	vpackssdw	xmm2, xmm2, xmmword ptr [rdx + 8*rax + 48]
+	vaddps	xmm3, xmm1, xmm1
+	vblendvps	xmm1, xmm1, xmm3, xmm2
+	vmovups	xmmword ptr [rcx + 4*rax + 16], xmm1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 64]
+	vpand	ymm2, ymm1, ymm0
+	vpsrlq	ymm3, ymm1, 1
+	vpor	ymm2, ymm3, ymm2
+	vblendvpd	ymm1, ymm1, ymm2, ymm1
+	vpextrq	rdi, xmm1, 1
+	vcvtsi2ss	xmm2, xmm5, rdi
+	vmovq	rdi, xmm1
+	vcvtsi2ss	xmm3, xmm5, rdi
+	vextracti128	xmm1, ymm1, 1
+	vmovq	rdi, xmm1
+	vcvtsi2ss	xmm4, xmm5, rdi
+	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
+	vpextrq	rdi, xmm1, 1
+	vinsertps	xmm1, xmm2, xmm4, 32    # xmm1 = xmm2[0,1],xmm4[0],xmm2[3]
+	vcvtsi2ss	xmm2, xmm5, rdi
+	vinsertps	xmm1, xmm1, xmm2, 48    # xmm1 = xmm1[0,1,2],xmm2[0]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rax + 64]
+	vpackssdw	xmm2, xmm2, xmmword ptr [rdx + 8*rax + 80]
+	vaddps	xmm3, xmm1, xmm1
+	vblendvps	xmm1, xmm1, xmm3, xmm2
+	vmovups	xmmword ptr [rcx + 4*rax + 32], xmm1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 96]
+	vpand	ymm2, ymm1, ymm0
+	vpsrlq	ymm3, ymm1, 1
+	vpor	ymm2, ymm3, ymm2
+	vblendvpd	ymm1, ymm1, ymm2, ymm1
+	vpextrq	rdi, xmm1, 1
+	vcvtsi2ss	xmm2, xmm5, rdi
+	vmovq	rdi, xmm1
+	vcvtsi2ss	xmm3, xmm5, rdi
+	vextracti128	xmm1, ymm1, 1
+	vpextrq	r11, xmm1, 1
+	vmovq	rdi, xmm1
+	vcvtsi2ss	xmm1, xmm5, rdi
+	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
+	vcvtsi2ss	xmm3, xmm5, r11
+	vinsertps	xmm1, xmm2, xmm1, 32    # xmm1 = xmm2[0,1],xmm1[0],xmm2[3]
+	vinsertps	xmm1, xmm1, xmm3, 48    # xmm1 = xmm1[0,1,2],xmm3[0]
+	vaddps	xmm2, xmm1, xmm1
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rax + 96]
+	vpackssdw	xmm3, xmm3, xmmword ptr [rdx + 8*rax + 112]
+	vblendvps	xmm1, xmm1, xmm2, xmm3
+	vmovups	xmmword ptr [rcx + 4*rax + 48], xmm1
+	add	rax, 16
+	add	r10, 4
+	jne	.LBB0_851
+.LBB0_852:
+	test	r8, r8
+	je	.LBB0_855
+# %bb.853:
+	shl	rax, 2
+	neg	r8
+	vpbroadcastq	ymm0, qword ptr [rip + .LCPI0_10] # ymm0 = [1,1,1,1]
+.LBB0_854:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rax]
+	vpand	ymm2, ymm1, ymm0
+	vpsrlq	ymm3, ymm1, 1
+	vpor	ymm2, ymm3, ymm2
+	vblendvpd	ymm1, ymm1, ymm2, ymm1
+	vpextrq	rdi, xmm1, 1
+	vcvtsi2ss	xmm2, xmm5, rdi
+	vmovq	rdi, xmm1
+	vcvtsi2ss	xmm3, xmm5, rdi
+	vextracti128	xmm1, ymm1, 1
+	vpextrq	r10, xmm1, 1
+	vmovq	rdi, xmm1
+	vcvtsi2ss	xmm1, xmm5, rdi
+	vinsertps	xmm2, xmm3, xmm2, 16    # xmm2 = xmm3[0],xmm2[0],xmm3[2,3]
+	vcvtsi2ss	xmm3, xmm5, r10
+	vinsertps	xmm1, xmm2, xmm1, 32    # xmm1 = xmm2[0,1],xmm1[0],xmm2[3]
+	vinsertps	xmm1, xmm1, xmm3, 48    # xmm1 = xmm1[0,1,2],xmm3[0]
+	vaddps	xmm2, xmm1, xmm1
+	vmovdqu	xmm3, xmmword ptr [rdx + 2*rax]
+	vpackssdw	xmm3, xmm3, xmmword ptr [rdx + 2*rax + 16]
+	vblendvps	xmm1, xmm1, xmm2, xmm3
+	vmovups	xmmword ptr [rcx + rax], xmm1
+	add	rax, 16
+	inc	r8
+	jne	.LBB0_854
+.LBB0_855:
+	cmp	rsi, r9
+	jne	.LBB0_858
+	jmp	.LBB0_1553
+.LBB0_856:                              #   in Loop: Header=BB0_858 Depth=1
+	vcvtsi2ss	xmm0, xmm5, rax
+	vmovss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	je	.LBB0_1553
+.LBB0_858:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	test	rax, rax
+	jns	.LBB0_856
+# %bb.859:                              #   in Loop: Header=BB0_858 Depth=1
+	mov	rdi, rax
+	shr	rdi
+	and	eax, 1
+	or	rax, rdi
+	vcvtsi2ss	xmm0, xmm5, rax
+	vaddss	xmm0, xmm0, xmm0
+	vmovss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_858
+	jmp	.LBB0_1553
+.LBB0_914:
+	xor	edi, edi
+.LBB0_915:
+	test	r8b, 1
+	je	.LBB0_917
+# %bb.916:
+	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
+	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
+	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
+	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
+	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
+	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
+	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
+	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
+.LBB0_917:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_918:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 8*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_918
+	jmp	.LBB0_1553
+.LBB0_919:
+	xor	edi, edi
+.LBB0_920:
+	test	r8b, 1
+	je	.LBB0_922
+# %bb.921:
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vxorpd	xmm4, xmm4, xmm4
+	vpblendd	ymm5, ymm0, ymm4, 170           # ymm5 = ymm0[0],ymm4[1],ymm0[2],ymm4[3],ymm0[4],ymm4[5],ymm0[6],ymm4[7]
+	vpbroadcastq	ymm6, qword ptr [rip + .LCPI0_5] # ymm6 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
+	vpor	ymm5, ymm5, ymm6
+	vpsrlq	ymm0, ymm0, 32
+	vpbroadcastq	ymm7, qword ptr [rip + .LCPI0_6] # ymm7 = [4985484787499139072,4985484787499139072,4985484787499139072,4985484787499139072]
+	vpor	ymm0, ymm0, ymm7
+	vbroadcastsd	ymm8, qword ptr [rip + .LCPI0_7] # ymm8 = [1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25,1.9342813118337666E+25]
+	vsubpd	ymm0, ymm0, ymm8
+	vaddpd	ymm0, ymm5, ymm0
+	vpblendd	ymm5, ymm1, ymm4, 170           # ymm5 = ymm1[0],ymm4[1],ymm1[2],ymm4[3],ymm1[4],ymm4[5],ymm1[6],ymm4[7]
+	vpor	ymm5, ymm5, ymm6
+	vpsrlq	ymm1, ymm1, 32
+	vpor	ymm1, ymm1, ymm7
+	vsubpd	ymm1, ymm1, ymm8
+	vaddpd	ymm1, ymm5, ymm1
+	vpblendd	ymm5, ymm2, ymm4, 170           # ymm5 = ymm2[0],ymm4[1],ymm2[2],ymm4[3],ymm2[4],ymm4[5],ymm2[6],ymm4[7]
+	vpor	ymm5, ymm5, ymm6
+	vpsrlq	ymm2, ymm2, 32
+	vpor	ymm2, ymm2, ymm7
+	vsubpd	ymm2, ymm2, ymm8
+	vaddpd	ymm2, ymm5, ymm2
+	vpblendd	ymm4, ymm3, ymm4, 170           # ymm4 = ymm3[0],ymm4[1],ymm3[2],ymm4[3],ymm3[4],ymm4[5],ymm3[6],ymm4[7]
+	vpor	ymm4, ymm4, ymm6
+	vpsrlq	ymm3, ymm3, 32
+	vpor	ymm3, ymm3, ymm7
+	vsubpd	ymm3, ymm3, ymm8
+	vaddpd	ymm3, ymm4, ymm3
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_922:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_923:
+	vmovapd	xmm0, xmmword ptr [rip + .LCPI0_8] # xmm0 = [1127219200,1160773632,0,0]
+	vmovapd	xmm1, xmmword ptr [rip + .LCPI0_9] # xmm1 = [4.503599627370496E+15,1.9342813113834067E+25]
+.LBB0_924:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm2, qword ptr [rdx + 8*rsi]   # xmm2 = mem[0],zero
+	vunpcklps	xmm2, xmm2, xmm0        # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
+	vsubpd	xmm2, xmm2, xmm1
+	vpermilpd	xmm3, xmm2, 1           # xmm3 = xmm2[1,0]
+	vaddsd	xmm2, xmm3, xmm2
+	vmovsd	qword ptr [rcx + 8*rsi], xmm2
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_924
+	jmp	.LBB0_1553
+.LBB0_925:
+	xor	edi, edi
+.LBB0_926:
+	test	r8b, 1
+	je	.LBB0_928
+# %bb.927:
+	vcvtdq2pd	ymm0, xmmword ptr [rdx + 4*rdi]
+	vcvtdq2pd	ymm1, xmmword ptr [rdx + 4*rdi + 16]
+	vcvtdq2pd	ymm2, xmmword ptr [rdx + 4*rdi + 32]
+	vcvtdq2pd	ymm3, xmmword ptr [rdx + 4*rdi + 48]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_928:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_929:                              # =>This Inner Loop Header: Depth=1
+	vcvtsi2sd	xmm0, xmm4, dword ptr [rdx + 4*rsi]
+	vmovsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_929
+	jmp	.LBB0_1553
+.LBB0_930:
+	xor	edi, edi
+.LBB0_931:
+	test	r8b, 1
+	je	.LBB0_933
+# %bb.932:
+	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_933:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_934:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_934
+	jmp	.LBB0_1553
+.LBB0_935:
+	xor	edi, edi
+.LBB0_936:
+	test	r8b, 1
+	je	.LBB0_938
+# %bb.937:
+	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_938:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_939:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_939
+	jmp	.LBB0_1553
+.LBB0_940:
+	xor	edi, edi
+.LBB0_941:
+	test	r8b, 1
+	je	.LBB0_943
+# %bb.942:
+	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi]
+	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 8]
+	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 16]
+	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 24]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_943:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_944:                              # =>This Inner Loop Header: Depth=1
+	movsx	rax, word ptr [rdx + 2*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_944
+	jmp	.LBB0_1553
+.LBB0_945:
+	xor	edi, edi
+.LBB0_946:
+	test	r8b, 1
+	je	.LBB0_948
+# %bb.947:
+	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi]
+	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16]
+	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32]
+	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_948:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_949:                              # =>This Inner Loop Header: Depth=1
+	movsxd	rax, dword ptr [rdx + 4*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_949
+	jmp	.LBB0_1553
+.LBB0_950:
+	xor	edi, edi
+.LBB0_951:
+	test	r8b, 1
+	je	.LBB0_953
+# %bb.952:
+	vpxor	xmm0, xmm0, xmm0
+	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm0 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vinserti128	ymm0, ymm6, xmm0, 1
+	vinserti128	ymm5, ymm5, xmm7, 1
+	vpackusdw	ymm0, ymm5, ymm0
+	vpackusdw	ymm0, ymm0, ymm0
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vpackusdw	ymm1, ymm1, ymm2
+	vpackusdw	ymm1, ymm1, ymm0
+	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+.LBB0_953:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_954:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 8*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_954
+	jmp	.LBB0_1553
+.LBB0_955:
+	xor	edi, edi
+.LBB0_956:
+	test	r8b, 1
+	je	.LBB0_958
+# %bb.957:
+	vpxor	xmm0, xmm0, xmm0
+	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm0 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vinserti128	ymm0, ymm6, xmm0, 1
+	vinserti128	ymm5, ymm5, xmm7, 1
+	vpackusdw	ymm0, ymm5, ymm0
+	vpackusdw	ymm0, ymm0, ymm0
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vpackusdw	ymm1, ymm1, ymm2
+	vpackusdw	ymm1, ymm1, ymm0
+	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+.LBB0_958:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_959:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 8*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_959
+	jmp	.LBB0_1553
+.LBB0_960:
+	xor	edi, edi
+.LBB0_961:
+	test	r8b, 1
+	je	.LBB0_963
+# %bb.962:
+	vpxor	xmm0, xmm0, xmm0
+	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm0 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vinserti128	ymm0, ymm6, xmm0, 1
+	vinserti128	ymm5, ymm5, xmm7, 1
+	vpackusdw	ymm0, ymm5, ymm0
+	vpackusdw	ymm0, ymm0, ymm0
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vpackusdw	ymm1, ymm1, ymm2
+	vpackusdw	ymm1, ymm1, ymm0
+	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+.LBB0_963:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_964:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 8*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_964
+	jmp	.LBB0_1553
+.LBB0_965:
+	xor	edi, edi
+.LBB0_966:
+	test	r8b, 1
+	je	.LBB0_968
+# %bb.967:
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_11] # ymm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
+	vpshufb	ymm0, ymm0, ymm4
+	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
+	vpshufb	ymm1, ymm1, ymm4
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm4
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vpshufb	ymm3, ymm3, ymm4
+	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
+.LBB0_968:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_969:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 4*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_969
+	jmp	.LBB0_1553
+.LBB0_970:
+	xor	edi, edi
+.LBB0_971:
+	test	r8b, 1
+	je	.LBB0_973
+# %bb.972:
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_11] # ymm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
+	vpshufb	ymm0, ymm0, ymm4
+	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
+	vpshufb	ymm1, ymm1, ymm4
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm4
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vpshufb	ymm3, ymm3, ymm4
+	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
+.LBB0_973:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_974:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 4*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_974
+	jmp	.LBB0_1553
+.LBB0_975:
+	xor	edi, edi
+.LBB0_976:
+	test	r8b, 1
+	je	.LBB0_978
+# %bb.977:
+	vpmovzxwq	ymm0, qword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm1, qword ptr [rdx + 2*rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm2, qword ptr [rdx + 2*rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxwq	ymm3, qword ptr [rdx + 2*rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_978:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_979:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_979
+	jmp	.LBB0_1553
+.LBB0_980:
+	xor	edi, edi
+.LBB0_981:
+	test	r8b, 1
+	je	.LBB0_983
+# %bb.982:
+	vpmovsxdq	ymm0, xmmword ptr [rdx + 4*rdi]
+	vpmovsxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16]
+	vpmovsxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32]
+	vpmovsxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_983:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_984:                              # =>This Inner Loop Header: Depth=1
+	movsxd	rax, dword ptr [rdx + 4*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_984
+	jmp	.LBB0_1553
+.LBB0_985:
+	xor	edi, edi
+.LBB0_986:
+	test	r8b, 1
+	je	.LBB0_988
+# %bb.987:
+	vcvtdq2ps	ymm0, ymmword ptr [rdx + 4*rdi]
+	vcvtdq2ps	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vcvtdq2ps	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vcvtdq2ps	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_988:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_989:                              # =>This Inner Loop Header: Depth=1
+	vcvtsi2ss	xmm0, xmm4, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_989
+	jmp	.LBB0_1553
+.LBB0_990:
+	xor	edi, edi
+.LBB0_991:
+	test	r8b, 1
+	je	.LBB0_993
+# %bb.992:
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
+	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovupd	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovupd	xmmword ptr [rcx + 4*rdi + 48], xmm3
+.LBB0_993:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_994:                              # =>This Inner Loop Header: Depth=1
+	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_994
+	jmp	.LBB0_1553
+.LBB0_995:
+	xor	edi, edi
+.LBB0_996:
+	test	r8b, 1
+	je	.LBB0_998
+# %bb.997:
+	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
+	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
+	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
+	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
+	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
+	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
+	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
+	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
+.LBB0_998:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_999:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 8*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_999
+	jmp	.LBB0_1553
+.LBB0_1000:
+	xor	edi, edi
+.LBB0_1001:
+	test	r8b, 1
+	je	.LBB0_1003
+# %bb.1002:
+	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1003:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1004:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1004
+	jmp	.LBB0_1553
+.LBB0_1005:
+	xor	edi, edi
+.LBB0_1006:
+	test	r8b, 1
+	je	.LBB0_1008
+# %bb.1007:
+	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
+	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
+	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1008:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1009:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, word ptr [rdx + 2*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1009
+	jmp	.LBB0_1553
+.LBB0_1010:
+	xor	edi, edi
+.LBB0_1011:
+	test	r8b, 1
+	je	.LBB0_1013
+# %bb.1012:
+	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
+	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
+	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
+	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
+	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
+	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
+	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
+	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
+.LBB0_1013:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1014:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 8*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1014
+	jmp	.LBB0_1553
+.LBB0_1015:
+	xor	edi, edi
+.LBB0_1016:
+	test	r8b, 1
+	je	.LBB0_1018
+# %bb.1017:
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
+	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1018:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1019:                             # =>This Inner Loop Header: Depth=1
+	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1019
+	jmp	.LBB0_1553
+.LBB0_1020:
+	xor	edi, edi
+.LBB0_1021:
+	test	r8b, 1
+	je	.LBB0_1023
+# %bb.1022:
+	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1023:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1024:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1024
+	jmp	.LBB0_1553
+.LBB0_1025:
+	xor	edi, edi
+.LBB0_1026:
+	test	r8b, 1
+	je	.LBB0_1028
+# %bb.1027:
+	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
+	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
+	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1028:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1029:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, word ptr [rdx + 2*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1029
+	jmp	.LBB0_1553
+.LBB0_1030:
+	xor	edi, edi
+.LBB0_1031:
+	test	r8b, 1
+	je	.LBB0_1033
+# %bb.1032:
+	vmovups	xmm0, xmmword ptr [rdx + 8*rdi]
+	vmovups	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	vmovups	xmm2, xmmword ptr [rdx + 8*rdi + 64]
+	vmovups	xmm3, xmmword ptr [rdx + 8*rdi + 96]
+	vshufps	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 16], 136 # xmm0 = xmm0[0,2],mem[0,2]
+	vshufps	xmm1, xmm1, xmmword ptr [rdx + 8*rdi + 48], 136 # xmm1 = xmm1[0,2],mem[0,2]
+	vshufps	xmm2, xmm2, xmmword ptr [rdx + 8*rdi + 80], 136 # xmm2 = xmm2[0,2],mem[0,2]
+	vshufps	xmm3, xmm3, xmmword ptr [rdx + 8*rdi + 112], 136 # xmm3 = xmm3[0,2],mem[0,2]
+	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
+.LBB0_1033:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1034:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 8*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1034
+	jmp	.LBB0_1553
+.LBB0_1035:
+	xor	edi, edi
+.LBB0_1036:
+	test	r8b, 1
+	je	.LBB0_1038
+# %bb.1037:
+	vmovups	xmm0, xmmword ptr [rdx + 4*rdi]
+	vbroadcastss	xmm1, dword ptr [rip + .LCPI0_2] # xmm1 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
+	vcmpltps	xmm2, xmm0, xmm1
+	vsubps	xmm3, xmm0, xmm1
+	vcvttps2dq	xmm3, xmm3
+	vbroadcastss	xmm4, dword ptr [rip + .LCPI0_3] # xmm4 = [2147483648,2147483648,2147483648,2147483648]
+	vxorps	xmm3, xmm3, xmm4
+	vcvttps2dq	xmm0, xmm0
+	vblendvps	xmm0, xmm3, xmm0, xmm2
+	vmovups	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	vcmpltps	xmm3, xmm2, xmm1
+	vsubps	xmm5, xmm2, xmm1
+	vcvttps2dq	xmm5, xmm5
+	vxorps	xmm5, xmm5, xmm4
+	vcvttps2dq	xmm2, xmm2
+	vblendvps	xmm2, xmm5, xmm2, xmm3
+	vmovups	xmm3, xmmword ptr [rdx + 4*rdi + 32]
+	vcmpltps	xmm5, xmm3, xmm1
+	vsubps	xmm6, xmm3, xmm1
+	vcvttps2dq	xmm6, xmm6
+	vxorps	xmm6, xmm6, xmm4
+	vcvttps2dq	xmm3, xmm3
+	vblendvps	xmm3, xmm6, xmm3, xmm5
+	vmovups	xmm5, xmmword ptr [rdx + 4*rdi + 48]
+	vcmpltps	xmm6, xmm5, xmm1
+	vsubps	xmm1, xmm5, xmm1
+	vcvttps2dq	xmm1, xmm1
+	vxorps	xmm1, xmm1, xmm4
+	vcvttps2dq	xmm4, xmm5
+	vblendvps	xmm1, xmm1, xmm4, xmm6
+	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm3
+	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm1
+.LBB0_1038:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1039:                             # =>This Inner Loop Header: Depth=1
+	vcvttss2si	rax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1039
+	jmp	.LBB0_1553
+.LBB0_1040:
+	xor	edi, edi
+.LBB0_1041:
+	test	r8b, 1
+	je	.LBB0_1043
+# %bb.1042:
+	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpbroadcastq	ymm4, qword ptr [rip + .LCPI0_5] # ymm4 = [4841369599423283200,4841369599423283200,4841369599423283200,4841369599423283200]
+	vpor	ymm0, ymm0, ymm4
+	vsubpd	ymm0, ymm0, ymm4
+	vpor	ymm1, ymm1, ymm4
+	vsubpd	ymm1, ymm1, ymm4
+	vpor	ymm2, ymm2, ymm4
+	vsubpd	ymm2, ymm2, ymm4
+	vpor	ymm3, ymm3, ymm4
+	vsubpd	ymm3, ymm3, ymm4
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1043:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1044:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	vcvtsi2sd	xmm0, xmm5, rax
+	vmovsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1044
+	jmp	.LBB0_1553
+.LBB0_1045:
+	xor	edi, edi
+.LBB0_1046:
+	test	r8b, 1
+	je	.LBB0_1048
+# %bb.1047:
+	vpmovzxwd	xmm0, qword ptr [rdx + 2*rdi] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxwd	xmm2, qword ptr [rdx + 2*rdi + 16] # xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxwd	xmm3, qword ptr [rdx + 2*rdi + 24] # xmm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vcvtdq2pd	ymm0, xmm0
+	vcvtdq2pd	ymm1, xmm1
+	vcvtdq2pd	ymm2, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1048:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1049:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	vcvtsi2sd	xmm0, xmm4, eax
+	vmovsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1049
+	jmp	.LBB0_1553
+.LBB0_1050:
+	xor	edi, edi
+.LBB0_1051:
+	test	r8b, 1
+	je	.LBB0_1053
+# %bb.1052:
+	vpmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
+	vpmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
+	vpmovsxwd	xmm2, qword ptr [rdx + 2*rdi + 16]
+	vpmovsxwd	xmm3, qword ptr [rdx + 2*rdi + 24]
+	vcvtdq2pd	ymm0, xmm0
+	vcvtdq2pd	ymm1, xmm1
+	vcvtdq2pd	ymm2, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1053:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1054:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, word ptr [rdx + 2*rsi]
+	vcvtsi2sd	xmm0, xmm4, eax
+	vmovsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1054
+	jmp	.LBB0_1553
+.LBB0_1055:
+	xor	edi, edi
+.LBB0_1056:
+	test	r8b, 1
+	je	.LBB0_1058
+# %bb.1057:
+	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	vpextrq	rax, xmm0, 1
+	vcvtsi2sd	xmm4, xmm11, rax
+	vmovq	rax, xmm0
+	vcvtsi2sd	xmm0, xmm11, rax
+	vunpcklpd	xmm8, xmm0, xmm4        # xmm8 = xmm0[0],xmm4[0]
+	vpextrq	rax, xmm1, 1
+	vcvtsi2sd	xmm4, xmm11, rax
+	vmovq	rax, xmm1
+	vcvtsi2sd	xmm1, xmm11, rax
+	vunpcklpd	xmm1, xmm1, xmm4        # xmm1 = xmm1[0],xmm4[0]
+	vpextrq	rax, xmm2, 1
+	vcvtsi2sd	xmm4, xmm11, rax
+	vmovq	rax, xmm2
+	vcvtsi2sd	xmm2, xmm11, rax
+	vunpcklpd	xmm2, xmm2, xmm4        # xmm2 = xmm2[0],xmm4[0]
+	vpextrq	rax, xmm3, 1
+	vcvtsi2sd	xmm4, xmm11, rax
+	vmovq	rax, xmm3
+	vcvtsi2sd	xmm3, xmm11, rax
+	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 80]
+	vpextrq	rax, xmm5, 1
+	vcvtsi2sd	xmm6, xmm11, rax
+	vmovq	rax, xmm5
+	vcvtsi2sd	xmm5, xmm11, rax
+	vmovdqu	xmm7, xmmword ptr [rdx + 8*rdi + 64]
+	vpextrq	rax, xmm7, 1
+	vcvtsi2sd	xmm0, xmm11, rax
+	vunpcklpd	xmm3, xmm3, xmm4        # xmm3 = xmm3[0],xmm4[0]
+	vmovq	rax, xmm7
+	vcvtsi2sd	xmm4, xmm11, rax
+	vunpcklpd	xmm5, xmm5, xmm6        # xmm5 = xmm5[0],xmm6[0]
+	vmovdqu	xmm6, xmmword ptr [rdx + 8*rdi + 112]
+	vpextrq	rax, xmm6, 1
+	vunpcklpd	xmm0, xmm4, xmm0        # xmm0 = xmm4[0],xmm0[0]
+	vcvtsi2sd	xmm4, xmm11, rax
+	vmovq	rax, xmm6
+	vcvtsi2sd	xmm6, xmm11, rax
+	vunpcklpd	xmm4, xmm6, xmm4        # xmm4 = xmm6[0],xmm4[0]
+	vmovdqu	xmm6, xmmword ptr [rdx + 8*rdi + 96]
+	vpextrq	rax, xmm6, 1
+	vcvtsi2sd	xmm7, xmm11, rax
+	vmovq	rax, xmm6
+	vcvtsi2sd	xmm6, xmm11, rax
+	vunpcklpd	xmm6, xmm6, xmm7        # xmm6 = xmm6[0],xmm7[0]
+	vmovupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
+	vmovupd	xmmword ptr [rcx + 8*rdi], xmm8
+	vmovupd	xmmword ptr [rcx + 8*rdi + 32], xmm3
+	vmovupd	xmmword ptr [rcx + 8*rdi + 48], xmm2
+	vmovupd	xmmword ptr [rcx + 8*rdi + 64], xmm0
+	vmovupd	xmmword ptr [rcx + 8*rdi + 80], xmm5
+	vmovupd	xmmword ptr [rcx + 8*rdi + 96], xmm6
+	vmovupd	xmmword ptr [rcx + 8*rdi + 112], xmm4
+.LBB0_1058:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1059:                             # =>This Inner Loop Header: Depth=1
+	vcvtsi2sd	xmm0, xmm11, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1059
+	jmp	.LBB0_1553
+.LBB0_1060:
+	xor	edi, edi
+.LBB0_1061:
+	test	r8b, 1
+	je	.LBB0_1063
+# %bb.1062:
+	vcvtps2pd	ymm0, xmmword ptr [rdx + 4*rdi]
+	vcvtps2pd	ymm1, xmmword ptr [rdx + 4*rdi + 16]
+	vcvtps2pd	ymm2, xmmword ptr [rdx + 4*rdi + 32]
+	vcvtps2pd	ymm3, xmmword ptr [rdx + 4*rdi + 48]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1063:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1064:                             # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vcvtss2sd	xmm0, xmm0, xmm0
+	vmovsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1064
+	jmp	.LBB0_1553
+.LBB0_1065:
+	xor	edi, edi
+.LBB0_1066:
+	test	r8b, 1
+	je	.LBB0_1068
+# %bb.1067:
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_11] # ymm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
+	vpshufb	ymm0, ymm0, ymm4
+	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
+	vpshufb	ymm1, ymm1, ymm4
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm4
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vpshufb	ymm3, ymm3, ymm4
+	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
+.LBB0_1068:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1069:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 4*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1069
+	jmp	.LBB0_1553
+.LBB0_1070:
+	xor	edi, edi
+.LBB0_1071:
+	test	r8b, 1
+	je	.LBB0_1073
+# %bb.1072:
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI0_11] # ymm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
+	vpshufb	ymm0, ymm0, ymm4
+	vpermq	ymm0, ymm0, 232                 # ymm0 = ymm0[0,2,2,3]
+	vpshufb	ymm1, ymm1, ymm4
+	vpermq	ymm1, ymm1, 232                 # ymm1 = ymm1[0,2,2,3]
+	vpshufb	ymm2, ymm2, ymm4
+	vpermq	ymm2, ymm2, 232                 # ymm2 = ymm2[0,2,2,3]
+	vpshufb	ymm3, ymm3, ymm4
+	vpermq	ymm3, ymm3, 232                 # ymm3 = ymm3[0,2,2,3]
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
+.LBB0_1073:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1074:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 4*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1074
+	jmp	.LBB0_1553
+.LBB0_1075:
+	xor	edi, edi
+.LBB0_1076:
+	test	r8b, 1
+	je	.LBB0_1078
+# %bb.1077:
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
+	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
+	vinsertf128	ymm2, ymm2, xmm3, 1
+	vpackusdw	ymm2, ymm2, ymm0
+	vinsertf128	ymm0, ymm0, xmm1, 1
+	vpackusdw	ymm0, ymm0, ymm0
+	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+.LBB0_1078:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1079:                             # =>This Inner Loop Header: Depth=1
+	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1079
+	jmp	.LBB0_1553
+.LBB0_1080:
+	xor	edi, edi
+.LBB0_1081:
+	test	r8b, 1
+	je	.LBB0_1083
+# %bb.1082:
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
+	vcvttpd2dq	xmm3, ymmword ptr [rdx + 8*rdi + 96]
+	vinsertf128	ymm2, ymm2, xmm3, 1
+	vpackssdw	ymm2, ymm2, ymm0
+	vinsertf128	ymm0, ymm0, xmm1, 1
+	vpackssdw	ymm0, ymm0, ymm0
+	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+.LBB0_1083:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1084:                             # =>This Inner Loop Header: Depth=1
+	vcvttsd2si	eax, qword ptr [rdx + 8*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1084
+	jmp	.LBB0_1553
+.LBB0_1085:
+	xor	edi, edi
+.LBB0_1086:
+	test	r8b, 1
+	je	.LBB0_1088
+# %bb.1087:
+	vpxor	xmm0, xmm0, xmm0
+	vpblendw	xmm1, xmm0, xmmword ptr [rdx + 8*rdi], 17 # xmm1 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm2, xmm0, xmmword ptr [rdx + 8*rdi + 16], 17 # xmm2 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm3, xmm0, xmmword ptr [rdx + 8*rdi + 32], 17 # xmm3 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm4, xmm0, xmmword ptr [rdx + 8*rdi + 48], 17 # xmm4 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm5, xmm0, xmmword ptr [rdx + 8*rdi + 64], 17 # xmm5 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm6, xmm0, xmmword ptr [rdx + 8*rdi + 80], 17 # xmm6 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm7, xmm0, xmmword ptr [rdx + 8*rdi + 96], 17 # xmm7 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vpblendw	xmm0, xmm0, xmmword ptr [rdx + 8*rdi + 112], 17 # xmm0 = mem[0],xmm0[1,2,3],mem[4],xmm0[5,6,7]
+	vinserti128	ymm0, ymm6, xmm0, 1
+	vinserti128	ymm5, ymm5, xmm7, 1
+	vpackusdw	ymm0, ymm5, ymm0
+	vpackusdw	ymm0, ymm0, ymm0
+	vinserti128	ymm2, ymm2, xmm4, 1
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vpackusdw	ymm1, ymm1, ymm2
+	vpackusdw	ymm1, ymm1, ymm0
+	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+.LBB0_1088:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1089:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 8*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1089
+	jmp	.LBB0_1553
+.LBB0_1090:
+	xor	edi, edi
+.LBB0_1091:
+	test	r8b, 1
+	je	.LBB0_1093
+# %bb.1092:
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
+	vextracti128	xmm1, ymm0, 1
+	vpackusdw	xmm0, xmm0, xmm1
+	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vextracti128	xmm2, ymm1, 1
+	vpackusdw	xmm1, xmm1, xmm2
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vextracti128	xmm3, ymm2, 1
+	vpackusdw	xmm2, xmm2, xmm3
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vextracti128	xmm4, ymm3, 1
+	vpackusdw	xmm3, xmm3, xmm4
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
+.LBB0_1093:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1094:                             # =>This Inner Loop Header: Depth=1
+	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1094
+	jmp	.LBB0_1553
+.LBB0_1095:
+	xor	edi, edi
+.LBB0_1096:
+	test	r8b, 1
+	je	.LBB0_1098
+# %bb.1097:
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
+	vextracti128	xmm1, ymm0, 1
+	vpackssdw	xmm0, xmm0, xmm1
+	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vmovdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 32], xmm2
+	vmovdqu	xmmword ptr [rcx + 2*rdi + 48], xmm3
+.LBB0_1098:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1099:                             # =>This Inner Loop Header: Depth=1
+	vcvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1099
+	jmp	.LBB0_1553
+.LBB0_1100:
+	xor	edi, edi
+.LBB0_1101:
+	test	r8b, 1
+	je	.LBB0_1103
+# %bb.1102:
+	vpmovzxdq	ymm0, xmmword ptr [rdx + 4*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm1, xmmword ptr [rdx + 4*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm2, xmmword ptr [rdx + 4*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vpmovzxdq	ymm3, xmmword ptr [rdx + 4*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1103:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1104:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1104
+	jmp	.LBB0_1553
+.LBB0_1105:
+	xor	edi, edi
+.LBB0_1106:
+	test	r8b, 1
+	je	.LBB0_1108
+# %bb.1107:
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpbroadcastd	ymm3, dword ptr [rip + .LCPI0_13] # ymm3 = [1258291200,1258291200,1258291200,1258291200,1258291200,1258291200,1258291200,1258291200]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpblendw	ymm5, ymm0, ymm3, 170           # ymm5 = ymm0[0],ymm3[1],ymm0[2],ymm3[3],ymm0[4],ymm3[5],ymm0[6],ymm3[7],ymm0[8],ymm3[9],ymm0[10],ymm3[11],ymm0[12],ymm3[13],ymm0[14],ymm3[15]
+	vpbroadcastd	ymm6, dword ptr [rip + .LCPI0_14] # ymm6 = [1392508928,1392508928,1392508928,1392508928,1392508928,1392508928,1392508928,1392508928]
+	vpsrld	ymm0, ymm0, 16
+	vpblendw	ymm0, ymm0, ymm6, 170           # ymm0 = ymm0[0],ymm6[1],ymm0[2],ymm6[3],ymm0[4],ymm6[5],ymm0[6],ymm6[7],ymm0[8],ymm6[9],ymm0[10],ymm6[11],ymm0[12],ymm6[13],ymm0[14],ymm6[15]
+	vbroadcastss	ymm7, dword ptr [rip + .LCPI0_15] # ymm7 = [5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11]
+	vsubps	ymm0, ymm0, ymm7
+	vaddps	ymm0, ymm5, ymm0
+	vpblendw	ymm5, ymm1, ymm3, 170           # ymm5 = ymm1[0],ymm3[1],ymm1[2],ymm3[3],ymm1[4],ymm3[5],ymm1[6],ymm3[7],ymm1[8],ymm3[9],ymm1[10],ymm3[11],ymm1[12],ymm3[13],ymm1[14],ymm3[15]
+	vpsrld	ymm1, ymm1, 16
+	vpblendw	ymm1, ymm1, ymm6, 170           # ymm1 = ymm1[0],ymm6[1],ymm1[2],ymm6[3],ymm1[4],ymm6[5],ymm1[6],ymm6[7],ymm1[8],ymm6[9],ymm1[10],ymm6[11],ymm1[12],ymm6[13],ymm1[14],ymm6[15]
+	vsubps	ymm1, ymm1, ymm7
+	vaddps	ymm1, ymm5, ymm1
+	vpblendw	ymm5, ymm2, ymm3, 170           # ymm5 = ymm2[0],ymm3[1],ymm2[2],ymm3[3],ymm2[4],ymm3[5],ymm2[6],ymm3[7],ymm2[8],ymm3[9],ymm2[10],ymm3[11],ymm2[12],ymm3[13],ymm2[14],ymm3[15]
+	vpsrld	ymm2, ymm2, 16
+	vpblendw	ymm2, ymm2, ymm6, 170           # ymm2 = ymm2[0],ymm6[1],ymm2[2],ymm6[3],ymm2[4],ymm6[5],ymm2[6],ymm6[7],ymm2[8],ymm6[9],ymm2[10],ymm6[11],ymm2[12],ymm6[13],ymm2[14],ymm6[15]
+	vsubps	ymm2, ymm2, ymm7
+	vaddps	ymm2, ymm5, ymm2
+	vpblendw	ymm3, ymm4, ymm3, 170           # ymm3 = ymm4[0],ymm3[1],ymm4[2],ymm3[3],ymm4[4],ymm3[5],ymm4[6],ymm3[7],ymm4[8],ymm3[9],ymm4[10],ymm3[11],ymm4[12],ymm3[13],ymm4[14],ymm3[15]
+	vpsrld	ymm4, ymm4, 16
+	vpblendw	ymm4, ymm4, ymm6, 170           # ymm4 = ymm4[0],ymm6[1],ymm4[2],ymm6[3],ymm4[4],ymm6[5],ymm4[6],ymm6[7],ymm4[8],ymm6[9],ymm4[10],ymm6[11],ymm4[12],ymm6[13],ymm4[14],ymm6[15]
+	vsubps	ymm4, ymm4, ymm7
+	vaddps	ymm3, ymm3, ymm4
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1108:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1109:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	vcvtsi2ss	xmm0, xmm8, rax
+	vmovss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1109
+	jmp	.LBB0_1553
+.LBB0_1110:
+	xor	edi, edi
+.LBB0_1111:
+	test	r8b, 1
+	je	.LBB0_1113
+# %bb.1112:
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 8]
+	vmovq	xmm0, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi]
+	vmovq	xmm1, rax
+	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 24]
+	vmovq	xmm1, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 16]
+	vmovq	xmm2, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 56]
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 48]
+	vmovq	xmm2, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 40]
+	vmovq	xmm3, rbx
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 32]
+	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
+	vmovq	xmm3, rax
+	vmovq	xmm4, rbx
+	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 88]
+	vmovq	xmm4, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 80]
+	vmovq	xmm5, rax
+	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 72]
+	vmovq	xmm5, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 64]
+	vmovq	xmm6, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 120]
+	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 112]
+	vmovq	xmm6, rax
+	vcvttsd2si	rax, qword ptr [rdx + 8*rdi + 104]
+	vmovq	xmm7, rbx
+	vcvttsd2si	rbx, qword ptr [rdx + 8*rdi + 96]
+	vmovq	xmm0, rax
+	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
+	vmovq	xmm7, rbx
+	vpunpcklqdq	xmm0, xmm7, xmm0        # xmm0 = xmm7[0],xmm0[0]
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 8*rdi], xmm8
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 48], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 64], xmm5
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 80], xmm4
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 96], xmm0
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 112], xmm6
+.LBB0_1113:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1114:                             # =>This Inner Loop Header: Depth=1
+	vcvttsd2si	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1114
+	jmp	.LBB0_1553
+.LBB0_1115:
+	xor	edi, edi
+.LBB0_1116:
+	test	r8b, 1
+	je	.LBB0_1118
+# %bb.1117:
+	vcvtpd2ps	xmm0, ymmword ptr [rdx + 8*rdi]
+	vcvtpd2ps	xmm1, ymmword ptr [rdx + 8*rdi + 32]
+	vcvtpd2ps	xmm2, ymmword ptr [rdx + 8*rdi + 64]
+	vcvtpd2ps	xmm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovupd	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovupd	xmmword ptr [rcx + 4*rdi + 48], xmm3
+.LBB0_1118:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1119:                             # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vcvtsd2ss	xmm0, xmm0, xmm0
+	vmovss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1119
+	jmp	.LBB0_1553
+.LBB0_1120:
+	xor	edi, edi
+.LBB0_1121:
+	test	r8b, 1
+	je	.LBB0_1123
+# %bb.1122:
+	vpmovzxwd	ymm0, xmmword ptr [rdx + 2*rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vpmovzxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	vcvtdq2ps	ymm0, ymm0
+	vcvtdq2ps	ymm1, ymm1
+	vcvtdq2ps	ymm2, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1123:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1124:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	vcvtsi2ss	xmm0, xmm4, eax
+	vmovss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1124
+	jmp	.LBB0_1553
+.LBB0_1125:
+	xor	edi, edi
+.LBB0_1126:
+	test	r8b, 1
+	je	.LBB0_1128
+# %bb.1127:
+	vpmovsxwq	ymm0, qword ptr [rdx + 2*rdi]
+	vpmovsxwq	ymm1, qword ptr [rdx + 2*rdi + 8]
+	vpmovsxwq	ymm2, qword ptr [rdx + 2*rdi + 16]
+	vpmovsxwq	ymm3, qword ptr [rdx + 2*rdi + 24]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1128:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1129:                             # =>This Inner Loop Header: Depth=1
+	movsx	rax, word ptr [rdx + 2*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1129
+	jmp	.LBB0_1553
+.LBB0_1130:
+	xor	edi, edi
+.LBB0_1131:
+	test	r8b, 1
+	je	.LBB0_1133
+# %bb.1132:
+	vpmovsxwd	ymm0, xmmword ptr [rdx + 2*rdi]
+	vpmovsxwd	ymm1, xmmword ptr [rdx + 2*rdi + 16]
+	vpmovsxwd	ymm2, xmmword ptr [rdx + 2*rdi + 32]
+	vpmovsxwd	ymm3, xmmword ptr [rdx + 2*rdi + 48]
+	vcvtdq2ps	ymm0, ymm0
+	vcvtdq2ps	ymm1, ymm1
+	vcvtdq2ps	ymm2, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1133:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1134:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, word ptr [rdx + 2*rsi]
+	vcvtsi2ss	xmm0, xmm4, eax
+	vmovss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1134
+	jmp	.LBB0_1553
+.LBB0_1135:
+	xor	edi, edi
+.LBB0_1136:
+	test	r8b, 1
+	je	.LBB0_1138
+# %bb.1137:
+	vmovdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	vpextrq	rax, xmm0, 1
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	vcvtsi2ss	xmm2, xmm8, rax
+	vmovq	rax, xmm0
+	vcvtsi2ss	xmm0, xmm8, rax
+	vmovq	rax, xmm1
+	vcvtsi2ss	xmm3, xmm8, rax
+	vpextrq	rax, xmm1, 1
+	vcvtsi2ss	xmm1, xmm8, rax
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 48]
+	vpextrq	rax, xmm4, 1
+	vinsertps	xmm0, xmm0, xmm2, 16    # xmm0 = xmm0[0],xmm2[0],xmm0[2,3]
+	vcvtsi2ss	xmm2, xmm8, rax
+	vmovq	rax, xmm4
+	vcvtsi2ss	xmm4, xmm8, rax
+	vmovq	rax, xmm5
+	vcvtsi2ss	xmm6, xmm8, rax
+	vinsertps	xmm0, xmm0, xmm3, 32    # xmm0 = xmm0[0,1],xmm3[0],xmm0[3]
+	vinsertps	xmm0, xmm0, xmm1, 48    # xmm0 = xmm0[0,1,2],xmm1[0]
+	vpextrq	rax, xmm5, 1
+	vinsertps	xmm1, xmm4, xmm2, 16    # xmm1 = xmm4[0],xmm2[0],xmm4[2,3]
+	vcvtsi2ss	xmm2, xmm8, rax
+	vinsertps	xmm1, xmm1, xmm6, 32    # xmm1 = xmm1[0,1],xmm6[0],xmm1[3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
+	vpextrq	rax, xmm3, 1
+	vcvtsi2ss	xmm4, xmm8, rax
+	vmovq	rax, xmm3
+	vcvtsi2ss	xmm3, xmm8, rax
+	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 80]
+	vmovq	rax, xmm5
+	vcvtsi2ss	xmm6, xmm8, rax
+	vinsertps	xmm1, xmm1, xmm2, 48    # xmm1 = xmm1[0,1,2],xmm2[0]
+	vinsertps	xmm2, xmm3, xmm4, 16    # xmm2 = xmm3[0],xmm4[0],xmm3[2,3]
+	vpextrq	rax, xmm5, 1
+	vinsertps	xmm2, xmm2, xmm6, 32    # xmm2 = xmm2[0,1],xmm6[0],xmm2[3]
+	vcvtsi2ss	xmm3, xmm8, rax
+	vinsertps	xmm2, xmm2, xmm3, 48    # xmm2 = xmm2[0,1,2],xmm3[0]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 96]
+	vpextrq	rax, xmm3, 1
+	vcvtsi2ss	xmm4, xmm8, rax
+	vmovq	rax, xmm3
+	vcvtsi2ss	xmm3, xmm8, rax
+	vmovdqu	xmm5, xmmword ptr [rdx + 8*rdi + 112]
+	vmovq	rax, xmm5
+	vcvtsi2ss	xmm6, xmm8, rax
+	vinsertps	xmm3, xmm3, xmm4, 16    # xmm3 = xmm3[0],xmm4[0],xmm3[2,3]
+	vinsertps	xmm3, xmm3, xmm6, 32    # xmm3 = xmm3[0,1],xmm6[0],xmm3[3]
+	vpextrq	rax, xmm5, 1
+	vcvtsi2ss	xmm4, xmm8, rax
+	vinsertps	xmm3, xmm3, xmm4, 48    # xmm3 = xmm3[0,1,2],xmm4[0]
+	vmovups	xmmword ptr [rcx + 4*rdi], xmm0
+	vmovups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	vmovups	xmmword ptr [rcx + 4*rdi + 32], xmm2
+	vmovups	xmmword ptr [rcx + 4*rdi + 48], xmm3
+.LBB0_1138:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1139:                             # =>This Inner Loop Header: Depth=1
+	vcvtsi2ss	xmm0, xmm8, qword ptr [rdx + 8*rsi]
+	vmovss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1139
+	jmp	.LBB0_1553
+.LBB0_1140:
+	xor	edi, edi
+.LBB0_1141:
+	test	r8b, 1
+	je	.LBB0_1143
+# %bb.1142:
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 4]
+	vmovq	xmm0, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi]
+	vmovq	xmm1, rax
+	vpunpcklqdq	xmm8, xmm1, xmm0        # xmm8 = xmm1[0],xmm0[0]
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 12]
+	vmovq	xmm1, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 8]
+	vmovq	xmm2, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 28]
+	vpunpcklqdq	xmm1, xmm2, xmm1        # xmm1 = xmm2[0],xmm1[0]
+	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 24]
+	vmovq	xmm2, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 20]
+	vmovq	xmm3, rbx
+	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 16]
+	vpunpcklqdq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0]
+	vmovq	xmm3, rax
+	vmovq	xmm4, rbx
+	vpunpcklqdq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0]
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 44]
+	vmovq	xmm4, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 40]
+	vmovq	xmm5, rax
+	vpunpcklqdq	xmm4, xmm5, xmm4        # xmm4 = xmm5[0],xmm4[0]
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 36]
+	vmovq	xmm5, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 32]
+	vmovq	xmm6, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 60]
+	vpunpcklqdq	xmm5, xmm6, xmm5        # xmm5 = xmm6[0],xmm5[0]
+	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 56]
+	vmovq	xmm6, rax
+	vcvttss2si	rax, dword ptr [rdx + 4*rdi + 52]
+	vmovq	xmm7, rbx
+	vcvttss2si	rbx, dword ptr [rdx + 4*rdi + 48]
+	vmovq	xmm0, rax
+	vpunpcklqdq	xmm6, xmm7, xmm6        # xmm6 = xmm7[0],xmm6[0]
+	vmovq	xmm7, rbx
+	vpunpcklqdq	xmm0, xmm7, xmm0        # xmm0 = xmm7[0],xmm0[0]
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 16], xmm1
+	vmovdqu	xmmword ptr [rcx + 8*rdi], xmm8
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 48], xmm2
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 64], xmm5
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 80], xmm4
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 96], xmm0
+	vmovdqu	xmmword ptr [rcx + 8*rdi + 112], xmm6
+.LBB0_1143:
+	cmp	rsi, r9
+	je	.LBB0_1553
+.LBB0_1144:                             # =>This Inner Loop Header: Depth=1
+	vcvttss2si	rax, dword ptr [rdx + 4*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1144
+.LBB0_1553:
+	lea	rsp, [rbp - 16]
+	pop	rbx
+	pop	r14
+	pop	rbp
+	vzeroupper
+	ret
+.LBB0_1145:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1146:                             # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
+	vmovups	ymmword ptr [rcx + 2*rax], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
+	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
+	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
+	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
+	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
+	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
+	sub	rax, -128
+	add	rdi, 4
+	jne	.LBB0_1146
+.LBB0_1147:
+	test	r8, r8
+	je	.LBB0_1150
+# %bb.1148:
+	add	rax, rax
+	add	rax, 32
+	neg	r8
+.LBB0_1149:                             # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
+	vmovupd	ymm1, ymmword ptr [rdx + rax]
+	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
+	vmovupd	ymmword ptr [rcx + rax], ymm1
+	add	rax, 64
+	inc	r8
+	jne	.LBB0_1149
+.LBB0_1150:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1151
+.LBB0_1155:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1156:                             # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
+	vmovups	ymmword ptr [rcx + 2*rax], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
+	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
+	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
+	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
+	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
+	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
+	sub	rax, -128
+	add	rdi, 4
+	jne	.LBB0_1156
+.LBB0_1157:
+	test	r8, r8
+	je	.LBB0_1160
+# %bb.1158:
+	add	rax, rax
+	add	rax, 32
+	neg	r8
+.LBB0_1159:                             # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
+	vmovupd	ymm1, ymmword ptr [rdx + rax]
+	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
+	vmovupd	ymmword ptr [rcx + rax], ymm1
+	add	rax, 64
+	inc	r8
+	jne	.LBB0_1159
+.LBB0_1160:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1161
+.LBB0_1165:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1166:                             # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
+	vmovups	ymmword ptr [rcx + 2*rax], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
+	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
+	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
+	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
+	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
+	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
+	sub	rax, -128
+	add	rdi, 4
+	jne	.LBB0_1166
+.LBB0_1167:
+	test	r8, r8
+	je	.LBB0_1170
+# %bb.1168:
+	add	rax, rax
+	add	rax, 32
+	neg	r8
+.LBB0_1169:                             # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
+	vmovupd	ymm1, ymmword ptr [rdx + rax]
+	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
+	vmovupd	ymmword ptr [rcx + rax], ymm1
+	add	rax, 64
+	inc	r8
+	jne	.LBB0_1169
+.LBB0_1170:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1171
+.LBB0_1175:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1176:                             # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 32]
+	vmovups	ymmword ptr [rcx + 2*rax], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 32], ymm1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 64]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 96]
+	vmovups	ymmword ptr [rcx + 2*rax + 64], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 96], ymm1
+	vmovups	ymm0, ymmword ptr [rdx + 2*rax + 128]
+	vmovups	ymm1, ymmword ptr [rdx + 2*rax + 160]
+	vmovups	ymmword ptr [rcx + 2*rax + 128], ymm0
+	vmovups	ymmword ptr [rcx + 2*rax + 160], ymm1
+	vmovupd	ymm0, ymmword ptr [rdx + 2*rax + 192]
+	vmovupd	ymm1, ymmword ptr [rdx + 2*rax + 224]
+	vmovupd	ymmword ptr [rcx + 2*rax + 192], ymm0
+	vmovupd	ymmword ptr [rcx + 2*rax + 224], ymm1
+	sub	rax, -128
+	add	rdi, 4
+	jne	.LBB0_1176
+.LBB0_1177:
+	test	r8, r8
+	je	.LBB0_1180
+# %bb.1178:
+	add	rax, rax
+	add	rax, 32
+	neg	r8
+.LBB0_1179:                             # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rdx + rax - 32]
+	vmovupd	ymm1, ymmword ptr [rdx + rax]
+	vmovupd	ymmword ptr [rcx + rax - 32], ymm0
+	vmovupd	ymmword ptr [rcx + rax], ymm1
+	add	rax, 64
+	inc	r8
+	jne	.LBB0_1179
+.LBB0_1180:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1181
+.LBB0_1185:
+	xor	edi, edi
+.LBB0_1186:
+	test	r8b, 1
+	je	.LBB0_1188
+# %bb.1187:
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1188:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1189
+.LBB0_1193:
+	xor	edi, edi
+.LBB0_1194:
+	test	r8b, 1
+	je	.LBB0_1196
+# %bb.1195:
+	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
+	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
+	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
+	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1196:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1197
+.LBB0_1201:
+	xor	edi, edi
+.LBB0_1202:
+	test	r8b, 1
+	je	.LBB0_1204
+# %bb.1203:
+	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1204:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1205
+.LBB0_1209:
+	xor	edi, edi
+.LBB0_1210:
+	test	r8b, 1
+	je	.LBB0_1212
+# %bb.1211:
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1212:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1213
+.LBB0_1217:
+	xor	edi, edi
+.LBB0_1218:
+	test	r8b, 1
+	je	.LBB0_1220
+# %bb.1219:
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1220:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1221
+.LBB0_1225:
+	xor	edi, edi
+.LBB0_1226:
+	test	r8b, 1
+	je	.LBB0_1228
+# %bb.1227:
+	vpmovsxbd	xmm0, dword ptr [rdx + rdi]
+	vpmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
+	vpmovsxbd	xmm2, dword ptr [rdx + rdi + 8]
+	vpmovsxbd	xmm3, dword ptr [rdx + rdi + 12]
+	vcvtdq2pd	ymm0, xmm0
+	vcvtdq2pd	ymm1, xmm1
+	vcvtdq2pd	ymm2, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1228:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1229
+.LBB0_1233:
+	xor	edi, edi
+.LBB0_1234:
+	test	r8b, 1
+	je	.LBB0_1236
+# %bb.1235:
+	vpmovzxbd	xmm0, dword ptr [rdx + rdi] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxbd	xmm2, dword ptr [rdx + rdi + 8] # xmm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vpmovzxbd	xmm3, dword ptr [rdx + rdi + 12] # xmm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	vcvtdq2pd	ymm0, xmm0
+	vcvtdq2pd	ymm1, xmm1
+	vcvtdq2pd	ymm2, xmm2
+	vcvtdq2pd	ymm3, xmm3
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1236:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1237
+.LBB0_1241:
+	xor	edi, edi
+.LBB0_1242:
+	test	r8b, 1
+	je	.LBB0_1244
+# %bb.1243:
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
+	vpshufb	xmm4, xmm4, xmm0
+	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
+	vpshufb	xmm0, xmm5, xmm0
+	vpunpckldq	xmm0, xmm0, xmm4        # xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm0
+.LBB0_1244:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1245
+.LBB0_1249:
+	xor	edi, edi
+.LBB0_1250:
+	test	r8b, 1
+	je	.LBB0_1252
+# %bb.1251:
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
+	vpackssdw	xmm0, xmm0, xmm0
+	vpacksswb	xmm0, xmm0, xmm0
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpackssdw	xmm1, xmm1, xmm1
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
+	vpacksswb	xmm1, xmm1, xmm1
+	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
+	vpackssdw	xmm1, xmm2, xmm2
+	vpacksswb	xmm1, xmm1, xmm1
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 96]
+	vpackssdw	xmm2, xmm2, xmm2
+	vpacksswb	xmm2, xmm2, xmm2
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
+	vmovdqu	xmmword ptr [rcx + rdi], xmm0
+.LBB0_1252:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1253
+.LBB0_1257:
+	xor	edi, edi
+.LBB0_1258:
+	test	r8b, 1
+	je	.LBB0_1260
+# %bb.1259:
+	vmovupd	ymm0, ymmword ptr [rdx + rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovupd	ymmword ptr [rcx + rdi], ymm0
+	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
+.LBB0_1260:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1261
+.LBB0_1265:
+	xor	edi, edi
+.LBB0_1266:
+	test	r8b, 1
+	je	.LBB0_1268
+# %bb.1267:
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
+	vpshufb	xmm2, xmm2, xmm0
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
+	vpshufb	xmm0, xmm4, xmm0
+	vpunpcklwd	xmm0, xmm0, xmm3        # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
+	vpunpckldq	xmm0, xmm2, xmm0        # xmm0 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
+	vpunpcklqdq	xmm0, xmm1, xmm0        # xmm0 = xmm1[0],xmm0[0]
+	vmovdqu	xmmword ptr [rcx + rdi], xmm0
+.LBB0_1268:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1269
+.LBB0_1273:
+	xor	edi, edi
+.LBB0_1274:
+	test	r8b, 1
+	je	.LBB0_1276
+# %bb.1275:
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vextracti128	xmm2, ymm1, 1
+	vpackuswb	xmm1, xmm1, xmm2
+	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vextracti128	xmm3, ymm2, 1
+	vpackuswb	xmm2, xmm2, xmm3
+	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vextracti128	xmm4, ymm3, 1
+	vpackuswb	xmm3, xmm3, xmm4
+	vpand	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vextracti128	xmm4, ymm0, 1
+	vpackuswb	xmm0, xmm0, xmm4
+	vmovdqu	xmmword ptr [rcx + rdi], xmm1
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm0
+.LBB0_1276:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1277
+.LBB0_1281:
+	xor	edi, edi
+.LBB0_1282:
+	test	r8b, 1
+	je	.LBB0_1284
+# %bb.1283:
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vextracti128	xmm2, ymm1, 1
+	vpackuswb	xmm1, xmm1, xmm2
+	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vextracti128	xmm3, ymm2, 1
+	vpackuswb	xmm2, xmm2, xmm3
+	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vextracti128	xmm4, ymm3, 1
+	vpackuswb	xmm3, xmm3, xmm4
+	vpand	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vextracti128	xmm4, ymm0, 1
+	vpackuswb	xmm0, xmm0, xmm4
+	vmovdqu	xmmword ptr [rcx + rdi], xmm1
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm0
+.LBB0_1284:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1285
+.LBB0_1289:
+	xor	edi, edi
+.LBB0_1290:
+	test	r8b, 1
+	je	.LBB0_1292
+# %bb.1291:
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
+	vpshufb	xmm2, xmm2, xmm0
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
+	vpshufb	xmm0, xmm4, xmm0
+	vpunpcklwd	xmm0, xmm0, xmm3        # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
+	vpunpckldq	xmm0, xmm2, xmm0        # xmm0 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
+	vpunpcklqdq	xmm0, xmm1, xmm0        # xmm0 = xmm1[0],xmm0[0]
+	vmovdqu	xmmword ptr [rcx + rdi], xmm0
+.LBB0_1292:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1293
+.LBB0_1297:
+	xor	edi, edi
+.LBB0_1298:
+	test	r8b, 1
+	je	.LBB0_1300
+# %bb.1299:
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
+	vextracti128	xmm1, ymm0, 1
+	vpackssdw	xmm0, xmm0, xmm1
+	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vinserti128	ymm2, ymm2, xmm3, 1
+	vpacksswb	ymm2, ymm2, ymm0
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vpacksswb	ymm0, ymm0, ymm0
+	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm0
+.LBB0_1300:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1301
+.LBB0_1305:
+	xor	edi, edi
+.LBB0_1306:
+	test	r8b, 1
+	je	.LBB0_1308
+# %bb.1307:
+	vmovupd	ymm0, ymmword ptr [rdx + rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovupd	ymmword ptr [rcx + rdi], ymm0
+	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
+.LBB0_1308:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1309
+.LBB0_1313:
+	xor	edi, edi
+.LBB0_1314:
+	test	r8b, 1
+	je	.LBB0_1316
+# %bb.1315:
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
+	vpshufb	xmm4, xmm4, xmm0
+	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
+	vpshufb	xmm0, xmm5, xmm0
+	vpunpckldq	xmm0, xmm0, xmm4        # xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm0
+.LBB0_1316:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1317
+.LBB0_1321:
+	xor	edi, edi
+.LBB0_1322:
+	test	r8b, 1
+	je	.LBB0_1324
+# %bb.1323:
+	vpmovsxbq	ymm0, dword ptr [rdx + rdi]
+	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 4]
+	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 8]
+	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 12]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1324:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1325
+.LBB0_1329:
+	xor	edi, edi
+.LBB0_1330:
+	test	r8b, 1
+	je	.LBB0_1332
+# %bb.1331:
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1332:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1333
+.LBB0_1337:
+	xor	edi, edi
+.LBB0_1338:
+	test	r8b, 1
+	je	.LBB0_1340
+# %bb.1339:
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1340:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1341
+.LBB0_1345:
+	xor	edi, edi
+.LBB0_1346:
+	test	r8b, 1
+	je	.LBB0_1348
+# %bb.1347:
+	vpmovzxbq	ymm0, dword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 4] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 8] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 12] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1348:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1349
+.LBB0_1353:
+	xor	edi, edi
+.LBB0_1354:
+	test	r8b, 1
+	je	.LBB0_1356
+# %bb.1355:
+	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi]
+	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 16]
+	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 32]
+	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 48]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
+.LBB0_1356:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1357
+.LBB0_1361:
+	xor	edi, edi
+.LBB0_1362:
+	test	r8b, 1
+	je	.LBB0_1364
+# %bb.1363:
+	vpmovsxbw	ymm0, xmmword ptr [rdx + rdi]
+	vpmovsxbw	ymm1, xmmword ptr [rdx + rdi + 16]
+	vpmovsxbw	ymm2, xmmword ptr [rdx + rdi + 32]
+	vpmovsxbw	ymm3, xmmword ptr [rdx + rdi + 48]
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
+.LBB0_1364:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1365
+.LBB0_1369:
+	xor	edi, edi
+.LBB0_1370:
+	test	r8b, 1
+	je	.LBB0_1372
+# %bb.1371:
+	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
+.LBB0_1372:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1373
+.LBB0_1377:
+	xor	edi, edi
+.LBB0_1378:
+	test	r8b, 1
+	je	.LBB0_1380
+# %bb.1379:
+	vpmovzxbw	ymm0, xmmword ptr [rdx + rdi] # ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm1, xmmword ptr [rdx + rdi + 16] # ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm2, xmmword ptr [rdx + rdi + 32] # ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vpmovzxbw	ymm3, xmmword ptr [rdx + rdi + 48] # ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
+	vmovdqu	ymmword ptr [rcx + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 2*rdi + 96], ymm3
+.LBB0_1380:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1381
+.LBB0_1385:
+	xor	edi, edi
+.LBB0_1386:
+	test	r8b, 1
+	je	.LBB0_1388
+# %bb.1387:
+	vpmovsxbq	ymm0, dword ptr [rdx + rdi]
+	vpmovsxbq	ymm1, dword ptr [rdx + rdi + 4]
+	vpmovsxbq	ymm2, dword ptr [rdx + rdi + 8]
+	vpmovsxbq	ymm3, dword ptr [rdx + rdi + 12]
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1388:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1389
+.LBB0_1393:
+	xor	edi, edi
+.LBB0_1394:
+	test	r8b, 1
+	je	.LBB0_1396
+# %bb.1395:
+	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
+	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
+	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
+	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
+	vcvtdq2ps	ymm0, ymm0
+	vcvtdq2ps	ymm1, ymm1
+	vcvtdq2ps	ymm2, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1396:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1397
+.LBB0_1401:
+	xor	edi, edi
+.LBB0_1402:
+	test	r8b, 1
+	je	.LBB0_1404
+# %bb.1403:
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1404:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1405
+.LBB0_1409:
+	xor	edi, edi
+.LBB0_1410:
+	test	r8b, 1
+	je	.LBB0_1412
+# %bb.1411:
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1412:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1413
+.LBB0_1417:
+	xor	edi, edi
+.LBB0_1418:
+	test	r8b, 1
+	je	.LBB0_1420
+# %bb.1419:
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1420:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1421
+.LBB0_1425:
+	xor	edi, edi
+.LBB0_1426:
+	test	r8b, 1
+	je	.LBB0_1428
+# %bb.1427:
+	vpmovzxbq	ymm0, dword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm1, dword ptr [rdx + rdi + 4] # ymm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm2, dword ptr [rdx + rdi + 8] # ymm2 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vpmovzxbq	ymm3, dword ptr [rdx + rdi + 12] # ymm3 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero,mem[2],zero,zero,zero,zero,zero,zero,zero,mem[3],zero,zero,zero,zero,zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 8*rdi + 96], ymm3
+.LBB0_1428:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1429
+.LBB0_1433:
+	xor	edi, edi
+.LBB0_1434:
+	test	r8b, 1
+	je	.LBB0_1436
+# %bb.1435:
+	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vcvtdq2ps	ymm0, ymm0
+	vcvtdq2ps	ymm1, ymm1
+	vcvtdq2ps	ymm2, ymm2
+	vcvtdq2ps	ymm3, ymm3
+	vmovups	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovups	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1436:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1437
+.LBB0_1441:
+	xor	edi, edi
+.LBB0_1442:
+	test	r8b, 1
+	je	.LBB0_1444
+# %bb.1443:
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
+	vpshufb	xmm4, xmm4, xmm0
+	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
+	vpshufb	xmm0, xmm5, xmm0
+	vpunpckldq	xmm0, xmm0, xmm4        # xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm0
+.LBB0_1444:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1445
+.LBB0_1449:
+	xor	edi, edi
+.LBB0_1450:
+	test	r8b, 1
+	je	.LBB0_1452
+# %bb.1451:
+	vcvttpd2dq	xmm0, ymmword ptr [rdx + 8*rdi]
+	vpackusdw	xmm0, xmm0, xmm0
+	vpackuswb	xmm0, xmm0, xmm0
+	vcvttpd2dq	xmm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpackusdw	xmm1, xmm1, xmm1
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 64]
+	vpackuswb	xmm1, xmm1, xmm1
+	vpunpckldq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
+	vpackusdw	xmm1, xmm2, xmm2
+	vpackuswb	xmm1, xmm1, xmm1
+	vcvttpd2dq	xmm2, ymmword ptr [rdx + 8*rdi + 96]
+	vpackusdw	xmm2, xmm2, xmm2
+	vpackuswb	xmm2, xmm2, xmm2
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpunpcklqdq	xmm0, xmm0, xmm1        # xmm0 = xmm0[0],xmm1[0]
+	vmovdqu	xmmword ptr [rcx + rdi], xmm0
+.LBB0_1452:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1453
+.LBB0_1457:
+	xor	edi, edi
+.LBB0_1458:
+	test	r8b, 1
+	je	.LBB0_1460
+# %bb.1459:
+	vmovupd	ymm0, ymmword ptr [rdx + rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovupd	ymmword ptr [rcx + rdi], ymm0
+	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
+.LBB0_1460:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1461
+.LBB0_1465:
+	xor	edi, edi
+.LBB0_1466:
+	test	r8b, 1
+	je	.LBB0_1468
+# %bb.1467:
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
+	vpshufb	xmm2, xmm2, xmm0
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
+	vpshufb	xmm0, xmm4, xmm0
+	vpunpcklwd	xmm0, xmm0, xmm3        # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
+	vpunpckldq	xmm0, xmm2, xmm0        # xmm0 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
+	vpunpcklqdq	xmm0, xmm1, xmm0        # xmm0 = xmm1[0],xmm0[0]
+	vmovdqu	xmmword ptr [rcx + rdi], xmm0
+.LBB0_1468:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1469
+.LBB0_1473:
+	xor	edi, edi
+.LBB0_1474:
+	test	r8b, 1
+	je	.LBB0_1476
+# %bb.1475:
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vextracti128	xmm2, ymm1, 1
+	vpackuswb	xmm1, xmm1, xmm2
+	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vextracti128	xmm3, ymm2, 1
+	vpackuswb	xmm2, xmm2, xmm3
+	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vextracti128	xmm4, ymm3, 1
+	vpackuswb	xmm3, xmm3, xmm4
+	vpand	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vextracti128	xmm4, ymm0, 1
+	vpackuswb	xmm0, xmm0, xmm4
+	vmovdqu	xmmword ptr [rcx + rdi], xmm1
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm0
+.LBB0_1476:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1477
+.LBB0_1481:
+	xor	edi, edi
+.LBB0_1482:
+	test	r8b, 1
+	je	.LBB0_1484
+# %bb.1483:
+	vmovdqa	ymm0, ymmword ptr [rip + .LCPI0_16] # ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
+	vpand	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vextracti128	xmm2, ymm1, 1
+	vpackuswb	xmm1, xmm1, xmm2
+	vpand	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vextracti128	xmm3, ymm2, 1
+	vpackuswb	xmm2, xmm2, xmm3
+	vpand	ymm3, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vextracti128	xmm4, ymm3, 1
+	vpackuswb	xmm3, xmm3, xmm4
+	vpand	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vextracti128	xmm4, ymm0, 1
+	vpackuswb	xmm0, xmm0, xmm4
+	vmovdqu	xmmword ptr [rcx + rdi], xmm1
+	vmovdqu	xmmword ptr [rcx + rdi + 16], xmm2
+	vmovdqu	xmmword ptr [rcx + rdi + 32], xmm3
+	vmovdqu	xmmword ptr [rcx + rdi + 48], xmm0
+.LBB0_1484:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1485
+.LBB0_1489:
+	xor	edi, edi
+.LBB0_1490:
+	test	r8b, 1
+	je	.LBB0_1492
+# %bb.1491:
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_4] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	vmovdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpcklwd	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vmovdqu	xmm2, xmmword ptr [rdx + 8*rdi + 80]
+	vpshufb	xmm2, xmm2, xmm0
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 64]
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpcklwd	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
+	vmovdqu	xmm3, xmmword ptr [rdx + 8*rdi + 112]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 8*rdi + 96]
+	vpshufb	xmm0, xmm4, xmm0
+	vpunpcklwd	xmm0, xmm0, xmm3        # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
+	vpunpckldq	xmm0, xmm2, xmm0        # xmm0 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
+	vpunpcklqdq	xmm0, xmm1, xmm0        # xmm0 = xmm1[0],xmm0[0]
+	vmovdqu	xmmword ptr [rcx + rdi], xmm0
+.LBB0_1492:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1493
+.LBB0_1497:
+	xor	edi, edi
+.LBB0_1498:
+	test	r8b, 1
+	je	.LBB0_1500
+# %bb.1499:
+	vcvttps2dq	ymm0, ymmword ptr [rdx + 4*rdi]
+	vextracti128	xmm1, ymm0, 1
+	vpackssdw	xmm0, xmm0, xmm1
+	vcvttps2dq	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vextracti128	xmm2, ymm1, 1
+	vpackssdw	xmm1, xmm1, xmm2
+	vcvttps2dq	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vextracti128	xmm3, ymm2, 1
+	vpackssdw	xmm2, xmm2, xmm3
+	vcvttps2dq	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vextracti128	xmm4, ymm3, 1
+	vpackssdw	xmm3, xmm3, xmm4
+	vinserti128	ymm2, ymm2, xmm3, 1
+	vpackuswb	ymm2, ymm2, ymm0
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vpackuswb	ymm0, ymm0, ymm0
+	vpunpcklqdq	ymm0, ymm0, ymm2        # ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm0
+.LBB0_1500:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1501
+.LBB0_1505:
+	xor	edi, edi
+.LBB0_1506:
+	test	r8b, 1
+	je	.LBB0_1508
+# %bb.1507:
+	vmovupd	ymm0, ymmword ptr [rdx + rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovupd	ymmword ptr [rcx + rdi], ymm0
+	vmovupd	ymmword ptr [rcx + rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + rdi + 96], ymm3
+.LBB0_1508:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1509
+.LBB0_1513:
+	xor	edi, edi
+.LBB0_1514:
+	test	r8b, 1
+	je	.LBB0_1516
+# %bb.1515:
+	vmovdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+	vmovdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	vmovdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
+	vpshufb	xmm2, xmm2, xmm0
+	vpshufb	xmm1, xmm1, xmm0
+	vpunpckldq	xmm1, xmm1, xmm2        # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+	vpshufb	xmm2, xmm4, xmm0
+	vpshufb	xmm3, xmm3, xmm0
+	vpunpckldq	xmm2, xmm3, xmm2        # xmm2 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
+	vmovdqu	xmm3, xmmword ptr [rdx + 4*rdi + 80]
+	vpshufb	xmm3, xmm3, xmm0
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 64]
+	vpshufb	xmm4, xmm4, xmm0
+	vpunpckldq	xmm3, xmm4, xmm3        # xmm3 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
+	vmovdqu	xmm4, xmmword ptr [rdx + 4*rdi + 112]
+	vpshufb	xmm4, xmm4, xmm0
+	vmovdqu	xmm5, xmmword ptr [rdx + 4*rdi + 96]
+	vpshufb	xmm0, xmm5, xmm0
+	vpunpckldq	xmm0, xmm0, xmm4        # xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1]
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vpunpcklqdq	ymm0, ymm1, ymm0        # ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
+	vpermq	ymm0, ymm0, 216                 # ymm0 = ymm0[0,2,1,3]
+	vmovdqu	ymmword ptr [rcx + rdi], ymm0
+.LBB0_1516:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1517
+.LBB0_1521:
+	xor	edi, edi
+.LBB0_1522:
+	test	r8b, 1
+	je	.LBB0_1524
+# %bb.1523:
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1524:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1525
+.LBB0_1529:
+	xor	edi, edi
+.LBB0_1530:
+	test	r8b, 1
+	je	.LBB0_1532
+# %bb.1531:
+	vpmovsxbd	ymm0, qword ptr [rdx + rdi]
+	vpmovsxbd	ymm1, qword ptr [rdx + rdi + 8]
+	vpmovsxbd	ymm2, qword ptr [rdx + rdi + 16]
+	vpmovsxbd	ymm3, qword ptr [rdx + rdi + 24]
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1532:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1533
+.LBB0_1537:
+	xor	edi, edi
+.LBB0_1538:
+	test	r8b, 1
+	je	.LBB0_1540
+# %bb.1539:
+	vpmovzxbd	ymm0, qword ptr [rdx + rdi] # ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm1, qword ptr [rdx + rdi + 8] # ymm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm2, qword ptr [rdx + rdi + 16] # ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vpmovzxbd	ymm3, qword ptr [rdx + rdi + 24] # ymm3 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
+	vmovdqu	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1540:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1541
+.LBB0_1545:
+	xor	edi, edi
+.LBB0_1546:
+	test	r8b, 1
+	je	.LBB0_1548
+# %bb.1547:
+	vmovupd	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovupd	ymmword ptr [rcx + 4*rdi], ymm0
+	vmovupd	ymmword ptr [rcx + 4*rdi + 32], ymm1
+	vmovupd	ymmword ptr [rcx + 4*rdi + 64], ymm2
+	vmovupd	ymmword ptr [rcx + 4*rdi + 96], ymm3
+.LBB0_1548:
+	cmp	rsi, r9
+	je	.LBB0_1553
+	jmp	.LBB0_1549
+.Lfunc_end0:
+	.size	cast_type_numeric_avx2, .Lfunc_end0-cast_type_numeric_avx2
+                                        # -- End function
+	.ident	"Ubuntu clang version 11.1.0-6"
+	.section	".note.GNU-stack","",@progbits
+	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/cast_numeric_neon.s b/go/arrow/compute/internal/kernels/_lib/cast_numeric_neon.s
new file mode 100644
index 00000000000..d029bae0fae
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/cast_numeric_neon.s
@@ -0,0 +1,6088 @@
+	.text
+	.file	"cast_numeric.cc"
+	.globl	cast_type_numeric_neon          // -- Begin function cast_type_numeric_neon
+	.p2align	2
+	.type	cast_type_numeric_neon,@function
+cast_type_numeric_neon:                 // @cast_type_numeric_neon
+// %bb.0:
+	stp	x29, x30, [sp, #-16]!           // 16-byte Folded Spill
+	cmp	w0, #6                          // =6
+	mov	x29, sp
+	b.gt	.LBB0_17
+// %bb.1:
+	cmp	w0, #3                          // =3
+	b.le	.LBB0_29
+// %bb.2:
+	cmp	w0, #4                          // =4
+	b.eq	.LBB0_53
+// %bb.3:
+	cmp	w0, #5                          // =5
+	b.eq	.LBB0_61
+// %bb.4:
+	cmp	w0, #6                          // =6
+	b.ne	.LBB0_893
+// %bb.5:
+	cmp	w1, #6                          // =6
+	b.gt	.LBB0_109
+// %bb.6:
+	cmp	w1, #3                          // =3
+	b.le	.LBB0_191
+// %bb.7:
+	cmp	w1, #4                          // =4
+	b.eq	.LBB0_347
+// %bb.8:
+	cmp	w1, #5                          // =5
+	b.eq	.LBB0_350
+// %bb.9:
+	cmp	w1, #6                          // =6
+	b.ne	.LBB0_893
+// %bb.10:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.11:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_14
+// %bb.12:
+	lsl	x9, x8, #2
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_894
+// %bb.13:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_894
+.LBB0_14:
+	mov	x9, xzr
+.LBB0_15:
+	lsl	x10, x9, #2
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_16:                               // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x10], #4
+	subs	x8, x8, #1                      // =1
+	str	w11, [x9], #4
+	b.ne	.LBB0_16
+	b	.LBB0_893
+.LBB0_17:
+	cmp	w0, #8                          // =8
+	b.le	.LBB0_43
+// %bb.18:
+	cmp	w0, #9                          // =9
+	b.eq	.LBB0_69
+// %bb.19:
+	cmp	w0, #11                         // =11
+	b.eq	.LBB0_77
+// %bb.20:
+	cmp	w0, #12                         // =12
+	b.ne	.LBB0_893
+// %bb.21:
+	cmp	w1, #6                          // =6
+	b.gt	.LBB0_116
+// %bb.22:
+	cmp	w1, #3                          // =3
+	b.le	.LBB0_200
+// %bb.23:
+	cmp	w1, #4                          // =4
+	b.eq	.LBB0_353
+// %bb.24:
+	cmp	w1, #5                          // =5
+	b.eq	.LBB0_356
+// %bb.25:
+	cmp	w1, #6                          // =6
+	b.ne	.LBB0_893
+// %bb.26:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.27:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_643
+// %bb.28:
+	mov	x9, xzr
+	b	.LBB0_646
+.LBB0_29:
+	cmp	w0, #2                          // =2
+	b.eq	.LBB0_85
+// %bb.30:
+	cmp	w0, #3                          // =3
+	b.ne	.LBB0_893
+// %bb.31:
+	cmp	w1, #6                          // =6
+	b.gt	.LBB0_127
+// %bb.32:
+	cmp	w1, #3                          // =3
+	b.le	.LBB0_209
+// %bb.33:
+	cmp	w1, #4                          // =4
+	b.eq	.LBB0_359
+// %bb.34:
+	cmp	w1, #5                          // =5
+	b.eq	.LBB0_366
+// %bb.35:
+	cmp	w1, #6                          // =6
+	b.ne	.LBB0_893
+// %bb.36:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.37:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_40
+// %bb.38:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_897
+// %bb.39:
+	add	x9, x3, x8, lsl #2
+	cmp	x9, x2
+	b.ls	.LBB0_897
+.LBB0_40:
+	mov	x9, xzr
+.LBB0_41:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9
+.LBB0_42:                               // =>This Inner Loop Header: Depth=1
+	ldrsb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	str	w11, [x10], #4
+	b.ne	.LBB0_42
+	b	.LBB0_893
+.LBB0_43:
+	cmp	w0, #7                          // =7
+	b.eq	.LBB0_97
+// %bb.44:
+	cmp	w0, #8                          // =8
+	b.ne	.LBB0_893
+// %bb.45:
+	cmp	w1, #6                          // =6
+	b.gt	.LBB0_138
+// %bb.46:
+	cmp	w1, #3                          // =3
+	b.le	.LBB0_218
+// %bb.47:
+	cmp	w1, #4                          // =4
+	b.eq	.LBB0_373
+// %bb.48:
+	cmp	w1, #5                          // =5
+	b.eq	.LBB0_376
+// %bb.49:
+	cmp	w1, #6                          // =6
+	b.ne	.LBB0_893
+// %bb.50:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.51:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_648
+// %bb.52:
+	mov	x9, xzr
+	b	.LBB0_651
+.LBB0_53:
+	cmp	w1, #6                          // =6
+	b.gt	.LBB0_145
+// %bb.54:
+	cmp	w1, #3                          // =3
+	b.le	.LBB0_227
+// %bb.55:
+	cmp	w1, #4                          // =4
+	b.eq	.LBB0_379
+// %bb.56:
+	cmp	w1, #5                          // =5
+	b.eq	.LBB0_386
+// %bb.57:
+	cmp	w1, #6                          // =6
+	b.ne	.LBB0_893
+// %bb.58:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.59:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_653
+// %bb.60:
+	mov	x9, xzr
+	b	.LBB0_656
+.LBB0_61:
+	cmp	w1, #6                          // =6
+	b.gt	.LBB0_152
+// %bb.62:
+	cmp	w1, #3                          // =3
+	b.le	.LBB0_236
+// %bb.63:
+	cmp	w1, #4                          // =4
+	b.eq	.LBB0_393
+// %bb.64:
+	cmp	w1, #5                          // =5
+	b.eq	.LBB0_400
+// %bb.65:
+	cmp	w1, #6                          // =6
+	b.ne	.LBB0_893
+// %bb.66:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.67:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_658
+// %bb.68:
+	mov	x9, xzr
+	b	.LBB0_661
+.LBB0_69:
+	cmp	w1, #6                          // =6
+	b.gt	.LBB0_159
+// %bb.70:
+	cmp	w1, #3                          // =3
+	b.le	.LBB0_245
+// %bb.71:
+	cmp	w1, #4                          // =4
+	b.eq	.LBB0_407
+// %bb.72:
+	cmp	w1, #5                          // =5
+	b.eq	.LBB0_410
+// %bb.73:
+	cmp	w1, #6                          // =6
+	b.ne	.LBB0_893
+// %bb.74:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.75:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_663
+// %bb.76:
+	mov	x9, xzr
+	b	.LBB0_666
+.LBB0_77:
+	cmp	w1, #6                          // =6
+	b.gt	.LBB0_166
+// %bb.78:
+	cmp	w1, #3                          // =3
+	b.le	.LBB0_254
+// %bb.79:
+	cmp	w1, #4                          // =4
+	b.eq	.LBB0_413
+// %bb.80:
+	cmp	w1, #5                          // =5
+	b.eq	.LBB0_416
+// %bb.81:
+	cmp	w1, #6                          // =6
+	b.ne	.LBB0_893
+// %bb.82:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.83:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_668
+// %bb.84:
+	mov	x9, xzr
+	b	.LBB0_671
+.LBB0_85:
+	cmp	w1, #6                          // =6
+	b.gt	.LBB0_173
+// %bb.86:
+	cmp	w1, #3                          // =3
+	b.le	.LBB0_263
+// %bb.87:
+	cmp	w1, #4                          // =4
+	b.eq	.LBB0_419
+// %bb.88:
+	cmp	w1, #5                          // =5
+	b.eq	.LBB0_426
+// %bb.89:
+	cmp	w1, #6                          // =6
+	b.ne	.LBB0_893
+// %bb.90:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.91:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_94
+// %bb.92:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_900
+// %bb.93:
+	add	x9, x3, x8, lsl #2
+	cmp	x9, x2
+	b.ls	.LBB0_900
+.LBB0_94:
+	mov	x9, xzr
+.LBB0_95:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9
+.LBB0_96:                               // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	str	w11, [x10], #4
+	b.ne	.LBB0_96
+	b	.LBB0_893
+.LBB0_97:
+	cmp	w1, #6                          // =6
+	b.gt	.LBB0_184
+// %bb.98:
+	cmp	w1, #3                          // =3
+	b.le	.LBB0_272
+// %bb.99:
+	cmp	w1, #4                          // =4
+	b.eq	.LBB0_433
+// %bb.100:
+	cmp	w1, #5                          // =5
+	b.eq	.LBB0_436
+// %bb.101:
+	cmp	w1, #6                          // =6
+	b.ne	.LBB0_893
+// %bb.102:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.103:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_106
+// %bb.104:
+	lsl	x9, x8, #2
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_903
+// %bb.105:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_903
+.LBB0_106:
+	mov	x9, xzr
+.LBB0_107:
+	lsl	x10, x9, #2
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_108:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x10], #4
+	subs	x8, x8, #1                      // =1
+	str	w11, [x9], #4
+	b.ne	.LBB0_108
+	b	.LBB0_893
+.LBB0_109:
+	cmp	w1, #8                          // =8
+	b.le	.LBB0_281
+// %bb.110:
+	cmp	w1, #9                          // =9
+	b.eq	.LBB0_439
+// %bb.111:
+	cmp	w1, #11                         // =11
+	b.eq	.LBB0_442
+// %bb.112:
+	cmp	w1, #12                         // =12
+	b.ne	.LBB0_893
+// %bb.113:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.114:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_673
+// %bb.115:
+	mov	x9, xzr
+	b	.LBB0_676
+.LBB0_116:
+	cmp	w1, #8                          // =8
+	b.le	.LBB0_286
+// %bb.117:
+	cmp	w1, #9                          // =9
+	b.eq	.LBB0_445
+// %bb.118:
+	cmp	w1, #11                         // =11
+	b.eq	.LBB0_448
+// %bb.119:
+	cmp	w1, #12                         // =12
+	b.ne	.LBB0_893
+// %bb.120:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.121:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_124
+// %bb.122:
+	lsl	x9, x8, #3
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_906
+// %bb.123:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_906
+.LBB0_124:
+	mov	x9, xzr
+.LBB0_125:
+	lsl	x10, x9, #3
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_126:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x10], #8
+	subs	x8, x8, #1                      // =1
+	str	x11, [x9], #8
+	b.ne	.LBB0_126
+	b	.LBB0_893
+.LBB0_127:
+	cmp	w1, #8                          // =8
+	b.le	.LBB0_291
+// %bb.128:
+	cmp	w1, #9                          // =9
+	b.eq	.LBB0_451
+// %bb.129:
+	cmp	w1, #11                         // =11
+	b.eq	.LBB0_458
+// %bb.130:
+	cmp	w1, #12                         // =12
+	b.ne	.LBB0_893
+// %bb.131:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.132:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_135
+// %bb.133:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_909
+// %bb.134:
+	add	x9, x3, x8, lsl #3
+	cmp	x9, x2
+	b.ls	.LBB0_909
+.LBB0_135:
+	mov	x9, xzr
+.LBB0_136:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9
+.LBB0_137:                              // =>This Inner Loop Header: Depth=1
+	ldrsb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	scvtf	d0, w11
+	str	d0, [x10], #8
+	b.ne	.LBB0_137
+	b	.LBB0_893
+.LBB0_138:
+	cmp	w1, #8                          // =8
+	b.le	.LBB0_300
+// %bb.139:
+	cmp	w1, #9                          // =9
+	b.eq	.LBB0_465
+// %bb.140:
+	cmp	w1, #11                         // =11
+	b.eq	.LBB0_472
+// %bb.141:
+	cmp	w1, #12                         // =12
+	b.ne	.LBB0_893
+// %bb.142:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.143:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_678
+// %bb.144:
+	mov	x9, xzr
+	b	.LBB0_681
+.LBB0_145:
+	cmp	w1, #8                          // =8
+	b.le	.LBB0_309
+// %bb.146:
+	cmp	w1, #9                          // =9
+	b.eq	.LBB0_475
+// %bb.147:
+	cmp	w1, #11                         // =11
+	b.eq	.LBB0_478
+// %bb.148:
+	cmp	w1, #12                         // =12
+	b.ne	.LBB0_893
+// %bb.149:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.150:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_683
+// %bb.151:
+	mov	x9, xzr
+	b	.LBB0_686
+.LBB0_152:
+	cmp	w1, #8                          // =8
+	b.le	.LBB0_314
+// %bb.153:
+	cmp	w1, #9                          // =9
+	b.eq	.LBB0_481
+// %bb.154:
+	cmp	w1, #11                         // =11
+	b.eq	.LBB0_484
+// %bb.155:
+	cmp	w1, #12                         // =12
+	b.ne	.LBB0_893
+// %bb.156:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.157:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_688
+// %bb.158:
+	mov	x9, xzr
+	b	.LBB0_691
+.LBB0_159:
+	cmp	w1, #8                          // =8
+	b.le	.LBB0_319
+// %bb.160:
+	cmp	w1, #9                          // =9
+	b.eq	.LBB0_487
+// %bb.161:
+	cmp	w1, #11                         // =11
+	b.eq	.LBB0_494
+// %bb.162:
+	cmp	w1, #12                         // =12
+	b.ne	.LBB0_893
+// %bb.163:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.164:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_693
+// %bb.165:
+	mov	x9, xzr
+	b	.LBB0_696
+.LBB0_166:
+	cmp	w1, #8                          // =8
+	b.le	.LBB0_328
+// %bb.167:
+	cmp	w1, #9                          // =9
+	b.eq	.LBB0_497
+// %bb.168:
+	cmp	w1, #11                         // =11
+	b.eq	.LBB0_500
+// %bb.169:
+	cmp	w1, #12                         // =12
+	b.ne	.LBB0_893
+// %bb.170:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.171:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_698
+// %bb.172:
+	mov	x9, xzr
+	b	.LBB0_701
+.LBB0_173:
+	cmp	w1, #8                          // =8
+	b.le	.LBB0_333
+// %bb.174:
+	cmp	w1, #9                          // =9
+	b.eq	.LBB0_507
+// %bb.175:
+	cmp	w1, #11                         // =11
+	b.eq	.LBB0_514
+// %bb.176:
+	cmp	w1, #12                         // =12
+	b.ne	.LBB0_893
+// %bb.177:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.178:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_181
+// %bb.179:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_912
+// %bb.180:
+	add	x9, x3, x8, lsl #3
+	cmp	x9, x2
+	b.ls	.LBB0_912
+.LBB0_181:
+	mov	x9, xzr
+.LBB0_182:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9
+.LBB0_183:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	ucvtf	d0, w11
+	str	d0, [x10], #8
+	b.ne	.LBB0_183
+	b	.LBB0_893
+.LBB0_184:
+	cmp	w1, #8                          // =8
+	b.le	.LBB0_342
+// %bb.185:
+	cmp	w1, #9                          // =9
+	b.eq	.LBB0_521
+// %bb.186:
+	cmp	w1, #11                         // =11
+	b.eq	.LBB0_524
+// %bb.187:
+	cmp	w1, #12                         // =12
+	b.ne	.LBB0_893
+// %bb.188:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.189:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_703
+// %bb.190:
+	mov	x9, xzr
+	b	.LBB0_706
+.LBB0_191:
+	cmp	w1, #2                          // =2
+	b.eq	.LBB0_527
+// %bb.192:
+	cmp	w1, #3                          // =3
+	b.ne	.LBB0_893
+// %bb.193:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.194:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_197
+// %bb.195:
+	add	x9, x2, x8, lsl #2
+	cmp	x9, x3
+	b.ls	.LBB0_915
+// %bb.196:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_915
+.LBB0_197:
+	mov	x9, xzr
+.LBB0_198:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #2
+.LBB0_199:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_199
+	b	.LBB0_893
+.LBB0_200:
+	cmp	w1, #2                          // =2
+	b.eq	.LBB0_534
+// %bb.201:
+	cmp	w1, #3                          // =3
+	b.ne	.LBB0_893
+// %bb.202:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.203:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_206
+// %bb.204:
+	add	x9, x2, x8, lsl #3
+	cmp	x9, x3
+	b.ls	.LBB0_918
+// %bb.205:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_918
+.LBB0_206:
+	mov	x9, xzr
+.LBB0_207:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #3
+.LBB0_208:                              // =>This Inner Loop Header: Depth=1
+	ldr	d0, [x9], #8
+	subs	x8, x8, #1                      // =1
+	fcvtzs	w11, d0
+	strb	w11, [x10], #1
+	b.ne	.LBB0_208
+	b	.LBB0_893
+.LBB0_209:
+	cmp	w1, #2                          // =2
+	b.eq	.LBB0_541
+// %bb.210:
+	cmp	w1, #3                          // =3
+	b.ne	.LBB0_893
+// %bb.211:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.212:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_215
+// %bb.213:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_921
+// %bb.214:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_921
+.LBB0_215:
+	mov	x9, xzr
+.LBB0_216:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9
+.LBB0_217:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_217
+	b	.LBB0_893
+.LBB0_218:
+	cmp	w1, #2                          // =2
+	b.eq	.LBB0_548
+// %bb.219:
+	cmp	w1, #3                          // =3
+	b.ne	.LBB0_893
+// %bb.220:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.221:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_224
+// %bb.222:
+	add	x9, x2, x8, lsl #3
+	cmp	x9, x3
+	b.ls	.LBB0_924
+// %bb.223:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_924
+.LBB0_224:
+	mov	x9, xzr
+.LBB0_225:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #3
+.LBB0_226:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_226
+	b	.LBB0_893
+.LBB0_227:
+	cmp	w1, #2                          // =2
+	b.eq	.LBB0_555
+// %bb.228:
+	cmp	w1, #3                          // =3
+	b.ne	.LBB0_893
+// %bb.229:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.230:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_233
+// %bb.231:
+	add	x9, x2, x8, lsl #1
+	cmp	x9, x3
+	b.ls	.LBB0_927
+// %bb.232:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_927
+.LBB0_233:
+	mov	x9, xzr
+.LBB0_234:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #1
+.LBB0_235:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_235
+	b	.LBB0_893
+.LBB0_236:
+	cmp	w1, #2                          // =2
+	b.eq	.LBB0_562
+// %bb.237:
+	cmp	w1, #3                          // =3
+	b.ne	.LBB0_893
+// %bb.238:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.239:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_242
+// %bb.240:
+	add	x9, x2, x8, lsl #1
+	cmp	x9, x3
+	b.ls	.LBB0_930
+// %bb.241:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_930
+.LBB0_242:
+	mov	x9, xzr
+.LBB0_243:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #1
+.LBB0_244:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_244
+	b	.LBB0_893
+.LBB0_245:
+	cmp	w1, #2                          // =2
+	b.eq	.LBB0_569
+// %bb.246:
+	cmp	w1, #3                          // =3
+	b.ne	.LBB0_893
+// %bb.247:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.248:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_251
+// %bb.249:
+	add	x9, x2, x8, lsl #3
+	cmp	x9, x3
+	b.ls	.LBB0_933
+// %bb.250:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_933
+.LBB0_251:
+	mov	x9, xzr
+.LBB0_252:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #3
+.LBB0_253:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_253
+	b	.LBB0_893
+.LBB0_254:
+	cmp	w1, #2                          // =2
+	b.eq	.LBB0_576
+// %bb.255:
+	cmp	w1, #3                          // =3
+	b.ne	.LBB0_893
+// %bb.256:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.257:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_260
+// %bb.258:
+	add	x9, x2, x8, lsl #2
+	cmp	x9, x3
+	b.ls	.LBB0_936
+// %bb.259:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_936
+.LBB0_260:
+	mov	x9, xzr
+.LBB0_261:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #2
+.LBB0_262:                              // =>This Inner Loop Header: Depth=1
+	ldr	s0, [x9], #4
+	subs	x8, x8, #1                      // =1
+	fcvtzs	w11, s0
+	strb	w11, [x10], #1
+	b.ne	.LBB0_262
+	b	.LBB0_893
+.LBB0_263:
+	cmp	w1, #2                          // =2
+	b.eq	.LBB0_583
+// %bb.264:
+	cmp	w1, #3                          // =3
+	b.ne	.LBB0_893
+// %bb.265:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.266:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_269
+// %bb.267:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_939
+// %bb.268:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_939
+.LBB0_269:
+	mov	x9, xzr
+.LBB0_270:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9
+.LBB0_271:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_271
+	b	.LBB0_893
+.LBB0_272:
+	cmp	w1, #2                          // =2
+	b.eq	.LBB0_590
+// %bb.273:
+	cmp	w1, #3                          // =3
+	b.ne	.LBB0_893
+// %bb.274:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.275:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_278
+// %bb.276:
+	add	x9, x2, x8, lsl #2
+	cmp	x9, x3
+	b.ls	.LBB0_942
+// %bb.277:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_942
+.LBB0_278:
+	mov	x9, xzr
+.LBB0_279:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #2
+.LBB0_280:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_280
+	b	.LBB0_893
+.LBB0_281:
+	cmp	w1, #7                          // =7
+	b.eq	.LBB0_597
+// %bb.282:
+	cmp	w1, #8                          // =8
+	b.ne	.LBB0_893
+// %bb.283:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.284:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_708
+// %bb.285:
+	mov	x9, xzr
+	b	.LBB0_711
+.LBB0_286:
+	cmp	w1, #7                          // =7
+	b.eq	.LBB0_604
+// %bb.287:
+	cmp	w1, #8                          // =8
+	b.ne	.LBB0_893
+// %bb.288:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.289:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_713
+// %bb.290:
+	mov	x9, xzr
+	b	.LBB0_716
+.LBB0_291:
+	cmp	w1, #7                          // =7
+	b.eq	.LBB0_607
+// %bb.292:
+	cmp	w1, #8                          // =8
+	b.ne	.LBB0_893
+// %bb.293:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.294:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_297
+// %bb.295:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_945
+// %bb.296:
+	add	x9, x3, x8, lsl #3
+	cmp	x9, x2
+	b.ls	.LBB0_945
+.LBB0_297:
+	mov	x9, xzr
+.LBB0_298:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9
+.LBB0_299:                              // =>This Inner Loop Header: Depth=1
+	ldrsb	x11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	str	x11, [x10], #8
+	b.ne	.LBB0_299
+	b	.LBB0_893
+.LBB0_300:
+	cmp	w1, #7                          // =7
+	b.eq	.LBB0_614
+// %bb.301:
+	cmp	w1, #8                          // =8
+	b.ne	.LBB0_893
+// %bb.302:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.303:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_306
+// %bb.304:
+	lsl	x9, x8, #3
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_948
+// %bb.305:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_948
+.LBB0_306:
+	mov	x9, xzr
+.LBB0_307:
+	lsl	x10, x9, #3
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_308:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x10], #8
+	subs	x8, x8, #1                      // =1
+	str	x11, [x9], #8
+	b.ne	.LBB0_308
+	b	.LBB0_893
+.LBB0_309:
+	cmp	w1, #7                          // =7
+	b.eq	.LBB0_617
+// %bb.310:
+	cmp	w1, #8                          // =8
+	b.ne	.LBB0_893
+// %bb.311:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.312:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_718
+// %bb.313:
+	mov	x9, xzr
+	b	.LBB0_721
+.LBB0_314:
+	cmp	w1, #7                          // =7
+	b.eq	.LBB0_620
+// %bb.315:
+	cmp	w1, #8                          // =8
+	b.ne	.LBB0_893
+// %bb.316:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.317:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_723
+// %bb.318:
+	mov	x9, xzr
+	b	.LBB0_726
+.LBB0_319:
+	cmp	w1, #7                          // =7
+	b.eq	.LBB0_623
+// %bb.320:
+	cmp	w1, #8                          // =8
+	b.ne	.LBB0_893
+// %bb.321:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.322:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_325
+// %bb.323:
+	lsl	x9, x8, #3
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_951
+// %bb.324:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_951
+.LBB0_325:
+	mov	x9, xzr
+.LBB0_326:
+	lsl	x10, x9, #3
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_327:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x10], #8
+	subs	x8, x8, #1                      // =1
+	str	x11, [x9], #8
+	b.ne	.LBB0_327
+	b	.LBB0_893
+.LBB0_328:
+	cmp	w1, #7                          // =7
+	b.eq	.LBB0_626
+// %bb.329:
+	cmp	w1, #8                          // =8
+	b.ne	.LBB0_893
+// %bb.330:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.331:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_728
+// %bb.332:
+	mov	x9, xzr
+	b	.LBB0_731
+.LBB0_333:
+	cmp	w1, #7                          // =7
+	b.eq	.LBB0_629
+// %bb.334:
+	cmp	w1, #8                          // =8
+	b.ne	.LBB0_893
+// %bb.335:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.336:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_339
+// %bb.337:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_954
+// %bb.338:
+	add	x9, x3, x8, lsl #3
+	cmp	x9, x2
+	b.ls	.LBB0_954
+.LBB0_339:
+	mov	x9, xzr
+.LBB0_340:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9
+.LBB0_341:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	str	x11, [x10], #8
+	b.ne	.LBB0_341
+	b	.LBB0_893
+.LBB0_342:
+	cmp	w1, #7                          // =7
+	b.eq	.LBB0_636
+// %bb.343:
+	cmp	w1, #8                          // =8
+	b.ne	.LBB0_893
+// %bb.344:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.345:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_733
+// %bb.346:
+	mov	x9, xzr
+	b	.LBB0_736
+.LBB0_347:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.348:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_738
+// %bb.349:
+	mov	x9, xzr
+	b	.LBB0_741
+.LBB0_350:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.351:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_743
+// %bb.352:
+	mov	x9, xzr
+	b	.LBB0_746
+.LBB0_353:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.354:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_748
+// %bb.355:
+	mov	x9, xzr
+	b	.LBB0_751
+.LBB0_356:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.357:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_753
+// %bb.358:
+	mov	x9, xzr
+	b	.LBB0_756
+.LBB0_359:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.360:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_363
+// %bb.361:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_957
+// %bb.362:
+	add	x9, x3, x8, lsl #1
+	cmp	x9, x2
+	b.ls	.LBB0_957
+.LBB0_363:
+	mov	x9, xzr
+.LBB0_364:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9
+.LBB0_365:                              // =>This Inner Loop Header: Depth=1
+	ldrsb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x10], #2
+	b.ne	.LBB0_365
+	b	.LBB0_893
+.LBB0_366:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.367:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_370
+// %bb.368:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_960
+// %bb.369:
+	add	x9, x3, x8, lsl #1
+	cmp	x9, x2
+	b.ls	.LBB0_960
+.LBB0_370:
+	mov	x9, xzr
+.LBB0_371:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9
+.LBB0_372:                              // =>This Inner Loop Header: Depth=1
+	ldrsb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x10], #2
+	b.ne	.LBB0_372
+	b	.LBB0_893
+.LBB0_373:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.374:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_758
+// %bb.375:
+	mov	x9, xzr
+	b	.LBB0_761
+.LBB0_376:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.377:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_763
+// %bb.378:
+	mov	x9, xzr
+	b	.LBB0_766
+.LBB0_379:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.380:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_383
+// %bb.381:
+	lsl	x9, x8, #1
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_963
+// %bb.382:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_963
+.LBB0_383:
+	mov	x9, xzr
+.LBB0_384:
+	lsl	x10, x9, #1
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_385:                              // =>This Inner Loop Header: Depth=1
+	ldrh	w11, [x10], #2
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x9], #2
+	b.ne	.LBB0_385
+	b	.LBB0_893
+.LBB0_386:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.387:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_390
+// %bb.388:
+	lsl	x9, x8, #1
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_966
+// %bb.389:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_966
+.LBB0_390:
+	mov	x9, xzr
+.LBB0_391:
+	lsl	x10, x9, #1
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_392:                              // =>This Inner Loop Header: Depth=1
+	ldrh	w11, [x10], #2
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x9], #2
+	b.ne	.LBB0_392
+	b	.LBB0_893
+.LBB0_393:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.394:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_397
+// %bb.395:
+	lsl	x9, x8, #1
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_969
+// %bb.396:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_969
+.LBB0_397:
+	mov	x9, xzr
+.LBB0_398:
+	lsl	x10, x9, #1
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_399:                              // =>This Inner Loop Header: Depth=1
+	ldrh	w11, [x10], #2
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x9], #2
+	b.ne	.LBB0_399
+	b	.LBB0_893
+.LBB0_400:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.401:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_404
+// %bb.402:
+	lsl	x9, x8, #1
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_972
+// %bb.403:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_972
+.LBB0_404:
+	mov	x9, xzr
+.LBB0_405:
+	lsl	x10, x9, #1
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_406:                              // =>This Inner Loop Header: Depth=1
+	ldrh	w11, [x10], #2
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x9], #2
+	b.ne	.LBB0_406
+	b	.LBB0_893
+.LBB0_407:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.408:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_768
+// %bb.409:
+	mov	x9, xzr
+	b	.LBB0_771
+.LBB0_410:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.411:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_773
+// %bb.412:
+	mov	x9, xzr
+	b	.LBB0_776
+.LBB0_413:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.414:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_778
+// %bb.415:
+	mov	x9, xzr
+	b	.LBB0_781
+.LBB0_416:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.417:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_783
+// %bb.418:
+	mov	x9, xzr
+	b	.LBB0_786
+.LBB0_419:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.420:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_423
+// %bb.421:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_975
+// %bb.422:
+	add	x9, x3, x8, lsl #1
+	cmp	x9, x2
+	b.ls	.LBB0_975
+.LBB0_423:
+	mov	x9, xzr
+.LBB0_424:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9
+.LBB0_425:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x10], #2
+	b.ne	.LBB0_425
+	b	.LBB0_893
+.LBB0_426:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.427:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_430
+// %bb.428:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_978
+// %bb.429:
+	add	x9, x3, x8, lsl #1
+	cmp	x9, x2
+	b.ls	.LBB0_978
+.LBB0_430:
+	mov	x9, xzr
+.LBB0_431:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9
+.LBB0_432:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x10], #2
+	b.ne	.LBB0_432
+	b	.LBB0_893
+.LBB0_433:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.434:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_788
+// %bb.435:
+	mov	x9, xzr
+	b	.LBB0_791
+.LBB0_436:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.437:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_793
+// %bb.438:
+	mov	x9, xzr
+	b	.LBB0_796
+.LBB0_439:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.440:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_798
+// %bb.441:
+	mov	x9, xzr
+	b	.LBB0_801
+.LBB0_442:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.443:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_803
+// %bb.444:
+	mov	x9, xzr
+	b	.LBB0_806
+.LBB0_445:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.446:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_808
+// %bb.447:
+	mov	x9, xzr
+	b	.LBB0_811
+.LBB0_448:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.449:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_813
+// %bb.450:
+	mov	x9, xzr
+	b	.LBB0_816
+.LBB0_451:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.452:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_455
+// %bb.453:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_981
+// %bb.454:
+	add	x9, x3, x8, lsl #3
+	cmp	x9, x2
+	b.ls	.LBB0_981
+.LBB0_455:
+	mov	x9, xzr
+.LBB0_456:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9
+.LBB0_457:                              // =>This Inner Loop Header: Depth=1
+	ldrsb	x11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	str	x11, [x10], #8
+	b.ne	.LBB0_457
+	b	.LBB0_893
+.LBB0_458:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.459:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_462
+// %bb.460:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_984
+// %bb.461:
+	add	x9, x3, x8, lsl #2
+	cmp	x9, x2
+	b.ls	.LBB0_984
+.LBB0_462:
+	mov	x9, xzr
+.LBB0_463:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9
+.LBB0_464:                              // =>This Inner Loop Header: Depth=1
+	ldrsb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	scvtf	s0, w11
+	str	s0, [x10], #4
+	b.ne	.LBB0_464
+	b	.LBB0_893
+.LBB0_465:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.466:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_469
+// %bb.467:
+	lsl	x9, x8, #3
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_987
+// %bb.468:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_987
+.LBB0_469:
+	mov	x9, xzr
+.LBB0_470:
+	lsl	x10, x9, #3
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_471:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x10], #8
+	subs	x8, x8, #1                      // =1
+	str	x11, [x9], #8
+	b.ne	.LBB0_471
+	b	.LBB0_893
+.LBB0_472:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.473:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_818
+// %bb.474:
+	mov	x9, xzr
+	b	.LBB0_821
+.LBB0_475:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.476:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_823
+// %bb.477:
+	mov	x9, xzr
+	b	.LBB0_826
+.LBB0_478:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.479:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_828
+// %bb.480:
+	mov	x9, xzr
+	b	.LBB0_831
+.LBB0_481:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.482:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_833
+// %bb.483:
+	mov	x9, xzr
+	b	.LBB0_836
+.LBB0_484:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.485:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_838
+// %bb.486:
+	mov	x9, xzr
+	b	.LBB0_841
+.LBB0_487:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.488:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_491
+// %bb.489:
+	lsl	x9, x8, #3
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_990
+// %bb.490:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_990
+.LBB0_491:
+	mov	x9, xzr
+.LBB0_492:
+	lsl	x10, x9, #3
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_493:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x10], #8
+	subs	x8, x8, #1                      // =1
+	str	x11, [x9], #8
+	b.ne	.LBB0_493
+	b	.LBB0_893
+.LBB0_494:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.495:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_843
+// %bb.496:
+	mov	x9, xzr
+	b	.LBB0_846
+.LBB0_497:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.498:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_848
+// %bb.499:
+	mov	x9, xzr
+	b	.LBB0_851
+.LBB0_500:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.501:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_504
+// %bb.502:
+	lsl	x9, x8, #2
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_993
+// %bb.503:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_993
+.LBB0_504:
+	mov	x9, xzr
+.LBB0_505:
+	lsl	x10, x9, #2
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_506:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x10], #4
+	subs	x8, x8, #1                      // =1
+	str	w11, [x9], #4
+	b.ne	.LBB0_506
+	b	.LBB0_893
+.LBB0_507:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.508:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_511
+// %bb.509:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_996
+// %bb.510:
+	add	x9, x3, x8, lsl #3
+	cmp	x9, x2
+	b.ls	.LBB0_996
+.LBB0_511:
+	mov	x9, xzr
+.LBB0_512:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9
+.LBB0_513:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	str	x11, [x10], #8
+	b.ne	.LBB0_513
+	b	.LBB0_893
+.LBB0_514:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.515:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_518
+// %bb.516:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_999
+// %bb.517:
+	add	x9, x3, x8, lsl #2
+	cmp	x9, x2
+	b.ls	.LBB0_999
+.LBB0_518:
+	mov	x9, xzr
+.LBB0_519:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9
+.LBB0_520:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	ucvtf	s0, w11
+	str	s0, [x10], #4
+	b.ne	.LBB0_520
+	b	.LBB0_893
+.LBB0_521:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.522:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_853
+// %bb.523:
+	mov	x9, xzr
+	b	.LBB0_856
+.LBB0_524:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.525:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_858
+// %bb.526:
+	mov	x9, xzr
+	b	.LBB0_861
+.LBB0_527:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.528:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_531
+// %bb.529:
+	add	x9, x2, x8, lsl #2
+	cmp	x9, x3
+	b.ls	.LBB0_1002
+// %bb.530:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_1002
+.LBB0_531:
+	mov	x9, xzr
+.LBB0_532:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #2
+.LBB0_533:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_533
+	b	.LBB0_893
+.LBB0_534:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.535:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.lo	.LBB0_538
+// %bb.536:
+	add	x9, x2, x8, lsl #3
+	cmp	x9, x3
+	b.ls	.LBB0_1005
+// %bb.537:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_1005
+.LBB0_538:
+	mov	x9, xzr
+.LBB0_539:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #3
+.LBB0_540:                              // =>This Inner Loop Header: Depth=1
+	ldr	d0, [x9], #8
+	subs	x8, x8, #1                      // =1
+	fcvtzs	w11, d0
+	strb	w11, [x10], #1
+	b.ne	.LBB0_540
+	b	.LBB0_893
+.LBB0_541:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.542:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_545
+// %bb.543:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_1008
+// %bb.544:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_1008
+.LBB0_545:
+	mov	x9, xzr
+.LBB0_546:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9
+.LBB0_547:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_547
+	b	.LBB0_893
+.LBB0_548:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.549:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_552
+// %bb.550:
+	add	x9, x2, x8, lsl #3
+	cmp	x9, x3
+	b.ls	.LBB0_1011
+// %bb.551:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_1011
+.LBB0_552:
+	mov	x9, xzr
+.LBB0_553:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #3
+.LBB0_554:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_554
+	b	.LBB0_893
+.LBB0_555:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.556:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_559
+// %bb.557:
+	add	x9, x2, x8, lsl #1
+	cmp	x9, x3
+	b.ls	.LBB0_1014
+// %bb.558:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_1014
+.LBB0_559:
+	mov	x9, xzr
+.LBB0_560:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #1
+.LBB0_561:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_561
+	b	.LBB0_893
+.LBB0_562:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.563:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_566
+// %bb.564:
+	add	x9, x2, x8, lsl #1
+	cmp	x9, x3
+	b.ls	.LBB0_1017
+// %bb.565:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_1017
+.LBB0_566:
+	mov	x9, xzr
+.LBB0_567:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #1
+.LBB0_568:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_568
+	b	.LBB0_893
+.LBB0_569:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.570:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_573
+// %bb.571:
+	add	x9, x2, x8, lsl #3
+	cmp	x9, x3
+	b.ls	.LBB0_1020
+// %bb.572:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_1020
+.LBB0_573:
+	mov	x9, xzr
+.LBB0_574:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #3
+.LBB0_575:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_575
+	b	.LBB0_893
+.LBB0_576:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.577:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_580
+// %bb.578:
+	add	x9, x2, x8, lsl #2
+	cmp	x9, x3
+	b.ls	.LBB0_1023
+// %bb.579:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_1023
+.LBB0_580:
+	mov	x9, xzr
+.LBB0_581:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #2
+.LBB0_582:                              // =>This Inner Loop Header: Depth=1
+	ldr	s0, [x9], #4
+	subs	x8, x8, #1                      // =1
+	fcvtzs	w11, s0
+	strb	w11, [x10], #1
+	b.ne	.LBB0_582
+	b	.LBB0_893
+.LBB0_583:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.584:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_587
+// %bb.585:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_1026
+// %bb.586:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_1026
+.LBB0_587:
+	mov	x9, xzr
+.LBB0_588:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9
+.LBB0_589:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_589
+	b	.LBB0_893
+.LBB0_590:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.591:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_594
+// %bb.592:
+	add	x9, x2, x8, lsl #2
+	cmp	x9, x3
+	b.ls	.LBB0_1029
+// %bb.593:
+	add	x9, x3, x8
+	cmp	x9, x2
+	b.ls	.LBB0_1029
+.LBB0_594:
+	mov	x9, xzr
+.LBB0_595:
+	sub	x8, x8, x9
+	add	x10, x3, x9
+	add	x9, x2, x9, lsl #2
+.LBB0_596:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	strb	w11, [x10], #1
+	b.ne	.LBB0_596
+	b	.LBB0_893
+.LBB0_597:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.598:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_601
+// %bb.599:
+	lsl	x9, x8, #2
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_1032
+// %bb.600:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_1032
+.LBB0_601:
+	mov	x9, xzr
+.LBB0_602:
+	lsl	x10, x9, #2
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_603:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x10], #4
+	subs	x8, x8, #1                      // =1
+	str	w11, [x9], #4
+	b.ne	.LBB0_603
+	b	.LBB0_893
+.LBB0_604:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.605:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_863
+// %bb.606:
+	mov	x9, xzr
+	b	.LBB0_866
+.LBB0_607:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.608:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_611
+// %bb.609:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_1035
+// %bb.610:
+	add	x9, x3, x8, lsl #2
+	cmp	x9, x2
+	b.ls	.LBB0_1035
+.LBB0_611:
+	mov	x9, xzr
+.LBB0_612:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9
+.LBB0_613:                              // =>This Inner Loop Header: Depth=1
+	ldrsb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	str	w11, [x10], #4
+	b.ne	.LBB0_613
+	b	.LBB0_893
+.LBB0_614:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.615:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_868
+// %bb.616:
+	mov	x9, xzr
+	b	.LBB0_871
+.LBB0_617:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.618:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_873
+// %bb.619:
+	mov	x9, xzr
+	b	.LBB0_876
+.LBB0_620:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.621:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_878
+// %bb.622:
+	mov	x9, xzr
+	b	.LBB0_881
+.LBB0_623:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.624:
+	cmp	w4, #16                         // =16
+	mov	w8, w4
+	b.hs	.LBB0_883
+// %bb.625:
+	mov	x9, xzr
+	b	.LBB0_886
+.LBB0_626:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.627:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.hs	.LBB0_888
+// %bb.628:
+	mov	x9, xzr
+	b	.LBB0_891
+.LBB0_629:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.630:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_633
+// %bb.631:
+	add	x9, x2, x8
+	cmp	x9, x3
+	b.ls	.LBB0_1038
+// %bb.632:
+	add	x9, x3, x8, lsl #2
+	cmp	x9, x2
+	b.ls	.LBB0_1038
+.LBB0_633:
+	mov	x9, xzr
+.LBB0_634:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9
+.LBB0_635:                              // =>This Inner Loop Header: Depth=1
+	ldrb	w11, [x9], #1
+	subs	x8, x8, #1                      // =1
+	str	w11, [x10], #4
+	b.ne	.LBB0_635
+	b	.LBB0_893
+.LBB0_636:
+	cmp	w4, #1                          // =1
+	b.lt	.LBB0_893
+// %bb.637:
+	cmp	w4, #32                         // =32
+	mov	w8, w4
+	b.lo	.LBB0_640
+// %bb.638:
+	lsl	x9, x8, #2
+	add	x10, x2, x9
+	cmp	x10, x3
+	b.ls	.LBB0_1041
+// %bb.639:
+	add	x9, x3, x9
+	cmp	x9, x2
+	b.ls	.LBB0_1041
+.LBB0_640:
+	mov	x9, xzr
+.LBB0_641:
+	lsl	x10, x9, #2
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_642:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x10], #4
+	subs	x8, x8, #1                      // =1
+	str	w11, [x9], #4
+	b.ne	.LBB0_642
+	b	.LBB0_893
+.LBB0_643:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_644:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12, #64]
+	ldp	q3, q2, [x12, #96]
+	ldp	q5, q4, [x12, #32]
+	ldp	q7, q6, [x12], #128
+	fcvtzu	v1.2d, v1.2d
+	fcvtzu	v3.2d, v3.2d
+	fcvtzu	v5.2d, v5.2d
+	fcvtzu	v7.2d, v7.2d
+	fcvtzu	v4.2d, v4.2d
+	fcvtzu	v6.2d, v6.2d
+	fcvtzu	v2.2d, v2.2d
+	fcvtzu	v0.2d, v0.2d
+	xtn	v5.2s, v5.2d
+	xtn	v7.2s, v7.2d
+	xtn	v3.2s, v3.2d
+	xtn	v1.2s, v1.2d
+	xtn2	v5.4s, v4.2d
+	xtn2	v7.4s, v6.2d
+	xtn2	v3.4s, v2.2d
+	xtn2	v1.4s, v0.2d
+	subs	x10, x10, #16                   // =16
+	stp	q1, q3, [x11, #32]
+	stp	q7, q5, [x11], #64
+	b.ne	.LBB0_644
+// %bb.645:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_646:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #3
+.LBB0_647:                              // =>This Inner Loop Header: Depth=1
+	ldr	d0, [x9], #8
+	subs	x8, x8, #1                      // =1
+	fcvtzu	w11, d0
+	str	w11, [x10], #4
+	b.ne	.LBB0_647
+	b	.LBB0_893
+.LBB0_648:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_649:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12, #64]
+	ldp	q3, q2, [x12, #96]
+	ldp	q5, q4, [x12, #32]
+	ldp	q7, q6, [x12], #128
+	xtn	v1.2s, v1.2d
+	xtn	v3.2s, v3.2d
+	xtn	v5.2s, v5.2d
+	xtn	v7.2s, v7.2d
+	xtn2	v5.4s, v4.2d
+	xtn2	v7.4s, v6.2d
+	xtn2	v3.4s, v2.2d
+	xtn2	v1.4s, v0.2d
+	subs	x10, x10, #16                   // =16
+	stp	q1, q3, [x11, #32]
+	stp	q7, q5, [x11], #64
+	b.ne	.LBB0_649
+// %bb.650:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_651:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #3
+.LBB0_652:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	str	w11, [x10], #4
+	b.ne	.LBB0_652
+	b	.LBB0_893
+.LBB0_653:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_654:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	ushll	v4.4s, v1.4h, #0
+	ushll	v5.4s, v0.4h, #0
+	ushll2	v1.4s, v1.8h, #0
+	ushll2	v0.4s, v0.8h, #0
+	ushll	v6.4s, v3.4h, #0
+	ushll	v7.4s, v2.4h, #0
+	ushll2	v3.4s, v3.8h, #0
+	ushll2	v2.4s, v2.8h, #0
+	stp	q5, q0, [x11, #-32]
+	stp	q4, q1, [x11, #-64]
+	stp	q7, q2, [x11, #32]
+	stp	q6, q3, [x11], #128
+	b.ne	.LBB0_654
+// %bb.655:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_656:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #1
+.LBB0_657:                              // =>This Inner Loop Header: Depth=1
+	ldrh	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	str	w11, [x10], #4
+	b.ne	.LBB0_657
+	b	.LBB0_893
+.LBB0_658:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_659:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	sshll	v4.4s, v1.4h, #0
+	sshll	v5.4s, v0.4h, #0
+	sshll2	v1.4s, v1.8h, #0
+	sshll2	v0.4s, v0.8h, #0
+	sshll	v6.4s, v3.4h, #0
+	sshll	v7.4s, v2.4h, #0
+	sshll2	v3.4s, v3.8h, #0
+	sshll2	v2.4s, v2.8h, #0
+	stp	q5, q0, [x11, #-32]
+	stp	q4, q1, [x11, #-64]
+	stp	q7, q2, [x11, #32]
+	stp	q6, q3, [x11], #128
+	b.ne	.LBB0_659
+// %bb.660:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_661:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #1
+.LBB0_662:                              // =>This Inner Loop Header: Depth=1
+	ldrsh	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	str	w11, [x10], #4
+	b.ne	.LBB0_662
+	b	.LBB0_893
+.LBB0_663:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_664:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12, #64]
+	ldp	q3, q2, [x12, #96]
+	ldp	q5, q4, [x12, #32]
+	ldp	q7, q6, [x12], #128
+	xtn	v1.2s, v1.2d
+	xtn	v3.2s, v3.2d
+	xtn	v5.2s, v5.2d
+	xtn	v7.2s, v7.2d
+	xtn2	v5.4s, v4.2d
+	xtn2	v7.4s, v6.2d
+	xtn2	v3.4s, v2.2d
+	xtn2	v1.4s, v0.2d
+	subs	x10, x10, #16                   // =16
+	stp	q1, q3, [x11, #32]
+	stp	q7, q5, [x11], #64
+	b.ne	.LBB0_664
+// %bb.665:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_666:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #3
+.LBB0_667:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	str	w11, [x10], #4
+	b.ne	.LBB0_667
+	b	.LBB0_893
+.LBB0_668:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_669:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-32]
+	ldp	q2, q3, [x10, #-64]
+	ldp	q4, q5, [x10, #32]
+	ldp	q6, q7, [x10], #128
+	fcvtzu	v1.4s, v1.4s
+	fcvtzu	v3.4s, v3.4s
+	fcvtzu	v2.4s, v2.4s
+	fcvtzu	v0.4s, v0.4s
+	fcvtzu	v7.4s, v7.4s
+	fcvtzu	v6.4s, v6.4s
+	fcvtzu	v5.4s, v5.4s
+	fcvtzu	v4.4s, v4.4s
+	subs	x12, x12, #32                   // =32
+	stp	q0, q1, [x11, #-32]
+	stp	q2, q3, [x11, #-64]
+	stp	q4, q5, [x11, #32]
+	stp	q6, q7, [x11], #128
+	b.ne	.LBB0_669
+// %bb.670:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_671:
+	lsl	x10, x9, #2
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_672:                              // =>This Inner Loop Header: Depth=1
+	ldr	s0, [x10], #4
+	subs	x8, x8, #1                      // =1
+	fcvtzu	w11, s0
+	str	w11, [x9], #4
+	b.ne	.LBB0_672
+	b	.LBB0_893
+.LBB0_673:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_674:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	add	x12, x12, #64                   // =64
+	subs	x10, x10, #16                   // =16
+	ushll	v4.2d, v1.2s, #0
+	ushll	v5.2d, v0.2s, #0
+	ushll	v6.2d, v3.2s, #0
+	ushll	v7.2d, v2.2s, #0
+	ushll2	v1.2d, v1.4s, #0
+	ushll2	v0.2d, v0.4s, #0
+	ushll2	v3.2d, v3.4s, #0
+	ushll2	v2.2d, v2.4s, #0
+	ucvtf	v4.2d, v4.2d
+	ucvtf	v5.2d, v5.2d
+	ucvtf	v6.2d, v6.2d
+	ucvtf	v7.2d, v7.2d
+	ucvtf	v1.2d, v1.2d
+	ucvtf	v0.2d, v0.2d
+	ucvtf	v3.2d, v3.2d
+	ucvtf	v2.2d, v2.2d
+	stp	q7, q2, [x11, #96]
+	stp	q6, q3, [x11, #64]
+	stp	q5, q0, [x11, #32]
+	stp	q4, q1, [x11], #128
+	b.ne	.LBB0_674
+// %bb.675:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_676:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #2
+.LBB0_677:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	ucvtf	d0, w11
+	str	d0, [x10], #8
+	b.ne	.LBB0_677
+	b	.LBB0_893
+.LBB0_678:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_679:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x12, #96]
+	ldp	q2, q3, [x12, #64]
+	ldp	q4, q5, [x12]
+	ldp	q6, q7, [x12, #32]
+	ucvtf	v1.2d, v1.2d
+	ucvtf	v3.2d, v3.2d
+	ucvtf	v5.2d, v5.2d
+	ucvtf	v4.2d, v4.2d
+	ucvtf	v7.2d, v7.2d
+	ucvtf	v6.2d, v6.2d
+	ucvtf	v2.2d, v2.2d
+	ucvtf	v0.2d, v0.2d
+	add	x12, x12, #128                  // =128
+	subs	x10, x10, #16                   // =16
+	stp	q0, q1, [x11, #96]
+	stp	q2, q3, [x11, #64]
+	stp	q6, q7, [x11, #32]
+	stp	q4, q5, [x11], #128
+	b.ne	.LBB0_679
+// %bb.680:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_681:
+	lsl	x10, x9, #3
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_682:                              // =>This Inner Loop Header: Depth=1
+	ldr	d0, [x10], #8
+	subs	x8, x8, #1                      // =1
+	ucvtf	d0, d0
+	str	d0, [x9], #8
+	b.ne	.LBB0_682
+	b	.LBB0_893
+.LBB0_683:
+	and	x9, x8, #0xfffffff0
+	movi	d0, #0x00ffff0000ffff
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_684:                              // =>This Inner Loop Header: Depth=1
+	ldp	q4, q2, [x12], #32
+	subs	x10, x10, #16                   // =16
+	ext	v1.16b, v4.16b, v4.16b, #8
+	umov	w13, v4.h[0]
+	umov	w15, v4.h[2]
+	ext	v3.16b, v2.16b, v2.16b, #8
+	umov	w14, v4.h[1]
+	umov	w16, v4.h[3]
+	umov	w17, v2.h[0]
+	umov	w18, v2.h[1]
+	umov	w0, v2.h[2]
+	fmov	s4, w13
+	umov	w13, v2.h[3]
+	fmov	s2, w15
+	umov	w15, v1.h[0]
+	fmov	s6, w0
+	umov	w0, v1.h[2]
+	fmov	s7, w15
+	umov	w15, v3.h[0]
+	fmov	s16, w0
+	umov	w0, v3.h[2]
+	fmov	s17, w15
+	mov	v6.s[1], w13
+	umov	w13, v3.h[1]
+	fmov	s5, w17
+	umov	w17, v1.h[1]
+	umov	w15, v1.h[3]
+	fmov	s1, w0
+	mov	v17.s[1], w13
+	umov	w13, v3.h[3]
+	mov	v4.s[1], w14
+	mov	v2.s[1], w16
+	mov	v5.s[1], w18
+	mov	v7.s[1], w17
+	mov	v16.s[1], w15
+	mov	v1.s[1], w13
+	and	v3.8b, v4.8b, v0.8b
+	and	v2.8b, v2.8b, v0.8b
+	and	v4.8b, v5.8b, v0.8b
+	and	v5.8b, v6.8b, v0.8b
+	and	v6.8b, v7.8b, v0.8b
+	and	v7.8b, v16.8b, v0.8b
+	and	v16.8b, v17.8b, v0.8b
+	and	v1.8b, v1.8b, v0.8b
+	ushll	v3.2d, v3.2s, #0
+	ushll	v2.2d, v2.2s, #0
+	ushll	v4.2d, v4.2s, #0
+	ushll	v5.2d, v5.2s, #0
+	ushll	v6.2d, v6.2s, #0
+	ushll	v7.2d, v7.2s, #0
+	ushll	v16.2d, v16.2s, #0
+	ushll	v1.2d, v1.2s, #0
+	ucvtf	v3.2d, v3.2d
+	ucvtf	v2.2d, v2.2d
+	ucvtf	v4.2d, v4.2d
+	ucvtf	v5.2d, v5.2d
+	ucvtf	v6.2d, v6.2d
+	ucvtf	v7.2d, v7.2d
+	ucvtf	v16.2d, v16.2d
+	ucvtf	v1.2d, v1.2d
+	stp	q4, q5, [x11, #64]
+	stp	q3, q2, [x11]
+	stp	q16, q1, [x11, #96]
+	stp	q6, q7, [x11, #32]
+	add	x11, x11, #128                  // =128
+	b.ne	.LBB0_684
+// %bb.685:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_686:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #1
+.LBB0_687:                              // =>This Inner Loop Header: Depth=1
+	ldrh	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	ucvtf	d0, w11
+	str	d0, [x10], #8
+	b.ne	.LBB0_687
+	b	.LBB0_893
+.LBB0_688:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_689:                              // =>This Inner Loop Header: Depth=1
+	ldp	q3, q1, [x12], #32
+	subs	x10, x10, #16                   // =16
+	ext	v0.16b, v3.16b, v3.16b, #8
+	umov	w13, v3.h[0]
+	umov	w15, v3.h[2]
+	ext	v2.16b, v1.16b, v1.16b, #8
+	umov	w14, v3.h[1]
+	umov	w16, v3.h[3]
+	umov	w17, v1.h[0]
+	umov	w18, v1.h[1]
+	umov	w0, v1.h[2]
+	fmov	s3, w13
+	umov	w13, v1.h[3]
+	fmov	s1, w15
+	umov	w15, v0.h[0]
+	fmov	s5, w0
+	umov	w0, v0.h[2]
+	fmov	s6, w15
+	umov	w15, v2.h[0]
+	fmov	s7, w0
+	umov	w0, v2.h[2]
+	fmov	s16, w15
+	mov	v5.s[1], w13
+	umov	w13, v2.h[1]
+	fmov	s4, w17
+	umov	w17, v0.h[1]
+	umov	w15, v0.h[3]
+	fmov	s0, w0
+	mov	v16.s[1], w13
+	umov	w13, v2.h[3]
+	mov	v3.s[1], w14
+	mov	v1.s[1], w16
+	mov	v4.s[1], w18
+	mov	v6.s[1], w17
+	mov	v7.s[1], w15
+	mov	v0.s[1], w13
+	shl	v2.2s, v3.2s, #16
+	shl	v1.2s, v1.2s, #16
+	shl	v3.2s, v4.2s, #16
+	shl	v4.2s, v5.2s, #16
+	shl	v5.2s, v6.2s, #16
+	shl	v6.2s, v7.2s, #16
+	shl	v7.2s, v16.2s, #16
+	shl	v0.2s, v0.2s, #16
+	sshr	v2.2s, v2.2s, #16
+	sshr	v1.2s, v1.2s, #16
+	sshr	v3.2s, v3.2s, #16
+	sshr	v4.2s, v4.2s, #16
+	sshr	v5.2s, v5.2s, #16
+	sshr	v6.2s, v6.2s, #16
+	sshr	v7.2s, v7.2s, #16
+	sshr	v0.2s, v0.2s, #16
+	sshll	v2.2d, v2.2s, #0
+	sshll	v1.2d, v1.2s, #0
+	sshll	v3.2d, v3.2s, #0
+	sshll	v4.2d, v4.2s, #0
+	sshll	v5.2d, v5.2s, #0
+	sshll	v6.2d, v6.2s, #0
+	sshll	v7.2d, v7.2s, #0
+	sshll	v0.2d, v0.2s, #0
+	scvtf	v2.2d, v2.2d
+	scvtf	v1.2d, v1.2d
+	scvtf	v3.2d, v3.2d
+	scvtf	v4.2d, v4.2d
+	scvtf	v5.2d, v5.2d
+	scvtf	v6.2d, v6.2d
+	scvtf	v7.2d, v7.2d
+	scvtf	v0.2d, v0.2d
+	stp	q3, q4, [x11, #64]
+	stp	q2, q1, [x11]
+	stp	q7, q0, [x11, #96]
+	stp	q5, q6, [x11, #32]
+	add	x11, x11, #128                  // =128
+	b.ne	.LBB0_689
+// %bb.690:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_691:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #1
+.LBB0_692:                              // =>This Inner Loop Header: Depth=1
+	ldrsh	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	scvtf	d0, w11
+	str	d0, [x10], #8
+	b.ne	.LBB0_692
+	b	.LBB0_893
+.LBB0_693:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_694:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x12, #96]
+	ldp	q2, q3, [x12, #64]
+	ldp	q4, q5, [x12]
+	ldp	q6, q7, [x12, #32]
+	scvtf	v1.2d, v1.2d
+	scvtf	v3.2d, v3.2d
+	scvtf	v5.2d, v5.2d
+	scvtf	v4.2d, v4.2d
+	scvtf	v7.2d, v7.2d
+	scvtf	v6.2d, v6.2d
+	scvtf	v2.2d, v2.2d
+	scvtf	v0.2d, v0.2d
+	add	x12, x12, #128                  // =128
+	subs	x10, x10, #16                   // =16
+	stp	q0, q1, [x11, #96]
+	stp	q2, q3, [x11, #64]
+	stp	q6, q7, [x11, #32]
+	stp	q4, q5, [x11], #128
+	b.ne	.LBB0_694
+// %bb.695:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_696:
+	lsl	x10, x9, #3
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_697:                              // =>This Inner Loop Header: Depth=1
+	ldr	d0, [x10], #8
+	subs	x8, x8, #1                      // =1
+	scvtf	d0, d0
+	str	d0, [x9], #8
+	b.ne	.LBB0_697
+	b	.LBB0_893
+.LBB0_698:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_699:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	add	x12, x12, #64                   // =64
+	subs	x10, x10, #16                   // =16
+	fcvtl	v4.2d, v1.2s
+	fcvtl	v5.2d, v0.2s
+	fcvtl	v6.2d, v3.2s
+	fcvtl	v7.2d, v2.2s
+	fcvtl2	v1.2d, v1.4s
+	fcvtl2	v0.2d, v0.4s
+	fcvtl2	v3.2d, v3.4s
+	fcvtl2	v2.2d, v2.4s
+	stp	q7, q2, [x11, #96]
+	stp	q6, q3, [x11, #64]
+	stp	q5, q0, [x11, #32]
+	stp	q4, q1, [x11], #128
+	b.ne	.LBB0_699
+// %bb.700:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_701:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #2
+.LBB0_702:                              // =>This Inner Loop Header: Depth=1
+	ldr	s0, [x9], #4
+	subs	x8, x8, #1                      // =1
+	fcvt	d0, s0
+	str	d0, [x10], #8
+	b.ne	.LBB0_702
+	b	.LBB0_893
+.LBB0_703:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_704:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	add	x12, x12, #64                   // =64
+	subs	x10, x10, #16                   // =16
+	sshll	v4.2d, v1.2s, #0
+	sshll	v5.2d, v0.2s, #0
+	sshll	v6.2d, v3.2s, #0
+	sshll	v7.2d, v2.2s, #0
+	sshll2	v1.2d, v1.4s, #0
+	sshll2	v0.2d, v0.4s, #0
+	sshll2	v3.2d, v3.4s, #0
+	sshll2	v2.2d, v2.4s, #0
+	scvtf	v4.2d, v4.2d
+	scvtf	v5.2d, v5.2d
+	scvtf	v6.2d, v6.2d
+	scvtf	v7.2d, v7.2d
+	scvtf	v1.2d, v1.2d
+	scvtf	v0.2d, v0.2d
+	scvtf	v3.2d, v3.2d
+	scvtf	v2.2d, v2.2d
+	stp	q7, q2, [x11, #96]
+	stp	q6, q3, [x11, #64]
+	stp	q5, q0, [x11, #32]
+	stp	q4, q1, [x11], #128
+	b.ne	.LBB0_704
+// %bb.705:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_706:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #2
+.LBB0_707:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	scvtf	d0, w11
+	str	d0, [x10], #8
+	b.ne	.LBB0_707
+	b	.LBB0_893
+.LBB0_708:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_709:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	add	x12, x12, #64                   // =64
+	subs	x10, x10, #16                   // =16
+	ushll	v4.2d, v1.2s, #0
+	ushll	v5.2d, v0.2s, #0
+	ushll	v6.2d, v3.2s, #0
+	ushll	v7.2d, v2.2s, #0
+	ushll2	v1.2d, v1.4s, #0
+	ushll2	v0.2d, v0.4s, #0
+	ushll2	v3.2d, v3.4s, #0
+	ushll2	v2.2d, v2.4s, #0
+	stp	q7, q2, [x11, #96]
+	stp	q6, q3, [x11, #64]
+	stp	q5, q0, [x11, #32]
+	stp	q4, q1, [x11], #128
+	b.ne	.LBB0_709
+// %bb.710:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_711:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #2
+.LBB0_712:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	str	x11, [x10], #8
+	b.ne	.LBB0_712
+	b	.LBB0_893
+.LBB0_713:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_714:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x12, #96]
+	ldp	q2, q3, [x12, #64]
+	ldp	q4, q5, [x12]
+	ldp	q6, q7, [x12, #32]
+	fcvtzu	v1.2d, v1.2d
+	fcvtzu	v3.2d, v3.2d
+	fcvtzu	v5.2d, v5.2d
+	fcvtzu	v4.2d, v4.2d
+	fcvtzu	v7.2d, v7.2d
+	fcvtzu	v6.2d, v6.2d
+	fcvtzu	v2.2d, v2.2d
+	fcvtzu	v0.2d, v0.2d
+	add	x12, x12, #128                  // =128
+	subs	x10, x10, #16                   // =16
+	stp	q0, q1, [x11, #96]
+	stp	q2, q3, [x11, #64]
+	stp	q6, q7, [x11, #32]
+	stp	q4, q5, [x11], #128
+	b.ne	.LBB0_714
+// %bb.715:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_716:
+	lsl	x10, x9, #3
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_717:                              // =>This Inner Loop Header: Depth=1
+	ldr	d0, [x10], #8
+	subs	x8, x8, #1                      // =1
+	fcvtzu	x11, d0
+	str	x11, [x9], #8
+	b.ne	.LBB0_717
+	b	.LBB0_893
+.LBB0_718:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_719:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x12], #32
+	subs	x10, x10, #16                   // =16
+	ushll	v2.4s, v0.4h, #0
+	ushll	v3.4s, v1.4h, #0
+	ushll2	v0.4s, v0.8h, #0
+	ushll2	v1.4s, v1.8h, #0
+	ushll	v4.2d, v2.2s, #0
+	ushll	v5.2d, v3.2s, #0
+	ushll2	v2.2d, v2.4s, #0
+	ushll	v6.2d, v0.2s, #0
+	ushll2	v3.2d, v3.4s, #0
+	ushll	v7.2d, v1.2s, #0
+	ushll2	v0.2d, v0.4s, #0
+	ushll2	v1.2d, v1.4s, #0
+	stp	q7, q1, [x11, #96]
+	stp	q6, q0, [x11, #32]
+	stp	q5, q3, [x11, #64]
+	stp	q4, q2, [x11], #128
+	b.ne	.LBB0_719
+// %bb.720:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_721:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #1
+.LBB0_722:                              // =>This Inner Loop Header: Depth=1
+	ldrh	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	str	x11, [x10], #8
+	b.ne	.LBB0_722
+	b	.LBB0_893
+.LBB0_723:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_724:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x12], #32
+	subs	x10, x10, #16                   // =16
+	sshll	v2.4s, v0.4h, #0
+	sshll	v3.4s, v1.4h, #0
+	sshll2	v0.4s, v0.8h, #0
+	sshll2	v1.4s, v1.8h, #0
+	sshll	v4.2d, v2.2s, #0
+	sshll	v5.2d, v3.2s, #0
+	sshll2	v2.2d, v2.4s, #0
+	sshll	v6.2d, v0.2s, #0
+	sshll2	v3.2d, v3.4s, #0
+	sshll	v7.2d, v1.2s, #0
+	sshll2	v0.2d, v0.4s, #0
+	sshll2	v1.2d, v1.4s, #0
+	stp	q7, q1, [x11, #96]
+	stp	q6, q0, [x11, #32]
+	stp	q5, q3, [x11, #64]
+	stp	q4, q2, [x11], #128
+	b.ne	.LBB0_724
+// %bb.725:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_726:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #1
+.LBB0_727:                              // =>This Inner Loop Header: Depth=1
+	ldrsh	x11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	str	x11, [x10], #8
+	b.ne	.LBB0_727
+	b	.LBB0_893
+.LBB0_728:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_729:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	add	x12, x12, #64                   // =64
+	subs	x10, x10, #16                   // =16
+	fcvtl	v4.2d, v1.2s
+	fcvtl	v5.2d, v0.2s
+	fcvtl	v6.2d, v3.2s
+	fcvtl	v7.2d, v2.2s
+	fcvtl2	v1.2d, v1.4s
+	fcvtl2	v0.2d, v0.4s
+	fcvtl2	v3.2d, v3.4s
+	fcvtl2	v2.2d, v2.4s
+	fcvtzu	v4.2d, v4.2d
+	fcvtzu	v5.2d, v5.2d
+	fcvtzu	v6.2d, v6.2d
+	fcvtzu	v7.2d, v7.2d
+	fcvtzu	v1.2d, v1.2d
+	fcvtzu	v0.2d, v0.2d
+	fcvtzu	v3.2d, v3.2d
+	fcvtzu	v2.2d, v2.2d
+	stp	q7, q2, [x11, #96]
+	stp	q6, q3, [x11, #64]
+	stp	q5, q0, [x11, #32]
+	stp	q4, q1, [x11], #128
+	b.ne	.LBB0_729
+// %bb.730:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_731:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #2
+.LBB0_732:                              // =>This Inner Loop Header: Depth=1
+	ldr	s0, [x9], #4
+	subs	x8, x8, #1                      // =1
+	fcvtzu	x11, s0
+	str	x11, [x10], #8
+	b.ne	.LBB0_732
+	b	.LBB0_893
+.LBB0_733:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_734:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	add	x12, x12, #64                   // =64
+	subs	x10, x10, #16                   // =16
+	sshll	v4.2d, v1.2s, #0
+	sshll	v5.2d, v0.2s, #0
+	sshll	v6.2d, v3.2s, #0
+	sshll	v7.2d, v2.2s, #0
+	sshll2	v1.2d, v1.4s, #0
+	sshll2	v0.2d, v0.4s, #0
+	sshll2	v3.2d, v3.4s, #0
+	sshll2	v2.2d, v2.4s, #0
+	stp	q7, q2, [x11, #96]
+	stp	q6, q3, [x11, #64]
+	stp	q5, q0, [x11, #32]
+	stp	q4, q1, [x11], #128
+	b.ne	.LBB0_734
+// %bb.735:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_736:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #2
+.LBB0_737:                              // =>This Inner Loop Header: Depth=1
+	ldrsw	x11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	str	x11, [x10], #8
+	b.ne	.LBB0_737
+	b	.LBB0_893
+.LBB0_738:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_739:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	xtn	v1.4h, v1.4s
+	xtn	v3.4h, v3.4s
+	xtn	v5.4h, v5.4s
+	xtn	v7.4h, v7.4s
+	xtn2	v3.8h, v2.4s
+	xtn2	v1.8h, v0.4s
+	xtn2	v7.8h, v6.4s
+	xtn2	v5.8h, v4.4s
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q1, q3, [x11, #-32]
+	stp	q5, q7, [x11], #64
+	b.ne	.LBB0_739
+// %bb.740:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_741:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9, lsl #2
+.LBB0_742:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x10], #2
+	b.ne	.LBB0_742
+	b	.LBB0_893
+.LBB0_743:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_744:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	xtn	v1.4h, v1.4s
+	xtn	v3.4h, v3.4s
+	xtn	v5.4h, v5.4s
+	xtn	v7.4h, v7.4s
+	xtn2	v3.8h, v2.4s
+	xtn2	v1.8h, v0.4s
+	xtn2	v7.8h, v6.4s
+	xtn2	v5.8h, v4.4s
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q1, q3, [x11, #-32]
+	stp	q5, q7, [x11], #64
+	b.ne	.LBB0_744
+// %bb.745:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_746:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9, lsl #2
+.LBB0_747:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x10], #2
+	b.ne	.LBB0_747
+	b	.LBB0_893
+.LBB0_748:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_749:                              // =>This Inner Loop Header: Depth=1
+	ldp	q3, q2, [x12]
+	ldp	q7, q6, [x12, #64]
+	ldp	q5, q4, [x12, #32]
+	ldp	q1, q0, [x12, #96]
+	fcvtzs	v3.2d, v3.2d
+	fcvtzs	v2.2d, v2.2d
+	fcvtzs	v7.2d, v7.2d
+	xtn	v3.2s, v3.2d
+	fcvtzs	v6.2d, v6.2d
+	xtn	v2.2s, v2.2d
+	xtn	v7.2s, v7.2d
+	mov	w13, v3.s[1]
+	fcvtzs	v5.2d, v5.2d
+	xtn	v6.2s, v6.2d
+	fmov	w15, s2
+	mov	v3.h[1], w13
+	mov	w13, v7.s[1]
+	fcvtzs	v1.2d, v1.2d
+	xtn	v5.2s, v5.2d
+	mov	w14, v2.s[1]
+	mov	v7.h[1], w13
+	mov	v3.h[2], w15
+	fmov	w15, s6
+	fcvtzs	v4.2d, v4.2d
+	xtn	v1.2s, v1.2d
+	mov	w13, v6.s[1]
+	mov	v7.h[2], w15
+	mov	v3.h[3], w14
+	fmov	w14, s5
+	fcvtzs	v0.2d, v0.2d
+	xtn	v4.2s, v4.2d
+	mov	w15, v5.s[1]
+	mov	v7.h[3], w13
+	mov	v3.h[4], w14
+	fmov	w14, s1
+	xtn	v0.2s, v0.2d
+	mov	w13, v1.s[1]
+	mov	v7.h[4], w14
+	mov	v3.h[5], w15
+	fmov	w15, s4
+	mov	v7.h[5], w13
+	mov	v3.h[6], w15
+	fmov	w15, s0
+	mov	w14, v4.s[1]
+	mov	w13, v0.s[1]
+	mov	v7.h[6], w15
+	mov	v3.h[7], w14
+	mov	v7.h[7], w13
+	add	x12, x12, #128                  // =128
+	subs	x10, x10, #16                   // =16
+	stp	q3, q7, [x11], #32
+	b.ne	.LBB0_749
+// %bb.750:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_751:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9, lsl #3
+.LBB0_752:                              // =>This Inner Loop Header: Depth=1
+	ldr	d0, [x9], #8
+	subs	x8, x8, #1                      // =1
+	fcvtzs	w11, d0
+	strh	w11, [x10], #2
+	b.ne	.LBB0_752
+	b	.LBB0_893
+.LBB0_753:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_754:                              // =>This Inner Loop Header: Depth=1
+	ldp	q3, q2, [x12]
+	ldp	q7, q6, [x12, #64]
+	ldp	q5, q4, [x12, #32]
+	ldp	q1, q0, [x12, #96]
+	fcvtzs	v3.2d, v3.2d
+	fcvtzs	v2.2d, v2.2d
+	fcvtzs	v7.2d, v7.2d
+	xtn	v3.2s, v3.2d
+	fcvtzs	v6.2d, v6.2d
+	xtn	v2.2s, v2.2d
+	xtn	v7.2s, v7.2d
+	mov	w13, v3.s[1]
+	fcvtzs	v5.2d, v5.2d
+	xtn	v6.2s, v6.2d
+	fmov	w15, s2
+	mov	v3.h[1], w13
+	mov	w13, v7.s[1]
+	fcvtzs	v1.2d, v1.2d
+	xtn	v5.2s, v5.2d
+	mov	w14, v2.s[1]
+	mov	v7.h[1], w13
+	mov	v3.h[2], w15
+	fmov	w15, s6
+	fcvtzs	v4.2d, v4.2d
+	xtn	v1.2s, v1.2d
+	mov	w13, v6.s[1]
+	mov	v7.h[2], w15
+	mov	v3.h[3], w14
+	fmov	w14, s5
+	fcvtzs	v0.2d, v0.2d
+	xtn	v4.2s, v4.2d
+	mov	w15, v5.s[1]
+	mov	v7.h[3], w13
+	mov	v3.h[4], w14
+	fmov	w14, s1
+	xtn	v0.2s, v0.2d
+	mov	w13, v1.s[1]
+	mov	v7.h[4], w14
+	mov	v3.h[5], w15
+	fmov	w15, s4
+	mov	v7.h[5], w13
+	mov	v3.h[6], w15
+	fmov	w15, s0
+	mov	w14, v4.s[1]
+	mov	w13, v0.s[1]
+	mov	v7.h[6], w15
+	mov	v3.h[7], w14
+	mov	v7.h[7], w13
+	add	x12, x12, #128                  // =128
+	subs	x10, x10, #16                   // =16
+	stp	q3, q7, [x11], #32
+	b.ne	.LBB0_754
+// %bb.755:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_756:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9, lsl #3
+.LBB0_757:                              // =>This Inner Loop Header: Depth=1
+	ldr	d0, [x9], #8
+	subs	x8, x8, #1                      // =1
+	fcvtzs	w11, d0
+	strh	w11, [x10], #2
+	b.ne	.LBB0_757
+	b	.LBB0_893
+.LBB0_758:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_759:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12, #64]
+	ldp	q3, q2, [x12, #96]
+	ldp	q5, q4, [x12, #32]
+	ldp	q7, q6, [x12], #128
+	xtn	v1.2s, v1.2d
+	xtn	v3.2s, v3.2d
+	xtn	v5.2s, v5.2d
+	xtn	v7.2s, v7.2d
+	xtn2	v5.4s, v4.2d
+	xtn2	v7.4s, v6.2d
+	xtn	v4.4h, v7.4s
+	xtn2	v4.8h, v5.4s
+	xtn2	v3.4s, v2.2d
+	xtn2	v1.4s, v0.2d
+	xtn	v0.4h, v1.4s
+	xtn2	v0.8h, v3.4s
+	subs	x10, x10, #16                   // =16
+	stp	q4, q0, [x11], #32
+	b.ne	.LBB0_759
+// %bb.760:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_761:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9, lsl #3
+.LBB0_762:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x10], #2
+	b.ne	.LBB0_762
+	b	.LBB0_893
+.LBB0_763:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_764:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12, #64]
+	ldp	q3, q2, [x12, #96]
+	ldp	q5, q4, [x12, #32]
+	ldp	q7, q6, [x12], #128
+	xtn	v1.2s, v1.2d
+	xtn	v3.2s, v3.2d
+	xtn	v5.2s, v5.2d
+	xtn	v7.2s, v7.2d
+	xtn2	v5.4s, v4.2d
+	xtn2	v7.4s, v6.2d
+	xtn	v4.4h, v7.4s
+	xtn2	v4.8h, v5.4s
+	xtn2	v3.4s, v2.2d
+	xtn2	v1.4s, v0.2d
+	xtn	v0.4h, v1.4s
+	xtn2	v0.8h, v3.4s
+	subs	x10, x10, #16                   // =16
+	stp	q4, q0, [x11], #32
+	b.ne	.LBB0_764
+// %bb.765:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_766:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9, lsl #3
+.LBB0_767:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x10], #2
+	b.ne	.LBB0_767
+	b	.LBB0_893
+.LBB0_768:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_769:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12, #64]
+	ldp	q3, q2, [x12, #96]
+	ldp	q5, q4, [x12, #32]
+	ldp	q7, q6, [x12], #128
+	xtn	v1.2s, v1.2d
+	xtn	v3.2s, v3.2d
+	xtn	v5.2s, v5.2d
+	xtn	v7.2s, v7.2d
+	xtn2	v5.4s, v4.2d
+	xtn2	v7.4s, v6.2d
+	xtn	v4.4h, v7.4s
+	xtn2	v4.8h, v5.4s
+	xtn2	v3.4s, v2.2d
+	xtn2	v1.4s, v0.2d
+	xtn	v0.4h, v1.4s
+	xtn2	v0.8h, v3.4s
+	subs	x10, x10, #16                   // =16
+	stp	q4, q0, [x11], #32
+	b.ne	.LBB0_769
+// %bb.770:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_771:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9, lsl #3
+.LBB0_772:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x10], #2
+	b.ne	.LBB0_772
+	b	.LBB0_893
+.LBB0_773:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_774:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12, #64]
+	ldp	q3, q2, [x12, #96]
+	ldp	q5, q4, [x12, #32]
+	ldp	q7, q6, [x12], #128
+	xtn	v1.2s, v1.2d
+	xtn	v3.2s, v3.2d
+	xtn	v5.2s, v5.2d
+	xtn	v7.2s, v7.2d
+	xtn2	v5.4s, v4.2d
+	xtn2	v7.4s, v6.2d
+	xtn	v4.4h, v7.4s
+	xtn2	v4.8h, v5.4s
+	xtn2	v3.4s, v2.2d
+	xtn2	v1.4s, v0.2d
+	xtn	v0.4h, v1.4s
+	xtn2	v0.8h, v3.4s
+	subs	x10, x10, #16                   // =16
+	stp	q4, q0, [x11], #32
+	b.ne	.LBB0_774
+// %bb.775:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_776:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9, lsl #3
+.LBB0_777:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x10], #2
+	b.ne	.LBB0_777
+	b	.LBB0_893
+.LBB0_778:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_779:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	fcvtzu	v1.4s, v1.4s
+	fcvtzu	v3.4s, v3.4s
+	fcvtzu	v5.4s, v5.4s
+	fcvtzu	v7.4s, v7.4s
+	fcvtzu	v2.4s, v2.4s
+	fcvtzu	v0.4s, v0.4s
+	fcvtzu	v6.4s, v6.4s
+	fcvtzu	v4.4s, v4.4s
+	xtn	v3.4h, v3.4s
+	xtn	v1.4h, v1.4s
+	xtn	v7.4h, v7.4s
+	xtn	v5.4h, v5.4s
+	xtn2	v3.8h, v2.4s
+	xtn2	v1.8h, v0.4s
+	xtn2	v7.8h, v6.4s
+	xtn2	v5.8h, v4.4s
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q1, q3, [x11, #-32]
+	stp	q5, q7, [x11], #64
+	b.ne	.LBB0_779
+// %bb.780:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_781:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9, lsl #2
+.LBB0_782:                              // =>This Inner Loop Header: Depth=1
+	ldr	s0, [x9], #4
+	subs	x8, x8, #1                      // =1
+	fcvtzs	w11, s0
+	strh	w11, [x10], #2
+	b.ne	.LBB0_782
+	b	.LBB0_893
+.LBB0_783:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_784:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	fcvtzs	v1.4s, v1.4s
+	fcvtzs	v3.4s, v3.4s
+	fcvtzs	v5.4s, v5.4s
+	fcvtzs	v7.4s, v7.4s
+	fcvtzs	v2.4s, v2.4s
+	fcvtzs	v0.4s, v0.4s
+	fcvtzs	v6.4s, v6.4s
+	fcvtzs	v4.4s, v4.4s
+	xtn	v3.4h, v3.4s
+	xtn	v1.4h, v1.4s
+	xtn	v7.4h, v7.4s
+	xtn	v5.4h, v5.4s
+	xtn2	v3.8h, v2.4s
+	xtn2	v1.8h, v0.4s
+	xtn2	v7.8h, v6.4s
+	xtn2	v5.8h, v4.4s
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q1, q3, [x11, #-32]
+	stp	q5, q7, [x11], #64
+	b.ne	.LBB0_784
+// %bb.785:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_786:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9, lsl #2
+.LBB0_787:                              // =>This Inner Loop Header: Depth=1
+	ldr	s0, [x9], #4
+	subs	x8, x8, #1                      // =1
+	fcvtzs	w11, s0
+	strh	w11, [x10], #2
+	b.ne	.LBB0_787
+	b	.LBB0_893
+.LBB0_788:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_789:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	xtn	v1.4h, v1.4s
+	xtn	v3.4h, v3.4s
+	xtn	v5.4h, v5.4s
+	xtn	v7.4h, v7.4s
+	xtn2	v3.8h, v2.4s
+	xtn2	v1.8h, v0.4s
+	xtn2	v7.8h, v6.4s
+	xtn2	v5.8h, v4.4s
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q1, q3, [x11, #-32]
+	stp	q5, q7, [x11], #64
+	b.ne	.LBB0_789
+// %bb.790:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_791:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9, lsl #2
+.LBB0_792:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x10], #2
+	b.ne	.LBB0_792
+	b	.LBB0_893
+.LBB0_793:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_794:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	xtn	v1.4h, v1.4s
+	xtn	v3.4h, v3.4s
+	xtn	v5.4h, v5.4s
+	xtn	v7.4h, v7.4s
+	xtn2	v3.8h, v2.4s
+	xtn2	v1.8h, v0.4s
+	xtn2	v7.8h, v6.4s
+	xtn2	v5.8h, v4.4s
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q1, q3, [x11, #-32]
+	stp	q5, q7, [x11], #64
+	b.ne	.LBB0_794
+// %bb.795:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_796:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #1
+	add	x9, x2, x9, lsl #2
+.LBB0_797:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	strh	w11, [x10], #2
+	b.ne	.LBB0_797
+	b	.LBB0_893
+.LBB0_798:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_799:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	add	x12, x12, #64                   // =64
+	subs	x10, x10, #16                   // =16
+	ushll	v4.2d, v1.2s, #0
+	ushll	v5.2d, v0.2s, #0
+	ushll	v6.2d, v3.2s, #0
+	ushll	v7.2d, v2.2s, #0
+	ushll2	v1.2d, v1.4s, #0
+	ushll2	v0.2d, v0.4s, #0
+	ushll2	v3.2d, v3.4s, #0
+	ushll2	v2.2d, v2.4s, #0
+	stp	q7, q2, [x11, #96]
+	stp	q6, q3, [x11, #64]
+	stp	q5, q0, [x11, #32]
+	stp	q4, q1, [x11], #128
+	b.ne	.LBB0_799
+// %bb.800:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_801:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #2
+.LBB0_802:                              // =>This Inner Loop Header: Depth=1
+	ldr	w11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	str	x11, [x10], #8
+	b.ne	.LBB0_802
+	b	.LBB0_893
+.LBB0_803:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_804:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-32]
+	ldp	q2, q3, [x10, #-64]
+	ldp	q4, q5, [x10, #32]
+	ldp	q6, q7, [x10], #128
+	ucvtf	v1.4s, v1.4s
+	ucvtf	v3.4s, v3.4s
+	ucvtf	v2.4s, v2.4s
+	ucvtf	v0.4s, v0.4s
+	ucvtf	v7.4s, v7.4s
+	ucvtf	v6.4s, v6.4s
+	ucvtf	v5.4s, v5.4s
+	ucvtf	v4.4s, v4.4s
+	subs	x12, x12, #32                   // =32
+	stp	q0, q1, [x11, #-32]
+	stp	q2, q3, [x11, #-64]
+	stp	q4, q5, [x11, #32]
+	stp	q6, q7, [x11], #128
+	b.ne	.LBB0_804
+// %bb.805:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_806:
+	lsl	x10, x9, #2
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_807:                              // =>This Inner Loop Header: Depth=1
+	ldr	s0, [x10], #4
+	subs	x8, x8, #1                      // =1
+	ucvtf	s0, s0
+	str	s0, [x9], #4
+	b.ne	.LBB0_807
+	b	.LBB0_893
+.LBB0_808:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_809:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x12, #96]
+	ldp	q2, q3, [x12, #64]
+	ldp	q4, q5, [x12]
+	ldp	q6, q7, [x12, #32]
+	fcvtzs	v1.2d, v1.2d
+	fcvtzs	v3.2d, v3.2d
+	fcvtzs	v5.2d, v5.2d
+	fcvtzs	v4.2d, v4.2d
+	fcvtzs	v7.2d, v7.2d
+	fcvtzs	v6.2d, v6.2d
+	fcvtzs	v2.2d, v2.2d
+	fcvtzs	v0.2d, v0.2d
+	add	x12, x12, #128                  // =128
+	subs	x10, x10, #16                   // =16
+	stp	q0, q1, [x11, #96]
+	stp	q2, q3, [x11, #64]
+	stp	q6, q7, [x11, #32]
+	stp	q4, q5, [x11], #128
+	b.ne	.LBB0_809
+// %bb.810:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_811:
+	lsl	x10, x9, #3
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_812:                              // =>This Inner Loop Header: Depth=1
+	ldr	d0, [x10], #8
+	subs	x8, x8, #1                      // =1
+	fcvtzs	x11, d0
+	str	x11, [x9], #8
+	b.ne	.LBB0_812
+	b	.LBB0_893
+.LBB0_813:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_814:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12, #64]
+	ldp	q3, q2, [x12, #96]
+	ldp	q5, q4, [x12, #32]
+	ldp	q7, q6, [x12], #128
+	fcvtn	v1.2s, v1.2d
+	fcvtn	v3.2s, v3.2d
+	fcvtn	v5.2s, v5.2d
+	fcvtn	v7.2s, v7.2d
+	fcvtn2	v5.4s, v4.2d
+	fcvtn2	v7.4s, v6.2d
+	fcvtn2	v3.4s, v2.2d
+	fcvtn2	v1.4s, v0.2d
+	subs	x10, x10, #16                   // =16
+	stp	q1, q3, [x11, #32]
+	stp	q7, q5, [x11], #64
+	b.ne	.LBB0_814
+// %bb.815:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_816:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #3
+.LBB0_817:                              // =>This Inner Loop Header: Depth=1
+	ldr	d0, [x9], #8
+	subs	x8, x8, #1                      // =1
+	fcvt	s0, d0
+	str	s0, [x10], #4
+	b.ne	.LBB0_817
+	b	.LBB0_893
+.LBB0_818:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_819:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12, #64]
+	ldp	q3, q2, [x12, #96]
+	ldp	q5, q4, [x12, #32]
+	ldp	q7, q6, [x12], #128
+	ucvtf	v1.2d, v1.2d
+	ucvtf	v3.2d, v3.2d
+	ucvtf	v5.2d, v5.2d
+	ucvtf	v7.2d, v7.2d
+	ucvtf	v4.2d, v4.2d
+	ucvtf	v6.2d, v6.2d
+	ucvtf	v2.2d, v2.2d
+	ucvtf	v0.2d, v0.2d
+	fcvtn	v5.2s, v5.2d
+	fcvtn	v7.2s, v7.2d
+	fcvtn	v3.2s, v3.2d
+	fcvtn	v1.2s, v1.2d
+	fcvtn2	v5.4s, v4.2d
+	fcvtn2	v7.4s, v6.2d
+	fcvtn2	v3.4s, v2.2d
+	fcvtn2	v1.4s, v0.2d
+	subs	x10, x10, #16                   // =16
+	stp	q1, q3, [x11, #32]
+	stp	q7, q5, [x11], #64
+	b.ne	.LBB0_819
+// %bb.820:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_821:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #3
+.LBB0_822:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	ucvtf	s0, x11
+	str	s0, [x10], #4
+	b.ne	.LBB0_822
+	b	.LBB0_893
+.LBB0_823:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_824:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x12], #32
+	subs	x10, x10, #16                   // =16
+	ushll	v2.4s, v0.4h, #0
+	ushll	v3.4s, v1.4h, #0
+	ushll2	v0.4s, v0.8h, #0
+	ushll2	v1.4s, v1.8h, #0
+	ushll	v4.2d, v2.2s, #0
+	ushll	v5.2d, v3.2s, #0
+	ushll2	v2.2d, v2.4s, #0
+	ushll	v6.2d, v0.2s, #0
+	ushll2	v3.2d, v3.4s, #0
+	ushll	v7.2d, v1.2s, #0
+	ushll2	v0.2d, v0.4s, #0
+	ushll2	v1.2d, v1.4s, #0
+	stp	q7, q1, [x11, #96]
+	stp	q6, q0, [x11, #32]
+	stp	q5, q3, [x11, #64]
+	stp	q4, q2, [x11], #128
+	b.ne	.LBB0_824
+// %bb.825:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_826:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #1
+.LBB0_827:                              // =>This Inner Loop Header: Depth=1
+	ldrh	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	str	x11, [x10], #8
+	b.ne	.LBB0_827
+	b	.LBB0_893
+.LBB0_828:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_829:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	ushll	v4.4s, v1.4h, #0
+	ushll	v5.4s, v0.4h, #0
+	ushll2	v1.4s, v1.8h, #0
+	ushll2	v0.4s, v0.8h, #0
+	ushll	v6.4s, v3.4h, #0
+	ushll	v7.4s, v2.4h, #0
+	ushll2	v3.4s, v3.8h, #0
+	ushll2	v2.4s, v2.8h, #0
+	ucvtf	v4.4s, v4.4s
+	ucvtf	v5.4s, v5.4s
+	ucvtf	v1.4s, v1.4s
+	ucvtf	v0.4s, v0.4s
+	ucvtf	v6.4s, v6.4s
+	ucvtf	v7.4s, v7.4s
+	ucvtf	v3.4s, v3.4s
+	ucvtf	v2.4s, v2.4s
+	stp	q5, q0, [x11, #-32]
+	stp	q4, q1, [x11, #-64]
+	stp	q7, q2, [x11, #32]
+	stp	q6, q3, [x11], #128
+	b.ne	.LBB0_829
+// %bb.830:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_831:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #1
+.LBB0_832:                              // =>This Inner Loop Header: Depth=1
+	ldrh	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	ucvtf	s0, w11
+	str	s0, [x10], #4
+	b.ne	.LBB0_832
+	b	.LBB0_893
+.LBB0_833:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_834:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x12], #32
+	subs	x10, x10, #16                   // =16
+	sshll	v2.4s, v0.4h, #0
+	sshll	v3.4s, v1.4h, #0
+	sshll2	v0.4s, v0.8h, #0
+	sshll2	v1.4s, v1.8h, #0
+	sshll	v4.2d, v2.2s, #0
+	sshll	v5.2d, v3.2s, #0
+	sshll2	v2.2d, v2.4s, #0
+	sshll	v6.2d, v0.2s, #0
+	sshll2	v3.2d, v3.4s, #0
+	sshll	v7.2d, v1.2s, #0
+	sshll2	v0.2d, v0.4s, #0
+	sshll2	v1.2d, v1.4s, #0
+	stp	q7, q1, [x11, #96]
+	stp	q6, q0, [x11, #32]
+	stp	q5, q3, [x11, #64]
+	stp	q4, q2, [x11], #128
+	b.ne	.LBB0_834
+// %bb.835:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_836:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #1
+.LBB0_837:                              // =>This Inner Loop Header: Depth=1
+	ldrsh	x11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	str	x11, [x10], #8
+	b.ne	.LBB0_837
+	b	.LBB0_893
+.LBB0_838:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_839:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	sshll	v4.4s, v1.4h, #0
+	sshll	v5.4s, v0.4h, #0
+	sshll2	v1.4s, v1.8h, #0
+	sshll2	v0.4s, v0.8h, #0
+	sshll	v6.4s, v3.4h, #0
+	sshll	v7.4s, v2.4h, #0
+	sshll2	v3.4s, v3.8h, #0
+	sshll2	v2.4s, v2.8h, #0
+	scvtf	v4.4s, v4.4s
+	scvtf	v5.4s, v5.4s
+	scvtf	v1.4s, v1.4s
+	scvtf	v0.4s, v0.4s
+	scvtf	v6.4s, v6.4s
+	scvtf	v7.4s, v7.4s
+	scvtf	v3.4s, v3.4s
+	scvtf	v2.4s, v2.4s
+	stp	q5, q0, [x11, #-32]
+	stp	q4, q1, [x11, #-64]
+	stp	q7, q2, [x11, #32]
+	stp	q6, q3, [x11], #128
+	b.ne	.LBB0_839
+// %bb.840:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_841:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #1
+.LBB0_842:                              // =>This Inner Loop Header: Depth=1
+	ldrsh	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	scvtf	s0, w11
+	str	s0, [x10], #4
+	b.ne	.LBB0_842
+	b	.LBB0_893
+.LBB0_843:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_844:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12, #64]
+	ldp	q3, q2, [x12, #96]
+	ldp	q5, q4, [x12, #32]
+	ldp	q7, q6, [x12], #128
+	scvtf	v1.2d, v1.2d
+	scvtf	v3.2d, v3.2d
+	scvtf	v5.2d, v5.2d
+	scvtf	v7.2d, v7.2d
+	scvtf	v4.2d, v4.2d
+	scvtf	v6.2d, v6.2d
+	scvtf	v2.2d, v2.2d
+	scvtf	v0.2d, v0.2d
+	fcvtn	v5.2s, v5.2d
+	fcvtn	v7.2s, v7.2d
+	fcvtn	v3.2s, v3.2d
+	fcvtn	v1.2s, v1.2d
+	fcvtn2	v5.4s, v4.2d
+	fcvtn2	v7.4s, v6.2d
+	fcvtn2	v3.4s, v2.2d
+	fcvtn2	v1.4s, v0.2d
+	subs	x10, x10, #16                   // =16
+	stp	q1, q3, [x11, #32]
+	stp	q7, q5, [x11], #64
+	b.ne	.LBB0_844
+// %bb.845:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_846:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #3
+.LBB0_847:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	scvtf	s0, x11
+	str	s0, [x10], #4
+	b.ne	.LBB0_847
+	b	.LBB0_893
+.LBB0_848:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_849:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	add	x12, x12, #64                   // =64
+	subs	x10, x10, #16                   // =16
+	fcvtl	v4.2d, v1.2s
+	fcvtl	v5.2d, v0.2s
+	fcvtl	v6.2d, v3.2s
+	fcvtl	v7.2d, v2.2s
+	fcvtl2	v1.2d, v1.4s
+	fcvtl2	v0.2d, v0.4s
+	fcvtl2	v3.2d, v3.4s
+	fcvtl2	v2.2d, v2.4s
+	fcvtzs	v4.2d, v4.2d
+	fcvtzs	v5.2d, v5.2d
+	fcvtzs	v6.2d, v6.2d
+	fcvtzs	v7.2d, v7.2d
+	fcvtzs	v1.2d, v1.2d
+	fcvtzs	v0.2d, v0.2d
+	fcvtzs	v3.2d, v3.2d
+	fcvtzs	v2.2d, v2.2d
+	stp	q7, q2, [x11, #96]
+	stp	q6, q3, [x11, #64]
+	stp	q5, q0, [x11, #32]
+	stp	q4, q1, [x11], #128
+	b.ne	.LBB0_849
+// %bb.850:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_851:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #2
+.LBB0_852:                              // =>This Inner Loop Header: Depth=1
+	ldr	s0, [x9], #4
+	subs	x8, x8, #1                      // =1
+	fcvtzs	x11, s0
+	str	x11, [x10], #8
+	b.ne	.LBB0_852
+	b	.LBB0_893
+.LBB0_853:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_854:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	add	x12, x12, #64                   // =64
+	subs	x10, x10, #16                   // =16
+	sshll	v4.2d, v1.2s, #0
+	sshll	v5.2d, v0.2s, #0
+	sshll	v6.2d, v3.2s, #0
+	sshll	v7.2d, v2.2s, #0
+	sshll2	v1.2d, v1.4s, #0
+	sshll2	v0.2d, v0.4s, #0
+	sshll2	v3.2d, v3.4s, #0
+	sshll2	v2.2d, v2.4s, #0
+	stp	q7, q2, [x11, #96]
+	stp	q6, q3, [x11, #64]
+	stp	q5, q0, [x11, #32]
+	stp	q4, q1, [x11], #128
+	b.ne	.LBB0_854
+// %bb.855:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_856:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #3
+	add	x9, x2, x9, lsl #2
+.LBB0_857:                              // =>This Inner Loop Header: Depth=1
+	ldrsw	x11, [x9], #4
+	subs	x8, x8, #1                      // =1
+	str	x11, [x10], #8
+	b.ne	.LBB0_857
+	b	.LBB0_893
+.LBB0_858:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_859:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-32]
+	ldp	q2, q3, [x10, #-64]
+	ldp	q4, q5, [x10, #32]
+	ldp	q6, q7, [x10], #128
+	scvtf	v1.4s, v1.4s
+	scvtf	v3.4s, v3.4s
+	scvtf	v2.4s, v2.4s
+	scvtf	v0.4s, v0.4s
+	scvtf	v7.4s, v7.4s
+	scvtf	v6.4s, v6.4s
+	scvtf	v5.4s, v5.4s
+	scvtf	v4.4s, v4.4s
+	subs	x12, x12, #32                   // =32
+	stp	q0, q1, [x11, #-32]
+	stp	q2, q3, [x11, #-64]
+	stp	q4, q5, [x11, #32]
+	stp	q6, q7, [x11], #128
+	b.ne	.LBB0_859
+// %bb.860:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_861:
+	lsl	x10, x9, #2
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_862:                              // =>This Inner Loop Header: Depth=1
+	ldr	s0, [x10], #4
+	subs	x8, x8, #1                      // =1
+	scvtf	s0, s0
+	str	s0, [x9], #4
+	b.ne	.LBB0_862
+	b	.LBB0_893
+.LBB0_863:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_864:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12, #64]
+	ldp	q3, q2, [x12, #96]
+	ldp	q5, q4, [x12, #32]
+	ldp	q7, q6, [x12], #128
+	fcvtzs	v1.2d, v1.2d
+	fcvtzs	v3.2d, v3.2d
+	fcvtzs	v5.2d, v5.2d
+	fcvtzs	v7.2d, v7.2d
+	fcvtzs	v4.2d, v4.2d
+	fcvtzs	v6.2d, v6.2d
+	fcvtzs	v2.2d, v2.2d
+	fcvtzs	v0.2d, v0.2d
+	xtn	v5.2s, v5.2d
+	xtn	v7.2s, v7.2d
+	xtn	v3.2s, v3.2d
+	xtn	v1.2s, v1.2d
+	xtn2	v5.4s, v4.2d
+	xtn2	v7.4s, v6.2d
+	xtn2	v3.4s, v2.2d
+	xtn2	v1.4s, v0.2d
+	subs	x10, x10, #16                   // =16
+	stp	q1, q3, [x11, #32]
+	stp	q7, q5, [x11], #64
+	b.ne	.LBB0_864
+// %bb.865:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_866:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #3
+.LBB0_867:                              // =>This Inner Loop Header: Depth=1
+	ldr	d0, [x9], #8
+	subs	x8, x8, #1                      // =1
+	fcvtzs	w11, d0
+	str	w11, [x10], #4
+	b.ne	.LBB0_867
+	b	.LBB0_893
+.LBB0_868:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_869:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12, #64]
+	ldp	q3, q2, [x12, #96]
+	ldp	q5, q4, [x12, #32]
+	ldp	q7, q6, [x12], #128
+	xtn	v1.2s, v1.2d
+	xtn	v3.2s, v3.2d
+	xtn	v5.2s, v5.2d
+	xtn	v7.2s, v7.2d
+	xtn2	v5.4s, v4.2d
+	xtn2	v7.4s, v6.2d
+	xtn2	v3.4s, v2.2d
+	xtn2	v1.4s, v0.2d
+	subs	x10, x10, #16                   // =16
+	stp	q1, q3, [x11, #32]
+	stp	q7, q5, [x11], #64
+	b.ne	.LBB0_869
+// %bb.870:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_871:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #3
+.LBB0_872:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	str	w11, [x10], #4
+	b.ne	.LBB0_872
+	b	.LBB0_893
+.LBB0_873:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_874:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	ushll	v4.4s, v1.4h, #0
+	ushll	v5.4s, v0.4h, #0
+	ushll2	v1.4s, v1.8h, #0
+	ushll2	v0.4s, v0.8h, #0
+	ushll	v6.4s, v3.4h, #0
+	ushll	v7.4s, v2.4h, #0
+	ushll2	v3.4s, v3.8h, #0
+	ushll2	v2.4s, v2.8h, #0
+	stp	q5, q0, [x11, #-32]
+	stp	q4, q1, [x11, #-64]
+	stp	q7, q2, [x11, #32]
+	stp	q6, q3, [x11], #128
+	b.ne	.LBB0_874
+// %bb.875:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_876:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #1
+.LBB0_877:                              // =>This Inner Loop Header: Depth=1
+	ldrh	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	str	w11, [x10], #4
+	b.ne	.LBB0_877
+	b	.LBB0_893
+.LBB0_878:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_879:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	sshll	v4.4s, v1.4h, #0
+	sshll	v5.4s, v0.4h, #0
+	sshll2	v1.4s, v1.8h, #0
+	sshll2	v0.4s, v0.8h, #0
+	sshll	v6.4s, v3.4h, #0
+	sshll	v7.4s, v2.4h, #0
+	sshll2	v3.4s, v3.8h, #0
+	sshll2	v2.4s, v2.8h, #0
+	stp	q5, q0, [x11, #-32]
+	stp	q4, q1, [x11, #-64]
+	stp	q7, q2, [x11, #32]
+	stp	q6, q3, [x11], #128
+	b.ne	.LBB0_879
+// %bb.880:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_881:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #1
+.LBB0_882:                              // =>This Inner Loop Header: Depth=1
+	ldrsh	w11, [x9], #2
+	subs	x8, x8, #1                      // =1
+	str	w11, [x10], #4
+	b.ne	.LBB0_882
+	b	.LBB0_893
+.LBB0_883:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_884:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12, #64]
+	ldp	q3, q2, [x12, #96]
+	ldp	q5, q4, [x12, #32]
+	ldp	q7, q6, [x12], #128
+	xtn	v1.2s, v1.2d
+	xtn	v3.2s, v3.2d
+	xtn	v5.2s, v5.2d
+	xtn	v7.2s, v7.2d
+	xtn2	v5.4s, v4.2d
+	xtn2	v7.4s, v6.2d
+	xtn2	v3.4s, v2.2d
+	xtn2	v1.4s, v0.2d
+	subs	x10, x10, #16                   // =16
+	stp	q1, q3, [x11, #32]
+	stp	q7, q5, [x11], #64
+	b.ne	.LBB0_884
+// %bb.885:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_886:
+	sub	x8, x8, x9
+	add	x10, x3, x9, lsl #2
+	add	x9, x2, x9, lsl #3
+.LBB0_887:                              // =>This Inner Loop Header: Depth=1
+	ldr	x11, [x9], #8
+	subs	x8, x8, #1                      // =1
+	str	w11, [x10], #4
+	b.ne	.LBB0_887
+	b	.LBB0_893
+.LBB0_888:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_889:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-32]
+	ldp	q2, q3, [x10, #-64]
+	ldp	q4, q5, [x10, #32]
+	ldp	q6, q7, [x10], #128
+	fcvtzs	v1.4s, v1.4s
+	fcvtzs	v3.4s, v3.4s
+	fcvtzs	v2.4s, v2.4s
+	fcvtzs	v0.4s, v0.4s
+	fcvtzs	v7.4s, v7.4s
+	fcvtzs	v6.4s, v6.4s
+	fcvtzs	v5.4s, v5.4s
+	fcvtzs	v4.4s, v4.4s
+	subs	x12, x12, #32                   // =32
+	stp	q0, q1, [x11, #-32]
+	stp	q2, q3, [x11, #-64]
+	stp	q4, q5, [x11, #32]
+	stp	q6, q7, [x11], #128
+	b.ne	.LBB0_889
+// %bb.890:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+.LBB0_891:
+	lsl	x10, x9, #2
+	sub	x8, x8, x9
+	add	x9, x3, x10
+	add	x10, x2, x10
+.LBB0_892:                              // =>This Inner Loop Header: Depth=1
+	ldr	s0, [x10], #4
+	subs	x8, x8, #1                      // =1
+	fcvtzs	w11, s0
+	str	w11, [x9], #4
+	b.ne	.LBB0_892
+.LBB0_893:
+	ldp	x29, x30, [sp], #16             // 16-byte Folded Reload
+	ret
+.LBB0_894:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_895:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q3, q2, [x11, #-32]
+	stp	q1, q0, [x11, #-64]
+	stp	q7, q6, [x11, #32]
+	stp	q5, q4, [x11], #128
+	b.ne	.LBB0_895
+// %bb.896:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_15
+.LBB0_897:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #16                    // =16
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_898:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-16]
+	add	x10, x10, #32                   // =32
+	subs	x12, x12, #32                   // =32
+	sshll	v2.8h, v0.8b, #0
+	sshll2	v0.8h, v0.16b, #0
+	sshll	v3.8h, v1.8b, #0
+	sshll2	v1.8h, v1.16b, #0
+	sshll	v4.4s, v2.4h, #0
+	sshll2	v2.4s, v2.8h, #0
+	sshll	v5.4s, v0.4h, #0
+	sshll2	v0.4s, v0.8h, #0
+	sshll	v6.4s, v3.4h, #0
+	sshll2	v3.4s, v3.8h, #0
+	sshll	v7.4s, v1.4h, #0
+	sshll2	v1.4s, v1.8h, #0
+	stp	q5, q0, [x11, #-32]
+	stp	q4, q2, [x11, #-64]
+	stp	q7, q1, [x11, #32]
+	stp	q6, q3, [x11], #128
+	b.ne	.LBB0_898
+// %bb.899:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_41
+.LBB0_900:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #16                    // =16
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_901:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-16]
+	add	x10, x10, #32                   // =32
+	subs	x12, x12, #32                   // =32
+	ushll	v2.8h, v0.8b, #0
+	ushll2	v0.8h, v0.16b, #0
+	ushll	v3.8h, v1.8b, #0
+	ushll2	v1.8h, v1.16b, #0
+	ushll	v4.4s, v2.4h, #0
+	ushll2	v2.4s, v2.8h, #0
+	ushll	v5.4s, v0.4h, #0
+	ushll2	v0.4s, v0.8h, #0
+	ushll	v6.4s, v3.4h, #0
+	ushll2	v3.4s, v3.8h, #0
+	ushll	v7.4s, v1.4h, #0
+	ushll2	v1.4s, v1.8h, #0
+	stp	q5, q0, [x11, #-32]
+	stp	q4, q2, [x11, #-64]
+	stp	q7, q1, [x11, #32]
+	stp	q6, q3, [x11], #128
+	b.ne	.LBB0_901
+// %bb.902:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_95
+.LBB0_903:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_904:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q3, q2, [x11, #-32]
+	stp	q1, q0, [x11, #-64]
+	stp	q7, q6, [x11, #32]
+	stp	q5, q4, [x11], #128
+	b.ne	.LBB0_904
+// %bb.905:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_107
+.LBB0_906:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_907:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	ldp	q5, q4, [x12, #96]
+	ldp	q7, q6, [x12, #64]
+	add	x12, x12, #128                  // =128
+	subs	x10, x10, #16                   // =16
+	stp	q5, q4, [x11, #96]
+	stp	q7, q6, [x11, #64]
+	stp	q3, q2, [x11, #32]
+	stp	q1, q0, [x11], #128
+	b.ne	.LBB0_907
+// %bb.908:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_125
+.LBB0_909:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_910:                              // =>This Inner Loop Header: Depth=1
+	ldr	q1, [x12], #16
+	subs	x10, x10, #16                   // =16
+	ext	v0.16b, v1.16b, v1.16b, #8
+	umov	w13, v1.b[0]
+	umov	w15, v1.b[2]
+	umov	w17, v1.b[4]
+	fmov	s2, w13
+	umov	w13, v1.b[5]
+	fmov	s3, w15
+	umov	w15, v1.b[6]
+	fmov	s4, w17
+	umov	w17, v0.b[0]
+	fmov	s5, w15
+	umov	w15, v0.b[2]
+	fmov	s6, w17
+	mov	v4.s[1], w13
+	umov	w13, v0.b[1]
+	umov	w17, v0.b[4]
+	fmov	s7, w15
+	mov	v6.s[1], w13
+	umov	w13, v0.b[3]
+	umov	w15, v0.b[6]
+	fmov	s16, w17
+	mov	v7.s[1], w13
+	umov	w13, v0.b[5]
+	umov	w14, v1.b[1]
+	umov	w16, v1.b[3]
+	umov	w17, v1.b[7]
+	fmov	s1, w15
+	mov	v16.s[1], w13
+	umov	w13, v0.b[7]
+	mov	v2.s[1], w14
+	mov	v3.s[1], w16
+	mov	v5.s[1], w17
+	mov	v1.s[1], w13
+	shl	v0.2s, v2.2s, #24
+	shl	v2.2s, v3.2s, #24
+	shl	v3.2s, v4.2s, #24
+	shl	v4.2s, v5.2s, #24
+	shl	v5.2s, v6.2s, #24
+	shl	v6.2s, v7.2s, #24
+	shl	v7.2s, v16.2s, #24
+	shl	v1.2s, v1.2s, #24
+	sshr	v0.2s, v0.2s, #24
+	sshr	v2.2s, v2.2s, #24
+	sshr	v3.2s, v3.2s, #24
+	sshr	v4.2s, v4.2s, #24
+	sshr	v5.2s, v5.2s, #24
+	sshr	v6.2s, v6.2s, #24
+	sshr	v7.2s, v7.2s, #24
+	sshr	v1.2s, v1.2s, #24
+	sshll	v0.2d, v0.2s, #0
+	sshll	v2.2d, v2.2s, #0
+	sshll	v3.2d, v3.2s, #0
+	sshll	v4.2d, v4.2s, #0
+	sshll	v5.2d, v5.2s, #0
+	sshll	v6.2d, v6.2s, #0
+	sshll	v7.2d, v7.2s, #0
+	sshll	v1.2d, v1.2s, #0
+	scvtf	v0.2d, v0.2d
+	scvtf	v2.2d, v2.2d
+	scvtf	v3.2d, v3.2d
+	scvtf	v4.2d, v4.2d
+	scvtf	v5.2d, v5.2d
+	scvtf	v6.2d, v6.2d
+	scvtf	v7.2d, v7.2d
+	scvtf	v1.2d, v1.2d
+	stp	q3, q4, [x11, #32]
+	stp	q0, q2, [x11]
+	stp	q7, q1, [x11, #96]
+	stp	q5, q6, [x11, #64]
+	add	x11, x11, #128                  // =128
+	b.ne	.LBB0_910
+// %bb.911:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_136
+.LBB0_912:
+	and	x9, x8, #0xfffffff0
+	movi	d0, #0x0000ff000000ff
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_913:                              // =>This Inner Loop Header: Depth=1
+	ldr	q2, [x12], #16
+	subs	x10, x10, #16                   // =16
+	ext	v1.16b, v2.16b, v2.16b, #8
+	umov	w13, v2.b[0]
+	umov	w15, v2.b[2]
+	umov	w17, v2.b[4]
+	fmov	s3, w13
+	umov	w13, v2.b[5]
+	fmov	s4, w15
+	umov	w15, v2.b[6]
+	fmov	s5, w17
+	umov	w17, v1.b[0]
+	fmov	s6, w15
+	umov	w15, v1.b[2]
+	fmov	s7, w17
+	mov	v5.s[1], w13
+	umov	w13, v1.b[1]
+	umov	w17, v1.b[4]
+	fmov	s16, w15
+	mov	v7.s[1], w13
+	umov	w13, v1.b[3]
+	umov	w15, v1.b[6]
+	fmov	s17, w17
+	mov	v16.s[1], w13
+	umov	w13, v1.b[5]
+	umov	w14, v2.b[1]
+	umov	w16, v2.b[3]
+	umov	w17, v2.b[7]
+	fmov	s2, w15
+	mov	v17.s[1], w13
+	umov	w13, v1.b[7]
+	mov	v3.s[1], w14
+	mov	v4.s[1], w16
+	mov	v6.s[1], w17
+	mov	v2.s[1], w13
+	and	v1.8b, v3.8b, v0.8b
+	and	v3.8b, v4.8b, v0.8b
+	and	v4.8b, v5.8b, v0.8b
+	and	v5.8b, v6.8b, v0.8b
+	and	v6.8b, v7.8b, v0.8b
+	and	v7.8b, v16.8b, v0.8b
+	and	v16.8b, v17.8b, v0.8b
+	and	v2.8b, v2.8b, v0.8b
+	ushll	v1.2d, v1.2s, #0
+	ushll	v3.2d, v3.2s, #0
+	ushll	v4.2d, v4.2s, #0
+	ushll	v5.2d, v5.2s, #0
+	ushll	v6.2d, v6.2s, #0
+	ushll	v7.2d, v7.2s, #0
+	ushll	v16.2d, v16.2s, #0
+	ushll	v2.2d, v2.2s, #0
+	ucvtf	v1.2d, v1.2d
+	ucvtf	v3.2d, v3.2d
+	ucvtf	v4.2d, v4.2d
+	ucvtf	v5.2d, v5.2d
+	ucvtf	v6.2d, v6.2d
+	ucvtf	v7.2d, v7.2d
+	ucvtf	v16.2d, v16.2d
+	ucvtf	v2.2d, v2.2d
+	stp	q4, q5, [x11, #32]
+	stp	q1, q3, [x11]
+	stp	q16, q2, [x11, #96]
+	stp	q6, q7, [x11, #64]
+	add	x11, x11, #128                  // =128
+	b.ne	.LBB0_913
+// %bb.914:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_182
+.LBB0_915:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_916:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	xtn	v1.4h, v1.4s
+	xtn	v3.4h, v3.4s
+	xtn2	v3.8h, v2.4s
+	xtn2	v1.8h, v0.4s
+	xtn	v7.4h, v7.4s
+	xtn	v5.4h, v5.4s
+	xtn	v0.8b, v1.8h
+	xtn2	v0.16b, v3.8h
+	xtn2	v7.8h, v6.4s
+	xtn2	v5.8h, v4.4s
+	xtn	v1.8b, v5.8h
+	xtn2	v1.16b, v7.8h
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q0, q1, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_916
+// %bb.917:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_198
+.LBB0_918:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_919:                              // =>This Inner Loop Header: Depth=1
+	ldp	q4, q7, [x12]
+	ldp	q0, q1, [x12, #96]
+	ldp	q5, q6, [x12, #32]
+	ldp	q2, q3, [x12, #64]
+	fcvtzs	v7.2d, v7.2d
+	fcvtzs	v4.2d, v4.2d
+	xtn	v7.2s, v7.2d
+	xtn	v4.2s, v4.2d
+	fcvtzs	v1.2d, v1.2d
+	fcvtzs	v0.2d, v0.2d
+	uzp1	v4.4h, v4.4h, v7.4h
+	xtn	v1.2s, v1.2d
+	xtn	v0.2s, v0.2d
+	umov	w13, v4.h[0]
+	fcvtzs	v6.2d, v6.2d
+	fcvtzs	v5.2d, v5.2d
+	uzp1	v0.4h, v0.4h, v1.4h
+	umov	w14, v4.h[1]
+	fmov	s1, w13
+	xtn	v6.2s, v6.2d
+	xtn	v5.2s, v5.2d
+	umov	w13, v4.h[2]
+	mov	v1.b[1], w14
+	uzp1	v5.4h, v5.4h, v6.4h
+	umov	w14, v4.h[3]
+	mov	v1.b[2], w13
+	umov	w13, v5.h[0]
+	mov	v1.b[3], w14
+	fcvtzs	v3.2d, v3.2d
+	fcvtzs	v2.2d, v2.2d
+	umov	w14, v5.h[1]
+	mov	v1.b[4], w13
+	xtn	v3.2s, v3.2d
+	xtn	v2.2s, v2.2d
+	umov	w13, v5.h[2]
+	mov	v1.b[5], w14
+	uzp1	v2.4h, v2.4h, v3.4h
+	umov	w14, v5.h[3]
+	mov	v1.b[6], w13
+	umov	w13, v2.h[0]
+	mov	v1.b[7], w14
+	umov	w14, v2.h[1]
+	mov	v1.b[8], w13
+	umov	w13, v2.h[2]
+	mov	v1.b[9], w14
+	umov	w14, v2.h[3]
+	mov	v1.b[10], w13
+	umov	w13, v0.h[0]
+	mov	v1.b[11], w14
+	umov	w14, v0.h[1]
+	mov	v1.b[12], w13
+	umov	w13, v0.h[2]
+	mov	v1.b[13], w14
+	umov	w14, v0.h[3]
+	mov	v1.b[14], w13
+	mov	v1.b[15], w14
+	subs	x10, x10, #16                   // =16
+	str	q1, [x11], #16
+	add	x12, x12, #128                  // =128
+	b.ne	.LBB0_919
+// %bb.920:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_207
+.LBB0_921:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #16                    // =16
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_922:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-16]
+	add	x10, x10, #32                   // =32
+	subs	x12, x12, #32                   // =32
+	stp	q0, q1, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_922
+// %bb.923:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_216
+.LBB0_924:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #128                   // =128
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_925:                              // =>This Inner Loop Header: Depth=1
+	ldp	q17, q5, [x10, #-64]
+	ldp	q20, q7, [x10, #-32]
+	ldp	q4, q0, [x10, #-128]
+	ldp	q6, q1, [x10, #-96]
+	xtn	v17.2s, v17.2d
+	xtn	v20.2s, v20.2d
+	ldp	q19, q2, [x10]
+	ldp	q21, q3, [x10, #32]
+	ldp	q22, q16, [x10, #64]
+	ldp	q23, q18, [x10, #96]
+	xtn2	v20.4s, v7.2d
+	xtn2	v17.4s, v5.2d
+	xtn	v6.2s, v6.2d
+	xtn	v4.2s, v4.2d
+	xtn	v5.4h, v17.4s
+	xtn2	v5.8h, v20.4s
+	xtn2	v6.4s, v1.2d
+	xtn2	v4.4s, v0.2d
+	xtn	v0.4h, v4.4s
+	xtn2	v0.8h, v6.4s
+	xtn	v23.2s, v23.2d
+	xtn	v22.2s, v22.2d
+	xtn	v0.8b, v0.8h
+	xtn2	v0.16b, v5.8h
+	xtn2	v23.4s, v18.2d
+	xtn2	v22.4s, v16.2d
+	xtn	v21.2s, v21.2d
+	xtn	v19.2s, v19.2d
+	xtn	v1.4h, v22.4s
+	xtn2	v1.8h, v23.4s
+	xtn2	v21.4s, v3.2d
+	xtn2	v19.4s, v2.2d
+	xtn	v2.4h, v19.4s
+	xtn2	v2.8h, v21.4s
+	xtn	v2.8b, v2.8h
+	xtn2	v2.16b, v1.8h
+	add	x10, x10, #256                  // =256
+	subs	x12, x12, #32                   // =32
+	stp	q0, q2, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_925
+// %bb.926:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_225
+.LBB0_927:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_928:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	xtn	v1.8b, v1.8h
+	xtn	v3.8b, v3.8h
+	xtn2	v1.16b, v0.8h
+	xtn2	v3.16b, v2.8h
+	stp	q1, q3, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_928
+// %bb.929:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_234
+.LBB0_930:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_931:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	xtn	v1.8b, v1.8h
+	xtn	v3.8b, v3.8h
+	xtn2	v1.16b, v0.8h
+	xtn2	v3.16b, v2.8h
+	stp	q1, q3, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_931
+// %bb.932:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_243
+.LBB0_933:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #128                   // =128
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_934:                              // =>This Inner Loop Header: Depth=1
+	ldp	q17, q5, [x10, #-64]
+	ldp	q20, q7, [x10, #-32]
+	ldp	q4, q0, [x10, #-128]
+	ldp	q6, q1, [x10, #-96]
+	xtn	v17.2s, v17.2d
+	xtn	v20.2s, v20.2d
+	ldp	q19, q2, [x10]
+	ldp	q21, q3, [x10, #32]
+	ldp	q22, q16, [x10, #64]
+	ldp	q23, q18, [x10, #96]
+	xtn2	v20.4s, v7.2d
+	xtn2	v17.4s, v5.2d
+	xtn	v6.2s, v6.2d
+	xtn	v4.2s, v4.2d
+	xtn	v5.4h, v17.4s
+	xtn2	v5.8h, v20.4s
+	xtn2	v6.4s, v1.2d
+	xtn2	v4.4s, v0.2d
+	xtn	v0.4h, v4.4s
+	xtn2	v0.8h, v6.4s
+	xtn	v23.2s, v23.2d
+	xtn	v22.2s, v22.2d
+	xtn	v0.8b, v0.8h
+	xtn2	v0.16b, v5.8h
+	xtn2	v23.4s, v18.2d
+	xtn2	v22.4s, v16.2d
+	xtn	v21.2s, v21.2d
+	xtn	v19.2s, v19.2d
+	xtn	v1.4h, v22.4s
+	xtn2	v1.8h, v23.4s
+	xtn2	v21.4s, v3.2d
+	xtn2	v19.4s, v2.2d
+	xtn	v2.4h, v19.4s
+	xtn2	v2.8h, v21.4s
+	xtn	v2.8b, v2.8h
+	xtn2	v2.16b, v1.8h
+	add	x10, x10, #256                  // =256
+	subs	x12, x12, #32                   // =32
+	stp	q0, q2, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_934
+// %bb.935:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_252
+.LBB0_936:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_937:                              // =>This Inner Loop Header: Depth=1
+	ldp	q4, q0, [x10, #-64]
+	ldp	q5, q1, [x10]
+	ldp	q3, q2, [x10, #-32]
+	subs	x12, x12, #32                   // =32
+	fcvtzs	v4.4s, v4.4s
+	fcvtzs	v5.4s, v5.4s
+	xtn	v7.4h, v4.4s
+	xtn	v6.4h, v5.4s
+	umov	w13, v7.h[0]
+	umov	w14, v6.h[0]
+	fmov	s4, w13
+	umov	w15, v7.h[1]
+	fmov	s5, w14
+	umov	w13, v7.h[2]
+	mov	v4.b[1], w15
+	umov	w14, v6.h[1]
+	fcvtzs	v0.4s, v0.4s
+	mov	v5.b[1], w14
+	umov	w14, v7.h[3]
+	ldp	q16, q7, [x10, #32]
+	fcvtzs	v1.4s, v1.4s
+	xtn	v0.4h, v0.4s
+	mov	v4.b[2], w13
+	umov	w13, v6.h[2]
+	xtn	v1.4h, v1.4s
+	mov	v5.b[2], w13
+	umov	w13, v0.h[0]
+	mov	v4.b[3], w14
+	umov	w14, v6.h[3]
+	mov	v5.b[3], w14
+	umov	w14, v0.h[1]
+	mov	v4.b[4], w13
+	umov	w13, v1.h[0]
+	fcvtzs	v3.4s, v3.4s
+	mov	v5.b[4], w13
+	umov	w13, v0.h[2]
+	mov	v4.b[5], w14
+	umov	w14, v1.h[1]
+	fcvtzs	v16.4s, v16.4s
+	xtn	v3.4h, v3.4s
+	mov	v5.b[5], w14
+	umov	w14, v0.h[3]
+	mov	v4.b[6], w13
+	umov	w13, v1.h[2]
+	xtn	v16.4h, v16.4s
+	mov	v5.b[6], w13
+	umov	w13, v3.h[0]
+	mov	v4.b[7], w14
+	umov	w14, v1.h[3]
+	mov	v5.b[7], w14
+	umov	w14, v3.h[1]
+	mov	v4.b[8], w13
+	umov	w13, v16.h[0]
+	fcvtzs	v2.4s, v2.4s
+	mov	v5.b[8], w13
+	umov	w13, v3.h[2]
+	mov	v4.b[9], w14
+	umov	w14, v16.h[1]
+	fcvtzs	v7.4s, v7.4s
+	xtn	v2.4h, v2.4s
+	mov	v5.b[9], w14
+	umov	w14, v3.h[3]
+	mov	v4.b[10], w13
+	umov	w13, v16.h[2]
+	xtn	v7.4h, v7.4s
+	mov	v5.b[10], w13
+	umov	w13, v2.h[0]
+	mov	v4.b[11], w14
+	umov	w14, v16.h[3]
+	mov	v5.b[11], w14
+	umov	w14, v2.h[1]
+	mov	v4.b[12], w13
+	umov	w13, v7.h[0]
+	mov	v5.b[12], w13
+	umov	w13, v2.h[2]
+	mov	v4.b[13], w14
+	umov	w14, v7.h[1]
+	mov	v5.b[13], w14
+	mov	v4.b[14], w13
+	umov	w13, v7.h[2]
+	umov	w14, v2.h[3]
+	mov	v5.b[14], w13
+	umov	w13, v7.h[3]
+	mov	v4.b[15], w14
+	mov	v5.b[15], w13
+	add	x10, x10, #128                  // =128
+	stp	q4, q5, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_937
+// %bb.938:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_261
+.LBB0_939:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #16                    // =16
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_940:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-16]
+	add	x10, x10, #32                   // =32
+	subs	x12, x12, #32                   // =32
+	stp	q0, q1, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_940
+// %bb.941:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_270
+.LBB0_942:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_943:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	xtn	v1.4h, v1.4s
+	xtn	v3.4h, v3.4s
+	xtn2	v3.8h, v2.4s
+	xtn2	v1.8h, v0.4s
+	xtn	v7.4h, v7.4s
+	xtn	v5.4h, v5.4s
+	xtn	v0.8b, v1.8h
+	xtn2	v0.16b, v3.8h
+	xtn2	v7.8h, v6.4s
+	xtn2	v5.8h, v4.4s
+	xtn	v1.8b, v5.8h
+	xtn2	v1.16b, v7.8h
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q0, q1, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_943
+// %bb.944:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_279
+.LBB0_945:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_946:                              // =>This Inner Loop Header: Depth=1
+	ldr	q0, [x12], #16
+	subs	x10, x10, #16                   // =16
+	sshll	v1.8h, v0.8b, #0
+	sshll2	v0.8h, v0.16b, #0
+	sshll	v2.4s, v1.4h, #0
+	sshll2	v1.4s, v1.8h, #0
+	sshll	v3.4s, v0.4h, #0
+	sshll2	v0.4s, v0.8h, #0
+	sshll	v4.2d, v2.2s, #0
+	sshll2	v2.2d, v2.4s, #0
+	sshll	v5.2d, v1.2s, #0
+	sshll	v6.2d, v3.2s, #0
+	sshll2	v1.2d, v1.4s, #0
+	sshll2	v3.2d, v3.4s, #0
+	sshll	v7.2d, v0.2s, #0
+	sshll2	v0.2d, v0.4s, #0
+	stp	q7, q0, [x11, #96]
+	stp	q6, q3, [x11, #64]
+	stp	q5, q1, [x11, #32]
+	stp	q4, q2, [x11], #128
+	b.ne	.LBB0_946
+// %bb.947:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_298
+.LBB0_948:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_949:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	ldp	q5, q4, [x12, #96]
+	ldp	q7, q6, [x12, #64]
+	add	x12, x12, #128                  // =128
+	subs	x10, x10, #16                   // =16
+	stp	q5, q4, [x11, #96]
+	stp	q7, q6, [x11, #64]
+	stp	q3, q2, [x11, #32]
+	stp	q1, q0, [x11], #128
+	b.ne	.LBB0_949
+// %bb.950:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_307
+.LBB0_951:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_952:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	ldp	q5, q4, [x12, #96]
+	ldp	q7, q6, [x12, #64]
+	add	x12, x12, #128                  // =128
+	subs	x10, x10, #16                   // =16
+	stp	q5, q4, [x11, #96]
+	stp	q7, q6, [x11, #64]
+	stp	q3, q2, [x11, #32]
+	stp	q1, q0, [x11], #128
+	b.ne	.LBB0_952
+// %bb.953:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_326
+.LBB0_954:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_955:                              // =>This Inner Loop Header: Depth=1
+	ldr	q0, [x12], #16
+	subs	x10, x10, #16                   // =16
+	ushll	v1.8h, v0.8b, #0
+	ushll2	v0.8h, v0.16b, #0
+	ushll	v2.4s, v1.4h, #0
+	ushll2	v1.4s, v1.8h, #0
+	ushll	v3.4s, v0.4h, #0
+	ushll2	v0.4s, v0.8h, #0
+	ushll	v4.2d, v2.2s, #0
+	ushll2	v2.2d, v2.4s, #0
+	ushll	v5.2d, v1.2s, #0
+	ushll	v6.2d, v3.2s, #0
+	ushll2	v1.2d, v1.4s, #0
+	ushll2	v3.2d, v3.4s, #0
+	ushll	v7.2d, v0.2s, #0
+	ushll2	v0.2d, v0.4s, #0
+	stp	q7, q0, [x11, #96]
+	stp	q6, q3, [x11, #64]
+	stp	q5, q1, [x11, #32]
+	stp	q4, q2, [x11], #128
+	b.ne	.LBB0_955
+// %bb.956:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_340
+.LBB0_957:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #16                    // =16
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_958:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-16]
+	add	x10, x10, #32                   // =32
+	subs	x12, x12, #32                   // =32
+	sshll	v2.8h, v0.8b, #0
+	sshll2	v0.8h, v0.16b, #0
+	sshll	v3.8h, v1.8b, #0
+	sshll2	v1.8h, v1.16b, #0
+	stp	q2, q0, [x11, #-32]
+	stp	q3, q1, [x11], #64
+	b.ne	.LBB0_958
+// %bb.959:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_364
+.LBB0_960:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #16                    // =16
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_961:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-16]
+	add	x10, x10, #32                   // =32
+	subs	x12, x12, #32                   // =32
+	sshll	v2.8h, v0.8b, #0
+	sshll2	v0.8h, v0.16b, #0
+	sshll	v3.8h, v1.8b, #0
+	sshll2	v1.8h, v1.16b, #0
+	stp	q2, q0, [x11, #-32]
+	stp	q3, q1, [x11], #64
+	b.ne	.LBB0_961
+// %bb.962:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_371
+.LBB0_963:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_964:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	stp	q1, q0, [x11, #-32]
+	stp	q3, q2, [x11], #64
+	b.ne	.LBB0_964
+// %bb.965:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_384
+.LBB0_966:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_967:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	stp	q1, q0, [x11, #-32]
+	stp	q3, q2, [x11], #64
+	b.ne	.LBB0_967
+// %bb.968:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_391
+.LBB0_969:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_970:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	stp	q1, q0, [x11, #-32]
+	stp	q3, q2, [x11], #64
+	b.ne	.LBB0_970
+// %bb.971:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_398
+.LBB0_972:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_973:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	stp	q1, q0, [x11, #-32]
+	stp	q3, q2, [x11], #64
+	b.ne	.LBB0_973
+// %bb.974:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_405
+.LBB0_975:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #16                    // =16
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_976:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-16]
+	add	x10, x10, #32                   // =32
+	subs	x12, x12, #32                   // =32
+	ushll	v2.8h, v0.8b, #0
+	ushll2	v0.8h, v0.16b, #0
+	ushll	v3.8h, v1.8b, #0
+	ushll2	v1.8h, v1.16b, #0
+	stp	q2, q0, [x11, #-32]
+	stp	q3, q1, [x11], #64
+	b.ne	.LBB0_976
+// %bb.977:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_424
+.LBB0_978:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #16                    // =16
+	add	x11, x3, #32                    // =32
+	mov	x12, x9
+.LBB0_979:                              // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-16]
+	add	x10, x10, #32                   // =32
+	subs	x12, x12, #32                   // =32
+	ushll	v2.8h, v0.8b, #0
+	ushll2	v0.8h, v0.16b, #0
+	ushll	v3.8h, v1.8b, #0
+	ushll2	v1.8h, v1.16b, #0
+	stp	q2, q0, [x11, #-32]
+	stp	q3, q1, [x11], #64
+	b.ne	.LBB0_979
+// %bb.980:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_431
+.LBB0_981:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_982:                              // =>This Inner Loop Header: Depth=1
+	ldr	q0, [x12], #16
+	subs	x10, x10, #16                   // =16
+	sshll	v1.8h, v0.8b, #0
+	sshll2	v0.8h, v0.16b, #0
+	sshll	v2.4s, v1.4h, #0
+	sshll2	v1.4s, v1.8h, #0
+	sshll	v3.4s, v0.4h, #0
+	sshll2	v0.4s, v0.8h, #0
+	sshll	v4.2d, v2.2s, #0
+	sshll2	v2.2d, v2.4s, #0
+	sshll	v5.2d, v1.2s, #0
+	sshll	v6.2d, v3.2s, #0
+	sshll2	v1.2d, v1.4s, #0
+	sshll2	v3.2d, v3.4s, #0
+	sshll	v7.2d, v0.2s, #0
+	sshll2	v0.2d, v0.4s, #0
+	stp	q7, q0, [x11, #96]
+	stp	q6, q3, [x11, #64]
+	stp	q5, q1, [x11, #32]
+	stp	q4, q2, [x11], #128
+	b.ne	.LBB0_982
+// %bb.983:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_456
+.LBB0_984:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_985:                              // =>This Inner Loop Header: Depth=1
+	ldr	q0, [x12], #16
+	subs	x10, x10, #16                   // =16
+	ext	v1.16b, v0.16b, v0.16b, #8
+	zip1	v2.8b, v0.8b, v0.8b
+	zip2	v0.8b, v0.8b, v0.8b
+	zip1	v3.8b, v1.8b, v0.8b
+	zip2	v1.8b, v1.8b, v0.8b
+	shl	v2.4h, v2.4h, #8
+	shl	v0.4h, v0.4h, #8
+	shl	v3.4h, v3.4h, #8
+	shl	v1.4h, v1.4h, #8
+	sshr	v2.4h, v2.4h, #8
+	sshr	v0.4h, v0.4h, #8
+	sshr	v3.4h, v3.4h, #8
+	sshr	v1.4h, v1.4h, #8
+	sshll	v2.4s, v2.4h, #0
+	sshll	v0.4s, v0.4h, #0
+	sshll	v3.4s, v3.4h, #0
+	sshll	v1.4s, v1.4h, #0
+	scvtf	v2.4s, v2.4s
+	scvtf	v0.4s, v0.4s
+	scvtf	v3.4s, v3.4s
+	scvtf	v1.4s, v1.4s
+	stp	q2, q0, [x11]
+	stp	q3, q1, [x11, #32]
+	add	x11, x11, #64                   // =64
+	b.ne	.LBB0_985
+// %bb.986:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_463
+.LBB0_987:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_988:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	ldp	q5, q4, [x12, #96]
+	ldp	q7, q6, [x12, #64]
+	add	x12, x12, #128                  // =128
+	subs	x10, x10, #16                   // =16
+	stp	q5, q4, [x11, #96]
+	stp	q7, q6, [x11, #64]
+	stp	q3, q2, [x11, #32]
+	stp	q1, q0, [x11], #128
+	b.ne	.LBB0_988
+// %bb.989:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_470
+.LBB0_990:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_991:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x12]
+	ldp	q3, q2, [x12, #32]
+	ldp	q5, q4, [x12, #96]
+	ldp	q7, q6, [x12, #64]
+	add	x12, x12, #128                  // =128
+	subs	x10, x10, #16                   // =16
+	stp	q5, q4, [x11, #96]
+	stp	q7, q6, [x11, #64]
+	stp	q3, q2, [x11, #32]
+	stp	q1, q0, [x11], #128
+	b.ne	.LBB0_991
+// %bb.992:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_492
+.LBB0_993:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_994:                              // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q3, q2, [x11, #-32]
+	stp	q1, q0, [x11, #-64]
+	stp	q7, q6, [x11, #32]
+	stp	q5, q4, [x11], #128
+	b.ne	.LBB0_994
+// %bb.995:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_505
+.LBB0_996:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_997:                              // =>This Inner Loop Header: Depth=1
+	ldr	q0, [x12], #16
+	subs	x10, x10, #16                   // =16
+	ushll	v1.8h, v0.8b, #0
+	ushll2	v0.8h, v0.16b, #0
+	ushll	v2.4s, v1.4h, #0
+	ushll2	v1.4s, v1.8h, #0
+	ushll	v3.4s, v0.4h, #0
+	ushll2	v0.4s, v0.8h, #0
+	ushll	v4.2d, v2.2s, #0
+	ushll2	v2.2d, v2.4s, #0
+	ushll	v5.2d, v1.2s, #0
+	ushll	v6.2d, v3.2s, #0
+	ushll2	v1.2d, v1.4s, #0
+	ushll2	v3.2d, v3.4s, #0
+	ushll	v7.2d, v0.2s, #0
+	ushll2	v0.2d, v0.4s, #0
+	stp	q7, q0, [x11, #96]
+	stp	q6, q3, [x11, #64]
+	stp	q5, q1, [x11, #32]
+	stp	q4, q2, [x11], #128
+	b.ne	.LBB0_997
+// %bb.998:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_512
+.LBB0_999:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_1000:                             // =>This Inner Loop Header: Depth=1
+	ldr	q0, [x12], #16
+	subs	x10, x10, #16                   // =16
+	ext	v1.16b, v0.16b, v0.16b, #8
+	zip1	v2.8b, v0.8b, v0.8b
+	zip2	v0.8b, v0.8b, v0.8b
+	zip1	v3.8b, v1.8b, v0.8b
+	zip2	v1.8b, v1.8b, v0.8b
+	bic	v2.4h, #255, lsl #8
+	bic	v0.4h, #255, lsl #8
+	bic	v3.4h, #255, lsl #8
+	bic	v1.4h, #255, lsl #8
+	ushll	v2.4s, v2.4h, #0
+	ushll	v0.4s, v0.4h, #0
+	ushll	v3.4s, v3.4h, #0
+	ushll	v1.4s, v1.4h, #0
+	ucvtf	v2.4s, v2.4s
+	ucvtf	v0.4s, v0.4s
+	ucvtf	v3.4s, v3.4s
+	ucvtf	v1.4s, v1.4s
+	stp	q2, q0, [x11]
+	stp	q3, q1, [x11, #32]
+	add	x11, x11, #64                   // =64
+	b.ne	.LBB0_1000
+// %bb.1001:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_519
+.LBB0_1002:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_1003:                             // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	xtn	v1.4h, v1.4s
+	xtn	v3.4h, v3.4s
+	xtn2	v3.8h, v2.4s
+	xtn2	v1.8h, v0.4s
+	xtn	v7.4h, v7.4s
+	xtn	v5.4h, v5.4s
+	xtn	v0.8b, v1.8h
+	xtn2	v0.16b, v3.8h
+	xtn2	v7.8h, v6.4s
+	xtn2	v5.8h, v4.4s
+	xtn	v1.8b, v5.8h
+	xtn2	v1.16b, v7.8h
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q0, q1, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_1003
+// %bb.1004:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_532
+.LBB0_1005:
+	and	x9, x8, #0xfffffff0
+	mov	x10, x9
+	mov	x11, x3
+	mov	x12, x2
+.LBB0_1006:                             // =>This Inner Loop Header: Depth=1
+	ldp	q4, q7, [x12]
+	ldp	q0, q1, [x12, #96]
+	ldp	q5, q6, [x12, #32]
+	ldp	q2, q3, [x12, #64]
+	fcvtzs	v7.2d, v7.2d
+	fcvtzs	v4.2d, v4.2d
+	xtn	v7.2s, v7.2d
+	xtn	v4.2s, v4.2d
+	fcvtzs	v1.2d, v1.2d
+	fcvtzs	v0.2d, v0.2d
+	uzp1	v4.4h, v4.4h, v7.4h
+	xtn	v1.2s, v1.2d
+	xtn	v0.2s, v0.2d
+	umov	w13, v4.h[0]
+	fcvtzs	v6.2d, v6.2d
+	fcvtzs	v5.2d, v5.2d
+	uzp1	v0.4h, v0.4h, v1.4h
+	umov	w14, v4.h[1]
+	fmov	s1, w13
+	xtn	v6.2s, v6.2d
+	xtn	v5.2s, v5.2d
+	umov	w13, v4.h[2]
+	mov	v1.b[1], w14
+	uzp1	v5.4h, v5.4h, v6.4h
+	umov	w14, v4.h[3]
+	mov	v1.b[2], w13
+	umov	w13, v5.h[0]
+	mov	v1.b[3], w14
+	fcvtzs	v3.2d, v3.2d
+	fcvtzs	v2.2d, v2.2d
+	umov	w14, v5.h[1]
+	mov	v1.b[4], w13
+	xtn	v3.2s, v3.2d
+	xtn	v2.2s, v2.2d
+	umov	w13, v5.h[2]
+	mov	v1.b[5], w14
+	uzp1	v2.4h, v2.4h, v3.4h
+	umov	w14, v5.h[3]
+	mov	v1.b[6], w13
+	umov	w13, v2.h[0]
+	mov	v1.b[7], w14
+	umov	w14, v2.h[1]
+	mov	v1.b[8], w13
+	umov	w13, v2.h[2]
+	mov	v1.b[9], w14
+	umov	w14, v2.h[3]
+	mov	v1.b[10], w13
+	umov	w13, v0.h[0]
+	mov	v1.b[11], w14
+	umov	w14, v0.h[1]
+	mov	v1.b[12], w13
+	umov	w13, v0.h[2]
+	mov	v1.b[13], w14
+	umov	w14, v0.h[3]
+	mov	v1.b[14], w13
+	mov	v1.b[15], w14
+	subs	x10, x10, #16                   // =16
+	str	q1, [x11], #16
+	add	x12, x12, #128                  // =128
+	b.ne	.LBB0_1006
+// %bb.1007:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_539
+.LBB0_1008:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #16                    // =16
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_1009:                             // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-16]
+	add	x10, x10, #32                   // =32
+	subs	x12, x12, #32                   // =32
+	stp	q0, q1, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_1009
+// %bb.1010:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_546
+.LBB0_1011:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #128                   // =128
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_1012:                             // =>This Inner Loop Header: Depth=1
+	ldp	q17, q5, [x10, #-64]
+	ldp	q20, q7, [x10, #-32]
+	ldp	q4, q0, [x10, #-128]
+	ldp	q6, q1, [x10, #-96]
+	xtn	v17.2s, v17.2d
+	xtn	v20.2s, v20.2d
+	ldp	q19, q2, [x10]
+	ldp	q21, q3, [x10, #32]
+	ldp	q22, q16, [x10, #64]
+	ldp	q23, q18, [x10, #96]
+	xtn2	v20.4s, v7.2d
+	xtn2	v17.4s, v5.2d
+	xtn	v6.2s, v6.2d
+	xtn	v4.2s, v4.2d
+	xtn	v5.4h, v17.4s
+	xtn2	v5.8h, v20.4s
+	xtn2	v6.4s, v1.2d
+	xtn2	v4.4s, v0.2d
+	xtn	v0.4h, v4.4s
+	xtn2	v0.8h, v6.4s
+	xtn	v23.2s, v23.2d
+	xtn	v22.2s, v22.2d
+	xtn	v0.8b, v0.8h
+	xtn2	v0.16b, v5.8h
+	xtn2	v23.4s, v18.2d
+	xtn2	v22.4s, v16.2d
+	xtn	v21.2s, v21.2d
+	xtn	v19.2s, v19.2d
+	xtn	v1.4h, v22.4s
+	xtn2	v1.8h, v23.4s
+	xtn2	v21.4s, v3.2d
+	xtn2	v19.4s, v2.2d
+	xtn	v2.4h, v19.4s
+	xtn2	v2.8h, v21.4s
+	xtn	v2.8b, v2.8h
+	xtn2	v2.16b, v1.8h
+	add	x10, x10, #256                  // =256
+	subs	x12, x12, #32                   // =32
+	stp	q0, q2, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_1012
+// %bb.1013:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_553
+.LBB0_1014:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_1015:                             // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	xtn	v1.8b, v1.8h
+	xtn	v3.8b, v3.8h
+	xtn2	v1.16b, v0.8h
+	xtn2	v3.16b, v2.8h
+	stp	q1, q3, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_1015
+// %bb.1016:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_560
+.LBB0_1017:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #32                    // =32
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_1018:                             // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-32]
+	ldp	q3, q2, [x10], #64
+	subs	x12, x12, #32                   // =32
+	xtn	v1.8b, v1.8h
+	xtn	v3.8b, v3.8h
+	xtn2	v1.16b, v0.8h
+	xtn2	v3.16b, v2.8h
+	stp	q1, q3, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_1018
+// %bb.1019:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_567
+.LBB0_1020:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #128                   // =128
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_1021:                             // =>This Inner Loop Header: Depth=1
+	ldp	q17, q5, [x10, #-64]
+	ldp	q20, q7, [x10, #-32]
+	ldp	q4, q0, [x10, #-128]
+	ldp	q6, q1, [x10, #-96]
+	xtn	v17.2s, v17.2d
+	xtn	v20.2s, v20.2d
+	ldp	q19, q2, [x10]
+	ldp	q21, q3, [x10, #32]
+	ldp	q22, q16, [x10, #64]
+	ldp	q23, q18, [x10, #96]
+	xtn2	v20.4s, v7.2d
+	xtn2	v17.4s, v5.2d
+	xtn	v6.2s, v6.2d
+	xtn	v4.2s, v4.2d
+	xtn	v5.4h, v17.4s
+	xtn2	v5.8h, v20.4s
+	xtn2	v6.4s, v1.2d
+	xtn2	v4.4s, v0.2d
+	xtn	v0.4h, v4.4s
+	xtn2	v0.8h, v6.4s
+	xtn	v23.2s, v23.2d
+	xtn	v22.2s, v22.2d
+	xtn	v0.8b, v0.8h
+	xtn2	v0.16b, v5.8h
+	xtn2	v23.4s, v18.2d
+	xtn2	v22.4s, v16.2d
+	xtn	v21.2s, v21.2d
+	xtn	v19.2s, v19.2d
+	xtn	v1.4h, v22.4s
+	xtn2	v1.8h, v23.4s
+	xtn2	v21.4s, v3.2d
+	xtn2	v19.4s, v2.2d
+	xtn	v2.4h, v19.4s
+	xtn2	v2.8h, v21.4s
+	xtn	v2.8b, v2.8h
+	xtn2	v2.16b, v1.8h
+	add	x10, x10, #256                  // =256
+	subs	x12, x12, #32                   // =32
+	stp	q0, q2, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_1021
+// %bb.1022:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_574
+.LBB0_1023:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_1024:                             // =>This Inner Loop Header: Depth=1
+	ldp	q4, q0, [x10, #-64]
+	ldp	q5, q1, [x10]
+	ldp	q3, q2, [x10, #-32]
+	subs	x12, x12, #32                   // =32
+	fcvtzs	v4.4s, v4.4s
+	fcvtzs	v5.4s, v5.4s
+	xtn	v7.4h, v4.4s
+	xtn	v6.4h, v5.4s
+	umov	w13, v7.h[0]
+	umov	w14, v6.h[0]
+	fmov	s4, w13
+	umov	w15, v7.h[1]
+	fmov	s5, w14
+	umov	w13, v7.h[2]
+	mov	v4.b[1], w15
+	umov	w14, v6.h[1]
+	fcvtzs	v0.4s, v0.4s
+	mov	v5.b[1], w14
+	umov	w14, v7.h[3]
+	ldp	q16, q7, [x10, #32]
+	fcvtzs	v1.4s, v1.4s
+	xtn	v0.4h, v0.4s
+	mov	v4.b[2], w13
+	umov	w13, v6.h[2]
+	xtn	v1.4h, v1.4s
+	mov	v5.b[2], w13
+	umov	w13, v0.h[0]
+	mov	v4.b[3], w14
+	umov	w14, v6.h[3]
+	mov	v5.b[3], w14
+	umov	w14, v0.h[1]
+	mov	v4.b[4], w13
+	umov	w13, v1.h[0]
+	fcvtzs	v3.4s, v3.4s
+	mov	v5.b[4], w13
+	umov	w13, v0.h[2]
+	mov	v4.b[5], w14
+	umov	w14, v1.h[1]
+	fcvtzs	v16.4s, v16.4s
+	xtn	v3.4h, v3.4s
+	mov	v5.b[5], w14
+	umov	w14, v0.h[3]
+	mov	v4.b[6], w13
+	umov	w13, v1.h[2]
+	xtn	v16.4h, v16.4s
+	mov	v5.b[6], w13
+	umov	w13, v3.h[0]
+	mov	v4.b[7], w14
+	umov	w14, v1.h[3]
+	mov	v5.b[7], w14
+	umov	w14, v3.h[1]
+	mov	v4.b[8], w13
+	umov	w13, v16.h[0]
+	fcvtzs	v2.4s, v2.4s
+	mov	v5.b[8], w13
+	umov	w13, v3.h[2]
+	mov	v4.b[9], w14
+	umov	w14, v16.h[1]
+	fcvtzs	v7.4s, v7.4s
+	xtn	v2.4h, v2.4s
+	mov	v5.b[9], w14
+	umov	w14, v3.h[3]
+	mov	v4.b[10], w13
+	umov	w13, v16.h[2]
+	xtn	v7.4h, v7.4s
+	mov	v5.b[10], w13
+	umov	w13, v2.h[0]
+	mov	v4.b[11], w14
+	umov	w14, v16.h[3]
+	mov	v5.b[11], w14
+	umov	w14, v2.h[1]
+	mov	v4.b[12], w13
+	umov	w13, v7.h[0]
+	mov	v5.b[12], w13
+	umov	w13, v2.h[2]
+	mov	v4.b[13], w14
+	umov	w14, v7.h[1]
+	mov	v5.b[13], w14
+	mov	v4.b[14], w13
+	umov	w13, v7.h[2]
+	umov	w14, v2.h[3]
+	mov	v5.b[14], w13
+	umov	w13, v7.h[3]
+	mov	v4.b[15], w14
+	mov	v5.b[15], w13
+	add	x10, x10, #128                  // =128
+	stp	q4, q5, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_1024
+// %bb.1025:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_581
+.LBB0_1026:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #16                    // =16
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_1027:                             // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-16]
+	add	x10, x10, #32                   // =32
+	subs	x12, x12, #32                   // =32
+	stp	q0, q1, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_1027
+// %bb.1028:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_588
+.LBB0_1029:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #16                    // =16
+	mov	x12, x9
+.LBB0_1030:                             // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	xtn	v1.4h, v1.4s
+	xtn	v3.4h, v3.4s
+	xtn2	v3.8h, v2.4s
+	xtn2	v1.8h, v0.4s
+	xtn	v7.4h, v7.4s
+	xtn	v5.4h, v5.4s
+	xtn	v0.8b, v1.8h
+	xtn2	v0.16b, v3.8h
+	xtn2	v7.8h, v6.4s
+	xtn2	v5.8h, v4.4s
+	xtn	v1.8b, v5.8h
+	xtn2	v1.16b, v7.8h
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q0, q1, [x11, #-16]
+	add	x11, x11, #32                   // =32
+	b.ne	.LBB0_1030
+// %bb.1031:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_595
+.LBB0_1032:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_1033:                             // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q3, q2, [x11, #-32]
+	stp	q1, q0, [x11, #-64]
+	stp	q7, q6, [x11, #32]
+	stp	q5, q4, [x11], #128
+	b.ne	.LBB0_1033
+// %bb.1034:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_602
+.LBB0_1035:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #16                    // =16
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_1036:                             // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-16]
+	add	x10, x10, #32                   // =32
+	subs	x12, x12, #32                   // =32
+	sshll	v2.8h, v0.8b, #0
+	sshll2	v0.8h, v0.16b, #0
+	sshll	v3.8h, v1.8b, #0
+	sshll2	v1.8h, v1.16b, #0
+	sshll	v4.4s, v2.4h, #0
+	sshll2	v2.4s, v2.8h, #0
+	sshll	v5.4s, v0.4h, #0
+	sshll2	v0.4s, v0.8h, #0
+	sshll	v6.4s, v3.4h, #0
+	sshll2	v3.4s, v3.8h, #0
+	sshll	v7.4s, v1.4h, #0
+	sshll2	v1.4s, v1.8h, #0
+	stp	q5, q0, [x11, #-32]
+	stp	q4, q2, [x11, #-64]
+	stp	q7, q1, [x11, #32]
+	stp	q6, q3, [x11], #128
+	b.ne	.LBB0_1036
+// %bb.1037:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_612
+.LBB0_1038:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #16                    // =16
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_1039:                             // =>This Inner Loop Header: Depth=1
+	ldp	q0, q1, [x10, #-16]
+	add	x10, x10, #32                   // =32
+	subs	x12, x12, #32                   // =32
+	ushll	v2.8h, v0.8b, #0
+	ushll2	v0.8h, v0.16b, #0
+	ushll	v3.8h, v1.8b, #0
+	ushll2	v1.8h, v1.16b, #0
+	ushll	v4.4s, v2.4h, #0
+	ushll2	v2.4s, v2.8h, #0
+	ushll	v5.4s, v0.4h, #0
+	ushll2	v0.4s, v0.8h, #0
+	ushll	v6.4s, v3.4h, #0
+	ushll2	v3.4s, v3.8h, #0
+	ushll	v7.4s, v1.4h, #0
+	ushll2	v1.4s, v1.8h, #0
+	stp	q5, q0, [x11, #-32]
+	stp	q4, q2, [x11, #-64]
+	stp	q7, q1, [x11, #32]
+	stp	q6, q3, [x11], #128
+	b.ne	.LBB0_1039
+// %bb.1040:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_634
+.LBB0_1041:
+	and	x9, x8, #0xffffffe0
+	add	x10, x2, #64                    // =64
+	add	x11, x3, #64                    // =64
+	mov	x12, x9
+.LBB0_1042:                             // =>This Inner Loop Header: Depth=1
+	ldp	q1, q0, [x10, #-64]
+	ldp	q3, q2, [x10, #-32]
+	ldp	q5, q4, [x10]
+	ldp	q7, q6, [x10, #32]
+	add	x10, x10, #128                  // =128
+	subs	x12, x12, #32                   // =32
+	stp	q3, q2, [x11, #-32]
+	stp	q1, q0, [x11, #-64]
+	stp	q7, q6, [x11, #32]
+	stp	q5, q4, [x11], #128
+	b.ne	.LBB0_1042
+// %bb.1043:
+	cmp	x9, x8
+	b.eq	.LBB0_893
+	b	.LBB0_641
+.Lfunc_end0:
+	.size	cast_type_numeric_neon, .Lfunc_end0-cast_type_numeric_neon
+                                        // -- End function
+	.ident	"Ubuntu clang version 11.1.0-6"
+	.section	".note.GNU-stack","",@progbits
+	// .addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/cast_numeric_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/cast_numeric_sse4_amd64.s
new file mode 100644
index 00000000000..12c57c96f5c
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/cast_numeric_sse4_amd64.s
@@ -0,0 +1,8837 @@
+	.text
+	.intel_syntax noprefix
+	.file	"cast_numeric.cc"
+	.section	.rodata.cst8,"aM",@progbits,8
+	.p2align	3                               # -- Begin function cast_type_numeric_sse4
+.LCPI0_0:
+	.quad	0x43e0000000000000              # double 9.2233720368547758E+18
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4
+.LCPI0_1:
+	.byte	0                               # 0x0
+	.byte	4                               # 0x4
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI0_3:
+	.long	0x4f000000                      # float 2.14748365E+9
+	.long	0x4f000000                      # float 2.14748365E+9
+	.long	0x4f000000                      # float 2.14748365E+9
+	.long	0x4f000000                      # float 2.14748365E+9
+.LCPI0_4:
+	.long	2147483648                      # 0x80000000
+	.long	2147483648                      # 0x80000000
+	.long	2147483648                      # 0x80000000
+	.long	2147483648                      # 0x80000000
+.LCPI0_5:
+	.byte	0                               # 0x0
+	.byte	8                               # 0x8
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI0_6:
+	.quad	4841369599423283200             # 0x4330000000000000
+	.quad	4841369599423283200             # 0x4330000000000000
+.LCPI0_7:
+	.quad	4985484787499139072             # 0x4530000000000000
+	.quad	4985484787499139072             # 0x4530000000000000
+.LCPI0_8:
+	.quad	0x4530000000100000              # double 1.9342813118337666E+25
+	.quad	0x4530000000100000              # double 1.9342813118337666E+25
+.LCPI0_9:
+	.long	1127219200                      # 0x43300000
+	.long	1160773632                      # 0x45300000
+	.long	0                               # 0x0
+	.long	0                               # 0x0
+.LCPI0_10:
+	.quad	0x4330000000000000              # double 4503599627370496
+	.quad	0x4530000000000000              # double 1.9342813113834067E+25
+.LCPI0_11:
+	.quad	1                               # 0x1
+	.quad	1                               # 0x1
+.LCPI0_12:
+	.byte	0                               # 0x0
+	.byte	1                               # 0x1
+	.byte	4                               # 0x4
+	.byte	5                               # 0x5
+	.byte	8                               # 0x8
+	.byte	9                               # 0x9
+	.byte	12                              # 0xc
+	.byte	13                              # 0xd
+	.byte	8                               # 0x8
+	.byte	9                               # 0x9
+	.byte	12                              # 0xc
+	.byte	13                              # 0xd
+	.byte	12                              # 0xc
+	.byte	13                              # 0xd
+	.byte	14                              # 0xe
+	.byte	15                              # 0xf
+.LCPI0_13:
+	.byte	0                               # 0x0
+	.byte	4                               # 0x4
+	.byte	8                               # 0x8
+	.byte	12                              # 0xc
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI0_14:
+	.long	1258291200                      # 0x4b000000
+	.long	1258291200                      # 0x4b000000
+	.long	1258291200                      # 0x4b000000
+	.long	1258291200                      # 0x4b000000
+.LCPI0_15:
+	.long	1392508928                      # 0x53000000
+	.long	1392508928                      # 0x53000000
+	.long	1392508928                      # 0x53000000
+	.long	1392508928                      # 0x53000000
+.LCPI0_16:
+	.long	0x53000080                      # float 5.49764202E+11
+	.long	0x53000080                      # float 5.49764202E+11
+	.long	0x53000080                      # float 5.49764202E+11
+	.long	0x53000080                      # float 5.49764202E+11
+.LCPI0_17:
+	.byte	0                               # 0x0
+	.byte	2                               # 0x2
+	.byte	4                               # 0x4
+	.byte	6                               # 0x6
+	.byte	8                               # 0x8
+	.byte	10                              # 0xa
+	.byte	12                              # 0xc
+	.byte	14                              # 0xe
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.section	.rodata.cst4,"aM",@progbits,4
+	.p2align	2
+.LCPI0_2:
+	.long	0x5f000000                      # float 9.22337203E+18
+	.text
+	.globl	cast_type_numeric_sse4
+	.p2align	4, 0x90
+	.type	cast_type_numeric_sse4,@function
+cast_type_numeric_sse4:                 # @cast_type_numeric_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	cmp	edi, 6
+	jg	.LBB0_13
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB0_25
+# %bb.2:
+	cmp	edi, 4
+	je	.LBB0_45
+# %bb.3:
+	cmp	edi, 5
+	je	.LBB0_53
+# %bb.4:
+	cmp	edi, 6
+	jne	.LBB0_1526
+# %bb.5:
+	cmp	esi, 6
+	jg	.LBB0_93
+# %bb.6:
+	cmp	esi, 3
+	jle	.LBB0_163
+# %bb.7:
+	cmp	esi, 4
+	je	.LBB0_263
+# %bb.8:
+	cmp	esi, 5
+	je	.LBB0_266
+# %bb.9:
+	cmp	esi, 6
+	jne	.LBB0_1526
+# %bb.10:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.11:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_12
+# %bb.443:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_761
+# %bb.444:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_761
+.LBB0_12:
+	xor	esi, esi
+.LBB0_1104:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1106
+.LBB0_1105:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1105
+.LBB0_1106:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1107:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1107
+	jmp	.LBB0_1526
+.LBB0_13:
+	cmp	edi, 8
+	jle	.LBB0_35
+# %bb.14:
+	cmp	edi, 9
+	je	.LBB0_61
+# %bb.15:
+	cmp	edi, 11
+	je	.LBB0_69
+# %bb.16:
+	cmp	edi, 12
+	jne	.LBB0_1526
+# %bb.17:
+	cmp	esi, 6
+	jg	.LBB0_100
+# %bb.18:
+	cmp	esi, 3
+	jle	.LBB0_168
+# %bb.19:
+	cmp	esi, 4
+	je	.LBB0_269
+# %bb.20:
+	cmp	esi, 5
+	je	.LBB0_272
+# %bb.21:
+	cmp	esi, 6
+	jne	.LBB0_1526
+# %bb.22:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.23:
+	mov	esi, r8d
+	lea	rdi, [rsi - 1]
+	mov	r8d, esi
+	and	r8d, 3
+	cmp	rdi, 3
+	jae	.LBB0_446
+# %bb.24:
+	xor	edi, edi
+	jmp	.LBB0_448
+.LBB0_25:
+	cmp	edi, 2
+	je	.LBB0_77
+# %bb.26:
+	cmp	edi, 3
+	jne	.LBB0_1526
+# %bb.27:
+	cmp	esi, 6
+	jg	.LBB0_107
+# %bb.28:
+	cmp	esi, 3
+	jle	.LBB0_173
+# %bb.29:
+	cmp	esi, 4
+	je	.LBB0_275
+# %bb.30:
+	cmp	esi, 5
+	je	.LBB0_278
+# %bb.31:
+	cmp	esi, 6
+	jne	.LBB0_1526
+# %bb.32:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.33:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_34
+# %bb.451:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_763
+# %bb.452:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_763
+.LBB0_34:
+	xor	esi, esi
+.LBB0_1482:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB0_1484
+.LBB0_1483:                             # =>This Inner Loop Header: Depth=1
+	movsx	edi, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_1483
+.LBB0_1484:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1485:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	movsx	eax, byte ptr [rdx + rsi + 2]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	movsx	eax, byte ptr [rdx + rsi + 3]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1485
+	jmp	.LBB0_1526
+.LBB0_35:
+	cmp	edi, 7
+	je	.LBB0_85
+# %bb.36:
+	cmp	edi, 8
+	jne	.LBB0_1526
+# %bb.37:
+	cmp	esi, 6
+	jg	.LBB0_114
+# %bb.38:
+	cmp	esi, 3
+	jle	.LBB0_178
+# %bb.39:
+	cmp	esi, 4
+	je	.LBB0_281
+# %bb.40:
+	cmp	esi, 5
+	je	.LBB0_284
+# %bb.41:
+	cmp	esi, 6
+	jne	.LBB0_1526
+# %bb.42:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.43:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_454
+# %bb.44:
+	xor	esi, esi
+	jmp	.LBB0_948
+.LBB0_45:
+	cmp	esi, 6
+	jg	.LBB0_121
+# %bb.46:
+	cmp	esi, 3
+	jle	.LBB0_183
+# %bb.47:
+	cmp	esi, 4
+	je	.LBB0_287
+# %bb.48:
+	cmp	esi, 5
+	je	.LBB0_290
+# %bb.49:
+	cmp	esi, 6
+	jne	.LBB0_1526
+# %bb.50:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.51:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_457
+# %bb.52:
+	xor	esi, esi
+	jmp	.LBB0_953
+.LBB0_53:
+	cmp	esi, 6
+	jg	.LBB0_128
+# %bb.54:
+	cmp	esi, 3
+	jle	.LBB0_188
+# %bb.55:
+	cmp	esi, 4
+	je	.LBB0_293
+# %bb.56:
+	cmp	esi, 5
+	je	.LBB0_296
+# %bb.57:
+	cmp	esi, 6
+	jne	.LBB0_1526
+# %bb.58:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.59:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_460
+# %bb.60:
+	xor	esi, esi
+	jmp	.LBB0_958
+.LBB0_61:
+	cmp	esi, 6
+	jg	.LBB0_135
+# %bb.62:
+	cmp	esi, 3
+	jle	.LBB0_193
+# %bb.63:
+	cmp	esi, 4
+	je	.LBB0_299
+# %bb.64:
+	cmp	esi, 5
+	je	.LBB0_302
+# %bb.65:
+	cmp	esi, 6
+	jne	.LBB0_1526
+# %bb.66:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.67:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_463
+# %bb.68:
+	xor	esi, esi
+	jmp	.LBB0_963
+.LBB0_69:
+	cmp	esi, 6
+	jg	.LBB0_142
+# %bb.70:
+	cmp	esi, 3
+	jle	.LBB0_198
+# %bb.71:
+	cmp	esi, 4
+	je	.LBB0_305
+# %bb.72:
+	cmp	esi, 5
+	je	.LBB0_308
+# %bb.73:
+	cmp	esi, 6
+	jne	.LBB0_1526
+# %bb.74:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.75:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_466
+# %bb.76:
+	xor	esi, esi
+	jmp	.LBB0_968
+.LBB0_77:
+	cmp	esi, 6
+	jg	.LBB0_149
+# %bb.78:
+	cmp	esi, 3
+	jle	.LBB0_203
+# %bb.79:
+	cmp	esi, 4
+	je	.LBB0_311
+# %bb.80:
+	cmp	esi, 5
+	je	.LBB0_314
+# %bb.81:
+	cmp	esi, 6
+	jne	.LBB0_1526
+# %bb.82:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.83:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_84
+# %bb.469:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_766
+# %bb.470:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_766
+.LBB0_84:
+	xor	esi, esi
+.LBB0_1490:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB0_1492
+.LBB0_1491:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_1491
+.LBB0_1492:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1493:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1493
+	jmp	.LBB0_1526
+.LBB0_85:
+	cmp	esi, 6
+	jg	.LBB0_156
+# %bb.86:
+	cmp	esi, 3
+	jle	.LBB0_208
+# %bb.87:
+	cmp	esi, 4
+	je	.LBB0_317
+# %bb.88:
+	cmp	esi, 5
+	je	.LBB0_320
+# %bb.89:
+	cmp	esi, 6
+	jne	.LBB0_1526
+# %bb.90:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.91:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_92
+# %bb.472:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_769
+# %bb.473:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_769
+.LBB0_92:
+	xor	esi, esi
+.LBB0_1114:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1116
+.LBB0_1115:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1115
+.LBB0_1116:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1117:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1117
+	jmp	.LBB0_1526
+.LBB0_93:
+	cmp	esi, 8
+	jle	.LBB0_213
+# %bb.94:
+	cmp	esi, 9
+	je	.LBB0_323
+# %bb.95:
+	cmp	esi, 11
+	je	.LBB0_326
+# %bb.96:
+	cmp	esi, 12
+	jne	.LBB0_1526
+# %bb.97:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.98:
+	mov	esi, r8d
+	lea	rdi, [rsi - 1]
+	mov	r8d, esi
+	and	r8d, 3
+	cmp	rdi, 3
+	jae	.LBB0_475
+# %bb.99:
+	xor	edi, edi
+	jmp	.LBB0_477
+.LBB0_100:
+	cmp	esi, 8
+	jle	.LBB0_218
+# %bb.101:
+	cmp	esi, 9
+	je	.LBB0_329
+# %bb.102:
+	cmp	esi, 11
+	je	.LBB0_332
+# %bb.103:
+	cmp	esi, 12
+	jne	.LBB0_1526
+# %bb.104:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.105:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_106
+# %bb.480:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_771
+# %bb.481:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_771
+.LBB0_106:
+	xor	esi, esi
+.LBB0_1124:
+	mov	edi, r9d
+	sub	edi, esi
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	and	rdi, 7
+	je	.LBB0_1126
+.LBB0_1125:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1125
+.LBB0_1126:
+	cmp	r8, 7
+	jb	.LBB0_1526
+.LBB0_1127:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 32]
+	mov	qword ptr [rcx + 8*rsi + 32], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 40]
+	mov	qword ptr [rcx + 8*rsi + 40], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 48]
+	mov	qword ptr [rcx + 8*rsi + 48], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 56]
+	mov	qword ptr [rcx + 8*rsi + 56], rax
+	add	rsi, 8
+	cmp	r9, rsi
+	jne	.LBB0_1127
+	jmp	.LBB0_1526
+.LBB0_107:
+	cmp	esi, 8
+	jle	.LBB0_223
+# %bb.108:
+	cmp	esi, 9
+	je	.LBB0_335
+# %bb.109:
+	cmp	esi, 11
+	je	.LBB0_338
+# %bb.110:
+	cmp	esi, 12
+	jne	.LBB0_1526
+# %bb.111:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.112:
+	mov	esi, r8d
+	lea	rdi, [rsi - 1]
+	mov	r8d, esi
+	and	r8d, 3
+	cmp	rdi, 3
+	jae	.LBB0_483
+# %bb.113:
+	xor	edi, edi
+	jmp	.LBB0_485
+.LBB0_114:
+	cmp	esi, 8
+	jle	.LBB0_228
+# %bb.115:
+	cmp	esi, 9
+	je	.LBB0_341
+# %bb.116:
+	cmp	esi, 11
+	je	.LBB0_344
+# %bb.117:
+	cmp	esi, 12
+	jne	.LBB0_1526
+# %bb.118:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.119:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_488
+# %bb.120:
+	xor	esi, esi
+	jmp	.LBB0_973
+.LBB0_121:
+	cmp	esi, 8
+	jle	.LBB0_233
+# %bb.122:
+	cmp	esi, 9
+	je	.LBB0_347
+# %bb.123:
+	cmp	esi, 11
+	je	.LBB0_350
+# %bb.124:
+	cmp	esi, 12
+	jne	.LBB0_1526
+# %bb.125:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.126:
+	mov	esi, r8d
+	lea	rdi, [rsi - 1]
+	mov	r8d, esi
+	and	r8d, 3
+	cmp	rdi, 3
+	jae	.LBB0_491
+# %bb.127:
+	xor	edi, edi
+	jmp	.LBB0_493
+.LBB0_128:
+	cmp	esi, 8
+	jle	.LBB0_238
+# %bb.129:
+	cmp	esi, 9
+	je	.LBB0_353
+# %bb.130:
+	cmp	esi, 11
+	je	.LBB0_356
+# %bb.131:
+	cmp	esi, 12
+	jne	.LBB0_1526
+# %bb.132:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.133:
+	mov	esi, r8d
+	lea	rdi, [rsi - 1]
+	mov	r8d, esi
+	and	r8d, 3
+	cmp	rdi, 3
+	jae	.LBB0_496
+# %bb.134:
+	xor	edi, edi
+	jmp	.LBB0_498
+.LBB0_135:
+	cmp	esi, 8
+	jle	.LBB0_243
+# %bb.136:
+	cmp	esi, 9
+	je	.LBB0_359
+# %bb.137:
+	cmp	esi, 11
+	je	.LBB0_362
+# %bb.138:
+	cmp	esi, 12
+	jne	.LBB0_1526
+# %bb.139:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.140:
+	mov	esi, r8d
+	lea	rdi, [rsi - 1]
+	mov	eax, esi
+	and	eax, 3
+	cmp	rdi, 3
+	jae	.LBB0_501
+# %bb.141:
+	xor	edi, edi
+	jmp	.LBB0_503
+.LBB0_142:
+	cmp	esi, 8
+	jle	.LBB0_248
+# %bb.143:
+	cmp	esi, 9
+	je	.LBB0_365
+# %bb.144:
+	cmp	esi, 11
+	je	.LBB0_368
+# %bb.145:
+	cmp	esi, 12
+	jne	.LBB0_1526
+# %bb.146:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.147:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_506
+# %bb.148:
+	xor	esi, esi
+	jmp	.LBB0_979
+.LBB0_149:
+	cmp	esi, 8
+	jle	.LBB0_253
+# %bb.150:
+	cmp	esi, 9
+	je	.LBB0_371
+# %bb.151:
+	cmp	esi, 11
+	je	.LBB0_374
+# %bb.152:
+	cmp	esi, 12
+	jne	.LBB0_1526
+# %bb.153:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.154:
+	mov	esi, r8d
+	lea	rdi, [rsi - 1]
+	mov	r8d, esi
+	and	r8d, 3
+	cmp	rdi, 3
+	jae	.LBB0_509
+# %bb.155:
+	xor	edi, edi
+	jmp	.LBB0_511
+.LBB0_156:
+	cmp	esi, 8
+	jle	.LBB0_258
+# %bb.157:
+	cmp	esi, 9
+	je	.LBB0_377
+# %bb.158:
+	cmp	esi, 11
+	je	.LBB0_380
+# %bb.159:
+	cmp	esi, 12
+	jne	.LBB0_1526
+# %bb.160:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.161:
+	mov	esi, r8d
+	lea	rdi, [rsi - 1]
+	mov	eax, esi
+	and	eax, 3
+	cmp	rdi, 3
+	jae	.LBB0_514
+# %bb.162:
+	xor	edi, edi
+	jmp	.LBB0_516
+.LBB0_163:
+	cmp	esi, 2
+	je	.LBB0_383
+# %bb.164:
+	cmp	esi, 3
+	jne	.LBB0_1526
+# %bb.165:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.166:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_167
+# %bb.519:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_773
+# %bb.520:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_773
+.LBB0_167:
+	xor	esi, esi
+.LBB0_1498:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1500
+.LBB0_1499:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1499
+.LBB0_1500:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1501:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 4]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 8]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 12]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1501
+	jmp	.LBB0_1526
+.LBB0_168:
+	cmp	esi, 2
+	je	.LBB0_386
+# %bb.169:
+	cmp	esi, 3
+	jne	.LBB0_1526
+# %bb.170:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.171:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_172
+# %bb.522:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_776
+# %bb.523:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_776
+.LBB0_172:
+	xor	esi, esi
+.LBB0_1506:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1508
+.LBB0_1507:                             # =>This Inner Loop Header: Depth=1
+	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1507
+.LBB0_1508:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1509:                             # =>This Inner Loop Header: Depth=1
+	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 8]
+	mov	byte ptr [rcx + rsi + 1], al
+	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 16]
+	mov	byte ptr [rcx + rsi + 2], al
+	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 24]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1509
+	jmp	.LBB0_1526
+.LBB0_173:
+	cmp	esi, 2
+	je	.LBB0_389
+# %bb.174:
+	cmp	esi, 3
+	jne	.LBB0_1526
+# %bb.175:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.176:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_177
+# %bb.525:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_779
+# %bb.526:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_779
+.LBB0_177:
+	xor	esi, esi
+.LBB0_1134:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1136
+.LBB0_1135:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1135
+.LBB0_1136:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1137:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1137
+	jmp	.LBB0_1526
+.LBB0_178:
+	cmp	esi, 2
+	je	.LBB0_392
+# %bb.179:
+	cmp	esi, 3
+	jne	.LBB0_1526
+# %bb.180:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.181:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_182
+# %bb.528:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_781
+# %bb.529:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_781
+.LBB0_182:
+	xor	esi, esi
+.LBB0_1322:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1324
+.LBB0_1323:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1323
+.LBB0_1324:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1325:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 8]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 16]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 24]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1325
+	jmp	.LBB0_1526
+.LBB0_183:
+	cmp	esi, 2
+	je	.LBB0_395
+# %bb.184:
+	cmp	esi, 3
+	jne	.LBB0_1526
+# %bb.185:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.186:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_187
+# %bb.531:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_784
+# %bb.532:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_784
+.LBB0_187:
+	xor	esi, esi
+.LBB0_1330:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1332
+.LBB0_1331:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1331
+.LBB0_1332:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1333:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 2]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 4]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 6]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1333
+	jmp	.LBB0_1526
+.LBB0_188:
+	cmp	esi, 2
+	je	.LBB0_398
+# %bb.189:
+	cmp	esi, 3
+	jne	.LBB0_1526
+# %bb.190:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.191:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_192
+# %bb.534:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_787
+# %bb.535:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_787
+.LBB0_192:
+	xor	esi, esi
+.LBB0_1514:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1516
+.LBB0_1515:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1515
+.LBB0_1516:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1517:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 2]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 4]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 6]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1517
+	jmp	.LBB0_1526
+.LBB0_193:
+	cmp	esi, 2
+	je	.LBB0_401
+# %bb.194:
+	cmp	esi, 3
+	jne	.LBB0_1526
+# %bb.195:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.196:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_197
+# %bb.537:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_790
+# %bb.538:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_790
+.LBB0_197:
+	xor	esi, esi
+.LBB0_1338:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1340
+.LBB0_1339:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1339
+.LBB0_1340:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1341:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 8]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 16]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 24]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1341
+	jmp	.LBB0_1526
+.LBB0_198:
+	cmp	esi, 2
+	je	.LBB0_404
+# %bb.199:
+	cmp	esi, 3
+	jne	.LBB0_1526
+# %bb.200:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.201:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_202
+# %bb.540:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_793
+# %bb.541:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_793
+.LBB0_202:
+	xor	esi, esi
+.LBB0_1522:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1524
+.LBB0_1523:                             # =>This Inner Loop Header: Depth=1
+	cvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1523
+.LBB0_1524:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1525:                             # =>This Inner Loop Header: Depth=1
+	cvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	cvttss2si	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	byte ptr [rcx + rsi + 1], al
+	cvttss2si	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	byte ptr [rcx + rsi + 2], al
+	cvttss2si	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1525
+	jmp	.LBB0_1526
+.LBB0_203:
+	cmp	esi, 2
+	je	.LBB0_407
+# %bb.204:
+	cmp	esi, 3
+	jne	.LBB0_1526
+# %bb.205:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.206:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_207
+# %bb.543:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_796
+# %bb.544:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_796
+.LBB0_207:
+	xor	esi, esi
+.LBB0_1144:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1146
+.LBB0_1145:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1145
+.LBB0_1146:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1147:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1147
+	jmp	.LBB0_1526
+.LBB0_208:
+	cmp	esi, 2
+	je	.LBB0_410
+# %bb.209:
+	cmp	esi, 3
+	jne	.LBB0_1526
+# %bb.210:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.211:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_212
+# %bb.546:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_798
+# %bb.547:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_798
+.LBB0_212:
+	xor	esi, esi
+.LBB0_1346:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1348
+.LBB0_1347:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1347
+.LBB0_1348:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1349:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 4]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 8]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 12]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1349
+	jmp	.LBB0_1526
+.LBB0_213:
+	cmp	esi, 7
+	je	.LBB0_413
+# %bb.214:
+	cmp	esi, 8
+	jne	.LBB0_1526
+# %bb.215:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.216:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_549
+# %bb.217:
+	xor	esi, esi
+	jmp	.LBB0_807
+.LBB0_218:
+	cmp	esi, 7
+	je	.LBB0_416
+# %bb.219:
+	cmp	esi, 8
+	jne	.LBB0_1526
+# %bb.220:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.221:
+	mov	r9d, r8d
+	lea	rax, [r9 - 1]
+	mov	r8d, r9d
+	and	r8d, 3
+	movabs	r10, -9223372036854775808
+	cmp	rax, 3
+	jae	.LBB0_551
+# %bb.222:
+	xor	eax, eax
+	jmp	.LBB0_553
+.LBB0_223:
+	cmp	esi, 7
+	je	.LBB0_419
+# %bb.224:
+	cmp	esi, 8
+	jne	.LBB0_1526
+# %bb.225:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.226:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_227
+# %bb.556:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_808
+# %bb.557:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_808
+.LBB0_227:
+	xor	esi, esi
+.LBB0_1154:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1156
+.LBB0_1155:                             # =>This Inner Loop Header: Depth=1
+	movsx	rax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1155
+.LBB0_1156:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1157:                             # =>This Inner Loop Header: Depth=1
+	movsx	rax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	movsx	rax, byte ptr [rdx + rsi + 1]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	movsx	rax, byte ptr [rdx + rsi + 2]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	movsx	rax, byte ptr [rdx + rsi + 3]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1157
+	jmp	.LBB0_1526
+.LBB0_228:
+	cmp	esi, 7
+	je	.LBB0_422
+# %bb.229:
+	cmp	esi, 8
+	jne	.LBB0_1526
+# %bb.230:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.231:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_232
+# %bb.559:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_810
+# %bb.560:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_810
+.LBB0_232:
+	xor	esi, esi
+.LBB0_1164:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1166
+.LBB0_1165:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1165
+.LBB0_1166:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1167:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1167
+	jmp	.LBB0_1526
+.LBB0_233:
+	cmp	esi, 7
+	je	.LBB0_425
+# %bb.234:
+	cmp	esi, 8
+	jne	.LBB0_1526
+# %bb.235:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.236:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_562
+# %bb.237:
+	xor	esi, esi
+	jmp	.LBB0_818
+.LBB0_238:
+	cmp	esi, 7
+	je	.LBB0_428
+# %bb.239:
+	cmp	esi, 8
+	jne	.LBB0_1526
+# %bb.240:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.241:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_564
+# %bb.242:
+	xor	esi, esi
+	jmp	.LBB0_825
+.LBB0_243:
+	cmp	esi, 7
+	je	.LBB0_431
+# %bb.244:
+	cmp	esi, 8
+	jne	.LBB0_1526
+# %bb.245:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.246:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_247
+# %bb.566:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_826
+# %bb.567:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_826
+.LBB0_247:
+	xor	esi, esi
+.LBB0_1174:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1176
+.LBB0_1175:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1175
+.LBB0_1176:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1177:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1177
+	jmp	.LBB0_1526
+.LBB0_248:
+	cmp	esi, 7
+	je	.LBB0_434
+# %bb.249:
+	cmp	esi, 8
+	jne	.LBB0_1526
+# %bb.250:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.251:
+	mov	r9d, r8d
+	lea	rax, [r9 - 1]
+	mov	r8d, r9d
+	and	r8d, 3
+	cmp	rax, 3
+	jae	.LBB0_569
+# %bb.252:
+	xor	edi, edi
+	jmp	.LBB0_571
+.LBB0_253:
+	cmp	esi, 7
+	je	.LBB0_437
+# %bb.254:
+	cmp	esi, 8
+	jne	.LBB0_1526
+# %bb.255:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.256:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_257
+# %bb.574:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_828
+# %bb.575:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_828
+.LBB0_257:
+	xor	esi, esi
+.LBB0_1184:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1186
+.LBB0_1185:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1185
+.LBB0_1186:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1187:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1187
+	jmp	.LBB0_1526
+.LBB0_258:
+	cmp	esi, 7
+	je	.LBB0_440
+# %bb.259:
+	cmp	esi, 8
+	jne	.LBB0_1526
+# %bb.260:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.261:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_577
+# %bb.262:
+	xor	esi, esi
+	jmp	.LBB0_836
+.LBB0_263:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.264:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_579
+# %bb.265:
+	xor	esi, esi
+	jmp	.LBB0_984
+.LBB0_266:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.267:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_582
+# %bb.268:
+	xor	esi, esi
+	jmp	.LBB0_989
+.LBB0_269:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.270:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_585
+# %bb.271:
+	xor	esi, esi
+	jmp	.LBB0_994
+.LBB0_272:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.273:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_588
+# %bb.274:
+	xor	esi, esi
+	jmp	.LBB0_999
+.LBB0_275:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.276:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_277
+# %bb.591:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_837
+# %bb.592:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_837
+.LBB0_277:
+	xor	esi, esi
+.LBB0_1354:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB0_1356
+.LBB0_1355:                             # =>This Inner Loop Header: Depth=1
+	movsx	edi, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_1355
+.LBB0_1356:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1357:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movsx	eax, byte ptr [rdx + rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movsx	eax, byte ptr [rdx + rsi + 3]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1357
+	jmp	.LBB0_1526
+.LBB0_278:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.279:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_280
+# %bb.594:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_840
+# %bb.595:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_840
+.LBB0_280:
+	xor	esi, esi
+.LBB0_1362:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB0_1364
+.LBB0_1363:                             # =>This Inner Loop Header: Depth=1
+	movsx	edi, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_1363
+.LBB0_1364:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1365:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movsx	eax, byte ptr [rdx + rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movsx	eax, byte ptr [rdx + rsi + 3]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1365
+	jmp	.LBB0_1526
+.LBB0_281:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.282:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_597
+# %bb.283:
+	xor	esi, esi
+	jmp	.LBB0_1004
+.LBB0_284:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.285:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_600
+# %bb.286:
+	xor	esi, esi
+	jmp	.LBB0_1009
+.LBB0_287:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.288:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_289
+# %bb.603:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_843
+# %bb.604:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_843
+.LBB0_289:
+	xor	esi, esi
+.LBB0_1194:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1196
+.LBB0_1195:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1195
+.LBB0_1196:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1197:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1197
+	jmp	.LBB0_1526
+.LBB0_290:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.291:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_292
+# %bb.606:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_845
+# %bb.607:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_845
+.LBB0_292:
+	xor	esi, esi
+.LBB0_1204:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1206
+.LBB0_1205:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1205
+.LBB0_1206:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1207:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1207
+	jmp	.LBB0_1526
+.LBB0_293:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.294:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_295
+# %bb.609:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_847
+# %bb.610:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_847
+.LBB0_295:
+	xor	esi, esi
+.LBB0_1214:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1216
+.LBB0_1215:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1215
+.LBB0_1216:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1217:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1217
+	jmp	.LBB0_1526
+.LBB0_296:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.297:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_298
+# %bb.612:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_849
+# %bb.613:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_849
+.LBB0_298:
+	xor	esi, esi
+.LBB0_1224:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1226
+.LBB0_1225:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1225
+.LBB0_1226:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1227:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1227
+	jmp	.LBB0_1526
+.LBB0_299:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.300:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_615
+# %bb.301:
+	xor	esi, esi
+	jmp	.LBB0_1014
+.LBB0_302:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.303:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_618
+# %bb.304:
+	xor	esi, esi
+	jmp	.LBB0_1019
+.LBB0_305:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.306:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_621
+# %bb.307:
+	xor	esi, esi
+	jmp	.LBB0_1024
+.LBB0_308:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.309:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_624
+# %bb.310:
+	xor	esi, esi
+	jmp	.LBB0_1029
+.LBB0_311:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.312:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_313
+# %bb.627:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_851
+# %bb.628:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_851
+.LBB0_313:
+	xor	esi, esi
+.LBB0_1370:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB0_1372
+.LBB0_1371:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_1371
+.LBB0_1372:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1373:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1373
+	jmp	.LBB0_1526
+.LBB0_314:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.315:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_316
+# %bb.630:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_854
+# %bb.631:
+	lea	rax, [rcx + 2*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_854
+.LBB0_316:
+	xor	esi, esi
+.LBB0_1378:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB0_1380
+.LBB0_1379:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_1379
+.LBB0_1380:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1381:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	word ptr [rcx + 2*rsi + 2], ax
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	word ptr [rcx + 2*rsi + 4], ax
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	word ptr [rcx + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1381
+	jmp	.LBB0_1526
+.LBB0_317:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.318:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_633
+# %bb.319:
+	xor	esi, esi
+	jmp	.LBB0_1034
+.LBB0_320:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.321:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_636
+# %bb.322:
+	xor	esi, esi
+	jmp	.LBB0_1039
+.LBB0_323:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.324:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_639
+# %bb.325:
+	xor	esi, esi
+	jmp	.LBB0_863
+.LBB0_326:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.327:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_641
+# %bb.328:
+	xor	esi, esi
+	jmp	.LBB0_1044
+.LBB0_329:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.330:
+	mov	esi, r8d
+	lea	rdi, [rsi - 1]
+	mov	r8d, esi
+	and	r8d, 3
+	cmp	rdi, 3
+	jae	.LBB0_644
+# %bb.331:
+	xor	edi, edi
+	jmp	.LBB0_646
+.LBB0_332:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.333:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_649
+# %bb.334:
+	xor	esi, esi
+	jmp	.LBB0_1049
+.LBB0_335:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.336:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_337
+# %bb.652:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_864
+# %bb.653:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_864
+.LBB0_337:
+	xor	esi, esi
+.LBB0_1234:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1236
+.LBB0_1235:                             # =>This Inner Loop Header: Depth=1
+	movsx	rax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1235
+.LBB0_1236:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1237:                             # =>This Inner Loop Header: Depth=1
+	movsx	rax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	movsx	rax, byte ptr [rdx + rsi + 1]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	movsx	rax, byte ptr [rdx + rsi + 2]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	movsx	rax, byte ptr [rdx + rsi + 3]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1237
+	jmp	.LBB0_1526
+.LBB0_338:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.339:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_340
+# %bb.655:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_866
+# %bb.656:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_866
+.LBB0_340:
+	xor	esi, esi
+.LBB0_1386:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1388
+.LBB0_1387:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, eax
+	movss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1387
+.LBB0_1388:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1389:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, eax
+	movss	dword ptr [rcx + 4*rsi], xmm0
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, eax
+	movss	dword ptr [rcx + 4*rsi + 4], xmm0
+	movsx	eax, byte ptr [rdx + rsi + 2]
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, eax
+	movss	dword ptr [rcx + 4*rsi + 8], xmm0
+	movsx	eax, byte ptr [rdx + rsi + 3]
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, eax
+	movss	dword ptr [rcx + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1389
+	jmp	.LBB0_1526
+.LBB0_341:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.342:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_343
+# %bb.658:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_869
+# %bb.659:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_869
+.LBB0_343:
+	xor	esi, esi
+.LBB0_1244:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1246
+.LBB0_1245:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1245
+.LBB0_1246:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1247:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1247
+	jmp	.LBB0_1526
+.LBB0_344:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.345:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_661
+# %bb.346:
+	xor	esi, esi
+	jmp	.LBB0_1056
+.LBB0_347:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.348:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_664
+# %bb.349:
+	xor	esi, esi
+	jmp	.LBB0_877
+.LBB0_350:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.351:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_666
+# %bb.352:
+	xor	esi, esi
+	jmp	.LBB0_1062
+.LBB0_353:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.354:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_669
+# %bb.355:
+	xor	esi, esi
+	jmp	.LBB0_884
+.LBB0_356:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.357:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_671
+# %bb.358:
+	xor	esi, esi
+	jmp	.LBB0_1067
+.LBB0_359:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.360:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_361
+# %bb.674:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_885
+# %bb.675:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_885
+.LBB0_361:
+	xor	esi, esi
+.LBB0_1254:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1256
+.LBB0_1255:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1255
+.LBB0_1256:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1257:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1257
+	jmp	.LBB0_1526
+.LBB0_362:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.363:
+	mov	esi, r8d
+	lea	rdi, [rsi - 1]
+	mov	eax, esi
+	and	eax, 3
+	cmp	rdi, 3
+	jae	.LBB0_677
+# %bb.364:
+	xor	edi, edi
+	jmp	.LBB0_679
+.LBB0_365:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.366:
+	mov	esi, r8d
+	lea	rdi, [rsi - 1]
+	mov	r8d, esi
+	and	r8d, 3
+	cmp	rdi, 3
+	jae	.LBB0_682
+# %bb.367:
+	xor	edi, edi
+	jmp	.LBB0_684
+.LBB0_368:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.369:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_370
+# %bb.687:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_887
+# %bb.688:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_887
+.LBB0_370:
+	xor	esi, esi
+.LBB0_1264:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 7
+	je	.LBB0_1266
+.LBB0_1265:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1265
+.LBB0_1266:
+	cmp	r8, 7
+	jb	.LBB0_1526
+.LBB0_1267:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 16]
+	mov	dword ptr [rcx + 4*rsi + 16], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 20]
+	mov	dword ptr [rcx + 4*rsi + 20], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 24]
+	mov	dword ptr [rcx + 4*rsi + 24], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 28]
+	mov	dword ptr [rcx + 4*rsi + 28], eax
+	add	rsi, 8
+	cmp	r9, rsi
+	jne	.LBB0_1267
+	jmp	.LBB0_1526
+.LBB0_371:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.372:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_373
+# %bb.690:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_889
+# %bb.691:
+	lea	rax, [rcx + 8*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_889
+.LBB0_373:
+	xor	esi, esi
+.LBB0_1274:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1276
+.LBB0_1275:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1275
+.LBB0_1276:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1277:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	qword ptr [rcx + 8*rsi + 8], rax
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	qword ptr [rcx + 8*rsi + 16], rax
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	qword ptr [rcx + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1277
+	jmp	.LBB0_1526
+.LBB0_374:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.375:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_376
+# %bb.693:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_891
+# %bb.694:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_891
+.LBB0_376:
+	xor	esi, esi
+.LBB0_1394:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1396
+.LBB0_1395:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, eax
+	movss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1395
+.LBB0_1396:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1397:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, eax
+	movss	dword ptr [rcx + 4*rsi], xmm0
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, eax
+	movss	dword ptr [rcx + 4*rsi + 4], xmm0
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, eax
+	movss	dword ptr [rcx + 4*rsi + 8], xmm0
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, eax
+	movss	dword ptr [rcx + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1397
+	jmp	.LBB0_1526
+.LBB0_377:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.378:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_696
+# %bb.379:
+	xor	esi, esi
+	jmp	.LBB0_900
+.LBB0_380:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.381:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_698
+# %bb.382:
+	xor	esi, esi
+	jmp	.LBB0_1072
+.LBB0_383:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.384:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_385
+# %bb.701:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_901
+# %bb.702:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_901
+.LBB0_385:
+	xor	esi, esi
+.LBB0_1402:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1404
+.LBB0_1403:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1403
+.LBB0_1404:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1405:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 4]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 8]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 12]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1405
+	jmp	.LBB0_1526
+.LBB0_386:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.387:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_388
+# %bb.704:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_904
+# %bb.705:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_904
+.LBB0_388:
+	xor	esi, esi
+.LBB0_1410:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1412
+.LBB0_1411:                             # =>This Inner Loop Header: Depth=1
+	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1411
+.LBB0_1412:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1413:                             # =>This Inner Loop Header: Depth=1
+	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 8]
+	mov	byte ptr [rcx + rsi + 1], al
+	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 16]
+	mov	byte ptr [rcx + rsi + 2], al
+	cvttsd2si	eax, qword ptr [rdx + 8*rsi + 24]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1413
+	jmp	.LBB0_1526
+.LBB0_389:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.390:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_391
+# %bb.707:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_907
+# %bb.708:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_907
+.LBB0_391:
+	xor	esi, esi
+.LBB0_1284:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1286
+.LBB0_1285:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1285
+.LBB0_1286:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1287:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1287
+	jmp	.LBB0_1526
+.LBB0_392:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.393:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_394
+# %bb.710:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_909
+# %bb.711:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_909
+.LBB0_394:
+	xor	esi, esi
+.LBB0_1418:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1420
+.LBB0_1419:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1419
+.LBB0_1420:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1421:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 8]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 16]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 24]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1421
+	jmp	.LBB0_1526
+.LBB0_395:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.396:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_397
+# %bb.713:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_912
+# %bb.714:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_912
+.LBB0_397:
+	xor	esi, esi
+.LBB0_1426:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1428
+.LBB0_1427:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1427
+.LBB0_1428:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1429:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 2]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 4]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 6]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1429
+	jmp	.LBB0_1526
+.LBB0_398:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.399:
+	mov	r9d, r8d
+	cmp	r8d, 16
+	jb	.LBB0_400
+# %bb.716:
+	lea	rax, [rdx + 2*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_915
+# %bb.717:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_915
+.LBB0_400:
+	xor	esi, esi
+.LBB0_1434:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1436
+.LBB0_1435:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1435
+.LBB0_1436:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1437:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 2*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 2]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 4]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 2*rsi + 6]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1437
+	jmp	.LBB0_1526
+.LBB0_401:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.402:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jb	.LBB0_403
+# %bb.719:
+	lea	rax, [rdx + 8*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_918
+# %bb.720:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_918
+.LBB0_403:
+	xor	esi, esi
+.LBB0_1442:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1444
+.LBB0_1443:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1443
+.LBB0_1444:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1445:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 8*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 8]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 16]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 8*rsi + 24]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1445
+	jmp	.LBB0_1526
+.LBB0_404:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.405:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_406
+# %bb.722:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_921
+# %bb.723:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_921
+.LBB0_406:
+	xor	esi, esi
+.LBB0_1450:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1452
+.LBB0_1451:                             # =>This Inner Loop Header: Depth=1
+	cvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1451
+.LBB0_1452:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1453:                             # =>This Inner Loop Header: Depth=1
+	cvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	cvttss2si	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	byte ptr [rcx + rsi + 1], al
+	cvttss2si	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	byte ptr [rcx + rsi + 2], al
+	cvttss2si	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1453
+	jmp	.LBB0_1526
+.LBB0_407:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.408:
+	mov	r9d, r8d
+	cmp	r8d, 32
+	jb	.LBB0_409
+# %bb.725:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_924
+# %bb.726:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_924
+.LBB0_409:
+	xor	esi, esi
+.LBB0_1294:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1296
+.LBB0_1295:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1295
+.LBB0_1296:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1297:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1297
+	jmp	.LBB0_1526
+.LBB0_410:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.411:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_412
+# %bb.728:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_926
+# %bb.729:
+	lea	rax, [rcx + r9]
+	cmp	rax, rdx
+	jbe	.LBB0_926
+.LBB0_412:
+	xor	esi, esi
+.LBB0_1458:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1460
+.LBB0_1459:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1459
+.LBB0_1460:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1461:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + 4*rsi]
+	mov	byte ptr [rcx + rsi], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 4]
+	mov	byte ptr [rcx + rsi + 1], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 8]
+	mov	byte ptr [rcx + rsi + 2], al
+	movzx	eax, byte ptr [rdx + 4*rsi + 12]
+	mov	byte ptr [rcx + rsi + 3], al
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1461
+	jmp	.LBB0_1526
+.LBB0_413:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.414:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_415
+# %bb.731:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_929
+# %bb.732:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_929
+.LBB0_415:
+	xor	esi, esi
+.LBB0_1304:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1306
+.LBB0_1305:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1305
+.LBB0_1306:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1307:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1307
+	jmp	.LBB0_1526
+.LBB0_416:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.417:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_734
+# %bb.418:
+	xor	esi, esi
+	jmp	.LBB0_1077
+.LBB0_419:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.420:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_421
+# %bb.737:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_931
+# %bb.738:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_931
+.LBB0_421:
+	xor	esi, esi
+.LBB0_1466:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB0_1468
+.LBB0_1467:                             # =>This Inner Loop Header: Depth=1
+	movsx	edi, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_1467
+.LBB0_1468:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1469:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	movsx	eax, byte ptr [rdx + rsi + 1]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	movsx	eax, byte ptr [rdx + rsi + 2]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	movsx	eax, byte ptr [rdx + rsi + 3]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1469
+	jmp	.LBB0_1526
+.LBB0_422:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.423:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_740
+# %bb.424:
+	xor	esi, esi
+	jmp	.LBB0_943
+.LBB0_425:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.426:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_743
+# %bb.427:
+	xor	esi, esi
+	jmp	.LBB0_1082
+.LBB0_428:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.429:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_746
+# %bb.430:
+	xor	esi, esi
+	jmp	.LBB0_1087
+.LBB0_431:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.432:
+	mov	r9d, r8d
+	cmp	r8d, 4
+	jae	.LBB0_749
+# %bb.433:
+	xor	esi, esi
+	jmp	.LBB0_1092
+.LBB0_434:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.435:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jae	.LBB0_752
+# %bb.436:
+	xor	esi, esi
+	jmp	.LBB0_1097
+.LBB0_437:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.438:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_439
+# %bb.755:
+	lea	rax, [rdx + r9]
+	cmp	rax, rcx
+	jbe	.LBB0_934
+# %bb.756:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_934
+.LBB0_439:
+	xor	esi, esi
+.LBB0_1474:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB0_1476
+.LBB0_1475:                             # =>This Inner Loop Header: Depth=1
+	movzx	edi, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_1475
+.LBB0_1476:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1477:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1477
+	jmp	.LBB0_1526
+.LBB0_440:
+	test	r8d, r8d
+	jle	.LBB0_1526
+# %bb.441:
+	mov	r9d, r8d
+	cmp	r8d, 8
+	jb	.LBB0_442
+# %bb.758:
+	lea	rax, [rdx + 4*r9]
+	cmp	rax, rcx
+	jbe	.LBB0_937
+# %bb.759:
+	lea	rax, [rcx + 4*r9]
+	cmp	rax, rdx
+	jbe	.LBB0_937
+.LBB0_442:
+	xor	esi, esi
+.LBB0_1314:
+	mov	r8, rsi
+	not	r8
+	add	r8, r9
+	mov	rdi, r9
+	and	rdi, 3
+	je	.LBB0_1316
+.LBB0_1315:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_1315
+.LBB0_1316:
+	cmp	r8, 3
+	jb	.LBB0_1526
+.LBB0_1317:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [rcx + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [rcx + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [rcx + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r9, rsi
+	jne	.LBB0_1317
+	jmp	.LBB0_1526
+.LBB0_446:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_447:                              # =>This Inner Loop Header: Depth=1
+	cvttsd2si	rax, qword ptr [rdx + 8*rdi]
+	mov	dword ptr [rcx + 4*rdi], eax
+	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 8]
+	mov	dword ptr [rcx + 4*rdi + 4], eax
+	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 16]
+	mov	dword ptr [rcx + 4*rdi + 8], eax
+	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 24]
+	mov	dword ptr [rcx + 4*rdi + 12], eax
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_447
+.LBB0_448:
+	test	r8, r8
+	je	.LBB0_1526
+# %bb.449:
+	lea	rcx, [rcx + 4*rdi]
+	lea	rdx, [rdx + 8*rdi]
+	xor	esi, esi
+.LBB0_450:                              # =>This Inner Loop Header: Depth=1
+	cvttsd2si	rax, qword ptr [rdx + 8*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r8, rsi
+	jne	.LBB0_450
+	jmp	.LBB0_1526
+.LBB0_454:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_944
+# %bb.455:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_456:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_456
+	jmp	.LBB0_945
+.LBB0_457:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_949
+# %bb.458:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_459:                              # =>This Inner Loop Header: Depth=1
+	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_459
+	jmp	.LBB0_950
+.LBB0_460:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_954
+# %bb.461:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_462:                              # =>This Inner Loop Header: Depth=1
+	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 16]
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_462
+	jmp	.LBB0_955
+.LBB0_463:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_959
+# %bb.464:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_465:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_465
+	jmp	.LBB0_960
+.LBB0_466:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_964
+# %bb.467:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movaps	xmm1, xmmword ptr [rip + .LCPI0_3] # xmm1 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
+	movaps	xmm2, xmmword ptr [rip + .LCPI0_4] # xmm2 = [2147483648,2147483648,2147483648,2147483648]
+.LBB0_468:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm3, xmmword ptr [rdx + 4*rdi]
+	movups	xmm4, xmmword ptr [rdx + 4*rdi + 16]
+	movaps	xmm0, xmm3
+	cmpltps	xmm0, xmm1
+	cvttps2dq	xmm5, xmm3
+	subps	xmm3, xmm1
+	cvttps2dq	xmm3, xmm3
+	xorps	xmm3, xmm2
+	blendvps	xmm3, xmm5, xmm0
+	movaps	xmm0, xmm4
+	cmpltps	xmm0, xmm1
+	cvttps2dq	xmm5, xmm4
+	subps	xmm4, xmm1
+	cvttps2dq	xmm4, xmm4
+	xorps	xmm4, xmm2
+	blendvps	xmm4, xmm5, xmm0
+	movups	xmmword ptr [rcx + 4*rdi], xmm3
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm4
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 32]
+	movaps	xmm0, xmm3
+	cmpltps	xmm0, xmm1
+	cvttps2dq	xmm4, xmm3
+	subps	xmm3, xmm1
+	cvttps2dq	xmm3, xmm3
+	xorps	xmm3, xmm2
+	blendvps	xmm3, xmm4, xmm0
+	movups	xmm4, xmmword ptr [rdx + 4*rdi + 48]
+	movaps	xmm0, xmm4
+	cmpltps	xmm0, xmm1
+	cvttps2dq	xmm5, xmm4
+	subps	xmm4, xmm1
+	cvttps2dq	xmm4, xmm4
+	xorps	xmm4, xmm2
+	blendvps	xmm4, xmm5, xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 32], xmm3
+	movups	xmmword ptr [rcx + 4*rdi + 48], xmm4
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_468
+	jmp	.LBB0_965
+.LBB0_475:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_476:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rdi]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, rax
+	movsd	qword ptr [rcx + 8*rdi], xmm0
+	mov	eax, dword ptr [rdx + 4*rdi + 4]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, rax
+	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
+	mov	eax, dword ptr [rdx + 4*rdi + 8]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, rax
+	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
+	mov	eax, dword ptr [rdx + 4*rdi + 12]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, rax
+	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_476
+.LBB0_477:
+	test	r8, r8
+	je	.LBB0_1526
+# %bb.478:
+	lea	rcx, [rcx + 8*rdi]
+	lea	rdx, [rdx + 4*rdi]
+	xor	esi, esi
+.LBB0_479:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, rax
+	movsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	r8, rsi
+	jne	.LBB0_479
+	jmp	.LBB0_1526
+.LBB0_483:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_484:                              # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rdi]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi], xmm0
+	movsx	eax, byte ptr [rdx + rdi + 1]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
+	movsx	eax, byte ptr [rdx + rdi + 2]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
+	movsx	eax, byte ptr [rdx + rdi + 3]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_484
+.LBB0_485:
+	test	r8, r8
+	je	.LBB0_1526
+# %bb.486:
+	lea	rcx, [rcx + 8*rdi]
+	add	rdx, rdi
+	xor	esi, esi
+.LBB0_487:                              # =>This Inner Loop Header: Depth=1
+	movsx	eax, byte ptr [rdx + rsi]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	r8, rsi
+	jne	.LBB0_487
+	jmp	.LBB0_1526
+.LBB0_488:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_969
+# %bb.489:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	pxor	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI0_6] # xmm1 = [4841369599423283200,4841369599423283200]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_7] # xmm2 = [4985484787499139072,4985484787499139072]
+	movapd	xmm3, xmmword ptr [rip + .LCPI0_8] # xmm3 = [1.9342813118337666E+25,1.9342813118337666E+25]
+.LBB0_490:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm4, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm5, xmmword ptr [rdx + 8*rdi + 16]
+	movdqa	xmm6, xmm4
+	pblendw	xmm6, xmm0, 204                 # xmm6 = xmm6[0,1],xmm0[2,3],xmm6[4,5],xmm0[6,7]
+	por	xmm6, xmm1
+	psrlq	xmm4, 32
+	por	xmm4, xmm2
+	subpd	xmm4, xmm3
+	addpd	xmm4, xmm6
+	movdqa	xmm6, xmm5
+	pblendw	xmm6, xmm0, 204                 # xmm6 = xmm6[0,1],xmm0[2,3],xmm6[4,5],xmm0[6,7]
+	por	xmm6, xmm1
+	psrlq	xmm5, 32
+	por	xmm5, xmm2
+	subpd	xmm5, xmm3
+	addpd	xmm5, xmm6
+	movupd	xmmword ptr [rcx + 8*rdi], xmm4
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm5
+	movdqu	xmm4, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm5, xmmword ptr [rdx + 8*rdi + 48]
+	movdqa	xmm6, xmm4
+	pblendw	xmm6, xmm0, 204                 # xmm6 = xmm6[0,1],xmm0[2,3],xmm6[4,5],xmm0[6,7]
+	por	xmm6, xmm1
+	psrlq	xmm4, 32
+	por	xmm4, xmm2
+	subpd	xmm4, xmm3
+	addpd	xmm4, xmm6
+	movdqa	xmm6, xmm5
+	pblendw	xmm6, xmm0, 204                 # xmm6 = xmm6[0,1],xmm0[2,3],xmm6[4,5],xmm0[6,7]
+	por	xmm6, xmm1
+	psrlq	xmm5, 32
+	por	xmm5, xmm2
+	subpd	xmm5, xmm3
+	addpd	xmm5, xmm6
+	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm4
+	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm5
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_490
+	jmp	.LBB0_970
+.LBB0_491:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_492:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rdi]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi], xmm0
+	movzx	eax, word ptr [rdx + 2*rdi + 2]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
+	movzx	eax, word ptr [rdx + 2*rdi + 4]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
+	movzx	eax, word ptr [rdx + 2*rdi + 6]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_492
+.LBB0_493:
+	test	r8, r8
+	je	.LBB0_1526
+# %bb.494:
+	lea	rcx, [rcx + 8*rdi]
+	lea	rdx, [rdx + 2*rdi]
+	xor	esi, esi
+.LBB0_495:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	r8, rsi
+	jne	.LBB0_495
+	jmp	.LBB0_1526
+.LBB0_496:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_497:                              # =>This Inner Loop Header: Depth=1
+	movsx	eax, word ptr [rdx + 2*rdi]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi], xmm0
+	movsx	eax, word ptr [rdx + 2*rdi + 2]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
+	movsx	eax, word ptr [rdx + 2*rdi + 4]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
+	movsx	eax, word ptr [rdx + 2*rdi + 6]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_497
+.LBB0_498:
+	test	r8, r8
+	je	.LBB0_1526
+# %bb.499:
+	lea	rcx, [rcx + 8*rdi]
+	lea	rdx, [rdx + 2*rdi]
+	xor	esi, esi
+.LBB0_500:                              # =>This Inner Loop Header: Depth=1
+	movsx	eax, word ptr [rdx + 2*rsi]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	r8, rsi
+	jne	.LBB0_500
+	jmp	.LBB0_1526
+.LBB0_501:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_502:                              # =>This Inner Loop Header: Depth=1
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, qword ptr [rdx + 8*rdi]
+	movsd	qword ptr [rcx + 8*rdi], xmm0
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, qword ptr [rdx + 8*rdi + 8]
+	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, qword ptr [rdx + 8*rdi + 16]
+	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, qword ptr [rdx + 8*rdi + 24]
+	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_502
+.LBB0_503:
+	test	rax, rax
+	je	.LBB0_1526
+# %bb.504:
+	lea	rcx, [rcx + 8*rdi]
+	lea	rdx, [rdx + 8*rdi]
+	xor	esi, esi
+.LBB0_505:                              # =>This Inner Loop Header: Depth=1
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB0_505
+	jmp	.LBB0_1526
+.LBB0_506:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_975
+# %bb.507:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_508:                              # =>This Inner Loop Header: Depth=1
+	cvtps2pd	xmm0, qword ptr [rdx + 4*rdi]
+	cvtps2pd	xmm1, qword ptr [rdx + 4*rdi + 8]
+	movups	xmmword ptr [rcx + 8*rdi], xmm0
+	movups	xmmword ptr [rcx + 8*rdi + 16], xmm1
+	cvtps2pd	xmm0, qword ptr [rdx + 4*rdi + 16]
+	cvtps2pd	xmm1, qword ptr [rdx + 4*rdi + 24]
+	movupd	xmmword ptr [rcx + 8*rdi + 32], xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_508
+	jmp	.LBB0_976
+.LBB0_509:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_510:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rdi]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi], xmm0
+	movzx	eax, byte ptr [rdx + rdi + 1]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
+	movzx	eax, byte ptr [rdx + rdi + 2]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
+	movzx	eax, byte ptr [rdx + rdi + 3]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_510
+.LBB0_511:
+	test	r8, r8
+	je	.LBB0_1526
+# %bb.512:
+	lea	rcx, [rcx + 8*rdi]
+	add	rdx, rdi
+	xor	esi, esi
+.LBB0_513:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, eax
+	movsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	r8, rsi
+	jne	.LBB0_513
+	jmp	.LBB0_1526
+.LBB0_514:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_515:                              # =>This Inner Loop Header: Depth=1
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, dword ptr [rdx + 4*rdi]
+	movsd	qword ptr [rcx + 8*rdi], xmm0
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, dword ptr [rdx + 4*rdi + 4]
+	movsd	qword ptr [rcx + 8*rdi + 8], xmm0
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, dword ptr [rdx + 4*rdi + 8]
+	movsd	qword ptr [rcx + 8*rdi + 16], xmm0
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, dword ptr [rdx + 4*rdi + 12]
+	movsd	qword ptr [rcx + 8*rdi + 24], xmm0
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_515
+.LBB0_516:
+	test	rax, rax
+	je	.LBB0_1526
+# %bb.517:
+	lea	rcx, [rcx + 8*rdi]
+	lea	rdx, [rdx + 4*rdi]
+	xor	esi, esi
+.LBB0_518:                              # =>This Inner Loop Header: Depth=1
+	xorps	xmm0, xmm0
+	cvtsi2sd	xmm0, dword ptr [rdx + 4*rsi]
+	movsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB0_518
+	jmp	.LBB0_1526
+.LBB0_549:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_801
+# %bb.550:
+	xor	eax, eax
+	jmp	.LBB0_803
+.LBB0_551:
+	and	r9d, -4
+	xor	eax, eax
+	movsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
+.LBB0_552:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rax]   # xmm1 = mem[0],zero
+	movapd	xmm2, xmm1
+	subsd	xmm2, xmm0
+	cvttsd2si	rdi, xmm2
+	xor	rdi, r10
+	cvttsd2si	rsi, xmm1
+	ucomisd	xmm0, xmm1
+	cmovbe	rsi, rdi
+	mov	qword ptr [rcx + 8*rax], rsi
+	movsd	xmm1, qword ptr [rdx + 8*rax + 8] # xmm1 = mem[0],zero
+	movapd	xmm2, xmm1
+	subsd	xmm2, xmm0
+	cvttsd2si	rsi, xmm2
+	xor	rsi, r10
+	cvttsd2si	rdi, xmm1
+	ucomisd	xmm0, xmm1
+	cmovbe	rdi, rsi
+	mov	qword ptr [rcx + 8*rax + 8], rdi
+	movsd	xmm1, qword ptr [rdx + 8*rax + 16] # xmm1 = mem[0],zero
+	movapd	xmm2, xmm1
+	subsd	xmm2, xmm0
+	cvttsd2si	rsi, xmm2
+	xor	rsi, r10
+	cvttsd2si	rdi, xmm1
+	ucomisd	xmm0, xmm1
+	cmovbe	rdi, rsi
+	mov	qword ptr [rcx + 8*rax + 16], rdi
+	movsd	xmm1, qword ptr [rdx + 8*rax + 24] # xmm1 = mem[0],zero
+	movapd	xmm2, xmm1
+	subsd	xmm2, xmm0
+	cvttsd2si	rsi, xmm2
+	xor	rsi, r10
+	cvttsd2si	rdi, xmm1
+	ucomisd	xmm0, xmm1
+	cmovbe	rdi, rsi
+	mov	qword ptr [rcx + 8*rax + 24], rdi
+	add	rax, 4
+	cmp	r9, rax
+	jne	.LBB0_552
+.LBB0_553:
+	test	r8, r8
+	je	.LBB0_1526
+# %bb.554:
+	lea	rcx, [rcx + 8*rax]
+	lea	rax, [rdx + 8*rax]
+	xor	edx, edx
+	movsd	xmm0, qword ptr [rip + .LCPI0_0] # xmm0 = mem[0],zero
+.LBB0_555:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rax + 8*rdx]   # xmm1 = mem[0],zero
+	movapd	xmm2, xmm1
+	subsd	xmm2, xmm0
+	cvttsd2si	rsi, xmm2
+	xor	rsi, r10
+	cvttsd2si	rdi, xmm1
+	ucomisd	xmm0, xmm1
+	cmovbe	rdi, rsi
+	mov	qword ptr [rcx + 8*rdx], rdi
+	add	rdx, 1
+	cmp	r8, rdx
+	jne	.LBB0_555
+	jmp	.LBB0_1526
+.LBB0_562:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_812
+# %bb.563:
+	xor	eax, eax
+	jmp	.LBB0_814
+.LBB0_564:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_819
+# %bb.565:
+	xor	eax, eax
+	jmp	.LBB0_821
+.LBB0_569:
+	and	r9d, -4
+	xor	edi, edi
+	movss	xmm0, dword ptr [rip + .LCPI0_2] # xmm0 = mem[0],zero,zero,zero
+	movabs	r10, -9223372036854775808
+.LBB0_570:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rdi]   # xmm1 = mem[0],zero,zero,zero
+	movaps	xmm2, xmm1
+	subss	xmm2, xmm0
+	cvttss2si	rsi, xmm2
+	xor	rsi, r10
+	cvttss2si	rax, xmm1
+	ucomiss	xmm0, xmm1
+	cmovbe	rax, rsi
+	mov	qword ptr [rcx + 8*rdi], rax
+	movss	xmm1, dword ptr [rdx + 4*rdi + 4] # xmm1 = mem[0],zero,zero,zero
+	movaps	xmm2, xmm1
+	subss	xmm2, xmm0
+	cvttss2si	rax, xmm2
+	xor	rax, r10
+	cvttss2si	rsi, xmm1
+	ucomiss	xmm0, xmm1
+	cmovbe	rsi, rax
+	mov	qword ptr [rcx + 8*rdi + 8], rsi
+	movss	xmm1, dword ptr [rdx + 4*rdi + 8] # xmm1 = mem[0],zero,zero,zero
+	movaps	xmm2, xmm1
+	subss	xmm2, xmm0
+	cvttss2si	rax, xmm2
+	xor	rax, r10
+	cvttss2si	rsi, xmm1
+	ucomiss	xmm0, xmm1
+	cmovbe	rsi, rax
+	mov	qword ptr [rcx + 8*rdi + 16], rsi
+	movss	xmm1, dword ptr [rdx + 4*rdi + 12] # xmm1 = mem[0],zero,zero,zero
+	movaps	xmm2, xmm1
+	subss	xmm2, xmm0
+	cvttss2si	rax, xmm2
+	xor	rax, r10
+	cvttss2si	rsi, xmm1
+	ucomiss	xmm0, xmm1
+	cmovbe	rsi, rax
+	mov	qword ptr [rcx + 8*rdi + 24], rsi
+	add	rdi, 4
+	cmp	r9, rdi
+	jne	.LBB0_570
+.LBB0_571:
+	test	r8, r8
+	je	.LBB0_1526
+# %bb.572:
+	lea	rax, [rcx + 8*rdi]
+	lea	rcx, [rdx + 4*rdi]
+	xor	edx, edx
+	movss	xmm0, dword ptr [rip + .LCPI0_2] # xmm0 = mem[0],zero,zero,zero
+	movabs	r9, -9223372036854775808
+.LBB0_573:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	movaps	xmm2, xmm1
+	subss	xmm2, xmm0
+	cvttss2si	rdi, xmm2
+	xor	rdi, r9
+	cvttss2si	rsi, xmm1
+	ucomiss	xmm0, xmm1
+	cmovbe	rsi, rdi
+	mov	qword ptr [rax + 8*rdx], rsi
+	add	rdx, 1
+	cmp	r8, rdx
+	jne	.LBB0_573
+	jmp	.LBB0_1526
+.LBB0_577:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_830
+# %bb.578:
+	xor	eax, eax
+	jmp	.LBB0_832
+.LBB0_579:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_980
+# %bb.580:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
+.LBB0_581:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_581
+	jmp	.LBB0_981
+.LBB0_582:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_985
+# %bb.583:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
+.LBB0_584:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_584
+	jmp	.LBB0_986
+.LBB0_585:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_990
+# %bb.586:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_587:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	cvttpd2dq	xmm0, xmm0
+	cvttpd2dq	xmm1, xmm1
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi], xmm0
+	movd	dword ptr [rcx + 2*rdi + 4], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	cvttpd2dq	xmm0, xmm0
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	cvttpd2dq	xmm1, xmm1
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi + 8], xmm0
+	movd	dword ptr [rcx + 2*rdi + 12], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_587
+	jmp	.LBB0_991
+.LBB0_588:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_995
+# %bb.589:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_590:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	cvttpd2dq	xmm0, xmm0
+	cvttpd2dq	xmm1, xmm1
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi], xmm0
+	movd	dword ptr [rcx + 2*rdi + 4], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	cvttpd2dq	xmm0, xmm0
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	cvttpd2dq	xmm1, xmm1
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi + 8], xmm0
+	movd	dword ptr [rcx + 2*rdi + 12], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_590
+	jmp	.LBB0_996
+.LBB0_597:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1000
+# %bb.598:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_599:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi], xmm0
+	movd	dword ptr [rcx + 2*rdi + 4], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi + 8], xmm0
+	movd	dword ptr [rcx + 2*rdi + 12], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_599
+	jmp	.LBB0_1001
+.LBB0_600:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1005
+# %bb.601:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_602:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi], xmm0
+	movd	dword ptr [rcx + 2*rdi + 4], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi + 8], xmm0
+	movd	dword ptr [rcx + 2*rdi + 12], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_602
+	jmp	.LBB0_1006
+.LBB0_615:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1010
+# %bb.616:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_617:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi], xmm0
+	movd	dword ptr [rcx + 2*rdi + 4], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi + 8], xmm0
+	movd	dword ptr [rcx + 2*rdi + 12], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_617
+	jmp	.LBB0_1011
+.LBB0_618:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1015
+# %bb.619:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_620:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi], xmm0
+	movd	dword ptr [rcx + 2*rdi + 4], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi + 8], xmm0
+	movd	dword ptr [rcx + 2*rdi + 12], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_620
+	jmp	.LBB0_1016
+.LBB0_621:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1020
+# %bb.622:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_623:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	cvttps2dq	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	packusdw	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	cvttps2dq	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	packusdw	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_623
+	jmp	.LBB0_1021
+.LBB0_624:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1025
+# %bb.625:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_626:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	cvttps2dq	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	packssdw	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	cvttps2dq	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	packssdw	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_626
+	jmp	.LBB0_1026
+.LBB0_633:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1030
+# %bb.634:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
+.LBB0_635:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_635
+	jmp	.LBB0_1031
+.LBB0_636:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1035
+# %bb.637:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_12] # xmm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
+.LBB0_638:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_638
+	jmp	.LBB0_1036
+.LBB0_639:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_857
+# %bb.640:
+	xor	eax, eax
+	jmp	.LBB0_859
+.LBB0_641:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1040
+# %bb.642:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_14] # xmm0 = [1258291200,1258291200,1258291200,1258291200]
+	movdqa	xmm1, xmmword ptr [rip + .LCPI0_15] # xmm1 = [1392508928,1392508928,1392508928,1392508928]
+	movaps	xmm2, xmmword ptr [rip + .LCPI0_16] # xmm2 = [5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11]
+.LBB0_643:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm3, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm4, xmmword ptr [rdx + 4*rdi + 16]
+	movdqa	xmm5, xmm3
+	pblendw	xmm5, xmm0, 170                 # xmm5 = xmm5[0],xmm0[1],xmm5[2],xmm0[3],xmm5[4],xmm0[5],xmm5[6],xmm0[7]
+	psrld	xmm3, 16
+	pblendw	xmm3, xmm1, 170                 # xmm3 = xmm3[0],xmm1[1],xmm3[2],xmm1[3],xmm3[4],xmm1[5],xmm3[6],xmm1[7]
+	subps	xmm3, xmm2
+	addps	xmm3, xmm5
+	movdqa	xmm5, xmm4
+	pblendw	xmm5, xmm0, 170                 # xmm5 = xmm5[0],xmm0[1],xmm5[2],xmm0[3],xmm5[4],xmm0[5],xmm5[6],xmm0[7]
+	psrld	xmm4, 16
+	pblendw	xmm4, xmm1, 170                 # xmm4 = xmm4[0],xmm1[1],xmm4[2],xmm1[3],xmm4[4],xmm1[5],xmm4[6],xmm1[7]
+	subps	xmm4, xmm2
+	addps	xmm4, xmm5
+	movups	xmmword ptr [rcx + 4*rdi], xmm3
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm4
+	movdqu	xmm3, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm4, xmmword ptr [rdx + 4*rdi + 48]
+	movdqa	xmm5, xmm3
+	pblendw	xmm5, xmm0, 170                 # xmm5 = xmm5[0],xmm0[1],xmm5[2],xmm0[3],xmm5[4],xmm0[5],xmm5[6],xmm0[7]
+	psrld	xmm3, 16
+	pblendw	xmm3, xmm1, 170                 # xmm3 = xmm3[0],xmm1[1],xmm3[2],xmm1[3],xmm3[4],xmm1[5],xmm3[6],xmm1[7]
+	subps	xmm3, xmm2
+	addps	xmm3, xmm5
+	movdqa	xmm5, xmm4
+	pblendw	xmm5, xmm0, 170                 # xmm5 = xmm5[0],xmm0[1],xmm5[2],xmm0[3],xmm5[4],xmm0[5],xmm5[6],xmm0[7]
+	psrld	xmm4, 16
+	pblendw	xmm4, xmm1, 170                 # xmm4 = xmm4[0],xmm1[1],xmm4[2],xmm1[3],xmm4[4],xmm1[5],xmm4[6],xmm1[7]
+	subps	xmm4, xmm2
+	addps	xmm4, xmm5
+	movups	xmmword ptr [rcx + 4*rdi + 32], xmm3
+	movups	xmmword ptr [rcx + 4*rdi + 48], xmm4
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_643
+	jmp	.LBB0_1041
+.LBB0_644:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_645:                              # =>This Inner Loop Header: Depth=1
+	cvttsd2si	rax, qword ptr [rdx + 8*rdi]
+	mov	qword ptr [rcx + 8*rdi], rax
+	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 8]
+	mov	qword ptr [rcx + 8*rdi + 8], rax
+	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 16]
+	mov	qword ptr [rcx + 8*rdi + 16], rax
+	cvttsd2si	rax, qword ptr [rdx + 8*rdi + 24]
+	mov	qword ptr [rcx + 8*rdi + 24], rax
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_645
+.LBB0_646:
+	test	r8, r8
+	je	.LBB0_1526
+# %bb.647:
+	lea	rcx, [rcx + 8*rdi]
+	lea	rdx, [rdx + 8*rdi]
+	xor	esi, esi
+.LBB0_648:                              # =>This Inner Loop Header: Depth=1
+	cvttsd2si	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r8, rsi
+	jne	.LBB0_648
+	jmp	.LBB0_1526
+.LBB0_649:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1045
+# %bb.650:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_651:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	cvtpd2ps	xmm0, xmm0
+	cvtpd2ps	xmm1, xmm1
+	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
+	movupd	xmmword ptr [rcx + 4*rdi], xmm0
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	cvtpd2ps	xmm0, xmm0
+	cvtpd2ps	xmm1, xmm1
+	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
+	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_651
+	jmp	.LBB0_1046
+.LBB0_661:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1050
+# %bb.662:
+	mov	r10, r8
+	and	r10, -2
+	neg	r10
+	xor	edi, edi
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_11] # xmm2 = [1,1]
+.LBB0_663:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqa	xmm1, xmm0
+	pand	xmm1, xmm2
+	movdqa	xmm3, xmm0
+	psrlq	xmm3, 1
+	por	xmm3, xmm1
+	pxor	xmm4, xmm4
+	pcmpgtq	xmm4, xmm0
+	blendvpd	xmm0, xmm3, xmm0
+	pextrq	rax, xmm0, 1
+	xorps	xmm5, xmm5
+	cvtsi2ss	xmm5, rax
+	movq	rax, xmm0
+	xorps	xmm3, xmm3
+	cvtsi2ss	xmm3, rax
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	insertps	xmm3, xmm5, 28                  # xmm3 = xmm3[0],xmm5[0],zero,zero
+	movaps	xmm5, xmm3
+	addps	xmm5, xmm3
+	pshufd	xmm0, xmm4, 237                 # xmm0 = xmm4[1,3,2,3]
+	blendvps	xmm3, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	pand	xmm0, xmm2
+	movdqa	xmm4, xmm1
+	psrlq	xmm4, 1
+	por	xmm4, xmm0
+	xorps	xmm5, xmm5
+	pcmpgtq	xmm5, xmm1
+	movdqa	xmm0, xmm1
+	blendvpd	xmm1, xmm4, xmm0
+	pextrq	rax, xmm1, 1
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, rax
+	movq	rax, xmm1
+	xorps	xmm1, xmm1
+	cvtsi2ss	xmm1, rax
+	insertps	xmm1, xmm0, 28                  # xmm1 = xmm1[0],xmm0[0],zero,zero
+	movaps	xmm4, xmm1
+	addps	xmm4, xmm1
+	pshufd	xmm0, xmm5, 237                 # xmm0 = xmm5[1,3,2,3]
+	blendvps	xmm1, xmm4, xmm0
+	movlhps	xmm3, xmm1                      # xmm3 = xmm3[0],xmm1[0]
+	movups	xmmword ptr [rcx + 4*rdi], xmm3
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqa	xmm1, xmm0
+	pand	xmm1, xmm2
+	movdqa	xmm3, xmm0
+	psrlq	xmm3, 1
+	por	xmm3, xmm1
+	xorps	xmm4, xmm4
+	pcmpgtq	xmm4, xmm0
+	blendvpd	xmm0, xmm3, xmm0
+	pextrq	rax, xmm0, 1
+	xorps	xmm5, xmm5
+	cvtsi2ss	xmm5, rax
+	movq	rax, xmm0
+	xorps	xmm3, xmm3
+	cvtsi2ss	xmm3, rax
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	insertps	xmm3, xmm5, 28                  # xmm3 = xmm3[0],xmm5[0],zero,zero
+	movaps	xmm5, xmm3
+	addps	xmm5, xmm3
+	pshufd	xmm0, xmm4, 237                 # xmm0 = xmm4[1,3,2,3]
+	blendvps	xmm3, xmm5, xmm0
+	movdqa	xmm0, xmm1
+	pand	xmm0, xmm2
+	movdqa	xmm4, xmm1
+	psrlq	xmm4, 1
+	por	xmm4, xmm0
+	xorps	xmm5, xmm5
+	pcmpgtq	xmm5, xmm1
+	movdqa	xmm0, xmm1
+	blendvpd	xmm1, xmm4, xmm0
+	pextrq	rax, xmm1, 1
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, rax
+	movq	rax, xmm1
+	xorps	xmm1, xmm1
+	cvtsi2ss	xmm1, rax
+	insertps	xmm1, xmm0, 28                  # xmm1 = xmm1[0],xmm0[0],zero,zero
+	movaps	xmm4, xmm1
+	addps	xmm4, xmm1
+	pshufd	xmm0, xmm5, 237                 # xmm0 = xmm5[1,3,2,3]
+	blendvps	xmm1, xmm4, xmm0
+	movlhps	xmm3, xmm1                      # xmm3 = xmm3[0],xmm1[0]
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm3
+	add	rdi, 8
+	add	r10, 2
+	jne	.LBB0_663
+	jmp	.LBB0_1051
+.LBB0_664:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_871
+# %bb.665:
+	xor	eax, eax
+	jmp	.LBB0_873
+.LBB0_666:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1058
+# %bb.667:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_668:                              # =>This Inner Loop Header: Depth=1
+	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_668
+	jmp	.LBB0_1059
+.LBB0_669:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_878
+# %bb.670:
+	xor	eax, eax
+	jmp	.LBB0_880
+.LBB0_671:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1063
+# %bb.672:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_673:                              # =>This Inner Loop Header: Depth=1
+	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 16]
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_673
+	jmp	.LBB0_1064
+.LBB0_677:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_678:                              # =>This Inner Loop Header: Depth=1
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, qword ptr [rdx + 8*rdi]
+	movss	dword ptr [rcx + 4*rdi], xmm0
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, qword ptr [rdx + 8*rdi + 8]
+	movss	dword ptr [rcx + 4*rdi + 4], xmm0
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, qword ptr [rdx + 8*rdi + 16]
+	movss	dword ptr [rcx + 4*rdi + 8], xmm0
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, qword ptr [rdx + 8*rdi + 24]
+	movss	dword ptr [rcx + 4*rdi + 12], xmm0
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_678
+.LBB0_679:
+	test	rax, rax
+	je	.LBB0_1526
+# %bb.680:
+	lea	rcx, [rcx + 4*rdi]
+	lea	rdx, [rdx + 8*rdi]
+	xor	esi, esi
+.LBB0_681:                              # =>This Inner Loop Header: Depth=1
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, qword ptr [rdx + 8*rsi]
+	movss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	rax, rsi
+	jne	.LBB0_681
+	jmp	.LBB0_1526
+.LBB0_682:
+	and	esi, -4
+	xor	edi, edi
+.LBB0_683:                              # =>This Inner Loop Header: Depth=1
+	cvttss2si	rax, dword ptr [rdx + 4*rdi]
+	mov	qword ptr [rcx + 8*rdi], rax
+	cvttss2si	rax, dword ptr [rdx + 4*rdi + 4]
+	mov	qword ptr [rcx + 8*rdi + 8], rax
+	cvttss2si	rax, dword ptr [rdx + 4*rdi + 8]
+	mov	qword ptr [rcx + 8*rdi + 16], rax
+	cvttss2si	rax, dword ptr [rdx + 4*rdi + 12]
+	mov	qword ptr [rcx + 8*rdi + 24], rax
+	add	rdi, 4
+	cmp	rsi, rdi
+	jne	.LBB0_683
+.LBB0_684:
+	test	r8, r8
+	je	.LBB0_1526
+# %bb.685:
+	lea	rcx, [rcx + 8*rdi]
+	lea	rdx, [rdx + 4*rdi]
+	xor	esi, esi
+.LBB0_686:                              # =>This Inner Loop Header: Depth=1
+	cvttss2si	rax, dword ptr [rdx + 4*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r8, rsi
+	jne	.LBB0_686
+	jmp	.LBB0_1526
+.LBB0_696:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_894
+# %bb.697:
+	xor	eax, eax
+	jmp	.LBB0_896
+.LBB0_698:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1068
+# %bb.699:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_700:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_700
+	jmp	.LBB0_1069
+.LBB0_734:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1073
+# %bb.735:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_736:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	cvttpd2dq	xmm0, xmm0
+	cvttpd2dq	xmm1, xmm1
+	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
+	movupd	xmmword ptr [rcx + 4*rdi], xmm0
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	cvttpd2dq	xmm0, xmm0
+	cvttpd2dq	xmm1, xmm1
+	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
+	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_736
+	jmp	.LBB0_1074
+.LBB0_740:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_939
+# %bb.741:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_742:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_742
+	jmp	.LBB0_940
+.LBB0_743:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1078
+# %bb.744:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_745:                              # =>This Inner Loop Header: Depth=1
+	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_745
+	jmp	.LBB0_1079
+.LBB0_746:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1083
+# %bb.747:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_748:                              # =>This Inner Loop Header: Depth=1
+	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi + 16]
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 24]
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_748
+	jmp	.LBB0_1084
+.LBB0_749:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1088
+# %bb.750:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_751:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_751
+	jmp	.LBB0_1089
+.LBB0_752:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1093
+# %bb.753:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_754:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	cvttps2dq	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	cvttps2dq	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	movupd	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movupd	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_754
+	jmp	.LBB0_1094
+.LBB0_761:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	rdi, rax
+	shr	rdi, 3
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 24
+	jae	.LBB0_1098
+# %bb.762:
+	xor	eax, eax
+	jmp	.LBB0_1100
+.LBB0_763:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1478
+# %bb.764:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_765:                              # =>This Inner Loop Header: Depth=1
+	pmovsxbd	xmm0, dword ptr [rdx + rdi]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi + 12]
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_765
+	jmp	.LBB0_1479
+.LBB0_766:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1486
+# %bb.767:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_768:                              # =>This Inner Loop Header: Depth=1
+	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	pmovzxbd	xmm0, dword ptr [rdx + rdi + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	pmovzxbd	xmm1, dword ptr [rdx + rdi + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_768
+	jmp	.LBB0_1487
+.LBB0_769:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	rdi, rax
+	shr	rdi, 3
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 24
+	jae	.LBB0_1108
+# %bb.770:
+	xor	eax, eax
+	jmp	.LBB0_1110
+.LBB0_771:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_1118
+# %bb.772:
+	xor	eax, eax
+	jmp	.LBB0_1120
+.LBB0_773:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1494
+# %bb.774:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_13] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_775:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	movd	dword ptr [rcx + rdi], xmm1
+	movd	dword ptr [rcx + rdi + 4], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	movd	dword ptr [rcx + rdi + 8], xmm1
+	movd	dword ptr [rcx + rdi + 12], xmm2
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_775
+	jmp	.LBB0_1495
+.LBB0_776:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1502
+# %bb.777:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_1] # xmm0 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_778:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	cvttpd2dq	xmm1, xmm1
+	cvttpd2dq	xmm2, xmm2
+	pshufb	xmm1, xmm0
+	pextrw	word ptr [rcx + rdi], xmm1, 0
+	pshufb	xmm2, xmm0
+	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	cvttpd2dq	xmm1, xmm1
+	cvttpd2dq	xmm2, xmm2
+	pshufb	xmm1, xmm0
+	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
+	pshufb	xmm2, xmm0
+	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_778
+	jmp	.LBB0_1503
+.LBB0_779:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 96
+	jae	.LBB0_1128
+# %bb.780:
+	xor	eax, eax
+	jmp	.LBB0_1130
+.LBB0_781:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1318
+# %bb.782:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_5] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_783:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	pshufb	xmm1, xmm0
+	pextrw	word ptr [rcx + rdi], xmm1, 0
+	pshufb	xmm2, xmm0
+	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	pshufb	xmm1, xmm0
+	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
+	pshufb	xmm2, xmm0
+	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_783
+	jmp	.LBB0_1319
+.LBB0_784:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1326
+# %bb.785:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_17] # xmm0 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
+.LBB0_786:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + rdi], xmm1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_786
+	jmp	.LBB0_1327
+.LBB0_787:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1510
+# %bb.788:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_17] # xmm0 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
+.LBB0_789:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + rdi], xmm1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_789
+	jmp	.LBB0_1511
+.LBB0_790:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1334
+# %bb.791:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_5] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_792:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	pshufb	xmm1, xmm0
+	pextrw	word ptr [rcx + rdi], xmm1, 0
+	pshufb	xmm2, xmm0
+	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	pshufb	xmm1, xmm0
+	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
+	pshufb	xmm2, xmm0
+	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_792
+	jmp	.LBB0_1335
+.LBB0_793:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1518
+# %bb.794:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_795:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	cvttps2dq	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	movd	dword ptr [rcx + rdi], xmm0
+	movd	dword ptr [rcx + rdi + 4], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	cvttps2dq	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	movd	dword ptr [rcx + rdi + 8], xmm0
+	movd	dword ptr [rcx + rdi + 12], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_795
+	jmp	.LBB0_1519
+.LBB0_796:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 96
+	jae	.LBB0_1138
+# %bb.797:
+	xor	eax, eax
+	jmp	.LBB0_1140
+.LBB0_798:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1342
+# %bb.799:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_13] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_800:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	movd	dword ptr [rcx + rdi], xmm1
+	movd	dword ptr [rcx + rdi + 4], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	movd	dword ptr [rcx + rdi + 8], xmm1
+	movd	dword ptr [rcx + rdi + 12], xmm2
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_800
+	jmp	.LBB0_1343
+.LBB0_808:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_1148
+# %bb.809:
+	xor	eax, eax
+	jmp	.LBB0_1150
+.LBB0_810:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_1158
+# %bb.811:
+	xor	eax, eax
+	jmp	.LBB0_1160
+.LBB0_826:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_1168
+# %bb.827:
+	xor	eax, eax
+	jmp	.LBB0_1170
+.LBB0_828:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_1178
+# %bb.829:
+	xor	eax, eax
+	jmp	.LBB0_1180
+.LBB0_837:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1350
+# %bb.838:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_839:                              # =>This Inner Loop Header: Depth=1
+	pmovsxbw	xmm0, qword ptr [rdx + rdi]
+	pmovsxbw	xmm1, qword ptr [rdx + rdi + 8]
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	pmovsxbw	xmm0, qword ptr [rdx + rdi + 16]
+	pmovsxbw	xmm1, qword ptr [rdx + rdi + 24]
+	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_839
+	jmp	.LBB0_1351
+.LBB0_840:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1358
+# %bb.841:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_842:                              # =>This Inner Loop Header: Depth=1
+	pmovsxbw	xmm0, qword ptr [rdx + rdi]
+	pmovsxbw	xmm1, qword ptr [rdx + rdi + 8]
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	pmovsxbw	xmm0, qword ptr [rdx + rdi + 16]
+	pmovsxbw	xmm1, qword ptr [rdx + rdi + 24]
+	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_842
+	jmp	.LBB0_1359
+.LBB0_843:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	rdi, rax
+	shr	rdi, 4
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 48
+	jae	.LBB0_1188
+# %bb.844:
+	xor	eax, eax
+	jmp	.LBB0_1190
+.LBB0_845:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	rdi, rax
+	shr	rdi, 4
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 48
+	jae	.LBB0_1198
+# %bb.846:
+	xor	eax, eax
+	jmp	.LBB0_1200
+.LBB0_847:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	rdi, rax
+	shr	rdi, 4
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 48
+	jae	.LBB0_1208
+# %bb.848:
+	xor	eax, eax
+	jmp	.LBB0_1210
+.LBB0_849:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	rdi, rax
+	shr	rdi, 4
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 48
+	jae	.LBB0_1218
+# %bb.850:
+	xor	eax, eax
+	jmp	.LBB0_1220
+.LBB0_851:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1366
+# %bb.852:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_853:                              # =>This Inner Loop Header: Depth=1
+	pmovzxbw	xmm0, qword ptr [rdx + rdi]     # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	pmovzxbw	xmm1, qword ptr [rdx + rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	pmovzxbw	xmm0, qword ptr [rdx + rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	pmovzxbw	xmm1, qword ptr [rdx + rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_853
+	jmp	.LBB0_1367
+.LBB0_854:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1374
+# %bb.855:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_856:                              # =>This Inner Loop Header: Depth=1
+	pmovzxbw	xmm0, qword ptr [rdx + rdi]     # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	pmovzxbw	xmm1, qword ptr [rdx + rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+	pmovzxbw	xmm0, qword ptr [rdx + rdi + 16] # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	pmovzxbw	xmm1, qword ptr [rdx + rdi + 24] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	movdqu	xmmword ptr [rcx + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_856
+	jmp	.LBB0_1375
+.LBB0_864:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_1228
+# %bb.865:
+	xor	eax, eax
+	jmp	.LBB0_1230
+.LBB0_866:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1382
+# %bb.867:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_868:                              # =>This Inner Loop Header: Depth=1
+	pmovsxbd	xmm0, dword ptr [rdx + rdi]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi + 12]
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_868
+	jmp	.LBB0_1383
+.LBB0_869:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_1238
+# %bb.870:
+	xor	eax, eax
+	jmp	.LBB0_1240
+.LBB0_885:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_1248
+# %bb.886:
+	xor	eax, eax
+	jmp	.LBB0_1250
+.LBB0_887:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	rdi, rax
+	shr	rdi, 3
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 24
+	jae	.LBB0_1258
+# %bb.888:
+	xor	eax, eax
+	jmp	.LBB0_1260
+.LBB0_889:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	rdi, rax
+	shr	rdi, 2
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 12
+	jae	.LBB0_1268
+# %bb.890:
+	xor	eax, eax
+	jmp	.LBB0_1270
+.LBB0_891:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1390
+# %bb.892:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_893:                              # =>This Inner Loop Header: Depth=1
+	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	pmovzxbd	xmm0, dword ptr [rdx + rdi + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	pmovzxbd	xmm1, dword ptr [rdx + rdi + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_893
+	jmp	.LBB0_1391
+.LBB0_901:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1398
+# %bb.902:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_13] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_903:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	movd	dword ptr [rcx + rdi], xmm1
+	movd	dword ptr [rcx + rdi + 4], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	movd	dword ptr [rcx + rdi + 8], xmm1
+	movd	dword ptr [rcx + rdi + 12], xmm2
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_903
+	jmp	.LBB0_1399
+.LBB0_904:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1406
+# %bb.905:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_1] # xmm0 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_906:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	cvttpd2dq	xmm1, xmm1
+	cvttpd2dq	xmm2, xmm2
+	pshufb	xmm1, xmm0
+	pextrw	word ptr [rcx + rdi], xmm1, 0
+	pshufb	xmm2, xmm0
+	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	cvttpd2dq	xmm1, xmm1
+	cvttpd2dq	xmm2, xmm2
+	pshufb	xmm1, xmm0
+	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
+	pshufb	xmm2, xmm0
+	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_906
+	jmp	.LBB0_1407
+.LBB0_907:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 96
+	jae	.LBB0_1278
+# %bb.908:
+	xor	eax, eax
+	jmp	.LBB0_1280
+.LBB0_909:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1414
+# %bb.910:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_5] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_911:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	pshufb	xmm1, xmm0
+	pextrw	word ptr [rcx + rdi], xmm1, 0
+	pshufb	xmm2, xmm0
+	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	pshufb	xmm1, xmm0
+	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
+	pshufb	xmm2, xmm0
+	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_911
+	jmp	.LBB0_1415
+.LBB0_912:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1422
+# %bb.913:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_17] # xmm0 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
+.LBB0_914:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + rdi], xmm1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_914
+	jmp	.LBB0_1423
+.LBB0_915:
+	mov	esi, r9d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r8, rax
+	shr	r8, 4
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1430
+# %bb.916:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_17] # xmm0 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
+.LBB0_917:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + rdi], xmm1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqu	xmmword ptr [rcx + rdi + 16], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_917
+	jmp	.LBB0_1431
+.LBB0_918:
+	mov	esi, r9d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r8, rax
+	shr	r8, 2
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1438
+# %bb.919:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_5] # xmm0 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_920:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	pshufb	xmm1, xmm0
+	pextrw	word ptr [rcx + rdi], xmm1, 0
+	pshufb	xmm2, xmm0
+	pextrw	word ptr [rcx + rdi + 2], xmm2, 0
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	pshufb	xmm1, xmm0
+	pextrw	word ptr [rcx + rdi + 4], xmm1, 0
+	pshufb	xmm2, xmm0
+	pextrw	word ptr [rcx + rdi + 6], xmm2, 0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_920
+	jmp	.LBB0_1439
+.LBB0_921:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1446
+# %bb.922:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_923:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	cvttps2dq	xmm0, xmm0
+	packusdw	xmm0, xmm0
+	packuswb	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	packusdw	xmm1, xmm1
+	packuswb	xmm1, xmm1
+	movd	dword ptr [rcx + rdi], xmm0
+	movd	dword ptr [rcx + rdi + 4], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	cvttps2dq	xmm0, xmm0
+	packusdw	xmm0, xmm0
+	packuswb	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	packusdw	xmm1, xmm1
+	packuswb	xmm1, xmm1
+	movd	dword ptr [rcx + rdi + 8], xmm0
+	movd	dword ptr [rcx + rdi + 12], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_923
+	jmp	.LBB0_1447
+.LBB0_924:
+	mov	esi, r9d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	rdi, rax
+	shr	rdi, 5
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 96
+	jae	.LBB0_1288
+# %bb.925:
+	xor	eax, eax
+	jmp	.LBB0_1290
+.LBB0_926:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1454
+# %bb.927:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+	movdqa	xmm0, xmmword ptr [rip + .LCPI0_13] # xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+.LBB0_928:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	movd	dword ptr [rcx + rdi], xmm1
+	movd	dword ptr [rcx + rdi + 4], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	pshufb	xmm1, xmm0
+	pshufb	xmm2, xmm0
+	movd	dword ptr [rcx + rdi + 8], xmm1
+	movd	dword ptr [rcx + rdi + 12], xmm2
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_928
+	jmp	.LBB0_1455
+.LBB0_929:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	rdi, rax
+	shr	rdi, 3
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 24
+	jae	.LBB0_1298
+# %bb.930:
+	xor	eax, eax
+	jmp	.LBB0_1300
+.LBB0_931:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1462
+# %bb.932:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_933:                              # =>This Inner Loop Header: Depth=1
+	pmovsxbd	xmm0, dword ptr [rdx + rdi]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	pmovsxbd	xmm0, dword ptr [rdx + rdi + 8]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi + 12]
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_933
+	jmp	.LBB0_1463
+.LBB0_934:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_1470
+# %bb.935:
+	mov	rax, r8
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_936:                              # =>This Inner Loop Header: Depth=1
+	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+	pmovzxbd	xmm0, dword ptr [rdx + rdi + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	pmovzxbd	xmm1, dword ptr [rdx + rdi + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_936
+	jmp	.LBB0_1471
+.LBB0_937:
+	mov	esi, r9d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	rdi, rax
+	shr	rdi, 3
+	add	rdi, 1
+	mov	r8d, edi
+	and	r8d, 3
+	cmp	rax, 24
+	jae	.LBB0_1308
+# %bb.938:
+	xor	eax, eax
+	jmp	.LBB0_1310
+.LBB0_801:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_802:                              # =>This Inner Loop Header: Depth=1
+	pmovzxdq	xmm0, qword ptr [rdx + 4*rax]   # xmm0 = mem[0],zero,mem[1],zero
+	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 8] # xmm1 = mem[0],zero,mem[1],zero
+	movdqu	xmmword ptr [rcx + 8*rax], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
+	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 16] # xmm0 = mem[0],zero,mem[1],zero
+	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 24] # xmm1 = mem[0],zero,mem[1],zero
+	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
+	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 32] # xmm0 = mem[0],zero,mem[1],zero
+	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 40] # xmm1 = mem[0],zero,mem[1],zero
+	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
+	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 48] # xmm0 = mem[0],zero,mem[1],zero
+	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 56] # xmm1 = mem[0],zero,mem[1],zero
+	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_802
+.LBB0_803:
+	test	r8, r8
+	je	.LBB0_806
+# %bb.804:
+	lea	rax, [4*rax + 8]
+	neg	r8
+.LBB0_805:                              # =>This Inner Loop Header: Depth=1
+	pmovzxdq	xmm0, qword ptr [rdx + rax - 8] # xmm0 = mem[0],zero,mem[1],zero
+	pmovzxdq	xmm1, qword ptr [rdx + rax]     # xmm1 = mem[0],zero,mem[1],zero
+	movdqu	xmmword ptr [rcx + 2*rax - 16], xmm0
+	movdqu	xmmword ptr [rcx + 2*rax], xmm1
+	add	rax, 16
+	inc	r8
+	jne	.LBB0_805
+.LBB0_806:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_807:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_807
+	jmp	.LBB0_1526
+.LBB0_812:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_813:                              # =>This Inner Loop Header: Depth=1
+	pmovzxwq	xmm0, dword ptr [rdx + 2*rax]   # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
+	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
+	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 16] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 20] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
+	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 24] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 28] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_813
+.LBB0_814:
+	test	r8, r8
+	je	.LBB0_817
+# %bb.815:
+	lea	rdi, [rcx + 8*rax]
+	add	rdi, 16
+	lea	r10, [rdx + 2*rax]
+	add	r10, 4
+	xor	eax, eax
+.LBB0_816:                              # =>This Inner Loop Header: Depth=1
+	pmovzxwq	xmm0, dword ptr [r10 + 8*rax - 4] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	pmovzxwq	xmm1, dword ptr [r10 + 8*rax]   # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	movdqu	xmmword ptr [rdi - 16], xmm0
+	movdqu	xmmword ptr [rdi], xmm1
+	add	rdi, 32
+	add	rax, 1
+	cmp	r8, rax
+	jne	.LBB0_816
+.LBB0_817:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_818:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_818
+	jmp	.LBB0_1526
+.LBB0_819:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_820:                              # =>This Inner Loop Header: Depth=1
+	pmovsxwq	xmm0, dword ptr [rdx + 2*rax]
+	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 4]
+	movdqu	xmmword ptr [rcx + 8*rax], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
+	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 8]
+	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 12]
+	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
+	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 16]
+	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 20]
+	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
+	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 24]
+	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 28]
+	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_820
+.LBB0_821:
+	test	r8, r8
+	je	.LBB0_824
+# %bb.822:
+	lea	rdi, [rcx + 8*rax]
+	add	rdi, 16
+	lea	r10, [rdx + 2*rax]
+	add	r10, 4
+	xor	eax, eax
+.LBB0_823:                              # =>This Inner Loop Header: Depth=1
+	pmovsxwq	xmm0, dword ptr [r10 + 8*rax - 4]
+	pmovsxwq	xmm1, dword ptr [r10 + 8*rax]
+	movdqu	xmmword ptr [rdi - 16], xmm0
+	movdqu	xmmword ptr [rdi], xmm1
+	add	rdi, 32
+	add	rax, 1
+	cmp	r8, rax
+	jne	.LBB0_823
+.LBB0_824:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_825:                              # =>This Inner Loop Header: Depth=1
+	movsx	rax, word ptr [rdx + 2*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_825
+	jmp	.LBB0_1526
+.LBB0_830:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_831:                              # =>This Inner Loop Header: Depth=1
+	pmovsxdq	xmm0, qword ptr [rdx + 4*rax]
+	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 8]
+	movdqu	xmmword ptr [rcx + 8*rax], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
+	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 16]
+	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 24]
+	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
+	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 32]
+	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 40]
+	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
+	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 48]
+	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 56]
+	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_831
+.LBB0_832:
+	test	r8, r8
+	je	.LBB0_835
+# %bb.833:
+	lea	rax, [4*rax + 8]
+	neg	r8
+.LBB0_834:                              # =>This Inner Loop Header: Depth=1
+	pmovsxdq	xmm0, qword ptr [rdx + rax - 8]
+	pmovsxdq	xmm1, qword ptr [rdx + rax]
+	movdqu	xmmword ptr [rcx + 2*rax - 16], xmm0
+	movdqu	xmmword ptr [rcx + 2*rax], xmm1
+	add	rax, 16
+	inc	r8
+	jne	.LBB0_834
+.LBB0_835:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_836:                              # =>This Inner Loop Header: Depth=1
+	movsxd	rax, dword ptr [rdx + 4*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_836
+	jmp	.LBB0_1526
+.LBB0_857:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_858:                              # =>This Inner Loop Header: Depth=1
+	pmovzxdq	xmm0, qword ptr [rdx + 4*rax]   # xmm0 = mem[0],zero,mem[1],zero
+	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 8] # xmm1 = mem[0],zero,mem[1],zero
+	movdqu	xmmword ptr [rcx + 8*rax], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
+	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 16] # xmm0 = mem[0],zero,mem[1],zero
+	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 24] # xmm1 = mem[0],zero,mem[1],zero
+	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
+	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 32] # xmm0 = mem[0],zero,mem[1],zero
+	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 40] # xmm1 = mem[0],zero,mem[1],zero
+	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
+	pmovzxdq	xmm0, qword ptr [rdx + 4*rax + 48] # xmm0 = mem[0],zero,mem[1],zero
+	pmovzxdq	xmm1, qword ptr [rdx + 4*rax + 56] # xmm1 = mem[0],zero,mem[1],zero
+	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_858
+.LBB0_859:
+	test	r8, r8
+	je	.LBB0_862
+# %bb.860:
+	lea	rax, [4*rax + 8]
+	neg	r8
+.LBB0_861:                              # =>This Inner Loop Header: Depth=1
+	pmovzxdq	xmm0, qword ptr [rdx + rax - 8] # xmm0 = mem[0],zero,mem[1],zero
+	pmovzxdq	xmm1, qword ptr [rdx + rax]     # xmm1 = mem[0],zero,mem[1],zero
+	movdqu	xmmword ptr [rcx + 2*rax - 16], xmm0
+	movdqu	xmmword ptr [rcx + 2*rax], xmm1
+	add	rax, 16
+	inc	r8
+	jne	.LBB0_861
+.LBB0_862:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_863:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_863
+	jmp	.LBB0_1526
+.LBB0_871:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_872:                              # =>This Inner Loop Header: Depth=1
+	pmovzxwq	xmm0, dword ptr [rdx + 2*rax]   # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
+	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 8] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 12] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
+	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 16] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 20] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
+	pmovzxwq	xmm0, dword ptr [rdx + 2*rax + 24] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	pmovzxwq	xmm1, dword ptr [rdx + 2*rax + 28] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_872
+.LBB0_873:
+	test	r8, r8
+	je	.LBB0_876
+# %bb.874:
+	lea	rdi, [rcx + 8*rax]
+	add	rdi, 16
+	lea	r10, [rdx + 2*rax]
+	add	r10, 4
+	xor	eax, eax
+.LBB0_875:                              # =>This Inner Loop Header: Depth=1
+	pmovzxwq	xmm0, dword ptr [r10 + 8*rax - 4] # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	pmovzxwq	xmm1, dword ptr [r10 + 8*rax]   # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero
+	movdqu	xmmword ptr [rdi - 16], xmm0
+	movdqu	xmmword ptr [rdi], xmm1
+	add	rdi, 32
+	add	rax, 1
+	cmp	r8, rax
+	jne	.LBB0_875
+.LBB0_876:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_877:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_877
+	jmp	.LBB0_1526
+.LBB0_878:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_879:                              # =>This Inner Loop Header: Depth=1
+	pmovsxwq	xmm0, dword ptr [rdx + 2*rax]
+	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 4]
+	movdqu	xmmword ptr [rcx + 8*rax], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
+	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 8]
+	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 12]
+	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
+	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 16]
+	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 20]
+	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
+	pmovsxwq	xmm0, dword ptr [rdx + 2*rax + 24]
+	pmovsxwq	xmm1, dword ptr [rdx + 2*rax + 28]
+	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_879
+.LBB0_880:
+	test	r8, r8
+	je	.LBB0_883
+# %bb.881:
+	lea	rdi, [rcx + 8*rax]
+	add	rdi, 16
+	lea	r10, [rdx + 2*rax]
+	add	r10, 4
+	xor	eax, eax
+.LBB0_882:                              # =>This Inner Loop Header: Depth=1
+	pmovsxwq	xmm0, dword ptr [r10 + 8*rax - 4]
+	pmovsxwq	xmm1, dword ptr [r10 + 8*rax]
+	movdqu	xmmword ptr [rdi - 16], xmm0
+	movdqu	xmmword ptr [rdi], xmm1
+	add	rdi, 32
+	add	rax, 1
+	cmp	r8, rax
+	jne	.LBB0_882
+.LBB0_883:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_884:                              # =>This Inner Loop Header: Depth=1
+	movsx	rax, word ptr [rdx + 2*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_884
+	jmp	.LBB0_1526
+.LBB0_894:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_895:                              # =>This Inner Loop Header: Depth=1
+	pmovsxdq	xmm0, qword ptr [rdx + 4*rax]
+	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 8]
+	movdqu	xmmword ptr [rcx + 8*rax], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
+	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 16]
+	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 24]
+	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
+	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 32]
+	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 40]
+	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
+	pmovsxdq	xmm0, qword ptr [rdx + 4*rax + 48]
+	pmovsxdq	xmm1, qword ptr [rdx + 4*rax + 56]
+	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_895
+.LBB0_896:
+	test	r8, r8
+	je	.LBB0_899
+# %bb.897:
+	lea	rax, [4*rax + 8]
+	neg	r8
+.LBB0_898:                              # =>This Inner Loop Header: Depth=1
+	pmovsxdq	xmm0, qword ptr [rdx + rax - 8]
+	pmovsxdq	xmm1, qword ptr [rdx + rax]
+	movdqu	xmmword ptr [rcx + 2*rax - 16], xmm0
+	movdqu	xmmword ptr [rcx + 2*rax], xmm1
+	add	rax, 16
+	inc	r8
+	jne	.LBB0_898
+.LBB0_899:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_900:                              # =>This Inner Loop Header: Depth=1
+	movsxd	rax, dword ptr [rdx + 4*rsi]
+	mov	qword ptr [rcx + 8*rsi], rax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_900
+	jmp	.LBB0_1526
+.LBB0_939:
+	xor	edi, edi
+.LBB0_940:
+	test	r8b, 1
+	je	.LBB0_942
+# %bb.941:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+.LBB0_942:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_943:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 8*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_943
+	jmp	.LBB0_1526
+.LBB0_944:
+	xor	edi, edi
+.LBB0_945:
+	test	r8b, 1
+	je	.LBB0_947
+# %bb.946:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+.LBB0_947:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_948:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 8*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_948
+	jmp	.LBB0_1526
+.LBB0_949:
+	xor	edi, edi
+.LBB0_950:
+	test	r8b, 1
+	je	.LBB0_952
+# %bb.951:
+	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_952:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_953:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_953
+	jmp	.LBB0_1526
+.LBB0_954:
+	xor	edi, edi
+.LBB0_955:
+	test	r8b, 1
+	je	.LBB0_957
+# %bb.956:
+	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_957:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_958:                              # =>This Inner Loop Header: Depth=1
+	movsx	eax, word ptr [rdx + 2*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_958
+	jmp	.LBB0_1526
+.LBB0_959:
+	xor	edi, edi
+.LBB0_960:
+	test	r8b, 1
+	je	.LBB0_962
+# %bb.961:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+.LBB0_962:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_963:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 8*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_963
+	jmp	.LBB0_1526
+.LBB0_964:
+	xor	edi, edi
+.LBB0_965:
+	test	r8b, 1
+	je	.LBB0_967
+# %bb.966:
+	movups	xmm1, xmmword ptr [rdx + 4*rdi]
+	movups	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	movaps	xmm3, xmmword ptr [rip + .LCPI0_3] # xmm3 = [2.14748365E+9,2.14748365E+9,2.14748365E+9,2.14748365E+9]
+	movaps	xmm0, xmm1
+	cmpltps	xmm0, xmm3
+	cvttps2dq	xmm4, xmm1
+	subps	xmm1, xmm3
+	cvttps2dq	xmm1, xmm1
+	movaps	xmm5, xmmword ptr [rip + .LCPI0_4] # xmm5 = [2147483648,2147483648,2147483648,2147483648]
+	xorps	xmm1, xmm5
+	blendvps	xmm1, xmm4, xmm0
+	movaps	xmm0, xmm2
+	cmpltps	xmm0, xmm3
+	cvttps2dq	xmm4, xmm2
+	subps	xmm2, xmm3
+	cvttps2dq	xmm2, xmm2
+	xorps	xmm2, xmm5
+	blendvps	xmm2, xmm4, xmm0
+	movups	xmmword ptr [rcx + 4*rdi], xmm1
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm2
+.LBB0_967:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_968:                              # =>This Inner Loop Header: Depth=1
+	cvttss2si	rax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_968
+	jmp	.LBB0_1526
+.LBB0_969:
+	xor	edi, edi
+.LBB0_970:
+	test	r8b, 1
+	je	.LBB0_972
+# %bb.971:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pxor	xmm2, xmm2
+	movdqa	xmm3, xmm0
+	pblendw	xmm3, xmm2, 204                 # xmm3 = xmm3[0,1],xmm2[2,3],xmm3[4,5],xmm2[6,7]
+	movdqa	xmm4, xmmword ptr [rip + .LCPI0_6] # xmm4 = [4841369599423283200,4841369599423283200]
+	por	xmm3, xmm4
+	psrlq	xmm0, 32
+	movdqa	xmm5, xmmword ptr [rip + .LCPI0_7] # xmm5 = [4985484787499139072,4985484787499139072]
+	por	xmm0, xmm5
+	movapd	xmm6, xmmword ptr [rip + .LCPI0_8] # xmm6 = [1.9342813118337666E+25,1.9342813118337666E+25]
+	subpd	xmm0, xmm6
+	addpd	xmm0, xmm3
+	pblendw	xmm2, xmm1, 51                  # xmm2 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
+	por	xmm2, xmm4
+	psrlq	xmm1, 32
+	por	xmm1, xmm5
+	subpd	xmm1, xmm6
+	addpd	xmm1, xmm2
+	movupd	xmmword ptr [rcx + 8*rdi], xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
+.LBB0_972:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_973:
+	movapd	xmm0, xmmword ptr [rip + .LCPI0_9] # xmm0 = [1127219200,1160773632,0,0]
+	movapd	xmm1, xmmword ptr [rip + .LCPI0_10] # xmm1 = [4.503599627370496E+15,1.9342813113834067E+25]
+.LBB0_974:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm2, qword ptr [rdx + 8*rsi]   # xmm2 = mem[0],zero
+	unpcklps	xmm2, xmm0                      # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
+	subpd	xmm2, xmm1
+	movapd	xmm3, xmm2
+	unpckhpd	xmm3, xmm2                      # xmm3 = xmm3[1],xmm2[1]
+	addsd	xmm3, xmm2
+	movsd	qword ptr [rcx + 8*rsi], xmm3
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_974
+	jmp	.LBB0_1526
+.LBB0_975:
+	xor	edi, edi
+.LBB0_976:
+	test	r8b, 1
+	je	.LBB0_978
+# %bb.977:
+	cvtps2pd	xmm0, qword ptr [rdx + 4*rdi]
+	cvtps2pd	xmm1, qword ptr [rdx + 4*rdi + 8]
+	movupd	xmmword ptr [rcx + 8*rdi], xmm0
+	movupd	xmmword ptr [rcx + 8*rdi + 16], xmm1
+.LBB0_978:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_979:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	cvtss2sd	xmm0, xmm0
+	movsd	qword ptr [rcx + 8*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_979
+	jmp	.LBB0_1526
+.LBB0_980:
+	xor	edi, edi
+.LBB0_981:
+	test	r8b, 1
+	je	.LBB0_983
+# %bb.982:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_12] # xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
+	pshufb	xmm0, xmm2
+	pshufb	xmm1, xmm2
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+.LBB0_983:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_984:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 4*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_984
+	jmp	.LBB0_1526
+.LBB0_985:
+	xor	edi, edi
+.LBB0_986:
+	test	r8b, 1
+	je	.LBB0_988
+# %bb.987:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_12] # xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
+	pshufb	xmm0, xmm2
+	pshufb	xmm1, xmm2
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+.LBB0_988:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_989:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 4*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_989
+	jmp	.LBB0_1526
+.LBB0_990:
+	xor	edi, edi
+.LBB0_991:
+	test	r8b, 1
+	je	.LBB0_993
+# %bb.992:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	cvttpd2dq	xmm0, xmm0
+	cvttpd2dq	xmm1, xmm1
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi], xmm0
+	movd	dword ptr [rcx + 2*rdi + 4], xmm1
+.LBB0_993:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_994:                              # =>This Inner Loop Header: Depth=1
+	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_994
+	jmp	.LBB0_1526
+.LBB0_995:
+	xor	edi, edi
+.LBB0_996:
+	test	r8b, 1
+	je	.LBB0_998
+# %bb.997:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	cvttpd2dq	xmm0, xmm0
+	cvttpd2dq	xmm1, xmm1
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi], xmm0
+	movd	dword ptr [rcx + 2*rdi + 4], xmm1
+.LBB0_998:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_999:                              # =>This Inner Loop Header: Depth=1
+	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_999
+	jmp	.LBB0_1526
+.LBB0_1000:
+	xor	edi, edi
+.LBB0_1001:
+	test	r8b, 1
+	je	.LBB0_1003
+# %bb.1002:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi], xmm0
+	movd	dword ptr [rcx + 2*rdi + 4], xmm1
+.LBB0_1003:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1004:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 8*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1004
+	jmp	.LBB0_1526
+.LBB0_1005:
+	xor	edi, edi
+.LBB0_1006:
+	test	r8b, 1
+	je	.LBB0_1008
+# %bb.1007:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi], xmm0
+	movd	dword ptr [rcx + 2*rdi + 4], xmm1
+.LBB0_1008:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1009:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 8*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1009
+	jmp	.LBB0_1526
+.LBB0_1010:
+	xor	edi, edi
+.LBB0_1011:
+	test	r8b, 1
+	je	.LBB0_1013
+# %bb.1012:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi], xmm0
+	movd	dword ptr [rcx + 2*rdi + 4], xmm1
+.LBB0_1013:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1014:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 8*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1014
+	jmp	.LBB0_1526
+.LBB0_1015:
+	xor	edi, edi
+.LBB0_1016:
+	test	r8b, 1
+	je	.LBB0_1018
+# %bb.1017:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshuflw	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3,4,5,6,7]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	pshuflw	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3,4,5,6,7]
+	movd	dword ptr [rcx + 2*rdi], xmm0
+	movd	dword ptr [rcx + 2*rdi + 4], xmm1
+.LBB0_1018:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1019:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 8*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1019
+	jmp	.LBB0_1526
+.LBB0_1020:
+	xor	edi, edi
+.LBB0_1021:
+	test	r8b, 1
+	je	.LBB0_1023
+# %bb.1022:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	cvttps2dq	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	packusdw	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+.LBB0_1023:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1024:                             # =>This Inner Loop Header: Depth=1
+	cvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1024
+	jmp	.LBB0_1526
+.LBB0_1025:
+	xor	edi, edi
+.LBB0_1026:
+	test	r8b, 1
+	je	.LBB0_1028
+# %bb.1027:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	cvttps2dq	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	packssdw	xmm0, xmm1
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+.LBB0_1028:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1029:                             # =>This Inner Loop Header: Depth=1
+	cvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1029
+	jmp	.LBB0_1526
+.LBB0_1030:
+	xor	edi, edi
+.LBB0_1031:
+	test	r8b, 1
+	je	.LBB0_1033
+# %bb.1032:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_12] # xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
+	pshufb	xmm0, xmm2
+	pshufb	xmm1, xmm2
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+.LBB0_1033:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1034:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 4*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1034
+	jmp	.LBB0_1526
+.LBB0_1035:
+	xor	edi, edi
+.LBB0_1036:
+	test	r8b, 1
+	je	.LBB0_1038
+# %bb.1037:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_12] # xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
+	pshufb	xmm0, xmm2
+	pshufb	xmm1, xmm2
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+.LBB0_1038:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1039:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 4*rsi]
+	mov	word ptr [rcx + 2*rsi], ax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1039
+	jmp	.LBB0_1526
+.LBB0_1040:
+	xor	edi, edi
+.LBB0_1041:
+	test	r8b, 1
+	je	.LBB0_1043
+# %bb.1042:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_14] # xmm2 = [1258291200,1258291200,1258291200,1258291200]
+	movdqa	xmm3, xmm0
+	pblendw	xmm3, xmm2, 170                 # xmm3 = xmm3[0],xmm2[1],xmm3[2],xmm2[3],xmm3[4],xmm2[5],xmm3[6],xmm2[7]
+	psrld	xmm0, 16
+	movdqa	xmm4, xmmword ptr [rip + .LCPI0_15] # xmm4 = [1392508928,1392508928,1392508928,1392508928]
+	pblendw	xmm0, xmm4, 170                 # xmm0 = xmm0[0],xmm4[1],xmm0[2],xmm4[3],xmm0[4],xmm4[5],xmm0[6],xmm4[7]
+	movaps	xmm5, xmmword ptr [rip + .LCPI0_16] # xmm5 = [5.49764202E+11,5.49764202E+11,5.49764202E+11,5.49764202E+11]
+	subps	xmm0, xmm5
+	addps	xmm0, xmm3
+	pblendw	xmm2, xmm1, 85                  # xmm2 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
+	psrld	xmm1, 16
+	pblendw	xmm1, xmm4, 170                 # xmm1 = xmm1[0],xmm4[1],xmm1[2],xmm4[3],xmm1[4],xmm4[5],xmm1[6],xmm4[7]
+	subps	xmm1, xmm5
+	addps	xmm1, xmm2
+	movups	xmmword ptr [rcx + 4*rdi], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_1043:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1044:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, rax
+	movss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1044
+	jmp	.LBB0_1526
+.LBB0_1045:
+	xor	edi, edi
+.LBB0_1046:
+	test	r8b, 1
+	je	.LBB0_1048
+# %bb.1047:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	cvtpd2ps	xmm0, xmm0
+	cvtpd2ps	xmm1, xmm1
+	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
+	movupd	xmmword ptr [rcx + 4*rdi], xmm0
+.LBB0_1048:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1049:                             # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	cvtsd2ss	xmm0, xmm0
+	movss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1049
+	jmp	.LBB0_1526
+.LBB0_1050:
+	xor	edi, edi
+.LBB0_1051:
+	test	r8b, 1
+	je	.LBB0_1053
+# %bb.1052:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI0_11] # xmm3 = [1,1]
+	movdqa	xmm1, xmm0
+	movdqa	xmm2, xmm0
+	movdqa	xmm4, xmm0
+	pand	xmm4, xmm3
+	psrlq	xmm1, 1
+	por	xmm1, xmm4
+	blendvpd	xmm2, xmm1, xmm0
+	pextrq	rax, xmm2, 1
+	xorps	xmm4, xmm4
+	cvtsi2ss	xmm4, rax
+	movq	rax, xmm2
+	xorps	xmm2, xmm2
+	cvtsi2ss	xmm2, rax
+	pxor	xmm5, xmm5
+	pcmpgtq	xmm5, xmm0
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	insertps	xmm2, xmm4, 28                  # xmm2 = xmm2[0],xmm4[0],zero,zero
+	movaps	xmm4, xmm2
+	addps	xmm4, xmm2
+	pxor	xmm6, xmm6
+	pshufd	xmm0, xmm5, 237                 # xmm0 = xmm5[1,3,2,3]
+	blendvps	xmm2, xmm4, xmm0
+	pand	xmm3, xmm1
+	movdqa	xmm4, xmm1
+	psrlq	xmm4, 1
+	por	xmm4, xmm3
+	pcmpgtq	xmm6, xmm1
+	movdqa	xmm0, xmm1
+	blendvpd	xmm1, xmm4, xmm0
+	pextrq	rax, xmm1, 1
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, rax
+	movq	rax, xmm1
+	xorps	xmm1, xmm1
+	cvtsi2ss	xmm1, rax
+	insertps	xmm1, xmm0, 28                  # xmm1 = xmm1[0],xmm0[0],zero,zero
+	movaps	xmm3, xmm1
+	addps	xmm3, xmm1
+	pshufd	xmm0, xmm6, 237                 # xmm0 = xmm6[1,3,2,3]
+	blendvps	xmm1, xmm3, xmm0
+	movlhps	xmm2, xmm1                      # xmm2 = xmm2[0],xmm1[0]
+	movups	xmmword ptr [rcx + 4*rdi], xmm2
+.LBB0_1053:
+	cmp	rsi, r9
+	jne	.LBB0_1056
+	jmp	.LBB0_1526
+.LBB0_1054:                             #   in Loop: Header=BB0_1056 Depth=1
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, rax
+	movss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	je	.LBB0_1526
+.LBB0_1056:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	test	rax, rax
+	jns	.LBB0_1054
+# %bb.1057:                             #   in Loop: Header=BB0_1056 Depth=1
+	mov	rdi, rax
+	shr	rdi
+	and	eax, 1
+	or	rax, rdi
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, rax
+	addss	xmm0, xmm0
+	movss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1056
+	jmp	.LBB0_1526
+.LBB0_1058:
+	xor	edi, edi
+.LBB0_1059:
+	test	r8b, 1
+	je	.LBB0_1061
+# %bb.1060:
+	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_1061:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1062:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, eax
+	movss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1062
+	jmp	.LBB0_1526
+.LBB0_1063:
+	xor	edi, edi
+.LBB0_1064:
+	test	r8b, 1
+	je	.LBB0_1066
+# %bb.1065:
+	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_1066:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1067:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, word ptr [rdx + 2*rsi]
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, eax
+	movss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1067
+	jmp	.LBB0_1526
+.LBB0_1068:
+	xor	edi, edi
+.LBB0_1069:
+	test	r8b, 1
+	je	.LBB0_1071
+# %bb.1070:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_1071:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1072:                             # =>This Inner Loop Header: Depth=1
+	xorps	xmm0, xmm0
+	cvtsi2ss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [rcx + 4*rsi], xmm0
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1072
+	jmp	.LBB0_1526
+.LBB0_1073:
+	xor	edi, edi
+.LBB0_1074:
+	test	r8b, 1
+	je	.LBB0_1076
+# %bb.1075:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	cvttpd2dq	xmm0, xmm0
+	cvttpd2dq	xmm1, xmm1
+	unpcklpd	xmm0, xmm1                      # xmm0 = xmm0[0],xmm1[0]
+	movupd	xmmword ptr [rcx + 4*rdi], xmm0
+.LBB0_1076:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1077:                             # =>This Inner Loop Header: Depth=1
+	cvttsd2si	eax, qword ptr [rdx + 8*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1077
+	jmp	.LBB0_1526
+.LBB0_1078:
+	xor	edi, edi
+.LBB0_1079:
+	test	r8b, 1
+	je	.LBB0_1081
+# %bb.1080:
+	pmovzxwd	xmm0, qword ptr [rdx + 2*rdi]   # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	pmovzxwd	xmm1, qword ptr [rdx + 2*rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_1081:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1082:                             # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1082
+	jmp	.LBB0_1526
+.LBB0_1083:
+	xor	edi, edi
+.LBB0_1084:
+	test	r8b, 1
+	je	.LBB0_1086
+# %bb.1085:
+	pmovsxwd	xmm0, qword ptr [rdx + 2*rdi]
+	pmovsxwd	xmm1, qword ptr [rdx + 2*rdi + 8]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_1086:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1087:                             # =>This Inner Loop Header: Depth=1
+	movsx	eax, word ptr [rdx + 2*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1087
+	jmp	.LBB0_1526
+.LBB0_1088:
+	xor	edi, edi
+.LBB0_1089:
+	test	r8b, 1
+	je	.LBB0_1091
+# %bb.1090:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	pshufd	xmm0, xmm0, 232                 # xmm0 = xmm0[0,2,2,3]
+	pshufd	xmm1, xmm1, 232                 # xmm1 = xmm1[0,2,2,3]
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+.LBB0_1091:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1092:                             # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 8*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1092
+	jmp	.LBB0_1526
+.LBB0_1093:
+	xor	edi, edi
+.LBB0_1094:
+	test	r8b, 1
+	je	.LBB0_1096
+# %bb.1095:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	cvttps2dq	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	movupd	xmmword ptr [rcx + 4*rdi], xmm0
+	movupd	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_1096:
+	cmp	rsi, r9
+	je	.LBB0_1526
+.LBB0_1097:                             # =>This Inner Loop Header: Depth=1
+	cvttss2si	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [rcx + 4*rsi], eax
+	add	rsi, 1
+	cmp	r9, rsi
+	jne	.LBB0_1097
+.LBB0_1526:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.LBB0_1098:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1099:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rax]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movups	xmmword ptr [rcx + 4*rax], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
+	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
+	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
+	add	rax, 32
+	add	rdi, 4
+	jne	.LBB0_1099
+.LBB0_1100:
+	test	r8, r8
+	je	.LBB0_1103
+# %bb.1101:
+	lea	rax, [4*rax + 16]
+	neg	r8
+.LBB0_1102:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1102
+.LBB0_1103:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1104
+.LBB0_1108:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1109:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rax]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movups	xmmword ptr [rcx + 4*rax], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
+	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
+	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
+	add	rax, 32
+	add	rdi, 4
+	jne	.LBB0_1109
+.LBB0_1110:
+	test	r8, r8
+	je	.LBB0_1113
+# %bb.1111:
+	lea	rax, [4*rax + 16]
+	neg	r8
+.LBB0_1112:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1112
+.LBB0_1113:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1114
+.LBB0_1118:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1119:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 8*rax]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movups	xmmword ptr [rcx + 8*rax], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
+	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
+	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_1119
+.LBB0_1120:
+	test	r8, r8
+	je	.LBB0_1123
+# %bb.1121:
+	lea	rax, [8*rax + 16]
+	neg	r8
+.LBB0_1122:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1122
+.LBB0_1123:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1124
+.LBB0_1128:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1129:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + rax]
+	movups	xmm1, xmmword ptr [rdx + rax + 16]
+	movups	xmmword ptr [rcx + rax], xmm0
+	movups	xmmword ptr [rcx + rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + rax + 32]
+	movups	xmm1, xmmword ptr [rdx + rax + 48]
+	movups	xmmword ptr [rcx + rax + 32], xmm0
+	movups	xmmword ptr [rcx + rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + rax + 64]
+	movups	xmm1, xmmword ptr [rdx + rax + 80]
+	movups	xmmword ptr [rcx + rax + 64], xmm0
+	movups	xmmword ptr [rcx + rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + rax + 112]
+	movupd	xmmword ptr [rcx + rax + 96], xmm0
+	movupd	xmmword ptr [rcx + rax + 112], xmm1
+	sub	rax, -128
+	add	rdi, 4
+	jne	.LBB0_1129
+.LBB0_1130:
+	test	r8, r8
+	je	.LBB0_1133
+# %bb.1131:
+	add	rax, 16
+	neg	r8
+.LBB0_1132:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1132
+.LBB0_1133:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1134
+.LBB0_1138:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1139:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + rax]
+	movups	xmm1, xmmword ptr [rdx + rax + 16]
+	movups	xmmword ptr [rcx + rax], xmm0
+	movups	xmmword ptr [rcx + rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + rax + 32]
+	movups	xmm1, xmmword ptr [rdx + rax + 48]
+	movups	xmmword ptr [rcx + rax + 32], xmm0
+	movups	xmmword ptr [rcx + rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + rax + 64]
+	movups	xmm1, xmmword ptr [rdx + rax + 80]
+	movups	xmmword ptr [rcx + rax + 64], xmm0
+	movups	xmmword ptr [rcx + rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + rax + 112]
+	movupd	xmmword ptr [rcx + rax + 96], xmm0
+	movupd	xmmword ptr [rcx + rax + 112], xmm1
+	sub	rax, -128
+	add	rdi, 4
+	jne	.LBB0_1139
+.LBB0_1140:
+	test	r8, r8
+	je	.LBB0_1143
+# %bb.1141:
+	add	rax, 16
+	neg	r8
+.LBB0_1142:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1142
+.LBB0_1143:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1144
+.LBB0_1148:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1149:                             # =>This Inner Loop Header: Depth=1
+	pmovsxbq	xmm0, word ptr [rdx + rax]
+	pmovsxbq	xmm1, word ptr [rdx + rax + 2]
+	movdqu	xmmword ptr [rcx + 8*rax], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
+	pmovsxbq	xmm0, word ptr [rdx + rax + 4]
+	pmovsxbq	xmm1, word ptr [rdx + rax + 6]
+	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
+	pmovsxbq	xmm0, word ptr [rdx + rax + 8]
+	pmovsxbq	xmm1, word ptr [rdx + rax + 10]
+	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
+	pmovsxbq	xmm0, word ptr [rdx + rax + 12]
+	pmovsxbq	xmm1, word ptr [rdx + rax + 14]
+	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_1149
+.LBB0_1150:
+	test	r8, r8
+	je	.LBB0_1153
+# %bb.1151:
+	lea	rdi, [rcx + 8*rax]
+	add	rdi, 16
+	lea	r10, [rax + rdx]
+	add	r10, 2
+	xor	eax, eax
+.LBB0_1152:                             # =>This Inner Loop Header: Depth=1
+	pmovsxbq	xmm0, word ptr [r10 + 4*rax - 2]
+	pmovsxbq	xmm1, word ptr [r10 + 4*rax]
+	movdqu	xmmword ptr [rdi - 16], xmm0
+	movdqu	xmmword ptr [rdi], xmm1
+	add	rdi, 32
+	add	rax, 1
+	cmp	r8, rax
+	jne	.LBB0_1152
+.LBB0_1153:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1154
+.LBB0_1158:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1159:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 8*rax]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movups	xmmword ptr [rcx + 8*rax], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
+	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
+	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_1159
+.LBB0_1160:
+	test	r8, r8
+	je	.LBB0_1163
+# %bb.1161:
+	lea	rax, [8*rax + 16]
+	neg	r8
+.LBB0_1162:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1162
+.LBB0_1163:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1164
+.LBB0_1168:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1169:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 8*rax]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movups	xmmword ptr [rcx + 8*rax], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
+	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
+	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_1169
+.LBB0_1170:
+	test	r8, r8
+	je	.LBB0_1173
+# %bb.1171:
+	lea	rax, [8*rax + 16]
+	neg	r8
+.LBB0_1172:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1172
+.LBB0_1173:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1174
+.LBB0_1178:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1179:                             # =>This Inner Loop Header: Depth=1
+	pmovzxbq	xmm0, word ptr [rdx + rax]      # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	pmovzxbq	xmm1, word ptr [rdx + rax + 2]  # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
+	pmovzxbq	xmm0, word ptr [rdx + rax + 4]  # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	pmovzxbq	xmm1, word ptr [rdx + rax + 6]  # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
+	pmovzxbq	xmm0, word ptr [rdx + rax + 8]  # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	pmovzxbq	xmm1, word ptr [rdx + rax + 10] # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
+	pmovzxbq	xmm0, word ptr [rdx + rax + 12] # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	pmovzxbq	xmm1, word ptr [rdx + rax + 14] # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_1179
+.LBB0_1180:
+	test	r8, r8
+	je	.LBB0_1183
+# %bb.1181:
+	lea	rdi, [rcx + 8*rax]
+	add	rdi, 16
+	lea	r10, [rax + rdx]
+	add	r10, 2
+	xor	eax, eax
+.LBB0_1182:                             # =>This Inner Loop Header: Depth=1
+	pmovzxbq	xmm0, word ptr [r10 + 4*rax - 2] # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	pmovzxbq	xmm1, word ptr [r10 + 4*rax]    # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	movdqu	xmmword ptr [rdi - 16], xmm0
+	movdqu	xmmword ptr [rdi], xmm1
+	add	rdi, 32
+	add	rax, 1
+	cmp	r8, rax
+	jne	.LBB0_1182
+.LBB0_1183:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1184
+.LBB0_1188:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1189:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 2*rax]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movups	xmmword ptr [rcx + 2*rax], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
+	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
+	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
+	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
+	add	rax, 64
+	add	rdi, 4
+	jne	.LBB0_1189
+.LBB0_1190:
+	test	r8, r8
+	je	.LBB0_1193
+# %bb.1191:
+	add	rax, rax
+	add	rax, 16
+	neg	r8
+.LBB0_1192:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1192
+.LBB0_1193:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1194
+.LBB0_1198:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1199:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 2*rax]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movups	xmmword ptr [rcx + 2*rax], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
+	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
+	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
+	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
+	add	rax, 64
+	add	rdi, 4
+	jne	.LBB0_1199
+.LBB0_1200:
+	test	r8, r8
+	je	.LBB0_1203
+# %bb.1201:
+	add	rax, rax
+	add	rax, 16
+	neg	r8
+.LBB0_1202:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1202
+.LBB0_1203:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1204
+.LBB0_1208:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1209:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 2*rax]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movups	xmmword ptr [rcx + 2*rax], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
+	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
+	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
+	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
+	add	rax, 64
+	add	rdi, 4
+	jne	.LBB0_1209
+.LBB0_1210:
+	test	r8, r8
+	je	.LBB0_1213
+# %bb.1211:
+	add	rax, rax
+	add	rax, 16
+	neg	r8
+.LBB0_1212:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1212
+.LBB0_1213:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1214
+.LBB0_1218:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1219:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 2*rax]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movups	xmmword ptr [rcx + 2*rax], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 2*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 48]
+	movups	xmmword ptr [rcx + 2*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 2*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 2*rax + 80]
+	movups	xmmword ptr [rcx + 2*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 2*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 2*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 2*rax + 112]
+	movupd	xmmword ptr [rcx + 2*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 2*rax + 112], xmm1
+	add	rax, 64
+	add	rdi, 4
+	jne	.LBB0_1219
+.LBB0_1220:
+	test	r8, r8
+	je	.LBB0_1223
+# %bb.1221:
+	add	rax, rax
+	add	rax, 16
+	neg	r8
+.LBB0_1222:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1222
+.LBB0_1223:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1224
+.LBB0_1228:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1229:                             # =>This Inner Loop Header: Depth=1
+	pmovsxbq	xmm0, word ptr [rdx + rax]
+	pmovsxbq	xmm1, word ptr [rdx + rax + 2]
+	movdqu	xmmword ptr [rcx + 8*rax], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
+	pmovsxbq	xmm0, word ptr [rdx + rax + 4]
+	pmovsxbq	xmm1, word ptr [rdx + rax + 6]
+	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
+	pmovsxbq	xmm0, word ptr [rdx + rax + 8]
+	pmovsxbq	xmm1, word ptr [rdx + rax + 10]
+	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
+	pmovsxbq	xmm0, word ptr [rdx + rax + 12]
+	pmovsxbq	xmm1, word ptr [rdx + rax + 14]
+	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_1229
+.LBB0_1230:
+	test	r8, r8
+	je	.LBB0_1233
+# %bb.1231:
+	lea	rdi, [rcx + 8*rax]
+	add	rdi, 16
+	lea	r10, [rax + rdx]
+	add	r10, 2
+	xor	eax, eax
+.LBB0_1232:                             # =>This Inner Loop Header: Depth=1
+	pmovsxbq	xmm0, word ptr [r10 + 4*rax - 2]
+	pmovsxbq	xmm1, word ptr [r10 + 4*rax]
+	movdqu	xmmword ptr [rdi - 16], xmm0
+	movdqu	xmmword ptr [rdi], xmm1
+	add	rdi, 32
+	add	rax, 1
+	cmp	r8, rax
+	jne	.LBB0_1232
+.LBB0_1233:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1234
+.LBB0_1238:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1239:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 8*rax]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movups	xmmword ptr [rcx + 8*rax], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
+	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
+	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_1239
+.LBB0_1240:
+	test	r8, r8
+	je	.LBB0_1243
+# %bb.1241:
+	lea	rax, [8*rax + 16]
+	neg	r8
+.LBB0_1242:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1242
+.LBB0_1243:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1244
+.LBB0_1248:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1249:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 8*rax]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movups	xmmword ptr [rcx + 8*rax], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movups	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 8*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 8*rax + 80]
+	movups	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 8*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 112]
+	movupd	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_1249
+.LBB0_1250:
+	test	r8, r8
+	je	.LBB0_1253
+# %bb.1251:
+	lea	rax, [8*rax + 16]
+	neg	r8
+.LBB0_1252:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1252
+.LBB0_1253:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1254
+.LBB0_1258:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1259:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rax]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movups	xmmword ptr [rcx + 4*rax], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
+	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
+	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
+	add	rax, 32
+	add	rdi, 4
+	jne	.LBB0_1259
+.LBB0_1260:
+	test	r8, r8
+	je	.LBB0_1263
+# %bb.1261:
+	lea	rax, [4*rax + 16]
+	neg	r8
+.LBB0_1262:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1262
+.LBB0_1263:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1264
+.LBB0_1268:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1269:                             # =>This Inner Loop Header: Depth=1
+	pmovzxbq	xmm0, word ptr [rdx + rax]      # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	pmovzxbq	xmm1, word ptr [rdx + rax + 2]  # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 16], xmm1
+	pmovzxbq	xmm0, word ptr [rdx + rax + 4]  # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	pmovzxbq	xmm1, word ptr [rdx + rax + 6]  # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 48], xmm1
+	pmovzxbq	xmm0, word ptr [rdx + rax + 8]  # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	pmovzxbq	xmm1, word ptr [rdx + rax + 10] # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax + 64], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 80], xmm1
+	pmovzxbq	xmm0, word ptr [rdx + rax + 12] # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	pmovzxbq	xmm1, word ptr [rdx + rax + 14] # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	movdqu	xmmword ptr [rcx + 8*rax + 96], xmm0
+	movdqu	xmmword ptr [rcx + 8*rax + 112], xmm1
+	add	rax, 16
+	add	rdi, 4
+	jne	.LBB0_1269
+.LBB0_1270:
+	test	r8, r8
+	je	.LBB0_1273
+# %bb.1271:
+	lea	rdi, [rcx + 8*rax]
+	add	rdi, 16
+	lea	r10, [rax + rdx]
+	add	r10, 2
+	xor	eax, eax
+.LBB0_1272:                             # =>This Inner Loop Header: Depth=1
+	pmovzxbq	xmm0, word ptr [r10 + 4*rax - 2] # xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	pmovzxbq	xmm1, word ptr [r10 + 4*rax]    # xmm1 = mem[0],zero,zero,zero,zero,zero,zero,zero,mem[1],zero,zero,zero,zero,zero,zero,zero
+	movdqu	xmmword ptr [rdi - 16], xmm0
+	movdqu	xmmword ptr [rdi], xmm1
+	add	rdi, 32
+	add	rax, 1
+	cmp	r8, rax
+	jne	.LBB0_1272
+.LBB0_1273:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1274
+.LBB0_1278:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1279:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + rax]
+	movups	xmm1, xmmword ptr [rdx + rax + 16]
+	movups	xmmword ptr [rcx + rax], xmm0
+	movups	xmmword ptr [rcx + rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + rax + 32]
+	movups	xmm1, xmmword ptr [rdx + rax + 48]
+	movups	xmmword ptr [rcx + rax + 32], xmm0
+	movups	xmmword ptr [rcx + rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + rax + 64]
+	movups	xmm1, xmmword ptr [rdx + rax + 80]
+	movups	xmmword ptr [rcx + rax + 64], xmm0
+	movups	xmmword ptr [rcx + rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + rax + 112]
+	movupd	xmmword ptr [rcx + rax + 96], xmm0
+	movupd	xmmword ptr [rcx + rax + 112], xmm1
+	sub	rax, -128
+	add	rdi, 4
+	jne	.LBB0_1279
+.LBB0_1280:
+	test	r8, r8
+	je	.LBB0_1283
+# %bb.1281:
+	add	rax, 16
+	neg	r8
+.LBB0_1282:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1282
+.LBB0_1283:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1284
+.LBB0_1288:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1289:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + rax]
+	movups	xmm1, xmmword ptr [rdx + rax + 16]
+	movups	xmmword ptr [rcx + rax], xmm0
+	movups	xmmword ptr [rcx + rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + rax + 32]
+	movups	xmm1, xmmword ptr [rdx + rax + 48]
+	movups	xmmword ptr [rcx + rax + 32], xmm0
+	movups	xmmword ptr [rcx + rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + rax + 64]
+	movups	xmm1, xmmword ptr [rdx + rax + 80]
+	movups	xmmword ptr [rcx + rax + 64], xmm0
+	movups	xmmword ptr [rcx + rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + rax + 112]
+	movupd	xmmword ptr [rcx + rax + 96], xmm0
+	movupd	xmmword ptr [rcx + rax + 112], xmm1
+	sub	rax, -128
+	add	rdi, 4
+	jne	.LBB0_1289
+.LBB0_1290:
+	test	r8, r8
+	je	.LBB0_1293
+# %bb.1291:
+	add	rax, 16
+	neg	r8
+.LBB0_1292:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1292
+.LBB0_1293:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1294
+.LBB0_1298:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1299:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rax]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movups	xmmword ptr [rcx + 4*rax], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
+	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
+	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
+	add	rax, 32
+	add	rdi, 4
+	jne	.LBB0_1299
+.LBB0_1300:
+	test	r8, r8
+	je	.LBB0_1303
+# %bb.1301:
+	lea	rax, [4*rax + 16]
+	neg	r8
+.LBB0_1302:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1302
+.LBB0_1303:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1304
+.LBB0_1308:
+	and	rdi, -4
+	neg	rdi
+	xor	eax, eax
+.LBB0_1309:                             # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rax]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movups	xmmword ptr [rcx + 4*rax], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movups	xmmword ptr [rcx + 4*rax + 32], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 48], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 64]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 80]
+	movups	xmmword ptr [rcx + 4*rax + 64], xmm0
+	movups	xmmword ptr [rcx + 4*rax + 80], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 4*rax + 96]
+	movupd	xmm1, xmmword ptr [rdx + 4*rax + 112]
+	movupd	xmmword ptr [rcx + 4*rax + 96], xmm0
+	movupd	xmmword ptr [rcx + 4*rax + 112], xmm1
+	add	rax, 32
+	add	rdi, 4
+	jne	.LBB0_1309
+.LBB0_1310:
+	test	r8, r8
+	je	.LBB0_1313
+# %bb.1311:
+	lea	rax, [4*rax + 16]
+	neg	r8
+.LBB0_1312:                             # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + rax - 16]
+	movupd	xmm1, xmmword ptr [rdx + rax]
+	movupd	xmmword ptr [rcx + rax - 16], xmm0
+	movupd	xmmword ptr [rcx + rax], xmm1
+	add	rax, 32
+	inc	r8
+	jne	.LBB0_1312
+.LBB0_1313:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1314
+.LBB0_1318:
+	xor	edi, edi
+.LBB0_1319:
+	test	r8b, 1
+	je	.LBB0_1321
+# %bb.1320:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_5] # xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	pshufb	xmm0, xmm2
+	pextrw	word ptr [rcx + rdi], xmm0, 0
+	pshufb	xmm1, xmm2
+	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
+.LBB0_1321:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1322
+.LBB0_1326:
+	xor	edi, edi
+.LBB0_1327:
+	test	r8b, 1
+	je	.LBB0_1329
+# %bb.1328:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_17] # xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
+	pshufb	xmm0, xmm2
+	pshufb	xmm1, xmm2
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + rdi], xmm0
+.LBB0_1329:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1330
+.LBB0_1334:
+	xor	edi, edi
+.LBB0_1335:
+	test	r8b, 1
+	je	.LBB0_1337
+# %bb.1336:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_5] # xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	pshufb	xmm0, xmm2
+	pextrw	word ptr [rcx + rdi], xmm0, 0
+	pshufb	xmm1, xmm2
+	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
+.LBB0_1337:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1338
+.LBB0_1342:
+	xor	edi, edi
+.LBB0_1343:
+	test	r8b, 1
+	je	.LBB0_1345
+# %bb.1344:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_13] # xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+	pshufb	xmm0, xmm2
+	pshufb	xmm1, xmm2
+	movd	dword ptr [rcx + rdi], xmm0
+	movd	dword ptr [rcx + rdi + 4], xmm1
+.LBB0_1345:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1346
+.LBB0_1350:
+	xor	edi, edi
+.LBB0_1351:
+	test	r8b, 1
+	je	.LBB0_1353
+# %bb.1352:
+	pmovsxbw	xmm0, qword ptr [rdx + rdi]
+	pmovsxbw	xmm1, qword ptr [rdx + rdi + 8]
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+.LBB0_1353:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1354
+.LBB0_1358:
+	xor	edi, edi
+.LBB0_1359:
+	test	r8b, 1
+	je	.LBB0_1361
+# %bb.1360:
+	pmovsxbw	xmm0, qword ptr [rdx + rdi]
+	pmovsxbw	xmm1, qword ptr [rdx + rdi + 8]
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+.LBB0_1361:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1362
+.LBB0_1366:
+	xor	edi, edi
+.LBB0_1367:
+	test	r8b, 1
+	je	.LBB0_1369
+# %bb.1368:
+	pmovzxbw	xmm0, qword ptr [rdx + rdi]     # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	pmovzxbw	xmm1, qword ptr [rdx + rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+.LBB0_1369:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1370
+.LBB0_1374:
+	xor	edi, edi
+.LBB0_1375:
+	test	r8b, 1
+	je	.LBB0_1377
+# %bb.1376:
+	pmovzxbw	xmm0, qword ptr [rdx + rdi]     # xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	pmovzxbw	xmm1, qword ptr [rdx + rdi + 8] # xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
+	movdqu	xmmword ptr [rcx + 2*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 2*rdi + 16], xmm1
+.LBB0_1377:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1378
+.LBB0_1382:
+	xor	edi, edi
+.LBB0_1383:
+	test	r8b, 1
+	je	.LBB0_1385
+# %bb.1384:
+	pmovsxbd	xmm0, dword ptr [rdx + rdi]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_1385:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1386
+.LBB0_1390:
+	xor	edi, edi
+.LBB0_1391:
+	test	r8b, 1
+	je	.LBB0_1393
+# %bb.1392:
+	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	cvtdq2ps	xmm0, xmm0
+	cvtdq2ps	xmm1, xmm1
+	movups	xmmword ptr [rcx + 4*rdi], xmm0
+	movups	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_1393:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1394
+.LBB0_1398:
+	xor	edi, edi
+.LBB0_1399:
+	test	r8b, 1
+	je	.LBB0_1401
+# %bb.1400:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_13] # xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+	pshufb	xmm0, xmm2
+	pshufb	xmm1, xmm2
+	movd	dword ptr [rcx + rdi], xmm0
+	movd	dword ptr [rcx + rdi + 4], xmm1
+.LBB0_1401:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1402
+.LBB0_1406:
+	xor	edi, edi
+.LBB0_1407:
+	test	r8b, 1
+	je	.LBB0_1409
+# %bb.1408:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	cvttpd2dq	xmm0, xmm0
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_1] # xmm2 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	cvttpd2dq	xmm1, xmm1
+	pshufb	xmm0, xmm2
+	pextrw	word ptr [rcx + rdi], xmm0, 0
+	pshufb	xmm1, xmm2
+	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
+.LBB0_1409:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1410
+.LBB0_1414:
+	xor	edi, edi
+.LBB0_1415:
+	test	r8b, 1
+	je	.LBB0_1417
+# %bb.1416:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_5] # xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	pshufb	xmm0, xmm2
+	pextrw	word ptr [rcx + rdi], xmm0, 0
+	pshufb	xmm1, xmm2
+	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
+.LBB0_1417:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1418
+.LBB0_1422:
+	xor	edi, edi
+.LBB0_1423:
+	test	r8b, 1
+	je	.LBB0_1425
+# %bb.1424:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_17] # xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
+	pshufb	xmm0, xmm2
+	pshufb	xmm1, xmm2
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + rdi], xmm0
+.LBB0_1425:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1426
+.LBB0_1430:
+	xor	edi, edi
+.LBB0_1431:
+	test	r8b, 1
+	je	.LBB0_1433
+# %bb.1432:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_17] # xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
+	pshufb	xmm0, xmm2
+	pshufb	xmm1, xmm2
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + rdi], xmm0
+.LBB0_1433:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1434
+.LBB0_1438:
+	xor	edi, edi
+.LBB0_1439:
+	test	r8b, 1
+	je	.LBB0_1441
+# %bb.1440:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_5] # xmm2 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	pshufb	xmm0, xmm2
+	pextrw	word ptr [rcx + rdi], xmm0, 0
+	pshufb	xmm1, xmm2
+	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
+.LBB0_1441:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1442
+.LBB0_1446:
+	xor	edi, edi
+.LBB0_1447:
+	test	r8b, 1
+	je	.LBB0_1449
+# %bb.1448:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	cvttps2dq	xmm0, xmm0
+	packusdw	xmm0, xmm0
+	packuswb	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	packusdw	xmm1, xmm1
+	packuswb	xmm1, xmm1
+	movd	dword ptr [rcx + rdi], xmm0
+	movd	dword ptr [rcx + rdi + 4], xmm1
+.LBB0_1449:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1450
+.LBB0_1454:
+	xor	edi, edi
+.LBB0_1455:
+	test	r8b, 1
+	je	.LBB0_1457
+# %bb.1456:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_13] # xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+	pshufb	xmm0, xmm2
+	pshufb	xmm1, xmm2
+	movd	dword ptr [rcx + rdi], xmm0
+	movd	dword ptr [rcx + rdi + 4], xmm1
+.LBB0_1457:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1458
+.LBB0_1462:
+	xor	edi, edi
+.LBB0_1463:
+	test	r8b, 1
+	je	.LBB0_1465
+# %bb.1464:
+	pmovsxbd	xmm0, dword ptr [rdx + rdi]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_1465:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1466
+.LBB0_1470:
+	xor	edi, edi
+.LBB0_1471:
+	test	r8b, 1
+	je	.LBB0_1473
+# %bb.1472:
+	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_1473:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1474
+.LBB0_1478:
+	xor	edi, edi
+.LBB0_1479:
+	test	r8b, 1
+	je	.LBB0_1481
+# %bb.1480:
+	pmovsxbd	xmm0, dword ptr [rdx + rdi]
+	pmovsxbd	xmm1, dword ptr [rdx + rdi + 4]
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_1481:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1482
+.LBB0_1486:
+	xor	edi, edi
+.LBB0_1487:
+	test	r8b, 1
+	je	.LBB0_1489
+# %bb.1488:
+	pmovzxbd	xmm0, dword ptr [rdx + rdi]     # xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	pmovzxbd	xmm1, dword ptr [rdx + rdi + 4] # xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
+	movdqu	xmmword ptr [rcx + 4*rdi], xmm0
+	movdqu	xmmword ptr [rcx + 4*rdi + 16], xmm1
+.LBB0_1489:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1490
+.LBB0_1494:
+	xor	edi, edi
+.LBB0_1495:
+	test	r8b, 1
+	je	.LBB0_1497
+# %bb.1496:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_13] # xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
+	pshufb	xmm0, xmm2
+	pshufb	xmm1, xmm2
+	movd	dword ptr [rcx + rdi], xmm0
+	movd	dword ptr [rcx + rdi + 4], xmm1
+.LBB0_1497:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1498
+.LBB0_1502:
+	xor	edi, edi
+.LBB0_1503:
+	test	r8b, 1
+	je	.LBB0_1505
+# %bb.1504:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	cvttpd2dq	xmm0, xmm0
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_1] # xmm2 = <0,4,u,u,u,u,u,u,u,u,u,u,u,u,u,u>
+	cvttpd2dq	xmm1, xmm1
+	pshufb	xmm0, xmm2
+	pextrw	word ptr [rcx + rdi], xmm0, 0
+	pshufb	xmm1, xmm2
+	pextrw	word ptr [rcx + rdi + 2], xmm1, 0
+.LBB0_1505:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1506
+.LBB0_1510:
+	xor	edi, edi
+.LBB0_1511:
+	test	r8b, 1
+	je	.LBB0_1513
+# %bb.1512:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqa	xmm2, xmmword ptr [rip + .LCPI0_17] # xmm2 = <0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u>
+	pshufb	xmm0, xmm2
+	pshufb	xmm1, xmm2
+	punpcklqdq	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0]
+	movdqu	xmmword ptr [rcx + rdi], xmm0
+.LBB0_1513:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1514
+.LBB0_1518:
+	xor	edi, edi
+.LBB0_1519:
+	test	r8b, 1
+	je	.LBB0_1521
+# %bb.1520:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	cvttps2dq	xmm0, xmm0
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	cvttps2dq	xmm1, xmm1
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	movd	dword ptr [rcx + rdi], xmm0
+	movd	dword ptr [rcx + rdi + 4], xmm1
+.LBB0_1521:
+	cmp	rsi, r9
+	je	.LBB0_1526
+	jmp	.LBB0_1522
+.Lfunc_end0:
+	.size	cast_type_numeric_sse4, .Lfunc_end0-cast_type_numeric_sse4
+                                        # -- End function
+	.ident	"Ubuntu clang version 11.1.0-6"
+	.section	".note.GNU-stack","",@progbits
+	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/constant_factor.c b/go/arrow/compute/internal/kernels/_lib/constant_factor.c
new file mode 100644
index 00000000000..a540f4cd6b6
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/constant_factor.c
@@ -0,0 +1,35 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+#include <arch.h>
+#include <stdint.h>
+
+#define CREATE_CONSTANT_FACTOR(SRC, DEST) \
+    void FULL_NAME(multiply_constant_##SRC##_##DEST)(const SRC##_t* src, DEST##_t* dest, const int len, const int64_t factor) { \
+        for (int i = 0; i < len; ++i) {            \
+            dest[i] = (DEST##_t)(src[i] * factor); \
+        }                                          \
+    }                                              \
+    void FULL_NAME(divide_constant_##SRC##_##DEST)(const SRC##_t* src, DEST##_t* dest, const int len, const int64_t factor) { \
+        for (int i = 0; i < len; ++i) {            \
+            dest[i] = (DEST##_t)(src[i] / factor); \
+        }                                          \
+    }
+
+CREATE_CONSTANT_FACTOR(int32, int32)
+CREATE_CONSTANT_FACTOR(int32, int64)
+CREATE_CONSTANT_FACTOR(int64, int32)
+CREATE_CONSTANT_FACTOR(int64, int64)
\ No newline at end of file
diff --git a/go/arrow/compute/internal/kernels/_lib/constant_factor_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/constant_factor_avx2_amd64.s
new file mode 100644
index 00000000000..f0dfeed8dee
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/constant_factor_avx2_amd64.s
@@ -0,0 +1,837 @@
+	.text
+	.intel_syntax noprefix
+	.file	"constant_factor.c"
+	.globl	multiply_constant_int32_int32_avx2 # -- Begin function multiply_constant_int32_int32_avx2
+	.p2align	4, 0x90
+	.type	multiply_constant_int32_int32_avx2,@function
+multiply_constant_int32_int32_avx2:     # @multiply_constant_int32_int32_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB0_16
+# %bb.1:
+	mov	r9d, edx
+	cmp	edx, 31
+	jbe	.LBB0_2
+# %bb.7:
+	lea	rax, [rdi + 4*r9]
+	cmp	rax, rsi
+	jbe	.LBB0_9
+# %bb.8:
+	lea	rax, [rsi + 4*r9]
+	cmp	rax, rdi
+	jbe	.LBB0_9
+.LBB0_2:
+	xor	r11d, r11d
+.LBB0_3:
+	mov	r8, r11
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB0_5
+	.p2align	4, 0x90
+.LBB0_4:                                # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rdi + 4*r11]
+	imul	edx, ecx
+	mov	dword ptr [rsi + 4*r11], edx
+	add	r11, 1
+	add	rax, -1
+	jne	.LBB0_4
+.LBB0_5:
+	cmp	r8, 3
+	jb	.LBB0_16
+	.p2align	4, 0x90
+.LBB0_6:                                # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdi + 4*r11]
+	imul	eax, ecx
+	mov	dword ptr [rsi + 4*r11], eax
+	mov	eax, dword ptr [rdi + 4*r11 + 4]
+	imul	eax, ecx
+	mov	dword ptr [rsi + 4*r11 + 4], eax
+	mov	eax, dword ptr [rdi + 4*r11 + 8]
+	imul	eax, ecx
+	mov	dword ptr [rsi + 4*r11 + 8], eax
+	mov	eax, dword ptr [rdi + 4*r11 + 12]
+	imul	eax, ecx
+	mov	dword ptr [rsi + 4*r11 + 12], eax
+	add	r11, 4
+	cmp	r9, r11
+	jne	.LBB0_6
+	jmp	.LBB0_16
+.LBB0_9:
+	mov	r11d, r9d
+	and	r11d, -32
+	vmovd	xmm0, ecx
+	vpbroadcastd	ymm0, xmm0
+	lea	rax, [r11 - 32]
+	mov	r8, rax
+	shr	r8, 5
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_10
+# %bb.11:
+	mov	r10, r8
+	and	r10, -2
+	neg	r10
+	xor	eax, eax
+	.p2align	4, 0x90
+.LBB0_12:                               # =>This Inner Loop Header: Depth=1
+	vpmulld	ymm1, ymm0, ymmword ptr [rdi + 4*rax]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdi + 4*rax + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdi + 4*rax + 64]
+	vpmulld	ymm4, ymm0, ymmword ptr [rdi + 4*rax + 96]
+	vmovdqu	ymmword ptr [rsi + 4*rax], ymm1
+	vmovdqu	ymmword ptr [rsi + 4*rax + 32], ymm2
+	vmovdqu	ymmword ptr [rsi + 4*rax + 64], ymm3
+	vmovdqu	ymmword ptr [rsi + 4*rax + 96], ymm4
+	vpmulld	ymm1, ymm0, ymmword ptr [rdi + 4*rax + 128]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdi + 4*rax + 160]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdi + 4*rax + 192]
+	vpmulld	ymm4, ymm0, ymmword ptr [rdi + 4*rax + 224]
+	vmovdqu	ymmword ptr [rsi + 4*rax + 128], ymm1
+	vmovdqu	ymmword ptr [rsi + 4*rax + 160], ymm2
+	vmovdqu	ymmword ptr [rsi + 4*rax + 192], ymm3
+	vmovdqu	ymmword ptr [rsi + 4*rax + 224], ymm4
+	add	rax, 64
+	add	r10, 2
+	jne	.LBB0_12
+# %bb.13:
+	test	r8b, 1
+	je	.LBB0_15
+.LBB0_14:
+	vpmulld	ymm1, ymm0, ymmword ptr [rdi + 4*rax]
+	vpmulld	ymm2, ymm0, ymmword ptr [rdi + 4*rax + 32]
+	vpmulld	ymm3, ymm0, ymmword ptr [rdi + 4*rax + 64]
+	vpmulld	ymm0, ymm0, ymmword ptr [rdi + 4*rax + 96]
+	vmovdqu	ymmword ptr [rsi + 4*rax], ymm1
+	vmovdqu	ymmword ptr [rsi + 4*rax + 32], ymm2
+	vmovdqu	ymmword ptr [rsi + 4*rax + 64], ymm3
+	vmovdqu	ymmword ptr [rsi + 4*rax + 96], ymm0
+.LBB0_15:
+	cmp	r11, r9
+	jne	.LBB0_3
+.LBB0_16:
+	mov	rsp, rbp
+	pop	rbp
+	vzeroupper
+	ret
+.LBB0_10:
+	xor	eax, eax
+	test	r8b, 1
+	jne	.LBB0_14
+	jmp	.LBB0_15
+.Lfunc_end0:
+	.size	multiply_constant_int32_int32_avx2, .Lfunc_end0-multiply_constant_int32_int32_avx2
+                                        # -- End function
+	.globl	divide_constant_int32_int32_avx2 # -- Begin function divide_constant_int32_int32_avx2
+	.p2align	4, 0x90
+	.type	divide_constant_int32_int32_avx2,@function
+divide_constant_int32_int32_avx2:       # @divide_constant_int32_int32_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB1_8
+# %bb.1:
+	mov	r9d, edx
+	cmp	edx, 1
+	jne	.LBB1_9
+# %bb.2:
+	xor	r8d, r8d
+.LBB1_3:
+	test	r9b, 1
+	je	.LBB1_8
+# %bb.4:
+	movsxd	rax, dword ptr [rdi + 4*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB1_5
+# %bb.6:
+	cqo
+	idiv	rcx
+	jmp	.LBB1_7
+.LBB1_9:
+	mov	r10d, r9d
+	and	r10d, -2
+	xor	r8d, r8d
+	jmp	.LBB1_10
+	.p2align	4, 0x90
+.LBB1_15:                               #   in Loop: Header=BB1_10 Depth=1
+	cqo
+	idiv	rcx
+.LBB1_16:                               #   in Loop: Header=BB1_10 Depth=1
+	mov	dword ptr [rsi + 4*r8 + 4], eax
+	add	r8, 2
+	cmp	r10, r8
+	je	.LBB1_3
+.LBB1_10:                               # =>This Inner Loop Header: Depth=1
+	movsxd	rax, dword ptr [rdi + 4*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB1_11
+# %bb.12:                               #   in Loop: Header=BB1_10 Depth=1
+	cqo
+	idiv	rcx
+	jmp	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_11:                               #   in Loop: Header=BB1_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB1_13:                               #   in Loop: Header=BB1_10 Depth=1
+	mov	dword ptr [rsi + 4*r8], eax
+	movsxd	rax, dword ptr [rdi + 4*r8 + 4]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	jne	.LBB1_15
+# %bb.14:                               #   in Loop: Header=BB1_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+	jmp	.LBB1_16
+.LBB1_5:
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB1_7:
+	mov	dword ptr [rsi + 4*r8], eax
+.LBB1_8:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.Lfunc_end1:
+	.size	divide_constant_int32_int32_avx2, .Lfunc_end1-divide_constant_int32_int32_avx2
+                                        # -- End function
+	.globl	multiply_constant_int32_int64_avx2 # -- Begin function multiply_constant_int32_int64_avx2
+	.p2align	4, 0x90
+	.type	multiply_constant_int32_int64_avx2,@function
+multiply_constant_int32_int64_avx2:     # @multiply_constant_int32_int64_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB2_7
+# %bb.1:
+	mov	r8d, edx
+	cmp	edx, 15
+	ja	.LBB2_3
+# %bb.2:
+	xor	edx, edx
+	jmp	.LBB2_6
+.LBB2_3:
+	mov	edx, r8d
+	and	edx, -16
+	vmovq	xmm0, rcx
+	vpbroadcastq	ymm0, xmm0
+	xor	eax, eax
+	vpsrlq	ymm1, ymm0, 32
+	.p2align	4, 0x90
+.LBB2_4:                                # =>This Inner Loop Header: Depth=1
+	vpmovsxdq	ymm2, xmmword ptr [rdi + 4*rax]
+	vpmovsxdq	ymm3, xmmword ptr [rdi + 4*rax + 16]
+	vpmovsxdq	ymm4, xmmword ptr [rdi + 4*rax + 32]
+	vpmovsxdq	ymm5, xmmword ptr [rdi + 4*rax + 48]
+	vpmuludq	ymm6, ymm1, ymm2
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm0, ymm7
+	vpaddq	ymm6, ymm7, ymm6
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm0, ymm2
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm1, ymm3
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm0, ymm7
+	vpaddq	ymm6, ymm7, ymm6
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm0, ymm3
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm1, ymm4
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm0, ymm7
+	vpaddq	ymm6, ymm7, ymm6
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm0, ymm4
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm1, ymm5
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm0, ymm7
+	vpaddq	ymm6, ymm7, ymm6
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm0, ymm5
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [rsi + 8*rax], ymm2
+	vmovdqu	ymmword ptr [rsi + 8*rax + 32], ymm3
+	vmovdqu	ymmword ptr [rsi + 8*rax + 64], ymm4
+	vmovdqu	ymmword ptr [rsi + 8*rax + 96], ymm5
+	add	rax, 16
+	cmp	rdx, rax
+	jne	.LBB2_4
+# %bb.5:
+	cmp	rdx, r8
+	je	.LBB2_7
+	.p2align	4, 0x90
+.LBB2_6:                                # =>This Inner Loop Header: Depth=1
+	movsxd	rax, dword ptr [rdi + 4*rdx]
+	imul	rax, rcx
+	mov	qword ptr [rsi + 8*rdx], rax
+	add	rdx, 1
+	cmp	r8, rdx
+	jne	.LBB2_6
+.LBB2_7:
+	mov	rsp, rbp
+	pop	rbp
+	vzeroupper
+	ret
+.Lfunc_end2:
+	.size	multiply_constant_int32_int64_avx2, .Lfunc_end2-multiply_constant_int32_int64_avx2
+                                        # -- End function
+	.globl	divide_constant_int32_int64_avx2 # -- Begin function divide_constant_int32_int64_avx2
+	.p2align	4, 0x90
+	.type	divide_constant_int32_int64_avx2,@function
+divide_constant_int32_int64_avx2:       # @divide_constant_int32_int64_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB3_8
+# %bb.1:
+	mov	r9d, edx
+	cmp	edx, 1
+	jne	.LBB3_9
+# %bb.2:
+	xor	r8d, r8d
+.LBB3_3:
+	test	r9b, 1
+	je	.LBB3_8
+# %bb.4:
+	movsxd	rax, dword ptr [rdi + 4*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB3_5
+# %bb.6:
+	cqo
+	idiv	rcx
+	jmp	.LBB3_7
+.LBB3_9:
+	mov	r10d, r9d
+	and	r10d, -2
+	xor	r8d, r8d
+	jmp	.LBB3_10
+	.p2align	4, 0x90
+.LBB3_15:                               #   in Loop: Header=BB3_10 Depth=1
+	cqo
+	idiv	rcx
+.LBB3_16:                               #   in Loop: Header=BB3_10 Depth=1
+	mov	qword ptr [rsi + 8*r8 + 8], rax
+	add	r8, 2
+	cmp	r10, r8
+	je	.LBB3_3
+.LBB3_10:                               # =>This Inner Loop Header: Depth=1
+	movsxd	rax, dword ptr [rdi + 4*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB3_11
+# %bb.12:                               #   in Loop: Header=BB3_10 Depth=1
+	cqo
+	idiv	rcx
+	jmp	.LBB3_13
+	.p2align	4, 0x90
+.LBB3_11:                               #   in Loop: Header=BB3_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB3_13:                               #   in Loop: Header=BB3_10 Depth=1
+	mov	qword ptr [rsi + 8*r8], rax
+	movsxd	rax, dword ptr [rdi + 4*r8 + 4]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	jne	.LBB3_15
+# %bb.14:                               #   in Loop: Header=BB3_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+	jmp	.LBB3_16
+.LBB3_5:
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB3_7:
+	mov	qword ptr [rsi + 8*r8], rax
+.LBB3_8:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.Lfunc_end3:
+	.size	divide_constant_int32_int64_avx2, .Lfunc_end3-divide_constant_int32_int64_avx2
+                                        # -- End function
+	.globl	multiply_constant_int64_int32_avx2 # -- Begin function multiply_constant_int64_int32_avx2
+	.p2align	4, 0x90
+	.type	multiply_constant_int64_int32_avx2,@function
+multiply_constant_int64_int32_avx2:     # @multiply_constant_int64_int32_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB4_7
+# %bb.1:
+	mov	r8d, edx
+	cmp	edx, 15
+	ja	.LBB4_3
+# %bb.2:
+	xor	edx, edx
+	jmp	.LBB4_6
+.LBB4_3:
+	mov	edx, r8d
+	and	edx, -16
+	vmovq	xmm0, rcx
+	vpbroadcastq	ymm0, xmm0
+	xor	eax, eax
+	vextracti128	xmm1, ymm0, 1
+	.p2align	4, 0x90
+.LBB4_4:                                # =>This Inner Loop Header: Depth=1
+	vmovups	xmm2, xmmword ptr [rdi + 8*rax]
+	vmovups	xmm3, xmmword ptr [rdi + 8*rax + 32]
+	vmovups	xmm4, xmmword ptr [rdi + 8*rax + 64]
+	vmovups	xmm5, xmmword ptr [rdi + 8*rax + 96]
+	vshufps	xmm2, xmm2, xmmword ptr [rdi + 8*rax + 16], 136 # xmm2 = xmm2[0,2],mem[0,2]
+	vshufps	xmm6, xmm0, xmm1, 136           # xmm6 = xmm0[0,2],xmm1[0,2]
+	vpmulld	xmm2, xmm2, xmm6
+	vshufps	xmm3, xmm3, xmmword ptr [rdi + 8*rax + 48], 136 # xmm3 = xmm3[0,2],mem[0,2]
+	vshufps	xmm6, xmm0, xmm1, 136           # xmm6 = xmm0[0,2],xmm1[0,2]
+	vpmulld	xmm3, xmm3, xmm6
+	vshufps	xmm4, xmm4, xmmword ptr [rdi + 8*rax + 80], 136 # xmm4 = xmm4[0,2],mem[0,2]
+	vshufps	xmm6, xmm0, xmm1, 136           # xmm6 = xmm0[0,2],xmm1[0,2]
+	vpmulld	xmm4, xmm4, xmm6
+	vshufps	xmm5, xmm5, xmmword ptr [rdi + 8*rax + 112], 136 # xmm5 = xmm5[0,2],mem[0,2]
+	vshufps	xmm6, xmm0, xmm1, 136           # xmm6 = xmm0[0,2],xmm1[0,2]
+	vpmulld	xmm5, xmm5, xmm6
+	vmovdqu	xmmword ptr [rsi + 4*rax], xmm2
+	vmovdqu	xmmword ptr [rsi + 4*rax + 16], xmm3
+	vmovdqu	xmmword ptr [rsi + 4*rax + 32], xmm4
+	vmovdqu	xmmword ptr [rsi + 4*rax + 48], xmm5
+	add	rax, 16
+	cmp	rdx, rax
+	jne	.LBB4_4
+# %bb.5:
+	cmp	rdx, r8
+	je	.LBB4_7
+	.p2align	4, 0x90
+.LBB4_6:                                # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdi + 8*rdx]
+	imul	eax, ecx
+	mov	dword ptr [rsi + 4*rdx], eax
+	add	rdx, 1
+	cmp	r8, rdx
+	jne	.LBB4_6
+.LBB4_7:
+	mov	rsp, rbp
+	pop	rbp
+	vzeroupper
+	ret
+.Lfunc_end4:
+	.size	multiply_constant_int64_int32_avx2, .Lfunc_end4-multiply_constant_int64_int32_avx2
+                                        # -- End function
+	.globl	divide_constant_int64_int32_avx2 # -- Begin function divide_constant_int64_int32_avx2
+	.p2align	4, 0x90
+	.type	divide_constant_int64_int32_avx2,@function
+divide_constant_int64_int32_avx2:       # @divide_constant_int64_int32_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB5_8
+# %bb.1:
+	mov	r9d, edx
+	cmp	edx, 1
+	jne	.LBB5_9
+# %bb.2:
+	xor	r8d, r8d
+.LBB5_3:
+	test	r9b, 1
+	je	.LBB5_8
+# %bb.4:
+	mov	rax, qword ptr [rdi + 8*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB5_5
+# %bb.6:
+	cqo
+	idiv	rcx
+	jmp	.LBB5_7
+.LBB5_9:
+	mov	r10d, r9d
+	and	r10d, -2
+	xor	r8d, r8d
+	jmp	.LBB5_10
+	.p2align	4, 0x90
+.LBB5_15:                               #   in Loop: Header=BB5_10 Depth=1
+	cqo
+	idiv	rcx
+.LBB5_16:                               #   in Loop: Header=BB5_10 Depth=1
+	mov	dword ptr [rsi + 4*r8 + 4], eax
+	add	r8, 2
+	cmp	r10, r8
+	je	.LBB5_3
+.LBB5_10:                               # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdi + 8*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB5_11
+# %bb.12:                               #   in Loop: Header=BB5_10 Depth=1
+	cqo
+	idiv	rcx
+	jmp	.LBB5_13
+	.p2align	4, 0x90
+.LBB5_11:                               #   in Loop: Header=BB5_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB5_13:                               #   in Loop: Header=BB5_10 Depth=1
+	mov	dword ptr [rsi + 4*r8], eax
+	mov	rax, qword ptr [rdi + 8*r8 + 8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	jne	.LBB5_15
+# %bb.14:                               #   in Loop: Header=BB5_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+	jmp	.LBB5_16
+.LBB5_5:
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB5_7:
+	mov	dword ptr [rsi + 4*r8], eax
+.LBB5_8:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.Lfunc_end5:
+	.size	divide_constant_int64_int32_avx2, .Lfunc_end5-divide_constant_int64_int32_avx2
+                                        # -- End function
+	.globl	multiply_constant_int64_int64_avx2 # -- Begin function multiply_constant_int64_int64_avx2
+	.p2align	4, 0x90
+	.type	multiply_constant_int64_int64_avx2,@function
+multiply_constant_int64_int64_avx2:     # @multiply_constant_int64_int64_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB6_16
+# %bb.1:
+	mov	r8d, edx
+	cmp	edx, 15
+	jbe	.LBB6_2
+# %bb.7:
+	lea	rax, [rdi + 8*r8]
+	cmp	rax, rsi
+	jbe	.LBB6_9
+# %bb.8:
+	lea	rax, [rsi + 8*r8]
+	cmp	rax, rdi
+	jbe	.LBB6_9
+.LBB6_2:
+	xor	r11d, r11d
+.LBB6_3:
+	mov	r9, r11
+	not	r9
+	add	r9, r8
+	mov	rax, r8
+	and	rax, 3
+	je	.LBB6_5
+	.p2align	4, 0x90
+.LBB6_4:                                # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rdi + 8*r11]
+	imul	rdx, rcx
+	mov	qword ptr [rsi + 8*r11], rdx
+	add	r11, 1
+	add	rax, -1
+	jne	.LBB6_4
+.LBB6_5:
+	cmp	r9, 3
+	jb	.LBB6_16
+	.p2align	4, 0x90
+.LBB6_6:                                # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdi + 8*r11]
+	imul	rax, rcx
+	mov	qword ptr [rsi + 8*r11], rax
+	mov	rax, qword ptr [rdi + 8*r11 + 8]
+	imul	rax, rcx
+	mov	qword ptr [rsi + 8*r11 + 8], rax
+	mov	rax, qword ptr [rdi + 8*r11 + 16]
+	imul	rax, rcx
+	mov	qword ptr [rsi + 8*r11 + 16], rax
+	mov	rax, qword ptr [rdi + 8*r11 + 24]
+	imul	rax, rcx
+	mov	qword ptr [rsi + 8*r11 + 24], rax
+	add	r11, 4
+	cmp	r8, r11
+	jne	.LBB6_6
+	jmp	.LBB6_16
+.LBB6_9:
+	mov	r11d, r8d
+	and	r11d, -16
+	vmovq	xmm0, rcx
+	vpbroadcastq	ymm0, xmm0
+	lea	rax, [r11 - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	vpsrlq	ymm1, ymm0, 32
+	test	rax, rax
+	je	.LBB6_10
+# %bb.11:
+	mov	r10, r9
+	and	r10, -2
+	neg	r10
+	xor	eax, eax
+	.p2align	4, 0x90
+.LBB6_12:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm2, ymmword ptr [rdi + 8*rax]
+	vmovdqu	ymm3, ymmword ptr [rdi + 8*rax + 32]
+	vmovdqu	ymm4, ymmword ptr [rdi + 8*rax + 64]
+	vmovdqu	ymm5, ymmword ptr [rdi + 8*rax + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [rsi + 8*rax], ymm2
+	vmovdqu	ymmword ptr [rsi + 8*rax + 32], ymm3
+	vmovdqu	ymmword ptr [rsi + 8*rax + 64], ymm4
+	vmovdqu	ymmword ptr [rsi + 8*rax + 96], ymm5
+	vmovdqu	ymm2, ymmword ptr [rdi + 8*rax + 128]
+	vmovdqu	ymm3, ymmword ptr [rdi + 8*rax + 160]
+	vmovdqu	ymm4, ymmword ptr [rdi + 8*rax + 192]
+	vmovdqu	ymm5, ymmword ptr [rdi + 8*rax + 224]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm6, ymm5, ymm1
+	vpsrlq	ymm7, ymm5, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm5, ymm5, ymm0
+	vpaddq	ymm5, ymm5, ymm6
+	vmovdqu	ymmword ptr [rsi + 8*rax + 128], ymm2
+	vmovdqu	ymmword ptr [rsi + 8*rax + 160], ymm3
+	vmovdqu	ymmword ptr [rsi + 8*rax + 192], ymm4
+	vmovdqu	ymmword ptr [rsi + 8*rax + 224], ymm5
+	add	rax, 32
+	add	r10, 2
+	jne	.LBB6_12
+# %bb.13:
+	test	r9b, 1
+	je	.LBB6_15
+.LBB6_14:
+	vmovdqu	ymm2, ymmword ptr [rdi + 8*rax]
+	vmovdqu	ymm3, ymmword ptr [rdi + 8*rax + 32]
+	vmovdqu	ymm4, ymmword ptr [rdi + 8*rax + 64]
+	vmovdqu	ymm5, ymmword ptr [rdi + 8*rax + 96]
+	vpmuludq	ymm6, ymm2, ymm1
+	vpsrlq	ymm7, ymm2, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm2, ymm2, ymm0
+	vpaddq	ymm2, ymm2, ymm6
+	vpmuludq	ymm6, ymm3, ymm1
+	vpsrlq	ymm7, ymm3, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm3, ymm3, ymm0
+	vpaddq	ymm3, ymm3, ymm6
+	vpmuludq	ymm6, ymm4, ymm1
+	vpsrlq	ymm7, ymm4, 32
+	vpmuludq	ymm7, ymm7, ymm0
+	vpaddq	ymm6, ymm6, ymm7
+	vpsllq	ymm6, ymm6, 32
+	vpmuludq	ymm4, ymm4, ymm0
+	vpaddq	ymm4, ymm4, ymm6
+	vpmuludq	ymm1, ymm5, ymm1
+	vpsrlq	ymm6, ymm5, 32
+	vpmuludq	ymm6, ymm6, ymm0
+	vpaddq	ymm1, ymm1, ymm6
+	vpsllq	ymm1, ymm1, 32
+	vpmuludq	ymm0, ymm5, ymm0
+	vpaddq	ymm0, ymm0, ymm1
+	vmovdqu	ymmword ptr [rsi + 8*rax], ymm2
+	vmovdqu	ymmword ptr [rsi + 8*rax + 32], ymm3
+	vmovdqu	ymmword ptr [rsi + 8*rax + 64], ymm4
+	vmovdqu	ymmword ptr [rsi + 8*rax + 96], ymm0
+.LBB6_15:
+	cmp	r11, r8
+	jne	.LBB6_3
+.LBB6_16:
+	mov	rsp, rbp
+	pop	rbp
+	vzeroupper
+	ret
+.LBB6_10:
+	xor	eax, eax
+	test	r9b, 1
+	jne	.LBB6_14
+	jmp	.LBB6_15
+.Lfunc_end6:
+	.size	multiply_constant_int64_int64_avx2, .Lfunc_end6-multiply_constant_int64_int64_avx2
+                                        # -- End function
+	.globl	divide_constant_int64_int64_avx2 # -- Begin function divide_constant_int64_int64_avx2
+	.p2align	4, 0x90
+	.type	divide_constant_int64_int64_avx2,@function
+divide_constant_int64_int64_avx2:       # @divide_constant_int64_int64_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB7_8
+# %bb.1:
+	mov	r9d, edx
+	cmp	edx, 1
+	jne	.LBB7_9
+# %bb.2:
+	xor	r8d, r8d
+.LBB7_3:
+	test	r9b, 1
+	je	.LBB7_8
+# %bb.4:
+	mov	rax, qword ptr [rdi + 8*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB7_5
+# %bb.6:
+	cqo
+	idiv	rcx
+	jmp	.LBB7_7
+.LBB7_9:
+	mov	r10d, r9d
+	and	r10d, -2
+	xor	r8d, r8d
+	jmp	.LBB7_10
+	.p2align	4, 0x90
+.LBB7_15:                               #   in Loop: Header=BB7_10 Depth=1
+	cqo
+	idiv	rcx
+.LBB7_16:                               #   in Loop: Header=BB7_10 Depth=1
+	mov	qword ptr [rsi + 8*r8 + 8], rax
+	add	r8, 2
+	cmp	r10, r8
+	je	.LBB7_3
+.LBB7_10:                               # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdi + 8*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB7_11
+# %bb.12:                               #   in Loop: Header=BB7_10 Depth=1
+	cqo
+	idiv	rcx
+	jmp	.LBB7_13
+	.p2align	4, 0x90
+.LBB7_11:                               #   in Loop: Header=BB7_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB7_13:                               #   in Loop: Header=BB7_10 Depth=1
+	mov	qword ptr [rsi + 8*r8], rax
+	mov	rax, qword ptr [rdi + 8*r8 + 8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	jne	.LBB7_15
+# %bb.14:                               #   in Loop: Header=BB7_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+	jmp	.LBB7_16
+.LBB7_5:
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB7_7:
+	mov	qword ptr [rsi + 8*r8], rax
+.LBB7_8:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.Lfunc_end7:
+	.size	divide_constant_int64_int64_avx2, .Lfunc_end7-divide_constant_int64_int64_avx2
+                                        # -- End function
+	.ident	"Ubuntu clang version 11.1.0-6"
+	.section	".note.GNU-stack","",@progbits
+	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/constant_factor_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/constant_factor_sse4_amd64.s
new file mode 100644
index 00000000000..9106840a735
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/constant_factor_sse4_amd64.s
@@ -0,0 +1,654 @@
+	.text
+	.intel_syntax noprefix
+	.file	"constant_factor.c"
+	.globl	multiply_constant_int32_int32_sse4 # -- Begin function multiply_constant_int32_int32_sse4
+	.p2align	4, 0x90
+	.type	multiply_constant_int32_int32_sse4,@function
+multiply_constant_int32_int32_sse4:     # @multiply_constant_int32_int32_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB0_16
+# %bb.1:
+	mov	r9d, edx
+	cmp	edx, 7
+	jbe	.LBB0_2
+# %bb.7:
+	lea	rax, [rdi + 4*r9]
+	cmp	rax, rsi
+	jbe	.LBB0_9
+# %bb.8:
+	lea	rax, [rsi + 4*r9]
+	cmp	rax, rdi
+	jbe	.LBB0_9
+.LBB0_2:
+	xor	r11d, r11d
+.LBB0_3:
+	mov	r8, r11
+	not	r8
+	add	r8, r9
+	mov	rax, r9
+	and	rax, 3
+	je	.LBB0_5
+	.p2align	4, 0x90
+.LBB0_4:                                # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rdi + 4*r11]
+	imul	edx, ecx
+	mov	dword ptr [rsi + 4*r11], edx
+	add	r11, 1
+	add	rax, -1
+	jne	.LBB0_4
+.LBB0_5:
+	cmp	r8, 3
+	jb	.LBB0_16
+	.p2align	4, 0x90
+.LBB0_6:                                # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdi + 4*r11]
+	imul	eax, ecx
+	mov	dword ptr [rsi + 4*r11], eax
+	mov	eax, dword ptr [rdi + 4*r11 + 4]
+	imul	eax, ecx
+	mov	dword ptr [rsi + 4*r11 + 4], eax
+	mov	eax, dword ptr [rdi + 4*r11 + 8]
+	imul	eax, ecx
+	mov	dword ptr [rsi + 4*r11 + 8], eax
+	mov	eax, dword ptr [rdi + 4*r11 + 12]
+	imul	eax, ecx
+	mov	dword ptr [rsi + 4*r11 + 12], eax
+	add	r11, 4
+	cmp	r9, r11
+	jne	.LBB0_6
+	jmp	.LBB0_16
+.LBB0_9:
+	mov	r11d, r9d
+	and	r11d, -8
+	movd	xmm0, ecx
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [r11 - 8]
+	mov	r8, rax
+	shr	r8, 3
+	add	r8, 1
+	test	rax, rax
+	je	.LBB0_10
+# %bb.11:
+	mov	r10, r8
+	and	r10, -2
+	neg	r10
+	xor	eax, eax
+	.p2align	4, 0x90
+.LBB0_12:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdi + 4*rax]
+	movdqu	xmm2, xmmword ptr [rdi + 4*rax + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [rsi + 4*rax], xmm1
+	movdqu	xmmword ptr [rsi + 4*rax + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdi + 4*rax + 32]
+	movdqu	xmm2, xmmword ptr [rdi + 4*rax + 48]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [rsi + 4*rax + 32], xmm1
+	movdqu	xmmword ptr [rsi + 4*rax + 48], xmm2
+	add	rax, 16
+	add	r10, 2
+	jne	.LBB0_12
+# %bb.13:
+	test	r8b, 1
+	je	.LBB0_15
+.LBB0_14:
+	movdqu	xmm1, xmmword ptr [rdi + 4*rax]
+	movdqu	xmm2, xmmword ptr [rdi + 4*rax + 16]
+	pmulld	xmm1, xmm0
+	pmulld	xmm2, xmm0
+	movdqu	xmmword ptr [rsi + 4*rax], xmm1
+	movdqu	xmmword ptr [rsi + 4*rax + 16], xmm2
+.LBB0_15:
+	cmp	r11, r9
+	jne	.LBB0_3
+.LBB0_16:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.LBB0_10:
+	xor	eax, eax
+	test	r8b, 1
+	jne	.LBB0_14
+	jmp	.LBB0_15
+.Lfunc_end0:
+	.size	multiply_constant_int32_int32_sse4, .Lfunc_end0-multiply_constant_int32_int32_sse4
+                                        # -- End function
+	.globl	divide_constant_int32_int32_sse4 # -- Begin function divide_constant_int32_int32_sse4
+	.p2align	4, 0x90
+	.type	divide_constant_int32_int32_sse4,@function
+divide_constant_int32_int32_sse4:       # @divide_constant_int32_int32_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB1_8
+# %bb.1:
+	mov	r9d, edx
+	cmp	edx, 1
+	jne	.LBB1_9
+# %bb.2:
+	xor	r8d, r8d
+.LBB1_3:
+	test	r9b, 1
+	je	.LBB1_8
+# %bb.4:
+	movsxd	rax, dword ptr [rdi + 4*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB1_5
+# %bb.6:
+	cqo
+	idiv	rcx
+	jmp	.LBB1_7
+.LBB1_9:
+	mov	r10d, r9d
+	and	r10d, -2
+	xor	r8d, r8d
+	jmp	.LBB1_10
+	.p2align	4, 0x90
+.LBB1_15:                               #   in Loop: Header=BB1_10 Depth=1
+	cqo
+	idiv	rcx
+.LBB1_16:                               #   in Loop: Header=BB1_10 Depth=1
+	mov	dword ptr [rsi + 4*r8 + 4], eax
+	add	r8, 2
+	cmp	r10, r8
+	je	.LBB1_3
+.LBB1_10:                               # =>This Inner Loop Header: Depth=1
+	movsxd	rax, dword ptr [rdi + 4*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB1_11
+# %bb.12:                               #   in Loop: Header=BB1_10 Depth=1
+	cqo
+	idiv	rcx
+	jmp	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_11:                               #   in Loop: Header=BB1_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB1_13:                               #   in Loop: Header=BB1_10 Depth=1
+	mov	dword ptr [rsi + 4*r8], eax
+	movsxd	rax, dword ptr [rdi + 4*r8 + 4]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	jne	.LBB1_15
+# %bb.14:                               #   in Loop: Header=BB1_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+	jmp	.LBB1_16
+.LBB1_5:
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB1_7:
+	mov	dword ptr [rsi + 4*r8], eax
+.LBB1_8:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.Lfunc_end1:
+	.size	divide_constant_int32_int32_sse4, .Lfunc_end1-divide_constant_int32_int32_sse4
+                                        # -- End function
+	.globl	multiply_constant_int32_int64_sse4 # -- Begin function multiply_constant_int32_int64_sse4
+	.p2align	4, 0x90
+	.type	multiply_constant_int32_int64_sse4,@function
+multiply_constant_int32_int64_sse4:     # @multiply_constant_int32_int64_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB2_6
+# %bb.1:
+	mov	r9d, edx
+	lea	rax, [r9 - 1]
+	mov	r8d, r9d
+	and	r8d, 3
+	cmp	rax, 3
+	jae	.LBB2_7
+# %bb.2:
+	xor	eax, eax
+	jmp	.LBB2_3
+.LBB2_7:
+	and	r9d, -4
+	xor	eax, eax
+	.p2align	4, 0x90
+.LBB2_8:                                # =>This Inner Loop Header: Depth=1
+	movsxd	rdx, dword ptr [rdi + 4*rax]
+	imul	rdx, rcx
+	mov	qword ptr [rsi + 8*rax], rdx
+	movsxd	rdx, dword ptr [rdi + 4*rax + 4]
+	imul	rdx, rcx
+	mov	qword ptr [rsi + 8*rax + 8], rdx
+	movsxd	rdx, dword ptr [rdi + 4*rax + 8]
+	imul	rdx, rcx
+	mov	qword ptr [rsi + 8*rax + 16], rdx
+	movsxd	rdx, dword ptr [rdi + 4*rax + 12]
+	imul	rdx, rcx
+	mov	qword ptr [rsi + 8*rax + 24], rdx
+	add	rax, 4
+	cmp	r9, rax
+	jne	.LBB2_8
+.LBB2_3:
+	test	r8, r8
+	je	.LBB2_6
+# %bb.4:
+	lea	rdx, [rsi + 8*rax]
+	lea	rax, [rdi + 4*rax]
+	xor	esi, esi
+	.p2align	4, 0x90
+.LBB2_5:                                # =>This Inner Loop Header: Depth=1
+	movsxd	rdi, dword ptr [rax + 4*rsi]
+	imul	rdi, rcx
+	mov	qword ptr [rdx + 8*rsi], rdi
+	add	rsi, 1
+	cmp	r8, rsi
+	jne	.LBB2_5
+.LBB2_6:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.Lfunc_end2:
+	.size	multiply_constant_int32_int64_sse4, .Lfunc_end2-multiply_constant_int32_int64_sse4
+                                        # -- End function
+	.globl	divide_constant_int32_int64_sse4 # -- Begin function divide_constant_int32_int64_sse4
+	.p2align	4, 0x90
+	.type	divide_constant_int32_int64_sse4,@function
+divide_constant_int32_int64_sse4:       # @divide_constant_int32_int64_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB3_8
+# %bb.1:
+	mov	r9d, edx
+	cmp	edx, 1
+	jne	.LBB3_9
+# %bb.2:
+	xor	r8d, r8d
+.LBB3_3:
+	test	r9b, 1
+	je	.LBB3_8
+# %bb.4:
+	movsxd	rax, dword ptr [rdi + 4*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB3_5
+# %bb.6:
+	cqo
+	idiv	rcx
+	jmp	.LBB3_7
+.LBB3_9:
+	mov	r10d, r9d
+	and	r10d, -2
+	xor	r8d, r8d
+	jmp	.LBB3_10
+	.p2align	4, 0x90
+.LBB3_15:                               #   in Loop: Header=BB3_10 Depth=1
+	cqo
+	idiv	rcx
+.LBB3_16:                               #   in Loop: Header=BB3_10 Depth=1
+	mov	qword ptr [rsi + 8*r8 + 8], rax
+	add	r8, 2
+	cmp	r10, r8
+	je	.LBB3_3
+.LBB3_10:                               # =>This Inner Loop Header: Depth=1
+	movsxd	rax, dword ptr [rdi + 4*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB3_11
+# %bb.12:                               #   in Loop: Header=BB3_10 Depth=1
+	cqo
+	idiv	rcx
+	jmp	.LBB3_13
+	.p2align	4, 0x90
+.LBB3_11:                               #   in Loop: Header=BB3_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB3_13:                               #   in Loop: Header=BB3_10 Depth=1
+	mov	qword ptr [rsi + 8*r8], rax
+	movsxd	rax, dword ptr [rdi + 4*r8 + 4]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	jne	.LBB3_15
+# %bb.14:                               #   in Loop: Header=BB3_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+	jmp	.LBB3_16
+.LBB3_5:
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB3_7:
+	mov	qword ptr [rsi + 8*r8], rax
+.LBB3_8:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.Lfunc_end3:
+	.size	divide_constant_int32_int64_sse4, .Lfunc_end3-divide_constant_int32_int64_sse4
+                                        # -- End function
+	.globl	multiply_constant_int64_int32_sse4 # -- Begin function multiply_constant_int64_int32_sse4
+	.p2align	4, 0x90
+	.type	multiply_constant_int64_int32_sse4,@function
+multiply_constant_int64_int32_sse4:     # @multiply_constant_int64_int32_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB4_6
+# %bb.1:
+	mov	r9d, edx
+	lea	rax, [r9 - 1]
+	mov	r8d, r9d
+	and	r8d, 3
+	cmp	rax, 3
+	jae	.LBB4_7
+# %bb.2:
+	xor	eax, eax
+	jmp	.LBB4_3
+.LBB4_7:
+	and	r9d, -4
+	xor	eax, eax
+	.p2align	4, 0x90
+.LBB4_8:                                # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rdi + 8*rax]
+	imul	edx, ecx
+	mov	dword ptr [rsi + 4*rax], edx
+	mov	edx, dword ptr [rdi + 8*rax + 8]
+	imul	edx, ecx
+	mov	dword ptr [rsi + 4*rax + 4], edx
+	mov	edx, dword ptr [rdi + 8*rax + 16]
+	imul	edx, ecx
+	mov	dword ptr [rsi + 4*rax + 8], edx
+	mov	edx, dword ptr [rdi + 8*rax + 24]
+	imul	edx, ecx
+	mov	dword ptr [rsi + 4*rax + 12], edx
+	add	rax, 4
+	cmp	r9, rax
+	jne	.LBB4_8
+.LBB4_3:
+	test	r8, r8
+	je	.LBB4_6
+# %bb.4:
+	lea	rdx, [rsi + 4*rax]
+	lea	rax, [rdi + 8*rax]
+	xor	esi, esi
+	.p2align	4, 0x90
+.LBB4_5:                                # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rax + 8*rsi]
+	imul	edi, ecx
+	mov	dword ptr [rdx + 4*rsi], edi
+	add	rsi, 1
+	cmp	r8, rsi
+	jne	.LBB4_5
+.LBB4_6:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.Lfunc_end4:
+	.size	multiply_constant_int64_int32_sse4, .Lfunc_end4-multiply_constant_int64_int32_sse4
+                                        # -- End function
+	.globl	divide_constant_int64_int32_sse4 # -- Begin function divide_constant_int64_int32_sse4
+	.p2align	4, 0x90
+	.type	divide_constant_int64_int32_sse4,@function
+divide_constant_int64_int32_sse4:       # @divide_constant_int64_int32_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB5_8
+# %bb.1:
+	mov	r9d, edx
+	cmp	edx, 1
+	jne	.LBB5_9
+# %bb.2:
+	xor	r8d, r8d
+.LBB5_3:
+	test	r9b, 1
+	je	.LBB5_8
+# %bb.4:
+	mov	rax, qword ptr [rdi + 8*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB5_5
+# %bb.6:
+	cqo
+	idiv	rcx
+	jmp	.LBB5_7
+.LBB5_9:
+	mov	r10d, r9d
+	and	r10d, -2
+	xor	r8d, r8d
+	jmp	.LBB5_10
+	.p2align	4, 0x90
+.LBB5_15:                               #   in Loop: Header=BB5_10 Depth=1
+	cqo
+	idiv	rcx
+.LBB5_16:                               #   in Loop: Header=BB5_10 Depth=1
+	mov	dword ptr [rsi + 4*r8 + 4], eax
+	add	r8, 2
+	cmp	r10, r8
+	je	.LBB5_3
+.LBB5_10:                               # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdi + 8*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB5_11
+# %bb.12:                               #   in Loop: Header=BB5_10 Depth=1
+	cqo
+	idiv	rcx
+	jmp	.LBB5_13
+	.p2align	4, 0x90
+.LBB5_11:                               #   in Loop: Header=BB5_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB5_13:                               #   in Loop: Header=BB5_10 Depth=1
+	mov	dword ptr [rsi + 4*r8], eax
+	mov	rax, qword ptr [rdi + 8*r8 + 8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	jne	.LBB5_15
+# %bb.14:                               #   in Loop: Header=BB5_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+	jmp	.LBB5_16
+.LBB5_5:
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB5_7:
+	mov	dword ptr [rsi + 4*r8], eax
+.LBB5_8:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.Lfunc_end5:
+	.size	divide_constant_int64_int32_sse4, .Lfunc_end5-divide_constant_int64_int32_sse4
+                                        # -- End function
+	.globl	multiply_constant_int64_int64_sse4 # -- Begin function multiply_constant_int64_int64_sse4
+	.p2align	4, 0x90
+	.type	multiply_constant_int64_int64_sse4,@function
+multiply_constant_int64_int64_sse4:     # @multiply_constant_int64_int64_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB6_6
+# %bb.1:
+	mov	r9d, edx
+	lea	rax, [r9 - 1]
+	mov	r8d, r9d
+	and	r8d, 3
+	cmp	rax, 3
+	jae	.LBB6_7
+# %bb.2:
+	xor	eax, eax
+	jmp	.LBB6_3
+.LBB6_7:
+	and	r9d, -4
+	xor	eax, eax
+	.p2align	4, 0x90
+.LBB6_8:                                # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rdi + 8*rax]
+	imul	rdx, rcx
+	mov	qword ptr [rsi + 8*rax], rdx
+	mov	rdx, qword ptr [rdi + 8*rax + 8]
+	imul	rdx, rcx
+	mov	qword ptr [rsi + 8*rax + 8], rdx
+	mov	rdx, qword ptr [rdi + 8*rax + 16]
+	imul	rdx, rcx
+	mov	qword ptr [rsi + 8*rax + 16], rdx
+	mov	rdx, qword ptr [rdi + 8*rax + 24]
+	imul	rdx, rcx
+	mov	qword ptr [rsi + 8*rax + 24], rdx
+	add	rax, 4
+	cmp	r9, rax
+	jne	.LBB6_8
+.LBB6_3:
+	test	r8, r8
+	je	.LBB6_6
+# %bb.4:
+	lea	rdx, [rsi + 8*rax]
+	lea	rax, [rdi + 8*rax]
+	xor	esi, esi
+	.p2align	4, 0x90
+.LBB6_5:                                # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rax + 8*rsi]
+	imul	rdi, rcx
+	mov	qword ptr [rdx + 8*rsi], rdi
+	add	rsi, 1
+	cmp	r8, rsi
+	jne	.LBB6_5
+.LBB6_6:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.Lfunc_end6:
+	.size	multiply_constant_int64_int64_sse4, .Lfunc_end6-multiply_constant_int64_int64_sse4
+                                        # -- End function
+	.globl	divide_constant_int64_int64_sse4 # -- Begin function divide_constant_int64_int64_sse4
+	.p2align	4, 0x90
+	.type	divide_constant_int64_int64_sse4,@function
+divide_constant_int64_int64_sse4:       # @divide_constant_int64_int64_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	test	edx, edx
+	jle	.LBB7_8
+# %bb.1:
+	mov	r9d, edx
+	cmp	edx, 1
+	jne	.LBB7_9
+# %bb.2:
+	xor	r8d, r8d
+.LBB7_3:
+	test	r9b, 1
+	je	.LBB7_8
+# %bb.4:
+	mov	rax, qword ptr [rdi + 8*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB7_5
+# %bb.6:
+	cqo
+	idiv	rcx
+	jmp	.LBB7_7
+.LBB7_9:
+	mov	r10d, r9d
+	and	r10d, -2
+	xor	r8d, r8d
+	jmp	.LBB7_10
+	.p2align	4, 0x90
+.LBB7_15:                               #   in Loop: Header=BB7_10 Depth=1
+	cqo
+	idiv	rcx
+.LBB7_16:                               #   in Loop: Header=BB7_10 Depth=1
+	mov	qword ptr [rsi + 8*r8 + 8], rax
+	add	r8, 2
+	cmp	r10, r8
+	je	.LBB7_3
+.LBB7_10:                               # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdi + 8*r8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	je	.LBB7_11
+# %bb.12:                               #   in Loop: Header=BB7_10 Depth=1
+	cqo
+	idiv	rcx
+	jmp	.LBB7_13
+	.p2align	4, 0x90
+.LBB7_11:                               #   in Loop: Header=BB7_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB7_13:                               #   in Loop: Header=BB7_10 Depth=1
+	mov	qword ptr [rsi + 8*r8], rax
+	mov	rax, qword ptr [rdi + 8*r8 + 8]
+	mov	rdx, rax
+	or	rdx, rcx
+	shr	rdx, 32
+	jne	.LBB7_15
+# %bb.14:                               #   in Loop: Header=BB7_10 Depth=1
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+	jmp	.LBB7_16
+.LBB7_5:
+                                        # kill: def $eax killed $eax killed $rax
+	xor	edx, edx
+	div	ecx
+                                        # kill: def $eax killed $eax def $rax
+.LBB7_7:
+	mov	qword ptr [rsi + 8*r8], rax
+.LBB7_8:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.Lfunc_end7:
+	.size	divide_constant_int64_int64_sse4, .Lfunc_end7-divide_constant_int64_int64_sse4
+                                        # -- End function
+	.ident	"Ubuntu clang version 11.1.0-6"
+	.section	".note.GNU-stack","",@progbits
+	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/scalar_comparison.cc b/go/arrow/compute/internal/kernels/_lib/scalar_comparison.cc
new file mode 100644
index 00000000000..09540f36797
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/scalar_comparison.cc
@@ -0,0 +1,241 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+#include <arch.h>
+#include <stdint.h>
+#include "types.h"
+
+// pack integers into a bitmap in batches of 8
+template <int batch_size>
+inline void pack_bits(const uint32_t* values, uint8_t* out) {
+    for (int i = 0; i < batch_size / 8; ++i) {
+        *out++ = (values[0] | values[1]<<1 | values[2]<<2 | values[3]<<3 |
+                values[4]<<4 | values[5]<<5 | values[6]<<6 | values[7]<<7);
+        values += 8;
+    }
+}
+
+struct Equal {
+    template <typename T>
+    static constexpr bool Call(const T& left, const T& right) {
+        return left == right;
+    }
+};
+
+struct NotEqual {
+    template <typename T>
+    static constexpr bool Call(const T& left, const T& right) {
+        return left != right;
+    }
+};
+
+struct Greater {
+    template <typename T>
+    static constexpr bool Call(const T& left, const T& right) {
+        return left > right;
+    }
+};
+
+struct GreaterEqual {
+    template <typename T>
+    static constexpr bool Call(const T& left, const T& right) {
+        return left >= right;
+    }
+};
+
+static inline void set_bit_to(uint8_t* bits, int64_t i, bool bit_is_set) {
+    bits[i/8] ^= static_cast<uint8_t>(-static_cast<uint8_t>(bit_is_set) ^ bits[i / 8]) & static_cast<uint8_t>(1 << (i % 8));
+}
+
+template <typename T, typename Op>
+struct compare_primitive_arr_arr {
+    static inline void Exec(const void* left_void, const void* right_void, int64_t length, void* out_void, const int offset) {
+        const T* left = reinterpret_cast<const T*>(left_void);
+        const T* right = reinterpret_cast<const T*>(right_void);
+        uint8_t* out_bitmap = reinterpret_cast<uint8_t*>(out_void);
+        static constexpr int kBatchSize = 32;
+        int64_t num_batches = length / kBatchSize;
+        uint32_t temp_output[kBatchSize];
+
+        if (int prefix = offset % 8) {
+            for (int i = prefix; i < 8; ++i) {
+                set_bit_to(out_bitmap, i, Op::template Call<T>(*left++, *right++));
+            }
+            out_bitmap++;
+        }
+
+        for (int64_t j = 0; j < num_batches; ++j) {
+            for (int i = 0; i < kBatchSize; ++i) {
+                temp_output[i] = Op::template Call<T>(*left++, *right++);
+            }
+            pack_bits<kBatchSize>(temp_output, out_bitmap);
+            out_bitmap += kBatchSize / 8;
+        }
+        int64_t bit_index = 0;
+        for (int64_t j = kBatchSize * num_batches; j < length; ++j) {
+            set_bit_to(out_bitmap, bit_index++, Op::template Call<T>(*left++, *right++));
+        }
+    }
+};
+
+template <typename T, typename Op>
+struct compare_primitive_arr_scalar {
+    static inline void Exec(const void* left_void, const void* right_void, int64_t length, void* out_void, const int offset) {
+        const T* left = reinterpret_cast<const T*>(left_void);
+        const T right = *reinterpret_cast<const T*>(right_void);
+        uint8_t* out_bitmap = reinterpret_cast<uint8_t*>(out_void);
+        static constexpr int kBatchSize = 32;
+        int64_t num_batches = length / kBatchSize;
+        uint32_t temp_output[kBatchSize];
+
+        if (int prefix = offset % 8) {
+            for (int i = prefix; i < 8; ++i) {
+                set_bit_to(out_bitmap, i, Op::template Call<T>(*left++, right));
+            }
+            out_bitmap++;
+        }
+
+        for (int64_t j = 0; j < num_batches; ++j) {
+            for (int i = 0; i < kBatchSize; ++i) {
+                temp_output[i] = Op::template Call<T>(*left++, right);
+            }
+            pack_bits<kBatchSize>(temp_output, out_bitmap);
+            out_bitmap += kBatchSize / 8;
+        }
+        int64_t bit_index = 0;
+        for (int64_t j = kBatchSize * num_batches; j < length; ++j) {
+            set_bit_to(out_bitmap, bit_index++, Op::template Call<T>(*left++, right));
+        }
+    }
+};
+
+template <typename T, typename Op>
+struct compare_primitive_scalar_arr {
+    static inline void Exec(const void* left_void, const void* right_void, int64_t length, void* out_void, const int offset) {
+        const T left = *reinterpret_cast<const T*>(left_void);
+        const T* right = reinterpret_cast<const T*>(right_void);
+        uint8_t* out_bitmap = reinterpret_cast<uint8_t*>(out_void);
+        static constexpr int kBatchSize = 32;
+        int64_t num_batches = length / kBatchSize;
+        uint32_t temp_output[kBatchSize];
+
+        if (int prefix = offset % 8) {
+            for (int i = prefix; i < 8; ++i) {
+                set_bit_to(out_bitmap, i, Op::template Call<T>(left, *right++));
+            }
+            out_bitmap++;
+        }
+
+        for (int64_t j = 0; j < num_batches; ++j) {
+            for (int i = 0; i < kBatchSize; ++i) {
+                temp_output[i] = Op::template Call<T>(left, *right++);
+            }
+            pack_bits<kBatchSize>(temp_output, out_bitmap);
+            out_bitmap += kBatchSize / 8;
+        }
+        int64_t bit_index = 0;
+        for (int64_t j = kBatchSize * num_batches; j < length; ++j) {
+            set_bit_to(out_bitmap, bit_index++, Op::template Call<T>(left, *right++));
+        }
+    }
+};
+
+enum class cmpop : int8_t {
+    EQUAL,
+    NOT_EQUAL,
+    GREATER,
+    GREATER_EQUAL,
+    // LESS and LESS_EQUAL are handled by doing flipped
+    // versions of GREATER and GREATER_EQUAL
+};
+
+template <typename Op, template <typename...> typename Impl>
+static inline void comparison_exec(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
+    const auto ty = static_cast<arrtype>(type);
+
+    switch (ty) {
+    case arrtype::UINT8:
+        return Impl<uint8_t, Op>::Exec(left, right, length, out, offset);
+    case arrtype::INT8:
+        return Impl<int8_t, Op>::Exec(left, right, length, out, offset);
+    case arrtype::UINT16:
+        return Impl<uint16_t, Op>::Exec(left, right, length, out, offset);
+    case arrtype::INT16:
+        return Impl<int16_t, Op>::Exec(left, right, length, out, offset);
+    case arrtype::UINT32:
+        return Impl<uint32_t, Op>::Exec(left, right, length, out, offset);
+    case arrtype::INT32:
+        return Impl<int32_t, Op>::Exec(left, right, length, out, offset);
+    case arrtype::UINT64:
+        return Impl<uint64_t, Op>::Exec(left, right, length, out, offset);
+    case arrtype::INT64:
+        return Impl<int64_t, Op>::Exec(left, right, length, out, offset);
+    case arrtype::FLOAT32:
+        return Impl<float, Op>::Exec(left, right, length, out, offset);
+    case arrtype::FLOAT64:
+        return Impl<double, Op>::Exec(left, right, length, out, offset);
+    default:
+        break;
+    }
+}
+
+extern "C" void FULL_NAME(comparison_equal_arr_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
+    comparison_exec<Equal, compare_primitive_arr_arr>(type, left, right, out, length, offset);
+}
+
+extern "C" void FULL_NAME(comparison_equal_arr_scalar)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
+    comparison_exec<Equal, compare_primitive_arr_scalar>(type, left, right, out, length, offset);
+}
+
+extern "C" void FULL_NAME(comparison_equal_scalar_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
+    comparison_exec<Equal, compare_primitive_scalar_arr>(type, left, right, out, length, offset);
+}
+
+extern "C" void FULL_NAME(comparison_not_equal_arr_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
+    comparison_exec<NotEqual, compare_primitive_arr_arr>(type, left, right, out, length, offset);
+}
+
+extern "C" void FULL_NAME(comparison_not_equal_arr_scalar)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
+    comparison_exec<NotEqual, compare_primitive_arr_scalar>(type, left, right, out, length, offset);
+}
+
+extern "C" void FULL_NAME(comparison_not_equal_scalar_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
+    comparison_exec<NotEqual, compare_primitive_scalar_arr>(type, left, right, out, length, offset);
+}
+
+extern "C" void FULL_NAME(comparison_greater_arr_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
+    comparison_exec<Greater, compare_primitive_arr_arr>(type, left, right, out, length, offset);
+}
+
+extern "C" void FULL_NAME(comparison_greater_arr_scalar)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
+    comparison_exec<Greater, compare_primitive_arr_scalar>(type, left, right, out, length, offset);
+}
+
+extern "C" void FULL_NAME(comparison_greater_scalar_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
+    comparison_exec<Greater, compare_primitive_scalar_arr>(type, left, right, out, length, offset);
+}
+
+extern "C" void FULL_NAME(comparison_greater_equal_arr_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
+    comparison_exec<GreaterEqual, compare_primitive_arr_arr>(type, left, right, out, length, offset);
+}
+
+extern "C" void FULL_NAME(comparison_greater_equal_arr_scalar)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
+    comparison_exec<GreaterEqual, compare_primitive_arr_scalar>(type, left, right, out, length, offset);
+}
+
+extern "C" void FULL_NAME(comparison_greater_equal_scalar_arr)(const int type, const void* left, const void* right, void* out, const int64_t length, const int offset) {
+    comparison_exec<GreaterEqual, compare_primitive_scalar_arr>(type, left, right, out, length, offset);
+}
diff --git a/go/arrow/compute/internal/kernels/_lib/scalar_comparison_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/scalar_comparison_avx2_amd64.s
new file mode 100644
index 00000000000..b29d6694a16
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/scalar_comparison_avx2_amd64.s
@@ -0,0 +1,67763 @@
+	.text
+	.intel_syntax noprefix
+	.file	"scalar_comparison.cc"
+	.globl	comparison_equal_arr_arr_avx2   # -- Begin function comparison_equal_arr_arr_avx2
+	.p2align	4, 0x90
+	.type	comparison_equal_arr_arr_avx2,@function
+comparison_equal_arr_arr_avx2:          # @comparison_equal_arr_arr_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -8
+	sub	rsp, 72
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r11, r8
+	mov	r14, rcx
+	cmp	edi, 6
+	jg	.LBB0_29
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB0_2
+# %bb.15:
+	cmp	edi, 4
+	je	.LBB0_68
+# %bb.16:
+	cmp	edi, 5
+	je	.LBB0_79
+# %bb.17:
+	cmp	edi, 6
+	jne	.LBB0_123
+# %bb.18:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_22
+# %bb.19:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_20:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_20
+# %bb.21:
+	add	r14, 1
+.LBB0_22:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_26
+# %bb.23:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_24:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	sete	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	sete	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	sete	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	sete	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	sete	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	sete	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	sete	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	sete	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	sete	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	sete	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB0_24
+# %bb.25:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB0_26:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.27:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_28:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rsi + 4*rcx]
+	cmp	edi, dword ptr [rdx + 4*rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_28
+	jmp	.LBB0_123
+.LBB0_29:
+	cmp	edi, 8
+	jle	.LBB0_30
+# %bb.43:
+	cmp	edi, 9
+	je	.LBB0_101
+# %bb.44:
+	cmp	edi, 11
+	je	.LBB0_112
+# %bb.45:
+	cmp	edi, 12
+	jne	.LBB0_123
+# %bb.46:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_50
+# %bb.47:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_48:                               # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	add	rsi, 8
+	vucomisd	xmm0, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_48
+# %bb.49:
+	add	r14, 1
+.LBB0_50:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_54
+# %bb.51:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_52:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	vmovsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	vucomisd	xmm1, qword ptr [rdx + 8]
+	sete	al
+	vmovsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 16]
+	vmovsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 24]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 32]
+	vmovsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 40]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 48]
+	vmovsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
+	sete	r13b
+	vucomisd	xmm0, qword ptr [rdx + 56]
+	sete	r15b
+	vmovsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 64]
+	vmovsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 72]
+	sete	cl
+	vmovsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 80]
+	vmovsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
+	sete	r9b
+	vucomisd	xmm0, qword ptr [rdx + 88]
+	sete	r11b
+	vmovsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 96]
+	vmovsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
+	sete	r10b
+	vucomisd	xmm0, qword ptr [rdx + 104]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 112]
+	vmovsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 120]
+	sete	bl
+	vmovsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 128]
+	vmovsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 136]
+	vmovsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
+	sete	r14b
+	vucomisd	xmm0, qword ptr [rdx + 144]
+	vmovsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
+	sete	r12b
+	vucomisd	xmm0, qword ptr [rdx + 152]
+	vmovsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 160]
+	vmovsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 168]
+	vmovsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 176]
+	vmovsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 184]
+	vmovsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
+	sete	r8b
+	vucomisd	xmm0, qword ptr [rdx + 192]
+	vmovsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 200]
+	vmovsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 208]
+	vmovsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 216]
+	vmovsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 224]
+	vmovsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 232]
+	vmovsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 240]
+	vmovsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	add	rsi, 256
+	vucomisd	xmm0, qword ptr [rdx + 248]
+	sete	dil
+	add	al, al
+	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r12b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB0_52
+# %bb.53:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB0_54:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.55:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_56:                               # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 8*rcx]
+	lea	r8, [rcx + 1]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_56
+	jmp	.LBB0_123
+.LBB0_2:
+	cmp	edi, 2
+	je	.LBB0_57
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB0_123
+# %bb.4:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_8
+# %bb.5:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_6:                                # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_6
+# %bb.7:
+	add	r14, 1
+.LBB0_8:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_12
+# %bb.9:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_10:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	sete	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	sete	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	sete	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	sete	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	sete	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	sete	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	sete	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	sete	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	sete	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	sete	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	sete	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB0_10
+# %bb.11:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB0_12:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.13:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_14:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rsi + rcx]
+	cmp	bl, byte ptr [rdx + rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_14
+	jmp	.LBB0_123
+.LBB0_30:
+	cmp	edi, 7
+	je	.LBB0_90
+# %bb.31:
+	cmp	edi, 8
+	jne	.LBB0_123
+# %bb.32:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_36
+# %bb.33:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_34:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_34
+# %bb.35:
+	add	r14, 1
+.LBB0_36:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_40
+# %bb.37:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_38:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	sete	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	sete	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	sete	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	sete	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	sete	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	sete	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	sete	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	sete	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	sete	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	sete	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB0_38
+# %bb.39:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB0_40:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.41:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_42:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rsi + 8*rcx]
+	cmp	rdi, qword ptr [rdx + 8*rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_42
+	jmp	.LBB0_123
+.LBB0_68:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_72
+# %bb.69:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_70:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_70
+# %bb.71:
+	add	r14, 1
+.LBB0_72:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_76
+# %bb.73:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_74:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	sete	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	sete	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	sete	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	sete	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	sete	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	sete	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	sete	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	sete	r12b
+	cmp	ax, word ptr [rdx + 40]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	sete	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	sete	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB0_74
+# %bb.75:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB0_76:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.77:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_78:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rsi + 2*rcx]
+	cmp	di, word ptr [rdx + 2*rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_78
+	jmp	.LBB0_123
+.LBB0_79:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_83
+# %bb.80:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_81:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_81
+# %bb.82:
+	add	r14, 1
+.LBB0_83:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_87
+# %bb.84:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_85:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	sete	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	sete	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	sete	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	sete	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	sete	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	sete	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	sete	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	sete	r12b
+	cmp	ax, word ptr [rdx + 40]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	sete	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	sete	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB0_85
+# %bb.86:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB0_87:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.88:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_89:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rsi + 2*rcx]
+	cmp	di, word ptr [rdx + 2*rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_89
+	jmp	.LBB0_123
+.LBB0_101:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_105
+# %bb.102:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_103:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_103
+# %bb.104:
+	add	r14, 1
+.LBB0_105:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_109
+# %bb.106:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_107:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	sete	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	sete	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	sete	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	sete	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	sete	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	sete	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	sete	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	sete	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	sete	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	sete	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB0_107
+# %bb.108:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB0_109:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.110:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_111:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rsi + 8*rcx]
+	cmp	rdi, qword ptr [rdx + 8*rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_111
+	jmp	.LBB0_123
+.LBB0_112:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_116
+# %bb.113:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_114:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	add	rsi, 4
+	vucomiss	xmm0, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_114
+# %bb.115:
+	add	r14, 1
+.LBB0_116:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_120
+# %bb.117:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_118:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	vmovss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	vucomiss	xmm1, dword ptr [rdx + 4]
+	sete	al
+	vmovss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 8]
+	vmovss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 12]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 16]
+	vmovss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 20]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 24]
+	vmovss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
+	sete	r13b
+	vucomiss	xmm0, dword ptr [rdx + 28]
+	sete	r15b
+	vmovss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 32]
+	vmovss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 36]
+	sete	cl
+	vmovss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 40]
+	vmovss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
+	sete	r9b
+	vucomiss	xmm0, dword ptr [rdx + 44]
+	sete	r11b
+	vmovss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 48]
+	vmovss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
+	sete	r10b
+	vucomiss	xmm0, dword ptr [rdx + 52]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 56]
+	vmovss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 60]
+	sete	bl
+	vmovss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 64]
+	vmovss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 68]
+	vmovss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
+	sete	r14b
+	vucomiss	xmm0, dword ptr [rdx + 72]
+	vmovss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
+	sete	r12b
+	vucomiss	xmm0, dword ptr [rdx + 76]
+	vmovss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 80]
+	vmovss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 84]
+	vmovss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 88]
+	vmovss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 92]
+	vmovss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
+	sete	r8b
+	vucomiss	xmm0, dword ptr [rdx + 96]
+	vmovss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 100]
+	vmovss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 104]
+	vmovss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 108]
+	vmovss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 112]
+	vmovss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 116]
+	vmovss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 120]
+	vmovss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	sub	rsi, -128
+	vucomiss	xmm0, dword ptr [rdx + 124]
+	sete	dil
+	add	al, al
+	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r12b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB0_118
+# %bb.119:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB0_120:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.121:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_122:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 4*rcx]
+	lea	r8, [rcx + 1]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_122
+	jmp	.LBB0_123
+.LBB0_57:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_61
+# %bb.58:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_59:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_59
+# %bb.60:
+	add	r14, 1
+.LBB0_61:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_65
+# %bb.62:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_63:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	sete	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	sete	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	sete	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	sete	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	sete	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	sete	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	sete	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	sete	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	sete	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	sete	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	sete	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB0_63
+# %bb.64:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB0_65:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.66:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_67:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rsi + rcx]
+	cmp	bl, byte ptr [rdx + rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_67
+	jmp	.LBB0_123
+.LBB0_90:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_94
+# %bb.91:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_92:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_92
+# %bb.93:
+	add	r14, 1
+.LBB0_94:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_98
+# %bb.95:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_96:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	sete	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	sete	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	sete	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	sete	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	sete	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	sete	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	sete	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	sete	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	sete	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	sete	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB0_96
+# %bb.97:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB0_98:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.99:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_100:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rsi + 4*rcx]
+	cmp	edi, dword ptr [rdx + 4*rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_100
+.LBB0_123:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.Lfunc_end0:
+	.size	comparison_equal_arr_arr_avx2, .Lfunc_end0-comparison_equal_arr_arr_avx2
+                                        # -- End function
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5                               # -- Begin function comparison_equal_arr_scalar_avx2
+.LCPI1_0:
+	.zero	32,1
+.LCPI1_1:
+	.zero	32,4
+.LCPI1_2:
+	.zero	32,8
+.LCPI1_3:
+	.zero	32,16
+.LCPI1_4:
+	.zero	32,32
+.LCPI1_5:
+	.zero	32,64
+.LCPI1_6:
+	.zero	32,128
+	.text
+	.globl	comparison_equal_arr_scalar_avx2
+	.p2align	4, 0x90
+	.type	comparison_equal_arr_scalar_avx2,@function
+comparison_equal_arr_scalar_avx2:       # @comparison_equal_arr_scalar_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -32
+	sub	rsp, 1280
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r10, r8
+	mov	r11, rcx
+	cmp	edi, 6
+	jg	.LBB1_13
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB1_25
+# %bb.2:
+	cmp	edi, 4
+	je	.LBB1_49
+# %bb.3:
+	cmp	edi, 5
+	je	.LBB1_57
+# %bb.4:
+	cmp	edi, 6
+	jne	.LBB1_164
+# %bb.5:
+	mov	r13d, dword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_9
+# %bb.6:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_7:                                # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	sete	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_7
+# %bb.8:
+	add	r11, 1
+.LBB1_9:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB1_101
+# %bb.10:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_11:                               # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	sete	dil
+	cmp	dword ptr [rsi + 8], r13d
+	sete	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	sete	al
+	cmp	dword ptr [rsi + 28], r13d
+	sete	bl
+	cmp	dword ptr [rsi + 32], r13d
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	sete	dl
+	cmp	dword ptr [rsi + 40], r13d
+	sete	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	sete	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	sete	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	sete	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	sete	cl
+	cmp	dword ptr [rsi + 64], r13d
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	sete	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	sete	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 128
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB1_11
+# %bb.12:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB1_102
+	jmp	.LBB1_164
+.LBB1_13:
+	cmp	edi, 8
+	jle	.LBB1_39
+# %bb.14:
+	cmp	edi, 9
+	je	.LBB1_65
+# %bb.15:
+	cmp	edi, 11
+	je	.LBB1_73
+# %bb.16:
+	cmp	edi, 12
+	jne	.LBB1_164
+# %bb.17:
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB1_21
+# %bb.18:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_19:                               # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rsi]
+	lea	rsi, [rsi + 8]
+	sete	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_19
+# %bb.20:
+	add	r11, 1
+.LBB1_21:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB1_105
+# %bb.22:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_23:                               # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rsi]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 8]
+	sete	r9b
+	vucomisd	xmm0, qword ptr [rsi + 16]
+	sete	r14b
+	vucomisd	xmm0, qword ptr [rsi + 24]
+	sete	r13b
+	vucomisd	xmm0, qword ptr [rsi + 32]
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 40]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 48]
+	sete	al
+	vucomisd	xmm0, qword ptr [rsi + 56]
+	sete	bl
+	vucomisd	xmm0, qword ptr [rsi + 64]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 72]
+	sete	dl
+	vucomisd	xmm0, qword ptr [rsi + 80]
+	sete	dil
+	vucomisd	xmm0, qword ptr [rsi + 88]
+	sete	r10b
+	vucomisd	xmm0, qword ptr [rsi + 96]
+	sete	r11b
+	vucomisd	xmm0, qword ptr [rsi + 104]
+	sete	r12b
+	vucomisd	xmm0, qword ptr [rsi + 112]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 120]
+	sete	cl
+	vucomisd	xmm0, qword ptr [rsi + 128]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 136]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 144]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 152]
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 160]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 168]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 176]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 184]
+	sete	r15b
+	vucomisd	xmm0, qword ptr [rsi + 192]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 200]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 208]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 216]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 224]
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 232]
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 240]
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 248]
+	sete	r8b
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r9b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r9d, edx
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 256
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB1_23
+# %bb.24:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB1_106
+	jmp	.LBB1_164
+.LBB1_25:
+	cmp	edi, 2
+	je	.LBB1_81
+# %bb.26:
+	cmp	edi, 3
+	jne	.LBB1_164
+# %bb.27:
+	mov	r14b, byte ptr [rdx]
+	lea	r13, [r10 + 31]
+	test	r10, r10
+	mov	r15, r10
+	cmovns	r13, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_31
+# %bb.28:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_29:                               # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r14b
+	lea	rsi, [rsi + 1]
+	sete	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_29
+# %bb.30:
+	add	r11, 1
+.LBB1_31:
+	sar	r13, 5
+	cmp	r15, 32
+	jl	.LBB1_108
+# %bb.32:
+	cmp	r13, 32
+	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
+	mov	qword ptr [rsp + 280], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 392], r13      # 8-byte Spill
+	jb	.LBB1_35
+# %bb.33:
+	mov	rax, r13
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r11, rax
+	jae	.LBB1_165
+# %bb.34:
+	lea	rax, [r11 + 4*r13]
+	cmp	rsi, rax
+	jae	.LBB1_165
+.LBB1_35:
+	xor	eax, eax
+	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
+	mov	r12, rsi
+	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
+.LBB1_36:
+	sub	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 152], r13      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_37:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, r12
+	cmp	byte ptr [r12], r14b
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 1], r14b
+	sete	r8b
+	cmp	byte ptr [r12 + 2], r14b
+	sete	r15b
+	cmp	byte ptr [r12 + 3], r14b
+	sete	r13b
+	cmp	byte ptr [r12 + 4], r14b
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 5], r14b
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 6], r14b
+	sete	al
+	cmp	byte ptr [r12 + 7], r14b
+	sete	r11b
+	cmp	byte ptr [r12 + 8], r14b
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 9], r14b
+	sete	dl
+	cmp	byte ptr [r12 + 10], r14b
+	sete	sil
+	cmp	byte ptr [r12 + 11], r14b
+	sete	dil
+	cmp	byte ptr [r12 + 12], r14b
+	sete	r10b
+	cmp	byte ptr [r12 + 13], r14b
+	sete	r12b
+	cmp	byte ptr [rcx + 14], r14b
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 15], r14b
+	sete	r9b
+	cmp	byte ptr [rcx + 16], r14b
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 17], r14b
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 18], r14b
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 19], r14b
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 20], r14b
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 21], r14b
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 22], r14b
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 23], r14b
+	sete	r14b
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 24], bl
+	sete	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 25], bl
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 26], bl
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 27], bl
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 28], bl
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 29], bl
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 30], bl
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 31], bl
+	sete	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r15b, 2
+	or	r15b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r15b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r14b, 7
+	or	r14b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r14b, dl
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	bl, 7
+	or	bl, dl
+	or	bl, al
+	mov	byte ptr [rsi + 2], r14b
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	byte ptr [rsi + 3], bl
+	lea	r12, [rcx + 32]
+	add	rsi, 4
+	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB1_37
+# %bb.38:
+	mov	r15, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r13, qword ptr [rsp + 392]      # 8-byte Reload
+	jmp	.LBB1_109
+.LBB1_39:
+	cmp	edi, 7
+	je	.LBB1_93
+# %bb.40:
+	cmp	edi, 8
+	jne	.LBB1_164
+# %bb.41:
+	mov	r13, qword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_45
+# %bb.42:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_43:                               # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	sete	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_43
+# %bb.44:
+	add	r11, 1
+.LBB1_45:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB1_112
+# %bb.46:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_47:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	cmp	qword ptr [rsi], r13
+	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	sete	dil
+	cmp	qword ptr [rsi + 16], r13
+	sete	r14b
+	cmp	qword ptr [rsi + 24], r13
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	sete	al
+	cmp	qword ptr [rsi + 56], r13
+	sete	bl
+	cmp	qword ptr [rsi + 64], r13
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	sete	dl
+	cmp	qword ptr [rsi + 80], r13
+	sete	r9b
+	cmp	qword ptr [rsi + 88], r13
+	sete	r10b
+	cmp	qword ptr [rsi + 96], r13
+	sete	r11b
+	cmp	qword ptr [rsi + 104], r13
+	sete	r12b
+	cmp	qword ptr [rsi + 112], r13
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	sete	cl
+	cmp	qword ptr [rsi + 128], r13
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	sete	r15b
+	cmp	qword ptr [rsi + 192], r13
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	sete	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r11], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], r8b
+	add	rsi, 256
+	add	r11, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB1_47
+# %bb.48:
+	mov	r14, r11
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB1_113
+	jmp	.LBB1_164
+.LBB1_49:
+	movzx	r13d, word ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_53
+# %bb.50:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_51:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	lea	rsi, [rsi + 2]
+	sete	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_51
+# %bb.52:
+	add	r11, 1
+.LBB1_53:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB1_116
+# %bb.54:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_55:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	sete	al
+	cmp	word ptr [rsi + 2], r13w
+	sete	dil
+	cmp	word ptr [rsi + 4], r13w
+	sete	r14b
+	cmp	word ptr [rsi + 6], r13w
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 8], r13w
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 10], r13w
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 12], r13w
+	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 14], r13w
+	sete	bl
+	cmp	word ptr [rsi + 16], r13w
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 18], r13w
+	sete	dl
+	cmp	word ptr [rsi + 20], r13w
+	sete	r9b
+	cmp	word ptr [rsi + 22], r13w
+	sete	r10b
+	cmp	word ptr [rsi + 24], r13w
+	sete	r11b
+	cmp	word ptr [rsi + 26], r13w
+	sete	r12b
+	cmp	word ptr [rsi + 28], r13w
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 30], r13w
+	sete	cl
+	cmp	word ptr [rsi + 32], r13w
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 34], r13w
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 36], r13w
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 38], r13w
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 40], r13w
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 42], r13w
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 44], r13w
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 46], r13w
+	sete	r15b
+	cmp	word ptr [rsi + 48], r13w
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 50], r13w
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 52], r13w
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 54], r13w
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 56], r13w
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 58], r13w
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 60], r13w
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 62], r13w
+	sete	r8b
+	add	dil, dil
+	or	dil, al
+	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 64
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB1_55
+# %bb.56:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB1_117
+	jmp	.LBB1_164
+.LBB1_57:
+	movzx	r13d, word ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_61
+# %bb.58:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_59:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	lea	rsi, [rsi + 2]
+	sete	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_59
+# %bb.60:
+	add	r11, 1
+.LBB1_61:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB1_120
+# %bb.62:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_63:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 2], r13w
+	sete	dil
+	cmp	word ptr [rsi + 4], r13w
+	sete	r14b
+	cmp	word ptr [rsi + 6], r13w
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 8], r13w
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 10], r13w
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 12], r13w
+	sete	al
+	cmp	word ptr [rsi + 14], r13w
+	sete	bl
+	cmp	word ptr [rsi + 16], r13w
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 18], r13w
+	sete	dl
+	cmp	word ptr [rsi + 20], r13w
+	sete	r9b
+	cmp	word ptr [rsi + 22], r13w
+	sete	r10b
+	cmp	word ptr [rsi + 24], r13w
+	sete	r11b
+	cmp	word ptr [rsi + 26], r13w
+	sete	r12b
+	cmp	word ptr [rsi + 28], r13w
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 30], r13w
+	sete	cl
+	cmp	word ptr [rsi + 32], r13w
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 34], r13w
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 36], r13w
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 38], r13w
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 40], r13w
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 42], r13w
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 44], r13w
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 46], r13w
+	sete	r15b
+	cmp	word ptr [rsi + 48], r13w
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 50], r13w
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 52], r13w
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 54], r13w
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 56], r13w
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 58], r13w
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 60], r13w
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 62], r13w
+	sete	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 64
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB1_63
+# %bb.64:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB1_121
+	jmp	.LBB1_164
+.LBB1_65:
+	mov	r13, qword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_69
+# %bb.66:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_67:                               # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	sete	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_67
+# %bb.68:
+	add	r11, 1
+.LBB1_69:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB1_123
+# %bb.70:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_71:                               # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	sete	dil
+	cmp	qword ptr [rsi + 16], r13
+	sete	r14b
+	cmp	qword ptr [rsi + 24], r13
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	sete	al
+	cmp	qword ptr [rsi + 56], r13
+	sete	bl
+	cmp	qword ptr [rsi + 64], r13
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	sete	dl
+	cmp	qword ptr [rsi + 80], r13
+	sete	r9b
+	cmp	qword ptr [rsi + 88], r13
+	sete	r10b
+	cmp	qword ptr [rsi + 96], r13
+	sete	r11b
+	cmp	qword ptr [rsi + 104], r13
+	sete	r12b
+	cmp	qword ptr [rsi + 112], r13
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	sete	cl
+	cmp	qword ptr [rsi + 128], r13
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	sete	r15b
+	cmp	qword ptr [rsi + 192], r13
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	sete	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 256
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB1_71
+# %bb.72:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB1_124
+	jmp	.LBB1_164
+.LBB1_73:
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB1_77
+# %bb.74:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_75:                               # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rsi]
+	lea	rsi, [rsi + 4]
+	sete	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_75
+# %bb.76:
+	add	r11, 1
+.LBB1_77:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB1_126
+# %bb.78:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_79:                               # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rsi]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 4]
+	sete	r9b
+	vucomiss	xmm0, dword ptr [rsi + 8]
+	sete	r14b
+	vucomiss	xmm0, dword ptr [rsi + 12]
+	sete	r13b
+	vucomiss	xmm0, dword ptr [rsi + 16]
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 20]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 24]
+	sete	al
+	vucomiss	xmm0, dword ptr [rsi + 28]
+	sete	bl
+	vucomiss	xmm0, dword ptr [rsi + 32]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 36]
+	sete	dl
+	vucomiss	xmm0, dword ptr [rsi + 40]
+	sete	dil
+	vucomiss	xmm0, dword ptr [rsi + 44]
+	sete	r10b
+	vucomiss	xmm0, dword ptr [rsi + 48]
+	sete	r11b
+	vucomiss	xmm0, dword ptr [rsi + 52]
+	sete	r12b
+	vucomiss	xmm0, dword ptr [rsi + 56]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 60]
+	sete	cl
+	vucomiss	xmm0, dword ptr [rsi + 64]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 68]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 72]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 76]
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 80]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 84]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 88]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 92]
+	sete	r15b
+	vucomiss	xmm0, dword ptr [rsi + 96]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 100]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 104]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 108]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 112]
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 116]
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 120]
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 124]
+	sete	r8b
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r9b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r9d, edx
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 128
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB1_79
+# %bb.80:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB1_127
+	jmp	.LBB1_164
+.LBB1_81:
+	mov	r14b, byte ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_85
+# %bb.82:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_83:                               # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r14b
+	lea	rsi, [rsi + 1]
+	sete	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_83
+# %bb.84:
+	add	r11, 1
+.LBB1_85:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB1_129
+# %bb.86:
+	cmp	r15, 32
+	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
+	jb	.LBB1_89
+# %bb.87:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r11, rax
+	jae	.LBB1_168
+# %bb.88:
+	lea	rax, [r11 + 4*r15]
+	cmp	rsi, rax
+	jae	.LBB1_168
+.LBB1_89:
+	xor	eax, eax
+	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
+	mov	r12, rsi
+	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
+.LBB1_90:
+	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_91:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, r12
+	cmp	byte ptr [r12], r14b
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 1], r14b
+	sete	r8b
+	cmp	byte ptr [r12 + 2], r14b
+	sete	r15b
+	cmp	byte ptr [r12 + 3], r14b
+	sete	r13b
+	cmp	byte ptr [r12 + 4], r14b
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 5], r14b
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 6], r14b
+	sete	al
+	cmp	byte ptr [r12 + 7], r14b
+	sete	r11b
+	cmp	byte ptr [r12 + 8], r14b
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 9], r14b
+	sete	dl
+	cmp	byte ptr [r12 + 10], r14b
+	sete	sil
+	cmp	byte ptr [r12 + 11], r14b
+	sete	dil
+	cmp	byte ptr [r12 + 12], r14b
+	sete	r10b
+	cmp	byte ptr [r12 + 13], r14b
+	sete	r12b
+	cmp	byte ptr [rcx + 14], r14b
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 15], r14b
+	sete	r9b
+	cmp	byte ptr [rcx + 16], r14b
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 17], r14b
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 18], r14b
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 19], r14b
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 20], r14b
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 21], r14b
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 22], r14b
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 23], r14b
+	sete	r14b
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 24], bl
+	sete	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 25], bl
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 26], bl
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 27], bl
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 28], bl
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 29], bl
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 30], bl
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 31], bl
+	sete	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r15b, 2
+	or	r15b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r15b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r14b, 7
+	or	r14b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r14b, dl
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	bl, 7
+	or	bl, dl
+	or	bl, al
+	mov	byte ptr [rsi + 2], r14b
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	byte ptr [rsi + 3], bl
+	lea	r12, [rcx + 32]
+	add	rsi, 4
+	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB1_91
+# %bb.92:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
+	jmp	.LBB1_130
+.LBB1_93:
+	mov	r13d, dword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_97
+# %bb.94:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_95:                               # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	sete	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_95
+# %bb.96:
+	add	r11, 1
+.LBB1_97:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB1_133
+# %bb.98:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_99:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	cmp	dword ptr [rsi], r13d
+	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	sete	dil
+	cmp	dword ptr [rsi + 8], r13d
+	sete	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	sete	al
+	cmp	dword ptr [rsi + 28], r13d
+	sete	bl
+	cmp	dword ptr [rsi + 32], r13d
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	sete	dl
+	cmp	dword ptr [rsi + 40], r13d
+	sete	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	sete	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	sete	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	sete	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	sete	cl
+	cmp	dword ptr [rsi + 64], r13d
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	sete	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	sete	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r11], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], r8b
+	add	rsi, 128
+	add	r11, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB1_99
+# %bb.100:
+	mov	r14, r11
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB1_134
+	jmp	.LBB1_164
+.LBB1_101:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB1_164
+.LBB1_102:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	je	.LBB1_135
+# %bb.103:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB1_104:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	sete	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	sete	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB1_104
+	jmp	.LBB1_161
+.LBB1_105:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB1_164
+.LBB1_106:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB1_136
+# %bb.107:
+	xor	r11d, r11d
+	jmp	.LBB1_138
+.LBB1_108:
+	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
+	mov	r12, rsi
+.LBB1_109:
+	shl	r13, 5
+	cmp	r13, r15
+	jge	.LBB1_164
+# %bb.110:
+	mov	r8, r15
+	sub	r8, r13
+	not	r13
+	add	r13, r15
+	je	.LBB1_132
+# %bb.140:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB1_141:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [r12 + rsi], r14b
+	sete	bl
+	neg	bl
+	mov	rdi, rsi
+	shr	rdi, 3
+	mov	ecx, esi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	byte ptr [r12 + rsi + 1], r14b
+	lea	rsi, [rsi + 2]
+	sete	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB1_141
+	jmp	.LBB1_156
+.LBB1_112:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB1_164
+.LBB1_113:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	je	.LBB1_125
+# %bb.114:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB1_115:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	sete	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	sete	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB1_115
+	jmp	.LBB1_148
+.LBB1_116:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB1_164
+.LBB1_117:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	je	.LBB1_122
+# %bb.118:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB1_119:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	sete	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	word ptr [rsi + 2], r13w
+	lea	rsi, [rsi + 4]
+	sete	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB1_119
+	jmp	.LBB1_144
+.LBB1_120:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB1_164
+.LBB1_121:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB1_142
+.LBB1_122:
+	xor	r11d, r11d
+	jmp	.LBB1_144
+.LBB1_123:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB1_164
+.LBB1_124:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB1_146
+.LBB1_125:
+	xor	r11d, r11d
+	jmp	.LBB1_148
+.LBB1_126:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB1_164
+.LBB1_127:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB1_150
+# %bb.128:
+	xor	r11d, r11d
+	jmp	.LBB1_152
+.LBB1_129:
+	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
+	mov	r12, rsi
+.LBB1_130:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB1_164
+# %bb.131:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB1_154
+.LBB1_132:
+	xor	esi, esi
+	jmp	.LBB1_157
+.LBB1_133:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB1_164
+.LBB1_134:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB1_159
+.LBB1_135:
+	xor	r11d, r11d
+	jmp	.LBB1_161
+.LBB1_136:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB1_137:                              # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rsi]
+	sete	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	xor	al, r9b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	vucomisd	xmm0, qword ptr [rsi + 8]
+	lea	rsi, [rsi + 16]
+	sete	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB1_137
+.LBB1_138:
+	test	r8b, 1
+	je	.LBB1_164
+# %bb.139:
+	vucomisd	xmm0, qword ptr [rsi]
+	jmp	.LBB1_163
+.LBB1_142:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB1_143:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	sete	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	word ptr [rsi + 2], r13w
+	lea	rsi, [rsi + 4]
+	sete	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB1_143
+.LBB1_144:
+	test	r8b, 1
+	je	.LBB1_164
+# %bb.145:
+	cmp	word ptr [rsi], r13w
+	jmp	.LBB1_163
+.LBB1_146:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB1_147:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	sete	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	sete	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB1_147
+.LBB1_148:
+	test	r8b, 1
+	je	.LBB1_164
+# %bb.149:
+	cmp	qword ptr [rsi], r13
+	jmp	.LBB1_163
+.LBB1_150:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB1_151:                              # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rsi]
+	sete	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	xor	al, r9b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	vucomiss	xmm0, dword ptr [rsi + 4]
+	lea	rsi, [rsi + 8]
+	sete	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB1_151
+.LBB1_152:
+	test	r8b, 1
+	je	.LBB1_164
+# %bb.153:
+	vucomiss	xmm0, dword ptr [rsi]
+	jmp	.LBB1_163
+.LBB1_154:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB1_155:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [r12 + rsi], r14b
+	sete	bl
+	neg	bl
+	mov	rdi, rsi
+	shr	rdi, 3
+	mov	ecx, esi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	byte ptr [r12 + rsi + 1], r14b
+	lea	rsi, [rsi + 2]
+	sete	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB1_155
+.LBB1_156:
+	add	r12, rsi
+.LBB1_157:
+	test	r8b, 1
+	je	.LBB1_164
+# %bb.158:
+	cmp	byte ptr [r12], r14b
+	sete	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 376]       # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r8 + rdx], bl
+	jmp	.LBB1_164
+.LBB1_159:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB1_160:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	sete	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	sete	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB1_160
+.LBB1_161:
+	test	r8b, 1
+	je	.LBB1_164
+# %bb.162:
+	cmp	dword ptr [rsi], r13d
+.LBB1_163:
+	sete	al
+	neg	al
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	xor	bl, sil
+	mov	byte ptr [r14 + rdx], bl
+.LBB1_164:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	vzeroupper
+	ret
+.LBB1_165:
+	and	r13, -32
+	mov	rax, r13
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 384], r13      # 8-byte Spill
+	lea	rax, [r11 + 4*r13]
+	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_166:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, rax
+	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rsi + rax]
+	mov	rdx, rcx
+	vmovd	xmm0, eax
+	mov	rcx, rbx
+	movzx	eax, byte ptr [rsi + rbx]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rsi + rdx + 1]
+	vmovd	xmm4, eax
+	movzx	eax, byte ptr [rsi + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rsi + rdx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rdx + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rsi + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rsi + rdx + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rbx + 4]
+	vmovd	xmm13, eax
+	movzx	eax, byte ptr [rsi + rdx + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rsi + rbx + 5]
+	vmovd	xmm6, eax
+	movzx	eax, byte ptr [rsi + rdx + 6]
+	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rsi + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rsi + rdx + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rsi + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 544
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 576
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 608
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	r15, rbx
+	or	r15, 640
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	r11, rbx
+	or	r11, 672
+	mov	qword ptr [rsp + 200], r11      # 8-byte Spill
+	mov	r8, rbx
+	or	r8, 704
+	mov	qword ptr [rsp + 168], r8       # 8-byte Spill
+	mov	rdx, rbx
+	or	rdx, 736
+	mov	qword ptr [rsp + 192], rdx      # 8-byte Spill
+	mov	r12, rbx
+	or	r12, 768
+	mov	qword ptr [rsp + 216], r12      # 8-byte Spill
+	mov	r14, rbx
+	or	r14, 800
+	mov	qword ptr [rsp + 184], r14      # 8-byte Spill
+	mov	r10, rbx
+	or	r10, 832
+	mov	qword ptr [rsp + 80], r10       # 8-byte Spill
+	mov	r9, rbx
+	or	r9, 864
+	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 896
+	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
+	mov	rdi, rbx
+	or	rdi, 928
+	mov	qword ptr [rsp + 112], rdi      # 8-byte Spill
+	mov	rax, rbx
+	mov	qword ptr [rsp + 256], rbx      # 8-byte Spill
+	or	rax, 960
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	or	rcx, 992
+	mov	qword ptr [rsp + 56], rcx       # 8-byte Spill
+	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
+	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + rbx], 2
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 11
+	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 1
+	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 2
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 3
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 4
+	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 5
+	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 6
+	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 10
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 14
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 4
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 7
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 8
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 12
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 14
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + r14 + 1], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 6
+	mov	r8, r9
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 14
+	vinserti128	ymm15, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm9, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm10, edi
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 1
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 2
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 6
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 2], 8
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 10
+	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
+	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 12
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 2], 6
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
+	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 2], 11
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rsi + rdx + 3], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 4
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 5
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 6
+	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
+	mov	r14, r15
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 14
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
+	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 3
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 3], 4
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
+	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 3], 8
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 9]
+	vmovd	xmm8, edi
+	mov	r9, rbx
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 3], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 9]
+	vmovd	xmm11, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 1
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 2
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
+	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 5
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 9
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 11
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 4], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 14
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 15
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm13, byte ptr [rsi + rax + 4], 1
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 4
+	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 5
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 6
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 8
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 10
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 11
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 13
+	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 15
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm4, xmm14, byte ptr [rsi + r9 + 5], 1
+	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 2
+	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 6
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 7
+	mov	r13, rcx
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 11
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 12
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 15
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm6, byte ptr [rsi + rax + 5], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 5], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
+	mov	r10, rdi
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 7
+	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 5], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 5], 11
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 5], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
+	vinserti128	ymm14, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 5], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 10]
+	vmovd	xmm3, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 10]
+	vmovd	xmm4, edi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm12, byte ptr [rsi + rax + 6], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 2
+	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 3
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 4
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 5
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 6], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 7
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 8
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 9
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 11
+	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 6], 12
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 13
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 14
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 15
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + rcx + 6], 1
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 2
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 6], 6
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 7
+	mov	r10, r14
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 8
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 11
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 12
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 13
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 14
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 4
+	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 6
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
+	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 7], 9
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 10
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 7], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 13
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 14
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 15
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 1
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 2
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 3
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 6
+	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 7], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 7], 8
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
+	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 11
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 12
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 13
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + rcx + 7], 14
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 11]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 7], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 11]
+	vmovd	xmm2, edi
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + rax + 8], 1
+	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 8], 2
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 4
+	mov	rbx, r14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 6
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 8
+	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 8], 9
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 8], 11
+	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 12
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 13
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 14
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 15
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + rdx + 8], 1
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 8], 2
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 3
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 8], 8
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 9
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 11
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 12
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
+	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 15
+	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm6, xmm8, byte ptr [rsi + r13 + 9], 1
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 2
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 4
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 6
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 7
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 8
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r8 + 9], 9
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 11
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 15
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm7, xmm11, byte ptr [rsi + rax + 9], 1
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 2
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
+	mov	r14, rdi
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 6
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 9], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 10
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 13
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm0, edi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm5, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
+	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 2
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
+	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 4
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 5
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 7
+	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 8
+	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 9
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 12
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 13
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 14
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 15
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 1
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 2
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 4
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 5
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 6
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 8
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 10
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 11
+	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 13
+	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 14
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 2
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 4
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 5
+	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 7
+	mov	r9, rdx
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 11], 9
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 11
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 1
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 4
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 5
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 6
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 7
+	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 8
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 10
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 12
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 14
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 13]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 13]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 1
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 2
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 3
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 5
+	mov	rbx, r13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 8
+	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 9
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 11
+	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 12
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 13
+	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 12], 14
+	mov	r10, r15
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 15
+	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm5, byte ptr [rsi + r13 + 12], 1
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 5
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
+	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 8
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 10
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 11
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 12
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 13
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 14
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 15
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 1
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 2
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 4
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 6
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 9
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 12
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 3
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 4
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 5
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 13], 7
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 13], 11
+	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 13
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 14
+	vinserti128	ymm0, ymm2, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
+	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r13 + 14]
+	vmovd	xmm1, edi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r14 + 14]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 1
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 2
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 3
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 14], 4
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 6
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 10
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 11
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 15
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 1
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 4
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 5
+	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 6
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 7
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 9
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 10
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 12
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 13
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
+	movzx	edi, byte ptr [rsi + r13 + 15]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 4
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 6
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 7
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 8
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 9
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 11
+	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 12
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 13
+	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 14
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
+	movzx	edi, byte ptr [rsi + r14 + 15]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 1
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 4
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 6
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 10
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 11
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 13
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 14
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 15], 15
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 16]
+	vmovd	xmm0, edi
+	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 16], 1
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 2
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 16], 3
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 5
+	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 7
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 9
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 16]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 1
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 2
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 3
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 5
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 7
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 8
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 9
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 11
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 12
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 13
+	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 16], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 17]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 1
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 3
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 4
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 6
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 8
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 10
+	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 11
+	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 12
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 13
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 17]
+	vmovd	xmm3, edi
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 1
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 17], 2
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 3
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 4
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 5
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 6
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 17], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 8
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 10
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 11
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 17], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 18]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 2
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 4
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 5
+	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 6
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 7
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 9
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 11
+	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 14
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 18]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 4
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 5
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 7
+	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 11
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 12
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 14
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 19]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 2
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 4
+	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 19], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 19], 6
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 19], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 13
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 15
+	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r10 + 19]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 1
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 2
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 4
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 6
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 7
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 8
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 13
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r11 + 20]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 1
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 3
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 5
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 6
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 7
+	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 8
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 9
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 11
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 12
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 14
+	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 15
+	movzx	edi, byte ptr [rsi + r10 + 20]
+	vmovd	xmm1, edi
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 2
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 3
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 4
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 5
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 6
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 7
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 9
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
+	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 12
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 14
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
+	movzx	edi, byte ptr [rsi + r11 + 21]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 4
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 5
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 11
+	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 15
+	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r11 + 21]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 1
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 3
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 4
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 5
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 7
+	mov	r13, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 8
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 9
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 10
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 12
+	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 13
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + r10 + 21], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 22]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 4
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 6
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 7
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 8
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 9
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 12
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 13
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 14
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
+	movzx	edi, byte ptr [rsi + r11 + 22]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 2
+	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 4
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 6
+	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 22], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 8
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 11
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 22], 13
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 23]
+	vmovd	xmm2, edi
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 1
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 2
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 3
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 4
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 5
+	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 6
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 7
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 10
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 11
+	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 12
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 23], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 14
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 23]
+	vmovd	xmm3, edi
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 1
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 3
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 4
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 5
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 7
+	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 10
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 14
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 15
+	vinserti128	ymm10, ymm1, xmm0, 1
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 24]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 2
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 3
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 4
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 6
+	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 7
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 8
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 9
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 24], 13
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 15
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 24]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 1
+	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 2
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 3
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 4
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 5
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 6
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 8
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 10
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 13
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 14
+	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 15
+	movzx	edi, byte ptr [rsi + rcx + 25]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 1
+	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 3
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
+	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 5
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 7
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 9
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 10
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 11
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 15
+	movzx	edi, byte ptr [rsi + rdx + 25]
+	vmovd	xmm3, edi
+	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 2
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 4
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 5
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 6
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 7
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 8
+	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 10
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 11
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 12
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 13
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 14
+	vinserti128	ymm9, ymm1, xmm0, 1
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + r11 + 25], 15
+	vinserti128	ymm8, ymm0, xmm2, 1
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r11 + 26]
+	vmovd	xmm0, edi
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 2
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 3
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 5
+	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 6
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 8
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 11
+	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 12
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 13
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 14
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 15
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 26]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 1
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 2
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 3
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 4
+	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 6
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 7
+	mov	r13, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 11
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 12
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 13
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 14
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 15
+	movzx	edi, byte ptr [rsi + r11 + 27]
+	vmovd	xmm2, edi
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 1
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 4
+	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 6
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 7
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 8
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 9
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 10
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 27], 13
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 14
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 15
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 27]
+	vmovd	xmm3, edi
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 1
+	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 27], 2
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 3
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 5
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 6
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 8
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 10
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 11
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 27], 13
+	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 14
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 28]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 1
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 2
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 3
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 5
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 7
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 9
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 11
+	mov	rbx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 13
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 14
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 15
+	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r12 + 28]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 4
+	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 6
+	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 7
+	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 8
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 9
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 10
+	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 11
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 14
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 29]
+	vmovd	xmm2, edi
+	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 29], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 2
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 4
+	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 5
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 6
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 7
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 8
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 12
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 13
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 14
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 15
+	movzx	edi, byte ptr [rsi + r12 + 29]
+	vmovd	xmm3, edi
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 1
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 2
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 3
+	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 5
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 29], 8
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 12
+	mov	r14, rdx
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 13
+	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm3, byte ptr [rsi + r10 + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm4, byte ptr [rsi + rdx + 29], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
+	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r8 + 30]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 30], 1
+	movzx	edi, byte ptr [rsi + r8 + 31]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 31], 1
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 3
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 31], 5
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	eax, byte ptr [rsi + rcx + 30]
+	vmovd	xmm1, eax
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 1
+	movzx	eax, byte ptr [rsi + rcx + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 1
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 4
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 7
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 8
+	mov	rax, r9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
+	mov	rax, r14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 14
+	mov	rax, rdx
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vmovdqa	ymm0, ymmword ptr [rsp + 512]   # 32-byte Reload
+	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI1_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpand	ymm7, ymm2, ymm1
+	vpsubb	ymm11, ymm7, ymm2
+	vpcmpeqb	ymm7, ymm15, ymm0
+	vpand	ymm7, ymm7, ymm1
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI1_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpand	ymm12, ymm12, ymm6
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm11, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpand	ymm7, ymm7, ymm2
+	vpcmpeqb	ymm12, ymm14, ymm0
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI1_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpand	ymm12, ymm12, ymm4
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
+	vmovdqa	ymm13, ymmword ptr [rip + .LCPI1_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpand	ymm12, ymm12, ymm13
+	vmovdqa	ymm14, ymm13
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm11, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI1_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpand	ymm7, ymm7, ymm5
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
+	vpsllw	ymm12, ymm12, 7
+	vmovdqa	ymm15, ymmword ptr [rip + .LCPI1_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpand	ymm12, ymm12, ymm15
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm13, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
+	vpand	ymm12, ymm7, ymm1
+	vpsubb	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm1
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm6
+	vpor	ymm11, ymm12, ymm11
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm2
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm4
+	vpor	ymm11, ymm11, ymm12
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm14
+	vmovdqa	ymm3, ymm14
+	vpor	ymm11, ymm11, ymm12
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm5
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
+	vpsllw	ymm12, ymm12, 7
+	vpand	ymm12, ymm12, ymm15
+	vpor	ymm11, ymm11, ymm12
+	vpor	ymm12, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
+	vpand	ymm11, ymm7, ymm1
+	vpsubb	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm1
+	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm6
+	vpor	ymm11, ymm11, ymm14
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm2
+	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm4
+	vpor	ymm11, ymm11, ymm14
+	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm3
+	vpor	ymm11, ymm11, ymm14
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm10, ymm10, ymm0
+	vmovdqa	ymm14, ymm5
+	vpand	ymm10, ymm10, ymm5
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
+	vpsllw	ymm11, ymm11, 7
+	vpand	ymm11, ymm11, ymm15
+	vpor	ymm10, ymm10, ymm11
+	vpor	ymm7, ymm10, ymm7
+	vpcmpeqb	ymm8, ymm8, ymm0
+	vpand	ymm10, ymm8, ymm1
+	vpsubb	ymm8, ymm10, ymm8
+	vpcmpeqb	ymm9, ymm9, ymm0
+	vpand	ymm9, ymm9, ymm1
+	vpcmpeqb	ymm5, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
+	vpand	ymm5, ymm5, ymm6
+	vpor	ymm5, ymm9, ymm5
+	vpor	ymm5, ymm8, ymm5
+	vpcmpeqb	ymm6, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
+	vpand	ymm6, ymm6, ymm2
+	vpcmpeqb	ymm3, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
+	vpand	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm6, ymm3
+	vpcmpeqb	ymm4, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
+	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI1_4]
+	vpor	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm5, ymm3
+	vpcmpeqb	ymm1, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
+	vpand	ymm1, ymm14, ymm1
+	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
+	vpsllw	ymm2, ymm2, 7
+	vpand	ymm2, ymm15, ymm2
+	vpor	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm3, ymm1
+	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	jne	.LBB1_166
+# %bb.167:
+	mov	r13, qword ptr [rsp + 392]      # 8-byte Reload
+	cmp	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	r15, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
+	jne	.LBB1_36
+	jmp	.LBB1_109
+.LBB1_168:
+	and	r15, -32
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
+	lea	rax, [r11 + 4*r15]
+	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_169:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, rax
+	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rsi + rax]
+	vmovd	xmm0, eax
+	movzx	eax, byte ptr [rsi + rbx]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rsi + rcx + 1]
+	vmovd	xmm4, eax
+	movzx	eax, byte ptr [rsi + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rsi + rcx + 2]
+	mov	rdx, rcx
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
+	mov	rcx, rbx
+	movzx	eax, byte ptr [rsi + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rdx + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rsi + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rsi + rdx + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rbx + 4]
+	vmovd	xmm13, eax
+	movzx	eax, byte ptr [rsi + rdx + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rsi + rbx + 5]
+	vmovd	xmm6, eax
+	movzx	eax, byte ptr [rsi + rdx + 6]
+	mov	qword ptr [rsp + 248], rdx      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rsi + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rsi + rdx + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rsi + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 544
+	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
+	or	rbx, 576
+	mov	qword ptr [rsp + 256], rbx      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 608
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	r12, rcx
+	or	r12, 640
+	mov	qword ptr [rsp + 208], r12      # 8-byte Spill
+	mov	r14, rcx
+	or	r14, 672
+	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 704
+	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
+	mov	rdi, rcx
+	or	rdi, 736
+	mov	r9, rcx
+	or	r9, 768
+	mov	qword ptr [rsp + 224], r9       # 8-byte Spill
+	mov	r15, rcx
+	or	r15, 800
+	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
+	mov	r11, rcx
+	or	r11, 832
+	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
+	mov	r10, rcx
+	or	r10, 864
+	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
+	mov	r8, rcx
+	or	r8, 896
+	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
+	mov	rdx, rcx
+	or	rdx, 928
+	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
+	mov	rax, rcx
+	mov	qword ptr [rsp + 264], rcx      # 8-byte Spill
+	or	rax, 960
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	or	rcx, 992
+	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
+	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + rbx], 2
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 5
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 7
+	mov	r13, rdi
+	mov	qword ptr [rsp + 160], rdi      # 8-byte Spill
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 1
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 2
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 3
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 4
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 5
+	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 6
+	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 10
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 14
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 4
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 7
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 8
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 9
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 12
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 14
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + r14 + 1], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 14
+	vinserti128	ymm15, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm9, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm10, edi
+	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
+	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 1
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 2
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
+	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 6
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 7
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 8
+	mov	r12, r13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 10
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 12
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 6
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rsi + r8 + 3], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 4
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 7
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 14
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 15
+	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 3], 2
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 5
+	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 8
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 3], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 9]
+	vmovd	xmm8, edi
+	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 3], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 9]
+	vmovd	xmm11, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 1
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 2
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
+	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 5
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 6
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 9
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 12
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 15
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm13, byte ptr [rsi + rax + 4], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 2
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 5
+	mov	rdi, r14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 6
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 7
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 9
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 10
+	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 11
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 12
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 13
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 15
+	vpinsrb	xmm4, xmm14, byte ptr [rsi + r8 + 5], 1
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 2
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 6
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 5], 8
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 9
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 10
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 5], 11
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 12
+	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 13
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 15
+	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm6, byte ptr [rsi + r12 + 5], 1
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 5], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 5], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 5], 8
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 5], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
+	vinserti128	ymm14, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 5], 15
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 10]
+	vmovd	xmm3, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 10]
+	vmovd	xmm4, edi
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm12, byte ptr [rsi + r11 + 6], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 3
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 4
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 6
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 7
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 9
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 10
+	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 13
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 15
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + r12 + 6], 1
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 2
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
+	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 6
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 7
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 6], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 9
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
+	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 11
+	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 6], 12
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 13
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 14
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 2
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 3
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 4
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 5
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 8
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 12
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 13
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 15
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 1
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 2
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 3
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 7], 6
+	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 8
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 9
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 7], 12
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 13
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + rcx + 7], 14
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 11]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 7], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 11]
+	vmovd	xmm2, edi
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + rcx + 8], 1
+	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 8], 2
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 4
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 5
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 6
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 7
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 8
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 8], 9
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 10
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 11
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 8], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 8], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 15
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + rax + 8], 1
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 2
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 3
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 5
+	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 7
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 8
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 10
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 11
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 12
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 15
+	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm6, xmm8, byte ptr [rsi + r13 + 9], 1
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r8 + 9], 2
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 3
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 4
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 6
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 7
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 8
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 9
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 10
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 11
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 12
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 13
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 14
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r13 + 9], 15
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm7, xmm11, byte ptr [rsi + rcx + 9], 1
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 9], 2
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 9], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 6
+	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 9], 7
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 8
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 9
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm0, edi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm5, edi
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 2
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 3
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 4
+	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 5
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 6
+	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 10], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 9
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 12
+	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 13
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 15
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 1
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 2
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 5
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 7
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 8
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 10
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 11
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 12
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 13
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 14
+	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 10], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 3
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 11], 5
+	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 7
+	mov	r12, r9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 11], 8
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 9
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 10
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 11
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 11], 13
+	mov	r13, r10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 14
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 15
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 11], 1
+	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 4
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 6
+	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 11], 7
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 10
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 11], 14
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 13]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 13]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 1
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 2
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 4
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 12], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 12], 7
+	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 12], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 9
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 11
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 13
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 15
+	vpinsrb	xmm2, xmm5, byte ptr [rsi + rdx + 12], 1
+	mov	rdi, r14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 12], 2
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 12], 3
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 4
+	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 12], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 12], 7
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 8
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 9
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 10
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 11
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 12
+	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 12], 13
+	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 12], 14
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 12], 15
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 1
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 3
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 5
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 6
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 8
+	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 9
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 10
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 12
+	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 13], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 15
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 13], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 13], 5
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 6
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 8
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 10
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 13], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 13], 14
+	vinserti128	ymm0, ymm2, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
+	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r13 + 14]
+	vmovd	xmm1, edi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 14]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 1
+	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 2
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 3
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 4
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 14], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 6
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 7
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 14], 9
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 10
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 14], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 14], 13
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 14
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 15
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 1
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 2
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 3
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 5
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 6
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 7
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 8
+	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 9
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 10
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 12
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 13
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
+	movzx	edi, byte ptr [rsi + r13 + 15]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 15], 2
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 6
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 7
+	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 9
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 12
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 13
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 15]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 1
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 4
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 7
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 10
+	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 13
+	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 14
+	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 15
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r10 + 16]
+	vmovd	xmm0, edi
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 1
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 2
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 3
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 4
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 5
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 8
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 16], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 10
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 12
+	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 14
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 15
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rbx + 16]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 1
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 2
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 3
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 5
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 6
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 7
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 8
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 9
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 12
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 16], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 15
+	movzx	edi, byte ptr [rsi + r10 + 17]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 1
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 2
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 4
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 5
+	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 6
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 7
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 9
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 11
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 17], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 13
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 15
+	movzx	edi, byte ptr [rsi + rbx + 17]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 1
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 2
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 17], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 4
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 5
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 6
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 7
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 8
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 9
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 10
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 11
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 17], 13
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rdi + 17], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 18]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 3
+	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 4
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 6
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 8
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 9
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 15
+	movzx	edi, byte ptr [rsi + rbx + 18]
+	vmovd	xmm1, edi
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 3
+	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 4
+	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 6
+	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 18], 7
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 8
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 10
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 11
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 12
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 13
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 15
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 19]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
+	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 2
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 4
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 5
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 6
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 19], 10
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 12
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 13
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 14
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 19], 15
+	movzx	edi, byte ptr [rsi + rbx + 19]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 19], 1
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 2
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 5
+	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 19], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 9
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 19], 10
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 11
+	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 19], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 14
+	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r15 + 20]
+	vmovd	xmm0, edi
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 2
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 3
+	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 4
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 20], 5
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 6
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 7
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 9
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 12
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 20], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 20]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 20], 1
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 20], 4
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 6
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 7
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 8
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 20], 10
+	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 20], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 12
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 13
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 15
+	movzx	edi, byte ptr [rsi + r15 + 21]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 1
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 2
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 21], 5
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 6
+	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 7
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 8
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 21], 9
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 10
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 12
+	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 21], 13
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 14
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 15
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 21]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 2
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 4
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 5
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 6
+	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 7
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 8
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 21], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 21], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 22]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 2
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 3
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 4
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 22], 9
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 11
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 22], 13
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 15
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rbx + 22]
+	vmovd	xmm1, edi
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 1
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 2
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 3
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 4
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 22], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 7
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 8
+	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 9
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 10
+	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 22], 11
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 12
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 13
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 14
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 22], 15
+	movzx	edi, byte ptr [rsi + rax + 23]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 1
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 2
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 3
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 5
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 6
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 7
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 8
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 10
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 12
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 13
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 14
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 15
+	movzx	edi, byte ptr [rsi + rbx + 23]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 2
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 3
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 4
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 6
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 7
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 9
+	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 11
+	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 12
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 14
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 15
+	vinserti128	ymm10, ymm1, xmm0, 1
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 24]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 1
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 24], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 4
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 5
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 6
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 7
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 9
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 12
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 24]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 1
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 5
+	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 6
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 8
+	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 24], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 10
+	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 24], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 15
+	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r8 + 25]
+	vmovd	xmm2, edi
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 2
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 3
+	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 4
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 5
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 7
+	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 25], 8
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 9
+	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 10
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 11
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 12
+	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 13
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 14
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 15
+	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 25]
+	vmovd	xmm3, edi
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 1
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 2
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 3
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 4
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 6
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 7
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 9
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 11
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 12
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 14
+	vinserti128	ymm9, ymm1, xmm0, 1
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rdi + 25], 15
+	vinserti128	ymm8, ymm0, xmm2, 1
+	movzx	edi, byte ptr [rsi + r8 + 26]
+	vmovd	xmm0, edi
+	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 1
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 2
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 4
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 6
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 11
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 13
+	mov	rcx, r14
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 15
+	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r12 + 26]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 1
+	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 26], 2
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 4
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 6
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 7
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 8
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 10
+	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 26], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 14
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 15
+	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 27]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 1
+	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 2
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 3
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 4
+	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 5
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 6
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 7
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 8
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 9
+	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 10
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 13
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 14
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 15
+	movzx	edi, byte ptr [rsi + r12 + 27]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 3
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 4
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 5
+	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 6
+	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 7
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 8
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 9
+	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 27], 11
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 12
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 27], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 28]
+	vmovd	xmm0, edi
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 3
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 6
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 7
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 8
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 10
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 12
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 28]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 2
+	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 3
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 4
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 6
+	mov	r14, r15
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 7
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 8
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 28], 10
+	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 28], 11
+	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 12
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 13
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 15
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 29]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 1
+	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 2
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 3
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 4
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 7
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 9
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 11
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 13
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 15
+	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r8 + 29]
+	vmovd	xmm3, edi
+	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 3
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 5
+	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 7
+	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 8
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 13
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm3, byte ptr [rsi + r15 + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm4, byte ptr [rsi + rax + 29], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 30]
+	vmovd	xmm0, edi
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 1
+	movzx	edi, byte ptr [rsi + rax + 31]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 1
+	mov	rax, r11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 31], 2
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 31], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 31], 12
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
+	mov	rdx, r8
+	movzx	eax, byte ptr [rsi + r8 + 30]
+	vmovd	xmm1, eax
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 1
+	movzx	eax, byte ptr [rsi + r8 + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 1
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 31], 4
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 6
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 8
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
+	mov	rax, r12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vmovdqa	ymm0, ymmword ptr [rsp + 512]   # 32-byte Reload
+	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI1_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpand	ymm7, ymm2, ymm1
+	vpsubb	ymm11, ymm7, ymm2
+	vpcmpeqb	ymm7, ymm15, ymm0
+	vpand	ymm7, ymm7, ymm1
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI1_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpand	ymm12, ymm12, ymm6
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm11, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI1_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpand	ymm7, ymm7, ymm2
+	vpcmpeqb	ymm12, ymm14, ymm0
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI1_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpand	ymm12, ymm12, ymm4
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
+	vmovdqa	ymm13, ymmword ptr [rip + .LCPI1_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpand	ymm12, ymm12, ymm13
+	vmovdqa	ymm14, ymm13
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm11, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI1_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpand	ymm7, ymm7, ymm5
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
+	vpsllw	ymm12, ymm12, 7
+	vmovdqa	ymm15, ymmword ptr [rip + .LCPI1_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpand	ymm12, ymm12, ymm15
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm13, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
+	vpand	ymm12, ymm7, ymm1
+	vpsubb	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm1
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm6
+	vpor	ymm11, ymm12, ymm11
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm2
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm4
+	vpor	ymm11, ymm11, ymm12
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm14
+	vmovdqa	ymm3, ymm14
+	vpor	ymm11, ymm11, ymm12
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm5
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
+	vpsllw	ymm12, ymm12, 7
+	vpand	ymm12, ymm12, ymm15
+	vpor	ymm11, ymm11, ymm12
+	vpor	ymm12, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
+	vpand	ymm11, ymm7, ymm1
+	vpsubb	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm1
+	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm6
+	vpor	ymm11, ymm11, ymm14
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm2
+	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm4
+	vpor	ymm11, ymm11, ymm14
+	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm3
+	vpor	ymm11, ymm11, ymm14
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm10, ymm10, ymm0
+	vmovdqa	ymm14, ymm5
+	vpand	ymm10, ymm10, ymm5
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
+	vpsllw	ymm11, ymm11, 7
+	vpand	ymm11, ymm11, ymm15
+	vpor	ymm10, ymm10, ymm11
+	vpor	ymm7, ymm10, ymm7
+	vpcmpeqb	ymm8, ymm8, ymm0
+	vpand	ymm10, ymm8, ymm1
+	vpsubb	ymm8, ymm10, ymm8
+	vpcmpeqb	ymm9, ymm9, ymm0
+	vpand	ymm9, ymm9, ymm1
+	vpcmpeqb	ymm5, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
+	vpand	ymm5, ymm5, ymm6
+	vpor	ymm5, ymm9, ymm5
+	vpor	ymm5, ymm8, ymm5
+	vpcmpeqb	ymm6, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
+	vpand	ymm6, ymm6, ymm2
+	vpcmpeqb	ymm3, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
+	vpand	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm6, ymm3
+	vpcmpeqb	ymm4, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
+	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI1_4]
+	vpor	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm5, ymm3
+	vpcmpeqb	ymm1, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
+	vpand	ymm1, ymm14, ymm1
+	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
+	vpsllw	ymm2, ymm2, 7
+	vpand	ymm2, ymm15, ymm2
+	vpor	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm3, ymm1
+	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	jne	.LBB1_169
+# %bb.170:
+	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
+	jne	.LBB1_90
+	jmp	.LBB1_130
+.Lfunc_end1:
+	.size	comparison_equal_arr_scalar_avx2, .Lfunc_end1-comparison_equal_arr_scalar_avx2
+                                        # -- End function
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5                               # -- Begin function comparison_equal_scalar_arr_avx2
+.LCPI2_0:
+	.zero	32,1
+.LCPI2_1:
+	.zero	32,4
+.LCPI2_2:
+	.zero	32,8
+.LCPI2_3:
+	.zero	32,16
+.LCPI2_4:
+	.zero	32,32
+.LCPI2_5:
+	.zero	32,64
+.LCPI2_6:
+	.zero	32,128
+	.text
+	.globl	comparison_equal_scalar_arr_avx2
+	.p2align	4, 0x90
+	.type	comparison_equal_scalar_arr_avx2,@function
+comparison_equal_scalar_arr_avx2:       # @comparison_equal_scalar_arr_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -32
+	sub	rsp, 1280
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r10, r8
+	mov	r11, rcx
+	cmp	edi, 6
+	jg	.LBB2_17
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB2_32
+# %bb.2:
+	cmp	edi, 4
+	je	.LBB2_60
+# %bb.3:
+	cmp	edi, 5
+	je	.LBB2_72
+# %bb.4:
+	cmp	edi, 6
+	jne	.LBB2_157
+# %bb.5:
+	mov	r13d, dword ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_9
+# %bb.6:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB2_7:                                # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	mov	r9, r11
+	movzx	r8d, byte ptr [r11 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_7
+# %bb.8:
+	add	r11, 1
+.LBB2_9:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB2_13
+# %bb.10:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_11:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	cmp	r13d, dword ptr [rdx]
+	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 4]
+	sete	dil
+	cmp	r13d, dword ptr [rdx + 8]
+	sete	r14b
+	cmp	r13d, dword ptr [rdx + 12]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 16]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 20]
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 24]
+	sete	al
+	cmp	r13d, dword ptr [rdx + 28]
+	sete	r11b
+	cmp	r13d, dword ptr [rdx + 32]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 36]
+	sete	sil
+	cmp	r13d, dword ptr [rdx + 40]
+	sete	r8b
+	cmp	r13d, dword ptr [rdx + 44]
+	sete	r9b
+	cmp	r13d, dword ptr [rdx + 48]
+	sete	r10b
+	cmp	r13d, dword ptr [rdx + 52]
+	sete	r12b
+	cmp	r13d, dword ptr [rdx + 56]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 60]
+	sete	cl
+	cmp	r13d, dword ptr [rdx + 64]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 68]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 72]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 76]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 80]
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 84]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 88]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 92]
+	sete	r15b
+	cmp	r13d, dword ptr [rdx + 96]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 100]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 104]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 108]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 112]
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 116]
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 120]
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 124]
+	sete	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	esi, eax
+	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rax], r11b
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], bl
+	add	rdx, 128
+	add	r11, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB2_11
+# %bb.12:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB2_13:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB2_157
+# %bb.14:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	je	.LBB2_127
+# %bb.15:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB2_16:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	sete	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	mov	r14, r11
+	movzx	r9d, byte ptr [r11 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r11 + rsi], bl
+	add	rdi, 2
+	cmp	r13d, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	sete	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r11 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB2_16
+	jmp	.LBB2_154
+.LBB2_17:
+	cmp	edi, 8
+	jle	.LBB2_46
+# %bb.18:
+	cmp	edi, 9
+	je	.LBB2_83
+# %bb.19:
+	cmp	edi, 11
+	je	.LBB2_94
+# %bb.20:
+	cmp	edi, 12
+	jne	.LBB2_157
+# %bb.21:
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB2_25
+# %bb.22:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB2_23:                               # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	mov	r15, r11
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_23
+# %bb.24:
+	add	r11, 1
+.LBB2_25:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB2_29
+# %bb.26:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_27:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	vucomisd	xmm0, qword ptr [rdx]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 8]
+	sete	r8b
+	vucomisd	xmm0, qword ptr [rdx + 16]
+	sete	r14b
+	vucomisd	xmm0, qword ptr [rdx + 24]
+	sete	r13b
+	vucomisd	xmm0, qword ptr [rdx + 32]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 40]
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 48]
+	sete	al
+	vucomisd	xmm0, qword ptr [rdx + 56]
+	sete	r11b
+	vucomisd	xmm0, qword ptr [rdx + 64]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 72]
+	sete	sil
+	vucomisd	xmm0, qword ptr [rdx + 80]
+	sete	dil
+	vucomisd	xmm0, qword ptr [rdx + 88]
+	sete	r9b
+	vucomisd	xmm0, qword ptr [rdx + 96]
+	sete	r10b
+	vucomisd	xmm0, qword ptr [rdx + 104]
+	sete	r12b
+	vucomisd	xmm0, qword ptr [rdx + 112]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 120]
+	sete	cl
+	vucomisd	xmm0, qword ptr [rdx + 128]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 136]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 144]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 152]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 160]
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 168]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 176]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 184]
+	sete	r15b
+	vucomisd	xmm0, qword ptr [rdx + 192]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 200]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 208]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 216]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 224]
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 232]
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 240]
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 248]
+	sete	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	dil, 2
+	or	dil, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r13b
+	mov	r8d, eax
+	shl	r9b, 3
+	or	r9b, dil
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	byte ptr [r14], r11b
+	movzx	esi, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r15b, 7
+	or	r15b, sil
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], bl
+	add	rdx, 256
+	add	r14, 4
+	mov	r11, r14
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB2_27
+# %bb.28:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
+.LBB2_29:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB2_157
+# %bb.30:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB2_136
+# %bb.31:
+	xor	edi, edi
+	jmp	.LBB2_138
+.LBB2_32:
+	cmp	edi, 2
+	je	.LBB2_105
+# %bb.33:
+	cmp	edi, 3
+	jne	.LBB2_157
+# %bb.34:
+	mov	r14b, byte ptr [rsi]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_38
+# %bb.35:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB2_36:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	mov	r12, r11
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_36
+# %bb.37:
+	add	r11, 1
+.LBB2_38:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB2_128
+# %bb.39:
+	cmp	r15, 32
+	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
+	jb	.LBB2_42
+# %bb.40:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	cmp	r11, rax
+	jae	.LBB2_165
+# %bb.41:
+	lea	rax, [r11 + 4*r15]
+	cmp	rdx, rax
+	jae	.LBB2_165
+.LBB2_42:
+	xor	eax, eax
+	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
+	mov	r12, rdx
+	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
+.LBB2_43:
+	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_44:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, r12
+	cmp	r14b, byte ptr [r12]
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [r12 + 1]
+	sete	r10b
+	cmp	r14b, byte ptr [r12 + 2]
+	sete	bl
+	cmp	r14b, byte ptr [r12 + 3]
+	sete	r13b
+	cmp	r14b, byte ptr [r12 + 4]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [r12 + 5]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [r12 + 6]
+	sete	al
+	cmp	r14b, byte ptr [r12 + 7]
+	sete	r12b
+	cmp	r14b, byte ptr [rcx + 8]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 9]
+	sete	sil
+	cmp	r14b, byte ptr [rcx + 10]
+	sete	dil
+	cmp	r14b, byte ptr [rcx + 11]
+	sete	r9b
+	cmp	r14b, byte ptr [rcx + 12]
+	sete	r11b
+	cmp	r14b, byte ptr [rcx + 13]
+	sete	r15b
+	cmp	r14b, byte ptr [rcx + 14]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 15]
+	sete	r8b
+	cmp	r14b, byte ptr [rcx + 16]
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 17]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 18]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 19]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 20]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 21]
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 22]
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 23]
+	sete	r14b
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 24]
+	sete	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 25]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 26]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 27]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 28]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 29]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 30]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 31]
+	sete	dl
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 320]      # 1-byte Folded Reload
+	shl	al, 6
+	shl	r12b, 7
+	or	r12b, al
+	shl	bl, 2
+	or	bl, r10b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, bl
+	shl	dil, 2
+	or	dil, sil
+	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r13b
+	mov	esi, ebx
+	shl	r9b, 3
+	or	r9b, dil
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	shl	r11b, 4
+	or	r11b, r9b
+	shl	r15b, 5
+	or	r15b, r11b
+	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r8b, 7
+	or	r8b, sil
+	or	r12b, bl
+	or	r8b, r15b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
+	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, al
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
+	mov	byte ptr [rsi], r12b
+	movzx	edi, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r14b, 7
+	or	r14b, dil
+	mov	byte ptr [rsi + 1], r8b
+	or	r14b, bl
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rsi + 2], r14b
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	byte ptr [rsi + 3], dl
+	lea	r12, [rcx + 32]
+	add	rsi, 4
+	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB2_44
+# %bb.45:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
+	jmp	.LBB2_129
+.LBB2_46:
+	cmp	edi, 7
+	je	.LBB2_117
+# %bb.47:
+	cmp	edi, 8
+	jne	.LBB2_157
+# %bb.48:
+	mov	r13, qword ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_52
+# %bb.49:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB2_50:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	mov	r9, r11
+	movzx	r8d, byte ptr [r11 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_50
+# %bb.51:
+	add	r11, 1
+.LBB2_52:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB2_56
+# %bb.53:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_54:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	cmp	r13, qword ptr [rdx]
+	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 8]
+	sete	dil
+	cmp	r13, qword ptr [rdx + 16]
+	sete	r14b
+	cmp	r13, qword ptr [rdx + 24]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 32]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 40]
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 48]
+	sete	al
+	cmp	r13, qword ptr [rdx + 56]
+	sete	r11b
+	cmp	r13, qword ptr [rdx + 64]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 72]
+	sete	sil
+	cmp	r13, qword ptr [rdx + 80]
+	sete	r8b
+	cmp	r13, qword ptr [rdx + 88]
+	sete	r9b
+	cmp	r13, qword ptr [rdx + 96]
+	sete	r10b
+	cmp	r13, qword ptr [rdx + 104]
+	sete	r12b
+	cmp	r13, qword ptr [rdx + 112]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 120]
+	sete	cl
+	cmp	r13, qword ptr [rdx + 128]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 136]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 144]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 152]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 160]
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 168]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 176]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 184]
+	sete	r15b
+	cmp	r13, qword ptr [rdx + 192]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 200]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 208]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 216]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 224]
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 232]
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 240]
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 248]
+	sete	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	esi, eax
+	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rax], r11b
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], bl
+	add	rdx, 256
+	add	r11, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB2_54
+# %bb.55:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB2_56:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB2_157
+# %bb.57:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	je	.LBB2_93
+# %bb.58:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB2_59:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	sete	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	mov	r14, r11
+	movzx	r9d, byte ptr [r11 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r11 + rsi], bl
+	add	rdi, 2
+	cmp	r13, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	sete	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r11 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB2_59
+	jmp	.LBB2_146
+.LBB2_60:
+	movzx	r13d, word ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_64
+# %bb.61:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB2_62:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	mov	r9, r11
+	movzx	r8d, byte ptr [r11 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_62
+# %bb.63:
+	add	r11, 1
+.LBB2_64:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB2_68
+# %bb.65:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_66:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	cmp	r13w, word ptr [rdx]
+	sete	al
+	cmp	r13w, word ptr [rdx + 2]
+	sete	dil
+	cmp	r13w, word ptr [rdx + 4]
+	sete	r14b
+	cmp	r13w, word ptr [rdx + 6]
+	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 8]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 10]
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 12]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 14]
+	sete	r11b
+	cmp	r13w, word ptr [rdx + 16]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 18]
+	sete	sil
+	cmp	r13w, word ptr [rdx + 20]
+	sete	r8b
+	cmp	r13w, word ptr [rdx + 22]
+	sete	r9b
+	cmp	r13w, word ptr [rdx + 24]
+	sete	r10b
+	cmp	r13w, word ptr [rdx + 26]
+	sete	r12b
+	cmp	r13w, word ptr [rdx + 28]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 30]
+	sete	cl
+	cmp	r13w, word ptr [rdx + 32]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 34]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 36]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 38]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 40]
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 42]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 44]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 46]
+	sete	r15b
+	cmp	r13w, word ptr [rdx + 48]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 50]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 52]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 54]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 56]
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 58]
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 60]
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 62]
+	sete	bl
+	add	dil, dil
+	or	dil, al
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	esi, eax
+	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rax], r11b
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], bl
+	add	rdx, 64
+	add	r11, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB2_66
+# %bb.67:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB2_68:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB2_157
+# %bb.69:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	je	.LBB2_82
+# %bb.70:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB2_71:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rdx]
+	sete	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	mov	r14, r11
+	movzx	r9d, byte ptr [r11 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r11 + rsi], bl
+	add	rdi, 2
+	cmp	r13w, word ptr [rdx + 2]
+	lea	rdx, [rdx + 4]
+	sete	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r11 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB2_71
+	jmp	.LBB2_142
+.LBB2_72:
+	movzx	r13d, word ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_76
+# %bb.73:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB2_74:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	mov	r9, r11
+	movzx	r8d, byte ptr [r11 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_74
+# %bb.75:
+	add	r11, 1
+.LBB2_76:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB2_80
+# %bb.77:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_78:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	cmp	r13w, word ptr [rdx]
+	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 2]
+	sete	dil
+	cmp	r13w, word ptr [rdx + 4]
+	sete	r14b
+	cmp	r13w, word ptr [rdx + 6]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 8]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 10]
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 12]
+	sete	al
+	cmp	r13w, word ptr [rdx + 14]
+	sete	r11b
+	cmp	r13w, word ptr [rdx + 16]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 18]
+	sete	sil
+	cmp	r13w, word ptr [rdx + 20]
+	sete	r8b
+	cmp	r13w, word ptr [rdx + 22]
+	sete	r9b
+	cmp	r13w, word ptr [rdx + 24]
+	sete	r10b
+	cmp	r13w, word ptr [rdx + 26]
+	sete	r12b
+	cmp	r13w, word ptr [rdx + 28]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 30]
+	sete	cl
+	cmp	r13w, word ptr [rdx + 32]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 34]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 36]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 38]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 40]
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 42]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 44]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 46]
+	sete	r15b
+	cmp	r13w, word ptr [rdx + 48]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 50]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 52]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 54]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 56]
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 58]
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 60]
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 62]
+	sete	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	esi, eax
+	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rax], r11b
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], bl
+	add	rdx, 64
+	add	r11, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB2_78
+# %bb.79:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB2_80:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB2_157
+# %bb.81:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB2_140
+.LBB2_82:
+	xor	edi, edi
+	jmp	.LBB2_142
+.LBB2_83:
+	mov	r13, qword ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_87
+# %bb.84:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB2_85:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	mov	r9, r11
+	movzx	r8d, byte ptr [r11 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_85
+# %bb.86:
+	add	r11, 1
+.LBB2_87:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB2_91
+# %bb.88:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_89:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	cmp	r13, qword ptr [rdx]
+	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 8]
+	sete	dil
+	cmp	r13, qword ptr [rdx + 16]
+	sete	r14b
+	cmp	r13, qword ptr [rdx + 24]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 32]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 40]
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 48]
+	sete	al
+	cmp	r13, qword ptr [rdx + 56]
+	sete	r11b
+	cmp	r13, qword ptr [rdx + 64]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 72]
+	sete	sil
+	cmp	r13, qword ptr [rdx + 80]
+	sete	r8b
+	cmp	r13, qword ptr [rdx + 88]
+	sete	r9b
+	cmp	r13, qword ptr [rdx + 96]
+	sete	r10b
+	cmp	r13, qword ptr [rdx + 104]
+	sete	r12b
+	cmp	r13, qword ptr [rdx + 112]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 120]
+	sete	cl
+	cmp	r13, qword ptr [rdx + 128]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 136]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 144]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 152]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 160]
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 168]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 176]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 184]
+	sete	r15b
+	cmp	r13, qword ptr [rdx + 192]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 200]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 208]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 216]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 224]
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 232]
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 240]
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 248]
+	sete	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	esi, eax
+	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rax], r11b
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], bl
+	add	rdx, 256
+	add	r11, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB2_89
+# %bb.90:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB2_91:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB2_157
+# %bb.92:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB2_144
+.LBB2_93:
+	xor	edi, edi
+	jmp	.LBB2_146
+.LBB2_94:
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB2_98
+# %bb.95:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB2_96:                               # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	mov	r15, r11
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_96
+# %bb.97:
+	add	r11, 1
+.LBB2_98:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB2_102
+# %bb.99:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_100:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	vucomiss	xmm0, dword ptr [rdx]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 4]
+	sete	r8b
+	vucomiss	xmm0, dword ptr [rdx + 8]
+	sete	r11b
+	vucomiss	xmm0, dword ptr [rdx + 12]
+	sete	r13b
+	vucomiss	xmm0, dword ptr [rdx + 16]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 20]
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 24]
+	sete	al
+	vucomiss	xmm0, dword ptr [rdx + 28]
+	sete	r14b
+	vucomiss	xmm0, dword ptr [rdx + 32]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 36]
+	sete	sil
+	vucomiss	xmm0, dword ptr [rdx + 40]
+	sete	dil
+	vucomiss	xmm0, dword ptr [rdx + 44]
+	sete	r9b
+	vucomiss	xmm0, dword ptr [rdx + 48]
+	sete	r10b
+	vucomiss	xmm0, dword ptr [rdx + 52]
+	sete	r12b
+	vucomiss	xmm0, dword ptr [rdx + 56]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 60]
+	sete	cl
+	vucomiss	xmm0, dword ptr [rdx + 64]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 68]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 72]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 76]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 80]
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 84]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 88]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 92]
+	sete	r15b
+	vucomiss	xmm0, dword ptr [rdx + 96]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 100]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 104]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 108]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 112]
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 116]
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 120]
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 124]
+	sete	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r14b, 7
+	or	r14b, al
+	shl	r11b, 2
+	or	r11b, r8b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r11b
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	dil, 2
+	or	dil, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r13b
+	mov	r8d, eax
+	shl	r9b, 3
+	or	r9b, dil
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r14b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	byte ptr [r11], r14b
+	movzx	esi, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r15b, 7
+	or	r15b, sil
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], bl
+	add	rdx, 128
+	add	r11, 4
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB2_100
+# %bb.101:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
+.LBB2_102:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB2_157
+# %bb.103:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB2_148
+# %bb.104:
+	xor	edi, edi
+	jmp	.LBB2_150
+.LBB2_105:
+	mov	r14b, byte ptr [rsi]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_109
+# %bb.106:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB2_107:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	mov	r12, r11
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_107
+# %bb.108:
+	add	r11, 1
+.LBB2_109:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB2_132
+# %bb.110:
+	cmp	r15, 32
+	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
+	jb	.LBB2_113
+# %bb.111:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	cmp	r11, rax
+	jae	.LBB2_168
+# %bb.112:
+	lea	rax, [r11 + 4*r15]
+	cmp	rdx, rax
+	jae	.LBB2_168
+.LBB2_113:
+	xor	eax, eax
+	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
+	mov	r12, rdx
+	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
+.LBB2_114:
+	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_115:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, r12
+	cmp	r14b, byte ptr [r12]
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [r12 + 1]
+	sete	r10b
+	cmp	r14b, byte ptr [r12 + 2]
+	sete	bl
+	cmp	r14b, byte ptr [r12 + 3]
+	sete	r13b
+	cmp	r14b, byte ptr [r12 + 4]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [r12 + 5]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [r12 + 6]
+	sete	al
+	cmp	r14b, byte ptr [r12 + 7]
+	sete	r12b
+	cmp	r14b, byte ptr [rcx + 8]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 9]
+	sete	sil
+	cmp	r14b, byte ptr [rcx + 10]
+	sete	dil
+	cmp	r14b, byte ptr [rcx + 11]
+	sete	r9b
+	cmp	r14b, byte ptr [rcx + 12]
+	sete	r11b
+	cmp	r14b, byte ptr [rcx + 13]
+	sete	r15b
+	cmp	r14b, byte ptr [rcx + 14]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 15]
+	sete	r8b
+	cmp	r14b, byte ptr [rcx + 16]
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 17]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 18]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 19]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 20]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 21]
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 22]
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 23]
+	sete	r14b
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 24]
+	sete	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 25]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 26]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 27]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 28]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 29]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 30]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 31]
+	sete	dl
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 320]      # 1-byte Folded Reload
+	shl	al, 6
+	shl	r12b, 7
+	or	r12b, al
+	shl	bl, 2
+	or	bl, r10b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, bl
+	shl	dil, 2
+	or	dil, sil
+	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r13b
+	mov	esi, ebx
+	shl	r9b, 3
+	or	r9b, dil
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	shl	r11b, 4
+	or	r11b, r9b
+	shl	r15b, 5
+	or	r15b, r11b
+	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r8b, 7
+	or	r8b, sil
+	or	r12b, bl
+	or	r8b, r15b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
+	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, al
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
+	mov	byte ptr [rsi], r12b
+	movzx	edi, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r14b, 7
+	or	r14b, dil
+	mov	byte ptr [rsi + 1], r8b
+	or	r14b, bl
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rsi + 2], r14b
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	byte ptr [rsi + 3], dl
+	lea	r12, [rcx + 32]
+	add	rsi, 4
+	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB2_115
+# %bb.116:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
+	jmp	.LBB2_133
+.LBB2_117:
+	mov	r13d, dword ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_121
+# %bb.118:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB2_119:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	mov	r9, r11
+	movzx	r8d, byte ptr [r11 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_119
+# %bb.120:
+	add	r11, 1
+.LBB2_121:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB2_125
+# %bb.122:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_123:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	cmp	r13d, dword ptr [rdx]
+	sete	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 4]
+	sete	dil
+	cmp	r13d, dword ptr [rdx + 8]
+	sete	r14b
+	cmp	r13d, dword ptr [rdx + 12]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 16]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 20]
+	sete	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 24]
+	sete	al
+	cmp	r13d, dword ptr [rdx + 28]
+	sete	r11b
+	cmp	r13d, dword ptr [rdx + 32]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 36]
+	sete	sil
+	cmp	r13d, dword ptr [rdx + 40]
+	sete	r8b
+	cmp	r13d, dword ptr [rdx + 44]
+	sete	r9b
+	cmp	r13d, dword ptr [rdx + 48]
+	sete	r10b
+	cmp	r13d, dword ptr [rdx + 52]
+	sete	r12b
+	cmp	r13d, dword ptr [rdx + 56]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 60]
+	sete	cl
+	cmp	r13d, dword ptr [rdx + 64]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 68]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 72]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 76]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 80]
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 84]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 88]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 92]
+	sete	r15b
+	cmp	r13d, dword ptr [rdx + 96]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 100]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 104]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 108]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 112]
+	sete	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 116]
+	sete	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 120]
+	sete	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 124]
+	sete	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	esi, eax
+	mov	rax, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rax], r11b
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], bl
+	add	rdx, 128
+	add	r11, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB2_123
+# %bb.124:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB2_125:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB2_157
+# %bb.126:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB2_152
+.LBB2_127:
+	xor	edi, edi
+	jmp	.LBB2_154
+.LBB2_128:
+	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
+	mov	r12, rdx
+.LBB2_129:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB2_157
+# %bb.130:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	je	.LBB2_135
+# %bb.158:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_159:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [r12 + rsi]
+	sete	bl
+	neg	bl
+	mov	rdi, rsi
+	shr	rdi, 3
+	mov	ecx, esi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	r14b, byte ptr [r12 + rsi + 1]
+	lea	rsi, [rsi + 2]
+	sete	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB2_159
+	jmp	.LBB2_162
+.LBB2_132:
+	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
+	mov	r12, rdx
+.LBB2_133:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB2_157
+# %bb.134:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB2_160
+.LBB2_135:
+	xor	esi, esi
+	jmp	.LBB2_163
+.LBB2_136:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB2_137:                              # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rdx]
+	sete	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	mov	r14, r11
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	al, r9b
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r11 + rsi], bl
+	add	rdi, 2
+	vucomisd	xmm0, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	sete	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r11 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB2_137
+.LBB2_138:
+	test	r8b, 1
+	je	.LBB2_157
+# %bb.139:
+	vucomisd	xmm0, qword ptr [rdx]
+	jmp	.LBB2_156
+.LBB2_140:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB2_141:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rdx]
+	sete	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	mov	r14, r11
+	movzx	r9d, byte ptr [r11 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r11 + rsi], bl
+	add	rdi, 2
+	cmp	r13w, word ptr [rdx + 2]
+	lea	rdx, [rdx + 4]
+	sete	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r11 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB2_141
+.LBB2_142:
+	test	r8b, 1
+	je	.LBB2_157
+# %bb.143:
+	cmp	r13w, word ptr [rdx]
+	jmp	.LBB2_156
+.LBB2_144:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB2_145:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	sete	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	mov	r14, r11
+	movzx	r9d, byte ptr [r11 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r11 + rsi], bl
+	add	rdi, 2
+	cmp	r13, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	sete	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r11 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB2_145
+.LBB2_146:
+	test	r8b, 1
+	je	.LBB2_157
+# %bb.147:
+	cmp	r13, qword ptr [rdx]
+	jmp	.LBB2_156
+.LBB2_148:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB2_149:                              # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rdx]
+	sete	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	mov	r14, r11
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	al, r9b
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r11 + rsi], bl
+	add	rdi, 2
+	vucomiss	xmm0, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	sete	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r11 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB2_149
+.LBB2_150:
+	test	r8b, 1
+	je	.LBB2_157
+# %bb.151:
+	vucomiss	xmm0, dword ptr [rdx]
+	jmp	.LBB2_156
+.LBB2_152:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB2_153:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	sete	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	mov	r14, r11
+	movzx	r9d, byte ptr [r11 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r11 + rsi], bl
+	add	rdi, 2
+	cmp	r13d, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	sete	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r11 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB2_153
+.LBB2_154:
+	test	r8b, 1
+	je	.LBB2_157
+# %bb.155:
+	cmp	r13d, dword ptr [rdx]
+.LBB2_156:
+	sete	al
+	neg	al
+	mov	rdx, rdi
+	shr	rdx, 3
+	mov	sil, byte ptr [r11 + rdx]
+	and	dil, 7
+	mov	bl, 1
+	mov	ecx, edi
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	xor	bl, sil
+	mov	byte ptr [r11 + rdx], bl
+.LBB2_157:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	vzeroupper
+	ret
+.LBB2_160:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_161:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [r12 + rsi]
+	sete	bl
+	neg	bl
+	mov	rdi, rsi
+	shr	rdi, 3
+	mov	ecx, esi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	r14b, byte ptr [r12 + rsi + 1]
+	lea	rsi, [rsi + 2]
+	sete	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB2_161
+.LBB2_162:
+	add	r12, rsi
+.LBB2_163:
+	test	r8b, 1
+	je	.LBB2_157
+# %bb.164:
+	cmp	r14b, byte ptr [r12]
+	sete	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 376]       # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r8 + rdx], bl
+	jmp	.LBB2_157
+.LBB2_165:
+	and	r15, -32
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
+	lea	rax, [r11 + 4*r15]
+	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_166:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, rax
+	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rdx + rax]
+	vmovd	xmm0, eax
+	movzx	eax, byte ptr [rdx + rbx]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rdx + rcx + 1]
+	vmovd	xmm4, eax
+	movzx	eax, byte ptr [rdx + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rdx + rcx + 2]
+	mov	rdi, rcx
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
+	mov	rcx, rbx
+	movzx	eax, byte ptr [rdx + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rdi + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rdx + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rdx + rdi + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rbx + 4]
+	vmovd	xmm13, eax
+	movzx	eax, byte ptr [rdx + rdi + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rdx + rbx + 5]
+	vmovd	xmm6, eax
+	movzx	eax, byte ptr [rdx + rdi + 6]
+	mov	qword ptr [rsp + 256], rdi      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rdx + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rdx + rdi + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rdx + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 544
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	or	rbx, 576
+	mov	qword ptr [rsp + 168], rbx      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 608
+	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
+	mov	r12, rcx
+	or	r12, 640
+	mov	qword ptr [rsp + 240], r12      # 8-byte Spill
+	mov	r14, rcx
+	or	r14, 672
+	mov	qword ptr [rsp + 248], r14      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 704
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 736
+	mov	rdi, rax
+	mov	r9, rcx
+	or	r9, 768
+	mov	qword ptr [rsp + 192], r9       # 8-byte Spill
+	mov	r15, rcx
+	or	r15, 800
+	mov	qword ptr [rsp + 184], r15      # 8-byte Spill
+	mov	r11, rcx
+	or	r11, 832
+	mov	qword ptr [rsp + 224], r11      # 8-byte Spill
+	mov	r10, rcx
+	or	r10, 864
+	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
+	mov	r8, rcx
+	or	r8, 896
+	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
+	mov	rsi, rcx
+	or	rsi, 928
+	mov	qword ptr [rsp + 208], rsi      # 8-byte Spill
+	mov	rax, rcx
+	mov	qword ptr [rsp + 264], rcx      # 8-byte Spill
+	or	rax, 960
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	or	rcx, 992
+	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm9, xmm0, byte ptr [rdx + r13], 1
+	vpinsrb	xmm0, xmm9, byte ptr [rdx + rbx], 2
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14], 5
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 7
+	mov	r13, rdi
+	mov	qword ptr [rsp + 200], rdi      # 8-byte Spill
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 15
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 1
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 2
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 3
+	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
+	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 5
+	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 6
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 9
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 10
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 11
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 12
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 13
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 14
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 15
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 1
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 2
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 3
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 4
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 5
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 7
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 8
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 9
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 10
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 12
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 14
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rdx + r14 + 1], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 1], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 1], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 1], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
+	vinserti128	ymm15, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 1], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 8]
+	vmovd	xmm9, esi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 8]
+	vmovd	xmm10, esi
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 1
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 2], 2
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 6
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 2], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 8
+	mov	r12, r13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 9
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 10
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 11
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 2], 12
+	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 2
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 5
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 8
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 9
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 10
+	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 11
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 13
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 14
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rdx + r8 + 3], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 3
+	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 4
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 7
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 3], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 13
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 14
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 15
+	vpinsrb	xmm5, xmm8, byte ptr [rdx + rax + 3], 1
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 3], 2
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 4
+	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 5
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 8
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 3], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 9]
+	vmovd	xmm8, esi
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 3], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 9]
+	vmovd	xmm11, esi
+	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 1
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 3
+	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 4], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 9
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 15
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm13, byte ptr [rdx + rax + 4], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 2
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 5
+	mov	rsi, r14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 6
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 7
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 9
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 10
+	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 11
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 12
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 13
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 4], 15
+	vpinsrb	xmm4, xmm14, byte ptr [rdx + r8 + 5], 1
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 2
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 5
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 6
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 8
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 9
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 10
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 12
+	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 14
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 15
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm6, byte ptr [rdx + rdi + 5], 1
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 5], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 5], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 8
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
+	vinserti128	ymm14, ymm3, xmm0, 1
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + r12 + 5], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 10]
+	vmovd	xmm3, esi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 10]
+	vmovd	xmm4, esi
+	mov	r14, r8
+	vpinsrb	xmm0, xmm12, byte ptr [rdx + r8 + 6], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 3
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 6], 4
+	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 6], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 10
+	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 6], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 15
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rdx + rcx + 6], 1
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 2
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 3
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 5
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 6
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 9
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 10
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 11
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 12
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 13
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 14
+	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 2
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 7], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 5
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 7
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 8
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 9
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 13
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 15
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 1
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 2
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 3
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 7], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 7
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 8
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 9
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 12
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 13
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rdx + rcx + 7], 14
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 11]
+	vmovd	xmm1, esi
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 7], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 11]
+	vmovd	xmm2, esi
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx + 8], 1
+	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 8], 3
+	mov	r13, r11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 8], 4
+	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 8], 5
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 6
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 8], 8
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 9
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 10
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 11
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 15
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm10, byte ptr [rdx + rax + 8], 1
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 2
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 5
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 7
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 11
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 12
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 13
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 14
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 15
+	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm6, xmm8, byte ptr [rdx + r12 + 9], 1
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 2
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 3
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 9], 4
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 9], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 6
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 7
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 8
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 9
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 10
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 11
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 9], 12
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 14
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 9], 15
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm7, xmm11, byte ptr [rdx + rcx + 9], 1
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 4
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 9], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 6
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 7
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 8
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 9
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 12]
+	vmovd	xmm0, esi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 12]
+	vmovd	xmm5, esi
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 2
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 4
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 6
+	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 7
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 10], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 9
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 12
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 13
+	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 15
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 2
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 3
+	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 9
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 10
+	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 11
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 12
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 13
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 14
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 3
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 4
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 5
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 8
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 9
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 10
+	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 14
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 15
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 1
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 5
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 6
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 11], 7
+	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 14
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 13]
+	vmovd	xmm3, esi
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 13]
+	vmovd	xmm1, esi
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 1
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 4
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 12], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 12], 11
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 13
+	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 15
+	vpinsrb	xmm2, xmm5, byte ptr [rdx + rdi + 12], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 3
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 4
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 7
+	mov	rax, r12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 8
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 12], 9
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 10
+	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
+	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 13
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 14
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 15
+	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 1
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 2
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 3
+	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 5
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 6
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 7
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 8
+	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 9
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 10
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 12
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 13], 14
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 15
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 5
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 6
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 13], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 13], 14
+	vinserti128	ymm0, ymm2, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 13], 15
+	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r13 + 14]
+	vmovd	xmm1, esi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 14]
+	vmovd	xmm0, esi
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 1
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 2
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 3
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 4
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 5
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 6
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 7
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 9
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 10
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 11
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 15
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 14], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 2
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 6
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 14], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 8
+	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 9
+	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 10
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 12
+	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 14], 13
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 15
+	movzx	esi, byte ptr [rdx + r13 + 15]
+	vmovd	xmm2, esi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 1
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 15], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 15], 6
+	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 7
+	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 15], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 9
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 15]
+	vmovd	xmm3, esi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 2
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 4
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 7
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 10
+	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 13
+	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 14
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 15
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 16]
+	vmovd	xmm0, esi
+	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 1
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 2
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 3
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 4
+	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 5
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 16], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 8
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 10
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 11
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 12
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 15
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rbx + 16]
+	vmovd	xmm1, esi
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 16], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 2
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 5
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 8
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 9
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 17]
+	vmovd	xmm2, esi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 17], 1
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 2
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 4
+	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 17], 5
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 17], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 7
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 8
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 17], 9
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 11
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 12
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 15
+	movzx	esi, byte ptr [rdx + rbx + 17]
+	vmovd	xmm3, esi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 1
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 2
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 5
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 9
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 10
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 13
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + rsi + 17], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 18]
+	vmovd	xmm0, esi
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 3
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 6
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 18], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 18], 9
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 18], 12
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 15
+	movzx	esi, byte ptr [rdx + rbx + 18]
+	vmovd	xmm1, esi
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 6
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 7
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 13
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 14
+	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 15
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r15 + 19]
+	vmovd	xmm2, esi
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 1
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 2
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 3
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 4
+	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 5
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 6
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 7
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 8
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 10
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 11
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 19], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 19], 14
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 19], 15
+	movzx	esi, byte ptr [rdx + rbx + 19]
+	vmovd	xmm3, esi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 2
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 19], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 5
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 13
+	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	movzx	esi, byte ptr [rdx + r15 + 20]
+	vmovd	xmm0, esi
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 1
+	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 20], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 3
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 20], 4
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 20], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 9
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 20], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 20]
+	vmovd	xmm1, esi
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 4
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 20], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 8
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 9
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 10
+	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 20], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 12
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 20], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 15
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 21]
+	vmovd	xmm2, esi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 2
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 5
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 6
+	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 7
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 8
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 9
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 10
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 21], 11
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 12
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 21], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 15
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 21]
+	vmovd	xmm3, esi
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 1
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 2
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 6
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 7
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 21], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 21], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 21], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + r8 + 21], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 22]
+	vmovd	xmm0, esi
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 1
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 2
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 3
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 4
+	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 22], 9
+	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 22], 11
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 22], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 14
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 15
+	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r10 + 22]
+	vmovd	xmm1, esi
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 1
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 2
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 4
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 5
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 8
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 9
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 10
+	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 22], 11
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 12
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 13
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 15
+	movzx	esi, byte ptr [rdx + rax + 23]
+	vmovd	xmm2, esi
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 1
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 2
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 23], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 5
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 6
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 7
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 8
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 10
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 12
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 14
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 15
+	movzx	esi, byte ptr [rdx + r10 + 23]
+	vmovd	xmm3, esi
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 2
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 3
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 5
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 23], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 8
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 9
+	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 12
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 15
+	vinserti128	ymm10, ymm1, xmm0, 1
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r9 + 24]
+	vmovd	xmm0, esi
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 1
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 24], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 4
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 7
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 8
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 9
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 10
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 11
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 12
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 15
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 24]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 4
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 6
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 7
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 10
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 13
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 14
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 15
+	movzx	esi, byte ptr [rdx + r9 + 25]
+	vmovd	xmm2, esi
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 1
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 2
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 3
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 4
+	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 25], 5
+	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 9
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 25], 10
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 25], 11
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 25], 12
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 25]
+	vmovd	xmm3, esi
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 2
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 12
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 14
+	vinserti128	ymm9, ymm1, xmm0, 1
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + r8 + 25], 15
+	vinserti128	ymm8, ymm0, xmm2, 1
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 26]
+	vmovd	xmm0, esi
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 1
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 2
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 6
+	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 7
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 8
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 26], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 26], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 15
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rbx + 26]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 1
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 2
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 26], 3
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 4
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 5
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 6
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 7
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 8
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 9
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 13
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 26], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 27]
+	vmovd	xmm2, esi
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 1
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 3
+	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 27], 4
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 27], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 8
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 9
+	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 15
+	movzx	esi, byte ptr [rdx + rbx + 27]
+	vmovd	xmm3, esi
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 5
+	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 8
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 9
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 10
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 12
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 14
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
+	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r13 + 28]
+	vmovd	xmm0, esi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 1
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 2
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 4
+	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 28], 5
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 6
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 7
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 28], 10
+	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 11
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 12
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 14
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 15
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 28]
+	vmovd	xmm1, esi
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 2
+	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 7
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 12
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 13
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 15
+	movzx	esi, byte ptr [rdx + r13 + 29]
+	vmovd	xmm2, esi
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 29], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 3
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 5
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 7
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 8
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 9
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 15
+	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r8 + 29]
+	vmovd	xmm3, esi
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 29], 1
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 29], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 3
+	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 5
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 8
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 9
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 13
+	vpinsrb	xmm4, xmm3, byte ptr [rdx + r12 + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm4, byte ptr [rdx + r12 + 29], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rdi + 30]
+	vmovd	xmm0, esi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 30], 1
+	movzx	esi, byte ptr [rdx + rdi + 31]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 31], 1
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 31], 6
+	mov	rdi, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 31], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 31], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
+	mov	rax, rbx
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 31], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
+	mov	rsi, r8
+	movzx	eax, byte ptr [rdx + r8 + 30]
+	vmovd	xmm1, eax
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 30], 1
+	movzx	eax, byte ptr [rdx + r8 + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 31], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 2
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 31], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 7
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
+	mov	rax, r12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vmovdqa	ymm0, ymmword ptr [rsp + 512]   # 32-byte Reload
+	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI2_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpand	ymm7, ymm2, ymm1
+	vpsubb	ymm11, ymm7, ymm2
+	vpcmpeqb	ymm7, ymm15, ymm0
+	vpand	ymm7, ymm7, ymm1
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI2_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpand	ymm12, ymm12, ymm6
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm11, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpand	ymm7, ymm7, ymm2
+	vpcmpeqb	ymm12, ymm14, ymm0
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI2_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpand	ymm12, ymm12, ymm4
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
+	vmovdqa	ymm13, ymmword ptr [rip + .LCPI2_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpand	ymm12, ymm12, ymm13
+	vmovdqa	ymm14, ymm13
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm11, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI2_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpand	ymm7, ymm7, ymm5
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
+	vpsllw	ymm12, ymm12, 7
+	vmovdqa	ymm15, ymmword ptr [rip + .LCPI2_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpand	ymm12, ymm12, ymm15
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm13, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
+	vpand	ymm12, ymm7, ymm1
+	vpsubb	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm1
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm6
+	vpor	ymm11, ymm12, ymm11
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm2
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm4
+	vpor	ymm11, ymm11, ymm12
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm14
+	vmovdqa	ymm3, ymm14
+	vpor	ymm11, ymm11, ymm12
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm5
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
+	vpsllw	ymm12, ymm12, 7
+	vpand	ymm12, ymm12, ymm15
+	vpor	ymm11, ymm11, ymm12
+	vpor	ymm12, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
+	vpand	ymm11, ymm7, ymm1
+	vpsubb	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm1
+	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm6
+	vpor	ymm11, ymm11, ymm14
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm2
+	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm4
+	vpor	ymm11, ymm11, ymm14
+	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm3
+	vpor	ymm11, ymm11, ymm14
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm10, ymm10, ymm0
+	vmovdqa	ymm14, ymm5
+	vpand	ymm10, ymm10, ymm5
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
+	vpsllw	ymm11, ymm11, 7
+	vpand	ymm11, ymm11, ymm15
+	vpor	ymm10, ymm10, ymm11
+	vpor	ymm7, ymm10, ymm7
+	vpcmpeqb	ymm8, ymm8, ymm0
+	vpand	ymm10, ymm8, ymm1
+	vpsubb	ymm8, ymm10, ymm8
+	vpcmpeqb	ymm9, ymm9, ymm0
+	vpand	ymm9, ymm9, ymm1
+	vpcmpeqb	ymm5, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
+	vpand	ymm5, ymm5, ymm6
+	vpor	ymm5, ymm9, ymm5
+	vpor	ymm5, ymm8, ymm5
+	vpcmpeqb	ymm6, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
+	vpand	ymm6, ymm6, ymm2
+	vpcmpeqb	ymm3, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
+	vpand	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm6, ymm3
+	vpcmpeqb	ymm4, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
+	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI2_4]
+	vpor	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm5, ymm3
+	vpcmpeqb	ymm1, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
+	vpand	ymm1, ymm14, ymm1
+	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
+	vpsllw	ymm2, ymm2, 7
+	vpand	ymm2, ymm15, ymm2
+	vpor	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm3, ymm1
+	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
+	vmovdqu	ymmword ptr [rdi + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [rdi + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [rdi + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [rdi + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	jne	.LBB2_166
+# %bb.167:
+	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
+	jne	.LBB2_43
+	jmp	.LBB2_129
+.LBB2_168:
+	and	r15, -32
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
+	lea	rax, [r11 + 4*r15]
+	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_169:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, rax
+	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rdx + rax]
+	vmovd	xmm0, eax
+	movzx	eax, byte ptr [rdx + rbx]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rdx + rcx + 1]
+	vmovd	xmm4, eax
+	movzx	eax, byte ptr [rdx + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rdx + rcx + 2]
+	mov	rdi, rcx
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
+	mov	rcx, rbx
+	movzx	eax, byte ptr [rdx + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rdi + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rdx + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rdx + rdi + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rbx + 4]
+	vmovd	xmm13, eax
+	movzx	eax, byte ptr [rdx + rdi + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rdx + rbx + 5]
+	vmovd	xmm6, eax
+	movzx	eax, byte ptr [rdx + rdi + 6]
+	mov	qword ptr [rsp + 256], rdi      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rdx + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rdx + rdi + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rdx + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 544
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	or	rbx, 576
+	mov	qword ptr [rsp + 168], rbx      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 608
+	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
+	mov	r12, rcx
+	or	r12, 640
+	mov	qword ptr [rsp + 240], r12      # 8-byte Spill
+	mov	r14, rcx
+	or	r14, 672
+	mov	qword ptr [rsp + 248], r14      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 704
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 736
+	mov	rdi, rax
+	mov	r9, rcx
+	or	r9, 768
+	mov	qword ptr [rsp + 192], r9       # 8-byte Spill
+	mov	r15, rcx
+	or	r15, 800
+	mov	qword ptr [rsp + 184], r15      # 8-byte Spill
+	mov	r11, rcx
+	or	r11, 832
+	mov	qword ptr [rsp + 224], r11      # 8-byte Spill
+	mov	r10, rcx
+	or	r10, 864
+	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
+	mov	r8, rcx
+	or	r8, 896
+	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
+	mov	rsi, rcx
+	or	rsi, 928
+	mov	qword ptr [rsp + 208], rsi      # 8-byte Spill
+	mov	rax, rcx
+	mov	qword ptr [rsp + 264], rcx      # 8-byte Spill
+	or	rax, 960
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	or	rcx, 992
+	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm9, xmm0, byte ptr [rdx + r13], 1
+	vpinsrb	xmm0, xmm9, byte ptr [rdx + rbx], 2
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14], 5
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 7
+	mov	r13, rdi
+	mov	qword ptr [rsp + 200], rdi      # 8-byte Spill
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 15
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 1
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 2
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 3
+	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
+	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 5
+	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 6
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 9
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 10
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 11
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 12
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 13
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 14
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 15
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 1
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 2
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 3
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 4
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 5
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 7
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 8
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 9
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 10
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 12
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 14
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rdx + r14 + 1], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 1], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 1], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 1], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
+	vinserti128	ymm15, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 1], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 8]
+	vmovd	xmm9, esi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 8]
+	vmovd	xmm10, esi
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 1
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 2], 2
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 6
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 2], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 8
+	mov	r12, r13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 9
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 10
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 11
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 2], 12
+	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 2
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 5
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 8
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 9
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 10
+	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 11
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 13
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 14
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rdx + r8 + 3], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 3
+	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 4
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 7
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 3], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 13
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 14
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 15
+	vpinsrb	xmm5, xmm8, byte ptr [rdx + rax + 3], 1
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 3], 2
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 4
+	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 5
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 8
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 3], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 9]
+	vmovd	xmm8, esi
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 3], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 9]
+	vmovd	xmm11, esi
+	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 1
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 3
+	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 4], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 9
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 15
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm13, byte ptr [rdx + rax + 4], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 2
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 5
+	mov	rsi, r14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 6
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 7
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 9
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 10
+	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 11
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 12
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 13
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 4], 15
+	vpinsrb	xmm4, xmm14, byte ptr [rdx + r8 + 5], 1
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 2
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 5
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 6
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 8
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 9
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 10
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 12
+	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 14
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 15
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm6, byte ptr [rdx + rdi + 5], 1
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 5], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 5], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 8
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
+	vinserti128	ymm14, ymm3, xmm0, 1
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + r12 + 5], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 10]
+	vmovd	xmm3, esi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 10]
+	vmovd	xmm4, esi
+	mov	r14, r8
+	vpinsrb	xmm0, xmm12, byte ptr [rdx + r8 + 6], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 3
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 6], 4
+	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 6], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 10
+	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 6], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 15
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rdx + rcx + 6], 1
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 2
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 3
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 5
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 6
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 9
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 10
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 11
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 12
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 13
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 14
+	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 2
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 7], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 5
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 7
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 8
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 9
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 13
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 15
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 1
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 2
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 3
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 7], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 7
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 8
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 9
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 12
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 13
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rdx + rcx + 7], 14
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 11]
+	vmovd	xmm1, esi
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 7], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 11]
+	vmovd	xmm2, esi
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx + 8], 1
+	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 8], 3
+	mov	r13, r11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 8], 4
+	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 8], 5
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 6
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 8], 8
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 9
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 10
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 11
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 15
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm10, byte ptr [rdx + rax + 8], 1
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 2
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 5
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 7
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 11
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 12
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 13
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 14
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 15
+	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm6, xmm8, byte ptr [rdx + r12 + 9], 1
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 2
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 3
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 9], 4
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 9], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 6
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 7
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 8
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 9
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 10
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 11
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 9], 12
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 14
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 9], 15
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm7, xmm11, byte ptr [rdx + rcx + 9], 1
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 4
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 9], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 6
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 7
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 8
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 9
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 12]
+	vmovd	xmm0, esi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 12]
+	vmovd	xmm5, esi
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 2
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 4
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 6
+	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 7
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 10], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 9
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 12
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 13
+	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 15
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 2
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 3
+	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 9
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 10
+	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 11
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 12
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 13
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 14
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 3
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 4
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 5
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 8
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 9
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 10
+	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 14
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 15
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 1
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 5
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 6
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 11], 7
+	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 14
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 13]
+	vmovd	xmm3, esi
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 13]
+	vmovd	xmm1, esi
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 1
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 4
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 12], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 12], 11
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 13
+	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 15
+	vpinsrb	xmm2, xmm5, byte ptr [rdx + rdi + 12], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 3
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 4
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 7
+	mov	rax, r12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 8
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 12], 9
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 10
+	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
+	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 13
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 14
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 15
+	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 1
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 2
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 3
+	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 5
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 6
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 7
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 8
+	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 9
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 10
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 12
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 13], 14
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 15
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 5
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 6
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 13], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 13], 14
+	vinserti128	ymm0, ymm2, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 13], 15
+	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r13 + 14]
+	vmovd	xmm1, esi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 14]
+	vmovd	xmm0, esi
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 1
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 2
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 3
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 4
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 5
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 6
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 7
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 9
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 10
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 11
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 15
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 14], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 2
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 6
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 14], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 8
+	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 9
+	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 10
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 12
+	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 14], 13
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 15
+	movzx	esi, byte ptr [rdx + r13 + 15]
+	vmovd	xmm2, esi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 1
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 15], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 15], 6
+	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 7
+	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 15], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 9
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 15]
+	vmovd	xmm3, esi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 2
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 4
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 7
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 10
+	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 13
+	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 14
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 15
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 16]
+	vmovd	xmm0, esi
+	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 1
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 2
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 3
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 4
+	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 5
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 16], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 8
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 10
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 11
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 12
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 15
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rbx + 16]
+	vmovd	xmm1, esi
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 16], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 2
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 5
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 8
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 9
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 17]
+	vmovd	xmm2, esi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 17], 1
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 2
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 4
+	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 17], 5
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 17], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 7
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 8
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 17], 9
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 11
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 12
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 15
+	movzx	esi, byte ptr [rdx + rbx + 17]
+	vmovd	xmm3, esi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 1
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 2
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 5
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 9
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 10
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 13
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + rsi + 17], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 18]
+	vmovd	xmm0, esi
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 3
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 6
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 18], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 18], 9
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 18], 12
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 15
+	movzx	esi, byte ptr [rdx + rbx + 18]
+	vmovd	xmm1, esi
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 6
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 7
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 13
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 14
+	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 15
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r15 + 19]
+	vmovd	xmm2, esi
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 1
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 2
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 3
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 4
+	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 5
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 6
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 7
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 8
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 10
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 11
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 19], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 19], 14
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 19], 15
+	movzx	esi, byte ptr [rdx + rbx + 19]
+	vmovd	xmm3, esi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 2
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 19], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 5
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 13
+	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	movzx	esi, byte ptr [rdx + r15 + 20]
+	vmovd	xmm0, esi
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 1
+	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 20], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 3
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 20], 4
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 20], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 9
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 20], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 20]
+	vmovd	xmm1, esi
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 4
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 20], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 8
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 9
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 10
+	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 20], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 12
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 20], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 15
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 21]
+	vmovd	xmm2, esi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 2
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 5
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 6
+	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 7
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 8
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 9
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 10
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 21], 11
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 12
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 21], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 21], 15
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 21]
+	vmovd	xmm3, esi
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 1
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 2
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 6
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 7
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 21], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 21], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 21], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + r8 + 21], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 22]
+	vmovd	xmm0, esi
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 1
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 2
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 3
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 4
+	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 22], 9
+	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 22], 11
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 22], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 14
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 15
+	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r10 + 22]
+	vmovd	xmm1, esi
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 1
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 2
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 4
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 5
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 8
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 9
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 10
+	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 22], 11
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 12
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 13
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 15
+	movzx	esi, byte ptr [rdx + rax + 23]
+	vmovd	xmm2, esi
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 1
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 2
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 23], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 5
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 6
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 7
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 8
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 10
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 12
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 14
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 15
+	movzx	esi, byte ptr [rdx + r10 + 23]
+	vmovd	xmm3, esi
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 2
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 3
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 5
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 23], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 8
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 9
+	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 12
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 15
+	vinserti128	ymm10, ymm1, xmm0, 1
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r9 + 24]
+	vmovd	xmm0, esi
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 1
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 24], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 4
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 7
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 8
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 9
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 10
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 11
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 12
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 15
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 24]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 4
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 6
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 7
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 10
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 13
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 14
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 15
+	movzx	esi, byte ptr [rdx + r9 + 25]
+	vmovd	xmm2, esi
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 1
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 2
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 3
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 4
+	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 25], 5
+	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 9
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 25], 10
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 25], 11
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 25], 12
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 25]
+	vmovd	xmm3, esi
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 2
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 12
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 14
+	vinserti128	ymm9, ymm1, xmm0, 1
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + r8 + 25], 15
+	vinserti128	ymm8, ymm0, xmm2, 1
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 26]
+	vmovd	xmm0, esi
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 1
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 2
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 6
+	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 7
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 8
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 26], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 26], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 15
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rbx + 26]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 1
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 2
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 26], 3
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 4
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 5
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 6
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 7
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 8
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 9
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 13
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 26], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 27]
+	vmovd	xmm2, esi
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 1
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 3
+	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 27], 4
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 5
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 27], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 8
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 9
+	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 15
+	movzx	esi, byte ptr [rdx + rbx + 27]
+	vmovd	xmm3, esi
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 5
+	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 8
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 9
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 10
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 12
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 14
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
+	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r13 + 28]
+	vmovd	xmm0, esi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 1
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 2
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 4
+	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 28], 5
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 6
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 7
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 28], 10
+	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 11
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 12
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 14
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 15
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 28]
+	vmovd	xmm1, esi
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 2
+	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 3
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 7
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 11
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 12
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 13
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 15
+	movzx	esi, byte ptr [rdx + r13 + 29]
+	vmovd	xmm2, esi
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 29], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 3
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 5
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 7
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 8
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 29], 9
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 15
+	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r8 + 29]
+	vmovd	xmm3, esi
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 29], 1
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 29], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 3
+	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 5
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 8
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 9
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 13
+	vpinsrb	xmm4, xmm3, byte ptr [rdx + r12 + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm4, byte ptr [rdx + r12 + 29], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rdi + 30]
+	vmovd	xmm0, esi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 30], 1
+	movzx	esi, byte ptr [rdx + rdi + 31]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 31], 1
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 31], 6
+	mov	rdi, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 31], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 31], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
+	mov	rax, rbx
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 31], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
+	mov	rsi, r8
+	movzx	eax, byte ptr [rdx + r8 + 30]
+	vmovd	xmm1, eax
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 30], 1
+	movzx	eax, byte ptr [rdx + r8 + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 31], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 2
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 31], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 7
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 12
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
+	mov	rax, r12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vmovdqa	ymm0, ymmword ptr [rsp + 512]   # 32-byte Reload
+	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI2_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpand	ymm7, ymm2, ymm1
+	vpsubb	ymm11, ymm7, ymm2
+	vpcmpeqb	ymm7, ymm15, ymm0
+	vpand	ymm7, ymm7, ymm1
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI2_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpand	ymm12, ymm12, ymm6
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm11, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI2_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpand	ymm7, ymm7, ymm2
+	vpcmpeqb	ymm12, ymm14, ymm0
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI2_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpand	ymm12, ymm12, ymm4
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
+	vmovdqa	ymm13, ymmword ptr [rip + .LCPI2_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpand	ymm12, ymm12, ymm13
+	vmovdqa	ymm14, ymm13
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm11, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI2_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpand	ymm7, ymm7, ymm5
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
+	vpsllw	ymm12, ymm12, 7
+	vmovdqa	ymm15, ymmword ptr [rip + .LCPI2_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpand	ymm12, ymm12, ymm15
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm13, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
+	vpand	ymm12, ymm7, ymm1
+	vpsubb	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm1
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm6
+	vpor	ymm11, ymm12, ymm11
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm2
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm4
+	vpor	ymm11, ymm11, ymm12
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm14
+	vmovdqa	ymm3, ymm14
+	vpor	ymm11, ymm11, ymm12
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm5
+	vpcmpeqb	ymm12, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
+	vpsllw	ymm12, ymm12, 7
+	vpand	ymm12, ymm12, ymm15
+	vpor	ymm11, ymm11, ymm12
+	vpor	ymm12, ymm11, ymm7
+	vpcmpeqb	ymm7, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
+	vpand	ymm11, ymm7, ymm1
+	vpsubb	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm1
+	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm6
+	vpor	ymm11, ymm11, ymm14
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm2
+	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm4
+	vpor	ymm11, ymm11, ymm14
+	vpcmpeqb	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm3
+	vpor	ymm11, ymm11, ymm14
+	vpor	ymm7, ymm11, ymm7
+	vpcmpeqb	ymm10, ymm10, ymm0
+	vmovdqa	ymm14, ymm5
+	vpand	ymm10, ymm10, ymm5
+	vpcmpeqb	ymm11, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
+	vpsllw	ymm11, ymm11, 7
+	vpand	ymm11, ymm11, ymm15
+	vpor	ymm10, ymm10, ymm11
+	vpor	ymm7, ymm10, ymm7
+	vpcmpeqb	ymm8, ymm8, ymm0
+	vpand	ymm10, ymm8, ymm1
+	vpsubb	ymm8, ymm10, ymm8
+	vpcmpeqb	ymm9, ymm9, ymm0
+	vpand	ymm9, ymm9, ymm1
+	vpcmpeqb	ymm5, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
+	vpand	ymm5, ymm5, ymm6
+	vpor	ymm5, ymm9, ymm5
+	vpor	ymm5, ymm8, ymm5
+	vpcmpeqb	ymm6, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
+	vpand	ymm6, ymm6, ymm2
+	vpcmpeqb	ymm3, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
+	vpand	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm6, ymm3
+	vpcmpeqb	ymm4, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
+	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI2_4]
+	vpor	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm5, ymm3
+	vpcmpeqb	ymm1, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
+	vpand	ymm1, ymm14, ymm1
+	vpcmpeqb	ymm2, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
+	vpsllw	ymm2, ymm2, 7
+	vpand	ymm2, ymm15, ymm2
+	vpor	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm3, ymm1
+	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
+	vmovdqu	ymmword ptr [rdi + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [rdi + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [rdi + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [rdi + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	jne	.LBB2_169
+# %bb.170:
+	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
+	jne	.LBB2_114
+	jmp	.LBB2_133
+.Lfunc_end2:
+	.size	comparison_equal_scalar_arr_avx2, .Lfunc_end2-comparison_equal_scalar_arr_avx2
+                                        # -- End function
+	.globl	comparison_not_equal_arr_arr_avx2 # -- Begin function comparison_not_equal_arr_arr_avx2
+	.p2align	4, 0x90
+	.type	comparison_not_equal_arr_arr_avx2,@function
+comparison_not_equal_arr_arr_avx2:      # @comparison_not_equal_arr_arr_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -8
+	sub	rsp, 72
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r11, r8
+	mov	r14, rcx
+	cmp	edi, 6
+	jg	.LBB3_29
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB3_2
+# %bb.15:
+	cmp	edi, 4
+	je	.LBB3_68
+# %bb.16:
+	cmp	edi, 5
+	je	.LBB3_79
+# %bb.17:
+	cmp	edi, 6
+	jne	.LBB3_123
+# %bb.18:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_22
+# %bb.19:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_20:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_20
+# %bb.21:
+	add	r14, 1
+.LBB3_22:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_26
+# %bb.23:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_24:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	setne	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	setne	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	setne	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	setne	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	setne	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	setne	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	setne	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	setne	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	setne	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	setne	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB3_24
+# %bb.25:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB3_26:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.27:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_28:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rsi + 4*rcx]
+	cmp	edi, dword ptr [rdx + 4*rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_28
+	jmp	.LBB3_123
+.LBB3_29:
+	cmp	edi, 8
+	jle	.LBB3_30
+# %bb.43:
+	cmp	edi, 9
+	je	.LBB3_101
+# %bb.44:
+	cmp	edi, 11
+	je	.LBB3_112
+# %bb.45:
+	cmp	edi, 12
+	jne	.LBB3_123
+# %bb.46:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_50
+# %bb.47:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_48:                               # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	add	rsi, 8
+	vucomisd	xmm0, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_48
+# %bb.49:
+	add	r14, 1
+.LBB3_50:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_54
+# %bb.51:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_52:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	vmovsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	vucomisd	xmm1, qword ptr [rdx + 8]
+	setne	al
+	vmovsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 16]
+	vmovsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 24]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 32]
+	vmovsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 40]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 48]
+	vmovsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
+	setne	r13b
+	vucomisd	xmm0, qword ptr [rdx + 56]
+	setne	r15b
+	vmovsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 64]
+	vmovsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 72]
+	setne	cl
+	vmovsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 80]
+	vmovsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
+	setne	r9b
+	vucomisd	xmm0, qword ptr [rdx + 88]
+	setne	r11b
+	vmovsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 96]
+	vmovsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
+	setne	r10b
+	vucomisd	xmm0, qword ptr [rdx + 104]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 112]
+	vmovsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 120]
+	setne	bl
+	vmovsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 128]
+	vmovsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 136]
+	vmovsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
+	setne	r14b
+	vucomisd	xmm0, qword ptr [rdx + 144]
+	vmovsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
+	setne	r12b
+	vucomisd	xmm0, qword ptr [rdx + 152]
+	vmovsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 160]
+	vmovsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 168]
+	vmovsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 176]
+	vmovsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 184]
+	vmovsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
+	setne	r8b
+	vucomisd	xmm0, qword ptr [rdx + 192]
+	vmovsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 200]
+	vmovsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 208]
+	vmovsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 216]
+	vmovsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 224]
+	vmovsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 232]
+	vmovsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 240]
+	vmovsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	add	rsi, 256
+	vucomisd	xmm0, qword ptr [rdx + 248]
+	setne	dil
+	add	al, al
+	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r12b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB3_52
+# %bb.53:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB3_54:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.55:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_56:                               # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 8*rcx]
+	lea	r8, [rcx + 1]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_56
+	jmp	.LBB3_123
+.LBB3_2:
+	cmp	edi, 2
+	je	.LBB3_57
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB3_123
+# %bb.4:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_8
+# %bb.5:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_6:                                # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_6
+# %bb.7:
+	add	r14, 1
+.LBB3_8:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_12
+# %bb.9:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_10:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	setne	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	setne	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	setne	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	setne	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	setne	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	setne	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	setne	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	setne	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	setne	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	setne	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	setne	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB3_10
+# %bb.11:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB3_12:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.13:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_14:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rsi + rcx]
+	cmp	bl, byte ptr [rdx + rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_14
+	jmp	.LBB3_123
+.LBB3_30:
+	cmp	edi, 7
+	je	.LBB3_90
+# %bb.31:
+	cmp	edi, 8
+	jne	.LBB3_123
+# %bb.32:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_36
+# %bb.33:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_34:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_34
+# %bb.35:
+	add	r14, 1
+.LBB3_36:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_40
+# %bb.37:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_38:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	setne	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	setne	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	setne	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	setne	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	setne	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	setne	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	setne	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	setne	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	setne	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	setne	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB3_38
+# %bb.39:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB3_40:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.41:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_42:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rsi + 8*rcx]
+	cmp	rdi, qword ptr [rdx + 8*rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_42
+	jmp	.LBB3_123
+.LBB3_68:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_72
+# %bb.69:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_70:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_70
+# %bb.71:
+	add	r14, 1
+.LBB3_72:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_76
+# %bb.73:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_74:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	setne	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	setne	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	setne	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	setne	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	setne	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	setne	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	setne	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	setne	r12b
+	cmp	ax, word ptr [rdx + 40]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	setne	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	setne	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB3_74
+# %bb.75:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB3_76:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.77:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_78:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rsi + 2*rcx]
+	cmp	di, word ptr [rdx + 2*rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_78
+	jmp	.LBB3_123
+.LBB3_79:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_83
+# %bb.80:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_81:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_81
+# %bb.82:
+	add	r14, 1
+.LBB3_83:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_87
+# %bb.84:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_85:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	setne	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	setne	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	setne	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	setne	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	setne	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	setne	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	setne	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	setne	r12b
+	cmp	ax, word ptr [rdx + 40]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	setne	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	setne	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB3_85
+# %bb.86:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB3_87:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.88:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_89:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rsi + 2*rcx]
+	cmp	di, word ptr [rdx + 2*rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_89
+	jmp	.LBB3_123
+.LBB3_101:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_105
+# %bb.102:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_103:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_103
+# %bb.104:
+	add	r14, 1
+.LBB3_105:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_109
+# %bb.106:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_107:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	setne	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	setne	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	setne	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	setne	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	setne	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	setne	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	setne	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	setne	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	setne	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	setne	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB3_107
+# %bb.108:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB3_109:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.110:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_111:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rsi + 8*rcx]
+	cmp	rdi, qword ptr [rdx + 8*rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_111
+	jmp	.LBB3_123
+.LBB3_112:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_116
+# %bb.113:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_114:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	add	rsi, 4
+	vucomiss	xmm0, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_114
+# %bb.115:
+	add	r14, 1
+.LBB3_116:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_120
+# %bb.117:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_118:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	vmovss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	vucomiss	xmm1, dword ptr [rdx + 4]
+	setne	al
+	vmovss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 8]
+	vmovss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 12]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 16]
+	vmovss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 20]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 24]
+	vmovss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
+	setne	r13b
+	vucomiss	xmm0, dword ptr [rdx + 28]
+	setne	r15b
+	vmovss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 32]
+	vmovss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 36]
+	setne	cl
+	vmovss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 40]
+	vmovss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
+	setne	r9b
+	vucomiss	xmm0, dword ptr [rdx + 44]
+	setne	r11b
+	vmovss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 48]
+	vmovss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
+	setne	r10b
+	vucomiss	xmm0, dword ptr [rdx + 52]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 56]
+	vmovss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 60]
+	setne	bl
+	vmovss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 64]
+	vmovss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 68]
+	vmovss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
+	setne	r14b
+	vucomiss	xmm0, dword ptr [rdx + 72]
+	vmovss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
+	setne	r12b
+	vucomiss	xmm0, dword ptr [rdx + 76]
+	vmovss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 80]
+	vmovss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 84]
+	vmovss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 88]
+	vmovss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 92]
+	vmovss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
+	setne	r8b
+	vucomiss	xmm0, dword ptr [rdx + 96]
+	vmovss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 100]
+	vmovss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 104]
+	vmovss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 108]
+	vmovss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 112]
+	vmovss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 116]
+	vmovss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 120]
+	vmovss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	sub	rsi, -128
+	vucomiss	xmm0, dword ptr [rdx + 124]
+	setne	dil
+	add	al, al
+	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r12b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB3_118
+# %bb.119:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB3_120:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.121:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_122:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 4*rcx]
+	lea	r8, [rcx + 1]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_122
+	jmp	.LBB3_123
+.LBB3_57:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_61
+# %bb.58:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_59:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_59
+# %bb.60:
+	add	r14, 1
+.LBB3_61:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_65
+# %bb.62:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_63:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	setne	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	setne	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	setne	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	setne	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	setne	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	setne	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	setne	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	setne	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	setne	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	setne	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	setne	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB3_63
+# %bb.64:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB3_65:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.66:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_67:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rsi + rcx]
+	cmp	bl, byte ptr [rdx + rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_67
+	jmp	.LBB3_123
+.LBB3_90:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_94
+# %bb.91:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_92:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_92
+# %bb.93:
+	add	r14, 1
+.LBB3_94:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_98
+# %bb.95:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_96:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	setne	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	setne	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	setne	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	setne	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	setne	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	setne	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	setne	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	setne	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	setne	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	setne	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB3_96
+# %bb.97:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB3_98:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.99:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_100:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rsi + 4*rcx]
+	cmp	edi, dword ptr [rdx + 4*rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_100
+.LBB3_123:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.Lfunc_end3:
+	.size	comparison_not_equal_arr_arr_avx2, .Lfunc_end3-comparison_not_equal_arr_arr_avx2
+                                        # -- End function
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5                               # -- Begin function comparison_not_equal_arr_scalar_avx2
+.LCPI4_0:
+	.zero	32,2
+.LCPI4_1:
+	.zero	32,4
+.LCPI4_2:
+	.zero	32,8
+.LCPI4_3:
+	.zero	32,16
+.LCPI4_4:
+	.zero	32,32
+.LCPI4_5:
+	.zero	32,64
+.LCPI4_6:
+	.zero	32,128
+	.text
+	.globl	comparison_not_equal_arr_scalar_avx2
+	.p2align	4, 0x90
+	.type	comparison_not_equal_arr_scalar_avx2,@function
+comparison_not_equal_arr_scalar_avx2:   # @comparison_not_equal_arr_scalar_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -32
+	sub	rsp, 1280
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r10, r8
+	mov	r11, rcx
+	cmp	edi, 6
+	jg	.LBB4_13
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB4_25
+# %bb.2:
+	cmp	edi, 4
+	je	.LBB4_48
+# %bb.3:
+	cmp	edi, 5
+	je	.LBB4_56
+# %bb.4:
+	cmp	edi, 6
+	jne	.LBB4_159
+# %bb.5:
+	mov	r13d, dword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_9
+# %bb.6:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_7:                                # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	setne	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_7
+# %bb.8:
+	add	r11, 1
+.LBB4_9:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB4_100
+# %bb.10:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_11:                               # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	setne	dil
+	cmp	dword ptr [rsi + 8], r13d
+	setne	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	setne	al
+	cmp	dword ptr [rsi + 28], r13d
+	setne	bl
+	cmp	dword ptr [rsi + 32], r13d
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	setne	dl
+	cmp	dword ptr [rsi + 40], r13d
+	setne	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	setne	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	setne	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	setne	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	setne	cl
+	cmp	dword ptr [rsi + 64], r13d
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	setne	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	setne	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 128
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB4_11
+# %bb.12:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB4_101
+	jmp	.LBB4_159
+.LBB4_13:
+	cmp	edi, 8
+	jle	.LBB4_38
+# %bb.14:
+	cmp	edi, 9
+	je	.LBB4_64
+# %bb.15:
+	cmp	edi, 11
+	je	.LBB4_72
+# %bb.16:
+	cmp	edi, 12
+	jne	.LBB4_159
+# %bb.17:
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB4_21
+# %bb.18:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_19:                               # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rsi]
+	lea	rsi, [rsi + 8]
+	setne	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_19
+# %bb.20:
+	add	r11, 1
+.LBB4_21:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB4_104
+# %bb.22:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_23:                               # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rsi]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 8]
+	setne	r9b
+	vucomisd	xmm0, qword ptr [rsi + 16]
+	setne	r14b
+	vucomisd	xmm0, qword ptr [rsi + 24]
+	setne	r13b
+	vucomisd	xmm0, qword ptr [rsi + 32]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 40]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 48]
+	setne	al
+	vucomisd	xmm0, qword ptr [rsi + 56]
+	setne	bl
+	vucomisd	xmm0, qword ptr [rsi + 64]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 72]
+	setne	dl
+	vucomisd	xmm0, qword ptr [rsi + 80]
+	setne	dil
+	vucomisd	xmm0, qword ptr [rsi + 88]
+	setne	r10b
+	vucomisd	xmm0, qword ptr [rsi + 96]
+	setne	r11b
+	vucomisd	xmm0, qword ptr [rsi + 104]
+	setne	r12b
+	vucomisd	xmm0, qword ptr [rsi + 112]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 120]
+	setne	cl
+	vucomisd	xmm0, qword ptr [rsi + 128]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 136]
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 144]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 152]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 160]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 168]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 176]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 184]
+	setne	r15b
+	vucomisd	xmm0, qword ptr [rsi + 192]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 200]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 208]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 216]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 224]
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 232]
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 240]
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 248]
+	setne	r8b
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r9b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r9d, edx
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 256
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 144], -1       # 8-byte Folded Spill
+	jne	.LBB4_23
+# %bb.24:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB4_105
+	jmp	.LBB4_159
+.LBB4_25:
+	cmp	edi, 2
+	je	.LBB4_80
+# %bb.26:
+	cmp	edi, 3
+	jne	.LBB4_159
+# %bb.27:
+	mov	r14b, byte ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_131
+# %bb.28:
+	movsxd	rax, r9d
+	mov	r13, r11
+	.p2align	4, 0x90
+.LBB4_29:                               # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r14b
+	lea	rsi, [rsi + 1]
+	setne	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r13 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r13 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_29
+# %bb.30:
+	add	r13, 1
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB4_132
+.LBB4_31:
+	cmp	r15, 32
+	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
+	jb	.LBB4_34
+# %bb.32:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r13, rax
+	jae	.LBB4_165
+# %bb.33:
+	lea	rax, [4*r15]
+	add	rax, r13
+	cmp	rsi, rax
+	jae	.LBB4_165
+.LBB4_34:
+	xor	eax, eax
+	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
+	mov	r12, rsi
+	mov	qword ptr [rsp + 376], r13      # 8-byte Spill
+.LBB4_35:
+	mov	r13, r15
+	sub	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 144], r13      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_36:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, r12
+	cmp	byte ptr [r12], r14b
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 1], r14b
+	setne	r8b
+	cmp	byte ptr [r12 + 2], r14b
+	setne	r15b
+	cmp	byte ptr [r12 + 3], r14b
+	setne	r13b
+	cmp	byte ptr [r12 + 4], r14b
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 5], r14b
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 6], r14b
+	setne	al
+	cmp	byte ptr [r12 + 7], r14b
+	setne	r11b
+	cmp	byte ptr [r12 + 8], r14b
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 9], r14b
+	setne	dl
+	cmp	byte ptr [r12 + 10], r14b
+	setne	sil
+	cmp	byte ptr [r12 + 11], r14b
+	setne	dil
+	cmp	byte ptr [r12 + 12], r14b
+	setne	r10b
+	cmp	byte ptr [r12 + 13], r14b
+	setne	r12b
+	cmp	byte ptr [rcx + 14], r14b
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 15], r14b
+	setne	r9b
+	cmp	byte ptr [rcx + 16], r14b
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 17], r14b
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 18], r14b
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 19], r14b
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 20], r14b
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 21], r14b
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 22], r14b
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 23], r14b
+	setne	r14b
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 24], bl
+	setne	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 25], bl
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 26], bl
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 27], bl
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 28], bl
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 29], bl
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 30], bl
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 31], bl
+	setne	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r15b, 2
+	or	r15b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 288]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r15b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r14b, 7
+	or	r14b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r14b, dl
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	bl, 7
+	or	bl, dl
+	or	bl, al
+	mov	byte ptr [rsi + 2], r14b
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	byte ptr [rsi + 3], bl
+	lea	r12, [rcx + 32]
+	add	rsi, 4
+	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 144], -1       # 8-byte Folded Spill
+	jne	.LBB4_36
+# %bb.37:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
+	jmp	.LBB4_133
+.LBB4_38:
+	cmp	edi, 7
+	je	.LBB4_92
+# %bb.39:
+	cmp	edi, 8
+	jne	.LBB4_159
+# %bb.40:
+	mov	r13, qword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_44
+# %bb.41:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_42:                               # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	setne	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_42
+# %bb.43:
+	add	r11, 1
+.LBB4_44:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB4_107
+# %bb.45:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_46:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	cmp	qword ptr [rsi], r13
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	setne	dil
+	cmp	qword ptr [rsi + 16], r13
+	setne	r14b
+	cmp	qword ptr [rsi + 24], r13
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	setne	al
+	cmp	qword ptr [rsi + 56], r13
+	setne	bl
+	cmp	qword ptr [rsi + 64], r13
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	setne	dl
+	cmp	qword ptr [rsi + 80], r13
+	setne	r9b
+	cmp	qword ptr [rsi + 88], r13
+	setne	r10b
+	cmp	qword ptr [rsi + 96], r13
+	setne	r11b
+	cmp	qword ptr [rsi + 104], r13
+	setne	r12b
+	cmp	qword ptr [rsi + 112], r13
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	setne	cl
+	cmp	qword ptr [rsi + 128], r13
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	setne	r15b
+	cmp	qword ptr [rsi + 192], r13
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	setne	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r11], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], r8b
+	add	rsi, 256
+	add	r11, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB4_46
+# %bb.47:
+	mov	r14, r11
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB4_108
+	jmp	.LBB4_159
+.LBB4_48:
+	movzx	r13d, word ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_52
+# %bb.49:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_50:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	lea	rsi, [rsi + 2]
+	setne	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_50
+# %bb.51:
+	add	r11, 1
+.LBB4_52:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB4_111
+# %bb.53:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_54:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	setne	al
+	cmp	word ptr [rsi + 2], r13w
+	setne	dil
+	cmp	word ptr [rsi + 4], r13w
+	setne	r14b
+	cmp	word ptr [rsi + 6], r13w
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 8], r13w
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 10], r13w
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 12], r13w
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 14], r13w
+	setne	bl
+	cmp	word ptr [rsi + 16], r13w
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 18], r13w
+	setne	dl
+	cmp	word ptr [rsi + 20], r13w
+	setne	r9b
+	cmp	word ptr [rsi + 22], r13w
+	setne	r10b
+	cmp	word ptr [rsi + 24], r13w
+	setne	r11b
+	cmp	word ptr [rsi + 26], r13w
+	setne	r12b
+	cmp	word ptr [rsi + 28], r13w
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 30], r13w
+	setne	cl
+	cmp	word ptr [rsi + 32], r13w
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 34], r13w
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 36], r13w
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 38], r13w
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 40], r13w
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 42], r13w
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 44], r13w
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 46], r13w
+	setne	r15b
+	cmp	word ptr [rsi + 48], r13w
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 50], r13w
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 52], r13w
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 54], r13w
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 56], r13w
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 58], r13w
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 60], r13w
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 62], r13w
+	setne	r8b
+	add	dil, dil
+	or	dil, al
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 64
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB4_54
+# %bb.55:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB4_112
+	jmp	.LBB4_159
+.LBB4_56:
+	movzx	r13d, word ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_60
+# %bb.57:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_58:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	lea	rsi, [rsi + 2]
+	setne	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_58
+# %bb.59:
+	add	r11, 1
+.LBB4_60:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB4_115
+# %bb.61:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_62:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 2], r13w
+	setne	dil
+	cmp	word ptr [rsi + 4], r13w
+	setne	r14b
+	cmp	word ptr [rsi + 6], r13w
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 8], r13w
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 10], r13w
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 12], r13w
+	setne	al
+	cmp	word ptr [rsi + 14], r13w
+	setne	bl
+	cmp	word ptr [rsi + 16], r13w
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 18], r13w
+	setne	dl
+	cmp	word ptr [rsi + 20], r13w
+	setne	r9b
+	cmp	word ptr [rsi + 22], r13w
+	setne	r10b
+	cmp	word ptr [rsi + 24], r13w
+	setne	r11b
+	cmp	word ptr [rsi + 26], r13w
+	setne	r12b
+	cmp	word ptr [rsi + 28], r13w
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 30], r13w
+	setne	cl
+	cmp	word ptr [rsi + 32], r13w
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 34], r13w
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 36], r13w
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 38], r13w
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 40], r13w
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 42], r13w
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 44], r13w
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 46], r13w
+	setne	r15b
+	cmp	word ptr [rsi + 48], r13w
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 50], r13w
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 52], r13w
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 54], r13w
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 56], r13w
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 58], r13w
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 60], r13w
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 62], r13w
+	setne	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 64
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB4_62
+# %bb.63:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB4_116
+	jmp	.LBB4_159
+.LBB4_64:
+	mov	r13, qword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_68
+# %bb.65:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_66:                               # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	setne	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_66
+# %bb.67:
+	add	r11, 1
+.LBB4_68:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB4_118
+# %bb.69:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_70:                               # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	setne	dil
+	cmp	qword ptr [rsi + 16], r13
+	setne	r14b
+	cmp	qword ptr [rsi + 24], r13
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	setne	al
+	cmp	qword ptr [rsi + 56], r13
+	setne	bl
+	cmp	qword ptr [rsi + 64], r13
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	setne	dl
+	cmp	qword ptr [rsi + 80], r13
+	setne	r9b
+	cmp	qword ptr [rsi + 88], r13
+	setne	r10b
+	cmp	qword ptr [rsi + 96], r13
+	setne	r11b
+	cmp	qword ptr [rsi + 104], r13
+	setne	r12b
+	cmp	qword ptr [rsi + 112], r13
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	setne	cl
+	cmp	qword ptr [rsi + 128], r13
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	setne	r15b
+	cmp	qword ptr [rsi + 192], r13
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	setne	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 256
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB4_70
+# %bb.71:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB4_119
+	jmp	.LBB4_159
+.LBB4_72:
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB4_76
+# %bb.73:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_74:                               # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rsi]
+	lea	rsi, [rsi + 4]
+	setne	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_74
+# %bb.75:
+	add	r11, 1
+.LBB4_76:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB4_121
+# %bb.77:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_78:                               # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rsi]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 4]
+	setne	r9b
+	vucomiss	xmm0, dword ptr [rsi + 8]
+	setne	r14b
+	vucomiss	xmm0, dword ptr [rsi + 12]
+	setne	r13b
+	vucomiss	xmm0, dword ptr [rsi + 16]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 20]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 24]
+	setne	al
+	vucomiss	xmm0, dword ptr [rsi + 28]
+	setne	bl
+	vucomiss	xmm0, dword ptr [rsi + 32]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 36]
+	setne	dl
+	vucomiss	xmm0, dword ptr [rsi + 40]
+	setne	dil
+	vucomiss	xmm0, dword ptr [rsi + 44]
+	setne	r10b
+	vucomiss	xmm0, dword ptr [rsi + 48]
+	setne	r11b
+	vucomiss	xmm0, dword ptr [rsi + 52]
+	setne	r12b
+	vucomiss	xmm0, dword ptr [rsi + 56]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 60]
+	setne	cl
+	vucomiss	xmm0, dword ptr [rsi + 64]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 68]
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 72]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 76]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 80]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 84]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 88]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 92]
+	setne	r15b
+	vucomiss	xmm0, dword ptr [rsi + 96]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 100]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 104]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 108]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 112]
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 116]
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 120]
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 124]
+	setne	r8b
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r9b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r9d, edx
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 128
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 144], -1       # 8-byte Folded Spill
+	jne	.LBB4_78
+# %bb.79:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB4_122
+	jmp	.LBB4_159
+.LBB4_80:
+	mov	r14b, byte ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_84
+# %bb.81:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_82:                               # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r14b
+	lea	rsi, [rsi + 1]
+	setne	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_82
+# %bb.83:
+	add	r11, 1
+.LBB4_84:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB4_124
+# %bb.85:
+	cmp	r15, 32
+	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 392], r15      # 8-byte Spill
+	jb	.LBB4_88
+# %bb.86:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r11, rax
+	jae	.LBB4_168
+# %bb.87:
+	lea	rax, [r11 + 4*r15]
+	cmp	rsi, rax
+	jae	.LBB4_168
+.LBB4_88:
+	xor	eax, eax
+	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
+	mov	r12, rsi
+	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
+.LBB4_89:
+	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_90:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, r12
+	cmp	byte ptr [r12], r14b
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 1], r14b
+	setne	r8b
+	cmp	byte ptr [r12 + 2], r14b
+	setne	r15b
+	cmp	byte ptr [r12 + 3], r14b
+	setne	r13b
+	cmp	byte ptr [r12 + 4], r14b
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 5], r14b
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 6], r14b
+	setne	al
+	cmp	byte ptr [r12 + 7], r14b
+	setne	r11b
+	cmp	byte ptr [r12 + 8], r14b
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 9], r14b
+	setne	dl
+	cmp	byte ptr [r12 + 10], r14b
+	setne	sil
+	cmp	byte ptr [r12 + 11], r14b
+	setne	dil
+	cmp	byte ptr [r12 + 12], r14b
+	setne	r10b
+	cmp	byte ptr [r12 + 13], r14b
+	setne	r12b
+	cmp	byte ptr [rcx + 14], r14b
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 15], r14b
+	setne	r9b
+	cmp	byte ptr [rcx + 16], r14b
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 17], r14b
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 18], r14b
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 19], r14b
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 20], r14b
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 21], r14b
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 22], r14b
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 23], r14b
+	setne	r14b
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 24], bl
+	setne	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 25], bl
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 26], bl
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 27], bl
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 28], bl
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 29], bl
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 30], bl
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 31], bl
+	setne	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r15b, 2
+	or	r15b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 288]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r15b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp + 376]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r14b, 7
+	or	r14b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r14b, dl
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	bl, 7
+	or	bl, dl
+	or	bl, al
+	mov	byte ptr [rsi + 2], r14b
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	byte ptr [rsi + 3], bl
+	lea	r12, [rcx + 32]
+	add	rsi, 4
+	mov	qword ptr [rsp + 376], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 144], -1       # 8-byte Folded Spill
+	jne	.LBB4_90
+# %bb.91:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
+	jmp	.LBB4_125
+.LBB4_92:
+	mov	r13d, dword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_96
+# %bb.93:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_94:                               # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	setne	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_94
+# %bb.95:
+	add	r11, 1
+.LBB4_96:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB4_128
+# %bb.97:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_98:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	cmp	dword ptr [rsi], r13d
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	setne	dil
+	cmp	dword ptr [rsi + 8], r13d
+	setne	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	setne	al
+	cmp	dword ptr [rsi + 28], r13d
+	setne	bl
+	cmp	dword ptr [rsi + 32], r13d
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	setne	dl
+	cmp	dword ptr [rsi + 40], r13d
+	setne	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	setne	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	setne	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	setne	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	setne	cl
+	cmp	dword ptr [rsi + 64], r13d
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	setne	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	setne	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r11], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], r8b
+	add	rsi, 128
+	add	r11, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB4_98
+# %bb.99:
+	mov	r14, r11
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB4_129
+	jmp	.LBB4_159
+.LBB4_100:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB4_159
+.LBB4_101:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	je	.LBB4_130
+# %bb.102:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB4_103:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	setne	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	setne	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB4_103
+	jmp	.LBB4_156
+.LBB4_104:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB4_159
+.LBB4_105:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB4_136
+# %bb.106:
+	xor	r11d, r11d
+	jmp	.LBB4_138
+.LBB4_107:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB4_159
+.LBB4_108:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	je	.LBB4_120
+# %bb.109:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB4_110:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	setne	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	setne	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB4_110
+	jmp	.LBB4_146
+.LBB4_111:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB4_159
+.LBB4_112:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	je	.LBB4_117
+# %bb.113:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB4_114:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	setne	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	word ptr [rsi + 2], r13w
+	lea	rsi, [rsi + 4]
+	setne	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB4_114
+	jmp	.LBB4_142
+.LBB4_115:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB4_159
+.LBB4_116:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB4_140
+.LBB4_117:
+	xor	r11d, r11d
+	jmp	.LBB4_142
+.LBB4_118:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB4_159
+.LBB4_119:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB4_144
+.LBB4_120:
+	xor	r11d, r11d
+	jmp	.LBB4_146
+.LBB4_121:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB4_159
+.LBB4_122:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB4_148
+# %bb.123:
+	xor	r11d, r11d
+	jmp	.LBB4_150
+.LBB4_124:
+	mov	qword ptr [rsp + 376], r11      # 8-byte Spill
+	mov	r12, rsi
+.LBB4_125:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB4_159
+# %bb.126:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	je	.LBB4_127
+# %bb.152:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB4_153:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [r12 + rsi], r14b
+	setne	bl
+	neg	bl
+	mov	rdi, rsi
+	shr	rdi, 3
+	mov	ecx, esi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	byte ptr [r12 + rsi + 1], r14b
+	lea	rsi, [rsi + 2]
+	setne	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB4_153
+	jmp	.LBB4_162
+.LBB4_128:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB4_159
+.LBB4_129:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB4_154
+.LBB4_130:
+	xor	r11d, r11d
+	jmp	.LBB4_156
+.LBB4_131:
+	mov	r13, r11
+	sar	r15, 5
+	cmp	r10, 32
+	jge	.LBB4_31
+.LBB4_132:
+	mov	qword ptr [rsp + 376], r13      # 8-byte Spill
+	mov	r12, rsi
+.LBB4_133:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB4_159
+# %bb.134:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB4_160
+.LBB4_127:
+	xor	esi, esi
+	jmp	.LBB4_163
+.LBB4_136:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB4_137:                              # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rsi]
+	setne	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	xor	al, r9b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	vucomisd	xmm0, qword ptr [rsi + 8]
+	lea	rsi, [rsi + 16]
+	setne	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB4_137
+.LBB4_138:
+	test	r8b, 1
+	je	.LBB4_159
+# %bb.139:
+	vucomisd	xmm0, qword ptr [rsi]
+	jmp	.LBB4_158
+.LBB4_140:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB4_141:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	setne	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	word ptr [rsi + 2], r13w
+	lea	rsi, [rsi + 4]
+	setne	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB4_141
+.LBB4_142:
+	test	r8b, 1
+	je	.LBB4_159
+# %bb.143:
+	cmp	word ptr [rsi], r13w
+	jmp	.LBB4_158
+.LBB4_144:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB4_145:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	setne	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	setne	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB4_145
+.LBB4_146:
+	test	r8b, 1
+	je	.LBB4_159
+# %bb.147:
+	cmp	qword ptr [rsi], r13
+	jmp	.LBB4_158
+.LBB4_148:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB4_149:                              # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rsi]
+	setne	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	xor	al, r9b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	vucomiss	xmm0, dword ptr [rsi + 4]
+	lea	rsi, [rsi + 8]
+	setne	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB4_149
+.LBB4_150:
+	test	r8b, 1
+	je	.LBB4_159
+# %bb.151:
+	vucomiss	xmm0, dword ptr [rsi]
+	jmp	.LBB4_158
+.LBB4_154:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB4_155:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	setne	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	setne	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB4_155
+.LBB4_156:
+	test	r8b, 1
+	je	.LBB4_159
+# %bb.157:
+	cmp	dword ptr [rsi], r13d
+.LBB4_158:
+	setne	al
+	neg	al
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	xor	bl, sil
+	mov	byte ptr [r14 + rdx], bl
+.LBB4_159:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	vzeroupper
+	ret
+.LBB4_160:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, qword ptr [rsp + 376]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB4_161:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [r12 + rsi], r14b
+	setne	bl
+	neg	bl
+	mov	rdi, rsi
+	shr	rdi, 3
+	mov	ecx, esi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	byte ptr [r12 + rsi + 1], r14b
+	lea	rsi, [rsi + 2]
+	setne	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB4_161
+.LBB4_162:
+	add	r12, rsi
+.LBB4_163:
+	test	r8b, 1
+	je	.LBB4_159
+# %bb.164:
+	cmp	byte ptr [r12], r14b
+	setne	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 376]       # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r8 + rdx], bl
+	jmp	.LBB4_159
+.LBB4_165:
+	and	r15, -32
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
+	lea	rax, [4*r15]
+	add	rax, r13
+	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 272], r13      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_166:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, rax
+	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rsi + rax]
+	vmovd	xmm0, eax
+	movzx	eax, byte ptr [rsi + rbx]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rsi + rcx + 1]
+	mov	rdx, rcx
+	vmovd	xmm4, eax
+	mov	rcx, rbx
+	movzx	eax, byte ptr [rsi + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rsi + rdx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rdx + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rsi + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rsi + rdx + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rbx + 4]
+	vmovd	xmm15, eax
+	movzx	eax, byte ptr [rsi + rdx + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rsi + rbx + 5]
+	vmovd	xmm6, eax
+	movzx	eax, byte ptr [rsi + rdx + 6]
+	mov	qword ptr [rsp + 256], rdx      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rsi + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rsi + rdx + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rsi + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	r13, rbx
+	or	r13, 544
+	mov	qword ptr [rsp + 248], r13      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 576
+	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 608
+	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
+	mov	r10, rbx
+	or	r10, 640
+	mov	qword ptr [rsp + 128], r10      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 672
+	mov	r12, rax
+	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
+	mov	rdi, rbx
+	or	rdi, 704
+	mov	qword ptr [rsp + 216], rdi      # 8-byte Spill
+	mov	rdx, rbx
+	or	rdx, 736
+	mov	qword ptr [rsp + 224], rdx      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 768
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	mov	r15, rbx
+	or	r15, 800
+	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
+	mov	r11, rbx
+	or	r11, 832
+	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
+	mov	r8, rbx
+	or	r8, 864
+	mov	qword ptr [rsp + 264], r8       # 8-byte Spill
+	mov	r14, rbx
+	or	r14, 896
+	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
+	mov	r9, rbx
+	or	r9, 928
+	mov	qword ptr [rsp + 88], r9        # 8-byte Spill
+	mov	rax, rbx
+	mov	qword ptr [rsp + 240], rbx      # 8-byte Spill
+	or	rax, 960
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	or	rcx, 992
+	mov	qword ptr [rsp + 32], rcx       # 8-byte Spill
+	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
+	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + r13], 2
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 7
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 1
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 2
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 3
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 4
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 5
+	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 6
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 7
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 10
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
+	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 14
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
+	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
+	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 4
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 7
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 8
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
+	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 12
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + rbx + 1], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 6
+	mov	rbx, r8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 1], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 14
+	vinserti128	ymm13, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm9, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm10, edi
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 1
+	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 2
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
+	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 6
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
+	mov	r12, r13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 8
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
+	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 10
+	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 12
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 6
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rsi + rcx + 3], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 4
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 6
+	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 14
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
+	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 9]
+	vmovd	xmm8, edi
+	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 3], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 9]
+	vmovd	xmm11, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 1
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
+	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
+	mov	rax, r10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 5
+	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 7
+	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 8
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 9
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 11
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 12
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 15
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm15, byte ptr [rsi + rcx + 4], 1
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 2
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 3
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 4
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 5
+	mov	rdi, r14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 6
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 7
+	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 9
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 10
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 11
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 12
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 13
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 15
+	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm14, byte ptr [rsi + r14 + 5], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 2
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 6
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 7
+	mov	r15, rax
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 8
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 5], 11
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 13
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 15
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm6, byte ptr [rsi + rcx + 5], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 5], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
+	vinserti128	ymm14, ymm3, xmm0, 1
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + r12 + 5], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 10]
+	vmovd	xmm3, edi
+	vinserti128	ymm15, ymm0, xmm4, 1
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 10]
+	vmovd	xmm4, edi
+	mov	r11, r14
+	vpinsrb	xmm0, xmm12, byte ptr [rsi + r14 + 6], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 3
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 5
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 7
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 8
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 9
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 10
+	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 11
+	mov	rax, r13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 12
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 15
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + rcx + 6], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 2
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 6
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 7
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 11
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 12
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 13
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 14
+	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 6], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 1
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 2
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 4
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 6
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 7
+	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 15
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 1
+	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 3
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 6
+	mov	r8, r13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 7
+	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 13
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 7], 14
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 11]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 7], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 11]
+	vmovd	xmm2, edi
+	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + r15 + 8], 1
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 2
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 6
+	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 8], 8
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 9
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 10
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 11
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 12
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 13
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 15
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + rdx + 8], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 2
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 3
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 6
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 8
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 9
+	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 11
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 12
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
+	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 15
+	vpinsrb	xmm6, xmm8, byte ptr [rsi + r15 + 9], 1
+	mov	r13, r15
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 2
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 4
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 6
+	mov	r9, rax
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 7
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 8
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 9
+	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 10
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 11
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 15
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm7, xmm11, byte ptr [rsi + rax + 9], 1
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 9], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 9], 12
+	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm0, edi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm5, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 4
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 6
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 7
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 10
+	mov	r9, qword ptr [rsp + 264]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 12
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 15
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 2
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 4
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 5
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 10], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 13
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 14
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 4
+	mov	r13, rbx
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 5
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 6
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 8
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 9
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 11
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 1
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 5
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 14
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 13]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 13]
+	vmovd	xmm1, edi
+	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 1
+	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 12], 2
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 4
+	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 5
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 6
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 7
+	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 12], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 9
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 10
+	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 12], 11
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 15
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm5, byte ptr [rsi + rax + 12], 1
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 3
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 5
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
+	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 12], 10
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 11
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 12
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 13
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 14
+	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 15
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 1
+	mov	r15, r11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 3
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 5
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 8
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 11
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 12
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 13
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 15
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 3
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 4
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 13], 5
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 6
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 7
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 11
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 13], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 14
+	vinserti128	ymm0, ymm2, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 14]
+	vmovd	xmm1, edi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
+	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r13 + 14]
+	vmovd	xmm0, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 2
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 14], 6
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 9
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 10
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 14], 14
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 15
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 1
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 5
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 9
+	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 14], 12
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 13
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 15]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 3
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 4
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 6
+	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 7
+	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 9
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 10
+	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 11
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 12
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
+	movzx	edi, byte ptr [rsi + r13 + 15]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 1
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 4
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 15], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 6
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 15], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 13
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 14
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 15
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 16]
+	vmovd	xmm0, edi
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 16], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 3
+	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 4
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 5
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 16], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 8
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 9
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 11
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 16]
+	vmovd	xmm1, edi
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 1
+	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 2
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 3
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 5
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 6
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 7
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 8
+	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 9
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 12
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 14
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 15
+	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r13 + 17]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 1
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 2
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 5
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 17], 7
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 8
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 9
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 11
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 12
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 17]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 3
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 17], 4
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 5
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 6
+	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 17], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 10
+	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 17], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rsi + r13 + 18]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 5
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 8
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 9
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 11
+	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 18], 14
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 15
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 18]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 1
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 2
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 4
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 5
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 8
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 11
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 12
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 13
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 14
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 15
+	movzx	edi, byte ptr [rsi + r13 + 19]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 2
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
+	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 19], 4
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 5
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 6
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 9
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 10
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 19]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 1
+	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 3
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 4
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 5
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 19], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 14
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r11 + 20]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 1
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 4
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 5
+	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 20], 6
+	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 7
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 8
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 9
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 10
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 11
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 12
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 20]
+	vmovd	xmm1, edi
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 2
+	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 3
+	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 6
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 7
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 9
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 12
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 14
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
+	movzx	edi, byte ptr [rsi + r11 + 21]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
+	mov	r11, rdx
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 21], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 7
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 8
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 21], 11
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 21]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 1
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 4
+	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 5
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 6
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 9
+	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 11
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 12
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rbx + 21], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 22]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 4
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
+	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 6
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 7
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 8
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 9
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 10
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 12
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 22]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 2
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 3
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 5
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 7
+	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 12
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 15
+	movzx	edi, byte ptr [rsi + rcx + 23]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 1
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 6
+	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 7
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 10
+	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 23]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 23], 2
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 3
+	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 4
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 5
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 23], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
+	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 13
+	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 14
+	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 15
+	vinserti128	ymm10, ymm1, xmm0, 1
+	vinserti128	ymm11, ymm3, xmm2, 1
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 24]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 2
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 3
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 4
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 5
+	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 24], 7
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 8
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 9
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 24], 11
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 12
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 14
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 15
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 24]
+	vmovd	xmm1, edi
+	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 1
+	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 24], 6
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 7
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 12
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 25]
+	vmovd	xmm2, edi
+	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 1
+	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 6
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 7
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
+	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 9
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 10
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 11
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 12
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 14
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 25]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 2
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 3
+	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 4
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 5
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 6
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 9
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 10
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 13
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rcx + 25], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 26]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 2
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 3
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 5
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 6
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 26], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 10
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 12
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 13
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 15
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 26]
+	vmovd	xmm1, edi
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 1
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 26], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 4
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 5
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 6
+	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 7
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 26], 8
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 9
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 12
+	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 13
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 14
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 15
+	movzx	edi, byte ptr [rsi + rcx + 27]
+	vmovd	xmm2, edi
+	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 27], 1
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 2
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 3
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 4
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 5
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 6
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 7
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 8
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 9
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 11
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 27]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 1
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 2
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 3
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 4
+	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 5
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 10
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 11
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 27], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 13
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 14
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 28]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 1
+	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 28], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 3
+	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 5
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 6
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 7
+	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 8
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 10
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 11
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 12
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 13
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 15
+	movzx	edi, byte ptr [rsi + rax + 28]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 2
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 3
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 5
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 6
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 7
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 10
+	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 12
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 14
+	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 29]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 2
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 4
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 29], 8
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 11
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 13
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 15
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r15 + 29]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 1
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 3
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 29], 4
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 6
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 7
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 11
+	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 29], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm3, byte ptr [rsi + rax + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	vpinsrb	xmm0, xmm4, byte ptr [rsi + r13 + 29], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 30]
+	vmovd	xmm0, edi
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 1
+	movzx	edi, byte ptr [rsi + rax + 31]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 31], 6
+	mov	r13, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 31], 10
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 31], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
+	movzx	eax, byte ptr [rsi + r15 + 30]
+	vmovd	xmm1, eax
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
+	movzx	eax, byte ptr [rsi + r15 + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 31], 4
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 31], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 14
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
+	vmovdqa	ymm2, ymmword ptr [rsp + 512]   # 32-byte Reload
+	vpcmpeqb	ymm0, ymm13, ymm2
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI4_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	vpandn	ymm7, ymm7, ymm5
+	vpaddb	ymm0, ymm7, ymm0
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI4_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpandn	ymm7, ymm7, ymm6
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
+	vmovdqa	ymm3, ymmword ptr [rip + .LCPI4_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpandn	ymm12, ymm12, ymm3
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm14, ymm2
+	vmovdqa	ymm8, ymmword ptr [rip + .LCPI4_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpandn	ymm12, ymm12, ymm8
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpsubb	ymm0, ymm0, ymm1
+	vpcmpeqd	ymm4, ymm4, ymm4
+	vpor	ymm0, ymm0, ymm7
+	vpcmpeqb	ymm7, ymm15, ymm2
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpandn	ymm7, ymm7, ymm1
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 416] # 32-byte Folded Reload
+	vmovdqa	ymm13, ymmword ptr [rip + .LCPI4_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpandn	ymm12, ymm12, ymm13
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
+	vmovdqa	ymm9, ymmword ptr [rip + .LCPI4_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpandn	ymm12, ymm12, ymm9
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm0, ymm0, ymm7
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm5
+	vpaddb	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm6
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm3
+	vpor	ymm12, ymm12, ymm15
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm8
+	vpor	ymm12, ymm12, ymm15
+	vpsubb	ymm7, ymm7, ymm4
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm1
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm13
+	vpor	ymm12, ymm12, ymm15
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm9
+	vpor	ymm12, ymm12, ymm15
+	vpor	ymm12, ymm12, ymm7
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm5
+	vpaddb	ymm7, ymm15, ymm7
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm6
+	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
+	vpandn	ymm14, ymm14, ymm3
+	vpor	ymm14, ymm15, ymm14
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm8
+	vpor	ymm14, ymm14, ymm15
+	vpsubb	ymm7, ymm7, ymm4
+	vpor	ymm7, ymm14, ymm7
+	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
+	vpandn	ymm14, ymm14, ymm1
+	vpcmpeqb	ymm10, ymm10, ymm2
+	vpandn	ymm10, ymm10, ymm13
+	vpor	ymm10, ymm14, ymm10
+	vpcmpeqb	ymm11, ymm11, ymm2
+	vmovdqa	ymm14, ymm9
+	vpandn	ymm11, ymm11, ymm9
+	vpor	ymm10, ymm10, ymm11
+	vpor	ymm7, ymm10, ymm7
+	vpcmpeqb	ymm9, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
+	vpcmpeqb	ymm8, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
+	vpandn	ymm8, ymm8, ymm5
+	vpaddb	ymm8, ymm8, ymm9
+	vpcmpeqb	ymm5, ymm2, ymmword ptr [rsp + 608] # 32-byte Folded Reload
+	vpandn	ymm5, ymm5, ymm6
+	vpcmpeqb	ymm6, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
+	vpandn	ymm6, ymm6, ymm3
+	vpor	ymm5, ymm5, ymm6
+	vpcmpeqb	ymm3, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
+	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI4_3]
+	vpor	ymm3, ymm5, ymm3
+	vpsubb	ymm5, ymm8, ymm4
+	vpor	ymm3, ymm5, ymm3
+	vpcmpeqb	ymm4, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
+	vpandn	ymm4, ymm4, ymm1
+	vpcmpeqb	ymm1, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
+	vpandn	ymm1, ymm1, ymm13
+	vpor	ymm1, ymm4, ymm1
+	vpcmpeqb	ymm2, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
+	vpandn	ymm2, ymm2, ymm14
+	vpor	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm3, ymm1
+	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r13 + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [r13 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r13 + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [r13 + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	jne	.LBB4_166
+# %bb.167:
+	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
+	jne	.LBB4_35
+	jmp	.LBB4_133
+.LBB4_168:
+	and	r15, -32
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
+	lea	rax, [r11 + 4*r15]
+	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_169:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, rax
+	mov	qword ptr [rsp + 408], rax      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rsi + rax]
+	vmovd	xmm0, eax
+	movzx	eax, byte ptr [rsi + rbx]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rsi + rcx + 1]
+	vmovd	xmm4, eax
+	movzx	eax, byte ptr [rsi + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rsi + rcx + 2]
+	mov	rdx, rcx
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
+	mov	rcx, rbx
+	movzx	eax, byte ptr [rsi + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rdx + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rsi + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rsi + rdx + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rbx + 4]
+	vmovd	xmm15, eax
+	movzx	eax, byte ptr [rsi + rdx + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rsi + rbx + 5]
+	vmovd	xmm6, eax
+	movzx	eax, byte ptr [rsi + rdx + 6]
+	mov	qword ptr [rsp + 256], rdx      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rsi + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rsi + rdx + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rsi + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 544
+	mov	rbx, rax
+	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 576
+	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
+	mov	r12, rcx
+	or	r12, 608
+	mov	qword ptr [rsp + 184], r12      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 640
+	mov	r13, rax
+	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
+	mov	r9, rcx
+	or	r9, 672
+	mov	qword ptr [rsp + 224], r9       # 8-byte Spill
+	mov	r15, rcx
+	or	r15, 704
+	mov	qword ptr [rsp + 248], r15      # 8-byte Spill
+	mov	rdi, rcx
+	or	rdi, 736
+	mov	qword ptr [rsp + 152], rdi      # 8-byte Spill
+	mov	r14, rcx
+	or	r14, 768
+	mov	qword ptr [rsp + 112], r14      # 8-byte Spill
+	mov	r11, rcx
+	or	r11, 800
+	mov	qword ptr [rsp + 216], r11      # 8-byte Spill
+	mov	r10, rcx
+	or	r10, 832
+	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 864
+	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
+	mov	r8, rcx
+	or	r8, 896
+	mov	qword ptr [rsp + 200], r8       # 8-byte Spill
+	mov	rdx, rcx
+	or	rdx, 928
+	mov	qword ptr [rsp + 168], rdx      # 8-byte Spill
+	mov	rax, rcx
+	mov	qword ptr [rsp + 208], rcx      # 8-byte Spill
+	or	rax, 960
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	or	rcx, 992
+	mov	qword ptr [rsp + 40], rcx       # 8-byte Spill
+	vpinsrb	xmm9, xmm0, byte ptr [rsi + rbx], 1
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + rbx], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 10
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 1
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 2
+	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 3
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 4
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 5
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 6
+	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 14
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
+	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 4
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
+	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 7
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 8
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 11
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 12
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 14
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + r14 + 1], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
+	mov	r9, rdi
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 14
+	vinserti128	ymm13, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm9, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm10, edi
+	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
+	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 1
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 2
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 6
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 8
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 2], 9
+	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 10
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
+	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 12
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 6
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 2], 8
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 2], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rsi + r8 + 3], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
+	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 4
+	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 6
+	mov	r10, rcx
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 7
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
+	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 14
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
+	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
+	mov	r12, rax
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
+	mov	r11, rdi
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 3], 9
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 9]
+	vmovd	xmm8, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 3], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 9]
+	vmovd	xmm11, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 1
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 2
+	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 4], 3
+	mov	r13, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
+	mov	rcx, r8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 6
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 8
+	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 9
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 11
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 12
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 14
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 15
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm15, byte ptr [rsi + rax + 4], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 4
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 5
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 7
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 8
+	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 9
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 11
+	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 12
+	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 13
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 14
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 15
+	vpinsrb	xmm4, xmm14, byte ptr [rsi + r9 + 5], 1
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 5], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
+	mov	r14, r13
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 5], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 9
+	mov	r10, r8
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 10
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 12
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 13
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 15
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm5, xmm6, byte ptr [rsi + r12 + 5], 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 5], 4
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 7
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 5], 9
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 11
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 5], 12
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
+	vinserti128	ymm14, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 5], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 10]
+	vmovd	xmm3, edi
+	vinserti128	ymm15, ymm0, xmm4, 1
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 10]
+	vmovd	xmm4, edi
+	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm0, xmm12, byte ptr [rsi + r8 + 6], 1
+	mov	rcx, r9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 2
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 4
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 5
+	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 6
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 7
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 9
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 11
+	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 6], 12
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 13
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 15
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + r12 + 6], 1
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 2
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 4
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 6
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 7
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 8
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 9
+	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 6], 10
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 11
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 12
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 13
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 14
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 2
+	mov	rbx, rcx
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 3
+	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 6
+	mov	r13, r9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 8
+	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 10
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 13
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 14
+	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 15
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 3
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 7], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 7
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 8
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 10
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 11
+	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 7], 12
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 13
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + rdx + 7], 14
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 11]
+	vmovd	xmm1, edi
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 7], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 11]
+	vmovd	xmm2, edi
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + rdx + 8], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 2
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 3
+	mov	rdx, r15
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 8], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 8], 6
+	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 7
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 8], 9
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 8], 10
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 11
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 12
+	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 8], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 8], 15
+	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + r10 + 8], 1
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 2
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 3
+	mov	rdi, r8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 4
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 5
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 6
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 9
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 10
+	mov	r8, r12
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 11
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 8], 12
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 8], 13
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 14
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 8], 15
+	mov	r12, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm6, xmm8, byte ptr [rsi + r12 + 9], 1
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 2
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 4
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r13 + 9], 6
+	mov	rcx, r13
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 7
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 8
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 9
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 10
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 11
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 12
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r9 + 9], 13
+	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 14
+	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 15
+	vpinsrb	xmm7, xmm11, byte ptr [rsi + r10 + 9], 1
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 9], 2
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 5
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 6
+	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 7
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 9
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 9], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 9], 13
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm0, edi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm5, edi
+	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 2
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 3
+	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 4
+	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 5
+	mov	rdx, rcx
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 6
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 7
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 8
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 9
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 10
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 11
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 12
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 10], 15
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 1
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 2
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 4
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 7
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 9
+	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 10], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 11
+	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 13
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 14
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
+	mov	rcx, r13
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 11], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 3
+	mov	r13, rbx
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 6
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 7
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 9
+	mov	rbx, rax
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 11
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 13
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 15
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 4
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 5
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 11], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 12
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 14
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 13]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 13]
+	vmovd	xmm1, edi
+	mov	rax, rcx
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 2
+	mov	rcx, r13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 3
+	mov	r13, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 5
+	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 6
+	mov	r11, r8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 9
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 10
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 11
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 12
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 13
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 14
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 15
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm5, byte ptr [rsi + r14 + 12], 1
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 3
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 4
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 5
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 6
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 12], 7
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 8
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 9
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 10
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 11
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 12
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 13
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 14
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 15
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 1
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 13], 4
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 7
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 8
+	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 11
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 13
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 14
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 3
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 4
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 5
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 7
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 13], 9
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 10
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 13], 11
+	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 13], 12
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 13], 13
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 14
+	vinserti128	ymm0, ymm2, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + r12 + 13], 15
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 14]
+	vmovd	xmm1, edi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 14]
+	vmovd	xmm0, edi
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 1
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 2
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 3
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 14], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 6
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 9
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 10
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 14], 11
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 12
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 14], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 14
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 15
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 1
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 2
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 3
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 4
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 5
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 6
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 7
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 14], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 13
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 15
+	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r11 + 15]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 3
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 4
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 5
+	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 6
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 7
+	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 8
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 12
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 13
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 15
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r14 + 15]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 2
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
+	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 4
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 15], 5
+	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 15], 6
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 7
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 9
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 10
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 11
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 12
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 13
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 14
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 15
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rsi + r11 + 16]
+	vmovd	xmm0, edi
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 1
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 2
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 3
+	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 16], 4
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 6
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 16], 8
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 9
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 10
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 11
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 14
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
+	movzx	edi, byte ptr [rsi + r14 + 16]
+	vmovd	xmm1, edi
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 16], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 7
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 12
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 13
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 14
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 15
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rbx + 17]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 1
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 2
+	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 4
+	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 5
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 7
+	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 9
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 10
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 11
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 12
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 13
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 14
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 15
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 17]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 1
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 2
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 3
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 4
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 5
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 6
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 7
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 9
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 11
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + r13 + 17], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rsi + rbx + 18]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 1
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 18], 3
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 5
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 6
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 8
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 11
+	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 14
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 18], 15
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 18]
+	vmovd	xmm1, edi
+	mov	r8, r12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 18], 1
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 3
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 18], 4
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 18], 5
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 9
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 11
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 12
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 13
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 15
+	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r13 + 19]
+	vmovd	xmm2, edi
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 1
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 2
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 3
+	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 4
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 5
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 6
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 7
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 8
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 9
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 10
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 19], 12
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 13
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 15
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 19]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 2
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 19], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 19], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 6
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 7
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 9
+	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 11
+	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 19], 12
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 14
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rsi + r13 + 20]
+	vmovd	xmm0, edi
+	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 1
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
+	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 4
+	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 5
+	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 6
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 7
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 9
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 10
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 11
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 12
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 13
+	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 14
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 15
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 20]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 1
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 2
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 3
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 4
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 20], 5
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 7
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 20], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 13
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 20], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 21]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 1
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 21], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 3
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 5
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 6
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 7
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 8
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 9
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 21], 11
+	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 21], 12
+	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 21], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 14
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 15
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 21]
+	vmovd	xmm3, edi
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 1
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 2
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 3
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 5
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 6
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 7
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 8
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 9
+	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 10
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 11
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 12
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 21], 13
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rdx + 21], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 22]
+	vmovd	xmm0, edi
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 2
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 22], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 22], 6
+	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 22], 7
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 8
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 9
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 22], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 22], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 13
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 22], 14
+	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 22], 15
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 22]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 2
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 4
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 5
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 6
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 7
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 22], 11
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 12
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 14
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 15
+	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r13 + 23]
+	vmovd	xmm2, edi
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 1
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 2
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 3
+	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 4
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 5
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 23], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 10
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 11
+	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 12
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 13
+	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 23], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 15
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r11 + 23]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 1
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 3
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 4
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 7
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
+	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 12
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 13
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 14
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 15
+	vinserti128	ymm10, ymm1, xmm0, 1
+	vinserti128	ymm11, ymm3, xmm2, 1
+	movzx	edi, byte ptr [rsi + r13 + 24]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 24], 1
+	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 2
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 4
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 5
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 6
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 7
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 8
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 9
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 10
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 24], 12
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 24], 14
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 15
+	movzx	edi, byte ptr [rsi + r11 + 24]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 1
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 2
+	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 3
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 5
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 6
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 24], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 9
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 13
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 14
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 25]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 25], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 2
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 3
+	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 4
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 5
+	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 7
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 11
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 12
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 13
+	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 25], 14
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 15
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r14 + 25]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 1
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 25], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 4
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 25], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 7
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 25], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 25], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 12
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + r11 + 25], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 26]
+	vmovd	xmm0, edi
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 1
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 2
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 26], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 4
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 6
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 7
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 8
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 9
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 10
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 12
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 14
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 15
+	movzx	edi, byte ptr [rsi + r14 + 26]
+	vmovd	xmm1, edi
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 26], 2
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 3
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 26], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 5
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 6
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 26], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 9
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 10
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 11
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 12
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 13
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 26], 15
+	movzx	edi, byte ptr [rsi + rax + 27]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 1
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 3
+	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 4
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 5
+	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 6
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 7
+	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 8
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 9
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 11
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 12
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 13
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 15
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r9 + 27]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 1
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 2
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 27], 4
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 5
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 6
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 7
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 8
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 9
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 11
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 13
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 14
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 28]
+	vmovd	xmm0, edi
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 1
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 2
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 6
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 28], 8
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 9
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 10
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 12
+	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 28], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 14
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 15
+	movzx	edi, byte ptr [rsi + r9 + 28]
+	vmovd	xmm1, edi
+	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 2
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 28], 5
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 6
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 7
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 8
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 28], 9
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 10
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 11
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 12
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 28], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 29]
+	vmovd	xmm2, edi
+	mov	r12, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 1
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 2
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 3
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 4
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 6
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 7
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 8
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 10
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 11
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 29], 13
+	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 29], 14
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 15
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 29]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 29], 1
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 4
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 7
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 9
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 13
+	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
+	vpinsrb	xmm4, xmm3, byte ptr [rsi + r9 + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	vpinsrb	xmm0, xmm4, byte ptr [rsi + r15 + 29], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rbx + 30]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 30], 1
+	movzx	edi, byte ptr [rsi + rbx + 31]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 31], 1
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 31], 11
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 31], 14
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	eax, byte ptr [rsi + rcx + 30]
+	vmovd	xmm1, eax
+	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
+	movzx	eax, byte ptr [rsi + rcx + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 4
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 31], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 13
+	mov	rax, r9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
+	vmovdqa	ymm2, ymmword ptr [rsp + 512]   # 32-byte Reload
+	vpcmpeqb	ymm0, ymm13, ymm2
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI4_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	vpandn	ymm7, ymm7, ymm5
+	vpaddb	ymm0, ymm7, ymm0
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI4_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpandn	ymm7, ymm7, ymm6
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
+	vmovdqa	ymm3, ymmword ptr [rip + .LCPI4_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpandn	ymm12, ymm12, ymm3
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm14, ymm2
+	vmovdqa	ymm8, ymmword ptr [rip + .LCPI4_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpandn	ymm12, ymm12, ymm8
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpsubb	ymm0, ymm0, ymm1
+	vpcmpeqd	ymm4, ymm4, ymm4
+	vpor	ymm0, ymm0, ymm7
+	vpcmpeqb	ymm7, ymm15, ymm2
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI4_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpandn	ymm7, ymm7, ymm1
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 416] # 32-byte Folded Reload
+	vmovdqa	ymm13, ymmword ptr [rip + .LCPI4_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpandn	ymm12, ymm12, ymm13
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
+	vmovdqa	ymm9, ymmword ptr [rip + .LCPI4_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpandn	ymm12, ymm12, ymm9
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm0, ymm0, ymm7
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm5
+	vpaddb	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm6
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm3
+	vpor	ymm12, ymm12, ymm15
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm8
+	vpor	ymm12, ymm12, ymm15
+	vpsubb	ymm7, ymm7, ymm4
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm1
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm13
+	vpor	ymm12, ymm12, ymm15
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm9
+	vpor	ymm12, ymm12, ymm15
+	vpor	ymm12, ymm12, ymm7
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm5
+	vpaddb	ymm7, ymm15, ymm7
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm6
+	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
+	vpandn	ymm14, ymm14, ymm3
+	vpor	ymm14, ymm15, ymm14
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm8
+	vpor	ymm14, ymm14, ymm15
+	vpsubb	ymm7, ymm7, ymm4
+	vpor	ymm7, ymm14, ymm7
+	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
+	vpandn	ymm14, ymm14, ymm1
+	vpcmpeqb	ymm10, ymm10, ymm2
+	vpandn	ymm10, ymm10, ymm13
+	vpor	ymm10, ymm14, ymm10
+	vpcmpeqb	ymm11, ymm11, ymm2
+	vmovdqa	ymm14, ymm9
+	vpandn	ymm11, ymm11, ymm9
+	vpor	ymm10, ymm10, ymm11
+	vpor	ymm7, ymm10, ymm7
+	vpcmpeqb	ymm9, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
+	vpcmpeqb	ymm8, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
+	vpandn	ymm8, ymm8, ymm5
+	vpaddb	ymm8, ymm8, ymm9
+	vpcmpeqb	ymm5, ymm2, ymmword ptr [rsp + 608] # 32-byte Folded Reload
+	vpandn	ymm5, ymm5, ymm6
+	vpcmpeqb	ymm6, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
+	vpandn	ymm6, ymm6, ymm3
+	vpor	ymm5, ymm5, ymm6
+	vpcmpeqb	ymm3, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
+	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI4_3]
+	vpor	ymm3, ymm5, ymm3
+	vpsubb	ymm5, ymm8, ymm4
+	vpor	ymm3, ymm5, ymm3
+	vpcmpeqb	ymm4, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
+	vpandn	ymm4, ymm4, ymm1
+	vpcmpeqb	ymm1, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
+	vpandn	ymm1, ymm1, ymm13
+	vpor	ymm1, ymm4, ymm1
+	vpcmpeqb	ymm2, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
+	vpandn	ymm2, ymm2, ymm14
+	vpor	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm3, ymm1
+	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	jne	.LBB4_169
+# %bb.170:
+	mov	r15, qword ptr [rsp + 392]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	r12, qword ptr [rsp + 400]      # 8-byte Reload
+	jne	.LBB4_89
+	jmp	.LBB4_125
+.Lfunc_end4:
+	.size	comparison_not_equal_arr_scalar_avx2, .Lfunc_end4-comparison_not_equal_arr_scalar_avx2
+                                        # -- End function
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5                               # -- Begin function comparison_not_equal_scalar_arr_avx2
+.LCPI5_0:
+	.zero	32,2
+.LCPI5_1:
+	.zero	32,4
+.LCPI5_2:
+	.zero	32,8
+.LCPI5_3:
+	.zero	32,16
+.LCPI5_4:
+	.zero	32,32
+.LCPI5_5:
+	.zero	32,64
+.LCPI5_6:
+	.zero	32,128
+	.text
+	.globl	comparison_not_equal_scalar_arr_avx2
+	.p2align	4, 0x90
+	.type	comparison_not_equal_scalar_arr_avx2,@function
+comparison_not_equal_scalar_arr_avx2:   # @comparison_not_equal_scalar_arr_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -32
+	sub	rsp, 1280
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r10, r8
+	mov	r15, rcx
+	cmp	edi, 6
+	jg	.LBB5_17
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB5_32
+# %bb.2:
+	cmp	edi, 4
+	je	.LBB5_60
+# %bb.3:
+	cmp	edi, 5
+	je	.LBB5_72
+# %bb.4:
+	cmp	edi, 6
+	jne	.LBB5_157
+# %bb.5:
+	mov	r14d, dword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_9
+# %bb.6:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB5_7:                                # =>This Inner Loop Header: Depth=1
+	cmp	r14d, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r15 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_7
+# %bb.8:
+	add	r15, 1
+.LBB5_9:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB5_13
+# %bb.10:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_11:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	cmp	r14d, dword ptr [rdx + 124]
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 120]
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 116]
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 112]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 108]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 104]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 100]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 92]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 88]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 84]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 80]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 76]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 72]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 68]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 60]
+	setne	r8b
+	cmp	r14d, dword ptr [rdx + 56]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 52]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 48]
+	setne	r11b
+	cmp	r14d, dword ptr [rdx + 44]
+	setne	r10b
+	cmp	r14d, dword ptr [rdx + 40]
+	setne	r9b
+	cmp	r14d, dword ptr [rdx + 36]
+	setne	dil
+	cmp	r14d, dword ptr [rdx + 28]
+	setne	al
+	cmp	r14d, dword ptr [rdx + 24]
+	setne	bl
+	cmp	r14d, dword ptr [rdx + 20]
+	setne	sil
+	cmp	r14d, dword ptr [rdx + 16]
+	setne	cl
+	cmp	r14d, dword ptr [rdx + 12]
+	setne	r13b
+	cmp	r14d, dword ptr [rdx + 8]
+	setne	r12b
+	cmp	r14d, dword ptr [rdx]
+	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 4]
+	setne	r15b
+	cmp	r14d, dword ptr [rdx + 32]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 64]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 96]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	sub	rdx, -128
+	add	r15, 4
+	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
+	jne	.LBB5_11
+# %bb.12:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB5_13:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB5_157
+# %bb.14:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	je	.LBB5_127
+# %bb.15:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB5_16:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14d, dword ptr [rdx]
+	setne	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	rdi, 2
+	cmp	r14d, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	setne	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB5_16
+	jmp	.LBB5_154
+.LBB5_17:
+	cmp	edi, 8
+	jle	.LBB5_46
+# %bb.18:
+	cmp	edi, 9
+	je	.LBB5_83
+# %bb.19:
+	cmp	edi, 11
+	je	.LBB5_94
+# %bb.20:
+	cmp	edi, 12
+	jne	.LBB5_157
+# %bb.21:
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB5_25
+# %bb.22:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB5_23:                               # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_23
+# %bb.24:
+	add	r15, 1
+.LBB5_25:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB5_29
+# %bb.26:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_27:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	vucomisd	xmm0, qword ptr [rdx]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 8]
+	setne	r9b
+	vucomisd	xmm0, qword ptr [rdx + 16]
+	setne	r11b
+	vucomisd	xmm0, qword ptr [rdx + 24]
+	setne	r13b
+	vucomisd	xmm0, qword ptr [rdx + 32]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 40]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 48]
+	setne	bl
+	vucomisd	xmm0, qword ptr [rdx + 56]
+	setne	r12b
+	vucomisd	xmm0, qword ptr [rdx + 64]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 72]
+	setne	sil
+	vucomisd	xmm0, qword ptr [rdx + 80]
+	setne	dil
+	vucomisd	xmm0, qword ptr [rdx + 88]
+	setne	r8b
+	vucomisd	xmm0, qword ptr [rdx + 96]
+	setne	r10b
+	vucomisd	xmm0, qword ptr [rdx + 104]
+	setne	r15b
+	vucomisd	xmm0, qword ptr [rdx + 112]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 120]
+	setne	cl
+	vucomisd	xmm0, qword ptr [rdx + 128]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 136]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 144]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 152]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 160]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 168]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 176]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 184]
+	setne	r14b
+	vucomisd	xmm0, qword ptr [rdx + 192]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 200]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 208]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 216]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 224]
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 232]
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 240]
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 248]
+	setne	al
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r12b, 7
+	or	r12b, bl
+	shl	r11b, 2
+	or	r11b, r9b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r11b
+	shl	dil, 2
+	or	dil, sil
+	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r13b
+	mov	esi, ebx
+	shl	r8b, 3
+	or	r8b, dil
+	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	shl	r10b, 4
+	or	r10b, r8b
+	shl	r15b, 5
+	or	r15b, r10b
+	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r12b, bl
+	or	cl, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	add	bl, bl
+	add	bl, byte ptr [rsp + 88]         # 1-byte Folded Reload
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	mov	byte ptr [r15], r12b
+	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r14b, 7
+	or	r14b, sil
+	mov	byte ptr [r15 + 1], cl
+	or	r14b, bl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], r14b
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 256
+	add	r15, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB5_27
+# %bb.28:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+.LBB5_29:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB5_157
+# %bb.30:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB5_136
+# %bb.31:
+	xor	edi, edi
+	jmp	.LBB5_138
+.LBB5_32:
+	cmp	edi, 2
+	je	.LBB5_105
+# %bb.33:
+	cmp	edi, 3
+	jne	.LBB5_157
+# %bb.34:
+	mov	r11b, byte ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_38
+# %bb.35:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB5_36:                               # =>This Inner Loop Header: Depth=1
+	cmp	r11b, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_36
+# %bb.37:
+	add	r15, 1
+.LBB5_38:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB5_128
+# %bb.39:
+	cmp	r14, 32
+	mov	dword ptr [rsp + 28], r11d      # 4-byte Spill
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 384], r14      # 8-byte Spill
+	jb	.LBB5_42
+# %bb.40:
+	mov	rax, r14
+	shl	rax, 5
+	add	rax, rdx
+	cmp	r15, rax
+	jae	.LBB5_165
+# %bb.41:
+	lea	rax, [r15 + 4*r14]
+	cmp	rdx, rax
+	jae	.LBB5_165
+.LBB5_42:
+	xor	eax, eax
+	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
+	mov	r13, r15
+.LBB5_43:
+	sub	r14, qword ptr [rsp + 376]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_44:                               # =>This Inner Loop Header: Depth=1
+	cmp	r11b, byte ptr [rdx + 31]
+	setne	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 30]
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 29]
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 28]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 27]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 26]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 25]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 23]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 22]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 21]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 20]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 19]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 18]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 17]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 15]
+	setne	r14b
+	cmp	r11b, byte ptr [rdx + 14]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 13]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 12]
+	setne	r12b
+	cmp	r11b, byte ptr [rdx + 11]
+	setne	r15b
+	cmp	r11b, byte ptr [rdx + 10]
+	setne	r11b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 9]
+	setne	r10b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 7]
+	setne	dil
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 6]
+	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 5]
+	setne	r9b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 4]
+	setne	r8b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 3]
+	setne	sil
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 2]
+	setne	cl
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx]
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 1]
+	setne	al
+	mov	rbx, r13
+	mov	r13d, dword ptr [rsp + 28]      # 4-byte Reload
+	cmp	r13b, byte ptr [rdx + 8]
+	mov	r13, rbx
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	bl, byte ptr [rdx + 16]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	bl, byte ptr [rdx + 24]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	add	al, al
+	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	shl	sil, 3
+	or	sil, cl
+	shl	r8b, 4
+	or	r8b, sil
+	shl	r9b, 5
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 168]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, r9b
+	mov	byte ptr [r13], dil
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 152]      # 1-byte Folded Reload
+	shl	r11b, 2
+	or	r11b, r10b
+	shl	r15b, 3
+	or	r15b, r11b
+	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
+	shl	r12b, 4
+	or	r12b, r15b
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r12b
+	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r14b, 7
+	or	r14b, cl
+	or	r14b, al
+	mov	byte ptr [r13 + 1], r14b
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r13 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 272]       # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r13 + 3], al
+	add	rdx, 32
+	add	r13, 4
+	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
+	jne	.LBB5_44
+# %bb.45:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 384]      # 8-byte Reload
+	jmp	.LBB5_129
+.LBB5_46:
+	cmp	edi, 7
+	je	.LBB5_117
+# %bb.47:
+	cmp	edi, 8
+	jne	.LBB5_157
+# %bb.48:
+	mov	r14, qword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_52
+# %bb.49:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB5_50:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r15 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_50
+# %bb.51:
+	add	r15, 1
+.LBB5_52:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB5_56
+# %bb.53:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_54:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	cmp	r14, qword ptr [rdx + 248]
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 240]
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 232]
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 224]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 216]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 208]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 200]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 184]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 176]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 168]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 160]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 152]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 144]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 136]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 120]
+	setne	r8b
+	cmp	r14, qword ptr [rdx + 112]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 104]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 96]
+	setne	r11b
+	cmp	r14, qword ptr [rdx + 88]
+	setne	r10b
+	cmp	r14, qword ptr [rdx + 80]
+	setne	r9b
+	cmp	r14, qword ptr [rdx + 72]
+	setne	dil
+	cmp	r14, qword ptr [rdx + 56]
+	setne	al
+	cmp	r14, qword ptr [rdx + 48]
+	setne	bl
+	cmp	r14, qword ptr [rdx + 40]
+	setne	sil
+	cmp	r14, qword ptr [rdx + 32]
+	setne	cl
+	cmp	r14, qword ptr [rdx + 24]
+	setne	r13b
+	cmp	r14, qword ptr [rdx + 16]
+	setne	r12b
+	cmp	r14, qword ptr [rdx]
+	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 8]
+	setne	r15b
+	cmp	r14, qword ptr [rdx + 64]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 128]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 192]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 256
+	add	r15, 4
+	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
+	jne	.LBB5_54
+# %bb.55:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB5_56:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB5_157
+# %bb.57:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	je	.LBB5_93
+# %bb.58:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB5_59:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14, qword ptr [rdx]
+	setne	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	rdi, 2
+	cmp	r14, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	setne	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB5_59
+	jmp	.LBB5_146
+.LBB5_60:
+	movzx	r14d, word ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_64
+# %bb.61:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB5_62:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14w, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r15 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_62
+# %bb.63:
+	add	r15, 1
+.LBB5_64:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB5_68
+# %bb.65:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_66:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	cmp	r14w, word ptr [rdx + 62]
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 60]
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 58]
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 56]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 54]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 52]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 50]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 46]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 44]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 42]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 40]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 38]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 36]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 34]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 30]
+	setne	r8b
+	cmp	r14w, word ptr [rdx + 28]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 26]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 24]
+	setne	r11b
+	cmp	r14w, word ptr [rdx + 22]
+	setne	r10b
+	cmp	r14w, word ptr [rdx + 20]
+	setne	r9b
+	cmp	r14w, word ptr [rdx + 18]
+	setne	dil
+	cmp	r14w, word ptr [rdx + 14]
+	setne	al
+	cmp	r14w, word ptr [rdx + 12]
+	setne	bl
+	cmp	r14w, word ptr [rdx + 10]
+	setne	sil
+	cmp	r14w, word ptr [rdx + 8]
+	setne	cl
+	cmp	r14w, word ptr [rdx + 6]
+	setne	r13b
+	cmp	r14w, word ptr [rdx + 4]
+	setne	r12b
+	cmp	r14w, word ptr [rdx]
+	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 2]
+	setne	r15b
+	cmp	r14w, word ptr [rdx + 16]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 32]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 48]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 64
+	add	r15, 4
+	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
+	jne	.LBB5_66
+# %bb.67:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB5_68:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB5_157
+# %bb.69:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	je	.LBB5_82
+# %bb.70:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB5_71:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14w, word ptr [rdx]
+	setne	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	rdi, 2
+	cmp	r14w, word ptr [rdx + 2]
+	lea	rdx, [rdx + 4]
+	setne	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB5_71
+	jmp	.LBB5_142
+.LBB5_72:
+	movzx	r14d, word ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_76
+# %bb.73:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB5_74:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14w, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r15 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_74
+# %bb.75:
+	add	r15, 1
+.LBB5_76:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB5_80
+# %bb.77:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_78:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	cmp	r14w, word ptr [rdx + 62]
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 60]
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 58]
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 56]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 54]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 52]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 50]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 46]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 44]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 42]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 40]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 38]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 36]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 34]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 30]
+	setne	r8b
+	cmp	r14w, word ptr [rdx + 28]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 26]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 24]
+	setne	r11b
+	cmp	r14w, word ptr [rdx + 22]
+	setne	r10b
+	cmp	r14w, word ptr [rdx + 20]
+	setne	r9b
+	cmp	r14w, word ptr [rdx + 18]
+	setne	dil
+	cmp	r14w, word ptr [rdx + 14]
+	setne	al
+	cmp	r14w, word ptr [rdx + 12]
+	setne	bl
+	cmp	r14w, word ptr [rdx + 10]
+	setne	sil
+	cmp	r14w, word ptr [rdx + 8]
+	setne	cl
+	cmp	r14w, word ptr [rdx + 6]
+	setne	r13b
+	cmp	r14w, word ptr [rdx + 4]
+	setne	r12b
+	cmp	r14w, word ptr [rdx]
+	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 2]
+	setne	r15b
+	cmp	r14w, word ptr [rdx + 16]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 32]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 48]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 64
+	add	r15, 4
+	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
+	jne	.LBB5_78
+# %bb.79:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB5_80:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB5_157
+# %bb.81:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB5_140
+.LBB5_82:
+	xor	edi, edi
+	jmp	.LBB5_142
+.LBB5_83:
+	mov	r14, qword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_87
+# %bb.84:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB5_85:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r15 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_85
+# %bb.86:
+	add	r15, 1
+.LBB5_87:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB5_91
+# %bb.88:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_89:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	cmp	r14, qword ptr [rdx + 248]
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 240]
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 232]
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 224]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 216]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 208]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 200]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 184]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 176]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 168]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 160]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 152]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 144]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 136]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 120]
+	setne	r8b
+	cmp	r14, qword ptr [rdx + 112]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 104]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 96]
+	setne	r11b
+	cmp	r14, qword ptr [rdx + 88]
+	setne	r10b
+	cmp	r14, qword ptr [rdx + 80]
+	setne	r9b
+	cmp	r14, qword ptr [rdx + 72]
+	setne	dil
+	cmp	r14, qword ptr [rdx + 56]
+	setne	al
+	cmp	r14, qword ptr [rdx + 48]
+	setne	bl
+	cmp	r14, qword ptr [rdx + 40]
+	setne	sil
+	cmp	r14, qword ptr [rdx + 32]
+	setne	cl
+	cmp	r14, qword ptr [rdx + 24]
+	setne	r13b
+	cmp	r14, qword ptr [rdx + 16]
+	setne	r12b
+	cmp	r14, qword ptr [rdx]
+	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 8]
+	setne	r15b
+	cmp	r14, qword ptr [rdx + 64]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 128]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 192]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 256
+	add	r15, 4
+	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
+	jne	.LBB5_89
+# %bb.90:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB5_91:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB5_157
+# %bb.92:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB5_144
+.LBB5_93:
+	xor	edi, edi
+	jmp	.LBB5_146
+.LBB5_94:
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB5_98
+# %bb.95:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB5_96:                               # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_96
+# %bb.97:
+	add	r15, 1
+.LBB5_98:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB5_102
+# %bb.99:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_100:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	vucomiss	xmm0, dword ptr [rdx]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 4]
+	setne	r9b
+	vucomiss	xmm0, dword ptr [rdx + 8]
+	setne	r11b
+	vucomiss	xmm0, dword ptr [rdx + 12]
+	setne	r13b
+	vucomiss	xmm0, dword ptr [rdx + 16]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 20]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 24]
+	setne	bl
+	vucomiss	xmm0, dword ptr [rdx + 28]
+	setne	r12b
+	vucomiss	xmm0, dword ptr [rdx + 32]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 36]
+	setne	sil
+	vucomiss	xmm0, dword ptr [rdx + 40]
+	setne	dil
+	vucomiss	xmm0, dword ptr [rdx + 44]
+	setne	r8b
+	vucomiss	xmm0, dword ptr [rdx + 48]
+	setne	r10b
+	vucomiss	xmm0, dword ptr [rdx + 52]
+	setne	r15b
+	vucomiss	xmm0, dword ptr [rdx + 56]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 60]
+	setne	cl
+	vucomiss	xmm0, dword ptr [rdx + 64]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 68]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 72]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 76]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 80]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 84]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 88]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 92]
+	setne	r14b
+	vucomiss	xmm0, dword ptr [rdx + 96]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 100]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 104]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 108]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 112]
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 116]
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 120]
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 124]
+	setne	al
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r12b, 7
+	or	r12b, bl
+	shl	r11b, 2
+	or	r11b, r9b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r11b
+	shl	dil, 2
+	or	dil, sil
+	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r13b
+	mov	esi, ebx
+	shl	r8b, 3
+	or	r8b, dil
+	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	shl	r10b, 4
+	or	r10b, r8b
+	shl	r15b, 5
+	or	r15b, r10b
+	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r12b, bl
+	or	cl, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	add	bl, bl
+	add	bl, byte ptr [rsp + 88]         # 1-byte Folded Reload
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	mov	byte ptr [r15], r12b
+	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r14b, 7
+	or	r14b, sil
+	mov	byte ptr [r15 + 1], cl
+	or	r14b, bl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], r14b
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 128
+	add	r15, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB5_100
+# %bb.101:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+.LBB5_102:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB5_157
+# %bb.103:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB5_148
+# %bb.104:
+	xor	edi, edi
+	jmp	.LBB5_150
+.LBB5_105:
+	mov	r11b, byte ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_109
+# %bb.106:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB5_107:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11b, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_107
+# %bb.108:
+	add	r15, 1
+.LBB5_109:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB5_132
+# %bb.110:
+	cmp	r14, 32
+	mov	dword ptr [rsp + 28], r11d      # 4-byte Spill
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 384], r14      # 8-byte Spill
+	jb	.LBB5_113
+# %bb.111:
+	mov	rax, r14
+	shl	rax, 5
+	add	rax, rdx
+	cmp	r15, rax
+	jae	.LBB5_168
+# %bb.112:
+	lea	rax, [r15 + 4*r14]
+	cmp	rdx, rax
+	jae	.LBB5_168
+.LBB5_113:
+	xor	eax, eax
+	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
+	mov	r13, r15
+.LBB5_114:
+	sub	r14, qword ptr [rsp + 376]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_115:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11b, byte ptr [rdx + 31]
+	setne	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 30]
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 29]
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 28]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 27]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 26]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 25]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 23]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 22]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 21]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 20]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 19]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 18]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 17]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 15]
+	setne	r14b
+	cmp	r11b, byte ptr [rdx + 14]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 13]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 12]
+	setne	r12b
+	cmp	r11b, byte ptr [rdx + 11]
+	setne	r15b
+	cmp	r11b, byte ptr [rdx + 10]
+	setne	r11b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 9]
+	setne	r10b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 7]
+	setne	dil
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 6]
+	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 5]
+	setne	r9b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 4]
+	setne	r8b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 3]
+	setne	sil
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 2]
+	setne	cl
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx]
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 1]
+	setne	al
+	mov	rbx, r13
+	mov	r13d, dword ptr [rsp + 28]      # 4-byte Reload
+	cmp	r13b, byte ptr [rdx + 8]
+	mov	r13, rbx
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	bl, byte ptr [rdx + 16]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	bl, byte ptr [rdx + 24]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	add	al, al
+	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	shl	sil, 3
+	or	sil, cl
+	shl	r8b, 4
+	or	r8b, sil
+	shl	r9b, 5
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 168]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, r9b
+	mov	byte ptr [r13], dil
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 152]      # 1-byte Folded Reload
+	shl	r11b, 2
+	or	r11b, r10b
+	shl	r15b, 3
+	or	r15b, r11b
+	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
+	shl	r12b, 4
+	or	r12b, r15b
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r12b
+	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r14b, 7
+	or	r14b, cl
+	or	r14b, al
+	mov	byte ptr [r13 + 1], r14b
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r13 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 272]       # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r13 + 3], al
+	add	rdx, 32
+	add	r13, 4
+	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
+	jne	.LBB5_115
+# %bb.116:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 384]      # 8-byte Reload
+	jmp	.LBB5_133
+.LBB5_117:
+	mov	r14d, dword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_121
+# %bb.118:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB5_119:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14d, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r15 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_119
+# %bb.120:
+	add	r15, 1
+.LBB5_121:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB5_125
+# %bb.122:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_123:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	cmp	r14d, dword ptr [rdx + 124]
+	setne	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 120]
+	setne	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 116]
+	setne	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 112]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 108]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 104]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 100]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 92]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 88]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 84]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 80]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 76]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 72]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 68]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 60]
+	setne	r8b
+	cmp	r14d, dword ptr [rdx + 56]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 52]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 48]
+	setne	r11b
+	cmp	r14d, dword ptr [rdx + 44]
+	setne	r10b
+	cmp	r14d, dword ptr [rdx + 40]
+	setne	r9b
+	cmp	r14d, dword ptr [rdx + 36]
+	setne	dil
+	cmp	r14d, dword ptr [rdx + 28]
+	setne	al
+	cmp	r14d, dword ptr [rdx + 24]
+	setne	bl
+	cmp	r14d, dword ptr [rdx + 20]
+	setne	sil
+	cmp	r14d, dword ptr [rdx + 16]
+	setne	cl
+	cmp	r14d, dword ptr [rdx + 12]
+	setne	r13b
+	cmp	r14d, dword ptr [rdx + 8]
+	setne	r12b
+	cmp	r14d, dword ptr [rdx]
+	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 4]
+	setne	r15b
+	cmp	r14d, dword ptr [rdx + 32]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 64]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 96]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 168]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 136]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	sub	rdx, -128
+	add	r15, 4
+	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
+	jne	.LBB5_123
+# %bb.124:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB5_125:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB5_157
+# %bb.126:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB5_152
+.LBB5_127:
+	xor	edi, edi
+	jmp	.LBB5_154
+.LBB5_128:
+	mov	r13, r15
+.LBB5_129:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB5_157
+# %bb.130:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	je	.LBB5_135
+# %bb.158:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	.p2align	4, 0x90
+.LBB5_159:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11b, byte ptr [rdx + rsi]
+	setne	al
+	neg	al
+	mov	rdi, rsi
+	shr	rdi, 3
+	mov	ecx, esi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	movzx	r9d, byte ptr [r13 + rdi]
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r13 + rdi], bl
+	cmp	r11b, byte ptr [rdx + rsi + 1]
+	lea	rsi, [rsi + 2]
+	setne	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r13 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB5_159
+	jmp	.LBB5_162
+.LBB5_132:
+	mov	r13, r15
+.LBB5_133:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB5_157
+# %bb.134:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB5_160
+.LBB5_135:
+	xor	esi, esi
+	jmp	.LBB5_163
+.LBB5_136:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB5_137:                              # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rdx]
+	setne	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	xor	al, r9b
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	rdi, 2
+	vucomisd	xmm0, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	setne	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB5_137
+.LBB5_138:
+	test	r8b, 1
+	je	.LBB5_157
+# %bb.139:
+	vucomisd	xmm0, qword ptr [rdx]
+	jmp	.LBB5_156
+.LBB5_140:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB5_141:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14w, word ptr [rdx]
+	setne	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	rdi, 2
+	cmp	r14w, word ptr [rdx + 2]
+	lea	rdx, [rdx + 4]
+	setne	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB5_141
+.LBB5_142:
+	test	r8b, 1
+	je	.LBB5_157
+# %bb.143:
+	cmp	r14w, word ptr [rdx]
+	jmp	.LBB5_156
+.LBB5_144:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB5_145:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14, qword ptr [rdx]
+	setne	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	rdi, 2
+	cmp	r14, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	setne	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB5_145
+.LBB5_146:
+	test	r8b, 1
+	je	.LBB5_157
+# %bb.147:
+	cmp	r14, qword ptr [rdx]
+	jmp	.LBB5_156
+.LBB5_148:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB5_149:                              # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rdx]
+	setne	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	xor	al, r9b
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	rdi, 2
+	vucomiss	xmm0, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	setne	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB5_149
+.LBB5_150:
+	test	r8b, 1
+	je	.LBB5_157
+# %bb.151:
+	vucomiss	xmm0, dword ptr [rdx]
+	jmp	.LBB5_156
+.LBB5_152:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB5_153:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14d, dword ptr [rdx]
+	setne	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	rdi, 2
+	cmp	r14d, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	setne	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB5_153
+.LBB5_154:
+	test	r8b, 1
+	je	.LBB5_157
+# %bb.155:
+	cmp	r14d, dword ptr [rdx]
+.LBB5_156:
+	setne	al
+	neg	al
+	mov	rdx, rdi
+	shr	rdx, 3
+	mov	sil, byte ptr [r15 + rdx]
+	and	dil, 7
+	mov	bl, 1
+	mov	ecx, edi
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	xor	bl, sil
+	mov	byte ptr [r15 + rdx], bl
+.LBB5_157:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	vzeroupper
+	ret
+.LBB5_160:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	.p2align	4, 0x90
+.LBB5_161:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11b, byte ptr [rdx + rsi]
+	setne	al
+	neg	al
+	mov	rdi, rsi
+	shr	rdi, 3
+	mov	ecx, esi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	movzx	r9d, byte ptr [r13 + rdi]
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r13 + rdi], bl
+	cmp	r11b, byte ptr [rdx + rsi + 1]
+	lea	rsi, [rsi + 2]
+	setne	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r13 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB5_161
+.LBB5_162:
+	add	rdx, rsi
+.LBB5_163:
+	test	r8b, 1
+	je	.LBB5_157
+# %bb.164:
+	cmp	r11b, byte ptr [rdx]
+	setne	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	dil, byte ptr [r13 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r13 + rdx], bl
+	jmp	.LBB5_157
+.LBB5_165:
+	and	r14, -32
+	mov	rax, r14
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 392], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 376], r14      # 8-byte Spill
+	lea	rax, [r15 + 4*r14]
+	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
+	vmovd	xmm0, r11d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
+	xor	esi, esi
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_166:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 408], rsi      # 8-byte Spill
+	shl	rsi, 5
+	mov	rax, rsi
+	or	rax, 32
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 64
+	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 96
+	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 128
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 160
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 192
+	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 224
+	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 256
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 288
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	rax, rsi
+	mov	qword ptr [rsp + 264], rsi      # 8-byte Spill
+	or	rax, 320
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rdx + rax]
+	vmovd	xmm0, eax
+	movzx	eax, byte ptr [rdx + rsi]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rdx + rcx + 1]
+	vmovd	xmm4, eax
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rdx + rcx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rcx + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rdx + rcx + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rsi + 4]
+	vmovd	xmm15, eax
+	movzx	eax, byte ptr [rdx + rcx + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rdx + rsi + 5]
+	vmovd	xmm6, eax
+	movzx	eax, byte ptr [rdx + rcx + 6]
+	mov	qword ptr [rsp + 240], rcx      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rdx + rsi + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rdx + rcx + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rdx + rsi + 7]
+	vmovd	xmm1, eax
+	mov	rax, rsi
+	or	rax, 352
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 384
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 416
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 448
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 480
+	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 544
+	mov	r13, rax
+	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
+	mov	r12, rsi
+	or	r12, 576
+	mov	qword ptr [rsp + 200], r12      # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 608
+	mov	r14, rax
+	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
+	mov	r15, rsi
+	or	r15, 640
+	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
+	mov	r10, rsi
+	or	r10, 672
+	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 704
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+	mov	r8, rsi
+	or	r8, 736
+	mov	qword ptr [rsp + 64], r8        # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 768
+	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 800
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	r9, rsi
+	or	r9, 832
+	mov	qword ptr [rsp + 176], r9       # 8-byte Spill
+	mov	rdi, rsi
+	or	rdi, 864
+	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
+	mov	rcx, rsi
+	or	rcx, 896
+	mov	qword ptr [rsp + 136], rcx      # 8-byte Spill
+	mov	r11, rsi
+	or	r11, 928
+	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
+	mov	rax, rsi
+	or	rax, 960
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	or	rsi, 992
+	mov	qword ptr [rsp + 80], rsi       # 8-byte Spill
+	vpinsrb	xmm9, xmm0, byte ptr [rdx + r13], 1
+	vpinsrb	xmm0, xmm9, byte ptr [rdx + r12], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 5
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 7
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 8
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 15
+	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 1
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 2
+	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 3
+	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 6
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 7
+	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 8
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 9
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 10
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 11
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 12
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 13
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 14
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13], 15
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 1
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 2
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 3
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 4
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 5
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 6
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 7
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 8
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 9
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 10
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 11
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 12
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 13
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 14
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rdx + r12 + 1], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 1], 2
+	mov	rcx, r14
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 1], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 1], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 10
+	mov	r11, rax
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 1], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
+	vinserti128	ymm13, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 1], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 8]
+	vmovd	xmm9, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 8]
+	vmovd	xmm10, edi
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 2], 1
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 2], 2
+	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 3
+	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 4
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 5
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 6
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 9
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 2], 10
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 11
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 2], 12
+	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 13
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
+	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 1
+	mov	rax, rcx
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 2
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 3
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 4
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 5
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 6
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 7
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 8
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 2], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 11
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 12
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 13
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 14
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rdx + rsi + 3], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 3], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 5
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 6
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 7
+	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 8
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 3], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 13
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 14
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 15
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm5, xmm8, byte ptr [rdx + rcx + 3], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 2
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 4
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 5
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 6
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 8
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 9
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 13
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + rdi + 3], 14
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 9]
+	vmovd	xmm8, edi
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 3], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 9]
+	vmovd	xmm11, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
+	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 4], 1
+	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 2
+	mov	rbx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 4], 3
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 4
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 5
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 9
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 10
+	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 4], 12
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 13
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 4], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 4], 15
+	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm15, byte ptr [rdx + r10 + 4], 1
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 3
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 5
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 6
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 7
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 9
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 11
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 12
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 13
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 15
+	vpinsrb	xmm4, xmm14, byte ptr [rdx + r12 + 5], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 3
+	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 5], 4
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 5
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 6
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 7
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 8
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 11
+	mov	r15, r11
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 5], 13
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 5], 14
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 5], 15
+	vpinsrb	xmm5, xmm6, byte ptr [rdx + r10 + 5], 1
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 2
+	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 3
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 4
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 5
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 7
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 8
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 5], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 14
+	vinserti128	ymm14, ymm3, xmm0, 1
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + r13 + 5], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 10]
+	vmovd	xmm3, edi
+	vinserti128	ymm15, ymm0, xmm4, 1
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 10]
+	vmovd	xmm4, edi
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm12, byte ptr [rdx + r11 + 6], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 2
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 6], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 5
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 9
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 11
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 12
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 6], 13
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 15
+	vpinsrb	xmm5, xmm7, byte ptr [rdx + r10 + 6], 1
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 2
+	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 6], 3
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 5
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 6], 6
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 7
+	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 8
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 9
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 10
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 11
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 12
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 13
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 14
+	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 7], 1
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 2
+	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 3
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 4
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 5
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 7
+	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 7], 8
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 9
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 10
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 14
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 7], 1
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 7], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 7], 3
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 6
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 7], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 9
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 13
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 7], 14
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 11]
+	vmovd	xmm1, edi
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 7], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 11]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rdx + rax + 8], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 2
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 3
+	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 4
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 5
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 6
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 8], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 9
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 8], 10
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 11
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 12
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 13
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 15
+	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm5, xmm10, byte ptr [rdx + r15 + 8], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 2
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 3
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 4
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 8], 5
+	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 6
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 8], 7
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 8
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 10
+	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 11
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 12
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 13
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 14
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 15
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm6, xmm8, byte ptr [rdx + r11 + 9], 1
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 2
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 3
+	mov	rbx, rcx
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 4
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 9], 6
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 7
+	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 8
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 9
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 9], 10
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 11
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 12
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 13
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 15
+	vpinsrb	xmm7, xmm11, byte ptr [rdx + r15 + 9], 1
+	mov	r12, r15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 2
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 3
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rdi + 9], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 9], 7
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 8
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 9
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 12]
+	vmovd	xmm0, edi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 12]
+	vmovd	xmm5, edi
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 10], 3
+	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 10], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 6
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 8
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 9
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 10
+	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 11
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 13
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 14
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 15
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 1
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 2
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 3
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 4
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 5
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 6
+	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 7
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 9
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 10
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 11
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 12
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 13
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 14
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 11], 3
+	mov	rax, rbx
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 4
+	mov	r11, r13
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 6
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 7
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 9
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 12
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 13
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 15
+	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 11], 2
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 4
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 5
+	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 7
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 8
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 9
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 11
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 12
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 14
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 13]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 13]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 1
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 4
+	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 12], 5
+	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 12], 6
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
+	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 12], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 10
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 11
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 12
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 13
+	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 14
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 12], 15
+	vpinsrb	xmm2, xmm5, byte ptr [rdx + rbx + 12], 1
+	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 2
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 3
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 4
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 6
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 7
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 8
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 9
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 10
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 13
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 14
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 15
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 13], 2
+	mov	r13, rsi
+	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 13], 3
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 13], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 13], 9
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 10
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 11
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 12
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 15
+	mov	r14, r12
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 3
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 4
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 5
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 6
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 7
+	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 13], 8
+	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 13], 9
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 13
+	mov	r15, rbx
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 13], 14
+	vinserti128	ymm0, ymm2, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rdx + rdi + 13], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 14]
+	vmovd	xmm1, edi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 14]
+	vmovd	xmm0, edi
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 3
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 4
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 5
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 14], 7
+	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 14], 8
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 11
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 12
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 13
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 14], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 15
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 14], 1
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 2
+	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 4
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 5
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 6
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 14], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 9
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 11
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 12
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 14], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 14], 14
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 15]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 1
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 2
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 4
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 5
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 15], 6
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 15], 8
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 15], 9
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 15], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 13
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 15
+	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r10 + 15]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 1
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 15], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 3
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 4
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 5
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 6
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 7
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 8
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 9
+	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 10
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 13
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 14
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 15
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r9 + 16]
+	vmovd	xmm0, edi
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 1
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 2
+	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 3
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 4
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 16], 6
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 16], 9
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 16], 10
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 11
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 12
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 14
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 15
+	movzx	edi, byte ptr [rdx + r10 + 16]
+	vmovd	xmm1, edi
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 2
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 3
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 4
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 5
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 7
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 8
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 16], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 12
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 16], 13
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 15
+	movzx	edi, byte ptr [rdx + r9 + 17]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 17], 3
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 4
+	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 5
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 6
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 7
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 17], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 10
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 11
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 12
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 17], 13
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 17], 15
+	movzx	edi, byte ptr [rdx + r10 + 17]
+	vmovd	xmm3, edi
+	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 17], 1
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 2
+	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 3
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 4
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 17], 6
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 7
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 8
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 9
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 12
+	mov	r11, rbx
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 17], 13
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + rbx + 17], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 18]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 1
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 2
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 3
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 18], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 6
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 18], 8
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 9
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 10
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 11
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 13
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 15
+	movzx	edi, byte ptr [rdx + r10 + 18]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 1
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 3
+	mov	r12, r8
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 4
+	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 5
+	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 6
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 18], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 8
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 11
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 13
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 18], 15
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r15 + 19]
+	vmovd	xmm2, edi
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 1
+	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 19], 2
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 3
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 4
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 5
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 6
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 7
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 8
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 19], 9
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 10
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 11
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 12
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 13
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 14
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 15
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 19]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 19], 6
+	mov	r14, r8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 7
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 13
+	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 14
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rdx + r15 + 20]
+	vmovd	xmm0, edi
+	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 20], 2
+	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 20], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 20], 4
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 5
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 6
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 20], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 9
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 10
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 11
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 12
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 13
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 14
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 20], 15
+	movzx	edi, byte ptr [rdx + rcx + 20]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 1
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 3
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 4
+	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 20], 6
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 7
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 8
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 9
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 14
+	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 21]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 1
+	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 21], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 3
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 5
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 21], 7
+	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 21], 8
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 9
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 10
+	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 21], 11
+	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 12
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 21], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 21]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 2
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 3
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 21], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 6
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 7
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 9
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 10
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 11
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 13
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + r12 + 21], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 22]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 2
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 4
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 6
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 22], 8
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 9
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 22], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 22], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 12
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 13
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 14
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 22], 15
+	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r11 + 22]
+	vmovd	xmm1, edi
+	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 1
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 2
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 3
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 4
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 5
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 6
+	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 22], 7
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 8
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 9
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 12
+	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 14
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 15
+	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rbx + 23]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 1
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 3
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 4
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 5
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 23], 6
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 8
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 10
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 11
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 13
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 23], 15
+	movzx	edi, byte ptr [rdx + r11 + 23]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 23], 1
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 2
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 3
+	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 23], 4
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 5
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 23], 7
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 8
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 9
+	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 23], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 11
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 13
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 15
+	vinserti128	ymm10, ymm1, xmm0, 1
+	vinserti128	ymm11, ymm3, xmm2, 1
+	movzx	edi, byte ptr [rdx + rbx + 24]
+	vmovd	xmm0, edi
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 1
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 2
+	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 24], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 4
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 24], 6
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 24], 7
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 9
+	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 10
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 11
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 12
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 24], 14
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 15
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 24]
+	vmovd	xmm1, edi
+	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 2
+	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 4
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 5
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 6
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 7
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 8
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 24], 10
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 12
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 13
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 14
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 15
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rsi + 25]
+	vmovd	xmm2, edi
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 25], 1
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 25], 3
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 5
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 25], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 25], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 11
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 25], 12
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 13
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 14
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 15
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 25]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 25], 1
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 3
+	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 25], 4
+	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 5
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 25], 7
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 8
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 25], 10
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 25], 11
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 25], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + rdi + 25], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 26]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 26], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 2
+	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 3
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 4
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 6
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 9
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 10
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 12
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 26], 13
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 15
+	movzx	edi, byte ptr [rdx + rcx + 26]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 1
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 2
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 5
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 26], 6
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 7
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 8
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 9
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 26], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 26], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 13
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 14
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 27]
+	vmovd	xmm2, edi
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 27], 1
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 2
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 4
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 5
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 6
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 27], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 8
+	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 27], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 10
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 11
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 27], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 14
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 27], 15
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rsi + 27]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 1
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 3
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 4
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 7
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 8
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 11
+	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 12
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 13
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 27], 14
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 28]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 1
+	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 2
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 3
+	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 28], 4
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 5
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 6
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 7
+	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 28], 9
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 10
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 11
+	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 28], 12
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 13
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 14
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 28], 15
+	movzx	edi, byte ptr [rdx + rsi + 28]
+	vmovd	xmm1, edi
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 1
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 2
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 4
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 5
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 28], 6
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 7
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 9
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 12
+	mov	rcx, r11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 28], 14
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 29]
+	vmovd	xmm2, edi
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 2
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 4
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 5
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 6
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 8
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 9
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 10
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 29], 13
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 14
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 15
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 29]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 1
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 4
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 29], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 29], 6
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 8
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 9
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 11
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 29], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 13
+	vpinsrb	xmm4, xmm3, byte ptr [rdx + r15 + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	vpinsrb	xmm0, xmm4, byte ptr [rdx + r11 + 29], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rdx + rax + 30]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 30], 1
+	movzx	edi, byte ptr [rdx + rax + 31]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 31], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
+	mov	rax, r10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 31], 5
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 6
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 9
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 10
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 11
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 31], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rdx + r8 + 31], 15
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	eax, byte ptr [rdx + rdi + 30]
+	vmovd	xmm1, eax
+	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 1
+	movzx	eax, byte ptr [rdx + rdi + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 31], 2
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 31], 5
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 31], 7
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
+	mov	rax, rbx
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 31], 12
+	mov	rax, rcx
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 31], 13
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vmovdqa	ymm2, ymmword ptr [rsp + 512]   # 32-byte Reload
+	vpcmpeqb	ymm0, ymm13, ymm2
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI5_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	vpandn	ymm7, ymm7, ymm5
+	vpaddb	ymm0, ymm7, ymm0
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI5_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpandn	ymm7, ymm7, ymm6
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
+	vmovdqa	ymm3, ymmword ptr [rip + .LCPI5_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpandn	ymm12, ymm12, ymm3
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm14, ymm2
+	vmovdqa	ymm8, ymmword ptr [rip + .LCPI5_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpandn	ymm12, ymm12, ymm8
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpsubb	ymm0, ymm0, ymm1
+	vpcmpeqd	ymm4, ymm4, ymm4
+	vpor	ymm0, ymm0, ymm7
+	vpcmpeqb	ymm7, ymm15, ymm2
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI5_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpandn	ymm7, ymm7, ymm1
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 416] # 32-byte Folded Reload
+	vmovdqa	ymm13, ymmword ptr [rip + .LCPI5_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpandn	ymm12, ymm12, ymm13
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
+	vmovdqa	ymm9, ymmword ptr [rip + .LCPI5_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpandn	ymm12, ymm12, ymm9
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm0, ymm0, ymm7
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm5
+	vpaddb	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm6
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm3
+	vpor	ymm12, ymm12, ymm15
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm8
+	vpor	ymm12, ymm12, ymm15
+	vpsubb	ymm7, ymm7, ymm4
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm1
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm13
+	vpor	ymm12, ymm12, ymm15
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm9
+	vpor	ymm12, ymm12, ymm15
+	vpor	ymm12, ymm12, ymm7
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm5
+	vpaddb	ymm7, ymm15, ymm7
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm6
+	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
+	vpandn	ymm14, ymm14, ymm3
+	vpor	ymm14, ymm15, ymm14
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm8
+	vpor	ymm14, ymm14, ymm15
+	vpsubb	ymm7, ymm7, ymm4
+	vpor	ymm7, ymm14, ymm7
+	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
+	vpandn	ymm14, ymm14, ymm1
+	vpcmpeqb	ymm10, ymm10, ymm2
+	vpandn	ymm10, ymm10, ymm13
+	vpor	ymm10, ymm14, ymm10
+	vpcmpeqb	ymm11, ymm11, ymm2
+	vmovdqa	ymm14, ymm9
+	vpandn	ymm11, ymm11, ymm9
+	vpor	ymm10, ymm10, ymm11
+	vpor	ymm7, ymm10, ymm7
+	vpcmpeqb	ymm9, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
+	vpcmpeqb	ymm8, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
+	vpandn	ymm8, ymm8, ymm5
+	vpaddb	ymm8, ymm8, ymm9
+	vpcmpeqb	ymm5, ymm2, ymmword ptr [rsp + 608] # 32-byte Folded Reload
+	vpandn	ymm5, ymm5, ymm6
+	vpcmpeqb	ymm6, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
+	vpandn	ymm6, ymm6, ymm3
+	vpor	ymm5, ymm5, ymm6
+	vpcmpeqb	ymm3, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
+	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI5_3]
+	vpor	ymm3, ymm5, ymm3
+	vpsubb	ymm5, ymm8, ymm4
+	vpor	ymm3, ymm5, ymm3
+	vpcmpeqb	ymm4, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
+	vpandn	ymm4, ymm4, ymm1
+	vpcmpeqb	ymm1, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
+	vpandn	ymm1, ymm1, ymm13
+	vpor	ymm1, ymm4, ymm1
+	vpcmpeqb	ymm2, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
+	vpandn	ymm2, ymm2, ymm14
+	vpor	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm3, ymm1
+	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rsi, rcx
+	cmp	rcx, qword ptr [rsp + 376]      # 8-byte Folded Reload
+	jne	.LBB5_166
+# %bb.167:
+	mov	r14, qword ptr [rsp + 384]      # 8-byte Reload
+	cmp	r14, qword ptr [rsp + 376]      # 8-byte Folded Reload
+	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	r13, qword ptr [rsp + 400]      # 8-byte Reload
+	mov	rdx, qword ptr [rsp + 392]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	jne	.LBB5_43
+	jmp	.LBB5_129
+.LBB5_168:
+	and	r14, -32
+	mov	rax, r14
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 392], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 376], r14      # 8-byte Spill
+	lea	rax, [r15 + 4*r14]
+	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
+	vmovd	xmm0, r11d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
+	xor	ebx, ebx
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_169:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 408], rbx      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rdx + rax]
+	vmovd	xmm0, eax
+	movzx	eax, byte ptr [rdx + rbx]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rdx + rcx + 1]
+	vmovd	xmm4, eax
+	movzx	eax, byte ptr [rdx + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rdx + rcx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rcx + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rdx + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rdx + rcx + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
+	mov	qword ptr [rsp + 256], rbx      # 8-byte Spill
+	movzx	eax, byte ptr [rdx + rbx + 4]
+	vmovd	xmm15, eax
+	movzx	eax, byte ptr [rdx + rcx + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rdx + rbx + 5]
+	vmovd	xmm6, eax
+	movzx	eax, byte ptr [rdx + rcx + 6]
+	mov	qword ptr [rsp + 240], rcx      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rdx + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rdx + rcx + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rdx + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	r14, rbx
+	or	r14, 544
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	mov	rcx, rbx
+	or	rcx, 576
+	mov	qword ptr [rsp + 176], rcx      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 608
+	mov	r13, rax
+	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 640
+	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
+	mov	r10, rbx
+	or	r10, 672
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	r9, rbx
+	or	r9, 704
+	mov	qword ptr [rsp + 232], r9       # 8-byte Spill
+	mov	r11, rbx
+	or	r11, 736
+	mov	qword ptr [rsp + 96], r11       # 8-byte Spill
+	mov	r12, rbx
+	or	r12, 768
+	mov	qword ptr [rsp + 112], r12      # 8-byte Spill
+	mov	r8, rbx
+	or	r8, 800
+	mov	qword ptr [rsp + 56], r8        # 8-byte Spill
+	mov	r15, rbx
+	or	r15, 832
+	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 864
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 896
+	mov	rdi, rax
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 928
+	mov	rsi, rax
+	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 960
+	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
+	or	rbx, 992
+	vpinsrb	xmm9, xmm0, byte ptr [rdx + r14], 1
+	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13], 3
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 10
+	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 15
+	mov	r12, rbx
+	mov	qword ptr [rsp + 152], rbx      # 8-byte Spill
+	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 1
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 2
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 3
+	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 7
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 8
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 9
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 10
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 11
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 12
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 14
+	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 15
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 1
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 2
+	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 4
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 5
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 6
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 7
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 9
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 1], 11
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 12
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 1], 13
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 1], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rdx + r11 + 1], 1
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 2
+	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 5
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 9
+	mov	r13, rdi
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
+	vinserti128	ymm13, ymm3, xmm0, 1
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + r14 + 1], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 8]
+	vmovd	xmm9, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 8]
+	vmovd	xmm10, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 1
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 2
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 6
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 7
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 9
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 2], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 2], 1
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 3
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 2], 4
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 8
+	mov	rcx, r13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 9
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 10
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 11
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 14
+	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rdx + r15 + 3], 1
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 2
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 3
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 4
+	mov	rbx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 3], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 8
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 9
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 10
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 11
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 12
+	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 13
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 14
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 15
+	vpinsrb	xmm5, xmm8, byte ptr [rdx + r10 + 3], 1
+	mov	rbx, r10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 2
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 3], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 9]
+	vmovd	xmm8, edi
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 3], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 9]
+	vmovd	xmm11, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 1
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 2
+	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 4], 3
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 4], 4
+	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 6
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 9
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 10
+	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 11
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 14
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 4], 15
+	vpinsrb	xmm3, xmm15, byte ptr [rdx + rbx + 4], 1
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 2
+	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 4
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 6
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 9
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 10
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 15
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm14, byte ptr [rdx + rax + 5], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 5], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 5], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 6
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 9
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 5], 11
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 12
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 5], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 5], 15
+	vpinsrb	xmm5, xmm6, byte ptr [rdx + rbx + 5], 1
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 5], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 4
+	mov	r9, r14
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 7
+	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 8
+	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 5], 9
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
+	vinserti128	ymm14, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 5], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 10]
+	vmovd	xmm3, edi
+	vinserti128	ymm15, ymm0, xmm4, 1
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 10]
+	vmovd	xmm4, edi
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm12, byte ptr [rdx + rax + 6], 1
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 2
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 3
+	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 4
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 6], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 7
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 9
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 10
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 6], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 13
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 14
+	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 15
+	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rdx + r11 + 6], 1
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 2
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 4
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 6], 6
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 9
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 10
+	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 11
+	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 14
+	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 15
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 1
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 5
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 6
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 7
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 11
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 12
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 1
+	mov	r13, r11
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 2
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 3
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 6
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 7
+	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 8
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 9
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 13
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rdx + rdi + 7], 14
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 11]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 7], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 11]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rdx + rdi + 8], 1
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 2
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 3
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 4
+	mov	r9, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 8], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 6
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 9
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 10
+	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 11
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 13
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 14
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rdx + r13 + 8], 1
+	mov	r14, rsi
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 3
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 4
+	mov	rdi, r12
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 5
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 6
+	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 8
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 9
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 10
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 11
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 12
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 14
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 15
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm6, xmm8, byte ptr [rdx + rbx + 9], 1
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 2
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 9], 3
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 4
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 9], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 6
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 9], 7
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 8
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 9
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 10
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 11
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 12
+	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 13
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 14
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 15
+	vpinsrb	xmm7, xmm11, byte ptr [rdx + r13 + 9], 1
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 2
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rdi + 9], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 6
+	mov	r14, rsi
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 9], 7
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 10
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 12]
+	vmovd	xmm0, edi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 12]
+	vmovd	xmm5, edi
+	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 10], 1
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 2
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 3
+	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 5
+	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 10], 7
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 9
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 11
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 14
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 1
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 4
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 6
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
+	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 10], 8
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 9
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 12
+	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 13
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 2
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 4
+	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 6
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 7
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 11
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 12
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 13
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 14
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 15
+	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 11], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 2
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 11], 8
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 9
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 11], 14
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 13]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 13]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 1
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 12], 2
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 12], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 12], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 6
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 7
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 9
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 11
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 12
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 15
+	vpinsrb	xmm2, xmm5, byte ptr [rdx + r9 + 12], 1
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 3
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 4
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 5
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 7
+	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 12], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 9
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 10
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 14
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 15
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 5
+	mov	r10, r12
+	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 6
+	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 7
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 8
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 9
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 10
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 11
+	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 12
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 13
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 14
+	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 15
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 3
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 13], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 8
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 14
+	vinserti128	ymm0, ymm2, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 13], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 14]
+	vmovd	xmm1, edi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 14]
+	vmovd	xmm0, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 1
+	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 2
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 5
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 7
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 9
+	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 10
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 14], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 12
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 13
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 15
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 1
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 2
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 4
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 6
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 9
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 10
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 11
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 12
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 15
+	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r8 + 15]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 3
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 4
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 6
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 15], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 15], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 15], 11
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 15], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 15], 14
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 15
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rbx + 15]
+	vmovd	xmm3, edi
+	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 1
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 2
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 3
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 4
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 5
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 6
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 8
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 9
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 14
+	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 15
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rdx + r8 + 16]
+	vmovd	xmm0, edi
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 1
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 2
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 3
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 4
+	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 16], 6
+	mov	r12, r13
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 7
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 8
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 9
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 10
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 12
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 13
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 15
+	movzx	edi, byte ptr [rdx + rbx + 16]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 1
+	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 16], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 3
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 4
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 7
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 8
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 9
+	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 12
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 13
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 17]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 1
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 2
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 3
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 4
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 6
+	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 7
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 9
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 17], 10
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 11
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 12
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 17], 14
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 17]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 2
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 4
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 5
+	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 17], 6
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 17], 10
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 11
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + rax + 17], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 18]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 2
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 3
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 5
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 18], 7
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 8
+	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 18], 10
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 11
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 13
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 14
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 15
+	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r11 + 18]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 1
+	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 2
+	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 4
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 18], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 8
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 9
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
+	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 14
+	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 19]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 1
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 2
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 19], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 4
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 6
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 19], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 10
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 11
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 12
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 14
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 15
+	movzx	edi, byte ptr [rdx + r11 + 19]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 3
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 4
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 19], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 7
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 8
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 13
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 19], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 20]
+	vmovd	xmm0, edi
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 1
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 2
+	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 20], 3
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 4
+	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 5
+	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 20], 6
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 7
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 8
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 9
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 20], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 20], 12
+	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 20], 13
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 14
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 20]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 1
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 2
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 4
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 6
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 8
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 10
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 11
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 14
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 15
+	movzx	edi, byte ptr [rdx + rax + 21]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 3
+	mov	r13, r12
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 6
+	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 7
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 9
+	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 11
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 21], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 15
+	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r11 + 21]
+	vmovd	xmm3, edi
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 1
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 3
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 4
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 5
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 6
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 7
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 8
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 9
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 12
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + r9 + 21], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 22]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 1
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 3
+	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 22], 4
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 5
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 10
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 11
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 12
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 14
+	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 15
+	movzx	edi, byte ptr [rdx + r11 + 22]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 2
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
+	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 22], 6
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 7
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 9
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 10
+	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 23]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 1
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 2
+	mov	r14, r13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 4
+	mov	r13, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 5
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 6
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 7
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 9
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 10
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 11
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 12
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 13
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 23], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 23]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 1
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 2
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 4
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 23], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 8
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 9
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 12
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 15
+	vinserti128	ymm10, ymm1, xmm0, 1
+	vinserti128	ymm11, ymm3, xmm2, 1
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 24]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 1
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 24], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 24], 3
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 24], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 7
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 9
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 10
+	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 24], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 14
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 15
+	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r14 + 24]
+	vmovd	xmm1, edi
+	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 1
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 2
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 3
+	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 4
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 8
+	mov	r10, rbx
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 9
+	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 10
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 25]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 25], 2
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 4
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 5
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 6
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 7
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 9
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 11
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 12
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 13
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 14
+	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 25], 15
+	movzx	edi, byte ptr [rdx + r14 + 25]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 1
+	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 2
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 25], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 6
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 12
+	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 25], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + rcx + 25], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r11 + 26]
+	vmovd	xmm0, edi
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 1
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 2
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 4
+	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 6
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 7
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 9
+	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 11
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 12
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 13
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 26]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 1
+	mov	rax, r9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 2
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 4
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 6
+	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 7
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 26], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 9
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 26], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 15
+	movzx	edi, byte ptr [rdx + r11 + 27]
+	vmovd	xmm2, edi
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 27], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 3
+	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 5
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 6
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 7
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 27], 10
+	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 27], 11
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 12
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 27], 14
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 15
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 27]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 2
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 3
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 4
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 27], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 27], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r10 + 28]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 1
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 2
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 4
+	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 28], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 6
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 7
+	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 28], 8
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 9
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 11
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 12
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 13
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 14
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 28]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 1
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 2
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 4
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 5
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 6
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 8
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 9
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 10
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 28], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 15
+	movzx	edi, byte ptr [rdx + r10 + 29]
+	vmovd	xmm2, edi
+	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 2
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 3
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 5
+	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 6
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 9
+	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 10
+	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 12
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 14
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 15
+	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r8 + 29]
+	vmovd	xmm3, edi
+	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 4
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 29], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 8
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 9
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 11
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 13
+	vpinsrb	xmm4, xmm3, byte ptr [rdx + rcx + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm4, byte ptr [rdx + rax + 29], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 30]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 30], 1
+	movzx	edi, byte ptr [rdx + rcx + 31]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 31], 1
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 31], 6
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 31], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 31], 11
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 14
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
+	mov	rcx, r8
+	movzx	eax, byte ptr [rdx + r8 + 30]
+	vmovd	xmm1, eax
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 1
+	movzx	eax, byte ptr [rdx + r8 + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 31], 1
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 2
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 31], 4
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 31], 6
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 31], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vmovdqa	ymm2, ymmword ptr [rsp + 512]   # 32-byte Reload
+	vpcmpeqb	ymm0, ymm13, ymm2
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI5_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	vpandn	ymm7, ymm7, ymm5
+	vpaddb	ymm0, ymm7, ymm0
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI5_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpandn	ymm7, ymm7, ymm6
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
+	vmovdqa	ymm3, ymmword ptr [rip + .LCPI5_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpandn	ymm12, ymm12, ymm3
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm14, ymm2
+	vmovdqa	ymm8, ymmword ptr [rip + .LCPI5_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpandn	ymm12, ymm12, ymm8
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpsubb	ymm0, ymm0, ymm1
+	vpcmpeqd	ymm4, ymm4, ymm4
+	vpor	ymm0, ymm0, ymm7
+	vpcmpeqb	ymm7, ymm15, ymm2
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI5_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpandn	ymm7, ymm7, ymm1
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 416] # 32-byte Folded Reload
+	vmovdqa	ymm13, ymmword ptr [rip + .LCPI5_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpandn	ymm12, ymm12, ymm13
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
+	vmovdqa	ymm9, ymmword ptr [rip + .LCPI5_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpandn	ymm12, ymm12, ymm9
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm0, ymm0, ymm7
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm5
+	vpaddb	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm6
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm3
+	vpor	ymm12, ymm12, ymm15
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm8
+	vpor	ymm12, ymm12, ymm15
+	vpsubb	ymm7, ymm7, ymm4
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqb	ymm12, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm1
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm13
+	vpor	ymm12, ymm12, ymm15
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm9
+	vpor	ymm12, ymm12, ymm15
+	vpor	ymm12, ymm12, ymm7
+	vpcmpeqb	ymm7, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm5
+	vpaddb	ymm7, ymm15, ymm7
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm6
+	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
+	vpandn	ymm14, ymm14, ymm3
+	vpor	ymm14, ymm15, ymm14
+	vpcmpeqb	ymm15, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm8
+	vpor	ymm14, ymm14, ymm15
+	vpsubb	ymm7, ymm7, ymm4
+	vpor	ymm7, ymm14, ymm7
+	vpcmpeqb	ymm14, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
+	vpandn	ymm14, ymm14, ymm1
+	vpcmpeqb	ymm10, ymm10, ymm2
+	vpandn	ymm10, ymm10, ymm13
+	vpor	ymm10, ymm14, ymm10
+	vpcmpeqb	ymm11, ymm11, ymm2
+	vmovdqa	ymm14, ymm9
+	vpandn	ymm11, ymm11, ymm9
+	vpor	ymm10, ymm10, ymm11
+	vpor	ymm7, ymm10, ymm7
+	vpcmpeqb	ymm9, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
+	vpcmpeqb	ymm8, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
+	vpandn	ymm8, ymm8, ymm5
+	vpaddb	ymm8, ymm8, ymm9
+	vpcmpeqb	ymm5, ymm2, ymmword ptr [rsp + 608] # 32-byte Folded Reload
+	vpandn	ymm5, ymm5, ymm6
+	vpcmpeqb	ymm6, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
+	vpandn	ymm6, ymm6, ymm3
+	vpor	ymm5, ymm5, ymm6
+	vpcmpeqb	ymm3, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
+	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI5_3]
+	vpor	ymm3, ymm5, ymm3
+	vpsubb	ymm5, ymm8, ymm4
+	vpor	ymm3, ymm5, ymm3
+	vpcmpeqb	ymm4, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
+	vpandn	ymm4, ymm4, ymm1
+	vpcmpeqb	ymm1, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
+	vpandn	ymm1, ymm1, ymm13
+	vpor	ymm1, ymm4, ymm1
+	vpcmpeqb	ymm2, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
+	vpandn	ymm2, ymm2, ymm14
+	vpor	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm3, ymm1
+	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 408]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rbx, rcx
+	cmp	rcx, qword ptr [rsp + 376]      # 8-byte Folded Reload
+	jne	.LBB5_169
+# %bb.170:
+	mov	r14, qword ptr [rsp + 384]      # 8-byte Reload
+	cmp	r14, qword ptr [rsp + 376]      # 8-byte Folded Reload
+	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	r13, qword ptr [rsp + 400]      # 8-byte Reload
+	mov	rdx, qword ptr [rsp + 392]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	jne	.LBB5_114
+	jmp	.LBB5_133
+.Lfunc_end5:
+	.size	comparison_not_equal_scalar_arr_avx2, .Lfunc_end5-comparison_not_equal_scalar_arr_avx2
+                                        # -- End function
+	.globl	comparison_greater_arr_arr_avx2 # -- Begin function comparison_greater_arr_arr_avx2
+	.p2align	4, 0x90
+	.type	comparison_greater_arr_arr_avx2,@function
+comparison_greater_arr_arr_avx2:        # @comparison_greater_arr_arr_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -8
+	sub	rsp, 72
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r11, r8
+	mov	r14, rcx
+	cmp	edi, 6
+	jg	.LBB6_29
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB6_2
+# %bb.15:
+	cmp	edi, 4
+	je	.LBB6_68
+# %bb.16:
+	cmp	edi, 5
+	je	.LBB6_79
+# %bb.17:
+	cmp	edi, 6
+	jne	.LBB6_123
+# %bb.18:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_22
+# %bb.19:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_20:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx]
+	add	rdx, 4
+	cmp	ecx, dword ptr [rsi]
+	lea	rsi, [rsi + 4]
+	sbb	r10d, r10d
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_20
+# %bb.21:
+	add	r14, 1
+.LBB6_22:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_26
+# %bb.23:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_24:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	mov	eax, dword ptr [rsi + 8]
+	seta	r13b
+	cmp	eax, dword ptr [rdx + 8]
+	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	mov	eax, dword ptr [rsi + 16]
+	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 16]
+	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	mov	eax, dword ptr [rsi + 24]
+	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 24]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	mov	eax, dword ptr [rsi + 32]
+	seta	r15b
+	cmp	eax, dword ptr [rdx + 32]
+	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	mov	eax, dword ptr [rsi + 40]
+	seta	r8b
+	cmp	eax, dword ptr [rdx + 40]
+	seta	bl
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	mov	eax, dword ptr [rsi + 48]
+	seta	r9b
+	cmp	eax, dword ptr [rdx + 48]
+	seta	r12b
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	mov	eax, dword ptr [rsi + 56]
+	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 56]
+	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	mov	r11d, dword ptr [rsi + 64]
+	seta	r10b
+	mov	ecx, dword ptr [rsi + 68]
+	mov	eax, dword ptr [rsi + 72]
+	cmp	r11d, dword ptr [rdx + 64]
+	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	seta	r14b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 76]
+	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 76]
+	mov	eax, dword ptr [rsi + 80]
+	mov	ecx, dword ptr [rsi + 84]
+	seta	r11b
+	cmp	eax, dword ptr [rdx + 80]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 92]
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	seta	dil
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 104]
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 116]
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	seta	al
+	add	r13b, r13b
+	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, r13b
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, cl
+	shl	bl, 2
+	or	bl, r8b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r8d, ecx
+	shl	r9b, 3
+	or	r9b, bl
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	shl	r12b, 4
+	or	r12b, r9b
+	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, r12b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	r10b, 7
+	or	r10b, r8b
+	or	r15b, cl
+	or	r10b, bl
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	shl	r11b, 3
+	or	r11b, cl
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r11b
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	mov	byte ptr [r14], r15b
+	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	dil, 7
+	or	dil, r8b
+	mov	byte ptr [r14 + 1], r10b
+	or	dil, cl
+	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, cl
+	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r14 + 2], dil
+	mov	byte ptr [r14 + 3], al
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB6_24
+# %bb.25:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB6_26:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.27:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_28:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rdx + 4*rcx]
+	cmp	edi, dword ptr [rsi + 4*rcx]
+	sbb	edi, edi
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_28
+	jmp	.LBB6_123
+.LBB6_29:
+	cmp	edi, 8
+	jle	.LBB6_30
+# %bb.43:
+	cmp	edi, 9
+	je	.LBB6_101
+# %bb.44:
+	cmp	edi, 11
+	je	.LBB6_112
+# %bb.45:
+	cmp	edi, 12
+	jne	.LBB6_123
+# %bb.46:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_50
+# %bb.47:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_48:                               # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	add	rsi, 8
+	vucomisd	xmm0, qword ptr [rdx]
+	seta	r10b
+	add	rdx, 8
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_48
+# %bb.49:
+	add	r14, 1
+.LBB6_50:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_54
+# %bb.51:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_52:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 8]       # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 8]
+	seta	cl
+	vmovsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 16]
+	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 24]
+	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 32]
+	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 40]
+	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 48]
+	seta	al
+	vmovsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 56]
+	seta	r15b
+	vmovsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 64]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 72]
+	seta	dil
+	vmovsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 80]
+	seta	r10b
+	vmovsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 88]
+	seta	r11b
+	vmovsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 96]
+	seta	r14b
+	vmovsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 104]
+	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 112]
+	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 120]
+	seta	bl
+	vmovsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 128]
+	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 136]
+	seta	r12b
+	vmovsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 144]
+	seta	r13b
+	vmovsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 152]
+	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 160]
+	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 168]
+	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 176]
+	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 184]
+	seta	r9b
+	vmovsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 192]
+	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 200]
+	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 208]
+	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 216]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 224]
+	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 232]
+	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 240]
+	vmovsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
+	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	vucomisd	xmm0, qword ptr [rdx + 248]
+	seta	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB6_52
+# %bb.53:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB6_54:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.55:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_56:                               # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 8*rcx]
+	lea	r8, [rcx + 1]
+	seta	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_56
+	jmp	.LBB6_123
+.LBB6_2:
+	cmp	edi, 2
+	je	.LBB6_57
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB6_123
+# %bb.4:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_8
+# %bb.5:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_6:                                # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setg	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_6
+# %bb.7:
+	add	r14, 1
+.LBB6_8:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_12
+# %bb.9:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_10:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	setg	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	setg	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	setg	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	setg	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	setg	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	setg	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	setg	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	setg	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	setg	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	setg	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	setg	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB6_10
+# %bb.11:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB6_12:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.13:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_14:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rsi + rcx]
+	cmp	bl, byte ptr [rdx + rcx]
+	setg	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_14
+	jmp	.LBB6_123
+.LBB6_30:
+	cmp	edi, 7
+	je	.LBB6_90
+# %bb.31:
+	cmp	edi, 8
+	jne	.LBB6_123
+# %bb.32:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_36
+# %bb.33:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_34:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx]
+	add	rdx, 8
+	cmp	rcx, qword ptr [rsi]
+	lea	rsi, [rsi + 8]
+	sbb	r10d, r10d
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_34
+# %bb.35:
+	add	r14, 1
+.LBB6_36:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_40
+# %bb.37:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_38:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	mov	rax, qword ptr [rsi + 16]
+	seta	r13b
+	cmp	rax, qword ptr [rdx + 16]
+	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	mov	rax, qword ptr [rsi + 32]
+	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 32]
+	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	mov	rax, qword ptr [rsi + 48]
+	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 48]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	mov	rax, qword ptr [rsi + 64]
+	seta	r15b
+	cmp	rax, qword ptr [rdx + 64]
+	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	mov	rax, qword ptr [rsi + 80]
+	seta	r8b
+	cmp	rax, qword ptr [rdx + 80]
+	seta	bl
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	mov	rax, qword ptr [rsi + 96]
+	seta	r9b
+	cmp	rax, qword ptr [rdx + 96]
+	seta	r12b
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	mov	rax, qword ptr [rsi + 112]
+	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 112]
+	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	mov	r11, qword ptr [rsi + 128]
+	seta	r10b
+	mov	rcx, qword ptr [rsi + 136]
+	mov	rax, qword ptr [rsi + 144]
+	cmp	r11, qword ptr [rdx + 128]
+	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	seta	r14b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 152]
+	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 152]
+	mov	rax, qword ptr [rsi + 160]
+	mov	rcx, qword ptr [rsi + 168]
+	seta	r11b
+	cmp	rax, qword ptr [rdx + 160]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 184]
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	seta	dil
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 208]
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 232]
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	seta	al
+	add	r13b, r13b
+	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, r13b
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, cl
+	shl	bl, 2
+	or	bl, r8b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r8d, ecx
+	shl	r9b, 3
+	or	r9b, bl
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	shl	r12b, 4
+	or	r12b, r9b
+	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, r12b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	r10b, 7
+	or	r10b, r8b
+	or	r15b, cl
+	or	r10b, bl
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	shl	r11b, 3
+	or	r11b, cl
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r11b
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	mov	byte ptr [r14], r15b
+	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	dil, 7
+	or	dil, r8b
+	mov	byte ptr [r14 + 1], r10b
+	or	dil, cl
+	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, cl
+	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r14 + 2], dil
+	mov	byte ptr [r14 + 3], al
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB6_38
+# %bb.39:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB6_40:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.41:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_42:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rdx + 8*rcx]
+	cmp	rdi, qword ptr [rsi + 8*rcx]
+	sbb	edi, edi
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_42
+	jmp	.LBB6_123
+.LBB6_68:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_72
+# %bb.69:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_70:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx]
+	add	rdx, 2
+	cmp	cx, word ptr [rsi]
+	lea	rsi, [rsi + 2]
+	sbb	r10d, r10d
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_70
+# %bb.71:
+	add	r14, 1
+.LBB6_72:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_76
+# %bb.73:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_74:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	movzx	eax, word ptr [rsi + 4]
+	seta	r13b
+	cmp	ax, word ptr [rdx + 4]
+	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	movzx	eax, word ptr [rsi + 8]
+	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 8]
+	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	movzx	eax, word ptr [rsi + 12]
+	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 12]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	movzx	eax, word ptr [rsi + 16]
+	seta	r15b
+	cmp	ax, word ptr [rdx + 16]
+	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	movzx	eax, word ptr [rsi + 20]
+	seta	r8b
+	cmp	ax, word ptr [rdx + 20]
+	seta	bl
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	movzx	eax, word ptr [rsi + 24]
+	seta	r9b
+	cmp	ax, word ptr [rdx + 24]
+	seta	r12b
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	movzx	eax, word ptr [rsi + 28]
+	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 28]
+	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	movzx	r11d, word ptr [rsi + 32]
+	seta	r10b
+	movzx	ecx, word ptr [rsi + 34]
+	movzx	eax, word ptr [rsi + 36]
+	cmp	r11w, word ptr [rdx + 32]
+	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	seta	r14b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 38]
+	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 38]
+	movzx	eax, word ptr [rsi + 40]
+	movzx	ecx, word ptr [rsi + 42]
+	seta	r11b
+	cmp	ax, word ptr [rdx + 40]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 46]
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	seta	dil
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 52]
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 58]
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	seta	al
+	add	r13b, r13b
+	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, r13b
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, cl
+	shl	bl, 2
+	or	bl, r8b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r8d, ecx
+	shl	r9b, 3
+	or	r9b, bl
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	shl	r12b, 4
+	or	r12b, r9b
+	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, r12b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	r10b, 7
+	or	r10b, r8b
+	or	r15b, cl
+	or	r10b, bl
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	shl	r11b, 3
+	or	r11b, cl
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r11b
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	mov	byte ptr [r14], r15b
+	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	dil, 7
+	or	dil, r8b
+	mov	byte ptr [r14 + 1], r10b
+	or	dil, cl
+	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, cl
+	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r14 + 2], dil
+	mov	byte ptr [r14 + 3], al
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB6_74
+# %bb.75:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB6_76:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.77:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_78:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rdx + 2*rcx]
+	cmp	di, word ptr [rsi + 2*rcx]
+	sbb	edi, edi
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_78
+	jmp	.LBB6_123
+.LBB6_79:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_83
+# %bb.80:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_81:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setg	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_81
+# %bb.82:
+	add	r14, 1
+.LBB6_83:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_87
+# %bb.84:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_85:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	setg	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	setg	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	setg	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	setg	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	setg	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	setg	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	setg	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	setg	r12b
+	cmp	ax, word ptr [rdx + 40]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	setg	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	setg	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB6_85
+# %bb.86:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB6_87:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.88:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_89:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rsi + 2*rcx]
+	cmp	di, word ptr [rdx + 2*rcx]
+	setg	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_89
+	jmp	.LBB6_123
+.LBB6_101:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_105
+# %bb.102:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_103:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setg	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_103
+# %bb.104:
+	add	r14, 1
+.LBB6_105:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_109
+# %bb.106:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_107:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	setg	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	setg	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	setg	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	setg	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	setg	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	setg	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	setg	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	setg	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	setg	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	setg	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB6_107
+# %bb.108:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB6_109:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.110:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_111:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rsi + 8*rcx]
+	cmp	rdi, qword ptr [rdx + 8*rcx]
+	setg	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_111
+	jmp	.LBB6_123
+.LBB6_112:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_116
+# %bb.113:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_114:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	add	rsi, 4
+	vucomiss	xmm0, dword ptr [rdx]
+	seta	r10b
+	add	rdx, 4
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_114
+# %bb.115:
+	add	r14, 1
+.LBB6_116:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_120
+# %bb.117:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_118:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 4]       # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 4]
+	seta	cl
+	vmovss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 8]
+	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 12]
+	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 16]
+	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 20]
+	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 24]
+	seta	al
+	vmovss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 28]
+	seta	r15b
+	vmovss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 32]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 36]
+	seta	dil
+	vmovss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 40]
+	seta	r10b
+	vmovss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 44]
+	seta	r11b
+	vmovss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 48]
+	seta	r14b
+	vmovss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 52]
+	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 56]
+	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 60]
+	seta	bl
+	vmovss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 64]
+	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 68]
+	seta	r12b
+	vmovss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 72]
+	seta	r13b
+	vmovss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 76]
+	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 80]
+	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 84]
+	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 88]
+	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 92]
+	seta	r9b
+	vmovss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 96]
+	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 100]
+	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 104]
+	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 108]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 112]
+	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 116]
+	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 120]
+	vmovss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
+	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	vucomiss	xmm0, dword ptr [rdx + 124]
+	seta	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB6_118
+# %bb.119:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB6_120:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.121:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_122:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 4*rcx]
+	lea	r8, [rcx + 1]
+	seta	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_122
+	jmp	.LBB6_123
+.LBB6_57:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_61
+# %bb.58:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_59:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx]
+	add	rdx, 1
+	cmp	cl, byte ptr [rsi]
+	lea	rsi, [rsi + 1]
+	sbb	r10d, r10d
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_59
+# %bb.60:
+	add	r14, 1
+.LBB6_61:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_65
+# %bb.62:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_63:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	seta	r13b
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	movzx	eax, byte ptr [rsi + 3]
+	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 3]
+	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	movzx	eax, byte ptr [rsi + 5]
+	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 5]
+	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	movzx	eax, byte ptr [rsi + 7]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 7]
+	seta	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	movzx	eax, byte ptr [rsi + 9]
+	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 9]
+	seta	cl
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	movzx	eax, byte ptr [rsi + 11]
+	seta	r9b
+	cmp	al, byte ptr [rdx + 11]
+	seta	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	movzx	eax, byte ptr [rsi + 13]
+	seta	r10b
+	cmp	al, byte ptr [rdx + 13]
+	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	movzx	eax, byte ptr [rsi + 15]
+	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 15]
+	seta	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	movzx	eax, byte ptr [rsi + 17]
+	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 17]
+	seta	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	movzx	eax, byte ptr [rsi + 19]
+	seta	r14b
+	cmp	al, byte ptr [rdx + 19]
+	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	movzx	eax, byte ptr [rsi + 21]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 21]
+	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	movzx	eax, byte ptr [rsi + 23]
+	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 23]
+	seta	r8b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	movzx	eax, byte ptr [rsi + 25]
+	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 25]
+	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	movzx	eax, byte ptr [rsi + 27]
+	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 27]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	movzx	eax, byte ptr [rsi + 29]
+	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 29]
+	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	seta	dil
+	add	r13b, r13b
+	add	r13b, byte ptr [rsp + 4]        # 1-byte Folded Reload
+	mov	eax, r13d
+	movzx	r13d, byte ptr [rsp + 40]       # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 20]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 7]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 12]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r12b
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 18]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB6_63
+# %bb.64:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB6_65:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.66:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_67:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rdx + rcx]
+	cmp	bl, byte ptr [rsi + rcx]
+	sbb	edi, edi
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_67
+	jmp	.LBB6_123
+.LBB6_90:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_94
+# %bb.91:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_92:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setg	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_92
+# %bb.93:
+	add	r14, 1
+.LBB6_94:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_98
+# %bb.95:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_96:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	setg	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	setg	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	setg	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	setg	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	setg	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	setg	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	setg	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	setg	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	setg	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	setg	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB6_96
+# %bb.97:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB6_98:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.99:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_100:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rsi + 4*rcx]
+	cmp	edi, dword ptr [rdx + 4*rcx]
+	setg	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_100
+.LBB6_123:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.Lfunc_end6:
+	.size	comparison_greater_arr_arr_avx2, .Lfunc_end6-comparison_greater_arr_arr_avx2
+                                        # -- End function
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5                               # -- Begin function comparison_greater_arr_scalar_avx2
+.LCPI7_0:
+	.zero	32,1
+.LCPI7_1:
+	.zero	32,4
+.LCPI7_2:
+	.zero	32,8
+.LCPI7_3:
+	.zero	32,16
+.LCPI7_4:
+	.zero	32,32
+.LCPI7_5:
+	.zero	32,64
+.LCPI7_6:
+	.zero	32,128
+	.text
+	.globl	comparison_greater_arr_scalar_avx2
+	.p2align	4, 0x90
+	.type	comparison_greater_arr_scalar_avx2,@function
+comparison_greater_arr_scalar_avx2:     # @comparison_greater_arr_scalar_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -32
+	sub	rsp, 1344
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r10, r8
+	mov	r11, rcx
+	cmp	edi, 6
+	jg	.LBB7_19
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB7_2
+# %bb.10:
+	cmp	edi, 4
+	je	.LBB7_79
+# %bb.11:
+	cmp	edi, 5
+	je	.LBB7_95
+# %bb.12:
+	cmp	edi, 6
+	jne	.LBB7_192
+# %bb.13:
+	mov	r13d, dword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_17
+# %bb.14:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_15:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rsi]
+	lea	rsi, [rsi + 4]
+	sbb	edx, edx
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_15
+# %bb.16:
+	add	r11, 1
+.LBB7_17:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB7_18
+# %bb.112:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_113:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	seta	dil
+	cmp	dword ptr [rsi + 8], r13d
+	seta	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	seta	al
+	cmp	dword ptr [rsi + 28], r13d
+	seta	bl
+	cmp	dword ptr [rsi + 32], r13d
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	seta	dl
+	cmp	dword ptr [rsi + 40], r13d
+	seta	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	seta	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	seta	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	seta	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	seta	cl
+	cmp	dword ptr [rsi + 64], r13d
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	seta	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	seta	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 128
+	add	rdx, 4
+	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB7_113
+# %bb.114:
+	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB7_116
+	jmp	.LBB7_192
+.LBB7_19:
+	cmp	edi, 8
+	jle	.LBB7_20
+# %bb.28:
+	cmp	edi, 9
+	je	.LBB7_148
+# %bb.29:
+	cmp	edi, 11
+	je	.LBB7_164
+# %bb.30:
+	cmp	edi, 12
+	jne	.LBB7_192
+# %bb.31:
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB7_35
+# %bb.32:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_33:                               # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rsi]
+	lea	rsi, [rsi + 8]
+	sbb	edx, edx
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_33
+# %bb.34:
+	add	r11, 1
+.LBB7_35:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB7_36
+# %bb.180:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_181:                              # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rsi]
+	setb	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 8]
+	setb	r9b
+	vucomisd	xmm0, qword ptr [rsi + 16]
+	setb	r14b
+	vucomisd	xmm0, qword ptr [rsi + 24]
+	setb	r13b
+	vucomisd	xmm0, qword ptr [rsi + 32]
+	setb	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 40]
+	setb	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 48]
+	setb	al
+	vucomisd	xmm0, qword ptr [rsi + 56]
+	setb	bl
+	vucomisd	xmm0, qword ptr [rsi + 64]
+	setb	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 72]
+	setb	dl
+	vucomisd	xmm0, qword ptr [rsi + 80]
+	setb	dil
+	vucomisd	xmm0, qword ptr [rsi + 88]
+	setb	r10b
+	vucomisd	xmm0, qword ptr [rsi + 96]
+	setb	r11b
+	vucomisd	xmm0, qword ptr [rsi + 104]
+	setb	r12b
+	vucomisd	xmm0, qword ptr [rsi + 112]
+	setb	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 120]
+	setb	cl
+	vucomisd	xmm0, qword ptr [rsi + 128]
+	setb	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 136]
+	setb	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 144]
+	setb	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 152]
+	setb	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 160]
+	setb	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 168]
+	setb	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 176]
+	setb	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 184]
+	setb	r15b
+	vucomisd	xmm0, qword ptr [rsi + 192]
+	setb	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 200]
+	setb	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 208]
+	setb	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 216]
+	setb	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 224]
+	setb	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 232]
+	setb	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 240]
+	setb	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 248]
+	setb	r8b
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r9b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r9d, edx
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 256
+	add	rdx, 4
+	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 120], -1       # 8-byte Folded Spill
+	jne	.LBB7_181
+# %bb.182:
+	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB7_184
+	jmp	.LBB7_192
+.LBB7_2:
+	cmp	edi, 2
+	je	.LBB7_37
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB7_192
+# %bb.4:
+	mov	r14b, byte ptr [rdx]
+	lea	r13, [r10 + 31]
+	test	r10, r10
+	mov	r15, r10
+	cmovns	r13, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_8
+# %bb.5:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_6:                                # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r14b
+	lea	rsi, [rsi + 1]
+	setg	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_6
+# %bb.7:
+	add	r11, 1
+.LBB7_8:
+	sar	r13, 5
+	cmp	r15, 32
+	jl	.LBB7_9
+# %bb.61:
+	cmp	r13, 32
+	mov	dword ptr [rsp + 4], r14d       # 4-byte Spill
+	mov	qword ptr [rsp + 248], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 360], r13      # 8-byte Spill
+	jb	.LBB7_62
+# %bb.63:
+	mov	rax, r13
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r11, rax
+	jae	.LBB7_65
+# %bb.64:
+	lea	rax, [r11 + 4*r13]
+	cmp	rsi, rax
+	jae	.LBB7_65
+.LBB7_62:
+	xor	eax, eax
+	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
+	mov	r12, rsi
+	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
+.LBB7_68:
+	sub	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 120], r13      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_69:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, r12
+	cmp	byte ptr [r12], r14b
+	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 1], r14b
+	setg	r8b
+	cmp	byte ptr [r12 + 2], r14b
+	setg	r15b
+	cmp	byte ptr [r12 + 3], r14b
+	setg	r13b
+	cmp	byte ptr [r12 + 4], r14b
+	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 5], r14b
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 6], r14b
+	setg	al
+	cmp	byte ptr [r12 + 7], r14b
+	setg	r11b
+	cmp	byte ptr [r12 + 8], r14b
+	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 9], r14b
+	setg	dl
+	cmp	byte ptr [r12 + 10], r14b
+	setg	sil
+	cmp	byte ptr [r12 + 11], r14b
+	setg	dil
+	cmp	byte ptr [r12 + 12], r14b
+	setg	r10b
+	cmp	byte ptr [r12 + 13], r14b
+	setg	r12b
+	cmp	byte ptr [rcx + 14], r14b
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 15], r14b
+	setg	r9b
+	cmp	byte ptr [rcx + 16], r14b
+	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 17], r14b
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 18], r14b
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 19], r14b
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 20], r14b
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 21], r14b
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 22], r14b
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 23], r14b
+	setg	r14b
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 24], bl
+	setg	byte ptr [rsp + 240]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 25], bl
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 26], bl
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 27], bl
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 28], bl
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 29], bl
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 30], bl
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 31], bl
+	setg	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r15b, 2
+	or	r15b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 288]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r15b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 256]        # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp + 352]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r14b, 7
+	or	r14b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r14b, dl
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 240]        # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	bl, 7
+	or	bl, dl
+	or	bl, al
+	mov	byte ptr [rsi + 2], r14b
+	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
+	mov	byte ptr [rsi + 3], bl
+	lea	r12, [rcx + 32]
+	add	rsi, 4
+	mov	qword ptr [rsp + 352], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 120], -1       # 8-byte Folded Spill
+	jne	.LBB7_69
+# %bb.70:
+	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r13, qword ptr [rsp + 360]      # 8-byte Reload
+	jmp	.LBB7_71
+.LBB7_20:
+	cmp	edi, 7
+	je	.LBB7_122
+# %bb.21:
+	cmp	edi, 8
+	jne	.LBB7_192
+# %bb.22:
+	mov	r13, qword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_26
+# %bb.23:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_24:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rsi]
+	lea	rsi, [rsi + 8]
+	sbb	edx, edx
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_24
+# %bb.25:
+	add	r11, 1
+.LBB7_26:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB7_27
+# %bb.138:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_139:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	cmp	qword ptr [rsi], r13
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	seta	dil
+	cmp	qword ptr [rsi + 16], r13
+	seta	r14b
+	cmp	qword ptr [rsi + 24], r13
+	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	seta	al
+	cmp	qword ptr [rsi + 56], r13
+	seta	bl
+	cmp	qword ptr [rsi + 64], r13
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	seta	dl
+	cmp	qword ptr [rsi + 80], r13
+	seta	r9b
+	cmp	qword ptr [rsi + 88], r13
+	seta	r10b
+	cmp	qword ptr [rsi + 96], r13
+	seta	r11b
+	cmp	qword ptr [rsi + 104], r13
+	seta	r12b
+	cmp	qword ptr [rsi + 112], r13
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	seta	cl
+	cmp	qword ptr [rsi + 128], r13
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	seta	r15b
+	cmp	qword ptr [rsi + 192], r13
+	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	seta	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r11], bl
+	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], r8b
+	add	rsi, 256
+	add	r11, 4
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB7_139
+# %bb.140:
+	mov	r14, r11
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB7_142
+	jmp	.LBB7_192
+.LBB7_79:
+	movzx	r13d, word ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_83
+# %bb.80:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_81:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rsi]
+	lea	rsi, [rsi + 2]
+	sbb	edx, edx
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_81
+# %bb.82:
+	add	r11, 1
+.LBB7_83:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB7_84
+# %bb.85:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_86:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	seta	al
+	cmp	word ptr [rsi + 2], r13w
+	seta	dil
+	cmp	word ptr [rsi + 4], r13w
+	seta	r14b
+	cmp	word ptr [rsi + 6], r13w
+	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 8], r13w
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 10], r13w
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 12], r13w
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 14], r13w
+	seta	bl
+	cmp	word ptr [rsi + 16], r13w
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 18], r13w
+	seta	dl
+	cmp	word ptr [rsi + 20], r13w
+	seta	r9b
+	cmp	word ptr [rsi + 22], r13w
+	seta	r10b
+	cmp	word ptr [rsi + 24], r13w
+	seta	r11b
+	cmp	word ptr [rsi + 26], r13w
+	seta	r12b
+	cmp	word ptr [rsi + 28], r13w
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 30], r13w
+	seta	cl
+	cmp	word ptr [rsi + 32], r13w
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 34], r13w
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 36], r13w
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 38], r13w
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 40], r13w
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 42], r13w
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 44], r13w
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 46], r13w
+	seta	r15b
+	cmp	word ptr [rsi + 48], r13w
+	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 50], r13w
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 52], r13w
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 54], r13w
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	word ptr [rsi + 56], r13w
+	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 58], r13w
+	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 60], r13w
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	word ptr [rsi + 62], r13w
+	seta	r8b
+	add	dil, dil
+	or	dil, al
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 64
+	add	rdx, 4
+	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB7_86
+# %bb.87:
+	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB7_89
+	jmp	.LBB7_192
+.LBB7_95:
+	movzx	r13d, word ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_99
+# %bb.96:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_97:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	lea	rsi, [rsi + 2]
+	setg	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_97
+# %bb.98:
+	add	r11, 1
+.LBB7_99:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB7_100
+# %bb.101:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_102:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 2], r13w
+	setg	dil
+	cmp	word ptr [rsi + 4], r13w
+	setg	r14b
+	cmp	word ptr [rsi + 6], r13w
+	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 8], r13w
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 10], r13w
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 12], r13w
+	setg	al
+	cmp	word ptr [rsi + 14], r13w
+	setg	bl
+	cmp	word ptr [rsi + 16], r13w
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 18], r13w
+	setg	dl
+	cmp	word ptr [rsi + 20], r13w
+	setg	r9b
+	cmp	word ptr [rsi + 22], r13w
+	setg	r10b
+	cmp	word ptr [rsi + 24], r13w
+	setg	r11b
+	cmp	word ptr [rsi + 26], r13w
+	setg	r12b
+	cmp	word ptr [rsi + 28], r13w
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 30], r13w
+	setg	cl
+	cmp	word ptr [rsi + 32], r13w
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 34], r13w
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 36], r13w
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 38], r13w
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 40], r13w
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 42], r13w
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 44], r13w
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 46], r13w
+	setg	r15b
+	cmp	word ptr [rsi + 48], r13w
+	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 50], r13w
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 52], r13w
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 54], r13w
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	word ptr [rsi + 56], r13w
+	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 58], r13w
+	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 60], r13w
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	word ptr [rsi + 62], r13w
+	setg	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 64
+	add	rdx, 4
+	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB7_102
+# %bb.103:
+	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB7_105
+	jmp	.LBB7_192
+.LBB7_148:
+	mov	r13, qword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_152
+# %bb.149:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_150:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	setg	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_150
+# %bb.151:
+	add	r11, 1
+.LBB7_152:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB7_153
+# %bb.154:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_155:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	setg	dil
+	cmp	qword ptr [rsi + 16], r13
+	setg	r14b
+	cmp	qword ptr [rsi + 24], r13
+	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	setg	al
+	cmp	qword ptr [rsi + 56], r13
+	setg	bl
+	cmp	qword ptr [rsi + 64], r13
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	setg	dl
+	cmp	qword ptr [rsi + 80], r13
+	setg	r9b
+	cmp	qword ptr [rsi + 88], r13
+	setg	r10b
+	cmp	qword ptr [rsi + 96], r13
+	setg	r11b
+	cmp	qword ptr [rsi + 104], r13
+	setg	r12b
+	cmp	qword ptr [rsi + 112], r13
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	setg	cl
+	cmp	qword ptr [rsi + 128], r13
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	setg	r15b
+	cmp	qword ptr [rsi + 192], r13
+	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	setg	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 256
+	add	rdx, 4
+	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB7_155
+# %bb.156:
+	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB7_158
+	jmp	.LBB7_192
+.LBB7_164:
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB7_168
+# %bb.165:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_166:                              # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rsi]
+	lea	rsi, [rsi + 4]
+	sbb	edx, edx
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_166
+# %bb.167:
+	add	r11, 1
+.LBB7_168:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB7_169
+# %bb.170:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_171:                              # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rsi]
+	setb	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 4]
+	setb	r9b
+	vucomiss	xmm0, dword ptr [rsi + 8]
+	setb	r14b
+	vucomiss	xmm0, dword ptr [rsi + 12]
+	setb	r13b
+	vucomiss	xmm0, dword ptr [rsi + 16]
+	setb	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 20]
+	setb	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 24]
+	setb	al
+	vucomiss	xmm0, dword ptr [rsi + 28]
+	setb	bl
+	vucomiss	xmm0, dword ptr [rsi + 32]
+	setb	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 36]
+	setb	dl
+	vucomiss	xmm0, dword ptr [rsi + 40]
+	setb	dil
+	vucomiss	xmm0, dword ptr [rsi + 44]
+	setb	r10b
+	vucomiss	xmm0, dword ptr [rsi + 48]
+	setb	r11b
+	vucomiss	xmm0, dword ptr [rsi + 52]
+	setb	r12b
+	vucomiss	xmm0, dword ptr [rsi + 56]
+	setb	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 60]
+	setb	cl
+	vucomiss	xmm0, dword ptr [rsi + 64]
+	setb	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 68]
+	setb	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 72]
+	setb	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 76]
+	setb	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 80]
+	setb	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 84]
+	setb	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 88]
+	setb	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 92]
+	setb	r15b
+	vucomiss	xmm0, dword ptr [rsi + 96]
+	setb	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 100]
+	setb	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 104]
+	setb	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 108]
+	setb	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 112]
+	setb	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 116]
+	setb	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 120]
+	setb	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 124]
+	setb	r8b
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r9b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r9d, edx
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 128
+	add	rdx, 4
+	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 120], -1       # 8-byte Folded Spill
+	jne	.LBB7_171
+# %bb.172:
+	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB7_174
+	jmp	.LBB7_192
+.LBB7_37:
+	mov	r14b, byte ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_41
+# %bb.38:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_39:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [rsi]
+	lea	rsi, [rsi + 1]
+	sbb	edx, edx
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_39
+# %bb.40:
+	add	r11, 1
+.LBB7_41:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB7_42
+# %bb.43:
+	cmp	r15, 32
+	mov	dword ptr [rsp + 4], r14d       # 4-byte Spill
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 376], r15      # 8-byte Spill
+	jb	.LBB7_44
+# %bb.45:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r11, rax
+	jae	.LBB7_47
+# %bb.46:
+	lea	rax, [r11 + 4*r15]
+	cmp	rsi, rax
+	jae	.LBB7_47
+.LBB7_44:
+	xor	eax, eax
+	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
+	mov	r12, rsi
+	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
+.LBB7_50:
+	sub	r15, qword ptr [rsp + 360]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_51:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, r12
+	cmp	byte ptr [r12], r14b
+	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 1], r14b
+	seta	r8b
+	cmp	byte ptr [r12 + 2], r14b
+	seta	r15b
+	cmp	byte ptr [r12 + 3], r14b
+	seta	r13b
+	cmp	byte ptr [r12 + 4], r14b
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 5], r14b
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 6], r14b
+	seta	al
+	cmp	byte ptr [r12 + 7], r14b
+	seta	r11b
+	cmp	byte ptr [r12 + 8], r14b
+	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 9], r14b
+	seta	dl
+	cmp	byte ptr [r12 + 10], r14b
+	seta	sil
+	cmp	byte ptr [r12 + 11], r14b
+	seta	dil
+	cmp	byte ptr [r12 + 12], r14b
+	seta	r10b
+	cmp	byte ptr [r12 + 13], r14b
+	seta	r12b
+	cmp	byte ptr [rcx + 14], r14b
+	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 15], r14b
+	seta	r9b
+	cmp	byte ptr [rcx + 16], r14b
+	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 17], r14b
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 18], r14b
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 19], r14b
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 20], r14b
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 21], r14b
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 22], r14b
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 23], r14b
+	seta	r14b
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 24], bl
+	seta	byte ptr [rsp + 240]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 25], bl
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 26], bl
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 27], bl
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 28], bl
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 29], bl
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 30], bl
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	byte ptr [rcx + 31], bl
+	seta	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r15b, 2
+	or	r15b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 288]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r15b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 256]        # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp + 352]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r14b, 7
+	or	r14b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r14b, dl
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 240]        # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	bl, 7
+	or	bl, dl
+	or	bl, al
+	mov	byte ptr [rsi + 2], r14b
+	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
+	mov	byte ptr [rsi + 3], bl
+	lea	r12, [rcx + 32]
+	add	rsi, 4
+	mov	qword ptr [rsp + 352], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 120], -1       # 8-byte Folded Spill
+	jne	.LBB7_51
+# %bb.52:
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 376]      # 8-byte Reload
+	jmp	.LBB7_53
+.LBB7_122:
+	mov	r13d, dword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_126
+# %bb.123:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_124:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	setg	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_124
+# %bb.125:
+	add	r11, 1
+.LBB7_126:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB7_127
+# %bb.128:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_129:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	cmp	dword ptr [rsi], r13d
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	setg	dil
+	cmp	dword ptr [rsi + 8], r13d
+	setg	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	setg	al
+	cmp	dword ptr [rsi + 28], r13d
+	setg	bl
+	cmp	dword ptr [rsi + 32], r13d
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	setg	dl
+	cmp	dword ptr [rsi + 40], r13d
+	setg	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	setg	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	setg	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	setg	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	setg	cl
+	cmp	dword ptr [rsi + 64], r13d
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	setg	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	setg	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 64]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r11], bl
+	movzx	ebx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], r8b
+	add	rsi, 128
+	add	r11, 4
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB7_129
+# %bb.130:
+	mov	r14, r11
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB7_132
+	jmp	.LBB7_192
+.LBB7_18:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB7_192
+.LBB7_116:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB7_120
+# %bb.117:
+	xor	r11d, r11d
+	jmp	.LBB7_118
+.LBB7_36:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB7_192
+.LBB7_184:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB7_186
+# %bb.185:
+	xor	r11d, r11d
+	jmp	.LBB7_188
+.LBB7_9:
+	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
+	mov	r12, rsi
+.LBB7_71:
+	shl	r13, 5
+	cmp	r13, r15
+	jge	.LBB7_192
+# %bb.72:
+	mov	r8, r15
+	sub	r8, r13
+	not	r13
+	add	r13, r15
+	jne	.LBB7_74
+# %bb.73:
+	xor	esi, esi
+	jmp	.LBB7_77
+.LBB7_27:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB7_192
+.LBB7_142:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB7_146
+# %bb.143:
+	xor	r11d, r11d
+	jmp	.LBB7_144
+.LBB7_84:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB7_192
+.LBB7_89:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB7_93
+# %bb.90:
+	xor	r11d, r11d
+	jmp	.LBB7_91
+.LBB7_100:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB7_192
+.LBB7_105:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB7_110
+# %bb.106:
+	xor	r11d, r11d
+	jmp	.LBB7_107
+.LBB7_153:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB7_192
+.LBB7_158:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB7_162
+# %bb.159:
+	xor	r11d, r11d
+	jmp	.LBB7_160
+.LBB7_169:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB7_192
+.LBB7_174:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB7_178
+# %bb.175:
+	xor	r11d, r11d
+	jmp	.LBB7_176
+.LBB7_42:
+	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
+	mov	r12, rsi
+.LBB7_53:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB7_192
+# %bb.54:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB7_56
+# %bb.55:
+	xor	eax, eax
+	jmp	.LBB7_59
+.LBB7_127:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB7_192
+.LBB7_132:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB7_136
+# %bb.133:
+	xor	r11d, r11d
+	jmp	.LBB7_134
+.LBB7_120:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB7_121:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rsi]
+	sbb	edi, edi
+	mov	rdx, r11
+	shr	rdx, 3
+	movzx	r10d, byte ptr [r15 + rdx]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dil, r10b
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rdx], al
+	add	r11, 2
+	cmp	r13d, dword ptr [rsi + 4]
+	lea	rsi, [rsi + 8]
+	sbb	edi, edi
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rdx], bl
+	cmp	r9, r11
+	jne	.LBB7_121
+.LBB7_118:
+	test	r8b, 1
+	je	.LBB7_192
+# %bb.119:
+	cmp	r13d, dword ptr [rsi]
+	jmp	.LBB7_190
+.LBB7_186:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB7_187:                              # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rsi]
+	sbb	eax, eax
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	xor	al, r9b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	vucomisd	xmm0, qword ptr [rsi + 8]
+	lea	rsi, [rsi + 16]
+	sbb	eax, eax
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB7_187
+.LBB7_188:
+	test	r8b, 1
+	je	.LBB7_192
+# %bb.189:
+	vucomisd	xmm0, qword ptr [rsi]
+	jmp	.LBB7_190
+.LBB7_74:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, qword ptr [rsp + 352]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB7_75:                               # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [r12 + rsi], r14b
+	setg	bl
+	neg	bl
+	mov	rdi, rsi
+	shr	rdi, 3
+	mov	ecx, esi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	byte ptr [r12 + rsi + 1], r14b
+	lea	rsi, [rsi + 2]
+	setg	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB7_75
+# %bb.76:
+	add	r12, rsi
+.LBB7_77:
+	test	r8b, 1
+	je	.LBB7_192
+# %bb.78:
+	cmp	byte ptr [r12], r14b
+	setg	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 352]       # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r8 + rdx], bl
+	jmp	.LBB7_192
+.LBB7_146:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB7_147:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rsi]
+	sbb	edi, edi
+	mov	rdx, r11
+	shr	rdx, 3
+	movzx	r10d, byte ptr [r15 + rdx]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dil, r10b
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rdx], al
+	add	r11, 2
+	cmp	r13, qword ptr [rsi + 8]
+	lea	rsi, [rsi + 16]
+	sbb	edi, edi
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rdx], bl
+	cmp	r9, r11
+	jne	.LBB7_147
+.LBB7_144:
+	test	r8b, 1
+	je	.LBB7_192
+# %bb.145:
+	cmp	r13, qword ptr [rsi]
+	jmp	.LBB7_190
+.LBB7_93:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB7_94:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rsi]
+	sbb	edi, edi
+	mov	rdx, r11
+	shr	rdx, 3
+	movzx	r10d, byte ptr [r15 + rdx]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dil, r10b
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rdx], al
+	add	r11, 2
+	cmp	r13w, word ptr [rsi + 2]
+	lea	rsi, [rsi + 4]
+	sbb	edi, edi
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rdx], bl
+	cmp	r9, r11
+	jne	.LBB7_94
+.LBB7_91:
+	test	r8b, 1
+	je	.LBB7_192
+# %bb.92:
+	cmp	r13w, word ptr [rsi]
+	jmp	.LBB7_190
+.LBB7_110:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB7_111:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	setg	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	word ptr [rsi + 2], r13w
+	lea	rsi, [rsi + 4]
+	setg	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB7_111
+.LBB7_107:
+	test	r8b, 1
+	je	.LBB7_192
+# %bb.108:
+	cmp	word ptr [rsi], r13w
+	jmp	.LBB7_109
+.LBB7_162:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB7_163:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	setg	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	setg	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB7_163
+.LBB7_160:
+	test	r8b, 1
+	je	.LBB7_192
+# %bb.161:
+	cmp	qword ptr [rsi], r13
+	jmp	.LBB7_109
+.LBB7_178:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB7_179:                              # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rsi]
+	sbb	eax, eax
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	xor	al, r9b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	vucomiss	xmm0, dword ptr [rsi + 4]
+	lea	rsi, [rsi + 8]
+	sbb	eax, eax
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB7_179
+.LBB7_176:
+	test	r8b, 1
+	je	.LBB7_192
+# %bb.177:
+	vucomiss	xmm0, dword ptr [rsi]
+.LBB7_190:
+	sbb	eax, eax
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	jmp	.LBB7_191
+.LBB7_56:
+	mov	r9, r8
+	and	r9, -2
+	xor	eax, eax
+	mov	r10, qword ptr [rsp + 352]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB7_57:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [r12 + rax]
+	sbb	esi, esi
+	mov	rdi, rax
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	ebx, byte ptr [r10 + rdi]
+	xor	sil, bl
+	and	dl, sil
+	xor	dl, bl
+	mov	byte ptr [r10 + rdi], dl
+	cmp	r14b, byte ptr [r12 + rax + 1]
+	lea	rax, [rax + 2]
+	sbb	esi, esi
+	xor	sil, dl
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, sil
+	xor	bl, dl
+	mov	byte ptr [r10 + rdi], bl
+	cmp	r9, rax
+	jne	.LBB7_57
+# %bb.58:
+	add	r12, rax
+.LBB7_59:
+	test	r8b, 1
+	je	.LBB7_192
+# %bb.60:
+	cmp	r14b, byte ptr [r12]
+	sbb	edx, edx
+	mov	rsi, rax
+	shr	rsi, 3
+	mov	r8, qword ptr [rsp + 352]       # 8-byte Reload
+	mov	dil, byte ptr [r8 + rsi]
+	and	al, 7
+	mov	bl, 1
+	mov	ecx, eax
+	shl	bl, cl
+	xor	dl, dil
+	and	bl, dl
+	xor	bl, dil
+	mov	byte ptr [r8 + rsi], bl
+	jmp	.LBB7_192
+.LBB7_136:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB7_137:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	setg	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	setg	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB7_137
+.LBB7_134:
+	test	r8b, 1
+	je	.LBB7_192
+# %bb.135:
+	cmp	dword ptr [rsi], r13d
+.LBB7_109:
+	setg	al
+	neg	al
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+.LBB7_191:
+	xor	bl, sil
+	mov	byte ptr [r14 + rdx], bl
+.LBB7_192:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	vzeroupper
+	ret
+.LBB7_65:
+	and	r13, -32
+	mov	rax, r13
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 576], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 384], r13      # 8-byte Spill
+	lea	rax, [r11 + 4*r13]
+	mov	qword ptr [rsp + 352], rax      # 8-byte Spill
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_66:                               # =>This Inner Loop Header: Depth=1
+	mov	rbx, rax
+	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rsi + rax]
+	mov	rdx, rcx
+	vmovd	xmm0, eax
+	mov	rcx, rbx
+	movzx	eax, byte ptr [rsi + rbx]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rsi + rdx + 1]
+	vmovd	xmm4, eax
+	movzx	eax, byte ptr [rsi + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rsi + rdx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 544], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rdx + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rsi + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rsi + rdx + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rbx + 4]
+	vmovd	xmm13, eax
+	movzx	eax, byte ptr [rsi + rdx + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rsi + rbx + 5]
+	vmovd	xmm6, eax
+	movzx	eax, byte ptr [rsi + rdx + 6]
+	mov	qword ptr [rsp + 208], rdx      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rsi + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rsi + rdx + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rsi + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 544
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 576
+	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 608
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	r15, rbx
+	or	r15, 640
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	r11, rbx
+	or	r11, 672
+	mov	qword ptr [rsp + 184], r11      # 8-byte Spill
+	mov	r8, rbx
+	or	r8, 704
+	mov	qword ptr [rsp + 136], r8       # 8-byte Spill
+	mov	rdx, rbx
+	or	rdx, 736
+	mov	qword ptr [rsp + 176], rdx      # 8-byte Spill
+	mov	r12, rbx
+	or	r12, 768
+	mov	qword ptr [rsp + 160], r12      # 8-byte Spill
+	mov	r14, rbx
+	or	r14, 800
+	mov	qword ptr [rsp + 168], r14      # 8-byte Spill
+	mov	r10, rbx
+	or	r10, 832
+	mov	qword ptr [rsp + 40], r10       # 8-byte Spill
+	mov	r9, rbx
+	or	r9, 864
+	mov	qword ptr [rsp + 64], r9        # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 896
+	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
+	mov	rdi, rbx
+	or	rdi, 928
+	mov	qword ptr [rsp + 112], rdi      # 8-byte Spill
+	mov	rax, rbx
+	mov	qword ptr [rsp + 224], rbx      # 8-byte Spill
+	or	rax, 960
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	or	rcx, 992
+	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + rbx], 2
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 11
+	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
+	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 1
+	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 2
+	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 3
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 4
+	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 5
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 6
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 10
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 4
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 7
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 8
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 12
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
+	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 14
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + r14 + 1], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 6
+	mov	r8, r9
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 14
+	vinserti128	ymm15, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm9, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 1280], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm10, edi
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vmovdqa	xmm0, xmmword ptr [rsp + 544]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 1
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 2
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 6
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
+	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 2], 8
+	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 10
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
+	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 12
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 2], 6
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
+	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 2], 11
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rsi + rdx + 3], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 4
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 5
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 6
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
+	mov	r14, r15
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 14
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
+	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
+	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 3
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 3], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 3], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 9]
+	vmovd	xmm8, edi
+	mov	r9, rbx
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 3], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 9]
+	vmovd	xmm11, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 1
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 2
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 5
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 8
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 10
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 11
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 4], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 14
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 15
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm13, byte ptr [rsi + rax + 4], 1
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 4
+	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 5
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 6
+	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 8
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 4], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 10
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 4], 11
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 13
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 4], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 15
+	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm4, xmm14, byte ptr [rsi + r9 + 5], 1
+	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 2
+	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 6
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 7
+	mov	r13, rcx
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 8
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 10
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 11
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 12
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 13
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 15
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm6, byte ptr [rsi + rax + 5], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 5], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
+	mov	r10, rdi
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 7
+	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 5], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 5], 11
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 5], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
+	vinserti128	ymm14, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 5], 15
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 10]
+	vmovd	xmm3, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 10]
+	vmovd	xmm4, edi
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm12, byte ptr [rsi + rax + 6], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 2
+	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 3
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 4
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 5
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 6], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 7
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 8
+	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 9
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 10
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 11
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 6], 12
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 13
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 14
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 15
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + rcx + 6], 1
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 2
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 6], 6
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 7
+	mov	r10, r14
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 9
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 11
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 12
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 13
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 14
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 4
+	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 6
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 7], 9
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 10
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 7], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 13
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 14
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 15
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 1
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 2
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 3
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 6
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 7], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 7], 8
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 11
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 13
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + rcx + 7], 14
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 11]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 7], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1248], ymm0  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 11]
+	vmovd	xmm2, edi
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + rax + 8], 1
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 8], 2
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 4
+	mov	rbx, r14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 6
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 8
+	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 8], 9
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 8], 11
+	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 12
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 13
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 14
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 15
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + rdx + 8], 1
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 8], 2
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 3
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 8], 8
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 9
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 11
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 12
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 15
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm6, xmm8, byte ptr [rsi + r13 + 9], 1
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 2
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 4
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 6
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 7
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 8
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r8 + 9], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 10
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 11
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 13
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 15
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm7, xmm11, byte ptr [rsi + rax + 9], 1
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 2
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
+	mov	r14, rdi
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 9], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
+	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 9], 13
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm0, edi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm5, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 2
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
+	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 4
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 5
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 7
+	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 8
+	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 12
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 13
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 14
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 15
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 1
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 2
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 5
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 11
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 13
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 2
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 4
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 5
+	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 7
+	mov	r9, rdx
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 11], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 11
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 13
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
+	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 5
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 6
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 7
+	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 10
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm3  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 14
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 13]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm1  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 13]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 1
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 2
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 3
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 5
+	mov	rbx, r13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 8
+	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 9
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 10
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 11
+	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 12
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 12], 13
+	mov	r14, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 12], 14
+	mov	r10, r15
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 15
+	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm5, byte ptr [rsi + r13 + 12], 1
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 5
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 10
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 11
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 13
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 14
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 15
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 1
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 2
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 4
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 6
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 9
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 10
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 12
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 3
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 5
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 13], 7
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 13], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 13], 11
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 13
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 14
+	vinserti128	ymm0, ymm2, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
+	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r13 + 14]
+	vmovd	xmm1, edi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r14 + 14]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 1
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 2
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 3
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 14], 4
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 6
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 10
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 11
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 13
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 15
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 5
+	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 7
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 9
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 10
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 12
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 13
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
+	movzx	edi, byte ptr [rsi + r13 + 15]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 4
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 6
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 7
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 8
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 9
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 11
+	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 12
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 13
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 14
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
+	movzx	edi, byte ptr [rsi + r14 + 15]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 1
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 6
+	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 10
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 13
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 14
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 15], 15
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 16]
+	vmovd	xmm0, edi
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 16], 1
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 2
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 16], 3
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 5
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 7
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 8
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 9
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 10
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 16]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 1
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 2
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 3
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 5
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 7
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 9
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 12
+	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 13
+	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 16], 15
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 17]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 1
+	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 3
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 4
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 6
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 8
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 10
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 17], 11
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 12
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 13
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 17]
+	vmovd	xmm3, edi
+	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 1
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 17], 2
+	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 3
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 5
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 6
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 17], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 17], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 18]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 2
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 4
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 5
+	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 6
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 7
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 8
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 9
+	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 11
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 14
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 18], 15
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 18]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 4
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 5
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 7
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 9
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 11
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 12
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 14
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 15
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 19]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 2
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 4
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 19], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 19], 6
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 19], 10
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 13
+	mov	r9, qword ptr [rsp + 8]         # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 15
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r10 + 19]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 1
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 2
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 7
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 13
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r11 + 20]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 1
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 3
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 5
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 6
+	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 7
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 8
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 9
+	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 10
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 11
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 12
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 14
+	mov	r14, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 15
+	movzx	edi, byte ptr [rsi + r10 + 20]
+	vmovd	xmm1, edi
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 2
+	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 3
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 5
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 6
+	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 7
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 9
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 12
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
+	movzx	edi, byte ptr [rsi + r11 + 21]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 4
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 5
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 8
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 11
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 13
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 15
+	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r11 + 21]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 3
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 5
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 7
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 9
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 10
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 12
+	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 21], 13
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + r10 + 21], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 22]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 4
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 6
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 7
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 8
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 9
+	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 10
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 12
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 13
+	mov	r9, qword ptr [rsp + 8]         # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 14
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
+	movzx	edi, byte ptr [rsi + r11 + 22]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 2
+	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 6
+	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 22], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 11
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 22], 13
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 22], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 15
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 23]
+	vmovd	xmm2, edi
+	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 1
+	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 2
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 3
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 4
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 5
+	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 6
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 7
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 10
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 11
+	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 12
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 23], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 14
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 15
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 23]
+	vmovd	xmm3, edi
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 1
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 3
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 5
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 7
+	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 14
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 15
+	vinserti128	ymm10, ymm1, xmm0, 1
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 24]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 2
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 3
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 4
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 6
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 24], 7
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 8
+	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 9
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 10
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 24], 13
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 24], 15
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 24]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 1
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 2
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 3
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 5
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 6
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 10
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 13
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 14
+	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 15
+	movzx	edi, byte ptr [rsi + rcx + 25]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 1
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 3
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
+	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 5
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 7
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 9
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 25], 10
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 11
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 13
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 15
+	movzx	edi, byte ptr [rsi + rdx + 25]
+	vmovd	xmm3, edi
+	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 2
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 5
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 6
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 7
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 8
+	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 11
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 12
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 13
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 14
+	vinserti128	ymm9, ymm1, xmm0, 1
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + r11 + 25], 15
+	vinserti128	ymm8, ymm0, xmm2, 1
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r11 + 26]
+	vmovd	xmm0, edi
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 2
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 3
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 5
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 6
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 8
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 11
+	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 12
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 26], 13
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 14
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 26], 15
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 26]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 1
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 2
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 3
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 4
+	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 6
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 7
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 9
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 12
+	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 13
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 15
+	movzx	edi, byte ptr [rsi + r11 + 27]
+	vmovd	xmm2, edi
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 1
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 4
+	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 6
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 7
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 8
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 9
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 10
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 27], 13
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 14
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 15
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 27]
+	vmovd	xmm3, edi
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 1
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 27], 2
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 3
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 5
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 6
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 27], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 10
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 11
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 27], 13
+	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 14
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 28]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 1
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 2
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 3
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 5
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 7
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 10
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 11
+	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 13
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 14
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 15
+	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r12 + 28]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 4
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 6
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 7
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 9
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 10
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 11
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 15
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 29]
+	vmovd	xmm2, edi
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 29], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 2
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 4
+	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 5
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 6
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 7
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 8
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 10
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 12
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 13
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 14
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 15
+	movzx	edi, byte ptr [rsi + r12 + 29]
+	vmovd	xmm3, edi
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 1
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 2
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 3
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 5
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 29], 8
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 12
+	mov	r14, rdx
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 13
+	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm4, xmm3, byte ptr [rsi + r10 + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm4, byte ptr [rsi + rdx + 29], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r8 + 30]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 30], 1
+	movzx	edi, byte ptr [rsi + r8 + 31]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 31], 1
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 3
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 31], 5
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 10
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	eax, byte ptr [rsi + rcx + 30]
+	vmovd	xmm1, eax
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 1
+	movzx	eax, byte ptr [rsi + rcx + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 7
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 8
+	mov	rax, r9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
+	mov	rax, r14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 14
+	mov	rax, rdx
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 256], ymm0   # 32-byte Spill
+	vmovdqa	ymm0, ymmword ptr [rsp + 608]   # 32-byte Reload
+	vmovdqa	ymm1, ymmword ptr [rsp + 1280]  # 32-byte Reload
+	vpcmpgtb	ymm2, ymm1, ymm0
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI7_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpand	ymm7, ymm2, ymm1
+	vpsubb	ymm11, ymm7, ymm2
+	vpcmpgtb	ymm7, ymm15, ymm0
+	vpand	ymm7, ymm7, ymm1
+	vmovdqa	ymm2, ymmword ptr [rsp + 544]   # 32-byte Reload
+	vpcmpgtb	ymm12, ymm2, ymm0
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI7_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpand	ymm12, ymm12, ymm6
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm11, ymm11, ymm7
+	vmovdqa	ymm2, ymmword ptr [rsp + 448]   # 32-byte Reload
+	vpcmpgtb	ymm7, ymm2, ymm0
+	vmovdqa	ymm3, ymmword ptr [rip + .LCPI7_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpand	ymm7, ymm7, ymm3
+	vpcmpgtb	ymm12, ymm14, ymm0
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI7_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpand	ymm12, ymm12, ymm4
+	vpor	ymm7, ymm12, ymm7
+	vmovdqa	ymm12, ymmword ptr [rsp + 416]  # 32-byte Reload
+	vpcmpgtb	ymm12, ymm12, ymm0
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI7_4] # ymm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpand	ymm12, ymm12, ymm2
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm11, ymm11, ymm7
+	vmovdqa	ymm7, ymmword ptr [rsp + 512]   # 32-byte Reload
+	vpcmpgtb	ymm7, ymm7, ymm0
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI7_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpand	ymm7, ymm7, ymm5
+	vmovdqa	ymm12, ymmword ptr [rsp + 1248] # 32-byte Reload
+	vpcmpgtb	ymm12, ymm12, ymm0
+	vpsllw	ymm12, ymm12, 7
+	vmovdqa	ymm15, ymmword ptr [rip + .LCPI7_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpand	ymm12, ymm12, ymm15
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm13, ymm11, ymm7
+	vmovdqa	ymm7, ymmword ptr [rsp + 1184]  # 32-byte Reload
+	vpcmpgtb	ymm7, ymm7, ymm0
+	vpand	ymm12, ymm7, ymm1
+	vpsubb	ymm7, ymm12, ymm7
+	vmovdqa	ymm11, ymmword ptr [rsp + 1216] # 32-byte Reload
+	vpcmpgtb	ymm12, ymm11, ymm0
+	vpand	ymm12, ymm12, ymm1
+	vmovdqa	ymm11, ymmword ptr [rsp + 1152] # 32-byte Reload
+	vpcmpgtb	ymm11, ymm11, ymm0
+	vpand	ymm11, ymm11, ymm6
+	vpor	ymm11, ymm12, ymm11
+	vpor	ymm7, ymm11, ymm7
+	vmovdqa	ymm11, ymmword ptr [rsp + 1120] # 32-byte Reload
+	vpcmpgtb	ymm11, ymm11, ymm0
+	vpand	ymm11, ymm11, ymm3
+	vmovdqa	ymm12, ymmword ptr [rsp + 1088] # 32-byte Reload
+	vpcmpgtb	ymm12, ymm12, ymm0
+	vpand	ymm12, ymm12, ymm4
+	vpor	ymm11, ymm11, ymm12
+	vmovdqa	ymm12, ymmword ptr [rsp + 1056] # 32-byte Reload
+	vpcmpgtb	ymm12, ymm12, ymm0
+	vpand	ymm12, ymm12, ymm2
+	vpor	ymm11, ymm11, ymm12
+	vpor	ymm7, ymm11, ymm7
+	vmovdqa	ymm11, ymmword ptr [rsp + 992]  # 32-byte Reload
+	vpcmpgtb	ymm11, ymm11, ymm0
+	vpand	ymm11, ymm11, ymm5
+	vmovdqa	ymm12, ymmword ptr [rsp + 1024] # 32-byte Reload
+	vpcmpgtb	ymm12, ymm12, ymm0
+	vpsllw	ymm12, ymm12, 7
+	vpand	ymm12, ymm12, ymm15
+	vpor	ymm11, ymm11, ymm12
+	vpor	ymm12, ymm11, ymm7
+	vmovdqa	ymm7, ymmword ptr [rsp + 928]   # 32-byte Reload
+	vpcmpgtb	ymm7, ymm7, ymm0
+	vpand	ymm11, ymm7, ymm1
+	vpsubb	ymm7, ymm11, ymm7
+	vmovdqa	ymm11, ymmword ptr [rsp + 960]  # 32-byte Reload
+	vpcmpgtb	ymm11, ymm11, ymm0
+	vpand	ymm11, ymm11, ymm1
+	vmovdqa	ymm14, ymmword ptr [rsp + 864]  # 32-byte Reload
+	vpcmpgtb	ymm14, ymm14, ymm0
+	vpand	ymm14, ymm14, ymm6
+	vpor	ymm11, ymm11, ymm14
+	vpor	ymm7, ymm11, ymm7
+	vmovdqa	ymm11, ymmword ptr [rsp + 896]  # 32-byte Reload
+	vpcmpgtb	ymm11, ymm11, ymm0
+	vpand	ymm11, ymm11, ymm3
+	vmovdqa	ymm14, ymmword ptr [rsp + 800]  # 32-byte Reload
+	vpcmpgtb	ymm14, ymm14, ymm0
+	vpand	ymm14, ymm14, ymm4
+	vpor	ymm11, ymm11, ymm14
+	vmovdqa	ymm14, ymmword ptr [rsp + 832]  # 32-byte Reload
+	vpcmpgtb	ymm14, ymm14, ymm0
+	vpand	ymm14, ymm14, ymm2
+	vpor	ymm11, ymm11, ymm14
+	vpor	ymm7, ymm11, ymm7
+	vpcmpgtb	ymm10, ymm10, ymm0
+	vmovdqa	ymm14, ymm5
+	vpand	ymm10, ymm10, ymm5
+	vmovdqa	ymm11, ymmword ptr [rsp + 768]  # 32-byte Reload
+	vpcmpgtb	ymm11, ymm11, ymm0
+	vpsllw	ymm11, ymm11, 7
+	vpand	ymm11, ymm11, ymm15
+	vpor	ymm10, ymm10, ymm11
+	vpor	ymm7, ymm10, ymm7
+	vpcmpgtb	ymm8, ymm8, ymm0
+	vpand	ymm10, ymm8, ymm1
+	vpsubb	ymm8, ymm10, ymm8
+	vpcmpgtb	ymm9, ymm9, ymm0
+	vpand	ymm9, ymm9, ymm1
+	vmovdqa	ymm1, ymmword ptr [rsp + 640]   # 32-byte Reload
+	vpcmpgtb	ymm5, ymm1, ymm0
+	vpand	ymm5, ymm5, ymm6
+	vpor	ymm5, ymm9, ymm5
+	vpor	ymm5, ymm8, ymm5
+	vmovdqa	ymm1, ymmword ptr [rsp + 672]   # 32-byte Reload
+	vpcmpgtb	ymm6, ymm1, ymm0
+	vpand	ymm6, ymm6, ymm3
+	vmovdqa	ymm1, ymmword ptr [rsp + 736]   # 32-byte Reload
+	vpcmpgtb	ymm3, ymm1, ymm0
+	vpand	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm6, ymm3
+	vmovdqa	ymm1, ymmword ptr [rsp + 704]   # 32-byte Reload
+	vpcmpgtb	ymm4, ymm1, ymm0
+	vpand	ymm4, ymm4, ymm2
+	vpor	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm5, ymm3
+	vmovdqa	ymm1, ymmword ptr [rsp + 288]   # 32-byte Reload
+	vpcmpgtb	ymm1, ymm1, ymm0
+	vpand	ymm1, ymm14, ymm1
+	vmovdqa	ymm2, ymmword ptr [rsp + 256]   # 32-byte Reload
+	vpcmpgtb	ymm2, ymm2, ymm0
+	vpsllw	ymm2, ymm2, 7
+	vpand	ymm2, ymm15, ymm2
+	vpor	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm3, ymm1
+	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 368]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	jne	.LBB7_66
+# %bb.67:
+	mov	r13, qword ptr [rsp + 360]      # 8-byte Reload
+	cmp	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
+	mov	r12, qword ptr [rsp + 576]      # 8-byte Reload
+	jne	.LBB7_68
+	jmp	.LBB7_71
+.LBB7_47:
+	and	r15, -32
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 504], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 360], r15      # 8-byte Spill
+	lea	rax, [r11 + 4*r15]
+	mov	qword ptr [rsp + 352], rax      # 8-byte Spill
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	vmovdqa	ymm14, ymmword ptr [rsp + 576]  # 32-byte Reload
+	.p2align	4, 0x90
+.LBB7_48:                               # =>This Inner Loop Header: Depth=1
+	mov	rbx, rax
+	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rsi + rax]
+	vmovd	xmm0, eax
+	movzx	eax, byte ptr [rsi + rbx]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rsi + rcx + 1]
+	vmovd	xmm4, eax
+	movzx	eax, byte ptr [rsi + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rsi + rcx + 2]
+	mov	rdx, rcx
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	mov	rcx, rbx
+	movzx	eax, byte ptr [rsi + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rdx + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rsi + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rsi + rdx + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 512], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rbx + 4]
+	vmovd	xmm13, eax
+	movzx	eax, byte ptr [rsi + rdx + 5]
+	vmovd	xmm15, eax
+	movzx	eax, byte ptr [rsi + rbx + 5]
+	vmovd	xmm6, eax
+	movzx	eax, byte ptr [rsi + rdx + 6]
+	mov	qword ptr [rsp + 184], rdx      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rsi + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rsi + rdx + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rsi + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	r13, rbx
+	or	r13, 544
+	mov	qword ptr [rsp + 56], r13       # 8-byte Spill
+	mov	r11, rbx
+	or	r11, 576
+	mov	r14, rbx
+	or	r14, 608
+	mov	qword ptr [rsp + 72], r14       # 8-byte Spill
+	mov	r15, rbx
+	or	r15, 640
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	or	rbx, 672
+	mov	qword ptr [rsp + 144], rbx      # 8-byte Spill
+	mov	r12, rcx
+	or	r12, 704
+	mov	qword ptr [rsp + 200], r12      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 736
+	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
+	mov	r8, rcx
+	or	r8, 768
+	mov	qword ptr [rsp + 120], r8       # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 800
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	r9, rcx
+	or	r9, 832
+	mov	qword ptr [rsp + 88], r9        # 8-byte Spill
+	mov	rdi, rcx
+	or	rdi, 864
+	mov	qword ptr [rsp + 176], rdi      # 8-byte Spill
+	mov	rdx, rcx
+	or	rdx, 896
+	mov	qword ptr [rsp + 160], rdx      # 8-byte Spill
+	mov	r10, rcx
+	or	r10, 928
+	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
+	mov	rax, rcx
+	mov	qword ptr [rsp + 232], rcx      # 8-byte Spill
+	or	rax, 960
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	or	rcx, 992
+	mov	qword ptr [rsp + 208], rcx      # 8-byte Spill
+	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
+	mov	qword ptr [rsp + 80], r11       # 8-byte Spill
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + r11], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 6
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 8
+	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
+	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 1
+	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 2
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 3
+	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 5
+	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 6
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 7
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 10
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 12
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 13
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 14
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 15
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vpminub	ymm3, ymm14, ymm0
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 1], 2
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 3
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 4
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 1], 5
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 1], 7
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 9
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 10
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 11
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 12
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 13
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 14
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + r10 + 1], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 3
+	mov	r10, r15
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 4
+	mov	r13, r8
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 1], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 1], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 1], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 10
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 11
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
+	vpcmpeqb	ymm0, ymm0, ymm3
+	vmovdqa	ymmword ptr [rsp + 1280], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 14
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm9, edi
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 1], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm10, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 448]   # 16-byte Reload
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 1
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 2
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 3
+	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 2], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 5
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 6
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 7
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 8
+	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 10
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 11
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 12
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 416]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 2], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 2], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 2], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 2], 5
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 6
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 2], 7
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 2], 8
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 2], 9
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
+	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
+	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 2], 12
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rsi + r8 + 3], 1
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 2
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 4
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 7
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 9
+	mov	r9, r15
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 10
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 12
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 13
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 14
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 15
+	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 2
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 3], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 7
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 3], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 3], 9
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 14
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 15
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 9]
+	vmovd	xmm8, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 9]
+	vmovd	xmm11, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 512]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 1
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 4], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 3
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 5
+	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 6
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 7
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 9
+	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 10
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 12
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 14
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 15
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm13, byte ptr [rsi + rax + 4], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 5
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 6
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 7
+	mov	rcx, r10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 8
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 9
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 10
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 11
+	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 13
+	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 4], 14
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 15
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm15, byte ptr [rsi + rax + 5], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 2
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 4
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 6
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 11
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 5], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 15
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm5, xmm6, byte ptr [rsi + r11 + 5], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 2
+	mov	r9, r14
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 6
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 8
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 9
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 10
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 11
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
+	vinserti128	ymm13, ymm3, xmm0, 1
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + r10 + 5], 14
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 10]
+	vmovd	xmm3, edi
+	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 5], 15
+	vinserti128	ymm15, ymm0, xmm4, 1
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 10]
+	vmovd	xmm4, edi
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm12, byte ptr [rsi + rax + 6], 1
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 2
+	mov	r8, r12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 6], 3
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 5
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 6
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 6], 7
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 8
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 9
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 10
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 12
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 14
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 6], 15
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + r11 + 6], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 2
+	mov	r11, r14
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 3
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 5
+	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 6
+	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 7
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 6], 8
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 9
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 10
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 14
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 15
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 3
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 4
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 5
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 7], 7
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 9
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 10
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 11
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 13
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 7], 15
+	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 7], 1
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 7], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 4
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 7], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 7], 8
+	mov	r14, r10
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 9
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 10
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 15
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 11]
+	vmovd	xmm0, edi
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1248], ymm1  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 11]
+	vmovd	xmm1, edi
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm2, xmm9, byte ptr [rsi + r8 + 8], 1
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 8], 2
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 3
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 4
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 5
+	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 8], 6
+	mov	r11, r12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 8], 7
+	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 8], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 8], 9
+	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 8], 10
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 8], 11
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 12
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 14
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 8], 15
+	mov	rcx, r15
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + r15 + 8], 1
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 2
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 3
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 6
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 8], 8
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 8], 9
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 10
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 11
+	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 12
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 8], 15
+	vinserti128	ymm2, ymm5, xmm2, 1
+	vpminub	ymm5, ymm14, ymm2
+	vpinsrb	xmm6, xmm8, byte ptr [rsi + r8 + 9], 1
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r9 + 9], 2
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 3
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 4
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 6
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 7
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r12 + 9], 8
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 9
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r13 + 9], 10
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 11
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 12
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r9 + 9], 13
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
+	mov	r12, rax
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 15
+	vpinsrb	xmm7, xmm11, byte ptr [rsi + rcx + 9], 1
+	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 9], 2
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 9], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 7
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 9
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 10
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
+	vpcmpeqb	ymm2, ymm2, ymm5
+	vmovdqa	ymmword ptr [rsp + 1216], ymm2  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm2, edi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm5, edi
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 1
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 2
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
+	mov	r13, r15
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 4
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 5
+	mov	r14, r10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 7
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 8
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 9
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 10
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 11
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 10], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 13
+	mov	r9, r12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 15
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 10], 2
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 4
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 6
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 7
+	mov	r8, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 10], 8
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 9
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 10
+	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 11
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 12
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 10], 13
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 10], 14
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 10], 15
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 1
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 2
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 11], 4
+	mov	rbx, r13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 11], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 11], 6
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 11], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 11], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 11], 9
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 10
+	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 11], 11
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 11], 12
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 11], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 11], 14
+	mov	r10, r9
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 11], 15
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 1
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 5
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 6
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 8
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 9
+	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 10
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 11
+	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 11], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm3  # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 14
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 13]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 13]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm2, byte ptr [rsi + rdi + 12], 1
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 2
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 12], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 12], 4
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 5
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 12], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 12], 8
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 12], 10
+	mov	r9, r13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 12], 11
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 12], 12
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 12], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 12], 14
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 12], 15
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm2, xmm5, byte ptr [rsi + rcx + 12], 1
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 6
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 7
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 8
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 12], 10
+	mov	r10, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 12], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 12
+	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 12], 13
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 12], 14
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 15
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 1
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 4
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 5
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 13], 6
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 8
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 13], 12
+	mov	rbx, r13
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 15
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 13], 2
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 13], 5
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 13], 7
+	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 13], 8
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 9
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 13], 11
+	mov	r9, r10
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 13], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 13], 14
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm1  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 15
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 14]
+	vmovd	xmm1, edi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 14]
+	vmovd	xmm0, edi
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 1
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 2
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 14], 3
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 4
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 6
+	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 7
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 9
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 10
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 12
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 14], 13
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 14], 15
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 1
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 2
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 3
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 5
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 6
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 14], 8
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 14], 9
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 11
+	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 14], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 15
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 15]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 1
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 3
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 15], 5
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 7
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 8
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 15], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 11
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 12
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 14
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 15], 15
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 15]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 1
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 4
+	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 5
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 6
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 7
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 9
+	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 15], 10
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 12
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 15], 15
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 16]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 2
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 16], 4
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 5
+	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 7
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 16], 8
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 9
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 10
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 11
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 12
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 14
+	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 15
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 16]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 3
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 6
+	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 7
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 8
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 16], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 10
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 14
+	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 15
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r15 + 17]
+	vmovd	xmm2, edi
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 1
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 2
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 4
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 17], 6
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 8
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 17], 9
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 10
+	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 17], 11
+	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 12
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 13
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 17], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 15
+	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r12 + 17]
+	vmovd	xmm3, edi
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 1
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 2
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 3
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 4
+	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 17], 5
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 7
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 17], 9
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 10
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 11
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vpinsrb	xmm1, xmm3, byte ptr [rsi + r11 + 17], 15
+	vpminub	ymm3, ymm14, ymm0
+	vpcmpeqb	ymm0, ymm0, ymm3
+	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
+	vinserti128	ymm0, ymm1, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rsi + r15 + 18]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 2
+	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 3
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 4
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 18], 5
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 6
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 7
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 18], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 18], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 12
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 14
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 15
+	movzx	edi, byte ptr [rsi + r12 + 18]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 1
+	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 18], 2
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 5
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 6
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 7
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 8
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 9
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 10
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 11
+	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 18], 13
+	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 18], 14
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 15
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 19]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 2
+	mov	r13, r14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 19], 3
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 19], 5
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 19], 6
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 9
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 10
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 11
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 19], 12
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 13
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 14
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 15
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 19]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 19], 2
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 3
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 6
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 8
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 9
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 19], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rcx + 19], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 20]
+	vmovd	xmm0, edi
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 1
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 20], 4
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 6
+	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 20], 7
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 20], 8
+	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 10
+	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 20], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 12
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 20], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 14
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 15
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r8 + 20]
+	vmovd	xmm1, edi
+	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 1
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 2
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 20], 3
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 5
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 6
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 7
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 9
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 14
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 21]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 1
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 2
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 4
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 5
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 21], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 9
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 21], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 21], 11
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 21], 13
+	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 21], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 15
+	mov	r9, rax
+	movzx	edi, byte ptr [rsi + r8 + 21]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 1
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 5
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 7
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 8
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 9
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 21], 10
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 11
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 12
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 13
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 14
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 15
+	vinserti128	ymm11, ymm1, xmm0, 1
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 22]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 2
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 3
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
+	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 6
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 7
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 8
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 22], 10
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
+	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 22], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 15
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 22]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
+	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 2
+	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 22], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 5
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 6
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 8
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 10
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 14
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 15
+	movzx	edi, byte ptr [rsi + rcx + 23]
+	vmovd	xmm2, edi
+	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 1
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 2
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 3
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 4
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 8
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 9
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 10
+	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 13
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 14
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 15
+	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r10 + 23]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 3
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 5
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 6
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 7
+	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 8
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 9
+	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 23], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 11
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 23], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 13
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 23], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 24]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 24], 1
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 2
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 3
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 4
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 5
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 6
+	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 24], 7
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 8
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 9
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 11
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 12
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 13
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 15
+	movzx	edi, byte ptr [rsi + r10 + 24]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 1
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 24], 2
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 4
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 8
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 10
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 11
+	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 12
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 15
+	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r9 + 25]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 1
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 2
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 3
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 5
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 7
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 9
+	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 25], 10
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 11
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 12
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 13
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 25], 14
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 15
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 25]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 2
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 3
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 5
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 25], 6
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 7
+	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 25], 8
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 9
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 25], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 25], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 13
+	vinserti128	ymm0, ymm1, xmm0, 1
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm3, byte ptr [rsi + rcx + 25], 14
+	vpminub	ymm3, ymm14, ymm0
+	vpcmpeqb	ymm0, ymm0, ymm3
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + rcx + 25], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 384], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rsi + r9 + 26]
+	vmovd	xmm0, edi
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 2
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 3
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 26], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 6
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 7
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 8
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 26], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 11
+	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 26], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 14
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 15
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 26]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 1
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 2
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 3
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 6
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 26], 8
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 9
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 10
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 11
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 15
+	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r12 + 27]
+	vmovd	xmm2, edi
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 1
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 27], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 3
+	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 4
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 5
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 6
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 7
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 8
+	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 9
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 10
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 12
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 13
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 15
+	mov	r9, rdx
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 27]
+	vmovd	xmm3, edi
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 27], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 27], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 27], 4
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 5
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 6
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 27], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 9
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 10
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 11
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 12
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 13
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 14
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rsi + r12 + 28]
+	vmovd	xmm0, edi
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 2
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 5
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 6
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 7
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 28], 9
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 10
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 11
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 28], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 13
+	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 28], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 15
+	mov	r8, qword ptr [rsp + 232]       # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r8 + 28]
+	vmovd	xmm1, edi
+	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 28], 1
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 2
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 5
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 6
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 8
+	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 10
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 11
+	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 28], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 14
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 28], 15
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 29]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 1
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 2
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 3
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 4
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 6
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 29], 8
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 29], 12
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 14
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 29], 15
+	movzx	edi, byte ptr [rsi + r8 + 29]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 1
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 2
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 3
+	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 29], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 5
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 6
+	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 7
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 29], 9
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 29], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 12
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 13
+	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm3, byte ptr [rsi + r15 + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	vpinsrb	xmm0, xmm4, byte ptr [rsi + r10 + 29], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r11 + 30]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 1
+	movzx	edi, byte ptr [rsi + r11 + 31]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 1
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 6
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
+	mov	rax, rbx
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 31], 10
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 31], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rsi + r14 + 31], 15
+	mov	rdx, r8
+	movzx	eax, byte ptr [rsi + r8 + 30]
+	vmovd	xmm1, eax
+	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
+	movzx	eax, byte ptr [rsi + rdx + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
+	mov	rax, r13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 31], 2
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 31], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 7
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 8
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 31], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 14
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 256], ymm0   # 32-byte Spill
+	vmovdqa	ymm1, ymmword ptr [rsp + 544]   # 32-byte Reload
+	vpminub	ymm0, ymm14, ymm1
+	vpcmpeqb	ymm0, ymm1, ymm0
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI7_0] # ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpandn	ymm7, ymm0, ymm4
+	vpaddb	ymm0, ymm7, ymm0
+	vmovdqa	ymm2, ymmword ptr [rsp + 448]   # 32-byte Reload
+	vpminub	ymm7, ymm14, ymm2
+	vpcmpeqb	ymm7, ymm2, ymm7
+	vmovdqa	ymm2, ymmword ptr [rsp + 1280]  # 32-byte Reload
+	vpandn	ymm12, ymm2, ymm4
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI7_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpandn	ymm7, ymm7, ymm6
+	vpor	ymm7, ymm12, ymm7
+	vmovdqa	ymm2, ymmword ptr [rsp + 416]   # 32-byte Reload
+	vpminub	ymm12, ymm14, ymm2
+	vpcmpeqb	ymm12, ymm12, ymm2
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI7_2] # ymm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpandn	ymm12, ymm12, ymm5
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpsubb	ymm0, ymm0, ymm1
+	vpor	ymm0, ymm0, ymm7
+	vpminub	ymm7, ymm13, ymm14
+	vpcmpeqb	ymm7, ymm13, ymm7
+	vpminub	ymm12, ymm15, ymm14
+	vpcmpeqb	ymm12, ymm15, ymm12
+	vmovdqa	ymm3, ymmword ptr [rip + .LCPI7_3] # ymm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpandn	ymm7, ymm7, ymm3
+	vmovdqa	ymm10, ymmword ptr [rip + .LCPI7_4] # ymm10 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpandn	ymm12, ymm12, ymm10
+	vpor	ymm7, ymm12, ymm7
+	vmovdqa	ymm13, ymmword ptr [rsp + 512]  # 32-byte Reload
+	vpminub	ymm12, ymm13, ymm14
+	vpcmpeqb	ymm12, ymm13, ymm12
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI7_5] # ymm2 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpandn	ymm12, ymm12, ymm2
+	vpor	ymm7, ymm12, ymm7
+	vmovdqa	ymm13, ymmword ptr [rsp + 1248] # 32-byte Reload
+	vpminub	ymm12, ymm13, ymm14
+	vpcmpeqb	ymm12, ymm13, ymm12
+	vpxor	ymm12, ymm12, ymm1
+	vpsllw	ymm12, ymm12, 7
+	vmovdqa	ymm9, ymmword ptr [rip + .LCPI7_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpand	ymm12, ymm12, ymm9
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm0, ymm0, ymm7
+	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
+	vmovdqa	ymm12, ymmword ptr [rsp + 1184] # 32-byte Reload
+	vpminub	ymm7, ymm12, ymm14
+	vpcmpeqb	ymm7, ymm12, ymm7
+	vpandn	ymm12, ymm7, ymm4
+	vpaddb	ymm7, ymm12, ymm7
+	vmovdqa	ymm13, ymmword ptr [rsp + 1152] # 32-byte Reload
+	vpminub	ymm12, ymm13, ymm14
+	vpcmpeqb	ymm12, ymm13, ymm12
+	vmovdqa	ymm13, ymmword ptr [rsp + 1216] # 32-byte Reload
+	vpandn	ymm13, ymm13, ymm4
+	vpandn	ymm12, ymm12, ymm6
+	vpor	ymm12, ymm13, ymm12
+	vmovdqa	ymm15, ymmword ptr [rsp + 1120] # 32-byte Reload
+	vpminub	ymm13, ymm15, ymm14
+	vpcmpeqb	ymm13, ymm15, ymm13
+	vpandn	ymm13, ymm13, ymm5
+	vpor	ymm12, ymm12, ymm13
+	vpsubb	ymm7, ymm7, ymm1
+	vpor	ymm7, ymm12, ymm7
+	vmovdqa	ymm13, ymmword ptr [rsp + 1088] # 32-byte Reload
+	vpminub	ymm12, ymm13, ymm14
+	vpcmpeqb	ymm12, ymm13, ymm12
+	vmovdqa	ymm15, ymmword ptr [rsp + 1056] # 32-byte Reload
+	vpminub	ymm13, ymm15, ymm14
+	vpcmpeqb	ymm13, ymm15, ymm13
+	vpandn	ymm12, ymm12, ymm3
+	vpandn	ymm13, ymm13, ymm10
+	vpor	ymm12, ymm12, ymm13
+	vmovdqa	ymm15, ymmword ptr [rsp + 960]  # 32-byte Reload
+	vpminub	ymm13, ymm15, ymm14
+	vpcmpeqb	ymm13, ymm15, ymm13
+	vpandn	ymm13, ymm13, ymm2
+	vpor	ymm12, ymm12, ymm13
+	vmovdqa	ymm15, ymmword ptr [rsp + 992]  # 32-byte Reload
+	vpminub	ymm13, ymm15, ymm14
+	vpcmpeqb	ymm13, ymm15, ymm13
+	vpxor	ymm13, ymm13, ymm1
+	vpsllw	ymm13, ymm13, 7
+	vpand	ymm13, ymm13, ymm9
+	vpor	ymm12, ymm12, ymm13
+	vpor	ymm12, ymm12, ymm7
+	vmovdqa	ymm13, ymmword ptr [rsp + 928]  # 32-byte Reload
+	vpminub	ymm7, ymm13, ymm14
+	vpcmpeqb	ymm7, ymm13, ymm7
+	vpandn	ymm13, ymm7, ymm4
+	vpaddb	ymm7, ymm13, ymm7
+	vmovdqa	ymm0, ymmword ptr [rsp + 864]   # 32-byte Reload
+	vpminub	ymm13, ymm14, ymm0
+	vpcmpeqb	ymm13, ymm13, ymm0
+	vmovdqa	ymm15, ymmword ptr [rsp + 1024] # 32-byte Reload
+	vpandn	ymm15, ymm15, ymm4
+	vpandn	ymm13, ymm13, ymm6
+	vpor	ymm13, ymm15, ymm13
+	vmovdqa	ymm0, ymmword ptr [rsp + 896]   # 32-byte Reload
+	vpminub	ymm15, ymm14, ymm0
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpandn	ymm15, ymm15, ymm5
+	vpor	ymm13, ymm13, ymm15
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpsubb	ymm7, ymm7, ymm1
+	vpor	ymm7, ymm13, ymm7
+	vpminub	ymm13, ymm11, ymm14
+	vpcmpeqb	ymm11, ymm11, ymm13
+	vmovdqa	ymm0, ymmword ptr [rsp + 832]   # 32-byte Reload
+	vpminub	ymm13, ymm14, ymm0
+	vpcmpeqb	ymm13, ymm13, ymm0
+	vpandn	ymm11, ymm11, ymm3
+	vmovdqa	ymm15, ymm10
+	vpandn	ymm13, ymm13, ymm10
+	vpor	ymm11, ymm11, ymm13
+	vmovdqa	ymm0, ymmword ptr [rsp + 608]   # 32-byte Reload
+	vpminub	ymm13, ymm14, ymm0
+	vpcmpeqb	ymm8, ymm13, ymm0
+	vpandn	ymm8, ymm8, ymm2
+	vpor	ymm8, ymm11, ymm8
+	vmovdqa	ymm0, ymmword ptr [rsp + 640]   # 32-byte Reload
+	vpminub	ymm11, ymm14, ymm0
+	vpcmpeqb	ymm10, ymm11, ymm0
+	vpxor	ymm10, ymm10, ymm1
+	vpcmpeqd	ymm11, ymm11, ymm11
+	vpsllw	ymm10, ymm10, 7
+	vmovdqa	ymm13, ymm9
+	vpand	ymm10, ymm10, ymm9
+	vpor	ymm8, ymm8, ymm10
+	vpor	ymm8, ymm8, ymm7
+	vmovdqa	ymm0, ymmword ptr [rsp + 384]   # 32-byte Reload
+	vpminub	ymm7, ymm14, ymm0
+	vpcmpeqb	ymm7, ymm0, ymm7
+	vpandn	ymm9, ymm7, ymm4
+	vpaddb	ymm7, ymm9, ymm7
+	vmovdqa	ymm0, ymmword ptr [rsp + 672]   # 32-byte Reload
+	vpminub	ymm9, ymm14, ymm0
+	vpcmpeqb	ymm5, ymm9, ymm0
+	vmovdqa	ymm0, ymmword ptr [rsp + 800]   # 32-byte Reload
+	vpandn	ymm9, ymm0, ymm4
+	vpandn	ymm5, ymm5, ymm6
+	vpor	ymm5, ymm9, ymm5
+	vmovdqa	ymm0, ymmword ptr [rsp + 704]   # 32-byte Reload
+	vpminub	ymm9, ymm14, ymm0
+	vpcmpeqb	ymm6, ymm9, ymm0
+	vpandn	ymm6, ymm6, ymmword ptr [rip + .LCPI7_2]
+	vpor	ymm5, ymm5, ymm6
+	vpsubb	ymm6, ymm7, ymm11
+	vpor	ymm5, ymm6, ymm5
+	vmovdqa	ymm0, ymmword ptr [rsp + 736]   # 32-byte Reload
+	vpminub	ymm6, ymm14, ymm0
+	vpcmpeqb	ymm3, ymm0, ymm6
+	vmovdqa	ymm0, ymmword ptr [rsp + 768]   # 32-byte Reload
+	vpminub	ymm6, ymm14, ymm0
+	vpcmpeqb	ymm4, ymm0, ymm6
+	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI7_3]
+	vpandn	ymm4, ymm4, ymm15
+	vpor	ymm3, ymm3, ymm4
+	vmovdqa	ymm0, ymmword ptr [rsp + 288]   # 32-byte Reload
+	vpminub	ymm4, ymm14, ymm0
+	vpcmpeqb	ymm1, ymm0, ymm4
+	vpandn	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm3, ymm1
+	vmovdqa	ymm0, ymmword ptr [rsp + 256]   # 32-byte Reload
+	vpminub	ymm3, ymm14, ymm0
+	vpcmpeqb	ymm2, ymm0, ymm3
+	vpxor	ymm2, ymm11, ymm2
+	vpsllw	ymm2, ymm2, 7
+	vpand	ymm2, ymm13, ymm2
+	vpor	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm5, ymm1
+	vmovdqa	ymm0, ymmword ptr [rsp + 320]   # 32-byte Reload
+	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm8, ymm1        # ymm3 = ymm8[0],ymm1[0],ymm8[1],ymm1[1],ymm8[2],ymm1[2],ymm8[3],ymm1[3],ymm8[4],ymm1[4],ymm8[5],ymm1[5],ymm8[6],ymm1[6],ymm8[7],ymm1[7],ymm8[16],ymm1[16],ymm8[17],ymm1[17],ymm8[18],ymm1[18],ymm8[19],ymm1[19],ymm8[20],ymm1[20],ymm8[21],ymm1[21],ymm8[22],ymm1[22],ymm8[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm8, ymm1        # ymm1 = ymm8[8],ymm1[8],ymm8[9],ymm1[9],ymm8[10],ymm1[10],ymm8[11],ymm1[11],ymm8[12],ymm1[12],ymm8[13],ymm1[13],ymm8[14],ymm1[14],ymm8[15],ymm1[15],ymm8[24],ymm1[24],ymm8[25],ymm1[25],ymm8[26],ymm1[26],ymm8[27],ymm1[27],ymm8[28],ymm1[28],ymm8[29],ymm1[29],ymm8[30],ymm1[30],ymm8[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 368]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 360]      # 8-byte Folded Reload
+	jne	.LBB7_48
+# %bb.49:
+	mov	r15, qword ptr [rsp + 376]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 360]      # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
+	mov	r12, qword ptr [rsp + 504]      # 8-byte Reload
+	jne	.LBB7_50
+	jmp	.LBB7_53
+.Lfunc_end7:
+	.size	comparison_greater_arr_scalar_avx2, .Lfunc_end7-comparison_greater_arr_scalar_avx2
+                                        # -- End function
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5                               # -- Begin function comparison_greater_scalar_arr_avx2
+.LCPI8_0:
+	.zero	32,1
+.LCPI8_1:
+	.zero	32,4
+.LCPI8_2:
+	.zero	32,8
+.LCPI8_3:
+	.zero	32,16
+.LCPI8_4:
+	.zero	32,32
+.LCPI8_5:
+	.zero	32,64
+.LCPI8_6:
+	.zero	32,128
+	.text
+	.globl	comparison_greater_scalar_arr_avx2
+	.p2align	4, 0x90
+	.type	comparison_greater_scalar_arr_avx2,@function
+comparison_greater_scalar_arr_avx2:     # @comparison_greater_scalar_arr_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -32
+	sub	rsp, 1312
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r10, r8
+	mov	r11, rcx
+	cmp	edi, 6
+	jg	.LBB8_13
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB8_28
+# %bb.2:
+	cmp	edi, 4
+	je	.LBB8_51
+# %bb.3:
+	cmp	edi, 5
+	je	.LBB8_59
+# %bb.4:
+	cmp	edi, 6
+	jne	.LBB8_179
+# %bb.5:
+	mov	r13d, dword ptr [rsi]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_9
+# %bb.6:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_7:                                # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rdx], r13d
+	lea	rdx, [rdx + 4]
+	sbb	esi, esi
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	sil, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, sil
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_7
+# %bb.8:
+	add	r11, 1
+.LBB8_9:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB8_115
+# %bb.10:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_11:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 4]
+	seta	dil
+	cmp	r13d, dword ptr [rdx + 8]
+	seta	r14b
+	cmp	r13d, dword ptr [rdx + 12]
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 16]
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 20]
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 24]
+	seta	al
+	cmp	r13d, dword ptr [rdx + 28]
+	seta	r11b
+	cmp	r13d, dword ptr [rdx + 32]
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 36]
+	seta	sil
+	cmp	r13d, dword ptr [rdx + 40]
+	seta	r8b
+	cmp	r13d, dword ptr [rdx + 44]
+	seta	r9b
+	cmp	r13d, dword ptr [rdx + 48]
+	seta	r10b
+	cmp	r13d, dword ptr [rdx + 52]
+	seta	r12b
+	cmp	r13d, dword ptr [rdx + 56]
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 60]
+	seta	cl
+	cmp	r13d, dword ptr [rdx + 64]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 68]
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 72]
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 76]
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 80]
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 84]
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 88]
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 92]
+	seta	r15b
+	cmp	r13d, dword ptr [rdx + 96]
+	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 100]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 104]
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 108]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 112]
+	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 116]
+	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 120]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 124]
+	seta	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r15b, 7
+	or	r15b, dil
+	mov	byte ptr [rsi + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	or	bl, cl
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], bl
+	add	rdx, 128
+	add	rsi, 4
+	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB8_11
+# %bb.12:
+	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB8_116
+	jmp	.LBB8_179
+.LBB8_13:
+	cmp	edi, 8
+	jle	.LBB8_41
+# %bb.14:
+	cmp	edi, 9
+	je	.LBB8_70
+# %bb.15:
+	cmp	edi, 11
+	je	.LBB8_81
+# %bb.16:
+	cmp	edi, 12
+	jne	.LBB8_179
+# %bb.17:
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB8_21
+# %bb.18:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_19:                               # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rdx]
+	seta	bl
+	add	rdx, 8
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_19
+# %bb.20:
+	add	r11, 1
+.LBB8_21:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB8_25
+# %bb.22:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_23:                               # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rdx]
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 8]
+	seta	r8b
+	vucomisd	xmm0, qword ptr [rdx + 16]
+	seta	r14b
+	vucomisd	xmm0, qword ptr [rdx + 24]
+	seta	r13b
+	vucomisd	xmm0, qword ptr [rdx + 32]
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 40]
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 48]
+	seta	al
+	vucomisd	xmm0, qword ptr [rdx + 56]
+	seta	r11b
+	vucomisd	xmm0, qword ptr [rdx + 64]
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 72]
+	seta	sil
+	vucomisd	xmm0, qword ptr [rdx + 80]
+	seta	dil
+	vucomisd	xmm0, qword ptr [rdx + 88]
+	seta	r9b
+	vucomisd	xmm0, qword ptr [rdx + 96]
+	seta	r10b
+	vucomisd	xmm0, qword ptr [rdx + 104]
+	seta	r12b
+	vucomisd	xmm0, qword ptr [rdx + 112]
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 120]
+	seta	cl
+	vucomisd	xmm0, qword ptr [rdx + 128]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 136]
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 144]
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 152]
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 160]
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 168]
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 176]
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 184]
+	seta	r15b
+	vucomisd	xmm0, qword ptr [rdx + 192]
+	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 200]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 208]
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 216]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 224]
+	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 232]
+	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 240]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 248]
+	seta	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, sil
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r13b
+	mov	r8d, eax
+	shl	r9b, 3
+	or	r9b, dil
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r15b, 7
+	or	r15b, dil
+	mov	byte ptr [rsi + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	or	bl, cl
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], bl
+	add	rdx, 256
+	add	rsi, 4
+	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 128], -1       # 8-byte Folded Spill
+	jne	.LBB8_23
+# %bb.24:
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+.LBB8_25:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB8_179
+# %bb.26:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB8_133
+# %bb.27:
+	xor	edi, edi
+	jmp	.LBB8_135
+.LBB8_28:
+	cmp	edi, 2
+	je	.LBB8_92
+# %bb.29:
+	cmp	edi, 3
+	jne	.LBB8_179
+# %bb.30:
+	mov	r14b, byte ptr [rsi]
+	lea	r13, [r10 + 31]
+	test	r10, r10
+	cmovns	r13, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_128
+# %bb.31:
+	movsxd	rax, r9d
+	mov	r15, r11
+	.p2align	4, 0x90
+.LBB8_32:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setg	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_32
+# %bb.33:
+	add	r15, 1
+	sar	r13, 5
+	cmp	r10, 32
+	jl	.LBB8_129
+.LBB8_34:
+	cmp	r13, 32
+	mov	dword ptr [rsp + 4], r14d       # 4-byte Spill
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 360], r13      # 8-byte Spill
+	jb	.LBB8_37
+# %bb.35:
+	mov	rax, r13
+	shl	rax, 5
+	add	rax, rdx
+	cmp	r15, rax
+	jae	.LBB8_180
+# %bb.36:
+	lea	rax, [r15 + 4*r13]
+	cmp	rdx, rax
+	jae	.LBB8_180
+.LBB8_37:
+	xor	eax, eax
+	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
+	mov	r12, rdx
+	mov	qword ptr [rsp + 352], r15      # 8-byte Spill
+.LBB8_38:
+	sub	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 128], r13      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_39:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, r12
+	cmp	r14b, byte ptr [r12]
+	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [r12 + 1]
+	setg	r10b
+	cmp	r14b, byte ptr [r12 + 2]
+	setg	bl
+	cmp	r14b, byte ptr [r12 + 3]
+	setg	r13b
+	cmp	r14b, byte ptr [r12 + 4]
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [r12 + 5]
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [r12 + 6]
+	setg	al
+	cmp	r14b, byte ptr [r12 + 7]
+	setg	r12b
+	cmp	r14b, byte ptr [rcx + 8]
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 9]
+	setg	sil
+	cmp	r14b, byte ptr [rcx + 10]
+	setg	dil
+	cmp	r14b, byte ptr [rcx + 11]
+	setg	r9b
+	cmp	r14b, byte ptr [rcx + 12]
+	setg	r11b
+	cmp	r14b, byte ptr [rcx + 13]
+	setg	r15b
+	cmp	r14b, byte ptr [rcx + 14]
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 15]
+	setg	r8b
+	cmp	r14b, byte ptr [rcx + 16]
+	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 17]
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 18]
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 19]
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 20]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 21]
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 22]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 23]
+	setg	r14b
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 24]
+	setg	byte ptr [rsp + 232]            # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 25]
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 26]
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 27]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 28]
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 29]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 30]
+	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 31]
+	setg	dl
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 288]      # 1-byte Folded Reload
+	shl	al, 6
+	shl	r12b, 7
+	or	r12b, al
+	shl	bl, 2
+	or	bl, r10b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, bl
+	shl	dil, 2
+	or	dil, sil
+	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r13b
+	mov	esi, ebx
+	shl	r9b, 3
+	or	r9b, dil
+	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	shl	r11b, 4
+	or	r11b, r9b
+	shl	r15b, 5
+	or	r15b, r11b
+	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r8b, 7
+	or	r8b, sil
+	or	r12b, bl
+	or	r8b, r15b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 256]        # 1-byte Folded Reload
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, al
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	mov	rsi, qword ptr [rsp + 352]      # 8-byte Reload
+	mov	byte ptr [rsi], r12b
+	movzx	edi, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r14b, 7
+	or	r14b, dil
+	mov	byte ptr [rsi + 1], r8b
+	or	r14b, bl
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 232]        # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rsi + 2], r14b
+	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
+	mov	byte ptr [rsi + 3], dl
+	lea	r12, [rcx + 32]
+	add	rsi, 4
+	mov	qword ptr [rsp + 352], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 128], -1       # 8-byte Folded Spill
+	jne	.LBB8_39
+# %bb.40:
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r13, qword ptr [rsp + 360]      # 8-byte Reload
+	jmp	.LBB8_130
+.LBB8_41:
+	cmp	edi, 7
+	je	.LBB8_104
+# %bb.42:
+	cmp	edi, 8
+	jne	.LBB8_179
+# %bb.43:
+	mov	r13, qword ptr [rsi]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_47
+# %bb.44:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_45:                               # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rdx], r13
+	lea	rdx, [rdx + 8]
+	sbb	r9d, r9d
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	r9b, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r9b
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_45
+# %bb.46:
+	add	r11, 1
+.LBB8_47:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB8_118
+# %bb.48:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_49:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
+	cmp	r13, qword ptr [rdx]
+	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 8]
+	seta	dil
+	cmp	r13, qword ptr [rdx + 16]
+	seta	r14b
+	cmp	r13, qword ptr [rdx + 24]
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 32]
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 40]
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 48]
+	seta	al
+	cmp	r13, qword ptr [rdx + 56]
+	seta	r11b
+	cmp	r13, qword ptr [rdx + 64]
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 72]
+	seta	sil
+	cmp	r13, qword ptr [rdx + 80]
+	seta	r8b
+	cmp	r13, qword ptr [rdx + 88]
+	seta	r9b
+	cmp	r13, qword ptr [rdx + 96]
+	seta	r10b
+	cmp	r13, qword ptr [rdx + 104]
+	seta	r12b
+	cmp	r13, qword ptr [rdx + 112]
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 120]
+	seta	cl
+	cmp	r13, qword ptr [rdx + 128]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 136]
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 144]
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 152]
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 160]
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 168]
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 176]
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 184]
+	seta	r15b
+	cmp	r13, qword ptr [rdx + 192]
+	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 200]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 208]
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 216]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 224]
+	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 232]
+	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 240]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 248]
+	seta	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	edi, eax
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	byte ptr [rax], r11b
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, dil
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], bl
+	add	rdx, 256
+	add	r11, 4
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB8_49
+# %bb.50:
+	mov	r14, r11
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB8_119
+	jmp	.LBB8_179
+.LBB8_51:
+	movzx	r13d, word ptr [rsi]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_55
+# %bb.52:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_53:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rdx], r13w
+	lea	rdx, [rdx + 2]
+	sbb	esi, esi
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	sil, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, sil
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_53
+# %bb.54:
+	add	r11, 1
+.LBB8_55:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB8_121
+# %bb.56:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_57:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rdx]
+	seta	al
+	cmp	r13w, word ptr [rdx + 2]
+	seta	dil
+	cmp	r13w, word ptr [rdx + 4]
+	seta	r14b
+	cmp	r13w, word ptr [rdx + 6]
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 8]
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 10]
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 12]
+	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 14]
+	seta	r11b
+	cmp	r13w, word ptr [rdx + 16]
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 18]
+	seta	sil
+	cmp	r13w, word ptr [rdx + 20]
+	seta	r8b
+	cmp	r13w, word ptr [rdx + 22]
+	seta	r9b
+	cmp	r13w, word ptr [rdx + 24]
+	seta	r10b
+	cmp	r13w, word ptr [rdx + 26]
+	seta	r12b
+	cmp	r13w, word ptr [rdx + 28]
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 30]
+	seta	cl
+	cmp	r13w, word ptr [rdx + 32]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 34]
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 36]
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 38]
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 40]
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 42]
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 44]
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 46]
+	seta	r15b
+	cmp	r13w, word ptr [rdx + 48]
+	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 50]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 52]
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 54]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 56]
+	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 58]
+	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 60]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 62]
+	seta	bl
+	add	dil, dil
+	or	dil, al
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r15b, 7
+	or	r15b, dil
+	mov	byte ptr [rsi + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	or	bl, cl
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], bl
+	add	rdx, 64
+	add	rsi, 4
+	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB8_57
+# %bb.58:
+	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB8_122
+	jmp	.LBB8_179
+.LBB8_59:
+	movzx	r13d, word ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_63
+# %bb.60:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_61:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setg	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r11 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_61
+# %bb.62:
+	add	r11, 1
+.LBB8_63:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB8_67
+# %bb.64:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_65:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rdx]
+	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 2]
+	setg	dil
+	cmp	r13w, word ptr [rdx + 4]
+	setg	r14b
+	cmp	r13w, word ptr [rdx + 6]
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 8]
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 10]
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 12]
+	setg	al
+	cmp	r13w, word ptr [rdx + 14]
+	setg	r11b
+	cmp	r13w, word ptr [rdx + 16]
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 18]
+	setg	sil
+	cmp	r13w, word ptr [rdx + 20]
+	setg	r8b
+	cmp	r13w, word ptr [rdx + 22]
+	setg	r9b
+	cmp	r13w, word ptr [rdx + 24]
+	setg	r10b
+	cmp	r13w, word ptr [rdx + 26]
+	setg	r12b
+	cmp	r13w, word ptr [rdx + 28]
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 30]
+	setg	cl
+	cmp	r13w, word ptr [rdx + 32]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 34]
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 36]
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 38]
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 40]
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 42]
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 44]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 46]
+	setg	r15b
+	cmp	r13w, word ptr [rdx + 48]
+	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 50]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 52]
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 54]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 56]
+	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 58]
+	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 60]
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 62]
+	setg	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r15b, 7
+	or	r15b, dil
+	mov	byte ptr [rsi + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	or	bl, cl
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], bl
+	add	rdx, 64
+	add	rsi, 4
+	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB8_65
+# %bb.66:
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+.LBB8_67:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB8_179
+# %bb.68:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB8_137
+# %bb.69:
+	xor	edi, edi
+	jmp	.LBB8_139
+.LBB8_70:
+	mov	r13, qword ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_74
+# %bb.71:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_72:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setg	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r11 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_72
+# %bb.73:
+	add	r11, 1
+.LBB8_74:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB8_78
+# %bb.75:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_76:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 8]
+	setg	dil
+	cmp	r13, qword ptr [rdx + 16]
+	setg	r14b
+	cmp	r13, qword ptr [rdx + 24]
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 32]
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 40]
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 48]
+	setg	al
+	cmp	r13, qword ptr [rdx + 56]
+	setg	r11b
+	cmp	r13, qword ptr [rdx + 64]
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 72]
+	setg	sil
+	cmp	r13, qword ptr [rdx + 80]
+	setg	r8b
+	cmp	r13, qword ptr [rdx + 88]
+	setg	r9b
+	cmp	r13, qword ptr [rdx + 96]
+	setg	r10b
+	cmp	r13, qword ptr [rdx + 104]
+	setg	r12b
+	cmp	r13, qword ptr [rdx + 112]
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 120]
+	setg	cl
+	cmp	r13, qword ptr [rdx + 128]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 136]
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 144]
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 152]
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 160]
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 168]
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 176]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 184]
+	setg	r15b
+	cmp	r13, qword ptr [rdx + 192]
+	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 200]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 208]
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 216]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 224]
+	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 232]
+	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 240]
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 248]
+	setg	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r15b, 7
+	or	r15b, dil
+	mov	byte ptr [rsi + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	or	bl, cl
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], bl
+	add	rdx, 256
+	add	rsi, 4
+	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB8_76
+# %bb.77:
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+.LBB8_78:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB8_179
+# %bb.79:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB8_141
+# %bb.80:
+	xor	edi, edi
+	jmp	.LBB8_143
+.LBB8_81:
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB8_85
+# %bb.82:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_83:                               # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rdx]
+	seta	bl
+	add	rdx, 4
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_83
+# %bb.84:
+	add	r11, 1
+.LBB8_85:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB8_89
+# %bb.86:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_87:                               # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rdx]
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 4]
+	seta	r8b
+	vucomiss	xmm0, dword ptr [rdx + 8]
+	seta	r14b
+	vucomiss	xmm0, dword ptr [rdx + 12]
+	seta	r13b
+	vucomiss	xmm0, dword ptr [rdx + 16]
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 20]
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 24]
+	seta	al
+	vucomiss	xmm0, dword ptr [rdx + 28]
+	seta	r11b
+	vucomiss	xmm0, dword ptr [rdx + 32]
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 36]
+	seta	sil
+	vucomiss	xmm0, dword ptr [rdx + 40]
+	seta	dil
+	vucomiss	xmm0, dword ptr [rdx + 44]
+	seta	r9b
+	vucomiss	xmm0, dword ptr [rdx + 48]
+	seta	r10b
+	vucomiss	xmm0, dword ptr [rdx + 52]
+	seta	r12b
+	vucomiss	xmm0, dword ptr [rdx + 56]
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 60]
+	seta	cl
+	vucomiss	xmm0, dword ptr [rdx + 64]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 68]
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 72]
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 76]
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 80]
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 84]
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 88]
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 92]
+	seta	r15b
+	vucomiss	xmm0, dword ptr [rdx + 96]
+	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 100]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 104]
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 108]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 112]
+	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 116]
+	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 120]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 124]
+	seta	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, sil
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r13b
+	mov	r8d, eax
+	shl	r9b, 3
+	or	r9b, dil
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r15b, 7
+	or	r15b, dil
+	mov	byte ptr [rsi + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	or	bl, cl
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], bl
+	add	rdx, 128
+	add	rsi, 4
+	mov	qword ptr [rsp + 232], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 128], -1       # 8-byte Folded Spill
+	jne	.LBB8_87
+# %bb.88:
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+.LBB8_89:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB8_179
+# %bb.90:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB8_145
+# %bb.91:
+	xor	edi, edi
+	jmp	.LBB8_147
+.LBB8_92:
+	mov	r14b, byte ptr [rsi]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_96
+# %bb.93:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_94:                               # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rdx], r14b
+	lea	rdx, [rdx + 1]
+	sbb	esi, esi
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	sil, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, sil
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_94
+# %bb.95:
+	add	r11, 1
+.LBB8_96:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB8_124
+# %bb.97:
+	cmp	r15, 32
+	mov	dword ptr [rsp + 4], r14d       # 4-byte Spill
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 368], r15      # 8-byte Spill
+	jb	.LBB8_100
+# %bb.98:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	cmp	r11, rax
+	jae	.LBB8_183
+# %bb.99:
+	lea	rax, [r11 + 4*r15]
+	cmp	rdx, rax
+	jae	.LBB8_183
+.LBB8_100:
+	xor	eax, eax
+	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
+	mov	r12, rdx
+	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
+.LBB8_101:
+	sub	r15, qword ptr [rsp + 360]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 128], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_102:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, r12
+	cmp	r14b, byte ptr [r12]
+	seta	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [r12 + 1]
+	seta	r10b
+	cmp	r14b, byte ptr [r12 + 2]
+	seta	bl
+	cmp	r14b, byte ptr [r12 + 3]
+	seta	r13b
+	cmp	r14b, byte ptr [r12 + 4]
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [r12 + 5]
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [r12 + 6]
+	seta	al
+	cmp	r14b, byte ptr [r12 + 7]
+	seta	r12b
+	cmp	r14b, byte ptr [rcx + 8]
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 9]
+	seta	sil
+	cmp	r14b, byte ptr [rcx + 10]
+	seta	dil
+	cmp	r14b, byte ptr [rcx + 11]
+	seta	r9b
+	cmp	r14b, byte ptr [rcx + 12]
+	seta	r11b
+	cmp	r14b, byte ptr [rcx + 13]
+	seta	r15b
+	cmp	r14b, byte ptr [rcx + 14]
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 15]
+	seta	r8b
+	cmp	r14b, byte ptr [rcx + 16]
+	seta	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 17]
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 18]
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 19]
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 20]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 21]
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 22]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rcx + 23]
+	seta	r14b
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 24]
+	seta	byte ptr [rsp + 232]            # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 25]
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 26]
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 27]
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 28]
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 29]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 30]
+	seta	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	mov	edx, dword ptr [rsp + 4]        # 4-byte Reload
+	cmp	dl, byte ptr [rcx + 31]
+	seta	dl
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 320]      # 1-byte Folded Reload
+	shl	al, 6
+	shl	r12b, 7
+	or	r12b, al
+	shl	bl, 2
+	or	bl, r10b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, bl
+	shl	dil, 2
+	or	dil, sil
+	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r13b
+	mov	esi, ebx
+	shl	r9b, 3
+	or	r9b, dil
+	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	shl	r11b, 4
+	or	r11b, r9b
+	shl	r15b, 5
+	or	r15b, r11b
+	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r8b, 7
+	or	r8b, sil
+	or	r12b, bl
+	or	r8b, r15b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 256]        # 1-byte Folded Reload
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, al
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	mov	rsi, qword ptr [rsp + 352]      # 8-byte Reload
+	mov	byte ptr [rsi], r12b
+	movzx	edi, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r14b, 7
+	or	r14b, dil
+	mov	byte ptr [rsi + 1], r8b
+	or	r14b, bl
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 232]        # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rsi + 2], r14b
+	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
+	mov	byte ptr [rsi + 3], dl
+	lea	r12, [rcx + 32]
+	add	rsi, 4
+	mov	qword ptr [rsp + 352], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 128], -1       # 8-byte Folded Spill
+	jne	.LBB8_102
+# %bb.103:
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 368]      # 8-byte Reload
+	jmp	.LBB8_125
+.LBB8_104:
+	mov	r13d, dword ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_108
+# %bb.105:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_106:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setg	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r11 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_106
+# %bb.107:
+	add	r11, 1
+.LBB8_108:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB8_112
+# %bb.109:
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_110:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
+	cmp	r13d, dword ptr [rdx]
+	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 4]
+	setg	dil
+	cmp	r13d, dword ptr [rdx + 8]
+	setg	r14b
+	cmp	r13d, dword ptr [rdx + 12]
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 16]
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 20]
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 24]
+	setg	al
+	cmp	r13d, dword ptr [rdx + 28]
+	setg	r11b
+	cmp	r13d, dword ptr [rdx + 32]
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 36]
+	setg	sil
+	cmp	r13d, dword ptr [rdx + 40]
+	setg	r8b
+	cmp	r13d, dword ptr [rdx + 44]
+	setg	r9b
+	cmp	r13d, dword ptr [rdx + 48]
+	setg	r10b
+	cmp	r13d, dword ptr [rdx + 52]
+	setg	r12b
+	cmp	r13d, dword ptr [rdx + 56]
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 60]
+	setg	cl
+	cmp	r13d, dword ptr [rdx + 64]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 68]
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 72]
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 76]
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 80]
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 84]
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 88]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 92]
+	setg	r15b
+	cmp	r13d, dword ptr [rdx + 96]
+	setg	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 100]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 104]
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 108]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 112]
+	setg	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 116]
+	setg	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 120]
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 124]
+	setg	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	esi, eax
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	byte ptr [rax], r11b
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], bl
+	add	rdx, 128
+	add	r11, 4
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB8_110
+# %bb.111:
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+.LBB8_112:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB8_179
+# %bb.113:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB8_150
+# %bb.114:
+	xor	edi, edi
+	jmp	.LBB8_152
+.LBB8_115:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB8_179
+.LBB8_116:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB8_156
+# %bb.117:
+	xor	r11d, r11d
+	jmp	.LBB8_158
+.LBB8_118:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB8_179
+.LBB8_119:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB8_160
+# %bb.120:
+	xor	r11d, r11d
+	jmp	.LBB8_162
+.LBB8_121:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB8_179
+.LBB8_122:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB8_164
+# %bb.123:
+	xor	r11d, r11d
+	jmp	.LBB8_166
+.LBB8_124:
+	mov	qword ptr [rsp + 352], r11      # 8-byte Spill
+	mov	r12, rdx
+.LBB8_125:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB8_179
+# %bb.126:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB8_169
+# %bb.127:
+	xor	eax, eax
+	jmp	.LBB8_172
+.LBB8_128:
+	mov	r15, r11
+	sar	r13, 5
+	cmp	r10, 32
+	jge	.LBB8_34
+.LBB8_129:
+	mov	qword ptr [rsp + 352], r15      # 8-byte Spill
+	mov	r12, rdx
+.LBB8_130:
+	shl	r13, 5
+	cmp	r13, r10
+	jge	.LBB8_179
+# %bb.131:
+	mov	r8, r10
+	sub	r8, r13
+	not	r13
+	add	r13, r10
+	jne	.LBB8_174
+# %bb.132:
+	xor	esi, esi
+	jmp	.LBB8_177
+.LBB8_133:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	mov	r14, r11
+	.p2align	4, 0x90
+.LBB8_134:                              # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rdx]
+	seta	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r14 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rsi], bl
+	add	rdi, 2
+	vucomisd	xmm0, qword ptr [rdx + 8]
+	seta	r9b
+	add	rdx, 16
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r14 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB8_134
+.LBB8_135:
+	test	r8b, 1
+	je	.LBB8_179
+# %bb.136:
+	vucomisd	xmm0, qword ptr [rdx]
+	jmp	.LBB8_149
+.LBB8_137:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	mov	r14, r11
+	.p2align	4, 0x90
+.LBB8_138:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rdx]
+	setg	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r14 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rsi], bl
+	add	rdi, 2
+	cmp	r13w, word ptr [rdx + 2]
+	lea	rdx, [rdx + 4]
+	setg	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r14 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB8_138
+.LBB8_139:
+	test	r8b, 1
+	je	.LBB8_179
+# %bb.140:
+	cmp	r13w, word ptr [rdx]
+	jmp	.LBB8_154
+.LBB8_141:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	mov	r14, r11
+	.p2align	4, 0x90
+.LBB8_142:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	setg	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r14 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rsi], bl
+	add	rdi, 2
+	cmp	r13, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	setg	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r14 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB8_142
+.LBB8_143:
+	test	r8b, 1
+	je	.LBB8_179
+# %bb.144:
+	cmp	r13, qword ptr [rdx]
+	jmp	.LBB8_154
+.LBB8_145:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	mov	r14, r11
+	.p2align	4, 0x90
+.LBB8_146:                              # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rdx]
+	seta	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r14 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rsi], bl
+	add	rdi, 2
+	vucomiss	xmm0, dword ptr [rdx + 4]
+	seta	r9b
+	add	rdx, 8
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r14 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB8_146
+.LBB8_147:
+	test	r8b, 1
+	je	.LBB8_179
+# %bb.148:
+	vucomiss	xmm0, dword ptr [rdx]
+.LBB8_149:
+	seta	al
+	jmp	.LBB8_155
+.LBB8_150:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	mov	r14, r11
+	.p2align	4, 0x90
+.LBB8_151:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	setg	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r14 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rsi], bl
+	add	rdi, 2
+	cmp	r13d, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	setg	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r14 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB8_151
+.LBB8_152:
+	test	r8b, 1
+	je	.LBB8_179
+# %bb.153:
+	cmp	r13d, dword ptr [rdx]
+.LBB8_154:
+	setg	al
+.LBB8_155:
+	neg	al
+	mov	rdx, rdi
+	shr	rdx, 3
+	mov	sil, byte ptr [r11 + rdx]
+	and	dil, 7
+	mov	bl, 1
+	mov	ecx, edi
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	xor	bl, sil
+	mov	byte ptr [r11 + rdx], bl
+	jmp	.LBB8_179
+.LBB8_156:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB8_157:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rdx], r13d
+	sbb	edi, edi
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r15 + rsi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dil, r10b
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rsi], al
+	add	r11, 2
+	cmp	dword ptr [rdx + 4], r13d
+	lea	rdx, [rdx + 8]
+	sbb	edi, edi
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rsi], bl
+	cmp	r9, r11
+	jne	.LBB8_157
+.LBB8_158:
+	test	r8b, 1
+	je	.LBB8_179
+# %bb.159:
+	cmp	dword ptr [rdx], r13d
+	jmp	.LBB8_168
+.LBB8_160:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB8_161:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rdx], r13
+	sbb	edi, edi
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r15 + rsi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dil, r10b
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rsi], al
+	add	r11, 2
+	cmp	qword ptr [rdx + 8], r13
+	lea	rdx, [rdx + 16]
+	sbb	edi, edi
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rsi], bl
+	cmp	r9, r11
+	jne	.LBB8_161
+.LBB8_162:
+	test	r8b, 1
+	je	.LBB8_179
+# %bb.163:
+	cmp	qword ptr [rdx], r13
+	jmp	.LBB8_168
+.LBB8_164:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB8_165:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rdx], r13w
+	sbb	edi, edi
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r15 + rsi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dil, r10b
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rsi], al
+	add	r11, 2
+	cmp	word ptr [rdx + 2], r13w
+	lea	rdx, [rdx + 4]
+	sbb	edi, edi
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rsi], bl
+	cmp	r9, r11
+	jne	.LBB8_165
+.LBB8_166:
+	test	r8b, 1
+	je	.LBB8_179
+# %bb.167:
+	cmp	word ptr [rdx], r13w
+.LBB8_168:
+	sbb	eax, eax
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	xor	bl, sil
+	mov	byte ptr [r14 + rdx], bl
+	jmp	.LBB8_179
+.LBB8_169:
+	mov	r9, r8
+	and	r9, -2
+	xor	eax, eax
+	mov	r10, qword ptr [rsp + 352]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB8_170:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [r12 + rax], r14b
+	sbb	esi, esi
+	mov	rdi, rax
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	ebx, byte ptr [r10 + rdi]
+	xor	sil, bl
+	and	dl, sil
+	xor	dl, bl
+	mov	byte ptr [r10 + rdi], dl
+	cmp	byte ptr [r12 + rax + 1], r14b
+	lea	rax, [rax + 2]
+	sbb	esi, esi
+	xor	sil, dl
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, sil
+	xor	bl, dl
+	mov	byte ptr [r10 + rdi], bl
+	cmp	r9, rax
+	jne	.LBB8_170
+# %bb.171:
+	add	r12, rax
+.LBB8_172:
+	test	r8b, 1
+	je	.LBB8_179
+# %bb.173:
+	cmp	byte ptr [r12], r14b
+	sbb	edx, edx
+	mov	rsi, rax
+	shr	rsi, 3
+	mov	r8, qword ptr [rsp + 352]       # 8-byte Reload
+	mov	dil, byte ptr [r8 + rsi]
+	and	al, 7
+	mov	bl, 1
+	mov	ecx, eax
+	shl	bl, cl
+	xor	dl, dil
+	and	bl, dl
+	xor	bl, dil
+	mov	byte ptr [r8 + rsi], bl
+	jmp	.LBB8_179
+.LBB8_174:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, qword ptr [rsp + 352]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB8_175:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [r12 + rsi]
+	setg	bl
+	neg	bl
+	mov	rdi, rsi
+	shr	rdi, 3
+	mov	ecx, esi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	r14b, byte ptr [r12 + rsi + 1]
+	lea	rsi, [rsi + 2]
+	setg	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB8_175
+# %bb.176:
+	add	r12, rsi
+.LBB8_177:
+	test	r8b, 1
+	je	.LBB8_179
+# %bb.178:
+	cmp	r14b, byte ptr [r12]
+	setg	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 352]       # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r8 + rdx], bl
+.LBB8_179:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	vzeroupper
+	ret
+.LBB8_180:
+	and	r13, -32
+	mov	rax, r13
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 384], r13      # 8-byte Spill
+	lea	rax, [r15 + 4*r13]
+	mov	qword ptr [rsp + 352], rax      # 8-byte Spill
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_181:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, rax
+	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rdx + rax]
+	vmovd	xmm0, eax
+	movzx	eax, byte ptr [rdx + rbx]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rdx + rcx + 1]
+	mov	rsi, rcx
+	vmovd	xmm4, eax
+	mov	rcx, rbx
+	movzx	eax, byte ptr [rdx + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 544], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rdx + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rdx + rsi + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rbx + 4]
+	vmovd	xmm13, eax
+	movzx	eax, byte ptr [rdx + rsi + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rdx + rbx + 5]
+	vmovd	xmm6, eax
+	movzx	eax, byte ptr [rdx + rsi + 6]
+	mov	qword ptr [rsp + 216], rsi      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rdx + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rdx + rsi + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rdx + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 544
+	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
+	or	rbx, 576
+	mov	qword ptr [rsp + 144], rbx      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 608
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	r12, rcx
+	or	r12, 640
+	mov	r14, rcx
+	or	r14, 672
+	mov	qword ptr [rsp + 24], r14       # 8-byte Spill
+	mov	r10, rcx
+	or	r10, 704
+	mov	qword ptr [rsp + 104], r10      # 8-byte Spill
+	mov	rdi, rcx
+	or	rdi, 736
+	mov	qword ptr [rsp + 176], rdi      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 768
+	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
+	mov	r15, rcx
+	or	r15, 800
+	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
+	mov	r11, rcx
+	or	r11, 832
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	r9, rcx
+	or	r9, 864
+	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
+	mov	r8, rcx
+	or	r8, 896
+	mov	qword ptr [rsp + 168], r8       # 8-byte Spill
+	mov	rsi, rcx
+	or	rsi, 928
+	mov	qword ptr [rsp + 200], rsi      # 8-byte Spill
+	mov	rax, rcx
+	mov	qword ptr [rsp + 224], rcx      # 8-byte Spill
+	or	rax, 960
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	or	rcx, 992
+	mov	qword ptr [rsp + 152], rcx      # 8-byte Spill
+	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm9, xmm0, byte ptr [rdx + r13], 1
+	vpinsrb	xmm0, xmm9, byte ptr [rdx + rbx], 2
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 4
+	mov	r13, r12
+	mov	qword ptr [rsp + 160], r12      # 8-byte Spill
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 15
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 1
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 2
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 3
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
+	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 6
+	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 7
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 9
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 10
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 11
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 12
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 13
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 14
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 15
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 1
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 2
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 4
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 5
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 6
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 8
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 9
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 11
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 12
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 1], 14
+	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rdx + r14 + 1], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 1], 2
+	mov	rdi, r11
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 1], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 1], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 11
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
+	vinserti128	ymm15, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 1], 15
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 8]
+	vmovd	xmm9, esi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 1248], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 8]
+	vmovd	xmm10, esi
+	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
+	vmovdqa	xmm0, xmmword ptr [rsp + 544]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 1
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 2], 2
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 6
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 7
+	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 2], 8
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 2], 9
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 10
+	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 11
+	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 2], 12
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 2
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 3
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 4
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 5
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 6
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 9
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 10
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 11
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 12
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 13
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 14
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rdx + r8 + 3], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 3], 3
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 4
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 5
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 3], 6
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 3], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 3], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 10
+	mov	r8, r9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 3], 13
+	mov	r12, r15
+	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 14
+	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 3], 15
+	vpinsrb	xmm5, xmm8, byte ptr [rdx + rax + 3], 1
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 3], 2
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 4
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 5
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 3], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 9
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 10
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 9]
+	vmovd	xmm8, esi
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 3], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 9]
+	vmovd	xmm11, esi
+	vmovdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 1
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 4], 3
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 4
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 5
+	mov	r15, rdi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 4], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 4], 8
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 4], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 10
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 11
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 4], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 4], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 4], 15
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm13, byte ptr [rdx + rsi + 4], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 2
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 3
+	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 4], 4
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 5
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 6
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 7
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 9
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 10
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 11
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 13
+	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 14
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 15
+	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm14, byte ptr [rdx + r10 + 5], 1
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 2
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 6
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 5], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 5], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 9
+	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 5], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 11
+	mov	r8, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 12
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 14
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 15
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm6, byte ptr [rdx + rax + 5], 1
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 5], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 5], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 7
+	mov	r12, rbx
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 9
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 11
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
+	vinserti128	ymm14, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 5], 15
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 10]
+	vmovd	xmm3, esi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 10]
+	vmovd	xmm4, esi
+	vpinsrb	xmm0, xmm12, byte ptr [rdx + r10 + 6], 1
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 6], 2
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 4
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 6], 8
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 10
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 12
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 14
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 15
+	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rdx + r10 + 6], 1
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 6], 2
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 3
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 4
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 5
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 8
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 6], 9
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 10
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 11
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 12
+	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 13
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 14
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 15
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 2
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 4
+	mov	r14, rax
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 5
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 6
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 12
+	mov	rbx, r8
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 14
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 7], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 2
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 3
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 5
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 6
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 7
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 7], 9
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 7], 13
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rdx + rcx + 7], 14
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 11]
+	vmovd	xmm1, esi
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 7], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 11]
+	vmovd	xmm2, esi
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx + 8], 1
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 2
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 8], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 8], 4
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 5
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 6
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 8
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 9
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 10
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 8], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 8], 14
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 8], 15
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm10, byte ptr [rdx + r11 + 8], 1
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 2
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 3
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 4
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 5
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 6
+	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 7
+	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 8
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 9
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 10
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 11
+	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 12
+	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 13
+	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 14
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 15
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm6, xmm8, byte ptr [rdx + rbx + 9], 1
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 2
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 9], 3
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 4
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 5
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 9], 6
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 7
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 8
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 9
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 10
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 11
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 12
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 9], 13
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 9], 14
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 9], 15
+	vpinsrb	xmm7, xmm11, byte ptr [rdx + r11 + 9], 1
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 2
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 4
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 9], 7
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 9
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 10
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 9], 11
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
+	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rdx + r14 + 9], 15
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 12]
+	vmovd	xmm0, esi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 12]
+	vmovd	xmm5, esi
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 1
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 10], 2
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 3
+	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 4
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 6
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 7
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 8
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 10
+	mov	rcx, rbx
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 10], 11
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 12
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 14
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 15
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 10], 2
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 3
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 4
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 5
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 10], 6
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 8
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 9
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 11
+	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 12
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 13
+	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 10], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 15
+	mov	r12, r14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 2
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 4
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 5
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 8
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 12
+	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 14
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 15
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 1
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 3
+	mov	r14, rsi
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 4
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 11], 6
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 7
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 9
+	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 10
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 11
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm3  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 14
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 13]
+	vmovd	xmm3, esi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm1  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 13]
+	vmovd	xmm1, esi
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 1
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 3
+	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 12], 4
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 5
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 6
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 7
+	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 12], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 10
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 11
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 12], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 12], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 14
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 15
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm2, xmm5, byte ptr [rdx + r8 + 12], 1
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 3
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 4
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 5
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 6
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 7
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 8
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 10
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
+	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 12
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 13
+	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 15
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 2
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 4
+	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 5
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 13], 8
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 13], 12
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 13], 14
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 13], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
+	mov	r8, rsi
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 4
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 5
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 6
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 7
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 8
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 10
+	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 11
+	mov	r14, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 12
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 14
+	vinserti128	ymm0, ymm2, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
+	vpinsrb	xmm0, xmm1, byte ptr [rdx + r12 + 13], 15
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 14]
+	vmovd	xmm1, esi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 14]
+	vmovd	xmm0, esi
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 1
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 2
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 3
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 5
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 7
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 10
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 11
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 12
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 14
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 15
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 14], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 14], 2
+	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 14], 3
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 14], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 14], 5
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 14], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 7
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 14], 8
+	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 14], 9
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 14], 11
+	mov	rdi, r14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 12
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 14], 13
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 14
+	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 14], 15
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 15]
+	vmovd	xmm2, esi
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 1
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 2
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 3
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 4
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 5
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 15], 7
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 8
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 9
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 15], 11
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 15], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 15
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 15]
+	vmovd	xmm3, esi
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 1
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 3
+	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 4
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 6
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 15], 9
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 13
+	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 15
+	mov	r12, r14
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r15 + 16]
+	vmovd	xmm0, esi
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 1
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 16], 2
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 16], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 4
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 5
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 6
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 11
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 12
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 16], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 16], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 16]
+	vmovd	xmm1, esi
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 1
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 2
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 16], 5
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 6
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 7
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 9
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 16], 10
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 11
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 14
+	mov	r13, r12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 15
+	mov	rcx, r15
+	movzx	esi, byte ptr [rdx + r15 + 17]
+	vmovd	xmm2, esi
+	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 17], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 3
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 4
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 5
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 6
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 7
+	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 17], 8
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 9
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 17], 10
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 11
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 17], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 17], 14
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 17], 15
+	movzx	esi, byte ptr [rdx + rax + 17]
+	vmovd	xmm3, esi
+	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 17], 1
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 2
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 3
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 4
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 5
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 6
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 7
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 8
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 10
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 11
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 13
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + r13 + 17], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	movzx	esi, byte ptr [rdx + rcx + 18]
+	vmovd	xmm0, esi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 18], 1
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 2
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 4
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 6
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 18], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 18], 10
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 18], 11
+	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 18], 12
+	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 18], 14
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 18], 15
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 18]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 1
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 2
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 3
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 4
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 5
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 18], 6
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 9
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 10
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 11
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 13
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 14
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 15
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 19]
+	vmovd	xmm2, esi
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 1
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 3
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 19], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 5
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 6
+	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 7
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 8
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 19], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 19], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 19], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 14
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 15
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 19]
+	vmovd	xmm3, esi
+	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 2
+	mov	r8, r12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 4
+	mov	r11, rdi
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 19], 6
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 7
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 8
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 9
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 11
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 12
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 13
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 14
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r15 + 20]
+	vmovd	xmm0, esi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 1
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 2
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 4
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 5
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 20], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 11
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 12
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 20], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 20], 15
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rbx + 20]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 1
+	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 20], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 20], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 5
+	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 9
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 10
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 11
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 13
+	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 14
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 15
+	movzx	esi, byte ptr [rdx + r15 + 21]
+	vmovd	xmm2, esi
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 1
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 2
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 21], 3
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 4
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 5
+	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 6
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 7
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 8
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 9
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 10
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 11
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 12
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 14
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 15
+	movzx	esi, byte ptr [rdx + rbx + 21]
+	vmovd	xmm3, esi
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 2
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 3
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 4
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 6
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 7
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 8
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 21], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 21], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + r9 + 21], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 22]
+	vmovd	xmm0, esi
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 3
+	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 22], 4
+	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 6
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 22], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 9
+	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 22], 11
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 22], 12
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 22], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 22], 14
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 22], 15
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 22]
+	vmovd	xmm1, esi
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 2
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 3
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 4
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 7
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 9
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 10
+	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 11
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 12
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 13
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 14
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 22], 15
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 23]
+	vmovd	xmm2, esi
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 1
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 2
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 23], 5
+	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 23], 7
+	mov	r12, rbx
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 23], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 11
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 12
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 23], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 15
+	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r8 + 23]
+	vmovd	xmm3, esi
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 2
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 3
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 4
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 5
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 7
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 8
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 9
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 23], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 13
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 23], 15
+	vinserti128	ymm10, ymm1, xmm0, 1
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 24]
+	vmovd	xmm0, esi
+	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 24], 1
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 2
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 3
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 4
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 7
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 8
+	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 9
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 10
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 11
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 12
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 24], 14
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 15
+	movzx	esi, byte ptr [rdx + r8 + 24]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 1
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 5
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 7
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 8
+	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 9
+	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 10
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 11
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 12
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 13
+	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 14
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 15
+	movzx	esi, byte ptr [rdx + rcx + 25]
+	vmovd	xmm2, esi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 25], 1
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 25], 2
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 25], 3
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 25], 4
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 5
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 25], 6
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 7
+	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 25], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 9
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 10
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 11
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 12
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 14
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 25], 15
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 25]
+	vmovd	xmm3, esi
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 2
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 3
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 4
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 5
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 6
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 10
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 11
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 14
+	vinserti128	ymm9, ymm1, xmm0, 1
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + rax + 25], 15
+	vinserti128	ymm8, ymm0, xmm2, 1
+	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r15 + 26]
+	vmovd	xmm0, esi
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 26], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 26], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 26], 4
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 6
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 11
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 26], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 26], 13
+	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 14
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 26]
+	vmovd	xmm1, esi
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 26], 1
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 2
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 3
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 4
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 5
+	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 6
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 7
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 8
+	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 26], 9
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 11
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 12
+	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 13
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 14
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 15
+	movzx	esi, byte ptr [rdx + r15 + 27]
+	vmovd	xmm2, esi
+	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 27], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 27], 2
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 3
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 4
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 5
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 6
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 7
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 8
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 9
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 10
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 27], 12
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 27], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 27], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 15
+	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r12 + 27]
+	vmovd	xmm3, esi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 1
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 3
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 7
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 9
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 10
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 11
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 13
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 14
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 28]
+	vmovd	xmm0, esi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 2
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 3
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 4
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 5
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 6
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 28], 7
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 8
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 9
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 28], 10
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 11
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 28], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 15
+	movzx	esi, byte ptr [rdx + r12 + 28]
+	vmovd	xmm1, esi
+	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 1
+	mov	rdi, r11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 2
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
+	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 4
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 5
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 6
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 9
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 10
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 28], 11
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 12
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 13
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 14
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 15
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 29]
+	vmovd	xmm2, esi
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 29], 1
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 2
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 3
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 29], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 29], 5
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 8
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 29], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 11
+	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 29], 12
+	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 29], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 15
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r13 + 29]
+	vmovd	xmm3, esi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 29], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 2
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 29], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 5
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 6
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 7
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 9
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 29], 11
+	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 29], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 13
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm4, xmm3, byte ptr [rdx + rax + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm4, byte ptr [rdx + rax + 29], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r15 + 30]
+	vmovd	xmm0, esi
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 1
+	movzx	esi, byte ptr [rdx + r15 + 31]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 1
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 6
+	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 31], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 31], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 14
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
+	movzx	eax, byte ptr [rdx + r13 + 30]
+	vmovd	xmm1, eax
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 30], 1
+	movzx	eax, byte ptr [rdx + r13 + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r8 + 31], 1
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 31], 3
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 4
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 31], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 31], 7
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 31], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 31], 13
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 256], ymm0   # 32-byte Spill
+	vmovdqa	ymm0, ymmword ptr [rsp + 576]   # 32-byte Reload
+	vpcmpgtb	ymm2, ymm0, ymmword ptr [rsp + 1248] # 32-byte Folded Reload
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI8_0] # ymm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpand	ymm7, ymm2, ymm1
+	vpsubb	ymm11, ymm7, ymm2
+	vpcmpgtb	ymm7, ymm0, ymm15
+	vpand	ymm7, ymm7, ymm1
+	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI8_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpand	ymm12, ymm12, ymm6
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm11, ymm11, ymm7
+	vpcmpgtb	ymm7, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
+	vmovdqa	ymm2, ymmword ptr [rip + .LCPI8_2] # ymm2 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpand	ymm7, ymm7, ymm2
+	vpcmpgtb	ymm12, ymm0, ymm14
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI8_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpand	ymm12, ymm12, ymm4
+	vpor	ymm7, ymm12, ymm7
+	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
+	vmovdqa	ymm13, ymmword ptr [rip + .LCPI8_4] # ymm13 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpand	ymm12, ymm12, ymm13
+	vmovdqa	ymm14, ymm13
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm11, ymm11, ymm7
+	vpcmpgtb	ymm7, ymm0, ymmword ptr [rsp + 512] # 32-byte Folded Reload
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI8_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpand	ymm7, ymm7, ymm5
+	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
+	vpsllw	ymm12, ymm12, 7
+	vmovdqa	ymm15, ymmword ptr [rip + .LCPI8_6] # ymm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpand	ymm12, ymm12, ymm15
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm13, ymm11, ymm7
+	vpcmpgtb	ymm7, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
+	vpand	ymm12, ymm7, ymm1
+	vpsubb	ymm7, ymm12, ymm7
+	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm1
+	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm6
+	vpor	ymm11, ymm12, ymm11
+	vpor	ymm7, ymm11, ymm7
+	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm2
+	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm4
+	vpor	ymm11, ymm11, ymm12
+	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
+	vpand	ymm12, ymm12, ymm14
+	vmovdqa	ymm3, ymm14
+	vpor	ymm11, ymm11, ymm12
+	vpor	ymm7, ymm11, ymm7
+	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm5
+	vpcmpgtb	ymm12, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
+	vpsllw	ymm12, ymm12, 7
+	vpand	ymm12, ymm12, ymm15
+	vpor	ymm11, ymm11, ymm12
+	vpor	ymm12, ymm11, ymm7
+	vpcmpgtb	ymm7, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
+	vpand	ymm11, ymm7, ymm1
+	vpsubb	ymm7, ymm11, ymm7
+	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm1
+	vpcmpgtb	ymm14, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm6
+	vpor	ymm11, ymm11, ymm14
+	vpor	ymm7, ymm11, ymm7
+	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
+	vpand	ymm11, ymm11, ymm2
+	vpcmpgtb	ymm14, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm4
+	vpor	ymm11, ymm11, ymm14
+	vpcmpgtb	ymm14, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
+	vpand	ymm14, ymm14, ymm3
+	vpor	ymm11, ymm11, ymm14
+	vpor	ymm7, ymm11, ymm7
+	vpcmpgtb	ymm10, ymm0, ymm10
+	vmovdqa	ymm14, ymm5
+	vpand	ymm10, ymm10, ymm5
+	vpcmpgtb	ymm11, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
+	vpsllw	ymm11, ymm11, 7
+	vpand	ymm11, ymm11, ymm15
+	vpor	ymm10, ymm10, ymm11
+	vpor	ymm7, ymm10, ymm7
+	vpcmpgtb	ymm8, ymm0, ymm8
+	vpand	ymm10, ymm8, ymm1
+	vpsubb	ymm8, ymm10, ymm8
+	vpcmpgtb	ymm9, ymm0, ymm9
+	vpand	ymm9, ymm9, ymm1
+	vpcmpgtb	ymm5, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
+	vpand	ymm5, ymm5, ymm6
+	vpor	ymm5, ymm9, ymm5
+	vpor	ymm5, ymm8, ymm5
+	vpcmpgtb	ymm6, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
+	vpand	ymm6, ymm6, ymm2
+	vpcmpgtb	ymm3, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
+	vpand	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm6, ymm3
+	vpcmpgtb	ymm4, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
+	vpand	ymm4, ymm4, ymmword ptr [rip + .LCPI8_4]
+	vpor	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm5, ymm3
+	vpcmpgtb	ymm1, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
+	vpand	ymm1, ymm14, ymm1
+	vpcmpgtb	ymm2, ymm0, ymmword ptr [rsp + 256] # 32-byte Folded Reload
+	vpsllw	ymm2, ymm2, 7
+	vpand	ymm2, ymm15, ymm2
+	vpor	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm3, ymm1
+	vpunpcklbw	ymm2, ymm13, ymm12      # ymm2 = ymm13[0],ymm12[0],ymm13[1],ymm12[1],ymm13[2],ymm12[2],ymm13[3],ymm12[3],ymm13[4],ymm12[4],ymm13[5],ymm12[5],ymm13[6],ymm12[6],ymm13[7],ymm12[7],ymm13[16],ymm12[16],ymm13[17],ymm12[17],ymm13[18],ymm12[18],ymm13[19],ymm12[19],ymm13[20],ymm12[20],ymm13[21],ymm12[21],ymm13[22],ymm12[22],ymm13[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm13, ymm12      # ymm0 = ymm13[8],ymm12[8],ymm13[9],ymm12[9],ymm13[10],ymm12[10],ymm13[11],ymm12[11],ymm13[12],ymm12[12],ymm13[13],ymm12[13],ymm13[14],ymm12[14],ymm13[15],ymm12[15],ymm13[24],ymm12[24],ymm13[25],ymm12[25],ymm13[26],ymm12[26],ymm13[27],ymm12[27],ymm13[28],ymm12[28],ymm13[29],ymm12[29],ymm13[30],ymm12[30],ymm13[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	jne	.LBB8_181
+# %bb.182:
+	mov	r13, qword ptr [rsp + 360]      # 8-byte Reload
+	cmp	r13, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
+	mov	r12, qword ptr [rsp + 368]      # 8-byte Reload
+	jne	.LBB8_38
+	jmp	.LBB8_130
+.LBB8_183:
+	and	r15, -32
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 504], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 360], r15      # 8-byte Spill
+	lea	rax, [r11 + 4*r15]
+	mov	qword ptr [rsp + 352], rax      # 8-byte Spill
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	xor	eax, eax
+	mov	qword ptr [rsp + 232], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_184:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, rax
+	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rdx + rax]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rdx + rbx]
+	vmovd	xmm4, eax
+	movzx	eax, byte ptr [rdx + rcx + 1]
+	mov	rdi, rcx
+	vmovd	xmm5, eax
+	mov	rcx, rbx
+	movzx	eax, byte ptr [rdx + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rdx + rdi + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 416], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rdi + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rdx + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rdx + rdi + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 512], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rbx + 4]
+	vmovd	xmm15, eax
+	movzx	eax, byte ptr [rdx + rdi + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rdx + rbx + 5]
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rdx + rdi + 6]
+	mov	qword ptr [rsp + 200], rdi      # 8-byte Spill
+	vmovd	xmm13, eax
+	movzx	eax, byte ptr [rdx + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rdx + rdi + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rdx + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 544
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 576
+	mov	rbx, rax
+	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 608
+	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 640
+	mov	r14, rax
+	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
+	mov	r9, rcx
+	or	r9, 672
+	mov	qword ptr [rsp + 40], r9        # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 704
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 736
+	mov	rdi, rax
+	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 768
+	mov	r13, rax
+	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
+	mov	r11, rcx
+	or	r11, 800
+	mov	qword ptr [rsp + 120], r11      # 8-byte Spill
+	mov	r10, rcx
+	or	r10, 832
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	mov	r8, rcx
+	or	r8, 864
+	mov	qword ptr [rsp + 216], r8       # 8-byte Spill
+	mov	r15, rcx
+	or	r15, 896
+	mov	qword ptr [rsp + 88], r15       # 8-byte Spill
+	mov	rsi, rcx
+	or	rsi, 928
+	mov	qword ptr [rsp + 136], rsi      # 8-byte Spill
+	mov	rax, rcx
+	mov	qword ptr [rsp + 224], rcx      # 8-byte Spill
+	or	rax, 960
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	or	rcx, 992
+	mov	qword ptr [rsp + 56], rcx       # 8-byte Spill
+	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm9, xmm3, byte ptr [rdx + r12], 1
+	vpinsrb	xmm3, xmm9, byte ptr [rdx + rbx], 2
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 15
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14], 1
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10], 2
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11], 3
+	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12], 4
+	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8], 5
+	mov	r9, qword ptr [rsp + 8]         # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9], 6
+	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15], 7
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi], 8
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax], 9
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx], 10
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 12
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 13
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 14
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 15
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 1
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 2
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 3
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 1], 4
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 5
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 6
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 7
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 8
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 1], 9
+	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 1], 10
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 11
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 12
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 13
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 14
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 15
+	vpinsrb	xmm6, xmm10, byte ptr [rdx + r14 + 1], 1
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 1], 2
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 1], 3
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 1], 4
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 1], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 1], 6
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 1], 7
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 1], 8
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 9
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 1], 10
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 1], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 13
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 14
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1248], ymm3  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm6, byte ptr [rdx + rax + 1], 15
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 8]
+	vmovd	xmm9, esi
+	vinserti128	ymm3, ymm3, xmm5, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm3   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 8]
+	vmovd	xmm10, esi
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 1
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 2], 2
+	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 2], 3
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 4
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 5
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 6
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 7
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 8
+	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 10
+	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 2], 11
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 2], 12
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 2], 13
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 2], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vmovdqa	xmm4, xmmword ptr [rsp + 416]   # 16-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 2], 1
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 2
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 3
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 5
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 6
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 7
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 8
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 9
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 10
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 12
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 13
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 14
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 15
+	vpinsrb	xmm5, xmm11, byte ptr [rdx + rbx + 3], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 3], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 3], 3
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 4
+	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 3], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 6
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 7
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 3], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 3], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 3], 11
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 12
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 3], 13
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 14
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 15
+	vpinsrb	xmm6, xmm8, byte ptr [rdx + rax + 3], 1
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 2
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 3], 3
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 4
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 5
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 6
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 3], 7
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 3], 8
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 9
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 10
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 11
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 12
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 3], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm3   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm6, byte ptr [rdx + rcx + 3], 14
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 9]
+	vmovd	xmm8, esi
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 3], 15
+	vinserti128	ymm3, ymm3, xmm5, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm3   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 9]
+	vmovd	xmm11, esi
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 512]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 1
+	mov	r11, r9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 2
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 3
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 4
+	mov	rcx, r8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 4], 5
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 7
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 8
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 9
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 10
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 11
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 13
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 4], 15
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm15, byte ptr [rdx + rsi + 4], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 4], 3
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 4], 4
+	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 4], 5
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 4], 6
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 4], 8
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 4], 9
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 10
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 4], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 13
+	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 4], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 4], 15
+	mov	r14, r12
+	vpinsrb	xmm5, xmm14, byte ptr [rdx + rbx + 5], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 2
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 5], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 5
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 6
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 8
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 5], 10
+	mov	r13, r9
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm6, xmm12, byte ptr [rdx + rax + 5], 1
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 2
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 5], 3
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 5], 4
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 5], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 5], 6
+	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 5], 7
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 5], 8
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 5], 9
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 10
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 5], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 13
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 14
+	vinserti128	ymm15, ymm4, xmm3, 1
+	vpinsrb	xmm4, xmm6, byte ptr [rdx + r14 + 5], 15
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 10]
+	vmovd	xmm12, esi
+	vinserti128	ymm3, ymm4, xmm5, 1
+	vmovdqa	ymmword ptr [rsp + 512], ymm3   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 10]
+	vmovd	xmm4, esi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm13, byte ptr [rdx + rax + 6], 1
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 2
+	mov	r14, r11
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 6], 3
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 4
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 5
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 6], 6
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 6], 7
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 6], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 12
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 6], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 14
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 6], 15
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm6, xmm7, byte ptr [rdx + r13 + 6], 1
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 2
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 3
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 5
+	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 6], 6
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 6], 7
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 6], 8
+	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 6], 9
+	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 6], 10
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 6], 11
+	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 6], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 13
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 6], 14
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 6], 15
+	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 7], 1
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 7], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 4
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 7
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 8
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 9
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 11
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 12
+	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 7], 13
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 7], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 7], 1
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 2
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 7], 3
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 5
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 6
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 7
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 7], 10
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 12
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 13
+	vinserti128	ymm3, ymm6, xmm5, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm3  # 32-byte Spill
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm1, byte ptr [rdx + rsi + 7], 14
+	mov	r13, rsi
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 11]
+	vmovd	xmm1, esi
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 7], 15
+	vinserti128	ymm2, ymm5, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm2  # 32-byte Spill
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 11]
+	vmovd	xmm2, esi
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm9, byte ptr [rdx + rdi + 8], 1
+	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 2
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 3
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 4
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 5
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 6
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 7
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 8
+	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 12
+	mov	r10, r12
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 14
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 15
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm6, xmm10, byte ptr [rdx + rcx + 8], 1
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 2
+	mov	r12, r8
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 8], 3
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 4
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 5
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 6
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 7
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 8], 8
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 8], 9
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 10
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 8], 11
+	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 8], 12
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rcx + 8], 13
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 8], 14
+	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r13 + 8], 15
+	vpinsrb	xmm7, xmm8, byte ptr [rdx + rdi + 9], 1
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 2
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r15 + 9], 4
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rdi + 9], 5
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 6
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 7
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 9
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 10
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 11
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 9], 13
+	mov	rcx, r10
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm11, byte ptr [rdx + rax + 9], 1
+	mov	r10, rax
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 9], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 9], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 5
+	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 9], 6
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 9], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 9], 9
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 10
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 9], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 9], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 13
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 14
+	vinserti128	ymm5, ymm6, xmm5, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 15
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 12]
+	vmovd	xmm5, esi
+	vinserti128	ymm3, ymm3, xmm7, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm3  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 12]
+	vmovd	xmm6, esi
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm3, xmm12, byte ptr [rdx + r9 + 10], 1
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 2
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 10], 3
+	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 5
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 6
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 10], 7
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 8
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 9
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 10
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 11
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 13
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 10], 15
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 10], 1
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 2
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 10], 3
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 4
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 6
+	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 8
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 10], 9
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 11
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 12
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 13
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 14
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 1
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 4
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 11], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 11], 7
+	mov	r8, r11
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 11], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 9
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 12
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 11], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 1
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 3
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 5
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 6
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 7
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 11], 9
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 11
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 12
+	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 14
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 13]
+	vmovd	xmm3, esi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm1  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 13]
+	vmovd	xmm1, esi
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm5, byte ptr [rdx + r11 + 12], 1
+	mov	r10, r9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 2
+	mov	rcx, r14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 3
+	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 4
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 5
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 7
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 8
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 9
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 10
+	mov	r8, r12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 11
+	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 12], 12
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 13
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 15
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm6, byte ptr [rdx + rsi + 12], 1
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 12], 2
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 3
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 5
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 6
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 7
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 8
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 12], 10
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 12], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 12], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 13
+	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 14
+	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 15
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 13], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 13], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 5
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 6
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 13], 7
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 8
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 9
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 13
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 14
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 15
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
+	mov	r9, rsi
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 3
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 4
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 5
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 6
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 13], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 13], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 9
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 13
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 14
+	vinserti128	ymm2, ymm4, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm2  # 32-byte Spill
+	mov	r12, r13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 15
+	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r14 + 14]
+	vmovd	xmm2, esi
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm1   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 14]
+	vmovd	xmm1, esi
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 14], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 14], 2
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 14], 3
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 14], 4
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 5
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 14], 7
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 8
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 9
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 10
+	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 14], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 12
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 13
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 14], 14
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 14], 15
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 2
+	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 5
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 6
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 7
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 8
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 9
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 10
+	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 11
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 12
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 13
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 14], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 15
+	movzx	esi, byte ptr [rdx + r14 + 15]
+	vmovd	xmm3, esi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 1
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 4
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 5
+	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 6
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 7
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 8
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 9
+	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 15], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 11
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 12
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 15
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 15]
+	vmovd	xmm4, esi
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 15], 1
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 15], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 15], 3
+	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 15], 4
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 15], 5
+	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 15], 6
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 15], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 8
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 15], 9
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 15], 11
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 15], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 13
+	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 15], 14
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 15
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm1   # 32-byte Spill
+	vinserti128	ymm1, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm1   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 16]
+	vmovd	xmm1, esi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 1
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 2
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 3
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 4
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 6
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 8
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 16], 10
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 11
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 12
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 13
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 15
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 16]
+	vmovd	xmm2, esi
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 1
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 2
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 16], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 16], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 16], 6
+	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 16], 7
+	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 16], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 16], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 16], 10
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 16], 12
+	mov	r11, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 16], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 16], 14
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 15
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rdi + 17]
+	vmovd	xmm3, esi
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 17], 2
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 3
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 17], 4
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 17], 5
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 17], 6
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 7
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 9
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 17], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 17], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 17]
+	vmovd	xmm4, esi
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 1
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 17], 2
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 17], 3
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 5
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 17], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 17], 8
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 9
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 10
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 17], 13
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 17], 14
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm1   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm4, byte ptr [rdx + rax + 17], 15
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm1   # 32-byte Spill
+	movzx	esi, byte ptr [rdx + rdi + 18]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 1
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 2
+	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 18], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 18], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 6
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 18], 7
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 8
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 9
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 18], 10
+	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 18], 11
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 13
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 15
+	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r9 + 18]
+	vmovd	xmm2, esi
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 18], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 18], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 18], 3
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 4
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 18], 5
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 6
+	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 18], 7
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 8
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 9
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 10
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 11
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 12
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 13
+	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 18], 14
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 18], 15
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 19]
+	vmovd	xmm3, esi
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 19], 3
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 4
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 5
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 7
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 8
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 19], 11
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 19], 12
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 14
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 15
+	movzx	esi, byte ptr [rdx + r9 + 19]
+	vmovd	xmm4, esi
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 1
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 19], 2
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 3
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 19], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 19], 5
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 19], 7
+	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 19], 8
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 9
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 10
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 11
+	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 19], 12
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 19], 13
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 19], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 19], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm1   # 32-byte Spill
+	vinserti128	ymm1, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm1   # 32-byte Spill
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 20]
+	vmovd	xmm1, esi
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 1
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 2
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 3
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 4
+	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 20], 5
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 6
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 7
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 9
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 10
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 12
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 13
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 15
+	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r15 + 20]
+	vmovd	xmm2, esi
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 20], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 20], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 20], 4
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 20], 5
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 6
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 20], 8
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 9
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 10
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 20], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 20], 12
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 13
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 14
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 15
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 21]
+	vmovd	xmm3, esi
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 1
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 2
+	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 21], 3
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 21], 5
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 6
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 7
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 8
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 10
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 21], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 15
+	movzx	esi, byte ptr [rdx + r15 + 21]
+	mov	rbx, r15
+	vmovd	xmm4, esi
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 1
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 21], 2
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 3
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 21], 5
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 6
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 21], 7
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 21], 8
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 21], 9
+	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 21], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 21], 11
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 21], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 13
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 14
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm1   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm4, byte ptr [rdx + rax + 21], 15
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm1   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 22]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 3
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 4
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 6
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 7
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 8
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 22], 9
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 10
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 11
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 22], 12
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 13
+	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 15
+	movzx	esi, byte ptr [rdx + rbx + 22]
+	vmovd	xmm2, esi
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 22], 2
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 3
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 5
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 22], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 22], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 22], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 22], 10
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 22], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 22], 12
+	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 22], 13
+	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 22], 14
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 22], 15
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r15 + 23]
+	vmovd	xmm3, esi
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 1
+	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 2
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 4
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 5
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 7
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 23], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 9
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 10
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 12
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 15
+	movzx	esi, byte ptr [rdx + rbx + 23]
+	vmovd	xmm4, esi
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 1
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 2
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 23], 3
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 5
+	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 23], 6
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 7
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 8
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 9
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 23], 11
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 23], 13
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 23], 14
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 23], 15
+	vinserti128	ymm11, ymm2, xmm1, 1
+	vinserti128	ymm12, ymm4, xmm3, 1
+	movzx	esi, byte ptr [rdx + r15 + 24]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 2
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 3
+	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 4
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 5
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 24], 6
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 8
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
+	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 12
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 13
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 14
+	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 24]
+	vmovd	xmm2, esi
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 1
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 24], 3
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 4
+	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 24], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 24], 6
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 7
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 8
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 9
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 24], 10
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 24], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 12
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 24], 13
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 24], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 24], 15
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 25]
+	vmovd	xmm3, esi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 1
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 2
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 4
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 25], 6
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 7
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 25], 9
+	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 10
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 12
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 15
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r10 + 25]
+	vmovd	xmm4, esi
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 25], 1
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 25], 2
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 25], 3
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 25], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 25], 5
+	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 25], 6
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 25], 7
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 25], 8
+	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 25], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 25], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 25], 11
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 25], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 13
+	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 25], 14
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 384], ymm1   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm4, byte ptr [rdx + rcx + 25], 15
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 576], ymm1   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 26]
+	vmovd	xmm1, esi
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 1
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 2
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 3
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 4
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 5
+	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 7
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 8
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 26], 10
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 12
+	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 26], 13
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 15
+	movzx	esi, byte ptr [rdx + r10 + 26]
+	vmovd	xmm2, esi
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 26], 2
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 26], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 26], 6
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 7
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 26], 9
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 10
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 26], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 26], 12
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 26], 14
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 26], 15
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r15 + 27]
+	vmovd	xmm3, esi
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 27], 1
+	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 4
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 6
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 7
+	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 27], 8
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 9
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 10
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 27], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 27], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 27]
+	vmovd	xmm4, esi
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 1
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 27], 2
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 3
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 4
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 27], 5
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 6
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 27], 7
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 8
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 9
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 27], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 27], 13
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 14
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 608], ymm1   # 32-byte Spill
+	vinserti128	ymm1, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm1   # 32-byte Spill
+	movzx	esi, byte ptr [rdx + r15 + 28]
+	vmovd	xmm1, esi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 28], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 28], 2
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 5
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 28], 6
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 8
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 28], 11
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 12
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 13
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 14
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 15
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 28]
+	vmovd	xmm2, esi
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 28], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 28], 2
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 28], 3
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 28], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 28], 5
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 28], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 28], 7
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 28], 8
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 28], 9
+	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 28], 10
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 28], 11
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 28], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 13
+	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 28], 14
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 15
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 29]
+	vmovd	xmm3, esi
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 1
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 2
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 4
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 29], 6
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 9
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 10
+	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 29], 11
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 12
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 13
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 29], 15
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 29]
+	vmovd	xmm4, esi
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 29], 1
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 29], 2
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 29], 3
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 29], 4
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 29], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 29], 6
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 29], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 29], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 29], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 29], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 11
+	mov	r13, rdi
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 29], 12
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 13
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 29], 14
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm1   # 32-byte Spill
+	vpinsrb	xmm1, xmm4, byte ptr [rdx + rax + 29], 15
+	mov	r12, rax
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm1   # 32-byte Spill
+	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r8 + 30]
+	vmovd	xmm1, esi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 1
+	movzx	esi, byte ptr [rdx + r8 + 31]
+	vmovd	xmm2, esi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 1
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 2
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 3
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 4
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 5
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 6
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 7
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 8
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 9
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 30], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 31], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 12
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 15
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	eax, byte ptr [rdx + rsi + 30]
+	vmovd	xmm3, eax
+	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 30], 1
+	movzx	eax, byte ptr [rdx + rsi + 31]
+	vmovd	xmm4, eax
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 31], 1
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 30], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 31], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 30], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 31], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 5
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 6
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 30], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 31], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 30], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 31], 9
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 30], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 31], 11
+	mov	rax, rbx
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 30], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 31], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 30], 13
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 31], 13
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 30], 15
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 31], 15
+	vinserti128	ymm1, ymm3, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm1   # 32-byte Spill
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 256], ymm1   # 32-byte Spill
+	vpminub	ymm1, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
+	vpcmpeqb	ymm1, ymm0, ymm1
+	vmovdqa	ymm7, ymmword ptr [rip + .LCPI8_0] # ymm7 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	vpandn	ymm2, ymm1, ymm7
+	vpaddb	ymm1, ymm2, ymm1
+	vpminub	ymm2, ymm0, ymmword ptr [rsp + 1248] # 32-byte Folded Reload
+	vpcmpeqb	ymm2, ymm0, ymm2
+	vpandn	ymm2, ymm2, ymm7
+	vpminub	ymm14, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vmovdqa	ymm9, ymmword ptr [rip + .LCPI8_1] # ymm9 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpandn	ymm14, ymm14, ymm9
+	vpor	ymm2, ymm14, ymm2
+	vpminub	ymm14, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vmovdqa	ymm8, ymmword ptr [rip + .LCPI8_2] # ymm8 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpandn	ymm14, ymm14, ymm8
+	vpor	ymm2, ymm14, ymm2
+	vpcmpeqd	ymm3, ymm3, ymm3
+	vpsubb	ymm1, ymm1, ymm3
+	vpor	ymm1, ymm1, ymm2
+	vpminub	ymm2, ymm15, ymm0
+	vpcmpeqb	ymm2, ymm0, ymm2
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI8_3] # ymm6 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpandn	ymm2, ymm2, ymm6
+	vpminub	ymm14, ymm0, ymmword ptr [rsp + 512] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI8_4] # ymm4 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpandn	ymm14, ymm14, ymm4
+	vpor	ymm2, ymm14, ymm2
+	vpminub	ymm14, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI8_5] # ymm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpandn	ymm14, ymm14, ymm5
+	vpor	ymm2, ymm14, ymm2
+	vpminub	ymm14, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vpxor	ymm14, ymm14, ymm3
+	vpsllw	ymm14, ymm14, 7
+	vmovdqa	ymm10, ymmword ptr [rip + .LCPI8_6] # ymm10 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpand	ymm14, ymm14, ymm10
+	vpor	ymm2, ymm14, ymm2
+	vpor	ymm1, ymm1, ymm2
+	vmovdqa	ymmword ptr [rsp + 320], ymm1   # 32-byte Spill
+	vpminub	ymm1, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
+	vpcmpeqb	ymm1, ymm0, ymm1
+	vpandn	ymm14, ymm1, ymm7
+	vpaddb	ymm1, ymm14, ymm1
+	vpminub	ymm14, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vpandn	ymm14, ymm14, ymm7
+	vpminub	ymm15, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vmovdqa	ymm3, ymm9
+	vpandn	ymm15, ymm15, ymm9
+	vpor	ymm14, ymm14, ymm15
+	vpminub	ymm15, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpandn	ymm15, ymm15, ymm8
+	vpor	ymm14, ymm14, ymm15
+	vpcmpeqd	ymm2, ymm2, ymm2
+	vpsubb	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm14, ymm1
+	vpminub	ymm14, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vpandn	ymm14, ymm14, ymm6
+	vpminub	ymm15, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpandn	ymm15, ymm15, ymm4
+	vpor	ymm14, ymm14, ymm15
+	vpminub	ymm15, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpandn	ymm15, ymm15, ymm5
+	vpor	ymm14, ymm14, ymm15
+	vpminub	ymm15, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpxor	ymm15, ymm15, ymm2
+	vpcmpeqd	ymm2, ymm2, ymm2
+	vpsllw	ymm15, ymm15, 7
+	vpand	ymm15, ymm15, ymm10
+	vpor	ymm14, ymm14, ymm15
+	vpor	ymm1, ymm14, ymm1
+	vpminub	ymm14, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vpandn	ymm15, ymm14, ymm7
+	vpaddb	ymm14, ymm15, ymm14
+	vpminub	ymm15, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpandn	ymm15, ymm15, ymm7
+	vpminub	ymm13, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
+	vpcmpeqb	ymm13, ymm13, ymm0
+	vpandn	ymm13, ymm13, ymm9
+	vpor	ymm13, ymm15, ymm13
+	vpminub	ymm15, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpandn	ymm15, ymm15, ymm8
+	vpor	ymm13, ymm13, ymm15
+	vpsubb	ymm14, ymm14, ymm2
+	vpor	ymm13, ymm14, ymm13
+	vpminub	ymm14, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vpandn	ymm14, ymm14, ymm6
+	vpminub	ymm15, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpandn	ymm15, ymm15, ymm4
+	vpor	ymm14, ymm14, ymm15
+	vpminub	ymm11, ymm11, ymm0
+	vpcmpeqb	ymm11, ymm11, ymm0
+	vmovdqa	ymm15, ymm5
+	vpandn	ymm11, ymm11, ymm5
+	vpor	ymm11, ymm14, ymm11
+	vpminub	ymm12, ymm12, ymm0
+	vpcmpeqb	ymm12, ymm12, ymm0
+	vpxor	ymm12, ymm12, ymm2
+	vpsllw	ymm12, ymm12, 7
+	vmovdqa	ymm14, ymm10
+	vpand	ymm12, ymm12, ymm10
+	vpor	ymm11, ymm11, ymm12
+	vpor	ymm11, ymm13, ymm11
+	vpminub	ymm9, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
+	vpcmpeqb	ymm9, ymm9, ymm0
+	vpandn	ymm12, ymm9, ymm7
+	vpaddb	ymm9, ymm12, ymm9
+	vpminub	ymm10, ymm0, ymmword ptr [rsp + 384] # 32-byte Folded Reload
+	vpcmpeqb	ymm10, ymm10, ymm0
+	vpandn	ymm10, ymm10, ymm7
+	vpminub	ymm7, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
+	vpcmpeqb	ymm7, ymm0, ymm7
+	vpandn	ymm7, ymm7, ymm3
+	vpor	ymm7, ymm10, ymm7
+	vpminub	ymm8, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
+	vpcmpeqb	ymm8, ymm8, ymm0
+	vpandn	ymm8, ymm8, ymmword ptr [rip + .LCPI8_2]
+	vpor	ymm7, ymm8, ymm7
+	vpsubb	ymm8, ymm9, ymm2
+	vpor	ymm7, ymm8, ymm7
+	vpminub	ymm5, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
+	vpcmpeqb	ymm5, ymm0, ymm5
+	vpandn	ymm5, ymm5, ymm6
+	vpminub	ymm6, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
+	vpcmpeqb	ymm6, ymm0, ymm6
+	vpandn	ymm6, ymm6, ymm4
+	vpor	ymm5, ymm5, ymm6
+	vpminub	ymm3, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
+	vpcmpeqb	ymm3, ymm0, ymm3
+	vpandn	ymm3, ymm3, ymm15
+	vpor	ymm3, ymm5, ymm3
+	vpminub	ymm4, ymm0, ymmword ptr [rsp + 256] # 32-byte Folded Reload
+	vpcmpeqb	ymm4, ymm0, ymm4
+	vpxor	ymm4, ymm4, ymm2
+	vpsllw	ymm4, ymm4, 7
+	vpand	ymm4, ymm14, ymm4
+	vpor	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm7, ymm3
+	vmovdqa	ymm2, ymmword ptr [rsp + 320]   # 32-byte Reload
+	vpunpcklbw	ymm4, ymm2, ymm1        # ymm4 = ymm2[0],ymm1[0],ymm2[1],ymm1[1],ymm2[2],ymm1[2],ymm2[3],ymm1[3],ymm2[4],ymm1[4],ymm2[5],ymm1[5],ymm2[6],ymm1[6],ymm2[7],ymm1[7],ymm2[16],ymm1[16],ymm2[17],ymm1[17],ymm2[18],ymm1[18],ymm2[19],ymm1[19],ymm2[20],ymm1[20],ymm2[21],ymm1[21],ymm2[22],ymm1[22],ymm2[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm2, ymm1        # ymm1 = ymm2[8],ymm1[8],ymm2[9],ymm1[9],ymm2[10],ymm1[10],ymm2[11],ymm1[11],ymm2[12],ymm1[12],ymm2[13],ymm1[13],ymm2[14],ymm1[14],ymm2[15],ymm1[15],ymm2[24],ymm1[24],ymm2[25],ymm1[25],ymm2[26],ymm1[26],ymm2[27],ymm1[27],ymm2[28],ymm1[28],ymm2[29],ymm1[29],ymm2[30],ymm1[30],ymm2[31],ymm1[31]
+	vpunpcklbw	ymm2, ymm11, ymm3       # ymm2 = ymm11[0],ymm3[0],ymm11[1],ymm3[1],ymm11[2],ymm3[2],ymm11[3],ymm3[3],ymm11[4],ymm3[4],ymm11[5],ymm3[5],ymm11[6],ymm3[6],ymm11[7],ymm3[7],ymm11[16],ymm3[16],ymm11[17],ymm3[17],ymm11[18],ymm3[18],ymm11[19],ymm3[19],ymm11[20],ymm3[20],ymm11[21],ymm3[21],ymm11[22],ymm3[22],ymm11[23],ymm3[23]
+	vpunpckhbw	ymm3, ymm11, ymm3       # ymm3 = ymm11[8],ymm3[8],ymm11[9],ymm3[9],ymm11[10],ymm3[10],ymm11[11],ymm3[11],ymm11[12],ymm3[12],ymm11[13],ymm3[13],ymm11[14],ymm3[14],ymm11[15],ymm3[15],ymm11[24],ymm3[24],ymm11[25],ymm3[25],ymm11[26],ymm3[26],ymm11[27],ymm3[27],ymm11[28],ymm3[28],ymm11[29],ymm3[29],ymm11[30],ymm3[30],ymm11[31],ymm3[31]
+	vpunpcklwd	ymm5, ymm4, ymm2        # ymm5 = ymm4[0],ymm2[0],ymm4[1],ymm2[1],ymm4[2],ymm2[2],ymm4[3],ymm2[3],ymm4[8],ymm2[8],ymm4[9],ymm2[9],ymm4[10],ymm2[10],ymm4[11],ymm2[11]
+	vpunpckhwd	ymm2, ymm4, ymm2        # ymm2 = ymm4[4],ymm2[4],ymm4[5],ymm2[5],ymm4[6],ymm2[6],ymm4[7],ymm2[7],ymm4[12],ymm2[12],ymm4[13],ymm2[13],ymm4[14],ymm2[14],ymm4[15],ymm2[15]
+	vpunpcklwd	ymm4, ymm1, ymm3        # ymm4 = ymm1[0],ymm3[0],ymm1[1],ymm3[1],ymm1[2],ymm3[2],ymm1[3],ymm3[3],ymm1[8],ymm3[8],ymm1[9],ymm3[9],ymm1[10],ymm3[10],ymm1[11],ymm3[11]
+	vpunpckhwd	ymm1, ymm1, ymm3        # ymm1 = ymm1[4],ymm3[4],ymm1[5],ymm3[5],ymm1[6],ymm3[6],ymm1[7],ymm3[7],ymm1[12],ymm3[12],ymm1[13],ymm3[13],ymm1[14],ymm3[14],ymm1[15],ymm3[15]
+	vinserti128	ymm3, ymm5, xmm2, 1
+	vperm2i128	ymm2, ymm5, ymm2, 49    # ymm2 = ymm5[2,3],ymm2[2,3]
+	vinserti128	ymm5, ymm4, xmm1, 1
+	vperm2i128	ymm1, ymm4, ymm1, 49    # ymm1 = ymm4[2,3],ymm1[2,3]
+	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm1
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm5
+	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm3
+	add	rcx, 32
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 360]      # 8-byte Folded Reload
+	jne	.LBB8_184
+# %bb.185:
+	mov	r15, qword ptr [rsp + 368]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 360]      # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r14d, dword ptr [rsp + 4]       # 4-byte Reload
+	mov	r12, qword ptr [rsp + 504]      # 8-byte Reload
+	jne	.LBB8_101
+	jmp	.LBB8_125
+.Lfunc_end8:
+	.size	comparison_greater_scalar_arr_avx2, .Lfunc_end8-comparison_greater_scalar_arr_avx2
+                                        # -- End function
+	.globl	comparison_greater_equal_arr_arr_avx2 # -- Begin function comparison_greater_equal_arr_arr_avx2
+	.p2align	4, 0x90
+	.type	comparison_greater_equal_arr_arr_avx2,@function
+comparison_greater_equal_arr_arr_avx2:  # @comparison_greater_equal_arr_arr_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -8
+	sub	rsp, 72
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r11, r8
+	mov	r14, rcx
+	cmp	edi, 6
+	jg	.LBB9_29
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB9_2
+# %bb.15:
+	cmp	edi, 4
+	je	.LBB9_68
+# %bb.16:
+	cmp	edi, 5
+	je	.LBB9_79
+# %bb.17:
+	cmp	edi, 6
+	jne	.LBB9_123
+# %bb.18:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_22
+# %bb.19:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_20:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	mov	r10d, 0
+	adc	r10b, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_20
+# %bb.21:
+	add	r14, 1
+.LBB9_22:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_26
+# %bb.23:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_24:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	setae	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	setae	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	setae	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	setae	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	setae	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	setae	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	setae	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	setae	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	setae	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	setae	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB9_24
+# %bb.25:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB9_26:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.27:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_28:                               # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rsi + 4*rcx]
+	cmp	eax, dword ptr [rdx + 4*rcx]
+	lea	r8, [rcx + 1]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_28
+	jmp	.LBB9_123
+.LBB9_29:
+	cmp	edi, 8
+	jle	.LBB9_30
+# %bb.43:
+	cmp	edi, 9
+	je	.LBB9_101
+# %bb.44:
+	cmp	edi, 11
+	je	.LBB9_112
+# %bb.45:
+	cmp	edi, 12
+	jne	.LBB9_123
+# %bb.46:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_50
+# %bb.47:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_48:                               # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	add	rsi, 8
+	vucomisd	xmm0, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	mov	r10d, 0
+	adc	r10b, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_48
+# %bb.49:
+	add	r14, 1
+.LBB9_50:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_54
+# %bb.51:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_52:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	vmovsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx]
+	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	vucomisd	xmm1, qword ptr [rdx + 8]
+	setae	al
+	vmovsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 16]
+	vmovsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 24]
+	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 32]
+	vmovsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 40]
+	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 48]
+	vmovsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
+	setae	r13b
+	vucomisd	xmm0, qword ptr [rdx + 56]
+	setae	r15b
+	vmovsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 64]
+	vmovsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 72]
+	setae	cl
+	vmovsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 80]
+	vmovsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
+	setae	r9b
+	vucomisd	xmm0, qword ptr [rdx + 88]
+	setae	r11b
+	vmovsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 96]
+	vmovsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
+	setae	r10b
+	vucomisd	xmm0, qword ptr [rdx + 104]
+	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	vmovsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 112]
+	vmovsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 120]
+	setae	bl
+	vmovsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 128]
+	vmovsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 136]
+	vmovsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
+	setae	r14b
+	vucomisd	xmm0, qword ptr [rdx + 144]
+	vmovsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
+	setae	r12b
+	vucomisd	xmm0, qword ptr [rdx + 152]
+	vmovsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 160]
+	vmovsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 168]
+	vmovsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 176]
+	vmovsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 184]
+	vmovsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
+	setae	r8b
+	vucomisd	xmm0, qword ptr [rdx + 192]
+	vmovsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 200]
+	vmovsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 208]
+	vmovsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 216]
+	vmovsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 224]
+	vmovsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 232]
+	vmovsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 240]
+	vmovsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	add	rsi, 256
+	vucomisd	xmm0, qword ptr [rdx + 248]
+	setae	dil
+	add	al, al
+	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r12b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB9_52
+# %bb.53:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB9_54:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.55:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_56:                               # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
+	vucomisd	xmm0, qword ptr [rdx + 8*rcx]
+	lea	r8, [rcx + 1]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_56
+	jmp	.LBB9_123
+.LBB9_2:
+	cmp	edi, 2
+	je	.LBB9_57
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB9_123
+# %bb.4:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_8
+# %bb.5:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_6:                                # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setge	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_6
+# %bb.7:
+	add	r14, 1
+.LBB9_8:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_12
+# %bb.9:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_10:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	setge	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	setge	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	setge	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	setge	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	setge	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	setge	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	setge	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	setge	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	setge	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	setge	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	setge	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB9_10
+# %bb.11:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB9_12:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.13:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_14:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rsi + rcx]
+	cmp	bl, byte ptr [rdx + rcx]
+	setge	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_14
+	jmp	.LBB9_123
+.LBB9_30:
+	cmp	edi, 7
+	je	.LBB9_90
+# %bb.31:
+	cmp	edi, 8
+	jne	.LBB9_123
+# %bb.32:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_36
+# %bb.33:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_34:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	mov	r10d, 0
+	adc	r10b, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_34
+# %bb.35:
+	add	r14, 1
+.LBB9_36:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_40
+# %bb.37:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_38:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	setae	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	setae	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	setae	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	setae	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	setae	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	setae	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	setae	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	setae	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	setae	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	setae	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB9_38
+# %bb.39:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB9_40:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.41:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_42:                               # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rsi + 8*rcx]
+	cmp	rax, qword ptr [rdx + 8*rcx]
+	lea	r8, [rcx + 1]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_42
+	jmp	.LBB9_123
+.LBB9_68:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_72
+# %bb.69:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_70:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	mov	r10d, 0
+	adc	r10b, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_70
+# %bb.71:
+	add	r14, 1
+.LBB9_72:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_76
+# %bb.73:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_74:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	setae	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	setae	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	setae	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	setae	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	setae	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	setae	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	setae	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	setae	r12b
+	cmp	ax, word ptr [rdx + 40]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	setae	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	setae	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB9_74
+# %bb.75:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB9_76:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.77:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_78:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rsi + 2*rcx]
+	cmp	ax, word ptr [rdx + 2*rcx]
+	lea	r8, [rcx + 1]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_78
+	jmp	.LBB9_123
+.LBB9_79:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_83
+# %bb.80:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_81:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setge	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_81
+# %bb.82:
+	add	r14, 1
+.LBB9_83:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_87
+# %bb.84:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_85:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	setge	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	setge	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	setge	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	setge	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	setge	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	setge	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	setge	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	setge	r12b
+	cmp	ax, word ptr [rdx + 40]
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	setge	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	setge	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB9_85
+# %bb.86:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB9_87:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.88:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_89:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rsi + 2*rcx]
+	cmp	di, word ptr [rdx + 2*rcx]
+	setge	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_89
+	jmp	.LBB9_123
+.LBB9_101:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_105
+# %bb.102:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_103:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setge	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_103
+# %bb.104:
+	add	r14, 1
+.LBB9_105:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_109
+# %bb.106:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_107:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	setge	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	setge	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	setge	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	setge	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	setge	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	setge	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	setge	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	setge	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	setge	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	setge	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB9_107
+# %bb.108:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB9_109:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.110:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_111:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rsi + 8*rcx]
+	cmp	rdi, qword ptr [rdx + 8*rcx]
+	setge	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_111
+	jmp	.LBB9_123
+.LBB9_112:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_116
+# %bb.113:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_114:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	add	rsi, 4
+	vucomiss	xmm0, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	mov	r10d, 0
+	adc	r10b, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_114
+# %bb.115:
+	add	r14, 1
+.LBB9_116:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_120
+# %bb.117:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_118:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	vmovss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx]
+	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	vucomiss	xmm1, dword ptr [rdx + 4]
+	setae	al
+	vmovss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 8]
+	vmovss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 12]
+	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 16]
+	vmovss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 20]
+	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 24]
+	vmovss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
+	setae	r13b
+	vucomiss	xmm0, dword ptr [rdx + 28]
+	setae	r15b
+	vmovss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 32]
+	vmovss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 36]
+	setae	cl
+	vmovss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 40]
+	vmovss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
+	setae	r9b
+	vucomiss	xmm0, dword ptr [rdx + 44]
+	setae	r11b
+	vmovss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 48]
+	vmovss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
+	setae	r10b
+	vucomiss	xmm0, dword ptr [rdx + 52]
+	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	vmovss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 56]
+	vmovss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 60]
+	setae	bl
+	vmovss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 64]
+	vmovss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 68]
+	vmovss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
+	setae	r14b
+	vucomiss	xmm0, dword ptr [rdx + 72]
+	vmovss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
+	setae	r12b
+	vucomiss	xmm0, dword ptr [rdx + 76]
+	vmovss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 80]
+	vmovss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 84]
+	vmovss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 88]
+	vmovss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 92]
+	vmovss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
+	setae	r8b
+	vucomiss	xmm0, dword ptr [rdx + 96]
+	vmovss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 100]
+	vmovss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 104]
+	vmovss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 108]
+	vmovss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 112]
+	vmovss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 116]
+	vmovss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 120]
+	vmovss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	sub	rsi, -128
+	vucomiss	xmm0, dword ptr [rdx + 124]
+	setae	dil
+	add	al, al
+	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r12b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB9_118
+# %bb.119:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB9_120:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.121:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_122:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
+	vucomiss	xmm0, dword ptr [rdx + 4*rcx]
+	lea	r8, [rcx + 1]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_122
+	jmp	.LBB9_123
+.LBB9_57:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_61
+# %bb.58:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_59:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	mov	r10d, 0
+	adc	r10b, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_59
+# %bb.60:
+	add	r14, 1
+.LBB9_61:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_65
+# %bb.62:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_63:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	setae	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	setae	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	setae	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	setae	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	setae	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	setae	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	setae	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	setae	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	setae	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	setae	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	setae	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB9_63
+# %bb.64:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB9_65:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.66:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_67:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rsi + rcx]
+	cmp	al, byte ptr [rdx + rcx]
+	lea	r8, [rcx + 1]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_67
+	jmp	.LBB9_123
+.LBB9_90:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_94
+# %bb.91:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_92:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setge	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_92
+# %bb.93:
+	add	r14, 1
+.LBB9_94:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_98
+# %bb.95:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_96:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	setge	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	setge	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	setge	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	setge	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	setge	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	setge	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	setge	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	setge	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	setge	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	setge	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB9_96
+# %bb.97:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB9_98:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.99:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_100:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rsi + 4*rcx]
+	cmp	edi, dword ptr [rdx + 4*rcx]
+	setge	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_100
+.LBB9_123:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.Lfunc_end9:
+	.size	comparison_greater_equal_arr_arr_avx2, .Lfunc_end9-comparison_greater_equal_arr_arr_avx2
+                                        # -- End function
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5                               # -- Begin function comparison_greater_equal_arr_scalar_avx2
+.LCPI10_0:
+	.zero	32,2
+.LCPI10_1:
+	.zero	32,4
+.LCPI10_2:
+	.zero	32,8
+.LCPI10_3:
+	.zero	32,16
+.LCPI10_4:
+	.zero	32,32
+.LCPI10_5:
+	.zero	32,64
+.LCPI10_6:
+	.zero	32,128
+	.text
+	.globl	comparison_greater_equal_arr_scalar_avx2
+	.p2align	4, 0x90
+	.type	comparison_greater_equal_arr_scalar_avx2,@function
+comparison_greater_equal_arr_scalar_avx2: # @comparison_greater_equal_arr_scalar_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -32
+	sub	rsp, 1344
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r10, r8
+	mov	r11, rcx
+	cmp	edi, 6
+	jg	.LBB10_13
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB10_25
+# %bb.2:
+	cmp	edi, 4
+	je	.LBB10_48
+# %bb.3:
+	cmp	edi, 5
+	je	.LBB10_56
+# %bb.4:
+	cmp	edi, 6
+	jne	.LBB10_175
+# %bb.5:
+	mov	r13d, dword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_9
+# %bb.6:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_7:                               # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	mov	edx, 0
+	adc	dl, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_7
+# %bb.8:
+	add	r11, 1
+.LBB10_9:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB10_100
+# %bb.10:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_11:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	setae	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	setae	dil
+	cmp	dword ptr [rsi + 8], r13d
+	setae	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	setae	al
+	cmp	dword ptr [rsi + 28], r13d
+	setae	bl
+	cmp	dword ptr [rsi + 32], r13d
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	setae	dl
+	cmp	dword ptr [rsi + 40], r13d
+	setae	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	setae	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	setae	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	setae	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	setae	cl
+	cmp	dword ptr [rsi + 64], r13d
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	setae	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	setae	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 128
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB10_11
+# %bb.12:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB10_101
+	jmp	.LBB10_175
+.LBB10_13:
+	cmp	edi, 8
+	jle	.LBB10_38
+# %bb.14:
+	cmp	edi, 9
+	je	.LBB10_64
+# %bb.15:
+	cmp	edi, 11
+	je	.LBB10_72
+# %bb.16:
+	cmp	edi, 12
+	jne	.LBB10_175
+# %bb.17:
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB10_21
+# %bb.18:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_19:                              # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rsi]
+	setbe	dl
+	add	rsi, 8
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_19
+# %bb.20:
+	add	r11, 1
+.LBB10_21:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB10_103
+# %bb.22:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_23:                              # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rsi]
+	setbe	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 8]
+	setbe	r9b
+	vucomisd	xmm0, qword ptr [rsi + 16]
+	setbe	r14b
+	vucomisd	xmm0, qword ptr [rsi + 24]
+	setbe	r13b
+	vucomisd	xmm0, qword ptr [rsi + 32]
+	setbe	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 40]
+	setbe	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 48]
+	setbe	al
+	vucomisd	xmm0, qword ptr [rsi + 56]
+	setbe	bl
+	vucomisd	xmm0, qword ptr [rsi + 64]
+	setbe	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 72]
+	setbe	dl
+	vucomisd	xmm0, qword ptr [rsi + 80]
+	setbe	dil
+	vucomisd	xmm0, qword ptr [rsi + 88]
+	setbe	r10b
+	vucomisd	xmm0, qword ptr [rsi + 96]
+	setbe	r11b
+	vucomisd	xmm0, qword ptr [rsi + 104]
+	setbe	r12b
+	vucomisd	xmm0, qword ptr [rsi + 112]
+	setbe	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 120]
+	setbe	cl
+	vucomisd	xmm0, qword ptr [rsi + 128]
+	setbe	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 136]
+	setbe	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 144]
+	setbe	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 152]
+	setbe	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 160]
+	setbe	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 168]
+	setbe	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 176]
+	setbe	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 184]
+	setbe	r15b
+	vucomisd	xmm0, qword ptr [rsi + 192]
+	setbe	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 200]
+	setbe	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 208]
+	setbe	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 216]
+	setbe	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 224]
+	setbe	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 232]
+	setbe	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 240]
+	setbe	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rsi + 248]
+	setbe	r8b
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r9b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 120]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, dl
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r9d, edx
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 256
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB10_23
+# %bb.24:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB10_104
+	jmp	.LBB10_175
+.LBB10_25:
+	cmp	edi, 2
+	je	.LBB10_80
+# %bb.26:
+	cmp	edi, 3
+	jne	.LBB10_175
+# %bb.27:
+	mov	r14b, byte ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_128
+# %bb.28:
+	movsxd	rax, r9d
+	mov	r13, r11
+	.p2align	4, 0x90
+.LBB10_29:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r14b
+	lea	rsi, [rsi + 1]
+	setge	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r13 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r13 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_29
+# %bb.30:
+	add	r13, 1
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB10_129
+.LBB10_31:
+	cmp	r15, 32
+	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 608], r15      # 8-byte Spill
+	jb	.LBB10_34
+# %bb.32:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r13, rax
+	jae	.LBB10_182
+# %bb.33:
+	lea	rax, [4*r15]
+	add	rax, r13
+	cmp	rsi, rax
+	jae	.LBB10_182
+.LBB10_34:
+	xor	eax, eax
+	mov	qword ptr [rsp + 416], rax      # 8-byte Spill
+	mov	r12, rsi
+	mov	qword ptr [rsp + 360], r13      # 8-byte Spill
+.LBB10_35:
+	mov	r13, r15
+	sub	r13, qword ptr [rsp + 416]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 152], r13      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_36:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, r12
+	cmp	byte ptr [r12], r14b
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 1], r14b
+	setge	r8b
+	cmp	byte ptr [r12 + 2], r14b
+	setge	r15b
+	cmp	byte ptr [r12 + 3], r14b
+	setge	r13b
+	cmp	byte ptr [r12 + 4], r14b
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 5], r14b
+	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 6], r14b
+	setge	al
+	cmp	byte ptr [r12 + 7], r14b
+	setge	r11b
+	cmp	byte ptr [r12 + 8], r14b
+	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 9], r14b
+	setge	dl
+	cmp	byte ptr [r12 + 10], r14b
+	setge	sil
+	cmp	byte ptr [r12 + 11], r14b
+	setge	dil
+	cmp	byte ptr [r12 + 12], r14b
+	setge	r10b
+	cmp	byte ptr [r12 + 13], r14b
+	setge	r12b
+	cmp	byte ptr [rcx + 14], r14b
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 15], r14b
+	setge	r9b
+	cmp	byte ptr [rcx + 16], r14b
+	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 17], r14b
+	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 18], r14b
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 19], r14b
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 20], r14b
+	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 21], r14b
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 22], r14b
+	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 23], r14b
+	setge	r14b
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 24], bl
+	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 25], bl
+	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 26], bl
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 27], bl
+	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 28], bl
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 29], bl
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 30], bl
+	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 31], bl
+	setge	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r15b, 2
+	or	r15b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r15b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp + 360]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r14b, 7
+	or	r14b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r14b, dl
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	bl, 7
+	or	bl, dl
+	or	bl, al
+	mov	byte ptr [rsi + 2], r14b
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	byte ptr [rsi + 3], bl
+	lea	r12, [rcx + 32]
+	add	rsi, 4
+	mov	qword ptr [rsp + 360], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB10_36
+# %bb.37:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 608]      # 8-byte Reload
+	jmp	.LBB10_130
+.LBB10_38:
+	cmp	edi, 7
+	je	.LBB10_92
+# %bb.39:
+	cmp	edi, 8
+	jne	.LBB10_175
+# %bb.40:
+	mov	r13, qword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_44
+# %bb.41:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_42:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	mov	edx, 0
+	adc	dl, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_42
+# %bb.43:
+	add	r11, 1
+.LBB10_44:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB10_106
+# %bb.45:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_46:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	cmp	qword ptr [rsi], r13
+	setae	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	setae	dil
+	cmp	qword ptr [rsi + 16], r13
+	setae	r14b
+	cmp	qword ptr [rsi + 24], r13
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	setae	al
+	cmp	qword ptr [rsi + 56], r13
+	setae	bl
+	cmp	qword ptr [rsi + 64], r13
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	setae	dl
+	cmp	qword ptr [rsi + 80], r13
+	setae	r9b
+	cmp	qword ptr [rsi + 88], r13
+	setae	r10b
+	cmp	qword ptr [rsi + 96], r13
+	setae	r11b
+	cmp	qword ptr [rsi + 104], r13
+	setae	r12b
+	cmp	qword ptr [rsi + 112], r13
+	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	setae	cl
+	cmp	qword ptr [rsi + 128], r13
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	setae	r15b
+	cmp	qword ptr [rsi + 192], r13
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	setae	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r11], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], r8b
+	add	rsi, 256
+	add	r11, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB10_46
+# %bb.47:
+	mov	r14, r11
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB10_107
+	jmp	.LBB10_175
+.LBB10_48:
+	movzx	r13d, word ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_52
+# %bb.49:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_50:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	lea	rsi, [rsi + 2]
+	mov	edx, 0
+	adc	dl, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_50
+# %bb.51:
+	add	r11, 1
+.LBB10_52:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB10_109
+# %bb.53:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_54:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	setae	al
+	cmp	word ptr [rsi + 2], r13w
+	setae	dil
+	cmp	word ptr [rsi + 4], r13w
+	setae	r14b
+	cmp	word ptr [rsi + 6], r13w
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 8], r13w
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 10], r13w
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 12], r13w
+	setae	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 14], r13w
+	setae	bl
+	cmp	word ptr [rsi + 16], r13w
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 18], r13w
+	setae	dl
+	cmp	word ptr [rsi + 20], r13w
+	setae	r9b
+	cmp	word ptr [rsi + 22], r13w
+	setae	r10b
+	cmp	word ptr [rsi + 24], r13w
+	setae	r11b
+	cmp	word ptr [rsi + 26], r13w
+	setae	r12b
+	cmp	word ptr [rsi + 28], r13w
+	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 30], r13w
+	setae	cl
+	cmp	word ptr [rsi + 32], r13w
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 34], r13w
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 36], r13w
+	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 38], r13w
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 40], r13w
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 42], r13w
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 44], r13w
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 46], r13w
+	setae	r15b
+	cmp	word ptr [rsi + 48], r13w
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 50], r13w
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 52], r13w
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 54], r13w
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 56], r13w
+	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 58], r13w
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 60], r13w
+	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 62], r13w
+	setae	r8b
+	add	dil, dil
+	or	dil, al
+	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 64
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB10_54
+# %bb.55:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB10_110
+	jmp	.LBB10_175
+.LBB10_56:
+	movzx	r13d, word ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_60
+# %bb.57:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_58:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	lea	rsi, [rsi + 2]
+	setge	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_58
+# %bb.59:
+	add	r11, 1
+.LBB10_60:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB10_112
+# %bb.61:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_62:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	setge	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 2], r13w
+	setge	dil
+	cmp	word ptr [rsi + 4], r13w
+	setge	r14b
+	cmp	word ptr [rsi + 6], r13w
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 8], r13w
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 10], r13w
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 12], r13w
+	setge	al
+	cmp	word ptr [rsi + 14], r13w
+	setge	bl
+	cmp	word ptr [rsi + 16], r13w
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 18], r13w
+	setge	dl
+	cmp	word ptr [rsi + 20], r13w
+	setge	r9b
+	cmp	word ptr [rsi + 22], r13w
+	setge	r10b
+	cmp	word ptr [rsi + 24], r13w
+	setge	r11b
+	cmp	word ptr [rsi + 26], r13w
+	setge	r12b
+	cmp	word ptr [rsi + 28], r13w
+	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 30], r13w
+	setge	cl
+	cmp	word ptr [rsi + 32], r13w
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 34], r13w
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 36], r13w
+	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 38], r13w
+	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 40], r13w
+	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 42], r13w
+	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 44], r13w
+	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 46], r13w
+	setge	r15b
+	cmp	word ptr [rsi + 48], r13w
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 50], r13w
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 52], r13w
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 54], r13w
+	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 56], r13w
+	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 58], r13w
+	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 60], r13w
+	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 62], r13w
+	setge	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 64
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB10_62
+# %bb.63:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB10_113
+	jmp	.LBB10_175
+.LBB10_64:
+	mov	r13, qword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_68
+# %bb.65:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_66:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	setge	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_66
+# %bb.67:
+	add	r11, 1
+.LBB10_68:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB10_115
+# %bb.69:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_70:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	setge	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	setge	dil
+	cmp	qword ptr [rsi + 16], r13
+	setge	r14b
+	cmp	qword ptr [rsi + 24], r13
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	setge	al
+	cmp	qword ptr [rsi + 56], r13
+	setge	bl
+	cmp	qword ptr [rsi + 64], r13
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	setge	dl
+	cmp	qword ptr [rsi + 80], r13
+	setge	r9b
+	cmp	qword ptr [rsi + 88], r13
+	setge	r10b
+	cmp	qword ptr [rsi + 96], r13
+	setge	r11b
+	cmp	qword ptr [rsi + 104], r13
+	setge	r12b
+	cmp	qword ptr [rsi + 112], r13
+	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	setge	cl
+	cmp	qword ptr [rsi + 128], r13
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	setge	r15b
+	cmp	qword ptr [rsi + 192], r13
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	setge	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 256
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB10_70
+# %bb.71:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB10_116
+	jmp	.LBB10_175
+.LBB10_72:
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB10_76
+# %bb.73:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_74:                              # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rsi]
+	setbe	dl
+	add	rsi, 4
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_74
+# %bb.75:
+	add	r11, 1
+.LBB10_76:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB10_118
+# %bb.77:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_78:                              # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rsi]
+	setbe	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 4]
+	setbe	r9b
+	vucomiss	xmm0, dword ptr [rsi + 8]
+	setbe	r14b
+	vucomiss	xmm0, dword ptr [rsi + 12]
+	setbe	r13b
+	vucomiss	xmm0, dword ptr [rsi + 16]
+	setbe	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 20]
+	setbe	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 24]
+	setbe	al
+	vucomiss	xmm0, dword ptr [rsi + 28]
+	setbe	bl
+	vucomiss	xmm0, dword ptr [rsi + 32]
+	setbe	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 36]
+	setbe	dl
+	vucomiss	xmm0, dword ptr [rsi + 40]
+	setbe	dil
+	vucomiss	xmm0, dword ptr [rsi + 44]
+	setbe	r10b
+	vucomiss	xmm0, dword ptr [rsi + 48]
+	setbe	r11b
+	vucomiss	xmm0, dword ptr [rsi + 52]
+	setbe	r12b
+	vucomiss	xmm0, dword ptr [rsi + 56]
+	setbe	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 60]
+	setbe	cl
+	vucomiss	xmm0, dword ptr [rsi + 64]
+	setbe	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 68]
+	setbe	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 72]
+	setbe	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 76]
+	setbe	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 80]
+	setbe	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 84]
+	setbe	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 88]
+	setbe	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 92]
+	setbe	r15b
+	vucomiss	xmm0, dword ptr [rsi + 96]
+	setbe	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 100]
+	setbe	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 104]
+	setbe	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 108]
+	setbe	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 112]
+	setbe	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 116]
+	setbe	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 120]
+	setbe	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rsi + 124]
+	setbe	r8b
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r9b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 120]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, dl
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r9d, edx
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	edi, edx
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	byte ptr [rdx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rdx + 1], cl
+	or	r15b, dil
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r8b, 7
+	or	r8b, bl
+	or	r8b, cl
+	mov	byte ptr [rdx + 2], r15b
+	mov	byte ptr [rdx + 3], r8b
+	add	rsi, 128
+	add	rdx, 4
+	mov	qword ptr [rsp + 272], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB10_78
+# %bb.79:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB10_119
+	jmp	.LBB10_175
+.LBB10_80:
+	mov	r14b, byte ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_84
+# %bb.81:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_82:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r14b
+	lea	rsi, [rsi + 1]
+	mov	edx, 0
+	adc	dl, -1
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r11 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_82
+# %bb.83:
+	add	r11, 1
+.LBB10_84:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB10_121
+# %bb.85:
+	cmp	r15, 32
+	mov	dword ptr [rsp + 28], r14d      # 4-byte Spill
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 368], r15      # 8-byte Spill
+	jb	.LBB10_88
+# %bb.86:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r11, rax
+	jae	.LBB10_185
+# %bb.87:
+	lea	rax, [r11 + 4*r15]
+	cmp	rsi, rax
+	jae	.LBB10_185
+.LBB10_88:
+	xor	eax, eax
+	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
+	mov	r12, rsi
+	mov	qword ptr [rsp + 360], r11      # 8-byte Spill
+.LBB10_89:
+	sub	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_90:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, r12
+	cmp	byte ptr [r12], r14b
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 1], r14b
+	setae	r8b
+	cmp	byte ptr [r12 + 2], r14b
+	setae	r15b
+	cmp	byte ptr [r12 + 3], r14b
+	setae	r13b
+	cmp	byte ptr [r12 + 4], r14b
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 5], r14b
+	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 6], r14b
+	setae	al
+	cmp	byte ptr [r12 + 7], r14b
+	setae	r11b
+	cmp	byte ptr [r12 + 8], r14b
+	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	byte ptr [r12 + 9], r14b
+	setae	dl
+	cmp	byte ptr [r12 + 10], r14b
+	setae	sil
+	cmp	byte ptr [r12 + 11], r14b
+	setae	dil
+	cmp	byte ptr [r12 + 12], r14b
+	setae	r10b
+	cmp	byte ptr [r12 + 13], r14b
+	setae	r12b
+	cmp	byte ptr [rcx + 14], r14b
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 15], r14b
+	setae	r9b
+	cmp	byte ptr [rcx + 16], r14b
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 17], r14b
+	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 18], r14b
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 19], r14b
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 20], r14b
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 21], r14b
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 22], r14b
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 23], r14b
+	setae	r14b
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 24], bl
+	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 25], bl
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 26], bl
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 27], bl
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 28], bl
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 29], bl
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 30], bl
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	byte ptr [rcx + 31], bl
+	setae	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r15b, 2
+	or	r15b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 320]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r15b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 288]        # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp + 360]      # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r14b, 7
+	or	r14b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r14b, dl
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 272]        # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	bl, 7
+	or	bl, dl
+	or	bl, al
+	mov	byte ptr [rsi + 2], r14b
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	byte ptr [rsi + 3], bl
+	lea	r12, [rcx + 32]
+	add	rsi, 4
+	mov	qword ptr [rsp + 360], rsi      # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB10_90
+# %bb.91:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 368]      # 8-byte Reload
+	jmp	.LBB10_122
+.LBB10_92:
+	mov	r13d, dword ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_96
+# %bb.93:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_94:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	setge	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r11 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r11 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_94
+# %bb.95:
+	add	r11, 1
+.LBB10_96:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB10_125
+# %bb.97:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_98:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	cmp	dword ptr [rsi], r13d
+	setge	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	setge	dil
+	cmp	dword ptr [rsi + 8], r13d
+	setge	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	setge	al
+	cmp	dword ptr [rsi + 28], r13d
+	setge	bl
+	cmp	dword ptr [rsi + 32], r13d
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	setge	dl
+	cmp	dword ptr [rsi + 40], r13d
+	setge	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	setge	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	setge	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	setge	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	setge	cl
+	cmp	dword ptr [rsi + 64], r13d
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	setge	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	setge	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r11], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r11 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r11 + 2], r15b
+	mov	byte ptr [r11 + 3], r8b
+	add	rsi, 128
+	add	r11, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB10_98
+# %bb.99:
+	mov	r14, r11
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	shl	r15, 5
+	cmp	r15, r10
+	jl	.LBB10_126
+	jmp	.LBB10_175
+.LBB10_100:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB10_175
+.LBB10_101:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB10_133
+# %bb.102:
+	xor	r11d, r11d
+	jmp	.LBB10_135
+.LBB10_103:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB10_175
+.LBB10_104:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB10_137
+# %bb.105:
+	xor	r11d, r11d
+	jmp	.LBB10_139
+.LBB10_106:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB10_175
+.LBB10_107:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB10_141
+# %bb.108:
+	xor	r11d, r11d
+	jmp	.LBB10_143
+.LBB10_109:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB10_175
+.LBB10_110:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB10_145
+# %bb.111:
+	xor	r11d, r11d
+	jmp	.LBB10_147
+.LBB10_112:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB10_175
+.LBB10_113:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB10_150
+# %bb.114:
+	xor	r11d, r11d
+	jmp	.LBB10_152
+.LBB10_115:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB10_175
+.LBB10_116:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB10_154
+# %bb.117:
+	xor	r11d, r11d
+	jmp	.LBB10_156
+.LBB10_118:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB10_175
+.LBB10_119:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB10_158
+# %bb.120:
+	xor	r11d, r11d
+	jmp	.LBB10_160
+.LBB10_121:
+	mov	qword ptr [rsp + 360], r11      # 8-byte Spill
+	mov	r12, rsi
+.LBB10_122:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB10_175
+# %bb.123:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB10_163
+# %bb.124:
+	xor	esi, esi
+	jmp	.LBB10_166
+.LBB10_125:
+	mov	r14, r11
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB10_175
+.LBB10_126:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB10_168
+# %bb.127:
+	xor	r11d, r11d
+	jmp	.LBB10_170
+.LBB10_128:
+	mov	r13, r11
+	sar	r15, 5
+	cmp	r10, 32
+	jge	.LBB10_31
+.LBB10_129:
+	mov	qword ptr [rsp + 360], r13      # 8-byte Spill
+	mov	r12, rsi
+.LBB10_130:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB10_175
+# %bb.131:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB10_176
+# %bb.132:
+	xor	esi, esi
+	jmp	.LBB10_179
+.LBB10_133:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB10_134:                             # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	mov	edi, 0
+	adc	dil, -1
+	mov	rdx, r11
+	shr	rdx, 3
+	movzx	r10d, byte ptr [r15 + rdx]
+	xor	dil, r10b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rdx], al
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rdx], bl
+	cmp	r9, r11
+	jne	.LBB10_134
+.LBB10_135:
+	test	r8b, 1
+	je	.LBB10_175
+# %bb.136:
+	xor	eax, eax
+	cmp	dword ptr [rsi], r13d
+	jmp	.LBB10_149
+.LBB10_137:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB10_138:                             # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rsi]
+	setbe	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	vucomisd	xmm0, qword ptr [rsi + 8]
+	setbe	al
+	add	rsi, 16
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB10_138
+.LBB10_139:
+	test	r8b, 1
+	je	.LBB10_175
+# %bb.140:
+	vucomisd	xmm0, qword ptr [rsi]
+	jmp	.LBB10_162
+.LBB10_141:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB10_142:                             # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	mov	edi, 0
+	adc	dil, -1
+	mov	rdx, r11
+	shr	rdx, 3
+	movzx	r10d, byte ptr [r15 + rdx]
+	xor	dil, r10b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rdx], al
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rdx], bl
+	cmp	r9, r11
+	jne	.LBB10_142
+.LBB10_143:
+	test	r8b, 1
+	je	.LBB10_175
+# %bb.144:
+	xor	eax, eax
+	cmp	qword ptr [rsi], r13
+	jmp	.LBB10_149
+.LBB10_145:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB10_146:                             # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	mov	edi, 0
+	adc	dil, -1
+	mov	rdx, r11
+	shr	rdx, 3
+	movzx	r10d, byte ptr [r15 + rdx]
+	xor	dil, r10b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rdx], al
+	add	r11, 2
+	cmp	word ptr [rsi + 2], r13w
+	lea	rsi, [rsi + 4]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rdx], bl
+	cmp	r9, r11
+	jne	.LBB10_146
+.LBB10_147:
+	test	r8b, 1
+	je	.LBB10_175
+# %bb.148:
+	xor	eax, eax
+	cmp	word ptr [rsi], r13w
+.LBB10_149:
+	adc	al, -1
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	jmp	.LBB10_174
+.LBB10_150:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB10_151:                             # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	setge	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	word ptr [rsi + 2], r13w
+	lea	rsi, [rsi + 4]
+	setge	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB10_151
+.LBB10_152:
+	test	r8b, 1
+	je	.LBB10_175
+# %bb.153:
+	cmp	word ptr [rsi], r13w
+	jmp	.LBB10_172
+.LBB10_154:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB10_155:                             # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	setge	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	setge	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB10_155
+.LBB10_156:
+	test	r8b, 1
+	je	.LBB10_175
+# %bb.157:
+	cmp	qword ptr [rsi], r13
+	jmp	.LBB10_172
+.LBB10_158:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB10_159:                             # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rsi]
+	setbe	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	vucomiss	xmm0, dword ptr [rsi + 4]
+	setbe	al
+	add	rsi, 8
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB10_159
+.LBB10_160:
+	test	r8b, 1
+	je	.LBB10_175
+# %bb.161:
+	vucomiss	xmm0, dword ptr [rsi]
+.LBB10_162:
+	setbe	al
+	jmp	.LBB10_173
+.LBB10_163:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, qword ptr [rsp + 360]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB10_164:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [r12 + rsi], r14b
+	mov	ebx, 0
+	adc	bl, -1
+	mov	rdi, rsi
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	mov	ecx, esi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	byte ptr [r12 + rsi + 1], r14b
+	lea	rsi, [rsi + 2]
+	mov	ebx, 0
+	adc	bl, -1
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB10_164
+# %bb.165:
+	add	r12, rsi
+.LBB10_166:
+	test	r8b, 1
+	je	.LBB10_175
+# %bb.167:
+	xor	eax, eax
+	cmp	byte ptr [r12], r14b
+	adc	al, -1
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 360]       # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	jmp	.LBB10_181
+.LBB10_168:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	mov	r15, r14
+	.p2align	4, 0x90
+.LBB10_169:                             # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	setge	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	setge	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r15 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB10_169
+.LBB10_170:
+	test	r8b, 1
+	je	.LBB10_175
+# %bb.171:
+	cmp	dword ptr [rsi], r13d
+.LBB10_172:
+	setge	al
+.LBB10_173:
+	neg	al
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+.LBB10_174:
+	xor	bl, sil
+	mov	byte ptr [r14 + rdx], bl
+.LBB10_175:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	vzeroupper
+	ret
+.LBB10_176:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, qword ptr [rsp + 360]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB10_177:                             # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [r12 + rsi], r14b
+	setge	bl
+	neg	bl
+	mov	rdi, rsi
+	shr	rdi, 3
+	mov	ecx, esi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	byte ptr [r12 + rsi + 1], r14b
+	lea	rsi, [rsi + 2]
+	setge	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB10_177
+# %bb.178:
+	add	r12, rsi
+.LBB10_179:
+	test	r8b, 1
+	je	.LBB10_175
+# %bb.180:
+	cmp	byte ptr [r12], r14b
+	setge	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 360]       # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+.LBB10_181:
+	xor	bl, dil
+	mov	byte ptr [r8 + rdx], bl
+	jmp	.LBB10_175
+.LBB10_182:
+	and	r15, -32
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 416], r15      # 8-byte Spill
+	lea	rax, [4*r15]
+	add	rax, r13
+	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 384], ymm0   # 32-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 272], r13      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_183:                             # =>This Inner Loop Header: Depth=1
+	mov	rbx, rax
+	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rsi + rax]
+	vmovd	xmm0, eax
+	movzx	eax, byte ptr [rsi + rbx]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rsi + rcx + 1]
+	mov	rdx, rcx
+	vmovd	xmm4, eax
+	mov	rcx, rbx
+	movzx	eax, byte ptr [rsi + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rsi + rdx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 576], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rdx + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rsi + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rsi + rdx + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rbx + 4]
+	vmovd	xmm15, eax
+	movzx	eax, byte ptr [rsi + rdx + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rsi + rbx + 5]
+	vmovd	xmm6, eax
+	movzx	eax, byte ptr [rsi + rdx + 6]
+	mov	qword ptr [rsp + 256], rdx      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rsi + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rsi + rdx + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rsi + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	or	rbx, 544
+	mov	qword ptr [rsp + 248], rbx      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 576
+	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 608
+	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
+	mov	r11, rcx
+	or	r11, 640
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 672
+	mov	r12, rax
+	mov	qword ptr [rsp + 176], rax      # 8-byte Spill
+	mov	rdi, rcx
+	or	rdi, 704
+	mov	qword ptr [rsp + 240], rdi      # 8-byte Spill
+	mov	rdx, rcx
+	or	rdx, 736
+	mov	qword ptr [rsp + 216], rdx      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 768
+	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
+	mov	r15, rcx
+	or	r15, 800
+	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
+	mov	r14, rcx
+	or	r14, 832
+	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
+	mov	r9, rcx
+	or	r9, 864
+	mov	qword ptr [rsp + 264], r9       # 8-byte Spill
+	mov	r8, rcx
+	or	r8, 896
+	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
+	mov	r10, rcx
+	or	r10, 928
+	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
+	mov	rax, rcx
+	mov	qword ptr [rsp + 232], rcx      # 8-byte Spill
+	or	rax, 960
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	or	rcx, 992
+	mov	qword ptr [rsp + 32], rcx       # 8-byte Spill
+	vpinsrb	xmm9, xmm0, byte ptr [rsi + rbx], 1
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + r13], 2
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 7
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 1
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 2
+	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 3
+	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 4
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 5
+	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 6
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 7
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 10
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 12
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 13
+	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 14
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 15
+	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 1
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 2
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 3
+	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 4
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 5
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 6
+	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 7
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 8
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 9
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 10
+	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 11
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 12
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 13
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 1], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + rbx + 1], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 6
+	mov	rbx, r8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 1], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 1], 14
+	vinserti128	ymm13, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 1], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm9, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 1280], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm10, edi
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vmovdqa	xmm0, xmmword ptr [rsp + 576]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 1
+	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 2
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 3
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 5
+	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 2], 6
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 7
+	mov	r12, r13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 8
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 9
+	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 10
+	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 11
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 2], 12
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 15
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 480]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 4
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 6
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 7
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 8
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 9
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 10
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 11
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 12
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rsi + rcx + 3], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 3
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 4
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 3], 6
+	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 3], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 3], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 3], 13
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 14
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
+	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 2
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 9
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 14
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 9]
+	vmovd	xmm8, edi
+	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 3], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 9]
+	vmovd	xmm11, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 448]   # 16-byte Reload
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 1
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 3
+	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 4
+	mov	rax, r10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 5
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 7
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 4], 8
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 9
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 11
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 12
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 4], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 15
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm15, byte ptr [rsi + rcx + 4], 1
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 4], 2
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 3
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 4
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 5
+	mov	rdi, r14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 6
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 7
+	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 4], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 9
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 10
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 11
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 12
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 4], 13
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 4], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 4], 15
+	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm4, xmm14, byte ptr [rsi + r14 + 5], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 2
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 6
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 7
+	mov	r15, rax
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 9
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 5], 11
+	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 13
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 5], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 15
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm6, byte ptr [rsi + rcx + 5], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 2
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 5], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 9
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 14
+	vinserti128	ymm14, ymm3, xmm0, 1
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + r12 + 5], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 10]
+	vmovd	xmm3, edi
+	vinserti128	ymm15, ymm0, xmm4, 1
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 10]
+	vmovd	xmm4, edi
+	mov	r11, r14
+	vpinsrb	xmm0, xmm12, byte ptr [rsi + r14 + 6], 1
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 6], 3
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 6], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 5
+	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 7
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 6], 8
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 6], 9
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 10
+	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 6], 11
+	mov	rax, r13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 12
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 15
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + rcx + 6], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 2
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 3
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 4
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 5
+	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 6], 6
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 6], 7
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 9
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 10
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 11
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 12
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 13
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 14
+	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 6], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 1
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 2
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 4
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 7], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 6
+	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 7], 7
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 7], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 7], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 7], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 7], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 7], 15
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 1
+	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 7], 2
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 6
+	mov	r8, r13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 7
+	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 10
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 7], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 13
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 7], 14
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 11]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 7], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 11]
+	vmovd	xmm2, edi
+	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + r15 + 8], 1
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 8], 2
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 8], 3
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 8], 5
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 8], 6
+	mov	r11, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 8], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 8], 8
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 9
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 10
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 8], 11
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 12
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 13
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 8], 15
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm10, byte ptr [rsi + rdx + 8], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 2
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 3
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 4
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 6
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 8
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 9
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 8], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 11
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 8], 12
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 13
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 8], 14
+	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r13 + 8], 15
+	vpinsrb	xmm6, xmm8, byte ptr [rsi + r15 + 9], 1
+	mov	r13, r15
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 2
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 3
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 4
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 6
+	mov	r9, rax
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 7
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 8
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 9
+	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 10
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 11
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r11 + 9], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rax + 9], 15
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm7, xmm11, byte ptr [rsi + rax + 9], 1
+	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 9], 2
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 4
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 9], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 9], 12
+	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1248], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm0, edi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm5, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 10], 1
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 4
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 6
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 7
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 10], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 10
+	mov	r9, qword ptr [rsp + 264]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 10], 12
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 15
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 10], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 2
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
+	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 10], 4
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 9
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 10], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 13
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 11], 1
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 4
+	mov	r13, rbx
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 11], 5
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 6
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 8
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 11], 9
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 11], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 11], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 11], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 11], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 11], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 11], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 9
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 11], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm3  # 32-byte Spill
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 11], 14
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 13]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm1  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 13]
+	vmovd	xmm1, edi
+	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 12], 1
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 12], 2
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 12], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 12], 4
+	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 12], 5
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 6
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 12], 7
+	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 12], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 9
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 12], 10
+	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 12], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 12], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 12], 15
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm5, byte ptr [rsi + rax + 12], 1
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 4
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 12], 9
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 12], 10
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 11
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 12
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 13
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 12], 14
+	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 15
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 1
+	mov	r15, r11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 13], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 3
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 13], 5
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 8
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 11
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 13], 12
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 13
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 15
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 2
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 3
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 4
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 13], 5
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 6
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 13], 7
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 13], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 13], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 11
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 13], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 13], 14
+	vinserti128	ymm0, ymm2, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + rax + 13], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 14]
+	vmovd	xmm1, edi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r13 + 14]
+	vmovd	xmm0, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 1
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 2
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 3
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
+	mov	r12, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 14], 6
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 8
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 14], 9
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 10
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 14], 14
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 15
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
+	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 14], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 5
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 9
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 14], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 14], 12
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 14], 13
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 15]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 1
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 3
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 4
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 6
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 7
+	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 9
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 10
+	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 15], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 12
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
+	movzx	edi, byte ptr [rsi + r13 + 15]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 1
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 15], 4
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 15], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 15], 6
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 15], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 13
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 15
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 16]
+	vmovd	xmm0, edi
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 16], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 3
+	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 4
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 16], 5
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 16], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 16], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 9
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 16], 15
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 16]
+	vmovd	xmm1, edi
+	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 16], 1
+	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 2
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 3
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 16], 5
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 6
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 7
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 8
+	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 9
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 12
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 14
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 15
+	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r13 + 17]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 1
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 2
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 17], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 5
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 17], 7
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 17], 8
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 9
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 12
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 17], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 17], 15
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 17]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 2
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 3
+	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 17], 4
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 6
+	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 17], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 17], 9
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 10
+	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 17], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rax + 17], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rsi + r13 + 18]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 1
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 3
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 5
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 18], 9
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 18], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 11
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 18], 12
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 18], 14
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 15
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 18]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 1
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 2
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 4
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 5
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 18], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 8
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 18], 9
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 18], 11
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 12
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 18], 13
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 18], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 15
+	movzx	edi, byte ptr [rsi + r13 + 19]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 1
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 2
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 3
+	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 19], 4
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 5
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 6
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 7
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 9
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 10
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 15
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 19]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 1
+	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 2
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 3
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 4
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 5
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 19], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 19], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 19], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 19], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	mov	r11, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r11 + 20]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 1
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 20], 4
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 5
+	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 20], 6
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 7
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 8
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 9
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 10
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 12
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 15
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 20]
+	vmovd	xmm1, edi
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 2
+	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 3
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 6
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 7
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 8
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 9
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 12
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 13
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 15
+	movzx	edi, byte ptr [rsi + r11 + 21]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
+	mov	r11, rdx
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 21], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 21], 7
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 21], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 21], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 15
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 21]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 21], 4
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 21], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 6
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 7
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 9
+	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 11
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 12
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rbx + 21], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 22]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 4
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 22], 6
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 7
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 8
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 9
+	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 10
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 11
+	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 12
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 22]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 1
+	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 22], 2
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 3
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 7
+	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 22], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 22], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 22], 12
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 22], 15
+	movzx	edi, byte ptr [rsi + rcx + 23]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 1
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 3
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 6
+	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 7
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 23], 10
+	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 23], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 23], 15
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 23]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 23], 2
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 3
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 23], 4
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 5
+	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 23], 6
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 23], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 9
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 23], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 13
+	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 23], 14
+	mov	r11, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 15
+	vinserti128	ymm10, ymm1, xmm0, 1
+	vinserti128	ymm11, ymm3, xmm2, 1
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 24]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 2
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 3
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 4
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 5
+	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 24], 7
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 8
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 9
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 24], 11
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 12
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 14
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 24], 15
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 24]
+	vmovd	xmm1, edi
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 1
+	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 24], 6
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 7
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 11
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 24], 12
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 25]
+	vmovd	xmm2, edi
+	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 1
+	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 25], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 3
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 4
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 6
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 7
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 25], 9
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 10
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 11
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 12
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 25], 14
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 15
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 25]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 2
+	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 3
+	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 4
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 6
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 9
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 10
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 13
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rcx + 25], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 26]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 2
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 3
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 5
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 6
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 26], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 10
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 26], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 12
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 13
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 15
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 26]
+	vmovd	xmm1, edi
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 1
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 26], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 4
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 5
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 6
+	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 7
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 26], 8
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 9
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 26], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 12
+	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 26], 13
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 15
+	movzx	edi, byte ptr [rsi + rcx + 27]
+	vmovd	xmm2, edi
+	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 27], 1
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 2
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 27], 3
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 4
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 27], 5
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 6
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 7
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 8
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 27], 9
+	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 27], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 27], 15
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 27]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 1
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 2
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 3
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 4
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 5
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 10
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 11
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 27], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 13
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 27], 14
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 28]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 1
+	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 28], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 3
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 5
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 6
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 7
+	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 8
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 10
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 28], 11
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 12
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 28], 13
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 15
+	movzx	edi, byte ptr [rsi + rax + 28]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 1
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 2
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 3
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 5
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 28], 6
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 7
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 9
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 28], 10
+	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 12
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 28], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 14
+	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 29]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 2
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 4
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 5
+	mov	r12, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 29], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 29], 8
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 9
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 29], 11
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 29], 13
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 15
+	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r15 + 29]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 2
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 3
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 29], 4
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 6
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 29], 7
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 29], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 29], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 11
+	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 29], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm3, byte ptr [rsi + rax + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	vpinsrb	xmm0, xmm4, byte ptr [rsi + r13 + 29], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 30]
+	vmovd	xmm0, edi
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 1
+	movzx	edi, byte ptr [rsi + rax + 31]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 1
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 31], 6
+	mov	r13, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 31], 10
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 31], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
+	movzx	eax, byte ptr [rsi + r15 + 30]
+	vmovd	xmm1, eax
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
+	movzx	eax, byte ptr [rsi + r15 + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 2
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 31], 4
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 31], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 9
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 12
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vmovdqa	ymm2, ymmword ptr [rsp + 384]   # 32-byte Reload
+	vpcmpgtb	ymm0, ymm2, ymm13
+	vpcmpgtb	ymm7, ymm2, ymmword ptr [rsp + 1280] # 32-byte Folded Reload
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI10_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	vpandn	ymm7, ymm7, ymm5
+	vpaddb	ymm0, ymm7, ymm0
+	vpcmpgtb	ymm7, ymm2, ymmword ptr [rsp + 576] # 32-byte Folded Reload
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI10_1] # ymm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpandn	ymm7, ymm7, ymm6
+	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 480] # 32-byte Folded Reload
+	vmovdqa	ymm3, ymmword ptr [rip + .LCPI10_2] # ymm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpandn	ymm12, ymm12, ymm3
+	vpor	ymm7, ymm12, ymm7
+	vpcmpgtb	ymm12, ymm2, ymm14
+	vmovdqa	ymm8, ymmword ptr [rip + .LCPI10_3] # ymm8 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpandn	ymm12, ymm12, ymm8
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqd	ymm1, ymm1, ymm1
+	vpsubb	ymm0, ymm0, ymm1
+	vpcmpeqd	ymm4, ymm4, ymm4
+	vpor	ymm0, ymm0, ymm7
+	vpcmpgtb	ymm7, ymm2, ymm15
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI10_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpandn	ymm7, ymm7, ymm1
+	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 448] # 32-byte Folded Reload
+	vmovdqa	ymm13, ymmword ptr [rip + .LCPI10_5] # ymm13 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpandn	ymm12, ymm12, ymm13
+	vpor	ymm7, ymm12, ymm7
+	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 544] # 32-byte Folded Reload
+	vmovdqa	ymm9, ymmword ptr [rip + .LCPI10_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpandn	ymm12, ymm12, ymm9
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm0, ymm0, ymm7
+	vpcmpgtb	ymm7, ymm2, ymmword ptr [rsp + 1248] # 32-byte Folded Reload
+	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm5
+	vpaddb	ymm7, ymm12, ymm7
+	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm6
+	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm3
+	vpor	ymm12, ymm12, ymm15
+	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm8
+	vpor	ymm12, ymm12, ymm15
+	vpsubb	ymm7, ymm7, ymm4
+	vpor	ymm7, ymm12, ymm7
+	vpcmpgtb	ymm12, ymm2, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
+	vpandn	ymm12, ymm12, ymm1
+	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm13
+	vpor	ymm12, ymm12, ymm15
+	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm9
+	vpor	ymm12, ymm12, ymm15
+	vpor	ymm12, ymm12, ymm7
+	vpcmpgtb	ymm7, ymm2, ymmword ptr [rsp + 992] # 32-byte Folded Reload
+	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 960] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm5
+	vpaddb	ymm7, ymm15, ymm7
+	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 896] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm6
+	vpcmpgtb	ymm14, ymm2, ymmword ptr [rsp + 928] # 32-byte Folded Reload
+	vpandn	ymm14, ymm14, ymm3
+	vpor	ymm14, ymm15, ymm14
+	vpcmpgtb	ymm15, ymm2, ymmword ptr [rsp + 832] # 32-byte Folded Reload
+	vpandn	ymm15, ymm15, ymm8
+	vpor	ymm14, ymm14, ymm15
+	vpsubb	ymm7, ymm7, ymm4
+	vpor	ymm7, ymm14, ymm7
+	vpcmpgtb	ymm14, ymm2, ymmword ptr [rsp + 864] # 32-byte Folded Reload
+	vpandn	ymm14, ymm14, ymm1
+	vpcmpgtb	ymm10, ymm2, ymm10
+	vpandn	ymm10, ymm10, ymm13
+	vpor	ymm10, ymm14, ymm10
+	vpcmpgtb	ymm11, ymm2, ymm11
+	vmovdqa	ymm14, ymm9
+	vpandn	ymm11, ymm11, ymm9
+	vpor	ymm10, ymm10, ymm11
+	vpor	ymm7, ymm10, ymm7
+	vpcmpgtb	ymm9, ymm2, ymmword ptr [rsp + 640] # 32-byte Folded Reload
+	vpcmpgtb	ymm8, ymm2, ymmword ptr [rsp + 672] # 32-byte Folded Reload
+	vpandn	ymm8, ymm8, ymm5
+	vpaddb	ymm8, ymm8, ymm9
+	vpcmpgtb	ymm5, ymm2, ymmword ptr [rsp + 704] # 32-byte Folded Reload
+	vpandn	ymm5, ymm5, ymm6
+	vpcmpgtb	ymm6, ymm2, ymmword ptr [rsp + 736] # 32-byte Folded Reload
+	vpandn	ymm6, ymm6, ymm3
+	vpor	ymm5, ymm5, ymm6
+	vpcmpgtb	ymm3, ymm2, ymmword ptr [rsp + 768] # 32-byte Folded Reload
+	vpandn	ymm3, ymm3, ymmword ptr [rip + .LCPI10_3]
+	vpor	ymm3, ymm5, ymm3
+	vpsubb	ymm5, ymm8, ymm4
+	vpor	ymm3, ymm5, ymm3
+	vpcmpgtb	ymm4, ymm2, ymmword ptr [rsp + 800] # 32-byte Folded Reload
+	vpandn	ymm4, ymm4, ymm1
+	vpcmpgtb	ymm1, ymm2, ymmword ptr [rsp + 320] # 32-byte Folded Reload
+	vpandn	ymm1, ymm1, ymm13
+	vpor	ymm1, ymm4, ymm1
+	vpcmpgtb	ymm2, ymm2, ymmword ptr [rsp + 288] # 32-byte Folded Reload
+	vpandn	ymm2, ymm2, ymm14
+	vpor	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm3, ymm1
+	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r13 + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [r13 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r13 + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [r13 + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 416]      # 8-byte Folded Reload
+	jne	.LBB10_183
+# %bb.184:
+	mov	r15, qword ptr [rsp + 608]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 416]      # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	r12, qword ptr [rsp + 368]      # 8-byte Reload
+	jne	.LBB10_35
+	jmp	.LBB10_130
+.LBB10_185:
+	and	r15, -32
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 536], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 384], r15      # 8-byte Spill
+	lea	rax, [r11 + 4*r15]
+	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 272], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_186:                             # =>This Inner Loop Header: Depth=1
+	mov	rbx, rax
+	mov	qword ptr [rsp + 376], rax      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rsi + rax]
+	mov	rdx, rcx
+	vmovd	xmm0, eax
+	mov	rcx, rbx
+	movzx	eax, byte ptr [rsi + rbx]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rsi + rdx + 1]
+	vmovd	xmm4, eax
+	movzx	eax, byte ptr [rsi + rbx + 1]
+	vmovd	xmm5, eax
+	movzx	eax, byte ptr [rsi + rdx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rdx + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rsi + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rsi + rdx + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 544], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + rbx + 4]
+	vmovd	xmm15, eax
+	movzx	eax, byte ptr [rsi + rdx + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rsi + rbx + 5]
+	vmovd	xmm13, eax
+	movzx	eax, byte ptr [rsi + rdx + 6]
+	mov	qword ptr [rsp + 264], rdx      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rsi + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rsi + rdx + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rsi + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	r13, rbx
+	or	r13, 544
+	mov	rax, rbx
+	or	rax, 576
+	mov	r12, rax
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	r14, rbx
+	or	r14, 608
+	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
+	or	rbx, 640
+	mov	qword ptr [rsp + 240], rbx      # 8-byte Spill
+	mov	r9, rcx
+	or	r9, 672
+	mov	qword ptr [rsp + 136], r9       # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 704
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 736
+	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
+	mov	r11, rcx
+	or	r11, 768
+	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
+	mov	rdi, rcx
+	or	rdi, 800
+	mov	qword ptr [rsp + 88], rdi       # 8-byte Spill
+	mov	r10, rcx
+	or	r10, 832
+	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
+	mov	r8, rcx
+	or	r8, 864
+	mov	qword ptr [rsp + 168], r8       # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 896
+	mov	r15, rax
+	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
+	mov	rdx, rcx
+	or	rdx, 928
+	mov	qword ptr [rsp + 40], rdx       # 8-byte Spill
+	mov	rax, rcx
+	mov	qword ptr [rsp + 256], rcx      # 8-byte Spill
+	or	rax, 960
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	or	rcx, 992
+	mov	qword ptr [rsp + 216], rcx      # 8-byte Spill
+	mov	qword ptr [rsp + 248], r13      # 8-byte Spill
+	vpinsrb	xmm9, xmm0, byte ptr [rsi + r13], 1
+	vpinsrb	xmm0, xmm9, byte ptr [rsi + r12], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9], 5
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 6
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx], 15
+	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8], 1
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10], 2
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 4
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9], 5
+	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14], 6
+	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15], 7
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi], 8
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax], 9
+	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11], 10
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 11
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx], 12
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 13
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12], 14
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx], 15
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymm10, ymmword ptr [rsp + 608]  # 32-byte Reload
+	vpmaxub	ymm3, ymm10, ymm0
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 1
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 2
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 3
+	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 1], 4
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 5
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 6
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 7
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 8
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 9
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 10
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 11
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 12
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 13
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 14
+	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 1], 15
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 1], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r10 + 1], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 1], 3
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 1], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 1], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 1], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 1], 7
+	mov	r14, r15
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 1], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 1], 10
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 11
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 1], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 1], 13
+	mov	rbx, rax
+	vpcmpeqb	ymm0, ymm0, ymm3
+	vmovdqa	ymmword ptr [rsp + 1280], ymm0  # 32-byte Spill
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + r12 + 1], 14
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm9, edi
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 1], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 8]
+	vmovd	xmm6, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 480]   # 16-byte Reload
+	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 2], 1
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 2
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 2], 4
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 2], 5
+	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 2], 6
+	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 2], 7
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 8
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 9
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 10
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 11
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 2], 13
+	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 2], 14
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 2], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 448]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 2], 1
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 2
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 4
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 5
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 2], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 2], 7
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 2], 8
+	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 2], 9
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 10
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 11
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 2], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 13
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 14
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rsi + r15 + 3], 1
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 2
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 3], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r8 + 3], 7
+	mov	r15, r8
+	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 3], 8
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 9
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 3], 10
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 11
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 12
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 3], 13
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 3], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 3], 15
+	vpinsrb	xmm5, xmm8, byte ptr [rsi + rax + 3], 1
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 3], 2
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 3], 6
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 3], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r12 + 3], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 10
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 11
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 3], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 3], 14
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rax + 3], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 9]
+	vmovd	xmm8, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 9]
+	vmovd	xmm11, edi
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vmovdqa	xmm0, xmmword ptr [rsp + 544]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 4], 1
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 4], 2
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 4], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 4
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 5
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 4], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 7
+	mov	r12, r13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 8
+	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 4], 9
+	mov	r10, r11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 10
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 4], 11
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 4], 12
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 4], 13
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 14
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 4], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm15, byte ptr [rsi + rax + 4], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 2
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 4
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 4], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 6
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 7
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 8
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 10
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 11
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 4], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 14
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 4], 15
+	vpinsrb	xmm4, xmm14, byte ptr [rsi + rcx + 5], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 5], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 4
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rcx + 5], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 5], 6
+	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r9 + 5], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r12 + 5], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 5], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 5], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rbx + 5], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r15 + 5], 13
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 5], 14
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r10 + 5], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm13, byte ptr [rsi + rax + 5], 1
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 5], 2
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 5], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 5], 5
+	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 5], 6
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 5], 7
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 8
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 9
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 10
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 11
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 5], 12
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdx + 5], 13
+	vinserti128	ymm14, ymm3, xmm0, 1
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rsi + rdx + 5], 14
+	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 10]
+	vmovd	xmm3, edi
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 5], 15
+	vinserti128	ymm15, ymm0, xmm4, 1
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 10]
+	vmovd	xmm4, edi
+	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm12, byte ptr [rsi + r12 + 6], 1
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 6], 2
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 3
+	mov	rdx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 6], 4
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 6], 5
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 6], 7
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 8
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 9
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 10
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 11
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 13
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 6], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 6], 15
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + rdi + 6], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 2
+	mov	r10, r14
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 3
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 6], 4
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 7
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r8 + 6], 8
+	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r14 + 6], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 10
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 6], 11
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 6], 12
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 6], 13
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rcx + 6], 14
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r15 + 6], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 7], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 7], 2
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 7], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 5
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 6
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 7
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 8
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 7], 9
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 10
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 11
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 12
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 13
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 14
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 7], 15
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 1
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 7], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 7], 4
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 5
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 6
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 7], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 7], 9
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 7], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 7], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 7], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 7], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 7], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 7], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 11]
+	vmovd	xmm0, edi
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1248], ymm1  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 11]
+	vmovd	xmm1, edi
+	vpinsrb	xmm2, xmm9, byte ptr [rsi + r12 + 8], 1
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 2
+	mov	r8, r13
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 8], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 4
+	mov	r13, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 8], 5
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 6
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 8], 7
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 8], 9
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 10
+	mov	rdx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 8], 11
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 8], 12
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 8], 13
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 8], 14
+	mov	r15, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 8], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm6, byte ptr [rsi + rax + 8], 1
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 2
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 4
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r9 + 8], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 6
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rdi + 8], 7
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 8
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rax + 8], 9
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 10
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 11
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 12
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 13
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + rbx + 8], 14
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rsi + r11 + 8], 15
+	vinserti128	ymm2, ymm5, xmm2, 1
+	vpmaxub	ymm5, ymm10, ymm2
+	vpinsrb	xmm6, xmm8, byte ptr [rsi + r12 + 9], 1
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 2
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r8 + 9], 3
+	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 4
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r13 + 9], 5
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 6
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 7
+	mov	r12, r10
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 8
+	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r10 + 9], 9
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rbx + 9], 10
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rdx + 9], 11
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r14 + 9], 12
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 13
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + rcx + 9], 14
+	vpinsrb	xmm6, xmm6, byte ptr [rsi + r15 + 9], 15
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm7, xmm11, byte ptr [rsi + rcx + 9], 1
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r11 + 9], 2
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 3
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r9 + 9], 5
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdx + 9], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rdi + 9], 7
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rcx + 9], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 9
+	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 9], 10
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 11
+	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 9], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 9], 14
+	vpcmpeqb	ymm2, ymm2, ymm5
+	vmovdqa	ymmword ptr [rsp + 1216], ymm2  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rsi + rax + 9], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm2, edi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 12]
+	vmovd	xmm5, edi
+	mov	r15, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 10], 1
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 10], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 3
+	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 10], 4
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 5
+	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 10], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 7
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 10], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 9
+	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 10], 10
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 11
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 13
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 10], 14
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 10], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 2
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdi + 10], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 6
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r11 + 10], 7
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rax + 10], 8
+	mov	rdx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 10
+	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r14 + 10], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 10], 12
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 13
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + rdx + 10], 14
+	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rsi + r13 + 10], 15
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 11], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 11], 2
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 11], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 11], 4
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 11], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 11], 6
+	mov	rbx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 11], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 8
+	mov	r9, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 11], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 11], 10
+	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 11], 11
+	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 11], 12
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 13
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 11], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 11], 15
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 1
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 11], 3
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 4
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 5
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 11], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 11], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 8
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 11], 11
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm3  # 32-byte Spill
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 11], 14
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 13]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 11], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 13]
+	vmovd	xmm0, edi
+	mov	r12, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm2, byte ptr [rsi + r12 + 12], 1
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 2
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 12], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 12], 4
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 5
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 12], 7
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 12], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 12], 9
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 12], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 12], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 12], 13
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 12], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 12], 15
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm5, byte ptr [rsi + r10 + 12], 1
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 12], 2
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 3
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 12], 4
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 5
+	mov	r15, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 12], 6
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 7
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 8
+	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 12], 9
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 10
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 11
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 12
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 13
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 12], 14
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 12], 15
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 1
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 13], 4
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 5
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 13], 6
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 13], 8
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 9
+	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 13], 10
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 11
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 13], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 13], 14
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 13], 15
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 13], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 13], 2
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 13], 4
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 13], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 13], 6
+	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 13], 7
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 13], 9
+	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 13], 10
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 11
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 13], 14
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm1  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 13], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 14]
+	vmovd	xmm1, edi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 14]
+	vmovd	xmm0, edi
+	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 14], 1
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 14], 2
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 14], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 4
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 14], 6
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 14], 8
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 14], 10
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 14], 13
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 14], 14
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 14], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 1
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 2
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 14], 5
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 14], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 14], 7
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 8
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 14], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 14], 10
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 11
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 12
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 13
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 14
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 14], 15
+	mov	r15, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r15 + 15]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 15], 3
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 4
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 15], 5
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 6
+	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 15], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 15], 8
+	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 15], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 10
+	mov	r14, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 15], 11
+	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 15], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 15], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 15], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 15], 15
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rbx + 15]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 1
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 15], 2
+	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 15], 3
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 15], 4
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 6
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 15], 7
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 10
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 11
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 15], 12
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 13
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 14
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 15], 15
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rsi + r15 + 16]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 1
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 2
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 3
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 16], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 16], 5
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 7
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 9
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 16], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 16], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 16], 13
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 16], 14
+	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 16], 15
+	movzx	edi, byte ptr [rsi + rbx + 16]
+	vmovd	xmm1, edi
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 16], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 4
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 16], 5
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 16], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 7
+	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 16], 8
+	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 16], 9
+	mov	r10, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 16], 10
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 16], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 16], 14
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 16], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 17]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 1
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 2
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 4
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 5
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 17], 6
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 7
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 8
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 9
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 17], 11
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 17], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 17], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 17], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 17]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 17], 1
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 2
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 3
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 17], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 5
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 17], 6
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 17], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 17], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 17], 11
+	mov	r12, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 17], 12
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 13
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vpinsrb	xmm1, xmm3, byte ptr [rsi + r9 + 17], 15
+	vpmaxub	ymm3, ymm10, ymm0
+	vpcmpeqb	ymm0, ymm0, ymm3
+	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
+	vinserti128	ymm0, ymm1, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rsi + rax + 18]
+	vmovd	xmm0, edi
+	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 18], 1
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 2
+	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 18], 3
+	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 18], 4
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 6
+	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 18], 7
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 18], 8
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 9
+	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 18], 10
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 18], 11
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 12
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 13
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 14
+	mov	rdx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 18], 15
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 18]
+	vmovd	xmm1, edi
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 1
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 2
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 3
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 18], 4
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 18], 6
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 7
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 8
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 9
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 10
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 18], 12
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 18], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 14
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 18], 15
+	movzx	edi, byte ptr [rsi + rax + 19]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 1
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 19], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 19], 4
+	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 19], 5
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 19], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 19], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 19], 8
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 19], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 19], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 19], 11
+	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 19], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 19], 13
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 14
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 19], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 19]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 1
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 19], 2
+	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 19], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 4
+	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 19], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 19], 6
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 19], 7
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 8
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 19], 9
+	mov	rdx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 10
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 11
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 12
+	mov	rdx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 13
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 19], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + r9 + 19], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	mov	rdx, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 20]
+	vmovd	xmm0, edi
+	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 1
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 20], 2
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 3
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 20], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 20], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 6
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 7
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 9
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 10
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 20], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 20], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 13
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 20], 14
+	mov	rbx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 20], 15
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 20]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 1
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 20], 3
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 20], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 20], 6
+	mov	r10, r13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 20], 7
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 20], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 9
+	mov	r15, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 20], 10
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 11
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 12
+	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 20], 13
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 20], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 20], 15
+	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r14 + 21]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 2
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 21], 3
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 4
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 5
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 21], 6
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 21], 7
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 21], 8
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 9
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 10
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 11
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 21], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 21], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 21], 15
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rbx + 21]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 21], 1
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 2
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 3
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 4
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 6
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 21], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 8
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 21], 10
+	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 21], 11
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 21], 13
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 21], 14
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 21], 15
+	vinserti128	ymm11, ymm1, xmm0, 1
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rsi + r14 + 22]
+	vmovd	xmm0, edi
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 1
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 2
+	mov	r15, rdx
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 3
+	mov	r14, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 22], 4
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 22], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 22], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 22], 8
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 9
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 10
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 11
+	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r12 + 22], 12
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 22], 13
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 22], 14
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 22], 15
+	movzx	edi, byte ptr [rsi + rbx + 22]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 1
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 22], 2
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 22], 3
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 22], 4
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 5
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 6
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 7
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 8
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 9
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 22], 11
+	mov	rbx, r10
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 12
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 22], 14
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 22], 15
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 23]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 1
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 23], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 23], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 5
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 6
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 23], 7
+	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 23], 8
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 23], 9
+	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 23], 10
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 23], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r12 + 23], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 23], 14
+	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 23], 15
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rcx + 23]
+	vmovd	xmm3, edi
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 6
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 23], 7
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 8
+	mov	r11, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 23], 9
+	mov	r12, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 23], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 23], 11
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 12
+	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r8 + 23], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 23], 14
+	vinserti128	ymm9, ymm1, xmm0, 1
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rsi + rbx + 23], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 24]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 1
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 24], 2
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 3
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 4
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 5
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 6
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 24], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 24], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 24], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 24], 11
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 13
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 24], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 24], 15
+	movzx	edi, byte ptr [rsi + rcx + 24]
+	vmovd	xmm1, edi
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 24], 1
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 24], 2
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 24], 3
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 4
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 24], 5
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 24], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 7
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 24], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 10
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 24], 11
+	mov	rdx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 24], 13
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdx + 24], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 24], 15
+	mov	r8, qword ptr [rsp + 264]       # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r8 + 25]
+	vmovd	xmm2, edi
+	mov	rdx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 2
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r14 + 25], 3
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 25], 4
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 25], 5
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rbx + 25], 6
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 7
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 8
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 9
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 10
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 11
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 25], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 13
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 14
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 25], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 25]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 25], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 25], 3
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 25], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 6
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 7
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 25], 8
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 9
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 25], 11
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 25], 12
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdi + 25], 13
+	vinserti128	ymm0, ymm1, xmm0, 1
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm3, byte ptr [rsi + r10 + 25], 14
+	vpmaxub	ymm3, ymm10, ymm0
+	vpcmpeqb	ymm0, ymm0, ymm3
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rsi + rdi + 25], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rsi + r8 + 26]
+	vmovd	xmm0, edi
+	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 26], 1
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r14 + 26], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rbx + 26], 6
+	mov	rdx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 7
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 8
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 9
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 10
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r11 + 26], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 26], 12
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 13
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 26], 14
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 26], 15
+	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r14 + 26]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 1
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 26], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 4
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 26], 5
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 6
+	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 26], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 8
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 26], 9
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 26], 10
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 26], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 26], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 26], 14
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 26], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 27]
+	vmovd	xmm2, edi
+	mov	r10, r8
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 1
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 27], 2
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 3
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 4
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 5
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 6
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 7
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 8
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 9
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r11 + 27], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 27], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 27], 14
+	mov	r13, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r13 + 27], 15
+	movzx	edi, byte ptr [rsi + r14 + 27]
+	vmovd	xmm3, edi
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 27], 1
+	mov	rdx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 2
+	mov	rdx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 3
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 27], 5
+	mov	rdx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 27], 7
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rdx + 27], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 10
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 11
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r11 + 27], 12
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rbx + 27], 13
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rcx + 27], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r9 + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rsi + rax + 28]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 2
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 3
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 28], 4
+	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 28], 5
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 6
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 28], 7
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 8
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 28], 9
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdx + 28], 10
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r10 + 28], 11
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 12
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r15 + 28], 13
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rdi + 28], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r13 + 28], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdi + 28]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 1
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 2
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 28], 3
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 28], 4
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 5
+	mov	r12, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 28], 6
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 7
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 8
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 28], 10
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rdi + 28], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 28], 13
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 28], 14
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r11 + 28], 15
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rax + 29]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 1
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 2
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdi + 29], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 5
+	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r8 + 29], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 7
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 8
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rdx + 29], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r10 + 29], 11
+	mov	r9, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r9 + 29], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + r15 + 29], 13
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rcx + 29], 14
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rsi + rax + 29], 15
+	mov	rdx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + rdx + 29]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 1
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r15 + 29], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 6
+	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r12 + 29], 7
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 8
+	mov	r14, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r14 + 29], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 10
+	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r10 + 29], 11
+	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + r13 + 29], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rsi + rax + 29], 13
+	vpinsrb	xmm4, xmm3, byte ptr [rsi + rbx + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	vpinsrb	xmm0, xmm4, byte ptr [rsi + r11 + 29], 15
+	mov	rbx, r11
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
+	movzx	edi, byte ptr [rsi + r11 + 30]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 1
+	movzx	edi, byte ptr [rsi + r11 + 31]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 1
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 2
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 3
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 4
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r8 + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 31], 6
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 7
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 8
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 9
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 10
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + r9 + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r9 + 31], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 31], 13
+	mov	rax, rcx
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rcx + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rcx + 31], 14
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rsi + rax + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rsi + rax + 31], 15
+	movzx	eax, byte ptr [rsi + rdx + 30]
+	vmovd	xmm1, eax
+	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r8 + 30], 1
+	movzx	eax, byte ptr [rsi + rdx + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r8 + 31], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r15 + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r15 + 31], 2
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 3
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 5
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r12 + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r12 + 31], 7
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r14 + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r14 + 31], 9
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r10 + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r10 + 31], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + r13 + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + r13 + 31], 12
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rax + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rax + 31], 14
+	mov	rax, rbx
+	vpinsrb	xmm1, xmm1, byte ptr [rsi + rbx + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rsi + rbx + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vmovdqa	ymm2, ymm10
+	vmovdqa	ymm1, ymmword ptr [rsp + 576]   # 32-byte Reload
+	vpmaxub	ymm0, ymm10, ymm1
+	vpcmpeqb	ymm0, ymm1, ymm0
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI10_0] # ymm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	vpand	ymm0, ymm0, ymm6
+	vpsubb	ymm0, ymm0, ymmword ptr [rsp + 1280] # 32-byte Folded Reload
+	vmovdqa	ymm1, ymmword ptr [rsp + 480]   # 32-byte Reload
+	vpmaxub	ymm7, ymm10, ymm1
+	vpcmpeqb	ymm7, ymm1, ymm7
+	vmovdqa	ymm1, ymmword ptr [rsp + 448]   # 32-byte Reload
+	vpmaxub	ymm12, ymm10, ymm1
+	vpcmpeqb	ymm12, ymm12, ymm1
+	vmovdqa	ymm8, ymmword ptr [rip + .LCPI10_1] # ymm8 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpand	ymm7, ymm8, ymm7
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI10_2] # ymm4 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpand	ymm12, ymm12, ymm4
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm0, ymm0, ymm7
+	vpmaxub	ymm7, ymm14, ymm10
+	vpcmpeqb	ymm7, ymm14, ymm7
+	vpmaxub	ymm12, ymm15, ymm10
+	vpcmpeqb	ymm12, ymm15, ymm12
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI10_3] # ymm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpand	ymm7, ymm7, ymm5
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI10_4] # ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpand	ymm12, ymm12, ymm1
+	vpor	ymm7, ymm12, ymm7
+	vmovdqa	ymm14, ymmword ptr [rsp + 544]  # 32-byte Reload
+	vpmaxub	ymm12, ymm14, ymm10
+	vpcmpeqb	ymm12, ymm14, ymm12
+	vmovdqa	ymm3, ymmword ptr [rip + .LCPI10_5] # ymm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpand	ymm12, ymm12, ymm3
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm0, ymm0, ymm7
+	vmovdqa	ymm12, ymmword ptr [rsp + 1248] # 32-byte Reload
+	vpmaxub	ymm7, ymm12, ymm10
+	vpcmpeqb	ymm7, ymm12, ymm7
+	vmovdqa	ymm13, ymmword ptr [rip + .LCPI10_6] # ymm13 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpand	ymm7, ymm13, ymm7
+	vpor	ymm10, ymm0, ymm7
+	vmovdqa	ymm12, ymmword ptr [rsp + 1184] # 32-byte Reload
+	vpmaxub	ymm7, ymm12, ymm2
+	vpcmpeqb	ymm7, ymm12, ymm7
+	vpand	ymm7, ymm7, ymm6
+	vpsubb	ymm7, ymm7, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
+	vmovdqa	ymm14, ymmword ptr [rsp + 1152] # 32-byte Reload
+	vpmaxub	ymm12, ymm14, ymm2
+	vpcmpeqb	ymm12, ymm14, ymm12
+	vmovdqa	ymm14, ymmword ptr [rsp + 1120] # 32-byte Reload
+	vpmaxub	ymm15, ymm14, ymm2
+	vpcmpeqb	ymm15, ymm14, ymm15
+	vpand	ymm12, ymm12, ymm8
+	vpand	ymm15, ymm15, ymm4
+	vpor	ymm12, ymm12, ymm15
+	vpor	ymm7, ymm12, ymm7
+	vmovdqa	ymm14, ymmword ptr [rsp + 1088] # 32-byte Reload
+	vpmaxub	ymm12, ymm14, ymm2
+	vpcmpeqb	ymm12, ymm14, ymm12
+	vmovdqa	ymm14, ymmword ptr [rsp + 1056] # 32-byte Reload
+	vpmaxub	ymm15, ymm14, ymm2
+	vpcmpeqb	ymm15, ymm14, ymm15
+	vpand	ymm12, ymm12, ymm5
+	vpand	ymm15, ymm15, ymm1
+	vpor	ymm12, ymm12, ymm15
+	vmovdqa	ymm14, ymmword ptr [rsp + 960]  # 32-byte Reload
+	vpmaxub	ymm15, ymm14, ymm2
+	vpcmpeqb	ymm15, ymm14, ymm15
+	vpand	ymm15, ymm15, ymm3
+	vpor	ymm12, ymm12, ymm15
+	vpor	ymm7, ymm12, ymm7
+	vmovdqa	ymm14, ymmword ptr [rsp + 992]  # 32-byte Reload
+	vpmaxub	ymm12, ymm14, ymm2
+	vpcmpeqb	ymm12, ymm14, ymm12
+	vpand	ymm12, ymm12, ymm13
+	vpor	ymm12, ymm12, ymm7
+	vmovdqa	ymm14, ymmword ptr [rsp + 928]  # 32-byte Reload
+	vpmaxub	ymm7, ymm14, ymm2
+	vpcmpeqb	ymm7, ymm14, ymm7
+	vpand	ymm7, ymm7, ymm6
+	vpsubb	ymm7, ymm7, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
+	vmovdqa	ymm0, ymmword ptr [rsp + 864]   # 32-byte Reload
+	vpmaxub	ymm15, ymm0, ymm2
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vmovdqa	ymm0, ymmword ptr [rsp + 896]   # 32-byte Reload
+	vpmaxub	ymm14, ymm0, ymm2
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vpand	ymm15, ymm15, ymm8
+	vpand	ymm14, ymm14, ymm4
+	vpor	ymm14, ymm15, ymm14
+	vpor	ymm7, ymm14, ymm7
+	vpmaxub	ymm14, ymm11, ymm2
+	vpcmpeqb	ymm11, ymm11, ymm14
+	vmovdqa	ymm0, ymmword ptr [rsp + 832]   # 32-byte Reload
+	vpmaxub	ymm14, ymm0, ymm2
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vmovdqa	ymm15, ymm5
+	vpand	ymm11, ymm11, ymm5
+	vpand	ymm14, ymm14, ymm1
+	vpor	ymm11, ymm11, ymm14
+	vpmaxub	ymm14, ymm9, ymm2
+	vpcmpeqb	ymm9, ymm9, ymm14
+	vmovdqa	ymm14, ymm3
+	vpand	ymm9, ymm9, ymm3
+	vpor	ymm9, ymm11, ymm9
+	vpor	ymm7, ymm9, ymm7
+	vmovdqa	ymm0, ymmword ptr [rsp + 800]   # 32-byte Reload
+	vpmaxub	ymm9, ymm0, ymm2
+	vpcmpeqb	ymm9, ymm9, ymm0
+	vpand	ymm9, ymm9, ymm13
+	vpor	ymm7, ymm9, ymm7
+	vmovdqa	ymm0, ymmword ptr [rsp + 416]   # 32-byte Reload
+	vpmaxub	ymm9, ymm0, ymm2
+	vpcmpeqb	ymm8, ymm9, ymm0
+	vpand	ymm8, ymm8, ymm6
+	vpsubb	ymm8, ymm8, ymmword ptr [rsp + 768] # 32-byte Folded Reload
+	vmovdqa	ymm0, ymmword ptr [rsp + 640]   # 32-byte Reload
+	vpmaxub	ymm9, ymm0, ymm2
+	vpcmpeqb	ymm5, ymm9, ymm0
+	vmovdqa	ymm0, ymmword ptr [rsp + 672]   # 32-byte Reload
+	vpmaxub	ymm9, ymm0, ymm2
+	vpcmpeqb	ymm6, ymm9, ymm0
+	vpand	ymm5, ymm5, ymmword ptr [rip + .LCPI10_1]
+	vpand	ymm6, ymm6, ymm4
+	vpor	ymm5, ymm5, ymm6
+	vpor	ymm5, ymm8, ymm5
+	vmovdqa	ymm0, ymmword ptr [rsp + 736]   # 32-byte Reload
+	vpmaxub	ymm6, ymm0, ymm2
+	vpcmpeqb	ymm3, ymm0, ymm6
+	vmovdqa	ymm0, ymmword ptr [rsp + 704]   # 32-byte Reload
+	vpmaxub	ymm6, ymm0, ymm2
+	vpcmpeqb	ymm4, ymm0, ymm6
+	vpand	ymm3, ymm15, ymm3
+	vpand	ymm4, ymm4, ymm1
+	vpor	ymm3, ymm3, ymm4
+	vmovdqa	ymm0, ymmword ptr [rsp + 320]   # 32-byte Reload
+	vpmaxub	ymm4, ymm0, ymm2
+	vpcmpeqb	ymm1, ymm0, ymm4
+	vpand	ymm1, ymm14, ymm1
+	vpor	ymm1, ymm3, ymm1
+	vpor	ymm1, ymm5, ymm1
+	vmovdqa	ymm0, ymmword ptr [rsp + 288]   # 32-byte Reload
+	vpmaxub	ymm3, ymm0, ymm2
+	vpcmpeqb	ymm2, ymm0, ymm3
+	vpand	ymm2, ymm13, ymm2
+	vpor	ymm1, ymm1, ymm2
+	vpunpcklbw	ymm2, ymm10, ymm12      # ymm2 = ymm10[0],ymm12[0],ymm10[1],ymm12[1],ymm10[2],ymm12[2],ymm10[3],ymm12[3],ymm10[4],ymm12[4],ymm10[5],ymm12[5],ymm10[6],ymm12[6],ymm10[7],ymm12[7],ymm10[16],ymm12[16],ymm10[17],ymm12[17],ymm10[18],ymm12[18],ymm10[19],ymm12[19],ymm10[20],ymm12[20],ymm10[21],ymm12[21],ymm10[22],ymm12[22],ymm10[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm10, ymm12      # ymm0 = ymm10[8],ymm12[8],ymm10[9],ymm12[9],ymm10[10],ymm12[10],ymm10[11],ymm12[11],ymm10[12],ymm12[12],ymm10[13],ymm12[13],ymm10[14],ymm12[14],ymm10[15],ymm12[15],ymm10[24],ymm12[24],ymm10[25],ymm12[25],ymm10[26],ymm12[26],ymm10[27],ymm12[27],ymm10[28],ymm12[28],ymm10[29],ymm12[29],ymm10[30],ymm12[30],ymm10[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r11 + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [r11 + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	jne	.LBB10_186
+# %bb.187:
+	mov	r15, qword ptr [rsp + 368]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	r12, qword ptr [rsp + 536]      # 8-byte Reload
+	jne	.LBB10_89
+	jmp	.LBB10_122
+.Lfunc_end10:
+	.size	comparison_greater_equal_arr_scalar_avx2, .Lfunc_end10-comparison_greater_equal_arr_scalar_avx2
+                                        # -- End function
+	.section	.rodata.cst32,"aM",@progbits,32
+	.p2align	5                               # -- Begin function comparison_greater_equal_scalar_arr_avx2
+.LCPI11_0:
+	.zero	32,2
+.LCPI11_1:
+	.zero	32,4
+.LCPI11_2:
+	.zero	32,8
+.LCPI11_3:
+	.zero	32,16
+.LCPI11_4:
+	.zero	32,32
+.LCPI11_5:
+	.zero	32,64
+.LCPI11_6:
+	.zero	32,128
+.LCPI11_7:
+	.zero	32,255
+	.text
+	.globl	comparison_greater_equal_scalar_arr_avx2
+	.p2align	4, 0x90
+	.type	comparison_greater_equal_scalar_arr_avx2,@function
+comparison_greater_equal_scalar_arr_avx2: # @comparison_greater_equal_scalar_arr_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -32
+	sub	rsp, 1280
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r10, r8
+	mov	r15, rcx
+	cmp	edi, 6
+	jg	.LBB11_26
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB11_2
+# %bb.10:
+	cmp	edi, 4
+	je	.LBB11_99
+# %bb.11:
+	cmp	edi, 5
+	je	.LBB11_114
+# %bb.12:
+	cmp	edi, 6
+	jne	.LBB11_185
+# %bb.13:
+	mov	r14d, dword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_17
+# %bb.14:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_15:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14d, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	mov	esi, 0
+	adc	sil, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r15 + rbx]
+	xor	sil, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, sil
+	xor	dil, r8b
+	mov	byte ptr [r15 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_15
+# %bb.16:
+	add	r15, 1
+.LBB11_17:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB11_21
+# %bb.18:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_19:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	cmp	r14d, dword ptr [rdx + 124]
+	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 120]
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 116]
+	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 112]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 108]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 104]
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 100]
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 92]
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 88]
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 84]
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 80]
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 76]
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 72]
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 68]
+	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 60]
+	setae	r8b
+	cmp	r14d, dword ptr [rdx + 56]
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 52]
+	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 48]
+	setae	r11b
+	cmp	r14d, dword ptr [rdx + 44]
+	setae	r10b
+	cmp	r14d, dword ptr [rdx + 40]
+	setae	r9b
+	cmp	r14d, dword ptr [rdx + 36]
+	setae	dil
+	cmp	r14d, dword ptr [rdx + 28]
+	setae	al
+	cmp	r14d, dword ptr [rdx + 24]
+	setae	bl
+	cmp	r14d, dword ptr [rdx + 20]
+	setae	sil
+	cmp	r14d, dword ptr [rdx + 16]
+	setae	cl
+	cmp	r14d, dword ptr [rdx + 12]
+	setae	r13b
+	cmp	r14d, dword ptr [rdx + 8]
+	setae	r12b
+	cmp	r14d, dword ptr [rdx]
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 4]
+	setae	r15b
+	cmp	r14d, dword ptr [rdx + 32]
+	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 64]
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 96]
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	sub	rdx, -128
+	add	r15, 4
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB11_19
+# %bb.20:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB11_21:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB11_185
+# %bb.22:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB11_130
+# %bb.23:
+	xor	r11d, r11d
+	jmp	.LBB11_24
+.LBB11_26:
+	cmp	edi, 8
+	jle	.LBB11_27
+# %bb.42:
+	cmp	edi, 9
+	je	.LBB11_149
+# %bb.43:
+	cmp	edi, 11
+	je	.LBB11_164
+# %bb.44:
+	cmp	edi, 12
+	jne	.LBB11_185
+# %bb.45:
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB11_49
+# %bb.46:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_47:                              # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	mov	esi, 0
+	adc	sil, -1
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	xor	sil, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, sil
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_47
+# %bb.48:
+	add	r15, 1
+.LBB11_49:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB11_53
+# %bb.50:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_51:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	vucomisd	xmm0, qword ptr [rdx]
+	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 8]
+	setae	r9b
+	vucomisd	xmm0, qword ptr [rdx + 16]
+	setae	r11b
+	vucomisd	xmm0, qword ptr [rdx + 24]
+	setae	r13b
+	vucomisd	xmm0, qword ptr [rdx + 32]
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 40]
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 48]
+	setae	bl
+	vucomisd	xmm0, qword ptr [rdx + 56]
+	setae	r12b
+	vucomisd	xmm0, qword ptr [rdx + 64]
+	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 72]
+	setae	sil
+	vucomisd	xmm0, qword ptr [rdx + 80]
+	setae	dil
+	vucomisd	xmm0, qword ptr [rdx + 88]
+	setae	r8b
+	vucomisd	xmm0, qword ptr [rdx + 96]
+	setae	r10b
+	vucomisd	xmm0, qword ptr [rdx + 104]
+	setae	r15b
+	vucomisd	xmm0, qword ptr [rdx + 112]
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 120]
+	setae	cl
+	vucomisd	xmm0, qword ptr [rdx + 128]
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 136]
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 144]
+	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 152]
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 160]
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 168]
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 176]
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 184]
+	setae	r14b
+	vucomisd	xmm0, qword ptr [rdx + 192]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 200]
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 208]
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 216]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 224]
+	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 232]
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 240]
+	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	vucomisd	xmm0, qword ptr [rdx + 248]
+	setae	al
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 168]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r12b, 7
+	or	r12b, bl
+	shl	r11b, 2
+	or	r11b, r9b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r11b
+	shl	dil, 2
+	or	dil, sil
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r13b
+	mov	esi, ebx
+	shl	r8b, 3
+	or	r8b, dil
+	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	shl	r10b, 4
+	or	r10b, r8b
+	shl	r15b, 5
+	or	r15b, r10b
+	movzx	esi, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r12b, bl
+	or	cl, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	bl, bl
+	add	bl, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	mov	byte ptr [r15], r12b
+	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r14b, 7
+	or	r14b, sil
+	mov	byte ptr [r15 + 1], cl
+	or	r14b, bl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], r14b
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 256
+	add	r15, 4
+	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
+	jne	.LBB11_51
+# %bb.52:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+.LBB11_53:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB11_185
+# %bb.54:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB11_179
+# %bb.55:
+	xor	r11d, r11d
+	jmp	.LBB11_181
+.LBB11_2:
+	cmp	edi, 2
+	je	.LBB11_56
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB11_185
+# %bb.4:
+	mov	r11b, byte ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_8
+# %bb.5:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_6:                               # =>This Inner Loop Header: Depth=1
+	cmp	r11b, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setge	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_6
+# %bb.7:
+	add	r15, 1
+.LBB11_8:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB11_9
+# %bb.81:
+	cmp	r14, 32
+	mov	dword ptr [rsp + 28], r11d      # 4-byte Spill
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
+	jb	.LBB11_82
+# %bb.83:
+	mov	rax, r14
+	shl	rax, 5
+	add	rax, rdx
+	cmp	r15, rax
+	jae	.LBB11_85
+# %bb.84:
+	lea	rax, [r15 + 4*r14]
+	cmp	rdx, rax
+	jae	.LBB11_85
+.LBB11_82:
+	xor	eax, eax
+	mov	qword ptr [rsp + 416], rax      # 8-byte Spill
+	mov	r13, r15
+.LBB11_88:
+	sub	r14, qword ptr [rsp + 416]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_89:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11b, byte ptr [rdx + 31]
+	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 30]
+	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 29]
+	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 28]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 27]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 26]
+	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 25]
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 23]
+	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 22]
+	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 21]
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 20]
+	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 19]
+	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 18]
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 17]
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 15]
+	setge	r14b
+	cmp	r11b, byte ptr [rdx + 14]
+	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 13]
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdx + 12]
+	setge	r12b
+	cmp	r11b, byte ptr [rdx + 11]
+	setge	r15b
+	cmp	r11b, byte ptr [rdx + 10]
+	setge	r11b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 9]
+	setge	r10b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 7]
+	setge	dil
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 6]
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 5]
+	setge	r9b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 4]
+	setge	r8b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 3]
+	setge	sil
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 2]
+	setge	cl
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx]
+	setge	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdx + 1]
+	setge	al
+	mov	rbx, r13
+	mov	r13d, dword ptr [rsp + 28]      # 4-byte Reload
+	cmp	r13b, byte ptr [rdx + 8]
+	mov	r13, rbx
+	setge	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	bl, byte ptr [rdx + 16]
+	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	bl, byte ptr [rdx + 24]
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	add	al, al
+	add	al, byte ptr [rsp + 152]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	shl	sil, 3
+	or	sil, cl
+	shl	r8b, 4
+	or	r8b, sil
+	shl	r9b, 5
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, r9b
+	mov	byte ptr [r13], dil
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 168]      # 1-byte Folded Reload
+	shl	r11b, 2
+	or	r11b, r10b
+	shl	r15b, 3
+	or	r15b, r11b
+	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
+	shl	r12b, 4
+	or	r12b, r15b
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r12b
+	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r14b, 7
+	or	r14b, cl
+	or	r14b, al
+	mov	byte ptr [r13 + 1], r14b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r13 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 272]       # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r13 + 3], al
+	add	rdx, 32
+	add	r13, 4
+	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
+	jne	.LBB11_89
+# %bb.90:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
+	jmp	.LBB11_91
+.LBB11_27:
+	cmp	edi, 7
+	je	.LBB11_132
+# %bb.28:
+	cmp	edi, 8
+	jne	.LBB11_185
+# %bb.29:
+	mov	r14, qword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_33
+# %bb.30:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_31:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	mov	esi, 0
+	adc	sil, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r15 + rbx]
+	xor	sil, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, sil
+	xor	dil, r8b
+	mov	byte ptr [r15 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_31
+# %bb.32:
+	add	r15, 1
+.LBB11_33:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB11_37
+# %bb.34:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_35:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	cmp	r14, qword ptr [rdx + 248]
+	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 240]
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 232]
+	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 224]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 216]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 208]
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 200]
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 184]
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 176]
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 168]
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 160]
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 152]
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 144]
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 136]
+	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 120]
+	setae	r8b
+	cmp	r14, qword ptr [rdx + 112]
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 104]
+	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 96]
+	setae	r11b
+	cmp	r14, qword ptr [rdx + 88]
+	setae	r10b
+	cmp	r14, qword ptr [rdx + 80]
+	setae	r9b
+	cmp	r14, qword ptr [rdx + 72]
+	setae	dil
+	cmp	r14, qword ptr [rdx + 56]
+	setae	al
+	cmp	r14, qword ptr [rdx + 48]
+	setae	bl
+	cmp	r14, qword ptr [rdx + 40]
+	setae	sil
+	cmp	r14, qword ptr [rdx + 32]
+	setae	cl
+	cmp	r14, qword ptr [rdx + 24]
+	setae	r13b
+	cmp	r14, qword ptr [rdx + 16]
+	setae	r12b
+	cmp	r14, qword ptr [rdx]
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 8]
+	setae	r15b
+	cmp	r14, qword ptr [rdx + 64]
+	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 128]
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 192]
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 256
+	add	r15, 4
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB11_35
+# %bb.36:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB11_37:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB11_185
+# %bb.38:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB11_147
+# %bb.39:
+	xor	r11d, r11d
+	jmp	.LBB11_40
+.LBB11_99:
+	movzx	r14d, word ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_103
+# %bb.100:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_101:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14w, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	mov	esi, 0
+	adc	sil, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r15 + rbx]
+	xor	sil, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, sil
+	xor	dil, r8b
+	mov	byte ptr [r15 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_101
+# %bb.102:
+	add	r15, 1
+.LBB11_103:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB11_107
+# %bb.104:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_105:                             # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	cmp	r14w, word ptr [rdx + 62]
+	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 60]
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 58]
+	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 56]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 54]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 52]
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 50]
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 46]
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 44]
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 42]
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 40]
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 38]
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 36]
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 34]
+	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 30]
+	setae	r8b
+	cmp	r14w, word ptr [rdx + 28]
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 26]
+	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 24]
+	setae	r11b
+	cmp	r14w, word ptr [rdx + 22]
+	setae	r10b
+	cmp	r14w, word ptr [rdx + 20]
+	setae	r9b
+	cmp	r14w, word ptr [rdx + 18]
+	setae	dil
+	cmp	r14w, word ptr [rdx + 14]
+	setae	al
+	cmp	r14w, word ptr [rdx + 12]
+	setae	bl
+	cmp	r14w, word ptr [rdx + 10]
+	setae	sil
+	cmp	r14w, word ptr [rdx + 8]
+	setae	cl
+	cmp	r14w, word ptr [rdx + 6]
+	setae	r13b
+	cmp	r14w, word ptr [rdx + 4]
+	setae	r12b
+	cmp	r14w, word ptr [rdx]
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 2]
+	setae	r15b
+	cmp	r14w, word ptr [rdx + 16]
+	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 32]
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 48]
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 64
+	add	r15, 4
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB11_105
+# %bb.106:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB11_107:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB11_185
+# %bb.108:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB11_112
+# %bb.109:
+	xor	r11d, r11d
+	jmp	.LBB11_110
+.LBB11_114:
+	movzx	r14d, word ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_118
+# %bb.115:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_116:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14w, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setge	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r15 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_116
+# %bb.117:
+	add	r15, 1
+.LBB11_118:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB11_122
+# %bb.119:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_120:                             # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	cmp	r14w, word ptr [rdx + 62]
+	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 60]
+	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 58]
+	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 56]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 54]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 52]
+	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 50]
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 46]
+	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 44]
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 42]
+	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 40]
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 38]
+	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 36]
+	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 34]
+	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 30]
+	setge	r8b
+	cmp	r14w, word ptr [rdx + 28]
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 26]
+	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 24]
+	setge	r11b
+	cmp	r14w, word ptr [rdx + 22]
+	setge	r10b
+	cmp	r14w, word ptr [rdx + 20]
+	setge	r9b
+	cmp	r14w, word ptr [rdx + 18]
+	setge	dil
+	cmp	r14w, word ptr [rdx + 14]
+	setge	al
+	cmp	r14w, word ptr [rdx + 12]
+	setge	bl
+	cmp	r14w, word ptr [rdx + 10]
+	setge	sil
+	cmp	r14w, word ptr [rdx + 8]
+	setge	cl
+	cmp	r14w, word ptr [rdx + 6]
+	setge	r13b
+	cmp	r14w, word ptr [rdx + 4]
+	setge	r12b
+	cmp	r14w, word ptr [rdx]
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 2]
+	setge	r15b
+	cmp	r14w, word ptr [rdx + 16]
+	setge	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 32]
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 48]
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 64
+	add	r15, 4
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB11_120
+# %bb.121:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB11_122:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB11_185
+# %bb.123:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB11_128
+# %bb.124:
+	xor	edi, edi
+	jmp	.LBB11_125
+.LBB11_149:
+	mov	r14, qword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_153
+# %bb.150:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_151:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setge	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r15 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_151
+# %bb.152:
+	add	r15, 1
+.LBB11_153:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB11_157
+# %bb.154:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_155:                             # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	cmp	r14, qword ptr [rdx + 248]
+	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 240]
+	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 232]
+	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 224]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 216]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 208]
+	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 200]
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 184]
+	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 176]
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 168]
+	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 160]
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 152]
+	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 144]
+	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 136]
+	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 120]
+	setge	r8b
+	cmp	r14, qword ptr [rdx + 112]
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 104]
+	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 96]
+	setge	r11b
+	cmp	r14, qword ptr [rdx + 88]
+	setge	r10b
+	cmp	r14, qword ptr [rdx + 80]
+	setge	r9b
+	cmp	r14, qword ptr [rdx + 72]
+	setge	dil
+	cmp	r14, qword ptr [rdx + 56]
+	setge	al
+	cmp	r14, qword ptr [rdx + 48]
+	setge	bl
+	cmp	r14, qword ptr [rdx + 40]
+	setge	sil
+	cmp	r14, qword ptr [rdx + 32]
+	setge	cl
+	cmp	r14, qword ptr [rdx + 24]
+	setge	r13b
+	cmp	r14, qword ptr [rdx + 16]
+	setge	r12b
+	cmp	r14, qword ptr [rdx]
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 8]
+	setge	r15b
+	cmp	r14, qword ptr [rdx + 64]
+	setge	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 128]
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 192]
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 256
+	add	r15, 4
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB11_155
+# %bb.156:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB11_157:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB11_185
+# %bb.158:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB11_162
+# %bb.159:
+	xor	edi, edi
+	jmp	.LBB11_160
+.LBB11_164:
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	vmovss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB11_168
+# %bb.165:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_166:                             # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	mov	esi, 0
+	adc	sil, -1
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	xor	sil, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, sil
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_166
+# %bb.167:
+	add	r15, 1
+.LBB11_168:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB11_172
+# %bb.169:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_170:                             # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	vucomiss	xmm0, dword ptr [rdx]
+	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 4]
+	setae	r9b
+	vucomiss	xmm0, dword ptr [rdx + 8]
+	setae	r11b
+	vucomiss	xmm0, dword ptr [rdx + 12]
+	setae	r13b
+	vucomiss	xmm0, dword ptr [rdx + 16]
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 20]
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 24]
+	setae	bl
+	vucomiss	xmm0, dword ptr [rdx + 28]
+	setae	r12b
+	vucomiss	xmm0, dword ptr [rdx + 32]
+	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 36]
+	setae	sil
+	vucomiss	xmm0, dword ptr [rdx + 40]
+	setae	dil
+	vucomiss	xmm0, dword ptr [rdx + 44]
+	setae	r8b
+	vucomiss	xmm0, dword ptr [rdx + 48]
+	setae	r10b
+	vucomiss	xmm0, dword ptr [rdx + 52]
+	setae	r15b
+	vucomiss	xmm0, dword ptr [rdx + 56]
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 60]
+	setae	cl
+	vucomiss	xmm0, dword ptr [rdx + 64]
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 68]
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 72]
+	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 76]
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 80]
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 84]
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 88]
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 92]
+	setae	r14b
+	vucomiss	xmm0, dword ptr [rdx + 96]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 100]
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 104]
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 108]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 112]
+	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 116]
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 120]
+	setae	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	vucomiss	xmm0, dword ptr [rdx + 124]
+	setae	al
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 168]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r12b, 7
+	or	r12b, bl
+	shl	r11b, 2
+	or	r11b, r9b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r11b
+	shl	dil, 2
+	or	dil, sil
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r13b
+	mov	esi, ebx
+	shl	r8b, 3
+	or	r8b, dil
+	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	shl	r10b, 4
+	or	r10b, r8b
+	shl	r15b, 5
+	or	r15b, r10b
+	movzx	esi, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r12b, bl
+	or	cl, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	bl, bl
+	add	bl, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	mov	byte ptr [r15], r12b
+	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r14b, 7
+	or	r14b, sil
+	mov	byte ptr [r15 + 1], cl
+	or	r14b, bl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], r14b
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 128
+	add	r15, 4
+	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
+	jne	.LBB11_170
+# %bb.171:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+.LBB11_172:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB11_185
+# %bb.173:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB11_177
+# %bb.174:
+	xor	r11d, r11d
+	jmp	.LBB11_175
+.LBB11_56:
+	mov	r11b, byte ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_60
+# %bb.57:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_58:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11b, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	mov	esi, 0
+	adc	sil, -1
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	xor	sil, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, sil
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_58
+# %bb.59:
+	add	r15, 1
+.LBB11_60:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB11_61
+# %bb.62:
+	cmp	r14, 32
+	mov	dword ptr [rsp + 28], r11d      # 4-byte Spill
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
+	jb	.LBB11_63
+# %bb.64:
+	mov	rax, r14
+	shl	rax, 5
+	add	rax, rdx
+	cmp	r15, rax
+	jae	.LBB11_66
+# %bb.65:
+	lea	rax, [r15 + 4*r14]
+	cmp	rdx, rax
+	jae	.LBB11_66
+.LBB11_63:
+	xor	eax, eax
+	mov	qword ptr [rsp + 384], rax      # 8-byte Spill
+	mov	rdi, rdx
+	mov	r13, r15
+.LBB11_69:
+	sub	r14, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_70:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11b, byte ptr [rdi + 31]
+	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 30]
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 29]
+	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 28]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 27]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 26]
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 25]
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 23]
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 22]
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 21]
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 20]
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 19]
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 18]
+	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 17]
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 15]
+	setae	r14b
+	cmp	r11b, byte ptr [rdi + 14]
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 13]
+	setae	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rdi + 12]
+	setae	r12b
+	cmp	r11b, byte ptr [rdi + 11]
+	setae	r15b
+	cmp	r11b, byte ptr [rdi + 10]
+	setae	r11b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdi + 9]
+	setae	r10b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdi + 7]
+	setae	sil
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdi + 6]
+	setae	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdi + 5]
+	setae	r9b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdi + 4]
+	setae	r8b
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdi + 3]
+	setae	dl
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdi + 2]
+	setae	cl
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdi]
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	al, byte ptr [rdi + 1]
+	setae	al
+	mov	rbx, r13
+	mov	r13d, dword ptr [rsp + 28]      # 4-byte Reload
+	cmp	r13b, byte ptr [rdi + 8]
+	mov	r13, rbx
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	bl, byte ptr [rdi + 16]
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 28]       # 4-byte Reload
+	cmp	bl, byte ptr [rdi + 24]
+	setae	bl
+	add	al, al
+	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	shl	dl, 3
+	or	dl, cl
+	shl	r8b, 4
+	or	r8b, dl
+	shl	r9b, 5
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 168]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	sil, 7
+	or	sil, al
+	or	sil, r9b
+	mov	byte ptr [r13], sil
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 128]      # 1-byte Folded Reload
+	shl	r11b, 2
+	or	r11b, r10b
+	shl	r15b, 3
+	or	r15b, r11b
+	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
+	shl	r12b, 4
+	or	r12b, r15b
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r12b
+	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r14b, 7
+	or	r14b, cl
+	or	r14b, al
+	mov	byte ptr [r13 + 1], r14b
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r13 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	or	al, bl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 272]       # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r13 + 3], al
+	add	rdi, 32
+	add	r13, 4
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB11_70
+# %bb.71:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
+	jmp	.LBB11_72
+.LBB11_132:
+	mov	r14d, dword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_136
+# %bb.133:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_134:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14d, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setge	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r15 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_134
+# %bb.135:
+	add	r15, 1
+.LBB11_136:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB11_140
+# %bb.137:
+	mov	qword ptr [rsp + 280], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_138:                             # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	cmp	r14d, dword ptr [rdx + 124]
+	setge	byte ptr [rsp + 28]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 120]
+	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 116]
+	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 112]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 108]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 104]
+	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 100]
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 92]
+	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 88]
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 84]
+	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 80]
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 76]
+	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 72]
+	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 68]
+	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 60]
+	setge	r8b
+	cmp	r14d, dword ptr [rdx + 56]
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 52]
+	setge	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 48]
+	setge	r11b
+	cmp	r14d, dword ptr [rdx + 44]
+	setge	r10b
+	cmp	r14d, dword ptr [rdx + 40]
+	setge	r9b
+	cmp	r14d, dword ptr [rdx + 36]
+	setge	dil
+	cmp	r14d, dword ptr [rdx + 28]
+	setge	al
+	cmp	r14d, dword ptr [rdx + 24]
+	setge	bl
+	cmp	r14d, dword ptr [rdx + 20]
+	setge	sil
+	cmp	r14d, dword ptr [rdx + 16]
+	setge	cl
+	cmp	r14d, dword ptr [rdx + 12]
+	setge	r13b
+	cmp	r14d, dword ptr [rdx + 8]
+	setge	r12b
+	cmp	r14d, dword ptr [rdx]
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 4]
+	setge	r15b
+	cmp	r14d, dword ptr [rdx + 32]
+	setge	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 64]
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 96]
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 160]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 168]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 28]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	sub	rdx, -128
+	add	r15, 4
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB11_138
+# %bb.139:
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB11_140:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB11_185
+# %bb.141:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB11_145
+# %bb.142:
+	xor	edi, edi
+	jmp	.LBB11_143
+.LBB11_9:
+	mov	r13, r15
+.LBB11_91:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB11_185
+# %bb.92:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB11_94
+# %bb.93:
+	xor	esi, esi
+	jmp	.LBB11_97
+.LBB11_61:
+	mov	r13, r15
+	mov	rdi, rdx
+.LBB11_72:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB11_185
+# %bb.73:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB11_75
+# %bb.74:
+	xor	r9d, r9d
+	jmp	.LBB11_78
+.LBB11_130:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB11_131:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14d, dword ptr [rdx]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r15 + rsi]
+	xor	dil, r10b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rsi], al
+	add	r11, 2
+	cmp	r14d, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rsi], bl
+	cmp	r9, r11
+	jne	.LBB11_131
+.LBB11_24:
+	test	r8b, 1
+	je	.LBB11_185
+# %bb.25:
+	xor	eax, eax
+	cmp	r14d, dword ptr [rdx]
+	jmp	.LBB11_183
+.LBB11_179:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB11_180:                             # =>This Inner Loop Header: Depth=1
+	vucomisd	xmm0, qword ptr [rdx]
+	mov	eax, 0
+	adc	al, -1
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	r11, 2
+	vucomisd	xmm0, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, r11
+	jne	.LBB11_180
+.LBB11_181:
+	test	r8b, 1
+	je	.LBB11_185
+# %bb.182:
+	xor	eax, eax
+	vucomisd	xmm0, qword ptr [rdx]
+	jmp	.LBB11_183
+.LBB11_147:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB11_148:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14, qword ptr [rdx]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r15 + rsi]
+	xor	dil, r10b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rsi], al
+	add	r11, 2
+	cmp	r14, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rsi], bl
+	cmp	r9, r11
+	jne	.LBB11_148
+.LBB11_40:
+	test	r8b, 1
+	je	.LBB11_185
+# %bb.41:
+	xor	eax, eax
+	cmp	r14, qword ptr [rdx]
+	jmp	.LBB11_183
+.LBB11_112:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB11_113:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14w, word ptr [rdx]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r15 + rsi]
+	xor	dil, r10b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rsi], al
+	add	r11, 2
+	cmp	r14w, word ptr [rdx + 2]
+	lea	rdx, [rdx + 4]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rsi], bl
+	cmp	r9, r11
+	jne	.LBB11_113
+.LBB11_110:
+	test	r8b, 1
+	je	.LBB11_185
+# %bb.111:
+	xor	eax, eax
+	cmp	r14w, word ptr [rdx]
+	jmp	.LBB11_183
+.LBB11_128:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB11_129:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14w, word ptr [rdx]
+	setge	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	rdi, 2
+	cmp	r14w, word ptr [rdx + 2]
+	lea	rdx, [rdx + 4]
+	setge	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB11_129
+.LBB11_125:
+	test	r8b, 1
+	je	.LBB11_185
+# %bb.126:
+	cmp	r14w, word ptr [rdx]
+	jmp	.LBB11_127
+.LBB11_162:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB11_163:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14, qword ptr [rdx]
+	setge	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	rdi, 2
+	cmp	r14, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	setge	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB11_163
+.LBB11_160:
+	test	r8b, 1
+	je	.LBB11_185
+# %bb.161:
+	cmp	r14, qword ptr [rdx]
+	jmp	.LBB11_127
+.LBB11_177:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB11_178:                             # =>This Inner Loop Header: Depth=1
+	vucomiss	xmm0, dword ptr [rdx]
+	mov	eax, 0
+	adc	al, -1
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	r11, 2
+	vucomiss	xmm0, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, r11
+	jne	.LBB11_178
+.LBB11_175:
+	test	r8b, 1
+	je	.LBB11_185
+# %bb.176:
+	xor	eax, eax
+	vucomiss	xmm0, dword ptr [rdx]
+.LBB11_183:
+	adc	al, -1
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r15 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	jmp	.LBB11_184
+.LBB11_145:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB11_146:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14d, dword ptr [rdx]
+	setge	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	rdi, 2
+	cmp	r14d, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	setge	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB11_146
+.LBB11_143:
+	test	r8b, 1
+	je	.LBB11_185
+# %bb.144:
+	cmp	r14d, dword ptr [rdx]
+.LBB11_127:
+	setge	al
+	neg	al
+	mov	rdx, rdi
+	shr	rdx, 3
+	mov	sil, byte ptr [r15 + rdx]
+	and	dil, 7
+	mov	bl, 1
+	mov	ecx, edi
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+.LBB11_184:
+	xor	bl, sil
+	mov	byte ptr [r15 + rdx], bl
+.LBB11_185:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	vzeroupper
+	ret
+.LBB11_94:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	.p2align	4, 0x90
+.LBB11_95:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11b, byte ptr [rdx + rsi]
+	setge	al
+	neg	al
+	mov	rdi, rsi
+	shr	rdi, 3
+	mov	ecx, esi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	movzx	r9d, byte ptr [r13 + rdi]
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r13 + rdi], bl
+	cmp	r11b, byte ptr [rdx + rsi + 1]
+	lea	rsi, [rsi + 2]
+	setge	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r13 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB11_95
+# %bb.96:
+	add	rdx, rsi
+.LBB11_97:
+	test	r8b, 1
+	je	.LBB11_185
+# %bb.98:
+	cmp	r11b, byte ptr [rdx]
+	setge	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	dil, byte ptr [r13 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	jmp	.LBB11_80
+.LBB11_75:
+	mov	r10, r8
+	and	r10, -2
+	xor	r9d, r9d
+	.p2align	4, 0x90
+.LBB11_76:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r9
+	cmp	r11b, byte ptr [rdi + r9]
+	mov	ebx, 0
+	adc	bl, -1
+	mov	rsi, r9
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r13 + rsi]
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r13 + rsi], dl
+	cmp	r11b, byte ptr [rdi + rax + 1]
+	lea	r9, [rax + 2]
+	mov	ebx, 0
+	adc	bl, -1
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r13 + rsi], al
+	cmp	r10, r9
+	jne	.LBB11_76
+# %bb.77:
+	add	rdi, r9
+.LBB11_78:
+	test	r8b, 1
+	je	.LBB11_185
+# %bb.79:
+	xor	eax, eax
+	cmp	r11b, byte ptr [rdi]
+	adc	al, -1
+	mov	rdx, r9
+	shr	rdx, 3
+	mov	dil, byte ptr [r13 + rdx]
+	and	r9b, 7
+	mov	bl, 1
+	mov	ecx, r9d
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+.LBB11_80:
+	xor	bl, dil
+	mov	byte ptr [r13 + rdx], bl
+	jmp	.LBB11_185
+.LBB11_85:
+	and	r14, -32
+	mov	rax, r14
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 416], r14      # 8-byte Spill
+	lea	rax, [r15 + 4*r14]
+	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
+	vmovd	xmm0, r11d
+	vpbroadcastb	ymm0, xmm0
+	vmovdqa	ymmword ptr [rsp + 384], ymm0   # 32-byte Spill
+	xor	ebx, ebx
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_86:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 376], rbx      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 184], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 320
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rdx + rax]
+	vmovd	xmm0, eax
+	movzx	eax, byte ptr [rdx + rbx]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rdx + rcx + 1]
+	vmovd	xmm4, eax
+	movzx	eax, byte ptr [rdx + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rdx + rcx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 544], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rcx + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rdx + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rdx + rcx + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	mov	qword ptr [rsp + 248], rbx      # 8-byte Spill
+	movzx	eax, byte ptr [rdx + rbx + 4]
+	vmovd	xmm15, eax
+	movzx	eax, byte ptr [rdx + rcx + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rdx + rbx + 5]
+	vmovd	xmm6, eax
+	movzx	eax, byte ptr [rdx + rcx + 6]
+	mov	qword ptr [rsp + 224], rcx      # 8-byte Spill
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rdx + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rdx + rcx + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rdx + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	r14, rbx
+	or	r14, 544
+	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
+	mov	rcx, rbx
+	or	rcx, 576
+	mov	qword ptr [rsp + 176], rcx      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 608
+	mov	r13, rax
+	mov	qword ptr [rsp + 200], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 640
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	r10, rbx
+	or	r10, 672
+	mov	qword ptr [rsp + 256], r10      # 8-byte Spill
+	mov	r9, rbx
+	or	r9, 704
+	mov	qword ptr [rsp + 240], r9       # 8-byte Spill
+	mov	r11, rbx
+	or	r11, 736
+	mov	qword ptr [rsp + 80], r11       # 8-byte Spill
+	mov	r15, rbx
+	or	r15, 768
+	mov	qword ptr [rsp + 128], r15      # 8-byte Spill
+	mov	r8, rbx
+	or	r8, 800
+	mov	qword ptr [rsp + 56], r8        # 8-byte Spill
+	mov	r12, rbx
+	or	r12, 832
+	mov	qword ptr [rsp + 136], r12      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 864
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 896
+	mov	rdi, rax
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 928
+	mov	rsi, rax
+	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 960
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	or	rbx, 992
+	vpinsrb	xmm9, xmm0, byte ptr [rdx + r14], 1
+	vpinsrb	xmm0, xmm9, byte ptr [rdx + rcx], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13], 3
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12], 10
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx], 15
+	mov	r12, rbx
+	mov	qword ptr [rsp + 168], rbx      # 8-byte Spill
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 1
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 3
+	mov	r8, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 4
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 6
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 7
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 8
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 9
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 10
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 11
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 12
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 14
+	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 15
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 1
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 2
+	mov	r13, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 1], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 4
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 5
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 6
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 7
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 1], 11
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 1], 12
+	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 1], 13
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 1], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 1], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rdx + r11 + 1], 1
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 2
+	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 1], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 1], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 1], 5
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 1], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 1], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 1], 9
+	mov	r13, rdi
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 1], 14
+	vinserti128	ymm13, ymm3, xmm0, 1
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + r14 + 1], 15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 8]
+	vmovd	xmm9, edi
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 8]
+	vmovd	xmm10, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 544]   # 16-byte Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 2], 1
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 2
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 3
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 4
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 5
+	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 2], 6
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 2], 7
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 2], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 2], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 2], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 14
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 2], 15
+	mov	r10, qword ptr [rsp + 232]      # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 480]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 2], 1
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 3
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 2], 4
+	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 2], 8
+	mov	rcx, r13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 9
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 2], 10
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 11
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 14
+	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 15
+	vpinsrb	xmm4, xmm11, byte ptr [rdx + r15 + 3], 1
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 2
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 3
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 4
+	mov	rbx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 3], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 3], 8
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 3], 9
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 10
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 11
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 12
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 3], 13
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 14
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 3], 15
+	vpinsrb	xmm5, xmm8, byte ptr [rdx + r10 + 3], 1
+	mov	rbx, r10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 3], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 6
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 3], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 3], 13
+	vinserti128	ymm0, ymm3, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 3], 14
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 9]
+	vmovd	xmm8, edi
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 3], 15
+	vinserti128	ymm0, ymm0, xmm4, 1
+	vmovdqa	ymmword ptr [rsp + 480], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 9]
+	vmovd	xmm11, edi
+	vmovdqa	xmm0, xmmword ptr [rsp + 448]   # 16-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 1
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 4], 2
+	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 4], 3
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 4], 4
+	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 4], 5
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 6
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 4], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 10
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 4], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 4], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 4], 14
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 4], 15
+	vpinsrb	xmm3, xmm15, byte ptr [rdx + rbx + 4], 1
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 2
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 4
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 6
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 4], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 9
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 10
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 4], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 15
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm14, byte ptr [rdx + rax + 5], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 5], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 5], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 5], 5
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 6
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 5], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 5], 11
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 5], 12
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 5], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 5], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 5], 15
+	vpinsrb	xmm5, xmm6, byte ptr [rdx + rbx + 5], 1
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 5], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 4
+	mov	r9, r14
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 5], 7
+	mov	r14, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 8
+	mov	r12, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 5], 9
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 5], 14
+	vinserti128	ymm14, ymm3, xmm0, 1
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm5, byte ptr [rdx + rax + 5], 15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 10]
+	vmovd	xmm3, edi
+	vinserti128	ymm15, ymm0, xmm4, 1
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 10]
+	vmovd	xmm4, edi
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm12, byte ptr [rdx + rax + 6], 1
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 2
+	mov	rbx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 6], 3
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 6], 4
+	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 6], 5
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 7
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 8
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 6], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 6], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 6], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 6], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 13
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 6], 14
+	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 6], 15
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rdx + r11 + 6], 1
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 2
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 4
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rdi + 6], 6
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 9
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 10
+	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 11
+	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 6], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 14
+	mov	r12, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 6], 15
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 1
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 5
+	mov	r8, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 6
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 7
+	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 7], 12
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 7], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 1
+	mov	r13, r11
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 7], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 3
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
+	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 6
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 7
+	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 8
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 9
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 13
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rdx + rdi + 7], 14
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 11]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 7], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 512], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 11]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm9, byte ptr [rdx + rdi + 8], 1
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 8], 2
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 8], 3
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 4
+	mov	r9, qword ptr [rsp + 256]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 8], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 8], 6
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 10
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 8], 11
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 8], 13
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 14
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 8], 15
+	vpinsrb	xmm5, xmm10, byte ptr [rdx + r13 + 8], 1
+	mov	r14, rsi
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 3
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 4
+	mov	rdi, r12
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 5
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 6
+	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 8], 7
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 8
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 9
+	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 10
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 11
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 12
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 14
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 15
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm6, xmm8, byte ptr [rdx + rbx + 9], 1
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 2
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 9], 3
+	mov	rbx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 4
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 9], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 6
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 9], 7
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 8
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 9
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 10
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 9], 11
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 12
+	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 9], 13
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 14
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 9], 15
+	vpinsrb	xmm7, xmm11, byte ptr [rdx + r13 + 9], 1
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 2
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rdi + 9], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 6
+	mov	r14, rsi
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r12 + 9], 7
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 10
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 14
+	vinserti128	ymm0, ymm5, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm5, xmm7, byte ptr [rdx + rax + 9], 15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 12]
+	vmovd	xmm0, edi
+	vinserti128	ymm5, ymm5, xmm6, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 12]
+	vmovd	xmm5, edi
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 10], 1
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 2
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 3
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 10], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 5
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 10], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 10], 7
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 9
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 14
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 15
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 1
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 4
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 10], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 6
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 10], 7
+	mov	r8, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 10], 8
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 9
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 12
+	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 13
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 10], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 2
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 4
+	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 6
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 7
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 12
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 13
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 11], 14
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 15
+	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 11], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 11], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 11], 8
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 9
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm3  # 32-byte Spill
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 11], 14
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 13]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm1  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 13]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 12], 1
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 12], 2
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 12], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 12], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 12], 5
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 6
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 7
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 12
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 12], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 12], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 12], 15
+	vpinsrb	xmm2, xmm5, byte ptr [rdx + r9 + 12], 1
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 2
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 3
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 4
+	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 12], 5
+	mov	r9, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 6
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 7
+	mov	r11, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 12], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 9
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 12], 10
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 11
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 12
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 14
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 12], 15
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 5
+	mov	r10, r12
+	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 6
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 7
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 8
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 9
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 10
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 11
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 13], 12
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 13
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 14
+	mov	r12, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 13], 15
+	mov	rbx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 3
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 13], 6
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 8
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 14
+	vinserti128	ymm0, ymm2, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm1, byte ptr [rdx + rax + 13], 15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 14]
+	vmovd	xmm1, edi
+	vinserti128	ymm0, ymm0, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm0  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 14]
+	vmovd	xmm0, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 1
+	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 14], 2
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 3
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 5
+	mov	r13, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 14], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 7
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 14], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 14], 9
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 10
+	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 14], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 12
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 13
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 15
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 1
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 2
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 4
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 6
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 9
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 10
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 11
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 14], 12
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 14], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 14], 15
+	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r8 + 15]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 15], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 3
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 4
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 15], 6
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 15], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 15], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 15], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 15], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 15], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 15], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 15], 14
+	mov	r9, qword ptr [rsp + 168]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 15], 15
+	mov	rbx, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rbx + 15]
+	vmovd	xmm3, edi
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 1
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 2
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 3
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 4
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 5
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 15], 6
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 15], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 8
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 9
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 15], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 13
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 14
+	mov	r15, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 15], 15
+	vinserti128	ymm0, ymm0, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm0   # 32-byte Spill
+	movzx	edi, byte ptr [rdx + r8 + 16]
+	vmovd	xmm0, edi
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 1
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 2
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 3
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 4
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 16], 6
+	mov	r12, r13
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 7
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 8
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 9
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 10
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 16], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 12
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 16], 13
+	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 16], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 16], 15
+	movzx	edi, byte ptr [rdx + rbx + 16]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 1
+	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 16], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 3
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 4
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 7
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 16], 8
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 16], 9
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 12
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 16], 13
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 16], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 16], 15
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 17]
+	vmovd	xmm2, edi
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 1
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 17], 2
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 3
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 4
+	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 17], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 6
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 17], 7
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 9
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 17], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 11
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 12
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 17], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 17], 14
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 17], 15
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 17]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 2
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 4
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 17], 5
+	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 17], 6
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 17], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 17], 10
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 11
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 17], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 17], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + rax + 17], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 18]
+	vmovd	xmm0, edi
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 18], 1
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 2
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 3
+	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 18], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 5
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 18], 7
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 18], 8
+	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 18], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 18], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 11
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 18], 13
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 14
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 18], 15
+	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r11 + 18]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 1
+	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 18], 2
+	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 18], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 4
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 18], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 8
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 9
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 18], 12
+	mov	r9, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 14
+	mov	r8, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 18], 15
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 19]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 1
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 2
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 19], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 4
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 5
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 6
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 19], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 19], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 10
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 19], 11
+	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 19], 12
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 14
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 19], 15
+	movzx	edi, byte ptr [rdx + r11 + 19]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 19], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 19], 3
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 4
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 19], 6
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 7
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 19], 8
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 9
+	mov	r10, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 19], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 13
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 19], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 20]
+	vmovd	xmm0, edi
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 1
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 20], 2
+	mov	r12, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 20], 3
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 4
+	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 20], 5
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 20], 6
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 7
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 8
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 9
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 20], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 20], 12
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 20], 13
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 14
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 20], 15
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 20]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 1
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 2
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 4
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 6
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 20], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 8
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 10
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 11
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 20], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 14
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 15
+	movzx	edi, byte ptr [rdx + rax + 21]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 21], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 3
+	mov	r13, r12
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 6
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 21], 7
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 21], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 9
+	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 21], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 21], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 21], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 21], 15
+	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r11 + 21]
+	vmovd	xmm3, edi
+	mov	r14, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 21], 1
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 3
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 4
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 21], 5
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 6
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 7
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 8
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 9
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 12
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm0   # 32-byte Spill
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + r9 + 21], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm0   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 22]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 1
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 22], 3
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 22], 4
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 5
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 22], 7
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 22], 10
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 11
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 12
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 22], 13
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 22], 14
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 22], 15
+	movzx	edi, byte ptr [rdx + r11 + 22]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 22], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
+	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 22], 6
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 7
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 22], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 9
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 10
+	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 22], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 22], 15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 23]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 1
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 2
+	mov	r14, r13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 4
+	mov	r13, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 23], 5
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 23], 6
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 23], 7
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 23], 9
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 11
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 23], 12
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 23], 13
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 23], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 23], 15
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 23]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 1
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 2
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 4
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 23], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 8
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 23], 9
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 12
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 15
+	vinserti128	ymm10, ymm1, xmm0, 1
+	vinserti128	ymm11, ymm3, xmm2, 1
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 24]
+	vmovd	xmm0, edi
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 1
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 24], 2
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 24], 3
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rdi + 24], 4
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 24], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 6
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 24], 7
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 24], 8
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 10
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 24], 11
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 24], 12
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 24], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 14
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 24], 15
+	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r14 + 24]
+	vmovd	xmm1, edi
+	mov	r9, qword ptr [rsp + 232]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 1
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 3
+	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 4
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 6
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 8
+	mov	r10, rbx
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 9
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 24], 10
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 24], 11
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 24], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 13
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 24], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 15
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 25]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 25], 2
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 3
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 25], 4
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 5
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 6
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 7
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 8
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 9
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 25], 11
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 12
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 13
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 25], 14
+	mov	r15, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 25], 15
+	movzx	edi, byte ptr [rdx + r14 + 25]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 1
+	mov	r9, qword ptr [rsp + 216]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 2
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 25], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 25], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 6
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 25], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 12
+	mov	r13, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 25], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 576], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm3, byte ptr [rdx + rcx + 25], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 608], ymm0   # 32-byte Spill
+	mov	r11, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r11 + 26]
+	vmovd	xmm0, edi
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 1
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 26], 2
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rcx + 26], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 4
+	mov	rsi, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 26], 5
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 6
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 7
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 9
+	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 26], 10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 12
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 26], 13
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r14 + 26], 14
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 26], 15
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 26]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 1
+	mov	rax, r9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 2
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 3
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 4
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 5
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 6
+	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 7
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 26], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 26], 9
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 26], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 15
+	movzx	edi, byte ptr [rdx + r11 + 27]
+	vmovd	xmm2, edi
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 27], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 3
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 27], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 5
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 27], 6
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 7
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 8
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 27], 10
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 27], 11
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 12
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 27], 14
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 27], 15
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 27]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 3
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 4
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 5
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 27], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 27], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 27], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 12
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 27], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm3, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm0   # 32-byte Spill
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r10 + 28]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 1
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 28], 2
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 3
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 4
+	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 28], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rsi + 28], 6
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 7
+	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 28], 8
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r8 + 28], 9
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r13 + 28], 11
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r11 + 28], 12
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 13
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rbx + 28], 14
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 28], 15
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 28]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 1
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 2
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 4
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 5
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 6
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 7
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 8
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 9
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 10
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 28], 11
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 14
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 15
+	movzx	edi, byte ptr [rdx + r10 + 29]
+	vmovd	xmm2, edi
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 29], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 2
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 3
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 5
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 29], 6
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 29], 9
+	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 29], 10
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 29], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 29], 12
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 29], 14
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 29], 15
+	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r8 + 29]
+	vmovd	xmm3, edi
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 4
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 29], 6
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 8
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 9
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 11
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 29], 13
+	vpinsrb	xmm4, xmm3, byte ptr [rdx + rcx + 29], 14
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm0   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm0, xmm4, byte ptr [rdx + rax + 29], 15
+	vinserti128	ymm0, ymm0, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm0   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 30]
+	vmovd	xmm0, edi
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r10 + 30], 1
+	movzx	edi, byte ptr [rdx + rcx + 31]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 31], 1
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 2
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 3
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 4
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 5
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r15 + 30], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 31], 6
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 7
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 8
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 9
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r12 + 30], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 31], 10
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + r9 + 30], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 31], 11
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 12
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 13
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 31], 14
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm0, xmm0, byte ptr [rdx + rax + 30], 15
+	vpinsrb	xmm2, xmm1, byte ptr [rdx + rax + 31], 15
+	mov	rcx, r8
+	movzx	eax, byte ptr [rdx + r8 + 30]
+	vmovd	xmm1, eax
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 1
+	movzx	eax, byte ptr [rdx + r8 + 31]
+	vmovd	xmm7, eax
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 31], 1
+	mov	r10, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 31], 2
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 30], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 31], 4
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 30], 6
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 31], 6
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 7
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 8
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 9
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 30], 12
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 31], 12
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 14
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 31], 15
+	vinserti128	ymm0, ymm1, xmm0, 1
+	vmovdqa	ymmword ptr [rsp + 320], ymm0   # 32-byte Spill
+	vinserti128	ymm0, ymm7, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm0   # 32-byte Spill
+	vmovdqa	ymm2, ymmword ptr [rsp + 384]   # 32-byte Reload
+	vpcmpgtb	ymm0, ymm13, ymm2
+	vmovdqa	ymm1, ymmword ptr [rsp + 1216]  # 32-byte Reload
+	vpcmpgtb	ymm7, ymm1, ymm2
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI11_0] # ymm5 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	vpandn	ymm7, ymm7, ymm5
+	vpaddb	ymm0, ymm7, ymm0
+	vmovdqa	ymm3, ymmword ptr [rsp + 544]   # 32-byte Reload
+	vpcmpgtb	ymm7, ymm3, ymm2
+	vmovdqa	ymm13, ymmword ptr [rip + .LCPI11_1] # ymm13 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpandn	ymm7, ymm7, ymm13
+	vmovdqa	ymm3, ymmword ptr [rsp + 480]   # 32-byte Reload
+	vpcmpgtb	ymm12, ymm3, ymm2
+	vmovdqa	ymm9, ymmword ptr [rip + .LCPI11_2] # ymm9 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpandn	ymm12, ymm12, ymm9
+	vpor	ymm7, ymm12, ymm7
+	vpcmpgtb	ymm12, ymm14, ymm2
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI11_3] # ymm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpandn	ymm12, ymm12, ymm4
+	vpor	ymm7, ymm12, ymm7
+	vpcmpeqd	ymm12, ymm12, ymm12
+	vpsubb	ymm0, ymm0, ymm12
+	vpcmpeqd	ymm8, ymm8, ymm8
+	vpor	ymm0, ymm0, ymm7
+	vpcmpgtb	ymm7, ymm15, ymm2
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI11_4] # ymm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpandn	ymm7, ymm7, ymm6
+	vmovdqa	ymm12, ymmword ptr [rsp + 448]  # 32-byte Reload
+	vpcmpgtb	ymm12, ymm12, ymm2
+	vmovdqa	ymm3, ymmword ptr [rip + .LCPI11_5] # ymm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpandn	ymm12, ymm12, ymm3
+	vpor	ymm7, ymm12, ymm7
+	vmovdqa	ymm12, ymmword ptr [rsp + 512]  # 32-byte Reload
+	vpcmpgtb	ymm12, ymm12, ymm2
+	vmovdqa	ymm1, ymmword ptr [rip + .LCPI11_6] # ymm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpandn	ymm12, ymm12, ymm1
+	vpor	ymm7, ymm12, ymm7
+	vpor	ymm0, ymm0, ymm7
+	vmovdqa	ymm7, ymmword ptr [rsp + 1184]  # 32-byte Reload
+	vpcmpgtb	ymm7, ymm7, ymm2
+	vmovdqa	ymm12, ymmword ptr [rsp + 1152] # 32-byte Reload
+	vpcmpgtb	ymm12, ymm12, ymm2
+	vpandn	ymm12, ymm12, ymm5
+	vpaddb	ymm7, ymm12, ymm7
+	vmovdqa	ymm12, ymmword ptr [rsp + 1120] # 32-byte Reload
+	vpcmpgtb	ymm12, ymm12, ymm2
+	vpandn	ymm12, ymm12, ymm13
+	vmovdqa	ymm14, ymmword ptr [rsp + 1088] # 32-byte Reload
+	vpcmpgtb	ymm15, ymm14, ymm2
+	vpandn	ymm15, ymm15, ymm9
+	vpor	ymm12, ymm12, ymm15
+	vmovdqa	ymm14, ymmword ptr [rsp + 1024] # 32-byte Reload
+	vpcmpgtb	ymm15, ymm14, ymm2
+	vpandn	ymm15, ymm15, ymm4
+	vpor	ymm12, ymm12, ymm15
+	vpsubb	ymm7, ymm7, ymm8
+	vpor	ymm7, ymm12, ymm7
+	vmovdqa	ymm12, ymmword ptr [rsp + 1056] # 32-byte Reload
+	vpcmpgtb	ymm12, ymm12, ymm2
+	vpandn	ymm12, ymm12, ymm6
+	vmovdqa	ymm14, ymmword ptr [rsp + 960]  # 32-byte Reload
+	vpcmpgtb	ymm15, ymm14, ymm2
+	vpandn	ymm15, ymm15, ymm3
+	vpor	ymm12, ymm12, ymm15
+	vmovdqa	ymm14, ymmword ptr [rsp + 992]  # 32-byte Reload
+	vpcmpgtb	ymm15, ymm14, ymm2
+	vpandn	ymm15, ymm15, ymm1
+	vpor	ymm12, ymm12, ymm15
+	vpor	ymm12, ymm12, ymm7
+	vmovdqa	ymm7, ymmword ptr [rsp + 928]   # 32-byte Reload
+	vpcmpgtb	ymm7, ymm7, ymm2
+	vmovdqa	ymm14, ymmword ptr [rsp + 896]  # 32-byte Reload
+	vpcmpgtb	ymm15, ymm14, ymm2
+	vpandn	ymm15, ymm15, ymm5
+	vpaddb	ymm7, ymm15, ymm7
+	vmovdqa	ymm14, ymmword ptr [rsp + 832]  # 32-byte Reload
+	vpcmpgtb	ymm15, ymm14, ymm2
+	vpandn	ymm15, ymm15, ymm13
+	vmovdqa	ymm14, ymmword ptr [rsp + 864]  # 32-byte Reload
+	vpcmpgtb	ymm14, ymm14, ymm2
+	vpandn	ymm14, ymm14, ymm9
+	vpor	ymm14, ymm15, ymm14
+	vmovdqa	ymm15, ymmword ptr [rsp + 768]  # 32-byte Reload
+	vpcmpgtb	ymm15, ymm15, ymm2
+	vpandn	ymm15, ymm15, ymm4
+	vpor	ymm14, ymm14, ymm15
+	vpsubb	ymm7, ymm7, ymm8
+	vpor	ymm7, ymm14, ymm7
+	vmovdqa	ymm14, ymmword ptr [rsp + 800]  # 32-byte Reload
+	vpcmpgtb	ymm14, ymm14, ymm2
+	vmovdqa	ymm15, ymm6
+	vpandn	ymm14, ymm14, ymm6
+	vpcmpgtb	ymm10, ymm10, ymm2
+	vpandn	ymm10, ymm10, ymm3
+	vpor	ymm10, ymm14, ymm10
+	vpcmpgtb	ymm11, ymm11, ymm2
+	vpandn	ymm11, ymm11, ymm1
+	vmovdqa	ymm14, ymm1
+	vpor	ymm10, ymm10, ymm11
+	vpor	ymm7, ymm10, ymm7
+	vmovdqa	ymm1, ymmword ptr [rsp + 576]   # 32-byte Reload
+	vpcmpgtb	ymm9, ymm1, ymm2
+	vmovdqa	ymm1, ymmword ptr [rsp + 608]   # 32-byte Reload
+	vpcmpgtb	ymm8, ymm1, ymm2
+	vpandn	ymm8, ymm8, ymm5
+	vpaddb	ymm8, ymm8, ymm9
+	vmovdqa	ymm1, ymmword ptr [rsp + 640]   # 32-byte Reload
+	vpcmpgtb	ymm5, ymm1, ymm2
+	vpandn	ymm5, ymm5, ymm13
+	vmovdqa	ymm1, ymmword ptr [rsp + 672]   # 32-byte Reload
+	vpcmpgtb	ymm6, ymm1, ymm2
+	vpandn	ymm6, ymm6, ymmword ptr [rip + .LCPI11_2]
+	vpor	ymm5, ymm5, ymm6
+	vmovdqa	ymm1, ymmword ptr [rsp + 704]   # 32-byte Reload
+	vpcmpgtb	ymm3, ymm1, ymm2
+	vpandn	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm5, ymm3
+	vpsubb	ymm5, ymm8, ymmword ptr [rip + .LCPI11_7]
+	vpor	ymm3, ymm5, ymm3
+	vmovdqa	ymm1, ymmword ptr [rsp + 736]   # 32-byte Reload
+	vpcmpgtb	ymm4, ymm1, ymm2
+	vpandn	ymm4, ymm4, ymm15
+	vmovdqa	ymm1, ymmword ptr [rsp + 320]   # 32-byte Reload
+	vpcmpgtb	ymm1, ymm1, ymm2
+	vpandn	ymm1, ymm1, ymmword ptr [rip + .LCPI11_5]
+	vpor	ymm1, ymm4, ymm1
+	vmovdqa	ymm4, ymmword ptr [rsp + 288]   # 32-byte Reload
+	vpcmpgtb	ymm2, ymm4, ymm2
+	vpandn	ymm2, ymm2, ymm14
+	vpor	ymm1, ymm1, ymm2
+	vpor	ymm1, ymm3, ymm1
+	vpunpcklbw	ymm2, ymm0, ymm12       # ymm2 = ymm0[0],ymm12[0],ymm0[1],ymm12[1],ymm0[2],ymm12[2],ymm0[3],ymm12[3],ymm0[4],ymm12[4],ymm0[5],ymm12[5],ymm0[6],ymm12[6],ymm0[7],ymm12[7],ymm0[16],ymm12[16],ymm0[17],ymm12[17],ymm0[18],ymm12[18],ymm0[19],ymm12[19],ymm0[20],ymm12[20],ymm0[21],ymm12[21],ymm0[22],ymm12[22],ymm0[23],ymm12[23]
+	vpunpckhbw	ymm0, ymm0, ymm12       # ymm0 = ymm0[8],ymm12[8],ymm0[9],ymm12[9],ymm0[10],ymm12[10],ymm0[11],ymm12[11],ymm0[12],ymm12[12],ymm0[13],ymm12[13],ymm0[14],ymm12[14],ymm0[15],ymm12[15],ymm0[24],ymm12[24],ymm0[25],ymm12[25],ymm0[26],ymm12[26],ymm0[27],ymm12[27],ymm0[28],ymm12[28],ymm0[29],ymm12[29],ymm0[30],ymm12[30],ymm0[31],ymm12[31]
+	vpunpcklbw	ymm3, ymm7, ymm1        # ymm3 = ymm7[0],ymm1[0],ymm7[1],ymm1[1],ymm7[2],ymm1[2],ymm7[3],ymm1[3],ymm7[4],ymm1[4],ymm7[5],ymm1[5],ymm7[6],ymm1[6],ymm7[7],ymm1[7],ymm7[16],ymm1[16],ymm7[17],ymm1[17],ymm7[18],ymm1[18],ymm7[19],ymm1[19],ymm7[20],ymm1[20],ymm7[21],ymm1[21],ymm7[22],ymm1[22],ymm7[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm7, ymm1        # ymm1 = ymm7[8],ymm1[8],ymm7[9],ymm1[9],ymm7[10],ymm1[10],ymm7[11],ymm1[11],ymm7[12],ymm1[12],ymm7[13],ymm1[13],ymm7[14],ymm1[14],ymm7[15],ymm1[15],ymm7[24],ymm1[24],ymm7[25],ymm1[25],ymm7[26],ymm1[26],ymm7[27],ymm1[27],ymm7[28],ymm1[28],ymm7[29],ymm1[29],ymm7[30],ymm1[30],ymm7[31],ymm1[31]
+	vpunpcklwd	ymm4, ymm2, ymm3        # ymm4 = ymm2[0],ymm3[0],ymm2[1],ymm3[1],ymm2[2],ymm3[2],ymm2[3],ymm3[3],ymm2[8],ymm3[8],ymm2[9],ymm3[9],ymm2[10],ymm3[10],ymm2[11],ymm3[11]
+	vpunpckhwd	ymm2, ymm2, ymm3        # ymm2 = ymm2[4],ymm3[4],ymm2[5],ymm3[5],ymm2[6],ymm3[6],ymm2[7],ymm3[7],ymm2[12],ymm3[12],ymm2[13],ymm3[13],ymm2[14],ymm3[14],ymm2[15],ymm3[15]
+	vpunpcklwd	ymm3, ymm0, ymm1        # ymm3 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11]
+	vpunpckhwd	ymm0, ymm0, ymm1        # ymm0 = ymm0[4],ymm1[4],ymm0[5],ymm1[5],ymm0[6],ymm1[6],ymm0[7],ymm1[7],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15]
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vperm2i128	ymm2, ymm4, ymm2, 49    # ymm2 = ymm4[2,3],ymm2[2,3]
+	vinserti128	ymm4, ymm3, xmm0, 1
+	vperm2i128	ymm0, ymm3, ymm0, 49    # ymm0 = ymm3[2,3],ymm0[2,3]
+	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm0
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm4
+	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm1
+	add	rcx, 32
+	mov	rbx, rcx
+	cmp	rcx, qword ptr [rsp + 416]      # 8-byte Folded Reload
+	jne	.LBB11_86
+# %bb.87:
+	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
+	cmp	r14, qword ptr [rsp + 416]      # 8-byte Folded Reload
+	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	r13, qword ptr [rsp + 368]      # 8-byte Reload
+	mov	rdx, qword ptr [rsp + 360]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	jne	.LBB11_88
+	jmp	.LBB11_91
+.LBB11_66:
+	and	r14, -32
+	mov	rax, r14
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 360], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 384], r14      # 8-byte Spill
+	lea	rax, [r15 + 4*r14]
+	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
+	vmovd	xmm0, r11d
+	vpbroadcastb	ymm0, xmm0
+	xor	ebx, ebx
+	mov	qword ptr [rsp + 272], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_67:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 376], rbx      # 8-byte Spill
+	shl	rbx, 5
+	mov	rax, rbx
+	or	rax, 32
+	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 64
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 96
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 128
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 160
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 192
+	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 224
+	mov	qword ptr [rsp + 136], rax      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 256
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 288
+	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
+	mov	rax, rbx
+	mov	qword ptr [rsp + 240], rbx      # 8-byte Spill
+	or	rax, 320
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 512
+	mov	rcx, rax
+	movzx	eax, byte ptr [rdx + rax]
+	vmovd	xmm3, eax
+	movzx	eax, byte ptr [rdx + rbx]
+	vmovd	xmm4, eax
+	movzx	eax, byte ptr [rdx + rcx + 1]
+	vmovd	xmm5, eax
+	movzx	eax, byte ptr [rdx + rbx + 1]
+	vmovd	xmm10, eax
+	movzx	eax, byte ptr [rdx + rcx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 480], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rbx + 2]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 448], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rcx + 3]
+	vmovd	xmm11, eax
+	movzx	eax, byte ptr [rdx + rbx + 3]
+	vmovd	xmm8, eax
+	movzx	eax, byte ptr [rdx + rcx + 4]
+	vmovd	xmm1, eax
+	vmovdqa	xmmword ptr [rsp + 512], xmm1   # 16-byte Spill
+	movzx	eax, byte ptr [rdx + rbx + 4]
+	vmovd	xmm15, eax
+	movzx	eax, byte ptr [rdx + rcx + 5]
+	vmovd	xmm14, eax
+	movzx	eax, byte ptr [rdx + rbx + 5]
+	vmovd	xmm12, eax
+	movzx	eax, byte ptr [rdx + rcx + 6]
+	mov	qword ptr [rsp + 256], rcx      # 8-byte Spill
+	vmovd	xmm13, eax
+	movzx	eax, byte ptr [rdx + rbx + 6]
+	vmovd	xmm7, eax
+	movzx	eax, byte ptr [rdx + rcx + 7]
+	vmovd	xmm2, eax
+	movzx	eax, byte ptr [rdx + rbx + 7]
+	vmovd	xmm1, eax
+	mov	rax, rbx
+	or	rax, 352
+	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 384
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 416
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 448
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 480
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	rdi, rbx
+	or	rdi, 544
+	mov	qword ptr [rsp + 200], rdi      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 576
+	mov	r13, rax
+	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
+	mov	r11, rbx
+	or	r11, 608
+	mov	qword ptr [rsp + 168], r11      # 8-byte Spill
+	mov	r14, rbx
+	or	r14, 640
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	mov	r10, rbx
+	or	r10, 672
+	mov	qword ptr [rsp + 160], r10      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 704
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	r8, rbx
+	or	r8, 736
+	mov	qword ptr [rsp + 120], r8       # 8-byte Spill
+	mov	r15, rbx
+	or	r15, 768
+	mov	qword ptr [rsp + 192], r15      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 800
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	r9, rbx
+	or	r9, 832
+	mov	qword ptr [rsp + 184], r9       # 8-byte Spill
+	mov	r12, rbx
+	or	r12, 864
+	mov	qword ptr [rsp + 176], r12      # 8-byte Spill
+	mov	rsi, rbx
+	or	rsi, 896
+	mov	qword ptr [rsp + 264], rsi      # 8-byte Spill
+	mov	rcx, rbx
+	or	rcx, 928
+	mov	qword ptr [rsp + 232], rcx      # 8-byte Spill
+	mov	rax, rbx
+	or	rax, 960
+	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
+	or	rbx, 992
+	mov	qword ptr [rsp + 248], rbx      # 8-byte Spill
+	vpinsrb	xmm9, xmm3, byte ptr [rdx + rdi], 1
+	vpinsrb	xmm3, xmm9, byte ptr [rdx + r13], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10], 5
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15], 8
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx], 15
+	mov	r12, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12], 1
+	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14], 2
+	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11], 3
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8], 4
+	mov	r9, qword ptr [rsp + 288]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9], 5
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx], 6
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi], 7
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15], 8
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax], 10
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10], 11
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx], 12
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx], 13
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx], 14
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13], 15
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 1
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 2
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 3
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 4
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 5
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 6
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 7
+	mov	r13, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 1], 8
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 9
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 10
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 11
+	mov	rcx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 12
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 13
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 14
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 1], 15
+	vpinsrb	xmm6, xmm10, byte ptr [rdx + r12 + 1], 1
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 1], 2
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r11 + 1], 3
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r8 + 1], 4
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 1], 5
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 1], 6
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 1], 7
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 1], 8
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 1], 9
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 10
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r10 + 1], 11
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 12
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 13
+	mov	r11, rax
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 1], 14
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1216], ymm3  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm6, byte ptr [rdx + rax + 1], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 8]
+	vmovd	xmm9, edi
+	vinserti128	ymm3, ymm3, xmm5, 1
+	vmovdqa	ymmword ptr [rsp + 544], ymm3   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 8]
+	vmovd	xmm10, edi
+	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
+	vmovdqa	xmm3, xmmword ptr [rsp + 480]   # 16-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 2], 1
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 2], 2
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 3
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 2], 4
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 5
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 2], 6
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 8
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 9
+	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 2], 10
+	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 2], 11
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 2], 12
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 2], 13
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 2], 14
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 2], 15
+	vmovdqa	xmm4, xmmword ptr [rsp + 448]   # 16-byte Reload
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 2], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 2], 2
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 3
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 5
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 7
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 2], 8
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 9
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 10
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 11
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 2], 13
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 2], 14
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 2], 15
+	vpinsrb	xmm5, xmm11, byte ptr [rdx + r9 + 3], 1
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 2
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 3
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 3], 4
+	mov	r11, r15
+	mov	r14, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 3], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 6
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 7
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 3], 8
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 3], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r12 + 3], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 3], 11
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 3], 12
+	mov	r13, rbx
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 3], 13
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 3], 14
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 3], 15
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm6, xmm8, byte ptr [rdx + rcx + 3], 1
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 2
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 3
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 5
+	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 3], 6
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 7
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 3], 8
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 3], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 11
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 12
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 3], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 480], ymm3   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm6, byte ptr [rdx + rax + 3], 14
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 9]
+	vmovd	xmm8, edi
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 3], 15
+	vinserti128	ymm3, ymm3, xmm5, 1
+	vmovdqa	ymmword ptr [rsp + 448], ymm3   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 9]
+	vmovd	xmm11, edi
+	vmovdqa	xmm3, xmmword ptr [rsp + 512]   # 16-byte Reload
+	mov	r8, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 4], 1
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 2
+	mov	rbx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 4], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 5
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 6
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 4], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 4], 8
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 9
+	mov	r15, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 4], 10
+	mov	r14, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 4], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 4], 12
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 13
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 4], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 4], 15
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm15, byte ptr [rdx + r10 + 4], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 2
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 3
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 4], 6
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 4], 7
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 4], 9
+	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 4], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 4], 11
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 4], 12
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 4], 13
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 4], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 4], 15
+	vpinsrb	xmm5, xmm14, byte ptr [rdx + r8 + 5], 1
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 2
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 3
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 4
+	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 5], 5
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 5], 6
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 7
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 8
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 5], 10
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 11
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 5], 12
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 5], 13
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 5], 14
+	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 5], 15
+	vpinsrb	xmm6, xmm12, byte ptr [rdx + r10 + 5], 1
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 2
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 3
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 4
+	mov	rbx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 5
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 5], 6
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 5], 7
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 5], 8
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 5], 9
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 5], 10
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 5], 11
+	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 5], 12
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 5], 13
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 5], 14
+	vinserti128	ymm14, ymm4, xmm3, 1
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm6, byte ptr [rdx + rax + 5], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 10]
+	vmovd	xmm12, edi
+	vinserti128	ymm3, ymm4, xmm5, 1
+	vmovdqa	ymmword ptr [rsp + 512], ymm3   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 10]
+	vmovd	xmm4, edi
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm5, xmm13, byte ptr [rdx + r15 + 6], 1
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 2
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 4
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 6], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 6
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 6], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 8
+	mov	r8, qword ptr [rsp + 320]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 6], 9
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 10
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 6], 11
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 6], 12
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 6], 13
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 6], 14
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 6], 15
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm6, xmm7, byte ptr [rdx + r11 + 6], 1
+	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r14 + 6], 2
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rbx + 6], 3
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 5
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 6], 6
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 7
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 8
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rax + 6], 9
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 10
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r9 + 6], 11
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 6], 12
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 6], 13
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 14
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 6], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 1
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 2
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 3
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 4
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 5
+	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 7], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 7
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 7], 9
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 7], 10
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 12
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 7], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 7], 14
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 7], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 7], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 7], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 7], 3
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 7], 6
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 7
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 7], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 7], 11
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 7], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 7], 13
+	vinserti128	ymm3, ymm6, xmm5, 1
+	vmovdqa	ymmword ptr [rsp + 1184], ymm3  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm5, xmm1, byte ptr [rdx + rax + 7], 14
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 11]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 7], 15
+	vinserti128	ymm2, ymm5, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 1152], ymm2  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 11]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm5, xmm9, byte ptr [rdx + rax + 8], 1
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 2
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rcx + 8], 3
+	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r10 + 8], 4
+	mov	rbx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rbx + 8], 5
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r15 + 8], 6
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rax + 8], 7
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r9 + 8], 8
+	mov	rax, r8
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 8], 9
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + rsi + 8], 10
+	mov	r8, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r8 + 8], 11
+	mov	r11, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r11 + 8], 12
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 8], 13
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r13 + 8], 14
+	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm5, xmm5, byte ptr [rdx + r14 + 8], 15
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm6, xmm10, byte ptr [rdx + rsi + 8], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 2
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 3
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r15 + 8], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rdi + 8], 5
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 6
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 7
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 8
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 9
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 10
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 11
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 12
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 8], 13
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + r12 + 8], 14
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm6, xmm6, byte ptr [rdx + rsi + 8], 15
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm7, xmm8, byte ptr [rdx + rsi + 9], 1
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 2
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 3
+	mov	r12, rcx
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r10 + 9], 4
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rbx + 9], 5
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rsi + 9], 6
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 7
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r9 + 9], 8
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 9
+	mov	rcx, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rcx + 9], 10
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r8 + 9], 11
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r11 + 9], 12
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + rax + 9], 13
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r13 + 9], 14
+	vpinsrb	xmm7, xmm7, byte ptr [rdx + r14 + 9], 15
+	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm3, xmm11, byte ptr [rdx + r13 + 9], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 2
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 9], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 9], 5
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 6
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 9], 7
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 8
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 11
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 12
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 13
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 14
+	vinserti128	ymm5, ymm6, xmm5, 1
+	vmovdqa	ymmword ptr [rsp + 1120], ymm5  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 9], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 12]
+	vmovd	xmm5, edi
+	vinserti128	ymm3, ymm3, xmm7, 1
+	vmovdqa	ymmword ptr [rsp + 1088], ymm3  # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 12]
+	vmovd	xmm6, edi
+	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm12, byte ptr [rdx + r10 + 10], 1
+	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 10], 2
+	mov	r9, r12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 3
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 10], 4
+	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 10], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 10], 6
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 7
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 8
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 10], 10
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 10], 11
+	mov	r14, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 10], 12
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 13
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 10], 14
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 10], 15
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 1
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 2
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 3
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 10], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 5
+	mov	r13, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 10], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 7
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 8
+	mov	rcx, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 10], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 10
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 10], 11
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 12
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 13
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 14
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 10], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 11], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 11], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 11], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 11], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 11], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 11], 6
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 8
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 9
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 11], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 12
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 11], 13
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 11], 14
+	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 11], 15
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 11], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 2
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 11], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 11], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 11], 6
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 7
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 11], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 9
+	mov	r13, rcx
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 11], 11
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 12
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 13
+	vinserti128	ymm3, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 1056], ymm3  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 14
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 13]
+	vmovd	xmm3, edi
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 11], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 1024], ymm1  # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 13]
+	vmovd	xmm1, edi
+	mov	rcx, r10
+	vpinsrb	xmm2, xmm5, byte ptr [rdx + r10 + 12], 1
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 3
+	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 12], 4
+	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 12], 5
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 6
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 7
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 12], 8
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 9
+	mov	r10, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 12], 10
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 11
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 12
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 12], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 12], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 12], 15
+	vpinsrb	xmm4, xmm6, byte ptr [rdx + rbx + 12], 1
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 12], 2
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 12], 3
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 5
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 12], 6
+	mov	r12, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 12], 7
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 12], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 9
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r11 + 12], 10
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 11
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 12
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 13
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 12], 14
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 12], 15
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 1
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 2
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 5
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 6
+	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 13], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 13], 8
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 13], 10
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 11
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 13], 12
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 13
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 13], 14
+	mov	r8, qword ptr [rsp + 248]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 13], 15
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 13], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 13], 3
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 4
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 13], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 13], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 8
+	mov	r14, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 13], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 13], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 11
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 12
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 13], 13
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 13], 14
+	vinserti128	ymm2, ymm4, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 992], ymm2   # 32-byte Spill
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 13], 15
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 14]
+	vmovd	xmm2, edi
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 960], ymm1   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 14]
+	vmovd	xmm1, edi
+	mov	rsi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 14], 1
+	mov	rax, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 2
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 4
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 5
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 14], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 14], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 8
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 9
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 10
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 14], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 14], 12
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 14], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 14], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 14], 15
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 14], 1
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 2
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 3
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 5
+	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 14], 6
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 7
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 9
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 10
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 11
+	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 14], 12
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 14], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 14], 14
+	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 14], 15
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 15]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 1
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 15], 2
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 3
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 4
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 6
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 15], 7
+	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 15], 8
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 15], 9
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 15], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 11
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 15], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 15], 13
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 14
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 15], 15
+	mov	rsi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rsi + 15]
+	vmovd	xmm4, edi
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 2
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 3
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 15], 6
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 15], 7
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 8
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 9
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 10
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 15], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 15], 12
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 15], 13
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 15], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 15], 15
+	vinserti128	ymm1, ymm1, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 896], ymm1   # 32-byte Spill
+	vinserti128	ymm1, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 928], ymm1   # 32-byte Spill
+	movzx	edi, byte ptr [rdx + rcx + 16]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 16], 2
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 3
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 4
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 5
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 6
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 16], 8
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 9
+	mov	r12, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r12 + 16], 10
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 16], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 13
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 16], 14
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 16], 15
+	movzx	edi, byte ptr [rdx + rsi + 16]
+	vmovd	xmm2, edi
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 1
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 16], 2
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 3
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 5
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 16], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 16], 7
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 16], 8
+	mov	rsi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 16], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 16], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 16], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 16], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 16], 13
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 16], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 16], 15
+	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r8 + 17]
+	vmovd	xmm3, edi
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 1
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 17], 2
+	mov	r11, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 17], 3
+	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 17], 4
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 5
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 6
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 8
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 17], 10
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 11
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 12
+	mov	rax, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 17], 14
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 17], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 17]
+	vmovd	xmm4, edi
+	mov	r15, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 17], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 17], 2
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 17], 3
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 17], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 17], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 17], 6
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 17], 7
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 17], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 17], 9
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 17], 10
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 17], 11
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 17], 12
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 17], 13
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 17], 14
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 864], ymm1   # 32-byte Spill
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm4, byte ptr [rdx + rsi + 17], 15
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 832], ymm1   # 32-byte Spill
+	movzx	edi, byte ptr [rdx + r8 + 18]
+	vmovd	xmm1, edi
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 18], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 3
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 4
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 18], 5
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 6
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 7
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 18], 8
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 9
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 10
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 11
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 12
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 13
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 18], 14
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 18], 15
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 18]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 18], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 18], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 18], 3
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 18], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 18], 5
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 18], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 18], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 18], 8
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 18], 9
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 18], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 18], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 18], 12
+	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 18], 13
+	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 18], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 18], 15
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 19]
+	vmovd	xmm3, edi
+	mov	r10, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 19], 1
+	mov	rsi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 19], 2
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 3
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 5
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 6
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 19], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 8
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 9
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 10
+	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 19], 11
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 12
+	mov	r13, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 19], 13
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 14
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 19], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 19]
+	vmovd	xmm4, edi
+	mov	rdi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 1
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 2
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 3
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 19], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 19], 6
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 7
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 19], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 19], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 19], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 19], 11
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 19], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 19], 13
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 19], 14
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 19], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 768], ymm1   # 32-byte Spill
+	vinserti128	ymm1, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 800], ymm1   # 32-byte Spill
+	movzx	edi, byte ptr [rdx + rcx + 20]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 2
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 20], 3
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 20], 4
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 20], 5
+	mov	r8, qword ptr [rsp + 152]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 20], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 8
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 20], 9
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 20], 11
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 20], 13
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 20], 14
+	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 20], 15
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 20]
+	vmovd	xmm2, edi
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 1
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 20], 2
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 20], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 20], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 5
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 6
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 7
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 20], 8
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 9
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 10
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 11
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 12
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 13
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 14
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 20], 15
+	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r12 + 21]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 1
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 21], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 21], 6
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 21], 7
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 8
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 9
+	mov	rsi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 21], 10
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r15 + 21], 11
+	mov	rbx, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 21], 12
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 21], 13
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 21], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 21], 15
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r11 + 21]
+	vmovd	xmm4, edi
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 21], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 21], 3
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 4
+	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 21], 5
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 6
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 21], 8
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 9
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 21], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 11
+	mov	r14, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 21], 12
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 13
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 21], 14
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 704], ymm1   # 32-byte Spill
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm1, xmm4, byte ptr [rdx + rcx + 21], 15
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 736], ymm1   # 32-byte Spill
+	movzx	edi, byte ptr [rdx + r12 + 22]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 1
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 2
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 3
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 4
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 5
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 22], 7
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 22], 8
+	mov	rcx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 22], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 22], 12
+	mov	rsi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 22], 13
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 14
+	mov	rcx, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 22], 15
+	movzx	edi, byte ptr [rdx + r11 + 22]
+	vmovd	xmm2, edi
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 22], 1
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 2
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 22], 3
+	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 22], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 22], 5
+	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 22], 6
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 7
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 8
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 22], 10
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 22], 12
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 22], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 22], 14
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 22], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 23]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 1
+	mov	r8, qword ptr [rsp + 224]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 23], 2
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 3
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 4
+	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 23], 5
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 23], 6
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 23], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 8
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 9
+	mov	r9, qword ptr [rsp + 184]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 23], 10
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 11
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 23], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 13
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 23], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 23], 15
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 23]
+	vmovd	xmm4, edi
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 23], 1
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 23], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 23], 4
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 23], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 23], 6
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 23], 7
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 8
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 23], 9
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 10
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r13 + 23], 11
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 12
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 23], 13
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 23], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 23], 15
+	vinserti128	ymm11, ymm2, xmm1, 1
+	vinserti128	ymm12, ymm4, xmm3, 1
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 24]
+	vmovd	xmm1, edi
+	mov	rax, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r8 + 24], 2
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 4
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 24], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 24], 7
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 24], 8
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 9
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 24], 10
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 24], 11
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 12
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 13
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 14
+	mov	rdi, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 24], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 24]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 24], 1
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 24], 2
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 24], 3
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 24], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 24], 5
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 24], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 24], 7
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 24], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 24], 9
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 24], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 24], 11
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 24], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 24], 13
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 24], 14
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 24], 15
+	mov	rcx, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rcx + 25]
+	vmovd	xmm3, edi
+	mov	r9, qword ptr [rsp + 200]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 25], 1
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 2
+	mov	r13, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 25], 3
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 4
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 5
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 25], 6
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 8
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 9
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 10
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 25], 11
+	mov	rax, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 25], 12
+	mov	rcx, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 25], 13
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 25], 14
+	mov	r11, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 25], 15
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 25]
+	vmovd	xmm4, edi
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 25], 1
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 2
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 25], 3
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 5
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 6
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 25], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 25], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 25], 10
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 25], 11
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 25], 12
+	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 25], 13
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 25], 14
+	vinserti128	ymm10, ymm2, xmm1, 1
+	vpinsrb	xmm1, xmm4, byte ptr [rdx + r10 + 25], 15
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 416], ymm1   # 32-byte Spill
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 26]
+	vmovd	xmm1, edi
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 1
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 2
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 3
+	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 26], 4
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 26], 5
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 6
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 7
+	mov	rsi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 8
+	mov	rsi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 9
+	mov	r13, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 26], 10
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 26], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 26], 12
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 13
+	mov	rax, rcx
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 26], 14
+	mov	rsi, r11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 26], 15
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r11 + 26]
+	vmovd	xmm2, edi
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 26], 1
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r8 + 26], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 26], 3
+	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 26], 4
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 26], 5
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 26], 6
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 26], 7
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 26], 8
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 26], 9
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 26], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 26], 11
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 26], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r14 + 26], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rbx + 26], 14
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 26], 15
+	mov	rdi, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rdi + 27]
+	vmovd	xmm3, edi
+	mov	rdi, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 1
+	mov	r14, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 27], 2
+	mov	rdi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 4
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 5
+	mov	rdi, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 6
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 7
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 27], 8
+	mov	rbx, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 27], 9
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 27], 10
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 11
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 27], 12
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 13
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 27], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 27], 15
+	movzx	edi, byte ptr [rdx + r11 + 27]
+	vmovd	xmm4, edi
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 1
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 27], 2
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r10 + 27], 4
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 5
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rsi + 27], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 27], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 8
+	mov	r12, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 27], 9
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 27], 10
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 11
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 12
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 13
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 14
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rcx + 27], 15
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 576], ymm1   # 32-byte Spill
+	vinserti128	ymm1, ymm4, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 608], ymm1   # 32-byte Spill
+	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
+	movzx	edi, byte ptr [rdx + r8 + 28]
+	vmovd	xmm1, edi
+	mov	rcx, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 28], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 2
+	mov	rsi, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 28], 3
+	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 28], 4
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 28], 5
+	mov	r13, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 28], 6
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 7
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r9 + 28], 8
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rbx + 28], 9
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 10
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 11
+	mov	rdi, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 12
+	mov	rdi, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rdi + 28], 13
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 28], 14
+	mov	r14, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r14 + 28], 15
+	mov	rbx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rbx + 28]
+	vmovd	xmm2, edi
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 2
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 3
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 5
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 6
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r9 + 28], 7
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 28], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 28], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 11
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 28], 12
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 28], 13
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rdi + 28], 14
+	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r12 + 28], 15
+	movzx	edi, byte ptr [rdx + r8 + 29]
+	vmovd	xmm3, edi
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 1
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rcx + 29], 2
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 29], 4
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 5
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 6
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rsi + 29], 7
+	mov	rdi, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 8
+	mov	rdi, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 9
+	mov	rdi, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 10
+	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r13 + 29], 11
+	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r10 + 29], 12
+	mov	r11, qword ptr [rsp + 232]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r11 + 29], 13
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rdi + 29], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 29], 15
+	movzx	edi, byte ptr [rdx + rbx + 29]
+	vmovd	xmm4, edi
+	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 29], 1
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 2
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 3
+	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 29], 4
+	mov	rdi, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 5
+	mov	rbx, qword ptr [rsp + 144]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 29], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 29], 7
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 29], 8
+	mov	rdi, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r15 + 29], 10
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rdi + 29], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 29], 12
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 29], 13
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 29], 14
+	vinserti128	ymm1, ymm2, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 640], ymm1   # 32-byte Spill
+	vpinsrb	xmm1, xmm4, byte ptr [rdx + r12 + 29], 15
+	vinserti128	ymm1, ymm1, xmm3, 1
+	vmovdqa	ymmword ptr [rsp + 672], ymm1   # 32-byte Spill
+	mov	rax, qword ptr [rsp + 256]      # 8-byte Reload
+	movzx	edi, byte ptr [rdx + rax + 30]
+	vmovd	xmm1, edi
+	mov	r15, qword ptr [rsp + 200]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r15 + 30], 1
+	movzx	edi, byte ptr [rdx + rax + 31]
+	vmovd	xmm2, edi
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r15 + 31], 1
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rcx + 30], 2
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rcx + 31], 2
+	mov	rax, qword ptr [rsp + 168]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 4
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 4
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 5
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 6
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 6
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rsi + 30], 7
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rsi + 31], 7
+	mov	r15, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 192]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 8
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 8
+	mov	rax, qword ptr [rsp + 320]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 9
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 9
+	mov	rax, qword ptr [rsp + 184]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 10
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 10
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r13 + 30], 11
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r13 + 31], 11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r10 + 30], 12
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r10 + 31], 12
+	mov	rax, r11
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + r11 + 30], 13
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + r11 + 31], 13
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 14
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 14
+	mov	rax, qword ptr [rsp + 248]      # 8-byte Reload
+	vpinsrb	xmm1, xmm1, byte ptr [rdx + rax + 30], 15
+	vpinsrb	xmm2, xmm2, byte ptr [rdx + rax + 31], 15
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movzx	eax, byte ptr [rdx + rcx + 30]
+	vmovd	xmm3, eax
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 30], 1
+	movzx	eax, byte ptr [rdx + rcx + 31]
+	vmovd	xmm4, eax
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 31], 1
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r8 + 30], 2
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r8 + 31], 2
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 3
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 3
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r14 + 30], 4
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r14 + 31], 4
+	mov	rax, qword ptr [rsp + 288]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 5
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 5
+	mov	rax, rbx
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rbx + 30], 6
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rbx + 31], 6
+	mov	rax, qword ptr [rsp + 136]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 7
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 7
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r9 + 30], 8
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r9 + 31], 8
+	mov	rax, qword ptr [rsp + 216]      # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 9
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 9
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 10
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 11
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 11
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 12
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 12
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 13
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 13
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + rax + 30], 14
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + rax + 31], 14
+	vpinsrb	xmm3, xmm3, byte ptr [rdx + r12 + 30], 15
+	vpinsrb	xmm4, xmm4, byte ptr [rdx + r12 + 31], 15
+	vinserti128	ymm1, ymm3, xmm1, 1
+	vmovdqa	ymmword ptr [rsp + 320], ymm1   # 32-byte Spill
+	vinserti128	ymm1, ymm4, xmm2, 1
+	vmovdqa	ymmword ptr [rsp + 288], ymm1   # 32-byte Spill
+	vpmaxub	ymm1, ymm0, ymmword ptr [rsp + 1216] # 32-byte Folded Reload
+	vpcmpeqb	ymm1, ymm0, ymm1
+	vpmaxub	ymm2, ymm0, ymmword ptr [rsp + 544] # 32-byte Folded Reload
+	vpcmpeqb	ymm2, ymm0, ymm2
+	vmovdqa	ymm7, ymmword ptr [rip + .LCPI11_0] # ymm7 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	vpand	ymm2, ymm2, ymm7
+	vpsubb	ymm1, ymm2, ymm1
+	vpmaxub	ymm2, ymm0, ymmword ptr [rsp + 480] # 32-byte Folded Reload
+	vpcmpeqb	ymm2, ymm0, ymm2
+	vmovdqa	ymm8, ymmword ptr [rip + .LCPI11_1] # ymm8 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	vpand	ymm2, ymm8, ymm2
+	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 448] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vmovdqa	ymm5, ymmword ptr [rip + .LCPI11_2] # ymm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	vpand	ymm15, ymm15, ymm5
+	vpor	ymm2, ymm15, ymm2
+	vpor	ymm1, ymm1, ymm2
+	vpmaxub	ymm2, ymm14, ymm0
+	vpcmpeqb	ymm2, ymm0, ymm2
+	vmovdqa	ymm6, ymmword ptr [rip + .LCPI11_3] # ymm6 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	vpand	ymm2, ymm2, ymm6
+	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 512] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vmovdqa	ymm3, ymmword ptr [rip + .LCPI11_4] # ymm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	vpand	ymm15, ymm15, ymm3
+	vpor	ymm2, ymm15, ymm2
+	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 1184] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vmovdqa	ymm4, ymmword ptr [rip + .LCPI11_5] # ymm4 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	vpand	ymm15, ymm15, ymm4
+	vpor	ymm2, ymm15, ymm2
+	vpor	ymm1, ymm1, ymm2
+	vpmaxub	ymm2, ymm0, ymmword ptr [rsp + 1152] # 32-byte Folded Reload
+	vpcmpeqb	ymm2, ymm0, ymm2
+	vmovdqa	ymm9, ymmword ptr [rip + .LCPI11_6] # ymm9 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	vpand	ymm2, ymm9, ymm2
+	vpor	ymm2, ymm1, ymm2
+	vpmaxub	ymm1, ymm0, ymmword ptr [rsp + 1120] # 32-byte Folded Reload
+	vpcmpeqb	ymm1, ymm0, ymm1
+	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 1088] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpand	ymm15, ymm15, ymm7
+	vpsubb	ymm1, ymm15, ymm1
+	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 1056] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpand	ymm15, ymm15, ymm8
+	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 1024] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vpand	ymm14, ymm14, ymm5
+	vpor	ymm14, ymm15, ymm14
+	vpor	ymm1, ymm14, ymm1
+	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 992] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vpand	ymm14, ymm14, ymm6
+	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 960] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpand	ymm15, ymm15, ymm3
+	vpor	ymm14, ymm14, ymm15
+	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 896] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpand	ymm15, ymm15, ymm4
+	vpor	ymm14, ymm14, ymm15
+	vpor	ymm1, ymm14, ymm1
+	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 928] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vpand	ymm14, ymm14, ymm9
+	vpor	ymm1, ymm14, ymm1
+	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 864] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 832] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpand	ymm15, ymm15, ymm7
+	vpsubb	ymm14, ymm15, ymm14
+	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 768] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpand	ymm15, ymm15, ymm8
+	vpmaxub	ymm13, ymm0, ymmword ptr [rsp + 800] # 32-byte Folded Reload
+	vpcmpeqb	ymm13, ymm13, ymm0
+	vpand	ymm13, ymm13, ymm5
+	vpor	ymm13, ymm15, ymm13
+	vpor	ymm13, ymm14, ymm13
+	vpmaxub	ymm14, ymm0, ymmword ptr [rsp + 704] # 32-byte Folded Reload
+	vpcmpeqb	ymm14, ymm14, ymm0
+	vpand	ymm14, ymm14, ymm6
+	vpmaxub	ymm15, ymm0, ymmword ptr [rsp + 736] # 32-byte Folded Reload
+	vpcmpeqb	ymm15, ymm15, ymm0
+	vpand	ymm15, ymm15, ymm3
+	vpor	ymm14, ymm14, ymm15
+	vpmaxub	ymm11, ymm11, ymm0
+	vpcmpeqb	ymm11, ymm11, ymm0
+	vpand	ymm11, ymm11, ymm4
+	vpor	ymm11, ymm14, ymm11
+	vpor	ymm11, ymm13, ymm11
+	vpmaxub	ymm12, ymm12, ymm0
+	vpcmpeqb	ymm12, ymm12, ymm0
+	vmovdqa	ymm13, ymm9
+	vpand	ymm12, ymm12, ymm9
+	vpor	ymm11, ymm11, ymm12
+	vpmaxub	ymm10, ymm10, ymm0
+	vpcmpeqb	ymm10, ymm10, ymm0
+	vpmaxub	ymm9, ymm0, ymmword ptr [rsp + 416] # 32-byte Folded Reload
+	vpcmpeqb	ymm9, ymm9, ymm0
+	vpand	ymm9, ymm9, ymm7
+	vpsubb	ymm9, ymm9, ymm10
+	vpmaxub	ymm7, ymm0, ymmword ptr [rsp + 576] # 32-byte Folded Reload
+	vpcmpeqb	ymm7, ymm0, ymm7
+	vpand	ymm7, ymm8, ymm7
+	vpmaxub	ymm8, ymm0, ymmword ptr [rsp + 608] # 32-byte Folded Reload
+	vpcmpeqb	ymm8, ymm8, ymm0
+	vpand	ymm8, ymm8, ymm5
+	vpor	ymm7, ymm8, ymm7
+	vpor	ymm7, ymm9, ymm7
+	vpmaxub	ymm5, ymm0, ymmword ptr [rsp + 640] # 32-byte Folded Reload
+	vpcmpeqb	ymm5, ymm0, ymm5
+	vpand	ymm5, ymm5, ymm6
+	vpmaxub	ymm6, ymm0, ymmword ptr [rsp + 672] # 32-byte Folded Reload
+	vpcmpeqb	ymm6, ymm0, ymm6
+	vpand	ymm6, ymm6, ymm3
+	vpor	ymm5, ymm5, ymm6
+	vpmaxub	ymm3, ymm0, ymmword ptr [rsp + 320] # 32-byte Folded Reload
+	vpcmpeqb	ymm3, ymm0, ymm3
+	vpand	ymm3, ymm3, ymm4
+	vpor	ymm3, ymm5, ymm3
+	vpor	ymm3, ymm7, ymm3
+	vpmaxub	ymm4, ymm0, ymmword ptr [rsp + 288] # 32-byte Folded Reload
+	vpcmpeqb	ymm4, ymm0, ymm4
+	vpand	ymm4, ymm13, ymm4
+	vpor	ymm3, ymm3, ymm4
+	vpunpcklbw	ymm4, ymm2, ymm1        # ymm4 = ymm2[0],ymm1[0],ymm2[1],ymm1[1],ymm2[2],ymm1[2],ymm2[3],ymm1[3],ymm2[4],ymm1[4],ymm2[5],ymm1[5],ymm2[6],ymm1[6],ymm2[7],ymm1[7],ymm2[16],ymm1[16],ymm2[17],ymm1[17],ymm2[18],ymm1[18],ymm2[19],ymm1[19],ymm2[20],ymm1[20],ymm2[21],ymm1[21],ymm2[22],ymm1[22],ymm2[23],ymm1[23]
+	vpunpckhbw	ymm1, ymm2, ymm1        # ymm1 = ymm2[8],ymm1[8],ymm2[9],ymm1[9],ymm2[10],ymm1[10],ymm2[11],ymm1[11],ymm2[12],ymm1[12],ymm2[13],ymm1[13],ymm2[14],ymm1[14],ymm2[15],ymm1[15],ymm2[24],ymm1[24],ymm2[25],ymm1[25],ymm2[26],ymm1[26],ymm2[27],ymm1[27],ymm2[28],ymm1[28],ymm2[29],ymm1[29],ymm2[30],ymm1[30],ymm2[31],ymm1[31]
+	vpunpcklbw	ymm2, ymm11, ymm3       # ymm2 = ymm11[0],ymm3[0],ymm11[1],ymm3[1],ymm11[2],ymm3[2],ymm11[3],ymm3[3],ymm11[4],ymm3[4],ymm11[5],ymm3[5],ymm11[6],ymm3[6],ymm11[7],ymm3[7],ymm11[16],ymm3[16],ymm11[17],ymm3[17],ymm11[18],ymm3[18],ymm11[19],ymm3[19],ymm11[20],ymm3[20],ymm11[21],ymm3[21],ymm11[22],ymm3[22],ymm11[23],ymm3[23]
+	vpunpckhbw	ymm3, ymm11, ymm3       # ymm3 = ymm11[8],ymm3[8],ymm11[9],ymm3[9],ymm11[10],ymm3[10],ymm11[11],ymm3[11],ymm11[12],ymm3[12],ymm11[13],ymm3[13],ymm11[14],ymm3[14],ymm11[15],ymm3[15],ymm11[24],ymm3[24],ymm11[25],ymm3[25],ymm11[26],ymm3[26],ymm11[27],ymm3[27],ymm11[28],ymm3[28],ymm11[29],ymm3[29],ymm11[30],ymm3[30],ymm11[31],ymm3[31]
+	vpunpcklwd	ymm5, ymm4, ymm2        # ymm5 = ymm4[0],ymm2[0],ymm4[1],ymm2[1],ymm4[2],ymm2[2],ymm4[3],ymm2[3],ymm4[8],ymm2[8],ymm4[9],ymm2[9],ymm4[10],ymm2[10],ymm4[11],ymm2[11]
+	vpunpckhwd	ymm2, ymm4, ymm2        # ymm2 = ymm4[4],ymm2[4],ymm4[5],ymm2[5],ymm4[6],ymm2[6],ymm4[7],ymm2[7],ymm4[12],ymm2[12],ymm4[13],ymm2[13],ymm4[14],ymm2[14],ymm4[15],ymm2[15]
+	vpunpcklwd	ymm4, ymm1, ymm3        # ymm4 = ymm1[0],ymm3[0],ymm1[1],ymm3[1],ymm1[2],ymm3[2],ymm1[3],ymm3[3],ymm1[8],ymm3[8],ymm1[9],ymm3[9],ymm1[10],ymm3[10],ymm1[11],ymm3[11]
+	vpunpckhwd	ymm1, ymm1, ymm3        # ymm1 = ymm1[4],ymm3[4],ymm1[5],ymm3[5],ymm1[6],ymm3[6],ymm1[7],ymm3[7],ymm1[12],ymm3[12],ymm1[13],ymm3[13],ymm1[14],ymm3[14],ymm1[15],ymm3[15]
+	vinserti128	ymm3, ymm5, xmm2, 1
+	vperm2i128	ymm2, ymm5, ymm2, 49    # ymm2 = ymm5[2,3],ymm2[2,3]
+	vinserti128	ymm5, ymm4, xmm1, 1
+	vperm2i128	ymm1, ymm4, ymm1, 49    # ymm1 = ymm4[2,3],ymm1[2,3]
+	mov	rcx, qword ptr [rsp + 376]      # 8-byte Reload
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 96], ymm1
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 64], ymm2
+	vmovdqu	ymmword ptr [r15 + 4*rcx + 32], ymm5
+	vmovdqu	ymmword ptr [r15 + 4*rcx], ymm3
+	add	rcx, 32
+	mov	rbx, rcx
+	cmp	rcx, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	jne	.LBB11_67
+# %bb.68:
+	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
+	cmp	r14, qword ptr [rsp + 384]      # 8-byte Folded Reload
+	mov	r11d, dword ptr [rsp + 28]      # 4-byte Reload
+	mov	r13, qword ptr [rsp + 368]      # 8-byte Reload
+	mov	rdi, qword ptr [rsp + 360]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 280]      # 8-byte Reload
+	jne	.LBB11_69
+	jmp	.LBB11_72
+.Lfunc_end11:
+	.size	comparison_greater_equal_scalar_arr_avx2, .Lfunc_end11-comparison_greater_equal_scalar_arr_avx2
+                                        # -- End function
+	.ident	"Ubuntu clang version 11.1.0-6"
+	.section	".note.GNU-stack","",@progbits
+	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/scalar_comparison_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/scalar_comparison_sse4_amd64.s
new file mode 100644
index 00000000000..762c9e85c5f
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/scalar_comparison_sse4_amd64.s
@@ -0,0 +1,59819 @@
+	.text
+	.intel_syntax noprefix
+	.file	"scalar_comparison.cc"
+	.globl	comparison_equal_arr_arr_sse4   # -- Begin function comparison_equal_arr_arr_sse4
+	.p2align	4, 0x90
+	.type	comparison_equal_arr_arr_sse4,@function
+comparison_equal_arr_arr_sse4:          # @comparison_equal_arr_arr_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -8
+	sub	rsp, 72
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r11, r8
+	mov	r14, rcx
+	cmp	edi, 6
+	jg	.LBB0_29
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB0_2
+# %bb.15:
+	cmp	edi, 4
+	je	.LBB0_68
+# %bb.16:
+	cmp	edi, 5
+	je	.LBB0_79
+# %bb.17:
+	cmp	edi, 6
+	jne	.LBB0_123
+# %bb.18:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_22
+# %bb.19:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_20:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_20
+# %bb.21:
+	add	r14, 1
+.LBB0_22:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_26
+# %bb.23:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_24:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	sete	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	sete	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	sete	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	sete	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	sete	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	sete	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	sete	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	sete	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	sete	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	sete	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB0_24
+# %bb.25:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB0_26:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.27:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_28:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rsi + 4*rcx]
+	cmp	edi, dword ptr [rdx + 4*rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_28
+	jmp	.LBB0_123
+.LBB0_29:
+	cmp	edi, 8
+	jle	.LBB0_30
+# %bb.43:
+	cmp	edi, 9
+	je	.LBB0_101
+# %bb.44:
+	cmp	edi, 11
+	je	.LBB0_112
+# %bb.45:
+	cmp	edi, 12
+	jne	.LBB0_123
+# %bb.46:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_50
+# %bb.47:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_48:                               # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	add	rsi, 8
+	ucomisd	xmm0, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_48
+# %bb.49:
+	add	r14, 1
+.LBB0_50:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_54
+# %bb.51:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_52:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	movsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	ucomisd	xmm1, qword ptr [rdx + 8]
+	sete	al
+	movsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 16]
+	movsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 24]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 32]
+	movsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 40]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 48]
+	movsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
+	sete	r13b
+	ucomisd	xmm0, qword ptr [rdx + 56]
+	sete	r15b
+	movsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 64]
+	movsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 72]
+	sete	cl
+	movsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 80]
+	movsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
+	sete	r9b
+	ucomisd	xmm0, qword ptr [rdx + 88]
+	sete	r11b
+	movsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 96]
+	movsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
+	sete	r10b
+	ucomisd	xmm0, qword ptr [rdx + 104]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 112]
+	movsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 120]
+	sete	bl
+	movsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 128]
+	movsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 136]
+	movsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
+	sete	r14b
+	ucomisd	xmm0, qword ptr [rdx + 144]
+	movsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
+	sete	r12b
+	ucomisd	xmm0, qword ptr [rdx + 152]
+	movsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 160]
+	movsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 168]
+	movsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 176]
+	movsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 184]
+	movsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
+	sete	r8b
+	ucomisd	xmm0, qword ptr [rdx + 192]
+	movsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 200]
+	movsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 208]
+	movsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 216]
+	movsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 224]
+	movsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 232]
+	movsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 240]
+	movsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	add	rsi, 256
+	ucomisd	xmm0, qword ptr [rdx + 248]
+	sete	dil
+	add	al, al
+	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r12b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB0_52
+# %bb.53:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB0_54:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.55:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_56:                               # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 8*rcx]
+	lea	r8, [rcx + 1]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_56
+	jmp	.LBB0_123
+.LBB0_2:
+	cmp	edi, 2
+	je	.LBB0_57
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB0_123
+# %bb.4:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_8
+# %bb.5:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_6:                                # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_6
+# %bb.7:
+	add	r14, 1
+.LBB0_8:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_12
+# %bb.9:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_10:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	sete	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	sete	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	sete	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	sete	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	sete	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	sete	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	sete	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	sete	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	sete	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	sete	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	sete	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB0_10
+# %bb.11:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB0_12:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.13:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_14:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rsi + rcx]
+	cmp	bl, byte ptr [rdx + rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_14
+	jmp	.LBB0_123
+.LBB0_30:
+	cmp	edi, 7
+	je	.LBB0_90
+# %bb.31:
+	cmp	edi, 8
+	jne	.LBB0_123
+# %bb.32:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_36
+# %bb.33:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_34:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_34
+# %bb.35:
+	add	r14, 1
+.LBB0_36:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_40
+# %bb.37:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_38:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	sete	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	sete	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	sete	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	sete	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	sete	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	sete	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	sete	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	sete	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	sete	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	sete	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB0_38
+# %bb.39:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB0_40:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.41:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_42:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rsi + 8*rcx]
+	cmp	rdi, qword ptr [rdx + 8*rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_42
+	jmp	.LBB0_123
+.LBB0_68:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_72
+# %bb.69:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_70:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_70
+# %bb.71:
+	add	r14, 1
+.LBB0_72:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_76
+# %bb.73:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_74:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	sete	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	sete	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	sete	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	sete	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	sete	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	sete	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	sete	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	sete	r12b
+	cmp	ax, word ptr [rdx + 40]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	sete	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	sete	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB0_74
+# %bb.75:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB0_76:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.77:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_78:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rsi + 2*rcx]
+	cmp	di, word ptr [rdx + 2*rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_78
+	jmp	.LBB0_123
+.LBB0_79:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_83
+# %bb.80:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_81:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_81
+# %bb.82:
+	add	r14, 1
+.LBB0_83:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_87
+# %bb.84:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_85:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	sete	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	sete	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	sete	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	sete	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	sete	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	sete	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	sete	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	sete	r12b
+	cmp	ax, word ptr [rdx + 40]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	sete	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	sete	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB0_85
+# %bb.86:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB0_87:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.88:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_89:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rsi + 2*rcx]
+	cmp	di, word ptr [rdx + 2*rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_89
+	jmp	.LBB0_123
+.LBB0_101:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_105
+# %bb.102:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_103:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_103
+# %bb.104:
+	add	r14, 1
+.LBB0_105:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_109
+# %bb.106:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_107:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	sete	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	sete	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	sete	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	sete	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	sete	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	sete	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	sete	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	sete	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	sete	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	sete	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB0_107
+# %bb.108:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB0_109:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.110:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_111:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rsi + 8*rcx]
+	cmp	rdi, qword ptr [rdx + 8*rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_111
+	jmp	.LBB0_123
+.LBB0_112:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_116
+# %bb.113:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_114:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	add	rsi, 4
+	ucomiss	xmm0, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_114
+# %bb.115:
+	add	r14, 1
+.LBB0_116:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_120
+# %bb.117:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_118:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	movss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	ucomiss	xmm1, dword ptr [rdx + 4]
+	sete	al
+	movss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 8]
+	movss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 12]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 16]
+	movss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 20]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 24]
+	movss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
+	sete	r13b
+	ucomiss	xmm0, dword ptr [rdx + 28]
+	sete	r15b
+	movss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 32]
+	movss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 36]
+	sete	cl
+	movss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 40]
+	movss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
+	sete	r9b
+	ucomiss	xmm0, dword ptr [rdx + 44]
+	sete	r11b
+	movss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 48]
+	movss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
+	sete	r10b
+	ucomiss	xmm0, dword ptr [rdx + 52]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 56]
+	movss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 60]
+	sete	bl
+	movss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 64]
+	movss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 68]
+	movss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
+	sete	r14b
+	ucomiss	xmm0, dword ptr [rdx + 72]
+	movss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
+	sete	r12b
+	ucomiss	xmm0, dword ptr [rdx + 76]
+	movss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 80]
+	movss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 84]
+	movss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 88]
+	movss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 92]
+	movss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
+	sete	r8b
+	ucomiss	xmm0, dword ptr [rdx + 96]
+	movss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 100]
+	movss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 104]
+	movss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 108]
+	movss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 112]
+	movss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 116]
+	movss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 120]
+	movss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	sub	rsi, -128
+	ucomiss	xmm0, dword ptr [rdx + 124]
+	sete	dil
+	add	al, al
+	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r12b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB0_118
+# %bb.119:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB0_120:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.121:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_122:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 4*rcx]
+	lea	r8, [rcx + 1]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_122
+	jmp	.LBB0_123
+.LBB0_57:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_61
+# %bb.58:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_59:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_59
+# %bb.60:
+	add	r14, 1
+.LBB0_61:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_65
+# %bb.62:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_63:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	sete	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	sete	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	sete	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	sete	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	sete	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	sete	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	sete	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	sete	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	sete	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	sete	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	sete	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB0_63
+# %bb.64:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB0_65:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.66:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_67:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rsi + rcx]
+	cmp	bl, byte ptr [rdx + rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_67
+	jmp	.LBB0_123
+.LBB0_90:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB0_94
+# %bb.91:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB0_92:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	sete	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB0_92
+# %bb.93:
+	add	r14, 1
+.LBB0_94:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB0_98
+# %bb.95:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB0_96:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	sete	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	sete	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	sete	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	sete	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	sete	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	sete	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	sete	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	sete	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	sete	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	sete	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	sete	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	sete	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	sete	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	sete	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	sete	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	sete	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	sete	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	sete	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	sete	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	sete	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	sete	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	sete	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	sete	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	sete	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	sete	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	sete	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	sete	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	sete	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB0_96
+# %bb.97:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB0_98:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB0_123
+# %bb.99:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB0_100:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rsi + 4*rcx]
+	cmp	edi, dword ptr [rdx + 4*rcx]
+	sete	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB0_100
+.LBB0_123:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.Lfunc_end0:
+	.size	comparison_equal_arr_arr_sse4, .Lfunc_end0-comparison_equal_arr_arr_sse4
+                                        # -- End function
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4                               # -- Begin function comparison_equal_arr_scalar_sse4
+.LCPI1_0:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI1_1:
+	.zero	16,252
+.LCPI1_2:
+	.zero	16,248
+.LCPI1_3:
+	.zero	16,240
+.LCPI1_4:
+	.zero	16,224
+.LCPI1_5:
+	.zero	16,192
+.LCPI1_6:
+	.zero	16,128
+.LCPI1_7:
+	.byte	0                               # 0x0
+	.byte	8                               # 0x8
+	.byte	1                               # 0x1
+	.byte	9                               # 0x9
+	.byte	2                               # 0x2
+	.byte	10                              # 0xa
+	.byte	3                               # 0x3
+	.byte	11                              # 0xb
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+.LCPI1_8:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI1_9:
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI1_10:
+	.zero	16,1
+.LCPI1_11:
+	.zero	16,4
+.LCPI1_12:
+	.zero	16,8
+.LCPI1_13:
+	.zero	16,16
+.LCPI1_14:
+	.zero	16,32
+.LCPI1_15:
+	.zero	16,64
+	.text
+	.globl	comparison_equal_arr_scalar_sse4
+	.p2align	4, 0x90
+	.type	comparison_equal_arr_scalar_sse4,@function
+comparison_equal_arr_scalar_sse4:       # @comparison_equal_arr_scalar_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -16
+	sub	rsp, 320
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r10, r8
+	mov	r14, rcx
+	cmp	edi, 6
+	jg	.LBB1_26
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB1_2
+# %bb.10:
+	cmp	edi, 4
+	je	.LBB1_100
+# %bb.11:
+	cmp	edi, 5
+	je	.LBB1_123
+# %bb.12:
+	cmp	edi, 6
+	jne	.LBB1_202
+# %bb.13:
+	mov	r13d, dword ptr [rdx]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_17
+# %bb.14:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_15:                               # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	sete	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_15
+# %bb.16:
+	add	r14, 1
+.LBB1_17:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB1_21
+# %bb.18:
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_19:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	cmp	dword ptr [rsi], r13d
+	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	sete	dil
+	cmp	dword ptr [rsi + 8], r13d
+	sete	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	sete	al
+	cmp	dword ptr [rsi + 28], r13d
+	sete	bl
+	cmp	dword ptr [rsi + 32], r13d
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	sete	dl
+	cmp	dword ptr [rsi + 40], r13d
+	sete	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	sete	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	sete	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	sete	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	sete	cl
+	cmp	dword ptr [rsi + 64], r13d
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	sete	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	sete	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 128
+	add	r14, 4
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB1_19
+# %bb.20:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+.LBB1_21:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB1_202
+# %bb.22:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	je	.LBB1_23
+# %bb.146:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB1_147:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	sete	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	sete	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB1_147
+	jmp	.LBB1_24
+.LBB1_26:
+	cmp	edi, 8
+	jle	.LBB1_27
+# %bb.42:
+	cmp	edi, 9
+	je	.LBB1_162
+# %bb.43:
+	cmp	edi, 11
+	je	.LBB1_174
+# %bb.44:
+	cmp	edi, 12
+	jne	.LBB1_202
+# %bb.45:
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB1_49
+# %bb.46:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_47:                               # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rsi]
+	lea	rsi, [rsi + 8]
+	sete	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_47
+# %bb.48:
+	add	r14, 1
+.LBB1_49:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB1_53
+# %bb.50:
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_51:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	ucomisd	xmm0, qword ptr [rsi]
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 8]
+	sete	r9b
+	ucomisd	xmm0, qword ptr [rsi + 16]
+	sete	r14b
+	ucomisd	xmm0, qword ptr [rsi + 24]
+	sete	r13b
+	ucomisd	xmm0, qword ptr [rsi + 32]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 40]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 48]
+	sete	al
+	ucomisd	xmm0, qword ptr [rsi + 56]
+	sete	bl
+	ucomisd	xmm0, qword ptr [rsi + 64]
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 72]
+	sete	dl
+	ucomisd	xmm0, qword ptr [rsi + 80]
+	sete	dil
+	ucomisd	xmm0, qword ptr [rsi + 88]
+	sete	r10b
+	ucomisd	xmm0, qword ptr [rsi + 96]
+	sete	r11b
+	ucomisd	xmm0, qword ptr [rsi + 104]
+	sete	r12b
+	ucomisd	xmm0, qword ptr [rsi + 112]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 120]
+	sete	cl
+	ucomisd	xmm0, qword ptr [rsi + 128]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 136]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 144]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 152]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 160]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 168]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 176]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 184]
+	sete	r15b
+	ucomisd	xmm0, qword ptr [rsi + 192]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 200]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 208]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 216]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 224]
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 232]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 240]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 248]
+	sete	r8b
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r9b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r9d, edx
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 256
+	add	r14, 4
+	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
+	jne	.LBB1_51
+# %bb.52:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
+.LBB1_53:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB1_202
+# %bb.54:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB1_197
+# %bb.55:
+	xor	r11d, r11d
+	jmp	.LBB1_199
+.LBB1_2:
+	cmp	edi, 2
+	je	.LBB1_56
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB1_202
+# %bb.4:
+	mov	r11b, byte ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_8
+# %bb.5:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_6:                                # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r11b
+	lea	rsi, [rsi + 1]
+	sete	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_6
+# %bb.7:
+	add	r14, 1
+.LBB1_8:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB1_9
+# %bb.82:
+	cmp	r15, 16
+	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
+	jb	.LBB1_83
+# %bb.84:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB1_86
+# %bb.85:
+	lea	rax, [r14 + 4*r15]
+	cmp	rsi, rax
+	jae	.LBB1_86
+.LBB1_83:
+	xor	eax, eax
+	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
+.LBB1_89:
+	mov	r14, r15
+	sub	r14, qword ptr [rsp + 248]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_90:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, rsi
+	cmp	byte ptr [rsi], r11b
+	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	byte ptr [rsi + 1], r11b
+	sete	sil
+	cmp	byte ptr [rcx + 2], r11b
+	sete	r15b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 3], al
+	sete	r12b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 4], al
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 5], al
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 6], al
+	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 7], al
+	sete	r9b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 8], al
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 9], al
+	sete	dl
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 10], al
+	sete	dil
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 11], al
+	sete	r10b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 12], al
+	sete	r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 13], al
+	sete	r13b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 14], al
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 15], al
+	sete	r8b
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 16], bl
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 17], bl
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 18], bl
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 19], bl
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 20], bl
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 21], bl
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 22], bl
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 23], bl
+	sete	r11b
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 24], bl
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 25], bl
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 26], bl
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 27], bl
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 28], bl
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 29], bl
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 30], bl
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 31], bl
+	sete	bl
+	add	sil, sil
+	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r9b, 7
+	or	r9b, al
+	shl	r15b, 2
+	or	r15b, sil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	shl	r12b, 3
+	or	r12b, r15b
+	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
+	shl	dil, 2
+	or	dil, dl
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, al
+	shl	r14b, 4
+	or	r14b, r10b
+	shl	r13b, 5
+	or	r13b, r14b
+	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r8b, 7
+	or	r8b, sil
+	or	r9b, dl
+	or	r8b, r13b
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	esi, edx
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	mov	byte ptr [rdx], r9b
+	movzx	edi, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r11b, 7
+	or	r11b, dil
+	mov	byte ptr [rdx + 1], r8b
+	or	r11b, sil
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 56]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	movzx	esi, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	bl, 7
+	or	bl, sil
+	or	bl, al
+	mov	byte ptr [rdx + 2], r11b
+	mov	r11d, r15d
+	mov	byte ptr [rdx + 3], bl
+	lea	rsi, [rcx + 32]
+	add	rdx, 4
+	mov	qword ptr [rsp + 120], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB1_90
+# %bb.91:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	jmp	.LBB1_92
+.LBB1_27:
+	cmp	edi, 7
+	je	.LBB1_148
+# %bb.28:
+	cmp	edi, 8
+	jne	.LBB1_202
+# %bb.29:
+	mov	r13, qword ptr [rdx]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_33
+# %bb.30:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_31:                               # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	sete	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_31
+# %bb.32:
+	add	r14, 1
+.LBB1_33:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB1_37
+# %bb.34:
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_35:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	cmp	qword ptr [rsi], r13
+	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	sete	dil
+	cmp	qword ptr [rsi + 16], r13
+	sete	r14b
+	cmp	qword ptr [rsi + 24], r13
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	sete	al
+	cmp	qword ptr [rsi + 56], r13
+	sete	bl
+	cmp	qword ptr [rsi + 64], r13
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	sete	dl
+	cmp	qword ptr [rsi + 80], r13
+	sete	r9b
+	cmp	qword ptr [rsi + 88], r13
+	sete	r10b
+	cmp	qword ptr [rsi + 96], r13
+	sete	r11b
+	cmp	qword ptr [rsi + 104], r13
+	sete	r12b
+	cmp	qword ptr [rsi + 112], r13
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	sete	cl
+	cmp	qword ptr [rsi + 128], r13
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	sete	r15b
+	cmp	qword ptr [rsi + 192], r13
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	sete	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 256
+	add	r14, 4
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB1_35
+# %bb.36:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+.LBB1_37:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB1_202
+# %bb.38:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	je	.LBB1_39
+# %bb.160:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB1_161:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	sete	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	sete	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB1_161
+	jmp	.LBB1_40
+.LBB1_56:
+	mov	r11b, byte ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_60
+# %bb.57:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_58:                               # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r11b
+	lea	rsi, [rsi + 1]
+	sete	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_58
+# %bb.59:
+	add	r14, 1
+.LBB1_60:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB1_61
+# %bb.62:
+	cmp	r15, 16
+	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
+	jb	.LBB1_63
+# %bb.64:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB1_66
+# %bb.65:
+	lea	rax, [r14 + 4*r15]
+	cmp	rsi, rax
+	jae	.LBB1_66
+.LBB1_63:
+	xor	eax, eax
+	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 80], r14       # 8-byte Spill
+.LBB1_69:
+	mov	r14, r15
+	sub	r14, qword ptr [rsp + 248]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_70:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, rsi
+	cmp	byte ptr [rsi], r11b
+	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	byte ptr [rsi + 1], r11b
+	sete	sil
+	cmp	byte ptr [rcx + 2], r11b
+	sete	r15b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 3], al
+	sete	r12b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 4], al
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 5], al
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 6], al
+	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 7], al
+	sete	r9b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 8], al
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 9], al
+	sete	dl
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 10], al
+	sete	dil
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 11], al
+	sete	r10b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 12], al
+	sete	r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 13], al
+	sete	r13b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 14], al
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 15], al
+	sete	r8b
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 16], bl
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 17], bl
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 18], bl
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 19], bl
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 20], bl
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 21], bl
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 22], bl
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 23], bl
+	sete	r11b
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 24], bl
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 25], bl
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 26], bl
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 27], bl
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 28], bl
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 29], bl
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 30], bl
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 31], bl
+	sete	bl
+	add	sil, sil
+	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r9b, 7
+	or	r9b, al
+	shl	r15b, 2
+	or	r15b, sil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	shl	r12b, 3
+	or	r12b, r15b
+	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
+	shl	dil, 2
+	or	dil, dl
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, al
+	shl	r14b, 4
+	or	r14b, r10b
+	shl	r13b, 5
+	or	r13b, r14b
+	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r8b, 7
+	or	r8b, sil
+	or	r9b, dl
+	or	r8b, r13b
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	esi, edx
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	mov	byte ptr [rdx], r9b
+	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r11b, 7
+	or	r11b, dil
+	mov	byte ptr [rdx + 1], r8b
+	or	r11b, sil
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 56]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	movzx	esi, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	bl, 7
+	or	bl, sil
+	or	bl, al
+	mov	byte ptr [rdx + 2], r11b
+	mov	r11d, r15d
+	mov	byte ptr [rdx + 3], bl
+	lea	rsi, [rcx + 32]
+	add	rdx, 4
+	mov	qword ptr [rsp + 80], rdx       # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB1_70
+# %bb.71:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	jmp	.LBB1_72
+.LBB1_148:
+	mov	r13d, dword ptr [rdx]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_152
+# %bb.149:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_150:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	sete	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_150
+# %bb.151:
+	add	r14, 1
+.LBB1_152:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB1_156
+# %bb.153:
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_154:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	cmp	dword ptr [rsi], r13d
+	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	sete	dil
+	cmp	dword ptr [rsi + 8], r13d
+	sete	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	sete	al
+	cmp	dword ptr [rsi + 28], r13d
+	sete	bl
+	cmp	dword ptr [rsi + 32], r13d
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	sete	dl
+	cmp	dword ptr [rsi + 40], r13d
+	sete	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	sete	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	sete	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	sete	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	sete	cl
+	cmp	dword ptr [rsi + 64], r13d
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	sete	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	sete	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 128
+	add	r14, 4
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB1_154
+# %bb.155:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+.LBB1_156:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB1_202
+# %bb.157:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB1_158
+.LBB1_23:
+	xor	r11d, r11d
+	jmp	.LBB1_24
+.LBB1_100:
+	movzx	r13d, word ptr [rdx]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_104
+# %bb.101:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_102:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	lea	rsi, [rsi + 2]
+	sete	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_102
+# %bb.103:
+	add	r14, 1
+.LBB1_104:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB1_105
+# %bb.106:
+	cmp	r11, 8
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	jb	.LBB1_107
+# %bb.108:
+	mov	rax, r11
+	shl	rax, 6
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB1_110
+# %bb.109:
+	lea	rax, [r14 + 4*r11]
+	cmp	rax, rsi
+	jbe	.LBB1_110
+.LBB1_107:
+	xor	eax, eax
+	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
+	mov	qword ptr [rsp + 8], r14        # 8-byte Spill
+.LBB1_113:
+	sub	r11, qword ptr [rsp + 16]       # 8-byte Folded Reload
+	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_114:                              # =>This Inner Loop Header: Depth=1
+	mov	r11, rsi
+	cmp	word ptr [rsi], r13w
+	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 2], r13w
+	sete	r8b
+	cmp	word ptr [rsi + 4], r13w
+	sete	r14b
+	cmp	word ptr [rsi + 6], r13w
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 8], r13w
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 10], r13w
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 12], r13w
+	sete	al
+	cmp	word ptr [rsi + 14], r13w
+	sete	bl
+	cmp	word ptr [rsi + 16], r13w
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 18], r13w
+	sete	cl
+	cmp	word ptr [rsi + 20], r13w
+	sete	sil
+	cmp	word ptr [r11 + 22], r13w
+	sete	r9b
+	cmp	word ptr [r11 + 24], r13w
+	sete	r10b
+	cmp	word ptr [r11 + 26], r13w
+	sete	r12b
+	cmp	word ptr [r11 + 28], r13w
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 30], r13w
+	sete	dil
+	cmp	word ptr [r11 + 32], r13w
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 34], r13w
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 36], r13w
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 38], r13w
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 40], r13w
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 42], r13w
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 44], r13w
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 46], r13w
+	sete	r15b
+	cmp	word ptr [r11 + 48], r13w
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 50], r13w
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 52], r13w
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 54], r13w
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 56], r13w
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 58], r13w
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 60], r13w
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 62], r13w
+	sete	dl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	sil, 2
+	or	sil, cl
+	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r9b, 3
+	or	r9b, sil
+	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	dil, 7
+	or	dil, sil
+	or	bl, cl
+	or	dil, r12b
+	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, sil
+	mov	esi, ecx
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	byte ptr [rcx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rcx + 1], dil
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rcx + 2], r15b
+	mov	byte ptr [rcx + 3], dl
+	lea	rsi, [r11 + 64]
+	add	rcx, 4
+	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB1_114
+# %bb.115:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	jmp	.LBB1_116
+.LBB1_123:
+	movzx	r13d, word ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_127
+# %bb.124:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_125:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	lea	rsi, [rsi + 2]
+	sete	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_125
+# %bb.126:
+	add	r14, 1
+.LBB1_127:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB1_128
+# %bb.129:
+	cmp	r15, 8
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
+	jb	.LBB1_130
+# %bb.131:
+	mov	rax, r15
+	shl	rax, 6
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB1_133
+# %bb.132:
+	lea	rax, [r14 + 4*r15]
+	cmp	rax, rsi
+	jbe	.LBB1_133
+.LBB1_130:
+	xor	eax, eax
+	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
+	mov	r12, r14
+.LBB1_136:
+	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
+	mov	r14, r15
+	sub	r14, qword ptr [rsp + 16]       # 8-byte Folded Reload
+	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_137:                              # =>This Inner Loop Header: Depth=1
+	mov	r11, rsi
+	cmp	word ptr [rsi], r13w
+	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 2], r13w
+	sete	r8b
+	cmp	word ptr [rsi + 4], r13w
+	sete	r14b
+	cmp	word ptr [rsi + 6], r13w
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 8], r13w
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 10], r13w
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 12], r13w
+	sete	al
+	cmp	word ptr [rsi + 14], r13w
+	sete	bl
+	cmp	word ptr [rsi + 16], r13w
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 18], r13w
+	sete	cl
+	cmp	word ptr [rsi + 20], r13w
+	sete	sil
+	cmp	word ptr [r11 + 22], r13w
+	sete	r9b
+	cmp	word ptr [r11 + 24], r13w
+	sete	r10b
+	cmp	word ptr [r11 + 26], r13w
+	sete	r12b
+	cmp	word ptr [r11 + 28], r13w
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 30], r13w
+	sete	dil
+	cmp	word ptr [r11 + 32], r13w
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 34], r13w
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 36], r13w
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 38], r13w
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 40], r13w
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 42], r13w
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 44], r13w
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 46], r13w
+	sete	r15b
+	cmp	word ptr [r11 + 48], r13w
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 50], r13w
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 52], r13w
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 54], r13w
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 56], r13w
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 58], r13w
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 60], r13w
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 62], r13w
+	sete	dl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	sil, 2
+	or	sil, cl
+	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r9b, 3
+	or	r9b, sil
+	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	dil, 7
+	or	dil, sil
+	or	bl, cl
+	or	dil, r12b
+	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, sil
+	mov	esi, ecx
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	byte ptr [rcx], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rcx + 1], dil
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rcx + 2], r15b
+	mov	byte ptr [rcx + 3], dl
+	lea	rsi, [r11 + 64]
+	add	rcx, 4
+	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB1_137
+# %bb.138:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	jmp	.LBB1_139
+.LBB1_162:
+	mov	r13, qword ptr [rdx]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB1_166
+# %bb.163:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_164:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	sete	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_164
+# %bb.165:
+	add	r14, 1
+.LBB1_166:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB1_170
+# %bb.167:
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_168:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	cmp	qword ptr [rsi], r13
+	sete	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	sete	dil
+	cmp	qword ptr [rsi + 16], r13
+	sete	r14b
+	cmp	qword ptr [rsi + 24], r13
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	sete	al
+	cmp	qword ptr [rsi + 56], r13
+	sete	bl
+	cmp	qword ptr [rsi + 64], r13
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	sete	dl
+	cmp	qword ptr [rsi + 80], r13
+	sete	r9b
+	cmp	qword ptr [rsi + 88], r13
+	sete	r10b
+	cmp	qword ptr [rsi + 96], r13
+	sete	r11b
+	cmp	qword ptr [rsi + 104], r13
+	sete	r12b
+	cmp	qword ptr [rsi + 112], r13
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	sete	cl
+	cmp	qword ptr [rsi + 128], r13
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	sete	r15b
+	cmp	qword ptr [rsi + 192], r13
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	sete	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 256
+	add	r14, 4
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB1_168
+# %bb.169:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+.LBB1_170:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB1_202
+# %bb.171:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB1_172
+.LBB1_39:
+	xor	r11d, r11d
+	jmp	.LBB1_40
+.LBB1_174:
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB1_178
+# %bb.175:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB1_176:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rsi]
+	lea	rsi, [rsi + 4]
+	sete	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB1_176
+# %bb.177:
+	add	r14, 1
+.LBB1_178:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB1_179
+# %bb.180:
+	cmp	r11, 4
+	jb	.LBB1_181
+# %bb.182:
+	mov	rax, r11
+	shl	rax, 7
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB1_184
+# %bb.183:
+	lea	rax, [r14 + 4*r11]
+	cmp	rax, rsi
+	jbe	.LBB1_184
+.LBB1_181:
+	xor	r8d, r8d
+	mov	rbx, rsi
+	mov	r15, r14
+.LBB1_187:
+	mov	qword ptr [rsp + 8], r15        # 8-byte Spill
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
+	sub	r11, r8
+	mov	qword ptr [rsp + 224], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_188:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rbx]
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 4]
+	sete	r8b
+	ucomiss	xmm0, dword ptr [rbx + 8]
+	sete	r14b
+	ucomiss	xmm0, dword ptr [rbx + 12]
+	sete	r13b
+	ucomiss	xmm0, dword ptr [rbx + 16]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 20]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 24]
+	sete	al
+	ucomiss	xmm0, dword ptr [rbx + 28]
+	sete	r11b
+	ucomiss	xmm0, dword ptr [rbx + 32]
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 36]
+	sete	dl
+	ucomiss	xmm0, dword ptr [rbx + 40]
+	sete	sil
+	ucomiss	xmm0, dword ptr [rbx + 44]
+	sete	dil
+	ucomiss	xmm0, dword ptr [rbx + 48]
+	sete	r10b
+	ucomiss	xmm0, dword ptr [rbx + 52]
+	sete	r12b
+	ucomiss	xmm0, dword ptr [rbx + 56]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 60]
+	sete	r9b
+	ucomiss	xmm0, dword ptr [rbx + 64]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 68]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 72]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 76]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 80]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 84]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 88]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 92]
+	sete	r15b
+	ucomiss	xmm0, dword ptr [rbx + 96]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 100]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 104]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 108]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 112]
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 116]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 120]
+	sete	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 124]
+	sete	cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r15b, 7
+	or	r15b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r15b, dl
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dl, 6
+	shl	cl, 7
+	or	cl, dl
+	or	cl, al
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], cl
+	add	rbx, 128
+	add	rsi, 4
+	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
+	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
+	jne	.LBB1_188
+# %bb.189:
+	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
+	jmp	.LBB1_190
+.LBB1_9:
+	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
+.LBB1_92:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB1_202
+# %bb.93:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB1_95
+# %bb.94:
+	xor	r9d, r9d
+	jmp	.LBB1_98
+.LBB1_61:
+	mov	qword ptr [rsp + 80], r14       # 8-byte Spill
+.LBB1_72:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB1_202
+# %bb.73:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB1_75
+# %bb.74:
+	xor	r9d, r9d
+	jmp	.LBB1_78
+.LBB1_105:
+	mov	qword ptr [rsp + 8], r14        # 8-byte Spill
+.LBB1_116:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB1_202
+# %bb.117:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB1_121
+# %bb.118:
+	xor	r14d, r14d
+	jmp	.LBB1_119
+.LBB1_128:
+	mov	r12, r14
+.LBB1_139:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB1_202
+# %bb.140:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB1_144
+# %bb.141:
+	xor	r14d, r14d
+	jmp	.LBB1_142
+.LBB1_179:
+	mov	r15, r14
+	mov	rbx, rsi
+.LBB1_190:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB1_202
+# %bb.191:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB1_195
+# %bb.192:
+	xor	esi, esi
+	jmp	.LBB1_193
+.LBB1_158:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB1_159:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	sete	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	sete	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB1_159
+.LBB1_24:
+	test	r8b, 1
+	je	.LBB1_202
+# %bb.25:
+	cmp	dword ptr [rsi], r13d
+	jmp	.LBB1_201
+.LBB1_95:
+	mov	r10, r8
+	and	r10, -2
+	xor	r9d, r9d
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB1_96:                               # =>This Inner Loop Header: Depth=1
+	mov	rax, r9
+	cmp	byte ptr [rsi + r9], r11b
+	sete	bl
+	neg	bl
+	mov	rdi, r9
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r14 + rdi], dl
+	cmp	byte ptr [rsi + rax + 1], r11b
+	lea	r9, [rax + 2]
+	sete	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r14 + rdi], al
+	cmp	r10, r9
+	jne	.LBB1_96
+# %bb.97:
+	add	rsi, r9
+.LBB1_98:
+	test	r8b, 1
+	je	.LBB1_202
+# %bb.99:
+	cmp	byte ptr [rsi], r11b
+	sete	al
+	neg	al
+	mov	rdx, r9
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	jmp	.LBB1_80
+.LBB1_75:
+	mov	r10, r8
+	and	r10, -2
+	xor	r9d, r9d
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	.p2align	4, 0x90
+.LBB1_76:                               # =>This Inner Loop Header: Depth=1
+	mov	rax, r9
+	cmp	byte ptr [rsi + r9], r11b
+	sete	bl
+	neg	bl
+	mov	rdi, r9
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r14 + rdi], dl
+	cmp	byte ptr [rsi + rax + 1], r11b
+	lea	r9, [rax + 2]
+	sete	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r14 + rdi], al
+	cmp	r10, r9
+	jne	.LBB1_76
+# %bb.77:
+	add	rsi, r9
+.LBB1_78:
+	test	r8b, 1
+	je	.LBB1_202
+# %bb.79:
+	cmp	byte ptr [rsi], r11b
+	sete	al
+	neg	al
+	mov	rdx, r9
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+.LBB1_80:
+	mov	dil, byte ptr [r8 + rdx]
+	and	r9b, 7
+	mov	bl, 1
+	mov	ecx, r9d
+	jmp	.LBB1_81
+.LBB1_197:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB1_198:                              # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rsi]
+	sete	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	al, r9b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	r11, 2
+	ucomisd	xmm0, qword ptr [rsi + 8]
+	lea	rsi, [rsi + 16]
+	sete	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB1_198
+.LBB1_199:
+	test	r8b, 1
+	je	.LBB1_202
+# %bb.200:
+	ucomisd	xmm0, qword ptr [rsi]
+	jmp	.LBB1_201
+.LBB1_172:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB1_173:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	sete	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	sete	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB1_173
+.LBB1_40:
+	test	r8b, 1
+	je	.LBB1_202
+# %bb.41:
+	cmp	qword ptr [rsi], r13
+.LBB1_201:
+	sete	al
+	neg	al
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	xor	bl, sil
+	mov	byte ptr [r14 + rdx], bl
+	jmp	.LBB1_202
+.LBB1_121:
+	mov	r9, r8
+	and	r9, -2
+	xor	r14d, r14d
+	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
+	.p2align	4, 0x90
+.LBB1_122:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, rsi
+	cmp	word ptr [rsi], r13w
+	sete	dl
+	neg	dl
+	mov	rdi, r14
+	shr	rdi, 3
+	movzx	r10d, byte ptr [r11 + rdi]
+	mov	ecx, r14d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	dl, r10b
+	and	bl, dl
+	xor	bl, r10b
+	mov	byte ptr [r11 + rdi], bl
+	add	r14, 2
+	cmp	word ptr [rsi + 2], r13w
+	lea	rsi, [rsi + 4]
+	sete	dl
+	neg	dl
+	xor	dl, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, bl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r9, r14
+	jne	.LBB1_122
+.LBB1_119:
+	test	r8b, 1
+	je	.LBB1_202
+# %bb.120:
+	cmp	word ptr [rsi], r13w
+	sete	al
+	neg	al
+	mov	rdx, r14
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	r14b, 7
+	mov	bl, 1
+	mov	ecx, r14d
+.LBB1_81:
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r8 + rdx], bl
+	jmp	.LBB1_202
+.LBB1_144:
+	mov	r9, r8
+	and	r9, -2
+	xor	r14d, r14d
+	.p2align	4, 0x90
+.LBB1_145:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, rsi
+	cmp	word ptr [rsi], r13w
+	sete	dl
+	neg	dl
+	mov	rdi, r14
+	shr	rdi, 3
+	movzx	r10d, byte ptr [r12 + rdi]
+	mov	ecx, r14d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	dl, r10b
+	and	bl, dl
+	xor	bl, r10b
+	mov	byte ptr [r12 + rdi], bl
+	add	r14, 2
+	cmp	word ptr [rsi + 2], r13w
+	lea	rsi, [rsi + 4]
+	sete	dl
+	neg	dl
+	xor	dl, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, bl
+	mov	byte ptr [r12 + rdi], al
+	cmp	r9, r14
+	jne	.LBB1_145
+.LBB1_142:
+	test	r8b, 1
+	je	.LBB1_202
+# %bb.143:
+	cmp	word ptr [rsi], r13w
+	sete	al
+	neg	al
+	mov	rdx, r14
+	shr	rdx, 3
+	mov	dil, byte ptr [r12 + rdx]
+	and	r14b, 7
+	mov	bl, 1
+	mov	ecx, r14d
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r12 + rdx], bl
+	jmp	.LBB1_202
+.LBB1_195:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, r15
+	.p2align	4, 0x90
+.LBB1_196:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rbx]
+	sete	dl
+	neg	dl
+	mov	rdi, rsi
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	dl, r9b
+	mov	ecx, esi
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, r9b
+	mov	byte ptr [r11 + rdi], al
+	add	rsi, 2
+	ucomiss	xmm0, dword ptr [rbx + 4]
+	lea	rbx, [rbx + 8]
+	sete	r9b
+	neg	r9b
+	xor	r9b, al
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, r9b
+	xor	dl, al
+	mov	byte ptr [r11 + rdi], dl
+	cmp	r10, rsi
+	jne	.LBB1_196
+.LBB1_193:
+	test	r8b, 1
+	je	.LBB1_202
+# %bb.194:
+	ucomiss	xmm0, dword ptr [rbx]
+	sete	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	r14, r15
+	mov	dil, byte ptr [r15 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r15 + rdx], bl
+.LBB1_202:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.LBB1_86:
+	and	r15, -16
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 248], r15      # 8-byte Spill
+	lea	rax, [r14 + 4*r15]
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	movzx	eax, r11b
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_87:                               # =>This Inner Loop Header: Depth=1
+	mov	rdi, rax
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	shl	rdi, 5
+	mov	r11, rdi
+	mov	r14, rdi
+	mov	rbx, rdi
+	mov	r15, rdi
+	mov	r10, rdi
+	mov	r8, rdi
+	mov	r12, rdi
+	mov	r9, rdi
+	mov	rdx, rdi
+	mov	qword ptr [rsp + 88], rdi       # 8-byte Spill
+	mov	qword ptr [rsp + 56], rdi       # 8-byte Spill
+	movzx	ecx, byte ptr [rsi + rdi]
+	movd	xmm15, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 1]
+	movd	xmm5, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 2]
+	movd	xmm6, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 3]
+	movd	xmm2, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 4]
+	movd	xmm1, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 5]
+	movd	xmm8, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 6]
+	movd	xmm3, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 7]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + rdi + 8]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + rdi + 9]
+	movd	xmm10, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 10]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + rdi + 11]
+	movd	xmm11, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 12]
+	movd	xmm13, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 13]
+	movd	xmm12, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 14]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 288], xmm0   # 16-byte Spill
+	mov	qword ptr [rsp + 32], rdi       # 8-byte Spill
+	mov	r13, rdi
+	or	r13, 32
+	mov	qword ptr [rsp + 40], r13       # 8-byte Spill
+	mov	rcx, rdi
+	or	rcx, 64
+	mov	qword ptr [rsp + 64], rcx       # 8-byte Spill
+	or	r11, 96
+	or	rbx, 128
+	or	r14, 160
+	or	r15, 192
+	or	r10, 224
+	or	r12, 256
+	or	r9, 288
+	mov	qword ptr [rsp + 128], r9       # 8-byte Spill
+	or	rdx, 320
+	mov	qword ptr [rsp + 48], rdx       # 8-byte Spill
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	or	rdx, 352
+	mov	qword ptr [rsp + 88], rdx       # 8-byte Spill
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	or	r8, 384
+	mov	rax, rdi
+	or	rax, 416
+	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
+	mov	rax, rdi
+	or	rax, 448
+	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
+	mov	rax, rdi
+	or	rax, 480
+	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rsi + r13], 1
+	pinsrb	xmm15, byte ptr [rsi + rcx], 2
+	mov	qword ptr [rsp + 104], r11      # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rsi + r11], 3
+	mov	qword ptr [rsp + 80], rbx       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rsi + rbx], 4
+	mov	qword ptr [rsp + 96], r14       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rsi + r14], 5
+	pinsrb	xmm15, byte ptr [rsi + r15], 6
+	mov	rdi, r10
+	pinsrb	xmm15, byte ptr [rsi + r10], 7
+	pinsrb	xmm15, byte ptr [rsi + r12], 8
+	pinsrb	xmm15, byte ptr [rsi + r9], 9
+	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + r13], 10
+	pinsrb	xmm15, byte ptr [rsi + rdx], 11
+	pinsrb	xmm15, byte ptr [rsi + r8], 12
+	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + r9], 13
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rcx], 14
+	pinsrb	xmm15, byte ptr [rsi + rax], 15
+	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r10 + 1], 1
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rcx + 1], 2
+	pinsrb	xmm5, byte ptr [rsi + r11 + 1], 3
+	pinsrb	xmm5, byte ptr [rsi + rbx + 1], 4
+	pinsrb	xmm5, byte ptr [rsi + r14 + 1], 5
+	pinsrb	xmm5, byte ptr [rsi + r15 + 1], 6
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	pinsrb	xmm5, byte ptr [rsi + rdi + 1], 7
+	mov	r14, rdi
+	mov	qword ptr [rsp + 160], rdi      # 8-byte Spill
+	pinsrb	xmm5, byte ptr [rsi + r12 + 1], 8
+	mov	rbx, r12
+	mov	qword ptr [rsp + 72], r12       # 8-byte Spill
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rcx + 1], 9
+	pinsrb	xmm5, byte ptr [rsi + r13 + 1], 10
+	pinsrb	xmm5, byte ptr [rsi + rdx + 1], 11
+	pinsrb	xmm5, byte ptr [rsi + r8 + 1], 12
+	mov	r10, r8
+	mov	qword ptr [rsp + 56], r8        # 8-byte Spill
+	pinsrb	xmm5, byte ptr [rsi + r9 + 1], 13
+	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r12 + 1], 14
+	pinsrb	xmm5, byte ptr [rsi + rax + 1], 15
+	movdqa	xmm9, xmmword ptr [rsp + 208]   # 16-byte Reload
+	pcmpeqb	xmm5, xmm9
+	movdqa	xmm7, xmm5
+	movdqa	xmm4, xmmword ptr [rip + .LCPI1_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm7, xmm4
+	psubb	xmm7, xmm5
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 15]
+	movd	xmm14, edx
+	pcmpeqb	xmm15, xmm9
+	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 1
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 2
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r13 + 2], 3
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rcx + 2], 4
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 5
+	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 6
+	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 7
+	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 8
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 9
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 10
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 11
+	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 12
+	mov	r10, r9
+	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 13
+	pinsrb	xmm6, byte ptr [rsi + r12 + 2], 14
+	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 15
+	pand	xmm15, xmm4
+	pcmpeqb	xmm6, xmm9
+	movdqa	xmm0, xmmword ptr [rip + .LCPI1_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pand	xmm6, xmm0
+	por	xmm6, xmm15
+	movzx	edx, byte ptr [rsi + rax + 16]
+	movd	xmm15, edx
+	mov	rdx, r8
+	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 1
+	mov	rax, r11
+	pinsrb	xmm2, byte ptr [rsi + r11 + 3], 2
+	pinsrb	xmm2, byte ptr [rsi + r13 + 3], 3
+	pinsrb	xmm2, byte ptr [rsi + rcx + 3], 4
+	mov	r11, rcx
+	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 5
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rcx + 3], 6
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 7
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 8
+	pinsrb	xmm2, byte ptr [rsi + rbx + 3], 9
+	pinsrb	xmm2, byte ptr [rsi + r14 + 3], 10
+	mov	r14, r15
+	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 11
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 12
+	pinsrb	xmm2, byte ptr [rsi + r10 + 3], 13
+	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 14
+	pinsrb	xmm2, byte ptr [rsi + r9 + 3], 15
+	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 1
+	pinsrb	xmm1, byte ptr [rsi + rax + 4], 2
+	pinsrb	xmm1, byte ptr [rsi + r13 + 4], 3
+	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 4
+	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 5
+	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 6
+	pinsrb	xmm1, byte ptr [rsi + rdi + 4], 7
+	pinsrb	xmm1, byte ptr [rsi + r8 + 4], 8
+	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 9
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 10
+	pinsrb	xmm1, byte ptr [rsi + r14 + 4], 11
+	pinsrb	xmm1, byte ptr [rsi + r15 + 4], 12
+	pinsrb	xmm1, byte ptr [rsi + r10 + 4], 13
+	mov	r15, r10
+	pinsrb	xmm1, byte ptr [rsi + r12 + 4], 14
+	mov	r10, r12
+	pinsrb	xmm1, byte ptr [rsi + r9 + 4], 15
+	por	xmm6, xmm7
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rdi + 17]
+	movd	xmm0, edx
+	pcmpeqb	xmm2, xmm9
+	movdqa	xmm5, xmmword ptr [rip + .LCPI1_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pand	xmm2, xmm5
+	pcmpeqb	xmm1, xmm9
+	movdqa	xmm5, xmmword ptr [rip + .LCPI1_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pand	xmm1, xmm5
+	por	xmm1, xmm2
+	movzx	edx, byte ptr [rsi + rdi + 18]
+	movd	xmm5, edx
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r9 + 5], 1
+	pinsrb	xmm8, byte ptr [rsi + rax + 5], 2
+	pinsrb	xmm8, byte ptr [rsi + r13 + 5], 3
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 4
+	pinsrb	xmm8, byte ptr [rsi + r11 + 5], 5
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rdi + 5], 6
+	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r8 + 5], 7
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 8
+	pinsrb	xmm8, byte ptr [rsi + rbx + 5], 9
+	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 10
+	pinsrb	xmm8, byte ptr [rsi + r14 + 5], 11
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 12
+	pinsrb	xmm8, byte ptr [rsi + r15 + 5], 13
+	mov	r12, r15
+	pinsrb	xmm8, byte ptr [rsi + r10 + 5], 14
+	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r10 + 5], 15
+	pcmpeqb	xmm8, xmm9
+	movdqa	xmm2, xmmword ptr [rip + .LCPI1_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm8, xmm2
+	por	xmm8, xmm1
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rcx + 19]
+	movd	xmm7, edx
+	por	xmm8, xmm6
+	movzx	edx, byte ptr [rsi + rcx + 20]
+	movd	xmm6, edx
+	pinsrb	xmm3, byte ptr [rsi + r9 + 6], 1
+	pinsrb	xmm3, byte ptr [rsi + rax + 6], 2
+	pinsrb	xmm3, byte ptr [rsi + r13 + 6], 3
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r11 + 6], 4
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r15 + 6], 5
+	mov	rcx, rdi
+	pinsrb	xmm3, byte ptr [rsi + rdi + 6], 6
+	mov	rdi, r8
+	pinsrb	xmm3, byte ptr [rsi + r8 + 6], 7
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdx + 6], 8
+	pinsrb	xmm3, byte ptr [rsi + rbx + 6], 9
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r8 + 6], 10
+	pinsrb	xmm3, byte ptr [rsi + r14 + 6], 11
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rax + 6], 12
+	pinsrb	xmm3, byte ptr [rsi + r12 + 6], 13
+	mov	r13, r12
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdx + 6], 14
+	pinsrb	xmm3, byte ptr [rsi + r10 + 6], 15
+	movdqa	xmm2, xmmword ptr [rsp + 224]   # 16-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r9 + 7], 1
+	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r12 + 7], 2
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rdx + 7], 3
+	pinsrb	xmm2, byte ptr [rsi + r11 + 7], 4
+	pinsrb	xmm2, byte ptr [rsi + r15 + 7], 5
+	pinsrb	xmm2, byte ptr [rsi + rcx + 7], 6
+	pinsrb	xmm2, byte ptr [rsi + rdi + 7], 7
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r10 + 7], 8
+	pinsrb	xmm2, byte ptr [rsi + rbx + 7], 9
+	pinsrb	xmm2, byte ptr [rsi + r8 + 7], 10
+	pinsrb	xmm2, byte ptr [rsi + r14 + 7], 11
+	pinsrb	xmm2, byte ptr [rsi + rax + 7], 12
+	pinsrb	xmm2, byte ptr [rsi + r13 + 7], 13
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rdi + 7], 14
+	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r9 + 7], 15
+	pcmpeqb	xmm3, xmm9
+	movdqa	xmm1, xmmword ptr [rip + .LCPI1_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm3, xmm1
+	pcmpeqb	xmm2, xmm9
+	psllw	xmm2, 7
+	movdqa	xmm1, xmmword ptr [rip + .LCPI1_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm2, xmm1
+	por	xmm2, xmm3
+	movdqa	xmm1, xmm2
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rbx + 21]
+	movd	xmm2, edx
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r11 + 9], 1
+	pinsrb	xmm10, byte ptr [rsi + r12 + 9], 2
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rax + 9], 3
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 4
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r15 + 9], 5
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r12 + 9], 6
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rax + 9], 7
+	pinsrb	xmm10, byte ptr [rsi + r10 + 9], 8
+	mov	r14, r10
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rax + 9], 9
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rax + 9], 10
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 11
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 12
+	mov	r10, r13
+	pinsrb	xmm10, byte ptr [rsi + r13 + 9], 13
+	pinsrb	xmm10, byte ptr [rsi + rdi + 9], 14
+	pinsrb	xmm10, byte ptr [rsi + r9 + 9], 15
+	por	xmm1, xmm8
+	movdqa	xmmword ptr [rsp + 224], xmm1   # 16-byte Spill
+	pcmpeqb	xmm10, xmm9
+	movdqa	xmm1, xmm10
+	movdqa	xmm8, xmm4
+	pand	xmm1, xmm4
+	psubb	xmm1, xmm10
+	movzx	edx, byte ptr [rsi + rbx + 22]
+	movd	xmm3, edx
+	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r11 + 8], 1
+	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r13 + 8], 2
+	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r8 + 8], 3
+	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 4
+	mov	r9, r15
+	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 5
+	pinsrb	xmm4, byte ptr [rsi + r12 + 8], 6
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 7
+	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 8
+	mov	rbx, r14
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdx + 8], 9
+	pinsrb	xmm4, byte ptr [rsi + rax + 8], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rax + 8], 11
+	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 12
+	pinsrb	xmm4, byte ptr [rsi + r10 + 8], 13
+	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rax + 8], 15
+	pcmpeqb	xmm4, xmm9
+	pand	xmm4, xmm8
+	movdqa	xmm10, xmmword ptr [rsp + 192]  # 16-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r11 + 10], 1
+	pinsrb	xmm10, byte ptr [rsi + r13 + 10], 2
+	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 3
+	mov	r12, r8
+	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 4
+	pinsrb	xmm10, byte ptr [rsi + r9 + 10], 5
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 6
+	mov	r8, r15
+	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 7
+	pinsrb	xmm10, byte ptr [rsi + rbx + 10], 8
+	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 9
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 10
+	mov	rbx, rdx
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 11
+	pinsrb	xmm10, byte ptr [rsi + r14 + 10], 12
+	pinsrb	xmm10, byte ptr [rsi + r10 + 10], 13
+	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 14
+	pinsrb	xmm10, byte ptr [rsi + rax + 10], 15
+	pcmpeqb	xmm10, xmm9
+	pand	xmm10, xmmword ptr [rip + .LCPI1_11]
+	por	xmm10, xmm4
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 23]
+	movd	xmm8, edx
+	por	xmm10, xmm1
+	movdqa	xmmword ptr [rsp + 192], xmm10  # 16-byte Spill
+	movzx	edx, byte ptr [rsi + rax + 24]
+	movd	xmm10, edx
+	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 1
+	pinsrb	xmm11, byte ptr [rsi + r13 + 11], 2
+	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 3
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rax + 11], 4
+	pinsrb	xmm11, byte ptr [rsi + r9 + 11], 5
+	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 6
+	mov	rdi, r8
+	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 7
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 8
+	mov	r9, qword ptr [rsp + 128]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r9 + 11], 9
+	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 10
+	mov	r14, r15
+	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 11
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 12
+	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 13
+	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 14
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 15
+	pinsrb	xmm13, byte ptr [rsi + r11 + 12], 1
+	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 2
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + rbx + 12], 3
+	pinsrb	xmm13, byte ptr [rsi + rax + 12], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + rax + 12], 5
+	pinsrb	xmm13, byte ptr [rsi + rcx + 12], 6
+	pinsrb	xmm13, byte ptr [rsi + rdi + 12], 7
+	pinsrb	xmm13, byte ptr [rsi + r8 + 12], 8
+	pinsrb	xmm13, byte ptr [rsi + r9 + 12], 9
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + rbx + 12], 10
+	pinsrb	xmm13, byte ptr [rsi + r14 + 12], 11
+	pinsrb	xmm13, byte ptr [rsi + r15 + 12], 12
+	pinsrb	xmm13, byte ptr [rsi + r10 + 12], 13
+	mov	r11, r10
+	pinsrb	xmm13, byte ptr [rsi + r12 + 12], 14
+	pinsrb	xmm13, byte ptr [rsi + rdx + 12], 15
+	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + r10 + 13], 1
+	pinsrb	xmm12, byte ptr [rsi + r13 + 13], 2
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + r13 + 13], 3
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rbx + 13], 4
+	pinsrb	xmm12, byte ptr [rsi + rax + 13], 5
+	pinsrb	xmm12, byte ptr [rsi + rcx + 13], 6
+	pinsrb	xmm12, byte ptr [rsi + rdi + 13], 7
+	pinsrb	xmm12, byte ptr [rsi + r8 + 13], 8
+	pinsrb	xmm12, byte ptr [rsi + r9 + 13], 9
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rbx + 13], 10
+	pinsrb	xmm12, byte ptr [rsi + r14 + 13], 11
+	pinsrb	xmm12, byte ptr [rsi + r15 + 13], 12
+	pinsrb	xmm12, byte ptr [rsi + r11 + 13], 13
+	pinsrb	xmm12, byte ptr [rsi + r12 + 13], 14
+	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 15
+	pcmpeqb	xmm11, xmm9
+	pand	xmm11, xmmword ptr [rip + .LCPI1_12]
+	pcmpeqb	xmm13, xmm9
+	pand	xmm13, xmmword ptr [rip + .LCPI1_13]
+	por	xmm13, xmm11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 25]
+	movd	xmm1, edx
+	pcmpeqb	xmm12, xmm9
+	pand	xmm12, xmmword ptr [rip + .LCPI1_14]
+	por	xmm12, xmm13
+	movzx	edx, byte ptr [rsi + rax + 26]
+	movd	xmm11, edx
+	movdqa	xmm4, xmmword ptr [rsp + 288]   # 16-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 1
+	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r12 + 14], 2
+	mov	r10, r13
+	pinsrb	xmm4, byte ptr [rsi + r13 + 14], 3
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r11 + 14], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rax + 14], 5
+	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 6
+	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 7
+	pinsrb	xmm4, byte ptr [rsi + r8 + 14], 8
+	pinsrb	xmm4, byte ptr [rsi + r9 + 14], 9
+	pinsrb	xmm4, byte ptr [rsi + rbx + 14], 10
+	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 11
+	pinsrb	xmm4, byte ptr [rsi + r15 + 14], 12
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 13
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r13 + 14], 14
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 15
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 1
+	pinsrb	xmm14, byte ptr [rsi + r12 + 15], 2
+	pinsrb	xmm14, byte ptr [rsi + r10 + 15], 3
+	pinsrb	xmm14, byte ptr [rsi + r11 + 15], 4
+	pinsrb	xmm14, byte ptr [rsi + rax + 15], 5
+	pinsrb	xmm14, byte ptr [rsi + rcx + 15], 6
+	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 7
+	pinsrb	xmm14, byte ptr [rsi + r8 + 15], 8
+	pinsrb	xmm14, byte ptr [rsi + r9 + 15], 9
+	pinsrb	xmm14, byte ptr [rsi + rbx + 15], 10
+	pinsrb	xmm14, byte ptr [rsi + r14 + 15], 11
+	pinsrb	xmm14, byte ptr [rsi + r15 + 15], 12
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 13
+	pinsrb	xmm14, byte ptr [rsi + r13 + 15], 14
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 15
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 1
+	pinsrb	xmm15, byte ptr [rsi + r12 + 16], 2
+	pinsrb	xmm15, byte ptr [rsi + r10 + 16], 3
+	pinsrb	xmm15, byte ptr [rsi + r11 + 16], 4
+	pinsrb	xmm15, byte ptr [rsi + rax + 16], 5
+	pinsrb	xmm15, byte ptr [rsi + rcx + 16], 6
+	pinsrb	xmm15, byte ptr [rsi + rdi + 16], 7
+	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 8
+	pinsrb	xmm15, byte ptr [rsi + r9 + 16], 9
+	pinsrb	xmm15, byte ptr [rsi + rbx + 16], 10
+	pinsrb	xmm15, byte ptr [rsi + r14 + 16], 11
+	pinsrb	xmm15, byte ptr [rsi + r15 + 16], 12
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 13
+	pinsrb	xmm15, byte ptr [rsi + r13 + 16], 14
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 1
+	pinsrb	xmm0, byte ptr [rsi + r12 + 17], 2
+	pinsrb	xmm0, byte ptr [rsi + r10 + 17], 3
+	pinsrb	xmm0, byte ptr [rsi + r11 + 17], 4
+	pinsrb	xmm0, byte ptr [rsi + rax + 17], 5
+	mov	r13, rax
+	pinsrb	xmm0, byte ptr [rsi + rcx + 17], 6
+	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 7
+	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 8
+	pinsrb	xmm0, byte ptr [rsi + r9 + 17], 9
+	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 10
+	pinsrb	xmm0, byte ptr [rsi + r14 + 17], 11
+	pinsrb	xmm0, byte ptr [rsi + r15 + 17], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rax + 17], 13
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 14
+	por	xmm12, xmmword ptr [rsp + 192]  # 16-byte Folded Reload
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + r12 + 27]
+	movd	xmm9, edx
+	movdqa	xmm13, xmmword ptr [rsp + 208]  # 16-byte Reload
+	pcmpeqb	xmm4, xmm13
+	pand	xmm4, xmmword ptr [rip + .LCPI1_15]
+	pcmpeqb	xmm14, xmm13
+	psllw	xmm14, 7
+	pand	xmm14, xmmword ptr [rip + .LCPI1_6]
+	por	xmm14, xmm4
+	movzx	edx, byte ptr [rsi + r12 + 28]
+	movd	xmm4, edx
+	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 15
+	por	xmm14, xmm12
+	pcmpeqb	xmm0, xmm13
+	movdqa	xmm13, xmm0
+	movdqa	xmm12, xmmword ptr [rip + .LCPI1_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm13, xmm12
+	psubb	xmm13, xmm0
+	movdqa	xmmword ptr [rsp + 192], xmm13  # 16-byte Spill
+	movzx	edx, byte ptr [rsi + r12 + 29]
+	movd	xmm13, edx
+	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 15
+	movdqa	xmm0, xmmword ptr [rsp + 208]   # 16-byte Reload
+	pcmpeqb	xmm15, xmm0
+	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r12 + 18], 1
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 2
+	pinsrb	xmm5, byte ptr [rsi + r10 + 18], 3
+	pinsrb	xmm5, byte ptr [rsi + r11 + 18], 4
+	pinsrb	xmm5, byte ptr [rsi + r13 + 18], 5
+	pinsrb	xmm5, byte ptr [rsi + rcx + 18], 6
+	pinsrb	xmm5, byte ptr [rsi + rdi + 18], 7
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 8
+	pinsrb	xmm5, byte ptr [rsi + r9 + 18], 9
+	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 10
+	pinsrb	xmm5, byte ptr [rsi + r14 + 18], 11
+	pinsrb	xmm5, byte ptr [rsi + r15 + 18], 12
+	pinsrb	xmm5, byte ptr [rsi + rax + 18], 13
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 18], 14
+	pand	xmm15, xmm12
+	pinsrb	xmm5, byte ptr [rsi + r8 + 18], 15
+	pcmpeqb	xmm5, xmm0
+	pand	xmm5, xmmword ptr [rip + .LCPI1_11]
+	por	xmm5, xmm15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 30]
+	movd	xmm12, edx
+	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 1
+	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 1
+	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 1
+	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 1
+	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 1
+	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 1
+	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 1
+	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 1
+	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 1
+	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 1
+	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 1
+	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 1
+	movzx	edx, byte ptr [rsi + rax + 31]
+	movd	xmm0, edx
+	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 1
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 2
+	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 2
+	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 2
+	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 2
+	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 2
+	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 2
+	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 2
+	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 2
+	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 2
+	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 2
+	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 2
+	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 2
+	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 2
+	pinsrb	xmm7, byte ptr [rsi + r10 + 19], 3
+	pinsrb	xmm7, byte ptr [rsi + r11 + 19], 4
+	pinsrb	xmm7, byte ptr [rsi + r13 + 19], 5
+	pinsrb	xmm7, byte ptr [rsi + rcx + 19], 6
+	pinsrb	xmm7, byte ptr [rsi + rdi + 19], 7
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 8
+	pinsrb	xmm7, byte ptr [rsi + r9 + 19], 9
+	pinsrb	xmm7, byte ptr [rsi + rbx + 19], 10
+	pinsrb	xmm7, byte ptr [rsi + r14 + 19], 11
+	pinsrb	xmm7, byte ptr [rsi + r15 + 19], 12
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 13
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 19], 14
+	pinsrb	xmm7, byte ptr [rsi + r8 + 19], 15
+	pinsrb	xmm6, byte ptr [rsi + r10 + 20], 3
+	pinsrb	xmm6, byte ptr [rsi + r11 + 20], 4
+	pinsrb	xmm6, byte ptr [rsi + r13 + 20], 5
+	pinsrb	xmm6, byte ptr [rsi + rcx + 20], 6
+	pinsrb	xmm6, byte ptr [rsi + rdi + 20], 7
+	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 8
+	pinsrb	xmm6, byte ptr [rsi + r9 + 20], 9
+	pinsrb	xmm6, byte ptr [rsi + rbx + 20], 10
+	pinsrb	xmm6, byte ptr [rsi + r14 + 20], 11
+	pinsrb	xmm6, byte ptr [rsi + r15 + 20], 12
+	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 13
+	pinsrb	xmm6, byte ptr [rsi + rax + 20], 14
+	por	xmm5, xmmword ptr [rsp + 192]   # 16-byte Folded Reload
+	pinsrb	xmm6, byte ptr [rsi + r8 + 20], 15
+	movdqa	xmm15, xmmword ptr [rsp + 208]  # 16-byte Reload
+	pcmpeqb	xmm7, xmm15
+	pand	xmm7, xmmword ptr [rip + .LCPI1_12]
+	pcmpeqb	xmm6, xmm15
+	pand	xmm6, xmmword ptr [rip + .LCPI1_13]
+	por	xmm6, xmm7
+	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 3
+	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 4
+	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 5
+	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 6
+	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 7
+	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 8
+	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 9
+	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 10
+	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 11
+	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 12
+	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 13
+	pinsrb	xmm2, byte ptr [rsi + rax + 21], 14
+	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 15
+	pcmpeqb	xmm2, xmm15
+	movdqa	xmm7, xmmword ptr [rip + .LCPI1_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm2, xmm7
+	por	xmm2, xmm6
+	por	xmm2, xmm5
+	pinsrb	xmm3, byte ptr [rsi + r10 + 22], 3
+	pinsrb	xmm3, byte ptr [rsi + r11 + 22], 4
+	pinsrb	xmm3, byte ptr [rsi + r13 + 22], 5
+	pinsrb	xmm3, byte ptr [rsi + rcx + 22], 6
+	pinsrb	xmm3, byte ptr [rsi + rdi + 22], 7
+	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 8
+	pinsrb	xmm3, byte ptr [rsi + r9 + 22], 9
+	pinsrb	xmm3, byte ptr [rsi + rbx + 22], 10
+	pinsrb	xmm3, byte ptr [rsi + r14 + 22], 11
+	pinsrb	xmm3, byte ptr [rsi + r15 + 22], 12
+	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 13
+	pinsrb	xmm3, byte ptr [rsi + rax + 22], 14
+	pinsrb	xmm3, byte ptr [rsi + r8 + 22], 15
+	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 3
+	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 4
+	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 5
+	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 6
+	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 7
+	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 8
+	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 9
+	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 10
+	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 11
+	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 12
+	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 13
+	pinsrb	xmm8, byte ptr [rsi + rax + 23], 14
+	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 15
+	pcmpeqb	xmm3, xmm15
+	movdqa	xmm5, xmmword ptr [rip + .LCPI1_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm3, xmm5
+	pcmpeqb	xmm8, xmm15
+	psllw	xmm8, 7
+	movdqa	xmm6, xmmword ptr [rip + .LCPI1_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm8, xmm6
+	por	xmm8, xmm3
+	pinsrb	xmm1, byte ptr [rsi + r10 + 25], 3
+	pinsrb	xmm1, byte ptr [rsi + r11 + 25], 4
+	pinsrb	xmm1, byte ptr [rsi + r13 + 25], 5
+	pinsrb	xmm1, byte ptr [rsi + rcx + 25], 6
+	pinsrb	xmm1, byte ptr [rsi + rdi + 25], 7
+	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 8
+	pinsrb	xmm1, byte ptr [rsi + r9 + 25], 9
+	pinsrb	xmm1, byte ptr [rsi + rbx + 25], 10
+	pinsrb	xmm1, byte ptr [rsi + r14 + 25], 11
+	pinsrb	xmm1, byte ptr [rsi + r15 + 25], 12
+	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 13
+	pinsrb	xmm1, byte ptr [rsi + rax + 25], 14
+	pinsrb	xmm1, byte ptr [rsi + r8 + 25], 15
+	por	xmm8, xmm2
+	pcmpeqb	xmm1, xmm15
+	movdqa	xmm2, xmm1
+	movdqa	xmm3, xmmword ptr [rip + .LCPI1_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm2, xmm3
+	psubb	xmm2, xmm1
+	pinsrb	xmm10, byte ptr [rsi + r10 + 24], 3
+	pinsrb	xmm10, byte ptr [rsi + r11 + 24], 4
+	pinsrb	xmm10, byte ptr [rsi + r13 + 24], 5
+	pinsrb	xmm10, byte ptr [rsi + rcx + 24], 6
+	pinsrb	xmm10, byte ptr [rsi + rdi + 24], 7
+	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 8
+	pinsrb	xmm10, byte ptr [rsi + r9 + 24], 9
+	pinsrb	xmm10, byte ptr [rsi + rbx + 24], 10
+	pinsrb	xmm10, byte ptr [rsi + r14 + 24], 11
+	pinsrb	xmm10, byte ptr [rsi + r15 + 24], 12
+	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 13
+	pinsrb	xmm10, byte ptr [rsi + rax + 24], 14
+	pinsrb	xmm10, byte ptr [rsi + r8 + 24], 15
+	pcmpeqb	xmm10, xmm15
+	pand	xmm10, xmm3
+	pinsrb	xmm11, byte ptr [rsi + r10 + 26], 3
+	pinsrb	xmm11, byte ptr [rsi + r11 + 26], 4
+	pinsrb	xmm11, byte ptr [rsi + r13 + 26], 5
+	pinsrb	xmm11, byte ptr [rsi + rcx + 26], 6
+	pinsrb	xmm11, byte ptr [rsi + rdi + 26], 7
+	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 8
+	pinsrb	xmm11, byte ptr [rsi + r9 + 26], 9
+	pinsrb	xmm11, byte ptr [rsi + rbx + 26], 10
+	pinsrb	xmm11, byte ptr [rsi + r14 + 26], 11
+	pinsrb	xmm11, byte ptr [rsi + r15 + 26], 12
+	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 13
+	pinsrb	xmm11, byte ptr [rsi + rax + 26], 14
+	pinsrb	xmm11, byte ptr [rsi + r8 + 26], 15
+	pcmpeqb	xmm11, xmm15
+	pand	xmm11, xmmword ptr [rip + .LCPI1_11]
+	por	xmm11, xmm10
+	por	xmm11, xmm2
+	pinsrb	xmm9, byte ptr [rsi + r10 + 27], 3
+	pinsrb	xmm9, byte ptr [rsi + r11 + 27], 4
+	pinsrb	xmm9, byte ptr [rsi + r13 + 27], 5
+	pinsrb	xmm9, byte ptr [rsi + rcx + 27], 6
+	pinsrb	xmm9, byte ptr [rsi + rdi + 27], 7
+	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 8
+	pinsrb	xmm9, byte ptr [rsi + r9 + 27], 9
+	pinsrb	xmm9, byte ptr [rsi + rbx + 27], 10
+	pinsrb	xmm9, byte ptr [rsi + r14 + 27], 11
+	pinsrb	xmm9, byte ptr [rsi + r15 + 27], 12
+	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 13
+	pinsrb	xmm9, byte ptr [rsi + rax + 27], 14
+	pinsrb	xmm9, byte ptr [rsi + r8 + 27], 15
+	pinsrb	xmm4, byte ptr [rsi + r10 + 28], 3
+	pinsrb	xmm4, byte ptr [rsi + r11 + 28], 4
+	pinsrb	xmm4, byte ptr [rsi + r13 + 28], 5
+	pinsrb	xmm4, byte ptr [rsi + rcx + 28], 6
+	pinsrb	xmm4, byte ptr [rsi + rdi + 28], 7
+	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 8
+	pinsrb	xmm4, byte ptr [rsi + r9 + 28], 9
+	pinsrb	xmm4, byte ptr [rsi + rbx + 28], 10
+	pinsrb	xmm4, byte ptr [rsi + r14 + 28], 11
+	pinsrb	xmm4, byte ptr [rsi + r15 + 28], 12
+	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 13
+	pinsrb	xmm4, byte ptr [rsi + rax + 28], 14
+	pinsrb	xmm4, byte ptr [rsi + r8 + 28], 15
+	pinsrb	xmm13, byte ptr [rsi + r10 + 29], 3
+	pinsrb	xmm13, byte ptr [rsi + r11 + 29], 4
+	pinsrb	xmm13, byte ptr [rsi + r13 + 29], 5
+	pinsrb	xmm13, byte ptr [rsi + rcx + 29], 6
+	pinsrb	xmm13, byte ptr [rsi + rdi + 29], 7
+	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 8
+	pinsrb	xmm13, byte ptr [rsi + r9 + 29], 9
+	pinsrb	xmm13, byte ptr [rsi + rbx + 29], 10
+	pinsrb	xmm13, byte ptr [rsi + r14 + 29], 11
+	pinsrb	xmm13, byte ptr [rsi + r15 + 29], 12
+	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 13
+	pinsrb	xmm13, byte ptr [rsi + rax + 29], 14
+	movdqa	xmm1, xmm15
+	pcmpeqb	xmm9, xmm15
+	pand	xmm9, xmmword ptr [rip + .LCPI1_12]
+	pcmpeqb	xmm4, xmm15
+	pand	xmm4, xmmword ptr [rip + .LCPI1_13]
+	por	xmm4, xmm9
+	pinsrb	xmm13, byte ptr [rsi + r8 + 29], 15
+	pcmpeqb	xmm13, xmm15
+	pand	xmm13, xmm7
+	por	xmm13, xmm4
+	pinsrb	xmm12, byte ptr [rsi + r10 + 30], 3
+	pinsrb	xmm0, byte ptr [rsi + r10 + 31], 3
+	pinsrb	xmm12, byte ptr [rsi + r11 + 30], 4
+	pinsrb	xmm0, byte ptr [rsi + r11 + 31], 4
+	pinsrb	xmm12, byte ptr [rsi + r13 + 30], 5
+	pinsrb	xmm0, byte ptr [rsi + r13 + 31], 5
+	pinsrb	xmm12, byte ptr [rsi + rcx + 30], 6
+	pinsrb	xmm0, byte ptr [rsi + rcx + 31], 6
+	pinsrb	xmm12, byte ptr [rsi + rdi + 30], 7
+	pinsrb	xmm0, byte ptr [rsi + rdi + 31], 7
+	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 8
+	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 8
+	pinsrb	xmm12, byte ptr [rsi + r9 + 30], 9
+	pinsrb	xmm0, byte ptr [rsi + r9 + 31], 9
+	pinsrb	xmm12, byte ptr [rsi + rbx + 30], 10
+	pinsrb	xmm0, byte ptr [rsi + rbx + 31], 10
+	pinsrb	xmm12, byte ptr [rsi + r14 + 30], 11
+	pinsrb	xmm0, byte ptr [rsi + r14 + 31], 11
+	pinsrb	xmm12, byte ptr [rsi + r15 + 30], 12
+	pinsrb	xmm0, byte ptr [rsi + r15 + 31], 12
+	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 13
+	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 13
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rax + 30], 14
+	pinsrb	xmm0, byte ptr [rsi + rax + 31], 14
+	pinsrb	xmm12, byte ptr [rsi + r8 + 30], 15
+	pinsrb	xmm0, byte ptr [rsi + r8 + 31], 15
+	por	xmm13, xmm11
+	pcmpeqb	xmm12, xmm15
+	pand	xmm12, xmm5
+	pcmpeqb	xmm0, xmm15
+	psllw	xmm0, 7
+	pand	xmm0, xmm6
+	por	xmm0, xmm12
+	por	xmm0, xmm13
+	movdqa	xmm1, xmm8
+	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
+	movdqa	xmm4, xmmword ptr [rsp + 224]   # 16-byte Reload
+	movdqa	xmm2, xmm4
+	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
+	movdqa	xmm3, xmm2
+	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
+	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
+	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
+	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
+	movdqa	xmm0, xmm4
+	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
+	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
+	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm2
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm3
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 248]      # 8-byte Folded Reload
+	jne	.LBB1_87
+# %bb.88:
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 248]      # 8-byte Folded Reload
+	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	jne	.LBB1_89
+	jmp	.LBB1_92
+.LBB1_66:
+	and	r15, -16
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 248], r15      # 8-byte Spill
+	lea	rax, [r14 + 4*r15]
+	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
+	movzx	eax, r11b
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_67:                               # =>This Inner Loop Header: Depth=1
+	mov	r15, rax
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	shl	r15, 5
+	mov	rdi, r15
+	mov	rcx, r15
+	mov	r10, r15
+	mov	r8, r15
+	mov	r12, r15
+	mov	r9, r15
+	mov	r11, r15
+	mov	rbx, r15
+	mov	r14, r15
+	mov	rax, r15
+	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
+	movzx	edx, byte ptr [rsi + r15]
+	movd	xmm15, edx
+	movzx	edx, byte ptr [rsi + r15 + 1]
+	movd	xmm5, edx
+	movzx	edx, byte ptr [rsi + r15 + 2]
+	movd	xmm6, edx
+	movzx	edx, byte ptr [rsi + r15 + 3]
+	movd	xmm2, edx
+	movzx	edx, byte ptr [rsi + r15 + 4]
+	movd	xmm1, edx
+	movzx	edx, byte ptr [rsi + r15 + 5]
+	movd	xmm8, edx
+	movzx	edx, byte ptr [rsi + r15 + 6]
+	movd	xmm3, edx
+	movzx	edx, byte ptr [rsi + r15 + 7]
+	movd	xmm0, edx
+	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
+	movzx	edx, byte ptr [rsi + r15 + 8]
+	movd	xmm0, edx
+	movdqa	xmmword ptr [rsp + 288], xmm0   # 16-byte Spill
+	movzx	edx, byte ptr [rsi + r15 + 9]
+	movd	xmm10, edx
+	movzx	edx, byte ptr [rsi + r15 + 10]
+	movd	xmm0, edx
+	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
+	movzx	edx, byte ptr [rsi + r15 + 11]
+	movd	xmm11, edx
+	movzx	edx, byte ptr [rsi + r15 + 12]
+	movd	xmm13, edx
+	movzx	edx, byte ptr [rsi + r15 + 13]
+	movd	xmm12, edx
+	movzx	edx, byte ptr [rsi + r15 + 14]
+	movd	xmm0, edx
+	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	r13, r15
+	or	r13, 32
+	mov	qword ptr [rsp + 24], r13       # 8-byte Spill
+	or	rdi, 64
+	or	rcx, 96
+	mov	qword ptr [rsp + 128], rcx      # 8-byte Spill
+	or	r10, 128
+	or	r8, 160
+	or	r12, 192
+	or	r9, 224
+	or	r11, 256
+	or	rbx, 288
+	or	r14, 320
+	or	rax, 352
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	or	rdx, 384
+	mov	qword ptr [rsp + 112], rdx      # 8-byte Spill
+	mov	rax, r15
+	or	rax, 416
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	rax, r15
+	or	rax, 448
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	rax, r15
+	or	rax, 480
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rsi + r13], 1
+	pinsrb	xmm15, byte ptr [rsi + rdi], 2
+	pinsrb	xmm15, byte ptr [rsi + rcx], 3
+	pinsrb	xmm15, byte ptr [rsi + r10], 4
+	mov	r15, r8
+	mov	qword ptr [rsp + 120], r8       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rsi + r8], 5
+	mov	qword ptr [rsp + 104], r12      # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rsi + r12], 6
+	mov	r8, r9
+	pinsrb	xmm15, byte ptr [rsi + r9], 7
+	mov	r9, r11
+	mov	qword ptr [rsp + 16], r11       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rsi + r11], 8
+	mov	qword ptr [rsp + 64], rbx       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rsi + rbx], 9
+	mov	qword ptr [rsp + 96], r14       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rsi + r14], 10
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + r13], 11
+	pinsrb	xmm15, byte ptr [rsi + rdx], 12
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rcx], 13
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rcx], 14
+	pinsrb	xmm15, byte ptr [rsi + rax], 15
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r11 + 1], 1
+	pinsrb	xmm5, byte ptr [rsi + rdi + 1], 2
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r11 + 1], 3
+	pinsrb	xmm5, byte ptr [rsi + r10 + 1], 4
+	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
+	pinsrb	xmm5, byte ptr [rsi + r15 + 1], 5
+	pinsrb	xmm5, byte ptr [rsi + r12 + 1], 6
+	pinsrb	xmm5, byte ptr [rsi + r8 + 1], 7
+	mov	r15, r8
+	pinsrb	xmm5, byte ptr [rsi + r9 + 1], 8
+	pinsrb	xmm5, byte ptr [rsi + rbx + 1], 9
+	pinsrb	xmm5, byte ptr [rsi + r14 + 1], 10
+	pinsrb	xmm5, byte ptr [rsi + r13 + 1], 11
+	mov	r8, r13
+	pinsrb	xmm5, byte ptr [rsi + rdx + 1], 12
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rdx + 1], 13
+	pinsrb	xmm5, byte ptr [rsi + rcx + 1], 14
+	pinsrb	xmm5, byte ptr [rsi + rax + 1], 15
+	movdqa	xmm9, xmmword ptr [rsp + 176]   # 16-byte Reload
+	pcmpeqb	xmm5, xmm9
+	movdqa	xmm7, xmm5
+	movdqa	xmm4, xmmword ptr [rip + .LCPI1_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm7, xmm4
+	psubb	xmm7, xmm5
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 15]
+	movd	xmm14, edx
+	pcmpeqb	xmm15, xmm9
+	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 1
+	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 2
+	mov	r12, r11
+	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 3
+	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 4
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rcx + 2], 5
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 6
+	mov	qword ptr [rsp + 192], r15      # 8-byte Spill
+	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 7
+	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r13 + 2], 8
+	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 9
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 10
+	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 11
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 12
+	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 13
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 15
+	pand	xmm15, xmm4
+	pcmpeqb	xmm6, xmm9
+	movdqa	xmm0, xmmword ptr [rip + .LCPI1_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pand	xmm6, xmm0
+	por	xmm6, xmm15
+	movzx	edx, byte ptr [rsi + rax + 16]
+	movd	xmm15, edx
+	pinsrb	xmm2, byte ptr [rsi + rbx + 3], 1
+	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 2
+	mov	rax, r12
+	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 3
+	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 4
+	pinsrb	xmm2, byte ptr [rsi + rcx + 3], 5
+	pinsrb	xmm2, byte ptr [rsi + r11 + 3], 6
+	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 7
+	pinsrb	xmm2, byte ptr [rsi + r13 + 3], 8
+	pinsrb	xmm2, byte ptr [rsi + r14 + 3], 9
+	pinsrb	xmm2, byte ptr [rsi + r9 + 3], 10
+	mov	r14, r9
+	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 11
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 12
+	pinsrb	xmm2, byte ptr [rsi + r10 + 3], 13
+	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r13 + 3], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rdx + 3], 15
+	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 1
+	pinsrb	xmm1, byte ptr [rsi + rdi + 4], 2
+	pinsrb	xmm1, byte ptr [rsi + rax + 4], 3
+	pinsrb	xmm1, byte ptr [rsi + r12 + 4], 4
+	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 5
+	mov	rcx, r11
+	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 6
+	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 7
+	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + r9 + 4], 8
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 9
+	pinsrb	xmm1, byte ptr [rsi + r14 + 4], 10
+	mov	r12, r14
+	pinsrb	xmm1, byte ptr [rsi + r8 + 4], 11
+	mov	r14, r8
+	pinsrb	xmm1, byte ptr [rsi + r15 + 4], 12
+	pinsrb	xmm1, byte ptr [rsi + r10 + 4], 13
+	pinsrb	xmm1, byte ptr [rsi + r13 + 4], 14
+	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 15
+	mov	r10, rdx
+	por	xmm6, xmm7
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rbx + 17]
+	movd	xmm0, edx
+	pcmpeqb	xmm2, xmm9
+	movdqa	xmm5, xmmword ptr [rip + .LCPI1_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pand	xmm2, xmm5
+	pcmpeqb	xmm1, xmm9
+	movdqa	xmm5, xmmword ptr [rip + .LCPI1_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pand	xmm1, xmm5
+	por	xmm1, xmm2
+	movzx	edx, byte ptr [rsi + rbx + 18]
+	movd	xmm5, edx
+	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r8 + 5], 1
+	pinsrb	xmm8, byte ptr [rsi + rdi + 5], 2
+	pinsrb	xmm8, byte ptr [rsi + rax + 5], 3
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 4
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 5
+	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 6
+	pinsrb	xmm8, byte ptr [rsi + r11 + 5], 7
+	pinsrb	xmm8, byte ptr [rsi + r9 + 5], 8
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 9
+	pinsrb	xmm8, byte ptr [rsi + r12 + 5], 10
+	pinsrb	xmm8, byte ptr [rsi + r14 + 5], 11
+	pinsrb	xmm8, byte ptr [rsi + r15 + 5], 12
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 13
+	pinsrb	xmm8, byte ptr [rsi + r13 + 5], 14
+	pinsrb	xmm8, byte ptr [rsi + r10 + 5], 15
+	pcmpeqb	xmm8, xmm9
+	movdqa	xmm2, xmmword ptr [rip + .LCPI1_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm8, xmm2
+	por	xmm8, xmm1
+	movzx	edx, byte ptr [rsi + rbx + 19]
+	movd	xmm7, edx
+	por	xmm8, xmm6
+	movzx	edx, byte ptr [rsi + rbx + 20]
+	movd	xmm6, edx
+	mov	rdx, r8
+	pinsrb	xmm3, byte ptr [rsi + r8 + 6], 1
+	pinsrb	xmm3, byte ptr [rsi + rdi + 6], 2
+	pinsrb	xmm3, byte ptr [rsi + rax + 6], 3
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r11 + 6], 4
+	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r9 + 6], 5
+	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r8 + 6], 6
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r12 + 6], 7
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rax + 6], 8
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rbx + 6], 9
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r14 + 6], 10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rcx + 6], 11
+	pinsrb	xmm3, byte ptr [rsi + r15 + 6], 12
+	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r10 + 6], 13
+	pinsrb	xmm3, byte ptr [rsi + r13 + 6], 14
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rcx + 6], 15
+	movdqa	xmm2, xmmword ptr [rsp + 208]   # 16-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rdx + 7], 1
+	pinsrb	xmm2, byte ptr [rsi + rdi + 7], 2
+	mov	qword ptr [rsp + 224], rdi      # 8-byte Spill
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rcx + 7], 3
+	pinsrb	xmm2, byte ptr [rsi + r11 + 7], 4
+	pinsrb	xmm2, byte ptr [rsi + r9 + 7], 5
+	pinsrb	xmm2, byte ptr [rsi + r8 + 7], 6
+	pinsrb	xmm2, byte ptr [rsi + r12 + 7], 7
+	mov	r11, r12
+	pinsrb	xmm2, byte ptr [rsi + rax + 7], 8
+	pinsrb	xmm2, byte ptr [rsi + rbx + 7], 9
+	pinsrb	xmm2, byte ptr [rsi + r14 + 7], 10
+	mov	r12, r14
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rax + 7], 11
+	pinsrb	xmm2, byte ptr [rsi + r15 + 7], 12
+	pinsrb	xmm2, byte ptr [rsi + r10 + 7], 13
+	pinsrb	xmm2, byte ptr [rsi + r13 + 7], 14
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r14 + 7], 15
+	pcmpeqb	xmm3, xmm9
+	movdqa	xmm1, xmmword ptr [rip + .LCPI1_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm3, xmm1
+	pcmpeqb	xmm2, xmm9
+	psllw	xmm2, 7
+	movdqa	xmm1, xmmword ptr [rip + .LCPI1_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm2, xmm1
+	por	xmm2, xmm3
+	movdqa	xmm1, xmm2
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rbx + 21]
+	movd	xmm2, edx
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 1
+	pinsrb	xmm10, byte ptr [rsi + rdi + 9], 2
+	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 3
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdi + 9], 4
+	pinsrb	xmm10, byte ptr [rsi + r9 + 9], 5
+	pinsrb	xmm10, byte ptr [rsi + r8 + 9], 6
+	pinsrb	xmm10, byte ptr [rsi + r11 + 9], 7
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 8
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 9
+	pinsrb	xmm10, byte ptr [rsi + r12 + 9], 10
+	pinsrb	xmm10, byte ptr [rsi + rax + 9], 11
+	pinsrb	xmm10, byte ptr [rsi + r15 + 9], 12
+	pinsrb	xmm10, byte ptr [rsi + r10 + 9], 13
+	pinsrb	xmm10, byte ptr [rsi + r13 + 9], 14
+	pinsrb	xmm10, byte ptr [rsi + r14 + 9], 15
+	por	xmm1, xmm8
+	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
+	pcmpeqb	xmm10, xmm9
+	movdqa	xmm1, xmm10
+	movdqa	xmm8, xmm4
+	pand	xmm1, xmm4
+	psubb	xmm1, xmm10
+	movzx	edx, byte ptr [rsi + rbx + 22]
+	movd	xmm3, edx
+	movdqa	xmm4, xmmword ptr [rsp + 288]   # 16-byte Reload
+	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r10 + 8], 1
+	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r12 + 8], 2
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rax + 8], 3
+	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 4
+	pinsrb	xmm4, byte ptr [rsi + r9 + 8], 5
+	pinsrb	xmm4, byte ptr [rsi + r8 + 8], 6
+	mov	rbx, r11
+	pinsrb	xmm4, byte ptr [rsi + r11 + 8], 7
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdx + 8], 8
+	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 9
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 10
+	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 11
+	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 12
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 13
+	pinsrb	xmm4, byte ptr [rsi + r13 + 8], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 15
+	pcmpeqb	xmm4, xmm9
+	pand	xmm4, xmm8
+	movdqa	xmm10, xmmword ptr [rsp + 160]  # 16-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r10 + 10], 1
+	pinsrb	xmm10, byte ptr [rsi + r12 + 10], 2
+	pinsrb	xmm10, byte ptr [rsi + rax + 10], 3
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r11 + 10], 4
+	pinsrb	xmm10, byte ptr [rsi + r9 + 10], 5
+	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 6
+	pinsrb	xmm10, byte ptr [rsi + rbx + 10], 7
+	mov	r10, rbx
+	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 8
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 9
+	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 10
+	pinsrb	xmm10, byte ptr [rsi + r14 + 10], 11
+	mov	r13, r14
+	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 12
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 13
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 14
+	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 15
+	pcmpeqb	xmm10, xmm9
+	pand	xmm10, xmmword ptr [rip + .LCPI1_11]
+	por	xmm10, xmm4
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rdi + 23]
+	movd	xmm8, edx
+	por	xmm10, xmm1
+	movdqa	xmmword ptr [rsp + 160], xmm10  # 16-byte Spill
+	movzx	edx, byte ptr [rsi + rdi + 24]
+	movd	xmm10, edx
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 1
+	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 2
+	pinsrb	xmm11, byte ptr [rsi + rax + 11], 3
+	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 4
+	pinsrb	xmm11, byte ptr [rsi + r9 + 11], 5
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 6
+	mov	r14, r10
+	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 7
+	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 8
+	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 9
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r9 + 11], 10
+	pinsrb	xmm11, byte ptr [rsi + r13 + 11], 11
+	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 12
+	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 13
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 15
+	pinsrb	xmm13, byte ptr [rsi + rdx + 12], 1
+	pinsrb	xmm13, byte ptr [rsi + r12 + 12], 2
+	pinsrb	xmm13, byte ptr [rsi + rax + 12], 3
+	pinsrb	xmm13, byte ptr [rsi + r11 + 12], 4
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 5
+	pinsrb	xmm13, byte ptr [rsi + rbx + 12], 6
+	pinsrb	xmm13, byte ptr [rsi + r14 + 12], 7
+	pinsrb	xmm13, byte ptr [rsi + r10 + 12], 8
+	pinsrb	xmm13, byte ptr [rsi + r8 + 12], 9
+	mov	rbx, r8
+	pinsrb	xmm13, byte ptr [rsi + r9 + 12], 10
+	mov	r8, r9
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 11
+	pinsrb	xmm13, byte ptr [rsi + r15 + 12], 12
+	pinsrb	xmm13, byte ptr [rsi + rcx + 12], 13
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + r9 + 12], 14
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + rdi + 12], 15
+	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 1
+	pinsrb	xmm12, byte ptr [rsi + r12 + 13], 2
+	pinsrb	xmm12, byte ptr [rsi + rax + 13], 3
+	pinsrb	xmm12, byte ptr [rsi + r11 + 13], 4
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rax + 13], 5
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 6
+	pinsrb	xmm12, byte ptr [rsi + r14 + 13], 7
+	pinsrb	xmm12, byte ptr [rsi + r10 + 13], 8
+	pinsrb	xmm12, byte ptr [rsi + rbx + 13], 9
+	pinsrb	xmm12, byte ptr [rsi + r8 + 13], 10
+	pinsrb	xmm12, byte ptr [rsi + r13 + 13], 11
+	pinsrb	xmm12, byte ptr [rsi + r15 + 13], 12
+	pinsrb	xmm12, byte ptr [rsi + rcx + 13], 13
+	mov	r13, r9
+	pinsrb	xmm12, byte ptr [rsi + r9 + 13], 14
+	pinsrb	xmm12, byte ptr [rsi + rdi + 13], 15
+	pcmpeqb	xmm11, xmm9
+	pand	xmm11, xmmword ptr [rip + .LCPI1_12]
+	pcmpeqb	xmm13, xmm9
+	pand	xmm13, xmmword ptr [rip + .LCPI1_13]
+	por	xmm13, xmm11
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rcx + 25]
+	movd	xmm1, edx
+	pcmpeqb	xmm12, xmm9
+	pand	xmm12, xmmword ptr [rip + .LCPI1_14]
+	por	xmm12, xmm13
+	movzx	edx, byte ptr [rsi + rcx + 26]
+	movd	xmm11, edx
+	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 1
+	pinsrb	xmm4, byte ptr [rsi + r12 + 14], 2
+	mov	r10, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 3
+	pinsrb	xmm4, byte ptr [rsi + r11 + 14], 4
+	pinsrb	xmm4, byte ptr [rsi + rax + 14], 5
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 6
+	mov	rdi, r14
+	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 7
+	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r8 + 14], 8
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r9 + 14], 9
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rbx + 14], 10
+	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 11
+	pinsrb	xmm4, byte ptr [rsi + r15 + 14], 12
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 13
+	pinsrb	xmm4, byte ptr [rsi + r13 + 14], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 15
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 1
+	pinsrb	xmm14, byte ptr [rsi + r12 + 15], 2
+	pinsrb	xmm14, byte ptr [rsi + r10 + 15], 3
+	pinsrb	xmm14, byte ptr [rsi + r11 + 15], 4
+	pinsrb	xmm14, byte ptr [rsi + rax + 15], 5
+	pinsrb	xmm14, byte ptr [rsi + rcx + 15], 6
+	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 7
+	pinsrb	xmm14, byte ptr [rsi + r8 + 15], 8
+	pinsrb	xmm14, byte ptr [rsi + r9 + 15], 9
+	pinsrb	xmm14, byte ptr [rsi + rbx + 15], 10
+	pinsrb	xmm14, byte ptr [rsi + r14 + 15], 11
+	pinsrb	xmm14, byte ptr [rsi + r15 + 15], 12
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 13
+	pinsrb	xmm14, byte ptr [rsi + r13 + 15], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 15
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 1
+	pinsrb	xmm15, byte ptr [rsi + r12 + 16], 2
+	pinsrb	xmm15, byte ptr [rsi + r10 + 16], 3
+	pinsrb	xmm15, byte ptr [rsi + r11 + 16], 4
+	pinsrb	xmm15, byte ptr [rsi + rax + 16], 5
+	pinsrb	xmm15, byte ptr [rsi + rcx + 16], 6
+	pinsrb	xmm15, byte ptr [rsi + rdi + 16], 7
+	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 8
+	pinsrb	xmm15, byte ptr [rsi + r9 + 16], 9
+	pinsrb	xmm15, byte ptr [rsi + rbx + 16], 10
+	pinsrb	xmm15, byte ptr [rsi + r14 + 16], 11
+	pinsrb	xmm15, byte ptr [rsi + r15 + 16], 12
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 13
+	pinsrb	xmm15, byte ptr [rsi + r13 + 16], 14
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 1
+	pinsrb	xmm0, byte ptr [rsi + r12 + 17], 2
+	pinsrb	xmm0, byte ptr [rsi + r10 + 17], 3
+	pinsrb	xmm0, byte ptr [rsi + r11 + 17], 4
+	pinsrb	xmm0, byte ptr [rsi + rax + 17], 5
+	mov	r13, rax
+	pinsrb	xmm0, byte ptr [rsi + rcx + 17], 6
+	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 7
+	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 8
+	pinsrb	xmm0, byte ptr [rsi + r9 + 17], 9
+	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 10
+	pinsrb	xmm0, byte ptr [rsi + r14 + 17], 11
+	pinsrb	xmm0, byte ptr [rsi + r15 + 17], 12
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rax + 17], 13
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 14
+	por	xmm12, xmmword ptr [rsp + 160]  # 16-byte Folded Reload
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + r12 + 27]
+	movd	xmm9, edx
+	movdqa	xmm13, xmmword ptr [rsp + 176]  # 16-byte Reload
+	pcmpeqb	xmm4, xmm13
+	pand	xmm4, xmmword ptr [rip + .LCPI1_15]
+	pcmpeqb	xmm14, xmm13
+	psllw	xmm14, 7
+	pand	xmm14, xmmword ptr [rip + .LCPI1_6]
+	por	xmm14, xmm4
+	movzx	edx, byte ptr [rsi + r12 + 28]
+	movd	xmm4, edx
+	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 15
+	por	xmm14, xmm12
+	pcmpeqb	xmm0, xmm13
+	movdqa	xmm13, xmm0
+	movdqa	xmm12, xmmword ptr [rip + .LCPI1_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm13, xmm12
+	psubb	xmm13, xmm0
+	movdqa	xmmword ptr [rsp + 160], xmm13  # 16-byte Spill
+	movzx	edx, byte ptr [rsi + r12 + 29]
+	movd	xmm13, edx
+	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 15
+	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
+	pcmpeqb	xmm15, xmm0
+	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r12 + 18], 1
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 2
+	pinsrb	xmm5, byte ptr [rsi + r10 + 18], 3
+	pinsrb	xmm5, byte ptr [rsi + r11 + 18], 4
+	pinsrb	xmm5, byte ptr [rsi + r13 + 18], 5
+	pinsrb	xmm5, byte ptr [rsi + rcx + 18], 6
+	pinsrb	xmm5, byte ptr [rsi + rdi + 18], 7
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 8
+	pinsrb	xmm5, byte ptr [rsi + r9 + 18], 9
+	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 10
+	pinsrb	xmm5, byte ptr [rsi + r14 + 18], 11
+	pinsrb	xmm5, byte ptr [rsi + r15 + 18], 12
+	pinsrb	xmm5, byte ptr [rsi + rax + 18], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 18], 14
+	pand	xmm15, xmm12
+	pinsrb	xmm5, byte ptr [rsi + r8 + 18], 15
+	pcmpeqb	xmm5, xmm0
+	pand	xmm5, xmmword ptr [rip + .LCPI1_11]
+	por	xmm5, xmm15
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 30]
+	movd	xmm12, edx
+	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 1
+	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 1
+	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 1
+	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 1
+	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 1
+	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 1
+	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 1
+	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 1
+	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 1
+	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 1
+	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 1
+	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 1
+	movzx	edx, byte ptr [rsi + rax + 31]
+	movd	xmm0, edx
+	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 1
+	mov	rdx, qword ptr [rsp + 224]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 2
+	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 2
+	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 2
+	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 2
+	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 2
+	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 2
+	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 2
+	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 2
+	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 2
+	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 2
+	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 2
+	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 2
+	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 2
+	pinsrb	xmm7, byte ptr [rsi + r10 + 19], 3
+	pinsrb	xmm7, byte ptr [rsi + r11 + 19], 4
+	pinsrb	xmm7, byte ptr [rsi + r13 + 19], 5
+	pinsrb	xmm7, byte ptr [rsi + rcx + 19], 6
+	pinsrb	xmm7, byte ptr [rsi + rdi + 19], 7
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 8
+	pinsrb	xmm7, byte ptr [rsi + r9 + 19], 9
+	pinsrb	xmm7, byte ptr [rsi + rbx + 19], 10
+	pinsrb	xmm7, byte ptr [rsi + r14 + 19], 11
+	pinsrb	xmm7, byte ptr [rsi + r15 + 19], 12
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 13
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 19], 14
+	pinsrb	xmm7, byte ptr [rsi + r8 + 19], 15
+	pinsrb	xmm6, byte ptr [rsi + r10 + 20], 3
+	pinsrb	xmm6, byte ptr [rsi + r11 + 20], 4
+	pinsrb	xmm6, byte ptr [rsi + r13 + 20], 5
+	pinsrb	xmm6, byte ptr [rsi + rcx + 20], 6
+	pinsrb	xmm6, byte ptr [rsi + rdi + 20], 7
+	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 8
+	pinsrb	xmm6, byte ptr [rsi + r9 + 20], 9
+	pinsrb	xmm6, byte ptr [rsi + rbx + 20], 10
+	pinsrb	xmm6, byte ptr [rsi + r14 + 20], 11
+	pinsrb	xmm6, byte ptr [rsi + r15 + 20], 12
+	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 13
+	pinsrb	xmm6, byte ptr [rsi + rax + 20], 14
+	por	xmm5, xmmword ptr [rsp + 160]   # 16-byte Folded Reload
+	pinsrb	xmm6, byte ptr [rsi + r8 + 20], 15
+	movdqa	xmm15, xmmword ptr [rsp + 176]  # 16-byte Reload
+	pcmpeqb	xmm7, xmm15
+	pand	xmm7, xmmword ptr [rip + .LCPI1_12]
+	pcmpeqb	xmm6, xmm15
+	pand	xmm6, xmmword ptr [rip + .LCPI1_13]
+	por	xmm6, xmm7
+	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 3
+	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 4
+	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 5
+	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 6
+	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 7
+	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 8
+	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 9
+	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 10
+	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 11
+	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 12
+	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 13
+	pinsrb	xmm2, byte ptr [rsi + rax + 21], 14
+	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 15
+	pcmpeqb	xmm2, xmm15
+	movdqa	xmm7, xmmword ptr [rip + .LCPI1_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm2, xmm7
+	por	xmm2, xmm6
+	por	xmm2, xmm5
+	pinsrb	xmm3, byte ptr [rsi + r10 + 22], 3
+	pinsrb	xmm3, byte ptr [rsi + r11 + 22], 4
+	pinsrb	xmm3, byte ptr [rsi + r13 + 22], 5
+	pinsrb	xmm3, byte ptr [rsi + rcx + 22], 6
+	pinsrb	xmm3, byte ptr [rsi + rdi + 22], 7
+	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 8
+	pinsrb	xmm3, byte ptr [rsi + r9 + 22], 9
+	pinsrb	xmm3, byte ptr [rsi + rbx + 22], 10
+	pinsrb	xmm3, byte ptr [rsi + r14 + 22], 11
+	pinsrb	xmm3, byte ptr [rsi + r15 + 22], 12
+	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 13
+	pinsrb	xmm3, byte ptr [rsi + rax + 22], 14
+	pinsrb	xmm3, byte ptr [rsi + r8 + 22], 15
+	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 3
+	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 4
+	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 5
+	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 6
+	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 7
+	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 8
+	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 9
+	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 10
+	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 11
+	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 12
+	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 13
+	pinsrb	xmm8, byte ptr [rsi + rax + 23], 14
+	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 15
+	pcmpeqb	xmm3, xmm15
+	movdqa	xmm5, xmmword ptr [rip + .LCPI1_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm3, xmm5
+	pcmpeqb	xmm8, xmm15
+	psllw	xmm8, 7
+	movdqa	xmm6, xmmword ptr [rip + .LCPI1_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm8, xmm6
+	por	xmm8, xmm3
+	pinsrb	xmm1, byte ptr [rsi + r10 + 25], 3
+	pinsrb	xmm1, byte ptr [rsi + r11 + 25], 4
+	pinsrb	xmm1, byte ptr [rsi + r13 + 25], 5
+	pinsrb	xmm1, byte ptr [rsi + rcx + 25], 6
+	pinsrb	xmm1, byte ptr [rsi + rdi + 25], 7
+	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 8
+	pinsrb	xmm1, byte ptr [rsi + r9 + 25], 9
+	pinsrb	xmm1, byte ptr [rsi + rbx + 25], 10
+	pinsrb	xmm1, byte ptr [rsi + r14 + 25], 11
+	pinsrb	xmm1, byte ptr [rsi + r15 + 25], 12
+	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 13
+	pinsrb	xmm1, byte ptr [rsi + rax + 25], 14
+	pinsrb	xmm1, byte ptr [rsi + r8 + 25], 15
+	por	xmm8, xmm2
+	pcmpeqb	xmm1, xmm15
+	movdqa	xmm2, xmm1
+	movdqa	xmm3, xmmword ptr [rip + .LCPI1_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm2, xmm3
+	psubb	xmm2, xmm1
+	pinsrb	xmm10, byte ptr [rsi + r10 + 24], 3
+	pinsrb	xmm10, byte ptr [rsi + r11 + 24], 4
+	pinsrb	xmm10, byte ptr [rsi + r13 + 24], 5
+	pinsrb	xmm10, byte ptr [rsi + rcx + 24], 6
+	pinsrb	xmm10, byte ptr [rsi + rdi + 24], 7
+	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 8
+	pinsrb	xmm10, byte ptr [rsi + r9 + 24], 9
+	pinsrb	xmm10, byte ptr [rsi + rbx + 24], 10
+	pinsrb	xmm10, byte ptr [rsi + r14 + 24], 11
+	pinsrb	xmm10, byte ptr [rsi + r15 + 24], 12
+	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 13
+	pinsrb	xmm10, byte ptr [rsi + rax + 24], 14
+	pinsrb	xmm10, byte ptr [rsi + r8 + 24], 15
+	pcmpeqb	xmm10, xmm15
+	pand	xmm10, xmm3
+	pinsrb	xmm11, byte ptr [rsi + r10 + 26], 3
+	pinsrb	xmm11, byte ptr [rsi + r11 + 26], 4
+	pinsrb	xmm11, byte ptr [rsi + r13 + 26], 5
+	pinsrb	xmm11, byte ptr [rsi + rcx + 26], 6
+	pinsrb	xmm11, byte ptr [rsi + rdi + 26], 7
+	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 8
+	pinsrb	xmm11, byte ptr [rsi + r9 + 26], 9
+	pinsrb	xmm11, byte ptr [rsi + rbx + 26], 10
+	pinsrb	xmm11, byte ptr [rsi + r14 + 26], 11
+	pinsrb	xmm11, byte ptr [rsi + r15 + 26], 12
+	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 13
+	pinsrb	xmm11, byte ptr [rsi + rax + 26], 14
+	pinsrb	xmm11, byte ptr [rsi + r8 + 26], 15
+	pcmpeqb	xmm11, xmm15
+	pand	xmm11, xmmword ptr [rip + .LCPI1_11]
+	por	xmm11, xmm10
+	por	xmm11, xmm2
+	pinsrb	xmm9, byte ptr [rsi + r10 + 27], 3
+	pinsrb	xmm9, byte ptr [rsi + r11 + 27], 4
+	pinsrb	xmm9, byte ptr [rsi + r13 + 27], 5
+	pinsrb	xmm9, byte ptr [rsi + rcx + 27], 6
+	pinsrb	xmm9, byte ptr [rsi + rdi + 27], 7
+	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 8
+	pinsrb	xmm9, byte ptr [rsi + r9 + 27], 9
+	pinsrb	xmm9, byte ptr [rsi + rbx + 27], 10
+	pinsrb	xmm9, byte ptr [rsi + r14 + 27], 11
+	pinsrb	xmm9, byte ptr [rsi + r15 + 27], 12
+	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 13
+	pinsrb	xmm9, byte ptr [rsi + rax + 27], 14
+	pinsrb	xmm9, byte ptr [rsi + r8 + 27], 15
+	pinsrb	xmm4, byte ptr [rsi + r10 + 28], 3
+	pinsrb	xmm4, byte ptr [rsi + r11 + 28], 4
+	pinsrb	xmm4, byte ptr [rsi + r13 + 28], 5
+	pinsrb	xmm4, byte ptr [rsi + rcx + 28], 6
+	pinsrb	xmm4, byte ptr [rsi + rdi + 28], 7
+	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 8
+	pinsrb	xmm4, byte ptr [rsi + r9 + 28], 9
+	pinsrb	xmm4, byte ptr [rsi + rbx + 28], 10
+	pinsrb	xmm4, byte ptr [rsi + r14 + 28], 11
+	pinsrb	xmm4, byte ptr [rsi + r15 + 28], 12
+	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 13
+	pinsrb	xmm4, byte ptr [rsi + rax + 28], 14
+	pinsrb	xmm4, byte ptr [rsi + r8 + 28], 15
+	pinsrb	xmm13, byte ptr [rsi + r10 + 29], 3
+	pinsrb	xmm13, byte ptr [rsi + r11 + 29], 4
+	pinsrb	xmm13, byte ptr [rsi + r13 + 29], 5
+	pinsrb	xmm13, byte ptr [rsi + rcx + 29], 6
+	pinsrb	xmm13, byte ptr [rsi + rdi + 29], 7
+	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 8
+	pinsrb	xmm13, byte ptr [rsi + r9 + 29], 9
+	pinsrb	xmm13, byte ptr [rsi + rbx + 29], 10
+	pinsrb	xmm13, byte ptr [rsi + r14 + 29], 11
+	pinsrb	xmm13, byte ptr [rsi + r15 + 29], 12
+	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 13
+	pinsrb	xmm13, byte ptr [rsi + rax + 29], 14
+	movdqa	xmm1, xmm15
+	pcmpeqb	xmm9, xmm15
+	pand	xmm9, xmmword ptr [rip + .LCPI1_12]
+	pcmpeqb	xmm4, xmm15
+	pand	xmm4, xmmword ptr [rip + .LCPI1_13]
+	por	xmm4, xmm9
+	pinsrb	xmm13, byte ptr [rsi + r8 + 29], 15
+	pcmpeqb	xmm13, xmm15
+	pand	xmm13, xmm7
+	por	xmm13, xmm4
+	pinsrb	xmm12, byte ptr [rsi + r10 + 30], 3
+	pinsrb	xmm0, byte ptr [rsi + r10 + 31], 3
+	pinsrb	xmm12, byte ptr [rsi + r11 + 30], 4
+	pinsrb	xmm0, byte ptr [rsi + r11 + 31], 4
+	pinsrb	xmm12, byte ptr [rsi + r13 + 30], 5
+	pinsrb	xmm0, byte ptr [rsi + r13 + 31], 5
+	pinsrb	xmm12, byte ptr [rsi + rcx + 30], 6
+	pinsrb	xmm0, byte ptr [rsi + rcx + 31], 6
+	pinsrb	xmm12, byte ptr [rsi + rdi + 30], 7
+	pinsrb	xmm0, byte ptr [rsi + rdi + 31], 7
+	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 8
+	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 8
+	pinsrb	xmm12, byte ptr [rsi + r9 + 30], 9
+	pinsrb	xmm0, byte ptr [rsi + r9 + 31], 9
+	pinsrb	xmm12, byte ptr [rsi + rbx + 30], 10
+	pinsrb	xmm0, byte ptr [rsi + rbx + 31], 10
+	pinsrb	xmm12, byte ptr [rsi + r14 + 30], 11
+	pinsrb	xmm0, byte ptr [rsi + r14 + 31], 11
+	pinsrb	xmm12, byte ptr [rsi + r15 + 30], 12
+	pinsrb	xmm0, byte ptr [rsi + r15 + 31], 12
+	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 13
+	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 13
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rax + 30], 14
+	pinsrb	xmm0, byte ptr [rsi + rax + 31], 14
+	pinsrb	xmm12, byte ptr [rsi + r8 + 30], 15
+	pinsrb	xmm0, byte ptr [rsi + r8 + 31], 15
+	por	xmm13, xmm11
+	pcmpeqb	xmm12, xmm15
+	pand	xmm12, xmm5
+	pcmpeqb	xmm0, xmm15
+	psllw	xmm0, 7
+	pand	xmm0, xmm6
+	por	xmm0, xmm12
+	por	xmm0, xmm13
+	movdqa	xmm1, xmm8
+	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
+	movdqa	xmm4, xmmword ptr [rsp + 208]   # 16-byte Reload
+	movdqa	xmm2, xmm4
+	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
+	movdqa	xmm3, xmm2
+	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
+	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
+	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
+	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
+	movdqa	xmm0, xmm4
+	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
+	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
+	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm2
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm3
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 248]      # 8-byte Folded Reload
+	jne	.LBB1_67
+# %bb.68:
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 248]      # 8-byte Folded Reload
+	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	jne	.LBB1_69
+	jmp	.LBB1_72
+.LBB1_110:
+	and	r11, -8
+	mov	rax, r11
+	shl	rax, 6
+	add	rax, rsi
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	qword ptr [rsp + 16], r11       # 8-byte Spill
+	lea	rax, [r14 + 4*r11]
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	mov	dword ptr [rsp + 56], r13d      # 4-byte Spill
+	movd	xmm0, r13d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	xor	r15d, r15d
+	movdqa	xmm15, xmmword ptr [rip + .LCPI1_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+	movdqa	xmm9, xmmword ptr [rip + .LCPI1_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	movdqa	xmm10, xmmword ptr [rip + .LCPI1_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	movdqa	xmm11, xmmword ptr [rip + .LCPI1_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	movdqa	xmm12, xmmword ptr [rip + .LCPI1_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	movdqa	xmm13, xmmword ptr [rip + .LCPI1_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	movdqa	xmm14, xmmword ptr [rip + .LCPI1_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_111:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	shl	r15, 6
+	mov	r9, r15
+	mov	r12, r15
+	mov	r13, r15
+	mov	rcx, r15
+	mov	rdi, r15
+	mov	rbx, r15
+	movzx	r14d, word ptr [rsi + r15]
+	movzx	eax, word ptr [rsi + r15 + 2]
+	movzx	edx, word ptr [rsi + r15 + 4]
+	movzx	r11d, word ptr [rsi + r15 + 6]
+	movzx	r10d, word ptr [rsi + r15 + 8]
+	mov	r8, r15
+	or	r8, 64
+	or	r9, 128
+	or	r12, 192
+	or	r13, 256
+	or	rcx, 320
+	or	rdi, 384
+	or	rbx, 448
+	movd	xmm4, r14d
+	pinsrw	xmm4, word ptr [rsi + r8], 1
+	pinsrw	xmm4, word ptr [rsi + r9], 2
+	pinsrw	xmm4, word ptr [rsi + r12], 3
+	pinsrw	xmm4, word ptr [rsi + r13], 4
+	pinsrw	xmm4, word ptr [rsi + rcx], 5
+	pinsrw	xmm4, word ptr [rsi + rdi], 6
+	pinsrw	xmm4, word ptr [rsi + rbx], 7
+	movzx	r14d, word ptr [rsi + r15 + 10]
+	movd	xmm6, eax
+	pinsrw	xmm6, word ptr [rsi + r8 + 2], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 2], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 2], 3
+	movzx	eax, word ptr [rsi + r15 + 12]
+	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
+	pinsrw	xmm6, word ptr [rsi + r13 + 2], 4
+	movd	xmm2, edx
+	movzx	edx, word ptr [rsi + r15 + 14]
+	pinsrw	xmm6, word ptr [rsi + rcx + 2], 5
+	movd	xmm5, r11d
+	movzx	eax, word ptr [rsi + r15 + 16]
+	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
+	pinsrw	xmm6, word ptr [rsi + rdi + 2], 6
+	movd	xmm3, r10d
+	movzx	eax, word ptr [rsi + r15 + 18]
+	mov	dword ptr [rsp + 48], eax       # 4-byte Spill
+	pinsrw	xmm6, word ptr [rsi + rbx + 2], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	movdqa	xmm1, xmm6
+	pand	xmm1, xmm15
+	psubb	xmm1, xmm6
+	movd	xmm6, r14d
+	movzx	r11d, word ptr [rsi + r15 + 20]
+	pcmpeqw	xmm4, xmm0
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	pinsrw	xmm2, word ptr [rsi + r8 + 4], 1
+	pinsrw	xmm2, word ptr [rsi + r9 + 4], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 4], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 4], 4
+	pinsrw	xmm2, word ptr [rsi + rcx + 4], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 4], 6
+	pinsrw	xmm2, word ptr [rsi + rbx + 4], 7
+	pinsrw	xmm5, word ptr [rsi + r8 + 6], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 6], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 6], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 6], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 6], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 6], 6
+	pinsrw	xmm5, word ptr [rsi + rbx + 6], 7
+	pinsrw	xmm3, word ptr [rsi + r8 + 8], 1
+	pinsrw	xmm3, word ptr [rsi + r9 + 8], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 8], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 8], 4
+	pinsrw	xmm3, word ptr [rsi + rcx + 8], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 8], 6
+	pinsrw	xmm3, word ptr [rsi + rbx + 8], 7
+	por	xmm1, xmm4
+	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [rsi + r15 + 22]
+	pcmpeqw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 2
+	pand	xmm2, xmm9
+	por	xmm2, xmm1
+	movd	xmm4, edx
+	movzx	edx, word ptr [rsi + r15 + 24]
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 3
+	pand	xmm5, xmm10
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 4
+	pand	xmm3, xmm11
+	por	xmm3, xmm5
+	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [rsi + r15 + 26]
+	pinsrw	xmm6, word ptr [rsi + r8 + 10], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 10], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 10], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 10], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 10], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 10], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 10], 7
+	pinsrw	xmm7, word ptr [rsi + r8 + 12], 1
+	pinsrw	xmm7, word ptr [rsi + r9 + 12], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 12], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 12], 4
+	pinsrw	xmm7, word ptr [rsi + rcx + 12], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 12], 6
+	pinsrw	xmm7, word ptr [rsi + rbx + 12], 7
+	por	xmm3, xmm2
+	movd	xmm8, dword ptr [rsp + 48]      # 4-byte Folded Reload
+                                        # xmm8 = mem[0],zero,zero,zero
+	movzx	r14d, word ptr [rsi + r15 + 28]
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpeqw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm6
+	movd	xmm5, r11d
+	movzx	r11d, word ptr [rsi + r15 + 30]
+	pinsrw	xmm4, word ptr [rsi + r8 + 14], 1
+	pinsrw	xmm4, word ptr [rsi + r9 + 14], 2
+	pinsrw	xmm4, word ptr [rsi + r12 + 14], 3
+	pinsrw	xmm4, word ptr [rsi + r13 + 14], 4
+	pinsrw	xmm4, word ptr [rsi + rcx + 14], 5
+	pinsrw	xmm4, word ptr [rsi + rdi + 14], 6
+	pinsrw	xmm4, word ptr [rsi + rbx + 14], 7
+	pinsrw	xmm8, word ptr [rsi + r8 + 18], 1
+	pinsrw	xmm8, word ptr [rsi + r9 + 18], 2
+	pinsrw	xmm8, word ptr [rsi + r12 + 18], 3
+	pinsrw	xmm8, word ptr [rsi + r13 + 18], 4
+	pinsrw	xmm8, word ptr [rsi + rcx + 18], 5
+	pinsrw	xmm8, word ptr [rsi + rdi + 18], 6
+	pinsrw	xmm8, word ptr [rsi + rbx + 18], 7
+	pcmpeqw	xmm4, xmm0
+	packsswb	xmm4, xmm4
+	psllw	xmm4, 7
+	pand	xmm4, xmm14
+	por	xmm4, xmm7
+	movd	xmm2, eax
+	movzx	eax, word ptr [rsi + r15 + 32]
+	por	xmm4, xmm3
+	pcmpeqw	xmm8, xmm0
+	packsswb	xmm8, xmm8
+	movdqa	xmm7, xmm8
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm8
+	movd	xmm3, edx
+	movzx	edx, word ptr [rsi + r15 + 34]
+	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
+	pinsrw	xmm1, word ptr [rsi + r8 + 16], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 16], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 16], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 16], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 16], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 16], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 16], 7
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	por	xmm7, xmm1
+	movd	xmm6, r10d
+	movzx	r10d, word ptr [rsi + r15 + 36]
+	pinsrw	xmm5, word ptr [rsi + r8 + 20], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 20], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 20], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 20], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 20], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 20], 6
+	pinsrw	xmm5, word ptr [rsi + rbx + 20], 7
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	pand	xmm5, xmm9
+	por	xmm5, xmm7
+	movd	xmm7, r14d
+	movzx	edx, word ptr [rsi + r15 + 38]
+	mov	dword ptr [rsp + 24], edx       # 4-byte Spill
+	pinsrw	xmm2, word ptr [rsi + r8 + 22], 1
+	pinsrw	xmm2, word ptr [rsi + r9 + 22], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 22], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 22], 4
+	pinsrw	xmm2, word ptr [rsi + rcx + 22], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 22], 6
+	pinsrw	xmm2, word ptr [rsi + rbx + 22], 7
+	pinsrw	xmm3, word ptr [rsi + r8 + 24], 1
+	pinsrw	xmm3, word ptr [rsi + r9 + 24], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 24], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 24], 4
+	pinsrw	xmm3, word ptr [rsi + rcx + 24], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 24], 6
+	pinsrw	xmm3, word ptr [rsi + rbx + 24], 7
+	pcmpeqw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 3
+	pand	xmm2, xmm10
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 4
+	pand	xmm3, xmm11
+	por	xmm3, xmm2
+	movd	xmm2, r11d
+	movzx	r14d, word ptr [rsi + r15 + 40]
+	por	xmm3, xmm5
+	movd	xmm5, eax
+	movzx	r11d, word ptr [rsi + r15 + 42]
+	pinsrw	xmm6, word ptr [rsi + r8 + 26], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 26], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 26], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 26], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 26], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 26], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 26], 7
+	pinsrw	xmm7, word ptr [rsi + r8 + 28], 1
+	pinsrw	xmm7, word ptr [rsi + r9 + 28], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 28], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 28], 4
+	pinsrw	xmm7, word ptr [rsi + rcx + 28], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 28], 6
+	pinsrw	xmm7, word ptr [rsi + rbx + 28], 7
+	pinsrw	xmm2, word ptr [rsi + r8 + 30], 1
+	pinsrw	xmm2, word ptr [rsi + r9 + 30], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 30], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 30], 4
+	pinsrw	xmm2, word ptr [rsi + rcx + 30], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 30], 6
+	pinsrw	xmm2, word ptr [rsi + rbx + 30], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpeqw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm6
+	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	movzx	edx, word ptr [rsi + r15 + 44]
+	pcmpeqw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	psllw	xmm2, 7
+	pand	xmm2, xmm14
+	por	xmm2, xmm7
+	movd	xmm6, r10d
+	movzx	eax, word ptr [rsi + r15 + 46]
+	pinsrw	xmm5, word ptr [rsi + r8 + 32], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 32], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 32], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 32], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 32], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 32], 6
+	pinsrw	xmm1, word ptr [rsi + r8 + 34], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 34], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 34], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 34], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 34], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 34], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 34], 7
+	por	xmm2, xmm3
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm7, xmm1
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm1
+	movd	xmm3, dword ptr [rsp + 24]      # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [rsi + r15 + 48]
+	pinsrw	xmm5, word ptr [rsi + rbx + 32], 7
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	pinsrw	xmm6, word ptr [rsi + r8 + 36], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 36], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 36], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 36], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 36], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 36], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 36], 7
+	pinsrw	xmm3, word ptr [rsi + r8 + 38], 1
+	pinsrw	xmm3, word ptr [rsi + r9 + 38], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 38], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 38], 4
+	pinsrw	xmm3, word ptr [rsi + rcx + 38], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 38], 6
+	pinsrw	xmm3, word ptr [rsi + rbx + 38], 7
+	por	xmm7, xmm5
+	movd	xmm5, r14d
+	pinsrw	xmm5, word ptr [rsi + r8 + 40], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 40], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 40], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 40], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 40], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 40], 6
+	movzx	r14d, word ptr [rsi + r15 + 50]
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 2
+	pand	xmm6, xmm9
+	por	xmm6, xmm7
+	movd	xmm1, r11d
+	movzx	r11d, word ptr [rsi + r15 + 52]
+	pinsrw	xmm5, word ptr [rsi + rbx + 40], 7
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 3
+	pand	xmm3, xmm10
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm3
+	movd	xmm7, edx
+	movzx	edx, word ptr [rsi + r15 + 54]
+	pinsrw	xmm1, word ptr [rsi + r8 + 42], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 42], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 42], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 42], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 42], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 42], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 42], 7
+	pinsrw	xmm7, word ptr [rsi + r8 + 44], 1
+	pinsrw	xmm7, word ptr [rsi + r9 + 44], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 44], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 44], 4
+	pinsrw	xmm7, word ptr [rsi + rcx + 44], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 44], 6
+	por	xmm5, xmm6
+	movd	xmm3, eax
+	movzx	eax, word ptr [rsi + r15 + 56]
+	pinsrw	xmm7, word ptr [rsi + rbx + 44], 7
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 5
+	pand	xmm1, xmm12
+	pcmpeqw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm1
+	movd	xmm6, r10d
+	movzx	r10d, word ptr [rsi + r15 + 58]
+	pinsrw	xmm3, word ptr [rsi + r8 + 46], 1
+	pinsrw	xmm3, word ptr [rsi + r9 + 46], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 46], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 46], 4
+	pinsrw	xmm3, word ptr [rsi + rcx + 46], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 46], 6
+	pinsrw	xmm3, word ptr [rsi + rbx + 46], 7
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	psllw	xmm3, 7
+	pand	xmm3, xmm14
+	por	xmm3, xmm7
+	movd	xmm1, r14d
+	movzx	r14d, word ptr [rsi + r15 + 60]
+	movzx	r15d, word ptr [rsi + r15 + 62]
+	pinsrw	xmm1, word ptr [rsi + r8 + 50], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 50], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 50], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 50], 7
+	por	xmm3, xmm5
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm5, xmm1
+	pand	xmm5, xmm15
+	psubb	xmm5, xmm1
+	movd	xmm1, r11d
+	pinsrw	xmm6, word ptr [rsi + r8 + 48], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 48], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 48], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 48], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 48], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 48], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 48], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pinsrw	xmm1, word ptr [rsi + r8 + 52], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 52], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 52], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 52], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 52], 5
+	pand	xmm6, xmm15
+	pinsrw	xmm1, word ptr [rsi + rdi + 52], 6
+	por	xmm5, xmm6
+	movd	xmm6, edx
+	pinsrw	xmm1, word ptr [rsi + rbx + 52], 7
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 2
+	pand	xmm1, xmm9
+	por	xmm1, xmm5
+	movd	xmm5, eax
+	pinsrw	xmm6, word ptr [rsi + r8 + 54], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 54], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 54], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 54], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 54], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 54], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 54], 7
+	pinsrw	xmm5, word ptr [rsi + r8 + 56], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 56], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 56], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 56], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 56], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 56], 6
+	pinsrw	xmm5, word ptr [rsi + rbx + 56], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 3
+	pand	xmm6, xmm10
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm6
+	movd	xmm6, r10d
+	pinsrw	xmm6, word ptr [rsi + r8 + 58], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 58], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 58], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 58], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 58], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 58], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 58], 7
+	por	xmm5, xmm1
+	movd	xmm1, r14d
+	pinsrw	xmm1, word ptr [rsi + r8 + 60], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 60], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 60], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 60], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 60], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 60], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 60], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 6
+	pand	xmm1, xmm13
+	por	xmm1, xmm6
+	movd	xmm6, r15d
+	pinsrw	xmm6, word ptr [rsi + r8 + 62], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 62], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 62], 3
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrw	xmm6, word ptr [rsi + r13 + 62], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 62], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 62], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 62], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	psllw	xmm6, 7
+	pand	xmm6, xmm14
+	por	xmm6, xmm1
+	por	xmm6, xmm5
+	movdqa	xmm1, xmm4
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqa	xmm5, xmm3
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	movdqa	xmm7, xmmword ptr [rip + .LCPI1_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
+	pshufb	xmm5, xmm7
+	pshufb	xmm1, xmm7
+	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
+	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
+	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
+	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
+	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
+	add	rcx, 8
+	mov	r15, rcx
+	cmp	rcx, qword ptr [rsp + 16]       # 8-byte Folded Reload
+	jne	.LBB1_111
+# %bb.112:
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	cmp	r11, qword ptr [rsp + 16]       # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r13d, dword ptr [rsp + 56]      # 4-byte Reload
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	jne	.LBB1_113
+	jmp	.LBB1_116
+.LBB1_133:
+	and	r15, -8
+	mov	rax, r15
+	shl	rax, 6
+	add	rax, rsi
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	qword ptr [rsp + 16], r15       # 8-byte Spill
+	lea	rax, [r14 + 4*r15]
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	mov	dword ptr [rsp + 56], r13d      # 4-byte Spill
+	movd	xmm0, r13d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	xor	r15d, r15d
+	movdqa	xmm15, xmmword ptr [rip + .LCPI1_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+	movdqa	xmm9, xmmword ptr [rip + .LCPI1_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	movdqa	xmm10, xmmword ptr [rip + .LCPI1_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	movdqa	xmm11, xmmword ptr [rip + .LCPI1_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	movdqa	xmm12, xmmword ptr [rip + .LCPI1_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	movdqa	xmm13, xmmword ptr [rip + .LCPI1_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	movdqa	xmm14, xmmword ptr [rip + .LCPI1_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB1_134:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	shl	r15, 6
+	mov	r9, r15
+	mov	r12, r15
+	mov	r13, r15
+	mov	rcx, r15
+	mov	rdi, r15
+	mov	rbx, r15
+	movzx	r14d, word ptr [rsi + r15]
+	movzx	eax, word ptr [rsi + r15 + 2]
+	movzx	edx, word ptr [rsi + r15 + 4]
+	movzx	r11d, word ptr [rsi + r15 + 6]
+	movzx	r10d, word ptr [rsi + r15 + 8]
+	mov	r8, r15
+	or	r8, 64
+	or	r9, 128
+	or	r12, 192
+	or	r13, 256
+	or	rcx, 320
+	or	rdi, 384
+	or	rbx, 448
+	movd	xmm4, r14d
+	pinsrw	xmm4, word ptr [rsi + r8], 1
+	pinsrw	xmm4, word ptr [rsi + r9], 2
+	pinsrw	xmm4, word ptr [rsi + r12], 3
+	pinsrw	xmm4, word ptr [rsi + r13], 4
+	pinsrw	xmm4, word ptr [rsi + rcx], 5
+	pinsrw	xmm4, word ptr [rsi + rdi], 6
+	pinsrw	xmm4, word ptr [rsi + rbx], 7
+	movzx	r14d, word ptr [rsi + r15 + 10]
+	movd	xmm6, eax
+	pinsrw	xmm6, word ptr [rsi + r8 + 2], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 2], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 2], 3
+	movzx	eax, word ptr [rsi + r15 + 12]
+	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
+	pinsrw	xmm6, word ptr [rsi + r13 + 2], 4
+	movd	xmm2, edx
+	movzx	edx, word ptr [rsi + r15 + 14]
+	pinsrw	xmm6, word ptr [rsi + rcx + 2], 5
+	movd	xmm5, r11d
+	movzx	eax, word ptr [rsi + r15 + 16]
+	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
+	pinsrw	xmm6, word ptr [rsi + rdi + 2], 6
+	movd	xmm3, r10d
+	movzx	eax, word ptr [rsi + r15 + 18]
+	mov	dword ptr [rsp + 48], eax       # 4-byte Spill
+	pinsrw	xmm6, word ptr [rsi + rbx + 2], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	movdqa	xmm1, xmm6
+	pand	xmm1, xmm15
+	psubb	xmm1, xmm6
+	movd	xmm6, r14d
+	movzx	r11d, word ptr [rsi + r15 + 20]
+	pcmpeqw	xmm4, xmm0
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	pinsrw	xmm2, word ptr [rsi + r8 + 4], 1
+	pinsrw	xmm2, word ptr [rsi + r9 + 4], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 4], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 4], 4
+	pinsrw	xmm2, word ptr [rsi + rcx + 4], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 4], 6
+	pinsrw	xmm2, word ptr [rsi + rbx + 4], 7
+	pinsrw	xmm5, word ptr [rsi + r8 + 6], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 6], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 6], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 6], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 6], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 6], 6
+	pinsrw	xmm5, word ptr [rsi + rbx + 6], 7
+	pinsrw	xmm3, word ptr [rsi + r8 + 8], 1
+	pinsrw	xmm3, word ptr [rsi + r9 + 8], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 8], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 8], 4
+	pinsrw	xmm3, word ptr [rsi + rcx + 8], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 8], 6
+	pinsrw	xmm3, word ptr [rsi + rbx + 8], 7
+	por	xmm1, xmm4
+	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [rsi + r15 + 22]
+	pcmpeqw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 2
+	pand	xmm2, xmm9
+	por	xmm2, xmm1
+	movd	xmm4, edx
+	movzx	edx, word ptr [rsi + r15 + 24]
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 3
+	pand	xmm5, xmm10
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 4
+	pand	xmm3, xmm11
+	por	xmm3, xmm5
+	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [rsi + r15 + 26]
+	pinsrw	xmm6, word ptr [rsi + r8 + 10], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 10], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 10], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 10], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 10], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 10], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 10], 7
+	pinsrw	xmm7, word ptr [rsi + r8 + 12], 1
+	pinsrw	xmm7, word ptr [rsi + r9 + 12], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 12], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 12], 4
+	pinsrw	xmm7, word ptr [rsi + rcx + 12], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 12], 6
+	pinsrw	xmm7, word ptr [rsi + rbx + 12], 7
+	por	xmm3, xmm2
+	movd	xmm8, dword ptr [rsp + 48]      # 4-byte Folded Reload
+                                        # xmm8 = mem[0],zero,zero,zero
+	movzx	r14d, word ptr [rsi + r15 + 28]
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpeqw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm6
+	movd	xmm5, r11d
+	movzx	r11d, word ptr [rsi + r15 + 30]
+	pinsrw	xmm4, word ptr [rsi + r8 + 14], 1
+	pinsrw	xmm4, word ptr [rsi + r9 + 14], 2
+	pinsrw	xmm4, word ptr [rsi + r12 + 14], 3
+	pinsrw	xmm4, word ptr [rsi + r13 + 14], 4
+	pinsrw	xmm4, word ptr [rsi + rcx + 14], 5
+	pinsrw	xmm4, word ptr [rsi + rdi + 14], 6
+	pinsrw	xmm4, word ptr [rsi + rbx + 14], 7
+	pinsrw	xmm8, word ptr [rsi + r8 + 18], 1
+	pinsrw	xmm8, word ptr [rsi + r9 + 18], 2
+	pinsrw	xmm8, word ptr [rsi + r12 + 18], 3
+	pinsrw	xmm8, word ptr [rsi + r13 + 18], 4
+	pinsrw	xmm8, word ptr [rsi + rcx + 18], 5
+	pinsrw	xmm8, word ptr [rsi + rdi + 18], 6
+	pinsrw	xmm8, word ptr [rsi + rbx + 18], 7
+	pcmpeqw	xmm4, xmm0
+	packsswb	xmm4, xmm4
+	psllw	xmm4, 7
+	pand	xmm4, xmm14
+	por	xmm4, xmm7
+	movd	xmm2, eax
+	movzx	eax, word ptr [rsi + r15 + 32]
+	por	xmm4, xmm3
+	pcmpeqw	xmm8, xmm0
+	packsswb	xmm8, xmm8
+	movdqa	xmm7, xmm8
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm8
+	movd	xmm3, edx
+	movzx	edx, word ptr [rsi + r15 + 34]
+	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
+	pinsrw	xmm1, word ptr [rsi + r8 + 16], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 16], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 16], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 16], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 16], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 16], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 16], 7
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	por	xmm7, xmm1
+	movd	xmm6, r10d
+	movzx	r10d, word ptr [rsi + r15 + 36]
+	pinsrw	xmm5, word ptr [rsi + r8 + 20], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 20], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 20], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 20], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 20], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 20], 6
+	pinsrw	xmm5, word ptr [rsi + rbx + 20], 7
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	pand	xmm5, xmm9
+	por	xmm5, xmm7
+	movd	xmm7, r14d
+	movzx	edx, word ptr [rsi + r15 + 38]
+	mov	dword ptr [rsp + 24], edx       # 4-byte Spill
+	pinsrw	xmm2, word ptr [rsi + r8 + 22], 1
+	pinsrw	xmm2, word ptr [rsi + r9 + 22], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 22], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 22], 4
+	pinsrw	xmm2, word ptr [rsi + rcx + 22], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 22], 6
+	pinsrw	xmm2, word ptr [rsi + rbx + 22], 7
+	pinsrw	xmm3, word ptr [rsi + r8 + 24], 1
+	pinsrw	xmm3, word ptr [rsi + r9 + 24], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 24], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 24], 4
+	pinsrw	xmm3, word ptr [rsi + rcx + 24], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 24], 6
+	pinsrw	xmm3, word ptr [rsi + rbx + 24], 7
+	pcmpeqw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 3
+	pand	xmm2, xmm10
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 4
+	pand	xmm3, xmm11
+	por	xmm3, xmm2
+	movd	xmm2, r11d
+	movzx	r14d, word ptr [rsi + r15 + 40]
+	por	xmm3, xmm5
+	movd	xmm5, eax
+	movzx	r11d, word ptr [rsi + r15 + 42]
+	pinsrw	xmm6, word ptr [rsi + r8 + 26], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 26], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 26], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 26], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 26], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 26], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 26], 7
+	pinsrw	xmm7, word ptr [rsi + r8 + 28], 1
+	pinsrw	xmm7, word ptr [rsi + r9 + 28], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 28], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 28], 4
+	pinsrw	xmm7, word ptr [rsi + rcx + 28], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 28], 6
+	pinsrw	xmm7, word ptr [rsi + rbx + 28], 7
+	pinsrw	xmm2, word ptr [rsi + r8 + 30], 1
+	pinsrw	xmm2, word ptr [rsi + r9 + 30], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 30], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 30], 4
+	pinsrw	xmm2, word ptr [rsi + rcx + 30], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 30], 6
+	pinsrw	xmm2, word ptr [rsi + rbx + 30], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpeqw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm6
+	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	movzx	edx, word ptr [rsi + r15 + 44]
+	pcmpeqw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	psllw	xmm2, 7
+	pand	xmm2, xmm14
+	por	xmm2, xmm7
+	movd	xmm6, r10d
+	movzx	eax, word ptr [rsi + r15 + 46]
+	pinsrw	xmm5, word ptr [rsi + r8 + 32], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 32], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 32], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 32], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 32], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 32], 6
+	pinsrw	xmm1, word ptr [rsi + r8 + 34], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 34], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 34], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 34], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 34], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 34], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 34], 7
+	por	xmm2, xmm3
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm7, xmm1
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm1
+	movd	xmm3, dword ptr [rsp + 24]      # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [rsi + r15 + 48]
+	pinsrw	xmm5, word ptr [rsi + rbx + 32], 7
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	pinsrw	xmm6, word ptr [rsi + r8 + 36], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 36], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 36], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 36], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 36], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 36], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 36], 7
+	pinsrw	xmm3, word ptr [rsi + r8 + 38], 1
+	pinsrw	xmm3, word ptr [rsi + r9 + 38], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 38], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 38], 4
+	pinsrw	xmm3, word ptr [rsi + rcx + 38], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 38], 6
+	pinsrw	xmm3, word ptr [rsi + rbx + 38], 7
+	por	xmm7, xmm5
+	movd	xmm5, r14d
+	pinsrw	xmm5, word ptr [rsi + r8 + 40], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 40], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 40], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 40], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 40], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 40], 6
+	movzx	r14d, word ptr [rsi + r15 + 50]
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 2
+	pand	xmm6, xmm9
+	por	xmm6, xmm7
+	movd	xmm1, r11d
+	movzx	r11d, word ptr [rsi + r15 + 52]
+	pinsrw	xmm5, word ptr [rsi + rbx + 40], 7
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 3
+	pand	xmm3, xmm10
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm3
+	movd	xmm7, edx
+	movzx	edx, word ptr [rsi + r15 + 54]
+	pinsrw	xmm1, word ptr [rsi + r8 + 42], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 42], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 42], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 42], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 42], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 42], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 42], 7
+	pinsrw	xmm7, word ptr [rsi + r8 + 44], 1
+	pinsrw	xmm7, word ptr [rsi + r9 + 44], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 44], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 44], 4
+	pinsrw	xmm7, word ptr [rsi + rcx + 44], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 44], 6
+	por	xmm5, xmm6
+	movd	xmm3, eax
+	movzx	eax, word ptr [rsi + r15 + 56]
+	pinsrw	xmm7, word ptr [rsi + rbx + 44], 7
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 5
+	pand	xmm1, xmm12
+	pcmpeqw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm1
+	movd	xmm6, r10d
+	movzx	r10d, word ptr [rsi + r15 + 58]
+	pinsrw	xmm3, word ptr [rsi + r8 + 46], 1
+	pinsrw	xmm3, word ptr [rsi + r9 + 46], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 46], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 46], 4
+	pinsrw	xmm3, word ptr [rsi + rcx + 46], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 46], 6
+	pinsrw	xmm3, word ptr [rsi + rbx + 46], 7
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	psllw	xmm3, 7
+	pand	xmm3, xmm14
+	por	xmm3, xmm7
+	movd	xmm1, r14d
+	movzx	r14d, word ptr [rsi + r15 + 60]
+	movzx	r15d, word ptr [rsi + r15 + 62]
+	pinsrw	xmm1, word ptr [rsi + r8 + 50], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 50], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 50], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 50], 7
+	por	xmm3, xmm5
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm5, xmm1
+	pand	xmm5, xmm15
+	psubb	xmm5, xmm1
+	movd	xmm1, r11d
+	pinsrw	xmm6, word ptr [rsi + r8 + 48], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 48], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 48], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 48], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 48], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 48], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 48], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pinsrw	xmm1, word ptr [rsi + r8 + 52], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 52], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 52], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 52], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 52], 5
+	pand	xmm6, xmm15
+	pinsrw	xmm1, word ptr [rsi + rdi + 52], 6
+	por	xmm5, xmm6
+	movd	xmm6, edx
+	pinsrw	xmm1, word ptr [rsi + rbx + 52], 7
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 2
+	pand	xmm1, xmm9
+	por	xmm1, xmm5
+	movd	xmm5, eax
+	pinsrw	xmm6, word ptr [rsi + r8 + 54], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 54], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 54], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 54], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 54], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 54], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 54], 7
+	pinsrw	xmm5, word ptr [rsi + r8 + 56], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 56], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 56], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 56], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 56], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 56], 6
+	pinsrw	xmm5, word ptr [rsi + rbx + 56], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 3
+	pand	xmm6, xmm10
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm6
+	movd	xmm6, r10d
+	pinsrw	xmm6, word ptr [rsi + r8 + 58], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 58], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 58], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 58], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 58], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 58], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 58], 7
+	por	xmm5, xmm1
+	movd	xmm1, r14d
+	pinsrw	xmm1, word ptr [rsi + r8 + 60], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 60], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 60], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 60], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 60], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 60], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 60], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 6
+	pand	xmm1, xmm13
+	por	xmm1, xmm6
+	movd	xmm6, r15d
+	pinsrw	xmm6, word ptr [rsi + r8 + 62], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 62], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 62], 3
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrw	xmm6, word ptr [rsi + r13 + 62], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 62], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 62], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 62], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	psllw	xmm6, 7
+	pand	xmm6, xmm14
+	por	xmm6, xmm1
+	por	xmm6, xmm5
+	movdqa	xmm1, xmm4
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqa	xmm5, xmm3
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	movdqa	xmm7, xmmword ptr [rip + .LCPI1_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
+	pshufb	xmm5, xmm7
+	pshufb	xmm1, xmm7
+	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
+	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
+	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
+	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
+	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
+	add	rcx, 8
+	mov	r15, rcx
+	cmp	rcx, qword ptr [rsp + 16]       # 8-byte Folded Reload
+	jne	.LBB1_134
+# %bb.135:
+	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 16]       # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r13d, dword ptr [rsp + 56]      # 4-byte Reload
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	jne	.LBB1_136
+	jmp	.LBB1_139
+.LBB1_184:
+	mov	r8, r11
+	and	r8, -4
+	mov	rbx, r8
+	shl	rbx, 7
+	add	rbx, rsi
+	lea	r15, [r14 + 4*r8]
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	add	rsi, 508
+	xor	ecx, ecx
+	movdqa	xmm15, xmmword ptr [rip + .LCPI1_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	movdqa	xmm8, xmmword ptr [rip + .LCPI1_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	movdqa	xmm10, xmmword ptr [rip + .LCPI1_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	movdqa	xmm11, xmmword ptr [rip + .LCPI1_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	movdqa	xmm12, xmmword ptr [rip + .LCPI1_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	movdqa	xmm13, xmmword ptr [rip + .LCPI1_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	movdqa	xmm14, xmmword ptr [rip + .LCPI1_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	movdqa	xmm9, xmmword ptr [rip + .LCPI1_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
+	.p2align	4, 0x90
+.LBB1_185:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm6, dword ptr [rsi - 508]     # xmm6 = mem[0],zero,zero,zero
+	movss	xmm7, dword ptr [rsi - 504]     # xmm7 = mem[0],zero,zero,zero
+	movss	xmm5, dword ptr [rsi - 500]     # xmm5 = mem[0],zero,zero,zero
+	movss	xmm4, dword ptr [rsi - 496]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rsi - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
+	cmpeqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	insertps	xmm7, dword ptr [rsi - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
+	insertps	xmm5, dword ptr [rsi - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
+	insertps	xmm4, dword ptr [rsi - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [rsi - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	insertps	xmm4, dword ptr [rsi - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	movdqa	xmm2, xmm7
+	pand	xmm2, xmm15
+	psubb	xmm2, xmm7
+	movss	xmm7, dword ptr [rsi - 492]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [rsi - 488]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rsi - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
+	cmpeqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	pand	xmm5, xmm8
+	por	xmm5, xmm2
+	movss	xmm3, dword ptr [rsi - 484]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
+	cmpeqps	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	psllw	xmm4, 3
+	pand	xmm4, xmm10
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 4
+	pand	xmm7, xmm11
+	por	xmm7, xmm4
+	movss	xmm4, dword ptr [rsi - 480]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm4, dword ptr [rsi - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [rsi - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	insertps	xmm4, dword ptr [rsi - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
+	por	xmm7, xmm5
+	movss	xmm5, dword ptr [rsi - 476]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpeqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	cmpeqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	cmpeqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 6
+	pand	xmm3, xmm13
+	por	xmm3, xmm6
+	movss	xmm2, dword ptr [rsi - 472]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	packsswb	xmm5, xmm5
+	cmpeqps	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	psllw	xmm4, 7
+	pand	xmm4, xmm14
+	por	xmm4, xmm3
+	movss	xmm3, dword ptr [rsi - 468]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	pand	xmm5, xmm15
+	insertps	xmm3, dword ptr [rsi - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	por	xmm4, xmm7
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm6, xmm2
+	pand	xmm6, xmm15
+	psubb	xmm6, xmm2
+	movss	xmm7, dword ptr [rsi - 464]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm6, xmm5
+	movss	xmm5, dword ptr [rsi - 460]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpeqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm6
+	movss	xmm6, dword ptr [rsi - 456]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rsi - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 3
+	pand	xmm7, xmm10
+	cmpeqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm7
+	movss	xmm2, dword ptr [rsi - 452]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm5, xmm3
+	movss	xmm7, dword ptr [rsi - 448]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpeqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [rsi - 444]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rsi - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpeqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	psllw	xmm7, 7
+	pand	xmm7, xmm14
+	por	xmm7, xmm2
+	movss	xmm2, dword ptr [rsi - 440]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm7, xmm5
+	movss	xmm3, dword ptr [rsi - 436]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	pand	xmm6, xmm15
+	insertps	xmm3, dword ptr [rsi - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm7, xmm2
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm2
+	movss	xmm5, dword ptr [rsi - 432]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	por	xmm7, xmm6
+	movss	xmm6, dword ptr [rsi - 428]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rsi - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpeqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm7
+	movss	xmm7, dword ptr [rsi - 424]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpeqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 3
+	pand	xmm5, xmm10
+	cmpeqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 4
+	pand	xmm6, xmm11
+	por	xmm6, xmm5
+	movss	xmm2, dword ptr [rsi - 420]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm6, xmm3
+	movss	xmm5, dword ptr [rsi - 416]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 5
+	pand	xmm7, xmm12
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm7
+	movss	xmm7, dword ptr [rsi - 412]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	cmpeqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	psllw	xmm5, 7
+	pand	xmm5, xmm14
+	por	xmm5, xmm2
+	movss	xmm2, dword ptr [rsi - 408]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	pand	xmm7, xmm15
+	insertps	xmm2, dword ptr [rsi - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm5, xmm6
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm6, xmm2
+	pand	xmm6, xmm15
+	psubb	xmm6, xmm2
+	movss	xmm3, dword ptr [rsi - 404]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	por	xmm6, xmm7
+	movss	xmm2, dword ptr [rsi - 400]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	cmpeqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm6
+	movss	xmm6, dword ptr [rsi - 396]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rsi - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 3
+	pand	xmm2, xmm10
+	cmpeqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 4
+	pand	xmm6, xmm11
+	por	xmm6, xmm2
+	movss	xmm7, dword ptr [rsi - 392]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm6, xmm3
+	movss	xmm2, dword ptr [rsi - 388]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 5
+	pand	xmm7, xmm12
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm7
+	movss	xmm3, dword ptr [rsi - 384]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi], 48       # xmm3 = xmm3[0,1,2],mem[0]
+	cmpeqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	psllw	xmm3, 7
+	pand	xmm3, xmm14
+	por	xmm3, xmm2
+	por	xmm3, xmm6
+	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
+	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
+	pshufb	xmm4, xmm9
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
+	add	rcx, 4
+	add	rsi, 512
+	cmp	r8, rcx
+	jne	.LBB1_185
+# %bb.186:
+	cmp	r11, r8
+	jne	.LBB1_187
+	jmp	.LBB1_190
+.Lfunc_end1:
+	.size	comparison_equal_arr_scalar_sse4, .Lfunc_end1-comparison_equal_arr_scalar_sse4
+                                        # -- End function
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4                               # -- Begin function comparison_equal_scalar_arr_sse4
+.LCPI2_0:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI2_1:
+	.zero	16,252
+.LCPI2_2:
+	.zero	16,248
+.LCPI2_3:
+	.zero	16,240
+.LCPI2_4:
+	.zero	16,224
+.LCPI2_5:
+	.zero	16,192
+.LCPI2_6:
+	.zero	16,128
+.LCPI2_7:
+	.byte	0                               # 0x0
+	.byte	8                               # 0x8
+	.byte	1                               # 0x1
+	.byte	9                               # 0x9
+	.byte	2                               # 0x2
+	.byte	10                              # 0xa
+	.byte	3                               # 0x3
+	.byte	11                              # 0xb
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+.LCPI2_8:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI2_9:
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI2_10:
+	.zero	16,1
+.LCPI2_11:
+	.zero	16,4
+.LCPI2_12:
+	.zero	16,8
+.LCPI2_13:
+	.zero	16,16
+.LCPI2_14:
+	.zero	16,32
+.LCPI2_15:
+	.zero	16,64
+	.text
+	.globl	comparison_equal_scalar_arr_sse4
+	.p2align	4, 0x90
+	.type	comparison_equal_scalar_arr_sse4,@function
+comparison_equal_scalar_arr_sse4:       # @comparison_equal_scalar_arr_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -16
+	sub	rsp, 304
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r10, r8
+	mov	qword ptr [rsp], rcx            # 8-byte Spill
+	cmp	edi, 6
+	jg	.LBB2_17
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB2_32
+# %bb.2:
+	cmp	edi, 4
+	je	.LBB2_83
+# %bb.3:
+	cmp	edi, 5
+	je	.LBB2_95
+# %bb.4:
+	cmp	edi, 6
+	jne	.LBB2_176
+# %bb.5:
+	mov	r13d, dword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_9
+# %bb.6:
+	movsxd	rax, r9d
+	mov	r9, qword ptr [rsp]             # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_7:                                # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r9 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r9 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_7
+# %bb.8:
+	add	qword ptr [rsp], 1              # 8-byte Folded Spill
+.LBB2_9:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB2_13
+# %bb.10:
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_11:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 4]
+	sete	dil
+	cmp	r13d, dword ptr [rdx + 8]
+	sete	r14b
+	cmp	r13d, dword ptr [rdx + 12]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 16]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 20]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 24]
+	sete	al
+	cmp	r13d, dword ptr [rdx + 28]
+	sete	r11b
+	cmp	r13d, dword ptr [rdx + 32]
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 36]
+	sete	sil
+	cmp	r13d, dword ptr [rdx + 40]
+	sete	r8b
+	cmp	r13d, dword ptr [rdx + 44]
+	sete	r9b
+	cmp	r13d, dword ptr [rdx + 48]
+	sete	r10b
+	cmp	r13d, dword ptr [rdx + 52]
+	sete	r12b
+	cmp	r13d, dword ptr [rdx + 56]
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 60]
+	sete	cl
+	cmp	r13d, dword ptr [rdx + 64]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 68]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 72]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 76]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 80]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 84]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 88]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 92]
+	sete	r15b
+	cmp	r13d, dword ptr [rdx + 96]
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 100]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 104]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 108]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 112]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 116]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 120]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 124]
+	sete	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	edi, eax
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	mov	byte ptr [rax], r11b
+	mov	rsi, qword ptr [rsp]            # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	mov	byte ptr [rsi + 1], cl
+	or	r15b, dil
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	or	bl, cl
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], bl
+	add	rdx, 128
+	add	rsi, 4
+	mov	qword ptr [rsp], rsi            # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB2_11
+# %bb.12:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+.LBB2_13:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB2_176
+# %bb.14:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	je	.LBB2_82
+# %bb.15:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_16:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	sete	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r11 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r11 + rsi], bl
+	add	rdi, 2
+	cmp	r13d, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	sete	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r11 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB2_16
+	jmp	.LBB2_152
+.LBB2_17:
+	cmp	edi, 8
+	jle	.LBB2_46
+# %bb.18:
+	cmp	edi, 9
+	je	.LBB2_107
+# %bb.19:
+	cmp	edi, 11
+	je	.LBB2_118
+# %bb.20:
+	cmp	edi, 12
+	jne	.LBB2_176
+# %bb.21:
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB2_25
+# %bb.22:
+	movsxd	rax, r9d
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_23:                               # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_23
+# %bb.24:
+	add	qword ptr [rsp], 1              # 8-byte Folded Spill
+.LBB2_25:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB2_29
+# %bb.26:
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_27:                               # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rdx]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 8]
+	sete	r8b
+	ucomisd	xmm0, qword ptr [rdx + 16]
+	sete	r11b
+	ucomisd	xmm0, qword ptr [rdx + 24]
+	sete	r13b
+	ucomisd	xmm0, qword ptr [rdx + 32]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 40]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 48]
+	sete	al
+	ucomisd	xmm0, qword ptr [rdx + 56]
+	sete	r14b
+	ucomisd	xmm0, qword ptr [rdx + 64]
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 72]
+	sete	sil
+	ucomisd	xmm0, qword ptr [rdx + 80]
+	sete	dil
+	ucomisd	xmm0, qword ptr [rdx + 88]
+	sete	r9b
+	ucomisd	xmm0, qword ptr [rdx + 96]
+	sete	r10b
+	ucomisd	xmm0, qword ptr [rdx + 104]
+	sete	r12b
+	ucomisd	xmm0, qword ptr [rdx + 112]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 120]
+	sete	cl
+	ucomisd	xmm0, qword ptr [rdx + 128]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 136]
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 144]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 152]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 160]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 168]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 176]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 184]
+	sete	r15b
+	ucomisd	xmm0, qword ptr [rdx + 192]
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 200]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 208]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 216]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 224]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 232]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 240]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 248]
+	sete	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r14b, 7
+	or	r14b, al
+	shl	r11b, 2
+	or	r11b, r8b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r11b
+	mov	r8, qword ptr [rsp]             # 8-byte Reload
+	shl	dil, 2
+	or	dil, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r13b
+	mov	r11d, eax
+	shl	r9b, 3
+	or	r9b, dil
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r14b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	byte ptr [r8], r14b
+	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r15b, 7
+	or	r15b, sil
+	mov	byte ptr [r8 + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r8 + 2], r15b
+	mov	byte ptr [r8 + 3], bl
+	add	rdx, 256
+	add	r8, 4
+	mov	qword ptr [rsp], r8             # 8-byte Spill
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB2_27
+# %bb.28:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+.LBB2_29:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB2_176
+# %bb.30:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB2_161
+# %bb.31:
+	xor	edi, edi
+	jmp	.LBB2_163
+.LBB2_32:
+	cmp	edi, 2
+	je	.LBB2_60
+# %bb.33:
+	cmp	edi, 3
+	jne	.LBB2_176
+# %bb.34:
+	mov	r14b, byte ptr [rsi]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_38
+# %bb.35:
+	movsxd	rax, r9d
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_36:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_36
+# %bb.37:
+	add	qword ptr [rsp], 1              # 8-byte Folded Spill
+.LBB2_38:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB2_130
+# %bb.39:
+	cmp	r15, 16
+	mov	byte ptr [rsp + 8], r14b        # 1-byte Spill
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r15      # 8-byte Spill
+	jb	.LBB2_42
+# %bb.40:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
+	jae	.LBB2_185
+# %bb.41:
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	lea	rax, [rax + 4*r15]
+	cmp	rdx, rax
+	jae	.LBB2_185
+.LBB2_42:
+	xor	eax, eax
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	mov	rsi, rdx
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+.LBB2_43:
+	sub	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_44:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, rsi
+	cmp	r14b, byte ptr [rsi]
+	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rsi + 1]
+	sete	dil
+	cmp	r14b, byte ptr [rsi + 2]
+	sete	r11b
+	cmp	r14b, byte ptr [rsi + 3]
+	sete	r15b
+	cmp	r14b, byte ptr [rsi + 4]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rsi + 5]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rsi + 6]
+	sete	bl
+	cmp	r14b, byte ptr [rsi + 7]
+	sete	r13b
+	cmp	r14b, byte ptr [rsi + 8]
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rsi + 9]
+	sete	sil
+	cmp	r14b, byte ptr [rcx + 10]
+	sete	r8b
+	cmp	r14b, byte ptr [rcx + 11]
+	sete	r9b
+	cmp	r14b, byte ptr [rcx + 12]
+	sete	r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 13]
+	sete	r12b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 14]
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 15]
+	sete	al
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 16]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 17]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 18]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 19]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 20]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 21]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 22]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 23]
+	sete	r10b
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 24]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 25]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 26]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 27]
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 28]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 29]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 30]
+	sete	byte ptr [rsp]                  # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 31]
+	sete	dl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r13b, 7
+	or	r13b, bl
+	shl	r11b, 2
+	or	r11b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	r15b, 3
+	or	r15b, r11b
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	ebx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r15b
+	mov	esi, ebx
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	shl	r14b, 4
+	or	r14b, r9b
+	shl	r12b, 5
+	or	r12b, r14b
+	movzx	r14d, byte ptr [rsp + 8]        # 1-byte Folded Reload
+	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	al, 7
+	or	al, sil
+	or	r13b, bl
+	or	al, r12b
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	bl, bl
+	add	bl, byte ptr [rsp + 120]        # 1-byte Folded Reload
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	mov	byte ptr [rdi], r13b
+	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r10b, 7
+	or	r10b, sil
+	mov	byte ptr [rdi + 1], al
+	or	r10b, bl
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 56]         # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rdi + 2], r10b
+	mov	byte ptr [rdi + 3], dl
+	lea	rsi, [rcx + 32]
+	add	rdi, 4
+	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB2_44
+# %bb.45:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	jmp	.LBB2_131
+.LBB2_46:
+	cmp	edi, 7
+	je	.LBB2_72
+# %bb.47:
+	cmp	edi, 8
+	jne	.LBB2_176
+# %bb.48:
+	mov	r13, qword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_52
+# %bb.49:
+	movsxd	rax, r9d
+	mov	r9, qword ptr [rsp]             # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_50:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r9 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r9 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_50
+# %bb.51:
+	add	qword ptr [rsp], 1              # 8-byte Folded Spill
+.LBB2_52:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB2_56
+# %bb.53:
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_54:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 8]
+	sete	dil
+	cmp	r13, qword ptr [rdx + 16]
+	sete	r14b
+	cmp	r13, qword ptr [rdx + 24]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 32]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 40]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 48]
+	sete	al
+	cmp	r13, qword ptr [rdx + 56]
+	sete	r11b
+	cmp	r13, qword ptr [rdx + 64]
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 72]
+	sete	sil
+	cmp	r13, qword ptr [rdx + 80]
+	sete	r8b
+	cmp	r13, qword ptr [rdx + 88]
+	sete	r9b
+	cmp	r13, qword ptr [rdx + 96]
+	sete	r10b
+	cmp	r13, qword ptr [rdx + 104]
+	sete	r12b
+	cmp	r13, qword ptr [rdx + 112]
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 120]
+	sete	cl
+	cmp	r13, qword ptr [rdx + 128]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 136]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 144]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 152]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 160]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 168]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 176]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 184]
+	sete	r15b
+	cmp	r13, qword ptr [rdx + 192]
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 200]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 208]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 216]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 224]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 232]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 240]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 248]
+	sete	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	edi, eax
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	mov	byte ptr [rax], r11b
+	mov	rsi, qword ptr [rsp]            # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	mov	byte ptr [rsi + 1], cl
+	or	r15b, dil
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	or	bl, cl
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], bl
+	add	rdx, 256
+	add	rsi, 4
+	mov	qword ptr [rsp], rsi            # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB2_54
+# %bb.55:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+.LBB2_56:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB2_176
+# %bb.57:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	je	.LBB2_117
+# %bb.58:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_59:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	sete	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r11 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r11 + rsi], bl
+	add	rdi, 2
+	cmp	r13, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	sete	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r11 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB2_59
+	jmp	.LBB2_167
+.LBB2_60:
+	mov	r14b, byte ptr [rsi]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_64
+# %bb.61:
+	movsxd	rax, r9d
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_62:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_62
+# %bb.63:
+	add	qword ptr [rsp], 1              # 8-byte Folded Spill
+.LBB2_64:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB2_134
+# %bb.65:
+	cmp	r15, 16
+	mov	byte ptr [rsp + 8], r14b        # 1-byte Spill
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r15      # 8-byte Spill
+	jb	.LBB2_68
+# %bb.66:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
+	jae	.LBB2_188
+# %bb.67:
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	lea	rax, [rax + 4*r15]
+	cmp	rdx, rax
+	jae	.LBB2_188
+.LBB2_68:
+	xor	eax, eax
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	mov	rsi, rdx
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+.LBB2_69:
+	sub	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_70:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, rsi
+	cmp	r14b, byte ptr [rsi]
+	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rsi + 1]
+	sete	dil
+	cmp	r14b, byte ptr [rsi + 2]
+	sete	r11b
+	cmp	r14b, byte ptr [rsi + 3]
+	sete	r15b
+	cmp	r14b, byte ptr [rsi + 4]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rsi + 5]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rsi + 6]
+	sete	bl
+	cmp	r14b, byte ptr [rsi + 7]
+	sete	r13b
+	cmp	r14b, byte ptr [rsi + 8]
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rsi + 9]
+	sete	sil
+	cmp	r14b, byte ptr [rcx + 10]
+	sete	r8b
+	cmp	r14b, byte ptr [rcx + 11]
+	sete	r9b
+	cmp	r14b, byte ptr [rcx + 12]
+	sete	r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 13]
+	sete	r12b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 14]
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 15]
+	sete	al
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 16]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 17]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 18]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 19]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 20]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 21]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 22]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 23]
+	sete	r10b
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 24]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 25]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 26]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 27]
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 28]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 29]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 30]
+	sete	byte ptr [rsp]                  # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 31]
+	sete	dl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r13b, 7
+	or	r13b, bl
+	shl	r11b, 2
+	or	r11b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	r15b, 3
+	or	r15b, r11b
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	ebx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r15b
+	mov	esi, ebx
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	shl	r14b, 4
+	or	r14b, r9b
+	shl	r12b, 5
+	or	r12b, r14b
+	movzx	r14d, byte ptr [rsp + 8]        # 1-byte Folded Reload
+	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	al, 7
+	or	al, sil
+	or	r13b, bl
+	or	al, r12b
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	add	bl, bl
+	add	bl, byte ptr [rsp + 120]        # 1-byte Folded Reload
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	mov	byte ptr [rdi], r13b
+	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r10b, 7
+	or	r10b, sil
+	mov	byte ptr [rdi + 1], al
+	or	r10b, bl
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 56]         # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rdi + 2], r10b
+	mov	byte ptr [rdi + 3], dl
+	lea	rsi, [rcx + 32]
+	add	rdi, 4
+	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB2_70
+# %bb.71:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	jmp	.LBB2_135
+.LBB2_72:
+	mov	r13d, dword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_76
+# %bb.73:
+	movsxd	rax, r9d
+	mov	r9, qword ptr [rsp]             # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_74:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r9 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r9 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_74
+# %bb.75:
+	add	qword ptr [rsp], 1              # 8-byte Folded Spill
+.LBB2_76:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB2_80
+# %bb.77:
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_78:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 4]
+	sete	dil
+	cmp	r13d, dword ptr [rdx + 8]
+	sete	r14b
+	cmp	r13d, dword ptr [rdx + 12]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 16]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 20]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 24]
+	sete	al
+	cmp	r13d, dword ptr [rdx + 28]
+	sete	r11b
+	cmp	r13d, dword ptr [rdx + 32]
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 36]
+	sete	sil
+	cmp	r13d, dword ptr [rdx + 40]
+	sete	r8b
+	cmp	r13d, dword ptr [rdx + 44]
+	sete	r9b
+	cmp	r13d, dword ptr [rdx + 48]
+	sete	r10b
+	cmp	r13d, dword ptr [rdx + 52]
+	sete	r12b
+	cmp	r13d, dword ptr [rdx + 56]
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 60]
+	sete	cl
+	cmp	r13d, dword ptr [rdx + 64]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 68]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 72]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 76]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 80]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 84]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 88]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 92]
+	sete	r15b
+	cmp	r13d, dword ptr [rdx + 96]
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 100]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 104]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 108]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 112]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 116]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 120]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 124]
+	sete	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	edi, eax
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	mov	byte ptr [rax], r11b
+	mov	rsi, qword ptr [rsp]            # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	mov	byte ptr [rsi + 1], cl
+	or	r15b, dil
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	or	bl, cl
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], bl
+	add	rdx, 128
+	add	rsi, 4
+	mov	qword ptr [rsp], rsi            # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB2_78
+# %bb.79:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+.LBB2_80:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB2_176
+# %bb.81:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB2_150
+.LBB2_82:
+	xor	edi, edi
+	jmp	.LBB2_152
+.LBB2_83:
+	movzx	r13d, word ptr [rsi]
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_87
+# %bb.84:
+	movsxd	rax, r9d
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_85:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_85
+# %bb.86:
+	add	qword ptr [rsp], 1              # 8-byte Folded Spill
+.LBB2_87:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB2_138
+# %bb.88:
+	cmp	r14, 8
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r14      # 8-byte Spill
+	jb	.LBB2_91
+# %bb.89:
+	mov	rax, r14
+	shl	rax, 6
+	add	rax, rdx
+	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
+	jae	.LBB2_191
+# %bb.90:
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	lea	rax, [rax + 4*r14]
+	cmp	rax, rdx
+	jbe	.LBB2_191
+.LBB2_91:
+	xor	eax, eax
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rsi, rdx
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+.LBB2_92:
+	sub	r14, qword ptr [rsp + 32]       # 8-byte Folded Reload
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_93:                               # =>This Inner Loop Header: Depth=1
+	mov	r11, rsi
+	cmp	r13w, word ptr [rsi]
+	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 2]
+	sete	dil
+	cmp	r13w, word ptr [rsi + 4]
+	sete	r14b
+	cmp	r13w, word ptr [rsi + 6]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 8]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 10]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 12]
+	sete	al
+	cmp	r13w, word ptr [rsi + 14]
+	sete	r10b
+	cmp	r13w, word ptr [rsi + 16]
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 18]
+	sete	cl
+	cmp	r13w, word ptr [rsi + 20]
+	sete	dl
+	cmp	r13w, word ptr [rsi + 22]
+	sete	sil
+	cmp	r13w, word ptr [r11 + 24]
+	sete	r9b
+	cmp	r13w, word ptr [r11 + 26]
+	sete	r12b
+	cmp	r13w, word ptr [r11 + 28]
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 30]
+	sete	r8b
+	cmp	r13w, word ptr [r11 + 32]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 34]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 36]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 38]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 40]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 42]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 44]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 46]
+	sete	r15b
+	cmp	r13w, word ptr [r11 + 48]
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 50]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 52]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 54]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 56]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 58]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 60]
+	sete	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 62]
+	sete	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r10b, 7
+	or	r10b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	cl, cl
+	add	cl, byte ptr [rsp + 208]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	dl, 2
+	or	dl, cl
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	sil, 3
+	or	sil, dl
+	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r9b, 4
+	or	r9b, sil
+	shl	r12b, 5
+	or	r12b, r9b
+	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r10b, cl
+	or	r8b, r12b
+	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	mov	esi, ecx
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	byte ptr [rcx], r10b
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r15b, 7
+	or	r15b, dl
+	mov	byte ptr [rcx + 1], r8b
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	dl, 6
+	shl	bl, 7
+	or	bl, dl
+	or	bl, al
+	mov	byte ptr [rcx + 2], r15b
+	mov	byte ptr [rcx + 3], bl
+	lea	rsi, [r11 + 64]
+	add	rcx, 4
+	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB2_93
+# %bb.94:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
+	jmp	.LBB2_139
+.LBB2_95:
+	movzx	r13d, word ptr [rsi]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_99
+# %bb.96:
+	movsxd	rax, r9d
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_97:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_97
+# %bb.98:
+	add	qword ptr [rsp], 1              # 8-byte Folded Spill
+.LBB2_99:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB2_142
+# %bb.100:
+	cmp	r15, 8
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r15      # 8-byte Spill
+	jb	.LBB2_103
+# %bb.101:
+	mov	rax, r15
+	shl	rax, 6
+	add	rax, rdx
+	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
+	jae	.LBB2_194
+# %bb.102:
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	lea	rax, [rax + 4*r15]
+	cmp	rax, rdx
+	jbe	.LBB2_194
+.LBB2_103:
+	xor	eax, eax
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rsi, rdx
+	mov	r14, qword ptr [rsp]            # 8-byte Reload
+.LBB2_104:
+	mov	qword ptr [rsp + 8], r14        # 8-byte Spill
+	sub	r15, qword ptr [rsp + 32]       # 8-byte Folded Reload
+	mov	qword ptr [rsp + 136], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_105:                              # =>This Inner Loop Header: Depth=1
+	mov	r11, rsi
+	cmp	r13w, word ptr [rsi]
+	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 2]
+	sete	dil
+	cmp	r13w, word ptr [rsi + 4]
+	sete	r14b
+	cmp	r13w, word ptr [rsi + 6]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 8]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 10]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 12]
+	sete	al
+	cmp	r13w, word ptr [rsi + 14]
+	sete	r10b
+	cmp	r13w, word ptr [rsi + 16]
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 18]
+	sete	cl
+	cmp	r13w, word ptr [rsi + 20]
+	sete	dl
+	cmp	r13w, word ptr [rsi + 22]
+	sete	sil
+	cmp	r13w, word ptr [r11 + 24]
+	sete	r9b
+	cmp	r13w, word ptr [r11 + 26]
+	sete	r12b
+	cmp	r13w, word ptr [r11 + 28]
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 30]
+	sete	r8b
+	cmp	r13w, word ptr [r11 + 32]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 34]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 36]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 38]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 40]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 42]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 44]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 46]
+	sete	r15b
+	cmp	r13w, word ptr [r11 + 48]
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 50]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 52]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 54]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 56]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 58]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 60]
+	sete	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 62]
+	sete	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r10b, 7
+	or	r10b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	cl, cl
+	add	cl, byte ptr [rsp + 208]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	dl, 2
+	or	dl, cl
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	sil, 3
+	or	sil, dl
+	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r9b, 4
+	or	r9b, sil
+	shl	r12b, 5
+	or	r12b, r9b
+	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r10b, cl
+	or	r8b, r12b
+	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	mov	esi, ecx
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	byte ptr [rcx], r10b
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r15b, 7
+	or	r15b, dl
+	mov	byte ptr [rcx + 1], r8b
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	dl, 6
+	shl	bl, 7
+	or	bl, dl
+	or	bl, al
+	mov	byte ptr [rcx + 2], r15b
+	mov	byte ptr [rcx + 3], bl
+	lea	rsi, [r11 + 64]
+	add	rcx, 4
+	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB2_105
+# %bb.106:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 8]        # 8-byte Reload
+	jmp	.LBB2_143
+.LBB2_107:
+	mov	r13, qword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB2_111
+# %bb.108:
+	movsxd	rax, r9d
+	mov	r9, qword ptr [rsp]             # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_109:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r9 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r9 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_109
+# %bb.110:
+	add	qword ptr [rsp], 1              # 8-byte Folded Spill
+.LBB2_111:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB2_115
+# %bb.112:
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_113:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	sete	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 8]
+	sete	dil
+	cmp	r13, qword ptr [rdx + 16]
+	sete	r14b
+	cmp	r13, qword ptr [rdx + 24]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 32]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 40]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 48]
+	sete	al
+	cmp	r13, qword ptr [rdx + 56]
+	sete	r11b
+	cmp	r13, qword ptr [rdx + 64]
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 72]
+	sete	sil
+	cmp	r13, qword ptr [rdx + 80]
+	sete	r8b
+	cmp	r13, qword ptr [rdx + 88]
+	sete	r9b
+	cmp	r13, qword ptr [rdx + 96]
+	sete	r10b
+	cmp	r13, qword ptr [rdx + 104]
+	sete	r12b
+	cmp	r13, qword ptr [rdx + 112]
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 120]
+	sete	cl
+	cmp	r13, qword ptr [rdx + 128]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 136]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 144]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 152]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 160]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 168]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 176]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 184]
+	sete	r15b
+	cmp	r13, qword ptr [rdx + 192]
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 200]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 208]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 216]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 224]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 232]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 240]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 248]
+	sete	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	edi, eax
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	mov	byte ptr [rax], r11b
+	mov	rsi, qword ptr [rsp]            # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	mov	byte ptr [rsi + 1], cl
+	or	r15b, dil
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	or	bl, cl
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], bl
+	add	rdx, 256
+	add	rsi, 4
+	mov	qword ptr [rsp], rsi            # 8-byte Spill
+	add	qword ptr [rsp + 136], -1       # 8-byte Folded Spill
+	jne	.LBB2_113
+# %bb.114:
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+.LBB2_115:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB2_176
+# %bb.116:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB2_165
+.LBB2_117:
+	xor	edi, edi
+	jmp	.LBB2_167
+.LBB2_118:
+	lea	r14, [r10 + 31]
+	test	r10, r10
+	cmovns	r14, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB2_122
+# %bb.119:
+	movsxd	rax, r9d
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_120:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	sete	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r11 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB2_120
+# %bb.121:
+	add	qword ptr [rsp], 1              # 8-byte Folded Spill
+.LBB2_122:
+	sar	r14, 5
+	cmp	r10, 32
+	jl	.LBB2_146
+# %bb.123:
+	cmp	r14, 4
+	jb	.LBB2_126
+# %bb.124:
+	mov	rax, r14
+	shl	rax, 7
+	add	rax, rdx
+	cmp	qword ptr [rsp], rax            # 8-byte Folded Reload
+	jae	.LBB2_197
+# %bb.125:
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	lea	rax, [rax + 4*r14]
+	cmp	rax, rdx
+	jbe	.LBB2_197
+.LBB2_126:
+	xor	r8d, r8d
+	mov	rbx, rdx
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+.LBB2_127:
+	mov	qword ptr [rsp], r11            # 8-byte Spill
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 136], r14      # 8-byte Spill
+	sub	r14, r8
+	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB2_128:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rbx]
+	sete	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 4]
+	sete	r8b
+	ucomiss	xmm0, dword ptr [rbx + 8]
+	sete	r14b
+	ucomiss	xmm0, dword ptr [rbx + 12]
+	sete	r13b
+	ucomiss	xmm0, dword ptr [rbx + 16]
+	sete	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 20]
+	sete	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 24]
+	sete	al
+	ucomiss	xmm0, dword ptr [rbx + 28]
+	sete	r11b
+	ucomiss	xmm0, dword ptr [rbx + 32]
+	sete	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 36]
+	sete	dl
+	ucomiss	xmm0, dword ptr [rbx + 40]
+	sete	sil
+	ucomiss	xmm0, dword ptr [rbx + 44]
+	sete	dil
+	ucomiss	xmm0, dword ptr [rbx + 48]
+	sete	r10b
+	ucomiss	xmm0, dword ptr [rbx + 52]
+	sete	r12b
+	ucomiss	xmm0, dword ptr [rbx + 56]
+	sete	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 60]
+	sete	r9b
+	ucomiss	xmm0, dword ptr [rbx + 64]
+	sete	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 68]
+	sete	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 72]
+	sete	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 76]
+	sete	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 80]
+	sete	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 84]
+	sete	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 88]
+	sete	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 92]
+	sete	r15b
+	ucomiss	xmm0, dword ptr [rbx + 96]
+	sete	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 100]
+	sete	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 104]
+	sete	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 108]
+	sete	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 112]
+	sete	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 116]
+	sete	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 120]
+	sete	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 124]
+	sete	cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 72]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp]            # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r15b, 7
+	or	r15b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r15b, dl
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	cl, 7
+	or	cl, dl
+	or	cl, al
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], cl
+	add	rbx, 128
+	add	rsi, 4
+	mov	qword ptr [rsp], rsi            # 8-byte Spill
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB2_128
+# %bb.129:
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 136]      # 8-byte Reload
+	jmp	.LBB2_147
+.LBB2_130:
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	rsi, rdx
+.LBB2_131:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB2_176
+# %bb.132:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	je	.LBB2_137
+# %bb.154:
+	mov	r10, r8
+	and	r10, -2
+	xor	r9d, r9d
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_155:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r9
+	cmp	r14b, byte ptr [rsi + r9]
+	sete	bl
+	neg	bl
+	mov	rdi, r9
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	r14b, byte ptr [rsi + rax + 1]
+	lea	r9, [rax + 2]
+	sete	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, r9
+	jne	.LBB2_155
+	jmp	.LBB2_158
+.LBB2_134:
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	mov	rsi, rdx
+.LBB2_135:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB2_176
+# %bb.136:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB2_156
+.LBB2_137:
+	xor	r9d, r9d
+	test	r8b, 1
+	je	.LBB2_176
+	jmp	.LBB2_160
+.LBB2_138:
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	mov	rsi, rdx
+.LBB2_139:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB2_176
+# %bb.140:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB2_170
+# %bb.141:
+	xor	r14d, r14d
+	jmp	.LBB2_172
+.LBB2_142:
+	mov	r14, qword ptr [rsp]            # 8-byte Reload
+	mov	rsi, rdx
+.LBB2_143:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB2_176
+# %bb.144:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB2_177
+# %bb.145:
+	xor	r15d, r15d
+	jmp	.LBB2_179
+.LBB2_146:
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+	mov	rbx, rdx
+.LBB2_147:
+	shl	r14, 5
+	cmp	r14, r10
+	jge	.LBB2_176
+# %bb.148:
+	mov	r8, r10
+	sub	r8, r14
+	not	r14
+	add	r14, r10
+	jne	.LBB2_181
+# %bb.149:
+	xor	esi, esi
+	jmp	.LBB2_183
+.LBB2_150:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_151:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	sete	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r11 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r11 + rsi], bl
+	add	rdi, 2
+	cmp	r13d, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	sete	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r11 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB2_151
+.LBB2_152:
+	test	r8b, 1
+	je	.LBB2_176
+# %bb.153:
+	cmp	r13d, dword ptr [rdx]
+	jmp	.LBB2_169
+.LBB2_156:
+	mov	r10, r8
+	and	r10, -2
+	xor	r9d, r9d
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_157:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r9
+	cmp	r14b, byte ptr [rsi + r9]
+	sete	bl
+	neg	bl
+	mov	rdi, r9
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	r14b, byte ptr [rsi + rax + 1]
+	lea	r9, [rax + 2]
+	sete	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, r9
+	jne	.LBB2_157
+.LBB2_158:
+	add	rsi, r9
+	test	r8b, 1
+	je	.LBB2_176
+.LBB2_160:
+	cmp	r14b, byte ptr [rsi]
+	sete	al
+	neg	al
+	mov	rdx, r9
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	r9b, 7
+	mov	bl, 1
+	mov	ecx, r9d
+	jmp	.LBB2_174
+.LBB2_161:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_162:                              # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rdx]
+	sete	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r11 + rsi]
+	xor	al, r9b
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r11 + rsi], bl
+	add	rdi, 2
+	ucomisd	xmm0, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	sete	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r11 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB2_162
+.LBB2_163:
+	test	r8b, 1
+	je	.LBB2_176
+# %bb.164:
+	ucomisd	xmm0, qword ptr [rdx]
+	jmp	.LBB2_169
+.LBB2_165:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	mov	r11, qword ptr [rsp]            # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_166:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	sete	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r11 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r11 + rsi], bl
+	add	rdi, 2
+	cmp	r13, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	sete	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r11 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB2_166
+.LBB2_167:
+	test	r8b, 1
+	je	.LBB2_176
+# %bb.168:
+	cmp	r13, qword ptr [rdx]
+.LBB2_169:
+	sete	al
+	neg	al
+	mov	rdx, rdi
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp]             # 8-byte Reload
+	mov	sil, byte ptr [r8 + rdx]
+	and	dil, 7
+	mov	bl, 1
+	mov	ecx, edi
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	xor	bl, sil
+	jmp	.LBB2_175
+.LBB2_170:
+	mov	r9, r8
+	and	r9, -2
+	xor	r14d, r14d
+	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_171:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, rsi
+	cmp	r13w, word ptr [rsi]
+	sete	dl
+	neg	dl
+	mov	rdi, r14
+	shr	rdi, 3
+	movzx	r10d, byte ptr [r11 + rdi]
+	mov	ecx, r14d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	dl, r10b
+	and	bl, dl
+	xor	bl, r10b
+	mov	byte ptr [r11 + rdi], bl
+	add	r14, 2
+	cmp	r13w, word ptr [rsi + 2]
+	lea	rsi, [rsi + 4]
+	sete	dl
+	neg	dl
+	xor	dl, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, bl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r9, r14
+	jne	.LBB2_171
+.LBB2_172:
+	test	r8b, 1
+	je	.LBB2_176
+# %bb.173:
+	cmp	r13w, word ptr [rsi]
+	sete	al
+	neg	al
+	mov	rdx, r14
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	r14b, 7
+	mov	bl, 1
+	mov	ecx, r14d
+.LBB2_174:
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+.LBB2_175:
+	mov	byte ptr [r8 + rdx], bl
+.LBB2_176:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.LBB2_177:
+	mov	r9, r8
+	and	r9, -2
+	xor	r15d, r15d
+	.p2align	4, 0x90
+.LBB2_178:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, rsi
+	cmp	r13w, word ptr [rsi]
+	sete	dl
+	neg	dl
+	mov	rdi, r15
+	shr	rdi, 3
+	movzx	r10d, byte ptr [r14 + rdi]
+	mov	ecx, r15d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	dl, r10b
+	and	bl, dl
+	xor	bl, r10b
+	mov	byte ptr [r14 + rdi], bl
+	add	r15, 2
+	cmp	r13w, word ptr [rsi + 2]
+	lea	rsi, [rsi + 4]
+	sete	dl
+	neg	dl
+	xor	dl, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, bl
+	mov	byte ptr [r14 + rdi], al
+	cmp	r9, r15
+	jne	.LBB2_178
+.LBB2_179:
+	test	r8b, 1
+	je	.LBB2_176
+# %bb.180:
+	cmp	r13w, word ptr [rsi]
+	sete	al
+	neg	al
+	mov	rdx, r15
+	shr	rdx, 3
+	mov	dil, byte ptr [r14 + rdx]
+	and	r15b, 7
+	mov	bl, 1
+	mov	ecx, r15d
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r14 + rdx], bl
+	jmp	.LBB2_176
+.LBB2_181:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r14, r11
+	.p2align	4, 0x90
+.LBB2_182:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rbx]
+	sete	dl
+	neg	dl
+	mov	rdi, rsi
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	mov	ecx, esi
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	add	rsi, 2
+	ucomiss	xmm0, dword ptr [rbx + 4]
+	lea	rbx, [rbx + 8]
+	sete	r9b
+	neg	r9b
+	xor	r9b, al
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, r9b
+	xor	dl, al
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, rsi
+	jne	.LBB2_182
+.LBB2_183:
+	test	r8b, 1
+	je	.LBB2_176
+# %bb.184:
+	ucomiss	xmm0, dword ptr [rbx]
+	sete	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	dil, byte ptr [r11 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r11 + rdx], bl
+	jmp	.LBB2_176
+.LBB2_185:
+	and	r15, -16
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	lea	rax, [rax + 4*r15]
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	movzx	eax, r14b
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
+	xor	eax, eax
+	.p2align	4, 0x90
+.LBB2_186:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, rax
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	shl	rdi, 5
+	mov	rsi, rdi
+	mov	r10, rdi
+	mov	r14, rdi
+	mov	r15, rdi
+	mov	r12, rdi
+	mov	r11, rdi
+	mov	rax, rdi
+	mov	r9, rdi
+	mov	rbx, rdi
+	mov	qword ptr [rsp + 80], rdi       # 8-byte Spill
+	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
+	movzx	ecx, byte ptr [rdx + rdi]
+	movd	xmm15, ecx
+	movzx	ecx, byte ptr [rdx + rdi + 1]
+	movd	xmm5, ecx
+	movzx	ecx, byte ptr [rdx + rdi + 2]
+	movd	xmm6, ecx
+	movzx	ecx, byte ptr [rdx + rdi + 3]
+	movd	xmm2, ecx
+	movzx	ecx, byte ptr [rdx + rdi + 4]
+	movd	xmm1, ecx
+	movzx	ecx, byte ptr [rdx + rdi + 5]
+	movd	xmm8, ecx
+	movzx	ecx, byte ptr [rdx + rdi + 6]
+	movd	xmm3, ecx
+	movzx	ecx, byte ptr [rdx + rdi + 7]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rdx + rdi + 8]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 256], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rdx + rdi + 9]
+	movd	xmm10, ecx
+	movzx	ecx, byte ptr [rdx + rdi + 10]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rdx + rdi + 11]
+	movd	xmm11, ecx
+	movzx	ecx, byte ptr [rdx + rdi + 12]
+	movd	xmm13, ecx
+	movzx	ecx, byte ptr [rdx + rdi + 13]
+	movd	xmm12, ecx
+	movzx	ecx, byte ptr [rdx + rdi + 14]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
+	mov	qword ptr [rsp + 64], rdi       # 8-byte Spill
+	mov	r13, rdi
+	or	r13, 32
+	mov	qword ptr [rsp + 24], r13       # 8-byte Spill
+	or	rsi, 64
+	mov	qword ptr [rsp + 40], rsi       # 8-byte Spill
+	mov	rcx, rdi
+	or	rcx, 96
+	or	r14, 128
+	or	r15, 160
+	or	r10, 192
+	or	r11, 224
+	or	r12, 256
+	or	r9, 288
+	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
+	or	rbx, 320
+	mov	qword ptr [rsp + 120], rbx      # 8-byte Spill
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	or	rbx, 352
+	mov	qword ptr [rsp + 80], rbx       # 8-byte Spill
+	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
+	or	r8, 384
+	mov	qword ptr [rsp + 96], r8        # 8-byte Spill
+	or	rax, 416
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	rax, rdi
+	or	rax, 448
+	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
+	mov	rax, rdi
+	or	rax, 480
+	pinsrb	xmm15, byte ptr [rdx + r13], 1
+	pinsrb	xmm15, byte ptr [rdx + rsi], 2
+	mov	qword ptr [rsp + 32], rcx       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + rcx], 3
+	mov	qword ptr [rsp + 112], r14      # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + r14], 4
+	mov	qword ptr [rsp + 128], r15      # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + r15], 5
+	mov	rdi, r10
+	pinsrb	xmm15, byte ptr [rdx + r10], 6
+	mov	r10, r11
+	mov	qword ptr [rsp + 88], r11       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + r11], 7
+	pinsrb	xmm15, byte ptr [rdx + r12], 8
+	pinsrb	xmm15, byte ptr [rdx + r9], 9
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r13], 10
+	pinsrb	xmm15, byte ptr [rdx + rbx], 11
+	pinsrb	xmm15, byte ptr [rdx + r8], 12
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rsi], 13
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rsi], 14
+	pinsrb	xmm15, byte ptr [rdx + rax], 15
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 1
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rsi + 1], 2
+	pinsrb	xmm5, byte ptr [rdx + rcx + 1], 3
+	pinsrb	xmm5, byte ptr [rdx + r14 + 1], 4
+	pinsrb	xmm5, byte ptr [rdx + r15 + 1], 5
+	pinsrb	xmm5, byte ptr [rdx + rdi + 1], 6
+	pinsrb	xmm5, byte ptr [rdx + r10 + 1], 7
+	pinsrb	xmm5, byte ptr [rdx + r12 + 1], 8
+	mov	r14, r12
+	mov	qword ptr [rsp + 192], r12      # 8-byte Spill
+	pinsrb	xmm5, byte ptr [rdx + r9 + 1], 9
+	pinsrb	xmm5, byte ptr [rdx + r13 + 1], 10
+	mov	r15, r13
+	pinsrb	xmm5, byte ptr [rdx + rbx + 1], 11
+	pinsrb	xmm5, byte ptr [rdx + r8 + 1], 12
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r9 + 1], 13
+	mov	r11, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 14
+	pinsrb	xmm5, byte ptr [rdx + rax + 1], 15
+	movdqa	xmm9, xmmword ptr [rsp + 176]   # 16-byte Reload
+	pcmpeqb	xmm5, xmm9
+	movdqa	xmm7, xmm5
+	movdqa	xmm4, xmmword ptr [rip + .LCPI2_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm7, xmm4
+	psubb	xmm7, xmm5
+	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r12 + 15]
+	movd	xmm14, esi
+	pcmpeqb	xmm15, xmm9
+	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r8 + 2], 1
+	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r10 + 2], 2
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rcx + 2], 3
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rbx + 2], 4
+	mov	rsi, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 5
+	pinsrb	xmm6, byte ptr [rdx + rdi + 2], 6
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 7
+	pinsrb	xmm6, byte ptr [rdx + r14 + 2], 8
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r13 + 2], 9
+	pinsrb	xmm6, byte ptr [rdx + r15 + 2], 10
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r14 + 2], 11
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r15 + 2], 12
+	pinsrb	xmm6, byte ptr [rdx + r9 + 2], 13
+	pinsrb	xmm6, byte ptr [rdx + r11 + 2], 14
+	mov	r9, rax
+	pinsrb	xmm6, byte ptr [rdx + rax + 2], 15
+	pand	xmm15, xmm4
+	pcmpeqb	xmm6, xmm9
+	movdqa	xmm0, xmmword ptr [rip + .LCPI2_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pand	xmm6, xmm0
+	por	xmm6, xmm15
+	movzx	esi, byte ptr [rdx + r12 + 16]
+	movd	xmm15, esi
+	mov	rsi, r8
+	pinsrb	xmm2, byte ptr [rdx + r8 + 3], 1
+	mov	rax, r10
+	pinsrb	xmm2, byte ptr [rdx + r10 + 3], 2
+	pinsrb	xmm2, byte ptr [rdx + rcx + 3], 3
+	pinsrb	xmm2, byte ptr [rdx + rbx + 3], 4
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rcx + 3], 5
+	mov	qword ptr [rsp + 136], rdi      # 8-byte Spill
+	pinsrb	xmm2, byte ptr [rdx + rdi + 3], 6
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r8 + 3], 7
+	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r10 + 3], 8
+	pinsrb	xmm2, byte ptr [rdx + r13 + 3], 9
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rbx + 3], 10
+	pinsrb	xmm2, byte ptr [rdx + r14 + 3], 11
+	pinsrb	xmm2, byte ptr [rdx + r15 + 3], 12
+	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r12 + 3], 13
+	pinsrb	xmm2, byte ptr [rdx + r11 + 3], 14
+	pinsrb	xmm2, byte ptr [rdx + r9 + 3], 15
+	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 1
+	pinsrb	xmm1, byte ptr [rdx + rax + 4], 2
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 3
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 4
+	pinsrb	xmm1, byte ptr [rdx + rcx + 4], 5
+	pinsrb	xmm1, byte ptr [rdx + rdi + 4], 6
+	pinsrb	xmm1, byte ptr [rdx + r8 + 4], 7
+	pinsrb	xmm1, byte ptr [rdx + r10 + 4], 8
+	pinsrb	xmm1, byte ptr [rdx + r13 + 4], 9
+	pinsrb	xmm1, byte ptr [rdx + rbx + 4], 10
+	pinsrb	xmm1, byte ptr [rdx + r14 + 4], 11
+	pinsrb	xmm1, byte ptr [rdx + r15 + 4], 12
+	pinsrb	xmm1, byte ptr [rdx + r12 + 4], 13
+	pinsrb	xmm1, byte ptr [rdx + r11 + 4], 14
+	pinsrb	xmm1, byte ptr [rdx + r9 + 4], 15
+	mov	rcx, r9
+	mov	qword ptr [rsp + 56], r9        # 8-byte Spill
+	por	xmm6, xmm7
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r9 + 17]
+	movd	xmm0, esi
+	pcmpeqb	xmm2, xmm9
+	movdqa	xmm5, xmmword ptr [rip + .LCPI2_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pand	xmm2, xmm5
+	pcmpeqb	xmm1, xmm9
+	movdqa	xmm5, xmmword ptr [rip + .LCPI2_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pand	xmm1, xmm5
+	por	xmm1, xmm2
+	movzx	esi, byte ptr [rdx + r9 + 18]
+	movd	xmm5, esi
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r13 + 5], 1
+	pinsrb	xmm8, byte ptr [rdx + rax + 5], 2
+	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r11 + 5], 3
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rax + 5], 4
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rdi + 5], 5
+	mov	r8, qword ptr [rsp + 136]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r8 + 5], 6
+	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r10 + 5], 7
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rbx + 5], 8
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 9
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r14 + 5], 10
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r15 + 5], 11
+	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r12 + 5], 12
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 13
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 14
+	pinsrb	xmm8, byte ptr [rdx + rcx + 5], 15
+	pcmpeqb	xmm8, xmm9
+	movdqa	xmm2, xmmword ptr [rip + .LCPI2_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm8, xmm2
+	por	xmm8, xmm1
+	movzx	esi, byte ptr [rdx + r9 + 19]
+	movd	xmm7, esi
+	por	xmm8, xmm6
+	movzx	esi, byte ptr [rdx + r9 + 20]
+	movd	xmm6, esi
+	pinsrb	xmm3, byte ptr [rdx + r13 + 6], 1
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r9 + 6], 2
+	pinsrb	xmm3, byte ptr [rdx + r11 + 6], 3
+	pinsrb	xmm3, byte ptr [rdx + rax + 6], 4
+	mov	rcx, rdi
+	pinsrb	xmm3, byte ptr [rdx + rdi + 6], 5
+	mov	rdi, r8
+	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 6
+	pinsrb	xmm3, byte ptr [rdx + r10 + 6], 7
+	mov	r10, rbx
+	pinsrb	xmm3, byte ptr [rdx + rbx + 6], 8
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rax + 6], 9
+	mov	rbx, r14
+	pinsrb	xmm3, byte ptr [rdx + r14 + 6], 10
+	mov	rsi, r15
+	pinsrb	xmm3, byte ptr [rdx + r15 + 6], 11
+	mov	r15, r12
+	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 12
+	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 13
+	mov	r14, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r14 + 6], 14
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 15
+	movdqa	xmm2, xmmword ptr [rsp + 208]   # 16-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r13 + 7], 1
+	pinsrb	xmm2, byte ptr [rdx + r9 + 7], 2
+	pinsrb	xmm2, byte ptr [rdx + r11 + 7], 3
+	mov	r13, r11
+	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r9 + 7], 4
+	pinsrb	xmm2, byte ptr [rdx + rcx + 7], 5
+	pinsrb	xmm2, byte ptr [rdx + rdi + 7], 6
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rcx + 7], 7
+	pinsrb	xmm2, byte ptr [rdx + r10 + 7], 8
+	pinsrb	xmm2, byte ptr [rdx + rax + 7], 9
+	pinsrb	xmm2, byte ptr [rdx + rbx + 7], 10
+	pinsrb	xmm2, byte ptr [rdx + rsi + 7], 11
+	pinsrb	xmm2, byte ptr [rdx + r15 + 7], 12
+	pinsrb	xmm2, byte ptr [rdx + r12 + 7], 13
+	mov	r15, r12
+	pinsrb	xmm2, byte ptr [rdx + r14 + 7], 14
+	pinsrb	xmm2, byte ptr [rdx + r8 + 7], 15
+	pcmpeqb	xmm3, xmm9
+	movdqa	xmm1, xmmword ptr [rip + .LCPI2_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm3, xmm1
+	pcmpeqb	xmm2, xmm9
+	psllw	xmm2, 7
+	movdqa	xmm1, xmmword ptr [rip + .LCPI2_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm2, xmm1
+	por	xmm2, xmm3
+	movdqa	xmm1, xmm2
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 21]
+	movd	xmm2, esi
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rcx + 9], 1
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r11 + 9], 2
+	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 3
+	pinsrb	xmm10, byte ptr [rdx + r9 + 9], 4
+	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 5
+	pinsrb	xmm10, byte ptr [rdx + rdi + 9], 6
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r8 + 9], 7
+	pinsrb	xmm10, byte ptr [rdx + r10 + 9], 8
+	mov	r14, r10
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 9
+	pinsrb	xmm10, byte ptr [rdx + rbx + 9], 10
+	mov	r12, rbx
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r10 + 9], 11
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rbx + 9], 12
+	pinsrb	xmm10, byte ptr [rdx + r15 + 9], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rdi + 9], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 15
+	por	xmm1, xmm8
+	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
+	pcmpeqb	xmm10, xmm9
+	movdqa	xmm1, xmm10
+	movdqa	xmm8, xmm4
+	pand	xmm1, xmm4
+	psubb	xmm1, xmm10
+	movzx	esi, byte ptr [rdx + rax + 22]
+	movd	xmm3, esi
+	movdqa	xmm4, xmmword ptr [rsp + 256]   # 16-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rcx + 8], 1
+	pinsrb	xmm4, byte ptr [rdx + r11 + 8], 2
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rax + 8], 3
+	pinsrb	xmm4, byte ptr [rdx + r9 + 8], 4
+	pinsrb	xmm4, byte ptr [rdx + r13 + 8], 5
+	mov	r15, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r15 + 8], 6
+	pinsrb	xmm4, byte ptr [rdx + r8 + 8], 7
+	pinsrb	xmm4, byte ptr [rdx + r14 + 8], 8
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rsi + 8], 9
+	pinsrb	xmm4, byte ptr [rdx + r12 + 8], 10
+	pinsrb	xmm4, byte ptr [rdx + r10 + 8], 11
+	pinsrb	xmm4, byte ptr [rdx + rbx + 8], 12
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rbx + 8], 13
+	pinsrb	xmm4, byte ptr [rdx + rdi + 8], 14
+	mov	r10, rdi
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rcx + 8], 15
+	pcmpeqb	xmm4, xmm9
+	pand	xmm4, xmm8
+	movdqa	xmm10, xmmword ptr [rsp + 160]  # 16-byte Reload
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rdi + 10], 1
+	pinsrb	xmm10, byte ptr [rdx + r11 + 10], 2
+	pinsrb	xmm10, byte ptr [rdx + rax + 10], 3
+	pinsrb	xmm10, byte ptr [rdx + r9 + 10], 4
+	mov	rax, r9
+	mov	r11, r13
+	pinsrb	xmm10, byte ptr [rdx + r13 + 10], 5
+	mov	r9, r15
+	pinsrb	xmm10, byte ptr [rdx + r15 + 10], 6
+	pinsrb	xmm10, byte ptr [rdx + r8 + 10], 7
+	pinsrb	xmm10, byte ptr [rdx + r14 + 10], 8
+	pinsrb	xmm10, byte ptr [rdx + rsi + 10], 9
+	pinsrb	xmm10, byte ptr [rdx + r12 + 10], 10
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r14 + 10], 11
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r15 + 10], 12
+	pinsrb	xmm10, byte ptr [rdx + rbx + 10], 13
+	mov	r13, rbx
+	pinsrb	xmm10, byte ptr [rdx + r10 + 10], 14
+	pinsrb	xmm10, byte ptr [rdx + rcx + 10], 15
+	pcmpeqb	xmm10, xmm9
+	pand	xmm10, xmmword ptr [rip + .LCPI2_11]
+	por	xmm10, xmm4
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 23]
+	movd	xmm8, esi
+	por	xmm10, xmm1
+	movdqa	xmmword ptr [rsp + 160], xmm10  # 16-byte Spill
+	movzx	esi, byte ptr [rdx + rcx + 24]
+	movd	xmm10, esi
+	pinsrb	xmm11, byte ptr [rdx + rdi + 11], 1
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + rcx + 11], 2
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + rcx + 11], 3
+	pinsrb	xmm11, byte ptr [rdx + rax + 11], 4
+	mov	rcx, r11
+	pinsrb	xmm11, byte ptr [rdx + r11 + 11], 5
+	mov	rdi, r9
+	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 6
+	pinsrb	xmm11, byte ptr [rdx + r8 + 11], 7
+	mov	r9, qword ptr [rsp + 192]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 8
+	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r11 + 11], 9
+	pinsrb	xmm11, byte ptr [rdx + r12 + 11], 10
+	pinsrb	xmm11, byte ptr [rdx + r14 + 11], 11
+	pinsrb	xmm11, byte ptr [rdx + r15 + 11], 12
+	mov	r10, rbx
+	pinsrb	xmm11, byte ptr [rdx + rbx + 11], 13
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r12 + 11], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + rsi + 11], 15
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + r13 + 12], 1
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 2
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 3
+	pinsrb	xmm13, byte ptr [rdx + rax + 12], 4
+	pinsrb	xmm13, byte ptr [rdx + rcx + 12], 5
+	pinsrb	xmm13, byte ptr [rdx + rdi + 12], 6
+	pinsrb	xmm13, byte ptr [rdx + r8 + 12], 7
+	pinsrb	xmm13, byte ptr [rdx + r9 + 12], 8
+	pinsrb	xmm13, byte ptr [rdx + r11 + 12], 9
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 10
+	pinsrb	xmm13, byte ptr [rdx + r14 + 12], 11
+	pinsrb	xmm13, byte ptr [rdx + r15 + 12], 12
+	pinsrb	xmm13, byte ptr [rdx + r10 + 12], 13
+	mov	r13, r10
+	pinsrb	xmm13, byte ptr [rdx + r12 + 12], 14
+	pinsrb	xmm13, byte ptr [rdx + rsi + 12], 15
+	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + r10 + 13], 1
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rsi + 13], 2
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rsi + 13], 3
+	pinsrb	xmm12, byte ptr [rdx + rax + 13], 4
+	pinsrb	xmm12, byte ptr [rdx + rcx + 13], 5
+	pinsrb	xmm12, byte ptr [rdx + rdi + 13], 6
+	pinsrb	xmm12, byte ptr [rdx + r8 + 13], 7
+	pinsrb	xmm12, byte ptr [rdx + r9 + 13], 8
+	pinsrb	xmm12, byte ptr [rdx + r11 + 13], 9
+	pinsrb	xmm12, byte ptr [rdx + rbx + 13], 10
+	pinsrb	xmm12, byte ptr [rdx + r14 + 13], 11
+	pinsrb	xmm12, byte ptr [rdx + r15 + 13], 12
+	pinsrb	xmm12, byte ptr [rdx + r13 + 13], 13
+	pinsrb	xmm12, byte ptr [rdx + r12 + 13], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rax + 13], 15
+	pcmpeqb	xmm11, xmm9
+	pand	xmm11, xmmword ptr [rip + .LCPI2_12]
+	pcmpeqb	xmm13, xmm9
+	pand	xmm13, xmmword ptr [rip + .LCPI2_13]
+	por	xmm13, xmm11
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 25]
+	movd	xmm1, esi
+	pcmpeqb	xmm12, xmm9
+	pand	xmm12, xmmword ptr [rip + .LCPI2_14]
+	por	xmm12, xmm13
+	movzx	esi, byte ptr [rdx + rax + 26]
+	movd	xmm11, esi
+	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r10 + 14], 1
+	mov	rsi, r10
+	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r12 + 14], 2
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r10 + 14], 3
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r13 + 14], 4
+	pinsrb	xmm4, byte ptr [rdx + rcx + 14], 5
+	pinsrb	xmm4, byte ptr [rdx + rdi + 14], 6
+	pinsrb	xmm4, byte ptr [rdx + r8 + 14], 7
+	pinsrb	xmm4, byte ptr [rdx + r9 + 14], 8
+	pinsrb	xmm4, byte ptr [rdx + r11 + 14], 9
+	pinsrb	xmm4, byte ptr [rdx + rbx + 14], 10
+	pinsrb	xmm4, byte ptr [rdx + r14 + 14], 11
+	pinsrb	xmm4, byte ptr [rdx + r15 + 14], 12
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rax + 14], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rax + 14], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rax + 14], 15
+	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 1
+	pinsrb	xmm14, byte ptr [rdx + r12 + 15], 2
+	pinsrb	xmm14, byte ptr [rdx + r10 + 15], 3
+	pinsrb	xmm14, byte ptr [rdx + r13 + 15], 4
+	pinsrb	xmm14, byte ptr [rdx + rcx + 15], 5
+	pinsrb	xmm14, byte ptr [rdx + rdi + 15], 6
+	pinsrb	xmm14, byte ptr [rdx + r8 + 15], 7
+	pinsrb	xmm14, byte ptr [rdx + r9 + 15], 8
+	pinsrb	xmm14, byte ptr [rdx + r11 + 15], 9
+	pinsrb	xmm14, byte ptr [rdx + rbx + 15], 10
+	pinsrb	xmm14, byte ptr [rdx + r14 + 15], 11
+	pinsrb	xmm14, byte ptr [rdx + r15 + 15], 12
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rax + 15], 14
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 15
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rsi + 16], 1
+	pinsrb	xmm15, byte ptr [rdx + r12 + 16], 2
+	pinsrb	xmm15, byte ptr [rdx + r10 + 16], 3
+	pinsrb	xmm15, byte ptr [rdx + r13 + 16], 4
+	pinsrb	xmm15, byte ptr [rdx + rcx + 16], 5
+	pinsrb	xmm15, byte ptr [rdx + rdi + 16], 6
+	pinsrb	xmm15, byte ptr [rdx + r8 + 16], 7
+	pinsrb	xmm15, byte ptr [rdx + r9 + 16], 8
+	pinsrb	xmm15, byte ptr [rdx + r11 + 16], 9
+	pinsrb	xmm15, byte ptr [rdx + rbx + 16], 10
+	pinsrb	xmm15, byte ptr [rdx + r14 + 16], 11
+	pinsrb	xmm15, byte ptr [rdx + r15 + 16], 12
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rsi + 16], 13
+	pinsrb	xmm15, byte ptr [rdx + rax + 16], 14
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 17], 1
+	pinsrb	xmm0, byte ptr [rdx + r12 + 17], 2
+	pinsrb	xmm0, byte ptr [rdx + r10 + 17], 3
+	pinsrb	xmm0, byte ptr [rdx + r13 + 17], 4
+	pinsrb	xmm0, byte ptr [rdx + rcx + 17], 5
+	pinsrb	xmm0, byte ptr [rdx + rdi + 17], 6
+	pinsrb	xmm0, byte ptr [rdx + r8 + 17], 7
+	mov	rax, r8
+	pinsrb	xmm0, byte ptr [rdx + r9 + 17], 8
+	pinsrb	xmm0, byte ptr [rdx + r11 + 17], 9
+	pinsrb	xmm0, byte ptr [rdx + rbx + 17], 10
+	pinsrb	xmm0, byte ptr [rdx + r14 + 17], 11
+	pinsrb	xmm0, byte ptr [rdx + r15 + 17], 12
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 13
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 14
+	por	xmm12, xmmword ptr [rsp + 160]  # 16-byte Folded Reload
+	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r12 + 27]
+	movd	xmm9, esi
+	movdqa	xmm13, xmmword ptr [rsp + 176]  # 16-byte Reload
+	pcmpeqb	xmm4, xmm13
+	pand	xmm4, xmmword ptr [rip + .LCPI2_15]
+	pcmpeqb	xmm14, xmm13
+	psllw	xmm14, 7
+	pand	xmm14, xmmword ptr [rip + .LCPI2_6]
+	por	xmm14, xmm4
+	movzx	esi, byte ptr [rdx + r12 + 28]
+	movd	xmm4, esi
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r8 + 17], 15
+	por	xmm14, xmm12
+	pcmpeqb	xmm0, xmm13
+	movdqa	xmm13, xmm0
+	movdqa	xmm12, xmmword ptr [rip + .LCPI2_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm13, xmm12
+	psubb	xmm13, xmm0
+	movdqa	xmmword ptr [rsp + 160], xmm13  # 16-byte Spill
+	movzx	esi, byte ptr [rdx + r12 + 29]
+	movd	xmm13, esi
+	pinsrb	xmm15, byte ptr [rdx + r8 + 16], 15
+	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
+	pcmpeqb	xmm15, xmm0
+	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r12 + 18], 1
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 2
+	pinsrb	xmm5, byte ptr [rdx + r10 + 18], 3
+	pinsrb	xmm5, byte ptr [rdx + r13 + 18], 4
+	pinsrb	xmm5, byte ptr [rdx + rcx + 18], 5
+	pinsrb	xmm5, byte ptr [rdx + rdi + 18], 6
+	pinsrb	xmm5, byte ptr [rdx + rax + 18], 7
+	pinsrb	xmm5, byte ptr [rdx + r9 + 18], 8
+	pinsrb	xmm5, byte ptr [rdx + r11 + 18], 9
+	pinsrb	xmm5, byte ptr [rdx + rbx + 18], 10
+	pinsrb	xmm5, byte ptr [rdx + r14 + 18], 11
+	pinsrb	xmm5, byte ptr [rdx + r15 + 18], 12
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 13
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 14
+	pand	xmm15, xmm12
+	pinsrb	xmm5, byte ptr [rdx + r8 + 18], 15
+	pcmpeqb	xmm5, xmm0
+	pand	xmm5, xmmword ptr [rip + .LCPI2_11]
+	por	xmm5, xmm15
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 30]
+	movd	xmm12, esi
+	pinsrb	xmm7, byte ptr [rdx + r12 + 19], 1
+	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 1
+	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 1
+	pinsrb	xmm3, byte ptr [rdx + r12 + 22], 1
+	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 1
+	pinsrb	xmm10, byte ptr [rdx + r12 + 24], 1
+	pinsrb	xmm1, byte ptr [rdx + r12 + 25], 1
+	pinsrb	xmm11, byte ptr [rdx + r12 + 26], 1
+	pinsrb	xmm9, byte ptr [rdx + r12 + 27], 1
+	pinsrb	xmm4, byte ptr [rdx + r12 + 28], 1
+	pinsrb	xmm13, byte ptr [rdx + r12 + 29], 1
+	pinsrb	xmm12, byte ptr [rdx + r12 + 30], 1
+	movzx	esi, byte ptr [rdx + rax + 31]
+	movd	xmm0, esi
+	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 1
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rsi + 19], 2
+	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 2
+	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 2
+	pinsrb	xmm3, byte ptr [rdx + rsi + 22], 2
+	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 2
+	pinsrb	xmm10, byte ptr [rdx + rsi + 24], 2
+	pinsrb	xmm1, byte ptr [rdx + rsi + 25], 2
+	pinsrb	xmm11, byte ptr [rdx + rsi + 26], 2
+	pinsrb	xmm9, byte ptr [rdx + rsi + 27], 2
+	pinsrb	xmm4, byte ptr [rdx + rsi + 28], 2
+	pinsrb	xmm13, byte ptr [rdx + rsi + 29], 2
+	pinsrb	xmm12, byte ptr [rdx + rsi + 30], 2
+	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 2
+	pinsrb	xmm7, byte ptr [rdx + r10 + 19], 3
+	pinsrb	xmm7, byte ptr [rdx + r13 + 19], 4
+	pinsrb	xmm7, byte ptr [rdx + rcx + 19], 5
+	pinsrb	xmm7, byte ptr [rdx + rdi + 19], 6
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 19], 7
+	pinsrb	xmm7, byte ptr [rdx + r9 + 19], 8
+	pinsrb	xmm7, byte ptr [rdx + r11 + 19], 9
+	pinsrb	xmm7, byte ptr [rdx + rbx + 19], 10
+	pinsrb	xmm7, byte ptr [rdx + r14 + 19], 11
+	pinsrb	xmm7, byte ptr [rdx + r15 + 19], 12
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rsi + 19], 13
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + r12 + 19], 14
+	pinsrb	xmm7, byte ptr [rdx + r8 + 19], 15
+	pinsrb	xmm6, byte ptr [rdx + r10 + 20], 3
+	pinsrb	xmm6, byte ptr [rdx + r13 + 20], 4
+	pinsrb	xmm6, byte ptr [rdx + rcx + 20], 5
+	pinsrb	xmm6, byte ptr [rdx + rdi + 20], 6
+	pinsrb	xmm6, byte ptr [rdx + rax + 20], 7
+	pinsrb	xmm6, byte ptr [rdx + r9 + 20], 8
+	pinsrb	xmm6, byte ptr [rdx + r11 + 20], 9
+	pinsrb	xmm6, byte ptr [rdx + rbx + 20], 10
+	pinsrb	xmm6, byte ptr [rdx + r14 + 20], 11
+	pinsrb	xmm6, byte ptr [rdx + r15 + 20], 12
+	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 13
+	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 14
+	por	xmm5, xmmword ptr [rsp + 160]   # 16-byte Folded Reload
+	pinsrb	xmm6, byte ptr [rdx + r8 + 20], 15
+	movdqa	xmm15, xmmword ptr [rsp + 176]  # 16-byte Reload
+	pcmpeqb	xmm7, xmm15
+	pand	xmm7, xmmword ptr [rip + .LCPI2_12]
+	pcmpeqb	xmm6, xmm15
+	pand	xmm6, xmmword ptr [rip + .LCPI2_13]
+	por	xmm6, xmm7
+	pinsrb	xmm2, byte ptr [rdx + r10 + 21], 3
+	pinsrb	xmm2, byte ptr [rdx + r13 + 21], 4
+	pinsrb	xmm2, byte ptr [rdx + rcx + 21], 5
+	pinsrb	xmm2, byte ptr [rdx + rdi + 21], 6
+	pinsrb	xmm2, byte ptr [rdx + rax + 21], 7
+	pinsrb	xmm2, byte ptr [rdx + r9 + 21], 8
+	pinsrb	xmm2, byte ptr [rdx + r11 + 21], 9
+	pinsrb	xmm2, byte ptr [rdx + rbx + 21], 10
+	pinsrb	xmm2, byte ptr [rdx + r14 + 21], 11
+	pinsrb	xmm2, byte ptr [rdx + r15 + 21], 12
+	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 13
+	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 14
+	pinsrb	xmm2, byte ptr [rdx + r8 + 21], 15
+	pcmpeqb	xmm2, xmm15
+	movdqa	xmm7, xmmword ptr [rip + .LCPI2_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm2, xmm7
+	por	xmm2, xmm6
+	por	xmm2, xmm5
+	pinsrb	xmm3, byte ptr [rdx + r10 + 22], 3
+	pinsrb	xmm3, byte ptr [rdx + r13 + 22], 4
+	pinsrb	xmm3, byte ptr [rdx + rcx + 22], 5
+	pinsrb	xmm3, byte ptr [rdx + rdi + 22], 6
+	pinsrb	xmm3, byte ptr [rdx + rax + 22], 7
+	pinsrb	xmm3, byte ptr [rdx + r9 + 22], 8
+	pinsrb	xmm3, byte ptr [rdx + r11 + 22], 9
+	pinsrb	xmm3, byte ptr [rdx + rbx + 22], 10
+	pinsrb	xmm3, byte ptr [rdx + r14 + 22], 11
+	pinsrb	xmm3, byte ptr [rdx + r15 + 22], 12
+	pinsrb	xmm3, byte ptr [rdx + rsi + 22], 13
+	pinsrb	xmm3, byte ptr [rdx + r12 + 22], 14
+	pinsrb	xmm3, byte ptr [rdx + r8 + 22], 15
+	pinsrb	xmm8, byte ptr [rdx + r10 + 23], 3
+	pinsrb	xmm8, byte ptr [rdx + r13 + 23], 4
+	pinsrb	xmm8, byte ptr [rdx + rcx + 23], 5
+	pinsrb	xmm8, byte ptr [rdx + rdi + 23], 6
+	pinsrb	xmm8, byte ptr [rdx + rax + 23], 7
+	pinsrb	xmm8, byte ptr [rdx + r9 + 23], 8
+	pinsrb	xmm8, byte ptr [rdx + r11 + 23], 9
+	pinsrb	xmm8, byte ptr [rdx + rbx + 23], 10
+	pinsrb	xmm8, byte ptr [rdx + r14 + 23], 11
+	pinsrb	xmm8, byte ptr [rdx + r15 + 23], 12
+	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 13
+	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 14
+	pinsrb	xmm8, byte ptr [rdx + r8 + 23], 15
+	pcmpeqb	xmm3, xmm15
+	movdqa	xmm5, xmmword ptr [rip + .LCPI2_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm3, xmm5
+	pcmpeqb	xmm8, xmm15
+	psllw	xmm8, 7
+	movdqa	xmm6, xmmword ptr [rip + .LCPI2_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm8, xmm6
+	por	xmm8, xmm3
+	pinsrb	xmm1, byte ptr [rdx + r10 + 25], 3
+	pinsrb	xmm1, byte ptr [rdx + r13 + 25], 4
+	pinsrb	xmm1, byte ptr [rdx + rcx + 25], 5
+	pinsrb	xmm1, byte ptr [rdx + rdi + 25], 6
+	pinsrb	xmm1, byte ptr [rdx + rax + 25], 7
+	pinsrb	xmm1, byte ptr [rdx + r9 + 25], 8
+	pinsrb	xmm1, byte ptr [rdx + r11 + 25], 9
+	pinsrb	xmm1, byte ptr [rdx + rbx + 25], 10
+	pinsrb	xmm1, byte ptr [rdx + r14 + 25], 11
+	pinsrb	xmm1, byte ptr [rdx + r15 + 25], 12
+	pinsrb	xmm1, byte ptr [rdx + rsi + 25], 13
+	pinsrb	xmm1, byte ptr [rdx + r12 + 25], 14
+	pinsrb	xmm1, byte ptr [rdx + r8 + 25], 15
+	por	xmm8, xmm2
+	pcmpeqb	xmm1, xmm15
+	movdqa	xmm2, xmm1
+	movdqa	xmm3, xmmword ptr [rip + .LCPI2_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm2, xmm3
+	psubb	xmm2, xmm1
+	pinsrb	xmm10, byte ptr [rdx + r10 + 24], 3
+	pinsrb	xmm10, byte ptr [rdx + r13 + 24], 4
+	pinsrb	xmm10, byte ptr [rdx + rcx + 24], 5
+	pinsrb	xmm10, byte ptr [rdx + rdi + 24], 6
+	pinsrb	xmm10, byte ptr [rdx + rax + 24], 7
+	pinsrb	xmm10, byte ptr [rdx + r9 + 24], 8
+	pinsrb	xmm10, byte ptr [rdx + r11 + 24], 9
+	pinsrb	xmm10, byte ptr [rdx + rbx + 24], 10
+	pinsrb	xmm10, byte ptr [rdx + r14 + 24], 11
+	pinsrb	xmm10, byte ptr [rdx + r15 + 24], 12
+	pinsrb	xmm10, byte ptr [rdx + rsi + 24], 13
+	pinsrb	xmm10, byte ptr [rdx + r12 + 24], 14
+	pinsrb	xmm10, byte ptr [rdx + r8 + 24], 15
+	pcmpeqb	xmm10, xmm15
+	pand	xmm10, xmm3
+	pinsrb	xmm11, byte ptr [rdx + r10 + 26], 3
+	pinsrb	xmm11, byte ptr [rdx + r13 + 26], 4
+	pinsrb	xmm11, byte ptr [rdx + rcx + 26], 5
+	pinsrb	xmm11, byte ptr [rdx + rdi + 26], 6
+	pinsrb	xmm11, byte ptr [rdx + rax + 26], 7
+	pinsrb	xmm11, byte ptr [rdx + r9 + 26], 8
+	pinsrb	xmm11, byte ptr [rdx + r11 + 26], 9
+	pinsrb	xmm11, byte ptr [rdx + rbx + 26], 10
+	pinsrb	xmm11, byte ptr [rdx + r14 + 26], 11
+	pinsrb	xmm11, byte ptr [rdx + r15 + 26], 12
+	pinsrb	xmm11, byte ptr [rdx + rsi + 26], 13
+	pinsrb	xmm11, byte ptr [rdx + r12 + 26], 14
+	pinsrb	xmm11, byte ptr [rdx + r8 + 26], 15
+	pcmpeqb	xmm11, xmm15
+	pand	xmm11, xmmword ptr [rip + .LCPI2_11]
+	por	xmm11, xmm10
+	por	xmm11, xmm2
+	pinsrb	xmm9, byte ptr [rdx + r10 + 27], 3
+	pinsrb	xmm9, byte ptr [rdx + r13 + 27], 4
+	pinsrb	xmm9, byte ptr [rdx + rcx + 27], 5
+	pinsrb	xmm9, byte ptr [rdx + rdi + 27], 6
+	pinsrb	xmm9, byte ptr [rdx + rax + 27], 7
+	pinsrb	xmm9, byte ptr [rdx + r9 + 27], 8
+	pinsrb	xmm9, byte ptr [rdx + r11 + 27], 9
+	pinsrb	xmm9, byte ptr [rdx + rbx + 27], 10
+	pinsrb	xmm9, byte ptr [rdx + r14 + 27], 11
+	pinsrb	xmm9, byte ptr [rdx + r15 + 27], 12
+	pinsrb	xmm9, byte ptr [rdx + rsi + 27], 13
+	pinsrb	xmm9, byte ptr [rdx + r12 + 27], 14
+	pinsrb	xmm9, byte ptr [rdx + r8 + 27], 15
+	pinsrb	xmm4, byte ptr [rdx + r10 + 28], 3
+	pinsrb	xmm4, byte ptr [rdx + r13 + 28], 4
+	pinsrb	xmm4, byte ptr [rdx + rcx + 28], 5
+	pinsrb	xmm4, byte ptr [rdx + rdi + 28], 6
+	pinsrb	xmm4, byte ptr [rdx + rax + 28], 7
+	pinsrb	xmm4, byte ptr [rdx + r9 + 28], 8
+	pinsrb	xmm4, byte ptr [rdx + r11 + 28], 9
+	pinsrb	xmm4, byte ptr [rdx + rbx + 28], 10
+	pinsrb	xmm4, byte ptr [rdx + r14 + 28], 11
+	pinsrb	xmm4, byte ptr [rdx + r15 + 28], 12
+	pinsrb	xmm4, byte ptr [rdx + rsi + 28], 13
+	pinsrb	xmm4, byte ptr [rdx + r12 + 28], 14
+	pinsrb	xmm4, byte ptr [rdx + r8 + 28], 15
+	pinsrb	xmm13, byte ptr [rdx + r10 + 29], 3
+	pinsrb	xmm13, byte ptr [rdx + r13 + 29], 4
+	pinsrb	xmm13, byte ptr [rdx + rcx + 29], 5
+	pinsrb	xmm13, byte ptr [rdx + rdi + 29], 6
+	pinsrb	xmm13, byte ptr [rdx + rax + 29], 7
+	pinsrb	xmm13, byte ptr [rdx + r9 + 29], 8
+	pinsrb	xmm13, byte ptr [rdx + r11 + 29], 9
+	pinsrb	xmm13, byte ptr [rdx + rbx + 29], 10
+	pinsrb	xmm13, byte ptr [rdx + r14 + 29], 11
+	pinsrb	xmm13, byte ptr [rdx + r15 + 29], 12
+	pinsrb	xmm13, byte ptr [rdx + rsi + 29], 13
+	pinsrb	xmm13, byte ptr [rdx + r12 + 29], 14
+	movdqa	xmm1, xmm15
+	pcmpeqb	xmm9, xmm15
+	pand	xmm9, xmmword ptr [rip + .LCPI2_12]
+	pcmpeqb	xmm4, xmm15
+	pand	xmm4, xmmword ptr [rip + .LCPI2_13]
+	por	xmm4, xmm9
+	pinsrb	xmm13, byte ptr [rdx + r8 + 29], 15
+	pcmpeqb	xmm13, xmm15
+	pand	xmm13, xmm7
+	por	xmm13, xmm4
+	pinsrb	xmm12, byte ptr [rdx + r10 + 30], 3
+	pinsrb	xmm0, byte ptr [rdx + r10 + 31], 3
+	pinsrb	xmm12, byte ptr [rdx + r13 + 30], 4
+	pinsrb	xmm0, byte ptr [rdx + r13 + 31], 4
+	pinsrb	xmm12, byte ptr [rdx + rcx + 30], 5
+	pinsrb	xmm0, byte ptr [rdx + rcx + 31], 5
+	pinsrb	xmm12, byte ptr [rdx + rdi + 30], 6
+	pinsrb	xmm0, byte ptr [rdx + rdi + 31], 6
+	pinsrb	xmm12, byte ptr [rdx + rax + 30], 7
+	pinsrb	xmm0, byte ptr [rdx + rax + 31], 7
+	pinsrb	xmm12, byte ptr [rdx + r9 + 30], 8
+	pinsrb	xmm0, byte ptr [rdx + r9 + 31], 8
+	pinsrb	xmm12, byte ptr [rdx + r11 + 30], 9
+	pinsrb	xmm0, byte ptr [rdx + r11 + 31], 9
+	pinsrb	xmm12, byte ptr [rdx + rbx + 30], 10
+	pinsrb	xmm0, byte ptr [rdx + rbx + 31], 10
+	pinsrb	xmm12, byte ptr [rdx + r14 + 30], 11
+	pinsrb	xmm0, byte ptr [rdx + r14 + 31], 11
+	pinsrb	xmm12, byte ptr [rdx + r15 + 30], 12
+	pinsrb	xmm0, byte ptr [rdx + r15 + 31], 12
+	pinsrb	xmm12, byte ptr [rdx + rsi + 30], 13
+	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 13
+	pinsrb	xmm12, byte ptr [rdx + r12 + 30], 14
+	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 14
+	pinsrb	xmm12, byte ptr [rdx + r8 + 30], 15
+	pinsrb	xmm0, byte ptr [rdx + r8 + 31], 15
+	por	xmm13, xmm11
+	pcmpeqb	xmm12, xmm15
+	pand	xmm12, xmm5
+	pcmpeqb	xmm0, xmm15
+	psllw	xmm0, 7
+	pand	xmm0, xmm6
+	por	xmm0, xmm12
+	por	xmm0, xmm13
+	movdqa	xmm1, xmm8
+	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
+	movdqa	xmm4, xmmword ptr [rsp + 208]   # 16-byte Reload
+	movdqa	xmm2, xmm4
+	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
+	movdqa	xmm3, xmm2
+	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
+	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
+	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
+	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
+	movdqa	xmm0, xmm4
+	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
+	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm4
+	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm2
+	movdqu	xmmword ptr [rax + 4*rcx], xmm3
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	jne	.LBB2_186
+# %bb.187:
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	mov	r14b, byte ptr [rsp + 8]        # 1-byte Reload
+	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	jne	.LBB2_43
+	jmp	.LBB2_131
+.LBB2_188:
+	and	r15, -16
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	lea	rax, [rax + 4*r15]
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	movzx	eax, r14b
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
+	xor	eax, eax
+	.p2align	4, 0x90
+.LBB2_189:                              # =>This Inner Loop Header: Depth=1
+	mov	r15, rax
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	shl	r15, 5
+	mov	rbx, r15
+	mov	rax, r15
+	mov	rcx, r15
+	mov	rdi, r15
+	mov	r8, r15
+	mov	r9, r15
+	mov	r11, r15
+	mov	r12, r15
+	mov	r10, r15
+	mov	r13, r15
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	movzx	esi, byte ptr [rdx + r15]
+	movd	xmm15, esi
+	movzx	esi, byte ptr [rdx + r15 + 1]
+	movd	xmm5, esi
+	movzx	esi, byte ptr [rdx + r15 + 2]
+	movd	xmm6, esi
+	movzx	esi, byte ptr [rdx + r15 + 3]
+	movd	xmm2, esi
+	movzx	esi, byte ptr [rdx + r15 + 4]
+	movd	xmm1, esi
+	movzx	esi, byte ptr [rdx + r15 + 5]
+	movd	xmm8, esi
+	movzx	esi, byte ptr [rdx + r15 + 6]
+	movd	xmm3, esi
+	movzx	esi, byte ptr [rdx + r15 + 7]
+	movd	xmm0, esi
+	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
+	movzx	esi, byte ptr [rdx + r15 + 8]
+	movd	xmm0, esi
+	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
+	movzx	esi, byte ptr [rdx + r15 + 9]
+	movd	xmm10, esi
+	movzx	esi, byte ptr [rdx + r15 + 10]
+	movd	xmm0, esi
+	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
+	movzx	esi, byte ptr [rdx + r15 + 11]
+	movd	xmm11, esi
+	movzx	esi, byte ptr [rdx + r15 + 12]
+	movd	xmm13, esi
+	movzx	esi, byte ptr [rdx + r15 + 13]
+	movd	xmm12, esi
+	movzx	esi, byte ptr [rdx + r15 + 14]
+	movd	xmm0, esi
+	movdqa	xmmword ptr [rsp + 256], xmm0   # 16-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	r14, r15
+	or	r14, 32
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	or	rbx, 64
+	mov	qword ptr [rsp + 72], rbx       # 8-byte Spill
+	or	rax, 96
+	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
+	or	rcx, 128
+	or	rdi, 160
+	or	r8, 192
+	or	r9, 224
+	or	r11, 256
+	or	r12, 288
+	mov	qword ptr [rsp + 64], r12       # 8-byte Spill
+	or	r10, 320
+	mov	qword ptr [rsp + 88], r10       # 8-byte Spill
+	mov	r10, r15
+	or	r10, 352
+	mov	qword ptr [rsp + 80], r10       # 8-byte Spill
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	or	r12, 384
+	mov	rsi, r15
+	or	rsi, 416
+	mov	qword ptr [rsp + 16], rsi       # 8-byte Spill
+	or	r13, 448
+	mov	qword ptr [rsp + 24], r13       # 8-byte Spill
+	mov	rsi, r15
+	or	rsi, 480
+	mov	qword ptr [rsp + 40], rsi       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + r14], 1
+	pinsrb	xmm15, byte ptr [rdx + rbx], 2
+	pinsrb	xmm15, byte ptr [rdx + rax], 3
+	mov	qword ptr [rsp + 128], rcx      # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + rcx], 4
+	pinsrb	xmm15, byte ptr [rdx + rdi], 5
+	mov	qword ptr [rsp + 96], r8        # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + r8], 6
+	mov	qword ptr [rsp + 208], r9       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + r9], 7
+	mov	qword ptr [rsp + 120], r11      # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + r11], 8
+	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r14], 9
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r15], 10
+	pinsrb	xmm15, byte ptr [rdx + r10], 11
+	mov	qword ptr [rsp + 32], r12       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + r12], 12
+	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r10], 13
+	pinsrb	xmm15, byte ptr [rdx + r13], 14
+	pinsrb	xmm15, byte ptr [rdx + rsi], 15
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rbx + 1], 1
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rbx + 1], 2
+	pinsrb	xmm5, byte ptr [rdx + rax + 1], 3
+	pinsrb	xmm5, byte ptr [rdx + rcx + 1], 4
+	pinsrb	xmm5, byte ptr [rdx + rdi + 1], 5
+	pinsrb	xmm5, byte ptr [rdx + r8 + 1], 6
+	pinsrb	xmm5, byte ptr [rdx + r9 + 1], 7
+	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 8
+	pinsrb	xmm5, byte ptr [rdx + r14 + 1], 9
+	mov	rax, r14
+	pinsrb	xmm5, byte ptr [rdx + r15 + 1], 10
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rcx + 1], 11
+	pinsrb	xmm5, byte ptr [rdx + r12 + 1], 12
+	pinsrb	xmm5, byte ptr [rdx + r10 + 1], 13
+	pinsrb	xmm5, byte ptr [rdx + r13 + 1], 14
+	pinsrb	xmm5, byte ptr [rdx + rsi + 1], 15
+	movdqa	xmm9, xmmword ptr [rsp + 176]   # 16-byte Reload
+	pcmpeqb	xmm5, xmm9
+	movdqa	xmm7, xmm5
+	movdqa	xmm4, xmmword ptr [rip + .LCPI2_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm7, xmm4
+	psubb	xmm7, xmm5
+	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r13 + 15]
+	movd	xmm14, esi
+	pcmpeqb	xmm15, xmm9
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rcx + 2], 1
+	pinsrb	xmm6, byte ptr [rdx + rbx + 2], 2
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r11 + 2], 3
+	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r8 + 2], 4
+	pinsrb	xmm6, byte ptr [rdx + rdi + 2], 5
+	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r12 + 2], 6
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r14 + 2], 7
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r15 + 2], 8
+	pinsrb	xmm6, byte ptr [rdx + rax + 2], 9
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 10
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r10 + 2], 11
+	mov	r9, qword ptr [rsp + 32]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r9 + 2], 12
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 13
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 14
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 15
+	pand	xmm15, xmm4
+	pcmpeqb	xmm6, xmm9
+	movdqa	xmm0, xmmword ptr [rip + .LCPI2_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pand	xmm6, xmm0
+	por	xmm6, xmm15
+	movzx	esi, byte ptr [rdx + r13 + 16]
+	movd	xmm15, esi
+	pinsrb	xmm2, byte ptr [rdx + rcx + 3], 1
+	pinsrb	xmm2, byte ptr [rdx + rbx + 3], 2
+	mov	rcx, r11
+	pinsrb	xmm2, byte ptr [rdx + r11 + 3], 3
+	pinsrb	xmm2, byte ptr [rdx + r8 + 3], 4
+	mov	qword ptr [rsp + 136], rdi      # 8-byte Spill
+	pinsrb	xmm2, byte ptr [rdx + rdi + 3], 5
+	mov	r11, r12
+	pinsrb	xmm2, byte ptr [rdx + r12 + 3], 6
+	pinsrb	xmm2, byte ptr [rdx + r14 + 3], 7
+	mov	rsi, r15
+	pinsrb	xmm2, byte ptr [rdx + r15 + 3], 8
+	pinsrb	xmm2, byte ptr [rdx + rax + 3], 9
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r15 + 3], 10
+	pinsrb	xmm2, byte ptr [rdx + r10 + 3], 11
+	pinsrb	xmm2, byte ptr [rdx + r9 + 3], 12
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r12 + 3], 13
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rax + 3], 14
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rax + 3], 15
+	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + r13 + 4], 1
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rbx + 4], 2
+	pinsrb	xmm1, byte ptr [rdx + rcx + 4], 3
+	pinsrb	xmm1, byte ptr [rdx + r8 + 4], 4
+	pinsrb	xmm1, byte ptr [rdx + rdi + 4], 5
+	pinsrb	xmm1, byte ptr [rdx + r11 + 4], 6
+	pinsrb	xmm1, byte ptr [rdx + r14 + 4], 7
+	mov	r8, r14
+	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 8
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rsi + 4], 9
+	pinsrb	xmm1, byte ptr [rdx + r15 + 4], 10
+	pinsrb	xmm1, byte ptr [rdx + r10 + 4], 11
+	mov	r15, r10
+	pinsrb	xmm1, byte ptr [rdx + r9 + 4], 12
+	pinsrb	xmm1, byte ptr [rdx + r12 + 4], 13
+	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rbx + 4], 14
+	pinsrb	xmm1, byte ptr [rdx + rax + 4], 15
+	mov	r10, rax
+	por	xmm6, xmm7
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rdi + 17]
+	movd	xmm0, esi
+	pcmpeqb	xmm2, xmm9
+	movdqa	xmm5, xmmword ptr [rip + .LCPI2_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pand	xmm2, xmm5
+	pcmpeqb	xmm1, xmm9
+	movdqa	xmm5, xmmword ptr [rip + .LCPI2_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pand	xmm1, xmm5
+	por	xmm1, xmm2
+	movzx	esi, byte ptr [rdx + rdi + 18]
+	movd	xmm5, esi
+	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r13 + 5], 1
+	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r11 + 5], 2
+	pinsrb	xmm8, byte ptr [rdx + rcx + 5], 3
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r14 + 5], 4
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r9 + 5], 5
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rax + 5], 6
+	mov	rcx, r8
+	pinsrb	xmm8, byte ptr [rdx + r8 + 5], 7
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r8 + 5], 8
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 9
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 10
+	pinsrb	xmm8, byte ptr [rdx + r15 + 5], 11
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r12 + 5], 12
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rsi + 5], 13
+	pinsrb	xmm8, byte ptr [rdx + rbx + 5], 14
+	pinsrb	xmm8, byte ptr [rdx + r10 + 5], 15
+	pcmpeqb	xmm8, xmm9
+	movdqa	xmm2, xmmword ptr [rip + .LCPI2_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm8, xmm2
+	por	xmm8, xmm1
+	movzx	esi, byte ptr [rdx + rdi + 19]
+	movd	xmm7, esi
+	por	xmm8, xmm6
+	movzx	esi, byte ptr [rdx + rdi + 20]
+	movd	xmm6, esi
+	pinsrb	xmm3, byte ptr [rdx + r13 + 6], 1
+	mov	rsi, r11
+	pinsrb	xmm3, byte ptr [rdx + r11 + 6], 2
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r10 + 6], 3
+	mov	r11, r14
+	pinsrb	xmm3, byte ptr [rdx + r14 + 6], 4
+	pinsrb	xmm3, byte ptr [rdx + r9 + 6], 5
+	pinsrb	xmm3, byte ptr [rdx + rax + 6], 6
+	pinsrb	xmm3, byte ptr [rdx + rcx + 6], 7
+	mov	r14, rcx
+	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 8
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rdi + 6], 9
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r15 + 6], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rax + 6], 11
+	mov	rbx, r12
+	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 12
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 13
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rcx + 6], 14
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rcx + 6], 15
+	movdqa	xmm2, xmmword ptr [rsp + 192]   # 16-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r13 + 7], 1
+	pinsrb	xmm2, byte ptr [rdx + rsi + 7], 2
+	mov	r13, rsi
+	pinsrb	xmm2, byte ptr [rdx + r10 + 7], 3
+	mov	r10, r11
+	pinsrb	xmm2, byte ptr [rdx + r11 + 7], 4
+	pinsrb	xmm2, byte ptr [rdx + r9 + 7], 5
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rcx + 7], 6
+	pinsrb	xmm2, byte ptr [rdx + r14 + 7], 7
+	pinsrb	xmm2, byte ptr [rdx + r8 + 7], 8
+	mov	rcx, r8
+	pinsrb	xmm2, byte ptr [rdx + rdi + 7], 9
+	pinsrb	xmm2, byte ptr [rdx + r15 + 7], 10
+	pinsrb	xmm2, byte ptr [rdx + rax + 7], 11
+	pinsrb	xmm2, byte ptr [rdx + rbx + 7], 12
+	pinsrb	xmm2, byte ptr [rdx + r12 + 7], 13
+	mov	r11, r12
+	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r12 + 7], 14
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rbx + 7], 15
+	pcmpeqb	xmm3, xmm9
+	movdqa	xmm1, xmmword ptr [rip + .LCPI2_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm3, xmm1
+	pcmpeqb	xmm2, xmm9
+	psllw	xmm2, 7
+	movdqa	xmm1, xmmword ptr [rip + .LCPI2_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm2, xmm1
+	por	xmm2, xmm3
+	movdqa	xmm1, xmm2
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 21]
+	movd	xmm2, esi
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r9 + 9], 1
+	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 2
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r8 + 9], 3
+	pinsrb	xmm10, byte ptr [rdx + r10 + 9], 4
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rdi + 9], 5
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 6
+	pinsrb	xmm10, byte ptr [rdx + r14 + 9], 7
+	pinsrb	xmm10, byte ptr [rdx + rcx + 9], 8
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 9
+	pinsrb	xmm10, byte ptr [rdx + r15 + 9], 10
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 11
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 12
+	pinsrb	xmm10, byte ptr [rdx + r11 + 9], 13
+	pinsrb	xmm10, byte ptr [rdx + r12 + 9], 14
+	pinsrb	xmm10, byte ptr [rdx + rbx + 9], 15
+	por	xmm1, xmm8
+	movdqa	xmmword ptr [rsp + 192], xmm1   # 16-byte Spill
+	pcmpeqb	xmm10, xmm9
+	movdqa	xmm1, xmm10
+	movdqa	xmm8, xmm4
+	pand	xmm1, xmm4
+	psubb	xmm1, xmm10
+	movzx	esi, byte ptr [rdx + rax + 22]
+	movd	xmm3, esi
+	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r9 + 8], 1
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r12 + 8], 2
+	pinsrb	xmm4, byte ptr [rdx + r8 + 8], 3
+	mov	r8, r10
+	pinsrb	xmm4, byte ptr [rdx + r10 + 8], 4
+	pinsrb	xmm4, byte ptr [rdx + rdi + 8], 5
+	pinsrb	xmm4, byte ptr [rdx + r13 + 8], 6
+	pinsrb	xmm4, byte ptr [rdx + r14 + 8], 7
+	pinsrb	xmm4, byte ptr [rdx + rcx + 8], 8
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rbx + 8], 9
+	pinsrb	xmm4, byte ptr [rdx + r15 + 8], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rax + 8], 11
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rsi + 8], 12
+	pinsrb	xmm4, byte ptr [rdx + r11 + 8], 13
+	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r10 + 8], 14
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rcx + 8], 15
+	pcmpeqb	xmm4, xmm9
+	pand	xmm4, xmm8
+	movdqa	xmm10, xmmword ptr [rsp + 160]  # 16-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r9 + 10], 1
+	pinsrb	xmm10, byte ptr [rdx + r12 + 10], 2
+	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r9 + 10], 3
+	pinsrb	xmm10, byte ptr [rdx + r8 + 10], 4
+	pinsrb	xmm10, byte ptr [rdx + rdi + 10], 5
+	pinsrb	xmm10, byte ptr [rdx + r13 + 10], 6
+	mov	r8, r13
+	pinsrb	xmm10, byte ptr [rdx + r14 + 10], 7
+	mov	r13, r14
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r14 + 10], 8
+	pinsrb	xmm10, byte ptr [rdx + rbx + 10], 9
+	pinsrb	xmm10, byte ptr [rdx + r15 + 10], 10
+	mov	rbx, r15
+	pinsrb	xmm10, byte ptr [rdx + rax + 10], 11
+	pinsrb	xmm10, byte ptr [rdx + rsi + 10], 12
+	pinsrb	xmm10, byte ptr [rdx + r11 + 10], 13
+	pinsrb	xmm10, byte ptr [rdx + r10 + 10], 14
+	pinsrb	xmm10, byte ptr [rdx + rcx + 10], 15
+	pcmpeqb	xmm10, xmm9
+	pand	xmm10, xmmword ptr [rip + .LCPI2_11]
+	por	xmm10, xmm4
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 23]
+	movd	xmm8, esi
+	por	xmm10, xmm1
+	movdqa	xmmword ptr [rsp + 160], xmm10  # 16-byte Spill
+	movzx	esi, byte ptr [rdx + rcx + 24]
+	movd	xmm10, esi
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r10 + 11], 1
+	pinsrb	xmm11, byte ptr [rdx + r12 + 11], 2
+	mov	rcx, r9
+	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 3
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r11 + 11], 4
+	pinsrb	xmm11, byte ptr [rdx + rdi + 11], 5
+	pinsrb	xmm11, byte ptr [rdx + r8 + 11], 6
+	mov	r15, r8
+	pinsrb	xmm11, byte ptr [rdx + r13 + 11], 7
+	pinsrb	xmm11, byte ptr [rdx + r14 + 11], 8
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r8 + 11], 9
+	pinsrb	xmm11, byte ptr [rdx + rbx + 11], 10
+	mov	rbx, rax
+	pinsrb	xmm11, byte ptr [rdx + rax + 11], 11
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r13 + 11], 12
+	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 13
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + rsi + 11], 14
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + rax + 11], 15
+	pinsrb	xmm13, byte ptr [rdx + r10 + 12], 1
+	pinsrb	xmm13, byte ptr [rdx + r12 + 12], 2
+	pinsrb	xmm13, byte ptr [rdx + rcx + 12], 3
+	pinsrb	xmm13, byte ptr [rdx + r11 + 12], 4
+	pinsrb	xmm13, byte ptr [rdx + rdi + 12], 5
+	pinsrb	xmm13, byte ptr [rdx + r15 + 12], 6
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + r11 + 12], 7
+	pinsrb	xmm13, byte ptr [rdx + r14 + 12], 8
+	pinsrb	xmm13, byte ptr [rdx + r8 + 12], 9
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + r15 + 12], 10
+	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 11
+	pinsrb	xmm13, byte ptr [rdx + r13 + 12], 12
+	pinsrb	xmm13, byte ptr [rdx + r9 + 12], 13
+	pinsrb	xmm13, byte ptr [rdx + rsi + 12], 14
+	pinsrb	xmm13, byte ptr [rdx + rax + 12], 15
+	pinsrb	xmm12, byte ptr [rdx + r10 + 13], 1
+	pinsrb	xmm12, byte ptr [rdx + r12 + 13], 2
+	pinsrb	xmm12, byte ptr [rdx + rcx + 13], 3
+	mov	r10, rcx
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rcx + 13], 4
+	pinsrb	xmm12, byte ptr [rdx + rdi + 13], 5
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rdi + 13], 6
+	pinsrb	xmm12, byte ptr [rdx + r11 + 13], 7
+	pinsrb	xmm12, byte ptr [rdx + r14 + 13], 8
+	mov	r14, r8
+	pinsrb	xmm12, byte ptr [rdx + r8 + 13], 9
+	pinsrb	xmm12, byte ptr [rdx + r15 + 13], 10
+	pinsrb	xmm12, byte ptr [rdx + rbx + 13], 11
+	pinsrb	xmm12, byte ptr [rdx + r13 + 13], 12
+	pinsrb	xmm12, byte ptr [rdx + r9 + 13], 13
+	mov	r13, r9
+	pinsrb	xmm12, byte ptr [rdx + rsi + 13], 14
+	pinsrb	xmm12, byte ptr [rdx + rax + 13], 15
+	pcmpeqb	xmm11, xmm9
+	pand	xmm11, xmmword ptr [rip + .LCPI2_12]
+	pcmpeqb	xmm13, xmm9
+	pand	xmm13, xmmword ptr [rip + .LCPI2_13]
+	por	xmm13, xmm11
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rbx + 25]
+	movd	xmm1, esi
+	pcmpeqb	xmm12, xmm9
+	pand	xmm12, xmmword ptr [rip + .LCPI2_14]
+	por	xmm12, xmm13
+	movzx	esi, byte ptr [rdx + rbx + 26]
+	movd	xmm11, esi
+	movdqa	xmm4, xmmword ptr [rsp + 256]   # 16-byte Reload
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rax + 14], 1
+	pinsrb	xmm4, byte ptr [rdx + r12 + 14], 2
+	pinsrb	xmm4, byte ptr [rdx + r10 + 14], 3
+	mov	rax, rcx
+	pinsrb	xmm4, byte ptr [rdx + rcx + 14], 4
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rcx + 14], 5
+	pinsrb	xmm4, byte ptr [rdx + rdi + 14], 6
+	mov	r8, r11
+	pinsrb	xmm4, byte ptr [rdx + r11 + 14], 7
+	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r9 + 14], 8
+	mov	rbx, r14
+	pinsrb	xmm4, byte ptr [rdx + r14 + 14], 9
+	mov	r11, r15
+	pinsrb	xmm4, byte ptr [rdx + r15 + 14], 10
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r14 + 14], 11
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r15 + 14], 12
+	pinsrb	xmm4, byte ptr [rdx + r13 + 14], 13
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r13 + 14], 14
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rsi + 14], 15
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 1
+	pinsrb	xmm14, byte ptr [rdx + r12 + 15], 2
+	pinsrb	xmm14, byte ptr [rdx + r10 + 15], 3
+	pinsrb	xmm14, byte ptr [rdx + rax + 15], 4
+	pinsrb	xmm14, byte ptr [rdx + rcx + 15], 5
+	pinsrb	xmm14, byte ptr [rdx + rdi + 15], 6
+	pinsrb	xmm14, byte ptr [rdx + r8 + 15], 7
+	pinsrb	xmm14, byte ptr [rdx + r9 + 15], 8
+	pinsrb	xmm14, byte ptr [rdx + rbx + 15], 9
+	pinsrb	xmm14, byte ptr [rdx + r11 + 15], 10
+	pinsrb	xmm14, byte ptr [rdx + r14 + 15], 11
+	pinsrb	xmm14, byte ptr [rdx + r15 + 15], 12
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 13
+	pinsrb	xmm14, byte ptr [rdx + r13 + 15], 14
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rsi + 15], 15
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rsi + 16], 1
+	pinsrb	xmm15, byte ptr [rdx + r12 + 16], 2
+	pinsrb	xmm15, byte ptr [rdx + r10 + 16], 3
+	pinsrb	xmm15, byte ptr [rdx + rax + 16], 4
+	pinsrb	xmm15, byte ptr [rdx + rcx + 16], 5
+	pinsrb	xmm15, byte ptr [rdx + rdi + 16], 6
+	pinsrb	xmm15, byte ptr [rdx + r8 + 16], 7
+	pinsrb	xmm15, byte ptr [rdx + r9 + 16], 8
+	pinsrb	xmm15, byte ptr [rdx + rbx + 16], 9
+	pinsrb	xmm15, byte ptr [rdx + r11 + 16], 10
+	pinsrb	xmm15, byte ptr [rdx + r14 + 16], 11
+	pinsrb	xmm15, byte ptr [rdx + r15 + 16], 12
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rsi + 16], 13
+	pinsrb	xmm15, byte ptr [rdx + r13 + 16], 14
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 1
+	pinsrb	xmm0, byte ptr [rdx + r12 + 17], 2
+	pinsrb	xmm0, byte ptr [rdx + r10 + 17], 3
+	pinsrb	xmm0, byte ptr [rdx + rax + 17], 4
+	mov	r13, rax
+	pinsrb	xmm0, byte ptr [rdx + rcx + 17], 5
+	pinsrb	xmm0, byte ptr [rdx + rdi + 17], 6
+	pinsrb	xmm0, byte ptr [rdx + r8 + 17], 7
+	mov	rax, r8
+	pinsrb	xmm0, byte ptr [rdx + r9 + 17], 8
+	pinsrb	xmm0, byte ptr [rdx + rbx + 17], 9
+	pinsrb	xmm0, byte ptr [rdx + r11 + 17], 10
+	pinsrb	xmm0, byte ptr [rdx + r14 + 17], 11
+	pinsrb	xmm0, byte ptr [rdx + r15 + 17], 12
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 13
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rsi + 17], 14
+	por	xmm12, xmmword ptr [rsp + 160]  # 16-byte Folded Reload
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r12 + 27]
+	movd	xmm9, esi
+	movdqa	xmm13, xmmword ptr [rsp + 176]  # 16-byte Reload
+	pcmpeqb	xmm4, xmm13
+	pand	xmm4, xmmword ptr [rip + .LCPI2_15]
+	pcmpeqb	xmm14, xmm13
+	psllw	xmm14, 7
+	pand	xmm14, xmmword ptr [rip + .LCPI2_6]
+	por	xmm14, xmm4
+	movzx	esi, byte ptr [rdx + r12 + 28]
+	movd	xmm4, esi
+	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r8 + 17], 15
+	por	xmm14, xmm12
+	pcmpeqb	xmm0, xmm13
+	movdqa	xmm13, xmm0
+	movdqa	xmm12, xmmword ptr [rip + .LCPI2_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm13, xmm12
+	psubb	xmm13, xmm0
+	movdqa	xmmword ptr [rsp + 160], xmm13  # 16-byte Spill
+	movzx	esi, byte ptr [rdx + r12 + 29]
+	movd	xmm13, esi
+	pinsrb	xmm15, byte ptr [rdx + r8 + 16], 15
+	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
+	pcmpeqb	xmm15, xmm0
+	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r12 + 18], 1
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 2
+	pinsrb	xmm5, byte ptr [rdx + r10 + 18], 3
+	pinsrb	xmm5, byte ptr [rdx + r13 + 18], 4
+	pinsrb	xmm5, byte ptr [rdx + rcx + 18], 5
+	pinsrb	xmm5, byte ptr [rdx + rdi + 18], 6
+	pinsrb	xmm5, byte ptr [rdx + rax + 18], 7
+	pinsrb	xmm5, byte ptr [rdx + r9 + 18], 8
+	pinsrb	xmm5, byte ptr [rdx + rbx + 18], 9
+	pinsrb	xmm5, byte ptr [rdx + r11 + 18], 10
+	pinsrb	xmm5, byte ptr [rdx + r14 + 18], 11
+	pinsrb	xmm5, byte ptr [rdx + r15 + 18], 12
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 13
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rsi + 18], 14
+	pand	xmm15, xmm12
+	pinsrb	xmm5, byte ptr [rdx + r8 + 18], 15
+	pcmpeqb	xmm5, xmm0
+	pand	xmm5, xmmword ptr [rip + .LCPI2_11]
+	por	xmm5, xmm15
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 30]
+	movd	xmm12, esi
+	pinsrb	xmm7, byte ptr [rdx + r12 + 19], 1
+	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 1
+	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 1
+	pinsrb	xmm3, byte ptr [rdx + r12 + 22], 1
+	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 1
+	pinsrb	xmm10, byte ptr [rdx + r12 + 24], 1
+	pinsrb	xmm1, byte ptr [rdx + r12 + 25], 1
+	pinsrb	xmm11, byte ptr [rdx + r12 + 26], 1
+	pinsrb	xmm9, byte ptr [rdx + r12 + 27], 1
+	pinsrb	xmm4, byte ptr [rdx + r12 + 28], 1
+	pinsrb	xmm13, byte ptr [rdx + r12 + 29], 1
+	pinsrb	xmm12, byte ptr [rdx + r12 + 30], 1
+	movzx	esi, byte ptr [rdx + rax + 31]
+	movd	xmm0, esi
+	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 1
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rsi + 19], 2
+	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 2
+	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 2
+	pinsrb	xmm3, byte ptr [rdx + rsi + 22], 2
+	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 2
+	pinsrb	xmm10, byte ptr [rdx + rsi + 24], 2
+	pinsrb	xmm1, byte ptr [rdx + rsi + 25], 2
+	pinsrb	xmm11, byte ptr [rdx + rsi + 26], 2
+	pinsrb	xmm9, byte ptr [rdx + rsi + 27], 2
+	pinsrb	xmm4, byte ptr [rdx + rsi + 28], 2
+	pinsrb	xmm13, byte ptr [rdx + rsi + 29], 2
+	pinsrb	xmm12, byte ptr [rdx + rsi + 30], 2
+	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 2
+	pinsrb	xmm7, byte ptr [rdx + r10 + 19], 3
+	pinsrb	xmm7, byte ptr [rdx + r13 + 19], 4
+	pinsrb	xmm7, byte ptr [rdx + rcx + 19], 5
+	pinsrb	xmm7, byte ptr [rdx + rdi + 19], 6
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 19], 7
+	pinsrb	xmm7, byte ptr [rdx + r9 + 19], 8
+	pinsrb	xmm7, byte ptr [rdx + rbx + 19], 9
+	pinsrb	xmm7, byte ptr [rdx + r11 + 19], 10
+	pinsrb	xmm7, byte ptr [rdx + r14 + 19], 11
+	pinsrb	xmm7, byte ptr [rdx + r15 + 19], 12
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rsi + 19], 13
+	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + r12 + 19], 14
+	pinsrb	xmm7, byte ptr [rdx + r8 + 19], 15
+	pinsrb	xmm6, byte ptr [rdx + r10 + 20], 3
+	pinsrb	xmm6, byte ptr [rdx + r13 + 20], 4
+	pinsrb	xmm6, byte ptr [rdx + rcx + 20], 5
+	pinsrb	xmm6, byte ptr [rdx + rdi + 20], 6
+	pinsrb	xmm6, byte ptr [rdx + rax + 20], 7
+	pinsrb	xmm6, byte ptr [rdx + r9 + 20], 8
+	pinsrb	xmm6, byte ptr [rdx + rbx + 20], 9
+	pinsrb	xmm6, byte ptr [rdx + r11 + 20], 10
+	pinsrb	xmm6, byte ptr [rdx + r14 + 20], 11
+	pinsrb	xmm6, byte ptr [rdx + r15 + 20], 12
+	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 13
+	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 14
+	por	xmm5, xmmword ptr [rsp + 160]   # 16-byte Folded Reload
+	pinsrb	xmm6, byte ptr [rdx + r8 + 20], 15
+	movdqa	xmm15, xmmword ptr [rsp + 176]  # 16-byte Reload
+	pcmpeqb	xmm7, xmm15
+	pand	xmm7, xmmword ptr [rip + .LCPI2_12]
+	pcmpeqb	xmm6, xmm15
+	pand	xmm6, xmmword ptr [rip + .LCPI2_13]
+	por	xmm6, xmm7
+	pinsrb	xmm2, byte ptr [rdx + r10 + 21], 3
+	pinsrb	xmm2, byte ptr [rdx + r13 + 21], 4
+	pinsrb	xmm2, byte ptr [rdx + rcx + 21], 5
+	pinsrb	xmm2, byte ptr [rdx + rdi + 21], 6
+	pinsrb	xmm2, byte ptr [rdx + rax + 21], 7
+	pinsrb	xmm2, byte ptr [rdx + r9 + 21], 8
+	pinsrb	xmm2, byte ptr [rdx + rbx + 21], 9
+	pinsrb	xmm2, byte ptr [rdx + r11 + 21], 10
+	pinsrb	xmm2, byte ptr [rdx + r14 + 21], 11
+	pinsrb	xmm2, byte ptr [rdx + r15 + 21], 12
+	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 13
+	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 14
+	pinsrb	xmm2, byte ptr [rdx + r8 + 21], 15
+	pcmpeqb	xmm2, xmm15
+	movdqa	xmm7, xmmword ptr [rip + .LCPI2_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm2, xmm7
+	por	xmm2, xmm6
+	por	xmm2, xmm5
+	pinsrb	xmm3, byte ptr [rdx + r10 + 22], 3
+	pinsrb	xmm3, byte ptr [rdx + r13 + 22], 4
+	pinsrb	xmm3, byte ptr [rdx + rcx + 22], 5
+	pinsrb	xmm3, byte ptr [rdx + rdi + 22], 6
+	pinsrb	xmm3, byte ptr [rdx + rax + 22], 7
+	pinsrb	xmm3, byte ptr [rdx + r9 + 22], 8
+	pinsrb	xmm3, byte ptr [rdx + rbx + 22], 9
+	pinsrb	xmm3, byte ptr [rdx + r11 + 22], 10
+	pinsrb	xmm3, byte ptr [rdx + r14 + 22], 11
+	pinsrb	xmm3, byte ptr [rdx + r15 + 22], 12
+	pinsrb	xmm3, byte ptr [rdx + rsi + 22], 13
+	pinsrb	xmm3, byte ptr [rdx + r12 + 22], 14
+	pinsrb	xmm3, byte ptr [rdx + r8 + 22], 15
+	pinsrb	xmm8, byte ptr [rdx + r10 + 23], 3
+	pinsrb	xmm8, byte ptr [rdx + r13 + 23], 4
+	pinsrb	xmm8, byte ptr [rdx + rcx + 23], 5
+	pinsrb	xmm8, byte ptr [rdx + rdi + 23], 6
+	pinsrb	xmm8, byte ptr [rdx + rax + 23], 7
+	pinsrb	xmm8, byte ptr [rdx + r9 + 23], 8
+	pinsrb	xmm8, byte ptr [rdx + rbx + 23], 9
+	pinsrb	xmm8, byte ptr [rdx + r11 + 23], 10
+	pinsrb	xmm8, byte ptr [rdx + r14 + 23], 11
+	pinsrb	xmm8, byte ptr [rdx + r15 + 23], 12
+	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 13
+	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 14
+	pinsrb	xmm8, byte ptr [rdx + r8 + 23], 15
+	pcmpeqb	xmm3, xmm15
+	movdqa	xmm5, xmmword ptr [rip + .LCPI2_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm3, xmm5
+	pcmpeqb	xmm8, xmm15
+	psllw	xmm8, 7
+	movdqa	xmm6, xmmword ptr [rip + .LCPI2_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm8, xmm6
+	por	xmm8, xmm3
+	pinsrb	xmm1, byte ptr [rdx + r10 + 25], 3
+	pinsrb	xmm1, byte ptr [rdx + r13 + 25], 4
+	pinsrb	xmm1, byte ptr [rdx + rcx + 25], 5
+	pinsrb	xmm1, byte ptr [rdx + rdi + 25], 6
+	pinsrb	xmm1, byte ptr [rdx + rax + 25], 7
+	pinsrb	xmm1, byte ptr [rdx + r9 + 25], 8
+	pinsrb	xmm1, byte ptr [rdx + rbx + 25], 9
+	pinsrb	xmm1, byte ptr [rdx + r11 + 25], 10
+	pinsrb	xmm1, byte ptr [rdx + r14 + 25], 11
+	pinsrb	xmm1, byte ptr [rdx + r15 + 25], 12
+	pinsrb	xmm1, byte ptr [rdx + rsi + 25], 13
+	pinsrb	xmm1, byte ptr [rdx + r12 + 25], 14
+	pinsrb	xmm1, byte ptr [rdx + r8 + 25], 15
+	por	xmm8, xmm2
+	pcmpeqb	xmm1, xmm15
+	movdqa	xmm2, xmm1
+	movdqa	xmm3, xmmword ptr [rip + .LCPI2_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm2, xmm3
+	psubb	xmm2, xmm1
+	pinsrb	xmm10, byte ptr [rdx + r10 + 24], 3
+	pinsrb	xmm10, byte ptr [rdx + r13 + 24], 4
+	pinsrb	xmm10, byte ptr [rdx + rcx + 24], 5
+	pinsrb	xmm10, byte ptr [rdx + rdi + 24], 6
+	pinsrb	xmm10, byte ptr [rdx + rax + 24], 7
+	pinsrb	xmm10, byte ptr [rdx + r9 + 24], 8
+	pinsrb	xmm10, byte ptr [rdx + rbx + 24], 9
+	pinsrb	xmm10, byte ptr [rdx + r11 + 24], 10
+	pinsrb	xmm10, byte ptr [rdx + r14 + 24], 11
+	pinsrb	xmm10, byte ptr [rdx + r15 + 24], 12
+	pinsrb	xmm10, byte ptr [rdx + rsi + 24], 13
+	pinsrb	xmm10, byte ptr [rdx + r12 + 24], 14
+	pinsrb	xmm10, byte ptr [rdx + r8 + 24], 15
+	pcmpeqb	xmm10, xmm15
+	pand	xmm10, xmm3
+	pinsrb	xmm11, byte ptr [rdx + r10 + 26], 3
+	pinsrb	xmm11, byte ptr [rdx + r13 + 26], 4
+	pinsrb	xmm11, byte ptr [rdx + rcx + 26], 5
+	pinsrb	xmm11, byte ptr [rdx + rdi + 26], 6
+	pinsrb	xmm11, byte ptr [rdx + rax + 26], 7
+	pinsrb	xmm11, byte ptr [rdx + r9 + 26], 8
+	pinsrb	xmm11, byte ptr [rdx + rbx + 26], 9
+	pinsrb	xmm11, byte ptr [rdx + r11 + 26], 10
+	pinsrb	xmm11, byte ptr [rdx + r14 + 26], 11
+	pinsrb	xmm11, byte ptr [rdx + r15 + 26], 12
+	pinsrb	xmm11, byte ptr [rdx + rsi + 26], 13
+	pinsrb	xmm11, byte ptr [rdx + r12 + 26], 14
+	pinsrb	xmm11, byte ptr [rdx + r8 + 26], 15
+	pcmpeqb	xmm11, xmm15
+	pand	xmm11, xmmword ptr [rip + .LCPI2_11]
+	por	xmm11, xmm10
+	por	xmm11, xmm2
+	pinsrb	xmm9, byte ptr [rdx + r10 + 27], 3
+	pinsrb	xmm9, byte ptr [rdx + r13 + 27], 4
+	pinsrb	xmm9, byte ptr [rdx + rcx + 27], 5
+	pinsrb	xmm9, byte ptr [rdx + rdi + 27], 6
+	pinsrb	xmm9, byte ptr [rdx + rax + 27], 7
+	pinsrb	xmm9, byte ptr [rdx + r9 + 27], 8
+	pinsrb	xmm9, byte ptr [rdx + rbx + 27], 9
+	pinsrb	xmm9, byte ptr [rdx + r11 + 27], 10
+	pinsrb	xmm9, byte ptr [rdx + r14 + 27], 11
+	pinsrb	xmm9, byte ptr [rdx + r15 + 27], 12
+	pinsrb	xmm9, byte ptr [rdx + rsi + 27], 13
+	pinsrb	xmm9, byte ptr [rdx + r12 + 27], 14
+	pinsrb	xmm9, byte ptr [rdx + r8 + 27], 15
+	pinsrb	xmm4, byte ptr [rdx + r10 + 28], 3
+	pinsrb	xmm4, byte ptr [rdx + r13 + 28], 4
+	pinsrb	xmm4, byte ptr [rdx + rcx + 28], 5
+	pinsrb	xmm4, byte ptr [rdx + rdi + 28], 6
+	pinsrb	xmm4, byte ptr [rdx + rax + 28], 7
+	pinsrb	xmm4, byte ptr [rdx + r9 + 28], 8
+	pinsrb	xmm4, byte ptr [rdx + rbx + 28], 9
+	pinsrb	xmm4, byte ptr [rdx + r11 + 28], 10
+	pinsrb	xmm4, byte ptr [rdx + r14 + 28], 11
+	pinsrb	xmm4, byte ptr [rdx + r15 + 28], 12
+	pinsrb	xmm4, byte ptr [rdx + rsi + 28], 13
+	pinsrb	xmm4, byte ptr [rdx + r12 + 28], 14
+	pinsrb	xmm4, byte ptr [rdx + r8 + 28], 15
+	pinsrb	xmm13, byte ptr [rdx + r10 + 29], 3
+	pinsrb	xmm13, byte ptr [rdx + r13 + 29], 4
+	pinsrb	xmm13, byte ptr [rdx + rcx + 29], 5
+	pinsrb	xmm13, byte ptr [rdx + rdi + 29], 6
+	pinsrb	xmm13, byte ptr [rdx + rax + 29], 7
+	pinsrb	xmm13, byte ptr [rdx + r9 + 29], 8
+	pinsrb	xmm13, byte ptr [rdx + rbx + 29], 9
+	pinsrb	xmm13, byte ptr [rdx + r11 + 29], 10
+	pinsrb	xmm13, byte ptr [rdx + r14 + 29], 11
+	pinsrb	xmm13, byte ptr [rdx + r15 + 29], 12
+	pinsrb	xmm13, byte ptr [rdx + rsi + 29], 13
+	pinsrb	xmm13, byte ptr [rdx + r12 + 29], 14
+	movdqa	xmm1, xmm15
+	pcmpeqb	xmm9, xmm15
+	pand	xmm9, xmmword ptr [rip + .LCPI2_12]
+	pcmpeqb	xmm4, xmm15
+	pand	xmm4, xmmword ptr [rip + .LCPI2_13]
+	por	xmm4, xmm9
+	pinsrb	xmm13, byte ptr [rdx + r8 + 29], 15
+	pcmpeqb	xmm13, xmm15
+	pand	xmm13, xmm7
+	por	xmm13, xmm4
+	pinsrb	xmm12, byte ptr [rdx + r10 + 30], 3
+	pinsrb	xmm0, byte ptr [rdx + r10 + 31], 3
+	pinsrb	xmm12, byte ptr [rdx + r13 + 30], 4
+	pinsrb	xmm0, byte ptr [rdx + r13 + 31], 4
+	pinsrb	xmm12, byte ptr [rdx + rcx + 30], 5
+	pinsrb	xmm0, byte ptr [rdx + rcx + 31], 5
+	pinsrb	xmm12, byte ptr [rdx + rdi + 30], 6
+	pinsrb	xmm0, byte ptr [rdx + rdi + 31], 6
+	pinsrb	xmm12, byte ptr [rdx + rax + 30], 7
+	pinsrb	xmm0, byte ptr [rdx + rax + 31], 7
+	pinsrb	xmm12, byte ptr [rdx + r9 + 30], 8
+	pinsrb	xmm0, byte ptr [rdx + r9 + 31], 8
+	pinsrb	xmm12, byte ptr [rdx + rbx + 30], 9
+	pinsrb	xmm0, byte ptr [rdx + rbx + 31], 9
+	pinsrb	xmm12, byte ptr [rdx + r11 + 30], 10
+	pinsrb	xmm0, byte ptr [rdx + r11 + 31], 10
+	pinsrb	xmm12, byte ptr [rdx + r14 + 30], 11
+	pinsrb	xmm0, byte ptr [rdx + r14 + 31], 11
+	pinsrb	xmm12, byte ptr [rdx + r15 + 30], 12
+	pinsrb	xmm0, byte ptr [rdx + r15 + 31], 12
+	pinsrb	xmm12, byte ptr [rdx + rsi + 30], 13
+	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 13
+	pinsrb	xmm12, byte ptr [rdx + r12 + 30], 14
+	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 14
+	pinsrb	xmm12, byte ptr [rdx + r8 + 30], 15
+	pinsrb	xmm0, byte ptr [rdx + r8 + 31], 15
+	por	xmm13, xmm11
+	pcmpeqb	xmm12, xmm15
+	pand	xmm12, xmm5
+	pcmpeqb	xmm0, xmm15
+	psllw	xmm0, 7
+	pand	xmm0, xmm6
+	por	xmm0, xmm12
+	por	xmm0, xmm13
+	movdqa	xmm1, xmm8
+	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
+	movdqa	xmm4, xmmword ptr [rsp + 192]   # 16-byte Reload
+	movdqa	xmm2, xmm4
+	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
+	movdqa	xmm3, xmm2
+	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
+	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
+	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
+	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
+	movdqa	xmm0, xmm4
+	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
+	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm4
+	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm2
+	movdqu	xmmword ptr [rax + 4*rcx], xmm3
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	jne	.LBB2_189
+# %bb.190:
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	mov	r14b, byte ptr [rsp + 8]        # 1-byte Reload
+	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	jne	.LBB2_69
+	jmp	.LBB2_135
+.LBB2_191:
+	and	r14, -8
+	mov	rax, r14
+	shl	rax, 6
+	add	rax, rdx
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	mov	qword ptr [rsp + 32], r14       # 8-byte Spill
+	lea	rax, [rax + 4*r14]
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	mov	dword ptr [rsp + 56], r13d      # 4-byte Spill
+	movd	xmm0, r13d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	xor	r15d, r15d
+	movdqa	xmm15, xmmword ptr [rip + .LCPI2_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+	movdqa	xmm9, xmmword ptr [rip + .LCPI2_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	movdqa	xmm10, xmmword ptr [rip + .LCPI2_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	movdqa	xmm11, xmmword ptr [rip + .LCPI2_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	movdqa	xmm12, xmmword ptr [rip + .LCPI2_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	movdqa	xmm13, xmmword ptr [rip + .LCPI2_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	movdqa	xmm14, xmmword ptr [rip + .LCPI2_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	.p2align	4, 0x90
+.LBB2_192:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r15       # 8-byte Spill
+	shl	r15, 6
+	mov	r9, r15
+	mov	r12, r15
+	mov	r13, r15
+	mov	rcx, r15
+	mov	rdi, r15
+	mov	rbx, r15
+	movzx	eax, word ptr [rdx + r15]
+	movzx	r10d, word ptr [rdx + r15 + 2]
+	movzx	r14d, word ptr [rdx + r15 + 4]
+	movzx	esi, word ptr [rdx + r15 + 6]
+	movzx	r11d, word ptr [rdx + r15 + 8]
+	mov	r8, r15
+	or	r8, 64
+	or	r9, 128
+	or	r12, 192
+	or	r13, 256
+	or	rcx, 320
+	or	rdi, 384
+	or	rbx, 448
+	movd	xmm4, eax
+	pinsrw	xmm4, word ptr [rdx + r8], 1
+	pinsrw	xmm4, word ptr [rdx + r9], 2
+	pinsrw	xmm4, word ptr [rdx + r12], 3
+	pinsrw	xmm4, word ptr [rdx + r13], 4
+	pinsrw	xmm4, word ptr [rdx + rcx], 5
+	pinsrw	xmm4, word ptr [rdx + rdi], 6
+	pinsrw	xmm4, word ptr [rdx + rbx], 7
+	movzx	eax, word ptr [rdx + r15 + 10]
+	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
+	movd	xmm6, r10d
+	pinsrw	xmm6, word ptr [rdx + r8 + 2], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 2], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 2], 3
+	movzx	eax, word ptr [rdx + r15 + 12]
+	mov	dword ptr [rsp + 16], eax       # 4-byte Spill
+	pinsrw	xmm6, word ptr [rdx + r13 + 2], 4
+	movd	xmm2, r14d
+	movzx	r14d, word ptr [rdx + r15 + 14]
+	pinsrw	xmm6, word ptr [rdx + rcx + 2], 5
+	movd	xmm5, esi
+	movzx	esi, word ptr [rdx + r15 + 16]
+	pinsrw	xmm6, word ptr [rdx + rdi + 2], 6
+	movd	xmm3, r11d
+	movzx	eax, word ptr [rdx + r15 + 18]
+	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
+	pinsrw	xmm6, word ptr [rdx + rbx + 2], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	movdqa	xmm1, xmm6
+	pand	xmm1, xmm15
+	psubb	xmm1, xmm6
+	movd	xmm6, dword ptr [rsp + 24]      # 4-byte Folded Reload
+                                        # xmm6 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [rdx + r15 + 20]
+	pcmpeqw	xmm4, xmm0
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	pinsrw	xmm2, word ptr [rdx + r8 + 4], 1
+	pinsrw	xmm2, word ptr [rdx + r9 + 4], 2
+	pinsrw	xmm2, word ptr [rdx + r12 + 4], 3
+	pinsrw	xmm2, word ptr [rdx + r13 + 4], 4
+	pinsrw	xmm2, word ptr [rdx + rcx + 4], 5
+	pinsrw	xmm2, word ptr [rdx + rdi + 4], 6
+	pinsrw	xmm2, word ptr [rdx + rbx + 4], 7
+	pinsrw	xmm5, word ptr [rdx + r8 + 6], 1
+	pinsrw	xmm5, word ptr [rdx + r9 + 6], 2
+	pinsrw	xmm5, word ptr [rdx + r12 + 6], 3
+	pinsrw	xmm5, word ptr [rdx + r13 + 6], 4
+	pinsrw	xmm5, word ptr [rdx + rcx + 6], 5
+	pinsrw	xmm5, word ptr [rdx + rdi + 6], 6
+	pinsrw	xmm5, word ptr [rdx + rbx + 6], 7
+	pinsrw	xmm3, word ptr [rdx + r8 + 8], 1
+	pinsrw	xmm3, word ptr [rdx + r9 + 8], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 8], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 8], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 8], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 8], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 8], 7
+	por	xmm1, xmm4
+	movd	xmm7, dword ptr [rsp + 16]      # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [rdx + r15 + 22]
+	pcmpeqw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 2
+	pand	xmm2, xmm9
+	por	xmm2, xmm1
+	movd	xmm4, r14d
+	movzx	r11d, word ptr [rdx + r15 + 24]
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 3
+	pand	xmm5, xmm10
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 4
+	pand	xmm3, xmm11
+	por	xmm3, xmm5
+	movd	xmm1, esi
+	movzx	esi, word ptr [rdx + r15 + 26]
+	pinsrw	xmm6, word ptr [rdx + r8 + 10], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 10], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 10], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 10], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 10], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 10], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 10], 7
+	pinsrw	xmm7, word ptr [rdx + r8 + 12], 1
+	pinsrw	xmm7, word ptr [rdx + r9 + 12], 2
+	pinsrw	xmm7, word ptr [rdx + r12 + 12], 3
+	pinsrw	xmm7, word ptr [rdx + r13 + 12], 4
+	pinsrw	xmm7, word ptr [rdx + rcx + 12], 5
+	pinsrw	xmm7, word ptr [rdx + rdi + 12], 6
+	pinsrw	xmm7, word ptr [rdx + rbx + 12], 7
+	por	xmm3, xmm2
+	movd	xmm8, dword ptr [rsp + 40]      # 4-byte Folded Reload
+                                        # xmm8 = mem[0],zero,zero,zero
+	movzx	r14d, word ptr [rdx + r15 + 28]
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpeqw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm6
+	movd	xmm5, r10d
+	movzx	r10d, word ptr [rdx + r15 + 30]
+	pinsrw	xmm4, word ptr [rdx + r8 + 14], 1
+	pinsrw	xmm4, word ptr [rdx + r9 + 14], 2
+	pinsrw	xmm4, word ptr [rdx + r12 + 14], 3
+	pinsrw	xmm4, word ptr [rdx + r13 + 14], 4
+	pinsrw	xmm4, word ptr [rdx + rcx + 14], 5
+	pinsrw	xmm4, word ptr [rdx + rdi + 14], 6
+	pinsrw	xmm4, word ptr [rdx + rbx + 14], 7
+	pinsrw	xmm8, word ptr [rdx + r8 + 18], 1
+	pinsrw	xmm8, word ptr [rdx + r9 + 18], 2
+	pinsrw	xmm8, word ptr [rdx + r12 + 18], 3
+	pinsrw	xmm8, word ptr [rdx + r13 + 18], 4
+	pinsrw	xmm8, word ptr [rdx + rcx + 18], 5
+	pinsrw	xmm8, word ptr [rdx + rdi + 18], 6
+	pinsrw	xmm8, word ptr [rdx + rbx + 18], 7
+	pcmpeqw	xmm4, xmm0
+	packsswb	xmm4, xmm4
+	psllw	xmm4, 7
+	pand	xmm4, xmm14
+	por	xmm4, xmm7
+	movd	xmm2, eax
+	movzx	eax, word ptr [rdx + r15 + 32]
+	por	xmm4, xmm3
+	pcmpeqw	xmm8, xmm0
+	packsswb	xmm8, xmm8
+	movdqa	xmm7, xmm8
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm8
+	movd	xmm3, r11d
+	movzx	r11d, word ptr [rdx + r15 + 34]
+	pinsrw	xmm1, word ptr [rdx + r8 + 16], 1
+	pinsrw	xmm1, word ptr [rdx + r9 + 16], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 16], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 16], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 16], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 16], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 16], 7
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	por	xmm7, xmm1
+	movd	xmm6, esi
+	movzx	esi, word ptr [rdx + r15 + 36]
+	mov	dword ptr [rsp + 40], esi       # 4-byte Spill
+	pinsrw	xmm5, word ptr [rdx + r8 + 20], 1
+	pinsrw	xmm5, word ptr [rdx + r9 + 20], 2
+	pinsrw	xmm5, word ptr [rdx + r12 + 20], 3
+	pinsrw	xmm5, word ptr [rdx + r13 + 20], 4
+	pinsrw	xmm5, word ptr [rdx + rcx + 20], 5
+	pinsrw	xmm5, word ptr [rdx + rdi + 20], 6
+	pinsrw	xmm5, word ptr [rdx + rbx + 20], 7
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	pand	xmm5, xmm9
+	por	xmm5, xmm7
+	movd	xmm7, r14d
+	movzx	esi, word ptr [rdx + r15 + 38]
+	mov	dword ptr [rsp + 16], esi       # 4-byte Spill
+	pinsrw	xmm2, word ptr [rdx + r8 + 22], 1
+	pinsrw	xmm2, word ptr [rdx + r9 + 22], 2
+	pinsrw	xmm2, word ptr [rdx + r12 + 22], 3
+	pinsrw	xmm2, word ptr [rdx + r13 + 22], 4
+	pinsrw	xmm2, word ptr [rdx + rcx + 22], 5
+	pinsrw	xmm2, word ptr [rdx + rdi + 22], 6
+	pinsrw	xmm2, word ptr [rdx + rbx + 22], 7
+	pinsrw	xmm3, word ptr [rdx + r8 + 24], 1
+	pinsrw	xmm3, word ptr [rdx + r9 + 24], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 24], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 24], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 24], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 24], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 24], 7
+	pcmpeqw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 3
+	pand	xmm2, xmm10
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 4
+	pand	xmm3, xmm11
+	por	xmm3, xmm2
+	movd	xmm2, r10d
+	movzx	r14d, word ptr [rdx + r15 + 40]
+	por	xmm3, xmm5
+	movd	xmm5, eax
+	movzx	eax, word ptr [rdx + r15 + 42]
+	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
+	pinsrw	xmm6, word ptr [rdx + r8 + 26], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 26], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 26], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 26], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 26], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 26], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 26], 7
+	pinsrw	xmm7, word ptr [rdx + r8 + 28], 1
+	pinsrw	xmm7, word ptr [rdx + r9 + 28], 2
+	pinsrw	xmm7, word ptr [rdx + r12 + 28], 3
+	pinsrw	xmm7, word ptr [rdx + r13 + 28], 4
+	pinsrw	xmm7, word ptr [rdx + rcx + 28], 5
+	pinsrw	xmm7, word ptr [rdx + rdi + 28], 6
+	pinsrw	xmm7, word ptr [rdx + rbx + 28], 7
+	pinsrw	xmm2, word ptr [rdx + r8 + 30], 1
+	pinsrw	xmm2, word ptr [rdx + r9 + 30], 2
+	pinsrw	xmm2, word ptr [rdx + r12 + 30], 3
+	pinsrw	xmm2, word ptr [rdx + r13 + 30], 4
+	pinsrw	xmm2, word ptr [rdx + rcx + 30], 5
+	pinsrw	xmm2, word ptr [rdx + rdi + 30], 6
+	pinsrw	xmm2, word ptr [rdx + rbx + 30], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpeqw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm6
+	movd	xmm1, r11d
+	movzx	r10d, word ptr [rdx + r15 + 44]
+	pcmpeqw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	psllw	xmm2, 7
+	pand	xmm2, xmm14
+	por	xmm2, xmm7
+	movd	xmm6, dword ptr [rsp + 40]      # 4-byte Folded Reload
+                                        # xmm6 = mem[0],zero,zero,zero
+	movzx	esi, word ptr [rdx + r15 + 46]
+	pinsrw	xmm5, word ptr [rdx + r8 + 32], 1
+	pinsrw	xmm5, word ptr [rdx + r9 + 32], 2
+	pinsrw	xmm5, word ptr [rdx + r12 + 32], 3
+	pinsrw	xmm5, word ptr [rdx + r13 + 32], 4
+	pinsrw	xmm5, word ptr [rdx + rcx + 32], 5
+	pinsrw	xmm5, word ptr [rdx + rdi + 32], 6
+	pinsrw	xmm1, word ptr [rdx + r8 + 34], 1
+	pinsrw	xmm1, word ptr [rdx + r9 + 34], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 34], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 34], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 34], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 34], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 34], 7
+	por	xmm2, xmm3
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm7, xmm1
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm1
+	movd	xmm3, dword ptr [rsp + 16]      # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	r11d, word ptr [rdx + r15 + 48]
+	pinsrw	xmm5, word ptr [rdx + rbx + 32], 7
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	pinsrw	xmm6, word ptr [rdx + r8 + 36], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 36], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 36], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 36], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 36], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 36], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 36], 7
+	pinsrw	xmm3, word ptr [rdx + r8 + 38], 1
+	pinsrw	xmm3, word ptr [rdx + r9 + 38], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 38], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 38], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 38], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 38], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 38], 7
+	por	xmm7, xmm5
+	movd	xmm5, r14d
+	pinsrw	xmm5, word ptr [rdx + r8 + 40], 1
+	pinsrw	xmm5, word ptr [rdx + r9 + 40], 2
+	pinsrw	xmm5, word ptr [rdx + r12 + 40], 3
+	pinsrw	xmm5, word ptr [rdx + r13 + 40], 4
+	pinsrw	xmm5, word ptr [rdx + rcx + 40], 5
+	pinsrw	xmm5, word ptr [rdx + rdi + 40], 6
+	movzx	eax, word ptr [rdx + r15 + 50]
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 2
+	pand	xmm6, xmm9
+	por	xmm6, xmm7
+	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	movzx	r14d, word ptr [rdx + r15 + 52]
+	pinsrw	xmm5, word ptr [rdx + rbx + 40], 7
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 3
+	pand	xmm3, xmm10
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm3
+	movd	xmm7, r10d
+	movzx	r10d, word ptr [rdx + r15 + 54]
+	pinsrw	xmm1, word ptr [rdx + r8 + 42], 1
+	pinsrw	xmm1, word ptr [rdx + r9 + 42], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 42], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 42], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 42], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 42], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 42], 7
+	pinsrw	xmm7, word ptr [rdx + r8 + 44], 1
+	pinsrw	xmm7, word ptr [rdx + r9 + 44], 2
+	pinsrw	xmm7, word ptr [rdx + r12 + 44], 3
+	pinsrw	xmm7, word ptr [rdx + r13 + 44], 4
+	pinsrw	xmm7, word ptr [rdx + rcx + 44], 5
+	pinsrw	xmm7, word ptr [rdx + rdi + 44], 6
+	por	xmm5, xmm6
+	movd	xmm3, esi
+	movzx	esi, word ptr [rdx + r15 + 56]
+	pinsrw	xmm7, word ptr [rdx + rbx + 44], 7
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 5
+	pand	xmm1, xmm12
+	pcmpeqw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm1
+	movd	xmm6, r11d
+	movzx	r11d, word ptr [rdx + r15 + 58]
+	pinsrw	xmm3, word ptr [rdx + r8 + 46], 1
+	pinsrw	xmm3, word ptr [rdx + r9 + 46], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 46], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 46], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 46], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 46], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 46], 7
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	psllw	xmm3, 7
+	pand	xmm3, xmm14
+	por	xmm3, xmm7
+	movd	xmm1, eax
+	movzx	eax, word ptr [rdx + r15 + 60]
+	movzx	r15d, word ptr [rdx + r15 + 62]
+	pinsrw	xmm1, word ptr [rdx + r8 + 50], 1
+	pinsrw	xmm1, word ptr [rdx + r9 + 50], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 50], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 50], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 50], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 50], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 50], 7
+	por	xmm3, xmm5
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm5, xmm1
+	pand	xmm5, xmm15
+	psubb	xmm5, xmm1
+	movd	xmm1, r14d
+	pinsrw	xmm6, word ptr [rdx + r8 + 48], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 48], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 48], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 48], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 48], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 48], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 48], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pinsrw	xmm1, word ptr [rdx + r8 + 52], 1
+	pinsrw	xmm1, word ptr [rdx + r9 + 52], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 52], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 52], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 52], 5
+	pand	xmm6, xmm15
+	pinsrw	xmm1, word ptr [rdx + rdi + 52], 6
+	por	xmm5, xmm6
+	movd	xmm6, r10d
+	pinsrw	xmm1, word ptr [rdx + rbx + 52], 7
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 2
+	pand	xmm1, xmm9
+	por	xmm1, xmm5
+	movd	xmm5, esi
+	pinsrw	xmm6, word ptr [rdx + r8 + 54], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 54], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 54], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 54], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 54], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 54], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 54], 7
+	pinsrw	xmm5, word ptr [rdx + r8 + 56], 1
+	pinsrw	xmm5, word ptr [rdx + r9 + 56], 2
+	pinsrw	xmm5, word ptr [rdx + r12 + 56], 3
+	pinsrw	xmm5, word ptr [rdx + r13 + 56], 4
+	pinsrw	xmm5, word ptr [rdx + rcx + 56], 5
+	pinsrw	xmm5, word ptr [rdx + rdi + 56], 6
+	pinsrw	xmm5, word ptr [rdx + rbx + 56], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 3
+	pand	xmm6, xmm10
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm6
+	movd	xmm6, r11d
+	mov	rsi, qword ptr [rsp]            # 8-byte Reload
+	pinsrw	xmm6, word ptr [rdx + r8 + 58], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 58], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 58], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 58], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 58], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 58], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 58], 7
+	por	xmm5, xmm1
+	movd	xmm1, eax
+	pinsrw	xmm1, word ptr [rdx + r8 + 60], 1
+	pinsrw	xmm1, word ptr [rdx + r9 + 60], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 60], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 60], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 60], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 60], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 60], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 6
+	pand	xmm1, xmm13
+	por	xmm1, xmm6
+	movd	xmm6, r15d
+	pinsrw	xmm6, word ptr [rdx + r8 + 62], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 62], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 62], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 62], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 62], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 62], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 62], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	psllw	xmm6, 7
+	pand	xmm6, xmm14
+	por	xmm6, xmm1
+	por	xmm6, xmm5
+	movdqa	xmm1, xmm4
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqa	xmm5, xmm3
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	movdqa	xmm7, xmmword ptr [rip + .LCPI2_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
+	pshufb	xmm5, xmm7
+	pshufb	xmm1, xmm7
+	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
+	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
+	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
+	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	movdqu	xmmword ptr [rsi + 4*rcx], xmm4
+	mov	qword ptr [rsp], rsi            # 8-byte Spill
+	movdqu	xmmword ptr [rsi + 4*rcx + 16], xmm1
+	add	rcx, 8
+	mov	r15, rcx
+	cmp	rcx, qword ptr [rsp + 32]       # 8-byte Folded Reload
+	jne	.LBB2_192
+# %bb.193:
+	mov	r14, qword ptr [rsp + 152]      # 8-byte Reload
+	cmp	r14, qword ptr [rsp + 32]       # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r13d, dword ptr [rsp + 56]      # 4-byte Reload
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	jne	.LBB2_92
+	jmp	.LBB2_139
+.LBB2_194:
+	and	r15, -8
+	mov	rax, r15
+	shl	rax, 6
+	add	rax, rdx
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	lea	rax, [rax + 4*r15]
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	mov	dword ptr [rsp + 56], r13d      # 4-byte Spill
+	movd	xmm0, r13d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	xor	r15d, r15d
+	movdqa	xmm15, xmmword ptr [rip + .LCPI2_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+	movdqa	xmm9, xmmword ptr [rip + .LCPI2_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	movdqa	xmm10, xmmword ptr [rip + .LCPI2_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	movdqa	xmm11, xmmword ptr [rip + .LCPI2_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	movdqa	xmm12, xmmword ptr [rip + .LCPI2_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	movdqa	xmm13, xmmword ptr [rip + .LCPI2_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	movdqa	xmm14, xmmword ptr [rip + .LCPI2_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	.p2align	4, 0x90
+.LBB2_195:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r15       # 8-byte Spill
+	shl	r15, 6
+	mov	r9, r15
+	mov	r12, r15
+	mov	r13, r15
+	mov	rcx, r15
+	mov	rdi, r15
+	mov	rbx, r15
+	movzx	eax, word ptr [rdx + r15]
+	movzx	r10d, word ptr [rdx + r15 + 2]
+	movzx	r14d, word ptr [rdx + r15 + 4]
+	movzx	esi, word ptr [rdx + r15 + 6]
+	movzx	r11d, word ptr [rdx + r15 + 8]
+	mov	r8, r15
+	or	r8, 64
+	or	r9, 128
+	or	r12, 192
+	or	r13, 256
+	or	rcx, 320
+	or	rdi, 384
+	or	rbx, 448
+	movd	xmm4, eax
+	pinsrw	xmm4, word ptr [rdx + r8], 1
+	pinsrw	xmm4, word ptr [rdx + r9], 2
+	pinsrw	xmm4, word ptr [rdx + r12], 3
+	pinsrw	xmm4, word ptr [rdx + r13], 4
+	pinsrw	xmm4, word ptr [rdx + rcx], 5
+	pinsrw	xmm4, word ptr [rdx + rdi], 6
+	pinsrw	xmm4, word ptr [rdx + rbx], 7
+	movzx	eax, word ptr [rdx + r15 + 10]
+	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
+	movd	xmm6, r10d
+	pinsrw	xmm6, word ptr [rdx + r8 + 2], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 2], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 2], 3
+	movzx	eax, word ptr [rdx + r15 + 12]
+	mov	dword ptr [rsp + 16], eax       # 4-byte Spill
+	pinsrw	xmm6, word ptr [rdx + r13 + 2], 4
+	movd	xmm2, r14d
+	movzx	r14d, word ptr [rdx + r15 + 14]
+	pinsrw	xmm6, word ptr [rdx + rcx + 2], 5
+	movd	xmm5, esi
+	movzx	esi, word ptr [rdx + r15 + 16]
+	pinsrw	xmm6, word ptr [rdx + rdi + 2], 6
+	movd	xmm3, r11d
+	movzx	eax, word ptr [rdx + r15 + 18]
+	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
+	pinsrw	xmm6, word ptr [rdx + rbx + 2], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	movdqa	xmm1, xmm6
+	pand	xmm1, xmm15
+	psubb	xmm1, xmm6
+	movd	xmm6, dword ptr [rsp + 24]      # 4-byte Folded Reload
+                                        # xmm6 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [rdx + r15 + 20]
+	pcmpeqw	xmm4, xmm0
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	pinsrw	xmm2, word ptr [rdx + r8 + 4], 1
+	pinsrw	xmm2, word ptr [rdx + r9 + 4], 2
+	pinsrw	xmm2, word ptr [rdx + r12 + 4], 3
+	pinsrw	xmm2, word ptr [rdx + r13 + 4], 4
+	pinsrw	xmm2, word ptr [rdx + rcx + 4], 5
+	pinsrw	xmm2, word ptr [rdx + rdi + 4], 6
+	pinsrw	xmm2, word ptr [rdx + rbx + 4], 7
+	pinsrw	xmm5, word ptr [rdx + r8 + 6], 1
+	pinsrw	xmm5, word ptr [rdx + r9 + 6], 2
+	pinsrw	xmm5, word ptr [rdx + r12 + 6], 3
+	pinsrw	xmm5, word ptr [rdx + r13 + 6], 4
+	pinsrw	xmm5, word ptr [rdx + rcx + 6], 5
+	pinsrw	xmm5, word ptr [rdx + rdi + 6], 6
+	pinsrw	xmm5, word ptr [rdx + rbx + 6], 7
+	pinsrw	xmm3, word ptr [rdx + r8 + 8], 1
+	pinsrw	xmm3, word ptr [rdx + r9 + 8], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 8], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 8], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 8], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 8], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 8], 7
+	por	xmm1, xmm4
+	movd	xmm7, dword ptr [rsp + 16]      # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [rdx + r15 + 22]
+	pcmpeqw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 2
+	pand	xmm2, xmm9
+	por	xmm2, xmm1
+	movd	xmm4, r14d
+	movzx	r11d, word ptr [rdx + r15 + 24]
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 3
+	pand	xmm5, xmm10
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 4
+	pand	xmm3, xmm11
+	por	xmm3, xmm5
+	movd	xmm1, esi
+	movzx	esi, word ptr [rdx + r15 + 26]
+	pinsrw	xmm6, word ptr [rdx + r8 + 10], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 10], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 10], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 10], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 10], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 10], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 10], 7
+	pinsrw	xmm7, word ptr [rdx + r8 + 12], 1
+	pinsrw	xmm7, word ptr [rdx + r9 + 12], 2
+	pinsrw	xmm7, word ptr [rdx + r12 + 12], 3
+	pinsrw	xmm7, word ptr [rdx + r13 + 12], 4
+	pinsrw	xmm7, word ptr [rdx + rcx + 12], 5
+	pinsrw	xmm7, word ptr [rdx + rdi + 12], 6
+	pinsrw	xmm7, word ptr [rdx + rbx + 12], 7
+	por	xmm3, xmm2
+	movd	xmm8, dword ptr [rsp + 40]      # 4-byte Folded Reload
+                                        # xmm8 = mem[0],zero,zero,zero
+	movzx	r14d, word ptr [rdx + r15 + 28]
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpeqw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm6
+	movd	xmm5, r10d
+	movzx	r10d, word ptr [rdx + r15 + 30]
+	pinsrw	xmm4, word ptr [rdx + r8 + 14], 1
+	pinsrw	xmm4, word ptr [rdx + r9 + 14], 2
+	pinsrw	xmm4, word ptr [rdx + r12 + 14], 3
+	pinsrw	xmm4, word ptr [rdx + r13 + 14], 4
+	pinsrw	xmm4, word ptr [rdx + rcx + 14], 5
+	pinsrw	xmm4, word ptr [rdx + rdi + 14], 6
+	pinsrw	xmm4, word ptr [rdx + rbx + 14], 7
+	pinsrw	xmm8, word ptr [rdx + r8 + 18], 1
+	pinsrw	xmm8, word ptr [rdx + r9 + 18], 2
+	pinsrw	xmm8, word ptr [rdx + r12 + 18], 3
+	pinsrw	xmm8, word ptr [rdx + r13 + 18], 4
+	pinsrw	xmm8, word ptr [rdx + rcx + 18], 5
+	pinsrw	xmm8, word ptr [rdx + rdi + 18], 6
+	pinsrw	xmm8, word ptr [rdx + rbx + 18], 7
+	pcmpeqw	xmm4, xmm0
+	packsswb	xmm4, xmm4
+	psllw	xmm4, 7
+	pand	xmm4, xmm14
+	por	xmm4, xmm7
+	movd	xmm2, eax
+	movzx	eax, word ptr [rdx + r15 + 32]
+	por	xmm4, xmm3
+	pcmpeqw	xmm8, xmm0
+	packsswb	xmm8, xmm8
+	movdqa	xmm7, xmm8
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm8
+	movd	xmm3, r11d
+	movzx	r11d, word ptr [rdx + r15 + 34]
+	pinsrw	xmm1, word ptr [rdx + r8 + 16], 1
+	pinsrw	xmm1, word ptr [rdx + r9 + 16], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 16], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 16], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 16], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 16], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 16], 7
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	por	xmm7, xmm1
+	movd	xmm6, esi
+	movzx	esi, word ptr [rdx + r15 + 36]
+	mov	dword ptr [rsp + 40], esi       # 4-byte Spill
+	pinsrw	xmm5, word ptr [rdx + r8 + 20], 1
+	pinsrw	xmm5, word ptr [rdx + r9 + 20], 2
+	pinsrw	xmm5, word ptr [rdx + r12 + 20], 3
+	pinsrw	xmm5, word ptr [rdx + r13 + 20], 4
+	pinsrw	xmm5, word ptr [rdx + rcx + 20], 5
+	pinsrw	xmm5, word ptr [rdx + rdi + 20], 6
+	pinsrw	xmm5, word ptr [rdx + rbx + 20], 7
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	pand	xmm5, xmm9
+	por	xmm5, xmm7
+	movd	xmm7, r14d
+	movzx	esi, word ptr [rdx + r15 + 38]
+	mov	dword ptr [rsp + 16], esi       # 4-byte Spill
+	pinsrw	xmm2, word ptr [rdx + r8 + 22], 1
+	pinsrw	xmm2, word ptr [rdx + r9 + 22], 2
+	pinsrw	xmm2, word ptr [rdx + r12 + 22], 3
+	pinsrw	xmm2, word ptr [rdx + r13 + 22], 4
+	pinsrw	xmm2, word ptr [rdx + rcx + 22], 5
+	pinsrw	xmm2, word ptr [rdx + rdi + 22], 6
+	pinsrw	xmm2, word ptr [rdx + rbx + 22], 7
+	pinsrw	xmm3, word ptr [rdx + r8 + 24], 1
+	pinsrw	xmm3, word ptr [rdx + r9 + 24], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 24], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 24], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 24], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 24], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 24], 7
+	pcmpeqw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 3
+	pand	xmm2, xmm10
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 4
+	pand	xmm3, xmm11
+	por	xmm3, xmm2
+	movd	xmm2, r10d
+	movzx	r14d, word ptr [rdx + r15 + 40]
+	por	xmm3, xmm5
+	movd	xmm5, eax
+	movzx	eax, word ptr [rdx + r15 + 42]
+	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
+	pinsrw	xmm6, word ptr [rdx + r8 + 26], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 26], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 26], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 26], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 26], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 26], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 26], 7
+	pinsrw	xmm7, word ptr [rdx + r8 + 28], 1
+	pinsrw	xmm7, word ptr [rdx + r9 + 28], 2
+	pinsrw	xmm7, word ptr [rdx + r12 + 28], 3
+	pinsrw	xmm7, word ptr [rdx + r13 + 28], 4
+	pinsrw	xmm7, word ptr [rdx + rcx + 28], 5
+	pinsrw	xmm7, word ptr [rdx + rdi + 28], 6
+	pinsrw	xmm7, word ptr [rdx + rbx + 28], 7
+	pinsrw	xmm2, word ptr [rdx + r8 + 30], 1
+	pinsrw	xmm2, word ptr [rdx + r9 + 30], 2
+	pinsrw	xmm2, word ptr [rdx + r12 + 30], 3
+	pinsrw	xmm2, word ptr [rdx + r13 + 30], 4
+	pinsrw	xmm2, word ptr [rdx + rcx + 30], 5
+	pinsrw	xmm2, word ptr [rdx + rdi + 30], 6
+	pinsrw	xmm2, word ptr [rdx + rbx + 30], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpeqw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm6
+	movd	xmm1, r11d
+	movzx	r10d, word ptr [rdx + r15 + 44]
+	pcmpeqw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	psllw	xmm2, 7
+	pand	xmm2, xmm14
+	por	xmm2, xmm7
+	movd	xmm6, dword ptr [rsp + 40]      # 4-byte Folded Reload
+                                        # xmm6 = mem[0],zero,zero,zero
+	movzx	esi, word ptr [rdx + r15 + 46]
+	pinsrw	xmm5, word ptr [rdx + r8 + 32], 1
+	pinsrw	xmm5, word ptr [rdx + r9 + 32], 2
+	pinsrw	xmm5, word ptr [rdx + r12 + 32], 3
+	pinsrw	xmm5, word ptr [rdx + r13 + 32], 4
+	pinsrw	xmm5, word ptr [rdx + rcx + 32], 5
+	pinsrw	xmm5, word ptr [rdx + rdi + 32], 6
+	pinsrw	xmm1, word ptr [rdx + r8 + 34], 1
+	pinsrw	xmm1, word ptr [rdx + r9 + 34], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 34], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 34], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 34], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 34], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 34], 7
+	por	xmm2, xmm3
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm7, xmm1
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm1
+	movd	xmm3, dword ptr [rsp + 16]      # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	r11d, word ptr [rdx + r15 + 48]
+	pinsrw	xmm5, word ptr [rdx + rbx + 32], 7
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	pinsrw	xmm6, word ptr [rdx + r8 + 36], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 36], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 36], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 36], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 36], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 36], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 36], 7
+	pinsrw	xmm3, word ptr [rdx + r8 + 38], 1
+	pinsrw	xmm3, word ptr [rdx + r9 + 38], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 38], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 38], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 38], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 38], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 38], 7
+	por	xmm7, xmm5
+	movd	xmm5, r14d
+	pinsrw	xmm5, word ptr [rdx + r8 + 40], 1
+	pinsrw	xmm5, word ptr [rdx + r9 + 40], 2
+	pinsrw	xmm5, word ptr [rdx + r12 + 40], 3
+	pinsrw	xmm5, word ptr [rdx + r13 + 40], 4
+	pinsrw	xmm5, word ptr [rdx + rcx + 40], 5
+	pinsrw	xmm5, word ptr [rdx + rdi + 40], 6
+	movzx	eax, word ptr [rdx + r15 + 50]
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 2
+	pand	xmm6, xmm9
+	por	xmm6, xmm7
+	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	movzx	r14d, word ptr [rdx + r15 + 52]
+	pinsrw	xmm5, word ptr [rdx + rbx + 40], 7
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 3
+	pand	xmm3, xmm10
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm3
+	movd	xmm7, r10d
+	movzx	r10d, word ptr [rdx + r15 + 54]
+	pinsrw	xmm1, word ptr [rdx + r8 + 42], 1
+	pinsrw	xmm1, word ptr [rdx + r9 + 42], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 42], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 42], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 42], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 42], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 42], 7
+	pinsrw	xmm7, word ptr [rdx + r8 + 44], 1
+	pinsrw	xmm7, word ptr [rdx + r9 + 44], 2
+	pinsrw	xmm7, word ptr [rdx + r12 + 44], 3
+	pinsrw	xmm7, word ptr [rdx + r13 + 44], 4
+	pinsrw	xmm7, word ptr [rdx + rcx + 44], 5
+	pinsrw	xmm7, word ptr [rdx + rdi + 44], 6
+	por	xmm5, xmm6
+	movd	xmm3, esi
+	movzx	esi, word ptr [rdx + r15 + 56]
+	pinsrw	xmm7, word ptr [rdx + rbx + 44], 7
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 5
+	pand	xmm1, xmm12
+	pcmpeqw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm1
+	movd	xmm6, r11d
+	movzx	r11d, word ptr [rdx + r15 + 58]
+	pinsrw	xmm3, word ptr [rdx + r8 + 46], 1
+	pinsrw	xmm3, word ptr [rdx + r9 + 46], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 46], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 46], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 46], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 46], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 46], 7
+	pcmpeqw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	psllw	xmm3, 7
+	pand	xmm3, xmm14
+	por	xmm3, xmm7
+	movd	xmm1, eax
+	movzx	eax, word ptr [rdx + r15 + 60]
+	movzx	r15d, word ptr [rdx + r15 + 62]
+	pinsrw	xmm1, word ptr [rdx + r8 + 50], 1
+	pinsrw	xmm1, word ptr [rdx + r9 + 50], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 50], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 50], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 50], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 50], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 50], 7
+	por	xmm3, xmm5
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm5, xmm1
+	pand	xmm5, xmm15
+	psubb	xmm5, xmm1
+	movd	xmm1, r14d
+	pinsrw	xmm6, word ptr [rdx + r8 + 48], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 48], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 48], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 48], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 48], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 48], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 48], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pinsrw	xmm1, word ptr [rdx + r8 + 52], 1
+	pinsrw	xmm1, word ptr [rdx + r9 + 52], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 52], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 52], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 52], 5
+	pand	xmm6, xmm15
+	pinsrw	xmm1, word ptr [rdx + rdi + 52], 6
+	por	xmm5, xmm6
+	movd	xmm6, r10d
+	pinsrw	xmm1, word ptr [rdx + rbx + 52], 7
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 2
+	pand	xmm1, xmm9
+	por	xmm1, xmm5
+	movd	xmm5, esi
+	pinsrw	xmm6, word ptr [rdx + r8 + 54], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 54], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 54], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 54], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 54], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 54], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 54], 7
+	pinsrw	xmm5, word ptr [rdx + r8 + 56], 1
+	pinsrw	xmm5, word ptr [rdx + r9 + 56], 2
+	pinsrw	xmm5, word ptr [rdx + r12 + 56], 3
+	pinsrw	xmm5, word ptr [rdx + r13 + 56], 4
+	pinsrw	xmm5, word ptr [rdx + rcx + 56], 5
+	pinsrw	xmm5, word ptr [rdx + rdi + 56], 6
+	pinsrw	xmm5, word ptr [rdx + rbx + 56], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 3
+	pand	xmm6, xmm10
+	pcmpeqw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm6
+	movd	xmm6, r11d
+	mov	rsi, qword ptr [rsp]            # 8-byte Reload
+	pinsrw	xmm6, word ptr [rdx + r8 + 58], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 58], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 58], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 58], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 58], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 58], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 58], 7
+	por	xmm5, xmm1
+	movd	xmm1, eax
+	pinsrw	xmm1, word ptr [rdx + r8 + 60], 1
+	pinsrw	xmm1, word ptr [rdx + r9 + 60], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 60], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 60], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 60], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 60], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 60], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpeqw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 6
+	pand	xmm1, xmm13
+	por	xmm1, xmm6
+	movd	xmm6, r15d
+	pinsrw	xmm6, word ptr [rdx + r8 + 62], 1
+	pinsrw	xmm6, word ptr [rdx + r9 + 62], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 62], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 62], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 62], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 62], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 62], 7
+	pcmpeqw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	psllw	xmm6, 7
+	pand	xmm6, xmm14
+	por	xmm6, xmm1
+	por	xmm6, xmm5
+	movdqa	xmm1, xmm4
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqa	xmm5, xmm3
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	movdqa	xmm7, xmmword ptr [rip + .LCPI2_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
+	pshufb	xmm5, xmm7
+	pshufb	xmm1, xmm7
+	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
+	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
+	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
+	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	movdqu	xmmword ptr [rsi + 4*rcx], xmm4
+	mov	qword ptr [rsp], rsi            # 8-byte Spill
+	movdqu	xmmword ptr [rsi + 4*rcx + 16], xmm1
+	add	rcx, 8
+	mov	r15, rcx
+	cmp	rcx, qword ptr [rsp + 32]       # 8-byte Folded Reload
+	jne	.LBB2_195
+# %bb.196:
+	mov	r15, qword ptr [rsp + 152]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 32]       # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r13d, dword ptr [rsp + 56]      # 4-byte Reload
+	mov	r14, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	jne	.LBB2_104
+	jmp	.LBB2_143
+.LBB2_197:
+	mov	r8, r14
+	and	r8, -4
+	mov	rbx, r8
+	shl	rbx, 7
+	add	rbx, rdx
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	lea	r11, [rax + 4*r8]
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	add	rdx, 508
+	xor	ecx, ecx
+	movdqa	xmm15, xmmword ptr [rip + .LCPI2_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	movdqa	xmm8, xmmword ptr [rip + .LCPI2_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	movdqa	xmm10, xmmword ptr [rip + .LCPI2_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	movdqa	xmm11, xmmword ptr [rip + .LCPI2_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	movdqa	xmm12, xmmword ptr [rip + .LCPI2_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	movdqa	xmm13, xmmword ptr [rip + .LCPI2_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	movdqa	xmm14, xmmword ptr [rip + .LCPI2_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	movdqa	xmm9, xmmword ptr [rip + .LCPI2_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	.p2align	4, 0x90
+.LBB2_198:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm6, dword ptr [rdx - 508]     # xmm6 = mem[0],zero,zero,zero
+	movss	xmm7, dword ptr [rdx - 504]     # xmm7 = mem[0],zero,zero,zero
+	movss	xmm5, dword ptr [rdx - 500]     # xmm5 = mem[0],zero,zero,zero
+	movss	xmm4, dword ptr [rdx - 496]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
+	cmpeqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	insertps	xmm7, dword ptr [rdx - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
+	insertps	xmm5, dword ptr [rdx - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
+	insertps	xmm4, dword ptr [rdx - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [rdx - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	insertps	xmm4, dword ptr [rdx - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	movdqa	xmm2, xmm7
+	pand	xmm2, xmm15
+	psubb	xmm2, xmm7
+	movss	xmm7, dword ptr [rdx - 492]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [rdx - 488]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
+	cmpeqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	pand	xmm5, xmm8
+	por	xmm5, xmm2
+	movss	xmm3, dword ptr [rdx - 484]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rdx - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
+	cmpeqps	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	psllw	xmm4, 3
+	pand	xmm4, xmm10
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 4
+	pand	xmm7, xmm11
+	por	xmm7, xmm4
+	movss	xmm4, dword ptr [rdx - 480]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm4, dword ptr [rdx - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [rdx - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	insertps	xmm4, dword ptr [rdx - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
+	por	xmm7, xmm5
+	movss	xmm5, dword ptr [rdx - 476]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rdx - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpeqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	cmpeqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	cmpeqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 6
+	pand	xmm3, xmm13
+	por	xmm3, xmm6
+	movss	xmm2, dword ptr [rdx - 472]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	packsswb	xmm5, xmm5
+	cmpeqps	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	psllw	xmm4, 7
+	pand	xmm4, xmm14
+	por	xmm4, xmm3
+	movss	xmm3, dword ptr [rdx - 468]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	pand	xmm5, xmm15
+	insertps	xmm3, dword ptr [rdx - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	por	xmm4, xmm7
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm6, xmm2
+	pand	xmm6, xmm15
+	psubb	xmm6, xmm2
+	movss	xmm7, dword ptr [rdx - 464]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm6, xmm5
+	movss	xmm5, dword ptr [rdx - 460]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rdx - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpeqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm6
+	movss	xmm6, dword ptr [rdx - 456]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 3
+	pand	xmm7, xmm10
+	cmpeqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm7
+	movss	xmm2, dword ptr [rdx - 452]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm5, xmm3
+	movss	xmm7, dword ptr [rdx - 448]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpeqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [rdx - 444]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpeqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	psllw	xmm7, 7
+	pand	xmm7, xmm14
+	por	xmm7, xmm2
+	movss	xmm2, dword ptr [rdx - 440]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm7, xmm5
+	movss	xmm3, dword ptr [rdx - 436]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	pand	xmm6, xmm15
+	insertps	xmm3, dword ptr [rdx - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm7, xmm2
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm2
+	movss	xmm5, dword ptr [rdx - 432]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rdx - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	por	xmm7, xmm6
+	movss	xmm6, dword ptr [rdx - 428]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpeqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm7
+	movss	xmm7, dword ptr [rdx - 424]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpeqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 3
+	pand	xmm5, xmm10
+	cmpeqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 4
+	pand	xmm6, xmm11
+	por	xmm6, xmm5
+	movss	xmm2, dword ptr [rdx - 420]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm6, xmm3
+	movss	xmm5, dword ptr [rdx - 416]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rdx - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 5
+	pand	xmm7, xmm12
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm7
+	movss	xmm7, dword ptr [rdx - 412]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	cmpeqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	psllw	xmm5, 7
+	pand	xmm5, xmm14
+	por	xmm5, xmm2
+	movss	xmm2, dword ptr [rdx - 408]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	pand	xmm7, xmm15
+	insertps	xmm2, dword ptr [rdx - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm5, xmm6
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm6, xmm2
+	pand	xmm6, xmm15
+	psubb	xmm6, xmm2
+	movss	xmm3, dword ptr [rdx - 404]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rdx - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	por	xmm6, xmm7
+	movss	xmm2, dword ptr [rdx - 400]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	cmpeqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm6
+	movss	xmm6, dword ptr [rdx - 396]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 3
+	pand	xmm2, xmm10
+	cmpeqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 4
+	pand	xmm6, xmm11
+	por	xmm6, xmm2
+	movss	xmm7, dword ptr [rdx - 392]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm6, xmm3
+	movss	xmm2, dword ptr [rdx - 388]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
+	cmpeqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 5
+	pand	xmm7, xmm12
+	cmpeqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm7
+	movss	xmm3, dword ptr [rdx - 384]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rdx], 48       # xmm3 = xmm3[0,1,2],mem[0]
+	cmpeqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	psllw	xmm3, 7
+	pand	xmm3, xmm14
+	por	xmm3, xmm2
+	por	xmm3, xmm6
+	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
+	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
+	pshufb	xmm4, xmm9
+	movdqu	xmmword ptr [rax + 4*rcx], xmm4
+	add	rcx, 4
+	add	rdx, 512
+	cmp	r8, rcx
+	jne	.LBB2_198
+# %bb.199:
+	cmp	r14, r8
+	jne	.LBB2_127
+	jmp	.LBB2_147
+.Lfunc_end2:
+	.size	comparison_equal_scalar_arr_sse4, .Lfunc_end2-comparison_equal_scalar_arr_sse4
+                                        # -- End function
+	.globl	comparison_not_equal_arr_arr_sse4 # -- Begin function comparison_not_equal_arr_arr_sse4
+	.p2align	4, 0x90
+	.type	comparison_not_equal_arr_arr_sse4,@function
+comparison_not_equal_arr_arr_sse4:      # @comparison_not_equal_arr_arr_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -8
+	sub	rsp, 72
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r11, r8
+	mov	r14, rcx
+	cmp	edi, 6
+	jg	.LBB3_29
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB3_2
+# %bb.15:
+	cmp	edi, 4
+	je	.LBB3_68
+# %bb.16:
+	cmp	edi, 5
+	je	.LBB3_79
+# %bb.17:
+	cmp	edi, 6
+	jne	.LBB3_123
+# %bb.18:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_22
+# %bb.19:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_20:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_20
+# %bb.21:
+	add	r14, 1
+.LBB3_22:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_26
+# %bb.23:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_24:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	setne	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	setne	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	setne	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	setne	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	setne	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	setne	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	setne	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	setne	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	setne	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	setne	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB3_24
+# %bb.25:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB3_26:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.27:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_28:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rsi + 4*rcx]
+	cmp	edi, dword ptr [rdx + 4*rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_28
+	jmp	.LBB3_123
+.LBB3_29:
+	cmp	edi, 8
+	jle	.LBB3_30
+# %bb.43:
+	cmp	edi, 9
+	je	.LBB3_101
+# %bb.44:
+	cmp	edi, 11
+	je	.LBB3_112
+# %bb.45:
+	cmp	edi, 12
+	jne	.LBB3_123
+# %bb.46:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_50
+# %bb.47:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_48:                               # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	add	rsi, 8
+	ucomisd	xmm0, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_48
+# %bb.49:
+	add	r14, 1
+.LBB3_50:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_54
+# %bb.51:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_52:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	movsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	ucomisd	xmm1, qword ptr [rdx + 8]
+	setne	al
+	movsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 16]
+	movsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 24]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 32]
+	movsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 40]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 48]
+	movsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
+	setne	r13b
+	ucomisd	xmm0, qword ptr [rdx + 56]
+	setne	r15b
+	movsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 64]
+	movsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 72]
+	setne	cl
+	movsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 80]
+	movsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
+	setne	r9b
+	ucomisd	xmm0, qword ptr [rdx + 88]
+	setne	r11b
+	movsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 96]
+	movsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
+	setne	r10b
+	ucomisd	xmm0, qword ptr [rdx + 104]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 112]
+	movsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 120]
+	setne	bl
+	movsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 128]
+	movsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 136]
+	movsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
+	setne	r14b
+	ucomisd	xmm0, qword ptr [rdx + 144]
+	movsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
+	setne	r12b
+	ucomisd	xmm0, qword ptr [rdx + 152]
+	movsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 160]
+	movsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 168]
+	movsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 176]
+	movsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 184]
+	movsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
+	setne	r8b
+	ucomisd	xmm0, qword ptr [rdx + 192]
+	movsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 200]
+	movsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 208]
+	movsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 216]
+	movsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 224]
+	movsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 232]
+	movsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 240]
+	movsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	add	rsi, 256
+	ucomisd	xmm0, qword ptr [rdx + 248]
+	setne	dil
+	add	al, al
+	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r12b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB3_52
+# %bb.53:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB3_54:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.55:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_56:                               # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 8*rcx]
+	lea	r8, [rcx + 1]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_56
+	jmp	.LBB3_123
+.LBB3_2:
+	cmp	edi, 2
+	je	.LBB3_57
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB3_123
+# %bb.4:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_8
+# %bb.5:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_6:                                # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_6
+# %bb.7:
+	add	r14, 1
+.LBB3_8:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_12
+# %bb.9:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_10:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	setne	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	setne	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	setne	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	setne	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	setne	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	setne	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	setne	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	setne	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	setne	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	setne	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	setne	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB3_10
+# %bb.11:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB3_12:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.13:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_14:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rsi + rcx]
+	cmp	bl, byte ptr [rdx + rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_14
+	jmp	.LBB3_123
+.LBB3_30:
+	cmp	edi, 7
+	je	.LBB3_90
+# %bb.31:
+	cmp	edi, 8
+	jne	.LBB3_123
+# %bb.32:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_36
+# %bb.33:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_34:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_34
+# %bb.35:
+	add	r14, 1
+.LBB3_36:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_40
+# %bb.37:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_38:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	setne	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	setne	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	setne	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	setne	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	setne	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	setne	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	setne	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	setne	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	setne	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	setne	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB3_38
+# %bb.39:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB3_40:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.41:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_42:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rsi + 8*rcx]
+	cmp	rdi, qword ptr [rdx + 8*rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_42
+	jmp	.LBB3_123
+.LBB3_68:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_72
+# %bb.69:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_70:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_70
+# %bb.71:
+	add	r14, 1
+.LBB3_72:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_76
+# %bb.73:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_74:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	setne	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	setne	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	setne	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	setne	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	setne	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	setne	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	setne	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	setne	r12b
+	cmp	ax, word ptr [rdx + 40]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	setne	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	setne	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB3_74
+# %bb.75:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB3_76:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.77:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_78:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rsi + 2*rcx]
+	cmp	di, word ptr [rdx + 2*rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_78
+	jmp	.LBB3_123
+.LBB3_79:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_83
+# %bb.80:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_81:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_81
+# %bb.82:
+	add	r14, 1
+.LBB3_83:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_87
+# %bb.84:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_85:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	setne	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	setne	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	setne	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	setne	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	setne	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	setne	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	setne	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	setne	r12b
+	cmp	ax, word ptr [rdx + 40]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	setne	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	setne	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB3_85
+# %bb.86:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB3_87:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.88:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_89:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rsi + 2*rcx]
+	cmp	di, word ptr [rdx + 2*rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_89
+	jmp	.LBB3_123
+.LBB3_101:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_105
+# %bb.102:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_103:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_103
+# %bb.104:
+	add	r14, 1
+.LBB3_105:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_109
+# %bb.106:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_107:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	setne	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	setne	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	setne	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	setne	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	setne	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	setne	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	setne	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	setne	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	setne	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	setne	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB3_107
+# %bb.108:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB3_109:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.110:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_111:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rsi + 8*rcx]
+	cmp	rdi, qword ptr [rdx + 8*rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_111
+	jmp	.LBB3_123
+.LBB3_112:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_116
+# %bb.113:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_114:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	add	rsi, 4
+	ucomiss	xmm0, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_114
+# %bb.115:
+	add	r14, 1
+.LBB3_116:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_120
+# %bb.117:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_118:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	movss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	ucomiss	xmm1, dword ptr [rdx + 4]
+	setne	al
+	movss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 8]
+	movss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 12]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 16]
+	movss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 20]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 24]
+	movss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
+	setne	r13b
+	ucomiss	xmm0, dword ptr [rdx + 28]
+	setne	r15b
+	movss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 32]
+	movss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 36]
+	setne	cl
+	movss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 40]
+	movss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
+	setne	r9b
+	ucomiss	xmm0, dword ptr [rdx + 44]
+	setne	r11b
+	movss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 48]
+	movss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
+	setne	r10b
+	ucomiss	xmm0, dword ptr [rdx + 52]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 56]
+	movss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 60]
+	setne	bl
+	movss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 64]
+	movss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 68]
+	movss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
+	setne	r14b
+	ucomiss	xmm0, dword ptr [rdx + 72]
+	movss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
+	setne	r12b
+	ucomiss	xmm0, dword ptr [rdx + 76]
+	movss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 80]
+	movss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 84]
+	movss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 88]
+	movss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 92]
+	movss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
+	setne	r8b
+	ucomiss	xmm0, dword ptr [rdx + 96]
+	movss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 100]
+	movss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 104]
+	movss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 108]
+	movss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 112]
+	movss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 116]
+	movss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 120]
+	movss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	sub	rsi, -128
+	ucomiss	xmm0, dword ptr [rdx + 124]
+	setne	dil
+	add	al, al
+	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r12b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB3_118
+# %bb.119:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB3_120:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.121:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_122:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 4*rcx]
+	lea	r8, [rcx + 1]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_122
+	jmp	.LBB3_123
+.LBB3_57:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_61
+# %bb.58:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_59:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_59
+# %bb.60:
+	add	r14, 1
+.LBB3_61:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_65
+# %bb.62:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_63:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	setne	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	setne	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	setne	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	setne	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	setne	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	setne	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	setne	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	setne	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	setne	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	setne	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	setne	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB3_63
+# %bb.64:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB3_65:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.66:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_67:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rsi + rcx]
+	cmp	bl, byte ptr [rdx + rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_67
+	jmp	.LBB3_123
+.LBB3_90:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB3_94
+# %bb.91:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB3_92:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setne	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB3_92
+# %bb.93:
+	add	r14, 1
+.LBB3_94:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB3_98
+# %bb.95:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB3_96:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	setne	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	setne	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	setne	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	setne	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	setne	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	setne	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	setne	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	setne	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	setne	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	setne	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	setne	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	setne	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	setne	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	setne	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	setne	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	setne	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	setne	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	setne	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	setne	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	setne	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	setne	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	setne	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	setne	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	setne	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	setne	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	setne	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	setne	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	setne	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB3_96
+# %bb.97:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB3_98:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB3_123
+# %bb.99:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB3_100:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rsi + 4*rcx]
+	cmp	edi, dword ptr [rdx + 4*rcx]
+	setne	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB3_100
+.LBB3_123:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.Lfunc_end3:
+	.size	comparison_not_equal_arr_arr_sse4, .Lfunc_end3-comparison_not_equal_arr_arr_sse4
+                                        # -- End function
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4                               # -- Begin function comparison_not_equal_arr_scalar_sse4
+.LCPI4_0:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_1:
+	.zero	16,252
+.LCPI4_2:
+	.zero	16,248
+.LCPI4_3:
+	.zero	16,240
+.LCPI4_4:
+	.zero	16,224
+.LCPI4_5:
+	.zero	16,192
+.LCPI4_6:
+	.zero	16,128
+.LCPI4_7:
+	.byte	0                               # 0x0
+	.byte	8                               # 0x8
+	.byte	1                               # 0x1
+	.byte	9                               # 0x9
+	.byte	2                               # 0x2
+	.byte	10                              # 0xa
+	.byte	3                               # 0x3
+	.byte	11                              # 0xb
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+.LCPI4_8:
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_9:
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_10:
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_11:
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_12:
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_13:
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_14:
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_15:
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI4_16:
+	.zero	16,2
+.LCPI4_17:
+	.zero	16,4
+.LCPI4_18:
+	.zero	16,8
+.LCPI4_19:
+	.zero	16,16
+.LCPI4_20:
+	.zero	16,32
+.LCPI4_21:
+	.zero	16,64
+.LCPI4_22:
+	.zero	16,255
+	.text
+	.globl	comparison_not_equal_arr_scalar_sse4
+	.p2align	4, 0x90
+	.type	comparison_not_equal_arr_scalar_sse4,@function
+comparison_not_equal_arr_scalar_sse4:   # @comparison_not_equal_arr_scalar_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -16
+	sub	rsp, 304
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r15, r8
+	mov	r14, rcx
+	cmp	edi, 6
+	jg	.LBB4_17
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB4_32
+# %bb.2:
+	cmp	edi, 4
+	je	.LBB4_83
+# %bb.3:
+	cmp	edi, 5
+	je	.LBB4_95
+# %bb.4:
+	cmp	edi, 6
+	jne	.LBB4_179
+# %bb.5:
+	mov	r13d, dword ptr [rdx]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_9
+# %bb.6:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_7:                                # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	setne	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_7
+# %bb.8:
+	add	r14, 1
+.LBB4_9:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB4_13
+# %bb.10:
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_11:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	cmp	dword ptr [rsi], r13d
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	setne	dil
+	cmp	dword ptr [rsi + 8], r13d
+	setne	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	setne	al
+	cmp	dword ptr [rsi + 28], r13d
+	setne	bl
+	cmp	dword ptr [rsi + 32], r13d
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	setne	dl
+	cmp	dword ptr [rsi + 40], r13d
+	setne	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	setne	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	setne	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	setne	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	setne	cl
+	cmp	dword ptr [rsi + 64], r13d
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	setne	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	setne	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 128
+	add	r14, 4
+	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
+	jne	.LBB4_11
+# %bb.12:
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+.LBB4_13:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB4_179
+# %bb.14:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	je	.LBB4_82
+# %bb.15:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB4_16:                               # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	setne	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	setne	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB4_16
+	jmp	.LBB4_153
+.LBB4_17:
+	cmp	edi, 8
+	jle	.LBB4_46
+# %bb.18:
+	cmp	edi, 9
+	je	.LBB4_107
+# %bb.19:
+	cmp	edi, 11
+	je	.LBB4_118
+# %bb.20:
+	cmp	edi, 12
+	jne	.LBB4_179
+# %bb.21:
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB4_25
+# %bb.22:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_23:                               # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rsi]
+	lea	rsi, [rsi + 8]
+	setne	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_23
+# %bb.24:
+	add	r14, 1
+.LBB4_25:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB4_29
+# %bb.26:
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_27:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	ucomisd	xmm0, qword ptr [rsi]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 8]
+	setne	r9b
+	ucomisd	xmm0, qword ptr [rsi + 16]
+	setne	r14b
+	ucomisd	xmm0, qword ptr [rsi + 24]
+	setne	r13b
+	ucomisd	xmm0, qword ptr [rsi + 32]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 40]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 48]
+	setne	al
+	ucomisd	xmm0, qword ptr [rsi + 56]
+	setne	bl
+	ucomisd	xmm0, qword ptr [rsi + 64]
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 72]
+	setne	dl
+	ucomisd	xmm0, qword ptr [rsi + 80]
+	setne	dil
+	ucomisd	xmm0, qword ptr [rsi + 88]
+	setne	r10b
+	ucomisd	xmm0, qword ptr [rsi + 96]
+	setne	r11b
+	ucomisd	xmm0, qword ptr [rsi + 104]
+	setne	r12b
+	ucomisd	xmm0, qword ptr [rsi + 112]
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 120]
+	setne	cl
+	ucomisd	xmm0, qword ptr [rsi + 128]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 136]
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 144]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 152]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 160]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 168]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 176]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 184]
+	setne	r15b
+	ucomisd	xmm0, qword ptr [rsi + 192]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 200]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 208]
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 216]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 224]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 232]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 240]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 248]
+	setne	r8b
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r9b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r9d, edx
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 256
+	add	r14, 4
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB4_27
+# %bb.28:
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+.LBB4_29:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB4_179
+# %bb.30:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	jne	.LBB4_162
+# %bb.31:
+	xor	r11d, r11d
+	jmp	.LBB4_164
+.LBB4_32:
+	cmp	edi, 2
+	je	.LBB4_60
+# %bb.33:
+	cmp	edi, 3
+	jne	.LBB4_179
+# %bb.34:
+	mov	r11b, byte ptr [rdx]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_38
+# %bb.35:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_36:                               # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r11b
+	lea	rsi, [rsi + 1]
+	setne	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_36
+# %bb.37:
+	add	r14, 1
+.LBB4_38:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB4_130
+# %bb.39:
+	cmp	r10, 16
+	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	jb	.LBB4_42
+# %bb.40:
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB4_180
+# %bb.41:
+	lea	rax, [r14 + 4*r10]
+	cmp	rsi, rax
+	jae	.LBB4_180
+.LBB4_42:
+	xor	eax, eax
+	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
+.LBB4_43:
+	sub	r10, qword ptr [rsp + 240]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_44:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, rsi
+	cmp	byte ptr [rsi], r11b
+	setne	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	byte ptr [rsi + 1], r11b
+	setne	sil
+	cmp	byte ptr [rcx + 2], r11b
+	setne	r15b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 3], al
+	setne	r12b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 4], al
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 5], al
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 6], al
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 7], al
+	setne	r9b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 8], al
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 9], al
+	setne	dl
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 10], al
+	setne	dil
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 11], al
+	setne	r10b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 12], al
+	setne	r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 13], al
+	setne	r13b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 14], al
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 15], al
+	setne	r8b
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 16], bl
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 17], bl
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 18], bl
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 19], bl
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 20], bl
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 21], bl
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 22], bl
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 23], bl
+	setne	r11b
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 24], bl
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 25], bl
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 26], bl
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 27], bl
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 28], bl
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 29], bl
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 30], bl
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 31], bl
+	setne	bl
+	add	sil, sil
+	add	sil, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r9b, 7
+	or	r9b, al
+	shl	r15b, 2
+	or	r15b, sil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
+	shl	r12b, 3
+	or	r12b, r15b
+	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
+	shl	dil, 2
+	or	dil, dl
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, al
+	shl	r14b, 4
+	or	r14b, r10b
+	shl	r13b, 5
+	or	r13b, r14b
+	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r8b, 7
+	or	r8b, sil
+	or	r9b, dl
+	or	r8b, r13b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	esi, edx
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	mov	byte ptr [rdx], r9b
+	movzx	edi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r11b, 7
+	or	r11b, dil
+	mov	byte ptr [rdx + 1], r8b
+	or	r11b, sil
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	bl, 7
+	or	bl, sil
+	or	bl, al
+	mov	byte ptr [rdx + 2], r11b
+	mov	r11d, r15d
+	mov	byte ptr [rdx + 3], bl
+	lea	rsi, [rcx + 32]
+	add	rdx, 4
+	mov	qword ptr [rsp + 104], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB4_44
+# %bb.45:
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	jmp	.LBB4_131
+.LBB4_46:
+	cmp	edi, 7
+	je	.LBB4_72
+# %bb.47:
+	cmp	edi, 8
+	jne	.LBB4_179
+# %bb.48:
+	mov	r13, qword ptr [rdx]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_52
+# %bb.49:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_50:                               # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	setne	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_50
+# %bb.51:
+	add	r14, 1
+.LBB4_52:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB4_56
+# %bb.53:
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_54:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	cmp	qword ptr [rsi], r13
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	setne	dil
+	cmp	qword ptr [rsi + 16], r13
+	setne	r14b
+	cmp	qword ptr [rsi + 24], r13
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	setne	al
+	cmp	qword ptr [rsi + 56], r13
+	setne	bl
+	cmp	qword ptr [rsi + 64], r13
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	setne	dl
+	cmp	qword ptr [rsi + 80], r13
+	setne	r9b
+	cmp	qword ptr [rsi + 88], r13
+	setne	r10b
+	cmp	qword ptr [rsi + 96], r13
+	setne	r11b
+	cmp	qword ptr [rsi + 104], r13
+	setne	r12b
+	cmp	qword ptr [rsi + 112], r13
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	setne	cl
+	cmp	qword ptr [rsi + 128], r13
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	setne	r15b
+	cmp	qword ptr [rsi + 192], r13
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	setne	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 256
+	add	r14, 4
+	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
+	jne	.LBB4_54
+# %bb.55:
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+.LBB4_56:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB4_179
+# %bb.57:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	je	.LBB4_117
+# %bb.58:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB4_59:                               # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	setne	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	setne	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB4_59
+	jmp	.LBB4_168
+.LBB4_60:
+	mov	r11b, byte ptr [rdx]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_64
+# %bb.61:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_62:                               # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r11b
+	lea	rsi, [rsi + 1]
+	setne	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_62
+# %bb.63:
+	add	r14, 1
+.LBB4_64:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB4_134
+# %bb.65:
+	cmp	r10, 16
+	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 256], r10      # 8-byte Spill
+	jb	.LBB4_68
+# %bb.66:
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB4_183
+# %bb.67:
+	lea	rax, [r14 + 4*r10]
+	cmp	rsi, rax
+	jae	.LBB4_183
+.LBB4_68:
+	xor	eax, eax
+	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
+.LBB4_69:
+	sub	r10, qword ptr [rsp + 240]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_70:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, rsi
+	cmp	byte ptr [rsi], r11b
+	setne	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	byte ptr [rsi + 1], r11b
+	setne	sil
+	cmp	byte ptr [rcx + 2], r11b
+	setne	r15b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 3], al
+	setne	r12b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 4], al
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 5], al
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 6], al
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 7], al
+	setne	r9b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 8], al
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 9], al
+	setne	dl
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 10], al
+	setne	dil
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 11], al
+	setne	r10b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 12], al
+	setne	r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 13], al
+	setne	r13b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 14], al
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 15], al
+	setne	r8b
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 16], bl
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 17], bl
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 18], bl
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 19], bl
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 20], bl
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 21], bl
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 22], bl
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 23], bl
+	setne	r11b
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 24], bl
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 25], bl
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 26], bl
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 27], bl
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 28], bl
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 29], bl
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 30], bl
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 31], bl
+	setne	bl
+	add	sil, sil
+	add	sil, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r9b, 7
+	or	r9b, al
+	shl	r15b, 2
+	or	r15b, sil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
+	shl	r12b, 3
+	or	r12b, r15b
+	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
+	shl	dil, 2
+	or	dil, dl
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, al
+	shl	r14b, 4
+	or	r14b, r10b
+	shl	r13b, 5
+	or	r13b, r14b
+	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r8b, 7
+	or	r8b, sil
+	or	r9b, dl
+	or	r8b, r13b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	esi, edx
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	mov	byte ptr [rdx], r9b
+	movzx	edi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r11b, 7
+	or	r11b, dil
+	mov	byte ptr [rdx + 1], r8b
+	or	r11b, sil
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	bl, 7
+	or	bl, sil
+	or	bl, al
+	mov	byte ptr [rdx + 2], r11b
+	mov	r11d, r15d
+	mov	byte ptr [rdx + 3], bl
+	lea	rsi, [rcx + 32]
+	add	rdx, 4
+	mov	qword ptr [rsp + 104], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB4_70
+# %bb.71:
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
+	jmp	.LBB4_135
+.LBB4_72:
+	mov	r13d, dword ptr [rdx]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_76
+# %bb.73:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_74:                               # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	setne	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_74
+# %bb.75:
+	add	r14, 1
+.LBB4_76:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB4_80
+# %bb.77:
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_78:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	cmp	dword ptr [rsi], r13d
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	setne	dil
+	cmp	dword ptr [rsi + 8], r13d
+	setne	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	setne	al
+	cmp	dword ptr [rsi + 28], r13d
+	setne	bl
+	cmp	dword ptr [rsi + 32], r13d
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	setne	dl
+	cmp	dword ptr [rsi + 40], r13d
+	setne	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	setne	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	setne	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	setne	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	setne	cl
+	cmp	dword ptr [rsi + 64], r13d
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	setne	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	setne	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 128
+	add	r14, 4
+	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
+	jne	.LBB4_78
+# %bb.79:
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+.LBB4_80:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB4_179
+# %bb.81:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	jne	.LBB4_151
+.LBB4_82:
+	xor	r11d, r11d
+	jmp	.LBB4_153
+.LBB4_83:
+	movzx	r13d, word ptr [rdx]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_87
+# %bb.84:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_85:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	lea	rsi, [rsi + 2]
+	setne	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_85
+# %bb.86:
+	add	r14, 1
+.LBB4_87:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB4_138
+# %bb.88:
+	cmp	r10, 8
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	jb	.LBB4_91
+# %bb.89:
+	mov	rax, r10
+	shl	rax, 6
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB4_186
+# %bb.90:
+	lea	rax, [r14 + 4*r10]
+	cmp	rax, rsi
+	jbe	.LBB4_186
+.LBB4_91:
+	xor	eax, eax
+	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
+	mov	r12, r14
+.LBB4_92:
+	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
+	sub	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_93:                               # =>This Inner Loop Header: Depth=1
+	mov	r11, rsi
+	cmp	word ptr [rsi], r13w
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 2], r13w
+	setne	sil
+	cmp	word ptr [r11 + 4], r13w
+	setne	r15b
+	cmp	word ptr [r11 + 6], r13w
+	setne	r12b
+	cmp	word ptr [r11 + 8], r13w
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 10], r13w
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 12], r13w
+	setne	al
+	cmp	word ptr [r11 + 14], r13w
+	setne	bl
+	cmp	word ptr [r11 + 16], r13w
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 18], r13w
+	setne	cl
+	cmp	word ptr [r11 + 20], r13w
+	setne	r8b
+	cmp	word ptr [r11 + 22], r13w
+	setne	r9b
+	cmp	word ptr [r11 + 24], r13w
+	setne	r14b
+	cmp	word ptr [r11 + 26], r13w
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 28], r13w
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 30], r13w
+	setne	dil
+	cmp	word ptr [r11 + 32], r13w
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 34], r13w
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 36], r13w
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 38], r13w
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 40], r13w
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 42], r13w
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 44], r13w
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 46], r13w
+	setne	r10b
+	cmp	word ptr [r11 + 48], r13w
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 50], r13w
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 52], r13w
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 54], r13w
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 56], r13w
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 58], r13w
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 60], r13w
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 62], r13w
+	setne	dl
+	add	sil, sil
+	add	sil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r15b, 2
+	or	r15b, sil
+	add	cl, cl
+	add	cl, byte ptr [rsp + 192]        # 1-byte Folded Reload
+	shl	r12b, 3
+	or	r12b, r15b
+	shl	r8b, 2
+	or	r8b, cl
+	movzx	ecx, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r12b
+	mov	esi, ecx
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, sil
+	shl	r14b, 4
+	or	r14b, r9b
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	dil, 7
+	or	dil, sil
+	or	bl, cl
+	or	dil, al
+	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, sil
+	mov	esi, ecx
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	byte ptr [rcx], bl
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r10b, 7
+	or	r10b, bl
+	mov	byte ptr [rcx + 1], dil
+	or	r10b, sil
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rcx + 2], r10b
+	mov	byte ptr [rcx + 3], dl
+	lea	rsi, [r11 + 64]
+	add	rcx, 4
+	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
+	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
+	jne	.LBB4_93
+# %bb.94:
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	jmp	.LBB4_139
+.LBB4_95:
+	movzx	r13d, word ptr [rdx]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_99
+# %bb.96:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_97:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	lea	rsi, [rsi + 2]
+	setne	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_97
+# %bb.98:
+	add	r14, 1
+.LBB4_99:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB4_143
+# %bb.100:
+	cmp	r10, 8
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	jb	.LBB4_103
+# %bb.101:
+	mov	rax, r10
+	shl	rax, 6
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB4_189
+# %bb.102:
+	lea	rax, [r14 + 4*r10]
+	cmp	rax, rsi
+	jbe	.LBB4_189
+.LBB4_103:
+	xor	eax, eax
+	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
+	mov	r12, r14
+.LBB4_104:
+	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
+	sub	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_105:                              # =>This Inner Loop Header: Depth=1
+	mov	r11, rsi
+	cmp	word ptr [rsi], r13w
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 2], r13w
+	setne	sil
+	cmp	word ptr [r11 + 4], r13w
+	setne	r15b
+	cmp	word ptr [r11 + 6], r13w
+	setne	r12b
+	cmp	word ptr [r11 + 8], r13w
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 10], r13w
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 12], r13w
+	setne	al
+	cmp	word ptr [r11 + 14], r13w
+	setne	bl
+	cmp	word ptr [r11 + 16], r13w
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 18], r13w
+	setne	cl
+	cmp	word ptr [r11 + 20], r13w
+	setne	r8b
+	cmp	word ptr [r11 + 22], r13w
+	setne	r9b
+	cmp	word ptr [r11 + 24], r13w
+	setne	r14b
+	cmp	word ptr [r11 + 26], r13w
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 28], r13w
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 30], r13w
+	setne	dil
+	cmp	word ptr [r11 + 32], r13w
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 34], r13w
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 36], r13w
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 38], r13w
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 40], r13w
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 42], r13w
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 44], r13w
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 46], r13w
+	setne	r10b
+	cmp	word ptr [r11 + 48], r13w
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 50], r13w
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 52], r13w
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 54], r13w
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 56], r13w
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 58], r13w
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 60], r13w
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 62], r13w
+	setne	dl
+	add	sil, sil
+	add	sil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r15b, 2
+	or	r15b, sil
+	add	cl, cl
+	add	cl, byte ptr [rsp + 192]        # 1-byte Folded Reload
+	shl	r12b, 3
+	or	r12b, r15b
+	shl	r8b, 2
+	or	r8b, cl
+	movzx	ecx, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r12b
+	mov	esi, ecx
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, sil
+	shl	r14b, 4
+	or	r14b, r9b
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	dil, 7
+	or	dil, sil
+	or	bl, cl
+	or	dil, al
+	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, sil
+	mov	esi, ecx
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	byte ptr [rcx], bl
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r10b, 7
+	or	r10b, bl
+	mov	byte ptr [rcx + 1], dil
+	or	r10b, sil
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rcx + 2], r10b
+	mov	byte ptr [rcx + 3], dl
+	lea	rsi, [r11 + 64]
+	add	rcx, 4
+	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
+	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
+	jne	.LBB4_105
+# %bb.106:
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	jmp	.LBB4_144
+.LBB4_107:
+	mov	r13, qword ptr [rdx]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB4_111
+# %bb.108:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_109:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	setne	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_109
+# %bb.110:
+	add	r14, 1
+.LBB4_111:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB4_115
+# %bb.112:
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_113:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	cmp	qword ptr [rsi], r13
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	setne	dil
+	cmp	qword ptr [rsi + 16], r13
+	setne	r14b
+	cmp	qword ptr [rsi + 24], r13
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	setne	al
+	cmp	qword ptr [rsi + 56], r13
+	setne	bl
+	cmp	qword ptr [rsi + 64], r13
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	setne	dl
+	cmp	qword ptr [rsi + 80], r13
+	setne	r9b
+	cmp	qword ptr [rsi + 88], r13
+	setne	r10b
+	cmp	qword ptr [rsi + 96], r13
+	setne	r11b
+	cmp	qword ptr [rsi + 104], r13
+	setne	r12b
+	cmp	qword ptr [rsi + 112], r13
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	setne	cl
+	cmp	qword ptr [rsi + 128], r13
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	setne	r15b
+	cmp	qword ptr [rsi + 192], r13
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	setne	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 152]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 192]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 256
+	add	r14, 4
+	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
+	jne	.LBB4_113
+# %bb.114:
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+.LBB4_115:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB4_179
+# %bb.116:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	jne	.LBB4_166
+.LBB4_117:
+	xor	r11d, r11d
+	jmp	.LBB4_168
+.LBB4_118:
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB4_122
+# %bb.119:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB4_120:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rsi]
+	lea	rsi, [rsi + 4]
+	setne	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB4_120
+# %bb.121:
+	add	r14, 1
+.LBB4_122:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB4_147
+# %bb.123:
+	cmp	r10, 4
+	jb	.LBB4_126
+# %bb.124:
+	mov	rax, r10
+	shl	rax, 7
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB4_192
+# %bb.125:
+	lea	rax, [r14 + 4*r10]
+	cmp	rax, rsi
+	jbe	.LBB4_192
+.LBB4_126:
+	xor	r8d, r8d
+	mov	rbx, rsi
+	mov	r11, r14
+.LBB4_127:
+	mov	qword ptr [rsp + 8], r11        # 8-byte Spill
+	mov	qword ptr [rsp + 144], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	sub	r10, r8
+	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_128:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rbx]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 4]
+	setne	r8b
+	ucomiss	xmm0, dword ptr [rbx + 8]
+	setne	r14b
+	ucomiss	xmm0, dword ptr [rbx + 12]
+	setne	r13b
+	ucomiss	xmm0, dword ptr [rbx + 16]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 20]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 24]
+	setne	al
+	ucomiss	xmm0, dword ptr [rbx + 28]
+	setne	r11b
+	ucomiss	xmm0, dword ptr [rbx + 32]
+	setne	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 36]
+	setne	dl
+	ucomiss	xmm0, dword ptr [rbx + 40]
+	setne	sil
+	ucomiss	xmm0, dword ptr [rbx + 44]
+	setne	dil
+	ucomiss	xmm0, dword ptr [rbx + 48]
+	setne	r10b
+	ucomiss	xmm0, dword ptr [rbx + 52]
+	setne	r12b
+	ucomiss	xmm0, dword ptr [rbx + 56]
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 60]
+	setne	r9b
+	ucomiss	xmm0, dword ptr [rbx + 64]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 68]
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 72]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 76]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 80]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 84]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 88]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 92]
+	setne	r15b
+	ucomiss	xmm0, dword ptr [rbx + 96]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 100]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 104]
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 108]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 112]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 116]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 120]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 124]
+	setne	cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r15b, 7
+	or	r15b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r15b, dl
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 6
+	shl	cl, 7
+	or	cl, dl
+	or	cl, al
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], cl
+	add	rbx, 128
+	add	rsi, 4
+	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB4_128
+# %bb.129:
+	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	jmp	.LBB4_148
+.LBB4_130:
+	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
+.LBB4_131:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB4_179
+# %bb.132:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	je	.LBB4_137
+# %bb.155:
+	mov	r10, r8
+	and	r10, -2
+	xor	r9d, r9d
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB4_156:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r9
+	cmp	byte ptr [rsi + r9], r11b
+	setne	bl
+	neg	bl
+	mov	rdi, r9
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r14 + rdi], dl
+	cmp	byte ptr [rsi + rax + 1], r11b
+	lea	r9, [rax + 2]
+	setne	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r14 + rdi], al
+	cmp	r10, r9
+	jne	.LBB4_156
+	jmp	.LBB4_159
+.LBB4_134:
+	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
+.LBB4_135:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB4_179
+# %bb.136:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	jne	.LBB4_157
+.LBB4_137:
+	xor	r9d, r9d
+	test	r8b, 1
+	je	.LBB4_179
+	jmp	.LBB4_161
+.LBB4_138:
+	mov	r12, r14
+.LBB4_139:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB4_179
+# %bb.140:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	je	.LBB4_146
+# %bb.141:
+	mov	r9, r8
+	and	r9, -2
+	xor	r14d, r14d
+	.p2align	4, 0x90
+.LBB4_142:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, rsi
+	cmp	word ptr [rsi], r13w
+	setne	dl
+	neg	dl
+	mov	rdi, r14
+	shr	rdi, 3
+	movzx	r10d, byte ptr [r12 + rdi]
+	mov	ecx, r14d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	dl, r10b
+	and	bl, dl
+	xor	bl, r10b
+	mov	byte ptr [r12 + rdi], bl
+	add	r14, 2
+	cmp	word ptr [rsi + 2], r13w
+	lea	rsi, [rsi + 4]
+	setne	dl
+	neg	dl
+	xor	dl, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, bl
+	mov	byte ptr [r12 + rdi], al
+	cmp	r9, r14
+	jne	.LBB4_142
+	jmp	.LBB4_173
+.LBB4_143:
+	mov	r12, r14
+.LBB4_144:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB4_179
+# %bb.145:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	jne	.LBB4_171
+.LBB4_146:
+	xor	r14d, r14d
+	jmp	.LBB4_173
+.LBB4_147:
+	mov	r11, r14
+	mov	rbx, rsi
+.LBB4_148:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB4_179
+# %bb.149:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	jne	.LBB4_175
+# %bb.150:
+	xor	esi, esi
+	jmp	.LBB4_177
+.LBB4_151:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB4_152:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	setne	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	setne	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB4_152
+.LBB4_153:
+	test	r8b, 1
+	je	.LBB4_179
+# %bb.154:
+	cmp	dword ptr [rsi], r13d
+	jmp	.LBB4_170
+.LBB4_157:
+	mov	r10, r8
+	and	r10, -2
+	xor	r9d, r9d
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB4_158:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r9
+	cmp	byte ptr [rsi + r9], r11b
+	setne	bl
+	neg	bl
+	mov	rdi, r9
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r14 + rdi], dl
+	cmp	byte ptr [rsi + rax + 1], r11b
+	lea	r9, [rax + 2]
+	setne	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r14 + rdi], al
+	cmp	r10, r9
+	jne	.LBB4_158
+.LBB4_159:
+	add	rsi, r9
+	test	r8b, 1
+	je	.LBB4_179
+.LBB4_161:
+	cmp	byte ptr [rsi], r11b
+	setne	al
+	neg	al
+	mov	rdx, r9
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	r9b, 7
+	mov	bl, 1
+	mov	ecx, r9d
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r8 + rdx], bl
+	jmp	.LBB4_179
+.LBB4_162:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB4_163:                              # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rsi]
+	setne	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	al, r9b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	r11, 2
+	ucomisd	xmm0, qword ptr [rsi + 8]
+	lea	rsi, [rsi + 16]
+	setne	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB4_163
+.LBB4_164:
+	test	r8b, 1
+	je	.LBB4_179
+# %bb.165:
+	ucomisd	xmm0, qword ptr [rsi]
+	jmp	.LBB4_170
+.LBB4_166:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB4_167:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	setne	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	setne	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB4_167
+.LBB4_168:
+	test	r8b, 1
+	je	.LBB4_179
+# %bb.169:
+	cmp	qword ptr [rsi], r13
+.LBB4_170:
+	setne	al
+	neg	al
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	xor	bl, sil
+	mov	byte ptr [r14 + rdx], bl
+	jmp	.LBB4_179
+.LBB4_171:
+	mov	r9, r8
+	and	r9, -2
+	xor	r14d, r14d
+	.p2align	4, 0x90
+.LBB4_172:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, rsi
+	cmp	word ptr [rsi], r13w
+	setne	dl
+	neg	dl
+	mov	rdi, r14
+	shr	rdi, 3
+	movzx	r10d, byte ptr [r12 + rdi]
+	mov	ecx, r14d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	dl, r10b
+	and	bl, dl
+	xor	bl, r10b
+	mov	byte ptr [r12 + rdi], bl
+	add	r14, 2
+	cmp	word ptr [rsi + 2], r13w
+	lea	rsi, [rsi + 4]
+	setne	dl
+	neg	dl
+	xor	dl, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, bl
+	mov	byte ptr [r12 + rdi], al
+	cmp	r9, r14
+	jne	.LBB4_172
+.LBB4_173:
+	test	r8b, 1
+	je	.LBB4_179
+# %bb.174:
+	cmp	word ptr [rsi], r13w
+	setne	al
+	neg	al
+	mov	rdx, r14
+	shr	rdx, 3
+	mov	dil, byte ptr [r12 + rdx]
+	and	r14b, 7
+	mov	bl, 1
+	mov	ecx, r14d
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r12 + rdx], bl
+	jmp	.LBB4_179
+.LBB4_175:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r14, r11
+	.p2align	4, 0x90
+.LBB4_176:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rbx]
+	setne	dl
+	neg	dl
+	mov	rdi, rsi
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	mov	ecx, esi
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	add	rsi, 2
+	ucomiss	xmm0, dword ptr [rbx + 4]
+	lea	rbx, [rbx + 8]
+	setne	r9b
+	neg	r9b
+	xor	r9b, al
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, r9b
+	xor	dl, al
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, rsi
+	jne	.LBB4_176
+.LBB4_177:
+	test	r8b, 1
+	je	.LBB4_179
+# %bb.178:
+	ucomiss	xmm0, dword ptr [rbx]
+	setne	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	dil, byte ptr [r11 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r11 + rdx], bl
+.LBB4_179:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.LBB4_180:
+	and	r10, -16
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
+	lea	rax, [r14 + 4*r10]
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	movzx	eax, r11b
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 256], xmm1   # 16-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_181:                              # =>This Inner Loop Header: Depth=1
+	mov	r9, rax
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	mov	rcx, rax
+	shl	rcx, 5
+	mov	r11, rcx
+	mov	r8, rcx
+	mov	r14, rcx
+	mov	r13, rcx
+	mov	rbx, rcx
+	mov	r12, rcx
+	mov	r15, rcx
+	mov	rdi, rcx
+	mov	r9, rcx
+	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
+	mov	rax, rcx
+	mov	rdx, rcx
+	movzx	ecx, byte ptr [rsi + rcx]
+	movd	xmm4, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 1]
+	movd	xmm3, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 2]
+	movd	xmm5, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 3]
+	movd	xmm7, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 4]
+	movd	xmm1, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 5]
+	movd	xmm2, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 6]
+	movd	xmm8, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 7]
+	movd	xmm14, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 8]
+	movd	xmm9, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 9]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + rdx + 10]
+	movd	xmm12, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 11]
+	movd	xmm13, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 12]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + rdx + 13]
+	movd	xmm11, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 14]
+	movd	xmm15, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 15]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 176], xmm0   # 16-byte Spill
+	mov	qword ptr [rsp + 24], rdx       # 8-byte Spill
+	mov	rcx, rdx
+	or	rcx, 32
+	mov	qword ptr [rsp + 40], rcx       # 8-byte Spill
+	or	r11, 64
+	mov	qword ptr [rsp + 112], r11      # 8-byte Spill
+	or	r8, 96
+	mov	qword ptr [rsp + 64], r8        # 8-byte Spill
+	or	r14, 128
+	or	r13, 160
+	mov	r10, rbx
+	or	r10, 192
+	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
+	or	r12, 224
+	or	r15, 256
+	or	rdi, 288
+	mov	qword ptr [rsp + 192], rdi      # 8-byte Spill
+	or	r9, 320
+	mov	qword ptr [rsp + 32], r9        # 8-byte Spill
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	or	rbx, 352
+	mov	qword ptr [rsp + 48], rbx       # 8-byte Spill
+	or	rax, 384
+	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
+	mov	rax, rdx
+	or	rax, 416
+	mov	rcx, rdx
+	or	rcx, 448
+	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
+	mov	rcx, rdx
+	or	rcx, 480
+	mov	qword ptr [rsp + 56], rcx       # 8-byte Spill
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdx], 1
+	pinsrb	xmm4, byte ptr [rsi + r11], 2
+	pinsrb	xmm4, byte ptr [rsi + r8], 3
+	pinsrb	xmm4, byte ptr [rsi + r14], 4
+	pinsrb	xmm4, byte ptr [rsi + r13], 5
+	pinsrb	xmm4, byte ptr [rsi + r10], 6
+	pinsrb	xmm4, byte ptr [rsi + r12], 7
+	pinsrb	xmm4, byte ptr [rsi + r15], 8
+	pinsrb	xmm4, byte ptr [rsi + rdi], 9
+	pinsrb	xmm4, byte ptr [rsi + r9], 10
+	pinsrb	xmm4, byte ptr [rsi + rbx], 11
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdx], 12
+	pinsrb	xmm4, byte ptr [rsi + rax], 13
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rbx], 14
+	pinsrb	xmm4, byte ptr [rsi + rcx], 15
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rbx + 1], 1
+	pinsrb	xmm3, byte ptr [rsi + r11 + 1], 2
+	pinsrb	xmm3, byte ptr [rsi + r8 + 1], 3
+	pinsrb	xmm3, byte ptr [rsi + r14 + 1], 4
+	pinsrb	xmm3, byte ptr [rsi + r13 + 1], 5
+	mov	r11, r13
+	pinsrb	xmm3, byte ptr [rsi + r10 + 1], 6
+	pinsrb	xmm3, byte ptr [rsi + r12 + 1], 7
+	mov	r13, r12
+	pinsrb	xmm3, byte ptr [rsi + r15 + 1], 8
+	pinsrb	xmm3, byte ptr [rsi + rdi + 1], 9
+	pinsrb	xmm3, byte ptr [rsi + r9 + 1], 10
+	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r12 + 1], 11
+	pinsrb	xmm3, byte ptr [rsi + rdx + 1], 12
+	pinsrb	xmm3, byte ptr [rsi + rax + 1], 13
+	mov	r8, rax
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rax + 1], 14
+	movdqa	xmm6, xmmword ptr [rsp + 256]   # 16-byte Reload
+	pcmpeqb	xmm4, xmm6
+	pinsrb	xmm3, byte ptr [rsi + rcx + 1], 15
+	pcmpeqb	xmm3, xmm6
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	pandn	xmm3, xmm0
+	paddb	xmm3, xmm4
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 16]
+	movd	xmm10, edx
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 2], 1
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r10 + 2], 2
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rdi + 2], 3
+	pinsrb	xmm5, byte ptr [rsi + r14 + 2], 4
+	pinsrb	xmm5, byte ptr [rsi + r11 + 2], 5
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r9 + 2], 6
+	mov	rbx, r13
+	pinsrb	xmm5, byte ptr [rsi + r13 + 2], 7
+	pinsrb	xmm5, byte ptr [rsi + r15 + 2], 8
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rdx + 2], 9
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 2], 10
+	pinsrb	xmm5, byte ptr [rsi + r12 + 2], 11
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rcx + 2], 12
+	pinsrb	xmm5, byte ptr [rsi + r8 + 2], 13
+	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r13 + 2], 14
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r8 + 2], 15
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 3], 1
+	pinsrb	xmm7, byte ptr [rsi + r10 + 3], 2
+	pinsrb	xmm7, byte ptr [rsi + rdi + 3], 3
+	pinsrb	xmm7, byte ptr [rsi + r14 + 3], 4
+	pinsrb	xmm7, byte ptr [rsi + r11 + 3], 5
+	pinsrb	xmm7, byte ptr [rsi + r9 + 3], 6
+	pinsrb	xmm7, byte ptr [rsi + rbx + 3], 7
+	pinsrb	xmm7, byte ptr [rsi + r15 + 3], 8
+	pinsrb	xmm7, byte ptr [rsi + rdx + 3], 9
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 3], 10
+	pinsrb	xmm7, byte ptr [rsi + r12 + 3], 11
+	pinsrb	xmm7, byte ptr [rsi + rcx + 3], 12
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 3], 13
+	pinsrb	xmm7, byte ptr [rsi + r13 + 3], 14
+	pinsrb	xmm7, byte ptr [rsi + r8 + 3], 15
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + rax + 4], 1
+	pinsrb	xmm1, byte ptr [rsi + r10 + 4], 2
+	pinsrb	xmm1, byte ptr [rsi + rdi + 4], 3
+	pinsrb	xmm1, byte ptr [rsi + r14 + 4], 4
+	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 5
+	mov	rax, r11
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	pinsrb	xmm1, byte ptr [rsi + r9 + 4], 6
+	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 7
+	mov	rdi, rbx
+	pinsrb	xmm1, byte ptr [rsi + r15 + 4], 8
+	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 9
+	mov	rbx, rdx
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 10
+	pinsrb	xmm1, byte ptr [rsi + r12 + 4], 11
+	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 12
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 13
+	pinsrb	xmm1, byte ptr [rsi + r13 + 4], 14
+	pinsrb	xmm1, byte ptr [rsi + r8 + 4], 15
+	pcmpeqb	xmm5, xmm6
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pandn	xmm5, xmm0
+	pcmpeqb	xmm7, xmm6
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pandn	xmm7, xmm0
+	por	xmm7, xmm5
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rcx + 17]
+	movd	xmm4, edx
+	pcmpeqb	xmm1, xmm6
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm1, xmm0
+	por	xmm1, xmm7
+	movzx	edx, byte ptr [rsi + rcx + 18]
+	movd	xmm7, edx
+	pcmpeqd	xmm0, xmm0
+	psubb	xmm3, xmm0
+	por	xmm1, xmm3
+	movzx	edx, byte ptr [rsi + rcx + 19]
+	movd	xmm5, edx
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rdx + 5], 1
+	pinsrb	xmm2, byte ptr [rsi + r10 + 5], 2
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rcx + 5], 3
+	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
+	pinsrb	xmm2, byte ptr [rsi + r14 + 5], 4
+	pinsrb	xmm2, byte ptr [rsi + rax + 5], 5
+	mov	r12, r9
+	pinsrb	xmm2, byte ptr [rsi + r9 + 5], 6
+	mov	qword ptr [rsp + 160], rdi      # 8-byte Spill
+	pinsrb	xmm2, byte ptr [rsi + rdi + 5], 7
+	pinsrb	xmm2, byte ptr [rsi + r15 + 5], 8
+	mov	r9, rbx
+	pinsrb	xmm2, byte ptr [rsi + rbx + 5], 9
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rax + 5], 10
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rcx + 5], 11
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r13 + 5], 12
+	mov	r8, r11
+	pinsrb	xmm2, byte ptr [rsi + r11 + 5], 13
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rcx + 5], 14
+	mov	r11, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r11 + 5], 15
+	pinsrb	xmm8, byte ptr [rsi + rdx + 6], 1
+	pinsrb	xmm8, byte ptr [rsi + r10 + 6], 2
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rbx + 6], 3
+	pinsrb	xmm8, byte ptr [rsi + r14 + 6], 4
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rbx + 6], 5
+	pinsrb	xmm8, byte ptr [rsi + r12 + 6], 6
+	pinsrb	xmm8, byte ptr [rsi + rdi + 6], 7
+	pinsrb	xmm8, byte ptr [rsi + r15 + 6], 8
+	pinsrb	xmm8, byte ptr [rsi + r9 + 6], 9
+	pinsrb	xmm8, byte ptr [rsi + rax + 6], 10
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rbx + 6], 11
+	pinsrb	xmm8, byte ptr [rsi + r13 + 6], 12
+	pinsrb	xmm8, byte ptr [rsi + r8 + 6], 13
+	pinsrb	xmm8, byte ptr [rsi + rcx + 6], 14
+	pinsrb	xmm8, byte ptr [rsi + r11 + 6], 15
+	mov	rcx, r11
+	pinsrb	xmm14, byte ptr [rsi + rdx + 7], 1
+	pinsrb	xmm14, byte ptr [rsi + r10 + 7], 2
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdx + 7], 3
+	pinsrb	xmm14, byte ptr [rsi + r14 + 7], 4
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r11 + 7], 5
+	pinsrb	xmm14, byte ptr [rsi + r12 + 7], 6
+	pinsrb	xmm14, byte ptr [rsi + rdi + 7], 7
+	pinsrb	xmm14, byte ptr [rsi + r15 + 7], 8
+	mov	r12, r15
+	mov	qword ptr [rsp + 96], r15       # 8-byte Spill
+	pinsrb	xmm14, byte ptr [rsi + r9 + 7], 9
+	pinsrb	xmm14, byte ptr [rsi + rax + 7], 10
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rbx + 7], 11
+	pinsrb	xmm14, byte ptr [rsi + r13 + 7], 12
+	mov	r14, r13
+	mov	rdi, r8
+	pinsrb	xmm14, byte ptr [rsi + r8 + 7], 13
+	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r13 + 7], 14
+	pcmpeqb	xmm2, xmm6
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm2, xmm0
+	pcmpeqb	xmm8, xmm6
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm8, xmm0
+	por	xmm8, xmm2
+	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
+	movzx	edx, byte ptr [rsi + r9 + 20]
+	movd	xmm3, edx
+	mov	rax, rcx
+	pinsrb	xmm14, byte ptr [rsi + rcx + 7], 15
+	pcmpeqb	xmm14, xmm6
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pandn	xmm14, xmm0
+	por	xmm14, xmm8
+	movzx	edx, byte ptr [rsi + r9 + 21]
+	movd	xmm2, edx
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rcx + 8], 1
+	pinsrb	xmm9, byte ptr [rsi + r10 + 8], 2
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + r8 + 8], 3
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rdx + 8], 4
+	pinsrb	xmm9, byte ptr [rsi + r11 + 8], 5
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rdx + 8], 6
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + r15 + 8], 7
+	pinsrb	xmm9, byte ptr [rsi + r12 + 8], 8
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + r12 + 8], 9
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rdx + 8], 10
+	pinsrb	xmm9, byte ptr [rsi + rbx + 8], 11
+	pinsrb	xmm9, byte ptr [rsi + r14 + 8], 12
+	pinsrb	xmm9, byte ptr [rsi + rdi + 8], 13
+	pinsrb	xmm9, byte ptr [rsi + r13 + 8], 14
+	pinsrb	xmm9, byte ptr [rsi + rax + 8], 15
+	por	xmm14, xmm1
+	movdqa	xmmword ptr [rsp + 272], xmm14  # 16-byte Spill
+	movzx	edx, byte ptr [rsi + r9 + 22]
+	movd	xmm1, edx
+	movdqa	xmm0, xmm6
+	pcmpeqb	xmm9, xmm6
+	movdqa	xmm14, xmmword ptr [rsp + 208]  # 16-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rcx + 9], 1
+	pinsrb	xmm14, byte ptr [rsi + r10 + 9], 2
+	pinsrb	xmm14, byte ptr [rsi + r8 + 9], 3
+	mov	rax, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rax + 9], 4
+	pinsrb	xmm14, byte ptr [rsi + r11 + 9], 5
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdx + 9], 6
+	mov	rdi, r15
+	pinsrb	xmm14, byte ptr [rsi + r15 + 9], 7
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r15 + 9], 8
+	mov	r9, r12
+	pinsrb	xmm14, byte ptr [rsi + r12 + 9], 9
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r13 + 9], 10
+	pinsrb	xmm14, byte ptr [rsi + rbx + 9], 11
+	mov	r12, r14
+	pinsrb	xmm14, byte ptr [rsi + r14 + 9], 12
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r14 + 9], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rax + 9], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rax + 9], 15
+	mov	r10, rcx
+	pinsrb	xmm12, byte ptr [rsi + rcx + 10], 1
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rcx + 10], 2
+	pinsrb	xmm12, byte ptr [rsi + r8 + 10], 3
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rcx + 10], 4
+	pinsrb	xmm12, byte ptr [rsi + r11 + 10], 5
+	pinsrb	xmm12, byte ptr [rsi + rdx + 10], 6
+	pinsrb	xmm12, byte ptr [rsi + rdi + 10], 7
+	pinsrb	xmm12, byte ptr [rsi + r15 + 10], 8
+	pinsrb	xmm12, byte ptr [rsi + r9 + 10], 9
+	pinsrb	xmm12, byte ptr [rsi + r13 + 10], 10
+	pinsrb	xmm12, byte ptr [rsi + rbx + 10], 11
+	pinsrb	xmm12, byte ptr [rsi + r12 + 10], 12
+	pinsrb	xmm12, byte ptr [rsi + r14 + 10], 13
+	mov	r14, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + r14 + 10], 14
+	pinsrb	xmm12, byte ptr [rsi + rax + 10], 15
+	pinsrb	xmm13, byte ptr [rsi + r10 + 11], 1
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + r10 + 11], 2
+	pinsrb	xmm13, byte ptr [rsi + r8 + 11], 3
+	pinsrb	xmm13, byte ptr [rsi + rcx + 11], 4
+	pinsrb	xmm13, byte ptr [rsi + r11 + 11], 5
+	pinsrb	xmm13, byte ptr [rsi + rdx + 11], 6
+	pinsrb	xmm13, byte ptr [rsi + rdi + 11], 7
+	pinsrb	xmm13, byte ptr [rsi + r15 + 11], 8
+	pinsrb	xmm13, byte ptr [rsi + r9 + 11], 9
+	pinsrb	xmm13, byte ptr [rsi + r13 + 11], 10
+	pinsrb	xmm13, byte ptr [rsi + rbx + 11], 11
+	mov	r15, rbx
+	pinsrb	xmm13, byte ptr [rsi + r12 + 11], 12
+	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + r13 + 11], 13
+	pinsrb	xmm13, byte ptr [rsi + r14 + 11], 14
+	pinsrb	xmm13, byte ptr [rsi + rax + 11], 15
+	pcmpeqb	xmm14, xmm6
+	pandn	xmm14, xmmword ptr [rip + .LCPI4_16]
+	paddb	xmm14, xmm9
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 23]
+	movd	xmm8, edx
+	pcmpeqb	xmm12, xmm6
+	pandn	xmm12, xmmword ptr [rip + .LCPI4_17]
+	pcmpeqb	xmm13, xmm6
+	pandn	xmm13, xmmword ptr [rip + .LCPI4_18]
+	por	xmm13, xmm12
+	movzx	edx, byte ptr [rsi + rax + 24]
+	movd	xmm12, edx
+	movdqa	xmm9, xmmword ptr [rsp + 224]   # 16-byte Reload
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rax + 12], 1
+	pinsrb	xmm9, byte ptr [rsi + r10 + 12], 2
+	mov	rax, r8
+	pinsrb	xmm9, byte ptr [rsi + r8 + 12], 3
+	mov	r14, rcx
+	pinsrb	xmm9, byte ptr [rsi + rcx + 12], 4
+	mov	r8, r11
+	pinsrb	xmm9, byte ptr [rsi + r11 + 12], 5
+	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + r11 + 12], 6
+	mov	rbx, rdi
+	pinsrb	xmm9, byte ptr [rsi + rdi + 12], 7
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rcx + 12], 8
+	pinsrb	xmm9, byte ptr [rsi + r9 + 12], 9
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rdi + 12], 10
+	pinsrb	xmm9, byte ptr [rsi + r15 + 12], 11
+	pinsrb	xmm9, byte ptr [rsi + r12 + 12], 12
+	pinsrb	xmm9, byte ptr [rsi + r13 + 12], 13
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rdx + 12], 14
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rdx + 12], 15
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdx + 13], 1
+	pinsrb	xmm11, byte ptr [rsi + r10 + 13], 2
+	pinsrb	xmm11, byte ptr [rsi + rax + 13], 3
+	pinsrb	xmm11, byte ptr [rsi + r14 + 13], 4
+	pinsrb	xmm11, byte ptr [rsi + r8 + 13], 5
+	pinsrb	xmm11, byte ptr [rsi + r11 + 13], 6
+	pinsrb	xmm11, byte ptr [rsi + rbx + 13], 7
+	pinsrb	xmm11, byte ptr [rsi + rcx + 13], 8
+	pinsrb	xmm11, byte ptr [rsi + r9 + 13], 9
+	pinsrb	xmm11, byte ptr [rsi + rdi + 13], 10
+	pinsrb	xmm11, byte ptr [rsi + r15 + 13], 11
+	pinsrb	xmm11, byte ptr [rsi + r12 + 13], 12
+	pinsrb	xmm11, byte ptr [rsi + r13 + 13], 13
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdx + 13], 14
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdx + 13], 15
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rdx + 14], 1
+	pinsrb	xmm15, byte ptr [rsi + r10 + 14], 2
+	pinsrb	xmm15, byte ptr [rsi + rax + 14], 3
+	pinsrb	xmm15, byte ptr [rsi + r14 + 14], 4
+	pinsrb	xmm15, byte ptr [rsi + r8 + 14], 5
+	pinsrb	xmm15, byte ptr [rsi + r11 + 14], 6
+	pinsrb	xmm15, byte ptr [rsi + rbx + 14], 7
+	pinsrb	xmm15, byte ptr [rsi + rcx + 14], 8
+	pinsrb	xmm15, byte ptr [rsi + r9 + 14], 9
+	pinsrb	xmm15, byte ptr [rsi + rdi + 14], 10
+	pinsrb	xmm15, byte ptr [rsi + r15 + 14], 11
+	pinsrb	xmm15, byte ptr [rsi + r12 + 14], 12
+	pinsrb	xmm15, byte ptr [rsi + r13 + 14], 13
+	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + r15 + 14], 14
+	pcmpeqb	xmm9, xmm6
+	pandn	xmm9, xmmword ptr [rip + .LCPI4_19]
+	por	xmm9, xmm13
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rcx + 25]
+	movd	xmm13, edx
+	psubb	xmm14, xmmword ptr [rip + .LCPI4_22]
+	por	xmm9, xmm14
+	movzx	edx, byte ptr [rsi + rcx + 26]
+	movd	xmm0, edx
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rax + 14], 15
+	pcmpeqb	xmm11, xmm6
+	pandn	xmm11, xmmword ptr [rip + .LCPI4_20]
+	pcmpeqb	xmm15, xmm6
+	movdqa	xmm14, xmm6
+	pandn	xmm15, xmmword ptr [rip + .LCPI4_21]
+	por	xmm15, xmm11
+	movzx	edx, byte ptr [rsi + rcx + 27]
+	movd	xmm11, edx
+	movdqa	xmm6, xmmword ptr [rsp + 176]   # 16-byte Reload
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r11 + 15], 1
+	pinsrb	xmm6, byte ptr [rsi + r10 + 15], 2
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rbx + 15], 3
+	pinsrb	xmm6, byte ptr [rsi + r14 + 15], 4
+	pinsrb	xmm6, byte ptr [rsi + r8 + 15], 5
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r12 + 15], 6
+	mov	rcx, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 7
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 8
+	pinsrb	xmm6, byte ptr [rsi + r9 + 15], 9
+	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 10
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 11
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r14 + 15], 12
+	pinsrb	xmm6, byte ptr [rsi + r13 + 15], 13
+	pinsrb	xmm6, byte ptr [rsi + r15 + 15], 14
+	pinsrb	xmm6, byte ptr [rsi + rax + 15], 15
+	pcmpeqb	xmm6, xmm14
+	pandn	xmm6, xmmword ptr [rip + .LCPI4_6]
+	por	xmm6, xmm15
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 28]
+	movd	xmm15, edx
+	por	xmm6, xmm9
+	movdqa	xmmword ptr [rsp + 176], xmm6   # 16-byte Spill
+	movzx	edx, byte ptr [rsi + rax + 29]
+	movd	xmm9, edx
+	pinsrb	xmm10, byte ptr [rsi + r11 + 16], 1
+	pinsrb	xmm10, byte ptr [rsi + r10 + 16], 2
+	pinsrb	xmm10, byte ptr [rsi + rbx + 16], 3
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r13 + 16], 4
+	pinsrb	xmm10, byte ptr [rsi + r8 + 16], 5
+	pinsrb	xmm10, byte ptr [rsi + r12 + 16], 6
+	mov	r12, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r12 + 16], 7
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdx + 16], 8
+	pinsrb	xmm10, byte ptr [rsi + r9 + 16], 9
+	pinsrb	xmm10, byte ptr [rsi + rdi + 16], 10
+	pinsrb	xmm10, byte ptr [rsi + rcx + 16], 11
+	pinsrb	xmm10, byte ptr [rsi + r14 + 16], 12
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r14 + 16], 13
+	pinsrb	xmm10, byte ptr [rsi + r15 + 16], 14
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rax + 16], 15
+	pinsrb	xmm4, byte ptr [rsi + r11 + 17], 1
+	pinsrb	xmm4, byte ptr [rsi + r10 + 17], 2
+	pinsrb	xmm4, byte ptr [rsi + rbx + 17], 3
+	mov	r10, r13
+	pinsrb	xmm4, byte ptr [rsi + r13 + 17], 4
+	pinsrb	xmm4, byte ptr [rsi + r8 + 17], 5
+	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r11 + 17], 6
+	mov	rbx, r12
+	pinsrb	xmm4, byte ptr [rsi + r12 + 17], 7
+	pinsrb	xmm4, byte ptr [rsi + rdx + 17], 8
+	pinsrb	xmm4, byte ptr [rsi + r9 + 17], 9
+	pinsrb	xmm4, byte ptr [rsi + rdi + 17], 10
+	pinsrb	xmm4, byte ptr [rsi + rcx + 17], 11
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rcx + 17], 12
+	mov	r13, r14
+	pinsrb	xmm4, byte ptr [rsi + r14 + 17], 13
+	pinsrb	xmm4, byte ptr [rsi + r15 + 17], 14
+	mov	r12, r15
+	pinsrb	xmm4, byte ptr [rsi + rax + 17], 15
+	mov	r15, rax
+	movdqa	xmm6, xmm14
+	pcmpeqb	xmm10, xmm14
+	pcmpeqb	xmm4, xmm14
+	pandn	xmm4, xmmword ptr [rip + .LCPI4_16]
+	paddb	xmm4, xmm10
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rdi + 30]
+	movd	xmm10, edx
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 18], 1
+	pinsrb	xmm5, byte ptr [rsi + rax + 19], 1
+	pinsrb	xmm3, byte ptr [rsi + rax + 20], 1
+	pinsrb	xmm2, byte ptr [rsi + rax + 21], 1
+	pinsrb	xmm1, byte ptr [rsi + rax + 22], 1
+	pinsrb	xmm8, byte ptr [rsi + rax + 23], 1
+	pinsrb	xmm12, byte ptr [rsi + rax + 24], 1
+	pinsrb	xmm13, byte ptr [rsi + rax + 25], 1
+	pinsrb	xmm0, byte ptr [rsi + rax + 26], 1
+	pinsrb	xmm11, byte ptr [rsi + rax + 27], 1
+	pinsrb	xmm15, byte ptr [rsi + rax + 28], 1
+	pinsrb	xmm9, byte ptr [rsi + rax + 29], 1
+	pinsrb	xmm10, byte ptr [rsi + rax + 30], 1
+	movzx	edx, byte ptr [rsi + rdi + 31]
+	movd	xmm6, edx
+	pinsrb	xmm6, byte ptr [rsi + rax + 31], 1
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 2
+	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 2
+	pinsrb	xmm3, byte ptr [rsi + rdx + 20], 2
+	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 2
+	pinsrb	xmm1, byte ptr [rsi + rdx + 22], 2
+	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 2
+	pinsrb	xmm12, byte ptr [rsi + rdx + 24], 2
+	pinsrb	xmm13, byte ptr [rsi + rdx + 25], 2
+	pinsrb	xmm0, byte ptr [rsi + rdx + 26], 2
+	pinsrb	xmm11, byte ptr [rsi + rdx + 27], 2
+	pinsrb	xmm15, byte ptr [rsi + rdx + 28], 2
+	pinsrb	xmm9, byte ptr [rsi + rdx + 29], 2
+	pinsrb	xmm10, byte ptr [rsi + rdx + 30], 2
+	pinsrb	xmm6, byte ptr [rsi + rdx + 31], 2
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 3
+	mov	r14, r10
+	pinsrb	xmm7, byte ptr [rsi + r10 + 18], 4
+	pinsrb	xmm7, byte ptr [rsi + r8 + 18], 5
+	pinsrb	xmm7, byte ptr [rsi + r11 + 18], 6
+	pinsrb	xmm7, byte ptr [rsi + rbx + 18], 7
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 18], 8
+	pinsrb	xmm7, byte ptr [rsi + r9 + 18], 9
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdi + 18], 10
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + r10 + 18], 11
+	pinsrb	xmm7, byte ptr [rsi + rcx + 18], 12
+	pinsrb	xmm7, byte ptr [rsi + r13 + 18], 13
+	pinsrb	xmm7, byte ptr [rsi + r12 + 18], 14
+	pinsrb	xmm7, byte ptr [rsi + r15 + 18], 15
+	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 3
+	pinsrb	xmm5, byte ptr [rsi + r14 + 19], 4
+	pinsrb	xmm5, byte ptr [rsi + r8 + 19], 5
+	pinsrb	xmm5, byte ptr [rsi + r11 + 19], 6
+	pinsrb	xmm5, byte ptr [rsi + rbx + 19], 7
+	pinsrb	xmm5, byte ptr [rsi + rax + 19], 8
+	pinsrb	xmm5, byte ptr [rsi + r9 + 19], 9
+	pinsrb	xmm5, byte ptr [rsi + rdi + 19], 10
+	pinsrb	xmm5, byte ptr [rsi + r10 + 19], 11
+	pinsrb	xmm5, byte ptr [rsi + rcx + 19], 12
+	pinsrb	xmm5, byte ptr [rsi + r13 + 19], 13
+	pinsrb	xmm5, byte ptr [rsi + r12 + 19], 14
+	pinsrb	xmm5, byte ptr [rsi + r15 + 19], 15
+	pinsrb	xmm3, byte ptr [rsi + rdx + 20], 3
+	pinsrb	xmm3, byte ptr [rsi + r14 + 20], 4
+	pinsrb	xmm3, byte ptr [rsi + r8 + 20], 5
+	pinsrb	xmm3, byte ptr [rsi + r11 + 20], 6
+	pinsrb	xmm3, byte ptr [rsi + rbx + 20], 7
+	pinsrb	xmm3, byte ptr [rsi + rax + 20], 8
+	pinsrb	xmm3, byte ptr [rsi + r9 + 20], 9
+	pinsrb	xmm3, byte ptr [rsi + rdi + 20], 10
+	pinsrb	xmm3, byte ptr [rsi + r10 + 20], 11
+	pinsrb	xmm3, byte ptr [rsi + rcx + 20], 12
+	pinsrb	xmm3, byte ptr [rsi + r13 + 20], 13
+	pinsrb	xmm3, byte ptr [rsi + r12 + 20], 14
+	pcmpeqb	xmm7, xmm14
+	pandn	xmm7, xmmword ptr [rip + .LCPI4_17]
+	pcmpeqb	xmm5, xmm14
+	pandn	xmm5, xmmword ptr [rip + .LCPI4_18]
+	por	xmm5, xmm7
+	pinsrb	xmm3, byte ptr [rsi + r15 + 20], 15
+	pcmpeqb	xmm3, xmm14
+	movdqa	xmm7, xmmword ptr [rip + .LCPI4_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm3, xmm7
+	por	xmm3, xmm5
+	pcmpeqd	xmm5, xmm5
+	psubb	xmm4, xmm5
+	por	xmm3, xmm4
+	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 3
+	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 4
+	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 5
+	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 6
+	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 7
+	pinsrb	xmm2, byte ptr [rsi + rax + 21], 8
+	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 9
+	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 10
+	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 11
+	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 12
+	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 13
+	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 14
+	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 15
+	pinsrb	xmm1, byte ptr [rsi + rdx + 22], 3
+	pinsrb	xmm1, byte ptr [rsi + r14 + 22], 4
+	pinsrb	xmm1, byte ptr [rsi + r8 + 22], 5
+	pinsrb	xmm1, byte ptr [rsi + r11 + 22], 6
+	pinsrb	xmm1, byte ptr [rsi + rbx + 22], 7
+	pinsrb	xmm1, byte ptr [rsi + rax + 22], 8
+	pinsrb	xmm1, byte ptr [rsi + r9 + 22], 9
+	pinsrb	xmm1, byte ptr [rsi + rdi + 22], 10
+	pinsrb	xmm1, byte ptr [rsi + r10 + 22], 11
+	pinsrb	xmm1, byte ptr [rsi + rcx + 22], 12
+	pinsrb	xmm1, byte ptr [rsi + r13 + 22], 13
+	pinsrb	xmm1, byte ptr [rsi + r12 + 22], 14
+	pinsrb	xmm1, byte ptr [rsi + r15 + 22], 15
+	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 3
+	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 4
+	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 5
+	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 6
+	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 7
+	pinsrb	xmm8, byte ptr [rsi + rax + 23], 8
+	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 9
+	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 10
+	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 11
+	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 12
+	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 13
+	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 14
+	movdqa	xmm4, xmm14
+	pcmpeqb	xmm2, xmm14
+	movdqa	xmm5, xmmword ptr [rip + .LCPI4_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm2, xmm5
+	pcmpeqb	xmm1, xmm14
+	movdqa	xmm7, xmmword ptr [rip + .LCPI4_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm1, xmm7
+	por	xmm1, xmm2
+	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 15
+	pcmpeqb	xmm8, xmm14
+	movdqa	xmm2, xmm14
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pandn	xmm8, xmm4
+	por	xmm8, xmm1
+	pinsrb	xmm12, byte ptr [rsi + rdx + 24], 3
+	pinsrb	xmm12, byte ptr [rsi + r14 + 24], 4
+	pinsrb	xmm12, byte ptr [rsi + r8 + 24], 5
+	pinsrb	xmm12, byte ptr [rsi + r11 + 24], 6
+	pinsrb	xmm12, byte ptr [rsi + rbx + 24], 7
+	pinsrb	xmm12, byte ptr [rsi + rax + 24], 8
+	pinsrb	xmm12, byte ptr [rsi + r9 + 24], 9
+	pinsrb	xmm12, byte ptr [rsi + rdi + 24], 10
+	pinsrb	xmm12, byte ptr [rsi + r10 + 24], 11
+	pinsrb	xmm12, byte ptr [rsi + rcx + 24], 12
+	pinsrb	xmm12, byte ptr [rsi + r13 + 24], 13
+	pinsrb	xmm12, byte ptr [rsi + r12 + 24], 14
+	pinsrb	xmm12, byte ptr [rsi + r15 + 24], 15
+	por	xmm8, xmm3
+	pcmpeqb	xmm12, xmm14
+	pinsrb	xmm13, byte ptr [rsi + rdx + 25], 3
+	pinsrb	xmm13, byte ptr [rsi + r14 + 25], 4
+	pinsrb	xmm13, byte ptr [rsi + r8 + 25], 5
+	pinsrb	xmm13, byte ptr [rsi + r11 + 25], 6
+	pinsrb	xmm13, byte ptr [rsi + rbx + 25], 7
+	pinsrb	xmm13, byte ptr [rsi + rax + 25], 8
+	pinsrb	xmm13, byte ptr [rsi + r9 + 25], 9
+	pinsrb	xmm13, byte ptr [rsi + rdi + 25], 10
+	pinsrb	xmm13, byte ptr [rsi + r10 + 25], 11
+	pinsrb	xmm13, byte ptr [rsi + rcx + 25], 12
+	pinsrb	xmm13, byte ptr [rsi + r13 + 25], 13
+	pinsrb	xmm13, byte ptr [rsi + r12 + 25], 14
+	pinsrb	xmm13, byte ptr [rsi + r15 + 25], 15
+	pinsrb	xmm0, byte ptr [rsi + rdx + 26], 3
+	pinsrb	xmm0, byte ptr [rsi + r14 + 26], 4
+	pinsrb	xmm0, byte ptr [rsi + r8 + 26], 5
+	pinsrb	xmm0, byte ptr [rsi + r11 + 26], 6
+	pinsrb	xmm0, byte ptr [rsi + rbx + 26], 7
+	pinsrb	xmm0, byte ptr [rsi + rax + 26], 8
+	pinsrb	xmm0, byte ptr [rsi + r9 + 26], 9
+	pinsrb	xmm0, byte ptr [rsi + rdi + 26], 10
+	pinsrb	xmm0, byte ptr [rsi + r10 + 26], 11
+	pinsrb	xmm0, byte ptr [rsi + rcx + 26], 12
+	pinsrb	xmm0, byte ptr [rsi + r13 + 26], 13
+	pinsrb	xmm0, byte ptr [rsi + r12 + 26], 14
+	pinsrb	xmm0, byte ptr [rsi + r15 + 26], 15
+	pinsrb	xmm11, byte ptr [rsi + rdx + 27], 3
+	pinsrb	xmm11, byte ptr [rsi + r14 + 27], 4
+	pinsrb	xmm11, byte ptr [rsi + r8 + 27], 5
+	pinsrb	xmm11, byte ptr [rsi + r11 + 27], 6
+	pinsrb	xmm11, byte ptr [rsi + rbx + 27], 7
+	pinsrb	xmm11, byte ptr [rsi + rax + 27], 8
+	pinsrb	xmm11, byte ptr [rsi + r9 + 27], 9
+	pinsrb	xmm11, byte ptr [rsi + rdi + 27], 10
+	pinsrb	xmm11, byte ptr [rsi + r10 + 27], 11
+	pinsrb	xmm11, byte ptr [rsi + rcx + 27], 12
+	pinsrb	xmm11, byte ptr [rsi + r13 + 27], 13
+	pinsrb	xmm11, byte ptr [rsi + r12 + 27], 14
+	pcmpeqb	xmm13, xmm14
+	pandn	xmm13, xmmword ptr [rip + .LCPI4_16]
+	paddb	xmm13, xmm12
+	pinsrb	xmm11, byte ptr [rsi + r15 + 27], 15
+	pcmpeqb	xmm0, xmm14
+	pandn	xmm0, xmmword ptr [rip + .LCPI4_17]
+	pcmpeqb	xmm11, xmm14
+	pandn	xmm11, xmmword ptr [rip + .LCPI4_18]
+	por	xmm11, xmm0
+	pinsrb	xmm15, byte ptr [rsi + rdx + 28], 3
+	pinsrb	xmm9, byte ptr [rsi + rdx + 29], 3
+	pinsrb	xmm10, byte ptr [rsi + rdx + 30], 3
+	pinsrb	xmm6, byte ptr [rsi + rdx + 31], 3
+	pinsrb	xmm15, byte ptr [rsi + r14 + 28], 4
+	pinsrb	xmm9, byte ptr [rsi + r14 + 29], 4
+	pinsrb	xmm10, byte ptr [rsi + r14 + 30], 4
+	pinsrb	xmm6, byte ptr [rsi + r14 + 31], 4
+	pinsrb	xmm15, byte ptr [rsi + r8 + 28], 5
+	pinsrb	xmm9, byte ptr [rsi + r8 + 29], 5
+	pinsrb	xmm10, byte ptr [rsi + r8 + 30], 5
+	pinsrb	xmm6, byte ptr [rsi + r8 + 31], 5
+	mov	rdx, r11
+	pinsrb	xmm15, byte ptr [rsi + r11 + 28], 6
+	pinsrb	xmm9, byte ptr [rsi + r11 + 29], 6
+	pinsrb	xmm10, byte ptr [rsi + r11 + 30], 6
+	pinsrb	xmm6, byte ptr [rsi + r11 + 31], 6
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	mov	rdx, rbx
+	pinsrb	xmm15, byte ptr [rsi + rbx + 28], 7
+	pinsrb	xmm9, byte ptr [rsi + rbx + 29], 7
+	pinsrb	xmm10, byte ptr [rsi + rbx + 30], 7
+	pinsrb	xmm6, byte ptr [rsi + rbx + 31], 7
+	pinsrb	xmm15, byte ptr [rsi + rax + 28], 8
+	pinsrb	xmm9, byte ptr [rsi + rax + 29], 8
+	pinsrb	xmm10, byte ptr [rsi + rax + 30], 8
+	pinsrb	xmm6, byte ptr [rsi + rax + 31], 8
+	pinsrb	xmm15, byte ptr [rsi + r9 + 28], 9
+	pinsrb	xmm9, byte ptr [rsi + r9 + 29], 9
+	pinsrb	xmm10, byte ptr [rsi + r9 + 30], 9
+	pinsrb	xmm6, byte ptr [rsi + r9 + 31], 9
+	pinsrb	xmm15, byte ptr [rsi + rdi + 28], 10
+	pinsrb	xmm9, byte ptr [rsi + rdi + 29], 10
+	pinsrb	xmm10, byte ptr [rsi + rdi + 30], 10
+	pinsrb	xmm6, byte ptr [rsi + rdi + 31], 10
+	mov	rax, r10
+	pinsrb	xmm15, byte ptr [rsi + r10 + 28], 11
+	pinsrb	xmm9, byte ptr [rsi + r10 + 29], 11
+	pinsrb	xmm10, byte ptr [rsi + r10 + 30], 11
+	pinsrb	xmm6, byte ptr [rsi + r10 + 31], 11
+	pinsrb	xmm15, byte ptr [rsi + rcx + 28], 12
+	pinsrb	xmm9, byte ptr [rsi + rcx + 29], 12
+	pinsrb	xmm10, byte ptr [rsi + rcx + 30], 12
+	pinsrb	xmm6, byte ptr [rsi + rcx + 31], 12
+	mov	rax, r13
+	pinsrb	xmm15, byte ptr [rsi + r13 + 28], 13
+	pinsrb	xmm9, byte ptr [rsi + r13 + 29], 13
+	pinsrb	xmm10, byte ptr [rsi + r13 + 30], 13
+	pinsrb	xmm6, byte ptr [rsi + r13 + 31], 13
+	mov	rax, r12
+	pinsrb	xmm15, byte ptr [rsi + r12 + 28], 14
+	pinsrb	xmm9, byte ptr [rsi + r12 + 29], 14
+	pinsrb	xmm10, byte ptr [rsi + r12 + 30], 14
+	pinsrb	xmm6, byte ptr [rsi + r12 + 31], 14
+	pinsrb	xmm15, byte ptr [rsi + r15 + 28], 15
+	pinsrb	xmm9, byte ptr [rsi + r15 + 29], 15
+	pinsrb	xmm10, byte ptr [rsi + r15 + 30], 15
+	pcmpeqb	xmm15, xmm14
+	pandn	xmm15, xmmword ptr [rip + .LCPI4_19]
+	por	xmm15, xmm11
+	pinsrb	xmm6, byte ptr [rsi + r15 + 31], 15
+	psubb	xmm13, xmmword ptr [rip + .LCPI4_22]
+	por	xmm15, xmm13
+	pcmpeqb	xmm9, xmm14
+	pandn	xmm9, xmm5
+	pcmpeqb	xmm10, xmm14
+	pandn	xmm10, xmm7
+	por	xmm10, xmm9
+	pcmpeqb	xmm6, xmm14
+	pandn	xmm6, xmm4
+	por	xmm6, xmm10
+	por	xmm6, xmm15
+	movdqa	xmm0, xmm8
+	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
+	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
+	movdqa	xmm1, xmm4
+	movdqa	xmm3, xmmword ptr [rsp + 176]   # 16-byte Reload
+	punpcklbw	xmm1, xmm3              # xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
+	movdqa	xmm2, xmm1
+	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
+	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
+	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
+	punpckhbw	xmm4, xmm3              # xmm4 = xmm4[8],xmm3[8],xmm4[9],xmm3[9],xmm4[10],xmm3[10],xmm4[11],xmm3[11],xmm4[12],xmm3[12],xmm4[13],xmm3[13],xmm4[14],xmm3[14],xmm4[15],xmm3[15]
+	movdqa	xmm0, xmm4
+	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
+	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
+	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm2
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 240]      # 8-byte Folded Reload
+	jne	.LBB4_181
+# %bb.182:
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	cmp	r10, qword ptr [rsp + 240]      # 8-byte Folded Reload
+	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
+	mov	rsi, qword ptr [rsp + 288]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	jne	.LBB4_43
+	jmp	.LBB4_131
+.LBB4_183:
+	and	r10, -16
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 248], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
+	lea	rax, [r14 + 4*r10]
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	movzx	eax, r11b
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 160], xmm1   # 16-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB4_184:                              # =>This Inner Loop Header: Depth=1
+	mov	r9, rax
+	mov	qword ptr [rsp + 152], rax      # 8-byte Spill
+	shl	r9, 5
+	mov	r12, r9
+	mov	r13, r9
+	mov	r10, r9
+	mov	qword ptr [rsp + 64], r9        # 8-byte Spill
+	mov	r15, r9
+	mov	r11, r9
+	mov	r14, r9
+	mov	rdx, r9
+	mov	r8, r9
+	mov	rbx, r9
+	mov	rdi, r9
+	movzx	eax, byte ptr [rsi + r9]
+	movd	xmm4, eax
+	movzx	eax, byte ptr [rsi + r9 + 1]
+	movd	xmm3, eax
+	movzx	eax, byte ptr [rsi + r9 + 2]
+	movd	xmm5, eax
+	movzx	eax, byte ptr [rsi + r9 + 3]
+	movd	xmm7, eax
+	movzx	eax, byte ptr [rsi + r9 + 4]
+	movd	xmm9, eax
+	movzx	eax, byte ptr [rsi + r9 + 5]
+	movd	xmm2, eax
+	movzx	eax, byte ptr [rsi + r9 + 6]
+	movd	xmm8, eax
+	movzx	eax, byte ptr [rsi + r9 + 7]
+	movd	xmm14, eax
+	movzx	eax, byte ptr [rsi + r9 + 8]
+	movd	xmm0, eax
+	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + r9 + 9]
+	movd	xmm11, eax
+	movzx	eax, byte ptr [rsi + r9 + 10]
+	movd	xmm12, eax
+	movzx	eax, byte ptr [rsi + r9 + 11]
+	movd	xmm13, eax
+	movzx	eax, byte ptr [rsi + r9 + 12]
+	movd	xmm0, eax
+	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
+	movzx	eax, byte ptr [rsi + r9 + 13]
+	movd	xmm6, eax
+	movzx	eax, byte ptr [rsi + r9 + 14]
+	movd	xmm15, eax
+	movzx	eax, byte ptr [rsi + r9 + 15]
+	movd	xmm0, eax
+	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
+	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
+	mov	rcx, r9
+	or	rcx, 32
+	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
+	or	r12, 64
+	or	r13, 96
+	or	r10, 128
+	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	or	r10, 160
+	mov	qword ptr [rsp + 64], r10       # 8-byte Spill
+	or	r15, 192
+	mov	qword ptr [rsp + 24], r15       # 8-byte Spill
+	or	r11, 224
+	or	r14, 256
+	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
+	or	rdx, 288
+	or	r8, 320
+	mov	qword ptr [rsp + 120], r8       # 8-byte Spill
+	or	rbx, 352
+	mov	qword ptr [rsp + 88], rbx       # 8-byte Spill
+	or	rdi, 384
+	mov	qword ptr [rsp + 32], rdi       # 8-byte Spill
+	mov	rax, r9
+	or	rax, 416
+	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
+	mov	rax, r9
+	or	rax, 448
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	rdi, r9
+	or	rdi, 480
+	pinsrb	xmm4, byte ptr [rsi + rcx], 1
+	mov	qword ptr [rsp + 96], r12       # 8-byte Spill
+	pinsrb	xmm4, byte ptr [rsi + r12], 2
+	pinsrb	xmm4, byte ptr [rsi + r13], 3
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rcx], 4
+	pinsrb	xmm4, byte ptr [rsi + r10], 5
+	pinsrb	xmm4, byte ptr [rsi + r15], 6
+	pinsrb	xmm4, byte ptr [rsi + r11], 7
+	pinsrb	xmm4, byte ptr [rsi + r14], 8
+	pinsrb	xmm4, byte ptr [rsi + rdx], 9
+	pinsrb	xmm4, byte ptr [rsi + r8], 10
+	pinsrb	xmm4, byte ptr [rsi + rbx], 11
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rcx], 12
+	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r9], 13
+	pinsrb	xmm4, byte ptr [rsi + rax], 14
+	pinsrb	xmm4, byte ptr [rsi + rdi], 15
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r9 + 1], 1
+	pinsrb	xmm3, byte ptr [rsi + r12 + 1], 2
+	pinsrb	xmm3, byte ptr [rsi + r13 + 1], 3
+	mov	r12, r13
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r13 + 1], 4
+	pinsrb	xmm3, byte ptr [rsi + r10 + 1], 5
+	pinsrb	xmm3, byte ptr [rsi + r15 + 1], 6
+	pinsrb	xmm3, byte ptr [rsi + r11 + 1], 7
+	mov	r10, r11
+	pinsrb	xmm3, byte ptr [rsi + r14 + 1], 8
+	pinsrb	xmm3, byte ptr [rsi + rdx + 1], 9
+	mov	r14, rdx
+	pinsrb	xmm3, byte ptr [rsi + r8 + 1], 10
+	pinsrb	xmm3, byte ptr [rsi + rbx + 1], 11
+	pinsrb	xmm3, byte ptr [rsi + rcx + 1], 12
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdx + 1], 13
+	pinsrb	xmm3, byte ptr [rsi + rax + 1], 14
+	movdqa	xmm1, xmmword ptr [rsp + 160]   # 16-byte Reload
+	pcmpeqb	xmm4, xmm1
+	pinsrb	xmm3, byte ptr [rsi + rdi + 1], 15
+	mov	rcx, rdi
+	pcmpeqb	xmm3, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	pandn	xmm3, xmm0
+	paddb	xmm3, xmm4
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 16]
+	movd	xmm10, edx
+	mov	rdx, r9
+	pinsrb	xmm5, byte ptr [rsi + r9 + 2], 1
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rdi + 2], 2
+	mov	qword ptr [rsp + 56], r12       # 8-byte Spill
+	pinsrb	xmm5, byte ptr [rsi + r12 + 2], 3
+	mov	r8, r13
+	pinsrb	xmm5, byte ptr [rsi + r13 + 2], 4
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r11 + 2], 5
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r13 + 2], 6
+	mov	rbx, r10
+	pinsrb	xmm5, byte ptr [rsi + r10 + 2], 7
+	mov	r15, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r15 + 2], 8
+	mov	r9, r14
+	pinsrb	xmm5, byte ptr [rsi + r14 + 2], 9
+	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r10 + 2], 10
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r14 + 2], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 2], 12
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 2], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 2], 14
+	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
+	pinsrb	xmm5, byte ptr [rsi + rcx + 2], 15
+	pinsrb	xmm7, byte ptr [rsi + rdx + 3], 1
+	pinsrb	xmm7, byte ptr [rsi + rdi + 3], 2
+	pinsrb	xmm7, byte ptr [rsi + r12 + 3], 3
+	pinsrb	xmm7, byte ptr [rsi + r8 + 3], 4
+	pinsrb	xmm7, byte ptr [rsi + r11 + 3], 5
+	pinsrb	xmm7, byte ptr [rsi + r13 + 3], 6
+	pinsrb	xmm7, byte ptr [rsi + rbx + 3], 7
+	pinsrb	xmm7, byte ptr [rsi + r15 + 3], 8
+	pinsrb	xmm7, byte ptr [rsi + r9 + 3], 9
+	pinsrb	xmm7, byte ptr [rsi + r10 + 3], 10
+	pinsrb	xmm7, byte ptr [rsi + r14 + 3], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 3], 12
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 3], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 3], 14
+	pinsrb	xmm7, byte ptr [rsi + rcx + 3], 15
+	pinsrb	xmm9, byte ptr [rsi + rdx + 4], 1
+	pinsrb	xmm9, byte ptr [rsi + rdi + 4], 2
+	pinsrb	xmm9, byte ptr [rsi + r12 + 4], 3
+	pinsrb	xmm9, byte ptr [rsi + r8 + 4], 4
+	mov	rdi, r8
+	pinsrb	xmm9, byte ptr [rsi + r11 + 4], 5
+	pinsrb	xmm9, byte ptr [rsi + r13 + 4], 6
+	pinsrb	xmm9, byte ptr [rsi + rbx + 4], 7
+	pinsrb	xmm9, byte ptr [rsi + r15 + 4], 8
+	pinsrb	xmm9, byte ptr [rsi + r9 + 4], 9
+	pinsrb	xmm9, byte ptr [rsi + r10 + 4], 10
+	pinsrb	xmm9, byte ptr [rsi + r14 + 4], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rax + 4], 12
+	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + r8 + 4], 13
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rdx + 4], 14
+	pinsrb	xmm9, byte ptr [rsi + rcx + 4], 15
+	pcmpeqb	xmm5, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pandn	xmm5, xmm0
+	pcmpeqb	xmm7, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pandn	xmm7, xmm0
+	por	xmm7, xmm5
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rcx + 17]
+	movd	xmm4, edx
+	pcmpeqb	xmm9, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm9, xmm0
+	por	xmm9, xmm7
+	movzx	edx, byte ptr [rsi + rcx + 18]
+	movd	xmm7, edx
+	pcmpeqd	xmm0, xmm0
+	psubb	xmm3, xmm0
+	por	xmm9, xmm3
+	movzx	edx, byte ptr [rsi + rcx + 19]
+	movd	xmm5, edx
+	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r12 + 5], 1
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r13 + 5], 2
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rax + 5], 3
+	pinsrb	xmm2, byte ptr [rsi + rdi + 5], 4
+	mov	rdi, r11
+	pinsrb	xmm2, byte ptr [rsi + r11 + 5], 5
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rax + 5], 6
+	mov	qword ptr [rsp + 272], rbx      # 8-byte Spill
+	pinsrb	xmm2, byte ptr [rsi + rbx + 5], 7
+	pinsrb	xmm2, byte ptr [rsi + r15 + 5], 8
+	mov	qword ptr [rsp + 136], r9       # 8-byte Spill
+	pinsrb	xmm2, byte ptr [rsi + r9 + 5], 9
+	pinsrb	xmm2, byte ptr [rsi + r10 + 5], 10
+	pinsrb	xmm2, byte ptr [rsi + r14 + 5], 11
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rdx + 5], 12
+	mov	rcx, r8
+	pinsrb	xmm2, byte ptr [rsi + r8 + 5], 13
+	mov	r8, qword ptr [rsp + 40]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r8 + 5], 14
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r11 + 5], 15
+	pinsrb	xmm8, byte ptr [rsi + r12 + 6], 1
+	pinsrb	xmm8, byte ptr [rsi + r13 + 6], 2
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rax + 6], 3
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r13 + 6], 4
+	pinsrb	xmm8, byte ptr [rsi + rdi + 6], 5
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rax + 6], 6
+	mov	r13, rax
+	pinsrb	xmm8, byte ptr [rsi + rbx + 6], 7
+	pinsrb	xmm8, byte ptr [rsi + r15 + 6], 8
+	pinsrb	xmm8, byte ptr [rsi + r9 + 6], 9
+	pinsrb	xmm8, byte ptr [rsi + r10 + 6], 10
+	pinsrb	xmm8, byte ptr [rsi + r14 + 6], 11
+	pinsrb	xmm8, byte ptr [rsi + rdx + 6], 12
+	pinsrb	xmm8, byte ptr [rsi + rcx + 6], 13
+	pinsrb	xmm8, byte ptr [rsi + r8 + 6], 14
+	pinsrb	xmm8, byte ptr [rsi + r11 + 6], 15
+	pinsrb	xmm14, byte ptr [rsi + r12 + 7], 1
+	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r12 + 7], 2
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rax + 7], 3
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r11 + 7], 4
+	pinsrb	xmm14, byte ptr [rsi + rdi + 7], 5
+	mov	rax, r13
+	pinsrb	xmm14, byte ptr [rsi + r13 + 7], 6
+	pinsrb	xmm14, byte ptr [rsi + rbx + 7], 7
+	pinsrb	xmm14, byte ptr [rsi + r15 + 7], 8
+	mov	rbx, r15
+	pinsrb	xmm14, byte ptr [rsi + r9 + 7], 9
+	pinsrb	xmm14, byte ptr [rsi + r10 + 7], 10
+	pinsrb	xmm14, byte ptr [rsi + r14 + 7], 11
+	pinsrb	xmm14, byte ptr [rsi + rdx + 7], 12
+	pinsrb	xmm14, byte ptr [rsi + rcx + 7], 13
+	mov	r13, rcx
+	pinsrb	xmm14, byte ptr [rsi + r8 + 7], 14
+	movdqa	xmm1, xmm14
+	movdqa	xmm14, xmmword ptr [rsp + 160]  # 16-byte Reload
+	pcmpeqb	xmm2, xmm14
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm2, xmm0
+	pcmpeqb	xmm8, xmm14
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm8, xmm0
+	por	xmm8, xmm2
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rdi + 20]
+	movd	xmm3, edx
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + rcx + 7], 15
+	pcmpeqb	xmm1, xmm14
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pandn	xmm1, xmm0
+	por	xmm1, xmm8
+	movzx	edx, byte ptr [rsi + rdi + 21]
+	movd	xmm2, edx
+	movdqa	xmm0, xmmword ptr [rsp + 208]   # 16-byte Reload
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rax + 8], 1
+	pinsrb	xmm0, byte ptr [rsi + r12 + 8], 2
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r12 + 8], 3
+	pinsrb	xmm0, byte ptr [rsi + r11 + 8], 4
+	mov	r8, r11
+	mov	r14, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r14 + 8], 5
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 8], 6
+	mov	r11, qword ptr [rsp + 272]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r11 + 8], 7
+	pinsrb	xmm0, byte ptr [rsi + r15 + 8], 8
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r10 + 8], 9
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r15 + 8], 10
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 8], 11
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 8], 12
+	pinsrb	xmm0, byte ptr [rsi + r13 + 8], 13
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 8], 14
+	pinsrb	xmm0, byte ptr [rsi + rcx + 8], 15
+	por	xmm1, xmm9
+	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
+	movzx	edx, byte ptr [rsi + rdi + 22]
+	movd	xmm1, edx
+	pcmpeqb	xmm0, xmm14
+	pinsrb	xmm11, byte ptr [rsi + rax + 9], 1
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdi + 9], 2
+	pinsrb	xmm11, byte ptr [rsi + r12 + 9], 3
+	pinsrb	xmm11, byte ptr [rsi + r8 + 9], 4
+	pinsrb	xmm11, byte ptr [rsi + r14 + 9], 5
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r13 + 9], 6
+	pinsrb	xmm11, byte ptr [rsi + r11 + 9], 7
+	pinsrb	xmm11, byte ptr [rsi + rbx + 9], 8
+	mov	rcx, r10
+	pinsrb	xmm11, byte ptr [rsi + r10 + 9], 9
+	mov	r9, r15
+	pinsrb	xmm11, byte ptr [rsi + r15 + 9], 10
+	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r10 + 9], 11
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r15 + 9], 12
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdx + 9], 13
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdx + 9], 14
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdx + 9], 15
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rax + 10], 1
+	pinsrb	xmm12, byte ptr [rsi + rdi + 10], 2
+	pinsrb	xmm12, byte ptr [rsi + r12 + 10], 3
+	pinsrb	xmm12, byte ptr [rsi + r8 + 10], 4
+	pinsrb	xmm12, byte ptr [rsi + r14 + 10], 5
+	pinsrb	xmm12, byte ptr [rsi + r13 + 10], 6
+	pinsrb	xmm12, byte ptr [rsi + r11 + 10], 7
+	pinsrb	xmm12, byte ptr [rsi + rbx + 10], 8
+	pinsrb	xmm12, byte ptr [rsi + rcx + 10], 9
+	pinsrb	xmm12, byte ptr [rsi + r9 + 10], 10
+	pinsrb	xmm12, byte ptr [rsi + r10 + 10], 11
+	pinsrb	xmm12, byte ptr [rsi + r15 + 10], 12
+	mov	r14, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + r14 + 10], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rax + 10], 14
+	pinsrb	xmm12, byte ptr [rsi + rdx + 10], 15
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + rax + 11], 1
+	pinsrb	xmm13, byte ptr [rsi + rdi + 11], 2
+	mov	r14, rdi
+	pinsrb	xmm13, byte ptr [rsi + r12 + 11], 3
+	pinsrb	xmm13, byte ptr [rsi + r8 + 11], 4
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + rax + 11], 5
+	pinsrb	xmm13, byte ptr [rsi + r13 + 11], 6
+	pinsrb	xmm13, byte ptr [rsi + r11 + 11], 7
+	mov	r12, r11
+	pinsrb	xmm13, byte ptr [rsi + rbx + 11], 8
+	pinsrb	xmm13, byte ptr [rsi + rcx + 11], 9
+	pinsrb	xmm13, byte ptr [rsi + r9 + 11], 10
+	pinsrb	xmm13, byte ptr [rsi + r10 + 11], 11
+	pinsrb	xmm13, byte ptr [rsi + r15 + 11], 12
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + rdi + 11], 13
+	mov	r13, rdi
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + r9 + 11], 14
+	pinsrb	xmm13, byte ptr [rsi + rdx + 11], 15
+	pcmpeqb	xmm11, xmm14
+	pandn	xmm11, xmmword ptr [rip + .LCPI4_16]
+	paddb	xmm11, xmm0
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rdi + 23]
+	movd	xmm8, edx
+	pcmpeqb	xmm12, xmm14
+	pandn	xmm12, xmmword ptr [rip + .LCPI4_17]
+	pcmpeqb	xmm13, xmm14
+	pandn	xmm13, xmmword ptr [rip + .LCPI4_18]
+	por	xmm13, xmm12
+	movzx	edx, byte ptr [rsi + rdi + 24]
+	movd	xmm12, edx
+	movdqa	xmm9, xmmword ptr [rsp + 224]   # 16-byte Reload
+	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + r11 + 12], 1
+	mov	r8, r14
+	pinsrb	xmm9, byte ptr [rsi + r14 + 12], 2
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rdi + 12], 3
+	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + r14 + 12], 4
+	pinsrb	xmm9, byte ptr [rsi + rax + 12], 5
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rdx + 12], 6
+	mov	r15, r12
+	pinsrb	xmm9, byte ptr [rsi + r12 + 12], 7
+	pinsrb	xmm9, byte ptr [rsi + rbx + 12], 8
+	pinsrb	xmm9, byte ptr [rsi + rcx + 12], 9
+	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + r12 + 12], 10
+	pinsrb	xmm9, byte ptr [rsi + r10 + 12], 11
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + r10 + 12], 12
+	pinsrb	xmm9, byte ptr [rsi + r13 + 12], 13
+	pinsrb	xmm9, byte ptr [rsi + r9 + 12], 14
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + r13 + 12], 15
+	pinsrb	xmm6, byte ptr [rsi + r11 + 13], 1
+	pinsrb	xmm6, byte ptr [rsi + r8 + 13], 2
+	pinsrb	xmm6, byte ptr [rsi + rdi + 13], 3
+	pinsrb	xmm6, byte ptr [rsi + r14 + 13], 4
+	pinsrb	xmm6, byte ptr [rsi + rax + 13], 5
+	pinsrb	xmm6, byte ptr [rsi + rdx + 13], 6
+	pinsrb	xmm6, byte ptr [rsi + r15 + 13], 7
+	pinsrb	xmm6, byte ptr [rsi + rbx + 13], 8
+	pinsrb	xmm6, byte ptr [rsi + rcx + 13], 9
+	pinsrb	xmm6, byte ptr [rsi + r12 + 13], 10
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rbx + 13], 11
+	pinsrb	xmm6, byte ptr [rsi + r10 + 13], 12
+	mov	r13, r10
+	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r10 + 13], 13
+	pinsrb	xmm6, byte ptr [rsi + r9 + 13], 14
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r9 + 13], 15
+	pinsrb	xmm15, byte ptr [rsi + r11 + 14], 1
+	pinsrb	xmm15, byte ptr [rsi + r8 + 14], 2
+	pinsrb	xmm15, byte ptr [rsi + rdi + 14], 3
+	pinsrb	xmm15, byte ptr [rsi + r14 + 14], 4
+	pinsrb	xmm15, byte ptr [rsi + rax + 14], 5
+	pinsrb	xmm15, byte ptr [rsi + rdx + 14], 6
+	pinsrb	xmm15, byte ptr [rsi + r15 + 14], 7
+	mov	rdi, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rdi + 14], 8
+	pinsrb	xmm15, byte ptr [rsi + rcx + 14], 9
+	mov	r11, r12
+	pinsrb	xmm15, byte ptr [rsi + r12 + 14], 10
+	pinsrb	xmm15, byte ptr [rsi + rbx + 14], 11
+	mov	r12, r13
+	pinsrb	xmm15, byte ptr [rsi + r13 + 14], 12
+	mov	r13, r10
+	pinsrb	xmm15, byte ptr [rsi + r10 + 14], 13
+	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + r10 + 14], 14
+	pcmpeqb	xmm9, xmm14
+	pandn	xmm9, xmmword ptr [rip + .LCPI4_19]
+	por	xmm9, xmm13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 25]
+	movd	xmm13, edx
+	psubb	xmm11, xmmword ptr [rip + .LCPI4_22]
+	por	xmm9, xmm11
+	movzx	edx, byte ptr [rsi + rax + 26]
+	movd	xmm0, edx
+	pinsrb	xmm15, byte ptr [rsi + r9 + 14], 15
+	pcmpeqb	xmm6, xmm14
+	pandn	xmm6, xmmword ptr [rip + .LCPI4_20]
+	pcmpeqb	xmm15, xmm14
+	pandn	xmm15, xmmword ptr [rip + .LCPI4_21]
+	por	xmm15, xmm6
+	movzx	edx, byte ptr [rsi + rax + 27]
+	movd	xmm11, edx
+	movdqa	xmm6, xmmword ptr [rsp + 192]   # 16-byte Reload
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 1
+	pinsrb	xmm6, byte ptr [rsi + r8 + 15], 2
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r9 + 15], 3
+	pinsrb	xmm6, byte ptr [rsi + r14 + 15], 4
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 5
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rdx + 15], 6
+	pinsrb	xmm6, byte ptr [rsi + r15 + 15], 7
+	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 8
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 9
+	pinsrb	xmm6, byte ptr [rsi + r11 + 15], 10
+	pinsrb	xmm6, byte ptr [rsi + rbx + 15], 11
+	pinsrb	xmm6, byte ptr [rsi + r12 + 15], 12
+	pinsrb	xmm6, byte ptr [rsi + r13 + 15], 13
+	pinsrb	xmm6, byte ptr [rsi + r10 + 15], 14
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r10 + 15], 15
+	pcmpeqb	xmm6, xmm14
+	pandn	xmm6, xmmword ptr [rip + .LCPI4_6]
+	por	xmm6, xmm15
+	movzx	edx, byte ptr [rsi + rax + 28]
+	movd	xmm15, edx
+	por	xmm6, xmm9
+	movdqa	xmmword ptr [rsp + 192], xmm6   # 16-byte Spill
+	movzx	edx, byte ptr [rsi + rax + 29]
+	movd	xmm9, edx
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdx + 16], 1
+	pinsrb	xmm10, byte ptr [rsi + r8 + 16], 2
+	pinsrb	xmm10, byte ptr [rsi + r9 + 16], 3
+	pinsrb	xmm10, byte ptr [rsi + r14 + 16], 4
+	pinsrb	xmm10, byte ptr [rsi + rcx + 16], 5
+	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r12 + 16], 6
+	pinsrb	xmm10, byte ptr [rsi + r15 + 16], 7
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rcx + 16], 8
+	pinsrb	xmm10, byte ptr [rsi + rdi + 16], 9
+	pinsrb	xmm10, byte ptr [rsi + r11 + 16], 10
+	pinsrb	xmm10, byte ptr [rsi + rbx + 16], 11
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rax + 16], 12
+	mov	rax, r13
+	pinsrb	xmm10, byte ptr [rsi + r13 + 16], 13
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r13 + 16], 14
+	pinsrb	xmm10, byte ptr [rsi + r10 + 16], 15
+	pinsrb	xmm4, byte ptr [rsi + rdx + 17], 1
+	pinsrb	xmm4, byte ptr [rsi + r8 + 17], 2
+	pinsrb	xmm4, byte ptr [rsi + r9 + 17], 3
+	pinsrb	xmm4, byte ptr [rsi + r14 + 17], 4
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r8 + 17], 5
+	mov	r9, r12
+	pinsrb	xmm4, byte ptr [rsi + r12 + 17], 6
+	pinsrb	xmm4, byte ptr [rsi + r15 + 17], 7
+	pinsrb	xmm4, byte ptr [rsi + rcx + 17], 8
+	pinsrb	xmm4, byte ptr [rsi + rdi + 17], 9
+	pinsrb	xmm4, byte ptr [rsi + r11 + 17], 10
+	pinsrb	xmm4, byte ptr [rsi + rbx + 17], 11
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r12 + 17], 12
+	pinsrb	xmm4, byte ptr [rsi + rax + 17], 13
+	pinsrb	xmm4, byte ptr [rsi + r13 + 17], 14
+	pinsrb	xmm4, byte ptr [rsi + r10 + 17], 15
+	mov	rdi, r10
+	pcmpeqb	xmm10, xmm14
+	pcmpeqb	xmm4, xmm14
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_16] # xmm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	pandn	xmm4, xmm6
+	paddb	xmm4, xmm10
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rcx + 30]
+	movd	xmm10, edx
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 18], 1
+	pinsrb	xmm5, byte ptr [rsi + rax + 19], 1
+	pinsrb	xmm3, byte ptr [rsi + rax + 20], 1
+	pinsrb	xmm2, byte ptr [rsi + rax + 21], 1
+	pinsrb	xmm1, byte ptr [rsi + rax + 22], 1
+	pinsrb	xmm8, byte ptr [rsi + rax + 23], 1
+	pinsrb	xmm12, byte ptr [rsi + rax + 24], 1
+	pinsrb	xmm13, byte ptr [rsi + rax + 25], 1
+	pinsrb	xmm0, byte ptr [rsi + rax + 26], 1
+	pinsrb	xmm11, byte ptr [rsi + rax + 27], 1
+	pinsrb	xmm15, byte ptr [rsi + rax + 28], 1
+	pinsrb	xmm9, byte ptr [rsi + rax + 29], 1
+	pinsrb	xmm10, byte ptr [rsi + rax + 30], 1
+	movzx	edx, byte ptr [rsi + rcx + 31]
+	movd	xmm6, edx
+	pinsrb	xmm6, byte ptr [rsi + rax + 31], 1
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 2
+	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 2
+	pinsrb	xmm3, byte ptr [rsi + rdx + 20], 2
+	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 2
+	pinsrb	xmm1, byte ptr [rsi + rdx + 22], 2
+	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 2
+	pinsrb	xmm12, byte ptr [rsi + rdx + 24], 2
+	pinsrb	xmm13, byte ptr [rsi + rdx + 25], 2
+	pinsrb	xmm0, byte ptr [rsi + rdx + 26], 2
+	pinsrb	xmm11, byte ptr [rsi + rdx + 27], 2
+	pinsrb	xmm15, byte ptr [rsi + rdx + 28], 2
+	pinsrb	xmm9, byte ptr [rsi + rdx + 29], 2
+	pinsrb	xmm10, byte ptr [rsi + rdx + 30], 2
+	pinsrb	xmm6, byte ptr [rsi + rdx + 31], 2
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 3
+	pinsrb	xmm7, byte ptr [rsi + r14 + 18], 4
+	pinsrb	xmm7, byte ptr [rsi + r8 + 18], 5
+	mov	rbx, r9
+	pinsrb	xmm7, byte ptr [rsi + r9 + 18], 6
+	pinsrb	xmm7, byte ptr [rsi + r15 + 18], 7
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + r11 + 18], 8
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rcx + 18], 9
+	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + r9 + 18], 10
+	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + r10 + 18], 11
+	mov	rax, r12
+	pinsrb	xmm7, byte ptr [rsi + r12 + 18], 12
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + r12 + 18], 13
+	pinsrb	xmm7, byte ptr [rsi + r13 + 18], 14
+	pinsrb	xmm7, byte ptr [rsi + rdi + 18], 15
+	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 3
+	pinsrb	xmm5, byte ptr [rsi + r14 + 19], 4
+	pinsrb	xmm5, byte ptr [rsi + r8 + 19], 5
+	pinsrb	xmm5, byte ptr [rsi + rbx + 19], 6
+	pinsrb	xmm5, byte ptr [rsi + r15 + 19], 7
+	pinsrb	xmm5, byte ptr [rsi + r11 + 19], 8
+	pinsrb	xmm5, byte ptr [rsi + rcx + 19], 9
+	pinsrb	xmm5, byte ptr [rsi + r9 + 19], 10
+	pinsrb	xmm5, byte ptr [rsi + r10 + 19], 11
+	pinsrb	xmm5, byte ptr [rsi + rax + 19], 12
+	pinsrb	xmm5, byte ptr [rsi + r12 + 19], 13
+	pinsrb	xmm5, byte ptr [rsi + r13 + 19], 14
+	pinsrb	xmm5, byte ptr [rsi + rdi + 19], 15
+	pinsrb	xmm3, byte ptr [rsi + rdx + 20], 3
+	pinsrb	xmm3, byte ptr [rsi + r14 + 20], 4
+	pinsrb	xmm3, byte ptr [rsi + r8 + 20], 5
+	pinsrb	xmm3, byte ptr [rsi + rbx + 20], 6
+	pinsrb	xmm3, byte ptr [rsi + r15 + 20], 7
+	pinsrb	xmm3, byte ptr [rsi + r11 + 20], 8
+	pinsrb	xmm3, byte ptr [rsi + rcx + 20], 9
+	pinsrb	xmm3, byte ptr [rsi + r9 + 20], 10
+	pinsrb	xmm3, byte ptr [rsi + r10 + 20], 11
+	pinsrb	xmm3, byte ptr [rsi + rax + 20], 12
+	pinsrb	xmm3, byte ptr [rsi + r12 + 20], 13
+	pinsrb	xmm3, byte ptr [rsi + r13 + 20], 14
+	pcmpeqb	xmm7, xmm14
+	movdqa	xmm14, xmmword ptr [rip + .LCPI4_17] # xmm14 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pandn	xmm7, xmm14
+	pcmpeqb	xmm5, xmmword ptr [rsp + 160]   # 16-byte Folded Reload
+	movdqa	xmm14, xmmword ptr [rip + .LCPI4_18] # xmm14 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pandn	xmm5, xmm14
+	por	xmm5, xmm7
+	pinsrb	xmm3, byte ptr [rsi + rdi + 20], 15
+	movdqa	xmm14, xmmword ptr [rsp + 160]  # 16-byte Reload
+	pcmpeqb	xmm3, xmm14
+	movdqa	xmm7, xmmword ptr [rip + .LCPI4_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm3, xmm7
+	por	xmm3, xmm5
+	pcmpeqd	xmm5, xmm5
+	psubb	xmm4, xmm5
+	por	xmm3, xmm4
+	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 3
+	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 4
+	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 5
+	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 6
+	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 7
+	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 8
+	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 9
+	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 10
+	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 11
+	pinsrb	xmm2, byte ptr [rsi + rax + 21], 12
+	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 13
+	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 14
+	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 15
+	pinsrb	xmm1, byte ptr [rsi + rdx + 22], 3
+	pinsrb	xmm1, byte ptr [rsi + r14 + 22], 4
+	pinsrb	xmm1, byte ptr [rsi + r8 + 22], 5
+	pinsrb	xmm1, byte ptr [rsi + rbx + 22], 6
+	pinsrb	xmm1, byte ptr [rsi + r15 + 22], 7
+	pinsrb	xmm1, byte ptr [rsi + r11 + 22], 8
+	pinsrb	xmm1, byte ptr [rsi + rcx + 22], 9
+	pinsrb	xmm1, byte ptr [rsi + r9 + 22], 10
+	pinsrb	xmm1, byte ptr [rsi + r10 + 22], 11
+	pinsrb	xmm1, byte ptr [rsi + rax + 22], 12
+	pinsrb	xmm1, byte ptr [rsi + r12 + 22], 13
+	pinsrb	xmm1, byte ptr [rsi + r13 + 22], 14
+	pinsrb	xmm1, byte ptr [rsi + rdi + 22], 15
+	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 3
+	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 4
+	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 5
+	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 6
+	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 7
+	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 8
+	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 9
+	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 10
+	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 11
+	pinsrb	xmm8, byte ptr [rsi + rax + 23], 12
+	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 13
+	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 14
+	pcmpeqb	xmm2, xmm14
+	movdqa	xmm5, xmmword ptr [rip + .LCPI4_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm2, xmm5
+	pcmpeqb	xmm1, xmm14
+	movdqa	xmm7, xmmword ptr [rip + .LCPI4_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm1, xmm7
+	por	xmm1, xmm2
+	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 15
+	pcmpeqb	xmm8, xmm14
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pandn	xmm8, xmm4
+	por	xmm8, xmm1
+	pinsrb	xmm12, byte ptr [rsi + rdx + 24], 3
+	pinsrb	xmm12, byte ptr [rsi + r14 + 24], 4
+	pinsrb	xmm12, byte ptr [rsi + r8 + 24], 5
+	pinsrb	xmm12, byte ptr [rsi + rbx + 24], 6
+	pinsrb	xmm12, byte ptr [rsi + r15 + 24], 7
+	pinsrb	xmm12, byte ptr [rsi + r11 + 24], 8
+	pinsrb	xmm12, byte ptr [rsi + rcx + 24], 9
+	pinsrb	xmm12, byte ptr [rsi + r9 + 24], 10
+	pinsrb	xmm12, byte ptr [rsi + r10 + 24], 11
+	pinsrb	xmm12, byte ptr [rsi + rax + 24], 12
+	pinsrb	xmm12, byte ptr [rsi + r12 + 24], 13
+	pinsrb	xmm12, byte ptr [rsi + r13 + 24], 14
+	pinsrb	xmm12, byte ptr [rsi + rdi + 24], 15
+	por	xmm8, xmm3
+	pcmpeqb	xmm12, xmm14
+	pinsrb	xmm13, byte ptr [rsi + rdx + 25], 3
+	pinsrb	xmm13, byte ptr [rsi + r14 + 25], 4
+	pinsrb	xmm13, byte ptr [rsi + r8 + 25], 5
+	pinsrb	xmm13, byte ptr [rsi + rbx + 25], 6
+	pinsrb	xmm13, byte ptr [rsi + r15 + 25], 7
+	pinsrb	xmm13, byte ptr [rsi + r11 + 25], 8
+	pinsrb	xmm13, byte ptr [rsi + rcx + 25], 9
+	pinsrb	xmm13, byte ptr [rsi + r9 + 25], 10
+	pinsrb	xmm13, byte ptr [rsi + r10 + 25], 11
+	pinsrb	xmm13, byte ptr [rsi + rax + 25], 12
+	pinsrb	xmm13, byte ptr [rsi + r12 + 25], 13
+	pinsrb	xmm13, byte ptr [rsi + r13 + 25], 14
+	pinsrb	xmm13, byte ptr [rsi + rdi + 25], 15
+	pinsrb	xmm0, byte ptr [rsi + rdx + 26], 3
+	pinsrb	xmm0, byte ptr [rsi + r14 + 26], 4
+	pinsrb	xmm0, byte ptr [rsi + r8 + 26], 5
+	pinsrb	xmm0, byte ptr [rsi + rbx + 26], 6
+	pinsrb	xmm0, byte ptr [rsi + r15 + 26], 7
+	pinsrb	xmm0, byte ptr [rsi + r11 + 26], 8
+	pinsrb	xmm0, byte ptr [rsi + rcx + 26], 9
+	pinsrb	xmm0, byte ptr [rsi + r9 + 26], 10
+	pinsrb	xmm0, byte ptr [rsi + r10 + 26], 11
+	pinsrb	xmm0, byte ptr [rsi + rax + 26], 12
+	pinsrb	xmm0, byte ptr [rsi + r12 + 26], 13
+	pinsrb	xmm0, byte ptr [rsi + r13 + 26], 14
+	pinsrb	xmm0, byte ptr [rsi + rdi + 26], 15
+	pinsrb	xmm11, byte ptr [rsi + rdx + 27], 3
+	pinsrb	xmm11, byte ptr [rsi + r14 + 27], 4
+	pinsrb	xmm11, byte ptr [rsi + r8 + 27], 5
+	pinsrb	xmm11, byte ptr [rsi + rbx + 27], 6
+	pinsrb	xmm11, byte ptr [rsi + r15 + 27], 7
+	pinsrb	xmm11, byte ptr [rsi + r11 + 27], 8
+	pinsrb	xmm11, byte ptr [rsi + rcx + 27], 9
+	pinsrb	xmm11, byte ptr [rsi + r9 + 27], 10
+	pinsrb	xmm11, byte ptr [rsi + r10 + 27], 11
+	pinsrb	xmm11, byte ptr [rsi + rax + 27], 12
+	pinsrb	xmm11, byte ptr [rsi + r12 + 27], 13
+	pinsrb	xmm11, byte ptr [rsi + r13 + 27], 14
+	pcmpeqb	xmm13, xmm14
+	pandn	xmm13, xmmword ptr [rip + .LCPI4_16]
+	paddb	xmm13, xmm12
+	pinsrb	xmm11, byte ptr [rsi + rdi + 27], 15
+	pcmpeqb	xmm0, xmm14
+	pandn	xmm0, xmmword ptr [rip + .LCPI4_17]
+	pcmpeqb	xmm11, xmm14
+	pandn	xmm11, xmmword ptr [rip + .LCPI4_18]
+	por	xmm11, xmm0
+	pinsrb	xmm15, byte ptr [rsi + rdx + 28], 3
+	pinsrb	xmm9, byte ptr [rsi + rdx + 29], 3
+	pinsrb	xmm10, byte ptr [rsi + rdx + 30], 3
+	pinsrb	xmm6, byte ptr [rsi + rdx + 31], 3
+	pinsrb	xmm15, byte ptr [rsi + r14 + 28], 4
+	pinsrb	xmm9, byte ptr [rsi + r14 + 29], 4
+	pinsrb	xmm10, byte ptr [rsi + r14 + 30], 4
+	pinsrb	xmm6, byte ptr [rsi + r14 + 31], 4
+	mov	rdx, r8
+	pinsrb	xmm15, byte ptr [rsi + r8 + 28], 5
+	pinsrb	xmm9, byte ptr [rsi + r8 + 29], 5
+	pinsrb	xmm10, byte ptr [rsi + r8 + 30], 5
+	pinsrb	xmm6, byte ptr [rsi + r8 + 31], 5
+	pinsrb	xmm15, byte ptr [rsi + rbx + 28], 6
+	pinsrb	xmm9, byte ptr [rsi + rbx + 29], 6
+	pinsrb	xmm10, byte ptr [rsi + rbx + 30], 6
+	pinsrb	xmm6, byte ptr [rsi + rbx + 31], 6
+	pinsrb	xmm15, byte ptr [rsi + r15 + 28], 7
+	pinsrb	xmm9, byte ptr [rsi + r15 + 29], 7
+	pinsrb	xmm10, byte ptr [rsi + r15 + 30], 7
+	pinsrb	xmm6, byte ptr [rsi + r15 + 31], 7
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + r11 + 28], 8
+	pinsrb	xmm9, byte ptr [rsi + r11 + 29], 8
+	pinsrb	xmm10, byte ptr [rsi + r11 + 30], 8
+	pinsrb	xmm6, byte ptr [rsi + r11 + 31], 8
+	pinsrb	xmm15, byte ptr [rsi + rcx + 28], 9
+	pinsrb	xmm9, byte ptr [rsi + rcx + 29], 9
+	pinsrb	xmm10, byte ptr [rsi + rcx + 30], 9
+	pinsrb	xmm6, byte ptr [rsi + rcx + 31], 9
+	mov	rdx, r9
+	pinsrb	xmm15, byte ptr [rsi + r9 + 28], 10
+	pinsrb	xmm9, byte ptr [rsi + r9 + 29], 10
+	pinsrb	xmm10, byte ptr [rsi + r9 + 30], 10
+	pinsrb	xmm6, byte ptr [rsi + r9 + 31], 10
+	mov	rdx, r10
+	pinsrb	xmm15, byte ptr [rsi + r10 + 28], 11
+	pinsrb	xmm9, byte ptr [rsi + r10 + 29], 11
+	pinsrb	xmm10, byte ptr [rsi + r10 + 30], 11
+	pinsrb	xmm6, byte ptr [rsi + r10 + 31], 11
+	pinsrb	xmm15, byte ptr [rsi + rax + 28], 12
+	pinsrb	xmm9, byte ptr [rsi + rax + 29], 12
+	pinsrb	xmm10, byte ptr [rsi + rax + 30], 12
+	pinsrb	xmm6, byte ptr [rsi + rax + 31], 12
+	mov	rax, r12
+	pinsrb	xmm15, byte ptr [rsi + r12 + 28], 13
+	pinsrb	xmm9, byte ptr [rsi + r12 + 29], 13
+	pinsrb	xmm10, byte ptr [rsi + r12 + 30], 13
+	pinsrb	xmm6, byte ptr [rsi + r12 + 31], 13
+	pinsrb	xmm15, byte ptr [rsi + r13 + 28], 14
+	pinsrb	xmm9, byte ptr [rsi + r13 + 29], 14
+	pinsrb	xmm10, byte ptr [rsi + r13 + 30], 14
+	pinsrb	xmm6, byte ptr [rsi + r13 + 31], 14
+	mov	rax, rdi
+	pinsrb	xmm15, byte ptr [rsi + rdi + 28], 15
+	pinsrb	xmm9, byte ptr [rsi + rdi + 29], 15
+	pinsrb	xmm10, byte ptr [rsi + rdi + 30], 15
+	pcmpeqb	xmm15, xmm14
+	pandn	xmm15, xmmword ptr [rip + .LCPI4_19]
+	por	xmm15, xmm11
+	pinsrb	xmm6, byte ptr [rsi + rdi + 31], 15
+	psubb	xmm13, xmmword ptr [rip + .LCPI4_22]
+	por	xmm15, xmm13
+	pcmpeqb	xmm9, xmm14
+	pandn	xmm9, xmm5
+	pcmpeqb	xmm10, xmm14
+	pandn	xmm10, xmm7
+	por	xmm10, xmm9
+	pcmpeqb	xmm6, xmm14
+	pandn	xmm6, xmm4
+	por	xmm6, xmm10
+	por	xmm6, xmm15
+	movdqa	xmm0, xmm8
+	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
+	movdqa	xmm3, xmmword ptr [rsp + 208]   # 16-byte Reload
+	movdqa	xmm1, xmm3
+	movdqa	xmm4, xmmword ptr [rsp + 192]   # 16-byte Reload
+	punpcklbw	xmm1, xmm4              # xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
+	movdqa	xmm2, xmm1
+	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
+	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
+	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
+	punpckhbw	xmm3, xmm4              # xmm3 = xmm3[8],xmm4[8],xmm3[9],xmm4[9],xmm3[10],xmm4[10],xmm3[11],xmm4[11],xmm3[12],xmm4[12],xmm3[13],xmm4[13],xmm3[14],xmm4[14],xmm3[15],xmm4[15]
+	movdqa	xmm0, xmm3
+	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
+	punpckhwd	xmm3, xmm8              # xmm3 = xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
+	mov	rcx, qword ptr [rsp + 152]      # 8-byte Reload
+	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm3
+	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm2
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 240]      # 8-byte Folded Reload
+	jne	.LBB4_184
+# %bb.185:
+	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
+	cmp	r10, qword ptr [rsp + 240]      # 8-byte Folded Reload
+	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
+	mov	rsi, qword ptr [rsp + 248]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	jne	.LBB4_69
+	jmp	.LBB4_135
+.LBB4_186:
+	and	r10, -8
+	mov	rax, r10
+	shl	rax, 6
+	add	rax, rsi
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	qword ptr [rsp + 24], r10       # 8-byte Spill
+	lea	rax, [r14 + 4*r10]
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	mov	dword ptr [rsp + 64], r13d      # 4-byte Spill
+	movd	xmm0, r13d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
+	xor	r15d, r15d
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	pxor	xmm15, xmm15
+	.p2align	4, 0x90
+.LBB4_187:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	shl	r15, 6
+	mov	r8, r15
+	mov	r12, r15
+	mov	r13, r15
+	mov	rbx, r15
+	mov	rdi, r15
+	mov	r9, r15
+	movzx	eax, word ptr [rsi + r15]
+	movd	xmm5, eax
+	movzx	eax, word ptr [rsi + r15 + 2]
+	movd	xmm0, eax
+	movzx	eax, word ptr [rsi + r15 + 4]
+	movd	xmm1, eax
+	movzx	eax, word ptr [rsi + r15 + 6]
+	movd	xmm7, eax
+	movzx	eax, word ptr [rsi + r15 + 8]
+	movd	xmm8, eax
+	movzx	eax, word ptr [rsi + r15 + 10]
+	movd	xmm4, eax
+	movzx	eax, word ptr [rsi + r15 + 12]
+	movzx	r10d, word ptr [rsi + r15 + 14]
+	movzx	r11d, word ptr [rsi + r15 + 16]
+	movzx	edx, word ptr [rsi + r15 + 18]
+	movzx	r14d, word ptr [rsi + r15 + 20]
+	mov	rcx, r15
+	or	rcx, 64
+	or	r8, 128
+	or	r12, 192
+	or	r13, 256
+	or	rbx, 320
+	or	rdi, 384
+	pinsrw	xmm5, word ptr [rsi + rcx], 1
+	pinsrw	xmm5, word ptr [rsi + r8], 2
+	pinsrw	xmm5, word ptr [rsi + r12], 3
+	pinsrw	xmm5, word ptr [rsi + r13], 4
+	pinsrw	xmm5, word ptr [rsi + rbx], 5
+	pinsrw	xmm5, word ptr [rsi + rdi], 6
+	pinsrw	xmm0, word ptr [rsi + rcx + 2], 1
+	pinsrw	xmm0, word ptr [rsi + r8 + 2], 2
+	pinsrw	xmm0, word ptr [rsi + r12 + 2], 3
+	pinsrw	xmm0, word ptr [rsi + r13 + 2], 4
+	pinsrw	xmm0, word ptr [rsi + rbx + 2], 5
+	pinsrw	xmm0, word ptr [rsi + rdi + 2], 6
+	or	r9, 448
+	pinsrw	xmm0, word ptr [rsi + r9 + 2], 7
+	movd	xmm2, eax
+	movzx	eax, word ptr [rsi + r15 + 22]
+	mov	dword ptr [rsp + 16], eax       # 4-byte Spill
+	pcmpeqw	xmm0, xmm11
+	pinsrw	xmm1, word ptr [rsi + rcx + 4], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 4], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 4], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 4], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 4], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 4], 6
+	pinsrw	xmm1, word ptr [rsi + r9 + 4], 7
+	packsswb	xmm0, xmm0
+	pcmpeqw	xmm1, xmm11
+	movdqa	xmm9, xmmword ptr [rip + .LCPI4_8] # xmm9 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm3, xmm9
+	pblendvb	xmm3, xmm15, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_9] # xmm0 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm6, xmm0
+	movdqa	xmm14, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm1, r10d
+	movzx	r10d, word ptr [rsi + r15 + 24]
+	pinsrw	xmm5, word ptr [rsi + r9], 7
+	pcmpeqw	xmm5, xmm11
+	pcmpeqd	xmm0, xmm0
+	pxor	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pinsrw	xmm7, word ptr [rsi + rcx + 6], 1
+	pinsrw	xmm7, word ptr [rsi + r8 + 6], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 6], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 6], 4
+	pinsrw	xmm7, word ptr [rsi + rbx + 6], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 6], 6
+	pinsrw	xmm7, word ptr [rsi + r9 + 6], 7
+	pcmpeqw	xmm7, xmm11
+	packsswb	xmm7, xmm7
+	pinsrw	xmm8, word ptr [rsi + rcx + 8], 1
+	pinsrw	xmm8, word ptr [rsi + r8 + 8], 2
+	pinsrw	xmm8, word ptr [rsi + r12 + 8], 3
+	pinsrw	xmm8, word ptr [rsi + r13 + 8], 4
+	pinsrw	xmm8, word ptr [rsi + rbx + 8], 5
+	pinsrw	xmm8, word ptr [rsi + rdi + 8], 6
+	pinsrw	xmm8, word ptr [rsi + r9 + 8], 7
+	psubb	xmm3, xmm5
+	movdqa	xmm12, xmmword ptr [rip + .LCPI4_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm7
+	pblendvb	xmm12, xmm15, xmm0
+	movd	xmm7, r11d
+	movzx	eax, word ptr [rsi + r15 + 26]
+	pcmpeqw	xmm8, xmm11
+	packsswb	xmm8, xmm8
+	por	xmm12, xmm6
+	movdqa	xmm13, xmmword ptr [rip + .LCPI4_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm8
+	pblendvb	xmm13, xmm15, xmm0
+	movd	xmm6, edx
+	movzx	r11d, word ptr [rsi + r15 + 28]
+	pinsrw	xmm4, word ptr [rsi + rcx + 10], 1
+	pinsrw	xmm4, word ptr [rsi + r8 + 10], 2
+	pinsrw	xmm4, word ptr [rsi + r12 + 10], 3
+	pinsrw	xmm4, word ptr [rsi + r13 + 10], 4
+	pinsrw	xmm4, word ptr [rsi + rbx + 10], 5
+	pinsrw	xmm4, word ptr [rsi + rdi + 10], 6
+	pinsrw	xmm4, word ptr [rsi + r9 + 10], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	pinsrw	xmm2, word ptr [rsi + rcx + 12], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 12], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 12], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 12], 4
+	pinsrw	xmm2, word ptr [rsi + rbx + 12], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 12], 6
+	por	xmm12, xmm3
+	movdqa	xmm5, xmmword ptr [rip + .LCPI4_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm5, xmm15, xmm0
+	movd	xmm4, r14d
+	movzx	edx, word ptr [rsi + r15 + 30]
+	mov	dword ptr [rsp + 48], edx       # 4-byte Spill
+	pinsrw	xmm2, word ptr [rsi + r9 + 12], 7
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm5, xmm13
+	movdqa	xmm13, xmmword ptr [rip + .LCPI4_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm13, xmm15, xmm0
+	movd	xmm3, dword ptr [rsp + 16]      # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	edx, word ptr [rsi + r15 + 32]
+	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
+	pinsrw	xmm1, word ptr [rsi + rcx + 14], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 14], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 14], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 14], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 14], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 14], 6
+	por	xmm13, xmm5
+	movd	xmm2, r10d
+	movzx	edx, word ptr [rsi + r15 + 34]
+	mov	dword ptr [rsp + 16], edx       # 4-byte Spill
+	pinsrw	xmm1, word ptr [rsi + r9 + 14], 7
+	pcmpeqw	xmm1, xmm11
+	pinsrw	xmm6, word ptr [rsi + rcx + 18], 1
+	pinsrw	xmm6, word ptr [rsi + r8 + 18], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 18], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 18], 4
+	pinsrw	xmm6, word ptr [rsi + rbx + 18], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 18], 6
+	packsswb	xmm1, xmm1
+	pinsrw	xmm6, word ptr [rsi + r9 + 18], 7
+	pcmpeqw	xmm6, xmm11
+	packsswb	xmm6, xmm6
+	por	xmm13, xmm12
+	movdqa	xmm12, xmmword ptr [rip + .LCPI4_14] # xmm12 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm12, xmm15, xmm0
+	movdqa	xmm8, xmm9
+	movdqa	xmm0, xmm6
+	pblendvb	xmm8, xmm15, xmm0
+	movd	xmm1, eax
+	movzx	r14d, word ptr [rsi + r15 + 36]
+	pinsrw	xmm7, word ptr [rsi + rcx + 16], 1
+	pinsrw	xmm7, word ptr [rsi + r8 + 16], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 16], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 16], 4
+	pinsrw	xmm7, word ptr [rsi + rbx + 16], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 16], 6
+	pinsrw	xmm4, word ptr [rsi + rcx + 20], 1
+	pinsrw	xmm4, word ptr [rsi + r8 + 20], 2
+	pinsrw	xmm4, word ptr [rsi + r12 + 20], 3
+	pinsrw	xmm4, word ptr [rsi + r13 + 20], 4
+	pinsrw	xmm4, word ptr [rsi + rbx + 20], 5
+	pinsrw	xmm4, word ptr [rsi + rdi + 20], 6
+	pinsrw	xmm4, word ptr [rsi + r9 + 20], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm12, xmm13
+	movdqa	xmm5, xmm14
+	movdqa	xmm0, xmm4
+	pblendvb	xmm5, xmm15, xmm0
+	movd	xmm4, r11d
+	movzx	r11d, word ptr [rsi + r15 + 38]
+	pinsrw	xmm7, word ptr [rsi + r9 + 16], 7
+	pcmpeqw	xmm7, xmm11
+	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
+	packsswb	xmm7, xmm7
+	pinsrw	xmm3, word ptr [rsi + rcx + 22], 1
+	pinsrw	xmm3, word ptr [rsi + r8 + 22], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 22], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 22], 4
+	pinsrw	xmm3, word ptr [rsi + rbx + 22], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 22], 6
+	pinsrw	xmm3, word ptr [rsi + r9 + 22], 7
+	pcmpeqw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	pinsrw	xmm2, word ptr [rsi + rcx + 24], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 24], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 24], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 24], 4
+	pinsrw	xmm2, word ptr [rsi + rbx + 24], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 24], 6
+	pinsrw	xmm2, word ptr [rsi + r9 + 24], 7
+	psubb	xmm8, xmm7
+	movdqa	xmm10, xmmword ptr [rip + .LCPI4_10] # xmm10 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm14, xmm10
+	movdqa	xmm0, xmm3
+	pblendvb	xmm14, xmm15, xmm0
+	movd	xmm3, dword ptr [rsp + 48]      # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [rsi + r15 + 40]
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm14, xmm5
+	movdqa	xmm9, xmmword ptr [rip + .LCPI4_11] # xmm9 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm13, xmm9
+	movdqa	xmm0, xmm2
+	pblendvb	xmm13, xmm15, xmm0
+	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [rsi + r15 + 42]
+	pinsrw	xmm1, word ptr [rsi + rcx + 26], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 26], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 26], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 26], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 26], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 26], 6
+	pinsrw	xmm1, word ptr [rsi + r9 + 26], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	pinsrw	xmm4, word ptr [rsi + rcx + 28], 1
+	pinsrw	xmm4, word ptr [rsi + r8 + 28], 2
+	pinsrw	xmm4, word ptr [rsi + r12 + 28], 3
+	pinsrw	xmm4, word ptr [rsi + r13 + 28], 4
+	pinsrw	xmm4, word ptr [rsi + rbx + 28], 5
+	pinsrw	xmm4, word ptr [rsi + rdi + 28], 6
+	por	xmm14, xmm8
+	movdqa	xmm5, xmmword ptr [rip + .LCPI4_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm15, xmm0
+	movd	xmm2, dword ptr [rsp + 16]      # 4-byte Folded Reload
+                                        # xmm2 = mem[0],zero,zero,zero
+	movzx	edx, word ptr [rsi + r15 + 44]
+	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
+	pinsrw	xmm4, word ptr [rsi + r9 + 28], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm5, xmm13
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm4, r14d
+	movzx	edx, word ptr [rsi + r15 + 46]
+	mov	dword ptr [rsp + 16], edx       # 4-byte Spill
+	pinsrw	xmm3, word ptr [rsi + rcx + 30], 1
+	pinsrw	xmm3, word ptr [rsi + r8 + 30], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 30], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 30], 4
+	pinsrw	xmm3, word ptr [rsi + rbx + 30], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 30], 6
+	por	xmm6, xmm5
+	movd	xmm1, r11d
+	movzx	r11d, word ptr [rsi + r15 + 48]
+	pinsrw	xmm3, word ptr [rsi + r9 + 30], 7
+	pcmpeqw	xmm3, xmm11
+	pinsrw	xmm2, word ptr [rsi + rcx + 34], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 34], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 34], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 34], 4
+	pinsrw	xmm2, word ptr [rsi + rbx + 34], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 34], 6
+	packsswb	xmm3, xmm3
+	pinsrw	xmm2, word ptr [rsi + r9 + 34], 7
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm6, xmm14
+	movdqa	xmm14, xmmword ptr [rip + .LCPI4_14] # xmm14 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
+	movdqa	xmm13, xmm14
+	movdqa	xmm0, xmm3
+	pblendvb	xmm13, xmm15, xmm0
+	movdqa	xmm8, xmmword ptr [rip + .LCPI4_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm8, xmm15, xmm0
+	movd	xmm2, eax
+	movzx	r14d, word ptr [rsi + r15 + 50]
+	pinsrw	xmm7, word ptr [rsi + rcx + 32], 1
+	pinsrw	xmm7, word ptr [rsi + r8 + 32], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 32], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 32], 4
+	pinsrw	xmm7, word ptr [rsi + rbx + 32], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 32], 6
+	pinsrw	xmm4, word ptr [rsi + rcx + 36], 1
+	pinsrw	xmm4, word ptr [rsi + r8 + 36], 2
+	pinsrw	xmm4, word ptr [rsi + r12 + 36], 3
+	pinsrw	xmm4, word ptr [rsi + r13 + 36], 4
+	pinsrw	xmm4, word ptr [rsi + rbx + 36], 5
+	pinsrw	xmm4, word ptr [rsi + rdi + 36], 6
+	pinsrw	xmm4, word ptr [rsi + r9 + 36], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm13, xmm6
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm3, r10d
+	movzx	edx, word ptr [rsi + r15 + 52]
+	pinsrw	xmm7, word ptr [rsi + r9 + 32], 7
+	pcmpeqw	xmm7, xmm11
+	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
+	packsswb	xmm7, xmm7
+	pinsrw	xmm1, word ptr [rsi + rcx + 38], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 38], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 38], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 38], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 38], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 38], 6
+	pinsrw	xmm1, word ptr [rsi + r9 + 38], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	pinsrw	xmm2, word ptr [rsi + rcx + 40], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 40], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 40], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 40], 4
+	pinsrw	xmm2, word ptr [rsi + rbx + 40], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 40], 6
+	pinsrw	xmm2, word ptr [rsi + r9 + 40], 7
+	psubb	xmm8, xmm7
+	movdqa	xmm5, xmm10
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm15, xmm0
+	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [rsi + r15 + 54]
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm5, xmm6
+	movdqa	xmm6, xmm9
+	movdqa	xmm0, xmm2
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm4, dword ptr [rsp + 16]      # 4-byte Folded Reload
+                                        # xmm4 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [rsi + r15 + 56]
+	pinsrw	xmm3, word ptr [rsi + rcx + 42], 1
+	pinsrw	xmm3, word ptr [rsi + r8 + 42], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 42], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 42], 4
+	pinsrw	xmm3, word ptr [rsi + rbx + 42], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 42], 6
+	pinsrw	xmm3, word ptr [rsi + r9 + 42], 7
+	pcmpeqw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	pinsrw	xmm1, word ptr [rsi + rcx + 44], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 44], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 44], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 44], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 44], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 44], 6
+	por	xmm5, xmm8
+	movdqa	xmm9, xmmword ptr [rip + .LCPI4_12] # xmm9 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm2, xmm9
+	movdqa	xmm0, xmm3
+	pblendvb	xmm2, xmm15, xmm0
+	movd	xmm7, r11d
+	movzx	r11d, word ptr [rsi + r15 + 58]
+	pinsrw	xmm1, word ptr [rsi + r9 + 44], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	por	xmm2, xmm6
+	movdqa	xmm10, xmmword ptr [rip + .LCPI4_13] # xmm10 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm6, xmm10
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm1, r14d
+	movzx	r14d, word ptr [rsi + r15 + 60]
+	por	xmm6, xmm2
+	movd	xmm2, edx
+	pinsrw	xmm4, word ptr [rsi + rcx + 46], 1
+	pinsrw	xmm4, word ptr [rsi + r8 + 46], 2
+	pinsrw	xmm4, word ptr [rsi + r12 + 46], 3
+	pinsrw	xmm4, word ptr [rsi + r13 + 46], 4
+	pinsrw	xmm4, word ptr [rsi + rbx + 46], 5
+	pinsrw	xmm4, word ptr [rsi + rdi + 46], 6
+	pinsrw	xmm4, word ptr [rsi + r9 + 46], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm6, xmm5
+	movdqa	xmm8, xmm14
+	movdqa	xmm0, xmm4
+	pblendvb	xmm8, xmm15, xmm0
+	movd	xmm3, r10d
+	pinsrw	xmm1, word ptr [rsi + rcx + 50], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 50], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 50], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
+	pinsrw	xmm1, word ptr [rsi + r9 + 50], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	por	xmm8, xmm6
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm15, xmm0
+	movd	xmm1, eax
+	pinsrw	xmm7, word ptr [rsi + rcx + 48], 1
+	pinsrw	xmm7, word ptr [rsi + r8 + 48], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 48], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 48], 4
+	pinsrw	xmm7, word ptr [rsi + rbx + 48], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 48], 6
+	pinsrw	xmm7, word ptr [rsi + r9 + 48], 7
+	pcmpeqw	xmm7, xmm11
+	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
+	pinsrw	xmm2, word ptr [rsi + rcx + 52], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 52], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 52], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 52], 4
+	pinsrw	xmm2, word ptr [rsi + rbx + 52], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 52], 6
+	packsswb	xmm7, xmm7
+	pinsrw	xmm2, word ptr [rsi + r9 + 52], 7
+	pcmpeqw	xmm2, xmm11
+	pinsrw	xmm3, word ptr [rsi + rcx + 54], 1
+	pinsrw	xmm3, word ptr [rsi + r8 + 54], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 54], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 54], 4
+	pinsrw	xmm3, word ptr [rsi + rbx + 54], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 54], 6
+	packsswb	xmm2, xmm2
+	pinsrw	xmm3, word ptr [rsi + r9 + 54], 7
+	pcmpeqw	xmm3, xmm11
+	pinsrw	xmm1, word ptr [rsi + rcx + 56], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 56], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 56], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 56], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 56], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 56], 6
+	packsswb	xmm3, xmm3
+	pinsrw	xmm1, word ptr [rsi + r9 + 56], 7
+	psubb	xmm4, xmm7
+	movdqa	xmm5, xmmword ptr [rip + .LCPI4_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm5, xmm15, xmm0
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm3
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm2, r11d
+	pcmpeqw	xmm1, xmm11
+	pinsrw	xmm2, word ptr [rsi + rcx + 58], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 58], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 58], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 58], 4
+	pinsrw	xmm2, word ptr [rsi + rbx + 58], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 58], 6
+	pinsrw	xmm2, word ptr [rsi + r9 + 58], 7
+	packsswb	xmm1, xmm1
+	pcmpeqw	xmm2, xmm11
+	por	xmm6, xmm5
+	movd	xmm3, r14d
+	pinsrw	xmm3, word ptr [rsi + rcx + 60], 1
+	pinsrw	xmm3, word ptr [rsi + r8 + 60], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 60], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 60], 4
+	pinsrw	xmm3, word ptr [rsi + rbx + 60], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 60], 6
+	packsswb	xmm2, xmm2
+	pinsrw	xmm3, word ptr [rsi + r9 + 60], 7
+	pcmpeqw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	por	xmm6, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm15, xmm0
+	movdqa	xmm1, xmm9
+	movdqa	xmm0, xmm2
+	pblendvb	xmm1, xmm15, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm10, xmm15, xmm0
+	por	xmm1, xmm4
+	movzx	eax, word ptr [rsi + r15 + 62]
+	por	xmm10, xmm1
+	movd	xmm0, eax
+	pinsrw	xmm0, word ptr [rsi + rcx + 62], 1
+	pinsrw	xmm0, word ptr [rsi + r8 + 62], 2
+	pinsrw	xmm0, word ptr [rsi + r12 + 62], 3
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrw	xmm0, word ptr [rsi + r13 + 62], 4
+	pinsrw	xmm0, word ptr [rsi + rbx + 62], 5
+	pinsrw	xmm0, word ptr [rsi + rdi + 62], 6
+	pinsrw	xmm0, word ptr [rsi + r9 + 62], 7
+	pcmpeqw	xmm0, xmm11
+	packsswb	xmm0, xmm0
+	por	xmm10, xmm6
+	pblendvb	xmm14, xmm15, xmm0
+	por	xmm14, xmm10
+	movdqa	xmm0, xmm12
+	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
+	movdqa	xmm2, xmm8
+	punpcklqdq	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI4_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
+	pshufb	xmm2, xmm3
+	pshufb	xmm0, xmm3
+	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
+	punpcklbw	xmm8, xmm14             # xmm8 = xmm8[0],xmm14[0],xmm8[1],xmm14[1],xmm8[2],xmm14[2],xmm8[3],xmm14[3],xmm8[4],xmm14[4],xmm8[5],xmm14[5],xmm8[6],xmm14[6],xmm8[7],xmm14[7]
+	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
+	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm12
+	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm0
+	add	rcx, 8
+	mov	r15, rcx
+	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	jne	.LBB4_187
+# %bb.188:
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+	cmp	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r13d, dword ptr [rsp + 64]      # 4-byte Reload
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	jne	.LBB4_92
+	jmp	.LBB4_139
+.LBB4_189:
+	and	r10, -8
+	mov	rax, r10
+	shl	rax, 6
+	add	rax, rsi
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	qword ptr [rsp + 24], r10       # 8-byte Spill
+	lea	rax, [r14 + 4*r10]
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	mov	dword ptr [rsp + 64], r13d      # 4-byte Spill
+	movd	xmm0, r13d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
+	xor	r15d, r15d
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	pxor	xmm15, xmm15
+	.p2align	4, 0x90
+.LBB4_190:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	shl	r15, 6
+	mov	r8, r15
+	mov	r12, r15
+	mov	r13, r15
+	mov	rbx, r15
+	mov	rdi, r15
+	mov	r9, r15
+	movzx	eax, word ptr [rsi + r15]
+	movd	xmm5, eax
+	movzx	eax, word ptr [rsi + r15 + 2]
+	movd	xmm0, eax
+	movzx	eax, word ptr [rsi + r15 + 4]
+	movd	xmm1, eax
+	movzx	eax, word ptr [rsi + r15 + 6]
+	movd	xmm7, eax
+	movzx	eax, word ptr [rsi + r15 + 8]
+	movd	xmm8, eax
+	movzx	eax, word ptr [rsi + r15 + 10]
+	movd	xmm4, eax
+	movzx	eax, word ptr [rsi + r15 + 12]
+	movzx	r10d, word ptr [rsi + r15 + 14]
+	movzx	r11d, word ptr [rsi + r15 + 16]
+	movzx	edx, word ptr [rsi + r15 + 18]
+	movzx	r14d, word ptr [rsi + r15 + 20]
+	mov	rcx, r15
+	or	rcx, 64
+	or	r8, 128
+	or	r12, 192
+	or	r13, 256
+	or	rbx, 320
+	or	rdi, 384
+	pinsrw	xmm5, word ptr [rsi + rcx], 1
+	pinsrw	xmm5, word ptr [rsi + r8], 2
+	pinsrw	xmm5, word ptr [rsi + r12], 3
+	pinsrw	xmm5, word ptr [rsi + r13], 4
+	pinsrw	xmm5, word ptr [rsi + rbx], 5
+	pinsrw	xmm5, word ptr [rsi + rdi], 6
+	pinsrw	xmm0, word ptr [rsi + rcx + 2], 1
+	pinsrw	xmm0, word ptr [rsi + r8 + 2], 2
+	pinsrw	xmm0, word ptr [rsi + r12 + 2], 3
+	pinsrw	xmm0, word ptr [rsi + r13 + 2], 4
+	pinsrw	xmm0, word ptr [rsi + rbx + 2], 5
+	pinsrw	xmm0, word ptr [rsi + rdi + 2], 6
+	or	r9, 448
+	pinsrw	xmm0, word ptr [rsi + r9 + 2], 7
+	movd	xmm2, eax
+	movzx	eax, word ptr [rsi + r15 + 22]
+	mov	dword ptr [rsp + 16], eax       # 4-byte Spill
+	pcmpeqw	xmm0, xmm11
+	pinsrw	xmm1, word ptr [rsi + rcx + 4], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 4], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 4], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 4], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 4], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 4], 6
+	pinsrw	xmm1, word ptr [rsi + r9 + 4], 7
+	packsswb	xmm0, xmm0
+	pcmpeqw	xmm1, xmm11
+	movdqa	xmm9, xmmword ptr [rip + .LCPI4_8] # xmm9 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm3, xmm9
+	pblendvb	xmm3, xmm15, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI4_9] # xmm0 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm6, xmm0
+	movdqa	xmm14, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm1, r10d
+	movzx	r10d, word ptr [rsi + r15 + 24]
+	pinsrw	xmm5, word ptr [rsi + r9], 7
+	pcmpeqw	xmm5, xmm11
+	pcmpeqd	xmm0, xmm0
+	pxor	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pinsrw	xmm7, word ptr [rsi + rcx + 6], 1
+	pinsrw	xmm7, word ptr [rsi + r8 + 6], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 6], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 6], 4
+	pinsrw	xmm7, word ptr [rsi + rbx + 6], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 6], 6
+	pinsrw	xmm7, word ptr [rsi + r9 + 6], 7
+	pcmpeqw	xmm7, xmm11
+	packsswb	xmm7, xmm7
+	pinsrw	xmm8, word ptr [rsi + rcx + 8], 1
+	pinsrw	xmm8, word ptr [rsi + r8 + 8], 2
+	pinsrw	xmm8, word ptr [rsi + r12 + 8], 3
+	pinsrw	xmm8, word ptr [rsi + r13 + 8], 4
+	pinsrw	xmm8, word ptr [rsi + rbx + 8], 5
+	pinsrw	xmm8, word ptr [rsi + rdi + 8], 6
+	pinsrw	xmm8, word ptr [rsi + r9 + 8], 7
+	psubb	xmm3, xmm5
+	movdqa	xmm12, xmmword ptr [rip + .LCPI4_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm7
+	pblendvb	xmm12, xmm15, xmm0
+	movd	xmm7, r11d
+	movzx	eax, word ptr [rsi + r15 + 26]
+	pcmpeqw	xmm8, xmm11
+	packsswb	xmm8, xmm8
+	por	xmm12, xmm6
+	movdqa	xmm13, xmmword ptr [rip + .LCPI4_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm8
+	pblendvb	xmm13, xmm15, xmm0
+	movd	xmm6, edx
+	movzx	r11d, word ptr [rsi + r15 + 28]
+	pinsrw	xmm4, word ptr [rsi + rcx + 10], 1
+	pinsrw	xmm4, word ptr [rsi + r8 + 10], 2
+	pinsrw	xmm4, word ptr [rsi + r12 + 10], 3
+	pinsrw	xmm4, word ptr [rsi + r13 + 10], 4
+	pinsrw	xmm4, word ptr [rsi + rbx + 10], 5
+	pinsrw	xmm4, word ptr [rsi + rdi + 10], 6
+	pinsrw	xmm4, word ptr [rsi + r9 + 10], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	pinsrw	xmm2, word ptr [rsi + rcx + 12], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 12], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 12], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 12], 4
+	pinsrw	xmm2, word ptr [rsi + rbx + 12], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 12], 6
+	por	xmm12, xmm3
+	movdqa	xmm5, xmmword ptr [rip + .LCPI4_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm5, xmm15, xmm0
+	movd	xmm4, r14d
+	movzx	edx, word ptr [rsi + r15 + 30]
+	mov	dword ptr [rsp + 48], edx       # 4-byte Spill
+	pinsrw	xmm2, word ptr [rsi + r9 + 12], 7
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm5, xmm13
+	movdqa	xmm13, xmmword ptr [rip + .LCPI4_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm13, xmm15, xmm0
+	movd	xmm3, dword ptr [rsp + 16]      # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	edx, word ptr [rsi + r15 + 32]
+	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
+	pinsrw	xmm1, word ptr [rsi + rcx + 14], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 14], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 14], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 14], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 14], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 14], 6
+	por	xmm13, xmm5
+	movd	xmm2, r10d
+	movzx	edx, word ptr [rsi + r15 + 34]
+	mov	dword ptr [rsp + 16], edx       # 4-byte Spill
+	pinsrw	xmm1, word ptr [rsi + r9 + 14], 7
+	pcmpeqw	xmm1, xmm11
+	pinsrw	xmm6, word ptr [rsi + rcx + 18], 1
+	pinsrw	xmm6, word ptr [rsi + r8 + 18], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 18], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 18], 4
+	pinsrw	xmm6, word ptr [rsi + rbx + 18], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 18], 6
+	packsswb	xmm1, xmm1
+	pinsrw	xmm6, word ptr [rsi + r9 + 18], 7
+	pcmpeqw	xmm6, xmm11
+	packsswb	xmm6, xmm6
+	por	xmm13, xmm12
+	movdqa	xmm12, xmmword ptr [rip + .LCPI4_14] # xmm12 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm12, xmm15, xmm0
+	movdqa	xmm8, xmm9
+	movdqa	xmm0, xmm6
+	pblendvb	xmm8, xmm15, xmm0
+	movd	xmm1, eax
+	movzx	r14d, word ptr [rsi + r15 + 36]
+	pinsrw	xmm7, word ptr [rsi + rcx + 16], 1
+	pinsrw	xmm7, word ptr [rsi + r8 + 16], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 16], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 16], 4
+	pinsrw	xmm7, word ptr [rsi + rbx + 16], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 16], 6
+	pinsrw	xmm4, word ptr [rsi + rcx + 20], 1
+	pinsrw	xmm4, word ptr [rsi + r8 + 20], 2
+	pinsrw	xmm4, word ptr [rsi + r12 + 20], 3
+	pinsrw	xmm4, word ptr [rsi + r13 + 20], 4
+	pinsrw	xmm4, word ptr [rsi + rbx + 20], 5
+	pinsrw	xmm4, word ptr [rsi + rdi + 20], 6
+	pinsrw	xmm4, word ptr [rsi + r9 + 20], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm12, xmm13
+	movdqa	xmm5, xmm14
+	movdqa	xmm0, xmm4
+	pblendvb	xmm5, xmm15, xmm0
+	movd	xmm4, r11d
+	movzx	r11d, word ptr [rsi + r15 + 38]
+	pinsrw	xmm7, word ptr [rsi + r9 + 16], 7
+	pcmpeqw	xmm7, xmm11
+	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
+	packsswb	xmm7, xmm7
+	pinsrw	xmm3, word ptr [rsi + rcx + 22], 1
+	pinsrw	xmm3, word ptr [rsi + r8 + 22], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 22], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 22], 4
+	pinsrw	xmm3, word ptr [rsi + rbx + 22], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 22], 6
+	pinsrw	xmm3, word ptr [rsi + r9 + 22], 7
+	pcmpeqw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	pinsrw	xmm2, word ptr [rsi + rcx + 24], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 24], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 24], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 24], 4
+	pinsrw	xmm2, word ptr [rsi + rbx + 24], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 24], 6
+	pinsrw	xmm2, word ptr [rsi + r9 + 24], 7
+	psubb	xmm8, xmm7
+	movdqa	xmm10, xmmword ptr [rip + .LCPI4_10] # xmm10 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm14, xmm10
+	movdqa	xmm0, xmm3
+	pblendvb	xmm14, xmm15, xmm0
+	movd	xmm3, dword ptr [rsp + 48]      # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [rsi + r15 + 40]
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm14, xmm5
+	movdqa	xmm9, xmmword ptr [rip + .LCPI4_11] # xmm9 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm13, xmm9
+	movdqa	xmm0, xmm2
+	pblendvb	xmm13, xmm15, xmm0
+	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [rsi + r15 + 42]
+	pinsrw	xmm1, word ptr [rsi + rcx + 26], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 26], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 26], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 26], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 26], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 26], 6
+	pinsrw	xmm1, word ptr [rsi + r9 + 26], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	pinsrw	xmm4, word ptr [rsi + rcx + 28], 1
+	pinsrw	xmm4, word ptr [rsi + r8 + 28], 2
+	pinsrw	xmm4, word ptr [rsi + r12 + 28], 3
+	pinsrw	xmm4, word ptr [rsi + r13 + 28], 4
+	pinsrw	xmm4, word ptr [rsi + rbx + 28], 5
+	pinsrw	xmm4, word ptr [rsi + rdi + 28], 6
+	por	xmm14, xmm8
+	movdqa	xmm5, xmmword ptr [rip + .LCPI4_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm15, xmm0
+	movd	xmm2, dword ptr [rsp + 16]      # 4-byte Folded Reload
+                                        # xmm2 = mem[0],zero,zero,zero
+	movzx	edx, word ptr [rsi + r15 + 44]
+	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
+	pinsrw	xmm4, word ptr [rsi + r9 + 28], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm5, xmm13
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm4, r14d
+	movzx	edx, word ptr [rsi + r15 + 46]
+	mov	dword ptr [rsp + 16], edx       # 4-byte Spill
+	pinsrw	xmm3, word ptr [rsi + rcx + 30], 1
+	pinsrw	xmm3, word ptr [rsi + r8 + 30], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 30], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 30], 4
+	pinsrw	xmm3, word ptr [rsi + rbx + 30], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 30], 6
+	por	xmm6, xmm5
+	movd	xmm1, r11d
+	movzx	r11d, word ptr [rsi + r15 + 48]
+	pinsrw	xmm3, word ptr [rsi + r9 + 30], 7
+	pcmpeqw	xmm3, xmm11
+	pinsrw	xmm2, word ptr [rsi + rcx + 34], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 34], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 34], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 34], 4
+	pinsrw	xmm2, word ptr [rsi + rbx + 34], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 34], 6
+	packsswb	xmm3, xmm3
+	pinsrw	xmm2, word ptr [rsi + r9 + 34], 7
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm6, xmm14
+	movdqa	xmm14, xmmword ptr [rip + .LCPI4_14] # xmm14 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
+	movdqa	xmm13, xmm14
+	movdqa	xmm0, xmm3
+	pblendvb	xmm13, xmm15, xmm0
+	movdqa	xmm8, xmmword ptr [rip + .LCPI4_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm8, xmm15, xmm0
+	movd	xmm2, eax
+	movzx	r14d, word ptr [rsi + r15 + 50]
+	pinsrw	xmm7, word ptr [rsi + rcx + 32], 1
+	pinsrw	xmm7, word ptr [rsi + r8 + 32], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 32], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 32], 4
+	pinsrw	xmm7, word ptr [rsi + rbx + 32], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 32], 6
+	pinsrw	xmm4, word ptr [rsi + rcx + 36], 1
+	pinsrw	xmm4, word ptr [rsi + r8 + 36], 2
+	pinsrw	xmm4, word ptr [rsi + r12 + 36], 3
+	pinsrw	xmm4, word ptr [rsi + r13 + 36], 4
+	pinsrw	xmm4, word ptr [rsi + rbx + 36], 5
+	pinsrw	xmm4, word ptr [rsi + rdi + 36], 6
+	pinsrw	xmm4, word ptr [rsi + r9 + 36], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm13, xmm6
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm3, r10d
+	movzx	edx, word ptr [rsi + r15 + 52]
+	pinsrw	xmm7, word ptr [rsi + r9 + 32], 7
+	pcmpeqw	xmm7, xmm11
+	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
+	packsswb	xmm7, xmm7
+	pinsrw	xmm1, word ptr [rsi + rcx + 38], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 38], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 38], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 38], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 38], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 38], 6
+	pinsrw	xmm1, word ptr [rsi + r9 + 38], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	pinsrw	xmm2, word ptr [rsi + rcx + 40], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 40], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 40], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 40], 4
+	pinsrw	xmm2, word ptr [rsi + rbx + 40], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 40], 6
+	pinsrw	xmm2, word ptr [rsi + r9 + 40], 7
+	psubb	xmm8, xmm7
+	movdqa	xmm5, xmm10
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm15, xmm0
+	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [rsi + r15 + 54]
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm5, xmm6
+	movdqa	xmm6, xmm9
+	movdqa	xmm0, xmm2
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm4, dword ptr [rsp + 16]      # 4-byte Folded Reload
+                                        # xmm4 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [rsi + r15 + 56]
+	pinsrw	xmm3, word ptr [rsi + rcx + 42], 1
+	pinsrw	xmm3, word ptr [rsi + r8 + 42], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 42], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 42], 4
+	pinsrw	xmm3, word ptr [rsi + rbx + 42], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 42], 6
+	pinsrw	xmm3, word ptr [rsi + r9 + 42], 7
+	pcmpeqw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	pinsrw	xmm1, word ptr [rsi + rcx + 44], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 44], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 44], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 44], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 44], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 44], 6
+	por	xmm5, xmm8
+	movdqa	xmm9, xmmword ptr [rip + .LCPI4_12] # xmm9 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm2, xmm9
+	movdqa	xmm0, xmm3
+	pblendvb	xmm2, xmm15, xmm0
+	movd	xmm7, r11d
+	movzx	r11d, word ptr [rsi + r15 + 58]
+	pinsrw	xmm1, word ptr [rsi + r9 + 44], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	por	xmm2, xmm6
+	movdqa	xmm10, xmmword ptr [rip + .LCPI4_13] # xmm10 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm6, xmm10
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm1, r14d
+	movzx	r14d, word ptr [rsi + r15 + 60]
+	por	xmm6, xmm2
+	movd	xmm2, edx
+	pinsrw	xmm4, word ptr [rsi + rcx + 46], 1
+	pinsrw	xmm4, word ptr [rsi + r8 + 46], 2
+	pinsrw	xmm4, word ptr [rsi + r12 + 46], 3
+	pinsrw	xmm4, word ptr [rsi + r13 + 46], 4
+	pinsrw	xmm4, word ptr [rsi + rbx + 46], 5
+	pinsrw	xmm4, word ptr [rsi + rdi + 46], 6
+	pinsrw	xmm4, word ptr [rsi + r9 + 46], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm6, xmm5
+	movdqa	xmm8, xmm14
+	movdqa	xmm0, xmm4
+	pblendvb	xmm8, xmm15, xmm0
+	movd	xmm3, r10d
+	pinsrw	xmm1, word ptr [rsi + rcx + 50], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 50], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 50], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
+	pinsrw	xmm1, word ptr [rsi + r9 + 50], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	por	xmm8, xmm6
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm15, xmm0
+	movd	xmm1, eax
+	pinsrw	xmm7, word ptr [rsi + rcx + 48], 1
+	pinsrw	xmm7, word ptr [rsi + r8 + 48], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 48], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 48], 4
+	pinsrw	xmm7, word ptr [rsi + rbx + 48], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 48], 6
+	pinsrw	xmm7, word ptr [rsi + r9 + 48], 7
+	pcmpeqw	xmm7, xmm11
+	pxor	xmm7, xmmword ptr [rip + .LCPI4_22]
+	pinsrw	xmm2, word ptr [rsi + rcx + 52], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 52], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 52], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 52], 4
+	pinsrw	xmm2, word ptr [rsi + rbx + 52], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 52], 6
+	packsswb	xmm7, xmm7
+	pinsrw	xmm2, word ptr [rsi + r9 + 52], 7
+	pcmpeqw	xmm2, xmm11
+	pinsrw	xmm3, word ptr [rsi + rcx + 54], 1
+	pinsrw	xmm3, word ptr [rsi + r8 + 54], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 54], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 54], 4
+	pinsrw	xmm3, word ptr [rsi + rbx + 54], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 54], 6
+	packsswb	xmm2, xmm2
+	pinsrw	xmm3, word ptr [rsi + r9 + 54], 7
+	pcmpeqw	xmm3, xmm11
+	pinsrw	xmm1, word ptr [rsi + rcx + 56], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 56], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 56], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 56], 4
+	pinsrw	xmm1, word ptr [rsi + rbx + 56], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 56], 6
+	packsswb	xmm3, xmm3
+	pinsrw	xmm1, word ptr [rsi + r9 + 56], 7
+	psubb	xmm4, xmm7
+	movdqa	xmm5, xmmword ptr [rip + .LCPI4_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm5, xmm15, xmm0
+	movdqa	xmm6, xmmword ptr [rip + .LCPI4_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm3
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm2, r11d
+	pcmpeqw	xmm1, xmm11
+	pinsrw	xmm2, word ptr [rsi + rcx + 58], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 58], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 58], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 58], 4
+	pinsrw	xmm2, word ptr [rsi + rbx + 58], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 58], 6
+	pinsrw	xmm2, word ptr [rsi + r9 + 58], 7
+	packsswb	xmm1, xmm1
+	pcmpeqw	xmm2, xmm11
+	por	xmm6, xmm5
+	movd	xmm3, r14d
+	pinsrw	xmm3, word ptr [rsi + rcx + 60], 1
+	pinsrw	xmm3, word ptr [rsi + r8 + 60], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 60], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 60], 4
+	pinsrw	xmm3, word ptr [rsi + rbx + 60], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 60], 6
+	packsswb	xmm2, xmm2
+	pinsrw	xmm3, word ptr [rsi + r9 + 60], 7
+	pcmpeqw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	por	xmm6, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI4_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm15, xmm0
+	movdqa	xmm1, xmm9
+	movdqa	xmm0, xmm2
+	pblendvb	xmm1, xmm15, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm10, xmm15, xmm0
+	por	xmm1, xmm4
+	movzx	eax, word ptr [rsi + r15 + 62]
+	por	xmm10, xmm1
+	movd	xmm0, eax
+	pinsrw	xmm0, word ptr [rsi + rcx + 62], 1
+	pinsrw	xmm0, word ptr [rsi + r8 + 62], 2
+	pinsrw	xmm0, word ptr [rsi + r12 + 62], 3
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrw	xmm0, word ptr [rsi + r13 + 62], 4
+	pinsrw	xmm0, word ptr [rsi + rbx + 62], 5
+	pinsrw	xmm0, word ptr [rsi + rdi + 62], 6
+	pinsrw	xmm0, word ptr [rsi + r9 + 62], 7
+	pcmpeqw	xmm0, xmm11
+	packsswb	xmm0, xmm0
+	por	xmm10, xmm6
+	pblendvb	xmm14, xmm15, xmm0
+	por	xmm14, xmm10
+	movdqa	xmm0, xmm12
+	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
+	movdqa	xmm2, xmm8
+	punpcklqdq	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI4_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
+	pshufb	xmm2, xmm3
+	pshufb	xmm0, xmm3
+	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
+	punpcklbw	xmm8, xmm14             # xmm8 = xmm8[0],xmm14[0],xmm8[1],xmm14[1],xmm8[2],xmm14[2],xmm8[3],xmm14[3],xmm8[4],xmm14[4],xmm8[5],xmm14[5],xmm8[6],xmm14[6],xmm8[7],xmm14[7]
+	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
+	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm12
+	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm0
+	add	rcx, 8
+	mov	r15, rcx
+	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	jne	.LBB4_190
+# %bb.191:
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+	cmp	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	mov	r13d, dword ptr [rsp + 64]      # 4-byte Reload
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	jne	.LBB4_104
+	jmp	.LBB4_144
+.LBB4_192:
+	mov	r8, r10
+	and	r8, -4
+	mov	rbx, r8
+	shl	rbx, 7
+	add	rbx, rsi
+	lea	r11, [r14 + 4*r8]
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	add	rsi, 508
+	xor	ecx, ecx
+	movdqa	xmm15, xmmword ptr [rip + .LCPI4_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	movdqa	xmm8, xmmword ptr [rip + .LCPI4_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	movdqa	xmm10, xmmword ptr [rip + .LCPI4_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	movdqa	xmm11, xmmword ptr [rip + .LCPI4_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	movdqa	xmm12, xmmword ptr [rip + .LCPI4_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	movdqa	xmm13, xmmword ptr [rip + .LCPI4_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	movdqa	xmm14, xmmword ptr [rip + .LCPI4_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	movdqa	xmm9, xmmword ptr [rip + .LCPI4_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
+	.p2align	4, 0x90
+.LBB4_193:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm6, dword ptr [rsi - 508]     # xmm6 = mem[0],zero,zero,zero
+	movss	xmm7, dword ptr [rsi - 504]     # xmm7 = mem[0],zero,zero,zero
+	movss	xmm5, dword ptr [rsi - 500]     # xmm5 = mem[0],zero,zero,zero
+	movss	xmm4, dword ptr [rsi - 496]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rsi - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
+	cmpneqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	insertps	xmm7, dword ptr [rsi - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
+	insertps	xmm5, dword ptr [rsi - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
+	insertps	xmm4, dword ptr [rsi - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [rsi - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	insertps	xmm4, dword ptr [rsi - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	movdqa	xmm2, xmm7
+	pand	xmm2, xmm15
+	psubb	xmm2, xmm7
+	movss	xmm7, dword ptr [rsi - 492]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [rsi - 488]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rsi - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
+	cmpneqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	pand	xmm5, xmm8
+	por	xmm5, xmm2
+	movss	xmm3, dword ptr [rsi - 484]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
+	cmpneqps	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	psllw	xmm4, 3
+	pand	xmm4, xmm10
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 4
+	pand	xmm7, xmm11
+	por	xmm7, xmm4
+	movss	xmm4, dword ptr [rsi - 480]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm4, dword ptr [rsi - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [rsi - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	insertps	xmm4, dword ptr [rsi - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
+	por	xmm7, xmm5
+	movss	xmm5, dword ptr [rsi - 476]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpneqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	cmpneqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	cmpneqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 6
+	pand	xmm3, xmm13
+	por	xmm3, xmm6
+	movss	xmm2, dword ptr [rsi - 472]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	packsswb	xmm5, xmm5
+	cmpneqps	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	psllw	xmm4, 7
+	pand	xmm4, xmm14
+	por	xmm4, xmm3
+	movss	xmm3, dword ptr [rsi - 468]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	pand	xmm5, xmm15
+	insertps	xmm3, dword ptr [rsi - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	por	xmm4, xmm7
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm6, xmm2
+	pand	xmm6, xmm15
+	psubb	xmm6, xmm2
+	movss	xmm7, dword ptr [rsi - 464]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm6, xmm5
+	movss	xmm5, dword ptr [rsi - 460]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpneqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm6
+	movss	xmm6, dword ptr [rsi - 456]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rsi - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 3
+	pand	xmm7, xmm10
+	cmpneqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm7
+	movss	xmm2, dword ptr [rsi - 452]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm5, xmm3
+	movss	xmm7, dword ptr [rsi - 448]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpneqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [rsi - 444]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rsi - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpneqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	psllw	xmm7, 7
+	pand	xmm7, xmm14
+	por	xmm7, xmm2
+	movss	xmm2, dword ptr [rsi - 440]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm7, xmm5
+	movss	xmm3, dword ptr [rsi - 436]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	pand	xmm6, xmm15
+	insertps	xmm3, dword ptr [rsi - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm7, xmm2
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm2
+	movss	xmm5, dword ptr [rsi - 432]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	por	xmm7, xmm6
+	movss	xmm6, dword ptr [rsi - 428]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rsi - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpneqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm7
+	movss	xmm7, dword ptr [rsi - 424]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpneqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 3
+	pand	xmm5, xmm10
+	cmpneqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 4
+	pand	xmm6, xmm11
+	por	xmm6, xmm5
+	movss	xmm2, dword ptr [rsi - 420]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm6, xmm3
+	movss	xmm5, dword ptr [rsi - 416]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 5
+	pand	xmm7, xmm12
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm7
+	movss	xmm7, dword ptr [rsi - 412]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	cmpneqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	psllw	xmm5, 7
+	pand	xmm5, xmm14
+	por	xmm5, xmm2
+	movss	xmm2, dword ptr [rsi - 408]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	pand	xmm7, xmm15
+	insertps	xmm2, dword ptr [rsi - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm5, xmm6
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm6, xmm2
+	pand	xmm6, xmm15
+	psubb	xmm6, xmm2
+	movss	xmm3, dword ptr [rsi - 404]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	por	xmm6, xmm7
+	movss	xmm2, dword ptr [rsi - 400]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	cmpneqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm6
+	movss	xmm6, dword ptr [rsi - 396]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rsi - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 3
+	pand	xmm2, xmm10
+	cmpneqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 4
+	pand	xmm6, xmm11
+	por	xmm6, xmm2
+	movss	xmm7, dword ptr [rsi - 392]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rsi - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm6, xmm3
+	movss	xmm2, dword ptr [rsi - 388]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 5
+	pand	xmm7, xmm12
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm7
+	movss	xmm3, dword ptr [rsi - 384]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi], 48       # xmm3 = xmm3[0,1,2],mem[0]
+	cmpneqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	psllw	xmm3, 7
+	pand	xmm3, xmm14
+	por	xmm3, xmm2
+	por	xmm3, xmm6
+	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
+	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
+	pshufb	xmm4, xmm9
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
+	add	rcx, 4
+	add	rsi, 512
+	cmp	r8, rcx
+	jne	.LBB4_193
+# %bb.194:
+	cmp	r10, r8
+	jne	.LBB4_127
+	jmp	.LBB4_148
+.Lfunc_end4:
+	.size	comparison_not_equal_arr_scalar_sse4, .Lfunc_end4-comparison_not_equal_arr_scalar_sse4
+                                        # -- End function
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4                               # -- Begin function comparison_not_equal_scalar_arr_sse4
+.LCPI5_0:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI5_1:
+	.zero	16,252
+.LCPI5_2:
+	.zero	16,248
+.LCPI5_3:
+	.zero	16,240
+.LCPI5_4:
+	.zero	16,224
+.LCPI5_5:
+	.zero	16,192
+.LCPI5_6:
+	.zero	16,128
+.LCPI5_7:
+	.byte	0                               # 0x0
+	.byte	8                               # 0x8
+	.byte	1                               # 0x1
+	.byte	9                               # 0x9
+	.byte	2                               # 0x2
+	.byte	10                              # 0xa
+	.byte	3                               # 0x3
+	.byte	11                              # 0xb
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+.LCPI5_8:
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI5_9:
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI5_10:
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI5_11:
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI5_12:
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI5_13:
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI5_14:
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI5_15:
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI5_16:
+	.zero	16,2
+.LCPI5_17:
+	.zero	16,4
+.LCPI5_18:
+	.zero	16,8
+.LCPI5_19:
+	.zero	16,16
+.LCPI5_20:
+	.zero	16,32
+.LCPI5_21:
+	.zero	16,64
+.LCPI5_22:
+	.zero	16,255
+	.text
+	.globl	comparison_not_equal_scalar_arr_sse4
+	.p2align	4, 0x90
+	.type	comparison_not_equal_scalar_arr_sse4,@function
+comparison_not_equal_scalar_arr_sse4:   # @comparison_not_equal_scalar_arr_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -16
+	sub	rsp, 288
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r15, r8
+	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
+	mov	r14, rdx
+	cmp	edi, 6
+	jg	.LBB5_26
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB5_2
+# %bb.10:
+	cmp	edi, 4
+	je	.LBB5_99
+# %bb.11:
+	cmp	edi, 5
+	je	.LBB5_122
+# %bb.12:
+	cmp	edi, 6
+	jne	.LBB5_199
+# %bb.13:
+	mov	r11d, dword ptr [rsi]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_17
+# %bb.14:
+	movsxd	rax, r9d
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_15:                               # =>This Inner Loop Header: Depth=1
+	cmp	r11d, dword ptr [r14]
+	lea	r14, [r14 + 4]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [rdx + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [rdx + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_15
+# %bb.16:
+	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
+.LBB5_17:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB5_21
+# %bb.18:
+	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_19:                               # =>This Inner Loop Header: Depth=1
+	cmp	r11d, dword ptr [r14 + 124]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 120]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 116]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 112]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 108]
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 104]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 100]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 92]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 88]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 84]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 80]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 76]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 72]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 68]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 60]
+	setne	r8b
+	cmp	r11d, dword ptr [r14 + 56]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 52]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 48]
+	setne	dil
+	cmp	r11d, dword ptr [r14 + 44]
+	setne	r10b
+	cmp	r11d, dword ptr [r14 + 40]
+	setne	r9b
+	cmp	r11d, dword ptr [r14 + 36]
+	setne	sil
+	cmp	r11d, dword ptr [r14 + 28]
+	setne	al
+	cmp	r11d, dword ptr [r14 + 24]
+	setne	bl
+	cmp	r11d, dword ptr [r14 + 20]
+	setne	dl
+	cmp	r11d, dword ptr [r14 + 16]
+	setne	cl
+	cmp	r11d, dword ptr [r14 + 12]
+	setne	r12b
+	cmp	r11d, dword ptr [r14 + 8]
+	setne	r15b
+	cmp	r11d, dword ptr [r14]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 4]
+	mov	r13, r14
+	setne	r14b
+	cmp	r11d, dword ptr [r13 + 32]
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r13 + 64]
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r13 + 96]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 152]      # 1-byte Folded Reload
+	shl	r15b, 2
+	or	r15b, r14b
+	mov	r14, r13
+	shl	r12b, 3
+	or	r12b, r15b
+	shl	cl, 4
+	or	cl, r12b
+	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
+	shl	dl, 5
+	or	dl, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, dl
+	mov	byte ptr [r15], al
+	add	sil, sil
+	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, sil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	dil, 4
+	or	dil, r10b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	sub	r14, -128
+	add	r15, 4
+	mov	qword ptr [rsp + 8], r15        # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB5_19
+# %bb.20:
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+.LBB5_21:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB5_199
+# %bb.22:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	je	.LBB5_23
+# %bb.142:
+	mov	r9, r8
+	and	r9, -2
+	xor	edi, edi
+	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_143:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11d, dword ptr [r14]
+	setne	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	xor	al, r10b
+	and	dl, al
+	xor	dl, r10b
+	mov	byte ptr [r15 + rsi], dl
+	add	rdi, 2
+	cmp	r11d, dword ptr [r14 + 4]
+	lea	r14, [r14 + 8]
+	setne	al
+	neg	al
+	xor	al, dl
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, dl
+	mov	byte ptr [r15 + rsi], bl
+	cmp	r9, rdi
+	jne	.LBB5_143
+	jmp	.LBB5_24
+.LBB5_26:
+	cmp	edi, 8
+	jle	.LBB5_27
+# %bb.42:
+	cmp	edi, 9
+	je	.LBB5_158
+# %bb.43:
+	cmp	edi, 11
+	je	.LBB5_170
+# %bb.44:
+	cmp	edi, 12
+	jne	.LBB5_199
+# %bb.45:
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB5_49
+# %bb.46:
+	movsxd	rax, r9d
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_47:                               # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [r14]
+	lea	r14, [r14 + 8]
+	setne	dl
+	neg	dl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	ebx, byte ptr [r8 + rsi]
+	xor	dl, bl
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, bl
+	mov	byte ptr [r8 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_47
+# %bb.48:
+	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
+.LBB5_49:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB5_53
+# %bb.50:
+	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_51:                               # =>This Inner Loop Header: Depth=1
+	mov	rdx, r14
+	ucomisd	xmm0, qword ptr [r14]
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [r14 + 8]
+	setne	r9b
+	ucomisd	xmm0, qword ptr [r14 + 16]
+	setne	r11b
+	ucomisd	xmm0, qword ptr [r14 + 24]
+	setne	r13b
+	ucomisd	xmm0, qword ptr [r14 + 32]
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [r14 + 40]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [r14 + 48]
+	setne	bl
+	ucomisd	xmm0, qword ptr [r14 + 56]
+	setne	r12b
+	ucomisd	xmm0, qword ptr [r14 + 64]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [r14 + 72]
+	setne	sil
+	ucomisd	xmm0, qword ptr [r14 + 80]
+	setne	dil
+	ucomisd	xmm0, qword ptr [r14 + 88]
+	setne	r8b
+	ucomisd	xmm0, qword ptr [r14 + 96]
+	setne	r10b
+	ucomisd	xmm0, qword ptr [r14 + 104]
+	setne	r15b
+	ucomisd	xmm0, qword ptr [r14 + 112]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [r14 + 120]
+	setne	cl
+	ucomisd	xmm0, qword ptr [r14 + 128]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [r14 + 136]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [r14 + 144]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [r14 + 152]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [r14 + 160]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [r14 + 168]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [r14 + 176]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [r14 + 184]
+	setne	r14b
+	ucomisd	xmm0, qword ptr [rdx + 192]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 200]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 208]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 216]
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 224]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 232]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 240]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 248]
+	setne	al
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r12b, 7
+	or	r12b, bl
+	shl	r11b, 2
+	or	r11b, r9b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r11b
+	shl	dil, 2
+	or	dil, sil
+	movzx	ebx, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r13b
+	mov	r9d, ebx
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	shl	r8b, 3
+	or	r8b, dil
+	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, r9b
+	shl	r10b, 4
+	or	r10b, r8b
+	shl	r15b, 5
+	or	r15b, r10b
+	movzx	edi, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	r12b, bl
+	or	cl, r15b
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	bl, bl
+	add	bl, byte ptr [rsp + 120]        # 1-byte Folded Reload
+	mov	edi, ebx
+	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, dil
+	mov	edi, ebx
+	movzx	ebx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, dil
+	mov	edi, ebx
+	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, dil
+	mov	edi, ebx
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, dil
+	mov	byte ptr [rsi], r12b
+	movzx	edi, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r14b, 7
+	or	r14b, dil
+	mov	byte ptr [rsi + 1], cl
+	or	r14b, bl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [rsi + 2], r14b
+	mov	byte ptr [rsi + 3], al
+	lea	r14, [rdx + 256]
+	add	rsi, 4
+	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB5_51
+# %bb.52:
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+.LBB5_53:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB5_199
+# %bb.54:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	jne	.LBB5_193
+# %bb.55:
+	xor	edi, edi
+	jmp	.LBB5_195
+.LBB5_2:
+	cmp	edi, 2
+	je	.LBB5_56
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB5_199
+# %bb.4:
+	mov	al, byte ptr [rsi]
+	mov	byte ptr [rsp + 64], al         # 1-byte Spill
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_8
+# %bb.5:
+	movsxd	rax, r9d
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_6:                                # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	cmp	cl, byte ptr [r14]
+	lea	r14, [r14 + 1]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [rdx + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [rdx + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_6
+# %bb.7:
+	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
+.LBB5_8:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB5_9
+# %bb.81:
+	cmp	r10, 16
+	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	jb	.LBB5_82
+# %bb.83:
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, r14
+	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
+	jae	.LBB5_85
+# %bb.84:
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	lea	rax, [rax + 4*r10]
+	cmp	r14, rax
+	jae	.LBB5_85
+.LBB5_82:
+	xor	eax, eax
+	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+.LBB5_88:
+	sub	r10, qword ptr [rsp + 216]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_89:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	cmp	al, byte ptr [r14 + 31]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 30]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 29]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 28]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 27]
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 26]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 25]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 23]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 22]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 21]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 20]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 19]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 18]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 17]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 15]
+	setne	r10b
+	cmp	al, byte ptr [r14 + 14]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 13]
+	setne	r13b
+	cmp	al, byte ptr [r14 + 12]
+	setne	r12b
+	cmp	al, byte ptr [r14 + 11]
+	setne	r15b
+	cmp	al, byte ptr [r14 + 10]
+	setne	bl
+	cmp	al, byte ptr [r14 + 9]
+	setne	r11b
+	cmp	al, byte ptr [r14 + 7]
+	setne	sil
+	cmp	al, byte ptr [r14 + 6]
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 5]
+	setne	r9b
+	cmp	al, byte ptr [r14 + 4]
+	setne	r8b
+	cmp	al, byte ptr [r14 + 3]
+	setne	dil
+	cmp	al, byte ptr [r14 + 2]
+	setne	dl
+	cmp	al, byte ptr [r14]
+	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 1]
+	setne	cl
+	cmp	al, byte ptr [r14 + 8]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 16]
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 24]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	add	cl, cl
+	add	cl, byte ptr [rsp + 168]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, cl
+	shl	dil, 3
+	or	dil, dl
+	shl	r8b, 4
+	or	r8b, dil
+	shl	r9b, 5
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	sil, 7
+	or	sil, al
+	or	sil, r9b
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	mov	byte ptr [rax], sil
+	add	r11b, r11b
+	add	r11b, byte ptr [rsp + 152]      # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, r11b
+	shl	r15b, 3
+	or	r15b, bl
+	shl	r12b, 4
+	or	r12b, r15b
+	shl	r13b, 5
+	or	r13b, r12b
+	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r10b, 7
+	or	r10b, cl
+	or	r10b, r13b
+	mov	byte ptr [rax + 1], r10b
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	cl, 7
+	or	cl, bl
+	or	cl, dl
+	mov	byte ptr [rax + 2], cl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 136]        # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 7
+	or	cl, bl
+	or	cl, dl
+	mov	byte ptr [rax + 3], cl
+	add	r14, 32
+	add	rax, 4
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
+	jne	.LBB5_89
+# %bb.90:
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	jmp	.LBB5_91
+.LBB5_27:
+	cmp	edi, 7
+	je	.LBB5_144
+# %bb.28:
+	cmp	edi, 8
+	jne	.LBB5_199
+# %bb.29:
+	mov	r11, qword ptr [rsi]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_33
+# %bb.30:
+	movsxd	rax, r9d
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_31:                               # =>This Inner Loop Header: Depth=1
+	cmp	r11, qword ptr [r14]
+	lea	r14, [r14 + 8]
+	setne	dl
+	neg	dl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	ebx, byte ptr [r8 + rsi]
+	xor	dl, bl
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, bl
+	mov	byte ptr [r8 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_31
+# %bb.32:
+	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
+.LBB5_33:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB5_37
+# %bb.34:
+	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_35:                               # =>This Inner Loop Header: Depth=1
+	cmp	r11, qword ptr [r14 + 248]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 240]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 232]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 224]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 216]
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 208]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 200]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 184]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 176]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 168]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 160]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 152]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 144]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 136]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 120]
+	setne	r8b
+	cmp	r11, qword ptr [r14 + 112]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 104]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 96]
+	setne	dil
+	cmp	r11, qword ptr [r14 + 88]
+	setne	r10b
+	cmp	r11, qword ptr [r14 + 80]
+	setne	r9b
+	cmp	r11, qword ptr [r14 + 72]
+	setne	sil
+	cmp	r11, qword ptr [r14 + 56]
+	setne	al
+	cmp	r11, qword ptr [r14 + 48]
+	setne	bl
+	cmp	r11, qword ptr [r14 + 40]
+	setne	cl
+	cmp	r11, qword ptr [r14 + 32]
+	setne	dl
+	cmp	r11, qword ptr [r14 + 24]
+	setne	r15b
+	cmp	r11, qword ptr [r14 + 16]
+	setne	r13b
+	cmp	r11, qword ptr [r14]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 8]
+	setne	r12b
+	cmp	r11, qword ptr [r14 + 64]
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 128]
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 192]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 152]      # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	shl	r15b, 3
+	or	r15b, r13b
+	shl	dl, 4
+	or	dl, r15b
+	shl	cl, 5
+	or	cl, dl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r12], al
+	add	sil, sil
+	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, sil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	dil, 4
+	or	dil, r10b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r12 + 1], r8b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r12 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r12 + 3], al
+	add	r14, 256
+	add	r12, 4
+	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB5_35
+# %bb.36:
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+.LBB5_37:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB5_199
+# %bb.38:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	je	.LBB5_39
+# %bb.156:
+	mov	r9, r8
+	and	r9, -2
+	xor	edi, edi
+	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_157:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11, qword ptr [r14]
+	setne	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	xor	al, r10b
+	and	dl, al
+	xor	dl, r10b
+	mov	byte ptr [r15 + rsi], dl
+	add	rdi, 2
+	cmp	r11, qword ptr [r14 + 8]
+	lea	r14, [r14 + 16]
+	setne	al
+	neg	al
+	xor	al, dl
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, dl
+	mov	byte ptr [r15 + rsi], bl
+	cmp	r9, rdi
+	jne	.LBB5_157
+	jmp	.LBB5_40
+.LBB5_56:
+	mov	al, byte ptr [rsi]
+	mov	byte ptr [rsp + 40], al         # 1-byte Spill
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_60
+# %bb.57:
+	movsxd	rax, r9d
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_58:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	cmp	cl, byte ptr [r14]
+	lea	r14, [r14 + 1]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [rdx + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [rdx + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_58
+# %bb.59:
+	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
+.LBB5_60:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB5_61
+# %bb.62:
+	cmp	r10, 16
+	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	jb	.LBB5_63
+# %bb.64:
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, r14
+	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
+	jae	.LBB5_66
+# %bb.65:
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	lea	rax, [rax + 4*r10]
+	cmp	r14, rax
+	jae	.LBB5_66
+.LBB5_63:
+	xor	eax, eax
+	mov	qword ptr [rsp + 216], rax      # 8-byte Spill
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+.LBB5_69:
+	sub	r10, qword ptr [rsp + 216]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_70:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	cmp	al, byte ptr [r14 + 31]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 30]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 29]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 28]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 27]
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 26]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 25]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 23]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 22]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 21]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 20]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 19]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 18]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 17]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 15]
+	setne	r10b
+	cmp	al, byte ptr [r14 + 14]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 13]
+	setne	r13b
+	cmp	al, byte ptr [r14 + 12]
+	setne	r12b
+	cmp	al, byte ptr [r14 + 11]
+	setne	r15b
+	cmp	al, byte ptr [r14 + 10]
+	setne	bl
+	cmp	al, byte ptr [r14 + 9]
+	setne	r11b
+	cmp	al, byte ptr [r14 + 7]
+	setne	sil
+	cmp	al, byte ptr [r14 + 6]
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 5]
+	setne	r9b
+	cmp	al, byte ptr [r14 + 4]
+	setne	r8b
+	cmp	al, byte ptr [r14 + 3]
+	setne	dil
+	cmp	al, byte ptr [r14 + 2]
+	setne	dl
+	cmp	al, byte ptr [r14]
+	setne	byte ptr [rsp + 168]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 1]
+	setne	cl
+	cmp	al, byte ptr [r14 + 8]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 16]
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	al, byte ptr [r14 + 24]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	add	cl, cl
+	add	cl, byte ptr [rsp + 168]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, cl
+	shl	dil, 3
+	or	dil, dl
+	shl	r8b, 4
+	or	r8b, dil
+	shl	r9b, 5
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	sil, 7
+	or	sil, al
+	or	sil, r9b
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	mov	byte ptr [rax], sil
+	add	r11b, r11b
+	add	r11b, byte ptr [rsp + 152]      # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, r11b
+	shl	r15b, 3
+	or	r15b, bl
+	shl	r12b, 4
+	or	r12b, r15b
+	shl	r13b, 5
+	or	r13b, r12b
+	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r10b, 7
+	or	r10b, cl
+	or	r10b, r13b
+	mov	byte ptr [rax + 1], r10b
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	ecx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	cl, 7
+	or	cl, bl
+	or	cl, dl
+	mov	byte ptr [rax + 2], cl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 136]        # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 7
+	or	cl, bl
+	or	cl, dl
+	mov	byte ptr [rax + 3], cl
+	add	r14, 32
+	add	rax, 4
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
+	jne	.LBB5_70
+# %bb.71:
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	jmp	.LBB5_72
+.LBB5_144:
+	mov	r11d, dword ptr [rsi]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_148
+# %bb.145:
+	movsxd	rax, r9d
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_146:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11d, dword ptr [r14]
+	lea	r14, [r14 + 4]
+	setne	dl
+	neg	dl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	ebx, byte ptr [r8 + rsi]
+	xor	dl, bl
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, bl
+	mov	byte ptr [r8 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_146
+# %bb.147:
+	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
+.LBB5_148:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB5_152
+# %bb.149:
+	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_150:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11d, dword ptr [r14 + 124]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 120]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 116]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 112]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 108]
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 104]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 100]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 92]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 88]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 84]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 80]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 76]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 72]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 68]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 60]
+	setne	r8b
+	cmp	r11d, dword ptr [r14 + 56]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 52]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 48]
+	setne	dil
+	cmp	r11d, dword ptr [r14 + 44]
+	setne	r10b
+	cmp	r11d, dword ptr [r14 + 40]
+	setne	r9b
+	cmp	r11d, dword ptr [r14 + 36]
+	setne	sil
+	cmp	r11d, dword ptr [r14 + 28]
+	setne	al
+	cmp	r11d, dword ptr [r14 + 24]
+	setne	bl
+	cmp	r11d, dword ptr [r14 + 20]
+	setne	cl
+	cmp	r11d, dword ptr [r14 + 16]
+	setne	dl
+	cmp	r11d, dword ptr [r14 + 12]
+	setne	r15b
+	cmp	r11d, dword ptr [r14 + 8]
+	setne	r13b
+	cmp	r11d, dword ptr [r14]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 4]
+	setne	r12b
+	cmp	r11d, dword ptr [r14 + 32]
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 64]
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r11d, dword ptr [r14 + 96]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 152]      # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	shl	r15b, 3
+	or	r15b, r13b
+	shl	dl, 4
+	or	dl, r15b
+	shl	cl, 5
+	or	cl, dl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r12], al
+	add	sil, sil
+	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, sil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	dil, 4
+	or	dil, r10b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r12 + 1], r8b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r12 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r12 + 3], al
+	sub	r14, -128
+	add	r12, 4
+	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB5_150
+# %bb.151:
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+.LBB5_152:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB5_199
+# %bb.153:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	jne	.LBB5_154
+.LBB5_23:
+	xor	edi, edi
+	jmp	.LBB5_24
+.LBB5_99:
+	movzx	r11d, word ptr [rsi]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_103
+# %bb.100:
+	movsxd	rax, r9d
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_101:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11w, word ptr [r14]
+	lea	r14, [r14 + 2]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [rdx + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [rdx + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_101
+# %bb.102:
+	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
+.LBB5_103:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB5_104
+# %bb.105:
+	cmp	r10, 8
+	mov	dword ptr [rsp + 16], r11d      # 4-byte Spill
+	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	jb	.LBB5_106
+# %bb.107:
+	mov	rax, r10
+	shl	rax, 6
+	add	rax, r14
+	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
+	jae	.LBB5_109
+# %bb.108:
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	lea	rax, [rax + 4*r10]
+	cmp	rax, r14
+	jbe	.LBB5_109
+.LBB5_106:
+	xor	eax, eax
+	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+.LBB5_112:
+	sub	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_113:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11w, word ptr [r14 + 62]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 60]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 58]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 56]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 54]
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 52]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 50]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 46]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 44]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 42]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 40]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 38]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 36]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 34]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 30]
+	setne	r9b
+	cmp	r11w, word ptr [r14 + 28]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 26]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 24]
+	setne	r13b
+	cmp	r11w, word ptr [r14 + 22]
+	setne	r15b
+	cmp	r11w, word ptr [r14 + 20]
+	setne	r11b
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 18]
+	setne	r10b
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 14]
+	setne	dl
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 12]
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 10]
+	setne	r8b
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 8]
+	setne	dil
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 6]
+	setne	sil
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 4]
+	setne	cl
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 2]
+	setne	al
+	mov	rbx, r12
+	mov	r12d, dword ptr [rsp + 16]      # 4-byte Reload
+	cmp	r12w, word ptr [r14 + 16]
+	mov	r12, rbx
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	bx, word ptr [r14 + 32]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	bx, word ptr [r14 + 48]
+	setne	bl
+	add	al, al
+	add	al, byte ptr [rsp + 152]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	shl	sil, 3
+	or	sil, cl
+	shl	dil, 4
+	or	dil, sil
+	shl	r8b, 5
+	or	r8b, dil
+	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	dl, 7
+	or	dl, al
+	or	dl, r8b
+	mov	byte ptr [r12], dl
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 192]      # 1-byte Folded Reload
+	shl	r11b, 2
+	or	r11b, r10b
+	shl	r15b, 3
+	or	r15b, r11b
+	mov	r11d, dword ptr [rsp + 16]      # 4-byte Reload
+	shl	r13b, 4
+	or	r13b, r15b
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r13b
+	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	or	r9b, al
+	mov	byte ptr [r12 + 1], r9b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r12 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	or	al, bl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r12 + 3], al
+	add	r14, 64
+	add	r12, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB5_113
+# %bb.114:
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	jmp	.LBB5_115
+.LBB5_122:
+	movzx	r11d, word ptr [rsi]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_126
+# %bb.123:
+	movsxd	rax, r9d
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_124:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11w, word ptr [r14]
+	lea	r14, [r14 + 2]
+	setne	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [rdx + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [rdx + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_124
+# %bb.125:
+	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
+.LBB5_126:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB5_127
+# %bb.128:
+	cmp	r10, 8
+	mov	dword ptr [rsp + 16], r11d      # 4-byte Spill
+	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	jb	.LBB5_129
+# %bb.130:
+	mov	rax, r10
+	shl	rax, 6
+	add	rax, r14
+	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
+	jae	.LBB5_132
+# %bb.131:
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	lea	rax, [rax + 4*r10]
+	cmp	rax, r14
+	jbe	.LBB5_132
+.LBB5_129:
+	xor	eax, eax
+	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+.LBB5_135:
+	sub	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_136:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11w, word ptr [r14 + 62]
+	setne	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 60]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 58]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 56]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 54]
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 52]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 50]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 46]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 44]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 42]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 40]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 38]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 36]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 34]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 30]
+	setne	r9b
+	cmp	r11w, word ptr [r14 + 28]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 26]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r11w, word ptr [r14 + 24]
+	setne	r13b
+	cmp	r11w, word ptr [r14 + 22]
+	setne	r15b
+	cmp	r11w, word ptr [r14 + 20]
+	setne	r11b
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 18]
+	setne	r10b
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 14]
+	setne	dl
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 12]
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 10]
+	setne	r8b
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 8]
+	setne	dil
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 6]
+	setne	sil
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 4]
+	setne	cl
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	ax, word ptr [r14 + 2]
+	setne	al
+	mov	rbx, r12
+	mov	r12d, dword ptr [rsp + 16]      # 4-byte Reload
+	cmp	r12w, word ptr [r14 + 16]
+	mov	r12, rbx
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	bx, word ptr [r14 + 32]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp + 16]       # 4-byte Reload
+	cmp	bx, word ptr [r14 + 48]
+	setne	bl
+	add	al, al
+	add	al, byte ptr [rsp + 152]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	shl	sil, 3
+	or	sil, cl
+	shl	dil, 4
+	or	dil, sil
+	shl	r8b, 5
+	or	r8b, dil
+	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	dl, 7
+	or	dl, al
+	or	dl, r8b
+	mov	byte ptr [r12], dl
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 192]      # 1-byte Folded Reload
+	shl	r11b, 2
+	or	r11b, r10b
+	shl	r15b, 3
+	or	r15b, r11b
+	mov	r11d, dword ptr [rsp + 16]      # 4-byte Reload
+	shl	r13b, 4
+	or	r13b, r15b
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r13b
+	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	or	r9b, al
+	mov	byte ptr [r12 + 1], r9b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r12 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	or	al, bl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r12 + 3], al
+	add	r14, 64
+	add	r12, 4
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB5_136
+# %bb.137:
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	jmp	.LBB5_138
+.LBB5_158:
+	mov	r11, qword ptr [rsi]
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB5_162
+# %bb.159:
+	movsxd	rax, r9d
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_160:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11, qword ptr [r14]
+	lea	r14, [r14 + 8]
+	setne	dl
+	neg	dl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	ebx, byte ptr [r8 + rsi]
+	xor	dl, bl
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, bl
+	mov	byte ptr [r8 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_160
+# %bb.161:
+	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
+.LBB5_162:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB5_166
+# %bb.163:
+	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_164:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11, qword ptr [r14 + 248]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 240]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 232]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 224]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 216]
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 208]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 200]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 184]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 176]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 168]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 160]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 152]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 144]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 136]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 120]
+	setne	r8b
+	cmp	r11, qword ptr [r14 + 112]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 104]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 96]
+	setne	dil
+	cmp	r11, qword ptr [r14 + 88]
+	setne	r10b
+	cmp	r11, qword ptr [r14 + 80]
+	setne	r9b
+	cmp	r11, qword ptr [r14 + 72]
+	setne	sil
+	cmp	r11, qword ptr [r14 + 56]
+	setne	al
+	cmp	r11, qword ptr [r14 + 48]
+	setne	bl
+	cmp	r11, qword ptr [r14 + 40]
+	setne	cl
+	cmp	r11, qword ptr [r14 + 32]
+	setne	dl
+	cmp	r11, qword ptr [r14 + 24]
+	setne	r15b
+	cmp	r11, qword ptr [r14 + 16]
+	setne	r13b
+	cmp	r11, qword ptr [r14]
+	setne	byte ptr [rsp + 152]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 8]
+	setne	r12b
+	cmp	r11, qword ptr [r14 + 64]
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 128]
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r11, qword ptr [r14 + 192]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 152]      # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	shl	r15b, 3
+	or	r15b, r13b
+	shl	dl, 4
+	or	dl, r15b
+	shl	cl, 5
+	or	cl, dl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r12], al
+	add	sil, sil
+	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, sil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	dil, 4
+	or	dil, r10b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	movzx	ecx, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r12 + 1], r8b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r12 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 6
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, dl
+	or	al, cl
+	mov	byte ptr [r12 + 3], al
+	add	r14, 256
+	add	r12, 4
+	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
+	add	qword ptr [rsp + 168], -1       # 8-byte Folded Spill
+	jne	.LBB5_164
+# %bb.165:
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+.LBB5_166:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB5_199
+# %bb.167:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	jne	.LBB5_168
+.LBB5_39:
+	xor	edi, edi
+	jmp	.LBB5_40
+.LBB5_170:
+	lea	r10, [r15 + 31]
+	test	r15, r15
+	cmovns	r10, r15
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB5_174
+# %bb.171:
+	movsxd	rax, r9d
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_172:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [r14]
+	lea	r14, [r14 + 4]
+	setne	dl
+	neg	dl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	ebx, byte ptr [r8 + rsi]
+	xor	dl, bl
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, bl
+	mov	byte ptr [r8 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB5_172
+# %bb.173:
+	add	qword ptr [rsp + 8], 1          # 8-byte Folded Spill
+.LBB5_174:
+	sar	r10, 5
+	cmp	r15, 32
+	jl	.LBB5_175
+# %bb.176:
+	cmp	r10, 4
+	jb	.LBB5_177
+# %bb.178:
+	mov	rax, r10
+	shl	rax, 7
+	add	rax, r14
+	cmp	qword ptr [rsp + 8], rax        # 8-byte Folded Reload
+	jae	.LBB5_180
+# %bb.179:
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	lea	rax, [rax + 4*r10]
+	cmp	rax, r14
+	jbe	.LBB5_180
+.LBB5_177:
+	xor	r8d, r8d
+	mov	rbx, r14
+	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
+.LBB5_183:
+	mov	qword ptr [rsp + 8], r11        # 8-byte Spill
+	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
+	mov	qword ptr [rsp + 168], r10      # 8-byte Spill
+	sub	r10, r8
+	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB5_184:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rbx]
+	setne	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 4]
+	setne	r8b
+	ucomiss	xmm0, dword ptr [rbx + 8]
+	setne	r14b
+	ucomiss	xmm0, dword ptr [rbx + 12]
+	setne	r13b
+	ucomiss	xmm0, dword ptr [rbx + 16]
+	setne	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 20]
+	setne	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 24]
+	setne	al
+	ucomiss	xmm0, dword ptr [rbx + 28]
+	setne	r11b
+	ucomiss	xmm0, dword ptr [rbx + 32]
+	setne	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 36]
+	setne	dl
+	ucomiss	xmm0, dword ptr [rbx + 40]
+	setne	sil
+	ucomiss	xmm0, dword ptr [rbx + 44]
+	setne	dil
+	ucomiss	xmm0, dword ptr [rbx + 48]
+	setne	r10b
+	ucomiss	xmm0, dword ptr [rbx + 52]
+	setne	r12b
+	ucomiss	xmm0, dword ptr [rbx + 56]
+	setne	byte ptr [rsp + 136]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 60]
+	setne	r9b
+	ucomiss	xmm0, dword ptr [rbx + 64]
+	setne	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 68]
+	setne	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 72]
+	setne	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 76]
+	setne	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 80]
+	setne	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 84]
+	setne	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 88]
+	setne	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 92]
+	setne	r15b
+	ucomiss	xmm0, dword ptr [rbx + 96]
+	setne	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 100]
+	setne	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 104]
+	setne	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 108]
+	setne	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 112]
+	setne	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 116]
+	setne	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 120]
+	setne	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 124]
+	setne	cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 136]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 120]        # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r15b, 7
+	or	r15b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r15b, dl
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	cl, 7
+	or	cl, dl
+	or	cl, al
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], cl
+	add	rbx, 128
+	add	rsi, 4
+	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
+	add	qword ptr [rsp + 152], -1       # 8-byte Folded Spill
+	jne	.LBB5_184
+# %bb.185:
+	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 168]      # 8-byte Reload
+	jmp	.LBB5_186
+.LBB5_9:
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+.LBB5_91:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB5_199
+# %bb.92:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	jne	.LBB5_94
+# %bb.93:
+	xor	esi, esi
+	jmp	.LBB5_97
+.LBB5_61:
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+.LBB5_72:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB5_199
+# %bb.73:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	jne	.LBB5_75
+# %bb.74:
+	xor	esi, esi
+	jmp	.LBB5_78
+.LBB5_104:
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+.LBB5_115:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB5_199
+# %bb.116:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	je	.LBB5_117
+# %bb.120:
+	mov	r9, r8
+	and	r9, -2
+	xor	esi, esi
+	.p2align	4, 0x90
+.LBB5_121:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11w, word ptr [r14]
+	setne	dl
+	neg	dl
+	mov	rdi, rsi
+	shr	rdi, 3
+	movzx	r10d, byte ptr [r12 + rdi]
+	mov	ecx, esi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	dl, r10b
+	and	bl, dl
+	xor	bl, r10b
+	mov	byte ptr [r12 + rdi], bl
+	add	rsi, 2
+	cmp	r11w, word ptr [r14 + 2]
+	lea	r14, [r14 + 4]
+	setne	dl
+	neg	dl
+	xor	dl, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, bl
+	mov	byte ptr [r12 + rdi], al
+	cmp	r9, rsi
+	jne	.LBB5_121
+	jmp	.LBB5_118
+.LBB5_127:
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+.LBB5_138:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB5_199
+# %bb.139:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	jne	.LBB5_140
+.LBB5_117:
+	xor	esi, esi
+	jmp	.LBB5_118
+.LBB5_175:
+	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	rbx, r14
+.LBB5_186:
+	shl	r10, 5
+	cmp	r10, r15
+	jge	.LBB5_199
+# %bb.187:
+	mov	r8, r15
+	sub	r8, r10
+	not	r10
+	add	r10, r15
+	jne	.LBB5_191
+# %bb.188:
+	xor	esi, esi
+	jmp	.LBB5_189
+.LBB5_154:
+	mov	r9, r8
+	and	r9, -2
+	xor	edi, edi
+	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_155:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11d, dword ptr [r14]
+	setne	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	xor	al, r10b
+	and	dl, al
+	xor	dl, r10b
+	mov	byte ptr [r15 + rsi], dl
+	add	rdi, 2
+	cmp	r11d, dword ptr [r14 + 4]
+	lea	r14, [r14 + 8]
+	setne	al
+	neg	al
+	xor	al, dl
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, dl
+	mov	byte ptr [r15 + rsi], bl
+	cmp	r9, rdi
+	jne	.LBB5_155
+.LBB5_24:
+	test	r8b, 1
+	je	.LBB5_199
+# %bb.25:
+	cmp	r11d, dword ptr [r14]
+	jmp	.LBB5_197
+.LBB5_94:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, qword ptr [rsp + 128]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_95:                               # =>This Inner Loop Header: Depth=1
+	mov	rax, rsi
+	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	cmp	sil, byte ptr [r14 + rax]
+	setne	bl
+	neg	bl
+	mov	rdi, rax
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	sil, byte ptr [r14 + rax + 1]
+	lea	rsi, [rax + 2]
+	setne	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB5_95
+# %bb.96:
+	add	r14, rsi
+.LBB5_97:
+	test	r8b, 1
+	je	.LBB5_199
+# %bb.98:
+	mov	al, byte ptr [rsp + 64]         # 1-byte Reload
+	cmp	al, byte ptr [r14]
+	setne	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
+	jmp	.LBB5_80
+.LBB5_75:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_76:                               # =>This Inner Loop Header: Depth=1
+	mov	rax, rsi
+	movzx	esi, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	cmp	sil, byte ptr [r14 + rax]
+	setne	bl
+	neg	bl
+	mov	rdi, rax
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	sil, byte ptr [r14 + rax + 1]
+	lea	rsi, [rax + 2]
+	setne	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB5_76
+# %bb.77:
+	add	r14, rsi
+.LBB5_78:
+	test	r8b, 1
+	je	.LBB5_199
+# %bb.79:
+	mov	al, byte ptr [rsp + 40]         # 1-byte Reload
+	cmp	al, byte ptr [r14]
+	setne	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+.LBB5_80:
+	mov	dil, byte ptr [r8 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	jmp	.LBB5_198
+.LBB5_193:
+	mov	r9, r8
+	and	r9, -2
+	xor	edi, edi
+	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_194:                              # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [r14]
+	setne	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r11 + rsi]
+	xor	al, r10b
+	mov	ecx, edi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, r10b
+	mov	byte ptr [r11 + rsi], dl
+	add	rdi, 2
+	ucomisd	xmm0, qword ptr [r14 + 8]
+	lea	r14, [r14 + 16]
+	setne	al
+	neg	al
+	xor	al, dl
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, dl
+	mov	byte ptr [r11 + rsi], bl
+	cmp	r9, rdi
+	jne	.LBB5_194
+.LBB5_195:
+	test	r8b, 1
+	je	.LBB5_199
+# %bb.196:
+	ucomisd	xmm0, qword ptr [r14]
+	jmp	.LBB5_197
+.LBB5_168:
+	mov	r9, r8
+	and	r9, -2
+	xor	edi, edi
+	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_169:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11, qword ptr [r14]
+	setne	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	xor	al, r10b
+	and	dl, al
+	xor	dl, r10b
+	mov	byte ptr [r15 + rsi], dl
+	add	rdi, 2
+	cmp	r11, qword ptr [r14 + 8]
+	lea	r14, [r14 + 16]
+	setne	al
+	neg	al
+	xor	al, dl
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, dl
+	mov	byte ptr [r15 + rsi], bl
+	cmp	r9, rdi
+	jne	.LBB5_169
+.LBB5_40:
+	test	r8b, 1
+	je	.LBB5_199
+# %bb.41:
+	cmp	r11, qword ptr [r14]
+.LBB5_197:
+	setne	al
+	neg	al
+	mov	rdx, rdi
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	mov	sil, byte ptr [r8 + rdx]
+	and	dil, 7
+	mov	bl, 1
+	mov	ecx, edi
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	xor	bl, sil
+.LBB5_198:
+	mov	byte ptr [r8 + rdx], bl
+	jmp	.LBB5_199
+.LBB5_140:
+	mov	r9, r8
+	and	r9, -2
+	xor	esi, esi
+	.p2align	4, 0x90
+.LBB5_141:                              # =>This Inner Loop Header: Depth=1
+	cmp	r11w, word ptr [r14]
+	setne	dl
+	neg	dl
+	mov	rdi, rsi
+	shr	rdi, 3
+	movzx	r10d, byte ptr [r12 + rdi]
+	mov	ecx, esi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	dl, r10b
+	and	bl, dl
+	xor	bl, r10b
+	mov	byte ptr [r12 + rdi], bl
+	add	rsi, 2
+	cmp	r11w, word ptr [r14 + 2]
+	lea	r14, [r14 + 4]
+	setne	dl
+	neg	dl
+	xor	dl, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, bl
+	mov	byte ptr [r12 + rdi], al
+	cmp	r9, rsi
+	jne	.LBB5_141
+.LBB5_118:
+	test	r8b, 1
+	je	.LBB5_199
+# %bb.119:
+	cmp	r11w, word ptr [r14]
+	setne	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	dil, byte ptr [r12 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r12 + rdx], bl
+	jmp	.LBB5_199
+.LBB5_191:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r14, r11
+	.p2align	4, 0x90
+.LBB5_192:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rbx]
+	setne	dl
+	neg	dl
+	mov	rdi, rsi
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	mov	ecx, esi
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	add	rsi, 2
+	ucomiss	xmm0, dword ptr [rbx + 4]
+	lea	rbx, [rbx + 8]
+	setne	r9b
+	neg	r9b
+	xor	r9b, al
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, r9b
+	xor	dl, al
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, rsi
+	jne	.LBB5_192
+.LBB5_189:
+	test	r8b, 1
+	je	.LBB5_199
+# %bb.190:
+	ucomiss	xmm0, dword ptr [rbx]
+	setne	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	dil, byte ptr [r11 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r11 + rdx], bl
+.LBB5_199:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.LBB5_85:
+	and	r10, -16
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, r14
+	mov	qword ptr [rsp + 272], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 216], r10      # 8-byte Spill
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	lea	rax, [rax + 4*r10]
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
+	xor	eax, eax
+	.p2align	4, 0x90
+.LBB5_86:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
+	shl	rax, 5
+	mov	r9, rax
+	mov	rbx, rax
+	mov	r15, rax
+	mov	rdx, rax
+	mov	r13, rax
+	mov	r8, rax
+	mov	r12, rax
+	mov	r10, rax
+	mov	r11, rax
+	mov	rsi, rax
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	movzx	ecx, byte ptr [r14 + rax]
+	movd	xmm4, ecx
+	movzx	ecx, byte ptr [r14 + rax + 1]
+	movd	xmm3, ecx
+	movzx	ecx, byte ptr [r14 + rax + 2]
+	movd	xmm5, ecx
+	movzx	ecx, byte ptr [r14 + rax + 3]
+	movd	xmm7, ecx
+	movzx	ecx, byte ptr [r14 + rax + 4]
+	movd	xmm9, ecx
+	movzx	ecx, byte ptr [r14 + rax + 5]
+	movd	xmm2, ecx
+	movzx	ecx, byte ptr [r14 + rax + 6]
+	movd	xmm8, ecx
+	movzx	ecx, byte ptr [r14 + rax + 7]
+	movd	xmm14, ecx
+	movzx	ecx, byte ptr [r14 + rax + 8]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 256], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [r14 + rax + 9]
+	movd	xmm11, ecx
+	movzx	ecx, byte ptr [r14 + rax + 10]
+	movd	xmm12, ecx
+	movzx	ecx, byte ptr [r14 + rax + 11]
+	movd	xmm13, ecx
+	movzx	ecx, byte ptr [r14 + rax + 12]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [r14 + rax + 13]
+	movd	xmm6, ecx
+	movzx	ecx, byte ptr [r14 + rax + 14]
+	movd	xmm15, ecx
+	movzx	ecx, byte ptr [r14 + rax + 15]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
+	mov	rcx, rax
+	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
+	mov	rdi, rax
+	or	rdi, 32
+	mov	qword ptr [rsp + 24], rdi       # 8-byte Spill
+	or	r9, 64
+	mov	qword ptr [rsp + 72], r9        # 8-byte Spill
+	or	rbx, 96
+	mov	qword ptr [rsp + 32], rbx       # 8-byte Spill
+	or	r15, 128
+	mov	qword ptr [rsp + 48], r15       # 8-byte Spill
+	or	rdx, 160
+	or	r13, 192
+	or	r8, 224
+	or	r12, 256
+	or	r10, 288
+	or	r11, 320
+	or	rsi, 352
+	mov	qword ptr [rsp + 88], rsi       # 8-byte Spill
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	or	rsi, 384
+	mov	qword ptr [rsp + 56], rsi       # 8-byte Spill
+	or	rax, 416
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	mov	rax, rcx
+	or	rax, 448
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	or	rcx, 480
+	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
+	pinsrb	xmm4, byte ptr [r14 + rdi], 1
+	pinsrb	xmm4, byte ptr [r14 + r9], 2
+	pinsrb	xmm4, byte ptr [r14 + rbx], 3
+	pinsrb	xmm4, byte ptr [r14 + r15], 4
+	mov	rdi, rdx
+	pinsrb	xmm4, byte ptr [r14 + rdx], 5
+	mov	rdx, r13
+	mov	qword ptr [rsp + 152], r13      # 8-byte Spill
+	pinsrb	xmm4, byte ptr [r14 + r13], 6
+	mov	r13, r8
+	pinsrb	xmm4, byte ptr [r14 + r8], 7
+	mov	r8, r12
+	pinsrb	xmm4, byte ptr [r14 + r12], 8
+	pinsrb	xmm4, byte ptr [r14 + r10], 9
+	mov	qword ptr [rsp + 112], r11      # 8-byte Spill
+	pinsrb	xmm4, byte ptr [r14 + r11], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [r14 + rax], 11
+	pinsrb	xmm4, byte ptr [r14 + rsi], 12
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [r14 + rcx], 13
+	mov	r12, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [r14 + r12], 14
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [r14 + rbx], 15
+	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [r14 + r15 + 1], 1
+	pinsrb	xmm3, byte ptr [r14 + r9 + 1], 2
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [r14 + rbx + 1], 3
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	pinsrb	xmm3, byte ptr [r14 + r9 + 1], 4
+	pinsrb	xmm3, byte ptr [r14 + rdi + 1], 5
+	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
+	pinsrb	xmm3, byte ptr [r14 + rdx + 1], 6
+	pinsrb	xmm3, byte ptr [r14 + r13 + 1], 7
+	mov	rbx, r13
+	pinsrb	xmm3, byte ptr [r14 + r8 + 1], 8
+	mov	r13, r8
+	pinsrb	xmm3, byte ptr [r14 + r10 + 1], 9
+	mov	rdx, r10
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	pinsrb	xmm3, byte ptr [r14 + r11 + 1], 10
+	pinsrb	xmm3, byte ptr [r14 + rax + 1], 11
+	pinsrb	xmm3, byte ptr [r14 + rsi + 1], 12
+	pinsrb	xmm3, byte ptr [r14 + rcx + 1], 13
+	pinsrb	xmm3, byte ptr [r14 + r12 + 1], 14
+	movdqa	xmm1, xmmword ptr [rsp + 176]   # 16-byte Reload
+	pcmpeqb	xmm4, xmm1
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [r14 + rax + 1], 15
+	pcmpeqb	xmm3, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	pandn	xmm3, xmm0
+	paddb	xmm3, xmm4
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	movzx	esi, byte ptr [r14 + rax + 16]
+	movd	xmm10, esi
+	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + r12 + 2], 1
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + rcx + 2], 2
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + r15 + 2], 3
+	mov	r11, r9
+	pinsrb	xmm5, byte ptr [r14 + r9 + 2], 4
+	pinsrb	xmm5, byte ptr [r14 + rdi + 2], 5
+	mov	r10, qword ptr [rsp + 152]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + r10 + 2], 6
+	mov	r8, rbx
+	pinsrb	xmm5, byte ptr [r14 + rbx + 2], 7
+	mov	qword ptr [rsp + 104], r13      # 8-byte Spill
+	pinsrb	xmm5, byte ptr [r14 + r13 + 2], 8
+	pinsrb	xmm5, byte ptr [r14 + rdx + 2], 9
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + rdi + 2], 10
+	mov	rsi, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + rsi + 2], 11
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + rax + 2], 12
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + rbx + 2], 13
+	mov	r9, qword ptr [rsp + 40]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + r9 + 2], 14
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + rdx + 2], 15
+	pinsrb	xmm7, byte ptr [r14 + r12 + 3], 1
+	pinsrb	xmm7, byte ptr [r14 + rcx + 3], 2
+	pinsrb	xmm7, byte ptr [r14 + r15 + 3], 3
+	pinsrb	xmm7, byte ptr [r14 + r11 + 3], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rax + 3], 5
+	pinsrb	xmm7, byte ptr [r14 + r10 + 3], 6
+	pinsrb	xmm7, byte ptr [r14 + r8 + 3], 7
+	pinsrb	xmm7, byte ptr [r14 + r13 + 3], 8
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rax + 3], 9
+	pinsrb	xmm7, byte ptr [r14 + rdi + 3], 10
+	pinsrb	xmm7, byte ptr [r14 + rsi + 3], 11
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rax + 3], 12
+	pinsrb	xmm7, byte ptr [r14 + rbx + 3], 13
+	pinsrb	xmm7, byte ptr [r14 + r9 + 3], 14
+	pinsrb	xmm7, byte ptr [r14 + rdx + 3], 15
+	pinsrb	xmm9, byte ptr [r14 + r12 + 4], 1
+	pinsrb	xmm9, byte ptr [r14 + rcx + 4], 2
+	pinsrb	xmm9, byte ptr [r14 + r15 + 4], 3
+	pinsrb	xmm9, byte ptr [r14 + r11 + 4], 4
+	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + r12 + 4], 5
+	pinsrb	xmm9, byte ptr [r14 + r10 + 4], 6
+	pinsrb	xmm9, byte ptr [r14 + r8 + 4], 7
+	pinsrb	xmm9, byte ptr [r14 + r13 + 4], 8
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + rcx + 4], 9
+	pinsrb	xmm9, byte ptr [r14 + rdi + 4], 10
+	pinsrb	xmm9, byte ptr [r14 + rsi + 4], 11
+	pinsrb	xmm9, byte ptr [r14 + rax + 4], 12
+	pinsrb	xmm9, byte ptr [r14 + rbx + 4], 13
+	pinsrb	xmm9, byte ptr [r14 + r9 + 4], 14
+	pinsrb	xmm9, byte ptr [r14 + rdx + 4], 15
+	pcmpeqb	xmm5, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pandn	xmm5, xmm0
+	pcmpeqb	xmm7, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pandn	xmm7, xmm0
+	por	xmm7, xmm5
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	movzx	esi, byte ptr [r14 + rdx + 17]
+	movd	xmm4, esi
+	pcmpeqb	xmm9, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm9, xmm0
+	por	xmm9, xmm7
+	movzx	esi, byte ptr [r14 + rdx + 18]
+	movd	xmm7, esi
+	pcmpeqd	xmm0, xmm0
+	psubb	xmm3, xmm0
+	por	xmm9, xmm3
+	movzx	esi, byte ptr [r14 + rdx + 19]
+	movd	xmm5, esi
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + rdx + 5], 1
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + rdi + 5], 2
+	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 3
+	pinsrb	xmm2, byte ptr [r14 + r11 + 5], 4
+	mov	r9, r12
+	pinsrb	xmm2, byte ptr [r14 + r12 + 5], 5
+	pinsrb	xmm2, byte ptr [r14 + r10 + 5], 6
+	mov	r13, r8
+	pinsrb	xmm2, byte ptr [r14 + r8 + 5], 7
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + r11 + 5], 8
+	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + r12 + 5], 9
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + rsi + 5], 10
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + r8 + 5], 11
+	mov	rcx, rax
+	pinsrb	xmm2, byte ptr [r14 + rax + 5], 12
+	pinsrb	xmm2, byte ptr [r14 + rbx + 5], 13
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 14
+	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 15
+	pinsrb	xmm8, byte ptr [r14 + rdx + 6], 1
+	pinsrb	xmm8, byte ptr [r14 + rdi + 6], 2
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [r14 + rax + 6], 3
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [r14 + rax + 6], 4
+	pinsrb	xmm8, byte ptr [r14 + r9 + 6], 5
+	pinsrb	xmm8, byte ptr [r14 + r10 + 6], 6
+	pinsrb	xmm8, byte ptr [r14 + r13 + 6], 7
+	mov	r10, r13
+	mov	qword ptr [rsp + 136], r13      # 8-byte Spill
+	pinsrb	xmm8, byte ptr [r14 + r11 + 6], 8
+	pinsrb	xmm8, byte ptr [r14 + r12 + 6], 9
+	pinsrb	xmm8, byte ptr [r14 + rsi + 6], 10
+	pinsrb	xmm8, byte ptr [r14 + r8 + 6], 11
+	pinsrb	xmm8, byte ptr [r14 + rcx + 6], 12
+	pinsrb	xmm8, byte ptr [r14 + rbx + 6], 13
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [r14 + r13 + 6], 14
+	mov	r8, r15
+	pinsrb	xmm8, byte ptr [r14 + r15 + 6], 15
+	pinsrb	xmm14, byte ptr [r14 + rdx + 7], 1
+	pinsrb	xmm14, byte ptr [r14 + rdi + 7], 2
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [r14 + rax + 7], 3
+	mov	rdx, rax
+	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [r14 + r11 + 7], 4
+	pinsrb	xmm14, byte ptr [r14 + r9 + 7], 5
+	mov	r9, qword ptr [rsp + 152]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [r14 + r9 + 7], 6
+	pinsrb	xmm14, byte ptr [r14 + r10 + 7], 7
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm14, byte ptr [r14 + rax + 7], 8
+	pinsrb	xmm14, byte ptr [r14 + r12 + 7], 9
+	pinsrb	xmm14, byte ptr [r14 + rsi + 7], 10
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [r14 + rax + 7], 11
+	pinsrb	xmm14, byte ptr [r14 + rcx + 7], 12
+	pinsrb	xmm14, byte ptr [r14 + rbx + 7], 13
+	pinsrb	xmm14, byte ptr [r14 + r13 + 7], 14
+	movdqa	xmm1, xmm14
+	movdqa	xmm14, xmmword ptr [rsp + 176]  # 16-byte Reload
+	pcmpeqb	xmm2, xmm14
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm2, xmm0
+	pcmpeqb	xmm8, xmm14
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm8, xmm0
+	por	xmm8, xmm2
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	movzx	esi, byte ptr [r14 + r10 + 20]
+	movd	xmm3, esi
+	pinsrb	xmm1, byte ptr [r14 + r15 + 7], 15
+	pcmpeqb	xmm1, xmm14
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pandn	xmm1, xmm0
+	por	xmm1, xmm8
+	movzx	esi, byte ptr [r14 + r10 + 21]
+	movd	xmm2, esi
+	movdqa	xmm0, xmmword ptr [rsp + 256]   # 16-byte Reload
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + rcx + 8], 1
+	pinsrb	xmm0, byte ptr [r14 + rdi + 8], 2
+	mov	r13, rdx
+	pinsrb	xmm0, byte ptr [r14 + rdx + 8], 3
+	pinsrb	xmm0, byte ptr [r14 + r11 + 8], 4
+	mov	rdx, r11
+	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + r8 + 8], 5
+	pinsrb	xmm0, byte ptr [r14 + r9 + 8], 6
+	mov	r15, r9
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + rdi + 8], 7
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + rbx + 8], 8
+	pinsrb	xmm0, byte ptr [r14 + r12 + 8], 9
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 10
+	pinsrb	xmm0, byte ptr [r14 + rax + 8], 11
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + rax + 8], 12
+	mov	r9, qword ptr [rsp + 120]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + r9 + 8], 13
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + r11 + 8], 14
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 15
+	por	xmm1, xmm9
+	movdqa	xmmword ptr [rsp + 256], xmm1   # 16-byte Spill
+	movzx	esi, byte ptr [r14 + r10 + 22]
+	movd	xmm1, esi
+	pcmpeqb	xmm0, xmm14
+	pinsrb	xmm11, byte ptr [r14 + rcx + 9], 1
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + rax + 9], 2
+	pinsrb	xmm11, byte ptr [r14 + r13 + 9], 3
+	pinsrb	xmm11, byte ptr [r14 + rdx + 9], 4
+	pinsrb	xmm11, byte ptr [r14 + r8 + 9], 5
+	mov	r10, r15
+	pinsrb	xmm11, byte ptr [r14 + r15 + 9], 6
+	pinsrb	xmm11, byte ptr [r14 + rdi + 9], 7
+	mov	r15, rdi
+	pinsrb	xmm11, byte ptr [r14 + rbx + 9], 8
+	pinsrb	xmm11, byte ptr [r14 + r12 + 9], 9
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + rsi + 9], 10
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + rdx + 9], 11
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + rdi + 9], 12
+	pinsrb	xmm11, byte ptr [r14 + r9 + 9], 13
+	pinsrb	xmm11, byte ptr [r14 + r11 + 9], 14
+	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + r8 + 9], 15
+	pinsrb	xmm12, byte ptr [r14 + rcx + 10], 1
+	pinsrb	xmm12, byte ptr [r14 + rax + 10], 2
+	pinsrb	xmm12, byte ptr [r14 + r13 + 10], 3
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [r14 + rbx + 10], 4
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [r14 + r13 + 10], 5
+	pinsrb	xmm12, byte ptr [r14 + r10 + 10], 6
+	pinsrb	xmm12, byte ptr [r14 + r15 + 10], 7
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [r14 + rbx + 10], 8
+	pinsrb	xmm12, byte ptr [r14 + r12 + 10], 9
+	pinsrb	xmm12, byte ptr [r14 + rsi + 10], 10
+	pinsrb	xmm12, byte ptr [r14 + rdx + 10], 11
+	pinsrb	xmm12, byte ptr [r14 + rdi + 10], 12
+	pinsrb	xmm12, byte ptr [r14 + r9 + 10], 13
+	pinsrb	xmm12, byte ptr [r14 + r11 + 10], 14
+	pinsrb	xmm12, byte ptr [r14 + r8 + 10], 15
+	pinsrb	xmm13, byte ptr [r14 + rcx + 11], 1
+	pinsrb	xmm13, byte ptr [r14 + rax + 11], 2
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [r14 + rax + 11], 3
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [r14 + rax + 11], 4
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [r14 + rax + 11], 5
+	pinsrb	xmm13, byte ptr [r14 + r10 + 11], 6
+	pinsrb	xmm13, byte ptr [r14 + r15 + 11], 7
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [r14 + r13 + 11], 8
+	pinsrb	xmm13, byte ptr [r14 + r12 + 11], 9
+	pinsrb	xmm13, byte ptr [r14 + rsi + 11], 10
+	pinsrb	xmm13, byte ptr [r14 + rdx + 11], 11
+	pinsrb	xmm13, byte ptr [r14 + rdi + 11], 12
+	pinsrb	xmm13, byte ptr [r14 + r9 + 11], 13
+	pinsrb	xmm13, byte ptr [r14 + r11 + 11], 14
+	mov	rax, r11
+	pinsrb	xmm13, byte ptr [r14 + r8 + 11], 15
+	pcmpeqb	xmm11, xmm14
+	pandn	xmm11, xmmword ptr [rip + .LCPI5_16]
+	paddb	xmm11, xmm0
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	movzx	esi, byte ptr [r14 + rbx + 23]
+	movd	xmm8, esi
+	pcmpeqb	xmm12, xmm14
+	pandn	xmm12, xmmword ptr [rip + .LCPI5_17]
+	pcmpeqb	xmm13, xmm14
+	pandn	xmm13, xmmword ptr [rip + .LCPI5_18]
+	por	xmm13, xmm12
+	movzx	esi, byte ptr [r14 + rbx + 24]
+	movd	xmm12, esi
+	movdqa	xmm9, xmmword ptr [rsp + 224]   # 16-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + rcx + 12], 1
+	mov	r12, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + r12 + 12], 2
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + r15 + 12], 3
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + rbx + 12], 4
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + r9 + 12], 5
+	mov	r8, r10
+	pinsrb	xmm9, byte ptr [r14 + r10 + 12], 6
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + r11 + 12], 7
+	pinsrb	xmm9, byte ptr [r14 + r13 + 12], 8
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + rcx + 12], 9
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + r10 + 12], 10
+	pinsrb	xmm9, byte ptr [r14 + rdx + 12], 11
+	pinsrb	xmm9, byte ptr [r14 + rdi + 12], 12
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + rsi + 12], 13
+	pinsrb	xmm9, byte ptr [r14 + rax + 12], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + rax + 12], 15
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + rax + 13], 1
+	pinsrb	xmm6, byte ptr [r14 + r12 + 13], 2
+	pinsrb	xmm6, byte ptr [r14 + r15 + 13], 3
+	pinsrb	xmm6, byte ptr [r14 + rbx + 13], 4
+	pinsrb	xmm6, byte ptr [r14 + r9 + 13], 5
+	pinsrb	xmm6, byte ptr [r14 + r8 + 13], 6
+	pinsrb	xmm6, byte ptr [r14 + r11 + 13], 7
+	pinsrb	xmm6, byte ptr [r14 + r13 + 13], 8
+	pinsrb	xmm6, byte ptr [r14 + rcx + 13], 9
+	pinsrb	xmm6, byte ptr [r14 + r10 + 13], 10
+	pinsrb	xmm6, byte ptr [r14 + rdx + 13], 11
+	pinsrb	xmm6, byte ptr [r14 + rdi + 13], 12
+	pinsrb	xmm6, byte ptr [r14 + rsi + 13], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + rax + 13], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + rax + 13], 15
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [r14 + rax + 14], 1
+	pinsrb	xmm15, byte ptr [r14 + r12 + 14], 2
+	pinsrb	xmm15, byte ptr [r14 + r15 + 14], 3
+	pinsrb	xmm15, byte ptr [r14 + rbx + 14], 4
+	pinsrb	xmm15, byte ptr [r14 + r9 + 14], 5
+	mov	rbx, r9
+	pinsrb	xmm15, byte ptr [r14 + r8 + 14], 6
+	mov	r12, r8
+	pinsrb	xmm15, byte ptr [r14 + r11 + 14], 7
+	pinsrb	xmm15, byte ptr [r14 + r13 + 14], 8
+	pinsrb	xmm15, byte ptr [r14 + rcx + 14], 9
+	mov	r11, rcx
+	pinsrb	xmm15, byte ptr [r14 + r10 + 14], 10
+	pinsrb	xmm15, byte ptr [r14 + rdx + 14], 11
+	pinsrb	xmm15, byte ptr [r14 + rdi + 14], 12
+	pinsrb	xmm15, byte ptr [r14 + rsi + 14], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [r14 + rax + 14], 14
+	pcmpeqb	xmm9, xmm14
+	pandn	xmm9, xmmword ptr [rip + .LCPI5_19]
+	por	xmm9, xmm13
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	movzx	esi, byte ptr [r14 + rax + 25]
+	movd	xmm13, esi
+	psubb	xmm11, xmmword ptr [rip + .LCPI5_22]
+	por	xmm9, xmm11
+	movzx	esi, byte ptr [r14 + rax + 26]
+	movd	xmm0, esi
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [r14 + rcx + 14], 15
+	pcmpeqb	xmm6, xmm14
+	pandn	xmm6, xmmword ptr [rip + .LCPI5_20]
+	pcmpeqb	xmm15, xmm14
+	pandn	xmm15, xmmword ptr [rip + .LCPI5_21]
+	por	xmm15, xmm6
+	movzx	esi, byte ptr [r14 + rax + 27]
+	movd	xmm11, esi
+	movdqa	xmm6, xmmword ptr [rsp + 192]   # 16-byte Reload
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + rdi + 15], 1
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + r9 + 15], 2
+	pinsrb	xmm6, byte ptr [r14 + r15 + 15], 3
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + r8 + 15], 4
+	pinsrb	xmm6, byte ptr [r14 + rbx + 15], 5
+	pinsrb	xmm6, byte ptr [r14 + r12 + 15], 6
+	mov	rsi, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + rsi + 15], 7
+	mov	r15, r13
+	pinsrb	xmm6, byte ptr [r14 + r13 + 15], 8
+	pinsrb	xmm6, byte ptr [r14 + r11 + 15], 9
+	pinsrb	xmm6, byte ptr [r14 + r10 + 15], 10
+	pinsrb	xmm6, byte ptr [r14 + rdx + 15], 11
+	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + r10 + 15], 12
+	mov	r13, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + r13 + 15], 13
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + rdx + 15], 14
+	pinsrb	xmm6, byte ptr [r14 + rcx + 15], 15
+	pcmpeqb	xmm6, xmm14
+	pandn	xmm6, xmmword ptr [rip + .LCPI5_6]
+	por	xmm6, xmm15
+	movzx	esi, byte ptr [r14 + rax + 28]
+	movd	xmm15, esi
+	por	xmm6, xmm9
+	movdqa	xmmword ptr [rsp + 192], xmm6   # 16-byte Spill
+	movzx	esi, byte ptr [r14 + rax + 29]
+	movd	xmm9, esi
+	mov	rsi, rdi
+	pinsrb	xmm10, byte ptr [r14 + rdi + 16], 1
+	pinsrb	xmm10, byte ptr [r14 + r9 + 16], 2
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [r14 + rdx + 16], 3
+	pinsrb	xmm10, byte ptr [r14 + r8 + 16], 4
+	pinsrb	xmm10, byte ptr [r14 + rbx + 16], 5
+	pinsrb	xmm10, byte ptr [r14 + r12 + 16], 6
+	mov	rdi, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [r14 + rdi + 16], 7
+	mov	rax, r15
+	pinsrb	xmm10, byte ptr [r14 + r15 + 16], 8
+	pinsrb	xmm10, byte ptr [r14 + r11 + 16], 9
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [r14 + r15 + 16], 10
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [r14 + rcx + 16], 11
+	pinsrb	xmm10, byte ptr [r14 + r10 + 16], 12
+	pinsrb	xmm10, byte ptr [r14 + r13 + 16], 13
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [r14 + rcx + 16], 14
+	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [r14 + r13 + 16], 15
+	pinsrb	xmm4, byte ptr [r14 + rsi + 17], 1
+	pinsrb	xmm4, byte ptr [r14 + r9 + 17], 2
+	pinsrb	xmm4, byte ptr [r14 + rdx + 17], 3
+	pinsrb	xmm4, byte ptr [r14 + r8 + 17], 4
+	pinsrb	xmm4, byte ptr [r14 + rbx + 17], 5
+	pinsrb	xmm4, byte ptr [r14 + r12 + 17], 6
+	pinsrb	xmm4, byte ptr [r14 + rdi + 17], 7
+	pinsrb	xmm4, byte ptr [r14 + rax + 17], 8
+	mov	r9, r11
+	pinsrb	xmm4, byte ptr [r14 + r11 + 17], 9
+	mov	r10, r15
+	pinsrb	xmm4, byte ptr [r14 + r15 + 17], 10
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	pinsrb	xmm4, byte ptr [r14 + r8 + 17], 11
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [r14 + rdi + 17], 12
+	mov	rdx, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [r14 + rdx + 17], 13
+	pinsrb	xmm4, byte ptr [r14 + rcx + 17], 14
+	mov	r11, rcx
+	pinsrb	xmm4, byte ptr [r14 + r13 + 17], 15
+	pcmpeqb	xmm10, xmm14
+	pcmpeqb	xmm4, xmm14
+	movdqa	xmm6, xmmword ptr [rip + .LCPI5_16] # xmm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	pandn	xmm4, xmm6
+	paddb	xmm4, xmm10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	movzx	esi, byte ptr [r14 + rax + 30]
+	movd	xmm10, esi
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rsi + 18], 1
+	pinsrb	xmm5, byte ptr [r14 + rsi + 19], 1
+	pinsrb	xmm3, byte ptr [r14 + rsi + 20], 1
+	pinsrb	xmm2, byte ptr [r14 + rsi + 21], 1
+	pinsrb	xmm1, byte ptr [r14 + rsi + 22], 1
+	pinsrb	xmm8, byte ptr [r14 + rsi + 23], 1
+	pinsrb	xmm12, byte ptr [r14 + rsi + 24], 1
+	pinsrb	xmm13, byte ptr [r14 + rsi + 25], 1
+	pinsrb	xmm0, byte ptr [r14 + rsi + 26], 1
+	pinsrb	xmm11, byte ptr [r14 + rsi + 27], 1
+	pinsrb	xmm15, byte ptr [r14 + rsi + 28], 1
+	pinsrb	xmm9, byte ptr [r14 + rsi + 29], 1
+	pinsrb	xmm10, byte ptr [r14 + rsi + 30], 1
+	movzx	eax, byte ptr [r14 + rax + 31]
+	movd	xmm6, eax
+	pinsrb	xmm6, byte ptr [r14 + rsi + 31], 1
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rax + 18], 2
+	pinsrb	xmm5, byte ptr [r14 + rax + 19], 2
+	pinsrb	xmm3, byte ptr [r14 + rax + 20], 2
+	pinsrb	xmm2, byte ptr [r14 + rax + 21], 2
+	pinsrb	xmm1, byte ptr [r14 + rax + 22], 2
+	pinsrb	xmm8, byte ptr [r14 + rax + 23], 2
+	pinsrb	xmm12, byte ptr [r14 + rax + 24], 2
+	pinsrb	xmm13, byte ptr [r14 + rax + 25], 2
+	pinsrb	xmm0, byte ptr [r14 + rax + 26], 2
+	pinsrb	xmm11, byte ptr [r14 + rax + 27], 2
+	pinsrb	xmm15, byte ptr [r14 + rax + 28], 2
+	pinsrb	xmm9, byte ptr [r14 + rax + 29], 2
+	pinsrb	xmm10, byte ptr [r14 + rax + 30], 2
+	pinsrb	xmm6, byte ptr [r14 + rax + 31], 2
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + r15 + 18], 3
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rax + 18], 4
+	pinsrb	xmm7, byte ptr [r14 + rbx + 18], 5
+	pinsrb	xmm7, byte ptr [r14 + r12 + 18], 6
+	mov	rcx, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rcx + 18], 7
+	mov	rsi, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rsi + 18], 8
+	pinsrb	xmm7, byte ptr [r14 + r9 + 18], 9
+	pinsrb	xmm7, byte ptr [r14 + r10 + 18], 10
+	pinsrb	xmm7, byte ptr [r14 + r8 + 18], 11
+	pinsrb	xmm7, byte ptr [r14 + rdi + 18], 12
+	pinsrb	xmm7, byte ptr [r14 + rdx + 18], 13
+	pinsrb	xmm7, byte ptr [r14 + r11 + 18], 14
+	pinsrb	xmm7, byte ptr [r14 + r13 + 18], 15
+	pinsrb	xmm5, byte ptr [r14 + r15 + 19], 3
+	pinsrb	xmm5, byte ptr [r14 + rax + 19], 4
+	pinsrb	xmm5, byte ptr [r14 + rbx + 19], 5
+	pinsrb	xmm5, byte ptr [r14 + r12 + 19], 6
+	pinsrb	xmm5, byte ptr [r14 + rcx + 19], 7
+	pinsrb	xmm5, byte ptr [r14 + rsi + 19], 8
+	pinsrb	xmm5, byte ptr [r14 + r9 + 19], 9
+	pinsrb	xmm5, byte ptr [r14 + r10 + 19], 10
+	pinsrb	xmm5, byte ptr [r14 + r8 + 19], 11
+	pinsrb	xmm5, byte ptr [r14 + rdi + 19], 12
+	pinsrb	xmm5, byte ptr [r14 + rdx + 19], 13
+	pinsrb	xmm5, byte ptr [r14 + r11 + 19], 14
+	pinsrb	xmm5, byte ptr [r14 + r13 + 19], 15
+	pinsrb	xmm3, byte ptr [r14 + r15 + 20], 3
+	pinsrb	xmm3, byte ptr [r14 + rax + 20], 4
+	pinsrb	xmm3, byte ptr [r14 + rbx + 20], 5
+	pinsrb	xmm3, byte ptr [r14 + r12 + 20], 6
+	pinsrb	xmm3, byte ptr [r14 + rcx + 20], 7
+	pinsrb	xmm3, byte ptr [r14 + rsi + 20], 8
+	pinsrb	xmm3, byte ptr [r14 + r9 + 20], 9
+	pinsrb	xmm3, byte ptr [r14 + r10 + 20], 10
+	pinsrb	xmm3, byte ptr [r14 + r8 + 20], 11
+	pinsrb	xmm3, byte ptr [r14 + rdi + 20], 12
+	pinsrb	xmm3, byte ptr [r14 + rdx + 20], 13
+	pinsrb	xmm3, byte ptr [r14 + r11 + 20], 14
+	pcmpeqb	xmm7, xmm14
+	movdqa	xmm14, xmmword ptr [rip + .LCPI5_17] # xmm14 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pandn	xmm7, xmm14
+	pcmpeqb	xmm5, xmmword ptr [rsp + 176]   # 16-byte Folded Reload
+	movdqa	xmm14, xmmword ptr [rip + .LCPI5_18] # xmm14 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pandn	xmm5, xmm14
+	por	xmm5, xmm7
+	pinsrb	xmm3, byte ptr [r14 + r13 + 20], 15
+	movdqa	xmm14, xmmword ptr [rsp + 176]  # 16-byte Reload
+	pcmpeqb	xmm3, xmm14
+	movdqa	xmm7, xmmword ptr [rip + .LCPI5_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm3, xmm7
+	por	xmm3, xmm5
+	pcmpeqd	xmm5, xmm5
+	psubb	xmm4, xmm5
+	por	xmm3, xmm4
+	pinsrb	xmm2, byte ptr [r14 + r15 + 21], 3
+	pinsrb	xmm2, byte ptr [r14 + rax + 21], 4
+	pinsrb	xmm2, byte ptr [r14 + rbx + 21], 5
+	pinsrb	xmm2, byte ptr [r14 + r12 + 21], 6
+	pinsrb	xmm2, byte ptr [r14 + rcx + 21], 7
+	pinsrb	xmm2, byte ptr [r14 + rsi + 21], 8
+	pinsrb	xmm2, byte ptr [r14 + r9 + 21], 9
+	pinsrb	xmm2, byte ptr [r14 + r10 + 21], 10
+	pinsrb	xmm2, byte ptr [r14 + r8 + 21], 11
+	pinsrb	xmm2, byte ptr [r14 + rdi + 21], 12
+	pinsrb	xmm2, byte ptr [r14 + rdx + 21], 13
+	pinsrb	xmm2, byte ptr [r14 + r11 + 21], 14
+	pinsrb	xmm2, byte ptr [r14 + r13 + 21], 15
+	pinsrb	xmm1, byte ptr [r14 + r15 + 22], 3
+	pinsrb	xmm1, byte ptr [r14 + rax + 22], 4
+	pinsrb	xmm1, byte ptr [r14 + rbx + 22], 5
+	pinsrb	xmm1, byte ptr [r14 + r12 + 22], 6
+	pinsrb	xmm1, byte ptr [r14 + rcx + 22], 7
+	pinsrb	xmm1, byte ptr [r14 + rsi + 22], 8
+	pinsrb	xmm1, byte ptr [r14 + r9 + 22], 9
+	pinsrb	xmm1, byte ptr [r14 + r10 + 22], 10
+	pinsrb	xmm1, byte ptr [r14 + r8 + 22], 11
+	pinsrb	xmm1, byte ptr [r14 + rdi + 22], 12
+	pinsrb	xmm1, byte ptr [r14 + rdx + 22], 13
+	pinsrb	xmm1, byte ptr [r14 + r11 + 22], 14
+	pinsrb	xmm1, byte ptr [r14 + r13 + 22], 15
+	pinsrb	xmm8, byte ptr [r14 + r15 + 23], 3
+	pinsrb	xmm8, byte ptr [r14 + rax + 23], 4
+	pinsrb	xmm8, byte ptr [r14 + rbx + 23], 5
+	pinsrb	xmm8, byte ptr [r14 + r12 + 23], 6
+	pinsrb	xmm8, byte ptr [r14 + rcx + 23], 7
+	pinsrb	xmm8, byte ptr [r14 + rsi + 23], 8
+	pinsrb	xmm8, byte ptr [r14 + r9 + 23], 9
+	pinsrb	xmm8, byte ptr [r14 + r10 + 23], 10
+	pinsrb	xmm8, byte ptr [r14 + r8 + 23], 11
+	pinsrb	xmm8, byte ptr [r14 + rdi + 23], 12
+	pinsrb	xmm8, byte ptr [r14 + rdx + 23], 13
+	pinsrb	xmm8, byte ptr [r14 + r11 + 23], 14
+	pcmpeqb	xmm2, xmm14
+	movdqa	xmm5, xmmword ptr [rip + .LCPI5_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm2, xmm5
+	pcmpeqb	xmm1, xmm14
+	movdqa	xmm7, xmmword ptr [rip + .LCPI5_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm1, xmm7
+	por	xmm1, xmm2
+	pinsrb	xmm8, byte ptr [r14 + r13 + 23], 15
+	pcmpeqb	xmm8, xmm14
+	movdqa	xmm4, xmmword ptr [rip + .LCPI5_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pandn	xmm8, xmm4
+	por	xmm8, xmm1
+	pinsrb	xmm12, byte ptr [r14 + r15 + 24], 3
+	pinsrb	xmm12, byte ptr [r14 + rax + 24], 4
+	pinsrb	xmm12, byte ptr [r14 + rbx + 24], 5
+	pinsrb	xmm12, byte ptr [r14 + r12 + 24], 6
+	pinsrb	xmm12, byte ptr [r14 + rcx + 24], 7
+	pinsrb	xmm12, byte ptr [r14 + rsi + 24], 8
+	pinsrb	xmm12, byte ptr [r14 + r9 + 24], 9
+	pinsrb	xmm12, byte ptr [r14 + r10 + 24], 10
+	pinsrb	xmm12, byte ptr [r14 + r8 + 24], 11
+	pinsrb	xmm12, byte ptr [r14 + rdi + 24], 12
+	pinsrb	xmm12, byte ptr [r14 + rdx + 24], 13
+	pinsrb	xmm12, byte ptr [r14 + r11 + 24], 14
+	pinsrb	xmm12, byte ptr [r14 + r13 + 24], 15
+	por	xmm8, xmm3
+	pcmpeqb	xmm12, xmm14
+	pinsrb	xmm13, byte ptr [r14 + r15 + 25], 3
+	pinsrb	xmm13, byte ptr [r14 + rax + 25], 4
+	pinsrb	xmm13, byte ptr [r14 + rbx + 25], 5
+	pinsrb	xmm13, byte ptr [r14 + r12 + 25], 6
+	pinsrb	xmm13, byte ptr [r14 + rcx + 25], 7
+	pinsrb	xmm13, byte ptr [r14 + rsi + 25], 8
+	pinsrb	xmm13, byte ptr [r14 + r9 + 25], 9
+	pinsrb	xmm13, byte ptr [r14 + r10 + 25], 10
+	pinsrb	xmm13, byte ptr [r14 + r8 + 25], 11
+	pinsrb	xmm13, byte ptr [r14 + rdi + 25], 12
+	pinsrb	xmm13, byte ptr [r14 + rdx + 25], 13
+	pinsrb	xmm13, byte ptr [r14 + r11 + 25], 14
+	pinsrb	xmm13, byte ptr [r14 + r13 + 25], 15
+	pinsrb	xmm0, byte ptr [r14 + r15 + 26], 3
+	pinsrb	xmm0, byte ptr [r14 + rax + 26], 4
+	pinsrb	xmm0, byte ptr [r14 + rbx + 26], 5
+	pinsrb	xmm0, byte ptr [r14 + r12 + 26], 6
+	pinsrb	xmm0, byte ptr [r14 + rcx + 26], 7
+	pinsrb	xmm0, byte ptr [r14 + rsi + 26], 8
+	pinsrb	xmm0, byte ptr [r14 + r9 + 26], 9
+	pinsrb	xmm0, byte ptr [r14 + r10 + 26], 10
+	pinsrb	xmm0, byte ptr [r14 + r8 + 26], 11
+	pinsrb	xmm0, byte ptr [r14 + rdi + 26], 12
+	pinsrb	xmm0, byte ptr [r14 + rdx + 26], 13
+	pinsrb	xmm0, byte ptr [r14 + r11 + 26], 14
+	pinsrb	xmm0, byte ptr [r14 + r13 + 26], 15
+	pinsrb	xmm11, byte ptr [r14 + r15 + 27], 3
+	pinsrb	xmm11, byte ptr [r14 + rax + 27], 4
+	pinsrb	xmm11, byte ptr [r14 + rbx + 27], 5
+	pinsrb	xmm11, byte ptr [r14 + r12 + 27], 6
+	pinsrb	xmm11, byte ptr [r14 + rcx + 27], 7
+	pinsrb	xmm11, byte ptr [r14 + rsi + 27], 8
+	pinsrb	xmm11, byte ptr [r14 + r9 + 27], 9
+	pinsrb	xmm11, byte ptr [r14 + r10 + 27], 10
+	pinsrb	xmm11, byte ptr [r14 + r8 + 27], 11
+	pinsrb	xmm11, byte ptr [r14 + rdi + 27], 12
+	pinsrb	xmm11, byte ptr [r14 + rdx + 27], 13
+	pinsrb	xmm11, byte ptr [r14 + r11 + 27], 14
+	pcmpeqb	xmm13, xmm14
+	pandn	xmm13, xmmword ptr [rip + .LCPI5_16]
+	paddb	xmm13, xmm12
+	pinsrb	xmm11, byte ptr [r14 + r13 + 27], 15
+	pcmpeqb	xmm0, xmm14
+	pandn	xmm0, xmmword ptr [rip + .LCPI5_17]
+	pcmpeqb	xmm11, xmm14
+	pandn	xmm11, xmmword ptr [rip + .LCPI5_18]
+	por	xmm11, xmm0
+	pinsrb	xmm15, byte ptr [r14 + r15 + 28], 3
+	pinsrb	xmm9, byte ptr [r14 + r15 + 29], 3
+	pinsrb	xmm10, byte ptr [r14 + r15 + 30], 3
+	pinsrb	xmm6, byte ptr [r14 + r15 + 31], 3
+	pinsrb	xmm15, byte ptr [r14 + rax + 28], 4
+	pinsrb	xmm9, byte ptr [r14 + rax + 29], 4
+	pinsrb	xmm10, byte ptr [r14 + rax + 30], 4
+	pinsrb	xmm6, byte ptr [r14 + rax + 31], 4
+	pinsrb	xmm15, byte ptr [r14 + rbx + 28], 5
+	pinsrb	xmm9, byte ptr [r14 + rbx + 29], 5
+	pinsrb	xmm10, byte ptr [r14 + rbx + 30], 5
+	pinsrb	xmm6, byte ptr [r14 + rbx + 31], 5
+	pinsrb	xmm15, byte ptr [r14 + r12 + 28], 6
+	pinsrb	xmm9, byte ptr [r14 + r12 + 29], 6
+	pinsrb	xmm10, byte ptr [r14 + r12 + 30], 6
+	pinsrb	xmm6, byte ptr [r14 + r12 + 31], 6
+	mov	rax, rcx
+	pinsrb	xmm15, byte ptr [r14 + rcx + 28], 7
+	pinsrb	xmm9, byte ptr [r14 + rcx + 29], 7
+	pinsrb	xmm10, byte ptr [r14 + rcx + 30], 7
+	pinsrb	xmm6, byte ptr [r14 + rcx + 31], 7
+	mov	rax, rsi
+	pinsrb	xmm15, byte ptr [r14 + rsi + 28], 8
+	pinsrb	xmm9, byte ptr [r14 + rsi + 29], 8
+	pinsrb	xmm10, byte ptr [r14 + rsi + 30], 8
+	pinsrb	xmm6, byte ptr [r14 + rsi + 31], 8
+	mov	rax, r9
+	pinsrb	xmm15, byte ptr [r14 + r9 + 28], 9
+	pinsrb	xmm9, byte ptr [r14 + r9 + 29], 9
+	pinsrb	xmm10, byte ptr [r14 + r9 + 30], 9
+	pinsrb	xmm6, byte ptr [r14 + r9 + 31], 9
+	mov	rax, r10
+	pinsrb	xmm15, byte ptr [r14 + r10 + 28], 10
+	pinsrb	xmm9, byte ptr [r14 + r10 + 29], 10
+	pinsrb	xmm10, byte ptr [r14 + r10 + 30], 10
+	pinsrb	xmm6, byte ptr [r14 + r10 + 31], 10
+	mov	rax, r8
+	pinsrb	xmm15, byte ptr [r14 + r8 + 28], 11
+	pinsrb	xmm9, byte ptr [r14 + r8 + 29], 11
+	pinsrb	xmm10, byte ptr [r14 + r8 + 30], 11
+	pinsrb	xmm6, byte ptr [r14 + r8 + 31], 11
+	mov	rax, rdi
+	pinsrb	xmm15, byte ptr [r14 + rdi + 28], 12
+	pinsrb	xmm9, byte ptr [r14 + rdi + 29], 12
+	pinsrb	xmm10, byte ptr [r14 + rdi + 30], 12
+	pinsrb	xmm6, byte ptr [r14 + rdi + 31], 12
+	mov	rax, rdx
+	pinsrb	xmm15, byte ptr [r14 + rdx + 28], 13
+	pinsrb	xmm9, byte ptr [r14 + rdx + 29], 13
+	pinsrb	xmm10, byte ptr [r14 + rdx + 30], 13
+	pinsrb	xmm6, byte ptr [r14 + rdx + 31], 13
+	mov	rax, r11
+	pinsrb	xmm15, byte ptr [r14 + r11 + 28], 14
+	pinsrb	xmm9, byte ptr [r14 + r11 + 29], 14
+	pinsrb	xmm10, byte ptr [r14 + r11 + 30], 14
+	pinsrb	xmm6, byte ptr [r14 + r11 + 31], 14
+	pinsrb	xmm15, byte ptr [r14 + r13 + 28], 15
+	pinsrb	xmm9, byte ptr [r14 + r13 + 29], 15
+	pinsrb	xmm10, byte ptr [r14 + r13 + 30], 15
+	pcmpeqb	xmm15, xmm14
+	pandn	xmm15, xmmword ptr [rip + .LCPI5_19]
+	por	xmm15, xmm11
+	pinsrb	xmm6, byte ptr [r14 + r13 + 31], 15
+	psubb	xmm13, xmmword ptr [rip + .LCPI5_22]
+	por	xmm15, xmm13
+	pcmpeqb	xmm9, xmm14
+	pandn	xmm9, xmm5
+	pcmpeqb	xmm10, xmm14
+	pandn	xmm10, xmm7
+	por	xmm10, xmm9
+	pcmpeqb	xmm6, xmm14
+	pandn	xmm6, xmm4
+	por	xmm6, xmm10
+	por	xmm6, xmm15
+	movdqa	xmm0, xmm8
+	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
+	movdqa	xmm3, xmmword ptr [rsp + 256]   # 16-byte Reload
+	movdqa	xmm1, xmm3
+	movdqa	xmm4, xmmword ptr [rsp + 192]   # 16-byte Reload
+	punpcklbw	xmm1, xmm4              # xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
+	movdqa	xmm2, xmm1
+	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
+	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
+	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
+	punpckhbw	xmm3, xmm4              # xmm3 = xmm3[8],xmm4[8],xmm3[9],xmm4[9],xmm3[10],xmm4[10],xmm3[11],xmm4[11],xmm3[12],xmm4[12],xmm3[13],xmm4[13],xmm3[14],xmm4[14],xmm3[15],xmm4[15]
+	movdqa	xmm0, xmm3
+	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
+	punpckhwd	xmm3, xmm8              # xmm3 = xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm3
+	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm1
+	movdqu	xmmword ptr [rax + 4*rcx], xmm2
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 216]      # 8-byte Folded Reload
+	jne	.LBB5_86
+# %bb.87:
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	cmp	r10, qword ptr [rsp + 216]      # 8-byte Folded Reload
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	jne	.LBB5_88
+	jmp	.LBB5_91
+.LBB5_66:
+	and	r10, -16
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, r14
+	mov	qword ptr [rsp + 272], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 216], r10      # 8-byte Spill
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	lea	rax, [rax + 4*r10]
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
+	xor	eax, eax
+	.p2align	4, 0x90
+.LBB5_67:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 168], rax      # 8-byte Spill
+	shl	rax, 5
+	mov	r8, rax
+	mov	r11, rax
+	mov	r9, rax
+	mov	r13, rax
+	mov	r15, rax
+	mov	rdi, rax
+	mov	r10, rax
+	mov	r12, rax
+	mov	rbx, rax
+	mov	rdx, rax
+	mov	rsi, rax
+	movzx	ecx, byte ptr [r14 + rax]
+	movd	xmm4, ecx
+	movzx	ecx, byte ptr [r14 + rax + 1]
+	movd	xmm3, ecx
+	movzx	ecx, byte ptr [r14 + rax + 2]
+	movd	xmm5, ecx
+	movzx	ecx, byte ptr [r14 + rax + 3]
+	movd	xmm7, ecx
+	movzx	ecx, byte ptr [r14 + rax + 4]
+	movd	xmm9, ecx
+	movzx	ecx, byte ptr [r14 + rax + 5]
+	movd	xmm2, ecx
+	movzx	ecx, byte ptr [r14 + rax + 6]
+	movd	xmm8, ecx
+	movzx	ecx, byte ptr [r14 + rax + 7]
+	movd	xmm14, ecx
+	movzx	ecx, byte ptr [r14 + rax + 8]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 256], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [r14 + rax + 9]
+	movd	xmm11, ecx
+	movzx	ecx, byte ptr [r14 + rax + 10]
+	movd	xmm12, ecx
+	movzx	ecx, byte ptr [r14 + rax + 11]
+	movd	xmm13, ecx
+	movzx	ecx, byte ptr [r14 + rax + 12]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [r14 + rax + 13]
+	movd	xmm6, ecx
+	movzx	ecx, byte ptr [r14 + rax + 14]
+	movd	xmm15, ecx
+	movzx	ecx, byte ptr [r14 + rax + 15]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+	mov	rcx, rax
+	or	rcx, 32
+	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
+	or	r8, 64
+	mov	qword ptr [rsp + 32], r8        # 8-byte Spill
+	or	r11, 96
+	mov	qword ptr [rsp + 80], r11       # 8-byte Spill
+	or	r9, 128
+	mov	qword ptr [rsp + 24], r9        # 8-byte Spill
+	or	r13, 160
+	or	r15, 192
+	or	rdi, 224
+	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
+	or	r10, 256
+	mov	qword ptr [rsp + 152], r10      # 8-byte Spill
+	or	r12, 288
+	or	rbx, 320
+	mov	qword ptr [rsp + 144], rbx      # 8-byte Spill
+	or	rdx, 352
+	mov	qword ptr [rsp + 112], rdx      # 8-byte Spill
+	mov	rbx, rax
+	or	rbx, 384
+	mov	qword ptr [rsp + 120], rbx      # 8-byte Spill
+	mov	rdx, rax
+	or	rdx, 416
+	mov	rcx, rax
+	or	rcx, 448
+	mov	qword ptr [rsp + 64], rcx       # 8-byte Spill
+	or	rsi, 480
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [r14 + rax], 1
+	pinsrb	xmm4, byte ptr [r14 + r8], 2
+	pinsrb	xmm4, byte ptr [r14 + r11], 3
+	pinsrb	xmm4, byte ptr [r14 + r9], 4
+	pinsrb	xmm4, byte ptr [r14 + r13], 5
+	pinsrb	xmm4, byte ptr [r14 + r15], 6
+	pinsrb	xmm4, byte ptr [r14 + rdi], 7
+	pinsrb	xmm4, byte ptr [r14 + r10], 8
+	pinsrb	xmm4, byte ptr [r14 + r12], 9
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [r14 + rax], 10
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [r14 + rax], 11
+	pinsrb	xmm4, byte ptr [r14 + rbx], 12
+	pinsrb	xmm4, byte ptr [r14 + rdx], 13
+	pinsrb	xmm4, byte ptr [r14 + rcx], 14
+	pinsrb	xmm4, byte ptr [r14 + rsi], 15
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [r14 + rax + 1], 1
+	pinsrb	xmm3, byte ptr [r14 + r8 + 1], 2
+	pinsrb	xmm3, byte ptr [r14 + r11 + 1], 3
+	pinsrb	xmm3, byte ptr [r14 + r9 + 1], 4
+	pinsrb	xmm3, byte ptr [r14 + r13 + 1], 5
+	mov	r9, r13
+	pinsrb	xmm3, byte ptr [r14 + r15 + 1], 6
+	mov	r11, r15
+	pinsrb	xmm3, byte ptr [r14 + rdi + 1], 7
+	pinsrb	xmm3, byte ptr [r14 + r10 + 1], 8
+	pinsrb	xmm3, byte ptr [r14 + r12 + 1], 9
+	mov	rdi, r12
+	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [r14 + r12 + 1], 10
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [r14 + rax + 1], 11
+	pinsrb	xmm3, byte ptr [r14 + rbx + 1], 12
+	pinsrb	xmm3, byte ptr [r14 + rdx + 1], 13
+	mov	qword ptr [rsp + 48], rdx       # 8-byte Spill
+	pinsrb	xmm3, byte ptr [r14 + rcx + 1], 14
+	movdqa	xmm1, xmmword ptr [rsp + 176]   # 16-byte Reload
+	pcmpeqb	xmm4, xmm1
+	pinsrb	xmm3, byte ptr [r14 + rsi + 1], 15
+	mov	r8, rsi
+	pcmpeqb	xmm3, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	pandn	xmm3, xmm0
+	paddb	xmm3, xmm4
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	esi, byte ptr [r14 + rax + 16]
+	movd	xmm10, esi
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + rax + 2], 1
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + r13 + 2], 2
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + r15 + 2], 3
+	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + rbx + 2], 4
+	pinsrb	xmm5, byte ptr [r14 + r9 + 2], 5
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	pinsrb	xmm5, byte ptr [r14 + r11 + 2], 6
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + r10 + 2], 7
+	mov	rax, qword ptr [rsp + 152]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + rax + 2], 8
+	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
+	pinsrb	xmm5, byte ptr [r14 + rdi + 2], 9
+	pinsrb	xmm5, byte ptr [r14 + r12 + 2], 10
+	mov	rsi, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + rsi + 2], 11
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + rcx + 2], 12
+	pinsrb	xmm5, byte ptr [r14 + rdx + 2], 13
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [r14 + rdx + 2], 14
+	pinsrb	xmm5, byte ptr [r14 + r8 + 2], 15
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rdx + 3], 1
+	pinsrb	xmm7, byte ptr [r14 + r13 + 3], 2
+	pinsrb	xmm7, byte ptr [r14 + r15 + 3], 3
+	pinsrb	xmm7, byte ptr [r14 + rbx + 3], 4
+	pinsrb	xmm7, byte ptr [r14 + r9 + 3], 5
+	pinsrb	xmm7, byte ptr [r14 + r11 + 3], 6
+	pinsrb	xmm7, byte ptr [r14 + r10 + 3], 7
+	pinsrb	xmm7, byte ptr [r14 + rax + 3], 8
+	pinsrb	xmm7, byte ptr [r14 + rdi + 3], 9
+	pinsrb	xmm7, byte ptr [r14 + r12 + 3], 10
+	pinsrb	xmm7, byte ptr [r14 + rsi + 3], 11
+	pinsrb	xmm7, byte ptr [r14 + rcx + 3], 12
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rdx + 3], 13
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rdx + 3], 14
+	pinsrb	xmm7, byte ptr [r14 + r8 + 3], 15
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + rdx + 4], 1
+	pinsrb	xmm9, byte ptr [r14 + r13 + 4], 2
+	pinsrb	xmm9, byte ptr [r14 + r15 + 4], 3
+	pinsrb	xmm9, byte ptr [r14 + rbx + 4], 4
+	pinsrb	xmm9, byte ptr [r14 + r9 + 4], 5
+	mov	r15, r9
+	mov	qword ptr [rsp + 56], r9        # 8-byte Spill
+	pinsrb	xmm9, byte ptr [r14 + r11 + 4], 6
+	pinsrb	xmm9, byte ptr [r14 + r10 + 4], 7
+	mov	r9, r10
+	pinsrb	xmm9, byte ptr [r14 + rax + 4], 8
+	pinsrb	xmm9, byte ptr [r14 + rdi + 4], 9
+	pinsrb	xmm9, byte ptr [r14 + r12 + 4], 10
+	pinsrb	xmm9, byte ptr [r14 + rsi + 4], 11
+	mov	rdi, rsi
+	pinsrb	xmm9, byte ptr [r14 + rcx + 4], 12
+	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + r12 + 4], 13
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + rdx + 4], 14
+	pinsrb	xmm9, byte ptr [r14 + r8 + 4], 15
+	pcmpeqb	xmm5, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pandn	xmm5, xmm0
+	pcmpeqb	xmm7, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pandn	xmm7, xmm0
+	por	xmm7, xmm5
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	esi, byte ptr [r14 + rdx + 17]
+	movd	xmm4, esi
+	pcmpeqb	xmm9, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm9, xmm0
+	por	xmm9, xmm7
+	movzx	esi, byte ptr [r14 + rdx + 18]
+	movd	xmm7, esi
+	pcmpeqd	xmm0, xmm0
+	psubb	xmm3, xmm0
+	por	xmm9, xmm3
+	movzx	esi, byte ptr [r14 + rdx + 19]
+	movd	xmm5, esi
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + rdx + 5], 1
+	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + r11 + 5], 2
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + r13 + 5], 3
+	pinsrb	xmm2, byte ptr [r14 + rbx + 5], 4
+	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 5
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + r10 + 5], 6
+	pinsrb	xmm2, byte ptr [r14 + r9 + 5], 7
+	pinsrb	xmm2, byte ptr [r14 + rax + 5], 8
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + rsi + 5], 9
+	mov	r15, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + r15 + 5], 10
+	mov	r9, rdi
+	pinsrb	xmm2, byte ptr [r14 + rdi + 5], 11
+	pinsrb	xmm2, byte ptr [r14 + rcx + 5], 12
+	pinsrb	xmm2, byte ptr [r14 + r12 + 5], 13
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [r14 + rdi + 5], 14
+	mov	qword ptr [rsp + 72], r8        # 8-byte Spill
+	pinsrb	xmm2, byte ptr [r14 + r8 + 5], 15
+	pinsrb	xmm8, byte ptr [r14 + rdx + 6], 1
+	pinsrb	xmm8, byte ptr [r14 + r11 + 6], 2
+	mov	r11, r13
+	pinsrb	xmm8, byte ptr [r14 + r13 + 6], 3
+	pinsrb	xmm8, byte ptr [r14 + rbx + 6], 4
+	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [r14 + r13 + 6], 5
+	pinsrb	xmm8, byte ptr [r14 + r10 + 6], 6
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [r14 + rbx + 6], 7
+	pinsrb	xmm8, byte ptr [r14 + rax + 6], 8
+	pinsrb	xmm8, byte ptr [r14 + rsi + 6], 9
+	pinsrb	xmm8, byte ptr [r14 + r15 + 6], 10
+	pinsrb	xmm8, byte ptr [r14 + r9 + 6], 11
+	pinsrb	xmm8, byte ptr [r14 + rcx + 6], 12
+	pinsrb	xmm8, byte ptr [r14 + r12 + 6], 13
+	pinsrb	xmm8, byte ptr [r14 + rdi + 6], 14
+	pinsrb	xmm8, byte ptr [r14 + r8 + 6], 15
+	pinsrb	xmm14, byte ptr [r14 + rdx + 7], 1
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [r14 + rbx + 7], 2
+	mov	r8, r11
+	pinsrb	xmm14, byte ptr [r14 + r11 + 7], 3
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [r14 + rdx + 7], 4
+	pinsrb	xmm14, byte ptr [r14 + r13 + 7], 5
+	mov	rdx, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm14, byte ptr [r14 + rdx + 7], 6
+	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [r14 + r9 + 7], 7
+	pinsrb	xmm14, byte ptr [r14 + rax + 7], 8
+	mov	r13, rax
+	pinsrb	xmm14, byte ptr [r14 + rsi + 7], 9
+	pinsrb	xmm14, byte ptr [r14 + r15 + 7], 10
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm14, byte ptr [r14 + r10 + 7], 11
+	pinsrb	xmm14, byte ptr [r14 + rcx + 7], 12
+	pinsrb	xmm14, byte ptr [r14 + r12 + 7], 13
+	pinsrb	xmm14, byte ptr [r14 + rdi + 7], 14
+	movdqa	xmm1, xmm14
+	movdqa	xmm14, xmmword ptr [rsp + 176]  # 16-byte Reload
+	pcmpeqb	xmm2, xmm14
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm2, xmm0
+	pcmpeqb	xmm8, xmm14
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm8, xmm0
+	por	xmm8, xmm2
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	esi, byte ptr [r14 + r15 + 20]
+	movd	xmm3, esi
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [r14 + rax + 7], 15
+	pcmpeqb	xmm1, xmm14
+	movdqa	xmm0, xmmword ptr [rip + .LCPI5_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pandn	xmm1, xmm0
+	por	xmm1, xmm8
+	movzx	esi, byte ptr [r14 + r15 + 21]
+	movd	xmm2, esi
+	movdqa	xmm0, xmmword ptr [rsp + 256]   # 16-byte Reload
+	mov	r11, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + r11 + 8], 1
+	pinsrb	xmm0, byte ptr [r14 + rbx + 8], 2
+	pinsrb	xmm0, byte ptr [r14 + r8 + 8], 3
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + rcx + 8], 4
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 5
+	pinsrb	xmm0, byte ptr [r14 + rdx + 8], 6
+	pinsrb	xmm0, byte ptr [r14 + r9 + 8], 7
+	pinsrb	xmm0, byte ptr [r14 + r13 + 8], 8
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 9
+	mov	r12, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + r12 + 8], 10
+	pinsrb	xmm0, byte ptr [r14 + r10 + 8], 11
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + rsi + 8], 12
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [r14 + rbx + 8], 13
+	pinsrb	xmm0, byte ptr [r14 + rdi + 8], 14
+	pinsrb	xmm0, byte ptr [r14 + rax + 8], 15
+	por	xmm1, xmm9
+	movdqa	xmmword ptr [rsp + 256], xmm1   # 16-byte Spill
+	movzx	esi, byte ptr [r14 + r15 + 22]
+	movd	xmm1, esi
+	pcmpeqb	xmm0, xmm14
+	pinsrb	xmm11, byte ptr [r14 + r11 + 9], 1
+	mov	r15, r11
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + r10 + 9], 2
+	pinsrb	xmm11, byte ptr [r14 + r8 + 9], 3
+	mov	r13, r8
+	pinsrb	xmm11, byte ptr [r14 + rcx + 9], 4
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + r9 + 9], 5
+	pinsrb	xmm11, byte ptr [r14 + rdx + 9], 6
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + r11 + 9], 7
+	mov	rsi, qword ptr [rsp + 152]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + rsi + 9], 8
+	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + r8 + 9], 9
+	pinsrb	xmm11, byte ptr [r14 + r12 + 9], 10
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + rdx + 9], 11
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + rdi + 9], 12
+	pinsrb	xmm11, byte ptr [r14 + rbx + 9], 13
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + rax + 9], 14
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [r14 + rcx + 9], 15
+	pinsrb	xmm12, byte ptr [r14 + r15 + 10], 1
+	pinsrb	xmm12, byte ptr [r14 + r10 + 10], 2
+	pinsrb	xmm12, byte ptr [r14 + r13 + 10], 3
+	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [r14 + r10 + 10], 4
+	pinsrb	xmm12, byte ptr [r14 + r9 + 10], 5
+	mov	r9, qword ptr [rsp + 136]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [r14 + r9 + 10], 6
+	pinsrb	xmm12, byte ptr [r14 + r11 + 10], 7
+	pinsrb	xmm12, byte ptr [r14 + rsi + 10], 8
+	pinsrb	xmm12, byte ptr [r14 + r8 + 10], 9
+	pinsrb	xmm12, byte ptr [r14 + r12 + 10], 10
+	pinsrb	xmm12, byte ptr [r14 + rdx + 10], 11
+	pinsrb	xmm12, byte ptr [r14 + rdi + 10], 12
+	pinsrb	xmm12, byte ptr [r14 + rbx + 10], 13
+	pinsrb	xmm12, byte ptr [r14 + rax + 10], 14
+	mov	rbx, rax
+	pinsrb	xmm12, byte ptr [r14 + rcx + 10], 15
+	pinsrb	xmm13, byte ptr [r14 + r15 + 11], 1
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [r14 + r13 + 11], 2
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [r14 + rax + 11], 3
+	pinsrb	xmm13, byte ptr [r14 + r10 + 11], 4
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [r14 + rax + 11], 5
+	pinsrb	xmm13, byte ptr [r14 + r9 + 11], 6
+	pinsrb	xmm13, byte ptr [r14 + r11 + 11], 7
+	pinsrb	xmm13, byte ptr [r14 + rsi + 11], 8
+	pinsrb	xmm13, byte ptr [r14 + r8 + 11], 9
+	mov	rax, r8
+	pinsrb	xmm13, byte ptr [r14 + r12 + 11], 10
+	pinsrb	xmm13, byte ptr [r14 + rdx + 11], 11
+	pinsrb	xmm13, byte ptr [r14 + rdi + 11], 12
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [r14 + rsi + 11], 13
+	pinsrb	xmm13, byte ptr [r14 + rbx + 11], 14
+	pinsrb	xmm13, byte ptr [r14 + rcx + 11], 15
+	pcmpeqb	xmm11, xmm14
+	pandn	xmm11, xmmword ptr [rip + .LCPI5_16]
+	paddb	xmm11, xmm0
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	esi, byte ptr [r14 + rcx + 23]
+	movd	xmm8, esi
+	pcmpeqb	xmm12, xmm14
+	pandn	xmm12, xmmword ptr [rip + .LCPI5_17]
+	pcmpeqb	xmm13, xmm14
+	pandn	xmm13, xmmword ptr [rip + .LCPI5_18]
+	por	xmm13, xmm12
+	movzx	esi, byte ptr [r14 + rcx + 24]
+	movd	xmm12, esi
+	movdqa	xmm9, xmmword ptr [rsp + 224]   # 16-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + r15 + 12], 1
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + r13 + 12], 2
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + r15 + 12], 3
+	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + rbx + 12], 4
+	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + r10 + 12], 5
+	pinsrb	xmm9, byte ptr [r14 + r9 + 12], 6
+	mov	r8, r11
+	pinsrb	xmm9, byte ptr [r14 + r11 + 12], 7
+	mov	r11, qword ptr [rsp + 152]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + r11 + 12], 8
+	mov	r12, rax
+	pinsrb	xmm9, byte ptr [r14 + rax + 12], 9
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + rcx + 12], 10
+	pinsrb	xmm9, byte ptr [r14 + rdx + 12], 11
+	pinsrb	xmm9, byte ptr [r14 + rdi + 12], 12
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + rsi + 12], 13
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + rax + 12], 14
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [r14 + rax + 12], 15
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + rax + 13], 1
+	pinsrb	xmm6, byte ptr [r14 + r13 + 13], 2
+	pinsrb	xmm6, byte ptr [r14 + r15 + 13], 3
+	pinsrb	xmm6, byte ptr [r14 + rbx + 13], 4
+	pinsrb	xmm6, byte ptr [r14 + r10 + 13], 5
+	pinsrb	xmm6, byte ptr [r14 + r9 + 13], 6
+	pinsrb	xmm6, byte ptr [r14 + r8 + 13], 7
+	pinsrb	xmm6, byte ptr [r14 + r11 + 13], 8
+	pinsrb	xmm6, byte ptr [r14 + r12 + 13], 9
+	pinsrb	xmm6, byte ptr [r14 + rcx + 13], 10
+	pinsrb	xmm6, byte ptr [r14 + rdx + 13], 11
+	pinsrb	xmm6, byte ptr [r14 + rdi + 13], 12
+	pinsrb	xmm6, byte ptr [r14 + rsi + 13], 13
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + rax + 13], 14
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + rax + 13], 15
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [r14 + rax + 14], 1
+	pinsrb	xmm15, byte ptr [r14 + r13 + 14], 2
+	pinsrb	xmm15, byte ptr [r14 + r15 + 14], 3
+	pinsrb	xmm15, byte ptr [r14 + rbx + 14], 4
+	pinsrb	xmm15, byte ptr [r14 + r10 + 14], 5
+	mov	rbx, r10
+	pinsrb	xmm15, byte ptr [r14 + r9 + 14], 6
+	pinsrb	xmm15, byte ptr [r14 + r8 + 14], 7
+	pinsrb	xmm15, byte ptr [r14 + r11 + 14], 8
+	pinsrb	xmm15, byte ptr [r14 + r12 + 14], 9
+	pinsrb	xmm15, byte ptr [r14 + rcx + 14], 10
+	mov	r12, rcx
+	pinsrb	xmm15, byte ptr [r14 + rdx + 14], 11
+	mov	r10, rdx
+	pinsrb	xmm15, byte ptr [r14 + rdi + 14], 12
+	pinsrb	xmm15, byte ptr [r14 + rsi + 14], 13
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [r14 + rax + 14], 14
+	pcmpeqb	xmm9, xmm14
+	pandn	xmm9, xmmword ptr [rip + .LCPI5_19]
+	por	xmm9, xmm13
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	esi, byte ptr [r14 + rax + 25]
+	movd	xmm13, esi
+	psubb	xmm11, xmmword ptr [rip + .LCPI5_22]
+	por	xmm9, xmm11
+	movzx	esi, byte ptr [r14 + rax + 26]
+	movd	xmm0, esi
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [r14 + rcx + 14], 15
+	pcmpeqb	xmm6, xmm14
+	pandn	xmm6, xmmword ptr [rip + .LCPI5_20]
+	pcmpeqb	xmm15, xmm14
+	pandn	xmm15, xmmword ptr [rip + .LCPI5_21]
+	por	xmm15, xmm6
+	movzx	esi, byte ptr [r14 + rax + 27]
+	movd	xmm11, esi
+	movdqa	xmm6, xmmword ptr [rsp + 192]   # 16-byte Reload
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + rdi + 15], 1
+	mov	rdx, r13
+	pinsrb	xmm6, byte ptr [r14 + r13 + 15], 2
+	pinsrb	xmm6, byte ptr [r14 + r15 + 15], 3
+	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + r9 + 15], 4
+	pinsrb	xmm6, byte ptr [r14 + rbx + 15], 5
+	mov	rbx, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + rbx + 15], 6
+	pinsrb	xmm6, byte ptr [r14 + r8 + 15], 7
+	pinsrb	xmm6, byte ptr [r14 + r11 + 15], 8
+	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + r8 + 15], 9
+	pinsrb	xmm6, byte ptr [r14 + r12 + 15], 10
+	pinsrb	xmm6, byte ptr [r14 + r10 + 15], 11
+	mov	r15, r10
+	mov	r10, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + r10 + 15], 12
+	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + r13 + 15], 13
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [r14 + rsi + 15], 14
+	pinsrb	xmm6, byte ptr [r14 + rcx + 15], 15
+	pcmpeqb	xmm6, xmm14
+	pandn	xmm6, xmmword ptr [rip + .LCPI5_6]
+	por	xmm6, xmm15
+	movzx	esi, byte ptr [r14 + rax + 28]
+	movd	xmm15, esi
+	por	xmm6, xmm9
+	movdqa	xmmword ptr [rsp + 192], xmm6   # 16-byte Spill
+	movzx	esi, byte ptr [r14 + rax + 29]
+	movd	xmm9, esi
+	mov	rsi, rdi
+	pinsrb	xmm10, byte ptr [r14 + rdi + 16], 1
+	mov	rax, rdx
+	pinsrb	xmm10, byte ptr [r14 + rdx + 16], 2
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [r14 + rdx + 16], 3
+	pinsrb	xmm10, byte ptr [r14 + r9 + 16], 4
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [r14 + rdi + 16], 5
+	pinsrb	xmm10, byte ptr [r14 + rbx + 16], 6
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [r14 + rbx + 16], 7
+	pinsrb	xmm10, byte ptr [r14 + r11 + 16], 8
+	pinsrb	xmm10, byte ptr [r14 + r8 + 16], 9
+	pinsrb	xmm10, byte ptr [r14 + r12 + 16], 10
+	pinsrb	xmm10, byte ptr [r14 + r15 + 16], 11
+	pinsrb	xmm10, byte ptr [r14 + r10 + 16], 12
+	pinsrb	xmm10, byte ptr [r14 + r13 + 16], 13
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [r14 + rcx + 16], 14
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [r14 + r13 + 16], 15
+	pinsrb	xmm4, byte ptr [r14 + rsi + 17], 1
+	pinsrb	xmm4, byte ptr [r14 + rax + 17], 2
+	pinsrb	xmm4, byte ptr [r14 + rdx + 17], 3
+	pinsrb	xmm4, byte ptr [r14 + r9 + 17], 4
+	pinsrb	xmm4, byte ptr [r14 + rdi + 17], 5
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [r14 + r10 + 17], 6
+	mov	r9, rbx
+	pinsrb	xmm4, byte ptr [r14 + rbx + 17], 7
+	pinsrb	xmm4, byte ptr [r14 + r11 + 17], 8
+	pinsrb	xmm4, byte ptr [r14 + r8 + 17], 9
+	pinsrb	xmm4, byte ptr [r14 + r12 + 17], 10
+	mov	r8, r15
+	pinsrb	xmm4, byte ptr [r14 + r15 + 17], 11
+	mov	rdi, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [r14 + rdi + 17], 12
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [r14 + rdx + 17], 13
+	pinsrb	xmm4, byte ptr [r14 + rcx + 17], 14
+	pinsrb	xmm4, byte ptr [r14 + r13 + 17], 15
+	pcmpeqb	xmm10, xmm14
+	pcmpeqb	xmm4, xmm14
+	movdqa	xmm6, xmmword ptr [rip + .LCPI5_16] # xmm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	pandn	xmm4, xmm6
+	paddb	xmm4, xmm10
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	esi, byte ptr [r14 + rax + 30]
+	movd	xmm10, esi
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rsi + 18], 1
+	pinsrb	xmm5, byte ptr [r14 + rsi + 19], 1
+	pinsrb	xmm3, byte ptr [r14 + rsi + 20], 1
+	pinsrb	xmm2, byte ptr [r14 + rsi + 21], 1
+	pinsrb	xmm1, byte ptr [r14 + rsi + 22], 1
+	pinsrb	xmm8, byte ptr [r14 + rsi + 23], 1
+	pinsrb	xmm12, byte ptr [r14 + rsi + 24], 1
+	pinsrb	xmm13, byte ptr [r14 + rsi + 25], 1
+	pinsrb	xmm0, byte ptr [r14 + rsi + 26], 1
+	pinsrb	xmm11, byte ptr [r14 + rsi + 27], 1
+	pinsrb	xmm15, byte ptr [r14 + rsi + 28], 1
+	pinsrb	xmm9, byte ptr [r14 + rsi + 29], 1
+	pinsrb	xmm10, byte ptr [r14 + rsi + 30], 1
+	movzx	eax, byte ptr [r14 + rax + 31]
+	movd	xmm6, eax
+	pinsrb	xmm6, byte ptr [r14 + rsi + 31], 1
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rax + 18], 2
+	pinsrb	xmm5, byte ptr [r14 + rax + 19], 2
+	pinsrb	xmm3, byte ptr [r14 + rax + 20], 2
+	pinsrb	xmm2, byte ptr [r14 + rax + 21], 2
+	pinsrb	xmm1, byte ptr [r14 + rax + 22], 2
+	pinsrb	xmm8, byte ptr [r14 + rax + 23], 2
+	pinsrb	xmm12, byte ptr [r14 + rax + 24], 2
+	pinsrb	xmm13, byte ptr [r14 + rax + 25], 2
+	pinsrb	xmm0, byte ptr [r14 + rax + 26], 2
+	pinsrb	xmm11, byte ptr [r14 + rax + 27], 2
+	pinsrb	xmm15, byte ptr [r14 + rax + 28], 2
+	pinsrb	xmm9, byte ptr [r14 + rax + 29], 2
+	pinsrb	xmm10, byte ptr [r14 + rax + 30], 2
+	pinsrb	xmm6, byte ptr [r14 + rax + 31], 2
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + r15 + 18], 3
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rax + 18], 4
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rbx + 18], 5
+	pinsrb	xmm7, byte ptr [r14 + r10 + 18], 6
+	pinsrb	xmm7, byte ptr [r14 + r9 + 18], 7
+	pinsrb	xmm7, byte ptr [r14 + r11 + 18], 8
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [r14 + rsi + 18], 9
+	pinsrb	xmm7, byte ptr [r14 + r12 + 18], 10
+	pinsrb	xmm7, byte ptr [r14 + r8 + 18], 11
+	pinsrb	xmm7, byte ptr [r14 + rdi + 18], 12
+	pinsrb	xmm7, byte ptr [r14 + rdx + 18], 13
+	pinsrb	xmm7, byte ptr [r14 + rcx + 18], 14
+	pinsrb	xmm7, byte ptr [r14 + r13 + 18], 15
+	pinsrb	xmm5, byte ptr [r14 + r15 + 19], 3
+	pinsrb	xmm5, byte ptr [r14 + rax + 19], 4
+	pinsrb	xmm5, byte ptr [r14 + rbx + 19], 5
+	pinsrb	xmm5, byte ptr [r14 + r10 + 19], 6
+	pinsrb	xmm5, byte ptr [r14 + r9 + 19], 7
+	pinsrb	xmm5, byte ptr [r14 + r11 + 19], 8
+	pinsrb	xmm5, byte ptr [r14 + rsi + 19], 9
+	pinsrb	xmm5, byte ptr [r14 + r12 + 19], 10
+	pinsrb	xmm5, byte ptr [r14 + r8 + 19], 11
+	pinsrb	xmm5, byte ptr [r14 + rdi + 19], 12
+	pinsrb	xmm5, byte ptr [r14 + rdx + 19], 13
+	pinsrb	xmm5, byte ptr [r14 + rcx + 19], 14
+	pinsrb	xmm5, byte ptr [r14 + r13 + 19], 15
+	pinsrb	xmm3, byte ptr [r14 + r15 + 20], 3
+	pinsrb	xmm3, byte ptr [r14 + rax + 20], 4
+	pinsrb	xmm3, byte ptr [r14 + rbx + 20], 5
+	pinsrb	xmm3, byte ptr [r14 + r10 + 20], 6
+	pinsrb	xmm3, byte ptr [r14 + r9 + 20], 7
+	pinsrb	xmm3, byte ptr [r14 + r11 + 20], 8
+	pinsrb	xmm3, byte ptr [r14 + rsi + 20], 9
+	pinsrb	xmm3, byte ptr [r14 + r12 + 20], 10
+	pinsrb	xmm3, byte ptr [r14 + r8 + 20], 11
+	pinsrb	xmm3, byte ptr [r14 + rdi + 20], 12
+	pinsrb	xmm3, byte ptr [r14 + rdx + 20], 13
+	pinsrb	xmm3, byte ptr [r14 + rcx + 20], 14
+	pcmpeqb	xmm7, xmm14
+	movdqa	xmm14, xmmword ptr [rip + .LCPI5_17] # xmm14 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pandn	xmm7, xmm14
+	pcmpeqb	xmm5, xmmword ptr [rsp + 176]   # 16-byte Folded Reload
+	movdqa	xmm14, xmmword ptr [rip + .LCPI5_18] # xmm14 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pandn	xmm5, xmm14
+	por	xmm5, xmm7
+	pinsrb	xmm3, byte ptr [r14 + r13 + 20], 15
+	movdqa	xmm14, xmmword ptr [rsp + 176]  # 16-byte Reload
+	pcmpeqb	xmm3, xmm14
+	movdqa	xmm7, xmmword ptr [rip + .LCPI5_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm3, xmm7
+	por	xmm3, xmm5
+	pcmpeqd	xmm5, xmm5
+	psubb	xmm4, xmm5
+	por	xmm3, xmm4
+	pinsrb	xmm2, byte ptr [r14 + r15 + 21], 3
+	pinsrb	xmm2, byte ptr [r14 + rax + 21], 4
+	pinsrb	xmm2, byte ptr [r14 + rbx + 21], 5
+	pinsrb	xmm2, byte ptr [r14 + r10 + 21], 6
+	pinsrb	xmm2, byte ptr [r14 + r9 + 21], 7
+	pinsrb	xmm2, byte ptr [r14 + r11 + 21], 8
+	pinsrb	xmm2, byte ptr [r14 + rsi + 21], 9
+	pinsrb	xmm2, byte ptr [r14 + r12 + 21], 10
+	pinsrb	xmm2, byte ptr [r14 + r8 + 21], 11
+	pinsrb	xmm2, byte ptr [r14 + rdi + 21], 12
+	pinsrb	xmm2, byte ptr [r14 + rdx + 21], 13
+	pinsrb	xmm2, byte ptr [r14 + rcx + 21], 14
+	pinsrb	xmm2, byte ptr [r14 + r13 + 21], 15
+	pinsrb	xmm1, byte ptr [r14 + r15 + 22], 3
+	pinsrb	xmm1, byte ptr [r14 + rax + 22], 4
+	pinsrb	xmm1, byte ptr [r14 + rbx + 22], 5
+	pinsrb	xmm1, byte ptr [r14 + r10 + 22], 6
+	pinsrb	xmm1, byte ptr [r14 + r9 + 22], 7
+	pinsrb	xmm1, byte ptr [r14 + r11 + 22], 8
+	pinsrb	xmm1, byte ptr [r14 + rsi + 22], 9
+	pinsrb	xmm1, byte ptr [r14 + r12 + 22], 10
+	pinsrb	xmm1, byte ptr [r14 + r8 + 22], 11
+	pinsrb	xmm1, byte ptr [r14 + rdi + 22], 12
+	pinsrb	xmm1, byte ptr [r14 + rdx + 22], 13
+	pinsrb	xmm1, byte ptr [r14 + rcx + 22], 14
+	pinsrb	xmm1, byte ptr [r14 + r13 + 22], 15
+	pinsrb	xmm8, byte ptr [r14 + r15 + 23], 3
+	pinsrb	xmm8, byte ptr [r14 + rax + 23], 4
+	pinsrb	xmm8, byte ptr [r14 + rbx + 23], 5
+	pinsrb	xmm8, byte ptr [r14 + r10 + 23], 6
+	pinsrb	xmm8, byte ptr [r14 + r9 + 23], 7
+	pinsrb	xmm8, byte ptr [r14 + r11 + 23], 8
+	pinsrb	xmm8, byte ptr [r14 + rsi + 23], 9
+	pinsrb	xmm8, byte ptr [r14 + r12 + 23], 10
+	pinsrb	xmm8, byte ptr [r14 + r8 + 23], 11
+	pinsrb	xmm8, byte ptr [r14 + rdi + 23], 12
+	pinsrb	xmm8, byte ptr [r14 + rdx + 23], 13
+	pinsrb	xmm8, byte ptr [r14 + rcx + 23], 14
+	pcmpeqb	xmm2, xmm14
+	movdqa	xmm5, xmmword ptr [rip + .LCPI5_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm2, xmm5
+	pcmpeqb	xmm1, xmm14
+	movdqa	xmm7, xmmword ptr [rip + .LCPI5_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm1, xmm7
+	por	xmm1, xmm2
+	pinsrb	xmm8, byte ptr [r14 + r13 + 23], 15
+	pcmpeqb	xmm8, xmm14
+	movdqa	xmm4, xmmword ptr [rip + .LCPI5_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pandn	xmm8, xmm4
+	por	xmm8, xmm1
+	pinsrb	xmm12, byte ptr [r14 + r15 + 24], 3
+	pinsrb	xmm12, byte ptr [r14 + rax + 24], 4
+	pinsrb	xmm12, byte ptr [r14 + rbx + 24], 5
+	pinsrb	xmm12, byte ptr [r14 + r10 + 24], 6
+	pinsrb	xmm12, byte ptr [r14 + r9 + 24], 7
+	pinsrb	xmm12, byte ptr [r14 + r11 + 24], 8
+	pinsrb	xmm12, byte ptr [r14 + rsi + 24], 9
+	pinsrb	xmm12, byte ptr [r14 + r12 + 24], 10
+	pinsrb	xmm12, byte ptr [r14 + r8 + 24], 11
+	pinsrb	xmm12, byte ptr [r14 + rdi + 24], 12
+	pinsrb	xmm12, byte ptr [r14 + rdx + 24], 13
+	pinsrb	xmm12, byte ptr [r14 + rcx + 24], 14
+	pinsrb	xmm12, byte ptr [r14 + r13 + 24], 15
+	por	xmm8, xmm3
+	pcmpeqb	xmm12, xmm14
+	pinsrb	xmm13, byte ptr [r14 + r15 + 25], 3
+	pinsrb	xmm13, byte ptr [r14 + rax + 25], 4
+	pinsrb	xmm13, byte ptr [r14 + rbx + 25], 5
+	pinsrb	xmm13, byte ptr [r14 + r10 + 25], 6
+	pinsrb	xmm13, byte ptr [r14 + r9 + 25], 7
+	pinsrb	xmm13, byte ptr [r14 + r11 + 25], 8
+	pinsrb	xmm13, byte ptr [r14 + rsi + 25], 9
+	pinsrb	xmm13, byte ptr [r14 + r12 + 25], 10
+	pinsrb	xmm13, byte ptr [r14 + r8 + 25], 11
+	pinsrb	xmm13, byte ptr [r14 + rdi + 25], 12
+	pinsrb	xmm13, byte ptr [r14 + rdx + 25], 13
+	pinsrb	xmm13, byte ptr [r14 + rcx + 25], 14
+	pinsrb	xmm13, byte ptr [r14 + r13 + 25], 15
+	pinsrb	xmm0, byte ptr [r14 + r15 + 26], 3
+	pinsrb	xmm0, byte ptr [r14 + rax + 26], 4
+	pinsrb	xmm0, byte ptr [r14 + rbx + 26], 5
+	pinsrb	xmm0, byte ptr [r14 + r10 + 26], 6
+	pinsrb	xmm0, byte ptr [r14 + r9 + 26], 7
+	pinsrb	xmm0, byte ptr [r14 + r11 + 26], 8
+	pinsrb	xmm0, byte ptr [r14 + rsi + 26], 9
+	pinsrb	xmm0, byte ptr [r14 + r12 + 26], 10
+	pinsrb	xmm0, byte ptr [r14 + r8 + 26], 11
+	pinsrb	xmm0, byte ptr [r14 + rdi + 26], 12
+	pinsrb	xmm0, byte ptr [r14 + rdx + 26], 13
+	pinsrb	xmm0, byte ptr [r14 + rcx + 26], 14
+	pinsrb	xmm0, byte ptr [r14 + r13 + 26], 15
+	pinsrb	xmm11, byte ptr [r14 + r15 + 27], 3
+	pinsrb	xmm11, byte ptr [r14 + rax + 27], 4
+	pinsrb	xmm11, byte ptr [r14 + rbx + 27], 5
+	pinsrb	xmm11, byte ptr [r14 + r10 + 27], 6
+	pinsrb	xmm11, byte ptr [r14 + r9 + 27], 7
+	pinsrb	xmm11, byte ptr [r14 + r11 + 27], 8
+	pinsrb	xmm11, byte ptr [r14 + rsi + 27], 9
+	pinsrb	xmm11, byte ptr [r14 + r12 + 27], 10
+	pinsrb	xmm11, byte ptr [r14 + r8 + 27], 11
+	pinsrb	xmm11, byte ptr [r14 + rdi + 27], 12
+	pinsrb	xmm11, byte ptr [r14 + rdx + 27], 13
+	pinsrb	xmm11, byte ptr [r14 + rcx + 27], 14
+	pcmpeqb	xmm13, xmm14
+	pandn	xmm13, xmmword ptr [rip + .LCPI5_16]
+	paddb	xmm13, xmm12
+	pinsrb	xmm11, byte ptr [r14 + r13 + 27], 15
+	pcmpeqb	xmm0, xmm14
+	pandn	xmm0, xmmword ptr [rip + .LCPI5_17]
+	pcmpeqb	xmm11, xmm14
+	pandn	xmm11, xmmword ptr [rip + .LCPI5_18]
+	por	xmm11, xmm0
+	pinsrb	xmm15, byte ptr [r14 + r15 + 28], 3
+	pinsrb	xmm9, byte ptr [r14 + r15 + 29], 3
+	pinsrb	xmm10, byte ptr [r14 + r15 + 30], 3
+	pinsrb	xmm6, byte ptr [r14 + r15 + 31], 3
+	pinsrb	xmm15, byte ptr [r14 + rax + 28], 4
+	pinsrb	xmm9, byte ptr [r14 + rax + 29], 4
+	pinsrb	xmm10, byte ptr [r14 + rax + 30], 4
+	pinsrb	xmm6, byte ptr [r14 + rax + 31], 4
+	mov	rax, rbx
+	pinsrb	xmm15, byte ptr [r14 + rbx + 28], 5
+	pinsrb	xmm9, byte ptr [r14 + rbx + 29], 5
+	pinsrb	xmm10, byte ptr [r14 + rbx + 30], 5
+	pinsrb	xmm6, byte ptr [r14 + rbx + 31], 5
+	mov	rax, r10
+	pinsrb	xmm15, byte ptr [r14 + r10 + 28], 6
+	pinsrb	xmm9, byte ptr [r14 + r10 + 29], 6
+	pinsrb	xmm10, byte ptr [r14 + r10 + 30], 6
+	pinsrb	xmm6, byte ptr [r14 + r10 + 31], 6
+	mov	rax, r9
+	pinsrb	xmm15, byte ptr [r14 + r9 + 28], 7
+	pinsrb	xmm9, byte ptr [r14 + r9 + 29], 7
+	pinsrb	xmm10, byte ptr [r14 + r9 + 30], 7
+	pinsrb	xmm6, byte ptr [r14 + r9 + 31], 7
+	pinsrb	xmm15, byte ptr [r14 + r11 + 28], 8
+	pinsrb	xmm9, byte ptr [r14 + r11 + 29], 8
+	pinsrb	xmm10, byte ptr [r14 + r11 + 30], 8
+	pinsrb	xmm6, byte ptr [r14 + r11 + 31], 8
+	mov	rax, rsi
+	pinsrb	xmm15, byte ptr [r14 + rsi + 28], 9
+	pinsrb	xmm9, byte ptr [r14 + rsi + 29], 9
+	pinsrb	xmm10, byte ptr [r14 + rsi + 30], 9
+	pinsrb	xmm6, byte ptr [r14 + rsi + 31], 9
+	pinsrb	xmm15, byte ptr [r14 + r12 + 28], 10
+	pinsrb	xmm9, byte ptr [r14 + r12 + 29], 10
+	pinsrb	xmm10, byte ptr [r14 + r12 + 30], 10
+	pinsrb	xmm6, byte ptr [r14 + r12 + 31], 10
+	mov	rax, r8
+	pinsrb	xmm15, byte ptr [r14 + r8 + 28], 11
+	pinsrb	xmm9, byte ptr [r14 + r8 + 29], 11
+	pinsrb	xmm10, byte ptr [r14 + r8 + 30], 11
+	pinsrb	xmm6, byte ptr [r14 + r8 + 31], 11
+	mov	rax, rdi
+	pinsrb	xmm15, byte ptr [r14 + rdi + 28], 12
+	pinsrb	xmm9, byte ptr [r14 + rdi + 29], 12
+	pinsrb	xmm10, byte ptr [r14 + rdi + 30], 12
+	pinsrb	xmm6, byte ptr [r14 + rdi + 31], 12
+	mov	rax, rdx
+	pinsrb	xmm15, byte ptr [r14 + rdx + 28], 13
+	pinsrb	xmm9, byte ptr [r14 + rdx + 29], 13
+	pinsrb	xmm10, byte ptr [r14 + rdx + 30], 13
+	pinsrb	xmm6, byte ptr [r14 + rdx + 31], 13
+	mov	rax, rcx
+	pinsrb	xmm15, byte ptr [r14 + rcx + 28], 14
+	pinsrb	xmm9, byte ptr [r14 + rcx + 29], 14
+	pinsrb	xmm10, byte ptr [r14 + rcx + 30], 14
+	pinsrb	xmm6, byte ptr [r14 + rcx + 31], 14
+	pinsrb	xmm15, byte ptr [r14 + r13 + 28], 15
+	pinsrb	xmm9, byte ptr [r14 + r13 + 29], 15
+	pinsrb	xmm10, byte ptr [r14 + r13 + 30], 15
+	pcmpeqb	xmm15, xmm14
+	pandn	xmm15, xmmword ptr [rip + .LCPI5_19]
+	por	xmm15, xmm11
+	pinsrb	xmm6, byte ptr [r14 + r13 + 31], 15
+	psubb	xmm13, xmmword ptr [rip + .LCPI5_22]
+	por	xmm15, xmm13
+	pcmpeqb	xmm9, xmm14
+	pandn	xmm9, xmm5
+	pcmpeqb	xmm10, xmm14
+	pandn	xmm10, xmm7
+	por	xmm10, xmm9
+	pcmpeqb	xmm6, xmm14
+	pandn	xmm6, xmm4
+	por	xmm6, xmm10
+	por	xmm6, xmm15
+	movdqa	xmm0, xmm8
+	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
+	movdqa	xmm3, xmmword ptr [rsp + 256]   # 16-byte Reload
+	movdqa	xmm1, xmm3
+	movdqa	xmm4, xmmword ptr [rsp + 192]   # 16-byte Reload
+	punpcklbw	xmm1, xmm4              # xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
+	movdqa	xmm2, xmm1
+	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
+	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
+	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
+	punpckhbw	xmm3, xmm4              # xmm3 = xmm3[8],xmm4[8],xmm3[9],xmm4[9],xmm3[10],xmm4[10],xmm3[11],xmm4[11],xmm3[12],xmm4[12],xmm3[13],xmm4[13],xmm3[14],xmm4[14],xmm3[15],xmm4[15]
+	movdqa	xmm0, xmm3
+	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
+	punpckhwd	xmm3, xmm8              # xmm3 = xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
+	mov	rcx, qword ptr [rsp + 168]      # 8-byte Reload
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm3
+	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm1
+	movdqu	xmmword ptr [rax + 4*rcx], xmm2
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 216]      # 8-byte Folded Reload
+	jne	.LBB5_67
+# %bb.68:
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	cmp	r10, qword ptr [rsp + 216]      # 8-byte Folded Reload
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	jne	.LBB5_69
+	jmp	.LBB5_72
+.LBB5_109:
+	and	r10, -8
+	mov	rax, r10
+	shl	rax, 6
+	add	rax, r14
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	qword ptr [rsp + 24], r10       # 8-byte Spill
+	lea	rax, [rax + 4*r10]
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	movd	xmm0, r11d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
+	xor	edi, edi
+	pxor	xmm9, xmm9
+	.p2align	4, 0x90
+.LBB5_110:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 64], rdi       # 8-byte Spill
+	shl	rdi, 6
+	mov	r15, rdi
+	mov	rsi, rdi
+	mov	rdx, rdi
+	mov	r13, rdi
+	mov	rbx, rdi
+	mov	r9, rdi
+	movzx	eax, word ptr [r14 + rdi]
+	movd	xmm5, eax
+	movzx	eax, word ptr [r14 + rdi + 2]
+	movd	xmm0, eax
+	movzx	eax, word ptr [r14 + rdi + 4]
+	movd	xmm1, eax
+	movzx	eax, word ptr [r14 + rdi + 6]
+	movd	xmm7, eax
+	movzx	eax, word ptr [r14 + rdi + 8]
+	movd	xmm8, eax
+	movzx	eax, word ptr [r14 + rdi + 10]
+	movd	xmm4, eax
+	movzx	eax, word ptr [r14 + rdi + 12]
+	movzx	r8d, word ptr [r14 + rdi + 14]
+	movzx	r10d, word ptr [r14 + rdi + 16]
+	movzx	r12d, word ptr [r14 + rdi + 18]
+	movzx	ecx, word ptr [r14 + rdi + 20]
+	mov	dword ptr [rsp + 40], ecx       # 4-byte Spill
+	mov	rcx, rdi
+	or	rcx, 64
+	or	r15, 128
+	or	rsi, 192
+	or	rdx, 256
+	or	r13, 320
+	or	rbx, 384
+	pinsrw	xmm5, word ptr [r14 + rcx], 1
+	pinsrw	xmm5, word ptr [r14 + r15], 2
+	pinsrw	xmm5, word ptr [r14 + rsi], 3
+	pinsrw	xmm5, word ptr [r14 + rdx], 4
+	pinsrw	xmm5, word ptr [r14 + r13], 5
+	pinsrw	xmm5, word ptr [r14 + rbx], 6
+	pinsrw	xmm0, word ptr [r14 + rcx + 2], 1
+	pinsrw	xmm0, word ptr [r14 + r15 + 2], 2
+	pinsrw	xmm0, word ptr [r14 + rsi + 2], 3
+	pinsrw	xmm0, word ptr [r14 + rdx + 2], 4
+	pinsrw	xmm0, word ptr [r14 + r13 + 2], 5
+	pinsrw	xmm0, word ptr [r14 + rbx + 2], 6
+	or	r9, 448
+	pinsrw	xmm0, word ptr [r14 + r9 + 2], 7
+	movd	xmm2, eax
+	movzx	eax, word ptr [r14 + rdi + 22]
+	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
+	pcmpeqw	xmm0, xmm11
+	pinsrw	xmm1, word ptr [r14 + rcx + 4], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 4], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 4], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 4], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 4], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 4], 6
+	pinsrw	xmm1, word ptr [r14 + r9 + 4], 7
+	packsswb	xmm0, xmm0
+	pcmpeqw	xmm1, xmm11
+	movdqa	xmm14, xmmword ptr [rip + .LCPI5_8] # xmm14 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm3, xmm14
+	pblendvb	xmm3, xmm9, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm15, xmmword ptr [rip + .LCPI5_9] # xmm15 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm6, xmm15
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm9, xmm0
+	movd	xmm1, r8d
+	movzx	r11d, word ptr [r14 + rdi + 24]
+	pinsrw	xmm5, word ptr [r14 + r9], 7
+	pcmpeqw	xmm5, xmm11
+	pcmpeqd	xmm0, xmm0
+	pxor	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pinsrw	xmm7, word ptr [r14 + rcx + 6], 1
+	pinsrw	xmm7, word ptr [r14 + r15 + 6], 2
+	pinsrw	xmm7, word ptr [r14 + rsi + 6], 3
+	pinsrw	xmm7, word ptr [r14 + rdx + 6], 4
+	pinsrw	xmm7, word ptr [r14 + r13 + 6], 5
+	pinsrw	xmm7, word ptr [r14 + rbx + 6], 6
+	pinsrw	xmm7, word ptr [r14 + r9 + 6], 7
+	pcmpeqw	xmm7, xmm11
+	packsswb	xmm7, xmm7
+	pinsrw	xmm8, word ptr [r14 + rcx + 8], 1
+	pinsrw	xmm8, word ptr [r14 + r15 + 8], 2
+	pinsrw	xmm8, word ptr [r14 + rsi + 8], 3
+	pinsrw	xmm8, word ptr [r14 + rdx + 8], 4
+	pinsrw	xmm8, word ptr [r14 + r13 + 8], 5
+	pinsrw	xmm8, word ptr [r14 + rbx + 8], 6
+	pinsrw	xmm8, word ptr [r14 + r9 + 8], 7
+	psubb	xmm3, xmm5
+	movdqa	xmm12, xmmword ptr [rip + .LCPI5_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm7
+	pblendvb	xmm12, xmm9, xmm0
+	movd	xmm7, r10d
+	movzx	r8d, word ptr [r14 + rdi + 26]
+	pcmpeqw	xmm8, xmm11
+	packsswb	xmm8, xmm8
+	por	xmm12, xmm6
+	movdqa	xmm13, xmmword ptr [rip + .LCPI5_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm8
+	pblendvb	xmm13, xmm9, xmm0
+	movd	xmm6, r12d
+	movzx	r12d, word ptr [r14 + rdi + 28]
+	pinsrw	xmm4, word ptr [r14 + rcx + 10], 1
+	pinsrw	xmm4, word ptr [r14 + r15 + 10], 2
+	pinsrw	xmm4, word ptr [r14 + rsi + 10], 3
+	pinsrw	xmm4, word ptr [r14 + rdx + 10], 4
+	pinsrw	xmm4, word ptr [r14 + r13 + 10], 5
+	pinsrw	xmm4, word ptr [r14 + rbx + 10], 6
+	pinsrw	xmm4, word ptr [r14 + r9 + 10], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	pinsrw	xmm2, word ptr [r14 + rcx + 12], 1
+	pinsrw	xmm2, word ptr [r14 + r15 + 12], 2
+	pinsrw	xmm2, word ptr [r14 + rsi + 12], 3
+	pinsrw	xmm2, word ptr [r14 + rdx + 12], 4
+	pinsrw	xmm2, word ptr [r14 + r13 + 12], 5
+	pinsrw	xmm2, word ptr [r14 + rbx + 12], 6
+	por	xmm12, xmm3
+	movdqa	xmm5, xmmword ptr [rip + .LCPI5_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm5, xmm9, xmm0
+	movd	xmm4, dword ptr [rsp + 40]      # 4-byte Folded Reload
+                                        # xmm4 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [r14 + rdi + 30]
+	pinsrw	xmm2, word ptr [r14 + r9 + 12], 7
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm5, xmm13
+	movdqa	xmm13, xmmword ptr [rip + .LCPI5_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm13, xmm9, xmm0
+	movd	xmm3, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [r14 + rdi + 32]
+	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
+	pinsrw	xmm1, word ptr [r14 + rcx + 14], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 14], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 14], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 14], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 14], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 14], 6
+	por	xmm13, xmm5
+	movd	xmm2, r11d
+	movzx	eax, word ptr [r14 + rdi + 34]
+	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
+	pinsrw	xmm1, word ptr [r14 + r9 + 14], 7
+	pcmpeqw	xmm1, xmm11
+	pinsrw	xmm6, word ptr [r14 + rcx + 18], 1
+	pinsrw	xmm6, word ptr [r14 + r15 + 18], 2
+	pinsrw	xmm6, word ptr [r14 + rsi + 18], 3
+	pinsrw	xmm6, word ptr [r14 + rdx + 18], 4
+	pinsrw	xmm6, word ptr [r14 + r13 + 18], 5
+	pinsrw	xmm6, word ptr [r14 + rbx + 18], 6
+	packsswb	xmm1, xmm1
+	pinsrw	xmm6, word ptr [r14 + r9 + 18], 7
+	pcmpeqw	xmm6, xmm11
+	packsswb	xmm6, xmm6
+	por	xmm13, xmm12
+	movdqa	xmm10, xmmword ptr [rip + .LCPI5_14] # xmm10 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
+	movdqa	xmm12, xmm10
+	movdqa	xmm0, xmm1
+	pblendvb	xmm12, xmm9, xmm0
+	movdqa	xmm8, xmm14
+	movdqa	xmm0, xmm6
+	pblendvb	xmm8, xmm9, xmm0
+	movd	xmm1, r8d
+	movzx	r11d, word ptr [r14 + rdi + 36]
+	pinsrw	xmm7, word ptr [r14 + rcx + 16], 1
+	pinsrw	xmm7, word ptr [r14 + r15 + 16], 2
+	pinsrw	xmm7, word ptr [r14 + rsi + 16], 3
+	pinsrw	xmm7, word ptr [r14 + rdx + 16], 4
+	pinsrw	xmm7, word ptr [r14 + r13 + 16], 5
+	pinsrw	xmm7, word ptr [r14 + rbx + 16], 6
+	pinsrw	xmm4, word ptr [r14 + rcx + 20], 1
+	pinsrw	xmm4, word ptr [r14 + r15 + 20], 2
+	pinsrw	xmm4, word ptr [r14 + rsi + 20], 3
+	pinsrw	xmm4, word ptr [r14 + rdx + 20], 4
+	pinsrw	xmm4, word ptr [r14 + r13 + 20], 5
+	pinsrw	xmm4, word ptr [r14 + rbx + 20], 6
+	pinsrw	xmm4, word ptr [r14 + r9 + 20], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm12, xmm13
+	movdqa	xmm0, xmm4
+	pblendvb	xmm15, xmm9, xmm0
+	movd	xmm4, r12d
+	movzx	r12d, word ptr [r14 + rdi + 38]
+	pinsrw	xmm7, word ptr [r14 + r9 + 16], 7
+	pcmpeqw	xmm7, xmm11
+	pxor	xmm7, xmmword ptr [rip + .LCPI5_22]
+	packsswb	xmm7, xmm7
+	pinsrw	xmm3, word ptr [r14 + rcx + 22], 1
+	pinsrw	xmm3, word ptr [r14 + r15 + 22], 2
+	pinsrw	xmm3, word ptr [r14 + rsi + 22], 3
+	pinsrw	xmm3, word ptr [r14 + rdx + 22], 4
+	pinsrw	xmm3, word ptr [r14 + r13 + 22], 5
+	pinsrw	xmm3, word ptr [r14 + rbx + 22], 6
+	pinsrw	xmm3, word ptr [r14 + r9 + 22], 7
+	pcmpeqw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	pinsrw	xmm2, word ptr [r14 + rcx + 24], 1
+	pinsrw	xmm2, word ptr [r14 + r15 + 24], 2
+	pinsrw	xmm2, word ptr [r14 + rsi + 24], 3
+	pinsrw	xmm2, word ptr [r14 + rdx + 24], 4
+	pinsrw	xmm2, word ptr [r14 + r13 + 24], 5
+	pinsrw	xmm2, word ptr [r14 + rbx + 24], 6
+	pinsrw	xmm2, word ptr [r14 + r9 + 24], 7
+	psubb	xmm8, xmm7
+	movdqa	xmm14, xmmword ptr [rip + .LCPI5_10] # xmm14 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm3
+	pblendvb	xmm14, xmm9, xmm0
+	movd	xmm3, r10d
+	movzx	r8d, word ptr [r14 + rdi + 40]
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm14, xmm15
+	movdqa	xmm13, xmmword ptr [rip + .LCPI5_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm13, xmm9, xmm0
+	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [r14 + rdi + 42]
+	pinsrw	xmm1, word ptr [r14 + rcx + 26], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 26], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 26], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 26], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 26], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 26], 6
+	pinsrw	xmm1, word ptr [r14 + r9 + 26], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	pinsrw	xmm4, word ptr [r14 + rcx + 28], 1
+	pinsrw	xmm4, word ptr [r14 + r15 + 28], 2
+	pinsrw	xmm4, word ptr [r14 + rsi + 28], 3
+	pinsrw	xmm4, word ptr [r14 + rdx + 28], 4
+	pinsrw	xmm4, word ptr [r14 + r13 + 28], 5
+	pinsrw	xmm4, word ptr [r14 + rbx + 28], 6
+	por	xmm14, xmm8
+	movdqa	xmm15, xmmword ptr [rip + .LCPI5_12] # xmm15 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm5, xmm15
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm9, xmm0
+	movd	xmm2, dword ptr [rsp + 40]      # 4-byte Folded Reload
+                                        # xmm2 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [r14 + rdi + 44]
+	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
+	pinsrw	xmm4, word ptr [r14 + r9 + 28], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm5, xmm13
+	movdqa	xmm6, xmmword ptr [rip + .LCPI5_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm6, xmm9, xmm0
+	movd	xmm4, r11d
+	movzx	r11d, word ptr [r14 + rdi + 46]
+	pinsrw	xmm3, word ptr [r14 + rcx + 30], 1
+	pinsrw	xmm3, word ptr [r14 + r15 + 30], 2
+	pinsrw	xmm3, word ptr [r14 + rsi + 30], 3
+	pinsrw	xmm3, word ptr [r14 + rdx + 30], 4
+	pinsrw	xmm3, word ptr [r14 + r13 + 30], 5
+	pinsrw	xmm3, word ptr [r14 + rbx + 30], 6
+	por	xmm6, xmm5
+	movd	xmm1, r12d
+	movzx	eax, word ptr [r14 + rdi + 48]
+	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
+	pinsrw	xmm3, word ptr [r14 + r9 + 30], 7
+	pcmpeqw	xmm3, xmm11
+	pinsrw	xmm2, word ptr [r14 + rcx + 34], 1
+	pinsrw	xmm2, word ptr [r14 + r15 + 34], 2
+	pinsrw	xmm2, word ptr [r14 + rsi + 34], 3
+	pinsrw	xmm2, word ptr [r14 + rdx + 34], 4
+	pinsrw	xmm2, word ptr [r14 + r13 + 34], 5
+	pinsrw	xmm2, word ptr [r14 + rbx + 34], 6
+	packsswb	xmm3, xmm3
+	pinsrw	xmm2, word ptr [r14 + r9 + 34], 7
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm6, xmm14
+	movdqa	xmm13, xmm10
+	movdqa	xmm0, xmm3
+	pblendvb	xmm13, xmm9, xmm0
+	movdqa	xmm8, xmmword ptr [rip + .LCPI5_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm8, xmm9, xmm0
+	movd	xmm2, r8d
+	movzx	r12d, word ptr [r14 + rdi + 50]
+	pinsrw	xmm7, word ptr [r14 + rcx + 32], 1
+	pinsrw	xmm7, word ptr [r14 + r15 + 32], 2
+	pinsrw	xmm7, word ptr [r14 + rsi + 32], 3
+	pinsrw	xmm7, word ptr [r14 + rdx + 32], 4
+	pinsrw	xmm7, word ptr [r14 + r13 + 32], 5
+	pinsrw	xmm7, word ptr [r14 + rbx + 32], 6
+	pinsrw	xmm4, word ptr [r14 + rcx + 36], 1
+	pinsrw	xmm4, word ptr [r14 + r15 + 36], 2
+	pinsrw	xmm4, word ptr [r14 + rsi + 36], 3
+	pinsrw	xmm4, word ptr [r14 + rdx + 36], 4
+	pinsrw	xmm4, word ptr [r14 + r13 + 36], 5
+	pinsrw	xmm4, word ptr [r14 + rbx + 36], 6
+	pinsrw	xmm4, word ptr [r14 + r9 + 36], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm13, xmm6
+	movdqa	xmm6, xmmword ptr [rip + .LCPI5_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm6, xmm9, xmm0
+	movd	xmm3, r10d
+	movzx	r10d, word ptr [r14 + rdi + 52]
+	pinsrw	xmm7, word ptr [r14 + r9 + 32], 7
+	pcmpeqw	xmm7, xmm11
+	pcmpeqd	xmm14, xmm14
+	pxor	xmm7, xmm14
+	packsswb	xmm7, xmm7
+	pinsrw	xmm1, word ptr [r14 + rcx + 38], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 38], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 38], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 38], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 38], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 38], 6
+	pinsrw	xmm1, word ptr [r14 + r9 + 38], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	pinsrw	xmm2, word ptr [r14 + rcx + 40], 1
+	pinsrw	xmm2, word ptr [r14 + r15 + 40], 2
+	pinsrw	xmm2, word ptr [r14 + rsi + 40], 3
+	pinsrw	xmm2, word ptr [r14 + rdx + 40], 4
+	pinsrw	xmm2, word ptr [r14 + r13 + 40], 5
+	pinsrw	xmm2, word ptr [r14 + rbx + 40], 6
+	pinsrw	xmm2, word ptr [r14 + r9 + 40], 7
+	psubb	xmm8, xmm7
+	movdqa	xmm5, xmmword ptr [rip + .LCPI5_10] # xmm5 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm9, xmm0
+	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	movzx	r8d, word ptr [r14 + rdi + 54]
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm5, xmm6
+	movdqa	xmm6, xmmword ptr [rip + .LCPI5_11] # xmm6 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm6, xmm9, xmm0
+	movd	xmm4, r11d
+	movzx	eax, word ptr [r14 + rdi + 56]
+	pinsrw	xmm3, word ptr [r14 + rcx + 42], 1
+	pinsrw	xmm3, word ptr [r14 + r15 + 42], 2
+	pinsrw	xmm3, word ptr [r14 + rsi + 42], 3
+	pinsrw	xmm3, word ptr [r14 + rdx + 42], 4
+	pinsrw	xmm3, word ptr [r14 + r13 + 42], 5
+	pinsrw	xmm3, word ptr [r14 + rbx + 42], 6
+	pinsrw	xmm3, word ptr [r14 + r9 + 42], 7
+	pcmpeqw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	pinsrw	xmm1, word ptr [r14 + rcx + 44], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 44], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 44], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 44], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 44], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 44], 6
+	por	xmm5, xmm8
+	movdqa	xmm2, xmm15
+	movdqa	xmm0, xmm3
+	pblendvb	xmm2, xmm9, xmm0
+	movd	xmm7, dword ptr [rsp + 40]      # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	r11d, word ptr [r14 + rdi + 58]
+	pinsrw	xmm1, word ptr [r14 + r9 + 44], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	por	xmm2, xmm6
+	movdqa	xmm15, xmmword ptr [rip + .LCPI5_13] # xmm15 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm6, xmm15
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm9, xmm0
+	movd	xmm1, r12d
+	movzx	r12d, word ptr [r14 + rdi + 60]
+	por	xmm6, xmm2
+	movd	xmm2, r10d
+	pinsrw	xmm4, word ptr [r14 + rcx + 46], 1
+	pinsrw	xmm4, word ptr [r14 + r15 + 46], 2
+	pinsrw	xmm4, word ptr [r14 + rsi + 46], 3
+	pinsrw	xmm4, word ptr [r14 + rdx + 46], 4
+	pinsrw	xmm4, word ptr [r14 + r13 + 46], 5
+	pinsrw	xmm4, word ptr [r14 + rbx + 46], 6
+	pinsrw	xmm4, word ptr [r14 + r9 + 46], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm6, xmm5
+	movdqa	xmm8, xmm10
+	movdqa	xmm0, xmm4
+	pblendvb	xmm8, xmm9, xmm0
+	movd	xmm3, r8d
+	pinsrw	xmm1, word ptr [r14 + rcx + 50], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 50], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 50], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 50], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 50], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 50], 6
+	pinsrw	xmm1, word ptr [r14 + r9 + 50], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	por	xmm8, xmm6
+	movdqa	xmm4, xmmword ptr [rip + .LCPI5_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm9, xmm0
+	movd	xmm1, eax
+	pinsrw	xmm7, word ptr [r14 + rcx + 48], 1
+	pinsrw	xmm7, word ptr [r14 + r15 + 48], 2
+	pinsrw	xmm7, word ptr [r14 + rsi + 48], 3
+	pinsrw	xmm7, word ptr [r14 + rdx + 48], 4
+	pinsrw	xmm7, word ptr [r14 + r13 + 48], 5
+	pinsrw	xmm7, word ptr [r14 + rbx + 48], 6
+	pinsrw	xmm7, word ptr [r14 + r9 + 48], 7
+	pcmpeqw	xmm7, xmm11
+	pxor	xmm7, xmm14
+	pinsrw	xmm2, word ptr [r14 + rcx + 52], 1
+	pinsrw	xmm2, word ptr [r14 + r15 + 52], 2
+	pinsrw	xmm2, word ptr [r14 + rsi + 52], 3
+	pinsrw	xmm2, word ptr [r14 + rdx + 52], 4
+	pinsrw	xmm2, word ptr [r14 + r13 + 52], 5
+	pinsrw	xmm2, word ptr [r14 + rbx + 52], 6
+	packsswb	xmm7, xmm7
+	pinsrw	xmm2, word ptr [r14 + r9 + 52], 7
+	pcmpeqw	xmm2, xmm11
+	pinsrw	xmm3, word ptr [r14 + rcx + 54], 1
+	pinsrw	xmm3, word ptr [r14 + r15 + 54], 2
+	pinsrw	xmm3, word ptr [r14 + rsi + 54], 3
+	pinsrw	xmm3, word ptr [r14 + rdx + 54], 4
+	pinsrw	xmm3, word ptr [r14 + r13 + 54], 5
+	pinsrw	xmm3, word ptr [r14 + rbx + 54], 6
+	packsswb	xmm2, xmm2
+	pinsrw	xmm3, word ptr [r14 + r9 + 54], 7
+	pcmpeqw	xmm3, xmm11
+	pinsrw	xmm1, word ptr [r14 + rcx + 56], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 56], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 56], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 56], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 56], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 56], 6
+	packsswb	xmm3, xmm3
+	pinsrw	xmm1, word ptr [r14 + r9 + 56], 7
+	psubb	xmm4, xmm7
+	movdqa	xmm5, xmmword ptr [rip + .LCPI5_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm5, xmm9, xmm0
+	movdqa	xmm6, xmmword ptr [rip + .LCPI5_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm3
+	pblendvb	xmm6, xmm9, xmm0
+	movd	xmm2, r11d
+	pcmpeqw	xmm1, xmm11
+	pinsrw	xmm2, word ptr [r14 + rcx + 58], 1
+	pinsrw	xmm2, word ptr [r14 + r15 + 58], 2
+	pinsrw	xmm2, word ptr [r14 + rsi + 58], 3
+	pinsrw	xmm2, word ptr [r14 + rdx + 58], 4
+	pinsrw	xmm2, word ptr [r14 + r13 + 58], 5
+	pinsrw	xmm2, word ptr [r14 + rbx + 58], 6
+	pinsrw	xmm2, word ptr [r14 + r9 + 58], 7
+	packsswb	xmm1, xmm1
+	pcmpeqw	xmm2, xmm11
+	por	xmm6, xmm5
+	movd	xmm3, r12d
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	pinsrw	xmm3, word ptr [r14 + rcx + 60], 1
+	pinsrw	xmm3, word ptr [r14 + r15 + 60], 2
+	pinsrw	xmm3, word ptr [r14 + rsi + 60], 3
+	pinsrw	xmm3, word ptr [r14 + rdx + 60], 4
+	pinsrw	xmm3, word ptr [r14 + r13 + 60], 5
+	pinsrw	xmm3, word ptr [r14 + rbx + 60], 6
+	packsswb	xmm2, xmm2
+	pinsrw	xmm3, word ptr [r14 + r9 + 60], 7
+	pcmpeqw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	por	xmm6, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI5_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm9, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI5_12] # xmm1 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm1, xmm9, xmm0
+	movdqa	xmm2, xmm15
+	movdqa	xmm0, xmm3
+	pblendvb	xmm2, xmm9, xmm0
+	por	xmm1, xmm4
+	movzx	eax, word ptr [r14 + rdi + 62]
+	por	xmm2, xmm1
+	movd	xmm0, eax
+	pinsrw	xmm0, word ptr [r14 + rcx + 62], 1
+	pinsrw	xmm0, word ptr [r14 + r15 + 62], 2
+	pinsrw	xmm0, word ptr [r14 + rsi + 62], 3
+	pinsrw	xmm0, word ptr [r14 + rdx + 62], 4
+	pinsrw	xmm0, word ptr [r14 + r13 + 62], 5
+	pinsrw	xmm0, word ptr [r14 + rbx + 62], 6
+	pinsrw	xmm0, word ptr [r14 + r9 + 62], 7
+	pcmpeqw	xmm0, xmm11
+	packsswb	xmm0, xmm0
+	por	xmm2, xmm6
+	pblendvb	xmm10, xmm9, xmm0
+	por	xmm10, xmm2
+	movdqa	xmm0, xmm12
+	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
+	movdqa	xmm2, xmm8
+	punpcklqdq	xmm2, xmm10             # xmm2 = xmm2[0],xmm10[0]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI5_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
+	pshufb	xmm2, xmm3
+	pshufb	xmm0, xmm3
+	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
+	punpcklbw	xmm8, xmm10             # xmm8 = xmm8[0],xmm10[0],xmm8[1],xmm10[1],xmm8[2],xmm10[2],xmm8[3],xmm10[3],xmm8[4],xmm10[4],xmm8[5],xmm10[5],xmm8[6],xmm10[6],xmm8[7],xmm10[7]
+	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
+	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	movdqu	xmmword ptr [r8 + 4*rcx], xmm12
+	mov	qword ptr [rsp + 8], r8         # 8-byte Spill
+	movdqu	xmmword ptr [r8 + 4*rcx + 16], xmm0
+	add	rcx, 8
+	mov	rdi, rcx
+	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	jne	.LBB5_110
+# %bb.111:
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	cmp	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	mov	r11d, dword ptr [rsp + 16]      # 4-byte Reload
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	jne	.LBB5_112
+	jmp	.LBB5_115
+.LBB5_132:
+	and	r10, -8
+	mov	rax, r10
+	shl	rax, 6
+	add	rax, r14
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	qword ptr [rsp + 24], r10       # 8-byte Spill
+	lea	rax, [rax + 4*r10]
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	movd	xmm0, r11d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
+	xor	edi, edi
+	pxor	xmm9, xmm9
+	.p2align	4, 0x90
+.LBB5_133:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 64], rdi       # 8-byte Spill
+	shl	rdi, 6
+	mov	r15, rdi
+	mov	rsi, rdi
+	mov	rdx, rdi
+	mov	r13, rdi
+	mov	rbx, rdi
+	mov	r9, rdi
+	movzx	eax, word ptr [r14 + rdi]
+	movd	xmm5, eax
+	movzx	eax, word ptr [r14 + rdi + 2]
+	movd	xmm0, eax
+	movzx	eax, word ptr [r14 + rdi + 4]
+	movd	xmm1, eax
+	movzx	eax, word ptr [r14 + rdi + 6]
+	movd	xmm7, eax
+	movzx	eax, word ptr [r14 + rdi + 8]
+	movd	xmm8, eax
+	movzx	eax, word ptr [r14 + rdi + 10]
+	movd	xmm4, eax
+	movzx	eax, word ptr [r14 + rdi + 12]
+	movzx	r8d, word ptr [r14 + rdi + 14]
+	movzx	r10d, word ptr [r14 + rdi + 16]
+	movzx	r12d, word ptr [r14 + rdi + 18]
+	movzx	ecx, word ptr [r14 + rdi + 20]
+	mov	dword ptr [rsp + 40], ecx       # 4-byte Spill
+	mov	rcx, rdi
+	or	rcx, 64
+	or	r15, 128
+	or	rsi, 192
+	or	rdx, 256
+	or	r13, 320
+	or	rbx, 384
+	pinsrw	xmm5, word ptr [r14 + rcx], 1
+	pinsrw	xmm5, word ptr [r14 + r15], 2
+	pinsrw	xmm5, word ptr [r14 + rsi], 3
+	pinsrw	xmm5, word ptr [r14 + rdx], 4
+	pinsrw	xmm5, word ptr [r14 + r13], 5
+	pinsrw	xmm5, word ptr [r14 + rbx], 6
+	pinsrw	xmm0, word ptr [r14 + rcx + 2], 1
+	pinsrw	xmm0, word ptr [r14 + r15 + 2], 2
+	pinsrw	xmm0, word ptr [r14 + rsi + 2], 3
+	pinsrw	xmm0, word ptr [r14 + rdx + 2], 4
+	pinsrw	xmm0, word ptr [r14 + r13 + 2], 5
+	pinsrw	xmm0, word ptr [r14 + rbx + 2], 6
+	or	r9, 448
+	pinsrw	xmm0, word ptr [r14 + r9 + 2], 7
+	movd	xmm2, eax
+	movzx	eax, word ptr [r14 + rdi + 22]
+	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
+	pcmpeqw	xmm0, xmm11
+	pinsrw	xmm1, word ptr [r14 + rcx + 4], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 4], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 4], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 4], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 4], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 4], 6
+	pinsrw	xmm1, word ptr [r14 + r9 + 4], 7
+	packsswb	xmm0, xmm0
+	pcmpeqw	xmm1, xmm11
+	movdqa	xmm14, xmmword ptr [rip + .LCPI5_8] # xmm14 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm3, xmm14
+	pblendvb	xmm3, xmm9, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm15, xmmword ptr [rip + .LCPI5_9] # xmm15 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm6, xmm15
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm9, xmm0
+	movd	xmm1, r8d
+	movzx	r11d, word ptr [r14 + rdi + 24]
+	pinsrw	xmm5, word ptr [r14 + r9], 7
+	pcmpeqw	xmm5, xmm11
+	pcmpeqd	xmm0, xmm0
+	pxor	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pinsrw	xmm7, word ptr [r14 + rcx + 6], 1
+	pinsrw	xmm7, word ptr [r14 + r15 + 6], 2
+	pinsrw	xmm7, word ptr [r14 + rsi + 6], 3
+	pinsrw	xmm7, word ptr [r14 + rdx + 6], 4
+	pinsrw	xmm7, word ptr [r14 + r13 + 6], 5
+	pinsrw	xmm7, word ptr [r14 + rbx + 6], 6
+	pinsrw	xmm7, word ptr [r14 + r9 + 6], 7
+	pcmpeqw	xmm7, xmm11
+	packsswb	xmm7, xmm7
+	pinsrw	xmm8, word ptr [r14 + rcx + 8], 1
+	pinsrw	xmm8, word ptr [r14 + r15 + 8], 2
+	pinsrw	xmm8, word ptr [r14 + rsi + 8], 3
+	pinsrw	xmm8, word ptr [r14 + rdx + 8], 4
+	pinsrw	xmm8, word ptr [r14 + r13 + 8], 5
+	pinsrw	xmm8, word ptr [r14 + rbx + 8], 6
+	pinsrw	xmm8, word ptr [r14 + r9 + 8], 7
+	psubb	xmm3, xmm5
+	movdqa	xmm12, xmmword ptr [rip + .LCPI5_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm7
+	pblendvb	xmm12, xmm9, xmm0
+	movd	xmm7, r10d
+	movzx	r8d, word ptr [r14 + rdi + 26]
+	pcmpeqw	xmm8, xmm11
+	packsswb	xmm8, xmm8
+	por	xmm12, xmm6
+	movdqa	xmm13, xmmword ptr [rip + .LCPI5_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm8
+	pblendvb	xmm13, xmm9, xmm0
+	movd	xmm6, r12d
+	movzx	r12d, word ptr [r14 + rdi + 28]
+	pinsrw	xmm4, word ptr [r14 + rcx + 10], 1
+	pinsrw	xmm4, word ptr [r14 + r15 + 10], 2
+	pinsrw	xmm4, word ptr [r14 + rsi + 10], 3
+	pinsrw	xmm4, word ptr [r14 + rdx + 10], 4
+	pinsrw	xmm4, word ptr [r14 + r13 + 10], 5
+	pinsrw	xmm4, word ptr [r14 + rbx + 10], 6
+	pinsrw	xmm4, word ptr [r14 + r9 + 10], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	pinsrw	xmm2, word ptr [r14 + rcx + 12], 1
+	pinsrw	xmm2, word ptr [r14 + r15 + 12], 2
+	pinsrw	xmm2, word ptr [r14 + rsi + 12], 3
+	pinsrw	xmm2, word ptr [r14 + rdx + 12], 4
+	pinsrw	xmm2, word ptr [r14 + r13 + 12], 5
+	pinsrw	xmm2, word ptr [r14 + rbx + 12], 6
+	por	xmm12, xmm3
+	movdqa	xmm5, xmmword ptr [rip + .LCPI5_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm5, xmm9, xmm0
+	movd	xmm4, dword ptr [rsp + 40]      # 4-byte Folded Reload
+                                        # xmm4 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [r14 + rdi + 30]
+	pinsrw	xmm2, word ptr [r14 + r9 + 12], 7
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm5, xmm13
+	movdqa	xmm13, xmmword ptr [rip + .LCPI5_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm13, xmm9, xmm0
+	movd	xmm3, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [r14 + rdi + 32]
+	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
+	pinsrw	xmm1, word ptr [r14 + rcx + 14], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 14], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 14], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 14], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 14], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 14], 6
+	por	xmm13, xmm5
+	movd	xmm2, r11d
+	movzx	eax, word ptr [r14 + rdi + 34]
+	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
+	pinsrw	xmm1, word ptr [r14 + r9 + 14], 7
+	pcmpeqw	xmm1, xmm11
+	pinsrw	xmm6, word ptr [r14 + rcx + 18], 1
+	pinsrw	xmm6, word ptr [r14 + r15 + 18], 2
+	pinsrw	xmm6, word ptr [r14 + rsi + 18], 3
+	pinsrw	xmm6, word ptr [r14 + rdx + 18], 4
+	pinsrw	xmm6, word ptr [r14 + r13 + 18], 5
+	pinsrw	xmm6, word ptr [r14 + rbx + 18], 6
+	packsswb	xmm1, xmm1
+	pinsrw	xmm6, word ptr [r14 + r9 + 18], 7
+	pcmpeqw	xmm6, xmm11
+	packsswb	xmm6, xmm6
+	por	xmm13, xmm12
+	movdqa	xmm10, xmmword ptr [rip + .LCPI5_14] # xmm10 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
+	movdqa	xmm12, xmm10
+	movdqa	xmm0, xmm1
+	pblendvb	xmm12, xmm9, xmm0
+	movdqa	xmm8, xmm14
+	movdqa	xmm0, xmm6
+	pblendvb	xmm8, xmm9, xmm0
+	movd	xmm1, r8d
+	movzx	r11d, word ptr [r14 + rdi + 36]
+	pinsrw	xmm7, word ptr [r14 + rcx + 16], 1
+	pinsrw	xmm7, word ptr [r14 + r15 + 16], 2
+	pinsrw	xmm7, word ptr [r14 + rsi + 16], 3
+	pinsrw	xmm7, word ptr [r14 + rdx + 16], 4
+	pinsrw	xmm7, word ptr [r14 + r13 + 16], 5
+	pinsrw	xmm7, word ptr [r14 + rbx + 16], 6
+	pinsrw	xmm4, word ptr [r14 + rcx + 20], 1
+	pinsrw	xmm4, word ptr [r14 + r15 + 20], 2
+	pinsrw	xmm4, word ptr [r14 + rsi + 20], 3
+	pinsrw	xmm4, word ptr [r14 + rdx + 20], 4
+	pinsrw	xmm4, word ptr [r14 + r13 + 20], 5
+	pinsrw	xmm4, word ptr [r14 + rbx + 20], 6
+	pinsrw	xmm4, word ptr [r14 + r9 + 20], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm12, xmm13
+	movdqa	xmm0, xmm4
+	pblendvb	xmm15, xmm9, xmm0
+	movd	xmm4, r12d
+	movzx	r12d, word ptr [r14 + rdi + 38]
+	pinsrw	xmm7, word ptr [r14 + r9 + 16], 7
+	pcmpeqw	xmm7, xmm11
+	pxor	xmm7, xmmword ptr [rip + .LCPI5_22]
+	packsswb	xmm7, xmm7
+	pinsrw	xmm3, word ptr [r14 + rcx + 22], 1
+	pinsrw	xmm3, word ptr [r14 + r15 + 22], 2
+	pinsrw	xmm3, word ptr [r14 + rsi + 22], 3
+	pinsrw	xmm3, word ptr [r14 + rdx + 22], 4
+	pinsrw	xmm3, word ptr [r14 + r13 + 22], 5
+	pinsrw	xmm3, word ptr [r14 + rbx + 22], 6
+	pinsrw	xmm3, word ptr [r14 + r9 + 22], 7
+	pcmpeqw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	pinsrw	xmm2, word ptr [r14 + rcx + 24], 1
+	pinsrw	xmm2, word ptr [r14 + r15 + 24], 2
+	pinsrw	xmm2, word ptr [r14 + rsi + 24], 3
+	pinsrw	xmm2, word ptr [r14 + rdx + 24], 4
+	pinsrw	xmm2, word ptr [r14 + r13 + 24], 5
+	pinsrw	xmm2, word ptr [r14 + rbx + 24], 6
+	pinsrw	xmm2, word ptr [r14 + r9 + 24], 7
+	psubb	xmm8, xmm7
+	movdqa	xmm14, xmmword ptr [rip + .LCPI5_10] # xmm14 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm3
+	pblendvb	xmm14, xmm9, xmm0
+	movd	xmm3, r10d
+	movzx	r8d, word ptr [r14 + rdi + 40]
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm14, xmm15
+	movdqa	xmm13, xmmword ptr [rip + .LCPI5_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm13, xmm9, xmm0
+	movd	xmm7, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [r14 + rdi + 42]
+	pinsrw	xmm1, word ptr [r14 + rcx + 26], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 26], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 26], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 26], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 26], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 26], 6
+	pinsrw	xmm1, word ptr [r14 + r9 + 26], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	pinsrw	xmm4, word ptr [r14 + rcx + 28], 1
+	pinsrw	xmm4, word ptr [r14 + r15 + 28], 2
+	pinsrw	xmm4, word ptr [r14 + rsi + 28], 3
+	pinsrw	xmm4, word ptr [r14 + rdx + 28], 4
+	pinsrw	xmm4, word ptr [r14 + r13 + 28], 5
+	pinsrw	xmm4, word ptr [r14 + rbx + 28], 6
+	por	xmm14, xmm8
+	movdqa	xmm15, xmmword ptr [rip + .LCPI5_12] # xmm15 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm5, xmm15
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm9, xmm0
+	movd	xmm2, dword ptr [rsp + 40]      # 4-byte Folded Reload
+                                        # xmm2 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [r14 + rdi + 44]
+	mov	dword ptr [rsp + 32], eax       # 4-byte Spill
+	pinsrw	xmm4, word ptr [r14 + r9 + 28], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm5, xmm13
+	movdqa	xmm6, xmmword ptr [rip + .LCPI5_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm6, xmm9, xmm0
+	movd	xmm4, r11d
+	movzx	r11d, word ptr [r14 + rdi + 46]
+	pinsrw	xmm3, word ptr [r14 + rcx + 30], 1
+	pinsrw	xmm3, word ptr [r14 + r15 + 30], 2
+	pinsrw	xmm3, word ptr [r14 + rsi + 30], 3
+	pinsrw	xmm3, word ptr [r14 + rdx + 30], 4
+	pinsrw	xmm3, word ptr [r14 + r13 + 30], 5
+	pinsrw	xmm3, word ptr [r14 + rbx + 30], 6
+	por	xmm6, xmm5
+	movd	xmm1, r12d
+	movzx	eax, word ptr [r14 + rdi + 48]
+	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
+	pinsrw	xmm3, word ptr [r14 + r9 + 30], 7
+	pcmpeqw	xmm3, xmm11
+	pinsrw	xmm2, word ptr [r14 + rcx + 34], 1
+	pinsrw	xmm2, word ptr [r14 + r15 + 34], 2
+	pinsrw	xmm2, word ptr [r14 + rsi + 34], 3
+	pinsrw	xmm2, word ptr [r14 + rdx + 34], 4
+	pinsrw	xmm2, word ptr [r14 + r13 + 34], 5
+	pinsrw	xmm2, word ptr [r14 + rbx + 34], 6
+	packsswb	xmm3, xmm3
+	pinsrw	xmm2, word ptr [r14 + r9 + 34], 7
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm6, xmm14
+	movdqa	xmm13, xmm10
+	movdqa	xmm0, xmm3
+	pblendvb	xmm13, xmm9, xmm0
+	movdqa	xmm8, xmmword ptr [rip + .LCPI5_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm8, xmm9, xmm0
+	movd	xmm2, r8d
+	movzx	r12d, word ptr [r14 + rdi + 50]
+	pinsrw	xmm7, word ptr [r14 + rcx + 32], 1
+	pinsrw	xmm7, word ptr [r14 + r15 + 32], 2
+	pinsrw	xmm7, word ptr [r14 + rsi + 32], 3
+	pinsrw	xmm7, word ptr [r14 + rdx + 32], 4
+	pinsrw	xmm7, word ptr [r14 + r13 + 32], 5
+	pinsrw	xmm7, word ptr [r14 + rbx + 32], 6
+	pinsrw	xmm4, word ptr [r14 + rcx + 36], 1
+	pinsrw	xmm4, word ptr [r14 + r15 + 36], 2
+	pinsrw	xmm4, word ptr [r14 + rsi + 36], 3
+	pinsrw	xmm4, word ptr [r14 + rdx + 36], 4
+	pinsrw	xmm4, word ptr [r14 + r13 + 36], 5
+	pinsrw	xmm4, word ptr [r14 + rbx + 36], 6
+	pinsrw	xmm4, word ptr [r14 + r9 + 36], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm13, xmm6
+	movdqa	xmm6, xmmword ptr [rip + .LCPI5_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm6, xmm9, xmm0
+	movd	xmm3, r10d
+	movzx	r10d, word ptr [r14 + rdi + 52]
+	pinsrw	xmm7, word ptr [r14 + r9 + 32], 7
+	pcmpeqw	xmm7, xmm11
+	pcmpeqd	xmm14, xmm14
+	pxor	xmm7, xmm14
+	packsswb	xmm7, xmm7
+	pinsrw	xmm1, word ptr [r14 + rcx + 38], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 38], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 38], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 38], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 38], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 38], 6
+	pinsrw	xmm1, word ptr [r14 + r9 + 38], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	pinsrw	xmm2, word ptr [r14 + rcx + 40], 1
+	pinsrw	xmm2, word ptr [r14 + r15 + 40], 2
+	pinsrw	xmm2, word ptr [r14 + rsi + 40], 3
+	pinsrw	xmm2, word ptr [r14 + rdx + 40], 4
+	pinsrw	xmm2, word ptr [r14 + r13 + 40], 5
+	pinsrw	xmm2, word ptr [r14 + rbx + 40], 6
+	pinsrw	xmm2, word ptr [r14 + r9 + 40], 7
+	psubb	xmm8, xmm7
+	movdqa	xmm5, xmmword ptr [rip + .LCPI5_10] # xmm5 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm9, xmm0
+	movd	xmm1, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	movzx	r8d, word ptr [r14 + rdi + 54]
+	pcmpeqw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm5, xmm6
+	movdqa	xmm6, xmmword ptr [rip + .LCPI5_11] # xmm6 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm6, xmm9, xmm0
+	movd	xmm4, r11d
+	movzx	eax, word ptr [r14 + rdi + 56]
+	pinsrw	xmm3, word ptr [r14 + rcx + 42], 1
+	pinsrw	xmm3, word ptr [r14 + r15 + 42], 2
+	pinsrw	xmm3, word ptr [r14 + rsi + 42], 3
+	pinsrw	xmm3, word ptr [r14 + rdx + 42], 4
+	pinsrw	xmm3, word ptr [r14 + r13 + 42], 5
+	pinsrw	xmm3, word ptr [r14 + rbx + 42], 6
+	pinsrw	xmm3, word ptr [r14 + r9 + 42], 7
+	pcmpeqw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	pinsrw	xmm1, word ptr [r14 + rcx + 44], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 44], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 44], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 44], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 44], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 44], 6
+	por	xmm5, xmm8
+	movdqa	xmm2, xmm15
+	movdqa	xmm0, xmm3
+	pblendvb	xmm2, xmm9, xmm0
+	movd	xmm7, dword ptr [rsp + 40]      # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	r11d, word ptr [r14 + rdi + 58]
+	pinsrw	xmm1, word ptr [r14 + r9 + 44], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	por	xmm2, xmm6
+	movdqa	xmm15, xmmword ptr [rip + .LCPI5_13] # xmm15 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm6, xmm15
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm9, xmm0
+	movd	xmm1, r12d
+	movzx	r12d, word ptr [r14 + rdi + 60]
+	por	xmm6, xmm2
+	movd	xmm2, r10d
+	pinsrw	xmm4, word ptr [r14 + rcx + 46], 1
+	pinsrw	xmm4, word ptr [r14 + r15 + 46], 2
+	pinsrw	xmm4, word ptr [r14 + rsi + 46], 3
+	pinsrw	xmm4, word ptr [r14 + rdx + 46], 4
+	pinsrw	xmm4, word ptr [r14 + r13 + 46], 5
+	pinsrw	xmm4, word ptr [r14 + rbx + 46], 6
+	pinsrw	xmm4, word ptr [r14 + r9 + 46], 7
+	pcmpeqw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm6, xmm5
+	movdqa	xmm8, xmm10
+	movdqa	xmm0, xmm4
+	pblendvb	xmm8, xmm9, xmm0
+	movd	xmm3, r8d
+	pinsrw	xmm1, word ptr [r14 + rcx + 50], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 50], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 50], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 50], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 50], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 50], 6
+	pinsrw	xmm1, word ptr [r14 + r9 + 50], 7
+	pcmpeqw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	por	xmm8, xmm6
+	movdqa	xmm4, xmmword ptr [rip + .LCPI5_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm9, xmm0
+	movd	xmm1, eax
+	pinsrw	xmm7, word ptr [r14 + rcx + 48], 1
+	pinsrw	xmm7, word ptr [r14 + r15 + 48], 2
+	pinsrw	xmm7, word ptr [r14 + rsi + 48], 3
+	pinsrw	xmm7, word ptr [r14 + rdx + 48], 4
+	pinsrw	xmm7, word ptr [r14 + r13 + 48], 5
+	pinsrw	xmm7, word ptr [r14 + rbx + 48], 6
+	pinsrw	xmm7, word ptr [r14 + r9 + 48], 7
+	pcmpeqw	xmm7, xmm11
+	pxor	xmm7, xmm14
+	pinsrw	xmm2, word ptr [r14 + rcx + 52], 1
+	pinsrw	xmm2, word ptr [r14 + r15 + 52], 2
+	pinsrw	xmm2, word ptr [r14 + rsi + 52], 3
+	pinsrw	xmm2, word ptr [r14 + rdx + 52], 4
+	pinsrw	xmm2, word ptr [r14 + r13 + 52], 5
+	pinsrw	xmm2, word ptr [r14 + rbx + 52], 6
+	packsswb	xmm7, xmm7
+	pinsrw	xmm2, word ptr [r14 + r9 + 52], 7
+	pcmpeqw	xmm2, xmm11
+	pinsrw	xmm3, word ptr [r14 + rcx + 54], 1
+	pinsrw	xmm3, word ptr [r14 + r15 + 54], 2
+	pinsrw	xmm3, word ptr [r14 + rsi + 54], 3
+	pinsrw	xmm3, word ptr [r14 + rdx + 54], 4
+	pinsrw	xmm3, word ptr [r14 + r13 + 54], 5
+	pinsrw	xmm3, word ptr [r14 + rbx + 54], 6
+	packsswb	xmm2, xmm2
+	pinsrw	xmm3, word ptr [r14 + r9 + 54], 7
+	pcmpeqw	xmm3, xmm11
+	pinsrw	xmm1, word ptr [r14 + rcx + 56], 1
+	pinsrw	xmm1, word ptr [r14 + r15 + 56], 2
+	pinsrw	xmm1, word ptr [r14 + rsi + 56], 3
+	pinsrw	xmm1, word ptr [r14 + rdx + 56], 4
+	pinsrw	xmm1, word ptr [r14 + r13 + 56], 5
+	pinsrw	xmm1, word ptr [r14 + rbx + 56], 6
+	packsswb	xmm3, xmm3
+	pinsrw	xmm1, word ptr [r14 + r9 + 56], 7
+	psubb	xmm4, xmm7
+	movdqa	xmm5, xmmword ptr [rip + .LCPI5_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm5, xmm9, xmm0
+	movdqa	xmm6, xmmword ptr [rip + .LCPI5_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm3
+	pblendvb	xmm6, xmm9, xmm0
+	movd	xmm2, r11d
+	pcmpeqw	xmm1, xmm11
+	pinsrw	xmm2, word ptr [r14 + rcx + 58], 1
+	pinsrw	xmm2, word ptr [r14 + r15 + 58], 2
+	pinsrw	xmm2, word ptr [r14 + rsi + 58], 3
+	pinsrw	xmm2, word ptr [r14 + rdx + 58], 4
+	pinsrw	xmm2, word ptr [r14 + r13 + 58], 5
+	pinsrw	xmm2, word ptr [r14 + rbx + 58], 6
+	pinsrw	xmm2, word ptr [r14 + r9 + 58], 7
+	packsswb	xmm1, xmm1
+	pcmpeqw	xmm2, xmm11
+	por	xmm6, xmm5
+	movd	xmm3, r12d
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	pinsrw	xmm3, word ptr [r14 + rcx + 60], 1
+	pinsrw	xmm3, word ptr [r14 + r15 + 60], 2
+	pinsrw	xmm3, word ptr [r14 + rsi + 60], 3
+	pinsrw	xmm3, word ptr [r14 + rdx + 60], 4
+	pinsrw	xmm3, word ptr [r14 + r13 + 60], 5
+	pinsrw	xmm3, word ptr [r14 + rbx + 60], 6
+	packsswb	xmm2, xmm2
+	pinsrw	xmm3, word ptr [r14 + r9 + 60], 7
+	pcmpeqw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	por	xmm6, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI5_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm9, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI5_12] # xmm1 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm1, xmm9, xmm0
+	movdqa	xmm2, xmm15
+	movdqa	xmm0, xmm3
+	pblendvb	xmm2, xmm9, xmm0
+	por	xmm1, xmm4
+	movzx	eax, word ptr [r14 + rdi + 62]
+	por	xmm2, xmm1
+	movd	xmm0, eax
+	pinsrw	xmm0, word ptr [r14 + rcx + 62], 1
+	pinsrw	xmm0, word ptr [r14 + r15 + 62], 2
+	pinsrw	xmm0, word ptr [r14 + rsi + 62], 3
+	pinsrw	xmm0, word ptr [r14 + rdx + 62], 4
+	pinsrw	xmm0, word ptr [r14 + r13 + 62], 5
+	pinsrw	xmm0, word ptr [r14 + rbx + 62], 6
+	pinsrw	xmm0, word ptr [r14 + r9 + 62], 7
+	pcmpeqw	xmm0, xmm11
+	packsswb	xmm0, xmm0
+	por	xmm2, xmm6
+	pblendvb	xmm10, xmm9, xmm0
+	por	xmm10, xmm2
+	movdqa	xmm0, xmm12
+	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
+	movdqa	xmm2, xmm8
+	punpcklqdq	xmm2, xmm10             # xmm2 = xmm2[0],xmm10[0]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI5_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
+	pshufb	xmm2, xmm3
+	pshufb	xmm0, xmm3
+	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
+	punpcklbw	xmm8, xmm10             # xmm8 = xmm8[0],xmm10[0],xmm8[1],xmm10[1],xmm8[2],xmm10[2],xmm8[3],xmm10[3],xmm8[4],xmm10[4],xmm8[5],xmm10[5],xmm8[6],xmm10[6],xmm8[7],xmm10[7]
+	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
+	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	movdqu	xmmword ptr [r8 + 4*rcx], xmm12
+	mov	qword ptr [rsp + 8], r8         # 8-byte Spill
+	movdqu	xmmword ptr [r8 + 4*rcx + 16], xmm0
+	add	rcx, 8
+	mov	rdi, rcx
+	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	jne	.LBB5_133
+# %bb.134:
+	mov	r10, qword ptr [rsp + 224]      # 8-byte Reload
+	cmp	r10, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	mov	r15, qword ptr [rsp + 160]      # 8-byte Reload
+	mov	r11d, dword ptr [rsp + 16]      # 4-byte Reload
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	jne	.LBB5_135
+	jmp	.LBB5_138
+.LBB5_180:
+	mov	r8, r10
+	and	r8, -4
+	mov	rbx, r8
+	shl	rbx, 7
+	add	rbx, r14
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	lea	r11, [rax + 4*r8]
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	add	r14, 508
+	xor	ecx, ecx
+	movdqa	xmm15, xmmword ptr [rip + .LCPI5_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	movdqa	xmm8, xmmword ptr [rip + .LCPI5_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	movdqa	xmm10, xmmword ptr [rip + .LCPI5_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	movdqa	xmm11, xmmword ptr [rip + .LCPI5_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	movdqa	xmm12, xmmword ptr [rip + .LCPI5_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	movdqa	xmm13, xmmword ptr [rip + .LCPI5_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	movdqa	xmm14, xmmword ptr [rip + .LCPI5_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	movdqa	xmm9, xmmword ptr [rip + .LCPI5_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	.p2align	4, 0x90
+.LBB5_181:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm6, dword ptr [r14 - 508]     # xmm6 = mem[0],zero,zero,zero
+	movss	xmm7, dword ptr [r14 - 504]     # xmm7 = mem[0],zero,zero,zero
+	movss	xmm5, dword ptr [r14 - 500]     # xmm5 = mem[0],zero,zero,zero
+	movss	xmm4, dword ptr [r14 - 496]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [r14 - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [r14 - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [r14 - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
+	cmpneqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	insertps	xmm7, dword ptr [r14 - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [r14 - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [r14 - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
+	insertps	xmm5, dword ptr [r14 - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [r14 - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [r14 - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
+	insertps	xmm4, dword ptr [r14 - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [r14 - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	insertps	xmm4, dword ptr [r14 - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	movdqa	xmm2, xmm7
+	pand	xmm2, xmm15
+	psubb	xmm2, xmm7
+	movss	xmm7, dword ptr [r14 - 492]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [r14 - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [r14 - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [r14 - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [r14 - 488]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [r14 - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [r14 - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [r14 - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
+	cmpneqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	pand	xmm5, xmm8
+	por	xmm5, xmm2
+	movss	xmm3, dword ptr [r14 - 484]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [r14 - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [r14 - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [r14 - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
+	cmpneqps	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	psllw	xmm4, 3
+	pand	xmm4, xmm10
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 4
+	pand	xmm7, xmm11
+	por	xmm7, xmm4
+	movss	xmm4, dword ptr [r14 - 480]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm4, dword ptr [r14 - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [r14 - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	insertps	xmm4, dword ptr [r14 - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
+	por	xmm7, xmm5
+	movss	xmm5, dword ptr [r14 - 476]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [r14 - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [r14 - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [r14 - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpneqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	cmpneqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	cmpneqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 6
+	pand	xmm3, xmm13
+	por	xmm3, xmm6
+	movss	xmm2, dword ptr [r14 - 472]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [r14 - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [r14 - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [r14 - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	packsswb	xmm5, xmm5
+	cmpneqps	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	psllw	xmm4, 7
+	pand	xmm4, xmm14
+	por	xmm4, xmm3
+	movss	xmm3, dword ptr [r14 - 468]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [r14 - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [r14 - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	pand	xmm5, xmm15
+	insertps	xmm3, dword ptr [r14 - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	por	xmm4, xmm7
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm6, xmm2
+	pand	xmm6, xmm15
+	psubb	xmm6, xmm2
+	movss	xmm7, dword ptr [r14 - 464]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [r14 - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [r14 - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [r14 - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm6, xmm5
+	movss	xmm5, dword ptr [r14 - 460]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [r14 - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [r14 - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [r14 - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpneqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm6
+	movss	xmm6, dword ptr [r14 - 456]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [r14 - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [r14 - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [r14 - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 3
+	pand	xmm7, xmm10
+	cmpneqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm7
+	movss	xmm2, dword ptr [r14 - 452]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [r14 - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [r14 - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [r14 - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm5, xmm3
+	movss	xmm7, dword ptr [r14 - 448]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [r14 - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [r14 - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [r14 - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpneqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [r14 - 444]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [r14 - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [r14 - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [r14 - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpneqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	psllw	xmm7, 7
+	pand	xmm7, xmm14
+	por	xmm7, xmm2
+	movss	xmm2, dword ptr [r14 - 440]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [r14 - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [r14 - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [r14 - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm7, xmm5
+	movss	xmm3, dword ptr [r14 - 436]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [r14 - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [r14 - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	pand	xmm6, xmm15
+	insertps	xmm3, dword ptr [r14 - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm7, xmm2
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm2
+	movss	xmm5, dword ptr [r14 - 432]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [r14 - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [r14 - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [r14 - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	por	xmm7, xmm6
+	movss	xmm6, dword ptr [r14 - 428]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [r14 - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [r14 - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [r14 - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpneqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm7
+	movss	xmm7, dword ptr [r14 - 424]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [r14 - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [r14 - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [r14 - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpneqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 3
+	pand	xmm5, xmm10
+	cmpneqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 4
+	pand	xmm6, xmm11
+	por	xmm6, xmm5
+	movss	xmm2, dword ptr [r14 - 420]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [r14 - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [r14 - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [r14 - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm6, xmm3
+	movss	xmm5, dword ptr [r14 - 416]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [r14 - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [r14 - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [r14 - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 5
+	pand	xmm7, xmm12
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm7
+	movss	xmm7, dword ptr [r14 - 412]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [r14 - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [r14 - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [r14 - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	cmpneqps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	psllw	xmm5, 7
+	pand	xmm5, xmm14
+	por	xmm5, xmm2
+	movss	xmm2, dword ptr [r14 - 408]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [r14 - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [r14 - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	pand	xmm7, xmm15
+	insertps	xmm2, dword ptr [r14 - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm5, xmm6
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm6, xmm2
+	pand	xmm6, xmm15
+	psubb	xmm6, xmm2
+	movss	xmm3, dword ptr [r14 - 404]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [r14 - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [r14 - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [r14 - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	por	xmm6, xmm7
+	movss	xmm2, dword ptr [r14 - 400]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [r14 - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [r14 - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [r14 - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	cmpneqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm6
+	movss	xmm6, dword ptr [r14 - 396]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [r14 - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [r14 - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [r14 - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 3
+	pand	xmm2, xmm10
+	cmpneqps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 4
+	pand	xmm6, xmm11
+	por	xmm6, xmm2
+	movss	xmm7, dword ptr [r14 - 392]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [r14 - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [r14 - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [r14 - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm6, xmm3
+	movss	xmm2, dword ptr [r14 - 388]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [r14 - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [r14 - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [r14 - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
+	cmpneqps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 5
+	pand	xmm7, xmm12
+	cmpneqps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm7
+	movss	xmm3, dword ptr [r14 - 384]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [r14 - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [r14 - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [r14], 48       # xmm3 = xmm3[0,1,2],mem[0]
+	cmpneqps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	psllw	xmm3, 7
+	pand	xmm3, xmm14
+	por	xmm3, xmm2
+	por	xmm3, xmm6
+	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
+	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
+	pshufb	xmm4, xmm9
+	movdqu	xmmword ptr [rax + 4*rcx], xmm4
+	add	rcx, 4
+	add	r14, 512
+	cmp	r8, rcx
+	jne	.LBB5_181
+# %bb.182:
+	cmp	r10, r8
+	jne	.LBB5_183
+	jmp	.LBB5_186
+.Lfunc_end5:
+	.size	comparison_not_equal_scalar_arr_sse4, .Lfunc_end5-comparison_not_equal_scalar_arr_sse4
+                                        # -- End function
+	.globl	comparison_greater_arr_arr_sse4 # -- Begin function comparison_greater_arr_arr_sse4
+	.p2align	4, 0x90
+	.type	comparison_greater_arr_arr_sse4,@function
+comparison_greater_arr_arr_sse4:        # @comparison_greater_arr_arr_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -8
+	sub	rsp, 72
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r11, r8
+	mov	r14, rcx
+	cmp	edi, 6
+	jg	.LBB6_29
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB6_2
+# %bb.15:
+	cmp	edi, 4
+	je	.LBB6_68
+# %bb.16:
+	cmp	edi, 5
+	je	.LBB6_79
+# %bb.17:
+	cmp	edi, 6
+	jne	.LBB6_123
+# %bb.18:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_22
+# %bb.19:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_20:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx]
+	add	rdx, 4
+	cmp	ecx, dword ptr [rsi]
+	lea	rsi, [rsi + 4]
+	sbb	r10d, r10d
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_20
+# %bb.21:
+	add	r14, 1
+.LBB6_22:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_26
+# %bb.23:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_24:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	mov	eax, dword ptr [rsi + 8]
+	seta	r13b
+	cmp	eax, dword ptr [rdx + 8]
+	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	mov	eax, dword ptr [rsi + 16]
+	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 16]
+	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	mov	eax, dword ptr [rsi + 24]
+	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 24]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	mov	eax, dword ptr [rsi + 32]
+	seta	r15b
+	cmp	eax, dword ptr [rdx + 32]
+	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	mov	eax, dword ptr [rsi + 40]
+	seta	r8b
+	cmp	eax, dword ptr [rdx + 40]
+	seta	bl
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	mov	eax, dword ptr [rsi + 48]
+	seta	r9b
+	cmp	eax, dword ptr [rdx + 48]
+	seta	r12b
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	mov	eax, dword ptr [rsi + 56]
+	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 56]
+	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	mov	r11d, dword ptr [rsi + 64]
+	seta	r10b
+	mov	ecx, dword ptr [rsi + 68]
+	mov	eax, dword ptr [rsi + 72]
+	cmp	r11d, dword ptr [rdx + 64]
+	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	seta	r14b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 76]
+	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 76]
+	mov	eax, dword ptr [rsi + 80]
+	mov	ecx, dword ptr [rsi + 84]
+	seta	r11b
+	cmp	eax, dword ptr [rdx + 80]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 92]
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	seta	dil
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 104]
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 116]
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	seta	al
+	add	r13b, r13b
+	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, r13b
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, cl
+	shl	bl, 2
+	or	bl, r8b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r8d, ecx
+	shl	r9b, 3
+	or	r9b, bl
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	shl	r12b, 4
+	or	r12b, r9b
+	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, r12b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	r10b, 7
+	or	r10b, r8b
+	or	r15b, cl
+	or	r10b, bl
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	shl	r11b, 3
+	or	r11b, cl
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r11b
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	mov	byte ptr [r14], r15b
+	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	dil, 7
+	or	dil, r8b
+	mov	byte ptr [r14 + 1], r10b
+	or	dil, cl
+	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, cl
+	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r14 + 2], dil
+	mov	byte ptr [r14 + 3], al
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB6_24
+# %bb.25:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB6_26:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.27:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_28:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rdx + 4*rcx]
+	cmp	edi, dword ptr [rsi + 4*rcx]
+	sbb	edi, edi
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_28
+	jmp	.LBB6_123
+.LBB6_29:
+	cmp	edi, 8
+	jle	.LBB6_30
+# %bb.43:
+	cmp	edi, 9
+	je	.LBB6_101
+# %bb.44:
+	cmp	edi, 11
+	je	.LBB6_112
+# %bb.45:
+	cmp	edi, 12
+	jne	.LBB6_123
+# %bb.46:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_50
+# %bb.47:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_48:                               # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	add	rsi, 8
+	ucomisd	xmm0, qword ptr [rdx]
+	seta	r10b
+	add	rdx, 8
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_48
+# %bb.49:
+	add	r14, 1
+.LBB6_50:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_54
+# %bb.51:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_52:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 8]       # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 8]
+	seta	cl
+	movsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 16]
+	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 24]
+	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 32]
+	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 40]
+	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 48]
+	seta	al
+	movsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 56]
+	seta	r15b
+	movsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 64]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 72]
+	seta	dil
+	movsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 80]
+	seta	r10b
+	movsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 88]
+	seta	r11b
+	movsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 96]
+	seta	r14b
+	movsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 104]
+	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 112]
+	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 120]
+	seta	bl
+	movsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 128]
+	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 136]
+	seta	r12b
+	movsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 144]
+	seta	r13b
+	movsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 152]
+	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 160]
+	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 168]
+	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 176]
+	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 184]
+	seta	r9b
+	movsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 192]
+	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 200]
+	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 208]
+	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 216]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 224]
+	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 232]
+	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 240]
+	movsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
+	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	ucomisd	xmm0, qword ptr [rdx + 248]
+	seta	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB6_52
+# %bb.53:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB6_54:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.55:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_56:                               # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 8*rcx]
+	lea	r8, [rcx + 1]
+	seta	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_56
+	jmp	.LBB6_123
+.LBB6_2:
+	cmp	edi, 2
+	je	.LBB6_57
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB6_123
+# %bb.4:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_8
+# %bb.5:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_6:                                # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setg	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_6
+# %bb.7:
+	add	r14, 1
+.LBB6_8:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_12
+# %bb.9:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_10:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	setg	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	setg	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	setg	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	setg	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	setg	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	setg	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	setg	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	setg	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	setg	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	setg	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	setg	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB6_10
+# %bb.11:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB6_12:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.13:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_14:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rsi + rcx]
+	cmp	bl, byte ptr [rdx + rcx]
+	setg	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_14
+	jmp	.LBB6_123
+.LBB6_30:
+	cmp	edi, 7
+	je	.LBB6_90
+# %bb.31:
+	cmp	edi, 8
+	jne	.LBB6_123
+# %bb.32:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_36
+# %bb.33:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_34:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx]
+	add	rdx, 8
+	cmp	rcx, qword ptr [rsi]
+	lea	rsi, [rsi + 8]
+	sbb	r10d, r10d
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_34
+# %bb.35:
+	add	r14, 1
+.LBB6_36:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_40
+# %bb.37:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_38:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	mov	rax, qword ptr [rsi + 16]
+	seta	r13b
+	cmp	rax, qword ptr [rdx + 16]
+	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	mov	rax, qword ptr [rsi + 32]
+	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 32]
+	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	mov	rax, qword ptr [rsi + 48]
+	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 48]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	mov	rax, qword ptr [rsi + 64]
+	seta	r15b
+	cmp	rax, qword ptr [rdx + 64]
+	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	mov	rax, qword ptr [rsi + 80]
+	seta	r8b
+	cmp	rax, qword ptr [rdx + 80]
+	seta	bl
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	mov	rax, qword ptr [rsi + 96]
+	seta	r9b
+	cmp	rax, qword ptr [rdx + 96]
+	seta	r12b
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	mov	rax, qword ptr [rsi + 112]
+	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 112]
+	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	mov	r11, qword ptr [rsi + 128]
+	seta	r10b
+	mov	rcx, qword ptr [rsi + 136]
+	mov	rax, qword ptr [rsi + 144]
+	cmp	r11, qword ptr [rdx + 128]
+	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	seta	r14b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 152]
+	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 152]
+	mov	rax, qword ptr [rsi + 160]
+	mov	rcx, qword ptr [rsi + 168]
+	seta	r11b
+	cmp	rax, qword ptr [rdx + 160]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 184]
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	seta	dil
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 208]
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 232]
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	seta	al
+	add	r13b, r13b
+	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, r13b
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, cl
+	shl	bl, 2
+	or	bl, r8b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r8d, ecx
+	shl	r9b, 3
+	or	r9b, bl
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	shl	r12b, 4
+	or	r12b, r9b
+	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, r12b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	r10b, 7
+	or	r10b, r8b
+	or	r15b, cl
+	or	r10b, bl
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	shl	r11b, 3
+	or	r11b, cl
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r11b
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	mov	byte ptr [r14], r15b
+	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	dil, 7
+	or	dil, r8b
+	mov	byte ptr [r14 + 1], r10b
+	or	dil, cl
+	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, cl
+	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r14 + 2], dil
+	mov	byte ptr [r14 + 3], al
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB6_38
+# %bb.39:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB6_40:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.41:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_42:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rdx + 8*rcx]
+	cmp	rdi, qword ptr [rsi + 8*rcx]
+	sbb	edi, edi
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_42
+	jmp	.LBB6_123
+.LBB6_68:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_72
+# %bb.69:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_70:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx]
+	add	rdx, 2
+	cmp	cx, word ptr [rsi]
+	lea	rsi, [rsi + 2]
+	sbb	r10d, r10d
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_70
+# %bb.71:
+	add	r14, 1
+.LBB6_72:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_76
+# %bb.73:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_74:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	movzx	eax, word ptr [rsi + 4]
+	seta	r13b
+	cmp	ax, word ptr [rdx + 4]
+	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	movzx	eax, word ptr [rsi + 8]
+	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 8]
+	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	movzx	eax, word ptr [rsi + 12]
+	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 12]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	movzx	eax, word ptr [rsi + 16]
+	seta	r15b
+	cmp	ax, word ptr [rdx + 16]
+	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	movzx	eax, word ptr [rsi + 20]
+	seta	r8b
+	cmp	ax, word ptr [rdx + 20]
+	seta	bl
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	movzx	eax, word ptr [rsi + 24]
+	seta	r9b
+	cmp	ax, word ptr [rdx + 24]
+	seta	r12b
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	movzx	eax, word ptr [rsi + 28]
+	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 28]
+	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	movzx	r11d, word ptr [rsi + 32]
+	seta	r10b
+	movzx	ecx, word ptr [rsi + 34]
+	movzx	eax, word ptr [rsi + 36]
+	cmp	r11w, word ptr [rdx + 32]
+	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	seta	r14b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 38]
+	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 38]
+	movzx	eax, word ptr [rsi + 40]
+	movzx	ecx, word ptr [rsi + 42]
+	seta	r11b
+	cmp	ax, word ptr [rdx + 40]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 46]
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	seta	dil
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 52]
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 58]
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	seta	al
+	add	r13b, r13b
+	add	r13b, byte ptr [rsp + 40]       # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, r13b
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 21]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, cl
+	shl	bl, 2
+	or	bl, r8b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r8d, ecx
+	shl	r9b, 3
+	or	r9b, bl
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	shl	r12b, 4
+	or	r12b, r9b
+	movzx	ebx, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, r12b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	r10b, 7
+	or	r10b, r8b
+	or	r15b, cl
+	or	r10b, bl
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	shl	r11b, 3
+	or	r11b, cl
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r11b
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	mov	byte ptr [r14], r15b
+	movzx	r8d, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	dil, 7
+	or	dil, r8b
+	mov	byte ptr [r14 + 1], r10b
+	or	dil, cl
+	movzx	ecx, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	movzx	ebx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, cl
+	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r14 + 2], dil
+	mov	byte ptr [r14 + 3], al
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB6_74
+# %bb.75:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB6_76:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.77:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_78:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rdx + 2*rcx]
+	cmp	di, word ptr [rsi + 2*rcx]
+	sbb	edi, edi
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_78
+	jmp	.LBB6_123
+.LBB6_79:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_83
+# %bb.80:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_81:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setg	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_81
+# %bb.82:
+	add	r14, 1
+.LBB6_83:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_87
+# %bb.84:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_85:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	setg	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	setg	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	setg	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	setg	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	setg	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	setg	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	setg	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	setg	r12b
+	cmp	ax, word ptr [rdx + 40]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	setg	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	setg	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB6_85
+# %bb.86:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB6_87:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.88:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_89:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rsi + 2*rcx]
+	cmp	di, word ptr [rdx + 2*rcx]
+	setg	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_89
+	jmp	.LBB6_123
+.LBB6_101:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_105
+# %bb.102:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_103:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setg	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_103
+# %bb.104:
+	add	r14, 1
+.LBB6_105:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_109
+# %bb.106:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_107:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	setg	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	setg	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	setg	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	setg	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	setg	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	setg	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	setg	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	setg	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	setg	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	setg	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB6_107
+# %bb.108:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB6_109:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.110:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_111:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rsi + 8*rcx]
+	cmp	rdi, qword ptr [rdx + 8*rcx]
+	setg	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_111
+	jmp	.LBB6_123
+.LBB6_112:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_116
+# %bb.113:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_114:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	add	rsi, 4
+	ucomiss	xmm0, dword ptr [rdx]
+	seta	r10b
+	add	rdx, 4
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_114
+# %bb.115:
+	add	r14, 1
+.LBB6_116:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_120
+# %bb.117:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_118:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 4]       # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 4]
+	seta	cl
+	movss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 8]
+	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 12]
+	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 16]
+	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 20]
+	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 24]
+	seta	al
+	movss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 28]
+	seta	r15b
+	movss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 32]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 36]
+	seta	dil
+	movss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 40]
+	seta	r10b
+	movss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 44]
+	seta	r11b
+	movss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 48]
+	seta	r14b
+	movss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 52]
+	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 56]
+	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 60]
+	seta	bl
+	movss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 64]
+	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 68]
+	seta	r12b
+	movss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 72]
+	seta	r13b
+	movss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 76]
+	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 80]
+	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 84]
+	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 88]
+	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 92]
+	seta	r9b
+	movss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 96]
+	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 100]
+	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 104]
+	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 108]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 112]
+	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 116]
+	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 120]
+	movss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
+	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	ucomiss	xmm0, dword ptr [rdx + 124]
+	seta	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	al, 6
+	shl	r15b, 7
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB6_118
+# %bb.119:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB6_120:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.121:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_122:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 4*rcx]
+	lea	r8, [rcx + 1]
+	seta	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_122
+	jmp	.LBB6_123
+.LBB6_57:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_61
+# %bb.58:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_59:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx]
+	add	rdx, 1
+	cmp	cl, byte ptr [rsi]
+	lea	rsi, [rsi + 1]
+	sbb	r10d, r10d
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_59
+# %bb.60:
+	add	r14, 1
+.LBB6_61:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_65
+# %bb.62:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_63:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	seta	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	seta	r13b
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	movzx	eax, byte ptr [rsi + 3]
+	seta	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 3]
+	seta	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	movzx	eax, byte ptr [rsi + 5]
+	seta	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 5]
+	seta	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	movzx	eax, byte ptr [rsi + 7]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 7]
+	seta	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	movzx	eax, byte ptr [rsi + 9]
+	seta	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 9]
+	seta	cl
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	movzx	eax, byte ptr [rsi + 11]
+	seta	r9b
+	cmp	al, byte ptr [rdx + 11]
+	seta	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	movzx	eax, byte ptr [rsi + 13]
+	seta	r10b
+	cmp	al, byte ptr [rdx + 13]
+	seta	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	movzx	eax, byte ptr [rsi + 15]
+	seta	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 15]
+	seta	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	movzx	eax, byte ptr [rsi + 17]
+	seta	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 17]
+	seta	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	movzx	eax, byte ptr [rsi + 19]
+	seta	r14b
+	cmp	al, byte ptr [rdx + 19]
+	seta	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	movzx	eax, byte ptr [rsi + 21]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 21]
+	seta	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	movzx	eax, byte ptr [rsi + 23]
+	seta	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 23]
+	seta	r8b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	movzx	eax, byte ptr [rsi + 25]
+	seta	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 25]
+	seta	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	movzx	eax, byte ptr [rsi + 27]
+	seta	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 27]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	movzx	eax, byte ptr [rsi + 29]
+	seta	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	al, byte ptr [rdx + 29]
+	seta	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	seta	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	seta	dil
+	add	r13b, r13b
+	add	r13b, byte ptr [rsp + 4]        # 1-byte Folded Reload
+	mov	eax, r13d
+	movzx	r13d, byte ptr [rsp + 40]       # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 20]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 7]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 12]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r12b
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 18]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB6_63
+# %bb.64:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB6_65:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.66:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_67:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rdx + rcx]
+	cmp	bl, byte ptr [rsi + rcx]
+	sbb	edi, edi
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_67
+	jmp	.LBB6_123
+.LBB6_90:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB6_94
+# %bb.91:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB6_92:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setg	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB6_92
+# %bb.93:
+	add	r14, 1
+.LBB6_94:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB6_98
+# %bb.95:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB6_96:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	setg	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	setg	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	setg	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	setg	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	setg	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	setg	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	setg	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	setg	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	setg	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	setg	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	setg	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	setg	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	setg	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	setg	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	setg	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	setg	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	setg	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	setg	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	setg	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	setg	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	setg	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	setg	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	setg	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	setg	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	setg	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	setg	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	setg	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	setg	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB6_96
+# %bb.97:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB6_98:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB6_123
+# %bb.99:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB6_100:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rsi + 4*rcx]
+	cmp	edi, dword ptr [rdx + 4*rcx]
+	setg	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB6_100
+.LBB6_123:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.Lfunc_end6:
+	.size	comparison_greater_arr_arr_sse4, .Lfunc_end6-comparison_greater_arr_arr_sse4
+                                        # -- End function
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4                               # -- Begin function comparison_greater_arr_scalar_sse4
+.LCPI7_0:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI7_1:
+	.zero	16,252
+.LCPI7_2:
+	.zero	16,248
+.LCPI7_3:
+	.zero	16,240
+.LCPI7_4:
+	.zero	16,224
+.LCPI7_5:
+	.zero	16,192
+.LCPI7_6:
+	.zero	16,128
+.LCPI7_7:
+	.byte	0                               # 0x0
+	.byte	8                               # 0x8
+	.byte	1                               # 0x1
+	.byte	9                               # 0x9
+	.byte	2                               # 0x2
+	.byte	10                              # 0xa
+	.byte	3                               # 0x3
+	.byte	11                              # 0xb
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+.LCPI7_8:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI7_9:
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI7_10:
+	.zero	16,1
+.LCPI7_11:
+	.zero	16,4
+.LCPI7_12:
+	.zero	16,8
+.LCPI7_13:
+	.zero	16,16
+.LCPI7_14:
+	.zero	16,32
+.LCPI7_15:
+	.zero	16,64
+.LCPI7_16:
+	.zero	16,255
+	.text
+	.globl	comparison_greater_arr_scalar_sse4
+	.p2align	4, 0x90
+	.type	comparison_greater_arr_scalar_sse4,@function
+comparison_greater_arr_scalar_sse4:     # @comparison_greater_arr_scalar_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -16
+	sub	rsp, 336
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r11, r8
+	mov	r12, rcx
+	cmp	edi, 6
+	jg	.LBB7_26
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB7_2
+# %bb.10:
+	cmp	edi, 4
+	je	.LBB7_98
+# %bb.11:
+	cmp	edi, 5
+	je	.LBB7_113
+# %bb.12:
+	cmp	edi, 6
+	jne	.LBB7_200
+# %bb.13:
+	mov	r13d, dword ptr [rdx]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_17
+# %bb.14:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_15:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rsi]
+	lea	rsi, [rsi + 4]
+	sbb	edx, edx
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	mov	r9, r12
+	movzx	r8d, byte ptr [r12 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r12 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_15
+# %bb.16:
+	add	r12, 1
+.LBB7_17:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB7_21
+# %bb.18:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_19:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
+	cmp	dword ptr [rsi], r13d
+	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	seta	dil
+	cmp	dword ptr [rsi + 8], r13d
+	seta	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	seta	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	seta	al
+	cmp	dword ptr [rsi + 28], r13d
+	seta	bl
+	cmp	dword ptr [rsi + 32], r13d
+	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	seta	dl
+	cmp	dword ptr [rsi + 40], r13d
+	seta	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	seta	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	seta	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	seta	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	seta	cl
+	cmp	dword ptr [rsi + 64], r13d
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	seta	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	seta	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	seta	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r12], bl
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r12 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r12 + 2], r15b
+	mov	byte ptr [r12 + 3], r8b
+	add	rsi, 128
+	add	r12, 4
+	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
+	jne	.LBB7_19
+# %bb.20:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
+.LBB7_21:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB7_200
+# %bb.22:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB7_135
+# %bb.23:
+	xor	r11d, r11d
+	jmp	.LBB7_24
+.LBB7_26:
+	cmp	edi, 8
+	jle	.LBB7_27
+# %bb.42:
+	cmp	edi, 9
+	je	.LBB7_155
+# %bb.43:
+	cmp	edi, 11
+	je	.LBB7_170
+# %bb.44:
+	cmp	edi, 12
+	jne	.LBB7_200
+# %bb.45:
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB7_49
+# %bb.46:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_47:                               # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rsi]
+	lea	rsi, [rsi + 8]
+	sbb	edx, edx
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	mov	r14, r12
+	movzx	r9d, byte ptr [r12 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r12 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_47
+# %bb.48:
+	add	r12, 1
+.LBB7_49:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB7_53
+# %bb.50:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_51:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
+	ucomisd	xmm0, qword ptr [rsi]
+	setb	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 8]
+	setb	r9b
+	ucomisd	xmm0, qword ptr [rsi + 16]
+	setb	r14b
+	ucomisd	xmm0, qword ptr [rsi + 24]
+	setb	r13b
+	ucomisd	xmm0, qword ptr [rsi + 32]
+	setb	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 40]
+	setb	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 48]
+	setb	al
+	ucomisd	xmm0, qword ptr [rsi + 56]
+	setb	bl
+	ucomisd	xmm0, qword ptr [rsi + 64]
+	setb	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 72]
+	setb	dl
+	ucomisd	xmm0, qword ptr [rsi + 80]
+	setb	dil
+	ucomisd	xmm0, qword ptr [rsi + 88]
+	setb	r10b
+	ucomisd	xmm0, qword ptr [rsi + 96]
+	setb	r11b
+	ucomisd	xmm0, qword ptr [rsi + 104]
+	setb	r12b
+	ucomisd	xmm0, qword ptr [rsi + 112]
+	setb	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 120]
+	setb	cl
+	ucomisd	xmm0, qword ptr [rsi + 128]
+	setb	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 136]
+	setb	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 144]
+	setb	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 152]
+	setb	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 160]
+	setb	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 168]
+	setb	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 176]
+	setb	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 184]
+	setb	r15b
+	ucomisd	xmm0, qword ptr [rsi + 192]
+	setb	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 200]
+	setb	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 208]
+	setb	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 216]
+	setb	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 224]
+	setb	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 232]
+	setb	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 240]
+	setb	byte ptr [rsp]                  # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 248]
+	setb	r8b
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r9b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r9d, edx
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [rax], bl
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rax + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [rax + 2], r15b
+	mov	byte ptr [rax + 3], r8b
+	add	rsi, 256
+	add	rax, 4
+	mov	r12, rax
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB7_51
+# %bb.52:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+.LBB7_53:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB7_200
+# %bb.54:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB7_193
+# %bb.55:
+	xor	r11d, r11d
+	jmp	.LBB7_195
+.LBB7_2:
+	cmp	edi, 2
+	je	.LBB7_56
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB7_200
+# %bb.4:
+	mov	r14b, byte ptr [rdx]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_8
+# %bb.5:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_6:                                # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r14b
+	lea	rsi, [rsi + 1]
+	setg	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	mov	r15, r12
+	movzx	r9d, byte ptr [r12 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r12 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_6
+# %bb.7:
+	add	r12, 1
+.LBB7_8:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB7_9
+# %bb.80:
+	cmp	r10, 16
+	mov	byte ptr [rsp], r14b            # 1-byte Spill
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 288], r10      # 8-byte Spill
+	jb	.LBB7_81
+# %bb.82:
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r12, rax
+	jae	.LBB7_84
+# %bb.83:
+	lea	rax, [r12 + 4*r10]
+	cmp	rsi, rax
+	jae	.LBB7_84
+.LBB7_81:
+	xor	eax, eax
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 88], r12       # 8-byte Spill
+.LBB7_87:
+	sub	r10, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_88:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, rsi
+	cmp	byte ptr [rsi], r14b
+	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	byte ptr [rsi + 1], r14b
+	setg	sil
+	cmp	byte ptr [rcx + 2], r14b
+	setg	r15b
+	cmp	byte ptr [rcx + 3], r14b
+	setg	r12b
+	cmp	byte ptr [rcx + 4], r14b
+	setg	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 5], r14b
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 6], r14b
+	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 7], r14b
+	setg	r9b
+	cmp	byte ptr [rcx + 8], r14b
+	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 9], r14b
+	setg	dl
+	cmp	byte ptr [rcx + 10], r14b
+	setg	dil
+	cmp	byte ptr [rcx + 11], r14b
+	setg	r10b
+	cmp	byte ptr [rcx + 12], r14b
+	setg	r14b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 13], al
+	setg	r13b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 14], al
+	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 15], al
+	setg	r8b
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 16], bl
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 17], bl
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 18], bl
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 19], bl
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 20], bl
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 21], bl
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 22], bl
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 23], bl
+	setg	r11b
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 24], bl
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 25], bl
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 26], bl
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 27], bl
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 28], bl
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 29], bl
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 30], bl
+	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 31], bl
+	setg	bl
+	add	sil, sil
+	add	sil, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r9b, 7
+	or	r9b, al
+	shl	r15b, 2
+	or	r15b, sil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	shl	r12b, 3
+	or	r12b, r15b
+	shl	dil, 2
+	or	dil, dl
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, al
+	shl	r14b, 4
+	or	r14b, r10b
+	shl	r13b, 5
+	or	r13b, r14b
+	movzx	r14d, byte ptr [rsp]            # 1-byte Folded Reload
+	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r8b, 7
+	or	r8b, sil
+	or	r9b, dl
+	or	r8b, r13b
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 120]        # 1-byte Folded Reload
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	esi, edx
+	mov	rdx, qword ptr [rsp + 88]       # 8-byte Reload
+	mov	byte ptr [rdx], r9b
+	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r11b, 7
+	or	r11b, dil
+	mov	byte ptr [rdx + 1], r8b
+	or	r11b, sil
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	movzx	esi, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	bl, 7
+	or	bl, sil
+	or	bl, al
+	mov	byte ptr [rdx + 2], r11b
+	mov	byte ptr [rdx + 3], bl
+	lea	rsi, [rcx + 32]
+	add	rdx, 4
+	mov	qword ptr [rsp + 88], rdx       # 8-byte Spill
+	add	qword ptr [rsp + 240], -1       # 8-byte Folded Spill
+	jne	.LBB7_88
+# %bb.89:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
+	jmp	.LBB7_90
+.LBB7_27:
+	cmp	edi, 7
+	je	.LBB7_137
+# %bb.28:
+	cmp	edi, 8
+	jne	.LBB7_200
+# %bb.29:
+	mov	r13, qword ptr [rdx]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_33
+# %bb.30:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_31:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rsi]
+	lea	rsi, [rsi + 8]
+	sbb	edx, edx
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	mov	r9, r12
+	movzx	r8d, byte ptr [r12 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r12 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_31
+# %bb.32:
+	add	r12, 1
+.LBB7_33:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB7_37
+# %bb.34:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_35:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
+	cmp	qword ptr [rsi], r13
+	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	seta	dil
+	cmp	qword ptr [rsi + 16], r13
+	seta	r14b
+	cmp	qword ptr [rsi + 24], r13
+	seta	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	seta	al
+	cmp	qword ptr [rsi + 56], r13
+	seta	bl
+	cmp	qword ptr [rsi + 64], r13
+	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	seta	dl
+	cmp	qword ptr [rsi + 80], r13
+	seta	r9b
+	cmp	qword ptr [rsi + 88], r13
+	seta	r10b
+	cmp	qword ptr [rsi + 96], r13
+	seta	r11b
+	cmp	qword ptr [rsi + 104], r13
+	seta	r12b
+	cmp	qword ptr [rsi + 112], r13
+	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	seta	cl
+	cmp	qword ptr [rsi + 128], r13
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	seta	r15b
+	cmp	qword ptr [rsi + 192], r13
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	seta	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	seta	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r12], bl
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r12 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r12 + 2], r15b
+	mov	byte ptr [r12 + 3], r8b
+	add	rsi, 256
+	add	r12, 4
+	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
+	jne	.LBB7_35
+# %bb.36:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
+.LBB7_37:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB7_200
+# %bb.38:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB7_153
+# %bb.39:
+	xor	r11d, r11d
+	jmp	.LBB7_40
+.LBB7_56:
+	mov	al, byte ptr [rdx]
+	mov	byte ptr [rsp + 40], al         # 1-byte Spill
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_60
+# %bb.57:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_58:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	cmp	cl, byte ptr [rsi]
+	lea	rsi, [rsi + 1]
+	sbb	edx, edx
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	mov	r14, r12
+	movzx	r9d, byte ptr [r12 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r12 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_58
+# %bb.59:
+	add	r12, 1
+.LBB7_60:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB7_61
+# %bb.62:
+	cmp	r10, 16
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 264], r10      # 8-byte Spill
+	jb	.LBB7_63
+# %bb.64:
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r12, rax
+	jae	.LBB7_66
+# %bb.65:
+	lea	rax, [r12 + 4*r10]
+	cmp	rsi, rax
+	jae	.LBB7_66
+.LBB7_63:
+	xor	eax, eax
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	mov	r14, rsi
+	mov	qword ptr [rsp + 72], r12       # 8-byte Spill
+.LBB7_69:
+	sub	r10, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_70:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, r14
+	movzx	r14d, byte ptr [rsp + 40]       # 1-byte Folded Reload
+	cmp	byte ptr [rcx], r14b
+	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 1], r14b
+	seta	sil
+	cmp	byte ptr [rcx + 2], r14b
+	seta	r11b
+	cmp	byte ptr [rcx + 3], r14b
+	seta	r15b
+	cmp	byte ptr [rcx + 4], r14b
+	seta	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 5], r14b
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 6], r14b
+	seta	al
+	cmp	byte ptr [rcx + 7], r14b
+	seta	r8b
+	cmp	byte ptr [rcx + 8], r14b
+	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 9], r14b
+	seta	dl
+	cmp	byte ptr [rcx + 10], r14b
+	seta	dil
+	cmp	byte ptr [rcx + 11], r14b
+	seta	r9b
+	cmp	byte ptr [rcx + 12], r14b
+	seta	r10b
+	cmp	byte ptr [rcx + 13], r14b
+	seta	r12b
+	cmp	byte ptr [rcx + 14], r14b
+	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 15], r14b
+	seta	bl
+	cmp	byte ptr [rcx + 16], r14b
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 17], r14b
+	seta	r13b
+	cmp	byte ptr [rcx + 18], r14b
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 19], r14b
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 20], r14b
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 21], r14b
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 22], r14b
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 23], r14b
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 24], r14b
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 25], r14b
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 26], r14b
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 27], r14b
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 28], r14b
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 29], r14b
+	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 30], r14b
+	seta	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	byte ptr [rcx + 31], r14b
+	seta	r14b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r8b, 7
+	or	r8b, al
+	shl	r11b, 2
+	or	r11b, sil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	shl	r15b, 3
+	or	r15b, r11b
+	shl	dil, 2
+	or	dil, dl
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	edx, eax
+	shl	r9b, 3
+	or	r9b, dil
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	dl, 6
+	shl	bl, 7
+	or	bl, dl
+	or	r8b, al
+	or	bl, r12b
+	add	r13b, r13b
+	add	r13b, byte ptr [rsp + 104]      # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, r13b
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	mov	esi, eax
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	mov	byte ptr [rax], r8b
+	movzx	edi, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dil, 6
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 7
+	or	dl, dil
+	mov	byte ptr [rax + 1], bl
+	or	dl, sil
+	movzx	ebx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	bl, bl
+	add	bl, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	movzx	esi, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r14b, 7
+	or	r14b, sil
+	or	r14b, bl
+	mov	byte ptr [rax + 2], dl
+	mov	byte ptr [rax + 3], r14b
+	lea	r14, [rcx + 32]
+	add	rax, 4
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
+	jne	.LBB7_70
+# %bb.71:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
+	jmp	.LBB7_72
+.LBB7_137:
+	mov	r13d, dword ptr [rdx]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_141
+# %bb.138:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_139:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	setg	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	mov	r9, r12
+	movzx	r8d, byte ptr [r12 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r12 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_139
+# %bb.140:
+	add	r12, 1
+.LBB7_141:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB7_145
+# %bb.142:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_143:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
+	cmp	dword ptr [rsi], r13d
+	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	setg	dil
+	cmp	dword ptr [rsi + 8], r13d
+	setg	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	setg	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	setg	al
+	cmp	dword ptr [rsi + 28], r13d
+	setg	bl
+	cmp	dword ptr [rsi + 32], r13d
+	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	setg	dl
+	cmp	dword ptr [rsi + 40], r13d
+	setg	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	setg	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	setg	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	setg	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	setg	cl
+	cmp	dword ptr [rsi + 64], r13d
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	setg	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	setg	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	setg	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r12], bl
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r12 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r12 + 2], r15b
+	mov	byte ptr [r12 + 3], r8b
+	add	rsi, 128
+	add	r12, 4
+	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
+	jne	.LBB7_143
+# %bb.144:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
+.LBB7_145:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB7_200
+# %bb.146:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB7_151
+# %bb.147:
+	xor	r11d, r11d
+	jmp	.LBB7_148
+.LBB7_98:
+	movzx	r13d, word ptr [rdx]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_102
+# %bb.99:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_100:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rsi]
+	lea	rsi, [rsi + 2]
+	sbb	r9d, r9d
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	mov	rdx, r12
+	movzx	r8d, byte ptr [r12 + rbx]
+	xor	r9b, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r9b
+	xor	dil, r8b
+	mov	byte ptr [r12 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_100
+# %bb.101:
+	add	r12, 1
+.LBB7_102:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB7_106
+# %bb.103:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_104:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
+	cmp	word ptr [rsi], r13w
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 2], r13w
+	seta	dil
+	cmp	word ptr [rsi + 4], r13w
+	seta	r14b
+	cmp	word ptr [rsi + 6], r13w
+	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 8], r13w
+	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 10], r13w
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 12], r13w
+	seta	al
+	cmp	word ptr [rsi + 14], r13w
+	seta	bl
+	cmp	word ptr [rsi + 16], r13w
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 18], r13w
+	seta	dl
+	cmp	word ptr [rsi + 20], r13w
+	seta	r9b
+	cmp	word ptr [rsi + 22], r13w
+	seta	r10b
+	cmp	word ptr [rsi + 24], r13w
+	seta	r11b
+	cmp	word ptr [rsi + 26], r13w
+	seta	r12b
+	cmp	word ptr [rsi + 28], r13w
+	seta	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 30], r13w
+	seta	cl
+	cmp	word ptr [rsi + 32], r13w
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 34], r13w
+	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 36], r13w
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 38], r13w
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 40], r13w
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 42], r13w
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 44], r13w
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 46], r13w
+	seta	r15b
+	cmp	word ptr [rsi + 48], r13w
+	seta	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	word ptr [rsi + 50], r13w
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 52], r13w
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 54], r13w
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 56], r13w
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 58], r13w
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	word ptr [rsi + 60], r13w
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 62], r13w
+	seta	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 16]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r12], bl
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r12 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp]              # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r12 + 2], r15b
+	mov	byte ptr [r12 + 3], r8b
+	add	rsi, 64
+	add	r12, 4
+	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
+	jne	.LBB7_104
+# %bb.105:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
+.LBB7_106:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB7_200
+# %bb.107:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB7_111
+# %bb.108:
+	xor	r11d, r11d
+	jmp	.LBB7_109
+.LBB7_113:
+	movzx	eax, word ptr [rdx]
+	mov	dword ptr [rsp + 240], eax      # 4-byte Spill
+	lea	r14, [r11 + 31]
+	test	r11, r11
+	cmovns	r14, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_117
+# %bb.114:
+	movsxd	rax, r9d
+	mov	r10d, dword ptr [rsp + 240]     # 4-byte Reload
+	.p2align	4, 0x90
+.LBB7_115:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r10w
+	lea	rsi, [rsi + 2]
+	setg	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	mov	r15, r12
+	movzx	r9d, byte ptr [r12 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r12 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_115
+# %bb.116:
+	add	r12, 1
+.LBB7_117:
+	sar	r14, 5
+	cmp	r11, 32
+	jl	.LBB7_128
+# %bb.118:
+	cmp	r14, 8
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 272], r14      # 8-byte Spill
+	jb	.LBB7_119
+# %bb.120:
+	mov	rax, r14
+	shl	rax, 6
+	add	rax, rsi
+	cmp	r12, rax
+	jae	.LBB7_122
+# %bb.121:
+	lea	rax, [r12 + 4*r14]
+	cmp	rax, rsi
+	jbe	.LBB7_122
+.LBB7_119:
+	xor	eax, eax
+	mov	qword ptr [rsp + 24], rax       # 8-byte Spill
+.LBB7_125:
+	mov	qword ptr [rsp], r12            # 8-byte Spill
+	sub	r14, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	mov	qword ptr [rsp + 176], r14      # 8-byte Spill
+	mov	r13d, dword ptr [rsp + 240]     # 4-byte Reload
+	.p2align	4, 0x90
+.LBB7_126:                              # =>This Inner Loop Header: Depth=1
+	mov	r11, rsi
+	cmp	word ptr [rsi], r13w
+	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 2], r13w
+	setg	r8b
+	cmp	word ptr [rsi + 4], r13w
+	setg	r14b
+	cmp	word ptr [rsi + 6], r13w
+	setg	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 8], r13w
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 10], r13w
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 12], r13w
+	setg	al
+	cmp	word ptr [rsi + 14], r13w
+	setg	bl
+	cmp	word ptr [rsi + 16], r13w
+	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 18], r13w
+	setg	cl
+	cmp	word ptr [rsi + 20], r13w
+	setg	sil
+	cmp	word ptr [r11 + 22], r13w
+	setg	r9b
+	cmp	word ptr [r11 + 24], r13w
+	setg	r10b
+	cmp	word ptr [r11 + 26], r13w
+	setg	r12b
+	cmp	word ptr [r11 + 28], r13w
+	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 30], r13w
+	setg	dil
+	cmp	word ptr [r11 + 32], r13w
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 34], r13w
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 36], r13w
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 38], r13w
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 40], r13w
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 42], r13w
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 44], r13w
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 46], r13w
+	setg	r15b
+	cmp	word ptr [r11 + 48], r13w
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	word ptr [r11 + 50], r13w
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 52], r13w
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 54], r13w
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 56], r13w
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 58], r13w
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 60], r13w
+	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 62], r13w
+	setg	dl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	sil, 2
+	or	sil, cl
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r9b, 3
+	or	r9b, sil
+	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	dil, 7
+	or	dil, sil
+	or	bl, cl
+	or	dil, r12b
+	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, sil
+	mov	esi, ecx
+	mov	rcx, qword ptr [rsp]            # 8-byte Reload
+	mov	byte ptr [rcx], bl
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rcx + 1], dil
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rcx + 2], r15b
+	mov	byte ptr [rcx + 3], dl
+	lea	rsi, [r11 + 64]
+	add	rcx, 4
+	mov	qword ptr [rsp], rcx            # 8-byte Spill
+	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
+	jne	.LBB7_126
+# %bb.127:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	mov	r12, qword ptr [rsp]            # 8-byte Reload
+.LBB7_128:
+	shl	r14, 5
+	cmp	r14, r11
+	jge	.LBB7_200
+# %bb.129:
+	mov	r8, r11
+	sub	r8, r14
+	not	r14
+	add	r14, r11
+	jne	.LBB7_133
+# %bb.130:
+	xor	r14d, r14d
+	jmp	.LBB7_131
+.LBB7_155:
+	mov	r13, qword ptr [rdx]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB7_159
+# %bb.156:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_157:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	setg	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	mov	r9, r12
+	movzx	r8d, byte ptr [r12 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r12 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_157
+# %bb.158:
+	add	r12, 1
+.LBB7_159:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB7_163
+# %bb.160:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_161:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
+	cmp	qword ptr [rsi], r13
+	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	setg	dil
+	cmp	qword ptr [rsi + 16], r13
+	setg	r14b
+	cmp	qword ptr [rsi + 24], r13
+	setg	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	setg	al
+	cmp	qword ptr [rsi + 56], r13
+	setg	bl
+	cmp	qword ptr [rsi + 64], r13
+	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	setg	dl
+	cmp	qword ptr [rsi + 80], r13
+	setg	r9b
+	cmp	qword ptr [rsi + 88], r13
+	setg	r10b
+	cmp	qword ptr [rsi + 96], r13
+	setg	r11b
+	cmp	qword ptr [rsi + 104], r13
+	setg	r12b
+	cmp	qword ptr [rsi + 112], r13
+	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	setg	cl
+	cmp	qword ptr [rsi + 128], r13
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	setg	r15b
+	cmp	qword ptr [rsi + 192], r13
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	setg	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	setg	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r12, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r12], bl
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r12 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r12 + 2], r15b
+	mov	byte ptr [r12 + 3], r8b
+	add	rsi, 256
+	add	r12, 4
+	add	qword ptr [rsp + 176], -1       # 8-byte Folded Spill
+	jne	.LBB7_161
+# %bb.162:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 240]      # 8-byte Reload
+.LBB7_163:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB7_200
+# %bb.164:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB7_168
+# %bb.165:
+	xor	r11d, r11d
+	jmp	.LBB7_166
+.LBB7_170:
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movss	xmm11, dword ptr [rdx]          # xmm11 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB7_174
+# %bb.171:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB7_172:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm11, dword ptr [rsi]
+	lea	rsi, [rsi + 4]
+	sbb	edx, edx
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	mov	r14, r12
+	movzx	r9d, byte ptr [r12 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r12 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB7_172
+# %bb.173:
+	add	r12, 1
+.LBB7_174:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB7_175
+# %bb.176:
+	cmp	r10, 4
+	jb	.LBB7_177
+# %bb.178:
+	mov	rax, r10
+	shl	rax, 7
+	add	rax, rsi
+	cmp	r12, rax
+	jae	.LBB7_180
+# %bb.179:
+	lea	rax, [r12 + 4*r10]
+	cmp	rax, rsi
+	jbe	.LBB7_180
+.LBB7_177:
+	xor	r8d, r8d
+	mov	rbx, rsi
+	mov	r14, r12
+.LBB7_183:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
+	sub	r10, r8
+	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_184:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp], r14            # 8-byte Spill
+	ucomiss	xmm11, dword ptr [rbx]
+	setb	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 4]
+	setb	r8b
+	ucomiss	xmm11, dword ptr [rbx + 8]
+	setb	r14b
+	ucomiss	xmm11, dword ptr [rbx + 12]
+	setb	r13b
+	ucomiss	xmm11, dword ptr [rbx + 16]
+	setb	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 20]
+	setb	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 24]
+	setb	al
+	ucomiss	xmm11, dword ptr [rbx + 28]
+	setb	r11b
+	ucomiss	xmm11, dword ptr [rbx + 32]
+	setb	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 36]
+	setb	dl
+	ucomiss	xmm11, dword ptr [rbx + 40]
+	setb	sil
+	ucomiss	xmm11, dword ptr [rbx + 44]
+	setb	r9b
+	ucomiss	xmm11, dword ptr [rbx + 48]
+	setb	r10b
+	ucomiss	xmm11, dword ptr [rbx + 52]
+	setb	r12b
+	ucomiss	xmm11, dword ptr [rbx + 56]
+	setb	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 60]
+	setb	dil
+	ucomiss	xmm11, dword ptr [rbx + 64]
+	setb	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 68]
+	setb	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 72]
+	setb	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 76]
+	setb	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 80]
+	setb	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 84]
+	setb	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 88]
+	setb	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 92]
+	setb	r15b
+	ucomiss	xmm11, dword ptr [rbx + 96]
+	setb	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 100]
+	setb	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 104]
+	setb	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 108]
+	setb	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 112]
+	setb	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 116]
+	setb	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 120]
+	setb	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 124]
+	setb	cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	r9b, 3
+	or	r9b, sil
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	dil, 7
+	or	dil, sil
+	or	r11b, dl
+	or	dil, r12b
+	mov	r14, qword ptr [rsp]            # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 80]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	byte ptr [r14], r11b
+	movzx	esi, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r15b, 7
+	or	r15b, sil
+	mov	byte ptr [r14 + 1], dil
+	or	r15b, dl
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 6
+	shl	cl, 7
+	or	cl, dl
+	or	cl, al
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], cl
+	add	rbx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB7_184
+# %bb.185:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+	jmp	.LBB7_186
+.LBB7_9:
+	mov	qword ptr [rsp + 88], r12       # 8-byte Spill
+.LBB7_90:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB7_200
+# %bb.91:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB7_93
+# %bb.92:
+	xor	r9d, r9d
+	jmp	.LBB7_96
+.LBB7_61:
+	mov	qword ptr [rsp + 72], r12       # 8-byte Spill
+	mov	r14, rsi
+.LBB7_72:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB7_200
+# %bb.73:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB7_75
+# %bb.74:
+	xor	eax, eax
+	jmp	.LBB7_78
+.LBB7_175:
+	mov	r14, r12
+	mov	rbx, rsi
+.LBB7_186:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB7_200
+# %bb.187:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB7_191
+# %bb.188:
+	xor	r11d, r11d
+	jmp	.LBB7_189
+.LBB7_153:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB7_154:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rsi]
+	sbb	edi, edi
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	r14, r12
+	movzx	r10d, byte ptr [r12 + rdx]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dil, r10b
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r12 + rdx], al
+	add	r11, 2
+	cmp	r13, qword ptr [rsi + 8]
+	lea	rsi, [rsi + 16]
+	sbb	edi, edi
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r12 + rdx], bl
+	cmp	r9, r11
+	jne	.LBB7_154
+.LBB7_40:
+	test	r8b, 1
+	je	.LBB7_200
+# %bb.41:
+	cmp	r13, qword ptr [rsi]
+	jmp	.LBB7_197
+.LBB7_151:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB7_152:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	setg	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	mov	r14, r12
+	movzx	r9d, byte ptr [r12 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r12 + rdi], bl
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	setg	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r12 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB7_152
+.LBB7_148:
+	test	r8b, 1
+	je	.LBB7_200
+# %bb.149:
+	cmp	dword ptr [rsi], r13d
+	jmp	.LBB7_150
+.LBB7_93:
+	mov	r10, r8
+	and	r10, -2
+	xor	r9d, r9d
+	mov	r11, qword ptr [rsp + 88]       # 8-byte Reload
+	.p2align	4, 0x90
+.LBB7_94:                               # =>This Inner Loop Header: Depth=1
+	mov	rax, r9
+	cmp	byte ptr [rsi + r9], r14b
+	setg	bl
+	neg	bl
+	mov	rdi, r9
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r11 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r11 + rdi], dl
+	cmp	byte ptr [rsi + rax + 1], r14b
+	lea	r9, [rax + 2]
+	setg	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r11 + rdi], al
+	cmp	r10, r9
+	jne	.LBB7_94
+# %bb.95:
+	add	rsi, r9
+.LBB7_96:
+	test	r8b, 1
+	je	.LBB7_200
+# %bb.97:
+	cmp	byte ptr [rsi], r14b
+	setg	al
+	neg	al
+	mov	rdx, r9
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	r9b, 7
+	mov	bl, 1
+	mov	ecx, r9d
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r8 + rdx], bl
+	jmp	.LBB7_200
+.LBB7_75:
+	mov	r9, r8
+	and	r9, -2
+	xor	eax, eax
+	mov	r11, qword ptr [rsp + 72]       # 8-byte Reload
+	mov	r10b, byte ptr [rsp + 40]       # 1-byte Reload
+	.p2align	4, 0x90
+.LBB7_76:                               # =>This Inner Loop Header: Depth=1
+	cmp	r10b, byte ptr [r14 + rax]
+	sbb	esi, esi
+	mov	rdi, rax
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	ebx, byte ptr [r11 + rdi]
+	xor	sil, bl
+	and	dl, sil
+	xor	dl, bl
+	mov	byte ptr [r11 + rdi], dl
+	cmp	r10b, byte ptr [r14 + rax + 1]
+	lea	rax, [rax + 2]
+	sbb	esi, esi
+	xor	sil, dl
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, sil
+	xor	bl, dl
+	mov	byte ptr [r11 + rdi], bl
+	cmp	r9, rax
+	jne	.LBB7_76
+# %bb.77:
+	add	r14, rax
+.LBB7_78:
+	test	r8b, 1
+	je	.LBB7_200
+# %bb.79:
+	mov	cl, byte ptr [rsp + 40]         # 1-byte Reload
+	cmp	cl, byte ptr [r14]
+	sbb	edx, edx
+	mov	rsi, rax
+	shr	rsi, 3
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	mov	dil, byte ptr [r8 + rsi]
+	and	al, 7
+	mov	bl, 1
+	mov	ecx, eax
+	shl	bl, cl
+	xor	dl, dil
+	and	bl, dl
+	xor	bl, dil
+	mov	byte ptr [r8 + rsi], bl
+	jmp	.LBB7_200
+.LBB7_135:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB7_136:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rsi]
+	sbb	edi, edi
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	r14, r12
+	movzx	r10d, byte ptr [r12 + rdx]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dil, r10b
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r12 + rdx], al
+	add	r11, 2
+	cmp	r13d, dword ptr [rsi + 4]
+	lea	rsi, [rsi + 8]
+	sbb	edi, edi
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r12 + rdx], bl
+	cmp	r9, r11
+	jne	.LBB7_136
+.LBB7_24:
+	test	r8b, 1
+	je	.LBB7_200
+# %bb.25:
+	cmp	r13d, dword ptr [rsi]
+	jmp	.LBB7_197
+.LBB7_193:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB7_194:                              # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rsi]
+	sbb	eax, eax
+	mov	rdi, r11
+	shr	rdi, 3
+	mov	r14, r12
+	movzx	r9d, byte ptr [r12 + rdi]
+	xor	al, r9b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r12 + rdi], bl
+	add	r11, 2
+	ucomisd	xmm0, qword ptr [rsi + 8]
+	lea	rsi, [rsi + 16]
+	sbb	eax, eax
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r12 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB7_194
+.LBB7_195:
+	test	r8b, 1
+	je	.LBB7_200
+# %bb.196:
+	ucomisd	xmm0, qword ptr [rsi]
+	jmp	.LBB7_197
+.LBB7_111:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB7_112:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rsi]
+	sbb	edi, edi
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	r14, r12
+	movzx	r10d, byte ptr [r12 + rdx]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dil, r10b
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r12 + rdx], al
+	add	r11, 2
+	cmp	r13w, word ptr [rsi + 2]
+	lea	rsi, [rsi + 4]
+	sbb	edi, edi
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r12 + rdx], bl
+	cmp	r9, r11
+	jne	.LBB7_112
+.LBB7_109:
+	test	r8b, 1
+	je	.LBB7_200
+# %bb.110:
+	cmp	r13w, word ptr [rsi]
+.LBB7_197:
+	sbb	eax, eax
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r12 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	jmp	.LBB7_198
+.LBB7_133:
+	mov	r9, r8
+	and	r9, -2
+	xor	r14d, r14d
+	mov	r11d, dword ptr [rsp + 240]     # 4-byte Reload
+	.p2align	4, 0x90
+.LBB7_134:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, rsi
+	cmp	word ptr [rsi], r11w
+	setg	dl
+	neg	dl
+	mov	rdi, r14
+	shr	rdi, 3
+	movzx	r10d, byte ptr [r12 + rdi]
+	mov	ecx, r14d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	dl, r10b
+	and	bl, dl
+	xor	bl, r10b
+	mov	byte ptr [r12 + rdi], bl
+	add	r14, 2
+	cmp	word ptr [rsi + 2], r11w
+	lea	rsi, [rsi + 4]
+	setg	dl
+	neg	dl
+	xor	dl, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, bl
+	mov	byte ptr [r12 + rdi], al
+	cmp	r9, r14
+	jne	.LBB7_134
+.LBB7_131:
+	test	r8b, 1
+	je	.LBB7_200
+# %bb.132:
+	mov	eax, dword ptr [rsp + 240]      # 4-byte Reload
+	cmp	word ptr [rsi], ax
+	setg	al
+	neg	al
+	mov	rdx, r14
+	shr	rdx, 3
+	mov	dil, byte ptr [r12 + rdx]
+	and	r14b, 7
+	mov	bl, 1
+	mov	ecx, r14d
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	jmp	.LBB7_199
+.LBB7_168:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB7_169:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	setg	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	mov	r14, r12
+	movzx	r9d, byte ptr [r12 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r12 + rdi], bl
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	setg	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r12 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB7_169
+.LBB7_166:
+	test	r8b, 1
+	je	.LBB7_200
+# %bb.167:
+	cmp	qword ptr [rsi], r13
+.LBB7_150:
+	setg	al
+	neg	al
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r12 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+.LBB7_198:
+	xor	bl, sil
+.LBB7_199:
+	mov	byte ptr [r12 + rdx], bl
+.LBB7_200:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.LBB7_191:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB7_192:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm11, dword ptr [rbx]
+	sbb	edx, edx
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	add	r11, 2
+	ucomiss	xmm11, dword ptr [rbx + 4]
+	lea	rbx, [rbx + 8]
+	sbb	esi, esi
+	xor	sil, al
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, sil
+	xor	dl, al
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB7_192
+.LBB7_189:
+	test	r8b, 1
+	je	.LBB7_200
+# %bb.190:
+	ucomiss	xmm11, dword ptr [rbx]
+	sbb	eax, eax
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	xor	bl, sil
+	mov	byte ptr [r14 + rdx], bl
+	jmp	.LBB7_200
+.LBB7_84:
+	and	r10, -16
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 232], r10      # 8-byte Spill
+	lea	rax, [r12 + 4*r10]
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+	movzx	eax, r14b
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 160], xmm1   # 16-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_85:                               # =>This Inner Loop Header: Depth=1
+	mov	rdi, rax
+	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
+	shl	rdi, 5
+	mov	r8, rdi
+	mov	rdx, rdi
+	mov	r9, rdi
+	mov	r12, rdi
+	mov	r11, rdi
+	mov	rax, rdi
+	mov	qword ptr [rsp + 32], rdi       # 8-byte Spill
+	mov	r14, rdi
+	mov	r10, rdi
+	mov	r15, rdi
+	mov	rbx, rdi
+	movzx	ecx, byte ptr [rsi + rdi]
+	movd	xmm15, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 1]
+	movd	xmm5, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 2]
+	movd	xmm6, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 3]
+	movd	xmm2, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 4]
+	movd	xmm1, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 5]
+	movd	xmm8, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 6]
+	movd	xmm3, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 7]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + rdi + 8]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + rdi + 9]
+	movd	xmm10, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 10]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 144], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + rdi + 11]
+	movd	xmm11, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 12]
+	movd	xmm13, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 13]
+	movd	xmm12, ecx
+	movzx	ecx, byte ptr [rsi + rdi + 14]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 304], xmm0   # 16-byte Spill
+	mov	r13, rdi
+	or	r13, 32
+	mov	qword ptr [rsp + 40], r13       # 8-byte Spill
+	or	r8, 64
+	or	rdx, 96
+	mov	qword ptr [rsp + 120], rdx      # 8-byte Spill
+	or	r9, 128
+	or	r12, 160
+	or	r11, 192
+	mov	qword ptr [rsp + 64], r11       # 8-byte Spill
+	or	rax, 224
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
+	or	r11, 256
+	or	r14, 288
+	or	r10, 320
+	or	r15, 352
+	mov	qword ptr [rsp + 80], r15       # 8-byte Spill
+	or	rbx, 384
+	mov	rax, rdi
+	or	rax, 416
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	mov	rax, rdi
+	mov	rcx, rdi
+	mov	qword ptr [rsp + 24], rdi       # 8-byte Spill
+	or	rax, 448
+	mov	qword ptr [rsp + 16], rax       # 8-byte Spill
+	or	rcx, 480
+	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rsi + r13], 1
+	pinsrb	xmm15, byte ptr [rsi + r8], 2
+	pinsrb	xmm15, byte ptr [rsi + rdx], 3
+	mov	rdi, r9
+	mov	qword ptr [rsp + 56], r9        # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rsi + r9], 4
+	pinsrb	xmm15, byte ptr [rsi + r12], 5
+	mov	r9, qword ptr [rsp + 64]        # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + r9], 6
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + r13], 7
+	mov	qword ptr [rsp + 32], r11       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rsi + r11], 8
+	pinsrb	xmm15, byte ptr [rsi + r14], 9
+	pinsrb	xmm15, byte ptr [rsi + r10], 10
+	pinsrb	xmm15, byte ptr [rsi + r15], 11
+	pinsrb	xmm15, byte ptr [rsi + rbx], 12
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rdx], 13
+	pinsrb	xmm15, byte ptr [rsi + rax], 14
+	pinsrb	xmm15, byte ptr [rsi + rcx], 15
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r11 + 1], 1
+	pinsrb	xmm5, byte ptr [rsi + r8 + 1], 2
+	mov	r11, r8
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r8 + 1], 3
+	pinsrb	xmm5, byte ptr [rsi + rdi + 1], 4
+	pinsrb	xmm5, byte ptr [rsi + r12 + 1], 5
+	mov	rdi, r12
+	pinsrb	xmm5, byte ptr [rsi + r9 + 1], 6
+	pinsrb	xmm5, byte ptr [rsi + r13 + 1], 7
+	mov	r12, r13
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rdx + 1], 8
+	pinsrb	xmm5, byte ptr [rsi + r14 + 1], 9
+	mov	r9, r14
+	pinsrb	xmm5, byte ptr [rsi + r10 + 1], 10
+	pinsrb	xmm5, byte ptr [rsi + r15 + 1], 11
+	pinsrb	xmm5, byte ptr [rsi + rbx + 1], 12
+	mov	r13, rbx
+	mov	qword ptr [rsp + 192], rbx      # 8-byte Spill
+	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r15 + 1], 13
+	pinsrb	xmm5, byte ptr [rsi + rax + 1], 14
+	pinsrb	xmm5, byte ptr [rsi + rcx + 1], 15
+	movdqa	xmm9, xmmword ptr [rsp + 160]   # 16-byte Reload
+	pcmpgtb	xmm5, xmm9
+	movdqa	xmm7, xmm5
+	movdqa	xmm4, xmmword ptr [rip + .LCPI7_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm7, xmm4
+	psubb	xmm7, xmm5
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	movzx	ebx, byte ptr [rsi + rax + 15]
+	movd	xmm14, ebx
+	pcmpgtb	xmm15, xmm9
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 1
+	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 2
+	mov	rcx, r8
+	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 3
+	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 4
+	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 5
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 6
+	pinsrb	xmm6, byte ptr [rsi + r12 + 2], 7
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 8
+	mov	qword ptr [rsp + 176], r9       # 8-byte Spill
+	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 9
+	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 10
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r12 + 2], 11
+	pinsrb	xmm6, byte ptr [rsi + r13 + 2], 12
+	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 13
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 14
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 15
+	pand	xmm15, xmm4
+	pcmpgtb	xmm6, xmm9
+	movdqa	xmm0, xmmword ptr [rip + .LCPI7_11] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pand	xmm6, xmm0
+	por	xmm6, xmm15
+	movzx	ebx, byte ptr [rsi + rax + 16]
+	movd	xmm15, ebx
+	mov	rax, rdx
+	pinsrb	xmm2, byte ptr [rsi + rdx + 3], 1
+	mov	r13, r11
+	pinsrb	xmm2, byte ptr [rsi + r11 + 3], 2
+	mov	r11, rcx
+	pinsrb	xmm2, byte ptr [rsi + rcx + 3], 3
+	pinsrb	xmm2, byte ptr [rsi + r14 + 3], 4
+	mov	rdx, rdi
+	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
+	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 5
+	mov	rcx, r8
+	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 6
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rdi + 3], 7
+	mov	r8, qword ptr [rsp + 32]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r8 + 3], 8
+	pinsrb	xmm2, byte ptr [rsi + r9 + 3], 9
+	pinsrb	xmm2, byte ptr [rsi + r10 + 3], 10
+	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 11
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r12 + 3], 12
+	pinsrb	xmm2, byte ptr [rsi + r15 + 3], 13
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rbx + 3], 14
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rbx + 3], 15
+	pinsrb	xmm1, byte ptr [rsi + rax + 4], 1
+	pinsrb	xmm1, byte ptr [rsi + r13 + 4], 2
+	mov	qword ptr [rsp + 96], r13       # 8-byte Spill
+	pinsrb	xmm1, byte ptr [rsi + r11 + 4], 3
+	pinsrb	xmm1, byte ptr [rsi + r14 + 4], 4
+	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 5
+	pinsrb	xmm1, byte ptr [rsi + rcx + 4], 6
+	pinsrb	xmm1, byte ptr [rsi + rdi + 4], 7
+	pinsrb	xmm1, byte ptr [rsi + r8 + 4], 8
+	pinsrb	xmm1, byte ptr [rsi + r9 + 4], 9
+	pinsrb	xmm1, byte ptr [rsi + r10 + 4], 10
+	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + rax + 4], 11
+	pinsrb	xmm1, byte ptr [rsi + r12 + 4], 12
+	pinsrb	xmm1, byte ptr [rsi + r15 + 4], 13
+	mov	r8, r15
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + rdx + 4], 14
+	pinsrb	xmm1, byte ptr [rsi + rbx + 4], 15
+	por	xmm6, xmm7
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	movzx	ebx, byte ptr [rsi + rax + 17]
+	movd	xmm0, ebx
+	pcmpgtb	xmm2, xmm9
+	movdqa	xmm5, xmmword ptr [rip + .LCPI7_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pand	xmm2, xmm5
+	pcmpgtb	xmm1, xmm9
+	movdqa	xmm5, xmmword ptr [rip + .LCPI7_13] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pand	xmm1, xmm5
+	por	xmm1, xmm2
+	movzx	ebx, byte ptr [rsi + rax + 18]
+	movd	xmm5, ebx
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rcx + 5], 1
+	pinsrb	xmm8, byte ptr [rsi + r13 + 5], 2
+	pinsrb	xmm8, byte ptr [rsi + r11 + 5], 3
+	pinsrb	xmm8, byte ptr [rsi + r14 + 5], 4
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rdi + 5], 5
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rbx + 5], 6
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r9 + 5], 7
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r12 + 5], 8
+	mov	r13, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r13 + 5], 9
+	pinsrb	xmm8, byte ptr [rsi + r10 + 5], 10
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r15 + 5], 11
+	mov	rbx, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rbx + 5], 12
+	pinsrb	xmm8, byte ptr [rsi + r8 + 5], 13
+	pinsrb	xmm8, byte ptr [rsi + rdx + 5], 14
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r14 + 5], 15
+	pcmpgtb	xmm8, xmm9
+	movdqa	xmm2, xmmword ptr [rip + .LCPI7_14] # xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm8, xmm2
+	por	xmm8, xmm1
+	movzx	ebx, byte ptr [rsi + rax + 19]
+	movd	xmm7, ebx
+	por	xmm8, xmm6
+	movzx	ebx, byte ptr [rsi + rax + 20]
+	movd	xmm6, ebx
+	pinsrb	xmm3, byte ptr [rsi + rcx + 6], 1
+	mov	r10, rcx
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rax + 6], 2
+	pinsrb	xmm3, byte ptr [rsi + r11 + 6], 3
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rax + 6], 4
+	mov	r8, rdi
+	pinsrb	xmm3, byte ptr [rsi + rdi + 6], 5
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rcx + 6], 6
+	pinsrb	xmm3, byte ptr [rsi + r9 + 6], 7
+	pinsrb	xmm3, byte ptr [rsi + r12 + 6], 8
+	mov	r9, r12
+	mov	rax, r13
+	pinsrb	xmm3, byte ptr [rsi + r13 + 6], 9
+	mov	rdi, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdi + 6], 10
+	mov	rbx, r15
+	pinsrb	xmm3, byte ptr [rsi + r15 + 6], 11
+	mov	r12, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r12 + 6], 12
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdx + 6], 13
+	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r15 + 6], 14
+	pinsrb	xmm3, byte ptr [rsi + r14 + 6], 15
+	movdqa	xmm2, xmmword ptr [rsp + 208]   # 16-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r10 + 7], 1
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r13 + 7], 2
+	pinsrb	xmm2, byte ptr [rsi + r11 + 7], 3
+	mov	r10, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r10 + 7], 4
+	pinsrb	xmm2, byte ptr [rsi + r8 + 7], 5
+	mov	rdx, r8
+	pinsrb	xmm2, byte ptr [rsi + rcx + 7], 6
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rcx + 7], 7
+	pinsrb	xmm2, byte ptr [rsi + r9 + 7], 8
+	pinsrb	xmm2, byte ptr [rsi + rax + 7], 9
+	pinsrb	xmm2, byte ptr [rsi + rdi + 7], 10
+	pinsrb	xmm2, byte ptr [rsi + rbx + 7], 11
+	pinsrb	xmm2, byte ptr [rsi + r12 + 7], 12
+	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r11 + 7], 13
+	pinsrb	xmm2, byte ptr [rsi + r15 + 7], 14
+	mov	rdi, r14
+	pinsrb	xmm2, byte ptr [rsi + r14 + 7], 15
+	pcmpgtb	xmm3, xmm9
+	movdqa	xmm1, xmmword ptr [rip + .LCPI7_15] # xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm3, xmm1
+	pcmpgtb	xmm2, xmm9
+	psllw	xmm2, 7
+	movdqa	xmm1, xmmword ptr [rip + .LCPI7_6] # xmm1 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm2, xmm1
+	por	xmm2, xmm3
+	movdqa	xmm1, xmm2
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	movzx	ebx, byte ptr [rsi + rax + 21]
+	movd	xmm2, ebx
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rcx + 9], 1
+	pinsrb	xmm10, byte ptr [rsi + r13 + 9], 2
+	mov	r8, qword ptr [rsp + 120]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r8 + 9], 3
+	pinsrb	xmm10, byte ptr [rsi + r10 + 9], 4
+	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 5
+	mov	r14, rdx
+	mov	rdx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdx + 9], 6
+	mov	r9, qword ptr [rsp + 72]        # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r9 + 9], 7
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rbx + 9], 8
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rbx + 9], 9
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r15 + 9], 10
+	mov	rbx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rbx + 9], 11
+	pinsrb	xmm10, byte ptr [rsi + r12 + 9], 12
+	pinsrb	xmm10, byte ptr [rsi + r11 + 9], 13
+	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r10 + 9], 14
+	pinsrb	xmm10, byte ptr [rsi + rdi + 9], 15
+	por	xmm1, xmm8
+	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
+	pcmpgtb	xmm10, xmm9
+	movdqa	xmm1, xmm10
+	movdqa	xmm8, xmm4
+	pand	xmm1, xmm4
+	psubb	xmm1, xmm10
+	movzx	ebx, byte ptr [rsi + rax + 22]
+	movd	xmm3, ebx
+	movdqa	xmm4, xmmword ptr [rsp + 272]   # 16-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 1
+	mov	r11, rcx
+	pinsrb	xmm4, byte ptr [rsi + r13 + 8], 2
+	pinsrb	xmm4, byte ptr [rsi + r8 + 8], 3
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdi + 8], 4
+	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 5
+	pinsrb	xmm4, byte ptr [rsi + rdx + 8], 6
+	mov	rdx, r9
+	pinsrb	xmm4, byte ptr [rsi + r9 + 8], 7
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r14 + 8], 8
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rax + 8], 9
+	mov	rbx, r15
+	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 10
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r15 + 8], 11
+	pinsrb	xmm4, byte ptr [rsi + r12 + 8], 12
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rcx + 8], 13
+	pinsrb	xmm4, byte ptr [rsi + r10 + 8], 14
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r9 + 8], 15
+	pcmpgtb	xmm4, xmm9
+	pand	xmm4, xmm8
+	movdqa	xmm10, xmmword ptr [rsp + 144]  # 16-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r11 + 10], 1
+	pinsrb	xmm10, byte ptr [rsi + r13 + 10], 2
+	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 3
+	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 4
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 5
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 6
+	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 7
+	mov	r11, r14
+	pinsrb	xmm10, byte ptr [rsi + r14 + 10], 8
+	pinsrb	xmm10, byte ptr [rsi + rax + 10], 9
+	pinsrb	xmm10, byte ptr [rsi + rbx + 10], 10
+	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 11
+	pinsrb	xmm10, byte ptr [rsi + r12 + 10], 12
+	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 13
+	pinsrb	xmm10, byte ptr [rsi + r10 + 10], 14
+	pinsrb	xmm10, byte ptr [rsi + r9 + 10], 15
+	pcmpgtb	xmm10, xmm9
+	pand	xmm10, xmmword ptr [rip + .LCPI7_11]
+	por	xmm10, xmm4
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	movzx	ebx, byte ptr [rsi + rcx + 23]
+	movd	xmm8, ebx
+	por	xmm10, xmm1
+	movdqa	xmmword ptr [rsp + 144], xmm10  # 16-byte Spill
+	movzx	ebx, byte ptr [rsi + rcx + 24]
+	movd	xmm10, ebx
+	mov	rdx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 1
+	pinsrb	xmm11, byte ptr [rsi + r13 + 11], 2
+	mov	r14, r13
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 3
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 4
+	mov	r13, rcx
+	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 5
+	mov	rcx, r8
+	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 6
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 7
+	mov	r8, r11
+	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 8
+	mov	r9, rax
+	pinsrb	xmm11, byte ptr [rsi + rax + 11], 9
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 10
+	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 11
+	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 12
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rax + 11], 13
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 14
+	mov	r11, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 15
+	pinsrb	xmm13, byte ptr [rsi + rdx + 12], 1
+	pinsrb	xmm13, byte ptr [rsi + r14 + 12], 2
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + r14 + 12], 3
+	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 4
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + r13 + 12], 5
+	pinsrb	xmm13, byte ptr [rsi + rcx + 12], 6
+	pinsrb	xmm13, byte ptr [rsi + rdi + 12], 7
+	pinsrb	xmm13, byte ptr [rsi + r8 + 12], 8
+	pinsrb	xmm13, byte ptr [rsi + r9 + 12], 9
+	pinsrb	xmm13, byte ptr [rsi + r10 + 12], 10
+	pinsrb	xmm13, byte ptr [rsi + r15 + 12], 11
+	pinsrb	xmm13, byte ptr [rsi + r12 + 12], 12
+	pinsrb	xmm13, byte ptr [rsi + rax + 12], 13
+	mov	r13, rax
+	pinsrb	xmm13, byte ptr [rsi + rbx + 12], 14
+	mov	rax, r11
+	pinsrb	xmm13, byte ptr [rsi + r11 + 12], 15
+	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 1
+	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + r11 + 13], 2
+	pinsrb	xmm12, byte ptr [rsi + r14 + 13], 3
+	mov	rdx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 4
+	mov	rdx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rdx + 13], 5
+	pinsrb	xmm12, byte ptr [rsi + rcx + 13], 6
+	pinsrb	xmm12, byte ptr [rsi + rdi + 13], 7
+	pinsrb	xmm12, byte ptr [rsi + r8 + 13], 8
+	pinsrb	xmm12, byte ptr [rsi + r9 + 13], 9
+	pinsrb	xmm12, byte ptr [rsi + r10 + 13], 10
+	pinsrb	xmm12, byte ptr [rsi + r15 + 13], 11
+	pinsrb	xmm12, byte ptr [rsi + r12 + 13], 12
+	mov	rdi, r13
+	pinsrb	xmm12, byte ptr [rsi + r13 + 13], 13
+	pinsrb	xmm12, byte ptr [rsi + rbx + 13], 14
+	pinsrb	xmm12, byte ptr [rsi + rax + 13], 15
+	pcmpgtb	xmm11, xmm9
+	pand	xmm11, xmmword ptr [rip + .LCPI7_12]
+	pcmpgtb	xmm13, xmm9
+	pand	xmm13, xmmword ptr [rip + .LCPI7_13]
+	por	xmm13, xmm11
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	movzx	ebx, byte ptr [rsi + rax + 25]
+	movd	xmm1, ebx
+	pcmpgtb	xmm12, xmm9
+	pand	xmm12, xmmword ptr [rip + .LCPI7_14]
+	por	xmm12, xmm13
+	movzx	ebx, byte ptr [rsi + rax + 26]
+	movd	xmm11, ebx
+	movdqa	xmm4, xmmword ptr [rsp + 304]   # 16-byte Reload
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rax + 14], 1
+	mov	r13, r11
+	pinsrb	xmm4, byte ptr [rsi + r11 + 14], 2
+	mov	r11, r14
+	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 3
+	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 4
+	mov	rax, rdx
+	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 5
+	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 6
+	mov	rdx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 7
+	pinsrb	xmm4, byte ptr [rsi + r8 + 14], 8
+	pinsrb	xmm4, byte ptr [rsi + r9 + 14], 9
+	mov	rbx, r10
+	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 10
+	pinsrb	xmm4, byte ptr [rsi + r15 + 14], 11
+	pinsrb	xmm4, byte ptr [rsi + r12 + 14], 12
+	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 14
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 15
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 1
+	pinsrb	xmm14, byte ptr [rsi + r13 + 15], 2
+	pinsrb	xmm14, byte ptr [rsi + r11 + 15], 3
+	pinsrb	xmm14, byte ptr [rsi + r14 + 15], 4
+	pinsrb	xmm14, byte ptr [rsi + rax + 15], 5
+	pinsrb	xmm14, byte ptr [rsi + rcx + 15], 6
+	pinsrb	xmm14, byte ptr [rsi + rdx + 15], 7
+	pinsrb	xmm14, byte ptr [rsi + r8 + 15], 8
+	pinsrb	xmm14, byte ptr [rsi + r9 + 15], 9
+	pinsrb	xmm14, byte ptr [rsi + rbx + 15], 10
+	pinsrb	xmm14, byte ptr [rsi + r15 + 15], 11
+	pinsrb	xmm14, byte ptr [rsi + r12 + 15], 12
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdi + 15], 14
+	pinsrb	xmm14, byte ptr [rsi + r10 + 15], 15
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rdi + 16], 1
+	pinsrb	xmm15, byte ptr [rsi + r13 + 16], 2
+	pinsrb	xmm15, byte ptr [rsi + r11 + 16], 3
+	pinsrb	xmm15, byte ptr [rsi + r14 + 16], 4
+	pinsrb	xmm15, byte ptr [rsi + rax + 16], 5
+	pinsrb	xmm15, byte ptr [rsi + rcx + 16], 6
+	pinsrb	xmm15, byte ptr [rsi + rdx + 16], 7
+	pinsrb	xmm15, byte ptr [rsi + r8 + 16], 8
+	pinsrb	xmm15, byte ptr [rsi + r9 + 16], 9
+	pinsrb	xmm15, byte ptr [rsi + rbx + 16], 10
+	pinsrb	xmm15, byte ptr [rsi + r15 + 16], 11
+	pinsrb	xmm15, byte ptr [rsi + r12 + 16], 12
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rdi + 16], 13
+	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + r10 + 16], 14
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 1
+	pinsrb	xmm0, byte ptr [rsi + r13 + 17], 2
+	pinsrb	xmm0, byte ptr [rsi + r11 + 17], 3
+	pinsrb	xmm0, byte ptr [rsi + r14 + 17], 4
+	pinsrb	xmm0, byte ptr [rsi + rax + 17], 5
+	mov	r13, rax
+	pinsrb	xmm0, byte ptr [rsi + rcx + 17], 6
+	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 7
+	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 8
+	pinsrb	xmm0, byte ptr [rsi + r9 + 17], 9
+	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 10
+	pinsrb	xmm0, byte ptr [rsi + r15 + 17], 11
+	pinsrb	xmm0, byte ptr [rsi + r12 + 17], 12
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rax + 17], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 14
+	por	xmm12, xmmword ptr [rsp + 144]  # 16-byte Folded Reload
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	movzx	ebx, byte ptr [rsi + rax + 27]
+	movd	xmm9, ebx
+	movdqa	xmm13, xmmword ptr [rsp + 160]  # 16-byte Reload
+	pcmpgtb	xmm4, xmm13
+	pand	xmm4, xmmword ptr [rip + .LCPI7_15]
+	pcmpgtb	xmm14, xmm13
+	psllw	xmm14, 7
+	pand	xmm14, xmmword ptr [rip + .LCPI7_6]
+	por	xmm14, xmm4
+	movzx	ebx, byte ptr [rsi + rax + 28]
+	movd	xmm4, ebx
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r10 + 17], 15
+	por	xmm14, xmm12
+	pcmpgtb	xmm0, xmm13
+	movdqa	xmm13, xmm0
+	movdqa	xmm12, xmmword ptr [rip + .LCPI7_10] # xmm12 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm13, xmm12
+	psubb	xmm13, xmm0
+	movdqa	xmmword ptr [rsp + 144], xmm13  # 16-byte Spill
+	movzx	ebx, byte ptr [rsi + rax + 29]
+	movd	xmm13, ebx
+	pinsrb	xmm15, byte ptr [rsi + r10 + 16], 15
+	movdqa	xmm0, xmmword ptr [rsp + 160]   # 16-byte Reload
+	pcmpgtb	xmm15, xmm0
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 1
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 2
+	pinsrb	xmm5, byte ptr [rsi + r11 + 18], 3
+	pinsrb	xmm5, byte ptr [rsi + r14 + 18], 4
+	pinsrb	xmm5, byte ptr [rsi + r13 + 18], 5
+	pinsrb	xmm5, byte ptr [rsi + rcx + 18], 6
+	pinsrb	xmm5, byte ptr [rsi + rdx + 18], 7
+	pinsrb	xmm5, byte ptr [rsi + r8 + 18], 8
+	pinsrb	xmm5, byte ptr [rsi + r9 + 18], 9
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 18], 10
+	pinsrb	xmm5, byte ptr [rsi + r15 + 18], 11
+	pinsrb	xmm5, byte ptr [rsi + r12 + 18], 12
+	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rbx + 18], 13
+	pinsrb	xmm5, byte ptr [rsi + rdi + 18], 14
+	pand	xmm15, xmm12
+	pinsrb	xmm5, byte ptr [rsi + r10 + 18], 15
+	pcmpgtb	xmm5, xmm0
+	pand	xmm5, xmmword ptr [rip + .LCPI7_11]
+	por	xmm5, xmm15
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	movzx	ebx, byte ptr [rsi + rdi + 30]
+	movd	xmm12, ebx
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rbx + 19], 1
+	pinsrb	xmm6, byte ptr [rsi + rbx + 20], 1
+	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 1
+	pinsrb	xmm3, byte ptr [rsi + rbx + 22], 1
+	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 1
+	pinsrb	xmm10, byte ptr [rsi + rbx + 24], 1
+	pinsrb	xmm1, byte ptr [rsi + rbx + 25], 1
+	pinsrb	xmm11, byte ptr [rsi + rbx + 26], 1
+	pinsrb	xmm9, byte ptr [rsi + rbx + 27], 1
+	pinsrb	xmm4, byte ptr [rsi + rbx + 28], 1
+	pinsrb	xmm13, byte ptr [rsi + rbx + 29], 1
+	pinsrb	xmm12, byte ptr [rsi + rbx + 30], 1
+	movzx	edi, byte ptr [rsi + rdi + 31]
+	movd	xmm0, edi
+	pinsrb	xmm0, byte ptr [rsi + rbx + 31], 1
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdi + 19], 2
+	pinsrb	xmm6, byte ptr [rsi + rdi + 20], 2
+	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 2
+	pinsrb	xmm3, byte ptr [rsi + rdi + 22], 2
+	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 2
+	pinsrb	xmm10, byte ptr [rsi + rdi + 24], 2
+	pinsrb	xmm1, byte ptr [rsi + rdi + 25], 2
+	pinsrb	xmm11, byte ptr [rsi + rdi + 26], 2
+	pinsrb	xmm9, byte ptr [rsi + rdi + 27], 2
+	pinsrb	xmm4, byte ptr [rsi + rdi + 28], 2
+	pinsrb	xmm13, byte ptr [rsi + rdi + 29], 2
+	pinsrb	xmm12, byte ptr [rsi + rdi + 30], 2
+	pinsrb	xmm0, byte ptr [rsi + rdi + 31], 2
+	pinsrb	xmm7, byte ptr [rsi + r11 + 19], 3
+	pinsrb	xmm7, byte ptr [rsi + r14 + 19], 4
+	pinsrb	xmm7, byte ptr [rsi + r13 + 19], 5
+	pinsrb	xmm7, byte ptr [rsi + rcx + 19], 6
+	pinsrb	xmm7, byte ptr [rsi + rdx + 19], 7
+	pinsrb	xmm7, byte ptr [rsi + r8 + 19], 8
+	pinsrb	xmm7, byte ptr [rsi + r9 + 19], 9
+	pinsrb	xmm7, byte ptr [rsi + rax + 19], 10
+	pinsrb	xmm7, byte ptr [rsi + r15 + 19], 11
+	pinsrb	xmm7, byte ptr [rsi + r12 + 19], 12
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdi + 19], 13
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rbx + 19], 14
+	pinsrb	xmm7, byte ptr [rsi + r10 + 19], 15
+	pinsrb	xmm6, byte ptr [rsi + r11 + 20], 3
+	pinsrb	xmm6, byte ptr [rsi + r14 + 20], 4
+	pinsrb	xmm6, byte ptr [rsi + r13 + 20], 5
+	pinsrb	xmm6, byte ptr [rsi + rcx + 20], 6
+	pinsrb	xmm6, byte ptr [rsi + rdx + 20], 7
+	pinsrb	xmm6, byte ptr [rsi + r8 + 20], 8
+	pinsrb	xmm6, byte ptr [rsi + r9 + 20], 9
+	pinsrb	xmm6, byte ptr [rsi + rax + 20], 10
+	pinsrb	xmm6, byte ptr [rsi + r15 + 20], 11
+	pinsrb	xmm6, byte ptr [rsi + r12 + 20], 12
+	pinsrb	xmm6, byte ptr [rsi + rdi + 20], 13
+	pinsrb	xmm6, byte ptr [rsi + rbx + 20], 14
+	por	xmm5, xmmword ptr [rsp + 144]   # 16-byte Folded Reload
+	pinsrb	xmm6, byte ptr [rsi + r10 + 20], 15
+	movdqa	xmm15, xmmword ptr [rsp + 160]  # 16-byte Reload
+	pcmpgtb	xmm7, xmm15
+	pand	xmm7, xmmword ptr [rip + .LCPI7_12]
+	pcmpgtb	xmm6, xmm15
+	pand	xmm6, xmmword ptr [rip + .LCPI7_13]
+	por	xmm6, xmm7
+	pinsrb	xmm2, byte ptr [rsi + r11 + 21], 3
+	pinsrb	xmm2, byte ptr [rsi + r14 + 21], 4
+	pinsrb	xmm2, byte ptr [rsi + r13 + 21], 5
+	pinsrb	xmm2, byte ptr [rsi + rcx + 21], 6
+	pinsrb	xmm2, byte ptr [rsi + rdx + 21], 7
+	pinsrb	xmm2, byte ptr [rsi + r8 + 21], 8
+	pinsrb	xmm2, byte ptr [rsi + r9 + 21], 9
+	pinsrb	xmm2, byte ptr [rsi + rax + 21], 10
+	pinsrb	xmm2, byte ptr [rsi + r15 + 21], 11
+	pinsrb	xmm2, byte ptr [rsi + r12 + 21], 12
+	pinsrb	xmm2, byte ptr [rsi + rdi + 21], 13
+	pinsrb	xmm2, byte ptr [rsi + rbx + 21], 14
+	pinsrb	xmm2, byte ptr [rsi + r10 + 21], 15
+	pcmpgtb	xmm2, xmm15
+	movdqa	xmm7, xmmword ptr [rip + .LCPI7_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm2, xmm7
+	por	xmm2, xmm6
+	por	xmm2, xmm5
+	pinsrb	xmm3, byte ptr [rsi + r11 + 22], 3
+	pinsrb	xmm3, byte ptr [rsi + r14 + 22], 4
+	pinsrb	xmm3, byte ptr [rsi + r13 + 22], 5
+	pinsrb	xmm3, byte ptr [rsi + rcx + 22], 6
+	pinsrb	xmm3, byte ptr [rsi + rdx + 22], 7
+	pinsrb	xmm3, byte ptr [rsi + r8 + 22], 8
+	pinsrb	xmm3, byte ptr [rsi + r9 + 22], 9
+	pinsrb	xmm3, byte ptr [rsi + rax + 22], 10
+	pinsrb	xmm3, byte ptr [rsi + r15 + 22], 11
+	pinsrb	xmm3, byte ptr [rsi + r12 + 22], 12
+	pinsrb	xmm3, byte ptr [rsi + rdi + 22], 13
+	pinsrb	xmm3, byte ptr [rsi + rbx + 22], 14
+	pinsrb	xmm3, byte ptr [rsi + r10 + 22], 15
+	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 3
+	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 4
+	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 5
+	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 6
+	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 7
+	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 8
+	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 9
+	pinsrb	xmm8, byte ptr [rsi + rax + 23], 10
+	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 11
+	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 12
+	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 13
+	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 14
+	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 15
+	pcmpgtb	xmm3, xmm15
+	movdqa	xmm5, xmmword ptr [rip + .LCPI7_15] # xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm3, xmm5
+	pcmpgtb	xmm8, xmm15
+	psllw	xmm8, 7
+	movdqa	xmm6, xmmword ptr [rip + .LCPI7_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm8, xmm6
+	por	xmm8, xmm3
+	pinsrb	xmm1, byte ptr [rsi + r11 + 25], 3
+	pinsrb	xmm1, byte ptr [rsi + r14 + 25], 4
+	pinsrb	xmm1, byte ptr [rsi + r13 + 25], 5
+	pinsrb	xmm1, byte ptr [rsi + rcx + 25], 6
+	pinsrb	xmm1, byte ptr [rsi + rdx + 25], 7
+	pinsrb	xmm1, byte ptr [rsi + r8 + 25], 8
+	pinsrb	xmm1, byte ptr [rsi + r9 + 25], 9
+	pinsrb	xmm1, byte ptr [rsi + rax + 25], 10
+	pinsrb	xmm1, byte ptr [rsi + r15 + 25], 11
+	pinsrb	xmm1, byte ptr [rsi + r12 + 25], 12
+	pinsrb	xmm1, byte ptr [rsi + rdi + 25], 13
+	pinsrb	xmm1, byte ptr [rsi + rbx + 25], 14
+	pinsrb	xmm1, byte ptr [rsi + r10 + 25], 15
+	por	xmm8, xmm2
+	pcmpgtb	xmm1, xmm15
+	movdqa	xmm2, xmm1
+	movdqa	xmm3, xmmword ptr [rip + .LCPI7_10] # xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm2, xmm3
+	psubb	xmm2, xmm1
+	pinsrb	xmm10, byte ptr [rsi + r11 + 24], 3
+	pinsrb	xmm10, byte ptr [rsi + r14 + 24], 4
+	pinsrb	xmm10, byte ptr [rsi + r13 + 24], 5
+	pinsrb	xmm10, byte ptr [rsi + rcx + 24], 6
+	pinsrb	xmm10, byte ptr [rsi + rdx + 24], 7
+	pinsrb	xmm10, byte ptr [rsi + r8 + 24], 8
+	pinsrb	xmm10, byte ptr [rsi + r9 + 24], 9
+	pinsrb	xmm10, byte ptr [rsi + rax + 24], 10
+	pinsrb	xmm10, byte ptr [rsi + r15 + 24], 11
+	pinsrb	xmm10, byte ptr [rsi + r12 + 24], 12
+	pinsrb	xmm10, byte ptr [rsi + rdi + 24], 13
+	pinsrb	xmm10, byte ptr [rsi + rbx + 24], 14
+	pinsrb	xmm10, byte ptr [rsi + r10 + 24], 15
+	pcmpgtb	xmm10, xmm15
+	pand	xmm10, xmm3
+	pinsrb	xmm11, byte ptr [rsi + r11 + 26], 3
+	pinsrb	xmm11, byte ptr [rsi + r14 + 26], 4
+	pinsrb	xmm11, byte ptr [rsi + r13 + 26], 5
+	pinsrb	xmm11, byte ptr [rsi + rcx + 26], 6
+	pinsrb	xmm11, byte ptr [rsi + rdx + 26], 7
+	pinsrb	xmm11, byte ptr [rsi + r8 + 26], 8
+	pinsrb	xmm11, byte ptr [rsi + r9 + 26], 9
+	pinsrb	xmm11, byte ptr [rsi + rax + 26], 10
+	pinsrb	xmm11, byte ptr [rsi + r15 + 26], 11
+	pinsrb	xmm11, byte ptr [rsi + r12 + 26], 12
+	pinsrb	xmm11, byte ptr [rsi + rdi + 26], 13
+	pinsrb	xmm11, byte ptr [rsi + rbx + 26], 14
+	pinsrb	xmm11, byte ptr [rsi + r10 + 26], 15
+	pcmpgtb	xmm11, xmm15
+	pand	xmm11, xmmword ptr [rip + .LCPI7_11]
+	por	xmm11, xmm10
+	por	xmm11, xmm2
+	pinsrb	xmm9, byte ptr [rsi + r11 + 27], 3
+	pinsrb	xmm9, byte ptr [rsi + r14 + 27], 4
+	pinsrb	xmm9, byte ptr [rsi + r13 + 27], 5
+	pinsrb	xmm9, byte ptr [rsi + rcx + 27], 6
+	pinsrb	xmm9, byte ptr [rsi + rdx + 27], 7
+	pinsrb	xmm9, byte ptr [rsi + r8 + 27], 8
+	pinsrb	xmm9, byte ptr [rsi + r9 + 27], 9
+	pinsrb	xmm9, byte ptr [rsi + rax + 27], 10
+	pinsrb	xmm9, byte ptr [rsi + r15 + 27], 11
+	pinsrb	xmm9, byte ptr [rsi + r12 + 27], 12
+	pinsrb	xmm9, byte ptr [rsi + rdi + 27], 13
+	pinsrb	xmm9, byte ptr [rsi + rbx + 27], 14
+	pinsrb	xmm9, byte ptr [rsi + r10 + 27], 15
+	pinsrb	xmm4, byte ptr [rsi + r11 + 28], 3
+	pinsrb	xmm4, byte ptr [rsi + r14 + 28], 4
+	pinsrb	xmm4, byte ptr [rsi + r13 + 28], 5
+	pinsrb	xmm4, byte ptr [rsi + rcx + 28], 6
+	pinsrb	xmm4, byte ptr [rsi + rdx + 28], 7
+	pinsrb	xmm4, byte ptr [rsi + r8 + 28], 8
+	pinsrb	xmm4, byte ptr [rsi + r9 + 28], 9
+	pinsrb	xmm4, byte ptr [rsi + rax + 28], 10
+	pinsrb	xmm4, byte ptr [rsi + r15 + 28], 11
+	pinsrb	xmm4, byte ptr [rsi + r12 + 28], 12
+	pinsrb	xmm4, byte ptr [rsi + rdi + 28], 13
+	pinsrb	xmm4, byte ptr [rsi + rbx + 28], 14
+	pinsrb	xmm4, byte ptr [rsi + r10 + 28], 15
+	pinsrb	xmm13, byte ptr [rsi + r11 + 29], 3
+	pinsrb	xmm13, byte ptr [rsi + r14 + 29], 4
+	pinsrb	xmm13, byte ptr [rsi + r13 + 29], 5
+	pinsrb	xmm13, byte ptr [rsi + rcx + 29], 6
+	pinsrb	xmm13, byte ptr [rsi + rdx + 29], 7
+	pinsrb	xmm13, byte ptr [rsi + r8 + 29], 8
+	pinsrb	xmm13, byte ptr [rsi + r9 + 29], 9
+	pinsrb	xmm13, byte ptr [rsi + rax + 29], 10
+	pinsrb	xmm13, byte ptr [rsi + r15 + 29], 11
+	pinsrb	xmm13, byte ptr [rsi + r12 + 29], 12
+	pinsrb	xmm13, byte ptr [rsi + rdi + 29], 13
+	pinsrb	xmm13, byte ptr [rsi + rbx + 29], 14
+	movdqa	xmm1, xmm15
+	pcmpgtb	xmm9, xmm15
+	pand	xmm9, xmmword ptr [rip + .LCPI7_12]
+	pcmpgtb	xmm4, xmm15
+	pand	xmm4, xmmword ptr [rip + .LCPI7_13]
+	por	xmm4, xmm9
+	pinsrb	xmm13, byte ptr [rsi + r10 + 29], 15
+	pcmpgtb	xmm13, xmm15
+	pand	xmm13, xmm7
+	por	xmm13, xmm4
+	pinsrb	xmm12, byte ptr [rsi + r11 + 30], 3
+	pinsrb	xmm0, byte ptr [rsi + r11 + 31], 3
+	pinsrb	xmm12, byte ptr [rsi + r14 + 30], 4
+	pinsrb	xmm0, byte ptr [rsi + r14 + 31], 4
+	pinsrb	xmm12, byte ptr [rsi + r13 + 30], 5
+	pinsrb	xmm0, byte ptr [rsi + r13 + 31], 5
+	pinsrb	xmm12, byte ptr [rsi + rcx + 30], 6
+	pinsrb	xmm0, byte ptr [rsi + rcx + 31], 6
+	pinsrb	xmm12, byte ptr [rsi + rdx + 30], 7
+	pinsrb	xmm0, byte ptr [rsi + rdx + 31], 7
+	pinsrb	xmm12, byte ptr [rsi + r8 + 30], 8
+	pinsrb	xmm0, byte ptr [rsi + r8 + 31], 8
+	pinsrb	xmm12, byte ptr [rsi + r9 + 30], 9
+	pinsrb	xmm0, byte ptr [rsi + r9 + 31], 9
+	pinsrb	xmm12, byte ptr [rsi + rax + 30], 10
+	pinsrb	xmm0, byte ptr [rsi + rax + 31], 10
+	pinsrb	xmm12, byte ptr [rsi + r15 + 30], 11
+	pinsrb	xmm0, byte ptr [rsi + r15 + 31], 11
+	pinsrb	xmm12, byte ptr [rsi + r12 + 30], 12
+	pinsrb	xmm0, byte ptr [rsi + r12 + 31], 12
+	pinsrb	xmm12, byte ptr [rsi + rdi + 30], 13
+	pinsrb	xmm0, byte ptr [rsi + rdi + 31], 13
+	pinsrb	xmm12, byte ptr [rsi + rbx + 30], 14
+	pinsrb	xmm0, byte ptr [rsi + rbx + 31], 14
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + r10 + 30], 15
+	pinsrb	xmm0, byte ptr [rsi + r10 + 31], 15
+	por	xmm13, xmm11
+	pcmpgtb	xmm12, xmm15
+	pand	xmm12, xmm5
+	pcmpgtb	xmm0, xmm15
+	psllw	xmm0, 7
+	pand	xmm0, xmm6
+	por	xmm0, xmm12
+	por	xmm0, xmm13
+	movdqa	xmm1, xmm8
+	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
+	movdqa	xmm4, xmmword ptr [rsp + 208]   # 16-byte Reload
+	movdqa	xmm2, xmm4
+	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
+	movdqa	xmm3, xmm2
+	punpcklwd	xmm3, xmm1              # xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
+	punpckhwd	xmm2, xmm1              # xmm2 = xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
+	punpckhbw	xmm8, xmm0              # xmm8 = xmm8[8],xmm0[8],xmm8[9],xmm0[9],xmm8[10],xmm0[10],xmm8[11],xmm0[11],xmm8[12],xmm0[12],xmm8[13],xmm0[13],xmm8[14],xmm0[14],xmm8[15],xmm0[15]
+	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
+	movdqa	xmm0, xmm4
+	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
+	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm4
+	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm2
+	movdqu	xmmword ptr [rax + 4*rcx], xmm3
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	jne	.LBB7_85
+# %bb.86:
+	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
+	cmp	r10, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	mov	r14b, byte ptr [rsp]            # 1-byte Reload
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	jne	.LBB7_87
+	jmp	.LBB7_90
+.LBB7_66:
+	and	r10, -16
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 320], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 232], r10      # 8-byte Spill
+	lea	rax, [r12 + 4*r10]
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 288], xmm1   # 16-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_67:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 144], rax      # 8-byte Spill
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	shl	rax, 5
+	mov	rdx, rax
+	mov	r12, rax
+	mov	r11, rax
+	mov	rdi, rax
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	mov	r9, rax
+	mov	r15, rax
+	mov	r10, rax
+	mov	r14, rax
+	mov	r8, rax
+	mov	qword ptr [rsp + 104], rax      # 8-byte Spill
+	movzx	ecx, byte ptr [rsi + rax]
+	movd	xmm10, ecx
+	movzx	ecx, byte ptr [rsi + rax + 1]
+	movd	xmm4, ecx
+	movzx	ecx, byte ptr [rsi + rax + 2]
+	movd	xmm6, ecx
+	movzx	ecx, byte ptr [rsi + rax + 3]
+	movd	xmm5, ecx
+	movzx	ecx, byte ptr [rsi + rax + 4]
+	movd	xmm9, ecx
+	movzx	ecx, byte ptr [rsi + rax + 5]
+	movd	xmm7, ecx
+	movzx	ecx, byte ptr [rsi + rax + 6]
+	movd	xmm0, ecx
+	movzx	ecx, byte ptr [rsi + rax + 7]
+	movd	xmm1, ecx
+	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + rax + 8]
+	movd	xmm14, ecx
+	movzx	ecx, byte ptr [rsi + rax + 9]
+	movd	xmm1, ecx
+	movdqa	xmmword ptr [rsp + 192], xmm1   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + rax + 10]
+	movd	xmm2, ecx
+	movzx	ecx, byte ptr [rsi + rax + 11]
+	movd	xmm11, ecx
+	movzx	ecx, byte ptr [rsi + rax + 12]
+	movd	xmm1, ecx
+	movdqa	xmmword ptr [rsp + 304], xmm1   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + rax + 16]
+	movd	xmm13, ecx
+	mov	qword ptr [rsp + 96], rax       # 8-byte Spill
+	movzx	ecx, byte ptr [rsi + rax + 24]
+	movd	xmm15, ecx
+	mov	r13, rax
+	or	r13, 32
+	mov	qword ptr [rsp + 56], r13       # 8-byte Spill
+	or	rdx, 64
+	mov	qword ptr [rsp + 88], rdx       # 8-byte Spill
+	or	r12, 96
+	mov	qword ptr [rsp + 16], r12       # 8-byte Spill
+	or	r11, 128
+	or	rdi, 160
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	or	rcx, 192
+	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
+	or	r9, 224
+	or	r15, 256
+	mov	qword ptr [rsp + 112], r15      # 8-byte Spill
+	or	r10, 288
+	mov	qword ptr [rsp + 120], r10      # 8-byte Spill
+	or	r14, 320
+	or	r8, 352
+	mov	qword ptr [rsp + 208], r8       # 8-byte Spill
+	mov	r8, qword ptr [rsp + 104]       # 8-byte Reload
+	or	r8, 384
+	mov	rbx, rax
+	or	rbx, 416
+	mov	qword ptr [rsp], rbx            # 8-byte Spill
+	mov	rbx, rax
+	or	rbx, 448
+	mov	qword ptr [rsp + 24], rbx       # 8-byte Spill
+	mov	rbx, rax
+	or	rbx, 480
+	mov	qword ptr [rsp + 32], rbx       # 8-byte Spill
+	pinsrb	xmm10, byte ptr [rsi + r13], 1
+	pinsrb	xmm10, byte ptr [rsi + rdx], 2
+	pinsrb	xmm10, byte ptr [rsi + r12], 3
+	mov	r12, r11
+	mov	qword ptr [rsp + 48], r11       # 8-byte Spill
+	pinsrb	xmm10, byte ptr [rsi + r11], 4
+	pinsrb	xmm10, byte ptr [rsi + rdi], 5
+	mov	qword ptr [rsp + 64], rdi       # 8-byte Spill
+	pinsrb	xmm10, byte ptr [rsi + rcx], 6
+	pinsrb	xmm10, byte ptr [rsi + r9], 7
+	mov	r11, r9
+	pinsrb	xmm10, byte ptr [rsi + r15], 8
+	pinsrb	xmm10, byte ptr [rsi + r10], 9
+	pinsrb	xmm10, byte ptr [rsi + r14], 10
+	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r13], 11
+	pinsrb	xmm10, byte ptr [rsi + r8], 12
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rax], 13
+	mov	r15, rax
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rax], 14
+	pinsrb	xmm10, byte ptr [rsi + rbx], 15
+	movdqa	xmm8, xmm10
+	movdqa	xmm12, xmmword ptr [rsp + 288]  # 16-byte Reload
+	pminub	xmm8, xmm12
+	pcmpeqb	xmm8, xmm10
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r9 + 1], 1
+	pinsrb	xmm4, byte ptr [rsi + rdx + 1], 2
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rbx + 1], 3
+	pinsrb	xmm4, byte ptr [rsi + r12 + 1], 4
+	pinsrb	xmm4, byte ptr [rsi + rdi + 1], 5
+	pinsrb	xmm4, byte ptr [rsi + rcx + 1], 6
+	pinsrb	xmm4, byte ptr [rsi + r11 + 1], 7
+	mov	r10, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r10 + 1], 8
+	mov	rbx, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rbx + 1], 9
+	pinsrb	xmm4, byte ptr [rsi + r14 + 1], 10
+	pinsrb	xmm4, byte ptr [rsi + r13 + 1], 11
+	pinsrb	xmm4, byte ptr [rsi + r8 + 1], 12
+	pinsrb	xmm4, byte ptr [rsi + r15 + 1], 13
+	pinsrb	xmm4, byte ptr [rsi + rax + 1], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rax + 1], 15
+	pinsrb	xmm6, byte ptr [rsi + r9 + 2], 1
+	pinsrb	xmm6, byte ptr [rsi + rdx + 2], 2
+	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 3
+	pinsrb	xmm6, byte ptr [rsi + r12 + 2], 4
+	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 5
+	pinsrb	xmm6, byte ptr [rsi + rcx + 2], 6
+	pinsrb	xmm6, byte ptr [rsi + r11 + 2], 7
+	pinsrb	xmm6, byte ptr [rsi + r10 + 2], 8
+	pinsrb	xmm6, byte ptr [rsi + rbx + 2], 9
+	pinsrb	xmm6, byte ptr [rsi + r14 + 2], 10
+	pinsrb	xmm6, byte ptr [rsi + r13 + 2], 11
+	pinsrb	xmm6, byte ptr [rsi + r8 + 2], 12
+	mov	rdi, qword ptr [rsp]            # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rdi + 2], 13
+	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r15 + 2], 14
+	pinsrb	xmm6, byte ptr [rsi + rax + 2], 15
+	pinsrb	xmm14, byte ptr [rsi + r9 + 8], 1
+	pinsrb	xmm14, byte ptr [rsi + rdx + 8], 2
+	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r15 + 8], 3
+	pinsrb	xmm14, byte ptr [rsi + r12 + 8], 4
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdi + 8], 5
+	pinsrb	xmm14, byte ptr [rsi + rcx + 8], 6
+	pinsrb	xmm14, byte ptr [rsi + r11 + 8], 7
+	pinsrb	xmm14, byte ptr [rsi + r10 + 8], 8
+	pinsrb	xmm14, byte ptr [rsi + rbx + 8], 9
+	pinsrb	xmm14, byte ptr [rsi + r14 + 8], 10
+	pinsrb	xmm14, byte ptr [rsi + r13 + 8], 11
+	pinsrb	xmm14, byte ptr [rsi + r8 + 8], 12
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rax + 8], 13
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rax + 8], 14
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r10 + 8], 15
+	movdqa	xmm10, xmm14
+	pminub	xmm10, xmm12
+	pcmpeqb	xmm10, xmm14
+	pinsrb	xmm13, byte ptr [rsi + r9 + 16], 1
+	pinsrb	xmm13, byte ptr [rsi + rdx + 16], 2
+	mov	r9, r15
+	pinsrb	xmm13, byte ptr [rsi + r15 + 16], 3
+	pinsrb	xmm13, byte ptr [rsi + r12 + 16], 4
+	pinsrb	xmm13, byte ptr [rsi + rdi + 16], 5
+	pinsrb	xmm13, byte ptr [rsi + rcx + 16], 6
+	pinsrb	xmm13, byte ptr [rsi + r11 + 16], 7
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + r15 + 16], 8
+	pinsrb	xmm13, byte ptr [rsi + rbx + 16], 9
+	pinsrb	xmm13, byte ptr [rsi + r14 + 16], 10
+	pinsrb	xmm13, byte ptr [rsi + r13 + 16], 11
+	pinsrb	xmm13, byte ptr [rsi + r8 + 16], 12
+	mov	r12, qword ptr [rsp]            # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + r12 + 16], 13
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + rcx + 16], 14
+	pinsrb	xmm13, byte ptr [rsi + r10 + 16], 15
+	movdqa	xmm3, xmm13
+	pminub	xmm3, xmm12
+	pcmpeqb	xmm3, xmm13
+	movdqa	xmmword ptr [rsp + 272], xmm3   # 16-byte Spill
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rax + 24], 1
+	pinsrb	xmm15, byte ptr [rsi + rdx + 24], 2
+	pinsrb	xmm15, byte ptr [rsi + r9 + 24], 3
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + r9 + 24], 4
+	pinsrb	xmm15, byte ptr [rsi + rdi + 24], 5
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rax + 24], 6
+	pinsrb	xmm15, byte ptr [rsi + r11 + 24], 7
+	pinsrb	xmm15, byte ptr [rsi + r15 + 24], 8
+	pinsrb	xmm15, byte ptr [rsi + rbx + 24], 9
+	pinsrb	xmm15, byte ptr [rsi + r14 + 24], 10
+	pinsrb	xmm15, byte ptr [rsi + r13 + 24], 11
+	pinsrb	xmm15, byte ptr [rsi + r8 + 24], 12
+	pinsrb	xmm15, byte ptr [rsi + r12 + 24], 13
+	mov	r15, r12
+	pinsrb	xmm15, byte ptr [rsi + rcx + 24], 14
+	mov	rax, rcx
+	pinsrb	xmm15, byte ptr [rsi + r10 + 24], 15
+	movdqa	xmm3, xmm15
+	pminub	xmm3, xmm12
+	pcmpeqb	xmm3, xmm15
+	movdqa	xmmword ptr [rsp + 240], xmm3   # 16-byte Spill
+	movdqa	xmm14, xmm4
+	pminub	xmm14, xmm12
+	pcmpeqb	xmm14, xmm4
+	movdqa	xmm13, xmm14
+	movdqa	xmm4, xmmword ptr [rip + .LCPI7_10] # xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pandn	xmm13, xmm4
+	paddb	xmm13, xmm14
+	movdqa	xmm14, xmm6
+	pminub	xmm14, xmm12
+	pcmpeqb	xmm14, xmm6
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rcx + 13]
+	movd	xmm6, edx
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r12 + 3], 1
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rcx + 3], 2
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rdx + 3], 3
+	pinsrb	xmm5, byte ptr [rsi + r9 + 3], 4
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r10 + 3], 5
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rdx + 3], 6
+	mov	qword ptr [rsp + 80], r11       # 8-byte Spill
+	pinsrb	xmm5, byte ptr [rsi + r11 + 3], 7
+	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r9 + 3], 8
+	pinsrb	xmm5, byte ptr [rsi + rbx + 3], 9
+	mov	qword ptr [rsp + 160], r14      # 8-byte Spill
+	pinsrb	xmm5, byte ptr [rsi + r14 + 3], 10
+	pinsrb	xmm5, byte ptr [rsi + r13 + 3], 11
+	pinsrb	xmm5, byte ptr [rsi + r8 + 3], 12
+	pinsrb	xmm5, byte ptr [rsi + r15 + 3], 13
+	pinsrb	xmm5, byte ptr [rsi + rax + 3], 14
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r15 + 3], 15
+	pinsrb	xmm9, byte ptr [rsi + r12 + 4], 1
+	pinsrb	xmm9, byte ptr [rsi + rcx + 4], 2
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rdi + 4], 3
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rdi + 4], 4
+	pinsrb	xmm9, byte ptr [rsi + r10 + 4], 5
+	pinsrb	xmm9, byte ptr [rsi + rdx + 4], 6
+	pinsrb	xmm9, byte ptr [rsi + r11 + 4], 7
+	pinsrb	xmm9, byte ptr [rsi + r9 + 4], 8
+	pinsrb	xmm9, byte ptr [rsi + rbx + 4], 9
+	pinsrb	xmm9, byte ptr [rsi + r14 + 4], 10
+	pinsrb	xmm9, byte ptr [rsi + r13 + 4], 11
+	pinsrb	xmm9, byte ptr [rsi + r8 + 4], 12
+	mov	rdi, qword ptr [rsp]            # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rdi + 4], 13
+	pinsrb	xmm9, byte ptr [rsi + rax + 4], 14
+	pinsrb	xmm9, byte ptr [rsi + r15 + 4], 15
+	pinsrb	xmm7, byte ptr [rsi + r12 + 5], 1
+	pinsrb	xmm7, byte ptr [rsi + rcx + 5], 2
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdi + 5], 3
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdi + 5], 4
+	pinsrb	xmm7, byte ptr [rsi + r10 + 5], 5
+	pinsrb	xmm7, byte ptr [rsi + rdx + 5], 6
+	pinsrb	xmm7, byte ptr [rsi + r11 + 5], 7
+	pinsrb	xmm7, byte ptr [rsi + r9 + 5], 8
+	pinsrb	xmm7, byte ptr [rsi + rbx + 5], 9
+	pinsrb	xmm7, byte ptr [rsi + r14 + 5], 10
+	pinsrb	xmm7, byte ptr [rsi + r13 + 5], 11
+	pinsrb	xmm7, byte ptr [rsi + r8 + 5], 12
+	mov	rdi, qword ptr [rsp]            # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdi + 5], 13
+	pinsrb	xmm7, byte ptr [rsi + rax + 5], 14
+	pinsrb	xmm7, byte ptr [rsi + r15 + 5], 15
+	pinsrb	xmm0, byte ptr [rsi + r12 + 6], 1
+	pinsrb	xmm0, byte ptr [rsi + rcx + 6], 2
+	mov	r15, rcx
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r12 + 6], 3
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rcx + 6], 4
+	pinsrb	xmm0, byte ptr [rsi + r10 + 6], 5
+	pinsrb	xmm0, byte ptr [rsi + rdx + 6], 6
+	pinsrb	xmm0, byte ptr [rsi + r11 + 6], 7
+	pinsrb	xmm0, byte ptr [rsi + r9 + 6], 8
+	mov	r11, r9
+	pinsrb	xmm0, byte ptr [rsi + rbx + 6], 9
+	pinsrb	xmm0, byte ptr [rsi + r14 + 6], 10
+	pinsrb	xmm0, byte ptr [rsi + r13 + 6], 11
+	mov	r14, r13
+	pinsrb	xmm0, byte ptr [rsi + r8 + 6], 12
+	mov	r13, r8
+	mov	r8, qword ptr [rsp]             # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r8 + 6], 13
+	pandn	xmm8, xmm4
+	pinsrb	xmm0, byte ptr [rsi + rax + 6], 14
+	movdqa	xmm4, xmmword ptr [rip + .LCPI7_11] # xmm4 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pandn	xmm14, xmm4
+	por	xmm14, xmm8
+	movdqa	xmm15, xmm5
+	pminub	xmm15, xmm12
+	pcmpeqb	xmm15, xmm5
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 14]
+	movd	xmm5, edx
+	movdqa	xmm4, xmmword ptr [rip + .LCPI7_12] # xmm4 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pandn	xmm15, xmm4
+	por	xmm15, xmm14
+	movzx	edx, byte ptr [rsi + rax + 15]
+	movd	xmm8, edx
+	pcmpeqd	xmm3, xmm3
+	psubb	xmm13, xmm3
+	pcmpeqd	xmm14, xmm14
+	por	xmm15, xmm13
+	movdqa	xmm4, xmm9
+	pminub	xmm4, xmm12
+	pcmpeqb	xmm4, xmm9
+	movdqa	xmm9, xmm7
+	pminub	xmm9, xmm12
+	pcmpeqb	xmm9, xmm7
+	movzx	edx, byte ptr [rsi + rax + 17]
+	movd	xmm7, edx
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdi + 6], 15
+	movdqa	xmm1, xmmword ptr [rip + .LCPI7_13] # xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm4, xmm1
+	movdqa	xmm1, xmmword ptr [rip + .LCPI7_14] # xmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm9, xmm1
+	por	xmm9, xmm4
+	movdqa	xmm4, xmm0
+	pminub	xmm4, xmm12
+	pcmpeqb	xmm4, xmm0
+	movzx	edx, byte ptr [rsi + rax + 18]
+	movd	xmm1, edx
+	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rcx + 7], 1
+	pinsrb	xmm0, byte ptr [rsi + r15 + 7], 2
+	mov	rbx, r12
+	pinsrb	xmm0, byte ptr [rsi + r12 + 7], 3
+	mov	r9, qword ptr [rsp + 48]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r9 + 7], 4
+	pinsrb	xmm0, byte ptr [rsi + r10 + 7], 5
+	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r15 + 7], 6
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 7], 7
+	pinsrb	xmm0, byte ptr [rsi + r11 + 7], 8
+	mov	r12, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r12 + 7], 9
+	mov	r11, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r11 + 7], 10
+	pinsrb	xmm0, byte ptr [rsi + r14 + 7], 11
+	pinsrb	xmm0, byte ptr [rsi + r13 + 7], 12
+	pinsrb	xmm0, byte ptr [rsi + r8 + 7], 13
+	mov	rdx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 7], 14
+	pinsrb	xmm0, byte ptr [rsi + rdi + 7], 15
+	movdqa	xmm3, xmmword ptr [rip + .LCPI7_15] # xmm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm4, xmm3
+	por	xmm4, xmm9
+	movdqa	xmm9, xmm0
+	pminub	xmm9, xmm12
+	pcmpeqb	xmm9, xmm0
+	movzx	edx, byte ptr [rsi + rax + 19]
+	movd	xmm3, edx
+	pxor	xmm9, xmm14
+	psllw	xmm9, 7
+	movdqa	xmm0, xmmword ptr [rip + .LCPI7_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm9, xmm0
+	por	xmm9, xmm4
+	movdqa	xmm4, xmm9
+	movzx	edx, byte ptr [rsi + rax + 20]
+	movd	xmm9, edx
+	movdqa	xmm0, xmmword ptr [rsp + 192]   # 16-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rcx + 9], 1
+	mov	rax, rcx
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rcx + 9], 2
+	pinsrb	xmm0, byte ptr [rsi + rbx + 9], 3
+	pinsrb	xmm0, byte ptr [rsi + r9 + 9], 4
+	pinsrb	xmm0, byte ptr [rsi + r10 + 9], 5
+	pinsrb	xmm0, byte ptr [rsi + r15 + 9], 6
+	mov	r8, r15
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdi + 9], 7
+	mov	r15, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r15 + 9], 8
+	pinsrb	xmm0, byte ptr [rsi + r12 + 9], 9
+	mov	r10, r12
+	pinsrb	xmm0, byte ptr [rsi + r11 + 9], 10
+	pinsrb	xmm0, byte ptr [rsi + r14 + 9], 11
+	pinsrb	xmm0, byte ptr [rsi + r13 + 9], 12
+	mov	qword ptr [rsp + 104], r13      # 8-byte Spill
+	mov	r12, qword ptr [rsp]            # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r12 + 9], 13
+	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r9 + 9], 14
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 9], 15
+	pinsrb	xmm2, byte ptr [rsi + rax + 10], 1
+	pinsrb	xmm2, byte ptr [rsi + rcx + 10], 2
+	pinsrb	xmm2, byte ptr [rsi + rbx + 10], 3
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rbx + 10], 4
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rax + 10], 5
+	pinsrb	xmm2, byte ptr [rsi + r8 + 10], 6
+	pinsrb	xmm2, byte ptr [rsi + rdi + 10], 7
+	pinsrb	xmm2, byte ptr [rsi + r15 + 10], 8
+	pinsrb	xmm2, byte ptr [rsi + r10 + 10], 9
+	pinsrb	xmm2, byte ptr [rsi + r11 + 10], 10
+	pinsrb	xmm2, byte ptr [rsi + r14 + 10], 11
+	pinsrb	xmm2, byte ptr [rsi + r13 + 10], 12
+	pinsrb	xmm2, byte ptr [rsi + r12 + 10], 13
+	pinsrb	xmm2, byte ptr [rsi + r9 + 10], 14
+	mov	r11, r9
+	pinsrb	xmm2, byte ptr [rsi + rdx + 10], 15
+	mov	r12, rdx
+	por	xmm4, xmm15
+	movdqa	xmmword ptr [rsp + 192], xmm4   # 16-byte Spill
+	movdqa	xmm4, xmm0
+	pminub	xmm4, xmm12
+	pcmpeqb	xmm4, xmm0
+	movdqa	xmm13, xmm4
+	movdqa	xmm14, xmmword ptr [rip + .LCPI7_10] # xmm14 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pandn	xmm13, xmm14
+	paddb	xmm13, xmm4
+	movdqa	xmm0, xmm2
+	pminub	xmm0, xmm12
+	pcmpeqb	xmm0, xmm2
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 21]
+	movd	xmm4, edx
+	pandn	xmm10, xmm14
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r8 + 11], 1
+	mov	r13, rcx
+	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 2
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rcx + 11], 3
+	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 4
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdi + 11], 5
+	mov	rdx, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 6
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdx + 11], 7
+	pinsrb	xmm11, byte ptr [rsi + r15 + 11], 8
+	mov	r9, r10
+	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 9
+	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r10 + 11], 10
+	pinsrb	xmm11, byte ptr [rsi + r14 + 11], 11
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r14 + 11], 12
+	mov	rbx, qword ptr [rsp]            # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rbx + 11], 13
+	pinsrb	xmm11, byte ptr [rsi + r11 + 11], 14
+	pinsrb	xmm11, byte ptr [rsi + r12 + 11], 15
+	pandn	xmm0, xmmword ptr [rip + .LCPI7_11]
+	por	xmm0, xmm10
+	movdqa	xmm10, xmm11
+	pminub	xmm10, xmm12
+	pcmpeqb	xmm10, xmm11
+	movzx	edx, byte ptr [rsi + rax + 22]
+	movd	xmm15, edx
+	pandn	xmm10, xmmword ptr [rip + .LCPI7_12]
+	por	xmm10, xmm0
+	movzx	edx, byte ptr [rsi + rax + 23]
+	movd	xmm11, edx
+	movdqa	xmm0, xmmword ptr [rsp + 304]   # 16-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r8 + 12], 1
+	mov	rax, r13
+	pinsrb	xmm0, byte ptr [rsi + r13 + 12], 2
+	mov	rdx, rcx
+	pinsrb	xmm0, byte ptr [rsi + rcx + 12], 3
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r15 + 12], 4
+	pinsrb	xmm0, byte ptr [rsi + rdi + 12], 5
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rcx + 12], 6
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdi + 12], 7
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r11 + 12], 8
+	pinsrb	xmm0, byte ptr [rsi + r9 + 12], 9
+	pinsrb	xmm0, byte ptr [rsi + r10 + 12], 10
+	mov	r13, qword ptr [rsp + 208]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r13 + 12], 11
+	pinsrb	xmm0, byte ptr [rsi + r14 + 12], 12
+	pinsrb	xmm0, byte ptr [rsi + rbx + 12], 13
+	mov	r10, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r10 + 12], 14
+	pinsrb	xmm0, byte ptr [rsi + r12 + 12], 15
+	pinsrb	xmm6, byte ptr [rsi + r8 + 13], 1
+	pinsrb	xmm6, byte ptr [rsi + rax + 13], 2
+	pinsrb	xmm6, byte ptr [rsi + rdx + 13], 3
+	mov	rax, r15
+	pinsrb	xmm6, byte ptr [rsi + r15 + 13], 4
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r15 + 13], 5
+	pinsrb	xmm6, byte ptr [rsi + rcx + 13], 6
+	pinsrb	xmm6, byte ptr [rsi + rdi + 13], 7
+	pinsrb	xmm6, byte ptr [rsi + r11 + 13], 8
+	pinsrb	xmm6, byte ptr [rsi + r9 + 13], 9
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rdi + 13], 10
+	pinsrb	xmm6, byte ptr [rsi + r13 + 13], 11
+	pinsrb	xmm6, byte ptr [rsi + r14 + 13], 12
+	pinsrb	xmm6, byte ptr [rsi + rbx + 13], 13
+	mov	r8, r10
+	pinsrb	xmm6, byte ptr [rsi + r10 + 13], 14
+	pinsrb	xmm6, byte ptr [rsi + r12 + 13], 15
+	psubb	xmm13, xmmword ptr [rip + .LCPI7_16]
+	por	xmm10, xmm13
+	movdqa	xmm2, xmm0
+	movdqa	xmm13, xmm12
+	pminub	xmm2, xmm12
+	pcmpeqb	xmm2, xmm0
+	movdqa	xmm0, xmm6
+	pminub	xmm0, xmm12
+	pcmpeqb	xmm0, xmm6
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rcx + 25]
+	movd	xmm12, edx
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rbx + 14], 1
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rcx + 14], 2
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r12 + 14], 3
+	mov	rdx, rax
+	pinsrb	xmm5, byte ptr [rsi + rax + 14], 4
+	mov	r9, r15
+	pinsrb	xmm5, byte ptr [rsi + r15 + 14], 5
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rcx + 14], 6
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r10 + 14], 7
+	mov	r15, r11
+	pinsrb	xmm5, byte ptr [rsi + r11 + 14], 8
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r11 + 14], 9
+	pinsrb	xmm5, byte ptr [rsi + rdi + 14], 10
+	mov	r14, r13
+	pinsrb	xmm5, byte ptr [rsi + r13 + 14], 11
+	mov	r13, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r13 + 14], 12
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 14], 13
+	pinsrb	xmm5, byte ptr [rsi + r8 + 14], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 14], 15
+	pinsrb	xmm8, byte ptr [rsi + rbx + 15], 1
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r8 + 15], 2
+	pinsrb	xmm8, byte ptr [rsi + r12 + 15], 3
+	pinsrb	xmm8, byte ptr [rsi + rdx + 15], 4
+	pinsrb	xmm8, byte ptr [rsi + r9 + 15], 5
+	pinsrb	xmm8, byte ptr [rsi + rcx + 15], 6
+	pinsrb	xmm8, byte ptr [rsi + r10 + 15], 7
+	pinsrb	xmm8, byte ptr [rsi + r15 + 15], 8
+	pinsrb	xmm8, byte ptr [rsi + r11 + 15], 9
+	pinsrb	xmm8, byte ptr [rsi + rdi + 15], 10
+	pinsrb	xmm8, byte ptr [rsi + r14 + 15], 11
+	pinsrb	xmm8, byte ptr [rsi + r13 + 15], 12
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rax + 15], 13
+	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r8 + 15], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rax + 15], 15
+	pinsrb	xmm7, byte ptr [rsi + rbx + 17], 1
+	mov	rax, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 17], 2
+	pinsrb	xmm7, byte ptr [rsi + r12 + 17], 3
+	pinsrb	xmm7, byte ptr [rsi + rdx + 17], 4
+	pinsrb	xmm7, byte ptr [rsi + r9 + 17], 5
+	pinsrb	xmm7, byte ptr [rsi + rcx + 17], 6
+	pinsrb	xmm7, byte ptr [rsi + r10 + 17], 7
+	pinsrb	xmm7, byte ptr [rsi + r15 + 17], 8
+	pinsrb	xmm7, byte ptr [rsi + r11 + 17], 9
+	pinsrb	xmm7, byte ptr [rsi + rdi + 17], 10
+	pinsrb	xmm7, byte ptr [rsi + r14 + 17], 11
+	pinsrb	xmm7, byte ptr [rsi + r13 + 17], 12
+	mov	rax, qword ptr [rsp]            # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 17], 13
+	pinsrb	xmm7, byte ptr [rsi + r8 + 17], 14
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rax + 17], 15
+	pinsrb	xmm1, byte ptr [rsi + rbx + 18], 1
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + rbx + 18], 2
+	pinsrb	xmm1, byte ptr [rsi + r12 + 18], 3
+	pinsrb	xmm1, byte ptr [rsi + rdx + 18], 4
+	pinsrb	xmm1, byte ptr [rsi + r9 + 18], 5
+	pinsrb	xmm1, byte ptr [rsi + rcx + 18], 6
+	pinsrb	xmm1, byte ptr [rsi + r10 + 18], 7
+	pinsrb	xmm1, byte ptr [rsi + r15 + 18], 8
+	mov	r12, r15
+	pinsrb	xmm1, byte ptr [rsi + r11 + 18], 9
+	pinsrb	xmm1, byte ptr [rsi + rdi + 18], 10
+	mov	r10, rdi
+	pinsrb	xmm1, byte ptr [rsi + r14 + 18], 11
+	mov	r15, r14
+	pinsrb	xmm1, byte ptr [rsi + r13 + 18], 12
+	mov	r9, qword ptr [rsp]             # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + r9 + 18], 13
+	pandn	xmm2, xmmword ptr [rip + .LCPI7_13]
+	pandn	xmm0, xmmword ptr [rip + .LCPI7_14]
+	por	xmm0, xmm2
+	movdqa	xmm2, xmm5
+	pminub	xmm2, xmm13
+	pcmpeqb	xmm2, xmm5
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 26]
+	movd	xmm5, edx
+	pinsrb	xmm1, byte ptr [rsi + r8 + 18], 14
+	pandn	xmm2, xmmword ptr [rip + .LCPI7_15]
+	por	xmm2, xmm0
+	movdqa	xmm6, xmm8
+	pminub	xmm6, xmm13
+	pcmpeqb	xmm6, xmm8
+	movzx	edx, byte ptr [rsi + rax + 27]
+	movd	xmm0, edx
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + rcx + 18], 15
+	pxor	xmm6, xmmword ptr [rip + .LCPI7_16]
+	psllw	xmm6, 7
+	pand	xmm6, xmmword ptr [rip + .LCPI7_6]
+	por	xmm6, xmm2
+	movzx	edx, byte ptr [rsi + rax + 28]
+	movd	xmm8, edx
+	por	xmm6, xmm10
+	movdqa	xmmword ptr [rsp + 176], xmm6   # 16-byte Spill
+	movdqa	xmm2, xmm7
+	pminub	xmm2, xmm13
+	pcmpeqb	xmm2, xmm7
+	movdqa	xmm14, xmm2
+	pandn	xmm14, xmmword ptr [rip + .LCPI7_10]
+	paddb	xmm14, xmm2
+	movdqa	xmm10, xmm1
+	pminub	xmm10, xmm13
+	pcmpeqb	xmm10, xmm1
+	movzx	edx, byte ptr [rsi + rax + 29]
+	movd	xmm6, edx
+	movzx	edx, byte ptr [rsi + rax + 30]
+	movzx	edi, byte ptr [rsi + rax + 31]
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rax + 19], 1
+	pinsrb	xmm9, byte ptr [rsi + rax + 20], 1
+	pinsrb	xmm4, byte ptr [rsi + rax + 21], 1
+	pinsrb	xmm15, byte ptr [rsi + rax + 22], 1
+	pinsrb	xmm11, byte ptr [rsi + rax + 23], 1
+	pinsrb	xmm12, byte ptr [rsi + rax + 25], 1
+	pinsrb	xmm5, byte ptr [rsi + rax + 26], 1
+	pinsrb	xmm0, byte ptr [rsi + rax + 27], 1
+	pinsrb	xmm8, byte ptr [rsi + rax + 28], 1
+	pinsrb	xmm6, byte ptr [rsi + rax + 29], 1
+	movd	xmm1, edx
+	pinsrb	xmm1, byte ptr [rsi + rax + 30], 1
+	movd	xmm7, edi
+	pinsrb	xmm7, byte ptr [rsi + rax + 31], 1
+	mov	rax, rbx
+	pinsrb	xmm3, byte ptr [rsi + rbx + 19], 2
+	pinsrb	xmm9, byte ptr [rsi + rbx + 20], 2
+	pinsrb	xmm4, byte ptr [rsi + rbx + 21], 2
+	pinsrb	xmm15, byte ptr [rsi + rbx + 22], 2
+	pinsrb	xmm11, byte ptr [rsi + rbx + 23], 2
+	pinsrb	xmm12, byte ptr [rsi + rbx + 25], 2
+	pinsrb	xmm5, byte ptr [rsi + rbx + 26], 2
+	pinsrb	xmm0, byte ptr [rsi + rbx + 27], 2
+	pinsrb	xmm8, byte ptr [rsi + rbx + 28], 2
+	pinsrb	xmm6, byte ptr [rsi + rbx + 29], 2
+	pinsrb	xmm1, byte ptr [rsi + rbx + 30], 2
+	pinsrb	xmm7, byte ptr [rsi + rbx + 31], 2
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rax + 19], 3
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdx + 19], 4
+	mov	r13, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r13 + 19], 5
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdi + 19], 6
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r11 + 19], 7
+	pinsrb	xmm3, byte ptr [rsi + r12 + 19], 8
+	mov	r14, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r14 + 19], 9
+	pinsrb	xmm3, byte ptr [rsi + r10 + 19], 10
+	pinsrb	xmm3, byte ptr [rsi + r15 + 19], 11
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rbx + 19], 12
+	pinsrb	xmm3, byte ptr [rsi + r9 + 19], 13
+	pinsrb	xmm3, byte ptr [rsi + r8 + 19], 14
+	pinsrb	xmm3, byte ptr [rsi + rcx + 19], 15
+	pinsrb	xmm9, byte ptr [rsi + rax + 20], 3
+	pinsrb	xmm9, byte ptr [rsi + rdx + 20], 4
+	pinsrb	xmm9, byte ptr [rsi + r13 + 20], 5
+	pinsrb	xmm9, byte ptr [rsi + rdi + 20], 6
+	pinsrb	xmm9, byte ptr [rsi + r11 + 20], 7
+	pinsrb	xmm9, byte ptr [rsi + r12 + 20], 8
+	pinsrb	xmm9, byte ptr [rsi + r14 + 20], 9
+	pinsrb	xmm9, byte ptr [rsi + r10 + 20], 10
+	pinsrb	xmm9, byte ptr [rsi + r15 + 20], 11
+	pinsrb	xmm9, byte ptr [rsi + rbx + 20], 12
+	pinsrb	xmm9, byte ptr [rsi + r9 + 20], 13
+	pinsrb	xmm9, byte ptr [rsi + r8 + 20], 14
+	pinsrb	xmm9, byte ptr [rsi + rcx + 20], 15
+	pinsrb	xmm4, byte ptr [rsi + rax + 21], 3
+	pinsrb	xmm4, byte ptr [rsi + rdx + 21], 4
+	pinsrb	xmm4, byte ptr [rsi + r13 + 21], 5
+	pinsrb	xmm4, byte ptr [rsi + rdi + 21], 6
+	pinsrb	xmm4, byte ptr [rsi + r11 + 21], 7
+	pinsrb	xmm4, byte ptr [rsi + r12 + 21], 8
+	pinsrb	xmm4, byte ptr [rsi + r14 + 21], 9
+	pinsrb	xmm4, byte ptr [rsi + r10 + 21], 10
+	pinsrb	xmm4, byte ptr [rsi + r15 + 21], 11
+	pinsrb	xmm4, byte ptr [rsi + rbx + 21], 12
+	pinsrb	xmm4, byte ptr [rsi + r9 + 21], 13
+	pinsrb	xmm4, byte ptr [rsi + r8 + 21], 14
+	pinsrb	xmm4, byte ptr [rsi + rcx + 21], 15
+	pinsrb	xmm15, byte ptr [rsi + rax + 22], 3
+	pinsrb	xmm15, byte ptr [rsi + rdx + 22], 4
+	pinsrb	xmm15, byte ptr [rsi + r13 + 22], 5
+	pinsrb	xmm15, byte ptr [rsi + rdi + 22], 6
+	pinsrb	xmm15, byte ptr [rsi + r11 + 22], 7
+	pinsrb	xmm15, byte ptr [rsi + r12 + 22], 8
+	pinsrb	xmm15, byte ptr [rsi + r14 + 22], 9
+	pinsrb	xmm15, byte ptr [rsi + r10 + 22], 10
+	movdqa	xmm2, xmmword ptr [rsp + 272]   # 16-byte Reload
+	pandn	xmm2, xmmword ptr [rip + .LCPI7_10]
+	pinsrb	xmm15, byte ptr [rsi + r15 + 22], 11
+	pandn	xmm10, xmmword ptr [rip + .LCPI7_11]
+	por	xmm10, xmm2
+	pinsrb	xmm15, byte ptr [rsi + rbx + 22], 12
+	movdqa	xmm2, xmm3
+	pminub	xmm2, xmm13
+	pcmpeqb	xmm2, xmm3
+	pinsrb	xmm15, byte ptr [rsi + r9 + 22], 13
+	pandn	xmm2, xmmword ptr [rip + .LCPI7_12]
+	por	xmm2, xmm10
+	pinsrb	xmm15, byte ptr [rsi + r8 + 22], 14
+	psubb	xmm14, xmmword ptr [rip + .LCPI7_16]
+	por	xmm2, xmm14
+	movdqa	xmm10, xmm9
+	pminub	xmm10, xmm13
+	pcmpeqb	xmm10, xmm9
+	movdqa	xmm3, xmm4
+	movdqa	xmm9, xmm13
+	pminub	xmm3, xmm13
+	pcmpeqb	xmm3, xmm4
+	pinsrb	xmm15, byte ptr [rsi + rcx + 22], 15
+	movdqa	xmm13, xmmword ptr [rip + .LCPI7_13] # xmm13 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm10, xmm13
+	movdqa	xmm4, xmmword ptr [rip + .LCPI7_14] # xmm4 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm3, xmm4
+	por	xmm3, xmm10
+	movdqa	xmm4, xmm15
+	pminub	xmm4, xmm9
+	movdqa	xmm13, xmm9
+	pcmpeqb	xmm4, xmm15
+	pinsrb	xmm11, byte ptr [rsi + rax + 23], 3
+	pinsrb	xmm11, byte ptr [rsi + rdx + 23], 4
+	pinsrb	xmm11, byte ptr [rsi + r13 + 23], 5
+	pinsrb	xmm11, byte ptr [rsi + rdi + 23], 6
+	pinsrb	xmm11, byte ptr [rsi + r11 + 23], 7
+	pinsrb	xmm11, byte ptr [rsi + r12 + 23], 8
+	pinsrb	xmm11, byte ptr [rsi + r14 + 23], 9
+	pinsrb	xmm11, byte ptr [rsi + r10 + 23], 10
+	pinsrb	xmm11, byte ptr [rsi + r15 + 23], 11
+	pinsrb	xmm11, byte ptr [rsi + rbx + 23], 12
+	pinsrb	xmm11, byte ptr [rsi + r9 + 23], 13
+	pinsrb	xmm11, byte ptr [rsi + r8 + 23], 14
+	pinsrb	xmm11, byte ptr [rsi + rcx + 23], 15
+	movdqa	xmm15, xmmword ptr [rip + .LCPI7_15] # xmm15 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm4, xmm15
+	por	xmm4, xmm3
+	movdqa	xmm3, xmm11
+	pminub	xmm3, xmm9
+	pcmpeqb	xmm3, xmm11
+	pxor	xmm3, xmmword ptr [rip + .LCPI7_16]
+	psllw	xmm3, 7
+	movdqa	xmm11, xmmword ptr [rip + .LCPI7_6] # xmm11 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm3, xmm11
+	por	xmm3, xmm4
+	pinsrb	xmm12, byte ptr [rsi + rax + 25], 3
+	pinsrb	xmm12, byte ptr [rsi + rdx + 25], 4
+	pinsrb	xmm12, byte ptr [rsi + r13 + 25], 5
+	pinsrb	xmm12, byte ptr [rsi + rdi + 25], 6
+	pinsrb	xmm12, byte ptr [rsi + r11 + 25], 7
+	pinsrb	xmm12, byte ptr [rsi + r12 + 25], 8
+	pinsrb	xmm12, byte ptr [rsi + r14 + 25], 9
+	pinsrb	xmm12, byte ptr [rsi + r10 + 25], 10
+	pinsrb	xmm12, byte ptr [rsi + r15 + 25], 11
+	pinsrb	xmm12, byte ptr [rsi + rbx + 25], 12
+	pinsrb	xmm12, byte ptr [rsi + r9 + 25], 13
+	pinsrb	xmm12, byte ptr [rsi + r8 + 25], 14
+	pinsrb	xmm12, byte ptr [rsi + rcx + 25], 15
+	pinsrb	xmm5, byte ptr [rsi + rax + 26], 3
+	pinsrb	xmm5, byte ptr [rsi + rdx + 26], 4
+	pinsrb	xmm5, byte ptr [rsi + r13 + 26], 5
+	pinsrb	xmm5, byte ptr [rsi + rdi + 26], 6
+	pinsrb	xmm5, byte ptr [rsi + r11 + 26], 7
+	pinsrb	xmm5, byte ptr [rsi + r12 + 26], 8
+	pinsrb	xmm5, byte ptr [rsi + r14 + 26], 9
+	pinsrb	xmm5, byte ptr [rsi + r10 + 26], 10
+	pinsrb	xmm5, byte ptr [rsi + r15 + 26], 11
+	pinsrb	xmm5, byte ptr [rsi + rbx + 26], 12
+	pinsrb	xmm5, byte ptr [rsi + r9 + 26], 13
+	pinsrb	xmm5, byte ptr [rsi + r8 + 26], 14
+	pinsrb	xmm5, byte ptr [rsi + rcx + 26], 15
+	por	xmm3, xmm2
+	movdqa	xmm2, xmm12
+	pminub	xmm2, xmm9
+	pcmpeqb	xmm2, xmm12
+	movdqa	xmm9, xmm2
+	movdqa	xmm10, xmmword ptr [rip + .LCPI7_10] # xmm10 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pandn	xmm9, xmm10
+	paddb	xmm9, xmm2
+	movdqa	xmm4, xmm5
+	pminub	xmm4, xmm13
+	pcmpeqb	xmm4, xmm5
+	movdqa	xmm2, xmmword ptr [rsp + 240]   # 16-byte Reload
+	pandn	xmm2, xmm10
+	pinsrb	xmm0, byte ptr [rsi + rax + 27], 3
+	pinsrb	xmm0, byte ptr [rsi + rdx + 27], 4
+	pinsrb	xmm0, byte ptr [rsi + r13 + 27], 5
+	pinsrb	xmm0, byte ptr [rsi + rdi + 27], 6
+	pinsrb	xmm0, byte ptr [rsi + r11 + 27], 7
+	pinsrb	xmm0, byte ptr [rsi + r12 + 27], 8
+	pinsrb	xmm0, byte ptr [rsi + r14 + 27], 9
+	pinsrb	xmm0, byte ptr [rsi + r10 + 27], 10
+	pinsrb	xmm0, byte ptr [rsi + r15 + 27], 11
+	pinsrb	xmm0, byte ptr [rsi + rbx + 27], 12
+	pinsrb	xmm0, byte ptr [rsi + r9 + 27], 13
+	pinsrb	xmm0, byte ptr [rsi + r8 + 27], 14
+	pinsrb	xmm0, byte ptr [rsi + rcx + 27], 15
+	pandn	xmm4, xmmword ptr [rip + .LCPI7_11]
+	por	xmm4, xmm2
+	movdqa	xmm2, xmm0
+	pminub	xmm2, xmm13
+	pcmpeqb	xmm2, xmm0
+	pandn	xmm2, xmmword ptr [rip + .LCPI7_12]
+	por	xmm2, xmm4
+	pinsrb	xmm8, byte ptr [rsi + rax + 28], 3
+	pinsrb	xmm8, byte ptr [rsi + rdx + 28], 4
+	pinsrb	xmm8, byte ptr [rsi + r13 + 28], 5
+	pinsrb	xmm8, byte ptr [rsi + rdi + 28], 6
+	pinsrb	xmm8, byte ptr [rsi + r11 + 28], 7
+	pinsrb	xmm8, byte ptr [rsi + r12 + 28], 8
+	pinsrb	xmm8, byte ptr [rsi + r14 + 28], 9
+	pinsrb	xmm8, byte ptr [rsi + r10 + 28], 10
+	pinsrb	xmm8, byte ptr [rsi + r15 + 28], 11
+	pinsrb	xmm8, byte ptr [rsi + rbx + 28], 12
+	pinsrb	xmm8, byte ptr [rsi + r9 + 28], 13
+	pinsrb	xmm8, byte ptr [rsi + r8 + 28], 14
+	pinsrb	xmm8, byte ptr [rsi + rcx + 28], 15
+	pinsrb	xmm6, byte ptr [rsi + rax + 29], 3
+	pinsrb	xmm6, byte ptr [rsi + rdx + 29], 4
+	pinsrb	xmm6, byte ptr [rsi + r13 + 29], 5
+	pinsrb	xmm6, byte ptr [rsi + rdi + 29], 6
+	pinsrb	xmm6, byte ptr [rsi + r11 + 29], 7
+	pinsrb	xmm6, byte ptr [rsi + r12 + 29], 8
+	pinsrb	xmm6, byte ptr [rsi + r14 + 29], 9
+	pinsrb	xmm6, byte ptr [rsi + r10 + 29], 10
+	pinsrb	xmm6, byte ptr [rsi + r15 + 29], 11
+	pinsrb	xmm6, byte ptr [rsi + rbx + 29], 12
+	pinsrb	xmm6, byte ptr [rsi + r9 + 29], 13
+	pinsrb	xmm6, byte ptr [rsi + r8 + 29], 14
+	pinsrb	xmm6, byte ptr [rsi + rcx + 29], 15
+	pcmpeqd	xmm10, xmm10
+	psubb	xmm9, xmm10
+	por	xmm2, xmm9
+	movdqa	xmm0, xmm8
+	pminub	xmm0, xmm13
+	pcmpeqb	xmm0, xmm8
+	movdqa	xmm4, xmm6
+	pminub	xmm4, xmm13
+	pcmpeqb	xmm4, xmm6
+	pinsrb	xmm1, byte ptr [rsi + rax + 30], 3
+	pinsrb	xmm7, byte ptr [rsi + rax + 31], 3
+	pinsrb	xmm1, byte ptr [rsi + rdx + 30], 4
+	pinsrb	xmm7, byte ptr [rsi + rdx + 31], 4
+	pinsrb	xmm1, byte ptr [rsi + r13 + 30], 5
+	pinsrb	xmm7, byte ptr [rsi + r13 + 31], 5
+	pinsrb	xmm1, byte ptr [rsi + rdi + 30], 6
+	pinsrb	xmm7, byte ptr [rsi + rdi + 31], 6
+	pinsrb	xmm1, byte ptr [rsi + r11 + 30], 7
+	pinsrb	xmm7, byte ptr [rsi + r11 + 31], 7
+	pinsrb	xmm1, byte ptr [rsi + r12 + 30], 8
+	pinsrb	xmm7, byte ptr [rsi + r12 + 31], 8
+	pinsrb	xmm1, byte ptr [rsi + r14 + 30], 9
+	pinsrb	xmm7, byte ptr [rsi + r14 + 31], 9
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + r10 + 30], 10
+	pinsrb	xmm7, byte ptr [rsi + r10 + 31], 10
+	pinsrb	xmm1, byte ptr [rsi + r15 + 30], 11
+	pinsrb	xmm7, byte ptr [rsi + r15 + 31], 11
+	pinsrb	xmm1, byte ptr [rsi + rbx + 30], 12
+	pinsrb	xmm7, byte ptr [rsi + rbx + 31], 12
+	pinsrb	xmm1, byte ptr [rsi + r9 + 30], 13
+	pinsrb	xmm7, byte ptr [rsi + r9 + 31], 13
+	pinsrb	xmm1, byte ptr [rsi + r8 + 30], 14
+	pinsrb	xmm7, byte ptr [rsi + r8 + 31], 14
+	pinsrb	xmm1, byte ptr [rsi + rcx + 30], 15
+	pinsrb	xmm7, byte ptr [rsi + rcx + 31], 15
+	pandn	xmm0, xmmword ptr [rip + .LCPI7_13]
+	pandn	xmm4, xmmword ptr [rip + .LCPI7_14]
+	por	xmm4, xmm0
+	movdqa	xmm0, xmm1
+	pminub	xmm0, xmm13
+	pcmpeqb	xmm0, xmm1
+	pandn	xmm0, xmm15
+	por	xmm0, xmm4
+	movdqa	xmm1, xmm7
+	pminub	xmm1, xmm13
+	pcmpeqb	xmm1, xmm7
+	pxor	xmm1, xmm10
+	psllw	xmm1, 7
+	pand	xmm1, xmm11
+	por	xmm1, xmm0
+	por	xmm1, xmm2
+	movdqa	xmm0, xmm3
+	punpcklbw	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
+	movdqa	xmm5, xmmword ptr [rsp + 192]   # 16-byte Reload
+	movdqa	xmm2, xmm5
+	movdqa	xmm6, xmmword ptr [rsp + 176]   # 16-byte Reload
+	punpcklbw	xmm2, xmm6              # xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1],xmm2[2],xmm6[2],xmm2[3],xmm6[3],xmm2[4],xmm6[4],xmm2[5],xmm6[5],xmm2[6],xmm6[6],xmm2[7],xmm6[7]
+	movdqa	xmm4, xmm2
+	punpcklwd	xmm4, xmm0              # xmm4 = xmm4[0],xmm0[0],xmm4[1],xmm0[1],xmm4[2],xmm0[2],xmm4[3],xmm0[3]
+	punpckhwd	xmm2, xmm0              # xmm2 = xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
+	punpckhbw	xmm3, xmm1              # xmm3 = xmm3[8],xmm1[8],xmm3[9],xmm1[9],xmm3[10],xmm1[10],xmm3[11],xmm1[11],xmm3[12],xmm1[12],xmm3[13],xmm1[13],xmm3[14],xmm1[14],xmm3[15],xmm1[15]
+	punpckhbw	xmm5, xmm6              # xmm5 = xmm5[8],xmm6[8],xmm5[9],xmm6[9],xmm5[10],xmm6[10],xmm5[11],xmm6[11],xmm5[12],xmm6[12],xmm5[13],xmm6[13],xmm5[14],xmm6[14],xmm5[15],xmm6[15]
+	movdqa	xmm0, xmm5
+	punpcklwd	xmm0, xmm3              # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
+	punpckhwd	xmm5, xmm3              # xmm5 = xmm5[4],xmm3[4],xmm5[5],xmm3[5],xmm5[6],xmm3[6],xmm5[7],xmm3[7]
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	movdqu	xmmword ptr [rax + 4*rcx + 48], xmm5
+	movdqu	xmmword ptr [rax + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm2
+	movdqu	xmmword ptr [rax + 4*rcx], xmm4
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	jne	.LBB7_67
+# %bb.68:
+	mov	r10, qword ptr [rsp + 264]      # 8-byte Reload
+	cmp	r10, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r14, qword ptr [rsp + 320]      # 8-byte Reload
+	jne	.LBB7_69
+	jmp	.LBB7_72
+.LBB7_180:
+	mov	r8, r10
+	and	r8, -4
+	mov	rbx, r8
+	shl	rbx, 7
+	add	rbx, rsi
+	lea	r14, [r12 + 4*r8]
+	movaps	xmm13, xmm11
+	shufps	xmm13, xmm11, 0                 # xmm13 = xmm13[0,0],xmm11[0,0]
+	add	rsi, 508
+	xor	ecx, ecx
+	movdqa	xmm15, xmmword ptr [rip + .LCPI7_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	.p2align	4, 0x90
+.LBB7_181:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm3, dword ptr [rsi - 508]     # xmm3 = mem[0],zero,zero,zero
+	movss	xmm10, dword ptr [rsi - 504]    # xmm10 = mem[0],zero,zero,zero
+	movss	xmm9, dword ptr [rsi - 500]     # xmm9 = mem[0],zero,zero,zero
+	movss	xmm1, dword ptr [rsi - 496]     # xmm1 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 380], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 252], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 124], 48 # xmm3 = xmm3[0,1,2],mem[0]
+	insertps	xmm10, dword ptr [rsi - 376], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
+	insertps	xmm10, dword ptr [rsi - 248], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
+	insertps	xmm10, dword ptr [rsi - 120], 48 # xmm10 = xmm10[0,1,2],mem[0]
+	insertps	xmm9, dword ptr [rsi - 372], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
+	insertps	xmm9, dword ptr [rsi - 244], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
+	insertps	xmm9, dword ptr [rsi - 116], 48 # xmm9 = xmm9[0,1,2],mem[0]
+	insertps	xmm1, dword ptr [rsi - 368], 16 # xmm1 = xmm1[0],mem[0],xmm1[2,3]
+	insertps	xmm1, dword ptr [rsi - 240], 32 # xmm1 = xmm1[0,1],mem[0],xmm1[3]
+	insertps	xmm1, dword ptr [rsi - 112], 48 # xmm1 = xmm1[0,1,2],mem[0]
+	movss	xmm8, dword ptr [rsi - 492]     # xmm8 = mem[0],zero,zero,zero
+	insertps	xmm8, dword ptr [rsi - 364], 16 # xmm8 = xmm8[0],mem[0],xmm8[2,3]
+	insertps	xmm8, dword ptr [rsi - 236], 32 # xmm8 = xmm8[0,1],mem[0],xmm8[3]
+	movaps	xmm12, xmm13
+	insertps	xmm8, dword ptr [rsi - 108], 48 # xmm8 = xmm8[0,1,2],mem[0]
+	movss	xmm2, dword ptr [rsi - 488]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 360], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 232], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	cmpltps	xmm12, xmm3
+	insertps	xmm2, dword ptr [rsi - 104], 48 # xmm2 = xmm2[0,1,2],mem[0]
+	movss	xmm3, dword ptr [rsi - 484]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	packssdw	xmm12, xmm12
+	insertps	xmm3, dword ptr [rsi - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
+	movss	xmm4, dword ptr [rsi - 476]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm4, dword ptr [rsi - 348], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [rsi - 220], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	packsswb	xmm12, xmm12
+	insertps	xmm4, dword ptr [rsi - 92], 48  # xmm4 = xmm4[0,1,2],mem[0]
+	movaps	xmm7, xmm13
+	movss	xmm5, dword ptr [rsi - 444]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 316], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 188], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	cmpltps	xmm7, xmm4
+	insertps	xmm5, dword ptr [rsi - 60], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	movaps	xmm6, xmm13
+	movss	xmm0, dword ptr [rsi - 412]     # xmm0 = mem[0],zero,zero,zero
+	insertps	xmm0, dword ptr [rsi - 284], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
+	insertps	xmm0, dword ptr [rsi - 156], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
+	cmpltps	xmm6, xmm5
+	insertps	xmm0, dword ptr [rsi - 28], 48  # xmm0 = xmm0[0,1,2],mem[0]
+	movaps	xmm4, xmm13
+	cmpltps	xmm4, xmm0
+	movaps	xmm0, xmm13
+	cmpltps	xmm0, xmm10
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm14, xmm0
+	pand	xmm14, xmm15
+	psubb	xmm14, xmm0
+	movss	xmm10, dword ptr [rsi - 480]    # xmm10 = mem[0],zero,zero,zero
+	insertps	xmm10, dword ptr [rsi - 352], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
+	pand	xmm12, xmm15
+	insertps	xmm10, dword ptr [rsi - 224], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
+	por	xmm14, xmm12
+	movaps	xmm5, xmm13
+	cmpltps	xmm5, xmm9
+	insertps	xmm10, dword ptr [rsi - 96], 48 # xmm10 = xmm10[0,1,2],mem[0]
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	movdqa	xmm0, xmmword ptr [rip + .LCPI7_1] # xmm0 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	pand	xmm5, xmm0
+	por	xmm5, xmm14
+	movaps	xmm0, xmm13
+	cmpltps	xmm0, xmm1
+	movaps	xmm1, xmm13
+	cmpltps	xmm1, xmm8
+	movss	xmm9, dword ptr [rsi - 472]     # xmm9 = mem[0],zero,zero,zero
+	insertps	xmm9, dword ptr [rsi - 344], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
+	insertps	xmm9, dword ptr [rsi - 216], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
+	insertps	xmm9, dword ptr [rsi - 88], 48  # xmm9 = xmm9[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm15
+	psllw	xmm0, 3
+	movdqa	xmm14, xmmword ptr [rip + .LCPI7_2] # xmm14 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	pand	xmm0, xmm14
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 4
+	movdqa	xmm14, xmmword ptr [rip + .LCPI7_3] # xmm14 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	pand	xmm1, xmm14
+	por	xmm1, xmm0
+	movss	xmm12, dword ptr [rsi - 468]    # xmm12 = mem[0],zero,zero,zero
+	insertps	xmm12, dword ptr [rsi - 340], 16 # xmm12 = xmm12[0],mem[0],xmm12[2,3]
+	insertps	xmm12, dword ptr [rsi - 212], 32 # xmm12 = xmm12[0,1],mem[0],xmm12[3]
+	insertps	xmm12, dword ptr [rsi - 84], 48 # xmm12 = xmm12[0,1,2],mem[0]
+	por	xmm1, xmm5
+	movaps	xmm0, xmm13
+	cmpltps	xmm0, xmm2
+	movaps	xmm5, xmm13
+	cmpltps	xmm5, xmm3
+	movss	xmm2, dword ptr [rsi - 464]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 336], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 208], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	packssdw	xmm7, xmm7
+	insertps	xmm2, dword ptr [rsi - 80], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm15
+	psllw	xmm0, 5
+	movdqa	xmm14, xmmword ptr [rip + .LCPI7_4] # xmm14 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	pand	xmm0, xmm14
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 6
+	movdqa	xmm3, xmmword ptr [rip + .LCPI7_5] # xmm3 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	pand	xmm5, xmm3
+	por	xmm5, xmm0
+	movaps	xmm8, xmm13
+	cmpltps	xmm8, xmm10
+	movss	xmm3, dword ptr [rsi - 460]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 332], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 204], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 76], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	packssdw	xmm8, xmm8
+	packsswb	xmm8, xmm8
+	psllw	xmm8, 7
+	movdqa	xmm0, xmmword ptr [rip + .LCPI7_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm8, xmm0
+	por	xmm8, xmm5
+	movss	xmm10, dword ptr [rsi - 456]    # xmm10 = mem[0],zero,zero,zero
+	insertps	xmm10, dword ptr [rsi - 328], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
+	insertps	xmm10, dword ptr [rsi - 200], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
+	packsswb	xmm7, xmm7
+	insertps	xmm10, dword ptr [rsi - 72], 48 # xmm10 = xmm10[0,1,2],mem[0]
+	por	xmm8, xmm1
+	movaps	xmm0, xmm13
+	cmpltps	xmm0, xmm9
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm0
+	pand	xmm1, xmm15
+	psubb	xmm1, xmm0
+	movss	xmm9, dword ptr [rsi - 452]     # xmm9 = mem[0],zero,zero,zero
+	insertps	xmm9, dword ptr [rsi - 324], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
+	pand	xmm7, xmm15
+	insertps	xmm9, dword ptr [rsi - 196], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
+	por	xmm1, xmm7
+	movaps	xmm5, xmm13
+	cmpltps	xmm5, xmm12
+	insertps	xmm9, dword ptr [rsi - 68], 48  # xmm9 = xmm9[0,1,2],mem[0]
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	pand	xmm5, xmmword ptr [rip + .LCPI7_1]
+	por	xmm5, xmm1
+	movaps	xmm0, xmm13
+	cmpltps	xmm0, xmm2
+	movaps	xmm1, xmm13
+	cmpltps	xmm1, xmm3
+	movss	xmm3, dword ptr [rsi - 448]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 320], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 192], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 64], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm15
+	psllw	xmm0, 3
+	movdqa	xmm12, xmmword ptr [rip + .LCPI7_2] # xmm12 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	pand	xmm0, xmm12
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 4
+	pand	xmm1, xmmword ptr [rip + .LCPI7_3]
+	por	xmm1, xmm0
+	movss	xmm2, dword ptr [rsi - 440]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm1, xmm5
+	movaps	xmm0, xmm13
+	cmpltps	xmm0, xmm10
+	movaps	xmm5, xmm13
+	cmpltps	xmm5, xmm9
+	movss	xmm7, dword ptr [rsi - 436]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 308], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 180], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	packssdw	xmm6, xmm6
+	insertps	xmm7, dword ptr [rsi - 52], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm15
+	psllw	xmm0, 5
+	pand	xmm0, xmm14
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 6
+	pand	xmm5, xmmword ptr [rip + .LCPI7_5]
+	por	xmm5, xmm0
+	movaps	xmm0, xmm13
+	cmpltps	xmm0, xmm3
+	movss	xmm3, dword ptr [rsi - 432]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 304], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 176], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 48], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	psllw	xmm0, 7
+	movdqa	xmm10, xmmword ptr [rip + .LCPI7_6] # xmm10 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm0, xmm10
+	por	xmm0, xmm5
+	movss	xmm5, dword ptr [rsi - 428]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 300], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 172], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 44], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	por	xmm0, xmm1
+	movss	xmm9, dword ptr [rsi - 424]     # xmm9 = mem[0],zero,zero,zero
+	insertps	xmm9, dword ptr [rsi - 296], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
+	insertps	xmm9, dword ptr [rsi - 168], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
+	packsswb	xmm6, xmm6
+	insertps	xmm9, dword ptr [rsi - 40], 48  # xmm9 = xmm9[0,1,2],mem[0]
+	punpckldq	xmm8, xmm0              # xmm8 = xmm8[0],xmm0[0],xmm8[1],xmm0[1]
+	movaps	xmm0, xmm13
+	cmpltps	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm0
+	pand	xmm1, xmm15
+	psubb	xmm1, xmm0
+	movss	xmm2, dword ptr [rsi - 420]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	pand	xmm6, xmm15
+	insertps	xmm2, dword ptr [rsi - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	por	xmm1, xmm6
+	movaps	xmm6, xmm13
+	cmpltps	xmm6, xmm7
+	insertps	xmm2, dword ptr [rsi - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 2
+	movdqa	xmm0, xmmword ptr [rip + .LCPI7_1] # xmm0 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	pand	xmm6, xmm0
+	por	xmm6, xmm1
+	movaps	xmm0, xmm13
+	cmpltps	xmm0, xmm3
+	movaps	xmm1, xmm13
+	cmpltps	xmm1, xmm5
+	movss	xmm3, dword ptr [rsi - 416]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 288], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 160], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 32], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm15
+	psllw	xmm0, 3
+	pand	xmm0, xmm12
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 4
+	movdqa	xmm12, xmmword ptr [rip + .LCPI7_3] # xmm12 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	pand	xmm1, xmm12
+	por	xmm1, xmm0
+	movss	xmm5, dword ptr [rsi - 408]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 280], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 152], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 24], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	por	xmm1, xmm6
+	movaps	xmm0, xmm13
+	cmpltps	xmm0, xmm9
+	movaps	xmm6, xmm13
+	cmpltps	xmm6, xmm2
+	movss	xmm7, dword ptr [rsi - 404]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 276], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 148], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	packssdw	xmm4, xmm4
+	insertps	xmm7, dword ptr [rsi - 20], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm15
+	psllw	xmm0, 5
+	pand	xmm0, xmm14
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 6
+	movdqa	xmm9, xmmword ptr [rip + .LCPI7_5] # xmm9 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	pand	xmm6, xmm9
+	por	xmm6, xmm0
+	movaps	xmm2, xmm13
+	cmpltps	xmm2, xmm3
+	movss	xmm0, dword ptr [rsi - 400]     # xmm0 = mem[0],zero,zero,zero
+	insertps	xmm0, dword ptr [rsi - 272], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
+	insertps	xmm0, dword ptr [rsi - 144], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
+	insertps	xmm0, dword ptr [rsi - 16], 48  # xmm0 = xmm0[0,1,2],mem[0]
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	psllw	xmm2, 7
+	pand	xmm2, xmm10
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [rsi - 396]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	packsswb	xmm4, xmm4
+	insertps	xmm6, dword ptr [rsi - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	por	xmm2, xmm1
+	movaps	xmm1, xmm13
+	cmpltps	xmm1, xmm5
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	movdqa	xmm5, xmm1
+	pand	xmm5, xmm15
+	psubb	xmm5, xmm1
+	movss	xmm3, dword ptr [rsi - 392]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 264], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	pand	xmm4, xmm15
+	insertps	xmm3, dword ptr [rsi - 136], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	por	xmm5, xmm4
+	movaps	xmm4, xmm13
+	cmpltps	xmm4, xmm7
+	insertps	xmm3, dword ptr [rsi - 8], 48   # xmm3 = xmm3[0,1,2],mem[0]
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	psllw	xmm4, 2
+	pand	xmm4, xmmword ptr [rip + .LCPI7_1]
+	por	xmm4, xmm5
+	movaps	xmm5, xmm13
+	cmpltps	xmm5, xmm0
+	movaps	xmm1, xmm13
+	cmpltps	xmm1, xmm6
+	movss	xmm0, dword ptr [rsi - 388]     # xmm0 = mem[0],zero,zero,zero
+	insertps	xmm0, dword ptr [rsi - 260], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
+	insertps	xmm0, dword ptr [rsi - 132], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
+	insertps	xmm0, dword ptr [rsi - 4], 48   # xmm0 = xmm0[0,1,2],mem[0]
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 3
+	pand	xmm5, xmmword ptr [rip + .LCPI7_2]
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 4
+	pand	xmm1, xmm12
+	por	xmm1, xmm5
+	movss	xmm5, dword ptr [rsi - 384]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 256], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 128], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	por	xmm1, xmm4
+	movaps	xmm4, xmm13
+	cmpltps	xmm4, xmm3
+	movaps	xmm3, xmm13
+	cmpltps	xmm3, xmm0
+	insertps	xmm5, dword ptr [rsi], 48       # xmm5 = xmm5[0,1,2],mem[0]
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	psllw	xmm4, 5
+	pand	xmm4, xmm14
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 6
+	pand	xmm3, xmm9
+	por	xmm3, xmm4
+	movaps	xmm0, xmm13
+	cmpltps	xmm0, xmm5
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	psllw	xmm0, 7
+	pand	xmm0, xmm10
+	por	xmm0, xmm3
+	por	xmm0, xmm1
+	punpckldq	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
+	punpcklbw	xmm8, xmm2              # xmm8 = xmm8[0],xmm2[0],xmm8[1],xmm2[1],xmm8[2],xmm2[2],xmm8[3],xmm2[3],xmm8[4],xmm2[4],xmm8[5],xmm2[5],xmm8[6],xmm2[6],xmm8[7],xmm2[7]
+	pshufb	xmm8, xmmword ptr [rip + .LCPI7_7] # xmm8 = xmm8[0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
+	movdqu	xmmword ptr [r12 + 4*rcx], xmm8
+	add	rcx, 4
+	add	rsi, 512
+	cmp	r8, rcx
+	jne	.LBB7_181
+# %bb.182:
+	cmp	r10, r8
+	jne	.LBB7_183
+	jmp	.LBB7_186
+.LBB7_122:
+	and	r14, -8
+	mov	rax, r14
+	shl	rax, 6
+	add	rax, rsi
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	qword ptr [rsp + 24], r14       # 8-byte Spill
+	lea	rax, [r12 + 4*r14]
+	mov	qword ptr [rsp], rax            # 8-byte Spill
+	movd	xmm0, dword ptr [rsp + 240]     # 4-byte Folded Reload
+                                        # xmm0 = mem[0],zero,zero,zero
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	xor	r15d, r15d
+	movdqa	xmm15, xmmword ptr [rip + .LCPI7_8] # xmm15 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+	movdqa	xmm9, xmmword ptr [rip + .LCPI7_1] # xmm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	movdqa	xmm10, xmmword ptr [rip + .LCPI7_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	movdqa	xmm11, xmmword ptr [rip + .LCPI7_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	movdqa	xmm12, xmmword ptr [rip + .LCPI7_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	movdqa	xmm13, xmmword ptr [rip + .LCPI7_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	movdqa	xmm14, xmmword ptr [rip + .LCPI7_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	mov	qword ptr [rsp + 128], r12      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB7_123:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 16], r15       # 8-byte Spill
+	shl	r15, 6
+	mov	r9, r15
+	mov	r12, r15
+	mov	r13, r15
+	mov	rcx, r15
+	mov	rdi, r15
+	mov	rbx, r15
+	movzx	r14d, word ptr [rsi + r15]
+	movzx	eax, word ptr [rsi + r15 + 2]
+	movzx	r11d, word ptr [rsi + r15 + 4]
+	movzx	edx, word ptr [rsi + r15 + 6]
+	movzx	r10d, word ptr [rsi + r15 + 8]
+	mov	r8, r15
+	or	r8, 64
+	or	r9, 128
+	or	r12, 192
+	or	r13, 256
+	or	rcx, 320
+	or	rdi, 384
+	or	rbx, 448
+	movd	xmm4, r14d
+	pinsrw	xmm4, word ptr [rsi + r8], 1
+	pinsrw	xmm4, word ptr [rsi + r9], 2
+	pinsrw	xmm4, word ptr [rsi + r12], 3
+	pinsrw	xmm4, word ptr [rsi + r13], 4
+	pinsrw	xmm4, word ptr [rsi + rcx], 5
+	pinsrw	xmm4, word ptr [rsi + rdi], 6
+	pinsrw	xmm4, word ptr [rsi + rbx], 7
+	movzx	r14d, word ptr [rsi + r15 + 10]
+	movd	xmm6, eax
+	pinsrw	xmm6, word ptr [rsi + r8 + 2], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 2], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 2], 3
+	movzx	eax, word ptr [rsi + r15 + 12]
+	mov	dword ptr [rsp + 8], eax        # 4-byte Spill
+	pinsrw	xmm6, word ptr [rsi + r13 + 2], 4
+	movd	xmm2, r11d
+	movzx	r11d, word ptr [rsi + r15 + 14]
+	pinsrw	xmm6, word ptr [rsi + rcx + 2], 5
+	movd	xmm5, edx
+	movzx	edx, word ptr [rsi + r15 + 16]
+	pinsrw	xmm6, word ptr [rsi + rdi + 2], 6
+	movd	xmm3, r10d
+	movzx	eax, word ptr [rsi + r15 + 18]
+	mov	dword ptr [rsp + 40], eax       # 4-byte Spill
+	pinsrw	xmm6, word ptr [rsi + rbx + 2], 7
+	pcmpgtw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	movdqa	xmm1, xmm6
+	pand	xmm1, xmm15
+	psubb	xmm1, xmm6
+	movd	xmm6, r14d
+	movzx	r10d, word ptr [rsi + r15 + 20]
+	pcmpgtw	xmm4, xmm0
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	pinsrw	xmm2, word ptr [rsi + r8 + 4], 1
+	pinsrw	xmm2, word ptr [rsi + r9 + 4], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 4], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 4], 4
+	pinsrw	xmm2, word ptr [rsi + rcx + 4], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 4], 6
+	pinsrw	xmm2, word ptr [rsi + rbx + 4], 7
+	pinsrw	xmm5, word ptr [rsi + r8 + 6], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 6], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 6], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 6], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 6], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 6], 6
+	pinsrw	xmm5, word ptr [rsi + rbx + 6], 7
+	pinsrw	xmm3, word ptr [rsi + r8 + 8], 1
+	pinsrw	xmm3, word ptr [rsi + r9 + 8], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 8], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 8], 4
+	pinsrw	xmm3, word ptr [rsi + rcx + 8], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 8], 6
+	pinsrw	xmm3, word ptr [rsi + rbx + 8], 7
+	por	xmm1, xmm4
+	movd	xmm7, dword ptr [rsp + 8]       # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [rsi + r15 + 22]
+	pcmpgtw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 2
+	pand	xmm2, xmm9
+	por	xmm2, xmm1
+	movd	xmm4, r11d
+	movzx	r11d, word ptr [rsi + r15 + 24]
+	pcmpgtw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 3
+	pand	xmm5, xmm10
+	pcmpgtw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 4
+	pand	xmm3, xmm11
+	por	xmm3, xmm5
+	movd	xmm1, edx
+	movzx	edx, word ptr [rsi + r15 + 26]
+	pinsrw	xmm6, word ptr [rsi + r8 + 10], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 10], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 10], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 10], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 10], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 10], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 10], 7
+	pinsrw	xmm7, word ptr [rsi + r8 + 12], 1
+	pinsrw	xmm7, word ptr [rsi + r9 + 12], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 12], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 12], 4
+	pinsrw	xmm7, word ptr [rsi + rcx + 12], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 12], 6
+	pinsrw	xmm7, word ptr [rsi + rbx + 12], 7
+	por	xmm3, xmm2
+	movd	xmm8, dword ptr [rsp + 40]      # 4-byte Folded Reload
+                                        # xmm8 = mem[0],zero,zero,zero
+	movzx	r14d, word ptr [rsi + r15 + 28]
+	pcmpgtw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpgtw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm6
+	movd	xmm5, r10d
+	movzx	r10d, word ptr [rsi + r15 + 30]
+	pinsrw	xmm4, word ptr [rsi + r8 + 14], 1
+	pinsrw	xmm4, word ptr [rsi + r9 + 14], 2
+	pinsrw	xmm4, word ptr [rsi + r12 + 14], 3
+	pinsrw	xmm4, word ptr [rsi + r13 + 14], 4
+	pinsrw	xmm4, word ptr [rsi + rcx + 14], 5
+	pinsrw	xmm4, word ptr [rsi + rdi + 14], 6
+	pinsrw	xmm4, word ptr [rsi + rbx + 14], 7
+	pinsrw	xmm8, word ptr [rsi + r8 + 18], 1
+	pinsrw	xmm8, word ptr [rsi + r9 + 18], 2
+	pinsrw	xmm8, word ptr [rsi + r12 + 18], 3
+	pinsrw	xmm8, word ptr [rsi + r13 + 18], 4
+	pinsrw	xmm8, word ptr [rsi + rcx + 18], 5
+	pinsrw	xmm8, word ptr [rsi + rdi + 18], 6
+	pinsrw	xmm8, word ptr [rsi + rbx + 18], 7
+	pcmpgtw	xmm4, xmm0
+	packsswb	xmm4, xmm4
+	psllw	xmm4, 7
+	pand	xmm4, xmm14
+	por	xmm4, xmm7
+	movd	xmm2, eax
+	movzx	eax, word ptr [rsi + r15 + 32]
+	por	xmm4, xmm3
+	pcmpgtw	xmm8, xmm0
+	packsswb	xmm8, xmm8
+	movdqa	xmm7, xmm8
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm8
+	movd	xmm3, r11d
+	movzx	r11d, word ptr [rsi + r15 + 34]
+	pinsrw	xmm1, word ptr [rsi + r8 + 16], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 16], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 16], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 16], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 16], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 16], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 16], 7
+	pcmpgtw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	por	xmm7, xmm1
+	movd	xmm6, edx
+	movzx	edx, word ptr [rsi + r15 + 36]
+	mov	dword ptr [rsp + 32], edx       # 4-byte Spill
+	pinsrw	xmm5, word ptr [rsi + r8 + 20], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 20], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 20], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 20], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 20], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 20], 6
+	pinsrw	xmm5, word ptr [rsi + rbx + 20], 7
+	pcmpgtw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	pand	xmm5, xmm9
+	por	xmm5, xmm7
+	movd	xmm7, r14d
+	movzx	edx, word ptr [rsi + r15 + 38]
+	mov	dword ptr [rsp + 40], edx       # 4-byte Spill
+	pinsrw	xmm2, word ptr [rsi + r8 + 22], 1
+	pinsrw	xmm2, word ptr [rsi + r9 + 22], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 22], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 22], 4
+	pinsrw	xmm2, word ptr [rsi + rcx + 22], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 22], 6
+	pinsrw	xmm2, word ptr [rsi + rbx + 22], 7
+	pinsrw	xmm3, word ptr [rsi + r8 + 24], 1
+	pinsrw	xmm3, word ptr [rsi + r9 + 24], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 24], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 24], 4
+	pinsrw	xmm3, word ptr [rsi + rcx + 24], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 24], 6
+	pinsrw	xmm3, word ptr [rsi + rbx + 24], 7
+	pcmpgtw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 3
+	pand	xmm2, xmm10
+	pcmpgtw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 4
+	pand	xmm3, xmm11
+	por	xmm3, xmm2
+	movd	xmm2, r10d
+	movzx	r14d, word ptr [rsi + r15 + 40]
+	por	xmm3, xmm5
+	movd	xmm5, eax
+	movzx	eax, word ptr [rsi + r15 + 42]
+	mov	dword ptr [rsp + 8], eax        # 4-byte Spill
+	pinsrw	xmm6, word ptr [rsi + r8 + 26], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 26], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 26], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 26], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 26], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 26], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 26], 7
+	pinsrw	xmm7, word ptr [rsi + r8 + 28], 1
+	pinsrw	xmm7, word ptr [rsi + r9 + 28], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 28], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 28], 4
+	pinsrw	xmm7, word ptr [rsi + rcx + 28], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 28], 6
+	pinsrw	xmm7, word ptr [rsi + rbx + 28], 7
+	pinsrw	xmm2, word ptr [rsi + r8 + 30], 1
+	pinsrw	xmm2, word ptr [rsi + r9 + 30], 2
+	pinsrw	xmm2, word ptr [rsi + r12 + 30], 3
+	pinsrw	xmm2, word ptr [rsi + r13 + 30], 4
+	pinsrw	xmm2, word ptr [rsi + rcx + 30], 5
+	pinsrw	xmm2, word ptr [rsi + rdi + 30], 6
+	pinsrw	xmm2, word ptr [rsi + rbx + 30], 7
+	pcmpgtw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpgtw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm6
+	movd	xmm1, r11d
+	movzx	r10d, word ptr [rsi + r15 + 44]
+	pcmpgtw	xmm2, xmm0
+	packsswb	xmm2, xmm2
+	psllw	xmm2, 7
+	pand	xmm2, xmm14
+	por	xmm2, xmm7
+	movd	xmm6, dword ptr [rsp + 32]      # 4-byte Folded Reload
+                                        # xmm6 = mem[0],zero,zero,zero
+	movzx	edx, word ptr [rsi + r15 + 46]
+	pinsrw	xmm5, word ptr [rsi + r8 + 32], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 32], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 32], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 32], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 32], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 32], 6
+	pinsrw	xmm1, word ptr [rsi + r8 + 34], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 34], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 34], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 34], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 34], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 34], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 34], 7
+	por	xmm2, xmm3
+	pcmpgtw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm7, xmm1
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm1
+	movd	xmm3, dword ptr [rsp + 40]      # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	r11d, word ptr [rsi + r15 + 48]
+	pinsrw	xmm5, word ptr [rsi + rbx + 32], 7
+	pcmpgtw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	pinsrw	xmm6, word ptr [rsi + r8 + 36], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 36], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 36], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 36], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 36], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 36], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 36], 7
+	pinsrw	xmm3, word ptr [rsi + r8 + 38], 1
+	pinsrw	xmm3, word ptr [rsi + r9 + 38], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 38], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 38], 4
+	pinsrw	xmm3, word ptr [rsi + rcx + 38], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 38], 6
+	pinsrw	xmm3, word ptr [rsi + rbx + 38], 7
+	por	xmm7, xmm5
+	movd	xmm5, r14d
+	pinsrw	xmm5, word ptr [rsi + r8 + 40], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 40], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 40], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 40], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 40], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 40], 6
+	movzx	eax, word ptr [rsi + r15 + 50]
+	pcmpgtw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 2
+	pand	xmm6, xmm9
+	por	xmm6, xmm7
+	movd	xmm1, dword ptr [rsp + 8]       # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	movzx	r14d, word ptr [rsi + r15 + 52]
+	pinsrw	xmm5, word ptr [rsi + rbx + 40], 7
+	pcmpgtw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 3
+	pand	xmm3, xmm10
+	pcmpgtw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm3
+	movd	xmm7, r10d
+	movzx	r10d, word ptr [rsi + r15 + 54]
+	pinsrw	xmm1, word ptr [rsi + r8 + 42], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 42], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 42], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 42], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 42], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 42], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 42], 7
+	pinsrw	xmm7, word ptr [rsi + r8 + 44], 1
+	pinsrw	xmm7, word ptr [rsi + r9 + 44], 2
+	pinsrw	xmm7, word ptr [rsi + r12 + 44], 3
+	pinsrw	xmm7, word ptr [rsi + r13 + 44], 4
+	pinsrw	xmm7, word ptr [rsi + rcx + 44], 5
+	pinsrw	xmm7, word ptr [rsi + rdi + 44], 6
+	por	xmm5, xmm6
+	movd	xmm3, edx
+	movzx	edx, word ptr [rsi + r15 + 56]
+	pinsrw	xmm7, word ptr [rsi + rbx + 44], 7
+	pcmpgtw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 5
+	pand	xmm1, xmm12
+	pcmpgtw	xmm7, xmm0
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 6
+	pand	xmm7, xmm13
+	por	xmm7, xmm1
+	movd	xmm6, r11d
+	movzx	r11d, word ptr [rsi + r15 + 58]
+	pinsrw	xmm3, word ptr [rsi + r8 + 46], 1
+	pinsrw	xmm3, word ptr [rsi + r9 + 46], 2
+	pinsrw	xmm3, word ptr [rsi + r12 + 46], 3
+	pinsrw	xmm3, word ptr [rsi + r13 + 46], 4
+	pinsrw	xmm3, word ptr [rsi + rcx + 46], 5
+	pinsrw	xmm3, word ptr [rsi + rdi + 46], 6
+	pinsrw	xmm3, word ptr [rsi + rbx + 46], 7
+	pcmpgtw	xmm3, xmm0
+	packsswb	xmm3, xmm3
+	psllw	xmm3, 7
+	pand	xmm3, xmm14
+	por	xmm3, xmm7
+	movd	xmm1, eax
+	movzx	eax, word ptr [rsi + r15 + 60]
+	movzx	r15d, word ptr [rsi + r15 + 62]
+	pinsrw	xmm1, word ptr [rsi + r8 + 50], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 50], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 50], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 50], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 50], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 50], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 50], 7
+	por	xmm3, xmm5
+	pcmpgtw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm5, xmm1
+	pand	xmm5, xmm15
+	psubb	xmm5, xmm1
+	movd	xmm1, r14d
+	pinsrw	xmm6, word ptr [rsi + r8 + 48], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 48], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 48], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 48], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 48], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 48], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 48], 7
+	pcmpgtw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pinsrw	xmm1, word ptr [rsi + r8 + 52], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 52], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 52], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 52], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 52], 5
+	pand	xmm6, xmm15
+	pinsrw	xmm1, word ptr [rsi + rdi + 52], 6
+	por	xmm5, xmm6
+	movd	xmm6, r10d
+	pinsrw	xmm1, word ptr [rsi + rbx + 52], 7
+	pcmpgtw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 2
+	pand	xmm1, xmm9
+	por	xmm1, xmm5
+	movd	xmm5, edx
+	pinsrw	xmm6, word ptr [rsi + r8 + 54], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 54], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 54], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 54], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 54], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 54], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 54], 7
+	pinsrw	xmm5, word ptr [rsi + r8 + 56], 1
+	pinsrw	xmm5, word ptr [rsi + r9 + 56], 2
+	pinsrw	xmm5, word ptr [rsi + r12 + 56], 3
+	pinsrw	xmm5, word ptr [rsi + r13 + 56], 4
+	pinsrw	xmm5, word ptr [rsi + rcx + 56], 5
+	pinsrw	xmm5, word ptr [rsi + rdi + 56], 6
+	pinsrw	xmm5, word ptr [rsi + rbx + 56], 7
+	pcmpgtw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 3
+	pand	xmm6, xmm10
+	pcmpgtw	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm6
+	movd	xmm6, r11d
+	pinsrw	xmm6, word ptr [rsi + r8 + 58], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 58], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 58], 3
+	pinsrw	xmm6, word ptr [rsi + r13 + 58], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 58], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 58], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 58], 7
+	por	xmm5, xmm1
+	movd	xmm1, eax
+	pinsrw	xmm1, word ptr [rsi + r8 + 60], 1
+	pinsrw	xmm1, word ptr [rsi + r9 + 60], 2
+	pinsrw	xmm1, word ptr [rsi + r12 + 60], 3
+	pinsrw	xmm1, word ptr [rsi + r13 + 60], 4
+	pinsrw	xmm1, word ptr [rsi + rcx + 60], 5
+	pinsrw	xmm1, word ptr [rsi + rdi + 60], 6
+	pinsrw	xmm1, word ptr [rsi + rbx + 60], 7
+	pcmpgtw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	pcmpgtw	xmm1, xmm0
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 6
+	pand	xmm1, xmm13
+	por	xmm1, xmm6
+	movd	xmm6, r15d
+	pinsrw	xmm6, word ptr [rsi + r8 + 62], 1
+	pinsrw	xmm6, word ptr [rsi + r9 + 62], 2
+	pinsrw	xmm6, word ptr [rsi + r12 + 62], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrw	xmm6, word ptr [rsi + r13 + 62], 4
+	pinsrw	xmm6, word ptr [rsi + rcx + 62], 5
+	pinsrw	xmm6, word ptr [rsi + rdi + 62], 6
+	pinsrw	xmm6, word ptr [rsi + rbx + 62], 7
+	pcmpgtw	xmm6, xmm0
+	packsswb	xmm6, xmm6
+	psllw	xmm6, 7
+	pand	xmm6, xmm14
+	por	xmm6, xmm1
+	por	xmm6, xmm5
+	movdqa	xmm1, xmm4
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqa	xmm5, xmm3
+	punpcklqdq	xmm5, xmm6              # xmm5 = xmm5[0],xmm6[0]
+	movdqa	xmm7, xmmword ptr [rip + .LCPI7_9] # xmm7 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
+	pshufb	xmm5, xmm7
+	pshufb	xmm1, xmm7
+	punpcklwd	xmm1, xmm5              # xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
+	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
+	punpcklbw	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
+	punpcklwd	xmm4, xmm3              # xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3]
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	movdqu	xmmword ptr [rax + 4*rcx], xmm4
+	movdqu	xmmword ptr [rax + 4*rcx + 16], xmm1
+	add	rcx, 8
+	mov	r15, rcx
+	cmp	rcx, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	jne	.LBB7_123
+# %bb.124:
+	mov	r14, qword ptr [rsp + 272]      # 8-byte Reload
+	cmp	r14, qword ptr [rsp + 24]       # 8-byte Folded Reload
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r12, qword ptr [rsp]            # 8-byte Reload
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	jne	.LBB7_125
+	jmp	.LBB7_128
+.Lfunc_end7:
+	.size	comparison_greater_arr_scalar_sse4, .Lfunc_end7-comparison_greater_arr_scalar_sse4
+                                        # -- End function
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4                               # -- Begin function comparison_greater_scalar_arr_sse4
+.LCPI8_0:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI8_1:
+	.zero	16,252
+.LCPI8_2:
+	.zero	16,248
+.LCPI8_3:
+	.zero	16,240
+.LCPI8_4:
+	.zero	16,224
+.LCPI8_5:
+	.zero	16,192
+.LCPI8_6:
+	.zero	16,128
+.LCPI8_7:
+	.byte	0                               # 0x0
+	.byte	8                               # 0x8
+	.byte	1                               # 0x1
+	.byte	9                               # 0x9
+	.byte	2                               # 0x2
+	.byte	10                              # 0xa
+	.byte	3                               # 0x3
+	.byte	11                              # 0xb
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+.LCPI8_8:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI8_9:
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI8_10:
+	.zero	16,1
+.LCPI8_11:
+	.zero	16,4
+.LCPI8_12:
+	.zero	16,8
+.LCPI8_13:
+	.zero	16,16
+.LCPI8_14:
+	.zero	16,32
+.LCPI8_15:
+	.zero	16,64
+.LCPI8_16:
+	.zero	16,255
+	.text
+	.globl	comparison_greater_scalar_arr_sse4
+	.p2align	4, 0x90
+	.type	comparison_greater_scalar_arr_sse4,@function
+comparison_greater_scalar_arr_sse4:     # @comparison_greater_scalar_arr_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -16
+	sub	rsp, 336
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r10, r8
+	mov	r14, rcx
+	cmp	edi, 6
+	jg	.LBB8_16
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB8_31
+# %bb.2:
+	cmp	edi, 4
+	je	.LBB8_81
+# %bb.3:
+	cmp	edi, 5
+	je	.LBB8_92
+# %bb.4:
+	cmp	edi, 6
+	jne	.LBB8_182
+# %bb.5:
+	mov	r13d, dword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_9
+# %bb.6:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_7:                                # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rdx], r13d
+	lea	rdx, [rdx + 4]
+	sbb	esi, esi
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	sil, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, sil
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_7
+# %bb.8:
+	add	r14, 1
+.LBB8_9:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB8_13
+# %bb.10:
+	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_11:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	cmp	r13d, dword ptr [rdx]
+	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 4]
+	seta	dil
+	cmp	r13d, dword ptr [rdx + 8]
+	seta	r14b
+	cmp	r13d, dword ptr [rdx + 12]
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 16]
+	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 20]
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 24]
+	seta	al
+	cmp	r13d, dword ptr [rdx + 28]
+	seta	r11b
+	cmp	r13d, dword ptr [rdx + 32]
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 36]
+	seta	sil
+	cmp	r13d, dword ptr [rdx + 40]
+	seta	r8b
+	cmp	r13d, dword ptr [rdx + 44]
+	seta	r9b
+	cmp	r13d, dword ptr [rdx + 48]
+	seta	r10b
+	cmp	r13d, dword ptr [rdx + 52]
+	seta	r12b
+	cmp	r13d, dword ptr [rdx + 56]
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 60]
+	seta	cl
+	cmp	r13d, dword ptr [rdx + 64]
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 68]
+	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 72]
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 76]
+	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 80]
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 84]
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 88]
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 92]
+	seta	r15b
+	cmp	r13d, dword ptr [rdx + 96]
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 100]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 104]
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 108]
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 112]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 116]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 120]
+	seta	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 124]
+	seta	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	byte ptr [r14], r11b
+	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r15b, 7
+	or	r15b, sil
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], bl
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB8_11
+# %bb.12:
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+.LBB8_13:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB8_182
+# %bb.14:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB8_162
+# %bb.15:
+	xor	r11d, r11d
+	jmp	.LBB8_164
+.LBB8_16:
+	cmp	edi, 8
+	jle	.LBB8_45
+# %bb.17:
+	cmp	edi, 9
+	je	.LBB8_104
+# %bb.18:
+	cmp	edi, 11
+	je	.LBB8_115
+# %bb.19:
+	cmp	edi, 12
+	jne	.LBB8_182
+# %bb.20:
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB8_24
+# %bb.21:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_22:                               # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rdx]
+	seta	bl
+	add	rdx, 8
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r14 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r14 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_22
+# %bb.23:
+	add	r14, 1
+.LBB8_24:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB8_28
+# %bb.25:
+	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_26:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	ucomisd	xmm0, qword ptr [rdx]
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 8]
+	seta	r8b
+	ucomisd	xmm0, qword ptr [rdx + 16]
+	seta	r14b
+	ucomisd	xmm0, qword ptr [rdx + 24]
+	seta	r13b
+	ucomisd	xmm0, qword ptr [rdx + 32]
+	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 40]
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 48]
+	seta	al
+	ucomisd	xmm0, qword ptr [rdx + 56]
+	seta	r11b
+	ucomisd	xmm0, qword ptr [rdx + 64]
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 72]
+	seta	sil
+	ucomisd	xmm0, qword ptr [rdx + 80]
+	seta	dil
+	ucomisd	xmm0, qword ptr [rdx + 88]
+	seta	r9b
+	ucomisd	xmm0, qword ptr [rdx + 96]
+	seta	r10b
+	ucomisd	xmm0, qword ptr [rdx + 104]
+	seta	r12b
+	ucomisd	xmm0, qword ptr [rdx + 112]
+	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 120]
+	seta	cl
+	ucomisd	xmm0, qword ptr [rdx + 128]
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 136]
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 144]
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 152]
+	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 160]
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 168]
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 176]
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 184]
+	seta	r15b
+	ucomisd	xmm0, qword ptr [rdx + 192]
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 200]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 208]
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 216]
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 224]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 232]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 240]
+	seta	byte ptr [rsp]                  # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 248]
+	seta	bl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, sil
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r13b
+	mov	r8d, eax
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	shl	r9b, 3
+	or	r9b, dil
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	byte ptr [r14], r11b
+	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r15b, 7
+	or	r15b, sil
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], bl
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB8_26
+# %bb.27:
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+.LBB8_28:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB8_182
+# %bb.29:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB8_166
+# %bb.30:
+	xor	edi, edi
+	jmp	.LBB8_168
+.LBB8_31:
+	cmp	edi, 2
+	je	.LBB8_58
+# %bb.32:
+	cmp	edi, 3
+	jne	.LBB8_182
+# %bb.33:
+	mov	r11b, byte ptr [rsi]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_37
+# %bb.34:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_35:                               # =>This Inner Loop Header: Depth=1
+	cmp	r11b, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setg	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r14 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r14 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_35
+# %bb.36:
+	add	r14, 1
+.LBB8_37:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB8_127
+# %bb.38:
+	cmp	r15, 16
+	mov	byte ptr [rsp], r11b            # 1-byte Spill
+	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
+	jb	.LBB8_41
+# %bb.39:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	cmp	r14, rax
+	jae	.LBB8_191
+# %bb.40:
+	lea	rax, [r14 + 4*r15]
+	cmp	rdx, rax
+	jae	.LBB8_191
+.LBB8_41:
+	xor	eax, eax
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	mov	rsi, rdx
+	mov	qword ptr [rsp + 88], r14       # 8-byte Spill
+.LBB8_42:
+	mov	r14, r15
+	sub	r14, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_43:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, rsi
+	cmp	r11b, byte ptr [rsi]
+	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rsi + 1]
+	setg	dil
+	cmp	r11b, byte ptr [rsi + 2]
+	setg	r11b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 3]
+	setg	r15b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 4]
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 5]
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 6]
+	setg	bl
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 7]
+	setg	r13b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 8]
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 9]
+	setg	sil
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 10]
+	setg	r8b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 11]
+	setg	r9b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 12]
+	setg	r14b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 13]
+	setg	r12b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 14]
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 15]
+	setg	al
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 16]
+	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 17]
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 18]
+	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 19]
+	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 20]
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 21]
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 22]
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 23]
+	setg	r10b
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 24]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 25]
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 26]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 27]
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 28]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 29]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 30]
+	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 31]
+	setg	dl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r13b, 7
+	or	r13b, bl
+	shl	r11b, 2
+	or	r11b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	r11d, byte ptr [rsp]            # 1-byte Folded Reload
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	ebx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r15b
+	mov	esi, ebx
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	shl	r14b, 4
+	or	r14b, r9b
+	shl	r12b, 5
+	or	r12b, r14b
+	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	al, 7
+	or	al, sil
+	or	r13b, bl
+	or	al, r12b
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	bl, bl
+	add	bl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	mov	byte ptr [rdi], r13b
+	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r10b, 7
+	or	r10b, sil
+	mov	byte ptr [rdi + 1], al
+	or	r10b, bl
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rdi + 2], r10b
+	mov	byte ptr [rdi + 3], dl
+	lea	rsi, [rcx + 32]
+	add	rdi, 4
+	mov	qword ptr [rsp + 88], rdi       # 8-byte Spill
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB8_43
+# %bb.44:
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	jmp	.LBB8_128
+.LBB8_45:
+	cmp	edi, 7
+	je	.LBB8_70
+# %bb.46:
+	cmp	edi, 8
+	jne	.LBB8_182
+# %bb.47:
+	mov	r13, qword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_51
+# %bb.48:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_49:                               # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rdx], r13
+	lea	rdx, [rdx + 8]
+	sbb	esi, esi
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	sil, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, sil
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_49
+# %bb.50:
+	add	r14, 1
+.LBB8_51:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB8_55
+# %bb.52:
+	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_53:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	cmp	r13, qword ptr [rdx]
+	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 8]
+	seta	dil
+	cmp	r13, qword ptr [rdx + 16]
+	seta	r14b
+	cmp	r13, qword ptr [rdx + 24]
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 32]
+	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 40]
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 48]
+	seta	al
+	cmp	r13, qword ptr [rdx + 56]
+	seta	r11b
+	cmp	r13, qword ptr [rdx + 64]
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 72]
+	seta	sil
+	cmp	r13, qword ptr [rdx + 80]
+	seta	r8b
+	cmp	r13, qword ptr [rdx + 88]
+	seta	r9b
+	cmp	r13, qword ptr [rdx + 96]
+	seta	r10b
+	cmp	r13, qword ptr [rdx + 104]
+	seta	r12b
+	cmp	r13, qword ptr [rdx + 112]
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 120]
+	seta	cl
+	cmp	r13, qword ptr [rdx + 128]
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 136]
+	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 144]
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 152]
+	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 160]
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 168]
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 176]
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 184]
+	seta	r15b
+	cmp	r13, qword ptr [rdx + 192]
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 200]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 208]
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 216]
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 224]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 232]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 240]
+	seta	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 248]
+	seta	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	byte ptr [r14], r11b
+	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r15b, 7
+	or	r15b, sil
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], bl
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB8_53
+# %bb.54:
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+.LBB8_55:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB8_182
+# %bb.56:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB8_143
+# %bb.57:
+	xor	r11d, r11d
+	jmp	.LBB8_145
+.LBB8_58:
+	mov	r11b, byte ptr [rsi]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_62
+# %bb.59:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_60:                               # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rdx], r11b
+	lea	rdx, [rdx + 1]
+	sbb	esi, esi
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	sil, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, sil
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_60
+# %bb.61:
+	add	r14, 1
+.LBB8_62:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB8_131
+# %bb.63:
+	cmp	r15, 16
+	mov	byte ptr [rsp], r11b            # 1-byte Spill
+	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 256], r15      # 8-byte Spill
+	jb	.LBB8_66
+# %bb.64:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	cmp	r14, rax
+	jae	.LBB8_194
+# %bb.65:
+	lea	rax, [r14 + 4*r15]
+	cmp	rdx, rax
+	jae	.LBB8_194
+.LBB8_66:
+	xor	eax, eax
+	mov	qword ptr [rsp + 232], rax      # 8-byte Spill
+	mov	rsi, rdx
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+.LBB8_67:
+	mov	r14, r15
+	sub	r14, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_68:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, rsi
+	cmp	r11b, byte ptr [rsi]
+	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r11b, byte ptr [rsi + 1]
+	seta	dil
+	cmp	r11b, byte ptr [rsi + 2]
+	seta	r11b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 3]
+	seta	r15b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 4]
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 5]
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 6]
+	seta	bl
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 7]
+	seta	r13b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 8]
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rsi + 9]
+	seta	sil
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 10]
+	seta	r8b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 11]
+	seta	r9b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 12]
+	seta	r14b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 13]
+	seta	r12b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 14]
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rcx + 15]
+	seta	al
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 16]
+	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 17]
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 18]
+	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 19]
+	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 20]
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 21]
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 22]
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 23]
+	seta	r10b
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 24]
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 25]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 26]
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 27]
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 28]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 29]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 30]
+	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	movzx	edx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	dl, byte ptr [rcx + 31]
+	seta	dl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r13b, 7
+	or	r13b, bl
+	shl	r11b, 2
+	or	r11b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	r11d, byte ptr [rsp]            # 1-byte Folded Reload
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	ebx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r15b
+	mov	esi, ebx
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	ebx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	shl	r14b, 4
+	or	r14b, r9b
+	shl	r12b, 5
+	or	r12b, r14b
+	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	al, 7
+	or	al, sil
+	or	r13b, bl
+	or	al, r12b
+	movzx	ebx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	bl, bl
+	add	bl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	mov	byte ptr [rdi], r13b
+	movzx	esi, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r10b, 7
+	or	r10b, sil
+	mov	byte ptr [rdi + 1], al
+	or	r10b, bl
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 64]         # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rdi + 2], r10b
+	mov	byte ptr [rdi + 3], dl
+	lea	rsi, [rcx + 32]
+	add	rdi, 4
+	mov	qword ptr [rsp + 48], rdi       # 8-byte Spill
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB8_68
+# %bb.69:
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	jmp	.LBB8_132
+.LBB8_70:
+	mov	r13d, dword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_74
+# %bb.71:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_72:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setg	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r14 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_72
+# %bb.73:
+	add	r14, 1
+.LBB8_74:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB8_78
+# %bb.75:
+	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_76:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	cmp	r13d, dword ptr [rdx]
+	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 4]
+	setg	dil
+	cmp	r13d, dword ptr [rdx + 8]
+	setg	r14b
+	cmp	r13d, dword ptr [rdx + 12]
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 16]
+	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 20]
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 24]
+	setg	al
+	cmp	r13d, dword ptr [rdx + 28]
+	setg	r11b
+	cmp	r13d, dword ptr [rdx + 32]
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 36]
+	setg	sil
+	cmp	r13d, dword ptr [rdx + 40]
+	setg	r8b
+	cmp	r13d, dword ptr [rdx + 44]
+	setg	r9b
+	cmp	r13d, dword ptr [rdx + 48]
+	setg	r10b
+	cmp	r13d, dword ptr [rdx + 52]
+	setg	r12b
+	cmp	r13d, dword ptr [rdx + 56]
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 60]
+	setg	cl
+	cmp	r13d, dword ptr [rdx + 64]
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 68]
+	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 72]
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 76]
+	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 80]
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 84]
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 88]
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 92]
+	setg	r15b
+	cmp	r13d, dword ptr [rdx + 96]
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 100]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 104]
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 108]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 112]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 116]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 120]
+	setg	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	r13d, dword ptr [rdx + 124]
+	setg	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	byte ptr [r14], r11b
+	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r15b, 7
+	or	r15b, sil
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], bl
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB8_76
+# %bb.77:
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+.LBB8_78:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB8_182
+# %bb.79:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB8_147
+# %bb.80:
+	xor	edi, edi
+	jmp	.LBB8_149
+.LBB8_81:
+	movzx	r13d, word ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_85
+# %bb.82:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_83:                               # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rdx], r13w
+	lea	rdx, [rdx + 2]
+	sbb	esi, esi
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	sil, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, sil
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_83
+# %bb.84:
+	add	r14, 1
+.LBB8_85:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB8_89
+# %bb.86:
+	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_87:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	cmp	r13w, word ptr [rdx]
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 2]
+	seta	dil
+	cmp	r13w, word ptr [rdx + 4]
+	seta	r14b
+	cmp	r13w, word ptr [rdx + 6]
+	seta	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 8]
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 10]
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 12]
+	seta	al
+	cmp	r13w, word ptr [rdx + 14]
+	seta	r11b
+	cmp	r13w, word ptr [rdx + 16]
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 18]
+	seta	sil
+	cmp	r13w, word ptr [rdx + 20]
+	seta	r8b
+	cmp	r13w, word ptr [rdx + 22]
+	seta	r9b
+	cmp	r13w, word ptr [rdx + 24]
+	seta	r10b
+	cmp	r13w, word ptr [rdx + 26]
+	seta	r12b
+	cmp	r13w, word ptr [rdx + 28]
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 30]
+	seta	cl
+	cmp	r13w, word ptr [rdx + 32]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 34]
+	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 36]
+	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 38]
+	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 40]
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 42]
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 44]
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 46]
+	seta	r15b
+	cmp	r13w, word ptr [rdx + 48]
+	seta	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 50]
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 52]
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 54]
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 56]
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 58]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 60]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rdx + 62]
+	seta	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	byte ptr [r14], r11b
+	movzx	esi, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r15b, 7
+	or	r15b, sil
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp]              # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], bl
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB8_87
+# %bb.88:
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+.LBB8_89:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB8_182
+# %bb.90:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB8_170
+# %bb.91:
+	xor	r11d, r11d
+	jmp	.LBB8_172
+.LBB8_92:
+	movzx	r13d, word ptr [rsi]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_96
+# %bb.93:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_94:                               # =>This Inner Loop Header: Depth=1
+	cmp	r13w, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setg	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r14 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r14 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_94
+# %bb.95:
+	add	r14, 1
+.LBB8_96:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB8_135
+# %bb.97:
+	cmp	r15, 8
+	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r15      # 8-byte Spill
+	jb	.LBB8_100
+# %bb.98:
+	mov	rax, r15
+	shl	rax, 6
+	add	rax, rdx
+	cmp	r14, rax
+	jae	.LBB8_197
+# %bb.99:
+	lea	rax, [r14 + 4*r15]
+	cmp	rax, rdx
+	jbe	.LBB8_197
+.LBB8_100:
+	xor	eax, eax
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rsi, rdx
+	mov	r12, r14
+.LBB8_101:
+	mov	qword ptr [rsp], r12            # 8-byte Spill
+	mov	r14, r15
+	sub	r14, qword ptr [rsp + 32]       # 8-byte Folded Reload
+	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_102:                              # =>This Inner Loop Header: Depth=1
+	mov	r11, rsi
+	cmp	r13w, word ptr [rsi]
+	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 2]
+	setg	dil
+	cmp	r13w, word ptr [rsi + 4]
+	setg	r14b
+	cmp	r13w, word ptr [rsi + 6]
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 8]
+	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 10]
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 12]
+	setg	al
+	cmp	r13w, word ptr [rsi + 14]
+	setg	r10b
+	cmp	r13w, word ptr [rsi + 16]
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [rsi + 18]
+	setg	cl
+	cmp	r13w, word ptr [rsi + 20]
+	setg	dl
+	cmp	r13w, word ptr [rsi + 22]
+	setg	sil
+	cmp	r13w, word ptr [r11 + 24]
+	setg	r9b
+	cmp	r13w, word ptr [r11 + 26]
+	setg	r12b
+	cmp	r13w, word ptr [r11 + 28]
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 30]
+	setg	r8b
+	cmp	r13w, word ptr [r11 + 32]
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 34]
+	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 36]
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 38]
+	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 40]
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 42]
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 44]
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 46]
+	setg	r15b
+	cmp	r13w, word ptr [r11 + 48]
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 50]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 52]
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 54]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 56]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 58]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 60]
+	setg	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r13w, word ptr [r11 + 62]
+	setg	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r10b, 7
+	or	r10b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	cl, cl
+	add	cl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	dl, 2
+	or	dl, cl
+	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	sil, 3
+	or	sil, dl
+	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r9b, 4
+	or	r9b, sil
+	shl	r12b, 5
+	or	r12b, r9b
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r10b, cl
+	or	r8b, r12b
+	movzx	ecx, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 88]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	mov	esi, ecx
+	mov	rcx, qword ptr [rsp]            # 8-byte Reload
+	mov	byte ptr [rcx], r10b
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r15b, 7
+	or	r15b, dl
+	mov	byte ptr [rcx + 1], r8b
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 6
+	shl	bl, 7
+	or	bl, dl
+	or	bl, al
+	mov	byte ptr [rcx + 2], r15b
+	mov	byte ptr [rcx + 3], bl
+	lea	rsi, [r11 + 64]
+	add	rcx, 4
+	mov	qword ptr [rsp], rcx            # 8-byte Spill
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB8_102
+# %bb.103:
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	mov	r12, qword ptr [rsp]            # 8-byte Reload
+	jmp	.LBB8_136
+.LBB8_104:
+	mov	r13, qword ptr [rsi]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB8_108
+# %bb.105:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_106:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setg	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r14 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_106
+# %bb.107:
+	add	r14, 1
+.LBB8_108:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB8_112
+# %bb.109:
+	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 240], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_110:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	cmp	r13, qword ptr [rdx]
+	setg	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 8]
+	setg	dil
+	cmp	r13, qword ptr [rdx + 16]
+	setg	r14b
+	cmp	r13, qword ptr [rdx + 24]
+	setg	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 32]
+	setg	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 40]
+	setg	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 48]
+	setg	al
+	cmp	r13, qword ptr [rdx + 56]
+	setg	r11b
+	cmp	r13, qword ptr [rdx + 64]
+	setg	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 72]
+	setg	sil
+	cmp	r13, qword ptr [rdx + 80]
+	setg	r8b
+	cmp	r13, qword ptr [rdx + 88]
+	setg	r9b
+	cmp	r13, qword ptr [rdx + 96]
+	setg	r10b
+	cmp	r13, qword ptr [rdx + 104]
+	setg	r12b
+	cmp	r13, qword ptr [rdx + 112]
+	setg	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 120]
+	setg	cl
+	cmp	r13, qword ptr [rdx + 128]
+	setg	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 136]
+	setg	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 144]
+	setg	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 152]
+	setg	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 160]
+	setg	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 168]
+	setg	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 176]
+	setg	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 184]
+	setg	r15b
+	cmp	r13, qword ptr [rdx + 192]
+	setg	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 200]
+	setg	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 208]
+	setg	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 216]
+	setg	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 224]
+	setg	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 232]
+	setg	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 240]
+	setg	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	r13, qword ptr [rdx + 248]
+	setg	bl
+	add	dil, dil
+	add	dil, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	sil, sil
+	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	mov	edi, eax
+	shl	r8b, 2
+	or	r8b, sil
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dil
+	mov	edi, eax
+	shl	r9b, 3
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dil
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r11b, al
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	mov	byte ptr [r14], r11b
+	movzx	esi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r15b, 7
+	or	r15b, sil
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, al
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	cl, 6
+	shl	bl, 7
+	or	bl, cl
+	or	bl, al
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], bl
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB8_110
+# %bb.111:
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+.LBB8_112:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB8_182
+# %bb.113:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB8_175
+# %bb.114:
+	xor	edi, edi
+	jmp	.LBB8_177
+.LBB8_115:
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB8_119
+# %bb.116:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB8_117:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rdx]
+	seta	bl
+	add	rdx, 4
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r14 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r14 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB8_117
+# %bb.118:
+	add	r14, 1
+.LBB8_119:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB8_139
+# %bb.120:
+	cmp	r11, 4
+	jb	.LBB8_123
+# %bb.121:
+	mov	rax, r11
+	shl	rax, 7
+	add	rax, rdx
+	cmp	r14, rax
+	jae	.LBB8_200
+# %bb.122:
+	lea	rax, [r14 + 4*r11]
+	cmp	rax, rdx
+	jbe	.LBB8_200
+.LBB8_123:
+	xor	r8d, r8d
+	mov	rbx, rdx
+	mov	r15, r14
+.LBB8_124:
+	mov	qword ptr [rsp], r15            # 8-byte Spill
+	mov	qword ptr [rsp + 136], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r11      # 8-byte Spill
+	sub	r11, r8
+	mov	qword ptr [rsp + 192], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_125:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rbx]
+	seta	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 4]
+	seta	r8b
+	ucomiss	xmm0, dword ptr [rbx + 8]
+	seta	r14b
+	ucomiss	xmm0, dword ptr [rbx + 12]
+	seta	r13b
+	ucomiss	xmm0, dword ptr [rbx + 16]
+	seta	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 20]
+	seta	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 24]
+	seta	al
+	ucomiss	xmm0, dword ptr [rbx + 28]
+	seta	r11b
+	ucomiss	xmm0, dword ptr [rbx + 32]
+	seta	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 36]
+	seta	dl
+	ucomiss	xmm0, dword ptr [rbx + 40]
+	seta	sil
+	ucomiss	xmm0, dword ptr [rbx + 44]
+	seta	dil
+	ucomiss	xmm0, dword ptr [rbx + 48]
+	seta	r10b
+	ucomiss	xmm0, dword ptr [rbx + 52]
+	seta	r12b
+	ucomiss	xmm0, dword ptr [rbx + 56]
+	seta	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 60]
+	seta	r9b
+	ucomiss	xmm0, dword ptr [rbx + 64]
+	seta	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 68]
+	seta	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 72]
+	seta	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 76]
+	seta	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 80]
+	seta	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 84]
+	seta	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 88]
+	seta	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 92]
+	seta	r15b
+	ucomiss	xmm0, dword ptr [rbx + 96]
+	seta	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 100]
+	seta	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 104]
+	seta	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 108]
+	seta	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 112]
+	seta	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 116]
+	seta	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 120]
+	seta	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 124]
+	seta	cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 104]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 88]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp]            # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r15b, 7
+	or	r15b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r15b, dl
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 6
+	shl	cl, 7
+	or	cl, dl
+	or	cl, al
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], cl
+	add	rbx, 128
+	add	rsi, 4
+	mov	qword ptr [rsp], rsi            # 8-byte Spill
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB8_125
+# %bb.126:
+	mov	r15, qword ptr [rsp]            # 8-byte Reload
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 208]      # 8-byte Reload
+	jmp	.LBB8_140
+.LBB8_127:
+	mov	qword ptr [rsp + 88], r14       # 8-byte Spill
+	mov	rsi, rdx
+.LBB8_128:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB8_182
+# %bb.129:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB8_151
+# %bb.130:
+	xor	r9d, r9d
+	jmp	.LBB8_154
+.LBB8_131:
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rsi, rdx
+.LBB8_132:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB8_182
+# %bb.133:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB8_156
+# %bb.134:
+	xor	r9d, r9d
+	jmp	.LBB8_159
+.LBB8_135:
+	mov	r12, r14
+	mov	rsi, rdx
+.LBB8_136:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB8_182
+# %bb.137:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB8_183
+# %bb.138:
+	xor	r14d, r14d
+	jmp	.LBB8_185
+.LBB8_139:
+	mov	r15, r14
+	mov	rbx, rdx
+.LBB8_140:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB8_182
+# %bb.141:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB8_187
+# %bb.142:
+	xor	esi, esi
+	jmp	.LBB8_189
+.LBB8_143:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB8_144:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rdx], r13
+	sbb	edi, edi
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r14 + rsi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dil, r10b
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r14 + rsi], al
+	add	r11, 2
+	cmp	qword ptr [rdx + 8], r13
+	lea	rdx, [rdx + 16]
+	sbb	edi, edi
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r14 + rsi], bl
+	cmp	r9, r11
+	jne	.LBB8_144
+.LBB8_145:
+	test	r8b, 1
+	je	.LBB8_182
+# %bb.146:
+	cmp	qword ptr [rdx], r13
+	jmp	.LBB8_174
+.LBB8_147:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB8_148:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13d, dword ptr [rdx]
+	setg	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r14 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rsi], bl
+	add	rdi, 2
+	cmp	r13d, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	setg	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r14 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB8_148
+.LBB8_149:
+	test	r8b, 1
+	je	.LBB8_182
+# %bb.150:
+	cmp	r13d, dword ptr [rdx]
+	jmp	.LBB8_179
+.LBB8_151:
+	mov	r10, r8
+	and	r10, -2
+	xor	r9d, r9d
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	.p2align	4, 0x90
+.LBB8_152:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r9
+	cmp	r11b, byte ptr [rsi + r9]
+	setg	bl
+	neg	bl
+	mov	rdi, r9
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r11b, byte ptr [rsi + rax + 1]
+	lea	r9, [rax + 2]
+	setg	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r14 + rdi], al
+	cmp	r10, r9
+	jne	.LBB8_152
+# %bb.153:
+	add	rsi, r9
+.LBB8_154:
+	test	r8b, 1
+	je	.LBB8_182
+# %bb.155:
+	cmp	r11b, byte ptr [rsi]
+	setg	al
+	neg	al
+	mov	rdx, r9
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	r9b, 7
+	mov	bl, 1
+	mov	ecx, r9d
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	jmp	.LBB8_161
+.LBB8_156:
+	mov	r10, r8
+	and	r10, -2
+	xor	r9d, r9d
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	.p2align	4, 0x90
+.LBB8_157:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r9
+	cmp	byte ptr [rsi + r9], r11b
+	sbb	edi, edi
+	mov	rbx, r9
+	shr	rbx, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	dl, dil
+	xor	dl, r9b
+	mov	byte ptr [r14 + rbx], dl
+	cmp	byte ptr [rsi + rax + 1], r11b
+	lea	r9, [rax + 2]
+	sbb	edi, edi
+	xor	dil, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, dl
+	mov	byte ptr [r14 + rbx], al
+	cmp	r10, r9
+	jne	.LBB8_157
+# %bb.158:
+	add	rsi, r9
+.LBB8_159:
+	test	r8b, 1
+	je	.LBB8_182
+# %bb.160:
+	cmp	byte ptr [rsi], r11b
+	sbb	eax, eax
+	mov	rdx, r9
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	r9b, 7
+	mov	bl, 1
+	mov	ecx, r9d
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+.LBB8_161:
+	xor	bl, dil
+	mov	byte ptr [r8 + rdx], bl
+	jmp	.LBB8_182
+.LBB8_162:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB8_163:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rdx], r13d
+	sbb	edi, edi
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r14 + rsi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dil, r10b
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r14 + rsi], al
+	add	r11, 2
+	cmp	dword ptr [rdx + 4], r13d
+	lea	rdx, [rdx + 8]
+	sbb	edi, edi
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r14 + rsi], bl
+	cmp	r9, r11
+	jne	.LBB8_163
+.LBB8_164:
+	test	r8b, 1
+	je	.LBB8_182
+# %bb.165:
+	cmp	dword ptr [rdx], r13d
+	jmp	.LBB8_174
+.LBB8_166:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB8_167:                              # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rdx]
+	seta	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r14 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rsi], bl
+	add	rdi, 2
+	ucomisd	xmm0, qword ptr [rdx + 8]
+	seta	r9b
+	add	rdx, 16
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r14 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB8_167
+.LBB8_168:
+	test	r8b, 1
+	je	.LBB8_182
+# %bb.169:
+	ucomisd	xmm0, qword ptr [rdx]
+	seta	al
+	jmp	.LBB8_180
+.LBB8_170:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB8_171:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rdx], r13w
+	sbb	edi, edi
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r14 + rsi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dil, r10b
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r14 + rsi], al
+	add	r11, 2
+	cmp	word ptr [rdx + 2], r13w
+	lea	rdx, [rdx + 4]
+	sbb	edi, edi
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r14 + rsi], bl
+	cmp	r9, r11
+	jne	.LBB8_171
+.LBB8_172:
+	test	r8b, 1
+	je	.LBB8_182
+# %bb.173:
+	cmp	word ptr [rdx], r13w
+.LBB8_174:
+	sbb	eax, eax
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	jmp	.LBB8_181
+.LBB8_175:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB8_176:                              # =>This Inner Loop Header: Depth=1
+	cmp	r13, qword ptr [rdx]
+	setg	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r14 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rsi], bl
+	add	rdi, 2
+	cmp	r13, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	setg	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r14 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB8_176
+.LBB8_177:
+	test	r8b, 1
+	je	.LBB8_182
+# %bb.178:
+	cmp	r13, qword ptr [rdx]
+.LBB8_179:
+	setg	al
+.LBB8_180:
+	neg	al
+	mov	rdx, rdi
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	dil, 7
+	mov	bl, 1
+	mov	ecx, edi
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+.LBB8_181:
+	xor	bl, sil
+	mov	byte ptr [r14 + rdx], bl
+.LBB8_182:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.LBB8_183:
+	mov	r9, r8
+	and	r9, -2
+	xor	r14d, r14d
+	.p2align	4, 0x90
+.LBB8_184:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, rsi
+	cmp	r13w, word ptr [rsi]
+	setg	dl
+	neg	dl
+	mov	rdi, r14
+	shr	rdi, 3
+	movzx	r10d, byte ptr [r12 + rdi]
+	mov	ecx, r14d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	dl, r10b
+	and	bl, dl
+	xor	bl, r10b
+	mov	byte ptr [r12 + rdi], bl
+	add	r14, 2
+	cmp	r13w, word ptr [rsi + 2]
+	lea	rsi, [rsi + 4]
+	setg	dl
+	neg	dl
+	xor	dl, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dl
+	xor	al, bl
+	mov	byte ptr [r12 + rdi], al
+	cmp	r9, r14
+	jne	.LBB8_184
+.LBB8_185:
+	test	r8b, 1
+	je	.LBB8_182
+# %bb.186:
+	cmp	r13w, word ptr [rsi]
+	setg	al
+	neg	al
+	mov	rdx, r14
+	shr	rdx, 3
+	mov	dil, byte ptr [r12 + rdx]
+	and	r14b, 7
+	mov	bl, 1
+	mov	ecx, r14d
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r12 + rdx], bl
+	jmp	.LBB8_182
+.LBB8_187:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, r15
+	.p2align	4, 0x90
+.LBB8_188:                              # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rbx]
+	seta	dl
+	neg	dl
+	mov	rdi, rsi
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	mov	ecx, esi
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dl, r9b
+	and	al, dl
+	xor	al, r9b
+	mov	byte ptr [r11 + rdi], al
+	add	rsi, 2
+	ucomiss	xmm0, dword ptr [rbx + 4]
+	seta	r9b
+	add	rbx, 8
+	neg	r9b
+	xor	r9b, al
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, r9b
+	xor	dl, al
+	mov	byte ptr [r11 + rdi], dl
+	cmp	r10, rsi
+	jne	.LBB8_188
+.LBB8_189:
+	test	r8b, 1
+	je	.LBB8_182
+# %bb.190:
+	ucomiss	xmm0, dword ptr [rbx]
+	seta	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	r14, r15
+	mov	dil, byte ptr [r15 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r15 + rdx], bl
+	jmp	.LBB8_182
+.LBB8_191:
+	and	r15, -16
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
+	lea	rax, [r14 + 4*r15]
+	mov	qword ptr [rsp + 88], rax       # 8-byte Spill
+	movzx	eax, r11b
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 288], xmm1   # 16-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_192:                              # =>This Inner Loop Header: Depth=1
+	mov	r9, rax
+	mov	qword ptr [rsp + 120], rax      # 8-byte Spill
+	shl	rax, 5
+	mov	qword ptr [rsp + 64], rax       # 8-byte Spill
+	mov	r11, rax
+	mov	r9, rax
+	mov	r12, rax
+	mov	r14, rax
+	mov	r13, rax
+	mov	rsi, rax
+	mov	r10, rax
+	mov	r15, rax
+	mov	rbx, rax
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	movzx	ecx, byte ptr [rdx + rax]
+	movd	xmm8, ecx
+	movzx	ecx, byte ptr [rdx + rax + 1]
+	movd	xmm7, ecx
+	movzx	ecx, byte ptr [rdx + rax + 2]
+	movd	xmm6, ecx
+	movzx	ecx, byte ptr [rdx + rax + 3]
+	movd	xmm15, ecx
+	movzx	ecx, byte ptr [rdx + rax + 4]
+	movd	xmm5, ecx
+	movzx	ecx, byte ptr [rdx + rax + 5]
+	movd	xmm2, ecx
+	movzx	ecx, byte ptr [rdx + rax + 6]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rdx + rax + 7]
+	movd	xmm1, ecx
+	movzx	ecx, byte ptr [rdx + rax + 8]
+	movd	xmm12, ecx
+	movzx	ecx, byte ptr [rdx + rax + 9]
+	movd	xmm0, ecx
+	movzx	ecx, byte ptr [rdx + rax + 10]
+	movd	xmm9, ecx
+	movzx	ecx, byte ptr [rdx + rax + 11]
+	movd	xmm10, ecx
+	movzx	ecx, byte ptr [rdx + rax + 12]
+	movd	xmm11, ecx
+	movzx	ecx, byte ptr [rdx + rax + 16]
+	movd	xmm14, ecx
+	movzx	ecx, byte ptr [rdx + rax + 24]
+	movd	xmm4, ecx
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	rcx, rax
+	or	rcx, 32
+	mov	qword ptr [rsp + 16], rcx       # 8-byte Spill
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	or	r8, 64
+	mov	qword ptr [rsp + 64], r8        # 8-byte Spill
+	or	r11, 96
+	or	r9, 128
+	or	r12, 160
+	mov	qword ptr [rsp + 160], r12      # 8-byte Spill
+	or	r14, 192
+	mov	qword ptr [rsp + 144], r14      # 8-byte Spill
+	mov	rdi, rax
+	or	rdi, 224
+	or	r13, 256
+	mov	qword ptr [rsp + 32], r13       # 8-byte Spill
+	or	r10, 288
+	or	r15, 320
+	or	rbx, 352
+	or	qword ptr [rsp + 72], 384       # 8-byte Folded Spill
+	mov	rcx, rax
+	or	rcx, 416
+	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
+	or	rsi, 448
+	mov	rcx, rax
+	or	rcx, 480
+	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rax], 1
+	pinsrb	xmm8, byte ptr [rdx + r8], 2
+	pinsrb	xmm8, byte ptr [rdx + r11], 3
+	pinsrb	xmm8, byte ptr [rdx + r9], 4
+	pinsrb	xmm8, byte ptr [rdx + r12], 5
+	pinsrb	xmm8, byte ptr [rdx + r14], 6
+	pinsrb	xmm8, byte ptr [rdx + rdi], 7
+	pinsrb	xmm8, byte ptr [rdx + r13], 8
+	pinsrb	xmm8, byte ptr [rdx + r10], 9
+	mov	r12, r15
+	mov	qword ptr [rsp + 96], r15       # 8-byte Spill
+	pinsrb	xmm8, byte ptr [rdx + r15], 10
+	pinsrb	xmm8, byte ptr [rdx + rbx], 11
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r15], 12
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rax], 13
+	pinsrb	xmm8, byte ptr [rdx + rsi], 14
+	pinsrb	xmm8, byte ptr [rdx + rcx], 15
+	movdqa	xmm13, xmmword ptr [rsp + 288]  # 16-byte Reload
+	movdqa	xmm3, xmm13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 1], 1
+	pinsrb	xmm7, byte ptr [rdx + r8 + 1], 2
+	pinsrb	xmm7, byte ptr [rdx + r11 + 1], 3
+	pinsrb	xmm7, byte ptr [rdx + r9 + 1], 4
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + r13 + 1], 5
+	pinsrb	xmm7, byte ptr [rdx + r14 + 1], 6
+	pinsrb	xmm7, byte ptr [rdx + rdi + 1], 7
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 1], 8
+	pinsrb	xmm7, byte ptr [rdx + r10 + 1], 9
+	pinsrb	xmm7, byte ptr [rdx + r12 + 1], 10
+	pinsrb	xmm7, byte ptr [rdx + rbx + 1], 11
+	pinsrb	xmm7, byte ptr [rdx + r15 + 1], 12
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 1], 13
+	pinsrb	xmm7, byte ptr [rdx + rsi + 1], 14
+	pinsrb	xmm7, byte ptr [rdx + rcx + 1], 15
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rax + 2], 1
+	pinsrb	xmm6, byte ptr [rdx + r8 + 2], 2
+	pinsrb	xmm6, byte ptr [rdx + r11 + 2], 3
+	pinsrb	xmm6, byte ptr [rdx + r9 + 2], 4
+	pinsrb	xmm6, byte ptr [rdx + r13 + 2], 5
+	pinsrb	xmm6, byte ptr [rdx + r14 + 2], 6
+	pinsrb	xmm6, byte ptr [rdx + rdi + 2], 7
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rax + 2], 8
+	pinsrb	xmm6, byte ptr [rdx + r10 + 2], 9
+	pinsrb	xmm6, byte ptr [rdx + r12 + 2], 10
+	pinsrb	xmm6, byte ptr [rdx + rbx + 2], 11
+	pinsrb	xmm6, byte ptr [rdx + r15 + 2], 12
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rax + 2], 13
+	pinsrb	xmm6, byte ptr [rdx + rsi + 2], 14
+	pinsrb	xmm6, byte ptr [rdx + rcx + 2], 15
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rax + 8], 1
+	pinsrb	xmm12, byte ptr [rdx + r8 + 8], 2
+	pinsrb	xmm12, byte ptr [rdx + r11 + 8], 3
+	pinsrb	xmm12, byte ptr [rdx + r9 + 8], 4
+	pinsrb	xmm12, byte ptr [rdx + r13 + 8], 5
+	pinsrb	xmm12, byte ptr [rdx + r14 + 8], 6
+	pinsrb	xmm12, byte ptr [rdx + rdi + 8], 7
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rax + 8], 8
+	pinsrb	xmm12, byte ptr [rdx + r10 + 8], 9
+	pinsrb	xmm12, byte ptr [rdx + r12 + 8], 10
+	pinsrb	xmm12, byte ptr [rdx + rbx + 8], 11
+	pinsrb	xmm12, byte ptr [rdx + r15 + 8], 12
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rax + 8], 13
+	pinsrb	xmm12, byte ptr [rdx + rsi + 8], 14
+	pinsrb	xmm12, byte ptr [rdx + rcx + 8], 15
+	pcmpgtb	xmm3, xmm8
+	movdqa	xmmword ptr [rsp + 272], xmm3   # 16-byte Spill
+	movdqa	xmm3, xmm13
+	pcmpgtb	xmm3, xmm12
+	movdqa	xmmword ptr [rsp + 304], xmm3   # 16-byte Spill
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rcx + 16], 1
+	pinsrb	xmm14, byte ptr [rdx + r8 + 16], 2
+	pinsrb	xmm14, byte ptr [rdx + r11 + 16], 3
+	pinsrb	xmm14, byte ptr [rdx + r9 + 16], 4
+	pinsrb	xmm14, byte ptr [rdx + r13 + 16], 5
+	pinsrb	xmm14, byte ptr [rdx + r14 + 16], 6
+	pinsrb	xmm14, byte ptr [rdx + rdi + 16], 7
+	mov	r14, rdi
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rcx + 16], 8
+	pinsrb	xmm14, byte ptr [rdx + r10 + 16], 9
+	pinsrb	xmm14, byte ptr [rdx + r12 + 16], 10
+	pinsrb	xmm14, byte ptr [rdx + rbx + 16], 11
+	pinsrb	xmm14, byte ptr [rdx + r15 + 16], 12
+	mov	rcx, rax
+	pinsrb	xmm14, byte ptr [rdx + rax + 16], 13
+	mov	qword ptr [rsp + 24], rsi       # 8-byte Spill
+	pinsrb	xmm14, byte ptr [rdx + rsi + 16], 14
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rdi + 16], 15
+	movdqa	xmm3, xmm13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rax + 24], 1
+	pinsrb	xmm4, byte ptr [rdx + r8 + 24], 2
+	pinsrb	xmm4, byte ptr [rdx + r11 + 24], 3
+	pinsrb	xmm4, byte ptr [rdx + r9 + 24], 4
+	pinsrb	xmm4, byte ptr [rdx + r13 + 24], 5
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r8 + 24], 6
+	pinsrb	xmm4, byte ptr [rdx + r14 + 24], 7
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rax + 24], 8
+	pinsrb	xmm4, byte ptr [rdx + r10 + 24], 9
+	mov	qword ptr [rsp + 176], r10      # 8-byte Spill
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rax + 24], 10
+	pinsrb	xmm4, byte ptr [rdx + rbx + 24], 11
+	pinsrb	xmm4, byte ptr [rdx + r15 + 24], 12
+	pinsrb	xmm4, byte ptr [rdx + rcx + 24], 13
+	pinsrb	xmm4, byte ptr [rdx + rsi + 24], 14
+	pcmpgtb	xmm3, xmm14
+	movdqa	xmmword ptr [rsp + 240], xmm3   # 16-byte Spill
+	pinsrb	xmm4, byte ptr [rdx + rdi + 24], 15
+	movdqa	xmm3, xmm13
+	pcmpgtb	xmm3, xmm4
+	movdqa	xmmword ptr [rsp + 208], xmm3   # 16-byte Spill
+	movdqa	xmm4, xmm13
+	pcmpgtb	xmm4, xmm7
+	movdqa	xmm12, xmm4
+	movdqa	xmm8, xmmword ptr [rip + .LCPI8_10] # xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm12, xmm8
+	psubb	xmm12, xmm4
+	movdqa	xmm4, xmm13
+	movdqa	xmm14, xmm13
+	pcmpgtb	xmm4, xmm6
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 13]
+	movd	xmm7, esi
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rsi + 3], 1
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rax + 3], 2
+	mov	qword ptr [rsp + 40], r11       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + r11 + 3], 3
+	mov	rcx, r9
+	mov	qword ptr [rsp + 112], r9       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + r9 + 3], 4
+	pinsrb	xmm15, byte ptr [rdx + r13 + 3], 5
+	pinsrb	xmm15, byte ptr [rdx + r8 + 3], 6
+	mov	qword ptr [rsp + 80], r14       # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + r14 + 3], 7
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r12 + 3], 8
+	pinsrb	xmm15, byte ptr [rdx + r10 + 3], 9
+	mov	r9, qword ptr [rsp + 96]        # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r9 + 3], 10
+	mov	qword ptr [rsp + 104], rbx      # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + rbx + 3], 11
+	pinsrb	xmm15, byte ptr [rdx + r15 + 3], 12
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rdi + 3], 13
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rdi + 3], 14
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r10 + 3], 15
+	pinsrb	xmm5, byte ptr [rdx + rsi + 4], 1
+	mov	r10, rsi
+	pinsrb	xmm5, byte ptr [rdx + rax + 4], 2
+	pinsrb	xmm5, byte ptr [rdx + r11 + 4], 3
+	pinsrb	xmm5, byte ptr [rdx + rcx + 4], 4
+	pinsrb	xmm5, byte ptr [rdx + r13 + 4], 5
+	pinsrb	xmm5, byte ptr [rdx + r8 + 4], 6
+	pinsrb	xmm5, byte ptr [rdx + r14 + 4], 7
+	pinsrb	xmm5, byte ptr [rdx + r12 + 4], 8
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rcx + 4], 9
+	pinsrb	xmm5, byte ptr [rdx + r9 + 4], 10
+	mov	r11, r9
+	pinsrb	xmm5, byte ptr [rdx + rbx + 4], 11
+	pinsrb	xmm5, byte ptr [rdx + r15 + 4], 12
+	mov	r9, qword ptr [rsp + 8]         # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r9 + 4], 13
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rax + 4], 14
+	movdqa	xmm3, xmmword ptr [rsp + 272]   # 16-byte Reload
+	pand	xmm3, xmm8
+	movdqa	xmm6, xmmword ptr [rip + .LCPI8_11] # xmm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pand	xmm4, xmm6
+	por	xmm4, xmm3
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rdi + 14]
+	movd	xmm6, esi
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rbx + 4], 15
+	por	xmm4, xmm12
+	movdqa	xmm12, xmm13
+	pcmpgtb	xmm12, xmm15
+	pcmpgtb	xmm13, xmm5
+	movzx	esi, byte ptr [rdx + rdi + 15]
+	movd	xmm5, esi
+	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 1
+	mov	r8, qword ptr [rsp + 64]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r8 + 5], 2
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rdi + 5], 3
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r13 + 5], 4
+	mov	rsi, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rsi + 5], 5
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r14 + 5], 6
+	mov	r10, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 7
+	pinsrb	xmm2, byte ptr [rdx + r12 + 5], 8
+	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 9
+	pinsrb	xmm2, byte ptr [rdx + r11 + 5], 10
+	mov	rcx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 11
+	pinsrb	xmm2, byte ptr [rdx + r15 + 5], 12
+	pinsrb	xmm2, byte ptr [rdx + r9 + 5], 13
+	mov	r11, r9
+	pinsrb	xmm2, byte ptr [rdx + rax + 5], 14
+	pinsrb	xmm2, byte ptr [rdx + rbx + 5], 15
+	movdqa	xmm3, xmmword ptr [rip + .LCPI8_12] # xmm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pand	xmm12, xmm3
+	movdqa	xmm3, xmmword ptr [rip + .LCPI8_13] # xmm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pand	xmm13, xmm3
+	por	xmm13, xmm12
+	movdqa	xmm12, xmm14
+	pcmpgtb	xmm12, xmm2
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 17]
+	movd	xmm2, esi
+	movdqa	xmm3, xmmword ptr [rip + .LCPI8_14] # xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm12, xmm3
+	por	xmm12, xmm13
+	movzx	esi, byte ptr [rdx + rax + 18]
+	movd	xmm15, esi
+	movdqa	xmm3, xmmword ptr [rsp + 192]   # 16-byte Reload
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rax + 6], 1
+	mov	r9, r8
+	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 2
+	pinsrb	xmm3, byte ptr [rdx + rdi + 6], 3
+	mov	rcx, r13
+	pinsrb	xmm3, byte ptr [rdx + r13 + 6], 4
+	mov	r13, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r13 + 6], 5
+	pinsrb	xmm3, byte ptr [rdx + r14 + 6], 6
+	pinsrb	xmm3, byte ptr [rdx + r10 + 6], 7
+	pinsrb	xmm3, byte ptr [rdx + r12 + 6], 8
+	mov	rsi, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rsi + 6], 9
+	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r8 + 6], 10
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rbx + 6], 11
+	mov	qword ptr [rsp + 72], r15       # 8-byte Spill
+	pinsrb	xmm3, byte ptr [rdx + r15 + 6], 12
+	mov	rdi, r11
+	pinsrb	xmm3, byte ptr [rdx + r11 + 6], 13
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r11 + 6], 14
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r10 + 6], 15
+	pinsrb	xmm1, byte ptr [rdx + rax + 7], 1
+	pinsrb	xmm1, byte ptr [rdx + r9 + 7], 2
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rax + 7], 3
+	pinsrb	xmm1, byte ptr [rdx + rcx + 7], 4
+	pinsrb	xmm1, byte ptr [rdx + r13 + 7], 5
+	pinsrb	xmm1, byte ptr [rdx + r14 + 7], 6
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + r14 + 7], 7
+	pinsrb	xmm1, byte ptr [rdx + r12 + 7], 8
+	pinsrb	xmm1, byte ptr [rdx + rsi + 7], 9
+	pinsrb	xmm1, byte ptr [rdx + r8 + 7], 10
+	pinsrb	xmm1, byte ptr [rdx + rbx + 7], 11
+	pinsrb	xmm1, byte ptr [rdx + r15 + 7], 12
+	pinsrb	xmm1, byte ptr [rdx + rdi + 7], 13
+	pinsrb	xmm1, byte ptr [rdx + r11 + 7], 14
+	pinsrb	xmm1, byte ptr [rdx + r10 + 7], 15
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 9], 1
+	pinsrb	xmm0, byte ptr [rdx + r9 + 9], 2
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 9], 3
+	pinsrb	xmm0, byte ptr [rdx + rcx + 9], 4
+	pinsrb	xmm0, byte ptr [rdx + r13 + 9], 5
+	mov	rax, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 9], 6
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 9], 7
+	pinsrb	xmm0, byte ptr [rdx + r12 + 9], 8
+	pinsrb	xmm0, byte ptr [rdx + rsi + 9], 9
+	pinsrb	xmm0, byte ptr [rdx + r8 + 9], 10
+	pinsrb	xmm0, byte ptr [rdx + rbx + 9], 11
+	pinsrb	xmm0, byte ptr [rdx + r15 + 9], 12
+	pinsrb	xmm0, byte ptr [rdx + rdi + 9], 13
+	pinsrb	xmm0, byte ptr [rdx + r11 + 9], 14
+	mov	r14, r11
+	pinsrb	xmm0, byte ptr [rdx + r10 + 9], 15
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rax + 10], 1
+	pinsrb	xmm9, byte ptr [rdx + r9 + 10], 2
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rax + 10], 3
+	pinsrb	xmm9, byte ptr [rdx + rcx + 10], 4
+	pinsrb	xmm9, byte ptr [rdx + r13 + 10], 5
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + r11 + 10], 6
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rcx + 10], 7
+	pinsrb	xmm9, byte ptr [rdx + r12 + 10], 8
+	pinsrb	xmm9, byte ptr [rdx + rsi + 10], 9
+	pinsrb	xmm9, byte ptr [rdx + r8 + 10], 10
+	pinsrb	xmm9, byte ptr [rdx + rbx + 10], 11
+	pinsrb	xmm9, byte ptr [rdx + r15 + 10], 12
+	pinsrb	xmm9, byte ptr [rdx + rdi + 10], 13
+	por	xmm12, xmm4
+	movdqa	xmm13, xmm14
+	movdqa	xmm4, xmm14
+	pcmpgtb	xmm4, xmm3
+	pcmpgtb	xmm14, xmm1
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rdi + 19]
+	movd	xmm1, esi
+	pinsrb	xmm9, byte ptr [rdx + r14 + 10], 14
+	movdqa	xmm3, xmmword ptr [rip + .LCPI8_15] # xmm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm4, xmm3
+	psllw	xmm14, 7
+	movdqa	xmm3, xmmword ptr [rip + .LCPI8_6] # xmm3 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm14, xmm3
+	por	xmm14, xmm4
+	movzx	esi, byte ptr [rdx + rdi + 20]
+	movd	xmm4, esi
+	mov	r13, r10
+	pinsrb	xmm9, byte ptr [rdx + r10 + 10], 15
+	por	xmm14, xmm12
+	movdqa	xmmword ptr [rsp + 192], xmm14  # 16-byte Spill
+	movdqa	xmm14, xmm13
+	movdqa	xmm3, xmm13
+	pcmpgtb	xmm3, xmm0
+	movdqa	xmm12, xmm3
+	pand	xmm12, xmm8
+	psubb	xmm12, xmm3
+	pcmpgtb	xmm13, xmm9
+	movzx	esi, byte ptr [rdx + rdi + 21]
+	movd	xmm0, esi
+	mov	r10, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r10 + 11], 1
+	mov	rax, r9
+	pinsrb	xmm10, byte ptr [rdx + r9 + 11], 2
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rdi + 11], 3
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r8 + 11], 4
+	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r9 + 11], 5
+	pinsrb	xmm10, byte ptr [rdx + r11 + 11], 6
+	mov	rbx, rcx
+	pinsrb	xmm10, byte ptr [rdx + rcx + 11], 7
+	pinsrb	xmm10, byte ptr [rdx + r12 + 11], 8
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rcx + 11], 9
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r14 + 11], 10
+	mov	r15, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r15 + 11], 11
+	mov	rsi, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rsi + 11], 12
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rsi + 11], 13
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rsi + 11], 14
+	pinsrb	xmm10, byte ptr [rdx + r13 + 11], 15
+	pinsrb	xmm11, byte ptr [rdx + r10 + 12], 1
+	pinsrb	xmm11, byte ptr [rdx + rax + 12], 2
+	pinsrb	xmm11, byte ptr [rdx + rdi + 12], 3
+	pinsrb	xmm11, byte ptr [rdx + r8 + 12], 4
+	pinsrb	xmm11, byte ptr [rdx + r9 + 12], 5
+	pinsrb	xmm11, byte ptr [rdx + r11 + 12], 6
+	pinsrb	xmm11, byte ptr [rdx + rbx + 12], 7
+	pinsrb	xmm11, byte ptr [rdx + r12 + 12], 8
+	pinsrb	xmm11, byte ptr [rdx + rcx + 12], 9
+	mov	r12, rcx
+	mov	r8, r14
+	pinsrb	xmm11, byte ptr [rdx + r14 + 12], 10
+	mov	rbx, r15
+	pinsrb	xmm11, byte ptr [rdx + r15 + 12], 11
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r15 + 12], 12
+	mov	rdi, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + rdi + 12], 13
+	pinsrb	xmm11, byte ptr [rdx + rsi + 12], 14
+	mov	r10, rsi
+	movdqa	xmm3, xmmword ptr [rsp + 304]   # 16-byte Reload
+	pand	xmm3, xmm8
+	pand	xmm13, xmmword ptr [rip + .LCPI8_11]
+	por	xmm13, xmm3
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 22]
+	movd	xmm8, esi
+	pinsrb	xmm11, byte ptr [rdx + r13 + 12], 15
+	por	xmm13, xmm12
+	movdqa	xmm12, xmm14
+	pcmpgtb	xmm12, xmm10
+	movdqa	xmm3, xmm14
+	pcmpgtb	xmm3, xmm11
+	movzx	esi, byte ptr [rdx + rax + 23]
+	movd	xmm9, esi
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 13], 1
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rcx + 13], 2
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + r11 + 13], 3
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rcx + 13], 4
+	pinsrb	xmm7, byte ptr [rdx + r9 + 13], 5
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + r14 + 13], 6
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rsi + 13], 7
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rsi + 13], 8
+	pinsrb	xmm7, byte ptr [rdx + r12 + 13], 9
+	pinsrb	xmm7, byte ptr [rdx + r8 + 13], 10
+	pinsrb	xmm7, byte ptr [rdx + rbx + 13], 11
+	pinsrb	xmm7, byte ptr [rdx + r15 + 13], 12
+	pinsrb	xmm7, byte ptr [rdx + rdi + 13], 13
+	pinsrb	xmm7, byte ptr [rdx + r10 + 13], 14
+	pinsrb	xmm7, byte ptr [rdx + r13 + 13], 15
+	pand	xmm12, xmmword ptr [rip + .LCPI8_12]
+	pand	xmm3, xmmword ptr [rip + .LCPI8_13]
+	por	xmm3, xmm12
+	movdqa	xmm10, xmm14
+	pcmpgtb	xmm10, xmm7
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r12 + 25]
+	movd	xmm11, esi
+	pand	xmm10, xmmword ptr [rip + .LCPI8_14]
+	por	xmm10, xmm3
+	movzx	esi, byte ptr [rdx + r12 + 26]
+	movd	xmm7, esi
+	pinsrb	xmm6, byte ptr [rdx + rax + 14], 1
+	mov	rsi, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rsi + 14], 2
+	mov	r10, r11
+	pinsrb	xmm6, byte ptr [rdx + r11 + 14], 3
+	mov	r12, rcx
+	pinsrb	xmm6, byte ptr [rdx + rcx + 14], 4
+	mov	rdi, r9
+	pinsrb	xmm6, byte ptr [rdx + r9 + 14], 5
+	mov	r11, r14
+	pinsrb	xmm6, byte ptr [rdx + r14 + 14], 6
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r14 + 14], 7
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rcx + 14], 8
+	mov	r9, qword ptr [rsp + 176]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r9 + 14], 9
+	pinsrb	xmm6, byte ptr [rdx + r8 + 14], 10
+	pinsrb	xmm6, byte ptr [rdx + rbx + 14], 11
+	pinsrb	xmm6, byte ptr [rdx + r15 + 14], 12
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rax + 14], 13
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rax + 14], 14
+	pinsrb	xmm6, byte ptr [rdx + r13 + 14], 15
+	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r13 + 15], 1
+	pinsrb	xmm5, byte ptr [rdx + rsi + 15], 2
+	pinsrb	xmm5, byte ptr [rdx + r10 + 15], 3
+	pinsrb	xmm5, byte ptr [rdx + r12 + 15], 4
+	pinsrb	xmm5, byte ptr [rdx + rdi + 15], 5
+	pinsrb	xmm5, byte ptr [rdx + r11 + 15], 6
+	pinsrb	xmm5, byte ptr [rdx + r14 + 15], 7
+	pinsrb	xmm5, byte ptr [rdx + rcx + 15], 8
+	pinsrb	xmm5, byte ptr [rdx + r9 + 15], 9
+	pinsrb	xmm5, byte ptr [rdx + r8 + 15], 10
+	pinsrb	xmm5, byte ptr [rdx + rbx + 15], 11
+	pinsrb	xmm5, byte ptr [rdx + r15 + 15], 12
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rax + 15], 13
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rax + 15], 14
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rax + 15], 15
+	pinsrb	xmm2, byte ptr [rdx + r13 + 17], 1
+	pinsrb	xmm2, byte ptr [rdx + rsi + 17], 2
+	pinsrb	xmm2, byte ptr [rdx + r10 + 17], 3
+	pinsrb	xmm2, byte ptr [rdx + r12 + 17], 4
+	pinsrb	xmm2, byte ptr [rdx + rdi + 17], 5
+	pinsrb	xmm2, byte ptr [rdx + r11 + 17], 6
+	pinsrb	xmm2, byte ptr [rdx + r14 + 17], 7
+	pinsrb	xmm2, byte ptr [rdx + rcx + 17], 8
+	pinsrb	xmm2, byte ptr [rdx + r9 + 17], 9
+	pinsrb	xmm2, byte ptr [rdx + r8 + 17], 10
+	pinsrb	xmm2, byte ptr [rdx + rbx + 17], 11
+	pinsrb	xmm2, byte ptr [rdx + r15 + 17], 12
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rax + 17], 13
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rax + 17], 14
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rax + 17], 15
+	pinsrb	xmm15, byte ptr [rdx + r13 + 18], 1
+	pinsrb	xmm15, byte ptr [rdx + rsi + 18], 2
+	pinsrb	xmm15, byte ptr [rdx + r10 + 18], 3
+	mov	r13, r10
+	pinsrb	xmm15, byte ptr [rdx + r12 + 18], 4
+	pinsrb	xmm15, byte ptr [rdx + rdi + 18], 5
+	pinsrb	xmm15, byte ptr [rdx + r11 + 18], 6
+	pinsrb	xmm15, byte ptr [rdx + r14 + 18], 7
+	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 8
+	pinsrb	xmm15, byte ptr [rdx + r9 + 18], 9
+	pinsrb	xmm15, byte ptr [rdx + r8 + 18], 10
+	pinsrb	xmm15, byte ptr [rdx + rbx + 18], 11
+	mov	rdi, rbx
+	pinsrb	xmm15, byte ptr [rdx + r15 + 18], 12
+	mov	r10, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r10 + 18], 13
+	por	xmm10, xmm13
+	movdqa	xmm13, xmm14
+	pcmpgtb	xmm13, xmm6
+	movdqa	xmm3, xmm14
+	pcmpgtb	xmm3, xmm5
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 27]
+	movd	xmm5, esi
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 14
+	pand	xmm13, xmmword ptr [rip + .LCPI8_15]
+	psllw	xmm3, 7
+	pand	xmm3, xmmword ptr [rip + .LCPI8_6]
+	por	xmm3, xmm13
+	movzx	esi, byte ptr [rdx + rax + 28]
+	movd	xmm6, esi
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 15
+	por	xmm3, xmm10
+	movdqa	xmmword ptr [rsp + 272], xmm3   # 16-byte Spill
+	movdqa	xmm3, xmm14
+	pcmpgtb	xmm3, xmm2
+	movdqa	xmm13, xmm3
+	movdqa	xmm2, xmmword ptr [rip + .LCPI8_10] # xmm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm13, xmm2
+	psubb	xmm13, xmm3
+	movdqa	xmm10, xmm14
+	pcmpgtb	xmm10, xmm15
+	movzx	esi, byte ptr [rdx + rax + 29]
+	movd	xmm3, esi
+	movdqa	xmm15, xmmword ptr [rsp + 240]  # 16-byte Reload
+	pand	xmm15, xmm2
+	movdqa	xmm2, xmmword ptr [rip + .LCPI8_11] # xmm2 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pand	xmm10, xmm2
+	por	xmm10, xmm15
+	movzx	esi, byte ptr [rdx + rax + 30]
+	movd	xmm2, esi
+	movzx	eax, byte ptr [rdx + rax + 31]
+	mov	dword ptr [rsp + 56], eax       # 4-byte Spill
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rax + 19], 1
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rcx + 19], 2
+	pinsrb	xmm1, byte ptr [rdx + r13 + 19], 3
+	pinsrb	xmm1, byte ptr [rdx + r12 + 19], 4
+	mov	r8, qword ptr [rsp + 160]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + r8 + 19], 5
+	pinsrb	xmm1, byte ptr [rdx + r11 + 19], 6
+	mov	rbx, r11
+	pinsrb	xmm1, byte ptr [rdx + r14 + 19], 7
+	mov	r15, r14
+	mov	rsi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rsi + 19], 8
+	pinsrb	xmm1, byte ptr [rdx + r9 + 19], 9
+	mov	r11, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + r11 + 19], 10
+	pinsrb	xmm1, byte ptr [rdx + rdi + 19], 11
+	mov	rdi, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rdi + 19], 12
+	pinsrb	xmm1, byte ptr [rdx + r10 + 19], 13
+	mov	r14, r10
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rdi + 19], 14
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + r10 + 19], 15
+	pinsrb	xmm4, byte ptr [rdx + rax + 20], 1
+	pinsrb	xmm4, byte ptr [rdx + rcx + 20], 2
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r13 + 20], 3
+	pinsrb	xmm4, byte ptr [rdx + r12 + 20], 4
+	pinsrb	xmm4, byte ptr [rdx + r8 + 20], 5
+	pinsrb	xmm4, byte ptr [rdx + rbx + 20], 6
+	pinsrb	xmm4, byte ptr [rdx + r15 + 20], 7
+	pinsrb	xmm4, byte ptr [rdx + rsi + 20], 8
+	pinsrb	xmm4, byte ptr [rdx + r9 + 20], 9
+	mov	r8, r11
+	pinsrb	xmm4, byte ptr [rdx + r11 + 20], 10
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rbx + 20], 11
+	mov	r15, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r15 + 20], 12
+	pinsrb	xmm4, byte ptr [rdx + r14 + 20], 13
+	pinsrb	xmm4, byte ptr [rdx + rdi + 20], 14
+	mov	r9, r10
+	pinsrb	xmm4, byte ptr [rdx + r10 + 20], 15
+	por	xmm10, xmm13
+	movdqa	xmm13, xmm14
+	pcmpgtb	xmm13, xmm1
+	movdqa	xmm15, xmm14
+	pcmpgtb	xmm15, xmm4
+	movd	xmm1, dword ptr [rsp + 56]      # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	pinsrb	xmm0, byte ptr [rdx + rax + 21], 1
+	pinsrb	xmm8, byte ptr [rdx + rax + 22], 1
+	pinsrb	xmm9, byte ptr [rdx + rax + 23], 1
+	pinsrb	xmm11, byte ptr [rdx + rax + 25], 1
+	pinsrb	xmm7, byte ptr [rdx + rax + 26], 1
+	pinsrb	xmm5, byte ptr [rdx + rax + 27], 1
+	pinsrb	xmm6, byte ptr [rdx + rax + 28], 1
+	pinsrb	xmm3, byte ptr [rdx + rax + 29], 1
+	pinsrb	xmm2, byte ptr [rdx + rax + 30], 1
+	pinsrb	xmm1, byte ptr [rdx + rax + 31], 1
+	pinsrb	xmm0, byte ptr [rdx + rcx + 21], 2
+	pinsrb	xmm8, byte ptr [rdx + rcx + 22], 2
+	pinsrb	xmm9, byte ptr [rdx + rcx + 23], 2
+	pinsrb	xmm11, byte ptr [rdx + rcx + 25], 2
+	pinsrb	xmm7, byte ptr [rdx + rcx + 26], 2
+	pinsrb	xmm5, byte ptr [rdx + rcx + 27], 2
+	pinsrb	xmm6, byte ptr [rdx + rcx + 28], 2
+	pinsrb	xmm3, byte ptr [rdx + rcx + 29], 2
+	pinsrb	xmm2, byte ptr [rdx + rcx + 30], 2
+	pinsrb	xmm1, byte ptr [rdx + rcx + 31], 2
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r13 + 21], 3
+	pinsrb	xmm0, byte ptr [rdx + r12 + 21], 4
+	mov	rdi, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rdi + 21], 5
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r11 + 21], 6
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r14 + 21], 7
+	pinsrb	xmm0, byte ptr [rdx + rsi + 21], 8
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r10 + 21], 9
+	pinsrb	xmm0, byte ptr [rdx + r8 + 21], 10
+	pinsrb	xmm0, byte ptr [rdx + rbx + 21], 11
+	pinsrb	xmm0, byte ptr [rdx + r15 + 21], 12
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rcx + 21], 13
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 21], 14
+	pinsrb	xmm0, byte ptr [rdx + r9 + 21], 15
+	movdqa	xmm4, xmmword ptr [rip + .LCPI8_12] # xmm4 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pand	xmm13, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI8_13] # xmm4 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pand	xmm15, xmm4
+	por	xmm15, xmm13
+	movdqa	xmm13, xmm14
+	pcmpgtb	xmm13, xmm0
+	movdqa	xmm0, xmmword ptr [rip + .LCPI8_14] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm13, xmm0
+	por	xmm13, xmm15
+	pinsrb	xmm8, byte ptr [rdx + r13 + 22], 3
+	pinsrb	xmm8, byte ptr [rdx + r12 + 22], 4
+	pinsrb	xmm8, byte ptr [rdx + rdi + 22], 5
+	pinsrb	xmm8, byte ptr [rdx + r11 + 22], 6
+	pinsrb	xmm8, byte ptr [rdx + r14 + 22], 7
+	pinsrb	xmm8, byte ptr [rdx + rsi + 22], 8
+	pinsrb	xmm8, byte ptr [rdx + r10 + 22], 9
+	pinsrb	xmm8, byte ptr [rdx + r8 + 22], 10
+	pinsrb	xmm8, byte ptr [rdx + rbx + 22], 11
+	pinsrb	xmm8, byte ptr [rdx + r15 + 22], 12
+	pinsrb	xmm8, byte ptr [rdx + rcx + 22], 13
+	pinsrb	xmm8, byte ptr [rdx + rax + 22], 14
+	pinsrb	xmm8, byte ptr [rdx + r9 + 22], 15
+	pinsrb	xmm9, byte ptr [rdx + r13 + 23], 3
+	pinsrb	xmm9, byte ptr [rdx + r12 + 23], 4
+	pinsrb	xmm9, byte ptr [rdx + rdi + 23], 5
+	pinsrb	xmm9, byte ptr [rdx + r11 + 23], 6
+	pinsrb	xmm9, byte ptr [rdx + r14 + 23], 7
+	pinsrb	xmm9, byte ptr [rdx + rsi + 23], 8
+	pinsrb	xmm9, byte ptr [rdx + r10 + 23], 9
+	pinsrb	xmm9, byte ptr [rdx + r8 + 23], 10
+	pinsrb	xmm9, byte ptr [rdx + rbx + 23], 11
+	pinsrb	xmm9, byte ptr [rdx + r15 + 23], 12
+	pinsrb	xmm9, byte ptr [rdx + rcx + 23], 13
+	pinsrb	xmm9, byte ptr [rdx + rax + 23], 14
+	pinsrb	xmm9, byte ptr [rdx + r9 + 23], 15
+	pinsrb	xmm11, byte ptr [rdx + r13 + 25], 3
+	pinsrb	xmm11, byte ptr [rdx + r12 + 25], 4
+	pinsrb	xmm11, byte ptr [rdx + rdi + 25], 5
+	pinsrb	xmm11, byte ptr [rdx + r11 + 25], 6
+	pinsrb	xmm11, byte ptr [rdx + r14 + 25], 7
+	pinsrb	xmm11, byte ptr [rdx + rsi + 25], 8
+	pinsrb	xmm11, byte ptr [rdx + r10 + 25], 9
+	pinsrb	xmm11, byte ptr [rdx + r8 + 25], 10
+	pinsrb	xmm11, byte ptr [rdx + rbx + 25], 11
+	pinsrb	xmm11, byte ptr [rdx + r15 + 25], 12
+	pinsrb	xmm11, byte ptr [rdx + rcx + 25], 13
+	pinsrb	xmm11, byte ptr [rdx + rax + 25], 14
+	pinsrb	xmm11, byte ptr [rdx + r9 + 25], 15
+	pinsrb	xmm7, byte ptr [rdx + r13 + 26], 3
+	pinsrb	xmm7, byte ptr [rdx + r12 + 26], 4
+	pinsrb	xmm7, byte ptr [rdx + rdi + 26], 5
+	pinsrb	xmm7, byte ptr [rdx + r11 + 26], 6
+	pinsrb	xmm7, byte ptr [rdx + r14 + 26], 7
+	pinsrb	xmm7, byte ptr [rdx + rsi + 26], 8
+	pinsrb	xmm7, byte ptr [rdx + r10 + 26], 9
+	pinsrb	xmm7, byte ptr [rdx + r8 + 26], 10
+	pinsrb	xmm7, byte ptr [rdx + rbx + 26], 11
+	pinsrb	xmm7, byte ptr [rdx + r15 + 26], 12
+	pinsrb	xmm7, byte ptr [rdx + rcx + 26], 13
+	pinsrb	xmm7, byte ptr [rdx + rax + 26], 14
+	por	xmm13, xmm10
+	movdqa	xmm12, xmm14
+	movdqa	xmm4, xmm14
+	pcmpgtb	xmm4, xmm8
+	movdqa	xmm0, xmm14
+	pcmpgtb	xmm0, xmm9
+	movdqa	xmm14, xmmword ptr [rip + .LCPI8_15] # xmm14 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm4, xmm14
+	psllw	xmm0, 7
+	movdqa	xmm15, xmmword ptr [rip + .LCPI8_6] # xmm15 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm0, xmm15
+	por	xmm0, xmm4
+	pinsrb	xmm7, byte ptr [rdx + r9 + 26], 15
+	por	xmm0, xmm13
+	movdqa	xmm4, xmm12
+	pcmpgtb	xmm4, xmm11
+	movdqa	xmm8, xmm4
+	movdqa	xmm11, xmmword ptr [rip + .LCPI8_10] # xmm11 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pand	xmm8, xmm11
+	psubb	xmm8, xmm4
+	movdqa	xmm4, xmm12
+	pcmpgtb	xmm4, xmm7
+	pinsrb	xmm5, byte ptr [rdx + r13 + 27], 3
+	pinsrb	xmm5, byte ptr [rdx + r12 + 27], 4
+	pinsrb	xmm5, byte ptr [rdx + rdi + 27], 5
+	pinsrb	xmm5, byte ptr [rdx + r11 + 27], 6
+	pinsrb	xmm5, byte ptr [rdx + r14 + 27], 7
+	pinsrb	xmm5, byte ptr [rdx + rsi + 27], 8
+	pinsrb	xmm5, byte ptr [rdx + r10 + 27], 9
+	pinsrb	xmm5, byte ptr [rdx + r8 + 27], 10
+	pinsrb	xmm5, byte ptr [rdx + rbx + 27], 11
+	pinsrb	xmm5, byte ptr [rdx + r15 + 27], 12
+	pinsrb	xmm5, byte ptr [rdx + rcx + 27], 13
+	pinsrb	xmm5, byte ptr [rdx + rax + 27], 14
+	pinsrb	xmm5, byte ptr [rdx + r9 + 27], 15
+	pinsrb	xmm6, byte ptr [rdx + r13 + 28], 3
+	pinsrb	xmm6, byte ptr [rdx + r12 + 28], 4
+	pinsrb	xmm6, byte ptr [rdx + rdi + 28], 5
+	pinsrb	xmm6, byte ptr [rdx + r11 + 28], 6
+	pinsrb	xmm6, byte ptr [rdx + r14 + 28], 7
+	pinsrb	xmm6, byte ptr [rdx + rsi + 28], 8
+	pinsrb	xmm6, byte ptr [rdx + r10 + 28], 9
+	pinsrb	xmm6, byte ptr [rdx + r8 + 28], 10
+	pinsrb	xmm6, byte ptr [rdx + rbx + 28], 11
+	pinsrb	xmm6, byte ptr [rdx + r15 + 28], 12
+	pinsrb	xmm6, byte ptr [rdx + rcx + 28], 13
+	movdqa	xmm7, xmmword ptr [rsp + 208]   # 16-byte Reload
+	pand	xmm7, xmm11
+	pinsrb	xmm6, byte ptr [rdx + rax + 28], 14
+	pand	xmm4, xmmword ptr [rip + .LCPI8_11]
+	por	xmm4, xmm7
+	pinsrb	xmm6, byte ptr [rdx + r9 + 28], 15
+	por	xmm4, xmm8
+	movdqa	xmm7, xmm12
+	pcmpgtb	xmm7, xmm5
+	movdqa	xmm5, xmm12
+	pcmpgtb	xmm5, xmm6
+	pinsrb	xmm3, byte ptr [rdx + r13 + 29], 3
+	pinsrb	xmm3, byte ptr [rdx + r12 + 29], 4
+	pinsrb	xmm3, byte ptr [rdx + rdi + 29], 5
+	pinsrb	xmm3, byte ptr [rdx + r11 + 29], 6
+	pinsrb	xmm3, byte ptr [rdx + r14 + 29], 7
+	pinsrb	xmm3, byte ptr [rdx + rsi + 29], 8
+	pinsrb	xmm3, byte ptr [rdx + r10 + 29], 9
+	pinsrb	xmm3, byte ptr [rdx + r8 + 29], 10
+	pinsrb	xmm3, byte ptr [rdx + rbx + 29], 11
+	pinsrb	xmm3, byte ptr [rdx + r15 + 29], 12
+	pinsrb	xmm3, byte ptr [rdx + rcx + 29], 13
+	pinsrb	xmm3, byte ptr [rdx + rax + 29], 14
+	pinsrb	xmm3, byte ptr [rdx + r9 + 29], 15
+	pand	xmm7, xmmword ptr [rip + .LCPI8_12]
+	pand	xmm5, xmmword ptr [rip + .LCPI8_13]
+	por	xmm5, xmm7
+	movdqa	xmm6, xmm12
+	pcmpgtb	xmm6, xmm3
+	pand	xmm6, xmmword ptr [rip + .LCPI8_14]
+	por	xmm6, xmm5
+	pinsrb	xmm2, byte ptr [rdx + r13 + 30], 3
+	pinsrb	xmm1, byte ptr [rdx + r13 + 31], 3
+	pinsrb	xmm2, byte ptr [rdx + r12 + 30], 4
+	pinsrb	xmm1, byte ptr [rdx + r12 + 31], 4
+	pinsrb	xmm2, byte ptr [rdx + rdi + 30], 5
+	pinsrb	xmm1, byte ptr [rdx + rdi + 31], 5
+	pinsrb	xmm2, byte ptr [rdx + r11 + 30], 6
+	pinsrb	xmm1, byte ptr [rdx + r11 + 31], 6
+	pinsrb	xmm2, byte ptr [rdx + r14 + 30], 7
+	pinsrb	xmm1, byte ptr [rdx + r14 + 31], 7
+	pinsrb	xmm2, byte ptr [rdx + rsi + 30], 8
+	pinsrb	xmm1, byte ptr [rdx + rsi + 31], 8
+	pinsrb	xmm2, byte ptr [rdx + r10 + 30], 9
+	pinsrb	xmm1, byte ptr [rdx + r10 + 31], 9
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r8 + 30], 10
+	pinsrb	xmm1, byte ptr [rdx + r8 + 31], 10
+	pinsrb	xmm2, byte ptr [rdx + rbx + 30], 11
+	pinsrb	xmm1, byte ptr [rdx + rbx + 31], 11
+	pinsrb	xmm2, byte ptr [rdx + r15 + 30], 12
+	pinsrb	xmm1, byte ptr [rdx + r15 + 31], 12
+	pinsrb	xmm2, byte ptr [rdx + rcx + 30], 13
+	pinsrb	xmm1, byte ptr [rdx + rcx + 31], 13
+	pinsrb	xmm2, byte ptr [rdx + rax + 30], 14
+	pinsrb	xmm1, byte ptr [rdx + rax + 31], 14
+	pinsrb	xmm2, byte ptr [rdx + r9 + 30], 15
+	pinsrb	xmm1, byte ptr [rdx + r9 + 31], 15
+	por	xmm6, xmm4
+	movdqa	xmm3, xmm12
+	pcmpgtb	xmm3, xmm2
+	pand	xmm3, xmm14
+	pcmpgtb	xmm12, xmm1
+	psllw	xmm12, 7
+	pand	xmm12, xmm15
+	por	xmm12, xmm3
+	por	xmm12, xmm6
+	movdqa	xmm1, xmm0
+	punpcklbw	xmm1, xmm12             # xmm1 = xmm1[0],xmm12[0],xmm1[1],xmm12[1],xmm1[2],xmm12[2],xmm1[3],xmm12[3],xmm1[4],xmm12[4],xmm1[5],xmm12[5],xmm1[6],xmm12[6],xmm1[7],xmm12[7]
+	movdqa	xmm5, xmmword ptr [rsp + 192]   # 16-byte Reload
+	movdqa	xmm3, xmm5
+	movdqa	xmm6, xmmword ptr [rsp + 272]   # 16-byte Reload
+	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
+	movdqa	xmm4, xmm3
+	punpcklwd	xmm4, xmm1              # xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3]
+	punpckhwd	xmm3, xmm1              # xmm3 = xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
+	punpckhbw	xmm0, xmm12             # xmm0 = xmm0[8],xmm12[8],xmm0[9],xmm12[9],xmm0[10],xmm12[10],xmm0[11],xmm12[11],xmm0[12],xmm12[12],xmm0[13],xmm12[13],xmm0[14],xmm12[14],xmm0[15],xmm12[15]
+	punpckhbw	xmm5, xmm6              # xmm5 = xmm5[8],xmm6[8],xmm5[9],xmm6[9],xmm5[10],xmm6[10],xmm5[11],xmm6[11],xmm5[12],xmm6[12],xmm5[13],xmm6[13],xmm5[14],xmm6[14],xmm5[15],xmm6[15]
+	movdqa	xmm1, xmm5
+	punpcklwd	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
+	punpckhwd	xmm5, xmm0              # xmm5 = xmm5[4],xmm0[4],xmm5[5],xmm0[5],xmm5[6],xmm0[6],xmm5[7],xmm0[7]
+	mov	rcx, qword ptr [rsp + 120]      # 8-byte Reload
+	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm5
+	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm1
+	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm3
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	jne	.LBB8_192
+# %bb.193:
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	mov	r11b, byte ptr [rsp]            # 1-byte Reload
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	jne	.LBB8_42
+	jmp	.LBB8_128
+.LBB8_194:
+	and	r15, -16
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 264], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 232], r15      # 8-byte Spill
+	lea	rax, [r14 + 4*r15]
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	movzx	eax, r11b
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 288], xmm1   # 16-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB8_195:                              # =>This Inner Loop Header: Depth=1
+	mov	r9, rax
+	mov	qword ptr [rsp + 240], rax      # 8-byte Spill
+	mov	rcx, rax
+	shl	rcx, 5
+	mov	r14, rcx
+	mov	rbx, rcx
+	mov	rax, rcx
+	mov	r11, rcx
+	mov	r10, rcx
+	mov	r8, rcx
+	mov	r9, rcx
+	mov	qword ptr [rsp + 64], rcx       # 8-byte Spill
+	mov	r12, rcx
+	mov	r15, rcx
+	mov	rdi, rcx
+	mov	rsi, rcx
+	movzx	ecx, byte ptr [rdx + rcx]
+	movd	xmm9, ecx
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	movd	xmm5, ecx
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	movd	xmm7, ecx
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	movd	xmm15, ecx
+	movzx	ecx, byte ptr [rdx + rsi + 4]
+	movd	xmm3, ecx
+	movzx	ecx, byte ptr [rdx + rsi + 5]
+	movd	xmm2, ecx
+	movzx	ecx, byte ptr [rdx + rsi + 6]
+	movd	xmm8, ecx
+	movzx	ecx, byte ptr [rdx + rsi + 7]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rdx + rsi + 8]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rdx + rsi + 9]
+	movd	xmm11, ecx
+	movzx	ecx, byte ptr [rdx + rsi + 10]
+	movd	xmm12, ecx
+	movzx	ecx, byte ptr [rdx + rsi + 11]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 144], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rdx + rsi + 12]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 304], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rdx + rsi + 13]
+	movd	xmm14, ecx
+	movzx	ecx, byte ptr [rdx + rsi + 14]
+	movd	xmm13, ecx
+	mov	qword ptr [rsp + 56], rsi       # 8-byte Spill
+	mov	r13, rsi
+	or	r13, 32
+	mov	qword ptr [rsp + 8], r13        # 8-byte Spill
+	or	r14, 64
+	mov	qword ptr [rsp + 32], r14       # 8-byte Spill
+	or	rbx, 96
+	mov	qword ptr [rsp + 88], rbx       # 8-byte Spill
+	or	rax, 128
+	mov	rbx, r11
+	or	rbx, 160
+	mov	r11, r10
+	or	r11, 192
+	mov	qword ptr [rsp + 96], r11       # 8-byte Spill
+	or	r8, 224
+	or	r9, 256
+	mov	qword ptr [rsp + 80], r9        # 8-byte Spill
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	or	rcx, 288
+	or	r12, 320
+	or	r15, 352
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	mov	r10, rdi
+	or	r10, 384
+	mov	rdi, rsi
+	or	rdi, 416
+	mov	qword ptr [rsp + 104], rdi      # 8-byte Spill
+	mov	rdi, rsi
+	or	rdi, 448
+	mov	qword ptr [rsp + 16], rdi       # 8-byte Spill
+	mov	rdi, rsi
+	or	rdi, 480
+	mov	qword ptr [rsp + 24], rdi       # 8-byte Spill
+	pinsrb	xmm5, byte ptr [rdx + r13 + 1], 1
+	pinsrb	xmm5, byte ptr [rdx + r14 + 1], 2
+	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r13 + 1], 3
+	pinsrb	xmm5, byte ptr [rdx + rax + 1], 4
+	mov	r14, rax
+	pinsrb	xmm5, byte ptr [rdx + rbx + 1], 5
+	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 6
+	pinsrb	xmm5, byte ptr [rdx + r8 + 1], 7
+	pinsrb	xmm5, byte ptr [rdx + r9 + 1], 8
+	pinsrb	xmm5, byte ptr [rdx + rcx + 1], 9
+	pinsrb	xmm5, byte ptr [rdx + r12 + 1], 10
+	pinsrb	xmm5, byte ptr [rdx + r15 + 1], 11
+	pinsrb	xmm5, byte ptr [rdx + r10 + 1], 12
+	mov	r9, r10
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r11 + 1], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rax + 1], 14
+	pinsrb	xmm5, byte ptr [rdx + rdi + 1], 15
+	movdqa	xmm10, xmmword ptr [rsp + 288]  # 16-byte Reload
+	pminub	xmm5, xmm10
+	pcmpeqb	xmm5, xmm10
+	movdqa	xmm6, xmm5
+	movdqa	xmm1, xmmword ptr [rip + .LCPI8_10] # xmm1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pandn	xmm6, xmm1
+	paddb	xmm6, xmm5
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rsi + 15]
+	movd	xmm0, esi
+	movdqa	xmmword ptr [rsp + 176], xmm0   # 16-byte Spill
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rax], 1
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + r10], 2
+	pinsrb	xmm9, byte ptr [rdx + r13], 3
+	mov	rsi, r14
+	pinsrb	xmm9, byte ptr [rdx + r14], 4
+	mov	r14, rbx
+	pinsrb	xmm9, byte ptr [rdx + rbx], 5
+	mov	rbx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rbx], 6
+	pinsrb	xmm9, byte ptr [rdx + r8], 7
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + r15], 8
+	mov	qword ptr [rsp + 64], rcx       # 8-byte Spill
+	pinsrb	xmm9, byte ptr [rdx + rcx], 9
+	mov	qword ptr [rsp + 72], r12       # 8-byte Spill
+	pinsrb	xmm9, byte ptr [rdx + r12], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rdi], 11
+	pinsrb	xmm9, byte ptr [rdx + r9], 12
+	pinsrb	xmm9, byte ptr [rdx + r11], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rax], 14
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + r13], 15
+	pminub	xmm9, xmm10
+	pcmpeqb	xmm9, xmm10
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 2], 1
+	pinsrb	xmm7, byte ptr [rdx + r10 + 2], 2
+	mov	r13, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + r13 + 2], 3
+	pinsrb	xmm7, byte ptr [rdx + rsi + 2], 4
+	pinsrb	xmm7, byte ptr [rdx + r14 + 2], 5
+	pinsrb	xmm7, byte ptr [rdx + rbx + 2], 6
+	pinsrb	xmm7, byte ptr [rdx + r8 + 2], 7
+	pinsrb	xmm7, byte ptr [rdx + r15 + 2], 8
+	pinsrb	xmm7, byte ptr [rdx + rcx + 2], 9
+	pinsrb	xmm7, byte ptr [rdx + r12 + 2], 10
+	pinsrb	xmm7, byte ptr [rdx + rdi + 2], 11
+	pinsrb	xmm7, byte ptr [rdx + r9 + 2], 12
+	pinsrb	xmm7, byte ptr [rdx + r11 + 2], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 2], 14
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 2], 15
+	movdqa	xmm0, xmm15
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 3], 1
+	pinsrb	xmm0, byte ptr [rdx + r10 + 3], 2
+	pinsrb	xmm0, byte ptr [rdx + r13 + 3], 3
+	pinsrb	xmm0, byte ptr [rdx + rsi + 3], 4
+	pinsrb	xmm0, byte ptr [rdx + r14 + 3], 5
+	pinsrb	xmm0, byte ptr [rdx + rbx + 3], 6
+	pinsrb	xmm0, byte ptr [rdx + r8 + 3], 7
+	pinsrb	xmm0, byte ptr [rdx + r15 + 3], 8
+	pinsrb	xmm0, byte ptr [rdx + rcx + 3], 9
+	pinsrb	xmm0, byte ptr [rdx + r12 + 3], 10
+	pinsrb	xmm0, byte ptr [rdx + rdi + 3], 11
+	pinsrb	xmm0, byte ptr [rdx + r9 + 3], 12
+	pinsrb	xmm0, byte ptr [rdx + r11 + 3], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 3], 14
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 3], 15
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rax + 4], 1
+	pinsrb	xmm3, byte ptr [rdx + r10 + 4], 2
+	pinsrb	xmm3, byte ptr [rdx + r13 + 4], 3
+	pinsrb	xmm3, byte ptr [rdx + rsi + 4], 4
+	pinsrb	xmm3, byte ptr [rdx + r14 + 4], 5
+	pinsrb	xmm3, byte ptr [rdx + rbx + 4], 6
+	pinsrb	xmm3, byte ptr [rdx + r8 + 4], 7
+	pinsrb	xmm3, byte ptr [rdx + r15 + 4], 8
+	pinsrb	xmm3, byte ptr [rdx + rcx + 4], 9
+	pinsrb	xmm3, byte ptr [rdx + r12 + 4], 10
+	pinsrb	xmm3, byte ptr [rdx + rdi + 4], 11
+	pinsrb	xmm3, byte ptr [rdx + r9 + 4], 12
+	pinsrb	xmm3, byte ptr [rdx + r11 + 4], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rax + 4], 14
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rax + 4], 15
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rax + 5], 1
+	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 2
+	pinsrb	xmm2, byte ptr [rdx + r13 + 5], 3
+	pinsrb	xmm2, byte ptr [rdx + rsi + 5], 4
+	mov	r10, rsi
+	mov	qword ptr [rsp + 192], rsi      # 8-byte Spill
+	pinsrb	xmm2, byte ptr [rdx + r14 + 5], 5
+	pinsrb	xmm2, byte ptr [rdx + rbx + 5], 6
+	pinsrb	xmm2, byte ptr [rdx + r8 + 5], 7
+	pinsrb	xmm2, byte ptr [rdx + r15 + 5], 8
+	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 9
+	pinsrb	xmm2, byte ptr [rdx + r12 + 5], 10
+	pinsrb	xmm2, byte ptr [rdx + rdi + 5], 11
+	pinsrb	xmm2, byte ptr [rdx + r9 + 5], 12
+	pinsrb	xmm2, byte ptr [rdx + r11 + 5], 13
+	mov	rdi, r11
+	pandn	xmm9, xmm1
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rax + 5], 14
+	pminub	xmm7, xmm10
+	pcmpeqb	xmm7, xmm10
+	movdqa	xmm1, xmmword ptr [rip + .LCPI8_11] # xmm1 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pandn	xmm7, xmm1
+	por	xmm7, xmm9
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r12 + 16]
+	movd	xmm5, esi
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 15
+	pminub	xmm0, xmm10
+	pcmpeqb	xmm0, xmm10
+	movdqa	xmm1, xmmword ptr [rip + .LCPI8_12] # xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pandn	xmm0, xmm1
+	por	xmm0, xmm7
+	movzx	esi, byte ptr [rdx + r12 + 17]
+	movd	xmm1, esi
+	pcmpeqd	xmm7, xmm7
+	psubb	xmm6, xmm7
+	pcmpeqd	xmm9, xmm9
+	por	xmm0, xmm6
+	movzx	esi, byte ptr [rdx + r12 + 18]
+	movd	xmm7, esi
+	pminub	xmm3, xmm10
+	pcmpeqb	xmm3, xmm10
+	movdqa	xmm6, xmmword ptr [rip + .LCPI8_13] # xmm6 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm3, xmm6
+	pminub	xmm2, xmm10
+	pcmpeqb	xmm2, xmm10
+	movdqa	xmm6, xmmword ptr [rip + .LCPI8_14] # xmm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm2, xmm6
+	por	xmm2, xmm3
+	movzx	esi, byte ptr [rdx + r12 + 19]
+	movd	xmm15, esi
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rcx + 6], 1
+	mov	r11, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r11 + 6], 2
+	pinsrb	xmm8, byte ptr [rdx + r13 + 6], 3
+	pinsrb	xmm8, byte ptr [rdx + r10 + 6], 4
+	mov	qword ptr [rsp + 120], r14      # 8-byte Spill
+	pinsrb	xmm8, byte ptr [rdx + r14 + 6], 5
+	pinsrb	xmm8, byte ptr [rdx + rbx + 6], 6
+	mov	qword ptr [rsp + 208], r8       # 8-byte Spill
+	pinsrb	xmm8, byte ptr [rdx + r8 + 6], 7
+	pinsrb	xmm8, byte ptr [rdx + r15 + 6], 8
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r15 + 6], 9
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rax + 6], 10
+	mov	r10, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r10 + 6], 11
+	pinsrb	xmm8, byte ptr [rdx + r9 + 6], 12
+	pinsrb	xmm8, byte ptr [rdx + rdi + 6], 13
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rbx + 6], 14
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rax + 6], 15
+	pminub	xmm8, xmm10
+	pcmpeqb	xmm8, xmm10
+	movdqa	xmm3, xmmword ptr [rip + .LCPI8_15] # xmm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm8, xmm3
+	por	xmm8, xmm2
+	movzx	esi, byte ptr [rdx + r12 + 20]
+	movd	xmm4, esi
+	movdqa	xmm6, xmmword ptr [rsp + 160]   # 16-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rcx + 7], 1
+	pinsrb	xmm6, byte ptr [rdx + r11 + 7], 2
+	pinsrb	xmm6, byte ptr [rdx + r13 + 7], 3
+	mov	rcx, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rcx + 7], 4
+	pinsrb	xmm6, byte ptr [rdx + r14 + 7], 5
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r14 + 7], 6
+	pinsrb	xmm6, byte ptr [rdx + r8 + 7], 7
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r12 + 7], 8
+	pinsrb	xmm6, byte ptr [rdx + r15 + 7], 9
+	mov	r8, qword ptr [rsp + 72]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r8 + 7], 10
+	pinsrb	xmm6, byte ptr [rdx + r10 + 7], 11
+	pinsrb	xmm6, byte ptr [rdx + r9 + 7], 12
+	pinsrb	xmm6, byte ptr [rdx + rdi + 7], 13
+	mov	r15, rdi
+	pinsrb	xmm6, byte ptr [rdx + rbx + 7], 14
+	pinsrb	xmm6, byte ptr [rdx + rax + 7], 15
+	pminub	xmm6, xmm10
+	pcmpeqb	xmm6, xmm10
+	pxor	xmm6, xmm9
+	pcmpeqd	xmm3, xmm3
+	psllw	xmm6, 7
+	movdqa	xmm2, xmmword ptr [rip + .LCPI8_6] # xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm6, xmm2
+	por	xmm6, xmm8
+	movdqa	xmm8, xmm6
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 21]
+	movd	xmm6, esi
+	movdqa	xmm2, xmmword ptr [rsp + 272]   # 16-byte Reload
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rcx + 8], 1
+	mov	rax, r11
+	pinsrb	xmm2, byte ptr [rdx + r11 + 8], 2
+	mov	rdi, r13
+	pinsrb	xmm2, byte ptr [rdx + r13 + 8], 3
+	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r10 + 8], 4
+	mov	r11, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r11 + 8], 5
+	mov	r13, r14
+	pinsrb	xmm2, byte ptr [rdx + r14 + 8], 6
+	mov	rsi, qword ptr [rsp + 208]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rsi + 8], 7
+	mov	r14, r12
+	pinsrb	xmm2, byte ptr [rdx + r12 + 8], 8
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rbx + 8], 9
+	mov	r12, r8
+	pinsrb	xmm2, byte ptr [rdx + r8 + 8], 10
+	mov	rbx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rbx + 8], 11
+	mov	qword ptr [rsp + 112], r9       # 8-byte Spill
+	pinsrb	xmm2, byte ptr [rdx + r9 + 8], 12
+	mov	r8, r15
+	pinsrb	xmm2, byte ptr [rdx + r15 + 8], 13
+	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r15 + 8], 14
+	pinsrb	xmm11, byte ptr [rdx + rcx + 9], 1
+	pinsrb	xmm11, byte ptr [rdx + rax + 9], 2
+	pinsrb	xmm11, byte ptr [rdx + rdi + 9], 3
+	pinsrb	xmm11, byte ptr [rdx + r10 + 9], 4
+	mov	rbx, r10
+	pinsrb	xmm11, byte ptr [rdx + r11 + 9], 5
+	mov	rdi, r11
+	pinsrb	xmm11, byte ptr [rdx + r13 + 9], 6
+	mov	r10, r13
+	pinsrb	xmm11, byte ptr [rdx + rsi + 9], 7
+	pinsrb	xmm11, byte ptr [rdx + r14 + 9], 8
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + rax + 9], 9
+	pinsrb	xmm11, byte ptr [rdx + r12 + 9], 10
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r11 + 9], 11
+	pinsrb	xmm11, byte ptr [rdx + r9 + 9], 12
+	pinsrb	xmm11, byte ptr [rdx + r8 + 9], 13
+	mov	r13, r8
+	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r8 + 9], 14
+	mov	r15, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r15 + 9], 15
+	por	xmm8, xmm0
+	movdqa	xmmword ptr [rsp + 160], xmm8   # 16-byte Spill
+	pminub	xmm11, xmm10
+	pcmpeqb	xmm11, xmm10
+	movdqa	xmm0, xmm11
+	movdqa	xmm8, xmmword ptr [rip + .LCPI8_10] # xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pandn	xmm0, xmm8
+	paddb	xmm0, xmm11
+	mov	r9, qword ptr [rsp + 56]        # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r9 + 22]
+	movd	xmm9, esi
+	pinsrb	xmm2, byte ptr [rdx + r15 + 8], 15
+	pminub	xmm2, xmm10
+	pcmpeqb	xmm2, xmm10
+	pandn	xmm2, xmm8
+	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 1
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 2
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 3
+	pinsrb	xmm12, byte ptr [rdx + rbx + 10], 4
+	pinsrb	xmm12, byte ptr [rdx + rdi + 10], 5
+	pinsrb	xmm12, byte ptr [rdx + r10 + 10], 6
+	mov	rbx, qword ptr [rsp + 208]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rbx + 10], 7
+	pinsrb	xmm12, byte ptr [rdx + r14 + 10], 8
+	pinsrb	xmm12, byte ptr [rdx + rax + 10], 9
+	mov	r14, rax
+	pinsrb	xmm12, byte ptr [rdx + r12 + 10], 10
+	pinsrb	xmm12, byte ptr [rdx + r11 + 10], 11
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rax + 10], 12
+	pinsrb	xmm12, byte ptr [rdx + r13 + 10], 13
+	pinsrb	xmm12, byte ptr [rdx + r8 + 10], 14
+	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 15
+	mov	r12, r15
+	pminub	xmm12, xmm10
+	pcmpeqb	xmm12, xmm10
+	pandn	xmm12, xmmword ptr [rip + .LCPI8_11]
+	por	xmm12, xmm2
+	mov	rax, r9
+	movzx	esi, byte ptr [rdx + r9 + 23]
+	movd	xmm8, esi
+	movdqa	xmm2, xmmword ptr [rsp + 144]   # 16-byte Reload
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r8 + 11], 1
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r15 + 11], 2
+	pinsrb	xmm2, byte ptr [rdx + rcx + 11], 3
+	mov	r11, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r11 + 11], 4
+	pinsrb	xmm2, byte ptr [rdx + rdi + 11], 5
+	pinsrb	xmm2, byte ptr [rdx + r10 + 11], 6
+	pinsrb	xmm2, byte ptr [rdx + rbx + 11], 7
+	mov	rsi, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rsi + 11], 8
+	pinsrb	xmm2, byte ptr [rdx + r14 + 11], 9
+	mov	r14, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r14 + 11], 10
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rdi + 11], 11
+	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r9 + 11], 12
+	pinsrb	xmm2, byte ptr [rdx + r13 + 11], 13
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rsi + 11], 14
+	pinsrb	xmm2, byte ptr [rdx + r12 + 11], 15
+	mov	r13, r12
+	pminub	xmm2, xmm10
+	pcmpeqb	xmm2, xmm10
+	pandn	xmm2, xmmword ptr [rip + .LCPI8_12]
+	por	xmm2, xmm12
+	movzx	esi, byte ptr [rdx + rax + 24]
+	movd	xmm11, esi
+	psubb	xmm0, xmm3
+	por	xmm2, xmm0
+	movdqa	xmmword ptr [rsp + 144], xmm2   # 16-byte Spill
+	movzx	esi, byte ptr [rdx + rax + 25]
+	movd	xmm3, esi
+	movdqa	xmm2, xmmword ptr [rsp + 304]   # 16-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r8 + 12], 1
+	pinsrb	xmm2, byte ptr [rdx + r15 + 12], 2
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r8 + 12], 3
+	mov	r10, r11
+	pinsrb	xmm2, byte ptr [rdx + r11 + 12], 4
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rsi + 12], 5
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r15 + 12], 6
+	pinsrb	xmm2, byte ptr [rdx + rbx + 12], 7
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r11 + 12], 8
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rcx + 12], 9
+	pinsrb	xmm2, byte ptr [rdx + r14 + 12], 10
+	pinsrb	xmm2, byte ptr [rdx + rdi + 12], 11
+	pinsrb	xmm2, byte ptr [rdx + r9 + 12], 12
+	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r12 + 12], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rax + 12], 14
+	pinsrb	xmm2, byte ptr [rdx + r13 + 12], 15
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rax + 13], 1
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + r13 + 13], 2
+	pinsrb	xmm14, byte ptr [rdx + r8 + 13], 3
+	pinsrb	xmm14, byte ptr [rdx + r10 + 13], 4
+	pinsrb	xmm14, byte ptr [rdx + rsi + 13], 5
+	pinsrb	xmm14, byte ptr [rdx + r15 + 13], 6
+	pinsrb	xmm14, byte ptr [rdx + rbx + 13], 7
+	pinsrb	xmm14, byte ptr [rdx + r11 + 13], 8
+	pinsrb	xmm14, byte ptr [rdx + rcx + 13], 9
+	pinsrb	xmm14, byte ptr [rdx + r14 + 13], 10
+	pinsrb	xmm14, byte ptr [rdx + rdi + 13], 11
+	pinsrb	xmm14, byte ptr [rdx + r9 + 13], 12
+	pinsrb	xmm14, byte ptr [rdx + r12 + 13], 13
+	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + r13 + 13], 14
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rax + 13], 15
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rax + 14], 1
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rax + 14], 2
+	pinsrb	xmm13, byte ptr [rdx + r8 + 14], 3
+	pinsrb	xmm13, byte ptr [rdx + r10 + 14], 4
+	pinsrb	xmm13, byte ptr [rdx + rsi + 14], 5
+	pinsrb	xmm13, byte ptr [rdx + r15 + 14], 6
+	pinsrb	xmm13, byte ptr [rdx + rbx + 14], 7
+	pinsrb	xmm13, byte ptr [rdx + r11 + 14], 8
+	pinsrb	xmm13, byte ptr [rdx + rcx + 14], 9
+	pinsrb	xmm13, byte ptr [rdx + r14 + 14], 10
+	pinsrb	xmm13, byte ptr [rdx + rdi + 14], 11
+	pinsrb	xmm13, byte ptr [rdx + r9 + 14], 12
+	pinsrb	xmm13, byte ptr [rdx + r12 + 14], 13
+	pinsrb	xmm13, byte ptr [rdx + r13 + 14], 14
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rax + 14], 15
+	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 15], 1
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r13 + 15], 2
+	pinsrb	xmm0, byte ptr [rdx + r8 + 15], 3
+	pinsrb	xmm0, byte ptr [rdx + r10 + 15], 4
+	pinsrb	xmm0, byte ptr [rdx + rsi + 15], 5
+	pinsrb	xmm0, byte ptr [rdx + r15 + 15], 6
+	pinsrb	xmm0, byte ptr [rdx + rbx + 15], 7
+	pinsrb	xmm0, byte ptr [rdx + r11 + 15], 8
+	pinsrb	xmm0, byte ptr [rdx + rcx + 15], 9
+	pinsrb	xmm0, byte ptr [rdx + r14 + 15], 10
+	pinsrb	xmm0, byte ptr [rdx + rdi + 15], 11
+	pinsrb	xmm0, byte ptr [rdx + r9 + 15], 12
+	pinsrb	xmm0, byte ptr [rdx + r12 + 15], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 15], 14
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 15], 15
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rax + 17], 1
+	pinsrb	xmm1, byte ptr [rdx + r13 + 17], 2
+	pinsrb	xmm1, byte ptr [rdx + r8 + 17], 3
+	pinsrb	xmm1, byte ptr [rdx + r10 + 17], 4
+	pinsrb	xmm1, byte ptr [rdx + rsi + 17], 5
+	pinsrb	xmm1, byte ptr [rdx + r15 + 17], 6
+	pinsrb	xmm1, byte ptr [rdx + rbx + 17], 7
+	pinsrb	xmm1, byte ptr [rdx + r11 + 17], 8
+	pinsrb	xmm1, byte ptr [rdx + rcx + 17], 9
+	pinsrb	xmm1, byte ptr [rdx + r14 + 17], 10
+	pinsrb	xmm1, byte ptr [rdx + rdi + 17], 11
+	mov	r14, rdi
+	pinsrb	xmm1, byte ptr [rdx + r9 + 17], 12
+	pinsrb	xmm1, byte ptr [rdx + r12 + 17], 13
+	pminub	xmm2, xmm10
+	pcmpeqb	xmm2, xmm10
+	pandn	xmm2, xmmword ptr [rip + .LCPI8_13]
+	pminub	xmm14, xmm10
+	pcmpeqb	xmm14, xmm10
+	pandn	xmm14, xmmword ptr [rip + .LCPI8_14]
+	por	xmm14, xmm2
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rdi + 26]
+	movd	xmm2, esi
+	mov	r9, qword ptr [rsp + 16]        # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + r9 + 17], 14
+	pminub	xmm13, xmm10
+	pcmpeqb	xmm13, xmm10
+	pandn	xmm13, xmmword ptr [rip + .LCPI8_15]
+	por	xmm13, xmm14
+	movzx	esi, byte ptr [rdx + rdi + 27]
+	movd	xmm12, esi
+	pminub	xmm0, xmm10
+	pcmpeqb	xmm0, xmm10
+	pxor	xmm0, xmmword ptr [rip + .LCPI8_16]
+	psllw	xmm0, 7
+	pand	xmm0, xmmword ptr [rip + .LCPI8_6]
+	por	xmm0, xmm13
+	movzx	esi, byte ptr [rdx + rdi + 28]
+	movd	xmm13, esi
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + r13 + 17], 15
+	por	xmm0, xmmword ptr [rsp + 144]   # 16-byte Folded Reload
+	movdqa	xmmword ptr [rsp + 176], xmm0   # 16-byte Spill
+	pminub	xmm1, xmm10
+	pcmpeqb	xmm1, xmm10
+	movdqa	xmm0, xmm10
+	movdqa	xmm14, xmm1
+	movdqa	xmm10, xmmword ptr [rip + .LCPI8_10] # xmm10 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pandn	xmm14, xmm10
+	paddb	xmm14, xmm1
+	movdqa	xmmword ptr [rsp + 144], xmm14  # 16-byte Spill
+	movzx	esi, byte ptr [rdx + rdi + 29]
+	movd	xmm10, esi
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rax + 16], 1
+	pinsrb	xmm7, byte ptr [rdx + rax + 18], 1
+	pinsrb	xmm15, byte ptr [rdx + rax + 19], 1
+	pinsrb	xmm4, byte ptr [rdx + rax + 20], 1
+	pinsrb	xmm6, byte ptr [rdx + rax + 21], 1
+	pinsrb	xmm9, byte ptr [rdx + rax + 22], 1
+	pinsrb	xmm8, byte ptr [rdx + rax + 23], 1
+	pinsrb	xmm11, byte ptr [rdx + rax + 24], 1
+	pinsrb	xmm3, byte ptr [rdx + rax + 25], 1
+	pinsrb	xmm2, byte ptr [rdx + rax + 26], 1
+	pinsrb	xmm12, byte ptr [rdx + rax + 27], 1
+	pinsrb	xmm13, byte ptr [rdx + rax + 28], 1
+	pinsrb	xmm10, byte ptr [rdx + rax + 29], 1
+	movzx	esi, byte ptr [rdx + rdi + 30]
+	movd	xmm14, esi
+	pinsrb	xmm14, byte ptr [rdx + rax + 30], 1
+	movzx	esi, byte ptr [rdx + rdi + 31]
+	movd	xmm1, esi
+	pinsrb	xmm1, byte ptr [rdx + rax + 31], 1
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rax + 16], 2
+	pinsrb	xmm7, byte ptr [rdx + rax + 18], 2
+	pinsrb	xmm15, byte ptr [rdx + rax + 19], 2
+	pinsrb	xmm4, byte ptr [rdx + rax + 20], 2
+	pinsrb	xmm6, byte ptr [rdx + rax + 21], 2
+	pinsrb	xmm9, byte ptr [rdx + rax + 22], 2
+	pinsrb	xmm8, byte ptr [rdx + rax + 23], 2
+	pinsrb	xmm11, byte ptr [rdx + rax + 24], 2
+	pinsrb	xmm3, byte ptr [rdx + rax + 25], 2
+	pinsrb	xmm2, byte ptr [rdx + rax + 26], 2
+	pinsrb	xmm12, byte ptr [rdx + rax + 27], 2
+	pinsrb	xmm13, byte ptr [rdx + rax + 28], 2
+	pinsrb	xmm10, byte ptr [rdx + rax + 29], 2
+	pinsrb	xmm14, byte ptr [rdx + rax + 30], 2
+	pinsrb	xmm1, byte ptr [rdx + rax + 31], 2
+	pinsrb	xmm5, byte ptr [rdx + r8 + 16], 3
+	pinsrb	xmm5, byte ptr [rdx + r10 + 16], 4
+	mov	rsi, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rsi + 16], 5
+	pinsrb	xmm5, byte ptr [rdx + r15 + 16], 6
+	pinsrb	xmm5, byte ptr [rdx + rbx + 16], 7
+	pinsrb	xmm5, byte ptr [rdx + r11 + 16], 8
+	pinsrb	xmm5, byte ptr [rdx + rcx + 16], 9
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rax + 16], 10
+	pinsrb	xmm5, byte ptr [rdx + r14 + 16], 11
+	mov	r12, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r12 + 16], 12
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rdi + 16], 13
+	pinsrb	xmm5, byte ptr [rdx + r9 + 16], 14
+	pinsrb	xmm5, byte ptr [rdx + r13 + 16], 15
+	pminub	xmm5, xmm0
+	pcmpeqb	xmm5, xmm0
+	pinsrb	xmm7, byte ptr [rdx + r8 + 18], 3
+	pinsrb	xmm7, byte ptr [rdx + r10 + 18], 4
+	pinsrb	xmm7, byte ptr [rdx + rsi + 18], 5
+	pinsrb	xmm7, byte ptr [rdx + r15 + 18], 6
+	pinsrb	xmm7, byte ptr [rdx + rbx + 18], 7
+	pinsrb	xmm7, byte ptr [rdx + r11 + 18], 8
+	pinsrb	xmm7, byte ptr [rdx + rcx + 18], 9
+	pinsrb	xmm7, byte ptr [rdx + rax + 18], 10
+	pinsrb	xmm7, byte ptr [rdx + r14 + 18], 11
+	pinsrb	xmm7, byte ptr [rdx + r12 + 18], 12
+	pinsrb	xmm7, byte ptr [rdx + rdi + 18], 13
+	pinsrb	xmm7, byte ptr [rdx + r9 + 18], 14
+	pinsrb	xmm7, byte ptr [rdx + r13 + 18], 15
+	pinsrb	xmm15, byte ptr [rdx + r8 + 19], 3
+	pinsrb	xmm15, byte ptr [rdx + r10 + 19], 4
+	pinsrb	xmm15, byte ptr [rdx + rsi + 19], 5
+	pinsrb	xmm15, byte ptr [rdx + r15 + 19], 6
+	pinsrb	xmm15, byte ptr [rdx + rbx + 19], 7
+	pinsrb	xmm15, byte ptr [rdx + r11 + 19], 8
+	pinsrb	xmm15, byte ptr [rdx + rcx + 19], 9
+	pinsrb	xmm15, byte ptr [rdx + rax + 19], 10
+	pinsrb	xmm15, byte ptr [rdx + r14 + 19], 11
+	pinsrb	xmm15, byte ptr [rdx + r12 + 19], 12
+	pinsrb	xmm15, byte ptr [rdx + rdi + 19], 13
+	pinsrb	xmm15, byte ptr [rdx + r9 + 19], 14
+	pinsrb	xmm15, byte ptr [rdx + r13 + 19], 15
+	pinsrb	xmm4, byte ptr [rdx + r8 + 20], 3
+	pinsrb	xmm4, byte ptr [rdx + r10 + 20], 4
+	pinsrb	xmm4, byte ptr [rdx + rsi + 20], 5
+	pinsrb	xmm4, byte ptr [rdx + r15 + 20], 6
+	pinsrb	xmm4, byte ptr [rdx + rbx + 20], 7
+	pinsrb	xmm4, byte ptr [rdx + r11 + 20], 8
+	pinsrb	xmm4, byte ptr [rdx + rcx + 20], 9
+	pinsrb	xmm4, byte ptr [rdx + rax + 20], 10
+	pinsrb	xmm4, byte ptr [rdx + r14 + 20], 11
+	pinsrb	xmm4, byte ptr [rdx + r12 + 20], 12
+	pinsrb	xmm4, byte ptr [rdx + rdi + 20], 13
+	pinsrb	xmm4, byte ptr [rdx + r9 + 20], 14
+	pinsrb	xmm4, byte ptr [rdx + r13 + 20], 15
+	pinsrb	xmm6, byte ptr [rdx + r8 + 21], 3
+	pinsrb	xmm6, byte ptr [rdx + r10 + 21], 4
+	mov	rax, r10
+	pinsrb	xmm6, byte ptr [rdx + rsi + 21], 5
+	pinsrb	xmm6, byte ptr [rdx + r15 + 21], 6
+	pinsrb	xmm6, byte ptr [rdx + rbx + 21], 7
+	pinsrb	xmm6, byte ptr [rdx + r11 + 21], 8
+	pinsrb	xmm6, byte ptr [rdx + rcx + 21], 9
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r10 + 21], 10
+	pinsrb	xmm6, byte ptr [rdx + r14 + 21], 11
+	pinsrb	xmm6, byte ptr [rdx + r12 + 21], 12
+	pinsrb	xmm6, byte ptr [rdx + rdi + 21], 13
+	pinsrb	xmm6, byte ptr [rdx + r9 + 21], 14
+	pandn	xmm5, xmmword ptr [rip + .LCPI8_10]
+	pminub	xmm7, xmm0
+	pcmpeqb	xmm7, xmm0
+	pandn	xmm7, xmmword ptr [rip + .LCPI8_11]
+	por	xmm7, xmm5
+	pminub	xmm15, xmm0
+	pcmpeqb	xmm15, xmm0
+	movdqa	xmm5, xmmword ptr [rip + .LCPI8_12] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pandn	xmm15, xmm5
+	por	xmm15, xmm7
+	pinsrb	xmm6, byte ptr [rdx + r13 + 21], 15
+	pcmpeqd	xmm5, xmm5
+	movdqa	xmm7, xmmword ptr [rsp + 144]   # 16-byte Reload
+	psubb	xmm7, xmm5
+	por	xmm15, xmm7
+	pminub	xmm4, xmm0
+	pcmpeqb	xmm4, xmm0
+	movdqa	xmm7, xmmword ptr [rip + .LCPI8_13] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm4, xmm7
+	pminub	xmm6, xmm0
+	pcmpeqb	xmm6, xmm0
+	movdqa	xmm7, xmmword ptr [rip + .LCPI8_14] # xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm6, xmm7
+	por	xmm6, xmm4
+	pinsrb	xmm9, byte ptr [rdx + r8 + 22], 3
+	pinsrb	xmm9, byte ptr [rdx + rax + 22], 4
+	pinsrb	xmm9, byte ptr [rdx + rsi + 22], 5
+	pinsrb	xmm9, byte ptr [rdx + r15 + 22], 6
+	pinsrb	xmm9, byte ptr [rdx + rbx + 22], 7
+	pinsrb	xmm9, byte ptr [rdx + r11 + 22], 8
+	pinsrb	xmm9, byte ptr [rdx + rcx + 22], 9
+	pinsrb	xmm9, byte ptr [rdx + r10 + 22], 10
+	pinsrb	xmm9, byte ptr [rdx + r14 + 22], 11
+	pinsrb	xmm9, byte ptr [rdx + r12 + 22], 12
+	pinsrb	xmm9, byte ptr [rdx + rdi + 22], 13
+	pinsrb	xmm9, byte ptr [rdx + r9 + 22], 14
+	pinsrb	xmm9, byte ptr [rdx + r13 + 22], 15
+	pminub	xmm9, xmm0
+	pcmpeqb	xmm9, xmm0
+	movdqa	xmm7, xmmword ptr [rip + .LCPI8_15] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm9, xmm7
+	por	xmm9, xmm6
+	pinsrb	xmm8, byte ptr [rdx + r8 + 23], 3
+	pinsrb	xmm8, byte ptr [rdx + rax + 23], 4
+	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 5
+	pinsrb	xmm8, byte ptr [rdx + r15 + 23], 6
+	pinsrb	xmm8, byte ptr [rdx + rbx + 23], 7
+	pinsrb	xmm8, byte ptr [rdx + r11 + 23], 8
+	pinsrb	xmm8, byte ptr [rdx + rcx + 23], 9
+	pinsrb	xmm8, byte ptr [rdx + r10 + 23], 10
+	pinsrb	xmm8, byte ptr [rdx + r14 + 23], 11
+	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 12
+	pinsrb	xmm8, byte ptr [rdx + rdi + 23], 13
+	pinsrb	xmm8, byte ptr [rdx + r9 + 23], 14
+	pinsrb	xmm8, byte ptr [rdx + r13 + 23], 15
+	pminub	xmm8, xmm0
+	pcmpeqb	xmm8, xmm0
+	pxor	xmm8, xmm5
+	pcmpeqd	xmm5, xmm5
+	psllw	xmm8, 7
+	movdqa	xmm6, xmmword ptr [rip + .LCPI8_6] # xmm6 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm8, xmm6
+	por	xmm8, xmm9
+	pinsrb	xmm11, byte ptr [rdx + r8 + 24], 3
+	pinsrb	xmm11, byte ptr [rdx + rax + 24], 4
+	pinsrb	xmm11, byte ptr [rdx + rsi + 24], 5
+	pinsrb	xmm11, byte ptr [rdx + r15 + 24], 6
+	pinsrb	xmm11, byte ptr [rdx + rbx + 24], 7
+	pinsrb	xmm11, byte ptr [rdx + r11 + 24], 8
+	pinsrb	xmm11, byte ptr [rdx + rcx + 24], 9
+	pinsrb	xmm11, byte ptr [rdx + r10 + 24], 10
+	pinsrb	xmm11, byte ptr [rdx + r14 + 24], 11
+	pinsrb	xmm11, byte ptr [rdx + r12 + 24], 12
+	pinsrb	xmm11, byte ptr [rdx + rdi + 24], 13
+	pinsrb	xmm11, byte ptr [rdx + r9 + 24], 14
+	pinsrb	xmm3, byte ptr [rdx + r8 + 25], 3
+	pinsrb	xmm3, byte ptr [rdx + rax + 25], 4
+	pinsrb	xmm3, byte ptr [rdx + rsi + 25], 5
+	pinsrb	xmm3, byte ptr [rdx + r15 + 25], 6
+	pinsrb	xmm3, byte ptr [rdx + rbx + 25], 7
+	pinsrb	xmm3, byte ptr [rdx + r11 + 25], 8
+	pinsrb	xmm3, byte ptr [rdx + rcx + 25], 9
+	pinsrb	xmm3, byte ptr [rdx + r10 + 25], 10
+	pinsrb	xmm3, byte ptr [rdx + r14 + 25], 11
+	pinsrb	xmm3, byte ptr [rdx + r12 + 25], 12
+	pinsrb	xmm3, byte ptr [rdx + rdi + 25], 13
+	pinsrb	xmm3, byte ptr [rdx + r9 + 25], 14
+	pinsrb	xmm3, byte ptr [rdx + r13 + 25], 15
+	por	xmm8, xmm15
+	movdqa	xmm4, xmm0
+	pminub	xmm3, xmm0
+	pcmpeqb	xmm3, xmm0
+	movdqa	xmm0, xmm3
+	movdqa	xmm9, xmmword ptr [rip + .LCPI8_10] # xmm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
+	pandn	xmm0, xmm9
+	paddb	xmm0, xmm3
+	pinsrb	xmm11, byte ptr [rdx + r13 + 24], 15
+	pminub	xmm11, xmm4
+	pcmpeqb	xmm11, xmm4
+	pandn	xmm11, xmm9
+	pinsrb	xmm2, byte ptr [rdx + r8 + 26], 3
+	pinsrb	xmm2, byte ptr [rdx + rax + 26], 4
+	pinsrb	xmm2, byte ptr [rdx + rsi + 26], 5
+	pinsrb	xmm2, byte ptr [rdx + r15 + 26], 6
+	pinsrb	xmm2, byte ptr [rdx + rbx + 26], 7
+	pinsrb	xmm2, byte ptr [rdx + r11 + 26], 8
+	pinsrb	xmm2, byte ptr [rdx + rcx + 26], 9
+	pinsrb	xmm2, byte ptr [rdx + r10 + 26], 10
+	pinsrb	xmm2, byte ptr [rdx + r14 + 26], 11
+	pinsrb	xmm2, byte ptr [rdx + r12 + 26], 12
+	pinsrb	xmm2, byte ptr [rdx + rdi + 26], 13
+	pinsrb	xmm2, byte ptr [rdx + r9 + 26], 14
+	pinsrb	xmm2, byte ptr [rdx + r13 + 26], 15
+	pminub	xmm2, xmm4
+	pcmpeqb	xmm2, xmm4
+	pandn	xmm2, xmmword ptr [rip + .LCPI8_11]
+	por	xmm2, xmm11
+	pinsrb	xmm12, byte ptr [rdx + r8 + 27], 3
+	pinsrb	xmm12, byte ptr [rdx + rax + 27], 4
+	pinsrb	xmm12, byte ptr [rdx + rsi + 27], 5
+	pinsrb	xmm12, byte ptr [rdx + r15 + 27], 6
+	pinsrb	xmm12, byte ptr [rdx + rbx + 27], 7
+	pinsrb	xmm12, byte ptr [rdx + r11 + 27], 8
+	pinsrb	xmm12, byte ptr [rdx + rcx + 27], 9
+	pinsrb	xmm12, byte ptr [rdx + r10 + 27], 10
+	pinsrb	xmm12, byte ptr [rdx + r14 + 27], 11
+	pinsrb	xmm12, byte ptr [rdx + r12 + 27], 12
+	pinsrb	xmm12, byte ptr [rdx + rdi + 27], 13
+	pinsrb	xmm12, byte ptr [rdx + r9 + 27], 14
+	pinsrb	xmm12, byte ptr [rdx + r13 + 27], 15
+	pminub	xmm12, xmm4
+	pcmpeqb	xmm12, xmm4
+	movdqa	xmm3, xmm4
+	pandn	xmm12, xmmword ptr [rip + .LCPI8_12]
+	por	xmm12, xmm2
+	psubb	xmm0, xmm5
+	por	xmm12, xmm0
+	pinsrb	xmm13, byte ptr [rdx + r8 + 28], 3
+	pinsrb	xmm10, byte ptr [rdx + r8 + 29], 3
+	pinsrb	xmm14, byte ptr [rdx + r8 + 30], 3
+	pinsrb	xmm1, byte ptr [rdx + r8 + 31], 3
+	pinsrb	xmm13, byte ptr [rdx + rax + 28], 4
+	pinsrb	xmm10, byte ptr [rdx + rax + 29], 4
+	pinsrb	xmm14, byte ptr [rdx + rax + 30], 4
+	pinsrb	xmm1, byte ptr [rdx + rax + 31], 4
+	pinsrb	xmm13, byte ptr [rdx + rsi + 28], 5
+	pinsrb	xmm10, byte ptr [rdx + rsi + 29], 5
+	pinsrb	xmm14, byte ptr [rdx + rsi + 30], 5
+	pinsrb	xmm1, byte ptr [rdx + rsi + 31], 5
+	pinsrb	xmm13, byte ptr [rdx + r15 + 28], 6
+	pinsrb	xmm10, byte ptr [rdx + r15 + 29], 6
+	pinsrb	xmm14, byte ptr [rdx + r15 + 30], 6
+	pinsrb	xmm1, byte ptr [rdx + r15 + 31], 6
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rbx + 28], 7
+	pinsrb	xmm10, byte ptr [rdx + rbx + 29], 7
+	pinsrb	xmm14, byte ptr [rdx + rbx + 30], 7
+	pinsrb	xmm1, byte ptr [rdx + rbx + 31], 7
+	pinsrb	xmm13, byte ptr [rdx + r11 + 28], 8
+	pinsrb	xmm10, byte ptr [rdx + r11 + 29], 8
+	pinsrb	xmm14, byte ptr [rdx + r11 + 30], 8
+	pinsrb	xmm1, byte ptr [rdx + r11 + 31], 8
+	pinsrb	xmm13, byte ptr [rdx + rcx + 28], 9
+	pinsrb	xmm10, byte ptr [rdx + rcx + 29], 9
+	pinsrb	xmm14, byte ptr [rdx + rcx + 30], 9
+	pinsrb	xmm1, byte ptr [rdx + rcx + 31], 9
+	mov	rax, r10
+	pinsrb	xmm13, byte ptr [rdx + r10 + 28], 10
+	pinsrb	xmm10, byte ptr [rdx + r10 + 29], 10
+	pinsrb	xmm14, byte ptr [rdx + r10 + 30], 10
+	pinsrb	xmm1, byte ptr [rdx + r10 + 31], 10
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rax + 28], 11
+	pinsrb	xmm10, byte ptr [rdx + rax + 29], 11
+	pinsrb	xmm14, byte ptr [rdx + rax + 30], 11
+	pinsrb	xmm1, byte ptr [rdx + rax + 31], 11
+	mov	rax, r12
+	pinsrb	xmm13, byte ptr [rdx + r12 + 28], 12
+	pinsrb	xmm10, byte ptr [rdx + r12 + 29], 12
+	pinsrb	xmm14, byte ptr [rdx + r12 + 30], 12
+	pinsrb	xmm1, byte ptr [rdx + r12 + 31], 12
+	pinsrb	xmm13, byte ptr [rdx + rdi + 28], 13
+	pinsrb	xmm10, byte ptr [rdx + rdi + 29], 13
+	pinsrb	xmm14, byte ptr [rdx + rdi + 30], 13
+	pinsrb	xmm1, byte ptr [rdx + rdi + 31], 13
+	pinsrb	xmm13, byte ptr [rdx + r9 + 28], 14
+	pinsrb	xmm10, byte ptr [rdx + r9 + 29], 14
+	pinsrb	xmm14, byte ptr [rdx + r9 + 30], 14
+	pinsrb	xmm1, byte ptr [rdx + r9 + 31], 14
+	mov	rax, r13
+	pinsrb	xmm13, byte ptr [rdx + r13 + 28], 15
+	pinsrb	xmm10, byte ptr [rdx + r13 + 29], 15
+	pinsrb	xmm14, byte ptr [rdx + r13 + 30], 15
+	movdqa	xmm0, xmm4
+	pminub	xmm13, xmm4
+	pcmpeqb	xmm13, xmm4
+	pandn	xmm13, xmmword ptr [rip + .LCPI8_13]
+	pminub	xmm10, xmm4
+	pcmpeqb	xmm10, xmm4
+	pandn	xmm10, xmmword ptr [rip + .LCPI8_14]
+	por	xmm10, xmm13
+	pinsrb	xmm1, byte ptr [rdx + r13 + 31], 15
+	pminub	xmm14, xmm4
+	pcmpeqb	xmm14, xmm4
+	pandn	xmm14, xmm7
+	por	xmm14, xmm10
+	pminub	xmm1, xmm4
+	pcmpeqb	xmm1, xmm4
+	pxor	xmm1, xmm5
+	psllw	xmm1, 7
+	pand	xmm1, xmm6
+	por	xmm1, xmm14
+	por	xmm1, xmm12
+	movdqa	xmm0, xmm8
+	punpcklbw	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
+	movdqa	xmm4, xmmword ptr [rsp + 160]   # 16-byte Reload
+	movdqa	xmm2, xmm4
+	movdqa	xmm5, xmmword ptr [rsp + 176]   # 16-byte Reload
+	punpcklbw	xmm2, xmm5              # xmm2 = xmm2[0],xmm5[0],xmm2[1],xmm5[1],xmm2[2],xmm5[2],xmm2[3],xmm5[3],xmm2[4],xmm5[4],xmm2[5],xmm5[5],xmm2[6],xmm5[6],xmm2[7],xmm5[7]
+	movdqa	xmm3, xmm2
+	punpcklwd	xmm3, xmm0              # xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]
+	punpckhwd	xmm2, xmm0              # xmm2 = xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
+	punpckhbw	xmm8, xmm1              # xmm8 = xmm8[8],xmm1[8],xmm8[9],xmm1[9],xmm8[10],xmm1[10],xmm8[11],xmm1[11],xmm8[12],xmm1[12],xmm8[13],xmm1[13],xmm8[14],xmm1[14],xmm8[15],xmm1[15]
+	punpckhbw	xmm4, xmm5              # xmm4 = xmm4[8],xmm5[8],xmm4[9],xmm5[9],xmm4[10],xmm5[10],xmm4[11],xmm5[11],xmm4[12],xmm5[12],xmm4[13],xmm5[13],xmm4[14],xmm5[14],xmm4[15],xmm5[15]
+	movdqa	xmm0, xmm4
+	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
+	punpckhwd	xmm4, xmm8              # xmm4 = xmm4[4],xmm8[4],xmm4[5],xmm8[5],xmm4[6],xmm8[6],xmm4[7],xmm8[7]
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
+	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm2
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm3
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	jne	.LBB8_195
+# %bb.196:
+	mov	r15, qword ptr [rsp + 256]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 232]      # 8-byte Folded Reload
+	mov	r11b, byte ptr [rsp]            # 1-byte Reload
+	mov	rsi, qword ptr [rsp + 264]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	jne	.LBB8_67
+	jmp	.LBB8_132
+.LBB8_197:
+	and	r15, -8
+	mov	rax, r15
+	shl	rax, 6
+	add	rax, rdx
+	mov	qword ptr [rsp + 40], rax       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	lea	rax, [r14 + 4*r15]
+	mov	qword ptr [rsp], rax            # 8-byte Spill
+	mov	dword ptr [rsp + 48], r13d      # 4-byte Spill
+	movd	xmm0, r13d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm15, xmm0, 0                  # xmm15 = xmm0[0,0,0,0]
+	xor	r9d, r9d
+	mov	qword ptr [rsp + 128], r14      # 8-byte Spill
+	movdqa	xmm8, xmmword ptr [rip + .LCPI8_8] # xmm8 = <1,1,1,1,1,1,1,1,u,u,u,u,u,u,u,u>
+	.p2align	4, 0x90
+.LBB8_198:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 16], r9        # 8-byte Spill
+	shl	r9, 6
+	mov	r8, r9
+	mov	r12, r9
+	mov	r13, r9
+	mov	rcx, r9
+	mov	rdi, r9
+	mov	rbx, r9
+	movzx	eax, word ptr [rdx + r9]
+	movd	xmm5, eax
+	movzx	eax, word ptr [rdx + r9 + 2]
+	movd	xmm3, eax
+	movzx	eax, word ptr [rdx + r9 + 4]
+	movd	xmm2, eax
+	movzx	eax, word ptr [rdx + r9 + 6]
+	movd	xmm4, eax
+	movzx	r10d, word ptr [rdx + r9 + 8]
+	movzx	esi, word ptr [rdx + r9 + 10]
+	movzx	r11d, word ptr [rdx + r9 + 12]
+	movzx	eax, word ptr [rdx + r9 + 14]
+	mov	dword ptr [rsp + 8], eax        # 4-byte Spill
+	movzx	eax, word ptr [rdx + r9 + 16]
+	movd	xmm6, eax
+	movzx	eax, word ptr [rdx + r9 + 32]
+	movd	xmm1, eax
+	movzx	eax, word ptr [rdx + r9 + 48]
+	mov	r15, r9
+	or	r15, 64
+	or	r8, 128
+	or	r12, 192
+	or	r13, 256
+	or	rcx, 320
+	or	rdi, 384
+	pinsrw	xmm5, word ptr [rdx + r15], 1
+	pinsrw	xmm5, word ptr [rdx + r8], 2
+	pinsrw	xmm5, word ptr [rdx + r12], 3
+	pinsrw	xmm5, word ptr [rdx + r13], 4
+	pinsrw	xmm5, word ptr [rdx + rcx], 5
+	pinsrw	xmm5, word ptr [rdx + rdi], 6
+	or	rbx, 448
+	pinsrw	xmm5, word ptr [rdx + rbx], 7
+	movd	xmm9, eax
+	movzx	eax, word ptr [rdx + r9 + 18]
+	mov	dword ptr [rsp + 24], eax       # 4-byte Spill
+	movdqa	xmm0, xmm15
+	pcmpgtw	xmm0, xmm5
+	pinsrw	xmm3, word ptr [rdx + r15 + 2], 1
+	pinsrw	xmm3, word ptr [rdx + r8 + 2], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 2], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 2], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 2], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 2], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 2], 7
+	pinsrw	xmm6, word ptr [rdx + r15 + 16], 1
+	pinsrw	xmm6, word ptr [rdx + r8 + 16], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 16], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 16], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 16], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 16], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 16], 7
+	movdqa	xmm10, xmm15
+	pinsrw	xmm1, word ptr [rdx + r15 + 32], 1
+	pinsrw	xmm1, word ptr [rdx + r8 + 32], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 32], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 32], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 32], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 32], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 32], 7
+	pcmpgtw	xmm10, xmm6
+	movdqa	xmm6, xmm15
+	pcmpgtw	xmm6, xmm1
+	pinsrw	xmm9, word ptr [rdx + r15 + 48], 1
+	pinsrw	xmm9, word ptr [rdx + r8 + 48], 2
+	pinsrw	xmm9, word ptr [rdx + r12 + 48], 3
+	pinsrw	xmm9, word ptr [rdx + r13 + 48], 4
+	pinsrw	xmm9, word ptr [rdx + rcx + 48], 5
+	pinsrw	xmm9, word ptr [rdx + rdi + 48], 6
+	pinsrw	xmm9, word ptr [rdx + rbx + 48], 7
+	movdqa	xmm5, xmm15
+	pcmpgtw	xmm5, xmm9
+	movdqa	xmm1, xmm15
+	pcmpgtw	xmm1, xmm3
+	packsswb	xmm1, xmm1
+	movdqa	xmm3, xmm1
+	pand	xmm3, xmm8
+	psubb	xmm3, xmm1
+	movd	xmm1, r10d
+	movzx	r14d, word ptr [rdx + r9 + 20]
+	packsswb	xmm0, xmm0
+	pinsrw	xmm2, word ptr [rdx + r15 + 4], 1
+	pinsrw	xmm2, word ptr [rdx + r8 + 4], 2
+	pinsrw	xmm2, word ptr [rdx + r12 + 4], 3
+	pinsrw	xmm2, word ptr [rdx + r13 + 4], 4
+	pinsrw	xmm2, word ptr [rdx + rcx + 4], 5
+	pinsrw	xmm2, word ptr [rdx + rdi + 4], 6
+	pinsrw	xmm2, word ptr [rdx + rbx + 4], 7
+	pinsrw	xmm4, word ptr [rdx + r15 + 6], 1
+	pinsrw	xmm4, word ptr [rdx + r8 + 6], 2
+	pinsrw	xmm4, word ptr [rdx + r12 + 6], 3
+	pinsrw	xmm4, word ptr [rdx + r13 + 6], 4
+	pinsrw	xmm4, word ptr [rdx + rcx + 6], 5
+	pinsrw	xmm4, word ptr [rdx + rdi + 6], 6
+	pinsrw	xmm4, word ptr [rdx + rbx + 6], 7
+	pinsrw	xmm1, word ptr [rdx + r15 + 8], 1
+	pinsrw	xmm1, word ptr [rdx + r8 + 8], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 8], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 8], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 8], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 8], 6
+	pand	xmm0, xmm8
+	por	xmm3, xmm0
+	movdqa	xmm7, xmm15
+	pcmpgtw	xmm7, xmm2
+	movd	xmm2, esi
+	movzx	esi, word ptr [rdx + r9 + 22]
+	pinsrw	xmm1, word ptr [rdx + rbx + 8], 7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm8
+	psllw	xmm7, 2
+	movdqa	xmm11, xmmword ptr [rip + .LCPI8_1] # xmm11 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	pand	xmm7, xmm11
+	por	xmm7, xmm3
+	movdqa	xmm3, xmm15
+	pcmpgtw	xmm3, xmm4
+	movdqa	xmm0, xmm15
+	pcmpgtw	xmm0, xmm1
+	movd	xmm1, r11d
+	movzx	r11d, word ptr [rdx + r9 + 24]
+	pinsrw	xmm2, word ptr [rdx + r15 + 10], 1
+	pinsrw	xmm2, word ptr [rdx + r8 + 10], 2
+	pinsrw	xmm2, word ptr [rdx + r12 + 10], 3
+	pinsrw	xmm2, word ptr [rdx + r13 + 10], 4
+	pinsrw	xmm2, word ptr [rdx + rcx + 10], 5
+	pinsrw	xmm2, word ptr [rdx + rdi + 10], 6
+	pinsrw	xmm2, word ptr [rdx + rbx + 10], 7
+	pinsrw	xmm1, word ptr [rdx + r15 + 12], 1
+	pinsrw	xmm1, word ptr [rdx + r8 + 12], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 12], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 12], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 12], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 12], 6
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm8
+	psllw	xmm3, 3
+	movdqa	xmm12, xmmword ptr [rip + .LCPI8_2] # xmm12 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	pand	xmm3, xmm12
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm8
+	psllw	xmm0, 4
+	movdqa	xmm13, xmmword ptr [rip + .LCPI8_3] # xmm13 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	pand	xmm0, xmm13
+	por	xmm0, xmm3
+	movd	xmm3, dword ptr [rsp + 8]       # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [rdx + r9 + 26]
+	pinsrw	xmm1, word ptr [rdx + rbx + 12], 7
+	por	xmm0, xmm7
+	movdqa	xmm4, xmm15
+	pcmpgtw	xmm4, xmm2
+	movdqa	xmm7, xmm15
+	pcmpgtw	xmm7, xmm1
+	movd	xmm1, dword ptr [rsp + 24]      # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [rdx + r9 + 28]
+	pinsrw	xmm3, word ptr [rdx + r15 + 14], 1
+	pinsrw	xmm3, word ptr [rdx + r8 + 14], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 14], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 14], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 14], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 14], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 14], 7
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm8
+	psllw	xmm4, 5
+	movdqa	xmm14, xmmword ptr [rip + .LCPI8_4] # xmm14 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	pand	xmm4, xmm14
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm8
+	psllw	xmm7, 6
+	movdqa	xmm11, xmmword ptr [rip + .LCPI8_5] # xmm11 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	pand	xmm7, xmm11
+	por	xmm7, xmm4
+	movdqa	xmm9, xmm15
+	pcmpgtw	xmm9, xmm3
+	movd	xmm3, r14d
+	movzx	r14d, word ptr [rdx + r9 + 30]
+	packsswb	xmm9, xmm9
+	psllw	xmm9, 7
+	movdqa	xmm2, xmmword ptr [rip + .LCPI8_6] # xmm2 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm9, xmm2
+	por	xmm9, xmm7
+	movd	xmm4, esi
+	movzx	esi, word ptr [rdx + r9 + 34]
+	mov	dword ptr [rsp + 24], esi       # 4-byte Spill
+	pinsrw	xmm1, word ptr [rdx + r15 + 18], 1
+	pinsrw	xmm1, word ptr [rdx + r8 + 18], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 18], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 18], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 18], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 18], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 18], 7
+	por	xmm9, xmm0
+	movdqa	xmm0, xmm15
+	pcmpgtw	xmm0, xmm1
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm0
+	pand	xmm1, xmm8
+	psubb	xmm1, xmm0
+	movd	xmm7, r11d
+	movzx	esi, word ptr [rdx + r9 + 36]
+	mov	dword ptr [rsp + 8], esi        # 4-byte Spill
+	packsswb	xmm10, xmm10
+	pinsrw	xmm3, word ptr [rdx + r15 + 20], 1
+	pinsrw	xmm3, word ptr [rdx + r8 + 20], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 20], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 20], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 20], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 20], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 20], 7
+	pinsrw	xmm4, word ptr [rdx + r15 + 22], 1
+	pinsrw	xmm4, word ptr [rdx + r8 + 22], 2
+	pinsrw	xmm4, word ptr [rdx + r12 + 22], 3
+	pinsrw	xmm4, word ptr [rdx + r13 + 22], 4
+	pinsrw	xmm4, word ptr [rdx + rcx + 22], 5
+	pinsrw	xmm4, word ptr [rdx + rdi + 22], 6
+	pinsrw	xmm4, word ptr [rdx + rbx + 22], 7
+	pinsrw	xmm7, word ptr [rdx + r15 + 24], 1
+	pinsrw	xmm7, word ptr [rdx + r8 + 24], 2
+	pinsrw	xmm7, word ptr [rdx + r12 + 24], 3
+	pinsrw	xmm7, word ptr [rdx + r13 + 24], 4
+	pinsrw	xmm7, word ptr [rdx + rcx + 24], 5
+	pinsrw	xmm7, word ptr [rdx + rdi + 24], 6
+	pinsrw	xmm7, word ptr [rdx + rbx + 24], 7
+	pand	xmm10, xmm8
+	por	xmm1, xmm10
+	movdqa	xmm2, xmm15
+	pcmpgtw	xmm2, xmm3
+	movd	xmm3, eax
+	movzx	r11d, word ptr [rdx + r9 + 38]
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm8
+	psllw	xmm2, 2
+	movdqa	xmm13, xmmword ptr [rip + .LCPI8_1] # xmm13 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	pand	xmm2, xmm13
+	por	xmm2, xmm1
+	movdqa	xmm1, xmm15
+	pcmpgtw	xmm1, xmm4
+	movdqa	xmm0, xmm15
+	pcmpgtw	xmm0, xmm7
+	movd	xmm4, r10d
+	movzx	r10d, word ptr [rdx + r9 + 40]
+	pinsrw	xmm3, word ptr [rdx + r15 + 26], 1
+	pinsrw	xmm3, word ptr [rdx + r8 + 26], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 26], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 26], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 26], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 26], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 26], 7
+	pinsrw	xmm4, word ptr [rdx + r15 + 28], 1
+	pinsrw	xmm4, word ptr [rdx + r8 + 28], 2
+	pinsrw	xmm4, word ptr [rdx + r12 + 28], 3
+	pinsrw	xmm4, word ptr [rdx + r13 + 28], 4
+	pinsrw	xmm4, word ptr [rdx + rcx + 28], 5
+	pinsrw	xmm4, word ptr [rdx + rdi + 28], 6
+	pinsrw	xmm4, word ptr [rdx + rbx + 28], 7
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm8
+	psllw	xmm1, 3
+	movdqa	xmm11, xmm12
+	pand	xmm1, xmm12
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm8
+	psllw	xmm0, 4
+	movdqa	xmm12, xmmword ptr [rip + .LCPI8_3] # xmm12 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	pand	xmm0, xmm12
+	por	xmm0, xmm1
+	movd	xmm1, r14d
+	movzx	eax, word ptr [rdx + r9 + 42]
+	por	xmm0, xmm2
+	movdqa	xmm2, xmm15
+	pcmpgtw	xmm2, xmm3
+	movdqa	xmm7, xmm15
+	pcmpgtw	xmm7, xmm4
+	movd	xmm4, dword ptr [rsp + 24]      # 4-byte Folded Reload
+                                        # xmm4 = mem[0],zero,zero,zero
+	movzx	r14d, word ptr [rdx + r9 + 44]
+	pinsrw	xmm1, word ptr [rdx + r15 + 30], 1
+	pinsrw	xmm1, word ptr [rdx + r8 + 30], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 30], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 30], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 30], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 30], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 30], 7
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm8
+	psllw	xmm2, 5
+	pand	xmm2, xmm14
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm8
+	psllw	xmm7, 6
+	movdqa	xmm3, xmmword ptr [rip + .LCPI8_5] # xmm3 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	pand	xmm7, xmm3
+	por	xmm7, xmm2
+	movdqa	xmm10, xmm15
+	pcmpgtw	xmm10, xmm1
+	movd	xmm1, dword ptr [rsp + 8]       # 4-byte Folded Reload
+                                        # xmm1 = mem[0],zero,zero,zero
+	movzx	esi, word ptr [rdx + r9 + 46]
+	mov	dword ptr [rsp + 24], esi       # 4-byte Spill
+	packsswb	xmm10, xmm10
+	psllw	xmm10, 7
+	movdqa	xmm14, xmmword ptr [rip + .LCPI8_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm10, xmm14
+	por	xmm10, xmm7
+	movd	xmm2, r11d
+	movzx	r11d, word ptr [rdx + r9 + 50]
+	pinsrw	xmm4, word ptr [rdx + r15 + 34], 1
+	pinsrw	xmm4, word ptr [rdx + r8 + 34], 2
+	pinsrw	xmm4, word ptr [rdx + r12 + 34], 3
+	pinsrw	xmm4, word ptr [rdx + r13 + 34], 4
+	pinsrw	xmm4, word ptr [rdx + rcx + 34], 5
+	pinsrw	xmm4, word ptr [rdx + rdi + 34], 6
+	pinsrw	xmm4, word ptr [rdx + rbx + 34], 7
+	por	xmm10, xmm0
+	movdqa	xmm0, xmm15
+	pcmpgtw	xmm0, xmm4
+	packsswb	xmm0, xmm0
+	movdqa	xmm4, xmm0
+	pand	xmm4, xmm8
+	psubb	xmm4, xmm0
+	movd	xmm0, r10d
+	movzx	esi, word ptr [rdx + r9 + 52]
+	mov	dword ptr [rsp + 8], esi        # 4-byte Spill
+	packsswb	xmm6, xmm6
+	pinsrw	xmm1, word ptr [rdx + r15 + 36], 1
+	pinsrw	xmm1, word ptr [rdx + r8 + 36], 2
+	pinsrw	xmm1, word ptr [rdx + r12 + 36], 3
+	pinsrw	xmm1, word ptr [rdx + r13 + 36], 4
+	pinsrw	xmm1, word ptr [rdx + rcx + 36], 5
+	pinsrw	xmm1, word ptr [rdx + rdi + 36], 6
+	pinsrw	xmm1, word ptr [rdx + rbx + 36], 7
+	pinsrw	xmm2, word ptr [rdx + r15 + 38], 1
+	pinsrw	xmm2, word ptr [rdx + r8 + 38], 2
+	pinsrw	xmm2, word ptr [rdx + r12 + 38], 3
+	pinsrw	xmm2, word ptr [rdx + r13 + 38], 4
+	pinsrw	xmm2, word ptr [rdx + rcx + 38], 5
+	pinsrw	xmm2, word ptr [rdx + rdi + 38], 6
+	pinsrw	xmm2, word ptr [rdx + rbx + 38], 7
+	pinsrw	xmm0, word ptr [rdx + r15 + 40], 1
+	pinsrw	xmm0, word ptr [rdx + r8 + 40], 2
+	pinsrw	xmm0, word ptr [rdx + r12 + 40], 3
+	pinsrw	xmm0, word ptr [rdx + r13 + 40], 4
+	pinsrw	xmm0, word ptr [rdx + rcx + 40], 5
+	pinsrw	xmm0, word ptr [rdx + rdi + 40], 6
+	pand	xmm6, xmm8
+	por	xmm4, xmm6
+	movdqa	xmm6, xmm15
+	pcmpgtw	xmm6, xmm1
+	movd	xmm7, eax
+	movzx	r10d, word ptr [rdx + r9 + 54]
+	pinsrw	xmm0, word ptr [rdx + rbx + 40], 7
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm8
+	psllw	xmm6, 2
+	pand	xmm6, xmm13
+	por	xmm6, xmm4
+	movdqa	xmm4, xmm15
+	pcmpgtw	xmm4, xmm2
+	movdqa	xmm1, xmm15
+	pcmpgtw	xmm1, xmm0
+	movd	xmm0, r14d
+	movzx	eax, word ptr [rdx + r9 + 56]
+	pinsrw	xmm7, word ptr [rdx + r15 + 42], 1
+	pinsrw	xmm7, word ptr [rdx + r8 + 42], 2
+	pinsrw	xmm7, word ptr [rdx + r12 + 42], 3
+	pinsrw	xmm7, word ptr [rdx + r13 + 42], 4
+	pinsrw	xmm7, word ptr [rdx + rcx + 42], 5
+	pinsrw	xmm7, word ptr [rdx + rdi + 42], 6
+	pinsrw	xmm7, word ptr [rdx + rbx + 42], 7
+	pinsrw	xmm0, word ptr [rdx + r15 + 44], 1
+	pinsrw	xmm0, word ptr [rdx + r8 + 44], 2
+	pinsrw	xmm0, word ptr [rdx + r12 + 44], 3
+	pinsrw	xmm0, word ptr [rdx + r13 + 44], 4
+	pinsrw	xmm0, word ptr [rdx + rcx + 44], 5
+	pinsrw	xmm0, word ptr [rdx + rdi + 44], 6
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm8
+	psllw	xmm4, 3
+	pand	xmm4, xmm11
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm8
+	psllw	xmm1, 4
+	pand	xmm1, xmm12
+	movdqa	xmm13, xmm12
+	por	xmm1, xmm4
+	movd	xmm2, dword ptr [rsp + 24]      # 4-byte Folded Reload
+                                        # xmm2 = mem[0],zero,zero,zero
+	movzx	esi, word ptr [rdx + r9 + 58]
+	pinsrw	xmm0, word ptr [rdx + rbx + 44], 7
+	por	xmm1, xmm6
+	movdqa	xmm4, xmm15
+	pcmpgtw	xmm4, xmm7
+	movdqa	xmm6, xmm15
+	pcmpgtw	xmm6, xmm0
+	movd	xmm7, r11d
+	movzx	r11d, word ptr [rdx + r9 + 60]
+	pinsrw	xmm2, word ptr [rdx + r15 + 46], 1
+	pinsrw	xmm2, word ptr [rdx + r8 + 46], 2
+	pinsrw	xmm2, word ptr [rdx + r12 + 46], 3
+	pinsrw	xmm2, word ptr [rdx + r13 + 46], 4
+	pinsrw	xmm2, word ptr [rdx + rcx + 46], 5
+	pinsrw	xmm2, word ptr [rdx + rdi + 46], 6
+	movzx	r9d, word ptr [rdx + r9 + 62]
+	pinsrw	xmm2, word ptr [rdx + rbx + 46], 7
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm8
+	psllw	xmm4, 5
+	pand	xmm4, xmmword ptr [rip + .LCPI8_4]
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm8
+	psllw	xmm6, 6
+	pand	xmm6, xmm3
+	movdqa	xmm12, xmm3
+	por	xmm6, xmm4
+	movdqa	xmm0, xmm15
+	pcmpgtw	xmm0, xmm2
+	movd	xmm2, dword ptr [rsp + 8]       # 4-byte Folded Reload
+                                        # xmm2 = mem[0],zero,zero,zero
+	pinsrw	xmm7, word ptr [rdx + r15 + 50], 1
+	pinsrw	xmm7, word ptr [rdx + r8 + 50], 2
+	pinsrw	xmm7, word ptr [rdx + r12 + 50], 3
+	pinsrw	xmm7, word ptr [rdx + r13 + 50], 4
+	pinsrw	xmm7, word ptr [rdx + rcx + 50], 5
+	pinsrw	xmm7, word ptr [rdx + rdi + 50], 6
+	pinsrw	xmm7, word ptr [rdx + rbx + 50], 7
+	packsswb	xmm0, xmm0
+	psllw	xmm0, 7
+	pand	xmm0, xmm14
+	por	xmm0, xmm6
+	movd	xmm6, r10d
+	por	xmm0, xmm1
+	movdqa	xmm1, xmm15
+	pcmpgtw	xmm1, xmm7
+	packsswb	xmm1, xmm1
+	movdqa	xmm7, xmm1
+	pand	xmm7, xmm8
+	psubb	xmm7, xmm1
+	movd	xmm3, eax
+	packsswb	xmm5, xmm5
+	pinsrw	xmm2, word ptr [rdx + r15 + 52], 1
+	pinsrw	xmm2, word ptr [rdx + r8 + 52], 2
+	pinsrw	xmm2, word ptr [rdx + r12 + 52], 3
+	pinsrw	xmm2, word ptr [rdx + r13 + 52], 4
+	pinsrw	xmm2, word ptr [rdx + rcx + 52], 5
+	pinsrw	xmm2, word ptr [rdx + rdi + 52], 6
+	pand	xmm5, xmm8
+	pinsrw	xmm2, word ptr [rdx + rbx + 52], 7
+	por	xmm7, xmm5
+	movdqa	xmm5, xmm15
+	pcmpgtw	xmm5, xmm2
+	movd	xmm4, esi
+	pinsrw	xmm6, word ptr [rdx + r15 + 54], 1
+	pinsrw	xmm6, word ptr [rdx + r8 + 54], 2
+	pinsrw	xmm6, word ptr [rdx + r12 + 54], 3
+	pinsrw	xmm6, word ptr [rdx + r13 + 54], 4
+	pinsrw	xmm6, word ptr [rdx + rcx + 54], 5
+	pinsrw	xmm6, word ptr [rdx + rdi + 54], 6
+	pinsrw	xmm6, word ptr [rdx + rbx + 54], 7
+	pinsrw	xmm3, word ptr [rdx + r15 + 56], 1
+	pinsrw	xmm3, word ptr [rdx + r8 + 56], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 56], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 56], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 56], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 56], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 56], 7
+	pinsrw	xmm4, word ptr [rdx + r15 + 58], 1
+	pinsrw	xmm4, word ptr [rdx + r8 + 58], 2
+	pinsrw	xmm4, word ptr [rdx + r12 + 58], 3
+	pinsrw	xmm4, word ptr [rdx + r13 + 58], 4
+	pinsrw	xmm4, word ptr [rdx + rcx + 58], 5
+	pinsrw	xmm4, word ptr [rdx + rdi + 58], 6
+	pinsrw	xmm4, word ptr [rdx + rbx + 58], 7
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm8
+	psllw	xmm5, 2
+	pand	xmm5, xmmword ptr [rip + .LCPI8_1]
+	por	xmm5, xmm7
+	movdqa	xmm2, xmm15
+	pcmpgtw	xmm2, xmm6
+	movdqa	xmm1, xmm15
+	pcmpgtw	xmm1, xmm3
+	movd	xmm3, r11d
+	pinsrw	xmm3, word ptr [rdx + r15 + 60], 1
+	pinsrw	xmm3, word ptr [rdx + r8 + 60], 2
+	pinsrw	xmm3, word ptr [rdx + r12 + 60], 3
+	pinsrw	xmm3, word ptr [rdx + r13 + 60], 4
+	pinsrw	xmm3, word ptr [rdx + rcx + 60], 5
+	pinsrw	xmm3, word ptr [rdx + rdi + 60], 6
+	pinsrw	xmm3, word ptr [rdx + rbx + 60], 7
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm8
+	psllw	xmm2, 3
+	pand	xmm2, xmm11
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm8
+	psllw	xmm1, 4
+	pand	xmm1, xmm13
+	por	xmm1, xmm2
+	movd	xmm2, r9d
+	pinsrw	xmm2, word ptr [rdx + r15 + 62], 1
+	pinsrw	xmm2, word ptr [rdx + r8 + 62], 2
+	pinsrw	xmm2, word ptr [rdx + r12 + 62], 3
+	mov	r14, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrw	xmm2, word ptr [rdx + r13 + 62], 4
+	pinsrw	xmm2, word ptr [rdx + rcx + 62], 5
+	pinsrw	xmm2, word ptr [rdx + rdi + 62], 6
+	pinsrw	xmm2, word ptr [rdx + rbx + 62], 7
+	por	xmm1, xmm5
+	movdqa	xmm5, xmm15
+	pcmpgtw	xmm5, xmm4
+	movdqa	xmm4, xmm15
+	pcmpgtw	xmm4, xmm3
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm8
+	psllw	xmm5, 5
+	pand	xmm5, xmmword ptr [rip + .LCPI8_4]
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm8
+	psllw	xmm4, 6
+	pand	xmm4, xmm12
+	por	xmm4, xmm5
+	movdqa	xmm3, xmm15
+	pcmpgtw	xmm3, xmm2
+	packsswb	xmm3, xmm3
+	psllw	xmm3, 7
+	pand	xmm3, xmm14
+	por	xmm3, xmm4
+	por	xmm3, xmm1
+	movdqa	xmm1, xmm9
+	punpcklqdq	xmm1, xmm10             # xmm1 = xmm1[0],xmm10[0]
+	movdqa	xmm2, xmm0
+	punpcklqdq	xmm2, xmm3              # xmm2 = xmm2[0],xmm3[0]
+	movdqa	xmm4, xmmword ptr [rip + .LCPI8_9] # xmm4 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
+	pshufb	xmm2, xmm4
+	pshufb	xmm1, xmm4
+	punpcklwd	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
+	punpcklbw	xmm0, xmm3              # xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
+	punpcklbw	xmm9, xmm10             # xmm9 = xmm9[0],xmm10[0],xmm9[1],xmm10[1],xmm9[2],xmm10[2],xmm9[3],xmm10[3],xmm9[4],xmm10[4],xmm9[5],xmm10[5],xmm9[6],xmm10[6],xmm9[7],xmm10[7]
+	punpcklwd	xmm9, xmm0              # xmm9 = xmm9[0],xmm0[0],xmm9[1],xmm0[1],xmm9[2],xmm0[2],xmm9[3],xmm0[3]
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm9
+	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm1
+	add	rcx, 8
+	mov	r9, rcx
+	cmp	rcx, qword ptr [rsp + 32]       # 8-byte Folded Reload
+	jne	.LBB8_198
+# %bb.199:
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 32]       # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r13d, dword ptr [rsp + 48]      # 4-byte Reload
+	mov	r12, qword ptr [rsp]            # 8-byte Reload
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	jne	.LBB8_101
+	jmp	.LBB8_136
+.LBB8_200:
+	mov	r8, r11
+	and	r8, -4
+	mov	rbx, r8
+	shl	rbx, 7
+	add	rbx, rdx
+	lea	r15, [r14 + 4*r8]
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	add	rdx, 508
+	xor	ecx, ecx
+	movdqa	xmm15, xmmword ptr [rip + .LCPI8_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	movdqa	xmm8, xmmword ptr [rip + .LCPI8_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	movdqa	xmm10, xmmword ptr [rip + .LCPI8_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	movdqa	xmm11, xmmword ptr [rip + .LCPI8_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	movdqa	xmm12, xmmword ptr [rip + .LCPI8_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	movdqa	xmm13, xmmword ptr [rip + .LCPI8_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	movdqa	xmm14, xmmword ptr [rip + .LCPI8_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	movdqa	xmm9, xmmword ptr [rip + .LCPI8_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
+	.p2align	4, 0x90
+.LBB8_201:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm6, dword ptr [rdx - 508]     # xmm6 = mem[0],zero,zero,zero
+	movss	xmm7, dword ptr [rdx - 504]     # xmm7 = mem[0],zero,zero,zero
+	movss	xmm5, dword ptr [rdx - 500]     # xmm5 = mem[0],zero,zero,zero
+	movss	xmm4, dword ptr [rdx - 496]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
+	cmpltps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	insertps	xmm7, dword ptr [rdx - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
+	insertps	xmm5, dword ptr [rdx - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
+	insertps	xmm4, dword ptr [rdx - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [rdx - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	insertps	xmm4, dword ptr [rdx - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
+	cmpltps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	movdqa	xmm2, xmm7
+	pand	xmm2, xmm15
+	psubb	xmm2, xmm7
+	movss	xmm7, dword ptr [rdx - 492]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [rdx - 488]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
+	cmpltps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	pand	xmm5, xmm8
+	por	xmm5, xmm2
+	movss	xmm3, dword ptr [rdx - 484]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rdx - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
+	cmpltps	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	psllw	xmm4, 3
+	pand	xmm4, xmm10
+	cmpltps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 4
+	pand	xmm7, xmm11
+	por	xmm7, xmm4
+	movss	xmm4, dword ptr [rdx - 480]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm4, dword ptr [rdx - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [rdx - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	insertps	xmm4, dword ptr [rdx - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
+	por	xmm7, xmm5
+	movss	xmm5, dword ptr [rdx - 476]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rdx - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpltps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	cmpltps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	cmpltps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 6
+	pand	xmm3, xmm13
+	por	xmm3, xmm6
+	movss	xmm2, dword ptr [rdx - 472]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	packsswb	xmm5, xmm5
+	cmpltps	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	psllw	xmm4, 7
+	pand	xmm4, xmm14
+	por	xmm4, xmm3
+	movss	xmm3, dword ptr [rdx - 468]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	pand	xmm5, xmm15
+	insertps	xmm3, dword ptr [rdx - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	por	xmm4, xmm7
+	cmpltps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm6, xmm2
+	pand	xmm6, xmm15
+	psubb	xmm6, xmm2
+	movss	xmm7, dword ptr [rdx - 464]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm6, xmm5
+	movss	xmm5, dword ptr [rdx - 460]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rdx - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpltps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm6
+	movss	xmm6, dword ptr [rdx - 456]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpltps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 3
+	pand	xmm7, xmm10
+	cmpltps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm7
+	movss	xmm2, dword ptr [rdx - 452]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm5, xmm3
+	movss	xmm7, dword ptr [rdx - 448]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpltps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	cmpltps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [rdx - 444]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpltps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	cmpltps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	psllw	xmm7, 7
+	pand	xmm7, xmm14
+	por	xmm7, xmm2
+	movss	xmm2, dword ptr [rdx - 440]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm7, xmm5
+	movss	xmm3, dword ptr [rdx - 436]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	pand	xmm6, xmm15
+	insertps	xmm3, dword ptr [rdx - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
+	cmpltps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm7, xmm2
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm2
+	movss	xmm5, dword ptr [rdx - 432]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rdx - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	por	xmm7, xmm6
+	movss	xmm6, dword ptr [rdx - 428]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpltps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm7
+	movss	xmm7, dword ptr [rdx - 424]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpltps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 3
+	pand	xmm5, xmm10
+	cmpltps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 4
+	pand	xmm6, xmm11
+	por	xmm6, xmm5
+	movss	xmm2, dword ptr [rdx - 420]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm6, xmm3
+	movss	xmm5, dword ptr [rdx - 416]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rdx - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpltps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 5
+	pand	xmm7, xmm12
+	cmpltps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm7
+	movss	xmm7, dword ptr [rdx - 412]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpltps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	cmpltps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	psllw	xmm5, 7
+	pand	xmm5, xmm14
+	por	xmm5, xmm2
+	movss	xmm2, dword ptr [rdx - 408]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	pand	xmm7, xmm15
+	insertps	xmm2, dword ptr [rdx - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm5, xmm6
+	cmpltps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm6, xmm2
+	pand	xmm6, xmm15
+	psubb	xmm6, xmm2
+	movss	xmm3, dword ptr [rdx - 404]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rdx - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	por	xmm6, xmm7
+	movss	xmm2, dword ptr [rdx - 400]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	cmpltps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm6
+	movss	xmm6, dword ptr [rdx - 396]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpltps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 3
+	pand	xmm2, xmm10
+	cmpltps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 4
+	pand	xmm6, xmm11
+	por	xmm6, xmm2
+	movss	xmm7, dword ptr [rdx - 392]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm6, xmm3
+	movss	xmm2, dword ptr [rdx - 388]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
+	cmpltps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 5
+	pand	xmm7, xmm12
+	cmpltps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm7
+	movss	xmm3, dword ptr [rdx - 384]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rdx], 48       # xmm3 = xmm3[0,1,2],mem[0]
+	cmpltps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	psllw	xmm3, 7
+	pand	xmm3, xmm14
+	por	xmm3, xmm2
+	por	xmm3, xmm6
+	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
+	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
+	pshufb	xmm4, xmm9
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
+	add	rcx, 4
+	add	rdx, 512
+	cmp	r8, rcx
+	jne	.LBB8_201
+# %bb.202:
+	cmp	r11, r8
+	jne	.LBB8_124
+	jmp	.LBB8_140
+.Lfunc_end8:
+	.size	comparison_greater_scalar_arr_sse4, .Lfunc_end8-comparison_greater_scalar_arr_sse4
+                                        # -- End function
+	.globl	comparison_greater_equal_arr_arr_sse4 # -- Begin function comparison_greater_equal_arr_arr_sse4
+	.p2align	4, 0x90
+	.type	comparison_greater_equal_arr_arr_sse4,@function
+comparison_greater_equal_arr_arr_sse4:  # @comparison_greater_equal_arr_arr_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -8
+	sub	rsp, 72
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r11, r8
+	mov	r14, rcx
+	cmp	edi, 6
+	jg	.LBB9_29
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB9_2
+# %bb.15:
+	cmp	edi, 4
+	je	.LBB9_68
+# %bb.16:
+	cmp	edi, 5
+	je	.LBB9_79
+# %bb.17:
+	cmp	edi, 6
+	jne	.LBB9_123
+# %bb.18:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_22
+# %bb.19:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_20:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	mov	r10d, 0
+	adc	r10b, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_20
+# %bb.21:
+	add	r14, 1
+.LBB9_22:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_26
+# %bb.23:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_24:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	setae	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	setae	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	setae	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	setae	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	setae	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	setae	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	setae	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	setae	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	setae	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	setae	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB9_24
+# %bb.25:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB9_26:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.27:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_28:                               # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rsi + 4*rcx]
+	cmp	eax, dword ptr [rdx + 4*rcx]
+	lea	r8, [rcx + 1]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_28
+	jmp	.LBB9_123
+.LBB9_29:
+	cmp	edi, 8
+	jle	.LBB9_30
+# %bb.43:
+	cmp	edi, 9
+	je	.LBB9_101
+# %bb.44:
+	cmp	edi, 11
+	je	.LBB9_112
+# %bb.45:
+	cmp	edi, 12
+	jne	.LBB9_123
+# %bb.46:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_50
+# %bb.47:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_48:                               # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	add	rsi, 8
+	ucomisd	xmm0, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	mov	r10d, 0
+	adc	r10b, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_48
+# %bb.49:
+	add	r14, 1
+.LBB9_50:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_54
+# %bb.51:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_52:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	movsd	xmm1, qword ptr [rsi + 8]       # xmm1 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx]
+	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	ucomisd	xmm1, qword ptr [rdx + 8]
+	setae	al
+	movsd	xmm0, qword ptr [rsi + 16]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 16]
+	movsd	xmm0, qword ptr [rsi + 24]      # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 24]
+	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 32]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 32]
+	movsd	xmm0, qword ptr [rsi + 40]      # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 40]
+	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 48]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 48]
+	movsd	xmm0, qword ptr [rsi + 56]      # xmm0 = mem[0],zero
+	setae	r13b
+	ucomisd	xmm0, qword ptr [rdx + 56]
+	setae	r15b
+	movsd	xmm0, qword ptr [rsi + 64]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 64]
+	movsd	xmm0, qword ptr [rsi + 72]      # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 72]
+	setae	cl
+	movsd	xmm0, qword ptr [rsi + 80]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 80]
+	movsd	xmm0, qword ptr [rsi + 88]      # xmm0 = mem[0],zero
+	setae	r9b
+	ucomisd	xmm0, qword ptr [rdx + 88]
+	setae	r11b
+	movsd	xmm0, qword ptr [rsi + 96]      # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 96]
+	movsd	xmm0, qword ptr [rsi + 104]     # xmm0 = mem[0],zero
+	setae	r10b
+	ucomisd	xmm0, qword ptr [rdx + 104]
+	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movsd	xmm0, qword ptr [rsi + 112]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 112]
+	movsd	xmm0, qword ptr [rsi + 120]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 120]
+	setae	bl
+	movsd	xmm0, qword ptr [rsi + 128]     # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 128]
+	movsd	xmm0, qword ptr [rsi + 136]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 136]
+	movsd	xmm0, qword ptr [rsi + 144]     # xmm0 = mem[0],zero
+	setae	r14b
+	ucomisd	xmm0, qword ptr [rdx + 144]
+	movsd	xmm0, qword ptr [rsi + 152]     # xmm0 = mem[0],zero
+	setae	r12b
+	ucomisd	xmm0, qword ptr [rdx + 152]
+	movsd	xmm0, qword ptr [rsi + 160]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 160]
+	movsd	xmm0, qword ptr [rsi + 168]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 168]
+	movsd	xmm0, qword ptr [rsi + 176]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 176]
+	movsd	xmm0, qword ptr [rsi + 184]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 184]
+	movsd	xmm0, qword ptr [rsi + 192]     # xmm0 = mem[0],zero
+	setae	r8b
+	ucomisd	xmm0, qword ptr [rdx + 192]
+	movsd	xmm0, qword ptr [rsi + 200]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 200]
+	movsd	xmm0, qword ptr [rsi + 208]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 208]
+	movsd	xmm0, qword ptr [rsi + 216]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 216]
+	movsd	xmm0, qword ptr [rsi + 224]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 224]
+	movsd	xmm0, qword ptr [rsi + 232]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 232]
+	movsd	xmm0, qword ptr [rsi + 240]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 240]
+	movsd	xmm0, qword ptr [rsi + 248]     # xmm0 = mem[0],zero
+	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	add	rsi, 256
+	ucomisd	xmm0, qword ptr [rdx + 248]
+	setae	dil
+	add	al, al
+	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r12b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB9_52
+# %bb.53:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB9_54:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.55:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_56:                               # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rsi + 8*rcx]   # xmm0 = mem[0],zero
+	ucomisd	xmm0, qword ptr [rdx + 8*rcx]
+	lea	r8, [rcx + 1]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_56
+	jmp	.LBB9_123
+.LBB9_2:
+	cmp	edi, 2
+	je	.LBB9_57
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB9_123
+# %bb.4:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_8
+# %bb.5:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_6:                                # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setge	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_6
+# %bb.7:
+	add	r14, 1
+.LBB9_8:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_12
+# %bb.9:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_10:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	setge	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	setge	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	setge	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	setge	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	setge	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	setge	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	setge	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	setge	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	setge	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	setge	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	setge	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB9_10
+# %bb.11:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB9_12:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.13:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_14:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	ebx, byte ptr [rsi + rcx]
+	cmp	bl, byte ptr [rdx + rcx]
+	setge	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_14
+	jmp	.LBB9_123
+.LBB9_30:
+	cmp	edi, 7
+	je	.LBB9_90
+# %bb.31:
+	cmp	edi, 8
+	jne	.LBB9_123
+# %bb.32:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_36
+# %bb.33:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_34:                               # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	mov	r10d, 0
+	adc	r10b, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_34
+# %bb.35:
+	add	r14, 1
+.LBB9_36:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_40
+# %bb.37:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_38:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	setae	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	setae	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	setae	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	setae	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	setae	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	setae	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	setae	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	setae	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	setae	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	setae	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB9_38
+# %bb.39:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB9_40:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.41:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_42:                               # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rsi + 8*rcx]
+	cmp	rax, qword ptr [rdx + 8*rcx]
+	lea	r8, [rcx + 1]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_42
+	jmp	.LBB9_123
+.LBB9_68:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_72
+# %bb.69:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_70:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	mov	r10d, 0
+	adc	r10b, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_70
+# %bb.71:
+	add	r14, 1
+.LBB9_72:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_76
+# %bb.73:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_74:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	setae	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	setae	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	setae	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	setae	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	setae	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	setae	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	setae	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	setae	r12b
+	cmp	ax, word ptr [rdx + 40]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	setae	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	setae	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB9_74
+# %bb.75:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB9_76:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.77:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_78:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rsi + 2*rcx]
+	cmp	ax, word ptr [rdx + 2*rcx]
+	lea	r8, [rcx + 1]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_78
+	jmp	.LBB9_123
+.LBB9_79:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_83
+# %bb.80:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_81:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rsi]
+	add	rsi, 2
+	cmp	cx, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setge	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_81
+# %bb.82:
+	add	r14, 1
+.LBB9_83:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_87
+# %bb.84:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_85:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, word ptr [rsi]
+	movzx	ecx, word ptr [rsi + 2]
+	cmp	ax, word ptr [rdx]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 2]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 4]
+	cmp	ax, word ptr [rdx + 4]
+	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 6]
+	cmp	ax, word ptr [rdx + 6]
+	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 8]
+	cmp	ax, word ptr [rdx + 8]
+	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 10]
+	cmp	ax, word ptr [rdx + 10]
+	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 12]
+	cmp	ax, word ptr [rdx + 12]
+	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 14]
+	cmp	ax, word ptr [rdx + 14]
+	setge	r13b
+	movzx	eax, word ptr [rsi + 16]
+	cmp	ax, word ptr [rdx + 16]
+	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 18]
+	cmp	ax, word ptr [rdx + 18]
+	setge	r8b
+	movzx	eax, word ptr [rsi + 20]
+	cmp	ax, word ptr [rdx + 20]
+	setge	r11b
+	movzx	eax, word ptr [rsi + 22]
+	cmp	ax, word ptr [rdx + 22]
+	setge	r15b
+	movzx	eax, word ptr [rsi + 24]
+	cmp	ax, word ptr [rdx + 24]
+	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 26]
+	cmp	ax, word ptr [rdx + 26]
+	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 28]
+	cmp	ax, word ptr [rdx + 28]
+	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, word ptr [rsi + 30]
+	cmp	ax, word ptr [rdx + 30]
+	setge	bl
+	movzx	eax, word ptr [rsi + 32]
+	movzx	ecx, word ptr [rsi + 34]
+	cmp	ax, word ptr [rdx + 32]
+	movzx	eax, word ptr [rsi + 36]
+	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 34]
+	movzx	ecx, word ptr [rsi + 38]
+	setge	r10b
+	cmp	ax, word ptr [rdx + 36]
+	movzx	eax, word ptr [rsi + 40]
+	setge	r14b
+	cmp	cx, word ptr [rdx + 38]
+	movzx	ecx, word ptr [rsi + 42]
+	setge	r12b
+	cmp	ax, word ptr [rdx + 40]
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	cx, word ptr [rdx + 42]
+	movzx	eax, word ptr [rsi + 44]
+	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 44]
+	movzx	eax, word ptr [rsi + 46]
+	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 46]
+	movzx	eax, word ptr [rsi + 48]
+	setge	r9b
+	cmp	ax, word ptr [rdx + 48]
+	movzx	eax, word ptr [rsi + 50]
+	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 50]
+	movzx	eax, word ptr [rsi + 52]
+	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 52]
+	movzx	eax, word ptr [rsi + 54]
+	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 54]
+	movzx	eax, word ptr [rsi + 56]
+	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 56]
+	movzx	eax, word ptr [rsi + 58]
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 58]
+	movzx	eax, word ptr [rsi + 60]
+	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	ax, word ptr [rdx + 60]
+	movzx	eax, word ptr [rsi + 62]
+	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 64
+	cmp	ax, word ptr [rdx + 62]
+	setge	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 64
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB9_85
+# %bb.86:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB9_87:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.88:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_89:                               # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	movzx	edi, word ptr [rsi + 2*rcx]
+	cmp	di, word ptr [rdx + 2*rcx]
+	setge	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_89
+	jmp	.LBB9_123
+.LBB9_101:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_105
+# %bb.102:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_103:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rsi]
+	add	rsi, 8
+	cmp	rcx, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setge	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_103
+# %bb.104:
+	add	r14, 1
+.LBB9_105:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_109
+# %bb.106:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_107:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	rax, qword ptr [rsi]
+	mov	rcx, qword ptr [rsi + 8]
+	cmp	rax, qword ptr [rdx]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 8]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 16]
+	cmp	rax, qword ptr [rdx + 16]
+	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 24]
+	cmp	rax, qword ptr [rdx + 24]
+	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 32]
+	cmp	rax, qword ptr [rdx + 32]
+	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 40]
+	cmp	rax, qword ptr [rdx + 40]
+	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 48]
+	cmp	rax, qword ptr [rdx + 48]
+	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 56]
+	cmp	rax, qword ptr [rdx + 56]
+	setge	r13b
+	mov	rax, qword ptr [rsi + 64]
+	cmp	rax, qword ptr [rdx + 64]
+	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 72]
+	cmp	rax, qword ptr [rdx + 72]
+	setge	r8b
+	mov	rax, qword ptr [rsi + 80]
+	cmp	rax, qword ptr [rdx + 80]
+	setge	r11b
+	mov	rax, qword ptr [rsi + 88]
+	cmp	rax, qword ptr [rdx + 88]
+	setge	r15b
+	mov	rax, qword ptr [rsi + 96]
+	cmp	rax, qword ptr [rdx + 96]
+	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 104]
+	cmp	rax, qword ptr [rdx + 104]
+	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 112]
+	cmp	rax, qword ptr [rdx + 112]
+	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	rax, qword ptr [rsi + 120]
+	cmp	rax, qword ptr [rdx + 120]
+	setge	bl
+	mov	rax, qword ptr [rsi + 128]
+	mov	rcx, qword ptr [rsi + 136]
+	cmp	rax, qword ptr [rdx + 128]
+	mov	rax, qword ptr [rsi + 144]
+	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 136]
+	mov	rcx, qword ptr [rsi + 152]
+	setge	r10b
+	cmp	rax, qword ptr [rdx + 144]
+	mov	rax, qword ptr [rsi + 160]
+	setge	r14b
+	cmp	rcx, qword ptr [rdx + 152]
+	mov	rcx, qword ptr [rsi + 168]
+	setge	r12b
+	cmp	rax, qword ptr [rdx + 160]
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	rcx, qword ptr [rdx + 168]
+	mov	rax, qword ptr [rsi + 176]
+	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 176]
+	mov	rax, qword ptr [rsi + 184]
+	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 184]
+	mov	rax, qword ptr [rsi + 192]
+	setge	r9b
+	cmp	rax, qword ptr [rdx + 192]
+	mov	rax, qword ptr [rsi + 200]
+	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 200]
+	mov	rax, qword ptr [rsi + 208]
+	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 208]
+	mov	rax, qword ptr [rsi + 216]
+	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 216]
+	mov	rax, qword ptr [rsi + 224]
+	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 224]
+	mov	rax, qword ptr [rsi + 232]
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 232]
+	mov	rax, qword ptr [rsi + 240]
+	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	rax, qword ptr [rdx + 240]
+	mov	rax, qword ptr [rsi + 248]
+	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	add	rsi, 256
+	cmp	rax, qword ptr [rdx + 248]
+	setge	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 256
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB9_107
+# %bb.108:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB9_109:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.110:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_111:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	rdi, qword ptr [rsi + 8*rcx]
+	cmp	rdi, qword ptr [rdx + 8*rcx]
+	setge	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_111
+	jmp	.LBB9_123
+.LBB9_112:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_116
+# %bb.113:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_114:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	add	rsi, 4
+	ucomiss	xmm0, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	mov	r10d, 0
+	adc	r10b, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_114
+# %bb.115:
+	add	r14, 1
+.LBB9_116:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_120
+# %bb.117:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 40], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_118:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	movss	xmm1, dword ptr [rsi + 4]       # xmm1 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx]
+	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	ucomiss	xmm1, dword ptr [rdx + 4]
+	setae	al
+	movss	xmm0, dword ptr [rsi + 8]       # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 8]
+	movss	xmm0, dword ptr [rsi + 12]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 12]
+	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 16]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 16]
+	movss	xmm0, dword ptr [rsi + 20]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 20]
+	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 24]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 24]
+	movss	xmm0, dword ptr [rsi + 28]      # xmm0 = mem[0],zero,zero,zero
+	setae	r13b
+	ucomiss	xmm0, dword ptr [rdx + 28]
+	setae	r15b
+	movss	xmm0, dword ptr [rsi + 32]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 32]
+	movss	xmm0, dword ptr [rsi + 36]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 36]
+	setae	cl
+	movss	xmm0, dword ptr [rsi + 40]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 40]
+	movss	xmm0, dword ptr [rsi + 44]      # xmm0 = mem[0],zero,zero,zero
+	setae	r9b
+	ucomiss	xmm0, dword ptr [rdx + 44]
+	setae	r11b
+	movss	xmm0, dword ptr [rsi + 48]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 48]
+	movss	xmm0, dword ptr [rsi + 52]      # xmm0 = mem[0],zero,zero,zero
+	setae	r10b
+	ucomiss	xmm0, dword ptr [rdx + 52]
+	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movss	xmm0, dword ptr [rsi + 56]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 56]
+	movss	xmm0, dword ptr [rsi + 60]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 60]
+	setae	bl
+	movss	xmm0, dword ptr [rsi + 64]      # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 64]
+	movss	xmm0, dword ptr [rsi + 68]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 68]
+	movss	xmm0, dword ptr [rsi + 72]      # xmm0 = mem[0],zero,zero,zero
+	setae	r14b
+	ucomiss	xmm0, dword ptr [rdx + 72]
+	movss	xmm0, dword ptr [rsi + 76]      # xmm0 = mem[0],zero,zero,zero
+	setae	r12b
+	ucomiss	xmm0, dword ptr [rdx + 76]
+	movss	xmm0, dword ptr [rsi + 80]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 80]
+	movss	xmm0, dword ptr [rsi + 84]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 84]
+	movss	xmm0, dword ptr [rsi + 88]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 88]
+	movss	xmm0, dword ptr [rsi + 92]      # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 92]
+	movss	xmm0, dword ptr [rsi + 96]      # xmm0 = mem[0],zero,zero,zero
+	setae	r8b
+	ucomiss	xmm0, dword ptr [rdx + 96]
+	movss	xmm0, dword ptr [rsi + 100]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 100]
+	movss	xmm0, dword ptr [rsi + 104]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 104]
+	movss	xmm0, dword ptr [rsi + 108]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 108]
+	movss	xmm0, dword ptr [rsi + 112]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 112]
+	movss	xmm0, dword ptr [rsi + 116]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 116]
+	movss	xmm0, dword ptr [rsi + 120]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rdx + 120]
+	movss	xmm0, dword ptr [rsi + 124]     # xmm0 = mem[0],zero,zero,zero
+	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	sub	rsi, -128
+	ucomiss	xmm0, dword ptr [rdx + 124]
+	setae	dil
+	add	al, al
+	add	al, byte ptr [rsp + 4]          # 1-byte Folded Reload
+	shl	r13b, 6
+	shl	r15b, 7
+	or	r15b, r13b
+	movzx	r13d, byte ptr [rsp + 5]        # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, al
+	mov	eax, r13d
+	add	cl, cl
+	add	cl, byte ptr [rsp + 8]          # 1-byte Folded Reload
+	movzx	r13d, byte ptr [rsp + 22]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, al
+	shl	r9b, 2
+	or	r9b, cl
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, r13b
+	mov	r13d, ecx
+	shl	r11b, 3
+	or	r11b, r9b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r13b
+	shl	r10b, 4
+	or	r10b, r11b
+	movzx	eax, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r10b
+	movzx	r9d, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	r9b, 6
+	shl	bl, 7
+	or	bl, r9b
+	or	r15b, cl
+	or	bl, al
+	add	r14b, r14b
+	add	r14b, byte ptr [rsp + 14]       # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r14b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r12b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r8b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 20]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 19]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, al
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 6
+	shl	dil, 7
+	or	dil, al
+	or	dil, cl
+	mov	byte ptr [r14 + 2], r8b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 40], -1        # 8-byte Folded Spill
+	jne	.LBB9_118
+# %bb.119:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+.LBB9_120:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.121:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_122:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rsi + 4*rcx]   # xmm0 = mem[0],zero,zero,zero
+	ucomiss	xmm0, dword ptr [rdx + 4*rcx]
+	lea	r8, [rcx + 1]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_122
+	jmp	.LBB9_123
+.LBB9_57:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_61
+# %bb.58:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_59:                               # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rsi]
+	add	rsi, 1
+	cmp	cl, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	mov	r10d, 0
+	adc	r10b, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	r10b, r8b
+	lea	r9d, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, r10b
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_59
+# %bb.60:
+	add	r14, 1
+.LBB9_61:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_65
+# %bb.62:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_63:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	movzx	eax, byte ptr [rsi]
+	movzx	ecx, byte ptr [rsi + 1]
+	cmp	al, byte ptr [rdx]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	cl, byte ptr [rdx + 1]
+	setae	cl
+	movzx	eax, byte ptr [rsi + 2]
+	cmp	al, byte ptr [rdx + 2]
+	setae	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 3]
+	cmp	al, byte ptr [rdx + 3]
+	setae	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 4]
+	cmp	al, byte ptr [rdx + 4]
+	setae	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 5]
+	cmp	al, byte ptr [rdx + 5]
+	setae	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 6]
+	cmp	al, byte ptr [rdx + 6]
+	setae	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 7]
+	cmp	al, byte ptr [rdx + 7]
+	setae	r15b
+	movzx	eax, byte ptr [rsi + 8]
+	cmp	al, byte ptr [rdx + 8]
+	setae	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 9]
+	cmp	al, byte ptr [rdx + 9]
+	setae	dil
+	movzx	eax, byte ptr [rsi + 10]
+	cmp	al, byte ptr [rdx + 10]
+	setae	r10b
+	movzx	eax, byte ptr [rsi + 11]
+	cmp	al, byte ptr [rdx + 11]
+	setae	r11b
+	movzx	eax, byte ptr [rsi + 12]
+	cmp	al, byte ptr [rdx + 12]
+	setae	r14b
+	movzx	eax, byte ptr [rsi + 13]
+	cmp	al, byte ptr [rdx + 13]
+	setae	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 14]
+	cmp	al, byte ptr [rdx + 14]
+	setae	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 15]
+	cmp	al, byte ptr [rdx + 15]
+	setae	bl
+	movzx	eax, byte ptr [rsi + 16]
+	cmp	al, byte ptr [rdx + 16]
+	setae	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 17]
+	cmp	al, byte ptr [rdx + 17]
+	setae	r12b
+	movzx	eax, byte ptr [rsi + 18]
+	cmp	al, byte ptr [rdx + 18]
+	setae	r13b
+	movzx	eax, byte ptr [rsi + 19]
+	cmp	al, byte ptr [rdx + 19]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 20]
+	cmp	al, byte ptr [rdx + 20]
+	setae	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 21]
+	cmp	al, byte ptr [rdx + 21]
+	setae	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 22]
+	cmp	al, byte ptr [rdx + 22]
+	setae	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 23]
+	cmp	al, byte ptr [rdx + 23]
+	setae	r9b
+	movzx	eax, byte ptr [rsi + 24]
+	cmp	al, byte ptr [rdx + 24]
+	setae	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 25]
+	cmp	al, byte ptr [rdx + 25]
+	setae	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 26]
+	cmp	al, byte ptr [rdx + 26]
+	setae	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 27]
+	cmp	al, byte ptr [rdx + 27]
+	setae	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 28]
+	cmp	al, byte ptr [rdx + 28]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 29]
+	cmp	al, byte ptr [rdx + 29]
+	setae	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 30]
+	cmp	al, byte ptr [rdx + 30]
+	setae	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsi + 31]
+	add	rsi, 32
+	cmp	al, byte ptr [rdx + 31]
+	setae	r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	eax, ecx
+	movzx	ecx, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r15b, 7
+	or	r15b, cl
+	movzx	ecx, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	mov	eax, ecx
+	add	dil, dil
+	add	dil, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r10b, 2
+	or	r10b, dil
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	edi, ecx
+	shl	r11b, 3
+	or	r11b, r10b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dil
+	shl	r14b, 4
+	or	r14b, r11b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r14b
+	movzx	edi, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	dil, 6
+	shl	bl, 7
+	or	bl, dil
+	or	r15b, cl
+	or	bl, al
+	add	r12b, r12b
+	add	r12b, byte ptr [rsp + 13]       # 1-byte Folded Reload
+	shl	r13b, 2
+	or	r13b, r12b
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r13b
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 10]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r15b
+	movzx	ecx, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], r8b
+	add	rdx, 32
+	add	r14, 4
+	add	qword ptr [rsp + 32], -1        # 8-byte Folded Spill
+	jne	.LBB9_63
+# %bb.64:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+.LBB9_65:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.66:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_67:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rsi + rcx]
+	cmp	al, byte ptr [rdx + rcx]
+	lea	r8, [rcx + 1]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rbx, rcx
+	shr	rbx, 3
+	movzx	r9d, byte ptr [r14 + rbx]
+	xor	dil, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, dil
+	xor	al, r9b
+	mov	byte ptr [r14 + rbx], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_67
+	jmp	.LBB9_123
+.LBB9_90:
+	lea	r15, [r11 + 31]
+	test	r11, r11
+	cmovns	r15, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB9_94
+# %bb.91:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB9_92:                               # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rsi]
+	add	rsi, 4
+	cmp	ecx, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setge	r10b
+	neg	r10b
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r8d, byte ptr [r14 + rdi]
+	xor	r10b, r8b
+	lea	r9d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r9d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, r10b
+	xor	bl, r8b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB9_92
+# %bb.93:
+	add	r14, 1
+.LBB9_94:
+	sar	r15, 5
+	cmp	r11, 32
+	jl	.LBB9_98
+# %bb.95:
+	mov	qword ptr [rsp + 24], r11       # 8-byte Spill
+	mov	qword ptr [rsp + 64], r15       # 8-byte Spill
+	mov	qword ptr [rsp + 56], r15       # 8-byte Spill
+	.p2align	4, 0x90
+.LBB9_96:                               # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	mov	eax, dword ptr [rsi]
+	mov	ecx, dword ptr [rsi + 4]
+	cmp	eax, dword ptr [rdx]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 4]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 8]
+	cmp	eax, dword ptr [rdx + 8]
+	setge	byte ptr [rsp + 20]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 12]
+	cmp	eax, dword ptr [rdx + 12]
+	setge	byte ptr [rsp + 21]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 16]
+	cmp	eax, dword ptr [rdx + 16]
+	setge	byte ptr [rsp + 22]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 20]
+	cmp	eax, dword ptr [rdx + 20]
+	setge	byte ptr [rsp + 23]             # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 24]
+	cmp	eax, dword ptr [rdx + 24]
+	setge	byte ptr [rsp + 4]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 28]
+	cmp	eax, dword ptr [rdx + 28]
+	setge	r13b
+	mov	eax, dword ptr [rsi + 32]
+	cmp	eax, dword ptr [rdx + 32]
+	setge	byte ptr [rsp + 9]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 36]
+	cmp	eax, dword ptr [rdx + 36]
+	setge	r8b
+	mov	eax, dword ptr [rsi + 40]
+	cmp	eax, dword ptr [rdx + 40]
+	setge	r11b
+	mov	eax, dword ptr [rsi + 44]
+	cmp	eax, dword ptr [rdx + 44]
+	setge	r15b
+	mov	eax, dword ptr [rsi + 48]
+	cmp	eax, dword ptr [rdx + 48]
+	setge	byte ptr [rsp + 5]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 52]
+	cmp	eax, dword ptr [rdx + 52]
+	setge	byte ptr [rsp + 6]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 56]
+	cmp	eax, dword ptr [rdx + 56]
+	setge	byte ptr [rsp + 7]              # 1-byte Folded Spill
+	mov	eax, dword ptr [rsi + 60]
+	cmp	eax, dword ptr [rdx + 60]
+	setge	bl
+	mov	eax, dword ptr [rsi + 64]
+	mov	ecx, dword ptr [rsi + 68]
+	cmp	eax, dword ptr [rdx + 64]
+	mov	eax, dword ptr [rsi + 72]
+	setge	byte ptr [rsp + 10]             # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 68]
+	mov	ecx, dword ptr [rsi + 76]
+	setge	r10b
+	cmp	eax, dword ptr [rdx + 72]
+	mov	eax, dword ptr [rsi + 80]
+	setge	r14b
+	cmp	ecx, dword ptr [rdx + 76]
+	mov	ecx, dword ptr [rsi + 84]
+	setge	r12b
+	cmp	eax, dword ptr [rdx + 80]
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	ecx, dword ptr [rdx + 84]
+	mov	eax, dword ptr [rsi + 88]
+	setge	byte ptr [rsp + 11]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 88]
+	mov	eax, dword ptr [rsi + 92]
+	setge	byte ptr [rsp + 12]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 92]
+	mov	eax, dword ptr [rsi + 96]
+	setge	r9b
+	cmp	eax, dword ptr [rdx + 96]
+	mov	eax, dword ptr [rsi + 100]
+	setge	byte ptr [rsp + 19]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 100]
+	mov	eax, dword ptr [rsi + 104]
+	setge	byte ptr [rsp + 13]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 104]
+	mov	eax, dword ptr [rsi + 108]
+	setge	byte ptr [rsp + 14]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 108]
+	mov	eax, dword ptr [rsi + 112]
+	setge	byte ptr [rsp + 15]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 112]
+	mov	eax, dword ptr [rsi + 116]
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 116]
+	mov	eax, dword ptr [rsi + 120]
+	setge	byte ptr [rsp + 18]             # 1-byte Folded Spill
+	cmp	eax, dword ptr [rdx + 120]
+	mov	eax, dword ptr [rsi + 124]
+	setge	byte ptr [rsp + 17]             # 1-byte Folded Spill
+	sub	rsi, -128
+	cmp	eax, dword ptr [rdx + 124]
+	setge	dil
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 40]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 4]         # 1-byte Folded Reload
+	shl	al, 6
+	shl	r13b, 7
+	or	r13b, al
+	movzx	eax, byte ptr [rsp + 20]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 9]         # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 21]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, al
+	mov	eax, ecx
+	shl	r11b, 2
+	or	r11b, r8b
+	movzx	ecx, byte ptr [rsp + 22]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r15b, 3
+	or	r15b, r11b
+	movzx	ecx, byte ptr [rsp + 23]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	movzx	eax, byte ptr [rsp + 5]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r15b
+	mov	r8d, eax
+	movzx	eax, byte ptr [rsp + 6]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r8b
+	movzx	r8d, byte ptr [rsp + 7]         # 1-byte Folded Reload
+	shl	r8b, 6
+	shl	bl, 7
+	or	bl, r8b
+	or	r13b, cl
+	or	bl, al
+	add	r10b, r10b
+	add	r10b, byte ptr [rsp + 10]       # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r10b
+	shl	r12b, 3
+	or	r12b, r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	mov	ecx, eax
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	movzx	eax, byte ptr [rsp + 11]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	byte ptr [r14], r13b
+	movzx	ecx, byte ptr [rsp + 12]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r9b, 7
+	or	r9b, cl
+	mov	byte ptr [r14 + 1], bl
+	or	r9b, al
+	movzx	eax, byte ptr [rsp + 13]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 19]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 14]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 15]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 18]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	movzx	ecx, byte ptr [rsp + 17]        # 1-byte Folded Reload
+	shl	cl, 6
+	shl	dil, 7
+	or	dil, cl
+	or	dil, al
+	mov	byte ptr [r14 + 2], r9b
+	mov	byte ptr [r14 + 3], dil
+	add	rdx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 56], -1        # 8-byte Folded Spill
+	jne	.LBB9_96
+# %bb.97:
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 64]       # 8-byte Reload
+.LBB9_98:
+	shl	r15, 5
+	cmp	r15, r11
+	jge	.LBB9_123
+# %bb.99:
+	sub	r11, r15
+	xor	ecx, ecx
+	.p2align	4, 0x90
+.LBB9_100:                              # =>This Inner Loop Header: Depth=1
+	lea	r8, [rcx + 1]
+	mov	edi, dword ptr [rsi + 4*rcx]
+	cmp	edi, dword ptr [rdx + 4*rcx]
+	setge	bl
+	neg	bl
+	mov	rdi, rcx
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	cl, 7
+	mov	al, 1
+                                        # kill: def $cl killed $cl killed $rcx
+	shl	al, cl
+	and	al, bl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	mov	rcx, r8
+	cmp	r11, r8
+	jne	.LBB9_100
+.LBB9_123:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.Lfunc_end9:
+	.size	comparison_greater_equal_arr_arr_sse4, .Lfunc_end9-comparison_greater_equal_arr_arr_sse4
+                                        # -- End function
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4                               # -- Begin function comparison_greater_equal_arr_scalar_sse4
+.LCPI10_0:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI10_1:
+	.zero	16,252
+.LCPI10_2:
+	.zero	16,248
+.LCPI10_3:
+	.zero	16,240
+.LCPI10_4:
+	.zero	16,224
+.LCPI10_5:
+	.zero	16,192
+.LCPI10_6:
+	.zero	16,128
+.LCPI10_7:
+	.byte	0                               # 0x0
+	.byte	8                               # 0x8
+	.byte	1                               # 0x1
+	.byte	9                               # 0x9
+	.byte	2                               # 0x2
+	.byte	10                              # 0xa
+	.byte	3                               # 0x3
+	.byte	11                              # 0xb
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+.LCPI10_8:
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI10_9:
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI10_10:
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI10_11:
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI10_12:
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI10_13:
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI10_14:
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI10_15:
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI10_16:
+	.zero	16,2
+.LCPI10_17:
+	.zero	16,4
+.LCPI10_18:
+	.zero	16,8
+.LCPI10_19:
+	.zero	16,16
+.LCPI10_20:
+	.zero	16,32
+.LCPI10_21:
+	.zero	16,64
+.LCPI10_22:
+	.zero	16,255
+	.text
+	.globl	comparison_greater_equal_arr_scalar_sse4
+	.p2align	4, 0x90
+	.type	comparison_greater_equal_arr_scalar_sse4,@function
+comparison_greater_equal_arr_scalar_sse4: # @comparison_greater_equal_arr_scalar_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -16
+	sub	rsp, 496
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r10, r8
+	mov	r14, rcx
+	cmp	edi, 6
+	jg	.LBB10_16
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB10_31
+# %bb.2:
+	cmp	edi, 4
+	je	.LBB10_81
+# %bb.3:
+	cmp	edi, 5
+	je	.LBB10_92
+# %bb.4:
+	cmp	edi, 6
+	jne	.LBB10_182
+# %bb.5:
+	mov	r13d, dword ptr [rdx]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_9
+# %bb.6:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_7:                               # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	mov	edx, 0
+	adc	dl, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_7
+# %bb.8:
+	add	r14, 1
+.LBB10_9:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB10_13
+# %bb.10:
+	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
+	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_11:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
+	cmp	dword ptr [rsi], r13d
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	setae	dil
+	cmp	dword ptr [rsi + 8], r13d
+	setae	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	setae	byte ptr [rsp + 336]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	setae	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	setae	al
+	cmp	dword ptr [rsi + 28], r13d
+	setae	bl
+	cmp	dword ptr [rsi + 32], r13d
+	setae	byte ptr [rsp + 304]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	setae	dl
+	cmp	dword ptr [rsi + 40], r13d
+	setae	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	setae	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	setae	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	setae	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	setae	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	setae	cl
+	cmp	dword ptr [rsi + 64], r13d
+	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	setae	byte ptr [rsp + 240]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	setae	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	setae	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	setae	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 128
+	add	r14, 4
+	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
+	jne	.LBB10_11
+# %bb.12:
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
+.LBB10_13:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB10_182
+# %bb.14:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB10_162
+# %bb.15:
+	xor	r11d, r11d
+	jmp	.LBB10_164
+.LBB10_16:
+	cmp	edi, 8
+	jle	.LBB10_45
+# %bb.17:
+	cmp	edi, 9
+	je	.LBB10_104
+# %bb.18:
+	cmp	edi, 11
+	je	.LBB10_115
+# %bb.19:
+	cmp	edi, 12
+	jne	.LBB10_182
+# %bb.20:
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB10_24
+# %bb.21:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_22:                              # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rsi]
+	setbe	dl
+	add	rsi, 8
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_22
+# %bb.23:
+	add	r14, 1
+.LBB10_24:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB10_28
+# %bb.25:
+	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
+	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_26:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
+	ucomisd	xmm0, qword ptr [rsi]
+	setbe	byte ptr [rsp + 336]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 8]
+	setbe	r9b
+	ucomisd	xmm0, qword ptr [rsi + 16]
+	setbe	r14b
+	ucomisd	xmm0, qword ptr [rsi + 24]
+	setbe	r13b
+	ucomisd	xmm0, qword ptr [rsi + 32]
+	setbe	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 40]
+	setbe	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 48]
+	setbe	al
+	ucomisd	xmm0, qword ptr [rsi + 56]
+	setbe	bl
+	ucomisd	xmm0, qword ptr [rsi + 64]
+	setbe	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 72]
+	setbe	dl
+	ucomisd	xmm0, qword ptr [rsi + 80]
+	setbe	dil
+	ucomisd	xmm0, qword ptr [rsi + 88]
+	setbe	r10b
+	ucomisd	xmm0, qword ptr [rsi + 96]
+	setbe	r11b
+	ucomisd	xmm0, qword ptr [rsi + 104]
+	setbe	r12b
+	ucomisd	xmm0, qword ptr [rsi + 112]
+	setbe	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 120]
+	setbe	cl
+	ucomisd	xmm0, qword ptr [rsi + 128]
+	setbe	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 136]
+	setbe	byte ptr [rsp + 304]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 144]
+	setbe	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 152]
+	setbe	byte ptr [rsp + 240]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 160]
+	setbe	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 168]
+	setbe	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 176]
+	setbe	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 184]
+	setbe	r15b
+	ucomisd	xmm0, qword ptr [rsi + 192]
+	setbe	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 200]
+	setbe	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 208]
+	setbe	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 216]
+	setbe	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 224]
+	setbe	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 232]
+	setbe	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 240]
+	setbe	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rsi + 248]
+	setbe	r8b
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 336]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r9b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 256]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	dil, 2
+	or	dil, dl
+	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r9d, edx
+	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 272]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	movzx	eax, byte ptr [rsp + 304]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 256
+	add	r14, 4
+	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
+	jne	.LBB10_26
+# %bb.27:
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
+.LBB10_28:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB10_182
+# %bb.29:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB10_166
+# %bb.30:
+	xor	r11d, r11d
+	jmp	.LBB10_168
+.LBB10_31:
+	cmp	edi, 2
+	je	.LBB10_58
+# %bb.32:
+	cmp	edi, 3
+	jne	.LBB10_182
+# %bb.33:
+	mov	r11b, byte ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_37
+# %bb.34:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_35:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r11b
+	lea	rsi, [rsi + 1]
+	setge	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_35
+# %bb.36:
+	add	r14, 1
+.LBB10_37:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB10_127
+# %bb.38:
+	cmp	r15, 16
+	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
+	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
+	mov	qword ptr [rsp + 432], r15      # 8-byte Spill
+	jb	.LBB10_41
+# %bb.39:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB10_191
+# %bb.40:
+	lea	rax, [r14 + 4*r15]
+	cmp	rsi, rax
+	jae	.LBB10_191
+.LBB10_41:
+	xor	eax, eax
+	mov	qword ptr [rsp + 160], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 112], r14      # 8-byte Spill
+.LBB10_42:
+	mov	r14, r15
+	sub	r14, qword ptr [rsp + 160]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 368], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_43:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, rsi
+	cmp	byte ptr [rsi], r11b
+	setge	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	byte ptr [rsi + 1], r11b
+	setge	sil
+	cmp	byte ptr [rcx + 2], r11b
+	setge	r15b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 3], al
+	setge	r12b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 4], al
+	setge	byte ptr [rsp + 336]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 5], al
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 6], al
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 7], al
+	setge	r9b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 8], al
+	setge	byte ptr [rsp + 304]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 9], al
+	setge	dl
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 10], al
+	setge	dil
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 11], al
+	setge	r10b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 12], al
+	setge	r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 13], al
+	setge	r13b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 14], al
+	setge	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 15], al
+	setge	r8b
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 16], bl
+	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 17], bl
+	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 18], bl
+	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 19], bl
+	setge	byte ptr [rsp + 240]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 20], bl
+	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 21], bl
+	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 22], bl
+	setge	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 23], bl
+	setge	r11b
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 24], bl
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 25], bl
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 26], bl
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 27], bl
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 28], bl
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 29], bl
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 30], bl
+	setge	byte ptr [rsp + 352]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 31], bl
+	setge	bl
+	add	sil, sil
+	add	sil, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r9b, 7
+	or	r9b, al
+	shl	r15b, 2
+	or	r15b, sil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
+	shl	r12b, 3
+	or	r12b, r15b
+	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
+	shl	dil, 2
+	or	dil, dl
+	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, al
+	shl	r14b, 4
+	or	r14b, r10b
+	shl	r13b, 5
+	or	r13b, r14b
+	movzx	esi, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r8b, 7
+	or	r8b, sil
+	or	r9b, dl
+	or	r8b, r13b
+	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 272]        # 1-byte Folded Reload
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	esi, edx
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	mov	byte ptr [rdx], r9b
+	movzx	edi, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r11b, 7
+	or	r11b, dil
+	mov	byte ptr [rdx + 1], r8b
+	or	r11b, sil
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 128]        # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	movzx	esi, byte ptr [rsp + 352]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	bl, 7
+	or	bl, sil
+	or	bl, al
+	mov	byte ptr [rdx + 2], r11b
+	mov	r11d, r15d
+	mov	byte ptr [rdx + 3], bl
+	lea	rsi, [rcx + 32]
+	add	rdx, 4
+	mov	qword ptr [rsp + 112], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 368], -1       # 8-byte Folded Spill
+	jne	.LBB10_43
+# %bb.44:
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 432]      # 8-byte Reload
+	jmp	.LBB10_128
+.LBB10_45:
+	cmp	edi, 7
+	je	.LBB10_70
+# %bb.46:
+	cmp	edi, 8
+	jne	.LBB10_182
+# %bb.47:
+	mov	r13, qword ptr [rdx]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_51
+# %bb.48:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_49:                              # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	mov	edx, 0
+	adc	dl, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_49
+# %bb.50:
+	add	r14, 1
+.LBB10_51:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB10_55
+# %bb.52:
+	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
+	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_53:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
+	cmp	qword ptr [rsi], r13
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	setae	dil
+	cmp	qword ptr [rsi + 16], r13
+	setae	r14b
+	cmp	qword ptr [rsi + 24], r13
+	setae	byte ptr [rsp + 336]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	setae	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	setae	al
+	cmp	qword ptr [rsi + 56], r13
+	setae	bl
+	cmp	qword ptr [rsi + 64], r13
+	setae	byte ptr [rsp + 304]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	setae	dl
+	cmp	qword ptr [rsi + 80], r13
+	setae	r9b
+	cmp	qword ptr [rsi + 88], r13
+	setae	r10b
+	cmp	qword ptr [rsi + 96], r13
+	setae	r11b
+	cmp	qword ptr [rsi + 104], r13
+	setae	r12b
+	cmp	qword ptr [rsi + 112], r13
+	setae	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	setae	cl
+	cmp	qword ptr [rsi + 128], r13
+	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	setae	byte ptr [rsp + 240]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	setae	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	setae	r15b
+	cmp	qword ptr [rsi + 192], r13
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	setae	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 256
+	add	r14, 4
+	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
+	jne	.LBB10_53
+# %bb.54:
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
+.LBB10_55:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB10_182
+# %bb.56:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB10_143
+# %bb.57:
+	xor	r11d, r11d
+	jmp	.LBB10_145
+.LBB10_58:
+	mov	r11b, byte ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_62
+# %bb.59:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_60:                              # =>This Inner Loop Header: Depth=1
+	cmp	byte ptr [rsi], r11b
+	lea	rsi, [rsi + 1]
+	mov	edx, 0
+	adc	dl, -1
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_60
+# %bb.61:
+	add	r14, 1
+.LBB10_62:
+	sar	r15, 5
+	cmp	r10, 32
+	jl	.LBB10_131
+# %bb.63:
+	cmp	r15, 16
+	mov	byte ptr [rsp + 8], r11b        # 1-byte Spill
+	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
+	mov	qword ptr [rsp + 464], r15      # 8-byte Spill
+	jb	.LBB10_66
+# %bb.64:
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB10_194
+# %bb.65:
+	lea	rax, [r14 + 4*r15]
+	cmp	rsi, rax
+	jae	.LBB10_194
+.LBB10_66:
+	xor	eax, eax
+	mov	qword ptr [rsp + 416], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
+.LBB10_67:
+	mov	r14, r15
+	sub	r14, qword ptr [rsp + 416]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 368], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_68:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, rsi
+	cmp	byte ptr [rsi], r11b
+	setae	byte ptr [rsp + 320]            # 1-byte Folded Spill
+	cmp	byte ptr [rsi + 1], r11b
+	setae	sil
+	cmp	byte ptr [rcx + 2], r11b
+	setae	r15b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 3], al
+	setae	r12b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 4], al
+	setae	byte ptr [rsp + 336]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 5], al
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 6], al
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 7], al
+	setae	r9b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 8], al
+	setae	byte ptr [rsp + 304]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 9], al
+	setae	dl
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 10], al
+	setae	dil
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 11], al
+	setae	r10b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 12], al
+	setae	r14b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 13], al
+	setae	r13b
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 14], al
+	setae	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 15], al
+	setae	r8b
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 16], bl
+	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 17], bl
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 18], bl
+	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 19], bl
+	setae	byte ptr [rsp + 240]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 20], bl
+	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 21], bl
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 22], bl
+	setae	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 23], bl
+	setae	r11b
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 24], bl
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 25], bl
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 26], bl
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 27], bl
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 28], bl
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 29], bl
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 30], bl
+	setae	byte ptr [rsp + 352]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	cmp	byte ptr [rcx + 31], bl
+	setae	bl
+	add	sil, sil
+	add	sil, byte ptr [rsp + 320]       # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r9b, 7
+	or	r9b, al
+	shl	r15b, 2
+	or	r15b, sil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
+	shl	r12b, 3
+	or	r12b, r15b
+	movzx	r15d, byte ptr [rsp + 8]        # 1-byte Folded Reload
+	shl	dil, 2
+	or	dil, dl
+	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
+	shl	al, 4
+	or	al, r12b
+	shl	r10b, 3
+	or	r10b, dil
+	movzx	edx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, al
+	shl	r14b, 4
+	or	r14b, r10b
+	shl	r13b, 5
+	or	r13b, r14b
+	movzx	esi, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r8b, 7
+	or	r8b, sil
+	or	r9b, dl
+	or	r8b, r13b
+	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 272]        # 1-byte Folded Reload
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	esi, edx
+	mov	rdx, qword ptr [rsp + 208]      # 8-byte Reload
+	mov	byte ptr [rdx], r9b
+	movzx	edi, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r11b, 7
+	or	r11b, dil
+	mov	byte ptr [rdx + 1], r8b
+	or	r11b, sil
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, sil
+	mov	esi, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, sil
+	movzx	esi, byte ptr [rsp + 352]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	bl, 7
+	or	bl, sil
+	or	bl, al
+	mov	byte ptr [rdx + 2], r11b
+	mov	r11d, r15d
+	mov	byte ptr [rdx + 3], bl
+	lea	rsi, [rcx + 32]
+	add	rdx, 4
+	mov	qword ptr [rsp + 208], rdx      # 8-byte Spill
+	add	qword ptr [rsp + 368], -1       # 8-byte Folded Spill
+	jne	.LBB10_68
+# %bb.69:
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 464]      # 8-byte Reload
+	jmp	.LBB10_132
+.LBB10_70:
+	mov	r13d, dword ptr [rdx]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_74
+# %bb.71:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_72:                              # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	lea	rsi, [rsi + 4]
+	setge	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_72
+# %bb.73:
+	add	r14, 1
+.LBB10_74:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB10_78
+# %bb.75:
+	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
+	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_76:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
+	cmp	dword ptr [rsi], r13d
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 4], r13d
+	setge	dil
+	cmp	dword ptr [rsi + 8], r13d
+	setge	r14b
+	cmp	dword ptr [rsi + 12], r13d
+	setge	byte ptr [rsp + 336]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 16], r13d
+	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 20], r13d
+	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 24], r13d
+	setge	al
+	cmp	dword ptr [rsi + 28], r13d
+	setge	bl
+	cmp	dword ptr [rsi + 32], r13d
+	setge	byte ptr [rsp + 304]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 36], r13d
+	setge	dl
+	cmp	dword ptr [rsi + 40], r13d
+	setge	r9b
+	cmp	dword ptr [rsi + 44], r13d
+	setge	r10b
+	cmp	dword ptr [rsi + 48], r13d
+	setge	r11b
+	cmp	dword ptr [rsi + 52], r13d
+	setge	r12b
+	cmp	dword ptr [rsi + 56], r13d
+	setge	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 60], r13d
+	setge	cl
+	cmp	dword ptr [rsi + 64], r13d
+	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 68], r13d
+	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 72], r13d
+	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 76], r13d
+	setge	byte ptr [rsp + 240]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 80], r13d
+	setge	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 84], r13d
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 88], r13d
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 92], r13d
+	setge	r15b
+	cmp	dword ptr [rsi + 96], r13d
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 100], r13d
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 104], r13d
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 108], r13d
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 112], r13d
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 116], r13d
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 120], r13d
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	dword ptr [rsi + 124], r13d
+	setge	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 128
+	add	r14, 4
+	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
+	jne	.LBB10_76
+# %bb.77:
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
+.LBB10_78:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB10_182
+# %bb.79:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB10_147
+# %bb.80:
+	xor	r11d, r11d
+	jmp	.LBB10_149
+.LBB10_81:
+	movzx	r13d, word ptr [rdx]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_85
+# %bb.82:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_83:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	lea	rsi, [rsi + 2]
+	mov	edx, 0
+	adc	dl, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_83
+# %bb.84:
+	add	r14, 1
+.LBB10_85:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB10_89
+# %bb.86:
+	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
+	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_87:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
+	cmp	word ptr [rsi], r13w
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 2], r13w
+	setae	dil
+	cmp	word ptr [rsi + 4], r13w
+	setae	r14b
+	cmp	word ptr [rsi + 6], r13w
+	setae	byte ptr [rsp + 336]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 8], r13w
+	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 10], r13w
+	setae	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 12], r13w
+	setae	al
+	cmp	word ptr [rsi + 14], r13w
+	setae	bl
+	cmp	word ptr [rsi + 16], r13w
+	setae	byte ptr [rsp + 304]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 18], r13w
+	setae	dl
+	cmp	word ptr [rsi + 20], r13w
+	setae	r9b
+	cmp	word ptr [rsi + 22], r13w
+	setae	r10b
+	cmp	word ptr [rsi + 24], r13w
+	setae	r11b
+	cmp	word ptr [rsi + 26], r13w
+	setae	r12b
+	cmp	word ptr [rsi + 28], r13w
+	setae	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 30], r13w
+	setae	cl
+	cmp	word ptr [rsi + 32], r13w
+	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 34], r13w
+	setae	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 36], r13w
+	setae	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 38], r13w
+	setae	byte ptr [rsp + 240]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 40], r13w
+	setae	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 42], r13w
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 44], r13w
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 46], r13w
+	setae	r15b
+	cmp	word ptr [rsi + 48], r13w
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 50], r13w
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [rsi + 52], r13w
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 54], r13w
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 56], r13w
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 58], r13w
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	word ptr [rsi + 60], r13w
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	word ptr [rsi + 62], r13w
+	setae	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 64
+	add	r14, 4
+	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
+	jne	.LBB10_87
+# %bb.88:
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
+.LBB10_89:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB10_182
+# %bb.90:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB10_170
+# %bb.91:
+	xor	r11d, r11d
+	jmp	.LBB10_172
+.LBB10_92:
+	movzx	r11d, word ptr [rdx]
+	lea	r15, [r10 + 31]
+	test	r10, r10
+	cmovns	r15, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_96
+# %bb.93:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_94:                              # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r11w
+	lea	rsi, [rsi + 2]
+	setge	dl
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_94
+# %bb.95:
+	add	r14, 1
+.LBB10_96:
+	sar	r15, 5
+	cmp	r10, 32
+	mov	dword ptr [rsp + 392], r11d     # 4-byte Spill
+	jl	.LBB10_135
+# %bb.97:
+	cmp	r15, 8
+	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
+	mov	qword ptr [rsp + 456], r15      # 8-byte Spill
+	jb	.LBB10_100
+# %bb.98:
+	mov	rax, r15
+	shl	rax, 6
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB10_197
+# %bb.99:
+	lea	rax, [r14 + 4*r15]
+	cmp	rax, rsi
+	jbe	.LBB10_197
+.LBB10_100:
+	xor	eax, eax
+	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
+	mov	r11, rsi
+	mov	r12, r14
+.LBB10_101:
+	mov	qword ptr [rsp + 8], r12        # 8-byte Spill
+	mov	r14, r15
+	sub	r14, qword ptr [rsp + 400]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 320], r14      # 8-byte Spill
+	mov	r13d, dword ptr [rsp + 392]     # 4-byte Reload
+	.p2align	4, 0x90
+.LBB10_102:                             # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [r11], r13w
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 2], r13w
+	setge	r8b
+	cmp	word ptr [r11 + 4], r13w
+	setge	r14b
+	cmp	word ptr [r11 + 6], r13w
+	setge	byte ptr [rsp + 336]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 8], r13w
+	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 10], r13w
+	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 12], r13w
+	setge	al
+	cmp	word ptr [r11 + 14], r13w
+	setge	bl
+	cmp	word ptr [r11 + 16], r13w
+	setge	byte ptr [rsp + 304]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 18], r13w
+	setge	cl
+	cmp	word ptr [r11 + 20], r13w
+	setge	sil
+	cmp	word ptr [r11 + 22], r13w
+	setge	r9b
+	cmp	word ptr [r11 + 24], r13w
+	setge	r10b
+	cmp	word ptr [r11 + 26], r13w
+	setge	r12b
+	cmp	word ptr [r11 + 28], r13w
+	setge	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 30], r13w
+	setge	dil
+	cmp	word ptr [r11 + 32], r13w
+	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 34], r13w
+	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 36], r13w
+	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 38], r13w
+	setge	byte ptr [rsp + 240]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 40], r13w
+	setge	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 42], r13w
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 44], r13w
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 46], r13w
+	setge	r15b
+	cmp	word ptr [r11 + 48], r13w
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 50], r13w
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 52], r13w
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 54], r13w
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 56], r13w
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 58], r13w
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	word ptr [r11 + 60], r13w
+	setge	byte ptr [rsp + 352]            # 1-byte Folded Spill
+	cmp	word ptr [r11 + 62], r13w
+	setge	dl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	cl, cl
+	add	cl, byte ptr [rsp + 304]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	sil, 2
+	or	sil, cl
+	movzx	ecx, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, al
+	mov	r8d, ecx
+	shl	r9b, 3
+	or	r9b, sil
+	movzx	ecx, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, r8b
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	dil, 7
+	or	dil, sil
+	or	bl, cl
+	or	dil, r12b
+	movzx	ecx, byte ptr [rsp + 272]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 240]       # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, sil
+	mov	esi, ecx
+	movzx	ecx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, sil
+	mov	esi, ecx
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	byte ptr [rcx], bl
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [rcx + 1], dil
+	or	r15b, sil
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, bl
+	mov	ebx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, bl
+	movzx	ebx, byte ptr [rsp + 352]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	dl, 7
+	or	dl, bl
+	or	dl, al
+	mov	byte ptr [rcx + 2], r15b
+	mov	byte ptr [rcx + 3], dl
+	add	r11, 64
+	add	rcx, 4
+	mov	qword ptr [rsp + 8], rcx        # 8-byte Spill
+	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
+	jne	.LBB10_102
+# %bb.103:
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	mov	r15, qword ptr [rsp + 456]      # 8-byte Reload
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	jmp	.LBB10_136
+.LBB10_104:
+	mov	r13, qword ptr [rdx]
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB10_108
+# %bb.105:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_106:                             # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	lea	rsi, [rsi + 8]
+	setge	dl
+	neg	dl
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r14 + rbx]
+	xor	dl, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, dl
+	xor	dil, r8b
+	mov	byte ptr [r14 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_106
+# %bb.107:
+	add	r14, 1
+.LBB10_108:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB10_112
+# %bb.109:
+	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
+	mov	qword ptr [rsp + 368], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_110:                             # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
+	cmp	qword ptr [rsi], r13
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 8], r13
+	setge	dil
+	cmp	qword ptr [rsi + 16], r13
+	setge	r14b
+	cmp	qword ptr [rsi + 24], r13
+	setge	byte ptr [rsp + 336]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 32], r13
+	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 40], r13
+	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 48], r13
+	setge	al
+	cmp	qword ptr [rsi + 56], r13
+	setge	bl
+	cmp	qword ptr [rsi + 64], r13
+	setge	byte ptr [rsp + 304]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 72], r13
+	setge	dl
+	cmp	qword ptr [rsi + 80], r13
+	setge	r9b
+	cmp	qword ptr [rsi + 88], r13
+	setge	r10b
+	cmp	qword ptr [rsi + 96], r13
+	setge	r11b
+	cmp	qword ptr [rsi + 104], r13
+	setge	r12b
+	cmp	qword ptr [rsi + 112], r13
+	setge	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 120], r13
+	setge	cl
+	cmp	qword ptr [rsi + 128], r13
+	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 136], r13
+	setge	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 144], r13
+	setge	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 152], r13
+	setge	byte ptr [rsp + 240]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 160], r13
+	setge	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 168], r13
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 176], r13
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 184], r13
+	setge	r15b
+	cmp	qword ptr [rsi + 192], r13
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 200], r13
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 208], r13
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 216], r13
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 224], r13
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 232], r13
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 240], r13
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	qword ptr [rsi + 248], r13
+	setge	r8b
+	add	dil, dil
+	add	dil, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	bl, 7
+	or	bl, al
+	shl	r14b, 2
+	or	r14b, dil
+	add	dl, dl
+	add	dl, byte ptr [rsp + 304]        # 1-byte Folded Reload
+	movzx	eax, byte ptr [rsp + 336]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, r14b
+	shl	r9b, 2
+	or	r9b, dl
+	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, al
+	mov	edi, edx
+	shl	r10b, 3
+	or	r10b, r9b
+	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	shl	r11b, 4
+	or	r11b, r10b
+	shl	r12b, 5
+	or	r12b, r11b
+	movzx	edi, byte ptr [rsp + 256]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	cl, 7
+	or	cl, dil
+	or	bl, dl
+	or	cl, r12b
+	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
+	movzx	edx, byte ptr [rsp + 272]       # 1-byte Folded Reload
+	add	dl, dl
+	add	dl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, dil
+	mov	edi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, dil
+	mov	byte ptr [r14], bl
+	movzx	ebx, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r15b, 7
+	or	r15b, bl
+	mov	byte ptr [r14 + 1], cl
+	or	r15b, dl
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 48]         # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	movzx	edx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r8b, 7
+	or	r8b, dl
+	or	r8b, cl
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], r8b
+	add	rsi, 256
+	add	r14, 4
+	add	qword ptr [rsp + 320], -1       # 8-byte Folded Spill
+	jne	.LBB10_110
+# %bb.111:
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	mov	r11, qword ptr [rsp + 368]      # 8-byte Reload
+.LBB10_112:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB10_182
+# %bb.113:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB10_175
+# %bb.114:
+	xor	r11d, r11d
+	jmp	.LBB10_177
+.LBB10_115:
+	lea	r11, [r10 + 31]
+	test	r10, r10
+	cmovns	r11, r10
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movss	xmm11, dword ptr [rdx]          # xmm11 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB10_119
+# %bb.116:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB10_117:                             # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm11, dword ptr [rsi]
+	setbe	dl
+	add	rsi, 4
+	neg	dl
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	dl, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, dl
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB10_117
+# %bb.118:
+	add	r14, 1
+.LBB10_119:
+	sar	r11, 5
+	cmp	r10, 32
+	jl	.LBB10_139
+# %bb.120:
+	cmp	r11, 4
+	jb	.LBB10_123
+# %bb.121:
+	mov	rax, r11
+	shl	rax, 7
+	add	rax, rsi
+	cmp	r14, rax
+	jae	.LBB10_200
+# %bb.122:
+	lea	rax, [r14 + 4*r11]
+	cmp	rax, rsi
+	jbe	.LBB10_200
+.LBB10_123:
+	xor	r8d, r8d
+	mov	rbx, rsi
+	mov	r15, r14
+.LBB10_124:
+	mov	qword ptr [rsp + 8], r15        # 8-byte Spill
+	mov	qword ptr [rsp + 72], r10       # 8-byte Spill
+	mov	qword ptr [rsp + 320], r11      # 8-byte Spill
+	sub	r11, r8
+	mov	qword ptr [rsp + 160], r11      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_125:                             # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm11, dword ptr [rbx]
+	setbe	byte ptr [rsp + 336]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 4]
+	setbe	r8b
+	ucomiss	xmm11, dword ptr [rbx + 8]
+	setbe	r14b
+	ucomiss	xmm11, dword ptr [rbx + 12]
+	setbe	r13b
+	ucomiss	xmm11, dword ptr [rbx + 16]
+	setbe	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 20]
+	setbe	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 24]
+	setbe	al
+	ucomiss	xmm11, dword ptr [rbx + 28]
+	setbe	r11b
+	ucomiss	xmm11, dword ptr [rbx + 32]
+	setbe	byte ptr [rsp + 256]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 36]
+	setbe	dl
+	ucomiss	xmm11, dword ptr [rbx + 40]
+	setbe	sil
+	ucomiss	xmm11, dword ptr [rbx + 44]
+	setbe	dil
+	ucomiss	xmm11, dword ptr [rbx + 48]
+	setbe	r10b
+	ucomiss	xmm11, dword ptr [rbx + 52]
+	setbe	r12b
+	ucomiss	xmm11, dword ptr [rbx + 56]
+	setbe	byte ptr [rsp + 272]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 60]
+	setbe	r9b
+	ucomiss	xmm11, dword ptr [rbx + 64]
+	setbe	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 68]
+	setbe	byte ptr [rsp + 304]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 72]
+	setbe	byte ptr [rsp + 288]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 76]
+	setbe	byte ptr [rsp + 240]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 80]
+	setbe	byte ptr [rsp + 192]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 84]
+	setbe	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 88]
+	setbe	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 92]
+	setbe	r15b
+	ucomiss	xmm11, dword ptr [rbx + 96]
+	setbe	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 100]
+	setbe	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 104]
+	setbe	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 108]
+	setbe	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 112]
+	setbe	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 116]
+	setbe	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 120]
+	setbe	byte ptr [rsp + 352]            # 1-byte Folded Spill
+	ucomiss	xmm11, dword ptr [rbx + 124]
+	setbe	cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 336]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 256]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 224]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	shl	dil, 3
+	or	dil, sil
+	movzx	edx, byte ptr [rsp + 208]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, dil
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 272]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r9b, 7
+	or	r9b, sil
+	or	r11b, dl
+	or	r9b, r12b
+	movzx	eax, byte ptr [rsp + 304]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 288]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 240]       # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 192]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	byte ptr [rsi], r11b
+	movzx	edi, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	dil, 6
+	shl	r15b, 7
+	or	r15b, dil
+	mov	byte ptr [rsi + 1], r9b
+	or	r15b, dl
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 48]         # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 352]       # 1-byte Folded Reload
+	shl	dl, 6
+	shl	cl, 7
+	or	cl, dl
+	or	cl, al
+	mov	byte ptr [rsi + 2], r15b
+	mov	byte ptr [rsi + 3], cl
+	add	rbx, 128
+	add	rsi, 4
+	mov	qword ptr [rsp + 8], rsi        # 8-byte Spill
+	add	qword ptr [rsp + 160], -1       # 8-byte Folded Spill
+	jne	.LBB10_125
+# %bb.126:
+	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	mov	r11, qword ptr [rsp + 320]      # 8-byte Reload
+	jmp	.LBB10_140
+.LBB10_127:
+	mov	qword ptr [rsp + 112], r14      # 8-byte Spill
+.LBB10_128:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB10_182
+# %bb.129:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB10_151
+# %bb.130:
+	xor	r9d, r9d
+	jmp	.LBB10_154
+.LBB10_131:
+	mov	qword ptr [rsp + 208], r14      # 8-byte Spill
+.LBB10_132:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB10_182
+# %bb.133:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB10_156
+# %bb.134:
+	xor	r9d, r9d
+	jmp	.LBB10_159
+.LBB10_135:
+	mov	r12, r14
+	mov	r11, rsi
+.LBB10_136:
+	shl	r15, 5
+	cmp	r15, r10
+	jge	.LBB10_182
+# %bb.137:
+	mov	r8, r10
+	sub	r8, r15
+	not	r15
+	add	r15, r10
+	jne	.LBB10_183
+# %bb.138:
+	xor	esi, esi
+	jmp	.LBB10_185
+.LBB10_139:
+	mov	r15, r14
+	mov	rbx, rsi
+.LBB10_140:
+	shl	r11, 5
+	cmp	r11, r10
+	jge	.LBB10_182
+# %bb.141:
+	mov	r8, r10
+	sub	r8, r11
+	not	r11
+	add	r11, r10
+	jne	.LBB10_187
+# %bb.142:
+	xor	esi, esi
+	jmp	.LBB10_189
+.LBB10_143:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB10_144:                             # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	mov	edi, 0
+	adc	dil, -1
+	mov	rdx, r11
+	shr	rdx, 3
+	movzx	r10d, byte ptr [r14 + rdx]
+	xor	dil, r10b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r14 + rdx], al
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r14 + rdx], bl
+	cmp	r9, r11
+	jne	.LBB10_144
+.LBB10_145:
+	test	r8b, 1
+	je	.LBB10_182
+# %bb.146:
+	xor	eax, eax
+	cmp	qword ptr [rsi], r13
+	jmp	.LBB10_174
+.LBB10_147:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB10_148:                             # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	setge	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	setge	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB10_148
+.LBB10_149:
+	test	r8b, 1
+	je	.LBB10_182
+# %bb.150:
+	cmp	dword ptr [rsi], r13d
+	jmp	.LBB10_179
+.LBB10_151:
+	mov	r10, r8
+	and	r10, -2
+	xor	r9d, r9d
+	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB10_152:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, r9
+	cmp	byte ptr [rsi + r9], r11b
+	setge	bl
+	neg	bl
+	mov	rdi, r9
+	shr	rdi, 3
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	movzx	r9d, byte ptr [r14 + rdi]
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r14 + rdi], dl
+	cmp	byte ptr [rsi + rax + 1], r11b
+	lea	r9, [rax + 2]
+	setge	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r14 + rdi], al
+	cmp	r10, r9
+	jne	.LBB10_152
+# %bb.153:
+	add	rsi, r9
+.LBB10_154:
+	test	r8b, 1
+	je	.LBB10_182
+# %bb.155:
+	cmp	byte ptr [rsi], r11b
+	setge	al
+	neg	al
+	mov	rdx, r9
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	r9b, 7
+	mov	bl, 1
+	mov	ecx, r9d
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	jmp	.LBB10_161
+.LBB10_156:
+	mov	r10, r8
+	and	r10, -2
+	xor	r9d, r9d
+	mov	r14, qword ptr [rsp + 208]      # 8-byte Reload
+	.p2align	4, 0x90
+.LBB10_157:                             # =>This Inner Loop Header: Depth=1
+	mov	rax, r9
+	cmp	byte ptr [rsi + r9], r11b
+	mov	ebx, 0
+	adc	bl, -1
+	mov	rdi, r9
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	mov	ecx, eax
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r14 + rdi], dl
+	cmp	byte ptr [rsi + rax + 1], r11b
+	lea	r9, [rax + 2]
+	mov	ebx, 0
+	adc	bl, -1
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r14 + rdi], al
+	cmp	r10, r9
+	jne	.LBB10_157
+# %bb.158:
+	add	rsi, r9
+.LBB10_159:
+	test	r8b, 1
+	je	.LBB10_182
+# %bb.160:
+	xor	eax, eax
+	cmp	byte ptr [rsi], r11b
+	adc	al, -1
+	mov	rdx, r9
+	shr	rdx, 3
+	mov	r8, qword ptr [rsp + 208]       # 8-byte Reload
+	mov	dil, byte ptr [r8 + rdx]
+	and	r9b, 7
+	mov	bl, 1
+	mov	ecx, r9d
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+.LBB10_161:
+	xor	bl, dil
+	mov	byte ptr [r8 + rdx], bl
+	jmp	.LBB10_182
+.LBB10_162:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB10_163:                             # =>This Inner Loop Header: Depth=1
+	cmp	dword ptr [rsi], r13d
+	mov	edi, 0
+	adc	dil, -1
+	mov	rdx, r11
+	shr	rdx, 3
+	movzx	r10d, byte ptr [r14 + rdx]
+	xor	dil, r10b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r14 + rdx], al
+	add	r11, 2
+	cmp	dword ptr [rsi + 4], r13d
+	lea	rsi, [rsi + 8]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r14 + rdx], bl
+	cmp	r9, r11
+	jne	.LBB10_163
+.LBB10_164:
+	test	r8b, 1
+	je	.LBB10_182
+# %bb.165:
+	xor	eax, eax
+	cmp	dword ptr [rsi], r13d
+	jmp	.LBB10_174
+.LBB10_166:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB10_167:                             # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rsi]
+	setbe	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	r11, 2
+	ucomisd	xmm0, qword ptr [rsi + 8]
+	setbe	al
+	add	rsi, 16
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB10_167
+.LBB10_168:
+	test	r8b, 1
+	je	.LBB10_182
+# %bb.169:
+	ucomisd	xmm0, qword ptr [rsi]
+	setbe	al
+	jmp	.LBB10_180
+.LBB10_170:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB10_171:                             # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [rsi], r13w
+	mov	edi, 0
+	adc	dil, -1
+	mov	rdx, r11
+	shr	rdx, 3
+	movzx	r10d, byte ptr [r14 + rdx]
+	xor	dil, r10b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r14 + rdx], al
+	add	r11, 2
+	cmp	word ptr [rsi + 2], r13w
+	lea	rsi, [rsi + 4]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r14 + rdx], bl
+	cmp	r9, r11
+	jne	.LBB10_171
+.LBB10_172:
+	test	r8b, 1
+	je	.LBB10_182
+# %bb.173:
+	xor	eax, eax
+	cmp	word ptr [rsi], r13w
+.LBB10_174:
+	adc	al, -1
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	jmp	.LBB10_181
+.LBB10_175:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB10_176:                             # =>This Inner Loop Header: Depth=1
+	cmp	qword ptr [rsi], r13
+	setge	al
+	neg	al
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r14 + rdi], bl
+	add	r11, 2
+	cmp	qword ptr [rsi + 8], r13
+	lea	rsi, [rsi + 16]
+	setge	al
+	neg	al
+	xor	al, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, al
+	xor	dl, bl
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB10_176
+.LBB10_177:
+	test	r8b, 1
+	je	.LBB10_182
+# %bb.178:
+	cmp	qword ptr [rsi], r13
+.LBB10_179:
+	setge	al
+.LBB10_180:
+	neg	al
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+.LBB10_181:
+	xor	bl, sil
+	mov	byte ptr [r14 + rdx], bl
+.LBB10_182:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.LBB10_183:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r14d, dword ptr [rsp + 392]     # 4-byte Reload
+	.p2align	4, 0x90
+.LBB10_184:                             # =>This Inner Loop Header: Depth=1
+	cmp	word ptr [r11], r14w
+	setge	bl
+	neg	bl
+	mov	rdi, rsi
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r12 + rdi]
+	mov	ecx, esi
+	and	cl, 6
+	mov	dl, 1
+	shl	dl, cl
+	xor	bl, r9b
+	and	dl, bl
+	xor	dl, r9b
+	mov	byte ptr [r12 + rdi], dl
+	add	rsi, 2
+	cmp	word ptr [r11 + 2], r14w
+	lea	r11, [r11 + 4]
+	setge	bl
+	neg	bl
+	xor	bl, dl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, bl
+	xor	al, dl
+	mov	byte ptr [r12 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB10_184
+.LBB10_185:
+	test	r8b, 1
+	je	.LBB10_182
+# %bb.186:
+	mov	eax, dword ptr [rsp + 392]      # 4-byte Reload
+	cmp	word ptr [r11], ax
+	setge	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	dil, byte ptr [r12 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r12 + rdx], bl
+	jmp	.LBB10_182
+.LBB10_187:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	mov	r11, r15
+	.p2align	4, 0x90
+.LBB10_188:                             # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm11, dword ptr [rbx]
+	setbe	dl
+	neg	dl
+	mov	rdi, rsi
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r11 + rdi]
+	mov	ecx, esi
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dl, r9b
+	and	al, dl
+	xor	al, r9b
+	mov	byte ptr [r11 + rdi], al
+	add	rsi, 2
+	ucomiss	xmm11, dword ptr [rbx + 4]
+	setbe	r9b
+	add	rbx, 8
+	neg	r9b
+	xor	r9b, al
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, r9b
+	xor	dl, al
+	mov	byte ptr [r11 + rdi], dl
+	cmp	r10, rsi
+	jne	.LBB10_188
+.LBB10_189:
+	test	r8b, 1
+	je	.LBB10_182
+# %bb.190:
+	ucomiss	xmm11, dword ptr [rbx]
+	setbe	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	r14, r15
+	mov	dil, byte ptr [r15 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r15 + rdx], bl
+	jmp	.LBB10_182
+.LBB10_191:
+	and	r15, -16
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 368], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 160], r15      # 8-byte Spill
+	lea	rax, [r14 + 4*r15]
+	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
+	movzx	eax, r11b
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 320], xmm1   # 16-byte Spill
+	xor	r8d, r8d
+	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_192:                             # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 288], r8       # 8-byte Spill
+	shl	r8, 5
+	mov	r9, r8
+	mov	rdi, r8
+	mov	qword ptr [rsp + 128], r8       # 8-byte Spill
+	mov	r12, r8
+	mov	r15, r8
+	mov	qword ptr [rsp + 16], r8        # 8-byte Spill
+	mov	r11, r8
+	mov	r10, r8
+	mov	rax, r8
+	mov	rdx, r8
+	mov	r14, r8
+	movzx	ecx, byte ptr [rsi + r8]
+	movd	xmm9, ecx
+	movzx	ecx, byte ptr [rsi + r8 + 1]
+	movd	xmm2, ecx
+	movzx	ecx, byte ptr [rsi + r8 + 2]
+	movd	xmm3, ecx
+	movzx	ecx, byte ptr [rsi + r8 + 3]
+	movd	xmm4, ecx
+	movzx	ecx, byte ptr [rsi + r8 + 4]
+	movd	xmm6, ecx
+	movzx	ecx, byte ptr [rsi + r8 + 5]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 144], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + r8 + 6]
+	movd	xmm7, ecx
+	movzx	ecx, byte ptr [rsi + r8 + 7]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 272], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + r8 + 8]
+	movd	xmm13, ecx
+	movzx	ecx, byte ptr [rsi + r8 + 9]
+	movd	xmm8, ecx
+	movzx	ecx, byte ptr [rsi + r8 + 10]
+	movd	xmm10, ecx
+	movzx	ecx, byte ptr [rsi + r8 + 11]
+	movd	xmm1, ecx
+	movzx	ecx, byte ptr [rsi + r8 + 12]
+	movd	xmm12, ecx
+	movzx	ecx, byte ptr [rsi + r8 + 16]
+	movd	xmm14, ecx
+	mov	qword ptr [rsp + 208], r8       # 8-byte Spill
+	movzx	ecx, byte ptr [rsi + r8 + 24]
+	movd	xmm5, ecx
+	mov	rcx, r8
+	or	rcx, 32
+	mov	r13, rcx
+	mov	qword ptr [rsp + 80], rcx       # 8-byte Spill
+	or	r9, 64
+	mov	qword ptr [rsp + 32], r9        # 8-byte Spill
+	mov	rcx, r9
+	mov	r9, r8
+	or	r9, 96
+	or	qword ptr [rsp + 128], 128      # 8-byte Folded Spill
+	or	r12, 160
+	or	r15, 192
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	or	rbx, 224
+	or	r11, 256
+	or	r10, 288
+	or	rax, 320
+	or	rdx, 352
+	mov	qword ptr [rsp + 48], rdx       # 8-byte Spill
+	or	r14, 384
+	mov	qword ptr [rsp + 192], r14      # 8-byte Spill
+	or	rdi, 416
+	mov	qword ptr [rsp + 96], rdi       # 8-byte Spill
+	mov	rdi, r8
+	or	rdi, 448
+	mov	qword ptr [rsp + 16], rdi       # 8-byte Spill
+	mov	rdi, r8
+	or	rdi, 480
+	pinsrb	xmm9, byte ptr [rsi + r13], 1
+	pinsrb	xmm9, byte ptr [rsi + rcx], 2
+	pinsrb	xmm9, byte ptr [rsi + r9], 3
+	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + r8], 4
+	pinsrb	xmm9, byte ptr [rsi + r12], 5
+	pinsrb	xmm9, byte ptr [rsi + r15], 6
+	pinsrb	xmm9, byte ptr [rsi + rbx], 7
+	pinsrb	xmm9, byte ptr [rsi + r11], 8
+	pinsrb	xmm9, byte ptr [rsi + r10], 9
+	pinsrb	xmm9, byte ptr [rsi + rax], 10
+	pinsrb	xmm9, byte ptr [rsi + rdx], 11
+	pinsrb	xmm9, byte ptr [rsi + r14], 12
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + r13], 13
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rsi + rcx], 14
+	mov	qword ptr [rsp + 224], rdi      # 8-byte Spill
+	pinsrb	xmm9, byte ptr [rsi + rdi], 15
+	movdqa	xmm15, xmmword ptr [rsp + 320]  # 16-byte Reload
+	movdqa	xmm11, xmm15
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rcx + 1], 1
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rcx + 1], 2
+	pinsrb	xmm2, byte ptr [rsi + r9 + 1], 3
+	pinsrb	xmm2, byte ptr [rsi + r8 + 1], 4
+	pinsrb	xmm2, byte ptr [rsi + r12 + 1], 5
+	pinsrb	xmm2, byte ptr [rsi + r15 + 1], 6
+	pinsrb	xmm2, byte ptr [rsi + rbx + 1], 7
+	pinsrb	xmm2, byte ptr [rsi + r11 + 1], 8
+	pinsrb	xmm2, byte ptr [rsi + r10 + 1], 9
+	pinsrb	xmm2, byte ptr [rsi + rax + 1], 10
+	pinsrb	xmm2, byte ptr [rsi + rdx + 1], 11
+	pinsrb	xmm2, byte ptr [rsi + r14 + 1], 12
+	mov	r13, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r13 + 1], 13
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rcx + 1], 14
+	pinsrb	xmm2, byte ptr [rsi + rdi + 1], 15
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rcx + 2], 1
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r13 + 2], 2
+	pinsrb	xmm3, byte ptr [rsi + r9 + 2], 3
+	pinsrb	xmm3, byte ptr [rsi + r8 + 2], 4
+	pinsrb	xmm3, byte ptr [rsi + r12 + 2], 5
+	pinsrb	xmm3, byte ptr [rsi + r15 + 2], 6
+	pinsrb	xmm3, byte ptr [rsi + rbx + 2], 7
+	pinsrb	xmm3, byte ptr [rsi + r11 + 2], 8
+	pinsrb	xmm3, byte ptr [rsi + r10 + 2], 9
+	pinsrb	xmm3, byte ptr [rsi + rax + 2], 10
+	pinsrb	xmm3, byte ptr [rsi + rdx + 2], 11
+	pinsrb	xmm3, byte ptr [rsi + r14 + 2], 12
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rcx + 2], 13
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rcx + 2], 14
+	pinsrb	xmm3, byte ptr [rsi + rdi + 2], 15
+	movdqa	xmm0, xmm3
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rcx + 3], 1
+	pinsrb	xmm4, byte ptr [rsi + r13 + 3], 2
+	pinsrb	xmm4, byte ptr [rsi + r9 + 3], 3
+	pinsrb	xmm4, byte ptr [rsi + r8 + 3], 4
+	pinsrb	xmm4, byte ptr [rsi + r12 + 3], 5
+	pinsrb	xmm4, byte ptr [rsi + r15 + 3], 6
+	pinsrb	xmm4, byte ptr [rsi + rbx + 3], 7
+	pinsrb	xmm4, byte ptr [rsi + r11 + 3], 8
+	pinsrb	xmm4, byte ptr [rsi + r10 + 3], 9
+	pinsrb	xmm4, byte ptr [rsi + rax + 3], 10
+	pinsrb	xmm4, byte ptr [rsi + rdx + 3], 11
+	pinsrb	xmm4, byte ptr [rsi + r14 + 3], 12
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rcx + 3], 13
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rcx + 3], 14
+	pinsrb	xmm4, byte ptr [rsi + rdi + 3], 15
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rcx + 4], 1
+	pinsrb	xmm6, byte ptr [rsi + r13 + 4], 2
+	pinsrb	xmm6, byte ptr [rsi + r9 + 4], 3
+	pinsrb	xmm6, byte ptr [rsi + r8 + 4], 4
+	pinsrb	xmm6, byte ptr [rsi + r12 + 4], 5
+	pinsrb	xmm6, byte ptr [rsi + r15 + 4], 6
+	pinsrb	xmm6, byte ptr [rsi + rbx + 4], 7
+	pinsrb	xmm6, byte ptr [rsi + r11 + 4], 8
+	pinsrb	xmm6, byte ptr [rsi + r10 + 4], 9
+	pinsrb	xmm6, byte ptr [rsi + rax + 4], 10
+	pinsrb	xmm6, byte ptr [rsi + rdx + 4], 11
+	pinsrb	xmm6, byte ptr [rsi + r14 + 4], 12
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rcx + 4], 13
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rcx + 4], 14
+	pinsrb	xmm6, byte ptr [rsi + rdi + 4], 15
+	movdqa	xmm3, xmmword ptr [rsp + 144]   # 16-byte Reload
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rcx + 5], 1
+	pinsrb	xmm3, byte ptr [rsi + r13 + 5], 2
+	pinsrb	xmm3, byte ptr [rsi + r9 + 5], 3
+	pinsrb	xmm3, byte ptr [rsi + r8 + 5], 4
+	pinsrb	xmm3, byte ptr [rsi + r12 + 5], 5
+	pinsrb	xmm3, byte ptr [rsi + r15 + 5], 6
+	pinsrb	xmm3, byte ptr [rsi + rbx + 5], 7
+	pinsrb	xmm3, byte ptr [rsi + r11 + 5], 8
+	pinsrb	xmm3, byte ptr [rsi + r10 + 5], 9
+	pinsrb	xmm3, byte ptr [rsi + rax + 5], 10
+	pinsrb	xmm3, byte ptr [rsi + rdx + 5], 11
+	pinsrb	xmm3, byte ptr [rsi + r14 + 5], 12
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rcx + 5], 13
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rcx + 5], 14
+	pinsrb	xmm3, byte ptr [rsi + rdi + 5], 15
+	movdqa	xmmword ptr [rsp + 144], xmm3   # 16-byte Spill
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdi + 6], 1
+	mov	rcx, r13
+	pinsrb	xmm7, byte ptr [rsi + r13 + 6], 2
+	pinsrb	xmm7, byte ptr [rsi + r9 + 6], 3
+	pinsrb	xmm7, byte ptr [rsi + r8 + 6], 4
+	pinsrb	xmm7, byte ptr [rsi + r12 + 6], 5
+	pinsrb	xmm7, byte ptr [rsi + r15 + 6], 6
+	pinsrb	xmm7, byte ptr [rsi + rbx + 6], 7
+	pinsrb	xmm7, byte ptr [rsi + r11 + 6], 8
+	pinsrb	xmm7, byte ptr [rsi + r10 + 6], 9
+	pinsrb	xmm7, byte ptr [rsi + rax + 6], 10
+	pinsrb	xmm7, byte ptr [rsi + rdx + 6], 11
+	pinsrb	xmm7, byte ptr [rsi + r14 + 6], 12
+	pinsrb	xmm13, byte ptr [rsi + rdi + 8], 1
+	mov	r13, rdi
+	pinsrb	xmm13, byte ptr [rsi + rcx + 8], 2
+	pinsrb	xmm13, byte ptr [rsi + r9 + 8], 3
+	pinsrb	xmm13, byte ptr [rsi + r8 + 8], 4
+	pinsrb	xmm13, byte ptr [rsi + r12 + 8], 5
+	pinsrb	xmm13, byte ptr [rsi + r15 + 8], 6
+	pinsrb	xmm13, byte ptr [rsi + rbx + 8], 7
+	pinsrb	xmm13, byte ptr [rsi + r11 + 8], 8
+	pinsrb	xmm13, byte ptr [rsi + r10 + 8], 9
+	pinsrb	xmm13, byte ptr [rsi + rax + 8], 10
+	pinsrb	xmm13, byte ptr [rsi + rdx + 8], 11
+	pinsrb	xmm13, byte ptr [rsi + r14 + 8], 12
+	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + r8 + 8], 13
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + rcx + 8], 14
+	pcmpgtb	xmm11, xmm9
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + rdi + 8], 15
+	movdqa	xmm9, xmm15
+	pcmpgtb	xmm9, xmm13
+	pinsrb	xmm14, byte ptr [rsi + r13 + 16], 1
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rcx + 16], 2
+	pinsrb	xmm14, byte ptr [rsi + r9 + 16], 3
+	mov	r14, r9
+	mov	qword ptr [rsp + 176], r9       # 8-byte Spill
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rcx + 16], 4
+	pinsrb	xmm14, byte ptr [rsi + r12 + 16], 5
+	mov	qword ptr [rsp + 240], r12      # 8-byte Spill
+	pinsrb	xmm14, byte ptr [rsi + r15 + 16], 6
+	pinsrb	xmm14, byte ptr [rsi + rbx + 16], 7
+	pinsrb	xmm14, byte ptr [rsi + r11 + 16], 8
+	pinsrb	xmm14, byte ptr [rsi + r10 + 16], 9
+	pinsrb	xmm14, byte ptr [rsi + rax + 16], 10
+	mov	r9, rax
+	pinsrb	xmm14, byte ptr [rsi + rdx + 16], 11
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdx + 16], 12
+	pinsrb	xmm14, byte ptr [rsi + r8 + 16], 13
+	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r13 + 16], 14
+	pinsrb	xmm14, byte ptr [rsi + rdi + 16], 15
+	movdqa	xmm3, xmm15
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 24], 1
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 24], 2
+	pinsrb	xmm5, byte ptr [rsi + r14 + 24], 3
+	pinsrb	xmm5, byte ptr [rsi + rcx + 24], 4
+	pinsrb	xmm5, byte ptr [rsi + r12 + 24], 5
+	pinsrb	xmm5, byte ptr [rsi + r15 + 24], 6
+	mov	r14, r15
+	pinsrb	xmm5, byte ptr [rsi + rbx + 24], 7
+	pinsrb	xmm5, byte ptr [rsi + r11 + 24], 8
+	pinsrb	xmm5, byte ptr [rsi + r10 + 24], 9
+	pinsrb	xmm5, byte ptr [rsi + r9 + 24], 10
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 24], 11
+	pinsrb	xmm5, byte ptr [rsi + rdx + 24], 12
+	pinsrb	xmm5, byte ptr [rsi + r8 + 24], 13
+	pinsrb	xmm5, byte ptr [rsi + r13 + 24], 14
+	pinsrb	xmm5, byte ptr [rsi + rdi + 24], 15
+	pcmpgtb	xmm3, xmm14
+	movdqa	xmmword ptr [rsp + 304], xmm3   # 16-byte Spill
+	movdqa	xmm3, xmm15
+	pcmpgtb	xmm3, xmm5
+	movdqa	xmmword ptr [rsp + 256], xmm3   # 16-byte Spill
+	movdqa	xmm5, xmm15
+	pcmpgtb	xmm5, xmm2
+	mov	rcx, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rcx + 13]
+	movd	xmm2, edx
+	pinsrb	xmm7, byte ptr [rsi + r8 + 6], 13
+	movdqa	xmm3, xmmword ptr [rip + .LCPI10_16] # xmm3 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	pandn	xmm5, xmm3
+	paddb	xmm5, xmm11
+	movdqa	xmm13, xmm15
+	pcmpgtb	xmm13, xmm0
+	movdqa	xmm3, xmm15
+	pcmpgtb	xmm3, xmm4
+	movzx	edx, byte ptr [rsi + rcx + 14]
+	movd	xmm4, edx
+	pinsrb	xmm7, byte ptr [rsi + r13 + 6], 14
+	movdqa	xmm0, xmmword ptr [rip + .LCPI10_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pandn	xmm13, xmm0
+	movdqa	xmm0, xmmword ptr [rip + .LCPI10_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pandn	xmm3, xmm0
+	por	xmm3, xmm13
+	movdqa	xmm14, xmm15
+	pcmpgtb	xmm14, xmm6
+	movzx	edx, byte ptr [rsi + rcx + 15]
+	movd	xmm6, edx
+	movdqa	xmm0, xmmword ptr [rip + .LCPI10_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm14, xmm0
+	por	xmm14, xmm3
+	movzx	edx, byte ptr [rsi + rcx + 17]
+	movd	xmm3, edx
+	pinsrb	xmm7, byte ptr [rsi + rdi + 6], 15
+	pcmpeqd	xmm0, xmm0
+	psubb	xmm5, xmm0
+	por	xmm14, xmm5
+	movdqa	xmm5, xmm15
+	pcmpgtb	xmm5, xmmword ptr [rsp + 144]   # 16-byte Folded Reload
+	movdqa	xmm13, xmm15
+	movdqa	xmm11, xmm15
+	pcmpgtb	xmm13, xmm7
+	movzx	edx, byte ptr [rsi + rcx + 18]
+	movd	xmm7, edx
+	movdqa	xmm0, xmmword ptr [rip + .LCPI10_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm5, xmm0
+	movdqa	xmm0, xmmword ptr [rip + .LCPI10_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm13, xmm0
+	por	xmm13, xmm5
+	movzx	edx, byte ptr [rsi + rcx + 19]
+	movd	xmm15, edx
+	movdqa	xmm0, xmmword ptr [rsp + 272]   # 16-byte Reload
+	mov	rdi, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdi + 7], 1
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rax + 7], 2
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rcx + 7], 3
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rax + 7], 4
+	mov	r15, qword ptr [rsp + 240]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r15 + 7], 5
+	pinsrb	xmm0, byte ptr [rsi + r14 + 7], 6
+	pinsrb	xmm0, byte ptr [rsi + rbx + 7], 7
+	pinsrb	xmm0, byte ptr [rsi + r11 + 7], 8
+	pinsrb	xmm0, byte ptr [rsi + r10 + 7], 9
+	pinsrb	xmm0, byte ptr [rsi + r9 + 7], 10
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 7], 11
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 7], 12
+	pinsrb	xmm0, byte ptr [rsi + r8 + 7], 13
+	pinsrb	xmm0, byte ptr [rsi + r13 + 7], 14
+	mov	r12, qword ptr [rsp + 224]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r12 + 7], 15
+	pinsrb	xmm8, byte ptr [rsi + rdi + 9], 1
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r13 + 9], 2
+	pinsrb	xmm8, byte ptr [rsi + rcx + 9], 3
+	pinsrb	xmm8, byte ptr [rsi + rax + 9], 4
+	pinsrb	xmm8, byte ptr [rsi + r15 + 9], 5
+	pinsrb	xmm8, byte ptr [rsi + r14 + 9], 6
+	pinsrb	xmm8, byte ptr [rsi + rbx + 9], 7
+	pinsrb	xmm8, byte ptr [rsi + r11 + 9], 8
+	pinsrb	xmm8, byte ptr [rsi + r10 + 9], 9
+	pinsrb	xmm8, byte ptr [rsi + r9 + 9], 10
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rdi + 9], 11
+	pinsrb	xmm8, byte ptr [rsi + rdx + 9], 12
+	pinsrb	xmm8, byte ptr [rsi + r8 + 9], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rdi + 9], 14
+	pinsrb	xmm8, byte ptr [rsi + r12 + 9], 15
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r13 + 10], 1
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 2
+	pinsrb	xmm10, byte ptr [rsi + rcx + 10], 3
+	pinsrb	xmm10, byte ptr [rsi + rax + 10], 4
+	pinsrb	xmm10, byte ptr [rsi + r15 + 10], 5
+	pinsrb	xmm10, byte ptr [rsi + r14 + 10], 6
+	pinsrb	xmm10, byte ptr [rsi + rbx + 10], 7
+	pinsrb	xmm10, byte ptr [rsi + r11 + 10], 8
+	pinsrb	xmm10, byte ptr [rsi + r10 + 10], 9
+	pinsrb	xmm10, byte ptr [rsi + r9 + 10], 10
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 11
+	pinsrb	xmm10, byte ptr [rsi + rdx + 10], 12
+	pinsrb	xmm10, byte ptr [rsi + r8 + 10], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdi + 10], 14
+	pinsrb	xmm10, byte ptr [rsi + r12 + 10], 15
+	pinsrb	xmm1, byte ptr [rsi + r13 + 11], 1
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + rdi + 11], 2
+	pinsrb	xmm1, byte ptr [rsi + rcx + 11], 3
+	pinsrb	xmm1, byte ptr [rsi + rax + 11], 4
+	pinsrb	xmm1, byte ptr [rsi + r15 + 11], 5
+	pinsrb	xmm1, byte ptr [rsi + r14 + 11], 6
+	pinsrb	xmm1, byte ptr [rsi + rbx + 11], 7
+	pinsrb	xmm1, byte ptr [rsi + r11 + 11], 8
+	pinsrb	xmm1, byte ptr [rsi + r10 + 11], 9
+	pinsrb	xmm1, byte ptr [rsi + r9 + 11], 10
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + rdi + 11], 11
+	pinsrb	xmm1, byte ptr [rsi + rdx + 11], 12
+	pinsrb	xmm1, byte ptr [rsi + r8 + 11], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + rdi + 11], 14
+	pinsrb	xmm1, byte ptr [rsi + r12 + 11], 15
+	pinsrb	xmm12, byte ptr [rsi + r13 + 12], 1
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rdi + 12], 2
+	pinsrb	xmm12, byte ptr [rsi + rcx + 12], 3
+	pinsrb	xmm12, byte ptr [rsi + rax + 12], 4
+	pinsrb	xmm12, byte ptr [rsi + r15 + 12], 5
+	pinsrb	xmm12, byte ptr [rsi + r14 + 12], 6
+	pinsrb	xmm12, byte ptr [rsi + rbx + 12], 7
+	pinsrb	xmm12, byte ptr [rsi + r11 + 12], 8
+	pinsrb	xmm12, byte ptr [rsi + r10 + 12], 9
+	pinsrb	xmm12, byte ptr [rsi + r9 + 12], 10
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rdi + 12], 11
+	pinsrb	xmm12, byte ptr [rsi + rdx + 12], 12
+	pinsrb	xmm12, byte ptr [rsi + r8 + 12], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rdi + 12], 14
+	pinsrb	xmm12, byte ptr [rsi + r12 + 12], 15
+	pinsrb	xmm2, byte ptr [rsi + r13 + 13], 1
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rdi + 13], 2
+	pinsrb	xmm2, byte ptr [rsi + rcx + 13], 3
+	pinsrb	xmm2, byte ptr [rsi + rax + 13], 4
+	pinsrb	xmm2, byte ptr [rsi + r15 + 13], 5
+	pinsrb	xmm2, byte ptr [rsi + r14 + 13], 6
+	pinsrb	xmm2, byte ptr [rsi + rbx + 13], 7
+	pinsrb	xmm2, byte ptr [rsi + r11 + 13], 8
+	pinsrb	xmm2, byte ptr [rsi + r10 + 13], 9
+	pinsrb	xmm2, byte ptr [rsi + r9 + 13], 10
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rdi + 13], 11
+	pinsrb	xmm2, byte ptr [rsi + rdx + 13], 12
+	pinsrb	xmm2, byte ptr [rsi + r8 + 13], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rdi + 13], 14
+	pinsrb	xmm2, byte ptr [rsi + r12 + 13], 15
+	pinsrb	xmm4, byte ptr [rsi + r13 + 14], 1
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 2
+	pinsrb	xmm4, byte ptr [rsi + rcx + 14], 3
+	pinsrb	xmm4, byte ptr [rsi + rax + 14], 4
+	pinsrb	xmm4, byte ptr [rsi + r15 + 14], 5
+	pinsrb	xmm4, byte ptr [rsi + r14 + 14], 6
+	pinsrb	xmm4, byte ptr [rsi + rbx + 14], 7
+	pinsrb	xmm4, byte ptr [rsi + r11 + 14], 8
+	pinsrb	xmm4, byte ptr [rsi + r10 + 14], 9
+	pinsrb	xmm4, byte ptr [rsi + r9 + 14], 10
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 11
+	pinsrb	xmm4, byte ptr [rsi + rdx + 14], 12
+	pinsrb	xmm4, byte ptr [rsi + r8 + 14], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdi + 14], 14
+	pinsrb	xmm4, byte ptr [rsi + r12 + 14], 15
+	pinsrb	xmm6, byte ptr [rsi + r13 + 15], 1
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 2
+	pinsrb	xmm6, byte ptr [rsi + rcx + 15], 3
+	pinsrb	xmm6, byte ptr [rsi + rax + 15], 4
+	pinsrb	xmm6, byte ptr [rsi + r15 + 15], 5
+	pinsrb	xmm6, byte ptr [rsi + r14 + 15], 6
+	pinsrb	xmm6, byte ptr [rsi + rbx + 15], 7
+	pinsrb	xmm6, byte ptr [rsi + r11 + 15], 8
+	pinsrb	xmm6, byte ptr [rsi + r10 + 15], 9
+	pinsrb	xmm6, byte ptr [rsi + r9 + 15], 10
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 11
+	pinsrb	xmm6, byte ptr [rsi + rdx + 15], 12
+	pinsrb	xmm6, byte ptr [rsi + r8 + 15], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rdi + 15], 14
+	pinsrb	xmm6, byte ptr [rsi + r12 + 15], 15
+	pinsrb	xmm3, byte ptr [rsi + r13 + 17], 1
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdi + 17], 2
+	pinsrb	xmm3, byte ptr [rsi + rcx + 17], 3
+	pinsrb	xmm3, byte ptr [rsi + rax + 17], 4
+	pinsrb	xmm3, byte ptr [rsi + r15 + 17], 5
+	pinsrb	xmm3, byte ptr [rsi + r14 + 17], 6
+	pinsrb	xmm3, byte ptr [rsi + rbx + 17], 7
+	pinsrb	xmm3, byte ptr [rsi + r11 + 17], 8
+	pinsrb	xmm3, byte ptr [rsi + r10 + 17], 9
+	pinsrb	xmm3, byte ptr [rsi + r9 + 17], 10
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdi + 17], 11
+	pinsrb	xmm3, byte ptr [rsi + rdx + 17], 12
+	pinsrb	xmm3, byte ptr [rsi + r8 + 17], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdi + 17], 14
+	pinsrb	xmm3, byte ptr [rsi + r12 + 17], 15
+	pinsrb	xmm7, byte ptr [rsi + r13 + 18], 1
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdi + 18], 2
+	pinsrb	xmm7, byte ptr [rsi + rcx + 18], 3
+	pinsrb	xmm7, byte ptr [rsi + rax + 18], 4
+	pinsrb	xmm7, byte ptr [rsi + r15 + 18], 5
+	pinsrb	xmm7, byte ptr [rsi + r14 + 18], 6
+	pinsrb	xmm7, byte ptr [rsi + rbx + 18], 7
+	pinsrb	xmm7, byte ptr [rsi + r11 + 18], 8
+	pinsrb	xmm7, byte ptr [rsi + r10 + 18], 9
+	pinsrb	xmm7, byte ptr [rsi + r9 + 18], 10
+	mov	qword ptr [rsp + 336], r9       # 8-byte Spill
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + rdi + 18], 11
+	pinsrb	xmm7, byte ptr [rsi + rdx + 18], 12
+	mov	r15, rdx
+	pinsrb	xmm7, byte ptr [rsi + r8 + 18], 13
+	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rsi + r8 + 18], 14
+	pinsrb	xmm7, byte ptr [rsi + r12 + 18], 15
+	pinsrb	xmm15, byte ptr [rsi + r13 + 19], 1
+	mov	r13, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + r13 + 19], 2
+	pinsrb	xmm15, byte ptr [rsi + rcx + 19], 3
+	pinsrb	xmm15, byte ptr [rsi + rax + 19], 4
+	mov	rcx, qword ptr [rsp + 240]      # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rcx + 19], 5
+	pinsrb	xmm15, byte ptr [rsi + r14 + 19], 6
+	pinsrb	xmm15, byte ptr [rsi + rbx + 19], 7
+	pinsrb	xmm15, byte ptr [rsi + r11 + 19], 8
+	pinsrb	xmm15, byte ptr [rsi + r10 + 19], 9
+	pinsrb	xmm15, byte ptr [rsi + r9 + 19], 10
+	pinsrb	xmm15, byte ptr [rsi + rdi + 19], 11
+	movdqa	xmm5, xmm11
+	pcmpgtb	xmm5, xmm0
+	movdqa	xmm0, xmmword ptr [rip + .LCPI10_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pandn	xmm5, xmm0
+	por	xmm5, xmm13
+	mov	rax, qword ptr [rsp + 208]      # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 20]
+	movd	xmm0, edx
+	por	xmm5, xmm14
+	movdqa	xmmword ptr [rsp + 144], xmm5   # 16-byte Spill
+	movdqa	xmm13, xmm11
+	pcmpgtb	xmm13, xmm8
+	movzx	edx, byte ptr [rsi + rax + 21]
+	movd	xmm8, edx
+	pinsrb	xmm15, byte ptr [rsi + r15 + 19], 12
+	pandn	xmm13, xmmword ptr [rip + .LCPI10_16]
+	paddb	xmm13, xmm9
+	movdqa	xmm5, xmm11
+	pcmpgtb	xmm5, xmm10
+	movdqa	xmm9, xmm11
+	pcmpgtb	xmm9, xmm1
+	movzx	edx, byte ptr [rsi + rax + 22]
+	movd	xmm10, edx
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rdx + 19], 13
+	pandn	xmm5, xmmword ptr [rip + .LCPI10_17]
+	pandn	xmm9, xmmword ptr [rip + .LCPI10_18]
+	por	xmm9, xmm5
+	movdqa	xmm1, xmm11
+	pcmpgtb	xmm1, xmm12
+	movzx	edx, byte ptr [rsi + rax + 23]
+	movd	xmm5, edx
+	pandn	xmm1, xmmword ptr [rip + .LCPI10_19]
+	por	xmm1, xmm9
+	movzx	edx, byte ptr [rsi + rax + 25]
+	movd	xmm9, edx
+	pinsrb	xmm15, byte ptr [rsi + r8 + 19], 14
+	psubb	xmm13, xmmword ptr [rip + .LCPI10_22]
+	por	xmm1, xmm13
+	movdqa	xmm14, xmm11
+	pcmpgtb	xmm14, xmm2
+	movdqa	xmm13, xmm11
+	pcmpgtb	xmm13, xmm4
+	movzx	edx, byte ptr [rsi + rax + 26]
+	movd	xmm12, edx
+	pinsrb	xmm15, byte ptr [rsi + r12 + 19], 15
+	pandn	xmm14, xmmword ptr [rip + .LCPI10_20]
+	pandn	xmm13, xmmword ptr [rip + .LCPI10_21]
+	por	xmm13, xmm14
+	movdqa	xmm4, xmm11
+	movdqa	xmm14, xmm11
+	pcmpgtb	xmm14, xmm6
+	movzx	edx, byte ptr [rsi + rax + 27]
+	movd	xmm2, edx
+	pandn	xmm14, xmmword ptr [rip + .LCPI10_6]
+	por	xmm14, xmm13
+	movzx	edx, byte ptr [rsi + rax + 28]
+	movd	xmm6, edx
+	por	xmm14, xmm1
+	pcmpgtb	xmm11, xmm3
+	movzx	edx, byte ptr [rsi + rax + 29]
+	movd	xmm3, edx
+	pandn	xmm11, xmmword ptr [rip + .LCPI10_16]
+	paddb	xmm11, xmmword ptr [rsp + 304]  # 16-byte Folded Reload
+	movdqa	xmm1, xmm4
+	pcmpgtb	xmm1, xmm7
+	movdqa	xmm13, xmm4
+	movdqa	xmm7, xmm4
+	pcmpgtb	xmm13, xmm15
+	movzx	edx, byte ptr [rsi + rax + 30]
+	movd	xmm4, edx
+	movzx	edx, byte ptr [rsi + rax + 31]
+	pandn	xmm1, xmmword ptr [rip + .LCPI10_17]
+	pandn	xmm13, xmmword ptr [rip + .LCPI10_18]
+	por	xmm13, xmm1
+	movd	xmm15, edx
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rax + 20], 1
+	pinsrb	xmm8, byte ptr [rsi + rax + 21], 1
+	pinsrb	xmm10, byte ptr [rsi + rax + 22], 1
+	pinsrb	xmm5, byte ptr [rsi + rax + 23], 1
+	pinsrb	xmm9, byte ptr [rsi + rax + 25], 1
+	pinsrb	xmm12, byte ptr [rsi + rax + 26], 1
+	pinsrb	xmm2, byte ptr [rsi + rax + 27], 1
+	pinsrb	xmm6, byte ptr [rsi + rax + 28], 1
+	pinsrb	xmm3, byte ptr [rsi + rax + 29], 1
+	pinsrb	xmm4, byte ptr [rsi + rax + 30], 1
+	pinsrb	xmm15, byte ptr [rsi + rax + 31], 1
+	pinsrb	xmm0, byte ptr [rsi + r13 + 20], 2
+	pinsrb	xmm8, byte ptr [rsi + r13 + 21], 2
+	pinsrb	xmm10, byte ptr [rsi + r13 + 22], 2
+	pinsrb	xmm5, byte ptr [rsi + r13 + 23], 2
+	pinsrb	xmm9, byte ptr [rsi + r13 + 25], 2
+	pinsrb	xmm12, byte ptr [rsi + r13 + 26], 2
+	pinsrb	xmm2, byte ptr [rsi + r13 + 27], 2
+	pinsrb	xmm6, byte ptr [rsi + r13 + 28], 2
+	pinsrb	xmm3, byte ptr [rsi + r13 + 29], 2
+	pinsrb	xmm4, byte ptr [rsi + r13 + 30], 2
+	pinsrb	xmm15, byte ptr [rsi + r13 + 31], 2
+	mov	rdx, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 20], 3
+	pinsrb	xmm8, byte ptr [rsi + rdx + 21], 3
+	pinsrb	xmm10, byte ptr [rsi + rdx + 22], 3
+	pinsrb	xmm5, byte ptr [rsi + rdx + 23], 3
+	pinsrb	xmm9, byte ptr [rsi + rdx + 25], 3
+	pinsrb	xmm12, byte ptr [rsi + rdx + 26], 3
+	pinsrb	xmm2, byte ptr [rsi + rdx + 27], 3
+	pinsrb	xmm6, byte ptr [rsi + rdx + 28], 3
+	pinsrb	xmm3, byte ptr [rsi + rdx + 29], 3
+	pinsrb	xmm4, byte ptr [rsi + rdx + 30], 3
+	pinsrb	xmm15, byte ptr [rsi + rdx + 31], 3
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 20], 4
+	pinsrb	xmm8, byte ptr [rsi + rdx + 21], 4
+	pinsrb	xmm10, byte ptr [rsi + rdx + 22], 4
+	pinsrb	xmm5, byte ptr [rsi + rdx + 23], 4
+	pinsrb	xmm9, byte ptr [rsi + rdx + 25], 4
+	pinsrb	xmm12, byte ptr [rsi + rdx + 26], 4
+	pinsrb	xmm2, byte ptr [rsi + rdx + 27], 4
+	pinsrb	xmm6, byte ptr [rsi + rdx + 28], 4
+	pinsrb	xmm3, byte ptr [rsi + rdx + 29], 4
+	pinsrb	xmm4, byte ptr [rsi + rdx + 30], 4
+	pinsrb	xmm15, byte ptr [rsi + rdx + 31], 4
+	pinsrb	xmm0, byte ptr [rsi + rcx + 20], 5
+	pinsrb	xmm8, byte ptr [rsi + rcx + 21], 5
+	pinsrb	xmm10, byte ptr [rsi + rcx + 22], 5
+	pinsrb	xmm5, byte ptr [rsi + rcx + 23], 5
+	pinsrb	xmm9, byte ptr [rsi + rcx + 25], 5
+	pinsrb	xmm12, byte ptr [rsi + rcx + 26], 5
+	pinsrb	xmm2, byte ptr [rsi + rcx + 27], 5
+	pinsrb	xmm6, byte ptr [rsi + rcx + 28], 5
+	pinsrb	xmm3, byte ptr [rsi + rcx + 29], 5
+	pinsrb	xmm4, byte ptr [rsi + rcx + 30], 5
+	pinsrb	xmm15, byte ptr [rsi + rcx + 31], 5
+	pinsrb	xmm0, byte ptr [rsi + r14 + 20], 6
+	pinsrb	xmm8, byte ptr [rsi + r14 + 21], 6
+	pinsrb	xmm10, byte ptr [rsi + r14 + 22], 6
+	pinsrb	xmm5, byte ptr [rsi + r14 + 23], 6
+	pinsrb	xmm9, byte ptr [rsi + r14 + 25], 6
+	pinsrb	xmm12, byte ptr [rsi + r14 + 26], 6
+	pinsrb	xmm2, byte ptr [rsi + r14 + 27], 6
+	pinsrb	xmm6, byte ptr [rsi + r14 + 28], 6
+	pinsrb	xmm3, byte ptr [rsi + r14 + 29], 6
+	pinsrb	xmm4, byte ptr [rsi + r14 + 30], 6
+	pinsrb	xmm15, byte ptr [rsi + r14 + 31], 6
+	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rbx + 20], 7
+	pinsrb	xmm8, byte ptr [rsi + rbx + 21], 7
+	pinsrb	xmm10, byte ptr [rsi + rbx + 22], 7
+	pinsrb	xmm5, byte ptr [rsi + rbx + 23], 7
+	pinsrb	xmm9, byte ptr [rsi + rbx + 25], 7
+	pinsrb	xmm12, byte ptr [rsi + rbx + 26], 7
+	pinsrb	xmm2, byte ptr [rsi + rbx + 27], 7
+	pinsrb	xmm6, byte ptr [rsi + rbx + 28], 7
+	pinsrb	xmm3, byte ptr [rsi + rbx + 29], 7
+	pinsrb	xmm4, byte ptr [rsi + rbx + 30], 7
+	pinsrb	xmm15, byte ptr [rsi + rbx + 31], 7
+	pinsrb	xmm0, byte ptr [rsi + r11 + 20], 8
+	pinsrb	xmm8, byte ptr [rsi + r11 + 21], 8
+	pinsrb	xmm10, byte ptr [rsi + r11 + 22], 8
+	pinsrb	xmm5, byte ptr [rsi + r11 + 23], 8
+	pinsrb	xmm9, byte ptr [rsi + r11 + 25], 8
+	pinsrb	xmm12, byte ptr [rsi + r11 + 26], 8
+	pinsrb	xmm2, byte ptr [rsi + r11 + 27], 8
+	pinsrb	xmm6, byte ptr [rsi + r11 + 28], 8
+	pinsrb	xmm3, byte ptr [rsi + r11 + 29], 8
+	pinsrb	xmm4, byte ptr [rsi + r11 + 30], 8
+	pinsrb	xmm15, byte ptr [rsi + r11 + 31], 8
+	pinsrb	xmm0, byte ptr [rsi + r10 + 20], 9
+	pinsrb	xmm8, byte ptr [rsi + r10 + 21], 9
+	pinsrb	xmm10, byte ptr [rsi + r10 + 22], 9
+	pinsrb	xmm5, byte ptr [rsi + r10 + 23], 9
+	pinsrb	xmm9, byte ptr [rsi + r10 + 25], 9
+	pinsrb	xmm12, byte ptr [rsi + r10 + 26], 9
+	pinsrb	xmm2, byte ptr [rsi + r10 + 27], 9
+	pinsrb	xmm6, byte ptr [rsi + r10 + 28], 9
+	pinsrb	xmm3, byte ptr [rsi + r10 + 29], 9
+	pinsrb	xmm4, byte ptr [rsi + r10 + 30], 9
+	pinsrb	xmm15, byte ptr [rsi + r10 + 31], 9
+	mov	r10, qword ptr [rsp + 336]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r10 + 20], 10
+	pinsrb	xmm8, byte ptr [rsi + r10 + 21], 10
+	pinsrb	xmm10, byte ptr [rsi + r10 + 22], 10
+	pinsrb	xmm5, byte ptr [rsi + r10 + 23], 10
+	pinsrb	xmm9, byte ptr [rsi + r10 + 25], 10
+	pinsrb	xmm12, byte ptr [rsi + r10 + 26], 10
+	pinsrb	xmm2, byte ptr [rsi + r10 + 27], 10
+	pinsrb	xmm6, byte ptr [rsi + r10 + 28], 10
+	pinsrb	xmm3, byte ptr [rsi + r10 + 29], 10
+	pinsrb	xmm4, byte ptr [rsi + r10 + 30], 10
+	pinsrb	xmm15, byte ptr [rsi + r10 + 31], 10
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r10 + 20], 11
+	pinsrb	xmm8, byte ptr [rsi + r10 + 21], 11
+	pinsrb	xmm10, byte ptr [rsi + r10 + 22], 11
+	pinsrb	xmm5, byte ptr [rsi + r10 + 23], 11
+	pinsrb	xmm9, byte ptr [rsi + r10 + 25], 11
+	pinsrb	xmm12, byte ptr [rsi + r10 + 26], 11
+	pinsrb	xmm2, byte ptr [rsi + r10 + 27], 11
+	pinsrb	xmm6, byte ptr [rsi + r10 + 28], 11
+	pinsrb	xmm3, byte ptr [rsi + r10 + 29], 11
+	pinsrb	xmm4, byte ptr [rsi + r10 + 30], 11
+	pinsrb	xmm15, byte ptr [rsi + r10 + 31], 11
+	pinsrb	xmm0, byte ptr [rsi + r15 + 20], 12
+	pinsrb	xmm8, byte ptr [rsi + r15 + 21], 12
+	pinsrb	xmm10, byte ptr [rsi + r15 + 22], 12
+	pinsrb	xmm5, byte ptr [rsi + r15 + 23], 12
+	pinsrb	xmm9, byte ptr [rsi + r15 + 25], 12
+	pinsrb	xmm12, byte ptr [rsi + r15 + 26], 12
+	pinsrb	xmm2, byte ptr [rsi + r15 + 27], 12
+	pinsrb	xmm6, byte ptr [rsi + r15 + 28], 12
+	pinsrb	xmm3, byte ptr [rsi + r15 + 29], 12
+	pinsrb	xmm4, byte ptr [rsi + r15 + 30], 12
+	pinsrb	xmm15, byte ptr [rsi + r15 + 31], 12
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rax + 20], 13
+	pinsrb	xmm8, byte ptr [rsi + rax + 21], 13
+	pinsrb	xmm10, byte ptr [rsi + rax + 22], 13
+	pinsrb	xmm5, byte ptr [rsi + rax + 23], 13
+	pinsrb	xmm9, byte ptr [rsi + rax + 25], 13
+	pinsrb	xmm12, byte ptr [rsi + rax + 26], 13
+	pinsrb	xmm2, byte ptr [rsi + rax + 27], 13
+	pinsrb	xmm6, byte ptr [rsi + rax + 28], 13
+	pinsrb	xmm3, byte ptr [rsi + rax + 29], 13
+	pinsrb	xmm4, byte ptr [rsi + rax + 30], 13
+	pinsrb	xmm15, byte ptr [rsi + rax + 31], 13
+	pinsrb	xmm0, byte ptr [rsi + r8 + 20], 14
+	pinsrb	xmm8, byte ptr [rsi + r8 + 21], 14
+	pinsrb	xmm10, byte ptr [rsi + r8 + 22], 14
+	pinsrb	xmm5, byte ptr [rsi + r8 + 23], 14
+	pinsrb	xmm9, byte ptr [rsi + r8 + 25], 14
+	pinsrb	xmm12, byte ptr [rsi + r8 + 26], 14
+	pinsrb	xmm2, byte ptr [rsi + r8 + 27], 14
+	pinsrb	xmm6, byte ptr [rsi + r8 + 28], 14
+	pinsrb	xmm3, byte ptr [rsi + r8 + 29], 14
+	pinsrb	xmm4, byte ptr [rsi + r8 + 30], 14
+	pinsrb	xmm15, byte ptr [rsi + r8 + 31], 14
+	pinsrb	xmm0, byte ptr [rsi + r12 + 20], 15
+	pinsrb	xmm8, byte ptr [rsi + r12 + 21], 15
+	pinsrb	xmm10, byte ptr [rsi + r12 + 22], 15
+	pinsrb	xmm5, byte ptr [rsi + r12 + 23], 15
+	pinsrb	xmm9, byte ptr [rsi + r12 + 25], 15
+	pinsrb	xmm12, byte ptr [rsi + r12 + 26], 15
+	movdqa	xmm1, xmm7
+	pcmpgtb	xmm1, xmm0
+	pinsrb	xmm2, byte ptr [rsi + r12 + 27], 15
+	pandn	xmm1, xmmword ptr [rip + .LCPI10_19]
+	por	xmm1, xmm13
+	pcmpeqd	xmm13, xmm13
+	psubb	xmm11, xmm13
+	por	xmm1, xmm11
+	movdqa	xmm0, xmm7
+	pcmpgtb	xmm0, xmm8
+	movdqa	xmm8, xmm7
+	pcmpgtb	xmm7, xmm10
+	movdqa	xmm10, xmmword ptr [rip + .LCPI10_20] # xmm10 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm0, xmm10
+	movdqa	xmm11, xmmword ptr [rip + .LCPI10_21] # xmm11 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm7, xmm11
+	por	xmm7, xmm0
+	movdqa	xmm0, xmm8
+	pcmpgtb	xmm0, xmm5
+	pinsrb	xmm6, byte ptr [rsi + r12 + 28], 15
+	movdqa	xmm5, xmmword ptr [rip + .LCPI10_6] # xmm5 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pandn	xmm0, xmm5
+	por	xmm0, xmm7
+	pinsrb	xmm3, byte ptr [rsi + r12 + 29], 15
+	por	xmm0, xmm1
+	movdqa	xmm1, xmm8
+	pcmpgtb	xmm1, xmm9
+	pandn	xmm1, xmmword ptr [rip + .LCPI10_16]
+	paddb	xmm1, xmmword ptr [rsp + 256]   # 16-byte Folded Reload
+	movdqa	xmm5, xmm8
+	pcmpgtb	xmm5, xmm12
+	movdqa	xmm7, xmm8
+	pcmpgtb	xmm7, xmm2
+	pandn	xmm5, xmmword ptr [rip + .LCPI10_17]
+	pandn	xmm7, xmmword ptr [rip + .LCPI10_18]
+	por	xmm7, xmm5
+	movdqa	xmm2, xmm8
+	pcmpgtb	xmm2, xmm6
+	pinsrb	xmm4, byte ptr [rsi + r12 + 30], 15
+	pandn	xmm2, xmmword ptr [rip + .LCPI10_19]
+	por	xmm2, xmm7
+	psubb	xmm1, xmm13
+	por	xmm2, xmm1
+	movdqa	xmm1, xmm8
+	pcmpgtb	xmm1, xmm3
+	movdqa	xmm3, xmm8
+	pcmpgtb	xmm3, xmm4
+	pinsrb	xmm15, byte ptr [rsi + r12 + 31], 15
+	pandn	xmm1, xmm10
+	pandn	xmm3, xmm11
+	por	xmm3, xmm1
+	movdqa	xmm1, xmm8
+	pcmpgtb	xmm1, xmm15
+	pandn	xmm1, xmmword ptr [rip + .LCPI10_6]
+	por	xmm1, xmm3
+	por	xmm1, xmm2
+	movdqa	xmm2, xmm0
+	punpcklbw	xmm2, xmm1              # xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
+	movdqa	xmm5, xmmword ptr [rsp + 144]   # 16-byte Reload
+	movdqa	xmm3, xmm5
+	punpcklbw	xmm3, xmm14             # xmm3 = xmm3[0],xmm14[0],xmm3[1],xmm14[1],xmm3[2],xmm14[2],xmm3[3],xmm14[3],xmm3[4],xmm14[4],xmm3[5],xmm14[5],xmm3[6],xmm14[6],xmm3[7],xmm14[7]
+	movdqa	xmm4, xmm3
+	punpcklwd	xmm4, xmm2              # xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3]
+	punpckhwd	xmm3, xmm2              # xmm3 = xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
+	punpckhbw	xmm0, xmm1              # xmm0 = xmm0[8],xmm1[8],xmm0[9],xmm1[9],xmm0[10],xmm1[10],xmm0[11],xmm1[11],xmm0[12],xmm1[12],xmm0[13],xmm1[13],xmm0[14],xmm1[14],xmm0[15],xmm1[15]
+	punpckhbw	xmm5, xmm14             # xmm5 = xmm5[8],xmm14[8],xmm5[9],xmm14[9],xmm5[10],xmm14[10],xmm5[11],xmm14[11],xmm5[12],xmm14[12],xmm5[13],xmm14[13],xmm5[14],xmm14[14],xmm5[15],xmm14[15]
+	movdqa	xmm1, xmm5
+	punpcklwd	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
+	punpckhwd	xmm5, xmm0              # xmm5 = xmm5[4],xmm0[4],xmm5[5],xmm0[5],xmm5[6],xmm0[6],xmm5[7],xmm0[7]
+	mov	rcx, qword ptr [rsp + 288]      # 8-byte Reload
+	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm5
+	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm1
+	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm3
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm4
+	add	rcx, 16
+	mov	r8, rcx
+	cmp	rcx, qword ptr [rsp + 160]      # 8-byte Folded Reload
+	jne	.LBB10_192
+# %bb.193:
+	mov	r15, qword ptr [rsp + 432]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 160]      # 8-byte Folded Reload
+	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
+	mov	rsi, qword ptr [rsp + 368]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	jne	.LBB10_42
+	jmp	.LBB10_128
+.LBB10_194:
+	and	r15, -16
+	mov	rax, r15
+	shl	rax, 5
+	add	rax, rsi
+	mov	qword ptr [rsp + 392], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 416], r15      # 8-byte Spill
+	lea	rax, [r14 + 4*r15]
+	mov	qword ptr [rsp + 208], rax      # 8-byte Spill
+	movzx	eax, r11b
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 400], xmm1   # 16-byte Spill
+	xor	edx, edx
+	mov	qword ptr [rsp + 352], r14      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB10_195:                             # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 336], rdx      # 8-byte Spill
+	shl	rdx, 5
+	mov	rbx, rdx
+	mov	r11, rdx
+	mov	r12, rdx
+	mov	qword ptr [rsp + 144], rdx      # 8-byte Spill
+	mov	r8, rdx
+	mov	r13, rdx
+	mov	r9, rdx
+	mov	r10, rdx
+	mov	r14, rdx
+	mov	rdi, rdx
+	mov	r15, rdx
+	movzx	ecx, byte ptr [rsi + rdx]
+	movd	xmm0, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 1]
+	movd	xmm11, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 2]
+	movd	xmm14, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 3]
+	movd	xmm5, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 4]
+	movd	xmm3, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 5]
+	movd	xmm1, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 6]
+	movd	xmm4, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 7]
+	movd	xmm2, ecx
+	movdqa	xmmword ptr [rsp + 368], xmm2   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + rdx + 8]
+	movd	xmm13, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 9]
+	movd	xmm2, ecx
+	movdqa	xmmword ptr [rsp + 160], xmm2   # 16-byte Spill
+	movzx	ecx, byte ptr [rsi + rdx + 10]
+	movd	xmm8, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 11]
+	movd	xmm10, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 12]
+	movd	xmm6, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 16]
+	movd	xmm12, ecx
+	movzx	ecx, byte ptr [rsi + rdx + 24]
+	movd	xmm2, ecx
+	mov	qword ptr [rsp + 128], rdx      # 8-byte Spill
+	mov	rax, rdx
+	or	rax, 32
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	or	rbx, 64
+	or	r11, 96
+	mov	qword ptr [rsp + 288], r11      # 8-byte Spill
+	or	r12, 128
+	mov	qword ptr [rsp + 96], r12       # 8-byte Spill
+	or	qword ptr [rsp + 144], 160      # 8-byte Folded Spill
+	or	r8, 192
+	or	r13, 224
+	mov	qword ptr [rsp + 304], r13      # 8-byte Spill
+	or	r9, 256
+	or	r10, 288
+	mov	qword ptr [rsp + 272], r10      # 8-byte Spill
+	or	r14, 320
+	or	rdi, 352
+	mov	qword ptr [rsp + 80], rdi       # 8-byte Spill
+	or	r15, 384
+	mov	rax, rdx
+	or	rax, 416
+	mov	rcx, rdx
+	mov	qword ptr [rsp + 16], rdx       # 8-byte Spill
+	or	qword ptr [rsp + 16], 448       # 8-byte Folded Spill
+	or	rdx, 480
+	mov	qword ptr [rsp + 48], rdx       # 8-byte Spill
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rcx], 1
+	pinsrb	xmm0, byte ptr [rsi + rbx], 2
+	pinsrb	xmm0, byte ptr [rsi + r11], 3
+	pinsrb	xmm0, byte ptr [rsi + r12], 4
+	mov	r11, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r11], 5
+	mov	rdx, r8
+	pinsrb	xmm0, byte ptr [rsi + r8], 6
+	pinsrb	xmm0, byte ptr [rsi + r13], 7
+	pinsrb	xmm0, byte ptr [rsi + r9], 8
+	mov	r8, r9
+	mov	qword ptr [rsp + 224], r9       # 8-byte Spill
+	pinsrb	xmm0, byte ptr [rsi + r10], 9
+	mov	r9, r14
+	pinsrb	xmm0, byte ptr [rsi + r14], 10
+	pinsrb	xmm0, byte ptr [rsi + rdi], 11
+	pinsrb	xmm0, byte ptr [rsi + r15], 12
+	pinsrb	xmm0, byte ptr [rsi + rax], 13
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rcx], 14
+	mov	rcx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rcx], 15
+	movdqa	xmm9, xmm0
+	movdqa	xmm7, xmmword ptr [rsp + 400]   # 16-byte Reload
+	pmaxub	xmm9, xmm7
+	movdqa	xmm15, xmm7
+	pcmpeqb	xmm9, xmm0
+	movdqa	xmm0, xmm9
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rcx + 1], 1
+	pinsrb	xmm11, byte ptr [rsi + rbx + 1], 2
+	mov	r14, qword ptr [rsp + 288]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r14 + 1], 3
+	pinsrb	xmm11, byte ptr [rsi + r12 + 1], 4
+	pinsrb	xmm11, byte ptr [rsi + r11 + 1], 5
+	pinsrb	xmm11, byte ptr [rsi + rdx + 1], 6
+	pinsrb	xmm11, byte ptr [rsi + r13 + 1], 7
+	pinsrb	xmm11, byte ptr [rsi + r8 + 1], 8
+	pinsrb	xmm11, byte ptr [rsi + r10 + 1], 9
+	pinsrb	xmm11, byte ptr [rsi + r9 + 1], 10
+	pinsrb	xmm11, byte ptr [rsi + rdi + 1], 11
+	pinsrb	xmm11, byte ptr [rsi + r15 + 1], 12
+	pinsrb	xmm11, byte ptr [rsi + rax + 1], 13
+	mov	r8, qword ptr [rsp + 16]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r8 + 1], 14
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + r8 + 1], 15
+	pinsrb	xmm13, byte ptr [rsi + rcx + 8], 1
+	pinsrb	xmm13, byte ptr [rsi + rbx + 8], 2
+	pinsrb	xmm13, byte ptr [rsi + r14 + 8], 3
+	pinsrb	xmm13, byte ptr [rsi + r12 + 8], 4
+	pinsrb	xmm13, byte ptr [rsi + r11 + 8], 5
+	pinsrb	xmm13, byte ptr [rsi + rdx + 8], 6
+	pinsrb	xmm13, byte ptr [rsi + r13 + 8], 7
+	mov	r13, qword ptr [rsp + 224]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + r13 + 8], 8
+	pinsrb	xmm13, byte ptr [rsi + r10 + 8], 9
+	pinsrb	xmm13, byte ptr [rsi + r9 + 8], 10
+	pinsrb	xmm13, byte ptr [rsi + rdi + 8], 11
+	pinsrb	xmm13, byte ptr [rsi + r15 + 8], 12
+	pinsrb	xmm13, byte ptr [rsi + rax + 8], 13
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rsi + rcx + 8], 14
+	pinsrb	xmm13, byte ptr [rsi + r8 + 8], 15
+	movdqa	xmm9, xmm13
+	pmaxub	xmm9, xmm7
+	pcmpeqb	xmm9, xmm13
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rdi + 16], 1
+	pinsrb	xmm12, byte ptr [rsi + rbx + 16], 2
+	mov	r10, rbx
+	pinsrb	xmm12, byte ptr [rsi + r14 + 16], 3
+	pinsrb	xmm12, byte ptr [rsi + r12 + 16], 4
+	pinsrb	xmm12, byte ptr [rsi + r11 + 16], 5
+	pinsrb	xmm12, byte ptr [rsi + rdx + 16], 6
+	mov	rcx, rdx
+	mov	qword ptr [rsp + 240], rdx      # 8-byte Spill
+	mov	r11, qword ptr [rsp + 304]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + r11 + 16], 7
+	pinsrb	xmm12, byte ptr [rsi + r13 + 16], 8
+	mov	r8, r13
+	mov	r13, qword ptr [rsp + 272]      # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + r13 + 16], 9
+	pinsrb	xmm12, byte ptr [rsi + r9 + 16], 10
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rdx + 16], 11
+	pinsrb	xmm12, byte ptr [rsi + r15 + 16], 12
+	pinsrb	xmm12, byte ptr [rsi + rax + 16], 13
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + rbx + 16], 14
+	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rsi + r12 + 16], 15
+	movdqa	xmm7, xmm12
+	pmaxub	xmm7, xmm15
+	pcmpeqb	xmm7, xmm12
+	movdqa	xmmword ptr [rsp + 432], xmm7   # 16-byte Spill
+	pinsrb	xmm2, byte ptr [rsi + rdi + 24], 1
+	pinsrb	xmm2, byte ptr [rsi + r10 + 24], 2
+	pinsrb	xmm2, byte ptr [rsi + r14 + 24], 3
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rdi + 24], 4
+	mov	r14, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + r14 + 24], 5
+	pinsrb	xmm2, byte ptr [rsi + rcx + 24], 6
+	pinsrb	xmm2, byte ptr [rsi + r11 + 24], 7
+	pinsrb	xmm2, byte ptr [rsi + r8 + 24], 8
+	pinsrb	xmm2, byte ptr [rsi + r13 + 24], 9
+	pinsrb	xmm2, byte ptr [rsi + r9 + 24], 10
+	pinsrb	xmm2, byte ptr [rsi + rdx + 24], 11
+	pinsrb	xmm2, byte ptr [rsi + r15 + 24], 12
+	pinsrb	xmm2, byte ptr [rsi + rax + 24], 13
+	pinsrb	xmm2, byte ptr [rsi + rbx + 24], 14
+	pinsrb	xmm2, byte ptr [rsi + r12 + 24], 15
+	movdqa	xmm7, xmm2
+	pmaxub	xmm7, xmm15
+	pcmpeqb	xmm7, xmm2
+	movdqa	xmmword ptr [rsp + 320], xmm7   # 16-byte Spill
+	movdqa	xmm12, xmm11
+	movdqa	xmm13, xmm15
+	pmaxub	xmm12, xmm15
+	pcmpeqb	xmm12, xmm11
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rdx + 13]
+	movd	xmm15, edx
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rcx + 2], 1
+	mov	rbx, r10
+	pinsrb	xmm14, byte ptr [rsi + r10 + 2], 2
+	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r10 + 2], 3
+	mov	rdx, rdi
+	pinsrb	xmm14, byte ptr [rsi + rdi + 2], 4
+	mov	rcx, r14
+	pinsrb	xmm14, byte ptr [rsi + r14 + 2], 5
+	mov	rdi, qword ptr [rsp + 240]      # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rdi + 2], 6
+	pinsrb	xmm14, byte ptr [rsi + r11 + 2], 7
+	pinsrb	xmm14, byte ptr [rsi + r8 + 2], 8
+	pinsrb	xmm14, byte ptr [rsi + r13 + 2], 9
+	pinsrb	xmm14, byte ptr [rsi + r9 + 2], 10
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r14 + 2], 11
+	pinsrb	xmm14, byte ptr [rsi + r15 + 2], 12
+	mov	qword ptr [rsp + 112], rax      # 8-byte Spill
+	pinsrb	xmm14, byte ptr [rsi + rax + 2], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rax + 2], 14
+	pinsrb	xmm14, byte ptr [rsi + r12 + 2], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 3], 1
+	pinsrb	xmm5, byte ptr [rsi + rbx + 3], 2
+	pinsrb	xmm5, byte ptr [rsi + r10 + 3], 3
+	pinsrb	xmm5, byte ptr [rsi + rdx + 3], 4
+	mov	rax, rdx
+	pinsrb	xmm5, byte ptr [rsi + rcx + 3], 5
+	pinsrb	xmm5, byte ptr [rsi + rdi + 3], 6
+	pinsrb	xmm5, byte ptr [rsi + r11 + 3], 7
+	pinsrb	xmm5, byte ptr [rsi + r8 + 3], 8
+	pinsrb	xmm5, byte ptr [rsi + r13 + 3], 9
+	pinsrb	xmm5, byte ptr [rsi + r9 + 3], 10
+	pinsrb	xmm5, byte ptr [rsi + r14 + 3], 11
+	pinsrb	xmm5, byte ptr [rsi + r15 + 3], 12
+	mov	r14, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r14 + 3], 13
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rdx + 3], 14
+	pinsrb	xmm5, byte ptr [rsi + r12 + 3], 15
+	movdqa	xmm2, xmmword ptr [rip + .LCPI10_16] # xmm2 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	pand	xmm12, xmm2
+	psubb	xmm12, xmm0
+	movdqa	xmm11, xmm14
+	pmaxub	xmm11, xmm13
+	pcmpeqb	xmm11, xmm14
+	movdqa	xmm2, xmm5
+	pmaxub	xmm2, xmm13
+	pcmpeqb	xmm2, xmm5
+	mov	rdx, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rdx + 14]
+	movd	xmm14, edx
+	mov	r12, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r12 + 4], 1
+	pinsrb	xmm3, byte ptr [rsi + rbx + 4], 2
+	pinsrb	xmm3, byte ptr [rsi + r10 + 4], 3
+	pinsrb	xmm3, byte ptr [rsi + rax + 4], 4
+	pinsrb	xmm3, byte ptr [rsi + rcx + 4], 5
+	pinsrb	xmm3, byte ptr [rsi + rdi + 4], 6
+	pinsrb	xmm3, byte ptr [rsi + r11 + 4], 7
+	pinsrb	xmm3, byte ptr [rsi + r8 + 4], 8
+	pinsrb	xmm3, byte ptr [rsi + r13 + 4], 9
+	pinsrb	xmm3, byte ptr [rsi + r9 + 4], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rax + 4], 11
+	mov	qword ptr [rsp + 192], r15      # 8-byte Spill
+	pinsrb	xmm3, byte ptr [rsi + r15 + 4], 12
+	pinsrb	xmm3, byte ptr [rsi + r14 + 4], 13
+	mov	rdx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdx + 4], 14
+	mov	r14, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r14 + 4], 15
+	pinsrb	xmm1, byte ptr [rsi + r12 + 5], 1
+	pinsrb	xmm1, byte ptr [rsi + rbx + 5], 2
+	pinsrb	xmm1, byte ptr [rsi + r10 + 5], 3
+	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + r12 + 5], 4
+	pinsrb	xmm1, byte ptr [rsi + rcx + 5], 5
+	pinsrb	xmm1, byte ptr [rsi + rdi + 5], 6
+	pinsrb	xmm1, byte ptr [rsi + r11 + 5], 7
+	pinsrb	xmm1, byte ptr [rsi + r8 + 5], 8
+	pinsrb	xmm1, byte ptr [rsi + r13 + 5], 9
+	pinsrb	xmm1, byte ptr [rsi + r9 + 5], 10
+	pinsrb	xmm1, byte ptr [rsi + rax + 5], 11
+	pinsrb	xmm1, byte ptr [rsi + r15 + 5], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rsi + rax + 5], 13
+	pinsrb	xmm1, byte ptr [rsi + rdx + 5], 14
+	movdqa	xmm5, xmmword ptr [rip + .LCPI10_17] # xmm5 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pand	xmm11, xmm5
+	movdqa	xmm5, xmmword ptr [rip + .LCPI10_18] # xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pand	xmm2, xmm5
+	por	xmm2, xmm11
+	mov	r15, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsi + r15 + 15]
+	movd	xmm11, edx
+	pinsrb	xmm1, byte ptr [rsi + r14 + 5], 15
+	por	xmm2, xmm12
+	movdqa	xmm12, xmm3
+	pmaxub	xmm12, xmm13
+	pcmpeqb	xmm12, xmm3
+	movdqa	xmm5, xmm1
+	pmaxub	xmm5, xmm13
+	pcmpeqb	xmm5, xmm1
+	movzx	edx, byte ptr [rsi + r15 + 17]
+	movd	xmm0, edx
+	mov	rdx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdx + 6], 1
+	mov	qword ptr [rsp + 176], rbx      # 8-byte Spill
+	pinsrb	xmm4, byte ptr [rsi + rbx + 6], 2
+	pinsrb	xmm4, byte ptr [rsi + r10 + 6], 3
+	pinsrb	xmm4, byte ptr [rsi + r12 + 6], 4
+	pinsrb	xmm4, byte ptr [rsi + rcx + 6], 5
+	pinsrb	xmm4, byte ptr [rsi + rdi + 6], 6
+	pinsrb	xmm4, byte ptr [rsi + r11 + 6], 7
+	pinsrb	xmm4, byte ptr [rsi + r8 + 6], 8
+	pinsrb	xmm4, byte ptr [rsi + r13 + 6], 9
+	mov	qword ptr [rsp + 256], r9       # 8-byte Spill
+	pinsrb	xmm4, byte ptr [rsi + r9 + 6], 10
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r12 + 6], 11
+	mov	r14, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r14 + 6], 12
+	pinsrb	xmm4, byte ptr [rsi + rax + 6], 13
+	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r15 + 6], 14
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r15 + 6], 15
+	movdqa	xmm3, xmmword ptr [rsp + 368]   # 16-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdx + 7], 1
+	pinsrb	xmm3, byte ptr [rsi + rbx + 7], 2
+	pinsrb	xmm3, byte ptr [rsi + r10 + 7], 3
+	mov	rbx, r10
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdx + 7], 4
+	pinsrb	xmm3, byte ptr [rsi + rcx + 7], 5
+	pinsrb	xmm3, byte ptr [rsi + rdi + 7], 6
+	pinsrb	xmm3, byte ptr [rsi + r11 + 7], 7
+	pinsrb	xmm3, byte ptr [rsi + r8 + 7], 8
+	pinsrb	xmm3, byte ptr [rsi + r13 + 7], 9
+	pinsrb	xmm3, byte ptr [rsi + r9 + 7], 10
+	pinsrb	xmm3, byte ptr [rsi + r12 + 7], 11
+	pinsrb	xmm3, byte ptr [rsi + r14 + 7], 12
+	pinsrb	xmm3, byte ptr [rsi + rax + 7], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdi + 7], 14
+	mov	rcx, r15
+	pinsrb	xmm3, byte ptr [rsi + r15 + 7], 15
+	movdqa	xmm1, xmmword ptr [rip + .LCPI10_19] # xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pand	xmm12, xmm1
+	movdqa	xmm1, xmmword ptr [rip + .LCPI10_20] # xmm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm5, xmm1
+	por	xmm5, xmm12
+	movdqa	xmm1, xmm4
+	pmaxub	xmm1, xmm13
+	pcmpeqb	xmm1, xmm4
+	mov	r8, qword ptr [rsp + 128]       # 8-byte Reload
+	movzx	edx, byte ptr [rsi + r8 + 18]
+	movd	xmm4, edx
+	movdqa	xmm7, xmmword ptr [rip + .LCPI10_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm1, xmm7
+	por	xmm1, xmm5
+	movzx	edx, byte ptr [rsi + r8 + 19]
+	movd	xmm5, edx
+	por	xmm1, xmm2
+	movdqa	xmm2, xmm3
+	pmaxub	xmm2, xmm13
+	pcmpeqb	xmm2, xmm3
+	movdqa	xmm12, xmm2
+	movzx	edx, byte ptr [rsi + r8 + 20]
+	movd	xmm2, edx
+	movdqa	xmm3, xmmword ptr [rsp + 160]   # 16-byte Reload
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r14 + 9], 1
+	mov	r10, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r10 + 9], 2
+	pinsrb	xmm3, byte ptr [rsi + rbx + 9], 3
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rax + 9], 4
+	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r9 + 9], 5
+	mov	r11, qword ptr [rsp + 240]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r11 + 9], 6
+	mov	rbx, qword ptr [rsp + 304]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rbx + 9], 7
+	mov	r15, qword ptr [rsp + 224]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r15 + 9], 8
+	pinsrb	xmm3, byte ptr [rsi + r13 + 9], 9
+	mov	r12, qword ptr [rsp + 256]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r12 + 9], 10
+	mov	rdx, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdx + 9], 11
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdx + 9], 12
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + rdx + 9], 13
+	pinsrb	xmm3, byte ptr [rsi + rdi + 9], 14
+	pinsrb	xmm3, byte ptr [rsi + rcx + 9], 15
+	movdqa	xmm7, xmmword ptr [rip + .LCPI10_6] # xmm7 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm12, xmm7
+	por	xmm12, xmm1
+	movdqa	xmmword ptr [rsp + 160], xmm12  # 16-byte Spill
+	movdqa	xmm7, xmm3
+	pmaxub	xmm7, xmm13
+	pcmpeqb	xmm7, xmm3
+	movzx	edx, byte ptr [rsi + r8 + 21]
+	movd	xmm3, edx
+	pinsrb	xmm8, byte ptr [rsi + r14 + 10], 1
+	mov	r14, r10
+	pinsrb	xmm8, byte ptr [rsi + r10 + 10], 2
+	mov	r10, qword ptr [rsp + 288]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r10 + 10], 3
+	pinsrb	xmm8, byte ptr [rsi + rax + 10], 4
+	mov	rcx, r9
+	pinsrb	xmm8, byte ptr [rsi + r9 + 10], 5
+	mov	rdi, r11
+	pinsrb	xmm8, byte ptr [rsi + r11 + 10], 6
+	mov	r11, rbx
+	pinsrb	xmm8, byte ptr [rsi + rbx + 10], 7
+	mov	r8, r15
+	pinsrb	xmm8, byte ptr [rsi + r15 + 10], 8
+	pinsrb	xmm8, byte ptr [rsi + r13 + 10], 9
+	mov	r9, r12
+	pinsrb	xmm8, byte ptr [rsi + r12 + 10], 10
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r12 + 10], 11
+	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + r15 + 10], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rax + 10], 13
+	mov	rbx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rbx + 10], 14
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rsi + rdx + 10], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rax + 11], 1
+	pinsrb	xmm10, byte ptr [rsi + r14 + 11], 2
+	pinsrb	xmm10, byte ptr [rsi + r10 + 11], 3
+	mov	r14, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + r14 + 11], 4
+	pinsrb	xmm10, byte ptr [rsi + rcx + 11], 5
+	pinsrb	xmm10, byte ptr [rsi + rdi + 11], 6
+	pinsrb	xmm10, byte ptr [rsi + r11 + 11], 7
+	pinsrb	xmm10, byte ptr [rsi + r8 + 11], 8
+	pinsrb	xmm10, byte ptr [rsi + r13 + 11], 9
+	pinsrb	xmm10, byte ptr [rsi + r9 + 11], 10
+	pinsrb	xmm10, byte ptr [rsi + r12 + 11], 11
+	pinsrb	xmm10, byte ptr [rsi + r15 + 11], 12
+	mov	rax, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rax + 11], 13
+	pinsrb	xmm10, byte ptr [rsi + rbx + 11], 14
+	pinsrb	xmm10, byte ptr [rsi + rdx + 11], 15
+	pand	xmm7, xmmword ptr [rip + .LCPI10_16]
+	psubb	xmm7, xmm9
+	movdqa	xmm1, xmm8
+	pmaxub	xmm1, xmm13
+	pcmpeqb	xmm1, xmm8
+	movdqa	xmm9, xmm10
+	pmaxub	xmm9, xmm13
+	pcmpeqb	xmm9, xmm10
+	mov	rax, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rax + 22]
+	movd	xmm10, edx
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rax + 12], 1
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r12 + 12], 2
+	pinsrb	xmm6, byte ptr [rsi + r10 + 12], 3
+	mov	rdx, r14
+	pinsrb	xmm6, byte ptr [rsi + r14 + 12], 4
+	pinsrb	xmm6, byte ptr [rsi + rcx + 12], 5
+	pinsrb	xmm6, byte ptr [rsi + rdi + 12], 6
+	pinsrb	xmm6, byte ptr [rsi + r11 + 12], 7
+	pinsrb	xmm6, byte ptr [rsi + r8 + 12], 8
+	pinsrb	xmm6, byte ptr [rsi + r13 + 12], 9
+	pinsrb	xmm6, byte ptr [rsi + r9 + 12], 10
+	mov	r14, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + r14 + 12], 11
+	pinsrb	xmm6, byte ptr [rsi + r15 + 12], 12
+	mov	rbx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rbx + 12], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rax + 12], 14
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rsi + rax + 12], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rax + 13], 1
+	pinsrb	xmm15, byte ptr [rsi + r12 + 13], 2
+	pinsrb	xmm15, byte ptr [rsi + r10 + 13], 3
+	pinsrb	xmm15, byte ptr [rsi + rdx + 13], 4
+	pinsrb	xmm15, byte ptr [rsi + rcx + 13], 5
+	pinsrb	xmm15, byte ptr [rsi + rdi + 13], 6
+	pinsrb	xmm15, byte ptr [rsi + r11 + 13], 7
+	pinsrb	xmm15, byte ptr [rsi + r8 + 13], 8
+	pinsrb	xmm15, byte ptr [rsi + r13 + 13], 9
+	pinsrb	xmm15, byte ptr [rsi + r9 + 13], 10
+	pinsrb	xmm15, byte ptr [rsi + r14 + 13], 11
+	pinsrb	xmm15, byte ptr [rsi + r15 + 13], 12
+	mov	rax, r15
+	pinsrb	xmm15, byte ptr [rsi + rbx + 13], 13
+	mov	r15, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + r15 + 13], 14
+	pand	xmm1, xmmword ptr [rip + .LCPI10_17]
+	pand	xmm9, xmmword ptr [rip + .LCPI10_18]
+	por	xmm9, xmm1
+	mov	rbx, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rbx + 23]
+	movd	xmm8, edx
+	mov	rdx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rsi + rdx + 13], 15
+	por	xmm9, xmm7
+	movdqa	xmm1, xmm6
+	pmaxub	xmm1, xmm13
+	pcmpeqb	xmm1, xmm6
+	movdqa	xmm7, xmm15
+	pmaxub	xmm7, xmm13
+	pcmpeqb	xmm7, xmm15
+	movzx	edx, byte ptr [rsi + rbx + 25]
+	movd	xmm15, edx
+	mov	rbx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + rbx + 14], 1
+	pinsrb	xmm14, byte ptr [rsi + r12 + 14], 2
+	pinsrb	xmm14, byte ptr [rsi + r10 + 14], 3
+	mov	r12, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r12 + 14], 4
+	pinsrb	xmm14, byte ptr [rsi + rcx + 14], 5
+	pinsrb	xmm14, byte ptr [rsi + rdi + 14], 6
+	pinsrb	xmm14, byte ptr [rsi + r11 + 14], 7
+	pinsrb	xmm14, byte ptr [rsi + r8 + 14], 8
+	mov	rdx, r13
+	pinsrb	xmm14, byte ptr [rsi + r13 + 14], 9
+	pinsrb	xmm14, byte ptr [rsi + r9 + 14], 10
+	pinsrb	xmm14, byte ptr [rsi + r14 + 14], 11
+	pinsrb	xmm14, byte ptr [rsi + rax + 14], 12
+	mov	r13, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r13 + 14], 13
+	pinsrb	xmm14, byte ptr [rsi + r15 + 14], 14
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rsi + r15 + 14], 15
+	pinsrb	xmm11, byte ptr [rsi + rbx + 15], 1
+	mov	rbx, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rbx + 15], 2
+	pinsrb	xmm11, byte ptr [rsi + r10 + 15], 3
+	pinsrb	xmm11, byte ptr [rsi + r12 + 15], 4
+	pinsrb	xmm11, byte ptr [rsi + rcx + 15], 5
+	pinsrb	xmm11, byte ptr [rsi + rdi + 15], 6
+	pinsrb	xmm11, byte ptr [rsi + r11 + 15], 7
+	pinsrb	xmm11, byte ptr [rsi + r8 + 15], 8
+	pinsrb	xmm11, byte ptr [rsi + rdx + 15], 9
+	pinsrb	xmm11, byte ptr [rsi + r9 + 15], 10
+	pinsrb	xmm11, byte ptr [rsi + r14 + 15], 11
+	pinsrb	xmm11, byte ptr [rsi + rax + 15], 12
+	pinsrb	xmm11, byte ptr [rsi + r13 + 15], 13
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rsi + rdi + 15], 14
+	pinsrb	xmm11, byte ptr [rsi + r15 + 15], 15
+	mov	r12, r15
+	pand	xmm1, xmmword ptr [rip + .LCPI10_19]
+	pand	xmm7, xmmword ptr [rip + .LCPI10_20]
+	por	xmm7, xmm1
+	movdqa	xmm1, xmm14
+	pmaxub	xmm1, xmm13
+	pcmpeqb	xmm1, xmm14
+	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsi + r13 + 26]
+	movd	xmm6, edx
+	pand	xmm1, xmmword ptr [rip + .LCPI10_21]
+	por	xmm1, xmm7
+	movzx	edx, byte ptr [rsi + r13 + 27]
+	movd	xmm7, edx
+	por	xmm1, xmm9
+	movdqa	xmm14, xmm11
+	pmaxub	xmm14, xmm13
+	pcmpeqb	xmm14, xmm11
+	movzx	edx, byte ptr [rsi + r13 + 28]
+	movd	xmm9, edx
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rcx + 17], 1
+	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 2
+	pinsrb	xmm0, byte ptr [rsi + r10 + 17], 3
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rax + 17], 4
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r8 + 17], 5
+	mov	r9, qword ptr [rsp + 240]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r9 + 17], 6
+	pinsrb	xmm0, byte ptr [rsi + r11 + 17], 7
+	mov	rbx, qword ptr [rsp + 224]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rbx + 17], 8
+	mov	rdx, qword ptr [rsp + 272]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 9
+	mov	r14, qword ptr [rsp + 256]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r14 + 17], 10
+	mov	r15, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + r15 + 17], 11
+	mov	rdx, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 12
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rsi + rdx + 17], 13
+	pinsrb	xmm0, byte ptr [rsi + rdi + 17], 14
+	pinsrb	xmm0, byte ptr [rsi + r12 + 17], 15
+	pand	xmm14, xmmword ptr [rip + .LCPI10_6]
+	por	xmm14, xmm1
+	movdqa	xmm1, xmm0
+	movdqa	xmm12, xmm13
+	pmaxub	xmm1, xmm13
+	pcmpeqb	xmm1, xmm0
+	movzx	edx, byte ptr [rsi + r13 + 29]
+	movd	xmm0, edx
+	pinsrb	xmm4, byte ptr [rsi + rcx + 18], 1
+	mov	r12, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r12 + 18], 2
+	pinsrb	xmm4, byte ptr [rsi + r10 + 18], 3
+	pinsrb	xmm4, byte ptr [rsi + rax + 18], 4
+	mov	rcx, r8
+	pinsrb	xmm4, byte ptr [rsi + r8 + 18], 5
+	mov	rdi, r9
+	pinsrb	xmm4, byte ptr [rsi + r9 + 18], 6
+	pinsrb	xmm4, byte ptr [rsi + r11 + 18], 7
+	mov	r8, rbx
+	pinsrb	xmm4, byte ptr [rsi + rbx + 18], 8
+	mov	rbx, qword ptr [rsp + 272]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rbx + 18], 9
+	mov	r9, r14
+	pinsrb	xmm4, byte ptr [rsi + r14 + 18], 10
+	mov	r14, r15
+	pinsrb	xmm4, byte ptr [rsi + r15 + 18], 11
+	mov	r15, qword ptr [rsp + 192]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r15 + 18], 12
+	mov	rdx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rdx + 18], 13
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rax + 18], 14
+	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + r13 + 18], 15
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 19], 1
+	pinsrb	xmm5, byte ptr [rsi + r12 + 19], 2
+	pinsrb	xmm5, byte ptr [rsi + r10 + 19], 3
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + rax + 19], 4
+	pinsrb	xmm5, byte ptr [rsi + rcx + 19], 5
+	pinsrb	xmm5, byte ptr [rsi + rdi + 19], 6
+	pinsrb	xmm5, byte ptr [rsi + r11 + 19], 7
+	pinsrb	xmm5, byte ptr [rsi + r8 + 19], 8
+	pinsrb	xmm5, byte ptr [rsi + rbx + 19], 9
+	pinsrb	xmm5, byte ptr [rsi + r9 + 19], 10
+	pinsrb	xmm5, byte ptr [rsi + r14 + 19], 11
+	pinsrb	xmm5, byte ptr [rsi + r15 + 19], 12
+	pinsrb	xmm5, byte ptr [rsi + rdx + 19], 13
+	mov	rdi, rdx
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rsi + r12 + 19], 14
+	pinsrb	xmm5, byte ptr [rsi + r13 + 19], 15
+	pand	xmm1, xmmword ptr [rip + .LCPI10_16]
+	psubb	xmm1, xmmword ptr [rsp + 432]   # 16-byte Folded Reload
+	movdqa	xmm13, xmm4
+	pmaxub	xmm13, xmm12
+	pcmpeqb	xmm13, xmm4
+	movdqa	xmm11, xmm5
+	pmaxub	xmm11, xmm12
+	pcmpeqb	xmm11, xmm5
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	movzx	edx, byte ptr [rsi + rcx + 30]
+	movd	xmm4, edx
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rax + 20], 1
+	pinsrb	xmm3, byte ptr [rsi + rax + 21], 1
+	pinsrb	xmm10, byte ptr [rsi + rax + 22], 1
+	pinsrb	xmm8, byte ptr [rsi + rax + 23], 1
+	pinsrb	xmm15, byte ptr [rsi + rax + 25], 1
+	pinsrb	xmm6, byte ptr [rsi + rax + 26], 1
+	pinsrb	xmm7, byte ptr [rsi + rax + 27], 1
+	pinsrb	xmm9, byte ptr [rsi + rax + 28], 1
+	pinsrb	xmm0, byte ptr [rsi + rax + 29], 1
+	movzx	edx, byte ptr [rsi + rcx + 31]
+	pinsrb	xmm4, byte ptr [rsi + rax + 30], 1
+	movd	xmm5, edx
+	pinsrb	xmm5, byte ptr [rsi + rax + 31], 1
+	mov	rax, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rax + 20], 2
+	pinsrb	xmm3, byte ptr [rsi + rax + 21], 2
+	pinsrb	xmm10, byte ptr [rsi + rax + 22], 2
+	pinsrb	xmm8, byte ptr [rsi + rax + 23], 2
+	pinsrb	xmm15, byte ptr [rsi + rax + 25], 2
+	pinsrb	xmm6, byte ptr [rsi + rax + 26], 2
+	pinsrb	xmm7, byte ptr [rsi + rax + 27], 2
+	pinsrb	xmm9, byte ptr [rsi + rax + 28], 2
+	pinsrb	xmm0, byte ptr [rsi + rax + 29], 2
+	pinsrb	xmm4, byte ptr [rsi + rax + 30], 2
+	pinsrb	xmm5, byte ptr [rsi + rax + 31], 2
+	pinsrb	xmm2, byte ptr [rsi + r10 + 20], 3
+	mov	rdx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rdx + 20], 4
+	mov	rcx, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rcx + 20], 5
+	mov	rax, qword ptr [rsp + 240]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rsi + rax + 20], 6
+	pinsrb	xmm2, byte ptr [rsi + r11 + 20], 7
+	pinsrb	xmm2, byte ptr [rsi + r8 + 20], 8
+	pinsrb	xmm2, byte ptr [rsi + rbx + 20], 9
+	pinsrb	xmm2, byte ptr [rsi + r9 + 20], 10
+	pinsrb	xmm2, byte ptr [rsi + r14 + 20], 11
+	pinsrb	xmm2, byte ptr [rsi + r15 + 20], 12
+	pinsrb	xmm2, byte ptr [rsi + rdi + 20], 13
+	pinsrb	xmm2, byte ptr [rsi + r12 + 20], 14
+	pinsrb	xmm2, byte ptr [rsi + r13 + 20], 15
+	pinsrb	xmm3, byte ptr [rsi + r10 + 21], 3
+	mov	r9, r10
+	pinsrb	xmm3, byte ptr [rsi + rdx + 21], 4
+	pinsrb	xmm3, byte ptr [rsi + rcx + 21], 5
+	pinsrb	xmm3, byte ptr [rsi + rax + 21], 6
+	pinsrb	xmm3, byte ptr [rsi + r11 + 21], 7
+	pinsrb	xmm3, byte ptr [rsi + r8 + 21], 8
+	pinsrb	xmm3, byte ptr [rsi + rbx + 21], 9
+	mov	r8, qword ptr [rsp + 256]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rsi + r8 + 21], 10
+	pinsrb	xmm3, byte ptr [rsi + r14 + 21], 11
+	pinsrb	xmm3, byte ptr [rsi + r15 + 21], 12
+	mov	r10, rdi
+	pinsrb	xmm3, byte ptr [rsi + rdi + 21], 13
+	pinsrb	xmm3, byte ptr [rsi + r12 + 21], 14
+	pand	xmm13, xmmword ptr [rip + .LCPI10_17]
+	pand	xmm11, xmmword ptr [rip + .LCPI10_18]
+	por	xmm11, xmm13
+	pinsrb	xmm3, byte ptr [rsi + r13 + 21], 15
+	por	xmm11, xmm1
+	movdqa	xmm1, xmm2
+	pmaxub	xmm1, xmm12
+	pcmpeqb	xmm1, xmm2
+	movdqa	xmm2, xmm3
+	pmaxub	xmm2, xmm12
+	pcmpeqb	xmm2, xmm3
+	pinsrb	xmm10, byte ptr [rsi + r9 + 22], 3
+	pinsrb	xmm10, byte ptr [rsi + rdx + 22], 4
+	pinsrb	xmm10, byte ptr [rsi + rcx + 22], 5
+	pinsrb	xmm10, byte ptr [rsi + rax + 22], 6
+	pinsrb	xmm10, byte ptr [rsi + r11 + 22], 7
+	mov	rdi, qword ptr [rsp + 224]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rsi + rdi + 22], 8
+	pinsrb	xmm10, byte ptr [rsi + rbx + 22], 9
+	pinsrb	xmm10, byte ptr [rsi + r8 + 22], 10
+	pinsrb	xmm10, byte ptr [rsi + r14 + 22], 11
+	pinsrb	xmm10, byte ptr [rsi + r15 + 22], 12
+	pinsrb	xmm10, byte ptr [rsi + r10 + 22], 13
+	pinsrb	xmm10, byte ptr [rsi + r12 + 22], 14
+	pinsrb	xmm10, byte ptr [rsi + r13 + 22], 15
+	pinsrb	xmm8, byte ptr [rsi + r9 + 23], 3
+	pinsrb	xmm8, byte ptr [rsi + rdx + 23], 4
+	pinsrb	xmm8, byte ptr [rsi + rcx + 23], 5
+	pinsrb	xmm8, byte ptr [rsi + rax + 23], 6
+	pinsrb	xmm8, byte ptr [rsi + r11 + 23], 7
+	pinsrb	xmm8, byte ptr [rsi + rdi + 23], 8
+	pinsrb	xmm8, byte ptr [rsi + rbx + 23], 9
+	pinsrb	xmm8, byte ptr [rsi + r8 + 23], 10
+	pinsrb	xmm8, byte ptr [rsi + r14 + 23], 11
+	pinsrb	xmm8, byte ptr [rsi + r15 + 23], 12
+	pinsrb	xmm8, byte ptr [rsi + r10 + 23], 13
+	pand	xmm1, xmmword ptr [rip + .LCPI10_19]
+	pand	xmm2, xmmword ptr [rip + .LCPI10_20]
+	por	xmm2, xmm1
+	movdqa	xmm1, xmm10
+	pmaxub	xmm1, xmm12
+	pcmpeqb	xmm1, xmm10
+	pinsrb	xmm8, byte ptr [rsi + r12 + 23], 14
+	pand	xmm1, xmmword ptr [rip + .LCPI10_21]
+	por	xmm1, xmm2
+	pinsrb	xmm8, byte ptr [rsi + r13 + 23], 15
+	por	xmm1, xmm11
+	movdqa	xmm10, xmm8
+	pmaxub	xmm10, xmm12
+	pcmpeqb	xmm10, xmm8
+	pinsrb	xmm15, byte ptr [rsi + r9 + 25], 3
+	pinsrb	xmm15, byte ptr [rsi + rdx + 25], 4
+	pinsrb	xmm15, byte ptr [rsi + rcx + 25], 5
+	pinsrb	xmm15, byte ptr [rsi + rax + 25], 6
+	pinsrb	xmm15, byte ptr [rsi + r11 + 25], 7
+	pinsrb	xmm15, byte ptr [rsi + rdi + 25], 8
+	pinsrb	xmm15, byte ptr [rsi + rbx + 25], 9
+	pinsrb	xmm15, byte ptr [rsi + r8 + 25], 10
+	pinsrb	xmm15, byte ptr [rsi + r14 + 25], 11
+	pinsrb	xmm15, byte ptr [rsi + r15 + 25], 12
+	pinsrb	xmm15, byte ptr [rsi + r10 + 25], 13
+	pinsrb	xmm15, byte ptr [rsi + r12 + 25], 14
+	pinsrb	xmm15, byte ptr [rsi + r13 + 25], 15
+	movdqa	xmm11, xmmword ptr [rip + .LCPI10_6] # xmm11 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm10, xmm11
+	por	xmm10, xmm1
+	movdqa	xmm3, xmm15
+	pmaxub	xmm3, xmm12
+	pcmpeqb	xmm3, xmm15
+	pinsrb	xmm6, byte ptr [rsi + r9 + 26], 3
+	pinsrb	xmm6, byte ptr [rsi + rdx + 26], 4
+	pinsrb	xmm6, byte ptr [rsi + rcx + 26], 5
+	pinsrb	xmm6, byte ptr [rsi + rax + 26], 6
+	pinsrb	xmm6, byte ptr [rsi + r11 + 26], 7
+	pinsrb	xmm6, byte ptr [rsi + rdi + 26], 8
+	pinsrb	xmm6, byte ptr [rsi + rbx + 26], 9
+	pinsrb	xmm6, byte ptr [rsi + r8 + 26], 10
+	pinsrb	xmm6, byte ptr [rsi + r14 + 26], 11
+	pinsrb	xmm6, byte ptr [rsi + r15 + 26], 12
+	pinsrb	xmm6, byte ptr [rsi + r10 + 26], 13
+	pinsrb	xmm6, byte ptr [rsi + r12 + 26], 14
+	pinsrb	xmm6, byte ptr [rsi + r13 + 26], 15
+	pinsrb	xmm7, byte ptr [rsi + r9 + 27], 3
+	pinsrb	xmm7, byte ptr [rsi + rdx + 27], 4
+	pinsrb	xmm7, byte ptr [rsi + rcx + 27], 5
+	pinsrb	xmm7, byte ptr [rsi + rax + 27], 6
+	pinsrb	xmm7, byte ptr [rsi + r11 + 27], 7
+	pinsrb	xmm7, byte ptr [rsi + rdi + 27], 8
+	pinsrb	xmm7, byte ptr [rsi + rbx + 27], 9
+	pinsrb	xmm7, byte ptr [rsi + r8 + 27], 10
+	pinsrb	xmm7, byte ptr [rsi + r14 + 27], 11
+	pinsrb	xmm7, byte ptr [rsi + r15 + 27], 12
+	pinsrb	xmm7, byte ptr [rsi + r10 + 27], 13
+	pinsrb	xmm7, byte ptr [rsi + r12 + 27], 14
+	pinsrb	xmm7, byte ptr [rsi + r13 + 27], 15
+	pand	xmm3, xmmword ptr [rip + .LCPI10_16]
+	psubb	xmm3, xmmword ptr [rsp + 320]   # 16-byte Folded Reload
+	movdqa	xmm2, xmm6
+	pmaxub	xmm2, xmm12
+	pcmpeqb	xmm2, xmm6
+	movdqa	xmm1, xmm7
+	pmaxub	xmm1, xmm12
+	pcmpeqb	xmm1, xmm7
+	pinsrb	xmm9, byte ptr [rsi + r9 + 28], 3
+	pinsrb	xmm9, byte ptr [rsi + rdx + 28], 4
+	pinsrb	xmm9, byte ptr [rsi + rcx + 28], 5
+	pinsrb	xmm9, byte ptr [rsi + rax + 28], 6
+	pinsrb	xmm9, byte ptr [rsi + r11 + 28], 7
+	pinsrb	xmm9, byte ptr [rsi + rdi + 28], 8
+	pinsrb	xmm9, byte ptr [rsi + rbx + 28], 9
+	pinsrb	xmm9, byte ptr [rsi + r8 + 28], 10
+	pinsrb	xmm9, byte ptr [rsi + r14 + 28], 11
+	pinsrb	xmm9, byte ptr [rsi + r15 + 28], 12
+	pinsrb	xmm9, byte ptr [rsi + r10 + 28], 13
+	pinsrb	xmm9, byte ptr [rsi + r12 + 28], 14
+	pinsrb	xmm9, byte ptr [rsi + r13 + 28], 15
+	pinsrb	xmm0, byte ptr [rsi + r9 + 29], 3
+	pinsrb	xmm0, byte ptr [rsi + rdx + 29], 4
+	pinsrb	xmm0, byte ptr [rsi + rcx + 29], 5
+	pinsrb	xmm0, byte ptr [rsi + rax + 29], 6
+	pinsrb	xmm0, byte ptr [rsi + r11 + 29], 7
+	pinsrb	xmm0, byte ptr [rsi + rdi + 29], 8
+	pinsrb	xmm0, byte ptr [rsi + rbx + 29], 9
+	pinsrb	xmm0, byte ptr [rsi + r8 + 29], 10
+	pinsrb	xmm0, byte ptr [rsi + r14 + 29], 11
+	pinsrb	xmm0, byte ptr [rsi + r15 + 29], 12
+	pinsrb	xmm0, byte ptr [rsi + r10 + 29], 13
+	pinsrb	xmm0, byte ptr [rsi + r12 + 29], 14
+	pinsrb	xmm0, byte ptr [rsi + r13 + 29], 15
+	pand	xmm2, xmmword ptr [rip + .LCPI10_17]
+	pand	xmm1, xmmword ptr [rip + .LCPI10_18]
+	por	xmm1, xmm2
+	por	xmm1, xmm3
+	movdqa	xmm2, xmm9
+	pmaxub	xmm2, xmm12
+	pcmpeqb	xmm2, xmm9
+	movdqa	xmm3, xmm0
+	pmaxub	xmm3, xmm12
+	pcmpeqb	xmm3, xmm0
+	pinsrb	xmm4, byte ptr [rsi + r9 + 30], 3
+	pinsrb	xmm5, byte ptr [rsi + r9 + 31], 3
+	pinsrb	xmm4, byte ptr [rsi + rdx + 30], 4
+	pinsrb	xmm5, byte ptr [rsi + rdx + 31], 4
+	pinsrb	xmm4, byte ptr [rsi + rcx + 30], 5
+	pinsrb	xmm5, byte ptr [rsi + rcx + 31], 5
+	pinsrb	xmm4, byte ptr [rsi + rax + 30], 6
+	pinsrb	xmm5, byte ptr [rsi + rax + 31], 6
+	pinsrb	xmm4, byte ptr [rsi + r11 + 30], 7
+	pinsrb	xmm5, byte ptr [rsi + r11 + 31], 7
+	mov	rax, rdi
+	pinsrb	xmm4, byte ptr [rsi + rdi + 30], 8
+	pinsrb	xmm5, byte ptr [rsi + rdi + 31], 8
+	pinsrb	xmm4, byte ptr [rsi + rbx + 30], 9
+	pinsrb	xmm5, byte ptr [rsi + rbx + 31], 9
+	mov	r14, qword ptr [rsp + 352]      # 8-byte Reload
+	mov	rax, r8
+	pinsrb	xmm4, byte ptr [rsi + r8 + 30], 10
+	pinsrb	xmm5, byte ptr [rsi + r8 + 31], 10
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rsi + rax + 30], 11
+	pinsrb	xmm5, byte ptr [rsi + rax + 31], 11
+	pinsrb	xmm4, byte ptr [rsi + r15 + 30], 12
+	pinsrb	xmm5, byte ptr [rsi + r15 + 31], 12
+	pinsrb	xmm4, byte ptr [rsi + r10 + 30], 13
+	pinsrb	xmm5, byte ptr [rsi + r10 + 31], 13
+	pinsrb	xmm4, byte ptr [rsi + r12 + 30], 14
+	pinsrb	xmm5, byte ptr [rsi + r12 + 31], 14
+	pinsrb	xmm4, byte ptr [rsi + r13 + 30], 15
+	pand	xmm2, xmmword ptr [rip + .LCPI10_19]
+	pand	xmm3, xmmword ptr [rip + .LCPI10_20]
+	por	xmm3, xmm2
+	movdqa	xmm0, xmm4
+	pmaxub	xmm0, xmm12
+	pcmpeqb	xmm0, xmm4
+	pinsrb	xmm5, byte ptr [rsi + r13 + 31], 15
+	pand	xmm0, xmmword ptr [rip + .LCPI10_21]
+	por	xmm0, xmm3
+	por	xmm0, xmm1
+	movdqa	xmm1, xmm5
+	pmaxub	xmm1, xmm12
+	pcmpeqb	xmm1, xmm5
+	pand	xmm1, xmm11
+	por	xmm1, xmm0
+	movdqa	xmm0, xmm10
+	punpcklbw	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
+	movdqa	xmm4, xmmword ptr [rsp + 160]   # 16-byte Reload
+	movdqa	xmm2, xmm4
+	punpcklbw	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0],xmm2[1],xmm14[1],xmm2[2],xmm14[2],xmm2[3],xmm14[3],xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
+	movdqa	xmm3, xmm2
+	punpcklwd	xmm3, xmm0              # xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]
+	punpckhwd	xmm2, xmm0              # xmm2 = xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
+	punpckhbw	xmm10, xmm1             # xmm10 = xmm10[8],xmm1[8],xmm10[9],xmm1[9],xmm10[10],xmm1[10],xmm10[11],xmm1[11],xmm10[12],xmm1[12],xmm10[13],xmm1[13],xmm10[14],xmm1[14],xmm10[15],xmm1[15]
+	punpckhbw	xmm4, xmm14             # xmm4 = xmm4[8],xmm14[8],xmm4[9],xmm14[9],xmm4[10],xmm14[10],xmm4[11],xmm14[11],xmm4[12],xmm14[12],xmm4[13],xmm14[13],xmm4[14],xmm14[14],xmm4[15],xmm14[15]
+	movdqa	xmm0, xmm4
+	punpcklwd	xmm0, xmm10             # xmm0 = xmm0[0],xmm10[0],xmm0[1],xmm10[1],xmm0[2],xmm10[2],xmm0[3],xmm10[3]
+	punpckhwd	xmm4, xmm10             # xmm4 = xmm4[4],xmm10[4],xmm4[5],xmm10[5],xmm4[6],xmm10[6],xmm4[7],xmm10[7]
+	mov	rcx, qword ptr [rsp + 336]      # 8-byte Reload
+	movdqu	xmmword ptr [r14 + 4*rcx + 48], xmm4
+	movdqu	xmmword ptr [r14 + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [r14 + 4*rcx + 16], xmm2
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm3
+	add	rcx, 16
+	mov	rdx, rcx
+	cmp	rcx, qword ptr [rsp + 416]      # 8-byte Folded Reload
+	jne	.LBB10_195
+# %bb.196:
+	mov	r15, qword ptr [rsp + 464]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 416]      # 8-byte Folded Reload
+	mov	r11b, byte ptr [rsp + 8]        # 1-byte Reload
+	mov	rsi, qword ptr [rsp + 392]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	jne	.LBB10_67
+	jmp	.LBB10_132
+.LBB10_197:
+	mov	rax, r15
+	and	rax, -8
+	mov	r11, rax
+	shl	r11, 6
+	add	r11, rsi
+	mov	qword ptr [rsp + 400], rax      # 8-byte Spill
+	lea	rax, [r14 + 4*rax]
+	mov	qword ptr [rsp + 8], rax        # 8-byte Spill
+	movd	xmm0, dword ptr [rsp + 392]     # 4-byte Folded Reload
+                                        # xmm0 = mem[0],zero,zero,zero
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	movdqa	xmmword ptr [rsp + 464], xmm0   # 16-byte Spill
+	xor	r10d, r10d
+	.p2align	4, 0x90
+.LBB10_198:                             # =>This Inner Loop Header: Depth=1
+	mov	r9, r10
+	shl	r9, 6
+	mov	r8, r9
+	mov	rdi, r9
+	mov	rbx, r9
+	mov	r15, r9
+	mov	r12, r9
+	mov	r13, r9
+	movzx	ecx, word ptr [rsi + r9]
+	movd	xmm11, ecx
+	movzx	ecx, word ptr [rsi + r9 + 2]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 16], xmm0    # 16-byte Spill
+	movzx	ecx, word ptr [rsi + r9 + 4]
+	movd	xmm9, ecx
+	movzx	ecx, word ptr [rsi + r9 + 6]
+	movd	xmm10, ecx
+	movzx	ecx, word ptr [rsi + r9 + 8]
+	movd	xmm12, ecx
+	movzx	ecx, word ptr [rsi + r9 + 10]
+	movd	xmm13, ecx
+	movzx	ecx, word ptr [rsi + r9 + 12]
+	movd	xmm14, ecx
+	movzx	ecx, word ptr [rsi + r9 + 14]
+	movd	xmm8, ecx
+	movzx	ecx, word ptr [rsi + r9 + 16]
+	movd	xmm1, ecx
+	movzx	ecx, word ptr [rsi + r9 + 18]
+	movd	xmm2, ecx
+	movzx	ecx, word ptr [rsi + r9 + 20]
+	movd	xmm3, ecx
+	movzx	ecx, word ptr [rsi + r9 + 22]
+	movd	xmm4, ecx
+	movzx	ecx, word ptr [rsi + r9 + 24]
+	movd	xmm5, ecx
+	movzx	ecx, word ptr [rsi + r9 + 26]
+	movd	xmm6, ecx
+	movzx	eax, word ptr [rsi + r9 + 28]
+	movzx	edx, word ptr [rsi + r9 + 30]
+	mov	rcx, r9
+	or	rcx, 64
+	or	r8, 128
+	or	rdi, 192
+	or	rbx, 256
+	or	r15, 320
+	or	r12, 384
+	or	r13, 448
+	pinsrw	xmm11, word ptr [rsi + rcx], 1
+	pinsrw	xmm11, word ptr [rsi + r8], 2
+	pinsrw	xmm11, word ptr [rsi + rdi], 3
+	pinsrw	xmm11, word ptr [rsi + rbx], 4
+	pinsrw	xmm11, word ptr [rsi + r15], 5
+	pinsrw	xmm11, word ptr [rsi + r12], 6
+	pinsrw	xmm11, word ptr [rsi + r13], 7
+	movd	xmm15, eax
+	movdqa	xmm0, xmmword ptr [rsp + 464]   # 16-byte Reload
+	movdqa	xmm7, xmm0
+	pcmpgtw	xmm7, xmm11
+	movdqa	xmmword ptr [rsp + 352], xmm7   # 16-byte Spill
+	movdqa	xmm7, xmmword ptr [rsp + 16]    # 16-byte Reload
+	pinsrw	xmm7, word ptr [rsi + rcx + 2], 1
+	pinsrw	xmm7, word ptr [rsi + r8 + 2], 2
+	pinsrw	xmm7, word ptr [rsi + rdi + 2], 3
+	pinsrw	xmm7, word ptr [rsi + rbx + 2], 4
+	pinsrw	xmm7, word ptr [rsi + r15 + 2], 5
+	pinsrw	xmm7, word ptr [rsi + r12 + 2], 6
+	pinsrw	xmm7, word ptr [rsi + r13 + 2], 7
+	movdqa	xmm11, xmm0
+	pinsrw	xmm9, word ptr [rsi + rcx + 4], 1
+	pinsrw	xmm9, word ptr [rsi + r8 + 4], 2
+	pinsrw	xmm9, word ptr [rsi + rdi + 4], 3
+	pinsrw	xmm9, word ptr [rsi + rbx + 4], 4
+	pinsrw	xmm9, word ptr [rsi + r15 + 4], 5
+	pinsrw	xmm9, word ptr [rsi + r12 + 4], 6
+	pcmpgtw	xmm11, xmm7
+	pinsrw	xmm9, word ptr [rsi + r13 + 4], 7
+	movdqa	xmm7, xmm0
+	pcmpgtw	xmm7, xmm9
+	movdqa	xmmword ptr [rsp + 80], xmm7    # 16-byte Spill
+	pinsrw	xmm10, word ptr [rsi + rcx + 6], 1
+	pinsrw	xmm10, word ptr [rsi + r8 + 6], 2
+	pinsrw	xmm10, word ptr [rsi + rdi + 6], 3
+	pinsrw	xmm10, word ptr [rsi + rbx + 6], 4
+	pinsrw	xmm10, word ptr [rsi + r15 + 6], 5
+	pinsrw	xmm10, word ptr [rsi + r12 + 6], 6
+	pinsrw	xmm10, word ptr [rsi + r13 + 6], 7
+	movdqa	xmm7, xmm0
+	pinsrw	xmm12, word ptr [rsi + rcx + 8], 1
+	pinsrw	xmm12, word ptr [rsi + r8 + 8], 2
+	pinsrw	xmm12, word ptr [rsi + rdi + 8], 3
+	pinsrw	xmm12, word ptr [rsi + rbx + 8], 4
+	pinsrw	xmm12, word ptr [rsi + r15 + 8], 5
+	pinsrw	xmm12, word ptr [rsi + r12 + 8], 6
+	pinsrw	xmm12, word ptr [rsi + r13 + 8], 7
+	pcmpgtw	xmm7, xmm10
+	movdqa	xmmword ptr [rsp + 112], xmm7   # 16-byte Spill
+	movdqa	xmm7, xmm0
+	pcmpgtw	xmm7, xmm12
+	movdqa	xmmword ptr [rsp + 32], xmm7    # 16-byte Spill
+	pinsrw	xmm13, word ptr [rsi + rcx + 10], 1
+	pinsrw	xmm13, word ptr [rsi + r8 + 10], 2
+	pinsrw	xmm13, word ptr [rsi + rdi + 10], 3
+	pinsrw	xmm13, word ptr [rsi + rbx + 10], 4
+	pinsrw	xmm13, word ptr [rsi + r15 + 10], 5
+	pinsrw	xmm13, word ptr [rsi + r12 + 10], 6
+	pinsrw	xmm13, word ptr [rsi + r13 + 10], 7
+	movdqa	xmm7, xmm0
+	pinsrw	xmm14, word ptr [rsi + rcx + 12], 1
+	pinsrw	xmm14, word ptr [rsi + r8 + 12], 2
+	pinsrw	xmm14, word ptr [rsi + rdi + 12], 3
+	pinsrw	xmm14, word ptr [rsi + rbx + 12], 4
+	pinsrw	xmm14, word ptr [rsi + r15 + 12], 5
+	pinsrw	xmm14, word ptr [rsi + r12 + 12], 6
+	pcmpgtw	xmm7, xmm13
+	movdqa	xmmword ptr [rsp + 128], xmm7   # 16-byte Spill
+	pinsrw	xmm14, word ptr [rsi + r13 + 12], 7
+	movdqa	xmm7, xmm0
+	pcmpgtw	xmm7, xmm14
+	movdqa	xmm14, xmm7
+	pinsrw	xmm8, word ptr [rsi + rcx + 14], 1
+	pinsrw	xmm8, word ptr [rsi + r8 + 14], 2
+	pinsrw	xmm8, word ptr [rsi + rdi + 14], 3
+	pinsrw	xmm8, word ptr [rsi + rbx + 14], 4
+	pinsrw	xmm8, word ptr [rsi + r15 + 14], 5
+	pinsrw	xmm8, word ptr [rsi + r12 + 14], 6
+	pinsrw	xmm8, word ptr [rsi + r13 + 14], 7
+	movdqa	xmm7, xmm0
+	pinsrw	xmm1, word ptr [rsi + rcx + 16], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 16], 2
+	pinsrw	xmm1, word ptr [rsi + rdi + 16], 3
+	pinsrw	xmm1, word ptr [rsi + rbx + 16], 4
+	pinsrw	xmm1, word ptr [rsi + r15 + 16], 5
+	pinsrw	xmm1, word ptr [rsi + r12 + 16], 6
+	pinsrw	xmm1, word ptr [rsi + r13 + 16], 7
+	pcmpgtw	xmm7, xmm8
+	movdqa	xmmword ptr [rsp + 96], xmm7    # 16-byte Spill
+	movdqa	xmm7, xmm0
+	pcmpgtw	xmm7, xmm1
+	movdqa	xmmword ptr [rsp + 432], xmm7   # 16-byte Spill
+	pinsrw	xmm2, word ptr [rsi + rcx + 18], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 18], 2
+	pinsrw	xmm2, word ptr [rsi + rdi + 18], 3
+	pinsrw	xmm2, word ptr [rsi + rbx + 18], 4
+	pinsrw	xmm2, word ptr [rsi + r15 + 18], 5
+	pinsrw	xmm2, word ptr [rsi + r12 + 18], 6
+	pinsrw	xmm2, word ptr [rsi + r13 + 18], 7
+	movdqa	xmm1, xmm0
+	pinsrw	xmm3, word ptr [rsi + rcx + 20], 1
+	pinsrw	xmm3, word ptr [rsi + r8 + 20], 2
+	pinsrw	xmm3, word ptr [rsi + rdi + 20], 3
+	pinsrw	xmm3, word ptr [rsi + rbx + 20], 4
+	pinsrw	xmm3, word ptr [rsi + r15 + 20], 5
+	pinsrw	xmm3, word ptr [rsi + r12 + 20], 6
+	pcmpgtw	xmm1, xmm2
+	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
+	pinsrw	xmm3, word ptr [rsi + r13 + 20], 7
+	movdqa	xmm1, xmm0
+	pcmpgtw	xmm1, xmm3
+	movdqa	xmmword ptr [rsp + 48], xmm1    # 16-byte Spill
+	pinsrw	xmm4, word ptr [rsi + rcx + 22], 1
+	pinsrw	xmm4, word ptr [rsi + r8 + 22], 2
+	pinsrw	xmm4, word ptr [rsi + rdi + 22], 3
+	pinsrw	xmm4, word ptr [rsi + rbx + 22], 4
+	pinsrw	xmm4, word ptr [rsi + r15 + 22], 5
+	pinsrw	xmm4, word ptr [rsi + r12 + 22], 6
+	pinsrw	xmm4, word ptr [rsi + r13 + 22], 7
+	movdqa	xmm1, xmm0
+	pinsrw	xmm5, word ptr [rsi + rcx + 24], 1
+	pinsrw	xmm5, word ptr [rsi + r8 + 24], 2
+	pinsrw	xmm5, word ptr [rsi + rdi + 24], 3
+	pinsrw	xmm5, word ptr [rsi + rbx + 24], 4
+	pinsrw	xmm5, word ptr [rsi + r15 + 24], 5
+	pinsrw	xmm5, word ptr [rsi + r12 + 24], 6
+	pinsrw	xmm5, word ptr [rsi + r13 + 24], 7
+	pcmpgtw	xmm1, xmm4
+	movdqa	xmmword ptr [rsp + 192], xmm1   # 16-byte Spill
+	movdqa	xmm1, xmm0
+	pcmpgtw	xmm1, xmm5
+	movdqa	xmmword ptr [rsp + 16], xmm1    # 16-byte Spill
+	pinsrw	xmm6, word ptr [rsi + rcx + 26], 1
+	pinsrw	xmm6, word ptr [rsi + r8 + 26], 2
+	pinsrw	xmm6, word ptr [rsi + rdi + 26], 3
+	pinsrw	xmm6, word ptr [rsi + rbx + 26], 4
+	pinsrw	xmm6, word ptr [rsi + r15 + 26], 5
+	pinsrw	xmm6, word ptr [rsi + r12 + 26], 6
+	pinsrw	xmm6, word ptr [rsi + r13 + 26], 7
+	movdqa	xmm1, xmm0
+	pinsrw	xmm15, word ptr [rsi + rcx + 28], 1
+	pinsrw	xmm15, word ptr [rsi + r8 + 28], 2
+	pinsrw	xmm15, word ptr [rsi + rdi + 28], 3
+	pinsrw	xmm15, word ptr [rsi + rbx + 28], 4
+	pinsrw	xmm15, word ptr [rsi + r15 + 28], 5
+	pinsrw	xmm15, word ptr [rsi + r12 + 28], 6
+	pcmpgtw	xmm1, xmm6
+	movdqa	xmmword ptr [rsp + 208], xmm1   # 16-byte Spill
+	pinsrw	xmm15, word ptr [rsi + r13 + 28], 7
+	movd	xmm1, edx
+	pinsrw	xmm1, word ptr [rsi + rcx + 30], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 30], 2
+	pinsrw	xmm1, word ptr [rsi + rdi + 30], 3
+	pinsrw	xmm1, word ptr [rsi + rbx + 30], 4
+	pinsrw	xmm1, word ptr [rsi + r15 + 30], 5
+	pinsrw	xmm1, word ptr [rsi + r12 + 30], 6
+	movdqa	xmm2, xmm0
+	pcmpgtw	xmm2, xmm15
+	movdqa	xmmword ptr [rsp + 240], xmm2   # 16-byte Spill
+	pinsrw	xmm1, word ptr [rsi + r13 + 30], 7
+	movdqa	xmm2, xmm0
+	pcmpgtw	xmm2, xmm1
+	movdqa	xmmword ptr [rsp + 144], xmm2   # 16-byte Spill
+	movzx	eax, word ptr [rsi + r9 + 32]
+	movd	xmm1, eax
+	pinsrw	xmm1, word ptr [rsi + rcx + 32], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 32], 2
+	pinsrw	xmm1, word ptr [rsi + rdi + 32], 3
+	pinsrw	xmm1, word ptr [rsi + rbx + 32], 4
+	pinsrw	xmm1, word ptr [rsi + r15 + 32], 5
+	pinsrw	xmm1, word ptr [rsi + r12 + 32], 6
+	pinsrw	xmm1, word ptr [rsi + r13 + 32], 7
+	movzx	eax, word ptr [rsi + r9 + 34]
+	movd	xmm2, eax
+	pinsrw	xmm2, word ptr [rsi + rcx + 34], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 34], 2
+	pinsrw	xmm2, word ptr [rsi + rdi + 34], 3
+	pinsrw	xmm2, word ptr [rsi + rbx + 34], 4
+	pinsrw	xmm2, word ptr [rsi + r15 + 34], 5
+	pinsrw	xmm2, word ptr [rsi + r12 + 34], 6
+	pinsrw	xmm2, word ptr [rsi + r13 + 34], 7
+	movdqa	xmm3, xmm0
+	pcmpgtw	xmm3, xmm1
+	movdqa	xmmword ptr [rsp + 224], xmm3   # 16-byte Spill
+	movdqa	xmm1, xmm0
+	pcmpgtw	xmm1, xmm2
+	movdqa	xmmword ptr [rsp + 288], xmm1   # 16-byte Spill
+	movzx	eax, word ptr [rsi + r9 + 36]
+	movd	xmm1, eax
+	pinsrw	xmm1, word ptr [rsi + rcx + 36], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 36], 2
+	pinsrw	xmm1, word ptr [rsi + rdi + 36], 3
+	pinsrw	xmm1, word ptr [rsi + rbx + 36], 4
+	pinsrw	xmm1, word ptr [rsi + r15 + 36], 5
+	pinsrw	xmm1, word ptr [rsi + r12 + 36], 6
+	movzx	eax, word ptr [rsi + r9 + 38]
+	pinsrw	xmm1, word ptr [rsi + r13 + 36], 7
+	movd	xmm2, eax
+	pinsrw	xmm2, word ptr [rsi + rcx + 38], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 38], 2
+	pinsrw	xmm2, word ptr [rsi + rdi + 38], 3
+	pinsrw	xmm2, word ptr [rsi + rbx + 38], 4
+	pinsrw	xmm2, word ptr [rsi + r15 + 38], 5
+	pinsrw	xmm2, word ptr [rsi + r12 + 38], 6
+	movdqa	xmm3, xmm0
+	pcmpgtw	xmm3, xmm1
+	movdqa	xmmword ptr [rsp + 256], xmm3   # 16-byte Spill
+	pinsrw	xmm2, word ptr [rsi + r13 + 38], 7
+	movdqa	xmm1, xmm0
+	pcmpgtw	xmm1, xmm2
+	movdqa	xmmword ptr [rsp + 272], xmm1   # 16-byte Spill
+	movzx	eax, word ptr [rsi + r9 + 40]
+	movd	xmm1, eax
+	pinsrw	xmm1, word ptr [rsi + rcx + 40], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 40], 2
+	pinsrw	xmm1, word ptr [rsi + rdi + 40], 3
+	pinsrw	xmm1, word ptr [rsi + rbx + 40], 4
+	pinsrw	xmm1, word ptr [rsi + r15 + 40], 5
+	pinsrw	xmm1, word ptr [rsi + r12 + 40], 6
+	pinsrw	xmm1, word ptr [rsi + r13 + 40], 7
+	movzx	eax, word ptr [rsi + r9 + 42]
+	movd	xmm2, eax
+	pinsrw	xmm2, word ptr [rsi + rcx + 42], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 42], 2
+	pinsrw	xmm2, word ptr [rsi + rdi + 42], 3
+	pinsrw	xmm2, word ptr [rsi + rbx + 42], 4
+	pinsrw	xmm2, word ptr [rsi + r15 + 42], 5
+	pinsrw	xmm2, word ptr [rsi + r12 + 42], 6
+	pinsrw	xmm2, word ptr [rsi + r13 + 42], 7
+	movdqa	xmm3, xmm0
+	pcmpgtw	xmm3, xmm1
+	movdqa	xmmword ptr [rsp + 304], xmm3   # 16-byte Spill
+	movdqa	xmm1, xmm0
+	pcmpgtw	xmm1, xmm2
+	movdqa	xmmword ptr [rsp + 336], xmm1   # 16-byte Spill
+	movzx	eax, word ptr [rsi + r9 + 44]
+	movd	xmm1, eax
+	pinsrw	xmm1, word ptr [rsi + rcx + 44], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 44], 2
+	pinsrw	xmm1, word ptr [rsi + rdi + 44], 3
+	pinsrw	xmm1, word ptr [rsi + rbx + 44], 4
+	pinsrw	xmm1, word ptr [rsi + r15 + 44], 5
+	pinsrw	xmm1, word ptr [rsi + r12 + 44], 6
+	movzx	eax, word ptr [rsi + r9 + 46]
+	pinsrw	xmm1, word ptr [rsi + r13 + 44], 7
+	movd	xmm2, eax
+	pinsrw	xmm2, word ptr [rsi + rcx + 46], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 46], 2
+	pinsrw	xmm2, word ptr [rsi + rdi + 46], 3
+	pinsrw	xmm2, word ptr [rsi + rbx + 46], 4
+	pinsrw	xmm2, word ptr [rsi + r15 + 46], 5
+	pinsrw	xmm2, word ptr [rsi + r12 + 46], 6
+	movdqa	xmm3, xmm0
+	pcmpgtw	xmm3, xmm1
+	movdqa	xmmword ptr [rsp + 320], xmm3   # 16-byte Spill
+	pinsrw	xmm2, word ptr [rsi + r13 + 46], 7
+	movdqa	xmm1, xmm0
+	pcmpgtw	xmm1, xmm2
+	movdqa	xmmword ptr [rsp + 160], xmm1   # 16-byte Spill
+	movzx	eax, word ptr [rsi + r9 + 48]
+	movd	xmm1, eax
+	pinsrw	xmm1, word ptr [rsi + rcx + 48], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 48], 2
+	pinsrw	xmm1, word ptr [rsi + rdi + 48], 3
+	pinsrw	xmm1, word ptr [rsi + rbx + 48], 4
+	pinsrw	xmm1, word ptr [rsi + r15 + 48], 5
+	pinsrw	xmm1, word ptr [rsi + r12 + 48], 6
+	pinsrw	xmm1, word ptr [rsi + r13 + 48], 7
+	movzx	eax, word ptr [rsi + r9 + 50]
+	movd	xmm2, eax
+	pinsrw	xmm2, word ptr [rsi + rcx + 50], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 50], 2
+	pinsrw	xmm2, word ptr [rsi + rdi + 50], 3
+	pinsrw	xmm2, word ptr [rsi + rbx + 50], 4
+	pinsrw	xmm2, word ptr [rsi + r15 + 50], 5
+	pinsrw	xmm2, word ptr [rsi + r12 + 50], 6
+	pinsrw	xmm2, word ptr [rsi + r13 + 50], 7
+	movdqa	xmm13, xmm0
+	pcmpgtw	xmm13, xmm1
+	movdqa	xmm1, xmm0
+	pcmpgtw	xmm1, xmm2
+	movdqa	xmmword ptr [rsp + 368], xmm1   # 16-byte Spill
+	movzx	eax, word ptr [rsi + r9 + 52]
+	movd	xmm1, eax
+	pinsrw	xmm1, word ptr [rsi + rcx + 52], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 52], 2
+	pinsrw	xmm1, word ptr [rsi + rdi + 52], 3
+	pinsrw	xmm1, word ptr [rsi + rbx + 52], 4
+	pinsrw	xmm1, word ptr [rsi + r15 + 52], 5
+	pinsrw	xmm1, word ptr [rsi + r12 + 52], 6
+	movzx	eax, word ptr [rsi + r9 + 54]
+	pinsrw	xmm1, word ptr [rsi + r13 + 52], 7
+	movd	xmm2, eax
+	pinsrw	xmm2, word ptr [rsi + rcx + 54], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 54], 2
+	pinsrw	xmm2, word ptr [rsi + rdi + 54], 3
+	pinsrw	xmm2, word ptr [rsi + rbx + 54], 4
+	pinsrw	xmm2, word ptr [rsi + r15 + 54], 5
+	pinsrw	xmm2, word ptr [rsi + r12 + 54], 6
+	movdqa	xmm3, xmm0
+	pcmpgtw	xmm3, xmm1
+	movdqa	xmmword ptr [rsp + 416], xmm3   # 16-byte Spill
+	pinsrw	xmm2, word ptr [rsi + r13 + 54], 7
+	movdqa	xmm15, xmm0
+	pcmpgtw	xmm15, xmm2
+	movzx	eax, word ptr [rsi + r9 + 56]
+	movd	xmm1, eax
+	pinsrw	xmm1, word ptr [rsi + rcx + 56], 1
+	pinsrw	xmm1, word ptr [rsi + r8 + 56], 2
+	pinsrw	xmm1, word ptr [rsi + rdi + 56], 3
+	pinsrw	xmm1, word ptr [rsi + rbx + 56], 4
+	pinsrw	xmm1, word ptr [rsi + r15 + 56], 5
+	pinsrw	xmm1, word ptr [rsi + r12 + 56], 6
+	pinsrw	xmm1, word ptr [rsi + r13 + 56], 7
+	movzx	eax, word ptr [rsi + r9 + 58]
+	movd	xmm2, eax
+	pinsrw	xmm2, word ptr [rsi + rcx + 58], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 58], 2
+	pinsrw	xmm2, word ptr [rsi + rdi + 58], 3
+	pinsrw	xmm2, word ptr [rsi + rbx + 58], 4
+	pinsrw	xmm2, word ptr [rsi + r15 + 58], 5
+	pinsrw	xmm2, word ptr [rsi + r12 + 58], 6
+	pinsrw	xmm2, word ptr [rsi + r13 + 58], 7
+	movdqa	xmm9, xmm0
+	pcmpgtw	xmm9, xmm1
+	movdqa	xmm12, xmm0
+	pcmpgtw	xmm12, xmm2
+	movzx	eax, word ptr [rsi + r9 + 60]
+	movd	xmm2, eax
+	pinsrw	xmm2, word ptr [rsi + rcx + 60], 1
+	pinsrw	xmm2, word ptr [rsi + r8 + 60], 2
+	pinsrw	xmm2, word ptr [rsi + rdi + 60], 3
+	pinsrw	xmm2, word ptr [rsi + rbx + 60], 4
+	pinsrw	xmm2, word ptr [rsi + r15 + 60], 5
+	pinsrw	xmm2, word ptr [rsi + r12 + 60], 6
+	movzx	eax, word ptr [rsi + r9 + 62]
+	pinsrw	xmm2, word ptr [rsi + r13 + 60], 7
+	movd	xmm7, eax
+	pinsrw	xmm7, word ptr [rsi + rcx + 62], 1
+	pinsrw	xmm7, word ptr [rsi + r8 + 62], 2
+	pinsrw	xmm7, word ptr [rsi + rdi + 62], 3
+	pinsrw	xmm7, word ptr [rsi + rbx + 62], 4
+	pinsrw	xmm7, word ptr [rsi + r15 + 62], 5
+	pinsrw	xmm7, word ptr [rsi + r12 + 62], 6
+	movdqa	xmm5, xmm0
+	pcmpgtw	xmm5, xmm2
+	pinsrw	xmm7, word ptr [rsi + r13 + 62], 7
+	movdqa	xmm6, xmm0
+	pcmpgtw	xmm6, xmm7
+	packsswb	xmm11, xmm11
+	movdqa	xmm1, xmmword ptr [rip + .LCPI10_8] # xmm1 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm7, xmm1
+	movdqa	xmm3, xmm1
+	movdqa	xmm0, xmm11
+	pxor	xmm4, xmm4
+	pblendvb	xmm7, xmm4, xmm0
+	movdqa	xmm2, xmmword ptr [rsp + 80]    # 16-byte Reload
+	packsswb	xmm2, xmm2
+	movdqa	xmm1, xmmword ptr [rip + .LCPI10_9] # xmm1 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm1, xmm4, xmm0
+	pcmpeqd	xmm2, xmm2
+	movdqa	xmm0, xmmword ptr [rsp + 352]   # 16-byte Reload
+	pxor	xmm0, xmm2
+	pcmpeqd	xmm8, xmm8
+	packsswb	xmm0, xmm0
+	psubb	xmm7, xmm0
+	movdqa	xmm2, xmmword ptr [rsp + 112]   # 16-byte Reload
+	packsswb	xmm2, xmm2
+	movdqa	xmm11, xmmword ptr [rip + .LCPI10_10] # xmm11 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm11, xmm4, xmm0
+	por	xmm11, xmm1
+	movdqa	xmm2, xmmword ptr [rsp + 32]    # 16-byte Reload
+	packsswb	xmm2, xmm2
+	movdqa	xmm1, xmmword ptr [rip + .LCPI10_11] # xmm1 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm1, xmm4, xmm0
+	por	xmm11, xmm7
+	movdqa	xmm2, xmmword ptr [rsp + 128]   # 16-byte Reload
+	packsswb	xmm2, xmm2
+	movdqa	xmm10, xmmword ptr [rip + .LCPI10_12] # xmm10 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm7, xmm10
+	movdqa	xmm0, xmm2
+	pblendvb	xmm7, xmm4, xmm0
+	por	xmm7, xmm1
+	packsswb	xmm14, xmm14
+	movdqa	xmm1, xmmword ptr [rip + .LCPI10_13] # xmm1 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm14
+	pblendvb	xmm1, xmm4, xmm0
+	por	xmm1, xmm7
+	movdqa	xmm2, xmmword ptr [rsp + 96]    # 16-byte Reload
+	packsswb	xmm2, xmm2
+	movdqa	xmm14, xmmword ptr [rip + .LCPI10_14] # xmm14 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm14, xmm4, xmm0
+	por	xmm1, xmm11
+	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
+	packsswb	xmm0, xmm0
+	movdqa	xmm11, xmm3
+	movdqa	xmm7, xmm3
+	pblendvb	xmm7, xmm4, xmm0
+	por	xmm14, xmm1
+	movdqa	xmm0, xmmword ptr [rsp + 432]   # 16-byte Reload
+	pxor	xmm0, xmm8
+	packsswb	xmm0, xmm0
+	psubb	xmm7, xmm0
+	movdqa	xmm0, xmmword ptr [rsp + 48]    # 16-byte Reload
+	packsswb	xmm0, xmm0
+	movdqa	xmm3, xmmword ptr [rip + .LCPI10_9] # xmm3 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm1, xmm3
+	pblendvb	xmm1, xmm4, xmm0
+	movdqa	xmm0, xmmword ptr [rsp + 192]   # 16-byte Reload
+	packsswb	xmm0, xmm0
+	movdqa	xmm8, xmmword ptr [rip + .LCPI10_10] # xmm8 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm2, xmm8
+	pblendvb	xmm2, xmm4, xmm0
+	por	xmm2, xmm1
+	por	xmm2, xmm7
+	movdqa	xmm0, xmmword ptr [rsp + 16]    # 16-byte Reload
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI10_11] # xmm1 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	pblendvb	xmm1, xmm4, xmm0
+	movdqa	xmm0, xmmword ptr [rsp + 208]   # 16-byte Reload
+	packsswb	xmm0, xmm0
+	pblendvb	xmm10, xmm4, xmm0
+	por	xmm10, xmm1
+	movdqa	xmm0, xmmword ptr [rsp + 240]   # 16-byte Reload
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmmword ptr [rip + .LCPI10_13] # xmm1 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	pblendvb	xmm1, xmm4, xmm0
+	por	xmm1, xmm10
+	por	xmm1, xmm2
+	movdqa	xmm0, xmmword ptr [rsp + 144]   # 16-byte Reload
+	packsswb	xmm0, xmm0
+	movdqa	xmm10, xmmword ptr [rip + .LCPI10_14] # xmm10 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
+	pblendvb	xmm10, xmm4, xmm0
+	por	xmm10, xmm1
+	movdqa	xmm0, xmmword ptr [rsp + 288]   # 16-byte Reload
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm11
+	pblendvb	xmm1, xmm4, xmm0
+	movdqa	xmm0, xmmword ptr [rsp + 256]   # 16-byte Reload
+	packsswb	xmm0, xmm0
+	movdqa	xmm2, xmm3
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmmword ptr [rsp + 224]   # 16-byte Reload
+	pxor	xmm0, xmmword ptr [rip + .LCPI10_22]
+	pcmpeqd	xmm3, xmm3
+	packsswb	xmm0, xmm0
+	psubb	xmm1, xmm0
+	movdqa	xmm0, xmmword ptr [rsp + 272]   # 16-byte Reload
+	packsswb	xmm0, xmm0
+	movdqa	xmm7, xmm8
+	pblendvb	xmm7, xmm4, xmm0
+	por	xmm7, xmm2
+	movdqa	xmm0, xmmword ptr [rsp + 304]   # 16-byte Reload
+	packsswb	xmm0, xmm0
+	movdqa	xmm11, xmmword ptr [rsp + 336]  # 16-byte Reload
+	packsswb	xmm11, xmm11
+	por	xmm7, xmm1
+	movdqa	xmm1, xmmword ptr [rip + .LCPI10_11] # xmm1 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	pblendvb	xmm1, xmm4, xmm0
+	movdqa	xmm2, xmmword ptr [rip + .LCPI10_12] # xmm2 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm11
+	pblendvb	xmm2, xmm4, xmm0
+	movdqa	xmm0, xmmword ptr [rsp + 320]   # 16-byte Reload
+	packsswb	xmm0, xmm0
+	por	xmm2, xmm1
+	movdqa	xmm1, xmmword ptr [rip + .LCPI10_13] # xmm1 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	pblendvb	xmm1, xmm4, xmm0
+	por	xmm1, xmm2
+	movdqa	xmm0, xmmword ptr [rsp + 160]   # 16-byte Reload
+	packsswb	xmm0, xmm0
+	movdqa	xmm11, xmmword ptr [rsp + 368]  # 16-byte Reload
+	packsswb	xmm11, xmm11
+	por	xmm1, xmm7
+	movdqa	xmm7, xmmword ptr [rip + .LCPI10_14] # xmm7 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
+	pblendvb	xmm7, xmm4, xmm0
+	movdqa	xmm2, xmmword ptr [rip + .LCPI10_8] # xmm2 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm11
+	pblendvb	xmm2, xmm4, xmm0
+	por	xmm7, xmm1
+	pxor	xmm13, xmm3
+	packsswb	xmm13, xmm13
+	movdqa	xmm0, xmmword ptr [rsp + 416]   # 16-byte Reload
+	packsswb	xmm0, xmm0
+	packsswb	xmm15, xmm15
+	psubb	xmm2, xmm13
+	movdqa	xmm1, xmmword ptr [rip + .LCPI10_9] # xmm1 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	pblendvb	xmm1, xmm4, xmm0
+	movdqa	xmm0, xmm15
+	pblendvb	xmm8, xmm4, xmm0
+	por	xmm8, xmm1
+	packsswb	xmm9, xmm9
+	packsswb	xmm12, xmm12
+	por	xmm8, xmm2
+	movdqa	xmm1, xmmword ptr [rip + .LCPI10_11] # xmm1 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm9
+	pblendvb	xmm1, xmm4, xmm0
+	movdqa	xmm2, xmmword ptr [rip + .LCPI10_12] # xmm2 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm12
+	pblendvb	xmm2, xmm4, xmm0
+	packsswb	xmm5, xmm5
+	por	xmm2, xmm1
+	movdqa	xmm1, xmmword ptr [rip + .LCPI10_13] # xmm1 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm5
+	pblendvb	xmm1, xmm4, xmm0
+	por	xmm1, xmm2
+	packsswb	xmm6, xmm6
+	por	xmm1, xmm8
+	movdqa	xmm2, xmmword ptr [rip + .LCPI10_14] # xmm2 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm6
+	pblendvb	xmm2, xmm4, xmm0
+	por	xmm2, xmm1
+	movdqa	xmm0, xmm14
+	punpcklqdq	xmm0, xmm10             # xmm0 = xmm0[0],xmm10[0]
+	movdqa	xmm1, xmm7
+	punpcklqdq	xmm1, xmm2              # xmm1 = xmm1[0],xmm2[0]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI10_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
+	pshufb	xmm1, xmm3
+	pshufb	xmm0, xmm3
+	punpcklwd	xmm0, xmm1              # xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
+	punpcklbw	xmm7, xmm2              # xmm7 = xmm7[0],xmm2[0],xmm7[1],xmm2[1],xmm7[2],xmm2[2],xmm7[3],xmm2[3],xmm7[4],xmm2[4],xmm7[5],xmm2[5],xmm7[6],xmm2[6],xmm7[7],xmm2[7]
+	punpcklbw	xmm14, xmm10            # xmm14 = xmm14[0],xmm10[0],xmm14[1],xmm10[1],xmm14[2],xmm10[2],xmm14[3],xmm10[3],xmm14[4],xmm10[4],xmm14[5],xmm10[5],xmm14[6],xmm10[6],xmm14[7],xmm10[7]
+	punpcklwd	xmm14, xmm7             # xmm14 = xmm14[0],xmm7[0],xmm14[1],xmm7[1],xmm14[2],xmm7[2],xmm14[3],xmm7[3]
+	movdqu	xmmword ptr [r14 + 4*r10], xmm14
+	movdqu	xmmword ptr [r14 + 4*r10 + 16], xmm0
+	add	r10, 8
+	cmp	r10, qword ptr [rsp + 400]      # 8-byte Folded Reload
+	jne	.LBB10_198
+# %bb.199:
+	mov	r15, qword ptr [rsp + 456]      # 8-byte Reload
+	cmp	r15, qword ptr [rsp + 400]      # 8-byte Folded Reload
+	mov	r10, qword ptr [rsp + 72]       # 8-byte Reload
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	jne	.LBB10_101
+	jmp	.LBB10_136
+.LBB10_200:
+	mov	r8, r11
+	and	r8, -4
+	mov	rbx, r8
+	shl	rbx, 7
+	add	rbx, rsi
+	lea	r15, [r14 + 4*r8]
+	movaps	xmm13, xmm11
+	shufps	xmm13, xmm11, 0                 # xmm13 = xmm13[0,0],xmm11[0,0]
+	add	rsi, 508
+	xor	ecx, ecx
+	movdqa	xmm15, xmmword ptr [rip + .LCPI10_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	.p2align	4, 0x90
+.LBB10_201:                             # =>This Inner Loop Header: Depth=1
+	movss	xmm3, dword ptr [rsi - 508]     # xmm3 = mem[0],zero,zero,zero
+	movss	xmm10, dword ptr [rsi - 504]    # xmm10 = mem[0],zero,zero,zero
+	movss	xmm9, dword ptr [rsi - 500]     # xmm9 = mem[0],zero,zero,zero
+	movss	xmm1, dword ptr [rsi - 496]     # xmm1 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 380], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 252], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 124], 48 # xmm3 = xmm3[0,1,2],mem[0]
+	insertps	xmm10, dword ptr [rsi - 376], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
+	insertps	xmm10, dword ptr [rsi - 248], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
+	insertps	xmm10, dword ptr [rsi - 120], 48 # xmm10 = xmm10[0,1,2],mem[0]
+	insertps	xmm9, dword ptr [rsi - 372], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
+	insertps	xmm9, dword ptr [rsi - 244], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
+	insertps	xmm9, dword ptr [rsi - 116], 48 # xmm9 = xmm9[0,1,2],mem[0]
+	insertps	xmm1, dword ptr [rsi - 368], 16 # xmm1 = xmm1[0],mem[0],xmm1[2,3]
+	insertps	xmm1, dword ptr [rsi - 240], 32 # xmm1 = xmm1[0,1],mem[0],xmm1[3]
+	insertps	xmm1, dword ptr [rsi - 112], 48 # xmm1 = xmm1[0,1,2],mem[0]
+	movss	xmm8, dword ptr [rsi - 492]     # xmm8 = mem[0],zero,zero,zero
+	insertps	xmm8, dword ptr [rsi - 364], 16 # xmm8 = xmm8[0],mem[0],xmm8[2,3]
+	insertps	xmm8, dword ptr [rsi - 236], 32 # xmm8 = xmm8[0,1],mem[0],xmm8[3]
+	movaps	xmm12, xmm13
+	insertps	xmm8, dword ptr [rsi - 108], 48 # xmm8 = xmm8[0,1,2],mem[0]
+	movss	xmm2, dword ptr [rsi - 488]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 360], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 232], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	cmpleps	xmm12, xmm3
+	insertps	xmm2, dword ptr [rsi - 104], 48 # xmm2 = xmm2[0,1,2],mem[0]
+	movss	xmm3, dword ptr [rsi - 484]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	packssdw	xmm12, xmm12
+	insertps	xmm3, dword ptr [rsi - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
+	movss	xmm4, dword ptr [rsi - 476]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm4, dword ptr [rsi - 348], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [rsi - 220], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	packsswb	xmm12, xmm12
+	insertps	xmm4, dword ptr [rsi - 92], 48  # xmm4 = xmm4[0,1,2],mem[0]
+	movaps	xmm7, xmm13
+	movss	xmm5, dword ptr [rsi - 444]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 316], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 188], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	cmpleps	xmm7, xmm4
+	insertps	xmm5, dword ptr [rsi - 60], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	movaps	xmm6, xmm13
+	movss	xmm0, dword ptr [rsi - 412]     # xmm0 = mem[0],zero,zero,zero
+	insertps	xmm0, dword ptr [rsi - 284], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
+	insertps	xmm0, dword ptr [rsi - 156], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
+	cmpleps	xmm6, xmm5
+	insertps	xmm0, dword ptr [rsi - 28], 48  # xmm0 = xmm0[0,1,2],mem[0]
+	movaps	xmm4, xmm13
+	cmpleps	xmm4, xmm0
+	movaps	xmm0, xmm13
+	cmpleps	xmm0, xmm10
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm14, xmm0
+	pand	xmm14, xmm15
+	psubb	xmm14, xmm0
+	movss	xmm10, dword ptr [rsi - 480]    # xmm10 = mem[0],zero,zero,zero
+	insertps	xmm10, dword ptr [rsi - 352], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
+	pand	xmm12, xmm15
+	insertps	xmm10, dword ptr [rsi - 224], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
+	por	xmm14, xmm12
+	movaps	xmm5, xmm13
+	cmpleps	xmm5, xmm9
+	insertps	xmm10, dword ptr [rsi - 96], 48 # xmm10 = xmm10[0,1,2],mem[0]
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	movdqa	xmm0, xmmword ptr [rip + .LCPI10_1] # xmm0 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	pand	xmm5, xmm0
+	por	xmm5, xmm14
+	movaps	xmm0, xmm13
+	cmpleps	xmm0, xmm1
+	movaps	xmm1, xmm13
+	cmpleps	xmm1, xmm8
+	movss	xmm9, dword ptr [rsi - 472]     # xmm9 = mem[0],zero,zero,zero
+	insertps	xmm9, dword ptr [rsi - 344], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
+	insertps	xmm9, dword ptr [rsi - 216], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
+	insertps	xmm9, dword ptr [rsi - 88], 48  # xmm9 = xmm9[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm15
+	psllw	xmm0, 3
+	movdqa	xmm14, xmmword ptr [rip + .LCPI10_2] # xmm14 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	pand	xmm0, xmm14
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 4
+	movdqa	xmm14, xmmword ptr [rip + .LCPI10_3] # xmm14 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	pand	xmm1, xmm14
+	por	xmm1, xmm0
+	movss	xmm12, dword ptr [rsi - 468]    # xmm12 = mem[0],zero,zero,zero
+	insertps	xmm12, dword ptr [rsi - 340], 16 # xmm12 = xmm12[0],mem[0],xmm12[2,3]
+	insertps	xmm12, dword ptr [rsi - 212], 32 # xmm12 = xmm12[0,1],mem[0],xmm12[3]
+	insertps	xmm12, dword ptr [rsi - 84], 48 # xmm12 = xmm12[0,1,2],mem[0]
+	por	xmm1, xmm5
+	movaps	xmm0, xmm13
+	cmpleps	xmm0, xmm2
+	movaps	xmm5, xmm13
+	cmpleps	xmm5, xmm3
+	movss	xmm2, dword ptr [rsi - 464]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 336], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 208], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	packssdw	xmm7, xmm7
+	insertps	xmm2, dword ptr [rsi - 80], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm15
+	psllw	xmm0, 5
+	movdqa	xmm14, xmmword ptr [rip + .LCPI10_4] # xmm14 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	pand	xmm0, xmm14
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 6
+	movdqa	xmm3, xmmword ptr [rip + .LCPI10_5] # xmm3 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	pand	xmm5, xmm3
+	por	xmm5, xmm0
+	movaps	xmm8, xmm13
+	cmpleps	xmm8, xmm10
+	movss	xmm3, dword ptr [rsi - 460]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 332], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 204], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 76], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	packssdw	xmm8, xmm8
+	packsswb	xmm8, xmm8
+	psllw	xmm8, 7
+	movdqa	xmm0, xmmword ptr [rip + .LCPI10_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm8, xmm0
+	por	xmm8, xmm5
+	movss	xmm10, dword ptr [rsi - 456]    # xmm10 = mem[0],zero,zero,zero
+	insertps	xmm10, dword ptr [rsi - 328], 16 # xmm10 = xmm10[0],mem[0],xmm10[2,3]
+	insertps	xmm10, dword ptr [rsi - 200], 32 # xmm10 = xmm10[0,1],mem[0],xmm10[3]
+	packsswb	xmm7, xmm7
+	insertps	xmm10, dword ptr [rsi - 72], 48 # xmm10 = xmm10[0,1,2],mem[0]
+	por	xmm8, xmm1
+	movaps	xmm0, xmm13
+	cmpleps	xmm0, xmm9
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm0
+	pand	xmm1, xmm15
+	psubb	xmm1, xmm0
+	movss	xmm9, dword ptr [rsi - 452]     # xmm9 = mem[0],zero,zero,zero
+	insertps	xmm9, dword ptr [rsi - 324], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
+	pand	xmm7, xmm15
+	insertps	xmm9, dword ptr [rsi - 196], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
+	por	xmm1, xmm7
+	movaps	xmm5, xmm13
+	cmpleps	xmm5, xmm12
+	insertps	xmm9, dword ptr [rsi - 68], 48  # xmm9 = xmm9[0,1,2],mem[0]
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	pand	xmm5, xmmword ptr [rip + .LCPI10_1]
+	por	xmm5, xmm1
+	movaps	xmm0, xmm13
+	cmpleps	xmm0, xmm2
+	movaps	xmm1, xmm13
+	cmpleps	xmm1, xmm3
+	movss	xmm3, dword ptr [rsi - 448]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 320], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 192], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 64], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm15
+	psllw	xmm0, 3
+	movdqa	xmm12, xmmword ptr [rip + .LCPI10_2] # xmm12 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	pand	xmm0, xmm12
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 4
+	pand	xmm1, xmmword ptr [rip + .LCPI10_3]
+	por	xmm1, xmm0
+	movss	xmm2, dword ptr [rsi - 440]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rsi - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rsi - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm1, xmm5
+	movaps	xmm0, xmm13
+	cmpleps	xmm0, xmm10
+	movaps	xmm5, xmm13
+	cmpleps	xmm5, xmm9
+	movss	xmm7, dword ptr [rsi - 436]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 308], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 180], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	packssdw	xmm6, xmm6
+	insertps	xmm7, dword ptr [rsi - 52], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm15
+	psllw	xmm0, 5
+	pand	xmm0, xmm14
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 6
+	pand	xmm5, xmmword ptr [rip + .LCPI10_5]
+	por	xmm5, xmm0
+	movaps	xmm0, xmm13
+	cmpleps	xmm0, xmm3
+	movss	xmm3, dword ptr [rsi - 432]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 304], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 176], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 48], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	psllw	xmm0, 7
+	movdqa	xmm10, xmmword ptr [rip + .LCPI10_6] # xmm10 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm0, xmm10
+	por	xmm0, xmm5
+	movss	xmm5, dword ptr [rsi - 428]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 300], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 172], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 44], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	por	xmm0, xmm1
+	movss	xmm9, dword ptr [rsi - 424]     # xmm9 = mem[0],zero,zero,zero
+	insertps	xmm9, dword ptr [rsi - 296], 16 # xmm9 = xmm9[0],mem[0],xmm9[2,3]
+	insertps	xmm9, dword ptr [rsi - 168], 32 # xmm9 = xmm9[0,1],mem[0],xmm9[3]
+	packsswb	xmm6, xmm6
+	insertps	xmm9, dword ptr [rsi - 40], 48  # xmm9 = xmm9[0,1,2],mem[0]
+	punpckldq	xmm8, xmm0              # xmm8 = xmm8[0],xmm0[0],xmm8[1],xmm0[1]
+	movaps	xmm0, xmm13
+	cmpleps	xmm0, xmm2
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	movdqa	xmm1, xmm0
+	pand	xmm1, xmm15
+	psubb	xmm1, xmm0
+	movss	xmm2, dword ptr [rsi - 420]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rsi - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	pand	xmm6, xmm15
+	insertps	xmm2, dword ptr [rsi - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	por	xmm1, xmm6
+	movaps	xmm6, xmm13
+	cmpleps	xmm6, xmm7
+	insertps	xmm2, dword ptr [rsi - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 2
+	movdqa	xmm0, xmmword ptr [rip + .LCPI10_1] # xmm0 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	pand	xmm6, xmm0
+	por	xmm6, xmm1
+	movaps	xmm0, xmm13
+	cmpleps	xmm0, xmm3
+	movaps	xmm1, xmm13
+	cmpleps	xmm1, xmm5
+	movss	xmm3, dword ptr [rsi - 416]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 288], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rsi - 160], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rsi - 32], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm15
+	psllw	xmm0, 3
+	pand	xmm0, xmm12
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 4
+	movdqa	xmm12, xmmword ptr [rip + .LCPI10_3] # xmm12 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	pand	xmm1, xmm12
+	por	xmm1, xmm0
+	movss	xmm5, dword ptr [rsi - 408]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 280], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 152], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rsi - 24], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	por	xmm1, xmm6
+	movaps	xmm0, xmm13
+	cmpleps	xmm0, xmm9
+	movaps	xmm6, xmm13
+	cmpleps	xmm6, xmm2
+	movss	xmm7, dword ptr [rsi - 404]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rsi - 276], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rsi - 148], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	packssdw	xmm4, xmm4
+	insertps	xmm7, dword ptr [rsi - 20], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	pand	xmm0, xmm15
+	psllw	xmm0, 5
+	pand	xmm0, xmm14
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 6
+	movdqa	xmm9, xmmword ptr [rip + .LCPI10_5] # xmm9 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	pand	xmm6, xmm9
+	por	xmm6, xmm0
+	movaps	xmm2, xmm13
+	cmpleps	xmm2, xmm3
+	movss	xmm0, dword ptr [rsi - 400]     # xmm0 = mem[0],zero,zero,zero
+	insertps	xmm0, dword ptr [rsi - 272], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
+	insertps	xmm0, dword ptr [rsi - 144], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
+	insertps	xmm0, dword ptr [rsi - 16], 48  # xmm0 = xmm0[0,1,2],mem[0]
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	psllw	xmm2, 7
+	pand	xmm2, xmm10
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [rsi - 396]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rsi - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rsi - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	packsswb	xmm4, xmm4
+	insertps	xmm6, dword ptr [rsi - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	por	xmm2, xmm1
+	movaps	xmm1, xmm13
+	cmpleps	xmm1, xmm5
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	movdqa	xmm5, xmm1
+	pand	xmm5, xmm15
+	psubb	xmm5, xmm1
+	movss	xmm3, dword ptr [rsi - 392]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rsi - 264], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	pand	xmm4, xmm15
+	insertps	xmm3, dword ptr [rsi - 136], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	por	xmm5, xmm4
+	movaps	xmm4, xmm13
+	cmpleps	xmm4, xmm7
+	insertps	xmm3, dword ptr [rsi - 8], 48   # xmm3 = xmm3[0,1,2],mem[0]
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	psllw	xmm4, 2
+	pand	xmm4, xmmword ptr [rip + .LCPI10_1]
+	por	xmm4, xmm5
+	movaps	xmm5, xmm13
+	cmpleps	xmm5, xmm0
+	movaps	xmm1, xmm13
+	cmpleps	xmm1, xmm6
+	movss	xmm0, dword ptr [rsi - 388]     # xmm0 = mem[0],zero,zero,zero
+	insertps	xmm0, dword ptr [rsi - 260], 16 # xmm0 = xmm0[0],mem[0],xmm0[2,3]
+	insertps	xmm0, dword ptr [rsi - 132], 32 # xmm0 = xmm0[0,1],mem[0],xmm0[3]
+	insertps	xmm0, dword ptr [rsi - 4], 48   # xmm0 = xmm0[0,1,2],mem[0]
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 3
+	pand	xmm5, xmmword ptr [rip + .LCPI10_2]
+	packssdw	xmm1, xmm1
+	packsswb	xmm1, xmm1
+	pand	xmm1, xmm15
+	psllw	xmm1, 4
+	pand	xmm1, xmm12
+	por	xmm1, xmm5
+	movss	xmm5, dword ptr [rsi - 384]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rsi - 256], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rsi - 128], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	por	xmm1, xmm4
+	movaps	xmm4, xmm13
+	cmpleps	xmm4, xmm3
+	movaps	xmm3, xmm13
+	cmpleps	xmm3, xmm0
+	insertps	xmm5, dword ptr [rsi], 48       # xmm5 = xmm5[0,1,2],mem[0]
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	psllw	xmm4, 5
+	pand	xmm4, xmm14
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 6
+	pand	xmm3, xmm9
+	por	xmm3, xmm4
+	movaps	xmm0, xmm13
+	cmpleps	xmm0, xmm5
+	packssdw	xmm0, xmm0
+	packsswb	xmm0, xmm0
+	psllw	xmm0, 7
+	pand	xmm0, xmm10
+	por	xmm0, xmm3
+	por	xmm0, xmm1
+	punpckldq	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
+	punpcklbw	xmm8, xmm2              # xmm8 = xmm8[0],xmm2[0],xmm8[1],xmm2[1],xmm8[2],xmm2[2],xmm8[3],xmm2[3],xmm8[4],xmm2[4],xmm8[5],xmm2[5],xmm8[6],xmm2[6],xmm8[7],xmm2[7]
+	pshufb	xmm8, xmmword ptr [rip + .LCPI10_7] # xmm8 = xmm8[0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
+	movdqu	xmmword ptr [r14 + 4*rcx], xmm8
+	add	rcx, 4
+	add	rsi, 512
+	cmp	r8, rcx
+	jne	.LBB10_201
+# %bb.202:
+	cmp	r11, r8
+	jne	.LBB10_124
+	jmp	.LBB10_140
+.Lfunc_end10:
+	.size	comparison_greater_equal_arr_scalar_sse4, .Lfunc_end10-comparison_greater_equal_arr_scalar_sse4
+                                        # -- End function
+	.section	.rodata.cst16,"aM",@progbits,16
+	.p2align	4                               # -- Begin function comparison_greater_equal_scalar_arr_sse4
+.LCPI11_0:
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.byte	1                               # 0x1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI11_1:
+	.zero	16,252
+.LCPI11_2:
+	.zero	16,248
+.LCPI11_3:
+	.zero	16,240
+.LCPI11_4:
+	.zero	16,224
+.LCPI11_5:
+	.zero	16,192
+.LCPI11_6:
+	.zero	16,128
+.LCPI11_7:
+	.byte	0                               # 0x0
+	.byte	8                               # 0x8
+	.byte	1                               # 0x1
+	.byte	9                               # 0x9
+	.byte	2                               # 0x2
+	.byte	10                              # 0xa
+	.byte	3                               # 0x3
+	.byte	11                              # 0xb
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+.LCPI11_8:
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.byte	2                               # 0x2
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI11_9:
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.byte	4                               # 0x4
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI11_10:
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.byte	8                               # 0x8
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI11_11:
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.byte	16                              # 0x10
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI11_12:
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.byte	32                              # 0x20
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI11_13:
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.byte	64                              # 0x40
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI11_14:
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.byte	128                             # 0x80
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI11_15:
+	.byte	4                               # 0x4
+	.byte	12                              # 0xc
+	.byte	5                               # 0x5
+	.byte	13                              # 0xd
+	.byte	6                               # 0x6
+	.byte	14                              # 0xe
+	.byte	7                               # 0x7
+	.byte	15                              # 0xf
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+	.zero	1
+.LCPI11_16:
+	.zero	16,2
+.LCPI11_17:
+	.zero	16,4
+.LCPI11_18:
+	.zero	16,8
+.LCPI11_19:
+	.zero	16,16
+.LCPI11_20:
+	.zero	16,32
+.LCPI11_21:
+	.zero	16,64
+.LCPI11_22:
+	.zero	16,255
+	.text
+	.globl	comparison_greater_equal_scalar_arr_sse4
+	.p2align	4, 0x90
+	.type	comparison_greater_equal_scalar_arr_sse4,@function
+comparison_greater_equal_scalar_arr_sse4: # @comparison_greater_equal_scalar_arr_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r15
+	push	r14
+	push	r13
+	push	r12
+	push	rbx
+	and	rsp, -16
+	sub	rsp, 304
+                                        # kill: def $r9d killed $r9d def $r9
+	mov	r11, r8
+	mov	r15, rcx
+	cmp	edi, 6
+	jg	.LBB11_26
+# %bb.1:
+	cmp	edi, 3
+	jle	.LBB11_2
+# %bb.10:
+	cmp	edi, 4
+	je	.LBB11_99
+# %bb.11:
+	cmp	edi, 5
+	je	.LBB11_114
+# %bb.12:
+	cmp	edi, 6
+	jne	.LBB11_201
+# %bb.13:
+	mov	r14d, dword ptr [rsi]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_17
+# %bb.14:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_15:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14d, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	mov	esi, 0
+	adc	sil, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r15 + rbx]
+	xor	sil, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, sil
+	xor	dil, r8b
+	mov	byte ptr [r15 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_15
+# %bb.16:
+	add	r15, 1
+.LBB11_17:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB11_21
+# %bb.18:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_19:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
+	cmp	r14d, dword ptr [rdx + 124]
+	setae	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 120]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 116]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 112]
+	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 108]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 104]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 100]
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 92]
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 88]
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 84]
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 80]
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 76]
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 72]
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 68]
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 60]
+	setae	r8b
+	cmp	r14d, dword ptr [rdx + 56]
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 52]
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 48]
+	setae	r11b
+	cmp	r14d, dword ptr [rdx + 44]
+	setae	r10b
+	cmp	r14d, dword ptr [rdx + 40]
+	setae	r9b
+	cmp	r14d, dword ptr [rdx + 36]
+	setae	dil
+	cmp	r14d, dword ptr [rdx + 28]
+	setae	al
+	cmp	r14d, dword ptr [rdx + 24]
+	setae	bl
+	cmp	r14d, dword ptr [rdx + 20]
+	setae	sil
+	cmp	r14d, dword ptr [rdx + 16]
+	setae	cl
+	cmp	r14d, dword ptr [rdx + 12]
+	setae	r13b
+	cmp	r14d, dword ptr [rdx + 8]
+	setae	r12b
+	cmp	r14d, dword ptr [rdx]
+	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 4]
+	setae	r15b
+	cmp	r14d, dword ptr [rdx + 32]
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 64]
+	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 96]
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	sub	rdx, -128
+	add	r15, 4
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB11_19
+# %bb.20:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
+.LBB11_21:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB11_201
+# %bb.22:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB11_137
+# %bb.23:
+	xor	r11d, r11d
+	jmp	.LBB11_24
+.LBB11_26:
+	cmp	edi, 8
+	jle	.LBB11_27
+# %bb.42:
+	cmp	edi, 9
+	je	.LBB11_157
+# %bb.43:
+	cmp	edi, 11
+	je	.LBB11_172
+# %bb.44:
+	cmp	edi, 12
+	jne	.LBB11_201
+# %bb.45:
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movsd	xmm0, qword ptr [rsi]           # xmm0 = mem[0],zero
+	sub	r9d, eax
+	je	.LBB11_49
+# %bb.46:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_47:                              # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	mov	esi, 0
+	adc	sil, -1
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	xor	sil, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, sil
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_47
+# %bb.48:
+	add	r15, 1
+.LBB11_49:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB11_53
+# %bb.50:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_51:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
+	ucomisd	xmm0, qword ptr [rdx]
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 8]
+	setae	r9b
+	ucomisd	xmm0, qword ptr [rdx + 16]
+	setae	r11b
+	ucomisd	xmm0, qword ptr [rdx + 24]
+	setae	r13b
+	ucomisd	xmm0, qword ptr [rdx + 32]
+	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 40]
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 48]
+	setae	bl
+	ucomisd	xmm0, qword ptr [rdx + 56]
+	setae	r12b
+	ucomisd	xmm0, qword ptr [rdx + 64]
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 72]
+	setae	sil
+	ucomisd	xmm0, qword ptr [rdx + 80]
+	setae	dil
+	ucomisd	xmm0, qword ptr [rdx + 88]
+	setae	r8b
+	ucomisd	xmm0, qword ptr [rdx + 96]
+	setae	r10b
+	ucomisd	xmm0, qword ptr [rdx + 104]
+	setae	r15b
+	ucomisd	xmm0, qword ptr [rdx + 112]
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 120]
+	setae	cl
+	ucomisd	xmm0, qword ptr [rdx + 128]
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 136]
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 144]
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 152]
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 160]
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 168]
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 176]
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 184]
+	setae	r14b
+	ucomisd	xmm0, qword ptr [rdx + 192]
+	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 200]
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 208]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 216]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 224]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 232]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 240]
+	setae	byte ptr [rsp]                  # 1-byte Folded Spill
+	ucomisd	xmm0, qword ptr [rdx + 248]
+	setae	al
+	add	r9b, r9b
+	add	r9b, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	bl, 6
+	shl	r12b, 7
+	or	r12b, bl
+	shl	r11b, 2
+	or	r11b, r9b
+	add	sil, sil
+	add	sil, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r11b
+	shl	dil, 2
+	or	dil, sil
+	movzx	ebx, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, r13b
+	mov	esi, ebx
+	shl	r8b, 3
+	or	r8b, dil
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	shl	r10b, 4
+	or	r10b, r8b
+	shl	r15b, 5
+	or	r15b, r10b
+	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	cl, 7
+	or	cl, sil
+	or	r12b, bl
+	or	cl, r15b
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	movzx	ebx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	add	bl, bl
+	add	bl, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	bl, 2
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	bl, 3
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	bl, 4
+	or	bl, sil
+	mov	esi, ebx
+	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	bl, 5
+	or	bl, sil
+	mov	byte ptr [r15], r12b
+	movzx	esi, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r14b, 7
+	or	r14b, sil
+	mov	byte ptr [r15 + 1], cl
+	or	r14b, bl
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, bl
+	mov	ebx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, bl
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], r14b
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 256
+	add	r15, 4
+	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
+	jne	.LBB11_51
+# %bb.52:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+.LBB11_53:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB11_201
+# %bb.54:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB11_195
+# %bb.55:
+	xor	r11d, r11d
+	jmp	.LBB11_197
+.LBB11_2:
+	cmp	edi, 2
+	je	.LBB11_56
+# %bb.3:
+	cmp	edi, 3
+	jne	.LBB11_201
+# %bb.4:
+	mov	r14b, byte ptr [rsi]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_8
+# %bb.5:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_6:                               # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	setge	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_6
+# %bb.7:
+	add	r15, 1
+.LBB11_8:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB11_9
+# %bb.81:
+	cmp	r10, 16
+	mov	byte ptr [rsp], r14b            # 1-byte Spill
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	jb	.LBB11_82
+# %bb.83:
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, rdx
+	cmp	r15, rax
+	jae	.LBB11_85
+# %bb.84:
+	lea	rax, [r15 + 4*r10]
+	cmp	rdx, rax
+	jae	.LBB11_85
+.LBB11_82:
+	xor	eax, eax
+	mov	qword ptr [rsp + 256], rax      # 8-byte Spill
+	mov	r13, r15
+.LBB11_88:
+	sub	r10, qword ptr [rsp + 256]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_89:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [rdx + 31]
+	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 30]
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 29]
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 28]
+	setge	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 27]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 26]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 25]
+	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 23]
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 22]
+	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 21]
+	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 20]
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 19]
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 18]
+	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 17]
+	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 15]
+	setge	r10b
+	cmp	r14b, byte ptr [rdx + 14]
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 13]
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 12]
+	setge	r12b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 11]
+	setge	r15b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 10]
+	setge	r14b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 9]
+	setge	r11b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 7]
+	setge	sil
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 6]
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 5]
+	setge	r9b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 4]
+	setge	r8b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 3]
+	setge	dil
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 2]
+	setge	cl
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx]
+	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 1]
+	setge	al
+	mov	rbx, r13
+	movzx	r13d, byte ptr [rsp]            # 1-byte Folded Reload
+	cmp	r13b, byte ptr [rdx + 8]
+	mov	r13, rbx
+	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	bl, byte ptr [rdx + 16]
+	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	bl, byte ptr [rdx + 24]
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	add	al, al
+	add	al, byte ptr [rsp + 208]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	shl	dil, 3
+	or	dil, cl
+	shl	r8b, 4
+	or	r8b, dil
+	shl	r9b, 5
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	sil, 7
+	or	sil, al
+	or	sil, r9b
+	mov	byte ptr [r13], sil
+	add	r11b, r11b
+	add	r11b, byte ptr [rsp + 224]      # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r11b
+	shl	r15b, 3
+	or	r15b, r14b
+	shl	r12b, 4
+	or	r12b, r15b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r12b
+	movzx	r14d, byte ptr [rsp]            # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r10b, 7
+	or	r10b, cl
+	or	r10b, al
+	mov	byte ptr [r13 + 1], r10b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r13 + 2], al
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r13 + 3], al
+	add	rdx, 32
+	add	r13, 4
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB11_89
+# %bb.90:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	jmp	.LBB11_91
+.LBB11_27:
+	cmp	edi, 7
+	je	.LBB11_139
+# %bb.28:
+	cmp	edi, 8
+	jne	.LBB11_201
+# %bb.29:
+	mov	r14, qword ptr [rsi]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_33
+# %bb.30:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_31:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	mov	esi, 0
+	adc	sil, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r15 + rbx]
+	xor	sil, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, sil
+	xor	dil, r8b
+	mov	byte ptr [r15 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_31
+# %bb.32:
+	add	r15, 1
+.LBB11_33:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB11_37
+# %bb.34:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_35:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
+	cmp	r14, qword ptr [rdx + 248]
+	setae	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 240]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 232]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 224]
+	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 216]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 208]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 200]
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 184]
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 176]
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 168]
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 160]
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 152]
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 144]
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 136]
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 120]
+	setae	r8b
+	cmp	r14, qword ptr [rdx + 112]
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 104]
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 96]
+	setae	r11b
+	cmp	r14, qword ptr [rdx + 88]
+	setae	r10b
+	cmp	r14, qword ptr [rdx + 80]
+	setae	r9b
+	cmp	r14, qword ptr [rdx + 72]
+	setae	dil
+	cmp	r14, qword ptr [rdx + 56]
+	setae	al
+	cmp	r14, qword ptr [rdx + 48]
+	setae	bl
+	cmp	r14, qword ptr [rdx + 40]
+	setae	sil
+	cmp	r14, qword ptr [rdx + 32]
+	setae	cl
+	cmp	r14, qword ptr [rdx + 24]
+	setae	r13b
+	cmp	r14, qword ptr [rdx + 16]
+	setae	r12b
+	cmp	r14, qword ptr [rdx]
+	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 8]
+	setae	r15b
+	cmp	r14, qword ptr [rdx + 64]
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 128]
+	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 192]
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 256
+	add	r15, 4
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB11_35
+# %bb.36:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
+.LBB11_37:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB11_201
+# %bb.38:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB11_155
+# %bb.39:
+	xor	r11d, r11d
+	jmp	.LBB11_40
+.LBB11_56:
+	mov	r14b, byte ptr [rsi]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_60
+# %bb.57:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_58:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [rdx]
+	lea	rdx, [rdx + 1]
+	mov	esi, 0
+	adc	sil, -1
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	xor	sil, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, sil
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_58
+# %bb.59:
+	add	r15, 1
+.LBB11_60:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB11_61
+# %bb.62:
+	cmp	r10, 16
+	mov	byte ptr [rsp], r14b            # 1-byte Spill
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 248], r10      # 8-byte Spill
+	jb	.LBB11_63
+# %bb.64:
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, rdx
+	cmp	r15, rax
+	jae	.LBB11_66
+# %bb.65:
+	lea	rax, [r15 + 4*r10]
+	cmp	rdx, rax
+	jae	.LBB11_66
+.LBB11_63:
+	xor	eax, eax
+	mov	qword ptr [rsp + 192], rax      # 8-byte Spill
+	mov	r13, r15
+.LBB11_69:
+	sub	r10, qword ptr [rsp + 192]      # 8-byte Folded Reload
+	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_70:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [rdx + 31]
+	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 30]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 29]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 28]
+	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 27]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 26]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 25]
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 23]
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 22]
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 21]
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 20]
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 19]
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 18]
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 17]
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 15]
+	setae	r10b
+	cmp	r14b, byte ptr [rdx + 14]
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 13]
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14b, byte ptr [rdx + 12]
+	setae	r12b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 11]
+	setae	r15b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 10]
+	setae	r14b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 9]
+	setae	r11b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 7]
+	setae	sil
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 6]
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 5]
+	setae	r9b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 4]
+	setae	r8b
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 3]
+	setae	dil
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 2]
+	setae	cl
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx]
+	setae	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	al, byte ptr [rdx + 1]
+	setae	al
+	mov	rbx, r13
+	movzx	r13d, byte ptr [rsp]            # 1-byte Folded Reload
+	cmp	r13b, byte ptr [rdx + 8]
+	mov	r13, rbx
+	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	bl, byte ptr [rdx + 16]
+	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	movzx	ebx, byte ptr [rsp]             # 1-byte Folded Reload
+	cmp	bl, byte ptr [rdx + 24]
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	add	al, al
+	add	al, byte ptr [rsp + 208]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, al
+	shl	dil, 3
+	or	dil, cl
+	shl	r8b, 4
+	or	r8b, dil
+	shl	r9b, 5
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	sil, 7
+	or	sil, al
+	or	sil, r9b
+	mov	byte ptr [r13], sil
+	add	r11b, r11b
+	add	r11b, byte ptr [rsp + 224]      # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r11b
+	shl	r15b, 3
+	or	r15b, r14b
+	shl	r12b, 4
+	or	r12b, r15b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r12b
+	movzx	r14d, byte ptr [rsp]            # 1-byte Folded Reload
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r10b, 7
+	or	r10b, cl
+	or	r10b, al
+	mov	byte ptr [r13 + 1], r10b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r13 + 2], al
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r13 + 3], al
+	add	rdx, 32
+	add	r13, 4
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB11_70
+# %bb.71:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	jmp	.LBB11_72
+.LBB11_139:
+	mov	r14d, dword ptr [rsi]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_143
+# %bb.140:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_141:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14d, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	setge	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r15 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_141
+# %bb.142:
+	add	r15, 1
+.LBB11_143:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB11_147
+# %bb.144:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_145:                             # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
+	cmp	r14d, dword ptr [rdx + 124]
+	setge	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 120]
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 116]
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 112]
+	setge	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 108]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 104]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 100]
+	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 92]
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 88]
+	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 84]
+	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 80]
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 76]
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 72]
+	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 68]
+	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 60]
+	setge	r8b
+	cmp	r14d, dword ptr [rdx + 56]
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 52]
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 48]
+	setge	r11b
+	cmp	r14d, dword ptr [rdx + 44]
+	setge	r10b
+	cmp	r14d, dword ptr [rdx + 40]
+	setge	r9b
+	cmp	r14d, dword ptr [rdx + 36]
+	setge	dil
+	cmp	r14d, dword ptr [rdx + 28]
+	setge	al
+	cmp	r14d, dword ptr [rdx + 24]
+	setge	bl
+	cmp	r14d, dword ptr [rdx + 20]
+	setge	sil
+	cmp	r14d, dword ptr [rdx + 16]
+	setge	cl
+	cmp	r14d, dword ptr [rdx + 12]
+	setge	r13b
+	cmp	r14d, dword ptr [rdx + 8]
+	setge	r12b
+	cmp	r14d, dword ptr [rdx]
+	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 4]
+	setge	r15b
+	cmp	r14d, dword ptr [rdx + 32]
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 64]
+	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r14d, dword ptr [rdx + 96]
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	sub	rdx, -128
+	add	r15, 4
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB11_145
+# %bb.146:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
+.LBB11_147:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB11_201
+# %bb.148:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB11_153
+# %bb.149:
+	xor	edi, edi
+	jmp	.LBB11_150
+.LBB11_99:
+	movzx	r14d, word ptr [rsi]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_103
+# %bb.100:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_101:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14w, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	mov	esi, 0
+	adc	sil, -1
+	lea	rbx, [rax + 7]
+	test	rax, rax
+	cmovns	rbx, rax
+	sar	rbx, 3
+	movzx	r8d, byte ptr [r15 + rbx]
+	xor	sil, r8b
+	lea	edi, [8*rbx]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, sil
+	xor	dil, r8b
+	mov	byte ptr [r15 + rbx], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_101
+# %bb.102:
+	add	r15, 1
+.LBB11_103:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB11_107
+# %bb.104:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_105:                             # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
+	cmp	r14w, word ptr [rdx + 62]
+	setae	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 60]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 58]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 56]
+	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 54]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 52]
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 50]
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 46]
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 44]
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 42]
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 40]
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 38]
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 36]
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 34]
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 30]
+	setae	r8b
+	cmp	r14w, word ptr [rdx + 28]
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 26]
+	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 24]
+	setae	r11b
+	cmp	r14w, word ptr [rdx + 22]
+	setae	r10b
+	cmp	r14w, word ptr [rdx + 20]
+	setae	r9b
+	cmp	r14w, word ptr [rdx + 18]
+	setae	dil
+	cmp	r14w, word ptr [rdx + 14]
+	setae	al
+	cmp	r14w, word ptr [rdx + 12]
+	setae	bl
+	cmp	r14w, word ptr [rdx + 10]
+	setae	sil
+	cmp	r14w, word ptr [rdx + 8]
+	setae	cl
+	cmp	r14w, word ptr [rdx + 6]
+	setae	r13b
+	cmp	r14w, word ptr [rdx + 4]
+	setae	r12b
+	cmp	r14w, word ptr [rdx]
+	setae	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 2]
+	setae	r15b
+	cmp	r14w, word ptr [rdx + 16]
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 32]
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rdx + 48]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 32]         # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 64
+	add	r15, 4
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB11_105
+# %bb.106:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
+.LBB11_107:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB11_201
+# %bb.108:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB11_112
+# %bb.109:
+	xor	r11d, r11d
+	jmp	.LBB11_110
+.LBB11_114:
+	movzx	r14d, word ptr [rsi]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_118
+# %bb.115:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_116:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14w, word ptr [rdx]
+	lea	rdx, [rdx + 2]
+	setge	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	xor	bl, r9b
+	lea	r8d, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r9b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_116
+# %bb.117:
+	add	r15, 1
+.LBB11_118:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB11_119
+# %bb.120:
+	cmp	r10, 8
+	mov	dword ptr [rsp], r14d           # 4-byte Spill
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 256], r10      # 8-byte Spill
+	jb	.LBB11_121
+# %bb.122:
+	mov	rax, r10
+	shl	rax, 6
+	add	rax, rdx
+	cmp	r15, rax
+	jae	.LBB11_124
+# %bb.123:
+	lea	rax, [r15 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB11_124
+.LBB11_121:
+	xor	eax, eax
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	rax, rdx
+	mov	r12, r15
+.LBB11_127:
+	sub	r10, qword ptr [rsp + 32]       # 8-byte Folded Reload
+	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_128:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14w, word ptr [rax + 62]
+	setge	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 60]
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 58]
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 56]
+	setge	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 54]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 52]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 50]
+	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 46]
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 44]
+	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 42]
+	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 40]
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 38]
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 36]
+	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 34]
+	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 30]
+	setge	r10b
+	cmp	r14w, word ptr [rax + 28]
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 26]
+	mov	rcx, rax
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	cmp	r14w, word ptr [rax + 24]
+	setge	r13b
+	mov	eax, dword ptr [rsp]            # 4-byte Reload
+	cmp	ax, word ptr [rcx + 22]
+	setge	r15b
+	mov	eax, dword ptr [rsp]            # 4-byte Reload
+	cmp	ax, word ptr [rcx + 20]
+	setge	r14b
+	mov	eax, dword ptr [rsp]            # 4-byte Reload
+	cmp	ax, word ptr [rcx + 18]
+	setge	r11b
+	mov	eax, dword ptr [rsp]            # 4-byte Reload
+	cmp	ax, word ptr [rcx + 14]
+	setge	sil
+	mov	eax, dword ptr [rsp]            # 4-byte Reload
+	cmp	ax, word ptr [rcx + 12]
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp]            # 4-byte Reload
+	cmp	ax, word ptr [rcx + 10]
+	setge	r9b
+	mov	eax, dword ptr [rsp]            # 4-byte Reload
+	cmp	ax, word ptr [rcx + 8]
+	setge	r8b
+	mov	eax, dword ptr [rsp]            # 4-byte Reload
+	cmp	ax, word ptr [rcx + 6]
+	setge	dil
+	mov	eax, dword ptr [rsp]            # 4-byte Reload
+	cmp	ax, word ptr [rcx + 4]
+	setge	dl
+	mov	eax, dword ptr [rsp]            # 4-byte Reload
+	cmp	ax, word ptr [rcx]
+	setge	byte ptr [rsp + 208]            # 1-byte Folded Spill
+	mov	eax, dword ptr [rsp]            # 4-byte Reload
+	cmp	ax, word ptr [rcx + 2]
+	setge	al
+	mov	rbx, r12
+	mov	r12d, dword ptr [rsp]           # 4-byte Reload
+	cmp	r12w, word ptr [rcx + 16]
+	mov	r12, rbx
+	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp]            # 4-byte Reload
+	cmp	bx, word ptr [rcx + 32]
+	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	mov	ebx, dword ptr [rsp]            # 4-byte Reload
+	cmp	bx, word ptr [rcx + 48]
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	add	al, al
+	add	al, byte ptr [rsp + 208]        # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	shl	dil, 3
+	or	dil, dl
+	shl	r8b, 4
+	or	r8b, dil
+	shl	r9b, 5
+	or	r9b, r8b
+	movzx	eax, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	sil, 7
+	or	sil, al
+	or	sil, r9b
+	mov	byte ptr [r12], sil
+	add	r11b, r11b
+	add	r11b, byte ptr [rsp + 224]      # 1-byte Folded Reload
+	shl	r14b, 2
+	or	r14b, r11b
+	shl	r15b, 3
+	or	r15b, r14b
+	shl	r13b, 4
+	or	r13b, r15b
+	movzx	eax, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r13b
+	mov	r14d, dword ptr [rsp]           # 4-byte Reload
+	movzx	edx, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	dl, 6
+	shl	r10b, 7
+	or	r10b, dl
+	or	r10b, al
+	mov	rax, rcx
+	mov	byte ptr [r12 + 1], r10b
+	movzx	ecx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ebx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	ecx, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	cl, 7
+	or	cl, bl
+	or	cl, dl
+	mov	byte ptr [r12 + 2], cl
+	movzx	ecx, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	cl, cl
+	add	cl, byte ptr [rsp + 160]        # 1-byte Folded Reload
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	cl, 2
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	cl, 3
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	cl, 4
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ecx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	cl, 5
+	or	cl, dl
+	mov	edx, ecx
+	movzx	ebx, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	ecx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	cl, 7
+	or	cl, bl
+	or	cl, dl
+	mov	byte ptr [r12 + 3], cl
+	add	rax, 64
+	add	r12, 4
+	add	qword ptr [rsp + 192], -1       # 8-byte Folded Spill
+	jne	.LBB11_128
+# %bb.129:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
+	jmp	.LBB11_130
+.LBB11_157:
+	mov	r14, qword ptr [rsi]
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	sub	r9d, eax
+	je	.LBB11_161
+# %bb.158:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_159:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14, qword ptr [rdx]
+	lea	rdx, [rdx + 8]
+	setge	bl
+	neg	bl
+	lea	rsi, [rax + 7]
+	test	rax, rax
+	cmovns	rsi, rax
+	sar	rsi, 3
+	movzx	r8d, byte ptr [r15 + rsi]
+	xor	bl, r8b
+	lea	edi, [8*rsi]
+	mov	ecx, eax
+	sub	ecx, edi
+	mov	edi, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	edi, cl
+	and	dil, bl
+	xor	dil, r8b
+	mov	byte ptr [r15 + rsi], dil
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_159
+# %bb.160:
+	add	r15, 1
+.LBB11_161:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB11_165
+# %bb.162:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_163:                             # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
+	cmp	r14, qword ptr [rdx + 248]
+	setge	byte ptr [rsp]                  # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 240]
+	setge	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 232]
+	setge	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 224]
+	setge	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 216]
+	setge	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 208]
+	setge	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 200]
+	setge	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 184]
+	setge	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 176]
+	setge	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 168]
+	setge	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 160]
+	setge	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 152]
+	setge	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 144]
+	setge	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 136]
+	setge	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 120]
+	setge	r8b
+	cmp	r14, qword ptr [rdx + 112]
+	setge	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 104]
+	setge	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 96]
+	setge	r11b
+	cmp	r14, qword ptr [rdx + 88]
+	setge	r10b
+	cmp	r14, qword ptr [rdx + 80]
+	setge	r9b
+	cmp	r14, qword ptr [rdx + 72]
+	setge	dil
+	cmp	r14, qword ptr [rdx + 56]
+	setge	al
+	cmp	r14, qword ptr [rdx + 48]
+	setge	bl
+	cmp	r14, qword ptr [rdx + 40]
+	setge	sil
+	cmp	r14, qword ptr [rdx + 32]
+	setge	cl
+	cmp	r14, qword ptr [rdx + 24]
+	setge	r13b
+	cmp	r14, qword ptr [rdx + 16]
+	setge	r12b
+	cmp	r14, qword ptr [rdx]
+	setge	byte ptr [rsp + 224]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 8]
+	setge	r15b
+	cmp	r14, qword ptr [rdx + 64]
+	setge	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 128]
+	setge	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	cmp	r14, qword ptr [rdx + 192]
+	setge	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	add	r15b, r15b
+	add	r15b, byte ptr [rsp + 224]      # 1-byte Folded Reload
+	shl	r12b, 2
+	or	r12b, r15b
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	shl	r13b, 3
+	or	r13b, r12b
+	shl	cl, 4
+	or	cl, r13b
+	shl	sil, 5
+	or	sil, cl
+	shl	bl, 6
+	shl	al, 7
+	or	al, bl
+	or	al, sil
+	mov	byte ptr [r15], al
+	add	dil, dil
+	add	dil, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	r9b, 2
+	or	r9b, dil
+	shl	r10b, 3
+	or	r10b, r9b
+	shl	r11b, 4
+	or	r11b, r10b
+	movzx	eax, byte ptr [rsp + 112]       # 1-byte Folded Reload
+	shl	al, 5
+	or	al, r11b
+	movzx	ecx, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	cl, 6
+	shl	r8b, 7
+	or	r8b, cl
+	or	r8b, al
+	mov	byte ptr [r15 + 1], r8b
+	movzx	eax, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 176]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 96]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 2], al
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 144]        # 1-byte Folded Reload
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 24]        # 1-byte Folded Reload
+	shl	al, 4
+	or	al, cl
+	mov	ecx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 5
+	or	al, cl
+	mov	ecx, eax
+	movzx	ebx, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	bl, 6
+	movzx	eax, byte ptr [rsp]             # 1-byte Folded Reload
+	shl	al, 7
+	or	al, bl
+	or	al, cl
+	mov	byte ptr [r15 + 3], al
+	add	rdx, 256
+	add	r15, 4
+	add	qword ptr [rsp + 208], -1       # 8-byte Folded Spill
+	jne	.LBB11_163
+# %bb.164:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 192]      # 8-byte Reload
+.LBB11_165:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB11_201
+# %bb.166:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB11_170
+# %bb.167:
+	xor	edi, edi
+	jmp	.LBB11_168
+.LBB11_172:
+	lea	r10, [r11 + 31]
+	test	r11, r11
+	cmovns	r10, r11
+	lea	eax, [r9 + 7]
+	test	r9d, r9d
+	cmovns	eax, r9d
+	and	eax, -8
+	movss	xmm0, dword ptr [rsi]           # xmm0 = mem[0],zero,zero,zero
+	sub	r9d, eax
+	je	.LBB11_176
+# %bb.173:
+	movsxd	rax, r9d
+	.p2align	4, 0x90
+.LBB11_174:                             # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rdx]
+	lea	rdx, [rdx + 4]
+	mov	esi, 0
+	adc	sil, -1
+	lea	rdi, [rax + 7]
+	test	rax, rax
+	cmovns	rdi, rax
+	sar	rdi, 3
+	movzx	r9d, byte ptr [r15 + rdi]
+	xor	sil, r9b
+	lea	r8d, [8*rdi]
+	mov	ecx, eax
+	sub	ecx, r8d
+	mov	ebx, 1
+                                        # kill: def $cl killed $cl killed $ecx
+	shl	ebx, cl
+	and	bl, sil
+	xor	bl, r9b
+	mov	byte ptr [r15 + rdi], bl
+	add	rax, 1
+	cmp	rax, 8
+	jne	.LBB11_174
+# %bb.175:
+	add	r15, 1
+.LBB11_176:
+	sar	r10, 5
+	cmp	r11, 32
+	jl	.LBB11_177
+# %bb.178:
+	cmp	r10, 4
+	jb	.LBB11_179
+# %bb.180:
+	mov	rax, r10
+	shl	rax, 7
+	add	rax, rdx
+	cmp	r15, rax
+	jae	.LBB11_182
+# %bb.181:
+	lea	rax, [r15 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB11_182
+.LBB11_179:
+	xor	r8d, r8d
+	mov	rbx, rdx
+	mov	r14, r15
+.LBB11_185:
+	mov	qword ptr [rsp + 136], r11      # 8-byte Spill
+	mov	qword ptr [rsp + 208], r10      # 8-byte Spill
+	sub	r10, r8
+	mov	qword ptr [rsp + 224], r10      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_186:                             # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp], r14            # 8-byte Spill
+	ucomiss	xmm0, dword ptr [rbx]
+	setae	byte ptr [rsp + 128]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 4]
+	setae	r8b
+	ucomiss	xmm0, dword ptr [rbx + 8]
+	setae	r14b
+	ucomiss	xmm0, dword ptr [rbx + 12]
+	setae	r13b
+	ucomiss	xmm0, dword ptr [rbx + 16]
+	setae	byte ptr [rsp + 104]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 20]
+	setae	byte ptr [rsp + 64]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 24]
+	setae	al
+	ucomiss	xmm0, dword ptr [rbx + 28]
+	setae	r11b
+	ucomiss	xmm0, dword ptr [rbx + 32]
+	setae	byte ptr [rsp + 112]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 36]
+	setae	dl
+	ucomiss	xmm0, dword ptr [rbx + 40]
+	setae	sil
+	ucomiss	xmm0, dword ptr [rbx + 44]
+	setae	r9b
+	ucomiss	xmm0, dword ptr [rbx + 48]
+	setae	r10b
+	ucomiss	xmm0, dword ptr [rbx + 52]
+	setae	r12b
+	ucomiss	xmm0, dword ptr [rbx + 56]
+	setae	byte ptr [rsp + 160]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 60]
+	setae	dil
+	ucomiss	xmm0, dword ptr [rbx + 64]
+	setae	byte ptr [rsp + 96]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 68]
+	setae	byte ptr [rsp + 176]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 72]
+	setae	byte ptr [rsp + 144]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 76]
+	setae	byte ptr [rsp + 88]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 80]
+	setae	byte ptr [rsp + 80]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 84]
+	setae	byte ptr [rsp + 72]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 88]
+	setae	byte ptr [rsp + 48]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 92]
+	setae	r15b
+	ucomiss	xmm0, dword ptr [rbx + 96]
+	setae	byte ptr [rsp + 24]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 100]
+	setae	byte ptr [rsp + 56]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 104]
+	setae	byte ptr [rsp + 32]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 108]
+	setae	byte ptr [rsp + 40]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 112]
+	setae	byte ptr [rsp + 8]              # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 116]
+	setae	byte ptr [rsp + 16]             # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 120]
+	setae	byte ptr [rsp + 120]            # 1-byte Folded Spill
+	ucomiss	xmm0, dword ptr [rbx + 124]
+	setae	cl
+	add	r8b, r8b
+	add	r8b, byte ptr [rsp + 128]       # 1-byte Folded Reload
+	shl	al, 6
+	shl	r11b, 7
+	or	r11b, al
+	shl	r14b, 2
+	or	r14b, r8b
+	add	dl, dl
+	add	dl, byte ptr [rsp + 112]        # 1-byte Folded Reload
+	shl	r13b, 3
+	or	r13b, r14b
+	shl	sil, 2
+	or	sil, dl
+	movzx	edx, byte ptr [rsp + 104]       # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, r13b
+	mov	r8d, edx
+	mov	r14, qword ptr [rsp]            # 8-byte Reload
+	shl	r9b, 3
+	or	r9b, sil
+	movzx	edx, byte ptr [rsp + 64]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, r8b
+	shl	r10b, 4
+	or	r10b, r9b
+	shl	r12b, 5
+	or	r12b, r10b
+	movzx	esi, byte ptr [rsp + 160]       # 1-byte Folded Reload
+	shl	sil, 6
+	shl	dil, 7
+	or	dil, sil
+	or	r11b, dl
+	or	dil, r12b
+	movzx	eax, byte ptr [rsp + 176]       # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 96]         # 1-byte Folded Reload
+	movzx	edx, byte ptr [rsp + 144]       # 1-byte Folded Reload
+	shl	dl, 2
+	or	dl, al
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 88]        # 1-byte Folded Reload
+	shl	dl, 3
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 80]        # 1-byte Folded Reload
+	shl	dl, 4
+	or	dl, sil
+	mov	esi, edx
+	movzx	edx, byte ptr [rsp + 72]        # 1-byte Folded Reload
+	shl	dl, 5
+	or	dl, sil
+	mov	byte ptr [r14], r11b
+	movzx	esi, byte ptr [rsp + 48]        # 1-byte Folded Reload
+	shl	sil, 6
+	shl	r15b, 7
+	or	r15b, sil
+	mov	byte ptr [r14 + 1], dil
+	or	r15b, dl
+	movzx	eax, byte ptr [rsp + 56]        # 1-byte Folded Reload
+	add	al, al
+	add	al, byte ptr [rsp + 24]         # 1-byte Folded Reload
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 32]        # 1-byte Folded Reload
+	shl	al, 2
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 40]        # 1-byte Folded Reload
+	shl	al, 3
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 8]         # 1-byte Folded Reload
+	shl	al, 4
+	or	al, dl
+	mov	edx, eax
+	movzx	eax, byte ptr [rsp + 16]        # 1-byte Folded Reload
+	shl	al, 5
+	or	al, dl
+	movzx	edx, byte ptr [rsp + 120]       # 1-byte Folded Reload
+	shl	dl, 6
+	shl	cl, 7
+	or	cl, dl
+	or	cl, al
+	mov	byte ptr [r14 + 2], r15b
+	mov	byte ptr [r14 + 3], cl
+	add	rbx, 128
+	add	r14, 4
+	add	qword ptr [rsp + 224], -1       # 8-byte Folded Spill
+	jne	.LBB11_186
+# %bb.187:
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r10, qword ptr [rsp + 208]      # 8-byte Reload
+	jmp	.LBB11_188
+.LBB11_9:
+	mov	r13, r15
+.LBB11_91:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB11_201
+# %bb.92:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB11_94
+# %bb.93:
+	xor	esi, esi
+	jmp	.LBB11_97
+.LBB11_61:
+	mov	r13, r15
+.LBB11_72:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB11_201
+# %bb.73:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB11_75
+# %bb.74:
+	xor	r9d, r9d
+	jmp	.LBB11_78
+.LBB11_119:
+	mov	r12, r15
+	mov	rax, rdx
+.LBB11_130:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB11_201
+# %bb.131:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB11_135
+# %bb.132:
+	xor	esi, esi
+	jmp	.LBB11_133
+.LBB11_177:
+	mov	r14, r15
+	mov	rbx, rdx
+.LBB11_188:
+	shl	r10, 5
+	cmp	r10, r11
+	jge	.LBB11_201
+# %bb.189:
+	mov	r8, r11
+	sub	r8, r10
+	not	r10
+	add	r10, r11
+	jne	.LBB11_193
+# %bb.190:
+	xor	r11d, r11d
+	jmp	.LBB11_191
+.LBB11_155:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB11_156:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14, qword ptr [rdx]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r15 + rsi]
+	xor	dil, r10b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rsi], al
+	add	r11, 2
+	cmp	r14, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rsi], bl
+	cmp	r9, r11
+	jne	.LBB11_156
+.LBB11_40:
+	test	r8b, 1
+	je	.LBB11_201
+# %bb.41:
+	xor	eax, eax
+	cmp	r14, qword ptr [rdx]
+	jmp	.LBB11_199
+.LBB11_153:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB11_154:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14d, dword ptr [rdx]
+	setge	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	rdi, 2
+	cmp	r14d, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	setge	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB11_154
+.LBB11_150:
+	test	r8b, 1
+	je	.LBB11_201
+# %bb.151:
+	cmp	r14d, dword ptr [rdx]
+	jmp	.LBB11_152
+.LBB11_94:
+	mov	r10, r8
+	and	r10, -2
+	xor	esi, esi
+	.p2align	4, 0x90
+.LBB11_95:                              # =>This Inner Loop Header: Depth=1
+	cmp	r14b, byte ptr [rdx + rsi]
+	setge	al
+	neg	al
+	mov	rdi, rsi
+	shr	rdi, 3
+	mov	ecx, esi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	movzx	r9d, byte ptr [r13 + rdi]
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r13 + rdi], bl
+	cmp	r14b, byte ptr [rdx + rsi + 1]
+	lea	rsi, [rsi + 2]
+	setge	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r13 + rdi], al
+	cmp	r10, rsi
+	jne	.LBB11_95
+# %bb.96:
+	add	rdx, rsi
+.LBB11_97:
+	test	r8b, 1
+	je	.LBB11_201
+# %bb.98:
+	cmp	r14b, byte ptr [rdx]
+	setge	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	dil, byte ptr [r13 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	jmp	.LBB11_80
+.LBB11_75:
+	mov	r10, r8
+	and	r10, -2
+	xor	r9d, r9d
+	.p2align	4, 0x90
+.LBB11_76:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r9
+	cmp	r14b, byte ptr [rdx + r9]
+	mov	esi, 0
+	adc	sil, -1
+	mov	rdi, r9
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r13 + rdi]
+	mov	ecx, eax
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	sil, r9b
+	and	bl, sil
+	xor	bl, r9b
+	mov	byte ptr [r13 + rdi], bl
+	cmp	r14b, byte ptr [rdx + rax + 1]
+	lea	r9, [rax + 2]
+	mov	esi, 0
+	adc	sil, -1
+	xor	sil, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, sil
+	xor	al, bl
+	mov	byte ptr [r13 + rdi], al
+	cmp	r10, r9
+	jne	.LBB11_76
+# %bb.77:
+	add	rdx, r9
+.LBB11_78:
+	test	r8b, 1
+	je	.LBB11_201
+# %bb.79:
+	xor	eax, eax
+	cmp	r14b, byte ptr [rdx]
+	adc	al, -1
+	mov	rdx, r9
+	shr	rdx, 3
+	mov	dil, byte ptr [r13 + rdx]
+	and	r9b, 7
+	mov	bl, 1
+	mov	ecx, r9d
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+.LBB11_80:
+	xor	bl, dil
+	mov	byte ptr [r13 + rdx], bl
+	jmp	.LBB11_201
+.LBB11_137:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB11_138:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14d, dword ptr [rdx]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r15 + rsi]
+	xor	dil, r10b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rsi], al
+	add	r11, 2
+	cmp	r14d, dword ptr [rdx + 4]
+	lea	rdx, [rdx + 8]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rsi], bl
+	cmp	r9, r11
+	jne	.LBB11_138
+.LBB11_24:
+	test	r8b, 1
+	je	.LBB11_201
+# %bb.25:
+	xor	eax, eax
+	cmp	r14d, dword ptr [rdx]
+	jmp	.LBB11_199
+.LBB11_195:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB11_196:                             # =>This Inner Loop Header: Depth=1
+	ucomisd	xmm0, qword ptr [rdx]
+	mov	eax, 0
+	adc	al, -1
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	r11, 2
+	ucomisd	xmm0, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, r11
+	jne	.LBB11_196
+.LBB11_197:
+	test	r8b, 1
+	je	.LBB11_201
+# %bb.198:
+	xor	eax, eax
+	ucomisd	xmm0, qword ptr [rdx]
+	jmp	.LBB11_199
+.LBB11_112:
+	mov	r9, r8
+	and	r9, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB11_113:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14w, word ptr [rdx]
+	mov	edi, 0
+	adc	dil, -1
+	mov	rsi, r11
+	shr	rsi, 3
+	movzx	r10d, byte ptr [r15 + rsi]
+	xor	dil, r10b
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	and	al, dil
+	xor	al, r10b
+	mov	byte ptr [r15 + rsi], al
+	add	r11, 2
+	cmp	r14w, word ptr [rdx + 2]
+	lea	rdx, [rdx + 4]
+	mov	edi, 0
+	adc	dil, -1
+	xor	dil, al
+	or	cl, 1
+	mov	bl, 1
+	shl	bl, cl
+	and	bl, dil
+	xor	bl, al
+	mov	byte ptr [r15 + rsi], bl
+	cmp	r9, r11
+	jne	.LBB11_113
+.LBB11_110:
+	test	r8b, 1
+	je	.LBB11_201
+# %bb.111:
+	xor	eax, eax
+	cmp	r14w, word ptr [rdx]
+.LBB11_199:
+	adc	al, -1
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r15 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	jmp	.LBB11_200
+.LBB11_170:
+	mov	r10, r8
+	and	r10, -2
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB11_171:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14, qword ptr [rdx]
+	setge	al
+	neg	al
+	mov	rsi, rdi
+	shr	rsi, 3
+	movzx	r9d, byte ptr [r15 + rsi]
+	mov	ecx, edi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	al, r9b
+	and	bl, al
+	xor	bl, r9b
+	mov	byte ptr [r15 + rsi], bl
+	add	rdi, 2
+	cmp	r14, qword ptr [rdx + 8]
+	lea	rdx, [rdx + 16]
+	setge	r9b
+	neg	r9b
+	xor	r9b, bl
+	or	cl, 1
+	mov	al, 1
+	shl	al, cl
+	and	al, r9b
+	xor	al, bl
+	mov	byte ptr [r15 + rsi], al
+	cmp	r10, rdi
+	jne	.LBB11_171
+.LBB11_168:
+	test	r8b, 1
+	je	.LBB11_201
+# %bb.169:
+	cmp	r14, qword ptr [rdx]
+.LBB11_152:
+	setge	al
+	neg	al
+	mov	rdx, rdi
+	shr	rdx, 3
+	mov	sil, byte ptr [r15 + rdx]
+	and	dil, 7
+	mov	bl, 1
+	mov	ecx, edi
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+.LBB11_200:
+	xor	bl, sil
+	mov	byte ptr [r15 + rdx], bl
+.LBB11_201:
+	lea	rsp, [rbp - 40]
+	pop	rbx
+	pop	r12
+	pop	r13
+	pop	r14
+	pop	r15
+	pop	rbp
+	ret
+.LBB11_135:
+	mov	r9, r8
+	and	r9, -2
+	xor	esi, esi
+	.p2align	4, 0x90
+.LBB11_136:                             # =>This Inner Loop Header: Depth=1
+	cmp	r14w, word ptr [rax]
+	setge	dl
+	neg	dl
+	mov	rdi, rsi
+	shr	rdi, 3
+	movzx	r10d, byte ptr [r12 + rdi]
+	mov	ecx, esi
+	and	cl, 6
+	mov	bl, 1
+	shl	bl, cl
+	xor	dl, r10b
+	and	bl, dl
+	xor	bl, r10b
+	mov	byte ptr [r12 + rdi], bl
+	add	rsi, 2
+	cmp	r14w, word ptr [rax + 2]
+	lea	rax, [rax + 4]
+	setge	r10b
+	neg	r10b
+	xor	r10b, bl
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, r10b
+	xor	dl, bl
+	mov	byte ptr [r12 + rdi], dl
+	cmp	r9, rsi
+	jne	.LBB11_136
+.LBB11_133:
+	test	r8b, 1
+	je	.LBB11_201
+# %bb.134:
+	cmp	r14w, word ptr [rax]
+	setge	al
+	neg	al
+	mov	rdx, rsi
+	shr	rdx, 3
+	mov	dil, byte ptr [r12 + rdx]
+	and	sil, 7
+	mov	bl, 1
+	mov	ecx, esi
+	shl	bl, cl
+	xor	al, dil
+	and	bl, al
+	xor	bl, dil
+	mov	byte ptr [r12 + rdx], bl
+	jmp	.LBB11_201
+.LBB11_193:
+	mov	r10, r8
+	and	r10, -2
+	xor	r11d, r11d
+	.p2align	4, 0x90
+.LBB11_194:                             # =>This Inner Loop Header: Depth=1
+	ucomiss	xmm0, dword ptr [rbx]
+	mov	edx, 0
+	adc	dl, -1
+	mov	rdi, r11
+	shr	rdi, 3
+	movzx	r9d, byte ptr [r14 + rdi]
+	mov	ecx, r11d
+	and	cl, 6
+	mov	al, 1
+	shl	al, cl
+	xor	dl, r9b
+	and	al, dl
+	xor	al, r9b
+	mov	byte ptr [r14 + rdi], al
+	add	r11, 2
+	ucomiss	xmm0, dword ptr [rbx + 4]
+	lea	rbx, [rbx + 8]
+	mov	esi, 0
+	adc	sil, -1
+	xor	sil, al
+	or	cl, 1
+	mov	dl, 1
+	shl	dl, cl
+	and	dl, sil
+	xor	dl, al
+	mov	byte ptr [r14 + rdi], dl
+	cmp	r10, r11
+	jne	.LBB11_194
+.LBB11_191:
+	test	r8b, 1
+	je	.LBB11_201
+# %bb.192:
+	xor	eax, eax
+	ucomiss	xmm0, dword ptr [rbx]
+	adc	al, -1
+	mov	rdx, r11
+	shr	rdx, 3
+	mov	sil, byte ptr [r14 + rdx]
+	and	r11b, 7
+	mov	bl, 1
+	mov	ecx, r11d
+	shl	bl, cl
+	xor	al, sil
+	and	bl, al
+	xor	bl, sil
+	mov	byte ptr [r14 + rdx], bl
+	jmp	.LBB11_201
+.LBB11_85:
+	and	r10, -16
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 280], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 256], r10      # 8-byte Spill
+	lea	rax, [r15 + 4*r10]
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	movzx	eax, r14b
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 144], xmm1   # 16-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
+	.p2align	4, 0x90
+.LBB11_86:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 224], rax      # 8-byte Spill
+	shl	rax, 5
+	mov	rdi, rax
+	mov	rsi, rax
+	mov	r9, rax
+	mov	r10, rax
+	mov	r12, rax
+	mov	r14, rax
+	mov	r15, rax
+	mov	r13, rax
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	mov	r11, rax
+	mov	r8, rax
+	movzx	ecx, byte ptr [rdx + rax]
+	movd	xmm4, ecx
+	movzx	ecx, byte ptr [rdx + rax + 1]
+	movd	xmm3, ecx
+	movzx	ecx, byte ptr [rdx + rax + 2]
+	movd	xmm5, ecx
+	movzx	ecx, byte ptr [rdx + rax + 3]
+	movd	xmm7, ecx
+	movzx	ecx, byte ptr [rdx + rax + 4]
+	movd	xmm9, ecx
+	movzx	ecx, byte ptr [rdx + rax + 5]
+	movd	xmm2, ecx
+	movzx	ecx, byte ptr [rdx + rax + 6]
+	movd	xmm8, ecx
+	movzx	ecx, byte ptr [rdx + rax + 7]
+	movd	xmm14, ecx
+	movzx	ecx, byte ptr [rdx + rax + 8]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 192], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rdx + rax + 9]
+	movd	xmm11, ecx
+	movzx	ecx, byte ptr [rdx + rax + 10]
+	movd	xmm12, ecx
+	movzx	ecx, byte ptr [rdx + rax + 11]
+	movd	xmm13, ecx
+	movzx	ecx, byte ptr [rdx + rax + 12]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 208], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rdx + rax + 13]
+	movd	xmm6, ecx
+	movzx	ecx, byte ptr [rdx + rax + 14]
+	movd	xmm15, ecx
+	movzx	ecx, byte ptr [rdx + rax + 15]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 160], xmm0   # 16-byte Spill
+	mov	qword ptr [rsp + 72], rax       # 8-byte Spill
+	mov	rbx, rax
+	or	rbx, 32
+	mov	qword ptr [rsp + 8], rbx        # 8-byte Spill
+	or	rdi, 64
+	mov	qword ptr [rsp + 32], rdi       # 8-byte Spill
+	or	rsi, 96
+	mov	qword ptr [rsp + 24], rsi       # 8-byte Spill
+	or	r9, 128
+	or	r10, 160
+	or	r12, 192
+	mov	qword ptr [rsp + 64], r12       # 8-byte Spill
+	or	r14, 224
+	or	r15, 256
+	mov	qword ptr [rsp + 88], r15       # 8-byte Spill
+	or	r13, 288
+	mov	qword ptr [rsp + 80], r13       # 8-byte Spill
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	or	r12, 320
+	or	r11, 352
+	or	r8, 384
+	mov	qword ptr [rsp + 96], r8        # 8-byte Spill
+	mov	rcx, rax
+	or	rcx, 416
+	mov	qword ptr [rsp + 48], rcx       # 8-byte Spill
+	mov	rcx, rax
+	or	rcx, 448
+	mov	qword ptr [rsp + 40], rcx       # 8-byte Spill
+	mov	rsi, rax
+	or	rsi, 480
+	mov	qword ptr [rsp + 16], rsi       # 8-byte Spill
+	pinsrb	xmm4, byte ptr [rdx + rbx], 1
+	pinsrb	xmm4, byte ptr [rdx + rdi], 2
+	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rbx], 3
+	pinsrb	xmm4, byte ptr [rdx + r9], 4
+	pinsrb	xmm4, byte ptr [rdx + r10], 5
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rax], 6
+	pinsrb	xmm4, byte ptr [rdx + r14], 7
+	pinsrb	xmm4, byte ptr [rdx + r15], 8
+	pinsrb	xmm4, byte ptr [rdx + r13], 9
+	mov	r15, r12
+	mov	qword ptr [rsp + 56], r12       # 8-byte Spill
+	pinsrb	xmm4, byte ptr [rdx + r12], 10
+	pinsrb	xmm4, byte ptr [rdx + r11], 11
+	pinsrb	xmm4, byte ptr [rdx + r8], 12
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + rax], 13
+	pinsrb	xmm4, byte ptr [rdx + rcx], 14
+	pinsrb	xmm4, byte ptr [rdx + rsi], 15
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r12 + 1], 1
+	pinsrb	xmm3, byte ptr [rdx + rdi + 1], 2
+	pinsrb	xmm3, byte ptr [rdx + rbx + 1], 3
+	pinsrb	xmm3, byte ptr [rdx + r9 + 1], 4
+	pinsrb	xmm3, byte ptr [rdx + r10 + 1], 5
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rbx + 1], 6
+	pinsrb	xmm3, byte ptr [rdx + r14 + 1], 7
+	mov	rdi, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rdi + 1], 8
+	pinsrb	xmm3, byte ptr [rdx + r13 + 1], 9
+	pinsrb	xmm3, byte ptr [rdx + r15 + 1], 10
+	pinsrb	xmm3, byte ptr [rdx + r11 + 1], 11
+	mov	r15, r11
+	pinsrb	xmm3, byte ptr [rdx + r8 + 1], 12
+	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r13 + 1], 13
+	pinsrb	xmm3, byte ptr [rdx + rcx + 1], 14
+	movdqa	xmm1, xmmword ptr [rsp + 144]   # 16-byte Reload
+	pcmpgtb	xmm4, xmm1
+	pinsrb	xmm3, byte ptr [rdx + rsi + 1], 15
+	pcmpgtb	xmm3, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI11_16] # xmm0 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	pandn	xmm3, xmm0
+	paddb	xmm3, xmm4
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 16]
+	movd	xmm10, esi
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rax + 2], 1
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rax + 2], 2
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r11 + 2], 3
+	pinsrb	xmm5, byte ptr [rdx + r9 + 2], 4
+	pinsrb	xmm5, byte ptr [rdx + r10 + 2], 5
+	pinsrb	xmm5, byte ptr [rdx + rbx + 2], 6
+	mov	qword ptr [rsp + 104], r14      # 8-byte Spill
+	pinsrb	xmm5, byte ptr [rdx + r14 + 2], 7
+	mov	r12, rdi
+	pinsrb	xmm5, byte ptr [rdx + rdi + 2], 8
+	mov	r8, qword ptr [rsp + 80]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r8 + 2], 9
+	mov	rdi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rdi + 2], 10
+	mov	qword ptr [rsp + 176], r15      # 8-byte Spill
+	pinsrb	xmm5, byte ptr [rdx + r15 + 2], 11
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rcx + 2], 12
+	mov	rsi, r13
+	pinsrb	xmm5, byte ptr [rdx + r13 + 2], 13
+	mov	r13, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r13 + 2], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rax + 2], 15
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 3], 1
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 3], 2
+	pinsrb	xmm7, byte ptr [rdx + r11 + 3], 3
+	pinsrb	xmm7, byte ptr [rdx + r9 + 3], 4
+	pinsrb	xmm7, byte ptr [rdx + r10 + 3], 5
+	pinsrb	xmm7, byte ptr [rdx + rbx + 3], 6
+	pinsrb	xmm7, byte ptr [rdx + r14 + 3], 7
+	pinsrb	xmm7, byte ptr [rdx + r12 + 3], 8
+	pinsrb	xmm7, byte ptr [rdx + r8 + 3], 9
+	pinsrb	xmm7, byte ptr [rdx + rdi + 3], 10
+	pinsrb	xmm7, byte ptr [rdx + r15 + 3], 11
+	pinsrb	xmm7, byte ptr [rdx + rcx + 3], 12
+	pinsrb	xmm7, byte ptr [rdx + rsi + 3], 13
+	pinsrb	xmm7, byte ptr [rdx + r13 + 3], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 3], 15
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rax + 4], 1
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rax + 4], 2
+	pinsrb	xmm9, byte ptr [rdx + r11 + 4], 3
+	pinsrb	xmm9, byte ptr [rdx + r9 + 4], 4
+	mov	qword ptr [rsp + 128], r9       # 8-byte Spill
+	pinsrb	xmm9, byte ptr [rdx + r10 + 4], 5
+	pinsrb	xmm9, byte ptr [rdx + rbx + 4], 6
+	pinsrb	xmm9, byte ptr [rdx + r14 + 4], 7
+	pinsrb	xmm9, byte ptr [rdx + r12 + 4], 8
+	pinsrb	xmm9, byte ptr [rdx + r8 + 4], 9
+	pinsrb	xmm9, byte ptr [rdx + rdi + 4], 10
+	pinsrb	xmm9, byte ptr [rdx + r15 + 4], 11
+	pinsrb	xmm9, byte ptr [rdx + rcx + 4], 12
+	pinsrb	xmm9, byte ptr [rdx + rsi + 4], 13
+	pinsrb	xmm9, byte ptr [rdx + r13 + 4], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rax + 4], 15
+	mov	r13, rax
+	pcmpgtb	xmm5, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI11_17] # xmm0 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pandn	xmm5, xmm0
+	pcmpgtb	xmm7, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI11_18] # xmm0 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pandn	xmm7, xmm0
+	por	xmm7, xmm5
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 17]
+	movd	xmm4, esi
+	pcmpgtb	xmm9, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI11_19] # xmm0 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm9, xmm0
+	por	xmm9, xmm7
+	movzx	esi, byte ptr [rdx + rax + 18]
+	movd	xmm7, esi
+	pcmpeqd	xmm0, xmm0
+	psubb	xmm3, xmm0
+	por	xmm9, xmm3
+	movzx	esi, byte ptr [rdx + rax + 19]
+	movd	xmm5, esi
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r8 + 5], 1
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rdi + 5], 2
+	pinsrb	xmm2, byte ptr [rdx + r11 + 5], 3
+	pinsrb	xmm2, byte ptr [rdx + r9 + 5], 4
+	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 5
+	mov	r12, r10
+	mov	r14, rbx
+	pinsrb	xmm2, byte ptr [rdx + rbx + 5], 6
+	mov	rbx, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rbx + 5], 7
+	mov	r15, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r15 + 5], 8
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r9 + 5], 9
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rsi + 5], 10
+	mov	r11, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r11 + 5], 11
+	pinsrb	xmm2, byte ptr [rdx + rcx + 5], 12
+	mov	r10, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r10 + 5], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rax + 5], 14
+	pinsrb	xmm2, byte ptr [rdx + r13 + 5], 15
+	pinsrb	xmm8, byte ptr [rdx + r8 + 6], 1
+	pinsrb	xmm8, byte ptr [rdx + rdi + 6], 2
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r13 + 6], 3
+	mov	r13, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + r13 + 6], 4
+	pinsrb	xmm8, byte ptr [rdx + r12 + 6], 5
+	pinsrb	xmm8, byte ptr [rdx + r14 + 6], 6
+	pinsrb	xmm8, byte ptr [rdx + rbx + 6], 7
+	pinsrb	xmm8, byte ptr [rdx + r15 + 6], 8
+	pinsrb	xmm8, byte ptr [rdx + r9 + 6], 9
+	pinsrb	xmm8, byte ptr [rdx + rsi + 6], 10
+	pinsrb	xmm8, byte ptr [rdx + r11 + 6], 11
+	mov	r15, r11
+	pinsrb	xmm8, byte ptr [rdx + rcx + 6], 12
+	pinsrb	xmm8, byte ptr [rdx + r10 + 6], 13
+	pinsrb	xmm8, byte ptr [rdx + rax + 6], 14
+	mov	r10, rax
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm8, byte ptr [rdx + rax + 6], 15
+	pinsrb	xmm14, byte ptr [rdx + r8 + 7], 1
+	pinsrb	xmm14, byte ptr [rdx + rdi + 7], 2
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rax + 7], 3
+	mov	r9, r13
+	pinsrb	xmm14, byte ptr [rdx + r13 + 7], 4
+	mov	rdi, r12
+	pinsrb	xmm14, byte ptr [rdx + r12 + 7], 5
+	pinsrb	xmm14, byte ptr [rdx + r14 + 7], 6
+	pinsrb	xmm14, byte ptr [rdx + rbx + 7], 7
+	mov	r11, rbx
+	mov	r12, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + r12 + 7], 8
+	mov	r13, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + r13 + 7], 9
+	pinsrb	xmm14, byte ptr [rdx + rsi + 7], 10
+	pinsrb	xmm14, byte ptr [rdx + r15 + 7], 11
+	pinsrb	xmm14, byte ptr [rdx + rcx + 7], 12
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rbx + 7], 13
+	pinsrb	xmm14, byte ptr [rdx + r10 + 7], 14
+	movdqa	xmm1, xmm14
+	movdqa	xmm14, xmmword ptr [rsp + 144]  # 16-byte Reload
+	pcmpgtb	xmm2, xmm14
+	movdqa	xmm0, xmmword ptr [rip + .LCPI11_20] # xmm0 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm2, xmm0
+	pcmpgtb	xmm8, xmm14
+	movdqa	xmm0, xmmword ptr [rip + .LCPI11_21] # xmm0 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm8, xmm0
+	por	xmm8, xmm2
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 20]
+	movd	xmm3, esi
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rcx + 7], 15
+	pcmpgtb	xmm1, xmm14
+	movdqa	xmm0, xmmword ptr [rip + .LCPI11_6] # xmm0 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pandn	xmm1, xmm0
+	por	xmm1, xmm8
+	movzx	esi, byte ptr [rdx + rax + 21]
+	movd	xmm2, esi
+	movdqa	xmm0, xmmword ptr [rsp + 192]   # 16-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r8 + 8], 1
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r14 + 8], 2
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rsi + 8], 3
+	pinsrb	xmm0, byte ptr [rdx + r9 + 8], 4
+	pinsrb	xmm0, byte ptr [rdx + rdi + 8], 5
+	mov	r10, rdi
+	mov	rdi, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rdi + 8], 6
+	pinsrb	xmm0, byte ptr [rdx + r11 + 8], 7
+	pinsrb	xmm0, byte ptr [rdx + r12 + 8], 8
+	pinsrb	xmm0, byte ptr [rdx + r13 + 8], 9
+	mov	r8, qword ptr [rsp + 56]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r8 + 8], 10
+	pinsrb	xmm0, byte ptr [rdx + r15 + 8], 11
+	mov	rsi, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rsi + 8], 12
+	pinsrb	xmm0, byte ptr [rdx + rbx + 8], 13
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rsi + 8], 14
+	pinsrb	xmm0, byte ptr [rdx + rcx + 8], 15
+	por	xmm1, xmm9
+	movdqa	xmmword ptr [rsp + 192], xmm1   # 16-byte Spill
+	movzx	esi, byte ptr [rdx + rax + 22]
+	movd	xmm1, esi
+	pcmpgtb	xmm0, xmm14
+	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r11 + 9], 1
+	mov	rbx, r11
+	mov	rax, r14
+	pinsrb	xmm11, byte ptr [rdx + r14 + 9], 2
+	mov	r11, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r11 + 9], 3
+	pinsrb	xmm11, byte ptr [rdx + r9 + 9], 4
+	mov	qword ptr [rsp + 112], r10      # 8-byte Spill
+	pinsrb	xmm11, byte ptr [rdx + r10 + 9], 5
+	pinsrb	xmm11, byte ptr [rdx + rdi + 9], 6
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r14 + 9], 7
+	pinsrb	xmm11, byte ptr [rdx + r12 + 9], 8
+	pinsrb	xmm11, byte ptr [rdx + r13 + 9], 9
+	mov	rsi, r8
+	pinsrb	xmm11, byte ptr [rdx + r8 + 9], 10
+	mov	rcx, r15
+	pinsrb	xmm11, byte ptr [rdx + r15 + 9], 11
+	mov	r8, qword ptr [rsp + 96]        # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r8 + 9], 12
+	mov	r15, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r15 + 9], 13
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + rdi + 9], 14
+	mov	rdi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + rdi + 9], 15
+	pinsrb	xmm12, byte ptr [rdx + rbx + 10], 1
+	pinsrb	xmm12, byte ptr [rdx + rax + 10], 2
+	pinsrb	xmm12, byte ptr [rdx + r11 + 10], 3
+	pinsrb	xmm12, byte ptr [rdx + r9 + 10], 4
+	pinsrb	xmm12, byte ptr [rdx + r10 + 10], 5
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rbx + 10], 6
+	pinsrb	xmm12, byte ptr [rdx + r14 + 10], 7
+	pinsrb	xmm12, byte ptr [rdx + r12 + 10], 8
+	pinsrb	xmm12, byte ptr [rdx + r13 + 10], 9
+	pinsrb	xmm12, byte ptr [rdx + rsi + 10], 10
+	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 11
+	pinsrb	xmm12, byte ptr [rdx + r8 + 10], 12
+	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 13
+	mov	r11, r15
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 14
+	pinsrb	xmm12, byte ptr [rdx + rdi + 10], 15
+	mov	rbx, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rbx + 11], 1
+	pinsrb	xmm13, byte ptr [rdx + rax + 11], 2
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rax + 11], 3
+	pinsrb	xmm13, byte ptr [rdx + r9 + 11], 4
+	pinsrb	xmm13, byte ptr [rdx + r10 + 11], 5
+	mov	r10, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + r10 + 11], 6
+	pinsrb	xmm13, byte ptr [rdx + r14 + 11], 7
+	pinsrb	xmm13, byte ptr [rdx + r12 + 11], 8
+	pinsrb	xmm13, byte ptr [rdx + r13 + 11], 9
+	pinsrb	xmm13, byte ptr [rdx + rsi + 11], 10
+	pinsrb	xmm13, byte ptr [rdx + rcx + 11], 11
+	pinsrb	xmm13, byte ptr [rdx + r8 + 11], 12
+	pinsrb	xmm13, byte ptr [rdx + r11 + 11], 13
+	pinsrb	xmm13, byte ptr [rdx + r15 + 11], 14
+	pinsrb	xmm13, byte ptr [rdx + rdi + 11], 15
+	pcmpgtb	xmm11, xmm14
+	pandn	xmm11, xmmword ptr [rip + .LCPI11_16]
+	paddb	xmm11, xmm0
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 23]
+	movd	xmm8, esi
+	pcmpgtb	xmm12, xmm14
+	pandn	xmm12, xmmword ptr [rip + .LCPI11_17]
+	pcmpgtb	xmm13, xmm14
+	pandn	xmm13, xmmword ptr [rip + .LCPI11_18]
+	por	xmm13, xmm12
+	movzx	esi, byte ptr [rdx + rcx + 24]
+	movd	xmm12, esi
+	movdqa	xmm9, xmmword ptr [rsp + 208]   # 16-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rbx + 12], 1
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + r15 + 12], 2
+	mov	r11, rax
+	pinsrb	xmm9, byte ptr [rdx + rax + 12], 3
+	mov	rdi, r9
+	pinsrb	xmm9, byte ptr [rdx + r9 + 12], 4
+	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + r9 + 12], 5
+	mov	rbx, r10
+	pinsrb	xmm9, byte ptr [rdx + r10 + 12], 6
+	mov	r10, r14
+	pinsrb	xmm9, byte ptr [rdx + r14 + 12], 7
+	mov	r14, r12
+	pinsrb	xmm9, byte ptr [rdx + r12 + 12], 8
+	mov	r12, r13
+	pinsrb	xmm9, byte ptr [rdx + r13 + 12], 9
+	mov	r13, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + r13 + 12], 10
+	mov	rcx, qword ptr [rsp + 176]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rcx + 12], 11
+	pinsrb	xmm9, byte ptr [rdx + r8 + 12], 12
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rsi + 12], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rax + 12], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rax + 12], 15
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rax + 13], 1
+	pinsrb	xmm6, byte ptr [rdx + r15 + 13], 2
+	pinsrb	xmm6, byte ptr [rdx + r11 + 13], 3
+	pinsrb	xmm6, byte ptr [rdx + rdi + 13], 4
+	pinsrb	xmm6, byte ptr [rdx + r9 + 13], 5
+	pinsrb	xmm6, byte ptr [rdx + rbx + 13], 6
+	pinsrb	xmm6, byte ptr [rdx + r10 + 13], 7
+	pinsrb	xmm6, byte ptr [rdx + r14 + 13], 8
+	pinsrb	xmm6, byte ptr [rdx + r12 + 13], 9
+	pinsrb	xmm6, byte ptr [rdx + r13 + 13], 10
+	pinsrb	xmm6, byte ptr [rdx + rcx + 13], 11
+	pinsrb	xmm6, byte ptr [rdx + r8 + 13], 12
+	pinsrb	xmm6, byte ptr [rdx + rsi + 13], 13
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rax + 13], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rax + 13], 15
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rax + 14], 1
+	pinsrb	xmm15, byte ptr [rdx + r15 + 14], 2
+	pinsrb	xmm15, byte ptr [rdx + r11 + 14], 3
+	pinsrb	xmm15, byte ptr [rdx + rdi + 14], 4
+	mov	r11, rdi
+	pinsrb	xmm15, byte ptr [rdx + r9 + 14], 5
+	pinsrb	xmm15, byte ptr [rdx + rbx + 14], 6
+	pinsrb	xmm15, byte ptr [rdx + r10 + 14], 7
+	pinsrb	xmm15, byte ptr [rdx + r14 + 14], 8
+	pinsrb	xmm15, byte ptr [rdx + r12 + 14], 9
+	pinsrb	xmm15, byte ptr [rdx + r13 + 14], 10
+	pinsrb	xmm15, byte ptr [rdx + rcx + 14], 11
+	mov	r13, rcx
+	pinsrb	xmm15, byte ptr [rdx + r8 + 14], 12
+	mov	r12, r8
+	pinsrb	xmm15, byte ptr [rdx + rsi + 14], 13
+	mov	r15, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r15 + 14], 14
+	pcmpgtb	xmm9, xmm14
+	pandn	xmm9, xmmword ptr [rip + .LCPI11_19]
+	por	xmm9, xmm13
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 25]
+	movd	xmm13, esi
+	psubb	xmm11, xmmword ptr [rip + .LCPI11_22]
+	por	xmm9, xmm11
+	movzx	esi, byte ptr [rdx + rax + 26]
+	movd	xmm0, esi
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rcx + 14], 15
+	pcmpgtb	xmm6, xmm14
+	pandn	xmm6, xmmword ptr [rip + .LCPI11_20]
+	pcmpgtb	xmm15, xmm14
+	pandn	xmm15, xmmword ptr [rip + .LCPI11_21]
+	por	xmm15, xmm6
+	movzx	esi, byte ptr [rdx + rax + 27]
+	movd	xmm11, esi
+	movdqa	xmm6, xmmword ptr [rsp + 160]   # 16-byte Reload
+	mov	r8, qword ptr [rsp + 8]         # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r8 + 15], 1
+	mov	rdi, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rdi + 15], 2
+	mov	rsi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rsi + 15], 3
+	pinsrb	xmm6, byte ptr [rdx + r11 + 15], 4
+	pinsrb	xmm6, byte ptr [rdx + r9 + 15], 5
+	mov	r9, rbx
+	pinsrb	xmm6, byte ptr [rdx + rbx + 15], 6
+	pinsrb	xmm6, byte ptr [rdx + r10 + 15], 7
+	pinsrb	xmm6, byte ptr [rdx + r14 + 15], 8
+	mov	r10, r14
+	mov	r11, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r11 + 15], 9
+	mov	rbx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rbx + 15], 10
+	pinsrb	xmm6, byte ptr [rdx + r13 + 15], 11
+	pinsrb	xmm6, byte ptr [rdx + r12 + 15], 12
+	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r12 + 15], 13
+	pinsrb	xmm6, byte ptr [rdx + r15 + 15], 14
+	pinsrb	xmm6, byte ptr [rdx + rcx + 15], 15
+	pcmpgtb	xmm6, xmm14
+	pandn	xmm6, xmmword ptr [rip + .LCPI11_6]
+	por	xmm6, xmm15
+	movzx	esi, byte ptr [rdx + rax + 28]
+	movd	xmm15, esi
+	por	xmm6, xmm9
+	movdqa	xmmword ptr [rsp + 160], xmm6   # 16-byte Spill
+	movzx	esi, byte ptr [rdx + rax + 29]
+	movd	xmm9, esi
+	mov	rax, r8
+	pinsrb	xmm10, byte ptr [rdx + r8 + 16], 1
+	mov	r14, rdi
+	pinsrb	xmm10, byte ptr [rdx + rdi + 16], 2
+	mov	rcx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rcx + 16], 3
+	mov	rdi, qword ptr [rsp + 128]      # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rdi + 16], 4
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r8 + 16], 5
+	pinsrb	xmm10, byte ptr [rdx + r9 + 16], 6
+	mov	r9, qword ptr [rsp + 104]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r9 + 16], 7
+	pinsrb	xmm10, byte ptr [rdx + r10 + 16], 8
+	pinsrb	xmm10, byte ptr [rdx + r11 + 16], 9
+	pinsrb	xmm10, byte ptr [rdx + rbx + 16], 10
+	pinsrb	xmm10, byte ptr [rdx + r13 + 16], 11
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + r15 + 16], 12
+	pinsrb	xmm10, byte ptr [rdx + r12 + 16], 13
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rcx + 16], 14
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rsi + 16], 15
+	pinsrb	xmm4, byte ptr [rdx + rax + 17], 1
+	pinsrb	xmm4, byte ptr [rdx + r14 + 17], 2
+	mov	r14, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r14 + 17], 3
+	pinsrb	xmm4, byte ptr [rdx + rdi + 17], 4
+	pinsrb	xmm4, byte ptr [rdx + r8 + 17], 5
+	mov	r12, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r12 + 17], 6
+	pinsrb	xmm4, byte ptr [rdx + r9 + 17], 7
+	pinsrb	xmm4, byte ptr [rdx + r10 + 17], 8
+	pinsrb	xmm4, byte ptr [rdx + r11 + 17], 9
+	pinsrb	xmm4, byte ptr [rdx + rbx + 17], 10
+	pinsrb	xmm4, byte ptr [rdx + r13 + 17], 11
+	mov	rbx, r15
+	pinsrb	xmm4, byte ptr [rdx + r15 + 17], 12
+	mov	r8, qword ptr [rsp + 48]        # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r8 + 17], 13
+	pinsrb	xmm4, byte ptr [rdx + rcx + 17], 14
+	mov	r9, rcx
+	pinsrb	xmm4, byte ptr [rdx + rsi + 17], 15
+	mov	r15, rsi
+	pcmpgtb	xmm10, xmm14
+	pcmpgtb	xmm4, xmm14
+	movdqa	xmm6, xmmword ptr [rip + .LCPI11_16] # xmm6 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	pandn	xmm4, xmm6
+	paddb	xmm4, xmm10
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 30]
+	movd	xmm10, esi
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rsi + 18], 1
+	pinsrb	xmm5, byte ptr [rdx + rsi + 19], 1
+	pinsrb	xmm3, byte ptr [rdx + rsi + 20], 1
+	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 1
+	pinsrb	xmm1, byte ptr [rdx + rsi + 22], 1
+	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 1
+	pinsrb	xmm12, byte ptr [rdx + rsi + 24], 1
+	pinsrb	xmm13, byte ptr [rdx + rsi + 25], 1
+	pinsrb	xmm0, byte ptr [rdx + rsi + 26], 1
+	pinsrb	xmm11, byte ptr [rdx + rsi + 27], 1
+	pinsrb	xmm15, byte ptr [rdx + rsi + 28], 1
+	pinsrb	xmm9, byte ptr [rdx + rsi + 29], 1
+	pinsrb	xmm10, byte ptr [rdx + rsi + 30], 1
+	movzx	eax, byte ptr [rdx + rax + 31]
+	movd	xmm6, eax
+	pinsrb	xmm6, byte ptr [rdx + rsi + 31], 1
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 18], 2
+	pinsrb	xmm5, byte ptr [rdx + rax + 19], 2
+	pinsrb	xmm3, byte ptr [rdx + rax + 20], 2
+	pinsrb	xmm2, byte ptr [rdx + rax + 21], 2
+	pinsrb	xmm1, byte ptr [rdx + rax + 22], 2
+	pinsrb	xmm8, byte ptr [rdx + rax + 23], 2
+	pinsrb	xmm12, byte ptr [rdx + rax + 24], 2
+	pinsrb	xmm13, byte ptr [rdx + rax + 25], 2
+	pinsrb	xmm0, byte ptr [rdx + rax + 26], 2
+	pinsrb	xmm11, byte ptr [rdx + rax + 27], 2
+	pinsrb	xmm15, byte ptr [rdx + rax + 28], 2
+	pinsrb	xmm9, byte ptr [rdx + rax + 29], 2
+	pinsrb	xmm10, byte ptr [rdx + rax + 30], 2
+	pinsrb	xmm6, byte ptr [rdx + rax + 31], 2
+	mov	r11, r14
+	pinsrb	xmm7, byte ptr [rdx + r14 + 18], 3
+	pinsrb	xmm7, byte ptr [rdx + rdi + 18], 4
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rcx + 18], 5
+	pinsrb	xmm7, byte ptr [rdx + r12 + 18], 6
+	mov	r10, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + r10 + 18], 7
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + r14 + 18], 8
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rax + 18], 9
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rsi + 18], 10
+	pinsrb	xmm7, byte ptr [rdx + r13 + 18], 11
+	pinsrb	xmm7, byte ptr [rdx + rbx + 18], 12
+	pinsrb	xmm7, byte ptr [rdx + r8 + 18], 13
+	pinsrb	xmm7, byte ptr [rdx + r9 + 18], 14
+	pinsrb	xmm7, byte ptr [rdx + r15 + 18], 15
+	pinsrb	xmm5, byte ptr [rdx + r11 + 19], 3
+	pinsrb	xmm5, byte ptr [rdx + rdi + 19], 4
+	pinsrb	xmm5, byte ptr [rdx + rcx + 19], 5
+	pinsrb	xmm5, byte ptr [rdx + r12 + 19], 6
+	pinsrb	xmm5, byte ptr [rdx + r10 + 19], 7
+	pinsrb	xmm5, byte ptr [rdx + r14 + 19], 8
+	pinsrb	xmm5, byte ptr [rdx + rax + 19], 9
+	pinsrb	xmm5, byte ptr [rdx + rsi + 19], 10
+	pinsrb	xmm5, byte ptr [rdx + r13 + 19], 11
+	pinsrb	xmm5, byte ptr [rdx + rbx + 19], 12
+	pinsrb	xmm5, byte ptr [rdx + r8 + 19], 13
+	pinsrb	xmm5, byte ptr [rdx + r9 + 19], 14
+	pinsrb	xmm5, byte ptr [rdx + r15 + 19], 15
+	pinsrb	xmm3, byte ptr [rdx + r11 + 20], 3
+	pinsrb	xmm3, byte ptr [rdx + rdi + 20], 4
+	pinsrb	xmm3, byte ptr [rdx + rcx + 20], 5
+	pinsrb	xmm3, byte ptr [rdx + r12 + 20], 6
+	pinsrb	xmm3, byte ptr [rdx + r10 + 20], 7
+	pinsrb	xmm3, byte ptr [rdx + r14 + 20], 8
+	pinsrb	xmm3, byte ptr [rdx + rax + 20], 9
+	pinsrb	xmm3, byte ptr [rdx + rsi + 20], 10
+	pinsrb	xmm3, byte ptr [rdx + r13 + 20], 11
+	pinsrb	xmm3, byte ptr [rdx + rbx + 20], 12
+	pinsrb	xmm3, byte ptr [rdx + r8 + 20], 13
+	pinsrb	xmm3, byte ptr [rdx + r9 + 20], 14
+	pcmpgtb	xmm7, xmm14
+	movdqa	xmm14, xmmword ptr [rip + .LCPI11_17] # xmm14 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pandn	xmm7, xmm14
+	pcmpgtb	xmm5, xmmword ptr [rsp + 144]   # 16-byte Folded Reload
+	movdqa	xmm14, xmmword ptr [rip + .LCPI11_18] # xmm14 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pandn	xmm5, xmm14
+	por	xmm5, xmm7
+	pinsrb	xmm3, byte ptr [rdx + r15 + 20], 15
+	movdqa	xmm14, xmmword ptr [rsp + 144]  # 16-byte Reload
+	pcmpgtb	xmm3, xmm14
+	movdqa	xmm7, xmmword ptr [rip + .LCPI11_19] # xmm7 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pandn	xmm3, xmm7
+	por	xmm3, xmm5
+	pcmpeqd	xmm5, xmm5
+	psubb	xmm4, xmm5
+	por	xmm3, xmm4
+	pinsrb	xmm2, byte ptr [rdx + r11 + 21], 3
+	pinsrb	xmm2, byte ptr [rdx + rdi + 21], 4
+	pinsrb	xmm2, byte ptr [rdx + rcx + 21], 5
+	pinsrb	xmm2, byte ptr [rdx + r12 + 21], 6
+	pinsrb	xmm2, byte ptr [rdx + r10 + 21], 7
+	pinsrb	xmm2, byte ptr [rdx + r14 + 21], 8
+	pinsrb	xmm2, byte ptr [rdx + rax + 21], 9
+	pinsrb	xmm2, byte ptr [rdx + rsi + 21], 10
+	pinsrb	xmm2, byte ptr [rdx + r13 + 21], 11
+	pinsrb	xmm2, byte ptr [rdx + rbx + 21], 12
+	pinsrb	xmm2, byte ptr [rdx + r8 + 21], 13
+	pinsrb	xmm2, byte ptr [rdx + r9 + 21], 14
+	pinsrb	xmm2, byte ptr [rdx + r15 + 21], 15
+	pinsrb	xmm1, byte ptr [rdx + r11 + 22], 3
+	pinsrb	xmm1, byte ptr [rdx + rdi + 22], 4
+	pinsrb	xmm1, byte ptr [rdx + rcx + 22], 5
+	pinsrb	xmm1, byte ptr [rdx + r12 + 22], 6
+	pinsrb	xmm1, byte ptr [rdx + r10 + 22], 7
+	pinsrb	xmm1, byte ptr [rdx + r14 + 22], 8
+	pinsrb	xmm1, byte ptr [rdx + rax + 22], 9
+	pinsrb	xmm1, byte ptr [rdx + rsi + 22], 10
+	pinsrb	xmm1, byte ptr [rdx + r13 + 22], 11
+	pinsrb	xmm1, byte ptr [rdx + rbx + 22], 12
+	pinsrb	xmm1, byte ptr [rdx + r8 + 22], 13
+	pinsrb	xmm1, byte ptr [rdx + r9 + 22], 14
+	pinsrb	xmm1, byte ptr [rdx + r15 + 22], 15
+	pinsrb	xmm8, byte ptr [rdx + r11 + 23], 3
+	pinsrb	xmm8, byte ptr [rdx + rdi + 23], 4
+	pinsrb	xmm8, byte ptr [rdx + rcx + 23], 5
+	pinsrb	xmm8, byte ptr [rdx + r12 + 23], 6
+	pinsrb	xmm8, byte ptr [rdx + r10 + 23], 7
+	pinsrb	xmm8, byte ptr [rdx + r14 + 23], 8
+	pinsrb	xmm8, byte ptr [rdx + rax + 23], 9
+	pinsrb	xmm8, byte ptr [rdx + rsi + 23], 10
+	pinsrb	xmm8, byte ptr [rdx + r13 + 23], 11
+	pinsrb	xmm8, byte ptr [rdx + rbx + 23], 12
+	pinsrb	xmm8, byte ptr [rdx + r8 + 23], 13
+	pinsrb	xmm8, byte ptr [rdx + r9 + 23], 14
+	pcmpgtb	xmm2, xmm14
+	movdqa	xmm5, xmmword ptr [rip + .LCPI11_20] # xmm5 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pandn	xmm2, xmm5
+	pcmpgtb	xmm1, xmm14
+	movdqa	xmm7, xmmword ptr [rip + .LCPI11_21] # xmm7 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pandn	xmm1, xmm7
+	por	xmm1, xmm2
+	pinsrb	xmm8, byte ptr [rdx + r15 + 23], 15
+	pcmpgtb	xmm8, xmm14
+	movdqa	xmm4, xmmword ptr [rip + .LCPI11_6] # xmm4 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pandn	xmm8, xmm4
+	por	xmm8, xmm1
+	pinsrb	xmm12, byte ptr [rdx + r11 + 24], 3
+	pinsrb	xmm12, byte ptr [rdx + rdi + 24], 4
+	pinsrb	xmm12, byte ptr [rdx + rcx + 24], 5
+	pinsrb	xmm12, byte ptr [rdx + r12 + 24], 6
+	pinsrb	xmm12, byte ptr [rdx + r10 + 24], 7
+	pinsrb	xmm12, byte ptr [rdx + r14 + 24], 8
+	pinsrb	xmm12, byte ptr [rdx + rax + 24], 9
+	pinsrb	xmm12, byte ptr [rdx + rsi + 24], 10
+	pinsrb	xmm12, byte ptr [rdx + r13 + 24], 11
+	pinsrb	xmm12, byte ptr [rdx + rbx + 24], 12
+	pinsrb	xmm12, byte ptr [rdx + r8 + 24], 13
+	pinsrb	xmm12, byte ptr [rdx + r9 + 24], 14
+	pinsrb	xmm12, byte ptr [rdx + r15 + 24], 15
+	por	xmm8, xmm3
+	pcmpgtb	xmm12, xmm14
+	pinsrb	xmm13, byte ptr [rdx + r11 + 25], 3
+	pinsrb	xmm13, byte ptr [rdx + rdi + 25], 4
+	pinsrb	xmm13, byte ptr [rdx + rcx + 25], 5
+	pinsrb	xmm13, byte ptr [rdx + r12 + 25], 6
+	pinsrb	xmm13, byte ptr [rdx + r10 + 25], 7
+	pinsrb	xmm13, byte ptr [rdx + r14 + 25], 8
+	pinsrb	xmm13, byte ptr [rdx + rax + 25], 9
+	pinsrb	xmm13, byte ptr [rdx + rsi + 25], 10
+	pinsrb	xmm13, byte ptr [rdx + r13 + 25], 11
+	pinsrb	xmm13, byte ptr [rdx + rbx + 25], 12
+	pinsrb	xmm13, byte ptr [rdx + r8 + 25], 13
+	pinsrb	xmm13, byte ptr [rdx + r9 + 25], 14
+	pinsrb	xmm13, byte ptr [rdx + r15 + 25], 15
+	pinsrb	xmm0, byte ptr [rdx + r11 + 26], 3
+	pinsrb	xmm0, byte ptr [rdx + rdi + 26], 4
+	pinsrb	xmm0, byte ptr [rdx + rcx + 26], 5
+	pinsrb	xmm0, byte ptr [rdx + r12 + 26], 6
+	pinsrb	xmm0, byte ptr [rdx + r10 + 26], 7
+	pinsrb	xmm0, byte ptr [rdx + r14 + 26], 8
+	pinsrb	xmm0, byte ptr [rdx + rax + 26], 9
+	pinsrb	xmm0, byte ptr [rdx + rsi + 26], 10
+	pinsrb	xmm0, byte ptr [rdx + r13 + 26], 11
+	pinsrb	xmm0, byte ptr [rdx + rbx + 26], 12
+	pinsrb	xmm0, byte ptr [rdx + r8 + 26], 13
+	pinsrb	xmm0, byte ptr [rdx + r9 + 26], 14
+	pinsrb	xmm0, byte ptr [rdx + r15 + 26], 15
+	pinsrb	xmm11, byte ptr [rdx + r11 + 27], 3
+	pinsrb	xmm11, byte ptr [rdx + rdi + 27], 4
+	pinsrb	xmm11, byte ptr [rdx + rcx + 27], 5
+	pinsrb	xmm11, byte ptr [rdx + r12 + 27], 6
+	pinsrb	xmm11, byte ptr [rdx + r10 + 27], 7
+	pinsrb	xmm11, byte ptr [rdx + r14 + 27], 8
+	pinsrb	xmm11, byte ptr [rdx + rax + 27], 9
+	pinsrb	xmm11, byte ptr [rdx + rsi + 27], 10
+	pinsrb	xmm11, byte ptr [rdx + r13 + 27], 11
+	pinsrb	xmm11, byte ptr [rdx + rbx + 27], 12
+	pinsrb	xmm11, byte ptr [rdx + r8 + 27], 13
+	pinsrb	xmm11, byte ptr [rdx + r9 + 27], 14
+	pcmpgtb	xmm13, xmm14
+	pandn	xmm13, xmmword ptr [rip + .LCPI11_16]
+	paddb	xmm13, xmm12
+	pinsrb	xmm11, byte ptr [rdx + r15 + 27], 15
+	pcmpgtb	xmm0, xmm14
+	pandn	xmm0, xmmword ptr [rip + .LCPI11_17]
+	pcmpgtb	xmm11, xmm14
+	pandn	xmm11, xmmword ptr [rip + .LCPI11_18]
+	por	xmm11, xmm0
+	pinsrb	xmm15, byte ptr [rdx + r11 + 28], 3
+	pinsrb	xmm9, byte ptr [rdx + r11 + 29], 3
+	pinsrb	xmm10, byte ptr [rdx + r11 + 30], 3
+	pinsrb	xmm6, byte ptr [rdx + r11 + 31], 3
+	pinsrb	xmm15, byte ptr [rdx + rdi + 28], 4
+	pinsrb	xmm9, byte ptr [rdx + rdi + 29], 4
+	pinsrb	xmm10, byte ptr [rdx + rdi + 30], 4
+	pinsrb	xmm6, byte ptr [rdx + rdi + 31], 4
+	mov	rdi, rcx
+	pinsrb	xmm15, byte ptr [rdx + rcx + 28], 5
+	pinsrb	xmm9, byte ptr [rdx + rcx + 29], 5
+	pinsrb	xmm10, byte ptr [rdx + rcx + 30], 5
+	pinsrb	xmm6, byte ptr [rdx + rcx + 31], 5
+	pinsrb	xmm15, byte ptr [rdx + r12 + 28], 6
+	pinsrb	xmm9, byte ptr [rdx + r12 + 29], 6
+	pinsrb	xmm10, byte ptr [rdx + r12 + 30], 6
+	pinsrb	xmm6, byte ptr [rdx + r12 + 31], 6
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	mov	rdi, r10
+	pinsrb	xmm15, byte ptr [rdx + r10 + 28], 7
+	pinsrb	xmm9, byte ptr [rdx + r10 + 29], 7
+	pinsrb	xmm10, byte ptr [rdx + r10 + 30], 7
+	pinsrb	xmm6, byte ptr [rdx + r10 + 31], 7
+	mov	rdi, r14
+	pinsrb	xmm15, byte ptr [rdx + r14 + 28], 8
+	pinsrb	xmm9, byte ptr [rdx + r14 + 29], 8
+	pinsrb	xmm10, byte ptr [rdx + r14 + 30], 8
+	pinsrb	xmm6, byte ptr [rdx + r14 + 31], 8
+	pinsrb	xmm15, byte ptr [rdx + rax + 28], 9
+	pinsrb	xmm9, byte ptr [rdx + rax + 29], 9
+	pinsrb	xmm10, byte ptr [rdx + rax + 30], 9
+	pinsrb	xmm6, byte ptr [rdx + rax + 31], 9
+	mov	rax, rsi
+	pinsrb	xmm15, byte ptr [rdx + rsi + 28], 10
+	pinsrb	xmm9, byte ptr [rdx + rsi + 29], 10
+	pinsrb	xmm10, byte ptr [rdx + rsi + 30], 10
+	pinsrb	xmm6, byte ptr [rdx + rsi + 31], 10
+	pinsrb	xmm15, byte ptr [rdx + r13 + 28], 11
+	pinsrb	xmm9, byte ptr [rdx + r13 + 29], 11
+	pinsrb	xmm10, byte ptr [rdx + r13 + 30], 11
+	pinsrb	xmm6, byte ptr [rdx + r13 + 31], 11
+	pinsrb	xmm15, byte ptr [rdx + rbx + 28], 12
+	pinsrb	xmm9, byte ptr [rdx + rbx + 29], 12
+	pinsrb	xmm10, byte ptr [rdx + rbx + 30], 12
+	pinsrb	xmm6, byte ptr [rdx + rbx + 31], 12
+	mov	rax, r8
+	pinsrb	xmm15, byte ptr [rdx + r8 + 28], 13
+	pinsrb	xmm9, byte ptr [rdx + r8 + 29], 13
+	pinsrb	xmm10, byte ptr [rdx + r8 + 30], 13
+	pinsrb	xmm6, byte ptr [rdx + r8 + 31], 13
+	mov	rax, r9
+	pinsrb	xmm15, byte ptr [rdx + r9 + 28], 14
+	pinsrb	xmm9, byte ptr [rdx + r9 + 29], 14
+	pinsrb	xmm10, byte ptr [rdx + r9 + 30], 14
+	pinsrb	xmm6, byte ptr [rdx + r9 + 31], 14
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rax + 28], 15
+	pinsrb	xmm9, byte ptr [rdx + rax + 29], 15
+	pinsrb	xmm10, byte ptr [rdx + rax + 30], 15
+	pcmpgtb	xmm15, xmm14
+	pandn	xmm15, xmmword ptr [rip + .LCPI11_19]
+	por	xmm15, xmm11
+	pinsrb	xmm6, byte ptr [rdx + rax + 31], 15
+	psubb	xmm13, xmmword ptr [rip + .LCPI11_22]
+	por	xmm15, xmm13
+	pcmpgtb	xmm9, xmm14
+	pandn	xmm9, xmm5
+	pcmpgtb	xmm10, xmm14
+	pandn	xmm10, xmm7
+	por	xmm10, xmm9
+	pcmpgtb	xmm6, xmm14
+	pandn	xmm6, xmm4
+	por	xmm6, xmm10
+	por	xmm6, xmm15
+	movdqa	xmm0, xmm8
+	punpcklbw	xmm0, xmm6              # xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
+	movdqa	xmm3, xmmword ptr [rsp + 192]   # 16-byte Reload
+	movdqa	xmm1, xmm3
+	movdqa	xmm4, xmmword ptr [rsp + 160]   # 16-byte Reload
+	punpcklbw	xmm1, xmm4              # xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
+	movdqa	xmm2, xmm1
+	punpcklwd	xmm2, xmm0              # xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
+	punpckhwd	xmm1, xmm0              # xmm1 = xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
+	punpckhbw	xmm8, xmm6              # xmm8 = xmm8[8],xmm6[8],xmm8[9],xmm6[9],xmm8[10],xmm6[10],xmm8[11],xmm6[11],xmm8[12],xmm6[12],xmm8[13],xmm6[13],xmm8[14],xmm6[14],xmm8[15],xmm6[15]
+	punpckhbw	xmm3, xmm4              # xmm3 = xmm3[8],xmm4[8],xmm3[9],xmm4[9],xmm3[10],xmm4[10],xmm3[11],xmm4[11],xmm3[12],xmm4[12],xmm3[13],xmm4[13],xmm3[14],xmm4[14],xmm3[15],xmm4[15]
+	movdqa	xmm0, xmm3
+	punpcklwd	xmm0, xmm8              # xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3]
+	punpckhwd	xmm3, xmm8              # xmm3 = xmm3[4],xmm8[4],xmm3[5],xmm8[5],xmm3[6],xmm8[6],xmm3[7],xmm8[7]
+	mov	rcx, qword ptr [rsp + 224]      # 8-byte Reload
+	movdqu	xmmword ptr [r15 + 4*rcx + 48], xmm3
+	movdqu	xmmword ptr [r15 + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [r15 + 4*rcx + 16], xmm1
+	movdqu	xmmword ptr [r15 + 4*rcx], xmm2
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 256]      # 8-byte Folded Reload
+	jne	.LBB11_86
+# %bb.87:
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	cmp	r10, qword ptr [rsp + 256]      # 8-byte Folded Reload
+	mov	r14b, byte ptr [rsp]            # 1-byte Reload
+	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
+	mov	rdx, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	jne	.LBB11_88
+	jmp	.LBB11_91
+.LBB11_66:
+	and	r10, -16
+	mov	rax, r10
+	shl	rax, 5
+	add	rax, rdx
+	mov	qword ptr [rsp + 280], rax      # 8-byte Spill
+	mov	qword ptr [rsp + 192], r10      # 8-byte Spill
+	lea	rax, [r15 + 4*r10]
+	mov	qword ptr [rsp + 288], rax      # 8-byte Spill
+	movzx	eax, r14b
+	movd	xmm1, eax
+	pxor	xmm0, xmm0
+	pshufb	xmm1, xmm0
+	movdqa	xmmword ptr [rsp + 256], xmm1   # 16-byte Spill
+	xor	eax, eax
+	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
+	movdqa	xmm8, xmmword ptr [rsp + 256]   # 16-byte Reload
+	.p2align	4, 0x90
+.LBB11_67:                              # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 128], rax      # 8-byte Spill
+	shl	rax, 5
+	mov	r14, rax
+	mov	rbx, rax
+	mov	r15, rax
+	mov	qword ptr [rsp + 32], rax       # 8-byte Spill
+	mov	r12, rax
+	mov	r8, rax
+	mov	r11, rax
+	mov	r9, rax
+	mov	r10, rax
+	mov	rsi, rax
+	mov	rdi, rax
+	movzx	ecx, byte ptr [rdx + rax]
+	movd	xmm6, ecx
+	movzx	ecx, byte ptr [rdx + rax + 1]
+	movd	xmm15, ecx
+	movzx	ecx, byte ptr [rdx + rax + 2]
+	movd	xmm5, ecx
+	movzx	ecx, byte ptr [rdx + rax + 3]
+	movd	xmm4, ecx
+	movzx	ecx, byte ptr [rdx + rax + 4]
+	movd	xmm3, ecx
+	movzx	ecx, byte ptr [rdx + rax + 5]
+	movd	xmm7, ecx
+	movzx	ecx, byte ptr [rdx + rax + 6]
+	movd	xmm2, ecx
+	movzx	ecx, byte ptr [rdx + rax + 7]
+	movd	xmm9, ecx
+	movzx	ecx, byte ptr [rdx + rax + 8]
+	movd	xmm0, ecx
+	movdqa	xmmword ptr [rsp + 224], xmm0   # 16-byte Spill
+	movzx	ecx, byte ptr [rdx + rax + 9]
+	movd	xmm10, ecx
+	movzx	ecx, byte ptr [rdx + rax + 10]
+	movd	xmm12, ecx
+	movzx	ecx, byte ptr [rdx + rax + 11]
+	movd	xmm11, ecx
+	movzx	ecx, byte ptr [rdx + rax + 12]
+	movd	xmm13, ecx
+	movzx	ecx, byte ptr [rdx + rax + 13]
+	movd	xmm0, ecx
+	movzx	ecx, byte ptr [rdx + rax + 14]
+	movd	xmm14, ecx
+	movzx	ecx, byte ptr [rdx + rax + 15]
+	movd	xmm1, ecx
+	movdqa	xmmword ptr [rsp + 176], xmm1   # 16-byte Spill
+	mov	qword ptr [rsp + 80], rax       # 8-byte Spill
+	mov	r13, rax
+	or	r13, 32
+	mov	qword ptr [rsp + 40], r13       # 8-byte Spill
+	or	r14, 64
+	or	rbx, 96
+	or	r15, 128
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	or	rcx, 160
+	mov	qword ptr [rsp + 32], rcx       # 8-byte Spill
+	or	r12, 192
+	or	r8, 224
+	or	r11, 256
+	or	r9, 288
+	or	r10, 320
+	or	rsi, 352
+	mov	qword ptr [rsp + 88], rsi       # 8-byte Spill
+	mov	rsi, rax
+	or	rsi, 384
+	mov	qword ptr [rsp + 112], rsi      # 8-byte Spill
+	or	rdi, 416
+	mov	qword ptr [rsp + 16], rdi       # 8-byte Spill
+	mov	rdi, rax
+	or	rdi, 448
+	mov	qword ptr [rsp + 24], rdi       # 8-byte Spill
+	mov	rdi, rax
+	or	rdi, 480
+	mov	qword ptr [rsp + 8], rdi        # 8-byte Spill
+	pinsrb	xmm6, byte ptr [rdx + r13], 1
+	pinsrb	xmm6, byte ptr [rdx + r14], 2
+	mov	qword ptr [rsp + 104], rbx      # 8-byte Spill
+	pinsrb	xmm6, byte ptr [rdx + rbx], 3
+	pinsrb	xmm6, byte ptr [rdx + r15], 4
+	pinsrb	xmm6, byte ptr [rdx + rcx], 5
+	pinsrb	xmm6, byte ptr [rdx + r12], 6
+	mov	qword ptr [rsp + 56], r8        # 8-byte Spill
+	pinsrb	xmm6, byte ptr [rdx + r8], 7
+	mov	qword ptr [rsp + 72], r11       # 8-byte Spill
+	pinsrb	xmm6, byte ptr [rdx + r11], 8
+	mov	r11, r9
+	mov	qword ptr [rsp + 96], r9        # 8-byte Spill
+	pinsrb	xmm6, byte ptr [rdx + r9], 9
+	mov	r9, r10
+	pinsrb	xmm6, byte ptr [rdx + r10], 10
+	mov	r10, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r10], 11
+	pinsrb	xmm6, byte ptr [rdx + rsi], 12
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rax], 13
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r13], 14
+	pinsrb	xmm6, byte ptr [rdx + rdi], 15
+	pmaxub	xmm6, xmm8
+	pcmpeqb	xmm6, xmm8
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rdi + 1], 1
+	pinsrb	xmm15, byte ptr [rdx + r14 + 1], 2
+	pinsrb	xmm15, byte ptr [rdx + rbx + 1], 3
+	pinsrb	xmm15, byte ptr [rdx + r15 + 1], 4
+	mov	rbx, r15
+	pinsrb	xmm15, byte ptr [rdx + rcx + 1], 5
+	pinsrb	xmm15, byte ptr [rdx + r12 + 1], 6
+	mov	r15, r12
+	pinsrb	xmm15, byte ptr [rdx + r8 + 1], 7
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r13 + 1], 8
+	pinsrb	xmm15, byte ptr [rdx + r11 + 1], 9
+	pinsrb	xmm15, byte ptr [rdx + r9 + 1], 10
+	mov	qword ptr [rsp + 64], r9        # 8-byte Spill
+	pinsrb	xmm15, byte ptr [rdx + r10 + 1], 11
+	mov	rcx, r10
+	pinsrb	xmm15, byte ptr [rdx + rsi + 1], 12
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r12 + 1], 13
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rax + 1], 14
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rax + 1], 15
+	pmaxub	xmm15, xmm8
+	pcmpeqb	xmm15, xmm8
+	movdqa	xmm1, xmmword ptr [rip + .LCPI11_16] # xmm1 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
+	pand	xmm15, xmm1
+	psubb	xmm15, xmm6
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 16]
+	movd	xmm1, esi
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rdi + 2], 1
+	mov	r8, r14
+	mov	qword ptr [rsp + 48], r14       # 8-byte Spill
+	pinsrb	xmm5, byte ptr [rdx + r14 + 2], 2
+	mov	r14, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r14 + 2], 3
+	mov	r10, rbx
+	pinsrb	xmm5, byte ptr [rdx + rbx + 2], 4
+	mov	rax, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rax + 2], 5
+	mov	rbx, r15
+	pinsrb	xmm5, byte ptr [rdx + r15 + 2], 6
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rsi + 2], 7
+	mov	r11, r13
+	pinsrb	xmm5, byte ptr [rdx + r13 + 2], 8
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r15 + 2], 9
+	pinsrb	xmm5, byte ptr [rdx + r9 + 2], 10
+	pinsrb	xmm5, byte ptr [rdx + rcx + 2], 11
+	mov	rcx, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rcx + 2], 12
+	mov	r13, r12
+	pinsrb	xmm5, byte ptr [rdx + r12 + 2], 13
+	mov	r9, qword ptr [rsp + 24]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r9 + 2], 14
+	mov	r12, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r12 + 2], 15
+	pinsrb	xmm4, byte ptr [rdx + rdi + 3], 1
+	pinsrb	xmm4, byte ptr [rdx + r8 + 3], 2
+	pinsrb	xmm4, byte ptr [rdx + r14 + 3], 3
+	pinsrb	xmm4, byte ptr [rdx + r10 + 3], 4
+	pinsrb	xmm4, byte ptr [rdx + rax + 3], 5
+	pinsrb	xmm4, byte ptr [rdx + rbx + 3], 6
+	pinsrb	xmm4, byte ptr [rdx + rsi + 3], 7
+	pinsrb	xmm4, byte ptr [rdx + r11 + 3], 8
+	pinsrb	xmm4, byte ptr [rdx + r15 + 3], 9
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r11 + 3], 10
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	pinsrb	xmm4, byte ptr [rdx + r8 + 3], 11
+	pinsrb	xmm4, byte ptr [rdx + rcx + 3], 12
+	pinsrb	xmm4, byte ptr [rdx + r13 + 3], 13
+	pinsrb	xmm4, byte ptr [rdx + r9 + 3], 14
+	pinsrb	xmm4, byte ptr [rdx + r12 + 3], 15
+	pmaxub	xmm5, xmm8
+	pcmpeqb	xmm5, xmm8
+	movdqa	xmm6, xmmword ptr [rip + .LCPI11_17] # xmm6 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]
+	pand	xmm5, xmm6
+	pmaxub	xmm4, xmm8
+	pcmpeqb	xmm4, xmm8
+	movdqa	xmm6, xmmword ptr [rip + .LCPI11_18] # xmm6 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
+	pand	xmm4, xmm6
+	por	xmm4, xmm5
+	mov	rcx, qword ptr [rsp + 80]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rcx + 17]
+	movd	xmm5, esi
+	por	xmm4, xmm15
+	movzx	esi, byte ptr [rdx + rcx + 18]
+	movd	xmm15, esi
+	mov	r14, rdi
+	pinsrb	xmm3, byte ptr [rdx + rdi + 4], 1
+	mov	r13, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r13 + 4], 2
+	mov	r12, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r12 + 4], 3
+	mov	qword ptr [rsp + 144], r10      # 8-byte Spill
+	pinsrb	xmm3, byte ptr [rdx + r10 + 4], 4
+	pinsrb	xmm3, byte ptr [rdx + rax + 4], 5
+	pinsrb	xmm3, byte ptr [rdx + rbx + 4], 6
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rcx + 4], 7
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rcx + 4], 8
+	pinsrb	xmm3, byte ptr [rdx + r15 + 4], 9
+	mov	rsi, r11
+	pinsrb	xmm3, byte ptr [rdx + r11 + 4], 10
+	pinsrb	xmm3, byte ptr [rdx + r8 + 4], 11
+	mov	r9, qword ptr [rsp + 112]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r9 + 4], 12
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rcx + 4], 13
+	mov	rdi, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rdi + 4], 14
+	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r11 + 4], 15
+	pinsrb	xmm7, byte ptr [rdx + r14 + 5], 1
+	pinsrb	xmm7, byte ptr [rdx + r13 + 5], 2
+	pinsrb	xmm7, byte ptr [rdx + r12 + 5], 3
+	pinsrb	xmm7, byte ptr [rdx + r10 + 5], 4
+	pinsrb	xmm7, byte ptr [rdx + rax + 5], 5
+	pinsrb	xmm7, byte ptr [rdx + rbx + 5], 6
+	mov	rcx, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rcx + 5], 7
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rcx + 5], 8
+	pinsrb	xmm7, byte ptr [rdx + r15 + 5], 9
+	pinsrb	xmm7, byte ptr [rdx + rsi + 5], 10
+	pinsrb	xmm7, byte ptr [rdx + r8 + 5], 11
+	pinsrb	xmm7, byte ptr [rdx + r9 + 5], 12
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm7, byte ptr [rdx + rcx + 5], 13
+	pinsrb	xmm7, byte ptr [rdx + rdi + 5], 14
+	pinsrb	xmm7, byte ptr [rdx + r11 + 5], 15
+	pinsrb	xmm2, byte ptr [rdx + r14 + 6], 1
+	pinsrb	xmm2, byte ptr [rdx + r13 + 6], 2
+	pinsrb	xmm2, byte ptr [rdx + r12 + 6], 3
+	pinsrb	xmm2, byte ptr [rdx + r10 + 6], 4
+	pinsrb	xmm2, byte ptr [rdx + rax + 6], 5
+	mov	r10, rax
+	pinsrb	xmm2, byte ptr [rdx + rbx + 6], 6
+	mov	r13, rbx
+	mov	qword ptr [rsp + 160], rbx      # 8-byte Spill
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rax + 6], 7
+	mov	r14, rax
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rbx + 6], 8
+	pinsrb	xmm2, byte ptr [rdx + r15 + 6], 9
+	mov	r11, r15
+	pinsrb	xmm2, byte ptr [rdx + rsi + 6], 10
+	pinsrb	xmm2, byte ptr [rdx + r8 + 6], 11
+	mov	r12, r8
+	pinsrb	xmm2, byte ptr [rdx + r9 + 6], 12
+	pinsrb	xmm2, byte ptr [rdx + rcx + 6], 13
+	pinsrb	xmm2, byte ptr [rdx + rdi + 6], 14
+	mov	r15, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r15 + 6], 15
+	pmaxub	xmm3, xmm8
+	pcmpeqb	xmm3, xmm8
+	movdqa	xmm6, xmmword ptr [rip + .LCPI11_19] # xmm6 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pand	xmm3, xmm6
+	pmaxub	xmm7, xmm8
+	pcmpeqb	xmm7, xmm8
+	movdqa	xmm6, xmmword ptr [rip + .LCPI11_20] # xmm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm7, xmm6
+	por	xmm7, xmm3
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 19]
+	movd	xmm3, esi
+	pmaxub	xmm2, xmm8
+	pcmpeqb	xmm2, xmm8
+	movdqa	xmm6, xmmword ptr [rip + .LCPI11_21] # xmm6 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm2, xmm6
+	por	xmm2, xmm7
+	movzx	esi, byte ptr [rdx + rax + 20]
+	movd	xmm6, esi
+	por	xmm2, xmm4
+	movzx	esi, byte ptr [rdx + rax + 21]
+	movd	xmm4, esi
+	mov	rdi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rdi + 7], 1
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rax + 7], 2
+	mov	rax, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + rax + 7], 3
+	mov	r8, qword ptr [rsp + 144]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + r8 + 7], 4
+	pinsrb	xmm9, byte ptr [rdx + r10 + 7], 5
+	pinsrb	xmm9, byte ptr [rdx + r13 + 7], 6
+	pinsrb	xmm9, byte ptr [rdx + r14 + 7], 7
+	pinsrb	xmm9, byte ptr [rdx + rbx + 7], 8
+	pinsrb	xmm9, byte ptr [rdx + r11 + 7], 9
+	mov	rcx, r11
+	mov	r11, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + r11 + 7], 10
+	pinsrb	xmm9, byte ptr [rdx + r12 + 7], 11
+	pinsrb	xmm9, byte ptr [rdx + r9 + 7], 12
+	mov	r13, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + r13 + 7], 13
+	mov	r12, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm9, byte ptr [rdx + r12 + 7], 14
+	pinsrb	xmm9, byte ptr [rdx + r15 + 7], 15
+	pmaxub	xmm9, xmm8
+	pcmpeqb	xmm9, xmm8
+	movdqa	xmm7, xmmword ptr [rip + .LCPI11_6] # xmm7 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm9, xmm7
+	por	xmm9, xmm2
+	movdqa	xmmword ptr [rsp + 208], xmm9   # 16-byte Spill
+	mov	r9, qword ptr [rsp + 80]        # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r9 + 22]
+	movd	xmm7, esi
+	movdqa	xmm2, xmmword ptr [rsp + 224]   # 16-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rdi + 8], 1
+	mov	r14, rdi
+	mov	rdi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rdi + 8], 2
+	pinsrb	xmm2, byte ptr [rdx + rax + 8], 3
+	mov	r15, rax
+	pinsrb	xmm2, byte ptr [rdx + r8 + 8], 4
+	pinsrb	xmm2, byte ptr [rdx + r10 + 8], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rax + 8], 6
+	mov	rsi, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rsi + 8], 7
+	mov	rbx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rbx + 8], 8
+	pinsrb	xmm2, byte ptr [rdx + rcx + 8], 9
+	pinsrb	xmm2, byte ptr [rdx + r11 + 8], 10
+	mov	rcx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + rcx + 8], 11
+	mov	r11, qword ptr [rsp + 112]      # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r11 + 8], 12
+	mov	rsi, r13
+	pinsrb	xmm2, byte ptr [rdx + r13 + 8], 13
+	pinsrb	xmm2, byte ptr [rdx + r12 + 8], 14
+	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm2, byte ptr [rdx + r13 + 8], 15
+	pmaxub	xmm2, xmm8
+	pcmpeqb	xmm2, xmm8
+	pinsrb	xmm10, byte ptr [rdx + r14 + 9], 1
+	pinsrb	xmm10, byte ptr [rdx + rdi + 9], 2
+	pinsrb	xmm10, byte ptr [rdx + r15 + 9], 3
+	mov	r14, r15
+	pinsrb	xmm10, byte ptr [rdx + r8 + 9], 4
+	mov	r15, r8
+	pinsrb	xmm10, byte ptr [rdx + r10 + 9], 5
+	pinsrb	xmm10, byte ptr [rdx + rax + 9], 6
+	mov	r8, rax
+	mov	rax, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rax + 9], 7
+	pinsrb	xmm10, byte ptr [rdx + rbx + 9], 8
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rax + 9], 9
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm10, byte ptr [rdx + rax + 9], 10
+	pinsrb	xmm10, byte ptr [rdx + rcx + 9], 11
+	mov	rcx, r11
+	pinsrb	xmm10, byte ptr [rdx + r11 + 9], 12
+	pinsrb	xmm10, byte ptr [rdx + rsi + 9], 13
+	pinsrb	xmm10, byte ptr [rdx + r12 + 9], 14
+	pinsrb	xmm10, byte ptr [rdx + r13 + 9], 15
+	pmaxub	xmm10, xmm8
+	pcmpeqb	xmm10, xmm8
+	pand	xmm10, xmmword ptr [rip + .LCPI11_16]
+	psubb	xmm10, xmm2
+	movzx	esi, byte ptr [rdx + r9 + 23]
+	movd	xmm2, esi
+	mov	r11, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + r11 + 10], 1
+	pinsrb	xmm12, byte ptr [rdx + rdi + 10], 2
+	mov	r10, rdi
+	mov	rsi, r14
+	pinsrb	xmm12, byte ptr [rdx + r14 + 10], 3
+	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 4
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + r14 + 10], 5
+	pinsrb	xmm12, byte ptr [rdx + r8 + 10], 6
+	mov	rbx, r8
+	mov	r15, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + r15 + 10], 7
+	mov	r13, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + r13 + 10], 8
+	mov	rdi, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rdi + 10], 9
+	pinsrb	xmm12, byte ptr [rdx + rax + 10], 10
+	mov	r8, qword ptr [rsp + 88]        # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + r8 + 10], 11
+	mov	r9, rcx
+	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 12
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rax + 10], 13
+	pinsrb	xmm12, byte ptr [rdx + r12 + 10], 14
+	mov	rcx, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm12, byte ptr [rdx + rcx + 10], 15
+	pinsrb	xmm11, byte ptr [rdx + r11 + 11], 1
+	pinsrb	xmm11, byte ptr [rdx + r10 + 11], 2
+	pinsrb	xmm11, byte ptr [rdx + rsi + 11], 3
+	mov	r10, rsi
+	mov	rsi, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + rsi + 11], 4
+	pinsrb	xmm11, byte ptr [rdx + r14 + 11], 5
+	pinsrb	xmm11, byte ptr [rdx + rbx + 11], 6
+	pinsrb	xmm11, byte ptr [rdx + r15 + 11], 7
+	mov	r14, r15
+	pinsrb	xmm11, byte ptr [rdx + r13 + 11], 8
+	pinsrb	xmm11, byte ptr [rdx + rdi + 11], 9
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + rbx + 11], 10
+	pinsrb	xmm11, byte ptr [rdx + r8 + 11], 11
+	pinsrb	xmm11, byte ptr [rdx + r9 + 11], 12
+	pinsrb	xmm11, byte ptr [rdx + rax + 11], 13
+	pinsrb	xmm11, byte ptr [rdx + r12 + 11], 14
+	pinsrb	xmm11, byte ptr [rdx + rcx + 11], 15
+	pmaxub	xmm12, xmm8
+	pcmpeqb	xmm12, xmm8
+	pand	xmm12, xmmword ptr [rip + .LCPI11_17]
+	pmaxub	xmm11, xmm8
+	pcmpeqb	xmm11, xmm8
+	pand	xmm11, xmmword ptr [rip + .LCPI11_18]
+	por	xmm11, xmm12
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 24]
+	movd	xmm9, esi
+	por	xmm11, xmm10
+	movzx	esi, byte ptr [rdx + rax + 25]
+	movd	xmm12, esi
+	pinsrb	xmm13, byte ptr [rdx + r11 + 12], 1
+	mov	r12, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + r12 + 12], 2
+	mov	r11, r10
+	pinsrb	xmm13, byte ptr [rdx + r10 + 12], 3
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rdi + 12], 4
+	mov	r15, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + r15 + 12], 5
+	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + r10 + 12], 6
+	pinsrb	xmm13, byte ptr [rdx + r14 + 12], 7
+	pinsrb	xmm13, byte ptr [rdx + r13 + 12], 8
+	mov	rcx, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rcx + 12], 9
+	pinsrb	xmm13, byte ptr [rdx + rbx + 12], 10
+	pinsrb	xmm13, byte ptr [rdx + r8 + 12], 11
+	pinsrb	xmm13, byte ptr [rdx + r9 + 12], 12
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rax + 12], 13
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rax + 12], 14
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm13, byte ptr [rdx + rsi + 12], 15
+	mov	rax, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 13], 1
+	pinsrb	xmm0, byte ptr [rdx + r12 + 13], 2
+	pinsrb	xmm0, byte ptr [rdx + r11 + 13], 3
+	pinsrb	xmm0, byte ptr [rdx + rdi + 13], 4
+	pinsrb	xmm0, byte ptr [rdx + r15 + 13], 5
+	pinsrb	xmm0, byte ptr [rdx + r10 + 13], 6
+	pinsrb	xmm0, byte ptr [rdx + r14 + 13], 7
+	pinsrb	xmm0, byte ptr [rdx + r13 + 13], 8
+	pinsrb	xmm0, byte ptr [rdx + rcx + 13], 9
+	pinsrb	xmm0, byte ptr [rdx + rbx + 13], 10
+	pinsrb	xmm0, byte ptr [rdx + r8 + 13], 11
+	pinsrb	xmm0, byte ptr [rdx + r9 + 13], 12
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 13], 13
+	mov	rax, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 13], 14
+	pinsrb	xmm0, byte ptr [rdx + rsi + 13], 15
+	mov	rax, rsi
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rsi + 14], 1
+	pinsrb	xmm14, byte ptr [rdx + r12 + 14], 2
+	pinsrb	xmm14, byte ptr [rdx + r11 + 14], 3
+	pinsrb	xmm14, byte ptr [rdx + rdi + 14], 4
+	pinsrb	xmm14, byte ptr [rdx + r15 + 14], 5
+	pinsrb	xmm14, byte ptr [rdx + r10 + 14], 6
+	pinsrb	xmm14, byte ptr [rdx + r14 + 14], 7
+	mov	r15, r14
+	pinsrb	xmm14, byte ptr [rdx + r13 + 14], 8
+	pinsrb	xmm14, byte ptr [rdx + rcx + 14], 9
+	mov	r14, rcx
+	pinsrb	xmm14, byte ptr [rdx + rbx + 14], 10
+	pinsrb	xmm14, byte ptr [rdx + r8 + 14], 11
+	pinsrb	xmm14, byte ptr [rdx + r9 + 14], 12
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + rcx + 14], 13
+	mov	r13, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm14, byte ptr [rdx + r13 + 14], 14
+	pinsrb	xmm14, byte ptr [rdx + rax + 14], 15
+	pmaxub	xmm13, xmm8
+	pcmpeqb	xmm13, xmm8
+	pand	xmm13, xmmword ptr [rip + .LCPI11_19]
+	pmaxub	xmm0, xmm8
+	pcmpeqb	xmm0, xmm8
+	pand	xmm0, xmmword ptr [rip + .LCPI11_20]
+	por	xmm0, xmm13
+	mov	r12, qword ptr [rsp + 80]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + r12 + 26]
+	movd	xmm13, esi
+	pmaxub	xmm14, xmm8
+	pcmpeqb	xmm14, xmm8
+	pand	xmm14, xmmword ptr [rip + .LCPI11_21]
+	por	xmm14, xmm0
+	movzx	esi, byte ptr [rdx + r12 + 27]
+	movd	xmm10, esi
+	por	xmm14, xmm11
+	movzx	esi, byte ptr [rdx + r12 + 28]
+	movd	xmm11, esi
+	movdqa	xmm0, xmmword ptr [rsp + 176]   # 16-byte Reload
+	mov	rcx, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rcx + 15], 1
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rsi + 15], 2
+	mov	rdi, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rdi + 15], 3
+	mov	r9, qword ptr [rsp + 144]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r9 + 15], 4
+	mov	r10, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r10 + 15], 5
+	mov	rax, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 15], 6
+	pinsrb	xmm0, byte ptr [rdx + r15 + 15], 7
+	mov	rax, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rax + 15], 8
+	pinsrb	xmm0, byte ptr [rdx + r14 + 15], 9
+	mov	rbx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rbx + 15], 10
+	pinsrb	xmm0, byte ptr [rdx + r8 + 15], 11
+	mov	r8, qword ptr [rsp + 112]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r8 + 15], 12
+	mov	rsi, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + rsi + 15], 13
+	pinsrb	xmm0, byte ptr [rdx + r13 + 15], 14
+	mov	r11, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm0, byte ptr [rdx + r11 + 15], 15
+	pmaxub	xmm0, xmm8
+	pcmpeqb	xmm0, xmm8
+	pand	xmm0, xmmword ptr [rip + .LCPI11_6]
+	por	xmm0, xmm14
+	movdqa	xmmword ptr [rsp + 176], xmm0   # 16-byte Spill
+	movzx	esi, byte ptr [rdx + r12 + 29]
+	movd	xmm14, esi
+	pinsrb	xmm1, byte ptr [rdx + rcx + 16], 1
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rsi + 16], 2
+	mov	r12, rsi
+	pinsrb	xmm1, byte ptr [rdx + rdi + 16], 3
+	pinsrb	xmm1, byte ptr [rdx + r9 + 16], 4
+	pinsrb	xmm1, byte ptr [rdx + r10 + 16], 5
+	mov	r9, qword ptr [rsp + 160]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + r9 + 16], 6
+	pinsrb	xmm1, byte ptr [rdx + r15 + 16], 7
+	pinsrb	xmm1, byte ptr [rdx + rax + 16], 8
+	pinsrb	xmm1, byte ptr [rdx + r14 + 16], 9
+	pinsrb	xmm1, byte ptr [rdx + rbx + 16], 10
+	mov	r14, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + r14 + 16], 11
+	pinsrb	xmm1, byte ptr [rdx + r8 + 16], 12
+	mov	r10, r8
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm1, byte ptr [rdx + rax + 16], 13
+	pinsrb	xmm1, byte ptr [rdx + r13 + 16], 14
+	mov	rsi, r11
+	pinsrb	xmm1, byte ptr [rdx + r11 + 16], 15
+	pmaxub	xmm1, xmm8
+	pcmpeqb	xmm1, xmm8
+	pinsrb	xmm5, byte ptr [rdx + rcx + 17], 1
+	pinsrb	xmm5, byte ptr [rdx + r12 + 17], 2
+	mov	r11, r12
+	pinsrb	xmm5, byte ptr [rdx + rdi + 17], 3
+	mov	rdi, qword ptr [rsp + 144]      # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rdi + 17], 4
+	mov	rcx, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rcx + 17], 5
+	pinsrb	xmm5, byte ptr [rdx + r9 + 17], 6
+	pinsrb	xmm5, byte ptr [rdx + r15 + 17], 7
+	mov	r9, r15
+	mov	rcx, qword ptr [rsp + 72]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + rcx + 17], 8
+	mov	r15, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm5, byte ptr [rdx + r15 + 17], 9
+	pinsrb	xmm5, byte ptr [rdx + rbx + 17], 10
+	mov	r8, r14
+	pinsrb	xmm5, byte ptr [rdx + r14 + 17], 11
+	pinsrb	xmm5, byte ptr [rdx + r10 + 17], 12
+	mov	r12, r10
+	pinsrb	xmm5, byte ptr [rdx + rax + 17], 13
+	pinsrb	xmm5, byte ptr [rdx + r13 + 17], 14
+	pinsrb	xmm5, byte ptr [rdx + rsi + 17], 15
+	pmaxub	xmm5, xmm8
+	pcmpeqb	xmm5, xmm8
+	pand	xmm5, xmmword ptr [rip + .LCPI11_16]
+	psubb	xmm5, xmm1
+	mov	rax, qword ptr [rsp + 80]       # 8-byte Reload
+	movzx	esi, byte ptr [rdx + rax + 30]
+	movd	xmm1, esi
+	mov	rsi, qword ptr [rsp + 40]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rsi + 18], 1
+	pinsrb	xmm3, byte ptr [rdx + rsi + 19], 1
+	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 1
+	pinsrb	xmm4, byte ptr [rdx + rsi + 21], 1
+	pinsrb	xmm7, byte ptr [rdx + rsi + 22], 1
+	pinsrb	xmm2, byte ptr [rdx + rsi + 23], 1
+	pinsrb	xmm9, byte ptr [rdx + rsi + 24], 1
+	pinsrb	xmm12, byte ptr [rdx + rsi + 25], 1
+	pinsrb	xmm13, byte ptr [rdx + rsi + 26], 1
+	pinsrb	xmm10, byte ptr [rdx + rsi + 27], 1
+	pinsrb	xmm11, byte ptr [rdx + rsi + 28], 1
+	pinsrb	xmm14, byte ptr [rdx + rsi + 29], 1
+	pinsrb	xmm1, byte ptr [rdx + rsi + 30], 1
+	movzx	eax, byte ptr [rdx + rax + 31]
+	movd	xmm0, eax
+	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 1
+	pinsrb	xmm15, byte ptr [rdx + r11 + 18], 2
+	mov	r11, qword ptr [rsp + 104]      # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r11 + 18], 3
+	pinsrb	xmm15, byte ptr [rdx + rdi + 18], 4
+	mov	r14, qword ptr [rsp + 32]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r14 + 18], 5
+	mov	r10, qword ptr [rsp + 160]      # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r10 + 18], 6
+	pinsrb	xmm15, byte ptr [rdx + r9 + 18], 7
+	mov	rsi, rcx
+	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 8
+	pinsrb	xmm15, byte ptr [rdx + r15 + 18], 9
+	mov	rcx, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rcx + 18], 10
+	pinsrb	xmm15, byte ptr [rdx + r8 + 18], 11
+	pinsrb	xmm15, byte ptr [rdx + r12 + 18], 12
+	mov	rax, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rax + 18], 13
+	mov	rbx, qword ptr [rsp + 24]       # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + rbx + 18], 14
+	mov	r13, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm15, byte ptr [rdx + r13 + 18], 15
+	mov	rbx, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rbx + 19], 2
+	pinsrb	xmm3, byte ptr [rdx + r11 + 19], 3
+	pinsrb	xmm3, byte ptr [rdx + rdi + 19], 4
+	pinsrb	xmm3, byte ptr [rdx + r14 + 19], 5
+	pinsrb	xmm3, byte ptr [rdx + r10 + 19], 6
+	mov	r13, r10
+	pinsrb	xmm3, byte ptr [rdx + r9 + 19], 7
+	pinsrb	xmm3, byte ptr [rdx + rsi + 19], 8
+	mov	r10, rsi
+	pinsrb	xmm3, byte ptr [rdx + r15 + 19], 9
+	pinsrb	xmm3, byte ptr [rdx + rcx + 19], 10
+	pinsrb	xmm3, byte ptr [rdx + r8 + 19], 11
+	mov	rcx, r12
+	pinsrb	xmm3, byte ptr [rdx + r12 + 19], 12
+	pinsrb	xmm3, byte ptr [rdx + rax + 19], 13
+	mov	r8, qword ptr [rsp + 24]        # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + r8 + 19], 14
+	mov	rax, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm3, byte ptr [rdx + rax + 19], 15
+	mov	rsi, qword ptr [rsp + 48]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 2
+	pinsrb	xmm4, byte ptr [rdx + rsi + 21], 2
+	pinsrb	xmm7, byte ptr [rdx + rsi + 22], 2
+	pinsrb	xmm2, byte ptr [rdx + rsi + 23], 2
+	pinsrb	xmm9, byte ptr [rdx + rsi + 24], 2
+	pinsrb	xmm12, byte ptr [rdx + rsi + 25], 2
+	pinsrb	xmm13, byte ptr [rdx + rsi + 26], 2
+	pinsrb	xmm10, byte ptr [rdx + rsi + 27], 2
+	pinsrb	xmm11, byte ptr [rdx + rsi + 28], 2
+	pinsrb	xmm14, byte ptr [rdx + rsi + 29], 2
+	pinsrb	xmm1, byte ptr [rdx + rsi + 30], 2
+	pmaxub	xmm15, xmm8
+	pcmpeqb	xmm15, xmm8
+	pand	xmm15, xmmword ptr [rip + .LCPI11_17]
+	pmaxub	xmm3, xmm8
+	pcmpeqb	xmm3, xmm8
+	pand	xmm3, xmmword ptr [rip + .LCPI11_18]
+	por	xmm3, xmm15
+	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 2
+	por	xmm3, xmm5
+	pinsrb	xmm6, byte ptr [rdx + r11 + 20], 3
+	pinsrb	xmm6, byte ptr [rdx + rdi + 20], 4
+	mov	r9, r14
+	pinsrb	xmm6, byte ptr [rdx + r14 + 20], 5
+	pinsrb	xmm6, byte ptr [rdx + r13 + 20], 6
+	mov	r14, qword ptr [rsp + 56]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r14 + 20], 7
+	pinsrb	xmm6, byte ptr [rdx + r10 + 20], 8
+	pinsrb	xmm6, byte ptr [rdx + r15 + 20], 9
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rax + 20], 10
+	mov	rbx, qword ptr [rsp + 88]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rbx + 20], 11
+	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 12
+	mov	r12, qword ptr [rsp + 16]       # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + r12 + 20], 13
+	pinsrb	xmm6, byte ptr [rdx + r8 + 20], 14
+	mov	rsi, qword ptr [rsp + 8]        # 8-byte Reload
+	pinsrb	xmm6, byte ptr [rdx + rsi + 20], 15
+	pinsrb	xmm4, byte ptr [rdx + r11 + 21], 3
+	pinsrb	xmm4, byte ptr [rdx + rdi + 21], 4
+	pinsrb	xmm4, byte ptr [rdx + r9 + 21], 5
+	pinsrb	xmm4, byte ptr [rdx + r13 + 21], 6
+	pinsrb	xmm4, byte ptr [rdx + r14 + 21], 7
+	pinsrb	xmm4, byte ptr [rdx + r10 + 21], 8
+	pinsrb	xmm4, byte ptr [rdx + r15 + 21], 9
+	pinsrb	xmm4, byte ptr [rdx + rax + 21], 10
+	pinsrb	xmm4, byte ptr [rdx + rbx + 21], 11
+	pinsrb	xmm4, byte ptr [rdx + rcx + 21], 12
+	pinsrb	xmm4, byte ptr [rdx + r12 + 21], 13
+	pinsrb	xmm4, byte ptr [rdx + r8 + 21], 14
+	pinsrb	xmm4, byte ptr [rdx + rsi + 21], 15
+	pinsrb	xmm7, byte ptr [rdx + r11 + 22], 3
+	pinsrb	xmm7, byte ptr [rdx + rdi + 22], 4
+	pinsrb	xmm7, byte ptr [rdx + r9 + 22], 5
+	pinsrb	xmm7, byte ptr [rdx + r13 + 22], 6
+	pinsrb	xmm7, byte ptr [rdx + r14 + 22], 7
+	pinsrb	xmm7, byte ptr [rdx + r10 + 22], 8
+	pinsrb	xmm7, byte ptr [rdx + r15 + 22], 9
+	pinsrb	xmm7, byte ptr [rdx + rax + 22], 10
+	pinsrb	xmm7, byte ptr [rdx + rbx + 22], 11
+	pinsrb	xmm7, byte ptr [rdx + rcx + 22], 12
+	pinsrb	xmm7, byte ptr [rdx + r12 + 22], 13
+	pinsrb	xmm7, byte ptr [rdx + r8 + 22], 14
+	pinsrb	xmm7, byte ptr [rdx + rsi + 22], 15
+	pmaxub	xmm6, xmm8
+	pcmpeqb	xmm6, xmm8
+	movdqa	xmm5, xmmword ptr [rip + .LCPI11_19] # xmm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
+	pand	xmm6, xmm5
+	pmaxub	xmm4, xmm8
+	pcmpeqb	xmm4, xmm8
+	movdqa	xmm15, xmmword ptr [rip + .LCPI11_20] # xmm15 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
+	pand	xmm4, xmm15
+	por	xmm4, xmm6
+	pmaxub	xmm7, xmm8
+	pcmpeqb	xmm7, xmm8
+	movdqa	xmm6, xmmword ptr [rip + .LCPI11_21] # xmm6 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
+	pand	xmm7, xmm6
+	por	xmm7, xmm4
+	por	xmm7, xmm3
+	pinsrb	xmm2, byte ptr [rdx + r11 + 23], 3
+	pinsrb	xmm2, byte ptr [rdx + rdi + 23], 4
+	pinsrb	xmm2, byte ptr [rdx + r9 + 23], 5
+	pinsrb	xmm2, byte ptr [rdx + r13 + 23], 6
+	pinsrb	xmm2, byte ptr [rdx + r14 + 23], 7
+	pinsrb	xmm2, byte ptr [rdx + r10 + 23], 8
+	pinsrb	xmm2, byte ptr [rdx + r15 + 23], 9
+	pinsrb	xmm2, byte ptr [rdx + rax + 23], 10
+	pinsrb	xmm2, byte ptr [rdx + rbx + 23], 11
+	pinsrb	xmm2, byte ptr [rdx + rcx + 23], 12
+	pinsrb	xmm2, byte ptr [rdx + r12 + 23], 13
+	pinsrb	xmm2, byte ptr [rdx + r8 + 23], 14
+	pinsrb	xmm2, byte ptr [rdx + rsi + 23], 15
+	pmaxub	xmm2, xmm8
+	pcmpeqb	xmm2, xmm8
+	movdqa	xmm3, xmmword ptr [rip + .LCPI11_6] # xmm3 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	pand	xmm2, xmm3
+	por	xmm2, xmm7
+	pinsrb	xmm9, byte ptr [rdx + r11 + 24], 3
+	pinsrb	xmm9, byte ptr [rdx + rdi + 24], 4
+	pinsrb	xmm9, byte ptr [rdx + r9 + 24], 5
+	pinsrb	xmm9, byte ptr [rdx + r13 + 24], 6
+	pinsrb	xmm9, byte ptr [rdx + r14 + 24], 7
+	pinsrb	xmm9, byte ptr [rdx + r10 + 24], 8
+	pinsrb	xmm9, byte ptr [rdx + r15 + 24], 9
+	pinsrb	xmm9, byte ptr [rdx + rax + 24], 10
+	pinsrb	xmm9, byte ptr [rdx + rbx + 24], 11
+	pinsrb	xmm9, byte ptr [rdx + rcx + 24], 12
+	pinsrb	xmm9, byte ptr [rdx + r12 + 24], 13
+	pinsrb	xmm9, byte ptr [rdx + r8 + 24], 14
+	pinsrb	xmm9, byte ptr [rdx + rsi + 24], 15
+	pmaxub	xmm9, xmm8
+	pcmpeqb	xmm9, xmm8
+	pinsrb	xmm12, byte ptr [rdx + r11 + 25], 3
+	pinsrb	xmm12, byte ptr [rdx + rdi + 25], 4
+	pinsrb	xmm12, byte ptr [rdx + r9 + 25], 5
+	pinsrb	xmm12, byte ptr [rdx + r13 + 25], 6
+	pinsrb	xmm12, byte ptr [rdx + r14 + 25], 7
+	pinsrb	xmm12, byte ptr [rdx + r10 + 25], 8
+	pinsrb	xmm12, byte ptr [rdx + r15 + 25], 9
+	pinsrb	xmm12, byte ptr [rdx + rax + 25], 10
+	pinsrb	xmm12, byte ptr [rdx + rbx + 25], 11
+	pinsrb	xmm12, byte ptr [rdx + rcx + 25], 12
+	pinsrb	xmm12, byte ptr [rdx + r12 + 25], 13
+	pinsrb	xmm12, byte ptr [rdx + r8 + 25], 14
+	pinsrb	xmm12, byte ptr [rdx + rsi + 25], 15
+	pmaxub	xmm12, xmm8
+	pcmpeqb	xmm12, xmm8
+	pand	xmm12, xmmword ptr [rip + .LCPI11_16]
+	psubb	xmm12, xmm9
+	pinsrb	xmm13, byte ptr [rdx + r11 + 26], 3
+	pinsrb	xmm13, byte ptr [rdx + rdi + 26], 4
+	pinsrb	xmm13, byte ptr [rdx + r9 + 26], 5
+	pinsrb	xmm13, byte ptr [rdx + r13 + 26], 6
+	pinsrb	xmm13, byte ptr [rdx + r14 + 26], 7
+	pinsrb	xmm13, byte ptr [rdx + r10 + 26], 8
+	pinsrb	xmm13, byte ptr [rdx + r15 + 26], 9
+	pinsrb	xmm13, byte ptr [rdx + rax + 26], 10
+	pinsrb	xmm13, byte ptr [rdx + rbx + 26], 11
+	pinsrb	xmm13, byte ptr [rdx + rcx + 26], 12
+	pinsrb	xmm13, byte ptr [rdx + r12 + 26], 13
+	pinsrb	xmm13, byte ptr [rdx + r8 + 26], 14
+	pinsrb	xmm13, byte ptr [rdx + rsi + 26], 15
+	pinsrb	xmm10, byte ptr [rdx + r11 + 27], 3
+	pinsrb	xmm10, byte ptr [rdx + rdi + 27], 4
+	pinsrb	xmm10, byte ptr [rdx + r9 + 27], 5
+	pinsrb	xmm10, byte ptr [rdx + r13 + 27], 6
+	pinsrb	xmm10, byte ptr [rdx + r14 + 27], 7
+	pinsrb	xmm10, byte ptr [rdx + r10 + 27], 8
+	pinsrb	xmm10, byte ptr [rdx + r15 + 27], 9
+	pinsrb	xmm10, byte ptr [rdx + rax + 27], 10
+	pinsrb	xmm10, byte ptr [rdx + rbx + 27], 11
+	pinsrb	xmm10, byte ptr [rdx + rcx + 27], 12
+	pinsrb	xmm10, byte ptr [rdx + r12 + 27], 13
+	pinsrb	xmm10, byte ptr [rdx + r8 + 27], 14
+	pinsrb	xmm10, byte ptr [rdx + rsi + 27], 15
+	pmaxub	xmm13, xmm8
+	pcmpeqb	xmm13, xmm8
+	pand	xmm13, xmmword ptr [rip + .LCPI11_17]
+	pmaxub	xmm10, xmm8
+	pcmpeqb	xmm10, xmm8
+	pand	xmm10, xmmword ptr [rip + .LCPI11_18]
+	por	xmm10, xmm13
+	por	xmm10, xmm12
+	pinsrb	xmm11, byte ptr [rdx + r11 + 28], 3
+	pinsrb	xmm14, byte ptr [rdx + r11 + 29], 3
+	pinsrb	xmm1, byte ptr [rdx + r11 + 30], 3
+	pinsrb	xmm0, byte ptr [rdx + r11 + 31], 3
+	pinsrb	xmm11, byte ptr [rdx + rdi + 28], 4
+	pinsrb	xmm14, byte ptr [rdx + rdi + 29], 4
+	pinsrb	xmm1, byte ptr [rdx + rdi + 30], 4
+	pinsrb	xmm0, byte ptr [rdx + rdi + 31], 4
+	pinsrb	xmm11, byte ptr [rdx + r9 + 28], 5
+	pinsrb	xmm14, byte ptr [rdx + r9 + 29], 5
+	pinsrb	xmm1, byte ptr [rdx + r9 + 30], 5
+	pinsrb	xmm0, byte ptr [rdx + r9 + 31], 5
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + r13 + 28], 6
+	pinsrb	xmm14, byte ptr [rdx + r13 + 29], 6
+	pinsrb	xmm1, byte ptr [rdx + r13 + 30], 6
+	pinsrb	xmm0, byte ptr [rdx + r13 + 31], 6
+	mov	rax, r14
+	pinsrb	xmm11, byte ptr [rdx + r14 + 28], 7
+	pinsrb	xmm14, byte ptr [rdx + r14 + 29], 7
+	pinsrb	xmm1, byte ptr [rdx + r14 + 30], 7
+	pinsrb	xmm0, byte ptr [rdx + r14 + 31], 7
+	pinsrb	xmm11, byte ptr [rdx + r10 + 28], 8
+	pinsrb	xmm14, byte ptr [rdx + r10 + 29], 8
+	pinsrb	xmm1, byte ptr [rdx + r10 + 30], 8
+	pinsrb	xmm0, byte ptr [rdx + r10 + 31], 8
+	mov	rax, qword ptr [rsp + 96]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + rax + 28], 9
+	pinsrb	xmm14, byte ptr [rdx + rax + 29], 9
+	pinsrb	xmm1, byte ptr [rdx + rax + 30], 9
+	pinsrb	xmm0, byte ptr [rdx + rax + 31], 9
+	mov	rax, qword ptr [rsp + 64]       # 8-byte Reload
+	pinsrb	xmm11, byte ptr [rdx + rax + 28], 10
+	pinsrb	xmm14, byte ptr [rdx + rax + 29], 10
+	pinsrb	xmm1, byte ptr [rdx + rax + 30], 10
+	pinsrb	xmm0, byte ptr [rdx + rax + 31], 10
+	mov	rax, rbx
+	pinsrb	xmm11, byte ptr [rdx + rbx + 28], 11
+	pinsrb	xmm14, byte ptr [rdx + rbx + 29], 11
+	pinsrb	xmm1, byte ptr [rdx + rbx + 30], 11
+	pinsrb	xmm0, byte ptr [rdx + rbx + 31], 11
+	pinsrb	xmm11, byte ptr [rdx + rcx + 28], 12
+	pinsrb	xmm14, byte ptr [rdx + rcx + 29], 12
+	pinsrb	xmm1, byte ptr [rdx + rcx + 30], 12
+	pinsrb	xmm0, byte ptr [rdx + rcx + 31], 12
+	mov	rax, r12
+	pinsrb	xmm11, byte ptr [rdx + r12 + 28], 13
+	pinsrb	xmm14, byte ptr [rdx + r12 + 29], 13
+	pinsrb	xmm1, byte ptr [rdx + r12 + 30], 13
+	pinsrb	xmm0, byte ptr [rdx + r12 + 31], 13
+	mov	rax, r8
+	pinsrb	xmm11, byte ptr [rdx + r8 + 28], 14
+	pinsrb	xmm14, byte ptr [rdx + r8 + 29], 14
+	pinsrb	xmm1, byte ptr [rdx + r8 + 30], 14
+	pinsrb	xmm0, byte ptr [rdx + r8 + 31], 14
+	mov	rax, rsi
+	pinsrb	xmm11, byte ptr [rdx + rsi + 28], 15
+	pinsrb	xmm14, byte ptr [rdx + rsi + 29], 15
+	pinsrb	xmm1, byte ptr [rdx + rsi + 30], 15
+	pinsrb	xmm0, byte ptr [rdx + rsi + 31], 15
+	pmaxub	xmm11, xmm8
+	pcmpeqb	xmm11, xmm8
+	pand	xmm11, xmm5
+	pmaxub	xmm14, xmm8
+	pcmpeqb	xmm14, xmm8
+	pand	xmm14, xmm15
+	por	xmm14, xmm11
+	pmaxub	xmm1, xmm8
+	pcmpeqb	xmm1, xmm8
+	pand	xmm1, xmm6
+	por	xmm1, xmm14
+	por	xmm1, xmm10
+	pmaxub	xmm0, xmm8
+	pcmpeqb	xmm0, xmm8
+	pand	xmm0, xmm3
+	por	xmm0, xmm1
+	movdqa	xmm1, xmm2
+	punpcklbw	xmm1, xmm0              # xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
+	movdqa	xmm5, xmmword ptr [rsp + 208]   # 16-byte Reload
+	movdqa	xmm3, xmm5
+	movdqa	xmm6, xmmword ptr [rsp + 176]   # 16-byte Reload
+	punpcklbw	xmm3, xmm6              # xmm3 = xmm3[0],xmm6[0],xmm3[1],xmm6[1],xmm3[2],xmm6[2],xmm3[3],xmm6[3],xmm3[4],xmm6[4],xmm3[5],xmm6[5],xmm3[6],xmm6[6],xmm3[7],xmm6[7]
+	movdqa	xmm4, xmm3
+	punpcklwd	xmm4, xmm1              # xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3]
+	punpckhwd	xmm3, xmm1              # xmm3 = xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
+	punpckhbw	xmm2, xmm0              # xmm2 = xmm2[8],xmm0[8],xmm2[9],xmm0[9],xmm2[10],xmm0[10],xmm2[11],xmm0[11],xmm2[12],xmm0[12],xmm2[13],xmm0[13],xmm2[14],xmm0[14],xmm2[15],xmm0[15]
+	punpckhbw	xmm5, xmm6              # xmm5 = xmm5[8],xmm6[8],xmm5[9],xmm6[9],xmm5[10],xmm6[10],xmm5[11],xmm6[11],xmm5[12],xmm6[12],xmm5[13],xmm6[13],xmm5[14],xmm6[14],xmm5[15],xmm6[15]
+	movdqa	xmm0, xmm5
+	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
+	punpckhwd	xmm5, xmm2              # xmm5 = xmm5[4],xmm2[4],xmm5[5],xmm2[5],xmm5[6],xmm2[6],xmm5[7],xmm2[7]
+	mov	rcx, qword ptr [rsp + 128]      # 8-byte Reload
+	movdqu	xmmword ptr [r15 + 4*rcx + 48], xmm5
+	movdqu	xmmword ptr [r15 + 4*rcx + 32], xmm0
+	movdqu	xmmword ptr [r15 + 4*rcx + 16], xmm3
+	movdqu	xmmword ptr [r15 + 4*rcx], xmm4
+	add	rcx, 16
+	mov	rax, rcx
+	cmp	rcx, qword ptr [rsp + 192]      # 8-byte Folded Reload
+	jne	.LBB11_67
+# %bb.68:
+	mov	r10, qword ptr [rsp + 248]      # 8-byte Reload
+	cmp	r10, qword ptr [rsp + 192]      # 8-byte Folded Reload
+	mov	r14b, byte ptr [rsp]            # 1-byte Reload
+	mov	r13, qword ptr [rsp + 288]      # 8-byte Reload
+	mov	rdx, qword ptr [rsp + 280]      # 8-byte Reload
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	jne	.LBB11_69
+	jmp	.LBB11_72
+.LBB11_124:
+	and	r10, -8
+	mov	rax, r10
+	shl	rax, 6
+	add	rax, rdx
+	mov	qword ptr [rsp + 48], rax       # 8-byte Spill
+	mov	qword ptr [rsp + 32], r10       # 8-byte Spill
+	lea	rax, [r15 + 4*r10]
+	mov	qword ptr [rsp + 56], rax       # 8-byte Spill
+	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm11, xmm0, 0                  # xmm11 = xmm0[0,0,0,0]
+	xor	r14d, r14d
+	mov	qword ptr [rsp + 120], r15      # 8-byte Spill
+	pxor	xmm15, xmm15
+	.p2align	4, 0x90
+.LBB11_125:                             # =>This Inner Loop Header: Depth=1
+	mov	qword ptr [rsp + 16], r14       # 8-byte Spill
+	shl	r14, 6
+	mov	rdi, r14
+	mov	r15, r14
+	mov	r12, r14
+	mov	r13, r14
+	mov	rbx, r14
+	mov	r9, r14
+	movzx	eax, word ptr [rdx + r14]
+	movd	xmm5, eax
+	movzx	eax, word ptr [rdx + r14 + 2]
+	movd	xmm0, eax
+	movzx	eax, word ptr [rdx + r14 + 4]
+	movd	xmm1, eax
+	movzx	eax, word ptr [rdx + r14 + 6]
+	movd	xmm7, eax
+	movzx	eax, word ptr [rdx + r14 + 8]
+	movd	xmm8, eax
+	movzx	eax, word ptr [rdx + r14 + 10]
+	movd	xmm4, eax
+	movzx	eax, word ptr [rdx + r14 + 12]
+	movzx	esi, word ptr [rdx + r14 + 14]
+	movzx	ecx, word ptr [rdx + r14 + 16]
+	mov	dword ptr [rsp + 24], ecx       # 4-byte Spill
+	movzx	r10d, word ptr [rdx + r14 + 18]
+	movzx	r11d, word ptr [rdx + r14 + 20]
+	mov	rcx, r14
+	or	rcx, 64
+	or	rdi, 128
+	or	r15, 192
+	or	r12, 256
+	or	r13, 320
+	or	rbx, 384
+	pinsrw	xmm5, word ptr [rdx + rcx], 1
+	pinsrw	xmm5, word ptr [rdx + rdi], 2
+	pinsrw	xmm5, word ptr [rdx + r15], 3
+	pinsrw	xmm5, word ptr [rdx + r12], 4
+	pinsrw	xmm5, word ptr [rdx + r13], 5
+	pinsrw	xmm5, word ptr [rdx + rbx], 6
+	pinsrw	xmm0, word ptr [rdx + rcx + 2], 1
+	pinsrw	xmm0, word ptr [rdx + rdi + 2], 2
+	pinsrw	xmm0, word ptr [rdx + r15 + 2], 3
+	pinsrw	xmm0, word ptr [rdx + r12 + 2], 4
+	pinsrw	xmm0, word ptr [rdx + r13 + 2], 5
+	pinsrw	xmm0, word ptr [rdx + rbx + 2], 6
+	or	r9, 448
+	pinsrw	xmm0, word ptr [rdx + r9 + 2], 7
+	movd	xmm2, eax
+	movzx	eax, word ptr [rdx + r14 + 22]
+	mov	dword ptr [rsp + 8], eax        # 4-byte Spill
+	pcmpgtw	xmm0, xmm11
+	pinsrw	xmm1, word ptr [rdx + rcx + 4], 1
+	pinsrw	xmm1, word ptr [rdx + rdi + 4], 2
+	pinsrw	xmm1, word ptr [rdx + r15 + 4], 3
+	pinsrw	xmm1, word ptr [rdx + r12 + 4], 4
+	pinsrw	xmm1, word ptr [rdx + r13 + 4], 5
+	pinsrw	xmm1, word ptr [rdx + rbx + 4], 6
+	pinsrw	xmm1, word ptr [rdx + r9 + 4], 7
+	packsswb	xmm0, xmm0
+	pcmpgtw	xmm1, xmm11
+	movdqa	xmm9, xmmword ptr [rip + .LCPI11_8] # xmm9 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm3, xmm9
+	pblendvb	xmm3, xmm15, xmm0
+	packsswb	xmm1, xmm1
+	movdqa	xmm0, xmmword ptr [rip + .LCPI11_9] # xmm0 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm6, xmm0
+	movdqa	xmm14, xmm0
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm1, esi
+	movzx	r8d, word ptr [rdx + r14 + 24]
+	pinsrw	xmm5, word ptr [rdx + r9], 7
+	pcmpgtw	xmm5, xmm11
+	pcmpeqd	xmm0, xmm0
+	pxor	xmm5, xmm0
+	packsswb	xmm5, xmm5
+	pinsrw	xmm7, word ptr [rdx + rcx + 6], 1
+	pinsrw	xmm7, word ptr [rdx + rdi + 6], 2
+	pinsrw	xmm7, word ptr [rdx + r15 + 6], 3
+	pinsrw	xmm7, word ptr [rdx + r12 + 6], 4
+	pinsrw	xmm7, word ptr [rdx + r13 + 6], 5
+	pinsrw	xmm7, word ptr [rdx + rbx + 6], 6
+	pinsrw	xmm7, word ptr [rdx + r9 + 6], 7
+	pcmpgtw	xmm7, xmm11
+	packsswb	xmm7, xmm7
+	pinsrw	xmm8, word ptr [rdx + rcx + 8], 1
+	pinsrw	xmm8, word ptr [rdx + rdi + 8], 2
+	pinsrw	xmm8, word ptr [rdx + r15 + 8], 3
+	pinsrw	xmm8, word ptr [rdx + r12 + 8], 4
+	pinsrw	xmm8, word ptr [rdx + r13 + 8], 5
+	pinsrw	xmm8, word ptr [rdx + rbx + 8], 6
+	pinsrw	xmm8, word ptr [rdx + r9 + 8], 7
+	psubb	xmm3, xmm5
+	movdqa	xmm12, xmmword ptr [rip + .LCPI11_10] # xmm12 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm7
+	pblendvb	xmm12, xmm15, xmm0
+	movd	xmm7, dword ptr [rsp + 24]      # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [rdx + r14 + 26]
+	pcmpgtw	xmm8, xmm11
+	packsswb	xmm8, xmm8
+	por	xmm12, xmm6
+	movdqa	xmm13, xmmword ptr [rip + .LCPI11_11] # xmm13 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm8
+	pblendvb	xmm13, xmm15, xmm0
+	movd	xmm6, r10d
+	movzx	r10d, word ptr [rdx + r14 + 28]
+	pinsrw	xmm4, word ptr [rdx + rcx + 10], 1
+	pinsrw	xmm4, word ptr [rdx + rdi + 10], 2
+	pinsrw	xmm4, word ptr [rdx + r15 + 10], 3
+	pinsrw	xmm4, word ptr [rdx + r12 + 10], 4
+	pinsrw	xmm4, word ptr [rdx + r13 + 10], 5
+	pinsrw	xmm4, word ptr [rdx + rbx + 10], 6
+	pinsrw	xmm4, word ptr [rdx + r9 + 10], 7
+	pcmpgtw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	pinsrw	xmm2, word ptr [rdx + rcx + 12], 1
+	pinsrw	xmm2, word ptr [rdx + rdi + 12], 2
+	pinsrw	xmm2, word ptr [rdx + r15 + 12], 3
+	pinsrw	xmm2, word ptr [rdx + r12 + 12], 4
+	pinsrw	xmm2, word ptr [rdx + r13 + 12], 5
+	pinsrw	xmm2, word ptr [rdx + rbx + 12], 6
+	por	xmm12, xmm3
+	movdqa	xmm5, xmmword ptr [rip + .LCPI11_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm5, xmm15, xmm0
+	movd	xmm4, r11d
+	movzx	esi, word ptr [rdx + r14 + 30]
+	mov	dword ptr [rsp + 40], esi       # 4-byte Spill
+	pinsrw	xmm2, word ptr [rdx + r9 + 12], 7
+	pcmpgtw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm5, xmm13
+	movdqa	xmm13, xmmword ptr [rip + .LCPI11_13] # xmm13 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm13, xmm15, xmm0
+	movd	xmm3, dword ptr [rsp + 8]       # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	esi, word ptr [rdx + r14 + 32]
+	mov	dword ptr [rsp + 24], esi       # 4-byte Spill
+	pinsrw	xmm1, word ptr [rdx + rcx + 14], 1
+	pinsrw	xmm1, word ptr [rdx + rdi + 14], 2
+	pinsrw	xmm1, word ptr [rdx + r15 + 14], 3
+	pinsrw	xmm1, word ptr [rdx + r12 + 14], 4
+	pinsrw	xmm1, word ptr [rdx + r13 + 14], 5
+	pinsrw	xmm1, word ptr [rdx + rbx + 14], 6
+	por	xmm13, xmm5
+	movd	xmm2, r8d
+	movzx	esi, word ptr [rdx + r14 + 34]
+	mov	dword ptr [rsp + 8], esi        # 4-byte Spill
+	pinsrw	xmm1, word ptr [rdx + r9 + 14], 7
+	pcmpgtw	xmm1, xmm11
+	pinsrw	xmm6, word ptr [rdx + rcx + 18], 1
+	pinsrw	xmm6, word ptr [rdx + rdi + 18], 2
+	pinsrw	xmm6, word ptr [rdx + r15 + 18], 3
+	pinsrw	xmm6, word ptr [rdx + r12 + 18], 4
+	pinsrw	xmm6, word ptr [rdx + r13 + 18], 5
+	pinsrw	xmm6, word ptr [rdx + rbx + 18], 6
+	packsswb	xmm1, xmm1
+	pinsrw	xmm6, word ptr [rdx + r9 + 18], 7
+	pcmpgtw	xmm6, xmm11
+	packsswb	xmm6, xmm6
+	por	xmm13, xmm12
+	movdqa	xmm12, xmmword ptr [rip + .LCPI11_14] # xmm12 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm12, xmm15, xmm0
+	movdqa	xmm8, xmm9
+	movdqa	xmm0, xmm6
+	pblendvb	xmm8, xmm15, xmm0
+	movd	xmm1, eax
+	movzx	r11d, word ptr [rdx + r14 + 36]
+	pinsrw	xmm7, word ptr [rdx + rcx + 16], 1
+	pinsrw	xmm7, word ptr [rdx + rdi + 16], 2
+	pinsrw	xmm7, word ptr [rdx + r15 + 16], 3
+	pinsrw	xmm7, word ptr [rdx + r12 + 16], 4
+	pinsrw	xmm7, word ptr [rdx + r13 + 16], 5
+	pinsrw	xmm7, word ptr [rdx + rbx + 16], 6
+	pinsrw	xmm4, word ptr [rdx + rcx + 20], 1
+	pinsrw	xmm4, word ptr [rdx + rdi + 20], 2
+	pinsrw	xmm4, word ptr [rdx + r15 + 20], 3
+	pinsrw	xmm4, word ptr [rdx + r12 + 20], 4
+	pinsrw	xmm4, word ptr [rdx + r13 + 20], 5
+	pinsrw	xmm4, word ptr [rdx + rbx + 20], 6
+	pinsrw	xmm4, word ptr [rdx + r9 + 20], 7
+	pcmpgtw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm12, xmm13
+	movdqa	xmm5, xmm14
+	movdqa	xmm0, xmm4
+	pblendvb	xmm5, xmm15, xmm0
+	movd	xmm4, r10d
+	movzx	esi, word ptr [rdx + r14 + 38]
+	pinsrw	xmm7, word ptr [rdx + r9 + 16], 7
+	pcmpgtw	xmm7, xmm11
+	pxor	xmm7, xmmword ptr [rip + .LCPI11_22]
+	packsswb	xmm7, xmm7
+	pinsrw	xmm3, word ptr [rdx + rcx + 22], 1
+	pinsrw	xmm3, word ptr [rdx + rdi + 22], 2
+	pinsrw	xmm3, word ptr [rdx + r15 + 22], 3
+	pinsrw	xmm3, word ptr [rdx + r12 + 22], 4
+	pinsrw	xmm3, word ptr [rdx + r13 + 22], 5
+	pinsrw	xmm3, word ptr [rdx + rbx + 22], 6
+	pinsrw	xmm3, word ptr [rdx + r9 + 22], 7
+	pcmpgtw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	pinsrw	xmm2, word ptr [rdx + rcx + 24], 1
+	pinsrw	xmm2, word ptr [rdx + rdi + 24], 2
+	pinsrw	xmm2, word ptr [rdx + r15 + 24], 3
+	pinsrw	xmm2, word ptr [rdx + r12 + 24], 4
+	pinsrw	xmm2, word ptr [rdx + r13 + 24], 5
+	pinsrw	xmm2, word ptr [rdx + rbx + 24], 6
+	pinsrw	xmm2, word ptr [rdx + r9 + 24], 7
+	psubb	xmm8, xmm7
+	movdqa	xmm10, xmmword ptr [rip + .LCPI11_10] # xmm10 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm14, xmm10
+	movdqa	xmm0, xmm3
+	pblendvb	xmm14, xmm15, xmm0
+	movd	xmm3, dword ptr [rsp + 40]      # 4-byte Folded Reload
+                                        # xmm3 = mem[0],zero,zero,zero
+	movzx	eax, word ptr [rdx + r14 + 40]
+	pcmpgtw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm14, xmm5
+	movdqa	xmm9, xmmword ptr [rip + .LCPI11_11] # xmm9 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm13, xmm9
+	movdqa	xmm0, xmm2
+	pblendvb	xmm13, xmm15, xmm0
+	movd	xmm7, dword ptr [rsp + 24]      # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	r10d, word ptr [rdx + r14 + 42]
+	pinsrw	xmm1, word ptr [rdx + rcx + 26], 1
+	pinsrw	xmm1, word ptr [rdx + rdi + 26], 2
+	pinsrw	xmm1, word ptr [rdx + r15 + 26], 3
+	pinsrw	xmm1, word ptr [rdx + r12 + 26], 4
+	pinsrw	xmm1, word ptr [rdx + r13 + 26], 5
+	pinsrw	xmm1, word ptr [rdx + rbx + 26], 6
+	pinsrw	xmm1, word ptr [rdx + r9 + 26], 7
+	pcmpgtw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	pinsrw	xmm4, word ptr [rdx + rcx + 28], 1
+	pinsrw	xmm4, word ptr [rdx + rdi + 28], 2
+	pinsrw	xmm4, word ptr [rdx + r15 + 28], 3
+	pinsrw	xmm4, word ptr [rdx + r12 + 28], 4
+	pinsrw	xmm4, word ptr [rdx + r13 + 28], 5
+	pinsrw	xmm4, word ptr [rdx + rbx + 28], 6
+	por	xmm14, xmm8
+	movdqa	xmm5, xmmword ptr [rip + .LCPI11_12] # xmm5 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm15, xmm0
+	movd	xmm2, dword ptr [rsp + 8]       # 4-byte Folded Reload
+                                        # xmm2 = mem[0],zero,zero,zero
+	movzx	r8d, word ptr [rdx + r14 + 44]
+	pinsrw	xmm4, word ptr [rdx + r9 + 28], 7
+	pcmpgtw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm5, xmm13
+	movdqa	xmm6, xmmword ptr [rip + .LCPI11_13] # xmm6 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm4, r11d
+	movzx	r11d, word ptr [rdx + r14 + 46]
+	pinsrw	xmm3, word ptr [rdx + rcx + 30], 1
+	pinsrw	xmm3, word ptr [rdx + rdi + 30], 2
+	pinsrw	xmm3, word ptr [rdx + r15 + 30], 3
+	pinsrw	xmm3, word ptr [rdx + r12 + 30], 4
+	pinsrw	xmm3, word ptr [rdx + r13 + 30], 5
+	pinsrw	xmm3, word ptr [rdx + rbx + 30], 6
+	por	xmm6, xmm5
+	movd	xmm1, esi
+	movzx	esi, word ptr [rdx + r14 + 48]
+	mov	dword ptr [rsp + 8], esi        # 4-byte Spill
+	pinsrw	xmm3, word ptr [rdx + r9 + 30], 7
+	pcmpgtw	xmm3, xmm11
+	pinsrw	xmm2, word ptr [rdx + rcx + 34], 1
+	pinsrw	xmm2, word ptr [rdx + rdi + 34], 2
+	pinsrw	xmm2, word ptr [rdx + r15 + 34], 3
+	pinsrw	xmm2, word ptr [rdx + r12 + 34], 4
+	pinsrw	xmm2, word ptr [rdx + r13 + 34], 5
+	pinsrw	xmm2, word ptr [rdx + rbx + 34], 6
+	packsswb	xmm3, xmm3
+	pinsrw	xmm2, word ptr [rdx + r9 + 34], 7
+	pcmpgtw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm6, xmm14
+	movdqa	xmm14, xmmword ptr [rip + .LCPI11_14] # xmm14 = <128,128,128,128,128,128,128,128,u,u,u,u,u,u,u,u>
+	movdqa	xmm13, xmm14
+	movdqa	xmm0, xmm3
+	pblendvb	xmm13, xmm15, xmm0
+	movdqa	xmm8, xmmword ptr [rip + .LCPI11_8] # xmm8 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm8, xmm15, xmm0
+	movd	xmm2, eax
+	movzx	esi, word ptr [rdx + r14 + 50]
+	pinsrw	xmm7, word ptr [rdx + rcx + 32], 1
+	pinsrw	xmm7, word ptr [rdx + rdi + 32], 2
+	pinsrw	xmm7, word ptr [rdx + r15 + 32], 3
+	pinsrw	xmm7, word ptr [rdx + r12 + 32], 4
+	pinsrw	xmm7, word ptr [rdx + r13 + 32], 5
+	pinsrw	xmm7, word ptr [rdx + rbx + 32], 6
+	pinsrw	xmm4, word ptr [rdx + rcx + 36], 1
+	pinsrw	xmm4, word ptr [rdx + rdi + 36], 2
+	pinsrw	xmm4, word ptr [rdx + r15 + 36], 3
+	pinsrw	xmm4, word ptr [rdx + r12 + 36], 4
+	pinsrw	xmm4, word ptr [rdx + r13 + 36], 5
+	pinsrw	xmm4, word ptr [rdx + rbx + 36], 6
+	pinsrw	xmm4, word ptr [rdx + r9 + 36], 7
+	pcmpgtw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm13, xmm6
+	movdqa	xmm6, xmmword ptr [rip + .LCPI11_9] # xmm6 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm4
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm3, r10d
+	movzx	r10d, word ptr [rdx + r14 + 52]
+	pinsrw	xmm7, word ptr [rdx + r9 + 32], 7
+	pcmpgtw	xmm7, xmm11
+	pxor	xmm7, xmmword ptr [rip + .LCPI11_22]
+	packsswb	xmm7, xmm7
+	pinsrw	xmm1, word ptr [rdx + rcx + 38], 1
+	pinsrw	xmm1, word ptr [rdx + rdi + 38], 2
+	pinsrw	xmm1, word ptr [rdx + r15 + 38], 3
+	pinsrw	xmm1, word ptr [rdx + r12 + 38], 4
+	pinsrw	xmm1, word ptr [rdx + r13 + 38], 5
+	pinsrw	xmm1, word ptr [rdx + rbx + 38], 6
+	pinsrw	xmm1, word ptr [rdx + r9 + 38], 7
+	pcmpgtw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	pinsrw	xmm2, word ptr [rdx + rcx + 40], 1
+	pinsrw	xmm2, word ptr [rdx + rdi + 40], 2
+	pinsrw	xmm2, word ptr [rdx + r15 + 40], 3
+	pinsrw	xmm2, word ptr [rdx + r12 + 40], 4
+	pinsrw	xmm2, word ptr [rdx + r13 + 40], 5
+	pinsrw	xmm2, word ptr [rdx + rbx + 40], 6
+	pinsrw	xmm2, word ptr [rdx + r9 + 40], 7
+	psubb	xmm8, xmm7
+	movdqa	xmm5, xmm10
+	movdqa	xmm0, xmm1
+	pblendvb	xmm5, xmm15, xmm0
+	movd	xmm1, r8d
+	movzx	r8d, word ptr [rdx + r14 + 54]
+	pcmpgtw	xmm2, xmm11
+	packsswb	xmm2, xmm2
+	por	xmm5, xmm6
+	movdqa	xmm6, xmm9
+	movdqa	xmm0, xmm2
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm4, r11d
+	movzx	eax, word ptr [rdx + r14 + 56]
+	pinsrw	xmm3, word ptr [rdx + rcx + 42], 1
+	pinsrw	xmm3, word ptr [rdx + rdi + 42], 2
+	pinsrw	xmm3, word ptr [rdx + r15 + 42], 3
+	pinsrw	xmm3, word ptr [rdx + r12 + 42], 4
+	pinsrw	xmm3, word ptr [rdx + r13 + 42], 5
+	pinsrw	xmm3, word ptr [rdx + rbx + 42], 6
+	pinsrw	xmm3, word ptr [rdx + r9 + 42], 7
+	pcmpgtw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	pinsrw	xmm1, word ptr [rdx + rcx + 44], 1
+	pinsrw	xmm1, word ptr [rdx + rdi + 44], 2
+	pinsrw	xmm1, word ptr [rdx + r15 + 44], 3
+	pinsrw	xmm1, word ptr [rdx + r12 + 44], 4
+	pinsrw	xmm1, word ptr [rdx + r13 + 44], 5
+	pinsrw	xmm1, word ptr [rdx + rbx + 44], 6
+	por	xmm5, xmm8
+	movdqa	xmm9, xmmword ptr [rip + .LCPI11_12] # xmm9 = <32,32,32,32,32,32,32,32,u,u,u,u,u,u,u,u>
+	movdqa	xmm2, xmm9
+	movdqa	xmm0, xmm3
+	pblendvb	xmm2, xmm15, xmm0
+	movd	xmm7, dword ptr [rsp + 8]       # 4-byte Folded Reload
+                                        # xmm7 = mem[0],zero,zero,zero
+	movzx	r11d, word ptr [rdx + r14 + 58]
+	pinsrw	xmm1, word ptr [rdx + r9 + 44], 7
+	pcmpgtw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	por	xmm2, xmm6
+	movdqa	xmm10, xmmword ptr [rip + .LCPI11_13] # xmm10 = <64,64,64,64,64,64,64,64,u,u,u,u,u,u,u,u>
+	movdqa	xmm6, xmm10
+	movdqa	xmm0, xmm1
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm1, esi
+	movzx	esi, word ptr [rdx + r14 + 60]
+	por	xmm6, xmm2
+	movd	xmm2, r10d
+	pinsrw	xmm4, word ptr [rdx + rcx + 46], 1
+	pinsrw	xmm4, word ptr [rdx + rdi + 46], 2
+	pinsrw	xmm4, word ptr [rdx + r15 + 46], 3
+	pinsrw	xmm4, word ptr [rdx + r12 + 46], 4
+	pinsrw	xmm4, word ptr [rdx + r13 + 46], 5
+	pinsrw	xmm4, word ptr [rdx + rbx + 46], 6
+	pinsrw	xmm4, word ptr [rdx + r9 + 46], 7
+	pcmpgtw	xmm4, xmm11
+	packsswb	xmm4, xmm4
+	por	xmm6, xmm5
+	movdqa	xmm8, xmm14
+	movdqa	xmm0, xmm4
+	pblendvb	xmm8, xmm15, xmm0
+	movd	xmm3, r8d
+	pinsrw	xmm1, word ptr [rdx + rcx + 50], 1
+	pinsrw	xmm1, word ptr [rdx + rdi + 50], 2
+	pinsrw	xmm1, word ptr [rdx + r15 + 50], 3
+	pinsrw	xmm1, word ptr [rdx + r12 + 50], 4
+	pinsrw	xmm1, word ptr [rdx + r13 + 50], 5
+	pinsrw	xmm1, word ptr [rdx + rbx + 50], 6
+	pinsrw	xmm1, word ptr [rdx + r9 + 50], 7
+	pcmpgtw	xmm1, xmm11
+	packsswb	xmm1, xmm1
+	por	xmm8, xmm6
+	movdqa	xmm4, xmmword ptr [rip + .LCPI11_8] # xmm4 = <2,2,2,2,2,2,2,2,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm15, xmm0
+	movd	xmm1, eax
+	pinsrw	xmm7, word ptr [rdx + rcx + 48], 1
+	pinsrw	xmm7, word ptr [rdx + rdi + 48], 2
+	pinsrw	xmm7, word ptr [rdx + r15 + 48], 3
+	pinsrw	xmm7, word ptr [rdx + r12 + 48], 4
+	pinsrw	xmm7, word ptr [rdx + r13 + 48], 5
+	pinsrw	xmm7, word ptr [rdx + rbx + 48], 6
+	pinsrw	xmm7, word ptr [rdx + r9 + 48], 7
+	pcmpgtw	xmm7, xmm11
+	pxor	xmm7, xmmword ptr [rip + .LCPI11_22]
+	pinsrw	xmm2, word ptr [rdx + rcx + 52], 1
+	pinsrw	xmm2, word ptr [rdx + rdi + 52], 2
+	pinsrw	xmm2, word ptr [rdx + r15 + 52], 3
+	pinsrw	xmm2, word ptr [rdx + r12 + 52], 4
+	pinsrw	xmm2, word ptr [rdx + r13 + 52], 5
+	pinsrw	xmm2, word ptr [rdx + rbx + 52], 6
+	packsswb	xmm7, xmm7
+	pinsrw	xmm2, word ptr [rdx + r9 + 52], 7
+	pcmpgtw	xmm2, xmm11
+	pinsrw	xmm3, word ptr [rdx + rcx + 54], 1
+	pinsrw	xmm3, word ptr [rdx + rdi + 54], 2
+	pinsrw	xmm3, word ptr [rdx + r15 + 54], 3
+	pinsrw	xmm3, word ptr [rdx + r12 + 54], 4
+	pinsrw	xmm3, word ptr [rdx + r13 + 54], 5
+	pinsrw	xmm3, word ptr [rdx + rbx + 54], 6
+	packsswb	xmm2, xmm2
+	pinsrw	xmm3, word ptr [rdx + r9 + 54], 7
+	pcmpgtw	xmm3, xmm11
+	pinsrw	xmm1, word ptr [rdx + rcx + 56], 1
+	pinsrw	xmm1, word ptr [rdx + rdi + 56], 2
+	pinsrw	xmm1, word ptr [rdx + r15 + 56], 3
+	pinsrw	xmm1, word ptr [rdx + r12 + 56], 4
+	pinsrw	xmm1, word ptr [rdx + r13 + 56], 5
+	pinsrw	xmm1, word ptr [rdx + rbx + 56], 6
+	packsswb	xmm3, xmm3
+	pinsrw	xmm1, word ptr [rdx + r9 + 56], 7
+	psubb	xmm4, xmm7
+	movdqa	xmm5, xmmword ptr [rip + .LCPI11_9] # xmm5 = <4,4,4,4,4,4,4,4,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm2
+	pblendvb	xmm5, xmm15, xmm0
+	movdqa	xmm6, xmmword ptr [rip + .LCPI11_10] # xmm6 = <8,8,8,8,8,8,8,8,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm3
+	pblendvb	xmm6, xmm15, xmm0
+	movd	xmm2, r11d
+	pcmpgtw	xmm1, xmm11
+	pinsrw	xmm2, word ptr [rdx + rcx + 58], 1
+	pinsrw	xmm2, word ptr [rdx + rdi + 58], 2
+	pinsrw	xmm2, word ptr [rdx + r15 + 58], 3
+	pinsrw	xmm2, word ptr [rdx + r12 + 58], 4
+	pinsrw	xmm2, word ptr [rdx + r13 + 58], 5
+	pinsrw	xmm2, word ptr [rdx + rbx + 58], 6
+	pinsrw	xmm2, word ptr [rdx + r9 + 58], 7
+	packsswb	xmm1, xmm1
+	pcmpgtw	xmm2, xmm11
+	por	xmm6, xmm5
+	movd	xmm3, esi
+	pinsrw	xmm3, word ptr [rdx + rcx + 60], 1
+	pinsrw	xmm3, word ptr [rdx + rdi + 60], 2
+	pinsrw	xmm3, word ptr [rdx + r15 + 60], 3
+	pinsrw	xmm3, word ptr [rdx + r12 + 60], 4
+	pinsrw	xmm3, word ptr [rdx + r13 + 60], 5
+	pinsrw	xmm3, word ptr [rdx + rbx + 60], 6
+	packsswb	xmm2, xmm2
+	pinsrw	xmm3, word ptr [rdx + r9 + 60], 7
+	pcmpgtw	xmm3, xmm11
+	packsswb	xmm3, xmm3
+	por	xmm6, xmm4
+	movdqa	xmm4, xmmword ptr [rip + .LCPI11_11] # xmm4 = <16,16,16,16,16,16,16,16,u,u,u,u,u,u,u,u>
+	movdqa	xmm0, xmm1
+	pblendvb	xmm4, xmm15, xmm0
+	movdqa	xmm1, xmm9
+	movdqa	xmm0, xmm2
+	pblendvb	xmm1, xmm15, xmm0
+	movdqa	xmm0, xmm3
+	pblendvb	xmm10, xmm15, xmm0
+	por	xmm1, xmm4
+	movzx	eax, word ptr [rdx + r14 + 62]
+	por	xmm10, xmm1
+	movd	xmm0, eax
+	pinsrw	xmm0, word ptr [rdx + rcx + 62], 1
+	pinsrw	xmm0, word ptr [rdx + rdi + 62], 2
+	pinsrw	xmm0, word ptr [rdx + r15 + 62], 3
+	mov	r15, qword ptr [rsp + 120]      # 8-byte Reload
+	pinsrw	xmm0, word ptr [rdx + r12 + 62], 4
+	pinsrw	xmm0, word ptr [rdx + r13 + 62], 5
+	pinsrw	xmm0, word ptr [rdx + rbx + 62], 6
+	pinsrw	xmm0, word ptr [rdx + r9 + 62], 7
+	pcmpgtw	xmm0, xmm11
+	packsswb	xmm0, xmm0
+	por	xmm10, xmm6
+	pblendvb	xmm14, xmm15, xmm0
+	por	xmm14, xmm10
+	movdqa	xmm0, xmm12
+	punpcklqdq	xmm0, xmm13             # xmm0 = xmm0[0],xmm13[0]
+	movdqa	xmm2, xmm8
+	punpcklqdq	xmm2, xmm14             # xmm2 = xmm2[0],xmm14[0]
+	movdqa	xmm3, xmmword ptr [rip + .LCPI11_15] # xmm3 = <4,12,5,13,6,14,7,15,u,u,u,u,u,u,u,u>
+	pshufb	xmm2, xmm3
+	pshufb	xmm0, xmm3
+	punpcklwd	xmm0, xmm2              # xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
+	punpcklbw	xmm8, xmm14             # xmm8 = xmm8[0],xmm14[0],xmm8[1],xmm14[1],xmm8[2],xmm14[2],xmm8[3],xmm14[3],xmm8[4],xmm14[4],xmm8[5],xmm14[5],xmm8[6],xmm14[6],xmm8[7],xmm14[7]
+	punpcklbw	xmm12, xmm13            # xmm12 = xmm12[0],xmm13[0],xmm12[1],xmm13[1],xmm12[2],xmm13[2],xmm12[3],xmm13[3],xmm12[4],xmm13[4],xmm12[5],xmm13[5],xmm12[6],xmm13[6],xmm12[7],xmm13[7]
+	punpcklwd	xmm12, xmm8             # xmm12 = xmm12[0],xmm8[0],xmm12[1],xmm8[1],xmm12[2],xmm8[2],xmm12[3],xmm8[3]
+	mov	rcx, qword ptr [rsp + 16]       # 8-byte Reload
+	movdqu	xmmword ptr [r15 + 4*rcx], xmm12
+	movdqu	xmmword ptr [r15 + 4*rcx + 16], xmm0
+	add	rcx, 8
+	mov	r14, rcx
+	cmp	rcx, qword ptr [rsp + 32]       # 8-byte Folded Reload
+	jne	.LBB11_125
+# %bb.126:
+	mov	r10, qword ptr [rsp + 256]      # 8-byte Reload
+	cmp	r10, qword ptr [rsp + 32]       # 8-byte Folded Reload
+	mov	r11, qword ptr [rsp + 136]      # 8-byte Reload
+	mov	r14d, dword ptr [rsp]           # 4-byte Reload
+	mov	r12, qword ptr [rsp + 56]       # 8-byte Reload
+	mov	rax, qword ptr [rsp + 48]       # 8-byte Reload
+	jne	.LBB11_127
+	jmp	.LBB11_130
+.LBB11_182:
+	mov	r8, r10
+	and	r8, -4
+	mov	rbx, r8
+	shl	rbx, 7
+	add	rbx, rdx
+	lea	r14, [r15 + 4*r8]
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	add	rdx, 508
+	xor	ecx, ecx
+	movdqa	xmm15, xmmword ptr [rip + .LCPI11_0] # xmm15 = <1,1,1,1,u,u,u,u,u,u,u,u,u,u,u,u>
+	movdqa	xmm8, xmmword ptr [rip + .LCPI11_1] # xmm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
+	movdqa	xmm10, xmmword ptr [rip + .LCPI11_2] # xmm10 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
+	movdqa	xmm11, xmmword ptr [rip + .LCPI11_3] # xmm11 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
+	movdqa	xmm12, xmmword ptr [rip + .LCPI11_4] # xmm12 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
+	movdqa	xmm13, xmmword ptr [rip + .LCPI11_5] # xmm13 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
+	movdqa	xmm14, xmmword ptr [rip + .LCPI11_6] # xmm14 = [128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128]
+	movdqa	xmm9, xmmword ptr [rip + .LCPI11_7] # xmm9 = [0,8,1,9,2,10,3,11,4,12,5,13,6,14,7,15]
+	.p2align	4, 0x90
+.LBB11_183:                             # =>This Inner Loop Header: Depth=1
+	movss	xmm6, dword ptr [rdx - 508]     # xmm6 = mem[0],zero,zero,zero
+	movss	xmm7, dword ptr [rdx - 504]     # xmm7 = mem[0],zero,zero,zero
+	movss	xmm5, dword ptr [rdx - 500]     # xmm5 = mem[0],zero,zero,zero
+	movss	xmm4, dword ptr [rdx - 496]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 380], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 252], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 124], 48 # xmm6 = xmm6[0,1,2],mem[0]
+	cmpleps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	insertps	xmm7, dword ptr [rdx - 376], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 248], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 120], 48 # xmm7 = xmm7[0,1,2],mem[0]
+	insertps	xmm5, dword ptr [rdx - 372], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 244], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 116], 48 # xmm5 = xmm5[0,1,2],mem[0]
+	insertps	xmm4, dword ptr [rdx - 368], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [rdx - 240], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	insertps	xmm4, dword ptr [rdx - 112], 48 # xmm4 = xmm4[0,1,2],mem[0]
+	cmpleps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	movdqa	xmm2, xmm7
+	pand	xmm2, xmm15
+	psubb	xmm2, xmm7
+	movss	xmm7, dword ptr [rdx - 492]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 364], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 236], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 108], 48 # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [rdx - 488]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 360], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 232], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 104], 48 # xmm6 = xmm6[0,1,2],mem[0]
+	cmpleps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 2
+	pand	xmm5, xmm8
+	por	xmm5, xmm2
+	movss	xmm3, dword ptr [rdx - 484]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 356], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 228], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rdx - 100], 48 # xmm3 = xmm3[0,1,2],mem[0]
+	cmpleps	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	pand	xmm4, xmm15
+	psllw	xmm4, 3
+	pand	xmm4, xmm10
+	cmpleps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 4
+	pand	xmm7, xmm11
+	por	xmm7, xmm4
+	movss	xmm4, dword ptr [rdx - 480]     # xmm4 = mem[0],zero,zero,zero
+	insertps	xmm4, dword ptr [rdx - 352], 16 # xmm4 = xmm4[0],mem[0],xmm4[2,3]
+	insertps	xmm4, dword ptr [rdx - 224], 32 # xmm4 = xmm4[0,1],mem[0],xmm4[3]
+	insertps	xmm4, dword ptr [rdx - 96], 48  # xmm4 = xmm4[0,1,2],mem[0]
+	por	xmm7, xmm5
+	movss	xmm5, dword ptr [rdx - 476]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rdx - 348], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 220], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 92], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpleps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	cmpleps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	cmpleps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 6
+	pand	xmm3, xmm13
+	por	xmm3, xmm6
+	movss	xmm2, dword ptr [rdx - 472]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 344], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 216], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 88], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	packsswb	xmm5, xmm5
+	cmpleps	xmm4, xmm1
+	packssdw	xmm4, xmm4
+	packsswb	xmm4, xmm4
+	psllw	xmm4, 7
+	pand	xmm4, xmm14
+	por	xmm4, xmm3
+	movss	xmm3, dword ptr [rdx - 468]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 340], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 212], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	pand	xmm5, xmm15
+	insertps	xmm3, dword ptr [rdx - 84], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	por	xmm4, xmm7
+	cmpleps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm6, xmm2
+	pand	xmm6, xmm15
+	psubb	xmm6, xmm2
+	movss	xmm7, dword ptr [rdx - 464]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 336], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 208], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 80], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm6, xmm5
+	movss	xmm5, dword ptr [rdx - 460]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rdx - 332], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 204], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 76], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpleps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm6
+	movss	xmm6, dword ptr [rdx - 456]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 328], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 200], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 72], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpleps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 3
+	pand	xmm7, xmm10
+	cmpleps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 4
+	pand	xmm5, xmm11
+	por	xmm5, xmm7
+	movss	xmm2, dword ptr [rdx - 452]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 324], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 196], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 68], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm5, xmm3
+	movss	xmm7, dword ptr [rdx - 448]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 320], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 192], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 64], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpleps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 5
+	pand	xmm6, xmm12
+	cmpleps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm6
+	movss	xmm6, dword ptr [rdx - 444]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 316], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 188], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 60], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpleps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	cmpleps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	psllw	xmm7, 7
+	pand	xmm7, xmm14
+	por	xmm7, xmm2
+	movss	xmm2, dword ptr [rdx - 440]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 312], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 184], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 56], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm7, xmm5
+	movss	xmm3, dword ptr [rdx - 436]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 308], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 180], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	pand	xmm6, xmm15
+	insertps	xmm3, dword ptr [rdx - 52], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	punpckldq	xmm4, xmm7              # xmm4 = xmm4[0],xmm7[0],xmm4[1],xmm7[1]
+	cmpleps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm7, xmm2
+	pand	xmm7, xmm15
+	psubb	xmm7, xmm2
+	movss	xmm5, dword ptr [rdx - 432]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rdx - 304], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 176], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 48], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	por	xmm7, xmm6
+	movss	xmm6, dword ptr [rdx - 428]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 300], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 172], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 44], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpleps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm7
+	movss	xmm7, dword ptr [rdx - 424]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 296], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 168], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 40], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpleps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	pand	xmm5, xmm15
+	psllw	xmm5, 3
+	pand	xmm5, xmm10
+	cmpleps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 4
+	pand	xmm6, xmm11
+	por	xmm6, xmm5
+	movss	xmm2, dword ptr [rdx - 420]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 292], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 164], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 36], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm6, xmm3
+	movss	xmm5, dword ptr [rdx - 416]     # xmm5 = mem[0],zero,zero,zero
+	insertps	xmm5, dword ptr [rdx - 288], 16 # xmm5 = xmm5[0],mem[0],xmm5[2,3]
+	insertps	xmm5, dword ptr [rdx - 160], 32 # xmm5 = xmm5[0,1],mem[0],xmm5[3]
+	insertps	xmm5, dword ptr [rdx - 32], 48  # xmm5 = xmm5[0,1,2],mem[0]
+	cmpleps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 5
+	pand	xmm7, xmm12
+	cmpleps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm7
+	movss	xmm7, dword ptr [rdx - 412]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 284], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 156], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 28], 48  # xmm7 = xmm7[0,1,2],mem[0]
+	cmpleps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	cmpleps	xmm5, xmm1
+	packssdw	xmm5, xmm5
+	packsswb	xmm5, xmm5
+	psllw	xmm5, 7
+	pand	xmm5, xmm14
+	por	xmm5, xmm2
+	movss	xmm2, dword ptr [rdx - 408]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 280], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 152], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	pand	xmm7, xmm15
+	insertps	xmm2, dword ptr [rdx - 24], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	por	xmm5, xmm6
+	cmpleps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	movdqa	xmm6, xmm2
+	pand	xmm6, xmm15
+	psubb	xmm6, xmm2
+	movss	xmm3, dword ptr [rdx - 404]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 276], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 148], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rdx - 20], 48  # xmm3 = xmm3[0,1,2],mem[0]
+	por	xmm6, xmm7
+	movss	xmm2, dword ptr [rdx - 400]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 272], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 144], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 16], 48  # xmm2 = xmm2[0,1,2],mem[0]
+	cmpleps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	pand	xmm3, xmm15
+	psllw	xmm3, 2
+	pand	xmm3, xmm8
+	por	xmm3, xmm6
+	movss	xmm6, dword ptr [rdx - 396]     # xmm6 = mem[0],zero,zero,zero
+	insertps	xmm6, dword ptr [rdx - 268], 16 # xmm6 = xmm6[0],mem[0],xmm6[2,3]
+	insertps	xmm6, dword ptr [rdx - 140], 32 # xmm6 = xmm6[0,1],mem[0],xmm6[3]
+	insertps	xmm6, dword ptr [rdx - 12], 48  # xmm6 = xmm6[0,1,2],mem[0]
+	cmpleps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 3
+	pand	xmm2, xmm10
+	cmpleps	xmm6, xmm1
+	packssdw	xmm6, xmm6
+	packsswb	xmm6, xmm6
+	pand	xmm6, xmm15
+	psllw	xmm6, 4
+	pand	xmm6, xmm11
+	por	xmm6, xmm2
+	movss	xmm7, dword ptr [rdx - 392]     # xmm7 = mem[0],zero,zero,zero
+	insertps	xmm7, dword ptr [rdx - 264], 16 # xmm7 = xmm7[0],mem[0],xmm7[2,3]
+	insertps	xmm7, dword ptr [rdx - 136], 32 # xmm7 = xmm7[0,1],mem[0],xmm7[3]
+	insertps	xmm7, dword ptr [rdx - 8], 48   # xmm7 = xmm7[0,1,2],mem[0]
+	por	xmm6, xmm3
+	movss	xmm2, dword ptr [rdx - 388]     # xmm2 = mem[0],zero,zero,zero
+	insertps	xmm2, dword ptr [rdx - 260], 16 # xmm2 = xmm2[0],mem[0],xmm2[2,3]
+	insertps	xmm2, dword ptr [rdx - 132], 32 # xmm2 = xmm2[0,1],mem[0],xmm2[3]
+	insertps	xmm2, dword ptr [rdx - 4], 48   # xmm2 = xmm2[0,1,2],mem[0]
+	cmpleps	xmm7, xmm1
+	packssdw	xmm7, xmm7
+	packsswb	xmm7, xmm7
+	pand	xmm7, xmm15
+	psllw	xmm7, 5
+	pand	xmm7, xmm12
+	cmpleps	xmm2, xmm1
+	packssdw	xmm2, xmm2
+	packsswb	xmm2, xmm2
+	pand	xmm2, xmm15
+	psllw	xmm2, 6
+	pand	xmm2, xmm13
+	por	xmm2, xmm7
+	movss	xmm3, dword ptr [rdx - 384]     # xmm3 = mem[0],zero,zero,zero
+	insertps	xmm3, dword ptr [rdx - 256], 16 # xmm3 = xmm3[0],mem[0],xmm3[2,3]
+	insertps	xmm3, dword ptr [rdx - 128], 32 # xmm3 = xmm3[0,1],mem[0],xmm3[3]
+	insertps	xmm3, dword ptr [rdx], 48       # xmm3 = xmm3[0,1,2],mem[0]
+	cmpleps	xmm3, xmm1
+	packssdw	xmm3, xmm3
+	packsswb	xmm3, xmm3
+	psllw	xmm3, 7
+	pand	xmm3, xmm14
+	por	xmm3, xmm2
+	por	xmm3, xmm6
+	punpckldq	xmm5, xmm3              # xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1]
+	punpcklbw	xmm4, xmm5              # xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
+	pshufb	xmm4, xmm9
+	movdqu	xmmword ptr [r15 + 4*rcx], xmm4
+	add	rcx, 4
+	add	rdx, 512
+	cmp	r8, rcx
+	jne	.LBB11_183
+# %bb.184:
+	cmp	r10, r8
+	jne	.LBB11_185
+	jmp	.LBB11_188
+.Lfunc_end11:
+	.size	comparison_greater_equal_scalar_arr_sse4, .Lfunc_end11-comparison_greater_equal_scalar_arr_sse4
+                                        # -- End function
+	.ident	"Ubuntu clang version 11.1.0-6"
+	.section	".note.GNU-stack","",@progbits
+	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/types.h b/go/arrow/compute/internal/kernels/_lib/types.h
new file mode 100644
index 00000000000..4a8d637d972
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/types.h
@@ -0,0 +1,708 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+#pragma once
+
+// corresponds to datatype.go's arrow.Type
+enum class arrtype : int {
+    NULL,
+    BOOL,
+    UINT8,
+    INT8,
+    UINT16,
+    INT16,
+    UINT32,
+    INT32,
+    UINT64,
+    INT64,
+    FLOAT16,
+    FLOAT32,
+    FLOAT64
+};
+
+
+#define _LIBCPP_TEMPLATE_VIS
+#define _LIBCPP_CONSTEXPR constexpr
+#define _LIBCPP_INLINE_VISIBILITY
+#define _LIBCPP_STD_VER 17
+#define _LIBCPP_NODEBUG
+#define _LIBCPP_HAS_NO_CHAR8_T
+#define _NOEXCEPT noexcept
+#define _NOEXCEPT_(x) noexcept(x)
+#define _LIBCPP_HIDE_FROM_ABI
+
+using size_t = uint64_t;
+
+// copied from libcxx/include/__type_traits/integral_constant.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+template <class _Tp, _Tp __v>
+struct _LIBCPP_TEMPLATE_VIS integral_constant
+{
+  static _LIBCPP_CONSTEXPR const _Tp      value = __v;
+  typedef _Tp               value_type;
+  typedef integral_constant type;
+  _LIBCPP_INLINE_VISIBILITY
+  _LIBCPP_CONSTEXPR operator value_type() const _NOEXCEPT {return value;}
+#if _LIBCPP_STD_VER > 11
+  _LIBCPP_INLINE_VISIBILITY
+  constexpr value_type operator ()() const _NOEXCEPT {return value;}
+#endif
+};
+
+template <class _Tp, _Tp __v>
+_LIBCPP_CONSTEXPR const _Tp integral_constant<_Tp, __v>::value;
+
+typedef integral_constant<bool, true>  true_type;
+typedef integral_constant<bool, false> false_type;
+
+template <bool _Val>
+using _BoolConstant _LIBCPP_NODEBUG = integral_constant<bool, _Val>;
+
+#if _LIBCPP_STD_VER > 14
+template <bool __b>
+using bool_constant = integral_constant<bool, __b>;
+#endif
+
+// copied from libcxx/include/__type_traits/remove_const.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#if __has_builtin(__remove_const)
+template <class _Tp>
+struct remove_const {
+  using type _LIBCPP_NODEBUG = __remove_const(_Tp);
+};
+
+template <class _Tp>
+using __remove_const_t = __remove_const(_Tp);
+#else
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_const            {typedef _Tp type;};
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_const<const _Tp> {typedef _Tp type;};
+
+template <class _Tp>
+using __remove_const_t = typename remove_const<_Tp>::type;
+#endif // __has_builtin(__remove_const)
+
+#if _LIBCPP_STD_VER > 11
+template <class _Tp> using remove_const_t = __remove_const_t<_Tp>;
+#endif
+
+// copied from libcxx/include/__type_traits/remove_volatile.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#if __has_builtin(__remove_volatile)
+template <class _Tp>
+struct remove_volatile {
+  using type _LIBCPP_NODEBUG = __remove_volatile(_Tp);
+};
+
+template <class _Tp>
+using __remove_volatile_t = __remove_volatile(_Tp);
+#else
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_volatile               {typedef _Tp type;};
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_volatile<volatile _Tp> {typedef _Tp type;};
+
+template <class _Tp>
+using __remove_volatile_t = typename remove_volatile<_Tp>::type;
+#endif // __has_builtin(__remove_volatile)
+
+#if _LIBCPP_STD_VER > 11
+template <class _Tp> using remove_volatile_t = __remove_volatile_t<_Tp>;
+#endif
+
+// copied from libcxx/include/__type_traits/remove_cv.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#if __has_builtin(__remove_cv)
+template <class _Tp>
+struct remove_cv {
+  using type _LIBCPP_NODEBUG = __remove_cv(_Tp);
+};
+
+template <class _Tp>
+using __remove_cv_t = __remove_cv(_Tp);
+#else
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_cv
+{typedef __remove_volatile_t<__remove_const_t<_Tp> > type;};
+
+template <class _Tp>
+using __remove_cv_t = __remove_volatile_t<__remove_const_t<_Tp> >;
+#endif // __has_builtin(__remove_cv)
+
+#if _LIBCPP_STD_VER > 11
+template <class _Tp> using remove_cv_t = __remove_cv_t<_Tp>;
+#endif
+
+// copied from libcxx/include/__type_traits/is_floating_point.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+
+template <class _Tp> struct __libcpp_is_floating_point              : public false_type {};
+template <>          struct __libcpp_is_floating_point<float>       : public true_type {};
+template <>          struct __libcpp_is_floating_point<double>      : public true_type {};
+template <>          struct __libcpp_is_floating_point<long double> : public true_type {};
+
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_floating_point
+    : public __libcpp_is_floating_point<__remove_cv_t<_Tp> > {};
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_floating_point_v = is_floating_point<_Tp>::value;
+#endif
+
+// copied from libcxx/include/__type_traits/is_integral.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+
+template <class _Tp> struct __libcpp_is_integral                     { enum { value = 0 }; };
+template <>          struct __libcpp_is_integral<bool>               { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<char>               { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<signed char>        { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<unsigned char>      { enum { value = 1 }; };
+#ifndef _LIBCPP_HAS_NO_WIDE_CHARACTERS
+template <>          struct __libcpp_is_integral<wchar_t>            { enum { value = 1 }; };
+#endif
+#ifndef _LIBCPP_HAS_NO_CHAR8_T
+template <>          struct __libcpp_is_integral<char8_t>            { enum { value = 1 }; };
+#endif
+template <>          struct __libcpp_is_integral<char16_t>           { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<char32_t>           { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<short>              { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<unsigned short>     { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<int>                { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<unsigned int>       { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<long>               { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<unsigned long>      { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<long long>          { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<unsigned long long> { enum { value = 1 }; };
+#ifndef _LIBCPP_HAS_NO_INT128
+template <>          struct __libcpp_is_integral<__int128_t>         { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<__uint128_t>        { enum { value = 1 }; };
+#endif
+
+#if __has_builtin(__is_integral)
+
+template <class _Tp>
+struct _LIBCPP_TEMPLATE_VIS is_integral : _BoolConstant<__is_integral(_Tp)> { };
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_integral_v = __is_integral(_Tp);
+#endif
+
+#else
+
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_integral
+    : public _BoolConstant<__libcpp_is_integral<__remove_cv_t<_Tp> >::value> {};
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_integral_v = is_integral<_Tp>::value;
+#endif
+
+#endif // __has_builtin(__is_integral)
+
+// copied from libcxx/include/__type_traits/is_arithmetic.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_arithmetic
+    : public integral_constant<bool, is_integral<_Tp>::value      ||
+                                     is_floating_point<_Tp>::value> {};
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_arithmetic_v = is_arithmetic<_Tp>::value;
+#endif
+
+// copied from libcxx/include/__type_traits/is_signed.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#if __has_builtin(__is_signed)
+
+template<class _Tp>
+struct _LIBCPP_TEMPLATE_VIS is_signed : _BoolConstant<__is_signed(_Tp)> { };
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_signed_v = __is_signed(_Tp);
+#endif
+
+#else // __has_builtin(__is_signed)
+
+template <class _Tp, bool = is_integral<_Tp>::value>
+struct __libcpp_is_signed_impl : public _BoolConstant<(_Tp(-1) < _Tp(0))> {};
+
+template <class _Tp>
+struct __libcpp_is_signed_impl<_Tp, false> : public true_type {};  // floating point
+
+template <class _Tp, bool = is_arithmetic<_Tp>::value>
+struct __libcpp_is_signed : public __libcpp_is_signed_impl<_Tp> {};
+
+template <class _Tp> struct __libcpp_is_signed<_Tp, false> : public false_type {};
+
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_signed : public __libcpp_is_signed<_Tp> {};
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_signed_v = is_signed<_Tp>::value;
+#endif
+
+#endif // __has_builtin(__is_signed)
+
+
+// copied from libcxx/include/__type_traits/is_unsigned.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+
+// Before AppleClang 14, __is_unsigned returned true for enums with signed underlying type.
+#if __has_builtin(__is_unsigned) && !(defined(_LIBCPP_APPLE_CLANG_VER) && _LIBCPP_APPLE_CLANG_VER < 1400)
+
+template<class _Tp>
+struct _LIBCPP_TEMPLATE_VIS is_unsigned : _BoolConstant<__is_unsigned(_Tp)> { };
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_unsigned_v = __is_unsigned(_Tp);
+#endif
+
+#else // __has_builtin(__is_unsigned)
+
+template <class _Tp, bool = is_integral<_Tp>::value>
+struct __libcpp_is_unsigned_impl : public _BoolConstant<(_Tp(0) < _Tp(-1))> {};
+
+template <class _Tp>
+struct __libcpp_is_unsigned_impl<_Tp, false> : public false_type {};  // floating point
+
+template <class _Tp, bool = is_arithmetic<_Tp>::value>
+struct __libcpp_is_unsigned : public __libcpp_is_unsigned_impl<_Tp> {};
+
+template <class _Tp> struct __libcpp_is_unsigned<_Tp, false> : public false_type {};
+
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_unsigned : public __libcpp_is_unsigned<_Tp> {};
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_unsigned_v = is_unsigned<_Tp>::value;
+#endif
+
+#endif // __has_builtin(__is_unsigned)
+
+// copied from libcxx/include/__type_traits/is_same.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+template <class _Tp, class _Up>
+struct _LIBCPP_TEMPLATE_VIS is_same : _BoolConstant<__is_same(_Tp, _Up)> { };
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp, class _Up>
+inline constexpr bool is_same_v = __is_same(_Tp, _Up);
+#endif
+
+// copied from libcxx/include/__type_traits/conditional.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+template <bool>
+struct _IfImpl;
+
+template <>
+struct _IfImpl<true> {
+  template <class _IfRes, class _ElseRes>
+  using _Select _LIBCPP_NODEBUG = _IfRes;
+};
+
+template <>
+struct _IfImpl<false> {
+  template <class _IfRes, class _ElseRes>
+  using _Select _LIBCPP_NODEBUG = _ElseRes;
+};
+
+template <bool _Cond, class _IfRes, class _ElseRes>
+using _If _LIBCPP_NODEBUG = typename _IfImpl<_Cond>::template _Select<_IfRes, _ElseRes>;
+
+template <bool _Bp, class _If, class _Then>
+    struct _LIBCPP_TEMPLATE_VIS conditional {typedef _If type;};
+template <class _If, class _Then>
+    struct _LIBCPP_TEMPLATE_VIS conditional<false, _If, _Then> {typedef _Then type;};
+
+#if _LIBCPP_STD_VER > 11
+template <bool _Bp, class _IfRes, class _ElseRes>
+using conditional_t = typename conditional<_Bp, _IfRes, _ElseRes>::type;
+#endif
+
+// Helper so we can use "conditional_t" in all language versions.
+template <bool _Bp, class _If, class _Then> using __conditional_t = typename conditional<_Bp, _If, _Then>::type;
+
+// copied from libcxx/include/__type_traits/is_const.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#if __has_builtin(__is_const)
+
+template <class _Tp>
+struct _LIBCPP_TEMPLATE_VIS is_const : _BoolConstant<__is_const(_Tp)> { };
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_const_v = __is_const(_Tp);
+#endif
+
+#else
+
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_const            : public false_type {};
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_const<_Tp const> : public true_type {};
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_const_v = is_const<_Tp>::value;
+#endif
+
+#endif // __has_builtin(__is_const)
+
+// copied from libcxx/include/__type_traits/is_volatile.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#if __has_builtin(__is_volatile)
+
+template <class _Tp>
+struct _LIBCPP_TEMPLATE_VIS is_volatile : _BoolConstant<__is_volatile(_Tp)> { };
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_volatile_v = __is_volatile(_Tp);
+#endif
+
+#else
+
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_volatile               : public false_type {};
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_volatile<_Tp volatile> : public true_type {};
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_volatile_v = is_volatile<_Tp>::value;
+#endif
+
+#endif // __has_builtin(__is_volatile)
+
+// copied from libcxx/include/__type_traits/remove_reference.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#if __has_builtin(__remove_reference_t)
+template <class _Tp>
+struct remove_reference {
+  using type _LIBCPP_NODEBUG = __remove_reference_t(_Tp);
+};
+
+template <class _Tp>
+using __libcpp_remove_reference_t = __remove_reference_t(_Tp);
+#else
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_reference        {typedef _LIBCPP_NODEBUG _Tp type;};
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_reference<_Tp&>  {typedef _LIBCPP_NODEBUG _Tp type;};
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_reference<_Tp&&> {typedef _LIBCPP_NODEBUG _Tp type;};
+
+template <class _Tp>
+using __libcpp_remove_reference_t = typename remove_reference<_Tp>::type;
+#endif // __has_builtin(__remove_reference_t)
+
+#if _LIBCPP_STD_VER > 11
+template <class _Tp> using remove_reference_t = __libcpp_remove_reference_t<_Tp>;
+#endif
+
+// copied from libcxx/include/__type_traits/apply_cv.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+template <class _Tp, class _Up, bool = is_const<__libcpp_remove_reference_t<_Tp> >::value,
+                             bool = is_volatile<__libcpp_remove_reference_t<_Tp> >::value>
+struct __apply_cv
+{
+    typedef _LIBCPP_NODEBUG _Up type;
+};
+
+template <class _Tp, class _Up>
+struct __apply_cv<_Tp, _Up, true, false>
+{
+    typedef _LIBCPP_NODEBUG const _Up type;
+};
+
+template <class _Tp, class _Up>
+struct __apply_cv<_Tp, _Up, false, true>
+{
+    typedef volatile _Up type;
+};
+
+template <class _Tp, class _Up>
+struct __apply_cv<_Tp, _Up, true, true>
+{
+    typedef const volatile _Up type;
+};
+
+template <class _Tp, class _Up>
+struct __apply_cv<_Tp&, _Up, false, false>
+{
+    typedef _Up& type;
+};
+
+template <class _Tp, class _Up>
+struct __apply_cv<_Tp&, _Up, true, false>
+{
+    typedef const _Up& type;
+};
+
+template <class _Tp, class _Up>
+struct __apply_cv<_Tp&, _Up, false, true>
+{
+    typedef volatile _Up& type;
+};
+
+template <class _Tp, class _Up>
+struct __apply_cv<_Tp&, _Up, true, true>
+{
+    typedef const volatile _Up& type;
+};
+
+// copied from libcxx/include/__type_traits/apply_cv.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+struct __nat
+{
+#ifndef _LIBCPP_CXX03_LANG
+    __nat() = delete;
+    __nat(const __nat&) = delete;
+    __nat& operator=(const __nat&) = delete;
+    ~__nat() = delete;
+#endif
+};
+
+// copied from libcxx/include/__type_traits/type_list.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+
+template <class _Hp, class _Tp>
+struct __type_list
+{
+    typedef _Hp _Head;
+    typedef _Tp _Tail;
+};
+
+template <class _TypeList, size_t _Size, bool = _Size <= sizeof(typename _TypeList::_Head)> struct __find_first;
+
+template <class _Hp, class _Tp, size_t _Size>
+struct __find_first<__type_list<_Hp, _Tp>, _Size, true>
+{
+    typedef _LIBCPP_NODEBUG _Hp type;
+};
+
+template <class _Hp, class _Tp, size_t _Size>
+struct __find_first<__type_list<_Hp, _Tp>, _Size, false>
+{
+    typedef _LIBCPP_NODEBUG typename __find_first<_Tp, _Size>::type type;
+};
+
+// copied from libcxx/include/__type_traits/is_enum.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_enum
+    : public integral_constant<bool, __is_enum(_Tp)> {};
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_enum_v = __is_enum(_Tp);
+#endif
+
+// copied from libcxx/include/__type_traits/make_unsigned.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#if __has_builtin(__make_unsigned)
+
+template <class _Tp>
+using __make_unsigned_t = __make_unsigned(_Tp);
+
+#else
+typedef
+    __type_list<unsigned char,
+    __type_list<unsigned short,
+    __type_list<unsigned int,
+    __type_list<unsigned long,
+    __type_list<unsigned long long,
+#  ifndef _LIBCPP_HAS_NO_INT128
+    __type_list<__uint128_t,
+#  endif
+    __nat
+#  ifndef _LIBCPP_HAS_NO_INT128
+    >
+#  endif
+    > > > > > __unsigned_types;
+
+template <class _Tp, bool = is_integral<_Tp>::value || is_enum<_Tp>::value>
+struct __make_unsigned {};
+
+template <class _Tp>
+struct __make_unsigned<_Tp, true>
+{
+    typedef typename __find_first<__unsigned_types, sizeof(_Tp)>::type type;
+};
+
+template <> struct __make_unsigned<bool,               true> {};
+template <> struct __make_unsigned<  signed short,     true> {typedef unsigned short     type;};
+template <> struct __make_unsigned<unsigned short,     true> {typedef unsigned short     type;};
+template <> struct __make_unsigned<  signed int,       true> {typedef unsigned int       type;};
+template <> struct __make_unsigned<unsigned int,       true> {typedef unsigned int       type;};
+template <> struct __make_unsigned<  signed long,      true> {typedef unsigned long      type;};
+template <> struct __make_unsigned<unsigned long,      true> {typedef unsigned long      type;};
+template <> struct __make_unsigned<  signed long long, true> {typedef unsigned long long type;};
+template <> struct __make_unsigned<unsigned long long, true> {typedef unsigned long long type;};
+#  ifndef _LIBCPP_HAS_NO_INT128
+template <> struct __make_unsigned<__int128_t,         true> {typedef __uint128_t        type;};
+template <> struct __make_unsigned<__uint128_t,        true> {typedef __uint128_t        type;};
+#  endif
+
+template <class _Tp>
+using __make_unsigned_t = typename __apply_cv<_Tp, typename __make_unsigned<__remove_cv_t<_Tp> >::type>::type;
+
+#endif // __has_builtin(__make_unsigned)
+
+template <class _Tp>
+struct make_unsigned {
+  using type _LIBCPP_NODEBUG = __make_unsigned_t<_Tp>;
+};
+
+#if _LIBCPP_STD_VER > 11
+template <class _Tp> using make_unsigned_t = __make_unsigned_t<_Tp>;
+#endif
+
+#ifndef _LIBCPP_CXX03_LANG
+template <class _Tp>
+_LIBCPP_HIDE_FROM_ABI constexpr
+__make_unsigned_t<_Tp> __to_unsigned_like(_Tp __x) noexcept {
+    return static_cast<__make_unsigned_t<_Tp> >(__x);
+}
+#endif
+
+template <class _Tp, class _Up>
+using __copy_unsigned_t = __conditional_t<is_unsigned<_Tp>::value, __make_unsigned_t<_Up>, _Up>;
diff --git a/go/arrow/compute/internal/kernels/_lib/vendored/safe-math.h b/go/arrow/compute/internal/kernels/_lib/vendored/safe-math.h
new file mode 100644
index 00000000000..7f6426ac765
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/vendored/safe-math.h
@@ -0,0 +1,1072 @@
+/* Overflow-safe math functions
+ * Portable Snippets - https://github.com/nemequ/portable-snippets
+ * Created by Evan Nemerson <evan@nemerson.com>
+ *
+ *   To the extent possible under law, the authors have waived all
+ *   copyright and related or neighboring rights to this code.  For
+ *   details, see the Creative Commons Zero 1.0 Universal license at
+ *   https://creativecommons.org/publicdomain/zero/1.0/
+ */
+
+#if !defined(PSNIP_SAFE_H)
+#define PSNIP_SAFE_H
+
+#if !defined(PSNIP_SAFE_FORCE_PORTABLE)
+#  if defined(__has_builtin)
+#    if __has_builtin(__builtin_add_overflow) && !defined(__ibmxl__)
+#      define PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW
+#    endif
+#  elif defined(__GNUC__) && (__GNUC__ >= 5) && !defined(__INTEL_COMPILER)
+#    define PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW
+#  endif
+#  if defined(__has_include)
+#    if __has_include(<intsafe.h>)
+#      define PSNIP_SAFE_HAVE_INTSAFE_H
+#    endif
+#  elif defined(_WIN32)
+#    define PSNIP_SAFE_HAVE_INTSAFE_H
+#  endif
+#endif /* !defined(PSNIP_SAFE_FORCE_PORTABLE) */
+
+#if defined(__GNUC__)
+#  define PSNIP_SAFE_LIKELY(expr)   __builtin_expect(!!(expr), 1)
+#  define PSNIP_SAFE_UNLIKELY(expr) __builtin_expect(!!(expr), 0)
+#else
+#  define PSNIP_SAFE_LIKELY(expr) !!(expr)
+#  define PSNIP_SAFE_UNLIKELY(expr) !!(expr)
+#endif /* defined(__GNUC__) */
+
+#if !defined(PSNIP_SAFE_STATIC_INLINE)
+#  if defined(__GNUC__)
+#    define PSNIP_SAFE__COMPILER_ATTRIBUTES __attribute__((__unused__))
+#  else
+#    define PSNIP_SAFE__COMPILER_ATTRIBUTES
+#  endif
+
+#  if defined(HEDLEY_INLINE)
+#    define PSNIP_SAFE__INLINE HEDLEY_INLINE
+#  elif defined(__STDC_VERSION__) && __STDC_VERSION__ >= 199901L
+#    define PSNIP_SAFE__INLINE inline
+#  elif defined(__GNUC_STDC_INLINE__)
+#    define PSNIP_SAFE__INLINE __inline__
+#  elif defined(_MSC_VER) && _MSC_VER >= 1200
+#    define PSNIP_SAFE__INLINE __inline
+#  else
+#    define PSNIP_SAFE__INLINE
+#  endif
+
+#  define PSNIP_SAFE__FUNCTION PSNIP_SAFE__COMPILER_ATTRIBUTES static PSNIP_SAFE__INLINE
+#endif
+
+// !defined(__cplusplus) added for Solaris support
+#if !defined(__cplusplus) && defined(__STDC_VERSION__) && __STDC_VERSION__ >= 199901L
+#  define psnip_safe_bool _Bool
+#else
+#  define psnip_safe_bool int
+#endif
+
+#if !defined(PSNIP_SAFE_NO_FIXED)
+/* For maximum portability include the exact-int module from
+   portable snippets. */
+#  if \
+    !defined(psnip_int64_t) || !defined(psnip_uint64_t) || \
+    !defined(psnip_int32_t) || !defined(psnip_uint32_t) || \
+    !defined(psnip_int16_t) || !defined(psnip_uint16_t) || \
+    !defined(psnip_int8_t)  || !defined(psnip_uint8_t)
+#    include <stdint.h>
+#    if !defined(psnip_int64_t)
+#      define psnip_int64_t int64_t
+#    endif
+#    if !defined(psnip_uint64_t)
+#      define psnip_uint64_t uint64_t
+#    endif
+#    if !defined(psnip_int32_t)
+#      define psnip_int32_t int32_t
+#    endif
+#    if !defined(psnip_uint32_t)
+#      define psnip_uint32_t uint32_t
+#    endif
+#    if !defined(psnip_int16_t)
+#      define psnip_int16_t int16_t
+#    endif
+#    if !defined(psnip_uint16_t)
+#      define psnip_uint16_t uint16_t
+#    endif
+#    if !defined(psnip_int8_t)
+#      define psnip_int8_t int8_t
+#    endif
+#    if !defined(psnip_uint8_t)
+#      define psnip_uint8_t uint8_t
+#    endif
+#  endif
+#endif /* !defined(PSNIP_SAFE_NO_FIXED) */
+#include <limits.h>
+#include <stdlib.h>
+
+#if !defined(PSNIP_SAFE_SIZE_MAX)
+#  if defined(__SIZE_MAX__)
+#    define PSNIP_SAFE_SIZE_MAX __SIZE_MAX__
+#  elif defined(PSNIP_EXACT_INT_HAVE_STDINT)
+#    include <stdint.h>
+#  endif
+#endif
+
+#if defined(PSNIP_SAFE_SIZE_MAX)
+#  define PSNIP_SAFE__SIZE_MAX_RT PSNIP_SAFE_SIZE_MAX
+#else
+#  define PSNIP_SAFE__SIZE_MAX_RT (~((size_t) 0))
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_INTSAFE_H)
+/* In VS 10, stdint.h and intsafe.h both define (U)INTN_MIN/MAX, which
+   triggers warning C4005 (level 1). */
+#  if defined(_MSC_VER) && (_MSC_VER == 1600)
+#    pragma warning(push)
+#    pragma warning(disable:4005)
+#  endif
+#  include <intsafe.h>
+#  if defined(_MSC_VER) && (_MSC_VER == 1600)
+#    pragma warning(pop)
+#  endif
+#endif /* defined(PSNIP_SAFE_HAVE_INTSAFE_H) */
+
+/* If there is a type larger than the one we're concerned with it's
+ * likely much faster to simply promote the operands, perform the
+ * requested operation, verify that the result falls within the
+ * original type, then cast the result back to the original type. */
+
+#if !defined(PSNIP_SAFE_NO_PROMOTIONS)
+
+#define PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, op_name, op) \
+  PSNIP_SAFE__FUNCTION psnip_safe_##name##_larger \
+  psnip_safe_larger_##name##_##op_name (T a, T b) { \
+    return ((psnip_safe_##name##_larger) a) op ((psnip_safe_##name##_larger) b); \
+  }
+
+#define PSNIP_SAFE_DEFINE_LARGER_UNARY_OP(T, name, op_name, op) \
+  PSNIP_SAFE__FUNCTION psnip_safe_##name##_larger \
+  psnip_safe_larger_##name##_##op_name (T value) { \
+    return (op ((psnip_safe_##name##_larger) value)); \
+  }
+
+#define PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(T, name) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, add, +) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, sub, -) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mul, *) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, div, /) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mod, %) \
+  PSNIP_SAFE_DEFINE_LARGER_UNARY_OP (T, name, neg, -)
+
+#define PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(T, name) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, add, +) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, sub, -) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mul, *) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, div, /) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mod, %)
+
+#define PSNIP_SAFE_IS_LARGER(ORIG_MAX, DEST_MAX) ((DEST_MAX / ORIG_MAX) >= ORIG_MAX)
+
+#if defined(__GNUC__) && ((__GNUC__ >= 4) || (__GNUC__ == 4 && __GNUC_MINOR__ >= 6)) && defined(__SIZEOF_INT128__) && !defined(__ibmxl__)
+#define PSNIP_SAFE_HAVE_128
+typedef __int128  psnip_safe_int128_t;
+typedef unsigned __int128 psnip_safe_uint128_t;
+#endif /* defined(__GNUC__) */
+
+#if !defined(PSNIP_SAFE_NO_FIXED)
+#define PSNIP_SAFE_HAVE_INT8_LARGER
+#define PSNIP_SAFE_HAVE_UINT8_LARGER
+typedef psnip_int16_t  psnip_safe_int8_larger;
+typedef psnip_uint16_t psnip_safe_uint8_larger;
+
+#define PSNIP_SAFE_HAVE_INT16_LARGER
+typedef psnip_int32_t  psnip_safe_int16_larger;
+typedef psnip_uint32_t psnip_safe_uint16_larger;
+
+#define PSNIP_SAFE_HAVE_INT32_LARGER
+typedef psnip_int64_t  psnip_safe_int32_larger;
+typedef psnip_uint64_t psnip_safe_uint32_larger;
+
+#if defined(PSNIP_SAFE_HAVE_128)
+#define PSNIP_SAFE_HAVE_INT64_LARGER
+typedef psnip_safe_int128_t psnip_safe_int64_larger;
+typedef psnip_safe_uint128_t psnip_safe_uint64_larger;
+#endif /* defined(PSNIP_SAFE_HAVE_128) */
+#endif /* !defined(PSNIP_SAFE_NO_FIXED) */
+
+#define PSNIP_SAFE_HAVE_LARGER_SCHAR
+#if PSNIP_SAFE_IS_LARGER(SCHAR_MAX, SHRT_MAX)
+typedef short psnip_safe_schar_larger;
+#elif PSNIP_SAFE_IS_LARGER(SCHAR_MAX, INT_MAX)
+typedef int psnip_safe_schar_larger;
+#elif PSNIP_SAFE_IS_LARGER(SCHAR_MAX, LONG_MAX)
+typedef long psnip_safe_schar_larger;
+#elif PSNIP_SAFE_IS_LARGER(SCHAR_MAX, LLONG_MAX)
+typedef long long psnip_safe_schar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SCHAR_MAX, 0x7fff)
+typedef psnip_int16_t psnip_safe_schar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SCHAR_MAX, 0x7fffffffLL)
+typedef psnip_int32_t psnip_safe_schar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SCHAR_MAX, 0x7fffffffffffffffLL)
+typedef psnip_int64_t psnip_safe_schar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (SCHAR_MAX <= 0x7fffffffffffffffLL)
+typedef psnip_safe_int128_t psnip_safe_schar_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_SCHAR
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_UCHAR
+#if PSNIP_SAFE_IS_LARGER(UCHAR_MAX, USHRT_MAX)
+typedef unsigned short psnip_safe_uchar_larger;
+#elif PSNIP_SAFE_IS_LARGER(UCHAR_MAX, UINT_MAX)
+typedef unsigned int psnip_safe_uchar_larger;
+#elif PSNIP_SAFE_IS_LARGER(UCHAR_MAX, ULONG_MAX)
+typedef unsigned long psnip_safe_uchar_larger;
+#elif PSNIP_SAFE_IS_LARGER(UCHAR_MAX, ULLONG_MAX)
+typedef unsigned long long psnip_safe_uchar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UCHAR_MAX, 0xffffU)
+typedef psnip_uint16_t psnip_safe_uchar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UCHAR_MAX, 0xffffffffUL)
+typedef psnip_uint32_t psnip_safe_uchar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UCHAR_MAX, 0xffffffffffffffffULL)
+typedef psnip_uint64_t psnip_safe_uchar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (UCHAR_MAX <= 0xffffffffffffffffULL)
+typedef psnip_safe_uint128_t psnip_safe_uchar_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_UCHAR
+#endif
+
+#if CHAR_MIN == 0 && defined(PSNIP_SAFE_HAVE_LARGER_UCHAR)
+#define PSNIP_SAFE_HAVE_LARGER_CHAR
+typedef psnip_safe_uchar_larger psnip_safe_char_larger;
+#elif CHAR_MIN < 0 && defined(PSNIP_SAFE_HAVE_LARGER_SCHAR)
+#define PSNIP_SAFE_HAVE_LARGER_CHAR
+typedef psnip_safe_schar_larger psnip_safe_char_larger;
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_SHRT
+#if PSNIP_SAFE_IS_LARGER(SHRT_MAX, INT_MAX)
+typedef int psnip_safe_short_larger;
+#elif PSNIP_SAFE_IS_LARGER(SHRT_MAX, LONG_MAX)
+typedef long psnip_safe_short_larger;
+#elif PSNIP_SAFE_IS_LARGER(SHRT_MAX, LLONG_MAX)
+typedef long long psnip_safe_short_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SHRT_MAX, 0x7fff)
+typedef psnip_int16_t psnip_safe_short_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SHRT_MAX, 0x7fffffffLL)
+typedef psnip_int32_t psnip_safe_short_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SHRT_MAX, 0x7fffffffffffffffLL)
+typedef psnip_int64_t psnip_safe_short_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (SHRT_MAX <= 0x7fffffffffffffffLL)
+typedef psnip_safe_int128_t psnip_safe_short_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_SHRT
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_USHRT
+#if PSNIP_SAFE_IS_LARGER(USHRT_MAX, UINT_MAX)
+typedef unsigned int psnip_safe_ushort_larger;
+#elif PSNIP_SAFE_IS_LARGER(USHRT_MAX, ULONG_MAX)
+typedef unsigned long psnip_safe_ushort_larger;
+#elif PSNIP_SAFE_IS_LARGER(USHRT_MAX, ULLONG_MAX)
+typedef unsigned long long psnip_safe_ushort_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(USHRT_MAX, 0xffff)
+typedef psnip_uint16_t psnip_safe_ushort_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(USHRT_MAX, 0xffffffffUL)
+typedef psnip_uint32_t psnip_safe_ushort_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(USHRT_MAX, 0xffffffffffffffffULL)
+typedef psnip_uint64_t psnip_safe_ushort_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (USHRT_MAX <= 0xffffffffffffffffULL)
+typedef psnip_safe_uint128_t psnip_safe_ushort_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_USHRT
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_INT
+#if PSNIP_SAFE_IS_LARGER(INT_MAX, LONG_MAX)
+typedef long psnip_safe_int_larger;
+#elif PSNIP_SAFE_IS_LARGER(INT_MAX, LLONG_MAX)
+typedef long long psnip_safe_int_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(INT_MAX, 0x7fff)
+typedef psnip_int16_t psnip_safe_int_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(INT_MAX, 0x7fffffffLL)
+typedef psnip_int32_t psnip_safe_int_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(INT_MAX, 0x7fffffffffffffffLL)
+typedef psnip_int64_t psnip_safe_int_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (INT_MAX <= 0x7fffffffffffffffLL)
+typedef psnip_safe_int128_t psnip_safe_int_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_INT
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_UINT
+#if PSNIP_SAFE_IS_LARGER(UINT_MAX, ULONG_MAX)
+typedef unsigned long psnip_safe_uint_larger;
+#elif PSNIP_SAFE_IS_LARGER(UINT_MAX, ULLONG_MAX)
+typedef unsigned long long psnip_safe_uint_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UINT_MAX, 0xffff)
+typedef psnip_uint16_t psnip_safe_uint_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UINT_MAX, 0xffffffffUL)
+typedef psnip_uint32_t psnip_safe_uint_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UINT_MAX, 0xffffffffffffffffULL)
+typedef psnip_uint64_t psnip_safe_uint_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (UINT_MAX <= 0xffffffffffffffffULL)
+typedef psnip_safe_uint128_t psnip_safe_uint_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_UINT
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_LONG
+#if PSNIP_SAFE_IS_LARGER(LONG_MAX, LLONG_MAX)
+typedef long long psnip_safe_long_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LONG_MAX, 0x7fff)
+typedef psnip_int16_t psnip_safe_long_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LONG_MAX, 0x7fffffffLL)
+typedef psnip_int32_t psnip_safe_long_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LONG_MAX, 0x7fffffffffffffffLL)
+typedef psnip_int64_t psnip_safe_long_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (LONG_MAX <= 0x7fffffffffffffffLL)
+typedef psnip_safe_int128_t psnip_safe_long_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_LONG
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_ULONG
+#if PSNIP_SAFE_IS_LARGER(ULONG_MAX, ULLONG_MAX)
+typedef unsigned long long psnip_safe_ulong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULONG_MAX, 0xffff)
+typedef psnip_uint16_t psnip_safe_ulong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULONG_MAX, 0xffffffffUL)
+typedef psnip_uint32_t psnip_safe_ulong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULONG_MAX, 0xffffffffffffffffULL)
+typedef psnip_uint64_t psnip_safe_ulong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (ULONG_MAX <= 0xffffffffffffffffULL)
+typedef psnip_safe_uint128_t psnip_safe_ulong_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_ULONG
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_LLONG
+#if !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LLONG_MAX, 0x7fff)
+typedef psnip_int16_t psnip_safe_llong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LLONG_MAX, 0x7fffffffLL)
+typedef psnip_int32_t psnip_safe_llong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LLONG_MAX, 0x7fffffffffffffffLL)
+typedef psnip_int64_t psnip_safe_llong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (LLONG_MAX <= 0x7fffffffffffffffLL)
+typedef psnip_safe_int128_t psnip_safe_llong_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_LLONG
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_ULLONG
+#if !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULLONG_MAX, 0xffff)
+typedef psnip_uint16_t psnip_safe_ullong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULLONG_MAX, 0xffffffffUL)
+typedef psnip_uint32_t psnip_safe_ullong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULLONG_MAX, 0xffffffffffffffffULL)
+typedef psnip_uint64_t psnip_safe_ullong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (ULLONG_MAX <= 0xffffffffffffffffULL)
+typedef psnip_safe_uint128_t psnip_safe_ullong_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_ULLONG
+#endif
+
+#if defined(PSNIP_SAFE_SIZE_MAX)
+#define PSNIP_SAFE_HAVE_LARGER_SIZE
+#if PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, USHRT_MAX)
+typedef unsigned short psnip_safe_size_larger;
+#elif PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, UINT_MAX)
+typedef unsigned int psnip_safe_size_larger;
+#elif PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, ULONG_MAX)
+typedef unsigned long psnip_safe_size_larger;
+#elif PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, ULLONG_MAX)
+typedef unsigned long long psnip_safe_size_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, 0xffff)
+typedef psnip_uint16_t psnip_safe_size_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, 0xffffffffUL)
+typedef psnip_uint32_t psnip_safe_size_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, 0xffffffffffffffffULL)
+typedef psnip_uint64_t psnip_safe_size_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (PSNIP_SAFE_SIZE_MAX <= 0xffffffffffffffffULL)
+typedef psnip_safe_uint128_t psnip_safe_size_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_SIZE
+#endif
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_SCHAR)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(signed char, schar)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_UCHAR)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned char, uchar)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_CHAR)
+#if CHAR_MIN == 0
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(char, char)
+#else
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(char, char)
+#endif
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_SHORT)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(short, short)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_USHORT)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned short, ushort)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_INT)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(int, int)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_UINT)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned int, uint)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_LONG)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(long, long)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_ULONG)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned long, ulong)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_LLONG)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(long long, llong)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_ULLONG)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned long long, ullong)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_SIZE)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(size_t, size)
+#endif
+
+#if !defined(PSNIP_SAFE_NO_FIXED)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int8_t,   int8)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint8_t,  uint8)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int16_t,  int16)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint16_t, uint16)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int32_t,  int32)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint32_t, uint32)
+#if defined(PSNIP_SAFE_HAVE_128)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int64_t,  int64)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint64_t, uint64)
+#endif
+#endif
+
+#endif /* !defined(PSNIP_SAFE_NO_PROMOTIONS) */
+
+#define PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(T, name, op_name) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_##op_name(T* res, T a, T b) { \
+    return !__builtin_##op_name##_overflow(a, b, res); \
+  }
+
+#define PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(T, name, op_name, min, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_##op_name(T* res, T a, T b) { \
+    const psnip_safe_##name##_larger r = psnip_safe_larger_##name##_##op_name(a, b); \
+    *res = (T) r; \
+    return (r >= min) && (r <= max); \
+  }
+
+#define PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(T, name, op_name, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_##op_name(T* res, T a, T b) { \
+    const psnip_safe_##name##_larger r = psnip_safe_larger_##name##_##op_name(a, b); \
+    *res = (T) r; \
+    return (r <= max); \
+  }
+
+#define PSNIP_SAFE_DEFINE_SIGNED_ADD(T, name, min, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_add (T* res, T a, T b) { \
+    psnip_safe_bool r = !( ((b > 0) && (a > (max - b))) ||   \
+                 ((b < 0) && (a < (min - b))) ); \
+    if(PSNIP_SAFE_LIKELY(r)) \
+        *res = a + b; \
+    return r; \
+  }
+
+#define PSNIP_SAFE_DEFINE_UNSIGNED_ADD(T, name, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_add (T* res, T a, T b) { \
+    *res = (T) (a + b); \
+    return !PSNIP_SAFE_UNLIKELY((b > 0) && (a > (max - b))); \
+  }
+
+#define PSNIP_SAFE_DEFINE_SIGNED_SUB(T, name, min, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_sub (T* res, T a, T b) { \
+      psnip_safe_bool r = !((b > 0 && a < (min + b)) || \
+                  (b < 0 && a > (max + b))); \
+      if(PSNIP_SAFE_LIKELY(r)) \
+          *res = a - b; \
+      return r; \
+  }
+
+#define PSNIP_SAFE_DEFINE_UNSIGNED_SUB(T, name, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_sub (T* res, T a, T b) { \
+      *res = a - b; \
+      return !PSNIP_SAFE_UNLIKELY(b > a); \
+  }
+
+#define PSNIP_SAFE_DEFINE_SIGNED_MUL(T, name, min, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_mul (T* res, T a, T b) { \
+    psnip_safe_bool r = 1;  \
+    if (a > 0) { \
+      if (b > 0) { \
+        if (a > (max / b)) { \
+          r = 0; \
+        } \
+      } else { \
+        if (b < (min / a)) { \
+          r = 0; \
+        } \
+      } \
+    } else { \
+      if (b > 0) { \
+        if (a < (min / b)) { \
+          r = 0; \
+        } \
+      } else { \
+        if ( (a != 0) && (b < (max / a))) { \
+          r = 0; \
+        } \
+      } \
+    } \
+    if(PSNIP_SAFE_LIKELY(r)) \
+        *res = a * b; \
+    return r; \
+  }
+
+#define PSNIP_SAFE_DEFINE_UNSIGNED_MUL(T, name, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_mul (T* res, T a, T b) { \
+    *res = (T) (a * b); \
+    return !PSNIP_SAFE_UNLIKELY((a > 0) && (b > 0) && (a > (max / b))); \
+  }
+
+#define PSNIP_SAFE_DEFINE_SIGNED_DIV(T, name, min, max)   \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_div (T* res, T a, T b) { \
+    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
+      *res = 0; \
+      return 0; \
+    } else if (PSNIP_SAFE_UNLIKELY(a == min && b == -1)) {    \
+      *res = min; \
+      return 0; \
+    } else { \
+      *res = (T) (a / b); \
+      return 1; \
+    } \
+  }
+
+#define PSNIP_SAFE_DEFINE_UNSIGNED_DIV(T, name, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_div (T* res, T a, T b) { \
+    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
+      *res = 0; \
+      return 0; \
+    } else { \
+      *res = a / b; \
+      return 1; \
+    } \
+  }
+
+#define PSNIP_SAFE_DEFINE_SIGNED_MOD(T, name, min, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_mod (T* res, T a, T b) { \
+    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
+      *res = 0; \
+      return 0; \
+    } else if (PSNIP_SAFE_UNLIKELY(a == min && b == -1)) { \
+      *res = min; \
+      return 0; \
+    } else { \
+      *res = (T) (a % b); \
+      return 1; \
+    } \
+  }
+
+#define PSNIP_SAFE_DEFINE_UNSIGNED_MOD(T, name, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_mod (T* res, T a, T b) { \
+    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
+      *res = 0; \
+      return 0; \
+    } else { \
+      *res = a % b; \
+      return 1; \
+    } \
+  }
+
+#define PSNIP_SAFE_DEFINE_SIGNED_NEG(T, name, min, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_neg (T* res, T value) { \
+    psnip_safe_bool r = value != min; \
+    *res = PSNIP_SAFE_LIKELY(r) ? -value : max; \
+    return r; \
+  }
+
+#define PSNIP_SAFE_DEFINE_INTSAFE(T, name, op, isf) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_##op (T* res, T a, T b) { \
+    return isf(a, b, res) == S_OK; \
+  }
+
+#if CHAR_MIN == 0
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_CHAR)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(char, char, add, CHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(char, char, sub, CHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(char, char, mul, CHAR_MAX)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(char, char, CHAR_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(char, char, CHAR_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(char, char, CHAR_MAX)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(char, char, CHAR_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(char, char, CHAR_MAX)
+#else /* CHAR_MIN != 0 */
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_CHAR)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(char, char, add, CHAR_MIN, CHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(char, char, sub, CHAR_MIN, CHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(char, char, mul, CHAR_MIN, CHAR_MAX)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(char, char, CHAR_MIN, CHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(char, char, CHAR_MIN, CHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(char, char, CHAR_MIN, CHAR_MAX)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(char, char, CHAR_MIN, CHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(char, char, CHAR_MIN, CHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(char, char, CHAR_MIN, CHAR_MAX)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(signed char, schar, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(signed char, schar, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(signed char, schar, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_SCHAR)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(signed char, schar, add, SCHAR_MIN, SCHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(signed char, schar, sub, SCHAR_MIN, SCHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(signed char, schar, mul, SCHAR_MIN, SCHAR_MAX)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(signed char, schar, SCHAR_MIN, SCHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(signed char, schar, SCHAR_MIN, SCHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(signed char, schar, SCHAR_MIN, SCHAR_MAX)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(signed char, schar, SCHAR_MIN, SCHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(signed char, schar, SCHAR_MIN, SCHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(signed char, schar, SCHAR_MIN, SCHAR_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned char, uchar, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned char, uchar, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned char, uchar, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_UCHAR)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned char, uchar, add, UCHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned char, uchar, sub, UCHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned char, uchar, mul, UCHAR_MAX)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned char, uchar, UCHAR_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned char, uchar, UCHAR_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned char, uchar, UCHAR_MAX)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned char, uchar, UCHAR_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned char, uchar, UCHAR_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(short, short, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(short, short, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(short, short, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_SHORT)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(short, short, add, SHRT_MIN, SHRT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(short, short, sub, SHRT_MIN, SHRT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(short, short, mul, SHRT_MIN, SHRT_MAX)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(short, short, SHRT_MIN, SHRT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(short, short, SHRT_MIN, SHRT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(short, short, SHRT_MIN, SHRT_MAX)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(short, short, SHRT_MIN, SHRT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(short, short, SHRT_MIN, SHRT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(short, short, SHRT_MIN, SHRT_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned short, ushort, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned short, ushort, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned short, ushort, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned short, ushort, add, UShortAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned short, ushort, sub, UShortSub)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned short, ushort, mul, UShortMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_USHORT)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned short, ushort, add, USHRT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned short, ushort, sub, USHRT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned short, ushort, mul, USHRT_MAX)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned short, ushort, USHRT_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned short, ushort, USHRT_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned short, ushort, USHRT_MAX)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned short, ushort, USHRT_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned short, ushort, USHRT_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(int, int, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(int, int, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(int, int, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_INT)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(int, int, add, INT_MIN, INT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(int, int, sub, INT_MIN, INT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(int, int, mul, INT_MIN, INT_MAX)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(int, int, INT_MIN, INT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(int, int, INT_MIN, INT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(int, int, INT_MIN, INT_MAX)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(int, int, INT_MIN, INT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(int, int, INT_MIN, INT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(int, int, INT_MIN, INT_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned int, uint, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned int, uint, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned int, uint, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned int, uint, add, UIntAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned int, uint, sub, UIntSub)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned int, uint, mul, UIntMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned int, uint, add, UINT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned int, uint, sub, UINT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned int, uint, mul, UINT_MAX)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned int, uint, UINT_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned int, uint, UINT_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned int, uint, UINT_MAX)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned int, uint, UINT_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned int, uint, UINT_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long, long, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long, long, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long, long, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_LONG)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long, long, add, LONG_MIN, LONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long, long, sub, LONG_MIN, LONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long, long, mul, LONG_MIN, LONG_MAX)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(long, long, LONG_MIN, LONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(long, long, LONG_MIN, LONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(long, long, LONG_MIN, LONG_MAX)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(long, long, LONG_MIN, LONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(long, long, LONG_MIN, LONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(long, long, LONG_MIN, LONG_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long, ulong, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long, ulong, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long, ulong, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned long, ulong, add, ULongAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned long, ulong, sub, ULongSub)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned long, ulong, mul, ULongMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_ULONG)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long, ulong, add, ULONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long, ulong, sub, ULONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long, ulong, mul, ULONG_MAX)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned long, ulong, ULONG_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned long, ulong, ULONG_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned long, ulong, ULONG_MAX)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned long, ulong, ULONG_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned long, ulong, ULONG_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long long, llong, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long long, llong, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long long, llong, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_LLONG)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long long, llong, add, LLONG_MIN, LLONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long long, llong, sub, LLONG_MIN, LLONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long long, llong, mul, LLONG_MIN, LLONG_MAX)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(long long, llong, LLONG_MIN, LLONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(long long, llong, LLONG_MIN, LLONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(long long, llong, LLONG_MIN, LLONG_MAX)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(long long, llong, LLONG_MIN, LLONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(long long, llong, LLONG_MIN, LLONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(long long, llong, LLONG_MIN, LLONG_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long long, ullong, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long long, ullong, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long long, ullong, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned long long, ullong, add, ULongLongAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned long long, ullong, sub, ULongLongSub)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned long long, ullong, mul, ULongLongMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_ULLONG)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long long, ullong, add, ULLONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long long, ullong, sub, ULLONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long long, ullong, mul, ULLONG_MAX)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned long long, ullong, ULLONG_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned long long, ullong, ULLONG_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned long long, ullong, ULLONG_MAX)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned long long, ullong, ULLONG_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned long long, ullong, ULLONG_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(size_t, size, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(size_t, size, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(size_t, size, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
+PSNIP_SAFE_DEFINE_INTSAFE(size_t, size, add, SizeTAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(size_t, size, sub, SizeTSub)
+PSNIP_SAFE_DEFINE_INTSAFE(size_t, size, mul, SizeTMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_SIZE)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(size_t, size, add, PSNIP_SAFE__SIZE_MAX_RT)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(size_t, size, sub, PSNIP_SAFE__SIZE_MAX_RT)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(size_t, size, mul, PSNIP_SAFE__SIZE_MAX_RT)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
+
+#if !defined(PSNIP_SAFE_NO_FIXED)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int8_t, int8, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int8_t, int8, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int8_t, int8, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_INT8)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int8_t, int8, add, (-0x7fLL-1), 0x7f)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int8_t, int8, sub, (-0x7fLL-1), 0x7f)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int8_t, int8, mul, (-0x7fLL-1), 0x7f)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint8_t, uint8, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint8_t, uint8, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint8_t, uint8, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT8)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint8_t, uint8, add, 0xff)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint8_t, uint8, sub, 0xff)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint8_t, uint8, mul, 0xff)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint8_t, uint8, 0xff)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint8_t, uint8, 0xff)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint8_t, uint8, 0xff)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint8_t, uint8, 0xff)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint8_t, uint8, 0xff)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int16_t, int16, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int16_t, int16, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int16_t, int16, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_INT16)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int16_t, int16, add, (-32767-1), 0x7fff)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int16_t, int16, sub, (-32767-1), 0x7fff)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int16_t, int16, mul, (-32767-1), 0x7fff)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int16_t, int16, (-32767-1), 0x7fff)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int16_t, int16, (-32767-1), 0x7fff)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int16_t, int16, (-32767-1), 0x7fff)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int16_t, int16, (-32767-1), 0x7fff)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int16_t, int16, (-32767-1), 0x7fff)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int16_t, int16, (-32767-1), 0x7fff)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint16_t, uint16, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint16_t, uint16, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint16_t, uint16, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H) && defined(_WIN32)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint16_t, uint16, add, UShortAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint16_t, uint16, sub, UShortSub)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint16_t, uint16, mul, UShortMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT16)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint16_t, uint16, add, 0xffff)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint16_t, uint16, sub, 0xffff)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint16_t, uint16, mul, 0xffff)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint16_t, uint16, 0xffff)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint16_t, uint16, 0xffff)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint16_t, uint16, 0xffff)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint16_t, uint16, 0xffff)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint16_t, uint16, 0xffff)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int32_t, int32, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int32_t, int32, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int32_t, int32, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_INT32)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int32_t, int32, add, (-0x7fffffffLL-1), 0x7fffffffLL)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int32_t, int32, sub, (-0x7fffffffLL-1), 0x7fffffffLL)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int32_t, int32, mul, (-0x7fffffffLL-1), 0x7fffffffLL)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint32_t, uint32, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint32_t, uint32, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint32_t, uint32, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H) && defined(_WIN32)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint32_t, uint32, add, UIntAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint32_t, uint32, sub, UIntSub)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint32_t, uint32, mul, UIntMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT32)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint32_t, uint32, add, 0xffffffffUL)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint32_t, uint32, sub, 0xffffffffUL)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint32_t, uint32, mul, 0xffffffffUL)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint32_t, uint32, 0xffffffffUL)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint32_t, uint32, 0xffffffffUL)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint32_t, uint32, 0xffffffffUL)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint32_t, uint32, 0xffffffffUL)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint32_t, uint32, 0xffffffffUL)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int64_t, int64, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int64_t, int64, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int64_t, int64, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_INT64)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int64_t, int64, add, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int64_t, int64, sub, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int64_t, int64, mul, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint64_t, uint64, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint64_t, uint64, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint64_t, uint64, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H) && defined(_WIN32)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint64_t, uint64, add, ULongLongAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint64_t, uint64, sub, ULongLongSub)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint64_t, uint64, mul, ULongLongMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT64)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint64_t, uint64, add, 0xffffffffffffffffULL)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint64_t, uint64, sub, 0xffffffffffffffffULL)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint64_t, uint64, mul, 0xffffffffffffffffULL)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
+
+#endif /* !defined(PSNIP_SAFE_NO_FIXED) */
+
+#define PSNIP_SAFE_C11_GENERIC_SELECTION(res, op) \
+  _Generic((*res), \
+	   char: psnip_safe_char_##op, \
+	   unsigned char: psnip_safe_uchar_##op, \
+	   short: psnip_safe_short_##op, \
+	   unsigned short: psnip_safe_ushort_##op, \
+	   int: psnip_safe_int_##op, \
+	   unsigned int: psnip_safe_uint_##op, \
+	   long: psnip_safe_long_##op, \
+	   unsigned long: psnip_safe_ulong_##op, \
+	   long long: psnip_safe_llong_##op, \
+	   unsigned long long: psnip_safe_ullong_##op)
+
+#define PSNIP_SAFE_C11_GENERIC_BINARY_OP(op, res, a, b) \
+  PSNIP_SAFE_C11_GENERIC_SELECTION(res, op)(res, a, b)
+#define PSNIP_SAFE_C11_GENERIC_UNARY_OP(op, res, v) \
+  PSNIP_SAFE_C11_GENERIC_SELECTION(res, op)(res, v)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+#define psnip_safe_add(res, a, b) !__builtin_add_overflow(a, b, res)
+#define psnip_safe_sub(res, a, b) !__builtin_sub_overflow(a, b, res)
+#define psnip_safe_mul(res, a, b) !__builtin_mul_overflow(a, b, res)
+#define psnip_safe_div(res, a, b) !__builtin_div_overflow(a, b, res)
+#define psnip_safe_mod(res, a, b) !__builtin_mod_overflow(a, b, res)
+#define psnip_safe_neg(res, v)    PSNIP_SAFE_C11_GENERIC_UNARY_OP (neg, res, v)
+
+#elif defined(__STDC_VERSION__) && (__STDC_VERSION__ >= 201112L)
+/* The are no fixed-length or size selections because they cause an
+ * error about _Generic specifying two compatible types.  Hopefully
+ * this doesn't cause problems on exotic platforms, but if it does
+ * please let me know and I'll try to figure something out. */
+
+#define psnip_safe_add(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(add, res, a, b)
+#define psnip_safe_sub(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(sub, res, a, b)
+#define psnip_safe_mul(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(mul, res, a, b)
+#define psnip_safe_div(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(div, res, a, b)
+#define psnip_safe_mod(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(mod, res, a, b)
+#define psnip_safe_neg(res, v)    PSNIP_SAFE_C11_GENERIC_UNARY_OP (neg, res, v)
+#endif
+
+#if !defined(PSNIP_SAFE_HAVE_BUILTINS) && (defined(PSNIP_SAFE_EMULATE_NATIVE) || defined(PSNIP_BUILTIN_EMULATE_NATIVE))
+#  define __builtin_sadd_overflow(a, b, res)   (!psnip_safe_int_add(res, a, b))
+#  define __builtin_saddl_overflow(a, b, res)  (!psnip_safe_long_add(res, a, b))
+#  define __builtin_saddll_overflow(a, b, res) (!psnip_safe_llong_add(res, a, b))
+#  define __builtin_uadd_overflow(a, b, res)   (!psnip_safe_uint_add(res, a, b))
+#  define __builtin_uaddl_overflow(a, b, res)  (!psnip_safe_ulong_add(res, a, b))
+#  define __builtin_uaddll_overflow(a, b, res) (!psnip_safe_ullong_add(res, a, b))
+
+#  define __builtin_ssub_overflow(a, b, res)   (!psnip_safe_int_sub(res, a, b))
+#  define __builtin_ssubl_overflow(a, b, res)  (!psnip_safe_long_sub(res, a, b))
+#  define __builtin_ssubll_overflow(a, b, res) (!psnip_safe_llong_sub(res, a, b))
+#  define __builtin_usub_overflow(a, b, res)   (!psnip_safe_uint_sub(res, a, b))
+#  define __builtin_usubl_overflow(a, b, res)  (!psnip_safe_ulong_sub(res, a, b))
+#  define __builtin_usubll_overflow(a, b, res) (!psnip_safe_ullong_sub(res, a, b))
+
+#  define __builtin_smul_overflow(a, b, res)   (!psnip_safe_int_mul(res, a, b))
+#  define __builtin_smull_overflow(a, b, res)  (!psnip_safe_long_mul(res, a, b))
+#  define __builtin_smulll_overflow(a, b, res) (!psnip_safe_llong_mul(res, a, b))
+#  define __builtin_umul_overflow(a, b, res)   (!psnip_safe_uint_mul(res, a, b))
+#  define __builtin_umull_overflow(a, b, res)  (!psnip_safe_ulong_mul(res, a, b))
+#  define __builtin_umulll_overflow(a, b, res) (!psnip_safe_ullong_mul(res, a, b))
+#endif
+
+#endif /* !defined(PSNIP_SAFE_H) */
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic.go b/go/arrow/compute/internal/kernels/base_arithmetic.go
new file mode 100644
index 00000000000..87e566da1b7
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/base_arithmetic.go
@@ -0,0 +1,897 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"fmt"
+	"math"
+	"math/bits"
+
+	"github.com/JohnCGriffin/overflow"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"golang.org/x/exp/constraints"
+)
+
+type ArithmeticOp int8
+
+const (
+	OpAdd ArithmeticOp = iota
+	OpSub
+	OpMul
+	OpDiv
+	OpAbsoluteValue
+	OpNegate
+	// NO SIMD for the following yet
+	OpSqrt
+	OpPower
+	OpSin
+	OpCos
+	OpTan
+	OpAsin
+	OpAcos
+	OpAtan
+	OpAtan2
+	OpLn
+	OpLog10
+	OpLog2
+	OpLog1p
+	OpLogb
+	// End NO SIMD
+	OpSign
+
+	// Checked versions will not use SIMD except for float32/float64 impls
+	OpAddChecked
+	OpSubChecked
+	OpMulChecked
+	OpDivChecked
+	OpAbsoluteValueChecked
+	OpNegateChecked
+	// No SIMD impls for the rest of these yet
+	OpSqrtChecked
+	OpPowerChecked
+	OpSinChecked
+	OpCosChecked
+	OpTanChecked
+	OpAsinChecked
+	OpAcosChecked
+	OpLnChecked
+	OpLog10Checked
+	OpLog2Checked
+	OpLog1pChecked
+	OpLogbChecked
+)
+
+func mulWithOverflow[T exec.IntTypes | exec.UintTypes](a, b T) (T, error) {
+	min, max := MinOf[T](), MaxOf[T]()
+	switch {
+	case a > 0:
+		if b > 0 {
+			if a > (max / b) {
+				return 0, errOverflow
+			}
+		} else {
+			if b < (min / a) {
+				return 0, errOverflow
+			}
+		}
+	case b > 0:
+		if a < (min / b) {
+			return 0, errOverflow
+		}
+	default:
+		if (a != 0) && (b < (max / a)) {
+			return 0, errOverflow
+		}
+	}
+
+	return a * b, nil
+}
+
+func getGoArithmeticBinary[OutT, Arg0T, Arg1T exec.NumericTypes](op func(a Arg0T, b Arg1T, e *error) OutT) binaryOps[OutT, Arg0T, Arg1T] {
+	return binaryOps[OutT, Arg0T, Arg1T]{
+		arrArr: func(_ *exec.KernelCtx, left []Arg0T, right []Arg1T, out []OutT) error {
+			var err error
+			for i := range out {
+				out[i] = op(left[i], right[i], &err)
+			}
+			return err
+		},
+		arrScalar: func(_ *exec.KernelCtx, left []Arg0T, right Arg1T, out []OutT) error {
+			var err error
+			for i := range out {
+				out[i] = op(left[i], right, &err)
+			}
+			return err
+		},
+		scalarArr: func(_ *exec.KernelCtx, left Arg0T, right []Arg1T, out []OutT) error {
+			var err error
+			for i := range out {
+				out[i] = op(left, right[i], &err)
+			}
+			return err
+		},
+	}
+}
+
+var (
+	errOverflow      = fmt.Errorf("%w: overflow", arrow.ErrInvalid)
+	errDivByZero     = fmt.Errorf("%w: divide by zero", arrow.ErrInvalid)
+	errNegativeSqrt  = fmt.Errorf("%w: square root of negative number", arrow.ErrInvalid)
+	errNegativePower = fmt.Errorf("%w: integers to negative integer powers are not allowed", arrow.ErrInvalid)
+	errDomainErr     = fmt.Errorf("%w: domain error", arrow.ErrInvalid)
+	errLogZero       = fmt.Errorf("%w: logarithm of zero", arrow.ErrInvalid)
+	errLogNeg        = fmt.Errorf("%w: logarithm of negative number", arrow.ErrInvalid)
+)
+
+func getGoArithmeticOpIntegral[InT, OutT exec.UintTypes | exec.IntTypes](op ArithmeticOp) exec.ArrayKernelExec {
+	switch op {
+	case OpAdd:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a + b) }))
+	case OpSub:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a - b) }))
+	case OpMul:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a * b) }))
+	case OpDiv:
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) OutT {
+			if b == 0 {
+				*e = errDivByZero
+				return 0
+			}
+			return OutT(a / b)
+		})
+	case OpAbsoluteValue:
+		if ones := ^InT(0); ones < 0 {
+			shiftBy := (SizeOf[InT]() * 8) - 1
+			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+				// get abs without branching
+				for i, v := range arg {
+					// right shift (sign check)
+					mask := v >> shiftBy
+					// add the mask '+' and '-' balance
+					v = v + mask
+					// invert and return
+					out[i] = OutT(v ^ mask)
+				}
+				return nil
+			})
+		}
+
+		if SizeOf[InT]() == SizeOf[OutT]() {
+			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+				in, output := exec.GetBytes(arg), exec.GetBytes(out)
+				copy(output, in)
+				return nil
+			})
+		} else {
+			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+				DoStaticCast(arg, out)
+				return nil
+			})
+		}
+	case OpNegate:
+		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+			for i, v := range arg {
+				out[i] = OutT(-v)
+			}
+			return nil
+		})
+	case OpSign:
+		if ^InT(0) < 0 {
+			var neg int8 = -1
+			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+				neg := OutT(neg)
+				for i, v := range arg {
+					switch {
+					case v > 0:
+						out[i] = 1
+					case v < 0:
+						out[i] = neg
+					default:
+						out[i] = 0
+					}
+				}
+				return nil
+			})
+		}
+		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+			for i, v := range arg {
+				if v > 0 {
+					out[i] = 1
+				} else {
+					out[i] = 0
+				}
+			}
+			return nil
+		})
+	case OpPower:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, err *error) OutT {
+			if b < 0 {
+				*err = errNegativePower
+				return 0
+			}
+			// integer power
+			var (
+				base        = uint64(a)
+				exp         = uint64(b)
+				pow  uint64 = 1
+			)
+
+			// right to left 0(logn) power
+			for exp != 0 {
+				if exp&1 != 0 {
+					pow *= base
+				}
+				base *= base
+				exp >>= 1
+			}
+			return OutT(pow)
+		}))
+	case OpAddChecked:
+		shiftBy := (SizeOf[InT]() * 8) - 1
+		// ie: uint32 does a >> 31 at the end, int32 does >> 30
+		if ^InT(0) < 0 {
+			shiftBy--
+		}
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
+			out = OutT(a + b)
+			// see math/bits/bits.go Add64 for explanation of logic
+			carry := (OutT(a&b) | (OutT(a|b) &^ out)) >> shiftBy
+			if carry > 0 {
+				*e = errOverflow
+			}
+			return
+		})
+	case OpSubChecked:
+		shiftBy := (SizeOf[InT]() * 8) - 1
+		// ie: uint32 does a >> 31 at the end, int32 does >> 30
+		if ^InT(0) < 0 {
+			shiftBy--
+		}
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
+			out = OutT(a - b)
+			// see math/bits/bits.go Sub64 for explanation of bit logic
+			carry := (OutT(^a&b) | (^OutT(a^b) & out)) >> shiftBy
+			if carry > 0 {
+				*e = errOverflow
+			}
+			return
+		})
+	case OpMulChecked:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, e *error) (out OutT) {
+			o, err := mulWithOverflow(a, b)
+			if err != nil {
+				*e = err
+			}
+			return OutT(o)
+		}))
+	case OpDivChecked:
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
+			if b == 0 {
+				*e = errDivByZero
+				return
+			}
+			return OutT(a / b)
+		})
+	case OpAbsoluteValueChecked:
+		if ones := ^InT(0); ones < 0 {
+			shiftBy := (SizeOf[InT]() * 8) - 1
+			min := MinOf[InT]()
+			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+				for i, v := range arg {
+					if v == min {
+						return errOverflow
+					}
+
+					// right shift (sign check)
+					mask := v >> shiftBy
+					// add the mask '+' and '-' balance
+					v = v + mask
+					// invert and return
+					out[i] = OutT(v ^ mask)
+				}
+				return nil
+			})
+		}
+		if SizeOf[InT]() == SizeOf[OutT]() {
+			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+				in, output := exec.GetBytes(arg), exec.GetBytes(out)
+				copy(output, in)
+				return nil
+			})
+		} else {
+			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+				DoStaticCast(arg, out)
+				return nil
+			})
+		}
+	case OpNegateChecked:
+		if ones := ^InT(0); ones < 0 {
+			min := MinOf[InT]()
+			// signed
+			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+				for i, v := range arg {
+					if v != min {
+						out[i] = OutT(-v)
+					} else {
+						return errOverflow
+					}
+				}
+				return nil
+			})
+		}
+	case OpPowerChecked:
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, base, exp InT, e *error) OutT {
+			if exp < 0 {
+				*e = errNegativePower
+				return 0
+			} else if exp == 0 {
+				return 1
+			}
+
+			// left to right 0(logn) power with overflow checks
+			var (
+				overflow bool
+				bitmask      = uint64(1) << (63 - bits.LeadingZeros64(uint64(exp)))
+				pow      InT = 1
+				err      error
+			)
+
+			for bitmask != 0 {
+				pow, err = mulWithOverflow(pow, pow)
+				overflow = overflow || (err != nil)
+				if uint64(exp)&bitmask != 0 {
+					pow, err = mulWithOverflow(pow, base)
+					overflow = overflow || (err != nil)
+				}
+				bitmask >>= 1
+			}
+			if overflow {
+				*e = errOverflow
+			}
+			return OutT(pow)
+		})
+	}
+	debug.Assert(false, "invalid arithmetic op")
+	return nil
+}
+
+func getGoArithmeticOpFloating[InT, OutT constraints.Float](op ArithmeticOp) exec.ArrayKernelExec {
+	switch op {
+	case OpAdd, OpAddChecked:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a + b) }))
+	case OpSub, OpSubChecked:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a - b) }))
+	case OpMul, OpMulChecked:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT { return OutT(a * b) }))
+	case OpDiv:
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
+			return OutT(a / b)
+		})
+	case OpDivChecked:
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b InT, e *error) (out OutT) {
+			if b == 0 {
+				*e = errDivByZero
+				return
+			}
+			return OutT(a / b)
+		})
+	case OpAbsoluteValue, OpAbsoluteValueChecked:
+		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+			for i, v := range arg {
+				out[i] = OutT(math.Abs(float64(v)))
+			}
+			return nil
+		})
+	case OpNegate, OpNegateChecked:
+		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+			for i, v := range arg {
+				out[i] = OutT(-v)
+			}
+			return nil
+		})
+	case OpSqrt:
+		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+			for i, v := range arg {
+				out[i] = OutT(math.Sqrt(float64(v)))
+			}
+			return nil
+		})
+	case OpSqrtChecked:
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
+			if arg < 0 {
+				*e = errNegativeSqrt
+				return OutT(math.NaN())
+			}
+			return OutT(math.Sqrt(float64(arg)))
+		})
+	case OpSign:
+		return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+			for i, v := range arg {
+				switch {
+				case math.IsNaN(float64(v)):
+					out[i] = OutT(v)
+				case v == 0:
+					out[i] = 0
+				case math.Signbit(float64(v)):
+					out[i] = -1
+				default:
+					out[i] = 1
+				}
+			}
+			return nil
+		})
+	case OpPower, OpPowerChecked:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT {
+			return OutT(math.Pow(float64(a), float64(b)))
+		}))
+	case OpSin:
+		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
+			for i, v := range vals {
+				out[i] = OutT(math.Sin(float64(v)))
+			}
+			return nil
+		})
+	case OpSinChecked:
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
+			if math.IsInf(float64(arg), 0) {
+				*e = errDomainErr
+				return OutT(arg)
+			}
+			return OutT(math.Sin(float64(arg)))
+		})
+	case OpCos:
+		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
+			for i, v := range vals {
+				out[i] = OutT(math.Cos(float64(v)))
+			}
+			return nil
+		})
+	case OpCosChecked:
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
+			if math.IsInf(float64(arg), 0) {
+				*e = errDomainErr
+				return OutT(arg)
+			}
+			return OutT(math.Cos(float64(arg)))
+		})
+	case OpTan:
+		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
+			for i, v := range vals {
+				out[i] = OutT(math.Tan(float64(v)))
+			}
+			return nil
+		})
+	case OpTanChecked:
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
+			if math.IsInf(float64(arg), 0) {
+				*e = errDomainErr
+				return OutT(arg)
+			}
+			return OutT(math.Tan(float64(arg)))
+		})
+	case OpAsin:
+		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
+			for i, v := range vals {
+				out[i] = OutT(math.Asin(float64(v)))
+			}
+			return nil
+		})
+	case OpAsinChecked:
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
+			if arg < -1 || arg > 1 {
+				*e = errDomainErr
+				return OutT(arg)
+			}
+			return OutT(math.Asin(float64(arg)))
+		})
+	case OpAcos:
+		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
+			for i, v := range vals {
+				out[i] = OutT(math.Acos(float64(v)))
+			}
+			return nil
+		})
+	case OpAcosChecked:
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
+			if arg < -1 || arg > 1 {
+				*e = errDomainErr
+				return OutT(arg)
+			}
+			return OutT(math.Acos(float64(arg)))
+		})
+	case OpAtan:
+		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
+			for i, v := range vals {
+				out[i] = OutT(math.Atan(float64(v)))
+			}
+			return nil
+		})
+	case OpAtan2:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b InT, _ *error) OutT {
+			return OutT(math.Atan2(float64(a), float64(b)))
+		}))
+	case OpLn:
+		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
+			for i, v := range vals {
+				out[i] = OutT(math.Log(float64(v)))
+			}
+			return nil
+		})
+	case OpLnChecked:
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
+			switch {
+			case arg == 0:
+				*e = errLogZero
+				return OutT(arg)
+			case arg < 0:
+				*e = errLogNeg
+				return OutT(arg)
+			}
+
+			return OutT(math.Log(float64(arg)))
+		})
+	case OpLog10:
+		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
+			for i, v := range vals {
+				out[i] = OutT(math.Log10(float64(v)))
+			}
+			return nil
+		})
+	case OpLog10Checked:
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
+			switch {
+			case arg == 0:
+				*e = errLogZero
+				return OutT(arg)
+			case arg < 0:
+				*e = errLogNeg
+				return OutT(arg)
+			}
+
+			return OutT(math.Log10(float64(arg)))
+		})
+	case OpLog2:
+		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
+			for i, v := range vals {
+				out[i] = OutT(math.Log2(float64(v)))
+			}
+			return nil
+		})
+	case OpLog2Checked:
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
+			switch {
+			case arg == 0:
+				*e = errLogZero
+				return OutT(arg)
+			case arg < 0:
+				*e = errLogNeg
+				return OutT(arg)
+			}
+
+			return OutT(math.Log2(float64(arg)))
+		})
+	case OpLog1p:
+		return ScalarUnary(func(_ *exec.KernelCtx, vals []InT, out []OutT) error {
+			for i, v := range vals {
+				out[i] = OutT(math.Log1p(float64(v)))
+			}
+			return nil
+		})
+	case OpLog1pChecked:
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg InT, e *error) OutT {
+			switch {
+			case arg == -1:
+				*e = errLogZero
+				return OutT(arg)
+			case arg < -1:
+				*e = errLogNeg
+				return OutT(arg)
+			}
+
+			return OutT(math.Log1p(float64(arg)))
+		})
+	case OpLogb:
+		return ScalarBinary(getGoArithmeticBinary(func(x, base InT, _ *error) OutT {
+			if x == 0 {
+				if base == 0 || base < 0 {
+					return OutT(math.NaN())
+				} else {
+					return OutT(math.Inf(-1))
+				}
+			} else if x < 0 {
+				return OutT(math.NaN())
+			}
+			return OutT(math.Log(float64(x)) / math.Log(float64(base)))
+		}))
+	case OpLogbChecked:
+		return ScalarBinaryNotNull((func(_ *exec.KernelCtx, x, base InT, e *error) OutT {
+			if x == 0 || base == 0 {
+				*e = errLogZero
+				return OutT(x)
+			} else if x < 0 || base < 0 {
+				*e = errLogNeg
+				return OutT(x)
+			}
+			return OutT(math.Log(float64(x)) / math.Log(float64(base)))
+		}))
+	}
+	debug.Assert(false, "invalid arithmetic op")
+	return nil
+}
+
+func timeDurationOp[OutT, Arg0T, Arg1T ~int32 | ~int64](multiple int64, op ArithmeticOp) exec.ArrayKernelExec {
+	switch op {
+	case OpAdd:
+		return ScalarBinary(getGoArithmeticBinary(func(a Arg0T, b Arg1T, e *error) OutT {
+			result := OutT(a) + OutT(b)
+			if result < 0 || multiple <= int64(result) {
+				*e = fmt.Errorf("%w: %d is not within acceptable range of [0, %d) s", arrow.ErrInvalid, result, multiple)
+			}
+			return result
+		}))
+	case OpSub:
+		return ScalarBinary(getGoArithmeticBinary(func(a Arg0T, b Arg1T, e *error) OutT {
+			result := OutT(a) - OutT(b)
+			if result < 0 || multiple <= int64(result) {
+				*e = fmt.Errorf("%w: %d is not within acceptable range of [0, %d) s", arrow.ErrInvalid, result, multiple)
+			}
+			return result
+		}))
+	case OpAddChecked:
+		shiftBy := (SizeOf[OutT]() * 8) - 1
+		// ie: uint32 does a >> 31 at the end, int32 does >> 30
+		if ^OutT(0) < 0 {
+			shiftBy--
+		}
+		return ScalarBinary(getGoArithmeticBinary(func(a Arg0T, b Arg1T, e *error) (result OutT) {
+			left, right := OutT(a), OutT(b)
+			result = left + right
+			carry := ((left & right) | ((left | right) &^ result)) >> shiftBy
+			if carry > 0 {
+				*e = errOverflow
+				return
+			}
+			if result < 0 || multiple <= int64(result) {
+				*e = fmt.Errorf("%w: %d is not within acceptable range of [0, %d) s", arrow.ErrInvalid, result, multiple)
+			}
+			return
+		}))
+	case OpSubChecked:
+		shiftBy := (SizeOf[OutT]() * 8) - 1
+		// ie: uint32 does a >> 31 at the end, int32 does >> 30
+		if ^OutT(0) < 0 {
+			shiftBy--
+		}
+		return ScalarBinary(getGoArithmeticBinary(func(a Arg0T, b Arg1T, e *error) (result OutT) {
+			left, right := OutT(a), OutT(b)
+			result = left - right
+			carry := ((^left & right) | (^(left ^ right) & result)) >> shiftBy
+			if carry > 0 {
+				*e = errOverflow
+				return
+			}
+			if result < 0 || multiple <= int64(result) {
+				*e = fmt.Errorf("%w: %d is not within acceptable range of [0, %d) s", arrow.ErrInvalid, result, multiple)
+			}
+			return
+		}))
+	}
+	return nil
+}
+
+func SubtractDate32(op ArithmeticOp) exec.ArrayKernelExec {
+	const secondsPerDay = 86400
+	switch op {
+	case OpSub:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b arrow.Time32, e *error) (result arrow.Duration) {
+			return arrow.Duration((a - b) * secondsPerDay)
+		}))
+	case OpSubChecked:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b arrow.Time32, e *error) (result arrow.Duration) {
+			result = arrow.Duration(a) - arrow.Duration(b)
+			val, ok := overflow.Mul64(int64(result), secondsPerDay)
+			if !ok {
+				*e = errOverflow
+			}
+			return arrow.Duration(val)
+		}))
+	}
+	panic("invalid op for subtractDate32")
+}
+
+type decOps[T decimal128.Num | decimal256.Num] struct {
+	Add  func(T, T) T
+	Sub  func(T, T) T
+	Div  func(T, T) T
+	Mul  func(T, T) T
+	Abs  func(T) T
+	Neg  func(T) T
+	Sign func(T) int
+}
+
+var dec128Ops = decOps[decimal128.Num]{
+	Add: func(a, b decimal128.Num) decimal128.Num { return a.Add(b) },
+	Sub: func(a, b decimal128.Num) decimal128.Num { return a.Sub(b) },
+	Mul: func(a, b decimal128.Num) decimal128.Num { return a.Mul(b) },
+	Div: func(a, b decimal128.Num) decimal128.Num {
+		a, _ = a.Div(b)
+		return a
+	},
+	Abs:  func(a decimal128.Num) decimal128.Num { return a.Abs() },
+	Neg:  func(a decimal128.Num) decimal128.Num { return a.Negate() },
+	Sign: func(a decimal128.Num) int { return a.Sign() },
+}
+
+var dec256Ops = decOps[decimal256.Num]{
+	Add: func(a, b decimal256.Num) decimal256.Num { return a.Add(b) },
+	Sub: func(a, b decimal256.Num) decimal256.Num { return a.Sub(b) },
+	Mul: func(a, b decimal256.Num) decimal256.Num { return a.Mul(b) },
+	Div: func(a, b decimal256.Num) decimal256.Num {
+		a, _ = a.Div(b)
+		return a
+	},
+	Abs:  func(a decimal256.Num) decimal256.Num { return a.Abs() },
+	Neg:  func(a decimal256.Num) decimal256.Num { return a.Negate() },
+	Sign: func(a decimal256.Num) int { return a.Sign() },
+}
+
+func getArithmeticOpDecimalImpl[T decimal128.Num | decimal256.Num](op ArithmeticOp, fns decOps[T]) exec.ArrayKernelExec {
+	if op >= OpAddChecked {
+		op -= OpAddChecked // decimal128/256 checked is the same as unchecked
+	}
+
+	switch op {
+	case OpAdd:
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, arg0, arg1 T, _ *error) T {
+			return fns.Add(arg0, arg1)
+		})
+	case OpSub:
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, arg0, arg1 T, _ *error) T {
+			return fns.Sub(arg0, arg1)
+		})
+	case OpMul:
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, arg0, arg1 T, _ *error) T {
+			return fns.Mul(arg0, arg1)
+		})
+	case OpDiv:
+		var z T
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, arg0, arg1 T, e *error) (out T) {
+			if arg1 == z {
+				*e = errDivByZero
+				return
+			}
+			return fns.Div(arg0, arg1)
+		})
+	case OpAbsoluteValue:
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg T, _ *error) T {
+			return fns.Abs(arg)
+		})
+	case OpNegate:
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg T, _ *error) T {
+			return fns.Neg(arg)
+		})
+	case OpSign:
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg T, _ *error) int64 {
+			return int64(fns.Sign(arg))
+		})
+	}
+	debug.Assert(false, "unimplemented arithemtic op")
+	return nil
+}
+
+func getArithmeticDecimal[T decimal128.Num | decimal256.Num](op ArithmeticOp) exec.ArrayKernelExec {
+	var def T
+	switch any(def).(type) {
+	case decimal128.Num:
+		return getArithmeticOpDecimalImpl(op, dec128Ops)
+	case decimal256.Num:
+		return getArithmeticOpDecimalImpl(op, dec256Ops)
+	}
+	panic("should never get here")
+}
+
+func ArithmeticExecSameType(ty arrow.Type, op ArithmeticOp) exec.ArrayKernelExec {
+	switch ty {
+	case arrow.INT8:
+		return getArithmeticOpIntegral[int8, int8](op)
+	case arrow.UINT8:
+		return getArithmeticOpIntegral[uint8, uint8](op)
+	case arrow.INT16:
+		return getArithmeticOpIntegral[int16, int16](op)
+	case arrow.UINT16:
+		return getArithmeticOpIntegral[uint16, uint16](op)
+	case arrow.INT32, arrow.TIME32:
+		return getArithmeticOpIntegral[int32, int32](op)
+	case arrow.UINT32:
+		return getArithmeticOpIntegral[uint32, uint32](op)
+	case arrow.INT64, arrow.TIME64, arrow.DATE64, arrow.TIMESTAMP, arrow.DURATION:
+		return getArithmeticOpIntegral[int64, int64](op)
+	case arrow.UINT64:
+		return getArithmeticOpIntegral[uint64, uint64](op)
+	case arrow.FLOAT32:
+		return getArithmeticOpFloating[float32, float32](op)
+	case arrow.FLOAT64:
+		return getArithmeticOpFloating[float64, float64](op)
+	}
+	debug.Assert(false, "invalid arithmetic type")
+	return nil
+}
+
+func arithmeticExec[InT exec.IntTypes | exec.UintTypes](oty arrow.Type, op ArithmeticOp) exec.ArrayKernelExec {
+	switch oty {
+	case arrow.INT8:
+		return getArithmeticOpIntegral[InT, int8](op)
+	case arrow.UINT8:
+		return getArithmeticOpIntegral[InT, uint8](op)
+	case arrow.INT16:
+		return getArithmeticOpIntegral[InT, int16](op)
+	case arrow.UINT16:
+		return getArithmeticOpIntegral[InT, uint16](op)
+	case arrow.INT32, arrow.TIME32:
+		return getArithmeticOpIntegral[InT, int32](op)
+	case arrow.UINT32:
+		return getArithmeticOpIntegral[InT, uint32](op)
+	case arrow.INT64, arrow.TIME64, arrow.DATE64, arrow.TIMESTAMP, arrow.DURATION:
+		return getArithmeticOpIntegral[InT, int64](op)
+	case arrow.UINT64:
+		return getArithmeticOpIntegral[InT, uint64](op)
+	}
+	debug.Assert(false, "arithmetic integral to floating not implemented")
+	return nil
+}
+
+func ArithmeticExec(ity, oty arrow.Type, op ArithmeticOp) exec.ArrayKernelExec {
+	if ity == oty {
+		return ArithmeticExecSameType(ity, op)
+	}
+
+	switch ity {
+	case arrow.INT8:
+		return arithmeticExec[int8](oty, op)
+	case arrow.UINT8:
+		return arithmeticExec[uint8](oty, op)
+	case arrow.INT16:
+		return arithmeticExec[int16](oty, op)
+	case arrow.UINT16:
+		return arithmeticExec[uint16](oty, op)
+	case arrow.INT32, arrow.TIME32:
+		return arithmeticExec[int32](oty, op)
+	case arrow.UINT32:
+		return arithmeticExec[uint32](oty, op)
+	case arrow.INT64, arrow.TIME64, arrow.DATE64, arrow.TIMESTAMP, arrow.DURATION:
+		return arithmeticExec[int64](oty, op)
+	case arrow.UINT64:
+		return arithmeticExec[uint64](oty, op)
+	case arrow.FLOAT32:
+		if oty == arrow.FLOAT32 {
+			return getArithmeticOpFloating[float32, float32](op)
+		}
+		return getArithmeticOpFloating[float32, float64](op)
+	case arrow.FLOAT64:
+		if oty == arrow.FLOAT32 {
+			return getArithmeticOpFloating[float64, float32](op)
+		}
+		return getArithmeticOpFloating[float64, float64](op)
+	}
+	return nil
+}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go b/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go
new file mode 100644
index 00000000000..05d647823ba
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go
@@ -0,0 +1,151 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && !noasm
+
+package kernels
+
+import (
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"golang.org/x/exp/constraints"
+	"golang.org/x/sys/cpu"
+)
+
+func getAvx2ArithmeticBinaryNumeric[T exec.NumericTypes](op ArithmeticOp) binaryOps[T, T, T] {
+	typ := exec.GetType[T]()
+	return binaryOps[T, T, T]{
+		arrArr: func(_ *exec.KernelCtx, Arg0, Arg1, Out []T) error {
+			arithmeticAvx2(typ, op, exec.GetBytes(Arg0), exec.GetBytes(Arg1), exec.GetBytes(Out), len(Arg0))
+			return nil
+		},
+		arrScalar: func(_ *exec.KernelCtx, Arg0 []T, Arg1 T, Out []T) error {
+			arithmeticArrScalarAvx2(typ, op, exec.GetBytes(Arg0), unsafe.Pointer(&Arg1), exec.GetBytes(Out), len(Arg0))
+			return nil
+		},
+		scalarArr: func(_ *exec.KernelCtx, Arg0 T, Arg1, Out []T) error {
+			arithmeticScalarArrAvx2(typ, op, unsafe.Pointer(&Arg0), exec.GetBytes(Arg1), exec.GetBytes(Out), len(Arg1))
+			return nil
+		},
+	}
+}
+
+func getSSE4ArithmeticBinaryNumeric[T exec.NumericTypes](op ArithmeticOp) binaryOps[T, T, T] {
+	typ := exec.GetType[T]()
+	return binaryOps[T, T, T]{
+		arrArr: func(_ *exec.KernelCtx, Arg0, Arg1, Out []T) error {
+			arithmeticSSE4(typ, op, exec.GetBytes(Arg0), exec.GetBytes(Arg1), exec.GetBytes(Out), len(Arg0))
+			return nil
+		},
+		arrScalar: func(_ *exec.KernelCtx, Arg0 []T, Arg1 T, Out []T) error {
+			arithmeticArrScalarSSE4(typ, op, exec.GetBytes(Arg0), unsafe.Pointer(&Arg1), exec.GetBytes(Out), len(Arg0))
+			return nil
+		},
+		scalarArr: func(_ *exec.KernelCtx, Arg0 T, Arg1, Out []T) error {
+			arithmeticScalarArrSSE4(typ, op, unsafe.Pointer(&Arg0), exec.GetBytes(Arg1), exec.GetBytes(Out), len(Arg1))
+			return nil
+		},
+	}
+}
+
+func getArithmeticOpIntegral[InT, OutT exec.UintTypes | exec.IntTypes](op ArithmeticOp) exec.ArrayKernelExec {
+	if cpu.X86.HasAVX2 {
+		switch op {
+		case OpAdd, OpSub, OpMul:
+			return ScalarBinary(getAvx2ArithmeticBinaryNumeric[InT](op))
+		case OpAbsoluteValue, OpNegate:
+			typ := exec.GetType[InT]()
+			return ScalarUnary(func(_ *exec.KernelCtx, arg, out []InT) error {
+				arithmeticUnaryAvx2(typ, op, exec.GetBytes(arg), exec.GetBytes(out), len(arg))
+				return nil
+			})
+		case OpSign:
+			inType, outType := exec.GetType[InT](), exec.GetType[OutT]()
+			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+				arithmeticUnaryDiffTypesAvx2(inType, outType, op, exec.GetBytes(arg), exec.GetBytes(out), len(arg))
+				return nil
+			})
+		}
+	} else if cpu.X86.HasSSE42 {
+		switch op {
+		case OpAdd, OpSub, OpMul:
+			return ScalarBinary(getSSE4ArithmeticBinaryNumeric[InT](op))
+		case OpAbsoluteValue, OpNegate:
+			typ := exec.GetType[InT]()
+			return ScalarUnary(func(ctx *exec.KernelCtx, arg, out []InT) error {
+				arithmeticUnarySSE4(typ, op, exec.GetBytes(arg), exec.GetBytes(out), len(arg))
+				return nil
+			})
+		case OpSign:
+			inType, outType := exec.GetType[InT](), exec.GetType[OutT]()
+			return ScalarUnary(func(_ *exec.KernelCtx, arg []InT, out []OutT) error {
+				arithmeticUnaryDiffTypesSSE4(inType, outType, op, exec.GetBytes(arg), exec.GetBytes(out), len(arg))
+				return nil
+			})
+		}
+	}
+
+	// no SIMD for POWER or SQRT functions
+	// integral checked funcs need to use NotNull versions
+	return getGoArithmeticOpIntegral[InT, OutT](op)
+}
+
+func getArithmeticOpFloating[InT, OutT constraints.Float](op ArithmeticOp) exec.ArrayKernelExec {
+	if cpu.X86.HasAVX2 {
+		switch op {
+		case OpAdd, OpSub, OpAddChecked, OpSubChecked, OpMul, OpMulChecked:
+			if exec.GetType[InT]() != exec.GetType[OutT]() {
+				debug.Assert(false, "not implemented")
+				return nil
+			}
+			return ScalarBinary(getAvx2ArithmeticBinaryNumeric[InT](op))
+		case OpAbsoluteValue, OpAbsoluteValueChecked, OpNegate, OpNegateChecked, OpSign:
+			if exec.GetType[InT]() != exec.GetType[OutT]() {
+				debug.Assert(false, "not implemented")
+				return nil
+			}
+			typ := exec.GetType[InT]()
+			return ScalarUnary(func(_ *exec.KernelCtx, arg, out []InT) error {
+				arithmeticUnaryAvx2(typ, op, exec.GetBytes(arg), exec.GetBytes(out), len(arg))
+				return nil
+			})
+		}
+	} else if cpu.X86.HasSSE42 {
+		switch op {
+		case OpAdd, OpSub, OpAddChecked, OpSubChecked, OpMul, OpMulChecked:
+			if exec.GetType[InT]() != exec.GetType[OutT]() {
+				debug.Assert(false, "not implemented")
+				return nil
+			}
+			return ScalarBinary(getSSE4ArithmeticBinaryNumeric[InT](op))
+		case OpAbsoluteValue, OpAbsoluteValueChecked, OpNegate, OpNegateChecked, OpSign:
+			if exec.GetType[InT]() != exec.GetType[OutT]() {
+				debug.Assert(false, "not implemented")
+				return nil
+			}
+			typ := exec.GetType[InT]()
+			return ScalarUnary(func(_ *exec.KernelCtx, arg, out []InT) error {
+				arithmeticUnarySSE4(typ, op, exec.GetBytes(arg), exec.GetBytes(out), len(arg))
+				return nil
+			})
+		}
+	}
+
+	// no SIMD for POWER or SQRT functions
+	return getGoArithmeticOpFloating[InT, OutT](op)
+}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go
new file mode 100644
index 00000000000..5ef39aa499a
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go
@@ -0,0 +1,60 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && !noasm
+
+package kernels
+
+import (
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+)
+
+//go:noescape
+func _arithmetic_unary_same_types_avx2(typ int, op int8, input, output unsafe.Pointer, len int)
+
+func arithmeticUnaryAvx2(typ arrow.Type, op ArithmeticOp, input, out []byte, len int) {
+	_arithmetic_unary_same_types_avx2(int(typ), int8(op), unsafe.Pointer(&input[0]), unsafe.Pointer(&out[0]), len)
+}
+
+//go:noescape
+func _arithmetic_binary_avx2(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
+
+func arithmeticAvx2(typ arrow.Type, op ArithmeticOp, left, right, out []byte, len int) {
+	_arithmetic_binary_avx2(int(typ), int8(op), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
+}
+
+//go:noescape
+func _arithmetic_arr_scalar_avx2(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
+
+func arithmeticArrScalarAvx2(typ arrow.Type, op ArithmeticOp, left []byte, right unsafe.Pointer, out []byte, len int) {
+	_arithmetic_arr_scalar_avx2(int(typ), int8(op), unsafe.Pointer(&left[0]), right, unsafe.Pointer(&out[0]), len)
+}
+
+//go:noescape
+func _arithmetic_scalar_arr_avx2(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
+
+func arithmeticScalarArrAvx2(typ arrow.Type, op ArithmeticOp, left unsafe.Pointer, right, out []byte, len int) {
+	_arithmetic_scalar_arr_avx2(int(typ), int8(op), left, unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
+}
+
+//go:noescape
+func _arithmetic_unary_diff_type_avx2(itype, otype int, op int8, input, output unsafe.Pointer, len int)
+
+func arithmeticUnaryDiffTypesAvx2(ityp, otyp arrow.Type, op ArithmeticOp, input, output []byte, len int) {
+	_arithmetic_unary_diff_type_avx2(int(ityp), int(otyp), int8(op), unsafe.Pointer(&input[0]), unsafe.Pointer(&output[0]), len)
+}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
new file mode 100644
index 00000000000..420b64d59b2
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
@@ -0,0 +1,35529 @@
+//+build !noasm !appengine
+// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
+
+DATA LCDATA1<>+0x000(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA1<>+0x008(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA1<>+0x010(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA1<>+0x018(SB)/8, $0x00ff00ff00ff00ff
+GLOBL LCDATA1<>(SB), 8, $32
+
+TEXT ·_arithmetic_binary_avx2(SB), $0-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+	LEAQ LCDATA1<>(SB), BP
+
+	LONG $0x14fe8040         // cmp    sil, 20
+	JG   LBB0_11
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB0_21
+	LONG $0x01fe8040         // cmp    sil, 1
+	JE   LBB0_287
+	LONG $0x02fe8040         // cmp    sil, 2
+	JNE  LBB0_825
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_559
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_6
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_602
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_614
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_626
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_631:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_633
+
+LBB0_632:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	LONG $0xb23caf0f         // imul    edi, dword [rdx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_632
+
+LBB0_633:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_634:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_634
+	JMP  LBB0_825
+
+LBB0_11:
+	LONG $0x15fe8040         // cmp    sil, 21
+	JE   LBB0_154
+	LONG $0x16fe8040         // cmp    sil, 22
+	JE   LBB0_420
+	LONG $0x17fe8040         // cmp    sil, 23
+	JNE  LBB0_825
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_695
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_16
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_738
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_750
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_762
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_767:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_769
+
+LBB0_768:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	LONG $0xb23caf0f         // imul    edi, dword [rdx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_768
+
+LBB0_769:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_770:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_770
+	JMP  LBB0_825
+
+LBB0_21:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_34
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_23
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_67
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_79
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_91
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_96
+
+LBB0_287:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_300
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_289
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_333
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_345
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_357
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_362:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_364
+
+LBB0_363:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_363
+
+LBB0_364:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_365:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_365
+	JMP  LBB0_825
+
+LBB0_154:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_167
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_156
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_200
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_212
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_224
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_229
+
+LBB0_420:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_433
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_422
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_466
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_478
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_490
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_495:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_497
+
+LBB0_496:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_496
+
+LBB0_497:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_498:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_498
+	JMP  LBB0_825
+
+LBB0_559:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_560
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_656
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_668
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_680
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_685:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_687
+
+LBB0_686:
+	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0459fbc5; BYTE $0xf2   // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_686
+
+LBB0_687:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_825
+
+LBB0_688:
+	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0459fbc5; BYTE $0xf2               // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x4459fbc5; WORD $0x08f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x4459fbc5; WORD $0x10f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x4459fbc5; WORD $0x18f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_688
+	JMP  LBB0_825
+
+LBB0_695:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_696
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_792
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_804
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_816
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_821:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_823
+
+LBB0_822:
+	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0459fbc5; BYTE $0xf2   // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_822
+
+LBB0_823:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_825
+
+LBB0_824:
+	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0459fbc5; BYTE $0xf2               // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x4459fbc5; WORD $0x08f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x4459fbc5; WORD $0x10f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x4459fbc5; WORD $0x18f2             // vmulsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_824
+	JMP  LBB0_825
+
+LBB0_34:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_35
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_121
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_133
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_145
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_150
+
+LBB0_300:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_301
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_387
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_399
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_411
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_416:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_418
+
+LBB0_417:
+	LONG $0x0410fbc5; BYTE $0xf2   // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045cfbc5; BYTE $0xf1   // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_417
+
+LBB0_418:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_825
+
+LBB0_419:
+	LONG $0x0410fbc5; BYTE $0xf2               // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045cfbc5; BYTE $0xf1               // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x4410fbc5; WORD $0x08f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x445cfbc5; WORD $0x08f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x4410fbc5; WORD $0x10f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x445cfbc5; WORD $0x10f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x4410fbc5; WORD $0x18f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x445cfbc5; WORD $0x18f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_419
+	JMP  LBB0_825
+
+LBB0_167:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_168
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_254
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_266
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_278
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_283
+
+LBB0_433:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_434
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_520
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_532
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_544
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_549:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_551
+
+LBB0_550:
+	LONG $0x0410fbc5; BYTE $0xf2   // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045cfbc5; BYTE $0xf1   // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_550
+
+LBB0_551:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_825
+
+LBB0_552:
+	LONG $0x0410fbc5; BYTE $0xf2               // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045cfbc5; BYTE $0xf1               // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x4410fbc5; WORD $0x08f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x445cfbc5; WORD $0x08f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x4410fbc5; WORD $0x10f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x445cfbc5; WORD $0x10f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x4410fbc5; WORD $0x18f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x445cfbc5; WORD $0x18f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_552
+	JMP  LBB0_825
+
+LBB0_6:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_571
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_588
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_598
+
+LBB0_16:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_707
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_724
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_734
+
+LBB0_23:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB0_46
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_58
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_63
+
+LBB0_289:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB0_312
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_324
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_329
+
+LBB0_156:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB0_179
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_191
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_196
+
+LBB0_422:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB0_445
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_457
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_462
+
+LBB0_560:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_635
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_647
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_652
+
+LBB0_696:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_771
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_783
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_788
+
+LBB0_35:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_100
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_112
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_117
+
+LBB0_301:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_366
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_378
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_383
+
+LBB0_168:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_233
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_245
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_250
+
+LBB0_434:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_499
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_825
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_511
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_516
+
+LBB0_602:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_605
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_610:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_612
+
+LBB0_611:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x3caf0f66; BYTE $0x72 // imul    di, word [rdx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_611
+
+LBB0_612:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_613:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_613
+	JMP  LBB0_825
+
+LBB0_614:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_617
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_622:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_624
+
+LBB0_623:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x3caf0f66; BYTE $0x72 // imul    di, word [rdx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_623
+
+LBB0_624:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_625:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_625
+	JMP  LBB0_825
+
+LBB0_738:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_741
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_746:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_748
+
+LBB0_747:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x3caf0f66; BYTE $0x72 // imul    di, word [rdx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_747
+
+LBB0_748:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_749:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_749
+	JMP  LBB0_825
+
+LBB0_750:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_753
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_758:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_760
+
+LBB0_759:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x3caf0f66; BYTE $0x72 // imul    di, word [rdx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_759
+
+LBB0_760:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_761:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_761
+	JMP  LBB0_825
+
+LBB0_67:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_70
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_75
+
+LBB0_79:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_82
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_87
+
+LBB0_333:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_336
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_341:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_343
+
+LBB0_342:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_342
+
+LBB0_343:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_344:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_344
+	JMP  LBB0_825
+
+LBB0_345:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_348
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_353:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_355
+
+LBB0_354:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_354
+
+LBB0_355:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_356:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_356
+	JMP  LBB0_825
+
+LBB0_200:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_203
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_208
+
+LBB0_212:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_215
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_220
+
+LBB0_466:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_469
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_474:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_476
+
+LBB0_475:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_475
+
+LBB0_476:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_477:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_477
+	JMP  LBB0_825
+
+LBB0_478:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_481
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_486:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_488
+
+LBB0_487:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_487
+
+LBB0_488:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_489:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_489
+	JMP  LBB0_825
+
+LBB0_656:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_659
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_664:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_666
+
+LBB0_665:
+	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0x3caf0f48; BYTE $0xf2 // imul    rdi, qword [rdx + 8*rsi]
+	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_665
+
+LBB0_666:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_667:
+	LONG $0xf1048b48               // mov    rax, qword [rcx + 8*rsi]
+	LONG $0x04af0f48; BYTE $0xf2   // imul    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949               // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0x44af0f48; WORD $0x08f2 // imul    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08   // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0x44af0f48; WORD $0x10f2 // imul    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10   // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0x44af0f48; WORD $0x18f2 // imul    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18   // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_667
+	JMP  LBB0_825
+
+LBB0_668:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_671
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_676:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_678
+
+LBB0_677:
+	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0459fac5; BYTE $0xb2   // vmulss    xmm0, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_677
+
+LBB0_678:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_825
+
+LBB0_679:
+	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0459fac5; BYTE $0xb2               // vmulss    xmm0, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x4459fac5; WORD $0x04b2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x4459fac5; WORD $0x08b2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x4459fac5; WORD $0x0cb2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_679
+	JMP  LBB0_825
+
+LBB0_792:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_795
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_800:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_802
+
+LBB0_801:
+	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0x3caf0f48; BYTE $0xf2 // imul    rdi, qword [rdx + 8*rsi]
+	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_801
+
+LBB0_802:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_803:
+	LONG $0xf1048b48               // mov    rax, qword [rcx + 8*rsi]
+	LONG $0x04af0f48; BYTE $0xf2   // imul    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949               // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0x44af0f48; WORD $0x08f2 // imul    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08   // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0x44af0f48; WORD $0x10f2 // imul    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10   // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0x44af0f48; WORD $0x18f2 // imul    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18   // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_803
+	JMP  LBB0_825
+
+LBB0_804:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_807
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_812:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_814
+
+LBB0_813:
+	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0459fac5; BYTE $0xb2   // vmulss    xmm0, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_813
+
+LBB0_814:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_825
+
+LBB0_815:
+	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0459fac5; BYTE $0xb2               // vmulss    xmm0, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x4459fac5; WORD $0x04b2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x4459fac5; WORD $0x08b2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x4459fac5; WORD $0x0cb2             // vmulss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_815
+	JMP  LBB0_825
+
+LBB0_121:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_124
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_129
+
+LBB0_133:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_136
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_141
+
+LBB0_387:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_390
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_395:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_397
+
+LBB0_396:
+	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
+	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_396
+
+LBB0_397:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_398:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_398
+	JMP  LBB0_825
+
+LBB0_399:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_402
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_407:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_409
+
+LBB0_408:
+	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_408
+
+LBB0_409:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_825
+
+LBB0_410:
+	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_410
+	JMP  LBB0_825
+
+LBB0_254:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_257
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_262
+
+LBB0_266:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_269
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_274
+
+LBB0_520:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_523
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_528:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_530
+
+LBB0_529:
+	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
+	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_529
+
+LBB0_530:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_531:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_531
+	JMP  LBB0_825
+
+LBB0_532:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_535
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_540:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_542
+
+LBB0_541:
+	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_541
+
+LBB0_542:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_825
+
+LBB0_543:
+	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_543
+	JMP  LBB0_825
+
+LBB0_571:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_574
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_584
+
+LBB0_707:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_710
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_720
+
+LBB0_46:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_49
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_54
+
+LBB0_312:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_315
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_320
+
+LBB0_179:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_182
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_187
+
+LBB0_445:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_448
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_453
+
+LBB0_635:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_638
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_643
+
+LBB0_771:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_774
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_779
+
+LBB0_100:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_103
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_108
+
+LBB0_366:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_369
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_374
+
+LBB0_233:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_236
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_241
+
+LBB0_499:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_825
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_502
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_507
+
+LBB0_91:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_96
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_96
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_94:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_94
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_96:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_98
+
+LBB0_97:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_97
+
+LBB0_98:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_99:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_99
+	JMP  LBB0_825
+
+LBB0_224:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_229
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_229
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_227:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_227
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_229:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_231
+
+LBB0_230:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_230
+
+LBB0_231:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_232:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_232
+	JMP  LBB0_825
+
+LBB0_145:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_150
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_150
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_148:
+	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x0458fdc5; BYTE $0xfa               // vaddpd    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c58f5c5; WORD $0x20fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5458edc5; WORD $0x40fa             // vaddpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c58e5c5; WORD $0x60fa             // vaddpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_148
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_150:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_152
+
+LBB0_151:
+	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_151
+
+LBB0_152:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_825
+
+LBB0_153:
+	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_153
+	JMP  LBB0_825
+
+LBB0_278:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_283
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_283
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_281:
+	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x0458fdc5; BYTE $0xfa               // vaddpd    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c58f5c5; WORD $0x20fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5458edc5; WORD $0x40fa             // vaddpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c58e5c5; WORD $0x60fa             // vaddpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_281
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_283:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_285
+
+LBB0_284:
+	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_284
+
+LBB0_285:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_825
+
+LBB0_286:
+	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_286
+	JMP  LBB0_825
+
+LBB0_588:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd6970f40         // seta    sil
+	WORD $0xff31             // xor    edi, edi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_598
+	WORD $0x2040; BYTE $0xf0 // and    al, sil
+	JNE  LBB0_598
+	WORD $0x8944; BYTE $0xd7 // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0 // and    edi, -32
+	LONG $0xe0778d48         // lea    rsi, [rdi - 32]
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	LONG $0x05e8c148         // shr    rax, 5
+	LONG $0x01c08348         // add    rax, 1
+	WORD $0x8941; BYTE $0xc1 // mov    r9d, eax
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x60fe8348         // cmp    rsi, 96
+	JAE  LBB0_592
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_594
+
+LBB0_724:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd6970f40         // seta    sil
+	WORD $0xff31             // xor    edi, edi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_734
+	WORD $0x2040; BYTE $0xf0 // and    al, sil
+	JNE  LBB0_734
+	WORD $0x8944; BYTE $0xd7 // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0 // and    edi, -32
+	LONG $0xe0778d48         // lea    rsi, [rdi - 32]
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	LONG $0x05e8c148         // shr    rax, 5
+	LONG $0x01c08348         // add    rax, 1
+	WORD $0x8941; BYTE $0xc1 // mov    r9d, eax
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x60fe8348         // cmp    rsi, 96
+	JAE  LBB0_728
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_730
+
+LBB0_58:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_63
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_63
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_61:
+	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
+	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
+	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
+	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
+	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
+	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_61
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_63:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_65
+
+LBB0_64:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_64
+
+LBB0_65:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_66:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_66
+	JMP  LBB0_825
+
+LBB0_324:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_329
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_329
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_327:
+	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
+	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
+	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
+	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
+	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
+	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_327
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_329:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_331
+
+LBB0_330:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_330
+
+LBB0_331:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_332:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_332
+	JMP  LBB0_825
+
+LBB0_191:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_196
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_196
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_194:
+	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
+	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
+	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
+	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
+	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
+	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_194
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_196:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_198
+
+LBB0_197:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_197
+
+LBB0_198:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_199:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_199
+	JMP  LBB0_825
+
+LBB0_457:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_462
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_462
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_460:
+	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
+	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
+	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
+	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
+	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
+	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_460
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_462:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_464
+
+LBB0_463:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_463
+
+LBB0_464:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_465:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_465
+	JMP  LBB0_825
+
+LBB0_647:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_652
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_652
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_650:
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x446ffec5; WORD $0x60fa             // vmovdqu    ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x246ffec5; BYTE $0xf9               // vmovdqu    ymm4, yword [rcx + 8*rdi]
+	LONG $0x6c6ffec5; WORD $0x20f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 32]
+	LONG $0x746ffec5; WORD $0x40f9             // vmovdqu    ymm6, yword [rcx + 8*rdi + 64]
+	LONG $0x7c6ffec5; WORD $0x60f9             // vmovdqu    ymm7, yword [rcx + 8*rdi + 96]
+	LONG $0xd473bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm4, 32
+	LONG $0xc1f43dc5                           // vpmuludq    ymm8, ymm8, ymm1
+	LONG $0xd173b5c5; BYTE $0x20               // vpsrlq    ymm9, ymm1, 32
+	LONG $0xccf435c5                           // vpmuludq    ymm9, ymm9, ymm4
+	LONG $0xd43541c4; BYTE $0xc0               // vpaddq    ymm8, ymm9, ymm8
+	LONG $0x733dc1c4; WORD $0x20f0             // vpsllq    ymm8, ymm8, 32
+	LONG $0xc9f4ddc5                           // vpmuludq    ymm1, ymm4, ymm1
+	LONG $0xc9d4bdc5                           // vpaddq    ymm1, ymm8, ymm1
+	LONG $0xd573ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm5, 32
+	LONG $0xe2f4ddc5                           // vpmuludq    ymm4, ymm4, ymm2
+	LONG $0xd273bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm2, 32
+	LONG $0xc5f43dc5                           // vpmuludq    ymm8, ymm8, ymm5
+	LONG $0xe4d4bdc5                           // vpaddq    ymm4, ymm8, ymm4
+	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
+	LONG $0xd2f4d5c5                           // vpmuludq    ymm2, ymm5, ymm2
+	LONG $0xd4d4edc5                           // vpaddq    ymm2, ymm2, ymm4
+	LONG $0xd673ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm6, 32
+	LONG $0xe3f4ddc5                           // vpmuludq    ymm4, ymm4, ymm3
+	LONG $0xd373d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm3, 32
+	LONG $0xedf4cdc5                           // vpmuludq    ymm5, ymm6, ymm5
+	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
+	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
+	LONG $0xdbf4cdc5                           // vpmuludq    ymm3, ymm6, ymm3
+	LONG $0xdcd4e5c5                           // vpaddq    ymm3, ymm3, ymm4
+	LONG $0xd773ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm7, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xd073d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm0, 32
+	LONG $0xedf4c5c5                           // vpmuludq    ymm5, ymm7, ymm5
+	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
+	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
+	LONG $0xc0f4c5c5                           // vpmuludq    ymm0, ymm7, ymm0
+	LONG $0xc4d4fdc5                           // vpaddq    ymm0, ymm0, ymm4
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_650
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_652:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_654
+
+LBB0_653:
+	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0x3caf0f48; BYTE $0xf2 // imul    rdi, qword [rdx + 8*rsi]
+	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_653
+
+LBB0_654:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_655:
+	LONG $0xf1048b48               // mov    rax, qword [rcx + 8*rsi]
+	LONG $0x04af0f48; BYTE $0xf2   // imul    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949               // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0x44af0f48; WORD $0x08f2 // imul    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08   // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0x44af0f48; WORD $0x10f2 // imul    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10   // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0x44af0f48; WORD $0x18f2 // imul    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18   // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_655
+	JMP  LBB0_825
+
+LBB0_783:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_788
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_788
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_786:
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x446ffec5; WORD $0x60fa             // vmovdqu    ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x246ffec5; BYTE $0xf9               // vmovdqu    ymm4, yword [rcx + 8*rdi]
+	LONG $0x6c6ffec5; WORD $0x20f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 32]
+	LONG $0x746ffec5; WORD $0x40f9             // vmovdqu    ymm6, yword [rcx + 8*rdi + 64]
+	LONG $0x7c6ffec5; WORD $0x60f9             // vmovdqu    ymm7, yword [rcx + 8*rdi + 96]
+	LONG $0xd473bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm4, 32
+	LONG $0xc1f43dc5                           // vpmuludq    ymm8, ymm8, ymm1
+	LONG $0xd173b5c5; BYTE $0x20               // vpsrlq    ymm9, ymm1, 32
+	LONG $0xccf435c5                           // vpmuludq    ymm9, ymm9, ymm4
+	LONG $0xd43541c4; BYTE $0xc0               // vpaddq    ymm8, ymm9, ymm8
+	LONG $0x733dc1c4; WORD $0x20f0             // vpsllq    ymm8, ymm8, 32
+	LONG $0xc9f4ddc5                           // vpmuludq    ymm1, ymm4, ymm1
+	LONG $0xc9d4bdc5                           // vpaddq    ymm1, ymm8, ymm1
+	LONG $0xd573ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm5, 32
+	LONG $0xe2f4ddc5                           // vpmuludq    ymm4, ymm4, ymm2
+	LONG $0xd273bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm2, 32
+	LONG $0xc5f43dc5                           // vpmuludq    ymm8, ymm8, ymm5
+	LONG $0xe4d4bdc5                           // vpaddq    ymm4, ymm8, ymm4
+	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
+	LONG $0xd2f4d5c5                           // vpmuludq    ymm2, ymm5, ymm2
+	LONG $0xd4d4edc5                           // vpaddq    ymm2, ymm2, ymm4
+	LONG $0xd673ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm6, 32
+	LONG $0xe3f4ddc5                           // vpmuludq    ymm4, ymm4, ymm3
+	LONG $0xd373d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm3, 32
+	LONG $0xedf4cdc5                           // vpmuludq    ymm5, ymm6, ymm5
+	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
+	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
+	LONG $0xdbf4cdc5                           // vpmuludq    ymm3, ymm6, ymm3
+	LONG $0xdcd4e5c5                           // vpaddq    ymm3, ymm3, ymm4
+	LONG $0xd773ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm7, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xd073d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm0, 32
+	LONG $0xedf4c5c5                           // vpmuludq    ymm5, ymm7, ymm5
+	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
+	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
+	LONG $0xc0f4c5c5                           // vpmuludq    ymm0, ymm7, ymm0
+	LONG $0xc4d4fdc5                           // vpaddq    ymm0, ymm0, ymm4
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_786
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_788:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_790
+
+LBB0_789:
+	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0x3caf0f48; BYTE $0xf2 // imul    rdi, qword [rdx + 8*rsi]
+	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_789
+
+LBB0_790:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_791:
+	LONG $0xf1048b48               // mov    rax, qword [rcx + 8*rsi]
+	LONG $0x04af0f48; BYTE $0xf2   // imul    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949               // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0x44af0f48; WORD $0x08f2 // imul    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08   // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0x44af0f48; WORD $0x10f2 // imul    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10   // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0x44af0f48; WORD $0x18f2 // imul    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18   // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_791
+	JMP  LBB0_825
+
+LBB0_112:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_117
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_117
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_115:
+	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_115
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_117:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_119
+
+LBB0_118:
+	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_118
+
+LBB0_119:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_120:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_120
+	JMP  LBB0_825
+
+LBB0_378:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_383
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_383
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_381:
+	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_381
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_383:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_385
+
+LBB0_384:
+	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
+	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_384
+
+LBB0_385:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_386:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_386
+	JMP  LBB0_825
+
+LBB0_245:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_250
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_250
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_248:
+	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_248
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_250:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_252
+
+LBB0_251:
+	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_251
+
+LBB0_252:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_253:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_253
+	JMP  LBB0_825
+
+LBB0_511:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_516
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_516
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_514:
+	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_514
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_516:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_518
+
+LBB0_517:
+	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
+	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_517
+
+LBB0_518:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_519:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_519
+	JMP  LBB0_825
+
+LBB0_70:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_75
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_75
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_73:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_73
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_75:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_77
+
+LBB0_76:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_76
+
+LBB0_77:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_78:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_78
+	JMP  LBB0_825
+
+LBB0_82:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_87
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_87
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_85:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_85
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_87:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_89
+
+LBB0_88:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_88
+
+LBB0_89:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_90:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_90
+	JMP  LBB0_825
+
+LBB0_203:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_208
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_208
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_206:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_206
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_208:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_210
+
+LBB0_209:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_209
+
+LBB0_210:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_211:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_211
+	JMP  LBB0_825
+
+LBB0_215:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_220
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_220
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_218:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_218
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_220:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_222
+
+LBB0_221:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_221
+
+LBB0_222:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_223:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_223
+	JMP  LBB0_825
+
+LBB0_124:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_129
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_129
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_127:
+	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_127
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_129:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_131
+
+LBB0_130:
+	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_130
+
+LBB0_131:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_132:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_132
+	JMP  LBB0_825
+
+LBB0_136:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_141
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_141
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_139:
+	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x0458fcc5; BYTE $0xba               // vaddps    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c58f4c5; WORD $0x20ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5458ecc5; WORD $0x40ba             // vaddps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c58e4c5; WORD $0x60ba             // vaddps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_139
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_141:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_143
+
+LBB0_142:
+	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0458fac5; BYTE $0xb2   // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_142
+
+LBB0_143:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_825
+
+LBB0_144:
+	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0458fac5; BYTE $0xb2               // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x4458fac5; WORD $0x04b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x4458fac5; WORD $0x08b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x4458fac5; WORD $0x0cb2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_144
+	JMP  LBB0_825
+
+LBB0_257:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_262
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_262
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_260:
+	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_260
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_262:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_264
+
+LBB0_263:
+	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_263
+
+LBB0_264:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_265:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_265
+	JMP  LBB0_825
+
+LBB0_269:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_274
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_274
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_272:
+	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x0458fcc5; BYTE $0xba               // vaddps    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c58f4c5; WORD $0x20ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5458ecc5; WORD $0x40ba             // vaddps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c58e4c5; WORD $0x60ba             // vaddps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_272
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_274:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_276
+
+LBB0_275:
+	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0458fac5; BYTE $0xb2   // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_275
+
+LBB0_276:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_825
+
+LBB0_277:
+	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0458fac5; BYTE $0xb2               // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x4458fac5; WORD $0x04b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x4458fac5; WORD $0x08b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x4458fac5; WORD $0x0cb2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_277
+	JMP  LBB0_825
+
+LBB0_574:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd6970f40         // seta    sil
+	WORD $0xff31             // xor    edi, edi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_584
+	WORD $0x2040; BYTE $0xf0 // and    al, sil
+	JNE  LBB0_584
+	WORD $0x8944; BYTE $0xd7 // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0 // and    edi, -32
+	LONG $0xe0778d48         // lea    rsi, [rdi - 32]
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	LONG $0x05e8c148         // shr    rax, 5
+	LONG $0x01c08348         // add    rax, 1
+	WORD $0x8941; BYTE $0xc1 // mov    r9d, eax
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x60fe8348         // cmp    rsi, 96
+	JAE  LBB0_578
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_580
+
+LBB0_710:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd6970f40         // seta    sil
+	WORD $0xff31             // xor    edi, edi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_720
+	WORD $0x2040; BYTE $0xf0 // and    al, sil
+	JNE  LBB0_720
+	WORD $0x8944; BYTE $0xd7 // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0 // and    edi, -32
+	LONG $0xe0778d48         // lea    rsi, [rdi - 32]
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	LONG $0x05e8c148         // shr    rax, 5
+	LONG $0x01c08348         // add    rax, 1
+	WORD $0x8941; BYTE $0xc1 // mov    r9d, eax
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x60fe8348         // cmp    rsi, 96
+	JAE  LBB0_714
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_716
+
+LBB0_49:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_54
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_54
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_52:
+	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
+	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
+	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
+	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
+	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
+	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_52
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_54:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_56
+
+LBB0_55:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_55
+
+LBB0_56:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_57:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_57
+	JMP  LBB0_825
+
+LBB0_315:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_320
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_320
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_318:
+	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
+	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
+	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
+	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
+	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
+	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_318
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_320:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_322
+
+LBB0_321:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_321
+
+LBB0_322:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_323:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_323
+	JMP  LBB0_825
+
+LBB0_182:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_187
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_187
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_185:
+	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
+	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
+	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
+	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
+	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
+	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_185
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_187:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_189
+
+LBB0_188:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_188
+
+LBB0_189:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_190:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_190
+	JMP  LBB0_825
+
+LBB0_448:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_453
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_453
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_451:
+	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
+	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
+	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
+	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
+	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
+	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_451
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_453:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_455
+
+LBB0_454:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_454
+
+LBB0_455:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_456:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_456
+	JMP  LBB0_825
+
+LBB0_638:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_643
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_643
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_641:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x407de2c4; WORD $0xba04             // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4075e2c4; WORD $0xba4c; BYTE $0x20 // vpmulld    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x406de2c4; WORD $0xba54; BYTE $0x40 // vpmulld    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x4065e2c4; WORD $0xba5c; BYTE $0x60 // vpmulld    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_641
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_643:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_645
+
+LBB0_644:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	LONG $0xb23caf0f         // imul    edi, dword [rdx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_644
+
+LBB0_645:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_646:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_646
+	JMP  LBB0_825
+
+LBB0_774:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_779
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_779
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_777:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x407de2c4; WORD $0xba04             // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4075e2c4; WORD $0xba4c; BYTE $0x20 // vpmulld    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x406de2c4; WORD $0xba54; BYTE $0x40 // vpmulld    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x4065e2c4; WORD $0xba5c; BYTE $0x60 // vpmulld    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_777
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_779:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_781
+
+LBB0_780:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	LONG $0xb23caf0f         // imul    edi, dword [rdx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_780
+
+LBB0_781:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_782:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_782
+	JMP  LBB0_825
+
+LBB0_103:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_108
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_108
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_106:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_106
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_108:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_110
+
+LBB0_109:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_109
+
+LBB0_110:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_111:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_111
+	JMP  LBB0_825
+
+LBB0_369:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_374
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_374
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_372:
+	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_372
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_374:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_376
+
+LBB0_375:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_375
+
+LBB0_376:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_377:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_377
+	JMP  LBB0_825
+
+LBB0_236:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_241
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_241
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_239:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_239
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_241:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_243
+
+LBB0_242:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_242
+
+LBB0_243:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_244:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_244
+	JMP  LBB0_825
+
+LBB0_502:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_507
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_507
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_505:
+	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_505
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_825
+
+LBB0_507:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_509
+
+LBB0_508:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_508
+
+LBB0_509:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_510:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_510
+	JMP  LBB0_825
+
+LBB0_626:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_631
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_631
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_629:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x407de2c4; WORD $0xba04             // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4075e2c4; WORD $0xba4c; BYTE $0x20 // vpmulld    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x406de2c4; WORD $0xba54; BYTE $0x40 // vpmulld    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x4065e2c4; WORD $0xba5c; BYTE $0x60 // vpmulld    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_629
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_631
+	JMP  LBB0_825
+
+LBB0_762:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_767
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_767
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_765:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x407de2c4; WORD $0xba04             // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4075e2c4; WORD $0xba4c; BYTE $0x20 // vpmulld    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x406de2c4; WORD $0xba54; BYTE $0x40 // vpmulld    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x4065e2c4; WORD $0xba5c; BYTE $0x60 // vpmulld    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_765
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_767
+	JMP  LBB0_825
+
+LBB0_357:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_362
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_362
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_360:
+	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_360
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_362
+	JMP  LBB0_825
+
+LBB0_490:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_495
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_495
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_493:
+	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_493
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_495
+	JMP  LBB0_825
+
+LBB0_680:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_685
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_685
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_683:
+	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x0459fdc5; BYTE $0xfa               // vmulpd    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c59f5c5; WORD $0x20fa             // vmulpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5459edc5; WORD $0x40fa             // vmulpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c59e5c5; WORD $0x60fa             // vmulpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_683
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_685
+	JMP  LBB0_825
+
+LBB0_816:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_821
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_821
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_819:
+	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x0459fdc5; BYTE $0xfa               // vmulpd    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c59f5c5; WORD $0x20fa             // vmulpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5459edc5; WORD $0x40fa             // vmulpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c59e5c5; WORD $0x60fa             // vmulpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_819
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_821
+	JMP  LBB0_825
+
+LBB0_411:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_416
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_416
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_414:
+	LONG $0x0410fdc5; BYTE $0xfa               // vmovupd    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20fa             // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40fa             // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60fa             // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x045cfdc5; BYTE $0xf9               // vsubpd    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c5cf5c5; WORD $0x20f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x545cedc5; WORD $0x40f9             // vsubpd    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c5ce5c5; WORD $0x60f9             // vsubpd    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_414
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_416
+	JMP  LBB0_825
+
+LBB0_544:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_549
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_549
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_547:
+	LONG $0x0410fdc5; BYTE $0xfa               // vmovupd    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20fa             // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40fa             // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60fa             // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x045cfdc5; BYTE $0xf9               // vsubpd    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c5cf5c5; WORD $0x20f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x545cedc5; WORD $0x40f9             // vsubpd    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c5ce5c5; WORD $0x60f9             // vsubpd    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_547
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_549
+	JMP  LBB0_825
+
+LBB0_605:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_610
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_610
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_608:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04d5fdc5; BYTE $0x7a               // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cd5f5c5; WORD $0x207a             // vpmullw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54d5edc5; WORD $0x407a             // vpmullw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cd5e5c5; WORD $0x607a             // vpmullw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_608
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_610
+	JMP  LBB0_825
+
+LBB0_617:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_622
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_622
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_620:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04d5fdc5; BYTE $0x7a               // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cd5f5c5; WORD $0x207a             // vpmullw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54d5edc5; WORD $0x407a             // vpmullw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cd5e5c5; WORD $0x607a             // vpmullw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_620
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_622
+	JMP  LBB0_825
+
+LBB0_741:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_746
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_746
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_744:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04d5fdc5; BYTE $0x7a               // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cd5f5c5; WORD $0x207a             // vpmullw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54d5edc5; WORD $0x407a             // vpmullw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cd5e5c5; WORD $0x607a             // vpmullw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_744
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_746
+	JMP  LBB0_825
+
+LBB0_753:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_758
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_758
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_756:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04d5fdc5; BYTE $0x7a               // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cd5f5c5; WORD $0x207a             // vpmullw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54d5edc5; WORD $0x407a             // vpmullw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cd5e5c5; WORD $0x607a             // vpmullw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_756
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_758
+	JMP  LBB0_825
+
+LBB0_336:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_341
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_341
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_339:
+	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
+	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_339
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_341
+	JMP  LBB0_825
+
+LBB0_348:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_353
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_353
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_351:
+	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
+	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_351
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_353
+	JMP  LBB0_825
+
+LBB0_469:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_474
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_474
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_472:
+	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
+	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_472
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_474
+	JMP  LBB0_825
+
+LBB0_481:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_486
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_486
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_484:
+	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
+	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_484
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_486
+	JMP  LBB0_825
+
+LBB0_659:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_664
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_664
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_662:
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x446ffec5; WORD $0x60fa             // vmovdqu    ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x246ffec5; BYTE $0xf9               // vmovdqu    ymm4, yword [rcx + 8*rdi]
+	LONG $0x6c6ffec5; WORD $0x20f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 32]
+	LONG $0x746ffec5; WORD $0x40f9             // vmovdqu    ymm6, yword [rcx + 8*rdi + 64]
+	LONG $0x7c6ffec5; WORD $0x60f9             // vmovdqu    ymm7, yword [rcx + 8*rdi + 96]
+	LONG $0xd473bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm4, 32
+	LONG $0xc1f43dc5                           // vpmuludq    ymm8, ymm8, ymm1
+	LONG $0xd173b5c5; BYTE $0x20               // vpsrlq    ymm9, ymm1, 32
+	LONG $0xccf435c5                           // vpmuludq    ymm9, ymm9, ymm4
+	LONG $0xd43541c4; BYTE $0xc0               // vpaddq    ymm8, ymm9, ymm8
+	LONG $0x733dc1c4; WORD $0x20f0             // vpsllq    ymm8, ymm8, 32
+	LONG $0xc9f4ddc5                           // vpmuludq    ymm1, ymm4, ymm1
+	LONG $0xc9d4bdc5                           // vpaddq    ymm1, ymm8, ymm1
+	LONG $0xd573ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm5, 32
+	LONG $0xe2f4ddc5                           // vpmuludq    ymm4, ymm4, ymm2
+	LONG $0xd273bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm2, 32
+	LONG $0xc5f43dc5                           // vpmuludq    ymm8, ymm8, ymm5
+	LONG $0xe4d4bdc5                           // vpaddq    ymm4, ymm8, ymm4
+	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
+	LONG $0xd2f4d5c5                           // vpmuludq    ymm2, ymm5, ymm2
+	LONG $0xd4d4edc5                           // vpaddq    ymm2, ymm2, ymm4
+	LONG $0xd673ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm6, 32
+	LONG $0xe3f4ddc5                           // vpmuludq    ymm4, ymm4, ymm3
+	LONG $0xd373d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm3, 32
+	LONG $0xedf4cdc5                           // vpmuludq    ymm5, ymm6, ymm5
+	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
+	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
+	LONG $0xdbf4cdc5                           // vpmuludq    ymm3, ymm6, ymm3
+	LONG $0xdcd4e5c5                           // vpaddq    ymm3, ymm3, ymm4
+	LONG $0xd773ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm7, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xd073d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm0, 32
+	LONG $0xedf4c5c5                           // vpmuludq    ymm5, ymm7, ymm5
+	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
+	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
+	LONG $0xc0f4c5c5                           // vpmuludq    ymm0, ymm7, ymm0
+	LONG $0xc4d4fdc5                           // vpaddq    ymm0, ymm0, ymm4
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_662
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_664
+	JMP  LBB0_825
+
+LBB0_671:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_676
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_676
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_674:
+	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x0459fcc5; BYTE $0xba               // vmulps    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c59f4c5; WORD $0x20ba             // vmulps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5459ecc5; WORD $0x40ba             // vmulps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c59e4c5; WORD $0x60ba             // vmulps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_674
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_676
+	JMP  LBB0_825
+
+LBB0_795:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_800
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_800
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_798:
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x446ffec5; WORD $0x60fa             // vmovdqu    ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x246ffec5; BYTE $0xf9               // vmovdqu    ymm4, yword [rcx + 8*rdi]
+	LONG $0x6c6ffec5; WORD $0x20f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 32]
+	LONG $0x746ffec5; WORD $0x40f9             // vmovdqu    ymm6, yword [rcx + 8*rdi + 64]
+	LONG $0x7c6ffec5; WORD $0x60f9             // vmovdqu    ymm7, yword [rcx + 8*rdi + 96]
+	LONG $0xd473bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm4, 32
+	LONG $0xc1f43dc5                           // vpmuludq    ymm8, ymm8, ymm1
+	LONG $0xd173b5c5; BYTE $0x20               // vpsrlq    ymm9, ymm1, 32
+	LONG $0xccf435c5                           // vpmuludq    ymm9, ymm9, ymm4
+	LONG $0xd43541c4; BYTE $0xc0               // vpaddq    ymm8, ymm9, ymm8
+	LONG $0x733dc1c4; WORD $0x20f0             // vpsllq    ymm8, ymm8, 32
+	LONG $0xc9f4ddc5                           // vpmuludq    ymm1, ymm4, ymm1
+	LONG $0xc9d4bdc5                           // vpaddq    ymm1, ymm8, ymm1
+	LONG $0xd573ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm5, 32
+	LONG $0xe2f4ddc5                           // vpmuludq    ymm4, ymm4, ymm2
+	LONG $0xd273bdc5; BYTE $0x20               // vpsrlq    ymm8, ymm2, 32
+	LONG $0xc5f43dc5                           // vpmuludq    ymm8, ymm8, ymm5
+	LONG $0xe4d4bdc5                           // vpaddq    ymm4, ymm8, ymm4
+	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
+	LONG $0xd2f4d5c5                           // vpmuludq    ymm2, ymm5, ymm2
+	LONG $0xd4d4edc5                           // vpaddq    ymm2, ymm2, ymm4
+	LONG $0xd673ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm6, 32
+	LONG $0xe3f4ddc5                           // vpmuludq    ymm4, ymm4, ymm3
+	LONG $0xd373d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm3, 32
+	LONG $0xedf4cdc5                           // vpmuludq    ymm5, ymm6, ymm5
+	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
+	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
+	LONG $0xdbf4cdc5                           // vpmuludq    ymm3, ymm6, ymm3
+	LONG $0xdcd4e5c5                           // vpaddq    ymm3, ymm3, ymm4
+	LONG $0xd773ddc5; BYTE $0x20               // vpsrlq    ymm4, ymm7, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xd073d5c5; BYTE $0x20               // vpsrlq    ymm5, ymm0, 32
+	LONG $0xedf4c5c5                           // vpmuludq    ymm5, ymm7, ymm5
+	LONG $0xe4d4d5c5                           // vpaddq    ymm4, ymm5, ymm4
+	LONG $0xf473ddc5; BYTE $0x20               // vpsllq    ymm4, ymm4, 32
+	LONG $0xc0f4c5c5                           // vpmuludq    ymm0, ymm7, ymm0
+	LONG $0xc4d4fdc5                           // vpaddq    ymm0, ymm0, ymm4
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_798
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_800
+	JMP  LBB0_825
+
+LBB0_807:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_812
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_812
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_810:
+	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x0459fcc5; BYTE $0xba               // vmulps    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c59f4c5; WORD $0x20ba             // vmulps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5459ecc5; WORD $0x40ba             // vmulps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c59e4c5; WORD $0x60ba             // vmulps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_810
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_812
+	JMP  LBB0_825
+
+LBB0_390:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_395
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_395
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_393:
+	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_393
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_395
+	JMP  LBB0_825
+
+LBB0_402:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_407
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_407
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_405:
+	LONG $0x0410fcc5; BYTE $0xba               // vmovups    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20ba             // vmovups    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40ba             // vmovups    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60ba             // vmovups    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x045cfcc5; BYTE $0xb9               // vsubps    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c5cf4c5; WORD $0x20b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x545cecc5; WORD $0x40b9             // vsubps    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c5ce4c5; WORD $0x60b9             // vsubps    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_405
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_407
+	JMP  LBB0_825
+
+LBB0_523:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_528
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_528
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_526:
+	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_526
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_528
+	JMP  LBB0_825
+
+LBB0_535:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_540
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_540
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_538:
+	LONG $0x0410fcc5; BYTE $0xba               // vmovups    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20ba             // vmovups    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40ba             // vmovups    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60ba             // vmovups    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x045cfcc5; BYTE $0xb9               // vsubps    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c5cf4c5; WORD $0x20b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x545cecc5; WORD $0x40b9             // vsubps    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c5ce4c5; WORD $0x60b9             // vsubps    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_538
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JNE  LBB0_540
+	JMP  LBB0_825
+
+LBB0_592:
+	LONG $0xfce08348             // and    rax, -4
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_593:
+	LONG $0x0c6ffec5; BYTE $0x32               // vmovdqu    ymm1, yword [rdx + rsi]
+	LONG $0x146ffec5; BYTE $0x31               // vmovdqu    ymm2, yword [rcx + rsi]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x300c             // vmovdqu    yword [r8 + rsi], ymm1
+	LONG $0x4c6ffec5; WORD $0x2032             // vmovdqu    ymm1, yword [rdx + rsi + 32]
+	LONG $0x546ffec5; WORD $0x2031             // vmovdqu    ymm2, yword [rcx + rsi + 32]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm1
+	LONG $0x4c6ffec5; WORD $0x4032             // vmovdqu    ymm1, yword [rdx + rsi + 64]
+	LONG $0x546ffec5; WORD $0x4031             // vmovdqu    ymm2, yword [rcx + rsi + 64]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm1
+	LONG $0x4c6ffec5; WORD $0x6032             // vmovdqu    ymm1, yword [rdx + rsi + 96]
+	LONG $0x546ffec5; WORD $0x6031             // vmovdqu    ymm2, yword [rcx + rsi + 96]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm1
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x04c08348                           // add    rax, 4
+	JNE  LBB0_593
+
+LBB0_594:
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	JE   LBB0_597
+	WORD $0xf749; BYTE $0xd9     // neg    r9
+	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_596:
+	LONG $0x0c6ffec5; BYTE $0x32   // vmovdqu    ymm1, yword [rdx + rsi]
+	LONG $0x146ffec5; BYTE $0x31   // vmovdqu    ymm2, yword [rcx + rsi]
+	LONG $0xd968f5c5               // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5               // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5               // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5               // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5               // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5               // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5               // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5               // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0xff49; BYTE $0xc1       // inc    r9
+	JNE  LBB0_596
+
+LBB0_597:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB0_825
+
+LBB0_598:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB0_600
+
+LBB0_599:
+	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
+	LONG $0x38048841         // mov    byte [r8 + rdi], al
+	LONG $0x01c78348         // add    rdi, 1
+	LONG $0xffc68348         // add    rsi, -1
+	JNE  LBB0_599
+
+LBB0_600:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_601:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB0_601
+	JMP  LBB0_825
+
+LBB0_728:
+	LONG $0xfce08348             // and    rax, -4
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_729:
+	LONG $0x0c6ffec5; BYTE $0x32               // vmovdqu    ymm1, yword [rdx + rsi]
+	LONG $0x146ffec5; BYTE $0x31               // vmovdqu    ymm2, yword [rcx + rsi]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x300c             // vmovdqu    yword [r8 + rsi], ymm1
+	LONG $0x4c6ffec5; WORD $0x2032             // vmovdqu    ymm1, yword [rdx + rsi + 32]
+	LONG $0x546ffec5; WORD $0x2031             // vmovdqu    ymm2, yword [rcx + rsi + 32]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm1
+	LONG $0x4c6ffec5; WORD $0x4032             // vmovdqu    ymm1, yword [rdx + rsi + 64]
+	LONG $0x546ffec5; WORD $0x4031             // vmovdqu    ymm2, yword [rcx + rsi + 64]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm1
+	LONG $0x4c6ffec5; WORD $0x6032             // vmovdqu    ymm1, yword [rdx + rsi + 96]
+	LONG $0x546ffec5; WORD $0x6031             // vmovdqu    ymm2, yword [rcx + rsi + 96]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm1
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x04c08348                           // add    rax, 4
+	JNE  LBB0_729
+
+LBB0_730:
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	JE   LBB0_733
+	WORD $0xf749; BYTE $0xd9     // neg    r9
+	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_732:
+	LONG $0x0c6ffec5; BYTE $0x32   // vmovdqu    ymm1, yword [rdx + rsi]
+	LONG $0x146ffec5; BYTE $0x31   // vmovdqu    ymm2, yword [rcx + rsi]
+	LONG $0xd968f5c5               // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5               // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5               // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5               // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5               // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5               // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5               // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5               // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0xff49; BYTE $0xc1       // inc    r9
+	JNE  LBB0_732
+
+LBB0_733:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB0_825
+
+LBB0_734:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB0_736
+
+LBB0_735:
+	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
+	LONG $0x38048841         // mov    byte [r8 + rdi], al
+	LONG $0x01c78348         // add    rdi, 1
+	LONG $0xffc68348         // add    rsi, -1
+	JNE  LBB0_735
+
+LBB0_736:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_737:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB0_737
+	JMP  LBB0_825
+
+LBB0_578:
+	LONG $0xfce08348             // and    rax, -4
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_579:
+	LONG $0x0c6ffec5; BYTE $0x32               // vmovdqu    ymm1, yword [rdx + rsi]
+	LONG $0x146ffec5; BYTE $0x31               // vmovdqu    ymm2, yword [rcx + rsi]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x300c             // vmovdqu    yword [r8 + rsi], ymm1
+	LONG $0x4c6ffec5; WORD $0x2032             // vmovdqu    ymm1, yword [rdx + rsi + 32]
+	LONG $0x546ffec5; WORD $0x2031             // vmovdqu    ymm2, yword [rcx + rsi + 32]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm1
+	LONG $0x4c6ffec5; WORD $0x4032             // vmovdqu    ymm1, yword [rdx + rsi + 64]
+	LONG $0x546ffec5; WORD $0x4031             // vmovdqu    ymm2, yword [rcx + rsi + 64]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm1
+	LONG $0x4c6ffec5; WORD $0x6032             // vmovdqu    ymm1, yword [rdx + rsi + 96]
+	LONG $0x546ffec5; WORD $0x6031             // vmovdqu    ymm2, yword [rcx + rsi + 96]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm1
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x04c08348                           // add    rax, 4
+	JNE  LBB0_579
+
+LBB0_580:
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	JE   LBB0_583
+	WORD $0xf749; BYTE $0xd9     // neg    r9
+	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_582:
+	LONG $0x0c6ffec5; BYTE $0x32   // vmovdqu    ymm1, yword [rdx + rsi]
+	LONG $0x146ffec5; BYTE $0x31   // vmovdqu    ymm2, yword [rcx + rsi]
+	LONG $0xd968f5c5               // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5               // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5               // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5               // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5               // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5               // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5               // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5               // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0xff49; BYTE $0xc1       // inc    r9
+	JNE  LBB0_582
+
+LBB0_583:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB0_825
+
+LBB0_584:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB0_586
+
+LBB0_585:
+	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
+	LONG $0x38048841         // mov    byte [r8 + rdi], al
+	LONG $0x01c78348         // add    rdi, 1
+	LONG $0xffc68348         // add    rsi, -1
+	JNE  LBB0_585
+
+LBB0_586:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_587:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB0_587
+	JMP  LBB0_825
+
+LBB0_714:
+	LONG $0xfce08348             // and    rax, -4
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_715:
+	LONG $0x0c6ffec5; BYTE $0x32               // vmovdqu    ymm1, yword [rdx + rsi]
+	LONG $0x146ffec5; BYTE $0x31               // vmovdqu    ymm2, yword [rcx + rsi]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x300c             // vmovdqu    yword [r8 + rsi], ymm1
+	LONG $0x4c6ffec5; WORD $0x2032             // vmovdqu    ymm1, yword [rdx + rsi + 32]
+	LONG $0x546ffec5; WORD $0x2031             // vmovdqu    ymm2, yword [rcx + rsi + 32]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm1
+	LONG $0x4c6ffec5; WORD $0x4032             // vmovdqu    ymm1, yword [rdx + rsi + 64]
+	LONG $0x546ffec5; WORD $0x4031             // vmovdqu    ymm2, yword [rcx + rsi + 64]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm1
+	LONG $0x4c6ffec5; WORD $0x6032             // vmovdqu    ymm1, yword [rdx + rsi + 96]
+	LONG $0x546ffec5; WORD $0x6031             // vmovdqu    ymm2, yword [rcx + rsi + 96]
+	LONG $0xd968f5c5                           // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5                           // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5                           // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5                           // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5                           // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5                           // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5                           // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5                           // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5                           // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x304c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm1
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x04c08348                           // add    rax, 4
+	JNE  LBB0_715
+
+LBB0_716:
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	JE   LBB0_719
+	WORD $0xf749; BYTE $0xd9     // neg    r9
+	LONG $0x456ffdc5; BYTE $0x00 // vmovdqa    ymm0, yword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_718:
+	LONG $0x0c6ffec5; BYTE $0x32   // vmovdqu    ymm1, yword [rdx + rsi]
+	LONG $0x146ffec5; BYTE $0x31   // vmovdqu    ymm2, yword [rcx + rsi]
+	LONG $0xd968f5c5               // vpunpckhbw    ymm3, ymm1, ymm1
+	LONG $0xe268edc5               // vpunpckhbw    ymm4, ymm2, ymm2
+	LONG $0xdbd5ddc5               // vpmullw    ymm3, ymm4, ymm3
+	LONG $0xd8dbe5c5               // vpand    ymm3, ymm3, ymm0
+	LONG $0xc960f5c5               // vpunpcklbw    ymm1, ymm1, ymm1
+	LONG $0xd260edc5               // vpunpcklbw    ymm2, ymm2, ymm2
+	LONG $0xc9d5edc5               // vpmullw    ymm1, ymm2, ymm1
+	LONG $0xc8dbf5c5               // vpand    ymm1, ymm1, ymm0
+	LONG $0xcb67f5c5               // vpackuswb    ymm1, ymm1, ymm3
+	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0xff49; BYTE $0xc1       // inc    r9
+	JNE  LBB0_718
+
+LBB0_719:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB0_825
+
+LBB0_720:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB0_722
+
+LBB0_721:
+	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
+	LONG $0x38048841         // mov    byte [r8 + rdi], al
+	LONG $0x01c78348         // add    rdi, 1
+	LONG $0xffc68348         // add    rsi, -1
+	JNE  LBB0_721
+
+LBB0_722:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_825
+
+LBB0_723:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB0_723
+
+LBB0_825:
+	VZEROUPPER
+	RET
+
+DATA LCDATA2<>+0x000(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA2<>+0x008(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA2<>+0x010(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA2<>+0x018(SB)/8, $0x00ff00ff00ff00ff
+GLOBL LCDATA2<>(SB), 8, $32
+
+TEXT ·_arithmetic_arr_scalar_avx2(SB), $0-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+	LEAQ LCDATA2<>(SB), BP
+
+	LONG $0x14fe8040         // cmp    sil, 20
+	JG   LBB1_12
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB1_23
+	LONG $0x01fe8040         // cmp    sil, 1
+	JE   LBB1_31
+	LONG $0x02fe8040         // cmp    sil, 2
+	JNE  LBB1_1109
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_55
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_97
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_157
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_160
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_11
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_445
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_445
+
+LBB1_11:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_665:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_667
+
+LBB1_666:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_666
+
+LBB1_667:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_668:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_668
+	JMP  LBB1_1109
+
+LBB1_12:
+	LONG $0x15fe8040         // cmp    sil, 21
+	JE   LBB1_39
+	LONG $0x16fe8040         // cmp    sil, 22
+	JE   LBB1_47
+	LONG $0x17fe8040         // cmp    sil, 23
+	JNE  LBB1_1109
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_62
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_102
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_163
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_166
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_22
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_448
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_448
+
+LBB1_22:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_673:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_675
+
+LBB1_674:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_674
+
+LBB1_675:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_676:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_676
+	JMP  LBB1_1109
+
+LBB1_23:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_69
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_107
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_169
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_172
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_30
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_451
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_451
+
+LBB1_30:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_681:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_683
+
+LBB1_682:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_682
+
+LBB1_683:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_684:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_684
+	JMP  LBB1_1109
+
+LBB1_31:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_76
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_112
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_175
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_178
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_38
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_454
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_454
+
+LBB1_38:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_689:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_691
+
+LBB1_690:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_690
+
+LBB1_691:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_692:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_692
+	JMP  LBB1_1109
+
+LBB1_39:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_83
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_117
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_181
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_184
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_46
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_457
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_457
+
+LBB1_46:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_697:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_699
+
+LBB1_698:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_698
+
+LBB1_699:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_700:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_700
+	JMP  LBB1_1109
+
+LBB1_47:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_90
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_122
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_187
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_190
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_54
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_460
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_460
+
+LBB1_54:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_705:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_707
+
+LBB1_706:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_706
+
+LBB1_707:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_708:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_708
+	JMP  LBB1_1109
+
+LBB1_55:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_127
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_193
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_196
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_61
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_463
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_463
+
+LBB1_61:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_713:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_715
+
+LBB1_714:
+	LONG $0x0c59fbc5; BYTE $0xca   // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_714
+
+LBB1_715:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1109
+
+LBB1_716:
+	LONG $0x0c59fbc5; BYTE $0xca               // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c59fbc5; WORD $0x08ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c59fbc5; WORD $0x10ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c59fbc5; WORD $0x18ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_716
+	JMP  LBB1_1109
+
+LBB1_62:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_132
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_199
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_202
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_68
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_466
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_466
+
+LBB1_68:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_721:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_723
+
+LBB1_722:
+	LONG $0x0c59fbc5; BYTE $0xca   // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_722
+
+LBB1_723:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1109
+
+LBB1_724:
+	LONG $0x0c59fbc5; BYTE $0xca               // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c59fbc5; WORD $0x08ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c59fbc5; WORD $0x10ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c59fbc5; WORD $0x18ca             // vmulsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_724
+	JMP  LBB1_1109
+
+LBB1_69:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_137
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_205
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_208
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_75
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_469
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_469
+
+LBB1_75:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_729:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_731
+
+LBB1_730:
+	LONG $0x0c58fbc5; BYTE $0xca   // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_730
+
+LBB1_731:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1109
+
+LBB1_732:
+	LONG $0x0c58fbc5; BYTE $0xca               // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c58fbc5; WORD $0x08ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c58fbc5; WORD $0x10ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c58fbc5; WORD $0x18ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_732
+	JMP  LBB1_1109
+
+LBB1_76:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_142
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_211
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_214
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_82
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_472
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_472
+
+LBB1_82:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_737:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_739
+
+LBB1_738:
+	LONG $0x0c10fbc5; BYTE $0xca   // vmovsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_738
+
+LBB1_739:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1109
+
+LBB1_740:
+	LONG $0x0c10fbc5; BYTE $0xca               // vmovsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c10fbc5; WORD $0x08ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c10fbc5; WORD $0x10ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c10fbc5; WORD $0x18ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_740
+	JMP  LBB1_1109
+
+LBB1_83:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_147
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_217
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_220
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_89
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_475
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_475
+
+LBB1_89:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_745:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_747
+
+LBB1_746:
+	LONG $0x0c58fbc5; BYTE $0xca   // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_746
+
+LBB1_747:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1109
+
+LBB1_748:
+	LONG $0x0c58fbc5; BYTE $0xca               // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c58fbc5; WORD $0x08ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c58fbc5; WORD $0x10ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c58fbc5; WORD $0x18ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_748
+	JMP  LBB1_1109
+
+LBB1_90:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_152
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_223
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_226
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_96
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_478
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_478
+
+LBB1_96:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_753:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_755
+
+LBB1_754:
+	LONG $0x0c10fbc5; BYTE $0xca   // vmovsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_754
+
+LBB1_755:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1109
+
+LBB1_756:
+	LONG $0x0c10fbc5; BYTE $0xca               // vmovsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c10fbc5; WORD $0x08ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c10fbc5; WORD $0x10ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c10fbc5; WORD $0x18ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_756
+	JMP  LBB1_1109
+
+LBB1_97:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_229
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x098a             // mov    cl, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_101
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_481
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_481
+
+LBB1_101:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_627:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB1_629
+
+LBB1_628:
+	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6     // mul    cl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB1_628
+
+LBB1_629:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_630:
+	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB1_630
+	JMP  LBB1_1109
+
+LBB1_102:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_232
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x098a             // mov    cl, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_106
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_483
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_483
+
+LBB1_106:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_637:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB1_639
+
+LBB1_638:
+	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6     // mul    cl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB1_638
+
+LBB1_639:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_640:
+	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB1_640
+	JMP  LBB1_1109
+
+LBB1_107:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB1_235
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_111
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_485
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_485
+
+LBB1_111:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_761:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_763
+
+LBB1_762:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_762
+
+LBB1_763:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_764:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_764
+	JMP  LBB1_1109
+
+LBB1_112:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB1_238
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_116
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_488
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_488
+
+LBB1_116:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_769:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_771
+
+LBB1_770:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_770
+
+LBB1_771:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_772:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_772
+	JMP  LBB1_1109
+
+LBB1_117:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB1_241
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_121
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_491
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_491
+
+LBB1_121:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_777:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_779
+
+LBB1_778:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_778
+
+LBB1_779:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_780:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_780
+	JMP  LBB1_1109
+
+LBB1_122:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB1_244
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_126
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_494
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_494
+
+LBB1_126:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_785:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_787
+
+LBB1_786:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_786
+
+LBB1_787:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_788:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_788
+	JMP  LBB1_1109
+
+LBB1_127:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_247
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_131
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_497
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_497
+
+LBB1_131:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_793:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_795
+
+LBB1_794:
+	LONG $0xf20c8b48 // mov    rcx, qword [rdx + 8*rsi]
+	LONG $0xc8af0f48 // imul    rcx, rax
+	LONG $0xf00c8949 // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_794
+
+LBB1_795:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_796:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_796
+	JMP  LBB1_1109
+
+LBB1_132:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_250
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_136
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_500
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_500
+
+LBB1_136:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_801:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_803
+
+LBB1_802:
+	LONG $0xf20c8b48 // mov    rcx, qword [rdx + 8*rsi]
+	LONG $0xc8af0f48 // imul    rcx, rax
+	LONG $0xf00c8949 // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_802
+
+LBB1_803:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_804:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_804
+	JMP  LBB1_1109
+
+LBB1_137:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_253
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_141
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_503
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_503
+
+LBB1_141:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_809:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_811
+
+LBB1_810:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_810
+
+LBB1_811:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_812:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_812
+	JMP  LBB1_1109
+
+LBB1_142:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_256
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_146
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_506
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_506
+
+LBB1_146:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_817:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_819
+
+LBB1_818:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_818
+
+LBB1_819:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_820:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_820
+	JMP  LBB1_1109
+
+LBB1_147:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_259
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_151
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_509
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_509
+
+LBB1_151:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_825:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_827
+
+LBB1_826:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_826
+
+LBB1_827:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_828:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_828
+	JMP  LBB1_1109
+
+LBB1_152:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_262
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_156
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_512
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_512
+
+LBB1_156:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_833:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_835
+
+LBB1_834:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_834
+
+LBB1_835:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_836:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_836
+	JMP  LBB1_1109
+
+LBB1_157:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_159
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_515
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_515
+
+LBB1_159:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_841:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_843
+
+LBB1_842:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0xf8af0f66             // imul    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_842
+
+LBB1_843:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_844:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_844
+	JMP  LBB1_1109
+
+LBB1_160:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_162
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_518
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_518
+
+LBB1_162:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_849:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_851
+
+LBB1_850:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0xf8af0f66             // imul    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_850
+
+LBB1_851:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_852:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_852
+	JMP  LBB1_1109
+
+LBB1_163:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_165
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_521
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_521
+
+LBB1_165:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_857:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_859
+
+LBB1_858:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0xf8af0f66             // imul    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_858
+
+LBB1_859:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_860:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_860
+	JMP  LBB1_1109
+
+LBB1_166:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_168
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_524
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_524
+
+LBB1_168:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_865:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_867
+
+LBB1_866:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0xf8af0f66             // imul    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_866
+
+LBB1_867:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_868:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_868
+	JMP  LBB1_1109
+
+LBB1_169:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_171
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_527
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_527
+
+LBB1_171:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_873:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_875
+
+LBB1_874:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_874
+
+LBB1_875:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_876:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_876
+	JMP  LBB1_1109
+
+LBB1_172:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_174
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_530
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_530
+
+LBB1_174:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_881:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_883
+
+LBB1_882:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_882
+
+LBB1_883:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_884:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_884
+	JMP  LBB1_1109
+
+LBB1_175:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_177
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_533
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_533
+
+LBB1_177:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_889:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_891
+
+LBB1_890:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0xc729                 // sub    edi, eax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_890
+
+LBB1_891:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_892:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_892
+	JMP  LBB1_1109
+
+LBB1_178:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_180
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_536
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_536
+
+LBB1_180:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_897:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_899
+
+LBB1_898:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0xc729                 // sub    edi, eax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_898
+
+LBB1_899:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_900:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_900
+	JMP  LBB1_1109
+
+LBB1_181:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_183
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_539
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_539
+
+LBB1_183:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_905:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_907
+
+LBB1_906:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_906
+
+LBB1_907:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_908:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_908
+	JMP  LBB1_1109
+
+LBB1_184:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_186
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_542
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_542
+
+LBB1_186:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_913:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_915
+
+LBB1_914:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_914
+
+LBB1_915:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_916:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_916
+	JMP  LBB1_1109
+
+LBB1_187:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_189
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_545
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_545
+
+LBB1_189:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_921:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_923
+
+LBB1_922:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0xc729                 // sub    edi, eax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_922
+
+LBB1_923:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_924:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_924
+	JMP  LBB1_1109
+
+LBB1_190:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_192
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_548
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_548
+
+LBB1_192:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_929:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_931
+
+LBB1_930:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0xc729                 // sub    edi, eax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_930
+
+LBB1_931:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_932:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_932
+	JMP  LBB1_1109
+
+LBB1_193:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_195
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_551
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_551
+
+LBB1_195:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_937:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_939
+
+LBB1_938:
+	LONG $0xf20c8b48 // mov    rcx, qword [rdx + 8*rsi]
+	LONG $0xc8af0f48 // imul    rcx, rax
+	LONG $0xf00c8949 // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_938
+
+LBB1_939:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_940:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_940
+	JMP  LBB1_1109
+
+LBB1_196:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_198
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_554
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_554
+
+LBB1_198:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_945:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_947
+
+LBB1_946:
+	LONG $0x0c59fac5; BYTE $0x8a   // vmulss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_946
+
+LBB1_947:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1109
+
+LBB1_948:
+	LONG $0x0c59fac5; BYTE $0x8a               // vmulss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c59fac5; WORD $0x048a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c59fac5; WORD $0x088a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c59fac5; WORD $0x0c8a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_948
+	JMP  LBB1_1109
+
+LBB1_199:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_201
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_557
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_557
+
+LBB1_201:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_953:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_955
+
+LBB1_954:
+	LONG $0xf20c8b48 // mov    rcx, qword [rdx + 8*rsi]
+	LONG $0xc8af0f48 // imul    rcx, rax
+	LONG $0xf00c8949 // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_954
+
+LBB1_955:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_956:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_956
+	JMP  LBB1_1109
+
+LBB1_202:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_204
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_560
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_560
+
+LBB1_204:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_961:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_963
+
+LBB1_962:
+	LONG $0x0c59fac5; BYTE $0x8a   // vmulss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_962
+
+LBB1_963:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1109
+
+LBB1_964:
+	LONG $0x0c59fac5; BYTE $0x8a               // vmulss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c59fac5; WORD $0x048a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c59fac5; WORD $0x088a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c59fac5; WORD $0x0c8a             // vmulss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_964
+	JMP  LBB1_1109
+
+LBB1_205:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_207
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_563
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_563
+
+LBB1_207:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_969:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_971
+
+LBB1_970:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_970
+
+LBB1_971:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_972:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_972
+	JMP  LBB1_1109
+
+LBB1_208:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_210
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_566
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_566
+
+LBB1_210:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_977:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_979
+
+LBB1_978:
+	LONG $0x0c58fac5; BYTE $0x8a   // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_978
+
+LBB1_979:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1109
+
+LBB1_980:
+	LONG $0x0c58fac5; BYTE $0x8a               // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c58fac5; WORD $0x048a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c58fac5; WORD $0x088a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c58fac5; WORD $0x0c8a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_980
+	JMP  LBB1_1109
+
+LBB1_211:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_213
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_569
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_569
+
+LBB1_213:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_985:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_987
+
+LBB1_986:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_986
+
+LBB1_987:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_988:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_988
+	JMP  LBB1_1109
+
+LBB1_214:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_216
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_572
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_572
+
+LBB1_216:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_993:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_995
+
+LBB1_994:
+	LONG $0x0c10fac5; BYTE $0x8a   // vmovss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_994
+
+LBB1_995:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1109
+
+LBB1_996:
+	LONG $0x0c10fac5; BYTE $0x8a               // vmovss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c10fac5; WORD $0x048a             // vmovss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c10fac5; WORD $0x088a             // vmovss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c10fac5; WORD $0x0c8a             // vmovss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_996
+	JMP  LBB1_1109
+
+LBB1_217:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_219
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_575
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_575
+
+LBB1_219:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1001:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1003
+
+LBB1_1002:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1002
+
+LBB1_1003:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_1004:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1004
+	JMP  LBB1_1109
+
+LBB1_220:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_222
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_578
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_578
+
+LBB1_222:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_1009:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1011
+
+LBB1_1010:
+	LONG $0x0c58fac5; BYTE $0x8a   // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_1010
+
+LBB1_1011:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1109
+
+LBB1_1012:
+	LONG $0x0c58fac5; BYTE $0x8a               // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c58fac5; WORD $0x048a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c58fac5; WORD $0x088a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c58fac5; WORD $0x0c8a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_1012
+	JMP  LBB1_1109
+
+LBB1_223:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_225
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_581
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_581
+
+LBB1_225:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1017:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1019
+
+LBB1_1018:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1018
+
+LBB1_1019:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_1020:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1020
+	JMP  LBB1_1109
+
+LBB1_226:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_228
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_584
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_584
+
+LBB1_228:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_1025:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1027
+
+LBB1_1026:
+	LONG $0x0c10fac5; BYTE $0x8a   // vmovss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_1026
+
+LBB1_1027:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1109
+
+LBB1_1028:
+	LONG $0x0c10fac5; BYTE $0x8a               // vmovss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c10fac5; WORD $0x048a             // vmovss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c10fac5; WORD $0x088a             // vmovss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c10fac5; WORD $0x0c8a             // vmovss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_1028
+	JMP  LBB1_1109
+
+LBB1_229:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x098a             // mov    cl, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_231
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_587
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_587
+
+LBB1_231:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_647:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB1_649
+
+LBB1_648:
+	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6     // mul    cl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB1_648
+
+LBB1_649:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_650:
+	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB1_650
+	JMP  LBB1_1109
+
+LBB1_232:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x098a             // mov    cl, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_234
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_589
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_589
+
+LBB1_234:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_657:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB1_659
+
+LBB1_658:
+	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6     // mul    cl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB1_658
+
+LBB1_659:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_660:
+	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB1_660
+	JMP  LBB1_1109
+
+LBB1_235:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_237
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_591
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_591
+
+LBB1_237:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1033:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1035
+
+LBB1_1034:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_1034
+
+LBB1_1035:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_1036:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1036
+	JMP  LBB1_1109
+
+LBB1_238:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_240
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_594
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_594
+
+LBB1_240:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1041:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1043
+
+LBB1_1042:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_1042
+
+LBB1_1043:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_1044:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1044
+	JMP  LBB1_1109
+
+LBB1_241:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_243
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_597
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_597
+
+LBB1_243:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1049:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1051
+
+LBB1_1050:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_1050
+
+LBB1_1051:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_1052:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1052
+	JMP  LBB1_1109
+
+LBB1_244:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_246
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_600
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_600
+
+LBB1_246:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1057:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1059
+
+LBB1_1058:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_1058
+
+LBB1_1059:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_1060:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1060
+	JMP  LBB1_1109
+
+LBB1_247:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_249
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_603
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_603
+
+LBB1_249:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1065:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1067
+
+LBB1_1066:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1066
+
+LBB1_1067:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_1068:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1068
+	JMP  LBB1_1109
+
+LBB1_250:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_252
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_606
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_606
+
+LBB1_252:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1073:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1075
+
+LBB1_1074:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1074
+
+LBB1_1075:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_1076:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1076
+	JMP  LBB1_1109
+
+LBB1_253:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_255
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_609
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_609
+
+LBB1_255:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1081:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1083
+
+LBB1_1082:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1082
+
+LBB1_1083:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_1084:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1084
+	JMP  LBB1_1109
+
+LBB1_256:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_258
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_612
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_612
+
+LBB1_258:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1089:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1091
+
+LBB1_1090:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1090
+
+LBB1_1091:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_1092:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1092
+	JMP  LBB1_1109
+
+LBB1_259:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_261
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_615
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_615
+
+LBB1_261:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1097:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1099
+
+LBB1_1098:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1098
+
+LBB1_1099:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_1100:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1100
+	JMP  LBB1_1109
+
+LBB1_262:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1109
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_264
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_618
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_618
+
+LBB1_264:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1105:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1107
+
+LBB1_1106:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1106
+
+LBB1_1107:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1109
+
+LBB1_1108:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1108
+	JMP  LBB1_1109
+
+LBB1_445:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_661
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_447:
+	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xba64; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x0080ba8c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x00a0ba94407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x00c0ba9c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x00e0baa4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_447
+	JMP  LBB1_662
+
+LBB1_448:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_669
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_450:
+	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xba64; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x0080ba8c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x00a0ba94407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x00c0ba9c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x00e0baa4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_450
+	JMP  LBB1_670
+
+LBB1_451:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_677
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_453:
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_453
+	JMP  LBB1_678
+
+LBB1_454:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_685
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_456:
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_456
+	JMP  LBB1_686
+
+LBB1_457:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_693
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_459:
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_459
+	JMP  LBB1_694
+
+LBB1_460:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_701
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_462:
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_462
+	JMP  LBB1_702
+
+LBB1_463:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_709
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_465:
+	LONG $0x1459f5c5; BYTE $0xfa               // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c59f5c5; WORD $0x20fa             // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6459f5c5; WORD $0x40fa             // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x6c59f5c5; WORD $0x60fa             // vmulpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080fa9459f5c5; BYTE $0x00       // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9c59f5c5; BYTE $0x00       // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0faa459f5c5; BYTE $0x00       // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faac59f5c5; BYTE $0x00       // vmulpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_465
+	JMP  LBB1_710
+
+LBB1_466:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_717
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_468:
+	LONG $0x1459f5c5; BYTE $0xfa               // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c59f5c5; WORD $0x20fa             // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6459f5c5; WORD $0x40fa             // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x6c59f5c5; WORD $0x60fa             // vmulpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080fa9459f5c5; BYTE $0x00       // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9c59f5c5; BYTE $0x00       // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0faa459f5c5; BYTE $0x00       // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faac59f5c5; BYTE $0x00       // vmulpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_468
+	JMP  LBB1_718
+
+LBB1_469:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_725
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_471:
+	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x6c58f5c5; WORD $0x60fa             // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080fa9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0faa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_471
+	JMP  LBB1_726
+
+LBB1_472:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_733
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+
+LBB1_474:
+	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
+	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
+	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
+	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
+	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
+	QUAD $0x000080f29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rsi + 128]
+	QUAD $0x0000a0f29c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + 8*rsi + 160]
+	QUAD $0x0000c0f2a410fdc5; BYTE $0x00       // vmovupd    ymm4, yword [rdx + 8*rsi + 192]
+	QUAD $0x0000e0f2ac10fdc5; BYTE $0x00       // vmovupd    ymm5, yword [rdx + 8*rsi + 224]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
+	QUAD $0x0080f094117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 128], ymm2
+	QUAD $0x00a0f09c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 160], ymm3
+	QUAD $0x00c0f0a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 192], ymm4
+	QUAD $0x00e0f0ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 224], ymm5
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_474
+	JMP  LBB1_734
+
+LBB1_475:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_741
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_477:
+	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x6c58f5c5; WORD $0x60fa             // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080fa9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0faa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_477
+	JMP  LBB1_742
+
+LBB1_478:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_749
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+
+LBB1_480:
+	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
+	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
+	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
+	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
+	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
+	QUAD $0x000080f29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rsi + 128]
+	QUAD $0x0000a0f29c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + 8*rsi + 160]
+	QUAD $0x0000c0f2a410fdc5; BYTE $0x00       // vmovupd    ymm4, yword [rdx + 8*rsi + 192]
+	QUAD $0x0000e0f2ac10fdc5; BYTE $0x00       // vmovupd    ymm5, yword [rdx + 8*rsi + 224]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
+	QUAD $0x0080f094117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 128], ymm2
+	QUAD $0x00a0f09c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 160], ymm3
+	QUAD $0x00c0f0a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 192], ymm4
+	QUAD $0x00e0f0ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 224], ymm5
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_480
+	JMP  LBB1_750
+
+LBB1_481:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x05e8c148             // shr    rax, 5
+	LONG $0x01c08348             // add    rax, 1
+	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
+	LONG $0x03e18341             // and    r9d, 3
+	LONG $0x60fe8348             // cmp    rsi, 96
+	JAE  LBB1_621
+	WORD $0xf631                 // xor    esi, esi
+	JMP  LBB1_623
+
+LBB1_483:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x05e8c148             // shr    rax, 5
+	LONG $0x01c08348             // add    rax, 1
+	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
+	LONG $0x03e18341             // and    r9d, 3
+	LONG $0x60fe8348             // cmp    rsi, 96
+	JAE  LBB1_631
+	WORD $0xf631                 // xor    esi, esi
+	JMP  LBB1_633
+
+LBB1_485:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_757
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_487:
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_487
+	JMP  LBB1_758
+
+LBB1_488:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_765
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_490:
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_490
+	JMP  LBB1_766
+
+LBB1_491:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_773
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_493:
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_493
+	JMP  LBB1_774
+
+LBB1_494:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_781
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_496:
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_496
+	JMP  LBB1_782
+
+LBB1_497:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_789
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_499:
+	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rdx + 8*rdi + 224]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_499
+	JMP  LBB1_790
+
+LBB1_500:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_797
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_502:
+	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rdx + 8*rdi + 224]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_502
+	JMP  LBB1_798
+
+LBB1_503:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_805
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_505:
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_505
+	JMP  LBB1_806
+
+LBB1_506:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_813
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_508:
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_508
+	JMP  LBB1_814
+
+LBB1_509:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_821
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_511:
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_511
+	JMP  LBB1_822
+
+LBB1_512:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_829
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_514:
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_514
+	JMP  LBB1_830
+
+LBB1_515:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_837
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_517:
+	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54d5fdc5; WORD $0x207a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cd5fdc5; WORD $0x407a             // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54d5fdc5; WORD $0x607a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_517
+	JMP  LBB1_838
+
+LBB1_518:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_845
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_520:
+	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54d5fdc5; WORD $0x207a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cd5fdc5; WORD $0x407a             // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54d5fdc5; WORD $0x607a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_520
+	JMP  LBB1_846
+
+LBB1_521:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_853
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_523:
+	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54d5fdc5; WORD $0x207a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cd5fdc5; WORD $0x407a             // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54d5fdc5; WORD $0x607a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_523
+	JMP  LBB1_854
+
+LBB1_524:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_861
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_526:
+	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54d5fdc5; WORD $0x207a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cd5fdc5; WORD $0x407a             // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54d5fdc5; WORD $0x607a             // vpmullw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_526
+	JMP  LBB1_862
+
+LBB1_527:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_869
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_529:
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_529
+	JMP  LBB1_870
+
+LBB1_530:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_877
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_532:
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_532
+	JMP  LBB1_878
+
+LBB1_533:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_885
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_535:
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
+	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_535
+	JMP  LBB1_886
+
+LBB1_536:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_893
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_538:
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
+	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_538
+	JMP  LBB1_894
+
+LBB1_539:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_901
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_541:
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_541
+	JMP  LBB1_902
+
+LBB1_542:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_909
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_544:
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_544
+	JMP  LBB1_910
+
+LBB1_545:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_917
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_547:
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
+	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_547
+	JMP  LBB1_918
+
+LBB1_548:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_925
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_550:
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
+	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_550
+	JMP  LBB1_926
+
+LBB1_551:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_933
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_553:
+	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rdx + 8*rdi + 224]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_553
+	JMP  LBB1_934
+
+LBB1_554:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_941
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_556:
+	LONG $0x1459f4c5; BYTE $0xba               // vmulps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c59f4c5; WORD $0x20ba             // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6459f4c5; WORD $0x40ba             // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x6c59f4c5; WORD $0x60ba             // vmulps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080ba9459f4c5; BYTE $0x00       // vmulps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba9c59f4c5; BYTE $0x00       // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0baa459f4c5; BYTE $0x00       // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baac59f4c5; BYTE $0x00       // vmulps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_556
+	JMP  LBB1_942
+
+LBB1_557:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_949
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_559:
+	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rdx + 8*rdi + 224]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_559
+	JMP  LBB1_950
+
+LBB1_560:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_957
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_562:
+	LONG $0x1459f4c5; BYTE $0xba               // vmulps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c59f4c5; WORD $0x20ba             // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6459f4c5; WORD $0x40ba             // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x6c59f4c5; WORD $0x60ba             // vmulps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080ba9459f4c5; BYTE $0x00       // vmulps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba9c59f4c5; BYTE $0x00       // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0baa459f4c5; BYTE $0x00       // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baac59f4c5; BYTE $0x00       // vmulps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_562
+	JMP  LBB1_958
+
+LBB1_563:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_965
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_565:
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_565
+	JMP  LBB1_966
+
+LBB1_566:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_973
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_568:
+	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x6c58f4c5; WORD $0x60ba             // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080ba9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0baa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_568
+	JMP  LBB1_974
+
+LBB1_569:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_981
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_571:
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_571
+	JMP  LBB1_982
+
+LBB1_572:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_989
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+
+LBB1_574:
+	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
+	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
+	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
+	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
+	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
+	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
+	QUAD $0x000080b29410fcc5; BYTE $0x00       // vmovups    ymm2, yword [rdx + 4*rsi + 128]
+	QUAD $0x0000a0b29c10fcc5; BYTE $0x00       // vmovups    ymm3, yword [rdx + 4*rsi + 160]
+	QUAD $0x0000c0b2a410fcc5; BYTE $0x00       // vmovups    ymm4, yword [rdx + 4*rsi + 192]
+	QUAD $0x0000e0b2ac10fcc5; BYTE $0x00       // vmovups    ymm5, yword [rdx + 4*rsi + 224]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
+	QUAD $0x0080b094117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 128], ymm2
+	QUAD $0x00a0b09c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 160], ymm3
+	QUAD $0x00c0b0a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 192], ymm4
+	QUAD $0x00e0b0ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 224], ymm5
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_574
+	JMP  LBB1_990
+
+LBB1_575:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_997
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_577:
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_577
+	JMP  LBB1_998
+
+LBB1_578:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_1005
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_580:
+	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x6c58f4c5; WORD $0x60ba             // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080ba9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0baa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_580
+	JMP  LBB1_1006
+
+LBB1_581:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1013
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_583:
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_583
+	JMP  LBB1_1014
+
+LBB1_584:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_1021
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+
+LBB1_586:
+	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
+	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
+	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
+	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
+	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
+	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
+	QUAD $0x000080b29410fcc5; BYTE $0x00       // vmovups    ymm2, yword [rdx + 4*rsi + 128]
+	QUAD $0x0000a0b29c10fcc5; BYTE $0x00       // vmovups    ymm3, yword [rdx + 4*rsi + 160]
+	QUAD $0x0000c0b2a410fcc5; BYTE $0x00       // vmovups    ymm4, yword [rdx + 4*rsi + 192]
+	QUAD $0x0000e0b2ac10fcc5; BYTE $0x00       // vmovups    ymm5, yword [rdx + 4*rsi + 224]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
+	QUAD $0x0080b094117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 128], ymm2
+	QUAD $0x00a0b09c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 160], ymm3
+	QUAD $0x00c0b0a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 192], ymm4
+	QUAD $0x00e0b0ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 224], ymm5
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_586
+	JMP  LBB1_1022
+
+LBB1_587:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x05e8c148             // shr    rax, 5
+	LONG $0x01c08348             // add    rax, 1
+	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
+	LONG $0x03e18341             // and    r9d, 3
+	LONG $0x60fe8348             // cmp    rsi, 96
+	JAE  LBB1_641
+	WORD $0xf631                 // xor    esi, esi
+	JMP  LBB1_643
+
+LBB1_589:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x05e8c148             // shr    rax, 5
+	LONG $0x01c08348             // add    rax, 1
+	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
+	LONG $0x03e18341             // and    r9d, 3
+	LONG $0x60fe8348             // cmp    rsi, 96
+	JAE  LBB1_651
+	WORD $0xf631                 // xor    esi, esi
+	JMP  LBB1_653
+
+LBB1_591:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1029
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_593:
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_593
+	JMP  LBB1_1030
+
+LBB1_594:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1037
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_596:
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_596
+	JMP  LBB1_1038
+
+LBB1_597:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1045
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_599:
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_599
+	JMP  LBB1_1046
+
+LBB1_600:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1053
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_602:
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_602
+	JMP  LBB1_1054
+
+LBB1_603:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1061
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_605:
+	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xba64; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x0080ba8c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x00a0ba94407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x00c0ba9c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x00e0baa4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_605
+	JMP  LBB1_1062
+
+LBB1_606:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1069
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_608:
+	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xba64; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x0080ba8c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x00a0ba94407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x00c0ba9c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x00e0baa4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_608
+	JMP  LBB1_1070
+
+LBB1_609:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1077
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_611:
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_611
+	JMP  LBB1_1078
+
+LBB1_612:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1085
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_614:
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_614
+	JMP  LBB1_1086
+
+LBB1_615:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1093
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_617:
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_617
+	JMP  LBB1_1094
+
+LBB1_618:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1101
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_620:
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_620
+	JMP  LBB1_1102
+
+LBB1_621:
+	LONG $0xfce08348             // and    rax, -4
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
+
+LBB1_622:
+	LONG $0x246ffec5; BYTE $0x32               // vmovdqu    ymm4, yword [rdx + rsi]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
+	LONG $0x646ffec5; WORD $0x2032             // vmovdqu    ymm4, yword [rdx + rsi + 32]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
+	LONG $0x646ffec5; WORD $0x4032             // vmovdqu    ymm4, yword [rdx + rsi + 64]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
+	LONG $0x646ffec5; WORD $0x6032             // vmovdqu    ymm4, yword [rdx + rsi + 96]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x04c08348                           // add    rax, 4
+	JNE  LBB1_622
+
+LBB1_623:
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	JE   LBB1_626
+	WORD $0xf749; BYTE $0xd9     // neg    r9
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
+
+LBB1_625:
+	LONG $0x1c6ffec5; BYTE $0x32   // vmovdqu    ymm3, yword [rdx + rsi]
+	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
+	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
+	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
+	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
+	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
+	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
+	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
+	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0xff49; BYTE $0xc1       // inc    r9
+	JNE  LBB1_625
+
+LBB1_626:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB1_1109
+	JMP  LBB1_627
+
+LBB1_631:
+	LONG $0xfce08348             // and    rax, -4
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
+
+LBB1_632:
+	LONG $0x246ffec5; BYTE $0x32               // vmovdqu    ymm4, yword [rdx + rsi]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
+	LONG $0x646ffec5; WORD $0x2032             // vmovdqu    ymm4, yword [rdx + rsi + 32]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
+	LONG $0x646ffec5; WORD $0x4032             // vmovdqu    ymm4, yword [rdx + rsi + 64]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
+	LONG $0x646ffec5; WORD $0x6032             // vmovdqu    ymm4, yword [rdx + rsi + 96]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x04c08348                           // add    rax, 4
+	JNE  LBB1_632
+
+LBB1_633:
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	JE   LBB1_636
+	WORD $0xf749; BYTE $0xd9     // neg    r9
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
+
+LBB1_635:
+	LONG $0x1c6ffec5; BYTE $0x32   // vmovdqu    ymm3, yword [rdx + rsi]
+	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
+	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
+	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
+	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
+	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
+	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
+	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
+	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0xff49; BYTE $0xc1       // inc    r9
+	JNE  LBB1_635
+
+LBB1_636:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB1_1109
+	JMP  LBB1_637
+
+LBB1_641:
+	LONG $0xfce08348             // and    rax, -4
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
+
+LBB1_642:
+	LONG $0x246ffec5; BYTE $0x32               // vmovdqu    ymm4, yword [rdx + rsi]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
+	LONG $0x646ffec5; WORD $0x2032             // vmovdqu    ymm4, yword [rdx + rsi + 32]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
+	LONG $0x646ffec5; WORD $0x4032             // vmovdqu    ymm4, yword [rdx + rsi + 64]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
+	LONG $0x646ffec5; WORD $0x6032             // vmovdqu    ymm4, yword [rdx + rsi + 96]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x04c08348                           // add    rax, 4
+	JNE  LBB1_642
+
+LBB1_643:
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	JE   LBB1_646
+	WORD $0xf749; BYTE $0xd9     // neg    r9
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
+
+LBB1_645:
+	LONG $0x1c6ffec5; BYTE $0x32   // vmovdqu    ymm3, yword [rdx + rsi]
+	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
+	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
+	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
+	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
+	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
+	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
+	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
+	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0xff49; BYTE $0xc1       // inc    r9
+	JNE  LBB1_645
+
+LBB1_646:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB1_1109
+	JMP  LBB1_647
+
+LBB1_651:
+	LONG $0xfce08348             // and    rax, -4
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
+
+LBB1_652:
+	LONG $0x246ffec5; BYTE $0x32               // vmovdqu    ymm4, yword [rdx + rsi]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
+	LONG $0x646ffec5; WORD $0x2032             // vmovdqu    ymm4, yword [rdx + rsi + 32]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
+	LONG $0x646ffec5; WORD $0x4032             // vmovdqu    ymm4, yword [rdx + rsi + 64]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
+	LONG $0x646ffec5; WORD $0x6032             // vmovdqu    ymm4, yword [rdx + rsi + 96]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x04c08348                           // add    rax, 4
+	JNE  LBB1_652
+
+LBB1_653:
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	JE   LBB1_656
+	WORD $0xf749; BYTE $0xd9     // neg    r9
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
+
+LBB1_655:
+	LONG $0x1c6ffec5; BYTE $0x32   // vmovdqu    ymm3, yword [rdx + rsi]
+	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
+	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
+	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
+	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
+	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
+	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
+	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
+	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0xff49; BYTE $0xc1       // inc    r9
+	JNE  LBB1_655
+
+LBB1_656:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB1_1109
+	JMP  LBB1_657
+
+LBB1_661:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_662:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_664
+	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xba44; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_664:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_665
+
+LBB1_669:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_670:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_672
+	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xba44; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_672:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_673
+
+LBB1_677:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_678:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_680
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_680:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_681
+
+LBB1_685:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_686:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_688
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_688:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_689
+
+LBB1_693:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_694:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_696
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_696:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_697
+
+LBB1_701:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_702:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_704
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_704:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_705
+
+LBB1_709:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_710:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_712
+	LONG $0x1459f5c5; BYTE $0xfa               // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c59f5c5; WORD $0x20fa             // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6459f5c5; WORD $0x40fa             // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x4c59f5c5; WORD $0x60fa             // vmulpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+
+LBB1_712:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1109
+	JMP  LBB1_713
+
+LBB1_717:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_718:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_720
+	LONG $0x1459f5c5; BYTE $0xfa               // vmulpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c59f5c5; WORD $0x20fa             // vmulpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6459f5c5; WORD $0x40fa             // vmulpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x4c59f5c5; WORD $0x60fa             // vmulpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+
+LBB1_720:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1109
+	JMP  LBB1_721
+
+LBB1_725:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_726:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_728
+	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x4c58f5c5; WORD $0x60fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+
+LBB1_728:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1109
+	JMP  LBB1_729
+
+LBB1_733:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_734:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_736
+	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
+	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
+	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
+	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xc95cd5c5                           // vsubpd    ymm1, ymm5, ymm1
+	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+
+LBB1_736:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1109
+	JMP  LBB1_737
+
+LBB1_741:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_742:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_744
+	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x4c58f5c5; WORD $0x60fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+
+LBB1_744:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1109
+	JMP  LBB1_745
+
+LBB1_749:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_750:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_752
+	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
+	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
+	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
+	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xc95cd5c5                           // vsubpd    ymm1, ymm5, ymm1
+	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+
+LBB1_752:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1109
+	JMP  LBB1_753
+
+LBB1_757:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_758:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_760
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB1_760:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_761
+
+LBB1_765:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_766:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_768
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB1_768:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_769
+
+LBB1_773:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_774:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_776
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB1_776:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_777
+
+LBB1_781:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_782:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_784
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB1_784:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_785
+
+LBB1_789:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_790:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_792
+	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
+	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
+	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
+	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
+	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
+	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
+	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_792:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_793
+
+LBB1_797:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_798:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_800
+	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
+	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
+	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
+	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
+	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
+	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
+	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_800:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_801
+
+LBB1_805:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_806:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_808
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_808:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_809
+
+LBB1_813:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_814:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_816
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_816:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_817
+
+LBB1_821:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_822:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_824
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_824:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_825
+
+LBB1_829:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_830:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_832
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_832:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_833
+
+LBB1_837:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_838:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_840
+	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44d5fdc5; WORD $0x207a             // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB1_840:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_841
+
+LBB1_845:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_846:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_848
+	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44d5fdc5; WORD $0x207a             // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB1_848:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_849
+
+LBB1_853:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_854:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_856
+	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44d5fdc5; WORD $0x207a             // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB1_856:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_857
+
+LBB1_861:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_862:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_864
+	LONG $0x0cd5fdc5; BYTE $0x7a               // vpmullw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44d5fdc5; WORD $0x207a             // vpmullw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB1_864:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_865
+
+LBB1_869:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_870:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_872
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB1_872:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_873
+
+LBB1_877:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_878:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_880
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB1_880:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_881
+
+LBB1_885:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_886:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_888
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB1_888:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_889
+
+LBB1_893:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_894:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_896
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB1_896:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_897
+
+LBB1_901:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_902:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_904
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB1_904:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_905
+
+LBB1_909:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_910:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_912
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB1_912:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_913
+
+LBB1_917:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_918:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_920
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB1_920:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_921
+
+LBB1_925:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_926:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_928
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB1_928:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_929
+
+LBB1_933:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_934:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_936
+	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
+	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
+	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
+	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
+	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
+	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
+	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_936:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_937
+
+LBB1_941:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_942:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_944
+	LONG $0x1459f4c5; BYTE $0xba               // vmulps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c59f4c5; WORD $0x20ba             // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6459f4c5; WORD $0x40ba             // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x4c59f4c5; WORD $0x60ba             // vmulps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
+
+LBB1_944:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1109
+	JMP  LBB1_945
+
+LBB1_949:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_950:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_952
+	LONG $0x146ffec5; BYTE $0xfa               // vmovdqu    ymm2, yword [rdx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60fa             // vmovdqu    ymm5, yword [rdx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
+	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
+	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
+	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
+	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
+	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
+	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_952:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_953
+
+LBB1_957:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_958:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_960
+	LONG $0x1459f4c5; BYTE $0xba               // vmulps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c59f4c5; WORD $0x20ba             // vmulps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6459f4c5; WORD $0x40ba             // vmulps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x4c59f4c5; WORD $0x60ba             // vmulps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
+
+LBB1_960:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1109
+	JMP  LBB1_961
+
+LBB1_965:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_966:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_968
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_968:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_969
+
+LBB1_973:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_974:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_976
+	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x4c58f4c5; WORD $0x60ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
+
+LBB1_976:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1109
+	JMP  LBB1_977
+
+LBB1_981:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_982:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_984
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_984:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_985
+
+LBB1_989:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_990:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_992
+	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
+	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
+	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
+	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
+	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
+	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
+
+LBB1_992:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1109
+	JMP  LBB1_993
+
+LBB1_997:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_998:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1000
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_1000:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_1001
+
+LBB1_1005:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1006:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1008
+	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x4c58f4c5; WORD $0x60ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
+
+LBB1_1008:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1109
+	JMP  LBB1_1009
+
+LBB1_1013:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1014:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1016
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_1016:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_1017
+
+LBB1_1021:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1022:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1024
+	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
+	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
+	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
+	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
+	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
+	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
+
+LBB1_1024:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1109
+	JMP  LBB1_1025
+
+LBB1_1029:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1030:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1032
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB1_1032:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_1033
+
+LBB1_1037:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1038:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1040
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB1_1040:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_1041
+
+LBB1_1045:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1046:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1048
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB1_1048:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_1049
+
+LBB1_1053:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1054:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1056
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB1_1056:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_1057
+
+LBB1_1061:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1062:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1064
+	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xba44; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_1064:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_1065
+
+LBB1_1069:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1070:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1072
+	LONG $0x407de2c4; WORD $0xba0c             // vpmulld    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xba54; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xba5c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xba44; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_1072:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_1073
+
+LBB1_1077:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1078:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1080
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_1080:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_1081
+
+LBB1_1085:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1086:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1088
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_1088:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_1089
+
+LBB1_1093:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1094:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1096
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_1096:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1109
+	JMP  LBB1_1097
+
+LBB1_1101:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1102:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1104
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_1104:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB1_1105
+
+LBB1_1109:
+	VZEROUPPER
+	RET
+
+DATA LCDATA3<>+0x000(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA3<>+0x008(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA3<>+0x010(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA3<>+0x018(SB)/8, $0x00ff00ff00ff00ff
+GLOBL LCDATA3<>(SB), 8, $32
+
+TEXT ·_arithmetic_scalar_arr_avx2(SB), $0-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+	LEAQ LCDATA3<>(SB), BP
+
+	LONG $0x14fe8040         // cmp    sil, 20
+	JG   LBB2_12
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB2_23
+	LONG $0x01fe8040         // cmp    sil, 1
+	JE   LBB2_31
+	LONG $0x02fe8040         // cmp    sil, 2
+	JNE  LBB2_1109
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_55
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_97
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_157
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_160
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_11
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_445
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_445
+
+LBB2_11:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_665:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_667
+
+LBB2_666:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_666
+
+LBB2_667:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_668:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_668
+	JMP  LBB2_1109
+
+LBB2_12:
+	LONG $0x15fe8040         // cmp    sil, 21
+	JE   LBB2_39
+	LONG $0x16fe8040         // cmp    sil, 22
+	JE   LBB2_47
+	LONG $0x17fe8040         // cmp    sil, 23
+	JNE  LBB2_1109
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_62
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_102
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_163
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_166
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_22
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_448
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_448
+
+LBB2_22:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_673:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_675
+
+LBB2_674:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_674
+
+LBB2_675:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_676:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_676
+	JMP  LBB2_1109
+
+LBB2_23:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_69
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_107
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_169
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_172
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_30
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_451
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_451
+
+LBB2_30:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_681:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_683
+
+LBB2_682:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_682
+
+LBB2_683:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_684:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_684
+	JMP  LBB2_1109
+
+LBB2_31:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_76
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_112
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_175
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_178
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_38
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_454
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_454
+
+LBB2_38:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_689:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_691
+
+LBB2_690:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_690
+
+LBB2_691:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1109
+
+LBB2_692:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_692
+	JMP  LBB2_1109
+
+LBB2_39:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_83
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_117
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_181
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_184
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_46
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_457
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_457
+
+LBB2_46:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_697:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_699
+
+LBB2_698:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_698
+
+LBB2_699:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_700:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_700
+	JMP  LBB2_1109
+
+LBB2_47:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_90
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_122
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_187
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_190
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_54
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_460
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_460
+
+LBB2_54:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_705:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_707
+
+LBB2_706:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_706
+
+LBB2_707:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1109
+
+LBB2_708:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_708
+	JMP  LBB2_1109
+
+LBB2_55:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_127
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_193
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_196
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_61
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_463
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_463
+
+LBB2_61:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_713:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_715
+
+LBB2_714:
+	LONG $0x0c59fbc5; BYTE $0xd1   // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_714
+
+LBB2_715:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1109
+
+LBB2_716:
+	LONG $0x0c59fbc5; BYTE $0xd1               // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c59fbc5; WORD $0x08d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c59fbc5; WORD $0x10d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c59fbc5; WORD $0x18d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_716
+	JMP  LBB2_1109
+
+LBB2_62:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_132
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_199
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_202
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_68
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_466
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_466
+
+LBB2_68:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_721:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_723
+
+LBB2_722:
+	LONG $0x0c59fbc5; BYTE $0xd1   // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_722
+
+LBB2_723:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1109
+
+LBB2_724:
+	LONG $0x0c59fbc5; BYTE $0xd1               // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c59fbc5; WORD $0x08d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c59fbc5; WORD $0x10d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c59fbc5; WORD $0x18d1             // vmulsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_724
+	JMP  LBB2_1109
+
+LBB2_69:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_137
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_205
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_208
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_75
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_469
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_469
+
+LBB2_75:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_729:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_731
+
+LBB2_730:
+	LONG $0x0c58fbc5; BYTE $0xd1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_730
+
+LBB2_731:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1109
+
+LBB2_732:
+	LONG $0x0c58fbc5; BYTE $0xd1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c58fbc5; WORD $0x08d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c58fbc5; WORD $0x10d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c58fbc5; WORD $0x18d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_732
+	JMP  LBB2_1109
+
+LBB2_76:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_142
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_211
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_214
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_82
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_472
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_472
+
+LBB2_82:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_737:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_739
+
+LBB2_738:
+	LONG $0x0c5cfbc5; BYTE $0xd1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_738
+
+LBB2_739:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1109
+
+LBB2_740:
+	LONG $0x0c5cfbc5; BYTE $0xd1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c5cfbc5; WORD $0x08d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c5cfbc5; WORD $0x10d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c5cfbc5; WORD $0x18d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_740
+	JMP  LBB2_1109
+
+LBB2_83:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_147
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_217
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_220
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_89
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_475
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_475
+
+LBB2_89:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_745:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_747
+
+LBB2_746:
+	LONG $0x0c58fbc5; BYTE $0xd1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_746
+
+LBB2_747:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1109
+
+LBB2_748:
+	LONG $0x0c58fbc5; BYTE $0xd1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c58fbc5; WORD $0x08d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c58fbc5; WORD $0x10d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c58fbc5; WORD $0x18d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_748
+	JMP  LBB2_1109
+
+LBB2_90:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_152
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_223
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_226
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_96
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_478
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_478
+
+LBB2_96:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_753:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_755
+
+LBB2_754:
+	LONG $0x0c5cfbc5; BYTE $0xd1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_754
+
+LBB2_755:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1109
+
+LBB2_756:
+	LONG $0x0c5cfbc5; BYTE $0xd1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c5cfbc5; WORD $0x08d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c5cfbc5; WORD $0x10d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c5cfbc5; WORD $0x18d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_756
+	JMP  LBB2_1109
+
+LBB2_97:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_229
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x128a             // mov    dl, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_101
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_481
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_481
+
+LBB2_101:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_627:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB2_629
+
+LBB2_628:
+	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6     // mul    dl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB2_628
+
+LBB2_629:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_630:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_630
+	JMP  LBB2_1109
+
+LBB2_102:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_232
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x128a             // mov    dl, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_106
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_483
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_483
+
+LBB2_106:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_637:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB2_639
+
+LBB2_638:
+	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6     // mul    dl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB2_638
+
+LBB2_639:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_640:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_640
+	JMP  LBB2_1109
+
+LBB2_107:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB2_235
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_111
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_485
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_485
+
+LBB2_111:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_761:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_763
+
+LBB2_762:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_762
+
+LBB2_763:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_764:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_764
+	JMP  LBB2_1109
+
+LBB2_112:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB2_238
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_116
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_488
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_488
+
+LBB2_116:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_769:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_771
+
+LBB2_770:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841         // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_770
+
+LBB2_771:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_772:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_772
+	JMP  LBB2_1109
+
+LBB2_117:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB2_241
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_121
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_491
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_491
+
+LBB2_121:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_777:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_779
+
+LBB2_778:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_778
+
+LBB2_779:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_780:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_780
+	JMP  LBB2_1109
+
+LBB2_122:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB2_244
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_126
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_494
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_494
+
+LBB2_126:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_785:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_787
+
+LBB2_786:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841         // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_786
+
+LBB2_787:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_788:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_788
+	JMP  LBB2_1109
+
+LBB2_127:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_247
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_131
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_497
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_497
+
+LBB2_131:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_793:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_795
+
+LBB2_794:
+	LONG $0xf1148b48 // mov    rdx, qword [rcx + 8*rsi]
+	LONG $0xd0af0f48 // imul    rdx, rax
+	LONG $0xf0148949 // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_794
+
+LBB2_795:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_796:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_796
+	JMP  LBB2_1109
+
+LBB2_132:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_250
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_136
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_500
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_500
+
+LBB2_136:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_801:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_803
+
+LBB2_802:
+	LONG $0xf1148b48 // mov    rdx, qword [rcx + 8*rsi]
+	LONG $0xd0af0f48 // imul    rdx, rax
+	LONG $0xf0148949 // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_802
+
+LBB2_803:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_804:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_804
+	JMP  LBB2_1109
+
+LBB2_137:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_253
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_141
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_503
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_503
+
+LBB2_141:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_809:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_811
+
+LBB2_810:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_810
+
+LBB2_811:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_812:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_812
+	JMP  LBB2_1109
+
+LBB2_142:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_256
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_146
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_506
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_506
+
+LBB2_146:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_817:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_819
+
+LBB2_818:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_818
+
+LBB2_819:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1109
+
+LBB2_820:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_820
+	JMP  LBB2_1109
+
+LBB2_147:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_259
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_151
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_509
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_509
+
+LBB2_151:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_825:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_827
+
+LBB2_826:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_826
+
+LBB2_827:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_828:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_828
+	JMP  LBB2_1109
+
+LBB2_152:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_262
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_1109
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_156
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_512
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_512
+
+LBB2_156:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_833:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_835
+
+LBB2_834:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_834
+
+LBB2_835:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1109
+
+LBB2_836:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_836
+	JMP  LBB2_1109
+
+LBB2_157:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_159
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_515
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_515
+
+LBB2_159:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_841:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_843
+
+LBB2_842:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0xf8af0f66             // imul    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_842
+
+LBB2_843:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_844:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_844
+	JMP  LBB2_1109
+
+LBB2_160:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_162
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_518
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_518
+
+LBB2_162:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_849:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_851
+
+LBB2_850:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0xf8af0f66             // imul    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_850
+
+LBB2_851:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_852:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_852
+	JMP  LBB2_1109
+
+LBB2_163:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_165
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_521
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_521
+
+LBB2_165:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_857:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_859
+
+LBB2_858:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0xf8af0f66             // imul    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_858
+
+LBB2_859:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_860:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_860
+	JMP  LBB2_1109
+
+LBB2_166:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_168
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_524
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_524
+
+LBB2_168:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_865:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_867
+
+LBB2_866:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0xf8af0f66             // imul    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_866
+
+LBB2_867:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_868:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_868
+	JMP  LBB2_1109
+
+LBB2_169:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_171
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_527
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_527
+
+LBB2_171:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_873:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_875
+
+LBB2_874:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_874
+
+LBB2_875:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_876:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_876
+	JMP  LBB2_1109
+
+LBB2_172:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_174
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_530
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_530
+
+LBB2_174:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_881:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_883
+
+LBB2_882:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_882
+
+LBB2_883:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_884:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_884
+	JMP  LBB2_1109
+
+LBB2_175:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_177
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_533
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_533
+
+LBB2_177:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_889:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_891
+
+LBB2_890:
+	WORD $0xc789                 // mov    edi, eax
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_890
+
+LBB2_891:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_892:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_892
+	JMP  LBB2_1109
+
+LBB2_178:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_180
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_536
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_536
+
+LBB2_180:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_897:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_899
+
+LBB2_898:
+	WORD $0xc789                 // mov    edi, eax
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_898
+
+LBB2_899:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_900:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_900
+	JMP  LBB2_1109
+
+LBB2_181:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_183
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_539
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_539
+
+LBB2_183:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_905:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_907
+
+LBB2_906:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_906
+
+LBB2_907:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_908:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_908
+	JMP  LBB2_1109
+
+LBB2_184:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_186
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_542
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_542
+
+LBB2_186:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_913:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_915
+
+LBB2_914:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_914
+
+LBB2_915:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_916:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_916
+	JMP  LBB2_1109
+
+LBB2_187:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_189
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_545
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_545
+
+LBB2_189:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_921:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_923
+
+LBB2_922:
+	WORD $0xc789                 // mov    edi, eax
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_922
+
+LBB2_923:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_924:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_924
+	JMP  LBB2_1109
+
+LBB2_190:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_192
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_548
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_548
+
+LBB2_192:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_929:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_931
+
+LBB2_930:
+	WORD $0xc789                 // mov    edi, eax
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_930
+
+LBB2_931:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_932:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_932
+	JMP  LBB2_1109
+
+LBB2_193:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_195
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_551
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_551
+
+LBB2_195:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_937:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_939
+
+LBB2_938:
+	LONG $0xf1148b48 // mov    rdx, qword [rcx + 8*rsi]
+	LONG $0xd0af0f48 // imul    rdx, rax
+	LONG $0xf0148949 // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_938
+
+LBB2_939:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_940:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_940
+	JMP  LBB2_1109
+
+LBB2_196:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_198
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_554
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_554
+
+LBB2_198:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_945:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_947
+
+LBB2_946:
+	LONG $0x0c59fac5; BYTE $0x91   // vmulss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_946
+
+LBB2_947:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1109
+
+LBB2_948:
+	LONG $0x0c59fac5; BYTE $0x91               // vmulss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c59fac5; WORD $0x0491             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c59fac5; WORD $0x0891             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c59fac5; WORD $0x0c91             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_948
+	JMP  LBB2_1109
+
+LBB2_199:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_201
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_557
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_557
+
+LBB2_201:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_953:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_955
+
+LBB2_954:
+	LONG $0xf1148b48 // mov    rdx, qword [rcx + 8*rsi]
+	LONG $0xd0af0f48 // imul    rdx, rax
+	LONG $0xf0148949 // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_954
+
+LBB2_955:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_956:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_956
+	JMP  LBB2_1109
+
+LBB2_202:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_204
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_560
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_560
+
+LBB2_204:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_961:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_963
+
+LBB2_962:
+	LONG $0x0c59fac5; BYTE $0x91   // vmulss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_962
+
+LBB2_963:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1109
+
+LBB2_964:
+	LONG $0x0c59fac5; BYTE $0x91               // vmulss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c59fac5; WORD $0x0491             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c59fac5; WORD $0x0891             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c59fac5; WORD $0x0c91             // vmulss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_964
+	JMP  LBB2_1109
+
+LBB2_205:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_207
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_563
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_563
+
+LBB2_207:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_969:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_971
+
+LBB2_970:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_970
+
+LBB2_971:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_972:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_972
+	JMP  LBB2_1109
+
+LBB2_208:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_210
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_566
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_566
+
+LBB2_210:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_977:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_979
+
+LBB2_978:
+	LONG $0x0c58fac5; BYTE $0x91   // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_978
+
+LBB2_979:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1109
+
+LBB2_980:
+	LONG $0x0c58fac5; BYTE $0x91               // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c58fac5; WORD $0x0491             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c58fac5; WORD $0x0891             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c58fac5; WORD $0x0c91             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_980
+	JMP  LBB2_1109
+
+LBB2_211:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_213
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_569
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_569
+
+LBB2_213:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_985:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_987
+
+LBB2_986:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_986
+
+LBB2_987:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1109
+
+LBB2_988:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_988
+	JMP  LBB2_1109
+
+LBB2_214:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_216
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_572
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_572
+
+LBB2_216:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_993:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_995
+
+LBB2_994:
+	LONG $0x0c5cfac5; BYTE $0x91   // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_994
+
+LBB2_995:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1109
+
+LBB2_996:
+	LONG $0x0c5cfac5; BYTE $0x91               // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c5cfac5; WORD $0x0491             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c5cfac5; WORD $0x0891             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c5cfac5; WORD $0x0c91             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_996
+	JMP  LBB2_1109
+
+LBB2_217:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_219
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_575
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_575
+
+LBB2_219:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1001:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1003
+
+LBB2_1002:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1002
+
+LBB2_1003:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_1004:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1004
+	JMP  LBB2_1109
+
+LBB2_220:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_222
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_578
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_578
+
+LBB2_222:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_1009:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1011
+
+LBB2_1010:
+	LONG $0x0c58fac5; BYTE $0x91   // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_1010
+
+LBB2_1011:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1109
+
+LBB2_1012:
+	LONG $0x0c58fac5; BYTE $0x91               // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c58fac5; WORD $0x0491             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c58fac5; WORD $0x0891             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c58fac5; WORD $0x0c91             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_1012
+	JMP  LBB2_1109
+
+LBB2_223:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_225
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_581
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_581
+
+LBB2_225:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1017:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1019
+
+LBB2_1018:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1018
+
+LBB2_1019:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1109
+
+LBB2_1020:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1020
+	JMP  LBB2_1109
+
+LBB2_226:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_228
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_584
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_584
+
+LBB2_228:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_1025:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1027
+
+LBB2_1026:
+	LONG $0x0c5cfac5; BYTE $0x91   // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_1026
+
+LBB2_1027:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1109
+
+LBB2_1028:
+	LONG $0x0c5cfac5; BYTE $0x91               // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c5cfac5; WORD $0x0491             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c5cfac5; WORD $0x0891             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c5cfac5; WORD $0x0c91             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_1028
+	JMP  LBB2_1109
+
+LBB2_229:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x128a             // mov    dl, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_231
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_587
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_587
+
+LBB2_231:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_647:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB2_649
+
+LBB2_648:
+	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6     // mul    dl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB2_648
+
+LBB2_649:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_650:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_650
+	JMP  LBB2_1109
+
+LBB2_232:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x128a             // mov    dl, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_234
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_589
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_589
+
+LBB2_234:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_657:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB2_659
+
+LBB2_658:
+	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6     // mul    dl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB2_658
+
+LBB2_659:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_660:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_660
+	JMP  LBB2_1109
+
+LBB2_235:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_237
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_591
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_591
+
+LBB2_237:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1033:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1035
+
+LBB2_1034:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_1034
+
+LBB2_1035:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_1036:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1036
+	JMP  LBB2_1109
+
+LBB2_238:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_240
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_594
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_594
+
+LBB2_240:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1041:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1043
+
+LBB2_1042:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841         // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1042
+
+LBB2_1043:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_1044:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1044
+	JMP  LBB2_1109
+
+LBB2_241:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_243
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_597
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_597
+
+LBB2_243:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1049:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1051
+
+LBB2_1050:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_1050
+
+LBB2_1051:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_1052:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1052
+	JMP  LBB2_1109
+
+LBB2_244:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_246
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_600
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_600
+
+LBB2_246:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1057:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1059
+
+LBB2_1058:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841         // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1058
+
+LBB2_1059:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_1060:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1060
+	JMP  LBB2_1109
+
+LBB2_247:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_249
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_603
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_603
+
+LBB2_249:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1065:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1067
+
+LBB2_1066:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1066
+
+LBB2_1067:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_1068:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1068
+	JMP  LBB2_1109
+
+LBB2_250:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_252
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_606
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_606
+
+LBB2_252:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1073:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1075
+
+LBB2_1074:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1074
+
+LBB2_1075:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_1076:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1076
+	JMP  LBB2_1109
+
+LBB2_253:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_255
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_609
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_609
+
+LBB2_255:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1081:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1083
+
+LBB2_1082:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1082
+
+LBB2_1083:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_1084:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1084
+	JMP  LBB2_1109
+
+LBB2_256:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_258
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_612
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_612
+
+LBB2_258:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1089:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1091
+
+LBB2_1090:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1090
+
+LBB2_1091:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1109
+
+LBB2_1092:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1092
+	JMP  LBB2_1109
+
+LBB2_259:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_261
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_615
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_615
+
+LBB2_261:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1097:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1099
+
+LBB2_1098:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1098
+
+LBB2_1099:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1109
+
+LBB2_1100:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1100
+	JMP  LBB2_1109
+
+LBB2_262:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1109
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_264
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_618
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_618
+
+LBB2_264:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1105:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1107
+
+LBB2_1106:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1106
+
+LBB2_1107:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1109
+
+LBB2_1108:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1108
+	JMP  LBB2_1109
+
+LBB2_445:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_661
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_447:
+	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xb964; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x0080b98c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x00a0b994407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x00c0b99c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x00e0b9a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_447
+	JMP  LBB2_662
+
+LBB2_448:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_669
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_450:
+	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xb964; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x0080b98c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x00a0b994407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x00c0b99c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x00e0b9a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_450
+	JMP  LBB2_670
+
+LBB2_451:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_677
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_453:
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_453
+	JMP  LBB2_678
+
+LBB2_454:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_685
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_456:
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_456
+	JMP  LBB2_686
+
+LBB2_457:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_693
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_459:
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_459
+	JMP  LBB2_694
+
+LBB2_460:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_701
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_462:
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_462
+	JMP  LBB2_702
+
+LBB2_463:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_709
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_465:
+	LONG $0x1459f5c5; BYTE $0xf9               // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c59f5c5; WORD $0x20f9             // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6459f5c5; WORD $0x40f9             // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x6c59f5c5; WORD $0x60f9             // vmulpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f99459f5c5; BYTE $0x00       // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c59f5c5; BYTE $0x00       // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a459f5c5; BYTE $0x00       // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac59f5c5; BYTE $0x00       // vmulpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_465
+	JMP  LBB2_710
+
+LBB2_466:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_717
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_468:
+	LONG $0x1459f5c5; BYTE $0xf9               // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c59f5c5; WORD $0x20f9             // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6459f5c5; WORD $0x40f9             // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x6c59f5c5; WORD $0x60f9             // vmulpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f99459f5c5; BYTE $0x00       // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c59f5c5; BYTE $0x00       // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a459f5c5; BYTE $0x00       // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac59f5c5; BYTE $0x00       // vmulpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_468
+	JMP  LBB2_718
+
+LBB2_469:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_725
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_471:
+	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x6c58f5c5; WORD $0x60f9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_471
+	JMP  LBB2_726
+
+LBB2_472:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_733
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_474:
+	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x6c5cf5c5; WORD $0x60f9             // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f9945cf5c5; BYTE $0x00       // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c5cf5c5; BYTE $0x00       // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a45cf5c5; BYTE $0x00       // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac5cf5c5; BYTE $0x00       // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_474
+	JMP  LBB2_734
+
+LBB2_475:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_741
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_477:
+	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x6c58f5c5; WORD $0x60f9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_477
+	JMP  LBB2_742
+
+LBB2_478:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_749
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_480:
+	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x6c5cf5c5; WORD $0x60f9             // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f9945cf5c5; BYTE $0x00       // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c5cf5c5; BYTE $0x00       // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a45cf5c5; BYTE $0x00       // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac5cf5c5; BYTE $0x00       // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_480
+	JMP  LBB2_750
+
+LBB2_481:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	LONG $0xc26ef9c5             // vmovd    xmm0, edx
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x05e8c148             // shr    rax, 5
+	LONG $0x01c08348             // add    rax, 1
+	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
+	LONG $0x03e18341             // and    r9d, 3
+	LONG $0x60fe8348             // cmp    rsi, 96
+	JAE  LBB2_621
+	WORD $0xf631                 // xor    esi, esi
+	JMP  LBB2_623
+
+LBB2_483:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	LONG $0xc26ef9c5             // vmovd    xmm0, edx
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x05e8c148             // shr    rax, 5
+	LONG $0x01c08348             // add    rax, 1
+	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
+	LONG $0x03e18341             // and    r9d, 3
+	LONG $0x60fe8348             // cmp    rsi, 96
+	JAE  LBB2_631
+	WORD $0xf631                 // xor    esi, esi
+	JMP  LBB2_633
+
+LBB2_485:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_757
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_487:
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_487
+	JMP  LBB2_758
+
+LBB2_488:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_765
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_490:
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_490
+	JMP  LBB2_766
+
+LBB2_491:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_773
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_493:
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_493
+	JMP  LBB2_774
+
+LBB2_494:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_781
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_496:
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_496
+	JMP  LBB2_782
+
+LBB2_497:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_789
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_499:
+	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f9946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rcx + 8*rdi + 224]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_499
+	JMP  LBB2_790
+
+LBB2_500:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_797
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_502:
+	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f9946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rcx + 8*rdi + 224]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_502
+	JMP  LBB2_798
+
+LBB2_503:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_805
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_505:
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_505
+	JMP  LBB2_806
+
+LBB2_506:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_813
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_508:
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_508
+	JMP  LBB2_814
+
+LBB2_509:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_821
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_511:
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_511
+	JMP  LBB2_822
+
+LBB2_512:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_829
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_514:
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_514
+	JMP  LBB2_830
+
+LBB2_515:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_837
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_517:
+	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54d5fdc5; WORD $0x2079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cd5fdc5; WORD $0x4079             // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54d5fdc5; WORD $0x6079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_517
+	JMP  LBB2_838
+
+LBB2_518:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_845
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_520:
+	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54d5fdc5; WORD $0x2079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cd5fdc5; WORD $0x4079             // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54d5fdc5; WORD $0x6079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_520
+	JMP  LBB2_846
+
+LBB2_521:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_853
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_523:
+	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54d5fdc5; WORD $0x2079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cd5fdc5; WORD $0x4079             // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54d5fdc5; WORD $0x6079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_523
+	JMP  LBB2_854
+
+LBB2_524:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_861
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_526:
+	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54d5fdc5; WORD $0x2079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cd5fdc5; WORD $0x4079             // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54d5fdc5; WORD $0x6079             // vpmullw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_526
+	JMP  LBB2_862
+
+LBB2_527:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_869
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_529:
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_529
+	JMP  LBB2_870
+
+LBB2_530:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_877
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_532:
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_532
+	JMP  LBB2_878
+
+LBB2_533:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_885
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_535:
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_535
+	JMP  LBB2_886
+
+LBB2_536:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_893
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_538:
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_538
+	JMP  LBB2_894
+
+LBB2_539:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_901
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_541:
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_541
+	JMP  LBB2_902
+
+LBB2_542:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_909
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_544:
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_544
+	JMP  LBB2_910
+
+LBB2_545:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_917
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_547:
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_547
+	JMP  LBB2_918
+
+LBB2_548:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_925
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_550:
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_550
+	JMP  LBB2_926
+
+LBB2_551:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_933
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_553:
+	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f9946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rcx + 8*rdi + 224]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_553
+	JMP  LBB2_934
+
+LBB2_554:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_941
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_556:
+	LONG $0x1459f4c5; BYTE $0xb9               // vmulps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c59f4c5; WORD $0x20b9             // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6459f4c5; WORD $0x40b9             // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x6c59f4c5; WORD $0x60b9             // vmulps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080b99459f4c5; BYTE $0x00       // vmulps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b99c59f4c5; BYTE $0x00       // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b9a459f4c5; BYTE $0x00       // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9ac59f4c5; BYTE $0x00       // vmulps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_556
+	JMP  LBB2_942
+
+LBB2_557:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_949
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_559:
+	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf86c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f9946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac6ffec5; BYTE $0x00       // vmovdqu    ymm5, yword [rcx + 8*rdi + 224]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                           // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                           // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	QUAD $0x0080f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_559
+	JMP  LBB2_950
+
+LBB2_560:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_957
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_562:
+	LONG $0x1459f4c5; BYTE $0xb9               // vmulps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c59f4c5; WORD $0x20b9             // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6459f4c5; WORD $0x40b9             // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x6c59f4c5; WORD $0x60b9             // vmulps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080b99459f4c5; BYTE $0x00       // vmulps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b99c59f4c5; BYTE $0x00       // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b9a459f4c5; BYTE $0x00       // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9ac59f4c5; BYTE $0x00       // vmulps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_562
+	JMP  LBB2_958
+
+LBB2_563:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_965
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_565:
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_565
+	JMP  LBB2_966
+
+LBB2_566:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_973
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_568:
+	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x6c58f4c5; WORD $0x60b9             // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080b99458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b99c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b9a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_568
+	JMP  LBB2_974
+
+LBB2_569:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_981
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_571:
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_571
+	JMP  LBB2_982
+
+LBB2_572:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_989
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_574:
+	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x6c5cf4c5; WORD $0x60b9             // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080b9945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b99c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b9a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_574
+	JMP  LBB2_990
+
+LBB2_575:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_997
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_577:
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_577
+	JMP  LBB2_998
+
+LBB2_578:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_1005
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_580:
+	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x6c58f4c5; WORD $0x60b9             // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080b99458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b99c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b9a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_580
+	JMP  LBB2_1006
+
+LBB2_581:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1013
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_583:
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_583
+	JMP  LBB2_1014
+
+LBB2_584:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_1021
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_586:
+	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x6c5cf4c5; WORD $0x60b9             // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080b9945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b99c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b9a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_586
+	JMP  LBB2_1022
+
+LBB2_587:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	LONG $0xc26ef9c5             // vmovd    xmm0, edx
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x05e8c148             // shr    rax, 5
+	LONG $0x01c08348             // add    rax, 1
+	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
+	LONG $0x03e18341             // and    r9d, 3
+	LONG $0x60fe8348             // cmp    rsi, 96
+	JAE  LBB2_641
+	WORD $0xf631                 // xor    esi, esi
+	JMP  LBB2_643
+
+LBB2_589:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	LONG $0xc26ef9c5             // vmovd    xmm0, edx
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0xe0778d48             // lea    rsi, [rdi - 32]
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x05e8c148             // shr    rax, 5
+	LONG $0x01c08348             // add    rax, 1
+	WORD $0x8941; BYTE $0xc1     // mov    r9d, eax
+	LONG $0x03e18341             // and    r9d, 3
+	LONG $0x60fe8348             // cmp    rsi, 96
+	JAE  LBB2_651
+	WORD $0xf631                 // xor    esi, esi
+	JMP  LBB2_653
+
+LBB2_591:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1029
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_593:
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_593
+	JMP  LBB2_1030
+
+LBB2_594:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1037
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_596:
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_596
+	JMP  LBB2_1038
+
+LBB2_597:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1045
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_599:
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_599
+	JMP  LBB2_1046
+
+LBB2_600:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1053
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_602:
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_602
+	JMP  LBB2_1054
+
+LBB2_603:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1061
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_605:
+	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xb964; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x0080b98c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x00a0b994407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x00c0b99c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x00e0b9a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_605
+	JMP  LBB2_1062
+
+LBB2_606:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1069
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_608:
+	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xb964; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x0080b98c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x00a0b994407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x00c0b99c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x00e0b9a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_608
+	JMP  LBB2_1070
+
+LBB2_609:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1077
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_611:
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_611
+	JMP  LBB2_1078
+
+LBB2_612:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1085
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_614:
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_614
+	JMP  LBB2_1086
+
+LBB2_615:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1093
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_617:
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_617
+	JMP  LBB2_1094
+
+LBB2_618:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1101
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_620:
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_620
+	JMP  LBB2_1102
+
+LBB2_621:
+	LONG $0xfce08348             // and    rax, -4
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
+
+LBB2_622:
+	LONG $0x246ffec5; BYTE $0x31               // vmovdqu    ymm4, yword [rcx + rsi]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
+	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
+	LONG $0x646ffec5; WORD $0x4031             // vmovdqu    ymm4, yword [rcx + rsi + 64]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
+	LONG $0x646ffec5; WORD $0x6031             // vmovdqu    ymm4, yword [rcx + rsi + 96]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x04c08348                           // add    rax, 4
+	JNE  LBB2_622
+
+LBB2_623:
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	JE   LBB2_626
+	WORD $0xf749; BYTE $0xd9     // neg    r9
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
+
+LBB2_625:
+	LONG $0x1c6ffec5; BYTE $0x31   // vmovdqu    ymm3, yword [rcx + rsi]
+	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
+	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
+	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
+	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
+	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
+	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
+	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
+	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0xff49; BYTE $0xc1       // inc    r9
+	JNE  LBB2_625
+
+LBB2_626:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB2_1109
+	JMP  LBB2_627
+
+LBB2_631:
+	LONG $0xfce08348             // and    rax, -4
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
+
+LBB2_632:
+	LONG $0x246ffec5; BYTE $0x31               // vmovdqu    ymm4, yword [rcx + rsi]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
+	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
+	LONG $0x646ffec5; WORD $0x4031             // vmovdqu    ymm4, yword [rcx + rsi + 64]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
+	LONG $0x646ffec5; WORD $0x6031             // vmovdqu    ymm4, yword [rcx + rsi + 96]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x04c08348                           // add    rax, 4
+	JNE  LBB2_632
+
+LBB2_633:
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	JE   LBB2_636
+	WORD $0xf749; BYTE $0xd9     // neg    r9
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
+
+LBB2_635:
+	LONG $0x1c6ffec5; BYTE $0x31   // vmovdqu    ymm3, yword [rcx + rsi]
+	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
+	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
+	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
+	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
+	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
+	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
+	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
+	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0xff49; BYTE $0xc1       // inc    r9
+	JNE  LBB2_635
+
+LBB2_636:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB2_1109
+	JMP  LBB2_637
+
+LBB2_641:
+	LONG $0xfce08348             // and    rax, -4
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
+
+LBB2_642:
+	LONG $0x246ffec5; BYTE $0x31               // vmovdqu    ymm4, yword [rcx + rsi]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
+	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
+	LONG $0x646ffec5; WORD $0x4031             // vmovdqu    ymm4, yword [rcx + rsi + 64]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
+	LONG $0x646ffec5; WORD $0x6031             // vmovdqu    ymm4, yword [rcx + rsi + 96]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x04c08348                           // add    rax, 4
+	JNE  LBB2_642
+
+LBB2_643:
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	JE   LBB2_646
+	WORD $0xf749; BYTE $0xd9     // neg    r9
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
+
+LBB2_645:
+	LONG $0x1c6ffec5; BYTE $0x31   // vmovdqu    ymm3, yword [rcx + rsi]
+	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
+	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
+	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
+	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
+	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
+	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
+	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
+	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0xff49; BYTE $0xc1       // inc    r9
+	JNE  LBB2_645
+
+LBB2_646:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB2_1109
+	JMP  LBB2_647
+
+LBB2_651:
+	LONG $0xfce08348             // and    rax, -4
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xd860fdc5             // vpunpcklbw    ymm3, ymm0, ymm0
+
+LBB2_652:
+	LONG $0x246ffec5; BYTE $0x31               // vmovdqu    ymm4, yword [rcx + rsi]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3024             // vmovdqu    yword [r8 + rsi], ymm4
+	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
+	LONG $0x646ffec5; WORD $0x4031             // vmovdqu    ymm4, yword [rcx + rsi + 64]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
+	LONG $0x646ffec5; WORD $0x6031             // vmovdqu    ymm4, yword [rcx + rsi + 96]
+	LONG $0xec68ddc5                           // vpunpckhbw    ymm5, ymm4, ymm4
+	LONG $0xe9d5d5c5                           // vpmullw    ymm5, ymm5, ymm1
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xe460ddc5                           // vpunpcklbw    ymm4, ymm4, ymm4
+	LONG $0xe3d5ddc5                           // vpmullw    ymm4, ymm4, ymm3
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe567ddc5                           // vpackuswb    ymm4, ymm4, ymm5
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm4
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x04c08348                           // add    rax, 4
+	JNE  LBB2_652
+
+LBB2_653:
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	JE   LBB2_656
+	WORD $0xf749; BYTE $0xd9     // neg    r9
+	LONG $0xc868fdc5             // vpunpckhbw    ymm1, ymm0, ymm0
+	LONG $0x556ffdc5; BYTE $0x00 // vmovdqa    ymm2, yword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xc060fdc5             // vpunpcklbw    ymm0, ymm0, ymm0
+
+LBB2_655:
+	LONG $0x1c6ffec5; BYTE $0x31   // vmovdqu    ymm3, yword [rcx + rsi]
+	LONG $0xe368e5c5               // vpunpckhbw    ymm4, ymm3, ymm3
+	LONG $0xe1d5ddc5               // vpmullw    ymm4, ymm4, ymm1
+	LONG $0xe2dbddc5               // vpand    ymm4, ymm4, ymm2
+	LONG $0xdb60e5c5               // vpunpcklbw    ymm3, ymm3, ymm3
+	LONG $0xd8d5e5c5               // vpmullw    ymm3, ymm3, ymm0
+	LONG $0xdadbe5c5               // vpand    ymm3, ymm3, ymm2
+	LONG $0xdc67e5c5               // vpackuswb    ymm3, ymm3, ymm4
+	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0xff49; BYTE $0xc1       // inc    r9
+	JNE  LBB2_655
+
+LBB2_656:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB2_1109
+	JMP  LBB2_657
+
+LBB2_661:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_662:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_664
+	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xb944; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB2_664:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_665
+
+LBB2_669:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_670:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_672
+	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xb944; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB2_672:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_673
+
+LBB2_677:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_678:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_680
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB2_680:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_681
+
+LBB2_685:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_686:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_688
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB2_688:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_689
+
+LBB2_693:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_694:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_696
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB2_696:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_697
+
+LBB2_701:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_702:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_704
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB2_704:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_705
+
+LBB2_709:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_710:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_712
+	LONG $0x1459f5c5; BYTE $0xf9               // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c59f5c5; WORD $0x20f9             // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6459f5c5; WORD $0x40f9             // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x4c59f5c5; WORD $0x60f9             // vmulpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+
+LBB2_712:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1109
+	JMP  LBB2_713
+
+LBB2_717:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_718:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_720
+	LONG $0x1459f5c5; BYTE $0xf9               // vmulpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c59f5c5; WORD $0x20f9             // vmulpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6459f5c5; WORD $0x40f9             // vmulpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x4c59f5c5; WORD $0x60f9             // vmulpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+
+LBB2_720:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1109
+	JMP  LBB2_721
+
+LBB2_725:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_726:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_728
+	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x4c58f5c5; WORD $0x60f9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+
+LBB2_728:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1109
+	JMP  LBB2_729
+
+LBB2_733:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_734:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_736
+	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x4c5cf5c5; WORD $0x60f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+
+LBB2_736:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1109
+	JMP  LBB2_737
+
+LBB2_741:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_742:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_744
+	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x4c58f5c5; WORD $0x60f9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+
+LBB2_744:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1109
+	JMP  LBB2_745
+
+LBB2_749:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_750:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_752
+	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x4c5cf5c5; WORD $0x60f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+
+LBB2_752:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1109
+	JMP  LBB2_753
+
+LBB2_757:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_758:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_760
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB2_760:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_761
+
+LBB2_765:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_766:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_768
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB2_768:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_769
+
+LBB2_773:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_774:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_776
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB2_776:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_777
+
+LBB2_781:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_782:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_784
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB2_784:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_785
+
+LBB2_789:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_790:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_792
+	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
+	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
+	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
+	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
+	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
+	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
+	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB2_792:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_793
+
+LBB2_797:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_798:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_800
+	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
+	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
+	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
+	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
+	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
+	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
+	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB2_800:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_801
+
+LBB2_805:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_806:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_808
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB2_808:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_809
+
+LBB2_813:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_814:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_816
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB2_816:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_817
+
+LBB2_821:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_822:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_824
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB2_824:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_825
+
+LBB2_829:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_830:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_832
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB2_832:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_833
+
+LBB2_837:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_838:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_840
+	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44d5fdc5; WORD $0x2079             // vpmullw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB2_840:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_841
+
+LBB2_845:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_846:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_848
+	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44d5fdc5; WORD $0x2079             // vpmullw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB2_848:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_849
+
+LBB2_853:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_854:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_856
+	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44d5fdc5; WORD $0x2079             // vpmullw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB2_856:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_857
+
+LBB2_861:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_862:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_864
+	LONG $0x0cd5fdc5; BYTE $0x79               // vpmullw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44d5fdc5; WORD $0x2079             // vpmullw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB2_864:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_865
+
+LBB2_869:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_870:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_872
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB2_872:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_873
+
+LBB2_877:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_878:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_880
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB2_880:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_881
+
+LBB2_885:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_886:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_888
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB2_888:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_889
+
+LBB2_893:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_894:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_896
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB2_896:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_897
+
+LBB2_901:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_902:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_904
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB2_904:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_905
+
+LBB2_909:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_910:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_912
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB2_912:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_913
+
+LBB2_917:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_918:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_920
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB2_920:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_921
+
+LBB2_925:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_926:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_928
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB2_928:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_929
+
+LBB2_933:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_934:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_936
+	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
+	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
+	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
+	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
+	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
+	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
+	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB2_936:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_937
+
+LBB2_941:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_942:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_944
+	LONG $0x1459f4c5; BYTE $0xb9               // vmulps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c59f4c5; WORD $0x20b9             // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6459f4c5; WORD $0x40b9             // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x4c59f4c5; WORD $0x60b9             // vmulps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
+
+LBB2_944:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1109
+	JMP  LBB2_945
+
+LBB2_949:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_950:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_952
+	LONG $0x146ffec5; BYTE $0xf9               // vmovdqu    ymm2, yword [rcx + 8*rdi]
+	LONG $0x5c6ffec5; WORD $0x20f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40f9             // vmovdqu    ymm4, yword [rcx + 8*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60f9             // vmovdqu    ymm5, yword [rcx + 8*rdi + 96]
+	LONG $0xf1f4edc5                           // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                           // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                           // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                           // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                           // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                           // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                           // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                           // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xc9f4d5c5                           // vpmuludq    ymm1, ymm5, ymm1
+	LONG $0xd573cdc5; BYTE $0x20               // vpsrlq    ymm6, ymm5, 32
+	LONG $0xf0f4cdc5                           // vpmuludq    ymm6, ymm6, ymm0
+	LONG $0xced4f5c5                           // vpaddq    ymm1, ymm1, ymm6
+	LONG $0xf173f5c5; BYTE $0x20               // vpsllq    ymm1, ymm1, 32
+	LONG $0xc0f4d5c5                           // vpmuludq    ymm0, ymm5, ymm0
+	LONG $0xc1d4fdc5                           // vpaddq    ymm0, ymm0, ymm1
+	LONG $0x7f7ec1c4; WORD $0xf814             // vmovdqu    yword [r8 + 8*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB2_952:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_953
+
+LBB2_957:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_958:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_960
+	LONG $0x1459f4c5; BYTE $0xb9               // vmulps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c59f4c5; WORD $0x20b9             // vmulps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6459f4c5; WORD $0x40b9             // vmulps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x4c59f4c5; WORD $0x60b9             // vmulps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
+
+LBB2_960:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1109
+	JMP  LBB2_961
+
+LBB2_965:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_966:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_968
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB2_968:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_969
+
+LBB2_973:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_974:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_976
+	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x4c58f4c5; WORD $0x60b9             // vaddps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
+
+LBB2_976:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1109
+	JMP  LBB2_977
+
+LBB2_981:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_982:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_984
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB2_984:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_985
+
+LBB2_989:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_990:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_992
+	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x4c5cf4c5; WORD $0x60b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
+
+LBB2_992:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1109
+	JMP  LBB2_993
+
+LBB2_997:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_998:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1000
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB2_1000:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_1001
+
+LBB2_1005:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1006:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1008
+	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x4c58f4c5; WORD $0x60b9             // vaddps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
+
+LBB2_1008:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1109
+	JMP  LBB2_1009
+
+LBB2_1013:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1014:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1016
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB2_1016:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_1017
+
+LBB2_1021:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1022:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1024
+	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x4c5cf4c5; WORD $0x60b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
+
+LBB2_1024:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1109
+	JMP  LBB2_1025
+
+LBB2_1029:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1030:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1032
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB2_1032:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_1033
+
+LBB2_1037:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1038:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1040
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB2_1040:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_1041
+
+LBB2_1045:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1046:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1048
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB2_1048:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_1049
+
+LBB2_1053:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1054:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1056
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB2_1056:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_1057
+
+LBB2_1061:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1062:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1064
+	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xb944; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB2_1064:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_1065
+
+LBB2_1069:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1070:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1072
+	LONG $0x407de2c4; WORD $0xb90c             // vpmulld    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x407de2c4; WORD $0xb954; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x407de2c4; WORD $0xb95c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x407de2c4; WORD $0xb944; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB2_1072:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_1073
+
+LBB2_1077:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1078:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1080
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB2_1080:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_1081
+
+LBB2_1085:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1086:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1088
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB2_1088:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_1089
+
+LBB2_1093:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1094:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1096
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB2_1096:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1109
+	JMP  LBB2_1097
+
+LBB2_1101:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1102:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1104
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB2_1104:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB2_1105
+
+LBB2_1109:
+	VZEROUPPER
+	RET
+
+DATA LCDATA4<>+0x000(SB)/8, $0x8000000000000000
+DATA LCDATA4<>+0x008(SB)/8, $0x3ff0000000000000
+DATA LCDATA4<>+0x010(SB)/8, $0x0000000000000001
+DATA LCDATA4<>+0x018(SB)/8, $0x7fffffffffffffff
+DATA LCDATA4<>+0x020(SB)/8, $0x8000000000000000
+DATA LCDATA4<>+0x028(SB)/8, $0x8000000000000000
+DATA LCDATA4<>+0x030(SB)/8, $0x000000000c080400
+DATA LCDATA4<>+0x038(SB)/8, $0x0000000000000000
+DATA LCDATA4<>+0x040(SB)/8, $0x8000000000000001
+DATA LCDATA4<>+0x048(SB)/8, $0x000000007fffffff
+DATA LCDATA4<>+0x050(SB)/8, $0x0000000000000000
+DATA LCDATA4<>+0x058(SB)/8, $0x0000000000000000
+DATA LCDATA4<>+0x060(SB)/8, $0x0001000100010001
+DATA LCDATA4<>+0x068(SB)/8, $0x0001000100010001
+DATA LCDATA4<>+0x070(SB)/8, $0x0001000100010001
+DATA LCDATA4<>+0x078(SB)/8, $0x0001000100010001
+DATA LCDATA4<>+0x080(SB)/8, $0x0101010101010101
+DATA LCDATA4<>+0x088(SB)/8, $0x0101010101010101
+DATA LCDATA4<>+0x090(SB)/8, $0x0101010101010101
+DATA LCDATA4<>+0x098(SB)/8, $0x0101010101010101
+DATA LCDATA4<>+0x0a0(SB)/8, $0x0d0c090805040100
+DATA LCDATA4<>+0x0a8(SB)/8, $0x0f0e0d0c0d0c0908
+DATA LCDATA4<>+0x0b0(SB)/8, $0x1d1c191815141110
+DATA LCDATA4<>+0x0b8(SB)/8, $0x1f1e1d1c1d1c1918
+GLOBL LCDATA4<>(SB), 8, $192
+
+TEXT ·_arithmetic_unary_same_types_avx2(SB), $0-40
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ input+16(FP), DX
+	MOVQ output+24(FP), CX
+	MOVQ len+32(FP), R8
+	LEAQ LCDATA4<>(SB), BP
+
+	LONG $0x13fe8040         // cmp    sil, 19
+	JLE  LBB3_12
+	LONG $0x14fe8040         // cmp    sil, 20
+	JE   LBB3_22
+	LONG $0x19fe8040         // cmp    sil, 25
+	JE   LBB3_30
+	LONG $0x1afe8040         // cmp    sil, 26
+	JNE  LBB3_865
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB3_46
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB3_81
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB3_131
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB3_134
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB3_221
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB3_373
+
+LBB3_12:
+	LONG $0x04fe8040         // cmp    sil, 4
+	JE   LBB3_38
+	LONG $0x05fe8040         // cmp    sil, 5
+	JNE  LBB3_865
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB3_53
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB3_86
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB3_137
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB3_140
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_21
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_374
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_374
+
+LBB3_21:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_616:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_618
+
+LBB3_617:
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_617
+
+LBB3_618:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_619:
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_619
+	JMP  LBB3_865
+
+LBB3_22:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB3_60
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB3_91
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB3_143
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB3_146
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_29
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_377
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_377
+
+LBB3_29:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_380:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB3_382
+
+LBB3_381:
+	WORD $0xff31             // xor    edi, edi
+	LONG $0x00b23c83         // cmp    dword [rdx + 4*rsi], 0
+	LONG $0xd7950f40         // setne    dil
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB3_381
+
+LBB3_382:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_383:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x00b23c83             // cmp    dword [rdx + 4*rsi], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x04b27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 4], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x08b27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 8], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0cb27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 12], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_383
+	JMP  LBB3_865
+
+LBB3_30:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB3_67
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB3_96
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB3_149
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB3_152
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_37
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_384
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_384
+
+LBB3_37:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_624:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_626
+
+LBB3_625:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_625
+
+LBB3_626:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_627:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_627
+	JMP  LBB3_865
+
+LBB3_38:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB3_74
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB3_101
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB3_155
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB3_158
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_45
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_387
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_387
+
+LBB3_45:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_632:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_634
+
+LBB3_633:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_633
+
+LBB3_634:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_635:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_635
+	JMP  LBB3_865
+
+LBB3_46:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB3_106
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB3_161
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB3_164
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_52
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_390
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_390
+
+LBB3_52:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_640:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	WORD $0x014c; BYTE $0xc8     // add    rax, r9
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03e78348             // and    rdi, 3
+	JE   LBB3_643
+	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
+
+LBB3_642:
+	LONG $0x0c10fbc5; BYTE $0xf2 // vmovsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc857f1c5             // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x0c13f9c5; BYTE $0xf1 // vmovlpd    qword [rcx + 8*rsi], xmm1
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_642
+
+LBB3_643:
+	LONG $0x03f88348             // cmp    rax, 3
+	JB   LBB3_865
+	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
+
+LBB3_645:
+	LONG $0x0c10fbc5; BYTE $0xf2   // vmovsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x0c13f9c5; BYTE $0xf1   // vmovlpd    qword [rcx + 8*rsi], xmm1
+	LONG $0x4c10fbc5; WORD $0x08f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 8]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x4c13f9c5; WORD $0x08f1 // vmovlpd    qword [rcx + 8*rsi + 8], xmm1
+	LONG $0x4c10fbc5; WORD $0x10f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 16]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x4c13f9c5; WORD $0x10f1 // vmovlpd    qword [rcx + 8*rsi + 16], xmm1
+	LONG $0x4c10fbc5; WORD $0x18f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 24]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x4c13f9c5; WORD $0x18f1 // vmovlpd    qword [rcx + 8*rsi + 24], xmm1
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_645
+	JMP  LBB3_865
+
+LBB3_53:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB3_111
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB3_167
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB3_170
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_59
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_393
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_393
+
+LBB3_59:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_650:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	WORD $0x014c; BYTE $0xc8     // add    rax, r9
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03e78348             // and    rdi, 3
+	JE   LBB3_653
+	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
+
+LBB3_652:
+	LONG $0x0c10fbc5; BYTE $0xf2 // vmovsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc857f1c5             // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x0c13f9c5; BYTE $0xf1 // vmovlpd    qword [rcx + 8*rsi], xmm1
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_652
+
+LBB3_653:
+	LONG $0x03f88348             // cmp    rax, 3
+	JB   LBB3_865
+	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
+
+LBB3_655:
+	LONG $0x0c10fbc5; BYTE $0xf2   // vmovsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x0c13f9c5; BYTE $0xf1   // vmovlpd    qword [rcx + 8*rsi], xmm1
+	LONG $0x4c10fbc5; WORD $0x08f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 8]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x4c13f9c5; WORD $0x08f1 // vmovlpd    qword [rcx + 8*rsi + 8], xmm1
+	LONG $0x4c10fbc5; WORD $0x10f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 16]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x4c13f9c5; WORD $0x10f1 // vmovlpd    qword [rcx + 8*rsi + 16], xmm1
+	LONG $0x4c10fbc5; WORD $0x18f2 // vmovsd    xmm1, qword [rdx + 8*rsi + 24]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x4c13f9c5; WORD $0x18f1 // vmovlpd    qword [rcx + 8*rsi + 24], xmm1
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_655
+	JMP  LBB3_865
+
+LBB3_60:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB3_116
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB3_173
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB3_176
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_66
+	LONG $0xc2348d48         // lea    rsi, [rdx + 8*rax]
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	JBE  LBB3_396
+	LONG $0xc1348d48         // lea    rsi, [rcx + 8*rax]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	JBE  LBB3_396
+
+LBB3_66:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_399:
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7     // not    rdi
+	WORD $0x01a8                 // test    al, 1
+	JE   LBB3_401
+	LONG $0x0410fbc5; BYTE $0xf2 // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x4d54f9c5; BYTE $0x20 // vandpd    xmm1, xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
+	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI3_1] */
+	LONG $0xc956e9c5             // vorpd    xmm1, xmm2, xmm1
+	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
+	LONG $0xc2c2fbc5; BYTE $0x00 // vcmpeqsd    xmm0, xmm0, xmm2
+	LONG $0xc155f9c5             // vandnpd    xmm0, xmm0, xmm1
+	LONG $0x0413f9c5; BYTE $0xf1 // vmovlpd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB3_401:
+	WORD $0x0148; BYTE $0xc7     // add    rdi, rax
+	JE   LBB3_865
+	LONG $0x4528f9c5; BYTE $0x20 // vmovapd    xmm0, oword 32[rbp] /* [rip + .LCPI3_2] */
+	LONG $0x4d12fbc5; BYTE $0x08 // vmovddup    xmm1, qword 8[rbp] /* [rip + .LCPI3_1] */
+	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
+
+LBB3_403:
+	LONG $0x1c10fbc5; BYTE $0xf2   // vmovsd    xmm3, qword [rdx + 8*rsi]
+	LONG $0xe054e1c5               // vandpd    xmm4, xmm3, xmm0
+	LONG $0xe456f1c5               // vorpd    xmm4, xmm1, xmm4
+	LONG $0xdac2e3c5; BYTE $0x00   // vcmpeqsd    xmm3, xmm3, xmm2
+	LONG $0xdc55e1c5               // vandnpd    xmm3, xmm3, xmm4
+	LONG $0x1c13f9c5; BYTE $0xf1   // vmovlpd    qword [rcx + 8*rsi], xmm3
+	LONG $0x5c10fbc5; WORD $0x08f2 // vmovsd    xmm3, qword [rdx + 8*rsi + 8]
+	LONG $0xe054e1c5               // vandpd    xmm4, xmm3, xmm0
+	LONG $0xe456f1c5               // vorpd    xmm4, xmm1, xmm4
+	LONG $0xdac2e3c5; BYTE $0x00   // vcmpeqsd    xmm3, xmm3, xmm2
+	LONG $0xdc55e1c5               // vandnpd    xmm3, xmm3, xmm4
+	LONG $0x5c13f9c5; WORD $0x08f1 // vmovlpd    qword [rcx + 8*rsi + 8], xmm3
+	LONG $0x02c68348               // add    rsi, 2
+	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
+	JNE  LBB3_403
+	JMP  LBB3_865
+
+LBB3_67:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB3_121
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB3_179
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB3_182
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_73
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_404
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_404
+
+LBB3_73:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_660:
+	QUAD $0xffffffffffffba49; WORD $0x7fff // mov    r10, 9223372036854775807
+	WORD $0x8949; BYTE $0xf0               // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0               // not    r8
+	WORD $0x014d; BYTE $0xc8               // add    r8, r9
+	WORD $0x894c; BYTE $0xc8               // mov    rax, r9
+	LONG $0x03e08348                       // and    rax, 3
+	JE   LBB3_662
+
+LBB3_661:
+	LONG $0xf23c8b48         // mov    rdi, qword [rdx + 8*rsi]
+	WORD $0x214c; BYTE $0xd7 // and    rdi, r10
+	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB3_661
+
+LBB3_662:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_663:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_663
+	JMP  LBB3_865
+
+LBB3_74:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB3_126
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB3_185
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB3_188
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_80
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_407
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_407
+
+LBB3_80:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_668:
+	QUAD $0xffffffffffffba49; WORD $0x7fff // mov    r10, 9223372036854775807
+	WORD $0x8949; BYTE $0xf0               // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0               // not    r8
+	WORD $0x014d; BYTE $0xc8               // add    r8, r9
+	WORD $0x894c; BYTE $0xc8               // mov    rax, r9
+	LONG $0x03e08348                       // and    rax, 3
+	JE   LBB3_670
+
+LBB3_669:
+	LONG $0xf23c8b48         // mov    rdi, qword [rdx + 8*rsi]
+	WORD $0x214c; BYTE $0xd7 // and    rdi, r10
+	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB3_669
+
+LBB3_670:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_671:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_671
+	JMP  LBB3_865
+
+LBB3_81:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB3_191
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
+	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
+	JB   LBB3_85
+	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB3_410
+	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB3_410
+
+LBB3_85:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_676:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_678
+
+LBB3_677:
+	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_677
+
+LBB3_678:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_679:
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x2840; BYTE $0xc7     // sub    dil, al
+	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_679
+	JMP  LBB3_865
+
+LBB3_86:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB3_194
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
+	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
+	JB   LBB3_90
+	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB3_413
+	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB3_413
+
+LBB3_90:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_684:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_686
+
+LBB3_685:
+	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_685
+
+LBB3_686:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_687:
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x2840; BYTE $0xc7     // sub    dil, al
+	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_687
+	JMP  LBB3_865
+
+LBB3_91:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB3_197
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc3                   // mov    r11d, r8d
+	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
+	JB   LBB3_95
+	LONG $0x1a348d4a                           // lea    rsi, [rdx + r11]
+	WORD $0x3948; BYTE $0xce                   // cmp    rsi, rcx
+	JBE  LBB3_416
+	LONG $0x19348d4a                           // lea    rsi, [rcx + r11]
+	WORD $0x3948; BYTE $0xd6                   // cmp    rsi, rdx
+	JBE  LBB3_416
+
+LBB3_95:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_419:
+	WORD $0x8949; BYTE $0xf2     // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2     // not    r10
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB3_421
+	LONG $0x32048a44             // mov    r8b, byte [rdx + rsi]
+	WORD $0x8445; BYTE $0xc0     // test    r8b, r8b
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x8445; BYTE $0xc0     // test    r8b, r8b
+	LONG $0xc1b60f45             // movzx    r8d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf84e0f41             // cmovle    edi, r8d
+	LONG $0x313c8840             // mov    byte [rcx + rsi], dil
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB3_421:
+	WORD $0x014d; BYTE $0xda     // add    r10, r11
+	JE   LBB3_865
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+
+LBB3_423:
+	LONG $0x04b60f44; BYTE $0x32   // movzx    r8d, byte [rdx + rsi]
+	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f6                   // neg    al
+	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x4f0f; BYTE $0xc7       // cmovg    eax, edi
+	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
+	LONG $0x44b60f44; WORD $0x0132 // movzx    r8d, byte [rdx + rsi + 1]
+	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f6                   // neg    al
+	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x4f0f; BYTE $0xc7       // cmovg    eax, edi
+	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
+	LONG $0x02c68348               // add    rsi, 2
+	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
+	JNE  LBB3_423
+	JMP  LBB3_865
+
+LBB3_96:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB3_200
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_100
+	LONG $0x12348d4a         // lea    rsi, [rdx + r10]
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	JBE  LBB3_424
+	LONG $0x11348d4a         // lea    rsi, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	JBE  LBB3_424
+
+LBB3_100:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_427:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	LONG $0x01c2f641         // test    r10b, 1
+	JE   LBB3_429
+	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
+	WORD $0x8941; BYTE $0xf9 // mov    r9d, edi
+	LONG $0x07f9c141         // sar    r9d, 7
+	WORD $0x0144; BYTE $0xcf // add    edi, r9d
+	WORD $0x3144; BYTE $0xcf // xor    edi, r9d
+	LONG $0x313c8840         // mov    byte [rcx + rsi], dil
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_429:
+	WORD $0x014d; BYTE $0xd0 // add    r8, r10
+	JE   LBB3_865
+
+LBB3_430:
+	LONG $0x323cbe0f             // movsx    edi, byte [rdx + rsi]
+	WORD $0xf889                 // mov    eax, edi
+	WORD $0xf8c1; BYTE $0x07     // sar    eax, 7
+	WORD $0xc701                 // add    edi, eax
+	WORD $0xc731                 // xor    edi, eax
+	LONG $0x313c8840             // mov    byte [rcx + rsi], dil
+	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB3_430
+	JMP  LBB3_865
+
+LBB3_101:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB3_203
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_105
+	LONG $0x12348d4a         // lea    rsi, [rdx + r10]
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	JBE  LBB3_431
+	LONG $0x11348d4a         // lea    rsi, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	JBE  LBB3_431
+
+LBB3_105:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_434:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	LONG $0x01c2f641         // test    r10b, 1
+	JE   LBB3_436
+	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
+	WORD $0x8941; BYTE $0xf9 // mov    r9d, edi
+	LONG $0x07f9c141         // sar    r9d, 7
+	WORD $0x0144; BYTE $0xcf // add    edi, r9d
+	WORD $0x3144; BYTE $0xcf // xor    edi, r9d
+	LONG $0x313c8840         // mov    byte [rcx + rsi], dil
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_436:
+	WORD $0x014d; BYTE $0xd0 // add    r8, r10
+	JE   LBB3_865
+
+LBB3_437:
+	LONG $0x323cbe0f             // movsx    edi, byte [rdx + rsi]
+	WORD $0xf889                 // mov    eax, edi
+	WORD $0xf8c1; BYTE $0x07     // sar    eax, 7
+	WORD $0xc701                 // add    edi, eax
+	WORD $0xc731                 // xor    edi, eax
+	LONG $0x313c8840             // mov    byte [rcx + rsi], dil
+	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB3_437
+	JMP  LBB3_865
+
+LBB3_106:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB3_206
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB3_265
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB3_444
+
+LBB3_111:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB3_209
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_115
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_445
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_445
+
+LBB3_115:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_692:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_694
+
+LBB3_693:
+	WORD $0xc031     // xor    eax, eax
+	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_693
+
+LBB3_694:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_695:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_695
+	JMP  LBB3_865
+
+LBB3_116:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB3_212
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_120
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_448
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_448
+
+LBB3_120:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_451:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB3_453
+
+LBB3_452:
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xf23c8348; BYTE $0x00 // cmp    qword [rdx + 8*rsi], 0
+	LONG $0xd7950f40             // setne    dil
+	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB3_452
+
+LBB3_453:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_454:
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xf23c8348; BYTE $0x00   // cmp    qword [rdx + 8*rsi], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xf27c8348; WORD $0x0008 // cmp    qword [rdx + 8*rsi + 8], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xf27c8348; WORD $0x0010 // cmp    qword [rdx + 8*rsi + 16], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xf27c8348; WORD $0x0018 // cmp    qword [rdx + 8*rsi + 24], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_454
+	JMP  LBB3_865
+
+LBB3_121:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB3_215
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_125
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_455
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_455
+
+LBB3_125:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_700:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_702
+
+LBB3_701:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_701
+
+LBB3_702:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_703:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_703
+	JMP  LBB3_865
+
+LBB3_126:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB3_218
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB3_865
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_130
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_458
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_458
+
+LBB3_130:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_708:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_710
+
+LBB3_709:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_709
+
+LBB3_710:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_711:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_711
+	JMP  LBB3_865
+
+LBB3_131:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x40f88341         // cmp    r8d, 64
+	JAE  LBB3_279
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB3_467
+
+LBB3_134:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_136
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_468
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_468
+
+LBB3_136:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_716:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB3_718
+
+LBB3_717:
+	WORD $0xff31     // xor    edi, edi
+	LONG $0x723c2b66 // sub    di, word [rdx + 2*rsi]
+	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB3_717
+
+LBB3_718:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_719:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_719
+	JMP  LBB3_865
+
+LBB3_137:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_139
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_471
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_471
+
+LBB3_139:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_724:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB3_726
+
+LBB3_725:
+	WORD $0xff31     // xor    edi, edi
+	LONG $0x723c2b66 // sub    di, word [rdx + 2*rsi]
+	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB3_725
+
+LBB3_726:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_727:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_727
+	JMP  LBB3_865
+
+LBB3_140:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_142
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_474
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_474
+
+LBB3_142:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_732:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB3_734
+
+LBB3_733:
+	WORD $0xff31     // xor    edi, edi
+	LONG $0x723c2b66 // sub    di, word [rdx + 2*rsi]
+	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB3_733
+
+LBB3_734:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_735:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_735
+	JMP  LBB3_865
+
+LBB3_143:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_145
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_477
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_477
+
+LBB3_145:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_740:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB3_742
+
+LBB3_741:
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x723c8366; BYTE $0x00 // cmp    word [rdx + 2*rsi], 0
+	LONG $0xd7950f40             // setne    dil
+	LONG $0x713c8966             // mov    word [rcx + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB3_741
+
+LBB3_742:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_743:
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x723c8366; BYTE $0x00   // cmp    word [rdx + 2*rsi], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x71048966               // mov    word [rcx + 2*rsi], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x727c8366; WORD $0x0002 // cmp    word [rdx + 2*rsi + 2], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x71448966; BYTE $0x02   // mov    word [rcx + 2*rsi + 2], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x727c8366; WORD $0x0004 // cmp    word [rdx + 2*rsi + 4], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x71448966; BYTE $0x04   // mov    word [rcx + 2*rsi + 4], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x727c8366; WORD $0x0006 // cmp    word [rdx + 2*rsi + 6], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x71448966; BYTE $0x06   // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_743
+	JMP  LBB3_865
+
+LBB3_146:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_148
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_480
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_480
+
+LBB3_148:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_748:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	LONG $0x01c1f641             // test    r9b, 1
+	JE   LBB3_750
+	LONG $0x04b70f44; BYTE $0x72 // movzx    r8d, word [rdx + 2*rsi]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	LONG $0xc0854566             // test    r8w, r8w
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	LONG $0xc0854566             // test    r8w, r8w
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x713c8966             // mov    word [rcx + 2*rsi], di
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB3_750:
+	WORD $0x014c; BYTE $0xc8       // add    rax, r9
+	JE   LBB3_865
+	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
+
+LBB3_752:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	LONG $0xc04f0f41             // cmovg    eax, r8d
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8566; BYTE $0xc0     // test    ax, ax
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0x8566; BYTE $0xc0     // test    ax, ax
+	LONG $0xf84f0f41             // cmovg    edi, r8d
+	LONG $0x717c8966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], di
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_752
+	JMP  LBB3_865
+
+LBB3_149:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_151
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_483
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_483
+
+LBB3_151:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_598:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_600
+
+LBB3_599:
+	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_599
+
+LBB3_600:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_601:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_601
+	JMP  LBB3_865
+
+LBB3_152:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_154
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_485
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_485
+
+LBB3_154:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_757:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB3_759
+	LONG $0x723cbf0f         // movsx    edi, word [rdx + 2*rsi]
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x0ff8c141         // sar    r8d, 15
+	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
+	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
+	LONG $0x713c8966         // mov    word [rcx + 2*rsi], di
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_759:
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	JE   LBB3_865
+
+LBB3_760:
+	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244bf0f; BYTE $0x02 // movsx    eax, word [rdx + 2*rsi + 2]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_760
+	JMP  LBB3_865
+
+LBB3_155:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_157
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_488
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_488
+
+LBB3_157:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_608:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_610
+
+LBB3_609:
+	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_609
+
+LBB3_610:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_611:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_611
+	JMP  LBB3_865
+
+LBB3_158:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_160
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_490
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_490
+
+LBB3_160:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_765:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB3_767
+	LONG $0x723cbf0f         // movsx    edi, word [rdx + 2*rsi]
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x0ff8c141         // sar    r8d, 15
+	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
+	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
+	LONG $0x713c8966         // mov    word [rcx + 2*rsi], di
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_767:
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	JE   LBB3_865
+
+LBB3_768:
+	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244bf0f; BYTE $0x02 // movsx    eax, word [rdx + 2*rsi + 2]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_768
+	JMP  LBB3_865
+
+LBB3_161:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_163
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_493
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_493
+
+LBB3_163:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_773:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_775
+
+LBB3_774:
+	WORD $0xc031     // xor    eax, eax
+	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_774
+
+LBB3_775:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_776:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_776
+	JMP  LBB3_865
+
+LBB3_164:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_166
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_496
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_496
+
+LBB3_166:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_781:
+	WORD $0x8948; BYTE $0xf0       // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0       // not    rax
+	WORD $0x014c; BYTE $0xc8       // add    rax, r9
+	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
+	LONG $0x03e78348               // and    rdi, 3
+	JE   LBB3_784
+	LONG $0x1879e2c4; WORD $0x4445 // vbroadcastss    xmm0, dword 68[rbp] /* [rip + .LCPI3_7] */
+
+LBB3_783:
+	LONG $0x0c10fac5; BYTE $0xb2 // vmovss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc857f1c5             // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x0c11fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm1
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_783
+
+LBB3_784:
+	LONG $0x03f88348               // cmp    rax, 3
+	JB   LBB3_865
+	LONG $0x1879e2c4; WORD $0x4445 // vbroadcastss    xmm0, dword 68[rbp] /* [rip + .LCPI3_7] */
+
+LBB3_786:
+	LONG $0x0c10fac5; BYTE $0xb2   // vmovss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x0c11fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm1
+	LONG $0x4c10fac5; WORD $0x04b2 // vmovss    xmm1, dword [rdx + 4*rsi + 4]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x4c11fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm1
+	LONG $0x4c10fac5; WORD $0x08b2 // vmovss    xmm1, dword [rdx + 4*rsi + 8]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x4c11fac5; WORD $0x08b1 // vmovss    dword [rcx + 4*rsi + 8], xmm1
+	LONG $0x4c10fac5; WORD $0x0cb2 // vmovss    xmm1, dword [rdx + 4*rsi + 12]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x4c11fac5; WORD $0x0cb1 // vmovss    dword [rcx + 4*rsi + 12], xmm1
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_786
+	JMP  LBB3_865
+
+LBB3_167:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_169
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_499
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_499
+
+LBB3_169:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_791:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_793
+
+LBB3_792:
+	WORD $0xc031     // xor    eax, eax
+	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_792
+
+LBB3_793:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_794:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_794
+	JMP  LBB3_865
+
+LBB3_170:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_172
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_502
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_502
+
+LBB3_172:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_799:
+	WORD $0x8948; BYTE $0xf0       // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0       // not    rax
+	WORD $0x014c; BYTE $0xc8       // add    rax, r9
+	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
+	LONG $0x03e78348               // and    rdi, 3
+	JE   LBB3_802
+	LONG $0x1879e2c4; WORD $0x4445 // vbroadcastss    xmm0, dword 68[rbp] /* [rip + .LCPI3_7] */
+
+LBB3_801:
+	LONG $0x0c10fac5; BYTE $0xb2 // vmovss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc857f1c5             // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x0c11fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm1
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_801
+
+LBB3_802:
+	LONG $0x03f88348               // cmp    rax, 3
+	JB   LBB3_865
+	LONG $0x1879e2c4; WORD $0x4445 // vbroadcastss    xmm0, dword 68[rbp] /* [rip + .LCPI3_7] */
+
+LBB3_804:
+	LONG $0x0c10fac5; BYTE $0xb2   // vmovss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x0c11fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm1
+	LONG $0x4c10fac5; WORD $0x04b2 // vmovss    xmm1, dword [rdx + 4*rsi + 4]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x4c11fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm1
+	LONG $0x4c10fac5; WORD $0x08b2 // vmovss    xmm1, dword [rdx + 4*rsi + 8]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x4c11fac5; WORD $0x08b1 // vmovss    dword [rcx + 4*rsi + 8], xmm1
+	LONG $0x4c10fac5; WORD $0x0cb2 // vmovss    xmm1, dword [rdx + 4*rsi + 12]
+	LONG $0xc857f1c5               // vxorpd    xmm1, xmm1, xmm0
+	LONG $0x4c11fac5; WORD $0x0cb1 // vmovss    dword [rcx + 4*rsi + 12], xmm1
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_804
+	JMP  LBB3_865
+
+LBB3_173:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc3 // mov    r11d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_175
+	LONG $0xda348d4a         // lea    rsi, [rdx + 8*r11]
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	JBE  LBB3_505
+	LONG $0xd9348d4a         // lea    rsi, [rcx + 8*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	JBE  LBB3_505
+
+LBB3_175:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_508:
+	WORD $0x8949; BYTE $0xf2     // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2     // not    r10
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB3_510
+	LONG $0xf2048b4c             // mov    r8, qword [rdx + 8*rsi]
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	WORD $0x854d; BYTE $0xc0     // test    r8, r8
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf749; BYTE $0xd9     // neg    r9
+	WORD $0x854d; BYTE $0xc0     // test    r8, r8
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f49             // cmovle    rdi, r9
+	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB3_510:
+	WORD $0x014d; BYTE $0xda       // add    r10, r11
+	JE   LBB3_865
+	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
+
+LBB3_512:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf84f0f49             // cmovg    rdi, r8
+	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf84f0f49             // cmovg    rdi, r8
+	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB3_512
+	JMP  LBB3_865
+
+LBB3_176:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_178
+	LONG $0x82348d48         // lea    rsi, [rdx + 4*rax]
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	JBE  LBB3_513
+	LONG $0x81348d48         // lea    rsi, [rcx + 4*rax]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	JBE  LBB3_513
+
+LBB3_178:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_516:
+	WORD $0x8949; BYTE $0xf0     // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0     // not    r8
+	WORD $0x01a8                 // test    al, 1
+	JE   LBB3_518
+	LONG $0x0410fac5; BYTE $0xb2 // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0xf850f8c5             // vmovmskps    edi, xmm0
+	WORD $0xe783; BYTE $0x01     // and    edi, 1
+	WORD $0xdff7                 // neg    edi
+	WORD $0xcf83; BYTE $0x01     // or    edi, 1
+	LONG $0xcf2aaac5             // vcvtsi2ss    xmm1, xmm10, edi
+	LONG $0xd257e8c5             // vxorps    xmm2, xmm2, xmm2
+	LONG $0xc2c2fac5; BYTE $0x00 // vcmpeqss    xmm0, xmm0, xmm2
+	LONG $0xc155f8c5             // vandnps    xmm0, xmm0, xmm1
+	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB3_518:
+	WORD $0x0149; BYTE $0xc0 // add    r8, rax
+	JE   LBB3_865
+	LONG $0xc057f8c5         // vxorps    xmm0, xmm0, xmm0
+
+LBB3_520:
+	LONG $0x0c10fac5; BYTE $0xb2   // vmovss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xf950f8c5               // vmovmskps    edi, xmm1
+	WORD $0xe783; BYTE $0x01       // and    edi, 1
+	WORD $0xdff7                   // neg    edi
+	WORD $0xcf83; BYTE $0x01       // or    edi, 1
+	LONG $0xd72aaac5               // vcvtsi2ss    xmm2, xmm10, edi
+	LONG $0xc8c2f2c5; BYTE $0x00   // vcmpeqss    xmm1, xmm1, xmm0
+	LONG $0xca55f0c5               // vandnps    xmm1, xmm1, xmm2
+	LONG $0x0c11fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm1
+	LONG $0x4c10fac5; WORD $0x04b2 // vmovss    xmm1, dword [rdx + 4*rsi + 4]
+	LONG $0xf950f8c5               // vmovmskps    edi, xmm1
+	WORD $0xe783; BYTE $0x01       // and    edi, 1
+	WORD $0xdff7                   // neg    edi
+	WORD $0xcf83; BYTE $0x01       // or    edi, 1
+	LONG $0xd72aaac5               // vcvtsi2ss    xmm2, xmm10, edi
+	LONG $0xc8c2f2c5; BYTE $0x00   // vcmpeqss    xmm1, xmm1, xmm0
+	LONG $0xca55f0c5               // vandnps    xmm1, xmm1, xmm2
+	LONG $0x4c11fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm1
+	LONG $0x02c68348               // add    rsi, 2
+	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
+	JNE  LBB3_520
+	JMP  LBB3_865
+
+LBB3_179:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_181
+	LONG $0xd2348d4a         // lea    rsi, [rdx + 8*r10]
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	JBE  LBB3_521
+	LONG $0xd1348d4a         // lea    rsi, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	JBE  LBB3_521
+
+LBB3_181:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_524:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	LONG $0x01c2f641         // test    r10b, 1
+	JE   LBB3_526
+	LONG $0xf2048b4c         // mov    r8, qword [rdx + 8*rsi]
+	WORD $0x894c; BYTE $0xc7 // mov    rdi, r8
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	LONG $0xf84c0f49         // cmovl    rdi, r8
+	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_526:
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	JE   LBB3_865
+
+LBB3_527:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	LONG $0xf84c0f48             // cmovl    rdi, rax
+	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	LONG $0xf84c0f48             // cmovl    rdi, rax
+	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB3_527
+	JMP  LBB3_865
+
+LBB3_182:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_184
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_528
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_528
+
+LBB3_184:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_809:
+	WORD $0x8949; BYTE $0xf0       // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0       // not    r8
+	WORD $0x014d; BYTE $0xc8       // add    r8, r9
+	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
+	LONG $0x03e78348               // and    rdi, 3
+	JE   LBB3_812
+	LONG $0xffffba41; WORD $0x7fff // mov    r10d, 2147483647
+
+LBB3_811:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x2144; BYTE $0xd0 // and    eax, r10d
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_811
+
+LBB3_812:
+	LONG $0x03f88349             // cmp    r8, 3
+	JB   LBB3_865
+	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
+
+LBB3_814:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0xc721             // and    edi, eax
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x04b27c8b         // mov    edi, dword [rdx + 4*rsi + 4]
+	WORD $0xc721             // and    edi, eax
+	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
+	LONG $0x08b27c8b         // mov    edi, dword [rdx + 4*rsi + 8]
+	WORD $0xc721             // and    edi, eax
+	LONG $0x08b17c89         // mov    dword [rcx + 4*rsi + 8], edi
+	LONG $0x0cb27c8b         // mov    edi, dword [rdx + 4*rsi + 12]
+	WORD $0xc721             // and    edi, eax
+	LONG $0x0cb17c89         // mov    dword [rcx + 4*rsi + 12], edi
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_814
+	JMP  LBB3_865
+
+LBB3_185:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_187
+	LONG $0xd2348d4a         // lea    rsi, [rdx + 8*r10]
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	JBE  LBB3_531
+	LONG $0xd1348d4a         // lea    rsi, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	JBE  LBB3_531
+
+LBB3_187:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_534:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	LONG $0x01c2f641         // test    r10b, 1
+	JE   LBB3_536
+	LONG $0xf2048b4c         // mov    r8, qword [rdx + 8*rsi]
+	WORD $0x894c; BYTE $0xc7 // mov    rdi, r8
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	LONG $0xf84c0f49         // cmovl    rdi, r8
+	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_536:
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	JE   LBB3_865
+
+LBB3_537:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	LONG $0xf84c0f48             // cmovl    rdi, rax
+	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	LONG $0xf84c0f48             // cmovl    rdi, rax
+	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB3_537
+	JMP  LBB3_865
+
+LBB3_188:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_190
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_538
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_538
+
+LBB3_190:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_819:
+	WORD $0x8949; BYTE $0xf0       // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0       // not    r8
+	WORD $0x014d; BYTE $0xc8       // add    r8, r9
+	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
+	LONG $0x03e78348               // and    rdi, 3
+	JE   LBB3_822
+	LONG $0xffffba41; WORD $0x7fff // mov    r10d, 2147483647
+
+LBB3_821:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x2144; BYTE $0xd0 // and    eax, r10d
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_821
+
+LBB3_822:
+	LONG $0x03f88349             // cmp    r8, 3
+	JB   LBB3_865
+	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
+
+LBB3_824:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0xc721             // and    edi, eax
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x04b27c8b         // mov    edi, dword [rdx + 4*rsi + 4]
+	WORD $0xc721             // and    edi, eax
+	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
+	LONG $0x08b27c8b         // mov    edi, dword [rdx + 4*rsi + 8]
+	WORD $0xc721             // and    edi, eax
+	LONG $0x08b17c89         // mov    dword [rcx + 4*rsi + 8], edi
+	LONG $0x0cb27c8b         // mov    edi, dword [rdx + 4*rsi + 12]
+	WORD $0xc721             // and    edi, eax
+	LONG $0x0cb17c89         // mov    dword [rcx + 4*rsi + 12], edi
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_824
+	JMP  LBB3_865
+
+LBB3_191:
+	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
+	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
+	JAE  LBB3_338
+	WORD $0xd231                               // xor    edx, edx
+	JMP  LBB3_547
+
+LBB3_194:
+	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
+	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
+	JB   LBB3_196
+	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB3_548
+	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB3_548
+
+LBB3_196:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_829:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_831
+
+LBB3_830:
+	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_830
+
+LBB3_831:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_832:
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x2840; BYTE $0xc7     // sub    dil, al
+	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_832
+	JMP  LBB3_865
+
+LBB3_197:
+	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
+	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
+	JB   LBB3_199
+	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB3_551
+	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB3_551
+
+LBB3_199:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_554:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xcf // add    rdi, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB3_556
+
+LBB3_555:
+	LONG $0x00323c80 // cmp    byte [rdx + rsi], 0
+	LONG $0x3114950f // setne    byte [rcx + rsi]
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB3_555
+
+LBB3_556:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB3_865
+
+LBB3_557:
+	LONG $0x00323c80             // cmp    byte [rdx + rsi], 0
+	LONG $0x3114950f             // setne    byte [rcx + rsi]
+	LONG $0x01327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 1], 0
+	LONG $0x3154950f; BYTE $0x01 // setne    byte [rcx + rsi + 1]
+	LONG $0x02327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 2], 0
+	LONG $0x3154950f; BYTE $0x02 // setne    byte [rcx + rsi + 2]
+	LONG $0x03327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 3], 0
+	LONG $0x3154950f; BYTE $0x03 // setne    byte [rcx + rsi + 3]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_557
+	JMP  LBB3_865
+
+LBB3_200:
+	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
+	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
+	JB   LBB3_202
+	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB3_558
+	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB3_558
+
+LBB3_202:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_837:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_839
+
+LBB3_838:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_838
+
+LBB3_839:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_840:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_840
+	JMP  LBB3_865
+
+LBB3_203:
+	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
+	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
+	JB   LBB3_205
+	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB3_561
+	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB3_561
+
+LBB3_205:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_845:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_847
+
+LBB3_846:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_846
+
+LBB3_847:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_848:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_848
+	JMP  LBB3_865
+
+LBB3_206:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_208
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_564
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_564
+
+LBB3_208:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_853:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_855
+
+LBB3_854:
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_854
+
+LBB3_855:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_856:
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_856
+	JMP  LBB3_865
+
+LBB3_209:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_211
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_567
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_567
+
+LBB3_211:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_861:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_863
+
+LBB3_862:
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_862
+
+LBB3_863:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_865
+
+LBB3_864:
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_864
+	JMP  LBB3_865
+
+LBB3_212:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc3 // mov    r11d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_214
+	LONG $0x9a348d4a         // lea    rsi, [rdx + 4*r11]
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	JBE  LBB3_570
+	LONG $0x99348d4a         // lea    rsi, [rcx + 4*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	JBE  LBB3_570
+
+LBB3_214:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_573:
+	WORD $0x8949; BYTE $0xf2     // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2     // not    r10
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB3_575
+	LONG $0xb2048b44             // mov    r8d, dword [rdx + 4*rsi]
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	WORD $0x8545; BYTE $0xc0     // test    r8d, r8d
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf741; BYTE $0xd9     // neg    r9d
+	WORD $0x8545; BYTE $0xc0     // test    r8d, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	WORD $0x3c89; BYTE $0xb1     // mov    dword [rcx + 4*rsi], edi
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB3_575:
+	WORD $0x014d; BYTE $0xda       // add    r10, r11
+	JE   LBB3_865
+	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
+
+LBB3_577:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0xff31             // xor    edi, edi
+	WORD $0xc085             // test    eax, eax
+	LONG $0xd7950f40         // setne    dil
+	WORD $0xdff7             // neg    edi
+	WORD $0xc085             // test    eax, eax
+	LONG $0xf84f0f41         // cmovg    edi, r8d
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0xff31             // xor    edi, edi
+	WORD $0xc085             // test    eax, eax
+	LONG $0xd7950f40         // setne    dil
+	WORD $0xdff7             // neg    edi
+	WORD $0xc085             // test    eax, eax
+	LONG $0xf84f0f41         // cmovg    edi, r8d
+	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
+	LONG $0x02c68348         // add    rsi, 2
+	WORD $0x3949; BYTE $0xf3 // cmp    r11, rsi
+	JNE  LBB3_577
+	JMP  LBB3_865
+
+LBB3_215:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_217
+	LONG $0x92348d4a         // lea    rsi, [rdx + 4*r10]
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	JBE  LBB3_578
+	LONG $0x91348d4a         // lea    rsi, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	JBE  LBB3_578
+
+LBB3_217:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_581:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	LONG $0x01c2f641         // test    r10b, 1
+	JE   LBB3_583
+	LONG $0xb2048b44         // mov    r8d, dword [rdx + 4*rsi]
+	WORD $0x8944; BYTE $0xc7 // mov    edi, r8d
+	WORD $0xdff7             // neg    edi
+	LONG $0xf84c0f41         // cmovl    edi, r8d
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_583:
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	JE   LBB3_865
+
+LBB3_584:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0xc789             // mov    edi, eax
+	WORD $0xdff7             // neg    edi
+	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0xc789             // mov    edi, eax
+	WORD $0xdff7             // neg    edi
+	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
+	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
+	LONG $0x02c68348         // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
+	JNE  LBB3_584
+	JMP  LBB3_865
+
+LBB3_218:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_865
+	WORD $0x8945; BYTE $0xc2 // mov    r10d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_220
+	LONG $0x92348d4a         // lea    rsi, [rdx + 4*r10]
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	JBE  LBB3_585
+	LONG $0x91348d4a         // lea    rsi, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	JBE  LBB3_585
+
+LBB3_220:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_588:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	LONG $0x01c2f641         // test    r10b, 1
+	JE   LBB3_590
+	LONG $0xb2048b44         // mov    r8d, dword [rdx + 4*rsi]
+	WORD $0x8944; BYTE $0xc7 // mov    edi, r8d
+	WORD $0xdff7             // neg    edi
+	LONG $0xf84c0f41         // cmovl    edi, r8d
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_590:
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	JE   LBB3_865
+
+LBB3_591:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0xc789             // mov    edi, eax
+	WORD $0xdff7             // neg    edi
+	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0xc789             // mov    edi, eax
+	WORD $0xdff7             // neg    edi
+	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
+	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
+	LONG $0x02c68348         // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2 // cmp    r10, rsi
+	JNE  LBB3_591
+	JMP  LBB3_865
+
+LBB3_221:
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	WORD $0xe283; BYTE $0xe0 // and    edx, -32
+	LONG $0xe0428d48         // lea    rax, [rdx - 32]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x05efc148         // shr    rdi, 5
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0xfe89             // mov    esi, edi
+	WORD $0xe683; BYTE $0x03 // and    esi, 3
+	LONG $0x60f88348         // cmp    rax, 96
+	JAE  LBB3_367
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_369
+
+LBB3_265:
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	WORD $0xe283; BYTE $0xf0 // and    edx, -16
+	LONG $0xf0428d48         // lea    rax, [rdx - 16]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x04efc148         // shr    rdi, 4
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0xfe89             // mov    esi, edi
+	WORD $0xe683; BYTE $0x03 // and    esi, 3
+	LONG $0x30f88348         // cmp    rax, 48
+	JAE  LBB3_438
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_440
+
+LBB3_279:
+	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
+	WORD $0xe283; BYTE $0xc0       // and    edx, -64
+	LONG $0xc0428d48               // lea    rax, [rdx - 64]
+	WORD $0x8948; BYTE $0xc7       // mov    rdi, rax
+	LONG $0x06efc148               // shr    rdi, 6
+	LONG $0x01c78348               // add    rdi, 1
+	WORD $0xfe89                   // mov    esi, edi
+	WORD $0xe683; BYTE $0x03       // and    esi, 3
+	LONG $0x00c03d48; WORD $0x0000 // cmp    rax, 192
+	JAE  LBB3_461
+	WORD $0xc031                   // xor    eax, eax
+	JMP  LBB3_463
+
+LBB3_338:
+	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
+	WORD $0xe283; BYTE $0x80       // and    edx, -128
+	LONG $0x80428d48               // lea    rax, [rdx - 128]
+	WORD $0x8948; BYTE $0xc7       // mov    rdi, rax
+	LONG $0x07efc148               // shr    rdi, 7
+	LONG $0x01c78348               // add    rdi, 1
+	WORD $0xfe89                   // mov    esi, edi
+	WORD $0xe683; BYTE $0x03       // and    esi, 3
+	LONG $0x01803d48; WORD $0x0000 // cmp    rax, 384
+	JAE  LBB3_541
+	WORD $0xc031                   // xor    eax, eax
+	JMP  LBB3_543
+
+LBB3_374:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_612
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_376:
+	LONG $0x0cfafdc5; BYTE $0xba         // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20ba       // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40ba       // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x64fafdc5; WORD $0x60ba       // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0xb9         // vmovdqu    yword [rcx + 4*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x20b9       // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x40b9       // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x647ffec5; WORD $0x60b9       // vmovdqu    yword [rcx + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8cfafdc5; BYTE $0x00 // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba94fafdc5; BYTE $0x00 // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9cfafdc5; BYTE $0x00 // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa4fafdc5; BYTE $0x00 // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 128], ymm1
+	QUAD $0x0000a0b9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 160], ymm2
+	QUAD $0x0000c0b99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 192], ymm3
+	QUAD $0x0000e0b9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 224], ymm4
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_376
+	JMP  LBB3_613
+
+LBB3_377:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0       // and    esi, -32
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x587de2c4; WORD $0x404d // vpbroadcastd    ymm1, dword 64[rbp] /* [rip + .LCPI3_3] */
+
+LBB3_378:
+	LONG $0x1476fdc5; BYTE $0xba   // vpcmpeqd    ymm2, ymm0, yword [rdx + 4*rdi]
+	LONG $0xd1dfedc5               // vpandn    ymm2, ymm2, ymm1
+	LONG $0x5c76fdc5; WORD $0x20ba // vpcmpeqd    ymm3, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0xd9dfe5c5               // vpandn    ymm3, ymm3, ymm1
+	LONG $0x6476fdc5; WORD $0x40ba // vpcmpeqd    ymm4, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x6c76fdc5; WORD $0x60ba // vpcmpeqd    ymm5, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0xe1dfddc5               // vpandn    ymm4, ymm4, ymm1
+	LONG $0xe9dfd5c5               // vpandn    ymm5, ymm5, ymm1
+	LONG $0x147ffec5; BYTE $0xb9   // vmovdqu    yword [rcx + 4*rdi], ymm2
+	LONG $0x5c7ffec5; WORD $0x20b9 // vmovdqu    yword [rcx + 4*rdi + 32], ymm3
+	LONG $0x647ffec5; WORD $0x40b9 // vmovdqu    yword [rcx + 4*rdi + 64], ymm4
+	LONG $0x6c7ffec5; WORD $0x60b9 // vmovdqu    yword [rcx + 4*rdi + 96], ymm5
+	LONG $0x20c78348               // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB3_378
+	WORD $0x394c; BYTE $0xce       // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_380
+
+LBB3_384:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_620
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_386:
+	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
+	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_386
+	JMP  LBB3_621
+
+LBB3_387:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_628
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_389:
+	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
+	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_389
+	JMP  LBB3_629
+
+LBB3_390:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0       // and    esi, -16
+	LONG $0xf0468d48               // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
+	LONG $0x04e8c149               // shr    r8, 4
+	LONG $0x01c08349               // add    r8, 1
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	JE   LBB3_636
+	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
+	LONG $0xfee08348               // and    rax, -2
+	WORD $0xf748; BYTE $0xd8       // neg    rax
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI3_0] */
+
+LBB3_392:
+	LONG $0x0c57fdc5; BYTE $0xfa         // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x5457fdc5; WORD $0x20fa       // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5c57fdc5; WORD $0x40fa       // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x6457fdc5; WORD $0x60fa       // vxorpd    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x6411fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8c57fdc5; BYTE $0x00 // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9457fdc5; BYTE $0x00 // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c57fdc5; BYTE $0x00 // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa457fdc5; BYTE $0x00 // vxorpd    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm1
+	QUAD $0x0000a0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm2
+	QUAD $0x0000c0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm3
+	QUAD $0x0000e0f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm4
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_392
+	JMP  LBB3_637
+
+LBB3_393:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0       // and    esi, -16
+	LONG $0xf0468d48               // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
+	LONG $0x04e8c149               // shr    r8, 4
+	LONG $0x01c08349               // add    r8, 1
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	JE   LBB3_646
+	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
+	LONG $0xfee08348               // and    rax, -2
+	WORD $0xf748; BYTE $0xd8       // neg    rax
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI3_0] */
+
+LBB3_395:
+	LONG $0x0c57fdc5; BYTE $0xfa         // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x5457fdc5; WORD $0x20fa       // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5c57fdc5; WORD $0x40fa       // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x6457fdc5; WORD $0x60fa       // vxorpd    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x6411fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8c57fdc5; BYTE $0x00 // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9457fdc5; BYTE $0x00 // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c57fdc5; BYTE $0x00 // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa457fdc5; BYTE $0x00 // vxorpd    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm1
+	QUAD $0x0000a0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm2
+	QUAD $0x0000c0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm3
+	QUAD $0x0000e0f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm4
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_395
+	JMP  LBB3_647
+
+LBB3_396:
+	WORD $0xc689                   // mov    esi, eax
+	WORD $0xe683; BYTE $0xf0       // and    esi, -16
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0xc057f9c5               // vxorpd    xmm0, xmm0, xmm0
+	LONG $0x197de2c4; WORD $0x004d // vbroadcastsd    ymm1, qword 0[rbp] /* [rip + .LCPI3_0] */
+	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI3_1] */
+
+LBB3_397:
+	LONG $0x1c10fdc5; BYTE $0xfa   // vmovupd    ymm3, yword [rdx + 8*rdi]
+	LONG $0x6410fdc5; WORD $0x20fa // vmovupd    ymm4, yword [rdx + 8*rdi + 32]
+	LONG $0x6c10fdc5; WORD $0x40fa // vmovupd    ymm5, yword [rdx + 8*rdi + 64]
+	LONG $0x7410fdc5; WORD $0x60fa // vmovupd    ymm6, yword [rdx + 8*rdi + 96]
+	LONG $0xf954e5c5               // vandpd    ymm7, ymm3, ymm1
+	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
+	LONG $0xc1545dc5               // vandpd    ymm8, ymm4, ymm1
+	LONG $0xc2563dc5               // vorpd    ymm8, ymm8, ymm2
+	LONG $0xc95455c5               // vandpd    ymm9, ymm5, ymm1
+	LONG $0xca5635c5               // vorpd    ymm9, ymm9, ymm2
+	LONG $0xd1544dc5               // vandpd    ymm10, ymm6, ymm1
+	LONG $0xd2562dc5               // vorpd    ymm10, ymm10, ymm2
+	LONG $0xd8c2e5c5; BYTE $0x04   // vcmpneqpd    ymm3, ymm3, ymm0
+	LONG $0xdf54e5c5               // vandpd    ymm3, ymm3, ymm7
+	LONG $0xe0c2ddc5; BYTE $0x04   // vcmpneqpd    ymm4, ymm4, ymm0
+	LONG $0xe454bdc5               // vandpd    ymm4, ymm8, ymm4
+	LONG $0xe8c2d5c5; BYTE $0x04   // vcmpneqpd    ymm5, ymm5, ymm0
+	LONG $0xed54b5c5               // vandpd    ymm5, ymm9, ymm5
+	LONG $0xf0c2cdc5; BYTE $0x04   // vcmpneqpd    ymm6, ymm6, ymm0
+	LONG $0xf654adc5               // vandpd    ymm6, ymm10, ymm6
+	LONG $0x1c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm3
+	LONG $0x6411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm4
+	LONG $0x6c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm5
+	LONG $0x7411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm6
+	LONG $0x10c78348               // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB3_397
+	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
+	JE   LBB3_865
+	JMP  LBB3_399
+
+LBB3_404:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0       // and    esi, -16
+	LONG $0xf0468d48               // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
+	LONG $0x04e8c149               // shr    r8, 4
+	LONG $0x01c08349               // add    r8, 1
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	JE   LBB3_656
+	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
+	LONG $0xfee08348               // and    rax, -2
+	WORD $0xf748; BYTE $0xd8       // neg    rax
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x197de2c4; WORD $0x1845 // vbroadcastsd    ymm0, qword 24[rbp] /* [rip + .LCPI3_8] */
+
+LBB3_406:
+	LONG $0x0c54fdc5; BYTE $0xfa         // vandpd    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x5454fdc5; WORD $0x20fa       // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5c54fdc5; WORD $0x40fa       // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x6454fdc5; WORD $0x60fa       // vandpd    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x6411fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8c54fdc5; BYTE $0x00 // vandpd    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9454fdc5; BYTE $0x00 // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c54fdc5; BYTE $0x00 // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa454fdc5; BYTE $0x00 // vandpd    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm1
+	QUAD $0x0000a0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm2
+	QUAD $0x0000c0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm3
+	QUAD $0x0000e0f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm4
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_406
+	JMP  LBB3_657
+
+LBB3_407:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0       // and    esi, -16
+	LONG $0xf0468d48               // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
+	LONG $0x04e8c149               // shr    r8, 4
+	LONG $0x01c08349               // add    r8, 1
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	JE   LBB3_664
+	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
+	LONG $0xfee08348               // and    rax, -2
+	WORD $0xf748; BYTE $0xd8       // neg    rax
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x197de2c4; WORD $0x1845 // vbroadcastsd    ymm0, qword 24[rbp] /* [rip + .LCPI3_8] */
+
+LBB3_409:
+	LONG $0x0c54fdc5; BYTE $0xfa         // vandpd    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x5454fdc5; WORD $0x20fa       // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5c54fdc5; WORD $0x40fa       // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x6454fdc5; WORD $0x60fa       // vandpd    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x6411fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8c54fdc5; BYTE $0x00 // vandpd    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9454fdc5; BYTE $0x00 // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c54fdc5; BYTE $0x00 // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa454fdc5; BYTE $0x00 // vandpd    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm1
+	QUAD $0x0000a0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm2
+	QUAD $0x0000c0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm3
+	QUAD $0x0000e0f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm4
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_409
+	JMP  LBB3_665
+
+LBB3_410:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	LONG $0x80468d48         // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x07e8c149         // shr    r8, 7
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_672
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_412:
+	LONG $0x0cf8fdc5; BYTE $0x3a               // vpsubb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54f8fdc5; WORD $0x203a             // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x403a             // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x64f8fdc5; WORD $0x603a             // vpsubb    ymm4, ymm0, yword [rdx + rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
+	LONG $0x547ffec5; WORD $0x2039             // vmovdqu    yword [rcx + rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x4039             // vmovdqu    yword [rcx + rdi + 64], ymm3
+	LONG $0x647ffec5; WORD $0x6039             // vmovdqu    yword [rcx + rdi + 96], ymm4
+	QUAD $0x0000803a8cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a94f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rdx + rdi + 224]
+	QUAD $0x000080398c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 128], ymm1
+	QUAD $0x0000a039947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 160], ymm2
+	QUAD $0x0000c0399c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 192], ymm3
+	QUAD $0x0000e039a47ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB3_412
+	JMP  LBB3_673
+
+LBB3_413:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	LONG $0x80468d48         // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x07e8c149         // shr    r8, 7
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_680
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_415:
+	LONG $0x0cf8fdc5; BYTE $0x3a               // vpsubb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54f8fdc5; WORD $0x203a             // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x403a             // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x64f8fdc5; WORD $0x603a             // vpsubb    ymm4, ymm0, yword [rdx + rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
+	LONG $0x547ffec5; WORD $0x2039             // vmovdqu    yword [rcx + rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x4039             // vmovdqu    yword [rcx + rdi + 64], ymm3
+	LONG $0x647ffec5; WORD $0x6039             // vmovdqu    yword [rcx + rdi + 96], ymm4
+	QUAD $0x0000803a8cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a94f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rdx + rdi + 224]
+	QUAD $0x000080398c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 128], ymm1
+	QUAD $0x0000a039947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 160], ymm2
+	QUAD $0x0000c0399c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 192], ymm3
+	QUAD $0x0000e039a47ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB3_415
+	JMP  LBB3_681
+
+LBB3_416:
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x00000080956ffdc5 // vmovdqa    ymm2, yword 128[rbp] /* [rip + .LCPI3_6] */
+
+LBB3_417:
+	LONG $0x1c6ffec5; BYTE $0x3a   // vmovdqu    ymm3, yword [rdx + rdi]
+	LONG $0x646ffec5; WORD $0x203a // vmovdqu    ymm4, yword [rdx + rdi + 32]
+	LONG $0x6c6ffec5; WORD $0x403a // vmovdqu    ymm5, yword [rdx + rdi + 64]
+	LONG $0x746ffec5; WORD $0x603a // vmovdqu    ymm6, yword [rdx + rdi + 96]
+	LONG $0xf874e5c5               // vpcmpeqb    ymm7, ymm3, ymm0
+	LONG $0xf9efc5c5               // vpxor    ymm7, ymm7, ymm1
+	LONG $0xc0745dc5               // vpcmpeqb    ymm8, ymm4, ymm0
+	LONG $0xc1ef3dc5               // vpxor    ymm8, ymm8, ymm1
+	LONG $0xc87455c5               // vpcmpeqb    ymm9, ymm5, ymm0
+	LONG $0xc9ef35c5               // vpxor    ymm9, ymm9, ymm1
+	LONG $0xd0744dc5               // vpcmpeqb    ymm10, ymm6, ymm0
+	LONG $0xd1ef2dc5               // vpxor    ymm10, ymm10, ymm1
+	LONG $0xdb64edc5               // vpcmpgtb    ymm3, ymm2, ymm3
+	LONG $0xe464edc5               // vpcmpgtb    ymm4, ymm2, ymm4
+	LONG $0xed64edc5               // vpcmpgtb    ymm5, ymm2, ymm5
+	LONG $0xf664edc5               // vpcmpgtb    ymm6, ymm2, ymm6
+	LONG $0x4c6de3c4; WORD $0x30df // vpblendvb    ymm3, ymm2, ymm7, ymm3
+	LONG $0x4c6dc3c4; WORD $0x40e0 // vpblendvb    ymm4, ymm2, ymm8, ymm4
+	LONG $0x4c6dc3c4; WORD $0x50e9 // vpblendvb    ymm5, ymm2, ymm9, ymm5
+	LONG $0x4c6dc3c4; WORD $0x60f2 // vpblendvb    ymm6, ymm2, ymm10, ymm6
+	LONG $0x1c7ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm3
+	LONG $0x647ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm4
+	LONG $0x6c7ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm5
+	LONG $0x747ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm6
+	LONG $0x80ef8348               // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB3_417
+	WORD $0x394c; BYTE $0xde       // cmp    rsi, r11
+	JE   LBB3_865
+	JMP  LBB3_419
+
+LBB3_424:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456ff9c5; BYTE $0x30 // vmovdqa    xmm0, oword 48[rbp] /* [rip + .LCPI3_11] */
+
+LBB3_425:
+	LONG $0x217de2c4; WORD $0x3a0c             // vpmovsxbd    ymm1, qword [rdx + rdi]
+	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbd    ymm2, qword [rdx + rdi + 8]
+	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x10 // vpmovsxbd    ymm3, qword [rdx + rdi + 16]
+	LONG $0x217de2c4; WORD $0x3a64; BYTE $0x18 // vpmovsxbd    ymm4, qword [rdx + rdi + 24]
+	LONG $0xe172d5c5; BYTE $0x07               // vpsrad    ymm5, ymm1, 7
+	LONG $0xe272cdc5; BYTE $0x07               // vpsrad    ymm6, ymm2, 7
+	LONG $0xe372c5c5; BYTE $0x07               // vpsrad    ymm7, ymm3, 7
+	LONG $0xe472bdc5; BYTE $0x07               // vpsrad    ymm8, ymm4, 7
+	LONG $0xc9fed5c5                           // vpaddd    ymm1, ymm5, ymm1
+	LONG $0xd2fecdc5                           // vpaddd    ymm2, ymm6, ymm2
+	LONG $0xdbfec5c5                           // vpaddd    ymm3, ymm7, ymm3
+	LONG $0xe4febdc5                           // vpaddd    ymm4, ymm8, ymm4
+	LONG $0xcdeff5c5                           // vpxor    ymm1, ymm1, ymm5
+	LONG $0xd6efedc5                           // vpxor    ymm2, ymm2, ymm6
+	LONG $0xdfefe5c5                           // vpxor    ymm3, ymm3, ymm7
+	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
+	LONG $0x397de3c4; WORD $0x01cd             // vextracti128    xmm5, ymm1, 1
+	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8               // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xcd62f1c5                           // vpunpckldq    xmm1, xmm1, xmm5
+	LONG $0x397de3c4; WORD $0x01d5             // vextracti128    xmm5, ymm2, 1
+	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
+	LONG $0x0069e2c4; BYTE $0xd0               // vpshufb    xmm2, xmm2, xmm0
+	LONG $0xd562e9c5                           // vpunpckldq    xmm2, xmm2, xmm5
+	LONG $0x397de3c4; WORD $0x01dd             // vextracti128    xmm5, ymm3, 1
+	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8               // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xdd62e1c5                           // vpunpckldq    xmm3, xmm3, xmm5
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
+	LONG $0x0059e2c4; BYTE $0xe0               // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xe562d9c5                           // vpunpckldq    xmm4, xmm4, xmm5
+	LONG $0x3865e3c4; WORD $0x01dc             // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xcb6cf5c5                           // vpunpcklqdq    ymm1, ymm1, ymm3
+	LONG $0x00fde3c4; WORD $0xd8c9             // vpermq    ymm1, ymm1, 216
+	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB3_425
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB3_865
+	JMP  LBB3_427
+
+LBB3_431:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456ff9c5; BYTE $0x30 // vmovdqa    xmm0, oword 48[rbp] /* [rip + .LCPI3_11] */
+
+LBB3_432:
+	LONG $0x217de2c4; WORD $0x3a0c             // vpmovsxbd    ymm1, qword [rdx + rdi]
+	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbd    ymm2, qword [rdx + rdi + 8]
+	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x10 // vpmovsxbd    ymm3, qword [rdx + rdi + 16]
+	LONG $0x217de2c4; WORD $0x3a64; BYTE $0x18 // vpmovsxbd    ymm4, qword [rdx + rdi + 24]
+	LONG $0xe172d5c5; BYTE $0x07               // vpsrad    ymm5, ymm1, 7
+	LONG $0xe272cdc5; BYTE $0x07               // vpsrad    ymm6, ymm2, 7
+	LONG $0xe372c5c5; BYTE $0x07               // vpsrad    ymm7, ymm3, 7
+	LONG $0xe472bdc5; BYTE $0x07               // vpsrad    ymm8, ymm4, 7
+	LONG $0xc9fed5c5                           // vpaddd    ymm1, ymm5, ymm1
+	LONG $0xd2fecdc5                           // vpaddd    ymm2, ymm6, ymm2
+	LONG $0xdbfec5c5                           // vpaddd    ymm3, ymm7, ymm3
+	LONG $0xe4febdc5                           // vpaddd    ymm4, ymm8, ymm4
+	LONG $0xcdeff5c5                           // vpxor    ymm1, ymm1, ymm5
+	LONG $0xd6efedc5                           // vpxor    ymm2, ymm2, ymm6
+	LONG $0xdfefe5c5                           // vpxor    ymm3, ymm3, ymm7
+	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
+	LONG $0x397de3c4; WORD $0x01cd             // vextracti128    xmm5, ymm1, 1
+	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8               // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xcd62f1c5                           // vpunpckldq    xmm1, xmm1, xmm5
+	LONG $0x397de3c4; WORD $0x01d5             // vextracti128    xmm5, ymm2, 1
+	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
+	LONG $0x0069e2c4; BYTE $0xd0               // vpshufb    xmm2, xmm2, xmm0
+	LONG $0xd562e9c5                           // vpunpckldq    xmm2, xmm2, xmm5
+	LONG $0x397de3c4; WORD $0x01dd             // vextracti128    xmm5, ymm3, 1
+	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8               // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xdd62e1c5                           // vpunpckldq    xmm3, xmm3, xmm5
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0x0051e2c4; BYTE $0xe8               // vpshufb    xmm5, xmm5, xmm0
+	LONG $0x0059e2c4; BYTE $0xe0               // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xe562d9c5                           // vpunpckldq    xmm4, xmm4, xmm5
+	LONG $0x3865e3c4; WORD $0x01dc             // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xcb6cf5c5                           // vpunpcklqdq    ymm1, ymm1, ymm3
+	LONG $0x00fde3c4; WORD $0xd8c9             // vpermq    ymm1, ymm1, 216
+	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB3_432
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB3_865
+	JMP  LBB3_434
+
+LBB3_445:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_688
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_447:
+	LONG $0x0cfbfdc5; BYTE $0xfa         // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20fa       // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40fa       // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x64fbfdc5; WORD $0x60fa       // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0xf9         // vmovdqu    yword [rcx + 8*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x20f9       // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x40f9       // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x647ffec5; WORD $0x60f9       // vmovdqu    yword [rcx + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8cfbfdc5; BYTE $0x00 // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa94fbfdc5; BYTE $0x00 // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9cfbfdc5; BYTE $0x00 // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa4fbfdc5; BYTE $0x00 // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 128], ymm1
+	QUAD $0x0000a0f9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 160], ymm2
+	QUAD $0x0000c0f99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 192], ymm3
+	QUAD $0x0000e0f9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 224], ymm4
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_447
+	JMP  LBB3_689
+
+LBB3_448:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0       // and    esi, -16
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x597de2c4; WORD $0x104d // vpbroadcastq    ymm1, qword 16[rbp] /* [rip + .LCPI3_4] */
+
+LBB3_449:
+	LONG $0x297de2c4; WORD $0xfa14             // vpcmpeqq    ymm2, ymm0, yword [rdx + 8*rdi]
+	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
+	LONG $0x297de2c4; WORD $0xfa5c; BYTE $0x20 // vpcmpeqq    ymm3, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
+	LONG $0x297de2c4; WORD $0xfa64; BYTE $0x40 // vpcmpeqq    ymm4, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x297de2c4; WORD $0xfa6c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
+	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
+	LONG $0x147ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm2
+	LONG $0x5c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm3
+	LONG $0x647ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm4
+	LONG $0x6c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm5
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB3_449
+	WORD $0x394c; BYTE $0xce                   // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_451
+
+LBB3_455:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_696
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_457:
+	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
+	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_457
+	JMP  LBB3_697
+
+LBB3_458:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_704
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_460:
+	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
+	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_460
+	JMP  LBB3_705
+
+LBB3_468:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_712
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_470:
+	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54f9fdc5; WORD $0x207a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x407a // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54f9fdc5; WORD $0x607a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x4c7ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm1
+	LONG $0x547ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm2
+	LONG $0x40c78348               // add    rdi, 64
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_470
+	JMP  LBB3_713
+
+LBB3_471:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_720
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_473:
+	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54f9fdc5; WORD $0x207a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x407a // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54f9fdc5; WORD $0x607a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x4c7ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm1
+	LONG $0x547ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm2
+	LONG $0x40c78348               // add    rdi, 64
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_473
+	JMP  LBB3_721
+
+LBB3_474:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_728
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_476:
+	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54f9fdc5; WORD $0x207a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x407a // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54f9fdc5; WORD $0x607a // vpsubw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x4c7ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm1
+	LONG $0x547ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm2
+	LONG $0x40c78348               // add    rdi, 64
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_476
+	JMP  LBB3_729
+
+LBB3_477:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x05e8c149             // shr    r8, 5
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_736
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x4d6ffdc5; BYTE $0x60 // vmovdqa    ymm1, yword 96[rbp] /* [rip + .LCPI3_5] */
+
+LBB3_479:
+	LONG $0x1475fdc5; BYTE $0x7a   // vpcmpeqw    ymm2, ymm0, yword [rdx + 2*rdi]
+	LONG $0xd1dfedc5               // vpandn    ymm2, ymm2, ymm1
+	LONG $0x5c75fdc5; WORD $0x207a // vpcmpeqw    ymm3, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0xd9dfe5c5               // vpandn    ymm3, ymm3, ymm1
+	LONG $0x147ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm2
+	LONG $0x5c7ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm3
+	LONG $0x5475fdc5; WORD $0x407a // vpcmpeqw    ymm2, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0xd1dfedc5               // vpandn    ymm2, ymm2, ymm1
+	LONG $0x5c75fdc5; WORD $0x607a // vpcmpeqw    ymm3, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0xd9dfe5c5               // vpandn    ymm3, ymm3, ymm1
+	LONG $0x547ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
+	LONG $0x40c78348               // add    rdi, 64
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_479
+	JMP  LBB3_737
+
+LBB3_480:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x05e8c149             // shr    r8, 5
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_744
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0x556ffdc5; BYTE $0x60 // vmovdqa    ymm2, yword 96[rbp] /* [rip + .LCPI3_5] */
+
+LBB3_482:
+	LONG $0x1c6ffec5; BYTE $0x7a   // vmovdqu    ymm3, yword [rdx + 2*rdi]
+	LONG $0x646ffec5; WORD $0x207a // vmovdqu    ymm4, yword [rdx + 2*rdi + 32]
+	LONG $0xe875e5c5               // vpcmpeqw    ymm5, ymm3, ymm0
+	LONG $0xe9efd5c5               // vpxor    ymm5, ymm5, ymm1
+	LONG $0xf075ddc5               // vpcmpeqw    ymm6, ymm4, ymm0
+	LONG $0xf1efcdc5               // vpxor    ymm6, ymm6, ymm1
+	LONG $0xdb65edc5               // vpcmpgtw    ymm3, ymm2, ymm3
+	LONG $0xe465edc5               // vpcmpgtw    ymm4, ymm2, ymm4
+	LONG $0x4c6de3c4; WORD $0x30dd // vpblendvb    ymm3, ymm2, ymm5, ymm3
+	LONG $0x4c6de3c4; WORD $0x40e6 // vpblendvb    ymm4, ymm2, ymm6, ymm4
+	LONG $0x1c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm3
+	LONG $0x647ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm4
+	LONG $0x5c6ffec5; WORD $0x407a // vmovdqu    ymm3, yword [rdx + 2*rdi + 64]
+	LONG $0x646ffec5; WORD $0x607a // vmovdqu    ymm4, yword [rdx + 2*rdi + 96]
+	LONG $0xe875e5c5               // vpcmpeqw    ymm5, ymm3, ymm0
+	LONG $0xe9efd5c5               // vpxor    ymm5, ymm5, ymm1
+	LONG $0xf075ddc5               // vpcmpeqw    ymm6, ymm4, ymm0
+	LONG $0xf1efcdc5               // vpxor    ymm6, ymm6, ymm1
+	LONG $0xdb65edc5               // vpcmpgtw    ymm3, ymm2, ymm3
+	LONG $0xe465edc5               // vpcmpgtw    ymm4, ymm2, ymm4
+	LONG $0x4c6de3c4; WORD $0x30dd // vpblendvb    ymm3, ymm2, ymm5, ymm3
+	LONG $0x4c6de3c4; WORD $0x40e6 // vpblendvb    ymm4, ymm2, ymm6, ymm4
+	LONG $0x5c7ffec5; WORD $0x4079 // vmovdqu    yword [rcx + 2*rdi + 64], ymm3
+	LONG $0x647ffec5; WORD $0x6079 // vmovdqu    yword [rcx + 2*rdi + 96], ymm4
+	LONG $0x40c78348               // add    rdi, 64
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_482
+	JMP  LBB3_745
+
+LBB3_483:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x05efc148         // shr    rdi, 5
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x60f88348         // cmp    rax, 96
+	JAE  LBB3_592
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_594
+
+LBB3_485:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_753
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI3_10] */
+
+LBB3_487:
+	LONG $0x237de2c4; WORD $0x7a0c             // vpmovsxwd    ymm1, oword [rdx + 2*rdi]
+	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 16]
+	LONG $0xe272e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm2, 15
+	LONG $0xe172ddc5; BYTE $0x0f               // vpsrad    ymm4, ymm1, 15
+	LONG $0xc9feddc5                           // vpaddd    ymm1, ymm4, ymm1
+	LONG $0xd2fee5c5                           // vpaddd    ymm2, ymm3, ymm2
+	LONG $0xd3efedc5                           // vpxor    ymm2, ymm2, ymm3
+	LONG $0xcceff5c5                           // vpxor    ymm1, ymm1, ymm4
+	LONG $0x0075e2c4; BYTE $0xc8               // vpshufb    ymm1, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd0               // vpshufb    ymm2, ymm2, ymm0
+	LONG $0x00fde3c4; WORD $0xe8d2             // vpermq    ymm2, ymm2, 232
+	LONG $0x547ffac5; WORD $0x1079             // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
+	LONG $0x0c7ffac5; BYTE $0x79               // vmovdqu    oword [rcx + 2*rdi], xmm1
+	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x20 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 32]
+	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 48]
+	LONG $0xe272e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm2, 15
+	LONG $0xe172ddc5; BYTE $0x0f               // vpsrad    ymm4, ymm1, 15
+	LONG $0xc9feddc5                           // vpaddd    ymm1, ymm4, ymm1
+	LONG $0xd2fee5c5                           // vpaddd    ymm2, ymm3, ymm2
+	LONG $0xd3efedc5                           // vpxor    ymm2, ymm2, ymm3
+	LONG $0xcceff5c5                           // vpxor    ymm1, ymm1, ymm4
+	LONG $0x0075e2c4; BYTE $0xc8               // vpshufb    ymm1, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd0               // vpshufb    ymm2, ymm2, ymm0
+	LONG $0x00fde3c4; WORD $0xe8d2             // vpermq    ymm2, ymm2, 232
+	LONG $0x547ffac5; WORD $0x3079             // vmovdqu    oword [rcx + 2*rdi + 48], xmm2
+	LONG $0x4c7ffac5; WORD $0x2079             // vmovdqu    oword [rcx + 2*rdi + 32], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB3_487
+	JMP  LBB3_754
+
+LBB3_488:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x05efc148         // shr    rdi, 5
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x60f88348         // cmp    rax, 96
+	JAE  LBB3_602
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_604
+
+LBB3_490:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_761
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI3_10] */
+
+LBB3_492:
+	LONG $0x237de2c4; WORD $0x7a0c             // vpmovsxwd    ymm1, oword [rdx + 2*rdi]
+	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 16]
+	LONG $0xe272e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm2, 15
+	LONG $0xe172ddc5; BYTE $0x0f               // vpsrad    ymm4, ymm1, 15
+	LONG $0xc9feddc5                           // vpaddd    ymm1, ymm4, ymm1
+	LONG $0xd2fee5c5                           // vpaddd    ymm2, ymm3, ymm2
+	LONG $0xd3efedc5                           // vpxor    ymm2, ymm2, ymm3
+	LONG $0xcceff5c5                           // vpxor    ymm1, ymm1, ymm4
+	LONG $0x0075e2c4; BYTE $0xc8               // vpshufb    ymm1, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd0               // vpshufb    ymm2, ymm2, ymm0
+	LONG $0x00fde3c4; WORD $0xe8d2             // vpermq    ymm2, ymm2, 232
+	LONG $0x547ffac5; WORD $0x1079             // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
+	LONG $0x0c7ffac5; BYTE $0x79               // vmovdqu    oword [rcx + 2*rdi], xmm1
+	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x20 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 32]
+	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 48]
+	LONG $0xe272e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm2, 15
+	LONG $0xe172ddc5; BYTE $0x0f               // vpsrad    ymm4, ymm1, 15
+	LONG $0xc9feddc5                           // vpaddd    ymm1, ymm4, ymm1
+	LONG $0xd2fee5c5                           // vpaddd    ymm2, ymm3, ymm2
+	LONG $0xd3efedc5                           // vpxor    ymm2, ymm2, ymm3
+	LONG $0xcceff5c5                           // vpxor    ymm1, ymm1, ymm4
+	LONG $0x0075e2c4; BYTE $0xc8               // vpshufb    ymm1, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd0               // vpshufb    ymm2, ymm2, ymm0
+	LONG $0x00fde3c4; WORD $0xe8d2             // vpermq    ymm2, ymm2, 232
+	LONG $0x547ffac5; WORD $0x3079             // vmovdqu    oword [rcx + 2*rdi + 48], xmm2
+	LONG $0x4c7ffac5; WORD $0x2079             // vmovdqu    oword [rcx + 2*rdi + 32], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB3_492
+	JMP  LBB3_762
+
+LBB3_493:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_769
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_495:
+	LONG $0x0cfbfdc5; BYTE $0xfa         // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20fa       // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40fa       // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x64fbfdc5; WORD $0x60fa       // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0xf9         // vmovdqu    yword [rcx + 8*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x20f9       // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x40f9       // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x647ffec5; WORD $0x60f9       // vmovdqu    yword [rcx + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8cfbfdc5; BYTE $0x00 // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa94fbfdc5; BYTE $0x00 // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9cfbfdc5; BYTE $0x00 // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa4fbfdc5; BYTE $0x00 // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 128], ymm1
+	QUAD $0x0000a0f9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 160], ymm2
+	QUAD $0x0000c0f99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 192], ymm3
+	QUAD $0x0000e0f9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 224], ymm4
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_495
+	JMP  LBB3_770
+
+LBB3_496:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0       // and    esi, -32
+	LONG $0xe0468d48               // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
+	LONG $0x05e8c149               // shr    r8, 5
+	LONG $0x01c08349               // add    r8, 1
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	JE   LBB3_777
+	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
+	LONG $0xfee08348               // and    rax, -2
+	WORD $0xf748; BYTE $0xd8       // neg    rax
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x187de2c4; WORD $0x4445 // vbroadcastss    ymm0, dword 68[rbp] /* [rip + .LCPI3_7] */
+
+LBB3_498:
+	LONG $0x0c57fdc5; BYTE $0xba         // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x5457fdc5; WORD $0x20ba       // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5c57fdc5; WORD $0x40ba       // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x6457fdc5; WORD $0x60ba       // vxorpd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xb9         // vmovupd    yword [rcx + 4*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20b9       // vmovupd    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40b9       // vmovupd    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x6411fdc5; WORD $0x60b9       // vmovupd    yword [rcx + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8c57fdc5; BYTE $0x00 // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba9457fdc5; BYTE $0x00 // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c57fdc5; BYTE $0x00 // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa457fdc5; BYTE $0x00 // vxorpd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm1
+	QUAD $0x0000a0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm2
+	QUAD $0x0000c0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm3
+	QUAD $0x0000e0b9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm4
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_498
+	JMP  LBB3_778
+
+LBB3_499:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_787
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_501:
+	LONG $0x0cfbfdc5; BYTE $0xfa         // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20fa       // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40fa       // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x64fbfdc5; WORD $0x60fa       // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0xf9         // vmovdqu    yword [rcx + 8*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x20f9       // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x40f9       // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x647ffec5; WORD $0x60f9       // vmovdqu    yword [rcx + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8cfbfdc5; BYTE $0x00 // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa94fbfdc5; BYTE $0x00 // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9cfbfdc5; BYTE $0x00 // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa4fbfdc5; BYTE $0x00 // vpsubq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 128], ymm1
+	QUAD $0x0000a0f9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 160], ymm2
+	QUAD $0x0000c0f99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 192], ymm3
+	QUAD $0x0000e0f9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 8*rdi + 224], ymm4
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_501
+	JMP  LBB3_788
+
+LBB3_502:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0       // and    esi, -32
+	LONG $0xe0468d48               // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
+	LONG $0x05e8c149               // shr    r8, 5
+	LONG $0x01c08349               // add    r8, 1
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	JE   LBB3_795
+	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
+	LONG $0xfee08348               // and    rax, -2
+	WORD $0xf748; BYTE $0xd8       // neg    rax
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x187de2c4; WORD $0x4445 // vbroadcastss    ymm0, dword 68[rbp] /* [rip + .LCPI3_7] */
+
+LBB3_504:
+	LONG $0x0c57fdc5; BYTE $0xba         // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x5457fdc5; WORD $0x20ba       // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5c57fdc5; WORD $0x40ba       // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x6457fdc5; WORD $0x60ba       // vxorpd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xb9         // vmovupd    yword [rcx + 4*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20b9       // vmovupd    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40b9       // vmovupd    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x6411fdc5; WORD $0x60b9       // vmovupd    yword [rcx + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8c57fdc5; BYTE $0x00 // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba9457fdc5; BYTE $0x00 // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c57fdc5; BYTE $0x00 // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa457fdc5; BYTE $0x00 // vxorpd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm1
+	QUAD $0x0000a0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm2
+	QUAD $0x0000c0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm3
+	QUAD $0x0000e0b9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm4
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_504
+	JMP  LBB3_796
+
+LBB3_505:
+	WORD $0x8944; BYTE $0xde       // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0       // and    esi, -16
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0x597de2c4; WORD $0x1055 // vpbroadcastq    ymm2, qword 16[rbp] /* [rip + .LCPI3_4] */
+
+LBB3_506:
+	LONG $0x1c6ffec5; BYTE $0xfa   // vmovdqu    ymm3, yword [rdx + 8*rdi]
+	LONG $0x646ffec5; WORD $0x20fa // vmovdqu    ymm4, yword [rdx + 8*rdi + 32]
+	LONG $0x6c6ffec5; WORD $0x40fa // vmovdqu    ymm5, yword [rdx + 8*rdi + 64]
+	LONG $0x746ffec5; WORD $0x60fa // vmovdqu    ymm6, yword [rdx + 8*rdi + 96]
+	LONG $0x2965e2c4; BYTE $0xf8   // vpcmpeqq    ymm7, ymm3, ymm0
+	LONG $0xf9efc5c5               // vpxor    ymm7, ymm7, ymm1
+	LONG $0x295d62c4; BYTE $0xc0   // vpcmpeqq    ymm8, ymm4, ymm0
+	LONG $0xc1ef3dc5               // vpxor    ymm8, ymm8, ymm1
+	LONG $0x295562c4; BYTE $0xc8   // vpcmpeqq    ymm9, ymm5, ymm0
+	LONG $0xc9ef35c5               // vpxor    ymm9, ymm9, ymm1
+	LONG $0x294d62c4; BYTE $0xd0   // vpcmpeqq    ymm10, ymm6, ymm0
+	LONG $0xd1ef2dc5               // vpxor    ymm10, ymm10, ymm1
+	LONG $0x376de2c4; BYTE $0xdb   // vpcmpgtq    ymm3, ymm2, ymm3
+	LONG $0x376de2c4; BYTE $0xe4   // vpcmpgtq    ymm4, ymm2, ymm4
+	LONG $0x376de2c4; BYTE $0xed   // vpcmpgtq    ymm5, ymm2, ymm5
+	LONG $0x376de2c4; BYTE $0xf6   // vpcmpgtq    ymm6, ymm2, ymm6
+	LONG $0x4b6de3c4; WORD $0x30df // vblendvpd    ymm3, ymm2, ymm7, ymm3
+	LONG $0x4b6dc3c4; WORD $0x40e0 // vblendvpd    ymm4, ymm2, ymm8, ymm4
+	LONG $0x4b6dc3c4; WORD $0x50e9 // vblendvpd    ymm5, ymm2, ymm9, ymm5
+	LONG $0x4b6dc3c4; WORD $0x60f2 // vblendvpd    ymm6, ymm2, ymm10, ymm6
+	LONG $0x1c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm3
+	LONG $0x6411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm4
+	LONG $0x6c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm5
+	LONG $0x7411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm6
+	LONG $0x10c78348               // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB3_506
+	WORD $0x394c; BYTE $0xde       // cmp    rsi, r11
+	JE   LBB3_865
+	JMP  LBB3_508
+
+LBB3_513:
+	WORD $0xc689                   // mov    esi, eax
+	WORD $0xe683; BYTE $0xe0       // and    esi, -32
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0xc057f8c5               // vxorps    xmm0, xmm0, xmm0
+	LONG $0x587de2c4; WORD $0x404d // vpbroadcastd    ymm1, dword 64[rbp] /* [rip + .LCPI3_3] */
+
+LBB3_514:
+	LONG $0x146ffec5; BYTE $0xba   // vmovdqu    ymm2, yword [rdx + 4*rdi]
+	LONG $0x5c6ffec5; WORD $0x20ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 32]
+	LONG $0x646ffec5; WORD $0x40ba // vmovdqu    ymm4, yword [rdx + 4*rdi + 64]
+	LONG $0x6c6ffec5; WORD $0x60ba // vmovdqu    ymm5, yword [rdx + 4*rdi + 96]
+	LONG $0xe272cdc5; BYTE $0x1f   // vpsrad    ymm6, ymm2, 31
+	LONG $0xf1ebcdc5               // vpor    ymm6, ymm6, ymm1
+	LONG $0xe372c5c5; BYTE $0x1f   // vpsrad    ymm7, ymm3, 31
+	LONG $0xf9ebc5c5               // vpor    ymm7, ymm7, ymm1
+	LONG $0xe472bdc5; BYTE $0x1f   // vpsrad    ymm8, ymm4, 31
+	LONG $0xc1eb3dc5               // vpor    ymm8, ymm8, ymm1
+	LONG $0xe572b5c5; BYTE $0x1f   // vpsrad    ymm9, ymm5, 31
+	LONG $0xc9eb35c5               // vpor    ymm9, ymm9, ymm1
+	LONG $0xf65bfcc5               // vcvtdq2ps    ymm6, ymm6
+	LONG $0xff5bfcc5               // vcvtdq2ps    ymm7, ymm7
+	LONG $0x5b7c41c4; BYTE $0xc0   // vcvtdq2ps    ymm8, ymm8
+	LONG $0x5b7c41c4; BYTE $0xc9   // vcvtdq2ps    ymm9, ymm9
+	LONG $0xd0c2ecc5; BYTE $0x04   // vcmpneqps    ymm2, ymm2, ymm0
+	LONG $0xd654ecc5               // vandps    ymm2, ymm2, ymm6
+	LONG $0xd8c2e4c5; BYTE $0x04   // vcmpneqps    ymm3, ymm3, ymm0
+	LONG $0xdf54e4c5               // vandps    ymm3, ymm3, ymm7
+	LONG $0xe0c2dcc5; BYTE $0x04   // vcmpneqps    ymm4, ymm4, ymm0
+	LONG $0xe454bcc5               // vandps    ymm4, ymm8, ymm4
+	LONG $0xe8c2d4c5; BYTE $0x04   // vcmpneqps    ymm5, ymm5, ymm0
+	LONG $0xed54b4c5               // vandps    ymm5, ymm9, ymm5
+	LONG $0x1411fcc5; BYTE $0xb9   // vmovups    yword [rcx + 4*rdi], ymm2
+	LONG $0x5c11fcc5; WORD $0x20b9 // vmovups    yword [rcx + 4*rdi + 32], ymm3
+	LONG $0x6411fcc5; WORD $0x40b9 // vmovups    yword [rcx + 4*rdi + 64], ymm4
+	LONG $0x6c11fcc5; WORD $0x60b9 // vmovups    yword [rcx + 4*rdi + 96], ymm5
+	LONG $0x20c78348               // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB3_514
+	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
+	JE   LBB3_865
+	JMP  LBB3_516
+
+LBB3_521:
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_522:
+	LONG $0x0c6ffec5; BYTE $0xfa   // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0xe1fbfdc5               // vpsubq    ymm4, ymm0, ymm1
+	LONG $0x4b75e3c4; WORD $0x10cc // vblendvpd    ymm1, ymm1, ymm4, ymm1
+	LONG $0x646ffec5; WORD $0x60fa // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xeafbfdc5               // vpsubq    ymm5, ymm0, ymm2
+	LONG $0x4b6de3c4; WORD $0x20d5 // vblendvpd    ymm2, ymm2, ymm5, ymm2
+	LONG $0xebfbfdc5               // vpsubq    ymm5, ymm0, ymm3
+	LONG $0x4b65e3c4; WORD $0x30dd // vblendvpd    ymm3, ymm3, ymm5, ymm3
+	LONG $0xecfbfdc5               // vpsubq    ymm5, ymm0, ymm4
+	LONG $0x4b5de3c4; WORD $0x40e5 // vblendvpd    ymm4, ymm4, ymm5, ymm4
+	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x6411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm4
+	LONG $0x10c78348               // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB3_522
+	WORD $0x394c; BYTE $0xd6       // cmp    rsi, r10
+	JE   LBB3_865
+	JMP  LBB3_524
+
+LBB3_528:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0       // and    esi, -32
+	LONG $0xe0468d48               // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
+	LONG $0x05e8c149               // shr    r8, 5
+	LONG $0x01c08349               // add    r8, 1
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	JE   LBB3_805
+	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
+	LONG $0xfee08348               // and    rax, -2
+	WORD $0xf748; BYTE $0xd8       // neg    rax
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x187de2c4; WORD $0x4845 // vbroadcastss    ymm0, dword 72[rbp] /* [rip + .LCPI3_9] */
+
+LBB3_530:
+	LONG $0x0c54fdc5; BYTE $0xba         // vandpd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x5454fdc5; WORD $0x20ba       // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5c54fdc5; WORD $0x40ba       // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x6454fdc5; WORD $0x60ba       // vandpd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xb9         // vmovupd    yword [rcx + 4*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20b9       // vmovupd    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40b9       // vmovupd    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x6411fdc5; WORD $0x60b9       // vmovupd    yword [rcx + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8c54fdc5; BYTE $0x00 // vandpd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba9454fdc5; BYTE $0x00 // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c54fdc5; BYTE $0x00 // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa454fdc5; BYTE $0x00 // vandpd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm1
+	QUAD $0x0000a0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm2
+	QUAD $0x0000c0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm3
+	QUAD $0x0000e0b9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm4
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_530
+	JMP  LBB3_806
+
+LBB3_531:
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_532:
+	LONG $0x0c6ffec5; BYTE $0xfa   // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0xe1fbfdc5               // vpsubq    ymm4, ymm0, ymm1
+	LONG $0x4b75e3c4; WORD $0x10cc // vblendvpd    ymm1, ymm1, ymm4, ymm1
+	LONG $0x646ffec5; WORD $0x60fa // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xeafbfdc5               // vpsubq    ymm5, ymm0, ymm2
+	LONG $0x4b6de3c4; WORD $0x20d5 // vblendvpd    ymm2, ymm2, ymm5, ymm2
+	LONG $0xebfbfdc5               // vpsubq    ymm5, ymm0, ymm3
+	LONG $0x4b65e3c4; WORD $0x30dd // vblendvpd    ymm3, ymm3, ymm5, ymm3
+	LONG $0xecfbfdc5               // vpsubq    ymm5, ymm0, ymm4
+	LONG $0x4b5de3c4; WORD $0x40e5 // vblendvpd    ymm4, ymm4, ymm5, ymm4
+	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x6411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm4
+	LONG $0x10c78348               // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB3_532
+	WORD $0x394c; BYTE $0xd6       // cmp    rsi, r10
+	JE   LBB3_865
+	JMP  LBB3_534
+
+LBB3_538:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0       // and    esi, -32
+	LONG $0xe0468d48               // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
+	LONG $0x05e8c149               // shr    r8, 5
+	LONG $0x01c08349               // add    r8, 1
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	JE   LBB3_815
+	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
+	LONG $0xfee08348               // and    rax, -2
+	WORD $0xf748; BYTE $0xd8       // neg    rax
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x187de2c4; WORD $0x4845 // vbroadcastss    ymm0, dword 72[rbp] /* [rip + .LCPI3_9] */
+
+LBB3_540:
+	LONG $0x0c54fdc5; BYTE $0xba         // vandpd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x5454fdc5; WORD $0x20ba       // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5c54fdc5; WORD $0x40ba       // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x6454fdc5; WORD $0x60ba       // vandpd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xb9         // vmovupd    yword [rcx + 4*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20b9       // vmovupd    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40b9       // vmovupd    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x6411fdc5; WORD $0x60b9       // vmovupd    yword [rcx + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8c54fdc5; BYTE $0x00 // vandpd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba9454fdc5; BYTE $0x00 // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c54fdc5; BYTE $0x00 // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa454fdc5; BYTE $0x00 // vandpd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm1
+	QUAD $0x0000a0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm2
+	QUAD $0x0000c0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm3
+	QUAD $0x0000e0b9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm4
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_540
+	JMP  LBB3_816
+
+LBB3_548:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	LONG $0x80468d48         // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x07e8c149         // shr    r8, 7
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_825
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_550:
+	LONG $0x0cf8fdc5; BYTE $0x3a               // vpsubb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54f8fdc5; WORD $0x203a             // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x403a             // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x64f8fdc5; WORD $0x603a             // vpsubb    ymm4, ymm0, yword [rdx + rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0x39               // vmovdqu    yword [rcx + rdi], ymm1
+	LONG $0x547ffec5; WORD $0x2039             // vmovdqu    yword [rcx + rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x4039             // vmovdqu    yword [rcx + rdi + 64], ymm3
+	LONG $0x647ffec5; WORD $0x6039             // vmovdqu    yword [rcx + rdi + 96], ymm4
+	QUAD $0x0000803a8cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a94f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rdx + rdi + 224]
+	QUAD $0x000080398c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 128], ymm1
+	QUAD $0x0000a039947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 160], ymm2
+	QUAD $0x0000c0399c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 192], ymm3
+	QUAD $0x0000e039a47ffec5; BYTE $0x00       // vmovdqu    yword [rcx + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB3_550
+	JMP  LBB3_826
+
+LBB3_551:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	QUAD $0x000000808d6ffdc5 // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI3_6] */
+
+LBB3_552:
+	LONG $0x1474fdc5; BYTE $0x3a   // vpcmpeqb    ymm2, ymm0, yword [rdx + rdi]
+	LONG $0xd1dfedc5               // vpandn    ymm2, ymm2, ymm1
+	LONG $0x5c74fdc5; WORD $0x203a // vpcmpeqb    ymm3, ymm0, yword [rdx + rdi + 32]
+	LONG $0xd9dfe5c5               // vpandn    ymm3, ymm3, ymm1
+	LONG $0x6474fdc5; WORD $0x403a // vpcmpeqb    ymm4, ymm0, yword [rdx + rdi + 64]
+	LONG $0x6c74fdc5; WORD $0x603a // vpcmpeqb    ymm5, ymm0, yword [rdx + rdi + 96]
+	LONG $0xe1dfddc5               // vpandn    ymm4, ymm4, ymm1
+	LONG $0xe9dfd5c5               // vpandn    ymm5, ymm5, ymm1
+	LONG $0x147ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm2
+	LONG $0x5c7ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm3
+	LONG $0x647ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm4
+	LONG $0x6c7ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm5
+	LONG $0x80ef8348               // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB3_552
+	WORD $0x394c; BYTE $0xce       // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_554
+
+LBB3_558:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	LONG $0x80468d48         // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x07e8c149         // shr    r8, 7
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_833
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_560:
+	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
+	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
+	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
+	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
+	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
+	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
+	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
+	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
+	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
+	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB3_560
+	JMP  LBB3_834
+
+LBB3_561:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	LONG $0x80468d48         // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x07e8c149         // shr    r8, 7
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_841
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_563:
+	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
+	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
+	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
+	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
+	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
+	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
+	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
+	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
+	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
+	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB3_563
+	JMP  LBB3_842
+
+LBB3_564:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_849
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_566:
+	LONG $0x0cfafdc5; BYTE $0xba         // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20ba       // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40ba       // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x64fafdc5; WORD $0x60ba       // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0xb9         // vmovdqu    yword [rcx + 4*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x20b9       // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x40b9       // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x647ffec5; WORD $0x60b9       // vmovdqu    yword [rcx + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8cfafdc5; BYTE $0x00 // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba94fafdc5; BYTE $0x00 // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9cfafdc5; BYTE $0x00 // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa4fafdc5; BYTE $0x00 // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 128], ymm1
+	QUAD $0x0000a0b9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 160], ymm2
+	QUAD $0x0000c0b99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 192], ymm3
+	QUAD $0x0000e0b9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 224], ymm4
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_566
+	JMP  LBB3_850
+
+LBB3_567:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_857
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB3_569:
+	LONG $0x0cfafdc5; BYTE $0xba         // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20ba       // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40ba       // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x64fafdc5; WORD $0x60ba       // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0xb9         // vmovdqu    yword [rcx + 4*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x20b9       // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x40b9       // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x647ffec5; WORD $0x60b9       // vmovdqu    yword [rcx + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8cfafdc5; BYTE $0x00 // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba94fafdc5; BYTE $0x00 // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9cfafdc5; BYTE $0x00 // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa4fafdc5; BYTE $0x00 // vpsubd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 128], ymm1
+	QUAD $0x0000a0b9947ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 160], ymm2
+	QUAD $0x0000c0b99c7ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 192], ymm3
+	QUAD $0x0000e0b9a47ffec5; BYTE $0x00 // vmovdqu    yword [rcx + 4*rdi + 224], ymm4
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB3_569
+	JMP  LBB3_858
+
+LBB3_570:
+	WORD $0x8944; BYTE $0xde       // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0       // and    esi, -32
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0x587de2c4; WORD $0x4055 // vpbroadcastd    ymm2, dword 64[rbp] /* [rip + .LCPI3_3] */
+
+LBB3_571:
+	LONG $0x1c6ffec5; BYTE $0xba   // vmovdqu    ymm3, yword [rdx + 4*rdi]
+	LONG $0x646ffec5; WORD $0x20ba // vmovdqu    ymm4, yword [rdx + 4*rdi + 32]
+	LONG $0x6c6ffec5; WORD $0x40ba // vmovdqu    ymm5, yword [rdx + 4*rdi + 64]
+	LONG $0x746ffec5; WORD $0x60ba // vmovdqu    ymm6, yword [rdx + 4*rdi + 96]
+	LONG $0xf876e5c5               // vpcmpeqd    ymm7, ymm3, ymm0
+	LONG $0xf9efc5c5               // vpxor    ymm7, ymm7, ymm1
+	LONG $0xc0765dc5               // vpcmpeqd    ymm8, ymm4, ymm0
+	LONG $0xc1ef3dc5               // vpxor    ymm8, ymm8, ymm1
+	LONG $0xc87655c5               // vpcmpeqd    ymm9, ymm5, ymm0
+	LONG $0xc9ef35c5               // vpxor    ymm9, ymm9, ymm1
+	LONG $0xd0764dc5               // vpcmpeqd    ymm10, ymm6, ymm0
+	LONG $0xd1ef2dc5               // vpxor    ymm10, ymm10, ymm1
+	LONG $0xdb66edc5               // vpcmpgtd    ymm3, ymm2, ymm3
+	LONG $0xe466edc5               // vpcmpgtd    ymm4, ymm2, ymm4
+	LONG $0xed66edc5               // vpcmpgtd    ymm5, ymm2, ymm5
+	LONG $0xf666edc5               // vpcmpgtd    ymm6, ymm2, ymm6
+	LONG $0x4a6de3c4; WORD $0x30df // vblendvps    ymm3, ymm2, ymm7, ymm3
+	LONG $0x4a6dc3c4; WORD $0x40e0 // vblendvps    ymm4, ymm2, ymm8, ymm4
+	LONG $0x4a6dc3c4; WORD $0x50e9 // vblendvps    ymm5, ymm2, ymm9, ymm5
+	LONG $0x4a6dc3c4; WORD $0x60f2 // vblendvps    ymm6, ymm2, ymm10, ymm6
+	LONG $0x1c11fcc5; BYTE $0xb9   // vmovups    yword [rcx + 4*rdi], ymm3
+	LONG $0x6411fcc5; WORD $0x20b9 // vmovups    yword [rcx + 4*rdi + 32], ymm4
+	LONG $0x6c11fcc5; WORD $0x40b9 // vmovups    yword [rcx + 4*rdi + 64], ymm5
+	LONG $0x7411fcc5; WORD $0x60b9 // vmovups    yword [rcx + 4*rdi + 96], ymm6
+	LONG $0x20c78348               // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB3_571
+	WORD $0x394c; BYTE $0xde       // cmp    rsi, r11
+	JE   LBB3_865
+	JMP  LBB3_573
+
+LBB3_578:
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_579:
+	LONG $0x1e7de2c4; WORD $0xba04             // vpabsd    ymm0, yword [rdx + 4*rdi]
+	LONG $0x1e7de2c4; WORD $0xba4c; BYTE $0x20 // vpabsd    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x1e7de2c4; WORD $0xba54; BYTE $0x40 // vpabsd    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x1e7de2c4; WORD $0xba5c; BYTE $0x60 // vpabsd    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB3_579
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB3_865
+	JMP  LBB3_581
+
+LBB3_585:
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_586:
+	LONG $0x1e7de2c4; WORD $0xba04             // vpabsd    ymm0, yword [rdx + 4*rdi]
+	LONG $0x1e7de2c4; WORD $0xba4c; BYTE $0x20 // vpabsd    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x1e7de2c4; WORD $0xba54; BYTE $0x40 // vpabsd    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x1e7de2c4; WORD $0xba5c; BYTE $0x60 // vpabsd    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB3_586
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB3_865
+	JMP  LBB3_588
+
+LBB3_367:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
+
+LBB3_368:
+	LONG $0x0411fdc5; BYTE $0x81         // vmovupd    yword [rcx + 4*rax], ymm0
+	LONG $0x4411fdc5; WORD $0x2081       // vmovupd    yword [rcx + 4*rax + 32], ymm0
+	LONG $0x4411fdc5; WORD $0x4081       // vmovupd    yword [rcx + 4*rax + 64], ymm0
+	LONG $0x4411fdc5; WORD $0x6081       // vmovupd    yword [rcx + 4*rax + 96], ymm0
+	QUAD $0x000080818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 128], ymm0
+	QUAD $0x0000a0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 160], ymm0
+	QUAD $0x0000c0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 192], ymm0
+	QUAD $0x0000e0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 224], ymm0
+	QUAD $0x000100818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 256], ymm0
+	QUAD $0x000120818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 288], ymm0
+	QUAD $0x000140818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 320], ymm0
+	QUAD $0x000160818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 352], ymm0
+	QUAD $0x000180818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 384], ymm0
+	QUAD $0x0001a0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 416], ymm0
+	QUAD $0x0001c0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 448], ymm0
+	QUAD $0x0001e0818411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rax + 480], ymm0
+	LONG $0x80e88348                     // sub    rax, -128
+	LONG $0x04c78348                     // add    rdi, 4
+	JNE  LBB3_368
+
+LBB3_369:
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB3_372
+	LONG $0x81048d48         // lea    rax, [rcx + 4*rax]
+	LONG $0x60c08348         // add    rax, 96
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
+
+LBB3_371:
+	LONG $0x4011fdc5; BYTE $0xa0 // vmovupd    yword [rax - 96], ymm0
+	LONG $0x4011fdc5; BYTE $0xc0 // vmovupd    yword [rax - 64], ymm0
+	LONG $0x4011fdc5; BYTE $0xe0 // vmovupd    yword [rax - 32], ymm0
+	LONG $0x0011fdc5             // vmovupd    yword [rax], ymm0
+	LONG $0x80e88348             // sub    rax, -128
+	WORD $0xff48; BYTE $0xc6     // inc    rsi
+	JNE  LBB3_371
+
+LBB3_372:
+	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
+	JE   LBB3_865
+
+LBB3_373:
+	LONG $0x009104c7; WORD $0x0000; BYTE $0x00 // mov    dword [rcx + 4*rdx], 0
+	LONG $0x01c28348                           // add    rdx, 1
+	WORD $0x3949; BYTE $0xd1                   // cmp    r9, rdx
+	JNE  LBB3_373
+	JMP  LBB3_865
+
+LBB3_438:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
+
+LBB3_439:
+	LONG $0x0411fdc5; BYTE $0xc1         // vmovupd    yword [rcx + 8*rax], ymm0
+	LONG $0x4411fdc5; WORD $0x20c1       // vmovupd    yword [rcx + 8*rax + 32], ymm0
+	LONG $0x4411fdc5; WORD $0x40c1       // vmovupd    yword [rcx + 8*rax + 64], ymm0
+	LONG $0x4411fdc5; WORD $0x60c1       // vmovupd    yword [rcx + 8*rax + 96], ymm0
+	QUAD $0x000080c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 128], ymm0
+	QUAD $0x0000a0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 160], ymm0
+	QUAD $0x0000c0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 192], ymm0
+	QUAD $0x0000e0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 224], ymm0
+	QUAD $0x000100c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 256], ymm0
+	QUAD $0x000120c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 288], ymm0
+	QUAD $0x000140c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 320], ymm0
+	QUAD $0x000160c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 352], ymm0
+	QUAD $0x000180c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 384], ymm0
+	QUAD $0x0001a0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 416], ymm0
+	QUAD $0x0001c0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 448], ymm0
+	QUAD $0x0001e0c18411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rax + 480], ymm0
+	LONG $0x40c08348                     // add    rax, 64
+	LONG $0x04c78348                     // add    rdi, 4
+	JNE  LBB3_439
+
+LBB3_440:
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB3_443
+	LONG $0xc1048d48         // lea    rax, [rcx + 8*rax]
+	LONG $0x60c08348         // add    rax, 96
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
+
+LBB3_442:
+	LONG $0x4011fdc5; BYTE $0xa0 // vmovupd    yword [rax - 96], ymm0
+	LONG $0x4011fdc5; BYTE $0xc0 // vmovupd    yword [rax - 64], ymm0
+	LONG $0x4011fdc5; BYTE $0xe0 // vmovupd    yword [rax - 32], ymm0
+	LONG $0x0011fdc5             // vmovupd    yword [rax], ymm0
+	LONG $0x80e88348             // sub    rax, -128
+	WORD $0xff48; BYTE $0xc6     // inc    rsi
+	JNE  LBB3_442
+
+LBB3_443:
+	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
+	JE   LBB3_865
+
+LBB3_444:
+	QUAD $0x00000000d104c748 // mov    qword [rcx + 8*rdx], 0
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd1 // cmp    r9, rdx
+	JNE  LBB3_444
+	JMP  LBB3_865
+
+LBB3_461:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
+
+LBB3_462:
+	LONG $0x0411fdc5; BYTE $0x41         // vmovupd    yword [rcx + 2*rax], ymm0
+	LONG $0x4411fdc5; WORD $0x2041       // vmovupd    yword [rcx + 2*rax + 32], ymm0
+	LONG $0x4411fdc5; WORD $0x4041       // vmovupd    yword [rcx + 2*rax + 64], ymm0
+	LONG $0x4411fdc5; WORD $0x6041       // vmovupd    yword [rcx + 2*rax + 96], ymm0
+	QUAD $0x000080418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 128], ymm0
+	QUAD $0x0000a0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 160], ymm0
+	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
+	QUAD $0x0000e0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm0
+	QUAD $0x000100418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 256], ymm0
+	QUAD $0x000120418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 288], ymm0
+	QUAD $0x000140418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 320], ymm0
+	QUAD $0x000160418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 352], ymm0
+	QUAD $0x000180418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 384], ymm0
+	QUAD $0x0001a0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 416], ymm0
+	QUAD $0x0001c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 448], ymm0
+	QUAD $0x0001e0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 480], ymm0
+	LONG $0x01000548; WORD $0x0000       // add    rax, 256
+	LONG $0x04c78348                     // add    rdi, 4
+	JNE  LBB3_462
+
+LBB3_463:
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB3_466
+	LONG $0x41048d48         // lea    rax, [rcx + 2*rax]
+	LONG $0x60c08348         // add    rax, 96
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
+
+LBB3_465:
+	LONG $0x4011fdc5; BYTE $0xa0 // vmovupd    yword [rax - 96], ymm0
+	LONG $0x4011fdc5; BYTE $0xc0 // vmovupd    yword [rax - 64], ymm0
+	LONG $0x4011fdc5; BYTE $0xe0 // vmovupd    yword [rax - 32], ymm0
+	LONG $0x0011fdc5             // vmovupd    yword [rax], ymm0
+	LONG $0x80e88348             // sub    rax, -128
+	WORD $0xff48; BYTE $0xc6     // inc    rsi
+	JNE  LBB3_465
+
+LBB3_466:
+	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
+	JE   LBB3_865
+
+LBB3_467:
+	LONG $0x5104c766; WORD $0x0000 // mov    word [rcx + 2*rdx], 0
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3949; BYTE $0xd1       // cmp    r9, rdx
+	JNE  LBB3_467
+	JMP  LBB3_865
+
+LBB3_541:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
+
+LBB3_542:
+	LONG $0x0411fdc5; BYTE $0x01         // vmovupd    yword [rcx + rax], ymm0
+	LONG $0x4411fdc5; WORD $0x2001       // vmovupd    yword [rcx + rax + 32], ymm0
+	LONG $0x4411fdc5; WORD $0x4001       // vmovupd    yword [rcx + rax + 64], ymm0
+	LONG $0x4411fdc5; WORD $0x6001       // vmovupd    yword [rcx + rax + 96], ymm0
+	QUAD $0x000080018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 128], ymm0
+	QUAD $0x0000a0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 160], ymm0
+	QUAD $0x0000c0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 192], ymm0
+	QUAD $0x0000e0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 224], ymm0
+	QUAD $0x000100018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 256], ymm0
+	QUAD $0x000120018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 288], ymm0
+	QUAD $0x000140018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 320], ymm0
+	QUAD $0x000160018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 352], ymm0
+	QUAD $0x000180018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 384], ymm0
+	QUAD $0x0001a0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 416], ymm0
+	QUAD $0x0001c0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 448], ymm0
+	QUAD $0x0001e0018411fdc5; BYTE $0x00 // vmovupd    yword [rcx + rax + 480], ymm0
+	LONG $0x02000548; WORD $0x0000       // add    rax, 512
+	LONG $0x04c78348                     // add    rdi, 4
+	JNE  LBB3_542
+
+LBB3_543:
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB3_546
+	WORD $0x0148; BYTE $0xc8 // add    rax, rcx
+	LONG $0x60c08348         // add    rax, 96
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	LONG $0xc057f9c5         // vxorpd    xmm0, xmm0, xmm0
+
+LBB3_545:
+	LONG $0x4011fdc5; BYTE $0xa0 // vmovupd    yword [rax - 96], ymm0
+	LONG $0x4011fdc5; BYTE $0xc0 // vmovupd    yword [rax - 64], ymm0
+	LONG $0x4011fdc5; BYTE $0xe0 // vmovupd    yword [rax - 32], ymm0
+	LONG $0x0011fdc5             // vmovupd    yword [rax], ymm0
+	LONG $0x80e88348             // sub    rax, -128
+	WORD $0xff48; BYTE $0xc6     // inc    rsi
+	JNE  LBB3_545
+
+LBB3_546:
+	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
+	JE   LBB3_865
+
+LBB3_547:
+	LONG $0x001104c6         // mov    byte [rcx + rdx], 0
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd1 // cmp    r9, rdx
+	JNE  LBB3_547
+
+LBB3_865:
+	VZEROUPPER
+	RET
+
+LBB3_592:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB3_593:
+	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
+	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
+	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
+	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
+	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
+	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
+	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
+	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
+	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
+	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
+	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
+	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
+	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
+	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
+	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
+	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
+	LONG $0x80e88348                     // sub    rax, -128
+	LONG $0x04c78348                     // add    rdi, 4
+	JNE  LBB3_593
+
+LBB3_594:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB3_597
+	WORD $0x0148; BYTE $0xc0 // add    rax, rax
+	LONG $0x20c08348         // add    rax, 32
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB3_596:
+	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
+	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
+	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
+	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
+	LONG $0x40c08348               // add    rax, 64
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB3_596
+
+LBB3_597:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_598
+
+LBB3_602:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB3_603:
+	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
+	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
+	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
+	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
+	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
+	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
+	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
+	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
+	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
+	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
+	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
+	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
+	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
+	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
+	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
+	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
+	LONG $0x80e88348                     // sub    rax, -128
+	LONG $0x04c78348                     // add    rdi, 4
+	JNE  LBB3_603
+
+LBB3_604:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB3_607
+	WORD $0x0148; BYTE $0xc0 // add    rax, rax
+	LONG $0x20c08348         // add    rax, 32
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB3_606:
+	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
+	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
+	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
+	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
+	LONG $0x40c08348               // add    rax, 64
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB3_606
+
+LBB3_607:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_608
+
+LBB3_612:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_613:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_615
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0cfafdc5; BYTE $0xba   // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20ba // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40ba // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x44fafdc5; WORD $0x60ba // vpsubd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0xb9   // vmovdqu    yword [rcx + 4*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x20b9 // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x40b9 // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x447ffec5; WORD $0x60b9 // vmovdqu    yword [rcx + 4*rdi + 96], ymm0
+
+LBB3_615:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_616
+
+LBB3_620:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_621:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_623
+	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
+
+LBB3_623:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_624
+
+LBB3_628:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_629:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_631
+	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
+
+LBB3_631:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_632
+
+LBB3_636:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_637:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_639
+	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI3_0] */
+	LONG $0x0c57fdc5; BYTE $0xfa   // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x5457fdc5; WORD $0x20fa // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5c57fdc5; WORD $0x40fa // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x4457fdc5; WORD $0x60fa // vxorpd    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x4411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm0
+
+LBB3_639:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_640
+
+LBB3_646:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_647:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_649
+	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI3_0] */
+	LONG $0x0c57fdc5; BYTE $0xfa   // vxorpd    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x5457fdc5; WORD $0x20fa // vxorpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5c57fdc5; WORD $0x40fa // vxorpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x4457fdc5; WORD $0x60fa // vxorpd    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x4411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm0
+
+LBB3_649:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_650
+
+LBB3_656:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_657:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_659
+	LONG $0x197de2c4; WORD $0x1845 // vbroadcastsd    ymm0, qword 24[rbp] /* [rip + .LCPI3_8] */
+	LONG $0x0c54fdc5; BYTE $0xfa   // vandpd    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x5454fdc5; WORD $0x20fa // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5c54fdc5; WORD $0x40fa // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x4454fdc5; WORD $0x60fa // vandpd    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x4411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm0
+
+LBB3_659:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_660
+
+LBB3_664:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_665:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_667
+	LONG $0x197de2c4; WORD $0x1845 // vbroadcastsd    ymm0, qword 24[rbp] /* [rip + .LCPI3_8] */
+	LONG $0x0c54fdc5; BYTE $0xfa   // vandpd    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x5454fdc5; WORD $0x20fa // vandpd    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5c54fdc5; WORD $0x40fa // vandpd    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x4454fdc5; WORD $0x60fa // vandpd    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x4411fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm0
+
+LBB3_667:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_668
+
+LBB3_672:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_673:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_675
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0cf8fdc5; BYTE $0x3a   // vpsubb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54f8fdc5; WORD $0x203a // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x403a // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x44f8fdc5; WORD $0x603a // vpsubb    ymm0, ymm0, yword [rdx + rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm1
+	LONG $0x547ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm3
+	LONG $0x447ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm0
+
+LBB3_675:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_676
+
+LBB3_680:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_681:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_683
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0cf8fdc5; BYTE $0x3a   // vpsubb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54f8fdc5; WORD $0x203a // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x403a // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x44f8fdc5; WORD $0x603a // vpsubb    ymm0, ymm0, yword [rdx + rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm1
+	LONG $0x547ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm3
+	LONG $0x447ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm0
+
+LBB3_683:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_684
+
+LBB3_688:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_689:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_691
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0cfbfdc5; BYTE $0xfa   // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20fa // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40fa // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x44fbfdc5; WORD $0x60fa // vpsubq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0xf9   // vmovdqu    yword [rcx + 8*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x20f9 // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x40f9 // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x447ffec5; WORD $0x60f9 // vmovdqu    yword [rcx + 8*rdi + 96], ymm0
+
+LBB3_691:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_692
+
+LBB3_696:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_697:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_699
+	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB3_699:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_700
+
+LBB3_704:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_705:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_707
+	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB3_707:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_708
+
+LBB3_712:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_713:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_715
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44f9fdc5; WORD $0x207a // vpsubw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
+	LONG $0x447ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
+
+LBB3_715:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_716
+
+LBB3_720:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_721:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_723
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44f9fdc5; WORD $0x207a // vpsubw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
+	LONG $0x447ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
+
+LBB3_723:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_724
+
+LBB3_728:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_729:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_731
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0cf9fdc5; BYTE $0x7a   // vpsubw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44f9fdc5; WORD $0x207a // vpsubw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
+	LONG $0x447ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
+
+LBB3_731:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_732
+
+LBB3_736:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_737:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_739
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0c75fdc5; BYTE $0x7a   // vpcmpeqw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x556ffdc5; BYTE $0x60   // vmovdqa    ymm2, yword 96[rbp] /* [rip + .LCPI3_5] */
+	LONG $0x4475fdc5; WORD $0x207a // vpcmpeqw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0xcadff5c5               // vpandn    ymm1, ymm1, ymm2
+	LONG $0xc2dffdc5               // vpandn    ymm0, ymm0, ymm2
+	LONG $0x0c7ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm1
+	LONG $0x447ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
+
+LBB3_739:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_740
+
+LBB3_744:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_745:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_747
+	LONG $0x046ffec5; BYTE $0x7a   // vmovdqu    ymm0, yword [rdx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x207a // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0xd2efe9c5               // vpxor    xmm2, xmm2, xmm2
+	LONG $0xda75fdc5               // vpcmpeqw    ymm3, ymm0, ymm2
+	LONG $0xe476ddc5               // vpcmpeqd    ymm4, ymm4, ymm4
+	LONG $0xdcefe5c5               // vpxor    ymm3, ymm3, ymm4
+	LONG $0xd275f5c5               // vpcmpeqw    ymm2, ymm1, ymm2
+	LONG $0xd4efedc5               // vpxor    ymm2, ymm2, ymm4
+	LONG $0x656ffdc5; BYTE $0x60   // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI3_5] */
+	LONG $0xc065ddc5               // vpcmpgtw    ymm0, ymm4, ymm0
+	LONG $0xc965ddc5               // vpcmpgtw    ymm1, ymm4, ymm1
+	LONG $0x4c5de3c4; WORD $0x00c3 // vpblendvb    ymm0, ymm4, ymm3, ymm0
+	LONG $0x4c5de3c4; WORD $0x10ca // vpblendvb    ymm1, ymm4, ymm2, ymm1
+	LONG $0x047ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x2079 // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
+
+LBB3_747:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_748
+
+LBB3_753:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_754:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB3_756
+	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0xe172edc5; BYTE $0x0f               // vpsrad    ymm2, ymm1, 15
+	LONG $0xe072e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm0, 15
+	LONG $0xc0fee5c5                           // vpaddd    ymm0, ymm3, ymm0
+	LONG $0xc9feedc5                           // vpaddd    ymm1, ymm2, ymm1
+	LONG $0xcaeff5c5                           // vpxor    ymm1, ymm1, ymm2
+	LONG $0xc3effdc5                           // vpxor    ymm0, ymm0, ymm3
+	QUAD $0x000000a0956ffdc5                   // vmovdqa    ymm2, yword 160[rbp] /* [rip + .LCPI3_10] */
+	LONG $0x007de2c4; BYTE $0xc2               // vpshufb    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xe8c0             // vpermq    ymm0, ymm0, 232
+	LONG $0x0075e2c4; BYTE $0xca               // vpshufb    ymm1, ymm1, ymm2
+	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
+	LONG $0x4c7ffac5; WORD $0x1079             // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x047ffac5; BYTE $0x79               // vmovdqu    oword [rcx + 2*rdi], xmm0
+
+LBB3_756:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_757
+
+LBB3_761:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_762:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB3_764
+	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0xe172edc5; BYTE $0x0f               // vpsrad    ymm2, ymm1, 15
+	LONG $0xe072e5c5; BYTE $0x0f               // vpsrad    ymm3, ymm0, 15
+	LONG $0xc0fee5c5                           // vpaddd    ymm0, ymm3, ymm0
+	LONG $0xc9feedc5                           // vpaddd    ymm1, ymm2, ymm1
+	LONG $0xcaeff5c5                           // vpxor    ymm1, ymm1, ymm2
+	LONG $0xc3effdc5                           // vpxor    ymm0, ymm0, ymm3
+	QUAD $0x000000a0956ffdc5                   // vmovdqa    ymm2, yword 160[rbp] /* [rip + .LCPI3_10] */
+	LONG $0x007de2c4; BYTE $0xc2               // vpshufb    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xe8c0             // vpermq    ymm0, ymm0, 232
+	LONG $0x0075e2c4; BYTE $0xca               // vpshufb    ymm1, ymm1, ymm2
+	LONG $0x00fde3c4; WORD $0xe8c9             // vpermq    ymm1, ymm1, 232
+	LONG $0x4c7ffac5; WORD $0x1079             // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x047ffac5; BYTE $0x79               // vmovdqu    oword [rcx + 2*rdi], xmm0
+
+LBB3_764:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_765
+
+LBB3_769:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_770:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_772
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0cfbfdc5; BYTE $0xfa   // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20fa // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40fa // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x44fbfdc5; WORD $0x60fa // vpsubq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0xf9   // vmovdqu    yword [rcx + 8*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x20f9 // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x40f9 // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x447ffec5; WORD $0x60f9 // vmovdqu    yword [rcx + 8*rdi + 96], ymm0
+
+LBB3_772:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_773
+
+LBB3_777:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_778:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_780
+	LONG $0x187de2c4; WORD $0x4445 // vbroadcastss    ymm0, dword 68[rbp] /* [rip + .LCPI3_7] */
+	LONG $0x0c57fdc5; BYTE $0xba   // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x5457fdc5; WORD $0x20ba // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5c57fdc5; WORD $0x40ba // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x4457fdc5; WORD $0x60ba // vxorpd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x4411fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm0
+
+LBB3_780:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_781
+
+LBB3_787:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_788:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_790
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0cfbfdc5; BYTE $0xfa   // vpsubq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20fa // vpsubq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40fa // vpsubq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x44fbfdc5; WORD $0x60fa // vpsubq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0xf9   // vmovdqu    yword [rcx + 8*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x20f9 // vmovdqu    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x40f9 // vmovdqu    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x447ffec5; WORD $0x60f9 // vmovdqu    yword [rcx + 8*rdi + 96], ymm0
+
+LBB3_790:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_791
+
+LBB3_795:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_796:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_798
+	LONG $0x187de2c4; WORD $0x4445 // vbroadcastss    ymm0, dword 68[rbp] /* [rip + .LCPI3_7] */
+	LONG $0x0c57fdc5; BYTE $0xba   // vxorpd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x5457fdc5; WORD $0x20ba // vxorpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5c57fdc5; WORD $0x40ba // vxorpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x4457fdc5; WORD $0x60ba // vxorpd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x4411fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm0
+
+LBB3_798:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_799
+
+LBB3_805:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_806:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_808
+	LONG $0x187de2c4; WORD $0x4845 // vbroadcastss    ymm0, dword 72[rbp] /* [rip + .LCPI3_9] */
+	LONG $0x0c54fdc5; BYTE $0xba   // vandpd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x5454fdc5; WORD $0x20ba // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5c54fdc5; WORD $0x40ba // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x4454fdc5; WORD $0x60ba // vandpd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x4411fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm0
+
+LBB3_808:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_809
+
+LBB3_815:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_816:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_818
+	LONG $0x187de2c4; WORD $0x4845 // vbroadcastss    ymm0, dword 72[rbp] /* [rip + .LCPI3_9] */
+	LONG $0x0c54fdc5; BYTE $0xba   // vandpd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x5454fdc5; WORD $0x20ba // vandpd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5c54fdc5; WORD $0x40ba // vandpd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x4454fdc5; WORD $0x60ba // vandpd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c11fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x4411fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm0
+
+LBB3_818:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_819
+
+LBB3_825:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_826:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_828
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0cf8fdc5; BYTE $0x3a   // vpsubb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54f8fdc5; WORD $0x203a // vpsubb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x403a // vpsubb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x44f8fdc5; WORD $0x603a // vpsubb    ymm0, ymm0, yword [rdx + rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm1
+	LONG $0x547ffec5; WORD $0x2039 // vmovdqu    yword [rcx + rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x4039 // vmovdqu    yword [rcx + rdi + 64], ymm3
+	LONG $0x447ffec5; WORD $0x6039 // vmovdqu    yword [rcx + rdi + 96], ymm0
+
+LBB3_828:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_829
+
+LBB3_833:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_834:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_836
+	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
+	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
+	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
+	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
+
+LBB3_836:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_837
+
+LBB3_841:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_842:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_844
+	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
+	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
+	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
+	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
+
+LBB3_844:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_845
+
+LBB3_849:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_850:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_852
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0cfafdc5; BYTE $0xba   // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20ba // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40ba // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x44fafdc5; WORD $0x60ba // vpsubd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0xb9   // vmovdqu    yword [rcx + 4*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x20b9 // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x40b9 // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x447ffec5; WORD $0x60b9 // vmovdqu    yword [rcx + 4*rdi + 96], ymm0
+
+LBB3_852:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_853
+
+LBB3_857:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_858:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_860
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0cfafdc5; BYTE $0xba   // vpsubd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20ba // vpsubd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40ba // vpsubd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x44fafdc5; WORD $0x60ba // vpsubd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c7ffec5; BYTE $0xb9   // vmovdqu    yword [rcx + 4*rdi], ymm1
+	LONG $0x547ffec5; WORD $0x20b9 // vmovdqu    yword [rcx + 4*rdi + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x40b9 // vmovdqu    yword [rcx + 4*rdi + 64], ymm3
+	LONG $0x447ffec5; WORD $0x60b9 // vmovdqu    yword [rcx + 4*rdi + 96], ymm0
+
+LBB3_860:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_865
+	JMP  LBB3_861
+
+DATA LCDATA5<>+0x000(SB)/8, $0x8000000000000000
+DATA LCDATA5<>+0x008(SB)/8, $0x3ff0000000000000
+DATA LCDATA5<>+0x010(SB)/8, $0x43e0000000000000
+DATA LCDATA5<>+0x018(SB)/8, $0x41e0000000000000
+DATA LCDATA5<>+0x020(SB)/8, $0xbff0000000000000
+DATA LCDATA5<>+0x028(SB)/8, $0x0000000000000001
+DATA LCDATA5<>+0x030(SB)/8, $0x8000000000000000
+DATA LCDATA5<>+0x038(SB)/8, $0x8000000000000000
+DATA LCDATA5<>+0x040(SB)/8, $0x0001000100010001
+DATA LCDATA5<>+0x048(SB)/8, $0x0001000100010001
+DATA LCDATA5<>+0x050(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x058(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x060(SB)/8, $0x0001000100010001
+DATA LCDATA5<>+0x068(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x070(SB)/8, $0x0000000001010101
+DATA LCDATA5<>+0x078(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x080(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x088(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x090(SB)/8, $0x800000007fffffff
+DATA LCDATA5<>+0x098(SB)/8, $0x000000013f800000
+DATA LCDATA5<>+0x0a0(SB)/8, $0x4f0000005f000000
+DATA LCDATA5<>+0x0a8(SB)/8, $0x00000000bf800000
+DATA LCDATA5<>+0x0b0(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x0b8(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x0c0(SB)/8, $0x0001000100010001
+DATA LCDATA5<>+0x0c8(SB)/8, $0x0001000100010001
+DATA LCDATA5<>+0x0d0(SB)/8, $0x0001000100010001
+DATA LCDATA5<>+0x0d8(SB)/8, $0x0001000100010001
+DATA LCDATA5<>+0x0e0(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x0e8(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x0f0(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x0f8(SB)/8, $0x0101010101010101
+GLOBL LCDATA5<>(SB), 8, $256
+
+TEXT ·_arithmetic_unary_diff_type_avx2(SB), $0-48
+
+	MOVQ itype+0(FP), DI
+	MOVQ otype+8(FP), SI
+	MOVQ op+16(FP), DX
+	MOVQ input+24(FP), CX
+	MOVQ output+32(FP), R8
+	MOVQ len+40(FP), R9
+	LEAQ LCDATA5<>(SB), BP
+
+	WORD $0xfa80; BYTE $0x14 // cmp    dl, 20
+	JNE  LBB4_1351
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB4_14
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB4_26
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB4_46
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB4_54
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB4_1351
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_94
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_164
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_267
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_270
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_13
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_870
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_870
+
+LBB4_13:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_873:
+	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x0149; BYTE $0xc1 // add    r9, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_875
+
+LBB4_874:
+	WORD $0xf631     // xor    esi, esi
+	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd6950f40 // setne    sil
+	LONG $0x90348941 // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348 // add    rdx, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB4_874
+
+LBB4_875:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB4_1351
+
+LBB4_876:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x04917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 4], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90748941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], esi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x08917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 8], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90748941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], esi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x0c917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 12], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90748941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], esi
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_876
+	JMP  LBB4_1351
+
+LBB4_14:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB4_36
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB4_62
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB4_70
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB4_1351
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_101
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_169
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_273
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_276
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_450
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB4_1292
+
+LBB4_26:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB4_78
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB4_1351
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_108
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_174
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_279
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_282
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_35
+	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_877
+	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_877
+
+LBB4_35:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_880:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_882
+	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_882:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_884:
+	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0xc084                 // test    al, al
+	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
+	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
+	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0xc084                 // test    al, al
+	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
+	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
+	JNE  LBB4_884
+	JMP  LBB4_1351
+
+LBB4_36:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB4_86
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB4_1351
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_115
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_179
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_285
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_288
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_456
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_459
+
+LBB4_46:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_122
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_184
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_291
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_294
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_460
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_463
+
+LBB4_54:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_129
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_189
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_297
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_300
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_464
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_467
+
+LBB4_62:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_136
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_194
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_303
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_306
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_469
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_472
+
+LBB4_70:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_143
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_199
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_309
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_312
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_474
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1298
+
+LBB4_78:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_150
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_204
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_315
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_318
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_85
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_885
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_885
+
+LBB4_85:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_888:
+	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x0149; BYTE $0xc1 // add    r9, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_890
+
+LBB4_889:
+	WORD $0xf631     // xor    esi, esi
+	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
+	LONG $0xd6950f40 // setne    sil
+	LONG $0x90348941 // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348 // add    rdx, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB4_889
+
+LBB4_890:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB4_1351
+
+LBB4_891:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90748941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], esi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90748941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], esi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90748941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], esi
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_891
+	JMP  LBB4_1351
+
+LBB4_86:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_157
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_209
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_321
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_324
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_93
+	LONG $0x99148d4a         // lea    rdx, [rcx + 4*r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_892
+	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_892
+
+LBB4_93:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_895:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_897
+	LONG $0x910c8b44             // mov    r9d, dword [rcx + 4*rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_897:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_899:
+	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
+	LONG $0x0491448b             // mov    eax, dword [rcx + 4*rdx + 4]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc085                 // test    eax, eax
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0xc085                 // test    eax, eax
+	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
+	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
+	JNE  LBB4_899
+	JMP  LBB4_1351
+
+LBB4_94:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_214
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_327
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_330
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_483
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_486
+
+LBB4_101:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_219
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_333
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_336
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_107
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_900
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_900
+
+LBB4_107:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_903:
+	WORD $0x8948; BYTE $0xd6       // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6       // not    rsi
+	WORD $0x01a8                   // test    al, 1
+	JE   LBB4_905
+	LONG $0x0410fbc5; BYTE $0xd1   // vmovsd    xmm0, qword [rcx + 8*rdx]
+	LONG $0x4d54f9c5; BYTE $0x30   // vandpd    xmm1, xmm0, oword 48[rbp] /* [rip + .LCPI4_2] */
+	LONG $0x5512fbc5; BYTE $0x08   // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xc956e9c5               // vorpd    xmm1, xmm2, xmm1
+	LONG $0xd257e9c5               // vxorpd    xmm2, xmm2, xmm2
+	LONG $0xc2c2fbc5; BYTE $0x00   // vcmpeqsd    xmm0, xmm0, xmm2
+	LONG $0xc155f9c5               // vandnpd    xmm0, xmm0, xmm1
+	LONG $0x1379c1c4; WORD $0xd004 // vmovlpd    qword [r8 + 8*rdx], xmm0
+	LONG $0x01ca8348               // or    rdx, 1
+
+LBB4_905:
+	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
+	JE   LBB4_1351
+	LONG $0x4528f9c5; BYTE $0x30 // vmovapd    xmm0, oword 48[rbp] /* [rip + .LCPI4_2] */
+	LONG $0x4d12fbc5; BYTE $0x08 // vmovddup    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
+
+LBB4_907:
+	LONG $0x1c10fbc5; BYTE $0xd1               // vmovsd    xmm3, qword [rcx + 8*rdx]
+	LONG $0xe054e1c5                           // vandpd    xmm4, xmm3, xmm0
+	LONG $0xe456f1c5                           // vorpd    xmm4, xmm1, xmm4
+	LONG $0xdac2e3c5; BYTE $0x00               // vcmpeqsd    xmm3, xmm3, xmm2
+	LONG $0xdc55e1c5                           // vandnpd    xmm3, xmm3, xmm4
+	LONG $0x1379c1c4; WORD $0xd01c             // vmovlpd    qword [r8 + 8*rdx], xmm3
+	LONG $0x5c10fbc5; WORD $0x08d1             // vmovsd    xmm3, qword [rcx + 8*rdx + 8]
+	LONG $0xe054e1c5                           // vandpd    xmm4, xmm3, xmm0
+	LONG $0xe456f1c5                           // vorpd    xmm4, xmm1, xmm4
+	LONG $0xdac2e3c5; BYTE $0x00               // vcmpeqsd    xmm3, xmm3, xmm2
+	LONG $0xdc55e1c5                           // vandnpd    xmm3, xmm3, xmm4
+	LONG $0x1379c1c4; WORD $0xd05c; BYTE $0x08 // vmovlpd    qword [r8 + 8*rdx + 8], xmm3
+	LONG $0x02c28348                           // add    rdx, 2
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB4_907
+	JMP  LBB4_1351
+
+LBB4_108:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_224
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_339
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_342
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_114
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_908
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_908
+
+LBB4_114:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_911:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x01a8             // test    al, 1
+	JE   LBB4_1254
+	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
+	JNE  LBB4_1250
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	JMP  LBB4_1251
+
+LBB4_115:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_229
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_345
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_348
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_496
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_499
+
+LBB4_122:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_234
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_351
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_354
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_503
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_506
+
+LBB4_129:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_239
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_357
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_360
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_510
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_513
+
+LBB4_136:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_244
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_363
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_366
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_519
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_522
+
+LBB4_143:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_249
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_369
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_372
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_528
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_531
+
+LBB4_150:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_257
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_375
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_378
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_156
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_914
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_914
+
+LBB4_156:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_917:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	LONG $0x03e78348             // and    rdi, 3
+	JE   LBB4_922
+	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
+	JMP  LBB4_920
+
+LBB4_919:
+	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JE   LBB4_922
+
+LBB4_920:
+	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
+	LONG $0xc86ff9c5 // vmovdqa    xmm1, xmm0
+	JNE  LBB4_919
+	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
+	JMP  LBB4_919
+
+LBB4_157:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_262
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_381
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_384
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_538
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_541
+
+LBB4_164:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_387
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_168
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_933
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_933
+
+LBB4_168:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_936:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_938
+
+LBB4_937:
+	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_937
+
+LBB4_938:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1351
+
+LBB4_939:
+	LONG $0x00913c83               // cmp    dword [rcx + 4*rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0x04917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 4], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0x08917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 8], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0x0c917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 12], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_939
+	JMP  LBB4_1351
+
+LBB4_169:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_390
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_173
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_940
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_940
+
+LBB4_173:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_943:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	WORD $0x01a8                 // test    al, 1
+	JE   LBB4_945
+	LONG $0x0410fbc5; BYTE $0xd1 // vmovsd    xmm0, qword [rcx + 8*rdx]
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
+	LONG $0xc82ef9c5             // vucomisd    xmm1, xmm0
+	LONG $0x4554f9c5; BYTE $0x30 // vandpd    xmm0, xmm0, oword 48[rbp] /* [rip + .LCPI4_2] */
+	LONG $0x4d12fbc5; BYTE $0x08 // vmovddup    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xc056f1c5             // vorpd    xmm0, xmm1, xmm0
+	LONG $0xd82cfbc5             // vcvttsd2si    ebx, xmm0
+	WORD $0x440f; BYTE $0xdf     // cmove    ebx, edi
+	LONG $0x101c8841             // mov    byte [r8 + rdx], bl
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_945:
+	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
+	JE   LBB4_1351
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
+	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
+	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_947:
+	LONG $0x1c10fbc5; BYTE $0xd1   // vmovsd    xmm3, qword [rcx + 8*rdx]
+	LONG $0xc32ef9c5               // vucomisd    xmm0, xmm3
+	LONG $0xd954e1c5               // vandpd    xmm3, xmm3, xmm1
+	LONG $0xdb56e9c5               // vorpd    xmm3, xmm2, xmm3
+	LONG $0xfb2cfbc5               // vcvttsd2si    edi, xmm3
+	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
+	LONG $0x103c8841               // mov    byte [r8 + rdx], dil
+	LONG $0x5c10fbc5; WORD $0x08d1 // vmovsd    xmm3, qword [rcx + 8*rdx + 8]
+	LONG $0xc32ef9c5               // vucomisd    xmm0, xmm3
+	LONG $0xd954e1c5               // vandpd    xmm3, xmm3, xmm1
+	LONG $0xdb56e9c5               // vorpd    xmm3, xmm2, xmm3
+	LONG $0xfb2cfbc5               // vcvttsd2si    edi, xmm3
+	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
+	LONG $0x107c8841; BYTE $0x01   // mov    byte [r8 + rdx + 1], dil
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_947
+	JMP  LBB4_1351
+
+LBB4_174:
+	WORD $0xfe83; BYTE $0x02                   // cmp    esi, 2
+	JE   LBB4_393
+	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB4_178
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB4_948
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB4_948
+
+LBB4_178:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB4_951:
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_953
+	LONG $0x193c8a42             // mov    dil, byte [rcx + r11]
+	WORD $0x8440; BYTE $0xff     // test    dil, dil
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x8440; BYTE $0xff     // test    dil, dil
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x183c8843             // mov    byte [r8 + r11], dil
+	LONG $0x01cb8349             // or    r11, 1
+
+LBB4_953:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_955:
+	LONG $0x04b60f42; BYTE $0x19   // movzx    eax, byte [rcx + r11]
+	WORD $0xc084                   // test    al, al
+	WORD $0x950f; BYTE $0xd2       // setne    dl
+	WORD $0xdaf6                   // neg    dl
+	WORD $0xc084                   // test    al, al
+	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
+	LONG $0x18048843               // mov    byte [r8 + r11], al
+	LONG $0x44b60f42; WORD $0x0119 // movzx    eax, byte [rcx + r11 + 1]
+	WORD $0xc084                   // test    al, al
+	WORD $0x950f; BYTE $0xd2       // setne    dl
+	WORD $0xdaf6                   // neg    dl
+	WORD $0xc084                   // test    al, al
+	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
+	LONG $0x18448843; BYTE $0x01   // mov    byte [r8 + r11 + 1], al
+	LONG $0x02c38349               // add    r11, 2
+	WORD $0x394d; BYTE $0xda       // cmp    r10, r11
+	JNE  LBB4_955
+	JMP  LBB4_1351
+
+LBB4_179:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_396
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_183
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_956
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_956
+
+LBB4_183:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_959:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_961
+
+LBB4_960:
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_960
+
+LBB4_961:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1351
+
+LBB4_962:
+	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_962
+	JMP  LBB4_1351
+
+LBB4_184:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_399
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JB   LBB4_188
+	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_963
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_963
+
+LBB4_188:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_966:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_968
+
+LBB4_967:
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_967
+
+LBB4_968:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1351
+
+LBB4_969:
+	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_969
+	JMP  LBB4_1351
+
+LBB4_189:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_402
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JB   LBB4_193
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_970
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_970
+
+LBB4_193:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB4_973:
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_975
+	LONG $0x3cb70f42; BYTE $0x59 // movzx    edi, word [rcx + 2*r11]
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x183c8843             // mov    byte [r8 + r11], dil
+	LONG $0x01cb8349             // or    r11, 1
+
+LBB4_975:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_977:
+	LONG $0x3cb70f42; BYTE $0x59   // movzx    edi, word [rcx + 2*r11]
+	WORD $0x8566; BYTE $0xff       // test    di, di
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f6                   // neg    al
+	WORD $0x8566; BYTE $0xff       // test    di, di
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
+	LONG $0x18048843               // mov    byte [r8 + r11], al
+	LONG $0x44b70f42; WORD $0x0259 // movzx    eax, word [rcx + 2*r11 + 2]
+	WORD $0x8566; BYTE $0xc0       // test    ax, ax
+	WORD $0x950f; BYTE $0xd2       // setne    dl
+	WORD $0xdaf6                   // neg    dl
+	WORD $0x8566; BYTE $0xc0       // test    ax, ax
+	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
+	LONG $0x18448843; BYTE $0x01   // mov    byte [r8 + r11 + 1], al
+	LONG $0x02c38349               // add    r11, 2
+	WORD $0x394d; BYTE $0xda       // cmp    r10, r11
+	JNE  LBB4_977
+	JMP  LBB4_1351
+
+LBB4_194:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_405
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_198
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_978
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_978
+
+LBB4_198:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB4_981:
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_983
+	LONG $0xd93c8b4a             // mov    rdi, qword [rcx + 8*r11]
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x183c8843             // mov    byte [r8 + r11], dil
+	LONG $0x01cb8349             // or    r11, 1
+
+LBB4_983:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_985:
+	LONG $0xd93c8b4a             // mov    rdi, qword [rcx + 8*r11]
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x18048843             // mov    byte [r8 + r11], al
+	LONG $0xd9448b4a; BYTE $0x08 // mov    rax, qword [rcx + 8*r11 + 8]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x18448843; BYTE $0x01 // mov    byte [r8 + r11 + 1], al
+	LONG $0x02c38349             // add    r11, 2
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_985
+	JMP  LBB4_1351
+
+LBB4_199:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_408
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_203
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_986
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_986
+
+LBB4_203:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_989:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_991
+	LONG $0x046ef9c5; BYTE $0x91 // vmovd    xmm0, dword [rcx + 4*rdx]
+	LONG $0xc77ef9c5             // vmovd    edi, xmm0
+	WORD $0xff85                 // test    edi, edi
+	LONG $0xd7990f40             // setns    dil
+	WORD $0x0040; BYTE $0xff     // add    dil, dil
+	LONG $0xffc78040             // add    dil, -1
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
+	LONG $0xc82ef8c5             // vucomiss    xmm1, xmm0
+	LONG $0xffb60f40             // movzx    edi, dil
+	LONG $0xf9440f41             // cmove    edi, r9d
+	LONG $0x103c8841             // mov    byte [r8 + rdx], dil
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_991:
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	JE   LBB4_1351
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc057f8c5         // vxorps    xmm0, xmm0, xmm0
+
+LBB4_993:
+	LONG $0x0c6ef9c5; BYTE $0x91   // vmovd    xmm1, dword [rcx + 4*rdx]
+	LONG $0xcf7ef9c5               // vmovd    edi, xmm1
+	WORD $0xff85                   // test    edi, edi
+	WORD $0x990f; BYTE $0xd0       // setns    al
+	WORD $0xc000                   // add    al, al
+	WORD $0xff04                   // add    al, -1
+	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
+	LONG $0x10048841               // mov    byte [r8 + rdx], al
+	LONG $0x4c6ef9c5; WORD $0x0491 // vmovd    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0xc87ef9c5               // vmovd    eax, xmm1
+	WORD $0xc085                   // test    eax, eax
+	WORD $0x990f; BYTE $0xd0       // setns    al
+	WORD $0xc000                   // add    al, al
+	WORD $0xff04                   // add    al, -1
+	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
+	LONG $0x10448841; BYTE $0x01   // mov    byte [r8 + rdx + 1], al
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
+	JNE  LBB4_993
+	JMP  LBB4_1351
+
+LBB4_204:
+	WORD $0xfe83; BYTE $0x02                   // cmp    esi, 2
+	JE   LBB4_411
+	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8                   // mov    eax, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB4_208
+	LONG $0x01148d48                           // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB4_994
+	LONG $0x00148d49                           // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB4_994
+
+LBB4_208:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_997:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_999
+
+LBB4_998:
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_998
+
+LBB4_999:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1351
+
+LBB4_1000:
+	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1000
+	JMP  LBB4_1351
+
+LBB4_209:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_414
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_213
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1001
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1001
+
+LBB4_213:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB4_1004:
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1006
+	LONG $0x993c8b42             // mov    edi, dword [rcx + 4*r11]
+	WORD $0xff85                 // test    edi, edi
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0xff85                 // test    edi, edi
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x183c8843             // mov    byte [r8 + r11], dil
+	LONG $0x01cb8349             // or    r11, 1
+
+LBB4_1006:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1008:
+	LONG $0x993c8b42             // mov    edi, dword [rcx + 4*r11]
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xff85                 // test    edi, edi
+	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x18048843             // mov    byte [r8 + r11], al
+	LONG $0x99448b42; BYTE $0x04 // mov    eax, dword [rcx + 4*r11 + 4]
+	WORD $0xc085                 // test    eax, eax
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xc085                 // test    eax, eax
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x18448843; BYTE $0x01 // mov    byte [r8 + r11 + 1], al
+	LONG $0x02c38349             // add    r11, 2
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_1008
+	JMP  LBB4_1351
+
+LBB4_214:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_417
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_577
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_580
+
+LBB4_219:
+	WORD $0xfe83; BYTE $0x07               // cmp    esi, 7
+	JE   LBB4_420
+	WORD $0xfe83; BYTE $0x08               // cmp    esi, 8
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9               // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca               // mov    r10d, r9d
+	QUAD $0x000000000000bb49; WORD $0x8000 // mov    r11, -9223372036854775808
+	LONG $0x04f98341                       // cmp    r9d, 4
+	JAE  LBB4_581
+	WORD $0xf631                           // xor    esi, esi
+	JMP  LBB4_1286
+
+LBB4_224:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_423
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_228
+	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1009
+	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1009
+
+LBB4_228:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1012:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1014
+	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf749; BYTE $0xda     // neg    r10
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f49             // cmovle    rdi, r10
+	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1014:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1016:
+	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xc084                 // test    al, al
+	LONG $0xfe4f0f48             // cmovg    rdi, rsi
+	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
+	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xc084                 // test    al, al
+	LONG $0xfe4f0f48             // cmovg    rdi, rsi
+	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
+	JNE  LBB4_1016
+	JMP  LBB4_1351
+
+LBB4_229:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_426
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_233
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1017
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1017
+
+LBB4_233:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1020:
+	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x0149; BYTE $0xc1 // add    r9, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1022
+
+LBB4_1021:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1021
+
+LBB4_1022:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB4_1351
+
+LBB4_1023:
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0xd0348949               // mov    qword [r8 + 8*rdx], rsi
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0xd0748949; BYTE $0x08   // mov    qword [r8 + 8*rdx + 8], rsi
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0xd0748949; BYTE $0x10   // mov    qword [r8 + 8*rdx + 16], rsi
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0xd0748949; BYTE $0x18   // mov    qword [r8 + 8*rdx + 24], rsi
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1023
+	JMP  LBB4_1351
+
+LBB4_234:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_429
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_590
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_593
+
+LBB4_239:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_432
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_594
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_597
+
+LBB4_244:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_435
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_248
+	LONG $0xd9148d4a         // lea    rdx, [rcx + 8*r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1024
+	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1024
+
+LBB4_248:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1027:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1029
+	LONG $0xd10c8b4c             // mov    r9, qword [rcx + 8*rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf749; BYTE $0xda     // neg    r10
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f49             // cmovle    rdi, r10
+	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1029:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1031:
+	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	LONG $0xc64f0f48             // cmovg    rax, rsi
+	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
+	LONG $0xd1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rdx + 8]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xfe4f0f48             // cmovg    rdi, rsi
+	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
+	JNE  LBB4_1031
+	JMP  LBB4_1351
+
+LBB4_249:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_438
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x01f98341         // cmp    r9d, 1
+	JNE  LBB4_602
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB4_254
+
+LBB4_257:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_441
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_261
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1032
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1032
+
+LBB4_261:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1035:
+	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x0149; BYTE $0xc1 // add    r9, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1037
+
+LBB4_1036:
+	WORD $0xf631     // xor    esi, esi
+	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
+	LONG $0xd6950f40 // setne    sil
+	LONG $0xd0348949 // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348 // add    rdx, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB4_1036
+
+LBB4_1037:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB4_1351
+
+LBB4_1038:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0748949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rsi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0748949; BYTE $0x10 // mov    qword [r8 + 8*rdx + 16], rsi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0748949; BYTE $0x18 // mov    qword [r8 + 8*rdx + 24], rsi
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1038
+	JMP  LBB4_1351
+
+LBB4_262:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_444
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_613
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_616
+
+LBB4_267:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_618
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_621
+
+LBB4_270:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_622
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_625
+
+LBB4_273:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	WORD $0xd231             // xor    edx, edx
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_626
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB4_629
+
+LBB4_276:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	WORD $0xd231             // xor    edx, edx
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_631
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB4_634
+
+LBB4_279:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JB   LBB4_281
+	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1039
+	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1039
+
+LBB4_281:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1042:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1044
+	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1044:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1046:
+	LONG $0x1104b60f               // movzx    eax, byte [rcx + rdx]
+	WORD $0xff31                   // xor    edi, edi
+	WORD $0xc084                   // test    al, al
+	LONG $0xd7950f40               // setne    dil
+	WORD $0xdff7                   // neg    edi
+	WORD $0xc084                   // test    al, al
+	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
+	LONG $0x3c894166; BYTE $0x50   // mov    word [r8 + 2*rdx], di
+	LONG $0x1144b60f; BYTE $0x01   // movzx    eax, byte [rcx + rdx + 1]
+	WORD $0xff31                   // xor    edi, edi
+	WORD $0xc084                   // test    al, al
+	LONG $0xd7950f40               // setne    dil
+	WORD $0xdff7                   // neg    edi
+	WORD $0xc084                   // test    al, al
+	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
+	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
+	JNE  LBB4_1046
+	JMP  LBB4_1351
+
+LBB4_282:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JB   LBB4_284
+	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1047
+	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1047
+
+LBB4_284:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1050:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1052
+	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1052:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1054:
+	LONG $0x1104b60f               // movzx    eax, byte [rcx + rdx]
+	WORD $0xff31                   // xor    edi, edi
+	WORD $0xc084                   // test    al, al
+	LONG $0xd7950f40               // setne    dil
+	WORD $0xdff7                   // neg    edi
+	WORD $0xc084                   // test    al, al
+	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
+	LONG $0x3c894166; BYTE $0x50   // mov    word [r8 + 2*rdx], di
+	LONG $0x1144b60f; BYTE $0x01   // movzx    eax, byte [rcx + rdx + 1]
+	WORD $0xff31                   // xor    edi, edi
+	WORD $0xc084                   // test    al, al
+	LONG $0xd7950f40               // setne    dil
+	WORD $0xdff7                   // neg    edi
+	WORD $0xc084                   // test    al, al
+	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
+	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
+	JNE  LBB4_1054
+	JMP  LBB4_1351
+
+LBB4_285:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_642
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_645
+
+LBB4_288:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_646
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_649
+
+LBB4_291:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_293
+	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1055
+	LONG $0x40148d49         // lea    rdx, [r8 + 2*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1055
+
+LBB4_293:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1321:
+	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x0149; BYTE $0xc1 // add    r9, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1323
+
+LBB4_1322:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1322
+
+LBB4_1323:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB4_1351
+
+LBB4_1324:
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x34894166; BYTE $0x50   // mov    word [r8 + 2*rdx], si
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x74894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], si
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x74894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], si
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x74894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], si
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1324
+	JMP  LBB4_1351
+
+LBB4_294:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_296
+	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1058
+	LONG $0x40148d49         // lea    rdx, [r8 + 2*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1058
+
+LBB4_296:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1329:
+	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x0149; BYTE $0xc1 // add    r9, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1331
+
+LBB4_1330:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1330
+
+LBB4_1331:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB4_1351
+
+LBB4_1332:
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x34894166; BYTE $0x50   // mov    word [r8 + 2*rdx], si
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x74894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], si
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x74894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], si
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x74894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], si
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1332
+	JMP  LBB4_1351
+
+LBB4_297:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_299
+	LONG $0x59148d4a         // lea    rdx, [rcx + 2*r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1061
+	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1061
+
+LBB4_299:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1337:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1339
+	LONG $0x0cb70f44; BYTE $0x51 // movzx    r9d, word [rcx + 2*rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	LONG $0xc9854566             // test    r9w, r9w
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	LONG $0xc9854566             // test    r9w, r9w
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1339:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1341:
+	LONG $0x513cb70f               // movzx    edi, word [rcx + 2*rdx]
+	WORD $0xc031                   // xor    eax, eax
+	WORD $0x8566; BYTE $0xff       // test    di, di
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f7                   // neg    eax
+	WORD $0x8566; BYTE $0xff       // test    di, di
+	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
+	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
+	LONG $0x5144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rdx + 2]
+	WORD $0xff31                   // xor    edi, edi
+	WORD $0x8566; BYTE $0xc0       // test    ax, ax
+	LONG $0xd7950f40               // setne    dil
+	WORD $0xdff7                   // neg    edi
+	WORD $0x8566; BYTE $0xc0       // test    ax, ax
+	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
+	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
+	JNE  LBB4_1341
+	JMP  LBB4_1351
+
+LBB4_300:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_302
+	LONG $0x59148d4a         // lea    rdx, [rcx + 2*r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1064
+	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1064
+
+LBB4_302:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1346:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1348
+	LONG $0x0cb70f44; BYTE $0x51 // movzx    r9d, word [rcx + 2*rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	LONG $0xc9854566             // test    r9w, r9w
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	LONG $0xc9854566             // test    r9w, r9w
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1348:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1350:
+	LONG $0x513cb70f               // movzx    edi, word [rcx + 2*rdx]
+	WORD $0xc031                   // xor    eax, eax
+	WORD $0x8566; BYTE $0xff       // test    di, di
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f7                   // neg    eax
+	WORD $0x8566; BYTE $0xff       // test    di, di
+	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
+	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
+	LONG $0x5144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rdx + 2]
+	WORD $0xff31                   // xor    edi, edi
+	WORD $0x8566; BYTE $0xc0       // test    ax, ax
+	LONG $0xd7950f40               // setne    dil
+	WORD $0xdff7                   // neg    edi
+	WORD $0x8566; BYTE $0xc0       // test    ax, ax
+	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
+	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
+	JNE  LBB4_1350
+	JMP  LBB4_1351
+
+LBB4_303:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_662
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_665
+
+LBB4_306:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_667
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_670
+
+LBB4_309:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_672
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB4_675
+
+LBB4_312:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_677
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB4_680
+
+LBB4_315:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JB   LBB4_317
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1067
+	LONG $0x40148d49         // lea    rdx, [r8 + 2*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1067
+
+LBB4_317:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1070:
+	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x0149; BYTE $0xc1 // add    r9, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1072
+
+LBB4_1071:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1071
+
+LBB4_1072:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB4_1351
+
+LBB4_1073:
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x34894166; BYTE $0x50   // mov    word [r8 + 2*rdx], si
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x74894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], si
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x74894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], si
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x74894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], si
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1073
+	JMP  LBB4_1351
+
+LBB4_318:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JB   LBB4_320
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1074
+	LONG $0x40148d49         // lea    rdx, [r8 + 2*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1074
+
+LBB4_320:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1077:
+	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x0149; BYTE $0xc1 // add    r9, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1079
+
+LBB4_1078:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1078
+
+LBB4_1079:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB4_1351
+
+LBB4_1080:
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x34894166; BYTE $0x50   // mov    word [r8 + 2*rdx], si
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x74894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], si
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x74894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], si
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0x74894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], si
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1080
+	JMP  LBB4_1351
+
+LBB4_321:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_688
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_691
+
+LBB4_324:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_693
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_696
+
+LBB4_327:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_698
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_701
+
+LBB4_330:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_702
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_705
+
+LBB4_333:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_709
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1306
+
+LBB4_336:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_712
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_715
+
+LBB4_339:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_341
+	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1081
+	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1081
+
+LBB4_341:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1084:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1086
+	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf749; BYTE $0xda     // neg    r10
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f49             // cmovle    rdi, r10
+	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1086:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1088:
+	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xc084                 // test    al, al
+	LONG $0xfe4f0f48             // cmovg    rdi, rsi
+	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
+	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xc084                 // test    al, al
+	LONG $0xfe4f0f48             // cmovg    rdi, rsi
+	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
+	JNE  LBB4_1088
+	JMP  LBB4_1351
+
+LBB4_342:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_344
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1089
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1089
+
+LBB4_344:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1092:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x01a8             // test    al, 1
+	JE   LBB4_1269
+	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
+	JNE  LBB4_1265
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	JMP  LBB4_1266
+
+LBB4_345:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_347
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1095
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1095
+
+LBB4_347:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1098:
+	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x0149; BYTE $0xc1 // add    r9, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1100
+
+LBB4_1099:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1099
+
+LBB4_1100:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB4_1351
+
+LBB4_1101:
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0xd0348949               // mov    qword [r8 + 8*rdx], rsi
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0xd0748949; BYTE $0x08   // mov    qword [r8 + 8*rdx + 8], rsi
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0xd0748949; BYTE $0x10   // mov    qword [r8 + 8*rdx + 16], rsi
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
+	LONG $0xd6950f40               // setne    sil
+	LONG $0xd0748949; BYTE $0x18   // mov    qword [r8 + 8*rdx + 24], rsi
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1101
+	JMP  LBB4_1351
+
+LBB4_348:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_728
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_731
+
+LBB4_351:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_735
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_738
+
+LBB4_354:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_739
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_742
+
+LBB4_357:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_746
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_749
+
+LBB4_360:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_751
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_754
+
+LBB4_363:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_365
+	LONG $0xd9148d4a         // lea    rdx, [rcx + 8*r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1102
+	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1102
+
+LBB4_365:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1105:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1107
+	LONG $0xd10c8b4c             // mov    r9, qword [rcx + 8*rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf749; BYTE $0xda     // neg    r10
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f49             // cmovle    rdi, r10
+	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1107:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1109:
+	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	LONG $0xc64f0f48             // cmovg    rax, rsi
+	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
+	LONG $0xd1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rdx + 8]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xfe4f0f48             // cmovg    rdi, rsi
+	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
+	JNE  LBB4_1109
+	JMP  LBB4_1351
+
+LBB4_366:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_763
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_766
+
+LBB4_369:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_772
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1312
+
+LBB4_372:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_374
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1110
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1110
+
+LBB4_374:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1113:
+	WORD $0x8948; BYTE $0xd6       // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6       // not    rsi
+	WORD $0x01a8                   // test    al, 1
+	JE   LBB4_1115
+	LONG $0x0410fac5; BYTE $0x91   // vmovss    xmm0, dword [rcx + 4*rdx]
+	LONG $0xf850f8c5               // vmovmskps    edi, xmm0
+	WORD $0xe783; BYTE $0x01       // and    edi, 1
+	WORD $0xdff7                   // neg    edi
+	WORD $0xcf83; BYTE $0x01       // or    edi, 1
+	LONG $0xcf2aaac5               // vcvtsi2ss    xmm1, xmm10, edi
+	LONG $0xd257e8c5               // vxorps    xmm2, xmm2, xmm2
+	LONG $0xc2c2fac5; BYTE $0x00   // vcmpeqss    xmm0, xmm0, xmm2
+	LONG $0xc155f8c5               // vandnps    xmm0, xmm0, xmm1
+	LONG $0x117ac1c4; WORD $0x9004 // vmovss    dword [r8 + 4*rdx], xmm0
+	LONG $0x01ca8348               // or    rdx, 1
+
+LBB4_1115:
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	JE   LBB4_1351
+	LONG $0xc057f8c5         // vxorps    xmm0, xmm0, xmm0
+
+LBB4_1117:
+	LONG $0x0c10fac5; BYTE $0x91               // vmovss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xf150f8c5                           // vmovmskps    esi, xmm1
+	WORD $0xe683; BYTE $0x01                   // and    esi, 1
+	WORD $0xdef7                               // neg    esi
+	WORD $0xce83; BYTE $0x01                   // or    esi, 1
+	LONG $0xd62aaac5                           // vcvtsi2ss    xmm2, xmm10, esi
+	LONG $0xc8c2f2c5; BYTE $0x00               // vcmpeqss    xmm1, xmm1, xmm0
+	LONG $0xca55f0c5                           // vandnps    xmm1, xmm1, xmm2
+	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c10fac5; WORD $0x0491             // vmovss    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0xf150f8c5                           // vmovmskps    esi, xmm1
+	WORD $0xe683; BYTE $0x01                   // and    esi, 1
+	WORD $0xdef7                               // neg    esi
+	WORD $0xce83; BYTE $0x01                   // or    esi, 1
+	LONG $0xd62aaac5                           // vcvtsi2ss    xmm2, xmm10, esi
+	LONG $0xc8c2f2c5; BYTE $0x00               // vcmpeqss    xmm1, xmm1, xmm0
+	LONG $0xca55f0c5                           // vandnps    xmm1, xmm1, xmm2
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x02c28348                           // add    rdx, 2
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB4_1117
+	JMP  LBB4_1351
+
+LBB4_375:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_377
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1118
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1118
+
+LBB4_377:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1121:
+	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x0149; BYTE $0xc1 // add    r9, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1123
+
+LBB4_1122:
+	WORD $0xf631     // xor    esi, esi
+	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
+	LONG $0xd6950f40 // setne    sil
+	LONG $0xd0348949 // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348 // add    rdx, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB4_1122
+
+LBB4_1123:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB4_1351
+
+LBB4_1124:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0748949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rsi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0748949; BYTE $0x10 // mov    qword [r8 + 8*rdx + 16], rsi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0748949; BYTE $0x18 // mov    qword [r8 + 8*rdx + 24], rsi
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1124
+	JMP  LBB4_1351
+
+LBB4_378:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_380
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1125
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1125
+
+LBB4_380:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1128:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1133
+	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_1131
+
+LBB4_1130:
+	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JE   LBB4_1133
+
+LBB4_1131:
+	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
+	LONG $0xc86ff9c5 // vmovdqa    xmm1, xmm0
+	JNE  LBB4_1130
+	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
+	JMP  LBB4_1130
+
+LBB4_381:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_784
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_787
+
+LBB4_384:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_789
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_792
+
+LBB4_387:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_389
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1144
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1144
+
+LBB4_389:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1147:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1149
+
+LBB4_1148:
+	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1148
+
+LBB4_1149:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1351
+
+LBB4_1150:
+	LONG $0x00913c83               // cmp    dword [rcx + 4*rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0x04917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 4], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0x08917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 8], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0x0c917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 12], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1150
+	JMP  LBB4_1351
+
+LBB4_390:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_392
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1151
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1151
+
+LBB4_392:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1154:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	WORD $0x01a8                 // test    al, 1
+	JE   LBB4_1156
+	LONG $0x0410fbc5; BYTE $0xd1 // vmovsd    xmm0, qword [rcx + 8*rdx]
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
+	LONG $0xc82ef9c5             // vucomisd    xmm1, xmm0
+	LONG $0x4554f9c5; BYTE $0x30 // vandpd    xmm0, xmm0, oword 48[rbp] /* [rip + .LCPI4_2] */
+	LONG $0x4d12fbc5; BYTE $0x08 // vmovddup    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xc056f1c5             // vorpd    xmm0, xmm1, xmm0
+	LONG $0xd82cfbc5             // vcvttsd2si    ebx, xmm0
+	WORD $0x440f; BYTE $0xdf     // cmove    ebx, edi
+	LONG $0x101c8841             // mov    byte [r8 + rdx], bl
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1156:
+	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
+	JE   LBB4_1351
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
+	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
+	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_1158:
+	LONG $0x1c10fbc5; BYTE $0xd1   // vmovsd    xmm3, qword [rcx + 8*rdx]
+	LONG $0xc32ef9c5               // vucomisd    xmm0, xmm3
+	LONG $0xd954e1c5               // vandpd    xmm3, xmm3, xmm1
+	LONG $0xdb56e9c5               // vorpd    xmm3, xmm2, xmm3
+	LONG $0xfb2cfbc5               // vcvttsd2si    edi, xmm3
+	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
+	LONG $0x103c8841               // mov    byte [r8 + rdx], dil
+	LONG $0x5c10fbc5; WORD $0x08d1 // vmovsd    xmm3, qword [rcx + 8*rdx + 8]
+	LONG $0xc32ef9c5               // vucomisd    xmm0, xmm3
+	LONG $0xd954e1c5               // vandpd    xmm3, xmm3, xmm1
+	LONG $0xdb56e9c5               // vorpd    xmm3, xmm2, xmm3
+	LONG $0xfb2cfbc5               // vcvttsd2si    edi, xmm3
+	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
+	LONG $0x107c8841; BYTE $0x01   // mov    byte [r8 + rdx + 1], dil
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1158
+	JMP  LBB4_1351
+
+LBB4_393:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB4_395
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB4_1159
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB4_1159
+
+LBB4_395:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB4_1162:
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1164
+	LONG $0x193c8a42             // mov    dil, byte [rcx + r11]
+	WORD $0x8440; BYTE $0xff     // test    dil, dil
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x8440; BYTE $0xff     // test    dil, dil
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x183c8843             // mov    byte [r8 + r11], dil
+	LONG $0x01cb8349             // or    r11, 1
+
+LBB4_1164:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1166:
+	LONG $0x04b60f42; BYTE $0x19   // movzx    eax, byte [rcx + r11]
+	WORD $0xc084                   // test    al, al
+	WORD $0x950f; BYTE $0xd2       // setne    dl
+	WORD $0xdaf6                   // neg    dl
+	WORD $0xc084                   // test    al, al
+	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
+	LONG $0x18048843               // mov    byte [r8 + r11], al
+	LONG $0x44b60f42; WORD $0x0119 // movzx    eax, byte [rcx + r11 + 1]
+	WORD $0xc084                   // test    al, al
+	WORD $0x950f; BYTE $0xd2       // setne    dl
+	WORD $0xdaf6                   // neg    dl
+	WORD $0xc084                   // test    al, al
+	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
+	LONG $0x18448843; BYTE $0x01   // mov    byte [r8 + r11 + 1], al
+	LONG $0x02c38349               // add    r11, 2
+	WORD $0x394d; BYTE $0xda       // cmp    r10, r11
+	JNE  LBB4_1166
+	JMP  LBB4_1351
+
+LBB4_396:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_398
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1167
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1167
+
+LBB4_398:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1170:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1172
+
+LBB4_1171:
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1171
+
+LBB4_1172:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1351
+
+LBB4_1173:
+	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1173
+	JMP  LBB4_1351
+
+LBB4_399:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JB   LBB4_401
+	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1174
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1174
+
+LBB4_401:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1177:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1179
+
+LBB4_1178:
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1178
+
+LBB4_1179:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1351
+
+LBB4_1180:
+	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1180
+	JMP  LBB4_1351
+
+LBB4_402:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JB   LBB4_404
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1181
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1181
+
+LBB4_404:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB4_1184:
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1186
+	LONG $0x3cb70f42; BYTE $0x59 // movzx    edi, word [rcx + 2*r11]
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x183c8843             // mov    byte [r8 + r11], dil
+	LONG $0x01cb8349             // or    r11, 1
+
+LBB4_1186:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1188:
+	LONG $0x3cb70f42; BYTE $0x59   // movzx    edi, word [rcx + 2*r11]
+	WORD $0x8566; BYTE $0xff       // test    di, di
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f6                   // neg    al
+	WORD $0x8566; BYTE $0xff       // test    di, di
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
+	LONG $0x18048843               // mov    byte [r8 + r11], al
+	LONG $0x44b70f42; WORD $0x0259 // movzx    eax, word [rcx + 2*r11 + 2]
+	WORD $0x8566; BYTE $0xc0       // test    ax, ax
+	WORD $0x950f; BYTE $0xd2       // setne    dl
+	WORD $0xdaf6                   // neg    dl
+	WORD $0x8566; BYTE $0xc0       // test    ax, ax
+	WORD $0xb60f; BYTE $0xc2       // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
+	LONG $0x18448843; BYTE $0x01   // mov    byte [r8 + r11 + 1], al
+	LONG $0x02c38349               // add    r11, 2
+	WORD $0x394d; BYTE $0xda       // cmp    r10, r11
+	JNE  LBB4_1188
+	JMP  LBB4_1351
+
+LBB4_405:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_407
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1189
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1189
+
+LBB4_407:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB4_1192:
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1194
+	LONG $0xd93c8b4a             // mov    rdi, qword [rcx + 8*r11]
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x183c8843             // mov    byte [r8 + r11], dil
+	LONG $0x01cb8349             // or    r11, 1
+
+LBB4_1194:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1196:
+	LONG $0xd93c8b4a             // mov    rdi, qword [rcx + 8*r11]
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x18048843             // mov    byte [r8 + r11], al
+	LONG $0xd9448b4a; BYTE $0x08 // mov    rax, qword [rcx + 8*r11 + 8]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x18448843; BYTE $0x01 // mov    byte [r8 + r11 + 1], al
+	LONG $0x02c38349             // add    r11, 2
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_1196
+	JMP  LBB4_1351
+
+LBB4_408:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_410
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1197
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1197
+
+LBB4_410:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1200:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1202
+	LONG $0x046ef9c5; BYTE $0x91 // vmovd    xmm0, dword [rcx + 4*rdx]
+	LONG $0xc77ef9c5             // vmovd    edi, xmm0
+	WORD $0xff85                 // test    edi, edi
+	LONG $0xd7990f40             // setns    dil
+	WORD $0x0040; BYTE $0xff     // add    dil, dil
+	LONG $0xffc78040             // add    dil, -1
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
+	LONG $0xc82ef8c5             // vucomiss    xmm1, xmm0
+	LONG $0xffb60f40             // movzx    edi, dil
+	LONG $0xf9440f41             // cmove    edi, r9d
+	LONG $0x103c8841             // mov    byte [r8 + rdx], dil
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1202:
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	JE   LBB4_1351
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc057f8c5         // vxorps    xmm0, xmm0, xmm0
+
+LBB4_1204:
+	LONG $0x0c6ef9c5; BYTE $0x91   // vmovd    xmm1, dword [rcx + 4*rdx]
+	LONG $0xcf7ef9c5               // vmovd    edi, xmm1
+	WORD $0xff85                   // test    edi, edi
+	WORD $0x990f; BYTE $0xd0       // setns    al
+	WORD $0xc000                   // add    al, al
+	WORD $0xff04                   // add    al, -1
+	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
+	LONG $0x10048841               // mov    byte [r8 + rdx], al
+	LONG $0x4c6ef9c5; WORD $0x0491 // vmovd    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0xc87ef9c5               // vmovd    eax, xmm1
+	WORD $0xc085                   // test    eax, eax
+	WORD $0x990f; BYTE $0xd0       // setns    al
+	WORD $0xc000                   // add    al, al
+	WORD $0xff04                   // add    al, -1
+	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
+	LONG $0x10448841; BYTE $0x01   // mov    byte [r8 + rdx + 1], al
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
+	JNE  LBB4_1204
+	JMP  LBB4_1351
+
+LBB4_411:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8                   // mov    eax, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB4_413
+	LONG $0x01148d48                           // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB4_1205
+	LONG $0x00148d49                           // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB4_1205
+
+LBB4_413:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1208:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1210
+
+LBB4_1209:
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1209
+
+LBB4_1210:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1351
+
+LBB4_1211:
+	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1211
+	JMP  LBB4_1351
+
+LBB4_414:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_416
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1212
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1212
+
+LBB4_416:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB4_1215:
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1217
+	LONG $0x993c8b42             // mov    edi, dword [rcx + 4*r11]
+	WORD $0xff85                 // test    edi, edi
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0xff85                 // test    edi, edi
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x183c8843             // mov    byte [r8 + r11], dil
+	LONG $0x01cb8349             // or    r11, 1
+
+LBB4_1217:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1219:
+	LONG $0x993c8b42             // mov    edi, dword [rcx + 4*r11]
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xff85                 // test    edi, edi
+	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x18048843             // mov    byte [r8 + r11], al
+	LONG $0x99448b42; BYTE $0x04 // mov    eax, dword [rcx + 4*r11 + 4]
+	WORD $0xc085                 // test    eax, eax
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xc085                 // test    eax, eax
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x18448843; BYTE $0x01 // mov    byte [r8 + r11 + 1], al
+	LONG $0x02c38349             // add    r11, 2
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_1219
+	JMP  LBB4_1351
+
+LBB4_417:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_419
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1220
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1220
+
+LBB4_419:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1223:
+	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x0149; BYTE $0xc1 // add    r9, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1225
+
+LBB4_1224:
+	WORD $0xf631     // xor    esi, esi
+	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd6950f40 // setne    sil
+	LONG $0x90348941 // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348 // add    rdx, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB4_1224
+
+LBB4_1225:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB4_1351
+
+LBB4_1226:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x04917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 4], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90748941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], esi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x08917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 8], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90748941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], esi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x0c917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 12], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90748941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], esi
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1226
+	JMP  LBB4_1351
+
+LBB4_420:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	WORD $0xd231             // xor    edx, edx
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_831
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB4_834
+
+LBB4_423:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_425
+	LONG $0x19148d4a         // lea    rdx, [rcx + r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1227
+	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1227
+
+LBB4_425:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1230:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1232
+	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1232:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1234:
+	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0xc084                 // test    al, al
+	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
+	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
+	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0xc084                 // test    al, al
+	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
+	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
+	JNE  LBB4_1234
+	JMP  LBB4_1351
+
+LBB4_426:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_839
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_842
+
+LBB4_429:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_843
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_846
+
+LBB4_432:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_847
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_850
+
+LBB4_435:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB4_852
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_855
+
+LBB4_438:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB4_857
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_860
+
+LBB4_441:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_443
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1235
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1235
+
+LBB4_443:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1238:
+	WORD $0x8949; BYTE $0xd1 // mov    r9, rdx
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x0149; BYTE $0xc1 // add    r9, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1240
+
+LBB4_1239:
+	WORD $0xf631     // xor    esi, esi
+	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
+	LONG $0xd6950f40 // setne    sil
+	LONG $0x90348941 // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348 // add    rdx, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB4_1239
+
+LBB4_1240:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB4_1351
+
+LBB4_1241:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90748941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], esi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90748941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], esi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90748941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], esi
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1241
+	JMP  LBB4_1351
+
+LBB4_444:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1351
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_446
+	LONG $0x99148d4a         // lea    rdx, [rcx + 4*r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_1242
+	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_1242
+
+LBB4_446:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1245:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1247
+	LONG $0x910c8b44             // mov    r9d, dword [rcx + 4*rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1247:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1351
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1249:
+	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
+	LONG $0x0491448b             // mov    eax, dword [rcx + 4*rdx + 4]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc085                 // test    eax, eax
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0xc085                 // test    eax, eax
+	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
+	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
+	JNE  LBB4_1249
+	JMP  LBB4_1351
+
+LBB4_922:
+	LONG $0x03fe8348             // cmp    rsi, 3
+	JB   LBB4_1351
+	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
+	JMP  LBB4_925
+
+LBB4_924:
+	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x18 // vmovq    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_925:
+	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
+	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
+	JNE  LBB4_926
+	LONG $0xc9eff1c5               // vpxor    xmm1, xmm1, xmm1
+	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
+	JE   LBB4_930
+
+LBB4_927:
+	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x08 // vmovq    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
+	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
+	JNE  LBB4_928
+
+LBB4_931:
+	LONG $0xc9eff1c5                           // vpxor    xmm1, xmm1, xmm1
+	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x10 // vmovq    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
+	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
+	JNE  LBB4_924
+	JMP  LBB4_932
+
+LBB4_926:
+	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
+	JNE  LBB4_927
+
+LBB4_930:
+	LONG $0xc9eff1c5                           // vpxor    xmm1, xmm1, xmm1
+	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x08 // vmovq    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
+	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
+	JE   LBB4_931
+
+LBB4_928:
+	LONG $0xd679c1c4; WORD $0xd04c; BYTE $0x10 // vmovq    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
+	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
+	JNE  LBB4_924
+
+LBB4_932:
+	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
+	JMP  LBB4_924
+
+LBB4_1133:
+	LONG $0x03fe8348         // cmp    rsi, 3
+	JB   LBB4_1351
+	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_1136
+
+LBB4_1135:
+	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x0c // vmovd    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_1136:
+	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
+	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
+	JNE  LBB4_1137
+	LONG $0xc9eff1c5               // vpxor    xmm1, xmm1, xmm1
+	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
+	JE   LBB4_1141
+
+LBB4_1138:
+	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x04 // vmovd    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
+	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
+	JNE  LBB4_1139
+
+LBB4_1142:
+	LONG $0xc9eff1c5                           // vpxor    xmm1, xmm1, xmm1
+	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x08 // vmovd    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
+	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
+	JNE  LBB4_1135
+	JMP  LBB4_1143
+
+LBB4_1137:
+	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xc86ff9c5               // vmovdqa    xmm1, xmm0
+	JNE  LBB4_1138
+
+LBB4_1141:
+	LONG $0xc9eff1c5                           // vpxor    xmm1, xmm1, xmm1
+	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x04 // vmovd    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
+	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
+	JE   LBB4_1142
+
+LBB4_1139:
+	LONG $0x7e79c1c4; WORD $0x904c; BYTE $0x08 // vmovd    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
+	LONG $0xc86ff9c5                           // vmovdqa    xmm1, xmm0
+	JNE  LBB4_1135
+
+LBB4_1143:
+	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
+	JMP  LBB4_1135
+
+LBB4_450:
+	WORD $0xc689                         // mov    esi, eax
+	WORD $0xe683; BYTE $0xfc             // and    esi, -4
+	LONG $0xfc568d48                     // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1             // mov    r9, rdx
+	LONG $0x02e9c149                     // shr    r9, 2
+	LONG $0x01c18349                     // add    r9, 1
+	WORD $0x8548; BYTE $0xd2             // test    rdx, rdx
+	JE   LBB4_1288
+	WORD $0x894c; BYTE $0xca             // mov    rdx, r9
+	LONG $0xfee28348                     // and    rdx, -2
+	WORD $0xf748; BYTE $0xda             // neg    rdx
+	WORD $0xff31                         // xor    edi, edi
+	LONG $0x197de2c4; WORD $0x0045       // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x197de2c4; WORD $0x084d       // vbroadcastsd    ymm1, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0x573941c4; BYTE $0xc0         // vxorpd    xmm8, xmm8, xmm8
+	LONG $0x197de2c4; WORD $0x185d       // vbroadcastsd    ymm3, qword 24[rbp] /* [rip + .LCPI4_7] */
+	QUAD $0x000094a51879e2c4; BYTE $0x00 // vbroadcastss    xmm4, dword 148[rbp] /* [rip + .LCPI4_4] */
+
+LBB4_452:
+	LONG $0x2c10fdc5; BYTE $0xf9               // vmovupd    ymm5, yword [rcx + 8*rdi]
+	LONG $0xf5c2bdc5; BYTE $0x00               // vcmpeqpd    ymm6, ymm8, ymm5
+	LONG $0xe854d5c5                           // vandpd    ymm5, ymm5, ymm0
+	LONG $0xed56f5c5                           // vorpd    ymm5, ymm1, ymm5
+	LONG $0xfbc2d5c5; BYTE $0x01               // vcmpltpd    ymm7, ymm5, ymm3
+	LONG $0x197de3c4; WORD $0x01fa             // vextractf128    xmm2, ymm7, 1
+	LONG $0xd26bc1c5                           // vpackssdw    xmm2, xmm7, xmm2
+	LONG $0xfb5cd5c5                           // vsubpd    ymm7, ymm5, ymm3
+	LONG $0xffe6fdc5                           // vcvttpd2dq    xmm7, ymm7
+	LONG $0xede6fdc5                           // vcvttpd2dq    xmm5, ymm5
+	LONG $0xfc57c1c5                           // vxorpd    xmm7, xmm7, xmm4
+	LONG $0x4a41e3c4; WORD $0x20d5             // vblendvps    xmm2, xmm7, xmm5, xmm2
+	LONG $0x197de3c4; WORD $0x01f5             // vextractf128    xmm5, ymm6, 1
+	LONG $0xed6bc9c5                           // vpackssdw    xmm5, xmm6, xmm5
+	LONG $0xd2dfd1c5                           // vpandn    xmm2, xmm5, xmm2
+	LONG $0x7f7ac1c4; WORD $0xb814             // vmovdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x5410fdc5; WORD $0x20f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 32]
+	LONG $0xeac2bdc5; BYTE $0x00               // vcmpeqpd    ymm5, ymm8, ymm2
+	LONG $0x197de3c4; WORD $0x01ee             // vextractf128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xd054edc5                           // vandpd    ymm2, ymm2, ymm0
+	LONG $0xd256f5c5                           // vorpd    ymm2, ymm1, ymm2
+	LONG $0xf3c2edc5; BYTE $0x01               // vcmpltpd    ymm6, ymm2, ymm3
+	LONG $0x197de3c4; WORD $0x01f7             // vextractf128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xfb5cedc5                           // vsubpd    ymm7, ymm2, ymm3
+	LONG $0xffe6fdc5                           // vcvttpd2dq    xmm7, ymm7
+	LONG $0xfc57c1c5                           // vxorpd    xmm7, xmm7, xmm4
+	LONG $0xd2e6fdc5                           // vcvttpd2dq    xmm2, ymm2
+	LONG $0x4a41e3c4; WORD $0x60d2             // vblendvps    xmm2, xmm7, xmm2, xmm6
+	LONG $0xd2dfd1c5                           // vpandn    xmm2, xmm5, xmm2
+	LONG $0x7f7ac1c4; WORD $0xb854; BYTE $0x10 // vmovdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB4_452
+	JMP  LBB4_1289
+
+LBB4_456:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0             // and    edx, -16
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_457:
+	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
+	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
+	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
+	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
+	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
+	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
+	LONG $0x7f7ac1c4; WORD $0xb01c             // vmovdqu    oword [r8 + 4*rsi], xmm3
+	LONG $0x7f7ac1c4; WORD $0xb064; BYTE $0x10 // vmovdqu    oword [r8 + 4*rsi + 16], xmm4
+	LONG $0x7f7ac1c4; WORD $0xb06c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rsi + 32], xmm5
+	LONG $0x7f7ac1c4; WORD $0xb074; BYTE $0x30 // vmovdqu    oword [r8 + 4*rsi + 48], xmm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_457
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_459:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_459
+	JMP  LBB4_1351
+
+LBB4_460:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
+	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_461:
+	LONG $0x1c75f9c5; BYTE $0x71               // vpcmpeqw    xmm3, xmm0, oword [rcx + 2*rsi]
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x337de2c4; BYTE $0xdb               // vpmovzxwd    ymm3, xmm3
+	LONG $0x6475f9c5; WORD $0x1071             // vpcmpeqw    xmm4, xmm0, oword [rcx + 2*rsi + 16]
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x337de2c4; BYTE $0xe4               // vpmovzxwd    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0x6c75f9c5; WORD $0x2071             // vpcmpeqw    xmm5, xmm0, oword [rcx + 2*rsi + 32]
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x337de2c4; BYTE $0xed               // vpmovzxwd    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0x7475f9c5; WORD $0x3071             // vpcmpeqw    xmm6, xmm0, oword [rcx + 2*rsi + 48]
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x337de2c4; BYTE $0xf6               // vpmovzxwd    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0x7f7ec1c4; WORD $0xb01c             // vmovdqu    yword [r8 + 4*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0xb074; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm6
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_461
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_463:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_463
+	JMP  LBB4_1351
+
+LBB4_464:
+	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
+	QUAD $0x00009c95187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_465:
+	LONG $0x1c6ffac5; BYTE $0x71               // vmovdqu    xmm3, oword [rcx + 2*rsi]
+	LONG $0x646ffac5; WORD $0x1071             // vmovdqu    xmm4, oword [rcx + 2*rsi + 16]
+	LONG $0x6c6ffac5; WORD $0x2071             // vmovdqu    xmm5, oword [rcx + 2*rsi + 32]
+	LONG $0x746ffac5; WORD $0x3071             // vmovdqu    xmm6, oword [rcx + 2*rsi + 48]
+	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
+	LONG $0x237d62c4; BYTE $0xcf               // vpmovsxwd    ymm9, xmm7
+	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
+	LONG $0x237d62c4; BYTE $0xd1               // vpmovsxwd    ymm10, xmm1
+	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
+	LONG $0x237de2c4; BYTE $0xff               // vpmovsxwd    ymm7, xmm7
+	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
+	LONG $0x237de2c4; BYTE $0xc9               // vpmovsxwd    ymm1, xmm1
+	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x237de2c4; BYTE $0xdb               // vpmovsxwd    ymm3, xmm3
+	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x237de2c4; BYTE $0xe4               // vpmovsxwd    ymm4, xmm4
+	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x237de2c4; BYTE $0xed               // vpmovsxwd    ymm5, xmm5
+	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x237de2c4; BYTE $0xf6               // vpmovsxwd    ymm6, xmm6
+	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_465
+	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
+	JE   LBB4_1351
+
+LBB4_467:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_468:
+	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f7             // neg    eax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
+	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_468
+	JMP  LBB4_1351
+
+LBB4_469:
+	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0             // and    edx, -16
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763d41c4; BYTE $0xc0         // vpcmpeqd    ymm8, ymm8, ymm8
+	QUAD $0x00009c951879e2c4; BYTE $0x00 // vbroadcastss    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_470:
+	LONG $0x246ffec5; BYTE $0xf1               // vmovdqu    ymm4, yword [rcx + 8*rsi]
+	LONG $0x6c6ffec5; WORD $0x20f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 32]
+	LONG $0x746ffec5; WORD $0x40f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
+	LONG $0x7c6ffec5; WORD $0x60f1             // vmovdqu    ymm7, yword [rcx + 8*rsi + 96]
+	LONG $0x375de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm4, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xc96b61c5                           // vpackssdw    xmm9, xmm3, xmm1
+	LONG $0x3755e2c4; BYTE $0xc8               // vpcmpgtq    ymm1, ymm5, ymm0
+	LONG $0x397de3c4; WORD $0x01cb             // vextracti128    xmm3, ymm1, 1
+	LONG $0xd36b71c5                           // vpackssdw    xmm10, xmm1, xmm3
+	LONG $0x374de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm6, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xd96b61c5                           // vpackssdw    xmm11, xmm3, xmm1
+	LONG $0x3745e2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm7, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
+	LONG $0x295de2c4; BYTE $0xd8               // vpcmpeqq    ymm3, ymm4, ymm0
+	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0x2955e2c4; BYTE $0xe0               // vpcmpeqq    ymm4, ymm5, ymm0
+	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0x294de2c4; BYTE $0xe8               // vpcmpeqq    ymm5, ymm6, ymm0
+	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0x2945e2c4; BYTE $0xf0               // vpcmpeqq    ymm6, ymm7, ymm0
+	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0x4a61e3c4; WORD $0x90da             // vblendvps    xmm3, xmm3, xmm2, xmm9
+	LONG $0x4a59e3c4; WORD $0xa0e2             // vblendvps    xmm4, xmm4, xmm2, xmm10
+	LONG $0x4a51e3c4; WORD $0xb0ea             // vblendvps    xmm5, xmm5, xmm2, xmm11
+	LONG $0x4a49e3c4; WORD $0x10ca             // vblendvps    xmm1, xmm6, xmm2, xmm1
+	LONG $0x1178c1c4; WORD $0xb01c             // vmovups    oword [r8 + 4*rsi], xmm3
+	LONG $0x1178c1c4; WORD $0xb064; BYTE $0x10 // vmovups    oword [r8 + 4*rsi + 16], xmm4
+	LONG $0x1178c1c4; WORD $0xb06c; BYTE $0x20 // vmovups    oword [r8 + 4*rsi + 32], xmm5
+	LONG $0x1178c1c4; WORD $0xb04c; BYTE $0x30 // vmovups    oword [r8 + 4*rsi + 48], xmm1
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_470
+	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
+	JE   LBB4_1351
+
+LBB4_472:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_473:
+	LONG $0xd13c8b48         // mov    rdi, qword [rcx + 8*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x8548; BYTE $0xff // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f7             // neg    eax
+	WORD $0x8548; BYTE $0xff // test    rdi, rdi
+	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
+	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_473
+	JMP  LBB4_1351
+
+LBB4_474:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8             // and    edx, -8
+	LONG $0xf8728d48                     // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1             // mov    r9, rsi
+	LONG $0x03e9c149                     // shr    r9, 3
+	LONG $0x01c18349                     // add    r9, 1
+	WORD $0x8548; BYTE $0xf6             // test    rsi, rsi
+	JE   LBB4_1294
+	WORD $0x894c; BYTE $0xcf             // mov    rdi, r9
+	LONG $0xfee78348                     // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf             // neg    rdi
+	WORD $0xf631                         // xor    esi, esi
+	QUAD $0x00009c85587de2c4; BYTE $0x00 // vpbroadcastd    ymm0, dword 156[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc957f0c5                     // vxorps    xmm1, xmm1, xmm1
+	QUAD $0x0000a495187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 164[rbp] /* [rip + .LCPI4_10] */
+	QUAD $0x0000949d187de2c4; BYTE $0x00 // vbroadcastss    ymm3, dword 148[rbp] /* [rip + .LCPI4_4] */
+
+LBB4_476:
+	LONG $0x246ffec5; BYTE $0xb1               // vmovdqu    ymm4, yword [rcx + 4*rsi]
+	LONG $0xe472d5c5; BYTE $0x1f               // vpsrad    ymm5, ymm4, 31
+	LONG $0xe8ebd5c5                           // vpor    ymm5, ymm5, ymm0
+	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
+	LONG $0xf2c2d4c5; BYTE $0x01               // vcmpltps    ymm6, ymm5, ymm2
+	LONG $0xfa5cd4c5                           // vsubps    ymm7, ymm5, ymm2
+	LONG $0xff5bfec5                           // vcvttps2dq    ymm7, ymm7
+	LONG $0xfb57c4c5                           // vxorps    ymm7, ymm7, ymm3
+	LONG $0xed5bfec5                           // vcvttps2dq    ymm5, ymm5
+	LONG $0x4a45e3c4; WORD $0x60ed             // vblendvps    ymm5, ymm7, ymm5, ymm6
+	LONG $0xe1c2dcc5; BYTE $0x04               // vcmpneqps    ymm4, ymm4, ymm1
+	LONG $0xe554dcc5                           // vandps    ymm4, ymm4, ymm5
+	LONG $0x117cc1c4; WORD $0xb024             // vmovups    yword [r8 + 4*rsi], ymm4
+	LONG $0x646ffec5; WORD $0x20b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 32]
+	LONG $0xe472d5c5; BYTE $0x1f               // vpsrad    ymm5, ymm4, 31
+	LONG $0xe8ebd5c5                           // vpor    ymm5, ymm5, ymm0
+	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
+	LONG $0xf2c2d4c5; BYTE $0x01               // vcmpltps    ymm6, ymm5, ymm2
+	LONG $0xfa5cd4c5                           // vsubps    ymm7, ymm5, ymm2
+	LONG $0xff5bfec5                           // vcvttps2dq    ymm7, ymm7
+	LONG $0xfb57c4c5                           // vxorps    ymm7, ymm7, ymm3
+	LONG $0xed5bfec5                           // vcvttps2dq    ymm5, ymm5
+	LONG $0x4a45e3c4; WORD $0x60ed             // vblendvps    ymm5, ymm7, ymm5, ymm6
+	LONG $0xe1c2dcc5; BYTE $0x04               // vcmpneqps    ymm4, ymm4, ymm1
+	LONG $0xe554dcc5                           // vandps    ymm4, ymm4, ymm5
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_476
+	JMP  LBB4_1295
+
+LBB4_483:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0             // and    edx, -16
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	QUAD $0x00009c8d5879e2c4; BYTE $0x00 // vpbroadcastd    xmm1, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_484:
+	LONG $0x1476f9c5; BYTE $0xb1               // vpcmpeqd    xmm2, xmm0, oword [rcx + 4*rsi]
+	LONG $0xd1dfe9c5                           // vpandn    xmm2, xmm2, xmm1
+	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
+	LONG $0x5c76f9c5; WORD $0x10b1             // vpcmpeqd    xmm3, xmm0, oword [rcx + 4*rsi + 16]
+	LONG $0xd9dfe1c5                           // vpandn    xmm3, xmm3, xmm1
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0x6476f9c5; WORD $0x20b1             // vpcmpeqd    xmm4, xmm0, oword [rcx + 4*rsi + 32]
+	LONG $0xe1dfd9c5                           // vpandn    xmm4, xmm4, xmm1
+	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
+	LONG $0x6c76f9c5; WORD $0x30b1             // vpcmpeqd    xmm5, xmm0, oword [rcx + 4*rsi + 48]
+	LONG $0xe9dfd1c5                           // vpandn    xmm5, xmm5, xmm1
+	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
+	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_484
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_486:
+	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
+	JMP  LBB4_488
+
+LBB4_487:
+	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_488:
+	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xc86ff9c5 // vmovdqa    xmm1, xmm0
+	JNE  LBB4_487
+	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
+	JMP  LBB4_487
+
+LBB4_496:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0             // and    edx, -16
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_497:
+	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
+	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
+	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
+	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
+	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
+	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
+	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
+	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_497
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_499:
+	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
+	JMP  LBB4_501
+
+LBB4_500:
+	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_501:
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xc86ff9c5             // vmovdqa    xmm1, xmm0
+	JNE  LBB4_500
+	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
+	JMP  LBB4_500
+
+LBB4_503:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0             // and    edx, -16
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
+	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_504:
+	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
+	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
+	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
+	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
+	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x3379e2c4; BYTE $0xdb               // vpmovzxwd    xmm3, xmm3
+	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x3379e2c4; BYTE $0xe4               // vpmovzxwd    xmm4, xmm4
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
+	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x3379e2c4; BYTE $0xed               // vpmovzxwd    xmm5, xmm5
+	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
+	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
+	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x3379e2c4; BYTE $0xf6               // vpmovzxwd    xmm6, xmm6
+	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
+	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_504
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_506:
+	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
+	JMP  LBB4_508
+
+LBB4_507:
+	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_508:
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xc86ff9c5             // vmovdqa    xmm1, xmm0
+	JNE  LBB4_507
+	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
+	JMP  LBB4_507
+
+LBB4_510:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
+	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_511:
+	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
+	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
+	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
+	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
+	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
+	LONG $0x247d62c4; BYTE $0xcf               // vpmovsxwq    ymm9, xmm7
+	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
+	LONG $0x247d62c4; BYTE $0xd1               // vpmovsxwq    ymm10, xmm1
+	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
+	LONG $0x247de2c4; BYTE $0xff               // vpmovsxwq    ymm7, xmm7
+	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
+	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x2379e2c4; BYTE $0xdb               // vpmovsxwd    xmm3, xmm3
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x2379e2c4; BYTE $0xe4               // vpmovsxwd    xmm4, xmm4
+	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
+	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x2379e2c4; BYTE $0xed               // vpmovsxwd    xmm5, xmm5
+	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
+	LONG $0x247de2c4; BYTE $0xc9               // vpmovsxwq    ymm1, xmm1
+	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x2379e2c4; BYTE $0xf6               // vpmovsxwd    xmm6, xmm6
+	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
+	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_511
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_513:
+	LONG $0x4510fbc5; BYTE $0x20 // vmovsd    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
+	LONG $0x4d10fbc5; BYTE $0x08 // vmovsd    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
+	JMP  LBB4_515
+
+LBB4_514:
+	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_515:
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd028f9c5             // vmovapd    xmm2, xmm0
+	JNE  LBB4_517
+	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
+
+LBB4_517:
+	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
+	JG   LBB4_514
+	LONG $0xda28f9c5 // vmovapd    xmm3, xmm2
+	JMP  LBB4_514
+
+LBB4_519:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x762541c4; BYTE $0xdb   // vpcmpeqd    ymm11, ymm11, ymm11
+	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_520:
+	LONG $0x1c6ffec5; BYTE $0xf1               // vmovdqu    ymm3, yword [rcx + 8*rsi]
+	LONG $0x646ffec5; WORD $0x20f1             // vmovdqu    ymm4, yword [rcx + 8*rsi + 32]
+	LONG $0x6c6ffec5; WORD $0x40f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 64]
+	LONG $0x746ffec5; WORD $0x60f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 96]
+	LONG $0x3765e2c4; BYTE $0xf8               // vpcmpgtq    ymm7, ymm3, ymm0
+	LONG $0x375d62c4; BYTE $0xc0               // vpcmpgtq    ymm8, ymm4, ymm0
+	LONG $0x375562c4; BYTE $0xc8               // vpcmpgtq    ymm9, ymm5, ymm0
+	LONG $0x374d62c4; BYTE $0xd0               // vpcmpgtq    ymm10, ymm6, ymm0
+	LONG $0x2965e2c4; BYTE $0xd8               // vpcmpeqq    ymm3, ymm3, ymm0
+	LONG $0xdbefa5c5                           // vpxor    ymm3, ymm11, ymm3
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
+	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
+	LONG $0x295de2c4; BYTE $0xd8               // vpcmpeqq    ymm3, ymm4, ymm0
+	LONG $0xdbefa5c5                           // vpxor    ymm3, ymm11, ymm3
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0x2955e2c4; BYTE $0xe0               // vpcmpeqq    ymm4, ymm5, ymm0
+	LONG $0xe4efa5c5                           // vpxor    ymm4, ymm11, ymm4
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
+	LONG $0x294de2c4; BYTE $0xe8               // vpcmpeqq    ymm5, ymm6, ymm0
+	LONG $0xedefa5c5                           // vpxor    ymm5, ymm11, ymm5
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
+	LONG $0x4b75e3c4; WORD $0x70ca             // vblendvpd    ymm1, ymm1, ymm2, ymm7
+	LONG $0x4b65e3c4; WORD $0x80da             // vblendvpd    ymm3, ymm3, ymm2, ymm8
+	LONG $0x4b5de3c4; WORD $0x90e2             // vblendvpd    ymm4, ymm4, ymm2, ymm9
+	LONG $0x4b55e3c4; WORD $0xa0ea             // vblendvpd    ymm5, ymm5, ymm2, ymm10
+	LONG $0x117dc1c4; WORD $0xf00c             // vmovupd    yword [r8 + 8*rsi], ymm1
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_520
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_522:
+	LONG $0x4510fbc5; BYTE $0x20 // vmovsd    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
+	LONG $0x4d10fbc5; BYTE $0x08 // vmovsd    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
+	JMP  LBB4_524
+
+LBB4_523:
+	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_524:
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd028f9c5             // vmovapd    xmm2, xmm0
+	JNE  LBB4_526
+	LONG $0xd257e9c5             // vxorpd    xmm2, xmm2, xmm2
+
+LBB4_526:
+	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
+	JG   LBB4_523
+	LONG $0xda28f9c5 // vmovapd    xmm3, xmm2
+	JMP  LBB4_523
+
+LBB4_528:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0             // and    edx, -16
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0x573841c4; BYTE $0xc0         // vxorps    xmm8, xmm8, xmm8
+	QUAD $0x00009c8d5879e2c4; BYTE $0x00 // vpbroadcastd    xmm1, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_529:
+	LONG $0x1410f8c5; BYTE $0xb1               // vmovups    xmm2, oword [rcx + 4*rsi]
+	LONG $0x5c10f8c5; WORD $0x10b1             // vmovups    xmm3, oword [rcx + 4*rsi + 16]
+	LONG $0x6410f8c5; WORD $0x20b1             // vmovups    xmm4, oword [rcx + 4*rsi + 32]
+	LONG $0x6c10f8c5; WORD $0x30b1             // vmovups    xmm5, oword [rcx + 4*rsi + 48]
+	LONG $0xf2c2b8c5; BYTE $0x00               // vcmpeqps    xmm6, xmm8, xmm2
+	LONG $0x257de2c4; BYTE $0xf6               // vpmovsxdq    ymm6, xmm6
+	LONG $0xfbc2b8c5; BYTE $0x00               // vcmpeqps    xmm7, xmm8, xmm3
+	LONG $0x257de2c4; BYTE $0xff               // vpmovsxdq    ymm7, xmm7
+	LONG $0xc4c2b8c5; BYTE $0x00               // vcmpeqps    xmm0, xmm8, xmm4
+	LONG $0x257d62c4; BYTE $0xc8               // vpmovsxdq    ymm9, xmm0
+	LONG $0xc5c2b8c5; BYTE $0x00               // vcmpeqps    xmm0, xmm8, xmm5
+	LONG $0x257de2c4; BYTE $0xc0               // vpmovsxdq    ymm0, xmm0
+	LONG $0xe272e9c5; BYTE $0x1f               // vpsrad    xmm2, xmm2, 31
+	LONG $0xd1ebe9c5                           // vpor    xmm2, xmm2, xmm1
+	LONG $0xe372e1c5; BYTE $0x1f               // vpsrad    xmm3, xmm3, 31
+	LONG $0xd9ebe1c5                           // vpor    xmm3, xmm3, xmm1
+	LONG $0xe472d9c5; BYTE $0x1f               // vpsrad    xmm4, xmm4, 31
+	LONG $0xe1ebd9c5                           // vpor    xmm4, xmm4, xmm1
+	LONG $0xe572d1c5; BYTE $0x1f               // vpsrad    xmm5, xmm5, 31
+	LONG $0xe9ebd1c5                           // vpor    xmm5, xmm5, xmm1
+	LONG $0xd25bf8c5                           // vcvtdq2ps    xmm2, xmm2
+	LONG $0xdb5bf8c5                           // vcvtdq2ps    xmm3, xmm3
+	LONG $0xe45bf8c5                           // vcvtdq2ps    xmm4, xmm4
+	LONG $0xed5bf8c5                           // vcvtdq2ps    xmm5, xmm5
+	LONG $0xd25afcc5                           // vcvtps2pd    ymm2, xmm2
+	LONG $0xd2dfcdc5                           // vpandn    ymm2, ymm6, ymm2
+	LONG $0xdb5afcc5                           // vcvtps2pd    ymm3, xmm3
+	LONG $0xdbdfc5c5                           // vpandn    ymm3, ymm7, ymm3
+	LONG $0xe45afcc5                           // vcvtps2pd    ymm4, xmm4
+	LONG $0xed5afcc5                           // vcvtps2pd    ymm5, xmm5
+	LONG $0xe4dfb5c5                           // vpandn    ymm4, ymm9, ymm4
+	LONG $0xc5dffdc5                           // vpandn    ymm0, ymm0, ymm5
+	LONG $0x7f7ec1c4; WORD $0xf014             // vmovdqu    yword [r8 + 8*rsi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf05c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf044; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm0
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_529
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_531:
+	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
+	JMP  LBB4_533
+
+LBB4_532:
+	LONG $0xd679c1c4; WORD $0xd00c // vmovq    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_533:
+	LONG $0x1410fac5; BYTE $0x91 // vmovss    xmm2, dword [rcx + 4*rdx]
+	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
+	LONG $0xc22ef8c5             // vucomiss    xmm0, xmm2
+	JE   LBB4_532
+	LONG $0xf250f8c5             // vmovmskps    esi, xmm2
+	WORD $0xe683; BYTE $0x01     // and    esi, 1
+	WORD $0xdef7                 // neg    esi
+	WORD $0xce83; BYTE $0x01     // or    esi, 1
+	LONG $0xce2aaac5             // vcvtsi2ss    xmm1, xmm10, esi
+	LONG $0xc95af2c5             // vcvtss2sd    xmm1, xmm1, xmm1
+	JMP  LBB4_532
+
+LBB4_538:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
+	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_539:
+	LONG $0x1c6ffac5; BYTE $0xb1               // vmovdqu    xmm3, oword [rcx + 4*rsi]
+	LONG $0x646ffac5; WORD $0x10b1             // vmovdqu    xmm4, oword [rcx + 4*rsi + 16]
+	LONG $0x6c6ffac5; WORD $0x20b1             // vmovdqu    xmm5, oword [rcx + 4*rsi + 32]
+	LONG $0x746ffac5; WORD $0x30b1             // vmovdqu    xmm6, oword [rcx + 4*rsi + 48]
+	LONG $0xf866e1c5                           // vpcmpgtd    xmm7, xmm3, xmm0
+	LONG $0x257d62c4; BYTE $0xcf               // vpmovsxdq    ymm9, xmm7
+	LONG $0xc866d9c5                           // vpcmpgtd    xmm1, xmm4, xmm0
+	LONG $0x257d62c4; BYTE $0xd1               // vpmovsxdq    ymm10, xmm1
+	LONG $0xf866d1c5                           // vpcmpgtd    xmm7, xmm5, xmm0
+	LONG $0x257de2c4; BYTE $0xff               // vpmovsxdq    ymm7, xmm7
+	LONG $0xc866c9c5                           // vpcmpgtd    xmm1, xmm6, xmm0
+	LONG $0x257de2c4; BYTE $0xc9               // vpmovsxdq    ymm1, xmm1
+	LONG $0xd876e1c5                           // vpcmpeqd    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0xe076d9c5                           // vpcmpeqd    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
+	LONG $0xe876d1c5                           // vpcmpeqd    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
+	LONG $0xf076c9c5                           // vpcmpeqd    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
+	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_539
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_541:
+	LONG $0x4510fbc5; BYTE $0x20 // vmovsd    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
+	LONG $0x4d10fbc5; BYTE $0x08 // vmovsd    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
+	JMP  LBB4_543
+
+LBB4_542:
+	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_543:
+	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd028f9c5 // vmovapd    xmm2, xmm0
+	JNE  LBB4_545
+	LONG $0xd257e9c5 // vxorpd    xmm2, xmm2, xmm2
+
+LBB4_545:
+	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
+	JG   LBB4_542
+	LONG $0xda28f9c5 // vmovapd    xmm3, xmm2
+	JMP  LBB4_542
+
+LBB4_577:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
+	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_578:
+	LONG $0x1c76f9c5; BYTE $0xb1               // vpcmpeqd    xmm3, xmm0, oword [rcx + 4*rsi]
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x357de2c4; BYTE $0xdb               // vpmovzxdq    ymm3, xmm3
+	LONG $0x6476f9c5; WORD $0x10b1             // vpcmpeqd    xmm4, xmm0, oword [rcx + 4*rsi + 16]
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x357de2c4; BYTE $0xe4               // vpmovzxdq    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0x6c76f9c5; WORD $0x20b1             // vpcmpeqd    xmm5, xmm0, oword [rcx + 4*rsi + 32]
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x357de2c4; BYTE $0xed               // vpmovzxdq    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0x7476f9c5; WORD $0x30b1             // vpcmpeqd    xmm6, xmm0, oword [rcx + 4*rsi + 48]
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x357de2c4; BYTE $0xf6               // vpmovzxdq    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_578
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_580:
+	WORD $0xf631             // xor    esi, esi
+	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd6950f40         // setne    sil
+	LONG $0xd0348949         // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JNE  LBB4_580
+	JMP  LBB4_1351
+
+LBB4_581:
+	WORD $0x8944; BYTE $0xd6       // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc       // and    esi, -4
+	LONG $0xfc468d48               // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1       // mov    r9, rax
+	LONG $0x02e9c149               // shr    r9, 2
+	LONG $0x01c18349               // add    r9, 1
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	JE   LBB4_1282
+	WORD $0x894d; BYTE $0xce       // mov    r14, r9
+	LONG $0xfee68349               // and    r14, -2
+	WORD $0xf749; BYTE $0xde       // neg    r14
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x573941c4; BYTE $0xc0   // vxorpd    xmm8, xmm8, xmm8
+	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0x5d10fbc5; BYTE $0x10   // vmovsd    xmm3, qword 16[rbp] /* [rip + .LCPI4_6] */
+
+LBB4_583:
+	LONG $0x2410fdc5; BYTE $0xf9               // vmovupd    ymm4, yword [rcx + 8*rdi]
+	LONG $0xe854ddc5                           // vandpd    ymm5, ymm4, ymm0
+	LONG $0xed56edc5                           // vorpd    ymm5, ymm2, ymm5
+	LONG $0x197de3c4; WORD $0x01ee             // vextractf128    xmm6, ymm5, 1
+	LONG $0xfb5ccbc5                           // vsubsd    xmm7, xmm6, xmm3
+	LONG $0x2cfbe1c4; BYTE $0xdf               // vcvttsd2si    rbx, xmm7
+	WORD $0x314c; BYTE $0xdb                   // xor    rbx, r11
+	LONG $0x2cfbe1c4; BYTE $0xd6               // vcvttsd2si    rdx, xmm6
+	LONG $0xf32ef9c5                           // vucomisd    xmm6, xmm3
+	LONG $0xd3430f48                           // cmovae    rdx, rbx
+	LONG $0x0479e3c4; WORD $0x4ef6             // vpermilps    xmm6, xmm6, 78
+	LONG $0xfb5ccbc5                           // vsubsd    xmm7, xmm6, xmm3
+	LONG $0x2cfbe1c4; BYTE $0xdf               // vcvttsd2si    rbx, xmm7
+	WORD $0x314c; BYTE $0xdb                   // xor    rbx, r11
+	LONG $0x2cfbe1c4; BYTE $0xc6               // vcvttsd2si    rax, xmm6
+	LONG $0xf32ef9c5                           // vucomisd    xmm6, xmm3
+	LONG $0x6ef9e1c4; BYTE $0xf2               // vmovq    xmm6, rdx
+	LONG $0xc3430f48                           // cmovae    rax, rbx
+	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
+	LONG $0xcb5cd3c5                           // vsubsd    xmm1, xmm5, xmm3
+	LONG $0x2cfbe1c4; BYTE $0xc1               // vcvttsd2si    rax, xmm1
+	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
+	LONG $0x2cfbe1c4; BYTE $0xd5               // vcvttsd2si    rdx, xmm5
+	LONG $0xeb2ef9c5                           // vucomisd    xmm5, xmm3
+	LONG $0xd0430f48                           // cmovae    rdx, rax
+	LONG $0x0479e3c4; WORD $0x4ecd             // vpermilps    xmm1, xmm5, 78
+	LONG $0xeb5cf3c5                           // vsubsd    xmm5, xmm1, xmm3
+	LONG $0x2cfbe1c4; BYTE $0xc5               // vcvttsd2si    rax, xmm5
+	LONG $0x6ef9e1c4; BYTE $0xea               // vmovq    xmm5, rdx
+	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
+	LONG $0x2cfbe1c4; BYTE $0xd1               // vcvttsd2si    rdx, xmm1
+	LONG $0xcb2ef9c5                           // vucomisd    xmm1, xmm3
+	LONG $0xcf6cc9c5                           // vpunpcklqdq    xmm1, xmm6, xmm7
+	LONG $0xd0430f48                           // cmovae    rdx, rax
+	LONG $0x6ef9e1c4; BYTE $0xf2               // vmovq    xmm6, rdx
+	LONG $0xee6cd1c5                           // vpunpcklqdq    xmm5, xmm5, xmm6
+	LONG $0x3855e3c4; WORD $0x01c9             // vinserti128    ymm1, ymm5, xmm1, 1
+	LONG $0xe4c2bdc5; BYTE $0x04               // vcmpneqpd    ymm4, ymm8, ymm4
+	LONG $0xc954ddc5                           // vandpd    ymm1, ymm4, ymm1
+	LONG $0x117dc1c4; WORD $0xf80c             // vmovupd    yword [r8 + 8*rdi], ymm1
+	LONG $0x6410fdc5; WORD $0x20f9             // vmovupd    ymm4, yword [rcx + 8*rdi + 32]
+	LONG $0xc854ddc5                           // vandpd    ymm1, ymm4, ymm0
+	LONG $0xc956edc5                           // vorpd    ymm1, ymm2, ymm1
+	LONG $0x197de3c4; WORD $0x01cd             // vextractf128    xmm5, ymm1, 1
+	LONG $0xf35cd3c5                           // vsubsd    xmm6, xmm5, xmm3
+	LONG $0x2cfbe1c4; BYTE $0xc6               // vcvttsd2si    rax, xmm6
+	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
+	LONG $0x2cfbe1c4; BYTE $0xd5               // vcvttsd2si    rdx, xmm5
+	LONG $0xeb2ef9c5                           // vucomisd    xmm5, xmm3
+	LONG $0xd0430f48                           // cmovae    rdx, rax
+	LONG $0x0479e3c4; WORD $0x4eed             // vpermilps    xmm5, xmm5, 78
+	LONG $0xf35cd3c5                           // vsubsd    xmm6, xmm5, xmm3
+	LONG $0x2cfbe1c4; BYTE $0xc6               // vcvttsd2si    rax, xmm6
+	LONG $0x6ef9e1c4; BYTE $0xf2               // vmovq    xmm6, rdx
+	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
+	LONG $0x2cfbe1c4; BYTE $0xd5               // vcvttsd2si    rdx, xmm5
+	LONG $0xeb2ef9c5                           // vucomisd    xmm5, xmm3
+	LONG $0xd0430f48                           // cmovae    rdx, rax
+	LONG $0x6ef9e1c4; BYTE $0xea               // vmovq    xmm5, rdx
+	LONG $0xfb5cf3c5                           // vsubsd    xmm7, xmm1, xmm3
+	LONG $0x2cfbe1c4; BYTE $0xc7               // vcvttsd2si    rax, xmm7
+	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
+	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
+	LONG $0x2cfbe1c4; BYTE $0xd1               // vcvttsd2si    rdx, xmm1
+	LONG $0xcb2ef9c5                           // vucomisd    xmm1, xmm3
+	LONG $0xd0430f48                           // cmovae    rdx, rax
+	LONG $0x0479e3c4; WORD $0x4ec9             // vpermilps    xmm1, xmm1, 78
+	LONG $0xf35cf3c5                           // vsubsd    xmm6, xmm1, xmm3
+	LONG $0x2cfbe1c4; BYTE $0xc6               // vcvttsd2si    rax, xmm6
+	LONG $0x6ef9e1c4; BYTE $0xf2               // vmovq    xmm6, rdx
+	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
+	LONG $0x2cfbe1c4; BYTE $0xd1               // vcvttsd2si    rdx, xmm1
+	LONG $0xcb2ef9c5                           // vucomisd    xmm1, xmm3
+	LONG $0xd0430f48                           // cmovae    rdx, rax
+	LONG $0x6ef9e1c4; BYTE $0xca               // vmovq    xmm1, rdx
+	LONG $0xc96cc9c5                           // vpunpcklqdq    xmm1, xmm6, xmm1
+	LONG $0x3875e3c4; WORD $0x01cd             // vinserti128    ymm1, ymm1, xmm5, 1
+	LONG $0xe4c2bdc5; BYTE $0x04               // vcmpneqpd    ymm4, ymm8, ymm4
+	LONG $0xc954ddc5                           // vandpd    ymm1, ymm4, ymm1
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68349                           // add    r14, 2
+	JNE  LBB4_583
+	JMP  LBB4_1283
+
+LBB4_590:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
+	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_591:
+	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
+	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
+	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
+	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
+	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x347de2c4; BYTE $0xdb               // vpmovzxwq    ymm3, xmm3
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x347de2c4; BYTE $0xe4               // vpmovzxwq    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x347de2c4; BYTE $0xed               // vpmovzxwq    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x347de2c4; BYTE $0xf6               // vpmovzxwq    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_591
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_593:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_593
+	JMP  LBB4_1351
+
+LBB4_594:
+	WORD $0x8944; BYTE $0xd2       // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
+	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_595:
+	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
+	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
+	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
+	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
+	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
+	LONG $0x247d62c4; BYTE $0xcf               // vpmovsxwq    ymm9, xmm7
+	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
+	LONG $0x247d62c4; BYTE $0xd1               // vpmovsxwq    ymm10, xmm1
+	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
+	LONG $0x247de2c4; BYTE $0xff               // vpmovsxwq    ymm7, xmm7
+	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
+	LONG $0x247de2c4; BYTE $0xc9               // vpmovsxwq    ymm1, xmm1
+	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x247de2c4; BYTE $0xdb               // vpmovsxwq    ymm3, xmm3
+	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x247de2c4; BYTE $0xe4               // vpmovsxwq    ymm4, xmm4
+	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x247de2c4; BYTE $0xed               // vpmovsxwq    ymm5, xmm5
+	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x247de2c4; BYTE $0xf6               // vpmovsxwq    ymm6, xmm6
+	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_595
+	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
+	JE   LBB4_1351
+
+LBB4_597:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_598:
+	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	LONG $0xc64f0f48         // cmovg    rax, rsi
+	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_598
+	JMP  LBB4_1351
+
+LBB4_602:
+	WORD $0x8944; BYTE $0xd6               // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfe               // and    esi, -2
+	WORD $0xc031                           // xor    eax, eax
+	LONG $0xc057f8c5                       // vxorps    xmm0, xmm0, xmm0
+	QUAD $0x000000a08d10fac5               // vmovss    xmm1, dword 160[rbp] /* [rip + .LCPI4_9] */
+	QUAD $0x000000000000b949; WORD $0x8000 // mov    r9, -9223372036854775808
+	JMP  LBB4_605
+
+LBB4_603:
+	LONG $0xd250f8c5             // vmovmskps    edx, xmm2
+	WORD $0xe283; BYTE $0x01     // and    edx, 1
+	WORD $0xdaf7                 // neg    edx
+	WORD $0xca83; BYTE $0x01     // or    edx, 1
+	LONG $0xd22adac5             // vcvtsi2ss    xmm2, xmm4, edx
+	LONG $0xd95ceac5             // vsubss    xmm3, xmm2, xmm1
+	LONG $0x2cfae1c4; BYTE $0xfb // vcvttss2si    rdi, xmm3
+	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
+	LONG $0x2cfae1c4; BYTE $0xd2 // vcvttss2si    rdx, xmm2
+	LONG $0xd12ef8c5             // vucomiss    xmm2, xmm1
+	LONG $0xd7430f48             // cmovae    rdx, rdi
+	LONG $0xc0548949; BYTE $0x08 // mov    qword [r8 + 8*rax + 8], rdx
+	LONG $0x02c08348             // add    rax, 2
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JE   LBB4_254
+
+LBB4_605:
+	LONG $0x1410fac5; BYTE $0x81 // vmovss    xmm2, dword [rcx + 4*rax]
+	LONG $0xc22ef8c5             // vucomiss    xmm0, xmm2
+	JNE  LBB4_607
+	WORD $0xd231                 // xor    edx, edx
+	JMP  LBB4_608
+
+LBB4_607:
+	LONG $0xd250f8c5             // vmovmskps    edx, xmm2
+	WORD $0xe283; BYTE $0x01     // and    edx, 1
+	WORD $0xdaf7                 // neg    edx
+	WORD $0xca83; BYTE $0x01     // or    edx, 1
+	LONG $0xd22adac5             // vcvtsi2ss    xmm2, xmm4, edx
+	LONG $0xd95ceac5             // vsubss    xmm3, xmm2, xmm1
+	LONG $0x2cfae1c4; BYTE $0xfb // vcvttss2si    rdi, xmm3
+	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
+	LONG $0x2cfae1c4; BYTE $0xd2 // vcvttss2si    rdx, xmm2
+	LONG $0xd12ef8c5             // vucomiss    xmm2, xmm1
+	LONG $0xd7430f48             // cmovae    rdx, rdi
+
+LBB4_608:
+	LONG $0xc0148949               // mov    qword [r8 + 8*rax], rdx
+	LONG $0x5410fac5; WORD $0x0481 // vmovss    xmm2, dword [rcx + 4*rax + 4]
+	LONG $0xc22ef8c5               // vucomiss    xmm0, xmm2
+	JNE  LBB4_603
+	WORD $0xd231                   // xor    edx, edx
+	LONG $0xc0548949; BYTE $0x08   // mov    qword [r8 + 8*rax + 8], rdx
+	LONG $0x02c08348               // add    rax, 2
+	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
+	JNE  LBB4_605
+
+LBB4_254:
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1351
+	LONG $0x0410fac5; BYTE $0x81 // vmovss    xmm0, dword [rcx + 4*rax]
+	LONG $0xc957f0c5             // vxorps    xmm1, xmm1, xmm1
+	LONG $0xc82ef8c5             // vucomiss    xmm1, xmm0
+	JNE  LBB4_1280
+	WORD $0xc931                 // xor    ecx, ecx
+	JMP  LBB4_1281
+
+LBB4_613:
+	WORD $0x8944; BYTE $0xd2       // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
+	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_614:
+	LONG $0x1c6ffac5; BYTE $0xb1               // vmovdqu    xmm3, oword [rcx + 4*rsi]
+	LONG $0x646ffac5; WORD $0x10b1             // vmovdqu    xmm4, oword [rcx + 4*rsi + 16]
+	LONG $0x6c6ffac5; WORD $0x20b1             // vmovdqu    xmm5, oword [rcx + 4*rsi + 32]
+	LONG $0x746ffac5; WORD $0x30b1             // vmovdqu    xmm6, oword [rcx + 4*rsi + 48]
+	LONG $0xf866e1c5                           // vpcmpgtd    xmm7, xmm3, xmm0
+	LONG $0x257d62c4; BYTE $0xcf               // vpmovsxdq    ymm9, xmm7
+	LONG $0xc866d9c5                           // vpcmpgtd    xmm1, xmm4, xmm0
+	LONG $0x257d62c4; BYTE $0xd1               // vpmovsxdq    ymm10, xmm1
+	LONG $0xf866d1c5                           // vpcmpgtd    xmm7, xmm5, xmm0
+	LONG $0x257de2c4; BYTE $0xff               // vpmovsxdq    ymm7, xmm7
+	LONG $0xc866c9c5                           // vpcmpgtd    xmm1, xmm6, xmm0
+	LONG $0x257de2c4; BYTE $0xc9               // vpmovsxdq    ymm1, xmm1
+	LONG $0xd876e1c5                           // vpcmpeqd    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x257de2c4; BYTE $0xdb               // vpmovsxdq    ymm3, xmm3
+	LONG $0xe076d9c5                           // vpcmpeqd    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x257de2c4; BYTE $0xe4               // vpmovsxdq    ymm4, xmm4
+	LONG $0xe876d1c5                           // vpcmpeqd    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x257de2c4; BYTE $0xed               // vpmovsxdq    ymm5, xmm5
+	LONG $0xf076c9c5                           // vpcmpeqd    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x257de2c4; BYTE $0xf6               // vpmovsxdq    ymm6, xmm6
+	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_614
+	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
+	JE   LBB4_1351
+
+LBB4_616:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_617:
+	WORD $0x3c8b; BYTE $0x91 // mov    edi, dword [rcx + 4*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0xff85             // test    edi, edi
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff85             // test    edi, edi
+	LONG $0xc64f0f48         // cmovg    rax, rsi
+	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_617
+	JMP  LBB4_1351
+
+LBB4_618:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0 // and    edx, -32
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
+
+LBB4_619:
+	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
+	LONG $0xd1efedc5                           // vpxor    ymm2, ymm2, ymm1
+	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5                           // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0xd271e9c5; BYTE $0x0f               // vpsrlw    xmm2, xmm2, 15
+	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
+	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xd371e1c5; BYTE $0x0f               // vpsrlw    xmm3, xmm3, 15
+	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
+	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xd471d9c5; BYTE $0x0f               // vpsrlw    xmm4, xmm4, 15
+	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xd571d1c5; BYTE $0x0f               // vpsrlw    xmm5, xmm5, 15
+	LONG $0x7f7ac1c4; WORD $0x7014             // vmovdqu    oword [r8 + 2*rsi], xmm2
+	LONG $0x7f7ac1c4; WORD $0x705c; BYTE $0x10 // vmovdqu    oword [r8 + 2*rsi + 16], xmm3
+	LONG $0x7f7ac1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    oword [r8 + 2*rsi + 32], xmm4
+	LONG $0x7f7ac1c4; WORD $0x706c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rsi + 48], xmm5
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_619
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_621:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_621
+	JMP  LBB4_1351
+
+LBB4_622:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0 // and    edx, -32
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
+
+LBB4_623:
+	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
+	LONG $0xd1efedc5                           // vpxor    ymm2, ymm2, ymm1
+	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5                           // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0xd271e9c5; BYTE $0x0f               // vpsrlw    xmm2, xmm2, 15
+	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
+	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xd371e1c5; BYTE $0x0f               // vpsrlw    xmm3, xmm3, 15
+	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
+	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xd471d9c5; BYTE $0x0f               // vpsrlw    xmm4, xmm4, 15
+	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xd571d1c5; BYTE $0x0f               // vpsrlw    xmm5, xmm5, 15
+	LONG $0x7f7ac1c4; WORD $0x7014             // vmovdqu    oword [r8 + 2*rsi], xmm2
+	LONG $0x7f7ac1c4; WORD $0x705c; BYTE $0x10 // vmovdqu    oword [r8 + 2*rsi + 16], xmm3
+	LONG $0x7f7ac1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    oword [r8 + 2*rsi + 32], xmm4
+	LONG $0x7f7ac1c4; WORD $0x706c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rsi + 48], xmm5
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_623
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_625:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_625
+	JMP  LBB4_1351
+
+LBB4_626:
+	WORD $0xc689                   // mov    esi, eax
+	WORD $0xe683; BYTE $0xf0       // and    esi, -16
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x573141c4; BYTE $0xc9   // vxorpd    xmm9, xmm9, xmm9
+	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xef2941c4; BYTE $0xd2   // vpxor    xmm10, xmm10, xmm10
+
+LBB4_627:
+	LONG $0x2410fdc5; BYTE $0xf9   // vmovupd    ymm4, yword [rcx + 8*rdi]
+	LONG $0x6c10fdc5; WORD $0x20f9 // vmovupd    ymm5, yword [rcx + 8*rdi + 32]
+	LONG $0x7410fdc5; WORD $0x40f9 // vmovupd    ymm6, yword [rcx + 8*rdi + 64]
+	LONG $0x7c10fdc5; WORD $0x60f9 // vmovupd    ymm7, yword [rcx + 8*rdi + 96]
+	LONG $0xc4c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm4
+	LONG $0x197d63c4; WORD $0x01c1 // vextractf128    xmm1, ymm8, 1
+	LONG $0xc96bb9c5               // vpackssdw    xmm1, xmm8, xmm1
+	LONG $0xd96b71c5               // vpackssdw    xmm11, xmm1, xmm1
+	LONG $0xc5c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm5
+	LONG $0x197d63c4; WORD $0x01c3 // vextractf128    xmm3, ymm8, 1
+	LONG $0xdb6bb9c5               // vpackssdw    xmm3, xmm8, xmm3
+	LONG $0xe36b61c5               // vpackssdw    xmm12, xmm3, xmm3
+	LONG $0xc6c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm6
+	LONG $0x197d63c4; WORD $0x01c1 // vextractf128    xmm1, ymm8, 1
+	LONG $0xc96bb9c5               // vpackssdw    xmm1, xmm8, xmm1
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xc7c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm7
+	LONG $0x197d63c4; WORD $0x01c3 // vextractf128    xmm3, ymm8, 1
+	LONG $0xdb6bb9c5               // vpackssdw    xmm3, xmm8, xmm3
+	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
+	LONG $0xe054ddc5               // vandpd    ymm4, ymm4, ymm0
+	LONG $0xe456edc5               // vorpd    ymm4, ymm2, ymm4
+	LONG $0xe854d5c5               // vandpd    ymm5, ymm5, ymm0
+	LONG $0xed56edc5               // vorpd    ymm5, ymm2, ymm5
+	LONG $0xf054cdc5               // vandpd    ymm6, ymm6, ymm0
+	LONG $0xf656edc5               // vorpd    ymm6, ymm2, ymm6
+	LONG $0xf854c5c5               // vandpd    ymm7, ymm7, ymm0
+	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
+	LONG $0xe4e6fdc5               // vcvttpd2dq    xmm4, ymm4
+	LONG $0xede6fdc5               // vcvttpd2dq    xmm5, ymm5
+	LONG $0x2b59e2c4; BYTE $0xe4   // vpackusdw    xmm4, xmm4, xmm4
+	LONG $0x2b51e2c4; BYTE $0xed   // vpackusdw    xmm5, xmm5, xmm5
+	LONG $0xf6e6fdc5               // vcvttpd2dq    xmm6, ymm6
+	LONG $0x2b49e2c4; BYTE $0xf6   // vpackusdw    xmm6, xmm6, xmm6
+	LONG $0xffe6fdc5               // vcvttpd2dq    xmm7, ymm7
+	LONG $0x2b41e2c4; BYTE $0xff   // vpackusdw    xmm7, xmm7, xmm7
+	LONG $0x4c59c3c4; WORD $0xb0e2 // vpblendvb    xmm4, xmm4, xmm10, xmm11
+	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
+	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
+	LONG $0x4c41c3c4; WORD $0x30da // vpblendvb    xmm3, xmm7, xmm10, xmm3
+	LONG $0x3875e3c4; WORD $0x01cb // vinserti128    ymm1, ymm1, xmm3, 1
+	LONG $0x385de3c4; WORD $0x01dd // vinserti128    ymm3, ymm4, xmm5, 1
+	LONG $0xc96ce5c5               // vpunpcklqdq    ymm1, ymm3, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
+	LONG $0x7f7ec1c4; WORD $0x780c // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x10c78348               // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB4_627
+	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
+	JE   LBB4_1351
+
+LBB4_629:
+	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
+	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
+	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_630:
+	LONG $0x1c10fbc5; BYTE $0xf1 // vmovsd    xmm3, qword [rcx + 8*rsi]
+	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
+	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
+	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
+	LONG $0xfb2cfbc5             // vcvttsd2si    edi, xmm3
+	WORD $0x440f; BYTE $0xfa     // cmove    edi, edx
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JNE  LBB4_630
+	JMP  LBB4_1351
+
+LBB4_631:
+	WORD $0xc689                   // mov    esi, eax
+	WORD $0xe683; BYTE $0xf0       // and    esi, -16
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x197de2c4; WORD $0x0045 // vbroadcastsd    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x573141c4; BYTE $0xc9   // vxorpd    xmm9, xmm9, xmm9
+	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xef2941c4; BYTE $0xd2   // vpxor    xmm10, xmm10, xmm10
+
+LBB4_632:
+	LONG $0x2410fdc5; BYTE $0xf9   // vmovupd    ymm4, yword [rcx + 8*rdi]
+	LONG $0x6c10fdc5; WORD $0x20f9 // vmovupd    ymm5, yword [rcx + 8*rdi + 32]
+	LONG $0x7410fdc5; WORD $0x40f9 // vmovupd    ymm6, yword [rcx + 8*rdi + 64]
+	LONG $0x7c10fdc5; WORD $0x60f9 // vmovupd    ymm7, yword [rcx + 8*rdi + 96]
+	LONG $0xc4c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm4
+	LONG $0x197d63c4; WORD $0x01c1 // vextractf128    xmm1, ymm8, 1
+	LONG $0xc96bb9c5               // vpackssdw    xmm1, xmm8, xmm1
+	LONG $0xd96b71c5               // vpackssdw    xmm11, xmm1, xmm1
+	LONG $0xc5c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm5
+	LONG $0x197d63c4; WORD $0x01c3 // vextractf128    xmm3, ymm8, 1
+	LONG $0xdb6bb9c5               // vpackssdw    xmm3, xmm8, xmm3
+	LONG $0xe36b61c5               // vpackssdw    xmm12, xmm3, xmm3
+	LONG $0xc6c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm6
+	LONG $0x197d63c4; WORD $0x01c1 // vextractf128    xmm1, ymm8, 1
+	LONG $0xc96bb9c5               // vpackssdw    xmm1, xmm8, xmm1
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xc7c235c5; BYTE $0x00   // vcmpeqpd    ymm8, ymm9, ymm7
+	LONG $0x197d63c4; WORD $0x01c3 // vextractf128    xmm3, ymm8, 1
+	LONG $0xdb6bb9c5               // vpackssdw    xmm3, xmm8, xmm3
+	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
+	LONG $0xe054ddc5               // vandpd    ymm4, ymm4, ymm0
+	LONG $0xe456edc5               // vorpd    ymm4, ymm2, ymm4
+	LONG $0xe854d5c5               // vandpd    ymm5, ymm5, ymm0
+	LONG $0xed56edc5               // vorpd    ymm5, ymm2, ymm5
+	LONG $0xf054cdc5               // vandpd    ymm6, ymm6, ymm0
+	LONG $0xf656edc5               // vorpd    ymm6, ymm2, ymm6
+	LONG $0xf854c5c5               // vandpd    ymm7, ymm7, ymm0
+	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
+	LONG $0xe4e6fdc5               // vcvttpd2dq    xmm4, ymm4
+	LONG $0xede6fdc5               // vcvttpd2dq    xmm5, ymm5
+	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
+	LONG $0xf6e6fdc5               // vcvttpd2dq    xmm6, ymm6
+	LONG $0xf66bc9c5               // vpackssdw    xmm6, xmm6, xmm6
+	LONG $0xffe6fdc5               // vcvttpd2dq    xmm7, ymm7
+	LONG $0xff6bc1c5               // vpackssdw    xmm7, xmm7, xmm7
+	LONG $0x4c59c3c4; WORD $0xb0e2 // vpblendvb    xmm4, xmm4, xmm10, xmm11
+	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
+	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
+	LONG $0x4c41c3c4; WORD $0x30da // vpblendvb    xmm3, xmm7, xmm10, xmm3
+	LONG $0x3875e3c4; WORD $0x01cb // vinserti128    ymm1, ymm1, xmm3, 1
+	LONG $0x385de3c4; WORD $0x01dd // vinserti128    ymm3, ymm4, xmm5, 1
+	LONG $0xc96ce5c5               // vpunpcklqdq    ymm1, ymm3, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
+	LONG $0x7f7ec1c4; WORD $0x780c // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x10c78348               // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB4_632
+	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
+	JE   LBB4_1351
+
+LBB4_634:
+	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
+	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
+	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_635:
+	LONG $0x1c10fbc5; BYTE $0xf1 // vmovsd    xmm3, qword [rcx + 8*rsi]
+	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
+	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
+	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
+	LONG $0xfb2cfbc5             // vcvttsd2si    edi, xmm3
+	WORD $0x440f; BYTE $0xfa     // cmove    edi, edx
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JNE  LBB4_635
+	JMP  LBB4_1351
+
+LBB4_642:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0x556ff9c5; BYTE $0x60 // vmovdqa    xmm2, oword 96[rbp] /* [rip + .LCPI4_16] */
+
+LBB4_643:
+	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
+	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xdb6be1c5                           // vpackssdw    xmm3, xmm3, xmm3
+	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
+	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
+	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xed6bd1c5                           // vpackssdw    xmm5, xmm5, xmm5
+	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
+	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
+	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xf66bc9c5                           // vpackssdw    xmm6, xmm6, xmm6
+	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	LONG $0x3865e3c4; WORD $0x01dc             // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0xdd6ce5c5                           // vpunpcklqdq    ymm3, ymm3, ymm5
+	LONG $0x00fde3c4; WORD $0xd8db             // vpermq    ymm3, ymm3, 216
+	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_643
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_645:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_645
+	JMP  LBB4_1351
+
+LBB4_646:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0x556ff9c5; BYTE $0x60 // vmovdqa    xmm2, oword 96[rbp] /* [rip + .LCPI4_16] */
+
+LBB4_647:
+	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
+	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xdb6be1c5                           // vpackssdw    xmm3, xmm3, xmm3
+	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
+	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
+	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xed6bd1c5                           // vpackssdw    xmm5, xmm5, xmm5
+	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
+	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
+	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xf66bc9c5                           // vpackssdw    xmm6, xmm6, xmm6
+	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	LONG $0x3865e3c4; WORD $0x01dc             // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0xdd6ce5c5                           // vpunpcklqdq    ymm3, ymm3, ymm5
+	LONG $0x00fde3c4; WORD $0xd8db             // vpermq    ymm3, ymm3, 216
+	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_647
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_649:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_649
+	JMP  LBB4_1351
+
+LBB4_662:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
+	LONG $0x556f79c5; BYTE $0x60 // vmovdqa    xmm10, oword 96[rbp] /* [rip + .LCPI4_16] */
+
+LBB4_663:
+	LONG $0x3c6ffec5; BYTE $0xf1   // vmovdqu    ymm7, yword [rcx + 8*rsi]
+	LONG $0x446f7ec5; WORD $0x20f1 // vmovdqu    ymm8, yword [rcx + 8*rsi + 32]
+	LONG $0x746ffec5; WORD $0x40f1 // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
+	LONG $0x646ffec5; WORD $0x60f1 // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
+	LONG $0x3745e2c4; BYTE $0xd8   // vpcmpgtq    ymm3, ymm7, ymm0
+	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
+	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
+	LONG $0xdb6b61c5               // vpackssdw    xmm11, xmm3, xmm3
+	LONG $0x373de2c4; BYTE $0xe8   // vpcmpgtq    ymm5, ymm8, ymm0
+	LONG $0x397de3c4; WORD $0x01e9 // vextracti128    xmm1, ymm5, 1
+	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
+	LONG $0xe16b71c5               // vpackssdw    xmm12, xmm1, xmm1
+	LONG $0x374de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm6, ymm0
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0x375de2c4; BYTE $0xd0   // vpcmpgtq    ymm2, ymm4, ymm0
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
+	LONG $0x2945e2c4; BYTE $0xd8   // vpcmpeqq    ymm3, ymm7, ymm0
+	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
+	LONG $0x397de3c4; WORD $0x01df // vextracti128    xmm7, ymm3, 1
+	LONG $0xdf6be1c5               // vpackssdw    xmm3, xmm3, xmm7
+	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
+	LONG $0x293de2c4; BYTE $0xf8   // vpcmpeqq    ymm7, ymm8, ymm0
+	LONG $0xffefb5c5               // vpxor    ymm7, ymm9, ymm7
+	LONG $0x397de3c4; WORD $0x01fd // vextracti128    xmm5, ymm7, 1
+	LONG $0xed6bc1c5               // vpackssdw    xmm5, xmm7, xmm5
+	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
+	LONG $0x294de2c4; BYTE $0xf0   // vpcmpeqq    ymm6, ymm6, ymm0
+	LONG $0xf6efb5c5               // vpxor    ymm6, ymm9, ymm6
+	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xf66bc9c5               // vpackssdw    xmm6, xmm6, xmm6
+	LONG $0x295de2c4; BYTE $0xe0   // vpcmpeqq    ymm4, ymm4, ymm0
+	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
+	LONG $0x397de3c4; WORD $0x01e7 // vextracti128    xmm7, ymm4, 1
+	LONG $0xe76bd9c5               // vpackssdw    xmm4, xmm4, xmm7
+	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0x4c61c3c4; WORD $0xb0da // vpblendvb    xmm3, xmm3, xmm10, xmm11
+	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
+	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
+	LONG $0x4c59c3c4; WORD $0x20d2 // vpblendvb    xmm2, xmm4, xmm10, xmm2
+	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0x3865e3c4; WORD $0x01d5 // vinserti128    ymm2, ymm3, xmm5, 1
+	LONG $0xc96cedc5               // vpunpcklqdq    ymm1, ymm2, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
+	LONG $0x7f7ec1c4; WORD $0x700c // vmovdqu    yword [r8 + 2*rsi], ymm1
+	LONG $0x10c68348               // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
+	JNE  LBB4_663
+	WORD $0x394c; BYTE $0xd2       // cmp    rdx, r10
+	JE   LBB4_1351
+
+LBB4_665:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_666:
+	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_666
+	JMP  LBB4_1351
+
+LBB4_667:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
+	LONG $0x556f79c5; BYTE $0x60 // vmovdqa    xmm10, oword 96[rbp] /* [rip + .LCPI4_16] */
+
+LBB4_668:
+	LONG $0x3c6ffec5; BYTE $0xf1   // vmovdqu    ymm7, yword [rcx + 8*rsi]
+	LONG $0x446f7ec5; WORD $0x20f1 // vmovdqu    ymm8, yword [rcx + 8*rsi + 32]
+	LONG $0x746ffec5; WORD $0x40f1 // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
+	LONG $0x646ffec5; WORD $0x60f1 // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
+	LONG $0x3745e2c4; BYTE $0xd8   // vpcmpgtq    ymm3, ymm7, ymm0
+	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
+	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
+	LONG $0xdb6b61c5               // vpackssdw    xmm11, xmm3, xmm3
+	LONG $0x373de2c4; BYTE $0xe8   // vpcmpgtq    ymm5, ymm8, ymm0
+	LONG $0x397de3c4; WORD $0x01e9 // vextracti128    xmm1, ymm5, 1
+	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
+	LONG $0xe16b71c5               // vpackssdw    xmm12, xmm1, xmm1
+	LONG $0x374de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm6, ymm0
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0x375de2c4; BYTE $0xd0   // vpcmpgtq    ymm2, ymm4, ymm0
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
+	LONG $0x2945e2c4; BYTE $0xd8   // vpcmpeqq    ymm3, ymm7, ymm0
+	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
+	LONG $0x397de3c4; WORD $0x01df // vextracti128    xmm7, ymm3, 1
+	LONG $0xdf6be1c5               // vpackssdw    xmm3, xmm3, xmm7
+	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
+	LONG $0x293de2c4; BYTE $0xf8   // vpcmpeqq    ymm7, ymm8, ymm0
+	LONG $0xffefb5c5               // vpxor    ymm7, ymm9, ymm7
+	LONG $0x397de3c4; WORD $0x01fd // vextracti128    xmm5, ymm7, 1
+	LONG $0xed6bc1c5               // vpackssdw    xmm5, xmm7, xmm5
+	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
+	LONG $0x294de2c4; BYTE $0xf0   // vpcmpeqq    ymm6, ymm6, ymm0
+	LONG $0xf6efb5c5               // vpxor    ymm6, ymm9, ymm6
+	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xf66bc9c5               // vpackssdw    xmm6, xmm6, xmm6
+	LONG $0x295de2c4; BYTE $0xe0   // vpcmpeqq    ymm4, ymm4, ymm0
+	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
+	LONG $0x397de3c4; WORD $0x01e7 // vextracti128    xmm7, ymm4, 1
+	LONG $0xe76bd9c5               // vpackssdw    xmm4, xmm4, xmm7
+	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0x4c61c3c4; WORD $0xb0da // vpblendvb    xmm3, xmm3, xmm10, xmm11
+	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
+	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
+	LONG $0x4c59c3c4; WORD $0x20d2 // vpblendvb    xmm2, xmm4, xmm10, xmm2
+	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0x3865e3c4; WORD $0x01d5 // vinserti128    ymm2, ymm3, xmm5, 1
+	LONG $0xc96cedc5               // vpunpcklqdq    ymm1, ymm2, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
+	LONG $0x7f7ec1c4; WORD $0x700c // vmovdqu    yword [r8 + 2*rsi], ymm1
+	LONG $0x10c68348               // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
+	JNE  LBB4_668
+	WORD $0x394c; BYTE $0xd2       // cmp    rdx, r10
+	JE   LBB4_1351
+
+LBB4_670:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_671:
+	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_671
+	JMP  LBB4_1351
+
+LBB4_672:
+	WORD $0xc689                 // mov    esi, eax
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x573041c4; BYTE $0xc9 // vxorps    xmm9, xmm9, xmm9
+	LONG $0x762d41c4; BYTE $0xd2 // vpcmpeqd    ymm10, ymm10, ymm10
+	LONG $0x5d6f79c5; BYTE $0x40 // vmovdqa    xmm11, oword 64[rbp] /* [rip + .LCPI4_11] */
+	LONG $0x761941c4; BYTE $0xe4 // vpcmpeqd    xmm12, xmm12, xmm12
+
+LBB4_673:
+	LONG $0x2410fcc5; BYTE $0xb9               // vmovups    ymm4, yword [rcx + 4*rdi]
+	LONG $0x6c10fcc5; WORD $0x20b9             // vmovups    ymm5, yword [rcx + 4*rdi + 32]
+	LONG $0x7410fcc5; WORD $0x40b9             // vmovups    ymm6, yword [rcx + 4*rdi + 64]
+	LONG $0x7c10fcc5; WORD $0x60b9             // vmovups    ymm7, yword [rcx + 4*rdi + 96]
+	LONG $0xc4c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm4
+	LONG $0x197d63c4; WORD $0x01c0             // vextractf128    xmm0, ymm8, 1
+	LONG $0xe86b39c5                           // vpackssdw    xmm13, xmm8, xmm0
+	LONG $0xc5c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm5
+	LONG $0x197d63c4; WORD $0x01c1             // vextractf128    xmm1, ymm8, 1
+	LONG $0xc96bb9c5                           // vpackssdw    xmm1, xmm8, xmm1
+	LONG $0xc6c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm6
+	LONG $0x197d63c4; WORD $0x01c2             // vextractf128    xmm2, ymm8, 1
+	LONG $0xd26bb9c5                           // vpackssdw    xmm2, xmm8, xmm2
+	LONG $0xc7c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm7
+	LONG $0x197d63c4; WORD $0x01c3             // vextractf128    xmm3, ymm8, 1
+	LONG $0xdb6bb9c5                           // vpackssdw    xmm3, xmm8, xmm3
+	LONG $0x665dc1c4; BYTE $0xe2               // vpcmpgtd    ymm4, ymm4, ymm10
+	LONG $0x397de3c4; WORD $0x01e0             // vextracti128    xmm0, ymm4, 1
+	LONG $0xc06bd9c5                           // vpackssdw    xmm0, xmm4, xmm0
+	LONG $0x6655c1c4; BYTE $0xe2               // vpcmpgtd    ymm4, ymm5, ymm10
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0x664dc1c4; BYTE $0xea               // vpcmpgtd    ymm5, ymm6, ymm10
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0x6645c1c4; BYTE $0xf2               // vpcmpgtd    ymm6, ymm7, ymm10
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0x4c19c3c4; WORD $0x00c3             // vpblendvb    xmm0, xmm12, xmm11, xmm0
+	LONG $0xc0df91c5                           // vpandn    xmm0, xmm13, xmm0
+	LONG $0x4c19c3c4; WORD $0x40e3             // vpblendvb    xmm4, xmm12, xmm11, xmm4
+	LONG $0xccdff1c5                           // vpandn    xmm1, xmm1, xmm4
+	LONG $0x4c19c3c4; WORD $0x50e3             // vpblendvb    xmm4, xmm12, xmm11, xmm5
+	LONG $0x4c19c3c4; WORD $0x60eb             // vpblendvb    xmm5, xmm12, xmm11, xmm6
+	LONG $0xd4dfe9c5                           // vpandn    xmm2, xmm2, xmm4
+	LONG $0xdddfe1c5                           // vpandn    xmm3, xmm3, xmm5
+	LONG $0x7f7ac1c4; WORD $0x7804             // vmovdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f7ac1c4; WORD $0x784c; BYTE $0x10 // vmovdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x7f7ac1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f7ac1c4; WORD $0x785c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rdi + 48], xmm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB4_673
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JE   LBB4_1351
+
+LBB4_675:
+	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
+
+LBB4_676:
+	LONG $0x0c6ef9c5; BYTE $0xb1 // vmovd    xmm1, dword [rcx + 4*rsi]
+	LONG $0xcf7ef9c5             // vmovd    edi, xmm1
+	WORD $0xd231                 // xor    edx, edx
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x990f; BYTE $0xd2     // setns    dl
+	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
+	LONG $0xff12548d             // lea    edx, [rdx + rdx - 1]
+	LONG $0xd2440f41             // cmove    edx, r10d
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JNE  LBB4_676
+	JMP  LBB4_1351
+
+LBB4_677:
+	WORD $0xc689                 // mov    esi, eax
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x573041c4; BYTE $0xc9 // vxorps    xmm9, xmm9, xmm9
+	LONG $0x762d41c4; BYTE $0xd2 // vpcmpeqd    ymm10, ymm10, ymm10
+	LONG $0x5d6f79c5; BYTE $0x40 // vmovdqa    xmm11, oword 64[rbp] /* [rip + .LCPI4_11] */
+	LONG $0x761941c4; BYTE $0xe4 // vpcmpeqd    xmm12, xmm12, xmm12
+
+LBB4_678:
+	LONG $0x2410fcc5; BYTE $0xb9               // vmovups    ymm4, yword [rcx + 4*rdi]
+	LONG $0x6c10fcc5; WORD $0x20b9             // vmovups    ymm5, yword [rcx + 4*rdi + 32]
+	LONG $0x7410fcc5; WORD $0x40b9             // vmovups    ymm6, yword [rcx + 4*rdi + 64]
+	LONG $0x7c10fcc5; WORD $0x60b9             // vmovups    ymm7, yword [rcx + 4*rdi + 96]
+	LONG $0xc4c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm4
+	LONG $0x197d63c4; WORD $0x01c0             // vextractf128    xmm0, ymm8, 1
+	LONG $0xe86b39c5                           // vpackssdw    xmm13, xmm8, xmm0
+	LONG $0xc5c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm5
+	LONG $0x197d63c4; WORD $0x01c1             // vextractf128    xmm1, ymm8, 1
+	LONG $0xc96bb9c5                           // vpackssdw    xmm1, xmm8, xmm1
+	LONG $0xc6c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm6
+	LONG $0x197d63c4; WORD $0x01c2             // vextractf128    xmm2, ymm8, 1
+	LONG $0xd26bb9c5                           // vpackssdw    xmm2, xmm8, xmm2
+	LONG $0xc7c234c5; BYTE $0x00               // vcmpeqps    ymm8, ymm9, ymm7
+	LONG $0x197d63c4; WORD $0x01c3             // vextractf128    xmm3, ymm8, 1
+	LONG $0xdb6bb9c5                           // vpackssdw    xmm3, xmm8, xmm3
+	LONG $0x665dc1c4; BYTE $0xe2               // vpcmpgtd    ymm4, ymm4, ymm10
+	LONG $0x397de3c4; WORD $0x01e0             // vextracti128    xmm0, ymm4, 1
+	LONG $0xc06bd9c5                           // vpackssdw    xmm0, xmm4, xmm0
+	LONG $0x6655c1c4; BYTE $0xe2               // vpcmpgtd    ymm4, ymm5, ymm10
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0x664dc1c4; BYTE $0xea               // vpcmpgtd    ymm5, ymm6, ymm10
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0x6645c1c4; BYTE $0xf2               // vpcmpgtd    ymm6, ymm7, ymm10
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0x4c19c3c4; WORD $0x00c3             // vpblendvb    xmm0, xmm12, xmm11, xmm0
+	LONG $0xc0df91c5                           // vpandn    xmm0, xmm13, xmm0
+	LONG $0x4c19c3c4; WORD $0x40e3             // vpblendvb    xmm4, xmm12, xmm11, xmm4
+	LONG $0xccdff1c5                           // vpandn    xmm1, xmm1, xmm4
+	LONG $0x4c19c3c4; WORD $0x50e3             // vpblendvb    xmm4, xmm12, xmm11, xmm5
+	LONG $0x4c19c3c4; WORD $0x60eb             // vpblendvb    xmm5, xmm12, xmm11, xmm6
+	LONG $0xd4dfe9c5                           // vpandn    xmm2, xmm2, xmm4
+	LONG $0xdddfe1c5                           // vpandn    xmm3, xmm3, xmm5
+	LONG $0x7f7ac1c4; WORD $0x7804             // vmovdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f7ac1c4; WORD $0x784c; BYTE $0x10 // vmovdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x7f7ac1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f7ac1c4; WORD $0x785c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rdi + 48], xmm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB4_678
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JE   LBB4_1351
+
+LBB4_680:
+	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
+
+LBB4_681:
+	LONG $0x0c6ef9c5; BYTE $0xb1 // vmovd    xmm1, dword [rcx + 4*rsi]
+	LONG $0xcf7ef9c5             // vmovd    edi, xmm1
+	WORD $0xd231                 // xor    edx, edx
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x990f; BYTE $0xd2     // setns    dl
+	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
+	LONG $0xff12548d             // lea    edx, [rdx + rdx - 1]
+	LONG $0xd2440f41             // cmove    edx, r10d
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JNE  LBB4_681
+	JMP  LBB4_1351
+
+LBB4_688:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763d41c4; BYTE $0xc0 // vpcmpeqd    ymm8, ymm8, ymm8
+	LONG $0x4d6f79c5; BYTE $0x40 // vmovdqa    xmm9, oword 64[rbp] /* [rip + .LCPI4_11] */
+
+LBB4_689:
+	LONG $0x246ffec5; BYTE $0xb1               // vmovdqu    ymm4, yword [rcx + 4*rsi]
+	LONG $0x6c6ffec5; WORD $0x20b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 32]
+	LONG $0x746ffec5; WORD $0x40b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 64]
+	LONG $0x7c6ffec5; WORD $0x60b1             // vmovdqu    ymm7, yword [rcx + 4*rsi + 96]
+	LONG $0xd866ddc5                           // vpcmpgtd    ymm3, ymm4, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xd16b61c5                           // vpackssdw    xmm10, xmm3, xmm1
+	LONG $0xc866d5c5                           // vpcmpgtd    ymm1, ymm5, ymm0
+	LONG $0x397de3c4; WORD $0x01ca             // vextracti128    xmm2, ymm1, 1
+	LONG $0xda6b71c5                           // vpackssdw    xmm11, xmm1, xmm2
+	LONG $0xd066cdc5                           // vpcmpgtd    ymm2, ymm6, ymm0
+	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5                           // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0xd866c5c5                           // vpcmpgtd    ymm3, ymm7, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
+	LONG $0xd876ddc5                           // vpcmpeqd    ymm3, ymm4, ymm0
+	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xe076d5c5                           // vpcmpeqd    ymm4, ymm5, ymm0
+	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe876cdc5                           // vpcmpeqd    ymm5, ymm6, ymm0
+	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xf076c5c5                           // vpcmpeqd    ymm6, ymm7, ymm0
+	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0x4c61c3c4; WORD $0xa0d9             // vpblendvb    xmm3, xmm3, xmm9, xmm10
+	LONG $0x4c59c3c4; WORD $0xb0e1             // vpblendvb    xmm4, xmm4, xmm9, xmm11
+	LONG $0x4c51c3c4; WORD $0x20d1             // vpblendvb    xmm2, xmm5, xmm9, xmm2
+	LONG $0x4c49c3c4; WORD $0x10c9             // vpblendvb    xmm1, xmm6, xmm9, xmm1
+	LONG $0x7f7ac1c4; WORD $0x701c             // vmovdqu    oword [r8 + 2*rsi], xmm3
+	LONG $0x7f7ac1c4; WORD $0x7064; BYTE $0x10 // vmovdqu    oword [r8 + 2*rsi + 16], xmm4
+	LONG $0x7f7ac1c4; WORD $0x7054; BYTE $0x20 // vmovdqu    oword [r8 + 2*rsi + 32], xmm2
+	LONG $0x7f7ac1c4; WORD $0x704c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rsi + 48], xmm1
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_689
+	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
+	JE   LBB4_1351
+
+LBB4_691:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_692:
+	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_692
+	JMP  LBB4_1351
+
+LBB4_693:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763d41c4; BYTE $0xc0 // vpcmpeqd    ymm8, ymm8, ymm8
+	LONG $0x4d6f79c5; BYTE $0x40 // vmovdqa    xmm9, oword 64[rbp] /* [rip + .LCPI4_11] */
+
+LBB4_694:
+	LONG $0x246ffec5; BYTE $0xb1               // vmovdqu    ymm4, yword [rcx + 4*rsi]
+	LONG $0x6c6ffec5; WORD $0x20b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 32]
+	LONG $0x746ffec5; WORD $0x40b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 64]
+	LONG $0x7c6ffec5; WORD $0x60b1             // vmovdqu    ymm7, yword [rcx + 4*rsi + 96]
+	LONG $0xd866ddc5                           // vpcmpgtd    ymm3, ymm4, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xd16b61c5                           // vpackssdw    xmm10, xmm3, xmm1
+	LONG $0xc866d5c5                           // vpcmpgtd    ymm1, ymm5, ymm0
+	LONG $0x397de3c4; WORD $0x01ca             // vextracti128    xmm2, ymm1, 1
+	LONG $0xda6b71c5                           // vpackssdw    xmm11, xmm1, xmm2
+	LONG $0xd066cdc5                           // vpcmpgtd    ymm2, ymm6, ymm0
+	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5                           // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0xd866c5c5                           // vpcmpgtd    ymm3, ymm7, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
+	LONG $0xd876ddc5                           // vpcmpeqd    ymm3, ymm4, ymm0
+	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xe076d5c5                           // vpcmpeqd    ymm4, ymm5, ymm0
+	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe876cdc5                           // vpcmpeqd    ymm5, ymm6, ymm0
+	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xf076c5c5                           // vpcmpeqd    ymm6, ymm7, ymm0
+	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0x4c61c3c4; WORD $0xa0d9             // vpblendvb    xmm3, xmm3, xmm9, xmm10
+	LONG $0x4c59c3c4; WORD $0xb0e1             // vpblendvb    xmm4, xmm4, xmm9, xmm11
+	LONG $0x4c51c3c4; WORD $0x20d1             // vpblendvb    xmm2, xmm5, xmm9, xmm2
+	LONG $0x4c49c3c4; WORD $0x10c9             // vpblendvb    xmm1, xmm6, xmm9, xmm1
+	LONG $0x7f7ac1c4; WORD $0x701c             // vmovdqu    oword [r8 + 2*rsi], xmm3
+	LONG $0x7f7ac1c4; WORD $0x7064; BYTE $0x10 // vmovdqu    oword [r8 + 2*rsi + 16], xmm4
+	LONG $0x7f7ac1c4; WORD $0x7054; BYTE $0x20 // vmovdqu    oword [r8 + 2*rsi + 32], xmm2
+	LONG $0x7f7ac1c4; WORD $0x704c; BYTE $0x30 // vmovdqu    oword [r8 + 2*rsi + 48], xmm1
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_694
+	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
+	JE   LBB4_1351
+
+LBB4_696:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_697:
+	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_697
+	JMP  LBB4_1351
+
+LBB4_698:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
+	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_699:
+	LONG $0x1c76f9c5; BYTE $0xb1               // vpcmpeqd    xmm3, xmm0, oword [rcx + 4*rsi]
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x357de2c4; BYTE $0xdb               // vpmovzxdq    ymm3, xmm3
+	LONG $0x6476f9c5; WORD $0x10b1             // vpcmpeqd    xmm4, xmm0, oword [rcx + 4*rsi + 16]
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x357de2c4; BYTE $0xe4               // vpmovzxdq    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0x6c76f9c5; WORD $0x20b1             // vpcmpeqd    xmm5, xmm0, oword [rcx + 4*rsi + 32]
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x357de2c4; BYTE $0xed               // vpmovzxdq    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0x7476f9c5; WORD $0x30b1             // vpcmpeqd    xmm6, xmm0, oword [rcx + 4*rsi + 48]
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x357de2c4; BYTE $0xf6               // vpmovzxdq    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_699
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_701:
+	WORD $0xf631             // xor    esi, esi
+	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd6950f40         // setne    sil
+	LONG $0xd0348949         // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JNE  LBB4_701
+	JMP  LBB4_1351
+
+LBB4_702:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	QUAD $0x0000988d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 152[rbp] /* [rip + .LCPI4_5] */
+
+LBB4_703:
+	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
+	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
+	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
+	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
+	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
+	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
+	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
+	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
+	LONG $0x7f7ec1c4; WORD $0xb014             // vmovdqu    yword [r8 + 4*rsi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb05c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm5
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_703
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_705:
+	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_707
+
+LBB4_706:
+	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_707:
+	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xc86ff9c5 // vmovdqa    xmm1, xmm0
+	JNE  LBB4_706
+	LONG $0xc9eff1c5 // vpxor    xmm1, xmm1, xmm1
+	JMP  LBB4_706
+
+LBB4_709:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc       // and    edx, -4
+	LONG $0xfc728d48               // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1       // mov    r9, rsi
+	LONG $0x02e9c149               // shr    r9, 2
+	LONG $0x01c18349               // add    r9, 1
+	WORD $0x8548; BYTE $0xf6       // test    rsi, rsi
+	JE   LBB4_1302
+	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
+	LONG $0xfee78348               // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf       // neg    rdi
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc057f9c5               // vxorpd    xmm0, xmm0, xmm0
+	LONG $0x197de2c4; WORD $0x004d // vbroadcastsd    ymm1, qword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_711:
+	LONG $0x1c10fdc5; BYTE $0xf1               // vmovupd    ymm3, yword [rcx + 8*rsi]
+	LONG $0xe154e5c5                           // vandpd    ymm4, ymm3, ymm1
+	LONG $0xe456edc5                           // vorpd    ymm4, ymm2, ymm4
+	LONG $0x197de3c4; WORD $0x01e5             // vextractf128    xmm5, ymm4, 1
+	LONG $0x2cfbe1c4; BYTE $0xdd               // vcvttsd2si    rbx, xmm5
+	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
+	LONG $0x0479e3c4; WORD $0x4eed             // vpermilps    xmm5, xmm5, 78
+	LONG $0x2cfbe1c4; BYTE $0xdd               // vcvttsd2si    rbx, xmm5
+	LONG $0x6ef9e1c4; BYTE $0xeb               // vmovq    xmm5, rbx
+	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
+	LONG $0x2cfbe1c4; BYTE $0xdc               // vcvttsd2si    rbx, xmm4
+	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
+	LONG $0x0479e3c4; WORD $0x4ee4             // vpermilps    xmm4, xmm4, 78
+	LONG $0x2cfbe1c4; BYTE $0xdc               // vcvttsd2si    rbx, xmm4
+	LONG $0x6ef9e1c4; BYTE $0xe3               // vmovq    xmm4, rbx
+	LONG $0xe46cc9c5                           // vpunpcklqdq    xmm4, xmm6, xmm4
+	LONG $0x385de3c4; WORD $0x01e5             // vinserti128    ymm4, ymm4, xmm5, 1
+	LONG $0xd8c2e5c5; BYTE $0x04               // vcmpneqpd    ymm3, ymm3, ymm0
+	LONG $0xdc54e5c5                           // vandpd    ymm3, ymm3, ymm4
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x5c10fdc5; WORD $0x20f1             // vmovupd    ymm3, yword [rcx + 8*rsi + 32]
+	LONG $0xe154e5c5                           // vandpd    ymm4, ymm3, ymm1
+	LONG $0xe456edc5                           // vorpd    ymm4, ymm2, ymm4
+	LONG $0x197de3c4; WORD $0x01e5             // vextractf128    xmm5, ymm4, 1
+	LONG $0x2cfbe1c4; BYTE $0xdd               // vcvttsd2si    rbx, xmm5
+	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
+	LONG $0x0479e3c4; WORD $0x4eed             // vpermilps    xmm5, xmm5, 78
+	LONG $0x2cfbe1c4; BYTE $0xdd               // vcvttsd2si    rbx, xmm5
+	LONG $0x6ef9e1c4; BYTE $0xeb               // vmovq    xmm5, rbx
+	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
+	LONG $0x2cfbe1c4; BYTE $0xdc               // vcvttsd2si    rbx, xmm4
+	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
+	LONG $0x0479e3c4; WORD $0x4ee4             // vpermilps    xmm4, xmm4, 78
+	LONG $0x2cfbe1c4; BYTE $0xdc               // vcvttsd2si    rbx, xmm4
+	LONG $0x6ef9e1c4; BYTE $0xe3               // vmovq    xmm4, rbx
+	LONG $0xe46cc9c5                           // vpunpcklqdq    xmm4, xmm6, xmm4
+	LONG $0x385de3c4; WORD $0x01e5             // vinserti128    ymm4, ymm4, xmm5, 1
+	LONG $0xd8c2e5c5; BYTE $0x04               // vcmpneqpd    ymm3, ymm3, ymm0
+	LONG $0xdc54e5c5                           // vandpd    ymm3, ymm3, ymm4
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_711
+	JMP  LBB4_1303
+
+LBB4_712:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0             // and    edx, -16
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0x197de2c4; WORD $0x0845       // vbroadcastsd    ymm0, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xd05afdc5                     // vcvtpd2ps    xmm2, ymm0
+	LONG $0x573941c4; BYTE $0xc0         // vxorpd    xmm8, xmm8, xmm8
+	QUAD $0x0000908d1879e2c4; BYTE $0x00 // vbroadcastss    xmm1, dword 144[rbp] /* [rip + .LCPI4_3] */
+	LONG $0xd154e9c5                     // vandpd    xmm2, xmm2, xmm1
+
+LBB4_713:
+	LONG $0x1c10fdc5; BYTE $0xf1               // vmovupd    ymm3, yword [rcx + 8*rsi]
+	LONG $0x6410fdc5; WORD $0x20f1             // vmovupd    ymm4, yword [rcx + 8*rsi + 32]
+	LONG $0x6c10fdc5; WORD $0x40f1             // vmovupd    ymm5, yword [rcx + 8*rsi + 64]
+	LONG $0x7410fdc5; WORD $0x60f1             // vmovupd    ymm6, yword [rcx + 8*rsi + 96]
+	LONG $0xfbc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm3
+	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
+	LONG $0xc86b41c5                           // vpackssdw    xmm9, xmm7, xmm0
+	LONG $0xfcc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm4
+	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
+	LONG $0xd06b41c5                           // vpackssdw    xmm10, xmm7, xmm0
+	LONG $0xfdc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm5
+	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
+	LONG $0xd86b41c5                           // vpackssdw    xmm11, xmm7, xmm0
+	LONG $0xfec2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm6
+	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
+	LONG $0xc06bc1c5                           // vpackssdw    xmm0, xmm7, xmm0
+	LONG $0xdb5afdc5                           // vcvtpd2ps    xmm3, ymm3
+	LONG $0xdb55f1c5                           // vandnpd    xmm3, xmm1, xmm3
+	LONG $0xdb56e9c5                           // vorpd    xmm3, xmm2, xmm3
+	LONG $0xe45afdc5                           // vcvtpd2ps    xmm4, ymm4
+	LONG $0xdbdfb1c5                           // vpandn    xmm3, xmm9, xmm3
+	LONG $0xe455f1c5                           // vandnpd    xmm4, xmm1, xmm4
+	LONG $0xe456e9c5                           // vorpd    xmm4, xmm2, xmm4
+	LONG $0xe4dfa9c5                           // vpandn    xmm4, xmm10, xmm4
+	LONG $0xed5afdc5                           // vcvtpd2ps    xmm5, ymm5
+	LONG $0xed55f1c5                           // vandnpd    xmm5, xmm1, xmm5
+	LONG $0xed56e9c5                           // vorpd    xmm5, xmm2, xmm5
+	LONG $0xeddfa1c5                           // vpandn    xmm5, xmm11, xmm5
+	LONG $0xf65afdc5                           // vcvtpd2ps    xmm6, ymm6
+	LONG $0xf655f1c5                           // vandnpd    xmm6, xmm1, xmm6
+	LONG $0xf656e9c5                           // vorpd    xmm6, xmm2, xmm6
+	LONG $0xc6dff9c5                           // vpandn    xmm0, xmm0, xmm6
+	LONG $0x7f7ac1c4; WORD $0xb01c             // vmovdqu    oword [r8 + 4*rsi], xmm3
+	LONG $0x7f7ac1c4; WORD $0xb064; BYTE $0x10 // vmovdqu    oword [r8 + 4*rsi + 16], xmm4
+	LONG $0x7f7ac1c4; WORD $0xb06c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rsi + 32], xmm5
+	LONG $0x7f7ac1c4; WORD $0xb044; BYTE $0x30 // vmovdqu    oword [r8 + 4*rsi + 48], xmm0
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_713
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_715:
+	LONG $0xc057f9c5                     // vxorpd    xmm0, xmm0, xmm0
+	QUAD $0x0000948d5879e2c4; BYTE $0x00 // vpbroadcastd    xmm1, dword 148[rbp] /* [rip + .LCPI4_4] */
+	QUAD $0x000098955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 152[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_717
+
+LBB4_716:
+	LONG $0x7e79c1c4; WORD $0x901c // vmovd    dword [r8 + 4*rdx], xmm3
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_717:
+	LONG $0x2410fbc5; BYTE $0xd1 // vmovsd    xmm4, qword [rcx + 8*rdx]
+	LONG $0xc42ef9c5             // vucomisd    xmm0, xmm4
+	LONG $0xdbefe1c5             // vpxor    xmm3, xmm3, xmm3
+	JE   LBB4_716
+	LONG $0xdc5adbc5             // vcvtsd2ss    xmm3, xmm4, xmm4
+	LONG $0xd9dbe1c5             // vpand    xmm3, xmm3, xmm1
+	LONG $0xdbebe9c5             // vpor    xmm3, xmm2, xmm3
+	JMP  LBB4_716
+
+LBB4_728:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0             // and    edx, -16
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x000098955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 152[rbp] /* [rip + .LCPI4_5] */
+
+LBB4_729:
+	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
+	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
+	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
+	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
+	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
+	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
+	LONG $0x7f7ac1c4; WORD $0xb01c             // vmovdqu    oword [r8 + 4*rsi], xmm3
+	LONG $0x7f7ac1c4; WORD $0xb064; BYTE $0x10 // vmovdqu    oword [r8 + 4*rsi + 16], xmm4
+	LONG $0x7f7ac1c4; WORD $0xb06c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rsi + 32], xmm5
+	LONG $0x7f7ac1c4; WORD $0xb074; BYTE $0x30 // vmovdqu    oword [r8 + 4*rsi + 48], xmm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_729
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_731:
+	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_733
+
+LBB4_732:
+	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_733:
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xc86ff9c5             // vmovdqa    xmm1, xmm0
+	JNE  LBB4_732
+	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
+	JMP  LBB4_732
+
+LBB4_735:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
+	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_736:
+	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
+	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
+	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
+	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
+	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x347de2c4; BYTE $0xdb               // vpmovzxwq    ymm3, xmm3
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x347de2c4; BYTE $0xe4               // vpmovzxwq    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x347de2c4; BYTE $0xed               // vpmovzxwq    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x347de2c4; BYTE $0xf6               // vpmovzxwq    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_736
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_738:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_738
+	JMP  LBB4_1351
+
+LBB4_739:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
+	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_740:
+	LONG $0x1c75f9c5; BYTE $0x71               // vpcmpeqw    xmm3, xmm0, oword [rcx + 2*rsi]
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x337de2c4; BYTE $0xdb               // vpmovzxwd    ymm3, xmm3
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	LONG $0x6475f9c5; WORD $0x1071             // vpcmpeqw    xmm4, xmm0, oword [rcx + 2*rsi + 16]
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x337de2c4; BYTE $0xe4               // vpmovzxwd    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
+	LONG $0x6c75f9c5; WORD $0x2071             // vpcmpeqw    xmm5, xmm0, oword [rcx + 2*rsi + 32]
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x337de2c4; BYTE $0xed               // vpmovzxwd    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
+	LONG $0x7475f9c5; WORD $0x3071             // vpcmpeqw    xmm6, xmm0, oword [rcx + 2*rsi + 48]
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x337de2c4; BYTE $0xf6               // vpmovzxwd    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
+	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_740
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_742:
+	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_744
+
+LBB4_743:
+	LONG $0x7e79c1c4; WORD $0x900c // vmovd    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_744:
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xc86ff9c5             // vmovdqa    xmm1, xmm0
+	JNE  LBB4_743
+	LONG $0xc9eff1c5             // vpxor    xmm1, xmm1, xmm1
+	JMP  LBB4_743
+
+LBB4_746:
+	WORD $0x8944; BYTE $0xd2       // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
+	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_747:
+	LONG $0x1c7efac5; BYTE $0x71               // vmovq    xmm3, qword [rcx + 2*rsi]
+	LONG $0x647efac5; WORD $0x0871             // vmovq    xmm4, qword [rcx + 2*rsi + 8]
+	LONG $0x6c7efac5; WORD $0x1071             // vmovq    xmm5, qword [rcx + 2*rsi + 16]
+	LONG $0x747efac5; WORD $0x1871             // vmovq    xmm6, qword [rcx + 2*rsi + 24]
+	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
+	LONG $0x247d62c4; BYTE $0xcf               // vpmovsxwq    ymm9, xmm7
+	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
+	LONG $0x247d62c4; BYTE $0xd1               // vpmovsxwq    ymm10, xmm1
+	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
+	LONG $0x247de2c4; BYTE $0xff               // vpmovsxwq    ymm7, xmm7
+	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
+	LONG $0x247de2c4; BYTE $0xc9               // vpmovsxwq    ymm1, xmm1
+	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x247de2c4; BYTE $0xdb               // vpmovsxwq    ymm3, xmm3
+	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x247de2c4; BYTE $0xe4               // vpmovsxwq    ymm4, xmm4
+	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x247de2c4; BYTE $0xed               // vpmovsxwq    ymm5, xmm5
+	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x247de2c4; BYTE $0xf6               // vpmovsxwq    ymm6, xmm6
+	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_747
+	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
+	JE   LBB4_1351
+
+LBB4_749:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_750:
+	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	LONG $0xc64f0f48         // cmovg    rax, rsi
+	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_750
+	JMP  LBB4_1351
+
+LBB4_751:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
+	QUAD $0x00009895187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 152[rbp] /* [rip + .LCPI4_5] */
+
+LBB4_752:
+	LONG $0x1c6ffac5; BYTE $0x71               // vmovdqu    xmm3, oword [rcx + 2*rsi]
+	LONG $0x646ffac5; WORD $0x1071             // vmovdqu    xmm4, oword [rcx + 2*rsi + 16]
+	LONG $0x6c6ffac5; WORD $0x2071             // vmovdqu    xmm5, oword [rcx + 2*rsi + 32]
+	LONG $0x746ffac5; WORD $0x3071             // vmovdqu    xmm6, oword [rcx + 2*rsi + 48]
+	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
+	LONG $0x237d62c4; BYTE $0xcf               // vpmovsxwd    ymm9, xmm7
+	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
+	LONG $0x237d62c4; BYTE $0xd1               // vpmovsxwd    ymm10, xmm1
+	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
+	LONG $0x237de2c4; BYTE $0xff               // vpmovsxwd    ymm7, xmm7
+	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
+	LONG $0x237de2c4; BYTE $0xc9               // vpmovsxwd    ymm1, xmm1
+	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x237de2c4; BYTE $0xdb               // vpmovsxwd    ymm3, xmm3
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x237de2c4; BYTE $0xe4               // vpmovsxwd    ymm4, xmm4
+	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
+	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x237de2c4; BYTE $0xed               // vpmovsxwd    ymm5, xmm5
+	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
+	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x237de2c4; BYTE $0xf6               // vpmovsxwd    ymm6, xmm6
+	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
+	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_752
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_754:
+	QUAD $0x000000a88510fac5 // vmovss    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
+	QUAD $0x000000988d10fac5 // vmovss    xmm1, dword 152[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_756
+
+LBB4_755:
+	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_756:
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd028f8c5             // vmovaps    xmm2, xmm0
+	JNE  LBB4_758
+	LONG $0xd257e8c5             // vxorps    xmm2, xmm2, xmm2
+
+LBB4_758:
+	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
+	JG   LBB4_755
+	LONG $0xda28f8c5 // vmovaps    xmm3, xmm2
+	JMP  LBB4_755
+
+LBB4_763:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0             // and    edx, -16
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763541c4; BYTE $0xc9         // vpcmpeqd    ymm9, ymm9, ymm9
+	QUAD $0x000098951879e2c4; BYTE $0x00 // vbroadcastss    xmm2, dword 152[rbp] /* [rip + .LCPI4_5] */
+
+LBB4_764:
+	LONG $0x346ffec5; BYTE $0xf1               // vmovdqu    ymm6, yword [rcx + 8*rsi]
+	LONG $0x7c6ffec5; WORD $0x20f1             // vmovdqu    ymm7, yword [rcx + 8*rsi + 32]
+	LONG $0x446f7ec5; WORD $0x40f1             // vmovdqu    ymm8, yword [rcx + 8*rsi + 64]
+	LONG $0x646ffec5; WORD $0x60f1             // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
+	LONG $0x374de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm6, ymm0
+	LONG $0x397de3c4; WORD $0x01dd             // vextracti128    xmm5, ymm3, 1
+	LONG $0xd56b61c5                           // vpackssdw    xmm10, xmm3, xmm5
+	LONG $0x3745e2c4; BYTE $0xe8               // vpcmpgtq    ymm5, ymm7, ymm0
+	LONG $0x397de3c4; WORD $0x01e9             // vextracti128    xmm1, ymm5, 1
+	LONG $0xd96b51c5                           // vpackssdw    xmm11, xmm5, xmm1
+	LONG $0x373de2c4; BYTE $0xc8               // vpcmpgtq    ymm1, ymm8, ymm0
+	LONG $0x397de3c4; WORD $0x01cb             // vextracti128    xmm3, ymm1, 1
+	LONG $0xe36b71c5                           // vpackssdw    xmm12, xmm1, xmm3
+	LONG $0x375de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm4, ymm0
+	LONG $0x397de3c4; WORD $0x01dd             // vextracti128    xmm5, ymm3, 1
+	LONG $0xdd6be1c5                           // vpackssdw    xmm3, xmm3, xmm5
+	LONG $0x294de2c4; BYTE $0xe8               // vpcmpeqq    ymm5, ymm6, ymm0
+	LONG $0xedefb5c5                           // vpxor    ymm5, ymm9, ymm5
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xed5bf8c5                           // vcvtdq2ps    xmm5, xmm5
+	LONG $0x2945e2c4; BYTE $0xf0               // vpcmpeqq    ymm6, ymm7, ymm0
+	LONG $0xf6efb5c5                           // vpxor    ymm6, ymm9, ymm6
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xf65bf8c5                           // vcvtdq2ps    xmm6, xmm6
+	LONG $0x293de2c4; BYTE $0xf8               // vpcmpeqq    ymm7, ymm8, ymm0
+	LONG $0xffefb5c5                           // vpxor    ymm7, ymm9, ymm7
+	LONG $0x397de3c4; WORD $0x01f9             // vextracti128    xmm1, ymm7, 1
+	LONG $0xc96bc1c5                           // vpackssdw    xmm1, xmm7, xmm1
+	LONG $0xc95bf8c5                           // vcvtdq2ps    xmm1, xmm1
+	LONG $0x295de2c4; BYTE $0xe0               // vpcmpeqq    ymm4, ymm4, ymm0
+	LONG $0xe4efb5c5                           // vpxor    ymm4, ymm9, ymm4
+	LONG $0x397de3c4; WORD $0x01e7             // vextracti128    xmm7, ymm4, 1
+	LONG $0xe76bd9c5                           // vpackssdw    xmm4, xmm4, xmm7
+	LONG $0xe45bf8c5                           // vcvtdq2ps    xmm4, xmm4
+	LONG $0x4a51e3c4; WORD $0xa0ea             // vblendvps    xmm5, xmm5, xmm2, xmm10
+	LONG $0x4a49e3c4; WORD $0xb0f2             // vblendvps    xmm6, xmm6, xmm2, xmm11
+	LONG $0x4a71e3c4; WORD $0xc0ca             // vblendvps    xmm1, xmm1, xmm2, xmm12
+	LONG $0x4a59e3c4; WORD $0x30da             // vblendvps    xmm3, xmm4, xmm2, xmm3
+	LONG $0x1178c1c4; WORD $0xb02c             // vmovups    oword [r8 + 4*rsi], xmm5
+	LONG $0x1178c1c4; WORD $0xb074; BYTE $0x10 // vmovups    oword [r8 + 4*rsi + 16], xmm6
+	LONG $0x1178c1c4; WORD $0xb04c; BYTE $0x20 // vmovups    oword [r8 + 4*rsi + 32], xmm1
+	LONG $0x1178c1c4; WORD $0xb05c; BYTE $0x30 // vmovups    oword [r8 + 4*rsi + 48], xmm3
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_764
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_766:
+	QUAD $0x000000a88510fac5 // vmovss    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
+	QUAD $0x000000988d10fac5 // vmovss    xmm1, dword 152[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_768
+
+LBB4_767:
+	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_768:
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd028f8c5             // vmovaps    xmm2, xmm0
+	JNE  LBB4_770
+	LONG $0xd257e8c5             // vxorps    xmm2, xmm2, xmm2
+
+LBB4_770:
+	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
+	JG   LBB4_767
+	LONG $0xda28f8c5 // vmovaps    xmm3, xmm2
+	JMP  LBB4_767
+
+LBB4_772:
+	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc             // and    edx, -4
+	LONG $0xfc728d48                     // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1             // mov    r9, rsi
+	LONG $0x02e9c149                     // shr    r9, 2
+	LONG $0x01c18349                     // add    r9, 1
+	WORD $0x8548; BYTE $0xf6             // test    rsi, rsi
+	JE   LBB4_1308
+	WORD $0x894c; BYTE $0xcf             // mov    rdi, r9
+	LONG $0xfee78348                     // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf             // neg    rdi
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc057f8c5                     // vxorps    xmm0, xmm0, xmm0
+	QUAD $0x00009c8d5879e2c4; BYTE $0x00 // vpbroadcastd    xmm1, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_774:
+	LONG $0x1410f8c5; BYTE $0xb1               // vmovups    xmm2, oword [rcx + 4*rsi]
+	LONG $0xd8c2e8c5; BYTE $0x00               // vcmpeqps    xmm3, xmm2, xmm0
+	LONG $0x257de2c4; BYTE $0xdb               // vpmovsxdq    ymm3, xmm3
+	LONG $0xe272e9c5; BYTE $0x1f               // vpsrad    xmm2, xmm2, 31
+	LONG $0xd1ebe9c5                           // vpor    xmm2, xmm2, xmm1
+	LONG $0xd25bf8c5                           // vcvtdq2ps    xmm2, xmm2
+	LONG $0x0479e3c4; WORD $0xe7e2             // vpermilps    xmm4, xmm2, 231
+	LONG $0x2cfae1c4; BYTE $0xc4               // vcvttss2si    rax, xmm4
+	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
+	LONG $0x0579e3c4; WORD $0x01ea             // vpermilpd    xmm5, xmm2, 1
+	LONG $0x2cfae1c4; BYTE $0xc5               // vcvttss2si    rax, xmm5
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
+	LONG $0x2cfae1c4; BYTE $0xc2               // vcvttss2si    rax, xmm2
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	LONG $0xd216fac5                           // vmovshdup    xmm2, xmm2
+	LONG $0x2cfae1c4; BYTE $0xc2               // vcvttss2si    rax, xmm2
+	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
+	LONG $0xd26cd1c5                           // vpunpcklqdq    xmm2, xmm5, xmm2
+	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0xd2dfe5c5                           // vpandn    ymm2, ymm3, ymm2
+	LONG $0x7f7ec1c4; WORD $0xf014             // vmovdqu    yword [r8 + 8*rsi], ymm2
+	LONG $0x546ffac5; WORD $0x10b1             // vmovdqu    xmm2, oword [rcx + 4*rsi + 16]
+	LONG $0xe272e1c5; BYTE $0x1f               // vpsrad    xmm3, xmm2, 31
+	LONG $0xd9ebe1c5                           // vpor    xmm3, xmm3, xmm1
+	LONG $0xdb5bf8c5                           // vcvtdq2ps    xmm3, xmm3
+	LONG $0x0479e3c4; WORD $0xe7e3             // vpermilps    xmm4, xmm3, 231
+	LONG $0x2cfae1c4; BYTE $0xc4               // vcvttss2si    rax, xmm4
+	LONG $0x0579e3c4; WORD $0x01e3             // vpermilpd    xmm4, xmm3, 1
+	LONG $0x2cfa61c4; BYTE $0xdc               // vcvttss2si    r11, xmm4
+	LONG $0x2cfae1c4; BYTE $0xdb               // vcvttss2si    rbx, xmm3
+	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
+	LONG $0xdb16fac5                           // vmovshdup    xmm3, xmm3
+	LONG $0x2cfae1c4; BYTE $0xc3               // vcvttss2si    rax, xmm3
+	LONG $0x6ef9c1c4; BYTE $0xdb               // vmovq    xmm3, r11
+	LONG $0x6ef9e1c4; BYTE $0xeb               // vmovq    xmm5, rbx
+	LONG $0xd0c2e8c5; BYTE $0x00               // vcmpeqps    xmm2, xmm2, xmm0
+	LONG $0x257de2c4; BYTE $0xd2               // vpmovsxdq    ymm2, xmm2
+	LONG $0xdc6ce1c5                           // vpunpcklqdq    xmm3, xmm3, xmm4
+	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
+	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	LONG $0xd3dfedc5                           // vpandn    ymm2, ymm2, ymm3
+	LONG $0x7f7ec1c4; WORD $0xf054; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm2
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_774
+	JMP  LBB4_1309
+
+LBB4_784:
+	WORD $0x8944; BYTE $0xd2       // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
+	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_785:
+	LONG $0x1c6ffac5; BYTE $0xb1               // vmovdqu    xmm3, oword [rcx + 4*rsi]
+	LONG $0x646ffac5; WORD $0x10b1             // vmovdqu    xmm4, oword [rcx + 4*rsi + 16]
+	LONG $0x6c6ffac5; WORD $0x20b1             // vmovdqu    xmm5, oword [rcx + 4*rsi + 32]
+	LONG $0x746ffac5; WORD $0x30b1             // vmovdqu    xmm6, oword [rcx + 4*rsi + 48]
+	LONG $0xf866e1c5                           // vpcmpgtd    xmm7, xmm3, xmm0
+	LONG $0x257d62c4; BYTE $0xcf               // vpmovsxdq    ymm9, xmm7
+	LONG $0xc866d9c5                           // vpcmpgtd    xmm1, xmm4, xmm0
+	LONG $0x257d62c4; BYTE $0xd1               // vpmovsxdq    ymm10, xmm1
+	LONG $0xf866d1c5                           // vpcmpgtd    xmm7, xmm5, xmm0
+	LONG $0x257de2c4; BYTE $0xff               // vpmovsxdq    ymm7, xmm7
+	LONG $0xc866c9c5                           // vpcmpgtd    xmm1, xmm6, xmm0
+	LONG $0x257de2c4; BYTE $0xc9               // vpmovsxdq    ymm1, xmm1
+	LONG $0xd876e1c5                           // vpcmpeqd    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x257de2c4; BYTE $0xdb               // vpmovsxdq    ymm3, xmm3
+	LONG $0xe076d9c5                           // vpcmpeqd    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x257de2c4; BYTE $0xe4               // vpmovsxdq    ymm4, xmm4
+	LONG $0xe876d1c5                           // vpcmpeqd    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x257de2c4; BYTE $0xed               // vpmovsxdq    ymm5, xmm5
+	LONG $0xf076c9c5                           // vpcmpeqd    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x257de2c4; BYTE $0xf6               // vpmovsxdq    ymm6, xmm6
+	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_785
+	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
+	JE   LBB4_1351
+
+LBB4_787:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_788:
+	WORD $0x3c8b; BYTE $0x91 // mov    edi, dword [rcx + 4*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0xff85             // test    edi, edi
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff85             // test    edi, edi
+	LONG $0xc64f0f48         // cmovg    rax, rsi
+	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_788
+	JMP  LBB4_1351
+
+LBB4_789:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x00009895187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 152[rbp] /* [rip + .LCPI4_5] */
+
+LBB4_790:
+	LONG $0x1c6ffec5; BYTE $0xb1               // vmovdqu    ymm3, yword [rcx + 4*rsi]
+	LONG $0x646ffec5; WORD $0x20b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 32]
+	LONG $0x6c6ffec5; WORD $0x40b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 64]
+	LONG $0x746ffec5; WORD $0x60b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 96]
+	LONG $0xf866e5c5                           // vpcmpgtd    ymm7, ymm3, ymm0
+	LONG $0xc0665dc5                           // vpcmpgtd    ymm8, ymm4, ymm0
+	LONG $0xc86655c5                           // vpcmpgtd    ymm9, ymm5, ymm0
+	LONG $0xd0664dc5                           // vpcmpgtd    ymm10, ymm6, ymm0
+	LONG $0xd876e5c5                           // vpcmpeqd    ymm3, ymm3, ymm0
+	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	LONG $0xe076ddc5                           // vpcmpeqd    ymm4, ymm4, ymm0
+	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
+	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
+	LONG $0xe876d5c5                           // vpcmpeqd    ymm5, ymm5, ymm0
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
+	LONG $0xf076cdc5                           // vpcmpeqd    ymm6, ymm6, ymm0
+	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
+	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
+	LONG $0x4a65e3c4; WORD $0x70da             // vblendvps    ymm3, ymm3, ymm2, ymm7
+	LONG $0x4a5de3c4; WORD $0x80e2             // vblendvps    ymm4, ymm4, ymm2, ymm8
+	LONG $0x4a55e3c4; WORD $0x90ea             // vblendvps    ymm5, ymm5, ymm2, ymm9
+	LONG $0x4a4de3c4; WORD $0xa0f2             // vblendvps    ymm6, ymm6, ymm2, ymm10
+	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_790
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_792:
+	QUAD $0x000000a88510fac5 // vmovss    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
+	QUAD $0x000000988d10fac5 // vmovss    xmm1, dword 152[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_794
+
+LBB4_793:
+	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_794:
+	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd028f8c5 // vmovaps    xmm2, xmm0
+	JNE  LBB4_796
+	LONG $0xd257e8c5 // vxorps    xmm2, xmm2, xmm2
+
+LBB4_796:
+	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
+	JG   LBB4_793
+	LONG $0xda28f8c5 // vmovaps    xmm3, xmm2
+	JMP  LBB4_793
+
+LBB4_831:
+	WORD $0xc689                   // mov    esi, eax
+	WORD $0xe683; BYTE $0xf0       // and    esi, -16
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x573941c4; BYTE $0xc0   // vxorpd    xmm8, xmm8, xmm8
+	LONG $0x197de2c4; WORD $0x004d // vbroadcastsd    ymm1, qword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_832:
+	LONG $0x1c10fdc5; BYTE $0xf9               // vmovupd    ymm3, yword [rcx + 8*rdi]
+	LONG $0x6410fdc5; WORD $0x20f9             // vmovupd    ymm4, yword [rcx + 8*rdi + 32]
+	LONG $0x6c10fdc5; WORD $0x40f9             // vmovupd    ymm5, yword [rcx + 8*rdi + 64]
+	LONG $0x7410fdc5; WORD $0x60f9             // vmovupd    ymm6, yword [rcx + 8*rdi + 96]
+	LONG $0xfbc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm3
+	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
+	LONG $0xc86b41c5                           // vpackssdw    xmm9, xmm7, xmm0
+	LONG $0xfcc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm4
+	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
+	LONG $0xd06b41c5                           // vpackssdw    xmm10, xmm7, xmm0
+	LONG $0xfdc2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm5
+	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
+	LONG $0xd86b41c5                           // vpackssdw    xmm11, xmm7, xmm0
+	LONG $0xfec2bdc5; BYTE $0x00               // vcmpeqpd    ymm7, ymm8, ymm6
+	LONG $0x197de3c4; WORD $0x01f8             // vextractf128    xmm0, ymm7, 1
+	LONG $0xc06bc1c5                           // vpackssdw    xmm0, xmm7, xmm0
+	LONG $0xd954e5c5                           // vandpd    ymm3, ymm3, ymm1
+	LONG $0xdb56edc5                           // vorpd    ymm3, ymm2, ymm3
+	LONG $0xe154ddc5                           // vandpd    ymm4, ymm4, ymm1
+	LONG $0xe456edc5                           // vorpd    ymm4, ymm2, ymm4
+	LONG $0xe954d5c5                           // vandpd    ymm5, ymm5, ymm1
+	LONG $0xed56edc5                           // vorpd    ymm5, ymm2, ymm5
+	LONG $0xf154cdc5                           // vandpd    ymm6, ymm6, ymm1
+	LONG $0xf656edc5                           // vorpd    ymm6, ymm2, ymm6
+	LONG $0xdbe6fdc5                           // vcvttpd2dq    xmm3, ymm3
+	LONG $0xdbdfb1c5                           // vpandn    xmm3, xmm9, xmm3
+	LONG $0xe4e6fdc5                           // vcvttpd2dq    xmm4, ymm4
+	LONG $0xe4dfa9c5                           // vpandn    xmm4, xmm10, xmm4
+	LONG $0xede6fdc5                           // vcvttpd2dq    xmm5, ymm5
+	LONG $0xf6e6fdc5                           // vcvttpd2dq    xmm6, ymm6
+	LONG $0xeddfa1c5                           // vpandn    xmm5, xmm11, xmm5
+	LONG $0xc6dff9c5                           // vpandn    xmm0, xmm0, xmm6
+	LONG $0x7f7ac1c4; WORD $0xb81c             // vmovdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f7ac1c4; WORD $0xb864; BYTE $0x10 // vmovdqu    oword [r8 + 4*rdi + 16], xmm4
+	LONG $0x7f7ac1c4; WORD $0xb86c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rdi + 32], xmm5
+	LONG $0x7f7ac1c4; WORD $0xb844; BYTE $0x30 // vmovdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB4_832
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JE   LBB4_1351
+
+LBB4_834:
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
+	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_835:
+	LONG $0x1c10fbc5; BYTE $0xf1 // vmovsd    xmm3, qword [rcx + 8*rsi]
+	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
+	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
+	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
+	LONG $0xfb2cfbc5             // vcvttsd2si    edi, xmm3
+	WORD $0x440f; BYTE $0xfa     // cmove    edi, edx
+	LONG $0xb03c8941             // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JNE  LBB4_835
+	JMP  LBB4_1351
+
+LBB4_839:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0             // and    edx, -16
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_840:
+	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
+	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
+	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
+	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
+	LONG $0x297de2c4; WORD $0xf174; BYTE $0x60 // vpcmpeqq    ymm6, ymm0, yword [rcx + 8*rsi + 96]
+	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
+	LONG $0x7f7ac1c4; WORD $0xb01c             // vmovdqu    oword [r8 + 4*rsi], xmm3
+	LONG $0x7f7ac1c4; WORD $0xb064; BYTE $0x10 // vmovdqu    oword [r8 + 4*rsi + 16], xmm4
+	LONG $0x7f7ac1c4; WORD $0xb06c; BYTE $0x20 // vmovdqu    oword [r8 + 4*rsi + 32], xmm5
+	LONG $0x7f7ac1c4; WORD $0xb074; BYTE $0x30 // vmovdqu    oword [r8 + 4*rsi + 48], xmm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_840
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_842:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_842
+	JMP  LBB4_1351
+
+LBB4_843:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
+	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_844:
+	LONG $0x1c75f9c5; BYTE $0x71               // vpcmpeqw    xmm3, xmm0, oword [rcx + 2*rsi]
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x337de2c4; BYTE $0xdb               // vpmovzxwd    ymm3, xmm3
+	LONG $0x6475f9c5; WORD $0x1071             // vpcmpeqw    xmm4, xmm0, oword [rcx + 2*rsi + 16]
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x337de2c4; BYTE $0xe4               // vpmovzxwd    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0x6c75f9c5; WORD $0x2071             // vpcmpeqw    xmm5, xmm0, oword [rcx + 2*rsi + 32]
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x337de2c4; BYTE $0xed               // vpmovzxwd    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0x7475f9c5; WORD $0x3071             // vpcmpeqw    xmm6, xmm0, oword [rcx + 2*rsi + 48]
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x337de2c4; BYTE $0xf6               // vpmovzxwd    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0x7f7ec1c4; WORD $0xb01c             // vmovdqu    yword [r8 + 4*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0xb074; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm6
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_844
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_846:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_846
+	JMP  LBB4_1351
+
+LBB4_847:
+	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
+	QUAD $0x00009c95187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_848:
+	LONG $0x1c6ffac5; BYTE $0x71               // vmovdqu    xmm3, oword [rcx + 2*rsi]
+	LONG $0x646ffac5; WORD $0x1071             // vmovdqu    xmm4, oword [rcx + 2*rsi + 16]
+	LONG $0x6c6ffac5; WORD $0x2071             // vmovdqu    xmm5, oword [rcx + 2*rsi + 32]
+	LONG $0x746ffac5; WORD $0x3071             // vmovdqu    xmm6, oword [rcx + 2*rsi + 48]
+	LONG $0xf865e1c5                           // vpcmpgtw    xmm7, xmm3, xmm0
+	LONG $0x237d62c4; BYTE $0xcf               // vpmovsxwd    ymm9, xmm7
+	LONG $0xc865d9c5                           // vpcmpgtw    xmm1, xmm4, xmm0
+	LONG $0x237d62c4; BYTE $0xd1               // vpmovsxwd    ymm10, xmm1
+	LONG $0xf865d1c5                           // vpcmpgtw    xmm7, xmm5, xmm0
+	LONG $0x237de2c4; BYTE $0xff               // vpmovsxwd    ymm7, xmm7
+	LONG $0xc865c9c5                           // vpcmpgtw    xmm1, xmm6, xmm0
+	LONG $0x237de2c4; BYTE $0xc9               // vpmovsxwd    ymm1, xmm1
+	LONG $0xd875e1c5                           // vpcmpeqw    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x237de2c4; BYTE $0xdb               // vpmovsxwd    ymm3, xmm3
+	LONG $0xe075d9c5                           // vpcmpeqw    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x237de2c4; BYTE $0xe4               // vpmovsxwd    ymm4, xmm4
+	LONG $0xe875d1c5                           // vpcmpeqw    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x237de2c4; BYTE $0xed               // vpmovsxwd    ymm5, xmm5
+	LONG $0xf075c9c5                           // vpcmpeqw    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x237de2c4; BYTE $0xf6               // vpmovsxwd    ymm6, xmm6
+	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_848
+	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
+	JE   LBB4_1351
+
+LBB4_850:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_851:
+	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f7             // neg    eax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
+	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_851
+	JMP  LBB4_1351
+
+LBB4_852:
+	WORD $0x8944; BYTE $0xd2             // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0             // and    edx, -16
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763d41c4; BYTE $0xc0         // vpcmpeqd    ymm8, ymm8, ymm8
+	QUAD $0x00009c951879e2c4; BYTE $0x00 // vbroadcastss    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_853:
+	LONG $0x246ffec5; BYTE $0xf1               // vmovdqu    ymm4, yword [rcx + 8*rsi]
+	LONG $0x6c6ffec5; WORD $0x20f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 32]
+	LONG $0x746ffec5; WORD $0x40f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
+	LONG $0x7c6ffec5; WORD $0x60f1             // vmovdqu    ymm7, yword [rcx + 8*rsi + 96]
+	LONG $0x375de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm4, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xc96b61c5                           // vpackssdw    xmm9, xmm3, xmm1
+	LONG $0x3755e2c4; BYTE $0xc8               // vpcmpgtq    ymm1, ymm5, ymm0
+	LONG $0x397de3c4; WORD $0x01cb             // vextracti128    xmm3, ymm1, 1
+	LONG $0xd36b71c5                           // vpackssdw    xmm10, xmm1, xmm3
+	LONG $0x374de2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm6, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xd96b61c5                           // vpackssdw    xmm11, xmm3, xmm1
+	LONG $0x3745e2c4; BYTE $0xd8               // vpcmpgtq    ymm3, ymm7, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xc96be1c5                           // vpackssdw    xmm1, xmm3, xmm1
+	LONG $0x295de2c4; BYTE $0xd8               // vpcmpeqq    ymm3, ymm4, ymm0
+	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0x2955e2c4; BYTE $0xe0               // vpcmpeqq    ymm4, ymm5, ymm0
+	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0x294de2c4; BYTE $0xe8               // vpcmpeqq    ymm5, ymm6, ymm0
+	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0x2945e2c4; BYTE $0xf0               // vpcmpeqq    ymm6, ymm7, ymm0
+	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5                           // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0x4a61e3c4; WORD $0x90da             // vblendvps    xmm3, xmm3, xmm2, xmm9
+	LONG $0x4a59e3c4; WORD $0xa0e2             // vblendvps    xmm4, xmm4, xmm2, xmm10
+	LONG $0x4a51e3c4; WORD $0xb0ea             // vblendvps    xmm5, xmm5, xmm2, xmm11
+	LONG $0x4a49e3c4; WORD $0x10ca             // vblendvps    xmm1, xmm6, xmm2, xmm1
+	LONG $0x1178c1c4; WORD $0xb01c             // vmovups    oword [r8 + 4*rsi], xmm3
+	LONG $0x1178c1c4; WORD $0xb064; BYTE $0x10 // vmovups    oword [r8 + 4*rsi + 16], xmm4
+	LONG $0x1178c1c4; WORD $0xb06c; BYTE $0x20 // vmovups    oword [r8 + 4*rsi + 32], xmm5
+	LONG $0x1178c1c4; WORD $0xb04c; BYTE $0x30 // vmovups    oword [r8 + 4*rsi + 48], xmm1
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_853
+	WORD $0x394c; BYTE $0xd2                   // cmp    rdx, r10
+	JE   LBB4_1351
+
+LBB4_855:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_856:
+	LONG $0xd13c8b48         // mov    rdi, qword [rcx + 8*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x8548; BYTE $0xff // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f7             // neg    eax
+	WORD $0x8548; BYTE $0xff // test    rdi, rdi
+	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
+	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_856
+	JMP  LBB4_1351
+
+LBB4_857:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc057f8c5                     // vxorps    xmm0, xmm0, xmm0
+	QUAD $0x00009c8d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_858:
+	LONG $0x146ffec5; BYTE $0xb1               // vmovdqu    ymm2, yword [rcx + 4*rsi]
+	LONG $0x5c6ffec5; WORD $0x20b1             // vmovdqu    ymm3, yword [rcx + 4*rsi + 32]
+	LONG $0x646ffec5; WORD $0x40b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 64]
+	LONG $0x6c6ffec5; WORD $0x60b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 96]
+	LONG $0xe272cdc5; BYTE $0x1f               // vpsrad    ymm6, ymm2, 31
+	LONG $0xf1ebcdc5                           // vpor    ymm6, ymm6, ymm1
+	LONG $0xe372c5c5; BYTE $0x1f               // vpsrad    ymm7, ymm3, 31
+	LONG $0xf9ebc5c5                           // vpor    ymm7, ymm7, ymm1
+	LONG $0xe472bdc5; BYTE $0x1f               // vpsrad    ymm8, ymm4, 31
+	LONG $0xc1eb3dc5                           // vpor    ymm8, ymm8, ymm1
+	LONG $0xe572b5c5; BYTE $0x1f               // vpsrad    ymm9, ymm5, 31
+	LONG $0xc9eb35c5                           // vpor    ymm9, ymm9, ymm1
+	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
+	LONG $0xff5bfcc5                           // vcvtdq2ps    ymm7, ymm7
+	LONG $0x5b7c41c4; BYTE $0xc0               // vcvtdq2ps    ymm8, ymm8
+	LONG $0x5b7c41c4; BYTE $0xc9               // vcvtdq2ps    ymm9, ymm9
+	LONG $0xf65bfec5                           // vcvttps2dq    ymm6, ymm6
+	LONG $0xff5bfec5                           // vcvttps2dq    ymm7, ymm7
+	LONG $0x5b7e41c4; BYTE $0xc0               // vcvttps2dq    ymm8, ymm8
+	LONG $0x5b7e41c4; BYTE $0xc9               // vcvttps2dq    ymm9, ymm9
+	LONG $0xd0c2ecc5; BYTE $0x04               // vcmpneqps    ymm2, ymm2, ymm0
+	LONG $0xd654ecc5                           // vandps    ymm2, ymm2, ymm6
+	LONG $0xd8c2e4c5; BYTE $0x04               // vcmpneqps    ymm3, ymm3, ymm0
+	LONG $0xdf54e4c5                           // vandps    ymm3, ymm3, ymm7
+	LONG $0xe0c2dcc5; BYTE $0x04               // vcmpneqps    ymm4, ymm4, ymm0
+	LONG $0xe454bcc5                           // vandps    ymm4, ymm8, ymm4
+	LONG $0xe8c2d4c5; BYTE $0x04               // vcmpneqps    ymm5, ymm5, ymm0
+	LONG $0xed54b4c5                           // vandps    ymm5, ymm9, ymm5
+	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
+	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_858
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_860:
+	LONG $0xc057f8c5 // vxorps    xmm0, xmm0, xmm0
+	JMP  LBB4_862
+
+LBB4_861:
+	LONG $0x90348941         // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_862:
+	LONG $0x0c10fac5; BYTE $0x91 // vmovss    xmm1, dword [rcx + 4*rdx]
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
+	JE   LBB4_861
+	LONG $0xf150f8c5             // vmovmskps    esi, xmm1
+	WORD $0xe683; BYTE $0x01     // and    esi, 1
+	WORD $0xdef7                 // neg    esi
+	WORD $0xce83; BYTE $0x01     // or    esi, 1
+	LONG $0xce2aaac5             // vcvtsi2ss    xmm1, xmm10, esi
+	LONG $0xf12cfac5             // vcvttss2si    esi, xmm1
+	JMP  LBB4_861
+
+LBB4_870:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	QUAD $0x00009c8d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_871:
+	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
+	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
+	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
+	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
+	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
+	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
+	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
+	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
+	LONG $0x7f7ec1c4; WORD $0xb014             // vmovdqu    yword [r8 + 4*rsi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb05c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm5
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_871
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_873
+
+LBB4_877:
+	WORD $0x8944; BYTE $0xda             // mov    edx, r11d
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
+	QUAD $0x00009c95187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_878:
+	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
+	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
+	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
+	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
+	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
+	LONG $0x217d62c4; BYTE $0xcf               // vpmovsxbd    ymm9, xmm7
+	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
+	LONG $0x217d62c4; BYTE $0xd1               // vpmovsxbd    ymm10, xmm1
+	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
+	LONG $0x217de2c4; BYTE $0xff               // vpmovsxbd    ymm7, xmm7
+	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
+	LONG $0x217de2c4; BYTE $0xc9               // vpmovsxbd    ymm1, xmm1
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x217de2c4; BYTE $0xdb               // vpmovsxbd    ymm3, xmm3
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x217de2c4; BYTE $0xe4               // vpmovsxbd    ymm4, xmm4
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x217de2c4; BYTE $0xed               // vpmovsxbd    ymm5, xmm5
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x217de2c4; BYTE $0xf6               // vpmovsxbd    ymm6, xmm6
+	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_878
+	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
+	JE   LBB4_1351
+	JMP  LBB4_880
+
+LBB4_885:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
+	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_886:
+	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
+	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
+	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
+	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x317de2c4; BYTE $0xdb               // vpmovzxbd    ymm3, xmm3
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x317de2c4; BYTE $0xe4               // vpmovzxbd    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x317de2c4; BYTE $0xed               // vpmovzxbd    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x317de2c4; BYTE $0xf6               // vpmovzxbd    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0x7f7ec1c4; WORD $0xb01c             // vmovdqu    yword [r8 + 4*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0xb074; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm6
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_886
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_888
+
+LBB4_892:
+	WORD $0x8944; BYTE $0xda             // mov    edx, r11d
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_893:
+	LONG $0x1c6ffec5; BYTE $0xb1               // vmovdqu    ymm3, yword [rcx + 4*rsi]
+	LONG $0x646ffec5; WORD $0x20b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 32]
+	LONG $0x6c6ffec5; WORD $0x40b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 64]
+	LONG $0x746ffec5; WORD $0x60b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 96]
+	LONG $0xf876e5c5                           // vpcmpeqd    ymm7, ymm3, ymm0
+	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
+	LONG $0xc0765dc5                           // vpcmpeqd    ymm8, ymm4, ymm0
+	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
+	LONG $0xc87655c5                           // vpcmpeqd    ymm9, ymm5, ymm0
+	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
+	LONG $0xd0764dc5                           // vpcmpeqd    ymm10, ymm6, ymm0
+	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
+	LONG $0xdb66edc5                           // vpcmpgtd    ymm3, ymm2, ymm3
+	LONG $0xe466edc5                           // vpcmpgtd    ymm4, ymm2, ymm4
+	LONG $0xed66edc5                           // vpcmpgtd    ymm5, ymm2, ymm5
+	LONG $0xf666edc5                           // vpcmpgtd    ymm6, ymm2, ymm6
+	LONG $0x4a6de3c4; WORD $0x30df             // vblendvps    ymm3, ymm2, ymm7, ymm3
+	LONG $0x4a6dc3c4; WORD $0x40e0             // vblendvps    ymm4, ymm2, ymm8, ymm4
+	LONG $0x4a6dc3c4; WORD $0x50e9             // vblendvps    ymm5, ymm2, ymm9, ymm5
+	LONG $0x4a6dc3c4; WORD $0x60f2             // vblendvps    ymm6, ymm2, ymm10, ymm6
+	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_893
+	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
+	JE   LBB4_1351
+	JMP  LBB4_895
+
+LBB4_900:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc057f9c5               // vxorpd    xmm0, xmm0, xmm0
+	LONG $0x197de2c4; WORD $0x004d // vbroadcastsd    ymm1, qword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_901:
+	LONG $0x1c10fdc5; BYTE $0xf1               // vmovupd    ymm3, yword [rcx + 8*rsi]
+	LONG $0x6410fdc5; WORD $0x20f1             // vmovupd    ymm4, yword [rcx + 8*rsi + 32]
+	LONG $0x6c10fdc5; WORD $0x40f1             // vmovupd    ymm5, yword [rcx + 8*rsi + 64]
+	LONG $0x7410fdc5; WORD $0x60f1             // vmovupd    ymm6, yword [rcx + 8*rsi + 96]
+	LONG $0xf954e5c5                           // vandpd    ymm7, ymm3, ymm1
+	LONG $0xff56edc5                           // vorpd    ymm7, ymm2, ymm7
+	LONG $0xc1545dc5                           // vandpd    ymm8, ymm4, ymm1
+	LONG $0xc2563dc5                           // vorpd    ymm8, ymm8, ymm2
+	LONG $0xc95455c5                           // vandpd    ymm9, ymm5, ymm1
+	LONG $0xca5635c5                           // vorpd    ymm9, ymm9, ymm2
+	LONG $0xd1544dc5                           // vandpd    ymm10, ymm6, ymm1
+	LONG $0xd2562dc5                           // vorpd    ymm10, ymm10, ymm2
+	LONG $0xd8c2e5c5; BYTE $0x04               // vcmpneqpd    ymm3, ymm3, ymm0
+	LONG $0xdf54e5c5                           // vandpd    ymm3, ymm3, ymm7
+	LONG $0xe0c2ddc5; BYTE $0x04               // vcmpneqpd    ymm4, ymm4, ymm0
+	LONG $0xe454bdc5                           // vandpd    ymm4, ymm8, ymm4
+	LONG $0xe8c2d5c5; BYTE $0x04               // vcmpneqpd    ymm5, ymm5, ymm0
+	LONG $0xed54b5c5                           // vandpd    ymm5, ymm9, ymm5
+	LONG $0xf0c2cdc5; BYTE $0x04               // vcmpneqpd    ymm6, ymm6, ymm0
+	LONG $0xf654adc5                           // vandpd    ymm6, ymm10, ymm6
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_901
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_903
+
+LBB4_908:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
+	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_909:
+	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
+	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
+	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
+	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
+	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
+	LONG $0x227d62c4; BYTE $0xcf               // vpmovsxbq    ymm9, xmm7
+	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
+	LONG $0x227d62c4; BYTE $0xd1               // vpmovsxbq    ymm10, xmm1
+	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
+	LONG $0x227de2c4; BYTE $0xff               // vpmovsxbq    ymm7, xmm7
+	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x2179e2c4; BYTE $0xdb               // vpmovsxbd    xmm3, xmm3
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x2179e2c4; BYTE $0xe4               // vpmovsxbd    xmm4, xmm4
+	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x2179e2c4; BYTE $0xed               // vpmovsxbd    xmm5, xmm5
+	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
+	LONG $0x227de2c4; BYTE $0xc9               // vpmovsxbq    ymm1, xmm1
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x2179e2c4; BYTE $0xf6               // vpmovsxbd    xmm6, xmm6
+	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
+	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_909
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_911
+
+LBB4_914:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0             // and    edx, -16
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
+	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_915:
+	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
+	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
+	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
+	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x3179e2c4; BYTE $0xdb               // vpmovzxbd    xmm3, xmm3
+	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x3179e2c4; BYTE $0xe4               // vpmovzxbd    xmm4, xmm4
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0xe4e6fec5                           // vcvtdq2pd    ymm4, xmm4
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x3179e2c4; BYTE $0xed               // vpmovzxbd    xmm5, xmm5
+	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
+	LONG $0xede6fec5                           // vcvtdq2pd    ymm5, xmm5
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x3179e2c4; BYTE $0xf6               // vpmovzxbd    xmm6, xmm6
+	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
+	LONG $0xf6e6fec5                           // vcvtdq2pd    ymm6, xmm6
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_915
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_917
+
+LBB4_933:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0x556ff9c5; BYTE $0x50 // vmovdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_12] */
+
+LBB4_934:
+	LONG $0x1c76fdc5; BYTE $0xb1   // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi]
+	LONG $0xd9efe5c5               // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
+	LONG $0xdadbe1c5               // vpand    xmm3, xmm3, xmm2
+	LONG $0x6476fdc5; WORD $0x20b1 // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 32]
+	LONG $0xe1efddc5               // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5 // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
+	LONG $0x6c76fdc5; WORD $0x40b1 // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 64]
+	LONG $0xe2dbd9c5               // vpand    xmm4, xmm4, xmm2
+	LONG $0xe9efd5c5               // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5               // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
+	LONG $0xeadbd1c5               // vpand    xmm5, xmm5, xmm2
+	LONG $0x7476fdc5; WORD $0x60b1 // vpcmpeqd    ymm6, ymm0, yword [rcx + 4*rsi + 96]
+	LONG $0xf1efcdc5               // vpxor    ymm6, ymm6, ymm1
+	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
+	LONG $0xf2dbc9c5               // vpand    xmm6, xmm6, xmm2
+	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
+	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0xdd6ce5c5               // vpunpcklqdq    ymm3, ymm3, ymm5
+	LONG $0x00fde3c4; WORD $0xd8db // vpermq    ymm3, ymm3, 216
+	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
+	JNE  LBB4_934
+	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_936
+
+LBB4_940:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x597de2c4; WORD $0x0045 // vpbroadcastq    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x572941c4; BYTE $0xd2   // vxorpd    xmm10, xmm10, xmm10
+	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xef2141c4; BYTE $0xdb   // vpxor    xmm11, xmm11, xmm11
+
+LBB4_941:
+	LONG $0x3410fdc5; BYTE $0xf1   // vmovupd    ymm6, yword [rcx + 8*rsi]
+	LONG $0x7c10fdc5; WORD $0x20f1 // vmovupd    ymm7, yword [rcx + 8*rsi + 32]
+	LONG $0x44107dc5; WORD $0x40f1 // vmovupd    ymm8, yword [rcx + 8*rsi + 64]
+	LONG $0x4c107dc5; WORD $0x60f1 // vmovupd    ymm9, yword [rcx + 8*rsi + 96]
+	LONG $0xe6c2adc5; BYTE $0x00   // vcmpeqpd    ymm4, ymm10, ymm6
+	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0xe46359c5               // vpacksswb    xmm12, xmm4, xmm4
+	LONG $0xefc2adc5; BYTE $0x00   // vcmpeqpd    ymm5, ymm10, ymm7
+	LONG $0x197de3c4; WORD $0x01e9 // vextractf128    xmm1, ymm5, 1
+	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xe96371c5               // vpacksswb    xmm13, xmm1, xmm1
+	LONG $0xc23dc1c4; WORD $0x00ca // vcmpeqpd    ymm1, ymm8, ymm10
+	LONG $0x197de3c4; WORD $0x01cb // vextractf128    xmm3, ymm1, 1
+	LONG $0xcb6bf1c5               // vpackssdw    xmm1, xmm1, xmm3
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0xc235c1c4; WORD $0x00da // vcmpeqpd    ymm3, ymm9, ymm10
+	LONG $0x197de3c4; WORD $0x01dc // vextractf128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
+	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
+	LONG $0xe054cdc5               // vandpd    ymm4, ymm6, ymm0
+	LONG $0xe456edc5               // vorpd    ymm4, ymm2, ymm4
+	LONG $0xf054c5c5               // vandpd    ymm6, ymm7, ymm0
+	LONG $0xf656edc5               // vorpd    ymm6, ymm2, ymm6
+	LONG $0xf854bdc5               // vandpd    ymm7, ymm8, ymm0
+	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
+	LONG $0xc05435c5               // vandpd    ymm8, ymm9, ymm0
+	LONG $0xc2563dc5               // vorpd    ymm8, ymm8, ymm2
+	LONG $0xe4e6fdc5               // vcvttpd2dq    xmm4, ymm4
+	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
+	LONG $0xf6e6fdc5               // vcvttpd2dq    xmm6, ymm6
+	LONG $0xf66bc9c5               // vpackssdw    xmm6, xmm6, xmm6
+	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
+	LONG $0xffe6fdc5               // vcvttpd2dq    xmm7, ymm7
+	LONG $0xff6bc1c5               // vpackssdw    xmm7, xmm7, xmm7
+	LONG $0xff63c1c5               // vpacksswb    xmm7, xmm7, xmm7
+	LONG $0xe67dc1c4; BYTE $0xe8   // vcvttpd2dq    xmm5, ymm8
+	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
+	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
+	LONG $0x4c59c3c4; WORD $0xc0e3 // vpblendvb    xmm4, xmm4, xmm11, xmm12
+	LONG $0x4c49c3c4; WORD $0xd0f3 // vpblendvb    xmm6, xmm6, xmm11, xmm13
+	LONG $0x4c41c3c4; WORD $0x10cb // vpblendvb    xmm1, xmm7, xmm11, xmm1
+	LONG $0xe662d9c5               // vpunpckldq    xmm4, xmm4, xmm6
+	LONG $0x4c51c3c4; WORD $0x30db // vpblendvb    xmm3, xmm5, xmm11, xmm3
+	LONG $0xcb62f1c5               // vpunpckldq    xmm1, xmm1, xmm3
+	LONG $0xc96cd9c5               // vpunpcklqdq    xmm1, xmm4, xmm1
+	LONG $0x7f7ac1c4; WORD $0x300c // vmovdqu    oword [r8 + rsi], xmm1
+	LONG $0x10c68348               // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
+	JNE  LBB4_941
+	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_943
+
+LBB4_948:
+	WORD $0x8945; BYTE $0xd3 // mov    r11d, r10d
+	LONG $0x80e38341         // and    r11d, -128
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x000000e0956ffdc5 // vmovdqa    ymm2, yword 224[rbp] /* [rip + .LCPI4_20] */
+
+LBB4_949:
+	LONG $0x1c6ffec5; BYTE $0x31               // vmovdqu    ymm3, yword [rcx + rsi]
+	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
+	LONG $0x6c6ffec5; WORD $0x4031             // vmovdqu    ymm5, yword [rcx + rsi + 64]
+	LONG $0x746ffec5; WORD $0x6031             // vmovdqu    ymm6, yword [rcx + rsi + 96]
+	LONG $0xf874e5c5                           // vpcmpeqb    ymm7, ymm3, ymm0
+	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
+	LONG $0xc0745dc5                           // vpcmpeqb    ymm8, ymm4, ymm0
+	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
+	LONG $0xc87455c5                           // vpcmpeqb    ymm9, ymm5, ymm0
+	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
+	LONG $0xd0744dc5                           // vpcmpeqb    ymm10, ymm6, ymm0
+	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
+	LONG $0xdb64edc5                           // vpcmpgtb    ymm3, ymm2, ymm3
+	LONG $0xe464edc5                           // vpcmpgtb    ymm4, ymm2, ymm4
+	LONG $0xed64edc5                           // vpcmpgtb    ymm5, ymm2, ymm5
+	LONG $0xf664edc5                           // vpcmpgtb    ymm6, ymm2, ymm6
+	LONG $0x4c6de3c4; WORD $0x30df             // vpblendvb    ymm3, ymm2, ymm7, ymm3
+	LONG $0x4c6dc3c4; WORD $0x40e0             // vpblendvb    ymm4, ymm2, ymm8, ymm4
+	LONG $0x4c6dc3c4; WORD $0x50e9             // vpblendvb    ymm5, ymm2, ymm9, ymm5
+	LONG $0x4c6dc3c4; WORD $0x60f2             // vpblendvb    ymm6, ymm2, ymm10, ymm6
+	LONG $0x7f7ec1c4; WORD $0x301c             // vmovdqu    yword [r8 + rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x306c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0x3074; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm6
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB4_949
+	WORD $0x394d; BYTE $0xd3                   // cmp    r11, r10
+	JE   LBB4_1351
+	JMP  LBB4_951
+
+LBB4_956:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0x556ff9c5; BYTE $0x70 // vmovdqa    xmm2, oword 112[rbp] /* [rip + .LCPI4_17] */
+
+LBB4_957:
+	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
+	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xdb6be1c5                           // vpackssdw    xmm3, xmm3, xmm3
+	LONG $0xdb63e1c5                           // vpacksswb    xmm3, xmm3, xmm3
+	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
+	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
+	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0xe463d9c5                           // vpacksswb    xmm4, xmm4, xmm4
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
+	LONG $0xdc62e1c5                           // vpunpckldq    xmm3, xmm3, xmm4
+	LONG $0xe1efd5c5                           // vpxor    ymm4, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0xe463d9c5                           // vpacksswb    xmm4, xmm4, xmm4
+	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 96]
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xed6bd1c5                           // vpackssdw    xmm5, xmm5, xmm5
+	LONG $0xed63d1c5                           // vpacksswb    xmm5, xmm5, xmm5
+	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
+	LONG $0xe562d9c5                           // vpunpckldq    xmm4, xmm4, xmm5
+	LONG $0xdc6ce1c5                           // vpunpcklqdq    xmm3, xmm3, xmm4
+	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_957
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_959
+
+LBB4_963:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xc0 // and    edx, -64
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x00000080956ff9c5 // vmovdqa    xmm2, oword 128[rbp] /* [rip + .LCPI4_19] */
+
+LBB4_964:
+	LONG $0x1c75fdc5; BYTE $0x71               // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rsi]
+	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc63e1c5                           // vpacksswb    xmm3, xmm3, xmm4
+	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
+	LONG $0x6475fdc5; WORD $0x2071             // vpcmpeqw    ymm4, ymm0, yword [rcx + 2*rsi + 32]
+	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe563d9c5                           // vpacksswb    xmm4, xmm4, xmm5
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0x6c75fdc5; WORD $0x4071             // vpcmpeqw    ymm5, ymm0, yword [rcx + 2*rsi + 64]
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee63d1c5                           // vpacksswb    xmm5, xmm5, xmm6
+	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
+	LONG $0x7475fdc5; WORD $0x6071             // vpcmpeqw    ymm6, ymm0, yword [rcx + 2*rsi + 96]
+	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf763c9c5                           // vpacksswb    xmm6, xmm6, xmm7
+	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
+	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
+	LONG $0x7f7ac1c4; WORD $0x3064; BYTE $0x10 // vmovdqu    oword [r8 + rsi + 16], xmm4
+	LONG $0x7f7ac1c4; WORD $0x306c; BYTE $0x20 // vmovdqu    oword [r8 + rsi + 32], xmm5
+	LONG $0x7f7ac1c4; WORD $0x3074; BYTE $0x30 // vmovdqu    oword [r8 + rsi + 48], xmm6
+	LONG $0x40c68348                           // add    rsi, 64
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_964
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_966
+
+LBB4_970:
+	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
+	LONG $0xc0e38341             // and    r11d, -64
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763d41c4; BYTE $0xc0 // vpcmpeqd    ymm8, ymm8, ymm8
+	QUAD $0x000000808d6f79c5     // vmovdqa    xmm9, oword 128[rbp] /* [rip + .LCPI4_19] */
+
+LBB4_971:
+	LONG $0x246ffec5; BYTE $0x71               // vmovdqu    ymm4, yword [rcx + 2*rsi]
+	LONG $0x6c6ffec5; WORD $0x2071             // vmovdqu    ymm5, yword [rcx + 2*rsi + 32]
+	LONG $0x746ffec5; WORD $0x4071             // vmovdqu    ymm6, yword [rcx + 2*rsi + 64]
+	LONG $0x7c6ffec5; WORD $0x6071             // vmovdqu    ymm7, yword [rcx + 2*rsi + 96]
+	LONG $0xd865ddc5                           // vpcmpgtw    ymm3, ymm4, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xd16361c5                           // vpacksswb    xmm10, xmm3, xmm1
+	LONG $0xc865d5c5                           // vpcmpgtw    ymm1, ymm5, ymm0
+	LONG $0x397de3c4; WORD $0x01ca             // vextracti128    xmm2, ymm1, 1
+	LONG $0xda6371c5                           // vpacksswb    xmm11, xmm1, xmm2
+	LONG $0xd065cdc5                           // vpcmpgtw    ymm2, ymm6, ymm0
+	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
+	LONG $0xd363e9c5                           // vpacksswb    xmm2, xmm2, xmm3
+	LONG $0xd865c5c5                           // vpcmpgtw    ymm3, ymm7, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xc963e1c5                           // vpacksswb    xmm1, xmm3, xmm1
+	LONG $0xd875ddc5                           // vpcmpeqw    ymm3, ymm4, ymm0
+	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc63e1c5                           // vpacksswb    xmm3, xmm3, xmm4
+	LONG $0xe075d5c5                           // vpcmpeqw    ymm4, ymm5, ymm0
+	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe563d9c5                           // vpacksswb    xmm4, xmm4, xmm5
+	LONG $0xe875cdc5                           // vpcmpeqw    ymm5, ymm6, ymm0
+	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee63d1c5                           // vpacksswb    xmm5, xmm5, xmm6
+	LONG $0xf075c5c5                           // vpcmpeqw    ymm6, ymm7, ymm0
+	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf763c9c5                           // vpacksswb    xmm6, xmm6, xmm7
+	LONG $0x4c61c3c4; WORD $0xa0d9             // vpblendvb    xmm3, xmm3, xmm9, xmm10
+	LONG $0x4c59c3c4; WORD $0xb0e1             // vpblendvb    xmm4, xmm4, xmm9, xmm11
+	LONG $0x4c51c3c4; WORD $0x20d1             // vpblendvb    xmm2, xmm5, xmm9, xmm2
+	LONG $0x4c49c3c4; WORD $0x10c9             // vpblendvb    xmm1, xmm6, xmm9, xmm1
+	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
+	LONG $0x7f7ac1c4; WORD $0x3064; BYTE $0x10 // vmovdqu    oword [r8 + rsi + 16], xmm4
+	LONG $0x7f7ac1c4; WORD $0x3054; BYTE $0x20 // vmovdqu    oword [r8 + rsi + 32], xmm2
+	LONG $0x7f7ac1c4; WORD $0x304c; BYTE $0x30 // vmovdqu    oword [r8 + rsi + 48], xmm1
+	LONG $0x40c68348                           // add    rsi, 64
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB4_971
+	WORD $0x394d; BYTE $0xd3                   // cmp    r11, r10
+	JE   LBB4_1351
+	JMP  LBB4_973
+
+LBB4_978:
+	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
+	LONG $0xf0e38341             // and    r11d, -16
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
+	LONG $0x5d6f79c5; BYTE $0x70 // vmovdqa    xmm11, oword 112[rbp] /* [rip + .LCPI4_17] */
+
+LBB4_979:
+	LONG $0x146f7ec5; BYTE $0xf1   // vmovdqu    ymm10, yword [rcx + 8*rsi]
+	LONG $0x446f7ec5; WORD $0x20f1 // vmovdqu    ymm8, yword [rcx + 8*rsi + 32]
+	LONG $0x746ffec5; WORD $0x40f1 // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
+	LONG $0x646ffec5; WORD $0x60f1 // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
+	LONG $0x372de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm10, ymm0
+	LONG $0x397de3c4; WORD $0x01cb // vextracti128    xmm3, ymm1, 1
+	LONG $0xcb6bf1c5               // vpackssdw    xmm1, xmm1, xmm3
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xe16371c5               // vpacksswb    xmm12, xmm1, xmm1
+	LONG $0x373de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm8, ymm0
+	LONG $0x397de3c4; WORD $0x01cd // vextracti128    xmm5, ymm1, 1
+	LONG $0xcd6bf1c5               // vpackssdw    xmm1, xmm1, xmm5
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xe96371c5               // vpacksswb    xmm13, xmm1, xmm1
+	LONG $0x374de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm6, ymm0
+	LONG $0x397de3c4; WORD $0x01cf // vextracti128    xmm7, ymm1, 1
+	LONG $0xcf6bf1c5               // vpackssdw    xmm1, xmm1, xmm7
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xf963f1c5               // vpacksswb    xmm7, xmm1, xmm1
+	LONG $0x375de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm4, ymm0
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0x292de2c4; BYTE $0xd0   // vpcmpeqq    ymm2, ymm10, ymm0
+	LONG $0xd2efb5c5               // vpxor    ymm2, ymm9, ymm2
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
+	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
+	LONG $0x293de2c4; BYTE $0xd8   // vpcmpeqq    ymm3, ymm8, ymm0
+	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
+	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
+	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
+	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
+	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
+	LONG $0x294de2c4; BYTE $0xe8   // vpcmpeqq    ymm5, ymm6, ymm0
+	LONG $0xedefb5c5               // vpxor    ymm5, ymm9, ymm5
+	LONG $0x397de3c4; WORD $0x01ee // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5               // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
+	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
+	LONG $0x295de2c4; BYTE $0xe0   // vpcmpeqq    ymm4, ymm4, ymm0
+	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
+	LONG $0x397de3c4; WORD $0x01e6 // vextracti128    xmm6, ymm4, 1
+	LONG $0xe66bd9c5               // vpackssdw    xmm4, xmm4, xmm6
+	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
+	LONG $0x4c69c3c4; WORD $0xc0d3 // vpblendvb    xmm2, xmm2, xmm11, xmm12
+	LONG $0x4c61c3c4; WORD $0xd0db // vpblendvb    xmm3, xmm3, xmm11, xmm13
+	LONG $0x4c51c3c4; WORD $0x70eb // vpblendvb    xmm5, xmm5, xmm11, xmm7
+	LONG $0xd362e9c5               // vpunpckldq    xmm2, xmm2, xmm3
+	LONG $0x4c59c3c4; WORD $0x10cb // vpblendvb    xmm1, xmm4, xmm11, xmm1
+	LONG $0xc962d1c5               // vpunpckldq    xmm1, xmm5, xmm1
+	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
+	LONG $0x7f7ac1c4; WORD $0x300c // vmovdqu    oword [r8 + rsi], xmm1
+	LONG $0x10c68348               // add    rsi, 16
+	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
+	JNE  LBB4_979
+	WORD $0x394d; BYTE $0xd3       // cmp    r11, r10
+	JE   LBB4_1351
+	JMP  LBB4_981
+
+LBB4_986:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x571841c4; BYTE $0xe4 // vxorps    xmm12, xmm12, xmm12
+	LONG $0x761541c4; BYTE $0xed // vpcmpeqd    ymm13, ymm13, ymm13
+	LONG $0x756f79c5; BYTE $0x50 // vmovdqa    xmm14, oword 80[rbp] /* [rip + .LCPI4_12] */
+	LONG $0x760141c4; BYTE $0xff // vpcmpeqd    xmm15, xmm15, xmm15
+
+LBB4_987:
+	LONG $0x0c107cc5; BYTE $0xb1   // vmovups    ymm9, yword [rcx + 4*rsi]
+	LONG $0x54107cc5; WORD $0x20b1 // vmovups    ymm10, yword [rcx + 4*rsi + 32]
+	LONG $0x5c107cc5; WORD $0x40b1 // vmovups    ymm11, yword [rcx + 4*rsi + 64]
+	LONG $0x7c10fcc5; WORD $0x60b1 // vmovups    ymm7, yword [rcx + 4*rsi + 96]
+	LONG $0xc234c1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm9, ymm12
+	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xc46359c5               // vpacksswb    xmm8, xmm4, xmm4
+	LONG $0xc22cc1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm10, ymm12
+	LONG $0x197de3c4; WORD $0x01e6 // vextractf128    xmm6, ymm4, 1
+	LONG $0xe66bd9c5               // vpackssdw    xmm4, xmm4, xmm6
+	LONG $0xf463d9c5               // vpacksswb    xmm6, xmm4, xmm4
+	LONG $0xc224c1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm11, ymm12
+	LONG $0x197de3c4; WORD $0x01e0 // vextractf128    xmm0, ymm4, 1
+	LONG $0xc06bd9c5               // vpackssdw    xmm0, xmm4, xmm0
+	LONG $0xe063f9c5               // vpacksswb    xmm4, xmm0, xmm0
+	LONG $0xc7c29cc5; BYTE $0x00   // vcmpeqps    ymm0, ymm12, ymm7
+	LONG $0x197de3c4; WORD $0x01c1 // vextractf128    xmm1, ymm0, 1
+	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
+	LONG $0xc063f9c5               // vpacksswb    xmm0, xmm0, xmm0
+	LONG $0x6635c1c4; BYTE $0xcd   // vpcmpgtd    ymm1, ymm9, ymm13
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
+	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0x662dc1c4; BYTE $0xd5   // vpcmpgtd    ymm2, ymm10, ymm13
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
+	LONG $0x6625c1c4; BYTE $0xdd   // vpcmpgtd    ymm3, ymm11, ymm13
+	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
+	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
+	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
+	LONG $0x6645c1c4; BYTE $0xed   // vpcmpgtd    ymm5, ymm7, ymm13
+	LONG $0x397de3c4; WORD $0x01ef // vextracti128    xmm7, ymm5, 1
+	LONG $0xef6bd1c5               // vpackssdw    xmm5, xmm5, xmm7
+	LONG $0x4c01c3c4; WORD $0x10ce // vpblendvb    xmm1, xmm15, xmm14, xmm1
+	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
+	LONG $0xc9dfb9c5               // vpandn    xmm1, xmm8, xmm1
+	LONG $0x4c01c3c4; WORD $0x20d6 // vpblendvb    xmm2, xmm15, xmm14, xmm2
+	LONG $0x4c01c3c4; WORD $0x30de // vpblendvb    xmm3, xmm15, xmm14, xmm3
+	LONG $0x4c01c3c4; WORD $0x50ee // vpblendvb    xmm5, xmm15, xmm14, xmm5
+	LONG $0xffefc1c5               // vpxor    xmm7, xmm7, xmm7
+	LONG $0x4c69e3c4; WORD $0x60d7 // vpblendvb    xmm2, xmm2, xmm7, xmm6
+	LONG $0x4c51e3c4; WORD $0x00c7 // vpblendvb    xmm0, xmm5, xmm7, xmm0
+	LONG $0xdbdfd9c5               // vpandn    xmm3, xmm4, xmm3
+	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
+	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
+	LONG $0x7f7ec1c4; WORD $0x3004 // vmovdqu    yword [r8 + rsi], ymm0
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
+	JNE  LBB4_987
+	WORD $0x394c; BYTE $0xd2       // cmp    rdx, r10
+	JE   LBB4_1351
+	JMP  LBB4_989
+
+LBB4_994:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0x80 // and    edx, -128
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	QUAD $0x000000e08d6ffdc5 // vmovdqa    ymm1, yword 224[rbp] /* [rip + .LCPI4_20] */
+
+LBB4_995:
+	LONG $0x1474fdc5; BYTE $0x31               // vpcmpeqb    ymm2, ymm0, yword [rcx + rsi]
+	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
+	LONG $0x5c74fdc5; WORD $0x2031             // vpcmpeqb    ymm3, ymm0, yword [rcx + rsi + 32]
+	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
+	LONG $0x6474fdc5; WORD $0x4031             // vpcmpeqb    ymm4, ymm0, yword [rcx + rsi + 64]
+	LONG $0x6c74fdc5; WORD $0x6031             // vpcmpeqb    ymm5, ymm0, yword [rcx + rsi + 96]
+	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
+	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
+	LONG $0x7f7ec1c4; WORD $0x3014             // vmovdqu    yword [r8 + rsi], ymm2
+	LONG $0x7f7ec1c4; WORD $0x305c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0x306c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm5
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_995
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_997
+
+LBB4_1001:
+	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
+	LONG $0xe0e38341             // and    r11d, -32
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
+	LONG $0x556f79c5; BYTE $0x50 // vmovdqa    xmm10, oword 80[rbp] /* [rip + .LCPI4_12] */
+
+LBB4_1002:
+	LONG $0x3c6ffec5; BYTE $0xb1   // vmovdqu    ymm7, yword [rcx + 4*rsi]
+	LONG $0x446f7ec5; WORD $0x20b1 // vmovdqu    ymm8, yword [rcx + 4*rsi + 32]
+	LONG $0x746ffec5; WORD $0x40b1 // vmovdqu    ymm6, yword [rcx + 4*rsi + 64]
+	LONG $0x646ffec5; WORD $0x60b1 // vmovdqu    ymm4, yword [rcx + 4*rsi + 96]
+	LONG $0xd866c5c5               // vpcmpgtd    ymm3, ymm7, ymm0
+	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
+	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
+	LONG $0xdb6361c5               // vpacksswb    xmm11, xmm3, xmm3
+	LONG $0xe866bdc5               // vpcmpgtd    ymm5, ymm8, ymm0
+	LONG $0x397de3c4; WORD $0x01e9 // vextracti128    xmm1, ymm5, 1
+	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
+	LONG $0xe16371c5               // vpacksswb    xmm12, xmm1, xmm1
+	LONG $0xc866cdc5               // vpcmpgtd    ymm1, ymm6, ymm0
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
+	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0xd066ddc5               // vpcmpgtd    ymm2, ymm4, ymm0
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
+	LONG $0xd876c5c5               // vpcmpeqd    ymm3, ymm7, ymm0
+	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
+	LONG $0x397de3c4; WORD $0x01df // vextracti128    xmm7, ymm3, 1
+	LONG $0xdf6be1c5               // vpackssdw    xmm3, xmm3, xmm7
+	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
+	LONG $0xf876bdc5               // vpcmpeqd    ymm7, ymm8, ymm0
+	LONG $0xffefb5c5               // vpxor    ymm7, ymm9, ymm7
+	LONG $0x397de3c4; WORD $0x01fd // vextracti128    xmm5, ymm7, 1
+	LONG $0xed6bc1c5               // vpackssdw    xmm5, xmm7, xmm5
+	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
+	LONG $0xf076cdc5               // vpcmpeqd    ymm6, ymm6, ymm0
+	LONG $0xf6efb5c5               // vpxor    ymm6, ymm9, ymm6
+	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
+	LONG $0xe076ddc5               // vpcmpeqd    ymm4, ymm4, ymm0
+	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
+	LONG $0x397de3c4; WORD $0x01e7 // vextracti128    xmm7, ymm4, 1
+	LONG $0xe76bd9c5               // vpackssdw    xmm4, xmm4, xmm7
+	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
+	LONG $0x4c61c3c4; WORD $0xb0da // vpblendvb    xmm3, xmm3, xmm10, xmm11
+	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
+	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
+	LONG $0x4c59c3c4; WORD $0x20d2 // vpblendvb    xmm2, xmm4, xmm10, xmm2
+	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0x3865e3c4; WORD $0x01d5 // vinserti128    ymm2, ymm3, xmm5, 1
+	LONG $0xc96cedc5               // vpunpcklqdq    ymm1, ymm2, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
+	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
+	JNE  LBB4_1002
+	WORD $0x394d; BYTE $0xd3       // cmp    r11, r10
+	JE   LBB4_1351
+	JMP  LBB4_1004
+
+LBB4_1009:
+	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
+	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_1010:
+	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
+	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
+	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
+	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
+	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
+	LONG $0x227d62c4; BYTE $0xcf               // vpmovsxbq    ymm9, xmm7
+	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
+	LONG $0x227d62c4; BYTE $0xd1               // vpmovsxbq    ymm10, xmm1
+	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
+	LONG $0x227de2c4; BYTE $0xff               // vpmovsxbq    ymm7, xmm7
+	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
+	LONG $0x227de2c4; BYTE $0xc9               // vpmovsxbq    ymm1, xmm1
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x227de2c4; BYTE $0xdb               // vpmovsxbq    ymm3, xmm3
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x227de2c4; BYTE $0xe4               // vpmovsxbq    ymm4, xmm4
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x227de2c4; BYTE $0xed               // vpmovsxbq    ymm5, xmm5
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x227de2c4; BYTE $0xf6               // vpmovsxbq    ymm6, xmm6
+	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1010
+	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
+	JE   LBB4_1351
+	JMP  LBB4_1012
+
+LBB4_1017:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x597de2c4; WORD $0x284d // vpbroadcastq    ymm1, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_1018:
+	LONG $0x297de2c4; WORD $0xf114             // vpcmpeqq    ymm2, ymm0, yword [rcx + 8*rsi]
+	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
+	LONG $0x297de2c4; WORD $0xf15c; BYTE $0x20 // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi + 32]
+	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
+	LONG $0x297de2c4; WORD $0xf164; BYTE $0x40 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 64]
+	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 96]
+	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
+	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
+	LONG $0x7f7ec1c4; WORD $0xf014             // vmovdqu    yword [r8 + 8*rsi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf05c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm5
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1018
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1020
+
+LBB4_1024:
+	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_1025:
+	LONG $0x1c6ffec5; BYTE $0xf1               // vmovdqu    ymm3, yword [rcx + 8*rsi]
+	LONG $0x646ffec5; WORD $0x20f1             // vmovdqu    ymm4, yword [rcx + 8*rsi + 32]
+	LONG $0x6c6ffec5; WORD $0x40f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 64]
+	LONG $0x746ffec5; WORD $0x60f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 96]
+	LONG $0x2965e2c4; BYTE $0xf8               // vpcmpeqq    ymm7, ymm3, ymm0
+	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
+	LONG $0x295d62c4; BYTE $0xc0               // vpcmpeqq    ymm8, ymm4, ymm0
+	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
+	LONG $0x295562c4; BYTE $0xc8               // vpcmpeqq    ymm9, ymm5, ymm0
+	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
+	LONG $0x294d62c4; BYTE $0xd0               // vpcmpeqq    ymm10, ymm6, ymm0
+	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
+	LONG $0x376de2c4; BYTE $0xdb               // vpcmpgtq    ymm3, ymm2, ymm3
+	LONG $0x376de2c4; BYTE $0xe4               // vpcmpgtq    ymm4, ymm2, ymm4
+	LONG $0x376de2c4; BYTE $0xed               // vpcmpgtq    ymm5, ymm2, ymm5
+	LONG $0x376de2c4; BYTE $0xf6               // vpcmpgtq    ymm6, ymm2, ymm6
+	LONG $0x4b6de3c4; WORD $0x30df             // vblendvpd    ymm3, ymm2, ymm7, ymm3
+	LONG $0x4b6dc3c4; WORD $0x40e0             // vblendvpd    ymm4, ymm2, ymm8, ymm4
+	LONG $0x4b6dc3c4; WORD $0x50e9             // vblendvpd    ymm5, ymm2, ymm9, ymm5
+	LONG $0x4b6dc3c4; WORD $0x60f2             // vblendvpd    ymm6, ymm2, ymm10, ymm6
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1025
+	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
+	JE   LBB4_1351
+	JMP  LBB4_1027
+
+LBB4_1032:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
+	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_1033:
+	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
+	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
+	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
+	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x327de2c4; BYTE $0xdb               // vpmovzxbq    ymm3, xmm3
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x327de2c4; BYTE $0xe4               // vpmovzxbq    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x327de2c4; BYTE $0xed               // vpmovzxbq    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x327de2c4; BYTE $0xf6               // vpmovzxbq    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1033
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1035
+
+LBB4_1039:
+	WORD $0x8944; BYTE $0xda     // mov    edx, r11d
+	WORD $0xe283; BYTE $0xc0     // and    edx, -64
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0 // vpcmpeqd    xmm8, xmm8, xmm8
+	QUAD $0x000000c08d6f7dc5     // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI4_18] */
+
+LBB4_1040:
+	LONG $0x1c6ffac5; BYTE $0x31               // vmovdqu    xmm3, oword [rcx + rsi]
+	LONG $0x646ffac5; WORD $0x1031             // vmovdqu    xmm4, oword [rcx + rsi + 16]
+	LONG $0x6c6ffac5; WORD $0x2031             // vmovdqu    xmm5, oword [rcx + rsi + 32]
+	LONG $0x746ffac5; WORD $0x3031             // vmovdqu    xmm6, oword [rcx + rsi + 48]
+	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
+	LONG $0x207d62c4; BYTE $0xd7               // vpmovsxbw    ymm10, xmm7
+	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
+	LONG $0x207de2c4; BYTE $0xc9               // vpmovsxbw    ymm1, xmm1
+	LONG $0xd064d1c5                           // vpcmpgtb    xmm2, xmm5, xmm0
+	LONG $0x207de2c4; BYTE $0xd2               // vpmovsxbw    ymm2, xmm2
+	LONG $0xf864c9c5                           // vpcmpgtb    xmm7, xmm6, xmm0
+	LONG $0x207de2c4; BYTE $0xff               // vpmovsxbw    ymm7, xmm7
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x207de2c4; BYTE $0xdb               // vpmovsxbw    ymm3, xmm3
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x207de2c4; BYTE $0xe4               // vpmovsxbw    ymm4, xmm4
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x207de2c4; BYTE $0xed               // vpmovsxbw    ymm5, xmm5
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x207de2c4; BYTE $0xf6               // vpmovsxbw    ymm6, xmm6
+	LONG $0x4c65c3c4; WORD $0xa0d9             // vpblendvb    ymm3, ymm3, ymm9, ymm10
+	LONG $0x4c5dc3c4; WORD $0x10c9             // vpblendvb    ymm1, ymm4, ymm9, ymm1
+	LONG $0x4c55c3c4; WORD $0x20d1             // vpblendvb    ymm2, ymm5, ymm9, ymm2
+	LONG $0x4c4dc3c4; WORD $0x70e1             // vpblendvb    ymm4, ymm6, ymm9, ymm7
+	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0x704c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm4
+	LONG $0x40c68348                           // add    rsi, 64
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1040
+	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
+	JE   LBB4_1351
+	JMP  LBB4_1042
+
+LBB4_1047:
+	WORD $0x8944; BYTE $0xda     // mov    edx, r11d
+	WORD $0xe283; BYTE $0xc0     // and    edx, -64
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0 // vpcmpeqd    xmm8, xmm8, xmm8
+	QUAD $0x000000c08d6f7dc5     // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI4_18] */
+
+LBB4_1048:
+	LONG $0x1c6ffac5; BYTE $0x31               // vmovdqu    xmm3, oword [rcx + rsi]
+	LONG $0x646ffac5; WORD $0x1031             // vmovdqu    xmm4, oword [rcx + rsi + 16]
+	LONG $0x6c6ffac5; WORD $0x2031             // vmovdqu    xmm5, oword [rcx + rsi + 32]
+	LONG $0x746ffac5; WORD $0x3031             // vmovdqu    xmm6, oword [rcx + rsi + 48]
+	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
+	LONG $0x207d62c4; BYTE $0xd7               // vpmovsxbw    ymm10, xmm7
+	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
+	LONG $0x207de2c4; BYTE $0xc9               // vpmovsxbw    ymm1, xmm1
+	LONG $0xd064d1c5                           // vpcmpgtb    xmm2, xmm5, xmm0
+	LONG $0x207de2c4; BYTE $0xd2               // vpmovsxbw    ymm2, xmm2
+	LONG $0xf864c9c5                           // vpcmpgtb    xmm7, xmm6, xmm0
+	LONG $0x207de2c4; BYTE $0xff               // vpmovsxbw    ymm7, xmm7
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x207de2c4; BYTE $0xdb               // vpmovsxbw    ymm3, xmm3
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x207de2c4; BYTE $0xe4               // vpmovsxbw    ymm4, xmm4
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x207de2c4; BYTE $0xed               // vpmovsxbw    ymm5, xmm5
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x207de2c4; BYTE $0xf6               // vpmovsxbw    ymm6, xmm6
+	LONG $0x4c65c3c4; WORD $0xa0d9             // vpblendvb    ymm3, ymm3, ymm9, ymm10
+	LONG $0x4c5dc3c4; WORD $0x10c9             // vpblendvb    ymm1, ymm4, ymm9, ymm1
+	LONG $0x4c55c3c4; WORD $0x20d1             // vpblendvb    ymm2, ymm5, ymm9, ymm2
+	LONG $0x4c4dc3c4; WORD $0x70e1             // vpblendvb    ymm4, ymm6, ymm9, ymm7
+	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0x704c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm4
+	LONG $0x40c68348                           // add    rsi, 64
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1048
+	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
+	JE   LBB4_1351
+	JMP  LBB4_1050
+
+LBB4_1055:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0 // and    edx, -32
+	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1317
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	QUAD $0x000000c08d6ffdc5 // vmovdqa    ymm1, yword 192[rbp] /* [rip + .LCPI4_18] */
+
+LBB4_1057:
+	LONG $0x1475fdc5; BYTE $0x79               // vpcmpeqw    ymm2, ymm0, yword [rcx + 2*rdi]
+	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
+	LONG $0x5c75fdc5; WORD $0x2079             // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
+	LONG $0x7f7ec1c4; WORD $0x7814             // vmovdqu    yword [r8 + 2*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm3
+	LONG $0x5475fdc5; WORD $0x4079             // vpcmpeqw    ymm2, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
+	LONG $0x5c75fdc5; WORD $0x6079             // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB4_1057
+	JMP  LBB4_1318
+
+LBB4_1058:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0 // and    edx, -32
+	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1325
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	QUAD $0x000000c08d6ffdc5 // vmovdqa    ymm1, yword 192[rbp] /* [rip + .LCPI4_18] */
+
+LBB4_1060:
+	LONG $0x1475fdc5; BYTE $0x79               // vpcmpeqw    ymm2, ymm0, yword [rcx + 2*rdi]
+	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
+	LONG $0x5c75fdc5; WORD $0x2079             // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
+	LONG $0x7f7ec1c4; WORD $0x7814             // vmovdqu    yword [r8 + 2*rdi], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm3
+	LONG $0x5475fdc5; WORD $0x4079             // vpcmpeqw    ymm2, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
+	LONG $0x5c75fdc5; WORD $0x6079             // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB4_1060
+	JMP  LBB4_1326
+
+LBB4_1061:
+	WORD $0x8944; BYTE $0xda // mov    edx, r11d
+	WORD $0xe283; BYTE $0xe0 // and    edx, -32
+	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1333
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x000000c0956ffdc5 // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
+
+LBB4_1063:
+	LONG $0x1c6ffec5; BYTE $0x71               // vmovdqu    ymm3, yword [rcx + 2*rsi]
+	LONG $0x646ffec5; WORD $0x2071             // vmovdqu    ymm4, yword [rcx + 2*rsi + 32]
+	LONG $0xe875e5c5                           // vpcmpeqw    ymm5, ymm3, ymm0
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0xf075ddc5                           // vpcmpeqw    ymm6, ymm4, ymm0
+	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
+	LONG $0xdb65edc5                           // vpcmpgtw    ymm3, ymm2, ymm3
+	LONG $0xe465edc5                           // vpcmpgtw    ymm4, ymm2, ymm4
+	LONG $0x4c6de3c4; WORD $0x30dd             // vpblendvb    ymm3, ymm2, ymm5, ymm3
+	LONG $0x4c6de3c4; WORD $0x40e6             // vpblendvb    ymm4, ymm2, ymm6, ymm4
+	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm4
+	LONG $0x5c6ffec5; WORD $0x4071             // vmovdqu    ymm3, yword [rcx + 2*rsi + 64]
+	LONG $0x646ffec5; WORD $0x6071             // vmovdqu    ymm4, yword [rcx + 2*rsi + 96]
+	LONG $0xe875e5c5                           // vpcmpeqw    ymm5, ymm3, ymm0
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0xf075ddc5                           // vpcmpeqw    ymm6, ymm4, ymm0
+	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
+	LONG $0xdb65edc5                           // vpcmpgtw    ymm3, ymm2, ymm3
+	LONG $0xe465edc5                           // vpcmpgtw    ymm4, ymm2, ymm4
+	LONG $0x4c6de3c4; WORD $0x30dd             // vpblendvb    ymm3, ymm2, ymm5, ymm3
+	LONG $0x4c6de3c4; WORD $0x40e6             // vpblendvb    ymm4, ymm2, ymm6, ymm4
+	LONG $0x7f7ec1c4; WORD $0x705c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm4
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_1063
+	JMP  LBB4_1334
+
+LBB4_1064:
+	WORD $0x8944; BYTE $0xda // mov    edx, r11d
+	WORD $0xe283; BYTE $0xe0 // and    edx, -32
+	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1342
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x000000c0956ffdc5 // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
+
+LBB4_1066:
+	LONG $0x1c6ffec5; BYTE $0x71               // vmovdqu    ymm3, yword [rcx + 2*rsi]
+	LONG $0x646ffec5; WORD $0x2071             // vmovdqu    ymm4, yword [rcx + 2*rsi + 32]
+	LONG $0xe875e5c5                           // vpcmpeqw    ymm5, ymm3, ymm0
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0xf075ddc5                           // vpcmpeqw    ymm6, ymm4, ymm0
+	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
+	LONG $0xdb65edc5                           // vpcmpgtw    ymm3, ymm2, ymm3
+	LONG $0xe465edc5                           // vpcmpgtw    ymm4, ymm2, ymm4
+	LONG $0x4c6de3c4; WORD $0x30dd             // vpblendvb    ymm3, ymm2, ymm5, ymm3
+	LONG $0x4c6de3c4; WORD $0x40e6             // vpblendvb    ymm4, ymm2, ymm6, ymm4
+	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm4
+	LONG $0x5c6ffec5; WORD $0x4071             // vmovdqu    ymm3, yword [rcx + 2*rsi + 64]
+	LONG $0x646ffec5; WORD $0x6071             // vmovdqu    ymm4, yword [rcx + 2*rsi + 96]
+	LONG $0xe875e5c5                           // vpcmpeqw    ymm5, ymm3, ymm0
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0xf075ddc5                           // vpcmpeqw    ymm6, ymm4, ymm0
+	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
+	LONG $0xdb65edc5                           // vpcmpgtw    ymm3, ymm2, ymm3
+	LONG $0xe465edc5                           // vpcmpgtw    ymm4, ymm2, ymm4
+	LONG $0x4c6de3c4; WORD $0x30dd             // vpblendvb    ymm3, ymm2, ymm5, ymm3
+	LONG $0x4c6de3c4; WORD $0x40e6             // vpblendvb    ymm4, ymm2, ymm6, ymm4
+	LONG $0x7f7ec1c4; WORD $0x705c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm4
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_1066
+	JMP  LBB4_1343
+
+LBB4_1067:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xc0 // and    edx, -64
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5         // vpcmpeqd    xmm1, xmm1, xmm1
+	QUAD $0x000000c0956ffdc5 // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
+
+LBB4_1068:
+	LONG $0x1c74f9c5; BYTE $0x31               // vpcmpeqb    xmm3, xmm0, oword [rcx + rsi]
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x307de2c4; BYTE $0xdb               // vpmovzxbw    ymm3, xmm3
+	LONG $0x6474f9c5; WORD $0x1031             // vpcmpeqb    xmm4, xmm0, oword [rcx + rsi + 16]
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x307de2c4; BYTE $0xe4               // vpmovzxbw    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0x6c74f9c5; WORD $0x2031             // vpcmpeqb    xmm5, xmm0, oword [rcx + rsi + 32]
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x307de2c4; BYTE $0xed               // vpmovzxbw    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0x7474f9c5; WORD $0x3031             // vpcmpeqb    xmm6, xmm0, oword [rcx + rsi + 48]
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x307de2c4; BYTE $0xf6               // vpmovzxbw    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x706c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0x7074; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm6
+	LONG $0x40c68348                           // add    rsi, 64
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1068
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1070
+
+LBB4_1074:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xc0 // and    edx, -64
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5         // vpcmpeqd    xmm1, xmm1, xmm1
+	QUAD $0x000000c0956ffdc5 // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
+
+LBB4_1075:
+	LONG $0x1c74f9c5; BYTE $0x31               // vpcmpeqb    xmm3, xmm0, oword [rcx + rsi]
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x307de2c4; BYTE $0xdb               // vpmovzxbw    ymm3, xmm3
+	LONG $0x6474f9c5; WORD $0x1031             // vpcmpeqb    xmm4, xmm0, oword [rcx + rsi + 16]
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x307de2c4; BYTE $0xe4               // vpmovzxbw    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0x6c74f9c5; WORD $0x2031             // vpcmpeqb    xmm5, xmm0, oword [rcx + rsi + 32]
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x307de2c4; BYTE $0xed               // vpmovzxbw    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0x7474f9c5; WORD $0x3031             // vpcmpeqb    xmm6, xmm0, oword [rcx + rsi + 48]
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x307de2c4; BYTE $0xf6               // vpmovzxbw    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0x7f7ec1c4; WORD $0x701c             // vmovdqu    yword [r8 + 2*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0x7064; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x706c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0x7074; BYTE $0x60 // vmovdqu    yword [r8 + 2*rsi + 96], ymm6
+	LONG $0x40c68348                           // add    rsi, 64
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1075
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1077
+
+LBB4_1081:
+	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0   // vpcmpeqd    xmm8, xmm8, xmm8
+	LONG $0x197de2c4; WORD $0x2855 // vbroadcastsd    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_1082:
+	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
+	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
+	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
+	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
+	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
+	LONG $0x227d62c4; BYTE $0xcf               // vpmovsxbq    ymm9, xmm7
+	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
+	LONG $0x227d62c4; BYTE $0xd1               // vpmovsxbq    ymm10, xmm1
+	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
+	LONG $0x227de2c4; BYTE $0xff               // vpmovsxbq    ymm7, xmm7
+	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
+	LONG $0x227de2c4; BYTE $0xc9               // vpmovsxbq    ymm1, xmm1
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x227de2c4; BYTE $0xdb               // vpmovsxbq    ymm3, xmm3
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x227de2c4; BYTE $0xe4               // vpmovsxbq    ymm4, xmm4
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x227de2c4; BYTE $0xed               // vpmovsxbq    ymm5, xmm5
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x227de2c4; BYTE $0xf6               // vpmovsxbq    ymm6, xmm6
+	LONG $0x4b65e3c4; WORD $0x90da             // vblendvpd    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4b5de3c4; WORD $0xa0e2             // vblendvpd    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4b55e3c4; WORD $0x70ea             // vblendvpd    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4b4de3c4; WORD $0x10ca             // vblendvpd    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1082
+	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
+	JE   LBB4_1351
+	JMP  LBB4_1084
+
+LBB4_1089:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
+	QUAD $0x00009895187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 152[rbp] /* [rip + .LCPI4_5] */
+
+LBB4_1090:
+	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
+	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
+	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
+	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
+	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
+	LONG $0x217d62c4; BYTE $0xcf               // vpmovsxbd    ymm9, xmm7
+	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
+	LONG $0x217d62c4; BYTE $0xd1               // vpmovsxbd    ymm10, xmm1
+	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
+	LONG $0x217de2c4; BYTE $0xff               // vpmovsxbd    ymm7, xmm7
+	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
+	LONG $0x217de2c4; BYTE $0xc9               // vpmovsxbd    ymm1, xmm1
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x217de2c4; BYTE $0xdb               // vpmovsxbd    ymm3, xmm3
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x217de2c4; BYTE $0xe4               // vpmovsxbd    ymm4, xmm4
+	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x217de2c4; BYTE $0xed               // vpmovsxbd    ymm5, xmm5
+	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x217de2c4; BYTE $0xf6               // vpmovsxbd    ymm6, xmm6
+	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
+	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1090
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1092
+
+LBB4_1095:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0x597de2c4; WORD $0x284d // vpbroadcastq    ymm1, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_1096:
+	LONG $0x297de2c4; WORD $0xf114             // vpcmpeqq    ymm2, ymm0, yword [rcx + 8*rsi]
+	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
+	LONG $0x297de2c4; WORD $0xf15c; BYTE $0x20 // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi + 32]
+	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
+	LONG $0x297de2c4; WORD $0xf164; BYTE $0x40 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 64]
+	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 96]
+	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
+	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
+	LONG $0x7f7ec1c4; WORD $0xf014             // vmovdqu    yword [r8 + 8*rsi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf05c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm5
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1096
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1098
+
+LBB4_1102:
+	WORD $0x8944; BYTE $0xda       // mov    edx, r11d
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5               // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_1103:
+	LONG $0x1c6ffec5; BYTE $0xf1               // vmovdqu    ymm3, yword [rcx + 8*rsi]
+	LONG $0x646ffec5; WORD $0x20f1             // vmovdqu    ymm4, yword [rcx + 8*rsi + 32]
+	LONG $0x6c6ffec5; WORD $0x40f1             // vmovdqu    ymm5, yword [rcx + 8*rsi + 64]
+	LONG $0x746ffec5; WORD $0x60f1             // vmovdqu    ymm6, yword [rcx + 8*rsi + 96]
+	LONG $0x2965e2c4; BYTE $0xf8               // vpcmpeqq    ymm7, ymm3, ymm0
+	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
+	LONG $0x295d62c4; BYTE $0xc0               // vpcmpeqq    ymm8, ymm4, ymm0
+	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
+	LONG $0x295562c4; BYTE $0xc8               // vpcmpeqq    ymm9, ymm5, ymm0
+	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
+	LONG $0x294d62c4; BYTE $0xd0               // vpcmpeqq    ymm10, ymm6, ymm0
+	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
+	LONG $0x376de2c4; BYTE $0xdb               // vpcmpgtq    ymm3, ymm2, ymm3
+	LONG $0x376de2c4; BYTE $0xe4               // vpcmpgtq    ymm4, ymm2, ymm4
+	LONG $0x376de2c4; BYTE $0xed               // vpcmpgtq    ymm5, ymm2, ymm5
+	LONG $0x376de2c4; BYTE $0xf6               // vpcmpgtq    ymm6, ymm2, ymm6
+	LONG $0x4b6de3c4; WORD $0x30df             // vblendvpd    ymm3, ymm2, ymm7, ymm3
+	LONG $0x4b6dc3c4; WORD $0x40e0             // vblendvpd    ymm4, ymm2, ymm8, ymm4
+	LONG $0x4b6dc3c4; WORD $0x50e9             // vblendvpd    ymm5, ymm2, ymm9, ymm5
+	LONG $0x4b6dc3c4; WORD $0x60f2             // vblendvpd    ymm6, ymm2, ymm10, ymm6
+	LONG $0x117dc1c4; WORD $0xf01c             // vmovupd    yword [r8 + 8*rsi], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x117dc1c4; WORD $0xf074; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1103
+	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
+	JE   LBB4_1351
+	JMP  LBB4_1105
+
+LBB4_1110:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc057f8c5                     // vxorps    xmm0, xmm0, xmm0
+	QUAD $0x00009c8d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_1111:
+	LONG $0x146ffec5; BYTE $0xb1               // vmovdqu    ymm2, yword [rcx + 4*rsi]
+	LONG $0x5c6ffec5; WORD $0x20b1             // vmovdqu    ymm3, yword [rcx + 4*rsi + 32]
+	LONG $0x646ffec5; WORD $0x40b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 64]
+	LONG $0x6c6ffec5; WORD $0x60b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 96]
+	LONG $0xe272cdc5; BYTE $0x1f               // vpsrad    ymm6, ymm2, 31
+	LONG $0xf1ebcdc5                           // vpor    ymm6, ymm6, ymm1
+	LONG $0xe372c5c5; BYTE $0x1f               // vpsrad    ymm7, ymm3, 31
+	LONG $0xf9ebc5c5                           // vpor    ymm7, ymm7, ymm1
+	LONG $0xe472bdc5; BYTE $0x1f               // vpsrad    ymm8, ymm4, 31
+	LONG $0xc1eb3dc5                           // vpor    ymm8, ymm8, ymm1
+	LONG $0xe572b5c5; BYTE $0x1f               // vpsrad    ymm9, ymm5, 31
+	LONG $0xc9eb35c5                           // vpor    ymm9, ymm9, ymm1
+	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
+	LONG $0xff5bfcc5                           // vcvtdq2ps    ymm7, ymm7
+	LONG $0x5b7c41c4; BYTE $0xc0               // vcvtdq2ps    ymm8, ymm8
+	LONG $0x5b7c41c4; BYTE $0xc9               // vcvtdq2ps    ymm9, ymm9
+	LONG $0xd0c2ecc5; BYTE $0x04               // vcmpneqps    ymm2, ymm2, ymm0
+	LONG $0xd654ecc5                           // vandps    ymm2, ymm2, ymm6
+	LONG $0xd8c2e4c5; BYTE $0x04               // vcmpneqps    ymm3, ymm3, ymm0
+	LONG $0xdf54e4c5                           // vandps    ymm3, ymm3, ymm7
+	LONG $0xe0c2dcc5; BYTE $0x04               // vcmpneqps    ymm4, ymm4, ymm0
+	LONG $0xe454bcc5                           // vandps    ymm4, ymm8, ymm4
+	LONG $0xe8c2d4c5; BYTE $0x04               // vcmpneqps    ymm5, ymm5, ymm0
+	LONG $0xed54b4c5                           // vandps    ymm5, ymm9, ymm5
+	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
+	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1111
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1113
+
+LBB4_1118:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0xc0eff9c5               // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5               // vpcmpeqd    xmm1, xmm1, xmm1
+	LONG $0x597de2c4; WORD $0x2855 // vpbroadcastq    ymm2, qword 40[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_1119:
+	LONG $0x1c6ef9c5; BYTE $0x31               // vmovd    xmm3, dword [rcx + rsi]
+	LONG $0x646ef9c5; WORD $0x0431             // vmovd    xmm4, dword [rcx + rsi + 4]
+	LONG $0x6c6ef9c5; WORD $0x0831             // vmovd    xmm5, dword [rcx + rsi + 8]
+	LONG $0x746ef9c5; WORD $0x0c31             // vmovd    xmm6, dword [rcx + rsi + 12]
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x327de2c4; BYTE $0xdb               // vpmovzxbq    ymm3, xmm3
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x327de2c4; BYTE $0xe4               // vpmovzxbq    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x327de2c4; BYTE $0xed               // vpmovzxbq    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x327de2c4; BYTE $0xf6               // vpmovzxbq    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0x7f7ec1c4; WORD $0xf01c             // vmovdqu    yword [r8 + 8*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf064; BYTE $0x20 // vmovdqu    yword [r8 + 8*rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0xf06c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0xf074; BYTE $0x60 // vmovdqu    yword [r8 + 8*rsi + 96], ymm6
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1119
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1121
+
+LBB4_1125:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
+	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_1126:
+	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
+	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
+	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
+	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x317de2c4; BYTE $0xdb               // vpmovzxbd    ymm3, xmm3
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x317de2c4; BYTE $0xe4               // vpmovzxbd    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe45bfcc5                           // vcvtdq2ps    ymm4, ymm4
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x317de2c4; BYTE $0xed               // vpmovzxbd    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xed5bfcc5                           // vcvtdq2ps    ymm5, ymm5
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x317de2c4; BYTE $0xf6               // vpmovzxbd    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0xf65bfcc5                           // vcvtdq2ps    ymm6, ymm6
+	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1126
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1128
+
+LBB4_1144:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0x556ff9c5; BYTE $0x50 // vmovdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_12] */
+
+LBB4_1145:
+	LONG $0x1c76fdc5; BYTE $0xb1   // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi]
+	LONG $0xd9efe5c5               // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
+	LONG $0xdadbe1c5               // vpand    xmm3, xmm3, xmm2
+	LONG $0x6476fdc5; WORD $0x20b1 // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 32]
+	LONG $0xe1efddc5               // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5 // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
+	LONG $0x6c76fdc5; WORD $0x40b1 // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 64]
+	LONG $0xe2dbd9c5               // vpand    xmm4, xmm4, xmm2
+	LONG $0xe9efd5c5               // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5               // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
+	LONG $0xeadbd1c5               // vpand    xmm5, xmm5, xmm2
+	LONG $0x7476fdc5; WORD $0x60b1 // vpcmpeqd    ymm6, ymm0, yword [rcx + 4*rsi + 96]
+	LONG $0xf1efcdc5               // vpxor    ymm6, ymm6, ymm1
+	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
+	LONG $0xf2dbc9c5               // vpand    xmm6, xmm6, xmm2
+	LONG $0x3855e3c4; WORD $0x01ee // vinserti128    ymm5, ymm5, xmm6, 1
+	LONG $0x3865e3c4; WORD $0x01dc // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0xdd6ce5c5               // vpunpcklqdq    ymm3, ymm3, ymm5
+	LONG $0x00fde3c4; WORD $0xd8db // vpermq    ymm3, ymm3, 216
+	LONG $0x7f7ec1c4; WORD $0x301c // vmovdqu    yword [r8 + rsi], ymm3
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
+	JNE  LBB4_1145
+	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1147
+
+LBB4_1151:
+	WORD $0xc289                   // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	WORD $0xf631                   // xor    esi, esi
+	LONG $0x597de2c4; WORD $0x0045 // vpbroadcastq    ymm0, qword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x572941c4; BYTE $0xd2   // vxorpd    xmm10, xmm10, xmm10
+	LONG $0x197de2c4; WORD $0x0855 // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xef2141c4; BYTE $0xdb   // vpxor    xmm11, xmm11, xmm11
+
+LBB4_1152:
+	LONG $0x3410fdc5; BYTE $0xf1   // vmovupd    ymm6, yword [rcx + 8*rsi]
+	LONG $0x7c10fdc5; WORD $0x20f1 // vmovupd    ymm7, yword [rcx + 8*rsi + 32]
+	LONG $0x44107dc5; WORD $0x40f1 // vmovupd    ymm8, yword [rcx + 8*rsi + 64]
+	LONG $0x4c107dc5; WORD $0x60f1 // vmovupd    ymm9, yword [rcx + 8*rsi + 96]
+	LONG $0xe6c2adc5; BYTE $0x00   // vcmpeqpd    ymm4, ymm10, ymm6
+	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0xe46359c5               // vpacksswb    xmm12, xmm4, xmm4
+	LONG $0xefc2adc5; BYTE $0x00   // vcmpeqpd    ymm5, ymm10, ymm7
+	LONG $0x197de3c4; WORD $0x01e9 // vextractf128    xmm1, ymm5, 1
+	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xe96371c5               // vpacksswb    xmm13, xmm1, xmm1
+	LONG $0xc23dc1c4; WORD $0x00ca // vcmpeqpd    ymm1, ymm8, ymm10
+	LONG $0x197de3c4; WORD $0x01cb // vextractf128    xmm3, ymm1, 1
+	LONG $0xcb6bf1c5               // vpackssdw    xmm1, xmm1, xmm3
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0xc235c1c4; WORD $0x00da // vcmpeqpd    ymm3, ymm9, ymm10
+	LONG $0x197de3c4; WORD $0x01dc // vextractf128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
+	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
+	LONG $0xe054cdc5               // vandpd    ymm4, ymm6, ymm0
+	LONG $0xe456edc5               // vorpd    ymm4, ymm2, ymm4
+	LONG $0xf054c5c5               // vandpd    ymm6, ymm7, ymm0
+	LONG $0xf656edc5               // vorpd    ymm6, ymm2, ymm6
+	LONG $0xf854bdc5               // vandpd    ymm7, ymm8, ymm0
+	LONG $0xff56edc5               // vorpd    ymm7, ymm2, ymm7
+	LONG $0xc05435c5               // vandpd    ymm8, ymm9, ymm0
+	LONG $0xc2563dc5               // vorpd    ymm8, ymm8, ymm2
+	LONG $0xe4e6fdc5               // vcvttpd2dq    xmm4, ymm4
+	LONG $0x2b59e2c4; BYTE $0xe4   // vpackusdw    xmm4, xmm4, xmm4
+	LONG $0xe467d9c5               // vpackuswb    xmm4, xmm4, xmm4
+	LONG $0xf6e6fdc5               // vcvttpd2dq    xmm6, ymm6
+	LONG $0x2b49e2c4; BYTE $0xf6   // vpackusdw    xmm6, xmm6, xmm6
+	LONG $0xf667c9c5               // vpackuswb    xmm6, xmm6, xmm6
+	LONG $0xffe6fdc5               // vcvttpd2dq    xmm7, ymm7
+	LONG $0x2b41e2c4; BYTE $0xff   // vpackusdw    xmm7, xmm7, xmm7
+	LONG $0xff67c1c5               // vpackuswb    xmm7, xmm7, xmm7
+	LONG $0xe67dc1c4; BYTE $0xe8   // vcvttpd2dq    xmm5, ymm8
+	LONG $0x2b51e2c4; BYTE $0xed   // vpackusdw    xmm5, xmm5, xmm5
+	LONG $0xed67d1c5               // vpackuswb    xmm5, xmm5, xmm5
+	LONG $0x4c59c3c4; WORD $0xc0e3 // vpblendvb    xmm4, xmm4, xmm11, xmm12
+	LONG $0x4c49c3c4; WORD $0xd0f3 // vpblendvb    xmm6, xmm6, xmm11, xmm13
+	LONG $0x4c41c3c4; WORD $0x10cb // vpblendvb    xmm1, xmm7, xmm11, xmm1
+	LONG $0xe662d9c5               // vpunpckldq    xmm4, xmm4, xmm6
+	LONG $0x4c51c3c4; WORD $0x30db // vpblendvb    xmm3, xmm5, xmm11, xmm3
+	LONG $0xcb62f1c5               // vpunpckldq    xmm1, xmm1, xmm3
+	LONG $0xc96cd9c5               // vpunpcklqdq    xmm1, xmm4, xmm1
+	LONG $0x7f7ac1c4; WORD $0x300c // vmovdqu    oword [r8 + rsi], xmm1
+	LONG $0x10c68348               // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
+	JNE  LBB4_1152
+	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1154
+
+LBB4_1159:
+	WORD $0x8945; BYTE $0xd3 // mov    r11d, r10d
+	LONG $0x80e38341         // and    r11d, -128
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x000000e0956ffdc5 // vmovdqa    ymm2, yword 224[rbp] /* [rip + .LCPI4_20] */
+
+LBB4_1160:
+	LONG $0x1c6ffec5; BYTE $0x31               // vmovdqu    ymm3, yword [rcx + rsi]
+	LONG $0x646ffec5; WORD $0x2031             // vmovdqu    ymm4, yword [rcx + rsi + 32]
+	LONG $0x6c6ffec5; WORD $0x4031             // vmovdqu    ymm5, yword [rcx + rsi + 64]
+	LONG $0x746ffec5; WORD $0x6031             // vmovdqu    ymm6, yword [rcx + rsi + 96]
+	LONG $0xf874e5c5                           // vpcmpeqb    ymm7, ymm3, ymm0
+	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
+	LONG $0xc0745dc5                           // vpcmpeqb    ymm8, ymm4, ymm0
+	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
+	LONG $0xc87455c5                           // vpcmpeqb    ymm9, ymm5, ymm0
+	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
+	LONG $0xd0744dc5                           // vpcmpeqb    ymm10, ymm6, ymm0
+	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
+	LONG $0xdb64edc5                           // vpcmpgtb    ymm3, ymm2, ymm3
+	LONG $0xe464edc5                           // vpcmpgtb    ymm4, ymm2, ymm4
+	LONG $0xed64edc5                           // vpcmpgtb    ymm5, ymm2, ymm5
+	LONG $0xf664edc5                           // vpcmpgtb    ymm6, ymm2, ymm6
+	LONG $0x4c6de3c4; WORD $0x30df             // vpblendvb    ymm3, ymm2, ymm7, ymm3
+	LONG $0x4c6dc3c4; WORD $0x40e0             // vpblendvb    ymm4, ymm2, ymm8, ymm4
+	LONG $0x4c6dc3c4; WORD $0x50e9             // vpblendvb    ymm5, ymm2, ymm9, ymm5
+	LONG $0x4c6dc3c4; WORD $0x60f2             // vpblendvb    ymm6, ymm2, ymm10, ymm6
+	LONG $0x7f7ec1c4; WORD $0x301c             // vmovdqu    yword [r8 + rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x306c; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0x3074; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm6
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB4_1160
+	WORD $0x394d; BYTE $0xd3                   // cmp    r11, r10
+	JE   LBB4_1351
+	JMP  LBB4_1162
+
+LBB4_1167:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5             // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0x556ff9c5; BYTE $0x70 // vmovdqa    xmm2, oword 112[rbp] /* [rip + .LCPI4_17] */
+
+LBB4_1168:
+	LONG $0x297de2c4; WORD $0xf11c             // vpcmpeqq    ymm3, ymm0, yword [rcx + 8*rsi]
+	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                           // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xdb6be1c5                           // vpackssdw    xmm3, xmm3, xmm3
+	LONG $0xdb63e1c5                           // vpacksswb    xmm3, xmm3, xmm3
+	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
+	LONG $0x297de2c4; WORD $0xf164; BYTE $0x20 // vpcmpeqq    ymm4, ymm0, yword [rcx + 8*rsi + 32]
+	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0xe463d9c5                           // vpacksswb    xmm4, xmm4, xmm4
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x40 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 64]
+	LONG $0xdc62e1c5                           // vpunpckldq    xmm3, xmm3, xmm4
+	LONG $0xe1efd5c5                           // vpxor    ymm4, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5                           // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xe46bd9c5                           // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0xe463d9c5                           // vpacksswb    xmm4, xmm4, xmm4
+	LONG $0x297de2c4; WORD $0xf16c; BYTE $0x60 // vpcmpeqq    ymm5, ymm0, yword [rcx + 8*rsi + 96]
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5                           // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xed6bd1c5                           // vpackssdw    xmm5, xmm5, xmm5
+	LONG $0xed63d1c5                           // vpacksswb    xmm5, xmm5, xmm5
+	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
+	LONG $0xe562d9c5                           // vpunpckldq    xmm4, xmm4, xmm5
+	LONG $0xdc6ce1c5                           // vpunpcklqdq    xmm3, xmm3, xmm4
+	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
+	LONG $0x10c68348                           // add    rsi, 16
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1168
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1170
+
+LBB4_1174:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xc0 // and    edx, -64
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5         // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x00000080956ff9c5 // vmovdqa    xmm2, oword 128[rbp] /* [rip + .LCPI4_19] */
+
+LBB4_1175:
+	LONG $0x1c75fdc5; BYTE $0x71               // vpcmpeqw    ymm3, ymm0, yword [rcx + 2*rsi]
+	LONG $0xd9efe5c5                           // vpxor    ymm3, ymm3, ymm1
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc63e1c5                           // vpacksswb    xmm3, xmm3, xmm4
+	LONG $0xdadbe1c5                           // vpand    xmm3, xmm3, xmm2
+	LONG $0x6475fdc5; WORD $0x2071             // vpcmpeqw    ymm4, ymm0, yword [rcx + 2*rsi + 32]
+	LONG $0xe1efddc5                           // vpxor    ymm4, ymm4, ymm1
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe563d9c5                           // vpacksswb    xmm4, xmm4, xmm5
+	LONG $0xe2dbd9c5                           // vpand    xmm4, xmm4, xmm2
+	LONG $0x6c75fdc5; WORD $0x4071             // vpcmpeqw    ymm5, ymm0, yword [rcx + 2*rsi + 64]
+	LONG $0xe9efd5c5                           // vpxor    ymm5, ymm5, ymm1
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee63d1c5                           // vpacksswb    xmm5, xmm5, xmm6
+	LONG $0xeadbd1c5                           // vpand    xmm5, xmm5, xmm2
+	LONG $0x7475fdc5; WORD $0x6071             // vpcmpeqw    ymm6, ymm0, yword [rcx + 2*rsi + 96]
+	LONG $0xf1efcdc5                           // vpxor    ymm6, ymm6, ymm1
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf763c9c5                           // vpacksswb    xmm6, xmm6, xmm7
+	LONG $0xf2dbc9c5                           // vpand    xmm6, xmm6, xmm2
+	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
+	LONG $0x7f7ac1c4; WORD $0x3064; BYTE $0x10 // vmovdqu    oword [r8 + rsi + 16], xmm4
+	LONG $0x7f7ac1c4; WORD $0x306c; BYTE $0x20 // vmovdqu    oword [r8 + rsi + 32], xmm5
+	LONG $0x7f7ac1c4; WORD $0x3074; BYTE $0x30 // vmovdqu    oword [r8 + rsi + 48], xmm6
+	LONG $0x40c68348                           // add    rsi, 64
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1175
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1177
+
+LBB4_1181:
+	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
+	LONG $0xc0e38341             // and    r11d, -64
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763d41c4; BYTE $0xc0 // vpcmpeqd    ymm8, ymm8, ymm8
+	QUAD $0x000000808d6f79c5     // vmovdqa    xmm9, oword 128[rbp] /* [rip + .LCPI4_19] */
+
+LBB4_1182:
+	LONG $0x246ffec5; BYTE $0x71               // vmovdqu    ymm4, yword [rcx + 2*rsi]
+	LONG $0x6c6ffec5; WORD $0x2071             // vmovdqu    ymm5, yword [rcx + 2*rsi + 32]
+	LONG $0x746ffec5; WORD $0x4071             // vmovdqu    ymm6, yword [rcx + 2*rsi + 64]
+	LONG $0x7c6ffec5; WORD $0x6071             // vmovdqu    ymm7, yword [rcx + 2*rsi + 96]
+	LONG $0xd865ddc5                           // vpcmpgtw    ymm3, ymm4, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xd16361c5                           // vpacksswb    xmm10, xmm3, xmm1
+	LONG $0xc865d5c5                           // vpcmpgtw    ymm1, ymm5, ymm0
+	LONG $0x397de3c4; WORD $0x01ca             // vextracti128    xmm2, ymm1, 1
+	LONG $0xda6371c5                           // vpacksswb    xmm11, xmm1, xmm2
+	LONG $0xd065cdc5                           // vpcmpgtw    ymm2, ymm6, ymm0
+	LONG $0x397de3c4; WORD $0x01d3             // vextracti128    xmm3, ymm2, 1
+	LONG $0xd363e9c5                           // vpacksswb    xmm2, xmm2, xmm3
+	LONG $0xd865c5c5                           // vpcmpgtw    ymm3, ymm7, ymm0
+	LONG $0x397de3c4; WORD $0x01d9             // vextracti128    xmm1, ymm3, 1
+	LONG $0xc963e1c5                           // vpacksswb    xmm1, xmm3, xmm1
+	LONG $0xd875ddc5                           // vpcmpeqw    ymm3, ymm4, ymm0
+	LONG $0xdbefbdc5                           // vpxor    ymm3, ymm8, ymm3
+	LONG $0x397de3c4; WORD $0x01dc             // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc63e1c5                           // vpacksswb    xmm3, xmm3, xmm4
+	LONG $0xe075d5c5                           // vpcmpeqw    ymm4, ymm5, ymm0
+	LONG $0xe4efbdc5                           // vpxor    ymm4, ymm8, ymm4
+	LONG $0x397de3c4; WORD $0x01e5             // vextracti128    xmm5, ymm4, 1
+	LONG $0xe563d9c5                           // vpacksswb    xmm4, xmm4, xmm5
+	LONG $0xe875cdc5                           // vpcmpeqw    ymm5, ymm6, ymm0
+	LONG $0xedefbdc5                           // vpxor    ymm5, ymm8, ymm5
+	LONG $0x397de3c4; WORD $0x01ee             // vextracti128    xmm6, ymm5, 1
+	LONG $0xee63d1c5                           // vpacksswb    xmm5, xmm5, xmm6
+	LONG $0xf075c5c5                           // vpcmpeqw    ymm6, ymm7, ymm0
+	LONG $0xf6efbdc5                           // vpxor    ymm6, ymm8, ymm6
+	LONG $0x397de3c4; WORD $0x01f7             // vextracti128    xmm7, ymm6, 1
+	LONG $0xf763c9c5                           // vpacksswb    xmm6, xmm6, xmm7
+	LONG $0x4c61c3c4; WORD $0xa0d9             // vpblendvb    xmm3, xmm3, xmm9, xmm10
+	LONG $0x4c59c3c4; WORD $0xb0e1             // vpblendvb    xmm4, xmm4, xmm9, xmm11
+	LONG $0x4c51c3c4; WORD $0x20d1             // vpblendvb    xmm2, xmm5, xmm9, xmm2
+	LONG $0x4c49c3c4; WORD $0x10c9             // vpblendvb    xmm1, xmm6, xmm9, xmm1
+	LONG $0x7f7ac1c4; WORD $0x301c             // vmovdqu    oword [r8 + rsi], xmm3
+	LONG $0x7f7ac1c4; WORD $0x3064; BYTE $0x10 // vmovdqu    oword [r8 + rsi + 16], xmm4
+	LONG $0x7f7ac1c4; WORD $0x3054; BYTE $0x20 // vmovdqu    oword [r8 + rsi + 32], xmm2
+	LONG $0x7f7ac1c4; WORD $0x304c; BYTE $0x30 // vmovdqu    oword [r8 + rsi + 48], xmm1
+	LONG $0x40c68348                           // add    rsi, 64
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB4_1182
+	WORD $0x394d; BYTE $0xd3                   // cmp    r11, r10
+	JE   LBB4_1351
+	JMP  LBB4_1184
+
+LBB4_1189:
+	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
+	LONG $0xf0e38341             // and    r11d, -16
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
+	LONG $0x5d6f79c5; BYTE $0x70 // vmovdqa    xmm11, oword 112[rbp] /* [rip + .LCPI4_17] */
+
+LBB4_1190:
+	LONG $0x146f7ec5; BYTE $0xf1   // vmovdqu    ymm10, yword [rcx + 8*rsi]
+	LONG $0x446f7ec5; WORD $0x20f1 // vmovdqu    ymm8, yword [rcx + 8*rsi + 32]
+	LONG $0x746ffec5; WORD $0x40f1 // vmovdqu    ymm6, yword [rcx + 8*rsi + 64]
+	LONG $0x646ffec5; WORD $0x60f1 // vmovdqu    ymm4, yword [rcx + 8*rsi + 96]
+	LONG $0x372de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm10, ymm0
+	LONG $0x397de3c4; WORD $0x01cb // vextracti128    xmm3, ymm1, 1
+	LONG $0xcb6bf1c5               // vpackssdw    xmm1, xmm1, xmm3
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xe16371c5               // vpacksswb    xmm12, xmm1, xmm1
+	LONG $0x373de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm8, ymm0
+	LONG $0x397de3c4; WORD $0x01cd // vextracti128    xmm5, ymm1, 1
+	LONG $0xcd6bf1c5               // vpackssdw    xmm1, xmm1, xmm5
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xe96371c5               // vpacksswb    xmm13, xmm1, xmm1
+	LONG $0x374de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm6, ymm0
+	LONG $0x397de3c4; WORD $0x01cf // vextracti128    xmm7, ymm1, 1
+	LONG $0xcf6bf1c5               // vpackssdw    xmm1, xmm1, xmm7
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xf963f1c5               // vpacksswb    xmm7, xmm1, xmm1
+	LONG $0x375de2c4; BYTE $0xc8   // vpcmpgtq    ymm1, ymm4, ymm0
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0x292de2c4; BYTE $0xd0   // vpcmpeqq    ymm2, ymm10, ymm0
+	LONG $0xd2efb5c5               // vpxor    ymm2, ymm9, ymm2
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
+	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
+	LONG $0x293de2c4; BYTE $0xd8   // vpcmpeqq    ymm3, ymm8, ymm0
+	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
+	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
+	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
+	LONG $0xdb6be1c5               // vpackssdw    xmm3, xmm3, xmm3
+	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
+	LONG $0x294de2c4; BYTE $0xe8   // vpcmpeqq    ymm5, ymm6, ymm0
+	LONG $0xedefb5c5               // vpxor    ymm5, ymm9, ymm5
+	LONG $0x397de3c4; WORD $0x01ee // vextracti128    xmm6, ymm5, 1
+	LONG $0xee6bd1c5               // vpackssdw    xmm5, xmm5, xmm6
+	LONG $0xed6bd1c5               // vpackssdw    xmm5, xmm5, xmm5
+	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
+	LONG $0x295de2c4; BYTE $0xe0   // vpcmpeqq    ymm4, ymm4, ymm0
+	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
+	LONG $0x397de3c4; WORD $0x01e6 // vextracti128    xmm6, ymm4, 1
+	LONG $0xe66bd9c5               // vpackssdw    xmm4, xmm4, xmm6
+	LONG $0xe46bd9c5               // vpackssdw    xmm4, xmm4, xmm4
+	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
+	LONG $0x4c69c3c4; WORD $0xc0d3 // vpblendvb    xmm2, xmm2, xmm11, xmm12
+	LONG $0x4c61c3c4; WORD $0xd0db // vpblendvb    xmm3, xmm3, xmm11, xmm13
+	LONG $0x4c51c3c4; WORD $0x70eb // vpblendvb    xmm5, xmm5, xmm11, xmm7
+	LONG $0xd362e9c5               // vpunpckldq    xmm2, xmm2, xmm3
+	LONG $0x4c59c3c4; WORD $0x10cb // vpblendvb    xmm1, xmm4, xmm11, xmm1
+	LONG $0xc962d1c5               // vpunpckldq    xmm1, xmm5, xmm1
+	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
+	LONG $0x7f7ac1c4; WORD $0x300c // vmovdqu    oword [r8 + rsi], xmm1
+	LONG $0x10c68348               // add    rsi, 16
+	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
+	JNE  LBB4_1190
+	WORD $0x394d; BYTE $0xd3       // cmp    r11, r10
+	JE   LBB4_1351
+	JMP  LBB4_1192
+
+LBB4_1197:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x571841c4; BYTE $0xe4 // vxorps    xmm12, xmm12, xmm12
+	LONG $0x761541c4; BYTE $0xed // vpcmpeqd    ymm13, ymm13, ymm13
+	LONG $0x756f79c5; BYTE $0x50 // vmovdqa    xmm14, oword 80[rbp] /* [rip + .LCPI4_12] */
+	LONG $0x760141c4; BYTE $0xff // vpcmpeqd    xmm15, xmm15, xmm15
+
+LBB4_1198:
+	LONG $0x0c107cc5; BYTE $0xb1   // vmovups    ymm9, yword [rcx + 4*rsi]
+	LONG $0x54107cc5; WORD $0x20b1 // vmovups    ymm10, yword [rcx + 4*rsi + 32]
+	LONG $0x5c107cc5; WORD $0x40b1 // vmovups    ymm11, yword [rcx + 4*rsi + 64]
+	LONG $0x7c10fcc5; WORD $0x60b1 // vmovups    ymm7, yword [rcx + 4*rsi + 96]
+	LONG $0xc234c1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm9, ymm12
+	LONG $0x197de3c4; WORD $0x01e5 // vextractf128    xmm5, ymm4, 1
+	LONG $0xe56bd9c5               // vpackssdw    xmm4, xmm4, xmm5
+	LONG $0xc46359c5               // vpacksswb    xmm8, xmm4, xmm4
+	LONG $0xc22cc1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm10, ymm12
+	LONG $0x197de3c4; WORD $0x01e6 // vextractf128    xmm6, ymm4, 1
+	LONG $0xe66bd9c5               // vpackssdw    xmm4, xmm4, xmm6
+	LONG $0xf463d9c5               // vpacksswb    xmm6, xmm4, xmm4
+	LONG $0xc224c1c4; WORD $0x00e4 // vcmpeqps    ymm4, ymm11, ymm12
+	LONG $0x197de3c4; WORD $0x01e0 // vextractf128    xmm0, ymm4, 1
+	LONG $0xc06bd9c5               // vpackssdw    xmm0, xmm4, xmm0
+	LONG $0xe063f9c5               // vpacksswb    xmm4, xmm0, xmm0
+	LONG $0xc7c29cc5; BYTE $0x00   // vcmpeqps    ymm0, ymm12, ymm7
+	LONG $0x197de3c4; WORD $0x01c1 // vextractf128    xmm1, ymm0, 1
+	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
+	LONG $0xc063f9c5               // vpacksswb    xmm0, xmm0, xmm0
+	LONG $0x6635c1c4; BYTE $0xcd   // vpcmpgtd    ymm1, ymm9, ymm13
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
+	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0x662dc1c4; BYTE $0xd5   // vpcmpgtd    ymm2, ymm10, ymm13
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
+	LONG $0x6625c1c4; BYTE $0xdd   // vpcmpgtd    ymm3, ymm11, ymm13
+	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
+	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
+	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
+	LONG $0x6645c1c4; BYTE $0xed   // vpcmpgtd    ymm5, ymm7, ymm13
+	LONG $0x397de3c4; WORD $0x01ef // vextracti128    xmm7, ymm5, 1
+	LONG $0xef6bd1c5               // vpackssdw    xmm5, xmm5, xmm7
+	LONG $0x4c01c3c4; WORD $0x10ce // vpblendvb    xmm1, xmm15, xmm14, xmm1
+	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
+	LONG $0xc9dfb9c5               // vpandn    xmm1, xmm8, xmm1
+	LONG $0x4c01c3c4; WORD $0x20d6 // vpblendvb    xmm2, xmm15, xmm14, xmm2
+	LONG $0x4c01c3c4; WORD $0x30de // vpblendvb    xmm3, xmm15, xmm14, xmm3
+	LONG $0x4c01c3c4; WORD $0x50ee // vpblendvb    xmm5, xmm15, xmm14, xmm5
+	LONG $0xffefc1c5               // vpxor    xmm7, xmm7, xmm7
+	LONG $0x4c69e3c4; WORD $0x60d7 // vpblendvb    xmm2, xmm2, xmm7, xmm6
+	LONG $0x4c51e3c4; WORD $0x00c7 // vpblendvb    xmm0, xmm5, xmm7, xmm0
+	LONG $0xdbdfd9c5               // vpandn    xmm3, xmm4, xmm3
+	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
+	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
+	LONG $0x7f7ec1c4; WORD $0x3004 // vmovdqu    yword [r8 + rsi], ymm0
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
+	JNE  LBB4_1198
+	WORD $0x394c; BYTE $0xd2       // cmp    rdx, r10
+	JE   LBB4_1351
+	JMP  LBB4_1200
+
+LBB4_1205:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0x80 // and    edx, -128
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+	QUAD $0x000000e08d6ffdc5 // vmovdqa    ymm1, yword 224[rbp] /* [rip + .LCPI4_20] */
+
+LBB4_1206:
+	LONG $0x1474fdc5; BYTE $0x31               // vpcmpeqb    ymm2, ymm0, yword [rcx + rsi]
+	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
+	LONG $0x5c74fdc5; WORD $0x2031             // vpcmpeqb    ymm3, ymm0, yword [rcx + rsi + 32]
+	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
+	LONG $0x6474fdc5; WORD $0x4031             // vpcmpeqb    ymm4, ymm0, yword [rcx + rsi + 64]
+	LONG $0x6c74fdc5; WORD $0x6031             // vpcmpeqb    ymm5, ymm0, yword [rcx + rsi + 96]
+	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
+	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
+	LONG $0x7f7ec1c4; WORD $0x3014             // vmovdqu    yword [r8 + rsi], ymm2
+	LONG $0x7f7ec1c4; WORD $0x305c; BYTE $0x20 // vmovdqu    yword [r8 + rsi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3064; BYTE $0x40 // vmovdqu    yword [r8 + rsi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0x306c; BYTE $0x60 // vmovdqu    yword [r8 + rsi + 96], ymm5
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1206
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1208
+
+LBB4_1212:
+	WORD $0x8945; BYTE $0xd3     // mov    r11d, r10d
+	LONG $0xe0e38341             // and    r11d, -32
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0eff9c5             // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763541c4; BYTE $0xc9 // vpcmpeqd    ymm9, ymm9, ymm9
+	LONG $0x556f79c5; BYTE $0x50 // vmovdqa    xmm10, oword 80[rbp] /* [rip + .LCPI4_12] */
+
+LBB4_1213:
+	LONG $0x3c6ffec5; BYTE $0xb1   // vmovdqu    ymm7, yword [rcx + 4*rsi]
+	LONG $0x446f7ec5; WORD $0x20b1 // vmovdqu    ymm8, yword [rcx + 4*rsi + 32]
+	LONG $0x746ffec5; WORD $0x40b1 // vmovdqu    ymm6, yword [rcx + 4*rsi + 64]
+	LONG $0x646ffec5; WORD $0x60b1 // vmovdqu    ymm4, yword [rcx + 4*rsi + 96]
+	LONG $0xd866c5c5               // vpcmpgtd    ymm3, ymm7, ymm0
+	LONG $0x397de3c4; WORD $0x01dd // vextracti128    xmm5, ymm3, 1
+	LONG $0xdd6be1c5               // vpackssdw    xmm3, xmm3, xmm5
+	LONG $0xdb6361c5               // vpacksswb    xmm11, xmm3, xmm3
+	LONG $0xe866bdc5               // vpcmpgtd    ymm5, ymm8, ymm0
+	LONG $0x397de3c4; WORD $0x01e9 // vextracti128    xmm1, ymm5, 1
+	LONG $0xc96bd1c5               // vpackssdw    xmm1, xmm5, xmm1
+	LONG $0xe16371c5               // vpacksswb    xmm12, xmm1, xmm1
+	LONG $0xc866cdc5               // vpcmpgtd    ymm1, ymm6, ymm0
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
+	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0xd066ddc5               // vpcmpgtd    ymm2, ymm4, ymm0
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
+	LONG $0xd876c5c5               // vpcmpeqd    ymm3, ymm7, ymm0
+	LONG $0xdbefb5c5               // vpxor    ymm3, ymm9, ymm3
+	LONG $0x397de3c4; WORD $0x01df // vextracti128    xmm7, ymm3, 1
+	LONG $0xdf6be1c5               // vpackssdw    xmm3, xmm3, xmm7
+	LONG $0xdb63e1c5               // vpacksswb    xmm3, xmm3, xmm3
+	LONG $0xf876bdc5               // vpcmpeqd    ymm7, ymm8, ymm0
+	LONG $0xffefb5c5               // vpxor    ymm7, ymm9, ymm7
+	LONG $0x397de3c4; WORD $0x01fd // vextracti128    xmm5, ymm7, 1
+	LONG $0xed6bc1c5               // vpackssdw    xmm5, xmm7, xmm5
+	LONG $0xed63d1c5               // vpacksswb    xmm5, xmm5, xmm5
+	LONG $0xf076cdc5               // vpcmpeqd    ymm6, ymm6, ymm0
+	LONG $0xf6efb5c5               // vpxor    ymm6, ymm9, ymm6
+	LONG $0x397de3c4; WORD $0x01f7 // vextracti128    xmm7, ymm6, 1
+	LONG $0xf76bc9c5               // vpackssdw    xmm6, xmm6, xmm7
+	LONG $0xf663c9c5               // vpacksswb    xmm6, xmm6, xmm6
+	LONG $0xe076ddc5               // vpcmpeqd    ymm4, ymm4, ymm0
+	LONG $0xe4efb5c5               // vpxor    ymm4, ymm9, ymm4
+	LONG $0x397de3c4; WORD $0x01e7 // vextracti128    xmm7, ymm4, 1
+	LONG $0xe76bd9c5               // vpackssdw    xmm4, xmm4, xmm7
+	LONG $0xe463d9c5               // vpacksswb    xmm4, xmm4, xmm4
+	LONG $0x4c61c3c4; WORD $0xb0da // vpblendvb    xmm3, xmm3, xmm10, xmm11
+	LONG $0x4c51c3c4; WORD $0xc0ea // vpblendvb    xmm5, xmm5, xmm10, xmm12
+	LONG $0x4c49c3c4; WORD $0x10ca // vpblendvb    xmm1, xmm6, xmm10, xmm1
+	LONG $0x4c59c3c4; WORD $0x20d2 // vpblendvb    xmm2, xmm4, xmm10, xmm2
+	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0x3865e3c4; WORD $0x01d5 // vinserti128    ymm2, ymm3, xmm5, 1
+	LONG $0xc96cedc5               // vpunpcklqdq    ymm1, ymm2, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9 // vpermq    ymm1, ymm1, 216
+	LONG $0x7f7ec1c4; WORD $0x300c // vmovdqu    yword [r8 + rsi], ymm1
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
+	JNE  LBB4_1213
+	WORD $0x394d; BYTE $0xd3       // cmp    r11, r10
+	JE   LBB4_1351
+	JMP  LBB4_1215
+
+LBB4_1220:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	QUAD $0x00009c8d587de2c4; BYTE $0x00 // vpbroadcastd    ymm1, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_1221:
+	LONG $0x1476fdc5; BYTE $0xb1               // vpcmpeqd    ymm2, ymm0, yword [rcx + 4*rsi]
+	LONG $0xd1dfedc5                           // vpandn    ymm2, ymm2, ymm1
+	LONG $0x5c76fdc5; WORD $0x20b1             // vpcmpeqd    ymm3, ymm0, yword [rcx + 4*rsi + 32]
+	LONG $0xd9dfe5c5                           // vpandn    ymm3, ymm3, ymm1
+	LONG $0x6476fdc5; WORD $0x40b1             // vpcmpeqd    ymm4, ymm0, yword [rcx + 4*rsi + 64]
+	LONG $0x6c76fdc5; WORD $0x60b1             // vpcmpeqd    ymm5, ymm0, yword [rcx + 4*rsi + 96]
+	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
+	LONG $0xe9dfd5c5                           // vpandn    ymm5, ymm5, ymm1
+	LONG $0x7f7ec1c4; WORD $0xb014             // vmovdqu    yword [r8 + 4*rsi], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb05c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm5
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1221
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1223
+
+LBB4_1227:
+	WORD $0x8944; BYTE $0xda             // mov    edx, r11d
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0x763941c4; BYTE $0xc0         // vpcmpeqd    xmm8, xmm8, xmm8
+	QUAD $0x00009c95187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_1228:
+	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
+	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
+	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
+	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
+	LONG $0xf864e1c5                           // vpcmpgtb    xmm7, xmm3, xmm0
+	LONG $0x217d62c4; BYTE $0xcf               // vpmovsxbd    ymm9, xmm7
+	LONG $0xc864d9c5                           // vpcmpgtb    xmm1, xmm4, xmm0
+	LONG $0x217d62c4; BYTE $0xd1               // vpmovsxbd    ymm10, xmm1
+	LONG $0xf864d1c5                           // vpcmpgtb    xmm7, xmm5, xmm0
+	LONG $0x217de2c4; BYTE $0xff               // vpmovsxbd    ymm7, xmm7
+	LONG $0xc864c9c5                           // vpcmpgtb    xmm1, xmm6, xmm0
+	LONG $0x217de2c4; BYTE $0xc9               // vpmovsxbd    ymm1, xmm1
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xdbefb9c5                           // vpxor    xmm3, xmm8, xmm3
+	LONG $0x217de2c4; BYTE $0xdb               // vpmovsxbd    ymm3, xmm3
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe4efb9c5                           // vpxor    xmm4, xmm8, xmm4
+	LONG $0x217de2c4; BYTE $0xe4               // vpmovsxbd    ymm4, xmm4
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xedefb9c5                           // vpxor    xmm5, xmm8, xmm5
+	LONG $0x217de2c4; BYTE $0xed               // vpmovsxbd    ymm5, xmm5
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf6efb9c5                           // vpxor    xmm6, xmm8, xmm6
+	LONG $0x217de2c4; BYTE $0xf6               // vpmovsxbd    ymm6, xmm6
+	LONG $0x4a65e3c4; WORD $0x90da             // vblendvps    ymm3, ymm3, ymm2, ymm9
+	LONG $0x4a5de3c4; WORD $0xa0e2             // vblendvps    ymm4, ymm4, ymm2, ymm10
+	LONG $0x4a55e3c4; WORD $0x70ea             // vblendvps    ymm5, ymm5, ymm2, ymm7
+	LONG $0x4a4de3c4; WORD $0x10ca             // vblendvps    ymm1, ymm6, ymm2, ymm1
+	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1228
+	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
+	JE   LBB4_1351
+	JMP  LBB4_1230
+
+LBB4_1235:
+	WORD $0xc289                         // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f1c5                     // vpcmpeqd    xmm1, xmm1, xmm1
+	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_1236:
+	LONG $0x1c7efac5; BYTE $0x31               // vmovq    xmm3, qword [rcx + rsi]
+	LONG $0x647efac5; WORD $0x0831             // vmovq    xmm4, qword [rcx + rsi + 8]
+	LONG $0x6c7efac5; WORD $0x1031             // vmovq    xmm5, qword [rcx + rsi + 16]
+	LONG $0x747efac5; WORD $0x1831             // vmovq    xmm6, qword [rcx + rsi + 24]
+	LONG $0xd874e1c5                           // vpcmpeqb    xmm3, xmm3, xmm0
+	LONG $0xd9efe1c5                           // vpxor    xmm3, xmm3, xmm1
+	LONG $0x317de2c4; BYTE $0xdb               // vpmovzxbd    ymm3, xmm3
+	LONG $0xdadbe5c5                           // vpand    ymm3, ymm3, ymm2
+	LONG $0xe074d9c5                           // vpcmpeqb    xmm4, xmm4, xmm0
+	LONG $0xe1efd9c5                           // vpxor    xmm4, xmm4, xmm1
+	LONG $0x317de2c4; BYTE $0xe4               // vpmovzxbd    ymm4, xmm4
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xe874d1c5                           // vpcmpeqb    xmm5, xmm5, xmm0
+	LONG $0xe9efd1c5                           // vpxor    xmm5, xmm5, xmm1
+	LONG $0x317de2c4; BYTE $0xed               // vpmovzxbd    ymm5, xmm5
+	LONG $0xeadbd5c5                           // vpand    ymm5, ymm5, ymm2
+	LONG $0xf074c9c5                           // vpcmpeqb    xmm6, xmm6, xmm0
+	LONG $0xf1efc9c5                           // vpxor    xmm6, xmm6, xmm1
+	LONG $0x317de2c4; BYTE $0xf6               // vpmovzxbd    ymm6, xmm6
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	LONG $0x7f7ec1c4; WORD $0xb01c             // vmovdqu    yword [r8 + 4*rsi], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb064; BYTE $0x20 // vmovdqu    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0xb06c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x7f7ec1c4; WORD $0xb074; BYTE $0x60 // vmovdqu    yword [r8 + 4*rsi + 96], ymm6
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1236
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1238
+
+LBB4_1242:
+	WORD $0x8944; BYTE $0xda             // mov    edx, r11d
+	WORD $0xe283; BYTE $0xe0             // and    edx, -32
+	WORD $0xf631                         // xor    esi, esi
+	LONG $0xc0eff9c5                     // vpxor    xmm0, xmm0, xmm0
+	LONG $0xc976f5c5                     // vpcmpeqd    ymm1, ymm1, ymm1
+	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_1243:
+	LONG $0x1c6ffec5; BYTE $0xb1               // vmovdqu    ymm3, yword [rcx + 4*rsi]
+	LONG $0x646ffec5; WORD $0x20b1             // vmovdqu    ymm4, yword [rcx + 4*rsi + 32]
+	LONG $0x6c6ffec5; WORD $0x40b1             // vmovdqu    ymm5, yword [rcx + 4*rsi + 64]
+	LONG $0x746ffec5; WORD $0x60b1             // vmovdqu    ymm6, yword [rcx + 4*rsi + 96]
+	LONG $0xf876e5c5                           // vpcmpeqd    ymm7, ymm3, ymm0
+	LONG $0xf9efc5c5                           // vpxor    ymm7, ymm7, ymm1
+	LONG $0xc0765dc5                           // vpcmpeqd    ymm8, ymm4, ymm0
+	LONG $0xc1ef3dc5                           // vpxor    ymm8, ymm8, ymm1
+	LONG $0xc87655c5                           // vpcmpeqd    ymm9, ymm5, ymm0
+	LONG $0xc9ef35c5                           // vpxor    ymm9, ymm9, ymm1
+	LONG $0xd0764dc5                           // vpcmpeqd    ymm10, ymm6, ymm0
+	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
+	LONG $0xdb66edc5                           // vpcmpgtd    ymm3, ymm2, ymm3
+	LONG $0xe466edc5                           // vpcmpgtd    ymm4, ymm2, ymm4
+	LONG $0xed66edc5                           // vpcmpgtd    ymm5, ymm2, ymm5
+	LONG $0xf666edc5                           // vpcmpgtd    ymm6, ymm2, ymm6
+	LONG $0x4a6de3c4; WORD $0x30df             // vblendvps    ymm3, ymm2, ymm7, ymm3
+	LONG $0x4a6dc3c4; WORD $0x40e0             // vblendvps    ymm4, ymm2, ymm8, ymm4
+	LONG $0x4a6dc3c4; WORD $0x50e9             // vblendvps    ymm5, ymm2, ymm9, ymm5
+	LONG $0x4a6dc3c4; WORD $0x60f2             // vblendvps    ymm6, ymm2, ymm10, ymm6
+	LONG $0x117cc1c4; WORD $0xb01c             // vmovups    yword [r8 + 4*rsi], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm5
+	LONG $0x117cc1c4; WORD $0xb074; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm6
+	LONG $0x20c68348                           // add    rsi, 32
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JNE  LBB4_1243
+	WORD $0x394c; BYTE $0xda                   // cmp    rdx, r11
+	JE   LBB4_1351
+	JMP  LBB4_1245
+
+LBB4_1250:
+	LONG $0x457efac5; BYTE $0x20 // vmovq    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
+
+LBB4_1251:
+	JLE  LBB4_1253
+	LONG $0x457efac5; BYTE $0x08 // vmovq    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_1253:
+	LONG $0xd679c1c4; WORD $0xd004 // vmovq    qword [r8 + 8*rdx], xmm0
+	LONG $0x01ca8348               // or    rdx, 1
+
+LBB4_1254:
+	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
+	JE   LBB4_1351
+	LONG $0x4510fbc5; BYTE $0x20 // vmovsd    xmm0, qword 32[rbp] /* [rip + .LCPI4_13] */
+	LONG $0x4d10fbc5; BYTE $0x08 // vmovsd    xmm1, qword 8[rbp] /* [rip + .LCPI4_1] */
+	JMP  LBB4_1257
+
+LBB4_1256:
+	LONG $0x117bc1c4; WORD $0xd05c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm3
+	LONG $0x02c28348                           // add    rdx, 2
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_1257:
+	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
+	LONG $0xd028f9c5 // vmovapd    xmm2, xmm0
+	JNE  LBB4_1258
+	LONG $0xd257e9c5 // vxorpd    xmm2, xmm2, xmm2
+	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
+	JLE  LBB4_1262
+
+LBB4_1259:
+	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xd028f9c5               // vmovapd    xmm2, xmm0
+	JNE  LBB4_1260
+
+LBB4_1263:
+	LONG $0xd257e9c5 // vxorpd    xmm2, xmm2, xmm2
+	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
+	JG   LBB4_1256
+	JMP  LBB4_1264
+
+LBB4_1258:
+	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
+	JG   LBB4_1259
+
+LBB4_1262:
+	LONG $0xda28f9c5               // vmovapd    xmm3, xmm2
+	LONG $0x117bc1c4; WORD $0xd01c // vmovsd    qword [r8 + 8*rdx], xmm3
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xd028f9c5               // vmovapd    xmm2, xmm0
+	JE   LBB4_1263
+
+LBB4_1260:
+	LONG $0xd928f9c5 // vmovapd    xmm3, xmm1
+	JG   LBB4_1256
+
+LBB4_1264:
+	LONG $0xda28f9c5 // vmovapd    xmm3, xmm2
+	JMP  LBB4_1256
+
+LBB4_1265:
+	QUAD $0x000000a8856ef9c5 // vmovd    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
+
+LBB4_1266:
+	JLE  LBB4_1268
+	QUAD $0x00000098856ef9c5 // vmovd    xmm0, dword 152[rbp] /* [rip + .LCPI4_5] */
+
+LBB4_1268:
+	LONG $0x7e79c1c4; WORD $0x9004 // vmovd    dword [r8 + 4*rdx], xmm0
+	LONG $0x01ca8348               // or    rdx, 1
+
+LBB4_1269:
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	JE   LBB4_1351
+	QUAD $0x000000a88510fac5 // vmovss    xmm0, dword 168[rbp] /* [rip + .LCPI4_14] */
+	QUAD $0x000000988d10fac5 // vmovss    xmm1, dword 152[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_1272
+
+LBB4_1271:
+	LONG $0x117ac1c4; WORD $0x905c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm3
+	LONG $0x02c28348                           // add    rdx, 2
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_1272:
+	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
+	LONG $0xd028f8c5 // vmovaps    xmm2, xmm0
+	JNE  LBB4_1273
+	LONG $0xd257e8c5 // vxorps    xmm2, xmm2, xmm2
+	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
+	JLE  LBB4_1277
+
+LBB4_1274:
+	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xd028f8c5               // vmovaps    xmm2, xmm0
+	JNE  LBB4_1275
+
+LBB4_1278:
+	LONG $0xd257e8c5 // vxorps    xmm2, xmm2, xmm2
+	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
+	JG   LBB4_1271
+	JMP  LBB4_1279
+
+LBB4_1273:
+	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
+	JG   LBB4_1274
+
+LBB4_1277:
+	LONG $0xda28f8c5               // vmovaps    xmm3, xmm2
+	LONG $0x117ac1c4; WORD $0x901c // vmovss    dword [r8 + 4*rdx], xmm3
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xd028f8c5               // vmovaps    xmm2, xmm0
+	JE   LBB4_1278
+
+LBB4_1275:
+	LONG $0xd928f8c5 // vmovaps    xmm3, xmm1
+	JG   LBB4_1271
+
+LBB4_1279:
+	LONG $0xda28f8c5 // vmovaps    xmm3, xmm2
+	JMP  LBB4_1271
+
+LBB4_1282:
+	WORD $0xff31 // xor    edi, edi
+
+LBB4_1283:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1285
+	LONG $0x0410fdc5; BYTE $0xf9   // vmovupd    ymm0, yword [rcx + 8*rdi]
+	LONG $0xc957f1c5               // vxorpd    xmm1, xmm1, xmm1
+	LONG $0x197de2c4; WORD $0x0055 // vbroadcastsd    ymm2, qword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x197de2c4; WORD $0x085d // vbroadcastsd    ymm3, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xd254fdc5               // vandpd    ymm2, ymm0, ymm2
+	LONG $0xda56e5c5               // vorpd    ymm3, ymm3, ymm2
+	LONG $0x197de3c4; WORD $0x01dc // vextractf128    xmm4, ymm3, 1
+	LONG $0x5510fbc5; BYTE $0x10   // vmovsd    xmm2, qword 16[rbp] /* [rip + .LCPI4_6] */
+	LONG $0xea5cdbc5               // vsubsd    xmm5, xmm4, xmm2
+	LONG $0x2cfbe1c4; BYTE $0xc5   // vcvttsd2si    rax, xmm5
+	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
+	LONG $0x2cfbe1c4; BYTE $0xd4   // vcvttsd2si    rdx, xmm4
+	LONG $0xe22ef9c5               // vucomisd    xmm4, xmm2
+	LONG $0xd0430f48               // cmovae    rdx, rax
+	LONG $0x6ef9e1c4; BYTE $0xea   // vmovq    xmm5, rdx
+	LONG $0x0479e3c4; WORD $0x4ee4 // vpermilps    xmm4, xmm4, 78
+	LONG $0xf25cdbc5               // vsubsd    xmm6, xmm4, xmm2
+	LONG $0x2cfbe1c4; BYTE $0xc6   // vcvttsd2si    rax, xmm6
+	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
+	LONG $0x2cfbe1c4; BYTE $0xd4   // vcvttsd2si    rdx, xmm4
+	LONG $0xe22ef9c5               // vucomisd    xmm4, xmm2
+	LONG $0xd0430f48               // cmovae    rdx, rax
+	LONG $0x6ef9e1c4; BYTE $0xe2   // vmovq    xmm4, rdx
+	LONG $0xe46cd1c5               // vpunpcklqdq    xmm4, xmm5, xmm4
+	LONG $0xea5ce3c5               // vsubsd    xmm5, xmm3, xmm2
+	LONG $0x2cfbe1c4; BYTE $0xc5   // vcvttsd2si    rax, xmm5
+	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
+	LONG $0x2cfbe1c4; BYTE $0xd3   // vcvttsd2si    rdx, xmm3
+	LONG $0xda2ef9c5               // vucomisd    xmm3, xmm2
+	LONG $0xd0430f48               // cmovae    rdx, rax
+	LONG $0x6ef9e1c4; BYTE $0xea   // vmovq    xmm5, rdx
+	LONG $0x0479e3c4; WORD $0x4edb // vpermilps    xmm3, xmm3, 78
+	LONG $0xf25ce3c5               // vsubsd    xmm6, xmm3, xmm2
+	LONG $0x2cfbe1c4; BYTE $0xc6   // vcvttsd2si    rax, xmm6
+	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
+	LONG $0x2cfbe1c4; BYTE $0xd3   // vcvttsd2si    rdx, xmm3
+	LONG $0xda2ef9c5               // vucomisd    xmm3, xmm2
+	LONG $0xd0430f48               // cmovae    rdx, rax
+	LONG $0x6ef9e1c4; BYTE $0xd2   // vmovq    xmm2, rdx
+	LONG $0xd26cd1c5               // vpunpcklqdq    xmm2, xmm5, xmm2
+	LONG $0x386de3c4; WORD $0x01d4 // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0xc1c2fdc5; BYTE $0x04   // vcmpneqpd    ymm0, ymm0, ymm1
+	LONG $0xc254fdc5               // vandpd    ymm0, ymm0, ymm2
+	LONG $0x117dc1c4; WORD $0xf804 // vmovupd    yword [r8 + 8*rdi], ymm0
+
+LBB4_1285:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB4_1351
+
+LBB4_1286:
+	LONG $0x4512fbc5; BYTE $0x08 // vmovddup    xmm0, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
+	LONG $0x5510fbc5; BYTE $0x10 // vmovsd    xmm2, qword 16[rbp] /* [rip + .LCPI4_6] */
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xdb57e1c5             // vxorpd    xmm3, xmm3, xmm3
+
+LBB4_1287:
+	LONG $0x2410fbc5; BYTE $0xf1 // vmovsd    xmm4, qword [rcx + 8*rsi]
+	LONG $0xe954d9c5             // vandpd    xmm5, xmm4, xmm1
+	LONG $0xed56f9c5             // vorpd    xmm5, xmm0, xmm5
+	LONG $0xf25cd3c5             // vsubsd    xmm6, xmm5, xmm2
+	LONG $0x2cfbe1c4; BYTE $0xd6 // vcvttsd2si    rdx, xmm6
+	WORD $0x314c; BYTE $0xda     // xor    rdx, r11
+	LONG $0x2cfbe1c4; BYTE $0xfd // vcvttsd2si    rdi, xmm5
+	LONG $0xea2ef9c5             // vucomisd    xmm5, xmm2
+	LONG $0xfa430f48             // cmovae    rdi, rdx
+	LONG $0xdc2ef9c5             // vucomisd    xmm3, xmm4
+	LONG $0xf8440f48             // cmove    rdi, rax
+	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB4_1287
+	JMP  LBB4_1351
+
+LBB4_1280:
+	LONG $0xc850f8c5                       // vmovmskps    ecx, xmm0
+	WORD $0xe183; BYTE $0x01               // and    ecx, 1
+	WORD $0xd9f7                           // neg    ecx
+	WORD $0xc983; BYTE $0x01               // or    ecx, 1
+	LONG $0xc12adac5                       // vcvtsi2ss    xmm0, xmm4, ecx
+	QUAD $0x000000a08d10fac5               // vmovss    xmm1, dword 160[rbp] /* [rip + .LCPI4_9] */
+	LONG $0xd15cfac5                       // vsubss    xmm2, xmm0, xmm1
+	LONG $0x2cfae1c4; BYTE $0xca           // vcvttss2si    rcx, xmm2
+	QUAD $0x000000000000ba48; WORD $0x8000 // mov    rdx, -9223372036854775808
+	WORD $0x3148; BYTE $0xca               // xor    rdx, rcx
+	LONG $0x2cfae1c4; BYTE $0xc8           // vcvttss2si    rcx, xmm0
+	LONG $0xc12ef8c5                       // vucomiss    xmm0, xmm1
+	LONG $0xca430f48                       // cmovae    rcx, rdx
+
+LBB4_1281:
+	LONG $0xc00c8949 // mov    qword [r8 + 8*rax], rcx
+	JMP  LBB4_1351
+
+LBB4_1288:
+	WORD $0xff31 // xor    edi, edi
+
+LBB4_1289:
+	LONG $0x01c1f641                     // test    r9b, 1
+	JE   LBB4_1291
+	LONG $0x0410fdc5; BYTE $0xf9         // vmovupd    ymm0, yword [rcx + 8*rdi]
+	LONG $0xc957f1c5                     // vxorpd    xmm1, xmm1, xmm1
+	LONG $0xc9c2fdc5; BYTE $0x00         // vcmpeqpd    ymm1, ymm0, ymm1
+	LONG $0x197de3c4; WORD $0x01ca       // vextractf128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5                     // vpackssdw    xmm1, xmm1, xmm2
+	LONG $0x197de2c4; WORD $0x0055       // vbroadcastsd    ymm2, qword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xc254fdc5                     // vandpd    ymm0, ymm0, ymm2
+	LONG $0x197de2c4; WORD $0x0855       // vbroadcastsd    ymm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xc056edc5                     // vorpd    ymm0, ymm2, ymm0
+	LONG $0x197de2c4; WORD $0x1855       // vbroadcastsd    ymm2, qword 24[rbp] /* [rip + .LCPI4_7] */
+	LONG $0xdac2fdc5; BYTE $0x01         // vcmpltpd    ymm3, ymm0, ymm2
+	LONG $0x197de3c4; WORD $0x01dc       // vextractf128    xmm4, ymm3, 1
+	LONG $0xd25cfdc5                     // vsubpd    ymm2, ymm0, ymm2
+	LONG $0xd2e6fdc5                     // vcvttpd2dq    xmm2, ymm2
+	QUAD $0x000094ad1879e2c4; BYTE $0x00 // vbroadcastss    xmm5, dword 148[rbp] /* [rip + .LCPI4_4] */
+	LONG $0xdc6be1c5                     // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0xd557e9c5                     // vxorpd    xmm2, xmm2, xmm5
+	LONG $0xc0e6fdc5                     // vcvttpd2dq    xmm0, ymm0
+	LONG $0x4a69e3c4; WORD $0x30c0       // vblendvps    xmm0, xmm2, xmm0, xmm3
+	LONG $0xc0dff1c5                     // vpandn    xmm0, xmm1, xmm0
+	LONG $0x7f7ac1c4; WORD $0xb804       // vmovdqu    oword [r8 + 4*rdi], xmm0
+
+LBB4_1291:
+	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
+	JE   LBB4_1351
+
+LBB4_1292:
+	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
+	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
+	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_1293:
+	LONG $0x1c10fbc5; BYTE $0xf1 // vmovsd    xmm3, qword [rcx + 8*rsi]
+	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
+	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
+	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
+	LONG $0x2cfbe1c4; BYTE $0xd3 // vcvttsd2si    rdx, xmm3
+	LONG $0xd2440f41             // cmove    edx, r10d
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JNE  LBB4_1293
+	JMP  LBB4_1351
+
+LBB4_1294:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1295:
+	LONG $0x01c1f641                     // test    r9b, 1
+	JE   LBB4_1297
+	LONG $0x046ffec5; BYTE $0xb1         // vmovdqu    ymm0, yword [rcx + 4*rsi]
+	LONG $0xe072f5c5; BYTE $0x1f         // vpsrad    ymm1, ymm0, 31
+	QUAD $0x00009c95587de2c4; BYTE $0x00 // vpbroadcastd    ymm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xcaebf5c5                     // vpor    ymm1, ymm1, ymm2
+	LONG $0xc95bfcc5                     // vcvtdq2ps    ymm1, ymm1
+	QUAD $0x0000a495187de2c4; BYTE $0x00 // vbroadcastss    ymm2, dword 164[rbp] /* [rip + .LCPI4_10] */
+	LONG $0xdac2f4c5; BYTE $0x01         // vcmpltps    ymm3, ymm1, ymm2
+	LONG $0xd25cf4c5                     // vsubps    ymm2, ymm1, ymm2
+	LONG $0xd25bfec5                     // vcvttps2dq    ymm2, ymm2
+	QUAD $0x000094a5187de2c4; BYTE $0x00 // vbroadcastss    ymm4, dword 148[rbp] /* [rip + .LCPI4_4] */
+	LONG $0xd457ecc5                     // vxorps    ymm2, ymm2, ymm4
+	LONG $0xc95bfec5                     // vcvttps2dq    ymm1, ymm1
+	LONG $0x4a6de3c4; WORD $0x30c9       // vblendvps    ymm1, ymm2, ymm1, ymm3
+	LONG $0xd257e8c5                     // vxorps    xmm2, xmm2, xmm2
+	LONG $0xc2c2fcc5; BYTE $0x04         // vcmpneqps    ymm0, ymm0, ymm2
+	LONG $0xc154fcc5                     // vandps    ymm0, ymm0, ymm1
+	LONG $0x117cc1c4; WORD $0xb004       // vmovups    yword [r8 + 4*rsi], ymm0
+
+LBB4_1297:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_1298:
+	LONG $0xc0eff9c5 // vpxor    xmm0, xmm0, xmm0
+	JMP  LBB4_1300
+
+LBB4_1299:
+	LONG $0x90348941         // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JE   LBB4_1351
+
+LBB4_1300:
+	LONG $0x0c10fac5; BYTE $0x91 // vmovss    xmm1, dword [rcx + 4*rdx]
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
+	JE   LBB4_1299
+	LONG $0xf150f8c5             // vmovmskps    esi, xmm1
+	WORD $0xe683; BYTE $0x01     // and    esi, 1
+	WORD $0xdef7                 // neg    esi
+	WORD $0xce83; BYTE $0x01     // or    esi, 1
+	LONG $0xce2abac5             // vcvtsi2ss    xmm1, xmm8, esi
+	LONG $0x2cfae1c4; BYTE $0xf1 // vcvttss2si    rsi, xmm1
+	JMP  LBB4_1299
+
+LBB4_1302:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1303:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1305
+	LONG $0x0410fdc5; BYTE $0xf1   // vmovupd    ymm0, yword [rcx + 8*rsi]
+	LONG $0xc957f1c5               // vxorpd    xmm1, xmm1, xmm1
+	LONG $0x197de2c4; WORD $0x0055 // vbroadcastsd    ymm2, qword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xd254fdc5               // vandpd    ymm2, ymm0, ymm2
+	LONG $0x197de2c4; WORD $0x085d // vbroadcastsd    ymm3, qword 8[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xd256e5c5               // vorpd    ymm2, ymm3, ymm2
+	LONG $0x197de3c4; WORD $0x01d3 // vextractf128    xmm3, ymm2, 1
+	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
+	LONG $0x6ef9e1c4; BYTE $0xe7   // vmovq    xmm4, rdi
+	LONG $0x0479e3c4; WORD $0x4edb // vpermilps    xmm3, xmm3, 78
+	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
+	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
+	LONG $0xdb6cd9c5               // vpunpcklqdq    xmm3, xmm4, xmm3
+	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
+	LONG $0x6ef9e1c4; BYTE $0xe7   // vmovq    xmm4, rdi
+	LONG $0x0479e3c4; WORD $0x4ed2 // vpermilps    xmm2, xmm2, 78
+	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
+	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
+	LONG $0xd26cd9c5               // vpunpcklqdq    xmm2, xmm4, xmm2
+	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
+	LONG $0xc1c2fdc5; BYTE $0x04   // vcmpneqpd    ymm0, ymm0, ymm1
+	LONG $0xc254fdc5               // vandpd    ymm0, ymm0, ymm2
+	LONG $0x117dc1c4; WORD $0xf004 // vmovupd    yword [r8 + 8*rsi], ymm0
+
+LBB4_1305:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1351
+
+LBB4_1306:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc057f9c5             // vxorpd    xmm0, xmm0, xmm0
+	LONG $0x4d28f9c5; BYTE $0x30 // vmovapd    xmm1, oword 48[rbp] /* [rip + .LCPI4_2] */
+	LONG $0x5512fbc5; BYTE $0x08 // vmovddup    xmm2, qword 8[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_1307:
+	LONG $0x1c10fbc5; BYTE $0xd1 // vmovsd    xmm3, qword [rcx + 8*rdx]
+	LONG $0xc32ef9c5             // vucomisd    xmm0, xmm3
+	LONG $0xd954e1c5             // vandpd    xmm3, xmm3, xmm1
+	LONG $0xdb56e9c5             // vorpd    xmm3, xmm2, xmm3
+	LONG $0x2cfbe1c4; BYTE $0xfb // vcvttsd2si    rdi, xmm3
+	LONG $0xfe440f48             // cmove    rdi, rsi
+	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1307
+	JMP  LBB4_1351
+
+LBB4_1308:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1309:
+	LONG $0x01c1f641                     // test    r9b, 1
+	JE   LBB4_1311
+	LONG $0x0410f8c5; BYTE $0xb1         // vmovups    xmm0, oword [rcx + 4*rsi]
+	LONG $0xc9eff1c5                     // vpxor    xmm1, xmm1, xmm1
+	LONG $0xc9c2f8c5; BYTE $0x00         // vcmpeqps    xmm1, xmm0, xmm1
+	LONG $0x257de2c4; BYTE $0xc9         // vpmovsxdq    ymm1, xmm1
+	LONG $0xe072f9c5; BYTE $0x1f         // vpsrad    xmm0, xmm0, 31
+	QUAD $0x00009c955879e2c4; BYTE $0x00 // vpbroadcastd    xmm2, dword 156[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc2ebf9c5                     // vpor    xmm0, xmm0, xmm2
+	LONG $0xc05bf8c5                     // vcvtdq2ps    xmm0, xmm0
+	LONG $0x0479e3c4; WORD $0xe7d0       // vpermilps    xmm2, xmm0, 231
+	LONG $0x2cfae1c4; BYTE $0xc2         // vcvttss2si    rax, xmm2
+	LONG $0x6ef9e1c4; BYTE $0xd0         // vmovq    xmm2, rax
+	LONG $0x0579e3c4; WORD $0x01d8       // vpermilpd    xmm3, xmm0, 1
+	LONG $0x2cfae1c4; BYTE $0xc3         // vcvttss2si    rax, xmm3
+	LONG $0x6ef9e1c4; BYTE $0xd8         // vmovq    xmm3, rax
+	LONG $0xd26ce1c5                     // vpunpcklqdq    xmm2, xmm3, xmm2
+	LONG $0x2cfae1c4; BYTE $0xc0         // vcvttss2si    rax, xmm0
+	LONG $0x6ef9e1c4; BYTE $0xd8         // vmovq    xmm3, rax
+	LONG $0xc016fac5                     // vmovshdup    xmm0, xmm0
+	LONG $0x2cfae1c4; BYTE $0xc0         // vcvttss2si    rax, xmm0
+	LONG $0x6ef9e1c4; BYTE $0xc0         // vmovq    xmm0, rax
+	LONG $0xc06ce1c5                     // vpunpcklqdq    xmm0, xmm3, xmm0
+	LONG $0x387de3c4; WORD $0x01c2       // vinserti128    ymm0, ymm0, xmm2, 1
+	LONG $0xc0dff5c5                     // vpandn    ymm0, ymm1, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf004       // vmovdqu    yword [r8 + 8*rsi], ymm0
+
+LBB4_1311:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1351
+
+LBB4_1312:
+	LONG $0xc057f8c5 // vxorps    xmm0, xmm0, xmm0
+	JMP  LBB4_1315
+
+LBB4_1313:
+	LONG $0xc150f8c5             // vmovmskps    eax, xmm1
+	WORD $0xe083; BYTE $0x01     // and    eax, 1
+	WORD $0xd8f7                 // neg    eax
+	WORD $0xc883; BYTE $0x01     // or    eax, 1
+	LONG $0xc82acac5             // vcvtsi2ss    xmm1, xmm6, eax
+	LONG $0x2cfae1c4; BYTE $0xf1 // vcvttss2si    rsi, xmm1
+	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JE   LBB4_1351
+
+LBB4_1315:
+	LONG $0x0c10fac5; BYTE $0x91 // vmovss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc12ef8c5             // vucomiss    xmm0, xmm1
+	JNE  LBB4_1313
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1315
+	JMP  LBB4_1351
+
+LBB4_1317:
+	WORD $0xff31 // xor    edi, edi
+
+LBB4_1318:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1320
+	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0c75fdc5; BYTE $0x79               // vpcmpeqw    ymm1, ymm0, yword [rcx + 2*rdi]
+	QUAD $0x000000c0956ffdc5                   // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
+	LONG $0x4475fdc5; WORD $0x2079             // vpcmpeqw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0xcadff5c5                           // vpandn    ymm1, ymm1, ymm2
+	LONG $0xc2dffdc5                           // vpandn    ymm0, ymm0, ymm2
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB4_1320:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1321
+
+LBB4_1325:
+	WORD $0xff31 // xor    edi, edi
+
+LBB4_1326:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1328
+	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0c75fdc5; BYTE $0x79               // vpcmpeqw    ymm1, ymm0, yword [rcx + 2*rdi]
+	QUAD $0x000000c0956ffdc5                   // vmovdqa    ymm2, yword 192[rbp] /* [rip + .LCPI4_18] */
+	LONG $0x4475fdc5; WORD $0x2079             // vpcmpeqw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0xcadff5c5                           // vpandn    ymm1, ymm1, ymm2
+	LONG $0xc2dffdc5                           // vpandn    ymm0, ymm0, ymm2
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB4_1328:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1351
+	JMP  LBB4_1329
+
+LBB4_1333:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1334:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1336
+	LONG $0x046ffec5; BYTE $0x71               // vmovdqu    ymm0, yword [rcx + 2*rsi]
+	LONG $0x4c6ffec5; WORD $0x2071             // vmovdqu    ymm1, yword [rcx + 2*rsi + 32]
+	LONG $0xd2efe9c5                           // vpxor    xmm2, xmm2, xmm2
+	LONG $0xda75fdc5                           // vpcmpeqw    ymm3, ymm0, ymm2
+	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
+	LONG $0xdcefe5c5                           // vpxor    ymm3, ymm3, ymm4
+	LONG $0xd275f5c5                           // vpcmpeqw    ymm2, ymm1, ymm2
+	LONG $0xd4efedc5                           // vpxor    ymm2, ymm2, ymm4
+	QUAD $0x000000c0a56ffdc5                   // vmovdqa    ymm4, yword 192[rbp] /* [rip + .LCPI4_18] */
+	LONG $0xc065ddc5                           // vpcmpgtw    ymm0, ymm4, ymm0
+	LONG $0xc965ddc5                           // vpcmpgtw    ymm1, ymm4, ymm1
+	LONG $0x4c5de3c4; WORD $0x00c3             // vpblendvb    ymm0, ymm4, ymm3, ymm0
+	LONG $0x4c5de3c4; WORD $0x10ca             // vpblendvb    ymm1, ymm4, ymm2, ymm1
+	LONG $0x7f7ec1c4; WORD $0x7004             // vmovdqu    yword [r8 + 2*rsi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x704c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm1
+
+LBB4_1336:
+	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
+	JE   LBB4_1351
+	JMP  LBB4_1337
+
+LBB4_1342:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1343:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1345
+	LONG $0x046ffec5; BYTE $0x71               // vmovdqu    ymm0, yword [rcx + 2*rsi]
+	LONG $0x4c6ffec5; WORD $0x2071             // vmovdqu    ymm1, yword [rcx + 2*rsi + 32]
+	LONG $0xd2efe9c5                           // vpxor    xmm2, xmm2, xmm2
+	LONG $0xda75fdc5                           // vpcmpeqw    ymm3, ymm0, ymm2
+	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
+	LONG $0xdcefe5c5                           // vpxor    ymm3, ymm3, ymm4
+	LONG $0xd275f5c5                           // vpcmpeqw    ymm2, ymm1, ymm2
+	LONG $0xd4efedc5                           // vpxor    ymm2, ymm2, ymm4
+	QUAD $0x000000c0a56ffdc5                   // vmovdqa    ymm4, yword 192[rbp] /* [rip + .LCPI4_18] */
+	LONG $0xc065ddc5                           // vpcmpgtw    ymm0, ymm4, ymm0
+	LONG $0xc965ddc5                           // vpcmpgtw    ymm1, ymm4, ymm1
+	LONG $0x4c5de3c4; WORD $0x00c3             // vpblendvb    ymm0, ymm4, ymm3, ymm0
+	LONG $0x4c5de3c4; WORD $0x10ca             // vpblendvb    ymm1, ymm4, ymm2, ymm1
+	LONG $0x7f7ec1c4; WORD $0x7004             // vmovdqu    yword [r8 + 2*rsi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x704c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rsi + 32], ymm1
+
+LBB4_1345:
+	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
+	JNE  LBB4_1346
+
+LBB4_1351:
+	VZEROUPPER
+	RET
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go
new file mode 100644
index 00000000000..67a8bbb4a97
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go
@@ -0,0 +1,60 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && !noasm
+
+package kernels
+
+import (
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+)
+
+//go:noescape
+func _arithmetic_unary_same_types_sse4(typ int, op int8, input, output unsafe.Pointer, len int)
+
+func arithmeticUnarySSE4(typ arrow.Type, op ArithmeticOp, input, out []byte, len int) {
+	_arithmetic_unary_same_types_sse4(int(typ), int8(op), unsafe.Pointer(&input[0]), unsafe.Pointer(&out[0]), len)
+}
+
+//go:noescape
+func _arithmetic_binary_sse4(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
+
+func arithmeticSSE4(typ arrow.Type, op ArithmeticOp, left, right, out []byte, len int) {
+	_arithmetic_binary_sse4(int(typ), int8(op), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
+}
+
+//go:noescape
+func _arithmetic_arr_scalar_sse4(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
+
+func arithmeticArrScalarSSE4(typ arrow.Type, op ArithmeticOp, left []byte, right unsafe.Pointer, out []byte, len int) {
+	_arithmetic_arr_scalar_sse4(int(typ), int8(op), unsafe.Pointer(&left[0]), right, unsafe.Pointer(&out[0]), len)
+}
+
+//go:noescape
+func _arithmetic_scalar_arr_sse4(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
+
+func arithmeticScalarArrSSE4(typ arrow.Type, op ArithmeticOp, left unsafe.Pointer, right, out []byte, len int) {
+	_arithmetic_scalar_arr_sse4(int(typ), int8(op), left, unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
+}
+
+//go:noescape
+func _arithmetic_unary_diff_type_sse4(itype, otype int, op int8, input, output unsafe.Pointer, len int)
+
+func arithmeticUnaryDiffTypesSSE4(ityp, otyp arrow.Type, op ArithmeticOp, input, output []byte, len int) {
+	_arithmetic_unary_diff_type_sse4(int(ityp), int(otyp), int8(op), unsafe.Pointer(&input[0]), unsafe.Pointer(&output[0]), len)
+}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
new file mode 100644
index 00000000000..82c279ebfde
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
@@ -0,0 +1,39139 @@
+//+build !noasm !appengine
+// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
+
+DATA LCDATA1<>+0x000(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA1<>+0x008(SB)/8, $0x00ff00ff00ff00ff
+GLOBL LCDATA1<>(SB), 8, $16
+
+TEXT ·_arithmetic_binary_sse4(SB), $0-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+	LEAQ LCDATA1<>(SB), BP
+
+	LONG $0x14fe8040         // cmp    sil, 20
+	JG   LBB0_11
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB0_21
+	LONG $0x01fe8040         // cmp    sil, 1
+	JE   LBB0_367
+	LONG $0x02fe8040         // cmp    sil, 2
+	JNE  LBB0_1013
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_719
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_6
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_760
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_776
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_792
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_801:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_803
+
+LBB0_802:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	LONG $0xb204af0f         // imul    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_802
+
+LBB0_803:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_804:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_804
+	JMP  LBB0_1013
+
+LBB0_11:
+	LONG $0x15fe8040         // cmp    sil, 21
+	JE   LBB0_194
+	LONG $0x16fe8040         // cmp    sil, 22
+	JE   LBB0_540
+	LONG $0x17fe8040         // cmp    sil, 23
+	JNE  LBB0_1013
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_869
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_16
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_910
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_926
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_942
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_951:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_953
+
+LBB0_952:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	LONG $0xb204af0f         // imul    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_952
+
+LBB0_953:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_954:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_954
+	JMP  LBB0_1013
+
+LBB0_21:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_34
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_23
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_75
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_91
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_107
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_116:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_118
+
+LBB0_117:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_117
+
+LBB0_118:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_119:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_119
+	JMP  LBB0_1013
+
+LBB0_367:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_380
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_369
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_421
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_437
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_453
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_462:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_464
+
+LBB0_463:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_463
+
+LBB0_464:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_465:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_465
+	JMP  LBB0_1013
+
+LBB0_194:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_207
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_196
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_248
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_264
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_280
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_289:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_291
+
+LBB0_290:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_290
+
+LBB0_291:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_292:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_292
+	JMP  LBB0_1013
+
+LBB0_540:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_553
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_542
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_594
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_610
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_626
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_635:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_637
+
+LBB0_636:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_636
+
+LBB0_637:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_638:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_638
+	JMP  LBB0_1013
+
+LBB0_719:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_720
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_826
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_834
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_850
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_859:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_861
+
+LBB0_860:
+	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04590ff2; BYTE $0xf2   // mulsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_860
+
+LBB0_861:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1013
+
+LBB0_862:
+	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04590ff2; BYTE $0xf2               // mulsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x44590ff2; WORD $0x08f2             // mulsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x44590ff2; WORD $0x10f2             // mulsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x44590ff2; WORD $0x18f2             // mulsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_862
+	JMP  LBB0_1013
+
+LBB0_869:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_870
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_976
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_984
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_1000
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_1009:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1011
+
+LBB0_1010:
+	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04590ff2; BYTE $0xf2   // mulsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_1010
+
+LBB0_1011:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1013
+
+LBB0_1012:
+	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04590ff2; BYTE $0xf2               // mulsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x44590ff2; WORD $0x08f2             // mulsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x44590ff2; WORD $0x10f2             // mulsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x44590ff2; WORD $0x18f2             // mulsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_1012
+	JMP  LBB0_1013
+
+LBB0_34:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_35
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_149
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_165
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_181
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_190:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_192
+
+LBB0_191:
+	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04580ff2; BYTE $0xf2   // addsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_191
+
+LBB0_192:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1013
+
+LBB0_193:
+	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04580ff2; BYTE $0xf2               // addsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x44580ff2; WORD $0x08f2             // addsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x44580ff2; WORD $0x10f2             // addsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x44580ff2; WORD $0x18f2             // addsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_193
+	JMP  LBB0_1013
+
+LBB0_380:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_381
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_495
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_511
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_527
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_536:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_538
+
+LBB0_537:
+	LONG $0x04100ff2; BYTE $0xf2   // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045c0ff2; BYTE $0xf1   // subsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_537
+
+LBB0_538:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1013
+
+LBB0_539:
+	LONG $0x04100ff2; BYTE $0xf2               // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045c0ff2; BYTE $0xf1               // subsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x44100ff2; WORD $0x08f2             // movsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x445c0ff2; WORD $0x08f1             // subsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x44100ff2; WORD $0x10f2             // movsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x445c0ff2; WORD $0x10f1             // subsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x44100ff2; WORD $0x18f2             // movsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x445c0ff2; WORD $0x18f1             // subsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_539
+	JMP  LBB0_1013
+
+LBB0_207:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_208
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_322
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_338
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_354
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_363:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_365
+
+LBB0_364:
+	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04580ff2; BYTE $0xf2   // addsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_364
+
+LBB0_365:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1013
+
+LBB0_366:
+	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04580ff2; BYTE $0xf2               // addsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x44580ff2; WORD $0x08f2             // addsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x44580ff2; WORD $0x10f2             // addsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x44580ff2; WORD $0x18f2             // addsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_366
+	JMP  LBB0_1013
+
+LBB0_553:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_554
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_668
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_684
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_700
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_709:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_711
+
+LBB0_710:
+	LONG $0x04100ff2; BYTE $0xf2   // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045c0ff2; BYTE $0xf1   // subsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_710
+
+LBB0_711:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1013
+
+LBB0_712:
+	LONG $0x04100ff2; BYTE $0xf2               // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045c0ff2; BYTE $0xf1               // subsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x44100ff2; WORD $0x08f2             // movsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x445c0ff2; WORD $0x08f1             // subsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x44100ff2; WORD $0x10f2             // movsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x445c0ff2; WORD $0x10f1             // subsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x44100ff2; WORD $0x18f2             // movsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x445c0ff2; WORD $0x18f1             // subsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_712
+	JMP  LBB0_1013
+
+LBB0_6:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_731
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_747
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_756:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB0_758
+
+LBB0_757:
+	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
+	LONG $0x38048841         // mov    byte [r8 + rdi], al
+	LONG $0x01c78348         // add    rdi, 1
+	LONG $0xffc68348         // add    rsi, -1
+	JNE  LBB0_757
+
+LBB0_758:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_759:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB0_759
+	JMP  LBB0_1013
+
+LBB0_16:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_881
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_897
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_906:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB0_908
+
+LBB0_907:
+	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
+	LONG $0x38048841         // mov    byte [r8 + rdi], al
+	LONG $0x01c78348         // add    rdi, 1
+	LONG $0xffc68348         // add    rsi, -1
+	JNE  LBB0_907
+
+LBB0_908:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_909:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB0_909
+	JMP  LBB0_1013
+
+LBB0_23:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_46
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_62
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_71:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_73
+
+LBB0_72:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_72
+
+LBB0_73:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_74:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_74
+	JMP  LBB0_1013
+
+LBB0_369:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_392
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_408
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_417:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_419
+
+LBB0_418:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_418
+
+LBB0_419:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_420:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_420
+	JMP  LBB0_1013
+
+LBB0_196:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_219
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_235
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_244:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_246
+
+LBB0_245:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_245
+
+LBB0_246:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_247:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_247
+	JMP  LBB0_1013
+
+LBB0_542:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_565
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_581
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_590:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_592
+
+LBB0_591:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_591
+
+LBB0_592:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_593:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_593
+	JMP  LBB0_1013
+
+LBB0_720:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_805
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_821
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_823
+
+LBB0_870:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_955
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_971
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_973
+
+LBB0_35:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_120
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_136
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_145:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_147
+
+LBB0_146:
+	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_146
+
+LBB0_147:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_148:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_148
+	JMP  LBB0_1013
+
+LBB0_381:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_466
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_482
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_491:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_493
+
+LBB0_492:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_492
+
+LBB0_493:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_494:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_494
+	JMP  LBB0_1013
+
+LBB0_208:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_293
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_309
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_318:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_320
+
+LBB0_319:
+	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_319
+
+LBB0_320:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_321:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_321
+	JMP  LBB0_1013
+
+LBB0_554:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_639
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_1013
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_655
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_664:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_666
+
+LBB0_665:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_665
+
+LBB0_666:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_667:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_667
+	JMP  LBB0_1013
+
+LBB0_760:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_763
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_772:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_774
+
+LBB0_773:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x04af0f66; BYTE $0x72 // imul    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_773
+
+LBB0_774:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_775:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_775
+	JMP  LBB0_1013
+
+LBB0_776:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_779
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_788:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_790
+
+LBB0_789:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x04af0f66; BYTE $0x72 // imul    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_789
+
+LBB0_790:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_791:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_791
+	JMP  LBB0_1013
+
+LBB0_910:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_913
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_922:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_924
+
+LBB0_923:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x04af0f66; BYTE $0x72 // imul    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_923
+
+LBB0_924:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_925:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_925
+	JMP  LBB0_1013
+
+LBB0_926:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_929
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_938:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_940
+
+LBB0_939:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x04af0f66; BYTE $0x72 // imul    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_939
+
+LBB0_940:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_941:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x04af0f66; BYTE $0x72   // imul    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x44af0f66; WORD $0x0272 // imul    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x44af0f66; WORD $0x0472 // imul    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x44af0f66; WORD $0x0672 // imul    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_941
+	JMP  LBB0_1013
+
+LBB0_75:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_78
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_87:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_89
+
+LBB0_88:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_88
+
+LBB0_89:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_90:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_90
+	JMP  LBB0_1013
+
+LBB0_91:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_94
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_103:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_105
+
+LBB0_104:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_104
+
+LBB0_105:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_106:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_106
+	JMP  LBB0_1013
+
+LBB0_421:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_424
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_433:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_435
+
+LBB0_434:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_434
+
+LBB0_435:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_436:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_436
+	JMP  LBB0_1013
+
+LBB0_437:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_440
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_449:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_451
+
+LBB0_450:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_450
+
+LBB0_451:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_452:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_452
+	JMP  LBB0_1013
+
+LBB0_248:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_251
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_260:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_262
+
+LBB0_261:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_261
+
+LBB0_262:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_263:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_263
+	JMP  LBB0_1013
+
+LBB0_264:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_267
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_276:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_278
+
+LBB0_277:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_277
+
+LBB0_278:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_279:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_279
+	JMP  LBB0_1013
+
+LBB0_594:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_597
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_606:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_608
+
+LBB0_607:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_607
+
+LBB0_608:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_609:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_609
+	JMP  LBB0_1013
+
+LBB0_610:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_613
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_622:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_624
+
+LBB0_623:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_623
+
+LBB0_624:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_625:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_625
+	JMP  LBB0_1013
+
+LBB0_826:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_829
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_831
+
+LBB0_834:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_837
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_846:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_848
+
+LBB0_847:
+	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04590ff3; BYTE $0xb2   // mulss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_847
+
+LBB0_848:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1013
+
+LBB0_849:
+	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04590ff3; BYTE $0xb2               // mulss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x44590ff3; WORD $0x04b2             // mulss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x44590ff3; WORD $0x08b2             // mulss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x44590ff3; WORD $0x0cb2             // mulss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_849
+	JMP  LBB0_1013
+
+LBB0_976:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_979
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_981
+
+LBB0_984:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_987
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_996:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_998
+
+LBB0_997:
+	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04590ff3; BYTE $0xb2   // mulss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_997
+
+LBB0_998:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1013
+
+LBB0_999:
+	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04590ff3; BYTE $0xb2               // mulss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x44590ff3; WORD $0x04b2             // mulss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x44590ff3; WORD $0x08b2             // mulss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x44590ff3; WORD $0x0cb2             // mulss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_999
+	JMP  LBB0_1013
+
+LBB0_149:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_152
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_161:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_163
+
+LBB0_162:
+	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_162
+
+LBB0_163:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_164:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_164
+	JMP  LBB0_1013
+
+LBB0_165:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_168
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_177:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_179
+
+LBB0_178:
+	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04580ff3; BYTE $0xb2   // addss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_178
+
+LBB0_179:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1013
+
+LBB0_180:
+	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04580ff3; BYTE $0xb2               // addss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x44580ff3; WORD $0x04b2             // addss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x44580ff3; WORD $0x08b2             // addss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x44580ff3; WORD $0x0cb2             // addss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_180
+	JMP  LBB0_1013
+
+LBB0_495:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_498
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_507:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_509
+
+LBB0_508:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_508
+
+LBB0_509:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_510:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_510
+	JMP  LBB0_1013
+
+LBB0_511:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_514
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_523:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_525
+
+LBB0_524:
+	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_524
+
+LBB0_525:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1013
+
+LBB0_526:
+	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_526
+	JMP  LBB0_1013
+
+LBB0_322:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_325
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_334:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_336
+
+LBB0_335:
+	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_335
+
+LBB0_336:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_337:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_337
+	JMP  LBB0_1013
+
+LBB0_338:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_341
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_350:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_352
+
+LBB0_351:
+	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04580ff3; BYTE $0xb2   // addss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_351
+
+LBB0_352:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1013
+
+LBB0_353:
+	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04580ff3; BYTE $0xb2               // addss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x44580ff3; WORD $0x04b2             // addss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x44580ff3; WORD $0x08b2             // addss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x44580ff3; WORD $0x0cb2             // addss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_353
+	JMP  LBB0_1013
+
+LBB0_668:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_671
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_680:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_682
+
+LBB0_681:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_681
+
+LBB0_682:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_683:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_683
+	JMP  LBB0_1013
+
+LBB0_684:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_687
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_696:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_698
+
+LBB0_697:
+	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_697
+
+LBB0_698:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1013
+
+LBB0_699:
+	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_699
+	JMP  LBB0_1013
+
+LBB0_731:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_734
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_743:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB0_745
+
+LBB0_744:
+	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
+	LONG $0x38048841         // mov    byte [r8 + rdi], al
+	LONG $0x01c78348         // add    rdi, 1
+	LONG $0xffc68348         // add    rsi, -1
+	JNE  LBB0_744
+
+LBB0_745:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_746:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB0_746
+	JMP  LBB0_1013
+
+LBB0_881:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_884
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_893:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB0_895
+
+LBB0_894:
+	LONG $0x3904b60f         // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a // mul    byte [rdx + rdi]
+	LONG $0x38048841         // mov    byte [r8 + rdi], al
+	LONG $0x01c78348         // add    rdi, 1
+	LONG $0xffc68348         // add    rsi, -1
+	JNE  LBB0_894
+
+LBB0_895:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_896:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0x24f6; BYTE $0x3a     // mul    byte [rdx + rdi]
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	LONG $0x013a64f6             // mul    byte [rdx + rdi + 1]
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	LONG $0x023a64f6             // mul    byte [rdx + rdi + 2]
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	LONG $0x033a64f6             // mul    byte [rdx + rdi + 3]
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB0_896
+	JMP  LBB0_1013
+
+LBB0_46:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_49
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_58:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_60
+
+LBB0_59:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_59
+
+LBB0_60:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_61:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_61
+	JMP  LBB0_1013
+
+LBB0_392:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_395
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_404:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_406
+
+LBB0_405:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_405
+
+LBB0_406:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_407:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_407
+	JMP  LBB0_1013
+
+LBB0_219:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_222
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_231:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_233
+
+LBB0_232:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_232
+
+LBB0_233:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_234:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_234
+	JMP  LBB0_1013
+
+LBB0_565:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_568
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_577:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_579
+
+LBB0_578:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_578
+
+LBB0_579:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_580:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_580
+	JMP  LBB0_1013
+
+LBB0_805:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_808
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_817:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_819
+
+LBB0_818:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	LONG $0xb204af0f         // imul    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_818
+
+LBB0_819:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_820:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_820
+	JMP  LBB0_1013
+
+LBB0_955:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_958
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_967:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_969
+
+LBB0_968:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	LONG $0xb204af0f         // imul    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_968
+
+LBB0_969:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_970:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	LONG $0xb204af0f             // imul    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb244af0f; BYTE $0x04 // imul    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb244af0f; BYTE $0x08 // imul    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb244af0f; BYTE $0x0c // imul    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_970
+	JMP  LBB0_1013
+
+LBB0_120:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_123
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_132:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_134
+
+LBB0_133:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_133
+
+LBB0_134:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_135:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_135
+	JMP  LBB0_1013
+
+LBB0_466:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_469
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_478:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_480
+
+LBB0_479:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_479
+
+LBB0_480:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_481:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_481
+	JMP  LBB0_1013
+
+LBB0_293:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_296
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_305:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_307
+
+LBB0_306:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_306
+
+LBB0_307:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_308:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_308
+	JMP  LBB0_1013
+
+LBB0_639:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_1013
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_642
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_651:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_653
+
+LBB0_652:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_652
+
+LBB0_653:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_1013
+
+LBB0_654:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_654
+	JMP  LBB0_1013
+
+LBB0_792:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_801
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_801
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_795
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_797:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_797
+	JMP  LBB0_798
+
+LBB0_942:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_951
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_951
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_945
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_947:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_947
+	JMP  LBB0_948
+
+LBB0_107:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_116
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_116
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_110
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_112:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_112
+	JMP  LBB0_113
+
+LBB0_453:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_462
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_462
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_456
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_458:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_458
+	JMP  LBB0_459
+
+LBB0_280:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_289
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_289
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_283
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_285:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_285
+	JMP  LBB0_286
+
+LBB0_626:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_635
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_635
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_629
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_631:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_631
+	JMP  LBB0_632
+
+LBB0_850:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_859
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_859
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_853
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_855:
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_855
+	JMP  LBB0_856
+
+LBB0_1000:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_1009
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_1009
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1003
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_1005:
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_1005
+	JMP  LBB0_1006
+
+LBB0_181:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_190
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_190
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_184
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_186:
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_186
+	JMP  LBB0_187
+
+LBB0_527:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_536
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_536
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_530
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_532:
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x30f9             // movupd    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_532
+	JMP  LBB0_533
+
+LBB0_354:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_363
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_363
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_357
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_359:
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_359
+	JMP  LBB0_360
+
+LBB0_700:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_709
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_709
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_703
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_705:
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x30f9             // movupd    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_705
+	JMP  LBB0_706
+
+LBB0_747:
+	LONG $0x10348d4b             // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a             // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
+	LONG $0xd1970f41             // seta    r9b
+	LONG $0x11048d4a             // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6     // cmp    rsi, rdx
+	LONG $0xd3970f41             // seta    r11b
+	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0     // seta    al
+	WORD $0x3948; BYTE $0xce     // cmp    rsi, rcx
+	LONG $0xd6970f40             // seta    sil
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8445; BYTE $0xd9     // test    r9b, r11b
+	JNE  LBB0_756
+	WORD $0x2040; BYTE $0xf0     // and    al, sil
+	JNE  LBB0_756
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	LONG $0xe0478d48             // lea    rax, [rdi - 32]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_750
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x456f0f66; BYTE $0x00 // movdqa    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_752:
+	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
+	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
+	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
+	LONG $0x646f0ff3; WORD $0x1001             // movdqu    xmm4, oword [rcx + rax + 16]
+	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
+	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
+	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
+	LONG $0xf0db0f66                           // pand    xmm6, xmm0
+	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
+	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
+	LONG $0xe0db0f66                           // pand    xmm4, xmm0
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x0034             // movdqu    oword [r8 + rax], xmm6
+	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm3
+	LONG $0x4c6f0ff3; WORD $0x2002             // movdqu    xmm1, oword [rdx + rax + 32]
+	LONG $0x546f0ff3; WORD $0x3002             // movdqu    xmm2, oword [rdx + rax + 48]
+	LONG $0x5c6f0ff3; WORD $0x2001             // movdqu    xmm3, oword [rcx + rax + 32]
+	LONG $0x646f0ff3; WORD $0x3001             // movdqu    xmm4, oword [rcx + rax + 48]
+	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
+	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
+	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
+	LONG $0xf0db0f66                           // pand    xmm6, xmm0
+	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
+	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
+	LONG $0xe0db0f66                           // pand    xmm4, xmm0
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x0074; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm6
+	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm3
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB0_752
+	JMP  LBB0_753
+
+LBB0_897:
+	LONG $0x10348d4b             // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a             // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
+	LONG $0xd1970f41             // seta    r9b
+	LONG $0x11048d4a             // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6     // cmp    rsi, rdx
+	LONG $0xd3970f41             // seta    r11b
+	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0     // seta    al
+	WORD $0x3948; BYTE $0xce     // cmp    rsi, rcx
+	LONG $0xd6970f40             // seta    sil
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8445; BYTE $0xd9     // test    r9b, r11b
+	JNE  LBB0_906
+	WORD $0x2040; BYTE $0xf0     // and    al, sil
+	JNE  LBB0_906
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	LONG $0xe0478d48             // lea    rax, [rdi - 32]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_900
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x456f0f66; BYTE $0x00 // movdqa    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_902:
+	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
+	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
+	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
+	LONG $0x646f0ff3; WORD $0x1001             // movdqu    xmm4, oword [rcx + rax + 16]
+	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
+	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
+	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
+	LONG $0xf0db0f66                           // pand    xmm6, xmm0
+	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
+	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
+	LONG $0xe0db0f66                           // pand    xmm4, xmm0
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x0034             // movdqu    oword [r8 + rax], xmm6
+	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm3
+	LONG $0x4c6f0ff3; WORD $0x2002             // movdqu    xmm1, oword [rdx + rax + 32]
+	LONG $0x546f0ff3; WORD $0x3002             // movdqu    xmm2, oword [rdx + rax + 48]
+	LONG $0x5c6f0ff3; WORD $0x2001             // movdqu    xmm3, oword [rcx + rax + 32]
+	LONG $0x646f0ff3; WORD $0x3001             // movdqu    xmm4, oword [rcx + rax + 48]
+	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
+	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
+	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
+	LONG $0xf0db0f66                           // pand    xmm6, xmm0
+	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
+	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
+	LONG $0xe0db0f66                           // pand    xmm4, xmm0
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x0074; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm6
+	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm3
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB0_902
+	JMP  LBB0_903
+
+LBB0_62:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_71
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_71
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_65
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_67:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_67
+	JMP  LBB0_68
+
+LBB0_408:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_417
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_417
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_411
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_413:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_413
+	JMP  LBB0_414
+
+LBB0_235:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_244
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_244
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_238
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_240:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_240
+	JMP  LBB0_241
+
+LBB0_581:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_590
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_590
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_584
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_586:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_586
+	JMP  LBB0_587
+
+LBB0_821:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_822:
+	LONG $0xf9048b48               // mov    rax, qword [rcx + 8*rdi]
+	LONG $0x04af0f48; BYTE $0xfa   // imul    rax, qword [rdx + 8*rdi]
+	LONG $0xf8048949               // mov    qword [r8 + 8*rdi], rax
+	LONG $0xf9448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rdi + 8]
+	LONG $0x44af0f48; WORD $0x08fa // imul    rax, qword [rdx + 8*rdi + 8]
+	LONG $0xf8448949; BYTE $0x08   // mov    qword [r8 + 8*rdi + 8], rax
+	LONG $0xf9448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rdi + 16]
+	LONG $0x44af0f48; WORD $0x10fa // imul    rax, qword [rdx + 8*rdi + 16]
+	LONG $0xf8448949; BYTE $0x10   // mov    qword [r8 + 8*rdi + 16], rax
+	LONG $0xf9448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rdi + 24]
+	LONG $0x44af0f48; WORD $0x18fa // imul    rax, qword [rdx + 8*rdi + 24]
+	LONG $0xf8448949; BYTE $0x18   // mov    qword [r8 + 8*rdi + 24], rax
+	LONG $0x04c78348               // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB0_822
+
+LBB0_823:
+	WORD $0x854d; BYTE $0xc9 // test    r9, r9
+	JE   LBB0_1013
+	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_825:
+	LONG $0xf9048b48             // mov    rax, qword [rcx + 8*rdi]
+	LONG $0x04af0f48; BYTE $0xfa // imul    rax, qword [rdx + 8*rdi]
+	LONG $0xfe048948             // mov    qword [rsi + 8*rdi], rax
+	LONG $0x01c78348             // add    rdi, 1
+	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
+	JNE  LBB0_825
+	JMP  LBB0_1013
+
+LBB0_971:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_972:
+	LONG $0xf9048b48               // mov    rax, qword [rcx + 8*rdi]
+	LONG $0x04af0f48; BYTE $0xfa   // imul    rax, qword [rdx + 8*rdi]
+	LONG $0xf8048949               // mov    qword [r8 + 8*rdi], rax
+	LONG $0xf9448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rdi + 8]
+	LONG $0x44af0f48; WORD $0x08fa // imul    rax, qword [rdx + 8*rdi + 8]
+	LONG $0xf8448949; BYTE $0x08   // mov    qword [r8 + 8*rdi + 8], rax
+	LONG $0xf9448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rdi + 16]
+	LONG $0x44af0f48; WORD $0x10fa // imul    rax, qword [rdx + 8*rdi + 16]
+	LONG $0xf8448949; BYTE $0x10   // mov    qword [r8 + 8*rdi + 16], rax
+	LONG $0xf9448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rdi + 24]
+	LONG $0x44af0f48; WORD $0x18fa // imul    rax, qword [rdx + 8*rdi + 24]
+	LONG $0xf8448949; BYTE $0x18   // mov    qword [r8 + 8*rdi + 24], rax
+	LONG $0x04c78348               // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB0_972
+
+LBB0_973:
+	WORD $0x854d; BYTE $0xc9 // test    r9, r9
+	JE   LBB0_1013
+	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_975:
+	LONG $0xf9048b48             // mov    rax, qword [rcx + 8*rdi]
+	LONG $0x04af0f48; BYTE $0xfa // imul    rax, qword [rdx + 8*rdi]
+	LONG $0xfe048948             // mov    qword [rsi + 8*rdi], rax
+	LONG $0x01c78348             // add    rdi, 1
+	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
+	JNE  LBB0_975
+	JMP  LBB0_1013
+
+LBB0_136:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_145
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_145
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_139
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_141:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_141
+	JMP  LBB0_142
+
+LBB0_482:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_491
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_491
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_485
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_487:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_487
+	JMP  LBB0_488
+
+LBB0_309:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_318
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_318
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_312
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_314:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_314
+	JMP  LBB0_315
+
+LBB0_655:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_664
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_664
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_658
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_660:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_660
+	JMP  LBB0_661
+
+LBB0_763:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_772
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_772
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_766
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_768:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
+	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_768
+	JMP  LBB0_769
+
+LBB0_779:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_788
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_788
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_782
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_784:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
+	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_784
+	JMP  LBB0_785
+
+LBB0_913:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_922
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_922
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_916
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_918:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
+	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_918
+	JMP  LBB0_919
+
+LBB0_929:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_938
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_938
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_932
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_934:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
+	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_934
+	JMP  LBB0_935
+
+LBB0_78:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_87
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_87
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_81
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_83:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_83
+	JMP  LBB0_84
+
+LBB0_94:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_103
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_103
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_97
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_99:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_99
+	JMP  LBB0_100
+
+LBB0_424:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_433
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_433
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_427
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_429:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_429
+	JMP  LBB0_430
+
+LBB0_440:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_449
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_449
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_443
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_445:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_445
+	JMP  LBB0_446
+
+LBB0_251:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_260
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_260
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_254
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_256:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_256
+	JMP  LBB0_257
+
+LBB0_267:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_276
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_276
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_270
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_272:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_272
+	JMP  LBB0_273
+
+LBB0_597:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_606
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_606
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_600
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_602:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_602
+	JMP  LBB0_603
+
+LBB0_613:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_622
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_622
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_616
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_618:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_618
+	JMP  LBB0_619
+
+LBB0_829:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_830:
+	LONG $0xf9048b48               // mov    rax, qword [rcx + 8*rdi]
+	LONG $0x04af0f48; BYTE $0xfa   // imul    rax, qword [rdx + 8*rdi]
+	LONG $0xf8048949               // mov    qword [r8 + 8*rdi], rax
+	LONG $0xf9448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rdi + 8]
+	LONG $0x44af0f48; WORD $0x08fa // imul    rax, qword [rdx + 8*rdi + 8]
+	LONG $0xf8448949; BYTE $0x08   // mov    qword [r8 + 8*rdi + 8], rax
+	LONG $0xf9448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rdi + 16]
+	LONG $0x44af0f48; WORD $0x10fa // imul    rax, qword [rdx + 8*rdi + 16]
+	LONG $0xf8448949; BYTE $0x10   // mov    qword [r8 + 8*rdi + 16], rax
+	LONG $0xf9448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rdi + 24]
+	LONG $0x44af0f48; WORD $0x18fa // imul    rax, qword [rdx + 8*rdi + 24]
+	LONG $0xf8448949; BYTE $0x18   // mov    qword [r8 + 8*rdi + 24], rax
+	LONG $0x04c78348               // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB0_830
+
+LBB0_831:
+	WORD $0x854d; BYTE $0xc9 // test    r9, r9
+	JE   LBB0_1013
+	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_833:
+	LONG $0xf9048b48             // mov    rax, qword [rcx + 8*rdi]
+	LONG $0x04af0f48; BYTE $0xfa // imul    rax, qword [rdx + 8*rdi]
+	LONG $0xfe048948             // mov    qword [rsi + 8*rdi], rax
+	LONG $0x01c78348             // add    rdi, 1
+	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
+	JNE  LBB0_833
+	JMP  LBB0_1013
+
+LBB0_837:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_846
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_846
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_840
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_842:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
+	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_842
+	JMP  LBB0_843
+
+LBB0_979:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_980:
+	LONG $0xf9048b48               // mov    rax, qword [rcx + 8*rdi]
+	LONG $0x04af0f48; BYTE $0xfa   // imul    rax, qword [rdx + 8*rdi]
+	LONG $0xf8048949               // mov    qword [r8 + 8*rdi], rax
+	LONG $0xf9448b48; BYTE $0x08   // mov    rax, qword [rcx + 8*rdi + 8]
+	LONG $0x44af0f48; WORD $0x08fa // imul    rax, qword [rdx + 8*rdi + 8]
+	LONG $0xf8448949; BYTE $0x08   // mov    qword [r8 + 8*rdi + 8], rax
+	LONG $0xf9448b48; BYTE $0x10   // mov    rax, qword [rcx + 8*rdi + 16]
+	LONG $0x44af0f48; WORD $0x10fa // imul    rax, qword [rdx + 8*rdi + 16]
+	LONG $0xf8448949; BYTE $0x10   // mov    qword [r8 + 8*rdi + 16], rax
+	LONG $0xf9448b48; BYTE $0x18   // mov    rax, qword [rcx + 8*rdi + 24]
+	LONG $0x44af0f48; WORD $0x18fa // imul    rax, qword [rdx + 8*rdi + 24]
+	LONG $0xf8448949; BYTE $0x18   // mov    qword [r8 + 8*rdi + 24], rax
+	LONG $0x04c78348               // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB0_980
+
+LBB0_981:
+	WORD $0x854d; BYTE $0xc9 // test    r9, r9
+	JE   LBB0_1013
+	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_983:
+	LONG $0xf9048b48             // mov    rax, qword [rcx + 8*rdi]
+	LONG $0x04af0f48; BYTE $0xfa // imul    rax, qword [rdx + 8*rdi]
+	LONG $0xfe048948             // mov    qword [rsi + 8*rdi], rax
+	LONG $0x01c78348             // add    rdi, 1
+	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
+	JNE  LBB0_983
+
+LBB0_1013:
+	RET
+
+LBB0_987:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_996
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_996
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_990
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_992:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
+	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_992
+	JMP  LBB0_993
+
+LBB0_152:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_161
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_161
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_155
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_157:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_157
+	JMP  LBB0_158
+
+LBB0_168:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_177
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_177
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_171
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_173:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_173
+	JMP  LBB0_174
+
+LBB0_498:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_507
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_507
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_501
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_503:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_503
+	JMP  LBB0_504
+
+LBB0_514:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_523
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_523
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_517
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_519:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rdi + 48]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x44110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x4c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_519
+	JMP  LBB0_520
+
+LBB0_325:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_334
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_334
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_328
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_330:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_330
+	JMP  LBB0_331
+
+LBB0_341:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_350
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_350
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_344
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_346:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_346
+	JMP  LBB0_347
+
+LBB0_671:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_680
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_680
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_674
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_676:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_676
+	JMP  LBB0_677
+
+LBB0_687:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_696
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_696
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_690
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_692:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rdi + 48]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x44110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x4c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_692
+	JMP  LBB0_693
+
+LBB0_734:
+	LONG $0x10348d4b             // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a             // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
+	LONG $0xd1970f41             // seta    r9b
+	LONG $0x11048d4a             // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6     // cmp    rsi, rdx
+	LONG $0xd3970f41             // seta    r11b
+	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0     // seta    al
+	WORD $0x3948; BYTE $0xce     // cmp    rsi, rcx
+	LONG $0xd6970f40             // seta    sil
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8445; BYTE $0xd9     // test    r9b, r11b
+	JNE  LBB0_743
+	WORD $0x2040; BYTE $0xf0     // and    al, sil
+	JNE  LBB0_743
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	LONG $0xe0478d48             // lea    rax, [rdi - 32]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_737
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x456f0f66; BYTE $0x00 // movdqa    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_739:
+	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
+	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
+	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
+	LONG $0x646f0ff3; WORD $0x1001             // movdqu    xmm4, oword [rcx + rax + 16]
+	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
+	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
+	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
+	LONG $0xf0db0f66                           // pand    xmm6, xmm0
+	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
+	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
+	LONG $0xe0db0f66                           // pand    xmm4, xmm0
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x0034             // movdqu    oword [r8 + rax], xmm6
+	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm3
+	LONG $0x4c6f0ff3; WORD $0x2002             // movdqu    xmm1, oword [rdx + rax + 32]
+	LONG $0x546f0ff3; WORD $0x3002             // movdqu    xmm2, oword [rdx + rax + 48]
+	LONG $0x5c6f0ff3; WORD $0x2001             // movdqu    xmm3, oword [rcx + rax + 32]
+	LONG $0x646f0ff3; WORD $0x3001             // movdqu    xmm4, oword [rcx + rax + 48]
+	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
+	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
+	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
+	LONG $0xf0db0f66                           // pand    xmm6, xmm0
+	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
+	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
+	LONG $0xe0db0f66                           // pand    xmm4, xmm0
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x0074; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm6
+	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm3
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB0_739
+	JMP  LBB0_740
+
+LBB0_884:
+	LONG $0x10348d4b             // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a             // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
+	LONG $0xd1970f41             // seta    r9b
+	LONG $0x11048d4a             // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6     // cmp    rsi, rdx
+	LONG $0xd3970f41             // seta    r11b
+	WORD $0x394c; BYTE $0xc0     // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0     // seta    al
+	WORD $0x3948; BYTE $0xce     // cmp    rsi, rcx
+	LONG $0xd6970f40             // seta    sil
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8445; BYTE $0xd9     // test    r9b, r11b
+	JNE  LBB0_893
+	WORD $0x2040; BYTE $0xf0     // and    al, sil
+	JNE  LBB0_893
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	LONG $0xe0478d48             // lea    rax, [rdi - 32]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_887
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x456f0f66; BYTE $0x00 // movdqa    xmm0, oword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_889:
+	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
+	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
+	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
+	LONG $0x646f0ff3; WORD $0x1001             // movdqu    xmm4, oword [rcx + rax + 16]
+	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
+	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
+	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
+	LONG $0xf0db0f66                           // pand    xmm6, xmm0
+	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
+	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
+	LONG $0xe0db0f66                           // pand    xmm4, xmm0
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x0034             // movdqu    oword [r8 + rax], xmm6
+	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm3
+	LONG $0x4c6f0ff3; WORD $0x2002             // movdqu    xmm1, oword [rdx + rax + 32]
+	LONG $0x546f0ff3; WORD $0x3002             // movdqu    xmm2, oword [rdx + rax + 48]
+	LONG $0x5c6f0ff3; WORD $0x2001             // movdqu    xmm3, oword [rcx + rax + 32]
+	LONG $0x646f0ff3; WORD $0x3001             // movdqu    xmm4, oword [rcx + rax + 48]
+	LONG $0x30380f66; BYTE $0xe9               // pmovzxbw    xmm5, xmm1
+	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
+	LONG $0x30380f66; BYTE $0xf3               // pmovzxbw    xmm6, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xf5d50f66                           // pmullw    xmm6, xmm5
+	LONG $0xf0db0f66                           // pand    xmm6, xmm0
+	LONG $0xf3670f66                           // packuswb    xmm6, xmm3
+	LONG $0x30380f66; BYTE $0xca               // pmovzxbw    xmm1, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0x30380f66; BYTE $0xdc               // pmovzxbw    xmm3, xmm4
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0xe2d50f66                           // pmullw    xmm4, xmm2
+	LONG $0xe0db0f66                           // pand    xmm4, xmm0
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0xd8db0f66                           // pand    xmm3, xmm0
+	LONG $0xdc670f66                           // packuswb    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x0074; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm6
+	LONG $0x7f0f41f3; WORD $0x005c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm3
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB0_889
+	JMP  LBB0_890
+
+LBB0_49:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_58
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_58
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_52
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_54:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_54
+	JMP  LBB0_55
+
+LBB0_395:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_404
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_404
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_398
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_400:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_400
+	JMP  LBB0_401
+
+LBB0_222:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_231
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_231
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_225
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_227:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_227
+	JMP  LBB0_228
+
+LBB0_568:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_577
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_577
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_571
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_573:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_573
+	JMP  LBB0_574
+
+LBB0_808:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_817
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_817
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_811
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_813:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_813
+	JMP  LBB0_814
+
+LBB0_958:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_967
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_967
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_961
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_963:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_963
+	JMP  LBB0_964
+
+LBB0_123:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_132
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_132
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_126
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_128:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_128
+	JMP  LBB0_129
+
+LBB0_469:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_478
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_478
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_472
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_474:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_474
+	JMP  LBB0_475
+
+LBB0_296:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_305
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_305
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_299
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_301:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_301
+	JMP  LBB0_302
+
+LBB0_642:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_651
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_651
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_645
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_647:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_647
+	JMP  LBB0_648
+
+LBB0_795:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_798:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_800
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+
+LBB0_800:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_801
+	JMP  LBB0_1013
+
+LBB0_945:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_948:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_950
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+
+LBB0_950:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_951
+	JMP  LBB0_1013
+
+LBB0_110:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_113:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_115
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+
+LBB0_115:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_116
+
+LBB0_456:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_459:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_461
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+
+LBB0_461:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_462
+	JMP  LBB0_1013
+
+LBB0_283:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_286:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_288
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+
+LBB0_288:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_289
+
+LBB0_629:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_632:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_634
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+
+LBB0_634:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_635
+	JMP  LBB0_1013
+
+LBB0_853:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_856:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_858
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
+
+LBB0_858:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_859
+	JMP  LBB0_1013
+
+LBB0_1003:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1006:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_1008
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0590f66                           // mulpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1590f66                           // mulpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
+
+LBB0_1008:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_1009
+	JMP  LBB0_1013
+
+LBB0_184:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_187:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_189
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
+
+LBB0_189:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_190
+
+LBB0_530:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_533:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_535
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+
+LBB0_535:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_536
+	JMP  LBB0_1013
+
+LBB0_357:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_360:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_362
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
+
+LBB0_362:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_363
+	JMP  LBB0_1013
+
+LBB0_703:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_706:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_708
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+
+LBB0_708:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_709
+	JMP  LBB0_1013
+
+LBB0_750:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_753:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_755
+	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
+	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
+	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
+	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0x30380f66; BYTE $0xe1               // pmovzxbw    xmm4, xmm1
+	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
+	LONG $0x30380f66; BYTE $0xeb               // pmovzxbw    xmm5, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0x4d6f0f66; BYTE $0x00               // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
+	LONG $0xd9db0f66                           // pand    xmm3, xmm1
+	LONG $0xecd50f66                           // pmullw    xmm5, xmm4
+	LONG $0xe9db0f66                           // pand    xmm5, xmm1
+	LONG $0xeb670f66                           // packuswb    xmm5, xmm3
+	LONG $0x30380f66; BYTE $0xda               // pmovzxbw    xmm3, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0x30380f66; BYTE $0xe0               // pmovzxbw    xmm4, xmm0
+	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
+	LONG $0xc2d50f66                           // pmullw    xmm0, xmm2
+	LONG $0xc1db0f66                           // pand    xmm0, xmm1
+	LONG $0xe3d50f66                           // pmullw    xmm4, xmm3
+	LONG $0xe1db0f66                           // pand    xmm4, xmm1
+	LONG $0xe0670f66                           // packuswb    xmm4, xmm0
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
+
+LBB0_755:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JNE  LBB0_756
+	JMP  LBB0_1013
+
+LBB0_900:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_903:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_905
+	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
+	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
+	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
+	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0x30380f66; BYTE $0xe1               // pmovzxbw    xmm4, xmm1
+	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
+	LONG $0x30380f66; BYTE $0xeb               // pmovzxbw    xmm5, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0x4d6f0f66; BYTE $0x00               // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
+	LONG $0xd9db0f66                           // pand    xmm3, xmm1
+	LONG $0xecd50f66                           // pmullw    xmm5, xmm4
+	LONG $0xe9db0f66                           // pand    xmm5, xmm1
+	LONG $0xeb670f66                           // packuswb    xmm5, xmm3
+	LONG $0x30380f66; BYTE $0xda               // pmovzxbw    xmm3, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0x30380f66; BYTE $0xe0               // pmovzxbw    xmm4, xmm0
+	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
+	LONG $0xc2d50f66                           // pmullw    xmm0, xmm2
+	LONG $0xc1db0f66                           // pand    xmm0, xmm1
+	LONG $0xe3d50f66                           // pmullw    xmm4, xmm3
+	LONG $0xe1db0f66                           // pand    xmm4, xmm1
+	LONG $0xe0670f66                           // packuswb    xmm4, xmm0
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
+
+LBB0_905:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JNE  LBB0_906
+	JMP  LBB0_1013
+
+LBB0_65:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_68:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_70
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+
+LBB0_70:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_71
+
+LBB0_411:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_414:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_416
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+
+LBB0_416:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_417
+	JMP  LBB0_1013
+
+LBB0_238:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_241:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_243
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+
+LBB0_243:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_244
+
+LBB0_584:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_587:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_589
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+
+LBB0_589:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_590
+	JMP  LBB0_1013
+
+LBB0_139:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_142:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_144
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+
+LBB0_144:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_145
+
+LBB0_485:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_488:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_490
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+
+LBB0_490:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_491
+	JMP  LBB0_1013
+
+LBB0_312:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_315:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_317
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+
+LBB0_317:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_318
+	JMP  LBB0_1013
+
+LBB0_658:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_661:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_663
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+
+LBB0_663:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_664
+	JMP  LBB0_1013
+
+LBB0_766:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_769:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_771
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+
+LBB0_771:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_772
+	JMP  LBB0_1013
+
+LBB0_782:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_785:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_787
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+
+LBB0_787:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_788
+	JMP  LBB0_1013
+
+LBB0_916:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_919:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_921
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+
+LBB0_921:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_922
+	JMP  LBB0_1013
+
+LBB0_932:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_935:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_937
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1d50f66                           // pmullw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+
+LBB0_937:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_938
+	JMP  LBB0_1013
+
+LBB0_81:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_84:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_86
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+
+LBB0_86:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_87
+
+LBB0_97:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_100:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_102
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+
+LBB0_102:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_103
+
+LBB0_427:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_430:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_432
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+
+LBB0_432:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_433
+	JMP  LBB0_1013
+
+LBB0_443:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_446:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_448
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+
+LBB0_448:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_449
+	JMP  LBB0_1013
+
+LBB0_254:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_257:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_259
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+
+LBB0_259:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_260
+
+LBB0_270:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_273:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_275
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+
+LBB0_275:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_276
+
+LBB0_600:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_603:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_605
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+
+LBB0_605:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_606
+	JMP  LBB0_1013
+
+LBB0_616:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_619:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_621
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+
+LBB0_621:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_622
+	JMP  LBB0_1013
+
+LBB0_840:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_843:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB0_845
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
+
+LBB0_845:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_846
+	JMP  LBB0_1013
+
+LBB0_990:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_993:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB0_995
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x590f; BYTE $0xd0       // mulps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x590f; BYTE $0xc1       // mulps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
+
+LBB0_995:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_996
+	JMP  LBB0_1013
+
+LBB0_155:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_158:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_160
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+
+LBB0_160:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_161
+
+LBB0_171:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_174:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB0_176
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
+
+LBB0_176:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_177
+
+LBB0_501:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_504:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_506
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+
+LBB0_506:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_507
+	JMP  LBB0_1013
+
+LBB0_517:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_520:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB0_522
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+
+LBB0_522:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_523
+	JMP  LBB0_1013
+
+LBB0_328:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_331:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_333
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+
+LBB0_333:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_334
+	JMP  LBB0_1013
+
+LBB0_344:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_347:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB0_349
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
+
+LBB0_349:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_350
+	JMP  LBB0_1013
+
+LBB0_674:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_677:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_679
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+
+LBB0_679:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_680
+	JMP  LBB0_1013
+
+LBB0_690:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_693:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB0_695
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+
+LBB0_695:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_696
+	JMP  LBB0_1013
+
+LBB0_737:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_740:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_742
+	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
+	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
+	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
+	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0x30380f66; BYTE $0xe1               // pmovzxbw    xmm4, xmm1
+	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
+	LONG $0x30380f66; BYTE $0xeb               // pmovzxbw    xmm5, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0x4d6f0f66; BYTE $0x00               // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
+	LONG $0xd9db0f66                           // pand    xmm3, xmm1
+	LONG $0xecd50f66                           // pmullw    xmm5, xmm4
+	LONG $0xe9db0f66                           // pand    xmm5, xmm1
+	LONG $0xeb670f66                           // packuswb    xmm5, xmm3
+	LONG $0x30380f66; BYTE $0xda               // pmovzxbw    xmm3, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0x30380f66; BYTE $0xe0               // pmovzxbw    xmm4, xmm0
+	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
+	LONG $0xc2d50f66                           // pmullw    xmm0, xmm2
+	LONG $0xc1db0f66                           // pand    xmm0, xmm1
+	LONG $0xe3d50f66                           // pmullw    xmm4, xmm3
+	LONG $0xe1db0f66                           // pand    xmm4, xmm1
+	LONG $0xe0670f66                           // packuswb    xmm4, xmm0
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
+
+LBB0_742:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JNE  LBB0_743
+	JMP  LBB0_1013
+
+LBB0_887:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_890:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_892
+	LONG $0x0c6f0ff3; BYTE $0x02               // movdqu    xmm1, oword [rdx + rax]
+	LONG $0x546f0ff3; WORD $0x1002             // movdqu    xmm2, oword [rdx + rax + 16]
+	LONG $0x1c6f0ff3; BYTE $0x01               // movdqu    xmm3, oword [rcx + rax]
+	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0x30380f66; BYTE $0xe1               // pmovzxbw    xmm4, xmm1
+	LONG $0xc9680f66                           // punpckhbw    xmm1, xmm1
+	LONG $0x30380f66; BYTE $0xeb               // pmovzxbw    xmm5, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd9d50f66                           // pmullw    xmm3, xmm1
+	LONG $0x4d6f0f66; BYTE $0x00               // movdqa    xmm1, oword 0[rbp] /* [rip + .LCPI0_0] */
+	LONG $0xd9db0f66                           // pand    xmm3, xmm1
+	LONG $0xecd50f66                           // pmullw    xmm5, xmm4
+	LONG $0xe9db0f66                           // pand    xmm5, xmm1
+	LONG $0xeb670f66                           // packuswb    xmm5, xmm3
+	LONG $0x30380f66; BYTE $0xda               // pmovzxbw    xmm3, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0x30380f66; BYTE $0xe0               // pmovzxbw    xmm4, xmm0
+	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
+	LONG $0xc2d50f66                           // pmullw    xmm0, xmm2
+	LONG $0xc1db0f66                           // pand    xmm0, xmm1
+	LONG $0xe3d50f66                           // pmullw    xmm4, xmm3
+	LONG $0xe1db0f66                           // pand    xmm4, xmm1
+	LONG $0xe0670f66                           // packuswb    xmm4, xmm0
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
+
+LBB0_892:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JNE  LBB0_893
+	JMP  LBB0_1013
+
+LBB0_52:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_55:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_57
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+
+LBB0_57:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_58
+
+LBB0_398:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_401:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_403
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+
+LBB0_403:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_404
+	JMP  LBB0_1013
+
+LBB0_225:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_228:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_230
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+
+LBB0_230:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_231
+
+LBB0_571:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_574:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_576
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+
+LBB0_576:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_577
+	JMP  LBB0_1013
+
+LBB0_811:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_814:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_816
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+
+LBB0_816:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_817
+	JMP  LBB0_1013
+
+LBB0_961:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_964:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_966
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc1               // pmulld    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+
+LBB0_966:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_967
+	JMP  LBB0_1013
+
+LBB0_126:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_129:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_131
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+
+LBB0_131:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_132
+
+LBB0_472:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_475:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_477
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+
+LBB0_477:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_478
+	JMP  LBB0_1013
+
+LBB0_299:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_302:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_304
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+
+LBB0_304:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_1013
+	JMP  LBB0_305
+
+LBB0_645:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_648:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_650
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+
+LBB0_650:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_651
+	JMP  LBB0_1013
+
+DATA LCDATA2<>+0x000(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA2<>+0x008(SB)/8, $0x00ff00ff00ff00ff
+GLOBL LCDATA2<>(SB), 8, $16
+
+TEXT ·_arithmetic_arr_scalar_sse4(SB), $0-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+	LEAQ LCDATA2<>(SB), BP
+
+	LONG $0x14fe8040         // cmp    sil, 20
+	JG   LBB1_12
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB1_23
+	LONG $0x01fe8040         // cmp    sil, 1
+	JE   LBB1_31
+	LONG $0x02fe8040         // cmp    sil, 2
+	JNE  LBB1_1069
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_55
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_97
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_157
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_160
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_11
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_453
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_453
+
+LBB1_11:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_625:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_627
+
+LBB1_626:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_626
+
+LBB1_627:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_628:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_628
+	JMP  LBB1_1069
+
+LBB1_12:
+	LONG $0x15fe8040         // cmp    sil, 21
+	JE   LBB1_39
+	LONG $0x16fe8040         // cmp    sil, 22
+	JE   LBB1_47
+	LONG $0x17fe8040         // cmp    sil, 23
+	JNE  LBB1_1069
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_62
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_102
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_163
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_166
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_22
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_456
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_456
+
+LBB1_22:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_633:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_635
+
+LBB1_634:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_634
+
+LBB1_635:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_636:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_636
+	JMP  LBB1_1069
+
+LBB1_23:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_69
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_107
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_169
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_172
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_30
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_459
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_459
+
+LBB1_30:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_641:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_643
+
+LBB1_642:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_642
+
+LBB1_643:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_644:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_644
+	JMP  LBB1_1069
+
+LBB1_31:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_76
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_112
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_175
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_178
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_38
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_462
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_462
+
+LBB1_38:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_649:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_651
+
+LBB1_650:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_650
+
+LBB1_651:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_652:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_652
+	JMP  LBB1_1069
+
+LBB1_39:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_83
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_117
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_181
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_184
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_46
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_465
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_465
+
+LBB1_46:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_657:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_659
+
+LBB1_658:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_658
+
+LBB1_659:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_660:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_660
+	JMP  LBB1_1069
+
+LBB1_47:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_90
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_122
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_187
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_190
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_54
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_468
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_468
+
+LBB1_54:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_665:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_667
+
+LBB1_666:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_666
+
+LBB1_667:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_668:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_668
+	JMP  LBB1_1069
+
+LBB1_55:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_127
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_193
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_196
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_61
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_471
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_471
+
+LBB1_61:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_673:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_675
+
+LBB1_674:
+	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc8590ff2               // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_674
+
+LBB1_675:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1069
+
+LBB1_676:
+	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_676
+	JMP  LBB1_1069
+
+LBB1_62:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_132
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_199
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_202
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_68
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_474
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_474
+
+LBB1_68:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_681:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_683
+
+LBB1_682:
+	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc8590ff2               // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_682
+
+LBB1_683:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1069
+
+LBB1_684:
+	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_684
+	JMP  LBB1_1069
+
+LBB1_69:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_137
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_205
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_208
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_75
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_477
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_477
+
+LBB1_75:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_689:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_691
+
+LBB1_690:
+	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc8580ff2               // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_690
+
+LBB1_691:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1069
+
+LBB1_692:
+	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_692
+	JMP  LBB1_1069
+
+LBB1_76:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_142
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_211
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_214
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_82
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_480
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_480
+
+LBB1_82:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_697:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_699
+
+LBB1_698:
+	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_698
+
+LBB1_699:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1069
+
+LBB1_700:
+	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_700
+	JMP  LBB1_1069
+
+LBB1_83:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_147
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_217
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_220
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_89
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_483
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_483
+
+LBB1_89:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_705:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_707
+
+LBB1_706:
+	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc8580ff2               // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_706
+
+LBB1_707:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1069
+
+LBB1_708:
+	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_708
+	JMP  LBB1_1069
+
+LBB1_90:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_152
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_223
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_226
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_96
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_486
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_486
+
+LBB1_96:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_713:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_715
+
+LBB1_714:
+	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_714
+
+LBB1_715:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1069
+
+LBB1_716:
+	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_716
+	JMP  LBB1_1069
+
+LBB1_97:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_229
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x098a             // mov    cl, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_101
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_489
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_489
+
+LBB1_101:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_721:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB1_723
+
+LBB1_722:
+	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6     // mul    cl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB1_722
+
+LBB1_723:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_724:
+	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB1_724
+	JMP  LBB1_1069
+
+LBB1_102:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_232
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x098a             // mov    cl, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_106
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_492
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_492
+
+LBB1_106:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_729:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB1_731
+
+LBB1_730:
+	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6     // mul    cl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB1_730
+
+LBB1_731:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_732:
+	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB1_732
+	JMP  LBB1_1069
+
+LBB1_107:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_235
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_111
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_495
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_495
+
+LBB1_111:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_737:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_739
+
+LBB1_738:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_738
+
+LBB1_739:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_740:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_740
+	JMP  LBB1_1069
+
+LBB1_112:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_238
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_116
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_498
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_498
+
+LBB1_116:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_745:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_747
+
+LBB1_746:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_746
+
+LBB1_747:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_748:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_748
+	JMP  LBB1_1069
+
+LBB1_117:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_241
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_121
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_501
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_501
+
+LBB1_121:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_753:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_755
+
+LBB1_754:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_754
+
+LBB1_755:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_756:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_756
+	JMP  LBB1_1069
+
+LBB1_122:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_244
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_126
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_504
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_504
+
+LBB1_126:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_761:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_763
+
+LBB1_762:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_762
+
+LBB1_763:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_764:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_764
+	JMP  LBB1_1069
+
+LBB1_127:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_247
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB1_319
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB1_321
+
+LBB1_132:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_250
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB1_324
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB1_326
+
+LBB1_137:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_253
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_141
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_507
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_507
+
+LBB1_141:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_769:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_771
+
+LBB1_770:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_770
+
+LBB1_771:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_772:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_772
+	JMP  LBB1_1069
+
+LBB1_142:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_256
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_146
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_510
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_510
+
+LBB1_146:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_777:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_779
+
+LBB1_778:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_778
+
+LBB1_779:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_780:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_780
+	JMP  LBB1_1069
+
+LBB1_147:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_259
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_151
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_513
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_513
+
+LBB1_151:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_785:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_787
+
+LBB1_786:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_786
+
+LBB1_787:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_788:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_788
+	JMP  LBB1_1069
+
+LBB1_152:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_262
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_156
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_516
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_516
+
+LBB1_156:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_793:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_795
+
+LBB1_794:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_794
+
+LBB1_795:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_796:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_796
+	JMP  LBB1_1069
+
+LBB1_157:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_159
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_519
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_519
+
+LBB1_159:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_801:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_803
+
+LBB1_802:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	LONG $0xc8af0f66             // imul    cx, ax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_802
+
+LBB1_803:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_804:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_804
+	JMP  LBB1_1069
+
+LBB1_160:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_162
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_522
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_522
+
+LBB1_162:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_809:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_811
+
+LBB1_810:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	LONG $0xc8af0f66             // imul    cx, ax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_810
+
+LBB1_811:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_812:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_812
+	JMP  LBB1_1069
+
+LBB1_163:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_165
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_525
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_525
+
+LBB1_165:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_817:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_819
+
+LBB1_818:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	LONG $0xc8af0f66             // imul    cx, ax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_818
+
+LBB1_819:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_820:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_820
+	JMP  LBB1_1069
+
+LBB1_166:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_168
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_528
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_528
+
+LBB1_168:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_825:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_827
+
+LBB1_826:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	LONG $0xc8af0f66             // imul    cx, ax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_826
+
+LBB1_827:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_828:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	LONG $0xc8af0f66               // imul    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_828
+	JMP  LBB1_1069
+
+LBB1_169:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_171
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_531
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_531
+
+LBB1_171:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_833:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_835
+
+LBB1_834:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1     // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_834
+
+LBB1_835:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_836:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_836
+	JMP  LBB1_1069
+
+LBB1_172:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_174
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_534
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_534
+
+LBB1_174:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_841:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_843
+
+LBB1_842:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1     // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_842
+
+LBB1_843:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_844:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_844
+	JMP  LBB1_1069
+
+LBB1_175:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_177
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_537
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_537
+
+LBB1_177:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_849:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_851
+
+LBB1_850:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_850
+
+LBB1_851:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_852:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_852
+	JMP  LBB1_1069
+
+LBB1_178:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_180
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_540
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_540
+
+LBB1_180:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_857:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_859
+
+LBB1_858:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_858
+
+LBB1_859:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_860:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_860
+	JMP  LBB1_1069
+
+LBB1_181:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_183
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_543
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_543
+
+LBB1_183:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_865:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_867
+
+LBB1_866:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1     // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_866
+
+LBB1_867:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_868:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_868
+	JMP  LBB1_1069
+
+LBB1_184:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_186
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_546
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_546
+
+LBB1_186:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_873:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_875
+
+LBB1_874:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1     // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_874
+
+LBB1_875:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_876:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_876
+	JMP  LBB1_1069
+
+LBB1_187:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_189
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_549
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_549
+
+LBB1_189:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_881:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_883
+
+LBB1_882:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_882
+
+LBB1_883:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_884:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_884
+	JMP  LBB1_1069
+
+LBB1_190:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_192
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_552
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_552
+
+LBB1_192:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_889:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_891
+
+LBB1_890:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_890
+
+LBB1_891:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_892:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_892
+	JMP  LBB1_1069
+
+LBB1_193:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB1_377
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB1_379
+
+LBB1_196:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_198
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_555
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_555
+
+LBB1_198:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_897:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_899
+
+LBB1_898:
+	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc8590ff3               // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_898
+
+LBB1_899:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1069
+
+LBB1_900:
+	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_900
+	JMP  LBB1_1069
+
+LBB1_199:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB1_385
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB1_387
+
+LBB1_202:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_204
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_558
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_558
+
+LBB1_204:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_905:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_907
+
+LBB1_906:
+	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc8590ff3               // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_906
+
+LBB1_907:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1069
+
+LBB1_908:
+	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_908
+	JMP  LBB1_1069
+
+LBB1_205:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_207
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_561
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_561
+
+LBB1_207:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_913:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_915
+
+LBB1_914:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_914
+
+LBB1_915:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_916:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_916
+	JMP  LBB1_1069
+
+LBB1_208:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_210
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_564
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_564
+
+LBB1_210:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_921:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_923
+
+LBB1_922:
+	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc8580ff3               // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_922
+
+LBB1_923:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1069
+
+LBB1_924:
+	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_924
+	JMP  LBB1_1069
+
+LBB1_211:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_213
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_567
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_567
+
+LBB1_213:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_929:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_931
+
+LBB1_930:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_930
+
+LBB1_931:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_932:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_932
+	JMP  LBB1_1069
+
+LBB1_214:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_216
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_570
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_570
+
+LBB1_216:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_937:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_939
+
+LBB1_938:
+	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85c0ff3               // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_938
+
+LBB1_939:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1069
+
+LBB1_940:
+	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_940
+	JMP  LBB1_1069
+
+LBB1_217:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_219
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_573
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_573
+
+LBB1_219:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_945:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_947
+
+LBB1_946:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_946
+
+LBB1_947:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_948:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_948
+	JMP  LBB1_1069
+
+LBB1_220:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_222
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_576
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_576
+
+LBB1_222:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_953:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_955
+
+LBB1_954:
+	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc8580ff3               // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_954
+
+LBB1_955:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1069
+
+LBB1_956:
+	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_956
+	JMP  LBB1_1069
+
+LBB1_223:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_225
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_579
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_579
+
+LBB1_225:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_961:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_963
+
+LBB1_962:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_962
+
+LBB1_963:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_964:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_964
+	JMP  LBB1_1069
+
+LBB1_226:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_228
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_582
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_582
+
+LBB1_228:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_969:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_971
+
+LBB1_970:
+	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85c0ff3               // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_970
+
+LBB1_971:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_1069
+
+LBB1_972:
+	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_972
+	JMP  LBB1_1069
+
+LBB1_229:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x098a             // mov    cl, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_231
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_585
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_585
+
+LBB1_231:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_977:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB1_979
+
+LBB1_978:
+	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6     // mul    cl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB1_978
+
+LBB1_979:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_980:
+	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB1_980
+	JMP  LBB1_1069
+
+LBB1_232:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x098a             // mov    cl, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_234
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_588
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_588
+
+LBB1_234:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_985:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB1_987
+
+LBB1_986:
+	LONG $0x3a04b60f // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6     // mul    cl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB1_986
+
+LBB1_987:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_988:
+	LONG $0x3a04b60f             // movzx    eax, byte [rdx + rdi]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3a44b60f; BYTE $0x01 // movzx    eax, byte [rdx + rdi + 1]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3a44b60f; BYTE $0x02 // movzx    eax, byte [rdx + rdi + 2]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3a44b60f; BYTE $0x03 // movzx    eax, byte [rdx + rdi + 3]
+	WORD $0xe1f6                 // mul    cl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB1_988
+	JMP  LBB1_1069
+
+LBB1_235:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_237
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_591
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_591
+
+LBB1_237:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_993:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_995
+
+LBB1_994:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_994
+
+LBB1_995:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_996:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_996
+	JMP  LBB1_1069
+
+LBB1_238:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_240
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_594
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_594
+
+LBB1_240:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1001:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1003
+
+LBB1_1002:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_1002
+
+LBB1_1003:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_1004:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1004
+	JMP  LBB1_1069
+
+LBB1_241:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_243
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_597
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_597
+
+LBB1_243:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1009:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1011
+
+LBB1_1010:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_1010
+
+LBB1_1011:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_1012:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1012
+	JMP  LBB1_1069
+
+LBB1_244:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_246
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_600
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_600
+
+LBB1_246:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1017:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1019
+
+LBB1_1018:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_1018
+
+LBB1_1019:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_1020:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1020
+	JMP  LBB1_1069
+
+LBB1_247:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_249
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_603
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_603
+
+LBB1_249:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1025:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1027
+
+LBB1_1026:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1026
+
+LBB1_1027:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_1028:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1028
+	JMP  LBB1_1069
+
+LBB1_250:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_252
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_606
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_606
+
+LBB1_252:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1033:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1035
+
+LBB1_1034:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8 // imul    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1034
+
+LBB1_1035:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_1036:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xc8     // imul    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1036
+	JMP  LBB1_1069
+
+LBB1_253:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_255
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_609
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_609
+
+LBB1_255:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1041:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1043
+
+LBB1_1042:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1042
+
+LBB1_1043:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_1044:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1044
+	JMP  LBB1_1069
+
+LBB1_256:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_258
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_612
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_612
+
+LBB1_258:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1049:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1051
+
+LBB1_1050:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1050
+
+LBB1_1051:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_1052:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1052
+	JMP  LBB1_1069
+
+LBB1_259:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_261
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_615
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_615
+
+LBB1_261:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1057:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1059
+
+LBB1_1058:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1058
+
+LBB1_1059:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_1060:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1060
+	JMP  LBB1_1069
+
+LBB1_262:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_1069
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_264
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_618
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_618
+
+LBB1_264:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_1065:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_1067
+
+LBB1_1066:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_1066
+
+LBB1_1067:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_1069
+
+LBB1_1068:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_1068
+	JMP  LBB1_1069
+
+LBB1_319:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_320:
+	LONG $0xfa0c8b48             // mov    rcx, qword [rdx + 8*rdi]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf80c8949             // mov    qword [r8 + 8*rdi], rcx
+	LONG $0xfa4c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rdi + 8]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf84c8949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rcx
+	LONG $0xfa4c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rdi + 16]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf84c8949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rcx
+	LONG $0xfa4c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rdi + 24]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf84c8949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rcx
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
+	JNE  LBB1_320
+
+LBB1_321:
+	WORD $0x854d; BYTE $0xc9 // test    r9, r9
+	JE   LBB1_1069
+	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
+	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_323:
+	LONG $0xfa0c8b48         // mov    rcx, qword [rdx + 8*rdi]
+	LONG $0xc8af0f48         // imul    rcx, rax
+	LONG $0xfe0c8948         // mov    qword [rsi + 8*rdi], rcx
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
+	JNE  LBB1_323
+	JMP  LBB1_1069
+
+LBB1_324:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_325:
+	LONG $0xfa0c8b48             // mov    rcx, qword [rdx + 8*rdi]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf80c8949             // mov    qword [r8 + 8*rdi], rcx
+	LONG $0xfa4c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rdi + 8]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf84c8949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rcx
+	LONG $0xfa4c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rdi + 16]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf84c8949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rcx
+	LONG $0xfa4c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rdi + 24]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf84c8949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rcx
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
+	JNE  LBB1_325
+
+LBB1_326:
+	WORD $0x854d; BYTE $0xc9 // test    r9, r9
+	JE   LBB1_1069
+	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
+	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_328:
+	LONG $0xfa0c8b48         // mov    rcx, qword [rdx + 8*rdi]
+	LONG $0xc8af0f48         // imul    rcx, rax
+	LONG $0xfe0c8948         // mov    qword [rsi + 8*rdi], rcx
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
+	JNE  LBB1_328
+	JMP  LBB1_1069
+
+LBB1_377:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_378:
+	LONG $0xfa0c8b48             // mov    rcx, qword [rdx + 8*rdi]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf80c8949             // mov    qword [r8 + 8*rdi], rcx
+	LONG $0xfa4c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rdi + 8]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf84c8949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rcx
+	LONG $0xfa4c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rdi + 16]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf84c8949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rcx
+	LONG $0xfa4c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rdi + 24]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf84c8949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rcx
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
+	JNE  LBB1_378
+
+LBB1_379:
+	WORD $0x854d; BYTE $0xc9 // test    r9, r9
+	JE   LBB1_1069
+	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
+	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_381:
+	LONG $0xfa0c8b48         // mov    rcx, qword [rdx + 8*rdi]
+	LONG $0xc8af0f48         // imul    rcx, rax
+	LONG $0xfe0c8948         // mov    qword [rsi + 8*rdi], rcx
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
+	JNE  LBB1_381
+	JMP  LBB1_1069
+
+LBB1_385:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_386:
+	LONG $0xfa0c8b48             // mov    rcx, qword [rdx + 8*rdi]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf80c8949             // mov    qword [r8 + 8*rdi], rcx
+	LONG $0xfa4c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rdi + 8]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf84c8949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rcx
+	LONG $0xfa4c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rdi + 16]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf84c8949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rcx
+	LONG $0xfa4c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rdi + 24]
+	LONG $0xc8af0f48             // imul    rcx, rax
+	LONG $0xf84c8949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rcx
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
+	JNE  LBB1_386
+
+LBB1_387:
+	WORD $0x854d; BYTE $0xc9 // test    r9, r9
+	JE   LBB1_1069
+	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
+	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_389:
+	LONG $0xfa0c8b48         // mov    rcx, qword [rdx + 8*rdi]
+	LONG $0xc8af0f48         // imul    rcx, rax
+	LONG $0xfe0c8948         // mov    qword [rsi + 8*rdi], rcx
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
+	JNE  LBB1_389
+
+LBB1_1069:
+	RET
+
+LBB1_453:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_621
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_455:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_455
+	JMP  LBB1_622
+
+LBB1_456:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_629
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_458:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_458
+	JMP  LBB1_630
+
+LBB1_459:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_637
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_461:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_461
+	JMP  LBB1_638
+
+LBB1_462:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_645
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_464:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_464
+	JMP  LBB1_646
+
+LBB1_465:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_653
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_467:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_467
+	JMP  LBB1_654
+
+LBB1_468:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_661
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_470:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_470
+	JMP  LBB1_662
+
+LBB1_471:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xfc // and    ecx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_669
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_473:
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
+	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
+	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
+	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_473
+	JMP  LBB1_670
+
+LBB1_474:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xfc // and    ecx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_677
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_476:
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
+	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
+	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
+	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_476
+	JMP  LBB1_678
+
+LBB1_477:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xfc // and    ecx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_685
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_479:
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_479
+	JMP  LBB1_686
+
+LBB1_480:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xfc // and    ecx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_693
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_482:
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_482
+	JMP  LBB1_694
+
+LBB1_483:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xfc // and    ecx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_701
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_485:
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_485
+	JMP  LBB1_702
+
+LBB1_486:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xfc // and    ecx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_709
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_488:
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_488
+	JMP  LBB1_710
+
+LBB1_489:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	WORD $0xb60f; BYTE $0xc1     // movzx    eax, cl
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0478d48             // lea    rax, [rdi - 32]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_717
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
+	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
+	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
+	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
+
+LBB1_491:
+	LONG $0x2c6f0ff3; BYTE $0x02               // movdqu    xmm5, oword [rdx + rax]
+	LONG $0x746f0ff3; WORD $0x1002             // movdqu    xmm6, oword [rdx + rax + 16]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2002             // movdqu    xmm5, oword [rdx + rax + 32]
+	LONG $0x746f0ff3; WORD $0x3002             // movdqu    xmm6, oword [rdx + rax + 48]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_491
+	JMP  LBB1_718
+
+LBB1_492:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	WORD $0xb60f; BYTE $0xc1     // movzx    eax, cl
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0478d48             // lea    rax, [rdi - 32]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_725
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
+	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
+	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
+	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
+
+LBB1_494:
+	LONG $0x2c6f0ff3; BYTE $0x02               // movdqu    xmm5, oword [rdx + rax]
+	LONG $0x746f0ff3; WORD $0x1002             // movdqu    xmm6, oword [rdx + rax + 16]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2002             // movdqu    xmm5, oword [rdx + rax + 32]
+	LONG $0x746f0ff3; WORD $0x3002             // movdqu    xmm6, oword [rdx + rax + 48]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_494
+	JMP  LBB1_726
+
+LBB1_495:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_733
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_497:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_497
+	JMP  LBB1_734
+
+LBB1_498:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_741
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_500:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_500
+	JMP  LBB1_742
+
+LBB1_501:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_749
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_503:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_503
+	JMP  LBB1_750
+
+LBB1_504:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_757
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_506:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_506
+	JMP  LBB1_758
+
+LBB1_507:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_765
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_509:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_509
+	JMP  LBB1_766
+
+LBB1_510:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_773
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_512:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_512
+	JMP  LBB1_774
+
+LBB1_513:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_781
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_515:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_515
+	JMP  LBB1_782
+
+LBB1_516:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_789
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_518:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_518
+	JMP  LBB1_790
+
+LBB1_519:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_797
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_521:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_521
+	JMP  LBB1_798
+
+LBB1_522:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_805
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_524:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_524
+	JMP  LBB1_806
+
+LBB1_525:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_813
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_527:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_527
+	JMP  LBB1_814
+
+LBB1_528:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_821
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_530:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_530
+	JMP  LBB1_822
+
+LBB1_531:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_829
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_533:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_533
+	JMP  LBB1_830
+
+LBB1_534:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_837
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_536:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_536
+	JMP  LBB1_838
+
+LBB1_537:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_845
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_539:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_539
+	JMP  LBB1_846
+
+LBB1_540:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_853
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_542:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_542
+	JMP  LBB1_854
+
+LBB1_543:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_861
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_545:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_545
+	JMP  LBB1_862
+
+LBB1_546:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_869
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_548:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_548
+	JMP  LBB1_870
+
+LBB1_549:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_877
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_551:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_551
+	JMP  LBB1_878
+
+LBB1_552:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_885
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_554:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_554
+	JMP  LBB1_886
+
+LBB1_555:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_893
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_557:
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
+	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
+	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
+	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
+	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB1_557
+	JMP  LBB1_894
+
+LBB1_558:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_901
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_560:
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
+	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
+	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
+	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
+	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB1_560
+	JMP  LBB1_902
+
+LBB1_561:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_909
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_563:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_563
+	JMP  LBB1_910
+
+LBB1_564:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_917
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_566:
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
+	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB1_566
+	JMP  LBB1_918
+
+LBB1_567:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_925
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_569:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_569
+	JMP  LBB1_926
+
+LBB1_570:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_933
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_572:
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
+	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB1_572
+	JMP  LBB1_934
+
+LBB1_573:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_941
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_575:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_575
+	JMP  LBB1_942
+
+LBB1_576:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_949
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_578:
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
+	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB1_578
+	JMP  LBB1_950
+
+LBB1_579:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_957
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_581:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_581
+	JMP  LBB1_958
+
+LBB1_582:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_965
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_584:
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
+	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB1_584
+	JMP  LBB1_966
+
+LBB1_585:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	WORD $0xb60f; BYTE $0xc1     // movzx    eax, cl
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0478d48             // lea    rax, [rdi - 32]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_973
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
+	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
+	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
+	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
+
+LBB1_587:
+	LONG $0x2c6f0ff3; BYTE $0x02               // movdqu    xmm5, oword [rdx + rax]
+	LONG $0x746f0ff3; WORD $0x1002             // movdqu    xmm6, oword [rdx + rax + 16]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2002             // movdqu    xmm5, oword [rdx + rax + 32]
+	LONG $0x746f0ff3; WORD $0x3002             // movdqu    xmm6, oword [rdx + rax + 48]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_587
+	JMP  LBB1_974
+
+LBB1_588:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	WORD $0xb60f; BYTE $0xc1     // movzx    eax, cl
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0478d48             // lea    rax, [rdi - 32]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_981
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
+	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
+	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
+	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
+
+LBB1_590:
+	LONG $0x2c6f0ff3; BYTE $0x02               // movdqu    xmm5, oword [rdx + rax]
+	LONG $0x746f0ff3; WORD $0x1002             // movdqu    xmm6, oword [rdx + rax + 16]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2002             // movdqu    xmm5, oword [rdx + rax + 32]
+	LONG $0x746f0ff3; WORD $0x3002             // movdqu    xmm6, oword [rdx + rax + 48]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_590
+	JMP  LBB1_982
+
+LBB1_591:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_989
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_593:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_593
+	JMP  LBB1_990
+
+LBB1_594:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_997
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_596:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_596
+	JMP  LBB1_998
+
+LBB1_597:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1005
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_599:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_599
+	JMP  LBB1_1006
+
+LBB1_600:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1013
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_602:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_602
+	JMP  LBB1_1014
+
+LBB1_603:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1021
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_605:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_605
+	JMP  LBB1_1022
+
+LBB1_606:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1029
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_608:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_608
+	JMP  LBB1_1030
+
+LBB1_609:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1037
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_611:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_611
+	JMP  LBB1_1038
+
+LBB1_612:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1045
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_614:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_614
+	JMP  LBB1_1046
+
+LBB1_615:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1053
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_617:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_617
+	JMP  LBB1_1054
+
+LBB1_618:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_1061
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_620:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_620
+	JMP  LBB1_1062
+
+LBB1_621:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_622:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_624
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_624:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_625
+
+LBB1_629:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_630:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_632
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_632:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_633
+
+LBB1_637:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_638:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_640
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_640:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_641
+
+LBB1_645:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_646:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_648
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_648:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_649
+
+LBB1_653:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_654:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_656
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_656:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_657
+
+LBB1_661:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_662:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_664
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_664:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_665
+
+LBB1_669:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_670:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_672
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
+	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+
+LBB1_672:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1069
+	JMP  LBB1_673
+
+LBB1_677:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_678:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_680
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
+	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+
+LBB1_680:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1069
+	JMP  LBB1_681
+
+LBB1_685:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_686:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_688
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+
+LBB1_688:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1069
+	JMP  LBB1_689
+
+LBB1_693:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_694:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_696
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+
+LBB1_696:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1069
+	JMP  LBB1_697
+
+LBB1_701:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_702:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_704
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+
+LBB1_704:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1069
+	JMP  LBB1_705
+
+LBB1_709:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_710:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_712
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+
+LBB1_712:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1069
+	JMP  LBB1_713
+
+LBB1_717:
+	WORD $0xc031 // xor    eax, eax
+
+LBB1_718:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_720
+	LONG $0x146f0ff3; BYTE $0x02               // movdqu    xmm2, oword [rdx + rax]
+	LONG $0x5c6f0ff3; WORD $0x1002             // movdqu    xmm3, oword [rdx + rax + 16]
+	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
+	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xecdb0f66                           // pand    xmm5, xmm4
+	LONG $0xea670f66                           // packuswb    xmm5, xmm2
+	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
+	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
+	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
+	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
+
+LBB1_720:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB1_1069
+	JMP  LBB1_721
+
+LBB1_725:
+	WORD $0xc031 // xor    eax, eax
+
+LBB1_726:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_728
+	LONG $0x146f0ff3; BYTE $0x02               // movdqu    xmm2, oword [rdx + rax]
+	LONG $0x5c6f0ff3; WORD $0x1002             // movdqu    xmm3, oword [rdx + rax + 16]
+	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
+	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xecdb0f66                           // pand    xmm5, xmm4
+	LONG $0xea670f66                           // packuswb    xmm5, xmm2
+	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
+	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
+	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
+	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
+
+LBB1_728:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB1_1069
+	JMP  LBB1_729
+
+LBB1_733:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_734:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_736
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB1_736:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_737
+
+LBB1_741:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_742:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_744
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB1_744:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_745
+
+LBB1_749:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_750:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_752
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB1_752:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_753
+
+LBB1_757:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_758:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_760
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB1_760:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_761
+
+LBB1_765:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_766:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_768
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB1_768:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_769
+
+LBB1_773:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_774:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_776
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB1_776:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_777
+
+LBB1_781:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_782:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_784
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB1_784:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_785
+
+LBB1_789:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_790:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_792
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB1_792:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_793
+
+LBB1_797:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_798:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_800
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB1_800:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_801
+
+LBB1_805:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_806:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_808
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB1_808:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_809
+
+LBB1_813:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_814:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_816
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB1_816:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_817
+
+LBB1_821:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_822:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_824
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB1_824:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_825
+
+LBB1_829:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_830:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_832
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB1_832:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_833
+
+LBB1_837:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_838:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_840
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB1_840:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_841
+
+LBB1_845:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_846:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_848
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB1_848:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_849
+
+LBB1_853:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_854:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_856
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB1_856:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_857
+
+LBB1_861:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_862:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_864
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB1_864:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_865
+
+LBB1_869:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_870:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_872
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB1_872:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_873
+
+LBB1_877:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_878:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_880
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB1_880:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_881
+
+LBB1_885:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_886:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_888
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB1_888:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_889
+
+LBB1_893:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_894:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB1_896
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
+	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+
+LBB1_896:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1069
+	JMP  LBB1_897
+
+LBB1_901:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_902:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB1_904
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
+	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+
+LBB1_904:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1069
+	JMP  LBB1_905
+
+LBB1_909:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_910:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_912
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB1_912:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_913
+
+LBB1_917:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_918:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB1_920
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+
+LBB1_920:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1069
+	JMP  LBB1_921
+
+LBB1_925:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_926:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_928
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB1_928:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_929
+
+LBB1_933:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_934:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB1_936
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+
+LBB1_936:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1069
+	JMP  LBB1_937
+
+LBB1_941:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_942:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_944
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB1_944:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_945
+
+LBB1_949:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_950:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB1_952
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+
+LBB1_952:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1069
+	JMP  LBB1_953
+
+LBB1_957:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_958:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_960
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB1_960:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_961
+
+LBB1_965:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_966:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB1_968
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+
+LBB1_968:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_1069
+	JMP  LBB1_969
+
+LBB1_973:
+	WORD $0xc031 // xor    eax, eax
+
+LBB1_974:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_976
+	LONG $0x146f0ff3; BYTE $0x02               // movdqu    xmm2, oword [rdx + rax]
+	LONG $0x5c6f0ff3; WORD $0x1002             // movdqu    xmm3, oword [rdx + rax + 16]
+	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
+	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xecdb0f66                           // pand    xmm5, xmm4
+	LONG $0xea670f66                           // packuswb    xmm5, xmm2
+	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
+	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
+	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
+	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
+
+LBB1_976:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB1_1069
+	JMP  LBB1_977
+
+LBB1_981:
+	WORD $0xc031 // xor    eax, eax
+
+LBB1_982:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_984
+	LONG $0x146f0ff3; BYTE $0x02               // movdqu    xmm2, oword [rdx + rax]
+	LONG $0x5c6f0ff3; WORD $0x1002             // movdqu    xmm3, oword [rdx + rax + 16]
+	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
+	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xecdb0f66                           // pand    xmm5, xmm4
+	LONG $0xea670f66                           // packuswb    xmm5, xmm2
+	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
+	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
+	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
+	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
+
+LBB1_984:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB1_1069
+	JMP  LBB1_985
+
+LBB1_989:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_990:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_992
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB1_992:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_993
+
+LBB1_997:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_998:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1000
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB1_1000:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_1001
+
+LBB1_1005:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1006:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1008
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB1_1008:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_1009
+
+LBB1_1013:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1014:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1016
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB1_1016:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_1017
+
+LBB1_1021:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1022:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1024
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_1024:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_1025
+
+LBB1_1029:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1030:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1032
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_1032:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_1033
+
+LBB1_1037:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1038:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1040
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_1040:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_1041
+
+LBB1_1045:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1046:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1048
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_1048:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_1049
+
+LBB1_1053:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1054:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1056
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_1056:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_1057
+
+LBB1_1061:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_1062:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_1064
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_1064:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_1069
+	JMP  LBB1_1065
+
+DATA LCDATA3<>+0x000(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA3<>+0x008(SB)/8, $0x00ff00ff00ff00ff
+GLOBL LCDATA3<>(SB), 8, $16
+
+TEXT ·_arithmetic_scalar_arr_sse4(SB), $0-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+	LEAQ LCDATA3<>(SB), BP
+
+	LONG $0x14fe8040         // cmp    sil, 20
+	JG   LBB2_12
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB2_23
+	LONG $0x01fe8040         // cmp    sil, 1
+	JE   LBB2_31
+	LONG $0x02fe8040         // cmp    sil, 2
+	JNE  LBB2_1069
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_55
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_97
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_157
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_160
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_11
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_453
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_453
+
+LBB2_11:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_625:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_627
+
+LBB2_626:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_626
+
+LBB2_627:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_628:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_628
+	JMP  LBB2_1069
+
+LBB2_12:
+	LONG $0x15fe8040         // cmp    sil, 21
+	JE   LBB2_39
+	LONG $0x16fe8040         // cmp    sil, 22
+	JE   LBB2_47
+	LONG $0x17fe8040         // cmp    sil, 23
+	JNE  LBB2_1069
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_62
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_102
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_163
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_166
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_22
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_456
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_456
+
+LBB2_22:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_633:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_635
+
+LBB2_634:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_634
+
+LBB2_635:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_636:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_636
+	JMP  LBB2_1069
+
+LBB2_23:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_69
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_107
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_169
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_172
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_30
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_459
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_459
+
+LBB2_30:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_641:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_643
+
+LBB2_642:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_642
+
+LBB2_643:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_644:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_644
+	JMP  LBB2_1069
+
+LBB2_31:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_76
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_112
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_175
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_178
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_38
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_462
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_462
+
+LBB2_38:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_649:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_651
+
+LBB2_650:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_650
+
+LBB2_651:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1069
+
+LBB2_652:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_652
+	JMP  LBB2_1069
+
+LBB2_39:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_83
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_117
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_181
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_184
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_46
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_465
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_465
+
+LBB2_46:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_657:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_659
+
+LBB2_658:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_658
+
+LBB2_659:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_660:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_660
+	JMP  LBB2_1069
+
+LBB2_47:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_90
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_122
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_187
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_190
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_54
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_468
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_468
+
+LBB2_54:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_665:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_667
+
+LBB2_666:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_666
+
+LBB2_667:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1069
+
+LBB2_668:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_668
+	JMP  LBB2_1069
+
+LBB2_55:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_127
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_193
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_196
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_61
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_471
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_471
+
+LBB2_61:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_673:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_675
+
+LBB2_674:
+	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8590ff2               // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_674
+
+LBB2_675:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1069
+
+LBB2_676:
+	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_676
+	JMP  LBB2_1069
+
+LBB2_62:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_132
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_199
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_202
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_68
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_474
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_474
+
+LBB2_68:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_681:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_683
+
+LBB2_682:
+	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8590ff2               // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_682
+
+LBB2_683:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1069
+
+LBB2_684:
+	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
+	LONG $0xc8590ff2                           // mulsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_684
+	JMP  LBB2_1069
+
+LBB2_69:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_137
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_205
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_208
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_75
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_477
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_477
+
+LBB2_75:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_689:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_691
+
+LBB2_690:
+	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8580ff2               // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_690
+
+LBB2_691:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1069
+
+LBB2_692:
+	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_692
+	JMP  LBB2_1069
+
+LBB2_76:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_142
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_211
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_214
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_82
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_480
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_480
+
+LBB2_82:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_697:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_699
+
+LBB2_698:
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xd1   // subsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_698
+
+LBB2_699:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1069
+
+LBB2_700:
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xd1               // subsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x08d1             // subsd    xmm1, qword [rcx + 8*rdx + 8]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x10d1             // subsd    xmm1, qword [rcx + 8*rdx + 16]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x18d1             // subsd    xmm1, qword [rcx + 8*rdx + 24]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_700
+	JMP  LBB2_1069
+
+LBB2_83:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_147
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_217
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_220
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_89
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_483
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_483
+
+LBB2_89:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_705:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_707
+
+LBB2_706:
+	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8580ff2               // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_706
+
+LBB2_707:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1069
+
+LBB2_708:
+	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_708
+	JMP  LBB2_1069
+
+LBB2_90:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_152
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_223
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_226
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_96
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_486
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_486
+
+LBB2_96:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_713:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_715
+
+LBB2_714:
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xd1   // subsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_714
+
+LBB2_715:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1069
+
+LBB2_716:
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xd1               // subsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x08d1             // subsd    xmm1, qword [rcx + 8*rdx + 8]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x10d1             // subsd    xmm1, qword [rcx + 8*rdx + 16]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x18d1             // subsd    xmm1, qword [rcx + 8*rdx + 24]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_716
+	JMP  LBB2_1069
+
+LBB2_97:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_229
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x128a             // mov    dl, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_101
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_489
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_489
+
+LBB2_101:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_721:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB2_723
+
+LBB2_722:
+	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6     // mul    dl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB2_722
+
+LBB2_723:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_724:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_724
+	JMP  LBB2_1069
+
+LBB2_102:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_232
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x128a             // mov    dl, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_106
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_492
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_492
+
+LBB2_106:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_729:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB2_731
+
+LBB2_730:
+	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6     // mul    dl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB2_730
+
+LBB2_731:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_732:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_732
+	JMP  LBB2_1069
+
+LBB2_107:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_235
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x028a             // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_111
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_495
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_495
+
+LBB2_111:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_737:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_739
+
+LBB2_738:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_738
+
+LBB2_739:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_740:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_740
+	JMP  LBB2_1069
+
+LBB2_112:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_238
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_116
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_498
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_498
+
+LBB2_116:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_745:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_747
+
+LBB2_746:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_746
+
+LBB2_747:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1069
+
+LBB2_748:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_748
+	JMP  LBB2_1069
+
+LBB2_117:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_241
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x028a             // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_121
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_501
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_501
+
+LBB2_121:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_753:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_755
+
+LBB2_754:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_754
+
+LBB2_755:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_756:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_756
+	JMP  LBB2_1069
+
+LBB2_122:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_244
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_126
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_504
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_504
+
+LBB2_126:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_761:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_763
+
+LBB2_762:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_762
+
+LBB2_763:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1069
+
+LBB2_764:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_764
+	JMP  LBB2_1069
+
+LBB2_127:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_247
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB2_319
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB2_321
+
+LBB2_132:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_250
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB2_324
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB2_326
+
+LBB2_137:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_253
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_141
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_507
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_507
+
+LBB2_141:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_769:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_771
+
+LBB2_770:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_770
+
+LBB2_771:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_772:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_772
+	JMP  LBB2_1069
+
+LBB2_142:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_256
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_146
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_510
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_510
+
+LBB2_146:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_777:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_779
+
+LBB2_778:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_778
+
+LBB2_779:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1069
+
+LBB2_780:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_780
+	JMP  LBB2_1069
+
+LBB2_147:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_259
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_151
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_513
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_513
+
+LBB2_151:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_785:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_787
+
+LBB2_786:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_786
+
+LBB2_787:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_788:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_788
+	JMP  LBB2_1069
+
+LBB2_152:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_262
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_1069
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_156
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_516
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_516
+
+LBB2_156:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_793:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_795
+
+LBB2_794:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_794
+
+LBB2_795:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1069
+
+LBB2_796:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_796
+	JMP  LBB2_1069
+
+LBB2_157:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_159
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_519
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_519
+
+LBB2_159:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_801:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_803
+
+LBB2_802:
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	LONG $0xd0af0f66             // imul    dx, ax
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_802
+
+LBB2_803:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_804:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_804
+	JMP  LBB2_1069
+
+LBB2_160:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_162
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_522
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_522
+
+LBB2_162:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_809:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_811
+
+LBB2_810:
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	LONG $0xd0af0f66             // imul    dx, ax
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_810
+
+LBB2_811:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_812:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_812
+	JMP  LBB2_1069
+
+LBB2_163:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_165
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_525
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_525
+
+LBB2_165:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_817:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_819
+
+LBB2_818:
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	LONG $0xd0af0f66             // imul    dx, ax
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_818
+
+LBB2_819:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_820:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_820
+	JMP  LBB2_1069
+
+LBB2_166:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_168
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_528
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_528
+
+LBB2_168:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_825:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_827
+
+LBB2_826:
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	LONG $0xd0af0f66             // imul    dx, ax
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_826
+
+LBB2_827:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_828:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	LONG $0xd0af0f66               // imul    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_828
+	JMP  LBB2_1069
+
+LBB2_169:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_171
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_531
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_531
+
+LBB2_171:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_833:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_835
+
+LBB2_834:
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2     // add    dx, ax
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_834
+
+LBB2_835:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_836:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_836
+	JMP  LBB2_1069
+
+LBB2_172:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_174
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_534
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_534
+
+LBB2_174:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_841:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_843
+
+LBB2_842:
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2     // add    dx, ax
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_842
+
+LBB2_843:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_844:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_844
+	JMP  LBB2_1069
+
+LBB2_175:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_177
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_537
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_537
+
+LBB2_177:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_849:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_851
+
+LBB2_850:
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_850
+
+LBB2_851:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_852:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_852
+	JMP  LBB2_1069
+
+LBB2_178:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_180
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_540
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_540
+
+LBB2_180:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_857:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_859
+
+LBB2_858:
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_858
+
+LBB2_859:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_860:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_860
+	JMP  LBB2_1069
+
+LBB2_181:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_183
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_543
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_543
+
+LBB2_183:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_865:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_867
+
+LBB2_866:
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2     // add    dx, ax
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_866
+
+LBB2_867:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_868:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_868
+	JMP  LBB2_1069
+
+LBB2_184:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_186
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_546
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_546
+
+LBB2_186:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_873:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_875
+
+LBB2_874:
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2     // add    dx, ax
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_874
+
+LBB2_875:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_876:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_876
+	JMP  LBB2_1069
+
+LBB2_187:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_189
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_549
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_549
+
+LBB2_189:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_881:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_883
+
+LBB2_882:
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_882
+
+LBB2_883:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_884:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_884
+	JMP  LBB2_1069
+
+LBB2_190:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_192
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_552
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_552
+
+LBB2_192:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_889:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_891
+
+LBB2_890:
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_890
+
+LBB2_891:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_892:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_892
+	JMP  LBB2_1069
+
+LBB2_193:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB2_377
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB2_379
+
+LBB2_196:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_198
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_555
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_555
+
+LBB2_198:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_897:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_899
+
+LBB2_898:
+	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8590ff3               // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_898
+
+LBB2_899:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1069
+
+LBB2_900:
+	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_900
+	JMP  LBB2_1069
+
+LBB2_199:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf1 // mov    r9d, esi
+	LONG $0x03e18341         // and    r9d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB2_385
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB2_387
+
+LBB2_202:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_204
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_558
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_558
+
+LBB2_204:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_905:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_907
+
+LBB2_906:
+	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8590ff3               // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_906
+
+LBB2_907:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1069
+
+LBB2_908:
+	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
+	LONG $0xc8590ff3                           // mulss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_908
+	JMP  LBB2_1069
+
+LBB2_205:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_207
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_561
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_561
+
+LBB2_207:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_913:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_915
+
+LBB2_914:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_914
+
+LBB2_915:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_916:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_916
+	JMP  LBB2_1069
+
+LBB2_208:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_210
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_564
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_564
+
+LBB2_210:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_921:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_923
+
+LBB2_922:
+	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8580ff3               // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_922
+
+LBB2_923:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1069
+
+LBB2_924:
+	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_924
+	JMP  LBB2_1069
+
+LBB2_211:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_213
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_567
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_567
+
+LBB2_213:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_929:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_931
+
+LBB2_930:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_930
+
+LBB2_931:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1069
+
+LBB2_932:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_932
+	JMP  LBB2_1069
+
+LBB2_214:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_216
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_570
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_570
+
+LBB2_216:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_937:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_939
+
+LBB2_938:
+	WORD $0x280f; BYTE $0xc8       // movaps    xmm1, xmm0
+	LONG $0x0c5c0ff3; BYTE $0x91   // subss    xmm1, dword [rcx + 4*rdx]
+	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_938
+
+LBB2_939:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1069
+
+LBB2_940:
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x0c5c0ff3; BYTE $0x91               // subss    xmm1, dword [rcx + 4*rdx]
+	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0491             // subss    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0891             // subss    xmm1, dword [rcx + 4*rdx + 8]
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0c91             // subss    xmm1, dword [rcx + 4*rdx + 12]
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_940
+	JMP  LBB2_1069
+
+LBB2_217:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_219
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_573
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_573
+
+LBB2_219:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_945:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_947
+
+LBB2_946:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_946
+
+LBB2_947:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_948:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_948
+	JMP  LBB2_1069
+
+LBB2_220:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_222
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_576
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_576
+
+LBB2_222:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_953:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_955
+
+LBB2_954:
+	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8580ff3               // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_954
+
+LBB2_955:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1069
+
+LBB2_956:
+	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_956
+	JMP  LBB2_1069
+
+LBB2_223:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_225
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_579
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_579
+
+LBB2_225:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_961:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_963
+
+LBB2_962:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_962
+
+LBB2_963:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1069
+
+LBB2_964:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_964
+	JMP  LBB2_1069
+
+LBB2_226:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_228
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_582
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_582
+
+LBB2_228:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_969:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_971
+
+LBB2_970:
+	WORD $0x280f; BYTE $0xc8       // movaps    xmm1, xmm0
+	LONG $0x0c5c0ff3; BYTE $0x91   // subss    xmm1, dword [rcx + 4*rdx]
+	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_970
+
+LBB2_971:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_1069
+
+LBB2_972:
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x0c5c0ff3; BYTE $0x91               // subss    xmm1, dword [rcx + 4*rdx]
+	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0491             // subss    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0891             // subss    xmm1, dword [rcx + 4*rdx + 8]
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0c91             // subss    xmm1, dword [rcx + 4*rdx + 12]
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_972
+	JMP  LBB2_1069
+
+LBB2_229:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x128a             // mov    dl, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_231
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_585
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_585
+
+LBB2_231:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_977:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB2_979
+
+LBB2_978:
+	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6     // mul    dl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB2_978
+
+LBB2_979:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_980:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_980
+	JMP  LBB2_1069
+
+LBB2_232:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x128a             // mov    dl, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_234
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_588
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_588
+
+LBB2_234:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_985:
+	WORD $0x8949; BYTE $0xf9 // mov    r9, rdi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd6 // mov    rsi, r10
+	LONG $0x03e68348         // and    rsi, 3
+	JE   LBB2_987
+
+LBB2_986:
+	LONG $0x3904b60f // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6     // mul    dl
+	LONG $0x38048841 // mov    byte [r8 + rdi], al
+	LONG $0x01c78348 // add    rdi, 1
+	LONG $0xffc68348 // add    rsi, -1
+	JNE  LBB2_986
+
+LBB2_987:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_988:
+	LONG $0x3904b60f             // movzx    eax, byte [rcx + rdi]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38048841             // mov    byte [r8 + rdi], al
+	LONG $0x3944b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdi + 1]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x01 // mov    byte [r8 + rdi + 1], al
+	LONG $0x3944b60f; BYTE $0x02 // movzx    eax, byte [rcx + rdi + 2]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x02 // mov    byte [r8 + rdi + 2], al
+	LONG $0x3944b60f; BYTE $0x03 // movzx    eax, byte [rcx + rdi + 3]
+	WORD $0xe2f6                 // mul    dl
+	LONG $0x38448841; BYTE $0x03 // mov    byte [r8 + rdi + 3], al
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_988
+	JMP  LBB2_1069
+
+LBB2_235:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x028a             // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_237
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_591
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_591
+
+LBB2_237:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_993:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_995
+
+LBB2_994:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_994
+
+LBB2_995:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_996:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_996
+	JMP  LBB2_1069
+
+LBB2_238:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_240
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_594
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_594
+
+LBB2_240:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1001:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1003
+
+LBB2_1002:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1002
+
+LBB2_1003:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1069
+
+LBB2_1004:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1004
+	JMP  LBB2_1069
+
+LBB2_241:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x028a             // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_243
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_597
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_597
+
+LBB2_243:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1009:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1011
+
+LBB2_1010:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_1010
+
+LBB2_1011:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_1012:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1012
+	JMP  LBB2_1069
+
+LBB2_244:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_246
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_600
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_600
+
+LBB2_246:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1017:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1019
+
+LBB2_1018:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1018
+
+LBB2_1019:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1069
+
+LBB2_1020:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1020
+	JMP  LBB2_1069
+
+LBB2_247:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_249
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_603
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_603
+
+LBB2_249:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1025:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1027
+
+LBB2_1026:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1026
+
+LBB2_1027:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_1028:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1028
+	JMP  LBB2_1069
+
+LBB2_250:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_252
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_606
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_606
+
+LBB2_252:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1033:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1035
+
+LBB2_1034:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0 // imul    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1034
+
+LBB2_1035:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_1036:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xaf0f; BYTE $0xd0     // imul    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1036
+	JMP  LBB2_1069
+
+LBB2_253:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_255
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_609
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_609
+
+LBB2_255:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1041:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1043
+
+LBB2_1042:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1042
+
+LBB2_1043:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_1044:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1044
+	JMP  LBB2_1069
+
+LBB2_256:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_258
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_612
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_612
+
+LBB2_258:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1049:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1051
+
+LBB2_1050:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1050
+
+LBB2_1051:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1069
+
+LBB2_1052:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1052
+	JMP  LBB2_1069
+
+LBB2_259:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_261
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_615
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_615
+
+LBB2_261:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1057:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1059
+
+LBB2_1058:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1058
+
+LBB2_1059:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_1069
+
+LBB2_1060:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1060
+	JMP  LBB2_1069
+
+LBB2_262:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_1069
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_264
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_618
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_618
+
+LBB2_264:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_1065:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_1067
+
+LBB2_1066:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_1066
+
+LBB2_1067:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_1069
+
+LBB2_1068:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_1068
+	JMP  LBB2_1069
+
+LBB2_319:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_320:
+	LONG $0xf9148b48             // mov    rdx, qword [rcx + 8*rdi]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8148949             // mov    qword [r8 + 8*rdi], rdx
+	LONG $0xf9548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rdi + 8]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8548949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rdx
+	LONG $0xf9548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rdi + 16]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8548949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rdx
+	LONG $0xf9548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rdi + 24]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8548949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rdx
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
+	JNE  LBB2_320
+
+LBB2_321:
+	WORD $0x854d; BYTE $0xc9 // test    r9, r9
+	JE   LBB2_1069
+	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_323:
+	LONG $0xf9148b48         // mov    rdx, qword [rcx + 8*rdi]
+	LONG $0xd0af0f48         // imul    rdx, rax
+	LONG $0xfe148948         // mov    qword [rsi + 8*rdi], rdx
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
+	JNE  LBB2_323
+	JMP  LBB2_1069
+
+LBB2_324:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_325:
+	LONG $0xf9148b48             // mov    rdx, qword [rcx + 8*rdi]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8148949             // mov    qword [r8 + 8*rdi], rdx
+	LONG $0xf9548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rdi + 8]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8548949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rdx
+	LONG $0xf9548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rdi + 16]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8548949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rdx
+	LONG $0xf9548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rdi + 24]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8548949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rdx
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
+	JNE  LBB2_325
+
+LBB2_326:
+	WORD $0x854d; BYTE $0xc9 // test    r9, r9
+	JE   LBB2_1069
+	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_328:
+	LONG $0xf9148b48         // mov    rdx, qword [rcx + 8*rdi]
+	LONG $0xd0af0f48         // imul    rdx, rax
+	LONG $0xfe148948         // mov    qword [rsi + 8*rdi], rdx
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
+	JNE  LBB2_328
+	JMP  LBB2_1069
+
+LBB2_377:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_378:
+	LONG $0xf9148b48             // mov    rdx, qword [rcx + 8*rdi]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8148949             // mov    qword [r8 + 8*rdi], rdx
+	LONG $0xf9548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rdi + 8]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8548949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rdx
+	LONG $0xf9548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rdi + 16]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8548949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rdx
+	LONG $0xf9548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rdi + 24]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8548949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rdx
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
+	JNE  LBB2_378
+
+LBB2_379:
+	WORD $0x854d; BYTE $0xc9 // test    r9, r9
+	JE   LBB2_1069
+	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_381:
+	LONG $0xf9148b48         // mov    rdx, qword [rcx + 8*rdi]
+	LONG $0xd0af0f48         // imul    rdx, rax
+	LONG $0xfe148948         // mov    qword [rsi + 8*rdi], rdx
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
+	JNE  LBB2_381
+	JMP  LBB2_1069
+
+LBB2_385:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_386:
+	LONG $0xf9148b48             // mov    rdx, qword [rcx + 8*rdi]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8148949             // mov    qword [r8 + 8*rdi], rdx
+	LONG $0xf9548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rdi + 8]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8548949; BYTE $0x08 // mov    qword [r8 + 8*rdi + 8], rdx
+	LONG $0xf9548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rdi + 16]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8548949; BYTE $0x10 // mov    qword [r8 + 8*rdi + 16], rdx
+	LONG $0xf9548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rdi + 24]
+	LONG $0xd0af0f48             // imul    rdx, rax
+	LONG $0xf8548949; BYTE $0x18 // mov    qword [r8 + 8*rdi + 24], rdx
+	LONG $0x04c78348             // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe     // cmp    rsi, rdi
+	JNE  LBB2_386
+
+LBB2_387:
+	WORD $0x854d; BYTE $0xc9 // test    r9, r9
+	JE   LBB2_1069
+	LONG $0xf8348d49         // lea    rsi, [r8 + 8*rdi]
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_389:
+	LONG $0xf9148b48         // mov    rdx, qword [rcx + 8*rdi]
+	LONG $0xd0af0f48         // imul    rdx, rax
+	LONG $0xfe148948         // mov    qword [rsi + 8*rdi], rdx
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x3949; BYTE $0xf9 // cmp    r9, rdi
+	JNE  LBB2_389
+
+LBB2_1069:
+	RET
+
+LBB2_453:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_621
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_455:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_455
+	JMP  LBB2_622
+
+LBB2_456:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_629
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_458:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_458
+	JMP  LBB2_630
+
+LBB2_459:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_637
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_461:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_461
+	JMP  LBB2_638
+
+LBB2_462:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_645
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_464:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_464
+	JMP  LBB2_646
+
+LBB2_465:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_653
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_467:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_467
+	JMP  LBB2_654
+
+LBB2_468:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_661
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_470:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_470
+	JMP  LBB2_662
+
+LBB2_471:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_669
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_473:
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
+	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
+	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
+	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_473
+	JMP  LBB2_670
+
+LBB2_474:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_677
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_476:
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
+	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
+	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
+	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_476
+	JMP  LBB2_678
+
+LBB2_477:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_685
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_479:
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_479
+	JMP  LBB2_686
+
+LBB2_480:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_693
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_482:
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xf864; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm4
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_482
+	JMP  LBB2_694
+
+LBB2_483:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_701
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_485:
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_485
+	JMP  LBB2_702
+
+LBB2_486:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_709
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_488:
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xf864; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm4
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_488
+	JMP  LBB2_710
+
+LBB2_489:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0478d48             // lea    rax, [rdi - 32]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_717
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
+	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
+	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
+	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
+
+LBB2_491:
+	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
+	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
+	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_491
+	JMP  LBB2_718
+
+LBB2_492:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0478d48             // lea    rax, [rdi - 32]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_725
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
+	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
+	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
+	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
+
+LBB2_494:
+	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
+	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
+	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_494
+	JMP  LBB2_726
+
+LBB2_495:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_733
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_497:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_497
+	JMP  LBB2_734
+
+LBB2_498:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xd3b60f41             // movzx    edx, r11b
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_741
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_500:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_500
+	JMP  LBB2_742
+
+LBB2_501:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_749
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_503:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_503
+	JMP  LBB2_750
+
+LBB2_504:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xd3b60f41             // movzx    edx, r11b
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_757
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_506:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_506
+	JMP  LBB2_758
+
+LBB2_507:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_765
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_509:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_509
+	JMP  LBB2_766
+
+LBB2_510:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_773
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_512:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_512
+	JMP  LBB2_774
+
+LBB2_513:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_781
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_515:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_515
+	JMP  LBB2_782
+
+LBB2_516:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_789
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_518:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_518
+	JMP  LBB2_790
+
+LBB2_519:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_797
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_521:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_521
+	JMP  LBB2_798
+
+LBB2_522:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_805
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_524:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_524
+	JMP  LBB2_806
+
+LBB2_525:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_813
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_527:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_527
+	JMP  LBB2_814
+
+LBB2_528:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_821
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_530:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_530
+	JMP  LBB2_822
+
+LBB2_531:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_829
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_533:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_533
+	JMP  LBB2_830
+
+LBB2_534:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_837
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_536:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_536
+	JMP  LBB2_838
+
+LBB2_537:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_845
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_539:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_539
+	JMP  LBB2_846
+
+LBB2_540:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_853
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_542:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_542
+	JMP  LBB2_854
+
+LBB2_543:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_861
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_545:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_545
+	JMP  LBB2_862
+
+LBB2_546:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_869
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_548:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_548
+	JMP  LBB2_870
+
+LBB2_549:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_877
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_551:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_551
+	JMP  LBB2_878
+
+LBB2_552:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_885
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_554:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_554
+	JMP  LBB2_886
+
+LBB2_555:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_893
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_557:
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
+	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
+	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
+	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB2_557
+	JMP  LBB2_894
+
+LBB2_558:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_901
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_560:
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
+	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
+	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
+	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB2_560
+	JMP  LBB2_902
+
+LBB2_561:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_909
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_563:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_563
+	JMP  LBB2_910
+
+LBB2_564:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_917
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_566:
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB2_566
+	JMP  LBB2_918
+
+LBB2_567:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_925
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_569:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_569
+	JMP  LBB2_926
+
+LBB2_570:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_933
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_572:
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
+	LONG $0x54110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x64110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm4
+	LONG $0x54110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB2_572
+	JMP  LBB2_934
+
+LBB2_573:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_941
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_575:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_575
+	JMP  LBB2_942
+
+LBB2_576:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_949
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_578:
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB2_578
+	JMP  LBB2_950
+
+LBB2_579:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_957
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_581:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_581
+	JMP  LBB2_958
+
+LBB2_582:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_965
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_584:
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
+	LONG $0x54110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x64110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm4
+	LONG $0x54110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB2_584
+	JMP  LBB2_966
+
+LBB2_585:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0478d48             // lea    rax, [rdi - 32]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_973
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
+	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
+	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
+	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
+
+LBB2_587:
+	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
+	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
+	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_587
+	JMP  LBB2_974
+
+LBB2_588:
+	WORD $0x8944; BYTE $0xd7     // mov    edi, r10d
+	WORD $0xe783; BYTE $0xe0     // and    edi, -32
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0478d48             // lea    rax, [rdi - 32]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0x30380f66; BYTE $0xc8 // pmovzxbw    xmm1, xmm0
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_981
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
+	LONG $0xd2680f66             // punpckhbw    xmm2, xmm2
+	LONG $0x5d6f0f66; BYTE $0x00 // movdqa    xmm3, oword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xe06f0f66             // movdqa    xmm4, xmm0
+	LONG $0xe4680f66             // punpckhbw    xmm4, xmm4
+
+LBB2_590:
+	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
+	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
+	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
+	LONG $0x30380f66; BYTE $0xfd               // pmovzxbw    xmm7, xmm5
+	LONG $0xed680f66                           // punpckhbw    xmm5, xmm5
+	LONG $0xead50f66                           // pmullw    xmm5, xmm2
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xf9d50f66                           // pmullw    xmm7, xmm1
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfd670f66                           // packuswb    xmm7, xmm5
+	LONG $0x30380f66; BYTE $0xee               // pmovzxbw    xmm5, xmm6
+	LONG $0xf6680f66                           // punpckhbw    xmm6, xmm6
+	LONG $0xf4d50f66                           // pmullw    xmm6, xmm4
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xebdb0f66                           // pand    xmm5, xmm3
+	LONG $0xee670f66                           // packuswb    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_590
+	JMP  LBB2_982
+
+LBB2_591:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_989
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_593:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_593
+	JMP  LBB2_990
+
+LBB2_594:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xd3b60f41             // movzx    edx, r11b
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_997
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_596:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_596
+	JMP  LBB2_998
+
+LBB2_597:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1005
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_599:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_599
+	JMP  LBB2_1006
+
+LBB2_600:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xd3b60f41             // movzx    edx, r11b
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1013
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_602:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_602
+	JMP  LBB2_1014
+
+LBB2_603:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1021
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_605:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_605
+	JMP  LBB2_1022
+
+LBB2_606:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1029
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_608:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_608
+	JMP  LBB2_1030
+
+LBB2_609:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1037
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_611:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_611
+	JMP  LBB2_1038
+
+LBB2_612:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1045
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_614:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_614
+	JMP  LBB2_1046
+
+LBB2_615:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1053
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_617:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_617
+	JMP  LBB2_1054
+
+LBB2_618:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_1061
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_620:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_620
+	JMP  LBB2_1062
+
+LBB2_621:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_622:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_624
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB2_624:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_625
+
+LBB2_629:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_630:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_632
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB2_632:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_633
+
+LBB2_637:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_638:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_640
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB2_640:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_641
+
+LBB2_645:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_646:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_648
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+
+LBB2_648:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_649
+
+LBB2_653:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_654:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_656
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB2_656:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_657
+
+LBB2_661:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_662:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_664
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+
+LBB2_664:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_665
+
+LBB2_669:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_670:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_672
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
+	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+
+LBB2_672:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1069
+	JMP  LBB2_673
+
+LBB2_677:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_678:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_680
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xd1590f66                           // mulpd    xmm2, xmm1
+	LONG $0xd9590f66                           // mulpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+
+LBB2_680:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1069
+	JMP  LBB2_681
+
+LBB2_685:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_686:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_688
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+
+LBB2_688:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1069
+	JMP  LBB2_689
+
+LBB2_693:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_694:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_696
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
+	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+
+LBB2_696:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1069
+	JMP  LBB2_697
+
+LBB2_701:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_702:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_704
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+
+LBB2_704:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1069
+	JMP  LBB2_705
+
+LBB2_709:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_710:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_712
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
+	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+
+LBB2_712:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1069
+	JMP  LBB2_713
+
+LBB2_717:
+	WORD $0xc031 // xor    eax, eax
+
+LBB2_718:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_720
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0x5c6f0ff3; WORD $0x1001             // movdqu    xmm3, oword [rcx + rax + 16]
+	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
+	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xecdb0f66                           // pand    xmm5, xmm4
+	LONG $0xea670f66                           // packuswb    xmm5, xmm2
+	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
+	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
+	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
+	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
+
+LBB2_720:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB2_1069
+	JMP  LBB2_721
+
+LBB2_725:
+	WORD $0xc031 // xor    eax, eax
+
+LBB2_726:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_728
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0x5c6f0ff3; WORD $0x1001             // movdqu    xmm3, oword [rcx + rax + 16]
+	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
+	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xecdb0f66                           // pand    xmm5, xmm4
+	LONG $0xea670f66                           // packuswb    xmm5, xmm2
+	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
+	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
+	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
+	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
+
+LBB2_728:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB2_1069
+	JMP  LBB2_729
+
+LBB2_733:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_734:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_736
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB2_736:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_737
+
+LBB2_741:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_742:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_744
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+
+LBB2_744:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_745
+
+LBB2_749:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_750:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_752
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB2_752:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_753
+
+LBB2_757:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_758:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_760
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+
+LBB2_760:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_761
+
+LBB2_765:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_766:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_768
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB2_768:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_769
+
+LBB2_773:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_774:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_776
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+
+LBB2_776:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_777
+
+LBB2_781:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_782:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_784
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB2_784:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_785
+
+LBB2_789:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_790:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_792
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+
+LBB2_792:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_793
+
+LBB2_797:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_798:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_800
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB2_800:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_801
+
+LBB2_805:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_806:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_808
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB2_808:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_809
+
+LBB2_813:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_814:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_816
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB2_816:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_817
+
+LBB2_821:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_822:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_824
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8d50f66                           // pmullw    xmm1, xmm0
+	LONG $0xd0d50f66                           // pmullw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB2_824:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_825
+
+LBB2_829:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_830:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_832
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB2_832:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_833
+
+LBB2_837:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_838:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_840
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB2_840:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_841
+
+LBB2_845:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_846:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_848
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+
+LBB2_848:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_849
+
+LBB2_853:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_854:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_856
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+
+LBB2_856:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_857
+
+LBB2_861:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_862:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_864
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB2_864:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_865
+
+LBB2_869:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_870:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_872
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+
+LBB2_872:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_873
+
+LBB2_877:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_878:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_880
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+
+LBB2_880:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_881
+
+LBB2_885:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_886:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_888
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+
+LBB2_888:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_889
+
+LBB2_893:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_894:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB2_896
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
+	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+
+LBB2_896:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1069
+	JMP  LBB2_897
+
+LBB2_901:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_902:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB2_904
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x590f; BYTE $0xd1       // mulps    xmm2, xmm1
+	WORD $0x590f; BYTE $0xd9       // mulps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+
+LBB2_904:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1069
+	JMP  LBB2_905
+
+LBB2_909:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_910:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_912
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB2_912:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_913
+
+LBB2_917:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_918:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB2_920
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+
+LBB2_920:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1069
+	JMP  LBB2_921
+
+LBB2_925:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_926:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_928
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+
+LBB2_928:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_929
+
+LBB2_933:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_934:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB2_936
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x5c0f; BYTE $0xcb       // subps    xmm1, xmm3
+	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+
+LBB2_936:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1069
+	JMP  LBB2_937
+
+LBB2_941:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_942:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_944
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB2_944:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_945
+
+LBB2_949:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_950:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB2_952
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+
+LBB2_952:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1069
+	JMP  LBB2_953
+
+LBB2_957:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_958:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_960
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+
+LBB2_960:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_961
+
+LBB2_965:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_966:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB2_968
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x5c0f; BYTE $0xcb       // subps    xmm1, xmm3
+	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+
+LBB2_968:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_1069
+	JMP  LBB2_969
+
+LBB2_973:
+	WORD $0xc031 // xor    eax, eax
+
+LBB2_974:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_976
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0x5c6f0ff3; WORD $0x1001             // movdqu    xmm3, oword [rcx + rax + 16]
+	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
+	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xecdb0f66                           // pand    xmm5, xmm4
+	LONG $0xea670f66                           // packuswb    xmm5, xmm2
+	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
+	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
+	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
+	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
+
+LBB2_976:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB2_1069
+	JMP  LBB2_977
+
+LBB2_981:
+	WORD $0xc031 // xor    eax, eax
+
+LBB2_982:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_984
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0x5c6f0ff3; WORD $0x1001             // movdqu    xmm3, oword [rcx + rax + 16]
+	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
+	LONG $0xe4680f66                           // punpckhbw    xmm4, xmm4
+	LONG $0x30380f66; BYTE $0xea               // pmovzxbw    xmm5, xmm2
+	LONG $0xd2680f66                           // punpckhbw    xmm2, xmm2
+	LONG $0xd4d50f66                           // pmullw    xmm2, xmm4
+	LONG $0x656f0f66; BYTE $0x00               // movdqa    xmm4, oword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xe9d50f66                           // pmullw    xmm5, xmm1
+	LONG $0xecdb0f66                           // pand    xmm5, xmm4
+	LONG $0xea670f66                           // packuswb    xmm5, xmm2
+	LONG $0xc0680f66                           // punpckhbw    xmm0, xmm0
+	LONG $0x30380f66; BYTE $0xd3               // pmovzxbw    xmm2, xmm3
+	LONG $0xdb680f66                           // punpckhbw    xmm3, xmm3
+	LONG $0xd8d50f66                           // pmullw    xmm3, xmm0
+	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
+	LONG $0xd1d50f66                           // pmullw    xmm2, xmm1
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xd3670f66                           // packuswb    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm2
+
+LBB2_984:
+	WORD $0x394c; BYTE $0xd7 // cmp    rdi, r10
+	JE   LBB2_1069
+	JMP  LBB2_985
+
+LBB2_989:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_990:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_992
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB2_992:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_993
+
+LBB2_997:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_998:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1000
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+
+LBB2_1000:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_1001
+
+LBB2_1005:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1006:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1008
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB2_1008:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_1009
+
+LBB2_1013:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1014:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1016
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+
+LBB2_1016:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_1017
+
+LBB2_1021:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1022:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1024
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB2_1024:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_1025
+
+LBB2_1029:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1030:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1032
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0x40380f66; BYTE $0xc8               // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0               // pmulld    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB2_1032:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_1033
+
+LBB2_1037:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1038:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1040
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB2_1040:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_1041
+
+LBB2_1045:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1046:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1048
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+
+LBB2_1048:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_1049
+
+LBB2_1053:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1054:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1056
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB2_1056:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_1057
+
+LBB2_1061:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_1062:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_1064
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+
+LBB2_1064:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_1069
+	JMP  LBB2_1065
+
+DATA LCDATA4<>+0x000(SB)/8, $0x8000000000000000
+DATA LCDATA4<>+0x008(SB)/8, $0x8000000000000000
+DATA LCDATA4<>+0x010(SB)/8, $0x3ff0000000000000
+DATA LCDATA4<>+0x018(SB)/8, $0x3ff0000000000000
+DATA LCDATA4<>+0x020(SB)/8, $0x0000000100000001
+DATA LCDATA4<>+0x028(SB)/8, $0x0000000100000001
+DATA LCDATA4<>+0x030(SB)/8, $0x0000000000000001
+DATA LCDATA4<>+0x038(SB)/8, $0x0000000000000001
+DATA LCDATA4<>+0x040(SB)/8, $0x0001000100010001
+DATA LCDATA4<>+0x048(SB)/8, $0x0001000100010001
+DATA LCDATA4<>+0x050(SB)/8, $0x0101010101010101
+DATA LCDATA4<>+0x058(SB)/8, $0x0101010101010101
+DATA LCDATA4<>+0x060(SB)/8, $0x8000000080000000
+DATA LCDATA4<>+0x068(SB)/8, $0x8000000080000000
+DATA LCDATA4<>+0x070(SB)/8, $0x7fffffffffffffff
+DATA LCDATA4<>+0x078(SB)/8, $0x7fffffffffffffff
+DATA LCDATA4<>+0x080(SB)/8, $0x7fffffff7fffffff
+DATA LCDATA4<>+0x088(SB)/8, $0x7fffffff7fffffff
+DATA LCDATA4<>+0x090(SB)/8, $0x000000ff000000ff
+DATA LCDATA4<>+0x098(SB)/8, $0x000000ff000000ff
+DATA LCDATA4<>+0x0a0(SB)/8, $0x3ff0000000000000
+GLOBL LCDATA4<>(SB), 8, $168
+
+TEXT ·_arithmetic_unary_same_types_sse4(SB), $0-40
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ input+16(FP), DX
+	MOVQ output+24(FP), CX
+	MOVQ len+32(FP), R8
+	LEAQ LCDATA4<>(SB), BP
+
+	LONG $0x13fe8040         // cmp    sil, 19
+	JLE  LBB3_12
+	LONG $0x14fe8040         // cmp    sil, 20
+	JE   LBB3_22
+	LONG $0x19fe8040         // cmp    sil, 25
+	JE   LBB3_30
+	LONG $0x1afe8040         // cmp    sil, 26
+	JNE  LBB3_923
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB3_46
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB3_81
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB3_131
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB3_134
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB3_221
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB3_373
+
+LBB3_12:
+	LONG $0x04fe8040         // cmp    sil, 4
+	JE   LBB3_38
+	LONG $0x05fe8040         // cmp    sil, 5
+	JNE  LBB3_923
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB3_53
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB3_86
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB3_137
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB3_140
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_21
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_374
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_374
+
+LBB3_21:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_614:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_616
+
+LBB3_615:
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_615
+
+LBB3_616:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_617:
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_617
+	JMP  LBB3_923
+
+LBB3_22:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB3_60
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB3_91
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB3_143
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB3_146
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_29
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_377
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_377
+
+LBB3_29:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_622:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_624
+
+LBB3_623:
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x00b23c83         // cmp    dword [rdx + 4*rsi], 0
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_623
+
+LBB3_624:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_625:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x00b23c83             // cmp    dword [rdx + 4*rsi], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x04b27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 4], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x08b27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 8], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0cb27c83; BYTE $0x00 // cmp    dword [rdx + 4*rsi + 12], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_625
+	JMP  LBB3_923
+
+LBB3_30:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB3_67
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB3_96
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB3_149
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB3_152
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_37
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_380
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_380
+
+LBB3_37:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_536:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_538
+
+LBB3_537:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_537
+
+LBB3_538:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_539:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_539
+	JMP  LBB3_923
+
+LBB3_38:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB3_74
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB3_101
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB3_155
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB3_158
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_45
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_382
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_382
+
+LBB3_45:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_546:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_548
+
+LBB3_547:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_547
+
+LBB3_548:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_549:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_549
+	JMP  LBB3_923
+
+LBB3_46:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB3_106
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB3_161
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB3_164
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_52
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_384
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_384
+
+LBB3_52:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_630:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	WORD $0x014c; BYTE $0xc8     // add    rax, r9
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03e78348             // and    rdi, 3
+	JE   LBB3_633
+	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
+
+LBB3_632:
+	LONG $0x0c100ff2; BYTE $0xf2 // movsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc8570f66             // xorpd    xmm1, xmm0
+	LONG $0x0c130f66; BYTE $0xf1 // movlpd    qword [rcx + 8*rsi], xmm1
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_632
+
+LBB3_633:
+	LONG $0x03f88348             // cmp    rax, 3
+	JB   LBB3_923
+	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
+
+LBB3_635:
+	LONG $0x0c100ff2; BYTE $0xf2   // movsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x0c130f66; BYTE $0xf1   // movlpd    qword [rcx + 8*rsi], xmm1
+	LONG $0x4c100ff2; WORD $0x08f2 // movsd    xmm1, qword [rdx + 8*rsi + 8]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x4c130f66; WORD $0x08f1 // movlpd    qword [rcx + 8*rsi + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10f2 // movsd    xmm1, qword [rdx + 8*rsi + 16]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x4c130f66; WORD $0x10f1 // movlpd    qword [rcx + 8*rsi + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18f2 // movsd    xmm1, qword [rdx + 8*rsi + 24]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x4c130f66; WORD $0x18f1 // movlpd    qword [rcx + 8*rsi + 24], xmm1
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_635
+	JMP  LBB3_923
+
+LBB3_53:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB3_111
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB3_167
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB3_170
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_59
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_387
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_387
+
+LBB3_59:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_640:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	WORD $0x014c; BYTE $0xc8     // add    rax, r9
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03e78348             // and    rdi, 3
+	JE   LBB3_643
+	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
+
+LBB3_642:
+	LONG $0x0c100ff2; BYTE $0xf2 // movsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc8570f66             // xorpd    xmm1, xmm0
+	LONG $0x0c130f66; BYTE $0xf1 // movlpd    qword [rcx + 8*rsi], xmm1
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_642
+
+LBB3_643:
+	LONG $0x03f88348             // cmp    rax, 3
+	JB   LBB3_923
+	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
+
+LBB3_645:
+	LONG $0x0c100ff2; BYTE $0xf2   // movsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x0c130f66; BYTE $0xf1   // movlpd    qword [rcx + 8*rsi], xmm1
+	LONG $0x4c100ff2; WORD $0x08f2 // movsd    xmm1, qword [rdx + 8*rsi + 8]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x4c130f66; WORD $0x08f1 // movlpd    qword [rcx + 8*rsi + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10f2 // movsd    xmm1, qword [rdx + 8*rsi + 16]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x4c130f66; WORD $0x10f1 // movlpd    qword [rcx + 8*rsi + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18f2 // movsd    xmm1, qword [rdx + 8*rsi + 24]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x4c130f66; WORD $0x18f1 // movlpd    qword [rcx + 8*rsi + 24], xmm1
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_645
+	JMP  LBB3_923
+
+LBB3_60:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB3_116
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB3_173
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB3_176
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_66
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_390
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_390
+
+LBB3_66:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_650:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	LONG $0x01c1f641             // test    r9b, 1
+	JE   LBB3_652
+	LONG $0x04100ff2; BYTE $0xf2 // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI3_0] */
+	LONG $0xc8540f66             // andpd    xmm1, xmm0
+	QUAD $0x000000a095100ff2     // movsd    xmm2, qword 160[rbp] /* [rip + .LCPI3_2] */
+	LONG $0xd1560f66             // orpd    xmm2, xmm1
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0xc8c20ff2; BYTE $0x00 // cmpeqsd    xmm1, xmm0
+	LONG $0xca550f66             // andnpd    xmm1, xmm2
+	LONG $0x0c130f66; BYTE $0xf1 // movlpd    qword [rcx + 8*rsi], xmm1
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB3_652:
+	WORD $0x014c; BYTE $0xc8     // add    rax, r9
+	JE   LBB3_923
+	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
+	QUAD $0x000000a08d100ff2     // movsd    xmm1, qword 160[rbp] /* [rip + .LCPI3_2] */
+	LONG $0xd2570f66             // xorpd    xmm2, xmm2
+
+LBB3_654:
+	LONG $0x1c100ff2; BYTE $0xf2   // movsd    xmm3, qword [rdx + 8*rsi]
+	LONG $0xe3280f66               // movapd    xmm4, xmm3
+	LONG $0xe0540f66               // andpd    xmm4, xmm0
+	LONG $0xe1560f66               // orpd    xmm4, xmm1
+	LONG $0xdac20ff2; BYTE $0x00   // cmpeqsd    xmm3, xmm2
+	LONG $0xdc550f66               // andnpd    xmm3, xmm4
+	LONG $0x1c130f66; BYTE $0xf1   // movlpd    qword [rcx + 8*rsi], xmm3
+	LONG $0x5c100ff2; WORD $0x08f2 // movsd    xmm3, qword [rdx + 8*rsi + 8]
+	LONG $0xe3280f66               // movapd    xmm4, xmm3
+	LONG $0xe0540f66               // andpd    xmm4, xmm0
+	LONG $0xe1560f66               // orpd    xmm4, xmm1
+	LONG $0xdac20ff2; BYTE $0x00   // cmpeqsd    xmm3, xmm2
+	LONG $0xdc550f66               // andnpd    xmm3, xmm4
+	LONG $0x5c130f66; WORD $0x08f1 // movlpd    qword [rcx + 8*rsi + 8], xmm3
+	LONG $0x02c68348               // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_654
+	JMP  LBB3_923
+
+LBB3_67:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB3_121
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB3_179
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB3_182
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_73
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_393
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_393
+
+LBB3_73:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_659:
+	QUAD $0xffffffffffffba49; WORD $0x7fff // mov    r10, 9223372036854775807
+	WORD $0x8949; BYTE $0xf0               // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0               // not    r8
+	WORD $0x014d; BYTE $0xc8               // add    r8, r9
+	WORD $0x894c; BYTE $0xc8               // mov    rax, r9
+	LONG $0x03e08348                       // and    rax, 3
+	JE   LBB3_661
+
+LBB3_660:
+	LONG $0xf23c8b48         // mov    rdi, qword [rdx + 8*rsi]
+	WORD $0x214c; BYTE $0xd7 // and    rdi, r10
+	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB3_660
+
+LBB3_661:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_662:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_662
+	JMP  LBB3_923
+
+LBB3_74:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB3_126
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB3_185
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB3_188
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_80
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_396
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_396
+
+LBB3_80:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_667:
+	QUAD $0xffffffffffffba49; WORD $0x7fff // mov    r10, 9223372036854775807
+	WORD $0x8949; BYTE $0xf0               // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0               // not    r8
+	WORD $0x014d; BYTE $0xc8               // add    r8, r9
+	WORD $0x894c; BYTE $0xc8               // mov    rax, r9
+	LONG $0x03e08348                       // and    rax, 3
+	JE   LBB3_669
+
+LBB3_668:
+	LONG $0xf23c8b48         // mov    rdi, qword [rdx + 8*rsi]
+	WORD $0x214c; BYTE $0xd7 // and    rdi, r10
+	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB3_668
+
+LBB3_669:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_670:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x214c; BYTE $0xd0     // and    rax, r10
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_670
+	JMP  LBB3_923
+
+LBB3_81:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB3_191
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_85
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_399
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_399
+
+LBB3_85:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_675:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_677
+
+LBB3_676:
+	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_676
+
+LBB3_677:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_678:
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x2840; BYTE $0xc7     // sub    dil, al
+	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_678
+	JMP  LBB3_923
+
+LBB3_86:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB3_194
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_90
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_402
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_402
+
+LBB3_90:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_683:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_685
+
+LBB3_684:
+	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_684
+
+LBB3_685:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_686:
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x2840; BYTE $0xc7     // sub    dil, al
+	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_686
+	JMP  LBB3_923
+
+LBB3_91:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB3_197
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_95
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_405
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_405
+
+LBB3_95:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_691:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	LONG $0x01c1f641             // test    r9b, 1
+	JE   LBB3_693
+	LONG $0x323c8a40             // mov    dil, byte [rdx + rsi]
+	WORD $0x8440; BYTE $0xff     // test    dil, dil
+	LONG $0xd0950f41             // setne    r8b
+	WORD $0xf641; BYTE $0xd8     // neg    r8b
+	WORD $0x8440; BYTE $0xff     // test    dil, dil
+	LONG $0xc0b60f45             // movzx    r8d, r8b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf84e0f41             // cmovle    edi, r8d
+	LONG $0x313c8840             // mov    byte [rcx + rsi], dil
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB3_693:
+	WORD $0x014c; BYTE $0xc8     // add    rax, r9
+	JE   LBB3_923
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+
+LBB3_695:
+	LONG $0x04b60f44; BYTE $0x32   // movzx    r8d, byte [rdx + rsi]
+	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f6                   // neg    al
+	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x4f0f; BYTE $0xc7       // cmovg    eax, edi
+	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
+	LONG $0x44b60f44; WORD $0x0132 // movzx    r8d, byte [rdx + rsi + 1]
+	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f6                   // neg    al
+	WORD $0x8445; BYTE $0xc0       // test    r8b, r8b
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x4f0f; BYTE $0xc7       // cmovg    eax, edi
+	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
+	LONG $0x02c68348               // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_695
+	JMP  LBB3_923
+
+LBB3_96:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB3_200
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_100
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_408
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_408
+
+LBB3_100:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_700:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB3_702
+	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x07f8c141         // sar    r8d, 7
+	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
+	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
+	LONG $0x313c8840         // mov    byte [rcx + rsi], dil
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_702:
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	JE   LBB3_923
+
+LBB3_703:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_703
+	JMP  LBB3_923
+
+LBB3_101:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB3_203
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_105
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_411
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_411
+
+LBB3_105:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_708:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB3_710
+	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x07f8c141         // sar    r8d, 7
+	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
+	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
+	LONG $0x313c8840         // mov    byte [rcx + rsi], dil
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_710:
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	JE   LBB3_923
+
+LBB3_711:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x07     // sar    edi, 7
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_711
+	JMP  LBB3_923
+
+LBB3_106:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB3_206
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB3_265
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB3_420
+
+LBB3_111:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB3_209
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_115
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_421
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_421
+
+LBB3_115:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_716:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_718
+
+LBB3_717:
+	WORD $0xc031     // xor    eax, eax
+	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_717
+
+LBB3_718:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_719:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_719
+	JMP  LBB3_923
+
+LBB3_116:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB3_212
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_120
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_424
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_424
+
+LBB3_120:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_724:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_726
+
+LBB3_725:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf23c8348; BYTE $0x00 // cmp    qword [rdx + 8*rsi], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_725
+
+LBB3_726:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_727:
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xf23c8348; BYTE $0x00   // cmp    qword [rdx + 8*rsi], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xf27c8348; WORD $0x0008 // cmp    qword [rdx + 8*rsi + 8], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xf27c8348; WORD $0x0010 // cmp    qword [rdx + 8*rsi + 16], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xf27c8348; WORD $0x0018 // cmp    qword [rdx + 8*rsi + 24], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_727
+	JMP  LBB3_923
+
+LBB3_121:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB3_215
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_125
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_427
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_427
+
+LBB3_125:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_556:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_558
+
+LBB3_557:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_557
+
+LBB3_558:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_559:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_559
+	JMP  LBB3_923
+
+LBB3_126:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB3_218
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB3_923
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_130
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_429
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_429
+
+LBB3_130:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_566:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_568
+
+LBB3_567:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_567
+
+LBB3_568:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_569:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_569
+	JMP  LBB3_923
+
+LBB3_131:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB3_279
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB3_437
+
+LBB3_134:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_136
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_438
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_438
+
+LBB3_136:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_732:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_734
+
+LBB3_733:
+	WORD $0xc031     // xor    eax, eax
+	LONG $0x72042b66 // sub    ax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_733
+
+LBB3_734:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_735:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_735
+	JMP  LBB3_923
+
+LBB3_137:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_139
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_441
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_441
+
+LBB3_139:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_740:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_742
+
+LBB3_741:
+	WORD $0xc031     // xor    eax, eax
+	LONG $0x72042b66 // sub    ax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_741
+
+LBB3_742:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_743:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_743
+	JMP  LBB3_923
+
+LBB3_140:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_142
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_444
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_444
+
+LBB3_142:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_748:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_750
+
+LBB3_749:
+	WORD $0xc031     // xor    eax, eax
+	LONG $0x72042b66 // sub    ax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_749
+
+LBB3_750:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_751:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72042b66             // sub    ax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x02 // sub    ax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x04 // sub    ax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x72442b66; BYTE $0x06 // sub    ax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_751
+	JMP  LBB3_923
+
+LBB3_143:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_145
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_447
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_447
+
+LBB3_145:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_756:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_758
+
+LBB3_757:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x723c8366; BYTE $0x00 // cmp    word [rdx + 2*rsi], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_757
+
+LBB3_758:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_759:
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x723c8366; BYTE $0x00   // cmp    word [rdx + 2*rsi], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x71048966               // mov    word [rcx + 2*rsi], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x727c8366; WORD $0x0002 // cmp    word [rdx + 2*rsi + 2], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x71448966; BYTE $0x02   // mov    word [rcx + 2*rsi + 2], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x727c8366; WORD $0x0004 // cmp    word [rdx + 2*rsi + 4], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x71448966; BYTE $0x04   // mov    word [rcx + 2*rsi + 4], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x727c8366; WORD $0x0006 // cmp    word [rdx + 2*rsi + 6], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x71448966; BYTE $0x06   // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_759
+	JMP  LBB3_923
+
+LBB3_146:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_148
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_450
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_450
+
+LBB3_148:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_764:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	LONG $0x01c1f641             // test    r9b, 1
+	JE   LBB3_766
+	LONG $0x04b70f44; BYTE $0x72 // movzx    r8d, word [rdx + 2*rsi]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	LONG $0xc0854566             // test    r8w, r8w
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	LONG $0xc0854566             // test    r8w, r8w
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x713c8966             // mov    word [rcx + 2*rsi], di
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB3_766:
+	WORD $0x014c; BYTE $0xc8       // add    rax, r9
+	JE   LBB3_923
+	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
+
+LBB3_768:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	LONG $0xc04f0f41             // cmovg    eax, r8d
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8566; BYTE $0xc0     // test    ax, ax
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0x8566; BYTE $0xc0     // test    ax, ax
+	LONG $0xf84f0f41             // cmovg    edi, r8d
+	LONG $0x717c8966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], di
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_768
+	JMP  LBB3_923
+
+LBB3_149:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_151
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_453
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_453
+
+LBB3_151:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_576:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_578
+
+LBB3_577:
+	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_577
+
+LBB3_578:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_579:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_579
+	JMP  LBB3_923
+
+LBB3_152:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_154
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_455
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_455
+
+LBB3_154:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_773:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB3_775
+	LONG $0x723cbf0f         // movsx    edi, word [rdx + 2*rsi]
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x0ff8c141         // sar    r8d, 15
+	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
+	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
+	LONG $0x713c8966         // mov    word [rcx + 2*rsi], di
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_775:
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	JE   LBB3_923
+
+LBB3_776:
+	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244bf0f; BYTE $0x02 // movsx    eax, word [rdx + 2*rsi + 2]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_776
+	JMP  LBB3_923
+
+LBB3_155:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB3_157
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_458
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_458
+
+LBB3_157:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_586:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_588
+
+LBB3_587:
+	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_587
+
+LBB3_588:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_589:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_589
+	JMP  LBB3_923
+
+LBB3_158:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_160
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_460
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_460
+
+LBB3_160:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_781:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB3_783
+	LONG $0x723cbf0f         // movsx    edi, word [rdx + 2*rsi]
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x0ff8c141         // sar    r8d, 15
+	WORD $0x0144; BYTE $0xc7 // add    edi, r8d
+	WORD $0x3144; BYTE $0xc7 // xor    edi, r8d
+	LONG $0x713c8966         // mov    word [rcx + 2*rsi], di
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_783:
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	JE   LBB3_923
+
+LBB3_784:
+	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244bf0f; BYTE $0x02 // movsx    eax, word [rdx + 2*rsi + 2]
+	WORD $0xc789                 // mov    edi, eax
+	WORD $0xffc1; BYTE $0x0f     // sar    edi, 15
+	WORD $0xf801                 // add    eax, edi
+	WORD $0xf831                 // xor    eax, edi
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_784
+	JMP  LBB3_923
+
+LBB3_161:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_163
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_463
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_463
+
+LBB3_163:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_789:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_791
+
+LBB3_790:
+	WORD $0xc031     // xor    eax, eax
+	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_790
+
+LBB3_791:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_792:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_792
+	JMP  LBB3_923
+
+LBB3_164:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_166
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_466
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_466
+
+LBB3_166:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_797:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	WORD $0x014c; BYTE $0xc8     // add    rax, r9
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03e78348             // and    rdi, 3
+	JE   LBB3_800
+	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
+
+LBB3_799:
+	LONG $0x0c100ff3; BYTE $0xb2 // movss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc8570f66             // xorpd    xmm1, xmm0
+	LONG $0x0c110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm1
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_799
+
+LBB3_800:
+	LONG $0x03f88348             // cmp    rax, 3
+	JB   LBB3_923
+	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
+
+LBB3_802:
+	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x0c110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm1
+	LONG $0x4c100ff3; WORD $0x04b2 // movss    xmm1, dword [rdx + 4*rsi + 4]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x4c110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x08b2 // movss    xmm1, dword [rdx + 4*rsi + 8]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x4c110ff3; WORD $0x08b1 // movss    dword [rcx + 4*rsi + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0cb2 // movss    xmm1, dword [rdx + 4*rsi + 12]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x4c110ff3; WORD $0x0cb1 // movss    dword [rcx + 4*rsi + 12], xmm1
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_802
+	JMP  LBB3_923
+
+LBB3_167:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_169
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_469
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_469
+
+LBB3_169:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_807:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_809
+
+LBB3_808:
+	WORD $0xc031     // xor    eax, eax
+	LONG $0xf2042b48 // sub    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_808
+
+LBB3_809:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_810:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2042b48             // sub    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x08 // sub    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x10 // sub    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xf2442b48; BYTE $0x18 // sub    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_810
+	JMP  LBB3_923
+
+LBB3_170:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_172
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_472
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_472
+
+LBB3_172:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_815:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	WORD $0x014c; BYTE $0xc8     // add    rax, r9
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03e78348             // and    rdi, 3
+	JE   LBB3_818
+	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
+
+LBB3_817:
+	LONG $0x0c100ff3; BYTE $0xb2 // movss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc8570f66             // xorpd    xmm1, xmm0
+	LONG $0x0c110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm1
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_817
+
+LBB3_818:
+	LONG $0x03f88348             // cmp    rax, 3
+	JB   LBB3_923
+	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
+
+LBB3_820:
+	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x0c110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm1
+	LONG $0x4c100ff3; WORD $0x04b2 // movss    xmm1, dword [rdx + 4*rsi + 4]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x4c110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x08b2 // movss    xmm1, dword [rdx + 4*rsi + 8]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x4c110ff3; WORD $0x08b1 // movss    dword [rcx + 4*rsi + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0cb2 // movss    xmm1, dword [rdx + 4*rsi + 12]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0x4c110ff3; WORD $0x0cb1 // movss    dword [rcx + 4*rsi + 12], xmm1
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB3_820
+	JMP  LBB3_923
+
+LBB3_173:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_175
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_475
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_475
+
+LBB3_175:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_825:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	LONG $0x01c1f641             // test    r9b, 1
+	JE   LBB3_827
+	LONG $0xf2048b4c             // mov    r8, qword [rdx + 8*rsi]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x854d; BYTE $0xc0     // test    r8, r8
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf749; BYTE $0xda     // neg    r10
+	WORD $0x854d; BYTE $0xc0     // test    r8, r8
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f49             // cmovle    rdi, r10
+	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB3_827:
+	WORD $0x014c; BYTE $0xc8       // add    rax, r9
+	JE   LBB3_923
+	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
+
+LBB3_829:
+	LONG $0xf23c8b48             // mov    rdi, qword [rdx + 8*rsi]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	LONG $0xc04f0f49             // cmovg    rax, r8
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf84f0f49             // cmovg    rdi, r8
+	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_829
+	JMP  LBB3_923
+
+LBB3_176:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8944; BYTE $0xc0 // mov    eax, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_178
+	LONG $0x82348d48         // lea    rsi, [rdx + 4*rax]
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	JBE  LBB3_478
+	LONG $0x81348d48         // lea    rsi, [rcx + 4*rax]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	JBE  LBB3_478
+
+LBB3_178:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_481:
+	WORD $0x8949; BYTE $0xf0     // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0     // not    r8
+	WORD $0x01a8                 // test    al, 1
+	JE   LBB3_483
+	LONG $0x04100ff3; BYTE $0xb2 // movss    xmm0, dword [rdx + 4*rsi]
+	WORD $0x500f; BYTE $0xf8     // movmskps    edi, xmm0
+	WORD $0xe783; BYTE $0x01     // and    edi, 1
+	WORD $0xdff7                 // neg    edi
+	WORD $0xcf83; BYTE $0x01     // or    edi, 1
+	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
+	LONG $0xcf2a0ff3             // cvtsi2ss    xmm1, edi
+	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
+	LONG $0xd0c20ff3; BYTE $0x00 // cmpeqss    xmm2, xmm0
+	WORD $0x550f; BYTE $0xd1     // andnps    xmm2, xmm1
+	LONG $0x14110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm2
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB3_483:
+	WORD $0x0149; BYTE $0xc0 // add    r8, rax
+	JE   LBB3_923
+	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
+
+LBB3_485:
+	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
+	WORD $0x500f; BYTE $0xf9       // movmskps    edi, xmm1
+	WORD $0xe783; BYTE $0x01       // and    edi, 1
+	WORD $0xdff7                   // neg    edi
+	WORD $0xcf83; BYTE $0x01       // or    edi, 1
+	WORD $0x570f; BYTE $0xd2       // xorps    xmm2, xmm2
+	LONG $0xd72a0ff3               // cvtsi2ss    xmm2, edi
+	LONG $0xc8c20ff3; BYTE $0x00   // cmpeqss    xmm1, xmm0
+	WORD $0x550f; BYTE $0xca       // andnps    xmm1, xmm2
+	LONG $0x0c110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm1
+	LONG $0x4c100ff3; WORD $0x04b2 // movss    xmm1, dword [rdx + 4*rsi + 4]
+	WORD $0x500f; BYTE $0xf9       // movmskps    edi, xmm1
+	WORD $0xe783; BYTE $0x01       // and    edi, 1
+	WORD $0xdff7                   // neg    edi
+	WORD $0xcf83; BYTE $0x01       // or    edi, 1
+	WORD $0x570f; BYTE $0xd2       // xorps    xmm2, xmm2
+	LONG $0xd72a0ff3               // cvtsi2ss    xmm2, edi
+	LONG $0xc8c20ff3; BYTE $0x00   // cmpeqss    xmm1, xmm0
+	WORD $0x550f; BYTE $0xca       // andnps    xmm1, xmm2
+	LONG $0x4c110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm1
+	LONG $0x02c68348               // add    rsi, 2
+	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
+	JNE  LBB3_485
+	JMP  LBB3_923
+
+LBB3_179:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_181
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_486
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_486
+
+LBB3_181:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_834:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB3_836
+	LONG $0xf2048b4c         // mov    r8, qword [rdx + 8*rsi]
+	WORD $0x894c; BYTE $0xc7 // mov    rdi, r8
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	LONG $0xf84c0f49         // cmovl    rdi, r8
+	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_836:
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	JE   LBB3_923
+
+LBB3_837:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	LONG $0xf84c0f48             // cmovl    rdi, rax
+	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	LONG $0xf84c0f48             // cmovl    rdi, rax
+	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_837
+	JMP  LBB3_923
+
+LBB3_182:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_184
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_489
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_489
+
+LBB3_184:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_842:
+	WORD $0x8949; BYTE $0xf0       // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0       // not    r8
+	WORD $0x014d; BYTE $0xc8       // add    r8, r9
+	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
+	LONG $0x03e78348               // and    rdi, 3
+	JE   LBB3_845
+	LONG $0xffffba41; WORD $0x7fff // mov    r10d, 2147483647
+
+LBB3_844:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x2144; BYTE $0xd0 // and    eax, r10d
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_844
+
+LBB3_845:
+	LONG $0x03f88349             // cmp    r8, 3
+	JB   LBB3_923
+	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
+
+LBB3_847:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0xc721             // and    edi, eax
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x04b27c8b         // mov    edi, dword [rdx + 4*rsi + 4]
+	WORD $0xc721             // and    edi, eax
+	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
+	LONG $0x08b27c8b         // mov    edi, dword [rdx + 4*rsi + 8]
+	WORD $0xc721             // and    edi, eax
+	LONG $0x08b17c89         // mov    dword [rcx + 4*rsi + 8], edi
+	LONG $0x0cb27c8b         // mov    edi, dword [rdx + 4*rsi + 12]
+	WORD $0xc721             // and    edi, eax
+	LONG $0x0cb17c89         // mov    dword [rcx + 4*rsi + 12], edi
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_847
+	JMP  LBB3_923
+
+LBB3_185:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB3_187
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_492
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_492
+
+LBB3_187:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_852:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB3_854
+	LONG $0xf2048b4c         // mov    r8, qword [rdx + 8*rsi]
+	WORD $0x894c; BYTE $0xc7 // mov    rdi, r8
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	LONG $0xf84c0f49         // cmovl    rdi, r8
+	LONG $0xf13c8948         // mov    qword [rcx + 8*rsi], rdi
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_854:
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	JE   LBB3_923
+
+LBB3_855:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	LONG $0xf84c0f48             // cmovl    rdi, rax
+	LONG $0xf13c8948             // mov    qword [rcx + 8*rsi], rdi
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	LONG $0xf84c0f48             // cmovl    rdi, rax
+	LONG $0xf17c8948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rdi
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_855
+	JMP  LBB3_923
+
+LBB3_188:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_190
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_495
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_495
+
+LBB3_190:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_860:
+	WORD $0x8949; BYTE $0xf0       // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0       // not    r8
+	WORD $0x014d; BYTE $0xc8       // add    r8, r9
+	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
+	LONG $0x03e78348               // and    rdi, 3
+	JE   LBB3_863
+	LONG $0xffffba41; WORD $0x7fff // mov    r10d, 2147483647
+
+LBB3_862:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x2144; BYTE $0xd0 // and    eax, r10d
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_862
+
+LBB3_863:
+	LONG $0x03f88349             // cmp    r8, 3
+	JB   LBB3_923
+	LONG $0xffffffb8; BYTE $0x7f // mov    eax, 2147483647
+
+LBB3_865:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0xc721             // and    edi, eax
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x04b27c8b         // mov    edi, dword [rdx + 4*rsi + 4]
+	WORD $0xc721             // and    edi, eax
+	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
+	LONG $0x08b27c8b         // mov    edi, dword [rdx + 4*rsi + 8]
+	WORD $0xc721             // and    edi, eax
+	LONG $0x08b17c89         // mov    dword [rcx + 4*rsi + 8], edi
+	LONG $0x0cb27c8b         // mov    edi, dword [rdx + 4*rsi + 12]
+	WORD $0xc721             // and    edi, eax
+	LONG $0x0cb17c89         // mov    dword [rcx + 4*rsi + 12], edi
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_865
+	JMP  LBB3_923
+
+LBB3_191:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB3_338
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB3_504
+
+LBB3_194:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_196
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_505
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_505
+
+LBB3_196:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_870:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_872
+
+LBB3_871:
+	LONG $0x14b60f44; BYTE $0x32 // movzx    r10d, byte [rdx + rsi]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x2844; BYTE $0xd0     // sub    al, r10b
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB3_871
+
+LBB3_872:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_873:
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x042a; BYTE $0x32     // sub    al, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0132442a             // sub    al, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0232442a             // sub    al, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x2840; BYTE $0xc7     // sub    dil, al
+	LONG $0x317c8840; BYTE $0x03 // mov    byte [rcx + rsi + 3], dil
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_873
+	JMP  LBB3_923
+
+LBB3_197:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_199
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_508
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_508
+
+LBB3_199:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_878:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_880
+
+LBB3_879:
+	LONG $0x00323c80 // cmp    byte [rdx + rsi], 0
+	LONG $0x3114950f // setne    byte [rcx + rsi]
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB3_879
+
+LBB3_880:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB3_923
+
+LBB3_881:
+	LONG $0x00323c80             // cmp    byte [rdx + rsi], 0
+	LONG $0x3114950f             // setne    byte [rcx + rsi]
+	LONG $0x01327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 1], 0
+	LONG $0x3154950f; BYTE $0x01 // setne    byte [rcx + rsi + 1]
+	LONG $0x02327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 2], 0
+	LONG $0x3154950f; BYTE $0x02 // setne    byte [rcx + rsi + 2]
+	LONG $0x03327c80; BYTE $0x00 // cmp    byte [rdx + rsi + 3], 0
+	LONG $0x3154950f; BYTE $0x03 // setne    byte [rcx + rsi + 3]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_881
+	JMP  LBB3_923
+
+LBB3_200:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_202
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_511
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_511
+
+LBB3_202:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_596:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_598
+
+LBB3_597:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_597
+
+LBB3_598:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_599:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_599
+	JMP  LBB3_923
+
+LBB3_203:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB3_205
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_513
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_513
+
+LBB3_205:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_606:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_608
+
+LBB3_607:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_607
+
+LBB3_608:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_609:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB3_609
+	JMP  LBB3_923
+
+LBB3_206:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_208
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_515
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_515
+
+LBB3_208:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_886:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_888
+
+LBB3_887:
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_887
+
+LBB3_888:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_889:
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_889
+	JMP  LBB3_923
+
+LBB3_209:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_211
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_518
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_518
+
+LBB3_211:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_894:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB3_896
+
+LBB3_895:
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB3_895
+
+LBB3_896:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB3_923
+
+LBB3_897:
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x042b; BYTE $0xb2 // sub    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x04b2442b         // sub    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x08b2442b         // sub    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x0cb2442b         // sub    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_897
+	JMP  LBB3_923
+
+LBB3_212:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_214
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_521
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_521
+
+LBB3_214:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_902:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	LONG $0x01c1f641             // test    r9b, 1
+	JE   LBB3_904
+	LONG $0xb2048b44             // mov    r8d, dword [rdx + 4*rsi]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x8545; BYTE $0xc0     // test    r8d, r8d
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	WORD $0x8545; BYTE $0xc0     // test    r8d, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	WORD $0x3c89; BYTE $0xb1     // mov    dword [rcx + 4*rsi], edi
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB3_904:
+	WORD $0x014c; BYTE $0xc8       // add    rax, r9
+	JE   LBB3_923
+	LONG $0x0001b841; WORD $0x0000 // mov    r8d, 1
+
+LBB3_906:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0xff85             // test    edi, edi
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f7             // neg    eax
+	WORD $0xff85             // test    edi, edi
+	LONG $0xc04f0f41         // cmovg    eax, r8d
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0xff31             // xor    edi, edi
+	WORD $0xc085             // test    eax, eax
+	LONG $0xd7950f40         // setne    dil
+	WORD $0xdff7             // neg    edi
+	WORD $0xc085             // test    eax, eax
+	LONG $0xf84f0f41         // cmovg    edi, r8d
+	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
+	LONG $0x02c68348         // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_906
+	JMP  LBB3_923
+
+LBB3_215:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_217
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_524
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_524
+
+LBB3_217:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_911:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB3_913
+	LONG $0xb2048b44         // mov    r8d, dword [rdx + 4*rsi]
+	WORD $0x8944; BYTE $0xc7 // mov    edi, r8d
+	WORD $0xdff7             // neg    edi
+	LONG $0xf84c0f41         // cmovl    edi, r8d
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_913:
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	JE   LBB3_923
+
+LBB3_914:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0xc789             // mov    edi, eax
+	WORD $0xdff7             // neg    edi
+	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0xc789             // mov    edi, eax
+	WORD $0xdff7             // neg    edi
+	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
+	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
+	LONG $0x02c68348         // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_914
+	JMP  LBB3_923
+
+LBB3_218:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB3_923
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB3_220
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB3_527
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB3_527
+
+LBB3_220:
+	WORD $0xf631 // xor    esi, esi
+
+LBB3_919:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB3_921
+	LONG $0xb2048b44         // mov    r8d, dword [rdx + 4*rsi]
+	WORD $0x8944; BYTE $0xc7 // mov    edi, r8d
+	WORD $0xdff7             // neg    edi
+	LONG $0xf84c0f41         // cmovl    edi, r8d
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x01ce8348         // or    rsi, 1
+
+LBB3_921:
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	JE   LBB3_923
+
+LBB3_922:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0xc789             // mov    edi, eax
+	WORD $0xdff7             // neg    edi
+	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0xc789             // mov    edi, eax
+	WORD $0xdff7             // neg    edi
+	WORD $0x4c0f; BYTE $0xf8 // cmovl    edi, eax
+	LONG $0x04b17c89         // mov    dword [rcx + 4*rsi + 4], edi
+	LONG $0x02c68348         // add    rsi, 2
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB3_922
+	JMP  LBB3_923
+
+LBB3_221:
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	LONG $0xf8428d48         // lea    rax, [rdx - 8]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03efc148         // shr    rdi, 3
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0xfe89             // mov    esi, edi
+	WORD $0xe683; BYTE $0x07 // and    esi, 7
+	LONG $0x38f88348         // cmp    rax, 56
+	JAE  LBB3_367
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_369
+
+LBB3_265:
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc428d48         // lea    rax, [rdx - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0xfe89             // mov    esi, edi
+	WORD $0xe683; BYTE $0x07 // and    esi, 7
+	LONG $0x1cf88348         // cmp    rax, 28
+	JAE  LBB3_414
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_416
+
+LBB3_279:
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	WORD $0xe283; BYTE $0xf0 // and    edx, -16
+	LONG $0xf0428d48         // lea    rax, [rdx - 16]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x04efc148         // shr    rdi, 4
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0xfe89             // mov    esi, edi
+	WORD $0xe683; BYTE $0x07 // and    esi, 7
+	LONG $0x70f88348         // cmp    rax, 112
+	JAE  LBB3_431
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_433
+
+LBB3_338:
+	WORD $0x8944; BYTE $0xca       // mov    edx, r9d
+	WORD $0xe283; BYTE $0xe0       // and    edx, -32
+	LONG $0xe0428d48               // lea    rax, [rdx - 32]
+	WORD $0x8948; BYTE $0xc7       // mov    rdi, rax
+	LONG $0x05efc148               // shr    rdi, 5
+	LONG $0x01c78348               // add    rdi, 1
+	WORD $0xfe89                   // mov    esi, edi
+	WORD $0xe683; BYTE $0x07       // and    esi, 7
+	LONG $0x00e03d48; WORD $0x0000 // cmp    rax, 224
+	JAE  LBB3_498
+	WORD $0xc031                   // xor    eax, eax
+	JMP  LBB3_500
+
+LBB3_374:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_610
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_376:
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
+	LONG $0x147f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm2
+	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
+	LONG $0x547f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x447f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm0
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_376
+	JMP  LBB3_611
+
+LBB3_377:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x03e8c149             // shr    r8, 3
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_618
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0x4d6f0f66; BYTE $0x20 // movdqa    xmm1, oword 32[rbp] /* [rip + .LCPI3_3] */
+
+LBB3_379:
+	LONG $0x146f0ff3; BYTE $0xba   // movdqu    xmm2, oword [rdx + 4*rdi]
+	LONG $0x5c6f0ff3; WORD $0x10ba // movdqu    xmm3, oword [rdx + 4*rdi + 16]
+	LONG $0xd0760f66               // pcmpeqd    xmm2, xmm0
+	LONG $0xd1df0f66               // pandn    xmm2, xmm1
+	LONG $0xd8760f66               // pcmpeqd    xmm3, xmm0
+	LONG $0xd9df0f66               // pandn    xmm3, xmm1
+	LONG $0x147f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm2
+	LONG $0x5c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm3
+	LONG $0x546f0ff3; WORD $0x20ba // movdqu    xmm2, oword [rdx + 4*rdi + 32]
+	LONG $0x5c6f0ff3; WORD $0x30ba // movdqu    xmm3, oword [rdx + 4*rdi + 48]
+	LONG $0xd0760f66               // pcmpeqd    xmm2, xmm0
+	LONG $0xd1df0f66               // pandn    xmm2, xmm1
+	LONG $0xd8760f66               // pcmpeqd    xmm3, xmm0
+	LONG $0xd9df0f66               // pandn    xmm3, xmm1
+	LONG $0x547f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c7f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_379
+	JMP  LBB3_619
+
+LBB3_380:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03efc148         // shr    rdi, 3
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x18f88348         // cmp    rax, 24
+	JAE  LBB3_530
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_532
+
+LBB3_382:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03efc148         // shr    rdi, 3
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x18f88348         // cmp    rax, 24
+	JAE  LBB3_540
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_542
+
+LBB3_384:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_626
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
+
+LBB3_386:
+	LONG $0x0c100f66; BYTE $0xfa   // movupd    xmm1, oword [rdx + 8*rdi]
+	LONG $0x54100f66; WORD $0x10fa // movupd    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0xd0570f66               // xorpd    xmm2, xmm0
+	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
+	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
+	LONG $0x4c100f66; WORD $0x20fa // movupd    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x54100f66; WORD $0x30fa // movupd    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0xd0570f66               // xorpd    xmm2, xmm0
+	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
+	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_386
+	JMP  LBB3_627
+
+LBB3_387:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_636
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI3_0] */
+
+LBB3_389:
+	LONG $0x0c100f66; BYTE $0xfa   // movupd    xmm1, oword [rdx + 8*rdi]
+	LONG $0x54100f66; WORD $0x10fa // movupd    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0xd0570f66               // xorpd    xmm2, xmm0
+	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
+	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
+	LONG $0x4c100f66; WORD $0x20fa // movupd    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x54100f66; WORD $0x30fa // movupd    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0xd0570f66               // xorpd    xmm2, xmm0
+	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
+	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_389
+	JMP  LBB3_637
+
+LBB3_390:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_646
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc0570f66             // xorpd    xmm0, xmm0
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI3_0] */
+	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI3_1] */
+
+LBB3_392:
+	LONG $0x1c100f66; BYTE $0xfa   // movupd    xmm3, oword [rdx + 8*rdi]
+	LONG $0x64100f66; WORD $0x10fa // movupd    xmm4, oword [rdx + 8*rdi + 16]
+	LONG $0xeb280f66               // movapd    xmm5, xmm3
+	LONG $0xe9540f66               // andpd    xmm5, xmm1
+	LONG $0xea560f66               // orpd    xmm5, xmm2
+	LONG $0xf4280f66               // movapd    xmm6, xmm4
+	LONG $0xf1540f66               // andpd    xmm6, xmm1
+	LONG $0xf2560f66               // orpd    xmm6, xmm2
+	LONG $0xd8c20f66; BYTE $0x04   // cmpneqpd    xmm3, xmm0
+	LONG $0xdd540f66               // andpd    xmm3, xmm5
+	LONG $0xe0c20f66; BYTE $0x04   // cmpneqpd    xmm4, xmm0
+	LONG $0xe6540f66               // andpd    xmm4, xmm6
+	LONG $0x1c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm3
+	LONG $0x64110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm4
+	LONG $0x5c100f66; WORD $0x20fa // movupd    xmm3, oword [rdx + 8*rdi + 32]
+	LONG $0x64100f66; WORD $0x30fa // movupd    xmm4, oword [rdx + 8*rdi + 48]
+	LONG $0xeb280f66               // movapd    xmm5, xmm3
+	LONG $0xe9540f66               // andpd    xmm5, xmm1
+	LONG $0xea560f66               // orpd    xmm5, xmm2
+	LONG $0xf4280f66               // movapd    xmm6, xmm4
+	LONG $0xf1540f66               // andpd    xmm6, xmm1
+	LONG $0xf2560f66               // orpd    xmm6, xmm2
+	LONG $0xd8c20f66; BYTE $0x04   // cmpneqpd    xmm3, xmm0
+	LONG $0xdd540f66               // andpd    xmm3, xmm5
+	LONG $0xe0c20f66; BYTE $0x04   // cmpneqpd    xmm4, xmm0
+	LONG $0xe6540f66               // andpd    xmm4, xmm6
+	LONG $0x5c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm3
+	LONG $0x64110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm4
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_392
+	JMP  LBB3_647
+
+LBB3_393:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_655
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x45280f66; BYTE $0x70 // movapd    xmm0, oword 112[rbp] /* [rip + .LCPI3_8] */
+
+LBB3_395:
+	LONG $0x0c100f66; BYTE $0xfa   // movupd    xmm1, oword [rdx + 8*rdi]
+	LONG $0x54100f66; WORD $0x10fa // movupd    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8540f66               // andpd    xmm1, xmm0
+	LONG $0xd0540f66               // andpd    xmm2, xmm0
+	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
+	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
+	LONG $0x4c100f66; WORD $0x20fa // movupd    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x54100f66; WORD $0x30fa // movupd    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8540f66               // andpd    xmm1, xmm0
+	LONG $0xd0540f66               // andpd    xmm2, xmm0
+	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
+	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_395
+	JMP  LBB3_656
+
+LBB3_396:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_663
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x45280f66; BYTE $0x70 // movapd    xmm0, oword 112[rbp] /* [rip + .LCPI3_8] */
+
+LBB3_398:
+	LONG $0x0c100f66; BYTE $0xfa   // movupd    xmm1, oword [rdx + 8*rdi]
+	LONG $0x54100f66; WORD $0x10fa // movupd    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8540f66               // andpd    xmm1, xmm0
+	LONG $0xd0540f66               // andpd    xmm2, xmm0
+	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
+	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
+	LONG $0x4c100f66; WORD $0x20fa // movupd    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x54100f66; WORD $0x30fa // movupd    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8540f66               // andpd    xmm1, xmm0
+	LONG $0xd0540f66               // andpd    xmm2, xmm0
+	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
+	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_398
+	JMP  LBB3_664
+
+LBB3_399:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_671
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_401:
+	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0f80f66               // psubb    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1f80f66               // psubb    xmm0, xmm1
+	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
+	LONG $0x447f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x203a // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0f80f66               // psubb    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1f80f66               // psubb    xmm0, xmm1
+	LONG $0x547f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm2
+	LONG $0x447f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm0
+	LONG $0x40c78348               // add    rdi, 64
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_401
+	JMP  LBB3_672
+
+LBB3_402:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_679
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_404:
+	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0f80f66               // psubb    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1f80f66               // psubb    xmm0, xmm1
+	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
+	LONG $0x447f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x203a // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0f80f66               // psubb    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1f80f66               // psubb    xmm0, xmm1
+	LONG $0x547f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm2
+	LONG $0x447f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm0
+	LONG $0x40c78348               // add    rdi, 64
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_404
+	JMP  LBB3_680
+
+LBB3_405:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x05e8c149             // shr    r8, 5
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_687
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
+	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x50 // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI3_6] */
+
+LBB3_407:
+	LONG $0x2c6f0ff3; BYTE $0x3a   // movdqu    xmm5, oword [rdx + rdi]
+	LONG $0x746f0ff3; WORD $0x103a // movdqu    xmm6, oword [rdx + rdi + 16]
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc5640f66               // pcmpgtb    xmm0, xmm5
+	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xce640f66               // pcmpgtb    xmm1, xmm6
+	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
+	LONG $0x10380f66; BYTE $0xfd   // pblendvb    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
+	LONG $0x3c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm7
+	LONG $0x6c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x203a // movdqu    xmm5, oword [rdx + rdi + 32]
+	LONG $0x746f0ff3; WORD $0x303a // movdqu    xmm6, oword [rdx + rdi + 48]
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc5640f66               // pcmpgtb    xmm0, xmm5
+	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xce640f66               // pcmpgtb    xmm1, xmm6
+	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
+	LONG $0x10380f66; BYTE $0xfd   // pblendvb    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
+	LONG $0x7c7f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm7
+	LONG $0x6c7f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm5
+	LONG $0x40c78348               // add    rdi, 64
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_407
+	JMP  LBB3_688
+
+LBB3_408:
+	WORD $0x8944; BYTE $0xce             // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0             // and    esi, -16
+	LONG $0xf0468d48                     // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0             // mov    r8, rax
+	LONG $0x04e8c149                     // shr    r8, 4
+	LONG $0x01c08349                     // add    r8, 1
+	WORD $0x8548; BYTE $0xc0             // test    rax, rax
+	JE   LBB3_696
+	WORD $0x894c; BYTE $0xc0             // mov    rax, r8
+	LONG $0xfee08348                     // and    rax, -2
+	WORD $0xf748; BYTE $0xd8             // neg    rax
+	WORD $0xff31                         // xor    edi, edi
+	QUAD $0x000090856f0f4466; BYTE $0x00 // movdqa    xmm8, oword 144[rbp] /* [rip + .LCPI3_10] */
+
+LBB3_410:
+	LONG $0x21380f66; WORD $0x3a64; BYTE $0x0c // pmovsxbd    xmm4, dword [rdx + rdi + 12]
+	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbd    xmm1, dword [rdx + rdi + 8]
+	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x04 // pmovsxbd    xmm3, dword [rdx + rdi + 4]
+	LONG $0x21380f66; WORD $0x3a14             // pmovsxbd    xmm2, dword [rdx + rdi]
+	LONG $0xea6f0f66                           // movdqa    xmm5, xmm2
+	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
+	LONG $0xf36f0f66                           // movdqa    xmm6, xmm3
+	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
+	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
+	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xe0720f66; BYTE $0x07               // psrad    xmm0, 7
+	LONG $0xe0fe0f66                           // paddd    xmm4, xmm0
+	LONG $0xcffe0f66                           // paddd    xmm1, xmm7
+	LONG $0xdefe0f66                           // paddd    xmm3, xmm6
+	LONG $0xd5fe0f66                           // paddd    xmm2, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0xdeef0f66                           // pxor    xmm3, xmm6
+	LONG $0xcfef0f66                           // pxor    xmm1, xmm7
+	LONG $0xe0ef0f66                           // pxor    xmm4, xmm0
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
+	LONG $0x2b380f66; BYTE $0xcc               // packusdw    xmm1, xmm4
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
+	LONG $0x2b380f66; BYTE $0xd3               // packusdw    xmm2, xmm3
+	LONG $0xd1670f66                           // packuswb    xmm2, xmm1
+	LONG $0x147f0ff3; BYTE $0x39               // movdqu    oword [rcx + rdi], xmm2
+	LONG $0x21380f66; WORD $0x3a64; BYTE $0x1c // pmovsxbd    xmm4, dword [rdx + rdi + 28]
+	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x18 // pmovsxbd    xmm1, dword [rdx + rdi + 24]
+	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x14 // pmovsxbd    xmm3, dword [rdx + rdi + 20]
+	LONG $0x21380f66; WORD $0x3a54; BYTE $0x10 // pmovsxbd    xmm2, dword [rdx + rdi + 16]
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xe0720f66; BYTE $0x07               // psrad    xmm0, 7
+	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
+	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
+	LONG $0xf16f0f66                           // movdqa    xmm6, xmm1
+	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
+	LONG $0xe7fe0f66                           // paddd    xmm4, xmm7
+	LONG $0xcefe0f66                           // paddd    xmm1, xmm6
+	LONG $0xddfe0f66                           // paddd    xmm3, xmm5
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0xd0ef0f66                           // pxor    xmm2, xmm0
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0xceef0f66                           // pxor    xmm1, xmm6
+	LONG $0xe7ef0f66                           // pxor    xmm4, xmm7
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
+	LONG $0x2b380f66; BYTE $0xcc               // packusdw    xmm1, xmm4
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
+	LONG $0x2b380f66; BYTE $0xd3               // packusdw    xmm2, xmm3
+	LONG $0xd1670f66                           // packuswb    xmm2, xmm1
+	LONG $0x547f0ff3; WORD $0x1039             // movdqu    oword [rcx + rdi + 16], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB3_410
+	JMP  LBB3_697
+
+LBB3_411:
+	WORD $0x8944; BYTE $0xce             // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0             // and    esi, -16
+	LONG $0xf0468d48                     // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0             // mov    r8, rax
+	LONG $0x04e8c149                     // shr    r8, 4
+	LONG $0x01c08349                     // add    r8, 1
+	WORD $0x8548; BYTE $0xc0             // test    rax, rax
+	JE   LBB3_704
+	WORD $0x894c; BYTE $0xc0             // mov    rax, r8
+	LONG $0xfee08348                     // and    rax, -2
+	WORD $0xf748; BYTE $0xd8             // neg    rax
+	WORD $0xff31                         // xor    edi, edi
+	QUAD $0x000090856f0f4466; BYTE $0x00 // movdqa    xmm8, oword 144[rbp] /* [rip + .LCPI3_10] */
+
+LBB3_413:
+	LONG $0x21380f66; WORD $0x3a64; BYTE $0x0c // pmovsxbd    xmm4, dword [rdx + rdi + 12]
+	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbd    xmm1, dword [rdx + rdi + 8]
+	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x04 // pmovsxbd    xmm3, dword [rdx + rdi + 4]
+	LONG $0x21380f66; WORD $0x3a14             // pmovsxbd    xmm2, dword [rdx + rdi]
+	LONG $0xea6f0f66                           // movdqa    xmm5, xmm2
+	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
+	LONG $0xf36f0f66                           // movdqa    xmm6, xmm3
+	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
+	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
+	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xe0720f66; BYTE $0x07               // psrad    xmm0, 7
+	LONG $0xe0fe0f66                           // paddd    xmm4, xmm0
+	LONG $0xcffe0f66                           // paddd    xmm1, xmm7
+	LONG $0xdefe0f66                           // paddd    xmm3, xmm6
+	LONG $0xd5fe0f66                           // paddd    xmm2, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0xdeef0f66                           // pxor    xmm3, xmm6
+	LONG $0xcfef0f66                           // pxor    xmm1, xmm7
+	LONG $0xe0ef0f66                           // pxor    xmm4, xmm0
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
+	LONG $0x2b380f66; BYTE $0xcc               // packusdw    xmm1, xmm4
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
+	LONG $0x2b380f66; BYTE $0xd3               // packusdw    xmm2, xmm3
+	LONG $0xd1670f66                           // packuswb    xmm2, xmm1
+	LONG $0x147f0ff3; BYTE $0x39               // movdqu    oword [rcx + rdi], xmm2
+	LONG $0x21380f66; WORD $0x3a64; BYTE $0x1c // pmovsxbd    xmm4, dword [rdx + rdi + 28]
+	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x18 // pmovsxbd    xmm1, dword [rdx + rdi + 24]
+	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x14 // pmovsxbd    xmm3, dword [rdx + rdi + 20]
+	LONG $0x21380f66; WORD $0x3a54; BYTE $0x10 // pmovsxbd    xmm2, dword [rdx + rdi + 16]
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xe0720f66; BYTE $0x07               // psrad    xmm0, 7
+	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
+	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
+	LONG $0xf16f0f66                           // movdqa    xmm6, xmm1
+	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
+	LONG $0xe7fe0f66                           // paddd    xmm4, xmm7
+	LONG $0xcefe0f66                           // paddd    xmm1, xmm6
+	LONG $0xddfe0f66                           // paddd    xmm3, xmm5
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0xd0ef0f66                           // pxor    xmm2, xmm0
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0xceef0f66                           // pxor    xmm1, xmm6
+	LONG $0xe7ef0f66                           // pxor    xmm4, xmm7
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
+	LONG $0x2b380f66; BYTE $0xcc               // packusdw    xmm1, xmm4
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
+	LONG $0x2b380f66; BYTE $0xd3               // packusdw    xmm2, xmm3
+	LONG $0xd1670f66                           // packuswb    xmm2, xmm1
+	LONG $0x547f0ff3; WORD $0x1039             // movdqu    oword [rcx + rdi + 16], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB3_413
+	JMP  LBB3_705
+
+LBB3_421:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_712
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_423:
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
+	LONG $0x147f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm2
+	LONG $0x447f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
+	LONG $0x547f0ff3; WORD $0x20f9 // movdqu    oword [rcx + 8*rdi + 32], xmm2
+	LONG $0x447f0ff3; WORD $0x30f9 // movdqu    oword [rcx + 8*rdi + 48], xmm0
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_423
+	JMP  LBB3_713
+
+LBB3_424:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_720
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0x4d6f0f66; BYTE $0x30 // movdqa    xmm1, oword 48[rbp] /* [rip + .LCPI3_4] */
+
+LBB3_426:
+	LONG $0x146f0ff3; BYTE $0xfa   // movdqu    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c6f0ff3; WORD $0x10fa // movdqu    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0x29380f66; BYTE $0xd0   // pcmpeqq    xmm2, xmm0
+	LONG $0xd1df0f66               // pandn    xmm2, xmm1
+	LONG $0x29380f66; BYTE $0xd8   // pcmpeqq    xmm3, xmm0
+	LONG $0xd9df0f66               // pandn    xmm3, xmm1
+	LONG $0x147f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm2
+	LONG $0x5c7f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm3
+	LONG $0x546f0ff3; WORD $0x20fa // movdqu    xmm2, oword [rdx + 8*rdi + 32]
+	LONG $0x5c6f0ff3; WORD $0x30fa // movdqu    xmm3, oword [rdx + 8*rdi + 48]
+	LONG $0x29380f66; BYTE $0xd0   // pcmpeqq    xmm2, xmm0
+	LONG $0xd1df0f66               // pandn    xmm2, xmm1
+	LONG $0x29380f66; BYTE $0xd8   // pcmpeqq    xmm3, xmm0
+	LONG $0xd9df0f66               // pandn    xmm3, xmm1
+	LONG $0x547f0ff3; WORD $0x20f9 // movdqu    oword [rcx + 8*rdi + 32], xmm2
+	LONG $0x5c7f0ff3; WORD $0x30f9 // movdqu    oword [rcx + 8*rdi + 48], xmm3
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_426
+	JMP  LBB3_721
+
+LBB3_427:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB3_550
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_552
+
+LBB3_429:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB3_560
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_562
+
+LBB3_438:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_728
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_440:
+	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0f90f66               // psubw    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1f90f66               // psubw    xmm0, xmm1
+	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
+	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0f90f66               // psubw    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1f90f66               // psubw    xmm0, xmm1
+	LONG $0x547f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm2
+	LONG $0x447f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm0
+	LONG $0x20c78348               // add    rdi, 32
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_440
+	JMP  LBB3_729
+
+LBB3_441:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_736
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_443:
+	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0f90f66               // psubw    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1f90f66               // psubw    xmm0, xmm1
+	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
+	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0f90f66               // psubw    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1f90f66               // psubw    xmm0, xmm1
+	LONG $0x547f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm2
+	LONG $0x447f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm0
+	LONG $0x20c78348               // add    rdi, 32
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_443
+	JMP  LBB3_737
+
+LBB3_444:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_744
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_446:
+	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0f90f66               // psubw    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1f90f66               // psubw    xmm0, xmm1
+	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
+	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0f90f66               // psubw    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1f90f66               // psubw    xmm0, xmm1
+	LONG $0x547f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm2
+	LONG $0x447f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm0
+	LONG $0x20c78348               // add    rdi, 32
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_446
+	JMP  LBB3_745
+
+LBB3_447:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x04e8c149             // shr    r8, 4
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_752
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0x4d6f0f66; BYTE $0x40 // movdqa    xmm1, oword 64[rbp] /* [rip + .LCPI3_5] */
+
+LBB3_449:
+	LONG $0x146f0ff3; BYTE $0x7a   // movdqu    xmm2, oword [rdx + 2*rdi]
+	LONG $0x5c6f0ff3; WORD $0x107a // movdqu    xmm3, oword [rdx + 2*rdi + 16]
+	LONG $0xd0750f66               // pcmpeqw    xmm2, xmm0
+	LONG $0xd1df0f66               // pandn    xmm2, xmm1
+	LONG $0xd8750f66               // pcmpeqw    xmm3, xmm0
+	LONG $0xd9df0f66               // pandn    xmm3, xmm1
+	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
+	LONG $0x5c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm3
+	LONG $0x546f0ff3; WORD $0x207a // movdqu    xmm2, oword [rdx + 2*rdi + 32]
+	LONG $0x5c6f0ff3; WORD $0x307a // movdqu    xmm3, oword [rdx + 2*rdi + 48]
+	LONG $0xd0750f66               // pcmpeqw    xmm2, xmm0
+	LONG $0xd1df0f66               // pandn    xmm2, xmm1
+	LONG $0xd8750f66               // pcmpeqw    xmm3, xmm0
+	LONG $0xd9df0f66               // pandn    xmm3, xmm1
+	LONG $0x547f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm2
+	LONG $0x5c7f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm3
+	LONG $0x20c78348               // add    rdi, 32
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_449
+	JMP  LBB3_753
+
+LBB3_450:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x04e8c149             // shr    r8, 4
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_760
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
+	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x40 // movdqa    xmm4, oword 64[rbp] /* [rip + .LCPI3_5] */
+
+LBB3_452:
+	LONG $0x2c6f0ff3; BYTE $0x7a   // movdqu    xmm5, oword [rdx + 2*rdi]
+	LONG $0x746f0ff3; WORD $0x107a // movdqu    xmm6, oword [rdx + 2*rdi + 16]
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc5650f66               // pcmpgtw    xmm0, xmm5
+	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xce650f66               // pcmpgtw    xmm1, xmm6
+	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
+	LONG $0x10380f66; BYTE $0xfd   // pblendvb    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
+	LONG $0x3c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm7
+	LONG $0x6c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x207a // movdqu    xmm5, oword [rdx + 2*rdi + 32]
+	LONG $0x746f0ff3; WORD $0x307a // movdqu    xmm6, oword [rdx + 2*rdi + 48]
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc5650f66               // pcmpgtw    xmm0, xmm5
+	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xce650f66               // pcmpgtw    xmm1, xmm6
+	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
+	LONG $0x10380f66; BYTE $0xfd   // pblendvb    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
+	LONG $0x7c7f0ff3; WORD $0x2079 // movdqu    oword [rcx + 2*rdi + 32], xmm7
+	LONG $0x6c7f0ff3; WORD $0x3079 // movdqu    oword [rcx + 2*rdi + 48], xmm5
+	LONG $0x20c78348               // add    rdi, 32
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_452
+	JMP  LBB3_761
+
+LBB3_453:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x04efc148         // shr    rdi, 4
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x30f88348         // cmp    rax, 48
+	JAE  LBB3_570
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_572
+
+LBB3_455:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_769
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+
+LBB3_457:
+	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x23380f66; WORD $0x7a14             // pmovsxwd    xmm2, qword [rdx + 2*rdi]
+	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
+	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
+	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
+	LONG $0xe4720f66; BYTE $0x0f               // psrad    xmm4, 15
+	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
+	LONG $0xd3fe0f66                           // paddd    xmm2, xmm3
+	LONG $0xd3ef0f66                           // pxor    xmm2, xmm3
+	LONG $0xccef0f66                           // pxor    xmm1, xmm4
+	LONG $0x0e3a0f66; WORD $0xaac8             // pblendw    xmm1, xmm0, 170
+	LONG $0x0e3a0f66; WORD $0xaad0             // pblendw    xmm2, xmm0, 170
+	LONG $0x2b380f66; BYTE $0xd1               // packusdw    xmm2, xmm1
+	LONG $0x147f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm2
+	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
+	LONG $0x23380f66; WORD $0x7a54; BYTE $0x10 // pmovsxwd    xmm2, qword [rdx + 2*rdi + 16]
+	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
+	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
+	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
+	LONG $0xe4720f66; BYTE $0x0f               // psrad    xmm4, 15
+	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
+	LONG $0xd3fe0f66                           // paddd    xmm2, xmm3
+	LONG $0xd3ef0f66                           // pxor    xmm2, xmm3
+	LONG $0xccef0f66                           // pxor    xmm1, xmm4
+	LONG $0x0e3a0f66; WORD $0xaac8             // pblendw    xmm1, xmm0, 170
+	LONG $0x0e3a0f66; WORD $0xaad0             // pblendw    xmm2, xmm0, 170
+	LONG $0x2b380f66; BYTE $0xd1               // packusdw    xmm2, xmm1
+	LONG $0x547f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB3_457
+	JMP  LBB3_770
+
+LBB3_458:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x04efc148         // shr    rdi, 4
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x30f88348         // cmp    rax, 48
+	JAE  LBB3_580
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_582
+
+LBB3_460:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_777
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+
+LBB3_462:
+	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x23380f66; WORD $0x7a14             // pmovsxwd    xmm2, qword [rdx + 2*rdi]
+	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
+	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
+	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
+	LONG $0xe4720f66; BYTE $0x0f               // psrad    xmm4, 15
+	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
+	LONG $0xd3fe0f66                           // paddd    xmm2, xmm3
+	LONG $0xd3ef0f66                           // pxor    xmm2, xmm3
+	LONG $0xccef0f66                           // pxor    xmm1, xmm4
+	LONG $0x0e3a0f66; WORD $0xaac8             // pblendw    xmm1, xmm0, 170
+	LONG $0x0e3a0f66; WORD $0xaad0             // pblendw    xmm2, xmm0, 170
+	LONG $0x2b380f66; BYTE $0xd1               // packusdw    xmm2, xmm1
+	LONG $0x147f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm2
+	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
+	LONG $0x23380f66; WORD $0x7a54; BYTE $0x10 // pmovsxwd    xmm2, qword [rdx + 2*rdi + 16]
+	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
+	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
+	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
+	LONG $0xe4720f66; BYTE $0x0f               // psrad    xmm4, 15
+	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
+	LONG $0xd3fe0f66                           // paddd    xmm2, xmm3
+	LONG $0xd3ef0f66                           // pxor    xmm2, xmm3
+	LONG $0xccef0f66                           // pxor    xmm1, xmm4
+	LONG $0x0e3a0f66; WORD $0xaac8             // pblendw    xmm1, xmm0, 170
+	LONG $0x0e3a0f66; WORD $0xaad0             // pblendw    xmm2, xmm0, 170
+	LONG $0x2b380f66; BYTE $0xd1               // packusdw    xmm2, xmm1
+	LONG $0x547f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB3_462
+	JMP  LBB3_778
+
+LBB3_463:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_785
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_465:
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
+	LONG $0x147f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm2
+	LONG $0x447f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
+	LONG $0x547f0ff3; WORD $0x20f9 // movdqu    oword [rcx + 8*rdi + 32], xmm2
+	LONG $0x447f0ff3; WORD $0x30f9 // movdqu    oword [rcx + 8*rdi + 48], xmm0
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_465
+	JMP  LBB3_786
+
+LBB3_466:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x03e8c149             // shr    r8, 3
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_793
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
+
+LBB3_468:
+	LONG $0x0c100f66; BYTE $0xba   // movupd    xmm1, oword [rdx + 4*rdi]
+	LONG $0x54100f66; WORD $0x10ba // movupd    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0xd0570f66               // xorpd    xmm2, xmm0
+	LONG $0x0c110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm1
+	LONG $0x54110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm2
+	LONG $0x4c100f66; WORD $0x20ba // movupd    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x54100f66; WORD $0x30ba // movupd    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0xd0570f66               // xorpd    xmm2, xmm0
+	LONG $0x4c110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm1
+	LONG $0x54110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm2
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_468
+	JMP  LBB3_794
+
+LBB3_469:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_803
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_471:
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
+	LONG $0x147f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm2
+	LONG $0x447f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0fb0f66               // psubq    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1fb0f66               // psubq    xmm0, xmm1
+	LONG $0x547f0ff3; WORD $0x20f9 // movdqu    oword [rcx + 8*rdi + 32], xmm2
+	LONG $0x447f0ff3; WORD $0x30f9 // movdqu    oword [rcx + 8*rdi + 48], xmm0
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_471
+	JMP  LBB3_804
+
+LBB3_472:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x03e8c149             // shr    r8, 3
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_811
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x45280f66; BYTE $0x60 // movapd    xmm0, oword 96[rbp] /* [rip + .LCPI3_7] */
+
+LBB3_474:
+	LONG $0x0c100f66; BYTE $0xba   // movupd    xmm1, oword [rdx + 4*rdi]
+	LONG $0x54100f66; WORD $0x10ba // movupd    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0xd0570f66               // xorpd    xmm2, xmm0
+	LONG $0x0c110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm1
+	LONG $0x54110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm2
+	LONG $0x4c100f66; WORD $0x20ba // movupd    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x54100f66; WORD $0x30ba // movupd    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8570f66               // xorpd    xmm1, xmm0
+	LONG $0xd0570f66               // xorpd    xmm2, xmm0
+	LONG $0x4c110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm1
+	LONG $0x54110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm2
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_474
+	JMP  LBB3_812
+
+LBB3_475:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_821
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
+	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x30 // movdqa    xmm4, oword 48[rbp] /* [rip + .LCPI3_4] */
+
+LBB3_477:
+	LONG $0x2c6f0ff3; BYTE $0xfa   // movdqu    xmm5, oword [rdx + 8*rdi]
+	LONG $0x746f0ff3; WORD $0x10fa // movdqu    xmm6, oword [rdx + 8*rdi + 16]
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0x37380f66; BYTE $0xc5   // pcmpgtq    xmm0, xmm5
+	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0x37380f66; BYTE $0xce   // pcmpgtq    xmm1, xmm6
+	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
+	LONG $0x15380f66; BYTE $0xfd   // blendvpd    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xee   // blendvpd    xmm5, xmm6, xmm0
+	LONG $0x3c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm7
+	LONG $0x6c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x20fa // movdqu    xmm5, oword [rdx + 8*rdi + 32]
+	LONG $0x746f0ff3; WORD $0x30fa // movdqu    xmm6, oword [rdx + 8*rdi + 48]
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0x37380f66; BYTE $0xc5   // pcmpgtq    xmm0, xmm5
+	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0x37380f66; BYTE $0xce   // pcmpgtq    xmm1, xmm6
+	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
+	LONG $0x15380f66; BYTE $0xfd   // blendvpd    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xee   // blendvpd    xmm5, xmm6, xmm0
+	LONG $0x7c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm7
+	LONG $0x6c110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm5
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_477
+	JMP  LBB3_822
+
+LBB3_478:
+	WORD $0xc689                 // mov    esi, eax
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0x4d6f0f66; BYTE $0x20 // movdqa    xmm1, oword 32[rbp] /* [rip + .LCPI3_3] */
+
+LBB3_479:
+	LONG $0x146f0ff3; BYTE $0xba   // movdqu    xmm2, oword [rdx + 4*rdi]
+	LONG $0x5c6f0ff3; WORD $0x10ba // movdqu    xmm3, oword [rdx + 4*rdi + 16]
+	LONG $0xe26f0f66               // movdqa    xmm4, xmm2
+	LONG $0xe4720f66; BYTE $0x1f   // psrad    xmm4, 31
+	LONG $0xe1eb0f66               // por    xmm4, xmm1
+	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
+	LONG $0xe5720f66; BYTE $0x1f   // psrad    xmm5, 31
+	LONG $0xe9eb0f66               // por    xmm5, xmm1
+	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
+	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
+	LONG $0x04d0c20f               // cmpneqps    xmm2, xmm0
+	WORD $0x540f; BYTE $0xd4       // andps    xmm2, xmm4
+	LONG $0x04d8c20f               // cmpneqps    xmm3, xmm0
+	WORD $0x540f; BYTE $0xdd       // andps    xmm3, xmm5
+	LONG $0xb914110f               // movups    oword [rcx + 4*rdi], xmm2
+	LONG $0xb95c110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm3
+	LONG $0x08c78348               // add    rdi, 8
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB3_479
+	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
+	JE   LBB3_923
+	JMP  LBB3_481
+
+LBB3_486:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_830
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_488:
+	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd9fb0f66               // psubq    xmm3, xmm1
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xcb   // blendvpd    xmm1, xmm3, xmm0
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xdafb0f66               // psubq    xmm3, xmm2
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
+	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
+	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd9fb0f66               // psubq    xmm3, xmm1
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xcb   // blendvpd    xmm1, xmm3, xmm0
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xdafb0f66               // psubq    xmm3, xmm2
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
+	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
+	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_488
+	JMP  LBB3_831
+
+LBB3_489:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_838
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x0000008085280f66 // movapd    xmm0, oword 128[rbp] /* [rip + .LCPI3_9] */
+
+LBB3_491:
+	LONG $0x0c100f66; BYTE $0xba   // movupd    xmm1, oword [rdx + 4*rdi]
+	LONG $0x54100f66; WORD $0x10ba // movupd    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8540f66               // andpd    xmm1, xmm0
+	LONG $0xd0540f66               // andpd    xmm2, xmm0
+	LONG $0x0c110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm1
+	LONG $0x54110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm2
+	LONG $0x4c100f66; WORD $0x20ba // movupd    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x54100f66; WORD $0x30ba // movupd    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8540f66               // andpd    xmm1, xmm0
+	LONG $0xd0540f66               // andpd    xmm2, xmm0
+	LONG $0x4c110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm1
+	LONG $0x54110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm2
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_491
+	JMP  LBB3_839
+
+LBB3_492:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_848
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_494:
+	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd9fb0f66               // psubq    xmm3, xmm1
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xcb   // blendvpd    xmm1, xmm3, xmm0
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xdafb0f66               // psubq    xmm3, xmm2
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
+	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
+	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd9fb0f66               // psubq    xmm3, xmm1
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xcb   // blendvpd    xmm1, xmm3, xmm0
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xdafb0f66               // psubq    xmm3, xmm2
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
+	LONG $0x4c110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm1
+	LONG $0x54110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm2
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_494
+	JMP  LBB3_849
+
+LBB3_495:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_856
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x0000008085280f66 // movapd    xmm0, oword 128[rbp] /* [rip + .LCPI3_9] */
+
+LBB3_497:
+	LONG $0x0c100f66; BYTE $0xba   // movupd    xmm1, oword [rdx + 4*rdi]
+	LONG $0x54100f66; WORD $0x10ba // movupd    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8540f66               // andpd    xmm1, xmm0
+	LONG $0xd0540f66               // andpd    xmm2, xmm0
+	LONG $0x0c110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm1
+	LONG $0x54110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm2
+	LONG $0x4c100f66; WORD $0x20ba // movupd    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x54100f66; WORD $0x30ba // movupd    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8540f66               // andpd    xmm1, xmm0
+	LONG $0xd0540f66               // andpd    xmm2, xmm0
+	LONG $0x4c110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm1
+	LONG $0x54110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm2
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_497
+	JMP  LBB3_857
+
+LBB3_505:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_866
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_507:
+	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0f80f66               // psubb    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1f80f66               // psubb    xmm0, xmm1
+	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
+	LONG $0x447f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x203a // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0f80f66               // psubb    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1f80f66               // psubb    xmm0, xmm1
+	LONG $0x547f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm2
+	LONG $0x447f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm0
+	LONG $0x40c78348               // add    rdi, 64
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_507
+	JMP  LBB3_867
+
+LBB3_508:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x05e8c149             // shr    r8, 5
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_874
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI3_6] */
+
+LBB3_510:
+	LONG $0x146f0ff3; BYTE $0x3a   // movdqu    xmm2, oword [rdx + rdi]
+	LONG $0x5c6f0ff3; WORD $0x103a // movdqu    xmm3, oword [rdx + rdi + 16]
+	LONG $0xd0740f66               // pcmpeqb    xmm2, xmm0
+	LONG $0xd1df0f66               // pandn    xmm2, xmm1
+	LONG $0xd8740f66               // pcmpeqb    xmm3, xmm0
+	LONG $0xd9df0f66               // pandn    xmm3, xmm1
+	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
+	LONG $0x5c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm3
+	LONG $0x546f0ff3; WORD $0x203a // movdqu    xmm2, oword [rdx + rdi + 32]
+	LONG $0x5c6f0ff3; WORD $0x303a // movdqu    xmm3, oword [rdx + rdi + 48]
+	LONG $0xd0740f66               // pcmpeqb    xmm2, xmm0
+	LONG $0xd1df0f66               // pandn    xmm2, xmm1
+	LONG $0xd8740f66               // pcmpeqb    xmm3, xmm0
+	LONG $0xd9df0f66               // pandn    xmm3, xmm1
+	LONG $0x547f0ff3; WORD $0x2039 // movdqu    oword [rcx + rdi + 32], xmm2
+	LONG $0x5c7f0ff3; WORD $0x3039 // movdqu    oword [rcx + rdi + 48], xmm3
+	LONG $0x40c78348               // add    rdi, 64
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_510
+	JMP  LBB3_875
+
+LBB3_511:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x05efc148         // shr    rdi, 5
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x60f88348         // cmp    rax, 96
+	JAE  LBB3_590
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_592
+
+LBB3_513:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x05efc148         // shr    rdi, 5
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x60f88348         // cmp    rax, 96
+	JAE  LBB3_600
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB3_602
+
+LBB3_515:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_882
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_517:
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
+	LONG $0x147f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm2
+	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
+	LONG $0x547f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x447f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm0
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_517
+	JMP  LBB3_883
+
+LBB3_518:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_890
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_520:
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
+	LONG $0x147f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm2
+	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd0fa0f66               // psubd    xmm2, xmm0
+	LONG $0xc0ef0f66               // pxor    xmm0, xmm0
+	LONG $0xc1fa0f66               // psubd    xmm0, xmm1
+	LONG $0x547f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x447f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm0
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_520
+	JMP  LBB3_891
+
+LBB3_521:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x03e8c149             // shr    r8, 3
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB3_898
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
+	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x20 // movdqa    xmm4, oword 32[rbp] /* [rip + .LCPI3_3] */
+
+LBB3_523:
+	LONG $0x2c6f0ff3; BYTE $0xba   // movdqu    xmm5, oword [rdx + 4*rdi]
+	LONG $0x746f0ff3; WORD $0x10ba // movdqu    xmm6, oword [rdx + 4*rdi + 16]
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
+	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
+	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
+	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
+	LONG $0xb93c110f               // movups    oword [rcx + 4*rdi], xmm7
+	LONG $0xb96c110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x20ba // movdqu    xmm5, oword [rdx + 4*rdi + 32]
+	LONG $0x746f0ff3; WORD $0x30ba // movdqu    xmm6, oword [rdx + 4*rdi + 48]
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
+	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
+	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
+	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
+	LONG $0xb97c110f; BYTE $0x20   // movups    oword [rcx + 4*rdi + 32], xmm7
+	LONG $0xb96c110f; BYTE $0x30   // movups    oword [rcx + 4*rdi + 48], xmm5
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_523
+	JMP  LBB3_899
+
+LBB3_524:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_907
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_526:
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
+	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
+	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
+	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
+	LONG $0x447f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_526
+	JMP  LBB3_908
+
+LBB3_527:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB3_915
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB3_529:
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
+	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
+	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20ba // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
+	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
+	LONG $0x447f0ff3; WORD $0x20b9 // movdqu    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30b9 // movdqu    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB3_529
+	JMP  LBB3_916
+
+LBB3_367:
+	LONG $0xf8e78348         // and    rdi, -8
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xc0570f66         // xorpd    xmm0, xmm0
+
+LBB3_368:
+	LONG $0x04110f66; BYTE $0x81         // movupd    oword [rcx + 4*rax], xmm0
+	LONG $0x44110f66; WORD $0x1081       // movupd    oword [rcx + 4*rax + 16], xmm0
+	LONG $0x44110f66; WORD $0x2081       // movupd    oword [rcx + 4*rax + 32], xmm0
+	LONG $0x44110f66; WORD $0x3081       // movupd    oword [rcx + 4*rax + 48], xmm0
+	LONG $0x44110f66; WORD $0x4081       // movupd    oword [rcx + 4*rax + 64], xmm0
+	LONG $0x44110f66; WORD $0x5081       // movupd    oword [rcx + 4*rax + 80], xmm0
+	LONG $0x44110f66; WORD $0x6081       // movupd    oword [rcx + 4*rax + 96], xmm0
+	LONG $0x44110f66; WORD $0x7081       // movupd    oword [rcx + 4*rax + 112], xmm0
+	QUAD $0x0000808184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 128], xmm0
+	QUAD $0x0000908184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 144], xmm0
+	QUAD $0x0000a08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 160], xmm0
+	QUAD $0x0000b08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 176], xmm0
+	QUAD $0x0000c08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 192], xmm0
+	QUAD $0x0000d08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 208], xmm0
+	QUAD $0x0000e08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 224], xmm0
+	QUAD $0x0000f08184110f66; BYTE $0x00 // movupd    oword [rcx + 4*rax + 240], xmm0
+	LONG $0x40c08348                     // add    rax, 64
+	LONG $0x08c78348                     // add    rdi, 8
+	JNE  LBB3_368
+
+LBB3_369:
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB3_372
+	LONG $0x81048d48         // lea    rax, [rcx + 4*rax]
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	LONG $0xc0570f66         // xorpd    xmm0, xmm0
+
+LBB3_371:
+	LONG $0x40110f66; BYTE $0xf0 // movupd    oword [rax - 16], xmm0
+	LONG $0x00110f66             // movupd    oword [rax], xmm0
+	LONG $0x20c08348             // add    rax, 32
+	WORD $0xff48; BYTE $0xc6     // inc    rsi
+	JNE  LBB3_371
+
+LBB3_372:
+	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
+	JE   LBB3_923
+
+LBB3_373:
+	LONG $0x009104c7; WORD $0x0000; BYTE $0x00 // mov    dword [rcx + 4*rdx], 0
+	LONG $0x01c28348                           // add    rdx, 1
+	WORD $0x3949; BYTE $0xd1                   // cmp    r9, rdx
+	JNE  LBB3_373
+	JMP  LBB3_923
+
+LBB3_414:
+	LONG $0xf8e78348         // and    rdi, -8
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xc0570f66         // xorpd    xmm0, xmm0
+
+LBB3_415:
+	LONG $0x04110f66; BYTE $0xc1         // movupd    oword [rcx + 8*rax], xmm0
+	LONG $0x44110f66; WORD $0x10c1       // movupd    oword [rcx + 8*rax + 16], xmm0
+	LONG $0x44110f66; WORD $0x20c1       // movupd    oword [rcx + 8*rax + 32], xmm0
+	LONG $0x44110f66; WORD $0x30c1       // movupd    oword [rcx + 8*rax + 48], xmm0
+	LONG $0x44110f66; WORD $0x40c1       // movupd    oword [rcx + 8*rax + 64], xmm0
+	LONG $0x44110f66; WORD $0x50c1       // movupd    oword [rcx + 8*rax + 80], xmm0
+	LONG $0x44110f66; WORD $0x60c1       // movupd    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x44110f66; WORD $0x70c1       // movupd    oword [rcx + 8*rax + 112], xmm0
+	QUAD $0x000080c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 128], xmm0
+	QUAD $0x000090c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 144], xmm0
+	QUAD $0x0000a0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 160], xmm0
+	QUAD $0x0000b0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 176], xmm0
+	QUAD $0x0000c0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 192], xmm0
+	QUAD $0x0000d0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 208], xmm0
+	QUAD $0x0000e0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 224], xmm0
+	QUAD $0x0000f0c184110f66; BYTE $0x00 // movupd    oword [rcx + 8*rax + 240], xmm0
+	LONG $0x20c08348                     // add    rax, 32
+	LONG $0x08c78348                     // add    rdi, 8
+	JNE  LBB3_415
+
+LBB3_416:
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB3_419
+	LONG $0xc1048d48         // lea    rax, [rcx + 8*rax]
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	LONG $0xc0570f66         // xorpd    xmm0, xmm0
+
+LBB3_418:
+	LONG $0x40110f66; BYTE $0xf0 // movupd    oword [rax - 16], xmm0
+	LONG $0x00110f66             // movupd    oword [rax], xmm0
+	LONG $0x20c08348             // add    rax, 32
+	WORD $0xff48; BYTE $0xc6     // inc    rsi
+	JNE  LBB3_418
+
+LBB3_419:
+	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
+	JE   LBB3_923
+
+LBB3_420:
+	QUAD $0x00000000d104c748 // mov    qword [rcx + 8*rdx], 0
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd1 // cmp    r9, rdx
+	JNE  LBB3_420
+	JMP  LBB3_923
+
+LBB3_431:
+	LONG $0xf8e78348         // and    rdi, -8
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xc0570f66         // xorpd    xmm0, xmm0
+
+LBB3_432:
+	LONG $0x04110f66; BYTE $0x41         // movupd    oword [rcx + 2*rax], xmm0
+	LONG $0x44110f66; WORD $0x1041       // movupd    oword [rcx + 2*rax + 16], xmm0
+	LONG $0x44110f66; WORD $0x2041       // movupd    oword [rcx + 2*rax + 32], xmm0
+	LONG $0x44110f66; WORD $0x3041       // movupd    oword [rcx + 2*rax + 48], xmm0
+	LONG $0x44110f66; WORD $0x4041       // movupd    oword [rcx + 2*rax + 64], xmm0
+	LONG $0x44110f66; WORD $0x5041       // movupd    oword [rcx + 2*rax + 80], xmm0
+	LONG $0x44110f66; WORD $0x6041       // movupd    oword [rcx + 2*rax + 96], xmm0
+	LONG $0x44110f66; WORD $0x7041       // movupd    oword [rcx + 2*rax + 112], xmm0
+	QUAD $0x0000804184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 128], xmm0
+	QUAD $0x0000904184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 144], xmm0
+	QUAD $0x0000a04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 160], xmm0
+	QUAD $0x0000b04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 176], xmm0
+	QUAD $0x0000c04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 192], xmm0
+	QUAD $0x0000d04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 208], xmm0
+	QUAD $0x0000e04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 224], xmm0
+	QUAD $0x0000f04184110f66; BYTE $0x00 // movupd    oword [rcx + 2*rax + 240], xmm0
+	LONG $0x80e88348                     // sub    rax, -128
+	LONG $0x08c78348                     // add    rdi, 8
+	JNE  LBB3_432
+
+LBB3_433:
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB3_436
+	LONG $0x41048d48         // lea    rax, [rcx + 2*rax]
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	LONG $0xc0570f66         // xorpd    xmm0, xmm0
+
+LBB3_435:
+	LONG $0x40110f66; BYTE $0xf0 // movupd    oword [rax - 16], xmm0
+	LONG $0x00110f66             // movupd    oword [rax], xmm0
+	LONG $0x20c08348             // add    rax, 32
+	WORD $0xff48; BYTE $0xc6     // inc    rsi
+	JNE  LBB3_435
+
+LBB3_436:
+	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
+	JE   LBB3_923
+
+LBB3_437:
+	LONG $0x5104c766; WORD $0x0000 // mov    word [rcx + 2*rdx], 0
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3949; BYTE $0xd1       // cmp    r9, rdx
+	JNE  LBB3_437
+	JMP  LBB3_923
+
+LBB3_498:
+	LONG $0xf8e78348         // and    rdi, -8
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xc0570f66         // xorpd    xmm0, xmm0
+
+LBB3_499:
+	LONG $0x04110f66; BYTE $0x01         // movupd    oword [rcx + rax], xmm0
+	LONG $0x44110f66; WORD $0x1001       // movupd    oword [rcx + rax + 16], xmm0
+	LONG $0x44110f66; WORD $0x2001       // movupd    oword [rcx + rax + 32], xmm0
+	LONG $0x44110f66; WORD $0x3001       // movupd    oword [rcx + rax + 48], xmm0
+	LONG $0x44110f66; WORD $0x4001       // movupd    oword [rcx + rax + 64], xmm0
+	LONG $0x44110f66; WORD $0x5001       // movupd    oword [rcx + rax + 80], xmm0
+	LONG $0x44110f66; WORD $0x6001       // movupd    oword [rcx + rax + 96], xmm0
+	LONG $0x44110f66; WORD $0x7001       // movupd    oword [rcx + rax + 112], xmm0
+	QUAD $0x0000800184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 128], xmm0
+	QUAD $0x0000900184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 144], xmm0
+	QUAD $0x0000a00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 160], xmm0
+	QUAD $0x0000b00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 176], xmm0
+	QUAD $0x0000c00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 192], xmm0
+	QUAD $0x0000d00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 208], xmm0
+	QUAD $0x0000e00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 224], xmm0
+	QUAD $0x0000f00184110f66; BYTE $0x00 // movupd    oword [rcx + rax + 240], xmm0
+	LONG $0x01000548; WORD $0x0000       // add    rax, 256
+	LONG $0x08c78348                     // add    rdi, 8
+	JNE  LBB3_499
+
+LBB3_500:
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB3_503
+	WORD $0x0148; BYTE $0xc8 // add    rax, rcx
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	LONG $0xc0570f66         // xorpd    xmm0, xmm0
+
+LBB3_502:
+	LONG $0x40110f66; BYTE $0xf0 // movupd    oword [rax - 16], xmm0
+	LONG $0x00110f66             // movupd    oword [rax], xmm0
+	LONG $0x20c08348             // add    rax, 32
+	WORD $0xff48; BYTE $0xc6     // inc    rsi
+	JNE  LBB3_502
+
+LBB3_503:
+	WORD $0x394c; BYTE $0xca // cmp    rdx, r9
+	JE   LBB3_923
+
+LBB3_504:
+	LONG $0x001104c6         // mov    byte [rcx + rdx], 0
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd1 // cmp    r9, rdx
+	JNE  LBB3_504
+
+LBB3_923:
+	RET
+
+LBB3_530:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB3_531:
+	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
+	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
+	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
+	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
+	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
+	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
+	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
+	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
+	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
+	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
+	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB3_531
+
+LBB3_532:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB3_535
+	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB3_534:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB3_534
+
+LBB3_535:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_536
+
+LBB3_540:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB3_541:
+	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
+	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
+	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
+	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
+	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
+	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
+	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
+	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
+	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
+	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
+	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB3_541
+
+LBB3_542:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB3_545
+	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB3_544:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB3_544
+
+LBB3_545:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_546
+
+LBB3_550:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB3_551:
+	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
+	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
+	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
+	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
+	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
+	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
+	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
+	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
+	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
+	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
+	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB3_551
+
+LBB3_552:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB3_555
+	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB3_554:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB3_554
+
+LBB3_555:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_556
+
+LBB3_560:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB3_561:
+	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
+	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
+	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
+	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
+	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
+	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
+	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
+	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
+	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
+	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
+	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB3_561
+
+LBB3_562:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB3_565
+	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB3_564:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB3_564
+
+LBB3_565:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_566
+
+LBB3_570:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB3_571:
+	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
+	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
+	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
+	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
+	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
+	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
+	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
+	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
+	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
+	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
+	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
+	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
+	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
+	LONG $0x40c08348               // add    rax, 64
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB3_571
+
+LBB3_572:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB3_575
+	WORD $0x0148; BYTE $0xc0 // add    rax, rax
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB3_574:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB3_574
+
+LBB3_575:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_576
+
+LBB3_580:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB3_581:
+	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
+	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
+	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
+	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
+	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
+	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
+	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
+	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
+	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
+	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
+	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
+	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
+	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
+	LONG $0x40c08348               // add    rax, 64
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB3_581
+
+LBB3_582:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB3_585
+	WORD $0x0148; BYTE $0xc0 // add    rax, rax
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB3_584:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB3_584
+
+LBB3_585:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_586
+
+LBB3_590:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB3_591:
+	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
+	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
+	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
+	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
+	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
+	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
+	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
+	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
+	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
+	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
+	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
+	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
+	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
+	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
+	LONG $0x80e88348               // sub    rax, -128
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB3_591
+
+LBB3_592:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB3_595
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB3_594:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB3_594
+
+LBB3_595:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_596
+
+LBB3_600:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB3_601:
+	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
+	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
+	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
+	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
+	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
+	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
+	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
+	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
+	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
+	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
+	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
+	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
+	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
+	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
+	LONG $0x80e88348               // sub    rax, -128
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB3_601
+
+LBB3_602:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB3_605
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB3_604:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB3_604
+
+LBB3_605:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_606
+
+LBB3_610:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_611:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_613
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd8fa0f66               // psubd    xmm3, xmm0
+	LONG $0xd1fa0f66               // psubd    xmm2, xmm1
+	LONG $0x1c7f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm3
+	LONG $0x547f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm2
+
+LBB3_613:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_614
+
+LBB3_618:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_619:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_621
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xc2760f66               // pcmpeqd    xmm0, xmm2
+	LONG $0x5d6f0f66; BYTE $0x20   // movdqa    xmm3, oword 32[rbp] /* [rip + .LCPI3_3] */
+	LONG $0xc3df0f66               // pandn    xmm0, xmm3
+	LONG $0xca760f66               // pcmpeqd    xmm1, xmm2
+	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
+	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
+
+LBB3_621:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_622
+
+LBB3_626:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_627:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_629
+	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x55280f66; BYTE $0x00   // movapd    xmm2, oword 0[rbp] /* [rip + .LCPI3_0] */
+	LONG $0xc2570f66               // xorpd    xmm0, xmm2
+	LONG $0xca570f66               // xorpd    xmm1, xmm2
+	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
+	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
+
+LBB3_629:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_630
+
+LBB3_636:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_637:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_639
+	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x55280f66; BYTE $0x00   // movapd    xmm2, oword 0[rbp] /* [rip + .LCPI3_0] */
+	LONG $0xc2570f66               // xorpd    xmm0, xmm2
+	LONG $0xca570f66               // xorpd    xmm1, xmm2
+	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
+	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
+
+LBB3_639:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_640
+
+LBB3_646:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_647:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_649
+	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xd2570f66               // xorpd    xmm2, xmm2
+	LONG $0x5d280f66; BYTE $0x00   // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI3_0] */
+	LONG $0xe0280f66               // movapd    xmm4, xmm0
+	LONG $0xe3540f66               // andpd    xmm4, xmm3
+	LONG $0x6d280f66; BYTE $0x10   // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI3_1] */
+	LONG $0xe5560f66               // orpd    xmm4, xmm5
+	LONG $0xd9540f66               // andpd    xmm3, xmm1
+	LONG $0xdd560f66               // orpd    xmm3, xmm5
+	LONG $0xc2c20f66; BYTE $0x04   // cmpneqpd    xmm0, xmm2
+	LONG $0xc4540f66               // andpd    xmm0, xmm4
+	LONG $0xcac20f66; BYTE $0x04   // cmpneqpd    xmm1, xmm2
+	LONG $0xcb540f66               // andpd    xmm1, xmm3
+	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
+	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
+
+LBB3_649:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_650
+
+LBB3_655:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_656:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_658
+	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x55280f66; BYTE $0x70   // movapd    xmm2, oword 112[rbp] /* [rip + .LCPI3_8] */
+	LONG $0xc2540f66               // andpd    xmm0, xmm2
+	LONG $0xca540f66               // andpd    xmm1, xmm2
+	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
+	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
+
+LBB3_658:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_659
+
+LBB3_663:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_664:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_666
+	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x55280f66; BYTE $0x70   // movapd    xmm2, oword 112[rbp] /* [rip + .LCPI3_8] */
+	LONG $0xc2540f66               // andpd    xmm0, xmm2
+	LONG $0xca540f66               // andpd    xmm1, xmm2
+	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
+	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
+
+LBB3_666:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_667
+
+LBB3_671:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_672:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_674
+	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd8f80f66               // psubb    xmm3, xmm0
+	LONG $0xd1f80f66               // psubb    xmm2, xmm1
+	LONG $0x1c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm3
+	LONG $0x547f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm2
+
+LBB3_674:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_675
+
+LBB3_679:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_680:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_682
+	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd8f80f66               // psubb    xmm3, xmm0
+	LONG $0xd1f80f66               // psubb    xmm2, xmm1
+	LONG $0x1c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm3
+	LONG $0x547f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm2
+
+LBB3_682:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_683
+
+LBB3_687:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_688:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_690
+	LONG $0x0c6f0ff3; BYTE $0x3a   // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI3_6] */
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc1640f66               // pcmpgtb    xmm0, xmm1
+	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
+	LONG $0xeb740f66               // pcmpeqb    xmm5, xmm3
+	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
+	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
+	LONG $0xda740f66               // pcmpeqb    xmm3, xmm2
+	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
+	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
+	LONG $0x10380f66; BYTE $0xd5   // pblendvb    xmm2, xmm5, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xe3   // pblendvb    xmm4, xmm3, xmm0
+	LONG $0x147f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm2
+	LONG $0x647f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm4
+
+LBB3_690:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_691
+
+LBB3_696:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_697:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB3_699
+	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x0c // pmovsxbd    xmm3, dword [rdx + rdi + 12]
+	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
+	LONG $0x21380f66; WORD $0x3a54; BYTE $0x04 // pmovsxbd    xmm2, dword [rdx + rdi + 4]
+	LONG $0x21380f66; WORD $0x3a0c             // pmovsxbd    xmm1, dword [rdx + rdi]
+	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
+	LONG $0xe4720f66; BYTE $0x07               // psrad    xmm4, 7
+	LONG $0xea6f0f66                           // movdqa    xmm5, xmm2
+	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
+	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
+	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
+	LONG $0xfb6f0f66                           // movdqa    xmm7, xmm3
+	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
+	LONG $0xdffe0f66                           // paddd    xmm3, xmm7
+	LONG $0xc6fe0f66                           // paddd    xmm0, xmm6
+	LONG $0xd5fe0f66                           // paddd    xmm2, xmm5
+	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
+	LONG $0xccef0f66                           // pxor    xmm1, xmm4
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0xc6ef0f66                           // pxor    xmm0, xmm6
+	LONG $0xdfef0f66                           // pxor    xmm3, xmm7
+	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI3_10] */
+	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0x2b380f66; BYTE $0xc3               // packusdw    xmm0, xmm3
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x2b380f66; BYTE $0xca               // packusdw    xmm1, xmm2
+	LONG $0xc8670f66                           // packuswb    xmm1, xmm0
+	LONG $0x0c7f0ff3; BYTE $0x39               // movdqu    oword [rcx + rdi], xmm1
+
+LBB3_699:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_700
+
+LBB3_704:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_705:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB3_707
+	LONG $0x21380f66; WORD $0x3a5c; BYTE $0x0c // pmovsxbd    xmm3, dword [rdx + rdi + 12]
+	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
+	LONG $0x21380f66; WORD $0x3a54; BYTE $0x04 // pmovsxbd    xmm2, dword [rdx + rdi + 4]
+	LONG $0x21380f66; WORD $0x3a0c             // pmovsxbd    xmm1, dword [rdx + rdi]
+	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
+	LONG $0xe4720f66; BYTE $0x07               // psrad    xmm4, 7
+	LONG $0xea6f0f66                           // movdqa    xmm5, xmm2
+	LONG $0xe5720f66; BYTE $0x07               // psrad    xmm5, 7
+	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
+	LONG $0xe6720f66; BYTE $0x07               // psrad    xmm6, 7
+	LONG $0xfb6f0f66                           // movdqa    xmm7, xmm3
+	LONG $0xe7720f66; BYTE $0x07               // psrad    xmm7, 7
+	LONG $0xdffe0f66                           // paddd    xmm3, xmm7
+	LONG $0xc6fe0f66                           // paddd    xmm0, xmm6
+	LONG $0xd5fe0f66                           // paddd    xmm2, xmm5
+	LONG $0xccfe0f66                           // paddd    xmm1, xmm4
+	LONG $0xccef0f66                           // pxor    xmm1, xmm4
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0xc6ef0f66                           // pxor    xmm0, xmm6
+	LONG $0xdfef0f66                           // pxor    xmm3, xmm7
+	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI3_10] */
+	LONG $0xdcdb0f66                           // pand    xmm3, xmm4
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0x2b380f66; BYTE $0xc3               // packusdw    xmm0, xmm3
+	LONG $0xd4db0f66                           // pand    xmm2, xmm4
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x2b380f66; BYTE $0xca               // packusdw    xmm1, xmm2
+	LONG $0xc8670f66                           // packuswb    xmm1, xmm0
+	LONG $0x0c7f0ff3; BYTE $0x39               // movdqu    oword [rcx + rdi], xmm1
+
+LBB3_707:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_708
+
+LBB3_712:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_713:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_715
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd8fb0f66               // psubq    xmm3, xmm0
+	LONG $0xd1fb0f66               // psubq    xmm2, xmm1
+	LONG $0x1c7f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm3
+	LONG $0x547f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm2
+
+LBB3_715:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_716
+
+LBB3_720:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_721:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_723
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0x29380f66; BYTE $0xc2   // pcmpeqq    xmm0, xmm2
+	LONG $0x5d6f0f66; BYTE $0x30   // movdqa    xmm3, oword 48[rbp] /* [rip + .LCPI3_4] */
+	LONG $0xc3df0f66               // pandn    xmm0, xmm3
+	LONG $0x29380f66; BYTE $0xca   // pcmpeqq    xmm1, xmm2
+	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
+	LONG $0x047f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm1
+
+LBB3_723:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_724
+
+LBB3_728:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_729:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_731
+	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd8f90f66               // psubw    xmm3, xmm0
+	LONG $0xd1f90f66               // psubw    xmm2, xmm1
+	LONG $0x1c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm3
+	LONG $0x547f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm2
+
+LBB3_731:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_732
+
+LBB3_736:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_737:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_739
+	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd8f90f66               // psubw    xmm3, xmm0
+	LONG $0xd1f90f66               // psubw    xmm2, xmm1
+	LONG $0x1c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm3
+	LONG $0x547f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm2
+
+LBB3_739:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_740
+
+LBB3_744:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_745:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_747
+	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd8f90f66               // psubw    xmm3, xmm0
+	LONG $0xd1f90f66               // psubw    xmm2, xmm1
+	LONG $0x1c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm3
+	LONG $0x547f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm2
+
+LBB3_747:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_748
+
+LBB3_752:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_753:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_755
+	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xc2750f66               // pcmpeqw    xmm0, xmm2
+	LONG $0x5d6f0f66; BYTE $0x40   // movdqa    xmm3, oword 64[rbp] /* [rip + .LCPI3_5] */
+	LONG $0xc3df0f66               // pandn    xmm0, xmm3
+	LONG $0xca750f66               // pcmpeqw    xmm1, xmm2
+	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
+	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
+
+LBB3_755:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_756
+
+LBB3_760:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_761:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_763
+	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x40   // movdqa    xmm4, oword 64[rbp] /* [rip + .LCPI3_5] */
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc1650f66               // pcmpgtw    xmm0, xmm1
+	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
+	LONG $0xeb750f66               // pcmpeqw    xmm5, xmm3
+	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
+	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
+	LONG $0xda750f66               // pcmpeqw    xmm3, xmm2
+	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
+	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
+	LONG $0x10380f66; BYTE $0xd5   // pblendvb    xmm2, xmm5, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xe3   // pblendvb    xmm4, xmm3, xmm0
+	LONG $0x147f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm2
+	LONG $0x647f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm4
+
+LBB3_763:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_764
+
+LBB3_769:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_770:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB3_772
+	LONG $0x23380f66; WORD $0x7a44; BYTE $0x08 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 8]
+	LONG $0x23380f66; WORD $0x7a0c             // pmovsxwd    xmm1, qword [rdx + 2*rdi]
+	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
+	LONG $0xe2720f66; BYTE $0x0f               // psrad    xmm2, 15
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
+	LONG $0xc3fe0f66                           // paddd    xmm0, xmm3
+	LONG $0xcafe0f66                           // paddd    xmm1, xmm2
+	LONG $0xcaef0f66                           // pxor    xmm1, xmm2
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0x0e3a0f66; WORD $0xaac2             // pblendw    xmm0, xmm2, 170
+	LONG $0x0e3a0f66; WORD $0xaaca             // pblendw    xmm1, xmm2, 170
+	LONG $0x2b380f66; BYTE $0xc8               // packusdw    xmm1, xmm0
+	LONG $0x0c7f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm1
+
+LBB3_772:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_773
+
+LBB3_777:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_778:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB3_780
+	LONG $0x23380f66; WORD $0x7a44; BYTE $0x08 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 8]
+	LONG $0x23380f66; WORD $0x7a0c             // pmovsxwd    xmm1, qword [rdx + 2*rdi]
+	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
+	LONG $0xe2720f66; BYTE $0x0f               // psrad    xmm2, 15
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xe3720f66; BYTE $0x0f               // psrad    xmm3, 15
+	LONG $0xc3fe0f66                           // paddd    xmm0, xmm3
+	LONG $0xcafe0f66                           // paddd    xmm1, xmm2
+	LONG $0xcaef0f66                           // pxor    xmm1, xmm2
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0x0e3a0f66; WORD $0xaac2             // pblendw    xmm0, xmm2, 170
+	LONG $0x0e3a0f66; WORD $0xaaca             // pblendw    xmm1, xmm2, 170
+	LONG $0x2b380f66; BYTE $0xc8               // packusdw    xmm1, xmm0
+	LONG $0x0c7f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm1
+
+LBB3_780:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_781
+
+LBB3_785:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_786:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_788
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd8fb0f66               // psubq    xmm3, xmm0
+	LONG $0xd1fb0f66               // psubq    xmm2, xmm1
+	LONG $0x1c7f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm3
+	LONG $0x547f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm2
+
+LBB3_788:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_789
+
+LBB3_793:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_794:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_796
+	LONG $0x04100f66; BYTE $0xba   // movupd    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c100f66; WORD $0x10ba // movupd    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x55280f66; BYTE $0x60   // movapd    xmm2, oword 96[rbp] /* [rip + .LCPI3_7] */
+	LONG $0xc2570f66               // xorpd    xmm0, xmm2
+	LONG $0xca570f66               // xorpd    xmm1, xmm2
+	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
+
+LBB3_796:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_797
+
+LBB3_803:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_804:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_806
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd8fb0f66               // psubq    xmm3, xmm0
+	LONG $0xd1fb0f66               // psubq    xmm2, xmm1
+	LONG $0x1c7f0ff3; BYTE $0xf9   // movdqu    oword [rcx + 8*rdi], xmm3
+	LONG $0x547f0ff3; WORD $0x10f9 // movdqu    oword [rcx + 8*rdi + 16], xmm2
+
+LBB3_806:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_807
+
+LBB3_811:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_812:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_814
+	LONG $0x04100f66; BYTE $0xba   // movupd    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c100f66; WORD $0x10ba // movupd    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x55280f66; BYTE $0x60   // movapd    xmm2, oword 96[rbp] /* [rip + .LCPI3_7] */
+	LONG $0xc2570f66               // xorpd    xmm0, xmm2
+	LONG $0xca570f66               // xorpd    xmm1, xmm2
+	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
+
+LBB3_814:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_815
+
+LBB3_821:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_822:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_824
+	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x30   // movdqa    xmm4, oword 48[rbp] /* [rip + .LCPI3_4] */
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0x37380f66; BYTE $0xc1   // pcmpgtq    xmm0, xmm1
+	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
+	LONG $0x29380f66; BYTE $0xeb   // pcmpeqq    xmm5, xmm3
+	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
+	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
+	LONG $0x29380f66; BYTE $0xda   // pcmpeqq    xmm3, xmm2
+	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
+	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
+	LONG $0x15380f66; BYTE $0xd5   // blendvpd    xmm2, xmm5, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xe3   // blendvpd    xmm4, xmm3, xmm0
+	LONG $0x14110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm2
+	LONG $0x64110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm4
+
+LBB3_824:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_825
+
+LBB3_830:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_831:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_833
+	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
+	LONG $0xe1fb0f66               // psubq    xmm4, xmm1
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xcc   // blendvpd    xmm1, xmm4, xmm0
+	LONG $0xdafb0f66               // psubq    xmm3, xmm2
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
+	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
+	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
+
+LBB3_833:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_834
+
+LBB3_838:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_839:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_841
+	LONG $0x04100f66; BYTE $0xba   // movupd    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c100f66; WORD $0x10ba // movupd    xmm1, oword [rdx + 4*rdi + 16]
+	QUAD $0x0000008095280f66       // movapd    xmm2, oword 128[rbp] /* [rip + .LCPI3_9] */
+	LONG $0xc2540f66               // andpd    xmm0, xmm2
+	LONG $0xca540f66               // andpd    xmm1, xmm2
+	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
+
+LBB3_841:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_842
+
+LBB3_848:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_849:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_851
+	LONG $0x0c6f0ff3; BYTE $0xfa   // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
+	LONG $0xe1fb0f66               // psubq    xmm4, xmm1
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xcc   // blendvpd    xmm1, xmm4, xmm0
+	LONG $0xdafb0f66               // psubq    xmm3, xmm2
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0x15380f66; BYTE $0xd3   // blendvpd    xmm2, xmm3, xmm0
+	LONG $0x0c110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm1
+	LONG $0x54110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm2
+
+LBB3_851:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_852
+
+LBB3_856:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_857:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_859
+	LONG $0x04100f66; BYTE $0xba   // movupd    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c100f66; WORD $0x10ba // movupd    xmm1, oword [rdx + 4*rdi + 16]
+	QUAD $0x0000008095280f66       // movapd    xmm2, oword 128[rbp] /* [rip + .LCPI3_9] */
+	LONG $0xc2540f66               // andpd    xmm0, xmm2
+	LONG $0xca540f66               // andpd    xmm1, xmm2
+	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
+
+LBB3_859:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_860
+
+LBB3_866:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_867:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_869
+	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd8f80f66               // psubb    xmm3, xmm0
+	LONG $0xd1f80f66               // psubb    xmm2, xmm1
+	LONG $0x1c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm3
+	LONG $0x547f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm2
+
+LBB3_869:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_870
+
+LBB3_874:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_875:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_877
+	LONG $0x046f0ff3; BYTE $0x3a   // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xc2740f66               // pcmpeqb    xmm0, xmm2
+	LONG $0x5d6f0f66; BYTE $0x50   // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI3_6] */
+	LONG $0xc3df0f66               // pandn    xmm0, xmm3
+	LONG $0xca740f66               // pcmpeqb    xmm1, xmm2
+	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
+	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
+
+LBB3_877:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_878
+
+LBB3_882:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_883:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_885
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd8fa0f66               // psubd    xmm3, xmm0
+	LONG $0xd1fa0f66               // psubd    xmm2, xmm1
+	LONG $0x1c7f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm3
+	LONG $0x547f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm2
+
+LBB3_885:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_886
+
+LBB3_890:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_891:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_893
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0xd8fa0f66               // psubd    xmm3, xmm0
+	LONG $0xd1fa0f66               // psubd    xmm2, xmm1
+	LONG $0x1c7f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm3
+	LONG $0x547f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm2
+
+LBB3_893:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_894
+
+LBB3_898:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_899:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_901
+	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x20   // movdqa    xmm4, oword 32[rbp] /* [rip + .LCPI3_3] */
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc1660f66               // pcmpgtd    xmm0, xmm1
+	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
+	LONG $0xeb760f66               // pcmpeqd    xmm5, xmm3
+	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
+	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
+	LONG $0xda760f66               // pcmpeqd    xmm3, xmm2
+	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
+	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
+	LONG $0x14380f66; BYTE $0xd5   // blendvps    xmm2, xmm5, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xe3   // blendvps    xmm4, xmm3, xmm0
+	LONG $0xb914110f               // movups    oword [rcx + 4*rdi], xmm2
+	LONG $0xb964110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm4
+
+LBB3_901:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_902
+
+LBB3_907:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_908:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_910
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
+	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
+	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
+
+LBB3_910:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_911
+
+LBB3_915:
+	WORD $0xff31 // xor    edi, edi
+
+LBB3_916:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB3_918
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x1e380f66; BYTE $0xc0   // pabsd    xmm0, xmm0
+	LONG $0x1e380f66; BYTE $0xc9   // pabsd    xmm1, xmm1
+	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm1
+
+LBB3_918:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB3_923
+	JMP  LBB3_919
+
+DATA LCDATA5<>+0x000(SB)/8, $0x8000000000000000
+DATA LCDATA5<>+0x008(SB)/8, $0x8000000000000000
+DATA LCDATA5<>+0x010(SB)/8, $0x3ff0000000000000
+DATA LCDATA5<>+0x018(SB)/8, $0x3ff0000000000000
+DATA LCDATA5<>+0x020(SB)/8, $0x7fffffff7fffffff
+DATA LCDATA5<>+0x028(SB)/8, $0x7fffffff7fffffff
+DATA LCDATA5<>+0x030(SB)/8, $0x8000000080000000
+DATA LCDATA5<>+0x038(SB)/8, $0x8000000080000000
+DATA LCDATA5<>+0x040(SB)/8, $0x0000000000000400
+DATA LCDATA5<>+0x048(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x050(SB)/8, $0x0000000100000001
+DATA LCDATA5<>+0x058(SB)/8, $0x0000000100000001
+DATA LCDATA5<>+0x060(SB)/8, $0x4f0000004f000000
+DATA LCDATA5<>+0x068(SB)/8, $0x4f0000004f000000
+DATA LCDATA5<>+0x070(SB)/8, $0x0001000100010001
+DATA LCDATA5<>+0x078(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x080(SB)/8, $0x0000000001010101
+DATA LCDATA5<>+0x088(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x090(SB)/8, $0x0000000000000001
+DATA LCDATA5<>+0x098(SB)/8, $0x0000000000000001
+DATA LCDATA5<>+0x0a0(SB)/8, $0x0000000100000001
+DATA LCDATA5<>+0x0a8(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x0b0(SB)/8, $0x0000000000010001
+DATA LCDATA5<>+0x0b8(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x0c0(SB)/8, $0x0000000000000101
+DATA LCDATA5<>+0x0c8(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x0d0(SB)/8, $0x3f8000003f800000
+DATA LCDATA5<>+0x0d8(SB)/8, $0x3f8000003f800000
+DATA LCDATA5<>+0x0e0(SB)/8, $0x0001000100010001
+DATA LCDATA5<>+0x0e8(SB)/8, $0x0001000100010001
+DATA LCDATA5<>+0x0f0(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x0f8(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x100(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x108(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x110(SB)/8, $0x3ff0000000000000
+DATA LCDATA5<>+0x118(SB)/8, $0x43e0000000000000
+DATA LCDATA5<>+0x120(SB)/8, $0xbff0000000000000
+DATA LCDATA5<>+0x128(SB)/8, $0x5f0000003f800000
+DATA LCDATA5<>+0x130(SB)/8, $0x00000000bf800000
+GLOBL LCDATA5<>(SB), 8, $312
+
+TEXT ·_arithmetic_unary_diff_type_sse4(SB), $0-48
+
+	MOVQ itype+0(FP), DI
+	MOVQ otype+8(FP), SI
+	MOVQ op+16(FP), DX
+	MOVQ input+24(FP), CX
+	MOVQ output+32(FP), R8
+	MOVQ len+40(FP), R9
+	LEAQ LCDATA5<>(SB), BP
+
+	WORD $0xfa80; BYTE $0x14 // cmp    dl, 20
+	JNE  LBB4_1655
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB4_14
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB4_26
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB4_46
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB4_54
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB4_1655
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_94
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_200
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_303
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_306
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_13
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_496
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_496
+
+LBB4_13:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1232:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1234
+
+LBB4_1233:
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01c28348         // add    rdx, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB4_1233
+
+LBB4_1234:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1235:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x04917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 4], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90448941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x08917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 8], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90448941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0c917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 12], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90448941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], eax
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1235
+	JMP  LBB4_1655
+
+LBB4_14:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB4_36
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB4_62
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB4_70
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB4_1655
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_106
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_205
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_309
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_312
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_499
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB4_1110
+
+LBB4_26:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB4_78
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB4_1655
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_113
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_210
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_315
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_318
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_35
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_504
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_504
+
+LBB4_35:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1240:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1242
+	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
+	WORD $0x4e0f; BYTE $0xc7     // cmovle    eax, edi
+	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1242:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1655
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1244:
+	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0xc084                 // test    al, al
+	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
+	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
+	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0xc084                 // test    al, al
+	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
+	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1244
+	JMP  LBB4_1655
+
+LBB4_36:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB4_86
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB4_1655
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_123
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_215
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_321
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_324
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_507
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_998
+
+LBB4_46:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_135
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_220
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_327
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_330
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_510
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1116
+
+LBB4_54:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_147
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_225
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_333
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_336
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_513
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1121
+
+LBB4_62:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_157
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_230
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_339
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_342
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_516
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1127
+
+LBB4_70:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_167
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_235
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_345
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_348
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_519
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1133
+
+LBB4_78:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_178
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_240
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_351
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_354
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_85
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_524
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_524
+
+LBB4_85:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1249:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1251
+
+LBB4_1250:
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01c28348         // add    rdx, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB4_1250
+
+LBB4_1251:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1252:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90448941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90448941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90448941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], eax
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1252
+	JMP  LBB4_1655
+
+LBB4_86:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB4_190
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB4_245
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB4_357
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB4_360
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_93
+	LONG $0x99148d4a         // lea    rdx, [rcx + 4*r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_529
+	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_529
+
+LBB4_93:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1257:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1259
+	LONG $0x910c8b44             // mov    r9d, dword [rcx + 4*rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1259:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1655
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1261:
+	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
+	LONG $0x0491448b             // mov    eax, dword [rcx + 4*rdx + 4]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc085                 // test    eax, eax
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0xc085                 // test    eax, eax
+	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
+	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
+	JNE  LBB4_1261
+	JMP  LBB4_1655
+
+LBB4_94:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_250
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_363
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_366
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	LONG $0xff728d48         // lea    rsi, [rdx - 1]
+	WORD $0xd089             // mov    eax, edx
+	WORD $0xe083; BYTE $0x03 // and    eax, 3
+	LONG $0x03fe8348         // cmp    rsi, 3
+	JAE  LBB4_532
+	WORD $0xf631             // xor    esi, esi
+
+LBB4_101:
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB4_1655
+	LONG $0xf0148d49         // lea    rdx, [r8 + 8*rsi]
+	LONG $0xb10c8d48         // lea    rcx, [rcx + 4*rsi]
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
+	JMP  LBB4_104
+
+LBB4_103:
+	LONG $0x0c110ff2; BYTE $0xf2 // movsd    qword [rdx + 8*rsi], xmm1
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JE   LBB4_1655
+
+LBB4_104:
+	LONG $0x00b13c83 // cmp    dword [rcx + 4*rsi], 0
+	LONG $0xc8280f66 // movapd    xmm1, xmm0
+	JNE  LBB4_103
+	LONG $0xc9570f66 // xorpd    xmm1, xmm1
+	JMP  LBB4_103
+
+LBB4_106:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_255
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_369
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_372
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_112
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_544
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_544
+
+LBB4_112:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1266:
+	WORD $0x8948; BYTE $0xd6       // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6       // not    rsi
+	WORD $0x01a8                   // test    al, 1
+	JE   LBB4_1268
+	LONG $0x04100ff2; BYTE $0xd1   // movsd    xmm0, qword [rcx + 8*rdx]
+	LONG $0x4d280f66; BYTE $0x00   // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xc8540f66               // andpd    xmm1, xmm0
+	QUAD $0x0000011095100ff2       // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
+	LONG $0xd1560f66               // orpd    xmm2, xmm1
+	LONG $0xc9570f66               // xorpd    xmm1, xmm1
+	LONG $0xc8c20ff2; BYTE $0x00   // cmpeqsd    xmm1, xmm0
+	LONG $0xca550f66               // andnpd    xmm1, xmm2
+	LONG $0x130f4166; WORD $0xd00c // movlpd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01ca8348               // or    rdx, 1
+
+LBB4_1268:
+	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
+	JE   LBB4_1655
+	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI4_0] */
+	QUAD $0x000001108d100ff2     // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
+	LONG $0xd2570f66             // xorpd    xmm2, xmm2
+
+LBB4_1270:
+	LONG $0x1c100ff2; BYTE $0xd1               // movsd    xmm3, qword [rcx + 8*rdx]
+	LONG $0xe3280f66                           // movapd    xmm4, xmm3
+	LONG $0xe0540f66                           // andpd    xmm4, xmm0
+	LONG $0xe1560f66                           // orpd    xmm4, xmm1
+	LONG $0xdac20ff2; BYTE $0x00               // cmpeqsd    xmm3, xmm2
+	LONG $0xdc550f66                           // andnpd    xmm3, xmm4
+	LONG $0x130f4166; WORD $0xd01c             // movlpd    qword [r8 + 8*rdx], xmm3
+	LONG $0x5c100ff2; WORD $0x08d1             // movsd    xmm3, qword [rcx + 8*rdx + 8]
+	LONG $0xe3280f66                           // movapd    xmm4, xmm3
+	LONG $0xe0540f66                           // andpd    xmm4, xmm0
+	LONG $0xe1560f66                           // orpd    xmm4, xmm1
+	LONG $0xdac20ff2; BYTE $0x00               // cmpeqsd    xmm3, xmm2
+	LONG $0xdc550f66                           // andnpd    xmm3, xmm4
+	LONG $0x130f4166; WORD $0xd05c; BYTE $0x08 // movlpd    qword [r8 + 8*rdx + 8], xmm3
+	LONG $0x02c28348                           // add    rdx, 2
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB4_1270
+	JMP  LBB4_1655
+
+LBB4_113:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_260
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_375
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_378
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	LONG $0x01f98341         // cmp    r9d, 1
+	JNE  LBB4_547
+	WORD $0xc031             // xor    eax, eax
+
+LBB4_120:
+	WORD $0xc2f6; BYTE $0x01 // test    dl, 1
+	JE   LBB4_1655
+	LONG $0x00013c80         // cmp    byte [rcx + rax], 0
+	JNE  LBB4_982
+
+LBB4_122:
+	LONG $0xc0570f66 // xorpd    xmm0, xmm0
+	JMP  LBB4_983
+
+LBB4_123:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_265
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_381
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_384
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	LONG $0xff728d48         // lea    rsi, [rdx - 1]
+	WORD $0xd089             // mov    eax, edx
+	WORD $0xe083; BYTE $0x03 // and    eax, 3
+	LONG $0x03fe8348         // cmp    rsi, 3
+	JAE  LBB4_557
+	WORD $0xf631             // xor    esi, esi
+
+LBB4_130:
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB4_1655
+	LONG $0xf0148d49         // lea    rdx, [r8 + 8*rsi]
+	LONG $0xf10c8d48         // lea    rcx, [rcx + 8*rsi]
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
+	JMP  LBB4_133
+
+LBB4_132:
+	LONG $0x0c110ff2; BYTE $0xf2 // movsd    qword [rdx + 8*rsi], xmm1
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JE   LBB4_1655
+
+LBB4_133:
+	LONG $0xf13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rsi], 0
+	LONG $0xc8280f66             // movapd    xmm1, xmm0
+	JNE  LBB4_132
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	JMP  LBB4_132
+
+LBB4_135:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_270
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_392
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_395
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	LONG $0xff728d48         // lea    rsi, [rdx - 1]
+	WORD $0xd089             // mov    eax, edx
+	WORD $0xe083; BYTE $0x03 // and    eax, 3
+	LONG $0x03fe8348         // cmp    rsi, 3
+	JAE  LBB4_567
+	WORD $0xf631             // xor    esi, esi
+
+LBB4_142:
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB4_1655
+	LONG $0xf0148d49         // lea    rdx, [r8 + 8*rsi]
+	LONG $0x710c8d48         // lea    rcx, [rcx + 2*rsi]
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
+	JMP  LBB4_145
+
+LBB4_144:
+	LONG $0x0c110ff2; BYTE $0xf2 // movsd    qword [rdx + 8*rsi], xmm1
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JE   LBB4_1655
+
+LBB4_145:
+	LONG $0x713c8366; BYTE $0x00 // cmp    word [rcx + 2*rsi], 0
+	LONG $0xc8280f66             // movapd    xmm1, xmm0
+	JNE  LBB4_144
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	JMP  LBB4_144
+
+LBB4_147:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_275
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_398
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_401
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	LONG $0x01f98341         // cmp    r9d, 1
+	JNE  LBB4_577
+	WORD $0xc031             // xor    eax, eax
+
+LBB4_154:
+	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
+	JE   LBB4_1655
+	LONG $0x413c8366; BYTE $0x00 // cmp    word [rcx + 2*rax], 0
+	JE   LBB4_122
+
+LBB4_982:
+	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
+
+LBB4_983:
+	JLE  LBB4_985
+	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
+
+LBB4_985:
+	LONG $0x110f41f2; WORD $0xc004 // movsd    qword [r8 + 8*rax], xmm0
+	JMP  LBB4_1655
+
+LBB4_157:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_280
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_404
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_407
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	LONG $0x01f98341         // cmp    r9d, 1
+	JNE  LBB4_587
+	WORD $0xc031             // xor    eax, eax
+
+LBB4_164:
+	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
+	JE   LBB4_1655
+	LONG $0xc13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rax], 0
+	JE   LBB4_122
+	JMP  LBB4_982
+
+LBB4_167:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_285
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_413
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_419
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	LONG $0x01f98341         // cmp    r9d, 1
+	JNE  LBB4_597
+	WORD $0xc031             // xor    eax, eax
+
+LBB4_174:
+	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
+	JE   LBB4_1655
+	LONG $0x0c100ff3; BYTE $0x81 // movss    xmm1, dword [rcx + 4*rax]
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
+	WORD $0x2e0f; BYTE $0xd1     // ucomiss    xmm2, xmm1
+	JE   LBB4_177
+	WORD $0x500f; BYTE $0xc9     // movmskps    ecx, xmm1
+	WORD $0xe183; BYTE $0x01     // and    ecx, 1
+	WORD $0xd9f7                 // neg    ecx
+	WORD $0xc983; BYTE $0x01     // or    ecx, 1
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0xc12a0ff3             // cvtsi2ss    xmm0, ecx
+	LONG $0xc05a0ff3             // cvtss2sd    xmm0, xmm0
+
+LBB4_177:
+	LONG $0x110f41f2; WORD $0xc004 // movsd    qword [r8 + 8*rax], xmm0
+	JMP  LBB4_1655
+
+LBB4_178:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_293
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_422
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_425
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	LONG $0xff728d48         // lea    rsi, [rdx - 1]
+	WORD $0xd089             // mov    eax, edx
+	WORD $0xe083; BYTE $0x03 // and    eax, 3
+	LONG $0x03fe8348         // cmp    rsi, 3
+	JAE  LBB4_603
+	WORD $0xf631             // xor    esi, esi
+
+LBB4_185:
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB4_1655
+	LONG $0xf0148d49         // lea    rdx, [r8 + 8*rsi]
+	WORD $0x0148; BYTE $0xf1 // add    rcx, rsi
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
+	JMP  LBB4_188
+
+LBB4_187:
+	LONG $0x0c110ff2; BYTE $0xf2 // movsd    qword [rdx + 8*rsi], xmm1
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JE   LBB4_1655
+
+LBB4_188:
+	LONG $0x00313c80 // cmp    byte [rcx + rsi], 0
+	LONG $0xc8280f66 // movapd    xmm1, xmm0
+	JNE  LBB4_187
+	LONG $0xc9570f66 // xorpd    xmm1, xmm1
+	JMP  LBB4_187
+
+LBB4_190:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB4_298
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB4_428
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB4_431
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	LONG $0x01f98341         // cmp    r9d, 1
+	JNE  LBB4_613
+	WORD $0xc031             // xor    eax, eax
+
+LBB4_197:
+	WORD $0xc2f6; BYTE $0x01 // test    dl, 1
+	JE   LBB4_1655
+	LONG $0x00813c83         // cmp    dword [rcx + 4*rax], 0
+	JE   LBB4_122
+	JMP  LBB4_982
+
+LBB4_200:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_434
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_204
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_625
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_625
+
+LBB4_204:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1275:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1277
+
+LBB4_1276:
+	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1276
+
+LBB4_1277:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1278:
+	LONG $0x00913c83               // cmp    dword [rcx + 4*rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0x04917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 4], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0x08917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 8], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0x0c917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 12], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1278
+	JMP  LBB4_1655
+
+LBB4_205:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_437
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_209
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_630
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_630
+
+LBB4_209:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1283:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	WORD $0x01a8                 // test    al, 1
+	JE   LBB4_1285
+	LONG $0x04100ff2; BYTE $0xd1 // movsd    xmm0, qword [rcx + 8*rdx]
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0xc82e0f66             // ucomisd    xmm1, xmm0
+	LONG $0x45540f66; BYTE $0x00 // andpd    xmm0, oword 0[rbp] /* [rip + .LCPI4_0] */
+	QUAD $0x000001108d100ff2     // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
+	LONG $0xc8560f66             // orpd    xmm1, xmm0
+	LONG $0xf92c0ff2             // cvttsd2si    edi, xmm1
+	LONG $0xf9440f41             // cmove    edi, r9d
+	LONG $0x103c8841             // mov    byte [r8 + rdx], dil
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1285:
+	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
+	JE   LBB4_1655
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0570f66             // xorpd    xmm0, xmm0
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
+
+LBB4_1287:
+	LONG $0x1c100ff2; BYTE $0xd1   // movsd    xmm3, qword [rcx + 8*rdx]
+	LONG $0xc32e0f66               // ucomisd    xmm0, xmm3
+	LONG $0xd9540f66               // andpd    xmm3, xmm1
+	LONG $0xda560f66               // orpd    xmm3, xmm2
+	LONG $0xfb2c0ff2               // cvttsd2si    edi, xmm3
+	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
+	LONG $0x103c8841               // mov    byte [r8 + rdx], dil
+	LONG $0x5c100ff2; WORD $0x08d1 // movsd    xmm3, qword [rcx + 8*rdx + 8]
+	LONG $0xc32e0f66               // ucomisd    xmm0, xmm3
+	LONG $0xd9540f66               // andpd    xmm3, xmm1
+	LONG $0xda560f66               // orpd    xmm3, xmm2
+	LONG $0xfb2c0ff2               // cvttsd2si    edi, xmm3
+	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
+	LONG $0x107c8841; BYTE $0x01   // mov    byte [r8 + rdx + 1], dil
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1287
+	JMP  LBB4_1655
+
+LBB4_210:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_440
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_214
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_635
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_635
+
+LBB4_214:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1292:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1294
+	LONG $0x313c8a40             // mov    dil, byte [rcx + rsi]
+	WORD $0x8440; BYTE $0xff     // test    dil, dil
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x8440; BYTE $0xff     // test    dil, dil
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB4_1294:
+	WORD $0x014c; BYTE $0xd0     // add    rax, r10
+	JE   LBB4_1655
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+
+LBB4_1296:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0xc084                 // test    al, al
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xc084                 // test    al, al
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	WORD $0xc084                 // test    al, al
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xc084                 // test    al, al
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB4_1296
+	JMP  LBB4_1655
+
+LBB4_215:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_443
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_219
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_640
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_640
+
+LBB4_219:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1301:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1303
+
+LBB4_1302:
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1302
+
+LBB4_1303:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1304:
+	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1304
+	JMP  LBB4_1655
+
+LBB4_220:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_446
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_224
+	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_645
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_645
+
+LBB4_224:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1309:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1311
+
+LBB4_1310:
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1310
+
+LBB4_1311:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1312:
+	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1312
+	JMP  LBB4_1655
+
+LBB4_225:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_449
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_229
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_650
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_650
+
+LBB4_229:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1317:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1319
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB4_1319:
+	WORD $0x014c; BYTE $0xd0       // add    rax, r10
+	JE   LBB4_1655
+	LONG $0x0001b941; WORD $0x0000 // mov    r9d, 1
+
+LBB4_1321:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
+	LONG $0xc14f0f41             // cmovg    eax, r9d
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x7144b70f; BYTE $0x02 // movzx    eax, word [rcx + 2*rsi + 2]
+	WORD $0x8566; BYTE $0xc0     // test    ax, ax
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8566; BYTE $0xc0     // test    ax, ax
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	LONG $0xc14f0f41             // cmovg    eax, r9d
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB4_1321
+	JMP  LBB4_1655
+
+LBB4_230:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_452
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_234
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_655
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_655
+
+LBB4_234:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1326:
+	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2     // not    rdx
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1328
+	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0x4e0f; BYTE $0xf8     // cmovle    edi, eax
+	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB4_1328:
+	WORD $0x014c; BYTE $0xd2     // add    rdx, r10
+	JE   LBB4_1655
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+
+LBB4_1330:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB4_1330
+	JMP  LBB4_1655
+
+LBB4_235:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_455
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_239
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_660
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_660
+
+LBB4_239:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1335:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1337
+	LONG $0x046e0f66; BYTE $0x91 // movd    xmm0, dword [rcx + 4*rdx]
+	LONG $0xc77e0f66             // movd    edi, xmm0
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x990f; BYTE $0xd0     // setns    al
+	WORD $0xc000                 // add    al, al
+	WORD $0xff04                 // add    al, -1
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	WORD $0x2e0f; BYTE $0xc8     // ucomiss    xmm1, xmm0
+	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
+	WORD $0x440f; BYTE $0xc7     // cmove    eax, edi
+	LONG $0x10048841             // mov    byte [r8 + rdx], al
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1337:
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	JE   LBB4_1655
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
+
+LBB4_1339:
+	LONG $0x0c6e0f66; BYTE $0x91   // movd    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc87e0f66               // movd    eax, xmm1
+	WORD $0xc085                   // test    eax, eax
+	WORD $0x990f; BYTE $0xd0       // setns    al
+	WORD $0xc000                   // add    al, al
+	WORD $0xff04                   // add    al, -1
+	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
+	LONG $0x10048841               // mov    byte [r8 + rdx], al
+	LONG $0x4c6e0f66; WORD $0x0491 // movd    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0xc87e0f66               // movd    eax, xmm1
+	WORD $0xc085                   // test    eax, eax
+	WORD $0x990f; BYTE $0xd0       // setns    al
+	WORD $0xc000                   // add    al, al
+	WORD $0xff04                   // add    al, -1
+	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
+	LONG $0x10448841; BYTE $0x01   // mov    byte [r8 + rdx + 1], al
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
+	JNE  LBB4_1339
+	JMP  LBB4_1655
+
+LBB4_240:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_458
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_244
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_665
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_665
+
+LBB4_244:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1344:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1346
+
+LBB4_1345:
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1345
+
+LBB4_1346:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1347:
+	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1347
+	JMP  LBB4_1655
+
+LBB4_245:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB4_461
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_249
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_670
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_670
+
+LBB4_249:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1352:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1354
+	WORD $0x3c8b; BYTE $0xb1     // mov    edi, dword [rcx + 4*rsi]
+	WORD $0xff85                 // test    edi, edi
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0xff85                 // test    edi, edi
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB4_1354:
+	WORD $0x014c; BYTE $0xd0       // add    rax, r10
+	JE   LBB4_1655
+	LONG $0x0001b941; WORD $0x0000 // mov    r9d, 1
+
+LBB4_1356:
+	WORD $0x3c8b; BYTE $0xb1     // mov    edi, dword [rcx + 4*rsi]
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xff85                 // test    edi, edi
+	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
+	LONG $0xc14f0f41             // cmovg    eax, r9d
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	WORD $0xc085                 // test    eax, eax
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xc085                 // test    eax, eax
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	LONG $0xc14f0f41             // cmovg    eax, r9d
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB4_1356
+	JMP  LBB4_1655
+
+LBB4_250:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_464
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_673
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1003
+
+LBB4_255:
+	WORD $0xfe83; BYTE $0x07               // cmp    esi, 7
+	JE   LBB4_467
+	WORD $0xfe83; BYTE $0x08               // cmp    esi, 8
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9               // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca               // mov    r10d, r9d
+	QUAD $0x000000000000bb49; WORD $0x8000 // mov    r11, -9223372036854775808
+	LONG $0x01f98341                       // cmp    r9d, 1
+	JNE  LBB4_676
+	WORD $0xf631                           // xor    esi, esi
+	JMP  LBB4_1008
+
+LBB4_260:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_470
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_264
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_681
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_681
+
+LBB4_264:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1361:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1363
+	WORD $0x048a; BYTE $0x11     // mov    al, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xc084                 // test    al, al
+	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
+	LONG $0xc74e0f48             // cmovle    rax, rdi
+	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1363:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1655
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1365:
+	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xc084                 // test    al, al
+	LONG $0xfe4f0f48             // cmovg    rdi, rsi
+	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
+	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xc084                 // test    al, al
+	LONG $0xfe4f0f48             // cmovg    rdi, rsi
+	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1365
+	JMP  LBB4_1655
+
+LBB4_265:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_473
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_269
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_686
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_686
+
+LBB4_269:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1370:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1372
+
+LBB4_1371:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1371
+
+LBB4_1372:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1373:
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xd0048949               // mov    qword [r8 + 8*rdx], rax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xd0448949; BYTE $0x08   // mov    qword [r8 + 8*rdx + 8], rax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xd0448949; BYTE $0x10   // mov    qword [r8 + 8*rdx + 16], rax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xd0448949; BYTE $0x18   // mov    qword [r8 + 8*rdx + 24], rax
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
+	JNE  LBB4_1373
+	JMP  LBB4_1655
+
+LBB4_270:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_476
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_689
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1014
+
+LBB4_275:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_479
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_692
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1019
+
+LBB4_280:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_482
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_284
+	LONG $0xd9148d4a         // lea    rdx, [rcx + 8*r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_697
+	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_697
+
+LBB4_284:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1378:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1380
+	LONG $0xd10c8b4c             // mov    r9, qword [rcx + 8*rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf749; BYTE $0xda     // neg    r10
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f49             // cmovle    rdi, r10
+	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1380:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1655
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1382:
+	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	LONG $0xc64f0f48             // cmovg    rax, rsi
+	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
+	LONG $0xd1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rdx + 8]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xfe4f0f48             // cmovg    rdi, rsi
+	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
+	JNE  LBB4_1382
+	JMP  LBB4_1655
+
+LBB4_285:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_485
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x01f98341         // cmp    r9d, 1
+	JNE  LBB4_700
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB4_290
+
+LBB4_293:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_488
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_297
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_710
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_710
+
+LBB4_297:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1387:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1389
+
+LBB4_1388:
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01c28348         // add    rdx, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB4_1388
+
+LBB4_1389:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1390:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0xd0448949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0xd0448949; BYTE $0x10 // mov    qword [r8 + 8*rdx + 16], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0xd0448949; BYTE $0x18 // mov    qword [r8 + 8*rdx + 24], rax
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1390
+	JMP  LBB4_1655
+
+LBB4_298:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB4_491
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB4_1655
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_713
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1025
+
+LBB4_303:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_716
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1141
+
+LBB4_306:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_719
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1146
+
+LBB4_309:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_722
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB4_1151
+
+LBB4_312:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_725
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB4_1157
+
+LBB4_315:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_317
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_730
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_730
+
+LBB4_317:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1395:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1397
+	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
+	WORD $0x4e0f; BYTE $0xc7     // cmovle    eax, edi
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1397:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1655
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1399:
+	LONG $0x1104b60f               // movzx    eax, byte [rcx + rdx]
+	WORD $0xff31                   // xor    edi, edi
+	WORD $0xc084                   // test    al, al
+	LONG $0xd7950f40               // setne    dil
+	WORD $0xdff7                   // neg    edi
+	WORD $0xc084                   // test    al, al
+	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
+	LONG $0x3c894166; BYTE $0x50   // mov    word [r8 + 2*rdx], di
+	LONG $0x1144b60f; BYTE $0x01   // movzx    eax, byte [rcx + rdx + 1]
+	WORD $0xff31                   // xor    edi, edi
+	WORD $0xc084                   // test    al, al
+	LONG $0xd7950f40               // setne    dil
+	WORD $0xdff7                   // neg    edi
+	WORD $0xc084                   // test    al, al
+	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
+	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
+	JNE  LBB4_1399
+	JMP  LBB4_1655
+
+LBB4_318:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_320
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_735
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_735
+
+LBB4_320:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1404:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1406
+	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
+	WORD $0x4e0f; BYTE $0xc7     // cmovle    eax, edi
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1406:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1655
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1408:
+	LONG $0x1104b60f               // movzx    eax, byte [rcx + rdx]
+	WORD $0xff31                   // xor    edi, edi
+	WORD $0xc084                   // test    al, al
+	LONG $0xd7950f40               // setne    dil
+	WORD $0xdff7                   // neg    edi
+	WORD $0xc084                   // test    al, al
+	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
+	LONG $0x3c894166; BYTE $0x50   // mov    word [r8 + 2*rdx], di
+	LONG $0x1144b60f; BYTE $0x01   // movzx    eax, byte [rcx + rdx + 1]
+	WORD $0xff31                   // xor    edi, edi
+	WORD $0xc084                   // test    al, al
+	LONG $0xd7950f40               // setne    dil
+	WORD $0xdff7                   // neg    edi
+	WORD $0xc084                   // test    al, al
+	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
+	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
+	JNE  LBB4_1408
+	JMP  LBB4_1655
+
+LBB4_321:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_738
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1031
+
+LBB4_324:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_741
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1036
+
+LBB4_327:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_329
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_746
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_746
+
+LBB4_329:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1413:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1415
+
+LBB4_1414:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1414
+
+LBB4_1415:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1416:
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x44894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x44894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x44894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], ax
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
+	JNE  LBB4_1416
+	JMP  LBB4_1655
+
+LBB4_330:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_332
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_751
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_751
+
+LBB4_332:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1421:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1423
+
+LBB4_1422:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1422
+
+LBB4_1423:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1424:
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x44894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x44894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x44894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], ax
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
+	JNE  LBB4_1424
+	JMP  LBB4_1655
+
+LBB4_333:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_335
+	LONG $0x59148d4a         // lea    rdx, [rcx + 2*r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_756
+	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_756
+
+LBB4_335:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1429:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1431
+	LONG $0x0cb70f44; BYTE $0x51 // movzx    r9d, word [rcx + 2*rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	LONG $0xc9854566             // test    r9w, r9w
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	LONG $0xc9854566             // test    r9w, r9w
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1431:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1655
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1433:
+	LONG $0x513cb70f               // movzx    edi, word [rcx + 2*rdx]
+	WORD $0xc031                   // xor    eax, eax
+	WORD $0x8566; BYTE $0xff       // test    di, di
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f7                   // neg    eax
+	WORD $0x8566; BYTE $0xff       // test    di, di
+	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
+	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
+	LONG $0x5144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rdx + 2]
+	WORD $0xff31                   // xor    edi, edi
+	WORD $0x8566; BYTE $0xc0       // test    ax, ax
+	LONG $0xd7950f40               // setne    dil
+	WORD $0xdff7                   // neg    edi
+	WORD $0x8566; BYTE $0xc0       // test    ax, ax
+	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
+	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
+	JNE  LBB4_1433
+	JMP  LBB4_1655
+
+LBB4_336:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_338
+	LONG $0x59148d4a         // lea    rdx, [rcx + 2*r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_761
+	LONG $0x58148d4b         // lea    rdx, [r8 + 2*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_761
+
+LBB4_338:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1438:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1440
+	LONG $0x0cb70f44; BYTE $0x51 // movzx    r9d, word [rcx + 2*rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	LONG $0xc9854566             // test    r9w, r9w
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	LONG $0xc9854566             // test    r9w, r9w
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x3c894166; BYTE $0x50 // mov    word [r8 + 2*rdx], di
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1440:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1655
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1442:
+	LONG $0x513cb70f               // movzx    edi, word [rcx + 2*rdx]
+	WORD $0xc031                   // xor    eax, eax
+	WORD $0x8566; BYTE $0xff       // test    di, di
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f7                   // neg    eax
+	WORD $0x8566; BYTE $0xff       // test    di, di
+	WORD $0x4f0f; BYTE $0xc6       // cmovg    eax, esi
+	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
+	LONG $0x5144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rdx + 2]
+	WORD $0xff31                   // xor    edi, edi
+	WORD $0x8566; BYTE $0xc0       // test    ax, ax
+	LONG $0xd7950f40               // setne    dil
+	WORD $0xdff7                   // neg    edi
+	WORD $0x8566; BYTE $0xc0       // test    ax, ax
+	WORD $0x4f0f; BYTE $0xfe       // cmovg    edi, esi
+	LONG $0x7c894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], di
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3       // cmp    r11, rdx
+	JNE  LBB4_1442
+	JMP  LBB4_1655
+
+LBB4_339:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_764
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1041
+
+LBB4_342:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_767
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1163
+
+LBB4_345:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_770
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB4_1169
+
+LBB4_348:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_773
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB4_1175
+
+LBB4_351:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_353
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_778
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_778
+
+LBB4_353:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1447:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1449
+
+LBB4_1448:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1448
+
+LBB4_1449:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1450:
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x44894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x44894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x44894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], ax
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
+	JNE  LBB4_1450
+	JMP  LBB4_1655
+
+LBB4_354:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_356
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_783
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_783
+
+LBB4_356:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1455:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1457
+
+LBB4_1456:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1456
+
+LBB4_1457:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1458:
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x04894166; BYTE $0x50   // mov    word [r8 + 2*rdx], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x44894166; WORD $0x0250 // mov    word [r8 + 2*rdx + 2], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x44894166; WORD $0x0450 // mov    word [r8 + 2*rdx + 4], ax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0x44894166; WORD $0x0650 // mov    word [r8 + 2*rdx + 6], ax
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
+	JNE  LBB4_1458
+	JMP  LBB4_1655
+
+LBB4_357:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_786
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1047
+
+LBB4_360:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_789
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1053
+
+LBB4_363:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_792
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1181
+
+LBB4_366:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_795
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1186
+
+LBB4_369:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_798
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1194
+
+LBB4_372:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_801
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1200
+
+LBB4_375:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_377
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_806
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_806
+
+LBB4_377:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1463:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1465
+	WORD $0x048a; BYTE $0x11     // mov    al, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xc084                 // test    al, al
+	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
+	LONG $0xc74e0f48             // cmovle    rax, rdi
+	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1465:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1655
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1467:
+	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xc084                 // test    al, al
+	LONG $0xfe4f0f48             // cmovg    rdi, rsi
+	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
+	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xc084                 // test    al, al
+	LONG $0xfe4f0f48             // cmovg    rdi, rsi
+	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1467
+	JMP  LBB4_1655
+
+LBB4_378:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_380
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_811
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_811
+
+LBB4_380:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1472:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x01a8             // test    al, 1
+	JE   LBB4_1479
+	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
+	JNE  LBB4_1475
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	JMP  LBB4_1476
+
+LBB4_381:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_383
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_816
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_816
+
+LBB4_383:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1494:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1496
+
+LBB4_1495:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1495
+
+LBB4_1496:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1497:
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xd0048949               // mov    qword [r8 + 8*rdx], rax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xd0448949; BYTE $0x08   // mov    qword [r8 + 8*rdx + 8], rax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xd0448949; BYTE $0x10   // mov    qword [r8 + 8*rdx + 16], rax
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	LONG $0xd0448949; BYTE $0x18   // mov    qword [r8 + 8*rdx + 24], rax
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
+	JNE  LBB4_1497
+	JMP  LBB4_1655
+
+LBB4_384:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	LONG $0xff728d48         // lea    rsi, [rdx - 1]
+	WORD $0xd089             // mov    eax, edx
+	WORD $0xe083; BYTE $0x03 // and    eax, 3
+	LONG $0x03fe8348         // cmp    rsi, 3
+	JAE  LBB4_819
+	WORD $0xf631             // xor    esi, esi
+
+LBB4_387:
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB4_1655
+	LONG $0xb0148d49         // lea    rdx, [r8 + 4*rsi]
+	LONG $0xf10c8d48         // lea    rcx, [rcx + 8*rsi]
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x0000012885100ff3 // movss    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_390
+
+LBB4_389:
+	LONG $0x0c110ff3; BYTE $0xb2 // movss    dword [rdx + 4*rsi], xmm1
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JE   LBB4_1655
+
+LBB4_390:
+	LONG $0xf13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rsi], 0
+	LONG $0xc8280f66             // movapd    xmm1, xmm0
+	JNE  LBB4_389
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	JMP  LBB4_389
+
+LBB4_392:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_829
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1059
+
+LBB4_395:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_832
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1208
+
+LBB4_398:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_835
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1216
+
+LBB4_401:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_838
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1222
+
+LBB4_404:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_406
+	LONG $0xd9148d4a         // lea    rdx, [rcx + 8*r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_843
+	LONG $0xd8148d4b         // lea    rdx, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_843
+
+LBB4_406:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1502:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1504
+	LONG $0xd10c8b4c             // mov    r9, qword [rcx + 8*rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf749; BYTE $0xda     // neg    r10
+	WORD $0x854d; BYTE $0xc9     // test    r9, r9
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f49             // cmovle    rdi, r10
+	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1504:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1655
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1506:
+	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	LONG $0xc64f0f48             // cmovg    rax, rsi
+	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
+	LONG $0xd1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rdx + 8]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xfe4f0f48             // cmovg    rdi, rsi
+	LONG $0xd07c8949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rdi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
+	JNE  LBB4_1506
+	JMP  LBB4_1655
+
+LBB4_407:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	LONG $0x01f98341         // cmp    r9d, 1
+	JNE  LBB4_846
+	WORD $0xc031             // xor    eax, eax
+
+LBB4_410:
+	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
+	JE   LBB4_1655
+	LONG $0xc13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rax], 0
+	JNE  LBB4_989
+	LONG $0xc0570f66             // xorpd    xmm0, xmm0
+	JMP  LBB4_990
+
+LBB4_413:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xca // mov    edx, r9d
+	LONG $0x01f98341         // cmp    r9d, 1
+	JNE  LBB4_856
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB4_416
+
+LBB4_419:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_421
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_866
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_866
+
+LBB4_421:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_869:
+	WORD $0x8948; BYTE $0xd6       // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6       // not    rsi
+	WORD $0x01a8                   // test    al, 1
+	JE   LBB4_871
+	LONG $0x04100ff3; BYTE $0x91   // movss    xmm0, dword [rcx + 4*rdx]
+	WORD $0x500f; BYTE $0xf8       // movmskps    edi, xmm0
+	WORD $0xe783; BYTE $0x01       // and    edi, 1
+	WORD $0xdff7                   // neg    edi
+	WORD $0xcf83; BYTE $0x01       // or    edi, 1
+	WORD $0x570f; BYTE $0xc9       // xorps    xmm1, xmm1
+	LONG $0xcf2a0ff3               // cvtsi2ss    xmm1, edi
+	WORD $0x570f; BYTE $0xd2       // xorps    xmm2, xmm2
+	LONG $0xd0c20ff3; BYTE $0x00   // cmpeqss    xmm2, xmm0
+	WORD $0x550f; BYTE $0xd1       // andnps    xmm2, xmm1
+	LONG $0x110f41f3; WORD $0x9014 // movss    dword [r8 + 4*rdx], xmm2
+	LONG $0x01ca8348               // or    rdx, 1
+
+LBB4_871:
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	JE   LBB4_1655
+	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
+
+LBB4_873:
+	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
+	WORD $0x500f; BYTE $0xf1                   // movmskps    esi, xmm1
+	WORD $0xe683; BYTE $0x01                   // and    esi, 1
+	WORD $0xdef7                               // neg    esi
+	WORD $0xce83; BYTE $0x01                   // or    esi, 1
+	WORD $0x570f; BYTE $0xd2                   // xorps    xmm2, xmm2
+	LONG $0xd62a0ff3                           // cvtsi2ss    xmm2, esi
+	LONG $0xc8c20ff3; BYTE $0x00               // cmpeqss    xmm1, xmm0
+	WORD $0x550f; BYTE $0xca                   // andnps    xmm1, xmm2
+	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
+	WORD $0x500f; BYTE $0xf1                   // movmskps    esi, xmm1
+	WORD $0xe683; BYTE $0x01                   // and    esi, 1
+	WORD $0xdef7                               // neg    esi
+	WORD $0xce83; BYTE $0x01                   // or    esi, 1
+	WORD $0x570f; BYTE $0xd2                   // xorps    xmm2, xmm2
+	LONG $0xd62a0ff3                           // cvtsi2ss    xmm2, esi
+	LONG $0xc8c20ff3; BYTE $0x00               // cmpeqss    xmm1, xmm0
+	WORD $0x550f; BYTE $0xca                   // andnps    xmm1, xmm2
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x02c28348                           // add    rdx, 2
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB4_873
+	JMP  LBB4_1655
+
+LBB4_422:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_424
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_876
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_876
+
+LBB4_424:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1511:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1513
+
+LBB4_1512:
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01c28348         // add    rdx, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB4_1512
+
+LBB4_1513:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1514:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0xd0048949             // mov    qword [r8 + 8*rdx], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0xd0448949; BYTE $0x08 // mov    qword [r8 + 8*rdx + 8], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0xd0448949; BYTE $0x10 // mov    qword [r8 + 8*rdx + 16], rax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0xd0448949; BYTE $0x18 // mov    qword [r8 + 8*rdx + 24], rax
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1514
+	JMP  LBB4_1655
+
+LBB4_425:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_427
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_881
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_881
+
+LBB4_427:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1519:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1524
+	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_1522
+
+LBB4_1521:
+	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JE   LBB4_1524
+
+LBB4_1522:
+	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
+	LONG $0xc86f0f66 // movdqa    xmm1, xmm0
+	JNE  LBB4_1521
+	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
+	JMP  LBB4_1521
+
+LBB4_428:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_884
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1064
+
+LBB4_431:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_887
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1070
+
+LBB4_434:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_436
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_892
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_892
+
+LBB4_436:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1539:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1541
+
+LBB4_1540:
+	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1540
+
+LBB4_1541:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1542:
+	LONG $0x00913c83               // cmp    dword [rcx + 4*rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0x04917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 4], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0x08917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 8], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0x0c917c83; BYTE $0x00   // cmp    dword [rcx + 4*rdx + 12], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1542
+	JMP  LBB4_1655
+
+LBB4_437:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_439
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_897
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_897
+
+LBB4_439:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1547:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	WORD $0x01a8                 // test    al, 1
+	JE   LBB4_1549
+	LONG $0x04100ff2; BYTE $0xd1 // movsd    xmm0, qword [rcx + 8*rdx]
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0xc82e0f66             // ucomisd    xmm1, xmm0
+	LONG $0x45540f66; BYTE $0x00 // andpd    xmm0, oword 0[rbp] /* [rip + .LCPI4_0] */
+	QUAD $0x000001108d100ff2     // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
+	LONG $0xc8560f66             // orpd    xmm1, xmm0
+	LONG $0xf92c0ff2             // cvttsd2si    edi, xmm1
+	LONG $0xf9440f41             // cmove    edi, r9d
+	LONG $0x103c8841             // mov    byte [r8 + rdx], dil
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1549:
+	WORD $0x0148; BYTE $0xc6     // add    rsi, rax
+	JE   LBB4_1655
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0570f66             // xorpd    xmm0, xmm0
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
+
+LBB4_1551:
+	LONG $0x1c100ff2; BYTE $0xd1   // movsd    xmm3, qword [rcx + 8*rdx]
+	LONG $0xc32e0f66               // ucomisd    xmm0, xmm3
+	LONG $0xd9540f66               // andpd    xmm3, xmm1
+	LONG $0xda560f66               // orpd    xmm3, xmm2
+	LONG $0xfb2c0ff2               // cvttsd2si    edi, xmm3
+	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
+	LONG $0x103c8841               // mov    byte [r8 + rdx], dil
+	LONG $0x5c100ff2; WORD $0x08d1 // movsd    xmm3, qword [rcx + 8*rdx + 8]
+	LONG $0xc32e0f66               // ucomisd    xmm0, xmm3
+	LONG $0xd9540f66               // andpd    xmm3, xmm1
+	LONG $0xda560f66               // orpd    xmm3, xmm2
+	LONG $0xfb2c0ff2               // cvttsd2si    edi, xmm3
+	WORD $0x440f; BYTE $0xfe       // cmove    edi, esi
+	LONG $0x107c8841; BYTE $0x01   // mov    byte [r8 + rdx + 1], dil
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1551
+	JMP  LBB4_1655
+
+LBB4_440:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_442
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_902
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_902
+
+LBB4_442:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1556:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1558
+	LONG $0x313c8a40             // mov    dil, byte [rcx + rsi]
+	WORD $0x8440; BYTE $0xff     // test    dil, dil
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x8440; BYTE $0xff     // test    dil, dil
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB4_1558:
+	WORD $0x014c; BYTE $0xd0     // add    rax, r10
+	JE   LBB4_1655
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+
+LBB4_1560:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0xc084                 // test    al, al
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xc084                 // test    al, al
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	WORD $0xc084                 // test    al, al
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xc084                 // test    al, al
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB4_1560
+	JMP  LBB4_1655
+
+LBB4_443:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_445
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_907
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_907
+
+LBB4_445:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1565:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1567
+
+LBB4_1566:
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1566
+
+LBB4_1567:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1568:
+	LONG $0xd13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0xd17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rdx + 8], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0xd17c8348; WORD $0x0010 // cmp    qword [rcx + 8*rdx + 16], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0xd17c8348; WORD $0x0018 // cmp    qword [rcx + 8*rdx + 24], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1568
+	JMP  LBB4_1655
+
+LBB4_446:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_448
+	LONG $0x41148d48         // lea    rdx, [rcx + 2*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_912
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_912
+
+LBB4_448:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1573:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1575
+
+LBB4_1574:
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1574
+
+LBB4_1575:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1576:
+	LONG $0x513c8366; BYTE $0x00   // cmp    word [rcx + 2*rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0x517c8366; WORD $0x0002 // cmp    word [rcx + 2*rdx + 2], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0x517c8366; WORD $0x0004 // cmp    word [rcx + 2*rdx + 4], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0x517c8366; WORD $0x0006 // cmp    word [rcx + 2*rdx + 6], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1576
+	JMP  LBB4_1655
+
+LBB4_449:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB4_451
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_917
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_917
+
+LBB4_451:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1581:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1583
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB4_1583:
+	WORD $0x014c; BYTE $0xd0       // add    rax, r10
+	JE   LBB4_1655
+	LONG $0x0001b941; WORD $0x0000 // mov    r9d, 1
+
+LBB4_1585:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8566; BYTE $0xff     // test    di, di
+	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
+	LONG $0xc14f0f41             // cmovg    eax, r9d
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x7144b70f; BYTE $0x02 // movzx    eax, word [rcx + 2*rsi + 2]
+	WORD $0x8566; BYTE $0xc0     // test    ax, ax
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8566; BYTE $0xc0     // test    ax, ax
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	LONG $0xc14f0f41             // cmovg    eax, r9d
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB4_1585
+	JMP  LBB4_1655
+
+LBB4_452:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB4_454
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_922
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_922
+
+LBB4_454:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1590:
+	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2     // not    rdx
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1592
+	LONG $0xf13c8b48             // mov    rdi, qword [rcx + 8*rsi]
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0x4e0f; BYTE $0xf8     // cmovle    edi, eax
+	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB4_1592:
+	WORD $0x014c; BYTE $0xd2     // add    rdx, r10
+	JE   LBB4_1655
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+
+LBB4_1594:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	WORD $0x4f0f; BYTE $0xc7     // cmovg    eax, edi
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB4_1594
+	JMP  LBB4_1655
+
+LBB4_455:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_457
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_927
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_927
+
+LBB4_457:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1599:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1601
+	LONG $0x046e0f66; BYTE $0x91 // movd    xmm0, dword [rcx + 4*rdx]
+	LONG $0xc77e0f66             // movd    edi, xmm0
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x990f; BYTE $0xd0     // setns    al
+	WORD $0xc000                 // add    al, al
+	WORD $0xff04                 // add    al, -1
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	WORD $0x2e0f; BYTE $0xc8     // ucomiss    xmm1, xmm0
+	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
+	WORD $0x440f; BYTE $0xc7     // cmove    eax, edi
+	LONG $0x10048841             // mov    byte [r8 + rdx], al
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1601:
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	JE   LBB4_1655
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
+
+LBB4_1603:
+	LONG $0x0c6e0f66; BYTE $0x91   // movd    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc87e0f66               // movd    eax, xmm1
+	WORD $0xc085                   // test    eax, eax
+	WORD $0x990f; BYTE $0xd0       // setns    al
+	WORD $0xc000                   // add    al, al
+	WORD $0xff04                   // add    al, -1
+	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
+	LONG $0x10048841               // mov    byte [r8 + rdx], al
+	LONG $0x4c6e0f66; WORD $0x0491 // movd    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0xc87e0f66               // movd    eax, xmm1
+	WORD $0xc085                   // test    eax, eax
+	WORD $0x990f; BYTE $0xd0       // setns    al
+	WORD $0xc000                   // add    al, al
+	WORD $0xff04                   // add    al, -1
+	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
+	WORD $0xb60f; BYTE $0xc0       // movzx    eax, al
+	WORD $0x440f; BYTE $0xc6       // cmove    eax, esi
+	LONG $0x10448841; BYTE $0x01   // mov    byte [r8 + rdx + 1], al
+	LONG $0x02c28348               // add    rdx, 2
+	WORD $0x3949; BYTE $0xd2       // cmp    r10, rdx
+	JNE  LBB4_1603
+	JMP  LBB4_1655
+
+LBB4_458:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB4_460
+	LONG $0x01148d48         // lea    rdx, [rcx + rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_932
+	LONG $0x00148d49         // lea    rdx, [r8 + rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_932
+
+LBB4_460:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1608:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1610
+
+LBB4_1609:
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	LONG $0x14950f41; BYTE $0x10 // setne    byte [r8 + rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB4_1609
+
+LBB4_1610:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1611:
+	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
+	LONG $0x14950f41; BYTE $0x10   // setne    byte [r8 + rdx]
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0x54950f41; WORD $0x0110 // setne    byte [r8 + rdx + 1]
+	LONG $0x02117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 2], 0
+	LONG $0x54950f41; WORD $0x0210 // setne    byte [r8 + rdx + 2]
+	LONG $0x03117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 3], 0
+	LONG $0x54950f41; WORD $0x0310 // setne    byte [r8 + rdx + 3]
+	LONG $0x04c28348               // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JNE  LBB4_1611
+	JMP  LBB4_1655
+
+LBB4_461:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_463
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_937
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_937
+
+LBB4_463:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1616:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0     // not    rax
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1618
+	WORD $0x3c8b; BYTE $0xb1     // mov    edi, dword [rcx + 4*rsi]
+	WORD $0xff85                 // test    edi, edi
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0xff85                 // test    edi, edi
+	LONG $0xc9b60f45             // movzx    r9d, r9b
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xf94e0f41             // cmovle    edi, r9d
+	LONG $0x303c8841             // mov    byte [r8 + rsi], dil
+	LONG $0x01ce8348             // or    rsi, 1
+
+LBB4_1618:
+	WORD $0x014c; BYTE $0xd0       // add    rax, r10
+	JE   LBB4_1655
+	LONG $0x0001b941; WORD $0x0000 // mov    r9d, 1
+
+LBB4_1620:
+	WORD $0x3c8b; BYTE $0xb1     // mov    edi, dword [rcx + 4*rsi]
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xff85                 // test    edi, edi
+	WORD $0xb60f; BYTE $0xc0     // movzx    eax, al
+	LONG $0xc14f0f41             // cmovg    eax, r9d
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	WORD $0xc085                 // test    eax, eax
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xc085                 // test    eax, eax
+	WORD $0xb60f; BYTE $0xc2     // movzx    eax, dl
+	LONG $0xc14f0f41             // cmovg    eax, r9d
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB4_1620
+	JMP  LBB4_1655
+
+LBB4_464:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_466
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_942
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_942
+
+LBB4_466:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1625:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1627
+
+LBB4_1626:
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01c28348         // add    rdx, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB4_1626
+
+LBB4_1627:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1628:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x04917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 4], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90448941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x08917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 8], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90448941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x0c917c83; BYTE $0x00 // cmp    dword [rcx + 4*rdx + 12], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90448941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], eax
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1628
+	JMP  LBB4_1655
+
+LBB4_467:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	WORD $0x3145; BYTE $0xd2 // xor    r10d, r10d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_945
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB4_1080
+
+LBB4_470:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_472
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_950
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_950
+
+LBB4_472:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1633:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1635
+	LONG $0x110c8a44             // mov    r9b, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0x8445; BYTE $0xc9     // test    r9b, r9b
+	LONG $0x000001b8; BYTE $0x00 // mov    eax, 1
+	WORD $0x4e0f; BYTE $0xc7     // cmovle    eax, edi
+	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1635:
+	WORD $0x014c; BYTE $0xd6     // add    rsi, r10
+	JE   LBB4_1655
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1637:
+	LONG $0x1104b60f             // movzx    eax, byte [rcx + rdx]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0xc084                 // test    al, al
+	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
+	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
+	LONG $0x1144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rdx + 1]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc084                 // test    al, al
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0xc084                 // test    al, al
+	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
+	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1637
+	JMP  LBB4_1655
+
+LBB4_473:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_953
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1086
+
+LBB4_476:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_956
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1091
+
+LBB4_479:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_959
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1096
+
+LBB4_482:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB4_962
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_1102
+
+LBB4_485:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB4_965
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_968
+
+LBB4_488:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_490
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_974
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_974
+
+LBB4_490:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1642:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x014c; BYTE $0xd6 // add    rsi, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB4_1644
+
+LBB4_1643:
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x00113c80         // cmp    byte [rcx + rdx], 0
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01c28348         // add    rdx, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB4_1643
+
+LBB4_1644:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB4_1655
+
+LBB4_1645:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x00113c80             // cmp    byte [rcx + rdx], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x01117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 1], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90448941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x02117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 2], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90448941; BYTE $0x08 // mov    dword [r8 + 4*rdx + 8], eax
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x03117c80; BYTE $0x00 // cmp    byte [rcx + rdx + 3], 0
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	LONG $0x90448941; BYTE $0x0c // mov    dword [r8 + 4*rdx + 12], eax
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1645
+	JMP  LBB4_1655
+
+LBB4_491:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB4_1655
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB4_493
+	LONG $0x99148d4a         // lea    rdx, [rcx + 4*r11]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB4_979
+	LONG $0x98148d4b         // lea    rdx, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB4_979
+
+LBB4_493:
+	WORD $0xd231 // xor    edx, edx
+
+LBB4_1650:
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6     // not    rsi
+	LONG $0x01c3f641             // test    r11b, 1
+	JE   LBB4_1652
+	LONG $0x910c8b44             // mov    r9d, dword [rcx + 4*rdx]
+	WORD $0x3145; BYTE $0xd2     // xor    r10d, r10d
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf741; BYTE $0xda     // neg    r10d
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	LONG $0xfa4e0f41             // cmovle    edi, r10d
+	LONG $0x903c8941             // mov    dword [r8 + 4*rdx], edi
+	LONG $0x01ca8348             // or    rdx, 1
+
+LBB4_1652:
+	WORD $0x014c; BYTE $0xde     // add    rsi, r11
+	JE   LBB4_1655
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1654:
+	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x90048941             // mov    dword [r8 + 4*rdx], eax
+	LONG $0x0491448b             // mov    eax, dword [rcx + 4*rdx + 4]
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xc085                 // test    eax, eax
+	LONG $0xd7950f40             // setne    dil
+	WORD $0xdff7                 // neg    edi
+	WORD $0xc085                 // test    eax, eax
+	WORD $0x4f0f; BYTE $0xfe     // cmovg    edi, esi
+	LONG $0x907c8941; BYTE $0x04 // mov    dword [r8 + 4*rdx + 4], edi
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3949; BYTE $0xd3     // cmp    r11, rdx
+	JNE  LBB4_1654
+	JMP  LBB4_1655
+
+LBB4_1524:
+	LONG $0x03fe8348         // cmp    rsi, 3
+	JB   LBB4_1655
+	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_1527
+
+LBB4_1526:
+	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x0c // movd    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JE   LBB4_1655
+
+LBB4_1527:
+	LONG $0x00113c80               // cmp    byte [rcx + rdx], 0
+	LONG $0xc86f0f66               // movdqa    xmm1, xmm0
+	JNE  LBB4_1528
+	LONG $0xc9ef0f66               // pxor    xmm1, xmm1
+	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xc86f0f66               // movdqa    xmm1, xmm0
+	JE   LBB4_1532
+
+LBB4_1529:
+	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x04 // movd    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	JNE  LBB4_1530
+
+LBB4_1533:
+	LONG $0xc9ef0f66                           // pxor    xmm1, xmm1
+	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x08 // movd    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	JNE  LBB4_1526
+	JMP  LBB4_1534
+
+LBB4_1528:
+	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xc86f0f66               // movdqa    xmm1, xmm0
+	JNE  LBB4_1529
+
+LBB4_1532:
+	LONG $0xc9ef0f66                           // pxor    xmm1, xmm1
+	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x04 // movd    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x02117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 2], 0
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	JE   LBB4_1533
+
+LBB4_1530:
+	LONG $0x7e0f4166; WORD $0x904c; BYTE $0x08 // movd    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x03117c80; BYTE $0x00               // cmp    byte [rcx + rdx + 3], 0
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	JNE  LBB4_1526
+
+LBB4_1534:
+	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
+	JMP  LBB4_1526
+
+LBB4_499:
+	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB4_1106
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc0570f66             // xorpd    xmm0, xmm0
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_501:
+	LONG $0x2c100f66; BYTE $0xf9   // movupd    xmm5, oword [rcx + 8*rdi]
+	LONG $0x74100f66; WORD $0x10f9 // movupd    xmm6, oword [rcx + 8*rdi + 16]
+	LONG $0xdd280f66               // movapd    xmm3, xmm5
+	LONG $0xd8c20f66; BYTE $0x00   // cmpeqpd    xmm3, xmm0
+	LONG $0xe8dbc60f               // shufps    xmm3, xmm3, 232
+	LONG $0xe6280f66               // movapd    xmm4, xmm6
+	LONG $0xe0c20f66; BYTE $0x00   // cmpeqpd    xmm4, xmm0
+	LONG $0xe9540f66               // andpd    xmm5, xmm1
+	LONG $0xea560f66               // orpd    xmm5, xmm2
+	LONG $0xf1540f66               // andpd    xmm6, xmm1
+	LONG $0xf2560f66               // orpd    xmm6, xmm2
+	LONG $0xfd700f66; BYTE $0xee   // pshufd    xmm7, xmm5, 238
+	LONG $0x2c0f48f2; BYTE $0xc7   // cvttsd2si    rax, xmm7
+	LONG $0x2c0f48f2; BYTE $0xdd   // cvttsd2si    rbx, xmm5
+	LONG $0xeb6e0f66               // movd    xmm5, ebx
+	LONG $0x223a0f66; WORD $0x01e8 // pinsrd    xmm5, eax, 1
+	LONG $0xfe700f66; BYTE $0xee   // pshufd    xmm7, xmm6, 238
+	LONG $0x2c0f48f2; BYTE $0xc7   // cvttsd2si    rax, xmm7
+	LONG $0x2c0f48f2; BYTE $0xde   // cvttsd2si    rbx, xmm6
+	LONG $0xe8e4c60f               // shufps    xmm4, xmm4, 232
+	LONG $0xf36e0f66               // movd    xmm6, ebx
+	LONG $0x223a0f66; WORD $0x01f0 // pinsrd    xmm6, eax, 1
+	WORD $0x550f; BYTE $0xdd       // andnps    xmm3, xmm5
+	WORD $0x550f; BYTE $0xe6       // andnps    xmm4, xmm6
+	WORD $0x160f; BYTE $0xdc       // movlhps    xmm3, xmm4
+	LONG $0x1c110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm3
+	LONG $0x6c100f66; WORD $0x20f9 // movupd    xmm5, oword [rcx + 8*rdi + 32]
+	LONG $0x74100f66; WORD $0x30f9 // movupd    xmm6, oword [rcx + 8*rdi + 48]
+	LONG $0xdd280f66               // movapd    xmm3, xmm5
+	LONG $0xd8c20f66; BYTE $0x00   // cmpeqpd    xmm3, xmm0
+	LONG $0xe8dbc60f               // shufps    xmm3, xmm3, 232
+	LONG $0xe6280f66               // movapd    xmm4, xmm6
+	LONG $0xe0c20f66; BYTE $0x00   // cmpeqpd    xmm4, xmm0
+	LONG $0xe8e4c60f               // shufps    xmm4, xmm4, 232
+	LONG $0xe9540f66               // andpd    xmm5, xmm1
+	LONG $0xea560f66               // orpd    xmm5, xmm2
+	LONG $0xf1540f66               // andpd    xmm6, xmm1
+	LONG $0xfd700f66; BYTE $0xee   // pshufd    xmm7, xmm5, 238
+	LONG $0x2c0f48f2; BYTE $0xc7   // cvttsd2si    rax, xmm7
+	LONG $0xf2560f66               // orpd    xmm6, xmm2
+	LONG $0x2c0f48f2; BYTE $0xdd   // cvttsd2si    rbx, xmm5
+	LONG $0xeb6e0f66               // movd    xmm5, ebx
+	LONG $0x223a0f66; WORD $0x01e8 // pinsrd    xmm5, eax, 1
+	WORD $0x550f; BYTE $0xdd       // andnps    xmm3, xmm5
+	LONG $0xee700f66; BYTE $0xee   // pshufd    xmm5, xmm6, 238
+	LONG $0x2c0f48f2; BYTE $0xc5   // cvttsd2si    rax, xmm5
+	LONG $0x2c0f48f2; BYTE $0xde   // cvttsd2si    rbx, xmm6
+	LONG $0xeb6e0f66               // movd    xmm5, ebx
+	LONG $0x223a0f66; WORD $0x01e8 // pinsrd    xmm5, eax, 1
+	WORD $0x550f; BYTE $0xe5       // andnps    xmm4, xmm5
+	WORD $0x160f; BYTE $0xdc       // movlhps    xmm3, xmm4
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c28348               // add    rdx, 2
+	JNE  LBB4_501
+	JMP  LBB4_1107
+
+LBB4_507:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_994
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	QUAD $0x000000a08d6f0f66 // movdqa    xmm1, oword 160[rbp] /* [rip + .LCPI4_16] */
+
+LBB4_509:
+	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
+	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
+	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
+	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
+	LONG $0x546f0ff3; WORD $0x20f1             // movdqu    xmm2, oword [rcx + 8*rsi + 32]
+	LONG $0x5c6f0ff3; WORD $0x30f1             // movdqu    xmm3, oword [rcx + 8*rsi + 48]
+	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
+	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
+	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm2
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_509
+	JMP  LBB4_995
+
+LBB4_510:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1112
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
+	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_512:
+	LONG $0x1c7e0ff3; BYTE $0x71               // movq    xmm3, qword [rcx + 2*rsi]
+	LONG $0x647e0ff3; WORD $0x0871             // movq    xmm4, qword [rcx + 2*rsi + 8]
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x33380f66; BYTE $0xdb               // pmovzxwd    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x33380f66; BYTE $0xe4               // pmovzxwd    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xb01c             // movdqu    oword [r8 + 4*rsi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm4
+	LONG $0x5c7e0ff3; WORD $0x1071             // movq    xmm3, qword [rcx + 2*rsi + 16]
+	LONG $0x647e0ff3; WORD $0x1871             // movq    xmm4, qword [rcx + 2*rsi + 24]
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x33380f66; BYTE $0xdb               // pmovzxwd    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x33380f66; BYTE $0xe4               // pmovzxwd    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm4
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_512
+	JMP  LBB4_1113
+
+LBB4_513:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1117
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	LONG $0x5065280f         // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_515:
+	LONG $0x2c7e0ff3; BYTE $0x71   // movq    xmm5, qword [rcx + 2*rsi]
+	LONG $0x747e0ff3; WORD $0x0871 // movq    xmm6, qword [rcx + 2*rsi + 8]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
+	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
+	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
+	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
+	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
+	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
+	LONG $0x6c7e0ff3; WORD $0x1071 // movq    xmm5, qword [rcx + 2*rsi + 16]
+	LONG $0x747e0ff3; WORD $0x1871 // movq    xmm6, qword [rcx + 2*rsi + 24]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
+	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
+	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
+	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
+	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
+	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
+	LONG $0x10c68348               // add    rsi, 16
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_515
+	JMP  LBB4_1118
+
+LBB4_516:
+	WORD $0x8944; BYTE $0xd2                   // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc                   // and    edx, -4
+	LONG $0xfc728d48                           // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
+	LONG $0x02e9c149                           // shr    r9, 2
+	LONG $0x01c18349                           // add    r9, 1
+	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
+	JE   LBB4_1123
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	LONG $0xfee78348                           // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf                   // neg    rdi
+	WORD $0xf631                               // xor    esi, esi
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xa0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 160[rbp] /* [rip + .LCPI4_16] */
+
+LBB4_518:
+	LONG $0x2c6f0ff3; BYTE $0xf1   // movdqu    xmm5, oword [rcx + 8*rsi]
+	LONG $0x746f0ff3; WORD $0x10f1 // movdqu    xmm6, oword [rcx + 8*rsi + 16]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
+	LONG $0xed700f66; BYTE $0xe8   // pshufd    xmm5, xmm5, 232
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
+	LONG $0xf6700f66; BYTE $0xe8   // pshufd    xmm6, xmm6, 232
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
+	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
+	LONG $0x6c6f0ff3; WORD $0x20f1 // movdqu    xmm5, oword [rcx + 8*rsi + 32]
+	LONG $0x746f0ff3; WORD $0x30f1 // movdqu    xmm6, oword [rcx + 8*rsi + 48]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
+	LONG $0xed700f66; BYTE $0xe8   // pshufd    xmm5, xmm5, 232
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
+	LONG $0xf6700f66; BYTE $0xe8   // pshufd    xmm6, xmm6, 232
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
+	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
+	LONG $0x08c68348               // add    rsi, 8
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_518
+	JMP  LBB4_1124
+
+LBB4_519:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc     // and    edx, -4
+	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1129
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
+	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0x605d280f             // movaps    xmm3, oword 96[rbp] /* [rip + .LCPI4_10] */
+	LONG $0x3065280f             // movaps    xmm4, oword 48[rbp] /* [rip + .LCPI4_4] */
+
+LBB4_521:
+	LONG $0x2c6f0ff3; BYTE $0xb1   // movdqu    xmm5, oword [rcx + 4*rsi]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xe0720f66; BYTE $0x1f   // psrad    xmm0, 31
+	LONG $0xc2eb0f66               // por    xmm0, xmm2
+	WORD $0x5b0f; BYTE $0xf0       // cvtdq2ps    xmm6, xmm0
+	WORD $0x280f; BYTE $0xc6       // movaps    xmm0, xmm6
+	LONG $0x01c3c20f               // cmpltps    xmm0, xmm3
+	LONG $0xfe5b0ff3               // cvttps2dq    xmm7, xmm6
+	WORD $0x5c0f; BYTE $0xf3       // subps    xmm6, xmm3
+	LONG $0xf65b0ff3               // cvttps2dq    xmm6, xmm6
+	WORD $0x570f; BYTE $0xf4       // xorps    xmm6, xmm4
+	LONG $0x14380f66; BYTE $0xf7   // blendvps    xmm6, xmm7, xmm0
+	LONG $0x04e9c20f               // cmpneqps    xmm5, xmm1
+	WORD $0x540f; BYTE $0xee       // andps    xmm5, xmm6
+	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
+	LONG $0x6c6f0ff3; WORD $0x10b1 // movdqu    xmm5, oword [rcx + 4*rsi + 16]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xe0720f66; BYTE $0x1f   // psrad    xmm0, 31
+	LONG $0xc2eb0f66               // por    xmm0, xmm2
+	WORD $0x5b0f; BYTE $0xf0       // cvtdq2ps    xmm6, xmm0
+	WORD $0x280f; BYTE $0xc6       // movaps    xmm0, xmm6
+	LONG $0x01c3c20f               // cmpltps    xmm0, xmm3
+	LONG $0xfe5b0ff3               // cvttps2dq    xmm7, xmm6
+	WORD $0x5c0f; BYTE $0xf3       // subps    xmm6, xmm3
+	LONG $0xf65b0ff3               // cvttps2dq    xmm6, xmm6
+	WORD $0x570f; BYTE $0xf4       // xorps    xmm6, xmm4
+	LONG $0x14380f66; BYTE $0xf7   // blendvps    xmm6, xmm7, xmm0
+	LONG $0x04e9c20f               // cmpneqps    xmm5, xmm1
+	WORD $0x540f; BYTE $0xee       // andps    xmm5, xmm6
+	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
+	LONG $0x08c68348               // add    rsi, 8
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_521
+	JMP  LBB4_1130
+
+LBB4_532:
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
+	JMP  LBB4_534
+
+LBB4_533:
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JE   LBB4_101
+
+LBB4_534:
+	LONG $0x00b13c83               // cmp    dword [rcx + 4*rsi], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JNE  LBB4_535
+	LONG $0xc9570f66               // xorpd    xmm1, xmm1
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x04b17c83; BYTE $0x00   // cmp    dword [rcx + 4*rsi + 4], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JE   LBB4_539
+
+LBB4_536:
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x08b17c83; BYTE $0x00               // cmp    dword [rcx + 4*rsi + 8], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_537
+
+LBB4_540:
+	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x0cb17c83; BYTE $0x00               // cmp    dword [rcx + 4*rsi + 12], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_533
+	JMP  LBB4_541
+
+LBB4_535:
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x04b17c83; BYTE $0x00   // cmp    dword [rcx + 4*rsi + 4], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JNE  LBB4_536
+
+LBB4_539:
+	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x08b17c83; BYTE $0x00               // cmp    dword [rcx + 4*rsi + 8], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JE   LBB4_540
+
+LBB4_537:
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x0cb17c83; BYTE $0x00               // cmp    dword [rcx + 4*rsi + 12], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_533
+
+LBB4_541:
+	LONG $0xc9570f66 // xorpd    xmm1, xmm1
+	JMP  LBB4_533
+
+LBB4_547:
+	WORD $0xd689             // mov    esi, edx
+	WORD $0xe683; BYTE $0xfe // and    esi, -2
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
+	QUAD $0x000001108d100ff2 // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
+	JMP  LBB4_549
+
+LBB4_548:
+	LONG $0x110f41f2; WORD $0xc05c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm3
+	LONG $0x02c08348                           // add    rax, 2
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JE   LBB4_120
+
+LBB4_549:
+	LONG $0x00013c80 // cmp    byte [rcx + rax], 0
+	LONG $0xd0280f66 // movapd    xmm2, xmm0
+	JNE  LBB4_550
+	LONG $0xd2570f66 // xorpd    xmm2, xmm2
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JLE  LBB4_554
+
+LBB4_551:
+	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
+	LONG $0x01017c80; BYTE $0x00   // cmp    byte [rcx + rax + 1], 0
+	LONG $0xd0280f66               // movapd    xmm2, xmm0
+	JNE  LBB4_552
+
+LBB4_555:
+	LONG $0xd2570f66 // xorpd    xmm2, xmm2
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_548
+	JMP  LBB4_556
+
+LBB4_550:
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_551
+
+LBB4_554:
+	LONG $0xda280f66               // movapd    xmm3, xmm2
+	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
+	LONG $0x01017c80; BYTE $0x00   // cmp    byte [rcx + rax + 1], 0
+	LONG $0xd0280f66               // movapd    xmm2, xmm0
+	JE   LBB4_555
+
+LBB4_552:
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_548
+
+LBB4_556:
+	LONG $0xda280f66 // movapd    xmm3, xmm2
+	JMP  LBB4_548
+
+LBB4_557:
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
+	JMP  LBB4_559
+
+LBB4_558:
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JE   LBB4_130
+
+LBB4_559:
+	LONG $0xf13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rsi], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JNE  LBB4_560
+	LONG $0xc9570f66               // xorpd    xmm1, xmm1
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0xf17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rsi + 8], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JE   LBB4_564
+
+LBB4_561:
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0xf17c8348; WORD $0x0010             // cmp    qword [rcx + 8*rsi + 16], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_562
+
+LBB4_565:
+	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0xf17c8348; WORD $0x0018             // cmp    qword [rcx + 8*rsi + 24], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_558
+	JMP  LBB4_566
+
+LBB4_560:
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0xf17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rsi + 8], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JNE  LBB4_561
+
+LBB4_564:
+	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0xf17c8348; WORD $0x0010             // cmp    qword [rcx + 8*rsi + 16], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JE   LBB4_565
+
+LBB4_562:
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0xf17c8348; WORD $0x0018             // cmp    qword [rcx + 8*rsi + 24], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_558
+
+LBB4_566:
+	LONG $0xc9570f66 // xorpd    xmm1, xmm1
+	JMP  LBB4_558
+
+LBB4_567:
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
+	JMP  LBB4_569
+
+LBB4_568:
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JE   LBB4_142
+
+LBB4_569:
+	LONG $0x713c8366; BYTE $0x00   // cmp    word [rcx + 2*rsi], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JNE  LBB4_570
+	LONG $0xc9570f66               // xorpd    xmm1, xmm1
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x717c8366; WORD $0x0002 // cmp    word [rcx + 2*rsi + 2], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JE   LBB4_574
+
+LBB4_571:
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x717c8366; WORD $0x0004             // cmp    word [rcx + 2*rsi + 4], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_572
+
+LBB4_575:
+	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x717c8366; WORD $0x0006             // cmp    word [rcx + 2*rsi + 6], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_568
+	JMP  LBB4_576
+
+LBB4_570:
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x717c8366; WORD $0x0002 // cmp    word [rcx + 2*rsi + 2], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JNE  LBB4_571
+
+LBB4_574:
+	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x717c8366; WORD $0x0004             // cmp    word [rcx + 2*rsi + 4], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JE   LBB4_575
+
+LBB4_572:
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x717c8366; WORD $0x0006             // cmp    word [rcx + 2*rsi + 6], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_568
+
+LBB4_576:
+	LONG $0xc9570f66 // xorpd    xmm1, xmm1
+	JMP  LBB4_568
+
+LBB4_577:
+	WORD $0xd689             // mov    esi, edx
+	WORD $0xe683; BYTE $0xfe // and    esi, -2
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
+	QUAD $0x000001108d100ff2 // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
+	JMP  LBB4_579
+
+LBB4_578:
+	LONG $0x110f41f2; WORD $0xc05c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm3
+	LONG $0x02c08348                           // add    rax, 2
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JE   LBB4_154
+
+LBB4_579:
+	LONG $0x413c8366; BYTE $0x00 // cmp    word [rcx + 2*rax], 0
+	LONG $0xd0280f66             // movapd    xmm2, xmm0
+	JNE  LBB4_580
+	LONG $0xd2570f66             // xorpd    xmm2, xmm2
+	LONG $0xd9280f66             // movapd    xmm3, xmm1
+	JLE  LBB4_584
+
+LBB4_581:
+	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
+	LONG $0x417c8366; WORD $0x0002 // cmp    word [rcx + 2*rax + 2], 0
+	LONG $0xd0280f66               // movapd    xmm2, xmm0
+	JNE  LBB4_582
+
+LBB4_585:
+	LONG $0xd2570f66 // xorpd    xmm2, xmm2
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_578
+	JMP  LBB4_586
+
+LBB4_580:
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_581
+
+LBB4_584:
+	LONG $0xda280f66               // movapd    xmm3, xmm2
+	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
+	LONG $0x417c8366; WORD $0x0002 // cmp    word [rcx + 2*rax + 2], 0
+	LONG $0xd0280f66               // movapd    xmm2, xmm0
+	JE   LBB4_585
+
+LBB4_582:
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_578
+
+LBB4_586:
+	LONG $0xda280f66 // movapd    xmm3, xmm2
+	JMP  LBB4_578
+
+LBB4_587:
+	WORD $0xd689             // mov    esi, edx
+	WORD $0xe683; BYTE $0xfe // and    esi, -2
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
+	QUAD $0x000001108d100ff2 // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
+	JMP  LBB4_589
+
+LBB4_588:
+	LONG $0x110f41f2; WORD $0xc05c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm3
+	LONG $0x02c08348                           // add    rax, 2
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JE   LBB4_164
+
+LBB4_589:
+	LONG $0xc13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rax], 0
+	LONG $0xd0280f66             // movapd    xmm2, xmm0
+	JNE  LBB4_590
+	LONG $0xd2570f66             // xorpd    xmm2, xmm2
+	LONG $0xd9280f66             // movapd    xmm3, xmm1
+	JLE  LBB4_594
+
+LBB4_591:
+	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
+	LONG $0xc17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rax + 8], 0
+	LONG $0xd0280f66               // movapd    xmm2, xmm0
+	JNE  LBB4_592
+
+LBB4_595:
+	LONG $0xd2570f66 // xorpd    xmm2, xmm2
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_588
+	JMP  LBB4_596
+
+LBB4_590:
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_591
+
+LBB4_594:
+	LONG $0xda280f66               // movapd    xmm3, xmm2
+	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
+	LONG $0xc17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rax + 8], 0
+	LONG $0xd0280f66               // movapd    xmm2, xmm0
+	JE   LBB4_595
+
+LBB4_592:
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_588
+
+LBB4_596:
+	LONG $0xda280f66 // movapd    xmm3, xmm2
+	JMP  LBB4_588
+
+LBB4_597:
+	WORD $0xd689             // mov    esi, edx
+	WORD $0xe683; BYTE $0xfe // and    esi, -2
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
+	JMP  LBB4_599
+
+LBB4_598:
+	LONG $0x110f41f2; WORD $0xc04c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm1
+	LONG $0x02c08348                           // add    rax, 2
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JE   LBB4_174
+
+LBB4_599:
+	LONG $0x14100ff3; BYTE $0x81 // movss    xmm2, dword [rcx + 4*rax]
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	WORD $0x2e0f; BYTE $0xc2     // ucomiss    xmm0, xmm2
+	LONG $0xdb570f66             // xorpd    xmm3, xmm3
+	JE   LBB4_601
+	WORD $0x500f; BYTE $0xfa     // movmskps    edi, xmm2
+	WORD $0xe783; BYTE $0x01     // and    edi, 1
+	WORD $0xdff7                 // neg    edi
+	WORD $0xcf83; BYTE $0x01     // or    edi, 1
+	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
+	LONG $0xd72a0ff3             // cvtsi2ss    xmm2, edi
+	WORD $0x570f; BYTE $0xdb     // xorps    xmm3, xmm3
+	LONG $0xda5a0ff3             // cvtss2sd    xmm3, xmm2
+
+LBB4_601:
+	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
+	LONG $0x54100ff3; WORD $0x0481 // movss    xmm2, dword [rcx + 4*rax + 4]
+	WORD $0x2e0f; BYTE $0xc2       // ucomiss    xmm0, xmm2
+	JE   LBB4_598
+	WORD $0x500f; BYTE $0xfa       // movmskps    edi, xmm2
+	WORD $0xe783; BYTE $0x01       // and    edi, 1
+	WORD $0xdff7                   // neg    edi
+	WORD $0xcf83; BYTE $0x01       // or    edi, 1
+	WORD $0x570f; BYTE $0xc9       // xorps    xmm1, xmm1
+	LONG $0xcf2a0ff3               // cvtsi2ss    xmm1, edi
+	LONG $0xc95a0ff3               // cvtss2sd    xmm1, xmm1
+	JMP  LBB4_598
+
+LBB4_603:
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x0000011085100ff2 // movsd    xmm0, qword 272[rbp] /* [rip + .LCPI4_2] */
+	JMP  LBB4_605
+
+LBB4_604:
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JE   LBB4_185
+
+LBB4_605:
+	LONG $0x00313c80               // cmp    byte [rcx + rsi], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JNE  LBB4_606
+	LONG $0xc9570f66               // xorpd    xmm1, xmm1
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01317c80; BYTE $0x00   // cmp    byte [rcx + rsi + 1], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JE   LBB4_610
+
+LBB4_607:
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x02317c80; BYTE $0x00               // cmp    byte [rcx + rsi + 2], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_608
+
+LBB4_611:
+	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x03317c80; BYTE $0x00               // cmp    byte [rcx + rsi + 3], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_604
+	JMP  LBB4_612
+
+LBB4_606:
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01317c80; BYTE $0x00   // cmp    byte [rcx + rsi + 1], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JNE  LBB4_607
+
+LBB4_610:
+	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x02317c80; BYTE $0x00               // cmp    byte [rcx + rsi + 2], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JE   LBB4_611
+
+LBB4_608:
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x03317c80; BYTE $0x00               // cmp    byte [rcx + rsi + 3], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_604
+
+LBB4_612:
+	LONG $0xc9570f66 // xorpd    xmm1, xmm1
+	JMP  LBB4_604
+
+LBB4_613:
+	WORD $0xd689             // mov    esi, edx
+	WORD $0xe683; BYTE $0xfe // and    esi, -2
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000012085100ff2 // movsd    xmm0, qword 288[rbp] /* [rip + .LCPI4_13] */
+	QUAD $0x000001108d100ff2 // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
+	JMP  LBB4_615
+
+LBB4_614:
+	LONG $0x110f41f2; WORD $0xc05c; BYTE $0x08 // movsd    qword [r8 + 8*rax + 8], xmm3
+	LONG $0x02c08348                           // add    rax, 2
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JE   LBB4_197
+
+LBB4_615:
+	LONG $0x00813c83 // cmp    dword [rcx + 4*rax], 0
+	LONG $0xd0280f66 // movapd    xmm2, xmm0
+	JNE  LBB4_616
+	LONG $0xd2570f66 // xorpd    xmm2, xmm2
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JLE  LBB4_620
+
+LBB4_617:
+	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
+	LONG $0x04817c83; BYTE $0x00   // cmp    dword [rcx + 4*rax + 4], 0
+	LONG $0xd0280f66               // movapd    xmm2, xmm0
+	JNE  LBB4_618
+
+LBB4_621:
+	LONG $0xd2570f66 // xorpd    xmm2, xmm2
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_614
+	JMP  LBB4_622
+
+LBB4_616:
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_617
+
+LBB4_620:
+	LONG $0xda280f66               // movapd    xmm3, xmm2
+	LONG $0x110f41f2; WORD $0xc01c // movsd    qword [r8 + 8*rax], xmm3
+	LONG $0x04817c83; BYTE $0x00   // cmp    dword [rcx + 4*rax + 4], 0
+	LONG $0xd0280f66               // movapd    xmm2, xmm0
+	JE   LBB4_621
+
+LBB4_618:
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_614
+
+LBB4_622:
+	LONG $0xda280f66 // movapd    xmm3, xmm2
+	JMP  LBB4_614
+
+LBB4_673:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_999
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_675:
+	LONG $0x1c7e0ff3; BYTE $0xb1               // movq    xmm3, qword [rcx + 4*rsi]
+	LONG $0x647e0ff3; WORD $0x08b1             // movq    xmm4, qword [rcx + 4*rsi + 8]
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x35380f66; BYTE $0xdb               // pmovzxdq    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x35380f66; BYTE $0xe4               // pmovzxdq    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
+	LONG $0x5c7e0ff3; WORD $0x10b1             // movq    xmm3, qword [rcx + 4*rsi + 16]
+	LONG $0x647e0ff3; WORD $0x18b1             // movq    xmm4, qword [rcx + 4*rsi + 24]
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x35380f66; BYTE $0xdb               // pmovzxdq    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x35380f66; BYTE $0xe4               // pmovzxdq    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_675
+	JMP  LBB4_1000
+
+LBB4_676:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfe     // and    esi, -2
+	LONG $0xfe468d48             // lea    rax, [rsi - 2]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	WORD $0xd149; BYTE $0xe9     // shr    r9, 1
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB4_1004
+	WORD $0x894d; BYTE $0xce     // mov    r14, r9
+	LONG $0xfee68349             // and    r14, -2
+	WORD $0xf749; BYTE $0xde     // neg    r14
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc0570f66             // xorpd    xmm0, xmm0
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
+	QUAD $0x000001189d100ff2     // movsd    xmm3, qword 280[rbp] /* [rip + .LCPI4_6] */
+
+LBB4_678:
+	LONG $0x24100f66; BYTE $0xf9               // movupd    xmm4, oword [rcx + 8*rdi]
+	LONG $0xec280f66                           // movapd    xmm5, xmm4
+	LONG $0xe9540f66                           // andpd    xmm5, xmm1
+	LONG $0xea560f66                           // orpd    xmm5, xmm2
+	LONG $0xf5280f66                           // movapd    xmm6, xmm5
+	LONG $0xf35c0ff2                           // subsd    xmm6, xmm3
+	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
+	WORD $0x314c; BYTE $0xdb                   // xor    rbx, r11
+	LONG $0x2c0f48f2; BYTE $0xd5               // cvttsd2si    rdx, xmm5
+	LONG $0xeb2e0f66                           // ucomisd    xmm5, xmm3
+	LONG $0xd3430f48                           // cmovae    rdx, rbx
+	LONG $0xed700f66; BYTE $0xee               // pshufd    xmm5, xmm5, 238
+	LONG $0xf56f0f66                           // movdqa    xmm6, xmm5
+	LONG $0xf35c0ff2                           // subsd    xmm6, xmm3
+	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
+	WORD $0x314c; BYTE $0xdb                   // xor    rbx, r11
+	LONG $0x2c0f48f2; BYTE $0xc5               // cvttsd2si    rax, xmm5
+	LONG $0xeb2e0f66                           // ucomisd    xmm5, xmm3
+	LONG $0xc3430f48                           // cmovae    rax, rbx
+	LONG $0x6e0f4866; BYTE $0xea               // movq    xmm5, rdx
+	LONG $0x6e0f4866; BYTE $0xf0               // movq    xmm6, rax
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
+	LONG $0xe5540f66                           // andpd    xmm4, xmm5
+	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
+	LONG $0x64100f66; WORD $0x10f9             // movupd    xmm4, oword [rcx + 8*rdi + 16]
+	LONG $0xec280f66                           // movapd    xmm5, xmm4
+	LONG $0xe9540f66                           // andpd    xmm5, xmm1
+	LONG $0xea560f66                           // orpd    xmm5, xmm2
+	LONG $0xf5280f66                           // movapd    xmm6, xmm5
+	LONG $0xf35c0ff2                           // subsd    xmm6, xmm3
+	LONG $0x2c0f48f2; BYTE $0xc6               // cvttsd2si    rax, xmm6
+	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
+	LONG $0x2c0f48f2; BYTE $0xd5               // cvttsd2si    rdx, xmm5
+	LONG $0xeb2e0f66                           // ucomisd    xmm5, xmm3
+	LONG $0xd0430f48                           // cmovae    rdx, rax
+	LONG $0xed700f66; BYTE $0xee               // pshufd    xmm5, xmm5, 238
+	LONG $0xf56f0f66                           // movdqa    xmm6, xmm5
+	LONG $0xf35c0ff2                           // subsd    xmm6, xmm3
+	LONG $0x2c0f48f2; BYTE $0xc6               // cvttsd2si    rax, xmm6
+	WORD $0x314c; BYTE $0xd8                   // xor    rax, r11
+	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
+	LONG $0xeb2e0f66                           // ucomisd    xmm5, xmm3
+	LONG $0xd8430f48                           // cmovae    rbx, rax
+	LONG $0x6e0f4866; BYTE $0xea               // movq    xmm5, rdx
+	LONG $0x6e0f4866; BYTE $0xf3               // movq    xmm6, rbx
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
+	LONG $0xe5540f66                           // andpd    xmm4, xmm5
+	LONG $0x110f4166; WORD $0xf864; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm4
+	LONG $0x04c78348                           // add    rdi, 4
+	LONG $0x02c68349                           // add    r14, 2
+	JNE  LBB4_678
+	JMP  LBB4_1005
+
+LBB4_689:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1010
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_691:
+	LONG $0x1c6e0f66; BYTE $0x71               // movd    xmm3, dword [rcx + 2*rsi]
+	LONG $0x646e0f66; WORD $0x0471             // movd    xmm4, dword [rcx + 2*rsi + 4]
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x34380f66; BYTE $0xdb               // pmovzxwq    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x34380f66; BYTE $0xe4               // pmovzxwq    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
+	LONG $0x5c6e0f66; WORD $0x0871             // movd    xmm3, dword [rcx + 2*rsi + 8]
+	LONG $0x646e0f66; WORD $0x0c71             // movd    xmm4, dword [rcx + 2*rsi + 12]
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x34380f66; BYTE $0xdb               // pmovzxwq    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x34380f66; BYTE $0xe4               // pmovzxwq    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_691
+	JMP  LBB4_1011
+
+LBB4_692:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1015
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_694:
+	LONG $0x2c6e0f66; BYTE $0x71               // movd    xmm5, dword [rcx + 2*rsi]
+	LONG $0x746e0f66; WORD $0x0471             // movd    xmm6, dword [rcx + 2*rsi + 4]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
+	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
+	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x24380f66; BYTE $0xed               // pmovsxwq    xmm5, xmm5
+	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x24380f66; BYTE $0xf6               // pmovsxwq    xmm6, xmm6
+	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
+	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
+	LONG $0x6c6e0f66; WORD $0x0871             // movd    xmm5, dword [rcx + 2*rsi + 8]
+	LONG $0x746e0f66; WORD $0x0c71             // movd    xmm6, dword [rcx + 2*rsi + 12]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
+	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
+	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x24380f66; BYTE $0xed               // pmovsxwq    xmm5, xmm5
+	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x24380f66; BYTE $0xf6               // pmovsxwq    xmm6, xmm6
+	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
+	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_694
+	JMP  LBB4_1016
+
+LBB4_700:
+	WORD $0x8944; BYTE $0xd6               // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfe               // and    esi, -2
+	WORD $0xc031                           // xor    eax, eax
+	WORD $0x570f; BYTE $0xc0               // xorps    xmm0, xmm0
+	QUAD $0x0000012c8d100ff3               // movss    xmm1, dword 300[rbp] /* [rip + .LCPI4_9] */
+	QUAD $0x000000000000b949; WORD $0x8000 // mov    r9, -9223372036854775808
+	JMP  LBB4_703
+
+LBB4_701:
+	WORD $0x500f; BYTE $0xd2     // movmskps    edx, xmm2
+	WORD $0xe283; BYTE $0x01     // and    edx, 1
+	WORD $0xdaf7                 // neg    edx
+	WORD $0xca83; BYTE $0x01     // or    edx, 1
+	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
+	LONG $0xd22a0ff3             // cvtsi2ss    xmm2, edx
+	WORD $0x280f; BYTE $0xda     // movaps    xmm3, xmm2
+	LONG $0xd95c0ff3             // subss    xmm3, xmm1
+	LONG $0x2c0f48f3; BYTE $0xfb // cvttss2si    rdi, xmm3
+	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
+	LONG $0x2c0f48f3; BYTE $0xd2 // cvttss2si    rdx, xmm2
+	WORD $0x2e0f; BYTE $0xd1     // ucomiss    xmm2, xmm1
+	LONG $0xd7430f48             // cmovae    rdx, rdi
+	LONG $0xc0548949; BYTE $0x08 // mov    qword [r8 + 8*rax + 8], rdx
+	LONG $0x02c08348             // add    rax, 2
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JE   LBB4_290
+
+LBB4_703:
+	LONG $0x14100ff3; BYTE $0x81 // movss    xmm2, dword [rcx + 4*rax]
+	WORD $0x2e0f; BYTE $0xc2     // ucomiss    xmm0, xmm2
+	JNE  LBB4_705
+	WORD $0xd231                 // xor    edx, edx
+	JMP  LBB4_706
+
+LBB4_705:
+	WORD $0x500f; BYTE $0xd2     // movmskps    edx, xmm2
+	WORD $0xe283; BYTE $0x01     // and    edx, 1
+	WORD $0xdaf7                 // neg    edx
+	WORD $0xca83; BYTE $0x01     // or    edx, 1
+	WORD $0x570f; BYTE $0xd2     // xorps    xmm2, xmm2
+	LONG $0xd22a0ff3             // cvtsi2ss    xmm2, edx
+	WORD $0x280f; BYTE $0xda     // movaps    xmm3, xmm2
+	LONG $0xd95c0ff3             // subss    xmm3, xmm1
+	LONG $0x2c0f48f3; BYTE $0xfb // cvttss2si    rdi, xmm3
+	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
+	LONG $0x2c0f48f3; BYTE $0xd2 // cvttss2si    rdx, xmm2
+	WORD $0x2e0f; BYTE $0xd1     // ucomiss    xmm2, xmm1
+	LONG $0xd7430f48             // cmovae    rdx, rdi
+
+LBB4_706:
+	LONG $0xc0148949               // mov    qword [r8 + 8*rax], rdx
+	LONG $0x54100ff3; WORD $0x0481 // movss    xmm2, dword [rcx + 4*rax + 4]
+	WORD $0x2e0f; BYTE $0xc2       // ucomiss    xmm0, xmm2
+	JNE  LBB4_701
+	WORD $0xd231                   // xor    edx, edx
+	LONG $0xc0548949; BYTE $0x08   // mov    qword [r8 + 8*rax + 8], rdx
+	LONG $0x02c08348               // add    rax, 2
+	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
+	JNE  LBB4_703
+
+LBB4_290:
+	LONG $0x01c2f641             // test    r10b, 1
+	JE   LBB4_1655
+	LONG $0x04100ff3; BYTE $0x81 // movss    xmm0, dword [rcx + 4*rax]
+	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
+	WORD $0x2e0f; BYTE $0xc8     // ucomiss    xmm1, xmm0
+	JNE  LBB4_993
+	WORD $0xc931                 // xor    ecx, ecx
+	LONG $0xc00c8949             // mov    qword [r8 + 8*rax], rcx
+	JMP  LBB4_1655
+
+LBB4_713:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1021
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_715:
+	LONG $0x2c7e0ff3; BYTE $0xb1               // movq    xmm5, qword [rcx + 4*rsi]
+	LONG $0x747e0ff3; WORD $0x08b1             // movq    xmm6, qword [rcx + 4*rsi + 8]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
+	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
+	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
+	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x25380f66; BYTE $0xed               // pmovsxdq    xmm5, xmm5
+	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x25380f66; BYTE $0xf6               // pmovsxdq    xmm6, xmm6
+	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
+	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
+	LONG $0x6c7e0ff3; WORD $0x10b1             // movq    xmm5, qword [rcx + 4*rsi + 16]
+	LONG $0x747e0ff3; WORD $0x18b1             // movq    xmm6, qword [rcx + 4*rsi + 24]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
+	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
+	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
+	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x25380f66; BYTE $0xed               // pmovsxdq    xmm5, xmm5
+	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x25380f66; BYTE $0xf6               // pmovsxdq    xmm6, xmm6
+	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
+	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_715
+	JMP  LBB4_1022
+
+LBB4_716:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1137
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
+	LONG $0x556f0f66; BYTE $0x70 // movdqa    xmm2, oword 112[rbp] /* [rip + .LCPI4_11] */
+
+LBB4_718:
+	LONG $0x1c6f0ff3; BYTE $0xb1               // movdqu    xmm3, oword [rcx + 4*rsi]
+	LONG $0x646f0ff3; WORD $0x10b1             // movdqu    xmm4, oword [rcx + 4*rsi + 16]
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x701c             // movdqu    oword [r8 + 2*rsi], xmm3
+	LONG $0x5c6f0ff3; WORD $0x20b1             // movdqu    xmm3, oword [rcx + 4*rsi + 32]
+	LONG $0x646f0ff3; WORD $0x30b1             // movdqu    xmm4, oword [rcx + 4*rsi + 48]
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_718
+	JMP  LBB4_1138
+
+LBB4_719:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1142
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
+	LONG $0x556f0f66; BYTE $0x70 // movdqa    xmm2, oword 112[rbp] /* [rip + .LCPI4_11] */
+
+LBB4_721:
+	LONG $0x1c6f0ff3; BYTE $0xb1               // movdqu    xmm3, oword [rcx + 4*rsi]
+	LONG $0x646f0ff3; WORD $0x10b1             // movdqu    xmm4, oword [rcx + 4*rsi + 16]
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x701c             // movdqu    oword [r8 + 2*rsi], xmm3
+	LONG $0x5c6f0ff3; WORD $0x20b1             // movdqu    xmm3, oword [rcx + 4*rsi + 32]
+	LONG $0x646f0ff3; WORD $0x30b1             // movdqu    xmm4, oword [rcx + 4*rsi + 48]
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_721
+	JMP  LBB4_1143
+
+LBB4_722:
+	WORD $0xc689                 // mov    esi, eax
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB4_1147
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xd2570f66             // xorpd    xmm2, xmm2
+	LONG $0x5d280f66; BYTE $0x00 // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x65280f66; BYTE $0x10 // movapd    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_724:
+	LONG $0x2c100f66; BYTE $0xf9               // movupd    xmm5, oword [rcx + 8*rdi]
+	LONG $0x74100f66; WORD $0x10f9             // movupd    xmm6, oword [rcx + 8*rdi + 16]
+	LONG $0xc5280f66                           // movapd    xmm0, xmm5
+	LONG $0xc2c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xce280f66                           // movapd    xmm1, xmm6
+	LONG $0xcac20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xeb540f66                           // andpd    xmm5, xmm3
+	LONG $0xec560f66                           // orpd    xmm5, xmm4
+	LONG $0xf3540f66                           // andpd    xmm6, xmm3
+	LONG $0xf4560f66                           // orpd    xmm6, xmm4
+	LONG $0xede60f66                           // cvttpd2dq    xmm5, xmm5
+	LONG $0xed700ff2; BYTE $0xe8               // pshuflw    xmm5, xmm5, 232
+	LONG $0xf6e60f66                           // cvttpd2dq    xmm6, xmm6
+	LONG $0xf6700ff2; BYTE $0xe8               // pshuflw    xmm6, xmm6, 232
+	LONG $0x10380f66; BYTE $0xea               // pblendvb    xmm5, xmm2, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf2               // pblendvb    xmm6, xmm2, xmm0
+	LONG $0x7e0f4166; WORD $0x782c             // movd    dword [r8 + 2*rdi], xmm5
+	LONG $0x7e0f4166; WORD $0x7874; BYTE $0x04 // movd    dword [r8 + 2*rdi + 4], xmm6
+	LONG $0x6c100f66; WORD $0x20f9             // movupd    xmm5, oword [rcx + 8*rdi + 32]
+	LONG $0x74100f66; WORD $0x30f9             // movupd    xmm6, oword [rcx + 8*rdi + 48]
+	LONG $0xc5280f66                           // movapd    xmm0, xmm5
+	LONG $0xc2c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xce280f66                           // movapd    xmm1, xmm6
+	LONG $0xcac20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xeb540f66                           // andpd    xmm5, xmm3
+	LONG $0xec560f66                           // orpd    xmm5, xmm4
+	LONG $0xf3540f66                           // andpd    xmm6, xmm3
+	LONG $0xf4560f66                           // orpd    xmm6, xmm4
+	LONG $0xede60f66                           // cvttpd2dq    xmm5, xmm5
+	LONG $0xed700ff2; BYTE $0xe8               // pshuflw    xmm5, xmm5, 232
+	LONG $0xf6e60f66                           // cvttpd2dq    xmm6, xmm6
+	LONG $0xf6700ff2; BYTE $0xe8               // pshuflw    xmm6, xmm6, 232
+	LONG $0x10380f66; BYTE $0xea               // pblendvb    xmm5, xmm2, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf2               // pblendvb    xmm6, xmm2, xmm0
+	LONG $0x7e0f4166; WORD $0x786c; BYTE $0x08 // movd    dword [r8 + 2*rdi + 8], xmm5
+	LONG $0x7e0f4166; WORD $0x7874; BYTE $0x0c // movd    dword [r8 + 2*rdi + 12], xmm6
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB4_724
+	JMP  LBB4_1148
+
+LBB4_725:
+	WORD $0xc689                 // mov    esi, eax
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB4_1153
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xd2570f66             // xorpd    xmm2, xmm2
+	LONG $0x5d280f66; BYTE $0x00 // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x65280f66; BYTE $0x10 // movapd    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_727:
+	LONG $0x2c100f66; BYTE $0xf9               // movupd    xmm5, oword [rcx + 8*rdi]
+	LONG $0x74100f66; WORD $0x10f9             // movupd    xmm6, oword [rcx + 8*rdi + 16]
+	LONG $0xc5280f66                           // movapd    xmm0, xmm5
+	LONG $0xc2c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xce280f66                           // movapd    xmm1, xmm6
+	LONG $0xcac20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xeb540f66                           // andpd    xmm5, xmm3
+	LONG $0xec560f66                           // orpd    xmm5, xmm4
+	LONG $0xf3540f66                           // andpd    xmm6, xmm3
+	LONG $0xf4560f66                           // orpd    xmm6, xmm4
+	LONG $0xede60f66                           // cvttpd2dq    xmm5, xmm5
+	LONG $0xed700ff2; BYTE $0xe8               // pshuflw    xmm5, xmm5, 232
+	LONG $0xf6e60f66                           // cvttpd2dq    xmm6, xmm6
+	LONG $0xf6700ff2; BYTE $0xe8               // pshuflw    xmm6, xmm6, 232
+	LONG $0x10380f66; BYTE $0xea               // pblendvb    xmm5, xmm2, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf2               // pblendvb    xmm6, xmm2, xmm0
+	LONG $0x7e0f4166; WORD $0x782c             // movd    dword [r8 + 2*rdi], xmm5
+	LONG $0x7e0f4166; WORD $0x7874; BYTE $0x04 // movd    dword [r8 + 2*rdi + 4], xmm6
+	LONG $0x6c100f66; WORD $0x20f9             // movupd    xmm5, oword [rcx + 8*rdi + 32]
+	LONG $0x74100f66; WORD $0x30f9             // movupd    xmm6, oword [rcx + 8*rdi + 48]
+	LONG $0xc5280f66                           // movapd    xmm0, xmm5
+	LONG $0xc2c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xce280f66                           // movapd    xmm1, xmm6
+	LONG $0xcac20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xeb540f66                           // andpd    xmm5, xmm3
+	LONG $0xec560f66                           // orpd    xmm5, xmm4
+	LONG $0xf3540f66                           // andpd    xmm6, xmm3
+	LONG $0xf4560f66                           // orpd    xmm6, xmm4
+	LONG $0xede60f66                           // cvttpd2dq    xmm5, xmm5
+	LONG $0xed700ff2; BYTE $0xe8               // pshuflw    xmm5, xmm5, 232
+	LONG $0xf6e60f66                           // cvttpd2dq    xmm6, xmm6
+	LONG $0xf6700ff2; BYTE $0xe8               // pshuflw    xmm6, xmm6, 232
+	LONG $0x10380f66; BYTE $0xea               // pblendvb    xmm5, xmm2, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf2               // pblendvb    xmm6, xmm2, xmm0
+	LONG $0x7e0f4166; WORD $0x786c; BYTE $0x08 // movd    dword [r8 + 2*rdi + 8], xmm5
+	LONG $0x7e0f4166; WORD $0x7874; BYTE $0x0c // movd    dword [r8 + 2*rdi + 12], xmm6
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB4_727
+	JMP  LBB4_1154
+
+LBB4_738:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1027
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x000000b0956f0f66 // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI4_17] */
+
+LBB4_740:
+	LONG $0x1c6f0ff3; BYTE $0xf1               // movdqu    xmm3, oword [rcx + 8*rsi]
+	LONG $0x646f0ff3; WORD $0x10f1             // movdqu    xmm4, oword [rcx + 8*rsi + 16]
+	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0x29380f66; BYTE $0xe0               // pcmpeqq    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7e0f4166; WORD $0x701c             // movd    dword [r8 + 2*rsi], xmm3
+	LONG $0x7e0f4166; WORD $0x7064; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm4
+	LONG $0x5c6f0ff3; WORD $0x20f1             // movdqu    xmm3, oword [rcx + 8*rsi + 32]
+	LONG $0x646f0ff3; WORD $0x30f1             // movdqu    xmm4, oword [rcx + 8*rsi + 48]
+	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0x29380f66; BYTE $0xe0               // pcmpeqq    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7e0f4166; WORD $0x705c; BYTE $0x08 // movd    dword [r8 + 2*rsi + 8], xmm3
+	LONG $0x7e0f4166; WORD $0x7064; BYTE $0x0c // movd    dword [r8 + 2*rsi + 12], xmm4
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_740
+	JMP  LBB4_1028
+
+LBB4_741:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1032
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x000000b0956f0f66 // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI4_17] */
+
+LBB4_743:
+	LONG $0x1c6f0ff3; BYTE $0xf1               // movdqu    xmm3, oword [rcx + 8*rsi]
+	LONG $0x646f0ff3; WORD $0x10f1             // movdqu    xmm4, oword [rcx + 8*rsi + 16]
+	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0x29380f66; BYTE $0xe0               // pcmpeqq    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7e0f4166; WORD $0x701c             // movd    dword [r8 + 2*rsi], xmm3
+	LONG $0x7e0f4166; WORD $0x7064; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm4
+	LONG $0x5c6f0ff3; WORD $0x20f1             // movdqu    xmm3, oword [rcx + 8*rsi + 32]
+	LONG $0x646f0ff3; WORD $0x30f1             // movdqu    xmm4, oword [rcx + 8*rsi + 48]
+	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0x29380f66; BYTE $0xe0               // pcmpeqq    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7e0f4166; WORD $0x705c; BYTE $0x08 // movd    dword [r8 + 2*rsi + 8], xmm3
+	LONG $0x7e0f4166; WORD $0x7064; BYTE $0x0c // movd    dword [r8 + 2*rsi + 12], xmm4
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_743
+	JMP  LBB4_1033
+
+LBB4_764:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1037
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x000000b0a56f0f66 // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
+
+LBB4_766:
+	LONG $0x2c6f0ff3; BYTE $0xf1               // movdqu    xmm5, oword [rcx + 8*rsi]
+	LONG $0x746f0ff3; WORD $0x10f1             // movdqu    xmm6, oword [rcx + 8*rsi + 16]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x702c             // movd    dword [r8 + 2*rsi], xmm5
+	LONG $0x7e0f4166; WORD $0x7074; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm6
+	LONG $0x6c6f0ff3; WORD $0x20f1             // movdqu    xmm5, oword [rcx + 8*rsi + 32]
+	LONG $0x746f0ff3; WORD $0x30f1             // movdqu    xmm6, oword [rcx + 8*rsi + 48]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x706c; BYTE $0x08 // movd    dword [r8 + 2*rsi + 8], xmm5
+	LONG $0x7e0f4166; WORD $0x7074; BYTE $0x0c // movd    dword [r8 + 2*rsi + 12], xmm6
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_766
+	JMP  LBB4_1038
+
+LBB4_767:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1159
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x000000b0a56f0f66 // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
+
+LBB4_769:
+	LONG $0x2c6f0ff3; BYTE $0xf1               // movdqu    xmm5, oword [rcx + 8*rsi]
+	LONG $0x746f0ff3; WORD $0x10f1             // movdqu    xmm6, oword [rcx + 8*rsi + 16]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x702c             // movd    dword [r8 + 2*rsi], xmm5
+	LONG $0x7e0f4166; WORD $0x7074; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm6
+	LONG $0x6c6f0ff3; WORD $0x20f1             // movdqu    xmm5, oword [rcx + 8*rsi + 32]
+	LONG $0x746f0ff3; WORD $0x30f1             // movdqu    xmm6, oword [rcx + 8*rsi + 48]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0x37380f66; BYTE $0xc2               // pcmpgtq    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x706c; BYTE $0x08 // movd    dword [r8 + 2*rsi + 8], xmm5
+	LONG $0x7e0f4166; WORD $0x7074; BYTE $0x0c // movd    dword [r8 + 2*rsi + 12], xmm6
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_769
+	JMP  LBB4_1160
+
+LBB4_770:
+	WORD $0xc689                 // mov    esi, eax
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB4_1165
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x570f; BYTE $0xe4     // xorps    xmm4, xmm4
+	LONG $0x760f4566; BYTE $0xc0 // pcmpeqd    xmm8, xmm8
+	LONG $0x756f0f66; BYTE $0x70 // movdqa    xmm6, oword 112[rbp] /* [rip + .LCPI4_11] */
+
+LBB4_772:
+	LONG $0xb904100f                           // movups    xmm0, oword [rcx + 4*rdi]
+	LONG $0xb94c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rdi + 16]
+	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
+	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
+	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
+	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xfd6c0f66                           // punpcklqdq    xmm7, xmm5
+	LONG $0x7f0f41f3; WORD $0x783c             // movdqu    oword [r8 + 2*rdi], xmm7
+	LONG $0xb944100f; BYTE $0x20               // movups    xmm0, oword [rcx + 4*rdi + 32]
+	LONG $0xb94c100f; BYTE $0x30               // movups    xmm1, oword [rcx + 4*rdi + 48]
+	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
+	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
+	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0xef6c0f66                           // punpcklqdq    xmm5, xmm7
+	LONG $0x7f0f41f3; WORD $0x786c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm5
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB4_772
+	JMP  LBB4_1166
+
+LBB4_773:
+	WORD $0xc689                 // mov    esi, eax
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB4_1171
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0x570f; BYTE $0xe4     // xorps    xmm4, xmm4
+	LONG $0x760f4566; BYTE $0xc0 // pcmpeqd    xmm8, xmm8
+	LONG $0x756f0f66; BYTE $0x70 // movdqa    xmm6, oword 112[rbp] /* [rip + .LCPI4_11] */
+
+LBB4_775:
+	LONG $0xb904100f                           // movups    xmm0, oword [rcx + 4*rdi]
+	LONG $0xb94c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rdi + 16]
+	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
+	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
+	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
+	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xfd6c0f66                           // punpcklqdq    xmm7, xmm5
+	LONG $0x7f0f41f3; WORD $0x783c             // movdqu    oword [r8 + 2*rdi], xmm7
+	LONG $0xb944100f; BYTE $0x20               // movups    xmm0, oword [rcx + 4*rdi + 32]
+	LONG $0xb94c100f; BYTE $0x30               // movups    xmm1, oword [rcx + 4*rdi + 48]
+	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
+	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
+	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0xef6c0f66                           // punpcklqdq    xmm5, xmm7
+	LONG $0x7f0f41f3; WORD $0x786c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm5
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB4_775
+	JMP  LBB4_1172
+
+LBB4_786:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1043
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
+	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x70 // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
+
+LBB4_788:
+	LONG $0x2c6f0ff3; BYTE $0xb1               // movdqu    xmm5, oword [rcx + 4*rsi]
+	LONG $0x746f0ff3; WORD $0x10b1             // movdqu    xmm6, oword [rcx + 4*rsi + 16]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x702c             // movdqu    oword [r8 + 2*rsi], xmm5
+	LONG $0x6c6f0ff3; WORD $0x20b1             // movdqu    xmm5, oword [rcx + 4*rsi + 32]
+	LONG $0x746f0ff3; WORD $0x30b1             // movdqu    xmm6, oword [rcx + 4*rsi + 48]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm5
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_788
+	JMP  LBB4_1044
+
+LBB4_789:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1049
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
+	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x70 // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
+
+LBB4_791:
+	LONG $0x2c6f0ff3; BYTE $0xb1               // movdqu    xmm5, oword [rcx + 4*rsi]
+	LONG $0x746f0ff3; WORD $0x10b1             // movdqu    xmm6, oword [rcx + 4*rsi + 16]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x702c             // movdqu    oword [r8 + 2*rsi], xmm5
+	LONG $0x6c6f0ff3; WORD $0x20b1             // movdqu    xmm5, oword [rcx + 4*rsi + 32]
+	LONG $0x746f0ff3; WORD $0x30b1             // movdqu    xmm6, oword [rcx + 4*rsi + 48]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm5
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_791
+	JMP  LBB4_1050
+
+LBB4_792:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1177
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_794:
+	LONG $0x1c7e0ff3; BYTE $0xb1               // movq    xmm3, qword [rcx + 4*rsi]
+	LONG $0x647e0ff3; WORD $0x08b1             // movq    xmm4, qword [rcx + 4*rsi + 8]
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x35380f66; BYTE $0xdb               // pmovzxdq    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x35380f66; BYTE $0xe4               // pmovzxdq    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
+	LONG $0x5c7e0ff3; WORD $0x10b1             // movq    xmm3, qword [rcx + 4*rsi + 16]
+	LONG $0x647e0ff3; WORD $0x18b1             // movq    xmm4, qword [rcx + 4*rsi + 24]
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x35380f66; BYTE $0xdb               // pmovzxdq    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x35380f66; BYTE $0xe4               // pmovzxdq    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_794
+	JMP  LBB4_1178
+
+LBB4_795:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1182
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	QUAD $0x000000d08d6f0f66 // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI4_19] */
+
+LBB4_797:
+	LONG $0x146f0ff3; BYTE $0xb1               // movdqu    xmm2, oword [rcx + 4*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10b1             // movdqu    xmm3, oword [rcx + 4*rsi + 16]
+	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm3
+	LONG $0x546f0ff3; WORD $0x20b1             // movdqu    xmm2, oword [rcx + 4*rsi + 32]
+	LONG $0x5c6f0ff3; WORD $0x30b1             // movdqu    xmm3, oword [rcx + 4*rsi + 48]
+	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm3
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_797
+	JMP  LBB4_1183
+
+LBB4_798:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc     // and    edx, -4
+	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1190
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0570f66             // xorpd    xmm0, xmm0
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_800:
+	LONG $0x1c100f66; BYTE $0xf1               // movupd    xmm3, oword [rcx + 8*rsi]
+	LONG $0x64100f66; WORD $0x10f1             // movupd    xmm4, oword [rcx + 8*rsi + 16]
+	LONG $0xeb280f66                           // movapd    xmm5, xmm3
+	LONG $0xe9540f66                           // andpd    xmm5, xmm1
+	LONG $0xea560f66                           // orpd    xmm5, xmm2
+	LONG $0xf4280f66                           // movapd    xmm6, xmm4
+	LONG $0xf1540f66                           // andpd    xmm6, xmm1
+	LONG $0xf2560f66                           // orpd    xmm6, xmm2
+	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
+	LONG $0x6e0f4866; BYTE $0xfb               // movq    xmm7, rbx
+	LONG $0xed700f66; BYTE $0xee               // pshufd    xmm5, xmm5, 238
+	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
+	LONG $0x6e0f4866; BYTE $0xeb               // movq    xmm5, rbx
+	LONG $0xfd6c0f66                           // punpcklqdq    xmm7, xmm5
+	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
+	LONG $0x6e0f4866; BYTE $0xeb               // movq    xmm5, rbx
+	LONG $0xf6700f66; BYTE $0xee               // pshufd    xmm6, xmm6, 238
+	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
+	LONG $0x6e0f4866; BYTE $0xf3               // movq    xmm6, rbx
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	LONG $0xd8c20f66; BYTE $0x04               // cmpneqpd    xmm3, xmm0
+	LONG $0xdf540f66                           // andpd    xmm3, xmm7
+	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
+	LONG $0xe5540f66                           // andpd    xmm4, xmm5
+	LONG $0x110f4166; WORD $0xf01c             // movupd    oword [r8 + 8*rsi], xmm3
+	LONG $0x110f4166; WORD $0xf064; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm4
+	LONG $0x5c100f66; WORD $0x20f1             // movupd    xmm3, oword [rcx + 8*rsi + 32]
+	LONG $0x64100f66; WORD $0x30f1             // movupd    xmm4, oword [rcx + 8*rsi + 48]
+	LONG $0xeb280f66                           // movapd    xmm5, xmm3
+	LONG $0xe9540f66                           // andpd    xmm5, xmm1
+	LONG $0xea560f66                           // orpd    xmm5, xmm2
+	LONG $0xf4280f66                           // movapd    xmm6, xmm4
+	LONG $0xf1540f66                           // andpd    xmm6, xmm1
+	LONG $0xf2560f66                           // orpd    xmm6, xmm2
+	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
+	LONG $0x6e0f4866; BYTE $0xfb               // movq    xmm7, rbx
+	LONG $0xed700f66; BYTE $0xee               // pshufd    xmm5, xmm5, 238
+	LONG $0x2c0f48f2; BYTE $0xdd               // cvttsd2si    rbx, xmm5
+	LONG $0x6e0f4866; BYTE $0xeb               // movq    xmm5, rbx
+	LONG $0xfd6c0f66                           // punpcklqdq    xmm7, xmm5
+	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
+	LONG $0x6e0f4866; BYTE $0xeb               // movq    xmm5, rbx
+	LONG $0xf6700f66; BYTE $0xee               // pshufd    xmm6, xmm6, 238
+	LONG $0x2c0f48f2; BYTE $0xde               // cvttsd2si    rbx, xmm6
+	LONG $0x6e0f4866; BYTE $0xf3               // movq    xmm6, rbx
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	LONG $0xd8c20f66; BYTE $0x04               // cmpneqpd    xmm3, xmm0
+	LONG $0xdf540f66                           // andpd    xmm3, xmm7
+	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
+	LONG $0xe5540f66                           // andpd    xmm4, xmm5
+	LONG $0x110f4166; WORD $0xf05c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm3
+	LONG $0x110f4166; WORD $0xf064; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm4
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_800
+	JMP  LBB4_1191
+
+LBB4_801:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc     // and    edx, -4
+	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1196
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x570f4566; BYTE $0xc0 // xorpd    xmm8, xmm8
+	LONG $0x4d5a0f66; BYTE $0x10 // cvtpd2ps    xmm1, oword 16[rbp] /* [rip + .LCPI4_1] */
+	LONG $0x4d280f44; BYTE $0x20 // movaps    xmm9, oword 32[rbp] /* [rip + .LCPI4_3] */
+	LONG $0xd9160ff3             // movshdup    xmm3, xmm1
+	LONG $0xd9540f41             // andps    xmm3, xmm9
+	LONG $0xc9540f41             // andps    xmm1, xmm9
+
+LBB4_803:
+	LONG $0x24100f66; BYTE $0xf1   // movupd    xmm4, oword [rcx + 8*rsi]
+	LONG $0x74100f66; WORD $0x10f1 // movupd    xmm6, oword [rcx + 8*rsi + 16]
+	WORD $0x570f; BYTE $0xed       // xorps    xmm5, xmm5
+	LONG $0xec5a0ff2               // cvtsd2ss    xmm5, xmm4
+	LONG $0xc20f4166; WORD $0x00e0 // cmpeqpd    xmm4, xmm8
+	LONG $0xe8e4c60f               // shufps    xmm4, xmm4, 232
+	WORD $0x570f; BYTE $0xff       // xorps    xmm7, xmm7
+	LONG $0xfe5a0ff2               // cvtsd2ss    xmm7, xmm6
+	LONG $0xc20f4166; WORD $0x00f0 // cmpeqpd    xmm6, xmm8
+	LONG $0xe8f6c60f               // shufps    xmm6, xmm6, 232
+	LONG $0x44100ff2; WORD $0x08f1 // movsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0xc05a0ff2               // cvtsd2ss    xmm0, xmm0
+	LONG $0xd1280f41               // movaps    xmm2, xmm9
+	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
+	WORD $0x560f; BYTE $0xd3       // orps    xmm2, xmm3
+	LONG $0xc1280f41               // movaps    xmm0, xmm9
+	WORD $0x550f; BYTE $0xc5       // andnps    xmm0, xmm5
+	WORD $0x560f; BYTE $0xc1       // orps    xmm0, xmm1
+	WORD $0x140f; BYTE $0xc2       // unpcklps    xmm0, xmm2
+	WORD $0x550f; BYTE $0xe0       // andnps    xmm4, xmm0
+	LONG $0x44100ff2; WORD $0x18f1 // movsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0xc05a0ff2               // cvtsd2ss    xmm0, xmm0
+	LONG $0xd1280f41               // movaps    xmm2, xmm9
+	WORD $0x550f; BYTE $0xd0       // andnps    xmm2, xmm0
+	WORD $0x560f; BYTE $0xd3       // orps    xmm2, xmm3
+	LONG $0xc1280f41               // movaps    xmm0, xmm9
+	WORD $0x550f; BYTE $0xc7       // andnps    xmm0, xmm7
+	WORD $0x560f; BYTE $0xc1       // orps    xmm0, xmm1
+	WORD $0x140f; BYTE $0xc2       // unpcklps    xmm0, xmm2
+	WORD $0x550f; BYTE $0xf0       // andnps    xmm6, xmm0
+	WORD $0x160f; BYTE $0xe6       // movlhps    xmm4, xmm6
+	LONG $0x24110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm4
+	LONG $0x64100f66; WORD $0x20f1 // movupd    xmm4, oword [rcx + 8*rsi + 32]
+	LONG $0x44100f66; WORD $0x30f1 // movupd    xmm0, oword [rcx + 8*rsi + 48]
+	WORD $0x570f; BYTE $0xd2       // xorps    xmm2, xmm2
+	LONG $0xd45a0ff2               // cvtsd2ss    xmm2, xmm4
+	LONG $0xc20f4166; WORD $0x00e0 // cmpeqpd    xmm4, xmm8
+	LONG $0xe8e4c60f               // shufps    xmm4, xmm4, 232
+	WORD $0x570f; BYTE $0xed       // xorps    xmm5, xmm5
+	LONG $0xe85a0ff2               // cvtsd2ss    xmm5, xmm0
+	LONG $0xc20f4166; WORD $0x00c0 // cmpeqpd    xmm0, xmm8
+	LONG $0x74100ff2; WORD $0x28f1 // movsd    xmm6, qword [rcx + 8*rsi + 40]
+	LONG $0xf65a0ff2               // cvtsd2ss    xmm6, xmm6
+	LONG $0xe8c0c60f               // shufps    xmm0, xmm0, 232
+	LONG $0xf9280f41               // movaps    xmm7, xmm9
+	WORD $0x550f; BYTE $0xfe       // andnps    xmm7, xmm6
+	WORD $0x560f; BYTE $0xfb       // orps    xmm7, xmm3
+	LONG $0xf1280f41               // movaps    xmm6, xmm9
+	WORD $0x550f; BYTE $0xf2       // andnps    xmm6, xmm2
+	WORD $0x560f; BYTE $0xf1       // orps    xmm6, xmm1
+	WORD $0x140f; BYTE $0xf7       // unpcklps    xmm6, xmm7
+	WORD $0x550f; BYTE $0xe6       // andnps    xmm4, xmm6
+	LONG $0x54100ff2; WORD $0x38f1 // movsd    xmm2, qword [rcx + 8*rsi + 56]
+	LONG $0xd25a0ff2               // cvtsd2ss    xmm2, xmm2
+	LONG $0xf1280f41               // movaps    xmm6, xmm9
+	WORD $0x550f; BYTE $0xf2       // andnps    xmm6, xmm2
+	WORD $0x560f; BYTE $0xf3       // orps    xmm6, xmm3
+	LONG $0xd1280f41               // movaps    xmm2, xmm9
+	WORD $0x550f; BYTE $0xd5       // andnps    xmm2, xmm5
+	WORD $0x560f; BYTE $0xd1       // orps    xmm2, xmm1
+	WORD $0x140f; BYTE $0xd6       // unpcklps    xmm2, xmm6
+	WORD $0x550f; BYTE $0xc2       // andnps    xmm0, xmm2
+	WORD $0x160f; BYTE $0xe0       // movlhps    xmm4, xmm0
+	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
+	LONG $0x08c68348               // add    rsi, 8
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_803
+	JMP  LBB4_1197
+
+LBB4_819:
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x0000012885100ff3 // movss    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_821
+
+LBB4_820:
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3948; BYTE $0xf2                   // cmp    rdx, rsi
+	JE   LBB4_387
+
+LBB4_821:
+	LONG $0xf13c8348; BYTE $0x00   // cmp    qword [rcx + 8*rsi], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JNE  LBB4_822
+	LONG $0xc9570f66               // xorpd    xmm1, xmm1
+	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
+	LONG $0xf17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rsi + 8], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JE   LBB4_826
+
+LBB4_823:
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
+	LONG $0xf17c8348; WORD $0x0010             // cmp    qword [rcx + 8*rsi + 16], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_824
+
+LBB4_827:
+	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
+	LONG $0xf17c8348; WORD $0x0018             // cmp    qword [rcx + 8*rsi + 24], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_820
+	JMP  LBB4_828
+
+LBB4_822:
+	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
+	LONG $0xf17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rsi + 8], 0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	JNE  LBB4_823
+
+LBB4_826:
+	LONG $0xc9570f66                           // xorpd    xmm1, xmm1
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
+	LONG $0xf17c8348; WORD $0x0010             // cmp    qword [rcx + 8*rsi + 16], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JE   LBB4_827
+
+LBB4_824:
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
+	LONG $0xf17c8348; WORD $0x0018             // cmp    qword [rcx + 8*rsi + 24], 0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	JNE  LBB4_820
+
+LBB4_828:
+	LONG $0xc9570f66 // xorpd    xmm1, xmm1
+	JMP  LBB4_820
+
+LBB4_829:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1055
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_831:
+	LONG $0x1c6e0f66; BYTE $0x71               // movd    xmm3, dword [rcx + 2*rsi]
+	LONG $0x646e0f66; WORD $0x0471             // movd    xmm4, dword [rcx + 2*rsi + 4]
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x34380f66; BYTE $0xdb               // pmovzxwq    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x34380f66; BYTE $0xe4               // pmovzxwq    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
+	LONG $0x5c6e0f66; WORD $0x0871             // movd    xmm3, dword [rcx + 2*rsi + 8]
+	LONG $0x646e0f66; WORD $0x0c71             // movd    xmm4, dword [rcx + 2*rsi + 12]
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x34380f66; BYTE $0xdb               // pmovzxwq    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x34380f66; BYTE $0xe4               // pmovzxwq    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_831
+	JMP  LBB4_1056
+
+LBB4_832:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1204
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
+	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_834:
+	LONG $0x1c7e0ff3; BYTE $0x71   // movq    xmm3, qword [rcx + 2*rsi]
+	LONG $0x647e0ff3; WORD $0x0871 // movq    xmm4, qword [rcx + 2*rsi + 8]
+	LONG $0xd8750f66               // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
+	LONG $0x33380f66; BYTE $0xdb   // pmovzxwd    xmm3, xmm3
+	LONG $0xdadb0f66               // pand    xmm3, xmm2
+	WORD $0x5b0f; BYTE $0xdb       // cvtdq2ps    xmm3, xmm3
+	LONG $0xe0750f66               // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66               // pxor    xmm4, xmm1
+	LONG $0x33380f66; BYTE $0xe4   // pmovzxwd    xmm4, xmm4
+	LONG $0xe2db0f66               // pand    xmm4, xmm2
+	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
+	LONG $0x1c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm3
+	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
+	LONG $0x5c7e0ff3; WORD $0x1071 // movq    xmm3, qword [rcx + 2*rsi + 16]
+	LONG $0x647e0ff3; WORD $0x1871 // movq    xmm4, qword [rcx + 2*rsi + 24]
+	LONG $0xd8750f66               // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
+	LONG $0x33380f66; BYTE $0xdb   // pmovzxwd    xmm3, xmm3
+	LONG $0xdadb0f66               // pand    xmm3, xmm2
+	WORD $0x5b0f; BYTE $0xdb       // cvtdq2ps    xmm3, xmm3
+	LONG $0xe0750f66               // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66               // pxor    xmm4, xmm1
+	LONG $0x33380f66; BYTE $0xe4   // pmovzxwd    xmm4, xmm4
+	LONG $0xe2db0f66               // pand    xmm4, xmm2
+	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
+	LONG $0x5c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm3
+	LONG $0x64110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm4
+	LONG $0x10c68348               // add    rsi, 16
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_834
+	JMP  LBB4_1205
+
+LBB4_835:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1212
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_837:
+	LONG $0x2c6e0f66; BYTE $0x71               // movd    xmm5, dword [rcx + 2*rsi]
+	LONG $0x746e0f66; WORD $0x0471             // movd    xmm6, dword [rcx + 2*rsi + 4]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
+	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
+	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x24380f66; BYTE $0xed               // pmovsxwq    xmm5, xmm5
+	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x24380f66; BYTE $0xf6               // pmovsxwq    xmm6, xmm6
+	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
+	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
+	LONG $0x6c6e0f66; WORD $0x0871             // movd    xmm5, dword [rcx + 2*rsi + 8]
+	LONG $0x746e0f66; WORD $0x0c71             // movd    xmm6, dword [rcx + 2*rsi + 12]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
+	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
+	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x24380f66; BYTE $0xed               // pmovsxwq    xmm5, xmm5
+	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x24380f66; BYTE $0xf6               // pmovsxwq    xmm6, xmm6
+	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
+	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_837
+	JMP  LBB4_1213
+
+LBB4_838:
+	WORD $0xc289                               // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8                   // and    edx, -8
+	LONG $0xf8728d48                           // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
+	LONG $0x03e9c149                           // shr    r9, 3
+	LONG $0x01c18349                           // add    r9, 1
+	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
+	JE   LBB4_1218
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	LONG $0xfee78348                           // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf                   // neg    rdi
+	WORD $0xf631                               // xor    esi, esi
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
+
+LBB4_840:
+	LONG $0x2c7e0ff3; BYTE $0x71   // movq    xmm5, qword [rcx + 2*rsi]
+	LONG $0x747e0ff3; WORD $0x0871 // movq    xmm6, qword [rcx + 2*rsi + 8]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
+	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
+	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
+	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
+	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
+	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
+	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
+	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
+	LONG $0x6c7e0ff3; WORD $0x1071 // movq    xmm5, qword [rcx + 2*rsi + 16]
+	LONG $0x747e0ff3; WORD $0x1871 // movq    xmm6, qword [rcx + 2*rsi + 24]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
+	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
+	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
+	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
+	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
+	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
+	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
+	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
+	LONG $0x10c68348               // add    rsi, 16
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_840
+	JMP  LBB4_1219
+
+LBB4_846:
+	WORD $0xd689             // mov    esi, edx
+	WORD $0xe683; BYTE $0xfe // and    esi, -2
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000013085100ff3 // movss    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
+	QUAD $0x000001288d100ff3 // movss    xmm1, dword 296[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_848
+
+LBB4_847:
+	LONG $0x110f41f3; WORD $0x805c; BYTE $0x04 // movss    dword [r8 + 4*rax + 4], xmm3
+	LONG $0x02c08348                           // add    rax, 2
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JE   LBB4_410
+
+LBB4_848:
+	LONG $0xc13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rax], 0
+	LONG $0xd0280f66             // movapd    xmm2, xmm0
+	JNE  LBB4_849
+	LONG $0xd2570f66             // xorpd    xmm2, xmm2
+	LONG $0xd9280f66             // movapd    xmm3, xmm1
+	JLE  LBB4_853
+
+LBB4_850:
+	LONG $0x110f41f3; WORD $0x801c // movss    dword [r8 + 4*rax], xmm3
+	LONG $0xc17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rax + 8], 0
+	LONG $0xd0280f66               // movapd    xmm2, xmm0
+	JNE  LBB4_851
+
+LBB4_854:
+	LONG $0xd2570f66 // xorpd    xmm2, xmm2
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_847
+	JMP  LBB4_855
+
+LBB4_849:
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_850
+
+LBB4_853:
+	LONG $0xda280f66               // movapd    xmm3, xmm2
+	LONG $0x110f41f3; WORD $0x801c // movss    dword [r8 + 4*rax], xmm3
+	LONG $0xc17c8348; WORD $0x0008 // cmp    qword [rcx + 8*rax + 8], 0
+	LONG $0xd0280f66               // movapd    xmm2, xmm0
+	JE   LBB4_854
+
+LBB4_851:
+	LONG $0xd9280f66 // movapd    xmm3, xmm1
+	JG   LBB4_847
+
+LBB4_855:
+	LONG $0xda280f66 // movapd    xmm3, xmm2
+	JMP  LBB4_847
+
+LBB4_856:
+	WORD $0xd689             // mov    esi, edx
+	WORD $0xe683; BYTE $0xfe // and    esi, -2
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
+	JMP  LBB4_859
+
+LBB4_857:
+	WORD $0x500f; BYTE $0xf9     // movmskps    edi, xmm1
+	WORD $0xe783; BYTE $0x01     // and    edi, 1
+	WORD $0xdff7                 // neg    edi
+	WORD $0xcf83; BYTE $0x01     // or    edi, 1
+	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
+	LONG $0xcf2a0ff3             // cvtsi2ss    xmm1, edi
+	LONG $0x2c0f48f3; BYTE $0xf9 // cvttss2si    rdi, xmm1
+	LONG $0xc07c8949; BYTE $0x08 // mov    qword [r8 + 8*rax + 8], rdi
+	LONG $0x02c08348             // add    rax, 2
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JE   LBB4_416
+
+LBB4_859:
+	LONG $0x0c100ff3; BYTE $0x81 // movss    xmm1, dword [rcx + 4*rax]
+	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
+	JNE  LBB4_861
+	WORD $0xff31                 // xor    edi, edi
+	JMP  LBB4_862
+
+LBB4_861:
+	WORD $0x500f; BYTE $0xf9     // movmskps    edi, xmm1
+	WORD $0xe783; BYTE $0x01     // and    edi, 1
+	WORD $0xdff7                 // neg    edi
+	WORD $0xcf83; BYTE $0x01     // or    edi, 1
+	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
+	LONG $0xcf2a0ff3             // cvtsi2ss    xmm1, edi
+	LONG $0x2c0f48f3; BYTE $0xf9 // cvttss2si    rdi, xmm1
+
+LBB4_862:
+	LONG $0xc03c8949               // mov    qword [r8 + 8*rax], rdi
+	LONG $0x4c100ff3; WORD $0x0481 // movss    xmm1, dword [rcx + 4*rax + 4]
+	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
+	JNE  LBB4_857
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0xc07c8949; BYTE $0x08   // mov    qword [r8 + 8*rax + 8], rdi
+	LONG $0x02c08348               // add    rax, 2
+	WORD $0x3948; BYTE $0xc6       // cmp    rsi, rax
+	JNE  LBB4_859
+
+LBB4_416:
+	WORD $0xc2f6; BYTE $0x01     // test    dl, 1
+	JE   LBB4_1655
+	LONG $0x04100ff3; BYTE $0x81 // movss    xmm0, dword [rcx + 4*rax]
+	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
+	WORD $0x2e0f; BYTE $0xc8     // ucomiss    xmm1, xmm0
+	JNE  LBB4_1104
+	WORD $0xc931                 // xor    ecx, ecx
+	JMP  LBB4_1105
+
+LBB4_884:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1060
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_886:
+	LONG $0x2c7e0ff3; BYTE $0xb1               // movq    xmm5, qword [rcx + 4*rsi]
+	LONG $0x747e0ff3; WORD $0x08b1             // movq    xmm6, qword [rcx + 4*rsi + 8]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
+	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
+	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
+	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x25380f66; BYTE $0xed               // pmovsxdq    xmm5, xmm5
+	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x25380f66; BYTE $0xf6               // pmovsxdq    xmm6, xmm6
+	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
+	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
+	LONG $0x6c7e0ff3; WORD $0x10b1             // movq    xmm5, qword [rcx + 4*rsi + 16]
+	LONG $0x747e0ff3; WORD $0x18b1             // movq    xmm6, qword [rcx + 4*rsi + 24]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
+	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
+	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
+	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x25380f66; BYTE $0xed               // pmovsxdq    xmm5, xmm5
+	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x25380f66; BYTE $0xf6               // pmovsxdq    xmm6, xmm6
+	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
+	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_886
+	JMP  LBB4_1061
+
+LBB4_887:
+	WORD $0xc289                               // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8                   // and    edx, -8
+	LONG $0xf8728d48                           // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
+	LONG $0x03e9c149                           // shr    r9, 3
+	LONG $0x01c18349                           // add    r9, 1
+	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
+	JE   LBB4_1066
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	LONG $0xfee78348                           // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf                   // neg    rdi
+	WORD $0xf631                               // xor    esi, esi
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
+
+LBB4_889:
+	LONG $0x2c6f0ff3; BYTE $0xb1   // movdqu    xmm5, oword [rcx + 4*rsi]
+	LONG $0x746f0ff3; WORD $0x10b1 // movdqu    xmm6, oword [rcx + 4*rsi + 16]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2660f66               // pcmpgtd    xmm0, xmm2
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
+	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
+	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
+	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
+	LONG $0x6c6f0ff3; WORD $0x20b1 // movdqu    xmm5, oword [rcx + 4*rsi + 32]
+	LONG $0x746f0ff3; WORD $0x30b1 // movdqu    xmm6, oword [rcx + 4*rsi + 48]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2660f66               // pcmpgtd    xmm0, xmm2
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
+	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
+	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
+	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
+	LONG $0x10c68348               // add    rsi, 16
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_889
+	JMP  LBB4_1067
+
+LBB4_945:
+	WORD $0xc689                 // mov    esi, eax
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB4_1076
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc0570f66             // xorpd    xmm0, xmm0
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_947:
+	LONG $0x1c100f66; BYTE $0xf9   // movupd    xmm3, oword [rcx + 8*rdi]
+	LONG $0x64100f66; WORD $0x10f9 // movupd    xmm4, oword [rcx + 8*rdi + 16]
+	LONG $0xeb280f66               // movapd    xmm5, xmm3
+	LONG $0xe8c20f66; BYTE $0x00   // cmpeqpd    xmm5, xmm0
+	LONG $0xe8edc60f               // shufps    xmm5, xmm5, 232
+	LONG $0xf4280f66               // movapd    xmm6, xmm4
+	LONG $0xf0c20f66; BYTE $0x00   // cmpeqpd    xmm6, xmm0
+	LONG $0xe8f6c60f               // shufps    xmm6, xmm6, 232
+	LONG $0xd9540f66               // andpd    xmm3, xmm1
+	LONG $0xda560f66               // orpd    xmm3, xmm2
+	LONG $0xe1540f66               // andpd    xmm4, xmm1
+	LONG $0xe2560f66               // orpd    xmm4, xmm2
+	LONG $0xdbe60f66               // cvttpd2dq    xmm3, xmm3
+	LONG $0xe4e60f66               // cvttpd2dq    xmm4, xmm4
+	WORD $0x550f; BYTE $0xeb       // andnps    xmm5, xmm3
+	WORD $0x550f; BYTE $0xf4       // andnps    xmm6, xmm4
+	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
+	LONG $0x2c110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm5
+	LONG $0x5c100f66; WORD $0x20f9 // movupd    xmm3, oword [rcx + 8*rdi + 32]
+	LONG $0x64100f66; WORD $0x30f9 // movupd    xmm4, oword [rcx + 8*rdi + 48]
+	LONG $0xeb280f66               // movapd    xmm5, xmm3
+	LONG $0xe8c20f66; BYTE $0x00   // cmpeqpd    xmm5, xmm0
+	LONG $0xe8edc60f               // shufps    xmm5, xmm5, 232
+	LONG $0xf4280f66               // movapd    xmm6, xmm4
+	LONG $0xf0c20f66; BYTE $0x00   // cmpeqpd    xmm6, xmm0
+	LONG $0xe8f6c60f               // shufps    xmm6, xmm6, 232
+	LONG $0xd9540f66               // andpd    xmm3, xmm1
+	LONG $0xda560f66               // orpd    xmm3, xmm2
+	LONG $0xe1540f66               // andpd    xmm4, xmm1
+	LONG $0xe2560f66               // orpd    xmm4, xmm2
+	LONG $0xdbe60f66               // cvttpd2dq    xmm3, xmm3
+	WORD $0x550f; BYTE $0xeb       // andnps    xmm5, xmm3
+	LONG $0xdce60f66               // cvttpd2dq    xmm3, xmm4
+	WORD $0x550f; BYTE $0xf3       // andnps    xmm6, xmm3
+	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
+	LONG $0x6c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm5
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c28348               // add    rdx, 2
+	JNE  LBB4_947
+	JMP  LBB4_1077
+
+LBB4_953:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1082
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	QUAD $0x000000a08d6f0f66 // movdqa    xmm1, oword 160[rbp] /* [rip + .LCPI4_16] */
+
+LBB4_955:
+	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
+	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
+	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
+	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
+	LONG $0x546f0ff3; WORD $0x20f1             // movdqu    xmm2, oword [rcx + 8*rsi + 32]
+	LONG $0x5c6f0ff3; WORD $0x30f1             // movdqu    xmm3, oword [rcx + 8*rsi + 48]
+	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
+	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
+	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm2
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_955
+	JMP  LBB4_1083
+
+LBB4_956:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1087
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
+	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_958:
+	LONG $0x1c7e0ff3; BYTE $0x71               // movq    xmm3, qword [rcx + 2*rsi]
+	LONG $0x647e0ff3; WORD $0x0871             // movq    xmm4, qword [rcx + 2*rsi + 8]
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x33380f66; BYTE $0xdb               // pmovzxwd    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x33380f66; BYTE $0xe4               // pmovzxwd    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xb01c             // movdqu    oword [r8 + 4*rsi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm4
+	LONG $0x5c7e0ff3; WORD $0x1071             // movq    xmm3, qword [rcx + 2*rsi + 16]
+	LONG $0x647e0ff3; WORD $0x1871             // movq    xmm4, qword [rcx + 2*rsi + 24]
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x33380f66; BYTE $0xdb               // pmovzxwd    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x33380f66; BYTE $0xe4               // pmovzxwd    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm4
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_958
+	JMP  LBB4_1088
+
+LBB4_959:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1092
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	LONG $0x5065280f         // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_961:
+	LONG $0x2c7e0ff3; BYTE $0x71   // movq    xmm5, qword [rcx + 2*rsi]
+	LONG $0x747e0ff3; WORD $0x0871 // movq    xmm6, qword [rcx + 2*rsi + 8]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
+	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
+	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
+	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
+	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
+	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
+	LONG $0x6c7e0ff3; WORD $0x1071 // movq    xmm5, qword [rcx + 2*rsi + 16]
+	LONG $0x747e0ff3; WORD $0x1871 // movq    xmm6, qword [rcx + 2*rsi + 24]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2650f66               // pcmpgtw    xmm0, xmm2
+	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca650f66               // pcmpgtw    xmm1, xmm2
+	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
+	LONG $0xea750f66               // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x23380f66; BYTE $0xed   // pmovsxwd    xmm5, xmm5
+	LONG $0xf2750f66               // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x23380f66; BYTE $0xf6   // pmovsxwd    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
+	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
+	LONG $0x10c68348               // add    rsi, 16
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_961
+	JMP  LBB4_1093
+
+LBB4_962:
+	WORD $0x8944; BYTE $0xd2                   // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc                   // and    edx, -4
+	LONG $0xfc728d48                           // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
+	LONG $0x02e9c149                           // shr    r9, 2
+	LONG $0x01c18349                           // add    r9, 1
+	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
+	JE   LBB4_1098
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	LONG $0xfee78348                           // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf                   // neg    rdi
+	WORD $0xf631                               // xor    esi, esi
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xa0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 160[rbp] /* [rip + .LCPI4_16] */
+
+LBB4_964:
+	LONG $0x2c6f0ff3; BYTE $0xf1   // movdqu    xmm5, oword [rcx + 8*rsi]
+	LONG $0x746f0ff3; WORD $0x10f1 // movdqu    xmm6, oword [rcx + 8*rsi + 16]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
+	LONG $0xed700f66; BYTE $0xe8   // pshufd    xmm5, xmm5, 232
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
+	LONG $0xf6700f66; BYTE $0xe8   // pshufd    xmm6, xmm6, 232
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
+	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
+	LONG $0x6c6f0ff3; WORD $0x20f1 // movdqu    xmm5, oword [rcx + 8*rsi + 32]
+	LONG $0x746f0ff3; WORD $0x30f1 // movdqu    xmm6, oword [rcx + 8*rsi + 48]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0x37380f66; BYTE $0xc2   // pcmpgtq    xmm0, xmm2
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0x37380f66; BYTE $0xca   // pcmpgtq    xmm1, xmm2
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0x29380f66; BYTE $0xea   // pcmpeqq    xmm5, xmm2
+	LONG $0xed700f66; BYTE $0xe8   // pshufd    xmm5, xmm5, 232
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x29380f66; BYTE $0xf2   // pcmpeqq    xmm6, xmm2
+	LONG $0xf6700f66; BYTE $0xe8   // pshufd    xmm6, xmm6, 232
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	WORD $0x160f; BYTE $0xee       // movlhps    xmm5, xmm6
+	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
+	LONG $0x08c68348               // add    rsi, 8
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_964
+	JMP  LBB4_1099
+
+LBB4_965:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	WORD $0xf631                 // xor    esi, esi
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_966:
+	LONG $0x146f0ff3; BYTE $0xb1   // movdqu    xmm2, oword [rcx + 4*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10b1 // movdqu    xmm3, oword [rcx + 4*rsi + 16]
+	LONG $0xe26f0f66               // movdqa    xmm4, xmm2
+	LONG $0xe4720f66; BYTE $0x1f   // psrad    xmm4, 31
+	LONG $0xe1eb0f66               // por    xmm4, xmm1
+	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
+	LONG $0xe5720f66; BYTE $0x1f   // psrad    xmm5, 31
+	LONG $0xe9eb0f66               // por    xmm5, xmm1
+	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
+	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
+	LONG $0xe45b0ff3               // cvttps2dq    xmm4, xmm4
+	LONG $0xed5b0ff3               // cvttps2dq    xmm5, xmm5
+	LONG $0x04d0c20f               // cmpneqps    xmm2, xmm0
+	WORD $0x540f; BYTE $0xd4       // andps    xmm2, xmm4
+	LONG $0x04d8c20f               // cmpneqps    xmm3, xmm0
+	WORD $0x540f; BYTE $0xdd       // andps    xmm3, xmm5
+	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
+	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
+	LONG $0x08c68348               // add    rsi, 8
+	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
+	JNE  LBB4_966
+	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_968:
+	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
+	JMP  LBB4_970
+
+LBB4_969:
+	LONG $0x90348941         // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JE   LBB4_1655
+
+LBB4_970:
+	LONG $0x0c100ff3; BYTE $0x91 // movss    xmm1, dword [rcx + 4*rdx]
+	WORD $0xf631                 // xor    esi, esi
+	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
+	JE   LBB4_969
+	WORD $0x500f; BYTE $0xf1     // movmskps    esi, xmm1
+	WORD $0xe683; BYTE $0x01     // and    esi, 1
+	WORD $0xdef7                 // neg    esi
+	WORD $0xce83; BYTE $0x01     // or    esi, 1
+	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
+	LONG $0xce2a0ff3             // cvtsi2ss    xmm1, esi
+	LONG $0xf12c0ff3             // cvttss2si    esi, xmm1
+	JMP  LBB4_969
+
+LBB4_496:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1228
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_498:
+	LONG $0x146f0ff3; BYTE $0xb1               // movdqu    xmm2, oword [rcx + 4*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10b1             // movdqu    xmm3, oword [rcx + 4*rsi + 16]
+	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm3
+	LONG $0x546f0ff3; WORD $0x20b1             // movdqu    xmm2, oword [rcx + 4*rsi + 32]
+	LONG $0x5c6f0ff3; WORD $0x30b1             // movdqu    xmm3, oword [rcx + 4*rsi + 48]
+	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm3
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_498
+	JMP  LBB4_1229
+
+LBB4_504:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1236
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	LONG $0x5065280f         // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_506:
+	LONG $0x2c6e0f66; BYTE $0x31   // movd    xmm5, dword [rcx + rsi]
+	LONG $0x746e0f66; WORD $0x0431 // movd    xmm6, dword [rcx + rsi + 4]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
+	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
+	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
+	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
+	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
+	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
+	LONG $0x6c6e0f66; WORD $0x0831 // movd    xmm5, dword [rcx + rsi + 8]
+	LONG $0x746e0f66; WORD $0x0c31 // movd    xmm6, dword [rcx + rsi + 12]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
+	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
+	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
+	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
+	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
+	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
+	LONG $0x10c68348               // add    rsi, 16
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_506
+	JMP  LBB4_1237
+
+LBB4_524:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1245
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
+	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_526:
+	LONG $0x1c6e0f66; BYTE $0x31               // movd    xmm3, dword [rcx + rsi]
+	LONG $0x646e0f66; WORD $0x0431             // movd    xmm4, dword [rcx + rsi + 4]
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x31380f66; BYTE $0xdb               // pmovzxbd    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x31380f66; BYTE $0xe4               // pmovzxbd    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xb01c             // movdqu    oword [r8 + 4*rsi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm4
+	LONG $0x5c6e0f66; WORD $0x0831             // movd    xmm3, dword [rcx + rsi + 8]
+	LONG $0x646e0f66; WORD $0x0c31             // movd    xmm4, dword [rcx + rsi + 12]
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x31380f66; BYTE $0xdb               // pmovzxbd    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x31380f66; BYTE $0xe4               // pmovzxbd    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm4
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_526
+	JMP  LBB4_1246
+
+LBB4_529:
+	WORD $0x8944; BYTE $0xda     // mov    edx, r11d
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1253
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
+	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x50 // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_531:
+	LONG $0x2c6f0ff3; BYTE $0xb1   // movdqu    xmm5, oword [rcx + 4*rsi]
+	LONG $0x746f0ff3; WORD $0x10b1 // movdqu    xmm6, oword [rcx + 4*rsi + 16]
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
+	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
+	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
+	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
+	LONG $0x3c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm7
+	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x20b1 // movdqu    xmm5, oword [rcx + 4*rsi + 32]
+	LONG $0x746f0ff3; WORD $0x30b1 // movdqu    xmm6, oword [rcx + 4*rsi + 48]
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
+	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
+	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
+	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
+	LONG $0x7c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm7
+	LONG $0x6c110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm5
+	LONG $0x10c68348               // add    rsi, 16
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_531
+	JMP  LBB4_1254
+
+LBB4_544:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc     // and    edx, -4
+	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1262
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0570f66             // xorpd    xmm0, xmm0
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x55280f66; BYTE $0x10 // movapd    xmm2, oword 16[rbp] /* [rip + .LCPI4_1] */
+
+LBB4_546:
+	LONG $0x1c100f66; BYTE $0xf1               // movupd    xmm3, oword [rcx + 8*rsi]
+	LONG $0x64100f66; WORD $0x10f1             // movupd    xmm4, oword [rcx + 8*rsi + 16]
+	LONG $0xeb280f66                           // movapd    xmm5, xmm3
+	LONG $0xe9540f66                           // andpd    xmm5, xmm1
+	LONG $0xea560f66                           // orpd    xmm5, xmm2
+	LONG $0xf4280f66                           // movapd    xmm6, xmm4
+	LONG $0xf1540f66                           // andpd    xmm6, xmm1
+	LONG $0xf2560f66                           // orpd    xmm6, xmm2
+	LONG $0xd8c20f66; BYTE $0x04               // cmpneqpd    xmm3, xmm0
+	LONG $0xdd540f66                           // andpd    xmm3, xmm5
+	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
+	LONG $0xe6540f66                           // andpd    xmm4, xmm6
+	LONG $0x110f4166; WORD $0xf01c             // movupd    oword [r8 + 8*rsi], xmm3
+	LONG $0x110f4166; WORD $0xf064; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm4
+	LONG $0x5c100f66; WORD $0x20f1             // movupd    xmm3, oword [rcx + 8*rsi + 32]
+	LONG $0x64100f66; WORD $0x30f1             // movupd    xmm4, oword [rcx + 8*rsi + 48]
+	LONG $0xeb280f66                           // movapd    xmm5, xmm3
+	LONG $0xe9540f66                           // andpd    xmm5, xmm1
+	LONG $0xea560f66                           // orpd    xmm5, xmm2
+	LONG $0xf4280f66                           // movapd    xmm6, xmm4
+	LONG $0xf1540f66                           // andpd    xmm6, xmm1
+	LONG $0xf2560f66                           // orpd    xmm6, xmm2
+	LONG $0xd8c20f66; BYTE $0x04               // cmpneqpd    xmm3, xmm0
+	LONG $0xdd540f66                           // andpd    xmm3, xmm5
+	LONG $0xe0c20f66; BYTE $0x04               // cmpneqpd    xmm4, xmm0
+	LONG $0xe6540f66                           // andpd    xmm4, xmm6
+	LONG $0x110f4166; WORD $0xf05c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm3
+	LONG $0x110f4166; WORD $0xf064; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm4
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_546
+	JMP  LBB4_1263
+
+LBB4_625:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1271
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x00000080956f0f66 // movdqa    xmm2, oword 128[rbp] /* [rip + .LCPI4_12] */
+
+LBB4_627:
+	LONG $0x1c6f0ff3; BYTE $0xb1               // movdqu    xmm3, oword [rcx + 4*rsi]
+	LONG $0x646f0ff3; WORD $0x10b1             // movdqu    xmm4, oword [rcx + 4*rsi + 16]
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7e0f4166; WORD $0x301c             // movd    dword [r8 + rsi], xmm3
+	LONG $0x7e0f4166; WORD $0x3064; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm4
+	LONG $0x5c6f0ff3; WORD $0x20b1             // movdqu    xmm3, oword [rcx + 4*rsi + 32]
+	LONG $0x646f0ff3; WORD $0x30b1             // movdqu    xmm4, oword [rcx + 4*rsi + 48]
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7e0f4166; WORD $0x305c; BYTE $0x08 // movd    dword [r8 + rsi + 8], xmm3
+	LONG $0x7e0f4166; WORD $0x3064; BYTE $0x0c // movd    dword [r8 + rsi + 12], xmm4
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_627
+	JMP  LBB4_1272
+
+LBB4_630:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc     // and    edx, -4
+	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1279
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd2570f66             // xorpd    xmm2, xmm2
+	LONG $0x5d280f66; BYTE $0x00 // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x65280f66; BYTE $0x10 // movapd    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
+	LONG $0x6d6f0f66; BYTE $0x40 // movdqa    xmm5, oword 64[rbp] /* [rip + .LCPI4_7] */
+
+LBB4_632:
+	LONG $0x34100f66; BYTE $0xf1         // movupd    xmm6, oword [rcx + 8*rsi]
+	LONG $0x7c100f66; WORD $0x10f1       // movupd    xmm7, oword [rcx + 8*rsi + 16]
+	LONG $0xc6280f66                     // movapd    xmm0, xmm6
+	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	LONG $0xcf280f66                     // movapd    xmm1, xmm7
+	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	LONG $0xf3540f66                     // andpd    xmm6, xmm3
+	LONG $0xf4560f66                     // orpd    xmm6, xmm4
+	LONG $0xfb540f66                     // andpd    xmm7, xmm3
+	LONG $0xfc560f66                     // orpd    xmm7, xmm4
+	LONG $0xf6e60f66                     // cvttpd2dq    xmm6, xmm6
+	LONG $0x00380f66; BYTE $0xf5         // pshufb    xmm6, xmm5
+	LONG $0xffe60f66                     // cvttpd2dq    xmm7, xmm7
+	LONG $0x00380f66; BYTE $0xfd         // pshufb    xmm7, xmm5
+	LONG $0x10380f66; BYTE $0xf2         // pblendvb    xmm6, xmm2, xmm0
+	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xfa         // pblendvb    xmm7, xmm2, xmm0
+	QUAD $0x003034153a0f4166             // pextrw    word [r8 + rsi], xmm6, 0
+	QUAD $0x02307c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm7, 0
+	LONG $0x74100f66; WORD $0x20f1       // movupd    xmm6, oword [rcx + 8*rsi + 32]
+	LONG $0x7c100f66; WORD $0x30f1       // movupd    xmm7, oword [rcx + 8*rsi + 48]
+	LONG $0xc6280f66                     // movapd    xmm0, xmm6
+	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	LONG $0xcf280f66                     // movapd    xmm1, xmm7
+	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	LONG $0xf3540f66                     // andpd    xmm6, xmm3
+	LONG $0xf4560f66                     // orpd    xmm6, xmm4
+	LONG $0xfb540f66                     // andpd    xmm7, xmm3
+	LONG $0xfc560f66                     // orpd    xmm7, xmm4
+	LONG $0xf6e60f66                     // cvttpd2dq    xmm6, xmm6
+	LONG $0x00380f66; BYTE $0xf5         // pshufb    xmm6, xmm5
+	LONG $0xffe60f66                     // cvttpd2dq    xmm7, xmm7
+	LONG $0x00380f66; BYTE $0xfd         // pshufb    xmm7, xmm5
+	LONG $0x10380f66; BYTE $0xf2         // pblendvb    xmm6, xmm2, xmm0
+	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xfa         // pblendvb    xmm7, xmm2, xmm0
+	QUAD $0x043074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 4], xmm6, 0
+	QUAD $0x06307c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 6], xmm7, 0
+	LONG $0x08c68348                     // add    rsi, 8
+	LONG $0x02c78348                     // add    rdi, 2
+	JNE  LBB4_632
+	JMP  LBB4_1280
+
+LBB4_635:
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB4_1288
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x00000100a56f0f66 // movdqa    xmm4, oword 256[rbp] /* [rip + .LCPI4_22] */
+
+LBB4_637:
+	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
+	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
+	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xce640f66                           // pcmpgtb    xmm1, xmm6
+	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
+	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
+	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xce640f66                           // pcmpgtb    xmm1, xmm6
+	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_637
+	JMP  LBB4_1289
+
+LBB4_640:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1297
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x000000c0956f0f66 // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI4_18] */
+
+LBB4_642:
+	LONG $0x1c6f0ff3; BYTE $0xf1         // movdqu    xmm3, oword [rcx + 8*rsi]
+	LONG $0x646f0ff3; WORD $0x10f1       // movdqu    xmm4, oword [rcx + 8*rsi + 16]
+	LONG $0x29380f66; BYTE $0xd8         // pcmpeqq    xmm3, xmm0
+	LONG $0xd9ef0f66                     // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
+	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
+	LONG $0xdadb0f66                     // pand    xmm3, xmm2
+	LONG $0x29380f66; BYTE $0xe0         // pcmpeqq    xmm4, xmm0
+	LONG $0xe1ef0f66                     // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
+	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                     // packsswb    xmm4, xmm4
+	QUAD $0x00301c153a0f4166             // pextrw    word [r8 + rsi], xmm3, 0
+	LONG $0xe2db0f66                     // pand    xmm4, xmm2
+	QUAD $0x023064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm4, 0
+	LONG $0x5c6f0ff3; WORD $0x20f1       // movdqu    xmm3, oword [rcx + 8*rsi + 32]
+	LONG $0x646f0ff3; WORD $0x30f1       // movdqu    xmm4, oword [rcx + 8*rsi + 48]
+	LONG $0x29380f66; BYTE $0xd8         // pcmpeqq    xmm3, xmm0
+	LONG $0xd9ef0f66                     // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
+	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
+	LONG $0xdadb0f66                     // pand    xmm3, xmm2
+	LONG $0x29380f66; BYTE $0xe0         // pcmpeqq    xmm4, xmm0
+	LONG $0xe1ef0f66                     // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
+	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                     // packsswb    xmm4, xmm4
+	QUAD $0x04305c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 4], xmm3, 0
+	LONG $0xe2db0f66                     // pand    xmm4, xmm2
+	QUAD $0x063064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 6], xmm4, 0
+	LONG $0x08c68348                     // add    rsi, 8
+	LONG $0x02c78348                     // add    rdi, 2
+	JNE  LBB4_642
+	JMP  LBB4_1298
+
+LBB4_645:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0 // and    edx, -16
+	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1305
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x000000f0956f0f66 // movdqa    xmm2, oword 240[rbp] /* [rip + .LCPI4_21] */
+
+LBB4_647:
+	LONG $0x1c6f0ff3; BYTE $0x71               // movdqu    xmm3, oword [rcx + 2*rsi]
+	LONG $0x646f0ff3; WORD $0x1071             // movdqu    xmm4, oword [rcx + 2*rsi + 16]
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x301c             // movdqu    oword [r8 + rsi], xmm3
+	LONG $0x5c6f0ff3; WORD $0x2071             // movdqu    xmm3, oword [rcx + 2*rsi + 32]
+	LONG $0x646f0ff3; WORD $0x3071             // movdqu    xmm4, oword [rcx + 2*rsi + 48]
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm3
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_647
+	JMP  LBB4_1306
+
+LBB4_650:
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB4_1313
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x000000f0a56f0f66 // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
+
+LBB4_652:
+	LONG $0x2c6f0ff3; BYTE $0x41               // movdqu    xmm5, oword [rcx + 2*rax]
+	LONG $0x746f0ff3; WORD $0x1041             // movdqu    xmm6, oword [rcx + 2*rax + 16]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2041             // movdqu    xmm5, oword [rcx + 2*rax + 32]
+	LONG $0x746f0ff3; WORD $0x3041             // movdqu    xmm6, oword [rcx + 2*rax + 48]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
+	LONG $0x20c08348                           // add    rax, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_652
+	JMP  LBB4_1314
+
+LBB4_655:
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB4_1322
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x000000c0a56f0f66 // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
+
+LBB4_657:
+	LONG $0x2c6f0ff3; BYTE $0xc1         // movdqu    xmm5, oword [rcx + 8*rax]
+	LONG $0x746f0ff3; WORD $0x10c1       // movdqu    xmm6, oword [rcx + 8*rax + 16]
+	LONG $0xc56f0f66                     // movdqa    xmm0, xmm5
+	LONG $0x37380f66; BYTE $0xc2         // pcmpgtq    xmm0, xmm2
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	LONG $0xce6f0f66                     // movdqa    xmm1, xmm6
+	LONG $0x37380f66; BYTE $0xca         // pcmpgtq    xmm1, xmm2
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	LONG $0x29380f66; BYTE $0xea         // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66                     // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
+	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
+	LONG $0xed630f66                     // packsswb    xmm5, xmm5
+	LONG $0x29380f66; BYTE $0xf2         // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66                     // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
+	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                     // packsswb    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec         // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4         // pblendvb    xmm6, xmm4, xmm0
+	QUAD $0x00002c153a0f4166             // pextrw    word [r8 + rax], xmm5, 0
+	QUAD $0x020074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 2], xmm6, 0
+	LONG $0x6c6f0ff3; WORD $0x20c1       // movdqu    xmm5, oword [rcx + 8*rax + 32]
+	LONG $0x746f0ff3; WORD $0x30c1       // movdqu    xmm6, oword [rcx + 8*rax + 48]
+	LONG $0xc56f0f66                     // movdqa    xmm0, xmm5
+	LONG $0x37380f66; BYTE $0xc2         // pcmpgtq    xmm0, xmm2
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	LONG $0xce6f0f66                     // movdqa    xmm1, xmm6
+	LONG $0x37380f66; BYTE $0xca         // pcmpgtq    xmm1, xmm2
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	LONG $0x29380f66; BYTE $0xea         // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66                     // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
+	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
+	LONG $0xed630f66                     // packsswb    xmm5, xmm5
+	LONG $0x29380f66; BYTE $0xf2         // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66                     // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
+	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                     // packsswb    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec         // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4         // pblendvb    xmm6, xmm4, xmm0
+	QUAD $0x04006c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 4], xmm5, 0
+	QUAD $0x060074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 6], xmm6, 0
+	LONG $0x08c08348                     // add    rax, 8
+	LONG $0x02c78348                     // add    rdi, 2
+	JNE  LBB4_657
+	JMP  LBB4_1323
+
+LBB4_660:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1331
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	WORD $0x570f; BYTE $0xe4     // xorps    xmm4, xmm4
+	LONG $0x760f4566; BYTE $0xc0 // pcmpeqd    xmm8, xmm8
+	QUAD $0x00000080b56f0f66     // movdqa    xmm6, oword 128[rbp] /* [rip + .LCPI4_12] */
+
+LBB4_662:
+	LONG $0xb104100f                           // movups    xmm0, oword [rcx + 4*rsi]
+	LONG $0xb14c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rsi + 16]
+	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
+	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
+	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
+	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x303c             // movd    dword [r8 + rsi], xmm7
+	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm5
+	LONG $0xb144100f; BYTE $0x20               // movups    xmm0, oword [rcx + 4*rsi + 32]
+	LONG $0xb14c100f; BYTE $0x30               // movups    xmm1, oword [rcx + 4*rsi + 48]
+	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
+	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
+	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x08 // movd    dword [r8 + rsi + 8], xmm5
+	LONG $0x7e0f4166; WORD $0x307c; BYTE $0x0c // movd    dword [r8 + rsi + 12], xmm7
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_662
+	JMP  LBB4_1332
+
+LBB4_665:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0 // and    edx, -32
+	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1340
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	QUAD $0x000001008d6f0f66 // movdqa    xmm1, oword 256[rbp] /* [rip + .LCPI4_22] */
+
+LBB4_667:
+	LONG $0x146f0ff3; BYTE $0x31               // movdqu    xmm2, oword [rcx + rsi]
+	LONG $0x5c6f0ff3; WORD $0x1031             // movdqu    xmm3, oword [rcx + rsi + 16]
+	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0x3014             // movdqu    oword [r8 + rsi], xmm2
+	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm3
+	LONG $0x546f0ff3; WORD $0x2031             // movdqu    xmm2, oword [rcx + rsi + 32]
+	LONG $0x5c6f0ff3; WORD $0x3031             // movdqu    xmm3, oword [rcx + rsi + 48]
+	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0x3054; BYTE $0x20 // movdqu    oword [r8 + rsi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x30 // movdqu    oword [r8 + rsi + 48], xmm3
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_667
+	JMP  LBB4_1341
+
+LBB4_670:
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB4_1348
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x00000080a56f0f66 // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
+
+LBB4_672:
+	LONG $0x2c6f0ff3; BYTE $0x81               // movdqu    xmm5, oword [rcx + 4*rax]
+	LONG $0x746f0ff3; WORD $0x1081             // movdqu    xmm6, oword [rcx + 4*rax + 16]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x002c             // movd    dword [r8 + rax], xmm5
+	LONG $0x7e0f4166; WORD $0x0074; BYTE $0x04 // movd    dword [r8 + rax + 4], xmm6
+	LONG $0x6c6f0ff3; WORD $0x2081             // movdqu    xmm5, oword [rcx + 4*rax + 32]
+	LONG $0x746f0ff3; WORD $0x3081             // movdqu    xmm6, oword [rcx + 4*rax + 48]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x006c; BYTE $0x08 // movd    dword [r8 + rax + 8], xmm5
+	LONG $0x7e0f4166; WORD $0x0074; BYTE $0x0c // movd    dword [r8 + rax + 12], xmm6
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_672
+	JMP  LBB4_1349
+
+LBB4_681:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1357
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_683:
+	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
+	LONG $0xf06e0f66                           // movd    xmm6, eax
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
+	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
+	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
+	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x22380f66; BYTE $0xed               // pmovsxbq    xmm5, xmm5
+	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x22380f66; BYTE $0xf6               // pmovsxbq    xmm6, xmm6
+	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
+	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
+	LONG $0x3144b70f; BYTE $0x04               // movzx    eax, word [rcx + rsi + 4]
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x3144b70f; BYTE $0x06               // movzx    eax, word [rcx + rsi + 6]
+	LONG $0xf06e0f66                           // movd    xmm6, eax
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
+	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
+	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
+	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x22380f66; BYTE $0xed               // pmovsxbq    xmm5, xmm5
+	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x22380f66; BYTE $0xf6               // pmovsxbq    xmm6, xmm6
+	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
+	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_683
+	JMP  LBB4_1358
+
+LBB4_686:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1366
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	QUAD $0x000000908d6f0f66 // movdqa    xmm1, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_688:
+	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
+	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0xf014             // movdqu    oword [r8 + 8*rsi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm3
+	LONG $0x546f0ff3; WORD $0x20f1             // movdqu    xmm2, oword [rcx + 8*rsi + 32]
+	LONG $0x5c6f0ff3; WORD $0x30f1             // movdqu    xmm3, oword [rcx + 8*rsi + 48]
+	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0xf054; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm3
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_688
+	JMP  LBB4_1367
+
+LBB4_697:
+	WORD $0x8944; BYTE $0xda // mov    edx, r11d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1374
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x00000090a56f0f66 // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_699:
+	LONG $0x2c6f0ff3; BYTE $0xf1               // movdqu    xmm5, oword [rcx + 8*rsi]
+	LONG $0x746f0ff3; WORD $0x10f1             // movdqu    xmm6, oword [rcx + 8*rsi + 16]
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x37380f66; BYTE $0xc5               // pcmpgtq    xmm0, xmm5
+	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0x37380f66; BYTE $0xce               // pcmpgtq    xmm1, xmm6
+	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0x15380f66; BYTE $0xfd               // blendvpd    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xee               // blendvpd    xmm5, xmm6, xmm0
+	LONG $0x110f4166; WORD $0xf03c             // movupd    oword [r8 + 8*rsi], xmm7
+	LONG $0x110f4166; WORD $0xf06c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x20f1             // movdqu    xmm5, oword [rcx + 8*rsi + 32]
+	LONG $0x746f0ff3; WORD $0x30f1             // movdqu    xmm6, oword [rcx + 8*rsi + 48]
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x37380f66; BYTE $0xc5               // pcmpgtq    xmm0, xmm5
+	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0x37380f66; BYTE $0xce               // pcmpgtq    xmm1, xmm6
+	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0x15380f66; BYTE $0xfd               // blendvpd    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xee               // blendvpd    xmm5, xmm6, xmm0
+	LONG $0x110f4166; WORD $0xf07c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm7
+	LONG $0x110f4166; WORD $0xf06c; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm5
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_699
+	JMP  LBB4_1375
+
+LBB4_710:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1383
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_712:
+	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
+	LONG $0xd86e0f66                           // movd    xmm3, eax
+	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
+	LONG $0xe06e0f66                           // movd    xmm4, eax
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x32380f66; BYTE $0xdb               // pmovzxbq    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x32380f66; BYTE $0xe4               // pmovzxbq    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
+	LONG $0x3144b70f; BYTE $0x04               // movzx    eax, word [rcx + rsi + 4]
+	LONG $0xd86e0f66                           // movd    xmm3, eax
+	LONG $0x3144b70f; BYTE $0x06               // movzx    eax, word [rcx + rsi + 6]
+	LONG $0xe06e0f66                           // movd    xmm4, eax
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x32380f66; BYTE $0xdb               // pmovzxbq    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x32380f66; BYTE $0xe4               // pmovzxbq    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_712
+	JMP  LBB4_1384
+
+LBB4_730:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0 // and    edx, -16
+	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1391
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x000000e0a56f0f66 // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
+
+LBB4_732:
+	LONG $0x2c7e0ff3; BYTE $0x31               // movq    xmm5, qword [rcx + rsi]
+	LONG $0x747e0ff3; WORD $0x0831             // movq    xmm6, qword [rcx + rsi + 8]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
+	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
+	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
+	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x20380f66; BYTE $0xed               // pmovsxbw    xmm5, xmm5
+	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x20380f66; BYTE $0xf6               // pmovsxbw    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0x7f0f41f3; WORD $0x702c             // movdqu    oword [r8 + 2*rsi], xmm5
+	LONG $0x7f0f41f3; WORD $0x7074; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm6
+	LONG $0x6c7e0ff3; WORD $0x1031             // movq    xmm5, qword [rcx + rsi + 16]
+	LONG $0x747e0ff3; WORD $0x1831             // movq    xmm6, qword [rcx + rsi + 24]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
+	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
+	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
+	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x20380f66; BYTE $0xed               // pmovsxbw    xmm5, xmm5
+	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x20380f66; BYTE $0xf6               // pmovsxbw    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm5
+	LONG $0x7f0f41f3; WORD $0x7074; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm6
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_732
+	JMP  LBB4_1392
+
+LBB4_735:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0 // and    edx, -16
+	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1400
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x000000e0a56f0f66 // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
+
+LBB4_737:
+	LONG $0x2c7e0ff3; BYTE $0x31               // movq    xmm5, qword [rcx + rsi]
+	LONG $0x747e0ff3; WORD $0x0831             // movq    xmm6, qword [rcx + rsi + 8]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
+	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
+	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
+	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x20380f66; BYTE $0xed               // pmovsxbw    xmm5, xmm5
+	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x20380f66; BYTE $0xf6               // pmovsxbw    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0x7f0f41f3; WORD $0x702c             // movdqu    oword [r8 + 2*rsi], xmm5
+	LONG $0x7f0f41f3; WORD $0x7074; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm6
+	LONG $0x6c7e0ff3; WORD $0x1031             // movq    xmm5, qword [rcx + rsi + 16]
+	LONG $0x747e0ff3; WORD $0x1831             // movq    xmm6, qword [rcx + rsi + 24]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
+	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
+	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
+	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x20380f66; BYTE $0xed               // pmovsxbw    xmm5, xmm5
+	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x20380f66; BYTE $0xf6               // pmovsxbw    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm5
+	LONG $0x7f0f41f3; WORD $0x7074; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm6
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_737
+	JMP  LBB4_1401
+
+LBB4_746:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0 // and    edx, -16
+	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1409
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	QUAD $0x000000e08d6f0f66 // movdqa    xmm1, oword 224[rbp] /* [rip + .LCPI4_20] */
+
+LBB4_748:
+	LONG $0x146f0ff3; BYTE $0x71               // movdqu    xmm2, oword [rcx + 2*rsi]
+	LONG $0x5c6f0ff3; WORD $0x1071             // movdqu    xmm3, oword [rcx + 2*rsi + 16]
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
+	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
+	LONG $0x546f0ff3; WORD $0x2071             // movdqu    xmm2, oword [rcx + 2*rsi + 32]
+	LONG $0x5c6f0ff3; WORD $0x3071             // movdqu    xmm3, oword [rcx + 2*rsi + 48]
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0x7054; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm3
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_748
+	JMP  LBB4_1410
+
+LBB4_751:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0 // and    edx, -16
+	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1417
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	QUAD $0x000000e08d6f0f66 // movdqa    xmm1, oword 224[rbp] /* [rip + .LCPI4_20] */
+
+LBB4_753:
+	LONG $0x146f0ff3; BYTE $0x71               // movdqu    xmm2, oword [rcx + 2*rsi]
+	LONG $0x5c6f0ff3; WORD $0x1071             // movdqu    xmm3, oword [rcx + 2*rsi + 16]
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
+	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
+	LONG $0x546f0ff3; WORD $0x2071             // movdqu    xmm2, oword [rcx + 2*rsi + 32]
+	LONG $0x5c6f0ff3; WORD $0x3071             // movdqu    xmm3, oword [rcx + 2*rsi + 48]
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0x7054; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm3
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_753
+	JMP  LBB4_1418
+
+LBB4_756:
+	WORD $0x8944; BYTE $0xda // mov    edx, r11d
+	WORD $0xe283; BYTE $0xf0 // and    edx, -16
+	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1425
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x000000e0a56f0f66 // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
+
+LBB4_758:
+	LONG $0x2c6f0ff3; BYTE $0x71               // movdqu    xmm5, oword [rcx + 2*rsi]
+	LONG $0x746f0ff3; WORD $0x1071             // movdqu    xmm6, oword [rcx + 2*rsi + 16]
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
+	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
+	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0x7f0f41f3; WORD $0x703c             // movdqu    oword [r8 + 2*rsi], xmm7
+	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2071             // movdqu    xmm5, oword [rcx + 2*rsi + 32]
+	LONG $0x746f0ff3; WORD $0x3071             // movdqu    xmm6, oword [rcx + 2*rsi + 48]
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
+	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
+	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0x7f0f41f3; WORD $0x707c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm7
+	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm5
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_758
+	JMP  LBB4_1426
+
+LBB4_761:
+	WORD $0x8944; BYTE $0xda // mov    edx, r11d
+	WORD $0xe283; BYTE $0xf0 // and    edx, -16
+	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1434
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x000000e0a56f0f66 // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
+
+LBB4_763:
+	LONG $0x2c6f0ff3; BYTE $0x71               // movdqu    xmm5, oword [rcx + 2*rsi]
+	LONG $0x746f0ff3; WORD $0x1071             // movdqu    xmm6, oword [rcx + 2*rsi + 16]
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
+	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
+	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0x7f0f41f3; WORD $0x703c             // movdqu    oword [r8 + 2*rsi], xmm7
+	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2071             // movdqu    xmm5, oword [rcx + 2*rsi + 32]
+	LONG $0x746f0ff3; WORD $0x3071             // movdqu    xmm6, oword [rcx + 2*rsi + 48]
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
+	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
+	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0x7f0f41f3; WORD $0x707c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm7
+	LONG $0x7f0f41f3; WORD $0x706c; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm5
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_763
+	JMP  LBB4_1435
+
+LBB4_778:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0 // and    edx, -16
+	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1443
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x000000e0956f0f66 // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI4_20] */
+
+LBB4_780:
+	LONG $0x1c7e0ff3; BYTE $0x31               // movq    xmm3, qword [rcx + rsi]
+	LONG $0x647e0ff3; WORD $0x0831             // movq    xmm4, qword [rcx + rsi + 8]
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x30380f66; BYTE $0xdb               // pmovzxbw    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x30380f66; BYTE $0xe4               // pmovzxbw    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0x701c             // movdqu    oword [r8 + 2*rsi], xmm3
+	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm4
+	LONG $0x5c7e0ff3; WORD $0x1031             // movq    xmm3, qword [rcx + rsi + 16]
+	LONG $0x647e0ff3; WORD $0x1831             // movq    xmm4, qword [rcx + rsi + 24]
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x30380f66; BYTE $0xdb               // pmovzxbw    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x30380f66; BYTE $0xe4               // pmovzxbw    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm4
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_780
+	JMP  LBB4_1444
+
+LBB4_783:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf0 // and    edx, -16
+	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1451
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x000000e0956f0f66 // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI4_20] */
+
+LBB4_785:
+	LONG $0x1c7e0ff3; BYTE $0x31               // movq    xmm3, qword [rcx + rsi]
+	LONG $0x647e0ff3; WORD $0x0831             // movq    xmm4, qword [rcx + rsi + 8]
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x30380f66; BYTE $0xdb               // pmovzxbw    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x30380f66; BYTE $0xe4               // pmovzxbw    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0x701c             // movdqu    oword [r8 + 2*rsi], xmm3
+	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm4
+	LONG $0x5c7e0ff3; WORD $0x1031             // movq    xmm3, qword [rcx + rsi + 16]
+	LONG $0x647e0ff3; WORD $0x1831             // movq    xmm4, qword [rcx + rsi + 24]
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x30380f66; BYTE $0xdb               // pmovzxbw    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x30380f66; BYTE $0xe4               // pmovzxbw    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x20 // movdqu    oword [r8 + 2*rsi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x30 // movdqu    oword [r8 + 2*rsi + 48], xmm4
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_785
+	JMP  LBB4_1452
+
+LBB4_806:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1459
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x00000090a5280f66 // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_808:
+	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
+	LONG $0xf06e0f66                           // movd    xmm6, eax
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
+	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
+	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
+	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x22380f66; BYTE $0xed               // pmovsxbq    xmm5, xmm5
+	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x22380f66; BYTE $0xf6               // pmovsxbq    xmm6, xmm6
+	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf02c             // movupd    oword [r8 + 8*rsi], xmm5
+	LONG $0x110f4166; WORD $0xf074; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm6
+	LONG $0x3144b70f; BYTE $0x04               // movzx    eax, word [rcx + rsi + 4]
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x3144b70f; BYTE $0x06               // movzx    eax, word [rcx + rsi + 6]
+	LONG $0xf06e0f66                           // movd    xmm6, eax
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2640f66                           // pcmpgtb    xmm0, xmm2
+	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
+	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
+	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0x22380f66; BYTE $0xed               // pmovsxbq    xmm5, xmm5
+	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0x22380f66; BYTE $0xf6               // pmovsxbq    xmm6, xmm6
+	LONG $0x15380f66; BYTE $0xec               // blendvpd    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xf4               // blendvpd    xmm6, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf06c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm5
+	LONG $0x110f4166; WORD $0xf074; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm6
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_808
+	JMP  LBB4_1460
+
+LBB4_811:
+	WORD $0xc289                               // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8                   // and    edx, -8
+	LONG $0xf8728d48                           // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
+	LONG $0x03e9c149                           // shr    r9, 3
+	LONG $0x01c18349                           // add    r9, 1
+	WORD $0x8548; BYTE $0xf6                   // test    rsi, rsi
+	JE   LBB4_1468
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	LONG $0xfee78348                           // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf                   // neg    rdi
+	WORD $0xf631                               // xor    esi, esi
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
+
+LBB4_813:
+	LONG $0x2c6e0f66; BYTE $0x31   // movd    xmm5, dword [rcx + rsi]
+	LONG $0x746e0f66; WORD $0x0431 // movd    xmm6, dword [rcx + rsi + 4]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
+	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
+	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
+	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
+	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
+	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
+	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
+	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
+	LONG $0x6c6e0f66; WORD $0x0831 // movd    xmm5, dword [rcx + rsi + 8]
+	LONG $0x746e0f66; WORD $0x0c31 // movd    xmm6, dword [rcx + rsi + 12]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
+	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
+	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
+	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
+	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
+	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
+	WORD $0x5b0f; BYTE $0xf6       // cvtdq2ps    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
+	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
+	LONG $0x10c68348               // add    rsi, 16
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_813
+	JMP  LBB4_1469
+
+LBB4_816:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1490
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	QUAD $0x000000908d6f0f66 // movdqa    xmm1, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_818:
+	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
+	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0xf014             // movdqu    oword [r8 + 8*rsi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm3
+	LONG $0x546f0ff3; WORD $0x20f1             // movdqu    xmm2, oword [rcx + 8*rsi + 32]
+	LONG $0x5c6f0ff3; WORD $0x30f1             // movdqu    xmm3, oword [rcx + 8*rsi + 48]
+	LONG $0x29380f66; BYTE $0xd0               // pcmpeqq    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0x29380f66; BYTE $0xd8               // pcmpeqq    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0xf054; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm3
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_818
+	JMP  LBB4_1491
+
+LBB4_843:
+	WORD $0x8944; BYTE $0xda // mov    edx, r11d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1498
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x00000090a56f0f66 // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_845:
+	LONG $0x2c6f0ff3; BYTE $0xf1               // movdqu    xmm5, oword [rcx + 8*rsi]
+	LONG $0x746f0ff3; WORD $0x10f1             // movdqu    xmm6, oword [rcx + 8*rsi + 16]
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x37380f66; BYTE $0xc5               // pcmpgtq    xmm0, xmm5
+	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0x37380f66; BYTE $0xce               // pcmpgtq    xmm1, xmm6
+	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0x15380f66; BYTE $0xfd               // blendvpd    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xee               // blendvpd    xmm5, xmm6, xmm0
+	LONG $0x110f4166; WORD $0xf03c             // movupd    oword [r8 + 8*rsi], xmm7
+	LONG $0x110f4166; WORD $0xf06c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x20f1             // movdqu    xmm5, oword [rcx + 8*rsi + 32]
+	LONG $0x746f0ff3; WORD $0x30f1             // movdqu    xmm6, oword [rcx + 8*rsi + 48]
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x37380f66; BYTE $0xc5               // pcmpgtq    xmm0, xmm5
+	LONG $0x29380f66; BYTE $0xea               // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0x37380f66; BYTE $0xce               // pcmpgtq    xmm1, xmm6
+	LONG $0x29380f66; BYTE $0xf2               // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0x15380f66; BYTE $0xfd               // blendvpd    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xee               // blendvpd    xmm5, xmm6, xmm0
+	LONG $0x110f4166; WORD $0xf07c; BYTE $0x20 // movupd    oword [r8 + 8*rsi + 32], xmm7
+	LONG $0x110f4166; WORD $0xf06c; BYTE $0x30 // movupd    oword [r8 + 8*rsi + 48], xmm5
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_845
+	JMP  LBB4_1499
+
+LBB4_989:
+	QUAD $0x0000013085100ff3 // movss    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
+
+LBB4_990:
+	JLE  LBB4_992
+	QUAD $0x0000012885100ff3 // movss    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
+
+LBB4_992:
+	LONG $0x110f41f3; WORD $0x8004 // movss    dword [r8 + 4*rax], xmm0
+	JMP  LBB4_1655
+
+LBB4_866:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	WORD $0xf631                 // xor    esi, esi
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_867:
+	LONG $0x146f0ff3; BYTE $0xb1   // movdqu    xmm2, oword [rcx + 4*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10b1 // movdqu    xmm3, oword [rcx + 4*rsi + 16]
+	LONG $0xe26f0f66               // movdqa    xmm4, xmm2
+	LONG $0xe4720f66; BYTE $0x1f   // psrad    xmm4, 31
+	LONG $0xe1eb0f66               // por    xmm4, xmm1
+	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
+	LONG $0xe5720f66; BYTE $0x1f   // psrad    xmm5, 31
+	LONG $0xe9eb0f66               // por    xmm5, xmm1
+	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
+	WORD $0x5b0f; BYTE $0xed       // cvtdq2ps    xmm5, xmm5
+	LONG $0x04d0c20f               // cmpneqps    xmm2, xmm0
+	WORD $0x540f; BYTE $0xd4       // andps    xmm2, xmm4
+	LONG $0x04d8c20f               // cmpneqps    xmm3, xmm0
+	WORD $0x540f; BYTE $0xdd       // andps    xmm3, xmm5
+	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
+	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
+	LONG $0x08c68348               // add    rsi, 8
+	WORD $0x3948; BYTE $0xf2       // cmp    rdx, rsi
+	JNE  LBB4_867
+	WORD $0x3948; BYTE $0xc2       // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_869
+
+LBB4_876:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1507
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x00000090956f0f66 // movdqa    xmm2, oword 144[rbp] /* [rip + .LCPI4_15] */
+
+LBB4_878:
+	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
+	LONG $0xd86e0f66                           // movd    xmm3, eax
+	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
+	LONG $0xe06e0f66                           // movd    xmm4, eax
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x32380f66; BYTE $0xdb               // pmovzxbq    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x32380f66; BYTE $0xe4               // pmovzxbq    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xf01c             // movdqu    oword [r8 + 8*rsi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm4
+	LONG $0x3144b70f; BYTE $0x04               // movzx    eax, word [rcx + rsi + 4]
+	LONG $0xd86e0f66                           // movd    xmm3, eax
+	LONG $0x3144b70f; BYTE $0x06               // movzx    eax, word [rcx + rsi + 6]
+	LONG $0xe06e0f66                           // movd    xmm4, eax
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x32380f66; BYTE $0xdb               // pmovzxbq    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x32380f66; BYTE $0xe4               // pmovzxbq    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xf05c; BYTE $0x20 // movdqu    oword [r8 + 8*rsi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf064; BYTE $0x30 // movdqu    oword [r8 + 8*rsi + 48], xmm4
+	LONG $0x08c68348                           // add    rsi, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_878
+	JMP  LBB4_1508
+
+LBB4_881:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1515
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
+	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_883:
+	LONG $0x1c6e0f66; BYTE $0x31   // movd    xmm3, dword [rcx + rsi]
+	LONG $0x646e0f66; WORD $0x0431 // movd    xmm4, dword [rcx + rsi + 4]
+	LONG $0xd8740f66               // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
+	LONG $0x31380f66; BYTE $0xdb   // pmovzxbd    xmm3, xmm3
+	LONG $0xdadb0f66               // pand    xmm3, xmm2
+	WORD $0x5b0f; BYTE $0xdb       // cvtdq2ps    xmm3, xmm3
+	LONG $0xe0740f66               // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66               // pxor    xmm4, xmm1
+	LONG $0x31380f66; BYTE $0xe4   // pmovzxbd    xmm4, xmm4
+	LONG $0xe2db0f66               // pand    xmm4, xmm2
+	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
+	LONG $0x1c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm3
+	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
+	LONG $0x5c6e0f66; WORD $0x0831 // movd    xmm3, dword [rcx + rsi + 8]
+	LONG $0x646e0f66; WORD $0x0c31 // movd    xmm4, dword [rcx + rsi + 12]
+	LONG $0xd8740f66               // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
+	LONG $0x31380f66; BYTE $0xdb   // pmovzxbd    xmm3, xmm3
+	LONG $0xdadb0f66               // pand    xmm3, xmm2
+	WORD $0x5b0f; BYTE $0xdb       // cvtdq2ps    xmm3, xmm3
+	LONG $0xe0740f66               // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66               // pxor    xmm4, xmm1
+	LONG $0x31380f66; BYTE $0xe4   // pmovzxbd    xmm4, xmm4
+	LONG $0xe2db0f66               // pand    xmm4, xmm2
+	WORD $0x5b0f; BYTE $0xe4       // cvtdq2ps    xmm4, xmm4
+	LONG $0x5c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm3
+	LONG $0x64110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm4
+	LONG $0x10c68348               // add    rsi, 16
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_883
+	JMP  LBB4_1516
+
+LBB4_892:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1535
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x00000080956f0f66 // movdqa    xmm2, oword 128[rbp] /* [rip + .LCPI4_12] */
+
+LBB4_894:
+	LONG $0x1c6f0ff3; BYTE $0xb1               // movdqu    xmm3, oword [rcx + 4*rsi]
+	LONG $0x646f0ff3; WORD $0x10b1             // movdqu    xmm4, oword [rcx + 4*rsi + 16]
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7e0f4166; WORD $0x301c             // movd    dword [r8 + rsi], xmm3
+	LONG $0x7e0f4166; WORD $0x3064; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm4
+	LONG $0x5c6f0ff3; WORD $0x20b1             // movdqu    xmm3, oword [rcx + 4*rsi + 32]
+	LONG $0x646f0ff3; WORD $0x30b1             // movdqu    xmm4, oword [rcx + 4*rsi + 48]
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0760f66                           // pcmpeqd    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7e0f4166; WORD $0x305c; BYTE $0x08 // movd    dword [r8 + rsi + 8], xmm3
+	LONG $0x7e0f4166; WORD $0x3064; BYTE $0x0c // movd    dword [r8 + rsi + 12], xmm4
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_894
+	JMP  LBB4_1536
+
+LBB4_897:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc     // and    edx, -4
+	LONG $0xfc728d48             // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1543
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd2570f66             // xorpd    xmm2, xmm2
+	LONG $0x5d280f66; BYTE $0x00 // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x65280f66; BYTE $0x10 // movapd    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
+	LONG $0x6d6f0f66; BYTE $0x40 // movdqa    xmm5, oword 64[rbp] /* [rip + .LCPI4_7] */
+
+LBB4_899:
+	LONG $0x34100f66; BYTE $0xf1         // movupd    xmm6, oword [rcx + 8*rsi]
+	LONG $0x7c100f66; WORD $0x10f1       // movupd    xmm7, oword [rcx + 8*rsi + 16]
+	LONG $0xc6280f66                     // movapd    xmm0, xmm6
+	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	LONG $0xcf280f66                     // movapd    xmm1, xmm7
+	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	LONG $0xf3540f66                     // andpd    xmm6, xmm3
+	LONG $0xf4560f66                     // orpd    xmm6, xmm4
+	LONG $0xfb540f66                     // andpd    xmm7, xmm3
+	LONG $0xfc560f66                     // orpd    xmm7, xmm4
+	LONG $0xf6e60f66                     // cvttpd2dq    xmm6, xmm6
+	LONG $0x00380f66; BYTE $0xf5         // pshufb    xmm6, xmm5
+	LONG $0xffe60f66                     // cvttpd2dq    xmm7, xmm7
+	LONG $0x00380f66; BYTE $0xfd         // pshufb    xmm7, xmm5
+	LONG $0x10380f66; BYTE $0xf2         // pblendvb    xmm6, xmm2, xmm0
+	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xfa         // pblendvb    xmm7, xmm2, xmm0
+	QUAD $0x003034153a0f4166             // pextrw    word [r8 + rsi], xmm6, 0
+	QUAD $0x02307c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm7, 0
+	LONG $0x74100f66; WORD $0x20f1       // movupd    xmm6, oword [rcx + 8*rsi + 32]
+	LONG $0x7c100f66; WORD $0x30f1       // movupd    xmm7, oword [rcx + 8*rsi + 48]
+	LONG $0xc6280f66                     // movapd    xmm0, xmm6
+	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	LONG $0xcf280f66                     // movapd    xmm1, xmm7
+	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	LONG $0xf3540f66                     // andpd    xmm6, xmm3
+	LONG $0xf4560f66                     // orpd    xmm6, xmm4
+	LONG $0xfb540f66                     // andpd    xmm7, xmm3
+	LONG $0xfc560f66                     // orpd    xmm7, xmm4
+	LONG $0xf6e60f66                     // cvttpd2dq    xmm6, xmm6
+	LONG $0x00380f66; BYTE $0xf5         // pshufb    xmm6, xmm5
+	LONG $0xffe60f66                     // cvttpd2dq    xmm7, xmm7
+	LONG $0x00380f66; BYTE $0xfd         // pshufb    xmm7, xmm5
+	LONG $0x10380f66; BYTE $0xf2         // pblendvb    xmm6, xmm2, xmm0
+	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xfa         // pblendvb    xmm7, xmm2, xmm0
+	QUAD $0x043074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 4], xmm6, 0
+	QUAD $0x06307c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 6], xmm7, 0
+	LONG $0x08c68348                     // add    rsi, 8
+	LONG $0x02c78348                     // add    rdi, 2
+	JNE  LBB4_899
+	JMP  LBB4_1544
+
+LBB4_902:
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB4_1552
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x00000100a56f0f66 // movdqa    xmm4, oword 256[rbp] /* [rip + .LCPI4_22] */
+
+LBB4_904:
+	LONG $0x2c6f0ff3; BYTE $0x01               // movdqu    xmm5, oword [rcx + rax]
+	LONG $0x746f0ff3; WORD $0x1001             // movdqu    xmm6, oword [rcx + rax + 16]
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
+	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xce640f66                           // pcmpgtb    xmm1, xmm6
+	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0x7f0f41f3; WORD $0x003c             // movdqu    oword [r8 + rax], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2001             // movdqu    xmm5, oword [rcx + rax + 32]
+	LONG $0x746f0ff3; WORD $0x3001             // movdqu    xmm6, oword [rcx + rax + 48]
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
+	LONG $0xea740f66                           // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xce640f66                           // pcmpgtb    xmm1, xmm6
+	LONG $0xf2740f66                           // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0x10380f66; BYTE $0xfd               // pblendvb    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66                           // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0x7f0f41f3; WORD $0x007c; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm7
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm5
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_904
+	JMP  LBB4_1553
+
+LBB4_907:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1561
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x000000c0956f0f66 // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI4_18] */
+
+LBB4_909:
+	LONG $0x1c6f0ff3; BYTE $0xf1         // movdqu    xmm3, oword [rcx + 8*rsi]
+	LONG $0x646f0ff3; WORD $0x10f1       // movdqu    xmm4, oword [rcx + 8*rsi + 16]
+	LONG $0x29380f66; BYTE $0xd8         // pcmpeqq    xmm3, xmm0
+	LONG $0xd9ef0f66                     // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
+	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
+	LONG $0xdadb0f66                     // pand    xmm3, xmm2
+	LONG $0x29380f66; BYTE $0xe0         // pcmpeqq    xmm4, xmm0
+	LONG $0xe1ef0f66                     // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
+	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                     // packsswb    xmm4, xmm4
+	QUAD $0x00301c153a0f4166             // pextrw    word [r8 + rsi], xmm3, 0
+	LONG $0xe2db0f66                     // pand    xmm4, xmm2
+	QUAD $0x023064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm4, 0
+	LONG $0x5c6f0ff3; WORD $0x20f1       // movdqu    xmm3, oword [rcx + 8*rsi + 32]
+	LONG $0x646f0ff3; WORD $0x30f1       // movdqu    xmm4, oword [rcx + 8*rsi + 48]
+	LONG $0x29380f66; BYTE $0xd8         // pcmpeqq    xmm3, xmm0
+	LONG $0xd9ef0f66                     // pxor    xmm3, xmm1
+	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
+	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
+	LONG $0xdadb0f66                     // pand    xmm3, xmm2
+	LONG $0x29380f66; BYTE $0xe0         // pcmpeqq    xmm4, xmm0
+	LONG $0xe1ef0f66                     // pxor    xmm4, xmm1
+	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
+	LONG $0xe46b0f66                     // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                     // packsswb    xmm4, xmm4
+	QUAD $0x04305c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 4], xmm3, 0
+	LONG $0xe2db0f66                     // pand    xmm4, xmm2
+	QUAD $0x063064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 6], xmm4, 0
+	LONG $0x08c68348                     // add    rsi, 8
+	LONG $0x02c78348                     // add    rdi, 2
+	JNE  LBB4_909
+	JMP  LBB4_1562
+
+LBB4_912:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0 // and    edx, -16
+	LONG $0xf0728d48         // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1569
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	LONG $0xc9760f66         // pcmpeqd    xmm1, xmm1
+	QUAD $0x000000f0956f0f66 // movdqa    xmm2, oword 240[rbp] /* [rip + .LCPI4_21] */
+
+LBB4_914:
+	LONG $0x1c6f0ff3; BYTE $0x71               // movdqu    xmm3, oword [rcx + 2*rsi]
+	LONG $0x646f0ff3; WORD $0x1071             // movdqu    xmm4, oword [rcx + 2*rsi + 16]
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x301c             // movdqu    oword [r8 + rsi], xmm3
+	LONG $0x5c6f0ff3; WORD $0x2071             // movdqu    xmm3, oword [rcx + 2*rsi + 32]
+	LONG $0x646f0ff3; WORD $0x3071             // movdqu    xmm4, oword [rcx + 2*rsi + 48]
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0xdc6c0f66                           // punpcklqdq    xmm3, xmm4
+	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm3
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_914
+	JMP  LBB4_1570
+
+LBB4_917:
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB4_1577
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x000000f0a56f0f66 // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
+
+LBB4_919:
+	LONG $0x2c6f0ff3; BYTE $0x41               // movdqu    xmm5, oword [rcx + 2*rax]
+	LONG $0x746f0ff3; WORD $0x1041             // movdqu    xmm6, oword [rcx + 2*rax + 16]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x002c             // movdqu    oword [r8 + rax], xmm5
+	LONG $0x6c6f0ff3; WORD $0x2041             // movdqu    xmm5, oword [rcx + 2*rax + 32]
+	LONG $0x746f0ff3; WORD $0x3041             // movdqu    xmm6, oword [rcx + 2*rax + 48]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xea750f66                           // pcmpeqw    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xf2750f66                           // pcmpeqw    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	LONG $0x7f0f41f3; WORD $0x006c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm5
+	LONG $0x20c08348                           // add    rax, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_919
+	JMP  LBB4_1578
+
+LBB4_922:
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB4_1586
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x000000c0a56f0f66 // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
+
+LBB4_924:
+	LONG $0x2c6f0ff3; BYTE $0xc1         // movdqu    xmm5, oword [rcx + 8*rax]
+	LONG $0x746f0ff3; WORD $0x10c1       // movdqu    xmm6, oword [rcx + 8*rax + 16]
+	LONG $0xc56f0f66                     // movdqa    xmm0, xmm5
+	LONG $0x37380f66; BYTE $0xc2         // pcmpgtq    xmm0, xmm2
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	LONG $0xce6f0f66                     // movdqa    xmm1, xmm6
+	LONG $0x37380f66; BYTE $0xca         // pcmpgtq    xmm1, xmm2
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	LONG $0x29380f66; BYTE $0xea         // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66                     // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
+	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
+	LONG $0xed630f66                     // packsswb    xmm5, xmm5
+	LONG $0x29380f66; BYTE $0xf2         // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66                     // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
+	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                     // packsswb    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec         // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4         // pblendvb    xmm6, xmm4, xmm0
+	QUAD $0x00002c153a0f4166             // pextrw    word [r8 + rax], xmm5, 0
+	QUAD $0x020074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 2], xmm6, 0
+	LONG $0x6c6f0ff3; WORD $0x20c1       // movdqu    xmm5, oword [rcx + 8*rax + 32]
+	LONG $0x746f0ff3; WORD $0x30c1       // movdqu    xmm6, oword [rcx + 8*rax + 48]
+	LONG $0xc56f0f66                     // movdqa    xmm0, xmm5
+	LONG $0x37380f66; BYTE $0xc2         // pcmpgtq    xmm0, xmm2
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	LONG $0xce6f0f66                     // movdqa    xmm1, xmm6
+	LONG $0x37380f66; BYTE $0xca         // pcmpgtq    xmm1, xmm2
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	LONG $0x29380f66; BYTE $0xea         // pcmpeqq    xmm5, xmm2
+	LONG $0xebef0f66                     // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
+	LONG $0xed6b0f66                     // packssdw    xmm5, xmm5
+	LONG $0xed630f66                     // packsswb    xmm5, xmm5
+	LONG $0x29380f66; BYTE $0xf2         // pcmpeqq    xmm6, xmm2
+	LONG $0xf3ef0f66                     // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
+	LONG $0xf66b0f66                     // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                     // packsswb    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec         // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4         // pblendvb    xmm6, xmm4, xmm0
+	QUAD $0x04006c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 4], xmm5, 0
+	QUAD $0x060074153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 6], xmm6, 0
+	LONG $0x08c08348                     // add    rax, 8
+	LONG $0x02c78348                     // add    rdi, 2
+	JNE  LBB4_924
+	JMP  LBB4_1587
+
+LBB4_927:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1595
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	WORD $0x570f; BYTE $0xe4     // xorps    xmm4, xmm4
+	LONG $0x760f4566; BYTE $0xc0 // pcmpeqd    xmm8, xmm8
+	QUAD $0x00000080b56f0f66     // movdqa    xmm6, oword 128[rbp] /* [rip + .LCPI4_12] */
+
+LBB4_929:
+	LONG $0xb104100f                           // movups    xmm0, oword [rcx + 4*rsi]
+	LONG $0xb14c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rsi + 16]
+	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
+	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
+	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
+	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x303c             // movd    dword [r8 + rsi], xmm7
+	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm5
+	LONG $0xb144100f; BYTE $0x20               // movups    xmm0, oword [rcx + 4*rsi + 32]
+	LONG $0xb14c100f; BYTE $0x30               // movups    xmm1, oword [rcx + 4*rsi + 48]
+	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
+	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
+	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0x660f4166; BYTE $0xc0               // pcmpgtd    xmm0, xmm8
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x660f4166; BYTE $0xc8               // pcmpgtd    xmm1, xmm8
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x08 // movd    dword [r8 + rsi + 8], xmm5
+	LONG $0x7e0f4166; WORD $0x307c; BYTE $0x0c // movd    dword [r8 + rsi + 12], xmm7
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_929
+	JMP  LBB4_1596
+
+LBB4_932:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0 // and    edx, -32
+	LONG $0xe0728d48         // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1604
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xc0ef0f66         // pxor    xmm0, xmm0
+	QUAD $0x000001008d6f0f66 // movdqa    xmm1, oword 256[rbp] /* [rip + .LCPI4_22] */
+
+LBB4_934:
+	LONG $0x146f0ff3; BYTE $0x31               // movdqu    xmm2, oword [rcx + rsi]
+	LONG $0x5c6f0ff3; WORD $0x1031             // movdqu    xmm3, oword [rcx + rsi + 16]
+	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0x3014             // movdqu    oword [r8 + rsi], xmm2
+	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm3
+	LONG $0x546f0ff3; WORD $0x2031             // movdqu    xmm2, oword [rcx + rsi + 32]
+	LONG $0x5c6f0ff3; WORD $0x3031             // movdqu    xmm3, oword [rcx + rsi + 48]
+	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0x3054; BYTE $0x20 // movdqu    oword [r8 + rsi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x305c; BYTE $0x30 // movdqu    oword [r8 + rsi + 48], xmm3
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_934
+	JMP  LBB4_1605
+
+LBB4_937:
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB4_1612
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	QUAD $0x00000080a56f0f66 // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
+
+LBB4_939:
+	LONG $0x2c6f0ff3; BYTE $0x81               // movdqu    xmm5, oword [rcx + 4*rax]
+	LONG $0x746f0ff3; WORD $0x1081             // movdqu    xmm6, oword [rcx + 4*rax + 16]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x002c             // movd    dword [r8 + rax], xmm5
+	LONG $0x7e0f4166; WORD $0x0074; BYTE $0x04 // movd    dword [r8 + rax + 4], xmm6
+	LONG $0x6c6f0ff3; WORD $0x2081             // movdqu    xmm5, oword [rcx + 4*rax + 32]
+	LONG $0x746f0ff3; WORD $0x3081             // movdqu    xmm6, oword [rcx + 4*rax + 48]
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2660f66                           // pcmpgtd    xmm0, xmm2
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xca660f66                           // pcmpgtd    xmm1, xmm2
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xea760f66                           // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66                           // pxor    xmm5, xmm3
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xf2760f66                           // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66                           // pxor    xmm6, xmm3
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xf4               // pblendvb    xmm6, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x006c; BYTE $0x08 // movd    dword [r8 + rax + 8], xmm5
+	LONG $0x7e0f4166; WORD $0x0074; BYTE $0x0c // movd    dword [r8 + rax + 12], xmm6
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_939
+	JMP  LBB4_1613
+
+LBB4_942:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1621
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_944:
+	LONG $0x146f0ff3; BYTE $0xb1               // movdqu    xmm2, oword [rcx + 4*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10b1             // movdqu    xmm3, oword [rcx + 4*rsi + 16]
+	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0xb014             // movdqu    oword [r8 + 4*rsi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm3
+	LONG $0x546f0ff3; WORD $0x20b1             // movdqu    xmm2, oword [rcx + 4*rsi + 32]
+	LONG $0x5c6f0ff3; WORD $0x30b1             // movdqu    xmm3, oword [rcx + 4*rsi + 48]
+	LONG $0xd0760f66                           // pcmpeqd    xmm2, xmm0
+	LONG $0xd1df0f66                           // pandn    xmm2, xmm1
+	LONG $0xd8760f66                           // pcmpeqd    xmm3, xmm0
+	LONG $0xd9df0f66                           // pandn    xmm3, xmm1
+	LONG $0x7f0f41f3; WORD $0xb054; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm3
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_944
+	JMP  LBB4_1622
+
+LBB4_950:
+	WORD $0x8944; BYTE $0xd2 // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB4_1629
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0xfee78348         // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xf631             // xor    esi, esi
+	LONG $0xd2ef0f66         // pxor    xmm2, xmm2
+	LONG $0xdb760f66         // pcmpeqd    xmm3, xmm3
+	LONG $0x5065280f         // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_952:
+	LONG $0x2c6e0f66; BYTE $0x31   // movd    xmm5, dword [rcx + rsi]
+	LONG $0x746e0f66; WORD $0x0431 // movd    xmm6, dword [rcx + rsi + 4]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
+	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
+	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
+	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
+	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x2c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm5
+	LONG $0x74110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm6
+	LONG $0x6c6e0f66; WORD $0x0831 // movd    xmm5, dword [rcx + rsi + 8]
+	LONG $0x746e0f66; WORD $0x0c31 // movd    xmm6, dword [rcx + rsi + 12]
+	LONG $0xc56f0f66               // movdqa    xmm0, xmm5
+	LONG $0xc2640f66               // pcmpgtb    xmm0, xmm2
+	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
+	LONG $0xce6f0f66               // movdqa    xmm1, xmm6
+	LONG $0xca640f66               // pcmpgtb    xmm1, xmm2
+	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
+	LONG $0xea740f66               // pcmpeqb    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0x21380f66; BYTE $0xed   // pmovsxbd    xmm5, xmm5
+	LONG $0xf2740f66               // pcmpeqb    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0x21380f66; BYTE $0xf6   // pmovsxbd    xmm6, xmm6
+	LONG $0x14380f66; BYTE $0xec   // blendvps    xmm5, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xf4   // blendvps    xmm6, xmm4, xmm0
+	LONG $0x6c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm5
+	LONG $0x74110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm6
+	LONG $0x10c68348               // add    rsi, 16
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_952
+	JMP  LBB4_1630
+
+LBB4_974:
+	WORD $0x8944; BYTE $0xd2     // mov    edx, r10d
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1638
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0xc9760f66             // pcmpeqd    xmm1, xmm1
+	LONG $0x556f0f66; BYTE $0x50 // movdqa    xmm2, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_976:
+	LONG $0x1c6e0f66; BYTE $0x31               // movd    xmm3, dword [rcx + rsi]
+	LONG $0x646e0f66; WORD $0x0431             // movd    xmm4, dword [rcx + rsi + 4]
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x31380f66; BYTE $0xdb               // pmovzxbd    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x31380f66; BYTE $0xe4               // pmovzxbd    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xb01c             // movdqu    oword [r8 + 4*rsi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm4
+	LONG $0x5c6e0f66; WORD $0x0831             // movd    xmm3, dword [rcx + rsi + 8]
+	LONG $0x646e0f66; WORD $0x0c31             // movd    xmm4, dword [rcx + rsi + 12]
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0x31380f66; BYTE $0xdb               // pmovzxbd    xmm3, xmm3
+	LONG $0xdadb0f66                           // pand    xmm3, xmm2
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0xe1ef0f66                           // pxor    xmm4, xmm1
+	LONG $0x31380f66; BYTE $0xe4               // pmovzxbd    xmm4, xmm4
+	LONG $0xe2db0f66                           // pand    xmm4, xmm2
+	LONG $0x7f0f41f3; WORD $0xb05c; BYTE $0x20 // movdqu    oword [r8 + 4*rsi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb064; BYTE $0x30 // movdqu    oword [r8 + 4*rsi + 48], xmm4
+	LONG $0x10c68348                           // add    rsi, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB4_976
+	JMP  LBB4_1639
+
+LBB4_979:
+	WORD $0x8944; BYTE $0xda     // mov    edx, r11d
+	WORD $0xe283; BYTE $0xf8     // and    edx, -8
+	LONG $0xf8728d48             // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB4_1646
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
+	LONG $0xdb760f66             // pcmpeqd    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x50 // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+
+LBB4_981:
+	LONG $0x2c6f0ff3; BYTE $0xb1   // movdqu    xmm5, oword [rcx + 4*rsi]
+	LONG $0x746f0ff3; WORD $0x10b1 // movdqu    xmm6, oword [rcx + 4*rsi + 16]
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
+	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
+	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
+	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
+	LONG $0x3c110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm7
+	LONG $0x6c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm5
+	LONG $0x6c6f0ff3; WORD $0x20b1 // movdqu    xmm5, oword [rcx + 4*rsi + 32]
+	LONG $0x746f0ff3; WORD $0x30b1 // movdqu    xmm6, oword [rcx + 4*rsi + 48]
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
+	LONG $0xea760f66               // pcmpeqd    xmm5, xmm2
+	LONG $0xebef0f66               // pxor    xmm5, xmm3
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xce660f66               // pcmpgtd    xmm1, xmm6
+	LONG $0xf2760f66               // pcmpeqd    xmm6, xmm2
+	LONG $0xf3ef0f66               // pxor    xmm6, xmm3
+	LONG $0xfc6f0f66               // movdqa    xmm7, xmm4
+	LONG $0x14380f66; BYTE $0xfd   // blendvps    xmm7, xmm5, xmm0
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xee   // blendvps    xmm5, xmm6, xmm0
+	LONG $0x7c110f41; WORD $0x20b0 // movups    oword [r8 + 4*rsi + 32], xmm7
+	LONG $0x6c110f41; WORD $0x30b0 // movups    oword [r8 + 4*rsi + 48], xmm5
+	LONG $0x10c68348               // add    rsi, 16
+	LONG $0x02c78348               // add    rdi, 2
+	JNE  LBB4_981
+	JMP  LBB4_1647
+
+LBB4_1475:
+	QUAD $0x00000130856e0f66 // movd    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
+
+LBB4_1476:
+	JLE  LBB4_1478
+	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
+
+LBB4_1478:
+	LONG $0x7e0f4166; WORD $0x9004 // movd    dword [r8 + 4*rdx], xmm0
+	LONG $0x01ca8348               // or    rdx, 1
+
+LBB4_1479:
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	JE   LBB4_1655
+	QUAD $0x00000130856e0f66 // movd    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
+	QUAD $0x000001288d6e0f66 // movd    xmm1, dword 296[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_1482
+
+LBB4_1481:
+	LONG $0x7e0f4166; WORD $0x905c; BYTE $0x04 // movd    dword [r8 + 4*rdx + 4], xmm3
+	LONG $0x02c28348                           // add    rdx, 2
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JE   LBB4_1655
+
+LBB4_1482:
+	LONG $0x00113c80 // cmp    byte [rcx + rdx], 0
+	LONG $0xd06f0f66 // movdqa    xmm2, xmm0
+	JNE  LBB4_1483
+	LONG $0xd2ef0f66 // pxor    xmm2, xmm2
+	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
+	JLE  LBB4_1487
+
+LBB4_1484:
+	LONG $0x7e0f4166; WORD $0x901c // movd    dword [r8 + 4*rdx], xmm3
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xd06f0f66               // movdqa    xmm2, xmm0
+	JNE  LBB4_1485
+
+LBB4_1488:
+	LONG $0xd2ef0f66 // pxor    xmm2, xmm2
+	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
+	JG   LBB4_1481
+	JMP  LBB4_1489
+
+LBB4_1483:
+	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
+	JG   LBB4_1484
+
+LBB4_1487:
+	LONG $0xda6f0f66               // movdqa    xmm3, xmm2
+	LONG $0x7e0f4166; WORD $0x901c // movd    dword [r8 + 4*rdx], xmm3
+	LONG $0x01117c80; BYTE $0x00   // cmp    byte [rcx + rdx + 1], 0
+	LONG $0xd06f0f66               // movdqa    xmm2, xmm0
+	JE   LBB4_1488
+
+LBB4_1485:
+	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
+	JG   LBB4_1481
+
+LBB4_1489:
+	LONG $0xda6f0f66 // movdqa    xmm3, xmm2
+	JMP  LBB4_1481
+
+LBB4_994:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_995:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_997
+	LONG $0x046f0ff3; BYTE $0xf1   // movdqu    xmm0, oword [rcx + 8*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10f1 // movdqu    xmm1, oword [rcx + 8*rsi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0x29380f66; BYTE $0xc2   // pcmpeqq    xmm0, xmm2
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	QUAD $0x000000a09d6f0f66       // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI4_16] */
+	LONG $0xc3df0f66               // pandn    xmm0, xmm3
+	LONG $0x29380f66; BYTE $0xca   // pcmpeqq    xmm1, xmm2
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb004 // movdqu    oword [r8 + 4*rsi], xmm0
+
+LBB4_997:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_998:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_998
+	JMP  LBB4_1655
+
+LBB4_999:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1000:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1002
+	LONG $0x047e0ff3; BYTE $0xb1               // movq    xmm0, qword [rcx + 4*rsi]
+	LONG $0x4c7e0ff3; WORD $0x08b1             // movq    xmm1, qword [rcx + 4*rsi + 8]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0x35380f66; BYTE $0xc0               // pmovzxdq    xmm0, xmm0
+	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0x35380f66; BYTE $0xc9               // pmovzxdq    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
+
+LBB4_1002:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1003:
+	WORD $0xf631             // xor    esi, esi
+	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd6950f40         // setne    sil
+	LONG $0xd0348949         // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JNE  LBB4_1003
+	JMP  LBB4_1655
+
+LBB4_1004:
+	WORD $0xff31 // xor    edi, edi
+
+LBB4_1005:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1007
+	LONG $0x04100f66; BYTE $0xf9   // movupd    xmm0, oword [rcx + 8*rdi]
+	LONG $0x4d280f66; BYTE $0x00   // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xc8540f66               // andpd    xmm1, xmm0
+	LONG $0x4d560f66; BYTE $0x10   // orpd    xmm1, oword 16[rbp] /* [rip + .LCPI4_1] */
+	QUAD $0x0000011895100ff2       // movsd    xmm2, qword 280[rbp] /* [rip + .LCPI4_6] */
+	LONG $0xd9280f66               // movapd    xmm3, xmm1
+	LONG $0xda5c0ff2               // subsd    xmm3, xmm2
+	LONG $0x2c0f48f2; BYTE $0xc3   // cvttsd2si    rax, xmm3
+	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
+	LONG $0x2c0f48f2; BYTE $0xd1   // cvttsd2si    rdx, xmm1
+	LONG $0xca2e0f66               // ucomisd    xmm1, xmm2
+	LONG $0xd0430f48               // cmovae    rdx, rax
+	LONG $0x6e0f4866; BYTE $0xda   // movq    xmm3, rdx
+	LONG $0xc9700f66; BYTE $0xee   // pshufd    xmm1, xmm1, 238
+	LONG $0xe16f0f66               // movdqa    xmm4, xmm1
+	LONG $0xe25c0ff2               // subsd    xmm4, xmm2
+	LONG $0x2c0f48f2; BYTE $0xc4   // cvttsd2si    rax, xmm4
+	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
+	LONG $0x2c0f48f2; BYTE $0xd1   // cvttsd2si    rdx, xmm1
+	LONG $0xca2e0f66               // ucomisd    xmm1, xmm2
+	LONG $0xc9570f66               // xorpd    xmm1, xmm1
+	LONG $0xd0430f48               // cmovae    rdx, rax
+	LONG $0x6e0f4866; BYTE $0xd2   // movq    xmm2, rdx
+	LONG $0xda6c0f66               // punpcklqdq    xmm3, xmm2
+	LONG $0xc8c20f66; BYTE $0x04   // cmpneqpd    xmm1, xmm0
+	LONG $0xcb540f66               // andpd    xmm1, xmm3
+	LONG $0x110f4166; WORD $0xf80c // movupd    oword [r8 + 8*rdi], xmm1
+
+LBB4_1007:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB4_1655
+
+LBB4_1008:
+	LONG $0x45280f66; BYTE $0x00 // movapd    xmm0, oword 0[rbp] /* [rip + .LCPI4_0] */
+	QUAD $0x000001108d100ff2     // movsd    xmm1, qword 272[rbp] /* [rip + .LCPI4_2] */
+	QUAD $0x0000011895100ff2     // movsd    xmm2, qword 280[rbp] /* [rip + .LCPI4_6] */
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xdb570f66             // xorpd    xmm3, xmm3
+
+LBB4_1009:
+	LONG $0x24100ff2; BYTE $0xf1 // movsd    xmm4, qword [rcx + 8*rsi]
+	LONG $0xec280f66             // movapd    xmm5, xmm4
+	LONG $0xe8540f66             // andpd    xmm5, xmm0
+	LONG $0xe9560f66             // orpd    xmm5, xmm1
+	LONG $0xf5280f66             // movapd    xmm6, xmm5
+	LONG $0xf25c0ff2             // subsd    xmm6, xmm2
+	LONG $0x2c0f48f2; BYTE $0xd6 // cvttsd2si    rdx, xmm6
+	WORD $0x314c; BYTE $0xda     // xor    rdx, r11
+	LONG $0x2c0f48f2; BYTE $0xfd // cvttsd2si    rdi, xmm5
+	LONG $0xea2e0f66             // ucomisd    xmm5, xmm2
+	LONG $0xfa430f48             // cmovae    rdi, rdx
+	LONG $0xdc2e0f66             // ucomisd    xmm3, xmm4
+	LONG $0xf8440f48             // cmove    rdi, rax
+	LONG $0xf03c8949             // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB4_1009
+	JMP  LBB4_1655
+
+LBB4_1010:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1011:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1013
+	LONG $0x046e0f66; BYTE $0x71               // movd    xmm0, dword [rcx + 2*rsi]
+	LONG $0x4c6e0f66; WORD $0x0471             // movd    xmm1, dword [rcx + 2*rsi + 4]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0x34380f66; BYTE $0xc0               // pmovzxwq    xmm0, xmm0
+	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0x34380f66; BYTE $0xc9               // pmovzxwq    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
+
+LBB4_1013:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1014:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1014
+	JMP  LBB4_1655
+
+LBB4_1015:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1016:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1018
+	LONG $0x146e0f66; BYTE $0x71               // movd    xmm2, dword [rcx + 2*rsi]
+	LONG $0x5c6e0f66; WORD $0x0471             // movd    xmm3, dword [rcx + 2*rsi + 4]
+	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xc4650f66                           // pcmpgtw    xmm0, xmm4
+	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
+	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
+	LONG $0xd4750f66                           // pcmpeqw    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0x24380f66; BYTE $0xd2               // pmovsxwq    xmm2, xmm2
+	LONG $0xdc750f66                           // pcmpeqw    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0x24380f66; BYTE $0xdb               // pmovsxwq    xmm3, xmm3
+	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
+	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
+
+LBB4_1018:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+
+LBB4_1019:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1020:
+	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	LONG $0xc64f0f48         // cmovg    rax, rsi
+	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_1020
+	JMP  LBB4_1655
+
+LBB4_993:
+	WORD $0x500f; BYTE $0xc8               // movmskps    ecx, xmm0
+	WORD $0xe183; BYTE $0x01               // and    ecx, 1
+	WORD $0xd9f7                           // neg    ecx
+	WORD $0xc983; BYTE $0x01               // or    ecx, 1
+	WORD $0x570f; BYTE $0xc0               // xorps    xmm0, xmm0
+	LONG $0xc12a0ff3                       // cvtsi2ss    xmm0, ecx
+	QUAD $0x0000012c8d100ff3               // movss    xmm1, dword 300[rbp] /* [rip + .LCPI4_9] */
+	WORD $0x280f; BYTE $0xd0               // movaps    xmm2, xmm0
+	LONG $0xd15c0ff3                       // subss    xmm2, xmm1
+	LONG $0x2c0f48f3; BYTE $0xca           // cvttss2si    rcx, xmm2
+	QUAD $0x000000000000ba48; WORD $0x8000 // mov    rdx, -9223372036854775808
+	WORD $0x3148; BYTE $0xca               // xor    rdx, rcx
+	LONG $0x2c0f48f3; BYTE $0xc8           // cvttss2si    rcx, xmm0
+	WORD $0x2e0f; BYTE $0xc1               // ucomiss    xmm0, xmm1
+	LONG $0xca430f48                       // cmovae    rcx, rdx
+	LONG $0xc00c8949                       // mov    qword [r8 + 8*rax], rcx
+	JMP  LBB4_1655
+
+LBB4_1021:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1022:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1024
+	LONG $0x147e0ff3; BYTE $0xb1               // movq    xmm2, qword [rcx + 4*rsi]
+	LONG $0x5c7e0ff3; WORD $0x08b1             // movq    xmm3, qword [rcx + 4*rsi + 8]
+	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
+	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
+	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
+	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0x25380f66; BYTE $0xd2               // pmovsxdq    xmm2, xmm2
+	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0x25380f66; BYTE $0xdb               // pmovsxdq    xmm3, xmm3
+	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
+	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
+
+LBB4_1024:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+
+LBB4_1025:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1026:
+	WORD $0x3c8b; BYTE $0x91 // mov    edi, dword [rcx + 4*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0xff85             // test    edi, edi
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff85             // test    edi, edi
+	LONG $0xc64f0f48         // cmovg    rax, rsi
+	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_1026
+	JMP  LBB4_1655
+
+LBB4_1027:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1028:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1030
+	LONG $0x046f0ff3; BYTE $0xf1               // movdqu    xmm0, oword [rcx + 8*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10f1             // movdqu    xmm1, oword [rcx + 8*rsi + 16]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0x29380f66; BYTE $0xc2               // pcmpeqq    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0x29380f66; BYTE $0xca               // pcmpeqq    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7e0f4166; WORD $0x7004             // movd    dword [r8 + 2*rsi], xmm0
+	LONG $0x7e0f4166; WORD $0x704c; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm1
+
+LBB4_1030:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1031:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1031
+	JMP  LBB4_1655
+
+LBB4_1032:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1033:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1035
+	LONG $0x046f0ff3; BYTE $0xf1               // movdqu    xmm0, oword [rcx + 8*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10f1             // movdqu    xmm1, oword [rcx + 8*rsi + 16]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0x29380f66; BYTE $0xc2               // pcmpeqq    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0x29380f66; BYTE $0xca               // pcmpeqq    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7e0f4166; WORD $0x7004             // movd    dword [r8 + 2*rsi], xmm0
+	LONG $0x7e0f4166; WORD $0x704c; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm1
+
+LBB4_1035:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1036:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1036
+	JMP  LBB4_1655
+
+LBB4_1037:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1038:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1040
+	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
+	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x37380f66; BYTE $0xc4               // pcmpgtq    xmm0, xmm4
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0x37380f66; BYTE $0xcc               // pcmpgtq    xmm1, xmm4
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0x29380f66; BYTE $0xd4               // pcmpeqq    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0x29380f66; BYTE $0xdc               // pcmpeqq    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x7014             // movd    dword [r8 + 2*rsi], xmm2
+	LONG $0x7e0f4166; WORD $0x705c; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm3
+
+LBB4_1040:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+
+LBB4_1041:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1042:
+	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1042
+	JMP  LBB4_1655
+
+LBB4_1043:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1044:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1046
+	LONG $0x146f0ff3; BYTE $0xb1   // movdqu    xmm2, oword [rcx + 4*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10b1 // movdqu    xmm3, oword [rcx + 4*rsi + 16]
+	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0xc4660f66               // pcmpgtd    xmm0, xmm4
+	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
+	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
+	LONG $0xcc660f66               // pcmpgtd    xmm1, xmm4
+	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
+	LONG $0xd4760f66               // pcmpeqd    xmm2, xmm4
+	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
+	LONG $0xd26b0f66               // packssdw    xmm2, xmm2
+	LONG $0xdc760f66               // pcmpeqd    xmm3, xmm4
+	LONG $0xddef0f66               // pxor    xmm3, xmm5
+	LONG $0xdb6b0f66               // packssdw    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x70   // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
+	LONG $0x10380f66; BYTE $0xd4   // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc   // pblendvb    xmm3, xmm4, xmm0
+	LONG $0xd36c0f66               // punpcklqdq    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0x7014 // movdqu    oword [r8 + 2*rsi], xmm2
+
+LBB4_1046:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+
+LBB4_1047:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1048:
+	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1048
+	JMP  LBB4_1655
+
+LBB4_1049:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1050:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1052
+	LONG $0x146f0ff3; BYTE $0xb1   // movdqu    xmm2, oword [rcx + 4*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10b1 // movdqu    xmm3, oword [rcx + 4*rsi + 16]
+	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0xc4660f66               // pcmpgtd    xmm0, xmm4
+	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
+	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
+	LONG $0xcc660f66               // pcmpgtd    xmm1, xmm4
+	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
+	LONG $0xd4760f66               // pcmpeqd    xmm2, xmm4
+	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
+	LONG $0xd26b0f66               // packssdw    xmm2, xmm2
+	LONG $0xdc760f66               // pcmpeqd    xmm3, xmm4
+	LONG $0xddef0f66               // pxor    xmm3, xmm5
+	LONG $0xdb6b0f66               // packssdw    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x70   // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
+	LONG $0x10380f66; BYTE $0xd4   // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc   // pblendvb    xmm3, xmm4, xmm0
+	LONG $0xd36c0f66               // punpcklqdq    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0x7014 // movdqu    oword [r8 + 2*rsi], xmm2
+
+LBB4_1052:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+
+LBB4_1053:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1054:
+	WORD $0x3c8b; BYTE $0x91     // mov    edi, dword [rcx + 4*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0xff85                 // test    edi, edi
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1054
+	JMP  LBB4_1655
+
+LBB4_1055:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1056:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1058
+	LONG $0x046e0f66; BYTE $0x71               // movd    xmm0, dword [rcx + 2*rsi]
+	LONG $0x4c6e0f66; WORD $0x0471             // movd    xmm1, dword [rcx + 2*rsi + 4]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0x34380f66; BYTE $0xc0               // pmovzxwq    xmm0, xmm0
+	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0x34380f66; BYTE $0xc9               // pmovzxwq    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
+
+LBB4_1058:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1059:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0xd0348949             // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1059
+	JMP  LBB4_1655
+
+LBB4_1060:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1061:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1063
+	LONG $0x147e0ff3; BYTE $0xb1               // movq    xmm2, qword [rcx + 4*rsi]
+	LONG $0x5c7e0ff3; WORD $0x08b1             // movq    xmm3, qword [rcx + 4*rsi + 8]
+	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
+	LONG $0x25380f66; BYTE $0xc0               // pmovsxdq    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
+	LONG $0x25380f66; BYTE $0xc9               // pmovsxdq    xmm1, xmm1
+	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0x25380f66; BYTE $0xd2               // pmovsxdq    xmm2, xmm2
+	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0x25380f66; BYTE $0xdb               // pmovsxdq    xmm3, xmm3
+	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
+	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
+
+LBB4_1063:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+
+LBB4_1064:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1065:
+	WORD $0x3c8b; BYTE $0x91 // mov    edi, dword [rcx + 4*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0xff85             // test    edi, edi
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff85             // test    edi, edi
+	LONG $0xc64f0f48         // cmovg    rax, rsi
+	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_1065
+	JMP  LBB4_1655
+
+LBB4_1066:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1067:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1069
+	LONG $0x146f0ff3; BYTE $0xb1               // movdqu    xmm2, oword [rcx + 4*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10b1             // movdqu    xmm3, oword [rcx + 4*rsi + 16]
+	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
+	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	WORD $0x5b0f; BYTE $0xd2                   // cvtdq2ps    xmm2, xmm2
+	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	WORD $0x5b0f; BYTE $0xdb                   // cvtdq2ps    xmm3, xmm3
+	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
+	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
+	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
+	LONG $0x5c110f41; WORD $0x10b0             // movups    oword [r8 + 4*rsi + 16], xmm3
+
+LBB4_1069:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1070:
+	QUAD $0x00000130856e0f66 // movd    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
+	QUAD $0x000001288d6e0f66 // movd    xmm1, dword 296[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_1072
+
+LBB4_1071:
+	LONG $0x7e0f4166; WORD $0x901c // movd    dword [r8 + 4*rdx], xmm3
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1655
+
+LBB4_1072:
+	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd06f0f66 // movdqa    xmm2, xmm0
+	JNE  LBB4_1074
+	LONG $0xd2ef0f66 // pxor    xmm2, xmm2
+
+LBB4_1074:
+	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
+	JG   LBB4_1071
+	LONG $0xda6f0f66 // movdqa    xmm3, xmm2
+	JMP  LBB4_1071
+
+LBB4_1076:
+	WORD $0xff31 // xor    edi, edi
+
+LBB4_1077:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1079
+	LONG $0x04100f66; BYTE $0xf9   // movupd    xmm0, oword [rcx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10f9 // movupd    xmm1, oword [rcx + 8*rdi + 16]
+	LONG $0xd2570f66               // xorpd    xmm2, xmm2
+	LONG $0xd8280f66               // movapd    xmm3, xmm0
+	LONG $0xdac20f66; BYTE $0x00   // cmpeqpd    xmm3, xmm2
+	LONG $0xe8dbc60f               // shufps    xmm3, xmm3, 232
+	LONG $0xd1c20f66; BYTE $0x00   // cmpeqpd    xmm2, xmm1
+	LONG $0xe8d2c60f               // shufps    xmm2, xmm2, 232
+	LONG $0x65280f66; BYTE $0x00   // movapd    xmm4, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xc4540f66               // andpd    xmm0, xmm4
+	LONG $0x6d280f66; BYTE $0x10   // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xc5560f66               // orpd    xmm0, xmm5
+	LONG $0xcc540f66               // andpd    xmm1, xmm4
+	LONG $0xcd560f66               // orpd    xmm1, xmm5
+	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
+	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
+	WORD $0x550f; BYTE $0xd8       // andnps    xmm3, xmm0
+	WORD $0x550f; BYTE $0xd1       // andnps    xmm2, xmm1
+	WORD $0x160f; BYTE $0xda       // movlhps    xmm3, xmm2
+	LONG $0x1c110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm3
+
+LBB4_1079:
+	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
+	JE   LBB4_1655
+
+LBB4_1080:
+	LONG $0xc0570f66             // xorpd    xmm0, xmm0
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
+
+LBB4_1081:
+	LONG $0x1c100ff2; BYTE $0xf1 // movsd    xmm3, qword [rcx + 8*rsi]
+	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
+	LONG $0xd9540f66             // andpd    xmm3, xmm1
+	LONG $0xda560f66             // orpd    xmm3, xmm2
+	LONG $0xd32c0ff2             // cvttsd2si    edx, xmm3
+	LONG $0xd2440f41             // cmove    edx, r10d
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JNE  LBB4_1081
+	JMP  LBB4_1655
+
+LBB4_1082:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1083:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1085
+	LONG $0x046f0ff3; BYTE $0xf1   // movdqu    xmm0, oword [rcx + 8*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10f1 // movdqu    xmm1, oword [rcx + 8*rsi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0x29380f66; BYTE $0xc2   // pcmpeqq    xmm0, xmm2
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	QUAD $0x000000a09d6f0f66       // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI4_16] */
+	LONG $0xc3df0f66               // pandn    xmm0, xmm3
+	LONG $0x29380f66; BYTE $0xca   // pcmpeqq    xmm1, xmm2
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xcbdf0f66               // pandn    xmm1, xmm3
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb004 // movdqu    oword [r8 + 4*rsi], xmm0
+
+LBB4_1085:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1086:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xd13c8348; BYTE $0x00 // cmp    qword [rcx + 8*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1086
+	JMP  LBB4_1655
+
+LBB4_1087:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1088:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1090
+	LONG $0x047e0ff3; BYTE $0x71               // movq    xmm0, qword [rcx + 2*rsi]
+	LONG $0x4c7e0ff3; WORD $0x0871             // movq    xmm1, qword [rcx + 2*rsi + 8]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0x33380f66; BYTE $0xc0               // pmovzxwd    xmm0, xmm0
+	LONG $0x656f0f66; BYTE $0x50               // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0x33380f66; BYTE $0xc9               // pmovzxwd    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
+
+LBB4_1090:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1091:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1091
+	JMP  LBB4_1655
+
+LBB4_1092:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1093:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1095
+	LONG $0x147e0ff3; BYTE $0x71   // movq    xmm2, qword [rcx + 2*rsi]
+	LONG $0x5c7e0ff3; WORD $0x0871 // movq    xmm3, qword [rcx + 2*rsi + 8]
+	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0xc4650f66               // pcmpgtw    xmm0, xmm4
+	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
+	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
+	LONG $0xcc650f66               // pcmpgtw    xmm1, xmm4
+	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
+	LONG $0xd4750f66               // pcmpeqw    xmm2, xmm4
+	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
+	LONG $0x23380f66; BYTE $0xd2   // pmovsxwd    xmm2, xmm2
+	LONG $0xdc750f66               // pcmpeqw    xmm3, xmm4
+	LONG $0xddef0f66               // pxor    xmm3, xmm5
+	LONG $0x23380f66; BYTE $0xdb   // pmovsxwd    xmm3, xmm3
+	LONG $0x5065280f               // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0x14380f66; BYTE $0xd4   // blendvps    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xdc   // blendvps    xmm3, xmm4, xmm0
+	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
+	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
+
+LBB4_1095:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+
+LBB4_1096:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1097:
+	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f7             // neg    eax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
+	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_1097
+	JMP  LBB4_1655
+
+LBB4_1098:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1099:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1101
+	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
+	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x37380f66; BYTE $0xc4               // pcmpgtq    xmm0, xmm4
+	LONG $0xc0700f66; BYTE $0xe8               // pshufd    xmm0, xmm0, 232
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0x37380f66; BYTE $0xcc               // pcmpgtq    xmm1, xmm4
+	LONG $0xc9700f66; BYTE $0xe8               // pshufd    xmm1, xmm1, 232
+	LONG $0x29380f66; BYTE $0xd4               // pcmpeqq    xmm2, xmm4
+	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0x29380f66; BYTE $0xdc               // pcmpeqq    xmm3, xmm4
+	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0xa0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 160[rbp] /* [rip + .LCPI4_16] */
+	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
+	WORD $0x160f; BYTE $0xd3                   // movlhps    xmm2, xmm3
+	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
+
+LBB4_1101:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+
+LBB4_1102:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1103:
+	LONG $0xd13c8b48         // mov    rdi, qword [rcx + 8*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x8548; BYTE $0xff // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f7             // neg    eax
+	WORD $0x8548; BYTE $0xff // test    rdi, rdi
+	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
+	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_1103
+	JMP  LBB4_1655
+
+LBB4_1106:
+	WORD $0xff31 // xor    edi, edi
+
+LBB4_1107:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1109
+	LONG $0x1c100f66; BYTE $0xf9   // movupd    xmm3, oword [rcx + 8*rdi]
+	LONG $0x54100f66; WORD $0x10f9 // movupd    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc9570f66               // xorpd    xmm1, xmm1
+	LONG $0xc3280f66               // movapd    xmm0, xmm3
+	LONG $0xc1c20f66; BYTE $0x00   // cmpeqpd    xmm0, xmm1
+	LONG $0xe8c0c60f               // shufps    xmm0, xmm0, 232
+	LONG $0xcac20f66; BYTE $0x00   // cmpeqpd    xmm1, xmm2
+	LONG $0x65280f66; BYTE $0x00   // movapd    xmm4, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xdc540f66               // andpd    xmm3, xmm4
+	LONG $0x6d280f66; BYTE $0x10   // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xdd560f66               // orpd    xmm3, xmm5
+	LONG $0xd4540f66               // andpd    xmm2, xmm4
+	LONG $0xd5560f66               // orpd    xmm2, xmm5
+	LONG $0xe3700f66; BYTE $0xee   // pshufd    xmm4, xmm3, 238
+	LONG $0x2c0f48f2; BYTE $0xc4   // cvttsd2si    rax, xmm4
+	LONG $0x2c0f48f2; BYTE $0xd3   // cvttsd2si    rdx, xmm3
+	LONG $0xda6e0f66               // movd    xmm3, edx
+	LONG $0x223a0f66; WORD $0x01d8 // pinsrd    xmm3, eax, 1
+	LONG $0xe2700f66; BYTE $0xee   // pshufd    xmm4, xmm2, 238
+	LONG $0x2c0f48f2; BYTE $0xc4   // cvttsd2si    rax, xmm4
+	LONG $0x2c0f48f2; BYTE $0xd2   // cvttsd2si    rdx, xmm2
+	LONG $0xe8c9c60f               // shufps    xmm1, xmm1, 232
+	LONG $0xd26e0f66               // movd    xmm2, edx
+	LONG $0x223a0f66; WORD $0x01d0 // pinsrd    xmm2, eax, 1
+	WORD $0x550f; BYTE $0xc3       // andnps    xmm0, xmm3
+	WORD $0x550f; BYTE $0xca       // andnps    xmm1, xmm2
+	WORD $0x160f; BYTE $0xc1       // movlhps    xmm0, xmm1
+	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
+
+LBB4_1109:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB4_1655
+
+LBB4_1110:
+	LONG $0xc0570f66             // xorpd    xmm0, xmm0
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
+
+LBB4_1111:
+	LONG $0x1c100ff2; BYTE $0xf1 // movsd    xmm3, qword [rcx + 8*rsi]
+	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
+	LONG $0xd9540f66             // andpd    xmm3, xmm1
+	LONG $0xda560f66             // orpd    xmm3, xmm2
+	LONG $0x2c0f48f2; BYTE $0xc3 // cvttsd2si    rax, xmm3
+	LONG $0xc2440f41             // cmove    eax, r10d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB4_1111
+	JMP  LBB4_1655
+
+LBB4_1112:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1113:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1115
+	LONG $0x047e0ff3; BYTE $0x71               // movq    xmm0, qword [rcx + 2*rsi]
+	LONG $0x4c7e0ff3; WORD $0x0871             // movq    xmm1, qword [rcx + 2*rsi + 8]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0x33380f66; BYTE $0xc0               // pmovzxwd    xmm0, xmm0
+	LONG $0x656f0f66; BYTE $0x50               // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0x33380f66; BYTE $0xc9               // pmovzxwd    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
+
+LBB4_1115:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1116:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x90348941             // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1116
+	JMP  LBB4_1655
+
+LBB4_1117:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1118:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1120
+	LONG $0x147e0ff3; BYTE $0x71   // movq    xmm2, qword [rcx + 2*rsi]
+	LONG $0x5c7e0ff3; WORD $0x0871 // movq    xmm3, qword [rcx + 2*rsi + 8]
+	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0xc4650f66               // pcmpgtw    xmm0, xmm4
+	LONG $0x23380f66; BYTE $0xc0   // pmovsxwd    xmm0, xmm0
+	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
+	LONG $0xcc650f66               // pcmpgtw    xmm1, xmm4
+	LONG $0x23380f66; BYTE $0xc9   // pmovsxwd    xmm1, xmm1
+	LONG $0xd4750f66               // pcmpeqw    xmm2, xmm4
+	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
+	LONG $0x23380f66; BYTE $0xd2   // pmovsxwd    xmm2, xmm2
+	LONG $0xdc750f66               // pcmpeqw    xmm3, xmm4
+	LONG $0xddef0f66               // pxor    xmm3, xmm5
+	LONG $0x23380f66; BYTE $0xdb   // pmovsxwd    xmm3, xmm3
+	LONG $0x5065280f               // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0x14380f66; BYTE $0xd4   // blendvps    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xdc   // blendvps    xmm3, xmm4, xmm0
+	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
+	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
+
+LBB4_1120:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+
+LBB4_1121:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1122:
+	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f7             // neg    eax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
+	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_1122
+	JMP  LBB4_1655
+
+LBB4_1123:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1124:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1126
+	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
+	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x37380f66; BYTE $0xc4               // pcmpgtq    xmm0, xmm4
+	LONG $0xc0700f66; BYTE $0xe8               // pshufd    xmm0, xmm0, 232
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0x37380f66; BYTE $0xcc               // pcmpgtq    xmm1, xmm4
+	LONG $0xc9700f66; BYTE $0xe8               // pshufd    xmm1, xmm1, 232
+	LONG $0x29380f66; BYTE $0xd4               // pcmpeqq    xmm2, xmm4
+	LONG $0xd2700f66; BYTE $0xe8               // pshufd    xmm2, xmm2, 232
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0x29380f66; BYTE $0xdc               // pcmpeqq    xmm3, xmm4
+	LONG $0xdb700f66; BYTE $0xe8               // pshufd    xmm3, xmm3, 232
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0xa0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 160[rbp] /* [rip + .LCPI4_16] */
+	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
+	WORD $0x160f; BYTE $0xd3                   // movlhps    xmm2, xmm3
+	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
+
+LBB4_1126:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+
+LBB4_1127:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1128:
+	LONG $0xd13c8b48         // mov    rdi, qword [rcx + 8*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x8548; BYTE $0xff // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f7             // neg    eax
+	WORD $0x8548; BYTE $0xff // test    rdi, rdi
+	WORD $0x4f0f; BYTE $0xc6 // cmovg    eax, esi
+	LONG $0x90048941         // mov    dword [r8 + 4*rdx], eax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_1128
+	JMP  LBB4_1655
+
+LBB4_1129:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1130:
+	LONG $0x01c1f641             // test    r9b, 1
+	JE   LBB4_1132
+	LONG $0xb104100f             // movups    xmm0, oword [rcx + 4*rsi]
+	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
+	LONG $0x04c8c20f             // cmpneqps    xmm1, xmm0
+	LONG $0xe0720f66; BYTE $0x1f // psrad    xmm0, 31
+	LONG $0x45eb0f66; BYTE $0x50 // por    xmm0, oword 80[rbp] /* [rip + .LCPI4_8] */
+	WORD $0x5b0f; BYTE $0xd0     // cvtdq2ps    xmm2, xmm0
+	LONG $0x605d280f             // movaps    xmm3, oword 96[rbp] /* [rip + .LCPI4_10] */
+	WORD $0x280f; BYTE $0xc2     // movaps    xmm0, xmm2
+	LONG $0x01c3c20f             // cmpltps    xmm0, xmm3
+	LONG $0xe25b0ff3             // cvttps2dq    xmm4, xmm2
+	WORD $0x5c0f; BYTE $0xd3     // subps    xmm2, xmm3
+	LONG $0xd25b0ff3             // cvttps2dq    xmm2, xmm2
+	LONG $0x3055570f             // xorps    xmm2, oword 48[rbp] /* [rip + .LCPI4_4] */
+	LONG $0x14380f66; BYTE $0xd4 // blendvps    xmm2, xmm4, xmm0
+	WORD $0x540f; BYTE $0xca     // andps    xmm1, xmm2
+	LONG $0x0c110f41; BYTE $0xb0 // movups    oword [r8 + 4*rsi], xmm1
+
+LBB4_1132:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1133:
+	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
+	JMP  LBB4_1135
+
+LBB4_1134:
+	LONG $0x90348941         // mov    dword [r8 + 4*rdx], esi
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JE   LBB4_1655
+
+LBB4_1135:
+	LONG $0x0c100ff3; BYTE $0x91 // movss    xmm1, dword [rcx + 4*rdx]
+	WORD $0xf631                 // xor    esi, esi
+	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
+	JE   LBB4_1134
+	WORD $0x500f; BYTE $0xf1     // movmskps    esi, xmm1
+	WORD $0xe683; BYTE $0x01     // and    esi, 1
+	WORD $0xdef7                 // neg    esi
+	WORD $0xce83; BYTE $0x01     // or    esi, 1
+	WORD $0x570f; BYTE $0xc9     // xorps    xmm1, xmm1
+	LONG $0xce2a0ff3             // cvtsi2ss    xmm1, esi
+	LONG $0x2c0f48f3; BYTE $0xf1 // cvttss2si    rsi, xmm1
+	JMP  LBB4_1134
+
+LBB4_1137:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1138:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1140
+	LONG $0x046f0ff3; BYTE $0xb1   // movdqu    xmm0, oword [rcx + 4*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10b1 // movdqu    xmm1, oword [rcx + 4*rsi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xc2760f66               // pcmpeqd    xmm0, xmm2
+	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
+	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
+	LONG $0x656f0f66; BYTE $0x70   // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
+	LONG $0xc4db0f66               // pand    xmm0, xmm4
+	LONG $0xca760f66               // pcmpeqd    xmm1, xmm2
+	LONG $0xcbef0f66               // pxor    xmm1, xmm3
+	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
+	LONG $0xccdb0f66               // pand    xmm1, xmm4
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7004 // movdqu    oword [r8 + 2*rsi], xmm0
+
+LBB4_1140:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1141:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1141
+	JMP  LBB4_1655
+
+LBB4_1142:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1143:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1145
+	LONG $0x046f0ff3; BYTE $0xb1   // movdqu    xmm0, oword [rcx + 4*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10b1 // movdqu    xmm1, oword [rcx + 4*rsi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xc2760f66               // pcmpeqd    xmm0, xmm2
+	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
+	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
+	LONG $0x656f0f66; BYTE $0x70   // movdqa    xmm4, oword 112[rbp] /* [rip + .LCPI4_11] */
+	LONG $0xc4db0f66               // pand    xmm0, xmm4
+	LONG $0xca760f66               // pcmpeqd    xmm1, xmm2
+	LONG $0xcbef0f66               // pxor    xmm1, xmm3
+	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
+	LONG $0xccdb0f66               // pand    xmm1, xmm4
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7004 // movdqu    oword [r8 + 2*rsi], xmm0
+
+LBB4_1145:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1146:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x00913c83             // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd6950f40             // setne    sil
+	LONG $0x34894166; BYTE $0x50 // mov    word [r8 + 2*rdx], si
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1146
+	JMP  LBB4_1655
+
+LBB4_1147:
+	WORD $0xff31 // xor    edi, edi
+
+LBB4_1148:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1150
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
+	LONG $0xc2280f66                           // movapd    xmm0, xmm2
+	LONG $0xc4c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm4
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xcb280f66                           // movapd    xmm1, xmm3
+	LONG $0xccc20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm4
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0x6d280f66; BYTE $0x00               // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xd5540f66                           // andpd    xmm2, xmm5
+	LONG $0x75280f66; BYTE $0x10               // movapd    xmm6, oword 16[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xd6560f66                           // orpd    xmm2, xmm6
+	LONG $0xdd540f66                           // andpd    xmm3, xmm5
+	LONG $0xde560f66                           // orpd    xmm3, xmm6
+	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
+	LONG $0xdbe60f66                           // cvttpd2dq    xmm3, xmm3
+	LONG $0xd2700ff2; BYTE $0xe8               // pshuflw    xmm2, xmm2, 232
+	LONG $0xdb700ff2; BYTE $0xe8               // pshuflw    xmm3, xmm3, 232
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x7814             // movd    dword [r8 + 2*rdi], xmm2
+	LONG $0x7e0f4166; WORD $0x785c; BYTE $0x04 // movd    dword [r8 + 2*rdi + 4], xmm3
+
+LBB4_1150:
+	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
+	JE   LBB4_1655
+
+LBB4_1151:
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
+
+LBB4_1152:
+	LONG $0x1c100ff2; BYTE $0xf1 // movsd    xmm3, qword [rcx + 8*rsi]
+	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
+	LONG $0xd9540f66             // andpd    xmm3, xmm1
+	LONG $0xda560f66             // orpd    xmm3, xmm2
+	LONG $0xd32c0ff2             // cvttsd2si    edx, xmm3
+	LONG $0xd2440f41             // cmove    edx, r10d
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JNE  LBB4_1152
+	JMP  LBB4_1655
+
+LBB4_1153:
+	WORD $0xff31 // xor    edi, edi
+
+LBB4_1154:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1156
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
+	LONG $0xc2280f66                           // movapd    xmm0, xmm2
+	LONG $0xc4c20f66; BYTE $0x00               // cmpeqpd    xmm0, xmm4
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xcb280f66                           // movapd    xmm1, xmm3
+	LONG $0xccc20f66; BYTE $0x00               // cmpeqpd    xmm1, xmm4
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0x6d280f66; BYTE $0x00               // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xd5540f66                           // andpd    xmm2, xmm5
+	LONG $0x75280f66; BYTE $0x10               // movapd    xmm6, oword 16[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xd6560f66                           // orpd    xmm2, xmm6
+	LONG $0xdd540f66                           // andpd    xmm3, xmm5
+	LONG $0xde560f66                           // orpd    xmm3, xmm6
+	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
+	LONG $0xdbe60f66                           // cvttpd2dq    xmm3, xmm3
+	LONG $0xd2700ff2; BYTE $0xe8               // pshuflw    xmm2, xmm2, 232
+	LONG $0xdb700ff2; BYTE $0xe8               // pshuflw    xmm3, xmm3, 232
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x7814             // movd    dword [r8 + 2*rdi], xmm2
+	LONG $0x7e0f4166; WORD $0x785c; BYTE $0x04 // movd    dword [r8 + 2*rdi + 4], xmm3
+
+LBB4_1156:
+	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
+	JE   LBB4_1655
+
+LBB4_1157:
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
+
+LBB4_1158:
+	LONG $0x1c100ff2; BYTE $0xf1 // movsd    xmm3, qword [rcx + 8*rsi]
+	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
+	LONG $0xd9540f66             // andpd    xmm3, xmm1
+	LONG $0xda560f66             // orpd    xmm3, xmm2
+	LONG $0xd32c0ff2             // cvttsd2si    edx, xmm3
+	LONG $0xd2440f41             // cmove    edx, r10d
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JNE  LBB4_1158
+	JMP  LBB4_1655
+
+LBB4_1159:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1160:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1162
+	LONG $0x146f0ff3; BYTE $0xf1               // movdqu    xmm2, oword [rcx + 8*rsi]
+	LONG $0x5c6f0ff3; WORD $0x10f1             // movdqu    xmm3, oword [rcx + 8*rsi + 16]
+	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x37380f66; BYTE $0xc4               // pcmpgtq    xmm0, xmm4
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0x37380f66; BYTE $0xcc               // pcmpgtq    xmm1, xmm4
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0x29380f66; BYTE $0xd4               // pcmpeqq    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0x29380f66; BYTE $0xdc               // pcmpeqq    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_17] */
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x7014             // movd    dword [r8 + 2*rsi], xmm2
+	LONG $0x7e0f4166; WORD $0x705c; BYTE $0x04 // movd    dword [r8 + 2*rsi + 4], xmm3
+
+LBB4_1162:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+
+LBB4_1163:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1164:
+	LONG $0xd13c8b48             // mov    rdi, qword [rcx + 8*rdx]
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f7                 // neg    eax
+	WORD $0x8548; BYTE $0xff     // test    rdi, rdi
+	WORD $0x4f0f; BYTE $0xc6     // cmovg    eax, esi
+	LONG $0x04894166; BYTE $0x50 // mov    word [r8 + 2*rdx], ax
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2     // cmp    r10, rdx
+	JNE  LBB4_1164
+	JMP  LBB4_1655
+
+LBB4_1165:
+	WORD $0xff31 // xor    edi, edi
+
+LBB4_1166:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1168
+	LONG $0xb904100f               // movups    xmm0, oword [rcx + 4*rdi]
+	LONG $0xb94c100f; BYTE $0x10   // movups    xmm1, oword [rcx + 4*rdi + 16]
+	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
+	WORD $0x280f; BYTE $0xd0       // movaps    xmm2, xmm0
+	LONG $0x00d4c20f               // cmpeqps    xmm2, xmm4
+	LONG $0xd26b0f66               // packssdw    xmm2, xmm2
+	WORD $0x280f; BYTE $0xd9       // movaps    xmm3, xmm1
+	LONG $0x00dcc20f               // cmpeqps    xmm3, xmm4
+	LONG $0xdb6b0f66               // packssdw    xmm3, xmm3
+	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
+	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
+	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
+	LONG $0xcd660f66               // pcmpgtd    xmm1, xmm5
+	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
+	LONG $0x756f0f66; BYTE $0x70   // movdqa    xmm6, oword 112[rbp] /* [rip + .LCPI4_11] */
+	LONG $0xff760f66               // pcmpeqd    xmm7, xmm7
+	LONG $0x10380f66; BYTE $0xfe   // pblendvb    xmm7, xmm6, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xfc   // pblendvb    xmm7, xmm4, xmm0
+	LONG $0xc36f0f66               // movdqa    xmm0, xmm3
+	LONG $0x10380f66; BYTE $0xec   // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xfd6c0f66               // punpcklqdq    xmm7, xmm5
+	LONG $0x7f0f41f3; WORD $0x783c // movdqu    oword [r8 + 2*rdi], xmm7
+
+LBB4_1168:
+	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
+	JE   LBB4_1655
+
+LBB4_1169:
+	LONG $0xc0ef0f66 // pxor    xmm0, xmm0
+
+LBB4_1170:
+	LONG $0x0c6e0f66; BYTE $0xb1 // movd    xmm1, dword [rcx + 4*rsi]
+	LONG $0xca7e0f66             // movd    edx, xmm1
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xd285                 // test    edx, edx
+	LONG $0xd7990f40             // setns    dil
+	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
+	LONG $0xff3f548d             // lea    edx, [rdi + rdi - 1]
+	LONG $0xd2440f41             // cmove    edx, r10d
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JNE  LBB4_1170
+	JMP  LBB4_1655
+
+LBB4_1171:
+	WORD $0xff31 // xor    edi, edi
+
+LBB4_1172:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1174
+	LONG $0xb904100f               // movups    xmm0, oword [rcx + 4*rdi]
+	LONG $0xb94c100f; BYTE $0x10   // movups    xmm1, oword [rcx + 4*rdi + 16]
+	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
+	WORD $0x280f; BYTE $0xd0       // movaps    xmm2, xmm0
+	LONG $0x00d4c20f               // cmpeqps    xmm2, xmm4
+	LONG $0xd26b0f66               // packssdw    xmm2, xmm2
+	WORD $0x280f; BYTE $0xd9       // movaps    xmm3, xmm1
+	LONG $0x00dcc20f               // cmpeqps    xmm3, xmm4
+	LONG $0xdb6b0f66               // packssdw    xmm3, xmm3
+	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
+	LONG $0xc5660f66               // pcmpgtd    xmm0, xmm5
+	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
+	LONG $0xcd660f66               // pcmpgtd    xmm1, xmm5
+	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
+	LONG $0x756f0f66; BYTE $0x70   // movdqa    xmm6, oword 112[rbp] /* [rip + .LCPI4_11] */
+	LONG $0xff760f66               // pcmpeqd    xmm7, xmm7
+	LONG $0x10380f66; BYTE $0xfe   // pblendvb    xmm7, xmm6, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee   // pblendvb    xmm5, xmm6, xmm0
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xfc   // pblendvb    xmm7, xmm4, xmm0
+	LONG $0xc36f0f66               // movdqa    xmm0, xmm3
+	LONG $0x10380f66; BYTE $0xec   // pblendvb    xmm5, xmm4, xmm0
+	LONG $0xfd6c0f66               // punpcklqdq    xmm7, xmm5
+	LONG $0x7f0f41f3; WORD $0x783c // movdqu    oword [r8 + 2*rdi], xmm7
+
+LBB4_1174:
+	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
+	JE   LBB4_1655
+
+LBB4_1175:
+	LONG $0xc0ef0f66 // pxor    xmm0, xmm0
+
+LBB4_1176:
+	LONG $0x0c6e0f66; BYTE $0xb1 // movd    xmm1, dword [rcx + 4*rsi]
+	LONG $0xca7e0f66             // movd    edx, xmm1
+	WORD $0xff31                 // xor    edi, edi
+	WORD $0xd285                 // test    edx, edx
+	LONG $0xd7990f40             // setns    dil
+	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
+	LONG $0xff3f548d             // lea    edx, [rdi + rdi - 1]
+	LONG $0xd2440f41             // cmove    edx, r10d
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JNE  LBB4_1176
+	JMP  LBB4_1655
+
+LBB4_1177:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1178:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1180
+	LONG $0x047e0ff3; BYTE $0xb1               // movq    xmm0, qword [rcx + 4*rsi]
+	LONG $0x4c7e0ff3; WORD $0x08b1             // movq    xmm1, qword [rcx + 4*rsi + 8]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0x35380f66; BYTE $0xc0               // pmovzxdq    xmm0, xmm0
+	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0x35380f66; BYTE $0xc9               // pmovzxdq    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
+
+LBB4_1180:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1181:
+	WORD $0xf631             // xor    esi, esi
+	LONG $0x00913c83         // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xd6950f40         // setne    sil
+	LONG $0xd0348949         // mov    qword [r8 + 8*rdx], rsi
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JNE  LBB4_1181
+	JMP  LBB4_1655
+
+LBB4_1182:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1183:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1185
+	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
+	QUAD $0x000000d09d6f0f66                   // movdqa    xmm3, oword 208[rbp] /* [rip + .LCPI4_19] */
+	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
+	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
+	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
+	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
+
+LBB4_1185:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1186:
+	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_1188
+
+LBB4_1187:
+	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1655
+
+LBB4_1188:
+	LONG $0x00913c83 // cmp    dword [rcx + 4*rdx], 0
+	LONG $0xc86f0f66 // movdqa    xmm1, xmm0
+	JNE  LBB4_1187
+	LONG $0xc9ef0f66 // pxor    xmm1, xmm1
+	JMP  LBB4_1187
+
+LBB4_1190:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1191:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1193
+	LONG $0x04100f66; BYTE $0xf1               // movupd    xmm0, oword [rcx + 8*rsi]
+	LONG $0x4c100f66; WORD $0x10f1             // movupd    xmm1, oword [rcx + 8*rsi + 16]
+	LONG $0xd2570f66                           // xorpd    xmm2, xmm2
+	LONG $0x5d280f66; BYTE $0x00               // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xe0280f66                           // movapd    xmm4, xmm0
+	LONG $0xe3540f66                           // andpd    xmm4, xmm3
+	LONG $0x6d280f66; BYTE $0x10               // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xe5560f66                           // orpd    xmm4, xmm5
+	LONG $0xd9540f66                           // andpd    xmm3, xmm1
+	LONG $0xdd560f66                           // orpd    xmm3, xmm5
+	LONG $0x2c0f48f2; BYTE $0xfc               // cvttsd2si    rdi, xmm4
+	LONG $0x6e0f4866; BYTE $0xef               // movq    xmm5, rdi
+	LONG $0xe4700f66; BYTE $0xee               // pshufd    xmm4, xmm4, 238
+	LONG $0x2c0f48f2; BYTE $0xfc               // cvttsd2si    rdi, xmm4
+	LONG $0x6e0f4866; BYTE $0xe7               // movq    xmm4, rdi
+	LONG $0xec6c0f66                           // punpcklqdq    xmm5, xmm4
+	LONG $0x2c0f48f2; BYTE $0xfb               // cvttsd2si    rdi, xmm3
+	LONG $0x6e0f4866; BYTE $0xe7               // movq    xmm4, rdi
+	LONG $0xdb700f66; BYTE $0xee               // pshufd    xmm3, xmm3, 238
+	LONG $0x2c0f48f2; BYTE $0xfb               // cvttsd2si    rdi, xmm3
+	LONG $0x6e0f4866; BYTE $0xdf               // movq    xmm3, rdi
+	LONG $0xe36c0f66                           // punpcklqdq    xmm4, xmm3
+	LONG $0xc2c20f66; BYTE $0x04               // cmpneqpd    xmm0, xmm2
+	LONG $0xc5540f66                           // andpd    xmm0, xmm5
+	LONG $0xcac20f66; BYTE $0x04               // cmpneqpd    xmm1, xmm2
+	LONG $0xcc540f66                           // andpd    xmm1, xmm4
+	LONG $0x110f4166; WORD $0xf004             // movupd    oword [r8 + 8*rsi], xmm0
+	LONG $0x110f4166; WORD $0xf04c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm1
+
+LBB4_1193:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1194:
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0xc0570f66             // xorpd    xmm0, xmm0
+	LONG $0x4d280f66; BYTE $0x00 // movapd    xmm1, oword 0[rbp] /* [rip + .LCPI4_0] */
+	QUAD $0x0000011095100ff2     // movsd    xmm2, qword 272[rbp] /* [rip + .LCPI4_2] */
+
+LBB4_1195:
+	LONG $0x1c100ff2; BYTE $0xd1 // movsd    xmm3, qword [rcx + 8*rdx]
+	LONG $0xc32e0f66             // ucomisd    xmm0, xmm3
+	LONG $0xd9540f66             // andpd    xmm3, xmm1
+	LONG $0xda560f66             // orpd    xmm3, xmm2
+	LONG $0x2c0f48f2; BYTE $0xfb // cvttsd2si    rdi, xmm3
+	LONG $0xfe440f48             // cmove    rdi, rsi
+	LONG $0xd03c8949             // mov    qword [r8 + 8*rdx], rdi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0     // cmp    rax, rdx
+	JNE  LBB4_1195
+	JMP  LBB4_1655
+
+LBB4_1196:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1197:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1199
+	LONG $0x14100f66; BYTE $0xf1               // movupd    xmm2, oword [rcx + 8*rsi]
+	LONG $0x100f4466; WORD $0xf144; BYTE $0x10 // movupd    xmm8, oword [rcx + 8*rsi + 16]
+	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
+	LONG $0xda5a0ff2                           // cvtsd2ss    xmm3, xmm2
+	LONG $0xd0c20f66; BYTE $0x00               // cmpeqpd    xmm2, xmm0
+	LONG $0xe8d2c60f                           // shufps    xmm2, xmm2, 232
+	LONG $0x655a0f66; BYTE $0x10               // cvtpd2ps    xmm4, oword 16[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xc20f4166; WORD $0x00c0             // cmpeqpd    xmm0, xmm8
+	LONG $0x6c100ff2; WORD $0x08f1             // movsd    xmm5, qword [rcx + 8*rsi + 8]
+	LONG $0xed5a0ff2                           // cvtsd2ss    xmm5, xmm5
+	LONG $0xe8c0c60f                           // shufps    xmm0, xmm0, 232
+	LONG $0x2075280f                           // movaps    xmm6, oword 32[rbp] /* [rip + .LCPI4_3] */
+	WORD $0x280f; BYTE $0xfe                   // movaps    xmm7, xmm6
+	WORD $0x550f; BYTE $0xfd                   // andnps    xmm7, xmm5
+	LONG $0xec160ff3                           // movshdup    xmm5, xmm4
+	WORD $0x540f; BYTE $0xee                   // andps    xmm5, xmm6
+	WORD $0x560f; BYTE $0xfd                   // orps    xmm7, xmm5
+	WORD $0x280f; BYTE $0xce                   // movaps    xmm1, xmm6
+	WORD $0x550f; BYTE $0xcb                   // andnps    xmm1, xmm3
+	WORD $0x540f; BYTE $0xe6                   // andps    xmm4, xmm6
+	WORD $0x560f; BYTE $0xcc                   // orps    xmm1, xmm4
+	WORD $0x140f; BYTE $0xcf                   // unpcklps    xmm1, xmm7
+	WORD $0x550f; BYTE $0xd1                   // andnps    xmm2, xmm1
+	LONG $0x4c100ff2; WORD $0x18f1             // movsd    xmm1, qword [rcx + 8*rsi + 24]
+	LONG $0xc95a0ff2                           // cvtsd2ss    xmm1, xmm1
+	WORD $0x280f; BYTE $0xde                   // movaps    xmm3, xmm6
+	WORD $0x550f; BYTE $0xd9                   // andnps    xmm3, xmm1
+	WORD $0x560f; BYTE $0xdd                   // orps    xmm3, xmm5
+	WORD $0x570f; BYTE $0xc9                   // xorps    xmm1, xmm1
+	LONG $0x5a0f41f2; BYTE $0xc8               // cvtsd2ss    xmm1, xmm8
+	WORD $0x550f; BYTE $0xf1                   // andnps    xmm6, xmm1
+	WORD $0x560f; BYTE $0xf4                   // orps    xmm6, xmm4
+	WORD $0x140f; BYTE $0xf3                   // unpcklps    xmm6, xmm3
+	WORD $0x550f; BYTE $0xc6                   // andnps    xmm0, xmm6
+	WORD $0x160f; BYTE $0xd0                   // movlhps    xmm2, xmm0
+	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
+
+LBB4_1199:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1200:
+	WORD $0x570f; BYTE $0xc0 // xorps    xmm0, xmm0
+	LONG $0x304d280f         // movaps    xmm1, oword 48[rbp] /* [rip + .LCPI4_4] */
+	QUAD $0x0000012895100ff3 // movss    xmm2, dword 296[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_1202
+
+LBB4_1201:
+	LONG $0x110f41f3; WORD $0x901c // movss    dword [r8 + 4*rdx], xmm3
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1655
+
+LBB4_1202:
+	LONG $0x24100ff2; BYTE $0xd1 // movsd    xmm4, qword [rcx + 8*rdx]
+	LONG $0xc42e0f66             // ucomisd    xmm0, xmm4
+	WORD $0x570f; BYTE $0xdb     // xorps    xmm3, xmm3
+	JE   LBB4_1201
+	WORD $0x570f; BYTE $0xdb     // xorps    xmm3, xmm3
+	LONG $0xdc5a0ff2             // cvtsd2ss    xmm3, xmm4
+	WORD $0x540f; BYTE $0xd9     // andps    xmm3, xmm1
+	WORD $0x560f; BYTE $0xda     // orps    xmm3, xmm2
+	JMP  LBB4_1201
+
+LBB4_1204:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1205:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1207
+	LONG $0x047e0ff3; BYTE $0x71   // movq    xmm0, qword [rcx + 2*rsi]
+	LONG $0x4c7e0ff3; WORD $0x0871 // movq    xmm1, qword [rcx + 2*rsi + 8]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xc2750f66               // pcmpeqw    xmm0, xmm2
+	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
+	LONG $0x33380f66; BYTE $0xc0   // pmovzxwd    xmm0, xmm0
+	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc4db0f66               // pand    xmm0, xmm4
+	WORD $0x5b0f; BYTE $0xc0       // cvtdq2ps    xmm0, xmm0
+	LONG $0xca750f66               // pcmpeqw    xmm1, xmm2
+	LONG $0xcbef0f66               // pxor    xmm1, xmm3
+	LONG $0x33380f66; BYTE $0xc9   // pmovzxwd    xmm1, xmm1
+	LONG $0xccdb0f66               // pand    xmm1, xmm4
+	WORD $0x5b0f; BYTE $0xc9       // cvtdq2ps    xmm1, xmm1
+	LONG $0x04110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm0
+	LONG $0x4c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm1
+
+LBB4_1207:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1208:
+	QUAD $0x00000128856e0f66 // movd    xmm0, dword 296[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_1210
+
+LBB4_1209:
+	LONG $0x7e0f4166; WORD $0x900c // movd    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1655
+
+LBB4_1210:
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xc86f0f66             // movdqa    xmm1, xmm0
+	JNE  LBB4_1209
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	JMP  LBB4_1209
+
+LBB4_1212:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1213:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1215
+	LONG $0x146e0f66; BYTE $0x71               // movd    xmm2, dword [rcx + 2*rsi]
+	LONG $0x5c6e0f66; WORD $0x0471             // movd    xmm3, dword [rcx + 2*rsi + 4]
+	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xc4650f66                           // pcmpgtw    xmm0, xmm4
+	LONG $0x24380f66; BYTE $0xc0               // pmovsxwq    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
+	LONG $0x24380f66; BYTE $0xc9               // pmovsxwq    xmm1, xmm1
+	LONG $0xd4750f66                           // pcmpeqw    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0x24380f66; BYTE $0xd2               // pmovsxwq    xmm2, xmm2
+	LONG $0xdc750f66                           // pcmpeqw    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0x24380f66; BYTE $0xdb               // pmovsxwq    xmm3, xmm3
+	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
+	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
+
+LBB4_1215:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+
+LBB4_1216:
+	LONG $0x000001be; BYTE $0x00 // mov    esi, 1
+
+LBB4_1217:
+	LONG $0x513cb70f         // movzx    edi, word [rcx + 2*rdx]
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0x8566; BYTE $0xff // test    di, di
+	LONG $0xc64f0f48         // cmovg    rax, rsi
+	LONG $0xd0048949         // mov    qword [r8 + 8*rdx], rax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd2 // cmp    r10, rdx
+	JNE  LBB4_1217
+	JMP  LBB4_1655
+
+LBB4_1218:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1219:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1221
+	LONG $0x147e0ff3; BYTE $0x71               // movq    xmm2, qword [rcx + 2*rsi]
+	LONG $0x5c7e0ff3; WORD $0x0871             // movq    xmm3, qword [rcx + 2*rsi + 8]
+	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xc4650f66                           // pcmpgtw    xmm0, xmm4
+	LONG $0x23380f66; BYTE $0xc0               // pmovsxwd    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
+	LONG $0x23380f66; BYTE $0xc9               // pmovsxwd    xmm1, xmm1
+	LONG $0xd4750f66                           // pcmpeqw    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0x23380f66; BYTE $0xd2               // pmovsxwd    xmm2, xmm2
+	WORD $0x5b0f; BYTE $0xd2                   // cvtdq2ps    xmm2, xmm2
+	LONG $0xdc750f66                           // pcmpeqw    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0x23380f66; BYTE $0xdb               // pmovsxwd    xmm3, xmm3
+	WORD $0x5b0f; BYTE $0xdb                   // cvtdq2ps    xmm3, xmm3
+	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
+	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
+	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
+	LONG $0x5c110f41; WORD $0x10b0             // movups    oword [r8 + 4*rsi + 16], xmm3
+
+LBB4_1221:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+
+LBB4_1222:
+	QUAD $0x00000130856e0f66 // movd    xmm0, dword 304[rbp] /* [rip + .LCPI4_14] */
+	QUAD $0x000001288d6e0f66 // movd    xmm1, dword 296[rbp] /* [rip + .LCPI4_5] */
+	JMP  LBB4_1224
+
+LBB4_1223:
+	LONG $0x7e0f4166; WORD $0x901c // movd    dword [r8 + 4*rdx], xmm3
+	LONG $0x01c28348               // add    rdx, 1
+	WORD $0x3948; BYTE $0xd0       // cmp    rax, rdx
+	JE   LBB4_1655
+
+LBB4_1224:
+	LONG $0x513c8366; BYTE $0x00 // cmp    word [rcx + 2*rdx], 0
+	LONG $0xd06f0f66             // movdqa    xmm2, xmm0
+	JNE  LBB4_1226
+	LONG $0xd2ef0f66             // pxor    xmm2, xmm2
+
+LBB4_1226:
+	LONG $0xd96f0f66 // movdqa    xmm3, xmm1
+	JG   LBB4_1223
+	LONG $0xda6f0f66 // movdqa    xmm3, xmm2
+	JMP  LBB4_1223
+
+LBB4_1104:
+	WORD $0x500f; BYTE $0xc8     // movmskps    ecx, xmm0
+	WORD $0xe183; BYTE $0x01     // and    ecx, 1
+	WORD $0xd9f7                 // neg    ecx
+	WORD $0xc983; BYTE $0x01     // or    ecx, 1
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0xc12a0ff3             // cvtsi2ss    xmm0, ecx
+	LONG $0x2c0f48f3; BYTE $0xc8 // cvttss2si    rcx, xmm0
+
+LBB4_1105:
+	LONG $0xc00c8949 // mov    qword [r8 + 8*rax], rcx
+
+LBB4_1655:
+	RET
+
+LBB4_1228:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1229:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1231
+	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
+	LONG $0x5d6f0f66; BYTE $0x50               // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
+	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
+	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
+	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
+
+LBB4_1231:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1232
+
+LBB4_1236:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1237:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1239
+	LONG $0x146e0f66; BYTE $0x31   // movd    xmm2, dword [rcx + rsi]
+	LONG $0x5c6e0f66; WORD $0x0431 // movd    xmm3, dword [rcx + rsi + 4]
+	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0xc4640f66               // pcmpgtb    xmm0, xmm4
+	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
+	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
+	LONG $0xcc640f66               // pcmpgtb    xmm1, xmm4
+	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
+	LONG $0xd4740f66               // pcmpeqb    xmm2, xmm4
+	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
+	LONG $0x21380f66; BYTE $0xd2   // pmovsxbd    xmm2, xmm2
+	LONG $0xdc740f66               // pcmpeqb    xmm3, xmm4
+	LONG $0xddef0f66               // pxor    xmm3, xmm5
+	LONG $0x21380f66; BYTE $0xdb   // pmovsxbd    xmm3, xmm3
+	LONG $0x5065280f               // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0x14380f66; BYTE $0xd4   // blendvps    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xdc   // blendvps    xmm3, xmm4, xmm0
+	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
+	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
+
+LBB4_1239:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1240
+
+LBB4_1245:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1246:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1248
+	LONG $0x046e0f66; BYTE $0x31               // movd    xmm0, dword [rcx + rsi]
+	LONG $0x4c6e0f66; WORD $0x0431             // movd    xmm1, dword [rcx + rsi + 4]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0x31380f66; BYTE $0xc0               // pmovzxbd    xmm0, xmm0
+	LONG $0x656f0f66; BYTE $0x50               // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0x31380f66; BYTE $0xc9               // pmovzxbd    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
+
+LBB4_1248:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1249
+
+LBB4_1253:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1254:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1256
+	LONG $0x0c6f0ff3; BYTE $0xb1   // movdqu    xmm1, oword [rcx + 4*rsi]
+	LONG $0x546f0ff3; WORD $0x10b1 // movdqu    xmm2, oword [rcx + 4*rsi + 16]
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc1660f66               // pcmpgtd    xmm0, xmm1
+	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
+	LONG $0xeb760f66               // pcmpeqd    xmm5, xmm3
+	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
+	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
+	LONG $0xda760f66               // pcmpeqd    xmm3, xmm2
+	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
+	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
+	LONG $0x14380f66; BYTE $0xd5   // blendvps    xmm2, xmm5, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xe3   // blendvps    xmm4, xmm3, xmm0
+	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
+	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
+
+LBB4_1256:
+	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
+	JE   LBB4_1655
+	JMP  LBB4_1257
+
+LBB4_1262:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1263:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1265
+	LONG $0x04100f66; BYTE $0xf1               // movupd    xmm0, oword [rcx + 8*rsi]
+	LONG $0x4c100f66; WORD $0x10f1             // movupd    xmm1, oword [rcx + 8*rsi + 16]
+	LONG $0xd2570f66                           // xorpd    xmm2, xmm2
+	LONG $0x5d280f66; BYTE $0x00               // movapd    xmm3, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xe0280f66                           // movapd    xmm4, xmm0
+	LONG $0xe3540f66                           // andpd    xmm4, xmm3
+	LONG $0x6d280f66; BYTE $0x10               // movapd    xmm5, oword 16[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xe5560f66                           // orpd    xmm4, xmm5
+	LONG $0xd9540f66                           // andpd    xmm3, xmm1
+	LONG $0xdd560f66                           // orpd    xmm3, xmm5
+	LONG $0xc2c20f66; BYTE $0x04               // cmpneqpd    xmm0, xmm2
+	LONG $0xc4540f66                           // andpd    xmm0, xmm4
+	LONG $0xcac20f66; BYTE $0x04               // cmpneqpd    xmm1, xmm2
+	LONG $0xcb540f66                           // andpd    xmm1, xmm3
+	LONG $0x110f4166; WORD $0xf004             // movupd    oword [r8 + 8*rsi], xmm0
+	LONG $0x110f4166; WORD $0xf04c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm1
+
+LBB4_1265:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_1266
+
+LBB4_1271:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1272:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1274
+	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7e0f4166; WORD $0x3004             // movd    dword [r8 + rsi], xmm0
+	LONG $0x7e0f4166; WORD $0x304c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm1
+
+LBB4_1274:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_1275
+
+LBB4_1279:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1280:
+	LONG $0x01c1f641                     // test    r9b, 1
+	JE   LBB4_1282
+	LONG $0x1c100f66; BYTE $0xf1         // movupd    xmm3, oword [rcx + 8*rsi]
+	LONG $0x64100f66; WORD $0x10f1       // movupd    xmm4, oword [rcx + 8*rsi + 16]
+	LONG $0xd2570f66                     // xorpd    xmm2, xmm2
+	LONG $0xc3280f66                     // movapd    xmm0, xmm3
+	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	LONG $0xcc280f66                     // movapd    xmm1, xmm4
+	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	LONG $0x6d280f66; BYTE $0x00         // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xdd540f66                     // andpd    xmm3, xmm5
+	LONG $0x75280f66; BYTE $0x10         // movapd    xmm6, oword 16[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xde560f66                     // orpd    xmm3, xmm6
+	LONG $0xe5540f66                     // andpd    xmm4, xmm5
+	LONG $0xe6560f66                     // orpd    xmm4, xmm6
+	LONG $0xdbe60f66                     // cvttpd2dq    xmm3, xmm3
+	LONG $0x6d6f0f66; BYTE $0x40         // movdqa    xmm5, oword 64[rbp] /* [rip + .LCPI4_7] */
+	LONG $0x00380f66; BYTE $0xdd         // pshufb    xmm3, xmm5
+	LONG $0xe4e60f66                     // cvttpd2dq    xmm4, xmm4
+	LONG $0x00380f66; BYTE $0xe5         // pshufb    xmm4, xmm5
+	LONG $0x10380f66; BYTE $0xda         // pblendvb    xmm3, xmm2, xmm0
+	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xe2         // pblendvb    xmm4, xmm2, xmm0
+	QUAD $0x00301c153a0f4166             // pextrw    word [r8 + rsi], xmm3, 0
+	QUAD $0x023064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm4, 0
+
+LBB4_1282:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_1283
+
+LBB4_1288:
+	WORD $0xc031 // xor    eax, eax
+
+LBB4_1289:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1291
+	LONG $0x0c6f0ff3; BYTE $0x01               // movdqu    xmm1, oword [rcx + rax]
+	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
+	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
+	QUAD $0x00000100a56f0f66                   // movdqa    xmm4, oword 256[rbp] /* [rip + .LCPI4_22] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xc1640f66                           // pcmpgtb    xmm0, xmm1
+	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
+	LONG $0xeb740f66                           // pcmpeqb    xmm5, xmm3
+	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
+	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
+	LONG $0xda740f66                           // pcmpeqb    xmm3, xmm2
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
+	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
+	LONG $0x10380f66; BYTE $0xd5               // pblendvb    xmm2, xmm5, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xe3               // pblendvb    xmm4, xmm3, xmm0
+	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
+
+LBB4_1291:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB4_1655
+	JMP  LBB4_1292
+
+LBB4_1297:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1298:
+	LONG $0x01c1f641                     // test    r9b, 1
+	JE   LBB4_1300
+	LONG $0x046f0ff3; BYTE $0xf1         // movdqu    xmm0, oword [rcx + 8*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10f1       // movdqu    xmm1, oword [rcx + 8*rsi + 16]
+	LONG $0xd2ef0f66                     // pxor    xmm2, xmm2
+	LONG $0x29380f66; BYTE $0xc2         // pcmpeqq    xmm0, xmm2
+	LONG $0xdb760f66                     // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                     // pxor    xmm0, xmm3
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	QUAD $0x000000c0a56f0f66             // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
+	LONG $0xc4db0f66                     // pand    xmm0, xmm4
+	LONG $0x29380f66; BYTE $0xca         // pcmpeqq    xmm1, xmm2
+	LONG $0xcbef0f66                     // pxor    xmm1, xmm3
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	QUAD $0x003004153a0f4166             // pextrw    word [r8 + rsi], xmm0, 0
+	LONG $0xccdb0f66                     // pand    xmm1, xmm4
+	QUAD $0x02304c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm1, 0
+
+LBB4_1300:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_1301
+
+LBB4_1305:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1306:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1308
+	LONG $0x046f0ff3; BYTE $0x71   // movdqu    xmm0, oword [rcx + 2*rsi]
+	LONG $0x4c6f0ff3; WORD $0x1071 // movdqu    xmm1, oword [rcx + 2*rsi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xc2750f66               // pcmpeqw    xmm0, xmm2
+	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
+	LONG $0xc0630f66               // packsswb    xmm0, xmm0
+	QUAD $0x000000f0a56f0f66       // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
+	LONG $0xc4db0f66               // pand    xmm0, xmm4
+	LONG $0xca750f66               // pcmpeqw    xmm1, xmm2
+	LONG $0xcbef0f66               // pxor    xmm1, xmm3
+	LONG $0xc9630f66               // packsswb    xmm1, xmm1
+	LONG $0xccdb0f66               // pand    xmm1, xmm4
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3004 // movdqu    oword [r8 + rsi], xmm0
+
+LBB4_1308:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_1309
+
+LBB4_1313:
+	WORD $0xc031 // xor    eax, eax
+
+LBB4_1314:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1316
+	LONG $0x146f0ff3; BYTE $0x41   // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0x5c6f0ff3; WORD $0x1041 // movdqu    xmm3, oword [rcx + 2*rax + 16]
+	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0xc4650f66               // pcmpgtw    xmm0, xmm4
+	LONG $0xc0630f66               // packsswb    xmm0, xmm0
+	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
+	LONG $0xcc650f66               // pcmpgtw    xmm1, xmm4
+	LONG $0xc9630f66               // packsswb    xmm1, xmm1
+	LONG $0xd4750f66               // pcmpeqw    xmm2, xmm4
+	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
+	LONG $0xd2630f66               // packsswb    xmm2, xmm2
+	LONG $0xdc750f66               // pcmpeqw    xmm3, xmm4
+	LONG $0xddef0f66               // pxor    xmm3, xmm5
+	LONG $0xdb630f66               // packsswb    xmm3, xmm3
+	QUAD $0x000000f0a56f0f66       // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
+	LONG $0x10380f66; BYTE $0xd4   // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc   // pblendvb    xmm3, xmm4, xmm0
+	LONG $0xd36c0f66               // punpcklqdq    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0x0014 // movdqu    oword [r8 + rax], xmm2
+
+LBB4_1316:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB4_1655
+	JMP  LBB4_1317
+
+LBB4_1322:
+	WORD $0xc031 // xor    eax, eax
+
+LBB4_1323:
+	LONG $0x01c1f641                     // test    r9b, 1
+	JE   LBB4_1325
+	LONG $0x146f0ff3; BYTE $0xc1         // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0x5c6f0ff3; WORD $0x10c1       // movdqu    xmm3, oword [rcx + 8*rax + 16]
+	LONG $0xe4ef0f66                     // pxor    xmm4, xmm4
+	LONG $0xc26f0f66                     // movdqa    xmm0, xmm2
+	LONG $0x37380f66; BYTE $0xc4         // pcmpgtq    xmm0, xmm4
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	LONG $0xcb6f0f66                     // movdqa    xmm1, xmm3
+	LONG $0x37380f66; BYTE $0xcc         // pcmpgtq    xmm1, xmm4
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	LONG $0x29380f66; BYTE $0xd4         // pcmpeqq    xmm2, xmm4
+	LONG $0xed760f66                     // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                     // pxor    xmm2, xmm5
+	LONG $0xd26b0f66                     // packssdw    xmm2, xmm2
+	LONG $0xd26b0f66                     // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                     // packsswb    xmm2, xmm2
+	LONG $0x29380f66; BYTE $0xdc         // pcmpeqq    xmm3, xmm4
+	LONG $0xddef0f66                     // pxor    xmm3, xmm5
+	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
+	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
+	QUAD $0x000000c0a56f0f66             // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
+	LONG $0x10380f66; BYTE $0xd4         // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc         // pblendvb    xmm3, xmm4, xmm0
+	QUAD $0x000014153a0f4166             // pextrw    word [r8 + rax], xmm2, 0
+	QUAD $0x02005c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 2], xmm3, 0
+
+LBB4_1325:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB4_1655
+	JMP  LBB4_1326
+
+LBB4_1331:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1332:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1334
+	LONG $0xb104100f                           // movups    xmm0, oword [rcx + 4*rsi]
+	LONG $0xb14c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rsi + 16]
+	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
+	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
+	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
+	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xc5660f66                           // pcmpgtd    xmm0, xmm5
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xcd660f66                           // pcmpgtd    xmm1, xmm5
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x00000080b56f0f66                   // movdqa    xmm6, oword 128[rbp] /* [rip + .LCPI4_12] */
+	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
+	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x303c             // movd    dword [r8 + rsi], xmm7
+	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm5
+
+LBB4_1334:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1335
+
+LBB4_1340:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1341:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1343
+	LONG $0x046f0ff3; BYTE $0x31               // movdqu    xmm0, oword [rcx + rsi]
+	LONG $0x4c6f0ff3; WORD $0x1031             // movdqu    xmm1, oword [rcx + rsi + 16]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
+	QUAD $0x000001009d6f0f66                   // movdqa    xmm3, oword 256[rbp] /* [rip + .LCPI4_22] */
+	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
+	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
+	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
+	LONG $0x7f0f41f3; WORD $0x3004             // movdqu    oword [r8 + rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0x304c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm1
+
+LBB4_1343:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_1344
+
+LBB4_1348:
+	WORD $0xc031 // xor    eax, eax
+
+LBB4_1349:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1351
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0x5c6f0ff3; WORD $0x1081             // movdqu    xmm3, oword [rcx + 4*rax + 16]
+	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x0014             // movd    dword [r8 + rax], xmm2
+	LONG $0x7e0f4166; WORD $0x005c; BYTE $0x04 // movd    dword [r8 + rax + 4], xmm3
+
+LBB4_1351:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB4_1655
+	JMP  LBB4_1352
+
+LBB4_1357:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1358:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1360
+	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
+	LONG $0xd86e0f66                           // movd    xmm3, eax
+	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
+	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
+	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
+	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0x22380f66; BYTE $0xd2               // pmovsxbq    xmm2, xmm2
+	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0x22380f66; BYTE $0xdb               // pmovsxbq    xmm3, xmm3
+	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
+	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
+
+LBB4_1360:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1361
+
+LBB4_1366:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1367:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1369
+	LONG $0x046f0ff3; BYTE $0xf1               // movdqu    xmm0, oword [rcx + 8*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10f1             // movdqu    xmm1, oword [rcx + 8*rsi + 16]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0x29380f66; BYTE $0xc2               // pcmpeqq    xmm0, xmm2
+	QUAD $0x000000909d6f0f66                   // movdqa    xmm3, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
+	LONG $0x29380f66; BYTE $0xca               // pcmpeqq    xmm1, xmm2
+	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
+	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
+
+LBB4_1369:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1370
+
+LBB4_1374:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1375:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1377
+	LONG $0x0c6f0ff3; BYTE $0xf1               // movdqu    xmm1, oword [rcx + 8*rsi]
+	LONG $0x546f0ff3; WORD $0x10f1             // movdqu    xmm2, oword [rcx + 8*rsi + 16]
+	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
+	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x37380f66; BYTE $0xc1               // pcmpgtq    xmm0, xmm1
+	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
+	LONG $0x29380f66; BYTE $0xeb               // pcmpeqq    xmm5, xmm3
+	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
+	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
+	LONG $0x29380f66; BYTE $0xda               // pcmpeqq    xmm3, xmm2
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
+	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
+	LONG $0x15380f66; BYTE $0xd5               // blendvpd    xmm2, xmm5, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xe3               // blendvpd    xmm4, xmm3, xmm0
+	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
+	LONG $0x110f4166; WORD $0xf064; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm4
+
+LBB4_1377:
+	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
+	JE   LBB4_1655
+	JMP  LBB4_1378
+
+LBB4_1383:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1384:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1386
+	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0x32380f66; BYTE $0xc0               // pmovzxbq    xmm0, xmm0
+	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0x32380f66; BYTE $0xc9               // pmovzxbq    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
+
+LBB4_1386:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1387
+
+LBB4_1391:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1392:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1394
+	LONG $0x147e0ff3; BYTE $0x31               // movq    xmm2, qword [rcx + rsi]
+	LONG $0x5c7e0ff3; WORD $0x0831             // movq    xmm3, qword [rcx + rsi + 8]
+	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
+	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
+	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
+	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0x20380f66; BYTE $0xd2               // pmovsxbw    xmm2, xmm2
+	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0x20380f66; BYTE $0xdb               // pmovsxbw    xmm3, xmm3
+	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
+	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
+	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
+
+LBB4_1394:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1395
+
+LBB4_1400:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1401:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1403
+	LONG $0x147e0ff3; BYTE $0x31               // movq    xmm2, qword [rcx + rsi]
+	LONG $0x5c7e0ff3; WORD $0x0831             // movq    xmm3, qword [rcx + rsi + 8]
+	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
+	LONG $0x20380f66; BYTE $0xc0               // pmovsxbw    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
+	LONG $0x20380f66; BYTE $0xc9               // pmovsxbw    xmm1, xmm1
+	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0x20380f66; BYTE $0xd2               // pmovsxbw    xmm2, xmm2
+	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0x20380f66; BYTE $0xdb               // pmovsxbw    xmm3, xmm3
+	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
+	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
+	LONG $0x7f0f41f3; WORD $0x705c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm3
+
+LBB4_1403:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1404
+
+LBB4_1409:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1410:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1412
+	LONG $0x046f0ff3; BYTE $0x71               // movdqu    xmm0, oword [rcx + 2*rsi]
+	LONG $0x4c6f0ff3; WORD $0x1071             // movdqu    xmm1, oword [rcx + 2*rsi + 16]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
+	QUAD $0x000000e09d6f0f66                   // movdqa    xmm3, oword 224[rbp] /* [rip + .LCPI4_20] */
+	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
+	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
+	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
+	LONG $0x7f0f41f3; WORD $0x7004             // movdqu    oword [r8 + 2*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0x704c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm1
+
+LBB4_1412:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1413
+
+LBB4_1417:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1418:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1420
+	LONG $0x046f0ff3; BYTE $0x71               // movdqu    xmm0, oword [rcx + 2*rsi]
+	LONG $0x4c6f0ff3; WORD $0x1071             // movdqu    xmm1, oword [rcx + 2*rsi + 16]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2750f66                           // pcmpeqw    xmm0, xmm2
+	QUAD $0x000000e09d6f0f66                   // movdqa    xmm3, oword 224[rbp] /* [rip + .LCPI4_20] */
+	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
+	LONG $0xca750f66                           // pcmpeqw    xmm1, xmm2
+	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
+	LONG $0x7f0f41f3; WORD $0x7004             // movdqu    oword [r8 + 2*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0x704c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm1
+
+LBB4_1420:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1421
+
+LBB4_1425:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1426:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1428
+	LONG $0x0c6f0ff3; BYTE $0x71               // movdqu    xmm1, oword [rcx + 2*rsi]
+	LONG $0x546f0ff3; WORD $0x1071             // movdqu    xmm2, oword [rcx + 2*rsi + 16]
+	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
+	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xc1650f66                           // pcmpgtw    xmm0, xmm1
+	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
+	LONG $0xeb750f66                           // pcmpeqw    xmm5, xmm3
+	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
+	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
+	LONG $0xda750f66                           // pcmpeqw    xmm3, xmm2
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
+	LONG $0x10380f66; BYTE $0xd5               // pblendvb    xmm2, xmm5, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xe3               // pblendvb    xmm4, xmm3, xmm0
+	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm4
+
+LBB4_1428:
+	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
+	JE   LBB4_1655
+	JMP  LBB4_1429
+
+LBB4_1434:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1435:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1437
+	LONG $0x0c6f0ff3; BYTE $0x71               // movdqu    xmm1, oword [rcx + 2*rsi]
+	LONG $0x546f0ff3; WORD $0x1071             // movdqu    xmm2, oword [rcx + 2*rsi + 16]
+	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
+	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xc1650f66                           // pcmpgtw    xmm0, xmm1
+	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
+	LONG $0xeb750f66                           // pcmpeqw    xmm5, xmm3
+	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
+	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
+	LONG $0xda750f66                           // pcmpeqw    xmm3, xmm2
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
+	LONG $0x10380f66; BYTE $0xd5               // pblendvb    xmm2, xmm5, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xe3               // pblendvb    xmm4, xmm3, xmm0
+	LONG $0x7f0f41f3; WORD $0x7014             // movdqu    oword [r8 + 2*rsi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7064; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm4
+
+LBB4_1437:
+	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
+	JE   LBB4_1655
+	JMP  LBB4_1438
+
+LBB4_1443:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1444:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1446
+	LONG $0x047e0ff3; BYTE $0x31               // movq    xmm0, qword [rcx + rsi]
+	LONG $0x4c7e0ff3; WORD $0x0831             // movq    xmm1, qword [rcx + rsi + 8]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0x30380f66; BYTE $0xc0               // pmovzxbw    xmm0, xmm0
+	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0x30380f66; BYTE $0xc9               // pmovzxbw    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7f0f41f3; WORD $0x7004             // movdqu    oword [r8 + 2*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0x704c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm1
+
+LBB4_1446:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1447
+
+LBB4_1451:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1452:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1454
+	LONG $0x047e0ff3; BYTE $0x31               // movq    xmm0, qword [rcx + rsi]
+	LONG $0x4c7e0ff3; WORD $0x0831             // movq    xmm1, qword [rcx + rsi + 8]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0x30380f66; BYTE $0xc0               // pmovzxbw    xmm0, xmm0
+	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI4_20] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0x30380f66; BYTE $0xc9               // pmovzxbw    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7f0f41f3; WORD $0x7004             // movdqu    oword [r8 + 2*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0x704c; BYTE $0x10 // movdqu    oword [r8 + 2*rsi + 16], xmm1
+
+LBB4_1454:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1455
+
+LBB4_1459:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1460:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1462
+	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
+	LONG $0xd86e0f66                           // movd    xmm3, eax
+	LONG $0xe4570f66                           // xorpd    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
+	LONG $0x22380f66; BYTE $0xc0               // pmovsxbq    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
+	LONG $0x22380f66; BYTE $0xc9               // pmovsxbq    xmm1, xmm1
+	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0x22380f66; BYTE $0xd2               // pmovsxbq    xmm2, xmm2
+	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0x22380f66; BYTE $0xdb               // pmovsxbq    xmm3, xmm3
+	QUAD $0x00000090a5280f66                   // movapd    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0x15380f66; BYTE $0xd4               // blendvpd    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xdc               // blendvpd    xmm3, xmm4, xmm0
+	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
+	LONG $0x110f4166; WORD $0xf05c; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm3
+
+LBB4_1462:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1463
+
+LBB4_1468:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1469:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1471
+	LONG $0x146e0f66; BYTE $0x31               // movd    xmm2, dword [rcx + rsi]
+	LONG $0x5c6e0f66; WORD $0x0431             // movd    xmm3, dword [rcx + rsi + 4]
+	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xc4640f66                           // pcmpgtb    xmm0, xmm4
+	LONG $0x21380f66; BYTE $0xc0               // pmovsxbd    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0xcc640f66                           // pcmpgtb    xmm1, xmm4
+	LONG $0x21380f66; BYTE $0xc9               // pmovsxbd    xmm1, xmm1
+	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0x21380f66; BYTE $0xd2               // pmovsxbd    xmm2, xmm2
+	WORD $0x5b0f; BYTE $0xd2                   // cvtdq2ps    xmm2, xmm2
+	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0x21380f66; BYTE $0xdb               // pmovsxbd    xmm3, xmm3
+	WORD $0x5b0f; BYTE $0xdb                   // cvtdq2ps    xmm3, xmm3
+	LONG $0xd0a5280f; WORD $0x0000; BYTE $0x00 // movaps    xmm4, oword 208[rbp] /* [rip + .LCPI4_19] */
+	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xdc               // blendvps    xmm3, xmm4, xmm0
+	LONG $0x14110f41; BYTE $0xb0               // movups    oword [r8 + 4*rsi], xmm2
+	LONG $0x5c110f41; WORD $0x10b0             // movups    oword [r8 + 4*rsi + 16], xmm3
+
+LBB4_1471:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_1472
+
+LBB4_1490:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1491:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1493
+	LONG $0x046f0ff3; BYTE $0xf1               // movdqu    xmm0, oword [rcx + 8*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10f1             // movdqu    xmm1, oword [rcx + 8*rsi + 16]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0x29380f66; BYTE $0xc2               // pcmpeqq    xmm0, xmm2
+	QUAD $0x000000909d6f0f66                   // movdqa    xmm3, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
+	LONG $0x29380f66; BYTE $0xca               // pcmpeqq    xmm1, xmm2
+	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
+	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
+
+LBB4_1493:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1494
+
+LBB4_1498:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1499:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1501
+	LONG $0x0c6f0ff3; BYTE $0xf1               // movdqu    xmm1, oword [rcx + 8*rsi]
+	LONG $0x546f0ff3; WORD $0x10f1             // movdqu    xmm2, oword [rcx + 8*rsi + 16]
+	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
+	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x37380f66; BYTE $0xc1               // pcmpgtq    xmm0, xmm1
+	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
+	LONG $0x29380f66; BYTE $0xeb               // pcmpeqq    xmm5, xmm3
+	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
+	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
+	LONG $0x29380f66; BYTE $0xda               // pcmpeqq    xmm3, xmm2
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0x37380f66; BYTE $0xca               // pcmpgtq    xmm1, xmm2
+	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
+	LONG $0x15380f66; BYTE $0xd5               // blendvpd    xmm2, xmm5, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xe3               // blendvpd    xmm4, xmm3, xmm0
+	LONG $0x110f4166; WORD $0xf014             // movupd    oword [r8 + 8*rsi], xmm2
+	LONG $0x110f4166; WORD $0xf064; BYTE $0x10 // movupd    oword [r8 + 8*rsi + 16], xmm4
+
+LBB4_1501:
+	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
+	JE   LBB4_1655
+	JMP  LBB4_1502
+
+LBB4_1507:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1508:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1510
+	LONG $0x3104b70f                           // movzx    eax, word [rcx + rsi]
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	LONG $0x3144b70f; BYTE $0x02               // movzx    eax, word [rcx + rsi + 2]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0x32380f66; BYTE $0xc0               // pmovzxbq    xmm0, xmm0
+	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI4_15] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0x32380f66; BYTE $0xc9               // pmovzxbq    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7f0f41f3; WORD $0xf004             // movdqu    oword [r8 + 8*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf04c; BYTE $0x10 // movdqu    oword [r8 + 8*rsi + 16], xmm1
+
+LBB4_1510:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1511
+
+LBB4_1515:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1516:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1518
+	LONG $0x046e0f66; BYTE $0x31   // movd    xmm0, dword [rcx + rsi]
+	LONG $0x4c6e0f66; WORD $0x0431 // movd    xmm1, dword [rcx + rsi + 4]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xc2740f66               // pcmpeqb    xmm0, xmm2
+	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
+	LONG $0x31380f66; BYTE $0xc0   // pmovzxbd    xmm0, xmm0
+	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc4db0f66               // pand    xmm0, xmm4
+	WORD $0x5b0f; BYTE $0xc0       // cvtdq2ps    xmm0, xmm0
+	LONG $0xca740f66               // pcmpeqb    xmm1, xmm2
+	LONG $0xcbef0f66               // pxor    xmm1, xmm3
+	LONG $0x31380f66; BYTE $0xc9   // pmovzxbd    xmm1, xmm1
+	LONG $0xccdb0f66               // pand    xmm1, xmm4
+	WORD $0x5b0f; BYTE $0xc9       // cvtdq2ps    xmm1, xmm1
+	LONG $0x04110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm0
+	LONG $0x4c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm1
+
+LBB4_1518:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_1519
+
+LBB4_1535:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1536:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1538
+	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7e0f4166; WORD $0x3004             // movd    dword [r8 + rsi], xmm0
+	LONG $0x7e0f4166; WORD $0x304c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm1
+
+LBB4_1538:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_1539
+
+LBB4_1543:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1544:
+	LONG $0x01c1f641                     // test    r9b, 1
+	JE   LBB4_1546
+	LONG $0x1c100f66; BYTE $0xf1         // movupd    xmm3, oword [rcx + 8*rsi]
+	LONG $0x64100f66; WORD $0x10f1       // movupd    xmm4, oword [rcx + 8*rsi + 16]
+	LONG $0xd2570f66                     // xorpd    xmm2, xmm2
+	LONG $0xc3280f66                     // movapd    xmm0, xmm3
+	LONG $0xc2c20f66; BYTE $0x00         // cmpeqpd    xmm0, xmm2
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	LONG $0xcc280f66                     // movapd    xmm1, xmm4
+	LONG $0xcac20f66; BYTE $0x00         // cmpeqpd    xmm1, xmm2
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	LONG $0x6d280f66; BYTE $0x00         // movapd    xmm5, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xdd540f66                     // andpd    xmm3, xmm5
+	LONG $0x75280f66; BYTE $0x10         // movapd    xmm6, oword 16[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xde560f66                     // orpd    xmm3, xmm6
+	LONG $0xe5540f66                     // andpd    xmm4, xmm5
+	LONG $0xe6560f66                     // orpd    xmm4, xmm6
+	LONG $0xdbe60f66                     // cvttpd2dq    xmm3, xmm3
+	LONG $0x6d6f0f66; BYTE $0x40         // movdqa    xmm5, oword 64[rbp] /* [rip + .LCPI4_7] */
+	LONG $0x00380f66; BYTE $0xdd         // pshufb    xmm3, xmm5
+	LONG $0xe4e60f66                     // cvttpd2dq    xmm4, xmm4
+	LONG $0x00380f66; BYTE $0xe5         // pshufb    xmm4, xmm5
+	LONG $0x10380f66; BYTE $0xda         // pblendvb    xmm3, xmm2, xmm0
+	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xe2         // pblendvb    xmm4, xmm2, xmm0
+	QUAD $0x00301c153a0f4166             // pextrw    word [r8 + rsi], xmm3, 0
+	QUAD $0x023064153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm4, 0
+
+LBB4_1546:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_1547
+
+LBB4_1552:
+	WORD $0xc031 // xor    eax, eax
+
+LBB4_1553:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1555
+	LONG $0x0c6f0ff3; BYTE $0x01               // movdqu    xmm1, oword [rcx + rax]
+	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
+	LONG $0xdbef0f66                           // pxor    xmm3, xmm3
+	QUAD $0x00000100a56f0f66                   // movdqa    xmm4, oword 256[rbp] /* [rip + .LCPI4_22] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xc1640f66                           // pcmpgtb    xmm0, xmm1
+	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
+	LONG $0xeb740f66                           // pcmpeqb    xmm5, xmm3
+	LONG $0xc9760f66                           // pcmpeqd    xmm1, xmm1
+	LONG $0xe9ef0f66                           // pxor    xmm5, xmm1
+	LONG $0xda740f66                           // pcmpeqb    xmm3, xmm2
+	LONG $0xd9ef0f66                           // pxor    xmm3, xmm1
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xca640f66                           // pcmpgtb    xmm1, xmm2
+	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
+	LONG $0x10380f66; BYTE $0xd5               // pblendvb    xmm2, xmm5, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xe3               // pblendvb    xmm4, xmm3, xmm0
+	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x0064; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm4
+
+LBB4_1555:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB4_1655
+	JMP  LBB4_1556
+
+LBB4_1561:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1562:
+	LONG $0x01c1f641                     // test    r9b, 1
+	JE   LBB4_1564
+	LONG $0x046f0ff3; BYTE $0xf1         // movdqu    xmm0, oword [rcx + 8*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10f1       // movdqu    xmm1, oword [rcx + 8*rsi + 16]
+	LONG $0xd2ef0f66                     // pxor    xmm2, xmm2
+	LONG $0x29380f66; BYTE $0xc2         // pcmpeqq    xmm0, xmm2
+	LONG $0xdb760f66                     // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                     // pxor    xmm0, xmm3
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	QUAD $0x000000c0a56f0f66             // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
+	LONG $0xc4db0f66                     // pand    xmm0, xmm4
+	LONG $0x29380f66; BYTE $0xca         // pcmpeqq    xmm1, xmm2
+	LONG $0xcbef0f66                     // pxor    xmm1, xmm3
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	QUAD $0x003004153a0f4166             // pextrw    word [r8 + rsi], xmm0, 0
+	LONG $0xccdb0f66                     // pand    xmm1, xmm4
+	QUAD $0x02304c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rsi + 2], xmm1, 0
+
+LBB4_1564:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_1565
+
+LBB4_1569:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1570:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1572
+	LONG $0x046f0ff3; BYTE $0x71   // movdqu    xmm0, oword [rcx + 2*rsi]
+	LONG $0x4c6f0ff3; WORD $0x1071 // movdqu    xmm1, oword [rcx + 2*rsi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xc2750f66               // pcmpeqw    xmm0, xmm2
+	LONG $0xdb760f66               // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66               // pxor    xmm0, xmm3
+	LONG $0xc0630f66               // packsswb    xmm0, xmm0
+	QUAD $0x000000f0a56f0f66       // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
+	LONG $0xc4db0f66               // pand    xmm0, xmm4
+	LONG $0xca750f66               // pcmpeqw    xmm1, xmm2
+	LONG $0xcbef0f66               // pxor    xmm1, xmm3
+	LONG $0xc9630f66               // packsswb    xmm1, xmm1
+	LONG $0xccdb0f66               // pand    xmm1, xmm4
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3004 // movdqu    oword [r8 + rsi], xmm0
+
+LBB4_1572:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_1573
+
+LBB4_1577:
+	WORD $0xc031 // xor    eax, eax
+
+LBB4_1578:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1580
+	LONG $0x146f0ff3; BYTE $0x41   // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0x5c6f0ff3; WORD $0x1041 // movdqu    xmm3, oword [rcx + 2*rax + 16]
+	LONG $0xe4ef0f66               // pxor    xmm4, xmm4
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0xc4650f66               // pcmpgtw    xmm0, xmm4
+	LONG $0xc0630f66               // packsswb    xmm0, xmm0
+	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
+	LONG $0xcc650f66               // pcmpgtw    xmm1, xmm4
+	LONG $0xc9630f66               // packsswb    xmm1, xmm1
+	LONG $0xd4750f66               // pcmpeqw    xmm2, xmm4
+	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
+	LONG $0xd2630f66               // packsswb    xmm2, xmm2
+	LONG $0xdc750f66               // pcmpeqw    xmm3, xmm4
+	LONG $0xddef0f66               // pxor    xmm3, xmm5
+	LONG $0xdb630f66               // packsswb    xmm3, xmm3
+	QUAD $0x000000f0a56f0f66       // movdqa    xmm4, oword 240[rbp] /* [rip + .LCPI4_21] */
+	LONG $0x10380f66; BYTE $0xd4   // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc   // pblendvb    xmm3, xmm4, xmm0
+	LONG $0xd36c0f66               // punpcklqdq    xmm2, xmm3
+	LONG $0x7f0f41f3; WORD $0x0014 // movdqu    oword [r8 + rax], xmm2
+
+LBB4_1580:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB4_1655
+	JMP  LBB4_1581
+
+LBB4_1586:
+	WORD $0xc031 // xor    eax, eax
+
+LBB4_1587:
+	LONG $0x01c1f641                     // test    r9b, 1
+	JE   LBB4_1589
+	LONG $0x146f0ff3; BYTE $0xc1         // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0x5c6f0ff3; WORD $0x10c1       // movdqu    xmm3, oword [rcx + 8*rax + 16]
+	LONG $0xe4ef0f66                     // pxor    xmm4, xmm4
+	LONG $0xc26f0f66                     // movdqa    xmm0, xmm2
+	LONG $0x37380f66; BYTE $0xc4         // pcmpgtq    xmm0, xmm4
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc06b0f66                     // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                     // packsswb    xmm0, xmm0
+	LONG $0xcb6f0f66                     // movdqa    xmm1, xmm3
+	LONG $0x37380f66; BYTE $0xcc         // pcmpgtq    xmm1, xmm4
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc96b0f66                     // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                     // packsswb    xmm1, xmm1
+	LONG $0x29380f66; BYTE $0xd4         // pcmpeqq    xmm2, xmm4
+	LONG $0xed760f66                     // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                     // pxor    xmm2, xmm5
+	LONG $0xd26b0f66                     // packssdw    xmm2, xmm2
+	LONG $0xd26b0f66                     // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                     // packsswb    xmm2, xmm2
+	LONG $0x29380f66; BYTE $0xdc         // pcmpeqq    xmm3, xmm4
+	LONG $0xddef0f66                     // pxor    xmm3, xmm5
+	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
+	LONG $0xdb6b0f66                     // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                     // packsswb    xmm3, xmm3
+	QUAD $0x000000c0a56f0f66             // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI4_18] */
+	LONG $0x10380f66; BYTE $0xd4         // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                     // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc         // pblendvb    xmm3, xmm4, xmm0
+	QUAD $0x000014153a0f4166             // pextrw    word [r8 + rax], xmm2, 0
+	QUAD $0x02005c153a0f4166; BYTE $0x00 // pextrw    word [r8 + rax + 2], xmm3, 0
+
+LBB4_1589:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB4_1655
+	JMP  LBB4_1590
+
+LBB4_1595:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1596:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1598
+	LONG $0xb104100f                           // movups    xmm0, oword [rcx + 4*rsi]
+	LONG $0xb14c100f; BYTE $0x10               // movups    xmm1, oword [rcx + 4*rsi + 16]
+	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
+	WORD $0x280f; BYTE $0xd0                   // movaps    xmm2, xmm0
+	LONG $0x00d4c20f                           // cmpeqps    xmm2, xmm4
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
+	LONG $0x00dcc20f                           // cmpeqps    xmm3, xmm4
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xc5660f66                           // pcmpgtd    xmm0, xmm5
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xcd660f66                           // pcmpgtd    xmm1, xmm5
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x00000080b56f0f66                   // movdqa    xmm6, oword 128[rbp] /* [rip + .LCPI4_12] */
+	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
+	LONG $0x10380f66; BYTE $0xfe               // pblendvb    xmm7, xmm6, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xee               // pblendvb    xmm5, xmm6, xmm0
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x10380f66; BYTE $0xec               // pblendvb    xmm5, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x303c             // movd    dword [r8 + rsi], xmm7
+	LONG $0x7e0f4166; WORD $0x306c; BYTE $0x04 // movd    dword [r8 + rsi + 4], xmm5
+
+LBB4_1598:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1599
+
+LBB4_1604:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1605:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1607
+	LONG $0x046f0ff3; BYTE $0x31               // movdqu    xmm0, oword [rcx + rsi]
+	LONG $0x4c6f0ff3; WORD $0x1031             // movdqu    xmm1, oword [rcx + rsi + 16]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
+	QUAD $0x000001009d6f0f66                   // movdqa    xmm3, oword 256[rbp] /* [rip + .LCPI4_22] */
+	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
+	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
+	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
+	LONG $0x7f0f41f3; WORD $0x3004             // movdqu    oword [r8 + rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0x304c; BYTE $0x10 // movdqu    oword [r8 + rsi + 16], xmm1
+
+LBB4_1607:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB4_1655
+	JMP  LBB4_1608
+
+LBB4_1612:
+	WORD $0xc031 // xor    eax, eax
+
+LBB4_1613:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1615
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0x5c6f0ff3; WORD $0x1081             // movdqu    xmm3, oword [rcx + 4*rax + 16]
+	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xc4660f66                           // pcmpgtd    xmm0, xmm4
+	LONG $0xc06b0f66                           // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0xcc660f66                           // pcmpgtd    xmm1, xmm4
+	LONG $0xc96b0f66                           // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xd4760f66                           // pcmpeqd    xmm2, xmm4
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66                           // pxor    xmm2, xmm5
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdc760f66                           // pcmpeqd    xmm3, xmm4
+	LONG $0xddef0f66                           // pxor    xmm3, xmm5
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_12] */
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x10380f66; BYTE $0xdc               // pblendvb    xmm3, xmm4, xmm0
+	LONG $0x7e0f4166; WORD $0x0014             // movd    dword [r8 + rax], xmm2
+	LONG $0x7e0f4166; WORD $0x005c; BYTE $0x04 // movd    dword [r8 + rax + 4], xmm3
+
+LBB4_1615:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB4_1655
+	JMP  LBB4_1616
+
+LBB4_1621:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1622:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1624
+	LONG $0x046f0ff3; BYTE $0xb1               // movdqu    xmm0, oword [rcx + 4*rsi]
+	LONG $0x4c6f0ff3; WORD $0x10b1             // movdqu    xmm1, oword [rcx + 4*rsi + 16]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2760f66                           // pcmpeqd    xmm0, xmm2
+	LONG $0x5d6f0f66; BYTE $0x50               // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc3df0f66                           // pandn    xmm0, xmm3
+	LONG $0xca760f66                           // pcmpeqd    xmm1, xmm2
+	LONG $0xcbdf0f66                           // pandn    xmm1, xmm3
+	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
+
+LBB4_1624:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1625
+
+LBB4_1629:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1630:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1632
+	LONG $0x146e0f66; BYTE $0x31   // movd    xmm2, dword [rcx + rsi]
+	LONG $0x5c6e0f66; WORD $0x0431 // movd    xmm3, dword [rcx + rsi + 4]
+	WORD $0x570f; BYTE $0xe4       // xorps    xmm4, xmm4
+	LONG $0xc26f0f66               // movdqa    xmm0, xmm2
+	LONG $0xc4640f66               // pcmpgtb    xmm0, xmm4
+	LONG $0x21380f66; BYTE $0xc0   // pmovsxbd    xmm0, xmm0
+	LONG $0xcb6f0f66               // movdqa    xmm1, xmm3
+	LONG $0xcc640f66               // pcmpgtb    xmm1, xmm4
+	LONG $0x21380f66; BYTE $0xc9   // pmovsxbd    xmm1, xmm1
+	LONG $0xd4740f66               // pcmpeqb    xmm2, xmm4
+	LONG $0xed760f66               // pcmpeqd    xmm5, xmm5
+	LONG $0xd5ef0f66               // pxor    xmm2, xmm5
+	LONG $0x21380f66; BYTE $0xd2   // pmovsxbd    xmm2, xmm2
+	LONG $0xdc740f66               // pcmpeqb    xmm3, xmm4
+	LONG $0xddef0f66               // pxor    xmm3, xmm5
+	LONG $0x21380f66; BYTE $0xdb   // pmovsxbd    xmm3, xmm3
+	LONG $0x5065280f               // movaps    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0x14380f66; BYTE $0xd4   // blendvps    xmm2, xmm4, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xdc   // blendvps    xmm3, xmm4, xmm0
+	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
+	LONG $0x5c110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm3
+
+LBB4_1632:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1633
+
+LBB4_1638:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1639:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB4_1641
+	LONG $0x046e0f66; BYTE $0x31               // movd    xmm0, dword [rcx + rsi]
+	LONG $0x4c6e0f66; WORD $0x0431             // movd    xmm1, dword [rcx + rsi + 4]
+	LONG $0xd2ef0f66                           // pxor    xmm2, xmm2
+	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc3ef0f66                           // pxor    xmm0, xmm3
+	LONG $0x31380f66; BYTE $0xc0               // pmovzxbd    xmm0, xmm0
+	LONG $0x656f0f66; BYTE $0x50               // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc4db0f66                           // pand    xmm0, xmm4
+	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
+	LONG $0xcbef0f66                           // pxor    xmm1, xmm3
+	LONG $0x31380f66; BYTE $0xc9               // pmovzxbd    xmm1, xmm1
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0x7f0f41f3; WORD $0xb004             // movdqu    oword [r8 + 4*rsi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb04c; BYTE $0x10 // movdqu    oword [r8 + 4*rsi + 16], xmm1
+
+LBB4_1641:
+	WORD $0x394c; BYTE $0xd2 // cmp    rdx, r10
+	JE   LBB4_1655
+	JMP  LBB4_1642
+
+LBB4_1646:
+	WORD $0xf631 // xor    esi, esi
+
+LBB4_1647:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB4_1649
+	LONG $0x0c6f0ff3; BYTE $0xb1   // movdqu    xmm1, oword [rcx + 4*rsi]
+	LONG $0x546f0ff3; WORD $0x10b1 // movdqu    xmm2, oword [rcx + 4*rsi + 16]
+	LONG $0xdbef0f66               // pxor    xmm3, xmm3
+	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc46f0f66               // movdqa    xmm0, xmm4
+	LONG $0xc1660f66               // pcmpgtd    xmm0, xmm1
+	LONG $0xe96f0f66               // movdqa    xmm5, xmm1
+	LONG $0xeb760f66               // pcmpeqd    xmm5, xmm3
+	LONG $0xc9760f66               // pcmpeqd    xmm1, xmm1
+	LONG $0xe9ef0f66               // pxor    xmm5, xmm1
+	LONG $0xda760f66               // pcmpeqd    xmm3, xmm2
+	LONG $0xd9ef0f66               // pxor    xmm3, xmm1
+	LONG $0xcc6f0f66               // movdqa    xmm1, xmm4
+	LONG $0xca660f66               // pcmpgtd    xmm1, xmm2
+	LONG $0xd46f0f66               // movdqa    xmm2, xmm4
+	LONG $0x14380f66; BYTE $0xd5   // blendvps    xmm2, xmm5, xmm0
+	LONG $0xc16f0f66               // movdqa    xmm0, xmm1
+	LONG $0x14380f66; BYTE $0xe3   // blendvps    xmm4, xmm3, xmm0
+	LONG $0x14110f41; BYTE $0xb0   // movups    oword [r8 + 4*rsi], xmm2
+	LONG $0x64110f41; WORD $0x10b0 // movups    oword [r8 + 4*rsi + 16], xmm4
+
+LBB4_1649:
+	WORD $0x394c; BYTE $0xda // cmp    rdx, r11
+	JE   LBB4_1655
+	JMP  LBB4_1650
diff --git a/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go b/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go
new file mode 100644
index 00000000000..81d472fa3b0
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go
@@ -0,0 +1,36 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && noasm
+
+package kernels
+
+import (
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"golang.org/x/exp/constraints"
+)
+
+func getArithmeticOpFloating[InT, OutT constraints.Float](op ArithmeticOp) exec.ArrayKernelExec {
+	return getGoArithmeticOpFloatingSameType[InT, OutT](op)
+}
+
+func getArithmeticOpIntegral[InT, OutT exec.UintTypes | exec.IntTypes](op ArithmeticOp) exec.ArrayKernelExec {
+	return getGoArithmeticOpIntegral[InT, OutT](op)
+}
+
+func getArithmeticUnaryFixedIntOut[InT exec.NumericTypes, OutT exec.IntTypes](op ArithmeticOp) exec.ArrayKernelExec {
+	return getGoArithmeticFixedIntOut[InT, OutT](op)
+}
diff --git a/go/arrow/compute/internal/kernels/boolean_cast.go b/go/arrow/compute/internal/kernels/boolean_cast.go
new file mode 100644
index 00000000000..6f51b6b0c75
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/boolean_cast.go
@@ -0,0 +1,107 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"strconv"
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+)
+
+func isNonZero[T exec.FixedWidthTypes](ctx *exec.KernelCtx, in []T, out []byte) error {
+	var zero T
+	for i, v := range in {
+		bitutil.SetBitTo(out, i, v != zero)
+	}
+	return nil
+}
+
+// GetBooleanCastKernels returns the slice of scalar kernels for casting
+// values *to* a boolean type.
+func GetBooleanCastKernels() []exec.ScalarKernel {
+	kernels := GetCommonCastKernels(arrow.BOOL, exec.NewOutputType(arrow.FixedWidthTypes.Boolean))
+	kernels = append(kernels, GetZeroCastKernel(arrow.BOOL,
+		exec.NewExactInput(arrow.FixedWidthTypes.Boolean), exec.NewOutputType(arrow.FixedWidthTypes.Boolean)))
+
+	out := exec.NewOutputType(arrow.FixedWidthTypes.Boolean)
+	for _, ty := range numericTypes {
+		var ex exec.ArrayKernelExec
+		switch ty.ID() {
+		case arrow.INT8:
+			ex = ScalarUnaryBoolOutput(isNonZero[int8])
+		case arrow.UINT8:
+			ex = ScalarUnaryBoolOutput(isNonZero[uint8])
+		case arrow.INT16:
+			ex = ScalarUnaryBoolOutput(isNonZero[int16])
+		case arrow.UINT16:
+			ex = ScalarUnaryBoolOutput(isNonZero[uint16])
+		case arrow.INT32:
+			ex = ScalarUnaryBoolOutput(isNonZero[int32])
+		case arrow.UINT32:
+			ex = ScalarUnaryBoolOutput(isNonZero[uint32])
+		case arrow.INT64:
+			ex = ScalarUnaryBoolOutput(isNonZero[int64])
+		case arrow.UINT64:
+			ex = ScalarUnaryBoolOutput(isNonZero[uint64])
+		case arrow.FLOAT32:
+			ex = ScalarUnaryBoolOutput(isNonZero[float32])
+		case arrow.FLOAT64:
+			ex = ScalarUnaryBoolOutput(isNonZero[float64])
+		}
+		k := exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(ty)}, out, ex, nil)
+		k.NullHandling = exec.NullIntersection
+		k.MemAlloc = exec.MemPrealloc
+		kernels = append(kernels, k)
+	}
+
+	for _, ty := range baseBinaryTypes {
+		var ex exec.ArrayKernelExec
+		switch ty.ID() {
+		case arrow.BINARY, arrow.STRING:
+			ex = ScalarUnaryNotNullBinaryArgBoolOut[int32](false, func(_ *exec.KernelCtx, b []byte, err *error) bool {
+				v := *(*string)(unsafe.Pointer(&b))
+				o, e := strconv.ParseBool(v)
+				if e != nil {
+					*err = e
+				}
+				return o
+			})
+		case arrow.LARGE_BINARY, arrow.LARGE_STRING:
+			ex = ScalarUnaryNotNullBinaryArgBoolOut[int64](false, func(_ *exec.KernelCtx, b []byte, err *error) bool {
+				v := *(*string)(unsafe.Pointer(&b))
+				o, e := strconv.ParseBool(v)
+				if e != nil {
+					*err = e
+				}
+				return o
+			})
+		}
+		k := exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(ty)}, out, ex, nil)
+		k.NullHandling = exec.NullIntersection
+		k.MemAlloc = exec.MemPrealloc
+		kernels = append(kernels, k)
+	}
+
+	return kernels
+}
diff --git a/go/arrow/compute/internal/kernels/cast.go b/go/arrow/compute/internal/kernels/cast.go
new file mode 100644
index 00000000000..89107e07921
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/cast.go
@@ -0,0 +1,115 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+)
+
+type CastOptions struct {
+	ToType               arrow.DataType `compute:"to_type"`
+	AllowIntOverflow     bool           `compute:"allow_int_overflow"`
+	AllowTimeTruncate    bool           `compute:"allow_time_truncate"`
+	AllowTimeOverflow    bool           `compute:"allow_time_overflow"`
+	AllowDecimalTruncate bool           `compute:"allow_decimal_truncate"`
+	AllowFloatTruncate   bool           `compute:"allow_float_truncate"`
+	AllowInvalidUtf8     bool           `compute:"allow_invalid_utf8"`
+}
+
+func (CastOptions) TypeName() string { return "CastOptions" }
+
+// CastState is the kernel state for Cast functions, it is an alias to
+// the CastOptions object.
+type CastState = CastOptions
+
+// ZeroCopyCastExec is a kernel for performing a cast which can be executed
+// as a zero-copy operation. It simply forwards the buffers to the output.
+//
+// This can be used for casting a type to itself, or for casts between
+// equivalent representations such as Int32 and Date32.
+func ZeroCopyCastExec(_ *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	dt := out.Type
+	*out = batch.Values[0].Array
+	out.Type = dt
+	return nil
+}
+
+func recursiveSetSelfAlloc(arr *exec.ArraySpan) {
+	for i := range arr.Buffers {
+		if len(arr.Buffers[i].Buf) > 0 {
+			arr.Buffers[i].SelfAlloc = true
+			if arr.Buffers[i].Owner != nil {
+				arr.Buffers[i].Owner.Retain()
+			}
+		}
+	}
+
+	for i := range arr.Children {
+		recursiveSetSelfAlloc(&arr.Children[i])
+	}
+}
+
+// CastFromNull is a simple kernel for constructing an array of null values
+// for the requested data type, allowing casting of an arrow.Null typed value
+// to any other arbitrary data type.
+func CastFromNull(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	arr := array.MakeArrayOfNull(exec.GetAllocator(ctx.Ctx), out.Type, int(batch.Len))
+	defer arr.Release()
+
+	out.SetMembers(arr.Data())
+	recursiveSetSelfAlloc(out)
+	return nil
+}
+
+// OutputAllNull is a simple kernel that initializes the output as an array
+// whose output is all null by setting nulls to the length.
+func OutputAllNull(_ *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	out.Nulls = batch.Len
+	return nil
+}
+
+func CanCastFromDict(id arrow.Type) bool {
+	return arrow.IsPrimitive(id) || arrow.IsBaseBinary(id) || arrow.IsFixedSizeBinary(id)
+}
+
+// GetZeroCastKernel returns a kernel for performing ZeroCast execution using
+// the ZeroCopyCastExec kernel function.
+func GetZeroCastKernel(inID arrow.Type, inType exec.InputType, out exec.OutputType) exec.ScalarKernel {
+	k := exec.NewScalarKernel([]exec.InputType{inType}, out, ZeroCopyCastExec, nil)
+	k.NullHandling = exec.NullComputedNoPrealloc
+	k.MemAlloc = exec.MemNoPrealloc
+	return k
+}
+
+// GetCommonCastKernels returns the list of kernels common to all types
+// such as casting from null or from Extension types of the appropriate
+// underlying type.
+func GetCommonCastKernels(outID arrow.Type, outType exec.OutputType) (out []exec.ScalarKernel) {
+	out = make([]exec.ScalarKernel, 0, 2)
+
+	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(arrow.Null)}, outType,
+		CastFromNull, nil)
+	kernel.NullHandling = exec.NullComputedNoPrealloc
+	kernel.MemAlloc = exec.MemNoPrealloc
+	out = append(out, kernel)
+
+	return
+}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric.go b/go/arrow/compute/internal/kernels/cast_numeric.go
new file mode 100644
index 00000000000..95de2b495fa
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/cast_numeric.go
@@ -0,0 +1,87 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+)
+
+var castNumericUnsafe func(itype, otype arrow.Type, in, out []byte, len int) = castNumericGo
+
+func DoStaticCast[InT, OutT numeric](in []InT, out []OutT) {
+	for i, v := range in {
+		out[i] = OutT(v)
+	}
+}
+
+func reinterpret[T numeric](b []byte, len int) (res []T) {
+	return unsafe.Slice((*T)(unsafe.Pointer(&b[0])), len)
+}
+
+func castNumberToNumberUnsafeImpl[T numeric](outT arrow.Type, in []T, out []byte) {
+	switch outT {
+	case arrow.INT8:
+		DoStaticCast(in, reinterpret[int8](out, len(in)))
+	case arrow.UINT8:
+		DoStaticCast(in, reinterpret[uint8](out, len(in)))
+	case arrow.INT16:
+		DoStaticCast(in, reinterpret[int16](out, len(in)))
+	case arrow.UINT16:
+		DoStaticCast(in, reinterpret[uint16](out, len(in)))
+	case arrow.INT32:
+		DoStaticCast(in, reinterpret[int32](out, len(in)))
+	case arrow.UINT32:
+		DoStaticCast(in, reinterpret[uint32](out, len(in)))
+	case arrow.INT64:
+		DoStaticCast(in, reinterpret[int64](out, len(in)))
+	case arrow.UINT64:
+		DoStaticCast(in, reinterpret[uint64](out, len(in)))
+	case arrow.FLOAT32:
+		DoStaticCast(in, reinterpret[float32](out, len(in)))
+	case arrow.FLOAT64:
+		DoStaticCast(in, reinterpret[float64](out, len(in)))
+	}
+}
+
+func castNumericGo(itype, otype arrow.Type, in, out []byte, len int) {
+	switch itype {
+	case arrow.INT8:
+		castNumberToNumberUnsafeImpl(otype, reinterpret[int8](in, len), out)
+	case arrow.UINT8:
+		castNumberToNumberUnsafeImpl(otype, reinterpret[uint8](in, len), out)
+	case arrow.INT16:
+		castNumberToNumberUnsafeImpl(otype, reinterpret[int16](in, len), out)
+	case arrow.UINT16:
+		castNumberToNumberUnsafeImpl(otype, reinterpret[uint16](in, len), out)
+	case arrow.INT32:
+		castNumberToNumberUnsafeImpl(otype, reinterpret[int32](in, len), out)
+	case arrow.UINT32:
+		castNumberToNumberUnsafeImpl(otype, reinterpret[uint32](in, len), out)
+	case arrow.INT64:
+		castNumberToNumberUnsafeImpl(otype, reinterpret[int64](in, len), out)
+	case arrow.UINT64:
+		castNumberToNumberUnsafeImpl(otype, reinterpret[uint64](in, len), out)
+	case arrow.FLOAT32:
+		castNumberToNumberUnsafeImpl(otype, reinterpret[float32](in, len), out)
+	case arrow.FLOAT64:
+		castNumberToNumberUnsafeImpl(otype, reinterpret[float64](in, len), out)
+	}
+}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_amd64.go b/go/arrow/compute/internal/kernels/cast_numeric_amd64.go
new file mode 100644
index 00000000000..68ef28a97f8
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/cast_numeric_amd64.go
@@ -0,0 +1,33 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && !noasm
+
+package kernels
+
+import (
+	"golang.org/x/sys/cpu"
+)
+
+func init() {
+	if cpu.X86.HasAVX2 {
+		castNumericUnsafe = castNumericAvx2
+	} else if cpu.X86.HasSSE42 {
+		castNumericUnsafe = castNumericSSE4
+	} else {
+		castNumericUnsafe = castNumericGo
+	}
+}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.go b/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.go
new file mode 100644
index 00000000000..f50f42c27fe
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.go
@@ -0,0 +1,32 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && !noasm
+
+package kernels
+
+import (
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+)
+
+//go:noescape
+func _cast_type_numeric_avx2(itype, otype int, in, out unsafe.Pointer, len int)
+
+func castNumericAvx2(itype, otype arrow.Type, in, out []byte, len int) {
+	_cast_type_numeric_avx2(int(itype), int(otype), unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len)
+}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.s b/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.s
new file mode 100644
index 00000000000..ffedf7a4f5f
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/cast_numeric_avx2_amd64.s
@@ -0,0 +1,11545 @@
+//go:build !noasm && !appengine && go1.18
+// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
+
+DATA LCDATA1<>+0x000(SB)/8, $0x43e0000000000000
+DATA LCDATA1<>+0x008(SB)/8, $0x4330000000000000
+DATA LCDATA1<>+0x010(SB)/8, $0x4530000000000000
+DATA LCDATA1<>+0x018(SB)/8, $0x4530000000100000
+DATA LCDATA1<>+0x020(SB)/8, $0x0000000000000001
+DATA LCDATA1<>+0x028(SB)/8, $0x4f0000005f000000
+DATA LCDATA1<>+0x030(SB)/8, $0x4b00000080000000
+DATA LCDATA1<>+0x038(SB)/8, $0x5300008053000000
+DATA LCDATA1<>+0x040(SB)/8, $0x0000000000000800
+DATA LCDATA1<>+0x048(SB)/8, $0x0000000000000000
+DATA LCDATA1<>+0x050(SB)/8, $0x4530000043300000
+DATA LCDATA1<>+0x058(SB)/8, $0x0000000000000000
+DATA LCDATA1<>+0x060(SB)/8, $0x4330000000000000
+DATA LCDATA1<>+0x068(SB)/8, $0x4530000000000000
+DATA LCDATA1<>+0x070(SB)/8, $0x000000000c080400
+DATA LCDATA1<>+0x078(SB)/8, $0x0000000000000000
+DATA LCDATA1<>+0x080(SB)/8, $0x0d0c090805040100
+DATA LCDATA1<>+0x088(SB)/8, $0x0f0e0d0c0d0c0908
+DATA LCDATA1<>+0x090(SB)/8, $0x1d1c191815141110
+DATA LCDATA1<>+0x098(SB)/8, $0x1f1e1d1c1d1c1918
+DATA LCDATA1<>+0x0a0(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA1<>+0x0a8(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA1<>+0x0b0(SB)/8, $0x00ff00ff00ff00ff
+DATA LCDATA1<>+0x0b8(SB)/8, $0x00ff00ff00ff00ff
+GLOBL LCDATA1<>(SB), 8, $192
+
+TEXT ·_cast_type_numeric_avx2(SB), $0-40
+
+	MOVQ itype+0(FP), DI
+	MOVQ otype+8(FP), SI
+	MOVQ in+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ len+32(FP), R8
+	LEAQ LCDATA1<>(SB), BP
+
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_13
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_25
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_45
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_53
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_1553
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_93
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_163
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_263
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_266
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_12
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_742
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_742
+
+LBB0_12:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1189:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1191
+
+LBB0_1190:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1190
+
+LBB0_1191:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1192:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1192
+	JMP  LBB0_1553
+
+LBB0_13:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_35
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_61
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_69
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_1553
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_100
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_168
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_269
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_272
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0xf089             // mov    eax, esi
+	WORD $0xe083; BYTE $0x03 // and    eax, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_446
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_448
+
+LBB0_25:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_77
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_1553
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_107
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_173
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_275
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_278
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_34
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_745
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_745
+
+LBB0_34:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1197:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1199
+
+LBB0_1198:
+	LONG $0x3204be0f         // movsx    eax, byte [rdx + rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1198
+
+LBB0_1199:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1200:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
+	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
+	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
+	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1200
+	JMP  LBB0_1553
+
+LBB0_35:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_85
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_1553
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_114
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_178
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_281
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_284
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_454
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_918
+
+LBB0_45:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_121
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_183
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_287
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_290
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_457
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1024
+
+LBB0_53:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_128
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_188
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_293
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_296
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_460
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1029
+
+LBB0_61:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_135
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_193
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_299
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_302
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_463
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1034
+
+LBB0_69:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_142
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_198
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_305
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_308
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_466
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1039
+
+LBB0_77:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_149
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_203
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_311
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_314
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_84
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_748
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_748
+
+LBB0_84:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1205:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1207
+
+LBB0_1206:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1206
+
+LBB0_1207:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1208:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1208
+	JMP  LBB0_1553
+
+LBB0_85:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_156
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_208
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_317
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_320
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_92
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_751
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_751
+
+LBB0_92:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1213:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1215
+
+LBB0_1214:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1214
+
+LBB0_1215:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1216:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1216
+	JMP  LBB0_1553
+
+LBB0_93:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_213
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_323
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_326
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_475
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1044
+
+LBB0_100:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_218
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_329
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_332
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_106
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_754
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_754
+
+LBB0_106:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1221:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x07e78348         // and    rdi, 7
+	JE   LBB0_1223
+
+LBB0_1222:
+	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
+	LONG $0xf11c8948 // mov    qword [rcx + 8*rsi], rbx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1222
+
+LBB0_1223:
+	LONG $0x07f88348 // cmp    rax, 7
+	JB   LBB0_1553
+
+LBB0_1224:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0xf2448b48; BYTE $0x20 // mov    rax, qword [rdx + 8*rsi + 32]
+	LONG $0xf1448948; BYTE $0x20 // mov    qword [rcx + 8*rsi + 32], rax
+	LONG $0xf2448b48; BYTE $0x28 // mov    rax, qword [rdx + 8*rsi + 40]
+	LONG $0xf1448948; BYTE $0x28 // mov    qword [rcx + 8*rsi + 40], rax
+	LONG $0xf2448b48; BYTE $0x30 // mov    rax, qword [rdx + 8*rsi + 48]
+	LONG $0xf1448948; BYTE $0x30 // mov    qword [rcx + 8*rsi + 48], rax
+	LONG $0xf2448b48; BYTE $0x38 // mov    rax, qword [rdx + 8*rsi + 56]
+	LONG $0xf1448948; BYTE $0x38 // mov    qword [rcx + 8*rsi + 56], rax
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1224
+	JMP  LBB0_1553
+
+LBB0_107:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_223
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_335
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_338
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_113
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_757
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_757
+
+LBB0_113:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1229:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1231
+
+LBB0_1230:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	LONG $0xc02adbc5             // vcvtsi2sd    xmm0, xmm4, eax
+	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1230
+
+LBB0_1231:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1232:
+	LONG $0x3204be0f               // movsx    eax, byte [rdx + rsi]
+	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
+	LONG $0x0411fbc5; BYTE $0xf1   // vmovsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x3244be0f; BYTE $0x01   // movsx    eax, byte [rdx + rsi + 1]
+	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
+	LONG $0x4411fbc5; WORD $0x08f1 // vmovsd    qword [rcx + 8*rsi + 8], xmm0
+	LONG $0x3244be0f; BYTE $0x02   // movsx    eax, byte [rdx + rsi + 2]
+	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
+	LONG $0x4411fbc5; WORD $0x10f1 // vmovsd    qword [rcx + 8*rsi + 16], xmm0
+	LONG $0x3244be0f; BYTE $0x03   // movsx    eax, byte [rdx + rsi + 3]
+	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
+	LONG $0x4411fbc5; WORD $0x18f1 // vmovsd    qword [rcx + 8*rsi + 24], xmm0
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1232
+	JMP  LBB0_1553
+
+LBB0_114:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_228
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_341
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_344
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_484
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_923
+
+LBB0_121:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_233
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_347
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_350
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_487
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1049
+
+LBB0_128:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_238
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_353
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_356
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_490
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1054
+
+LBB0_135:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_243
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_359
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_362
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_493
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1059
+
+LBB0_142:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_248
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_365
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_368
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_496
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1064
+
+LBB0_149:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_253
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_371
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_374
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_155
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_760
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_760
+
+LBB0_155:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1237:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1239
+
+LBB0_1238:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	LONG $0xc02adbc5             // vcvtsi2sd    xmm0, xmm4, eax
+	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1238
+
+LBB0_1239:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1240:
+	LONG $0x3204b60f               // movzx    eax, byte [rdx + rsi]
+	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
+	LONG $0x0411fbc5; BYTE $0xf1   // vmovsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x3244b60f; BYTE $0x01   // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
+	LONG $0x4411fbc5; WORD $0x08f1 // vmovsd    qword [rcx + 8*rsi + 8], xmm0
+	LONG $0x3244b60f; BYTE $0x02   // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
+	LONG $0x4411fbc5; WORD $0x10f1 // vmovsd    qword [rcx + 8*rsi + 16], xmm0
+	LONG $0x3244b60f; BYTE $0x03   // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0xc02adbc5               // vcvtsi2sd    xmm0, xmm4, eax
+	LONG $0x4411fbc5; WORD $0x18f1 // vmovsd    qword [rcx + 8*rsi + 24], xmm0
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1240
+	JMP  LBB0_1553
+
+LBB0_156:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_258
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_377
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_380
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_502
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_929
+
+LBB0_163:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_383
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_167
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_763
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_763
+
+LBB0_167:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1245:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1247
+
+LBB0_1246:
+	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1246
+
+LBB0_1247:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1248:
+	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1248
+	JMP  LBB0_1553
+
+LBB0_168:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_386
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_172
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_766
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_766
+
+LBB0_172:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1253:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1255
+
+LBB0_1254:
+	LONG $0x1c2cfbc5; BYTE $0xf2 // vcvttsd2si    ebx, qword [rdx + 8*rsi]
+	WORD $0x1c88; BYTE $0x31     // mov    byte [rcx + rsi], bl
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1254
+
+LBB0_1255:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1553
+
+LBB0_1256:
+	LONG $0x042cfbc5; BYTE $0xf2   // vcvttsd2si    eax, qword [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
+	LONG $0x442cfbc5; WORD $0x08f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 8]
+	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
+	LONG $0x442cfbc5; WORD $0x10f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 16]
+	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
+	LONG $0x442cfbc5; WORD $0x18f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 24]
+	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1256
+	JMP  LBB0_1553
+
+LBB0_173:
+	WORD $0xfe83; BYTE $0x02                   // cmp    esi, 2
+	JE   LBB0_389
+	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
+	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
+	JB   LBB0_177
+	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB0_769
+	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB0_769
+
+LBB0_177:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1261:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1263
+
+LBB0_1262:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1262
+
+LBB0_1263:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1264:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1264
+	JMP  LBB0_1553
+
+LBB0_178:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_392
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_182
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_772
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_772
+
+LBB0_182:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1269:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1271
+
+LBB0_1270:
+	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1270
+
+LBB0_1271:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1272:
+	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1272
+	JMP  LBB0_1553
+
+LBB0_183:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_395
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x40f88341         // cmp    r8d, 64
+	JB   LBB0_187
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_775
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_775
+
+LBB0_187:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1277:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1279
+
+LBB0_1278:
+	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1278
+
+LBB0_1279:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1280:
+	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1280
+	JMP  LBB0_1553
+
+LBB0_188:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_398
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x40f88341         // cmp    r8d, 64
+	JB   LBB0_192
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_778
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_778
+
+LBB0_192:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1285:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1287
+
+LBB0_1286:
+	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1286
+
+LBB0_1287:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1288:
+	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1288
+	JMP  LBB0_1553
+
+LBB0_193:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_401
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_197
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_781
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_781
+
+LBB0_197:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1293:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1295
+
+LBB0_1294:
+	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1294
+
+LBB0_1295:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1296:
+	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1296
+	JMP  LBB0_1553
+
+LBB0_198:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_404
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_202
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_784
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_784
+
+LBB0_202:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1301:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1303
+
+LBB0_1302:
+	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1302
+
+LBB0_1303:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1304:
+	LONG $0x042cfac5; BYTE $0xb2   // vcvttss2si    eax, dword [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
+	LONG $0x442cfac5; WORD $0x04b2 // vcvttss2si    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
+	LONG $0x442cfac5; WORD $0x08b2 // vcvttss2si    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
+	LONG $0x442cfac5; WORD $0x0cb2 // vcvttss2si    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1304
+	JMP  LBB0_1553
+
+LBB0_203:
+	WORD $0xfe83; BYTE $0x02                   // cmp    esi, 2
+	JE   LBB0_407
+	WORD $0xfe83; BYTE $0x03                   // cmp    esi, 3
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
+	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
+	JB   LBB0_207
+	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB0_787
+	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB0_787
+
+LBB0_207:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1309:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1311
+
+LBB0_1310:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1310
+
+LBB0_1311:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1312:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1312
+	JMP  LBB0_1553
+
+LBB0_208:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_410
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_212
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_790
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_790
+
+LBB0_212:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1317:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1319
+
+LBB0_1318:
+	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1318
+
+LBB0_1319:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1320:
+	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1320
+	JMP  LBB0_1553
+
+LBB0_213:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_413
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_535
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_934
+
+LBB0_218:
+	WORD $0xfe83; BYTE $0x07               // cmp    esi, 7
+	JE   LBB0_416
+	WORD $0xfe83; BYTE $0x08               // cmp    esi, 8
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0               // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1               // mov    r9d, r8d
+	QUAD $0x000000000000bb49; WORD $0x8000 // mov    r11, -9223372036854775808
+	LONG $0x04f88341                       // cmp    r8d, 4
+	JAE  LBB0_538
+	WORD $0x3145; BYTE $0xf6               // xor    r14d, r14d
+	JMP  LBB0_799
+
+LBB0_223:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_419
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_227
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_801
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_801
+
+LBB0_227:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1325:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1327
+
+LBB0_1326:
+	LONG $0x04be0f48; BYTE $0x32 // movsx    rax, byte [rdx + rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1326
+
+LBB0_1327:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1328:
+	LONG $0x04be0f48; BYTE $0x32   // movsx    rax, byte [rdx + rsi]
+	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
+	LONG $0x44be0f48; WORD $0x0132 // movsx    rax, byte [rdx + rsi + 1]
+	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0x44be0f48; WORD $0x0232 // movsx    rax, byte [rdx + rsi + 2]
+	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0x44be0f48; WORD $0x0332 // movsx    rax, byte [rdx + rsi + 3]
+	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1328
+	JMP  LBB0_1553
+
+LBB0_228:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_422
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_232
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_804
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_804
+
+LBB0_232:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1333:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1335
+
+LBB0_1334:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1334
+
+LBB0_1335:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1336:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1336
+	JMP  LBB0_1553
+
+LBB0_233:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_425
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_546
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_939
+
+LBB0_238:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_428
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_549
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_944
+
+LBB0_243:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_431
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_247
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_807
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_807
+
+LBB0_247:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1341:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1343
+
+LBB0_1342:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1342
+
+LBB0_1343:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1344:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1344
+	JMP  LBB0_1553
+
+LBB0_248:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_434
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_555
+	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
+	JMP  LBB0_816
+
+LBB0_253:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_437
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_257
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_818
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_818
+
+LBB0_257:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1349:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1351
+
+LBB0_1350:
+	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1350
+
+LBB0_1351:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1352:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1352
+	JMP  LBB0_1553
+
+LBB0_258:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_440
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1553
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_560
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_949
+
+LBB0_263:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_563
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1069
+
+LBB0_266:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_566
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1074
+
+LBB0_269:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_569
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1079
+
+LBB0_272:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_572
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1084
+
+LBB0_275:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x40f88341         // cmp    r8d, 64
+	JB   LBB0_277
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_821
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_821
+
+LBB0_277:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1357:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1359
+
+LBB0_1358:
+	LONG $0x3204be0f // movsx    eax, byte [rdx + rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1358
+
+LBB0_1359:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1360:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1360
+	JMP  LBB0_1553
+
+LBB0_278:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x40f88341         // cmp    r8d, 64
+	JB   LBB0_280
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_824
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_824
+
+LBB0_280:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1365:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1367
+
+LBB0_1366:
+	LONG $0x3204be0f // movsx    eax, byte [rdx + rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1366
+
+LBB0_1367:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1368:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1368
+	JMP  LBB0_1553
+
+LBB0_281:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_581
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_954
+
+LBB0_284:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_584
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_959
+
+LBB0_287:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_289
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_827
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_827
+
+LBB0_289:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1151:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1153
+
+LBB0_1152:
+	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1152
+
+LBB0_1153:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1154:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1154
+	JMP  LBB0_1553
+
+LBB0_290:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_292
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_829
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_829
+
+LBB0_292:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1161:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1163
+
+LBB0_1162:
+	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1162
+
+LBB0_1163:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1164:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1164
+	JMP  LBB0_1553
+
+LBB0_293:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_295
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_831
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_831
+
+LBB0_295:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1171:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1173
+
+LBB0_1172:
+	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1172
+
+LBB0_1173:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1174:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1174
+	JMP  LBB0_1553
+
+LBB0_296:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_298
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_833
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_833
+
+LBB0_298:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1181:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1183
+
+LBB0_1182:
+	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1182
+
+LBB0_1183:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1184:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1184
+	JMP  LBB0_1553
+
+LBB0_299:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_599
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_964
+
+LBB0_302:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_602
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1089
+
+LBB0_305:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_605
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1094
+
+LBB0_308:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_608
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1099
+
+LBB0_311:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x40f88341         // cmp    r8d, 64
+	JB   LBB0_313
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_835
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_835
+
+LBB0_313:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1373:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1375
+
+LBB0_1374:
+	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1374
+
+LBB0_1375:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1376:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1376
+	JMP  LBB0_1553
+
+LBB0_314:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x40f88341         // cmp    r8d, 64
+	JB   LBB0_316
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_838
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_838
+
+LBB0_316:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1381:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1383
+
+LBB0_1382:
+	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1382
+
+LBB0_1383:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1384:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1384
+	JMP  LBB0_1553
+
+LBB0_317:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_617
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_969
+
+LBB0_320:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_620
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_974
+
+LBB0_323:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_623
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1104
+
+LBB0_326:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_626
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1109
+
+LBB0_329:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_629
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1114
+
+LBB0_332:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_632
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1119
+
+LBB0_335:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_337
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_841
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_841
+
+LBB0_337:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1389:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1391
+
+LBB0_1390:
+	LONG $0x04be0f48; BYTE $0x32 // movsx    rax, byte [rdx + rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1390
+
+LBB0_1391:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1392:
+	LONG $0x04be0f48; BYTE $0x32   // movsx    rax, byte [rdx + rsi]
+	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
+	LONG $0x44be0f48; WORD $0x0132 // movsx    rax, byte [rdx + rsi + 1]
+	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0x44be0f48; WORD $0x0232 // movsx    rax, byte [rdx + rsi + 2]
+	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0x44be0f48; WORD $0x0332 // movsx    rax, byte [rdx + rsi + 3]
+	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1392
+	JMP  LBB0_1553
+
+LBB0_338:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_340
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_844
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_844
+
+LBB0_340:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1397:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1399
+
+LBB0_1398:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	LONG $0xc02adac5             // vcvtsi2ss    xmm0, xmm4, eax
+	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1398
+
+LBB0_1399:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1400:
+	LONG $0x3204be0f               // movsx    eax, byte [rdx + rsi]
+	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
+	LONG $0x0411fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm0
+	LONG $0x3244be0f; BYTE $0x01   // movsx    eax, byte [rdx + rsi + 1]
+	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
+	LONG $0x4411fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm0
+	LONG $0x3244be0f; BYTE $0x02   // movsx    eax, byte [rdx + rsi + 2]
+	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
+	LONG $0x4411fac5; WORD $0x08b1 // vmovss    dword [rcx + 4*rsi + 8], xmm0
+	LONG $0x3244be0f; BYTE $0x03   // movsx    eax, byte [rdx + rsi + 3]
+	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
+	LONG $0x4411fac5; WORD $0x0cb1 // vmovss    dword [rcx + 4*rsi + 12], xmm0
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1400
+	JMP  LBB0_1553
+
+LBB0_341:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_343
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_847
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_847
+
+LBB0_343:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1405:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1407
+
+LBB0_1406:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1406
+
+LBB0_1407:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1408:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1408
+	JMP  LBB0_1553
+
+LBB0_344:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_644
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_858
+
+LBB0_347:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_646
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_979
+
+LBB0_350:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_649
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1124
+
+LBB0_353:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_652
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1129
+
+LBB0_356:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_655
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1134
+
+LBB0_359:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_361
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_860
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_860
+
+LBB0_361:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1413:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1415
+
+LBB0_1414:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1414
+
+LBB0_1415:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1416:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1416
+	JMP  LBB0_1553
+
+LBB0_362:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_661
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1139
+
+LBB0_365:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_664
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1144
+
+LBB0_368:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_370
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_863
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_863
+
+LBB0_370:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1421:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x07e78348         // and    rdi, 7
+	JE   LBB0_1423
+
+LBB0_1422:
+	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
+	WORD $0x1c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1422
+
+LBB0_1423:
+	LONG $0x07f88348 // cmp    rax, 7
+	JB   LBB0_1553
+
+LBB0_1424:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x10b2448b         // mov    eax, dword [rdx + 4*rsi + 16]
+	LONG $0x10b14489         // mov    dword [rcx + 4*rsi + 16], eax
+	LONG $0x14b2448b         // mov    eax, dword [rdx + 4*rsi + 20]
+	LONG $0x14b14489         // mov    dword [rcx + 4*rsi + 20], eax
+	LONG $0x18b2448b         // mov    eax, dword [rdx + 4*rsi + 24]
+	LONG $0x18b14489         // mov    dword [rcx + 4*rsi + 24], eax
+	LONG $0x1cb2448b         // mov    eax, dword [rdx + 4*rsi + 28]
+	LONG $0x1cb14489         // mov    dword [rcx + 4*rsi + 28], eax
+	LONG $0x08c68348         // add    rsi, 8
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1424
+	JMP  LBB0_1553
+
+LBB0_371:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_373
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_866
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_866
+
+LBB0_373:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1429:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1431
+
+LBB0_1430:
+	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1430
+
+LBB0_1431:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1432:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1432
+	JMP  LBB0_1553
+
+LBB0_374:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_376
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_869
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_869
+
+LBB0_376:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1437:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1439
+
+LBB0_1438:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	LONG $0xc02adac5             // vcvtsi2ss    xmm0, xmm4, eax
+	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1438
+
+LBB0_1439:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1440:
+	LONG $0x3204b60f               // movzx    eax, byte [rdx + rsi]
+	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
+	LONG $0x0411fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm0
+	LONG $0x3244b60f; BYTE $0x01   // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
+	LONG $0x4411fac5; WORD $0x04b1 // vmovss    dword [rcx + 4*rsi + 4], xmm0
+	LONG $0x3244b60f; BYTE $0x02   // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
+	LONG $0x4411fac5; WORD $0x08b1 // vmovss    dword [rcx + 4*rsi + 8], xmm0
+	LONG $0x3244b60f; BYTE $0x03   // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0xc02adac5               // vcvtsi2ss    xmm0, xmm4, eax
+	LONG $0x4411fac5; WORD $0x0cb1 // vmovss    dword [rcx + 4*rsi + 12], xmm0
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1440
+	JMP  LBB0_1553
+
+LBB0_377:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_676
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_984
+
+LBB0_380:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_679
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_989
+
+LBB0_383:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_385
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_872
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_872
+
+LBB0_385:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1445:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1447
+
+LBB0_1446:
+	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1446
+
+LBB0_1447:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1448:
+	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1448
+	JMP  LBB0_1553
+
+LBB0_386:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_388
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_875
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_875
+
+LBB0_388:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1453:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xc8 // add    rax, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1455
+
+LBB0_1454:
+	LONG $0x1c2cfbc5; BYTE $0xf2 // vcvttsd2si    ebx, qword [rdx + 8*rsi]
+	WORD $0x1c88; BYTE $0x31     // mov    byte [rcx + rsi], bl
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1454
+
+LBB0_1455:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_1553
+
+LBB0_1456:
+	LONG $0x042cfbc5; BYTE $0xf2   // vcvttsd2si    eax, qword [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
+	LONG $0x442cfbc5; WORD $0x08f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 8]
+	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
+	LONG $0x442cfbc5; WORD $0x10f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 16]
+	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
+	LONG $0x442cfbc5; WORD $0x18f2 // vcvttsd2si    eax, qword [rdx + 8*rsi + 24]
+	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1456
+	JMP  LBB0_1553
+
+LBB0_389:
+	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
+	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
+	JB   LBB0_391
+	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB0_878
+	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB0_878
+
+LBB0_391:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1461:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1463
+
+LBB0_1462:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1462
+
+LBB0_1463:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1464:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1464
+	JMP  LBB0_1553
+
+LBB0_392:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_394
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_881
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_881
+
+LBB0_394:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1469:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1471
+
+LBB0_1470:
+	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1470
+
+LBB0_1471:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1472:
+	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1472
+	JMP  LBB0_1553
+
+LBB0_395:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x40f88341         // cmp    r8d, 64
+	JB   LBB0_397
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_884
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_884
+
+LBB0_397:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1477:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1479
+
+LBB0_1478:
+	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1478
+
+LBB0_1479:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1480:
+	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1480
+	JMP  LBB0_1553
+
+LBB0_398:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x40f88341         // cmp    r8d, 64
+	JB   LBB0_400
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_887
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_887
+
+LBB0_400:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1485:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1487
+
+LBB0_1486:
+	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1486
+
+LBB0_1487:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1488:
+	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1488
+	JMP  LBB0_1553
+
+LBB0_401:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_403
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_890
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_890
+
+LBB0_403:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1493:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1495
+
+LBB0_1494:
+	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1494
+
+LBB0_1495:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1496:
+	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1496
+	JMP  LBB0_1553
+
+LBB0_404:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_406
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_893
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_893
+
+LBB0_406:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1501:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1503
+
+LBB0_1502:
+	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1502
+
+LBB0_1503:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1504:
+	LONG $0x042cfac5; BYTE $0xb2   // vcvttss2si    eax, dword [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
+	LONG $0x442cfac5; WORD $0x04b2 // vcvttss2si    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
+	LONG $0x442cfac5; WORD $0x08b2 // vcvttss2si    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
+	LONG $0x442cfac5; WORD $0x0cb2 // vcvttss2si    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1504
+	JMP  LBB0_1553
+
+LBB0_407:
+	WORD $0x8545; BYTE $0xc0                   // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1                   // mov    r9d, r8d
+	LONG $0x80f88141; WORD $0x0000; BYTE $0x00 // cmp    r8d, 128
+	JB   LBB0_409
+	LONG $0x0a048d4a                           // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB0_896
+	LONG $0x09048d4a                           // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB0_896
+
+LBB0_409:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1509:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1511
+
+LBB0_1510:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1510
+
+LBB0_1511:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1512:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1512
+	JMP  LBB0_1553
+
+LBB0_410:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_412
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_899
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_899
+
+LBB0_412:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1517:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1519
+
+LBB0_1518:
+	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1518
+
+LBB0_1519:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1520:
+	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1520
+	JMP  LBB0_1553
+
+LBB0_413:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_415
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_902
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_902
+
+LBB0_415:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1525:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1527
+
+LBB0_1526:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1526
+
+LBB0_1527:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1528:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1528
+	JMP  LBB0_1553
+
+LBB0_416:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_715
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_994
+
+LBB0_419:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_421
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_905
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_905
+
+LBB0_421:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1533:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1535
+
+LBB0_1534:
+	LONG $0x3204be0f         // movsx    eax, byte [rdx + rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1534
+
+LBB0_1535:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1536:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
+	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
+	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
+	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1536
+	JMP  LBB0_1553
+
+LBB0_422:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_721
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_999
+
+LBB0_425:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_724
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1004
+
+LBB0_428:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_727
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1009
+
+LBB0_431:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JAE  LBB0_730
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1014
+
+LBB0_434:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JAE  LBB0_733
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1019
+
+LBB0_437:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_439
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_908
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_908
+
+LBB0_439:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1541:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1543
+
+LBB0_1542:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1542
+
+LBB0_1543:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1544:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1544
+	JMP  LBB0_1553
+
+LBB0_440:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1553
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_442
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_911
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_911
+
+LBB0_442:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1549:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1551
+
+LBB0_1550:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1550
+
+LBB0_1551:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1553
+
+LBB0_1552:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1552
+	JMP  LBB0_1553
+
+LBB0_446:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_447:
+	LONG $0x2cfbe1c4; WORD $0xfa1c             // vcvttsd2si    rbx, qword [rdx + 8*rdi]
+	WORD $0x1c89; BYTE $0xb9                   // mov    dword [rcx + 4*rdi], ebx
+	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x08 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 8]
+	LONG $0x04b95c89                           // mov    dword [rcx + 4*rdi + 4], ebx
+	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x10 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 16]
+	LONG $0x08b95c89                           // mov    dword [rcx + 4*rdi + 8], ebx
+	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x18 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 24]
+	LONG $0x0cb95c89                           // mov    dword [rcx + 4*rdi + 12], ebx
+	LONG $0x04c78348                           // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_447
+
+LBB0_448:
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1553
+	LONG $0xb90c8d48         // lea    rcx, [rcx + 4*rdi]
+	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_450:
+	LONG $0x2cfbe1c4; WORD $0xf23c // vcvttsd2si    rdi, qword [rdx + 8*rsi]
+	WORD $0x3c89; BYTE $0xb1       // mov    dword [rcx + 4*rsi], edi
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
+	JNE  LBB0_450
+	JMP  LBB0_1553
+
+LBB0_454:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_914
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_456:
+	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
+	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
+	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
+	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
+	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
+	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
+	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
+	QUAD $0x000080fa8410f8c5; BYTE $0x00       // vmovups    xmm0, oword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8c10f8c5; BYTE $0x00       // vmovups    xmm1, oword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9410f8c5; BYTE $0x00       // vmovups    xmm2, oword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9c10f8c5; BYTE $0x00       // vmovups    xmm3, oword [rdx + 8*rdi + 224]
+	QUAD $0x000090fa84c6f8c5; WORD $0x8800     // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 144], 136
+	QUAD $0x0000b0fa8cc6f0c5; WORD $0x8800     // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 176], 136
+	QUAD $0x0000d0fa94c6e8c5; WORD $0x8800     // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 208], 136
+	QUAD $0x0000f0fa9cc6e0c5; WORD $0x8800     // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 240], 136
+	LONG $0x4411f8c5; WORD $0x40b9             // vmovups    oword [rcx + 4*rdi + 64], xmm0
+	LONG $0x4c11f8c5; WORD $0x50b9             // vmovups    oword [rcx + 4*rdi + 80], xmm1
+	LONG $0x5411f8c5; WORD $0x60b9             // vmovups    oword [rcx + 4*rdi + 96], xmm2
+	LONG $0x5c11f8c5; WORD $0x70b9             // vmovups    oword [rcx + 4*rdi + 112], xmm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_456
+	JMP  LBB0_915
+
+LBB0_457:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1020
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_459:
+	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
+	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x337de2c4; WORD $0x7a44; BYTE $0x40 // vpmovzxwd    ymm0, oword [rdx + 2*rdi + 64]
+	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 80]
+	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x60 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 96]
+	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 112]
+	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_459
+	JMP  LBB0_1021
+
+LBB0_460:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1025
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_462:
+	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
+	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x237de2c4; WORD $0x7a44; BYTE $0x40 // vpmovsxwd    ymm0, oword [rdx + 2*rdi + 64]
+	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 80]
+	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x60 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 96]
+	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 112]
+	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_462
+	JMP  LBB0_1026
+
+LBB0_463:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1030
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_465:
+	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
+	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
+	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
+	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
+	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
+	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
+	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
+	QUAD $0x000080fa8410f8c5; BYTE $0x00       // vmovups    xmm0, oword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8c10f8c5; BYTE $0x00       // vmovups    xmm1, oword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9410f8c5; BYTE $0x00       // vmovups    xmm2, oword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9c10f8c5; BYTE $0x00       // vmovups    xmm3, oword [rdx + 8*rdi + 224]
+	QUAD $0x000090fa84c6f8c5; WORD $0x8800     // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 144], 136
+	QUAD $0x0000b0fa8cc6f0c5; WORD $0x8800     // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 176], 136
+	QUAD $0x0000d0fa94c6e8c5; WORD $0x8800     // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 208], 136
+	QUAD $0x0000f0fa9cc6e0c5; WORD $0x8800     // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 240], 136
+	LONG $0x4411f8c5; WORD $0x40b9             // vmovups    oword [rcx + 4*rdi + 64], xmm0
+	LONG $0x4c11f8c5; WORD $0x50b9             // vmovups    oword [rcx + 4*rdi + 80], xmm1
+	LONG $0x5411f8c5; WORD $0x60b9             // vmovups    oword [rcx + 4*rdi + 96], xmm2
+	LONG $0x5c11f8c5; WORD $0x70b9             // vmovups    oword [rcx + 4*rdi + 112], xmm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_465
+	JMP  LBB0_1031
+
+LBB0_466:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0       // and    esi, -16
+	LONG $0xf0468d48               // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
+	LONG $0x04e8c149               // shr    r8, 4
+	LONG $0x01c08349               // add    r8, 1
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	JE   LBB0_1035
+	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
+	LONG $0xfee08348               // and    rax, -2
+	WORD $0xf748; BYTE $0xd8       // neg    rax
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x1879e2c4; WORD $0x2c45 // vbroadcastss    xmm0, dword 44[rbp] /* [rip + .LCPI0_2] */
+	LONG $0x1879e2c4; WORD $0x304d // vbroadcastss    xmm1, dword 48[rbp] /* [rip + .LCPI0_3] */
+
+LBB0_468:
+	LONG $0x1410f8c5; BYTE $0xba   // vmovups    xmm2, oword [rdx + 4*rdi]
+	LONG $0x5c10f8c5; WORD $0x10ba // vmovups    xmm3, oword [rdx + 4*rdi + 16]
+	LONG $0x6410f8c5; WORD $0x20ba // vmovups    xmm4, oword [rdx + 4*rdi + 32]
+	LONG $0xe8c2e8c5; BYTE $0x01   // vcmpltps    xmm5, xmm2, xmm0
+	LONG $0xf05ce8c5               // vsubps    xmm6, xmm2, xmm0
+	LONG $0xf65bfac5               // vcvttps2dq    xmm6, xmm6
+	LONG $0xf157c8c5               // vxorps    xmm6, xmm6, xmm1
+	LONG $0xd25bfac5               // vcvttps2dq    xmm2, xmm2
+	LONG $0x4a49e3c4; WORD $0x50d2 // vblendvps    xmm2, xmm6, xmm2, xmm5
+	LONG $0x6c10f8c5; WORD $0x30ba // vmovups    xmm5, oword [rdx + 4*rdi + 48]
+	LONG $0xf0c2e0c5; BYTE $0x01   // vcmpltps    xmm6, xmm3, xmm0
+	LONG $0xf85ce0c5               // vsubps    xmm7, xmm3, xmm0
+	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
+	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
+	LONG $0xdb5bfac5               // vcvttps2dq    xmm3, xmm3
+	LONG $0x4a41e3c4; WORD $0x60db // vblendvps    xmm3, xmm7, xmm3, xmm6
+	LONG $0xf0c2d8c5; BYTE $0x01   // vcmpltps    xmm6, xmm4, xmm0
+	LONG $0xf85cd8c5               // vsubps    xmm7, xmm4, xmm0
+	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
+	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
+	LONG $0xe45bfac5               // vcvttps2dq    xmm4, xmm4
+	LONG $0x4a41e3c4; WORD $0x60e4 // vblendvps    xmm4, xmm7, xmm4, xmm6
+	LONG $0xf0c2d0c5; BYTE $0x01   // vcmpltps    xmm6, xmm5, xmm0
+	LONG $0xf85cd0c5               // vsubps    xmm7, xmm5, xmm0
+	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
+	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
+	LONG $0xed5bfac5               // vcvttps2dq    xmm5, xmm5
+	LONG $0x4a41e3c4; WORD $0x60ed // vblendvps    xmm5, xmm7, xmm5, xmm6
+	LONG $0x1411f8c5; BYTE $0xb9   // vmovups    oword [rcx + 4*rdi], xmm2
+	LONG $0x5c11f8c5; WORD $0x10b9 // vmovups    oword [rcx + 4*rdi + 16], xmm3
+	LONG $0x6411f8c5; WORD $0x20b9 // vmovups    oword [rcx + 4*rdi + 32], xmm4
+	LONG $0x6c11f8c5; WORD $0x30b9 // vmovups    oword [rcx + 4*rdi + 48], xmm5
+	LONG $0x5410f8c5; WORD $0x40ba // vmovups    xmm2, oword [rdx + 4*rdi + 64]
+	LONG $0x5c10f8c5; WORD $0x50ba // vmovups    xmm3, oword [rdx + 4*rdi + 80]
+	LONG $0x6410f8c5; WORD $0x60ba // vmovups    xmm4, oword [rdx + 4*rdi + 96]
+	LONG $0xe8c2e8c5; BYTE $0x01   // vcmpltps    xmm5, xmm2, xmm0
+	LONG $0xf05ce8c5               // vsubps    xmm6, xmm2, xmm0
+	LONG $0xf65bfac5               // vcvttps2dq    xmm6, xmm6
+	LONG $0xf157c8c5               // vxorps    xmm6, xmm6, xmm1
+	LONG $0xd25bfac5               // vcvttps2dq    xmm2, xmm2
+	LONG $0x4a49e3c4; WORD $0x50d2 // vblendvps    xmm2, xmm6, xmm2, xmm5
+	LONG $0x6c10f8c5; WORD $0x70ba // vmovups    xmm5, oword [rdx + 4*rdi + 112]
+	LONG $0xf0c2e0c5; BYTE $0x01   // vcmpltps    xmm6, xmm3, xmm0
+	LONG $0xf85ce0c5               // vsubps    xmm7, xmm3, xmm0
+	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
+	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
+	LONG $0xdb5bfac5               // vcvttps2dq    xmm3, xmm3
+	LONG $0x4a41e3c4; WORD $0x60db // vblendvps    xmm3, xmm7, xmm3, xmm6
+	LONG $0xf0c2d8c5; BYTE $0x01   // vcmpltps    xmm6, xmm4, xmm0
+	LONG $0xf85cd8c5               // vsubps    xmm7, xmm4, xmm0
+	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
+	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
+	LONG $0xe45bfac5               // vcvttps2dq    xmm4, xmm4
+	LONG $0x4a41e3c4; WORD $0x60e4 // vblendvps    xmm4, xmm7, xmm4, xmm6
+	LONG $0xf0c2d0c5; BYTE $0x01   // vcmpltps    xmm6, xmm5, xmm0
+	LONG $0xf85cd0c5               // vsubps    xmm7, xmm5, xmm0
+	LONG $0xff5bfac5               // vcvttps2dq    xmm7, xmm7
+	LONG $0xf957c0c5               // vxorps    xmm7, xmm7, xmm1
+	LONG $0xed5bfac5               // vcvttps2dq    xmm5, xmm5
+	LONG $0x4a41e3c4; WORD $0x60ed // vblendvps    xmm5, xmm7, xmm5, xmm6
+	LONG $0x5411f8c5; WORD $0x40b9 // vmovups    oword [rcx + 4*rdi + 64], xmm2
+	LONG $0x5c11f8c5; WORD $0x50b9 // vmovups    oword [rcx + 4*rdi + 80], xmm3
+	LONG $0x6411f8c5; WORD $0x60b9 // vmovups    oword [rcx + 4*rdi + 96], xmm4
+	LONG $0x6c11f8c5; WORD $0x70b9 // vmovups    oword [rcx + 4*rdi + 112], xmm5
+	LONG $0x20c78348               // add    rdi, 32
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_468
+	JMP  LBB0_1036
+
+LBB0_475:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0       // and    esi, -16
+	LONG $0xf0468d48               // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
+	LONG $0x04e8c149               // shr    r8, 4
+	LONG $0x01c08349               // add    r8, 1
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	JE   LBB0_1040
+	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
+	LONG $0xfee08348               // and    rax, -2
+	WORD $0xf748; BYTE $0xd8       // neg    rax
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x597de2c4; WORD $0x0845 // vpbroadcastq    ymm0, qword 8[rbp] /* [rip + .LCPI0_5] */
+
+LBB0_477:
+	LONG $0x357de2c4; WORD $0xba0c             // vpmovzxdq    ymm1, oword [rdx + 4*rdi]
+	LONG $0x357de2c4; WORD $0xba54; BYTE $0x10 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 16]
+	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x20 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 32]
+	LONG $0x357de2c4; WORD $0xba64; BYTE $0x30 // vpmovzxdq    ymm4, oword [rdx + 4*rdi + 48]
+	LONG $0xc8ebf5c5                           // vpor    ymm1, ymm1, ymm0
+	LONG $0xc85cf5c5                           // vsubpd    ymm1, ymm1, ymm0
+	LONG $0xd0ebedc5                           // vpor    ymm2, ymm2, ymm0
+	LONG $0xd05cedc5                           // vsubpd    ymm2, ymm2, ymm0
+	LONG $0xd8ebe5c5                           // vpor    ymm3, ymm3, ymm0
+	LONG $0xd85ce5c5                           // vsubpd    ymm3, ymm3, ymm0
+	LONG $0xe0ebddc5                           // vpor    ymm4, ymm4, ymm0
+	LONG $0xe05cddc5                           // vsubpd    ymm4, ymm4, ymm0
+	LONG $0x0c11fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm1
+	LONG $0x5411fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm2
+	LONG $0x5c11fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm3
+	LONG $0x6411fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm4
+	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x40 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 64]
+	LONG $0x357de2c4; WORD $0xba54; BYTE $0x50 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 80]
+	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x60 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 96]
+	LONG $0x357de2c4; WORD $0xba64; BYTE $0x70 // vpmovzxdq    ymm4, oword [rdx + 4*rdi + 112]
+	LONG $0xc8ebf5c5                           // vpor    ymm1, ymm1, ymm0
+	LONG $0xc85cf5c5                           // vsubpd    ymm1, ymm1, ymm0
+	LONG $0xd0ebedc5                           // vpor    ymm2, ymm2, ymm0
+	LONG $0xd05cedc5                           // vsubpd    ymm2, ymm2, ymm0
+	LONG $0xd8ebe5c5                           // vpor    ymm3, ymm3, ymm0
+	LONG $0xd85ce5c5                           // vsubpd    ymm3, ymm3, ymm0
+	LONG $0xe0ebddc5                           // vpor    ymm4, ymm4, ymm0
+	LONG $0xe05cddc5                           // vsubpd    ymm4, ymm4, ymm0
+	QUAD $0x000080f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm1
+	QUAD $0x0000a0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm2
+	QUAD $0x0000c0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm3
+	QUAD $0x0000e0f9a411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_477
+	JMP  LBB0_1041
+
+LBB0_484:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0       // and    esi, -16
+	LONG $0xf0468d48               // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
+	LONG $0x04e8c149               // shr    r8, 4
+	LONG $0x01c08349               // add    r8, 1
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	JE   LBB0_919
+	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
+	LONG $0xfee08348               // and    rax, -2
+	WORD $0xf748; BYTE $0xd8       // neg    rax
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x597de2c4; WORD $0x0845 // vpbroadcastq    ymm0, qword 8[rbp] /* [rip + .LCPI0_5] */
+	LONG $0xc9eff1c5               // vpxor    xmm1, xmm1, xmm1
+	LONG $0x597de2c4; WORD $0x1055 // vpbroadcastq    ymm2, qword 16[rbp] /* [rip + .LCPI0_6] */
+	LONG $0x197de2c4; WORD $0x185d // vbroadcastsd    ymm3, qword 24[rbp] /* [rip + .LCPI0_7] */
+
+LBB0_486:
+	LONG $0x246ffec5; BYTE $0xfa         // vmovdqu    ymm4, yword [rdx + 8*rdi]
+	LONG $0x6c6ffec5; WORD $0x20fa       // vmovdqu    ymm5, yword [rdx + 8*rdi + 32]
+	LONG $0x746ffec5; WORD $0x40fa       // vmovdqu    ymm6, yword [rdx + 8*rdi + 64]
+	LONG $0x7c6ffec5; WORD $0x60fa       // vmovdqu    ymm7, yword [rdx + 8*rdi + 96]
+	LONG $0x025d63c4; WORD $0xaac1       // vpblendd    ymm8, ymm4, ymm1, 170
+	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
+	LONG $0xd473ddc5; BYTE $0x20         // vpsrlq    ymm4, ymm4, 32
+	LONG $0xe2ebddc5                     // vpor    ymm4, ymm4, ymm2
+	LONG $0xe35cddc5                     // vsubpd    ymm4, ymm4, ymm3
+	LONG $0xe458bdc5                     // vaddpd    ymm4, ymm8, ymm4
+	LONG $0x025563c4; WORD $0xaac1       // vpblendd    ymm8, ymm5, ymm1, 170
+	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
+	LONG $0xd573d5c5; BYTE $0x20         // vpsrlq    ymm5, ymm5, 32
+	LONG $0xeaebd5c5                     // vpor    ymm5, ymm5, ymm2
+	LONG $0xeb5cd5c5                     // vsubpd    ymm5, ymm5, ymm3
+	LONG $0xed58bdc5                     // vaddpd    ymm5, ymm8, ymm5
+	LONG $0x024d63c4; WORD $0xaac1       // vpblendd    ymm8, ymm6, ymm1, 170
+	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
+	LONG $0xd673cdc5; BYTE $0x20         // vpsrlq    ymm6, ymm6, 32
+	LONG $0xf2ebcdc5                     // vpor    ymm6, ymm6, ymm2
+	LONG $0xf35ccdc5                     // vsubpd    ymm6, ymm6, ymm3
+	LONG $0xf658bdc5                     // vaddpd    ymm6, ymm8, ymm6
+	LONG $0x024563c4; WORD $0xaac1       // vpblendd    ymm8, ymm7, ymm1, 170
+	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
+	LONG $0xd773c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm7, 32
+	LONG $0xfaebc5c5                     // vpor    ymm7, ymm7, ymm2
+	LONG $0xfb5cc5c5                     // vsubpd    ymm7, ymm7, ymm3
+	LONG $0xff58bdc5                     // vaddpd    ymm7, ymm8, ymm7
+	LONG $0x2411fdc5; BYTE $0xf9         // vmovupd    yword [rcx + 8*rdi], ymm4
+	LONG $0x6c11fdc5; WORD $0x20f9       // vmovupd    yword [rcx + 8*rdi + 32], ymm5
+	LONG $0x7411fdc5; WORD $0x40f9       // vmovupd    yword [rcx + 8*rdi + 64], ymm6
+	LONG $0x7c11fdc5; WORD $0x60f9       // vmovupd    yword [rcx + 8*rdi + 96], ymm7
+	QUAD $0x000080faa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0faac6ffec5; BYTE $0x00 // vmovdqu    ymm5, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fab46ffec5; BYTE $0x00 // vmovdqu    ymm6, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fabc6ffec5; BYTE $0x00 // vmovdqu    ymm7, yword [rdx + 8*rdi + 224]
+	LONG $0x025d63c4; WORD $0xaac1       // vpblendd    ymm8, ymm4, ymm1, 170
+	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
+	LONG $0xd473ddc5; BYTE $0x20         // vpsrlq    ymm4, ymm4, 32
+	LONG $0xe2ebddc5                     // vpor    ymm4, ymm4, ymm2
+	LONG $0xe35cddc5                     // vsubpd    ymm4, ymm4, ymm3
+	LONG $0xe458bdc5                     // vaddpd    ymm4, ymm8, ymm4
+	LONG $0x025563c4; WORD $0xaac1       // vpblendd    ymm8, ymm5, ymm1, 170
+	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
+	LONG $0xd573d5c5; BYTE $0x20         // vpsrlq    ymm5, ymm5, 32
+	LONG $0xeaebd5c5                     // vpor    ymm5, ymm5, ymm2
+	LONG $0xeb5cd5c5                     // vsubpd    ymm5, ymm5, ymm3
+	LONG $0xed58bdc5                     // vaddpd    ymm5, ymm8, ymm5
+	LONG $0x024d63c4; WORD $0xaac1       // vpblendd    ymm8, ymm6, ymm1, 170
+	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
+	LONG $0xd673cdc5; BYTE $0x20         // vpsrlq    ymm6, ymm6, 32
+	LONG $0xf2ebcdc5                     // vpor    ymm6, ymm6, ymm2
+	LONG $0xf35ccdc5                     // vsubpd    ymm6, ymm6, ymm3
+	LONG $0xf658bdc5                     // vaddpd    ymm6, ymm8, ymm6
+	LONG $0x024563c4; WORD $0xaac1       // vpblendd    ymm8, ymm7, ymm1, 170
+	LONG $0xc0eb3dc5                     // vpor    ymm8, ymm8, ymm0
+	LONG $0xd773c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm7, 32
+	LONG $0xfaebc5c5                     // vpor    ymm7, ymm7, ymm2
+	LONG $0xfb5cc5c5                     // vsubpd    ymm7, ymm7, ymm3
+	LONG $0xff58bdc5                     // vaddpd    ymm7, ymm8, ymm7
+	QUAD $0x000080f9a411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm4
+	QUAD $0x0000a0f9ac11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm5
+	QUAD $0x0000c0f9b411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm6
+	QUAD $0x0000e0f9bc11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm7
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_486
+	JMP  LBB0_920
+
+LBB0_487:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1045
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_489:
+	LONG $0x3379e2c4; WORD $0x7a04             // vpmovzxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x3379e2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x3379e2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwd    xmm2, qword [rdx + 2*rdi + 16]
+	LONG $0x3379e2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwd    xmm3, qword [rdx + 2*rdi + 24]
+	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
+	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
+	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0x0411fcc5; BYTE $0xf9               // vmovups    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20f9             // vmovups    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40f9             // vmovups    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60f9             // vmovups    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x3379e2c4; WORD $0x7a44; BYTE $0x20 // vpmovzxwd    xmm0, qword [rdx + 2*rdi + 32]
+	LONG $0x3379e2c4; WORD $0x7a4c; BYTE $0x28 // vpmovzxwd    xmm1, qword [rdx + 2*rdi + 40]
+	LONG $0x3379e2c4; WORD $0x7a54; BYTE $0x30 // vpmovzxwd    xmm2, qword [rdx + 2*rdi + 48]
+	LONG $0x3379e2c4; WORD $0x7a5c; BYTE $0x38 // vpmovzxwd    xmm3, qword [rdx + 2*rdi + 56]
+	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
+	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
+	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	QUAD $0x000080f98411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_489
+	JMP  LBB0_1046
+
+LBB0_490:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1050
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_492:
+	LONG $0x2379e2c4; WORD $0x7a04             // vpmovsxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x2379e2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x2379e2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwd    xmm2, qword [rdx + 2*rdi + 16]
+	LONG $0x2379e2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwd    xmm3, qword [rdx + 2*rdi + 24]
+	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
+	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
+	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0x0411fcc5; BYTE $0xf9               // vmovups    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20f9             // vmovups    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40f9             // vmovups    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60f9             // vmovups    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x2379e2c4; WORD $0x7a44; BYTE $0x20 // vpmovsxwd    xmm0, qword [rdx + 2*rdi + 32]
+	LONG $0x2379e2c4; WORD $0x7a4c; BYTE $0x28 // vpmovsxwd    xmm1, qword [rdx + 2*rdi + 40]
+	LONG $0x2379e2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwd    xmm2, qword [rdx + 2*rdi + 48]
+	LONG $0x2379e2c4; WORD $0x7a5c; BYTE $0x38 // vpmovsxwd    xmm3, qword [rdx + 2*rdi + 56]
+	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
+	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
+	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	QUAD $0x000080f98411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_492
+	JMP  LBB0_1051
+
+LBB0_493:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1055
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf749; BYTE $0xda // neg    r10
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_495:
+	LONG $0x046ffac5; BYTE $0xfa         // vmovdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6ffac5; WORD $0x10fa       // vmovdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x16f9e3c4; WORD $0x01c0       // vpextrq    rax, xmm0, 1
+	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
+	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
+	LONG $0x7ef9e1c4; BYTE $0xc0         // vmovq    rax, xmm0
+	LONG $0x2aa3e1c4; BYTE $0xc0         // vcvtsi2sd    xmm0, xmm11, rax
+	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
+	LONG $0x2aa3e1c4; BYTE $0xe0         // vcvtsi2sd    xmm4, xmm11, rax
+	LONG $0x6c6ffac5; WORD $0x30fa       // vmovdqu    xmm5, oword [rdx + 8*rdi + 48]
+	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
+	LONG $0x2aa3e1c4; BYTE $0xc8         // vcvtsi2sd    xmm1, xmm11, rax
+	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
+	LONG $0x2aa3e1c4; BYTE $0xf0         // vcvtsi2sd    xmm6, xmm11, rax
+	LONG $0xc21479c5                     // vunpcklpd    xmm8, xmm0, xmm2
+	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
+	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
+	LONG $0x16f9e3c4; WORD $0x01d8       // vpextrq    rax, xmm3, 1
+	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
+	LONG $0xd41471c5                     // vunpcklpd    xmm10, xmm1, xmm4
+	LONG $0x7ef9e1c4; BYTE $0xd8         // vmovq    rax, xmm3
+	LONG $0x2aa3e1c4; BYTE $0xd8         // vcvtsi2sd    xmm3, xmm11, rax
+	LONG $0xce1469c5                     // vunpcklpd    xmm9, xmm2, xmm6
+	LONG $0x646ffac5; WORD $0x50fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 80]
+	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
+	LONG $0xdd14e1c5                     // vunpcklpd    xmm3, xmm3, xmm5
+	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
+	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
+	LONG $0x2aa3e1c4; BYTE $0xe0         // vcvtsi2sd    xmm4, xmm11, rax
+	LONG $0xe514d9c5                     // vunpcklpd    xmm4, xmm4, xmm5
+	LONG $0x6c6ffac5; WORD $0x40fa       // vmovdqu    xmm5, oword [rdx + 8*rdi + 64]
+	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
+	LONG $0x2aa3e1c4; BYTE $0xf0         // vcvtsi2sd    xmm6, xmm11, rax
+	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
+	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
+	LONG $0x7c6ffac5; WORD $0x70fa       // vmovdqu    xmm7, oword [rdx + 8*rdi + 112]
+	LONG $0x16f9e3c4; WORD $0x01f8       // vpextrq    rax, xmm7, 1
+	LONG $0x2aa3e1c4; BYTE $0xc0         // vcvtsi2sd    xmm0, xmm11, rax
+	LONG $0x7ef9e1c4; BYTE $0xf8         // vmovq    rax, xmm7
+	LONG $0x2aa3e1c4; BYTE $0xf8         // vcvtsi2sd    xmm7, xmm11, rax
+	LONG $0x546ffac5; WORD $0x60fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 96]
+	LONG $0x16f9e3c4; WORD $0x01d0       // vpextrq    rax, xmm2, 1
+	LONG $0x2aa3e1c4; BYTE $0xc8         // vcvtsi2sd    xmm1, xmm11, rax
+	LONG $0xee14d1c5                     // vunpcklpd    xmm5, xmm5, xmm6
+	LONG $0x7ef9e1c4; BYTE $0xd0         // vmovq    rax, xmm2
+	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
+	LONG $0xc014c1c5                     // vunpcklpd    xmm0, xmm7, xmm0
+	LONG $0xc914e9c5                     // vunpcklpd    xmm1, xmm2, xmm1
+	LONG $0x541179c5; WORD $0x10f9       // vmovupd    oword [rcx + 8*rdi + 16], xmm10
+	LONG $0x041179c5; BYTE $0xf9         // vmovupd    oword [rcx + 8*rdi], xmm8
+	LONG $0x5c11f9c5; WORD $0x20f9       // vmovupd    oword [rcx + 8*rdi + 32], xmm3
+	LONG $0x4c1179c5; WORD $0x30f9       // vmovupd    oword [rcx + 8*rdi + 48], xmm9
+	LONG $0x6c11f9c5; WORD $0x40f9       // vmovupd    oword [rcx + 8*rdi + 64], xmm5
+	LONG $0x6411f9c5; WORD $0x50f9       // vmovupd    oword [rcx + 8*rdi + 80], xmm4
+	LONG $0x4c11f9c5; WORD $0x60f9       // vmovupd    oword [rcx + 8*rdi + 96], xmm1
+	LONG $0x4411f9c5; WORD $0x70f9       // vmovupd    oword [rcx + 8*rdi + 112], xmm0
+	QUAD $0x000080fa846ffac5; BYTE $0x00 // vmovdqu    xmm0, oword [rdx + 8*rdi + 128]
+	QUAD $0x000090fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 144]
+	LONG $0x16f9e3c4; WORD $0x01c0       // vpextrq    rax, xmm0, 1
+	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
+	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
+	LONG $0x7ef9e1c4; BYTE $0xc0         // vmovq    rax, xmm0
+	LONG $0x2aa3e1c4; BYTE $0xc0         // vcvtsi2sd    xmm0, xmm11, rax
+	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
+	LONG $0x2aa3e1c4; BYTE $0xe0         // vcvtsi2sd    xmm4, xmm11, rax
+	QUAD $0x0000b0faac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 8*rdi + 176]
+	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
+	LONG $0x2aa3e1c4; BYTE $0xc8         // vcvtsi2sd    xmm1, xmm11, rax
+	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
+	LONG $0x2aa3e1c4; BYTE $0xf0         // vcvtsi2sd    xmm6, xmm11, rax
+	LONG $0xc21479c5                     // vunpcklpd    xmm8, xmm0, xmm2
+	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
+	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
+	LONG $0x16f9e3c4; WORD $0x01d8       // vpextrq    rax, xmm3, 1
+	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
+	LONG $0xd41471c5                     // vunpcklpd    xmm10, xmm1, xmm4
+	LONG $0x7ef9e1c4; BYTE $0xd8         // vmovq    rax, xmm3
+	LONG $0x2aa3e1c4; BYTE $0xd8         // vcvtsi2sd    xmm3, xmm11, rax
+	LONG $0xce1469c5                     // vunpcklpd    xmm9, xmm2, xmm6
+	QUAD $0x0000d0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 208]
+	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
+	LONG $0xdd14e1c5                     // vunpcklpd    xmm3, xmm3, xmm5
+	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
+	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
+	LONG $0x2aa3e1c4; BYTE $0xe0         // vcvtsi2sd    xmm4, xmm11, rax
+	LONG $0xe514d9c5                     // vunpcklpd    xmm4, xmm4, xmm5
+	QUAD $0x0000c0faac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 8*rdi + 192]
+	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
+	LONG $0x2aa3e1c4; BYTE $0xf0         // vcvtsi2sd    xmm6, xmm11, rax
+	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
+	LONG $0x2aa3e1c4; BYTE $0xe8         // vcvtsi2sd    xmm5, xmm11, rax
+	QUAD $0x0000f0fabc6ffac5; BYTE $0x00 // vmovdqu    xmm7, oword [rdx + 8*rdi + 240]
+	LONG $0x16f9e3c4; WORD $0x01f8       // vpextrq    rax, xmm7, 1
+	LONG $0x2aa3e1c4; BYTE $0xc0         // vcvtsi2sd    xmm0, xmm11, rax
+	LONG $0x7ef9e1c4; BYTE $0xf8         // vmovq    rax, xmm7
+	LONG $0x2aa3e1c4; BYTE $0xf8         // vcvtsi2sd    xmm7, xmm11, rax
+	QUAD $0x0000e0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 224]
+	LONG $0x16f9e3c4; WORD $0x01d0       // vpextrq    rax, xmm2, 1
+	LONG $0x2aa3e1c4; BYTE $0xc8         // vcvtsi2sd    xmm1, xmm11, rax
+	LONG $0xee14d1c5                     // vunpcklpd    xmm5, xmm5, xmm6
+	LONG $0x7ef9e1c4; BYTE $0xd0         // vmovq    rax, xmm2
+	LONG $0x2aa3e1c4; BYTE $0xd0         // vcvtsi2sd    xmm2, xmm11, rax
+	LONG $0xc014c1c5                     // vunpcklpd    xmm0, xmm7, xmm0
+	LONG $0xc914e9c5                     // vunpcklpd    xmm1, xmm2, xmm1
+	QUAD $0x000090f9941179c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 144], xmm10
+	QUAD $0x000080f9841179c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 128], xmm8
+	QUAD $0x0000a0f99c11f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 160], xmm3
+	QUAD $0x0000b0f98c1179c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 176], xmm9
+	QUAD $0x0000c0f9ac11f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 192], xmm5
+	QUAD $0x0000d0f9a411f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 208], xmm4
+	QUAD $0x0000e0f98c11f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 224], xmm1
+	QUAD $0x0000f0f98411f9c5; BYTE $0x00 // vmovupd    oword [rcx + 8*rdi + 240], xmm0
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c28349                     // add    r10, 2
+	JNE  LBB0_495
+	JMP  LBB0_1056
+
+LBB0_496:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1060
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_498:
+	LONG $0x045afcc5; BYTE $0xba         // vcvtps2pd    ymm0, oword [rdx + 4*rdi]
+	LONG $0x4c5afcc5; WORD $0x10ba       // vcvtps2pd    ymm1, oword [rdx + 4*rdi + 16]
+	LONG $0x545afcc5; WORD $0x20ba       // vcvtps2pd    ymm2, oword [rdx + 4*rdi + 32]
+	LONG $0x5c5afcc5; WORD $0x30ba       // vcvtps2pd    ymm3, oword [rdx + 4*rdi + 48]
+	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x445afcc5; WORD $0x40ba       // vcvtps2pd    ymm0, oword [rdx + 4*rdi + 64]
+	LONG $0x4c5afcc5; WORD $0x50ba       // vcvtps2pd    ymm1, oword [rdx + 4*rdi + 80]
+	LONG $0x545afcc5; WORD $0x60ba       // vcvtps2pd    ymm2, oword [rdx + 4*rdi + 96]
+	LONG $0x5c5afcc5; WORD $0x70ba       // vcvtps2pd    ymm3, oword [rdx + 4*rdi + 112]
+	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_498
+	JMP  LBB0_1061
+
+LBB0_502:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_925
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_504:
+	LONG $0x04e6fec5; BYTE $0xba         // vcvtdq2pd    ymm0, oword [rdx + 4*rdi]
+	LONG $0x4ce6fec5; WORD $0x10ba       // vcvtdq2pd    ymm1, oword [rdx + 4*rdi + 16]
+	LONG $0x54e6fec5; WORD $0x20ba       // vcvtdq2pd    ymm2, oword [rdx + 4*rdi + 32]
+	LONG $0x5ce6fec5; WORD $0x30ba       // vcvtdq2pd    ymm3, oword [rdx + 4*rdi + 48]
+	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x44e6fec5; WORD $0x40ba       // vcvtdq2pd    ymm0, oword [rdx + 4*rdi + 64]
+	LONG $0x4ce6fec5; WORD $0x50ba       // vcvtdq2pd    ymm1, oword [rdx + 4*rdi + 80]
+	LONG $0x54e6fec5; WORD $0x60ba       // vcvtdq2pd    ymm2, oword [rdx + 4*rdi + 96]
+	LONG $0x5ce6fec5; WORD $0x70ba       // vcvtdq2pd    ymm3, oword [rdx + 4*rdi + 112]
+	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_504
+	JMP  LBB0_926
+
+LBB0_535:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_930
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_537:
+	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
+	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
+	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
+	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x357de2c4; WORD $0xba44; BYTE $0x40 // vpmovzxdq    ymm0, oword [rdx + 4*rdi + 64]
+	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x50 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 80]
+	LONG $0x357de2c4; WORD $0xba54; BYTE $0x60 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 96]
+	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x70 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 112]
+	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_537
+	JMP  LBB0_931
+
+LBB0_538:
+	WORD $0x8945; BYTE $0xce // mov    r14d, r9d
+	LONG $0xfce68341         // and    r14d, -4
+	LONG $0xfc468d49         // lea    rax, [r14 - 4]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x02eac149         // shr    r10, 2
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8945; BYTE $0xd0 // mov    r8d, r10d
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_793
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_795
+
+LBB0_546:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_935
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_548:
+	LONG $0x347de2c4; WORD $0x7a04             // vpmovzxwq    ymm0, qword [rdx + 2*rdi]
+	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 8]
+	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 16]
+	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 24]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x347de2c4; WORD $0x7a44; BYTE $0x20 // vpmovzxwq    ymm0, qword [rdx + 2*rdi + 32]
+	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x28 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 40]
+	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x30 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 48]
+	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x38 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 56]
+	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_548
+	JMP  LBB0_936
+
+LBB0_549:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_940
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_551:
+	LONG $0x247de2c4; WORD $0x7a04             // vpmovsxwq    ymm0, qword [rdx + 2*rdi]
+	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 8]
+	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 16]
+	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 24]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x247de2c4; WORD $0x7a44; BYTE $0x20 // vpmovsxwq    ymm0, qword [rdx + 2*rdi + 32]
+	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x28 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 40]
+	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 48]
+	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x38 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 56]
+	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_551
+	JMP  LBB0_941
+
+LBB0_555:
+	WORD $0x8945; BYTE $0xce // mov    r14d, r9d
+	LONG $0xfce68341         // and    r14d, -4
+	LONG $0xfc468d49         // lea    rax, [r14 - 4]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x02eac149         // shr    r10, 2
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8945; BYTE $0xd0 // mov    r8d, r10d
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_810
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_812
+
+LBB0_560:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_945
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_562:
+	LONG $0x257de2c4; WORD $0xba04             // vpmovsxdq    ymm0, oword [rdx + 4*rdi]
+	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x10 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 16]
+	LONG $0x257de2c4; WORD $0xba54; BYTE $0x20 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 32]
+	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x30 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x257de2c4; WORD $0xba44; BYTE $0x40 // vpmovsxdq    ymm0, oword [rdx + 4*rdi + 64]
+	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x50 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 80]
+	LONG $0x257de2c4; WORD $0xba54; BYTE $0x60 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 96]
+	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x70 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 112]
+	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_562
+	JMP  LBB0_946
+
+LBB0_563:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1065
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x00000080856ffdc5 // vmovdqa    ymm0, yword 128[rbp] /* [rip + .LCPI0_11] */
+
+LBB0_565:
+	LONG $0x0c6ffec5; BYTE $0xba         // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba       // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba       // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
+	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
+	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
+	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
+	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
+	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
+	LONG $0x0c7ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm1
+	LONG $0x547ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
+	LONG $0x5c7ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm3
+	LONG $0x647ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm4
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00 // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
+	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
+	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
+	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
+	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
+	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
+	LONG $0x4c7ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm1
+	LONG $0x547ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm2
+	LONG $0x5c7ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm3
+	LONG $0x647ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm4
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_565
+	JMP  LBB0_1066
+
+LBB0_566:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1070
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x00000080856ffdc5 // vmovdqa    ymm0, yword 128[rbp] /* [rip + .LCPI0_11] */
+
+LBB0_568:
+	LONG $0x0c6ffec5; BYTE $0xba         // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba       // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba       // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
+	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
+	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
+	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
+	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
+	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
+	LONG $0x0c7ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm1
+	LONG $0x547ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
+	LONG $0x5c7ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm3
+	LONG $0x647ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm4
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00 // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
+	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
+	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
+	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
+	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
+	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
+	LONG $0x4c7ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm1
+	LONG $0x547ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm2
+	LONG $0x5c7ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm3
+	LONG $0x647ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm4
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_568
+	JMP  LBB0_1071
+
+LBB0_569:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1075
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_571:
+	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
+	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54e6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5ce6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
+	LONG $0x186de3c4; WORD $0x01d3       // vinsertf128    ymm2, ymm2, xmm3, 1
+	LONG $0x2b6de2c4; BYTE $0xd0         // vpackusdw    ymm2, ymm2, ymm0
+	LONG $0x187de3c4; WORD $0x01c1       // vinsertf128    ymm0, ymm0, xmm1, 1
+	LONG $0x2b7de2c4; BYTE $0xc0         // vpackusdw    ymm0, ymm0, ymm0
+	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x79         // vmovdqu    yword [rcx + 2*rdi], ymm0
+	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 224]
+	LONG $0x186de3c4; WORD $0x01d3       // vinsertf128    ymm2, ymm2, xmm3, 1
+	LONG $0x2b6de2c4; BYTE $0xd0         // vpackusdw    ymm2, ymm2, ymm0
+	LONG $0x187de3c4; WORD $0x01c1       // vinsertf128    ymm0, ymm0, xmm1, 1
+	LONG $0x2b7de2c4; BYTE $0xc0         // vpackusdw    ymm0, ymm0, ymm0
+	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
+	LONG $0x447ffec5; WORD $0x2079       // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_571
+	JMP  LBB0_1076
+
+LBB0_572:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1080
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_574:
+	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
+	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54e6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5ce6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
+	LONG $0x186de3c4; WORD $0x01d3       // vinsertf128    ymm2, ymm2, xmm3, 1
+	LONG $0xd06bedc5                     // vpackssdw    ymm2, ymm2, ymm0
+	LONG $0x187de3c4; WORD $0x01c1       // vinsertf128    ymm0, ymm0, xmm1, 1
+	LONG $0xc06bfdc5                     // vpackssdw    ymm0, ymm0, ymm0
+	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x79         // vmovdqu    yword [rcx + 2*rdi], ymm0
+	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 224]
+	LONG $0x186de3c4; WORD $0x01d3       // vinsertf128    ymm2, ymm2, xmm3, 1
+	LONG $0xd06bedc5                     // vpackssdw    ymm2, ymm2, ymm0
+	LONG $0x187de3c4; WORD $0x01c1       // vinsertf128    ymm0, ymm0, xmm1, 1
+	LONG $0xc06bfdc5                     // vpackssdw    ymm0, ymm0, ymm0
+	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
+	LONG $0x447ffec5; WORD $0x2079       // vmovdqu    yword [rcx + 2*rdi + 32], ymm0
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_574
+	JMP  LBB0_1081
+
+LBB0_581:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_950
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB0_583:
+	LONG $0x0e7963c4; WORD $0xfa04; BYTE $0x11         // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi], 17
+	QUAD $0x1110fa540e79e3c4                           // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
+	QUAD $0x1120fa5c0e79e3c4                           // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
+	QUAD $0x1130fa640e79e3c4                           // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
+	QUAD $0x1140fa6c0e79e3c4                           // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
+	QUAD $0x1150fa740e79e3c4                           // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
+	QUAD $0x1160fa7c0e79e3c4                           // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
+	QUAD $0x1170fa4c0e79e3c4                           // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 112], 17
+	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
+	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
+	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
+	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
+	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
+	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
+	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
+	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
+	LONG $0x0c7ffec5; BYTE $0x79                       // vmovdqu    yword [rcx + 2*rdi], ymm1
+	QUAD $0x0080fa840e7963c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi + 128], 17
+	QUAD $0x0090fa940e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 144], 17
+	QUAD $0x00a0fa9c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 160], 17
+	QUAD $0x00b0faa40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 176], 17
+	QUAD $0x00c0faac0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 192], 17
+	QUAD $0x00d0fab40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 208], 17
+	QUAD $0x00e0fabc0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 224], 17
+	QUAD $0x00f0fa8c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 240], 17
+	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
+	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
+	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
+	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
+	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
+	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
+	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
+	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
+	LONG $0x4c7ffec5; WORD $0x2079                     // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
+	LONG $0x20c78348                                   // add    rdi, 32
+	LONG $0x02c08348                                   // add    rax, 2
+	JNE  LBB0_583
+	JMP  LBB0_951
+
+LBB0_584:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_955
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB0_586:
+	LONG $0x0e7963c4; WORD $0xfa04; BYTE $0x11         // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi], 17
+	QUAD $0x1110fa540e79e3c4                           // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
+	QUAD $0x1120fa5c0e79e3c4                           // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
+	QUAD $0x1130fa640e79e3c4                           // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
+	QUAD $0x1140fa6c0e79e3c4                           // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
+	QUAD $0x1150fa740e79e3c4                           // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
+	QUAD $0x1160fa7c0e79e3c4                           // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
+	QUAD $0x1170fa4c0e79e3c4                           // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 112], 17
+	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
+	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
+	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
+	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
+	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
+	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
+	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
+	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
+	LONG $0x0c7ffec5; BYTE $0x79                       // vmovdqu    yword [rcx + 2*rdi], ymm1
+	QUAD $0x0080fa840e7963c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi + 128], 17
+	QUAD $0x0090fa940e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 144], 17
+	QUAD $0x00a0fa9c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 160], 17
+	QUAD $0x00b0faa40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 176], 17
+	QUAD $0x00c0faac0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 192], 17
+	QUAD $0x00d0fab40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 208], 17
+	QUAD $0x00e0fabc0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 224], 17
+	QUAD $0x00f0fa8c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 240], 17
+	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
+	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
+	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
+	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
+	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
+	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
+	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
+	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
+	LONG $0x4c7ffec5; WORD $0x2079                     // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
+	LONG $0x20c78348                                   // add    rdi, 32
+	LONG $0x02c08348                                   // add    rax, 2
+	JNE  LBB0_586
+	JMP  LBB0_956
+
+LBB0_599:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_960
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB0_601:
+	LONG $0x0e7963c4; WORD $0xfa04; BYTE $0x11         // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi], 17
+	QUAD $0x1110fa540e79e3c4                           // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
+	QUAD $0x1120fa5c0e79e3c4                           // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
+	QUAD $0x1130fa640e79e3c4                           // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
+	QUAD $0x1140fa6c0e79e3c4                           // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
+	QUAD $0x1150fa740e79e3c4                           // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
+	QUAD $0x1160fa7c0e79e3c4                           // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
+	QUAD $0x1170fa4c0e79e3c4                           // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 112], 17
+	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
+	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
+	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
+	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
+	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
+	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
+	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
+	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
+	LONG $0x0c7ffec5; BYTE $0x79                       // vmovdqu    yword [rcx + 2*rdi], ymm1
+	QUAD $0x0080fa840e7963c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi + 128], 17
+	QUAD $0x0090fa940e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 144], 17
+	QUAD $0x00a0fa9c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 160], 17
+	QUAD $0x00b0faa40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 176], 17
+	QUAD $0x00c0faac0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 192], 17
+	QUAD $0x00d0fab40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 208], 17
+	QUAD $0x00e0fabc0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 224], 17
+	QUAD $0x00f0fa8c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 240], 17
+	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
+	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
+	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
+	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
+	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
+	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
+	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
+	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
+	LONG $0x4c7ffec5; WORD $0x2079                     // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
+	LONG $0x20c78348                                   // add    rdi, 32
+	LONG $0x02c08348                                   // add    rax, 2
+	JNE  LBB0_601
+	JMP  LBB0_961
+
+LBB0_602:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1085
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0xc0eff9c5         // vpxor    xmm0, xmm0, xmm0
+
+LBB0_604:
+	LONG $0x0e7963c4; WORD $0xfa04; BYTE $0x11         // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi], 17
+	QUAD $0x1110fa540e79e3c4                           // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
+	QUAD $0x1120fa5c0e79e3c4                           // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
+	QUAD $0x1130fa640e79e3c4                           // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
+	QUAD $0x1140fa6c0e79e3c4                           // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
+	QUAD $0x1150fa740e79e3c4                           // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
+	QUAD $0x1160fa7c0e79e3c4                           // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
+	QUAD $0x1170fa4c0e79e3c4                           // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 112], 17
+	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
+	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
+	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
+	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
+	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
+	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
+	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
+	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
+	LONG $0x0c7ffec5; BYTE $0x79                       // vmovdqu    yword [rcx + 2*rdi], ymm1
+	QUAD $0x0080fa840e7963c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm8, xmm0, oword [rdx + 8*rdi + 128], 17
+	QUAD $0x0090fa940e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 144], 17
+	QUAD $0x00a0fa9c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 160], 17
+	QUAD $0x00b0faa40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 176], 17
+	QUAD $0x00c0faac0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 192], 17
+	QUAD $0x00d0fab40e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 208], 17
+	QUAD $0x00e0fabc0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 224], 17
+	QUAD $0x00f0fa8c0e79e3c4; WORD $0x0000; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi + 240], 17
+	LONG $0x384de3c4; WORD $0x01c9                     // vinserti128    ymm1, ymm6, xmm1, 1
+	LONG $0x3855e3c4; WORD $0x01ef                     // vinserti128    ymm5, ymm5, xmm7, 1
+	LONG $0x2b55e2c4; BYTE $0xc9                       // vpackusdw    ymm1, ymm5, ymm1
+	LONG $0x2b75e2c4; BYTE $0xc8                       // vpackusdw    ymm1, ymm1, ymm0
+	LONG $0x386de3c4; WORD $0x01d4                     // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0x383de3c4; WORD $0x01db                     // vinserti128    ymm3, ymm8, xmm3, 1
+	LONG $0x2b65e2c4; BYTE $0xd2                       // vpackusdw    ymm2, ymm3, ymm2
+	LONG $0x2b6de2c4; BYTE $0xd0                       // vpackusdw    ymm2, ymm2, ymm0
+	LONG $0xc96cedc5                                   // vpunpcklqdq    ymm1, ymm2, ymm1
+	LONG $0x00fde3c4; WORD $0xd8c9                     // vpermq    ymm1, ymm1, 216
+	LONG $0x4c7ffec5; WORD $0x2079                     // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
+	LONG $0x20c78348                                   // add    rdi, 32
+	LONG $0x02c08348                                   // add    rax, 2
+	JNE  LBB0_604
+	JMP  LBB0_1086
+
+LBB0_605:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1090
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_607:
+	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
+	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
+	LONG $0x2b79e2c4; BYTE $0xc1         // vpackusdw    xmm0, xmm0, xmm1
+	LONG $0x4c5bfec5; WORD $0x20ba       // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
+	LONG $0x2b71e2c4; BYTE $0xca         // vpackusdw    xmm1, xmm1, xmm2
+	LONG $0x545bfec5; WORD $0x40ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
+	LONG $0x2b69e2c4; BYTE $0xd3         // vpackusdw    xmm2, xmm2, xmm3
+	LONG $0x5c5bfec5; WORD $0x60ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
+	LONG $0x2b61e2c4; BYTE $0xdc         // vpackusdw    xmm3, xmm3, xmm4
+	LONG $0x047ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x547ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
+	LONG $0x5c7ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
+	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
+	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
+	LONG $0x2b79e2c4; BYTE $0xc1         // vpackusdw    xmm0, xmm0, xmm1
+	QUAD $0x0000a0ba8c5bfec5; BYTE $0x00 // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 160]
+	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
+	LONG $0x2b71e2c4; BYTE $0xca         // vpackusdw    xmm1, xmm1, xmm2
+	QUAD $0x0000c0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 192]
+	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
+	LONG $0x2b69e2c4; BYTE $0xd3         // vpackusdw    xmm2, xmm2, xmm3
+	QUAD $0x0000e0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 224]
+	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
+	LONG $0x2b61e2c4; BYTE $0xdc         // vpackusdw    xmm3, xmm3, xmm4
+	LONG $0x447ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm0
+	LONG $0x4c7ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm1
+	LONG $0x547ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm2
+	LONG $0x5c7ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm3
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_607
+	JMP  LBB0_1091
+
+LBB0_608:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1095
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_610:
+	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
+	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
+	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
+	LONG $0x4c5bfec5; WORD $0x20ba       // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5                     // vpackssdw    xmm1, xmm1, xmm2
+	LONG $0x545bfec5; WORD $0x40ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5                     // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0x5c5bfec5; WORD $0x60ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                     // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0x047ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x547ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
+	LONG $0x5c7ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
+	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
+	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
+	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
+	QUAD $0x0000a0ba8c5bfec5; BYTE $0x00 // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 160]
+	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5                     // vpackssdw    xmm1, xmm1, xmm2
+	QUAD $0x0000c0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 192]
+	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5                     // vpackssdw    xmm2, xmm2, xmm3
+	QUAD $0x0000e0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 224]
+	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5                     // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0x447ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm0
+	LONG $0x4c7ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm1
+	LONG $0x547ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm2
+	LONG $0x5c7ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm3
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_610
+	JMP  LBB0_1096
+
+LBB0_617:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_965
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x00000080856ffdc5 // vmovdqa    ymm0, yword 128[rbp] /* [rip + .LCPI0_11] */
+
+LBB0_619:
+	LONG $0x0c6ffec5; BYTE $0xba         // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba       // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba       // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
+	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
+	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
+	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
+	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
+	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
+	LONG $0x0c7ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm1
+	LONG $0x547ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
+	LONG $0x5c7ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm3
+	LONG $0x647ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm4
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00 // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
+	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
+	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
+	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
+	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
+	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
+	LONG $0x4c7ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm1
+	LONG $0x547ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm2
+	LONG $0x5c7ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm3
+	LONG $0x647ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm4
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_619
+	JMP  LBB0_966
+
+LBB0_620:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_970
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x00000080856ffdc5 // vmovdqa    ymm0, yword 128[rbp] /* [rip + .LCPI0_11] */
+
+LBB0_622:
+	LONG $0x0c6ffec5; BYTE $0xba         // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba       // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba       // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
+	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
+	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
+	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
+	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
+	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
+	LONG $0x0c7ffac5; BYTE $0x79         // vmovdqu    oword [rcx + 2*rdi], xmm1
+	LONG $0x547ffac5; WORD $0x1079       // vmovdqu    oword [rcx + 2*rdi + 16], xmm2
+	LONG $0x5c7ffac5; WORD $0x2079       // vmovdqu    oword [rcx + 2*rdi + 32], xmm3
+	LONG $0x647ffac5; WORD $0x3079       // vmovdqu    oword [rcx + 2*rdi + 48], xmm4
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00 // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0x0075e2c4; BYTE $0xc8         // vpshufb    ymm1, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xe8c9       // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd0         // vpshufb    ymm2, ymm2, ymm0
+	LONG $0x00fde3c4; WORD $0xe8d2       // vpermq    ymm2, ymm2, 232
+	LONG $0x0065e2c4; BYTE $0xd8         // vpshufb    ymm3, ymm3, ymm0
+	LONG $0x00fde3c4; WORD $0xe8db       // vpermq    ymm3, ymm3, 232
+	LONG $0x005de2c4; BYTE $0xe0         // vpshufb    ymm4, ymm4, ymm0
+	LONG $0x00fde3c4; WORD $0xe8e4       // vpermq    ymm4, ymm4, 232
+	LONG $0x4c7ffac5; WORD $0x4079       // vmovdqu    oword [rcx + 2*rdi + 64], xmm1
+	LONG $0x547ffac5; WORD $0x5079       // vmovdqu    oword [rcx + 2*rdi + 80], xmm2
+	LONG $0x5c7ffac5; WORD $0x6079       // vmovdqu    oword [rcx + 2*rdi + 96], xmm3
+	LONG $0x647ffac5; WORD $0x7079       // vmovdqu    oword [rcx + 2*rdi + 112], xmm4
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_622
+	JMP  LBB0_971
+
+LBB0_623:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1100
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_625:
+	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
+	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
+	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
+	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x357de2c4; WORD $0xba44; BYTE $0x40 // vpmovzxdq    ymm0, oword [rdx + 4*rdi + 64]
+	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x50 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 80]
+	LONG $0x357de2c4; WORD $0xba54; BYTE $0x60 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 96]
+	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x70 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 112]
+	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_625
+	JMP  LBB0_1101
+
+LBB0_626:
+	WORD $0x8944; BYTE $0xce       // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0       // and    esi, -32
+	LONG $0xe0468d48               // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0       // mov    r8, rax
+	LONG $0x05e8c149               // shr    r8, 5
+	LONG $0x01c08349               // add    r8, 1
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	JE   LBB0_1105
+	WORD $0x894c; BYTE $0xc0       // mov    rax, r8
+	LONG $0xfee08348               // and    rax, -2
+	WORD $0xf748; BYTE $0xd8       // neg    rax
+	LONG $0x587de2c4; WORD $0x3445 // vpbroadcastd    ymm0, dword 52[rbp] /* [rip + .LCPI0_13] */
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0x587de2c4; WORD $0x384d // vpbroadcastd    ymm1, dword 56[rbp] /* [rip + .LCPI0_14] */
+	LONG $0x187de2c4; WORD $0x3c55 // vbroadcastss    ymm2, dword 60[rbp] /* [rip + .LCPI0_15] */
+
+LBB0_628:
+	LONG $0x1c6ffec5; BYTE $0xba         // vmovdqu    ymm3, yword [rdx + 4*rdi]
+	LONG $0x646ffec5; WORD $0x20ba       // vmovdqu    ymm4, yword [rdx + 4*rdi + 32]
+	LONG $0x6c6ffec5; WORD $0x40ba       // vmovdqu    ymm5, yword [rdx + 4*rdi + 64]
+	LONG $0x746ffec5; WORD $0x60ba       // vmovdqu    ymm6, yword [rdx + 4*rdi + 96]
+	LONG $0x0e65e3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm3, ymm0, 170
+	LONG $0xd372e5c5; BYTE $0x10         // vpsrld    ymm3, ymm3, 16
+	LONG $0x0e65e3c4; WORD $0xaad9       // vpblendw    ymm3, ymm3, ymm1, 170
+	LONG $0xda5ce4c5                     // vsubps    ymm3, ymm3, ymm2
+	LONG $0xdb58c4c5                     // vaddps    ymm3, ymm7, ymm3
+	LONG $0x0e5de3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm4, ymm0, 170
+	LONG $0xd472ddc5; BYTE $0x10         // vpsrld    ymm4, ymm4, 16
+	LONG $0x0e5de3c4; WORD $0xaae1       // vpblendw    ymm4, ymm4, ymm1, 170
+	LONG $0xe25cdcc5                     // vsubps    ymm4, ymm4, ymm2
+	LONG $0xe458c4c5                     // vaddps    ymm4, ymm7, ymm4
+	LONG $0x0e55e3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm5, ymm0, 170
+	LONG $0xd572d5c5; BYTE $0x10         // vpsrld    ymm5, ymm5, 16
+	LONG $0x0e55e3c4; WORD $0xaae9       // vpblendw    ymm5, ymm5, ymm1, 170
+	LONG $0xea5cd4c5                     // vsubps    ymm5, ymm5, ymm2
+	LONG $0xed58c4c5                     // vaddps    ymm5, ymm7, ymm5
+	LONG $0x0e4de3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm6, ymm0, 170
+	LONG $0xd672cdc5; BYTE $0x10         // vpsrld    ymm6, ymm6, 16
+	LONG $0x0e4de3c4; WORD $0xaaf1       // vpblendw    ymm6, ymm6, ymm1, 170
+	LONG $0xf25cccc5                     // vsubps    ymm6, ymm6, ymm2
+	LONG $0xf658c4c5                     // vaddps    ymm6, ymm7, ymm6
+	LONG $0x1c11fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm3
+	LONG $0x6411fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm4
+	LONG $0x6c11fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm5
+	LONG $0x7411fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm6
+	QUAD $0x000080ba9c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0baa46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0baac6ffec5; BYTE $0x00 // vmovdqu    ymm5, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0bab46ffec5; BYTE $0x00 // vmovdqu    ymm6, yword [rdx + 4*rdi + 224]
+	LONG $0x0e65e3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm3, ymm0, 170
+	LONG $0xd372e5c5; BYTE $0x10         // vpsrld    ymm3, ymm3, 16
+	LONG $0x0e65e3c4; WORD $0xaad9       // vpblendw    ymm3, ymm3, ymm1, 170
+	LONG $0xda5ce4c5                     // vsubps    ymm3, ymm3, ymm2
+	LONG $0xdb58c4c5                     // vaddps    ymm3, ymm7, ymm3
+	LONG $0x0e5de3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm4, ymm0, 170
+	LONG $0xd472ddc5; BYTE $0x10         // vpsrld    ymm4, ymm4, 16
+	LONG $0x0e5de3c4; WORD $0xaae1       // vpblendw    ymm4, ymm4, ymm1, 170
+	LONG $0xe25cdcc5                     // vsubps    ymm4, ymm4, ymm2
+	LONG $0xe458c4c5                     // vaddps    ymm4, ymm7, ymm4
+	LONG $0x0e55e3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm5, ymm0, 170
+	LONG $0xd572d5c5; BYTE $0x10         // vpsrld    ymm5, ymm5, 16
+	LONG $0x0e55e3c4; WORD $0xaae9       // vpblendw    ymm5, ymm5, ymm1, 170
+	LONG $0xea5cd4c5                     // vsubps    ymm5, ymm5, ymm2
+	LONG $0xed58c4c5                     // vaddps    ymm5, ymm7, ymm5
+	LONG $0x0e4de3c4; WORD $0xaaf8       // vpblendw    ymm7, ymm6, ymm0, 170
+	LONG $0xd672cdc5; BYTE $0x10         // vpsrld    ymm6, ymm6, 16
+	LONG $0x0e4de3c4; WORD $0xaaf1       // vpblendw    ymm6, ymm6, ymm1, 170
+	LONG $0xf25cccc5                     // vsubps    ymm6, ymm6, ymm2
+	LONG $0xf658c4c5                     // vaddps    ymm6, ymm7, ymm6
+	QUAD $0x000080b99c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 128], ymm3
+	QUAD $0x0000a0b9a411fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 160], ymm4
+	QUAD $0x0000c0b9ac11fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 192], ymm5
+	QUAD $0x0000e0b9b411fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 224], ymm6
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_628
+	JMP  LBB0_1106
+
+LBB0_629:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1110
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf749; BYTE $0xda // neg    r10
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_631:
+	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x08 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 8]
+	LONG $0x6ef9e1c4; BYTE $0xc3               // vmovq    xmm0, rbx
+	LONG $0x2cfbe1c4; WORD $0xfa1c             // vcvttsd2si    rbx, qword [rdx + 8*rdi]
+	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
+	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x18 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 24]
+	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x10 // vcvttsd2si    rax, qword [rdx + 8*rdi + 16]
+	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
+	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x38 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 56]
+	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x30 // vcvttsd2si    rax, qword [rdx + 8*rdi + 48]
+	LONG $0xc96ce9c5                           // vpunpcklqdq    xmm1, xmm2, xmm1
+	LONG $0x6ef9e1c4; BYTE $0xd3               // vmovq    xmm2, rbx
+	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
+	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x28 // vcvttsd2si    rax, qword [rdx + 8*rdi + 40]
+	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x20 // vcvttsd2si    rax, qword [rdx + 8*rdi + 32]
+	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
+	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x58 // vcvttsd2si    rax, qword [rdx + 8*rdi + 88]
+	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x50 // vcvttsd2si    rax, qword [rdx + 8*rdi + 80]
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x48 // vcvttsd2si    rax, qword [rdx + 8*rdi + 72]
+	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
+	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x40 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 64]
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x78 // vcvttsd2si    rax, qword [rdx + 8*rdi + 120]
+	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
+	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x70 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 112]
+	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
+	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
+	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
+	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x68 // vcvttsd2si    rax, qword [rdx + 8*rdi + 104]
+	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x60 // vcvttsd2si    rax, qword [rdx + 8*rdi + 96]
+	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
+	LONG $0xc76cf9c5                           // vpunpcklqdq    xmm0, xmm0, xmm7
+	LONG $0x4c7ffac5; WORD $0x10f9             // vmovdqu    oword [rcx + 8*rdi + 16], xmm1
+	LONG $0x047f7ac5; BYTE $0xf9               // vmovdqu    oword [rcx + 8*rdi], xmm8
+	LONG $0x5c7ffac5; WORD $0x20f9             // vmovdqu    oword [rcx + 8*rdi + 32], xmm3
+	LONG $0x547ffac5; WORD $0x30f9             // vmovdqu    oword [rcx + 8*rdi + 48], xmm2
+	LONG $0x6c7ffac5; WORD $0x40f9             // vmovdqu    oword [rcx + 8*rdi + 64], xmm5
+	LONG $0x647ffac5; WORD $0x50f9             // vmovdqu    oword [rcx + 8*rdi + 80], xmm4
+	LONG $0x447ffac5; WORD $0x60f9             // vmovdqu    oword [rcx + 8*rdi + 96], xmm0
+	LONG $0x747ffac5; WORD $0x70f9             // vmovdqu    oword [rcx + 8*rdi + 112], xmm6
+	QUAD $0x0088fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 136]
+	QUAD $0x0080fa9c2cfbe1c4; WORD $0x0000     // vcvttsd2si    rbx, qword [rdx + 8*rdi + 128]
+	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
+	QUAD $0x0098fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 152]
+	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
+	QUAD $0x0090fa9c2cfbe1c4; WORD $0x0000     // vcvttsd2si    rbx, qword [rdx + 8*rdi + 144]
+	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
+	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
+	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
+	LONG $0xca6cf1c5                           // vpunpcklqdq    xmm1, xmm1, xmm2
+	QUAD $0x00b8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 184]
+	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
+	QUAD $0x00b0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 176]
+	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
+	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
+	QUAD $0x00a8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 168]
+	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
+	QUAD $0x00a0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 160]
+	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
+	QUAD $0x00d8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 216]
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	QUAD $0x00d0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 208]
+	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
+	QUAD $0x00c8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 200]
+	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
+	QUAD $0x00c0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 192]
+	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
+	LONG $0xe56cc9c5                           // vpunpcklqdq    xmm4, xmm6, xmm5
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	LONG $0xef6cd1c5                           // vpunpcklqdq    xmm5, xmm5, xmm7
+	QUAD $0x00f8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 248]
+	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
+	QUAD $0x00f0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 240]
+	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
+	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
+	QUAD $0x00e8fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 232]
+	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
+	QUAD $0x00e0fa842cfbe1c4; WORD $0x0000     // vcvttsd2si    rax, qword [rdx + 8*rdi + 224]
+	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
+	LONG $0xc76cf9c5                           // vpunpcklqdq    xmm0, xmm0, xmm7
+	QUAD $0x000090f98c7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 144], xmm1
+	QUAD $0x000080f9847f7ac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 128], xmm8
+	QUAD $0x0000a0f99c7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 160], xmm3
+	QUAD $0x0000b0f9947ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 176], xmm2
+	QUAD $0x0000c0f9ac7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 192], xmm5
+	QUAD $0x0000d0f9a47ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 208], xmm4
+	QUAD $0x0000e0f9847ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 224], xmm0
+	QUAD $0x0000f0f9b47ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 240], xmm6
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28349                           // add    r10, 2
+	JNE  LBB0_631
+	JMP  LBB0_1111
+
+LBB0_632:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1115
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_634:
+	LONG $0x045afdc5; BYTE $0xfa         // vcvtpd2ps    xmm0, yword [rdx + 8*rdi]
+	LONG $0x4c5afdc5; WORD $0x20fa       // vcvtpd2ps    xmm1, yword [rdx + 8*rdi + 32]
+	LONG $0x545afdc5; WORD $0x40fa       // vcvtpd2ps    xmm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c5afdc5; WORD $0x60fa       // vcvtpd2ps    xmm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411f9c5; BYTE $0xb9         // vmovupd    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f9c5; WORD $0x10b9       // vmovupd    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f9c5; WORD $0x20b9       // vmovupd    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f9c5; WORD $0x30b9       // vmovupd    oword [rcx + 4*rdi + 48], xmm3
+	QUAD $0x000080fa845afdc5; BYTE $0x00 // vcvtpd2ps    xmm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8c5afdc5; BYTE $0x00 // vcvtpd2ps    xmm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa945afdc5; BYTE $0x00 // vcvtpd2ps    xmm2, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9c5afdc5; BYTE $0x00 // vcvtpd2ps    xmm3, yword [rdx + 8*rdi + 224]
+	LONG $0x4411f9c5; WORD $0x40b9       // vmovupd    oword [rcx + 4*rdi + 64], xmm0
+	LONG $0x4c11f9c5; WORD $0x50b9       // vmovupd    oword [rcx + 4*rdi + 80], xmm1
+	LONG $0x5411f9c5; WORD $0x60b9       // vmovupd    oword [rcx + 4*rdi + 96], xmm2
+	LONG $0x5c11f9c5; WORD $0x70b9       // vmovupd    oword [rcx + 4*rdi + 112], xmm3
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_634
+	JMP  LBB0_1116
+
+LBB0_644:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x02eac149         // shr    r10, 2
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8945; BYTE $0xd0 // mov    r8d, r10d
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_850
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_852
+
+LBB0_646:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_975
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_648:
+	LONG $0x347de2c4; WORD $0x7a04             // vpmovzxwq    ymm0, qword [rdx + 2*rdi]
+	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 8]
+	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 16]
+	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 24]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x347de2c4; WORD $0x7a44; BYTE $0x20 // vpmovzxwq    ymm0, qword [rdx + 2*rdi + 32]
+	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x28 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 40]
+	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x30 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 48]
+	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x38 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 56]
+	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_648
+	JMP  LBB0_976
+
+LBB0_649:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1120
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_651:
+	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
+	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
+	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
+	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
+	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x337de2c4; WORD $0x7a44; BYTE $0x40 // vpmovzxwd    ymm0, oword [rdx + 2*rdi + 64]
+	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 80]
+	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x60 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 96]
+	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 112]
+	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
+	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
+	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	QUAD $0x000080b98411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b99411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_651
+	JMP  LBB0_1121
+
+LBB0_652:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1125
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_654:
+	LONG $0x247de2c4; WORD $0x7a04             // vpmovsxwq    ymm0, qword [rdx + 2*rdi]
+	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 8]
+	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 16]
+	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 24]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x247de2c4; WORD $0x7a44; BYTE $0x20 // vpmovsxwq    ymm0, qword [rdx + 2*rdi + 32]
+	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x28 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 40]
+	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x30 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 48]
+	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x38 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 56]
+	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_654
+	JMP  LBB0_1126
+
+LBB0_655:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1130
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_657:
+	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
+	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
+	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
+	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
+	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x237de2c4; WORD $0x7a44; BYTE $0x40 // vpmovsxwd    ymm0, oword [rdx + 2*rdi + 64]
+	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 80]
+	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x60 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 96]
+	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 112]
+	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
+	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
+	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	QUAD $0x000080b98411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b99411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_657
+	JMP  LBB0_1131
+
+LBB0_661:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1135
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf749; BYTE $0xda // neg    r10
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_663:
+	LONG $0x046ffac5; BYTE $0xfa         // vmovdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x16f9e3c4; WORD $0x01c0       // vpextrq    rax, xmm0, 1
+	LONG $0x4c6ffac5; WORD $0x10fa       // vmovdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x2abae1c4; BYTE $0xd0         // vcvtsi2ss    xmm2, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xc0         // vmovq    rax, xmm0
+	LONG $0x2abae1c4; BYTE $0xc0         // vcvtsi2ss    xmm0, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
+	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
+	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
+	LONG $0x2abae1c4; BYTE $0xc8         // vcvtsi2ss    xmm1, xmm8, rax
+	LONG $0x646ffac5; WORD $0x20fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 32]
+	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
+	LONG $0x6c6ffac5; WORD $0x30fa       // vmovdqu    xmm5, oword [rdx + 8*rdi + 48]
+	LONG $0x2abae1c4; BYTE $0xf0         // vcvtsi2ss    xmm6, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
+	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
+	LONG $0x2abae1c4; BYTE $0xf8         // vcvtsi2ss    xmm7, xmm8, rax
+	LONG $0x2179e3c4; WORD $0x10c2       // vinsertps    xmm0, xmm0, xmm2, 16
+	LONG $0x2179e3c4; WORD $0x20c3       // vinsertps    xmm0, xmm0, xmm3, 32
+	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
+	LONG $0x2179e3c4; WORD $0x30c1       // vinsertps    xmm0, xmm0, xmm1, 48
+	LONG $0x2abae1c4; BYTE $0xc8         // vcvtsi2ss    xmm1, xmm8, rax
+	LONG $0x2159e3c4; WORD $0x10d6       // vinsertps    xmm2, xmm4, xmm6, 16
+	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
+	LONG $0x16f9e3c4; WORD $0x01d8       // vpextrq    rax, xmm3, 1
+	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xd8         // vmovq    rax, xmm3
+	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
+	LONG $0x6c6ffac5; WORD $0x50fa       // vmovdqu    xmm5, oword [rdx + 8*rdi + 80]
+	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
+	LONG $0x2abae1c4; BYTE $0xf0         // vcvtsi2ss    xmm6, xmm8, rax
+	LONG $0x2169e3c4; WORD $0x20d7       // vinsertps    xmm2, xmm2, xmm7, 32
+	LONG $0x2169e3c4; WORD $0x30c9       // vinsertps    xmm1, xmm2, xmm1, 48
+	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
+	LONG $0x2161e3c4; WORD $0x10d4       // vinsertps    xmm2, xmm3, xmm4, 16
+	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
+	LONG $0x2169e3c4; WORD $0x20d6       // vinsertps    xmm2, xmm2, xmm6, 32
+	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
+	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
+	LONG $0x2abae1c4; BYTE $0xe8         // vcvtsi2ss    xmm5, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
+	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
+	LONG $0x746ffac5; WORD $0x70fa       // vmovdqu    xmm6, oword [rdx + 8*rdi + 112]
+	LONG $0x7ef9e1c4; BYTE $0xf0         // vmovq    rax, xmm6
+	LONG $0x2abae1c4; BYTE $0xf8         // vcvtsi2ss    xmm7, xmm8, rax
+	LONG $0x2169e3c4; WORD $0x30d3       // vinsertps    xmm2, xmm2, xmm3, 48
+	LONG $0x2159e3c4; WORD $0x10dd       // vinsertps    xmm3, xmm4, xmm5, 16
+	LONG $0x16f9e3c4; WORD $0x01f0       // vpextrq    rax, xmm6, 1
+	LONG $0x2161e3c4; WORD $0x20df       // vinsertps    xmm3, xmm3, xmm7, 32
+	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
+	LONG $0x2161e3c4; WORD $0x30dc       // vinsertps    xmm3, xmm3, xmm4, 48
+	LONG $0x0411f8c5; BYTE $0xb9         // vmovups    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f8c5; WORD $0x10b9       // vmovups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f8c5; WORD $0x20b9       // vmovups    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f8c5; WORD $0x30b9       // vmovups    oword [rcx + 4*rdi + 48], xmm3
+	QUAD $0x000080fa846ffac5; BYTE $0x00 // vmovdqu    xmm0, oword [rdx + 8*rdi + 128]
+	LONG $0x16f9e3c4; WORD $0x01c0       // vpextrq    rax, xmm0, 1
+	QUAD $0x000090fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 144]
+	LONG $0x2abae1c4; BYTE $0xd0         // vcvtsi2ss    xmm2, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xc0         // vmovq    rax, xmm0
+	LONG $0x2abae1c4; BYTE $0xc0         // vcvtsi2ss    xmm0, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
+	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
+	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
+	LONG $0x2abae1c4; BYTE $0xc8         // vcvtsi2ss    xmm1, xmm8, rax
+	QUAD $0x0000a0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 160]
+	LONG $0x16f9e3c4; WORD $0x01e0       // vpextrq    rax, xmm4, 1
+	LONG $0x2abae1c4; BYTE $0xe8         // vcvtsi2ss    xmm5, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
+	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
+	LONG $0x2179e3c4; WORD $0x10c2       // vinsertps    xmm0, xmm0, xmm2, 16
+	QUAD $0x0000b0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 176]
+	LONG $0x16f9c3c4; WORD $0x01d3       // vpextrq    r11, xmm2, 1
+	LONG $0x7ef9e1c4; BYTE $0xd0         // vmovq    rax, xmm2
+	LONG $0x2abae1c4; BYTE $0xd0         // vcvtsi2ss    xmm2, xmm8, rax
+	LONG $0x2179e3c4; WORD $0x20c3       // vinsertps    xmm0, xmm0, xmm3, 32
+	LONG $0x2abac1c4; BYTE $0xdb         // vcvtsi2ss    xmm3, xmm8, r11
+	LONG $0x2179e3c4; WORD $0x30c1       // vinsertps    xmm0, xmm0, xmm1, 48
+	QUAD $0x0000c0fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 192]
+	LONG $0x16f9e3c4; WORD $0x01c8       // vpextrq    rax, xmm1, 1
+	LONG $0x2159e3c4; WORD $0x10e5       // vinsertps    xmm4, xmm4, xmm5, 16
+	LONG $0x2abae1c4; BYTE $0xe8         // vcvtsi2ss    xmm5, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xc8         // vmovq    rax, xmm1
+	LONG $0x2abae1c4; BYTE $0xc8         // vcvtsi2ss    xmm1, xmm8, rax
+	LONG $0x2159e3c4; WORD $0x20d2       // vinsertps    xmm2, xmm4, xmm2, 32
+	QUAD $0x0000d0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 208]
+	LONG $0x16f9c3c4; WORD $0x01e3       // vpextrq    r11, xmm4, 1
+	LONG $0x7ef9e1c4; BYTE $0xe0         // vmovq    rax, xmm4
+	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
+	LONG $0x2169e3c4; WORD $0x30d3       // vinsertps    xmm2, xmm2, xmm3, 48
+	LONG $0x2abac1c4; BYTE $0xdb         // vcvtsi2ss    xmm3, xmm8, r11
+	LONG $0x2171e3c4; WORD $0x10cd       // vinsertps    xmm1, xmm1, xmm5, 16
+	QUAD $0x0000e0faac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 8*rdi + 224]
+	LONG $0x16f9e3c4; WORD $0x01e8       // vpextrq    rax, xmm5, 1
+	LONG $0x2171e3c4; WORD $0x20cc       // vinsertps    xmm1, xmm1, xmm4, 32
+	LONG $0x2abae1c4; BYTE $0xe0         // vcvtsi2ss    xmm4, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xe8         // vmovq    rax, xmm5
+	LONG $0x2abae1c4; BYTE $0xe8         // vcvtsi2ss    xmm5, xmm8, rax
+	LONG $0x2171e3c4; WORD $0x30cb       // vinsertps    xmm1, xmm1, xmm3, 48
+	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
+	LONG $0x16f9c3c4; WORD $0x01db       // vpextrq    r11, xmm3, 1
+	LONG $0x7ef9e1c4; BYTE $0xd8         // vmovq    rax, xmm3
+	LONG $0x2abae1c4; BYTE $0xd8         // vcvtsi2ss    xmm3, xmm8, rax
+	LONG $0x2151e3c4; WORD $0x10e4       // vinsertps    xmm4, xmm5, xmm4, 16
+	LONG $0x2abac1c4; BYTE $0xeb         // vcvtsi2ss    xmm5, xmm8, r11
+	LONG $0x2159e3c4; WORD $0x20db       // vinsertps    xmm3, xmm4, xmm3, 32
+	LONG $0x2161e3c4; WORD $0x30dd       // vinsertps    xmm3, xmm3, xmm5, 48
+	LONG $0x4411f8c5; WORD $0x40b9       // vmovups    oword [rcx + 4*rdi + 64], xmm0
+	LONG $0x5411f8c5; WORD $0x50b9       // vmovups    oword [rcx + 4*rdi + 80], xmm2
+	LONG $0x4c11f8c5; WORD $0x60b9       // vmovups    oword [rcx + 4*rdi + 96], xmm1
+	LONG $0x5c11f8c5; WORD $0x70b9       // vmovups    oword [rcx + 4*rdi + 112], xmm3
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c28349                     // add    r10, 2
+	JNE  LBB0_663
+	JMP  LBB0_1136
+
+LBB0_664:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1140
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf749; BYTE $0xda // neg    r10
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_666:
+	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x04 // vcvttss2si    rbx, dword [rdx + 4*rdi + 4]
+	LONG $0x6ef9e1c4; BYTE $0xc3               // vmovq    xmm0, rbx
+	LONG $0x2cfae1c4; WORD $0xba1c             // vcvttss2si    rbx, dword [rdx + 4*rdi]
+	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
+	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x0c // vcvttss2si    rbx, dword [rdx + 4*rdi + 12]
+	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x08 // vcvttss2si    rax, dword [rdx + 4*rdi + 8]
+	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
+	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x1c // vcvttss2si    rbx, dword [rdx + 4*rdi + 28]
+	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x18 // vcvttss2si    rax, dword [rdx + 4*rdi + 24]
+	LONG $0xc96ce9c5                           // vpunpcklqdq    xmm1, xmm2, xmm1
+	LONG $0x6ef9e1c4; BYTE $0xd3               // vmovq    xmm2, rbx
+	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
+	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x14 // vcvttss2si    rax, dword [rdx + 4*rdi + 20]
+	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x10 // vcvttss2si    rax, dword [rdx + 4*rdi + 16]
+	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
+	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x2c // vcvttss2si    rax, dword [rdx + 4*rdi + 44]
+	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x28 // vcvttss2si    rax, dword [rdx + 4*rdi + 40]
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x24 // vcvttss2si    rax, dword [rdx + 4*rdi + 36]
+	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
+	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x20 // vcvttss2si    rbx, dword [rdx + 4*rdi + 32]
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x3c // vcvttss2si    rax, dword [rdx + 4*rdi + 60]
+	LONG $0x6ef9e1c4; BYTE $0xf3               // vmovq    xmm6, rbx
+	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x38 // vcvttss2si    rbx, dword [rdx + 4*rdi + 56]
+	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
+	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
+	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
+	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x34 // vcvttss2si    rax, dword [rdx + 4*rdi + 52]
+	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x30 // vcvttss2si    rax, dword [rdx + 4*rdi + 48]
+	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
+	LONG $0xc76cf9c5                           // vpunpcklqdq    xmm0, xmm0, xmm7
+	LONG $0x4c7ffac5; WORD $0x10f9             // vmovdqu    oword [rcx + 8*rdi + 16], xmm1
+	LONG $0x047f7ac5; BYTE $0xf9               // vmovdqu    oword [rcx + 8*rdi], xmm8
+	LONG $0x5c7ffac5; WORD $0x20f9             // vmovdqu    oword [rcx + 8*rdi + 32], xmm3
+	LONG $0x547ffac5; WORD $0x30f9             // vmovdqu    oword [rcx + 8*rdi + 48], xmm2
+	LONG $0x6c7ffac5; WORD $0x40f9             // vmovdqu    oword [rcx + 8*rdi + 64], xmm5
+	LONG $0x647ffac5; WORD $0x50f9             // vmovdqu    oword [rcx + 8*rdi + 80], xmm4
+	LONG $0x447ffac5; WORD $0x60f9             // vmovdqu    oword [rcx + 8*rdi + 96], xmm0
+	LONG $0x747ffac5; WORD $0x70f9             // vmovdqu    oword [rcx + 8*rdi + 112], xmm6
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x44 // vcvttss2si    rax, dword [rdx + 4*rdi + 68]
+	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x40 // vcvttss2si    rbx, dword [rdx + 4*rdi + 64]
+	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x4c // vcvttss2si    rax, dword [rdx + 4*rdi + 76]
+	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
+	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x48 // vcvttss2si    rbx, dword [rdx + 4*rdi + 72]
+	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
+	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
+	LONG $0x6ef9e1c4; BYTE $0xcb               // vmovq    xmm1, rbx
+	LONG $0xca6cf1c5                           // vpunpcklqdq    xmm1, xmm1, xmm2
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x5c // vcvttss2si    rax, dword [rdx + 4*rdi + 92]
+	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x58 // vcvttss2si    rax, dword [rdx + 4*rdi + 88]
+	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
+	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x54 // vcvttss2si    rax, dword [rdx + 4*rdi + 84]
+	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x50 // vcvttss2si    rax, dword [rdx + 4*rdi + 80]
+	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x6c // vcvttss2si    rax, dword [rdx + 4*rdi + 108]
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x68 // vcvttss2si    rax, dword [rdx + 4*rdi + 104]
+	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x64 // vcvttss2si    rax, dword [rdx + 4*rdi + 100]
+	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x60 // vcvttss2si    rax, dword [rdx + 4*rdi + 96]
+	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
+	LONG $0xe56cc9c5                           // vpunpcklqdq    xmm4, xmm6, xmm5
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	LONG $0xef6cd1c5                           // vpunpcklqdq    xmm5, xmm5, xmm7
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x7c // vcvttss2si    rax, dword [rdx + 4*rdi + 124]
+	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x78 // vcvttss2si    rax, dword [rdx + 4*rdi + 120]
+	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
+	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x74 // vcvttss2si    rax, dword [rdx + 4*rdi + 116]
+	LONG $0x6ef9e1c4; BYTE $0xf8               // vmovq    xmm7, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x70 // vcvttss2si    rax, dword [rdx + 4*rdi + 112]
+	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
+	LONG $0xc76cf9c5                           // vpunpcklqdq    xmm0, xmm0, xmm7
+	QUAD $0x000090f98c7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 144], xmm1
+	QUAD $0x000080f9847f7ac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 128], xmm8
+	QUAD $0x0000a0f99c7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 160], xmm3
+	QUAD $0x0000b0f9947ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 176], xmm2
+	QUAD $0x0000c0f9ac7ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 192], xmm5
+	QUAD $0x0000d0f9a47ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 208], xmm4
+	QUAD $0x0000e0f9847ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 224], xmm0
+	QUAD $0x0000f0f9b47ffac5; BYTE $0x00       // vmovdqu    oword [rcx + 8*rdi + 240], xmm6
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28349                           // add    r10, 2
+	JNE  LBB0_666
+	JMP  LBB0_1141
+
+LBB0_676:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_980
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_678:
+	LONG $0x257de2c4; WORD $0xba04             // vpmovsxdq    ymm0, oword [rdx + 4*rdi]
+	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x10 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 16]
+	LONG $0x257de2c4; WORD $0xba54; BYTE $0x20 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 32]
+	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x30 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x257de2c4; WORD $0xba44; BYTE $0x40 // vpmovsxdq    ymm0, oword [rdx + 4*rdi + 64]
+	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x50 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 80]
+	LONG $0x257de2c4; WORD $0xba54; BYTE $0x60 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 96]
+	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x70 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 112]
+	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_678
+	JMP  LBB0_981
+
+LBB0_679:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_985
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_681:
+	LONG $0x045bfcc5; BYTE $0xba         // vcvtdq2ps    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c5bfcc5; WORD $0x20ba       // vcvtdq2ps    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x545bfcc5; WORD $0x40ba       // vcvtdq2ps    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c5bfcc5; WORD $0x60ba       // vcvtdq2ps    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
+	QUAD $0x000080ba845bfcc5; BYTE $0x00 // vcvtdq2ps    ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba8c5bfcc5; BYTE $0x00 // vcvtdq2ps    ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba945bfcc5; BYTE $0x00 // vcvtdq2ps    ymm2, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0ba9c5bfcc5; BYTE $0x00 // vcvtdq2ps    ymm3, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98411fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b99411fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_681
+	JMP  LBB0_986
+
+LBB0_715:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_990
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_717:
+	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
+	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54e6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5ce6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411f9c5; BYTE $0xb9         // vmovupd    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f9c5; WORD $0x10b9       // vmovupd    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f9c5; WORD $0x20b9       // vmovupd    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f9c5; WORD $0x30b9       // vmovupd    oword [rcx + 4*rdi + 48], xmm3
+	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 224]
+	LONG $0x4411f9c5; WORD $0x40b9       // vmovupd    oword [rcx + 4*rdi + 64], xmm0
+	LONG $0x4c11f9c5; WORD $0x50b9       // vmovupd    oword [rcx + 4*rdi + 80], xmm1
+	LONG $0x5411f9c5; WORD $0x60b9       // vmovupd    oword [rcx + 4*rdi + 96], xmm2
+	LONG $0x5c11f9c5; WORD $0x70b9       // vmovupd    oword [rcx + 4*rdi + 112], xmm3
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_717
+	JMP  LBB0_991
+
+LBB0_721:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_995
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_723:
+	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
+	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
+	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
+	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
+	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
+	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
+	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
+	QUAD $0x000080fa8410f8c5; BYTE $0x00       // vmovups    xmm0, oword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8c10f8c5; BYTE $0x00       // vmovups    xmm1, oword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9410f8c5; BYTE $0x00       // vmovups    xmm2, oword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9c10f8c5; BYTE $0x00       // vmovups    xmm3, oword [rdx + 8*rdi + 224]
+	QUAD $0x000090fa84c6f8c5; WORD $0x8800     // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 144], 136
+	QUAD $0x0000b0fa8cc6f0c5; WORD $0x8800     // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 176], 136
+	QUAD $0x0000d0fa94c6e8c5; WORD $0x8800     // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 208], 136
+	QUAD $0x0000f0fa9cc6e0c5; WORD $0x8800     // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 240], 136
+	LONG $0x4411f8c5; WORD $0x40b9             // vmovups    oword [rcx + 4*rdi + 64], xmm0
+	LONG $0x4c11f8c5; WORD $0x50b9             // vmovups    oword [rcx + 4*rdi + 80], xmm1
+	LONG $0x5411f8c5; WORD $0x60b9             // vmovups    oword [rcx + 4*rdi + 96], xmm2
+	LONG $0x5c11f8c5; WORD $0x70b9             // vmovups    oword [rcx + 4*rdi + 112], xmm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_723
+	JMP  LBB0_996
+
+LBB0_724:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1000
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_726:
+	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
+	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x337de2c4; WORD $0x7a44; BYTE $0x40 // vpmovzxwd    ymm0, oword [rdx + 2*rdi + 64]
+	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 80]
+	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x60 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 96]
+	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 112]
+	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_726
+	JMP  LBB0_1001
+
+LBB0_727:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1005
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_729:
+	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
+	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x237de2c4; WORD $0x7a44; BYTE $0x40 // vpmovsxwd    ymm0, oword [rdx + 2*rdi + 64]
+	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x50 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 80]
+	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x60 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 96]
+	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x70 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 112]
+	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_729
+	JMP  LBB0_1006
+
+LBB0_730:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1010
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_732:
+	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
+	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
+	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
+	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
+	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
+	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
+	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
+	QUAD $0x000080fa8410f8c5; BYTE $0x00       // vmovups    xmm0, oword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8c10f8c5; BYTE $0x00       // vmovups    xmm1, oword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9410f8c5; BYTE $0x00       // vmovups    xmm2, oword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9c10f8c5; BYTE $0x00       // vmovups    xmm3, oword [rdx + 8*rdi + 224]
+	QUAD $0x000090fa84c6f8c5; WORD $0x8800     // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 144], 136
+	QUAD $0x0000b0fa8cc6f0c5; WORD $0x8800     // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 176], 136
+	QUAD $0x0000d0fa94c6e8c5; WORD $0x8800     // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 208], 136
+	QUAD $0x0000f0fa9cc6e0c5; WORD $0x8800     // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 240], 136
+	LONG $0x4411f8c5; WORD $0x40b9             // vmovups    oword [rcx + 4*rdi + 64], xmm0
+	LONG $0x4c11f8c5; WORD $0x50b9             // vmovups    oword [rcx + 4*rdi + 80], xmm1
+	LONG $0x5411f8c5; WORD $0x60b9             // vmovups    oword [rcx + 4*rdi + 96], xmm2
+	LONG $0x5c11f8c5; WORD $0x70b9             // vmovups    oword [rcx + 4*rdi + 112], xmm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_732
+	JMP  LBB0_1011
+
+LBB0_733:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1015
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_735:
+	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c5bfec5; WORD $0x20ba       // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x545bfec5; WORD $0x40ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c5bfec5; WORD $0x60ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
+	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba8c5bfec5; BYTE $0x00 // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_735
+	JMP  LBB0_1016
+
+LBB0_742:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1185
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_744:
+	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
+	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_744
+	JMP  LBB0_1186
+
+LBB0_745:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1193
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_747:
+	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
+	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
+	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
+	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x217de2c4; WORD $0x3a44; BYTE $0x20 // vpmovsxbd    ymm0, qword [rdx + rdi + 32]
+	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovsxbd    ymm1, qword [rdx + rdi + 40]
+	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x30 // vpmovsxbd    ymm2, qword [rdx + rdi + 48]
+	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovsxbd    ymm3, qword [rdx + rdi + 56]
+	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_747
+	JMP  LBB0_1194
+
+LBB0_748:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1201
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_750:
+	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
+	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
+	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
+	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x317de2c4; WORD $0x3a44; BYTE $0x20 // vpmovzxbd    ymm0, qword [rdx + rdi + 32]
+	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovzxbd    ymm1, qword [rdx + rdi + 40]
+	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x30 // vpmovzxbd    ymm2, qword [rdx + rdi + 48]
+	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovzxbd    ymm3, qword [rdx + rdi + 56]
+	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_750
+	JMP  LBB0_1202
+
+LBB0_751:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1209
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_753:
+	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
+	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_753
+	JMP  LBB0_1210
+
+LBB0_754:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1217
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_756:
+	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
+	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_756
+	JMP  LBB0_1218
+
+LBB0_757:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1225
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_759:
+	LONG $0x2179e2c4; WORD $0x3a04             // vpmovsxbd    xmm0, dword [rdx + rdi]
+	LONG $0x2179e2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbd    xmm1, dword [rdx + rdi + 4]
+	LONG $0x2179e2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbd    xmm2, dword [rdx + rdi + 8]
+	LONG $0x2179e2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbd    xmm3, dword [rdx + rdi + 12]
+	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
+	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
+	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0x0411fcc5; BYTE $0xf9               // vmovups    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20f9             // vmovups    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40f9             // vmovups    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60f9             // vmovups    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x2179e2c4; WORD $0x3a44; BYTE $0x10 // vpmovsxbd    xmm0, dword [rdx + rdi + 16]
+	LONG $0x2179e2c4; WORD $0x3a4c; BYTE $0x14 // vpmovsxbd    xmm1, dword [rdx + rdi + 20]
+	LONG $0x2179e2c4; WORD $0x3a54; BYTE $0x18 // vpmovsxbd    xmm2, dword [rdx + rdi + 24]
+	LONG $0x2179e2c4; WORD $0x3a5c; BYTE $0x1c // vpmovsxbd    xmm3, dword [rdx + rdi + 28]
+	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
+	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
+	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	QUAD $0x000080f98411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_759
+	JMP  LBB0_1226
+
+LBB0_760:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1233
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_762:
+	LONG $0x3179e2c4; WORD $0x3a04             // vpmovzxbd    xmm0, dword [rdx + rdi]
+	LONG $0x3179e2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbd    xmm1, dword [rdx + rdi + 4]
+	LONG $0x3179e2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbd    xmm2, dword [rdx + rdi + 8]
+	LONG $0x3179e2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbd    xmm3, dword [rdx + rdi + 12]
+	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
+	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
+	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0x0411fcc5; BYTE $0xf9               // vmovups    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20f9             // vmovups    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40f9             // vmovups    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60f9             // vmovups    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x3179e2c4; WORD $0x3a44; BYTE $0x10 // vpmovzxbd    xmm0, dword [rdx + rdi + 16]
+	LONG $0x3179e2c4; WORD $0x3a4c; BYTE $0x14 // vpmovzxbd    xmm1, dword [rdx + rdi + 20]
+	LONG $0x3179e2c4; WORD $0x3a54; BYTE $0x18 // vpmovzxbd    xmm2, dword [rdx + rdi + 24]
+	LONG $0x3179e2c4; WORD $0x3a5c; BYTE $0x1c // vpmovzxbd    xmm3, dword [rdx + rdi + 28]
+	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
+	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
+	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	QUAD $0x000080f98411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f99411fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_762
+	JMP  LBB0_1234
+
+LBB0_763:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x05e8c149             // shr    r8, 5
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1241
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456ff9c5; BYTE $0x70 // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
+
+LBB0_765:
+	LONG $0x0c6ffac5; BYTE $0xba         // vmovdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546ffac5; WORD $0x10ba       // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x50ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x40ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
+	LONG $0x646ffac5; WORD $0x70ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0x6c6ffac5; WORD $0x60ba       // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
+	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
+	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
+	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
+	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
+	LONG $0x0c7ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm1
+	QUAD $0x000080ba8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 4*rdi + 128]
+	QUAD $0x000090ba946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 4*rdi + 144]
+	QUAD $0x0000a0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 160]
+	QUAD $0x0000b0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 176]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
+	QUAD $0x0000d0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 208]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	QUAD $0x0000c0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 192]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
+	QUAD $0x0000f0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 240]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	QUAD $0x0000e0baac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 4*rdi + 224]
+	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
+	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
+	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
+	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
+	LONG $0x4c7ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm1
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_765
+	JMP  LBB0_1242
+
+LBB0_766:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1249
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_768:
+	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
+	LONG $0xc06bf9c5                     // vpackssdw    xmm0, xmm0, xmm0
+	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
+	LONG $0xc063f9c5                     // vpacksswb    xmm0, xmm0, xmm0
+	LONG $0xc96bf1c5                     // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xc963f1c5                     // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0xc162f9c5                     // vpunpckldq    xmm0, xmm0, xmm1
+	LONG $0x4ce6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 64]
+	LONG $0xc96bf1c5                     // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xc963f1c5                     // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0x54e6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 96]
+	LONG $0xd26be9c5                     // vpackssdw    xmm2, xmm2, xmm2
+	LONG $0xd263e9c5                     // vpacksswb    xmm2, xmm2, xmm2
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0xc16cf9c5                     // vpunpcklqdq    xmm0, xmm0, xmm1
+	LONG $0x047ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm0
+	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
+	LONG $0xc06bf9c5                     // vpackssdw    xmm0, xmm0, xmm0
+	LONG $0xc063f9c5                     // vpacksswb    xmm0, xmm0, xmm0
+	LONG $0xc96bf1c5                     // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0xc963f1c5                     // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0xc162f9c5                     // vpunpckldq    xmm0, xmm0, xmm1
+	QUAD $0x0000c0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 192]
+	LONG $0xc96bf1c5                     // vpackssdw    xmm1, xmm1, xmm1
+	QUAD $0x0000e0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 224]
+	LONG $0xc963f1c5                     // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0xd26be9c5                     // vpackssdw    xmm2, xmm2, xmm2
+	LONG $0xd263e9c5                     // vpacksswb    xmm2, xmm2, xmm2
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0xc16cf9c5                     // vpunpcklqdq    xmm0, xmm0, xmm1
+	LONG $0x447ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm0
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_768
+	JMP  LBB0_1250
+
+LBB0_769:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	LONG $0x80468d48         // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x07e8c149         // shr    r8, 7
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1257
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_771:
+	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
+	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
+	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
+	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
+	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
+	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
+	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
+	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
+	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
+	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_771
+	JMP  LBB0_1258
+
+LBB0_772:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x04e8c149             // shr    r8, 4
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1265
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456ff9c5; BYTE $0x40 // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
+
+LBB0_774:
+	LONG $0x0c6ffac5; BYTE $0xfa         // vmovdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546ffac5; WORD $0x10fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x546ffac5; WORD $0x50fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x70fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
+	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
+	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
+	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
+	QUAD $0x000080fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 128]
+	QUAD $0x000090fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 144]
+	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
+	QUAD $0x0000b0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 176]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	QUAD $0x0000d0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 208]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	QUAD $0x0000c0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 192]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	QUAD $0x0000e0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 224]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
+	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
+	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
+	LONG $0x4c7ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm1
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_774
+	JMP  LBB0_1266
+
+LBB0_775:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	LONG $0xc0468d48         // lea    rax, [rsi - 64]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x06e8c149         // shr    r8, 6
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1273
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
+
+LBB0_777:
+	LONG $0x0cdbfdc5; BYTE $0x7a         // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
+	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
+	LONG $0x54dbfdc5; WORD $0x207a       // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
+	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
+	LONG $0x5cdbfdc5; WORD $0x407a       // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
+	LONG $0x64dbfdc5; WORD $0x607a       // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
+	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
+	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
+	LONG $0x547ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm2
+	LONG $0x5c7ffac5; WORD $0x2039       // vmovdqu    oword [rcx + rdi + 32], xmm3
+	LONG $0x647ffac5; WORD $0x3039       // vmovdqu    oword [rcx + rdi + 48], xmm4
+	QUAD $0x0000807a8cdbfdc5; BYTE $0x00 // vpand    ymm1, ymm0, yword [rdx + 2*rdi + 128]
+	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
+	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
+	QUAD $0x0000a07a94dbfdc5; BYTE $0x00 // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 160]
+	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
+	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
+	QUAD $0x0000c07a9cdbfdc5; BYTE $0x00 // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 192]
+	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
+	QUAD $0x0000e07aa4dbfdc5; BYTE $0x00 // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 224]
+	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
+	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
+	LONG $0x4c7ffac5; WORD $0x4039       // vmovdqu    oword [rcx + rdi + 64], xmm1
+	LONG $0x547ffac5; WORD $0x5039       // vmovdqu    oword [rcx + rdi + 80], xmm2
+	LONG $0x5c7ffac5; WORD $0x6039       // vmovdqu    oword [rcx + rdi + 96], xmm3
+	LONG $0x647ffac5; WORD $0x7039       // vmovdqu    oword [rcx + rdi + 112], xmm4
+	LONG $0x80ef8348                     // sub    rdi, -128
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_777
+	JMP  LBB0_1274
+
+LBB0_778:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	LONG $0xc0468d48         // lea    rax, [rsi - 64]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x06e8c149         // shr    r8, 6
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1281
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
+
+LBB0_780:
+	LONG $0x0cdbfdc5; BYTE $0x7a         // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
+	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
+	LONG $0x54dbfdc5; WORD $0x207a       // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
+	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
+	LONG $0x5cdbfdc5; WORD $0x407a       // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
+	LONG $0x64dbfdc5; WORD $0x607a       // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
+	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
+	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
+	LONG $0x547ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm2
+	LONG $0x5c7ffac5; WORD $0x2039       // vmovdqu    oword [rcx + rdi + 32], xmm3
+	LONG $0x647ffac5; WORD $0x3039       // vmovdqu    oword [rcx + rdi + 48], xmm4
+	QUAD $0x0000807a8cdbfdc5; BYTE $0x00 // vpand    ymm1, ymm0, yword [rdx + 2*rdi + 128]
+	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
+	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
+	QUAD $0x0000a07a94dbfdc5; BYTE $0x00 // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 160]
+	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
+	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
+	QUAD $0x0000c07a9cdbfdc5; BYTE $0x00 // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 192]
+	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
+	QUAD $0x0000e07aa4dbfdc5; BYTE $0x00 // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 224]
+	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
+	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
+	LONG $0x4c7ffac5; WORD $0x4039       // vmovdqu    oword [rcx + rdi + 64], xmm1
+	LONG $0x547ffac5; WORD $0x5039       // vmovdqu    oword [rcx + rdi + 80], xmm2
+	LONG $0x5c7ffac5; WORD $0x6039       // vmovdqu    oword [rcx + rdi + 96], xmm3
+	LONG $0x647ffac5; WORD $0x7039       // vmovdqu    oword [rcx + rdi + 112], xmm4
+	LONG $0x80ef8348                     // sub    rdi, -128
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_780
+	JMP  LBB0_1282
+
+LBB0_781:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x04e8c149             // shr    r8, 4
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1289
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456ff9c5; BYTE $0x40 // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
+
+LBB0_783:
+	LONG $0x0c6ffac5; BYTE $0xfa         // vmovdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546ffac5; WORD $0x10fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x546ffac5; WORD $0x50fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x70fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
+	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
+	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
+	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
+	QUAD $0x000080fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 128]
+	QUAD $0x000090fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 144]
+	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
+	QUAD $0x0000b0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 176]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	QUAD $0x0000d0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 208]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	QUAD $0x0000c0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 192]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	QUAD $0x0000e0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 224]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
+	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
+	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
+	LONG $0x4c7ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm1
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_783
+	JMP  LBB0_1290
+
+LBB0_784:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1297
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_786:
+	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
+	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
+	LONG $0x545bfec5; WORD $0x20ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
+	LONG $0x397de3c4; WORD $0x01d1       // vextracti128    xmm1, ymm2, 1
+	LONG $0x5c5bfec5; WORD $0x40ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0xc96be9c5                     // vpackssdw    xmm1, xmm2, xmm1
+	LONG $0x397de3c4; WORD $0x01da       // vextracti128    xmm2, ymm3, 1
+	LONG $0x645bfec5; WORD $0x60ba       // vcvttps2dq    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xd26be1c5                     // vpackssdw    xmm2, xmm3, xmm2
+	LONG $0x397de3c4; WORD $0x01e3       // vextracti128    xmm3, ymm4, 1
+	LONG $0xdb6bd9c5                     // vpackssdw    xmm3, xmm4, xmm3
+	LONG $0x386de3c4; WORD $0x01d3       // vinserti128    ymm2, ymm2, xmm3, 1
+	LONG $0xd063edc5                     // vpacksswb    ymm2, ymm2, ymm0
+	LONG $0x387de3c4; WORD $0x01c1       // vinserti128    ymm0, ymm0, xmm1, 1
+	LONG $0xc063fdc5                     // vpacksswb    ymm0, ymm0, ymm0
+	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm0
+	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
+	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
+	QUAD $0x0000a0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 160]
+	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
+	LONG $0x397de3c4; WORD $0x01d1       // vextracti128    xmm1, ymm2, 1
+	QUAD $0x0000c0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 192]
+	LONG $0xc96be9c5                     // vpackssdw    xmm1, xmm2, xmm1
+	LONG $0x397de3c4; WORD $0x01da       // vextracti128    xmm2, ymm3, 1
+	QUAD $0x0000e0baa45bfec5; BYTE $0x00 // vcvttps2dq    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0xd26be1c5                     // vpackssdw    xmm2, xmm3, xmm2
+	LONG $0x397de3c4; WORD $0x01e3       // vextracti128    xmm3, ymm4, 1
+	LONG $0xdb6bd9c5                     // vpackssdw    xmm3, xmm4, xmm3
+	LONG $0x386de3c4; WORD $0x01d3       // vinserti128    ymm2, ymm2, xmm3, 1
+	LONG $0xd063edc5                     // vpacksswb    ymm2, ymm2, ymm0
+	LONG $0x387de3c4; WORD $0x01c1       // vinserti128    ymm0, ymm0, xmm1, 1
+	LONG $0xc063fdc5                     // vpacksswb    ymm0, ymm0, ymm0
+	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
+	LONG $0x447ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm0
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_786
+	JMP  LBB0_1298
+
+LBB0_787:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	LONG $0x80468d48         // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x07e8c149         // shr    r8, 7
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1305
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_789:
+	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
+	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
+	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
+	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
+	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
+	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
+	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
+	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
+	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
+	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_789
+	JMP  LBB0_1306
+
+LBB0_790:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x05e8c149             // shr    r8, 5
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1313
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456ff9c5; BYTE $0x70 // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
+
+LBB0_792:
+	LONG $0x0c6ffac5; BYTE $0xba         // vmovdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546ffac5; WORD $0x10ba       // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x50ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x40ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
+	LONG $0x646ffac5; WORD $0x70ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0x6c6ffac5; WORD $0x60ba       // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
+	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
+	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
+	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
+	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
+	LONG $0x0c7ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm1
+	QUAD $0x000080ba8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 4*rdi + 128]
+	QUAD $0x000090ba946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 4*rdi + 144]
+	QUAD $0x0000a0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 160]
+	QUAD $0x0000b0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 176]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
+	QUAD $0x0000d0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 208]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	QUAD $0x0000c0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 192]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
+	QUAD $0x0000f0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 240]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	QUAD $0x0000e0baac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 4*rdi + 224]
+	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
+	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
+	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
+	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
+	LONG $0x4c7ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm1
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_792
+	JMP  LBB0_1314
+
+LBB0_801:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1321
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_803:
+	LONG $0x227de2c4; WORD $0x3a04             // vpmovsxbq    ymm0, dword [rdx + rdi]
+	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbq    ymm1, dword [rdx + rdi + 4]
+	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbq    ymm2, dword [rdx + rdi + 8]
+	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbq    ymm3, dword [rdx + rdi + 12]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x227de2c4; WORD $0x3a44; BYTE $0x10 // vpmovsxbq    ymm0, dword [rdx + rdi + 16]
+	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x14 // vpmovsxbq    ymm1, dword [rdx + rdi + 20]
+	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x18 // vpmovsxbq    ymm2, dword [rdx + rdi + 24]
+	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x1c // vpmovsxbq    ymm3, dword [rdx + rdi + 28]
+	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_803
+	JMP  LBB0_1322
+
+LBB0_804:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1329
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_806:
+	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
+	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_806
+	JMP  LBB0_1330
+
+LBB0_807:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1337
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_809:
+	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
+	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_809
+	JMP  LBB0_1338
+
+LBB0_818:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1345
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_820:
+	LONG $0x327de2c4; WORD $0x3a04             // vpmovzxbq    ymm0, dword [rdx + rdi]
+	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbq    ymm1, dword [rdx + rdi + 4]
+	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbq    ymm2, dword [rdx + rdi + 8]
+	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbq    ymm3, dword [rdx + rdi + 12]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x327de2c4; WORD $0x3a44; BYTE $0x10 // vpmovzxbq    ymm0, dword [rdx + rdi + 16]
+	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x14 // vpmovzxbq    ymm1, dword [rdx + rdi + 20]
+	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x18 // vpmovzxbq    ymm2, dword [rdx + rdi + 24]
+	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x1c // vpmovzxbq    ymm3, dword [rdx + rdi + 28]
+	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_820
+	JMP  LBB0_1346
+
+LBB0_821:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	LONG $0xc0468d48         // lea    rax, [rsi - 64]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x06e8c149         // shr    r8, 6
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1353
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_823:
+	LONG $0x207de2c4; WORD $0x3a04             // vpmovsxbw    ymm0, oword [rdx + rdi]
+	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovsxbw    ymm1, oword [rdx + rdi + 16]
+	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x20 // vpmovsxbw    ymm2, oword [rdx + rdi + 32]
+	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovsxbw    ymm3, oword [rdx + rdi + 48]
+	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
+	LONG $0x207de2c4; WORD $0x3a44; BYTE $0x40 // vpmovsxbw    ymm0, oword [rdx + rdi + 64]
+	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x50 // vpmovsxbw    ymm1, oword [rdx + rdi + 80]
+	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x60 // vpmovsxbw    ymm2, oword [rdx + rdi + 96]
+	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x70 // vpmovsxbw    ymm3, oword [rdx + rdi + 112]
+	QUAD $0x00008079847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 128], ymm0
+	QUAD $0x0000a0798c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 160], ymm1
+	QUAD $0x0000c079947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 192], ymm2
+	QUAD $0x0000e0799c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 224], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_823
+	JMP  LBB0_1354
+
+LBB0_824:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	LONG $0xc0468d48         // lea    rax, [rsi - 64]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x06e8c149         // shr    r8, 6
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1361
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_826:
+	LONG $0x207de2c4; WORD $0x3a04             // vpmovsxbw    ymm0, oword [rdx + rdi]
+	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovsxbw    ymm1, oword [rdx + rdi + 16]
+	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x20 // vpmovsxbw    ymm2, oword [rdx + rdi + 32]
+	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovsxbw    ymm3, oword [rdx + rdi + 48]
+	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
+	LONG $0x207de2c4; WORD $0x3a44; BYTE $0x40 // vpmovsxbw    ymm0, oword [rdx + rdi + 64]
+	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x50 // vpmovsxbw    ymm1, oword [rdx + rdi + 80]
+	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x60 // vpmovsxbw    ymm2, oword [rdx + rdi + 96]
+	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x70 // vpmovsxbw    ymm3, oword [rdx + rdi + 112]
+	QUAD $0x00008079847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 128], ymm0
+	QUAD $0x0000a0798c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 160], ymm1
+	QUAD $0x0000c079947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 192], ymm2
+	QUAD $0x0000e0799c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 224], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_826
+	JMP  LBB0_1362
+
+LBB0_827:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x05efc148         // shr    rdi, 5
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x60f88348         // cmp    rax, 96
+	JAE  LBB0_1145
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1147
+
+LBB0_829:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x05efc148         // shr    rdi, 5
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x60f88348         // cmp    rax, 96
+	JAE  LBB0_1155
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1157
+
+LBB0_831:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x05efc148         // shr    rdi, 5
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x60f88348         // cmp    rax, 96
+	JAE  LBB0_1165
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1167
+
+LBB0_833:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x05efc148         // shr    rdi, 5
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x60f88348         // cmp    rax, 96
+	JAE  LBB0_1175
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1177
+
+LBB0_835:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	LONG $0xc0468d48         // lea    rax, [rsi - 64]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x06e8c149         // shr    r8, 6
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1369
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_837:
+	LONG $0x307de2c4; WORD $0x3a04             // vpmovzxbw    ymm0, oword [rdx + rdi]
+	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovzxbw    ymm1, oword [rdx + rdi + 16]
+	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x20 // vpmovzxbw    ymm2, oword [rdx + rdi + 32]
+	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovzxbw    ymm3, oword [rdx + rdi + 48]
+	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
+	LONG $0x307de2c4; WORD $0x3a44; BYTE $0x40 // vpmovzxbw    ymm0, oword [rdx + rdi + 64]
+	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x50 // vpmovzxbw    ymm1, oword [rdx + rdi + 80]
+	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x60 // vpmovzxbw    ymm2, oword [rdx + rdi + 96]
+	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x70 // vpmovzxbw    ymm3, oword [rdx + rdi + 112]
+	QUAD $0x00008079847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 128], ymm0
+	QUAD $0x0000a0798c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 160], ymm1
+	QUAD $0x0000c079947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 192], ymm2
+	QUAD $0x0000e0799c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 224], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_837
+	JMP  LBB0_1370
+
+LBB0_838:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	LONG $0xc0468d48         // lea    rax, [rsi - 64]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x06e8c149         // shr    r8, 6
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1377
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_840:
+	LONG $0x307de2c4; WORD $0x3a04             // vpmovzxbw    ymm0, oword [rdx + rdi]
+	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovzxbw    ymm1, oword [rdx + rdi + 16]
+	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x20 // vpmovzxbw    ymm2, oword [rdx + rdi + 32]
+	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovzxbw    ymm3, oword [rdx + rdi + 48]
+	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
+	LONG $0x307de2c4; WORD $0x3a44; BYTE $0x40 // vpmovzxbw    ymm0, oword [rdx + rdi + 64]
+	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x50 // vpmovzxbw    ymm1, oword [rdx + rdi + 80]
+	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x60 // vpmovzxbw    ymm2, oword [rdx + rdi + 96]
+	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x70 // vpmovzxbw    ymm3, oword [rdx + rdi + 112]
+	QUAD $0x00008079847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 128], ymm0
+	QUAD $0x0000a0798c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 160], ymm1
+	QUAD $0x0000c079947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 192], ymm2
+	QUAD $0x0000e0799c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 2*rdi + 224], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_840
+	JMP  LBB0_1378
+
+LBB0_841:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1385
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_843:
+	LONG $0x227de2c4; WORD $0x3a04             // vpmovsxbq    ymm0, dword [rdx + rdi]
+	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbq    ymm1, dword [rdx + rdi + 4]
+	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbq    ymm2, dword [rdx + rdi + 8]
+	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbq    ymm3, dword [rdx + rdi + 12]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x227de2c4; WORD $0x3a44; BYTE $0x10 // vpmovsxbq    ymm0, dword [rdx + rdi + 16]
+	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x14 // vpmovsxbq    ymm1, dword [rdx + rdi + 20]
+	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x18 // vpmovsxbq    ymm2, dword [rdx + rdi + 24]
+	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x1c // vpmovsxbq    ymm3, dword [rdx + rdi + 28]
+	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_843
+	JMP  LBB0_1386
+
+LBB0_844:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1393
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_846:
+	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
+	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
+	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
+	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
+	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
+	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
+	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x217de2c4; WORD $0x3a44; BYTE $0x20 // vpmovsxbd    ymm0, qword [rdx + rdi + 32]
+	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovsxbd    ymm1, qword [rdx + rdi + 40]
+	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x30 // vpmovsxbd    ymm2, qword [rdx + rdi + 48]
+	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovsxbd    ymm3, qword [rdx + rdi + 56]
+	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
+	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
+	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	QUAD $0x000080b98411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b99411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_846
+	JMP  LBB0_1394
+
+LBB0_847:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1401
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_849:
+	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
+	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_849
+	JMP  LBB0_1402
+
+LBB0_860:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1409
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_862:
+	LONG $0x0410fcc5; BYTE $0xfa         // vmovups    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fcc5; WORD $0x20fa       // vmovups    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40fa       // vmovups    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60fa       // vmovups    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xf9         // vmovups    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20f9       // vmovups    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40f9       // vmovups    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60f9       // vmovups    yword [rcx + 8*rdi + 96], ymm3
+	QUAD $0x000080fa8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0fa9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080f98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_862
+	JMP  LBB0_1410
+
+LBB0_863:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1417
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_865:
+	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
+	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_865
+	JMP  LBB0_1418
+
+LBB0_866:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1425
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_868:
+	LONG $0x327de2c4; WORD $0x3a04             // vpmovzxbq    ymm0, dword [rdx + rdi]
+	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbq    ymm1, dword [rdx + rdi + 4]
+	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbq    ymm2, dword [rdx + rdi + 8]
+	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbq    ymm3, dword [rdx + rdi + 12]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+	LONG $0x327de2c4; WORD $0x3a44; BYTE $0x10 // vpmovzxbq    ymm0, dword [rdx + rdi + 16]
+	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x14 // vpmovzxbq    ymm1, dword [rdx + rdi + 20]
+	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x18 // vpmovzxbq    ymm2, dword [rdx + rdi + 24]
+	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x1c // vpmovzxbq    ymm3, dword [rdx + rdi + 28]
+	QUAD $0x000080f9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 128], ymm0
+	QUAD $0x0000a0f98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 160], ymm1
+	QUAD $0x0000c0f9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 192], ymm2
+	QUAD $0x0000e0f99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 8*rdi + 224], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_868
+	JMP  LBB0_1426
+
+LBB0_869:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1433
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_871:
+	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
+	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
+	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
+	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
+	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
+	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
+	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x317de2c4; WORD $0x3a44; BYTE $0x20 // vpmovzxbd    ymm0, qword [rdx + rdi + 32]
+	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovzxbd    ymm1, qword [rdx + rdi + 40]
+	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x30 // vpmovzxbd    ymm2, qword [rdx + rdi + 48]
+	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovzxbd    ymm3, qword [rdx + rdi + 56]
+	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
+	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
+	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	QUAD $0x000080b98411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b99411fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c11fcc5; BYTE $0x00       // vmovups    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_871
+	JMP  LBB0_1434
+
+LBB0_872:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x05e8c149             // shr    r8, 5
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1441
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456ff9c5; BYTE $0x70 // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
+
+LBB0_874:
+	LONG $0x0c6ffac5; BYTE $0xba         // vmovdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546ffac5; WORD $0x10ba       // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x50ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x40ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
+	LONG $0x646ffac5; WORD $0x70ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0x6c6ffac5; WORD $0x60ba       // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
+	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
+	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
+	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
+	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
+	LONG $0x0c7ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm1
+	QUAD $0x000080ba8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 4*rdi + 128]
+	QUAD $0x000090ba946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 4*rdi + 144]
+	QUAD $0x0000a0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 160]
+	QUAD $0x0000b0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 176]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
+	QUAD $0x0000d0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 208]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	QUAD $0x0000c0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 192]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
+	QUAD $0x0000f0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 240]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	QUAD $0x0000e0baac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 4*rdi + 224]
+	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
+	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
+	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
+	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
+	LONG $0x4c7ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm1
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_874
+	JMP  LBB0_1442
+
+LBB0_875:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1449
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_877:
+	LONG $0x04e6fdc5; BYTE $0xfa         // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
+	LONG $0x2b79e2c4; BYTE $0xc0         // vpackusdw    xmm0, xmm0, xmm0
+	LONG $0x4ce6fdc5; WORD $0x20fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
+	LONG $0xc067f9c5                     // vpackuswb    xmm0, xmm0, xmm0
+	LONG $0x2b71e2c4; BYTE $0xc9         // vpackusdw    xmm1, xmm1, xmm1
+	LONG $0xc967f1c5                     // vpackuswb    xmm1, xmm1, xmm1
+	LONG $0xc162f9c5                     // vpunpckldq    xmm0, xmm0, xmm1
+	LONG $0x4ce6fdc5; WORD $0x40fa       // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 64]
+	LONG $0x2b71e2c4; BYTE $0xc9         // vpackusdw    xmm1, xmm1, xmm1
+	LONG $0xc967f1c5                     // vpackuswb    xmm1, xmm1, xmm1
+	LONG $0x54e6fdc5; WORD $0x60fa       // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 96]
+	LONG $0x2b69e2c4; BYTE $0xd2         // vpackusdw    xmm2, xmm2, xmm2
+	LONG $0xd267e9c5                     // vpackuswb    xmm2, xmm2, xmm2
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0xc16cf9c5                     // vpunpcklqdq    xmm0, xmm0, xmm1
+	LONG $0x047ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm0
+	QUAD $0x000080fa84e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 160]
+	LONG $0x2b79e2c4; BYTE $0xc0         // vpackusdw    xmm0, xmm0, xmm0
+	LONG $0xc067f9c5                     // vpackuswb    xmm0, xmm0, xmm0
+	LONG $0x2b71e2c4; BYTE $0xc9         // vpackusdw    xmm1, xmm1, xmm1
+	LONG $0xc967f1c5                     // vpackuswb    xmm1, xmm1, xmm1
+	LONG $0xc162f9c5                     // vpunpckldq    xmm0, xmm0, xmm1
+	QUAD $0x0000c0fa8ce6fdc5; BYTE $0x00 // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 192]
+	LONG $0x2b71e2c4; BYTE $0xc9         // vpackusdw    xmm1, xmm1, xmm1
+	QUAD $0x0000e0fa94e6fdc5; BYTE $0x00 // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 224]
+	LONG $0xc967f1c5                     // vpackuswb    xmm1, xmm1, xmm1
+	LONG $0x2b69e2c4; BYTE $0xd2         // vpackusdw    xmm2, xmm2, xmm2
+	LONG $0xd267e9c5                     // vpackuswb    xmm2, xmm2, xmm2
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0xc16cf9c5                     // vpunpcklqdq    xmm0, xmm0, xmm1
+	LONG $0x447ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm0
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_877
+	JMP  LBB0_1450
+
+LBB0_878:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	LONG $0x80468d48         // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x07e8c149         // shr    r8, 7
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1457
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_880:
+	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
+	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
+	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
+	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
+	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
+	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
+	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
+	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
+	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
+	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_880
+	JMP  LBB0_1458
+
+LBB0_881:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x04e8c149             // shr    r8, 4
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1465
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456ff9c5; BYTE $0x40 // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
+
+LBB0_883:
+	LONG $0x0c6ffac5; BYTE $0xfa         // vmovdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546ffac5; WORD $0x10fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x546ffac5; WORD $0x50fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x70fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
+	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
+	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
+	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
+	QUAD $0x000080fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 128]
+	QUAD $0x000090fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 144]
+	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
+	QUAD $0x0000b0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 176]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	QUAD $0x0000d0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 208]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	QUAD $0x0000c0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 192]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	QUAD $0x0000e0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 224]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
+	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
+	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
+	LONG $0x4c7ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm1
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_883
+	JMP  LBB0_1466
+
+LBB0_884:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	LONG $0xc0468d48         // lea    rax, [rsi - 64]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x06e8c149         // shr    r8, 6
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1473
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
+
+LBB0_886:
+	LONG $0x0cdbfdc5; BYTE $0x7a         // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
+	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
+	LONG $0x54dbfdc5; WORD $0x207a       // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
+	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
+	LONG $0x5cdbfdc5; WORD $0x407a       // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
+	LONG $0x64dbfdc5; WORD $0x607a       // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
+	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
+	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
+	LONG $0x547ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm2
+	LONG $0x5c7ffac5; WORD $0x2039       // vmovdqu    oword [rcx + rdi + 32], xmm3
+	LONG $0x647ffac5; WORD $0x3039       // vmovdqu    oword [rcx + rdi + 48], xmm4
+	QUAD $0x0000807a8cdbfdc5; BYTE $0x00 // vpand    ymm1, ymm0, yword [rdx + 2*rdi + 128]
+	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
+	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
+	QUAD $0x0000a07a94dbfdc5; BYTE $0x00 // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 160]
+	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
+	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
+	QUAD $0x0000c07a9cdbfdc5; BYTE $0x00 // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 192]
+	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
+	QUAD $0x0000e07aa4dbfdc5; BYTE $0x00 // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 224]
+	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
+	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
+	LONG $0x4c7ffac5; WORD $0x4039       // vmovdqu    oword [rcx + rdi + 64], xmm1
+	LONG $0x547ffac5; WORD $0x5039       // vmovdqu    oword [rcx + rdi + 80], xmm2
+	LONG $0x5c7ffac5; WORD $0x6039       // vmovdqu    oword [rcx + rdi + 96], xmm3
+	LONG $0x647ffac5; WORD $0x7039       // vmovdqu    oword [rcx + rdi + 112], xmm4
+	LONG $0x80ef8348                     // sub    rdi, -128
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_886
+	JMP  LBB0_1474
+
+LBB0_887:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	LONG $0xc0468d48         // lea    rax, [rsi - 64]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x06e8c149         // shr    r8, 6
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1481
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000a0856ffdc5 // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
+
+LBB0_889:
+	LONG $0x0cdbfdc5; BYTE $0x7a         // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
+	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
+	LONG $0x54dbfdc5; WORD $0x207a       // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
+	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
+	LONG $0x5cdbfdc5; WORD $0x407a       // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
+	LONG $0x64dbfdc5; WORD $0x607a       // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
+	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
+	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
+	LONG $0x547ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm2
+	LONG $0x5c7ffac5; WORD $0x2039       // vmovdqu    oword [rcx + rdi + 32], xmm3
+	LONG $0x647ffac5; WORD $0x3039       // vmovdqu    oword [rcx + rdi + 48], xmm4
+	QUAD $0x0000807a8cdbfdc5; BYTE $0x00 // vpand    ymm1, ymm0, yword [rdx + 2*rdi + 128]
+	LONG $0x397de3c4; WORD $0x01ca       // vextracti128    xmm2, ymm1, 1
+	LONG $0xca67f1c5                     // vpackuswb    xmm1, xmm1, xmm2
+	QUAD $0x0000a07a94dbfdc5; BYTE $0x00 // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 160]
+	LONG $0x397de3c4; WORD $0x01d3       // vextracti128    xmm3, ymm2, 1
+	LONG $0xd367e9c5                     // vpackuswb    xmm2, xmm2, xmm3
+	QUAD $0x0000c07a9cdbfdc5; BYTE $0x00 // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 192]
+	LONG $0x397de3c4; WORD $0x01dc       // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc67e1c5                     // vpackuswb    xmm3, xmm3, xmm4
+	QUAD $0x0000e07aa4dbfdc5; BYTE $0x00 // vpand    ymm4, ymm0, yword [rdx + 2*rdi + 224]
+	LONG $0x397de3c4; WORD $0x01e5       // vextracti128    xmm5, ymm4, 1
+	LONG $0xe567d9c5                     // vpackuswb    xmm4, xmm4, xmm5
+	LONG $0x4c7ffac5; WORD $0x4039       // vmovdqu    oword [rcx + rdi + 64], xmm1
+	LONG $0x547ffac5; WORD $0x5039       // vmovdqu    oword [rcx + rdi + 80], xmm2
+	LONG $0x5c7ffac5; WORD $0x6039       // vmovdqu    oword [rcx + rdi + 96], xmm3
+	LONG $0x647ffac5; WORD $0x7039       // vmovdqu    oword [rcx + rdi + 112], xmm4
+	LONG $0x80ef8348                     // sub    rdi, -128
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_889
+	JMP  LBB0_1482
+
+LBB0_890:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x04e8c149             // shr    r8, 4
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1489
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456ff9c5; BYTE $0x40 // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
+
+LBB0_892:
+	LONG $0x0c6ffac5; BYTE $0xfa         // vmovdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546ffac5; WORD $0x10fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x546ffac5; WORD $0x50fa       // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x5c6ffac5; WORD $0x40fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x70fa       // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x60fa       // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
+	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
+	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
+	LONG $0x0c7ffac5; BYTE $0x39         // vmovdqu    oword [rcx + rdi], xmm1
+	QUAD $0x000080fa8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 8*rdi + 128]
+	QUAD $0x000090fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 144]
+	QUAD $0x0000a0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 160]
+	QUAD $0x0000b0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 176]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca61f1c5                     // vpunpcklwd    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	QUAD $0x0000d0fa946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 8*rdi + 208]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	QUAD $0x0000c0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 192]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5                     // vpunpcklwd    xmm2, xmm3, xmm2
+	QUAD $0x0000f0fa9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 8*rdi + 240]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	QUAD $0x0000e0faa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 8*rdi + 224]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb61d9c5                     // vpunpcklwd    xmm3, xmm4, xmm3
+	LONG $0xd362e9c5                     // vpunpckldq    xmm2, xmm2, xmm3
+	LONG $0xca6cf1c5                     // vpunpcklqdq    xmm1, xmm1, xmm2
+	LONG $0x4c7ffac5; WORD $0x1039       // vmovdqu    oword [rcx + rdi + 16], xmm1
+	LONG $0x20c78348                     // add    rdi, 32
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_892
+	JMP  LBB0_1490
+
+LBB0_893:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1497
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_895:
+	LONG $0x045bfec5; BYTE $0xba         // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
+	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
+	LONG $0x545bfec5; WORD $0x20ba       // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
+	LONG $0x397de3c4; WORD $0x01d1       // vextracti128    xmm1, ymm2, 1
+	LONG $0x5c5bfec5; WORD $0x40ba       // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0xc96be9c5                     // vpackssdw    xmm1, xmm2, xmm1
+	LONG $0x397de3c4; WORD $0x01da       // vextracti128    xmm2, ymm3, 1
+	LONG $0x645bfec5; WORD $0x60ba       // vcvttps2dq    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xd26be1c5                     // vpackssdw    xmm2, xmm3, xmm2
+	LONG $0x397de3c4; WORD $0x01e3       // vextracti128    xmm3, ymm4, 1
+	LONG $0xdb6bd9c5                     // vpackssdw    xmm3, xmm4, xmm3
+	LONG $0x386de3c4; WORD $0x01d3       // vinserti128    ymm2, ymm2, xmm3, 1
+	LONG $0xd067edc5                     // vpackuswb    ymm2, ymm2, ymm0
+	LONG $0x387de3c4; WORD $0x01c1       // vinserti128    ymm0, ymm0, xmm1, 1
+	LONG $0xc067fdc5                     // vpackuswb    ymm0, ymm0, ymm0
+	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm0
+	QUAD $0x000080ba845bfec5; BYTE $0x00 // vcvttps2dq    ymm0, yword [rdx + 4*rdi + 128]
+	LONG $0x397de3c4; WORD $0x01c1       // vextracti128    xmm1, ymm0, 1
+	QUAD $0x0000a0ba945bfec5; BYTE $0x00 // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 160]
+	LONG $0xc16bf9c5                     // vpackssdw    xmm0, xmm0, xmm1
+	LONG $0x397de3c4; WORD $0x01d1       // vextracti128    xmm1, ymm2, 1
+	QUAD $0x0000c0ba9c5bfec5; BYTE $0x00 // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 192]
+	LONG $0xc96be9c5                     // vpackssdw    xmm1, xmm2, xmm1
+	LONG $0x397de3c4; WORD $0x01da       // vextracti128    xmm2, ymm3, 1
+	QUAD $0x0000e0baa45bfec5; BYTE $0x00 // vcvttps2dq    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0xd26be1c5                     // vpackssdw    xmm2, xmm3, xmm2
+	LONG $0x397de3c4; WORD $0x01e3       // vextracti128    xmm3, ymm4, 1
+	LONG $0xdb6bd9c5                     // vpackssdw    xmm3, xmm4, xmm3
+	LONG $0x386de3c4; WORD $0x01d3       // vinserti128    ymm2, ymm2, xmm3, 1
+	LONG $0xd067edc5                     // vpackuswb    ymm2, ymm2, ymm0
+	LONG $0x387de3c4; WORD $0x01c1       // vinserti128    ymm0, ymm0, xmm1, 1
+	LONG $0xc067fdc5                     // vpackuswb    ymm0, ymm0, ymm0
+	LONG $0xc26cfdc5                     // vpunpcklqdq    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xd8c0       // vpermq    ymm0, ymm0, 216
+	LONG $0x447ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm0
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_895
+	JMP  LBB0_1498
+
+LBB0_896:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	LONG $0x80468d48         // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x07e8c149         // shr    r8, 7
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1505
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_898:
+	LONG $0x0410fcc5; BYTE $0x3a               // vmovups    ymm0, yword [rdx + rdi]
+	LONG $0x4c10fcc5; WORD $0x203a             // vmovups    ymm1, yword [rdx + rdi + 32]
+	LONG $0x5410fcc5; WORD $0x403a             // vmovups    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x603a             // vmovups    ymm3, yword [rdx + rdi + 96]
+	LONG $0x0411fcc5; BYTE $0x39               // vmovups    yword [rcx + rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x2039             // vmovups    yword [rcx + rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x4039             // vmovups    yword [rcx + rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x6039             // vmovups    yword [rcx + rdi + 96], ymm3
+	QUAD $0x0000803a8410fdc5; BYTE $0x00       // vmovupd    ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a8c10fdc5; BYTE $0x00       // vmovupd    ymm1, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + rdi + 192]
+	QUAD $0x0000e03a9c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + rdi + 224]
+	QUAD $0x000080398411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 128], ymm0
+	QUAD $0x0000a0398c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 160], ymm1
+	QUAD $0x0000c0399411fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 192], ymm2
+	QUAD $0x0000e0399c11fdc5; BYTE $0x00       // vmovupd    yword [rcx + rdi + 224], ymm3
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_898
+	JMP  LBB0_1506
+
+LBB0_899:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x05e8c149             // shr    r8, 5
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1513
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456ff9c5; BYTE $0x70 // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
+
+LBB0_901:
+	LONG $0x0c6ffac5; BYTE $0xba         // vmovdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546ffac5; WORD $0x10ba       // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x50ba       // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x40ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
+	LONG $0x646ffac5; WORD $0x70ba       // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0x6c6ffac5; WORD $0x60ba       // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
+	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
+	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
+	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
+	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
+	LONG $0x0c7ffec5; BYTE $0x39         // vmovdqu    yword [rcx + rdi], ymm1
+	QUAD $0x000080ba8c6ffac5; BYTE $0x00 // vmovdqu    xmm1, oword [rdx + 4*rdi + 128]
+	QUAD $0x000090ba946ffac5; BYTE $0x00 // vmovdqu    xmm2, oword [rdx + 4*rdi + 144]
+	QUAD $0x0000a0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 160]
+	QUAD $0x0000b0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 176]
+	LONG $0x0069e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8         // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca62f1c5                     // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0         // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd262e1c5                     // vpunpckldq    xmm2, xmm3, xmm2
+	QUAD $0x0000d0ba9c6ffac5; BYTE $0x00 // vmovdqu    xmm3, oword [rdx + 4*rdi + 208]
+	LONG $0x0061e2c4; BYTE $0xd8         // vpshufb    xmm3, xmm3, xmm0
+	QUAD $0x0000c0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 192]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb62d9c5                     // vpunpckldq    xmm3, xmm4, xmm3
+	QUAD $0x0000f0baa46ffac5; BYTE $0x00 // vmovdqu    xmm4, oword [rdx + 4*rdi + 240]
+	LONG $0x0059e2c4; BYTE $0xe0         // vpshufb    xmm4, xmm4, xmm0
+	QUAD $0x0000e0baac6ffac5; BYTE $0x00 // vmovdqu    xmm5, oword [rdx + 4*rdi + 224]
+	LONG $0x0051e2c4; BYTE $0xe8         // vpshufb    xmm5, xmm5, xmm0
+	LONG $0xe462d1c5                     // vpunpckldq    xmm4, xmm5, xmm4
+	LONG $0x3865e3c4; WORD $0x01dc       // vinserti128    ymm3, ymm3, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01ca       // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xcb6cf5c5                     // vpunpcklqdq    ymm1, ymm1, ymm3
+	LONG $0x00fde3c4; WORD $0xd8c9       // vpermq    ymm1, ymm1, 216
+	LONG $0x4c7ffec5; WORD $0x2039       // vmovdqu    yword [rcx + rdi + 32], ymm1
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_901
+	JMP  LBB0_1514
+
+LBB0_902:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1521
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_904:
+	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
+	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_904
+	JMP  LBB0_1522
+
+LBB0_905:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1529
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_907:
+	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
+	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
+	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
+	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x217de2c4; WORD $0x3a44; BYTE $0x20 // vpmovsxbd    ymm0, qword [rdx + rdi + 32]
+	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovsxbd    ymm1, qword [rdx + rdi + 40]
+	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x30 // vpmovsxbd    ymm2, qword [rdx + rdi + 48]
+	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovsxbd    ymm3, qword [rdx + rdi + 56]
+	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_907
+	JMP  LBB0_1530
+
+LBB0_908:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1537
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_910:
+	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
+	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
+	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
+	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+	LONG $0x317de2c4; WORD $0x3a44; BYTE $0x20 // vpmovzxbd    ymm0, qword [rdx + rdi + 32]
+	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x28 // vpmovzxbd    ymm1, qword [rdx + rdi + 40]
+	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x30 // vpmovzxbd    ymm2, qword [rdx + rdi + 48]
+	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x38 // vpmovzxbd    ymm3, qword [rdx + rdi + 56]
+	QUAD $0x000080b9847ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b9947ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c7ffec5; BYTE $0x00       // vmovdqu    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_910
+	JMP  LBB0_1538
+
+LBB0_911:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x05e8c149         // shr    r8, 5
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1545
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_913:
+	LONG $0x0410fcc5; BYTE $0xba         // vmovups    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20ba       // vmovups    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40ba       // vmovups    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60ba       // vmovups    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xb9         // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9       // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9       // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9       // vmovups    yword [rcx + 4*rdi + 96], ymm3
+	QUAD $0x000080ba8410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba8c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9410fdc5; BYTE $0x00 // vmovupd    ymm2, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0ba9c10fdc5; BYTE $0x00 // vmovupd    ymm3, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080b98411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 128], ymm0
+	QUAD $0x0000a0b98c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 160], ymm1
+	QUAD $0x0000c0b99411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 192], ymm2
+	QUAD $0x0000e0b99c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 4*rdi + 224], ymm3
+	LONG $0x40c78348                     // add    rdi, 64
+	LONG $0x02c08348                     // add    rax, 2
+	JNE  LBB0_913
+	JMP  LBB0_1546
+
+LBB0_793:
+	LONG $0xfce28349             // and    r10, -4
+	WORD $0xf749; BYTE $0xda     // neg    r10
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x4510fbc5; BYTE $0x00 // vmovsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_794:
+	LONG $0x4c10fbc5; WORD $0x08c2 // vmovsd    xmm1, qword [rdx + 8*rax + 8]
+	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xda   // vcvttsd2si    rbx, xmm2
+	LONG $0x1410fbc5; BYTE $0xc2   // vmovsd    xmm2, qword [rdx + 8*rax]
+	WORD $0x314c; BYTE $0xdb       // xor    rbx, r11
+	LONG $0x2cfbe1c4; BYTE $0xf1   // vcvttsd2si    rsi, xmm1
+	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
+	LONG $0xf3430f48               // cmovae    rsi, rbx
+	LONG $0xc85cebc5               // vsubsd    xmm1, xmm2, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xd9   // vcvttsd2si    rbx, xmm1
+	WORD $0x314c; BYTE $0xdb       // xor    rbx, r11
+	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
+	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
+	LONG $0x6ef9e1c4; BYTE $0xce   // vmovq    xmm1, rsi
+	LONG $0xfb430f48               // cmovae    rdi, rbx
+	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
+	LONG $0x5c10fbc5; WORD $0x18c2 // vmovsd    xmm3, qword [rdx + 8*rax + 24]
+	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
+	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
+	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x5410fbc5; WORD $0x10c2 // vmovsd    xmm2, qword [rdx + 8*rax + 16]
+	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
+	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
+	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
+	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
+	LONG $0x547ffac5; WORD $0x10c1 // vmovdqu    oword [rcx + 8*rax + 16], xmm2
+	LONG $0x0c7ffac5; BYTE $0xc1   // vmovdqu    oword [rcx + 8*rax], xmm1
+	LONG $0x4c10fbc5; WORD $0x28c2 // vmovsd    xmm1, qword [rdx + 8*rax + 40]
+	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
+	LONG $0x5410fbc5; WORD $0x20c2 // vmovsd    xmm2, qword [rdx + 8*rax + 32]
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xf9   // vcvttsd2si    rdi, xmm1
+	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0xc85cebc5               // vsubsd    xmm1, xmm2, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf1   // vcvttsd2si    rsi, xmm1
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xda   // vcvttsd2si    rbx, xmm2
+	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
+	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
+	LONG $0xde430f48               // cmovae    rbx, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
+	LONG $0x5c10fbc5; WORD $0x38c2 // vmovsd    xmm3, qword [rdx + 8*rax + 56]
+	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
+	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
+	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x5410fbc5; WORD $0x30c2 // vmovsd    xmm2, qword [rdx + 8*rax + 48]
+	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
+	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
+	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
+	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
+	LONG $0x547ffac5; WORD $0x30c1 // vmovdqu    oword [rcx + 8*rax + 48], xmm2
+	LONG $0x4c7ffac5; WORD $0x20c1 // vmovdqu    oword [rcx + 8*rax + 32], xmm1
+	LONG $0x4c10fbc5; WORD $0x48c2 // vmovsd    xmm1, qword [rdx + 8*rax + 72]
+	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
+	LONG $0x5410fbc5; WORD $0x40c2 // vmovsd    xmm2, qword [rdx + 8*rax + 64]
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xf9   // vcvttsd2si    rdi, xmm1
+	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0xc85cebc5               // vsubsd    xmm1, xmm2, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf1   // vcvttsd2si    rsi, xmm1
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xda   // vcvttsd2si    rbx, xmm2
+	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
+	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
+	LONG $0xde430f48               // cmovae    rbx, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
+	LONG $0x5c10fbc5; WORD $0x58c2 // vmovsd    xmm3, qword [rdx + 8*rax + 88]
+	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
+	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
+	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x5410fbc5; WORD $0x50c2 // vmovsd    xmm2, qword [rdx + 8*rax + 80]
+	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
+	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
+	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
+	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
+	LONG $0x547ffac5; WORD $0x50c1 // vmovdqu    oword [rcx + 8*rax + 80], xmm2
+	LONG $0x4c7ffac5; WORD $0x40c1 // vmovdqu    oword [rcx + 8*rax + 64], xmm1
+	LONG $0x4c10fbc5; WORD $0x68c2 // vmovsd    xmm1, qword [rdx + 8*rax + 104]
+	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xf9   // vcvttsd2si    rdi, xmm1
+	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x4c10fbc5; WORD $0x60c2 // vmovsd    xmm1, qword [rdx + 8*rax + 96]
+	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xd9   // vcvttsd2si    rbx, xmm1
+	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
+	LONG $0xde430f48               // cmovae    rbx, rsi
+	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
+	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
+	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
+	LONG $0x5410fbc5; WORD $0x78c2 // vmovsd    xmm2, qword [rdx + 8*rax + 120]
+	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
+	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
+	LONG $0x5c10fbc5; WORD $0x70c2 // vmovsd    xmm3, qword [rdx + 8*rax + 112]
+	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
+	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
+	LONG $0xd26ce1c5               // vpunpcklqdq    xmm2, xmm3, xmm2
+	LONG $0x547ffac5; WORD $0x70c1 // vmovdqu    oword [rcx + 8*rax + 112], xmm2
+	LONG $0x4c7ffac5; WORD $0x60c1 // vmovdqu    oword [rcx + 8*rax + 96], xmm1
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x04c28349               // add    r10, 4
+	JNE  LBB0_794
+
+LBB0_795:
+	WORD $0x854d; BYTE $0xc0     // test    r8, r8
+	JE   LBB0_798
+	LONG $0x03e0c148             // shl    rax, 3
+	WORD $0xf749; BYTE $0xd8     // neg    r8
+	LONG $0x4510fbc5; BYTE $0x00 // vmovsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_797:
+	LONG $0x4c10fbc5; WORD $0x0802 // vmovsd    xmm1, qword [rdx + rax + 8]
+	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xf9   // vcvttsd2si    rdi, xmm1
+	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x0c10fbc5; BYTE $0x02   // vmovsd    xmm1, qword [rdx + rax]
+	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf2   // vcvttsd2si    rsi, xmm2
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xd9   // vcvttsd2si    rbx, xmm1
+	LONG $0xc82ef9c5               // vucomisd    xmm1, xmm0
+	LONG $0xde430f48               // cmovae    rbx, rsi
+	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
+	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
+	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
+	LONG $0x5410fbc5; WORD $0x1802 // vmovsd    xmm2, qword [rdx + rax + 24]
+	LONG $0xd85cebc5               // vsubsd    xmm3, xmm2, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf3   // vcvttsd2si    rsi, xmm3
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xfa   // vcvttsd2si    rdi, xmm2
+	LONG $0xd02ef9c5               // vucomisd    xmm2, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
+	LONG $0x5c10fbc5; WORD $0x1002 // vmovsd    xmm3, qword [rdx + rax + 16]
+	LONG $0xe05ce3c5               // vsubsd    xmm4, xmm3, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xf4   // vcvttsd2si    rsi, xmm4
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfbe1c4; BYTE $0xfb   // vcvttsd2si    rdi, xmm3
+	LONG $0xd82ef9c5               // vucomisd    xmm3, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
+	LONG $0xd26ce1c5               // vpunpcklqdq    xmm2, xmm3, xmm2
+	LONG $0x547ffac5; WORD $0x1001 // vmovdqu    oword [rcx + rax + 16], xmm2
+	LONG $0x0c7ffac5; BYTE $0x01   // vmovdqu    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_797
+
+LBB0_798:
+	WORD $0x394d; BYTE $0xce // cmp    r14, r9
+	JE   LBB0_1553
+
+LBB0_799:
+	LONG $0x4510fbc5; BYTE $0x00 // vmovsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_800:
+	LONG $0x107ba1c4; WORD $0xf20c // vmovsd    xmm1, qword [rdx + 8*r14]
+	LONG $0xd05cf3c5               // vsubsd    xmm2, xmm1, xmm0
+	LONG $0x2cfbe1c4; BYTE $0xc2   // vcvttsd2si    rax, xmm2
+	WORD $0x314c; BYTE $0xd8       // xor    rax, r11
+	LONG $0x2cfbe1c4; BYTE $0xf1   // vcvttsd2si    rsi, xmm1
+	LONG $0xc12ef9c5               // vucomisd    xmm0, xmm1
+	LONG $0xf0460f48               // cmovbe    rsi, rax
+	LONG $0xf134894a               // mov    qword [rcx + 8*r14], rsi
+	LONG $0x01c68349               // add    r14, 1
+	WORD $0x394d; BYTE $0xf1       // cmp    r9, r14
+	JNE  LBB0_800
+	JMP  LBB0_1553
+
+LBB0_810:
+	LONG $0xfce28349                       // and    r10, -4
+	WORD $0xf749; BYTE $0xda               // neg    r10
+	WORD $0xc031                           // xor    eax, eax
+	LONG $0x4510fac5; BYTE $0x28           // vmovss    xmm0, dword 40[rbp] /* [rip + .LCPI0_1] */
+	QUAD $0x000000000000bb49; WORD $0x8000 // mov    r11, -9223372036854775808
+
+LBB0_811:
+	LONG $0x4c10fac5; WORD $0x0482 // vmovss    xmm1, dword [rdx + 4*rax + 4]
+	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
+	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
+	LONG $0x1410fac5; BYTE $0x82   // vmovss    xmm2, dword [rdx + 4*rax]
+	WORD $0x314c; BYTE $0xdf       // xor    rdi, r11
+	LONG $0x2cfae1c4; BYTE $0xd9   // vcvttss2si    rbx, xmm1
+	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
+	LONG $0xdf430f48               // cmovae    rbx, rdi
+	LONG $0xc85ceac5               // vsubss    xmm1, xmm2, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
+	WORD $0x314c; BYTE $0xdf       // xor    rdi, r11
+	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
+	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
+	LONG $0x6ef9e1c4; BYTE $0xcb   // vmovq    xmm1, rbx
+	LONG $0xf7430f48               // cmovae    rsi, rdi
+	LONG $0x6ef9e1c4; BYTE $0xd6   // vmovq    xmm2, rsi
+	LONG $0x5c10fac5; WORD $0x0c82 // vmovss    xmm3, dword [rdx + 4*rax + 12]
+	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
+	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
+	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x5410fac5; WORD $0x0882 // vmovss    xmm2, dword [rdx + 4*rax + 8]
+	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
+	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
+	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
+	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
+	LONG $0x547ffac5; WORD $0x10c1 // vmovdqu    oword [rcx + 8*rax + 16], xmm2
+	LONG $0x0c7ffac5; BYTE $0xc1   // vmovdqu    oword [rcx + 8*rax], xmm1
+	LONG $0x4c10fac5; WORD $0x1482 // vmovss    xmm1, dword [rdx + 4*rax + 20]
+	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
+	LONG $0x5410fac5; WORD $0x1082 // vmovss    xmm2, dword [rdx + 4*rax + 16]
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
+	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0xc85ceac5               // vsubss    xmm1, xmm2, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf1   // vcvttss2si    rsi, xmm1
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xda   // vcvttss2si    rbx, xmm2
+	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
+	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
+	LONG $0xde430f48               // cmovae    rbx, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
+	LONG $0x5c10fac5; WORD $0x1c82 // vmovss    xmm3, dword [rdx + 4*rax + 28]
+	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
+	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
+	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x5410fac5; WORD $0x1882 // vmovss    xmm2, dword [rdx + 4*rax + 24]
+	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
+	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
+	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
+	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
+	LONG $0x547ffac5; WORD $0x30c1 // vmovdqu    oword [rcx + 8*rax + 48], xmm2
+	LONG $0x4c7ffac5; WORD $0x20c1 // vmovdqu    oword [rcx + 8*rax + 32], xmm1
+	LONG $0x4c10fac5; WORD $0x2482 // vmovss    xmm1, dword [rdx + 4*rax + 36]
+	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
+	LONG $0x5410fac5; WORD $0x2082 // vmovss    xmm2, dword [rdx + 4*rax + 32]
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
+	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0xc85ceac5               // vsubss    xmm1, xmm2, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf1   // vcvttss2si    rsi, xmm1
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xda   // vcvttss2si    rbx, xmm2
+	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
+	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
+	LONG $0xde430f48               // cmovae    rbx, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
+	LONG $0x5c10fac5; WORD $0x2c82 // vmovss    xmm3, dword [rdx + 4*rax + 44]
+	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
+	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
+	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x5410fac5; WORD $0x2882 // vmovss    xmm2, dword [rdx + 4*rax + 40]
+	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
+	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
+	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
+	LONG $0xd36ce9c5               // vpunpcklqdq    xmm2, xmm2, xmm3
+	LONG $0x547ffac5; WORD $0x50c1 // vmovdqu    oword [rcx + 8*rax + 80], xmm2
+	LONG $0x4c7ffac5; WORD $0x40c1 // vmovdqu    oword [rcx + 8*rax + 64], xmm1
+	LONG $0x4c10fac5; WORD $0x3482 // vmovss    xmm1, dword [rdx + 4*rax + 52]
+	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
+	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x4c10fac5; WORD $0x3082 // vmovss    xmm1, dword [rdx + 4*rax + 48]
+	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xd9   // vcvttss2si    rbx, xmm1
+	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
+	LONG $0xde430f48               // cmovae    rbx, rsi
+	LONG $0x6ef9e1c4; BYTE $0xcf   // vmovq    xmm1, rdi
+	LONG $0x6ef9e1c4; BYTE $0xd3   // vmovq    xmm2, rbx
+	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
+	LONG $0x5410fac5; WORD $0x3c82 // vmovss    xmm2, dword [rdx + 4*rax + 60]
+	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
+	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
+	LONG $0x5c10fac5; WORD $0x3882 // vmovss    xmm3, dword [rdx + 4*rax + 56]
+	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
+	WORD $0x314c; BYTE $0xde       // xor    rsi, r11
+	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
+	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
+	LONG $0xd26ce1c5               // vpunpcklqdq    xmm2, xmm3, xmm2
+	LONG $0x547ffac5; WORD $0x70c1 // vmovdqu    oword [rcx + 8*rax + 112], xmm2
+	LONG $0x4c7ffac5; WORD $0x60c1 // vmovdqu    oword [rcx + 8*rax + 96], xmm1
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x04c28349               // add    r10, 4
+	JNE  LBB0_811
+
+LBB0_812:
+	WORD $0x854d; BYTE $0xc0               // test    r8, r8
+	JE   LBB0_815
+	LONG $0x02e0c148                       // shl    rax, 2
+	WORD $0xf749; BYTE $0xd8               // neg    r8
+	LONG $0x4510fac5; BYTE $0x28           // vmovss    xmm0, dword 40[rbp] /* [rip + .LCPI0_1] */
+	QUAD $0x000000000000ba49; WORD $0x8000 // mov    r10, -9223372036854775808
+
+LBB0_814:
+	LONG $0x4c10fac5; WORD $0x0402 // vmovss    xmm1, dword [rdx + rax + 4]
+	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
+	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
+	LONG $0x2cfae1c4; BYTE $0xd9   // vcvttss2si    rbx, xmm1
+	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
+	LONG $0xde430f48               // cmovae    rbx, rsi
+	LONG $0x0c10fac5; BYTE $0x02   // vmovss    xmm1, dword [rdx + rax]
+	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
+	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
+	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
+	LONG $0xc82ef8c5               // vucomiss    xmm1, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xcb   // vmovq    xmm1, rbx
+	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
+	LONG $0xc96ce9c5               // vpunpcklqdq    xmm1, xmm2, xmm1
+	LONG $0x5410fac5; WORD $0x0c02 // vmovss    xmm2, dword [rdx + rax + 12]
+	LONG $0xd85ceac5               // vsubss    xmm3, xmm2, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf3   // vcvttss2si    rsi, xmm3
+	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
+	LONG $0x2cfae1c4; BYTE $0xfa   // vcvttss2si    rdi, xmm2
+	LONG $0xd02ef8c5               // vucomiss    xmm2, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xd7   // vmovq    xmm2, rdi
+	LONG $0x5c10fac5; WORD $0x0802 // vmovss    xmm3, dword [rdx + rax + 8]
+	LONG $0xe05ce2c5               // vsubss    xmm4, xmm3, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf4   // vcvttss2si    rsi, xmm4
+	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
+	LONG $0x2cfae1c4; BYTE $0xfb   // vcvttss2si    rdi, xmm3
+	LONG $0xd82ef8c5               // vucomiss    xmm3, xmm0
+	LONG $0xfe430f48               // cmovae    rdi, rsi
+	LONG $0x6ef9e1c4; BYTE $0xdf   // vmovq    xmm3, rdi
+	LONG $0xd26ce1c5               // vpunpcklqdq    xmm2, xmm3, xmm2
+	LONG $0x547ffac5; WORD $0x1041 // vmovdqu    oword [rcx + 2*rax + 16], xmm2
+	LONG $0x0c7ffac5; BYTE $0x41   // vmovdqu    oword [rcx + 2*rax], xmm1
+	LONG $0x10c08348               // add    rax, 16
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_814
+
+LBB0_815:
+	WORD $0x394d; BYTE $0xce // cmp    r14, r9
+	JE   LBB0_1553
+
+LBB0_816:
+	LONG $0x4510fac5; BYTE $0x28           // vmovss    xmm0, dword 40[rbp] /* [rip + .LCPI0_1] */
+	QUAD $0x000000000000b848; WORD $0x8000 // mov    rax, -9223372036854775808
+
+LBB0_817:
+	LONG $0x107aa1c4; WORD $0xb20c // vmovss    xmm1, dword [rdx + 4*r14]
+	LONG $0xd05cf2c5               // vsubss    xmm2, xmm1, xmm0
+	LONG $0x2cfae1c4; BYTE $0xf2   // vcvttss2si    rsi, xmm2
+	WORD $0x3148; BYTE $0xc6       // xor    rsi, rax
+	LONG $0x2cfae1c4; BYTE $0xf9   // vcvttss2si    rdi, xmm1
+	LONG $0xc12ef8c5               // vucomiss    xmm0, xmm1
+	LONG $0xfe460f48               // cmovbe    rdi, rsi
+	LONG $0xf13c894a               // mov    qword [rcx + 8*r14], rdi
+	LONG $0x01c68349               // add    r14, 1
+	WORD $0x394d; BYTE $0xf1       // cmp    r9, r14
+	JNE  LBB0_817
+	JMP  LBB0_1553
+
+LBB0_850:
+	LONG $0xfce28349               // and    r10, -4
+	WORD $0xf749; BYTE $0xda       // neg    r10
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x597de2c4; WORD $0x2045 // vpbroadcastq    ymm0, qword 32[rbp] /* [rip + .LCPI0_10] */
+
+LBB0_851:
+	LONG $0x0c6ffec5; BYTE $0xc2   // vmovdqu    ymm1, yword [rdx + 8*rax]
+	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
+	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
+	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
+	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
+	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
+	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
+	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
+	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
+	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
+	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
+	LONG $0x2ad2e1c4; BYTE $0xe7   // vcvtsi2ss    xmm4, xmm5, rdi
+	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
+	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
+	LONG $0x2169e3c4; WORD $0x20cc // vinsertps    xmm1, xmm2, xmm4, 32
+	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
+	LONG $0x2171e3c4; WORD $0x30ca // vinsertps    xmm1, xmm1, xmm2, 48
+	LONG $0x146ffac5; BYTE $0xc2   // vmovdqu    xmm2, oword [rdx + 8*rax]
+	LONG $0x546be9c5; WORD $0x10c2 // vpackssdw    xmm2, xmm2, oword [rdx + 8*rax + 16]
+	LONG $0xd958f0c5               // vaddps    xmm3, xmm1, xmm1
+	LONG $0x4a71e3c4; WORD $0x20cb // vblendvps    xmm1, xmm1, xmm3, xmm2
+	LONG $0x0c11f8c5; BYTE $0x81   // vmovups    oword [rcx + 4*rax], xmm1
+	LONG $0x4c6ffec5; WORD $0x20c2 // vmovdqu    ymm1, yword [rdx + 8*rax + 32]
+	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
+	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
+	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
+	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
+	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
+	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
+	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
+	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
+	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
+	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
+	LONG $0x2ad2e1c4; BYTE $0xe7   // vcvtsi2ss    xmm4, xmm5, rdi
+	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
+	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
+	LONG $0x2169e3c4; WORD $0x20cc // vinsertps    xmm1, xmm2, xmm4, 32
+	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
+	LONG $0x2171e3c4; WORD $0x30ca // vinsertps    xmm1, xmm1, xmm2, 48
+	LONG $0x546ffac5; WORD $0x20c2 // vmovdqu    xmm2, oword [rdx + 8*rax + 32]
+	LONG $0x546be9c5; WORD $0x30c2 // vpackssdw    xmm2, xmm2, oword [rdx + 8*rax + 48]
+	LONG $0xd958f0c5               // vaddps    xmm3, xmm1, xmm1
+	LONG $0x4a71e3c4; WORD $0x20cb // vblendvps    xmm1, xmm1, xmm3, xmm2
+	LONG $0x4c11f8c5; WORD $0x1081 // vmovups    oword [rcx + 4*rax + 16], xmm1
+	LONG $0x4c6ffec5; WORD $0x40c2 // vmovdqu    ymm1, yword [rdx + 8*rax + 64]
+	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
+	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
+	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
+	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
+	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
+	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
+	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
+	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
+	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
+	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
+	LONG $0x2ad2e1c4; BYTE $0xe7   // vcvtsi2ss    xmm4, xmm5, rdi
+	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
+	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
+	LONG $0x2169e3c4; WORD $0x20cc // vinsertps    xmm1, xmm2, xmm4, 32
+	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
+	LONG $0x2171e3c4; WORD $0x30ca // vinsertps    xmm1, xmm1, xmm2, 48
+	LONG $0x546ffac5; WORD $0x40c2 // vmovdqu    xmm2, oword [rdx + 8*rax + 64]
+	LONG $0x546be9c5; WORD $0x50c2 // vpackssdw    xmm2, xmm2, oword [rdx + 8*rax + 80]
+	LONG $0xd958f0c5               // vaddps    xmm3, xmm1, xmm1
+	LONG $0x4a71e3c4; WORD $0x20cb // vblendvps    xmm1, xmm1, xmm3, xmm2
+	LONG $0x4c11f8c5; WORD $0x2081 // vmovups    oword [rcx + 4*rax + 32], xmm1
+	LONG $0x4c6ffec5; WORD $0x60c2 // vmovdqu    ymm1, yword [rdx + 8*rax + 96]
+	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
+	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
+	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
+	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
+	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
+	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
+	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
+	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
+	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
+	LONG $0x16f9c3c4; WORD $0x01cb // vpextrq    r11, xmm1, 1
+	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
+	LONG $0x2ad2e1c4; BYTE $0xcf   // vcvtsi2ss    xmm1, xmm5, rdi
+	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
+	LONG $0x2ad2c1c4; BYTE $0xdb   // vcvtsi2ss    xmm3, xmm5, r11
+	LONG $0x2169e3c4; WORD $0x20c9 // vinsertps    xmm1, xmm2, xmm1, 32
+	LONG $0x2171e3c4; WORD $0x30cb // vinsertps    xmm1, xmm1, xmm3, 48
+	LONG $0xd158f0c5               // vaddps    xmm2, xmm1, xmm1
+	LONG $0x5c6ffac5; WORD $0x60c2 // vmovdqu    xmm3, oword [rdx + 8*rax + 96]
+	LONG $0x5c6be1c5; WORD $0x70c2 // vpackssdw    xmm3, xmm3, oword [rdx + 8*rax + 112]
+	LONG $0x4a71e3c4; WORD $0x30ca // vblendvps    xmm1, xmm1, xmm2, xmm3
+	LONG $0x4c11f8c5; WORD $0x3081 // vmovups    oword [rcx + 4*rax + 48], xmm1
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x04c28349               // add    r10, 4
+	JNE  LBB0_851
+
+LBB0_852:
+	WORD $0x854d; BYTE $0xc0       // test    r8, r8
+	JE   LBB0_855
+	LONG $0x02e0c148               // shl    rax, 2
+	WORD $0xf749; BYTE $0xd8       // neg    r8
+	LONG $0x597de2c4; WORD $0x2045 // vpbroadcastq    ymm0, qword 32[rbp] /* [rip + .LCPI0_10] */
+
+LBB0_854:
+	LONG $0x0c6ffec5; BYTE $0x42   // vmovdqu    ymm1, yword [rdx + 2*rax]
+	LONG $0xd0dbf5c5               // vpand    ymm2, ymm1, ymm0
+	LONG $0xd173e5c5; BYTE $0x01   // vpsrlq    ymm3, ymm1, 1
+	LONG $0xd2ebe5c5               // vpor    ymm2, ymm3, ymm2
+	LONG $0x4b75e3c4; WORD $0x10ca // vblendvpd    ymm1, ymm1, ymm2, ymm1
+	LONG $0x16f9e3c4; WORD $0x01cf // vpextrq    rdi, xmm1, 1
+	LONG $0x2ad2e1c4; BYTE $0xd7   // vcvtsi2ss    xmm2, xmm5, rdi
+	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
+	LONG $0x2ad2e1c4; BYTE $0xdf   // vcvtsi2ss    xmm3, xmm5, rdi
+	LONG $0x397de3c4; WORD $0x01c9 // vextracti128    xmm1, ymm1, 1
+	LONG $0x16f9c3c4; WORD $0x01ca // vpextrq    r10, xmm1, 1
+	LONG $0x7ef9e1c4; BYTE $0xcf   // vmovq    rdi, xmm1
+	LONG $0x2ad2e1c4; BYTE $0xcf   // vcvtsi2ss    xmm1, xmm5, rdi
+	LONG $0x2161e3c4; WORD $0x10d2 // vinsertps    xmm2, xmm3, xmm2, 16
+	LONG $0x2ad2c1c4; BYTE $0xda   // vcvtsi2ss    xmm3, xmm5, r10
+	LONG $0x2169e3c4; WORD $0x20c9 // vinsertps    xmm1, xmm2, xmm1, 32
+	LONG $0x2171e3c4; WORD $0x30cb // vinsertps    xmm1, xmm1, xmm3, 48
+	LONG $0xd158f0c5               // vaddps    xmm2, xmm1, xmm1
+	LONG $0x1c6ffac5; BYTE $0x42   // vmovdqu    xmm3, oword [rdx + 2*rax]
+	LONG $0x5c6be1c5; WORD $0x1042 // vpackssdw    xmm3, xmm3, oword [rdx + 2*rax + 16]
+	LONG $0x4a71e3c4; WORD $0x30ca // vblendvps    xmm1, xmm1, xmm2, xmm3
+	LONG $0x0c11f8c5; BYTE $0x01   // vmovups    oword [rcx + rax], xmm1
+	LONG $0x10c08348               // add    rax, 16
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_854
+
+LBB0_855:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JNE  LBB0_858
+	JMP  LBB0_1553
+
+LBB0_856:
+	LONG $0x2ad2e1c4; BYTE $0xc0 // vcvtsi2ss    xmm0, xmm5, rax
+	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JE   LBB0_1553
+
+LBB0_858:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JNS  LBB0_856
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	WORD $0xd148; BYTE $0xef     // shr    rdi, 1
+	WORD $0xe083; BYTE $0x01     // and    eax, 1
+	WORD $0x0948; BYTE $0xf8     // or    rax, rdi
+	LONG $0x2ad2e1c4; BYTE $0xc0 // vcvtsi2ss    xmm0, xmm5, rax
+	LONG $0xc058fac5             // vaddss    xmm0, xmm0, xmm0
+	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_858
+	JMP  LBB0_1553
+
+LBB0_914:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_915:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_917
+	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
+	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
+	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
+	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
+	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
+	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
+	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
+
+LBB0_917:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_918:
+	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_918
+	JMP  LBB0_1553
+
+LBB0_919:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_920:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_922
+	LONG $0x046ffec5; BYTE $0xfa   // vmovdqu    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20fa // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40fa // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60fa // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0xe457d9c5               // vxorpd    xmm4, xmm4, xmm4
+	LONG $0x027de3c4; WORD $0xaaec // vpblendd    ymm5, ymm0, ymm4, 170
+	LONG $0x597de2c4; WORD $0x0875 // vpbroadcastq    ymm6, qword 8[rbp] /* [rip + .LCPI0_5] */
+	LONG $0xeeebd5c5               // vpor    ymm5, ymm5, ymm6
+	LONG $0xd073fdc5; BYTE $0x20   // vpsrlq    ymm0, ymm0, 32
+	LONG $0x597de2c4; WORD $0x107d // vpbroadcastq    ymm7, qword 16[rbp] /* [rip + .LCPI0_6] */
+	LONG $0xc7ebfdc5               // vpor    ymm0, ymm0, ymm7
+	LONG $0x197d62c4; WORD $0x1845 // vbroadcastsd    ymm8, qword 24[rbp] /* [rip + .LCPI0_7] */
+	LONG $0x5c7dc1c4; BYTE $0xc0   // vsubpd    ymm0, ymm0, ymm8
+	LONG $0xc058d5c5               // vaddpd    ymm0, ymm5, ymm0
+	LONG $0x0275e3c4; WORD $0xaaec // vpblendd    ymm5, ymm1, ymm4, 170
+	LONG $0xeeebd5c5               // vpor    ymm5, ymm5, ymm6
+	LONG $0xd173f5c5; BYTE $0x20   // vpsrlq    ymm1, ymm1, 32
+	LONG $0xcfebf5c5               // vpor    ymm1, ymm1, ymm7
+	LONG $0x5c75c1c4; BYTE $0xc8   // vsubpd    ymm1, ymm1, ymm8
+	LONG $0xc958d5c5               // vaddpd    ymm1, ymm5, ymm1
+	LONG $0x026de3c4; WORD $0xaaec // vpblendd    ymm5, ymm2, ymm4, 170
+	LONG $0xeeebd5c5               // vpor    ymm5, ymm5, ymm6
+	LONG $0xd273edc5; BYTE $0x20   // vpsrlq    ymm2, ymm2, 32
+	LONG $0xd7ebedc5               // vpor    ymm2, ymm2, ymm7
+	LONG $0x5c6dc1c4; BYTE $0xd0   // vsubpd    ymm2, ymm2, ymm8
+	LONG $0xd258d5c5               // vaddpd    ymm2, ymm5, ymm2
+	LONG $0x0265e3c4; WORD $0xaae4 // vpblendd    ymm4, ymm3, ymm4, 170
+	LONG $0xe6ebddc5               // vpor    ymm4, ymm4, ymm6
+	LONG $0xd373e5c5; BYTE $0x20   // vpsrlq    ymm3, ymm3, 32
+	LONG $0xdfebe5c5               // vpor    ymm3, ymm3, ymm7
+	LONG $0x5c65c1c4; BYTE $0xd8   // vsubpd    ymm3, ymm3, ymm8
+	LONG $0xdb58ddc5               // vaddpd    ymm3, ymm4, ymm3
+	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_922:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_923:
+	LONG $0x4528f9c5; BYTE $0x50 // vmovapd    xmm0, oword 80[rbp] /* [rip + .LCPI0_8] */
+	LONG $0x4d28f9c5; BYTE $0x60 // vmovapd    xmm1, oword 96[rbp] /* [rip + .LCPI0_9] */
+
+LBB0_924:
+	LONG $0x1410fbc5; BYTE $0xf2   // vmovsd    xmm2, qword [rdx + 8*rsi]
+	LONG $0xd014e8c5               // vunpcklps    xmm2, xmm2, xmm0
+	LONG $0xd15ce9c5               // vsubpd    xmm2, xmm2, xmm1
+	LONG $0x0579e3c4; WORD $0x01da // vpermilpd    xmm3, xmm2, 1
+	LONG $0xd258e3c5               // vaddsd    xmm2, xmm3, xmm2
+	LONG $0x1411fbc5; BYTE $0xf1   // vmovsd    qword [rcx + 8*rsi], xmm2
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_924
+	JMP  LBB0_1553
+
+LBB0_925:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_926:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_928
+	LONG $0x04e6fec5; BYTE $0xba   // vcvtdq2pd    ymm0, oword [rdx + 4*rdi]
+	LONG $0x4ce6fec5; WORD $0x10ba // vcvtdq2pd    ymm1, oword [rdx + 4*rdi + 16]
+	LONG $0x54e6fec5; WORD $0x20ba // vcvtdq2pd    ymm2, oword [rdx + 4*rdi + 32]
+	LONG $0x5ce6fec5; WORD $0x30ba // vcvtdq2pd    ymm3, oword [rdx + 4*rdi + 48]
+	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_928:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_929:
+	LONG $0x042adbc5; BYTE $0xb2 // vcvtsi2sd    xmm0, xmm4, dword [rdx + 4*rsi]
+	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_929
+	JMP  LBB0_1553
+
+LBB0_930:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_931:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_933
+	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
+	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
+	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
+	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_933:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_934:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_934
+	JMP  LBB0_1553
+
+LBB0_935:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_936:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_938
+	LONG $0x347de2c4; WORD $0x7a04             // vpmovzxwq    ymm0, qword [rdx + 2*rdi]
+	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 8]
+	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 16]
+	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 24]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_938:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_939:
+	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_939
+	JMP  LBB0_1553
+
+LBB0_940:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_941:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_943
+	LONG $0x247de2c4; WORD $0x7a04             // vpmovsxwq    ymm0, qword [rdx + 2*rdi]
+	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 8]
+	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 16]
+	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 24]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_943:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_944:
+	LONG $0x04bf0f48; BYTE $0x72 // movsx    rax, word [rdx + 2*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_944
+	JMP  LBB0_1553
+
+LBB0_945:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_946:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_948
+	LONG $0x257de2c4; WORD $0xba04             // vpmovsxdq    ymm0, oword [rdx + 4*rdi]
+	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x10 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 16]
+	LONG $0x257de2c4; WORD $0xba54; BYTE $0x20 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 32]
+	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x30 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_948:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_949:
+	LONG $0xb2046348         // movsxd    rax, dword [rdx + 4*rsi]
+	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_949
+	JMP  LBB0_1553
+
+LBB0_950:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_951:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_953
+	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0e79e3c4; WORD $0xfa0c; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi], 17
+	QUAD $0x1110fa540e79e3c4                   // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
+	QUAD $0x1120fa5c0e79e3c4                   // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
+	QUAD $0x1130fa640e79e3c4                   // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
+	QUAD $0x1140fa6c0e79e3c4                   // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
+	QUAD $0x1150fa740e79e3c4                   // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
+	QUAD $0x1160fa7c0e79e3c4                   // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
+	QUAD $0x1170fa440e79e3c4                   // vpblendw    xmm0, xmm0, oword [rdx + 8*rdi + 112], 17
+	LONG $0x384de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm6, xmm0, 1
+	LONG $0x3855e3c4; WORD $0x01ef             // vinserti128    ymm5, ymm5, xmm7, 1
+	LONG $0x2b55e2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm5, ymm0
+	LONG $0x2b7de2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm0, ymm0
+	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	LONG $0x2b75e2c4; BYTE $0xca               // vpackusdw    ymm1, ymm1, ymm2
+	LONG $0x2b75e2c4; BYTE $0xc8               // vpackusdw    ymm1, ymm1, ymm0
+	LONG $0xc06cf5c5                           // vpunpcklqdq    ymm0, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xd8c0             // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
+
+LBB0_953:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_954:
+	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_954
+	JMP  LBB0_1553
+
+LBB0_955:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_956:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_958
+	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0e79e3c4; WORD $0xfa0c; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi], 17
+	QUAD $0x1110fa540e79e3c4                   // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
+	QUAD $0x1120fa5c0e79e3c4                   // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
+	QUAD $0x1130fa640e79e3c4                   // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
+	QUAD $0x1140fa6c0e79e3c4                   // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
+	QUAD $0x1150fa740e79e3c4                   // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
+	QUAD $0x1160fa7c0e79e3c4                   // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
+	QUAD $0x1170fa440e79e3c4                   // vpblendw    xmm0, xmm0, oword [rdx + 8*rdi + 112], 17
+	LONG $0x384de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm6, xmm0, 1
+	LONG $0x3855e3c4; WORD $0x01ef             // vinserti128    ymm5, ymm5, xmm7, 1
+	LONG $0x2b55e2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm5, ymm0
+	LONG $0x2b7de2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm0, ymm0
+	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	LONG $0x2b75e2c4; BYTE $0xca               // vpackusdw    ymm1, ymm1, ymm2
+	LONG $0x2b75e2c4; BYTE $0xc8               // vpackusdw    ymm1, ymm1, ymm0
+	LONG $0xc06cf5c5                           // vpunpcklqdq    ymm0, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xd8c0             // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
+
+LBB0_958:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_959:
+	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_959
+	JMP  LBB0_1553
+
+LBB0_960:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_961:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_963
+	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0e79e3c4; WORD $0xfa0c; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi], 17
+	QUAD $0x1110fa540e79e3c4                   // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
+	QUAD $0x1120fa5c0e79e3c4                   // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
+	QUAD $0x1130fa640e79e3c4                   // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
+	QUAD $0x1140fa6c0e79e3c4                   // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
+	QUAD $0x1150fa740e79e3c4                   // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
+	QUAD $0x1160fa7c0e79e3c4                   // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
+	QUAD $0x1170fa440e79e3c4                   // vpblendw    xmm0, xmm0, oword [rdx + 8*rdi + 112], 17
+	LONG $0x384de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm6, xmm0, 1
+	LONG $0x3855e3c4; WORD $0x01ef             // vinserti128    ymm5, ymm5, xmm7, 1
+	LONG $0x2b55e2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm5, ymm0
+	LONG $0x2b7de2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm0, ymm0
+	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	LONG $0x2b75e2c4; BYTE $0xca               // vpackusdw    ymm1, ymm1, ymm2
+	LONG $0x2b75e2c4; BYTE $0xc8               // vpackusdw    ymm1, ymm1, ymm0
+	LONG $0xc06cf5c5                           // vpunpcklqdq    ymm0, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xd8c0             // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
+
+LBB0_963:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_964:
+	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_964
+	JMP  LBB0_1553
+
+LBB0_965:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_966:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_968
+	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	QUAD $0x00000080a56ffdc5       // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI0_11] */
+	LONG $0x007de2c4; BYTE $0xc4   // vpshufb    ymm0, ymm0, ymm4
+	LONG $0x00fde3c4; WORD $0xe8c0 // vpermq    ymm0, ymm0, 232
+	LONG $0x0075e2c4; BYTE $0xcc   // vpshufb    ymm1, ymm1, ymm4
+	LONG $0x00fde3c4; WORD $0xe8c9 // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd4   // vpshufb    ymm2, ymm2, ymm4
+	LONG $0x00fde3c4; WORD $0xe8d2 // vpermq    ymm2, ymm2, 232
+	LONG $0x0065e2c4; BYTE $0xdc   // vpshufb    ymm3, ymm3, ymm4
+	LONG $0x00fde3c4; WORD $0xe8db // vpermq    ymm3, ymm3, 232
+	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
+	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
+
+LBB0_968:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_969:
+	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_969
+	JMP  LBB0_1553
+
+LBB0_970:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_971:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_973
+	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	QUAD $0x00000080a56ffdc5       // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI0_11] */
+	LONG $0x007de2c4; BYTE $0xc4   // vpshufb    ymm0, ymm0, ymm4
+	LONG $0x00fde3c4; WORD $0xe8c0 // vpermq    ymm0, ymm0, 232
+	LONG $0x0075e2c4; BYTE $0xcc   // vpshufb    ymm1, ymm1, ymm4
+	LONG $0x00fde3c4; WORD $0xe8c9 // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd4   // vpshufb    ymm2, ymm2, ymm4
+	LONG $0x00fde3c4; WORD $0xe8d2 // vpermq    ymm2, ymm2, 232
+	LONG $0x0065e2c4; BYTE $0xdc   // vpshufb    ymm3, ymm3, ymm4
+	LONG $0x00fde3c4; WORD $0xe8db // vpermq    ymm3, ymm3, 232
+	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
+	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
+
+LBB0_973:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_974:
+	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_974
+	JMP  LBB0_1553
+
+LBB0_975:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_976:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_978
+	LONG $0x347de2c4; WORD $0x7a04             // vpmovzxwq    ymm0, qword [rdx + 2*rdi]
+	LONG $0x347de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwq    ymm1, qword [rdx + 2*rdi + 8]
+	LONG $0x347de2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwq    ymm2, qword [rdx + 2*rdi + 16]
+	LONG $0x347de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwq    ymm3, qword [rdx + 2*rdi + 24]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_978:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_979:
+	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_979
+	JMP  LBB0_1553
+
+LBB0_980:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_981:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_983
+	LONG $0x257de2c4; WORD $0xba04             // vpmovsxdq    ymm0, oword [rdx + 4*rdi]
+	LONG $0x257de2c4; WORD $0xba4c; BYTE $0x10 // vpmovsxdq    ymm1, oword [rdx + 4*rdi + 16]
+	LONG $0x257de2c4; WORD $0xba54; BYTE $0x20 // vpmovsxdq    ymm2, oword [rdx + 4*rdi + 32]
+	LONG $0x257de2c4; WORD $0xba5c; BYTE $0x30 // vpmovsxdq    ymm3, oword [rdx + 4*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_983:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_984:
+	LONG $0xb2046348         // movsxd    rax, dword [rdx + 4*rsi]
+	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_984
+	JMP  LBB0_1553
+
+LBB0_985:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_986:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_988
+	LONG $0x045bfcc5; BYTE $0xba   // vcvtdq2ps    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c5bfcc5; WORD $0x20ba // vcvtdq2ps    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x545bfcc5; WORD $0x40ba // vcvtdq2ps    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c5bfcc5; WORD $0x60ba // vcvtdq2ps    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fcc5; BYTE $0xb9   // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9 // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9 // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9 // vmovups    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_988:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_989:
+	LONG $0x042adac5; BYTE $0xb2 // vcvtsi2ss    xmm0, xmm4, dword [rdx + 4*rsi]
+	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_989
+	JMP  LBB0_1553
+
+LBB0_990:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_991:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_993
+	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
+	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5ce6fdc5; WORD $0x60fa // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411f9c5; BYTE $0xb9   // vmovupd    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f9c5; WORD $0x10b9 // vmovupd    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f9c5; WORD $0x20b9 // vmovupd    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f9c5; WORD $0x30b9 // vmovupd    oword [rcx + 4*rdi + 48], xmm3
+
+LBB0_993:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_994:
+	LONG $0x042cfbc5; BYTE $0xf2 // vcvttsd2si    eax, qword [rdx + 8*rsi]
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_994
+	JMP  LBB0_1553
+
+LBB0_995:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_996:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_998
+	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
+	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
+	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
+	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
+	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
+	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
+	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
+
+LBB0_998:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_999:
+	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_999
+	JMP  LBB0_1553
+
+LBB0_1000:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1001:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1003
+	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
+	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1003:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1004:
+	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1004
+	JMP  LBB0_1553
+
+LBB0_1005:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1006:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1008
+	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
+	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1008:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1009:
+	LONG $0x7204bf0f         // movsx    eax, word [rdx + 2*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1009
+	JMP  LBB0_1553
+
+LBB0_1010:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1011:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1013
+	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
+	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
+	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
+	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
+	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
+	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
+	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
+
+LBB0_1013:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1014:
+	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1014
+	JMP  LBB0_1553
+
+LBB0_1015:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1016:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1018
+	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1018:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1019:
+	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1019
+	JMP  LBB0_1553
+
+LBB0_1020:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1021:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1023
+	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
+	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1023:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1024:
+	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1024
+	JMP  LBB0_1553
+
+LBB0_1025:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1026:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1028
+	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
+	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1028:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1029:
+	LONG $0x7204bf0f         // movsx    eax, word [rdx + 2*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1029
+	JMP  LBB0_1553
+
+LBB0_1030:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1031:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1033
+	LONG $0x0410f8c5; BYTE $0xfa               // vmovups    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c10f8c5; WORD $0x20fa             // vmovups    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x5410f8c5; WORD $0x40fa             // vmovups    xmm2, oword [rdx + 8*rdi + 64]
+	LONG $0x5c10f8c5; WORD $0x60fa             // vmovups    xmm3, oword [rdx + 8*rdi + 96]
+	LONG $0x44c6f8c5; WORD $0x10fa; BYTE $0x88 // vshufps    xmm0, xmm0, oword [rdx + 8*rdi + 16], 136
+	LONG $0x4cc6f0c5; WORD $0x30fa; BYTE $0x88 // vshufps    xmm1, xmm1, oword [rdx + 8*rdi + 48], 136
+	LONG $0x54c6e8c5; WORD $0x50fa; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdx + 8*rdi + 80], 136
+	LONG $0x5cc6e0c5; WORD $0x70fa; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdx + 8*rdi + 112], 136
+	LONG $0x0411f8c5; BYTE $0xb9               // vmovups    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f8c5; WORD $0x10b9             // vmovups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f8c5; WORD $0x20b9             // vmovups    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f8c5; WORD $0x30b9             // vmovups    oword [rcx + 4*rdi + 48], xmm3
+
+LBB0_1033:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1034:
+	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1034
+	JMP  LBB0_1553
+
+LBB0_1035:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1036:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1038
+	LONG $0x0410f8c5; BYTE $0xba   // vmovups    xmm0, oword [rdx + 4*rdi]
+	LONG $0x1879e2c4; WORD $0x2c4d // vbroadcastss    xmm1, dword 44[rbp] /* [rip + .LCPI0_2] */
+	LONG $0xd1c2f8c5; BYTE $0x01   // vcmpltps    xmm2, xmm0, xmm1
+	LONG $0xd95cf8c5               // vsubps    xmm3, xmm0, xmm1
+	LONG $0xdb5bfac5               // vcvttps2dq    xmm3, xmm3
+	LONG $0x1879e2c4; WORD $0x3065 // vbroadcastss    xmm4, dword 48[rbp] /* [rip + .LCPI0_3] */
+	LONG $0xdc57e0c5               // vxorps    xmm3, xmm3, xmm4
+	LONG $0xc05bfac5               // vcvttps2dq    xmm0, xmm0
+	LONG $0x4a61e3c4; WORD $0x20c0 // vblendvps    xmm0, xmm3, xmm0, xmm2
+	LONG $0x5410f8c5; WORD $0x10ba // vmovups    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xd9c2e8c5; BYTE $0x01   // vcmpltps    xmm3, xmm2, xmm1
+	LONG $0xe95ce8c5               // vsubps    xmm5, xmm2, xmm1
+	LONG $0xed5bfac5               // vcvttps2dq    xmm5, xmm5
+	LONG $0xec57d0c5               // vxorps    xmm5, xmm5, xmm4
+	LONG $0xd25bfac5               // vcvttps2dq    xmm2, xmm2
+	LONG $0x4a51e3c4; WORD $0x30d2 // vblendvps    xmm2, xmm5, xmm2, xmm3
+	LONG $0x5c10f8c5; WORD $0x20ba // vmovups    xmm3, oword [rdx + 4*rdi + 32]
+	LONG $0xe9c2e0c5; BYTE $0x01   // vcmpltps    xmm5, xmm3, xmm1
+	LONG $0xf15ce0c5               // vsubps    xmm6, xmm3, xmm1
+	LONG $0xf65bfac5               // vcvttps2dq    xmm6, xmm6
+	LONG $0xf457c8c5               // vxorps    xmm6, xmm6, xmm4
+	LONG $0xdb5bfac5               // vcvttps2dq    xmm3, xmm3
+	LONG $0x4a49e3c4; WORD $0x50db // vblendvps    xmm3, xmm6, xmm3, xmm5
+	LONG $0x6c10f8c5; WORD $0x30ba // vmovups    xmm5, oword [rdx + 4*rdi + 48]
+	LONG $0xf1c2d0c5; BYTE $0x01   // vcmpltps    xmm6, xmm5, xmm1
+	LONG $0xc95cd0c5               // vsubps    xmm1, xmm5, xmm1
+	LONG $0xc95bfac5               // vcvttps2dq    xmm1, xmm1
+	LONG $0xcc57f0c5               // vxorps    xmm1, xmm1, xmm4
+	LONG $0xe55bfac5               // vcvttps2dq    xmm4, xmm5
+	LONG $0x4a71e3c4; WORD $0x60cc // vblendvps    xmm1, xmm1, xmm4, xmm6
+	LONG $0x0411f8c5; BYTE $0xb9   // vmovups    oword [rcx + 4*rdi], xmm0
+	LONG $0x5411f8c5; WORD $0x10b9 // vmovups    oword [rcx + 4*rdi + 16], xmm2
+	LONG $0x5c11f8c5; WORD $0x20b9 // vmovups    oword [rcx + 4*rdi + 32], xmm3
+	LONG $0x4c11f8c5; WORD $0x30b9 // vmovups    oword [rcx + 4*rdi + 48], xmm1
+
+LBB0_1038:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1039:
+	LONG $0x2cfae1c4; WORD $0xb204 // vcvttss2si    rax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1       // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1039
+	JMP  LBB0_1553
+
+LBB0_1040:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1041:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1043
+	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
+	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
+	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
+	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
+	LONG $0x597de2c4; WORD $0x0865             // vpbroadcastq    ymm4, qword 8[rbp] /* [rip + .LCPI0_5] */
+	LONG $0xc4ebfdc5                           // vpor    ymm0, ymm0, ymm4
+	LONG $0xc45cfdc5                           // vsubpd    ymm0, ymm0, ymm4
+	LONG $0xccebf5c5                           // vpor    ymm1, ymm1, ymm4
+	LONG $0xcc5cf5c5                           // vsubpd    ymm1, ymm1, ymm4
+	LONG $0xd4ebedc5                           // vpor    ymm2, ymm2, ymm4
+	LONG $0xd45cedc5                           // vsubpd    ymm2, ymm2, ymm4
+	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
+	LONG $0xdc5ce5c5                           // vsubpd    ymm3, ymm3, ymm4
+	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1043:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1044:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	LONG $0x2ad3e1c4; BYTE $0xc0 // vcvtsi2sd    xmm0, xmm5, rax
+	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1044
+	JMP  LBB0_1553
+
+LBB0_1045:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1046:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1048
+	LONG $0x3379e2c4; WORD $0x7a04             // vpmovzxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x3379e2c4; WORD $0x7a4c; BYTE $0x08 // vpmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x3379e2c4; WORD $0x7a54; BYTE $0x10 // vpmovzxwd    xmm2, qword [rdx + 2*rdi + 16]
+	LONG $0x3379e2c4; WORD $0x7a5c; BYTE $0x18 // vpmovzxwd    xmm3, qword [rdx + 2*rdi + 24]
+	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
+	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
+	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1048:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1049:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xc02adbc5             // vcvtsi2sd    xmm0, xmm4, eax
+	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1049
+	JMP  LBB0_1553
+
+LBB0_1050:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1051:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1053
+	LONG $0x2379e2c4; WORD $0x7a04             // vpmovsxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x2379e2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x2379e2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwd    xmm2, qword [rdx + 2*rdi + 16]
+	LONG $0x2379e2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwd    xmm3, qword [rdx + 2*rdi + 24]
+	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
+	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
+	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1053:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1054:
+	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
+	LONG $0xc02adbc5             // vcvtsi2sd    xmm0, xmm4, eax
+	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1054
+	JMP  LBB0_1553
+
+LBB0_1055:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1056:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1058
+	LONG $0x046ffac5; BYTE $0xfa   // vmovdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6ffac5; WORD $0x10fa // vmovdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
+	LONG $0x546ffac5; WORD $0x30fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0x16f9e3c4; WORD $0x01c0 // vpextrq    rax, xmm0, 1
+	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
+	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
+	LONG $0x2aa3e1c4; BYTE $0xc0   // vcvtsi2sd    xmm0, xmm11, rax
+	LONG $0xc41479c5               // vunpcklpd    xmm8, xmm0, xmm4
+	LONG $0x16f9e3c4; WORD $0x01c8 // vpextrq    rax, xmm1, 1
+	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
+	LONG $0x7ef9e1c4; BYTE $0xc8   // vmovq    rax, xmm1
+	LONG $0x2aa3e1c4; BYTE $0xc8   // vcvtsi2sd    xmm1, xmm11, rax
+	LONG $0xcc14f1c5               // vunpcklpd    xmm1, xmm1, xmm4
+	LONG $0x16f9e3c4; WORD $0x01d0 // vpextrq    rax, xmm2, 1
+	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
+	LONG $0x7ef9e1c4; BYTE $0xd0   // vmovq    rax, xmm2
+	LONG $0x2aa3e1c4; BYTE $0xd0   // vcvtsi2sd    xmm2, xmm11, rax
+	LONG $0xd414e9c5               // vunpcklpd    xmm2, xmm2, xmm4
+	LONG $0x16f9e3c4; WORD $0x01d8 // vpextrq    rax, xmm3, 1
+	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
+	LONG $0x7ef9e1c4; BYTE $0xd8   // vmovq    rax, xmm3
+	LONG $0x2aa3e1c4; BYTE $0xd8   // vcvtsi2sd    xmm3, xmm11, rax
+	LONG $0x6c6ffac5; WORD $0x50fa // vmovdqu    xmm5, oword [rdx + 8*rdi + 80]
+	LONG $0x16f9e3c4; WORD $0x01e8 // vpextrq    rax, xmm5, 1
+	LONG $0x2aa3e1c4; BYTE $0xf0   // vcvtsi2sd    xmm6, xmm11, rax
+	LONG $0x7ef9e1c4; BYTE $0xe8   // vmovq    rax, xmm5
+	LONG $0x2aa3e1c4; BYTE $0xe8   // vcvtsi2sd    xmm5, xmm11, rax
+	LONG $0x7c6ffac5; WORD $0x40fa // vmovdqu    xmm7, oword [rdx + 8*rdi + 64]
+	LONG $0x16f9e3c4; WORD $0x01f8 // vpextrq    rax, xmm7, 1
+	LONG $0x2aa3e1c4; BYTE $0xc0   // vcvtsi2sd    xmm0, xmm11, rax
+	LONG $0xdc14e1c5               // vunpcklpd    xmm3, xmm3, xmm4
+	LONG $0x7ef9e1c4; BYTE $0xf8   // vmovq    rax, xmm7
+	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
+	LONG $0xee14d1c5               // vunpcklpd    xmm5, xmm5, xmm6
+	LONG $0x746ffac5; WORD $0x70fa // vmovdqu    xmm6, oword [rdx + 8*rdi + 112]
+	LONG $0x16f9e3c4; WORD $0x01f0 // vpextrq    rax, xmm6, 1
+	LONG $0xc014d9c5               // vunpcklpd    xmm0, xmm4, xmm0
+	LONG $0x2aa3e1c4; BYTE $0xe0   // vcvtsi2sd    xmm4, xmm11, rax
+	LONG $0x7ef9e1c4; BYTE $0xf0   // vmovq    rax, xmm6
+	LONG $0x2aa3e1c4; BYTE $0xf0   // vcvtsi2sd    xmm6, xmm11, rax
+	LONG $0xe414c9c5               // vunpcklpd    xmm4, xmm6, xmm4
+	LONG $0x746ffac5; WORD $0x60fa // vmovdqu    xmm6, oword [rdx + 8*rdi + 96]
+	LONG $0x16f9e3c4; WORD $0x01f0 // vpextrq    rax, xmm6, 1
+	LONG $0x2aa3e1c4; BYTE $0xf8   // vcvtsi2sd    xmm7, xmm11, rax
+	LONG $0x7ef9e1c4; BYTE $0xf0   // vmovq    rax, xmm6
+	LONG $0x2aa3e1c4; BYTE $0xf0   // vcvtsi2sd    xmm6, xmm11, rax
+	LONG $0xf714c9c5               // vunpcklpd    xmm6, xmm6, xmm7
+	LONG $0x4c11f9c5; WORD $0x10f9 // vmovupd    oword [rcx + 8*rdi + 16], xmm1
+	LONG $0x041179c5; BYTE $0xf9   // vmovupd    oword [rcx + 8*rdi], xmm8
+	LONG $0x5c11f9c5; WORD $0x20f9 // vmovupd    oword [rcx + 8*rdi + 32], xmm3
+	LONG $0x5411f9c5; WORD $0x30f9 // vmovupd    oword [rcx + 8*rdi + 48], xmm2
+	LONG $0x4411f9c5; WORD $0x40f9 // vmovupd    oword [rcx + 8*rdi + 64], xmm0
+	LONG $0x6c11f9c5; WORD $0x50f9 // vmovupd    oword [rcx + 8*rdi + 80], xmm5
+	LONG $0x7411f9c5; WORD $0x60f9 // vmovupd    oword [rcx + 8*rdi + 96], xmm6
+	LONG $0x6411f9c5; WORD $0x70f9 // vmovupd    oword [rcx + 8*rdi + 112], xmm4
+
+LBB0_1058:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1059:
+	LONG $0x2aa3e1c4; WORD $0xf204 // vcvtsi2sd    xmm0, xmm11, qword [rdx + 8*rsi]
+	LONG $0x0411fbc5; BYTE $0xf1   // vmovsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1059
+	JMP  LBB0_1553
+
+LBB0_1060:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1061:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1063
+	LONG $0x045afcc5; BYTE $0xba   // vcvtps2pd    ymm0, oword [rdx + 4*rdi]
+	LONG $0x4c5afcc5; WORD $0x10ba // vcvtps2pd    ymm1, oword [rdx + 4*rdi + 16]
+	LONG $0x545afcc5; WORD $0x20ba // vcvtps2pd    ymm2, oword [rdx + 4*rdi + 32]
+	LONG $0x5c5afcc5; WORD $0x30ba // vcvtps2pd    ymm3, oword [rdx + 4*rdi + 48]
+	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1063:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1064:
+	LONG $0x0410fac5; BYTE $0xb2 // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0xc05afac5             // vcvtss2sd    xmm0, xmm0, xmm0
+	LONG $0x0411fbc5; BYTE $0xf1 // vmovsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1064
+	JMP  LBB0_1553
+
+LBB0_1065:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1066:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1068
+	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	QUAD $0x00000080a56ffdc5       // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI0_11] */
+	LONG $0x007de2c4; BYTE $0xc4   // vpshufb    ymm0, ymm0, ymm4
+	LONG $0x00fde3c4; WORD $0xe8c0 // vpermq    ymm0, ymm0, 232
+	LONG $0x0075e2c4; BYTE $0xcc   // vpshufb    ymm1, ymm1, ymm4
+	LONG $0x00fde3c4; WORD $0xe8c9 // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd4   // vpshufb    ymm2, ymm2, ymm4
+	LONG $0x00fde3c4; WORD $0xe8d2 // vpermq    ymm2, ymm2, 232
+	LONG $0x0065e2c4; BYTE $0xdc   // vpshufb    ymm3, ymm3, ymm4
+	LONG $0x00fde3c4; WORD $0xe8db // vpermq    ymm3, ymm3, 232
+	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
+	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
+
+LBB0_1068:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1069:
+	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1069
+	JMP  LBB0_1553
+
+LBB0_1070:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1071:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1073
+	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	QUAD $0x00000080a56ffdc5       // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI0_11] */
+	LONG $0x007de2c4; BYTE $0xc4   // vpshufb    ymm0, ymm0, ymm4
+	LONG $0x00fde3c4; WORD $0xe8c0 // vpermq    ymm0, ymm0, 232
+	LONG $0x0075e2c4; BYTE $0xcc   // vpshufb    ymm1, ymm1, ymm4
+	LONG $0x00fde3c4; WORD $0xe8c9 // vpermq    ymm1, ymm1, 232
+	LONG $0x006de2c4; BYTE $0xd4   // vpshufb    ymm2, ymm2, ymm4
+	LONG $0x00fde3c4; WORD $0xe8d2 // vpermq    ymm2, ymm2, 232
+	LONG $0x0065e2c4; BYTE $0xdc   // vpshufb    ymm3, ymm3, ymm4
+	LONG $0x00fde3c4; WORD $0xe8db // vpermq    ymm3, ymm3, 232
+	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
+	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
+
+LBB0_1073:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1074:
+	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1074
+	JMP  LBB0_1553
+
+LBB0_1075:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1076:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1078
+	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
+	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5ce6fdc5; WORD $0x60fa // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
+	LONG $0x186de3c4; WORD $0x01d3 // vinsertf128    ymm2, ymm2, xmm3, 1
+	LONG $0x2b6de2c4; BYTE $0xd0   // vpackusdw    ymm2, ymm2, ymm0
+	LONG $0x187de3c4; WORD $0x01c1 // vinsertf128    ymm0, ymm0, xmm1, 1
+	LONG $0x2b7de2c4; BYTE $0xc0   // vpackusdw    ymm0, ymm0, ymm0
+	LONG $0xc26cfdc5               // vpunpcklqdq    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm0
+
+LBB0_1078:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1079:
+	LONG $0x042cfbc5; BYTE $0xf2 // vcvttsd2si    eax, qword [rdx + 8*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1079
+	JMP  LBB0_1553
+
+LBB0_1080:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1081:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1083
+	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
+	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5ce6fdc5; WORD $0x60fa // vcvttpd2dq    xmm3, yword [rdx + 8*rdi + 96]
+	LONG $0x186de3c4; WORD $0x01d3 // vinsertf128    ymm2, ymm2, xmm3, 1
+	LONG $0xd06bedc5               // vpackssdw    ymm2, ymm2, ymm0
+	LONG $0x187de3c4; WORD $0x01c1 // vinsertf128    ymm0, ymm0, xmm1, 1
+	LONG $0xc06bfdc5               // vpackssdw    ymm0, ymm0, ymm0
+	LONG $0xc26cfdc5               // vpunpcklqdq    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x79   // vmovdqu    yword [rcx + 2*rdi], ymm0
+
+LBB0_1083:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1084:
+	LONG $0x042cfbc5; BYTE $0xf2 // vcvttsd2si    eax, qword [rdx + 8*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1084
+	JMP  LBB0_1553
+
+LBB0_1085:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1086:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1088
+	LONG $0xc0eff9c5                           // vpxor    xmm0, xmm0, xmm0
+	LONG $0x0e79e3c4; WORD $0xfa0c; BYTE $0x11 // vpblendw    xmm1, xmm0, oword [rdx + 8*rdi], 17
+	QUAD $0x1110fa540e79e3c4                   // vpblendw    xmm2, xmm0, oword [rdx + 8*rdi + 16], 17
+	QUAD $0x1120fa5c0e79e3c4                   // vpblendw    xmm3, xmm0, oword [rdx + 8*rdi + 32], 17
+	QUAD $0x1130fa640e79e3c4                   // vpblendw    xmm4, xmm0, oword [rdx + 8*rdi + 48], 17
+	QUAD $0x1140fa6c0e79e3c4                   // vpblendw    xmm5, xmm0, oword [rdx + 8*rdi + 64], 17
+	QUAD $0x1150fa740e79e3c4                   // vpblendw    xmm6, xmm0, oword [rdx + 8*rdi + 80], 17
+	QUAD $0x1160fa7c0e79e3c4                   // vpblendw    xmm7, xmm0, oword [rdx + 8*rdi + 96], 17
+	QUAD $0x1170fa440e79e3c4                   // vpblendw    xmm0, xmm0, oword [rdx + 8*rdi + 112], 17
+	LONG $0x384de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm6, xmm0, 1
+	LONG $0x3855e3c4; WORD $0x01ef             // vinserti128    ymm5, ymm5, xmm7, 1
+	LONG $0x2b55e2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm5, ymm0
+	LONG $0x2b7de2c4; BYTE $0xc0               // vpackusdw    ymm0, ymm0, ymm0
+	LONG $0x386de3c4; WORD $0x01d4             // vinserti128    ymm2, ymm2, xmm4, 1
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	LONG $0x2b75e2c4; BYTE $0xca               // vpackusdw    ymm1, ymm1, ymm2
+	LONG $0x2b75e2c4; BYTE $0xc8               // vpackusdw    ymm1, ymm1, ymm0
+	LONG $0xc06cf5c5                           // vpunpcklqdq    ymm0, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xd8c0             // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
+
+LBB0_1088:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1089:
+	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1089
+	JMP  LBB0_1553
+
+LBB0_1090:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1091:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1093
+	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
+	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
+	LONG $0x2b79e2c4; BYTE $0xc1   // vpackusdw    xmm0, xmm0, xmm1
+	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0x2b71e2c4; BYTE $0xca   // vpackusdw    xmm1, xmm1, xmm2
+	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0x2b69e2c4; BYTE $0xd3   // vpackusdw    xmm2, xmm2, xmm3
+	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
+	LONG $0x2b61e2c4; BYTE $0xdc   // vpackusdw    xmm3, xmm3, xmm4
+	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
+	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
+
+LBB0_1093:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1094:
+	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1094
+	JMP  LBB0_1553
+
+LBB0_1095:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1096:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1098
+	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
+	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
+	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
+	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
+	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0x047ffac5; BYTE $0x79   // vmovdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7ffac5; WORD $0x1079 // vmovdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x547ffac5; WORD $0x2079 // vmovdqu    oword [rcx + 2*rdi + 32], xmm2
+	LONG $0x5c7ffac5; WORD $0x3079 // vmovdqu    oword [rcx + 2*rdi + 48], xmm3
+
+LBB0_1098:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1099:
+	LONG $0x042cfac5; BYTE $0xb2 // vcvttss2si    eax, dword [rdx + 4*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1099
+	JMP  LBB0_1553
+
+LBB0_1100:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1101:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1103
+	LONG $0x357de2c4; WORD $0xba04             // vpmovzxdq    ymm0, oword [rdx + 4*rdi]
+	LONG $0x357de2c4; WORD $0xba4c; BYTE $0x10 // vpmovzxdq    ymm1, oword [rdx + 4*rdi + 16]
+	LONG $0x357de2c4; WORD $0xba54; BYTE $0x20 // vpmovzxdq    ymm2, oword [rdx + 4*rdi + 32]
+	LONG $0x357de2c4; WORD $0xba5c; BYTE $0x30 // vpmovzxdq    ymm3, oword [rdx + 4*rdi + 48]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1103:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1104:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1104
+	JMP  LBB0_1553
+
+LBB0_1105:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1106:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1108
+	LONG $0x046ffec5; BYTE $0xba   // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x587de2c4; WORD $0x345d // vpbroadcastd    ymm3, dword 52[rbp] /* [rip + .LCPI0_13] */
+	LONG $0x646ffec5; WORD $0x60ba // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0x0e7de3c4; WORD $0xaaeb // vpblendw    ymm5, ymm0, ymm3, 170
+	LONG $0x587de2c4; WORD $0x3875 // vpbroadcastd    ymm6, dword 56[rbp] /* [rip + .LCPI0_14] */
+	LONG $0xd072fdc5; BYTE $0x10   // vpsrld    ymm0, ymm0, 16
+	LONG $0x0e7de3c4; WORD $0xaac6 // vpblendw    ymm0, ymm0, ymm6, 170
+	LONG $0x187de2c4; WORD $0x3c7d // vbroadcastss    ymm7, dword 60[rbp] /* [rip + .LCPI0_15] */
+	LONG $0xc75cfcc5               // vsubps    ymm0, ymm0, ymm7
+	LONG $0xc058d4c5               // vaddps    ymm0, ymm5, ymm0
+	LONG $0x0e75e3c4; WORD $0xaaeb // vpblendw    ymm5, ymm1, ymm3, 170
+	LONG $0xd172f5c5; BYTE $0x10   // vpsrld    ymm1, ymm1, 16
+	LONG $0x0e75e3c4; WORD $0xaace // vpblendw    ymm1, ymm1, ymm6, 170
+	LONG $0xcf5cf4c5               // vsubps    ymm1, ymm1, ymm7
+	LONG $0xc958d4c5               // vaddps    ymm1, ymm5, ymm1
+	LONG $0x0e6de3c4; WORD $0xaaeb // vpblendw    ymm5, ymm2, ymm3, 170
+	LONG $0xd272edc5; BYTE $0x10   // vpsrld    ymm2, ymm2, 16
+	LONG $0x0e6de3c4; WORD $0xaad6 // vpblendw    ymm2, ymm2, ymm6, 170
+	LONG $0xd75cecc5               // vsubps    ymm2, ymm2, ymm7
+	LONG $0xd258d4c5               // vaddps    ymm2, ymm5, ymm2
+	LONG $0x0e5de3c4; WORD $0xaadb // vpblendw    ymm3, ymm4, ymm3, 170
+	LONG $0xd472ddc5; BYTE $0x10   // vpsrld    ymm4, ymm4, 16
+	LONG $0x0e5de3c4; WORD $0xaae6 // vpblendw    ymm4, ymm4, ymm6, 170
+	LONG $0xe75cdcc5               // vsubps    ymm4, ymm4, ymm7
+	LONG $0xdc58e4c5               // vaddps    ymm3, ymm3, ymm4
+	LONG $0x0411fcc5; BYTE $0xb9   // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9 // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9 // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9 // vmovups    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1108:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1109:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	LONG $0x2abae1c4; BYTE $0xc0 // vcvtsi2ss    xmm0, xmm8, rax
+	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1109
+	JMP  LBB0_1553
+
+LBB0_1110:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1111:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1113
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x08 // vcvttsd2si    rax, qword [rdx + 8*rdi + 8]
+	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
+	LONG $0x2cfbe1c4; WORD $0xfa04             // vcvttsd2si    rax, qword [rdx + 8*rdi]
+	LONG $0x6ef9e1c4; BYTE $0xc8               // vmovq    xmm1, rax
+	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x18 // vcvttsd2si    rax, qword [rdx + 8*rdi + 24]
+	LONG $0x6ef9e1c4; BYTE $0xc8               // vmovq    xmm1, rax
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x10 // vcvttsd2si    rax, qword [rdx + 8*rdi + 16]
+	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x38 // vcvttsd2si    rax, qword [rdx + 8*rdi + 56]
+	LONG $0xc96ce9c5                           // vpunpcklqdq    xmm1, xmm2, xmm1
+	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x30 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 48]
+	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x28 // vcvttsd2si    rax, qword [rdx + 8*rdi + 40]
+	LONG $0x6ef9e1c4; BYTE $0xdb               // vmovq    xmm3, rbx
+	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x20 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 32]
+	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
+	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
+	LONG $0x6ef9e1c4; BYTE $0xe3               // vmovq    xmm4, rbx
+	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x58 // vcvttsd2si    rax, qword [rdx + 8*rdi + 88]
+	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x50 // vcvttsd2si    rax, qword [rdx + 8*rdi + 80]
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x48 // vcvttsd2si    rax, qword [rdx + 8*rdi + 72]
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x40 // vcvttsd2si    rax, qword [rdx + 8*rdi + 64]
+	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x78 // vcvttsd2si    rax, qword [rdx + 8*rdi + 120]
+	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
+	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x70 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 112]
+	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
+	LONG $0x2cfbe1c4; WORD $0xfa44; BYTE $0x68 // vcvttsd2si    rax, qword [rdx + 8*rdi + 104]
+	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
+	LONG $0x2cfbe1c4; WORD $0xfa5c; BYTE $0x60 // vcvttsd2si    rbx, qword [rdx + 8*rdi + 96]
+	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
+	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
+	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
+	LONG $0xc06cc1c5                           // vpunpcklqdq    xmm0, xmm7, xmm0
+	LONG $0x4c7ffac5; WORD $0x10f9             // vmovdqu    oword [rcx + 8*rdi + 16], xmm1
+	LONG $0x047f7ac5; BYTE $0xf9               // vmovdqu    oword [rcx + 8*rdi], xmm8
+	LONG $0x5c7ffac5; WORD $0x20f9             // vmovdqu    oword [rcx + 8*rdi + 32], xmm3
+	LONG $0x547ffac5; WORD $0x30f9             // vmovdqu    oword [rcx + 8*rdi + 48], xmm2
+	LONG $0x6c7ffac5; WORD $0x40f9             // vmovdqu    oword [rcx + 8*rdi + 64], xmm5
+	LONG $0x647ffac5; WORD $0x50f9             // vmovdqu    oword [rcx + 8*rdi + 80], xmm4
+	LONG $0x447ffac5; WORD $0x60f9             // vmovdqu    oword [rcx + 8*rdi + 96], xmm0
+	LONG $0x747ffac5; WORD $0x70f9             // vmovdqu    oword [rcx + 8*rdi + 112], xmm6
+
+LBB0_1113:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1114:
+	LONG $0x2cfbe1c4; WORD $0xf204 // vcvttsd2si    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1114
+	JMP  LBB0_1553
+
+LBB0_1115:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1116:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1118
+	LONG $0x045afdc5; BYTE $0xfa   // vcvtpd2ps    xmm0, yword [rdx + 8*rdi]
+	LONG $0x4c5afdc5; WORD $0x20fa // vcvtpd2ps    xmm1, yword [rdx + 8*rdi + 32]
+	LONG $0x545afdc5; WORD $0x40fa // vcvtpd2ps    xmm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c5afdc5; WORD $0x60fa // vcvtpd2ps    xmm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411f9c5; BYTE $0xb9   // vmovupd    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f9c5; WORD $0x10b9 // vmovupd    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f9c5; WORD $0x20b9 // vmovupd    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f9c5; WORD $0x30b9 // vmovupd    oword [rcx + 4*rdi + 48], xmm3
+
+LBB0_1118:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1119:
+	LONG $0x0410fbc5; BYTE $0xf2 // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0xc05afbc5             // vcvtsd2ss    xmm0, xmm0, xmm0
+	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1119
+	JMP  LBB0_1553
+
+LBB0_1120:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1121:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1123
+	LONG $0x337de2c4; WORD $0x7a04             // vpmovzxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x337de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovzxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0x337de2c4; WORD $0x7a54; BYTE $0x20 // vpmovzxwd    ymm2, oword [rdx + 2*rdi + 32]
+	LONG $0x337de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovzxwd    ymm3, oword [rdx + 2*rdi + 48]
+	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
+	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
+	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1123:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1124:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xc02adac5             // vcvtsi2ss    xmm0, xmm4, eax
+	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1124
+	JMP  LBB0_1553
+
+LBB0_1125:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1126:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1128
+	LONG $0x247de2c4; WORD $0x7a04             // vpmovsxwq    ymm0, qword [rdx + 2*rdi]
+	LONG $0x247de2c4; WORD $0x7a4c; BYTE $0x08 // vpmovsxwq    ymm1, qword [rdx + 2*rdi + 8]
+	LONG $0x247de2c4; WORD $0x7a54; BYTE $0x10 // vpmovsxwq    ymm2, qword [rdx + 2*rdi + 16]
+	LONG $0x247de2c4; WORD $0x7a5c; BYTE $0x18 // vpmovsxwq    ymm3, qword [rdx + 2*rdi + 24]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1128:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1129:
+	LONG $0x04bf0f48; BYTE $0x72 // movsx    rax, word [rdx + 2*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1129
+	JMP  LBB0_1553
+
+LBB0_1130:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1131:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1133
+	LONG $0x237de2c4; WORD $0x7a04             // vpmovsxwd    ymm0, oword [rdx + 2*rdi]
+	LONG $0x237de2c4; WORD $0x7a4c; BYTE $0x10 // vpmovsxwd    ymm1, oword [rdx + 2*rdi + 16]
+	LONG $0x237de2c4; WORD $0x7a54; BYTE $0x20 // vpmovsxwd    ymm2, oword [rdx + 2*rdi + 32]
+	LONG $0x237de2c4; WORD $0x7a5c; BYTE $0x30 // vpmovsxwd    ymm3, oword [rdx + 2*rdi + 48]
+	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
+	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
+	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1133:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1134:
+	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
+	LONG $0xc02adac5             // vcvtsi2ss    xmm0, xmm4, eax
+	LONG $0x0411fac5; BYTE $0xb1 // vmovss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1134
+	JMP  LBB0_1553
+
+LBB0_1135:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1136:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1138
+	LONG $0x046ffac5; BYTE $0xfa   // vmovdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x16f9e3c4; WORD $0x01c0 // vpextrq    rax, xmm0, 1
+	LONG $0x4c6ffac5; WORD $0x10fa // vmovdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x2abae1c4; BYTE $0xd0   // vcvtsi2ss    xmm2, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xc0   // vmovq    rax, xmm0
+	LONG $0x2abae1c4; BYTE $0xc0   // vcvtsi2ss    xmm0, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xc8   // vmovq    rax, xmm1
+	LONG $0x2abae1c4; BYTE $0xd8   // vcvtsi2ss    xmm3, xmm8, rax
+	LONG $0x16f9e3c4; WORD $0x01c8 // vpextrq    rax, xmm1, 1
+	LONG $0x2abae1c4; BYTE $0xc8   // vcvtsi2ss    xmm1, xmm8, rax
+	LONG $0x646ffac5; WORD $0x20fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 32]
+	LONG $0x6c6ffac5; WORD $0x30fa // vmovdqu    xmm5, oword [rdx + 8*rdi + 48]
+	LONG $0x16f9e3c4; WORD $0x01e0 // vpextrq    rax, xmm4, 1
+	LONG $0x2179e3c4; WORD $0x10c2 // vinsertps    xmm0, xmm0, xmm2, 16
+	LONG $0x2abae1c4; BYTE $0xd0   // vcvtsi2ss    xmm2, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xe0   // vmovq    rax, xmm4
+	LONG $0x2abae1c4; BYTE $0xe0   // vcvtsi2ss    xmm4, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xe8   // vmovq    rax, xmm5
+	LONG $0x2abae1c4; BYTE $0xf0   // vcvtsi2ss    xmm6, xmm8, rax
+	LONG $0x2179e3c4; WORD $0x20c3 // vinsertps    xmm0, xmm0, xmm3, 32
+	LONG $0x2179e3c4; WORD $0x30c1 // vinsertps    xmm0, xmm0, xmm1, 48
+	LONG $0x16f9e3c4; WORD $0x01e8 // vpextrq    rax, xmm5, 1
+	LONG $0x2159e3c4; WORD $0x10ca // vinsertps    xmm1, xmm4, xmm2, 16
+	LONG $0x2abae1c4; BYTE $0xd0   // vcvtsi2ss    xmm2, xmm8, rax
+	LONG $0x2171e3c4; WORD $0x20ce // vinsertps    xmm1, xmm1, xmm6, 32
+	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
+	LONG $0x16f9e3c4; WORD $0x01d8 // vpextrq    rax, xmm3, 1
+	LONG $0x2abae1c4; BYTE $0xe0   // vcvtsi2ss    xmm4, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xd8   // vmovq    rax, xmm3
+	LONG $0x2abae1c4; BYTE $0xd8   // vcvtsi2ss    xmm3, xmm8, rax
+	LONG $0x6c6ffac5; WORD $0x50fa // vmovdqu    xmm5, oword [rdx + 8*rdi + 80]
+	LONG $0x7ef9e1c4; BYTE $0xe8   // vmovq    rax, xmm5
+	LONG $0x2abae1c4; BYTE $0xf0   // vcvtsi2ss    xmm6, xmm8, rax
+	LONG $0x2171e3c4; WORD $0x30ca // vinsertps    xmm1, xmm1, xmm2, 48
+	LONG $0x2161e3c4; WORD $0x10d4 // vinsertps    xmm2, xmm3, xmm4, 16
+	LONG $0x16f9e3c4; WORD $0x01e8 // vpextrq    rax, xmm5, 1
+	LONG $0x2169e3c4; WORD $0x20d6 // vinsertps    xmm2, xmm2, xmm6, 32
+	LONG $0x2abae1c4; BYTE $0xd8   // vcvtsi2ss    xmm3, xmm8, rax
+	LONG $0x2169e3c4; WORD $0x30d3 // vinsertps    xmm2, xmm2, xmm3, 48
+	LONG $0x5c6ffac5; WORD $0x60fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 96]
+	LONG $0x16f9e3c4; WORD $0x01d8 // vpextrq    rax, xmm3, 1
+	LONG $0x2abae1c4; BYTE $0xe0   // vcvtsi2ss    xmm4, xmm8, rax
+	LONG $0x7ef9e1c4; BYTE $0xd8   // vmovq    rax, xmm3
+	LONG $0x2abae1c4; BYTE $0xd8   // vcvtsi2ss    xmm3, xmm8, rax
+	LONG $0x6c6ffac5; WORD $0x70fa // vmovdqu    xmm5, oword [rdx + 8*rdi + 112]
+	LONG $0x7ef9e1c4; BYTE $0xe8   // vmovq    rax, xmm5
+	LONG $0x2abae1c4; BYTE $0xf0   // vcvtsi2ss    xmm6, xmm8, rax
+	LONG $0x2161e3c4; WORD $0x10dc // vinsertps    xmm3, xmm3, xmm4, 16
+	LONG $0x2161e3c4; WORD $0x20de // vinsertps    xmm3, xmm3, xmm6, 32
+	LONG $0x16f9e3c4; WORD $0x01e8 // vpextrq    rax, xmm5, 1
+	LONG $0x2abae1c4; BYTE $0xe0   // vcvtsi2ss    xmm4, xmm8, rax
+	LONG $0x2161e3c4; WORD $0x30dc // vinsertps    xmm3, xmm3, xmm4, 48
+	LONG $0x0411f8c5; BYTE $0xb9   // vmovups    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c11f8c5; WORD $0x10b9 // vmovups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x5411f8c5; WORD $0x20b9 // vmovups    oword [rcx + 4*rdi + 32], xmm2
+	LONG $0x5c11f8c5; WORD $0x30b9 // vmovups    oword [rcx + 4*rdi + 48], xmm3
+
+LBB0_1138:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1139:
+	LONG $0x2abae1c4; WORD $0xf204 // vcvtsi2ss    xmm0, xmm8, qword [rdx + 8*rsi]
+	LONG $0x0411fac5; BYTE $0xb1   // vmovss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1139
+	JMP  LBB0_1553
+
+LBB0_1140:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1141:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1143
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x04 // vcvttss2si    rax, dword [rdx + 4*rdi + 4]
+	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
+	LONG $0x2cfae1c4; WORD $0xba04             // vcvttss2si    rax, dword [rdx + 4*rdi]
+	LONG $0x6ef9e1c4; BYTE $0xc8               // vmovq    xmm1, rax
+	LONG $0xc06c71c5                           // vpunpcklqdq    xmm8, xmm1, xmm0
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x0c // vcvttss2si    rax, dword [rdx + 4*rdi + 12]
+	LONG $0x6ef9e1c4; BYTE $0xc8               // vmovq    xmm1, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x08 // vcvttss2si    rax, dword [rdx + 4*rdi + 8]
+	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x1c // vcvttss2si    rax, dword [rdx + 4*rdi + 28]
+	LONG $0xc96ce9c5                           // vpunpcklqdq    xmm1, xmm2, xmm1
+	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x18 // vcvttss2si    rbx, dword [rdx + 4*rdi + 24]
+	LONG $0x6ef9e1c4; BYTE $0xd0               // vmovq    xmm2, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x14 // vcvttss2si    rax, dword [rdx + 4*rdi + 20]
+	LONG $0x6ef9e1c4; BYTE $0xdb               // vmovq    xmm3, rbx
+	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x10 // vcvttss2si    rbx, dword [rdx + 4*rdi + 16]
+	LONG $0xd26ce1c5                           // vpunpcklqdq    xmm2, xmm3, xmm2
+	LONG $0x6ef9e1c4; BYTE $0xd8               // vmovq    xmm3, rax
+	LONG $0x6ef9e1c4; BYTE $0xe3               // vmovq    xmm4, rbx
+	LONG $0xdb6cd9c5                           // vpunpcklqdq    xmm3, xmm4, xmm3
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x2c // vcvttss2si    rax, dword [rdx + 4*rdi + 44]
+	LONG $0x6ef9e1c4; BYTE $0xe0               // vmovq    xmm4, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x28 // vcvttss2si    rax, dword [rdx + 4*rdi + 40]
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	LONG $0xe46cd1c5                           // vpunpcklqdq    xmm4, xmm5, xmm4
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x24 // vcvttss2si    rax, dword [rdx + 4*rdi + 36]
+	LONG $0x6ef9e1c4; BYTE $0xe8               // vmovq    xmm5, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x20 // vcvttss2si    rax, dword [rdx + 4*rdi + 32]
+	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x3c // vcvttss2si    rax, dword [rdx + 4*rdi + 60]
+	LONG $0xed6cc9c5                           // vpunpcklqdq    xmm5, xmm6, xmm5
+	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x38 // vcvttss2si    rbx, dword [rdx + 4*rdi + 56]
+	LONG $0x6ef9e1c4; BYTE $0xf0               // vmovq    xmm6, rax
+	LONG $0x2cfae1c4; WORD $0xba44; BYTE $0x34 // vcvttss2si    rax, dword [rdx + 4*rdi + 52]
+	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
+	LONG $0x2cfae1c4; WORD $0xba5c; BYTE $0x30 // vcvttss2si    rbx, dword [rdx + 4*rdi + 48]
+	LONG $0x6ef9e1c4; BYTE $0xc0               // vmovq    xmm0, rax
+	LONG $0xf66cc1c5                           // vpunpcklqdq    xmm6, xmm7, xmm6
+	LONG $0x6ef9e1c4; BYTE $0xfb               // vmovq    xmm7, rbx
+	LONG $0xc06cc1c5                           // vpunpcklqdq    xmm0, xmm7, xmm0
+	LONG $0x4c7ffac5; WORD $0x10f9             // vmovdqu    oword [rcx + 8*rdi + 16], xmm1
+	LONG $0x047f7ac5; BYTE $0xf9               // vmovdqu    oword [rcx + 8*rdi], xmm8
+	LONG $0x5c7ffac5; WORD $0x20f9             // vmovdqu    oword [rcx + 8*rdi + 32], xmm3
+	LONG $0x547ffac5; WORD $0x30f9             // vmovdqu    oword [rcx + 8*rdi + 48], xmm2
+	LONG $0x6c7ffac5; WORD $0x40f9             // vmovdqu    oword [rcx + 8*rdi + 64], xmm5
+	LONG $0x647ffac5; WORD $0x50f9             // vmovdqu    oword [rcx + 8*rdi + 80], xmm4
+	LONG $0x447ffac5; WORD $0x60f9             // vmovdqu    oword [rcx + 8*rdi + 96], xmm0
+	LONG $0x747ffac5; WORD $0x70f9             // vmovdqu    oword [rcx + 8*rdi + 112], xmm6
+
+LBB0_1143:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+
+LBB0_1144:
+	LONG $0x2cfae1c4; WORD $0xb204 // vcvttss2si    rax, dword [rdx + 4*rsi]
+	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1144
+
+LBB0_1553:
+	VZEROUPPER
+	RET
+
+LBB0_1145:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1146:
+	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
+	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
+	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
+	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
+	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
+	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
+	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
+	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
+	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
+	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
+	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
+	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
+	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
+	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
+	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
+	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
+	LONG $0x80e88348                     // sub    rax, -128
+	LONG $0x04c78348                     // add    rdi, 4
+	JNE  LBB0_1146
+
+LBB0_1147:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1150
+	WORD $0x0148; BYTE $0xc0 // add    rax, rax
+	LONG $0x20c08348         // add    rax, 32
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1149:
+	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
+	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
+	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
+	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
+	LONG $0x40c08348               // add    rax, 64
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1149
+
+LBB0_1150:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1151
+
+LBB0_1155:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1156:
+	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
+	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
+	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
+	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
+	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
+	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
+	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
+	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
+	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
+	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
+	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
+	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
+	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
+	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
+	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
+	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
+	LONG $0x80e88348                     // sub    rax, -128
+	LONG $0x04c78348                     // add    rdi, 4
+	JNE  LBB0_1156
+
+LBB0_1157:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1160
+	WORD $0x0148; BYTE $0xc0 // add    rax, rax
+	LONG $0x20c08348         // add    rax, 32
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1159:
+	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
+	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
+	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
+	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
+	LONG $0x40c08348               // add    rax, 64
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1159
+
+LBB0_1160:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1161
+
+LBB0_1165:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1166:
+	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
+	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
+	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
+	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
+	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
+	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
+	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
+	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
+	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
+	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
+	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
+	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
+	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
+	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
+	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
+	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
+	LONG $0x80e88348                     // sub    rax, -128
+	LONG $0x04c78348                     // add    rdi, 4
+	JNE  LBB0_1166
+
+LBB0_1167:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1170
+	WORD $0x0148; BYTE $0xc0 // add    rax, rax
+	LONG $0x20c08348         // add    rax, 32
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1169:
+	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
+	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
+	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
+	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
+	LONG $0x40c08348               // add    rax, 64
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1169
+
+LBB0_1170:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1171
+
+LBB0_1175:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1176:
+	LONG $0x0410fcc5; BYTE $0x42         // vmovups    ymm0, yword [rdx + 2*rax]
+	LONG $0x4c10fcc5; WORD $0x2042       // vmovups    ymm1, yword [rdx + 2*rax + 32]
+	LONG $0x0411fcc5; BYTE $0x41         // vmovups    yword [rcx + 2*rax], ymm0
+	LONG $0x4c11fcc5; WORD $0x2041       // vmovups    yword [rcx + 2*rax + 32], ymm1
+	LONG $0x4410fcc5; WORD $0x4042       // vmovups    ymm0, yword [rdx + 2*rax + 64]
+	LONG $0x4c10fcc5; WORD $0x6042       // vmovups    ymm1, yword [rdx + 2*rax + 96]
+	LONG $0x4411fcc5; WORD $0x4041       // vmovups    yword [rcx + 2*rax + 64], ymm0
+	LONG $0x4c11fcc5; WORD $0x6041       // vmovups    yword [rcx + 2*rax + 96], ymm1
+	QUAD $0x000080428410fcc5; BYTE $0x00 // vmovups    ymm0, yword [rdx + 2*rax + 128]
+	QUAD $0x0000a0428c10fcc5; BYTE $0x00 // vmovups    ymm1, yword [rdx + 2*rax + 160]
+	QUAD $0x000080418411fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 128], ymm0
+	QUAD $0x0000a0418c11fcc5; BYTE $0x00 // vmovups    yword [rcx + 2*rax + 160], ymm1
+	QUAD $0x0000c0428410fdc5; BYTE $0x00 // vmovupd    ymm0, yword [rdx + 2*rax + 192]
+	QUAD $0x0000e0428c10fdc5; BYTE $0x00 // vmovupd    ymm1, yword [rdx + 2*rax + 224]
+	QUAD $0x0000c0418411fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 192], ymm0
+	QUAD $0x0000e0418c11fdc5; BYTE $0x00 // vmovupd    yword [rcx + 2*rax + 224], ymm1
+	LONG $0x80e88348                     // sub    rax, -128
+	LONG $0x04c78348                     // add    rdi, 4
+	JNE  LBB0_1176
+
+LBB0_1177:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1180
+	WORD $0x0148; BYTE $0xc0 // add    rax, rax
+	LONG $0x20c08348         // add    rax, 32
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1179:
+	LONG $0x4410fdc5; WORD $0xe002 // vmovupd    ymm0, yword [rdx + rax - 32]
+	LONG $0x0c10fdc5; BYTE $0x02   // vmovupd    ymm1, yword [rdx + rax]
+	LONG $0x4411fdc5; WORD $0xe001 // vmovupd    yword [rcx + rax - 32], ymm0
+	LONG $0x0c11fdc5; BYTE $0x01   // vmovupd    yword [rcx + rax], ymm1
+	LONG $0x40c08348               // add    rax, 64
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1179
+
+LBB0_1180:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1181
+
+LBB0_1185:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1186:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1188
+	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1188:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1189
+
+LBB0_1193:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1194:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1196
+	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
+	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
+	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
+	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1196:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1197
+
+LBB0_1201:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1202:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1204
+	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
+	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
+	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
+	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1204:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1205
+
+LBB0_1209:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1210:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1212
+	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1212:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1213
+
+LBB0_1217:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1218:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1220
+	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1220:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1221
+
+LBB0_1225:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1226:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1228
+	LONG $0x2179e2c4; WORD $0x3a04             // vpmovsxbd    xmm0, dword [rdx + rdi]
+	LONG $0x2179e2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbd    xmm1, dword [rdx + rdi + 4]
+	LONG $0x2179e2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbd    xmm2, dword [rdx + rdi + 8]
+	LONG $0x2179e2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbd    xmm3, dword [rdx + rdi + 12]
+	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
+	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
+	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1228:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1229
+
+LBB0_1233:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1234:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1236
+	LONG $0x3179e2c4; WORD $0x3a04             // vpmovzxbd    xmm0, dword [rdx + rdi]
+	LONG $0x3179e2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbd    xmm1, dword [rdx + rdi + 4]
+	LONG $0x3179e2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbd    xmm2, dword [rdx + rdi + 8]
+	LONG $0x3179e2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbd    xmm3, dword [rdx + rdi + 12]
+	LONG $0xc0e6fec5                           // vcvtdq2pd    ymm0, xmm0
+	LONG $0xc9e6fec5                           // vcvtdq2pd    ymm1, xmm1
+	LONG $0xd2e6fec5                           // vcvtdq2pd    ymm2, xmm2
+	LONG $0xdbe6fec5                           // vcvtdq2pd    ymm3, xmm3
+	LONG $0x0411fdc5; BYTE $0xf9               // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9             // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9             // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9             // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1236:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1237
+
+LBB0_1241:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1242:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1244
+	LONG $0x456ff9c5; BYTE $0x70   // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
+	LONG $0x0c6ffac5; BYTE $0xba   // vmovdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546ffac5; WORD $0x10ba // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd262e1c5               // vpunpckldq    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x50ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x40ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
+	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb62d9c5               // vpunpckldq    xmm3, xmm4, xmm3
+	LONG $0x646ffac5; WORD $0x70ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
+	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
+	LONG $0x6c6ffac5; WORD $0x60ba // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
+	LONG $0x0051e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm5, xmm0
+	LONG $0xc462f9c5               // vpunpckldq    xmm0, xmm0, xmm4
+	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
+	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
+
+LBB0_1244:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1245
+
+LBB0_1249:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1250:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1252
+	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
+	LONG $0xc06bf9c5               // vpackssdw    xmm0, xmm0, xmm0
+	LONG $0xc063f9c5               // vpacksswb    xmm0, xmm0, xmm0
+	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
+	LONG $0xc96bf1c5               // vpackssdw    xmm1, xmm1, xmm1
+	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
+	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0xc162f9c5               // vpunpckldq    xmm0, xmm0, xmm1
+	LONG $0xca6be9c5               // vpackssdw    xmm1, xmm2, xmm2
+	LONG $0xc963f1c5               // vpacksswb    xmm1, xmm1, xmm1
+	LONG $0x54e6fdc5; WORD $0x60fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 96]
+	LONG $0xd26be9c5               // vpackssdw    xmm2, xmm2, xmm2
+	LONG $0xd263e9c5               // vpacksswb    xmm2, xmm2, xmm2
+	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0xc16cf9c5               // vpunpcklqdq    xmm0, xmm0, xmm1
+	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
+
+LBB0_1252:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1253
+
+LBB0_1257:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1258:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1260
+	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
+	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
+	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
+	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
+
+LBB0_1260:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1261
+
+LBB0_1265:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1266:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1268
+	LONG $0x456ff9c5; BYTE $0x40   // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
+	LONG $0x0c6ffac5; BYTE $0xfa   // vmovdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546ffac5; WORD $0x10fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca61f1c5               // vpunpcklwd    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x546ffac5; WORD $0x50fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
+	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x70fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x60fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
+	LONG $0x0059e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm4, xmm0
+	LONG $0xc361f9c5               // vpunpcklwd    xmm0, xmm0, xmm3
+	LONG $0xc062e9c5               // vpunpckldq    xmm0, xmm2, xmm0
+	LONG $0xc06cf1c5               // vpunpcklqdq    xmm0, xmm1, xmm0
+	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
+
+LBB0_1268:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1269
+
+LBB0_1273:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1274:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1276
+	QUAD $0x000000a0856ffdc5       // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
+	LONG $0x0cdbfdc5; BYTE $0x7a   // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca67f1c5               // vpackuswb    xmm1, xmm1, xmm2
+	LONG $0x54dbfdc5; WORD $0x207a // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd367e9c5               // vpackuswb    xmm2, xmm2, xmm3
+	LONG $0x5cdbfdc5; WORD $0x407a // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc67e1c5               // vpackuswb    xmm3, xmm3, xmm4
+	LONG $0x44dbfdc5; WORD $0x607a // vpand    ymm0, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01c4 // vextracti128    xmm4, ymm0, 1
+	LONG $0xc467f9c5               // vpackuswb    xmm0, xmm0, xmm4
+	LONG $0x0c7ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm1
+	LONG $0x547ffac5; WORD $0x1039 // vmovdqu    oword [rcx + rdi + 16], xmm2
+	LONG $0x5c7ffac5; WORD $0x2039 // vmovdqu    oword [rcx + rdi + 32], xmm3
+	LONG $0x447ffac5; WORD $0x3039 // vmovdqu    oword [rcx + rdi + 48], xmm0
+
+LBB0_1276:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1277
+
+LBB0_1281:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1282:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1284
+	QUAD $0x000000a0856ffdc5       // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
+	LONG $0x0cdbfdc5; BYTE $0x7a   // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca67f1c5               // vpackuswb    xmm1, xmm1, xmm2
+	LONG $0x54dbfdc5; WORD $0x207a // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd367e9c5               // vpackuswb    xmm2, xmm2, xmm3
+	LONG $0x5cdbfdc5; WORD $0x407a // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc67e1c5               // vpackuswb    xmm3, xmm3, xmm4
+	LONG $0x44dbfdc5; WORD $0x607a // vpand    ymm0, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01c4 // vextracti128    xmm4, ymm0, 1
+	LONG $0xc467f9c5               // vpackuswb    xmm0, xmm0, xmm4
+	LONG $0x0c7ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm1
+	LONG $0x547ffac5; WORD $0x1039 // vmovdqu    oword [rcx + rdi + 16], xmm2
+	LONG $0x5c7ffac5; WORD $0x2039 // vmovdqu    oword [rcx + rdi + 32], xmm3
+	LONG $0x447ffac5; WORD $0x3039 // vmovdqu    oword [rcx + rdi + 48], xmm0
+
+LBB0_1284:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1285
+
+LBB0_1289:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1290:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1292
+	LONG $0x456ff9c5; BYTE $0x40   // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
+	LONG $0x0c6ffac5; BYTE $0xfa   // vmovdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546ffac5; WORD $0x10fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca61f1c5               // vpunpcklwd    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x546ffac5; WORD $0x50fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
+	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x70fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x60fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
+	LONG $0x0059e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm4, xmm0
+	LONG $0xc361f9c5               // vpunpcklwd    xmm0, xmm0, xmm3
+	LONG $0xc062e9c5               // vpunpckldq    xmm0, xmm2, xmm0
+	LONG $0xc06cf1c5               // vpunpcklqdq    xmm0, xmm1, xmm0
+	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
+
+LBB0_1292:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1293
+
+LBB0_1297:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1298:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1300
+	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
+	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
+	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
+	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
+	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
+	LONG $0xd063edc5               // vpacksswb    ymm2, ymm2, ymm0
+	LONG $0x387de3c4; WORD $0x01c1 // vinserti128    ymm0, ymm0, xmm1, 1
+	LONG $0xc063fdc5               // vpacksswb    ymm0, ymm0, ymm0
+	LONG $0xc26cfdc5               // vpunpcklqdq    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
+
+LBB0_1300:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1301
+
+LBB0_1305:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1306:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1308
+	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
+	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
+	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
+	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
+
+LBB0_1308:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1309
+
+LBB0_1313:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1314:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1316
+	LONG $0x456ff9c5; BYTE $0x70   // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
+	LONG $0x0c6ffac5; BYTE $0xba   // vmovdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546ffac5; WORD $0x10ba // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd262e1c5               // vpunpckldq    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x50ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x40ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
+	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb62d9c5               // vpunpckldq    xmm3, xmm4, xmm3
+	LONG $0x646ffac5; WORD $0x70ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
+	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
+	LONG $0x6c6ffac5; WORD $0x60ba // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
+	LONG $0x0051e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm5, xmm0
+	LONG $0xc462f9c5               // vpunpckldq    xmm0, xmm0, xmm4
+	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
+	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
+
+LBB0_1316:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1317
+
+LBB0_1321:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1322:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1324
+	LONG $0x227de2c4; WORD $0x3a04             // vpmovsxbq    ymm0, dword [rdx + rdi]
+	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbq    ymm1, dword [rdx + rdi + 4]
+	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbq    ymm2, dword [rdx + rdi + 8]
+	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbq    ymm3, dword [rdx + rdi + 12]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1324:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1325
+
+LBB0_1329:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1330:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1332
+	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1332:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1333
+
+LBB0_1337:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1338:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1340
+	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1340:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1341
+
+LBB0_1345:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1346:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1348
+	LONG $0x327de2c4; WORD $0x3a04             // vpmovzxbq    ymm0, dword [rdx + rdi]
+	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbq    ymm1, dword [rdx + rdi + 4]
+	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbq    ymm2, dword [rdx + rdi + 8]
+	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbq    ymm3, dword [rdx + rdi + 12]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1348:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1349
+
+LBB0_1353:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1354:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1356
+	LONG $0x207de2c4; WORD $0x3a04             // vpmovsxbw    ymm0, oword [rdx + rdi]
+	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovsxbw    ymm1, oword [rdx + rdi + 16]
+	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x20 // vpmovsxbw    ymm2, oword [rdx + rdi + 32]
+	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovsxbw    ymm3, oword [rdx + rdi + 48]
+	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
+
+LBB0_1356:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1357
+
+LBB0_1361:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1362:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1364
+	LONG $0x207de2c4; WORD $0x3a04             // vpmovsxbw    ymm0, oword [rdx + rdi]
+	LONG $0x207de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovsxbw    ymm1, oword [rdx + rdi + 16]
+	LONG $0x207de2c4; WORD $0x3a54; BYTE $0x20 // vpmovsxbw    ymm2, oword [rdx + rdi + 32]
+	LONG $0x207de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovsxbw    ymm3, oword [rdx + rdi + 48]
+	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
+
+LBB0_1364:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1365
+
+LBB0_1369:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1370:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1372
+	LONG $0x307de2c4; WORD $0x3a04             // vpmovzxbw    ymm0, oword [rdx + rdi]
+	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovzxbw    ymm1, oword [rdx + rdi + 16]
+	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x20 // vpmovzxbw    ymm2, oword [rdx + rdi + 32]
+	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovzxbw    ymm3, oword [rdx + rdi + 48]
+	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
+
+LBB0_1372:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1373
+
+LBB0_1377:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1378:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1380
+	LONG $0x307de2c4; WORD $0x3a04             // vpmovzxbw    ymm0, oword [rdx + rdi]
+	LONG $0x307de2c4; WORD $0x3a4c; BYTE $0x10 // vpmovzxbw    ymm1, oword [rdx + rdi + 16]
+	LONG $0x307de2c4; WORD $0x3a54; BYTE $0x20 // vpmovzxbw    ymm2, oword [rdx + rdi + 32]
+	LONG $0x307de2c4; WORD $0x3a5c; BYTE $0x30 // vpmovzxbw    ymm3, oword [rdx + rdi + 48]
+	LONG $0x047ffec5; BYTE $0x79               // vmovdqu    yword [rcx + 2*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x2079             // vmovdqu    yword [rcx + 2*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x4079             // vmovdqu    yword [rcx + 2*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x6079             // vmovdqu    yword [rcx + 2*rdi + 96], ymm3
+
+LBB0_1380:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1381
+
+LBB0_1385:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1386:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1388
+	LONG $0x227de2c4; WORD $0x3a04             // vpmovsxbq    ymm0, dword [rdx + rdi]
+	LONG $0x227de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovsxbq    ymm1, dword [rdx + rdi + 4]
+	LONG $0x227de2c4; WORD $0x3a54; BYTE $0x08 // vpmovsxbq    ymm2, dword [rdx + rdi + 8]
+	LONG $0x227de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovsxbq    ymm3, dword [rdx + rdi + 12]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1388:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1389
+
+LBB0_1393:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1394:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1396
+	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
+	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
+	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
+	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
+	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
+	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
+	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1396:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1397
+
+LBB0_1401:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1402:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1404
+	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1404:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1405
+
+LBB0_1409:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1410:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1412
+	LONG $0x0410fdc5; BYTE $0xfa   // vmovupd    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20fa // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40fa // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60fa // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xf9   // vmovupd    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20f9 // vmovupd    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40f9 // vmovupd    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60f9 // vmovupd    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1412:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1413
+
+LBB0_1417:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1418:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1420
+	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1420:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1421
+
+LBB0_1425:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1426:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1428
+	LONG $0x327de2c4; WORD $0x3a04             // vpmovzxbq    ymm0, dword [rdx + rdi]
+	LONG $0x327de2c4; WORD $0x3a4c; BYTE $0x04 // vpmovzxbq    ymm1, dword [rdx + rdi + 4]
+	LONG $0x327de2c4; WORD $0x3a54; BYTE $0x08 // vpmovzxbq    ymm2, dword [rdx + rdi + 8]
+	LONG $0x327de2c4; WORD $0x3a5c; BYTE $0x0c // vpmovzxbq    ymm3, dword [rdx + rdi + 12]
+	LONG $0x047ffec5; BYTE $0xf9               // vmovdqu    yword [rcx + 8*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20f9             // vmovdqu    yword [rcx + 8*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40f9             // vmovdqu    yword [rcx + 8*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60f9             // vmovdqu    yword [rcx + 8*rdi + 96], ymm3
+
+LBB0_1428:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1429
+
+LBB0_1433:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1434:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1436
+	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
+	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
+	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
+	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
+	LONG $0xc05bfcc5                           // vcvtdq2ps    ymm0, ymm0
+	LONG $0xc95bfcc5                           // vcvtdq2ps    ymm1, ymm1
+	LONG $0xd25bfcc5                           // vcvtdq2ps    ymm2, ymm2
+	LONG $0xdb5bfcc5                           // vcvtdq2ps    ymm3, ymm3
+	LONG $0x0411fcc5; BYTE $0xb9               // vmovups    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fcc5; WORD $0x20b9             // vmovups    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fcc5; WORD $0x40b9             // vmovups    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fcc5; WORD $0x60b9             // vmovups    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1436:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1437
+
+LBB0_1441:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1442:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1444
+	LONG $0x456ff9c5; BYTE $0x70   // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
+	LONG $0x0c6ffac5; BYTE $0xba   // vmovdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546ffac5; WORD $0x10ba // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd262e1c5               // vpunpckldq    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x50ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x40ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
+	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb62d9c5               // vpunpckldq    xmm3, xmm4, xmm3
+	LONG $0x646ffac5; WORD $0x70ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
+	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
+	LONG $0x6c6ffac5; WORD $0x60ba // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
+	LONG $0x0051e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm5, xmm0
+	LONG $0xc462f9c5               // vpunpckldq    xmm0, xmm0, xmm4
+	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
+	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
+
+LBB0_1444:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1445
+
+LBB0_1449:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1450:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1452
+	LONG $0x04e6fdc5; BYTE $0xfa   // vcvttpd2dq    xmm0, yword [rdx + 8*rdi]
+	LONG $0x2b79e2c4; BYTE $0xc0   // vpackusdw    xmm0, xmm0, xmm0
+	LONG $0xc067f9c5               // vpackuswb    xmm0, xmm0, xmm0
+	LONG $0x4ce6fdc5; WORD $0x20fa // vcvttpd2dq    xmm1, yword [rdx + 8*rdi + 32]
+	LONG $0x2b71e2c4; BYTE $0xc9   // vpackusdw    xmm1, xmm1, xmm1
+	LONG $0x54e6fdc5; WORD $0x40fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 64]
+	LONG $0xc967f1c5               // vpackuswb    xmm1, xmm1, xmm1
+	LONG $0xc162f9c5               // vpunpckldq    xmm0, xmm0, xmm1
+	LONG $0x2b69e2c4; BYTE $0xca   // vpackusdw    xmm1, xmm2, xmm2
+	LONG $0xc967f1c5               // vpackuswb    xmm1, xmm1, xmm1
+	LONG $0x54e6fdc5; WORD $0x60fa // vcvttpd2dq    xmm2, yword [rdx + 8*rdi + 96]
+	LONG $0x2b69e2c4; BYTE $0xd2   // vpackusdw    xmm2, xmm2, xmm2
+	LONG $0xd267e9c5               // vpackuswb    xmm2, xmm2, xmm2
+	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0xc16cf9c5               // vpunpcklqdq    xmm0, xmm0, xmm1
+	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
+
+LBB0_1452:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1453
+
+LBB0_1457:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1458:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1460
+	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
+	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
+	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
+	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
+
+LBB0_1460:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1461
+
+LBB0_1465:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1466:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1468
+	LONG $0x456ff9c5; BYTE $0x40   // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
+	LONG $0x0c6ffac5; BYTE $0xfa   // vmovdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546ffac5; WORD $0x10fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca61f1c5               // vpunpcklwd    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x546ffac5; WORD $0x50fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
+	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x70fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x60fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
+	LONG $0x0059e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm4, xmm0
+	LONG $0xc361f9c5               // vpunpcklwd    xmm0, xmm0, xmm3
+	LONG $0xc062e9c5               // vpunpckldq    xmm0, xmm2, xmm0
+	LONG $0xc06cf1c5               // vpunpcklqdq    xmm0, xmm1, xmm0
+	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
+
+LBB0_1468:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1469
+
+LBB0_1473:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1474:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1476
+	QUAD $0x000000a0856ffdc5       // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
+	LONG $0x0cdbfdc5; BYTE $0x7a   // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca67f1c5               // vpackuswb    xmm1, xmm1, xmm2
+	LONG $0x54dbfdc5; WORD $0x207a // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd367e9c5               // vpackuswb    xmm2, xmm2, xmm3
+	LONG $0x5cdbfdc5; WORD $0x407a // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc67e1c5               // vpackuswb    xmm3, xmm3, xmm4
+	LONG $0x44dbfdc5; WORD $0x607a // vpand    ymm0, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01c4 // vextracti128    xmm4, ymm0, 1
+	LONG $0xc467f9c5               // vpackuswb    xmm0, xmm0, xmm4
+	LONG $0x0c7ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm1
+	LONG $0x547ffac5; WORD $0x1039 // vmovdqu    oword [rcx + rdi + 16], xmm2
+	LONG $0x5c7ffac5; WORD $0x2039 // vmovdqu    oword [rcx + rdi + 32], xmm3
+	LONG $0x447ffac5; WORD $0x3039 // vmovdqu    oword [rcx + rdi + 48], xmm0
+
+LBB0_1476:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1477
+
+LBB0_1481:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1482:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1484
+	QUAD $0x000000a0856ffdc5       // vmovdqa    ymm0, yword 160[rbp] /* [rip + .LCPI0_16] */
+	LONG $0x0cdbfdc5; BYTE $0x7a   // vpand    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca67f1c5               // vpackuswb    xmm1, xmm1, xmm2
+	LONG $0x54dbfdc5; WORD $0x207a // vpand    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd367e9c5               // vpackuswb    xmm2, xmm2, xmm3
+	LONG $0x5cdbfdc5; WORD $0x407a // vpand    ymm3, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc67e1c5               // vpackuswb    xmm3, xmm3, xmm4
+	LONG $0x44dbfdc5; WORD $0x607a // vpand    ymm0, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01c4 // vextracti128    xmm4, ymm0, 1
+	LONG $0xc467f9c5               // vpackuswb    xmm0, xmm0, xmm4
+	LONG $0x0c7ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm1
+	LONG $0x547ffac5; WORD $0x1039 // vmovdqu    oword [rcx + rdi + 16], xmm2
+	LONG $0x5c7ffac5; WORD $0x2039 // vmovdqu    oword [rcx + rdi + 32], xmm3
+	LONG $0x447ffac5; WORD $0x3039 // vmovdqu    oword [rcx + rdi + 48], xmm0
+
+LBB0_1484:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1485
+
+LBB0_1489:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1490:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1492
+	LONG $0x456ff9c5; BYTE $0x40   // vmovdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_4] */
+	LONG $0x0c6ffac5; BYTE $0xfa   // vmovdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546ffac5; WORD $0x10fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca61f1c5               // vpunpcklwd    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x546ffac5; WORD $0x50fa // vmovdqu    xmm2, oword [rdx + 8*rdi + 80]
+	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x5c6ffac5; WORD $0x40fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 64]
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd261e1c5               // vpunpcklwd    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x70fa // vmovdqu    xmm3, oword [rdx + 8*rdi + 112]
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x60fa // vmovdqu    xmm4, oword [rdx + 8*rdi + 96]
+	LONG $0x0059e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm4, xmm0
+	LONG $0xc361f9c5               // vpunpcklwd    xmm0, xmm0, xmm3
+	LONG $0xc062e9c5               // vpunpckldq    xmm0, xmm2, xmm0
+	LONG $0xc06cf1c5               // vpunpcklqdq    xmm0, xmm1, xmm0
+	LONG $0x047ffac5; BYTE $0x39   // vmovdqu    oword [rcx + rdi], xmm0
+
+LBB0_1492:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1493
+
+LBB0_1497:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1498:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1500
+	LONG $0x045bfec5; BYTE $0xba   // vcvttps2dq    ymm0, yword [rdx + 4*rdi]
+	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
+	LONG $0xc16bf9c5               // vpackssdw    xmm0, xmm0, xmm1
+	LONG $0x4c5bfec5; WORD $0x20ba // vcvttps2dq    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x397de3c4; WORD $0x01ca // vextracti128    xmm2, ymm1, 1
+	LONG $0xca6bf1c5               // vpackssdw    xmm1, xmm1, xmm2
+	LONG $0x545bfec5; WORD $0x40ba // vcvttps2dq    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x397de3c4; WORD $0x01d3 // vextracti128    xmm3, ymm2, 1
+	LONG $0xd36be9c5               // vpackssdw    xmm2, xmm2, xmm3
+	LONG $0x5c5bfec5; WORD $0x60ba // vcvttps2dq    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x397de3c4; WORD $0x01dc // vextracti128    xmm4, ymm3, 1
+	LONG $0xdc6be1c5               // vpackssdw    xmm3, xmm3, xmm4
+	LONG $0x386de3c4; WORD $0x01d3 // vinserti128    ymm2, ymm2, xmm3, 1
+	LONG $0xd067edc5               // vpackuswb    ymm2, ymm2, ymm0
+	LONG $0x387de3c4; WORD $0x01c1 // vinserti128    ymm0, ymm0, xmm1, 1
+	LONG $0xc067fdc5               // vpackuswb    ymm0, ymm0, ymm0
+	LONG $0xc26cfdc5               // vpunpcklqdq    ymm0, ymm0, ymm2
+	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
+
+LBB0_1500:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1501
+
+LBB0_1505:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1506:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1508
+	LONG $0x0410fdc5; BYTE $0x3a   // vmovupd    ymm0, yword [rdx + rdi]
+	LONG $0x4c10fdc5; WORD $0x203a // vmovupd    ymm1, yword [rdx + rdi + 32]
+	LONG $0x5410fdc5; WORD $0x403a // vmovupd    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x603a // vmovupd    ymm3, yword [rdx + rdi + 96]
+	LONG $0x0411fdc5; BYTE $0x39   // vmovupd    yword [rcx + rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x2039 // vmovupd    yword [rcx + rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x4039 // vmovupd    yword [rcx + rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x6039 // vmovupd    yword [rcx + rdi + 96], ymm3
+
+LBB0_1508:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1509
+
+LBB0_1513:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1514:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1516
+	LONG $0x456ff9c5; BYTE $0x70   // vmovdqa    xmm0, oword 112[rbp] /* [rip + .LCPI0_12] */
+	LONG $0x0c6ffac5; BYTE $0xba   // vmovdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546ffac5; WORD $0x10ba // vmovdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x5c6ffac5; WORD $0x20ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 32]
+	LONG $0x646ffac5; WORD $0x30ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 48]
+	LONG $0x0069e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm2, xmm0
+	LONG $0x0071e2c4; BYTE $0xc8   // vpshufb    xmm1, xmm1, xmm0
+	LONG $0xca62f1c5               // vpunpckldq    xmm1, xmm1, xmm2
+	LONG $0x0059e2c4; BYTE $0xd0   // vpshufb    xmm2, xmm4, xmm0
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0xd262e1c5               // vpunpckldq    xmm2, xmm3, xmm2
+	LONG $0x5c6ffac5; WORD $0x50ba // vmovdqu    xmm3, oword [rdx + 4*rdi + 80]
+	LONG $0x0061e2c4; BYTE $0xd8   // vpshufb    xmm3, xmm3, xmm0
+	LONG $0x646ffac5; WORD $0x40ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 64]
+	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
+	LONG $0xdb62d9c5               // vpunpckldq    xmm3, xmm4, xmm3
+	LONG $0x646ffac5; WORD $0x70ba // vmovdqu    xmm4, oword [rdx + 4*rdi + 112]
+	LONG $0x0059e2c4; BYTE $0xe0   // vpshufb    xmm4, xmm4, xmm0
+	LONG $0x6c6ffac5; WORD $0x60ba // vmovdqu    xmm5, oword [rdx + 4*rdi + 96]
+	LONG $0x0051e2c4; BYTE $0xc0   // vpshufb    xmm0, xmm5, xmm0
+	LONG $0xc462f9c5               // vpunpckldq    xmm0, xmm0, xmm4
+	LONG $0x3865e3c4; WORD $0x01c0 // vinserti128    ymm0, ymm3, xmm0, 1
+	LONG $0x3875e3c4; WORD $0x01ca // vinserti128    ymm1, ymm1, xmm2, 1
+	LONG $0xc06cf5c5               // vpunpcklqdq    ymm0, ymm1, ymm0
+	LONG $0x00fde3c4; WORD $0xd8c0 // vpermq    ymm0, ymm0, 216
+	LONG $0x047ffec5; BYTE $0x39   // vmovdqu    yword [rcx + rdi], ymm0
+
+LBB0_1516:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1517
+
+LBB0_1521:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1522:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1524
+	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1524:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1525
+
+LBB0_1529:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1530:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1532
+	LONG $0x217de2c4; WORD $0x3a04             // vpmovsxbd    ymm0, qword [rdx + rdi]
+	LONG $0x217de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovsxbd    ymm1, qword [rdx + rdi + 8]
+	LONG $0x217de2c4; WORD $0x3a54; BYTE $0x10 // vpmovsxbd    ymm2, qword [rdx + rdi + 16]
+	LONG $0x217de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovsxbd    ymm3, qword [rdx + rdi + 24]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1532:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1533
+
+LBB0_1537:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1538:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1540
+	LONG $0x317de2c4; WORD $0x3a04             // vpmovzxbd    ymm0, qword [rdx + rdi]
+	LONG $0x317de2c4; WORD $0x3a4c; BYTE $0x08 // vpmovzxbd    ymm1, qword [rdx + rdi + 8]
+	LONG $0x317de2c4; WORD $0x3a54; BYTE $0x10 // vpmovzxbd    ymm2, qword [rdx + rdi + 16]
+	LONG $0x317de2c4; WORD $0x3a5c; BYTE $0x18 // vpmovzxbd    ymm3, qword [rdx + rdi + 24]
+	LONG $0x047ffec5; BYTE $0xb9               // vmovdqu    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c7ffec5; WORD $0x20b9             // vmovdqu    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x547ffec5; WORD $0x40b9             // vmovdqu    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c7ffec5; WORD $0x60b9             // vmovdqu    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1540:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1541
+
+LBB0_1545:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1546:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1548
+	LONG $0x0410fdc5; BYTE $0xba   // vmovupd    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fdc5; WORD $0x20ba // vmovupd    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40ba // vmovupd    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60ba // vmovupd    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x0411fdc5; BYTE $0xb9   // vmovupd    yword [rcx + 4*rdi], ymm0
+	LONG $0x4c11fdc5; WORD $0x20b9 // vmovupd    yword [rcx + 4*rdi + 32], ymm1
+	LONG $0x5411fdc5; WORD $0x40b9 // vmovupd    yword [rcx + 4*rdi + 64], ymm2
+	LONG $0x5c11fdc5; WORD $0x60b9 // vmovupd    yword [rcx + 4*rdi + 96], ymm3
+
+LBB0_1548:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1553
+	JMP  LBB0_1549
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.go b/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.go
new file mode 100644
index 00000000000..ba57efd21cf
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.go
@@ -0,0 +1,41 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && !noasm
+
+package kernels
+
+import (
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"golang.org/x/sys/cpu"
+)
+
+//go:noescape
+func _cast_type_numeric_neon(itype, otype int, in, out unsafe.Pointer, len int)
+
+func castNumericNeon(itype, otype arrow.Type, in, out []byte, len int) {
+	_cast_type_numeric_neon(int(itype), int(otype), unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len)
+}
+
+func init() {
+	if cpu.ARM64.HasASIMD {
+		castNumericUnsafe = castNumericNeon
+	} else {
+		castNumericUnsafe = castNumericGo
+	}
+}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.s b/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.s
new file mode 100644
index 00000000000..c54eac4403c
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/cast_numeric_neon_arm64.s
@@ -0,0 +1,6087 @@
+//go:build go1.18 && !noasm && !appengine
+// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
+
+TEXT ·_cast_type_numeric_neon(SB), $0-40
+
+    MOVD itype+0(FP), R0
+    MOVD otype+8(FP), R1
+    MOVD in+16(FP), R2
+    MOVD out+24(FP), R3
+    MOVD len+32(FP), R4
+
+
+    WORD $0xa9bf7bfd // stp    x29, x30, [sp, #-16]!
+    WORD $0x7100181f // cmp    w0, #6
+    WORD $0x910003fd // mov    x29, sp
+    BGT LBB0_17
+
+    WORD $0x71000c1f // cmp    w0, #3
+    BLE LBB0_29    
+
+    WORD $0x7100101f // cmp    w0, #4
+    BEQ LBB0_53    
+
+    WORD $0x7100141f // cmp    w0, #5
+    BEQ LBB0_61
+    
+    WORD $0x7100181f // cmp    w0, #6
+    BNE LBB0_893    
+
+    WORD $0x7100183f // cmp    w1, #6
+    BGT LBB0_109    
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BLE LBB0_191    
+
+    WORD $0x7100103f // cmp    w1, #4
+    BEQ LBB0_347
+
+    WORD $0x7100143f // cmp    w1, #5
+    BEQ LBB0_350
+
+    WORD $0x7100183f // cmp    w1, #6
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_14
+
+    WORD $0xd37ef509 // lsl    x9, x8, #2
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_894
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_894
+LBB0_14:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_15:
+    WORD $0xd37ef52a // lsl    x10, x9, #2
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_16:
+    WORD $0xb840454b // ldr    w11, [x10], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800452b // str    w11, [x9], #4
+    BNE LBB0_16
+    JMP LBB0_893
+LBB0_17:
+    WORD $0x7100201f // cmp    w0, #8
+    BLE LBB0_43
+
+    WORD $0x7100241f // cmp    w0, #9
+    BEQ LBB0_69
+
+    WORD $0x71002c1f // cmp    w0, #11
+    BEQ LBB0_77
+
+    WORD $0x7100301f // cmp    w0, #12
+    BNE LBB0_893
+
+    WORD $0x7100183f // cmp    w1, #6
+    BGT LBB0_116
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BLE LBB0_200
+
+    WORD $0x7100103f // cmp    w1, #4
+    BEQ LBB0_353
+
+    WORD $0x7100143f // cmp    w1, #5
+    BEQ LBB0_356
+
+    WORD $0x7100183f // cmp    w1, #6
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_643
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_646
+LBB0_29:
+    WORD $0x7100081f // cmp    w0, #2
+    BEQ LBB0_85
+
+    WORD $0x71000c1f // cmp    w0, #3
+    BNE LBB0_893
+
+    WORD $0x7100183f // cmp    w1, #6
+    BGT LBB0_127
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BLE LBB0_209
+
+    WORD $0x7100103f // cmp    w1, #4
+    BEQ LBB0_359
+
+    WORD $0x7100143f // cmp    w1, #5
+    BEQ LBB0_366
+
+    WORD $0x7100183f // cmp    w1, #6
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_40
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_897
+
+    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_897
+LBB0_40:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_41:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_42:
+    WORD $0x38c0152b // ldrsb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_42
+    JMP LBB0_893
+LBB0_43:
+    WORD $0x71001c1f // cmp    w0, #7
+    BEQ LBB0_97
+
+    WORD $0x7100201f // cmp    w0, #8
+    BNE LBB0_893
+
+    WORD $0x7100183f // cmp    w1, #6
+    BGT LBB0_138
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BLE LBB0_218
+
+    WORD $0x7100103f // cmp    w1, #4
+    BEQ LBB0_373
+
+    WORD $0x7100143f // cmp    w1, #5
+    BEQ LBB0_376
+
+    WORD $0x7100183f // cmp    w1, #6
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_648
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_651
+LBB0_53:
+    WORD $0x7100183f // cmp    w1, #6
+    BGT LBB0_145
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BLE LBB0_227
+
+    WORD $0x7100103f // cmp    w1, #4
+    BEQ LBB0_379
+
+    WORD $0x7100143f // cmp    w1, #5
+    BEQ LBB0_386
+
+    WORD $0x7100183f // cmp    w1, #6
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_653
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_656
+LBB0_61:
+    WORD $0x7100183f // cmp    w1, #6
+    BGT LBB0_152
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BLE LBB0_236
+
+    WORD $0x7100103f // cmp    w1, #4
+    BEQ LBB0_393
+
+    WORD $0x7100143f // cmp    w1, #5
+    BEQ LBB0_400
+
+    WORD $0x7100183f // cmp    w1, #6
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_658
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_661
+LBB0_69:
+    WORD $0x7100183f // cmp    w1, #6
+    BGT LBB0_159
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BLE LBB0_245
+
+    WORD $0x7100103f // cmp    w1, #4
+    BEQ LBB0_407
+
+    WORD $0x7100143f // cmp    w1, #5
+    BEQ LBB0_410
+
+    WORD $0x7100183f // cmp    w1, #6
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_663
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_666
+LBB0_77:
+    WORD $0x7100183f // cmp    w1, #6
+    BGT LBB0_166
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BLE LBB0_254
+
+    WORD $0x7100103f // cmp    w1, #4
+    BEQ LBB0_413
+
+    WORD $0x7100143f // cmp    w1, #5
+    BEQ LBB0_416
+
+    WORD $0x7100183f // cmp    w1, #6
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_668
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_671
+LBB0_85:
+    WORD $0x7100183f // cmp    w1, #6
+    BGT LBB0_173
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BLE LBB0_263
+
+    WORD $0x7100103f // cmp    w1, #4
+    BEQ LBB0_419
+
+    WORD $0x7100143f // cmp    w1, #5
+    BEQ LBB0_426
+
+    WORD $0x7100183f // cmp    w1, #6
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_94
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_900
+
+    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_900
+LBB0_94:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_95:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_96:
+    WORD $0x3840152b // ldrb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_96
+    JMP LBB0_893
+LBB0_97:
+    WORD $0x7100183f // cmp    w1, #6
+    BGT LBB0_184
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BLE LBB0_272
+
+    WORD $0x7100103f // cmp    w1, #4
+    BEQ LBB0_433
+
+    WORD $0x7100143f // cmp    w1, #5
+    BEQ LBB0_436
+
+    WORD $0x7100183f // cmp    w1, #6
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_106
+
+    WORD $0xd37ef509 // lsl    x9, x8, #2
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_903
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_903
+LBB0_106:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_107:
+    WORD $0xd37ef52a // lsl    x10, x9, #2
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_108:
+    WORD $0xb840454b // ldr    w11, [x10], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800452b // str    w11, [x9], #4
+    BNE LBB0_108
+    JMP LBB0_893
+LBB0_109:
+    WORD $0x7100203f // cmp    w1, #8
+    BLE LBB0_281
+
+    WORD $0x7100243f // cmp    w1, #9
+    BEQ LBB0_439
+
+    WORD $0x71002c3f // cmp    w1, #11
+    BEQ LBB0_442
+
+    WORD $0x7100303f // cmp    w1, #12
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_673
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_676
+LBB0_116:
+    WORD $0x7100203f // cmp    w1, #8
+    BLE LBB0_286
+
+    WORD $0x7100243f // cmp    w1, #9
+    BEQ LBB0_445
+
+    WORD $0x71002c3f // cmp    w1, #11
+    BEQ LBB0_448
+
+    WORD $0x7100303f // cmp    w1, #12
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_124
+
+    WORD $0xd37df109 // lsl    x9, x8, #3
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_906
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_906
+LBB0_124:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_125:
+    WORD $0xd37df12a // lsl    x10, x9, #3
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_126:
+    WORD $0xf840854b // ldr    x11, [x10], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800852b // str    x11, [x9], #8
+    BNE LBB0_126
+    JMP LBB0_893
+LBB0_127:
+    WORD $0x7100203f // cmp    w1, #8
+    BLE LBB0_291
+
+    WORD $0x7100243f // cmp    w1, #9
+    BEQ LBB0_451
+
+    WORD $0x71002c3f // cmp    w1, #11
+    BEQ LBB0_458
+
+    WORD $0x7100303f // cmp    w1, #12
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_135
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_909
+
+    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_909
+LBB0_135:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_136:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_137:
+    WORD $0x38c0152b // ldrsb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e620160 // scvtf    d0, w11
+    WORD $0xfc008540 // str    d0, [x10], #8
+    BNE LBB0_137
+    JMP LBB0_893
+LBB0_138:
+    WORD $0x7100203f // cmp    w1, #8
+    BLE LBB0_300
+
+    WORD $0x7100243f // cmp    w1, #9
+    BEQ LBB0_465
+
+    WORD $0x71002c3f // cmp    w1, #11
+    BEQ LBB0_472
+
+    WORD $0x7100303f // cmp    w1, #12
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_678
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_681
+LBB0_145:
+    WORD $0x7100203f // cmp    w1, #8
+    BLE LBB0_309
+
+    WORD $0x7100243f // cmp    w1, #9
+    BEQ LBB0_475
+
+    WORD $0x71002c3f // cmp    w1, #11
+    BEQ LBB0_478
+
+    WORD $0x7100303f // cmp    w1, #12
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_683
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_686
+LBB0_152:
+    WORD $0x7100203f // cmp    w1, #8
+    BLE LBB0_314
+
+    WORD $0x7100243f // cmp    w1, #9
+    BEQ LBB0_481
+
+    WORD $0x71002c3f // cmp    w1, #11
+    BEQ LBB0_484
+
+    WORD $0x7100303f // cmp    w1, #12
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_688
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_691
+LBB0_159:
+    WORD $0x7100203f // cmp    w1, #8
+    BLE LBB0_319
+
+    WORD $0x7100243f // cmp    w1, #9
+    BEQ LBB0_487
+
+    WORD $0x71002c3f // cmp    w1, #11
+    BEQ LBB0_494
+
+    WORD $0x7100303f // cmp    w1, #12
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_693
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_696
+LBB0_166:
+    WORD $0x7100203f // cmp    w1, #8
+    BLE LBB0_328
+
+    WORD $0x7100243f // cmp    w1, #9
+    BEQ LBB0_497
+
+    WORD $0x71002c3f // cmp    w1, #11
+    BEQ LBB0_500
+
+    WORD $0x7100303f // cmp    w1, #12
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_698
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_701
+LBB0_173:
+    WORD $0x7100203f // cmp    w1, #8
+    BLE LBB0_333
+
+    WORD $0x7100243f // cmp    w1, #9
+    BEQ LBB0_507
+
+    WORD $0x71002c3f // cmp    w1, #11
+    BEQ LBB0_514
+
+    WORD $0x7100303f // cmp    w1, #12
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_181
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_912
+
+    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_912
+LBB0_181:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_182:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_183:
+    WORD $0x3840152b // ldrb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e630160 // ucvtf    d0, w11
+    WORD $0xfc008540 // str    d0, [x10], #8
+    BNE LBB0_183
+    JMP LBB0_893
+LBB0_184:
+    WORD $0x7100203f // cmp    w1, #8
+    BLE LBB0_342
+
+    WORD $0x7100243f // cmp    w1, #9
+    BEQ LBB0_521
+
+    WORD $0x71002c3f // cmp    w1, #11
+    BEQ LBB0_524
+
+    WORD $0x7100303f // cmp    w1, #12
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_703
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_706
+LBB0_191:
+    WORD $0x7100083f // cmp    w1, #2
+    BEQ LBB0_527
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_197
+
+    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_915
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_915
+LBB0_197:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_198:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_199:
+    WORD $0xb840452b // ldr    w11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_199
+    JMP LBB0_893
+LBB0_200:
+    WORD $0x7100083f // cmp    w1, #2
+    BEQ LBB0_534
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_206
+
+    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_918
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_918
+LBB0_206:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_207:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_208:
+    WORD $0xfc408520 // ldr    d0, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e78000b // fcvtzs    w11, d0
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_208
+    JMP LBB0_893
+LBB0_209:
+    WORD $0x7100083f // cmp    w1, #2
+    BEQ LBB0_541
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_215
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_921
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_921
+LBB0_215:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_216:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_217:
+    WORD $0x3840152b // ldrb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_217
+    JMP LBB0_893
+LBB0_218:
+    WORD $0x7100083f // cmp    w1, #2
+    BEQ LBB0_548
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_224
+
+    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_924
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_924
+LBB0_224:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_225:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_226:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_226
+    JMP LBB0_893
+LBB0_227:
+    WORD $0x7100083f // cmp    w1, #2
+    BEQ LBB0_555
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_233
+
+    WORD $0x8b080449 // add    x9, x2, x8, lsl #1
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_927
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_927
+LBB0_233:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_234:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_235:
+    WORD $0x3840252b // ldrb    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_235
+    JMP LBB0_893
+LBB0_236:
+    WORD $0x7100083f // cmp    w1, #2
+    BEQ LBB0_562
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_242
+
+    WORD $0x8b080449 // add    x9, x2, x8, lsl #1
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_930
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_930
+LBB0_242:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_243:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_244:
+    WORD $0x3840252b // ldrb    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_244
+    JMP LBB0_893
+LBB0_245:
+    WORD $0x7100083f // cmp    w1, #2
+    BEQ LBB0_569
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_251
+
+    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_933
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_933
+LBB0_251:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_252:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_253:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_253
+    JMP LBB0_893
+LBB0_254:
+    WORD $0x7100083f // cmp    w1, #2
+    BEQ LBB0_576
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_260
+
+    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_936
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_936
+LBB0_260:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_261:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_262:
+    WORD $0xbc404520 // ldr    s0, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e38000b // fcvtzs    w11, s0
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_262
+    JMP LBB0_893
+LBB0_263:
+    WORD $0x7100083f // cmp    w1, #2
+    BEQ LBB0_583
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_269
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_939
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_939
+LBB0_269:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_270:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_271:
+    WORD $0x3840152b // ldrb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_271
+    JMP LBB0_893
+LBB0_272:
+    WORD $0x7100083f // cmp    w1, #2
+    BEQ LBB0_590
+
+    WORD $0x71000c3f // cmp    w1, #3
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_278
+
+    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_942
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_942
+LBB0_278:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_279:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_280:
+    WORD $0xb840452b // ldr    w11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_280
+    JMP LBB0_893
+LBB0_281:
+    WORD $0x71001c3f // cmp    w1, #7
+    BEQ LBB0_597
+
+    WORD $0x7100203f // cmp    w1, #8
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_708
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_711
+LBB0_286:
+    WORD $0x71001c3f // cmp    w1, #7
+    BEQ LBB0_604
+
+    WORD $0x7100203f // cmp    w1, #8
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_713
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_716
+LBB0_291:
+    WORD $0x71001c3f // cmp    w1, #7
+    BEQ LBB0_607
+
+    WORD $0x7100203f // cmp    w1, #8
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_297
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_945
+
+    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_945
+LBB0_297:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_298:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_299:
+    WORD $0x3880152b // ldrsb    x11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_299
+    JMP LBB0_893
+LBB0_300:
+    WORD $0x71001c3f // cmp    w1, #7
+    BEQ LBB0_614
+
+    WORD $0x7100203f // cmp    w1, #8
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_306
+
+    WORD $0xd37df109 // lsl    x9, x8, #3
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_948
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_948
+LBB0_306:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_307:
+    WORD $0xd37df12a // lsl    x10, x9, #3
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_308:
+    WORD $0xf840854b // ldr    x11, [x10], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800852b // str    x11, [x9], #8
+    BNE LBB0_308
+    JMP LBB0_893
+LBB0_309:
+    WORD $0x71001c3f // cmp    w1, #7
+    BEQ LBB0_617
+
+    WORD $0x7100203f // cmp    w1, #8
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_718
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_721
+LBB0_314:
+    WORD $0x71001c3f // cmp    w1, #7
+    BEQ LBB0_620
+
+    WORD $0x7100203f // cmp    w1, #8
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_723
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_726
+LBB0_319:
+    WORD $0x71001c3f // cmp    w1, #7
+    BEQ LBB0_623
+
+    WORD $0x7100203f // cmp    w1, #8
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_325
+
+    WORD $0xd37df109 // lsl    x9, x8, #3
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_951
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_951
+LBB0_325:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_326:
+    WORD $0xd37df12a // lsl    x10, x9, #3
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_327:
+    WORD $0xf840854b // ldr    x11, [x10], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800852b // str    x11, [x9], #8
+    BNE LBB0_327
+    JMP LBB0_893
+LBB0_328:
+    WORD $0x71001c3f // cmp    w1, #7
+    BEQ LBB0_626
+
+    WORD $0x7100203f // cmp    w1, #8
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_728
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_731
+LBB0_333:
+    WORD $0x71001c3f // cmp    w1, #7
+    BEQ LBB0_629
+
+    WORD $0x7100203f // cmp    w1, #8
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_339
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_954
+
+    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_954
+LBB0_339:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_340:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_341:
+    WORD $0x3840152b // ldrb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_341
+    JMP LBB0_893
+LBB0_342:
+    WORD $0x71001c3f // cmp    w1, #7
+    BEQ LBB0_636
+
+    WORD $0x7100203f // cmp    w1, #8
+    BNE LBB0_893
+
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_733
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_736
+LBB0_347:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_738
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_741
+LBB0_350:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_743
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_746
+LBB0_353:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_748
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_751
+LBB0_356:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_753
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_756
+LBB0_359:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_363
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_957
+
+    WORD $0x8b080469 // add    x9, x3, x8, lsl #1
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_957
+LBB0_363:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_364:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_365:
+    WORD $0x38c0152b // ldrsb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_365
+    JMP LBB0_893
+LBB0_366:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_370
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_960
+
+    WORD $0x8b080469 // add    x9, x3, x8, lsl #1
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_960
+LBB0_370:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_371:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_372:
+    WORD $0x38c0152b // ldrsb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_372
+    JMP LBB0_893
+LBB0_373:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_758
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_761
+LBB0_376:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_763
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_766
+LBB0_379:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_383
+
+    WORD $0xd37ff909 // lsl    x9, x8, #1
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_963
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_963
+LBB0_383:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_384:
+    WORD $0xd37ff92a // lsl    x10, x9, #1
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_385:
+    WORD $0x7840254b // ldrh    w11, [x10], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800252b // strh    w11, [x9], #2
+    BNE LBB0_385
+    JMP LBB0_893
+LBB0_386:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_390
+
+    WORD $0xd37ff909 // lsl    x9, x8, #1
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_966
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_966
+LBB0_390:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_391:
+    WORD $0xd37ff92a // lsl    x10, x9, #1
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_392:
+    WORD $0x7840254b // ldrh    w11, [x10], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800252b // strh    w11, [x9], #2
+    BNE LBB0_392
+    JMP LBB0_893
+LBB0_393:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_397
+
+    WORD $0xd37ff909 // lsl    x9, x8, #1
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_969
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_969
+LBB0_397:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_398:
+    WORD $0xd37ff92a // lsl    x10, x9, #1
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_399:
+    WORD $0x7840254b // ldrh    w11, [x10], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800252b // strh    w11, [x9], #2
+    BNE LBB0_399
+    JMP LBB0_893
+LBB0_400:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_404
+
+    WORD $0xd37ff909 // lsl    x9, x8, #1
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_972
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_972
+LBB0_404:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_405:
+    WORD $0xd37ff92a // lsl    x10, x9, #1
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_406:
+    WORD $0x7840254b // ldrh    w11, [x10], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800252b // strh    w11, [x9], #2
+    BNE LBB0_406
+    JMP LBB0_893
+LBB0_407:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_768
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_771
+LBB0_410:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_773
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_776
+LBB0_413:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_778
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_781
+LBB0_416:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_783
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_786
+LBB0_419:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_423
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_975
+
+    WORD $0x8b080469 // add    x9, x3, x8, lsl #1
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_975
+LBB0_423:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_424:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_425:
+    WORD $0x3840152b // ldrb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_425
+    JMP LBB0_893
+LBB0_426:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_430
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_978
+
+    WORD $0x8b080469 // add    x9, x3, x8, lsl #1
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_978
+LBB0_430:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_431:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_432:
+    WORD $0x3840152b // ldrb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_432
+    JMP LBB0_893
+LBB0_433:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_788
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_791
+LBB0_436:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_793
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_796
+LBB0_439:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_798
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_801
+LBB0_442:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_803
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_806
+LBB0_445:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_808
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_811
+LBB0_448:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_813
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_816
+LBB0_451:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_455
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_981
+
+    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_981
+LBB0_455:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_456:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_457:
+    WORD $0x3880152b // ldrsb    x11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_457
+    JMP LBB0_893
+LBB0_458:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_462
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_984
+
+    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_984
+LBB0_462:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_463:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_464:
+    WORD $0x38c0152b // ldrsb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e220160 // scvtf    s0, w11
+    WORD $0xbc004540 // str    s0, [x10], #4
+    BNE LBB0_464
+    JMP LBB0_893
+LBB0_465:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_469
+
+    WORD $0xd37df109 // lsl    x9, x8, #3
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_987
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_987
+LBB0_469:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_470:
+    WORD $0xd37df12a // lsl    x10, x9, #3
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_471:
+    WORD $0xf840854b // ldr    x11, [x10], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800852b // str    x11, [x9], #8
+    BNE LBB0_471
+    JMP LBB0_893
+LBB0_472:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_818
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_821
+LBB0_475:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_823
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_826
+LBB0_478:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_828
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_831
+LBB0_481:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_833
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_836
+LBB0_484:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_838
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_841
+LBB0_487:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_491
+
+    WORD $0xd37df109 // lsl    x9, x8, #3
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_990
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_990
+LBB0_491:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_492:
+    WORD $0xd37df12a // lsl    x10, x9, #3
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_493:
+    WORD $0xf840854b // ldr    x11, [x10], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800852b // str    x11, [x9], #8
+    BNE LBB0_493
+    JMP LBB0_893
+LBB0_494:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_843
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_846
+LBB0_497:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_848
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_851
+LBB0_500:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_504
+
+    WORD $0xd37ef509 // lsl    x9, x8, #2
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_993
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_993
+LBB0_504:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_505:
+    WORD $0xd37ef52a // lsl    x10, x9, #2
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_506:
+    WORD $0xb840454b // ldr    w11, [x10], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800452b // str    w11, [x9], #4
+    BNE LBB0_506
+    JMP LBB0_893
+LBB0_507:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_511
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_996
+
+    WORD $0x8b080c69 // add    x9, x3, x8, lsl #3
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_996
+LBB0_511:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_512:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_513:
+    WORD $0x3840152b // ldrb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_513
+    JMP LBB0_893
+LBB0_514:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_518
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_999
+
+    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_999
+LBB0_518:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_519:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_520:
+    WORD $0x3840152b // ldrb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e230160 // ucvtf    s0, w11
+    WORD $0xbc004540 // str    s0, [x10], #4
+    BNE LBB0_520
+    JMP LBB0_893
+LBB0_521:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_853
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_856
+LBB0_524:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_858
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_861
+LBB0_527:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_531
+
+    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_1002
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1002
+LBB0_531:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_532:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_533:
+    WORD $0xb840452b // ldr    w11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_533
+    JMP LBB0_893
+LBB0_534:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_538
+
+    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_1005
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1005
+LBB0_538:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_539:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_540:
+    WORD $0xfc408520 // ldr    d0, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e78000b // fcvtzs    w11, d0
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_540
+    JMP LBB0_893
+LBB0_541:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_545
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_1008
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1008
+LBB0_545:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_546:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_547:
+    WORD $0x3840152b // ldrb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_547
+    JMP LBB0_893
+LBB0_548:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_552
+
+    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_1011
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1011
+LBB0_552:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_553:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_554:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_554
+    JMP LBB0_893
+LBB0_555:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_559
+
+    WORD $0x8b080449 // add    x9, x2, x8, lsl #1
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_1014
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1014
+LBB0_559:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_560:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_561:
+    WORD $0x3840252b // ldrb    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_561
+    JMP LBB0_893
+LBB0_562:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_566
+
+    WORD $0x8b080449 // add    x9, x2, x8, lsl #1
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_1017
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1017
+LBB0_566:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_567:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_568:
+    WORD $0x3840252b // ldrb    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_568
+    JMP LBB0_893
+LBB0_569:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_573
+
+    WORD $0x8b080c49 // add    x9, x2, x8, lsl #3
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_1020
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1020
+LBB0_573:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_574:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_575:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_575
+    JMP LBB0_893
+LBB0_576:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_580
+
+    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_1023
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1023
+LBB0_580:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_581:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_582:
+    WORD $0xbc404520 // ldr    s0, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e38000b // fcvtzs    w11, s0
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_582
+    JMP LBB0_893
+LBB0_583:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_587
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_1026
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1026
+LBB0_587:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_588:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_589:
+    WORD $0x3840152b // ldrb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_589
+    JMP LBB0_893
+LBB0_590:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_594
+
+    WORD $0x8b080849 // add    x9, x2, x8, lsl #2
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_1029
+
+    WORD $0x8b080069 // add    x9, x3, x8
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1029
+LBB0_594:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_595:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09006a // add    x10, x3, x9
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_596:
+    WORD $0xb840452b // ldr    w11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x3800154b // strb    w11, [x10], #1
+    BNE LBB0_596
+    JMP LBB0_893
+LBB0_597:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_601
+
+    WORD $0xd37ef509 // lsl    x9, x8, #2
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_1032
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1032
+LBB0_601:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_602:
+    WORD $0xd37ef52a // lsl    x10, x9, #2
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_603:
+    WORD $0xb840454b // ldr    w11, [x10], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800452b // str    w11, [x9], #4
+    BNE LBB0_603
+    JMP LBB0_893
+LBB0_604:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_863
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_866
+LBB0_607:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_611
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_1035
+
+    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1035
+LBB0_611:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_612:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_613:
+    WORD $0x38c0152b // ldrsb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_613
+    JMP LBB0_893
+LBB0_614:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_868
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_871
+LBB0_617:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_873
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_876
+LBB0_620:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_878
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_881
+LBB0_623:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100409f // cmp    w4, #16
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_883
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_886
+LBB0_626:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BHS LBB0_888
+
+    WORD $0xaa1f03e9 // mov    x9, xzr
+    JMP LBB0_891
+LBB0_629:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_633
+
+    WORD $0x8b080049 // add    x9, x2, x8
+    WORD $0xeb03013f // cmp    x9, x3
+    BLS LBB0_1038
+
+    WORD $0x8b080869 // add    x9, x3, x8, lsl #2
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1038
+LBB0_633:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_634:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090049 // add    x9, x2, x9
+LBB0_635:
+    WORD $0x3840152b // ldrb    w11, [x9], #1
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_635
+    JMP LBB0_893
+LBB0_636:
+    WORD $0x7100049f // cmp    w4, #1
+    BLT LBB0_893
+
+    WORD $0x7100809f // cmp    w4, #32
+    WORD $0x2a0403e8 // mov    w8, w4
+    BLO LBB0_640
+
+    WORD $0xd37ef509 // lsl    x9, x8, #2
+    WORD $0x8b09004a // add    x10, x2, x9
+    WORD $0xeb03015f // cmp    x10, x3
+    BLS LBB0_1041
+
+    WORD $0x8b090069 // add    x9, x3, x9
+    WORD $0xeb02013f // cmp    x9, x2
+    BLS LBB0_1041
+LBB0_640:
+    WORD $0xaa1f03e9 // mov    x9, xzr
+LBB0_641:
+    WORD $0xd37ef52a // lsl    x10, x9, #2
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_642:
+    WORD $0xb840454b // ldr    w11, [x10], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800452b // str    w11, [x9], #4
+    BNE LBB0_642
+    JMP LBB0_893
+LBB0_643:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_644:
+    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
+    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
+    WORD $0x6ee1b821 // fcvtzu    v1.2d, v1.2d
+    WORD $0x6ee1b863 // fcvtzu    v3.2d, v3.2d
+    WORD $0x6ee1b8a5 // fcvtzu    v5.2d, v5.2d
+    WORD $0x6ee1b8e7 // fcvtzu    v7.2d, v7.2d
+    WORD $0x6ee1b884 // fcvtzu    v4.2d, v4.2d
+    WORD $0x6ee1b8c6 // fcvtzu    v6.2d, v6.2d
+    WORD $0x6ee1b842 // fcvtzu    v2.2d, v2.2d
+    WORD $0x6ee1b800 // fcvtzu    v0.2d, v0.2d
+    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
+    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
+    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
+    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
+    WORD $0xac821567 // stp    q7, q5, [x11], #64
+    BNE LBB0_644
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_646:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_647:
+    WORD $0xfc408520 // ldr    d0, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e79000b // fcvtzu    w11, d0
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_647
+    JMP LBB0_893
+LBB0_648:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_649:
+    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
+    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
+    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
+    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
+    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
+    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
+    WORD $0xac821567 // stp    q7, q5, [x11], #64
+    BNE LBB0_649
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_651:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_652:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_652
+    JMP LBB0_893
+LBB0_653:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9100804a // add    x10, x2, #32
+    WORD $0x9101006b // add    x11, x3, #64
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_654:
+    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0x2f10a424 // ushll    v4.4s, v1.4h, #0
+    WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
+    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
+    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
+    WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
+    WORD $0x2f10a447 // ushll    v7.4s, v2.4h, #0
+    WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
+    WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
+    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
+    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
+    WORD $0xad010967 // stp    q7, q2, [x11, #32]
+    WORD $0xac840d66 // stp    q6, q3, [x11], #128
+    BNE LBB0_654
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_656:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_657:
+    WORD $0x7840252b // ldrh    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_657
+    JMP LBB0_893
+LBB0_658:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9100804a // add    x10, x2, #32
+    WORD $0x9101006b // add    x11, x3, #64
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_659:
+    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0x0f10a424 // sshll    v4.4s, v1.4h, #0
+    WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
+    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
+    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
+    WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
+    WORD $0x0f10a447 // sshll    v7.4s, v2.4h, #0
+    WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
+    WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
+    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
+    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
+    WORD $0xad010967 // stp    q7, q2, [x11, #32]
+    WORD $0xac840d66 // stp    q6, q3, [x11], #128
+    BNE LBB0_659
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_661:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_662:
+    WORD $0x78c0252b // ldrsh    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_662
+    JMP LBB0_893
+LBB0_663:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_664:
+    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
+    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
+    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
+    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
+    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
+    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
+    WORD $0xac821567 // stp    q7, q5, [x11], #64
+    BNE LBB0_664
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_666:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_667:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_667
+    JMP LBB0_893
+LBB0_668:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9101004a // add    x10, x2, #64
+    WORD $0x9101006b // add    x11, x3, #64
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_669:
+    WORD $0xad7f0540 // ldp    q0, q1, [x10, #-32]
+    WORD $0xad7e0d42 // ldp    q2, q3, [x10, #-64]
+    WORD $0xad411544 // ldp    q4, q5, [x10, #32]
+    WORD $0xacc41d46 // ldp    q6, q7, [x10], #128
+    WORD $0x6ea1b821 // fcvtzu    v1.4s, v1.4s
+    WORD $0x6ea1b863 // fcvtzu    v3.4s, v3.4s
+    WORD $0x6ea1b842 // fcvtzu    v2.4s, v2.4s
+    WORD $0x6ea1b800 // fcvtzu    v0.4s, v0.4s
+    WORD $0x6ea1b8e7 // fcvtzu    v7.4s, v7.4s
+    WORD $0x6ea1b8c6 // fcvtzu    v6.4s, v6.4s
+    WORD $0x6ea1b8a5 // fcvtzu    v5.4s, v5.4s
+    WORD $0x6ea1b884 // fcvtzu    v4.4s, v4.4s
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0xad3f0560 // stp    q0, q1, [x11, #-32]
+    WORD $0xad3e0d62 // stp    q2, q3, [x11, #-64]
+    WORD $0xad011564 // stp    q4, q5, [x11, #32]
+    WORD $0xac841d66 // stp    q6, q7, [x11], #128
+    BNE LBB0_669
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_671:
+    WORD $0xd37ef52a // lsl    x10, x9, #2
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_672:
+    WORD $0xbc404540 // ldr    s0, [x10], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e39000b // fcvtzu    w11, s0
+    WORD $0xb800452b // str    w11, [x9], #4
+    BNE LBB0_672
+    JMP LBB0_893
+LBB0_673:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_674:
+    WORD $0xad400181 // ldp    q1, q0, [x12]
+    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+    WORD $0x9101018c // add    x12, x12, #64
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x2f20a424 // ushll    v4.2d, v1.2s, #0
+    WORD $0x2f20a405 // ushll    v5.2d, v0.2s, #0
+    WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
+    WORD $0x2f20a447 // ushll    v7.2d, v2.2s, #0
+    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
+    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
+    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
+    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
+    WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
+    WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
+    WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
+    WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
+    WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
+    WORD $0x6e61d800 // ucvtf    v0.2d, v0.2d
+    WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
+    WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
+    WORD $0xad030967 // stp    q7, q2, [x11, #96]
+    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
+    WORD $0xad010165 // stp    q5, q0, [x11, #32]
+    WORD $0xac840564 // stp    q4, q1, [x11], #128
+    BNE LBB0_674
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_676:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_677:
+    WORD $0xb840452b // ldr    w11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e630160 // ucvtf    d0, w11
+    WORD $0xfc008540 // str    d0, [x10], #8
+    BNE LBB0_677
+    JMP LBB0_893
+LBB0_678:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_679:
+    WORD $0xad430580 // ldp    q0, q1, [x12, #96]
+    WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
+    WORD $0xad401584 // ldp    q4, q5, [x12]
+    WORD $0xad411d86 // ldp    q6, q7, [x12, #32]
+    WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
+    WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
+    WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
+    WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
+    WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
+    WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
+    WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
+    WORD $0x6e61d800 // ucvtf    v0.2d, v0.2d
+    WORD $0x9102018c // add    x12, x12, #128
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xad030560 // stp    q0, q1, [x11, #96]
+    WORD $0xad020d62 // stp    q2, q3, [x11, #64]
+    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
+    WORD $0xac841564 // stp    q4, q5, [x11], #128
+    BNE LBB0_679
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_681:
+    WORD $0xd37df12a // lsl    x10, x9, #3
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_682:
+    WORD $0xfc408540 // ldr    d0, [x10], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7e61d800 // ucvtf    d0, d0
+    WORD $0xfc008520 // str    d0, [x9], #8
+    BNE LBB0_682
+    JMP LBB0_893
+LBB0_683:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0x2f01e660 // movi    d0, #0x00ffff0000ffff
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_684:
+    WORD $0xacc10984 // ldp    q4, q2, [x12], #32
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x6e044081 // ext    v1.16b, v4.16b, v4.16b, #8
+    WORD $0x0e023c8d // umov    w13, v4.h[0]
+    WORD $0x0e0a3c8f // umov    w15, v4.h[2]
+    WORD $0x6e024043 // ext    v3.16b, v2.16b, v2.16b, #8
+    WORD $0x0e063c8e // umov    w14, v4.h[1]
+    WORD $0x0e0e3c90 // umov    w16, v4.h[3]
+    WORD $0x0e023c51 // umov    w17, v2.h[0]
+    WORD $0x0e063c52 // umov    w18, v2.h[1]
+    WORD $0x0e0a3c40 // umov    w0, v2.h[2]
+    WORD $0x1e2701a4 // fmov    s4, w13
+    WORD $0x0e0e3c4d // umov    w13, v2.h[3]
+    WORD $0x1e2701e2 // fmov    s2, w15
+    WORD $0x0e023c2f // umov    w15, v1.h[0]
+    WORD $0x1e270006 // fmov    s6, w0
+    WORD $0x0e0a3c20 // umov    w0, v1.h[2]
+    WORD $0x1e2701e7 // fmov    s7, w15
+    WORD $0x0e023c6f // umov    w15, v3.h[0]
+    WORD $0x1e270010 // fmov    s16, w0
+    WORD $0x0e0a3c60 // umov    w0, v3.h[2]
+    WORD $0x1e2701f1 // fmov    s17, w15
+    WORD $0x4e0c1da6 // mov    v6.s[1], w13
+    WORD $0x0e063c6d // umov    w13, v3.h[1]
+    WORD $0x1e270225 // fmov    s5, w17
+    WORD $0x0e063c31 // umov    w17, v1.h[1]
+    WORD $0x0e0e3c2f // umov    w15, v1.h[3]
+    WORD $0x1e270001 // fmov    s1, w0
+    WORD $0x4e0c1db1 // mov    v17.s[1], w13
+    WORD $0x0e0e3c6d // umov    w13, v3.h[3]
+    WORD $0x4e0c1dc4 // mov    v4.s[1], w14
+    WORD $0x4e0c1e02 // mov    v2.s[1], w16
+    WORD $0x4e0c1e45 // mov    v5.s[1], w18
+    WORD $0x4e0c1e27 // mov    v7.s[1], w17
+    WORD $0x4e0c1df0 // mov    v16.s[1], w15
+    WORD $0x4e0c1da1 // mov    v1.s[1], w13
+    WORD $0x0e201c83 // and    v3.8b, v4.8b, v0.8b
+    WORD $0x0e201c42 // and    v2.8b, v2.8b, v0.8b
+    WORD $0x0e201ca4 // and    v4.8b, v5.8b, v0.8b
+    WORD $0x0e201cc5 // and    v5.8b, v6.8b, v0.8b
+    WORD $0x0e201ce6 // and    v6.8b, v7.8b, v0.8b
+    WORD $0x0e201e07 // and    v7.8b, v16.8b, v0.8b
+    WORD $0x0e201e30 // and    v16.8b, v17.8b, v0.8b
+    WORD $0x0e201c21 // and    v1.8b, v1.8b, v0.8b
+    WORD $0x2f20a463 // ushll    v3.2d, v3.2s, #0
+    WORD $0x2f20a442 // ushll    v2.2d, v2.2s, #0
+    WORD $0x2f20a484 // ushll    v4.2d, v4.2s, #0
+    WORD $0x2f20a4a5 // ushll    v5.2d, v5.2s, #0
+    WORD $0x2f20a4c6 // ushll    v6.2d, v6.2s, #0
+    WORD $0x2f20a4e7 // ushll    v7.2d, v7.2s, #0
+    WORD $0x2f20a610 // ushll    v16.2d, v16.2s, #0
+    WORD $0x2f20a421 // ushll    v1.2d, v1.2s, #0
+    WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
+    WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
+    WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
+    WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
+    WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
+    WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
+    WORD $0x6e61da10 // ucvtf    v16.2d, v16.2d
+    WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
+    WORD $0xad021564 // stp    q4, q5, [x11, #64]
+    WORD $0xad000963 // stp    q3, q2, [x11]
+    WORD $0xad030570 // stp    q16, q1, [x11, #96]
+    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
+    WORD $0x9102016b // add    x11, x11, #128
+    BNE LBB0_684
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_686:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_687:
+    WORD $0x7840252b // ldrh    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e630160 // ucvtf    d0, w11
+    WORD $0xfc008540 // str    d0, [x10], #8
+    BNE LBB0_687
+    JMP LBB0_893
+LBB0_688:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_689:
+    WORD $0xacc10583 // ldp    q3, q1, [x12], #32
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x6e034060 // ext    v0.16b, v3.16b, v3.16b, #8
+    WORD $0x0e023c6d // umov    w13, v3.h[0]
+    WORD $0x0e0a3c6f // umov    w15, v3.h[2]
+    WORD $0x6e014022 // ext    v2.16b, v1.16b, v1.16b, #8
+    WORD $0x0e063c6e // umov    w14, v3.h[1]
+    WORD $0x0e0e3c70 // umov    w16, v3.h[3]
+    WORD $0x0e023c31 // umov    w17, v1.h[0]
+    WORD $0x0e063c32 // umov    w18, v1.h[1]
+    WORD $0x0e0a3c20 // umov    w0, v1.h[2]
+    WORD $0x1e2701a3 // fmov    s3, w13
+    WORD $0x0e0e3c2d // umov    w13, v1.h[3]
+    WORD $0x1e2701e1 // fmov    s1, w15
+    WORD $0x0e023c0f // umov    w15, v0.h[0]
+    WORD $0x1e270005 // fmov    s5, w0
+    WORD $0x0e0a3c00 // umov    w0, v0.h[2]
+    WORD $0x1e2701e6 // fmov    s6, w15
+    WORD $0x0e023c4f // umov    w15, v2.h[0]
+    WORD $0x1e270007 // fmov    s7, w0
+    WORD $0x0e0a3c40 // umov    w0, v2.h[2]
+    WORD $0x1e2701f0 // fmov    s16, w15
+    WORD $0x4e0c1da5 // mov    v5.s[1], w13
+    WORD $0x0e063c4d // umov    w13, v2.h[1]
+    WORD $0x1e270224 // fmov    s4, w17
+    WORD $0x0e063c11 // umov    w17, v0.h[1]
+    WORD $0x0e0e3c0f // umov    w15, v0.h[3]
+    WORD $0x1e270000 // fmov    s0, w0
+    WORD $0x4e0c1db0 // mov    v16.s[1], w13
+    WORD $0x0e0e3c4d // umov    w13, v2.h[3]
+    WORD $0x4e0c1dc3 // mov    v3.s[1], w14
+    WORD $0x4e0c1e01 // mov    v1.s[1], w16
+    WORD $0x4e0c1e44 // mov    v4.s[1], w18
+    WORD $0x4e0c1e26 // mov    v6.s[1], w17
+    WORD $0x4e0c1de7 // mov    v7.s[1], w15
+    WORD $0x4e0c1da0 // mov    v0.s[1], w13
+    WORD $0x0f305462 // shl    v2.2s, v3.2s, #16
+    WORD $0x0f305421 // shl    v1.2s, v1.2s, #16
+    WORD $0x0f305483 // shl    v3.2s, v4.2s, #16
+    WORD $0x0f3054a4 // shl    v4.2s, v5.2s, #16
+    WORD $0x0f3054c5 // shl    v5.2s, v6.2s, #16
+    WORD $0x0f3054e6 // shl    v6.2s, v7.2s, #16
+    WORD $0x0f305607 // shl    v7.2s, v16.2s, #16
+    WORD $0x0f305400 // shl    v0.2s, v0.2s, #16
+    WORD $0x0f300442 // sshr    v2.2s, v2.2s, #16
+    WORD $0x0f300421 // sshr    v1.2s, v1.2s, #16
+    WORD $0x0f300463 // sshr    v3.2s, v3.2s, #16
+    WORD $0x0f300484 // sshr    v4.2s, v4.2s, #16
+    WORD $0x0f3004a5 // sshr    v5.2s, v5.2s, #16
+    WORD $0x0f3004c6 // sshr    v6.2s, v6.2s, #16
+    WORD $0x0f3004e7 // sshr    v7.2s, v7.2s, #16
+    WORD $0x0f300400 // sshr    v0.2s, v0.2s, #16
+    WORD $0x0f20a442 // sshll    v2.2d, v2.2s, #0
+    WORD $0x0f20a421 // sshll    v1.2d, v1.2s, #0
+    WORD $0x0f20a463 // sshll    v3.2d, v3.2s, #0
+    WORD $0x0f20a484 // sshll    v4.2d, v4.2s, #0
+    WORD $0x0f20a4a5 // sshll    v5.2d, v5.2s, #0
+    WORD $0x0f20a4c6 // sshll    v6.2d, v6.2s, #0
+    WORD $0x0f20a4e7 // sshll    v7.2d, v7.2s, #0
+    WORD $0x0f20a400 // sshll    v0.2d, v0.2s, #0
+    WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
+    WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
+    WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
+    WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
+    WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
+    WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
+    WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
+    WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
+    WORD $0xad021163 // stp    q3, q4, [x11, #64]
+    WORD $0xad000562 // stp    q2, q1, [x11]
+    WORD $0xad030167 // stp    q7, q0, [x11, #96]
+    WORD $0xad011965 // stp    q5, q6, [x11, #32]
+    WORD $0x9102016b // add    x11, x11, #128
+    BNE LBB0_689
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_691:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_692:
+    WORD $0x78c0252b // ldrsh    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e620160 // scvtf    d0, w11
+    WORD $0xfc008540 // str    d0, [x10], #8
+    BNE LBB0_692
+    JMP LBB0_893
+LBB0_693:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_694:
+    WORD $0xad430580 // ldp    q0, q1, [x12, #96]
+    WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
+    WORD $0xad401584 // ldp    q4, q5, [x12]
+    WORD $0xad411d86 // ldp    q6, q7, [x12, #32]
+    WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
+    WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
+    WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
+    WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
+    WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
+    WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
+    WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
+    WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
+    WORD $0x9102018c // add    x12, x12, #128
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xad030560 // stp    q0, q1, [x11, #96]
+    WORD $0xad020d62 // stp    q2, q3, [x11, #64]
+    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
+    WORD $0xac841564 // stp    q4, q5, [x11], #128
+    BNE LBB0_694
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_696:
+    WORD $0xd37df12a // lsl    x10, x9, #3
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_697:
+    WORD $0xfc408540 // ldr    d0, [x10], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x5e61d800 // scvtf    d0, d0
+    WORD $0xfc008520 // str    d0, [x9], #8
+    BNE LBB0_697
+    JMP LBB0_893
+LBB0_698:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_699:
+    WORD $0xad400181 // ldp    q1, q0, [x12]
+    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+    WORD $0x9101018c // add    x12, x12, #64
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x0e617824 // fcvtl    v4.2d, v1.2s
+    WORD $0x0e617805 // fcvtl    v5.2d, v0.2s
+    WORD $0x0e617866 // fcvtl    v6.2d, v3.2s
+    WORD $0x0e617847 // fcvtl    v7.2d, v2.2s
+    WORD $0x4e617821 // fcvtl2    v1.2d, v1.4s
+    WORD $0x4e617800 // fcvtl2    v0.2d, v0.4s
+    WORD $0x4e617863 // fcvtl2    v3.2d, v3.4s
+    WORD $0x4e617842 // fcvtl2    v2.2d, v2.4s
+    WORD $0xad030967 // stp    q7, q2, [x11, #96]
+    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
+    WORD $0xad010165 // stp    q5, q0, [x11, #32]
+    WORD $0xac840564 // stp    q4, q1, [x11], #128
+    BNE LBB0_699
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_701:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_702:
+    WORD $0xbc404520 // ldr    s0, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e22c000 // fcvt    d0, s0
+    WORD $0xfc008540 // str    d0, [x10], #8
+    BNE LBB0_702
+    JMP LBB0_893
+LBB0_703:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_704:
+    WORD $0xad400181 // ldp    q1, q0, [x12]
+    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+    WORD $0x9101018c // add    x12, x12, #64
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x0f20a424 // sshll    v4.2d, v1.2s, #0
+    WORD $0x0f20a405 // sshll    v5.2d, v0.2s, #0
+    WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
+    WORD $0x0f20a447 // sshll    v7.2d, v2.2s, #0
+    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
+    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
+    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
+    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
+    WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
+    WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
+    WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
+    WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
+    WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
+    WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
+    WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
+    WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
+    WORD $0xad030967 // stp    q7, q2, [x11, #96]
+    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
+    WORD $0xad010165 // stp    q5, q0, [x11, #32]
+    WORD $0xac840564 // stp    q4, q1, [x11], #128
+    BNE LBB0_704
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_706:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_707:
+    WORD $0xb840452b // ldr    w11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e620160 // scvtf    d0, w11
+    WORD $0xfc008540 // str    d0, [x10], #8
+    BNE LBB0_707
+    JMP LBB0_893
+LBB0_708:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_709:
+    WORD $0xad400181 // ldp    q1, q0, [x12]
+    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+    WORD $0x9101018c // add    x12, x12, #64
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x2f20a424 // ushll    v4.2d, v1.2s, #0
+    WORD $0x2f20a405 // ushll    v5.2d, v0.2s, #0
+    WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
+    WORD $0x2f20a447 // ushll    v7.2d, v2.2s, #0
+    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
+    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
+    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
+    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
+    WORD $0xad030967 // stp    q7, q2, [x11, #96]
+    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
+    WORD $0xad010165 // stp    q5, q0, [x11, #32]
+    WORD $0xac840564 // stp    q4, q1, [x11], #128
+    BNE LBB0_709
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_711:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_712:
+    WORD $0xb840452b // ldr    w11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_712
+    JMP LBB0_893
+LBB0_713:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_714:
+    WORD $0xad430580 // ldp    q0, q1, [x12, #96]
+    WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
+    WORD $0xad401584 // ldp    q4, q5, [x12]
+    WORD $0xad411d86 // ldp    q6, q7, [x12, #32]
+    WORD $0x6ee1b821 // fcvtzu    v1.2d, v1.2d
+    WORD $0x6ee1b863 // fcvtzu    v3.2d, v3.2d
+    WORD $0x6ee1b8a5 // fcvtzu    v5.2d, v5.2d
+    WORD $0x6ee1b884 // fcvtzu    v4.2d, v4.2d
+    WORD $0x6ee1b8e7 // fcvtzu    v7.2d, v7.2d
+    WORD $0x6ee1b8c6 // fcvtzu    v6.2d, v6.2d
+    WORD $0x6ee1b842 // fcvtzu    v2.2d, v2.2d
+    WORD $0x6ee1b800 // fcvtzu    v0.2d, v0.2d
+    WORD $0x9102018c // add    x12, x12, #128
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xad030560 // stp    q0, q1, [x11, #96]
+    WORD $0xad020d62 // stp    q2, q3, [x11, #64]
+    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
+    WORD $0xac841564 // stp    q4, q5, [x11], #128
+    BNE LBB0_714
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_716:
+    WORD $0xd37df12a // lsl    x10, x9, #3
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_717:
+    WORD $0xfc408540 // ldr    d0, [x10], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x9e79000b // fcvtzu    x11, d0
+    WORD $0xf800852b // str    x11, [x9], #8
+    BNE LBB0_717
+    JMP LBB0_893
+LBB0_718:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_719:
+    WORD $0xacc10580 // ldp    q0, q1, [x12], #32
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x2f10a402 // ushll    v2.4s, v0.4h, #0
+    WORD $0x2f10a423 // ushll    v3.4s, v1.4h, #0
+    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
+    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
+    WORD $0x2f20a444 // ushll    v4.2d, v2.2s, #0
+    WORD $0x2f20a465 // ushll    v5.2d, v3.2s, #0
+    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
+    WORD $0x2f20a406 // ushll    v6.2d, v0.2s, #0
+    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
+    WORD $0x2f20a427 // ushll    v7.2d, v1.2s, #0
+    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
+    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
+    WORD $0xad030567 // stp    q7, q1, [x11, #96]
+    WORD $0xad010166 // stp    q6, q0, [x11, #32]
+    WORD $0xad020d65 // stp    q5, q3, [x11, #64]
+    WORD $0xac840964 // stp    q4, q2, [x11], #128
+    BNE LBB0_719
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_721:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_722:
+    WORD $0x7840252b // ldrh    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_722
+    JMP LBB0_893
+LBB0_723:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_724:
+    WORD $0xacc10580 // ldp    q0, q1, [x12], #32
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x0f10a402 // sshll    v2.4s, v0.4h, #0
+    WORD $0x0f10a423 // sshll    v3.4s, v1.4h, #0
+    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
+    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
+    WORD $0x0f20a444 // sshll    v4.2d, v2.2s, #0
+    WORD $0x0f20a465 // sshll    v5.2d, v3.2s, #0
+    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
+    WORD $0x0f20a406 // sshll    v6.2d, v0.2s, #0
+    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
+    WORD $0x0f20a427 // sshll    v7.2d, v1.2s, #0
+    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
+    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
+    WORD $0xad030567 // stp    q7, q1, [x11, #96]
+    WORD $0xad010166 // stp    q6, q0, [x11, #32]
+    WORD $0xad020d65 // stp    q5, q3, [x11, #64]
+    WORD $0xac840964 // stp    q4, q2, [x11], #128
+    BNE LBB0_724
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_726:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_727:
+    WORD $0x7880252b // ldrsh    x11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_727
+    JMP LBB0_893
+LBB0_728:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_729:
+    WORD $0xad400181 // ldp    q1, q0, [x12]
+    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+    WORD $0x9101018c // add    x12, x12, #64
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x0e617824 // fcvtl    v4.2d, v1.2s
+    WORD $0x0e617805 // fcvtl    v5.2d, v0.2s
+    WORD $0x0e617866 // fcvtl    v6.2d, v3.2s
+    WORD $0x0e617847 // fcvtl    v7.2d, v2.2s
+    WORD $0x4e617821 // fcvtl2    v1.2d, v1.4s
+    WORD $0x4e617800 // fcvtl2    v0.2d, v0.4s
+    WORD $0x4e617863 // fcvtl2    v3.2d, v3.4s
+    WORD $0x4e617842 // fcvtl2    v2.2d, v2.4s
+    WORD $0x6ee1b884 // fcvtzu    v4.2d, v4.2d
+    WORD $0x6ee1b8a5 // fcvtzu    v5.2d, v5.2d
+    WORD $0x6ee1b8c6 // fcvtzu    v6.2d, v6.2d
+    WORD $0x6ee1b8e7 // fcvtzu    v7.2d, v7.2d
+    WORD $0x6ee1b821 // fcvtzu    v1.2d, v1.2d
+    WORD $0x6ee1b800 // fcvtzu    v0.2d, v0.2d
+    WORD $0x6ee1b863 // fcvtzu    v3.2d, v3.2d
+    WORD $0x6ee1b842 // fcvtzu    v2.2d, v2.2d
+    WORD $0xad030967 // stp    q7, q2, [x11, #96]
+    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
+    WORD $0xad010165 // stp    q5, q0, [x11, #32]
+    WORD $0xac840564 // stp    q4, q1, [x11], #128
+    BNE LBB0_729
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_731:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_732:
+    WORD $0xbc404520 // ldr    s0, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x9e39000b // fcvtzu    x11, s0
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_732
+    JMP LBB0_893
+LBB0_733:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_734:
+    WORD $0xad400181 // ldp    q1, q0, [x12]
+    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+    WORD $0x9101018c // add    x12, x12, #64
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x0f20a424 // sshll    v4.2d, v1.2s, #0
+    WORD $0x0f20a405 // sshll    v5.2d, v0.2s, #0
+    WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
+    WORD $0x0f20a447 // sshll    v7.2d, v2.2s, #0
+    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
+    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
+    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
+    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
+    WORD $0xad030967 // stp    q7, q2, [x11, #96]
+    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
+    WORD $0xad010165 // stp    q5, q0, [x11, #32]
+    WORD $0xac840564 // stp    q4, q1, [x11], #128
+    BNE LBB0_734
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_736:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_737:
+    WORD $0xb880452b // ldrsw    x11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_737
+    JMP LBB0_893
+LBB0_738:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9101004a // add    x10, x2, #64
+    WORD $0x9100806b // add    x11, x3, #32
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_739:
+    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+    WORD $0xad401145 // ldp    q5, q4, [x10]
+    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+    WORD $0x0e612821 // xtn    v1.4h, v1.4s
+    WORD $0x0e612863 // xtn    v3.4h, v3.4s
+    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
+    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
+    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
+    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
+    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
+    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
+    WORD $0x9102014a // add    x10, x10, #128
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
+    WORD $0xac821d65 // stp    q5, q7, [x11], #64
+    BNE LBB0_739
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_741:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_742:
+    WORD $0xb840452b // ldr    w11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_742
+    JMP LBB0_893
+LBB0_743:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9101004a // add    x10, x2, #64
+    WORD $0x9100806b // add    x11, x3, #32
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_744:
+    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+    WORD $0xad401145 // ldp    q5, q4, [x10]
+    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+    WORD $0x0e612821 // xtn    v1.4h, v1.4s
+    WORD $0x0e612863 // xtn    v3.4h, v3.4s
+    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
+    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
+    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
+    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
+    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
+    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
+    WORD $0x9102014a // add    x10, x10, #128
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
+    WORD $0xac821d65 // stp    q5, q7, [x11], #64
+    BNE LBB0_744
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_746:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_747:
+    WORD $0xb840452b // ldr    w11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_747
+    JMP LBB0_893
+LBB0_748:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_749:
+    WORD $0xad400983 // ldp    q3, q2, [x12]
+    WORD $0xad421987 // ldp    q7, q6, [x12, #64]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xad430181 // ldp    q1, q0, [x12, #96]
+    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
+    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
+    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
+    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
+    WORD $0x0ea12842 // xtn    v2.2s, v2.2d
+    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+    WORD $0x0e0c3c6d // mov    w13, v3.s[1]
+    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
+    WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
+    WORD $0x1e26004f // fmov    w15, s2
+    WORD $0x4e061da3 // mov    v3.h[1], w13
+    WORD $0x0e0c3ced // mov    w13, v7.s[1]
+    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
+    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+    WORD $0x0e0c3c4e // mov    w14, v2.s[1]
+    WORD $0x4e061da7 // mov    v7.h[1], w13
+    WORD $0x4e0a1de3 // mov    v3.h[2], w15
+    WORD $0x1e2600cf // fmov    w15, s6
+    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
+    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+    WORD $0x0e0c3ccd // mov    w13, v6.s[1]
+    WORD $0x4e0a1de7 // mov    v7.h[2], w15
+    WORD $0x4e0e1dc3 // mov    v3.h[3], w14
+    WORD $0x1e2600ae // fmov    w14, s5
+    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
+    WORD $0x0ea12884 // xtn    v4.2s, v4.2d
+    WORD $0x0e0c3caf // mov    w15, v5.s[1]
+    WORD $0x4e0e1da7 // mov    v7.h[3], w13
+    WORD $0x4e121dc3 // mov    v3.h[4], w14
+    WORD $0x1e26002e // fmov    w14, s1
+    WORD $0x0ea12800 // xtn    v0.2s, v0.2d
+    WORD $0x0e0c3c2d // mov    w13, v1.s[1]
+    WORD $0x4e121dc7 // mov    v7.h[4], w14
+    WORD $0x4e161de3 // mov    v3.h[5], w15
+    WORD $0x1e26008f // fmov    w15, s4
+    WORD $0x4e161da7 // mov    v7.h[5], w13
+    WORD $0x4e1a1de3 // mov    v3.h[6], w15
+    WORD $0x1e26000f // fmov    w15, s0
+    WORD $0x0e0c3c8e // mov    w14, v4.s[1]
+    WORD $0x0e0c3c0d // mov    w13, v0.s[1]
+    WORD $0x4e1a1de7 // mov    v7.h[6], w15
+    WORD $0x4e1e1dc3 // mov    v3.h[7], w14
+    WORD $0x4e1e1da7 // mov    v7.h[7], w13
+    WORD $0x9102018c // add    x12, x12, #128
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xac811d63 // stp    q3, q7, [x11], #32
+    BNE LBB0_749
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_751:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_752:
+    WORD $0xfc408520 // ldr    d0, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e78000b // fcvtzs    w11, d0
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_752
+    JMP LBB0_893
+LBB0_753:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_754:
+    WORD $0xad400983 // ldp    q3, q2, [x12]
+    WORD $0xad421987 // ldp    q7, q6, [x12, #64]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xad430181 // ldp    q1, q0, [x12, #96]
+    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
+    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
+    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
+    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
+    WORD $0x0ea12842 // xtn    v2.2s, v2.2d
+    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+    WORD $0x0e0c3c6d // mov    w13, v3.s[1]
+    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
+    WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
+    WORD $0x1e26004f // fmov    w15, s2
+    WORD $0x4e061da3 // mov    v3.h[1], w13
+    WORD $0x0e0c3ced // mov    w13, v7.s[1]
+    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
+    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+    WORD $0x0e0c3c4e // mov    w14, v2.s[1]
+    WORD $0x4e061da7 // mov    v7.h[1], w13
+    WORD $0x4e0a1de3 // mov    v3.h[2], w15
+    WORD $0x1e2600cf // fmov    w15, s6
+    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
+    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+    WORD $0x0e0c3ccd // mov    w13, v6.s[1]
+    WORD $0x4e0a1de7 // mov    v7.h[2], w15
+    WORD $0x4e0e1dc3 // mov    v3.h[3], w14
+    WORD $0x1e2600ae // fmov    w14, s5
+    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
+    WORD $0x0ea12884 // xtn    v4.2s, v4.2d
+    WORD $0x0e0c3caf // mov    w15, v5.s[1]
+    WORD $0x4e0e1da7 // mov    v7.h[3], w13
+    WORD $0x4e121dc3 // mov    v3.h[4], w14
+    WORD $0x1e26002e // fmov    w14, s1
+    WORD $0x0ea12800 // xtn    v0.2s, v0.2d
+    WORD $0x0e0c3c2d // mov    w13, v1.s[1]
+    WORD $0x4e121dc7 // mov    v7.h[4], w14
+    WORD $0x4e161de3 // mov    v3.h[5], w15
+    WORD $0x1e26008f // fmov    w15, s4
+    WORD $0x4e161da7 // mov    v7.h[5], w13
+    WORD $0x4e1a1de3 // mov    v3.h[6], w15
+    WORD $0x1e26000f // fmov    w15, s0
+    WORD $0x0e0c3c8e // mov    w14, v4.s[1]
+    WORD $0x0e0c3c0d // mov    w13, v0.s[1]
+    WORD $0x4e1a1de7 // mov    v7.h[6], w15
+    WORD $0x4e1e1dc3 // mov    v3.h[7], w14
+    WORD $0x4e1e1da7 // mov    v7.h[7], w13
+    WORD $0x9102018c // add    x12, x12, #128
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xac811d63 // stp    q3, q7, [x11], #32
+    BNE LBB0_754
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_756:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_757:
+    WORD $0xfc408520 // ldr    d0, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e78000b // fcvtzs    w11, d0
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_757
+    JMP LBB0_893
+LBB0_758:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_759:
+    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
+    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
+    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
+    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
+    WORD $0x0e6128e4 // xtn    v4.4h, v7.4s
+    WORD $0x4e6128a4 // xtn2    v4.8h, v5.4s
+    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
+    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
+    WORD $0x0e612820 // xtn    v0.4h, v1.4s
+    WORD $0x4e612860 // xtn2    v0.8h, v3.4s
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xac810164 // stp    q4, q0, [x11], #32
+    BNE LBB0_759
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_761:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_762:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_762
+    JMP LBB0_893
+LBB0_763:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_764:
+    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
+    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
+    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
+    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
+    WORD $0x0e6128e4 // xtn    v4.4h, v7.4s
+    WORD $0x4e6128a4 // xtn2    v4.8h, v5.4s
+    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
+    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
+    WORD $0x0e612820 // xtn    v0.4h, v1.4s
+    WORD $0x4e612860 // xtn2    v0.8h, v3.4s
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xac810164 // stp    q4, q0, [x11], #32
+    BNE LBB0_764
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_766:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_767:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_767
+    JMP LBB0_893
+LBB0_768:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_769:
+    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
+    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
+    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
+    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
+    WORD $0x0e6128e4 // xtn    v4.4h, v7.4s
+    WORD $0x4e6128a4 // xtn2    v4.8h, v5.4s
+    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
+    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
+    WORD $0x0e612820 // xtn    v0.4h, v1.4s
+    WORD $0x4e612860 // xtn2    v0.8h, v3.4s
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xac810164 // stp    q4, q0, [x11], #32
+    BNE LBB0_769
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_771:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_772:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_772
+    JMP LBB0_893
+LBB0_773:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_774:
+    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
+    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
+    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
+    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
+    WORD $0x0e6128e4 // xtn    v4.4h, v7.4s
+    WORD $0x4e6128a4 // xtn2    v4.8h, v5.4s
+    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
+    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
+    WORD $0x0e612820 // xtn    v0.4h, v1.4s
+    WORD $0x4e612860 // xtn2    v0.8h, v3.4s
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xac810164 // stp    q4, q0, [x11], #32
+    BNE LBB0_774
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_776:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_777:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_777
+    JMP LBB0_893
+LBB0_778:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9101004a // add    x10, x2, #64
+    WORD $0x9100806b // add    x11, x3, #32
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_779:
+    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+    WORD $0xad401145 // ldp    q5, q4, [x10]
+    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+    WORD $0x6ea1b821 // fcvtzu    v1.4s, v1.4s
+    WORD $0x6ea1b863 // fcvtzu    v3.4s, v3.4s
+    WORD $0x6ea1b8a5 // fcvtzu    v5.4s, v5.4s
+    WORD $0x6ea1b8e7 // fcvtzu    v7.4s, v7.4s
+    WORD $0x6ea1b842 // fcvtzu    v2.4s, v2.4s
+    WORD $0x6ea1b800 // fcvtzu    v0.4s, v0.4s
+    WORD $0x6ea1b8c6 // fcvtzu    v6.4s, v6.4s
+    WORD $0x6ea1b884 // fcvtzu    v4.4s, v4.4s
+    WORD $0x0e612863 // xtn    v3.4h, v3.4s
+    WORD $0x0e612821 // xtn    v1.4h, v1.4s
+    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
+    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
+    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
+    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
+    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
+    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
+    WORD $0x9102014a // add    x10, x10, #128
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
+    WORD $0xac821d65 // stp    q5, q7, [x11], #64
+    BNE LBB0_779
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_781:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_782:
+    WORD $0xbc404520 // ldr    s0, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e38000b // fcvtzs    w11, s0
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_782
+    JMP LBB0_893
+LBB0_783:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9101004a // add    x10, x2, #64
+    WORD $0x9100806b // add    x11, x3, #32
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_784:
+    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+    WORD $0xad401145 // ldp    q5, q4, [x10]
+    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+    WORD $0x4ea1b821 // fcvtzs    v1.4s, v1.4s
+    WORD $0x4ea1b863 // fcvtzs    v3.4s, v3.4s
+    WORD $0x4ea1b8a5 // fcvtzs    v5.4s, v5.4s
+    WORD $0x4ea1b8e7 // fcvtzs    v7.4s, v7.4s
+    WORD $0x4ea1b842 // fcvtzs    v2.4s, v2.4s
+    WORD $0x4ea1b800 // fcvtzs    v0.4s, v0.4s
+    WORD $0x4ea1b8c6 // fcvtzs    v6.4s, v6.4s
+    WORD $0x4ea1b884 // fcvtzs    v4.4s, v4.4s
+    WORD $0x0e612863 // xtn    v3.4h, v3.4s
+    WORD $0x0e612821 // xtn    v1.4h, v1.4s
+    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
+    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
+    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
+    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
+    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
+    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
+    WORD $0x9102014a // add    x10, x10, #128
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
+    WORD $0xac821d65 // stp    q5, q7, [x11], #64
+    BNE LBB0_784
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_786:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_787:
+    WORD $0xbc404520 // ldr    s0, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e38000b // fcvtzs    w11, s0
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_787
+    JMP LBB0_893
+LBB0_788:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9101004a // add    x10, x2, #64
+    WORD $0x9100806b // add    x11, x3, #32
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_789:
+    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+    WORD $0xad401145 // ldp    q5, q4, [x10]
+    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+    WORD $0x0e612821 // xtn    v1.4h, v1.4s
+    WORD $0x0e612863 // xtn    v3.4h, v3.4s
+    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
+    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
+    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
+    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
+    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
+    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
+    WORD $0x9102014a // add    x10, x10, #128
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
+    WORD $0xac821d65 // stp    q5, q7, [x11], #64
+    BNE LBB0_789
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_791:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_792:
+    WORD $0xb840452b // ldr    w11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_792
+    JMP LBB0_893
+LBB0_793:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9101004a // add    x10, x2, #64
+    WORD $0x9100806b // add    x11, x3, #32
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_794:
+    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+    WORD $0xad401145 // ldp    q5, q4, [x10]
+    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+    WORD $0x0e612821 // xtn    v1.4h, v1.4s
+    WORD $0x0e612863 // xtn    v3.4h, v3.4s
+    WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
+    WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
+    WORD $0x4e612843 // xtn2    v3.8h, v2.4s
+    WORD $0x4e612801 // xtn2    v1.8h, v0.4s
+    WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
+    WORD $0x4e612885 // xtn2    v5.8h, v4.4s
+    WORD $0x9102014a // add    x10, x10, #128
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0xad3f0d61 // stp    q1, q3, [x11, #-32]
+    WORD $0xac821d65 // stp    q5, q7, [x11], #64
+    BNE LBB0_794
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_796:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09046a // add    x10, x3, x9, lsl #1
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_797:
+    WORD $0xb840452b // ldr    w11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7800254b // strh    w11, [x10], #2
+    BNE LBB0_797
+    JMP LBB0_893
+LBB0_798:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_799:
+    WORD $0xad400181 // ldp    q1, q0, [x12]
+    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+    WORD $0x9101018c // add    x12, x12, #64
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x2f20a424 // ushll    v4.2d, v1.2s, #0
+    WORD $0x2f20a405 // ushll    v5.2d, v0.2s, #0
+    WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
+    WORD $0x2f20a447 // ushll    v7.2d, v2.2s, #0
+    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
+    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
+    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
+    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
+    WORD $0xad030967 // stp    q7, q2, [x11, #96]
+    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
+    WORD $0xad010165 // stp    q5, q0, [x11, #32]
+    WORD $0xac840564 // stp    q4, q1, [x11], #128
+    BNE LBB0_799
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_801:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_802:
+    WORD $0xb840452b // ldr    w11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_802
+    JMP LBB0_893
+LBB0_803:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9101004a // add    x10, x2, #64
+    WORD $0x9101006b // add    x11, x3, #64
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_804:
+    WORD $0xad7f0540 // ldp    q0, q1, [x10, #-32]
+    WORD $0xad7e0d42 // ldp    q2, q3, [x10, #-64]
+    WORD $0xad411544 // ldp    q4, q5, [x10, #32]
+    WORD $0xacc41d46 // ldp    q6, q7, [x10], #128
+    WORD $0x6e21d821 // ucvtf    v1.4s, v1.4s
+    WORD $0x6e21d863 // ucvtf    v3.4s, v3.4s
+    WORD $0x6e21d842 // ucvtf    v2.4s, v2.4s
+    WORD $0x6e21d800 // ucvtf    v0.4s, v0.4s
+    WORD $0x6e21d8e7 // ucvtf    v7.4s, v7.4s
+    WORD $0x6e21d8c6 // ucvtf    v6.4s, v6.4s
+    WORD $0x6e21d8a5 // ucvtf    v5.4s, v5.4s
+    WORD $0x6e21d884 // ucvtf    v4.4s, v4.4s
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0xad3f0560 // stp    q0, q1, [x11, #-32]
+    WORD $0xad3e0d62 // stp    q2, q3, [x11, #-64]
+    WORD $0xad011564 // stp    q4, q5, [x11, #32]
+    WORD $0xac841d66 // stp    q6, q7, [x11], #128
+    BNE LBB0_804
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_806:
+    WORD $0xd37ef52a // lsl    x10, x9, #2
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_807:
+    WORD $0xbc404540 // ldr    s0, [x10], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x7e21d800 // ucvtf    s0, s0
+    WORD $0xbc004520 // str    s0, [x9], #4
+    BNE LBB0_807
+    JMP LBB0_893
+LBB0_808:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_809:
+    WORD $0xad430580 // ldp    q0, q1, [x12, #96]
+    WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
+    WORD $0xad401584 // ldp    q4, q5, [x12]
+    WORD $0xad411d86 // ldp    q6, q7, [x12, #32]
+    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
+    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
+    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
+    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
+    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
+    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
+    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
+    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
+    WORD $0x9102018c // add    x12, x12, #128
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xad030560 // stp    q0, q1, [x11, #96]
+    WORD $0xad020d62 // stp    q2, q3, [x11, #64]
+    WORD $0xad011d66 // stp    q6, q7, [x11, #32]
+    WORD $0xac841564 // stp    q4, q5, [x11], #128
+    BNE LBB0_809
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_811:
+    WORD $0xd37df12a // lsl    x10, x9, #3
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_812:
+    WORD $0xfc408540 // ldr    d0, [x10], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x9e78000b // fcvtzs    x11, d0
+    WORD $0xf800852b // str    x11, [x9], #8
+    BNE LBB0_812
+    JMP LBB0_893
+LBB0_813:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_814:
+    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
+    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
+    WORD $0x0e616821 // fcvtn    v1.2s, v1.2d
+    WORD $0x0e616863 // fcvtn    v3.2s, v3.2d
+    WORD $0x0e6168a5 // fcvtn    v5.2s, v5.2d
+    WORD $0x0e6168e7 // fcvtn    v7.2s, v7.2d
+    WORD $0x4e616885 // fcvtn2    v5.4s, v4.2d
+    WORD $0x4e6168c7 // fcvtn2    v7.4s, v6.2d
+    WORD $0x4e616843 // fcvtn2    v3.4s, v2.2d
+    WORD $0x4e616801 // fcvtn2    v1.4s, v0.2d
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
+    WORD $0xac821567 // stp    q7, q5, [x11], #64
+    BNE LBB0_814
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_816:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_817:
+    WORD $0xfc408520 // ldr    d0, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e624000 // fcvt    s0, d0
+    WORD $0xbc004540 // str    s0, [x10], #4
+    BNE LBB0_817
+    JMP LBB0_893
+LBB0_818:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_819:
+    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
+    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
+    WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
+    WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
+    WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
+    WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
+    WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
+    WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
+    WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
+    WORD $0x6e61d800 // ucvtf    v0.2d, v0.2d
+    WORD $0x0e6168a5 // fcvtn    v5.2s, v5.2d
+    WORD $0x0e6168e7 // fcvtn    v7.2s, v7.2d
+    WORD $0x0e616863 // fcvtn    v3.2s, v3.2d
+    WORD $0x0e616821 // fcvtn    v1.2s, v1.2d
+    WORD $0x4e616885 // fcvtn2    v5.4s, v4.2d
+    WORD $0x4e6168c7 // fcvtn2    v7.4s, v6.2d
+    WORD $0x4e616843 // fcvtn2    v3.4s, v2.2d
+    WORD $0x4e616801 // fcvtn2    v1.4s, v0.2d
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
+    WORD $0xac821567 // stp    q7, q5, [x11], #64
+    BNE LBB0_819
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_821:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_822:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x9e230160 // ucvtf    s0, x11
+    WORD $0xbc004540 // str    s0, [x10], #4
+    BNE LBB0_822
+    JMP LBB0_893
+LBB0_823:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_824:
+    WORD $0xacc10580 // ldp    q0, q1, [x12], #32
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x2f10a402 // ushll    v2.4s, v0.4h, #0
+    WORD $0x2f10a423 // ushll    v3.4s, v1.4h, #0
+    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
+    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
+    WORD $0x2f20a444 // ushll    v4.2d, v2.2s, #0
+    WORD $0x2f20a465 // ushll    v5.2d, v3.2s, #0
+    WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
+    WORD $0x2f20a406 // ushll    v6.2d, v0.2s, #0
+    WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
+    WORD $0x2f20a427 // ushll    v7.2d, v1.2s, #0
+    WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
+    WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
+    WORD $0xad030567 // stp    q7, q1, [x11, #96]
+    WORD $0xad010166 // stp    q6, q0, [x11, #32]
+    WORD $0xad020d65 // stp    q5, q3, [x11, #64]
+    WORD $0xac840964 // stp    q4, q2, [x11], #128
+    BNE LBB0_824
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_826:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_827:
+    WORD $0x7840252b // ldrh    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_827
+    JMP LBB0_893
+LBB0_828:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9100804a // add    x10, x2, #32
+    WORD $0x9101006b // add    x11, x3, #64
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_829:
+    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0x2f10a424 // ushll    v4.4s, v1.4h, #0
+    WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
+    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
+    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
+    WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
+    WORD $0x2f10a447 // ushll    v7.4s, v2.4h, #0
+    WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
+    WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
+    WORD $0x6e21d884 // ucvtf    v4.4s, v4.4s
+    WORD $0x6e21d8a5 // ucvtf    v5.4s, v5.4s
+    WORD $0x6e21d821 // ucvtf    v1.4s, v1.4s
+    WORD $0x6e21d800 // ucvtf    v0.4s, v0.4s
+    WORD $0x6e21d8c6 // ucvtf    v6.4s, v6.4s
+    WORD $0x6e21d8e7 // ucvtf    v7.4s, v7.4s
+    WORD $0x6e21d863 // ucvtf    v3.4s, v3.4s
+    WORD $0x6e21d842 // ucvtf    v2.4s, v2.4s
+    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
+    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
+    WORD $0xad010967 // stp    q7, q2, [x11, #32]
+    WORD $0xac840d66 // stp    q6, q3, [x11], #128
+    BNE LBB0_829
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_831:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_832:
+    WORD $0x7840252b // ldrh    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e230160 // ucvtf    s0, w11
+    WORD $0xbc004540 // str    s0, [x10], #4
+    BNE LBB0_832
+    JMP LBB0_893
+LBB0_833:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_834:
+    WORD $0xacc10580 // ldp    q0, q1, [x12], #32
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x0f10a402 // sshll    v2.4s, v0.4h, #0
+    WORD $0x0f10a423 // sshll    v3.4s, v1.4h, #0
+    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
+    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
+    WORD $0x0f20a444 // sshll    v4.2d, v2.2s, #0
+    WORD $0x0f20a465 // sshll    v5.2d, v3.2s, #0
+    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
+    WORD $0x0f20a406 // sshll    v6.2d, v0.2s, #0
+    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
+    WORD $0x0f20a427 // sshll    v7.2d, v1.2s, #0
+    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
+    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
+    WORD $0xad030567 // stp    q7, q1, [x11, #96]
+    WORD $0xad010166 // stp    q6, q0, [x11, #32]
+    WORD $0xad020d65 // stp    q5, q3, [x11, #64]
+    WORD $0xac840964 // stp    q4, q2, [x11], #128
+    BNE LBB0_834
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_836:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_837:
+    WORD $0x7880252b // ldrsh    x11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_837
+    JMP LBB0_893
+LBB0_838:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9100804a // add    x10, x2, #32
+    WORD $0x9101006b // add    x11, x3, #64
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_839:
+    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0x0f10a424 // sshll    v4.4s, v1.4h, #0
+    WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
+    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
+    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
+    WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
+    WORD $0x0f10a447 // sshll    v7.4s, v2.4h, #0
+    WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
+    WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
+    WORD $0x4e21d884 // scvtf    v4.4s, v4.4s
+    WORD $0x4e21d8a5 // scvtf    v5.4s, v5.4s
+    WORD $0x4e21d821 // scvtf    v1.4s, v1.4s
+    WORD $0x4e21d800 // scvtf    v0.4s, v0.4s
+    WORD $0x4e21d8c6 // scvtf    v6.4s, v6.4s
+    WORD $0x4e21d8e7 // scvtf    v7.4s, v7.4s
+    WORD $0x4e21d863 // scvtf    v3.4s, v3.4s
+    WORD $0x4e21d842 // scvtf    v2.4s, v2.4s
+    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
+    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
+    WORD $0xad010967 // stp    q7, q2, [x11, #32]
+    WORD $0xac840d66 // stp    q6, q3, [x11], #128
+    BNE LBB0_839
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_841:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_842:
+    WORD $0x78c0252b // ldrsh    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e220160 // scvtf    s0, w11
+    WORD $0xbc004540 // str    s0, [x10], #4
+    BNE LBB0_842
+    JMP LBB0_893
+LBB0_843:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_844:
+    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
+    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
+    WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
+    WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
+    WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
+    WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
+    WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
+    WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
+    WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
+    WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
+    WORD $0x0e6168a5 // fcvtn    v5.2s, v5.2d
+    WORD $0x0e6168e7 // fcvtn    v7.2s, v7.2d
+    WORD $0x0e616863 // fcvtn    v3.2s, v3.2d
+    WORD $0x0e616821 // fcvtn    v1.2s, v1.2d
+    WORD $0x4e616885 // fcvtn2    v5.4s, v4.2d
+    WORD $0x4e6168c7 // fcvtn2    v7.4s, v6.2d
+    WORD $0x4e616843 // fcvtn2    v3.4s, v2.2d
+    WORD $0x4e616801 // fcvtn2    v1.4s, v0.2d
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
+    WORD $0xac821567 // stp    q7, q5, [x11], #64
+    BNE LBB0_844
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_846:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_847:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x9e220160 // scvtf    s0, x11
+    WORD $0xbc004540 // str    s0, [x10], #4
+    BNE LBB0_847
+    JMP LBB0_893
+LBB0_848:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_849:
+    WORD $0xad400181 // ldp    q1, q0, [x12]
+    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+    WORD $0x9101018c // add    x12, x12, #64
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x0e617824 // fcvtl    v4.2d, v1.2s
+    WORD $0x0e617805 // fcvtl    v5.2d, v0.2s
+    WORD $0x0e617866 // fcvtl    v6.2d, v3.2s
+    WORD $0x0e617847 // fcvtl    v7.2d, v2.2s
+    WORD $0x4e617821 // fcvtl2    v1.2d, v1.4s
+    WORD $0x4e617800 // fcvtl2    v0.2d, v0.4s
+    WORD $0x4e617863 // fcvtl2    v3.2d, v3.4s
+    WORD $0x4e617842 // fcvtl2    v2.2d, v2.4s
+    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
+    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
+    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
+    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
+    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
+    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
+    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
+    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
+    WORD $0xad030967 // stp    q7, q2, [x11, #96]
+    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
+    WORD $0xad010165 // stp    q5, q0, [x11, #32]
+    WORD $0xac840564 // stp    q4, q1, [x11], #128
+    BNE LBB0_849
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_851:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_852:
+    WORD $0xbc404520 // ldr    s0, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x9e38000b // fcvtzs    x11, s0
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_852
+    JMP LBB0_893
+LBB0_853:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_854:
+    WORD $0xad400181 // ldp    q1, q0, [x12]
+    WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+    WORD $0x9101018c // add    x12, x12, #64
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0x0f20a424 // sshll    v4.2d, v1.2s, #0
+    WORD $0x0f20a405 // sshll    v5.2d, v0.2s, #0
+    WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
+    WORD $0x0f20a447 // sshll    v7.2d, v2.2s, #0
+    WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
+    WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
+    WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
+    WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
+    WORD $0xad030967 // stp    q7, q2, [x11, #96]
+    WORD $0xad020d66 // stp    q6, q3, [x11, #64]
+    WORD $0xad010165 // stp    q5, q0, [x11, #32]
+    WORD $0xac840564 // stp    q4, q1, [x11], #128
+    BNE LBB0_854
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_856:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b090c6a // add    x10, x3, x9, lsl #3
+    WORD $0x8b090849 // add    x9, x2, x9, lsl #2
+LBB0_857:
+    WORD $0xb880452b // ldrsw    x11, [x9], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xf800854b // str    x11, [x10], #8
+    BNE LBB0_857
+    JMP LBB0_893
+LBB0_858:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9101004a // add    x10, x2, #64
+    WORD $0x9101006b // add    x11, x3, #64
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_859:
+    WORD $0xad7f0540 // ldp    q0, q1, [x10, #-32]
+    WORD $0xad7e0d42 // ldp    q2, q3, [x10, #-64]
+    WORD $0xad411544 // ldp    q4, q5, [x10, #32]
+    WORD $0xacc41d46 // ldp    q6, q7, [x10], #128
+    WORD $0x4e21d821 // scvtf    v1.4s, v1.4s
+    WORD $0x4e21d863 // scvtf    v3.4s, v3.4s
+    WORD $0x4e21d842 // scvtf    v2.4s, v2.4s
+    WORD $0x4e21d800 // scvtf    v0.4s, v0.4s
+    WORD $0x4e21d8e7 // scvtf    v7.4s, v7.4s
+    WORD $0x4e21d8c6 // scvtf    v6.4s, v6.4s
+    WORD $0x4e21d8a5 // scvtf    v5.4s, v5.4s
+    WORD $0x4e21d884 // scvtf    v4.4s, v4.4s
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0xad3f0560 // stp    q0, q1, [x11, #-32]
+    WORD $0xad3e0d62 // stp    q2, q3, [x11, #-64]
+    WORD $0xad011564 // stp    q4, q5, [x11, #32]
+    WORD $0xac841d66 // stp    q6, q7, [x11], #128
+    BNE LBB0_859
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_861:
+    WORD $0xd37ef52a // lsl    x10, x9, #2
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_862:
+    WORD $0xbc404540 // ldr    s0, [x10], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x5e21d800 // scvtf    s0, s0
+    WORD $0xbc004520 // str    s0, [x9], #4
+    BNE LBB0_862
+    JMP LBB0_893
+LBB0_863:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_864:
+    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
+    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
+    WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
+    WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
+    WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
+    WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
+    WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
+    WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
+    WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
+    WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
+    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
+    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
+    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
+    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
+    WORD $0xac821567 // stp    q7, q5, [x11], #64
+    BNE LBB0_864
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_866:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_867:
+    WORD $0xfc408520 // ldr    d0, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e78000b // fcvtzs    w11, d0
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_867
+    JMP LBB0_893
+LBB0_868:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_869:
+    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
+    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
+    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
+    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
+    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
+    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
+    WORD $0xac821567 // stp    q7, q5, [x11], #64
+    BNE LBB0_869
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_871:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_872:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_872
+    JMP LBB0_893
+LBB0_873:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9100804a // add    x10, x2, #32
+    WORD $0x9101006b // add    x11, x3, #64
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_874:
+    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0x2f10a424 // ushll    v4.4s, v1.4h, #0
+    WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
+    WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
+    WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
+    WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
+    WORD $0x2f10a447 // ushll    v7.4s, v2.4h, #0
+    WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
+    WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
+    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
+    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
+    WORD $0xad010967 // stp    q7, q2, [x11, #32]
+    WORD $0xac840d66 // stp    q6, q3, [x11], #128
+    BNE LBB0_874
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_876:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_877:
+    WORD $0x7840252b // ldrh    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_877
+    JMP LBB0_893
+LBB0_878:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9100804a // add    x10, x2, #32
+    WORD $0x9101006b // add    x11, x3, #64
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_879:
+    WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+    WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0x0f10a424 // sshll    v4.4s, v1.4h, #0
+    WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
+    WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
+    WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
+    WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
+    WORD $0x0f10a447 // sshll    v7.4s, v2.4h, #0
+    WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
+    WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
+    WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
+    WORD $0xad3e0564 // stp    q4, q1, [x11, #-64]
+    WORD $0xad010967 // stp    q7, q2, [x11, #32]
+    WORD $0xac840d66 // stp    q6, q3, [x11], #128
+    BNE LBB0_879
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_881:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090449 // add    x9, x2, x9, lsl #1
+LBB0_882:
+    WORD $0x78c0252b // ldrsh    w11, [x9], #2
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_882
+    JMP LBB0_893
+LBB0_883:
+    WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+    WORD $0xaa0903ea // mov    x10, x9
+    WORD $0xaa0303eb // mov    x11, x3
+    WORD $0xaa0203ec // mov    x12, x2
+LBB0_884:
+    WORD $0xad420181 // ldp    q1, q0, [x12, #64]
+    WORD $0xad430983 // ldp    q3, q2, [x12, #96]
+    WORD $0xad411185 // ldp    q5, q4, [x12, #32]
+    WORD $0xacc41987 // ldp    q7, q6, [x12], #128
+    WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+    WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+    WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+    WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+    WORD $0x4ea12885 // xtn2    v5.4s, v4.2d
+    WORD $0x4ea128c7 // xtn2    v7.4s, v6.2d
+    WORD $0x4ea12843 // xtn2    v3.4s, v2.2d
+    WORD $0x4ea12801 // xtn2    v1.4s, v0.2d
+    WORD $0xf100414a // subs    x10, x10, #16
+    WORD $0xad010d61 // stp    q1, q3, [x11, #32]
+    WORD $0xac821567 // stp    q7, q5, [x11], #64
+    BNE LBB0_884
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_886:
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b09086a // add    x10, x3, x9, lsl #2
+    WORD $0x8b090c49 // add    x9, x2, x9, lsl #3
+LBB0_887:
+    WORD $0xf840852b // ldr    x11, [x9], #8
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0xb800454b // str    w11, [x10], #4
+    BNE LBB0_887
+    JMP LBB0_893
+LBB0_888:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9101004a // add    x10, x2, #64
+    WORD $0x9101006b // add    x11, x3, #64
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_889:
+    WORD $0xad7f0540 // ldp    q0, q1, [x10, #-32]
+    WORD $0xad7e0d42 // ldp    q2, q3, [x10, #-64]
+    WORD $0xad411544 // ldp    q4, q5, [x10, #32]
+    WORD $0xacc41d46 // ldp    q6, q7, [x10], #128
+    WORD $0x4ea1b821 // fcvtzs    v1.4s, v1.4s
+    WORD $0x4ea1b863 // fcvtzs    v3.4s, v3.4s
+    WORD $0x4ea1b842 // fcvtzs    v2.4s, v2.4s
+    WORD $0x4ea1b800 // fcvtzs    v0.4s, v0.4s
+    WORD $0x4ea1b8e7 // fcvtzs    v7.4s, v7.4s
+    WORD $0x4ea1b8c6 // fcvtzs    v6.4s, v6.4s
+    WORD $0x4ea1b8a5 // fcvtzs    v5.4s, v5.4s
+    WORD $0x4ea1b884 // fcvtzs    v4.4s, v4.4s
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0xad3f0560 // stp    q0, q1, [x11, #-32]
+    WORD $0xad3e0d62 // stp    q2, q3, [x11, #-64]
+    WORD $0xad011564 // stp    q4, q5, [x11, #32]
+    WORD $0xac841d66 // stp    q6, q7, [x11], #128
+    BNE LBB0_889
+
+    WORD $0xeb08013f // cmp    x9, x8
+    BEQ LBB0_893
+LBB0_891:
+    WORD $0xd37ef52a // lsl    x10, x9, #2
+    WORD $0xcb090108 // sub    x8, x8, x9
+    WORD $0x8b0a0069 // add    x9, x3, x10
+    WORD $0x8b0a004a // add    x10, x2, x10
+LBB0_892:
+    WORD $0xbc404540 // ldr    s0, [x10], #4
+    WORD $0xf1000508 // subs    x8, x8, #1
+    WORD $0x1e38000b // fcvtzs    w11, s0
+    WORD $0xb800452b // str    w11, [x9], #4
+    BNE LBB0_892
+LBB0_893:
+    WORD $0xa8c17bfd // ldp    x29, x30, [sp], #16
+    RET
+LBB0_894:
+    WORD $0x927b6909 // and x9, x8, #0xffffffe0
+	WORD $0x9101004a // add x10, x2, #64
+	WORD $0x9101006b // add x11, x3, #64
+	WORD $0xaa0903ec // mov x12, x9
+LBB0_895:
+	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+	WORD $0xad401145 // ldp    q5, q4, [x10]
+	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+	WORD $0x9102014a // add    x10, x10, #128
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
+	WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
+	WORD $0xad011967 // stp    q7, q6, [x11, #32]
+	WORD $0xac841165 // stp    q5, q4, [x11], #128
+	BNE LBB0_895
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_15
+LBB0_897:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100404a // add    x10, x2, #16
+	WORD $0x9101006b // add    x11, x3, #64
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_898:
+	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
+	WORD $0x9100814a // add    x10, x10, #32
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x0f08a402 // sshll    v2.8h, v0.8b, #0
+	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
+	WORD $0x0f08a423 // sshll    v3.8h, v1.8b, #0
+	WORD $0x4f08a421 // sshll2    v1.8h, v1.16b, #0
+	WORD $0x0f10a444 // sshll    v4.4s, v2.4h, #0
+	WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
+	WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
+	WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
+	WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
+	WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
+	WORD $0x0f10a427 // sshll    v7.4s, v1.4h, #0
+	WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
+	WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
+	WORD $0xad3e0964 // stp    q4, q2, [x11, #-64]
+	WORD $0xad010567 // stp    q7, q1, [x11, #32]
+	WORD $0xac840d66 // stp    q6, q3, [x11], #128
+	BNE LBB0_898
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_41
+LBB0_900:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100404a // add    x10, x2, #16
+	WORD $0x9101006b // add    x11, x3, #64
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_901:
+	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
+	WORD $0x9100814a // add    x10, x10, #32
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x2f08a402 // ushll    v2.8h, v0.8b, #0
+	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
+	WORD $0x2f08a423 // ushll    v3.8h, v1.8b, #0
+	WORD $0x6f08a421 // ushll2    v1.8h, v1.16b, #0
+	WORD $0x2f10a444 // ushll    v4.4s, v2.4h, #0
+	WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
+	WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
+	WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
+	WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
+	WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
+	WORD $0x2f10a427 // ushll    v7.4s, v1.4h, #0
+	WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
+	WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
+	WORD $0xad3e0964 // stp    q4, q2, [x11, #-64]
+	WORD $0xad010567 // stp    q7, q1, [x11, #32]
+	WORD $0xac840d66 // stp    q6, q3, [x11], #128
+	BNE LBB0_901
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_95
+LBB0_903:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9101004a // add    x10, x2, #64
+	WORD $0x9101006b // add    x11, x3, #64
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_904:
+	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+	WORD $0xad401145 // ldp    q5, q4, [x10]
+	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+	WORD $0x9102014a // add    x10, x10, #128
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
+	WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
+	WORD $0xad011967 // stp    q7, q6, [x11, #32]
+	WORD $0xac841165 // stp    q5, q4, [x11], #128
+	BNE LBB0_904
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_107
+LBB0_906:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_907:
+	WORD $0xad400181 // ldp    q1, q0, [x12]
+	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
+	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
+	WORD $0x9102018c // add    x12, x12, #128
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0xad031165 // stp    q5, q4, [x11, #96]
+	WORD $0xad021967 // stp    q7, q6, [x11, #64]
+	WORD $0xad010963 // stp    q3, q2, [x11, #32]
+	WORD $0xac840161 // stp    q1, q0, [x11], #128
+	BNE LBB0_907
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_125
+LBB0_909:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_910:
+	WORD $0x3cc10581 // ldr    q1, [x12], #16
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0x6e014020 // ext    v0.16b, v1.16b, v1.16b, #8
+	WORD $0x0e013c2d // umov    w13, v1.b[0]
+	WORD $0x0e053c2f // umov    w15, v1.b[2]
+	WORD $0x0e093c31 // umov    w17, v1.b[4]
+	WORD $0x1e2701a2 // fmov    s2, w13
+	WORD $0x0e0b3c2d // umov    w13, v1.b[5]
+	WORD $0x1e2701e3 // fmov    s3, w15
+	WORD $0x0e0d3c2f // umov    w15, v1.b[6]
+	WORD $0x1e270224 // fmov    s4, w17
+	WORD $0x0e013c11 // umov    w17, v0.b[0]
+	WORD $0x1e2701e5 // fmov    s5, w15
+	WORD $0x0e053c0f // umov    w15, v0.b[2]
+	WORD $0x1e270226 // fmov    s6, w17
+	WORD $0x4e0c1da4 // mov    v4.s[1], w13
+	WORD $0x0e033c0d // umov    w13, v0.b[1]
+	WORD $0x0e093c11 // umov    w17, v0.b[4]
+	WORD $0x1e2701e7 // fmov    s7, w15
+	WORD $0x4e0c1da6 // mov    v6.s[1], w13
+	WORD $0x0e073c0d // umov    w13, v0.b[3]
+	WORD $0x0e0d3c0f // umov    w15, v0.b[6]
+	WORD $0x1e270230 // fmov    s16, w17
+	WORD $0x4e0c1da7 // mov    v7.s[1], w13
+	WORD $0x0e0b3c0d // umov    w13, v0.b[5]
+	WORD $0x0e033c2e // umov    w14, v1.b[1]
+	WORD $0x0e073c30 // umov    w16, v1.b[3]
+	WORD $0x0e0f3c31 // umov    w17, v1.b[7]
+	WORD $0x1e2701e1 // fmov    s1, w15
+	WORD $0x4e0c1db0 // mov    v16.s[1], w13
+	WORD $0x0e0f3c0d // umov    w13, v0.b[7]
+	WORD $0x4e0c1dc2 // mov    v2.s[1], w14
+	WORD $0x4e0c1e03 // mov    v3.s[1], w16
+	WORD $0x4e0c1e25 // mov    v5.s[1], w17
+	WORD $0x4e0c1da1 // mov    v1.s[1], w13
+	WORD $0x0f385440 // shl    v0.2s, v2.2s, #24
+	WORD $0x0f385462 // shl    v2.2s, v3.2s, #24
+	WORD $0x0f385483 // shl    v3.2s, v4.2s, #24
+	WORD $0x0f3854a4 // shl    v4.2s, v5.2s, #24
+	WORD $0x0f3854c5 // shl    v5.2s, v6.2s, #24
+	WORD $0x0f3854e6 // shl    v6.2s, v7.2s, #24
+	WORD $0x0f385607 // shl    v7.2s, v16.2s, #24
+	WORD $0x0f385421 // shl    v1.2s, v1.2s, #24
+	WORD $0x0f280400 // sshr    v0.2s, v0.2s, #24
+	WORD $0x0f280442 // sshr    v2.2s, v2.2s, #24
+	WORD $0x0f280463 // sshr    v3.2s, v3.2s, #24
+	WORD $0x0f280484 // sshr    v4.2s, v4.2s, #24
+	WORD $0x0f2804a5 // sshr    v5.2s, v5.2s, #24
+	WORD $0x0f2804c6 // sshr    v6.2s, v6.2s, #24
+	WORD $0x0f2804e7 // sshr    v7.2s, v7.2s, #24
+	WORD $0x0f280421 // sshr    v1.2s, v1.2s, #24
+	WORD $0x0f20a400 // sshll    v0.2d, v0.2s, #0
+	WORD $0x0f20a442 // sshll    v2.2d, v2.2s, #0
+	WORD $0x0f20a463 // sshll    v3.2d, v3.2s, #0
+	WORD $0x0f20a484 // sshll    v4.2d, v4.2s, #0
+	WORD $0x0f20a4a5 // sshll    v5.2d, v5.2s, #0
+	WORD $0x0f20a4c6 // sshll    v6.2d, v6.2s, #0
+	WORD $0x0f20a4e7 // sshll    v7.2d, v7.2s, #0
+	WORD $0x0f20a421 // sshll    v1.2d, v1.2s, #0
+	WORD $0x4e61d800 // scvtf    v0.2d, v0.2d
+	WORD $0x4e61d842 // scvtf    v2.2d, v2.2d
+	WORD $0x4e61d863 // scvtf    v3.2d, v3.2d
+	WORD $0x4e61d884 // scvtf    v4.2d, v4.2d
+	WORD $0x4e61d8a5 // scvtf    v5.2d, v5.2d
+	WORD $0x4e61d8c6 // scvtf    v6.2d, v6.2d
+	WORD $0x4e61d8e7 // scvtf    v7.2d, v7.2d
+	WORD $0x4e61d821 // scvtf    v1.2d, v1.2d
+	WORD $0xad011163 // stp    q3, q4, [x11, #32]
+	WORD $0xad000960 // stp    q0, q2, [x11]
+	WORD $0xad030567 // stp    q7, q1, [x11, #96]
+	WORD $0xad021965 // stp    q5, q6, [x11, #64]
+	WORD $0x9102016b // add    x11, x11, #128
+	BNE LBB0_910
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_136
+LBB0_912:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0x2f00e620 // movi    d0, #0x0000ff000000ff
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_913:
+	WORD $0x3cc10582 // ldr    q2, [x12], #16
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0x6e024041 // ext    v1.16b, v2.16b, v2.16b, #8
+	WORD $0x0e013c4d // umov    w13, v2.b[0]
+	WORD $0x0e053c4f // umov    w15, v2.b[2]
+	WORD $0x0e093c51 // umov    w17, v2.b[4]
+	WORD $0x1e2701a3 // fmov    s3, w13
+	WORD $0x0e0b3c4d // umov    w13, v2.b[5]
+	WORD $0x1e2701e4 // fmov    s4, w15
+	WORD $0x0e0d3c4f // umov    w15, v2.b[6]
+	WORD $0x1e270225 // fmov    s5, w17
+	WORD $0x0e013c31 // umov    w17, v1.b[0]
+	WORD $0x1e2701e6 // fmov    s6, w15
+	WORD $0x0e053c2f // umov    w15, v1.b[2]
+	WORD $0x1e270227 // fmov    s7, w17
+	WORD $0x4e0c1da5 // mov    v5.s[1], w13
+	WORD $0x0e033c2d // umov    w13, v1.b[1]
+	WORD $0x0e093c31 // umov    w17, v1.b[4]
+	WORD $0x1e2701f0 // fmov    s16, w15
+	WORD $0x4e0c1da7 // mov    v7.s[1], w13
+	WORD $0x0e073c2d // umov    w13, v1.b[3]
+	WORD $0x0e0d3c2f // umov    w15, v1.b[6]
+	WORD $0x1e270231 // fmov    s17, w17
+	WORD $0x4e0c1db0 // mov    v16.s[1], w13
+	WORD $0x0e0b3c2d // umov    w13, v1.b[5]
+	WORD $0x0e033c4e // umov    w14, v2.b[1]
+	WORD $0x0e073c50 // umov    w16, v2.b[3]
+	WORD $0x0e0f3c51 // umov    w17, v2.b[7]
+	WORD $0x1e2701e2 // fmov    s2, w15
+	WORD $0x4e0c1db1 // mov    v17.s[1], w13
+	WORD $0x0e0f3c2d // umov    w13, v1.b[7]
+	WORD $0x4e0c1dc3 // mov    v3.s[1], w14
+	WORD $0x4e0c1e04 // mov    v4.s[1], w16
+	WORD $0x4e0c1e26 // mov    v6.s[1], w17
+	WORD $0x4e0c1da2 // mov    v2.s[1], w13
+	WORD $0x0e201c61 // and    v1.8b, v3.8b, v0.8b
+	WORD $0x0e201c83 // and    v3.8b, v4.8b, v0.8b
+	WORD $0x0e201ca4 // and    v4.8b, v5.8b, v0.8b
+	WORD $0x0e201cc5 // and    v5.8b, v6.8b, v0.8b
+	WORD $0x0e201ce6 // and    v6.8b, v7.8b, v0.8b
+	WORD $0x0e201e07 // and    v7.8b, v16.8b, v0.8b
+	WORD $0x0e201e30 // and    v16.8b, v17.8b, v0.8b
+	WORD $0x0e201c42 // and    v2.8b, v2.8b, v0.8b
+	WORD $0x2f20a421 // ushll    v1.2d, v1.2s, #0
+	WORD $0x2f20a463 // ushll    v3.2d, v3.2s, #0
+	WORD $0x2f20a484 // ushll    v4.2d, v4.2s, #0
+	WORD $0x2f20a4a5 // ushll    v5.2d, v5.2s, #0
+	WORD $0x2f20a4c6 // ushll    v6.2d, v6.2s, #0
+	WORD $0x2f20a4e7 // ushll    v7.2d, v7.2s, #0
+	WORD $0x2f20a610 // ushll    v16.2d, v16.2s, #0
+	WORD $0x2f20a442 // ushll    v2.2d, v2.2s, #0
+	WORD $0x6e61d821 // ucvtf    v1.2d, v1.2d
+	WORD $0x6e61d863 // ucvtf    v3.2d, v3.2d
+	WORD $0x6e61d884 // ucvtf    v4.2d, v4.2d
+	WORD $0x6e61d8a5 // ucvtf    v5.2d, v5.2d
+	WORD $0x6e61d8c6 // ucvtf    v6.2d, v6.2d
+	WORD $0x6e61d8e7 // ucvtf    v7.2d, v7.2d
+	WORD $0x6e61da10 // ucvtf    v16.2d, v16.2d
+	WORD $0x6e61d842 // ucvtf    v2.2d, v2.2d
+	WORD $0xad011564 // stp    q4, q5, [x11, #32]
+	WORD $0xad000d61 // stp    q1, q3, [x11]
+	WORD $0xad030970 // stp    q16, q2, [x11, #96]
+	WORD $0xad021d66 // stp    q6, q7, [x11, #64]
+	WORD $0x9102016b // add    x11, x11, #128
+	BNE LBB0_913
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_182
+LBB0_915:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9101004a // add    x10, x2, #64
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_916:
+	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+	WORD $0xad401145 // ldp    q5, q4, [x10]
+	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+	WORD $0x0e612821 // xtn    v1.4h, v1.4s
+	WORD $0x0e612863 // xtn    v3.4h, v3.4s
+	WORD $0x4e612843 // xtn2    v3.8h, v2.4s
+	WORD $0x4e612801 // xtn2    v1.8h, v0.4s
+	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
+	WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
+	WORD $0x0e212820 // xtn    v0.8b, v1.8h
+	WORD $0x4e212860 // xtn2    v0.16b, v3.8h
+	WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
+	WORD $0x4e612885 // xtn2    v5.8h, v4.4s
+	WORD $0x0e2128a1 // xtn    v1.8b, v5.8h
+	WORD $0x4e2128e1 // xtn2    v1.16b, v7.8h
+	WORD $0x9102014a // add    x10, x10, #128
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_916
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_198
+LBB0_918:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_919:
+	WORD $0xad401d84 // ldp    q4, q7, [x12]
+	WORD $0xad430580 // ldp    q0, q1, [x12, #96]
+	WORD $0xad411985 // ldp    q5, q6, [x12, #32]
+	WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
+	WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
+	WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
+	WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
+	WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
+	WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
+	WORD $0x0e471884 // uzp1    v4.4h, v4.4h, v7.4h
+	WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+	WORD $0x0ea12800 // xtn    v0.2s, v0.2d
+	WORD $0x0e023c8d // umov    w13, v4.h[0]
+	WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
+	WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
+	WORD $0x0e411800 // uzp1    v0.4h, v0.4h, v1.4h
+	WORD $0x0e063c8e // umov    w14, v4.h[1]
+	WORD $0x1e2701a1 // fmov    s1, w13
+	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
+	WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+	WORD $0x0e0a3c8d // umov    w13, v4.h[2]
+	WORD $0x4e031dc1 // mov    v1.b[1], w14
+	WORD $0x0e4618a5 // uzp1    v5.4h, v5.4h, v6.4h
+	WORD $0x0e0e3c8e // umov    w14, v4.h[3]
+	WORD $0x4e051da1 // mov    v1.b[2], w13
+	WORD $0x0e023cad // umov    w13, v5.h[0]
+	WORD $0x4e071dc1 // mov    v1.b[3], w14
+	WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
+	WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
+	WORD $0x0e063cae // umov    w14, v5.h[1]
+	WORD $0x4e091da1 // mov    v1.b[4], w13
+	WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+	WORD $0x0ea12842 // xtn    v2.2s, v2.2d
+	WORD $0x0e0a3cad // umov    w13, v5.h[2]
+	WORD $0x4e0b1dc1 // mov    v1.b[5], w14
+	WORD $0x0e431842 // uzp1    v2.4h, v2.4h, v3.4h
+	WORD $0x0e0e3cae // umov    w14, v5.h[3]
+	WORD $0x4e0d1da1 // mov    v1.b[6], w13
+	WORD $0x0e023c4d // umov    w13, v2.h[0]
+	WORD $0x4e0f1dc1 // mov    v1.b[7], w14
+	WORD $0x0e063c4e // umov    w14, v2.h[1]
+	WORD $0x4e111da1 // mov    v1.b[8], w13
+	WORD $0x0e0a3c4d // umov    w13, v2.h[2]
+	WORD $0x4e131dc1 // mov    v1.b[9], w14
+	WORD $0x0e0e3c4e // umov    w14, v2.h[3]
+	WORD $0x4e151da1 // mov    v1.b[10], w13
+	WORD $0x0e023c0d // umov    w13, v0.h[0]
+	WORD $0x4e171dc1 // mov    v1.b[11], w14
+	WORD $0x0e063c0e // umov    w14, v0.h[1]
+	WORD $0x4e191da1 // mov    v1.b[12], w13
+	WORD $0x0e0a3c0d // umov    w13, v0.h[2]
+	WORD $0x4e1b1dc1 // mov    v1.b[13], w14
+	WORD $0x0e0e3c0e // umov    w14, v0.h[3]
+	WORD $0x4e1d1da1 // mov    v1.b[14], w13
+	WORD $0x4e1f1dc1 // mov    v1.b[15], w14
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0x3c810561 // str    q1, [x11], #16
+	WORD $0x9102018c // add    x12, x12, #128
+	BNE LBB0_919
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_207
+LBB0_921:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100404a // add    x10, x2, #16
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_922:
+	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
+	WORD $0x9100814a // add    x10, x10, #32
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_922
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_216
+LBB0_924:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9102004a // add    x10, x2, #128
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_925:
+	WORD $0xad7e1551 // ldp    q17, q5, [x10, #-64]
+	WORD $0xad7f1d54 // ldp    q20, q7, [x10, #-32]
+	WORD $0xad7c0144 // ldp    q4, q0, [x10, #-128]
+	WORD $0xad7d0546 // ldp    q6, q1, [x10, #-96]
+	WORD $0x0ea12a31 // xtn    v17.2s, v17.2d
+	WORD $0x0ea12a94 // xtn    v20.2s, v20.2d
+	WORD $0xad400953 // ldp    q19, q2, [x10]
+	WORD $0xad410d55 // ldp    q21, q3, [x10, #32]
+	WORD $0xad424156 // ldp    q22, q16, [x10, #64]
+	WORD $0xad434957 // ldp    q23, q18, [x10, #96]
+	WORD $0x4ea128f4 // xtn2    v20.4s, v7.2d
+	WORD $0x4ea128b1 // xtn2    v17.4s, v5.2d
+	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
+	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
+	WORD $0x0e612a25 // xtn    v5.4h, v17.4s
+	WORD $0x4e612a85 // xtn2    v5.8h, v20.4s
+	WORD $0x4ea12826 // xtn2    v6.4s, v1.2d
+	WORD $0x4ea12804 // xtn2    v4.4s, v0.2d
+	WORD $0x0e612880 // xtn    v0.4h, v4.4s
+	WORD $0x4e6128c0 // xtn2    v0.8h, v6.4s
+	WORD $0x0ea12af7 // xtn    v23.2s, v23.2d
+	WORD $0x0ea12ad6 // xtn    v22.2s, v22.2d
+	WORD $0x0e212800 // xtn    v0.8b, v0.8h
+	WORD $0x4e2128a0 // xtn2    v0.16b, v5.8h
+	WORD $0x4ea12a57 // xtn2    v23.4s, v18.2d
+	WORD $0x4ea12a16 // xtn2    v22.4s, v16.2d
+	WORD $0x0ea12ab5 // xtn    v21.2s, v21.2d
+	WORD $0x0ea12a73 // xtn    v19.2s, v19.2d
+	WORD $0x0e612ac1 // xtn    v1.4h, v22.4s
+	WORD $0x4e612ae1 // xtn2    v1.8h, v23.4s
+	WORD $0x4ea12875 // xtn2    v21.4s, v3.2d
+	WORD $0x4ea12853 // xtn2    v19.4s, v2.2d
+	WORD $0x0e612a62 // xtn    v2.4h, v19.4s
+	WORD $0x4e612aa2 // xtn2    v2.8h, v21.4s
+	WORD $0x0e212842 // xtn    v2.8b, v2.8h
+	WORD $0x4e212822 // xtn2    v2.16b, v1.8h
+	WORD $0x9104014a // add    x10, x10, #256
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f8960 // stp    q0, q2, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_925
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_225
+LBB0_927:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100804a // add    x10, x2, #32
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_928:
+	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x0e212821 // xtn    v1.8b, v1.8h
+	WORD $0x0e212863 // xtn    v3.8b, v3.8h
+	WORD $0x4e212801 // xtn2    v1.16b, v0.8h
+	WORD $0x4e212843 // xtn2    v3.16b, v2.8h
+	WORD $0xad3f8d61 // stp    q1, q3, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_928
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_234
+LBB0_930:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100804a // add    x10, x2, #32
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_931:
+	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x0e212821 // xtn    v1.8b, v1.8h
+	WORD $0x0e212863 // xtn    v3.8b, v3.8h
+	WORD $0x4e212801 // xtn2    v1.16b, v0.8h
+	WORD $0x4e212843 // xtn2    v3.16b, v2.8h
+	WORD $0xad3f8d61 // stp    q1, q3, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_931
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_243
+LBB0_933:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9102004a // add    x10, x2, #128
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_934:
+	WORD $0xad7e1551 // ldp    q17, q5, [x10, #-64]
+	WORD $0xad7f1d54 // ldp    q20, q7, [x10, #-32]
+	WORD $0xad7c0144 // ldp    q4, q0, [x10, #-128]
+	WORD $0xad7d0546 // ldp    q6, q1, [x10, #-96]
+	WORD $0x0ea12a31 // xtn    v17.2s, v17.2d
+	WORD $0x0ea12a94 // xtn    v20.2s, v20.2d
+	WORD $0xad400953 // ldp    q19, q2, [x10]
+	WORD $0xad410d55 // ldp    q21, q3, [x10, #32]
+	WORD $0xad424156 // ldp    q22, q16, [x10, #64]
+	WORD $0xad434957 // ldp    q23, q18, [x10, #96]
+	WORD $0x4ea128f4 // xtn2    v20.4s, v7.2d
+	WORD $0x4ea128b1 // xtn2    v17.4s, v5.2d
+	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
+	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
+	WORD $0x0e612a25 // xtn    v5.4h, v17.4s
+	WORD $0x4e612a85 // xtn2    v5.8h, v20.4s
+	WORD $0x4ea12826 // xtn2    v6.4s, v1.2d
+	WORD $0x4ea12804 // xtn2    v4.4s, v0.2d
+	WORD $0x0e612880 // xtn    v0.4h, v4.4s
+	WORD $0x4e6128c0 // xtn2    v0.8h, v6.4s
+	WORD $0x0ea12af7 // xtn    v23.2s, v23.2d
+	WORD $0x0ea12ad6 // xtn    v22.2s, v22.2d
+	WORD $0x0e212800 // xtn    v0.8b, v0.8h
+	WORD $0x4e2128a0 // xtn2    v0.16b, v5.8h
+	WORD $0x4ea12a57 // xtn2    v23.4s, v18.2d
+	WORD $0x4ea12a16 // xtn2    v22.4s, v16.2d
+	WORD $0x0ea12ab5 // xtn    v21.2s, v21.2d
+	WORD $0x0ea12a73 // xtn    v19.2s, v19.2d
+	WORD $0x0e612ac1 // xtn    v1.4h, v22.4s
+	WORD $0x4e612ae1 // xtn2    v1.8h, v23.4s
+	WORD $0x4ea12875 // xtn2    v21.4s, v3.2d
+	WORD $0x4ea12853 // xtn2    v19.4s, v2.2d
+	WORD $0x0e612a62 // xtn    v2.4h, v19.4s
+	WORD $0x4e612aa2 // xtn2    v2.8h, v21.4s
+	WORD $0x0e212842 // xtn    v2.8b, v2.8h
+	WORD $0x4e212822 // xtn2    v2.16b, v1.8h
+	WORD $0x9104014a // add    x10, x10, #256
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f8960 // stp    q0, q2, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_934
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_252
+LBB0_936:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9101004a // add    x10, x2, #64
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_937:
+	WORD $0xad7e0144 // ldp    q4, q0, [x10, #-64]
+	WORD $0xad400545 // ldp    q5, q1, [x10]
+	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x4ea1b884 // fcvtzs    v4.4s, v4.4s
+	WORD $0x4ea1b8a5 // fcvtzs    v5.4s, v5.4s
+	WORD $0x0e612887 // xtn    v7.4h, v4.4s
+	WORD $0x0e6128a6 // xtn    v6.4h, v5.4s
+	WORD $0x0e023ced // umov    w13, v7.h[0]
+	WORD $0x0e023cce // umov    w14, v6.h[0]
+	WORD $0x1e2701a4 // fmov    s4, w13
+	WORD $0x0e063cef // umov    w15, v7.h[1]
+	WORD $0x1e2701c5 // fmov    s5, w14
+	WORD $0x0e0a3ced // umov    w13, v7.h[2]
+	WORD $0x4e031de4 // mov    v4.b[1], w15
+	WORD $0x0e063cce // umov    w14, v6.h[1]
+	WORD $0x4ea1b800 // fcvtzs    v0.4s, v0.4s
+	WORD $0x4e031dc5 // mov    v5.b[1], w14
+	WORD $0x0e0e3cee // umov    w14, v7.h[3]
+	WORD $0xad411d50 // ldp    q16, q7, [x10, #32]
+	WORD $0x4ea1b821 // fcvtzs    v1.4s, v1.4s
+	WORD $0x0e612800 // xtn    v0.4h, v0.4s
+	WORD $0x4e051da4 // mov    v4.b[2], w13
+	WORD $0x0e0a3ccd // umov    w13, v6.h[2]
+	WORD $0x0e612821 // xtn    v1.4h, v1.4s
+	WORD $0x4e051da5 // mov    v5.b[2], w13
+	WORD $0x0e023c0d // umov    w13, v0.h[0]
+	WORD $0x4e071dc4 // mov    v4.b[3], w14
+	WORD $0x0e0e3cce // umov    w14, v6.h[3]
+	WORD $0x4e071dc5 // mov    v5.b[3], w14
+	WORD $0x0e063c0e // umov    w14, v0.h[1]
+	WORD $0x4e091da4 // mov    v4.b[4], w13
+	WORD $0x0e023c2d // umov    w13, v1.h[0]
+	WORD $0x4ea1b863 // fcvtzs    v3.4s, v3.4s
+	WORD $0x4e091da5 // mov    v5.b[4], w13
+	WORD $0x0e0a3c0d // umov    w13, v0.h[2]
+	WORD $0x4e0b1dc4 // mov    v4.b[5], w14
+	WORD $0x0e063c2e // umov    w14, v1.h[1]
+	WORD $0x4ea1ba10 // fcvtzs    v16.4s, v16.4s
+	WORD $0x0e612863 // xtn    v3.4h, v3.4s
+	WORD $0x4e0b1dc5 // mov    v5.b[5], w14
+	WORD $0x0e0e3c0e // umov    w14, v0.h[3]
+	WORD $0x4e0d1da4 // mov    v4.b[6], w13
+	WORD $0x0e0a3c2d // umov    w13, v1.h[2]
+	WORD $0x0e612a10 // xtn    v16.4h, v16.4s
+	WORD $0x4e0d1da5 // mov    v5.b[6], w13
+	WORD $0x0e023c6d // umov    w13, v3.h[0]
+	WORD $0x4e0f1dc4 // mov    v4.b[7], w14
+	WORD $0x0e0e3c2e // umov    w14, v1.h[3]
+	WORD $0x4e0f1dc5 // mov    v5.b[7], w14
+	WORD $0x0e063c6e // umov    w14, v3.h[1]
+	WORD $0x4e111da4 // mov    v4.b[8], w13
+	WORD $0x0e023e0d // umov    w13, v16.h[0]
+	WORD $0x4ea1b842 // fcvtzs    v2.4s, v2.4s
+	WORD $0x4e111da5 // mov    v5.b[8], w13
+	WORD $0x0e0a3c6d // umov    w13, v3.h[2]
+	WORD $0x4e131dc4 // mov    v4.b[9], w14
+	WORD $0x0e063e0e // umov    w14, v16.h[1]
+	WORD $0x4ea1b8e7 // fcvtzs    v7.4s, v7.4s
+	WORD $0x0e612842 // xtn    v2.4h, v2.4s
+	WORD $0x4e131dc5 // mov    v5.b[9], w14
+	WORD $0x0e0e3c6e // umov    w14, v3.h[3]
+	WORD $0x4e151da4 // mov    v4.b[10], w13
+	WORD $0x0e0a3e0d // umov    w13, v16.h[2]
+	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
+	WORD $0x4e151da5 // mov    v5.b[10], w13
+	WORD $0x0e023c4d // umov    w13, v2.h[0]
+	WORD $0x4e171dc4 // mov    v4.b[11], w14
+	WORD $0x0e0e3e0e // umov    w14, v16.h[3]
+	WORD $0x4e171dc5 // mov    v5.b[11], w14
+	WORD $0x0e063c4e // umov    w14, v2.h[1]
+	WORD $0x4e191da4 // mov    v4.b[12], w13
+	WORD $0x0e023ced // umov    w13, v7.h[0]
+	WORD $0x4e191da5 // mov    v5.b[12], w13
+	WORD $0x0e0a3c4d // umov    w13, v2.h[2]
+	WORD $0x4e1b1dc4 // mov    v4.b[13], w14
+	WORD $0x0e063cee // umov    w14, v7.h[1]
+	WORD $0x4e1b1dc5 // mov    v5.b[13], w14
+	WORD $0x4e1d1da4 // mov    v4.b[14], w13
+	WORD $0x0e0a3ced // umov    w13, v7.h[2]
+	WORD $0x0e0e3c4e // umov    w14, v2.h[3]
+	WORD $0x4e1d1da5 // mov    v5.b[14], w13
+	WORD $0x0e0e3ced // umov    w13, v7.h[3]
+	WORD $0x4e1f1dc4 // mov    v4.b[15], w14
+	WORD $0x4e1f1da5 // mov    v5.b[15], w13
+	WORD $0x9102014a // add    x10, x10, #128
+	WORD $0xad3f9564 // stp    q4, q5, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_937
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_261
+LBB0_939:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100404a // add    x10, x2, #16
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_940:
+	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
+	WORD $0x9100814a // add    x10, x10, #32
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_940
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_270
+LBB0_942:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9101004a // add    x10, x2, #64
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_943:
+	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+	WORD $0xad401145 // ldp    q5, q4, [x10]
+	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+	WORD $0x0e612821 // xtn    v1.4h, v1.4s
+	WORD $0x0e612863 // xtn    v3.4h, v3.4s
+	WORD $0x4e612843 // xtn2    v3.8h, v2.4s
+	WORD $0x4e612801 // xtn2    v1.8h, v0.4s
+	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
+	WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
+	WORD $0x0e212820 // xtn    v0.8b, v1.8h
+	WORD $0x4e212860 // xtn2    v0.16b, v3.8h
+	WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
+	WORD $0x4e612885 // xtn2    v5.8h, v4.4s
+	WORD $0x0e2128a1 // xtn    v1.8b, v5.8h
+	WORD $0x4e2128e1 // xtn2    v1.16b, v7.8h
+	WORD $0x9102014a // add    x10, x10, #128
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_943
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_279
+LBB0_945:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_946:
+	WORD $0x3cc10580 // ldr    q0, [x12], #16
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0x0f08a401 // sshll    v1.8h, v0.8b, #0
+	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
+	WORD $0x0f10a422 // sshll    v2.4s, v1.4h, #0
+	WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
+	WORD $0x0f10a403 // sshll    v3.4s, v0.4h, #0
+	WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
+	WORD $0x0f20a444 // sshll    v4.2d, v2.2s, #0
+	WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
+	WORD $0x0f20a425 // sshll    v5.2d, v1.2s, #0
+	WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
+	WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
+	WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
+	WORD $0x0f20a407 // sshll    v7.2d, v0.2s, #0
+	WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
+	WORD $0xad030167 // stp    q7, q0, [x11, #96]
+	WORD $0xad020d66 // stp    q6, q3, [x11, #64]
+	WORD $0xad010565 // stp    q5, q1, [x11, #32]
+	WORD $0xac840964 // stp    q4, q2, [x11], #128
+	BNE LBB0_946
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_298
+LBB0_948:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_949:
+	WORD $0xad400181 // ldp    q1, q0, [x12]
+	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
+	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
+	WORD $0x9102018c // add    x12, x12, #128
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0xad031165 // stp    q5, q4, [x11, #96]
+	WORD $0xad021967 // stp    q7, q6, [x11, #64]
+	WORD $0xad010963 // stp    q3, q2, [x11, #32]
+	WORD $0xac840161 // stp    q1, q0, [x11], #128
+	BNE LBB0_949
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_307
+LBB0_951:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_952:
+	WORD $0xad400181 // ldp    q1, q0, [x12]
+	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
+	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
+	WORD $0x9102018c // add    x12, x12, #128
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0xad031165 // stp    q5, q4, [x11, #96]
+	WORD $0xad021967 // stp    q7, q6, [x11, #64]
+	WORD $0xad010963 // stp    q3, q2, [x11, #32]
+	WORD $0xac840161 // stp    q1, q0, [x11], #128
+	BNE LBB0_952
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_326
+LBB0_954:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_955:
+	WORD $0x3cc10580 // ldr    q0, [x12], #16
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0x2f08a401 // ushll    v1.8h, v0.8b, #0
+	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
+	WORD $0x2f10a422 // ushll    v2.4s, v1.4h, #0
+	WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
+	WORD $0x2f10a403 // ushll    v3.4s, v0.4h, #0
+	WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
+	WORD $0x2f20a444 // ushll    v4.2d, v2.2s, #0
+	WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
+	WORD $0x2f20a425 // ushll    v5.2d, v1.2s, #0
+	WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
+	WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
+	WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
+	WORD $0x2f20a407 // ushll    v7.2d, v0.2s, #0
+	WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
+	WORD $0xad030167 // stp    q7, q0, [x11, #96]
+	WORD $0xad020d66 // stp    q6, q3, [x11, #64]
+	WORD $0xad010565 // stp    q5, q1, [x11, #32]
+	WORD $0xac840964 // stp    q4, q2, [x11], #128
+	BNE LBB0_955
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_340
+LBB0_957:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100404a // add    x10, x2, #16
+	WORD $0x9100806b // add    x11, x3, #32
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_958:
+	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
+	WORD $0x9100814a // add    x10, x10, #32
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x0f08a402 // sshll    v2.8h, v0.8b, #0
+	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
+	WORD $0x0f08a423 // sshll    v3.8h, v1.8b, #0
+	WORD $0x4f08a421 // sshll2    v1.8h, v1.16b, #0
+	WORD $0xad3f0162 // stp    q2, q0, [x11, #-32]
+	WORD $0xac820563 // stp    q3, q1, [x11], #64
+	BNE LBB0_958
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_364
+LBB0_960:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100404a // add    x10, x2, #16
+	WORD $0x9100806b // add    x11, x3, #32
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_961:
+	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
+	WORD $0x9100814a // add    x10, x10, #32
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x0f08a402 // sshll    v2.8h, v0.8b, #0
+	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
+	WORD $0x0f08a423 // sshll    v3.8h, v1.8b, #0
+	WORD $0x4f08a421 // sshll2    v1.8h, v1.16b, #0
+	WORD $0xad3f0162 // stp    q2, q0, [x11, #-32]
+	WORD $0xac820563 // stp    q3, q1, [x11], #64
+	BNE LBB0_961
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_371
+LBB0_963:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100804a // add    x10, x2, #32
+	WORD $0x9100806b // add    x11, x3, #32
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_964:
+	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f0161 // stp    q1, q0, [x11, #-32]
+	WORD $0xac820963 // stp    q3, q2, [x11], #64
+	BNE LBB0_964
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_384
+LBB0_966:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100804a // add    x10, x2, #32
+	WORD $0x9100806b // add    x11, x3, #32
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_967:
+	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f0161 // stp    q1, q0, [x11, #-32]
+	WORD $0xac820963 // stp    q3, q2, [x11], #64
+	BNE LBB0_967
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_391
+LBB0_969:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100804a // add    x10, x2, #32
+	WORD $0x9100806b // add    x11, x3, #32
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_970:
+	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f0161 // stp    q1, q0, [x11, #-32]
+	WORD $0xac820963 // stp    q3, q2, [x11], #64
+	BNE LBB0_970
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_398
+LBB0_972:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100804a // add    x10, x2, #32
+	WORD $0x9100806b // add    x11, x3, #32
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_973:
+	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f0161 // stp    q1, q0, [x11, #-32]
+	WORD $0xac820963 // stp    q3, q2, [x11], #64
+	BNE LBB0_973
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_405
+LBB0_975:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100404a // add    x10, x2, #16
+	WORD $0x9100806b // add    x11, x3, #32
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_976:
+	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
+	WORD $0x9100814a // add    x10, x10, #32
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x2f08a402 // ushll    v2.8h, v0.8b, #0
+	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
+	WORD $0x2f08a423 // ushll    v3.8h, v1.8b, #0
+	WORD $0x6f08a421 // ushll2    v1.8h, v1.16b, #0
+	WORD $0xad3f0162 // stp    q2, q0, [x11, #-32]
+	WORD $0xac820563 // stp    q3, q1, [x11], #64
+	BNE LBB0_976
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_424
+LBB0_978:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100404a // add    x10, x2, #16
+	WORD $0x9100806b // add    x11, x3, #32
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_979:
+	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
+	WORD $0x9100814a // add    x10, x10, #32
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x2f08a402 // ushll    v2.8h, v0.8b, #0
+	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
+	WORD $0x2f08a423 // ushll    v3.8h, v1.8b, #0
+	WORD $0x6f08a421 // ushll2    v1.8h, v1.16b, #0
+	WORD $0xad3f0162 // stp    q2, q0, [x11, #-32]
+	WORD $0xac820563 // stp    q3, q1, [x11], #64
+	BNE LBB0_979
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_431
+LBB0_981:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_982:
+	WORD $0x3cc10580 // ldr    q0, [x12], #16
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0x0f08a401 // sshll    v1.8h, v0.8b, #0
+	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
+	WORD $0x0f10a422 // sshll    v2.4s, v1.4h, #0
+	WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
+	WORD $0x0f10a403 // sshll    v3.4s, v0.4h, #0
+	WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
+	WORD $0x0f20a444 // sshll    v4.2d, v2.2s, #0
+	WORD $0x4f20a442 // sshll2    v2.2d, v2.4s, #0
+	WORD $0x0f20a425 // sshll    v5.2d, v1.2s, #0
+	WORD $0x0f20a466 // sshll    v6.2d, v3.2s, #0
+	WORD $0x4f20a421 // sshll2    v1.2d, v1.4s, #0
+	WORD $0x4f20a463 // sshll2    v3.2d, v3.4s, #0
+	WORD $0x0f20a407 // sshll    v7.2d, v0.2s, #0
+	WORD $0x4f20a400 // sshll2    v0.2d, v0.4s, #0
+	WORD $0xad030167 // stp    q7, q0, [x11, #96]
+	WORD $0xad020d66 // stp    q6, q3, [x11, #64]
+	WORD $0xad010565 // stp    q5, q1, [x11, #32]
+	WORD $0xac840964 // stp    q4, q2, [x11], #128
+	BNE LBB0_982
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_456
+LBB0_984:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_985:
+	WORD $0x3cc10580 // ldr    q0, [x12], #16
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0x6e004001 // ext    v1.16b, v0.16b, v0.16b, #8
+	WORD $0x0e003802 // zip1    v2.8b, v0.8b, v0.8b
+	WORD $0x0e007800 // zip2    v0.8b, v0.8b, v0.8b
+	WORD $0x0e003823 // zip1    v3.8b, v1.8b, v0.8b
+	WORD $0x0e007821 // zip2    v1.8b, v1.8b, v0.8b
+	WORD $0x0f185442 // shl    v2.4h, v2.4h, #8
+	WORD $0x0f185400 // shl    v0.4h, v0.4h, #8
+	WORD $0x0f185463 // shl    v3.4h, v3.4h, #8
+	WORD $0x0f185421 // shl    v1.4h, v1.4h, #8
+	WORD $0x0f180442 // sshr    v2.4h, v2.4h, #8
+	WORD $0x0f180400 // sshr    v0.4h, v0.4h, #8
+	WORD $0x0f180463 // sshr    v3.4h, v3.4h, #8
+	WORD $0x0f180421 // sshr    v1.4h, v1.4h, #8
+	WORD $0x0f10a442 // sshll    v2.4s, v2.4h, #0
+	WORD $0x0f10a400 // sshll    v0.4s, v0.4h, #0
+	WORD $0x0f10a463 // sshll    v3.4s, v3.4h, #0
+	WORD $0x0f10a421 // sshll    v1.4s, v1.4h, #0
+	WORD $0x4e21d842 // scvtf    v2.4s, v2.4s
+	WORD $0x4e21d800 // scvtf    v0.4s, v0.4s
+	WORD $0x4e21d863 // scvtf    v3.4s, v3.4s
+	WORD $0x4e21d821 // scvtf    v1.4s, v1.4s
+	WORD $0xad000162 // stp    q2, q0, [x11]
+	WORD $0xad010563 // stp    q3, q1, [x11, #32]
+	WORD $0x9101016b // add    x11, x11, #64
+	BNE LBB0_985
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_463
+LBB0_987:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_988:
+	WORD $0xad400181 // ldp    q1, q0, [x12]
+	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
+	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
+	WORD $0x9102018c // add    x12, x12, #128
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0xad031165 // stp    q5, q4, [x11, #96]
+	WORD $0xad021967 // stp    q7, q6, [x11, #64]
+	WORD $0xad010963 // stp    q3, q2, [x11, #32]
+	WORD $0xac840161 // stp    q1, q0, [x11], #128
+	BNE LBB0_988
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_470
+LBB0_990:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_991:
+	WORD $0xad400181 // ldp    q1, q0, [x12]
+	WORD $0xad410983 // ldp    q3, q2, [x12, #32]
+	WORD $0xad431185 // ldp    q5, q4, [x12, #96]
+	WORD $0xad421987 // ldp    q7, q6, [x12, #64]
+	WORD $0x9102018c // add    x12, x12, #128
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0xad031165 // stp    q5, q4, [x11, #96]
+	WORD $0xad021967 // stp    q7, q6, [x11, #64]
+	WORD $0xad010963 // stp    q3, q2, [x11, #32]
+	WORD $0xac840161 // stp    q1, q0, [x11], #128
+	BNE LBB0_991
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_492
+LBB0_993:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9101004a // add    x10, x2, #64
+	WORD $0x9101006b // add    x11, x3, #64
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_994:
+	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+	WORD $0xad401145 // ldp    q5, q4, [x10]
+	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+	WORD $0x9102014a // add    x10, x10, #128
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
+	WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
+	WORD $0xad011967 // stp    q7, q6, [x11, #32]
+	WORD $0xac841165 // stp    q5, q4, [x11], #128
+	BNE LBB0_994
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_505
+LBB0_996:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_997:
+	WORD $0x3cc10580 // ldr    q0, [x12], #16
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0x2f08a401 // ushll    v1.8h, v0.8b, #0
+	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
+	WORD $0x2f10a422 // ushll    v2.4s, v1.4h, #0
+	WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
+	WORD $0x2f10a403 // ushll    v3.4s, v0.4h, #0
+	WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
+	WORD $0x2f20a444 // ushll    v4.2d, v2.2s, #0
+	WORD $0x6f20a442 // ushll2    v2.2d, v2.4s, #0
+	WORD $0x2f20a425 // ushll    v5.2d, v1.2s, #0
+	WORD $0x2f20a466 // ushll    v6.2d, v3.2s, #0
+	WORD $0x6f20a421 // ushll2    v1.2d, v1.4s, #0
+	WORD $0x6f20a463 // ushll2    v3.2d, v3.4s, #0
+	WORD $0x2f20a407 // ushll    v7.2d, v0.2s, #0
+	WORD $0x6f20a400 // ushll2    v0.2d, v0.4s, #0
+	WORD $0xad030167 // stp    q7, q0, [x11, #96]
+	WORD $0xad020d66 // stp    q6, q3, [x11, #64]
+	WORD $0xad010565 // stp    q5, q1, [x11, #32]
+	WORD $0xac840964 // stp    q4, q2, [x11], #128
+	BNE LBB0_997
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_512
+LBB0_999:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_1000:
+	WORD $0x3cc10580 // ldr    q0, [x12], #16
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0x6e004001 // ext    v1.16b, v0.16b, v0.16b, #8
+	WORD $0x0e003802 // zip1    v2.8b, v0.8b, v0.8b
+	WORD $0x0e007800 // zip2    v0.8b, v0.8b, v0.8b
+	WORD $0x0e003823 // zip1    v3.8b, v1.8b, v0.8b
+	WORD $0x0e007821 // zip2    v1.8b, v1.8b, v0.8b
+	WORD $0x2f07b7e2 // bic    v2.4h, #255, lsl #8
+	WORD $0x2f07b7e0 // bic    v0.4h, #255, lsl #8
+	WORD $0x2f07b7e3 // bic    v3.4h, #255, lsl #8
+	WORD $0x2f07b7e1 // bic    v1.4h, #255, lsl #8
+	WORD $0x2f10a442 // ushll    v2.4s, v2.4h, #0
+	WORD $0x2f10a400 // ushll    v0.4s, v0.4h, #0
+	WORD $0x2f10a463 // ushll    v3.4s, v3.4h, #0
+	WORD $0x2f10a421 // ushll    v1.4s, v1.4h, #0
+	WORD $0x6e21d842 // ucvtf    v2.4s, v2.4s
+	WORD $0x6e21d800 // ucvtf    v0.4s, v0.4s
+	WORD $0x6e21d863 // ucvtf    v3.4s, v3.4s
+	WORD $0x6e21d821 // ucvtf    v1.4s, v1.4s
+	WORD $0xad000162 // stp    q2, q0, [x11]
+	WORD $0xad010563 // stp    q3, q1, [x11, #32]
+	WORD $0x9101016b // add    x11, x11, #64
+	BNE LBB0_1000
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_519
+LBB0_1002:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9101004a // add    x10, x2, #64
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_1003:
+	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+	WORD $0xad401145 // ldp    q5, q4, [x10]
+	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+	WORD $0x0e612821 // xtn    v1.4h, v1.4s
+	WORD $0x0e612863 // xtn    v3.4h, v3.4s
+	WORD $0x4e612843 // xtn2    v3.8h, v2.4s
+	WORD $0x4e612801 // xtn2    v1.8h, v0.4s
+	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
+	WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
+	WORD $0x0e212820 // xtn    v0.8b, v1.8h
+	WORD $0x4e212860 // xtn2    v0.16b, v3.8h
+	WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
+	WORD $0x4e612885 // xtn2    v5.8h, v4.4s
+	WORD $0x0e2128a1 // xtn    v1.8b, v5.8h
+	WORD $0x4e2128e1 // xtn2    v1.16b, v7.8h
+	WORD $0x9102014a // add    x10, x10, #128
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_1003
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_532
+LBB0_1005:
+	WORD $0x927c6d09 // and    x9, x8, #0xfffffff0
+	WORD $0xaa0903ea // mov    x10, x9
+	WORD $0xaa0303eb // mov    x11, x3
+	WORD $0xaa0203ec // mov    x12, x2
+LBB0_1006:
+	WORD $0xad401d84 // ldp    q4, q7, [x12]
+	WORD $0xad430580 // ldp    q0, q1, [x12, #96]
+	WORD $0xad411985 // ldp    q5, q6, [x12, #32]
+	WORD $0xad420d82 // ldp    q2, q3, [x12, #64]
+	WORD $0x4ee1b8e7 // fcvtzs    v7.2d, v7.2d
+	WORD $0x4ee1b884 // fcvtzs    v4.2d, v4.2d
+	WORD $0x0ea128e7 // xtn    v7.2s, v7.2d
+	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
+	WORD $0x4ee1b821 // fcvtzs    v1.2d, v1.2d
+	WORD $0x4ee1b800 // fcvtzs    v0.2d, v0.2d
+	WORD $0x0e471884 // uzp1    v4.4h, v4.4h, v7.4h
+	WORD $0x0ea12821 // xtn    v1.2s, v1.2d
+	WORD $0x0ea12800 // xtn    v0.2s, v0.2d
+	WORD $0x0e023c8d // umov    w13, v4.h[0]
+	WORD $0x4ee1b8c6 // fcvtzs    v6.2d, v6.2d
+	WORD $0x4ee1b8a5 // fcvtzs    v5.2d, v5.2d
+	WORD $0x0e411800 // uzp1    v0.4h, v0.4h, v1.4h
+	WORD $0x0e063c8e // umov    w14, v4.h[1]
+	WORD $0x1e2701a1 // fmov    s1, w13
+	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
+	WORD $0x0ea128a5 // xtn    v5.2s, v5.2d
+	WORD $0x0e0a3c8d // umov    w13, v4.h[2]
+	WORD $0x4e031dc1 // mov    v1.b[1], w14
+	WORD $0x0e4618a5 // uzp1    v5.4h, v5.4h, v6.4h
+	WORD $0x0e0e3c8e // umov    w14, v4.h[3]
+	WORD $0x4e051da1 // mov    v1.b[2], w13
+	WORD $0x0e023cad // umov    w13, v5.h[0]
+	WORD $0x4e071dc1 // mov    v1.b[3], w14
+	WORD $0x4ee1b863 // fcvtzs    v3.2d, v3.2d
+	WORD $0x4ee1b842 // fcvtzs    v2.2d, v2.2d
+	WORD $0x0e063cae // umov    w14, v5.h[1]
+	WORD $0x4e091da1 // mov    v1.b[4], w13
+	WORD $0x0ea12863 // xtn    v3.2s, v3.2d
+	WORD $0x0ea12842 // xtn    v2.2s, v2.2d
+	WORD $0x0e0a3cad // umov    w13, v5.h[2]
+	WORD $0x4e0b1dc1 // mov    v1.b[5], w14
+	WORD $0x0e431842 // uzp1    v2.4h, v2.4h, v3.4h
+	WORD $0x0e0e3cae // umov    w14, v5.h[3]
+	WORD $0x4e0d1da1 // mov    v1.b[6], w13
+	WORD $0x0e023c4d // umov    w13, v2.h[0]
+	WORD $0x4e0f1dc1 // mov    v1.b[7], w14
+	WORD $0x0e063c4e // umov    w14, v2.h[1]
+	WORD $0x4e111da1 // mov    v1.b[8], w13
+	WORD $0x0e0a3c4d // umov    w13, v2.h[2]
+	WORD $0x4e131dc1 // mov    v1.b[9], w14
+	WORD $0x0e0e3c4e // umov    w14, v2.h[3]
+	WORD $0x4e151da1 // mov    v1.b[10], w13
+	WORD $0x0e023c0d // umov    w13, v0.h[0]
+	WORD $0x4e171dc1 // mov    v1.b[11], w14
+	WORD $0x0e063c0e // umov    w14, v0.h[1]
+	WORD $0x4e191da1 // mov    v1.b[12], w13
+	WORD $0x0e0a3c0d // umov    w13, v0.h[2]
+	WORD $0x4e1b1dc1 // mov    v1.b[13], w14
+	WORD $0x0e0e3c0e // umov    w14, v0.h[3]
+	WORD $0x4e1d1da1 // mov    v1.b[14], w13
+	WORD $0x4e1f1dc1 // mov    v1.b[15], w14
+	WORD $0xf100414a // subs    x10, x10, #16
+	WORD $0x3c810561 // str    q1, [x11], #16
+	WORD $0x9102018c // add    x12, x12, #128
+	BNE LBB0_1006
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_539
+LBB0_1008:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100404a // add    x10, x2, #16
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_1009:
+	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
+	WORD $0x9100814a // add    x10, x10, #32
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_1009
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_546
+LBB0_1011:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9102004a // add    x10, x2, #128
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_1012:
+	WORD $0xad7e1551 // ldp    q17, q5, [x10, #-64]
+	WORD $0xad7f1d54 // ldp    q20, q7, [x10, #-32]
+	WORD $0xad7c0144 // ldp    q4, q0, [x10, #-128]
+	WORD $0xad7d0546 // ldp    q6, q1, [x10, #-96]
+	WORD $0x0ea12a31 // xtn    v17.2s, v17.2d
+	WORD $0x0ea12a94 // xtn    v20.2s, v20.2d
+	WORD $0xad400953 // ldp    q19, q2, [x10]
+	WORD $0xad410d55 // ldp    q21, q3, [x10, #32]
+	WORD $0xad424156 // ldp    q22, q16, [x10, #64]
+	WORD $0xad434957 // ldp    q23, q18, [x10, #96]
+	WORD $0x4ea128f4 // xtn2    v20.4s, v7.2d
+	WORD $0x4ea128b1 // xtn2    v17.4s, v5.2d
+	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
+	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
+	WORD $0x0e612a25 // xtn    v5.4h, v17.4s
+	WORD $0x4e612a85 // xtn2    v5.8h, v20.4s
+	WORD $0x4ea12826 // xtn2    v6.4s, v1.2d
+	WORD $0x4ea12804 // xtn2    v4.4s, v0.2d
+	WORD $0x0e612880 // xtn    v0.4h, v4.4s
+	WORD $0x4e6128c0 // xtn2    v0.8h, v6.4s
+	WORD $0x0ea12af7 // xtn    v23.2s, v23.2d
+	WORD $0x0ea12ad6 // xtn    v22.2s, v22.2d
+	WORD $0x0e212800 // xtn    v0.8b, v0.8h
+	WORD $0x4e2128a0 // xtn2    v0.16b, v5.8h
+	WORD $0x4ea12a57 // xtn2    v23.4s, v18.2d
+	WORD $0x4ea12a16 // xtn2    v22.4s, v16.2d
+	WORD $0x0ea12ab5 // xtn    v21.2s, v21.2d
+	WORD $0x0ea12a73 // xtn    v19.2s, v19.2d
+	WORD $0x0e612ac1 // xtn    v1.4h, v22.4s
+	WORD $0x4e612ae1 // xtn2    v1.8h, v23.4s
+	WORD $0x4ea12875 // xtn2    v21.4s, v3.2d
+	WORD $0x4ea12853 // xtn2    v19.4s, v2.2d
+	WORD $0x0e612a62 // xtn    v2.4h, v19.4s
+	WORD $0x4e612aa2 // xtn2    v2.8h, v21.4s
+	WORD $0x0e212842 // xtn    v2.8b, v2.8h
+	WORD $0x4e212822 // xtn2    v2.16b, v1.8h
+	WORD $0x9104014a // add    x10, x10, #256
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f8960 // stp    q0, q2, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_1012
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_553
+LBB0_1014:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100804a // add    x10, x2, #32
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_1015:
+	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x0e212821 // xtn    v1.8b, v1.8h
+	WORD $0x0e212863 // xtn    v3.8b, v3.8h
+	WORD $0x4e212801 // xtn2    v1.16b, v0.8h
+	WORD $0x4e212843 // xtn2    v3.16b, v2.8h
+	WORD $0xad3f8d61 // stp    q1, q3, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_1015
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_560
+LBB0_1017:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100804a // add    x10, x2, #32
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_1018:
+	WORD $0xad7f0141 // ldp    q1, q0, [x10, #-32]
+	WORD $0xacc20943 // ldp    q3, q2, [x10], #64
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x0e212821 // xtn    v1.8b, v1.8h
+	WORD $0x0e212863 // xtn    v3.8b, v3.8h
+	WORD $0x4e212801 // xtn2    v1.16b, v0.8h
+	WORD $0x4e212843 // xtn2    v3.16b, v2.8h
+	WORD $0xad3f8d61 // stp    q1, q3, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_1018
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_567
+LBB0_1020:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9102004a // add    x10, x2, #128
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_1021:
+	WORD $0xad7e1551 // ldp    q17, q5, [x10, #-64]
+	WORD $0xad7f1d54 // ldp    q20, q7, [x10, #-32]
+	WORD $0xad7c0144 // ldp    q4, q0, [x10, #-128]
+	WORD $0xad7d0546 // ldp    q6, q1, [x10, #-96]
+	WORD $0x0ea12a31 // xtn    v17.2s, v17.2d
+	WORD $0x0ea12a94 // xtn    v20.2s, v20.2d
+	WORD $0xad400953 // ldp    q19, q2, [x10]
+	WORD $0xad410d55 // ldp    q21, q3, [x10, #32]
+	WORD $0xad424156 // ldp    q22, q16, [x10, #64]
+	WORD $0xad434957 // ldp    q23, q18, [x10, #96]
+	WORD $0x4ea128f4 // xtn2    v20.4s, v7.2d
+	WORD $0x4ea128b1 // xtn2    v17.4s, v5.2d
+	WORD $0x0ea128c6 // xtn    v6.2s, v6.2d
+	WORD $0x0ea12884 // xtn    v4.2s, v4.2d
+	WORD $0x0e612a25 // xtn    v5.4h, v17.4s
+	WORD $0x4e612a85 // xtn2    v5.8h, v20.4s
+	WORD $0x4ea12826 // xtn2    v6.4s, v1.2d
+	WORD $0x4ea12804 // xtn2    v4.4s, v0.2d
+	WORD $0x0e612880 // xtn    v0.4h, v4.4s
+	WORD $0x4e6128c0 // xtn2    v0.8h, v6.4s
+	WORD $0x0ea12af7 // xtn    v23.2s, v23.2d
+	WORD $0x0ea12ad6 // xtn    v22.2s, v22.2d
+	WORD $0x0e212800 // xtn    v0.8b, v0.8h
+	WORD $0x4e2128a0 // xtn2    v0.16b, v5.8h
+	WORD $0x4ea12a57 // xtn2    v23.4s, v18.2d
+	WORD $0x4ea12a16 // xtn2    v22.4s, v16.2d
+	WORD $0x0ea12ab5 // xtn    v21.2s, v21.2d
+	WORD $0x0ea12a73 // xtn    v19.2s, v19.2d
+	WORD $0x0e612ac1 // xtn    v1.4h, v22.4s
+	WORD $0x4e612ae1 // xtn2    v1.8h, v23.4s
+	WORD $0x4ea12875 // xtn2    v21.4s, v3.2d
+	WORD $0x4ea12853 // xtn2    v19.4s, v2.2d
+	WORD $0x0e612a62 // xtn    v2.4h, v19.4s
+	WORD $0x4e612aa2 // xtn2    v2.8h, v21.4s
+	WORD $0x0e212842 // xtn    v2.8b, v2.8h
+	WORD $0x4e212822 // xtn2    v2.16b, v1.8h
+	WORD $0x9104014a // add    x10, x10, #256
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f8960 // stp    q0, q2, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_1021
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_574
+LBB0_1023:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9101004a // add    x10, x2, #64
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_1024:
+	WORD $0xad7e0144 // ldp    q4, q0, [x10, #-64]
+	WORD $0xad400545 // ldp    q5, q1, [x10]
+	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x4ea1b884 // fcvtzs    v4.4s, v4.4s
+	WORD $0x4ea1b8a5 // fcvtzs    v5.4s, v5.4s
+	WORD $0x0e612887 // xtn    v7.4h, v4.4s
+	WORD $0x0e6128a6 // xtn    v6.4h, v5.4s
+	WORD $0x0e023ced // umov    w13, v7.h[0]
+	WORD $0x0e023cce // umov    w14, v6.h[0]
+	WORD $0x1e2701a4 // fmov    s4, w13
+	WORD $0x0e063cef // umov    w15, v7.h[1]
+	WORD $0x1e2701c5 // fmov    s5, w14
+	WORD $0x0e0a3ced // umov    w13, v7.h[2]
+	WORD $0x4e031de4 // mov    v4.b[1], w15
+	WORD $0x0e063cce // umov    w14, v6.h[1]
+	WORD $0x4ea1b800 // fcvtzs    v0.4s, v0.4s
+	WORD $0x4e031dc5 // mov    v5.b[1], w14
+	WORD $0x0e0e3cee // umov    w14, v7.h[3]
+	WORD $0xad411d50 // ldp    q16, q7, [x10, #32]
+	WORD $0x4ea1b821 // fcvtzs    v1.4s, v1.4s
+	WORD $0x0e612800 // xtn    v0.4h, v0.4s
+	WORD $0x4e051da4 // mov    v4.b[2], w13
+	WORD $0x0e0a3ccd // umov    w13, v6.h[2]
+	WORD $0x0e612821 // xtn    v1.4h, v1.4s
+	WORD $0x4e051da5 // mov    v5.b[2], w13
+	WORD $0x0e023c0d // umov    w13, v0.h[0]
+	WORD $0x4e071dc4 // mov    v4.b[3], w14
+	WORD $0x0e0e3cce // umov    w14, v6.h[3]
+	WORD $0x4e071dc5 // mov    v5.b[3], w14
+	WORD $0x0e063c0e // umov    w14, v0.h[1]
+	WORD $0x4e091da4 // mov    v4.b[4], w13
+	WORD $0x0e023c2d // umov    w13, v1.h[0]
+	WORD $0x4ea1b863 // fcvtzs    v3.4s, v3.4s
+	WORD $0x4e091da5 // mov    v5.b[4], w13
+	WORD $0x0e0a3c0d // umov    w13, v0.h[2]
+	WORD $0x4e0b1dc4 // mov    v4.b[5], w14
+	WORD $0x0e063c2e // umov    w14, v1.h[1]
+	WORD $0x4ea1ba10 // fcvtzs    v16.4s, v16.4s
+	WORD $0x0e612863 // xtn    v3.4h, v3.4s
+	WORD $0x4e0b1dc5 // mov    v5.b[5], w14
+	WORD $0x0e0e3c0e // umov    w14, v0.h[3]
+	WORD $0x4e0d1da4 // mov    v4.b[6], w13
+	WORD $0x0e0a3c2d // umov    w13, v1.h[2]
+	WORD $0x0e612a10 // xtn    v16.4h, v16.4s
+	WORD $0x4e0d1da5 // mov    v5.b[6], w13
+	WORD $0x0e023c6d // umov    w13, v3.h[0]
+	WORD $0x4e0f1dc4 // mov    v4.b[7], w14
+	WORD $0x0e0e3c2e // umov    w14, v1.h[3]
+	WORD $0x4e0f1dc5 // mov    v5.b[7], w14
+	WORD $0x0e063c6e // umov    w14, v3.h[1]
+	WORD $0x4e111da4 // mov    v4.b[8], w13
+	WORD $0x0e023e0d // umov    w13, v16.h[0]
+	WORD $0x4ea1b842 // fcvtzs    v2.4s, v2.4s
+	WORD $0x4e111da5 // mov    v5.b[8], w13
+	WORD $0x0e0a3c6d // umov    w13, v3.h[2]
+	WORD $0x4e131dc4 // mov    v4.b[9], w14
+	WORD $0x0e063e0e // umov    w14, v16.h[1]
+	WORD $0x4ea1b8e7 // fcvtzs    v7.4s, v7.4s
+	WORD $0x0e612842 // xtn    v2.4h, v2.4s
+	WORD $0x4e131dc5 // mov    v5.b[9], w14
+	WORD $0x0e0e3c6e // umov    w14, v3.h[3]
+	WORD $0x4e151da4 // mov    v4.b[10], w13
+	WORD $0x0e0a3e0d // umov    w13, v16.h[2]
+	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
+	WORD $0x4e151da5 // mov    v5.b[10], w13
+	WORD $0x0e023c4d // umov    w13, v2.h[0]
+	WORD $0x4e171dc4 // mov    v4.b[11], w14
+	WORD $0x0e0e3e0e // umov    w14, v16.h[3]
+	WORD $0x4e171dc5 // mov    v5.b[11], w14
+	WORD $0x0e063c4e // umov    w14, v2.h[1]
+	WORD $0x4e191da4 // mov    v4.b[12], w13
+	WORD $0x0e023ced // umov    w13, v7.h[0]
+	WORD $0x4e191da5 // mov    v5.b[12], w13
+	WORD $0x0e0a3c4d // umov    w13, v2.h[2]
+	WORD $0x4e1b1dc4 // mov    v4.b[13], w14
+	WORD $0x0e063cee // umov    w14, v7.h[1]
+	WORD $0x4e1b1dc5 // mov    v5.b[13], w14
+	WORD $0x4e1d1da4 // mov    v4.b[14], w13
+	WORD $0x0e0a3ced // umov    w13, v7.h[2]
+	WORD $0x0e0e3c4e // umov    w14, v2.h[3]
+	WORD $0x4e1d1da5 // mov    v5.b[14], w13
+	WORD $0x0e0e3ced // umov    w13, v7.h[3]
+	WORD $0x4e1f1dc4 // mov    v4.b[15], w14
+	WORD $0x4e1f1da5 // mov    v5.b[15], w13
+	WORD $0x9102014a // add    x10, x10, #128
+	WORD $0xad3f9564 // stp    q4, q5, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_1024
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_581
+LBB0_1026:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9100404a // add    x10, x2, #16
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_1027:
+	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
+	WORD $0x9100814a // add    x10, x10, #32
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_1027
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_588
+LBB0_1029:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9101004a // add    x10, x2, #64
+	WORD $0x9100406b // add    x11, x3, #16
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_1030:
+	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+	WORD $0xad401145 // ldp    q5, q4, [x10]
+	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+	WORD $0x0e612821 // xtn    v1.4h, v1.4s
+	WORD $0x0e612863 // xtn    v3.4h, v3.4s
+	WORD $0x4e612843 // xtn2    v3.8h, v2.4s
+	WORD $0x4e612801 // xtn2    v1.8h, v0.4s
+	WORD $0x0e6128e7 // xtn    v7.4h, v7.4s
+	WORD $0x0e6128a5 // xtn    v5.4h, v5.4s
+	WORD $0x0e212820 // xtn    v0.8b, v1.8h
+	WORD $0x4e212860 // xtn2    v0.16b, v3.8h
+	WORD $0x4e6128c7 // xtn2    v7.8h, v6.4s
+	WORD $0x4e612885 // xtn2    v5.8h, v4.4s
+	WORD $0x0e2128a1 // xtn    v1.8b, v5.8h
+	WORD $0x4e2128e1 // xtn2    v1.16b, v7.8h
+	WORD $0x9102014a // add    x10, x10, #128
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f8560 // stp    q0, q1, [x11, #-16]
+	WORD $0x9100816b // add    x11, x11, #32
+	BNE LBB0_1030
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_595
+LBB0_1032:
+	WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+	WORD $0x9101004a // add    x10, x2, #64
+	WORD $0x9101006b // add    x11, x3, #64
+	WORD $0xaa0903ec // mov    x12, x9
+LBB0_1033:
+	WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+	WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+	WORD $0xad401145 // ldp    q5, q4, [x10]
+	WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+	WORD $0x9102014a // add    x10, x10, #128
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
+	WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
+	WORD $0xad011967 // stp    q7, q6, [x11, #32]
+	WORD $0xac841165 // stp    q5, q4, [x11], #128
+	BNE LBB0_1033
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_602
+LBB0_1035:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9100404a // add    x10, x2, #16
+    WORD $0x9101006b // add    x11, x3, #64
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_1036:
+	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
+	WORD $0x9100814a // add    x10, x10, #32
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x0f08a402 // sshll    v2.8h, v0.8b, #0
+	WORD $0x4f08a400 // sshll2    v0.8h, v0.16b, #0
+	WORD $0x0f08a423 // sshll    v3.8h, v1.8b, #0
+	WORD $0x4f08a421 // sshll2    v1.8h, v1.16b, #0
+	WORD $0x0f10a444 // sshll    v4.4s, v2.4h, #0
+	WORD $0x4f10a442 // sshll2    v2.4s, v2.8h, #0
+	WORD $0x0f10a405 // sshll    v5.4s, v0.4h, #0
+	WORD $0x4f10a400 // sshll2    v0.4s, v0.8h, #0
+	WORD $0x0f10a466 // sshll    v6.4s, v3.4h, #0
+	WORD $0x4f10a463 // sshll2    v3.4s, v3.8h, #0
+	WORD $0x0f10a427 // sshll    v7.4s, v1.4h, #0
+	WORD $0x4f10a421 // sshll2    v1.4s, v1.8h, #0
+	WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
+	WORD $0xad3e0964 // stp    q4, q2, [x11, #-64]
+	WORD $0xad010567 // stp    q7, q1, [x11, #32]
+	WORD $0xac840d66 // stp    q6, q3, [x11], #128
+	BNE LBB0_1036
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_612
+LBB0_1038:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9100404a // add    x10, x2, #16
+    WORD $0x9101006b // add    x11, x3, #64
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_1039:
+	WORD $0xad7f8540 // ldp    q0, q1, [x10, #-16]
+	WORD $0x9100814a // add    x10, x10, #32
+	WORD $0xf100818c // subs    x12, x12, #32
+	WORD $0x2f08a402 // ushll    v2.8h, v0.8b, #0
+	WORD $0x6f08a400 // ushll2    v0.8h, v0.16b, #0
+	WORD $0x2f08a423 // ushll    v3.8h, v1.8b, #0
+	WORD $0x6f08a421 // ushll2    v1.8h, v1.16b, #0
+	WORD $0x2f10a444 // ushll    v4.4s, v2.4h, #0
+	WORD $0x6f10a442 // ushll2    v2.4s, v2.8h, #0
+	WORD $0x2f10a405 // ushll    v5.4s, v0.4h, #0
+	WORD $0x6f10a400 // ushll2    v0.4s, v0.8h, #0
+	WORD $0x2f10a466 // ushll    v6.4s, v3.4h, #0
+	WORD $0x6f10a463 // ushll2    v3.4s, v3.8h, #0
+	WORD $0x2f10a427 // ushll    v7.4s, v1.4h, #0
+	WORD $0x6f10a421 // ushll2    v1.4s, v1.8h, #0
+	WORD $0xad3f0165 // stp    q5, q0, [x11, #-32]
+	WORD $0xad3e0964 // stp    q4, q2, [x11, #-64]
+	WORD $0xad010567 // stp    q7, q1, [x11, #32]
+	WORD $0xac840d66 // stp    q6, q3, [x11], #128
+	BNE LBB0_1039
+
+	WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_634
+LBB0_1041:
+    WORD $0x927b6909 // and    x9, x8, #0xffffffe0
+    WORD $0x9101004a // add    x10, x2, #64
+    WORD $0x9101006b // add    x11, x3, #64
+    WORD $0xaa0903ec // mov    x12, x9
+LBB0_1042:
+    WORD $0xad7e0141 // ldp    q1, q0, [x10, #-64]
+    WORD $0xad7f0943 // ldp    q3, q2, [x10, #-32]
+    WORD $0xad401145 // ldp    q5, q4, [x10]
+    WORD $0xad411947 // ldp    q7, q6, [x10, #32]
+    WORD $0x9102014a // add    x10, x10, #128
+    WORD $0xf100818c // subs    x12, x12, #32
+    WORD $0xad3f0963 // stp    q3, q2, [x11, #-32]
+    WORD $0xad3e0161 // stp    q1, q0, [x11, #-64]
+    WORD $0xad011967 // stp    q7, q6, [x11, #32]
+	WORD $0xac841165 // stp    q5, q4, [x11], #128
+	BNE LBB0_1042
+
+    WORD $0xeb08013f // cmp    x9, x8
+	BEQ LBB0_893
+	JMP LBB0_641
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.go b/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.go
new file mode 100644
index 00000000000..6c96962cb58
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.go
@@ -0,0 +1,32 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && !noasm
+
+package kernels
+
+import (
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+)
+
+//go:noescape
+func _cast_type_numeric_sse4(itype, otype int, in, out unsafe.Pointer, len int)
+
+func castNumericSSE4(itype, otype arrow.Type, in, out []byte, len int) {
+	_cast_type_numeric_sse4(int(itype), int(otype), unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len)
+}
diff --git a/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.s b/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.s
new file mode 100644
index 00000000000..778118ffeeb
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/cast_numeric_sse4_amd64.s
@@ -0,0 +1,9045 @@
+//go:build go1.18 && !noasm && !appengine
+// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
+
+DATA LCDATA1<>+0x000(SB)/8, $0x43e0000000000000
+DATA LCDATA1<>+0x008(SB)/8, $0x0000000000000000
+DATA LCDATA1<>+0x010(SB)/8, $0x0000000000000400
+DATA LCDATA1<>+0x018(SB)/8, $0x0000000000000000
+DATA LCDATA1<>+0x020(SB)/8, $0x4f0000004f000000
+DATA LCDATA1<>+0x028(SB)/8, $0x4f0000004f000000
+DATA LCDATA1<>+0x030(SB)/8, $0x8000000080000000
+DATA LCDATA1<>+0x038(SB)/8, $0x8000000080000000
+DATA LCDATA1<>+0x040(SB)/8, $0x0000000000000800
+DATA LCDATA1<>+0x048(SB)/8, $0x0000000000000000
+DATA LCDATA1<>+0x050(SB)/8, $0x4330000000000000
+DATA LCDATA1<>+0x058(SB)/8, $0x4330000000000000
+DATA LCDATA1<>+0x060(SB)/8, $0x4530000000000000
+DATA LCDATA1<>+0x068(SB)/8, $0x4530000000000000
+DATA LCDATA1<>+0x070(SB)/8, $0x4530000000100000
+DATA LCDATA1<>+0x078(SB)/8, $0x4530000000100000
+DATA LCDATA1<>+0x080(SB)/8, $0x4530000043300000
+DATA LCDATA1<>+0x088(SB)/8, $0x0000000000000000
+DATA LCDATA1<>+0x090(SB)/8, $0x4330000000000000
+DATA LCDATA1<>+0x098(SB)/8, $0x4530000000000000
+DATA LCDATA1<>+0x0a0(SB)/8, $0x0000000000000001
+DATA LCDATA1<>+0x0a8(SB)/8, $0x0000000000000001
+DATA LCDATA1<>+0x0b0(SB)/8, $0x0d0c090805040100
+DATA LCDATA1<>+0x0b8(SB)/8, $0x0f0e0d0c0d0c0908
+DATA LCDATA1<>+0x0c0(SB)/8, $0x000000000c080400
+DATA LCDATA1<>+0x0c8(SB)/8, $0x0000000000000000
+DATA LCDATA1<>+0x0d0(SB)/8, $0x4b0000004b000000
+DATA LCDATA1<>+0x0d8(SB)/8, $0x4b0000004b000000
+DATA LCDATA1<>+0x0e0(SB)/8, $0x5300000053000000
+DATA LCDATA1<>+0x0e8(SB)/8, $0x5300000053000000
+DATA LCDATA1<>+0x0f0(SB)/8, $0x5300008053000080
+DATA LCDATA1<>+0x0f8(SB)/8, $0x5300008053000080
+DATA LCDATA1<>+0x100(SB)/8, $0x0e0c0a0806040200
+DATA LCDATA1<>+0x108(SB)/8, $0x0000000000000000
+DATA LCDATA1<>+0x110(SB)/8, $0x000000005f000000
+GLOBL LCDATA1<>(SB), 8, $280
+
+TEXT ·_cast_type_numeric_sse4(SB), $0-40
+
+	MOVQ itype+0(FP), DI
+	MOVQ otype+8(FP), SI
+	MOVQ in+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ len+32(FP), R8
+	LEAQ LCDATA1<>(SB), BP
+
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_13
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_25
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_45
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_53
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_1526
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_93
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_163
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_263
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_266
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_12
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_761
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_761
+
+LBB0_12:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1104:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1106
+
+LBB0_1105:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1105
+
+LBB0_1106:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1107:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1107
+	JMP  LBB0_1526
+
+LBB0_13:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_35
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_61
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_69
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_1526
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_100
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_168
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_269
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_272
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_446
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_448
+
+LBB0_25:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_77
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_1526
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_107
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_173
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_275
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_278
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_34
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_763
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_763
+
+LBB0_34:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1482:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_1484
+
+LBB0_1483:
+	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_1483
+
+LBB0_1484:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1485:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
+	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
+	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
+	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1485
+	JMP  LBB0_1526
+
+LBB0_35:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_85
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_1526
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_114
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_178
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_281
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_284
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_454
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_948
+
+LBB0_45:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_121
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_183
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_287
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_290
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_457
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_953
+
+LBB0_53:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_128
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_188
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_293
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_296
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_460
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_958
+
+LBB0_61:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_135
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_193
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_299
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_302
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_463
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_963
+
+LBB0_69:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_142
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_198
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_305
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_308
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_466
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_968
+
+LBB0_77:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_149
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_203
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_311
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_314
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_84
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_766
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_766
+
+LBB0_84:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1490:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_1492
+
+LBB0_1491:
+	LONG $0x323cb60f         // movzx    edi, byte [rdx + rsi]
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_1491
+
+LBB0_1492:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1493:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1493
+	JMP  LBB0_1526
+
+LBB0_85:
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JG   LBB0_156
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JLE  LBB0_208
+	WORD $0xfe83; BYTE $0x04 // cmp    esi, 4
+	JE   LBB0_317
+	WORD $0xfe83; BYTE $0x05 // cmp    esi, 5
+	JE   LBB0_320
+	WORD $0xfe83; BYTE $0x06 // cmp    esi, 6
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_92
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_769
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_769
+
+LBB0_92:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1114:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1116
+
+LBB0_1115:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1115
+
+LBB0_1116:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1117:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1117
+	JMP  LBB0_1526
+
+LBB0_93:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_213
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_323
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_326
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_475
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_477
+
+LBB0_100:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_218
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_329
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_332
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_106
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_771
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_771
+
+LBB0_106:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1124:
+	WORD $0x8944; BYTE $0xcf // mov    edi, r9d
+	WORD $0xf729             // sub    edi, esi
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	LONG $0x07e78348         // and    rdi, 7
+	JE   LBB0_1126
+
+LBB0_1125:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1125
+
+LBB0_1126:
+	LONG $0x07f88349 // cmp    r8, 7
+	JB   LBB0_1526
+
+LBB0_1127:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0xf2448b48; BYTE $0x20 // mov    rax, qword [rdx + 8*rsi + 32]
+	LONG $0xf1448948; BYTE $0x20 // mov    qword [rcx + 8*rsi + 32], rax
+	LONG $0xf2448b48; BYTE $0x28 // mov    rax, qword [rdx + 8*rsi + 40]
+	LONG $0xf1448948; BYTE $0x28 // mov    qword [rcx + 8*rsi + 40], rax
+	LONG $0xf2448b48; BYTE $0x30 // mov    rax, qword [rdx + 8*rsi + 48]
+	LONG $0xf1448948; BYTE $0x30 // mov    qword [rcx + 8*rsi + 48], rax
+	LONG $0xf2448b48; BYTE $0x38 // mov    rax, qword [rdx + 8*rsi + 56]
+	LONG $0xf1448948; BYTE $0x38 // mov    qword [rcx + 8*rsi + 56], rax
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1127
+	JMP  LBB0_1526
+
+LBB0_107:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_223
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_335
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_338
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_483
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_485
+
+LBB0_114:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_228
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_341
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_344
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_488
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_973
+
+LBB0_121:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_233
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_347
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_350
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_491
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_493
+
+LBB0_128:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_238
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_353
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_356
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_496
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_498
+
+LBB0_135:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_243
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_359
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_362
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0xf089             // mov    eax, esi
+	WORD $0xe083; BYTE $0x03 // and    eax, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_501
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_503
+
+LBB0_142:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_248
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_365
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_368
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_506
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_979
+
+LBB0_149:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_253
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_371
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_374
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_509
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_511
+
+LBB0_156:
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JLE  LBB0_258
+	WORD $0xfe83; BYTE $0x09 // cmp    esi, 9
+	JE   LBB0_377
+	WORD $0xfe83; BYTE $0x0b // cmp    esi, 11
+	JE   LBB0_380
+	WORD $0xfe83; BYTE $0x0c // cmp    esi, 12
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0xf089             // mov    eax, esi
+	WORD $0xe083; BYTE $0x03 // and    eax, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_514
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_516
+
+LBB0_163:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_383
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_167
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_773
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_773
+
+LBB0_167:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1498:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1500
+
+LBB0_1499:
+	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1499
+
+LBB0_1500:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1501:
+	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1501
+	JMP  LBB0_1526
+
+LBB0_168:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_386
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_172
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_776
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_776
+
+LBB0_172:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1506:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1508
+
+LBB0_1507:
+	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1507
+
+LBB0_1508:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1509:
+	LONG $0x042c0ff2; BYTE $0xf2   // cvttsd2si    eax, qword [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
+	LONG $0x442c0ff2; WORD $0x08f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 8]
+	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
+	LONG $0x442c0ff2; WORD $0x10f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 16]
+	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
+	LONG $0x442c0ff2; WORD $0x18f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 24]
+	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1509
+	JMP  LBB0_1526
+
+LBB0_173:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_389
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_177
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_779
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_779
+
+LBB0_177:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1134:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1136
+
+LBB0_1135:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1135
+
+LBB0_1136:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1137:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1137
+	JMP  LBB0_1526
+
+LBB0_178:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_392
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_182
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_781
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_781
+
+LBB0_182:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1322:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1324
+
+LBB0_1323:
+	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1323
+
+LBB0_1324:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1325:
+	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1325
+	JMP  LBB0_1526
+
+LBB0_183:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_395
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_187
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_784
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_784
+
+LBB0_187:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1330:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1332
+
+LBB0_1331:
+	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1331
+
+LBB0_1332:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1333:
+	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1333
+	JMP  LBB0_1526
+
+LBB0_188:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_398
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_192
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_787
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_787
+
+LBB0_192:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1514:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1516
+
+LBB0_1515:
+	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1515
+
+LBB0_1516:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1517:
+	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1517
+	JMP  LBB0_1526
+
+LBB0_193:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_401
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_197
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_790
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_790
+
+LBB0_197:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1338:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1340
+
+LBB0_1339:
+	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1339
+
+LBB0_1340:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1341:
+	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1341
+	JMP  LBB0_1526
+
+LBB0_198:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_404
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_202
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_793
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_793
+
+LBB0_202:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1522:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1524
+
+LBB0_1523:
+	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1523
+
+LBB0_1524:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1525:
+	LONG $0x042c0ff3; BYTE $0xb2   // cvttss2si    eax, dword [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
+	LONG $0x442c0ff3; WORD $0x04b2 // cvttss2si    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
+	LONG $0x442c0ff3; WORD $0x08b2 // cvttss2si    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
+	LONG $0x442c0ff3; WORD $0x0cb2 // cvttss2si    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1525
+	JMP  LBB0_1526
+
+LBB0_203:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_407
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_207
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_796
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_796
+
+LBB0_207:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1144:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1146
+
+LBB0_1145:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1145
+
+LBB0_1146:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1147:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1147
+	JMP  LBB0_1526
+
+LBB0_208:
+	WORD $0xfe83; BYTE $0x02 // cmp    esi, 2
+	JE   LBB0_410
+	WORD $0xfe83; BYTE $0x03 // cmp    esi, 3
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_212
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_798
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_798
+
+LBB0_212:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1346:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1348
+
+LBB0_1347:
+	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1347
+
+LBB0_1348:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1349:
+	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1349
+	JMP  LBB0_1526
+
+LBB0_213:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_413
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_549
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_807
+
+LBB0_218:
+	WORD $0xfe83; BYTE $0x07               // cmp    esi, 7
+	JE   LBB0_416
+	WORD $0xfe83; BYTE $0x08               // cmp    esi, 8
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0               // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1               // mov    r9d, r8d
+	LONG $0xff418d49                       // lea    rax, [r9 - 1]
+	WORD $0x8945; BYTE $0xc8               // mov    r8d, r9d
+	LONG $0x03e08341                       // and    r8d, 3
+	QUAD $0x000000000000ba49; WORD $0x8000 // mov    r10, -9223372036854775808
+	LONG $0x03f88348                       // cmp    rax, 3
+	JAE  LBB0_551
+	WORD $0xc031                           // xor    eax, eax
+	JMP  LBB0_553
+
+LBB0_223:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_419
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_227
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_808
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_808
+
+LBB0_227:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1154:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1156
+
+LBB0_1155:
+	LONG $0x04be0f48; BYTE $0x32 // movsx    rax, byte [rdx + rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1155
+
+LBB0_1156:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1157:
+	LONG $0x04be0f48; BYTE $0x32   // movsx    rax, byte [rdx + rsi]
+	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
+	LONG $0x44be0f48; WORD $0x0132 // movsx    rax, byte [rdx + rsi + 1]
+	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0x44be0f48; WORD $0x0232 // movsx    rax, byte [rdx + rsi + 2]
+	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0x44be0f48; WORD $0x0332 // movsx    rax, byte [rdx + rsi + 3]
+	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1157
+	JMP  LBB0_1526
+
+LBB0_228:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_422
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_232
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_810
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_810
+
+LBB0_232:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1164:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1166
+
+LBB0_1165:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1165
+
+LBB0_1166:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1167:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1167
+	JMP  LBB0_1526
+
+LBB0_233:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_425
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_562
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_818
+
+LBB0_238:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_428
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_564
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_825
+
+LBB0_243:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_431
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_247
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_826
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_826
+
+LBB0_247:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1174:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1176
+
+LBB0_1175:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1175
+
+LBB0_1176:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1177:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1177
+	JMP  LBB0_1526
+
+LBB0_248:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_434
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0xff418d49         // lea    rax, [r9 - 1]
+	WORD $0x8945; BYTE $0xc8 // mov    r8d, r9d
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x03f88348         // cmp    rax, 3
+	JAE  LBB0_569
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_571
+
+LBB0_253:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_437
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_257
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_828
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_828
+
+LBB0_257:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1184:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1186
+
+LBB0_1185:
+	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1185
+
+LBB0_1186:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1187:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1187
+	JMP  LBB0_1526
+
+LBB0_258:
+	WORD $0xfe83; BYTE $0x07 // cmp    esi, 7
+	JE   LBB0_440
+	WORD $0xfe83; BYTE $0x08 // cmp    esi, 8
+	JNE  LBB0_1526
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_577
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_836
+
+LBB0_263:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_579
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_984
+
+LBB0_266:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_582
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_989
+
+LBB0_269:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_585
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_994
+
+LBB0_272:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_588
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_999
+
+LBB0_275:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_277
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_837
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_837
+
+LBB0_277:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1354:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_1356
+
+LBB0_1355:
+	LONG $0x323cbe0f // movsx    edi, byte [rdx + rsi]
+	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_1355
+
+LBB0_1356:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1357:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1357
+	JMP  LBB0_1526
+
+LBB0_278:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_280
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_840
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_840
+
+LBB0_280:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1362:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_1364
+
+LBB0_1363:
+	LONG $0x323cbe0f // movsx    edi, byte [rdx + rsi]
+	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_1363
+
+LBB0_1364:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1365:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1365
+	JMP  LBB0_1526
+
+LBB0_281:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_597
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1004
+
+LBB0_284:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_600
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1009
+
+LBB0_287:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_289
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_843
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_843
+
+LBB0_289:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1194:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1196
+
+LBB0_1195:
+	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1195
+
+LBB0_1196:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1197:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1197
+	JMP  LBB0_1526
+
+LBB0_290:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_292
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_845
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_845
+
+LBB0_292:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1204:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1206
+
+LBB0_1205:
+	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1205
+
+LBB0_1206:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1207:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1207
+	JMP  LBB0_1526
+
+LBB0_293:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_295
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_847
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_847
+
+LBB0_295:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1214:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1216
+
+LBB0_1215:
+	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1215
+
+LBB0_1216:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1217:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1217
+	JMP  LBB0_1526
+
+LBB0_296:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_298
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_849
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_849
+
+LBB0_298:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1224:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1226
+
+LBB0_1225:
+	LONG $0x7204b70f // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966 // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1225
+
+LBB0_1226:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1227:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02 // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04 // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06 // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1227
+	JMP  LBB0_1526
+
+LBB0_299:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_615
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1014
+
+LBB0_302:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_618
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1019
+
+LBB0_305:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_621
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1024
+
+LBB0_308:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_624
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1029
+
+LBB0_311:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_313
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_851
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_851
+
+LBB0_313:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1370:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_1372
+
+LBB0_1371:
+	LONG $0x323cb60f // movzx    edi, byte [rdx + rsi]
+	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_1371
+
+LBB0_1372:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1373:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1373
+	JMP  LBB0_1526
+
+LBB0_314:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_316
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_854
+	LONG $0x49048d4a         // lea    rax, [rcx + 2*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_854
+
+LBB0_316:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1378:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_1380
+
+LBB0_1379:
+	LONG $0x323cb60f // movzx    edi, byte [rdx + rsi]
+	LONG $0x713c8966 // mov    word [rcx + 2*rsi], di
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_1379
+
+LBB0_1380:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1381:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x71448966; BYTE $0x02 // mov    word [rcx + 2*rsi + 2], ax
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x71448966; BYTE $0x04 // mov    word [rcx + 2*rsi + 4], ax
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x71448966; BYTE $0x06 // mov    word [rcx + 2*rsi + 6], ax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1381
+	JMP  LBB0_1526
+
+LBB0_317:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_633
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1034
+
+LBB0_320:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_636
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1039
+
+LBB0_323:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_639
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_863
+
+LBB0_326:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_641
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1044
+
+LBB0_329:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_644
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_646
+
+LBB0_332:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_649
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1049
+
+LBB0_335:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_337
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_864
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_864
+
+LBB0_337:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1234:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1236
+
+LBB0_1235:
+	LONG $0x04be0f48; BYTE $0x32 // movsx    rax, byte [rdx + rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1235
+
+LBB0_1236:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1237:
+	LONG $0x04be0f48; BYTE $0x32   // movsx    rax, byte [rdx + rsi]
+	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
+	LONG $0x44be0f48; WORD $0x0132 // movsx    rax, byte [rdx + rsi + 1]
+	LONG $0xf1448948; BYTE $0x08   // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0x44be0f48; WORD $0x0232 // movsx    rax, byte [rdx + rsi + 2]
+	LONG $0xf1448948; BYTE $0x10   // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0x44be0f48; WORD $0x0332 // movsx    rax, byte [rdx + rsi + 3]
+	LONG $0xf1448948; BYTE $0x18   // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1237
+	JMP  LBB0_1526
+
+LBB0_338:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_340
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_866
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_866
+
+LBB0_340:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1386:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1388
+
+LBB0_1387:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0xc02a0ff3             // cvtsi2ss    xmm0, eax
+	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1387
+
+LBB0_1388:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1389:
+	LONG $0x3204be0f               // movsx    eax, byte [rdx + rsi]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
+	LONG $0x04110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm0
+	LONG $0x3244be0f; BYTE $0x01   // movsx    eax, byte [rdx + rsi + 1]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
+	LONG $0x44110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm0
+	LONG $0x3244be0f; BYTE $0x02   // movsx    eax, byte [rdx + rsi + 2]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
+	LONG $0x44110ff3; WORD $0x08b1 // movss    dword [rcx + 4*rsi + 8], xmm0
+	LONG $0x3244be0f; BYTE $0x03   // movsx    eax, byte [rdx + rsi + 3]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
+	LONG $0x44110ff3; WORD $0x0cb1 // movss    dword [rcx + 4*rsi + 12], xmm0
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1389
+	JMP  LBB0_1526
+
+LBB0_341:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_343
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_869
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_869
+
+LBB0_343:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1244:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1246
+
+LBB0_1245:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1245
+
+LBB0_1246:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1247:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1247
+	JMP  LBB0_1526
+
+LBB0_344:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_661
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1056
+
+LBB0_347:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_664
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_877
+
+LBB0_350:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_666
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1062
+
+LBB0_353:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_669
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_884
+
+LBB0_356:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_671
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1067
+
+LBB0_359:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_361
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_885
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_885
+
+LBB0_361:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1254:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1256
+
+LBB0_1255:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1255
+
+LBB0_1256:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1257:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1257
+	JMP  LBB0_1526
+
+LBB0_362:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0xf089             // mov    eax, esi
+	WORD $0xe083; BYTE $0x03 // and    eax, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_677
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_679
+
+LBB0_365:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8944; BYTE $0xc6 // mov    esi, r8d
+	LONG $0xff7e8d48         // lea    rdi, [rsi - 1]
+	WORD $0x8941; BYTE $0xf0 // mov    r8d, esi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x03ff8348         // cmp    rdi, 3
+	JAE  LBB0_682
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB0_684
+
+LBB0_368:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_370
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_887
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_887
+
+LBB0_370:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1264:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x07e78348         // and    rdi, 7
+	JE   LBB0_1266
+
+LBB0_1265:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1265
+
+LBB0_1266:
+	LONG $0x07f88349 // cmp    r8, 7
+	JB   LBB0_1526
+
+LBB0_1267:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x10b2448b         // mov    eax, dword [rdx + 4*rsi + 16]
+	LONG $0x10b14489         // mov    dword [rcx + 4*rsi + 16], eax
+	LONG $0x14b2448b         // mov    eax, dword [rdx + 4*rsi + 20]
+	LONG $0x14b14489         // mov    dword [rcx + 4*rsi + 20], eax
+	LONG $0x18b2448b         // mov    eax, dword [rdx + 4*rsi + 24]
+	LONG $0x18b14489         // mov    dword [rcx + 4*rsi + 24], eax
+	LONG $0x1cb2448b         // mov    eax, dword [rdx + 4*rsi + 28]
+	LONG $0x1cb14489         // mov    dword [rcx + 4*rsi + 28], eax
+	LONG $0x08c68348         // add    rsi, 8
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1267
+	JMP  LBB0_1526
+
+LBB0_371:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_373
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_889
+	LONG $0xc9048d4a         // lea    rax, [rcx + 8*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_889
+
+LBB0_373:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1274:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1276
+
+LBB0_1275:
+	LONG $0x3204b60f // movzx    eax, byte [rdx + rsi]
+	LONG $0xf1048948 // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_1275
+
+LBB0_1276:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1277:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0xf1448948; BYTE $0x08 // mov    qword [rcx + 8*rsi + 8], rax
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0xf1448948; BYTE $0x10 // mov    qword [rcx + 8*rsi + 16], rax
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0xf1448948; BYTE $0x18 // mov    qword [rcx + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1277
+	JMP  LBB0_1526
+
+LBB0_374:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_376
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_891
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_891
+
+LBB0_376:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1394:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1396
+
+LBB0_1395:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0xc02a0ff3             // cvtsi2ss    xmm0, eax
+	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1395
+
+LBB0_1396:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1397:
+	LONG $0x3204b60f               // movzx    eax, byte [rdx + rsi]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
+	LONG $0x04110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm0
+	LONG $0x3244b60f; BYTE $0x01   // movzx    eax, byte [rdx + rsi + 1]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
+	LONG $0x44110ff3; WORD $0x04b1 // movss    dword [rcx + 4*rsi + 4], xmm0
+	LONG $0x3244b60f; BYTE $0x02   // movzx    eax, byte [rdx + rsi + 2]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
+	LONG $0x44110ff3; WORD $0x08b1 // movss    dword [rcx + 4*rsi + 8], xmm0
+	LONG $0x3244b60f; BYTE $0x03   // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff3               // cvtsi2ss    xmm0, eax
+	LONG $0x44110ff3; WORD $0x0cb1 // movss    dword [rcx + 4*rsi + 12], xmm0
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1397
+	JMP  LBB0_1526
+
+LBB0_377:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_696
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_900
+
+LBB0_380:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_698
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1072
+
+LBB0_383:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_385
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_901
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_901
+
+LBB0_385:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1402:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1404
+
+LBB0_1403:
+	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1403
+
+LBB0_1404:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1405:
+	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1405
+	JMP  LBB0_1526
+
+LBB0_386:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_388
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_904
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_904
+
+LBB0_388:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1410:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1412
+
+LBB0_1411:
+	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1411
+
+LBB0_1412:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1413:
+	LONG $0x042c0ff2; BYTE $0xf2   // cvttsd2si    eax, qword [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
+	LONG $0x442c0ff2; WORD $0x08f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 8]
+	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
+	LONG $0x442c0ff2; WORD $0x10f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 16]
+	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
+	LONG $0x442c0ff2; WORD $0x18f2 // cvttsd2si    eax, qword [rdx + 8*rsi + 24]
+	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1413
+	JMP  LBB0_1526
+
+LBB0_389:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_391
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_907
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_907
+
+LBB0_391:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1284:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1286
+
+LBB0_1285:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1285
+
+LBB0_1286:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1287:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1287
+	JMP  LBB0_1526
+
+LBB0_392:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_394
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_909
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_909
+
+LBB0_394:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1418:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1420
+
+LBB0_1419:
+	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1419
+
+LBB0_1420:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1421:
+	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1421
+	JMP  LBB0_1526
+
+LBB0_395:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_397
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_912
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_912
+
+LBB0_397:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1426:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1428
+
+LBB0_1427:
+	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1427
+
+LBB0_1428:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1429:
+	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1429
+	JMP  LBB0_1526
+
+LBB0_398:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x10f88341         // cmp    r8d, 16
+	JB   LBB0_400
+	LONG $0x4a048d4a         // lea    rax, [rdx + 2*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_915
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_915
+
+LBB0_400:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1434:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1436
+
+LBB0_1435:
+	LONG $0x7204b60f         // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1435
+
+LBB0_1436:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1437:
+	LONG $0x7204b60f             // movzx    eax, byte [rdx + 2*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x7244b60f; BYTE $0x02 // movzx    eax, byte [rdx + 2*rsi + 2]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x7244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 2*rsi + 4]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x7244b60f; BYTE $0x06 // movzx    eax, byte [rdx + 2*rsi + 6]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1437
+	JMP  LBB0_1526
+
+LBB0_401:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JB   LBB0_403
+	LONG $0xca048d4a         // lea    rax, [rdx + 8*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_918
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_918
+
+LBB0_403:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1442:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1444
+
+LBB0_1443:
+	LONG $0xf204b60f         // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1443
+
+LBB0_1444:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1445:
+	LONG $0xf204b60f             // movzx    eax, byte [rdx + 8*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xf244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 8*rsi + 8]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xf244b60f; BYTE $0x10 // movzx    eax, byte [rdx + 8*rsi + 16]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xf244b60f; BYTE $0x18 // movzx    eax, byte [rdx + 8*rsi + 24]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1445
+	JMP  LBB0_1526
+
+LBB0_404:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_406
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_921
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_921
+
+LBB0_406:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1450:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1452
+
+LBB0_1451:
+	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_1451
+
+LBB0_1452:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1453:
+	LONG $0x042c0ff3; BYTE $0xb2   // cvttss2si    eax, dword [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31       // mov    byte [rcx + rsi], al
+	LONG $0x442c0ff3; WORD $0x04b2 // cvttss2si    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x01314488               // mov    byte [rcx + rsi + 1], al
+	LONG $0x442c0ff3; WORD $0x08b2 // cvttss2si    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x02314488               // mov    byte [rcx + rsi + 2], al
+	LONG $0x442c0ff3; WORD $0x0cb2 // cvttss2si    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x03314488               // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_1453
+	JMP  LBB0_1526
+
+LBB0_407:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x20f88341         // cmp    r8d, 32
+	JB   LBB0_409
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_924
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_924
+
+LBB0_409:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1294:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1296
+
+LBB0_1295:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1295
+
+LBB0_1296:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1297:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1297
+	JMP  LBB0_1526
+
+LBB0_410:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_412
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_926
+	LONG $0x09048d4a         // lea    rax, [rcx + r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_926
+
+LBB0_412:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1458:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1460
+
+LBB0_1459:
+	LONG $0xb204b60f         // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31 // mov    byte [rcx + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1459
+
+LBB0_1460:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1461:
+	LONG $0xb204b60f             // movzx    eax, byte [rdx + 4*rsi]
+	WORD $0x0488; BYTE $0x31     // mov    byte [rcx + rsi], al
+	LONG $0xb244b60f; BYTE $0x04 // movzx    eax, byte [rdx + 4*rsi + 4]
+	LONG $0x01314488             // mov    byte [rcx + rsi + 1], al
+	LONG $0xb244b60f; BYTE $0x08 // movzx    eax, byte [rdx + 4*rsi + 8]
+	LONG $0x02314488             // mov    byte [rcx + rsi + 2], al
+	LONG $0xb244b60f; BYTE $0x0c // movzx    eax, byte [rdx + 4*rsi + 12]
+	LONG $0x03314488             // mov    byte [rcx + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1461
+	JMP  LBB0_1526
+
+LBB0_413:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_415
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_929
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_929
+
+LBB0_415:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1304:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1306
+
+LBB0_1305:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1305
+
+LBB0_1306:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1307:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1307
+	JMP  LBB0_1526
+
+LBB0_416:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_734
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1077
+
+LBB0_419:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_421
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_931
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_931
+
+LBB0_421:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1466:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_1468
+
+LBB0_1467:
+	LONG $0x323cbe0f         // movsx    edi, byte [rdx + rsi]
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_1467
+
+LBB0_1468:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1469:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	LONG $0x3244be0f; BYTE $0x01 // movsx    eax, byte [rdx + rsi + 1]
+	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x3244be0f; BYTE $0x02 // movsx    eax, byte [rdx + rsi + 2]
+	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x3244be0f; BYTE $0x03 // movsx    eax, byte [rdx + rsi + 3]
+	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1469
+	JMP  LBB0_1526
+
+LBB0_422:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_740
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_943
+
+LBB0_425:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_743
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1082
+
+LBB0_428:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_746
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1087
+
+LBB0_431:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x04f88341         // cmp    r8d, 4
+	JAE  LBB0_749
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1092
+
+LBB0_434:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JAE  LBB0_752
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_1097
+
+LBB0_437:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_439
+	LONG $0x0a048d4a         // lea    rax, [rdx + r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_934
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_934
+
+LBB0_439:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1474:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_1476
+
+LBB0_1475:
+	LONG $0x323cb60f         // movzx    edi, byte [rdx + rsi]
+	WORD $0x3c89; BYTE $0xb1 // mov    dword [rcx + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_1475
+
+LBB0_1476:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1477:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x04b14489             // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x08b14489             // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0cb14489             // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1477
+	JMP  LBB0_1526
+
+LBB0_440:
+	WORD $0x8545; BYTE $0xc0 // test    r8d, r8d
+	JLE  LBB0_1526
+	WORD $0x8945; BYTE $0xc1 // mov    r9d, r8d
+	LONG $0x08f88341         // cmp    r8d, 8
+	JB   LBB0_442
+	LONG $0x8a048d4a         // lea    rax, [rdx + 4*r9]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB0_937
+	LONG $0x89048d4a         // lea    rax, [rcx + 4*r9]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB0_937
+
+LBB0_442:
+	WORD $0xf631 // xor    esi, esi
+
+LBB0_1314:
+	WORD $0x8949; BYTE $0xf0 // mov    r8, rsi
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xcf // mov    rdi, r9
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_1316
+
+LBB0_1315:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_1315
+
+LBB0_1316:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_1526
+
+LBB0_1317:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x04b2448b         // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b14489         // mov    dword [rcx + 4*rsi + 4], eax
+	LONG $0x08b2448b         // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b14489         // mov    dword [rcx + 4*rsi + 8], eax
+	LONG $0x0cb2448b         // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb14489         // mov    dword [rcx + 4*rsi + 12], eax
+	LONG $0x04c68348         // add    rsi, 4
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1317
+	JMP  LBB0_1526
+
+LBB0_446:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_447:
+	LONG $0x2c0f48f2; WORD $0xfa04             // cvttsd2si    rax, qword [rdx + 8*rdi]
+	WORD $0x0489; BYTE $0xb9                   // mov    dword [rcx + 4*rdi], eax
+	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x08 // cvttsd2si    rax, qword [rdx + 8*rdi + 8]
+	LONG $0x04b94489                           // mov    dword [rcx + 4*rdi + 4], eax
+	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x10 // cvttsd2si    rax, qword [rdx + 8*rdi + 16]
+	LONG $0x08b94489                           // mov    dword [rcx + 4*rdi + 8], eax
+	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x18 // cvttsd2si    rax, qword [rdx + 8*rdi + 24]
+	LONG $0x0cb94489                           // mov    dword [rcx + 4*rdi + 12], eax
+	LONG $0x04c78348                           // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_447
+
+LBB0_448:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1526
+	LONG $0xb90c8d48         // lea    rcx, [rcx + 4*rdi]
+	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_450:
+	LONG $0x2c0f48f2; WORD $0xf204 // cvttsd2si    rax, qword [rdx + 8*rsi]
+	WORD $0x0489; BYTE $0xb1       // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x3949; BYTE $0xf0       // cmp    r8, rsi
+	JNE  LBB0_450
+	JMP  LBB0_1526
+
+LBB0_454:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_944
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_456:
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_456
+	JMP  LBB0_945
+
+LBB0_457:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_949
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_459:
+	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x33380f66; WORD $0x7a44; BYTE $0x10 // pmovzxwd    xmm0, qword [rdx + 2*rdi + 16]
+	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x18 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 24]
+	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_459
+	JMP  LBB0_950
+
+LBB0_460:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_954
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_462:
+	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x23380f66; WORD $0x7a44; BYTE $0x10 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 16]
+	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
+	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_462
+	JMP  LBB0_955
+
+LBB0_463:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_959
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_465:
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_465
+	JMP  LBB0_960
+
+LBB0_466:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_964
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	LONG $0x204d280f         // movaps    xmm1, oword 32[rbp] /* [rip + .LCPI0_3] */
+	LONG $0x3055280f         // movaps    xmm2, oword 48[rbp] /* [rip + .LCPI0_4] */
+
+LBB0_468:
+	LONG $0xba1c100f             // movups    xmm3, oword [rdx + 4*rdi]
+	LONG $0xba64100f; BYTE $0x10 // movups    xmm4, oword [rdx + 4*rdi + 16]
+	WORD $0x280f; BYTE $0xc3     // movaps    xmm0, xmm3
+	LONG $0x01c1c20f             // cmpltps    xmm0, xmm1
+	LONG $0xeb5b0ff3             // cvttps2dq    xmm5, xmm3
+	WORD $0x5c0f; BYTE $0xd9     // subps    xmm3, xmm1
+	LONG $0xdb5b0ff3             // cvttps2dq    xmm3, xmm3
+	WORD $0x570f; BYTE $0xda     // xorps    xmm3, xmm2
+	LONG $0x14380f66; BYTE $0xdd // blendvps    xmm3, xmm5, xmm0
+	WORD $0x280f; BYTE $0xc4     // movaps    xmm0, xmm4
+	LONG $0x01c1c20f             // cmpltps    xmm0, xmm1
+	LONG $0xec5b0ff3             // cvttps2dq    xmm5, xmm4
+	WORD $0x5c0f; BYTE $0xe1     // subps    xmm4, xmm1
+	LONG $0xe45b0ff3             // cvttps2dq    xmm4, xmm4
+	WORD $0x570f; BYTE $0xe2     // xorps    xmm4, xmm2
+	LONG $0x14380f66; BYTE $0xe5 // blendvps    xmm4, xmm5, xmm0
+	LONG $0xb91c110f             // movups    oword [rcx + 4*rdi], xmm3
+	LONG $0xb964110f; BYTE $0x10 // movups    oword [rcx + 4*rdi + 16], xmm4
+	LONG $0xba5c100f; BYTE $0x20 // movups    xmm3, oword [rdx + 4*rdi + 32]
+	WORD $0x280f; BYTE $0xc3     // movaps    xmm0, xmm3
+	LONG $0x01c1c20f             // cmpltps    xmm0, xmm1
+	LONG $0xe35b0ff3             // cvttps2dq    xmm4, xmm3
+	WORD $0x5c0f; BYTE $0xd9     // subps    xmm3, xmm1
+	LONG $0xdb5b0ff3             // cvttps2dq    xmm3, xmm3
+	WORD $0x570f; BYTE $0xda     // xorps    xmm3, xmm2
+	LONG $0x14380f66; BYTE $0xdc // blendvps    xmm3, xmm4, xmm0
+	LONG $0xba64100f; BYTE $0x30 // movups    xmm4, oword [rdx + 4*rdi + 48]
+	WORD $0x280f; BYTE $0xc4     // movaps    xmm0, xmm4
+	LONG $0x01c1c20f             // cmpltps    xmm0, xmm1
+	LONG $0xec5b0ff3             // cvttps2dq    xmm5, xmm4
+	WORD $0x5c0f; BYTE $0xe1     // subps    xmm4, xmm1
+	LONG $0xe45b0ff3             // cvttps2dq    xmm4, xmm4
+	WORD $0x570f; BYTE $0xe2     // xorps    xmm4, xmm2
+	LONG $0x14380f66; BYTE $0xe5 // blendvps    xmm4, xmm5, xmm0
+	LONG $0xb95c110f; BYTE $0x20 // movups    oword [rcx + 4*rdi + 32], xmm3
+	LONG $0xb964110f; BYTE $0x30 // movups    oword [rcx + 4*rdi + 48], xmm4
+	LONG $0x10c78348             // add    rdi, 16
+	LONG $0x02c08348             // add    rax, 2
+	JNE  LBB0_468
+	JMP  LBB0_965
+
+LBB0_475:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_476:
+	WORD $0x048b; BYTE $0xba       // mov    eax, dword [rdx + 4*rdi]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0x2a0f48f2; BYTE $0xc0   // cvtsi2sd    xmm0, rax
+	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
+	LONG $0x04ba448b               // mov    eax, dword [rdx + 4*rdi + 4]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0x2a0f48f2; BYTE $0xc0   // cvtsi2sd    xmm0, rax
+	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
+	LONG $0x08ba448b               // mov    eax, dword [rdx + 4*rdi + 8]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0x2a0f48f2; BYTE $0xc0   // cvtsi2sd    xmm0, rax
+	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
+	LONG $0x0cba448b               // mov    eax, dword [rdx + 4*rdi + 12]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0x2a0f48f2; BYTE $0xc0   // cvtsi2sd    xmm0, rax
+	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
+	LONG $0x04c78348               // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB0_476
+
+LBB0_477:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1526
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	LONG $0xba148d48         // lea    rdx, [rdx + 4*rdi]
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_479:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0x2a0f48f2; BYTE $0xc0 // cvtsi2sd    xmm0, rax
+	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
+	JNE  LBB0_479
+	JMP  LBB0_1526
+
+LBB0_483:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_484:
+	LONG $0x3a04be0f               // movsx    eax, byte [rdx + rdi]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
+	LONG $0x3a44be0f; BYTE $0x01   // movsx    eax, byte [rdx + rdi + 1]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
+	LONG $0x3a44be0f; BYTE $0x02   // movsx    eax, byte [rdx + rdi + 2]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
+	LONG $0x3a44be0f; BYTE $0x03   // movsx    eax, byte [rdx + rdi + 3]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
+	LONG $0x04c78348               // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB0_484
+
+LBB0_485:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1526
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	WORD $0x0148; BYTE $0xfa // add    rdx, rdi
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_487:
+	LONG $0x3204be0f             // movsx    eax, byte [rdx + rsi]
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2             // cvtsi2sd    xmm0, eax
+	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
+	JNE  LBB0_487
+	JMP  LBB0_1526
+
+LBB0_488:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_969
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0xc0ef0f66             // pxor    xmm0, xmm0
+	LONG $0x4d6f0f66; BYTE $0x50 // movdqa    xmm1, oword 80[rbp] /* [rip + .LCPI0_6] */
+	LONG $0x556f0f66; BYTE $0x60 // movdqa    xmm2, oword 96[rbp] /* [rip + .LCPI0_7] */
+	LONG $0x5d280f66; BYTE $0x70 // movapd    xmm3, oword 112[rbp] /* [rip + .LCPI0_8] */
+
+LBB0_490:
+	LONG $0x246f0ff3; BYTE $0xfa   // movdqu    xmm4, oword [rdx + 8*rdi]
+	LONG $0x6c6f0ff3; WORD $0x10fa // movdqu    xmm5, oword [rdx + 8*rdi + 16]
+	LONG $0xf46f0f66               // movdqa    xmm6, xmm4
+	LONG $0x0e3a0f66; WORD $0xccf0 // pblendw    xmm6, xmm0, 204
+	LONG $0xf1eb0f66               // por    xmm6, xmm1
+	LONG $0xd4730f66; BYTE $0x20   // psrlq    xmm4, 32
+	LONG $0xe2eb0f66               // por    xmm4, xmm2
+	LONG $0xe35c0f66               // subpd    xmm4, xmm3
+	LONG $0xe6580f66               // addpd    xmm4, xmm6
+	LONG $0xf56f0f66               // movdqa    xmm6, xmm5
+	LONG $0x0e3a0f66; WORD $0xccf0 // pblendw    xmm6, xmm0, 204
+	LONG $0xf1eb0f66               // por    xmm6, xmm1
+	LONG $0xd5730f66; BYTE $0x20   // psrlq    xmm5, 32
+	LONG $0xeaeb0f66               // por    xmm5, xmm2
+	LONG $0xeb5c0f66               // subpd    xmm5, xmm3
+	LONG $0xee580f66               // addpd    xmm5, xmm6
+	LONG $0x24110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm4
+	LONG $0x6c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm5
+	LONG $0x646f0ff3; WORD $0x20fa // movdqu    xmm4, oword [rdx + 8*rdi + 32]
+	LONG $0x6c6f0ff3; WORD $0x30fa // movdqu    xmm5, oword [rdx + 8*rdi + 48]
+	LONG $0xf46f0f66               // movdqa    xmm6, xmm4
+	LONG $0x0e3a0f66; WORD $0xccf0 // pblendw    xmm6, xmm0, 204
+	LONG $0xf1eb0f66               // por    xmm6, xmm1
+	LONG $0xd4730f66; BYTE $0x20   // psrlq    xmm4, 32
+	LONG $0xe2eb0f66               // por    xmm4, xmm2
+	LONG $0xe35c0f66               // subpd    xmm4, xmm3
+	LONG $0xe6580f66               // addpd    xmm4, xmm6
+	LONG $0xf56f0f66               // movdqa    xmm6, xmm5
+	LONG $0x0e3a0f66; WORD $0xccf0 // pblendw    xmm6, xmm0, 204
+	LONG $0xf1eb0f66               // por    xmm6, xmm1
+	LONG $0xd5730f66; BYTE $0x20   // psrlq    xmm5, 32
+	LONG $0xeaeb0f66               // por    xmm5, xmm2
+	LONG $0xeb5c0f66               // subpd    xmm5, xmm3
+	LONG $0xee580f66               // addpd    xmm5, xmm6
+	LONG $0x64110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm4
+	LONG $0x6c110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm5
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_490
+	JMP  LBB0_970
+
+LBB0_491:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_492:
+	LONG $0x7a04b70f               // movzx    eax, word [rdx + 2*rdi]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
+	LONG $0x7a44b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rdi + 2]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
+	LONG $0x7a44b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rdi + 4]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
+	LONG $0x7a44b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rdi + 6]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
+	LONG $0x04c78348               // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB0_492
+
+LBB0_493:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1526
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	LONG $0x7a148d48         // lea    rdx, [rdx + 2*rdi]
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_495:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2             // cvtsi2sd    xmm0, eax
+	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
+	JNE  LBB0_495
+	JMP  LBB0_1526
+
+LBB0_496:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_497:
+	LONG $0x7a04bf0f               // movsx    eax, word [rdx + 2*rdi]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
+	LONG $0x7a44bf0f; BYTE $0x02   // movsx    eax, word [rdx + 2*rdi + 2]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
+	LONG $0x7a44bf0f; BYTE $0x04   // movsx    eax, word [rdx + 2*rdi + 4]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
+	LONG $0x7a44bf0f; BYTE $0x06   // movsx    eax, word [rdx + 2*rdi + 6]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
+	LONG $0x04c78348               // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB0_497
+
+LBB0_498:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1526
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	LONG $0x7a148d48         // lea    rdx, [rdx + 2*rdi]
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_500:
+	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2             // cvtsi2sd    xmm0, eax
+	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
+	JNE  LBB0_500
+	JMP  LBB0_1526
+
+LBB0_501:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_502:
+	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
+	LONG $0x2a0f48f2; WORD $0xfa04             // cvtsi2sd    xmm0, qword [rdx + 8*rdi]
+	LONG $0x04110ff2; BYTE $0xf9               // movsd    qword [rcx + 8*rdi], xmm0
+	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
+	LONG $0x2a0f48f2; WORD $0xfa44; BYTE $0x08 // cvtsi2sd    xmm0, qword [rdx + 8*rdi + 8]
+	LONG $0x44110ff2; WORD $0x08f9             // movsd    qword [rcx + 8*rdi + 8], xmm0
+	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
+	LONG $0x2a0f48f2; WORD $0xfa44; BYTE $0x10 // cvtsi2sd    xmm0, qword [rdx + 8*rdi + 16]
+	LONG $0x44110ff2; WORD $0x10f9             // movsd    qword [rcx + 8*rdi + 16], xmm0
+	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
+	LONG $0x2a0f48f2; WORD $0xfa44; BYTE $0x18 // cvtsi2sd    xmm0, qword [rdx + 8*rdi + 24]
+	LONG $0x44110ff2; WORD $0x18f9             // movsd    qword [rcx + 8*rdi + 24], xmm0
+	LONG $0x04c78348                           // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_502
+
+LBB0_503:
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1526
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_505:
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0x2a0f48f2; WORD $0xf204 // cvtsi2sd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x04110ff2; BYTE $0xf1   // movsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
+	JNE  LBB0_505
+	JMP  LBB0_1526
+
+LBB0_506:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_975
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_508:
+	LONG $0xba045a0f               // cvtps2pd    xmm0, qword [rdx + 4*rdi]
+	LONG $0xba4c5a0f; BYTE $0x08   // cvtps2pd    xmm1, qword [rdx + 4*rdi + 8]
+	LONG $0xf904110f               // movups    oword [rcx + 8*rdi], xmm0
+	LONG $0xf94c110f; BYTE $0x10   // movups    oword [rcx + 8*rdi + 16], xmm1
+	LONG $0xba445a0f; BYTE $0x10   // cvtps2pd    xmm0, qword [rdx + 4*rdi + 16]
+	LONG $0xba4c5a0f; BYTE $0x18   // cvtps2pd    xmm1, qword [rdx + 4*rdi + 24]
+	LONG $0x44110f66; WORD $0x20f9 // movupd    oword [rcx + 8*rdi + 32], xmm0
+	LONG $0x4c110f66; WORD $0x30f9 // movupd    oword [rcx + 8*rdi + 48], xmm1
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_508
+	JMP  LBB0_976
+
+LBB0_509:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_510:
+	LONG $0x3a04b60f               // movzx    eax, byte [rdx + rdi]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
+	LONG $0x3a44b60f; BYTE $0x01   // movzx    eax, byte [rdx + rdi + 1]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
+	LONG $0x3a44b60f; BYTE $0x02   // movzx    eax, byte [rdx + rdi + 2]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
+	LONG $0x3a44b60f; BYTE $0x03   // movzx    eax, byte [rdx + rdi + 3]
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2               // cvtsi2sd    xmm0, eax
+	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
+	LONG $0x04c78348               // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB0_510
+
+LBB0_511:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1526
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	WORD $0x0148; BYTE $0xfa // add    rdx, rdi
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_513:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0xc02a0ff2             // cvtsi2sd    xmm0, eax
+	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf0     // cmp    r8, rsi
+	JNE  LBB0_513
+	JMP  LBB0_1526
+
+LBB0_514:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_515:
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0x042a0ff2; BYTE $0xba   // cvtsi2sd    xmm0, dword [rdx + 4*rdi]
+	LONG $0x04110ff2; BYTE $0xf9   // movsd    qword [rcx + 8*rdi], xmm0
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0x442a0ff2; WORD $0x04ba // cvtsi2sd    xmm0, dword [rdx + 4*rdi + 4]
+	LONG $0x44110ff2; WORD $0x08f9 // movsd    qword [rcx + 8*rdi + 8], xmm0
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0x442a0ff2; WORD $0x08ba // cvtsi2sd    xmm0, dword [rdx + 4*rdi + 8]
+	LONG $0x44110ff2; WORD $0x10f9 // movsd    qword [rcx + 8*rdi + 16], xmm0
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0x442a0ff2; WORD $0x0cba // cvtsi2sd    xmm0, dword [rdx + 4*rdi + 12]
+	LONG $0x44110ff2; WORD $0x18f9 // movsd    qword [rcx + 8*rdi + 24], xmm0
+	LONG $0x04c78348               // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe       // cmp    rsi, rdi
+	JNE  LBB0_515
+
+LBB0_516:
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1526
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	LONG $0xba148d48         // lea    rdx, [rdx + 4*rdi]
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_518:
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0x042a0ff2; BYTE $0xb2 // cvtsi2sd    xmm0, dword [rdx + 4*rsi]
+	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JNE  LBB0_518
+	JMP  LBB0_1526
+
+LBB0_549:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_801
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_803
+
+LBB0_551:
+	LONG $0xfce18341             // and    r9d, -4
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x45100ff2; BYTE $0x00 // movsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_552:
+	LONG $0x0c100ff2; BYTE $0xc2   // movsd    xmm1, qword [rdx + 8*rax]
+	LONG $0xd1280f66               // movapd    xmm2, xmm1
+	LONG $0xd05c0ff2               // subsd    xmm2, xmm0
+	LONG $0x2c0f48f2; BYTE $0xfa   // cvttsd2si    rdi, xmm2
+	WORD $0x314c; BYTE $0xd7       // xor    rdi, r10
+	LONG $0x2c0f48f2; BYTE $0xf1   // cvttsd2si    rsi, xmm1
+	LONG $0xc12e0f66               // ucomisd    xmm0, xmm1
+	LONG $0xf7460f48               // cmovbe    rsi, rdi
+	LONG $0xc1348948               // mov    qword [rcx + 8*rax], rsi
+	LONG $0x4c100ff2; WORD $0x08c2 // movsd    xmm1, qword [rdx + 8*rax + 8]
+	LONG $0xd1280f66               // movapd    xmm2, xmm1
+	LONG $0xd05c0ff2               // subsd    xmm2, xmm0
+	LONG $0x2c0f48f2; BYTE $0xf2   // cvttsd2si    rsi, xmm2
+	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
+	LONG $0x2c0f48f2; BYTE $0xf9   // cvttsd2si    rdi, xmm1
+	LONG $0xc12e0f66               // ucomisd    xmm0, xmm1
+	LONG $0xfe460f48               // cmovbe    rdi, rsi
+	LONG $0xc17c8948; BYTE $0x08   // mov    qword [rcx + 8*rax + 8], rdi
+	LONG $0x4c100ff2; WORD $0x10c2 // movsd    xmm1, qword [rdx + 8*rax + 16]
+	LONG $0xd1280f66               // movapd    xmm2, xmm1
+	LONG $0xd05c0ff2               // subsd    xmm2, xmm0
+	LONG $0x2c0f48f2; BYTE $0xf2   // cvttsd2si    rsi, xmm2
+	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
+	LONG $0x2c0f48f2; BYTE $0xf9   // cvttsd2si    rdi, xmm1
+	LONG $0xc12e0f66               // ucomisd    xmm0, xmm1
+	LONG $0xfe460f48               // cmovbe    rdi, rsi
+	LONG $0xc17c8948; BYTE $0x10   // mov    qword [rcx + 8*rax + 16], rdi
+	LONG $0x4c100ff2; WORD $0x18c2 // movsd    xmm1, qword [rdx + 8*rax + 24]
+	LONG $0xd1280f66               // movapd    xmm2, xmm1
+	LONG $0xd05c0ff2               // subsd    xmm2, xmm0
+	LONG $0x2c0f48f2; BYTE $0xf2   // cvttsd2si    rsi, xmm2
+	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
+	LONG $0x2c0f48f2; BYTE $0xf9   // cvttsd2si    rdi, xmm1
+	LONG $0xc12e0f66               // ucomisd    xmm0, xmm1
+	LONG $0xfe460f48               // cmovbe    rdi, rsi
+	LONG $0xc17c8948; BYTE $0x18   // mov    qword [rcx + 8*rax + 24], rdi
+	LONG $0x04c08348               // add    rax, 4
+	WORD $0x3949; BYTE $0xc1       // cmp    r9, rax
+	JNE  LBB0_552
+
+LBB0_553:
+	WORD $0x854d; BYTE $0xc0     // test    r8, r8
+	JE   LBB0_1526
+	LONG $0xc10c8d48             // lea    rcx, [rcx + 8*rax]
+	LONG $0xc2048d48             // lea    rax, [rdx + 8*rax]
+	WORD $0xd231                 // xor    edx, edx
+	LONG $0x45100ff2; BYTE $0x00 // movsd    xmm0, qword 0[rbp] /* [rip + .LCPI0_0] */
+
+LBB0_555:
+	LONG $0x0c100ff2; BYTE $0xd0 // movsd    xmm1, qword [rax + 8*rdx]
+	LONG $0xd1280f66             // movapd    xmm2, xmm1
+	LONG $0xd05c0ff2             // subsd    xmm2, xmm0
+	LONG $0x2c0f48f2; BYTE $0xf2 // cvttsd2si    rsi, xmm2
+	WORD $0x314c; BYTE $0xd6     // xor    rsi, r10
+	LONG $0x2c0f48f2; BYTE $0xf9 // cvttsd2si    rdi, xmm1
+	LONG $0xc12e0f66             // ucomisd    xmm0, xmm1
+	LONG $0xfe460f48             // cmovbe    rdi, rsi
+	LONG $0xd13c8948             // mov    qword [rcx + 8*rdx], rdi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3949; BYTE $0xd0     // cmp    r8, rdx
+	JNE  LBB0_555
+	JMP  LBB0_1526
+
+LBB0_562:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_812
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_814
+
+LBB0_564:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_819
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_821
+
+LBB0_569:
+	LONG $0xfce18341                       // and    r9d, -4
+	WORD $0xff31                           // xor    edi, edi
+	QUAD $0x0000011085100ff3               // movss    xmm0, dword 272[rbp] /* [rip + .LCPI0_2] */
+	QUAD $0x000000000000ba49; WORD $0x8000 // mov    r10, -9223372036854775808
+
+LBB0_570:
+	LONG $0x0c100ff3; BYTE $0xba   // movss    xmm1, dword [rdx + 4*rdi]
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	LONG $0xd05c0ff3               // subss    xmm2, xmm0
+	LONG $0x2c0f48f3; BYTE $0xf2   // cvttss2si    rsi, xmm2
+	WORD $0x314c; BYTE $0xd6       // xor    rsi, r10
+	LONG $0x2c0f48f3; BYTE $0xc1   // cvttss2si    rax, xmm1
+	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
+	LONG $0xc6460f48               // cmovbe    rax, rsi
+	LONG $0xf9048948               // mov    qword [rcx + 8*rdi], rax
+	LONG $0x4c100ff3; WORD $0x04ba // movss    xmm1, dword [rdx + 4*rdi + 4]
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	LONG $0xd05c0ff3               // subss    xmm2, xmm0
+	LONG $0x2c0f48f3; BYTE $0xc2   // cvttss2si    rax, xmm2
+	WORD $0x314c; BYTE $0xd0       // xor    rax, r10
+	LONG $0x2c0f48f3; BYTE $0xf1   // cvttss2si    rsi, xmm1
+	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
+	LONG $0xf0460f48               // cmovbe    rsi, rax
+	LONG $0xf9748948; BYTE $0x08   // mov    qword [rcx + 8*rdi + 8], rsi
+	LONG $0x4c100ff3; WORD $0x08ba // movss    xmm1, dword [rdx + 4*rdi + 8]
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	LONG $0xd05c0ff3               // subss    xmm2, xmm0
+	LONG $0x2c0f48f3; BYTE $0xc2   // cvttss2si    rax, xmm2
+	WORD $0x314c; BYTE $0xd0       // xor    rax, r10
+	LONG $0x2c0f48f3; BYTE $0xf1   // cvttss2si    rsi, xmm1
+	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
+	LONG $0xf0460f48               // cmovbe    rsi, rax
+	LONG $0xf9748948; BYTE $0x10   // mov    qword [rcx + 8*rdi + 16], rsi
+	LONG $0x4c100ff3; WORD $0x0cba // movss    xmm1, dword [rdx + 4*rdi + 12]
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	LONG $0xd05c0ff3               // subss    xmm2, xmm0
+	LONG $0x2c0f48f3; BYTE $0xc2   // cvttss2si    rax, xmm2
+	WORD $0x314c; BYTE $0xd0       // xor    rax, r10
+	LONG $0x2c0f48f3; BYTE $0xf1   // cvttss2si    rsi, xmm1
+	WORD $0x2e0f; BYTE $0xc1       // ucomiss    xmm0, xmm1
+	LONG $0xf0460f48               // cmovbe    rsi, rax
+	LONG $0xf9748948; BYTE $0x18   // mov    qword [rcx + 8*rdi + 24], rsi
+	LONG $0x04c78348               // add    rdi, 4
+	WORD $0x3949; BYTE $0xf9       // cmp    r9, rdi
+	JNE  LBB0_570
+
+LBB0_571:
+	WORD $0x854d; BYTE $0xc0               // test    r8, r8
+	JE   LBB0_1526
+	LONG $0xf9048d48                       // lea    rax, [rcx + 8*rdi]
+	LONG $0xba0c8d48                       // lea    rcx, [rdx + 4*rdi]
+	WORD $0xd231                           // xor    edx, edx
+	QUAD $0x0000011085100ff3               // movss    xmm0, dword 272[rbp] /* [rip + .LCPI0_2] */
+	QUAD $0x000000000000b949; WORD $0x8000 // mov    r9, -9223372036854775808
+
+LBB0_573:
+	LONG $0x0c100ff3; BYTE $0x91 // movss    xmm1, dword [rcx + 4*rdx]
+	WORD $0x280f; BYTE $0xd1     // movaps    xmm2, xmm1
+	LONG $0xd05c0ff3             // subss    xmm2, xmm0
+	LONG $0x2c0f48f3; BYTE $0xfa // cvttss2si    rdi, xmm2
+	WORD $0x314c; BYTE $0xcf     // xor    rdi, r9
+	LONG $0x2c0f48f3; BYTE $0xf1 // cvttss2si    rsi, xmm1
+	WORD $0x2e0f; BYTE $0xc1     // ucomiss    xmm0, xmm1
+	LONG $0xf7460f48             // cmovbe    rsi, rdi
+	LONG $0xd0348948             // mov    qword [rax + 8*rdx], rsi
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x3949; BYTE $0xd0     // cmp    r8, rdx
+	JNE  LBB0_573
+	JMP  LBB0_1526
+
+LBB0_577:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_830
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_832
+
+LBB0_579:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_980
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000b0856f0f66 // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI0_12] */
+
+LBB0_581:
+	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x0c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_581
+	JMP  LBB0_981
+
+LBB0_582:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_985
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000b0856f0f66 // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI0_12] */
+
+LBB0_584:
+	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x0c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_584
+	JMP  LBB0_986
+
+LBB0_585:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_990
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_587:
+	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
+	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
+	LONG $0x44100f66; WORD $0x20fa // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
+	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_587
+	JMP  LBB0_991
+
+LBB0_588:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_995
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_590:
+	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
+	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
+	LONG $0x44100f66; WORD $0x20fa // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
+	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_590
+	JMP  LBB0_996
+
+LBB0_597:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1000
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_599:
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
+	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_599
+	JMP  LBB0_1001
+
+LBB0_600:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1005
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_602:
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
+	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_602
+	JMP  LBB0_1006
+
+LBB0_615:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1010
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_617:
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
+	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_617
+	JMP  LBB0_1011
+
+LBB0_618:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1015
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_620:
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x447e0f66; WORD $0x0879 // movd    dword [rcx + 2*rdi + 8], xmm0
+	LONG $0x4c7e0f66; WORD $0x0c79 // movd    dword [rcx + 2*rdi + 12], xmm1
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_620
+	JMP  LBB0_1016
+
+LBB0_621:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1020
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_623:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
+	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
+	LONG $0x2b380f66; BYTE $0xc1   // packusdw    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
+	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
+	LONG $0x2b380f66; BYTE $0xc1   // packusdw    xmm0, xmm1
+	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_623
+	JMP  LBB0_1021
+
+LBB0_624:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1025
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_626:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
+	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
+	LONG $0xc16b0f66               // packssdw    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
+	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
+	LONG $0xc16b0f66               // packssdw    xmm0, xmm1
+	LONG $0x447f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm0
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_626
+	JMP  LBB0_1026
+
+LBB0_633:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1030
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000b0856f0f66 // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI0_12] */
+
+LBB0_635:
+	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x0c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_635
+	JMP  LBB0_1031
+
+LBB0_636:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1035
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000b0856f0f66 // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI0_12] */
+
+LBB0_638:
+	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x0c7f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x4c7f0ff3; WORD $0x1079 // movdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_638
+	JMP  LBB0_1036
+
+LBB0_639:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_857
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_859
+
+LBB0_641:
+	WORD $0x8944; BYTE $0xce                   // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8                   // and    esi, -8
+	LONG $0xf8468d48                           // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
+	LONG $0x03e8c149                           // shr    r8, 3
+	LONG $0x01c08349                           // add    r8, 1
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	JE   LBB0_1040
+	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
+	LONG $0xfee08348                           // and    rax, -2
+	WORD $0xf748; BYTE $0xd8                   // neg    rax
+	WORD $0xff31                               // xor    edi, edi
+	QUAD $0x000000d0856f0f66                   // movdqa    xmm0, oword 208[rbp] /* [rip + .LCPI0_14] */
+	QUAD $0x000000e08d6f0f66                   // movdqa    xmm1, oword 224[rbp] /* [rip + .LCPI0_15] */
+	LONG $0xf095280f; WORD $0x0000; BYTE $0x00 // movaps    xmm2, oword 240[rbp] /* [rip + .LCPI0_16] */
+
+LBB0_643:
+	LONG $0x1c6f0ff3; BYTE $0xba   // movdqu    xmm3, oword [rdx + 4*rdi]
+	LONG $0x646f0ff3; WORD $0x10ba // movdqu    xmm4, oword [rdx + 4*rdi + 16]
+	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
+	LONG $0x0e3a0f66; WORD $0xaae8 // pblendw    xmm5, xmm0, 170
+	LONG $0xd3720f66; BYTE $0x10   // psrld    xmm3, 16
+	LONG $0x0e3a0f66; WORD $0xaad9 // pblendw    xmm3, xmm1, 170
+	WORD $0x5c0f; BYTE $0xda       // subps    xmm3, xmm2
+	WORD $0x580f; BYTE $0xdd       // addps    xmm3, xmm5
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0x0e3a0f66; WORD $0xaae8 // pblendw    xmm5, xmm0, 170
+	LONG $0xd4720f66; BYTE $0x10   // psrld    xmm4, 16
+	LONG $0x0e3a0f66; WORD $0xaae1 // pblendw    xmm4, xmm1, 170
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x580f; BYTE $0xe5       // addps    xmm4, xmm5
+	LONG $0xb91c110f               // movups    oword [rcx + 4*rdi], xmm3
+	LONG $0xb964110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm4
+	LONG $0x5c6f0ff3; WORD $0x20ba // movdqu    xmm3, oword [rdx + 4*rdi + 32]
+	LONG $0x646f0ff3; WORD $0x30ba // movdqu    xmm4, oword [rdx + 4*rdi + 48]
+	LONG $0xeb6f0f66               // movdqa    xmm5, xmm3
+	LONG $0x0e3a0f66; WORD $0xaae8 // pblendw    xmm5, xmm0, 170
+	LONG $0xd3720f66; BYTE $0x10   // psrld    xmm3, 16
+	LONG $0x0e3a0f66; WORD $0xaad9 // pblendw    xmm3, xmm1, 170
+	WORD $0x5c0f; BYTE $0xda       // subps    xmm3, xmm2
+	WORD $0x580f; BYTE $0xdd       // addps    xmm3, xmm5
+	LONG $0xec6f0f66               // movdqa    xmm5, xmm4
+	LONG $0x0e3a0f66; WORD $0xaae8 // pblendw    xmm5, xmm0, 170
+	LONG $0xd4720f66; BYTE $0x10   // psrld    xmm4, 16
+	LONG $0x0e3a0f66; WORD $0xaae1 // pblendw    xmm4, xmm1, 170
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x580f; BYTE $0xe5       // addps    xmm4, xmm5
+	LONG $0xb95c110f; BYTE $0x20   // movups    oword [rcx + 4*rdi + 32], xmm3
+	LONG $0xb964110f; BYTE $0x30   // movups    oword [rcx + 4*rdi + 48], xmm4
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_643
+	JMP  LBB0_1041
+
+LBB0_644:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_645:
+	LONG $0x2c0f48f2; WORD $0xfa04             // cvttsd2si    rax, qword [rdx + 8*rdi]
+	LONG $0xf9048948                           // mov    qword [rcx + 8*rdi], rax
+	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x08 // cvttsd2si    rax, qword [rdx + 8*rdi + 8]
+	LONG $0xf9448948; BYTE $0x08               // mov    qword [rcx + 8*rdi + 8], rax
+	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x10 // cvttsd2si    rax, qword [rdx + 8*rdi + 16]
+	LONG $0xf9448948; BYTE $0x10               // mov    qword [rcx + 8*rdi + 16], rax
+	LONG $0x2c0f48f2; WORD $0xfa44; BYTE $0x18 // cvttsd2si    rax, qword [rdx + 8*rdi + 24]
+	LONG $0xf9448948; BYTE $0x18               // mov    qword [rcx + 8*rdi + 24], rax
+	LONG $0x04c78348                           // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_645
+
+LBB0_646:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1526
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_648:
+	LONG $0x2c0f48f2; WORD $0xf204 // cvttsd2si    rax, qword [rdx + 8*rsi]
+	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x3949; BYTE $0xf0       // cmp    r8, rsi
+	JNE  LBB0_648
+	JMP  LBB0_1526
+
+LBB0_649:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1045
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_651:
+	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc05a0f66               // cvtpd2ps    xmm0, xmm0
+	LONG $0xc95a0f66               // cvtpd2ps    xmm1, xmm1
+	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
+	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
+	LONG $0x44100f66; WORD $0x20fa // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xc05a0f66               // cvtpd2ps    xmm0, xmm0
+	LONG $0xc95a0f66               // cvtpd2ps    xmm1, xmm1
+	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
+	LONG $0x44110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm0
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_651
+	JMP  LBB0_1046
+
+LBB0_661:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1050
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf749; BYTE $0xda // neg    r10
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000a0956f0f66 // movdqa    xmm2, oword 160[rbp] /* [rip + .LCPI0_11] */
+
+LBB0_663:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcadb0f66                           // pand    xmm1, xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd3730f66; BYTE $0x01               // psrlq    xmm3, 1
+	LONG $0xd9eb0f66                           // por    xmm3, xmm1
+	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
+	LONG $0x37380f66; BYTE $0xe0               // pcmpgtq    xmm4, xmm0
+	LONG $0x15380f66; BYTE $0xc3               // blendvpd    xmm0, xmm3, xmm0
+	LONG $0x3a0f4866; WORD $0xc016; BYTE $0x01 // pextrq    rax, xmm0, 1
+	WORD $0x570f; BYTE $0xed                   // xorps    xmm5, xmm5
+	LONG $0x2a0f48f3; BYTE $0xe8               // cvtsi2ss    xmm5, rax
+	LONG $0x7e0f4866; BYTE $0xc0               // movq    rax, xmm0
+	WORD $0x570f; BYTE $0xdb                   // xorps    xmm3, xmm3
+	LONG $0x2a0f48f3; BYTE $0xd8               // cvtsi2ss    xmm3, rax
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x213a0f66; WORD $0x1cdd             // insertps    xmm3, xmm5, 28
+	WORD $0x280f; BYTE $0xeb                   // movaps    xmm5, xmm3
+	WORD $0x580f; BYTE $0xeb                   // addps    xmm5, xmm3
+	LONG $0xc4700f66; BYTE $0xed               // pshufd    xmm0, xmm4, 237
+	LONG $0x14380f66; BYTE $0xdd               // blendvps    xmm3, xmm5, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0xc2db0f66                           // pand    xmm0, xmm2
+	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
+	LONG $0xd4730f66; BYTE $0x01               // psrlq    xmm4, 1
+	LONG $0xe0eb0f66                           // por    xmm4, xmm0
+	WORD $0x570f; BYTE $0xed                   // xorps    xmm5, xmm5
+	LONG $0x37380f66; BYTE $0xe9               // pcmpgtq    xmm5, xmm1
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xcc               // blendvpd    xmm1, xmm4, xmm0
+	LONG $0x3a0f4866; WORD $0xc816; BYTE $0x01 // pextrq    rax, xmm1, 1
+	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
+	LONG $0x2a0f48f3; BYTE $0xc0               // cvtsi2ss    xmm0, rax
+	LONG $0x7e0f4866; BYTE $0xc8               // movq    rax, xmm1
+	WORD $0x570f; BYTE $0xc9                   // xorps    xmm1, xmm1
+	LONG $0x2a0f48f3; BYTE $0xc8               // cvtsi2ss    xmm1, rax
+	LONG $0x213a0f66; WORD $0x1cc8             // insertps    xmm1, xmm0, 28
+	WORD $0x280f; BYTE $0xe1                   // movaps    xmm4, xmm1
+	WORD $0x580f; BYTE $0xe1                   // addps    xmm4, xmm1
+	LONG $0xc5700f66; BYTE $0xed               // pshufd    xmm0, xmm5, 237
+	LONG $0x14380f66; BYTE $0xcc               // blendvps    xmm1, xmm4, xmm0
+	WORD $0x160f; BYTE $0xd9                   // movlhps    xmm3, xmm1
+	LONG $0xb91c110f                           // movups    oword [rcx + 4*rdi], xmm3
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcadb0f66                           // pand    xmm1, xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd3730f66; BYTE $0x01               // psrlq    xmm3, 1
+	LONG $0xd9eb0f66                           // por    xmm3, xmm1
+	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
+	LONG $0x37380f66; BYTE $0xe0               // pcmpgtq    xmm4, xmm0
+	LONG $0x15380f66; BYTE $0xc3               // blendvpd    xmm0, xmm3, xmm0
+	LONG $0x3a0f4866; WORD $0xc016; BYTE $0x01 // pextrq    rax, xmm0, 1
+	WORD $0x570f; BYTE $0xed                   // xorps    xmm5, xmm5
+	LONG $0x2a0f48f3; BYTE $0xe8               // cvtsi2ss    xmm5, rax
+	LONG $0x7e0f4866; BYTE $0xc0               // movq    rax, xmm0
+	WORD $0x570f; BYTE $0xdb                   // xorps    xmm3, xmm3
+	LONG $0x2a0f48f3; BYTE $0xd8               // cvtsi2ss    xmm3, rax
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x213a0f66; WORD $0x1cdd             // insertps    xmm3, xmm5, 28
+	WORD $0x280f; BYTE $0xeb                   // movaps    xmm5, xmm3
+	WORD $0x580f; BYTE $0xeb                   // addps    xmm5, xmm3
+	LONG $0xc4700f66; BYTE $0xed               // pshufd    xmm0, xmm4, 237
+	LONG $0x14380f66; BYTE $0xdd               // blendvps    xmm3, xmm5, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0xc2db0f66                           // pand    xmm0, xmm2
+	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
+	LONG $0xd4730f66; BYTE $0x01               // psrlq    xmm4, 1
+	LONG $0xe0eb0f66                           // por    xmm4, xmm0
+	WORD $0x570f; BYTE $0xed                   // xorps    xmm5, xmm5
+	LONG $0x37380f66; BYTE $0xe9               // pcmpgtq    xmm5, xmm1
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xcc               // blendvpd    xmm1, xmm4, xmm0
+	LONG $0x3a0f4866; WORD $0xc816; BYTE $0x01 // pextrq    rax, xmm1, 1
+	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
+	LONG $0x2a0f48f3; BYTE $0xc0               // cvtsi2ss    xmm0, rax
+	LONG $0x7e0f4866; BYTE $0xc8               // movq    rax, xmm1
+	WORD $0x570f; BYTE $0xc9                   // xorps    xmm1, xmm1
+	LONG $0x2a0f48f3; BYTE $0xc8               // cvtsi2ss    xmm1, rax
+	LONG $0x213a0f66; WORD $0x1cc8             // insertps    xmm1, xmm0, 28
+	WORD $0x280f; BYTE $0xe1                   // movaps    xmm4, xmm1
+	WORD $0x580f; BYTE $0xe1                   // addps    xmm4, xmm1
+	LONG $0xc5700f66; BYTE $0xed               // pshufd    xmm0, xmm5, 237
+	LONG $0x14380f66; BYTE $0xcc               // blendvps    xmm1, xmm4, xmm0
+	WORD $0x160f; BYTE $0xd9                   // movlhps    xmm3, xmm1
+	LONG $0xb95c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28349                           // add    r10, 2
+	JNE  LBB0_663
+	JMP  LBB0_1051
+
+LBB0_664:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_871
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_873
+
+LBB0_666:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1058
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_668:
+	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
+	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
+	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
+	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x33380f66; WORD $0x7a44; BYTE $0x10 // pmovzxwd    xmm0, qword [rdx + 2*rdi + 16]
+	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x18 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 24]
+	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
+	LONG $0xb944110f; BYTE $0x20               // movups    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0xb94c110f; BYTE $0x30               // movups    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_668
+	JMP  LBB0_1059
+
+LBB0_669:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_878
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_880
+
+LBB0_671:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1063
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_673:
+	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
+	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
+	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
+	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x23380f66; WORD $0x7a44; BYTE $0x10 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 16]
+	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
+	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
+	LONG $0xb944110f; BYTE $0x20               // movups    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0xb94c110f; BYTE $0x30               // movups    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_673
+	JMP  LBB0_1064
+
+LBB0_677:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_678:
+	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
+	LONG $0x2a0f48f3; WORD $0xfa04             // cvtsi2ss    xmm0, qword [rdx + 8*rdi]
+	LONG $0x04110ff3; BYTE $0xb9               // movss    dword [rcx + 4*rdi], xmm0
+	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
+	LONG $0x2a0f48f3; WORD $0xfa44; BYTE $0x08 // cvtsi2ss    xmm0, qword [rdx + 8*rdi + 8]
+	LONG $0x44110ff3; WORD $0x04b9             // movss    dword [rcx + 4*rdi + 4], xmm0
+	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
+	LONG $0x2a0f48f3; WORD $0xfa44; BYTE $0x10 // cvtsi2ss    xmm0, qword [rdx + 8*rdi + 16]
+	LONG $0x44110ff3; WORD $0x08b9             // movss    dword [rcx + 4*rdi + 8], xmm0
+	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
+	LONG $0x2a0f48f3; WORD $0xfa44; BYTE $0x18 // cvtsi2ss    xmm0, qword [rdx + 8*rdi + 24]
+	LONG $0x44110ff3; WORD $0x0cb9             // movss    dword [rcx + 4*rdi + 12], xmm0
+	LONG $0x04c78348                           // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_678
+
+LBB0_679:
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1526
+	LONG $0xb90c8d48         // lea    rcx, [rcx + 4*rdi]
+	LONG $0xfa148d48         // lea    rdx, [rdx + 8*rdi]
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_681:
+	WORD $0x570f; BYTE $0xc0       // xorps    xmm0, xmm0
+	LONG $0x2a0f48f3; WORD $0xf204 // cvtsi2ss    xmm0, qword [rdx + 8*rsi]
+	LONG $0x04110ff3; BYTE $0xb1   // movss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x3948; BYTE $0xf0       // cmp    rax, rsi
+	JNE  LBB0_681
+	JMP  LBB0_1526
+
+LBB0_682:
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_683:
+	LONG $0x2c0f48f3; WORD $0xba04             // cvttss2si    rax, dword [rdx + 4*rdi]
+	LONG $0xf9048948                           // mov    qword [rcx + 8*rdi], rax
+	LONG $0x2c0f48f3; WORD $0xba44; BYTE $0x04 // cvttss2si    rax, dword [rdx + 4*rdi + 4]
+	LONG $0xf9448948; BYTE $0x08               // mov    qword [rcx + 8*rdi + 8], rax
+	LONG $0x2c0f48f3; WORD $0xba44; BYTE $0x08 // cvttss2si    rax, dword [rdx + 4*rdi + 8]
+	LONG $0xf9448948; BYTE $0x10               // mov    qword [rcx + 8*rdi + 16], rax
+	LONG $0x2c0f48f3; WORD $0xba44; BYTE $0x0c // cvttss2si    rax, dword [rdx + 4*rdi + 12]
+	LONG $0xf9448948; BYTE $0x18               // mov    qword [rcx + 8*rdi + 24], rax
+	LONG $0x04c78348                           // add    rdi, 4
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_683
+
+LBB0_684:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1526
+	LONG $0xf90c8d48         // lea    rcx, [rcx + 8*rdi]
+	LONG $0xba148d48         // lea    rdx, [rdx + 4*rdi]
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_686:
+	LONG $0x2c0f48f3; WORD $0xb204 // cvttss2si    rax, dword [rdx + 4*rsi]
+	LONG $0xf1048948               // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x3949; BYTE $0xf0       // cmp    r8, rsi
+	JNE  LBB0_686
+	JMP  LBB0_1526
+
+LBB0_696:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_894
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_896
+
+LBB0_698:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1068
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_700:
+	LONG $0xba04100f             // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10 // movups    xmm1, oword [rdx + 4*rdi + 16]
+	WORD $0x5b0f; BYTE $0xc0     // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9     // cvtdq2ps    xmm1, xmm1
+	LONG $0xb904110f             // movups    oword [rcx + 4*rdi], xmm0
+	LONG $0xb94c110f; BYTE $0x10 // movups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0xba44100f; BYTE $0x20 // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30 // movups    xmm1, oword [rdx + 4*rdi + 48]
+	WORD $0x5b0f; BYTE $0xc0     // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9     // cvtdq2ps    xmm1, xmm1
+	LONG $0xb944110f; BYTE $0x20 // movups    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0xb94c110f; BYTE $0x30 // movups    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348             // add    rdi, 16
+	LONG $0x02c08348             // add    rax, 2
+	JNE  LBB0_700
+	JMP  LBB0_1069
+
+LBB0_734:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1073
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_736:
+	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
+	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
+	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
+	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
+	LONG $0x44100f66; WORD $0x20fa // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
+	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
+	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
+	LONG $0x44110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm0
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_736
+	JMP  LBB0_1074
+
+LBB0_740:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_939
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_742:
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_742
+	JMP  LBB0_940
+
+LBB0_743:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1078
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_745:
+	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x33380f66; WORD $0x7a44; BYTE $0x10 // pmovzxwd    xmm0, qword [rdx + 2*rdi + 16]
+	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x18 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 24]
+	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_745
+	JMP  LBB0_1079
+
+LBB0_746:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1083
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_748:
+	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x23380f66; WORD $0x7a44; BYTE $0x10 // pmovsxwd    xmm0, qword [rdx + 2*rdi + 16]
+	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x18 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 24]
+	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_748
+	JMP  LBB0_1084
+
+LBB0_749:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x02e8c149         // shr    r8, 2
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1088
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_751:
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x447f0ff3; WORD $0x10b9 // movdqu    oword [rcx + 4*rdi + 16], xmm0
+	LONG $0x08c78348               // add    rdi, 8
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_751
+	JMP  LBB0_1089
+
+LBB0_752:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1093
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_754:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
+	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
+	LONG $0xb904110f               // movups    oword [rcx + 4*rdi], xmm0
+	LONG $0xb94c110f; BYTE $0x10   // movups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
+	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
+	LONG $0x44110f66; WORD $0x20b9 // movupd    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0x4c110f66; WORD $0x30b9 // movupd    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_754
+	JMP  LBB0_1094
+
+LBB0_761:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03efc148         // shr    rdi, 3
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x18f88348         // cmp    rax, 24
+	JAE  LBB0_1098
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1100
+
+LBB0_763:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1478
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_765:
+	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
+	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
+	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x0c // pmovsxbd    xmm1, dword [rdx + rdi + 12]
+	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_765
+	JMP  LBB0_1479
+
+LBB0_766:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1486
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_768:
+	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
+	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x31380f66; WORD $0x3a44; BYTE $0x08 // pmovzxbd    xmm0, dword [rdx + rdi + 8]
+	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x0c // pmovzxbd    xmm1, dword [rdx + rdi + 12]
+	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_768
+	JMP  LBB0_1487
+
+LBB0_769:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03efc148         // shr    rdi, 3
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x18f88348         // cmp    rax, 24
+	JAE  LBB0_1108
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1110
+
+LBB0_771:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_1118
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1120
+
+LBB0_773:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1494
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000c0856f0f66 // movdqa    xmm0, oword 192[rbp] /* [rip + .LCPI0_13] */
+
+LBB0_775:
+	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0x0c7e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm1
+	LONG $0x547e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0x4c7e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm1
+	LONG $0x547e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm2
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_775
+	JMP  LBB0_1495
+
+LBB0_776:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1502
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI0_1] */
+
+LBB0_778:
+	LONG $0x0c100f66; BYTE $0xfa               // movupd    xmm1, oword [rdx + 8*rdi]
+	LONG $0x54100f66; WORD $0x10fa             // movupd    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
+	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
+	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
+	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
+	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
+	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
+	LONG $0x4c100f66; WORD $0x20fa             // movupd    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x54100f66; WORD $0x30fa             // movupd    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
+	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
+	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
+	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
+	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
+	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_778
+	JMP  LBB0_1503
+
+LBB0_779:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x05efc148         // shr    rdi, 5
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x60f88348         // cmp    rax, 96
+	JAE  LBB0_1128
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1130
+
+LBB0_781:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1318
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456f0f66; BYTE $0x40 // movdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_5] */
+
+LBB0_783:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
+	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
+	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
+	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
+	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
+	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
+	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_783
+	JMP  LBB0_1319
+
+LBB0_784:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1326
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x00000100856f0f66 // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI0_17] */
+
+LBB0_786:
+	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x0c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm1
+	LONG $0x4c6f0ff3; WORD $0x207a // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
+	LONG $0x20c78348               // add    rdi, 32
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_786
+	JMP  LBB0_1327
+
+LBB0_787:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1510
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x00000100856f0f66 // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI0_17] */
+
+LBB0_789:
+	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x0c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm1
+	LONG $0x4c6f0ff3; WORD $0x207a // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
+	LONG $0x20c78348               // add    rdi, 32
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_789
+	JMP  LBB0_1511
+
+LBB0_790:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1334
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456f0f66; BYTE $0x40 // movdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_5] */
+
+LBB0_792:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
+	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
+	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
+	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
+	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
+	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
+	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_792
+	JMP  LBB0_1335
+
+LBB0_793:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1518
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_795:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
+	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
+	LONG $0xc0630f66               // packsswb    xmm0, xmm0
+	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
+	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
+	LONG $0xc9630f66               // packsswb    xmm1, xmm1
+	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
+	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
+	LONG $0xc0630f66               // packsswb    xmm0, xmm0
+	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
+	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
+	LONG $0xc9630f66               // packsswb    xmm1, xmm1
+	LONG $0x447e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm0
+	LONG $0x4c7e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_795
+	JMP  LBB0_1519
+
+LBB0_796:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x05efc148         // shr    rdi, 5
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x60f88348         // cmp    rax, 96
+	JAE  LBB0_1138
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1140
+
+LBB0_798:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1342
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000c0856f0f66 // movdqa    xmm0, oword 192[rbp] /* [rip + .LCPI0_13] */
+
+LBB0_800:
+	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0x0c7e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm1
+	LONG $0x547e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0x4c7e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm1
+	LONG $0x547e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm2
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_800
+	JMP  LBB0_1343
+
+LBB0_808:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_1148
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1150
+
+LBB0_810:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_1158
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1160
+
+LBB0_826:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_1168
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1170
+
+LBB0_828:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_1178
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1180
+
+LBB0_837:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1350
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_839:
+	LONG $0x20380f66; WORD $0x3a04             // pmovsxbw    xmm0, qword [rdx + rdi]
+	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbw    xmm1, qword [rdx + rdi + 8]
+	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x20380f66; WORD $0x3a44; BYTE $0x10 // pmovsxbw    xmm0, qword [rdx + rdi + 16]
+	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x18 // pmovsxbw    xmm1, qword [rdx + rdi + 24]
+	LONG $0x447f0ff3; WORD $0x2079             // movdqu    oword [rcx + 2*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x3079             // movdqu    oword [rcx + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_839
+	JMP  LBB0_1351
+
+LBB0_840:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1358
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_842:
+	LONG $0x20380f66; WORD $0x3a04             // pmovsxbw    xmm0, qword [rdx + rdi]
+	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbw    xmm1, qword [rdx + rdi + 8]
+	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x20380f66; WORD $0x3a44; BYTE $0x10 // pmovsxbw    xmm0, qword [rdx + rdi + 16]
+	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x18 // pmovsxbw    xmm1, qword [rdx + rdi + 24]
+	LONG $0x447f0ff3; WORD $0x2079             // movdqu    oword [rcx + 2*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x3079             // movdqu    oword [rcx + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_842
+	JMP  LBB0_1359
+
+LBB0_843:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x04efc148         // shr    rdi, 4
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x30f88348         // cmp    rax, 48
+	JAE  LBB0_1188
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1190
+
+LBB0_845:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x04efc148         // shr    rdi, 4
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x30f88348         // cmp    rax, 48
+	JAE  LBB0_1198
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1200
+
+LBB0_847:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x04efc148         // shr    rdi, 4
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x30f88348         // cmp    rax, 48
+	JAE  LBB0_1208
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1210
+
+LBB0_849:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x04efc148         // shr    rdi, 4
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x30f88348         // cmp    rax, 48
+	JAE  LBB0_1218
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1220
+
+LBB0_851:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1366
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_853:
+	LONG $0x30380f66; WORD $0x3a04             // pmovzxbw    xmm0, qword [rdx + rdi]
+	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x08 // pmovzxbw    xmm1, qword [rdx + rdi + 8]
+	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x30380f66; WORD $0x3a44; BYTE $0x10 // pmovzxbw    xmm0, qword [rdx + rdi + 16]
+	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x18 // pmovzxbw    xmm1, qword [rdx + rdi + 24]
+	LONG $0x447f0ff3; WORD $0x2079             // movdqu    oword [rcx + 2*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x3079             // movdqu    oword [rcx + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_853
+	JMP  LBB0_1367
+
+LBB0_854:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1374
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_856:
+	LONG $0x30380f66; WORD $0x3a04             // pmovzxbw    xmm0, qword [rdx + rdi]
+	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x08 // pmovzxbw    xmm1, qword [rdx + rdi + 8]
+	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
+	LONG $0x30380f66; WORD $0x3a44; BYTE $0x10 // pmovzxbw    xmm0, qword [rdx + rdi + 16]
+	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x18 // pmovzxbw    xmm1, qword [rdx + rdi + 24]
+	LONG $0x447f0ff3; WORD $0x2079             // movdqu    oword [rcx + 2*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x3079             // movdqu    oword [rcx + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_856
+	JMP  LBB0_1375
+
+LBB0_864:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_1228
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1230
+
+LBB0_866:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1382
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_868:
+	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
+	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
+	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
+	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
+	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
+	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x0c // pmovsxbd    xmm1, dword [rdx + rdi + 12]
+	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
+	LONG $0xb944110f; BYTE $0x20               // movups    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0xb94c110f; BYTE $0x30               // movups    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_868
+	JMP  LBB0_1383
+
+LBB0_869:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_1238
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1240
+
+LBB0_885:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_1248
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1250
+
+LBB0_887:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03efc148         // shr    rdi, 3
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x18f88348         // cmp    rax, 24
+	JAE  LBB0_1258
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1260
+
+LBB0_889:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x02efc148         // shr    rdi, 2
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x0cf88348         // cmp    rax, 12
+	JAE  LBB0_1268
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1270
+
+LBB0_891:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1390
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_893:
+	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
+	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
+	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
+	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
+	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x31380f66; WORD $0x3a44; BYTE $0x08 // pmovzxbd    xmm0, dword [rdx + rdi + 8]
+	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x0c // pmovzxbd    xmm1, dword [rdx + rdi + 12]
+	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
+	LONG $0xb944110f; BYTE $0x20               // movups    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0xb94c110f; BYTE $0x30               // movups    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_893
+	JMP  LBB0_1391
+
+LBB0_901:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1398
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000c0856f0f66 // movdqa    xmm0, oword 192[rbp] /* [rip + .LCPI0_13] */
+
+LBB0_903:
+	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0x0c7e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm1
+	LONG $0x547e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0x4c7e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm1
+	LONG $0x547e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm2
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_903
+	JMP  LBB0_1399
+
+LBB0_904:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1406
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456f0f66; BYTE $0x10 // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI0_1] */
+
+LBB0_906:
+	LONG $0x0c100f66; BYTE $0xfa               // movupd    xmm1, oword [rdx + 8*rdi]
+	LONG $0x54100f66; WORD $0x10fa             // movupd    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
+	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
+	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
+	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
+	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
+	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
+	LONG $0x4c100f66; WORD $0x20fa             // movupd    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x54100f66; WORD $0x30fa             // movupd    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
+	LONG $0xd2e60f66                           // cvttpd2dq    xmm2, xmm2
+	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
+	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
+	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
+	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_906
+	JMP  LBB0_1407
+
+LBB0_907:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x05efc148         // shr    rdi, 5
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x60f88348         // cmp    rax, 96
+	JAE  LBB0_1278
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1280
+
+LBB0_909:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1414
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456f0f66; BYTE $0x40 // movdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_5] */
+
+LBB0_911:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
+	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
+	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
+	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
+	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
+	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
+	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_911
+	JMP  LBB0_1415
+
+LBB0_912:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1422
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x00000100856f0f66 // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI0_17] */
+
+LBB0_914:
+	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x0c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm1
+	LONG $0x4c6f0ff3; WORD $0x207a // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
+	LONG $0x20c78348               // add    rdi, 32
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_914
+	JMP  LBB0_1423
+
+LBB0_915:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x04e8c149         // shr    r8, 4
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1430
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x00000100856f0f66 // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI0_17] */
+
+LBB0_917:
+	LONG $0x0c6f0ff3; BYTE $0x7a   // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x0c7f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm1
+	LONG $0x4c6f0ff3; WORD $0x207a // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0xca6c0f66               // punpcklqdq    xmm1, xmm2
+	LONG $0x4c7f0ff3; WORD $0x1039 // movdqu    oword [rcx + rdi + 16], xmm1
+	LONG $0x20c78348               // add    rdi, 32
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_917
+	JMP  LBB0_1431
+
+LBB0_918:
+	WORD $0x8944; BYTE $0xce     // mov    esi, r9d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x02e8c149             // shr    r8, 2
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_1438
+	WORD $0x894c; BYTE $0xc0     // mov    rax, r8
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x456f0f66; BYTE $0x40 // movdqa    xmm0, oword 64[rbp] /* [rip + .LCPI0_5] */
+
+LBB0_920:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
+	LONG $0x153a0f66; WORD $0x390c; BYTE $0x00 // pextrw    word [rcx + rdi], xmm1, 0
+	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
+	QUAD $0x00023954153a0f66                   // pextrw    word [rcx + rdi + 2], xmm2, 0
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8               // pshufb    xmm1, xmm0
+	QUAD $0x0004394c153a0f66                   // pextrw    word [rcx + rdi + 4], xmm1, 0
+	LONG $0x00380f66; BYTE $0xd0               // pshufb    xmm2, xmm0
+	QUAD $0x00063954153a0f66                   // pextrw    word [rcx + rdi + 6], xmm2, 0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_920
+	JMP  LBB0_1439
+
+LBB0_921:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1446
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_923:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
+	LONG $0x2b380f66; BYTE $0xc0   // packusdw    xmm0, xmm0
+	LONG $0xc0670f66               // packuswb    xmm0, xmm0
+	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
+	LONG $0x2b380f66; BYTE $0xc9   // packusdw    xmm1, xmm1
+	LONG $0xc9670f66               // packuswb    xmm1, xmm1
+	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
+	LONG $0x2b380f66; BYTE $0xc0   // packusdw    xmm0, xmm0
+	LONG $0xc0670f66               // packuswb    xmm0, xmm0
+	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
+	LONG $0x2b380f66; BYTE $0xc9   // packusdw    xmm1, xmm1
+	LONG $0xc9670f66               // packuswb    xmm1, xmm1
+	LONG $0x447e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm0
+	LONG $0x4c7e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_923
+	JMP  LBB0_1447
+
+LBB0_924:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x05efc148         // shr    rdi, 5
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x60f88348         // cmp    rax, 96
+	JAE  LBB0_1288
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1290
+
+LBB0_926:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1454
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+	QUAD $0x000000c0856f0f66 // movdqa    xmm0, oword 192[rbp] /* [rip + .LCPI0_13] */
+
+LBB0_928:
+	LONG $0x0c6f0ff3; BYTE $0xba   // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0x0c7e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm1
+	LONG $0x547e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0x00380f66; BYTE $0xc8   // pshufb    xmm1, xmm0
+	LONG $0x00380f66; BYTE $0xd0   // pshufb    xmm2, xmm0
+	LONG $0x4c7e0f66; WORD $0x0839 // movd    dword [rcx + rdi + 8], xmm1
+	LONG $0x547e0f66; WORD $0x0c39 // movd    dword [rcx + rdi + 12], xmm2
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_928
+	JMP  LBB0_1455
+
+LBB0_929:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03efc148         // shr    rdi, 3
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x18f88348         // cmp    rax, 24
+	JAE  LBB0_1298
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1300
+
+LBB0_931:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1462
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_933:
+	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
+	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x21380f66; WORD $0x3a44; BYTE $0x08 // pmovsxbd    xmm0, dword [rdx + rdi + 8]
+	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x0c // pmovsxbd    xmm1, dword [rdx + rdi + 12]
+	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_933
+	JMP  LBB0_1463
+
+LBB0_934:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc0 // mov    r8, rax
+	LONG $0x03e8c149         // shr    r8, 3
+	LONG $0x01c08349         // add    r8, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_1470
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_936:
+	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
+	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+	LONG $0x31380f66; WORD $0x3a44; BYTE $0x08 // pmovzxbd    xmm0, dword [rdx + rdi + 8]
+	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x0c // pmovzxbd    xmm1, dword [rdx + rdi + 12]
+	LONG $0x447f0ff3; WORD $0x20b9             // movdqu    oword [rcx + 4*rdi + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30b9             // movdqu    oword [rcx + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_936
+	JMP  LBB0_1471
+
+LBB0_937:
+	WORD $0x8944; BYTE $0xce // mov    esi, r9d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03efc148         // shr    rdi, 3
+	LONG $0x01c78348         // add    rdi, 1
+	WORD $0x8941; BYTE $0xf8 // mov    r8d, edi
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x18f88348         // cmp    rax, 24
+	JAE  LBB0_1308
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB0_1310
+
+LBB0_801:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_802:
+	LONG $0x35380f66; WORD $0x8204             // pmovzxdq    xmm0, qword [rdx + 4*rax]
+	LONG $0x35380f66; WORD $0x824c; BYTE $0x08 // pmovzxdq    xmm1, qword [rdx + 4*rax + 8]
+	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
+	LONG $0x35380f66; WORD $0x8244; BYTE $0x10 // pmovzxdq    xmm0, qword [rdx + 4*rax + 16]
+	LONG $0x35380f66; WORD $0x824c; BYTE $0x18 // pmovzxdq    xmm1, qword [rdx + 4*rax + 24]
+	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
+	LONG $0x35380f66; WORD $0x8244; BYTE $0x20 // pmovzxdq    xmm0, qword [rdx + 4*rax + 32]
+	LONG $0x35380f66; WORD $0x824c; BYTE $0x28 // pmovzxdq    xmm1, qword [rdx + 4*rax + 40]
+	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
+	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x35380f66; WORD $0x8244; BYTE $0x30 // pmovzxdq    xmm0, qword [rdx + 4*rax + 48]
+	LONG $0x35380f66; WORD $0x824c; BYTE $0x38 // pmovzxdq    xmm1, qword [rdx + 4*rax + 56]
+	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x04c78348                           // add    rdi, 4
+	JNE  LBB0_802
+
+LBB0_803:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_806
+	QUAD $0x0000000885048d48 // lea    rax, [4*rax + 8]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_805:
+	LONG $0x35380f66; WORD $0x0244; BYTE $0xf8 // pmovzxdq    xmm0, qword [rdx + rax - 8]
+	LONG $0x35380f66; WORD $0x020c             // pmovzxdq    xmm1, qword [rdx + rax]
+	LONG $0x447f0ff3; WORD $0xf041             // movdqu    oword [rcx + 2*rax - 16], xmm0
+	LONG $0x0c7f0ff3; BYTE $0x41               // movdqu    oword [rcx + 2*rax], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0xff49; BYTE $0xc0                   // inc    r8
+	JNE  LBB0_805
+
+LBB0_806:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_807:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_807
+	JMP  LBB0_1526
+
+LBB0_812:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_813:
+	LONG $0x34380f66; WORD $0x4204             // pmovzxwq    xmm0, dword [rdx + 2*rax]
+	LONG $0x34380f66; WORD $0x424c; BYTE $0x04 // pmovzxwq    xmm1, dword [rdx + 2*rax + 4]
+	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
+	LONG $0x34380f66; WORD $0x4244; BYTE $0x08 // pmovzxwq    xmm0, dword [rdx + 2*rax + 8]
+	LONG $0x34380f66; WORD $0x424c; BYTE $0x0c // pmovzxwq    xmm1, dword [rdx + 2*rax + 12]
+	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
+	LONG $0x34380f66; WORD $0x4244; BYTE $0x10 // pmovzxwq    xmm0, dword [rdx + 2*rax + 16]
+	LONG $0x34380f66; WORD $0x424c; BYTE $0x14 // pmovzxwq    xmm1, dword [rdx + 2*rax + 20]
+	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
+	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x34380f66; WORD $0x4244; BYTE $0x18 // pmovzxwq    xmm0, dword [rdx + 2*rax + 24]
+	LONG $0x34380f66; WORD $0x424c; BYTE $0x1c // pmovzxwq    xmm1, dword [rdx + 2*rax + 28]
+	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x04c78348                           // add    rdi, 4
+	JNE  LBB0_813
+
+LBB0_814:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_817
+	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
+	LONG $0x10c78348         // add    rdi, 16
+	LONG $0x42148d4c         // lea    r10, [rdx + 2*rax]
+	LONG $0x04c28349         // add    r10, 4
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_816:
+	QUAD $0xfcc24434380f4166                   // pmovzxwq    xmm0, dword [r10 + 8*rax - 4]
+	LONG $0x380f4166; WORD $0x0c34; BYTE $0xc2 // pmovzxwq    xmm1, dword [r10 + 8*rax]
+	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
+	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x01c08348                           // add    rax, 1
+	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
+	JNE  LBB0_816
+
+LBB0_817:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_818:
+	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_818
+	JMP  LBB0_1526
+
+LBB0_819:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_820:
+	LONG $0x24380f66; WORD $0x4204             // pmovsxwq    xmm0, dword [rdx + 2*rax]
+	LONG $0x24380f66; WORD $0x424c; BYTE $0x04 // pmovsxwq    xmm1, dword [rdx + 2*rax + 4]
+	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
+	LONG $0x24380f66; WORD $0x4244; BYTE $0x08 // pmovsxwq    xmm0, dword [rdx + 2*rax + 8]
+	LONG $0x24380f66; WORD $0x424c; BYTE $0x0c // pmovsxwq    xmm1, dword [rdx + 2*rax + 12]
+	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
+	LONG $0x24380f66; WORD $0x4244; BYTE $0x10 // pmovsxwq    xmm0, dword [rdx + 2*rax + 16]
+	LONG $0x24380f66; WORD $0x424c; BYTE $0x14 // pmovsxwq    xmm1, dword [rdx + 2*rax + 20]
+	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
+	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x24380f66; WORD $0x4244; BYTE $0x18 // pmovsxwq    xmm0, dword [rdx + 2*rax + 24]
+	LONG $0x24380f66; WORD $0x424c; BYTE $0x1c // pmovsxwq    xmm1, dword [rdx + 2*rax + 28]
+	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x04c78348                           // add    rdi, 4
+	JNE  LBB0_820
+
+LBB0_821:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_824
+	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
+	LONG $0x10c78348         // add    rdi, 16
+	LONG $0x42148d4c         // lea    r10, [rdx + 2*rax]
+	LONG $0x04c28349         // add    r10, 4
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_823:
+	QUAD $0xfcc24424380f4166                   // pmovsxwq    xmm0, dword [r10 + 8*rax - 4]
+	LONG $0x380f4166; WORD $0x0c24; BYTE $0xc2 // pmovsxwq    xmm1, dword [r10 + 8*rax]
+	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
+	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x01c08348                           // add    rax, 1
+	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
+	JNE  LBB0_823
+
+LBB0_824:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_825:
+	LONG $0x04bf0f48; BYTE $0x72 // movsx    rax, word [rdx + 2*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_825
+	JMP  LBB0_1526
+
+LBB0_830:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_831:
+	LONG $0x25380f66; WORD $0x8204             // pmovsxdq    xmm0, qword [rdx + 4*rax]
+	LONG $0x25380f66; WORD $0x824c; BYTE $0x08 // pmovsxdq    xmm1, qword [rdx + 4*rax + 8]
+	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
+	LONG $0x25380f66; WORD $0x8244; BYTE $0x10 // pmovsxdq    xmm0, qword [rdx + 4*rax + 16]
+	LONG $0x25380f66; WORD $0x824c; BYTE $0x18 // pmovsxdq    xmm1, qword [rdx + 4*rax + 24]
+	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
+	LONG $0x25380f66; WORD $0x8244; BYTE $0x20 // pmovsxdq    xmm0, qword [rdx + 4*rax + 32]
+	LONG $0x25380f66; WORD $0x824c; BYTE $0x28 // pmovsxdq    xmm1, qword [rdx + 4*rax + 40]
+	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
+	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x25380f66; WORD $0x8244; BYTE $0x30 // pmovsxdq    xmm0, qword [rdx + 4*rax + 48]
+	LONG $0x25380f66; WORD $0x824c; BYTE $0x38 // pmovsxdq    xmm1, qword [rdx + 4*rax + 56]
+	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x04c78348                           // add    rdi, 4
+	JNE  LBB0_831
+
+LBB0_832:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_835
+	QUAD $0x0000000885048d48 // lea    rax, [4*rax + 8]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_834:
+	LONG $0x25380f66; WORD $0x0244; BYTE $0xf8 // pmovsxdq    xmm0, qword [rdx + rax - 8]
+	LONG $0x25380f66; WORD $0x020c             // pmovsxdq    xmm1, qword [rdx + rax]
+	LONG $0x447f0ff3; WORD $0xf041             // movdqu    oword [rcx + 2*rax - 16], xmm0
+	LONG $0x0c7f0ff3; BYTE $0x41               // movdqu    oword [rcx + 2*rax], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0xff49; BYTE $0xc0                   // inc    r8
+	JNE  LBB0_834
+
+LBB0_835:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_836:
+	LONG $0xb2046348         // movsxd    rax, dword [rdx + 4*rsi]
+	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_836
+	JMP  LBB0_1526
+
+LBB0_857:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_858:
+	LONG $0x35380f66; WORD $0x8204             // pmovzxdq    xmm0, qword [rdx + 4*rax]
+	LONG $0x35380f66; WORD $0x824c; BYTE $0x08 // pmovzxdq    xmm1, qword [rdx + 4*rax + 8]
+	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
+	LONG $0x35380f66; WORD $0x8244; BYTE $0x10 // pmovzxdq    xmm0, qword [rdx + 4*rax + 16]
+	LONG $0x35380f66; WORD $0x824c; BYTE $0x18 // pmovzxdq    xmm1, qword [rdx + 4*rax + 24]
+	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
+	LONG $0x35380f66; WORD $0x8244; BYTE $0x20 // pmovzxdq    xmm0, qword [rdx + 4*rax + 32]
+	LONG $0x35380f66; WORD $0x824c; BYTE $0x28 // pmovzxdq    xmm1, qword [rdx + 4*rax + 40]
+	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
+	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x35380f66; WORD $0x8244; BYTE $0x30 // pmovzxdq    xmm0, qword [rdx + 4*rax + 48]
+	LONG $0x35380f66; WORD $0x824c; BYTE $0x38 // pmovzxdq    xmm1, qword [rdx + 4*rax + 56]
+	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x04c78348                           // add    rdi, 4
+	JNE  LBB0_858
+
+LBB0_859:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_862
+	QUAD $0x0000000885048d48 // lea    rax, [4*rax + 8]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_861:
+	LONG $0x35380f66; WORD $0x0244; BYTE $0xf8 // pmovzxdq    xmm0, qword [rdx + rax - 8]
+	LONG $0x35380f66; WORD $0x020c             // pmovzxdq    xmm1, qword [rdx + rax]
+	LONG $0x447f0ff3; WORD $0xf041             // movdqu    oword [rcx + 2*rax - 16], xmm0
+	LONG $0x0c7f0ff3; BYTE $0x41               // movdqu    oword [rcx + 2*rax], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0xff49; BYTE $0xc0                   // inc    r8
+	JNE  LBB0_861
+
+LBB0_862:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_863:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_863
+	JMP  LBB0_1526
+
+LBB0_871:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_872:
+	LONG $0x34380f66; WORD $0x4204             // pmovzxwq    xmm0, dword [rdx + 2*rax]
+	LONG $0x34380f66; WORD $0x424c; BYTE $0x04 // pmovzxwq    xmm1, dword [rdx + 2*rax + 4]
+	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
+	LONG $0x34380f66; WORD $0x4244; BYTE $0x08 // pmovzxwq    xmm0, dword [rdx + 2*rax + 8]
+	LONG $0x34380f66; WORD $0x424c; BYTE $0x0c // pmovzxwq    xmm1, dword [rdx + 2*rax + 12]
+	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
+	LONG $0x34380f66; WORD $0x4244; BYTE $0x10 // pmovzxwq    xmm0, dword [rdx + 2*rax + 16]
+	LONG $0x34380f66; WORD $0x424c; BYTE $0x14 // pmovzxwq    xmm1, dword [rdx + 2*rax + 20]
+	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
+	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x34380f66; WORD $0x4244; BYTE $0x18 // pmovzxwq    xmm0, dword [rdx + 2*rax + 24]
+	LONG $0x34380f66; WORD $0x424c; BYTE $0x1c // pmovzxwq    xmm1, dword [rdx + 2*rax + 28]
+	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x04c78348                           // add    rdi, 4
+	JNE  LBB0_872
+
+LBB0_873:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_876
+	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
+	LONG $0x10c78348         // add    rdi, 16
+	LONG $0x42148d4c         // lea    r10, [rdx + 2*rax]
+	LONG $0x04c28349         // add    r10, 4
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_875:
+	QUAD $0xfcc24434380f4166                   // pmovzxwq    xmm0, dword [r10 + 8*rax - 4]
+	LONG $0x380f4166; WORD $0x0c34; BYTE $0xc2 // pmovzxwq    xmm1, dword [r10 + 8*rax]
+	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
+	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x01c08348                           // add    rax, 1
+	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
+	JNE  LBB0_875
+
+LBB0_876:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_877:
+	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_877
+	JMP  LBB0_1526
+
+LBB0_878:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_879:
+	LONG $0x24380f66; WORD $0x4204             // pmovsxwq    xmm0, dword [rdx + 2*rax]
+	LONG $0x24380f66; WORD $0x424c; BYTE $0x04 // pmovsxwq    xmm1, dword [rdx + 2*rax + 4]
+	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
+	LONG $0x24380f66; WORD $0x4244; BYTE $0x08 // pmovsxwq    xmm0, dword [rdx + 2*rax + 8]
+	LONG $0x24380f66; WORD $0x424c; BYTE $0x0c // pmovsxwq    xmm1, dword [rdx + 2*rax + 12]
+	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
+	LONG $0x24380f66; WORD $0x4244; BYTE $0x10 // pmovsxwq    xmm0, dword [rdx + 2*rax + 16]
+	LONG $0x24380f66; WORD $0x424c; BYTE $0x14 // pmovsxwq    xmm1, dword [rdx + 2*rax + 20]
+	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
+	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x24380f66; WORD $0x4244; BYTE $0x18 // pmovsxwq    xmm0, dword [rdx + 2*rax + 24]
+	LONG $0x24380f66; WORD $0x424c; BYTE $0x1c // pmovsxwq    xmm1, dword [rdx + 2*rax + 28]
+	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x04c78348                           // add    rdi, 4
+	JNE  LBB0_879
+
+LBB0_880:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_883
+	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
+	LONG $0x10c78348         // add    rdi, 16
+	LONG $0x42148d4c         // lea    r10, [rdx + 2*rax]
+	LONG $0x04c28349         // add    r10, 4
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_882:
+	QUAD $0xfcc24424380f4166                   // pmovsxwq    xmm0, dword [r10 + 8*rax - 4]
+	LONG $0x380f4166; WORD $0x0c24; BYTE $0xc2 // pmovsxwq    xmm1, dword [r10 + 8*rax]
+	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
+	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x01c08348                           // add    rax, 1
+	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
+	JNE  LBB0_882
+
+LBB0_883:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_884:
+	LONG $0x04bf0f48; BYTE $0x72 // movsx    rax, word [rdx + 2*rsi]
+	LONG $0xf1048948             // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_884
+	JMP  LBB0_1526
+
+LBB0_894:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_895:
+	LONG $0x25380f66; WORD $0x8204             // pmovsxdq    xmm0, qword [rdx + 4*rax]
+	LONG $0x25380f66; WORD $0x824c; BYTE $0x08 // pmovsxdq    xmm1, qword [rdx + 4*rax + 8]
+	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
+	LONG $0x25380f66; WORD $0x8244; BYTE $0x10 // pmovsxdq    xmm0, qword [rdx + 4*rax + 16]
+	LONG $0x25380f66; WORD $0x824c; BYTE $0x18 // pmovsxdq    xmm1, qword [rdx + 4*rax + 24]
+	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
+	LONG $0x25380f66; WORD $0x8244; BYTE $0x20 // pmovsxdq    xmm0, qword [rdx + 4*rax + 32]
+	LONG $0x25380f66; WORD $0x824c; BYTE $0x28 // pmovsxdq    xmm1, qword [rdx + 4*rax + 40]
+	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
+	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x25380f66; WORD $0x8244; BYTE $0x30 // pmovsxdq    xmm0, qword [rdx + 4*rax + 48]
+	LONG $0x25380f66; WORD $0x824c; BYTE $0x38 // pmovsxdq    xmm1, qword [rdx + 4*rax + 56]
+	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x04c78348                           // add    rdi, 4
+	JNE  LBB0_895
+
+LBB0_896:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_899
+	QUAD $0x0000000885048d48 // lea    rax, [4*rax + 8]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_898:
+	LONG $0x25380f66; WORD $0x0244; BYTE $0xf8 // pmovsxdq    xmm0, qword [rdx + rax - 8]
+	LONG $0x25380f66; WORD $0x020c             // pmovsxdq    xmm1, qword [rdx + rax]
+	LONG $0x447f0ff3; WORD $0xf041             // movdqu    oword [rcx + 2*rax - 16], xmm0
+	LONG $0x0c7f0ff3; BYTE $0x41               // movdqu    oword [rcx + 2*rax], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0xff49; BYTE $0xc0                   // inc    r8
+	JNE  LBB0_898
+
+LBB0_899:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_900:
+	LONG $0xb2046348         // movsxd    rax, dword [rdx + 4*rsi]
+	LONG $0xf1048948         // mov    qword [rcx + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_900
+	JMP  LBB0_1526
+
+LBB0_939:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_940:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_942
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
+
+LBB0_942:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_943:
+	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_943
+	JMP  LBB0_1526
+
+LBB0_944:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_945:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_947
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
+
+LBB0_947:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_948:
+	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_948
+	JMP  LBB0_1526
+
+LBB0_949:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_950:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_952
+	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_952:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_953:
+	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_953
+	JMP  LBB0_1526
+
+LBB0_954:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_955:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_957
+	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_957:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_958:
+	LONG $0x7204bf0f         // movsx    eax, word [rdx + 2*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_958
+	JMP  LBB0_1526
+
+LBB0_959:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_960:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_962
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
+
+LBB0_962:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_963:
+	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_963
+	JMP  LBB0_1526
+
+LBB0_964:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_965:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB0_967
+	LONG $0xba0c100f             // movups    xmm1, oword [rdx + 4*rdi]
+	LONG $0xba54100f; BYTE $0x10 // movups    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0x205d280f             // movaps    xmm3, oword 32[rbp] /* [rip + .LCPI0_3] */
+	WORD $0x280f; BYTE $0xc1     // movaps    xmm0, xmm1
+	LONG $0x01c3c20f             // cmpltps    xmm0, xmm3
+	LONG $0xe15b0ff3             // cvttps2dq    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xcb     // subps    xmm1, xmm3
+	LONG $0xc95b0ff3             // cvttps2dq    xmm1, xmm1
+	LONG $0x306d280f             // movaps    xmm5, oword 48[rbp] /* [rip + .LCPI0_4] */
+	WORD $0x570f; BYTE $0xcd     // xorps    xmm1, xmm5
+	LONG $0x14380f66; BYTE $0xcc // blendvps    xmm1, xmm4, xmm0
+	WORD $0x280f; BYTE $0xc2     // movaps    xmm0, xmm2
+	LONG $0x01c3c20f             // cmpltps    xmm0, xmm3
+	LONG $0xe25b0ff3             // cvttps2dq    xmm4, xmm2
+	WORD $0x5c0f; BYTE $0xd3     // subps    xmm2, xmm3
+	LONG $0xd25b0ff3             // cvttps2dq    xmm2, xmm2
+	WORD $0x570f; BYTE $0xd5     // xorps    xmm2, xmm5
+	LONG $0x14380f66; BYTE $0xd4 // blendvps    xmm2, xmm4, xmm0
+	LONG $0xb90c110f             // movups    oword [rcx + 4*rdi], xmm1
+	LONG $0xb954110f; BYTE $0x10 // movups    oword [rcx + 4*rdi + 16], xmm2
+
+LBB0_967:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_968:
+	LONG $0x2c0f48f3; WORD $0xb204 // cvttss2si    rax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1       // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1       // cmp    r9, rsi
+	JNE  LBB0_968
+	JMP  LBB0_1526
+
+LBB0_969:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_970:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_972
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xd2ef0f66               // pxor    xmm2, xmm2
+	LONG $0xd86f0f66               // movdqa    xmm3, xmm0
+	LONG $0x0e3a0f66; WORD $0xccda // pblendw    xmm3, xmm2, 204
+	LONG $0x656f0f66; BYTE $0x50   // movdqa    xmm4, oword 80[rbp] /* [rip + .LCPI0_6] */
+	LONG $0xdceb0f66               // por    xmm3, xmm4
+	LONG $0xd0730f66; BYTE $0x20   // psrlq    xmm0, 32
+	LONG $0x6d6f0f66; BYTE $0x60   // movdqa    xmm5, oword 96[rbp] /* [rip + .LCPI0_7] */
+	LONG $0xc5eb0f66               // por    xmm0, xmm5
+	LONG $0x75280f66; BYTE $0x70   // movapd    xmm6, oword 112[rbp] /* [rip + .LCPI0_8] */
+	LONG $0xc65c0f66               // subpd    xmm0, xmm6
+	LONG $0xc3580f66               // addpd    xmm0, xmm3
+	LONG $0x0e3a0f66; WORD $0x33d1 // pblendw    xmm2, xmm1, 51
+	LONG $0xd4eb0f66               // por    xmm2, xmm4
+	LONG $0xd1730f66; BYTE $0x20   // psrlq    xmm1, 32
+	LONG $0xcdeb0f66               // por    xmm1, xmm5
+	LONG $0xce5c0f66               // subpd    xmm1, xmm6
+	LONG $0xca580f66               // addpd    xmm1, xmm2
+	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
+	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
+
+LBB0_972:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_973:
+	QUAD $0x0000008085280f66 // movapd    xmm0, oword 128[rbp] /* [rip + .LCPI0_9] */
+	QUAD $0x000000908d280f66 // movapd    xmm1, oword 144[rbp] /* [rip + .LCPI0_10] */
+
+LBB0_974:
+	LONG $0x14100ff2; BYTE $0xf2 // movsd    xmm2, qword [rdx + 8*rsi]
+	WORD $0x140f; BYTE $0xd0     // unpcklps    xmm2, xmm0
+	LONG $0xd15c0f66             // subpd    xmm2, xmm1
+	LONG $0xda280f66             // movapd    xmm3, xmm2
+	LONG $0xda150f66             // unpckhpd    xmm3, xmm2
+	LONG $0xda580ff2             // addsd    xmm3, xmm2
+	LONG $0x1c110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm3
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_974
+	JMP  LBB0_1526
+
+LBB0_975:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_976:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_978
+	LONG $0xba045a0f               // cvtps2pd    xmm0, qword [rdx + 4*rdi]
+	LONG $0xba4c5a0f; BYTE $0x08   // cvtps2pd    xmm1, qword [rdx + 4*rdi + 8]
+	LONG $0x04110f66; BYTE $0xf9   // movupd    oword [rcx + 8*rdi], xmm0
+	LONG $0x4c110f66; WORD $0x10f9 // movupd    oword [rcx + 8*rdi + 16], xmm1
+
+LBB0_978:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_979:
+	LONG $0x04100ff3; BYTE $0xb2 // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0xc05a0ff3             // cvtss2sd    xmm0, xmm0
+	LONG $0x04110ff2; BYTE $0xf1 // movsd    qword [rcx + 8*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_979
+	JMP  LBB0_1526
+
+LBB0_980:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_981:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_983
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	QUAD $0x000000b0956f0f66       // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI0_12] */
+	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
+	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
+
+LBB0_983:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_984:
+	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_984
+	JMP  LBB0_1526
+
+LBB0_985:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_986:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_988
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	QUAD $0x000000b0956f0f66       // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI0_12] */
+	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
+	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
+
+LBB0_988:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_989:
+	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_989
+	JMP  LBB0_1526
+
+LBB0_990:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_991:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_993
+	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
+	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
+
+LBB0_993:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_994:
+	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_994
+	JMP  LBB0_1526
+
+LBB0_995:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_996:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_998
+	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
+	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
+
+LBB0_998:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_999:
+	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_999
+	JMP  LBB0_1526
+
+LBB0_1000:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1001:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1003
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
+
+LBB0_1003:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1004:
+	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1004
+	JMP  LBB0_1526
+
+LBB0_1005:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1006:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1008
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
+
+LBB0_1008:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1009:
+	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1009
+	JMP  LBB0_1526
+
+LBB0_1010:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1011:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1013
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
+
+LBB0_1013:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1014:
+	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1014
+	JMP  LBB0_1526
+
+LBB0_1015:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1016:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1018
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc0700ff2; BYTE $0xe8   // pshuflw    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc9700ff2; BYTE $0xe8   // pshuflw    xmm1, xmm1, 232
+	LONG $0x047e0f66; BYTE $0x79   // movd    dword [rcx + 2*rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0479 // movd    dword [rcx + 2*rdi + 4], xmm1
+
+LBB0_1018:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1019:
+	LONG $0xf204b70f         // movzx    eax, word [rdx + 8*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1019
+	JMP  LBB0_1526
+
+LBB0_1020:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1021:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB0_1023
+	LONG $0xba04100f             // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10 // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xc05b0ff3             // cvttps2dq    xmm0, xmm0
+	LONG $0xc95b0ff3             // cvttps2dq    xmm1, xmm1
+	LONG $0x2b380f66; BYTE $0xc1 // packusdw    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0x79 // movdqu    oword [rcx + 2*rdi], xmm0
+
+LBB0_1023:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1024:
+	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1024
+	JMP  LBB0_1526
+
+LBB0_1025:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1026:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB0_1028
+	LONG $0xba04100f             // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10 // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xc05b0ff3             // cvttps2dq    xmm0, xmm0
+	LONG $0xc95b0ff3             // cvttps2dq    xmm1, xmm1
+	LONG $0xc16b0f66             // packssdw    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0x79 // movdqu    oword [rcx + 2*rdi], xmm0
+
+LBB0_1028:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1029:
+	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
+	LONG $0x71048966             // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1029
+	JMP  LBB0_1526
+
+LBB0_1030:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1031:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1033
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	QUAD $0x000000b0956f0f66       // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI0_12] */
+	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
+	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
+
+LBB0_1033:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1034:
+	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1034
+	JMP  LBB0_1526
+
+LBB0_1035:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1036:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1038
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	QUAD $0x000000b0956f0f66       // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI0_12] */
+	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
+	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0x79   // movdqu    oword [rcx + 2*rdi], xmm0
+
+LBB0_1038:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1039:
+	LONG $0xb204b70f         // movzx    eax, word [rdx + 4*rsi]
+	LONG $0x71048966         // mov    word [rcx + 2*rsi], ax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1039
+	JMP  LBB0_1526
+
+LBB0_1040:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1041:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1043
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	QUAD $0x000000d0956f0f66                   // movdqa    xmm2, oword 208[rbp] /* [rip + .LCPI0_14] */
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0x0e3a0f66; WORD $0xaada             // pblendw    xmm3, xmm2, 170
+	LONG $0xd0720f66; BYTE $0x10               // psrld    xmm0, 16
+	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI0_15] */
+	LONG $0x0e3a0f66; WORD $0xaac4             // pblendw    xmm0, xmm4, 170
+	LONG $0xf0ad280f; WORD $0x0000; BYTE $0x00 // movaps    xmm5, oword 240[rbp] /* [rip + .LCPI0_16] */
+	WORD $0x5c0f; BYTE $0xc5                   // subps    xmm0, xmm5
+	WORD $0x580f; BYTE $0xc3                   // addps    xmm0, xmm3
+	LONG $0x0e3a0f66; WORD $0x55d1             // pblendw    xmm2, xmm1, 85
+	LONG $0xd1720f66; BYTE $0x10               // psrld    xmm1, 16
+	LONG $0x0e3a0f66; WORD $0xaacc             // pblendw    xmm1, xmm4, 170
+	WORD $0x5c0f; BYTE $0xcd                   // subps    xmm1, xmm5
+	WORD $0x580f; BYTE $0xca                   // addps    xmm1, xmm2
+	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
+	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_1043:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1044:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0x2a0f48f3; BYTE $0xc0 // cvtsi2ss    xmm0, rax
+	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1044
+	JMP  LBB0_1526
+
+LBB0_1045:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1046:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1048
+	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc05a0f66               // cvtpd2ps    xmm0, xmm0
+	LONG $0xc95a0f66               // cvtpd2ps    xmm1, xmm1
+	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
+	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
+
+LBB0_1048:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1049:
+	LONG $0x04100ff2; BYTE $0xf2 // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0xc05a0ff2             // cvtsd2ss    xmm0, xmm0
+	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1049
+	JMP  LBB0_1526
+
+LBB0_1050:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1051:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1053
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI0_11] */
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
+	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
+	LONG $0xe3db0f66                           // pand    xmm4, xmm3
+	LONG $0xd1730f66; BYTE $0x01               // psrlq    xmm1, 1
+	LONG $0xcceb0f66                           // por    xmm1, xmm4
+	LONG $0x15380f66; BYTE $0xd1               // blendvpd    xmm2, xmm1, xmm0
+	LONG $0x3a0f4866; WORD $0xd016; BYTE $0x01 // pextrq    rax, xmm2, 1
+	WORD $0x570f; BYTE $0xe4                   // xorps    xmm4, xmm4
+	LONG $0x2a0f48f3; BYTE $0xe0               // cvtsi2ss    xmm4, rax
+	LONG $0x7e0f4866; BYTE $0xd0               // movq    rax, xmm2
+	WORD $0x570f; BYTE $0xd2                   // xorps    xmm2, xmm2
+	LONG $0x2a0f48f3; BYTE $0xd0               // cvtsi2ss    xmm2, rax
+	LONG $0xedef0f66                           // pxor    xmm5, xmm5
+	LONG $0x37380f66; BYTE $0xe8               // pcmpgtq    xmm5, xmm0
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x213a0f66; WORD $0x1cd4             // insertps    xmm2, xmm4, 28
+	WORD $0x280f; BYTE $0xe2                   // movaps    xmm4, xmm2
+	WORD $0x580f; BYTE $0xe2                   // addps    xmm4, xmm2
+	LONG $0xf6ef0f66                           // pxor    xmm6, xmm6
+	LONG $0xc5700f66; BYTE $0xed               // pshufd    xmm0, xmm5, 237
+	LONG $0x14380f66; BYTE $0xd4               // blendvps    xmm2, xmm4, xmm0
+	LONG $0xd9db0f66                           // pand    xmm3, xmm1
+	LONG $0xe16f0f66                           // movdqa    xmm4, xmm1
+	LONG $0xd4730f66; BYTE $0x01               // psrlq    xmm4, 1
+	LONG $0xe3eb0f66                           // por    xmm4, xmm3
+	LONG $0x37380f66; BYTE $0xf1               // pcmpgtq    xmm6, xmm1
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x15380f66; BYTE $0xcc               // blendvpd    xmm1, xmm4, xmm0
+	LONG $0x3a0f4866; WORD $0xc816; BYTE $0x01 // pextrq    rax, xmm1, 1
+	WORD $0x570f; BYTE $0xc0                   // xorps    xmm0, xmm0
+	LONG $0x2a0f48f3; BYTE $0xc0               // cvtsi2ss    xmm0, rax
+	LONG $0x7e0f4866; BYTE $0xc8               // movq    rax, xmm1
+	WORD $0x570f; BYTE $0xc9                   // xorps    xmm1, xmm1
+	LONG $0x2a0f48f3; BYTE $0xc8               // cvtsi2ss    xmm1, rax
+	LONG $0x213a0f66; WORD $0x1cc8             // insertps    xmm1, xmm0, 28
+	WORD $0x280f; BYTE $0xd9                   // movaps    xmm3, xmm1
+	WORD $0x580f; BYTE $0xd9                   // addps    xmm3, xmm1
+	LONG $0xc6700f66; BYTE $0xed               // pshufd    xmm0, xmm6, 237
+	LONG $0x14380f66; BYTE $0xcb               // blendvps    xmm1, xmm3, xmm0
+	WORD $0x160f; BYTE $0xd1                   // movlhps    xmm2, xmm1
+	LONG $0xb914110f                           // movups    oword [rcx + 4*rdi], xmm2
+
+LBB0_1053:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JNE  LBB0_1056
+	JMP  LBB0_1526
+
+LBB0_1054:
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0x2a0f48f3; BYTE $0xc0 // cvtsi2ss    xmm0, rax
+	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JE   LBB0_1526
+
+LBB0_1056:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JNS  LBB0_1054
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	WORD $0xd148; BYTE $0xef     // shr    rdi, 1
+	WORD $0xe083; BYTE $0x01     // and    eax, 1
+	WORD $0x0948; BYTE $0xf8     // or    rax, rdi
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0x2a0f48f3; BYTE $0xc0 // cvtsi2ss    xmm0, rax
+	LONG $0xc0580ff3             // addss    xmm0, xmm0
+	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1056
+	JMP  LBB0_1526
+
+LBB0_1058:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1059:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1061
+	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
+	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
+	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
+	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_1061:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1062:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0xc02a0ff3             // cvtsi2ss    xmm0, eax
+	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1062
+	JMP  LBB0_1526
+
+LBB0_1063:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1064:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1066
+	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
+	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
+	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
+	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_1066:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1067:
+	LONG $0x7204bf0f             // movsx    eax, word [rdx + 2*rsi]
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0xc02a0ff3             // cvtsi2ss    xmm0, eax
+	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1067
+	JMP  LBB0_1526
+
+LBB0_1068:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1069:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB0_1071
+	LONG $0xba04100f             // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10 // movups    xmm1, oword [rdx + 4*rdi + 16]
+	WORD $0x5b0f; BYTE $0xc0     // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9     // cvtdq2ps    xmm1, xmm1
+	LONG $0xb904110f             // movups    oword [rcx + 4*rdi], xmm0
+	LONG $0xb94c110f; BYTE $0x10 // movups    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_1071:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1072:
+	WORD $0x570f; BYTE $0xc0     // xorps    xmm0, xmm0
+	LONG $0x042a0ff3; BYTE $0xb2 // cvtsi2ss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x04110ff3; BYTE $0xb1 // movss    dword [rcx + 4*rsi], xmm0
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1072
+	JMP  LBB0_1526
+
+LBB0_1073:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1074:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1076
+	LONG $0x04100f66; BYTE $0xfa   // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0e60f66               // cvttpd2dq    xmm0, xmm0
+	LONG $0xc9e60f66               // cvttpd2dq    xmm1, xmm1
+	LONG $0xc1140f66               // unpcklpd    xmm0, xmm1
+	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
+
+LBB0_1076:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1077:
+	LONG $0x042c0ff2; BYTE $0xf2 // cvttsd2si    eax, qword [rdx + 8*rsi]
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1077
+	JMP  LBB0_1526
+
+LBB0_1078:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1079:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1081
+	LONG $0x33380f66; WORD $0x7a04             // pmovzxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x33380f66; WORD $0x7a4c; BYTE $0x08 // pmovzxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_1081:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1082:
+	LONG $0x7204b70f         // movzx    eax, word [rdx + 2*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1082
+	JMP  LBB0_1526
+
+LBB0_1083:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1084:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1086
+	LONG $0x23380f66; WORD $0x7a04             // pmovsxwd    xmm0, qword [rdx + 2*rdi]
+	LONG $0x23380f66; WORD $0x7a4c; BYTE $0x08 // pmovsxwd    xmm1, qword [rdx + 2*rdi + 8]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_1086:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1087:
+	LONG $0x7204bf0f         // movsx    eax, word [rdx + 2*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1087
+	JMP  LBB0_1526
+
+LBB0_1088:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1089:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1091
+	LONG $0x046f0ff3; BYTE $0xfa   // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0xc0700f66; BYTE $0xe8   // pshufd    xmm0, xmm0, 232
+	LONG $0xc9700f66; BYTE $0xe8   // pshufd    xmm1, xmm1, 232
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0xb9   // movdqu    oword [rcx + 4*rdi], xmm0
+
+LBB0_1091:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1092:
+	WORD $0x048b; BYTE $0xf2 // mov    eax, dword [rdx + 8*rsi]
+	WORD $0x0489; BYTE $0xb1 // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1 // cmp    r9, rsi
+	JNE  LBB0_1092
+	JMP  LBB0_1526
+
+LBB0_1093:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1094:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1096
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
+	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
+	LONG $0x04110f66; BYTE $0xb9   // movupd    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c110f66; WORD $0x10b9 // movupd    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_1096:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+
+LBB0_1097:
+	LONG $0x042c0ff3; BYTE $0xb2 // cvttss2si    eax, dword [rdx + 4*rsi]
+	WORD $0x0489; BYTE $0xb1     // mov    dword [rcx + 4*rsi], eax
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB0_1097
+
+LBB0_1526:
+	RET
+
+LBB0_1098:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1099:
+	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
+	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
+	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
+	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
+	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
+	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
+	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
+	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
+	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
+	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
+	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1099
+
+LBB0_1100:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1103
+	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1102:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1102
+
+LBB0_1103:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1104
+
+LBB0_1108:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1109:
+	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
+	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
+	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
+	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
+	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
+	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
+	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
+	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
+	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
+	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
+	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1109
+
+LBB0_1110:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1113
+	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1112:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1112
+
+LBB0_1113:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1114
+
+LBB0_1118:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1119:
+	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
+	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
+	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
+	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
+	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
+	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
+	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
+	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
+	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
+	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
+	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1119
+
+LBB0_1120:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1123
+	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1122:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1122
+
+LBB0_1123:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1124
+
+LBB0_1128:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1129:
+	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
+	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
+	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
+	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
+	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
+	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
+	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
+	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
+	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
+	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
+	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
+	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
+	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
+	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
+	LONG $0x80e88348               // sub    rax, -128
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1129
+
+LBB0_1130:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1133
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1132:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1132
+
+LBB0_1133:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1134
+
+LBB0_1138:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1139:
+	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
+	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
+	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
+	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
+	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
+	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
+	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
+	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
+	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
+	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
+	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
+	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
+	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
+	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
+	LONG $0x80e88348               // sub    rax, -128
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1139
+
+LBB0_1140:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1143
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1142:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1142
+
+LBB0_1143:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1144
+
+LBB0_1148:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1149:
+	LONG $0x22380f66; WORD $0x0204             // pmovsxbq    xmm0, word [rdx + rax]
+	LONG $0x22380f66; WORD $0x024c; BYTE $0x02 // pmovsxbq    xmm1, word [rdx + rax + 2]
+	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
+	LONG $0x22380f66; WORD $0x0244; BYTE $0x04 // pmovsxbq    xmm0, word [rdx + rax + 4]
+	LONG $0x22380f66; WORD $0x024c; BYTE $0x06 // pmovsxbq    xmm1, word [rdx + rax + 6]
+	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
+	LONG $0x22380f66; WORD $0x0244; BYTE $0x08 // pmovsxbq    xmm0, word [rdx + rax + 8]
+	LONG $0x22380f66; WORD $0x024c; BYTE $0x0a // pmovsxbq    xmm1, word [rdx + rax + 10]
+	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
+	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x22380f66; WORD $0x0244; BYTE $0x0c // pmovsxbq    xmm0, word [rdx + rax + 12]
+	LONG $0x22380f66; WORD $0x024c; BYTE $0x0e // pmovsxbq    xmm1, word [rdx + rax + 14]
+	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x04c78348                           // add    rdi, 4
+	JNE  LBB0_1149
+
+LBB0_1150:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1153
+	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
+	LONG $0x10c78348         // add    rdi, 16
+	LONG $0x10148d4c         // lea    r10, [rax + rdx]
+	LONG $0x02c28349         // add    r10, 2
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1152:
+	QUAD $0xfe824422380f4166                   // pmovsxbq    xmm0, word [r10 + 4*rax - 2]
+	LONG $0x380f4166; WORD $0x0c22; BYTE $0x82 // pmovsxbq    xmm1, word [r10 + 4*rax]
+	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
+	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x01c08348                           // add    rax, 1
+	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
+	JNE  LBB0_1152
+
+LBB0_1153:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1154
+
+LBB0_1158:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1159:
+	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
+	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
+	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
+	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
+	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
+	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
+	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
+	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
+	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
+	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
+	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1159
+
+LBB0_1160:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1163
+	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1162:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1162
+
+LBB0_1163:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1164
+
+LBB0_1168:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1169:
+	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
+	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
+	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
+	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
+	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
+	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
+	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
+	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
+	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
+	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
+	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1169
+
+LBB0_1170:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1173
+	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1172:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1172
+
+LBB0_1173:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1174
+
+LBB0_1178:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1179:
+	LONG $0x32380f66; WORD $0x0204             // pmovzxbq    xmm0, word [rdx + rax]
+	LONG $0x32380f66; WORD $0x024c; BYTE $0x02 // pmovzxbq    xmm1, word [rdx + rax + 2]
+	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
+	LONG $0x32380f66; WORD $0x0244; BYTE $0x04 // pmovzxbq    xmm0, word [rdx + rax + 4]
+	LONG $0x32380f66; WORD $0x024c; BYTE $0x06 // pmovzxbq    xmm1, word [rdx + rax + 6]
+	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
+	LONG $0x32380f66; WORD $0x0244; BYTE $0x08 // pmovzxbq    xmm0, word [rdx + rax + 8]
+	LONG $0x32380f66; WORD $0x024c; BYTE $0x0a // pmovzxbq    xmm1, word [rdx + rax + 10]
+	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
+	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x32380f66; WORD $0x0244; BYTE $0x0c // pmovzxbq    xmm0, word [rdx + rax + 12]
+	LONG $0x32380f66; WORD $0x024c; BYTE $0x0e // pmovzxbq    xmm1, word [rdx + rax + 14]
+	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x04c78348                           // add    rdi, 4
+	JNE  LBB0_1179
+
+LBB0_1180:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1183
+	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
+	LONG $0x10c78348         // add    rdi, 16
+	LONG $0x10148d4c         // lea    r10, [rax + rdx]
+	LONG $0x02c28349         // add    r10, 2
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1182:
+	QUAD $0xfe824432380f4166                   // pmovzxbq    xmm0, word [r10 + 4*rax - 2]
+	LONG $0x380f4166; WORD $0x0c32; BYTE $0x82 // pmovzxbq    xmm1, word [r10 + 4*rax]
+	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
+	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x01c08348                           // add    rax, 1
+	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
+	JNE  LBB0_1182
+
+LBB0_1183:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1184
+
+LBB0_1188:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1189:
+	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
+	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
+	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
+	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
+	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
+	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
+	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
+	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
+	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
+	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
+	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
+	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
+	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
+	LONG $0x40c08348               // add    rax, 64
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1189
+
+LBB0_1190:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1193
+	WORD $0x0148; BYTE $0xc0 // add    rax, rax
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1192:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1192
+
+LBB0_1193:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1194
+
+LBB0_1198:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1199:
+	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
+	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
+	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
+	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
+	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
+	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
+	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
+	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
+	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
+	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
+	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
+	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
+	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
+	LONG $0x40c08348               // add    rax, 64
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1199
+
+LBB0_1200:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1203
+	WORD $0x0148; BYTE $0xc0 // add    rax, rax
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1202:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1202
+
+LBB0_1203:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1204
+
+LBB0_1208:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1209:
+	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
+	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
+	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
+	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
+	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
+	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
+	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
+	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
+	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
+	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
+	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
+	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
+	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
+	LONG $0x40c08348               // add    rax, 64
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1209
+
+LBB0_1210:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1213
+	WORD $0x0148; BYTE $0xc0 // add    rax, rax
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1212:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1212
+
+LBB0_1213:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1214
+
+LBB0_1218:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1219:
+	LONG $0x4204100f               // movups    xmm0, oword [rdx + 2*rax]
+	LONG $0x424c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x4104110f               // movups    oword [rcx + 2*rax], xmm0
+	LONG $0x414c110f; BYTE $0x10   // movups    oword [rcx + 2*rax + 16], xmm1
+	LONG $0x4244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 2*rax + 32]
+	LONG $0x424c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 2*rax + 48]
+	LONG $0x4144110f; BYTE $0x20   // movups    oword [rcx + 2*rax + 32], xmm0
+	LONG $0x414c110f; BYTE $0x30   // movups    oword [rcx + 2*rax + 48], xmm1
+	LONG $0x4244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 2*rax + 64]
+	LONG $0x424c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 2*rax + 80]
+	LONG $0x4144110f; BYTE $0x40   // movups    oword [rcx + 2*rax + 64], xmm0
+	LONG $0x414c110f; BYTE $0x50   // movups    oword [rcx + 2*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6042 // movupd    xmm0, oword [rdx + 2*rax + 96]
+	LONG $0x4c100f66; WORD $0x7042 // movupd    xmm1, oword [rdx + 2*rax + 112]
+	LONG $0x44110f66; WORD $0x6041 // movupd    oword [rcx + 2*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7041 // movupd    oword [rcx + 2*rax + 112], xmm1
+	LONG $0x40c08348               // add    rax, 64
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1219
+
+LBB0_1220:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1223
+	WORD $0x0148; BYTE $0xc0 // add    rax, rax
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1222:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1222
+
+LBB0_1223:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1224
+
+LBB0_1228:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1229:
+	LONG $0x22380f66; WORD $0x0204             // pmovsxbq    xmm0, word [rdx + rax]
+	LONG $0x22380f66; WORD $0x024c; BYTE $0x02 // pmovsxbq    xmm1, word [rdx + rax + 2]
+	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
+	LONG $0x22380f66; WORD $0x0244; BYTE $0x04 // pmovsxbq    xmm0, word [rdx + rax + 4]
+	LONG $0x22380f66; WORD $0x024c; BYTE $0x06 // pmovsxbq    xmm1, word [rdx + rax + 6]
+	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
+	LONG $0x22380f66; WORD $0x0244; BYTE $0x08 // pmovsxbq    xmm0, word [rdx + rax + 8]
+	LONG $0x22380f66; WORD $0x024c; BYTE $0x0a // pmovsxbq    xmm1, word [rdx + rax + 10]
+	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
+	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x22380f66; WORD $0x0244; BYTE $0x0c // pmovsxbq    xmm0, word [rdx + rax + 12]
+	LONG $0x22380f66; WORD $0x024c; BYTE $0x0e // pmovsxbq    xmm1, word [rdx + rax + 14]
+	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x04c78348                           // add    rdi, 4
+	JNE  LBB0_1229
+
+LBB0_1230:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1233
+	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
+	LONG $0x10c78348         // add    rdi, 16
+	LONG $0x10148d4c         // lea    r10, [rax + rdx]
+	LONG $0x02c28349         // add    r10, 2
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1232:
+	QUAD $0xfe824422380f4166                   // pmovsxbq    xmm0, word [r10 + 4*rax - 2]
+	LONG $0x380f4166; WORD $0x0c22; BYTE $0x82 // pmovsxbq    xmm1, word [r10 + 4*rax]
+	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
+	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x01c08348                           // add    rax, 1
+	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
+	JNE  LBB0_1232
+
+LBB0_1233:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1234
+
+LBB0_1238:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1239:
+	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
+	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
+	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
+	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
+	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
+	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
+	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
+	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
+	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
+	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
+	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1239
+
+LBB0_1240:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1243
+	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1242:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1242
+
+LBB0_1243:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1244
+
+LBB0_1248:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1249:
+	LONG $0xc204100f               // movups    xmm0, oword [rdx + 8*rax]
+	LONG $0xc24c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0xc104110f               // movups    oword [rcx + 8*rax], xmm0
+	LONG $0xc14c110f; BYTE $0x10   // movups    oword [rcx + 8*rax + 16], xmm1
+	LONG $0xc244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0xc24c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0xc144110f; BYTE $0x20   // movups    oword [rcx + 8*rax + 32], xmm0
+	LONG $0xc14c110f; BYTE $0x30   // movups    oword [rcx + 8*rax + 48], xmm1
+	LONG $0xc244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 8*rax + 64]
+	LONG $0xc24c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 8*rax + 80]
+	LONG $0xc144110f; BYTE $0x40   // movups    oword [rcx + 8*rax + 64], xmm0
+	LONG $0xc14c110f; BYTE $0x50   // movups    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x60c2 // movupd    xmm0, oword [rdx + 8*rax + 96]
+	LONG $0x4c100f66; WORD $0x70c2 // movupd    xmm1, oword [rdx + 8*rax + 112]
+	LONG $0x44110f66; WORD $0x60c1 // movupd    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x70c1 // movupd    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1249
+
+LBB0_1250:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1253
+	QUAD $0x00000010c5048d48 // lea    rax, [8*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1252:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1252
+
+LBB0_1253:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1254
+
+LBB0_1258:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1259:
+	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
+	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
+	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
+	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
+	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
+	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
+	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
+	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
+	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
+	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
+	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1259
+
+LBB0_1260:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1263
+	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1262:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1262
+
+LBB0_1263:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1264
+
+LBB0_1268:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1269:
+	LONG $0x32380f66; WORD $0x0204             // pmovzxbq    xmm0, word [rdx + rax]
+	LONG $0x32380f66; WORD $0x024c; BYTE $0x02 // pmovzxbq    xmm1, word [rdx + rax + 2]
+	LONG $0x047f0ff3; BYTE $0xc1               // movdqu    oword [rcx + 8*rax], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10c1             // movdqu    oword [rcx + 8*rax + 16], xmm1
+	LONG $0x32380f66; WORD $0x0244; BYTE $0x04 // pmovzxbq    xmm0, word [rdx + rax + 4]
+	LONG $0x32380f66; WORD $0x024c; BYTE $0x06 // pmovzxbq    xmm1, word [rdx + rax + 6]
+	LONG $0x447f0ff3; WORD $0x20c1             // movdqu    oword [rcx + 8*rax + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x30c1             // movdqu    oword [rcx + 8*rax + 48], xmm1
+	LONG $0x32380f66; WORD $0x0244; BYTE $0x08 // pmovzxbq    xmm0, word [rdx + rax + 8]
+	LONG $0x32380f66; WORD $0x024c; BYTE $0x0a // pmovzxbq    xmm1, word [rdx + rax + 10]
+	LONG $0x447f0ff3; WORD $0x40c1             // movdqu    oword [rcx + 8*rax + 64], xmm0
+	LONG $0x4c7f0ff3; WORD $0x50c1             // movdqu    oword [rcx + 8*rax + 80], xmm1
+	LONG $0x32380f66; WORD $0x0244; BYTE $0x0c // pmovzxbq    xmm0, word [rdx + rax + 12]
+	LONG $0x32380f66; WORD $0x024c; BYTE $0x0e // pmovzxbq    xmm1, word [rdx + rax + 14]
+	LONG $0x447f0ff3; WORD $0x60c1             // movdqu    oword [rcx + 8*rax + 96], xmm0
+	LONG $0x4c7f0ff3; WORD $0x70c1             // movdqu    oword [rcx + 8*rax + 112], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x04c78348                           // add    rdi, 4
+	JNE  LBB0_1269
+
+LBB0_1270:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1273
+	LONG $0xc13c8d48         // lea    rdi, [rcx + 8*rax]
+	LONG $0x10c78348         // add    rdi, 16
+	LONG $0x10148d4c         // lea    r10, [rax + rdx]
+	LONG $0x02c28349         // add    r10, 2
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1272:
+	QUAD $0xfe824432380f4166                   // pmovzxbq    xmm0, word [r10 + 4*rax - 2]
+	LONG $0x380f4166; WORD $0x0c32; BYTE $0x82 // pmovzxbq    xmm1, word [r10 + 4*rax]
+	LONG $0x477f0ff3; BYTE $0xf0               // movdqu    oword [rdi - 16], xmm0
+	LONG $0x0f7f0ff3                           // movdqu    oword [rdi], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x01c08348                           // add    rax, 1
+	WORD $0x3949; BYTE $0xc0                   // cmp    r8, rax
+	JNE  LBB0_1272
+
+LBB0_1273:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1274
+
+LBB0_1278:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1279:
+	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
+	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
+	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
+	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
+	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
+	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
+	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
+	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
+	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
+	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
+	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
+	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
+	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
+	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
+	LONG $0x80e88348               // sub    rax, -128
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1279
+
+LBB0_1280:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1283
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1282:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1282
+
+LBB0_1283:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1284
+
+LBB0_1288:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1289:
+	LONG $0x0204100f               // movups    xmm0, oword [rdx + rax]
+	LONG $0x024c100f; BYTE $0x10   // movups    xmm1, oword [rdx + rax + 16]
+	LONG $0x0104110f               // movups    oword [rcx + rax], xmm0
+	LONG $0x014c110f; BYTE $0x10   // movups    oword [rcx + rax + 16], xmm1
+	LONG $0x0244100f; BYTE $0x20   // movups    xmm0, oword [rdx + rax + 32]
+	LONG $0x024c100f; BYTE $0x30   // movups    xmm1, oword [rdx + rax + 48]
+	LONG $0x0144110f; BYTE $0x20   // movups    oword [rcx + rax + 32], xmm0
+	LONG $0x014c110f; BYTE $0x30   // movups    oword [rcx + rax + 48], xmm1
+	LONG $0x0244100f; BYTE $0x40   // movups    xmm0, oword [rdx + rax + 64]
+	LONG $0x024c100f; BYTE $0x50   // movups    xmm1, oword [rdx + rax + 80]
+	LONG $0x0144110f; BYTE $0x40   // movups    oword [rcx + rax + 64], xmm0
+	LONG $0x014c110f; BYTE $0x50   // movups    oword [rcx + rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6002 // movupd    xmm0, oword [rdx + rax + 96]
+	LONG $0x4c100f66; WORD $0x7002 // movupd    xmm1, oword [rdx + rax + 112]
+	LONG $0x44110f66; WORD $0x6001 // movupd    oword [rcx + rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7001 // movupd    oword [rcx + rax + 112], xmm1
+	LONG $0x80e88348               // sub    rax, -128
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1289
+
+LBB0_1290:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1293
+	LONG $0x10c08348         // add    rax, 16
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1292:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1292
+
+LBB0_1293:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1294
+
+LBB0_1298:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1299:
+	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
+	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
+	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
+	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
+	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
+	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
+	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
+	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
+	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
+	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
+	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1299
+
+LBB0_1300:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1303
+	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1302:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1302
+
+LBB0_1303:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1304
+
+LBB0_1308:
+	LONG $0xfce78348         // and    rdi, -4
+	WORD $0xf748; BYTE $0xdf // neg    rdi
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_1309:
+	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
+	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x8104110f               // movups    oword [rcx + 4*rax], xmm0
+	LONG $0x814c110f; BYTE $0x10   // movups    oword [rcx + 4*rax + 16], xmm1
+	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x8144110f; BYTE $0x20   // movups    oword [rcx + 4*rax + 32], xmm0
+	LONG $0x814c110f; BYTE $0x30   // movups    oword [rcx + 4*rax + 48], xmm1
+	LONG $0x8244100f; BYTE $0x40   // movups    xmm0, oword [rdx + 4*rax + 64]
+	LONG $0x824c100f; BYTE $0x50   // movups    xmm1, oword [rdx + 4*rax + 80]
+	LONG $0x8144110f; BYTE $0x40   // movups    oword [rcx + 4*rax + 64], xmm0
+	LONG $0x814c110f; BYTE $0x50   // movups    oword [rcx + 4*rax + 80], xmm1
+	LONG $0x44100f66; WORD $0x6082 // movupd    xmm0, oword [rdx + 4*rax + 96]
+	LONG $0x4c100f66; WORD $0x7082 // movupd    xmm1, oword [rdx + 4*rax + 112]
+	LONG $0x44110f66; WORD $0x6081 // movupd    oword [rcx + 4*rax + 96], xmm0
+	LONG $0x4c110f66; WORD $0x7081 // movupd    oword [rcx + 4*rax + 112], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	LONG $0x04c78348               // add    rdi, 4
+	JNE  LBB0_1309
+
+LBB0_1310:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB0_1313
+	QUAD $0x0000001085048d48 // lea    rax, [4*rax + 16]
+	WORD $0xf749; BYTE $0xd8 // neg    r8
+
+LBB0_1312:
+	LONG $0x44100f66; WORD $0xf002 // movupd    xmm0, oword [rdx + rax - 16]
+	LONG $0x0c100f66; BYTE $0x02   // movupd    xmm1, oword [rdx + rax]
+	LONG $0x44110f66; WORD $0xf001 // movupd    oword [rcx + rax - 16], xmm0
+	LONG $0x0c110f66; BYTE $0x01   // movupd    oword [rcx + rax], xmm1
+	LONG $0x20c08348               // add    rax, 32
+	WORD $0xff49; BYTE $0xc0       // inc    r8
+	JNE  LBB0_1312
+
+LBB0_1313:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1314
+
+LBB0_1318:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1319:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1321
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x556f0f66; BYTE $0x40               // movdqa    xmm2, oword 64[rbp] /* [rip + .LCPI0_5] */
+	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
+	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
+	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
+	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
+
+LBB0_1321:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1322
+
+LBB0_1326:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1327:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1329
+	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	QUAD $0x00000100956f0f66       // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI0_17] */
+	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
+	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
+
+LBB0_1329:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1330
+
+LBB0_1334:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1335:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1337
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x556f0f66; BYTE $0x40               // movdqa    xmm2, oword 64[rbp] /* [rip + .LCPI0_5] */
+	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
+	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
+	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
+	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
+
+LBB0_1337:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1338
+
+LBB0_1342:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1343:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1345
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	QUAD $0x000000c0956f0f66       // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI0_13] */
+	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
+	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
+	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
+
+LBB0_1345:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1346
+
+LBB0_1350:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1351:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1353
+	LONG $0x20380f66; WORD $0x3a04             // pmovsxbw    xmm0, qword [rdx + rdi]
+	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbw    xmm1, qword [rdx + rdi + 8]
+	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
+
+LBB0_1353:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1354
+
+LBB0_1358:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1359:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1361
+	LONG $0x20380f66; WORD $0x3a04             // pmovsxbw    xmm0, qword [rdx + rdi]
+	LONG $0x20380f66; WORD $0x3a4c; BYTE $0x08 // pmovsxbw    xmm1, qword [rdx + rdi + 8]
+	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
+
+LBB0_1361:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1362
+
+LBB0_1366:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1367:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1369
+	LONG $0x30380f66; WORD $0x3a04             // pmovzxbw    xmm0, qword [rdx + rdi]
+	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x08 // pmovzxbw    xmm1, qword [rdx + rdi + 8]
+	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
+
+LBB0_1369:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1370
+
+LBB0_1374:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1375:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1377
+	LONG $0x30380f66; WORD $0x3a04             // pmovzxbw    xmm0, qword [rdx + rdi]
+	LONG $0x30380f66; WORD $0x3a4c; BYTE $0x08 // pmovzxbw    xmm1, qword [rdx + rdi + 8]
+	LONG $0x047f0ff3; BYTE $0x79               // movdqu    oword [rcx + 2*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x1079             // movdqu    oword [rcx + 2*rdi + 16], xmm1
+
+LBB0_1377:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1378
+
+LBB0_1382:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1383:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1385
+	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
+	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
+	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
+	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
+	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_1385:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1386
+
+LBB0_1390:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1391:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1393
+	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
+	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
+	WORD $0x5b0f; BYTE $0xc0                   // cvtdq2ps    xmm0, xmm0
+	WORD $0x5b0f; BYTE $0xc9                   // cvtdq2ps    xmm1, xmm1
+	LONG $0xb904110f                           // movups    oword [rcx + 4*rdi], xmm0
+	LONG $0xb94c110f; BYTE $0x10               // movups    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_1393:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1394
+
+LBB0_1398:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1399:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1401
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	QUAD $0x000000c0956f0f66       // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI0_13] */
+	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
+	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
+	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
+
+LBB0_1401:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1402
+
+LBB0_1406:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1407:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1409
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0xc0e60f66                           // cvttpd2dq    xmm0, xmm0
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x556f0f66; BYTE $0x10               // movdqa    xmm2, oword 16[rbp] /* [rip + .LCPI0_1] */
+	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
+	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
+	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
+	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
+
+LBB0_1409:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1410
+
+LBB0_1414:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1415:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1417
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x556f0f66; BYTE $0x40               // movdqa    xmm2, oword 64[rbp] /* [rip + .LCPI0_5] */
+	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
+	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
+	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
+	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
+
+LBB0_1417:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1418
+
+LBB0_1422:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1423:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1425
+	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	QUAD $0x00000100956f0f66       // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI0_17] */
+	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
+	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
+
+LBB0_1425:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1426
+
+LBB0_1430:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1431:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1433
+	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	QUAD $0x00000100956f0f66       // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI0_17] */
+	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
+	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
+
+LBB0_1433:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1434
+
+LBB0_1438:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1439:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1441
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x556f0f66; BYTE $0x40               // movdqa    xmm2, oword 64[rbp] /* [rip + .LCPI0_5] */
+	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
+	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
+	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
+	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
+
+LBB0_1441:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1442
+
+LBB0_1446:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1447:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1449
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
+	LONG $0x2b380f66; BYTE $0xc0   // packusdw    xmm0, xmm0
+	LONG $0xc0670f66               // packuswb    xmm0, xmm0
+	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
+	LONG $0x2b380f66; BYTE $0xc9   // packusdw    xmm1, xmm1
+	LONG $0xc9670f66               // packuswb    xmm1, xmm1
+	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
+
+LBB0_1449:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1450
+
+LBB0_1454:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1455:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1457
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	QUAD $0x000000c0956f0f66       // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI0_13] */
+	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
+	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
+	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
+
+LBB0_1457:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1458
+
+LBB0_1462:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1463:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1465
+	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
+	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_1465:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1466
+
+LBB0_1470:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1471:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1473
+	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
+	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_1473:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1474
+
+LBB0_1478:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1479:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1481
+	LONG $0x21380f66; WORD $0x3a04             // pmovsxbd    xmm0, dword [rdx + rdi]
+	LONG $0x21380f66; WORD $0x3a4c; BYTE $0x04 // pmovsxbd    xmm1, dword [rdx + rdi + 4]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_1481:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1482
+
+LBB0_1486:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1487:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1489
+	LONG $0x31380f66; WORD $0x3a04             // pmovzxbd    xmm0, dword [rdx + rdi]
+	LONG $0x31380f66; WORD $0x3a4c; BYTE $0x04 // pmovzxbd    xmm1, dword [rdx + rdi + 4]
+	LONG $0x047f0ff3; BYTE $0xb9               // movdqu    oword [rcx + 4*rdi], xmm0
+	LONG $0x4c7f0ff3; WORD $0x10b9             // movdqu    oword [rcx + 4*rdi + 16], xmm1
+
+LBB0_1489:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1490
+
+LBB0_1494:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1495:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1497
+	LONG $0x046f0ff3; BYTE $0xba   // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	QUAD $0x000000c0956f0f66       // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI0_13] */
+	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
+	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
+	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
+
+LBB0_1497:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1498
+
+LBB0_1502:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1503:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_1505
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0xc0e60f66                           // cvttpd2dq    xmm0, xmm0
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x556f0f66; BYTE $0x10               // movdqa    xmm2, oword 16[rbp] /* [rip + .LCPI0_1] */
+	LONG $0xc9e60f66                           // cvttpd2dq    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc2               // pshufb    xmm0, xmm2
+	LONG $0x153a0f66; WORD $0x3904; BYTE $0x00 // pextrw    word [rcx + rdi], xmm0, 0
+	LONG $0x00380f66; BYTE $0xca               // pshufb    xmm1, xmm2
+	QUAD $0x0002394c153a0f66                   // pextrw    word [rcx + rdi + 2], xmm1, 0
+
+LBB0_1505:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1506
+
+LBB0_1510:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1511:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1513
+	LONG $0x046f0ff3; BYTE $0x7a   // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	QUAD $0x00000100956f0f66       // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI0_17] */
+	LONG $0x00380f66; BYTE $0xc2   // pshufb    xmm0, xmm2
+	LONG $0x00380f66; BYTE $0xca   // pshufb    xmm1, xmm2
+	LONG $0xc16c0f66               // punpcklqdq    xmm0, xmm1
+	LONG $0x047f0ff3; BYTE $0x39   // movdqu    oword [rcx + rdi], xmm0
+
+LBB0_1513:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1514
+
+LBB0_1518:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_1519:
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_1521
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xc05b0ff3               // cvttps2dq    xmm0, xmm0
+	LONG $0xc06b0f66               // packssdw    xmm0, xmm0
+	LONG $0xc0630f66               // packsswb    xmm0, xmm0
+	LONG $0xc95b0ff3               // cvttps2dq    xmm1, xmm1
+	LONG $0xc96b0f66               // packssdw    xmm1, xmm1
+	LONG $0xc9630f66               // packsswb    xmm1, xmm1
+	LONG $0x047e0f66; BYTE $0x39   // movd    dword [rcx + rdi], xmm0
+	LONG $0x4c7e0f66; WORD $0x0439 // movd    dword [rcx + rdi + 4], xmm1
+
+LBB0_1521:
+	WORD $0x394c; BYTE $0xce // cmp    rsi, r9
+	JE   LBB0_1526
+	JMP  LBB0_1522
diff --git a/go/arrow/compute/internal/kernels/cast_temporal.go b/go/arrow/compute/internal/kernels/cast_temporal.go
new file mode 100644
index 00000000000..b5a85d2336d
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/cast_temporal.go
@@ -0,0 +1,455 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"fmt"
+	"math"
+	"time"
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+)
+
+const millisecondsInDay = 86400000
+
+func ShiftTime[InT, OutT int32 | int64](ctx *exec.KernelCtx, op arrow.TimestampConvertOp, factor int64, input, output *exec.ArraySpan) error {
+	opts := ctx.State.(CastState)
+	inData := exec.GetSpanValues[InT](input, 1)
+	outData := exec.GetSpanValues[OutT](output, 1)
+
+	switch {
+	case factor == 1:
+		for i, v := range inData {
+			outData[i] = OutT(v)
+		}
+		return nil
+
+	case op == arrow.ConvMULTIPLY:
+		if opts.AllowTimeOverflow {
+			multiplyConstant(inData, outData, factor)
+			return nil
+		}
+
+		maxVal, minVal := math.MaxInt64/factor, math.MinInt64/factor
+		if input.Nulls != 0 && len(input.Buffers[0].Buf) > 0 {
+			bitReader := bitutil.NewBitmapReader(input.Buffers[0].Buf, int(input.Offset), int(input.Len))
+			for i, v := range inData {
+				if bitReader.Set() && (int64(v) < minVal || int64(v) > maxVal) {
+					return fmt.Errorf("%w: casting from %s to %s would result in out of bounds timestamp: %v",
+						arrow.ErrInvalid, input.Type, output.Type, v)
+				}
+				outData[i] = OutT(v) * OutT(factor)
+				bitReader.Next()
+			}
+			return nil
+		}
+
+		for i, v := range inData {
+			if int64(v) < minVal || int64(v) > maxVal {
+				return fmt.Errorf("%w: casting from %s to %s would result in out of bounds timestamp: %v",
+					arrow.ErrInvalid, input.Type, output.Type, v)
+			}
+			outData[i] = OutT(v) * OutT(factor)
+		}
+		return nil
+	default:
+		if opts.AllowTimeTruncate {
+			divideConstant(inData, outData, factor)
+			return nil
+		}
+
+		if input.Nulls != 0 && len(input.Buffers[0].Buf) > 0 {
+			bitReader := bitutil.NewBitmapReader(input.Buffers[0].Buf, int(input.Offset), int(input.Len))
+			for i, v := range inData {
+				outData[i] = OutT(v / InT(factor))
+				if bitReader.Set() && (InT(outData[i])*InT(factor) != v) {
+					return fmt.Errorf("%w: casting from %s to %s would lose data: %v",
+						arrow.ErrInvalid, input.Type, output.Type, v)
+				}
+				bitReader.Next()
+			}
+			return nil
+		}
+
+		for i, v := range inData {
+			outData[i] = OutT(v / InT(factor))
+			if InT(outData[i])*InT(factor) != v {
+				return fmt.Errorf("%w: casting from %s to %s would lose data: %v",
+					arrow.ErrInvalid, input.Type, output.Type, v)
+			}
+		}
+
+		return nil
+	}
+}
+
+func TimestampToDate32(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	inType := batch.Values[0].Array.Type.(*arrow.TimestampType)
+	fnToTime, err := inType.GetToTimeFunc()
+	if err != nil {
+		return fmt.Errorf("%w: %s", arrow.ErrInvalid, err)
+	}
+
+	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg0 arrow.Timestamp, _ *error) arrow.Date32 {
+		tm := fnToTime(arg0)
+		return arrow.Date32FromTime(tm)
+	})(ctx, batch, out)
+}
+
+func TimestampToDate64(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	inType := batch.Values[0].Array.Type.(*arrow.TimestampType)
+	fnToTime, err := inType.GetToTimeFunc()
+	if err != nil {
+		return fmt.Errorf("%w: %s", arrow.ErrInvalid, err)
+	}
+
+	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg0 arrow.Timestamp, _ *error) arrow.Date64 {
+		tm := fnToTime(arg0)
+		return arrow.Date64FromTime(tm)
+	})(ctx, batch, out)
+}
+
+func SimpleTemporalCast[I, O arrow.Duration | arrow.Time32 | arrow.Time64 | arrow.Timestamp](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		input   = &batch.Values[0].Array
+		inType  = input.Type.(arrow.TemporalWithUnit)
+		outType = out.Type.(arrow.TemporalWithUnit)
+	)
+
+	if inType.TimeUnit() == outType.TimeUnit() && inType.BitWidth() == outType.BitWidth() {
+		dt := out.Type
+		for i := range out.Buffers {
+			if out.Buffers[i].SelfAlloc && out.Buffers[i].Owner != nil {
+				out.Buffers[i].Owner.Release()
+			}
+		}
+
+		*out = *input
+		out.Type = dt
+		return nil
+	}
+
+	op, factor := arrow.GetTimestampConvert(inType.TimeUnit(), outType.TimeUnit())
+	inSz := unsafe.Sizeof(I(0))
+	outSz := unsafe.Sizeof(O(0))
+	switch inSz {
+	case 4:
+		switch outSz {
+		case 4:
+			return ShiftTime[int32, int32](ctx, op, factor, input, out)
+		default:
+			return ShiftTime[int32, int64](ctx, op, factor, input, out)
+		}
+	default:
+		switch outSz {
+		case 4:
+			return ShiftTime[int64, int32](ctx, op, factor, input, out)
+		default:
+			return ShiftTime[int64, int64](ctx, op, factor, input, out)
+		}
+	}
+}
+
+func StringToTimestamp[OffsetT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	outType := out.Type.(*arrow.TimestampType)
+	zn, err := outType.GetZone()
+	if err != nil {
+		return err
+	}
+
+	expectTimezone := outType.TimeZone != ""
+
+	return ScalarUnaryNotNullBinaryArg[arrow.Timestamp, OffsetT](func(_ *exec.KernelCtx, input []byte, err *error) arrow.Timestamp {
+		v := *(*string)(unsafe.Pointer(&input))
+		o, zonePresent, e := arrow.TimestampFromStringInLocation(v, outType.Unit, zn)
+		if e != nil {
+			*err = e
+		}
+
+		if zonePresent != expectTimezone {
+			if expectTimezone {
+				*err = fmt.Errorf("%w: failed to parse string '%s' as a value of type %s,"+
+					"expected a zone offset. If these timestamps are in local time, cast to timestamp without timezone",
+					arrow.ErrInvalid, v, outType)
+			} else {
+				*err = fmt.Errorf("%w: failed to parse string '%s' as a value of type %s, expected no zone offset",
+					arrow.ErrInvalid, v, outType)
+			}
+		}
+
+		return o
+	})(ctx, batch, out)
+}
+
+func TimestampToTime32(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		inType  = batch.Values[0].Type().(*arrow.TimestampType)
+		outType = out.Type.(*arrow.Time32Type)
+		opts    = ctx.State.(CastState)
+	)
+
+	fnToTime, err := inType.GetToTimeFunc()
+	if err != nil {
+		return fmt.Errorf("%w: %s", arrow.ErrInvalid, err)
+	}
+
+	if inType.TimeZone != "" && inType.TimeZone != "UTC" {
+		origFn := fnToTime
+		fnToTime = func(t arrow.Timestamp) time.Time {
+			v := origFn(t)
+			_, offset := v.Zone()
+			return v.Add(time.Duration(offset) * time.Second).UTC()
+		}
+	}
+
+	var fn func(time.Duration, *error) arrow.Time32
+	switch outType.Unit {
+	case arrow.Second:
+		fn = func(d time.Duration, _ *error) arrow.Time32 {
+			return arrow.Time32(d.Seconds())
+		}
+	case arrow.Millisecond:
+		fn = func(d time.Duration, _ *error) arrow.Time32 {
+			return arrow.Time32(d.Milliseconds())
+		}
+	default:
+		return fmt.Errorf("%w: bad unit type for cast to time32: %s",
+			arrow.ErrInvalid, outType.Unit)
+	}
+
+	op, factor := arrow.GetTimestampConvert(inType.Unit, outType.Unit)
+	if op == arrow.ConvDIVIDE && !opts.AllowTimeTruncate {
+		origFn := fn
+		switch inType.Unit {
+		case arrow.Millisecond:
+			fn = func(d time.Duration, err *error) arrow.Time32 {
+				v := origFn(d, err)
+				if int64(v)*factor != d.Milliseconds() {
+					*err = fmt.Errorf("%w: cast would lose data: %d", arrow.ErrInvalid, d.Milliseconds())
+				}
+				return v
+			}
+		case arrow.Microsecond:
+			fn = func(d time.Duration, err *error) arrow.Time32 {
+				v := origFn(d, err)
+				if int64(v)*factor != d.Microseconds() {
+					*err = fmt.Errorf("%w: cast would lose data: %d", arrow.ErrInvalid, d.Microseconds())
+				}
+				return v
+			}
+		case arrow.Nanosecond:
+			fn = func(d time.Duration, err *error) arrow.Time32 {
+				v := origFn(d, err)
+				if int64(v)*factor != d.Nanoseconds() {
+					*err = fmt.Errorf("%w: cast would lose data: %d", arrow.ErrInvalid, d.Nanoseconds())
+				}
+				return v
+			}
+		}
+	}
+
+	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg0 arrow.Timestamp, err *error) arrow.Time32 {
+		t := fnToTime(arg0)
+		dur := t.Sub(t.Truncate(24 * time.Hour))
+		return fn(dur, err)
+	})(ctx, batch, out)
+}
+
+func TimestampToTime64(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		inType  = batch.Values[0].Type().(*arrow.TimestampType)
+		outType = out.Type.(*arrow.Time64Type)
+		opts    = ctx.State.(CastState)
+	)
+
+	fnToTime, err := inType.GetToTimeFunc()
+	if err != nil {
+		return fmt.Errorf("%w: %s", arrow.ErrInvalid, err)
+	}
+
+	if inType.TimeZone != "" && inType.TimeZone != "UTC" {
+		origFn := fnToTime
+		fnToTime = func(t arrow.Timestamp) time.Time {
+			v := origFn(t)
+			_, offset := v.Zone()
+			return v.Add(time.Duration(offset) * time.Second).UTC()
+		}
+	}
+
+	var fn func(time.Duration, *error) arrow.Time64
+	op, _ := arrow.GetTimestampConvert(inType.Unit, outType.Unit)
+	if op == arrow.ConvDIVIDE && !opts.AllowTimeTruncate {
+		// only one case can happen here, microseconds. nanoseconds
+		// wouldn't be a downscale
+		fn = func(d time.Duration, err *error) arrow.Time64 {
+			if d.Nanoseconds() != d.Microseconds()*int64(time.Microsecond) {
+				*err = fmt.Errorf("%w: cast would lose data: %d", arrow.ErrInvalid, d.Nanoseconds())
+			}
+			return arrow.Time64(d.Microseconds())
+		}
+	} else {
+		switch outType.Unit {
+		case arrow.Microsecond:
+			fn = func(d time.Duration, _ *error) arrow.Time64 {
+				return arrow.Time64(d.Microseconds())
+			}
+		case arrow.Nanosecond:
+			fn = func(d time.Duration, _ *error) arrow.Time64 {
+				return arrow.Time64(d.Nanoseconds())
+			}
+		default:
+			return fmt.Errorf("%w: bad unit type for cast to time64: %s",
+				arrow.ErrInvalid, outType.Unit)
+		}
+	}
+
+	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, arg0 arrow.Timestamp, err *error) arrow.Time64 {
+		t := fnToTime(arg0)
+		dur := t.Sub(t.Truncate(24 * time.Hour))
+		return fn(dur, err)
+	})(ctx, batch, out)
+}
+
+func GetDate32CastKernels() []exec.ScalarKernel {
+	outType := exec.NewOutputType(arrow.FixedWidthTypes.Date32)
+	out := GetCommonCastKernels(arrow.DATE32, outType)
+	out = append(out, GetZeroCastKernel(arrow.INT32, exec.NewExactInput(arrow.PrimitiveTypes.Int32), outType))
+
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewExactInput(arrow.FixedWidthTypes.Date64)}, outType,
+		func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
+			return ShiftTime[int64, int32](ctx, arrow.ConvDIVIDE, millisecondsInDay, &input.Values[0].Array, out)
+		}, nil))
+
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, outType,
+		TimestampToDate32, nil))
+
+	return out
+}
+
+func GetDate64CastKernels() []exec.ScalarKernel {
+	outType := exec.NewOutputType(arrow.FixedWidthTypes.Date64)
+	out := GetCommonCastKernels(arrow.DATE64, outType)
+	out = append(out, GetZeroCastKernel(arrow.INT64, exec.NewExactInput(arrow.PrimitiveTypes.Int64), outType))
+
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewExactInput(arrow.FixedWidthTypes.Date32)}, outType,
+		func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
+			return ShiftTime[int32, int64](ctx, arrow.ConvMULTIPLY, millisecondsInDay, &input.Values[0].Array, out)
+		}, nil))
+
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, outType,
+		TimestampToDate64, nil))
+	return out
+}
+
+func GetTime32CastKernels() []exec.ScalarKernel {
+	out := GetCommonCastKernels(arrow.TIME32, OutputTargetType)
+	out = append(out, GetZeroCastKernel(arrow.INT32, exec.NewExactInput(arrow.PrimitiveTypes.Int32), OutputTargetType))
+
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.TIME64)}, OutputTargetType,
+		SimpleTemporalCast[arrow.Time64, arrow.Time32], nil))
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.TIME32)}, OutputTargetType,
+		SimpleTemporalCast[arrow.Time32, arrow.Time32], nil))
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, OutputTargetType,
+		TimestampToTime32, nil))
+
+	return out
+}
+
+func GetTime64CastKernels() []exec.ScalarKernel {
+	out := GetCommonCastKernels(arrow.TIME64, OutputTargetType)
+	out = append(out, GetZeroCastKernel(arrow.INT64, exec.NewExactInput(arrow.PrimitiveTypes.Int64), OutputTargetType))
+
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.TIME64)}, OutputTargetType,
+		SimpleTemporalCast[arrow.Time64, arrow.Time64], nil))
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.TIME32)}, OutputTargetType,
+		SimpleTemporalCast[arrow.Time32, arrow.Time64], nil))
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, OutputTargetType,
+		TimestampToTime64, nil))
+
+	return out
+}
+
+func GetDurationCastKernels() []exec.ScalarKernel {
+	out := GetCommonCastKernels(arrow.DURATION, OutputTargetType)
+	out = append(out, GetZeroCastKernel(arrow.INT64,
+		exec.NewExactInput(arrow.PrimitiveTypes.Int64), OutputTargetType))
+
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.DURATION)}, OutputTargetType,
+		SimpleTemporalCast[arrow.Duration, arrow.Duration], nil))
+	return out
+}
+
+func GetIntervalCastKernels() []exec.ScalarKernel {
+	return GetCommonCastKernels(arrow.INTERVAL_MONTH_DAY_NANO, OutputTargetType)
+}
+
+func GetTimestampCastKernels() []exec.ScalarKernel {
+	out := GetCommonCastKernels(arrow.TIMESTAMP, OutputTargetType)
+
+	// same integer representation
+	out = append(out, GetZeroCastKernel(arrow.INT64, exec.NewExactInput(arrow.PrimitiveTypes.Int64), OutputTargetType))
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.DATE32)}, OutputTargetType,
+		func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
+			op, factor := arrow.GetTimestampConvert(arrow.Second, out.Type.(arrow.TemporalWithUnit).TimeUnit())
+			debug.Assert(op == arrow.ConvMULTIPLY, "date32 -> timestamp should be multiply operation")
+
+			// multiply to achieve days -> unit
+			factor *= millisecondsInDay / 1000
+			return ShiftTime[int32, int64](ctx, op, factor, &input.Values[0].Array, out)
+		}, nil))
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.DATE64)}, OutputTargetType,
+		func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
+			// date64 is ms since epoch
+			op, factor := arrow.GetTimestampConvert(arrow.Millisecond, out.Type.(arrow.TemporalWithUnit).TimeUnit())
+			debug.Assert(op == arrow.ConvMULTIPLY, "date64 -> timestamp should be multiply operation")
+
+			return ShiftTime[int64, int64](ctx, op, factor, &input.Values[0].Array, out)
+		}, nil))
+
+	// string -> timestamp
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewExactInput(arrow.BinaryTypes.String)}, OutputTargetType,
+		StringToTimestamp[int32], nil))
+	// large_string -> timestamp
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewExactInput(arrow.BinaryTypes.LargeString)}, OutputTargetType,
+		StringToTimestamp[int64], nil))
+	// from one timestamp to another
+	out = append(out, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.TIMESTAMP)}, OutputTargetType,
+		SimpleTemporalCast[arrow.Timestamp, arrow.Timestamp], nil))
+	return out
+}
diff --git a/go/arrow/compute/internal/kernels/compareoperator_string.go b/go/arrow/compute/internal/kernels/compareoperator_string.go
new file mode 100644
index 00000000000..036859815cf
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/compareoperator_string.go
@@ -0,0 +1,30 @@
+// Code generated by "stringer -type=CompareOperator -linecomment"; DO NOT EDIT.
+
+//go:build go1.18
+
+package kernels
+
+import "strconv"
+
+func _() {
+	// An "invalid array index" compiler error signifies that the constant values have changed.
+	// Re-run the stringer command to generate them again.
+	var x [1]struct{}
+	_ = x[CmpEQ-0]
+	_ = x[CmpNE-1]
+	_ = x[CmpGT-2]
+	_ = x[CmpGE-3]
+	_ = x[CmpLT-4]
+	_ = x[CmpLE-5]
+}
+
+const _CompareOperator_name = "equalnot_equalgreatergreater_equallessless_equal"
+
+var _CompareOperator_index = [...]uint8{0, 5, 14, 21, 34, 38, 48}
+
+func (i CompareOperator) String() string {
+	if i < 0 || i >= CompareOperator(len(_CompareOperator_index)-1) {
+		return "CompareOperator(" + strconv.FormatInt(int64(i), 10) + ")"
+	}
+	return _CompareOperator_name[_CompareOperator_index[i]:_CompareOperator_index[i+1]]
+}
diff --git a/go/arrow/compute/internal/kernels/constant_factor.go b/go/arrow/compute/internal/kernels/constant_factor.go
new file mode 100644
index 00000000000..c57902d6a80
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/constant_factor.go
@@ -0,0 +1,81 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+var (
+	multiplyConstantInt32Int32 func([]int32, []int32, int64) = multiplyConstantGo[int32, int32]
+	multiplyConstantInt32Int64 func([]int32, []int64, int64) = multiplyConstantGo[int32, int64]
+	multiplyConstantInt64Int32 func([]int64, []int32, int64) = multiplyConstantGo[int64, int32]
+	multiplyConstantInt64Int64 func([]int64, []int64, int64) = multiplyConstantGo[int64, int64]
+
+	divideConstantInt32Int32 func([]int32, []int32, int64) = divideConstantGo[int32, int32]
+	divideConstantInt32Int64 func([]int32, []int64, int64) = divideConstantGo[int32, int64]
+	divideConstantInt64Int32 func([]int64, []int32, int64) = divideConstantGo[int64, int32]
+	divideConstantInt64Int64 func([]int64, []int64, int64) = divideConstantGo[int64, int64]
+)
+
+func multiplyConstantGo[InT, OutT ~int32 | ~int64](input []InT, output []OutT, factor int64) {
+	for i, v := range input {
+		output[i] = OutT(v) * OutT(factor)
+	}
+}
+
+func divideConstantGo[InT, OutT ~int32 | ~int64](input []InT, output []OutT, factor int64) {
+	for i, v := range input {
+		output[i] = OutT(v / InT(factor))
+	}
+}
+
+func multiplyConstant(input, output any, factor int64) {
+	switch in := input.(type) {
+	case []int32:
+		switch out := output.(type) {
+		case []int32:
+			multiplyConstantInt32Int32(in, out, factor)
+		case []int64:
+			multiplyConstantInt32Int64(in, out, factor)
+		}
+	case []int64:
+		switch out := output.(type) {
+		case []int32:
+			multiplyConstantInt64Int32(in, out, factor)
+		case []int64:
+			multiplyConstantInt64Int64(in, out, factor)
+		}
+	}
+}
+
+func divideConstant(input, output any, factor int64) {
+	switch in := input.(type) {
+	case []int32:
+		switch out := output.(type) {
+		case []int32:
+			divideConstantInt32Int32(in, out, factor)
+		case []int64:
+			divideConstantInt32Int64(in, out, factor)
+		}
+	case []int64:
+		switch out := output.(type) {
+		case []int32:
+			divideConstantInt64Int32(in, out, factor)
+		case []int64:
+			divideConstantInt64Int64(in, out, factor)
+		}
+	}
+}
diff --git a/go/arrow/compute/internal/kernels/constant_factor_amd64.go b/go/arrow/compute/internal/kernels/constant_factor_amd64.go
new file mode 100644
index 00000000000..7229632eafb
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/constant_factor_amd64.go
@@ -0,0 +1,57 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && !noasm
+
+package kernels
+
+import (
+	"golang.org/x/sys/cpu"
+)
+
+func init() {
+	if cpu.X86.HasAVX2 {
+		multiplyConstantInt32Int32 = multiplyConstantInt32Int32Avx2
+		multiplyConstantInt32Int64 = multiplyConstantInt32Int64Avx2
+		multiplyConstantInt64Int32 = multiplyConstantInt64Int32Avx2
+		multiplyConstantInt64Int64 = multiplyConstantInt64Int64Avx2
+
+		divideConstantInt32Int32 = divideConstantInt32Int32Avx2
+		divideConstantInt32Int64 = divideConstantInt32Int64Avx2
+		divideConstantInt64Int32 = divideConstantInt64Int32Avx2
+		divideConstantInt64Int64 = divideConstantInt64Int64Avx2
+	} else if cpu.X86.HasSSE42 {
+		multiplyConstantInt32Int32 = multiplyConstantInt32Int32SSE4
+		multiplyConstantInt32Int64 = multiplyConstantInt32Int64SSE4
+		multiplyConstantInt64Int32 = multiplyConstantInt64Int32SSE4
+		multiplyConstantInt64Int64 = multiplyConstantInt64Int64SSE4
+
+		divideConstantInt32Int32 = divideConstantInt32Int32SSE4
+		divideConstantInt32Int64 = divideConstantInt32Int64SSE4
+		divideConstantInt64Int32 = divideConstantInt64Int32SSE4
+		divideConstantInt64Int64 = divideConstantInt64Int64SSE4
+	} else {
+		multiplyConstantInt32Int32 = multiplyConstantGo[int32, int32]
+		multiplyConstantInt32Int64 = multiplyConstantGo[int32, int64]
+		multiplyConstantInt64Int32 = multiplyConstantGo[int64, int32]
+		multiplyConstantInt64Int64 = multiplyConstantGo[int64, int64]
+
+		divideConstantInt32Int32 = divideConstantGo[int32, int32]
+		divideConstantInt32Int64 = divideConstantGo[int32, int64]
+		divideConstantInt64Int32 = divideConstantGo[int64, int32]
+		divideConstantInt64Int64 = divideConstantGo[int64, int64]
+	}
+}
diff --git a/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.go b/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.go
new file mode 100644
index 00000000000..7d3574655cd
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.go
@@ -0,0 +1,77 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && !noasm
+
+package kernels
+
+import "unsafe"
+
+//go:noescape
+func _multiply_constant_int32_int32_avx2(src, dest unsafe.Pointer, len int, factor int64)
+
+func multiplyConstantInt32Int32Avx2(in []int32, out []int32, factor int64) {
+	_multiply_constant_int32_int32_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _multiply_constant_int32_int64_avx2(src, dest unsafe.Pointer, len int, factor int64)
+
+func multiplyConstantInt32Int64Avx2(in []int32, out []int64, factor int64) {
+	_multiply_constant_int32_int64_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _multiply_constant_int64_int32_avx2(src, dest unsafe.Pointer, len int, factor int64)
+
+func multiplyConstantInt64Int32Avx2(in []int64, out []int32, factor int64) {
+	_multiply_constant_int64_int32_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _multiply_constant_int64_int64_avx2(src, dest unsafe.Pointer, len int, factor int64)
+
+func multiplyConstantInt64Int64Avx2(in []int64, out []int64, factor int64) {
+	_multiply_constant_int64_int64_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _divide_constant_int32_int32_avx2(src, dest unsafe.Pointer, len int, factor int64)
+
+func divideConstantInt32Int32Avx2(in []int32, out []int32, factor int64) {
+	_divide_constant_int32_int32_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _divide_constant_int32_int64_avx2(src, dest unsafe.Pointer, len int, factor int64)
+
+func divideConstantInt32Int64Avx2(in []int32, out []int64, factor int64) {
+	_divide_constant_int32_int64_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _divide_constant_int64_int32_avx2(src, dest unsafe.Pointer, len int, factor int64)
+
+func divideConstantInt64Int32Avx2(in []int64, out []int32, factor int64) {
+	_divide_constant_int64_int32_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _divide_constant_int64_int64_avx2(src, dest unsafe.Pointer, len int, factor int64)
+
+func divideConstantInt64Int64Avx2(in []int64, out []int64, factor int64) {
+	_divide_constant_int64_int64_avx2(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
diff --git a/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.s b/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.s
new file mode 100644
index 00000000000..c7c747b19bb
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/constant_factor_avx2_amd64.s
@@ -0,0 +1,781 @@
+//go:build go1.18 && !noasm && !appengine
+// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
+
+TEXT ·_multiply_constant_int32_int32_avx2(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB0_16
+	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
+	WORD $0xfa83; BYTE $0x1f // cmp    edx, 31
+	JBE  LBB0_2
+	LONG $0x8f048d4a         // lea    rax, [rdi + 4*r9]
+	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
+	JBE  LBB0_9
+	LONG $0x8e048d4a         // lea    rax, [rsi + 4*r9]
+	WORD $0x3948; BYTE $0xf8 // cmp    rax, rdi
+	JBE  LBB0_9
+
+LBB0_2:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB0_3:
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_5
+
+LBB0_4:
+	LONG $0x9f148b42         // mov    edx, dword [rdi + 4*r11]
+	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
+	LONG $0x9e148942         // mov    dword [rsi + 4*r11], edx
+	LONG $0x01c38349         // add    r11, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_4
+
+LBB0_5:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_16
+
+LBB0_6:
+	LONG $0x9f048b42             // mov    eax, dword [rdi + 4*r11]
+	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
+	LONG $0x9e048942             // mov    dword [rsi + 4*r11], eax
+	LONG $0x9f448b42; BYTE $0x04 // mov    eax, dword [rdi + 4*r11 + 4]
+	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
+	LONG $0x9e448942; BYTE $0x04 // mov    dword [rsi + 4*r11 + 4], eax
+	LONG $0x9f448b42; BYTE $0x08 // mov    eax, dword [rdi + 4*r11 + 8]
+	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
+	LONG $0x9e448942; BYTE $0x08 // mov    dword [rsi + 4*r11 + 8], eax
+	LONG $0x9f448b42; BYTE $0x0c // mov    eax, dword [rdi + 4*r11 + 12]
+	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
+	LONG $0x9e448942; BYTE $0x0c // mov    dword [rsi + 4*r11 + 12], eax
+	LONG $0x04c38349             // add    r11, 4
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB0_6
+	JMP  LBB0_16
+
+LBB0_9:
+	WORD $0x8945; BYTE $0xcb     // mov    r11d, r9d
+	LONG $0xe0e38341             // and    r11d, -32
+	LONG $0xc16ef9c5             // vmovd    xmm0, ecx
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0438d49             // lea    rax, [r11 - 32]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x05e8c149             // shr    r8, 5
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_10
+	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0xf749; BYTE $0xda     // neg    r10
+	WORD $0xc031                 // xor    eax, eax
+
+LBB0_12:
+	LONG $0x407de2c4; WORD $0x870c             // vpmulld    ymm1, ymm0, yword [rdi + 4*rax]
+	LONG $0x407de2c4; WORD $0x8754; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdi + 4*rax + 32]
+	LONG $0x407de2c4; WORD $0x875c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdi + 4*rax + 64]
+	LONG $0x407de2c4; WORD $0x8764; BYTE $0x60 // vpmulld    ymm4, ymm0, yword [rdi + 4*rax + 96]
+	LONG $0x0c7ffec5; BYTE $0x86               // vmovdqu    yword [rsi + 4*rax], ymm1
+	LONG $0x547ffec5; WORD $0x2086             // vmovdqu    yword [rsi + 4*rax + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x4086             // vmovdqu    yword [rsi + 4*rax + 64], ymm3
+	LONG $0x647ffec5; WORD $0x6086             // vmovdqu    yword [rsi + 4*rax + 96], ymm4
+	QUAD $0x0080878c407de2c4; WORD $0x0000     // vpmulld    ymm1, ymm0, yword [rdi + 4*rax + 128]
+	QUAD $0x00a08794407de2c4; WORD $0x0000     // vpmulld    ymm2, ymm0, yword [rdi + 4*rax + 160]
+	QUAD $0x00c0879c407de2c4; WORD $0x0000     // vpmulld    ymm3, ymm0, yword [rdi + 4*rax + 192]
+	QUAD $0x00e087a4407de2c4; WORD $0x0000     // vpmulld    ymm4, ymm0, yword [rdi + 4*rax + 224]
+	QUAD $0x000080868c7ffec5; BYTE $0x00       // vmovdqu    yword [rsi + 4*rax + 128], ymm1
+	QUAD $0x0000a086947ffec5; BYTE $0x00       // vmovdqu    yword [rsi + 4*rax + 160], ymm2
+	QUAD $0x0000c0869c7ffec5; BYTE $0x00       // vmovdqu    yword [rsi + 4*rax + 192], ymm3
+	QUAD $0x0000e086a47ffec5; BYTE $0x00       // vmovdqu    yword [rsi + 4*rax + 224], ymm4
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c28349                           // add    r10, 2
+	JNE  LBB0_12
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB0_15
+
+LBB0_14:
+	LONG $0x407de2c4; WORD $0x870c             // vpmulld    ymm1, ymm0, yword [rdi + 4*rax]
+	LONG $0x407de2c4; WORD $0x8754; BYTE $0x20 // vpmulld    ymm2, ymm0, yword [rdi + 4*rax + 32]
+	LONG $0x407de2c4; WORD $0x875c; BYTE $0x40 // vpmulld    ymm3, ymm0, yword [rdi + 4*rax + 64]
+	LONG $0x407de2c4; WORD $0x8744; BYTE $0x60 // vpmulld    ymm0, ymm0, yword [rdi + 4*rax + 96]
+	LONG $0x0c7ffec5; BYTE $0x86               // vmovdqu    yword [rsi + 4*rax], ymm1
+	LONG $0x547ffec5; WORD $0x2086             // vmovdqu    yword [rsi + 4*rax + 32], ymm2
+	LONG $0x5c7ffec5; WORD $0x4086             // vmovdqu    yword [rsi + 4*rax + 64], ymm3
+	LONG $0x447ffec5; WORD $0x6086             // vmovdqu    yword [rsi + 4*rax + 96], ymm0
+
+LBB0_15:
+	WORD $0x394d; BYTE $0xcb // cmp    r11, r9
+	JNE  LBB0_3
+
+LBB0_16:
+	VZEROUPPER
+	RET
+
+LBB0_10:
+	WORD $0xc031     // xor    eax, eax
+	LONG $0x01c0f641 // test    r8b, 1
+	JNE  LBB0_14
+	JMP  LBB0_15
+
+TEXT ·_divide_constant_int32_int32_avx2(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB1_8
+	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
+	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
+	JNE  LBB1_9
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+
+LBB1_3:
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB1_8
+	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB1_5
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB1_7
+
+LBB1_9:
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0xfee28341         // and    r10d, -2
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	JMP  LBB1_10
+
+LBB1_15:
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+
+LBB1_16:
+	LONG $0x86448942; BYTE $0x04 // mov    dword [rsi + 4*r8 + 4], eax
+	LONG $0x02c08349             // add    r8, 2
+	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
+	JE   LBB1_3
+
+LBB1_10:
+	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB1_11
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB1_13
+
+LBB1_11:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB1_13:
+	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
+	LONG $0x8744634a; BYTE $0x04 // movsxd    rax, dword [rdi + 4*r8 + 4]
+	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
+	LONG $0x20eac148             // shr    rdx, 32
+	JNE  LBB1_15
+	WORD $0xd231                 // xor    edx, edx
+	WORD $0xf1f7                 // div    ecx
+	JMP  LBB1_16
+
+LBB1_5:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB1_7:
+	LONG $0x86048942 // mov    dword [rsi + 4*r8], eax
+
+LBB1_8:
+	RET
+
+TEXT ·_multiply_constant_int32_int64_avx2(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB2_7
+	WORD $0x8941; BYTE $0xd0 // mov    r8d, edx
+	WORD $0xfa83; BYTE $0x0f // cmp    edx, 15
+	JA   LBB2_3
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB2_6
+
+LBB2_3:
+	WORD $0x8944; BYTE $0xc2     // mov    edx, r8d
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	LONG $0x6ef9e1c4; BYTE $0xc1 // vmovq    xmm0, rcx
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
+
+LBB2_4:
+	LONG $0x257de2c4; WORD $0x8714             // vpmovsxdq    ymm2, oword [rdi + 4*rax]
+	LONG $0x257de2c4; WORD $0x875c; BYTE $0x10 // vpmovsxdq    ymm3, oword [rdi + 4*rax + 16]
+	LONG $0x257de2c4; WORD $0x8764; BYTE $0x20 // vpmovsxdq    ymm4, oword [rdi + 4*rax + 32]
+	LONG $0x257de2c4; WORD $0x876c; BYTE $0x30 // vpmovsxdq    ymm5, oword [rdi + 4*rax + 48]
+	LONG $0xf2f4f5c5                           // vpmuludq    ymm6, ymm1, ymm2
+	LONG $0xd273c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm2, 32
+	LONG $0xfff4fdc5                           // vpmuludq    ymm7, ymm0, ymm7
+	LONG $0xf6d4c5c5                           // vpaddq    ymm6, ymm7, ymm6
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xd2f4fdc5                           // vpmuludq    ymm2, ymm0, ymm2
+	LONG $0xd6d4edc5                           // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf3f4f5c5                           // vpmuludq    ymm6, ymm1, ymm3
+	LONG $0xd373c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm3, 32
+	LONG $0xfff4fdc5                           // vpmuludq    ymm7, ymm0, ymm7
+	LONG $0xf6d4c5c5                           // vpaddq    ymm6, ymm7, ymm6
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xdbf4fdc5                           // vpmuludq    ymm3, ymm0, ymm3
+	LONG $0xded4e5c5                           // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf4f4f5c5                           // vpmuludq    ymm6, ymm1, ymm4
+	LONG $0xd473c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm4, 32
+	LONG $0xfff4fdc5                           // vpmuludq    ymm7, ymm0, ymm7
+	LONG $0xf6d4c5c5                           // vpaddq    ymm6, ymm7, ymm6
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xe4f4fdc5                           // vpmuludq    ymm4, ymm0, ymm4
+	LONG $0xe6d4ddc5                           // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf5f4f5c5                           // vpmuludq    ymm6, ymm1, ymm5
+	LONG $0xd573c5c5; BYTE $0x20               // vpsrlq    ymm7, ymm5, 32
+	LONG $0xfff4fdc5                           // vpmuludq    ymm7, ymm0, ymm7
+	LONG $0xf6d4c5c5                           // vpaddq    ymm6, ymm7, ymm6
+	LONG $0xf673cdc5; BYTE $0x20               // vpsllq    ymm6, ymm6, 32
+	LONG $0xedf4fdc5                           // vpmuludq    ymm5, ymm0, ymm5
+	LONG $0xeed4d5c5                           // vpaddq    ymm5, ymm5, ymm6
+	LONG $0x147ffec5; BYTE $0xc6               // vmovdqu    yword [rsi + 8*rax], ymm2
+	LONG $0x5c7ffec5; WORD $0x20c6             // vmovdqu    yword [rsi + 8*rax + 32], ymm3
+	LONG $0x647ffec5; WORD $0x40c6             // vmovdqu    yword [rsi + 8*rax + 64], ymm4
+	LONG $0x6c7ffec5; WORD $0x60c6             // vmovdqu    yword [rsi + 8*rax + 96], ymm5
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JNE  LBB2_4
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JE   LBB2_7
+
+LBB2_6:
+	LONG $0x97046348         // movsxd    rax, dword [rdi + 4*rdx]
+	LONG $0xc1af0f48         // imul    rax, rcx
+	LONG $0xd6048948         // mov    qword [rsi + 8*rdx], rax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd0 // cmp    r8, rdx
+	JNE  LBB2_6
+
+LBB2_7:
+	VZEROUPPER
+	RET
+
+TEXT ·_divide_constant_int32_int64_avx2(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB3_8
+	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
+	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
+	JNE  LBB3_9
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+
+LBB3_3:
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB3_8
+	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB3_5
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB3_7
+
+LBB3_9:
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0xfee28341         // and    r10d, -2
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	JMP  LBB3_10
+
+LBB3_15:
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+
+LBB3_16:
+	LONG $0xc644894a; BYTE $0x08 // mov    qword [rsi + 8*r8 + 8], rax
+	LONG $0x02c08349             // add    r8, 2
+	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
+	JE   LBB3_3
+
+LBB3_10:
+	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB3_11
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB3_13
+
+LBB3_11:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB3_13:
+	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
+	LONG $0x8744634a; BYTE $0x04 // movsxd    rax, dword [rdi + 4*r8 + 4]
+	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
+	LONG $0x20eac148             // shr    rdx, 32
+	JNE  LBB3_15
+	WORD $0xd231                 // xor    edx, edx
+	WORD $0xf1f7                 // div    ecx
+	JMP  LBB3_16
+
+LBB3_5:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB3_7:
+	LONG $0xc604894a // mov    qword [rsi + 8*r8], rax
+
+LBB3_8:
+	RET
+
+TEXT ·_multiply_constant_int64_int32_avx2(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB4_7
+	WORD $0x8941; BYTE $0xd0 // mov    r8d, edx
+	WORD $0xfa83; BYTE $0x0f // cmp    edx, 15
+	JA   LBB4_3
+	WORD $0xd231             // xor    edx, edx
+	JMP  LBB4_6
+
+LBB4_3:
+	WORD $0x8944; BYTE $0xc2       // mov    edx, r8d
+	WORD $0xe283; BYTE $0xf0       // and    edx, -16
+	LONG $0x6ef9e1c4; BYTE $0xc1   // vmovq    xmm0, rcx
+	LONG $0x597de2c4; BYTE $0xc0   // vpbroadcastq    ymm0, xmm0
+	WORD $0xc031                   // xor    eax, eax
+	LONG $0x397de3c4; WORD $0x01c1 // vextracti128    xmm1, ymm0, 1
+
+LBB4_4:
+	LONG $0x1410f8c5; BYTE $0xc7               // vmovups    xmm2, oword [rdi + 8*rax]
+	LONG $0x5c10f8c5; WORD $0x20c7             // vmovups    xmm3, oword [rdi + 8*rax + 32]
+	LONG $0x6410f8c5; WORD $0x40c7             // vmovups    xmm4, oword [rdi + 8*rax + 64]
+	LONG $0x6c10f8c5; WORD $0x60c7             // vmovups    xmm5, oword [rdi + 8*rax + 96]
+	LONG $0x54c6e8c5; WORD $0x10c7; BYTE $0x88 // vshufps    xmm2, xmm2, oword [rdi + 8*rax + 16], 136
+	LONG $0xf1c6f8c5; BYTE $0x88               // vshufps    xmm6, xmm0, xmm1, 136
+	LONG $0x4069e2c4; BYTE $0xd6               // vpmulld    xmm2, xmm2, xmm6
+	LONG $0x5cc6e0c5; WORD $0x30c7; BYTE $0x88 // vshufps    xmm3, xmm3, oword [rdi + 8*rax + 48], 136
+	LONG $0xf1c6f8c5; BYTE $0x88               // vshufps    xmm6, xmm0, xmm1, 136
+	LONG $0x4061e2c4; BYTE $0xde               // vpmulld    xmm3, xmm3, xmm6
+	LONG $0x64c6d8c5; WORD $0x50c7; BYTE $0x88 // vshufps    xmm4, xmm4, oword [rdi + 8*rax + 80], 136
+	LONG $0xf1c6f8c5; BYTE $0x88               // vshufps    xmm6, xmm0, xmm1, 136
+	LONG $0x4059e2c4; BYTE $0xe6               // vpmulld    xmm4, xmm4, xmm6
+	LONG $0x6cc6d0c5; WORD $0x70c7; BYTE $0x88 // vshufps    xmm5, xmm5, oword [rdi + 8*rax + 112], 136
+	LONG $0xf1c6f8c5; BYTE $0x88               // vshufps    xmm6, xmm0, xmm1, 136
+	LONG $0x4051e2c4; BYTE $0xee               // vpmulld    xmm5, xmm5, xmm6
+	LONG $0x147ffac5; BYTE $0x86               // vmovdqu    oword [rsi + 4*rax], xmm2
+	LONG $0x5c7ffac5; WORD $0x1086             // vmovdqu    oword [rsi + 4*rax + 16], xmm3
+	LONG $0x647ffac5; WORD $0x2086             // vmovdqu    oword [rsi + 4*rax + 32], xmm4
+	LONG $0x6c7ffac5; WORD $0x3086             // vmovdqu    oword [rsi + 4*rax + 48], xmm5
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0x3948; BYTE $0xc2                   // cmp    rdx, rax
+	JNE  LBB4_4
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JE   LBB4_7
+
+LBB4_6:
+	WORD $0x048b; BYTE $0xd7 // mov    eax, dword [rdi + 8*rdx]
+	WORD $0xaf0f; BYTE $0xc1 // imul    eax, ecx
+	WORD $0x0489; BYTE $0x96 // mov    dword [rsi + 4*rdx], eax
+	LONG $0x01c28348         // add    rdx, 1
+	WORD $0x3949; BYTE $0xd0 // cmp    r8, rdx
+	JNE  LBB4_6
+
+LBB4_7:
+	VZEROUPPER
+	RET
+
+TEXT ·_divide_constant_int64_int32_avx2(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB5_8
+	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
+	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
+	JNE  LBB5_9
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+
+LBB5_3:
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB5_8
+	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB5_5
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB5_7
+
+LBB5_9:
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0xfee28341         // and    r10d, -2
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	JMP  LBB5_10
+
+LBB5_15:
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+
+LBB5_16:
+	LONG $0x86448942; BYTE $0x04 // mov    dword [rsi + 4*r8 + 4], eax
+	LONG $0x02c08349             // add    r8, 2
+	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
+	JE   LBB5_3
+
+LBB5_10:
+	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB5_11
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB5_13
+
+LBB5_11:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB5_13:
+	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
+	LONG $0xc7448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r8 + 8]
+	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
+	LONG $0x20eac148             // shr    rdx, 32
+	JNE  LBB5_15
+	WORD $0xd231                 // xor    edx, edx
+	WORD $0xf1f7                 // div    ecx
+	JMP  LBB5_16
+
+LBB5_5:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB5_7:
+	LONG $0x86048942 // mov    dword [rsi + 4*r8], eax
+
+LBB5_8:
+	RET
+
+TEXT ·_multiply_constant_int64_int64_avx2(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB6_16
+	WORD $0x8941; BYTE $0xd0 // mov    r8d, edx
+	WORD $0xfa83; BYTE $0x0f // cmp    edx, 15
+	JBE  LBB6_2
+	LONG $0xc7048d4a         // lea    rax, [rdi + 8*r8]
+	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
+	JBE  LBB6_9
+	LONG $0xc6048d4a         // lea    rax, [rsi + 8*r8]
+	WORD $0x3948; BYTE $0xf8 // cmp    rax, rdi
+	JBE  LBB6_9
+
+LBB6_2:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB6_3:
+	WORD $0x894d; BYTE $0xd9 // mov    r9, r11
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xc1 // add    r9, r8
+	WORD $0x894c; BYTE $0xc0 // mov    rax, r8
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB6_5
+
+LBB6_4:
+	LONG $0xdf148b4a // mov    rdx, qword [rdi + 8*r11]
+	LONG $0xd1af0f48 // imul    rdx, rcx
+	LONG $0xde14894a // mov    qword [rsi + 8*r11], rdx
+	LONG $0x01c38349 // add    r11, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB6_4
+
+LBB6_5:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB6_16
+
+LBB6_6:
+	LONG $0xdf048b4a             // mov    rax, qword [rdi + 8*r11]
+	LONG $0xc1af0f48             // imul    rax, rcx
+	LONG $0xde04894a             // mov    qword [rsi + 8*r11], rax
+	LONG $0xdf448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r11 + 8]
+	LONG $0xc1af0f48             // imul    rax, rcx
+	LONG $0xde44894a; BYTE $0x08 // mov    qword [rsi + 8*r11 + 8], rax
+	LONG $0xdf448b4a; BYTE $0x10 // mov    rax, qword [rdi + 8*r11 + 16]
+	LONG $0xc1af0f48             // imul    rax, rcx
+	LONG $0xde44894a; BYTE $0x10 // mov    qword [rsi + 8*r11 + 16], rax
+	LONG $0xdf448b4a; BYTE $0x18 // mov    rax, qword [rdi + 8*r11 + 24]
+	LONG $0xc1af0f48             // imul    rax, rcx
+	LONG $0xde44894a; BYTE $0x18 // mov    qword [rsi + 8*r11 + 24], rax
+	LONG $0x04c38349             // add    r11, 4
+	WORD $0x394d; BYTE $0xd8     // cmp    r8, r11
+	JNE  LBB6_6
+	JMP  LBB6_16
+
+LBB6_9:
+	WORD $0x8945; BYTE $0xc3     // mov    r11d, r8d
+	LONG $0xf0e38341             // and    r11d, -16
+	LONG $0x6ef9e1c4; BYTE $0xc1 // vmovq    xmm0, rcx
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0438d49             // lea    rax, [r11 - 16]
+	WORD $0x8949; BYTE $0xc1     // mov    r9, rax
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	LONG $0xd073f5c5; BYTE $0x20 // vpsrlq    ymm1, ymm0, 32
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB6_10
+	WORD $0x894d; BYTE $0xca     // mov    r10, r9
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0xf749; BYTE $0xda     // neg    r10
+	WORD $0xc031                 // xor    eax, eax
+
+LBB6_12:
+	LONG $0x146ffec5; BYTE $0xc7         // vmovdqu    ymm2, yword [rdi + 8*rax]
+	LONG $0x5c6ffec5; WORD $0x20c7       // vmovdqu    ymm3, yword [rdi + 8*rax + 32]
+	LONG $0x646ffec5; WORD $0x40c7       // vmovdqu    ymm4, yword [rdi + 8*rax + 64]
+	LONG $0x6c6ffec5; WORD $0x60c7       // vmovdqu    ymm5, yword [rdi + 8*rax + 96]
+	LONG $0xf1f4edc5                     // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                     // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                     // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                     // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                     // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                     // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                     // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                     // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                     // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                     // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                     // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                     // vpaddq    ymm5, ymm5, ymm6
+	LONG $0x147ffec5; BYTE $0xc6         // vmovdqu    yword [rsi + 8*rax], ymm2
+	LONG $0x5c7ffec5; WORD $0x20c6       // vmovdqu    yword [rsi + 8*rax + 32], ymm3
+	LONG $0x647ffec5; WORD $0x40c6       // vmovdqu    yword [rsi + 8*rax + 64], ymm4
+	LONG $0x6c7ffec5; WORD $0x60c6       // vmovdqu    yword [rsi + 8*rax + 96], ymm5
+	QUAD $0x000080c7946ffec5; BYTE $0x00 // vmovdqu    ymm2, yword [rdi + 8*rax + 128]
+	QUAD $0x0000a0c79c6ffec5; BYTE $0x00 // vmovdqu    ymm3, yword [rdi + 8*rax + 160]
+	QUAD $0x0000c0c7a46ffec5; BYTE $0x00 // vmovdqu    ymm4, yword [rdi + 8*rax + 192]
+	QUAD $0x0000e0c7ac6ffec5; BYTE $0x00 // vmovdqu    ymm5, yword [rdi + 8*rax + 224]
+	LONG $0xf1f4edc5                     // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5                     // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5                     // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5                     // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5                     // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5                     // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5                     // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5                     // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5                     // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xf1f4d5c5                     // vpmuludq    ymm6, ymm5, ymm1
+	LONG $0xd573c5c5; BYTE $0x20         // vpsrlq    ymm7, ymm5, 32
+	LONG $0xf8f4c5c5                     // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5                     // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20         // vpsllq    ymm6, ymm6, 32
+	LONG $0xe8f4d5c5                     // vpmuludq    ymm5, ymm5, ymm0
+	LONG $0xeed4d5c5                     // vpaddq    ymm5, ymm5, ymm6
+	QUAD $0x000080c6947ffec5; BYTE $0x00 // vmovdqu    yword [rsi + 8*rax + 128], ymm2
+	QUAD $0x0000a0c69c7ffec5; BYTE $0x00 // vmovdqu    yword [rsi + 8*rax + 160], ymm3
+	QUAD $0x0000c0c6a47ffec5; BYTE $0x00 // vmovdqu    yword [rsi + 8*rax + 192], ymm4
+	QUAD $0x0000e0c6ac7ffec5; BYTE $0x00 // vmovdqu    yword [rsi + 8*rax + 224], ymm5
+	LONG $0x20c08348                     // add    rax, 32
+	LONG $0x02c28349                     // add    r10, 2
+	JNE  LBB6_12
+	LONG $0x01c1f641                     // test    r9b, 1
+	JE   LBB6_15
+
+LBB6_14:
+	LONG $0x146ffec5; BYTE $0xc7   // vmovdqu    ymm2, yword [rdi + 8*rax]
+	LONG $0x5c6ffec5; WORD $0x20c7 // vmovdqu    ymm3, yword [rdi + 8*rax + 32]
+	LONG $0x646ffec5; WORD $0x40c7 // vmovdqu    ymm4, yword [rdi + 8*rax + 64]
+	LONG $0x6c6ffec5; WORD $0x60c7 // vmovdqu    ymm5, yword [rdi + 8*rax + 96]
+	LONG $0xf1f4edc5               // vpmuludq    ymm6, ymm2, ymm1
+	LONG $0xd273c5c5; BYTE $0x20   // vpsrlq    ymm7, ymm2, 32
+	LONG $0xf8f4c5c5               // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5               // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20   // vpsllq    ymm6, ymm6, 32
+	LONG $0xd0f4edc5               // vpmuludq    ymm2, ymm2, ymm0
+	LONG $0xd6d4edc5               // vpaddq    ymm2, ymm2, ymm6
+	LONG $0xf1f4e5c5               // vpmuludq    ymm6, ymm3, ymm1
+	LONG $0xd373c5c5; BYTE $0x20   // vpsrlq    ymm7, ymm3, 32
+	LONG $0xf8f4c5c5               // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5               // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20   // vpsllq    ymm6, ymm6, 32
+	LONG $0xd8f4e5c5               // vpmuludq    ymm3, ymm3, ymm0
+	LONG $0xded4e5c5               // vpaddq    ymm3, ymm3, ymm6
+	LONG $0xf1f4ddc5               // vpmuludq    ymm6, ymm4, ymm1
+	LONG $0xd473c5c5; BYTE $0x20   // vpsrlq    ymm7, ymm4, 32
+	LONG $0xf8f4c5c5               // vpmuludq    ymm7, ymm7, ymm0
+	LONG $0xf7d4cdc5               // vpaddq    ymm6, ymm6, ymm7
+	LONG $0xf673cdc5; BYTE $0x20   // vpsllq    ymm6, ymm6, 32
+	LONG $0xe0f4ddc5               // vpmuludq    ymm4, ymm4, ymm0
+	LONG $0xe6d4ddc5               // vpaddq    ymm4, ymm4, ymm6
+	LONG $0xc9f4d5c5               // vpmuludq    ymm1, ymm5, ymm1
+	LONG $0xd573cdc5; BYTE $0x20   // vpsrlq    ymm6, ymm5, 32
+	LONG $0xf0f4cdc5               // vpmuludq    ymm6, ymm6, ymm0
+	LONG $0xced4f5c5               // vpaddq    ymm1, ymm1, ymm6
+	LONG $0xf173f5c5; BYTE $0x20   // vpsllq    ymm1, ymm1, 32
+	LONG $0xc0f4d5c5               // vpmuludq    ymm0, ymm5, ymm0
+	LONG $0xc1d4fdc5               // vpaddq    ymm0, ymm0, ymm1
+	LONG $0x147ffec5; BYTE $0xc6   // vmovdqu    yword [rsi + 8*rax], ymm2
+	LONG $0x5c7ffec5; WORD $0x20c6 // vmovdqu    yword [rsi + 8*rax + 32], ymm3
+	LONG $0x647ffec5; WORD $0x40c6 // vmovdqu    yword [rsi + 8*rax + 64], ymm4
+	LONG $0x447ffec5; WORD $0x60c6 // vmovdqu    yword [rsi + 8*rax + 96], ymm0
+
+LBB6_15:
+	WORD $0x394d; BYTE $0xc3 // cmp    r11, r8
+	JNE  LBB6_3
+
+LBB6_16:
+	VZEROUPPER
+	RET
+
+LBB6_10:
+	WORD $0xc031     // xor    eax, eax
+	LONG $0x01c1f641 // test    r9b, 1
+	JNE  LBB6_14
+	JMP  LBB6_15
+
+TEXT ·_divide_constant_int64_int64_avx2(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB7_8
+	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
+	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
+	JNE  LBB7_9
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+
+LBB7_3:
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB7_8
+	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB7_5
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB7_7
+
+LBB7_9:
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0xfee28341         // and    r10d, -2
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	JMP  LBB7_10
+
+LBB7_15:
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+
+LBB7_16:
+	LONG $0xc644894a; BYTE $0x08 // mov    qword [rsi + 8*r8 + 8], rax
+	LONG $0x02c08349             // add    r8, 2
+	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
+	JE   LBB7_3
+
+LBB7_10:
+	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB7_11
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB7_13
+
+LBB7_11:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB7_13:
+	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
+	LONG $0xc7448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r8 + 8]
+	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
+	LONG $0x20eac148             // shr    rdx, 32
+	JNE  LBB7_15
+	WORD $0xd231                 // xor    edx, edx
+	WORD $0xf1f7                 // div    ecx
+	JMP  LBB7_16
+
+LBB7_5:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB7_7:
+	LONG $0xc604894a // mov    qword [rsi + 8*r8], rax
+
+LBB7_8:
+	RET
diff --git a/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.go b/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.go
new file mode 100644
index 00000000000..1f42f3728ce
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.go
@@ -0,0 +1,77 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && !noasm
+
+package kernels
+
+import "unsafe"
+
+//go:noescape
+func _multiply_constant_int32_int32_sse4(src, dest unsafe.Pointer, len int, factor int64)
+
+func multiplyConstantInt32Int32SSE4(in []int32, out []int32, factor int64) {
+	_multiply_constant_int32_int32_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _multiply_constant_int32_int64_sse4(src, dest unsafe.Pointer, len int, factor int64)
+
+func multiplyConstantInt32Int64SSE4(in []int32, out []int64, factor int64) {
+	_multiply_constant_int32_int64_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _multiply_constant_int64_int32_sse4(src, dest unsafe.Pointer, len int, factor int64)
+
+func multiplyConstantInt64Int32SSE4(in []int64, out []int32, factor int64) {
+	_multiply_constant_int64_int32_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _multiply_constant_int64_int64_sse4(src, dest unsafe.Pointer, len int, factor int64)
+
+func multiplyConstantInt64Int64SSE4(in []int64, out []int64, factor int64) {
+	_multiply_constant_int64_int64_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _divide_constant_int32_int32_sse4(src, dest unsafe.Pointer, len int, factor int64)
+
+func divideConstantInt32Int32SSE4(in []int32, out []int32, factor int64) {
+	_divide_constant_int32_int32_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _divide_constant_int32_int64_sse4(src, dest unsafe.Pointer, len int, factor int64)
+
+func divideConstantInt32Int64SSE4(in []int32, out []int64, factor int64) {
+	_divide_constant_int32_int64_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _divide_constant_int64_int32_sse4(src, dest unsafe.Pointer, len int, factor int64)
+
+func divideConstantInt64Int32SSE4(in []int64, out []int32, factor int64) {
+	_divide_constant_int64_int32_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
+
+//go:noescape
+func _divide_constant_int64_int64_sse4(src, dest unsafe.Pointer, len int, factor int64)
+
+func divideConstantInt64Int64SSE4(in []int64, out []int64, factor int64) {
+	_divide_constant_int64_int64_sse4(unsafe.Pointer(&in[0]), unsafe.Pointer(&out[0]), len(out), factor)
+}
diff --git a/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.s b/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.s
new file mode 100644
index 00000000000..2d42edfcec4
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/constant_factor_sse4_amd64.s
@@ -0,0 +1,597 @@
+//go:build go1.18 && !noasm && !appengine
+// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
+
+TEXT ·_multiply_constant_int32_int32_sse4(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB0_16
+	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
+	WORD $0xfa83; BYTE $0x07 // cmp    edx, 7
+	JBE  LBB0_2
+	LONG $0x8f048d4a         // lea    rax, [rdi + 4*r9]
+	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
+	JBE  LBB0_9
+	LONG $0x8e048d4a         // lea    rax, [rsi + 4*r9]
+	WORD $0x3948; BYTE $0xf8 // cmp    rax, rdi
+	JBE  LBB0_9
+
+LBB0_2:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB0_3:
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0xf749; BYTE $0xd0 // not    r8
+	WORD $0x014d; BYTE $0xc8 // add    r8, r9
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_5
+
+LBB0_4:
+	LONG $0x9f148b42         // mov    edx, dword [rdi + 4*r11]
+	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
+	LONG $0x9e148942         // mov    dword [rsi + 4*r11], edx
+	LONG $0x01c38349         // add    r11, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_4
+
+LBB0_5:
+	LONG $0x03f88349 // cmp    r8, 3
+	JB   LBB0_16
+
+LBB0_6:
+	LONG $0x9f048b42             // mov    eax, dword [rdi + 4*r11]
+	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
+	LONG $0x9e048942             // mov    dword [rsi + 4*r11], eax
+	LONG $0x9f448b42; BYTE $0x04 // mov    eax, dword [rdi + 4*r11 + 4]
+	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
+	LONG $0x9e448942; BYTE $0x04 // mov    dword [rsi + 4*r11 + 4], eax
+	LONG $0x9f448b42; BYTE $0x08 // mov    eax, dword [rdi + 4*r11 + 8]
+	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
+	LONG $0x9e448942; BYTE $0x08 // mov    dword [rsi + 4*r11 + 8], eax
+	LONG $0x9f448b42; BYTE $0x0c // mov    eax, dword [rdi + 4*r11 + 12]
+	WORD $0xaf0f; BYTE $0xc1     // imul    eax, ecx
+	LONG $0x9e448942; BYTE $0x0c // mov    dword [rsi + 4*r11 + 12], eax
+	LONG $0x04c38349             // add    r11, 4
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB0_6
+	JMP  LBB0_16
+
+LBB0_9:
+	WORD $0x8945; BYTE $0xcb     // mov    r11d, r9d
+	LONG $0xf8e38341             // and    r11d, -8
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8438d49             // lea    rax, [r11 - 8]
+	WORD $0x8949; BYTE $0xc0     // mov    r8, rax
+	LONG $0x03e8c149             // shr    r8, 3
+	LONG $0x01c08349             // add    r8, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB0_10
+	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0xf749; BYTE $0xda     // neg    r10
+	WORD $0xc031                 // xor    eax, eax
+
+LBB0_12:
+	LONG $0x0c6f0ff3; BYTE $0x87   // movdqu    xmm1, oword [rdi + 4*rax]
+	LONG $0x546f0ff3; WORD $0x1087 // movdqu    xmm2, oword [rdi + 4*rax + 16]
+	LONG $0x40380f66; BYTE $0xc8   // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0   // pmulld    xmm2, xmm0
+	LONG $0x0c7f0ff3; BYTE $0x86   // movdqu    oword [rsi + 4*rax], xmm1
+	LONG $0x547f0ff3; WORD $0x1086 // movdqu    oword [rsi + 4*rax + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2087 // movdqu    xmm1, oword [rdi + 4*rax + 32]
+	LONG $0x546f0ff3; WORD $0x3087 // movdqu    xmm2, oword [rdi + 4*rax + 48]
+	LONG $0x40380f66; BYTE $0xc8   // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0   // pmulld    xmm2, xmm0
+	LONG $0x4c7f0ff3; WORD $0x2086 // movdqu    oword [rsi + 4*rax + 32], xmm1
+	LONG $0x547f0ff3; WORD $0x3086 // movdqu    oword [rsi + 4*rax + 48], xmm2
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x02c28349               // add    r10, 2
+	JNE  LBB0_12
+	LONG $0x01c0f641               // test    r8b, 1
+	JE   LBB0_15
+
+LBB0_14:
+	LONG $0x0c6f0ff3; BYTE $0x87   // movdqu    xmm1, oword [rdi + 4*rax]
+	LONG $0x546f0ff3; WORD $0x1087 // movdqu    xmm2, oword [rdi + 4*rax + 16]
+	LONG $0x40380f66; BYTE $0xc8   // pmulld    xmm1, xmm0
+	LONG $0x40380f66; BYTE $0xd0   // pmulld    xmm2, xmm0
+	LONG $0x0c7f0ff3; BYTE $0x86   // movdqu    oword [rsi + 4*rax], xmm1
+	LONG $0x547f0ff3; WORD $0x1086 // movdqu    oword [rsi + 4*rax + 16], xmm2
+
+LBB0_15:
+	WORD $0x394d; BYTE $0xcb // cmp    r11, r9
+	JNE  LBB0_3
+
+LBB0_16:
+	RET
+
+LBB0_10:
+	WORD $0xc031     // xor    eax, eax
+	LONG $0x01c0f641 // test    r8b, 1
+	JNE  LBB0_14
+	JMP  LBB0_15
+
+TEXT ·_divide_constant_int32_int32_sse4(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB1_8
+	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
+	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
+	JNE  LBB1_9
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+
+LBB1_3:
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB1_8
+	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB1_5
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB1_7
+
+LBB1_9:
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0xfee28341         // and    r10d, -2
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	JMP  LBB1_10
+
+LBB1_15:
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+
+LBB1_16:
+	LONG $0x86448942; BYTE $0x04 // mov    dword [rsi + 4*r8 + 4], eax
+	LONG $0x02c08349             // add    r8, 2
+	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
+	JE   LBB1_3
+
+LBB1_10:
+	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB1_11
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB1_13
+
+LBB1_11:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB1_13:
+	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
+	LONG $0x8744634a; BYTE $0x04 // movsxd    rax, dword [rdi + 4*r8 + 4]
+	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
+	LONG $0x20eac148             // shr    rdx, 32
+	JNE  LBB1_15
+	WORD $0xd231                 // xor    edx, edx
+	WORD $0xf1f7                 // div    ecx
+	JMP  LBB1_16
+
+LBB1_5:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB1_7:
+	LONG $0x86048942 // mov    dword [rsi + 4*r8], eax
+
+LBB1_8:
+	RET
+
+TEXT ·_multiply_constant_int32_int64_sse4(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB2_6
+	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
+	LONG $0xff418d49         // lea    rax, [r9 - 1]
+	WORD $0x8945; BYTE $0xc8 // mov    r8d, r9d
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x03f88348         // cmp    rax, 3
+	JAE  LBB2_7
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB2_3
+
+LBB2_7:
+	LONG $0xfce18341 // and    r9d, -4
+	WORD $0xc031     // xor    eax, eax
+
+LBB2_8:
+	LONG $0x87146348             // movsxd    rdx, dword [rdi + 4*rax]
+	LONG $0xd1af0f48             // imul    rdx, rcx
+	LONG $0xc6148948             // mov    qword [rsi + 8*rax], rdx
+	LONG $0x87546348; BYTE $0x04 // movsxd    rdx, dword [rdi + 4*rax + 4]
+	LONG $0xd1af0f48             // imul    rdx, rcx
+	LONG $0xc6548948; BYTE $0x08 // mov    qword [rsi + 8*rax + 8], rdx
+	LONG $0x87546348; BYTE $0x08 // movsxd    rdx, dword [rdi + 4*rax + 8]
+	LONG $0xd1af0f48             // imul    rdx, rcx
+	LONG $0xc6548948; BYTE $0x10 // mov    qword [rsi + 8*rax + 16], rdx
+	LONG $0x87546348; BYTE $0x0c // movsxd    rdx, dword [rdi + 4*rax + 12]
+	LONG $0xd1af0f48             // imul    rdx, rcx
+	LONG $0xc6548948; BYTE $0x18 // mov    qword [rsi + 8*rax + 24], rdx
+	LONG $0x04c08348             // add    rax, 4
+	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
+	JNE  LBB2_8
+
+LBB2_3:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB2_6
+	LONG $0xc6148d48         // lea    rdx, [rsi + 8*rax]
+	LONG $0x87048d48         // lea    rax, [rdi + 4*rax]
+	WORD $0xf631             // xor    esi, esi
+
+LBB2_5:
+	LONG $0xb03c6348         // movsxd    rdi, dword [rax + 4*rsi]
+	LONG $0xf9af0f48         // imul    rdi, rcx
+	LONG $0xf23c8948         // mov    qword [rdx + 8*rsi], rdi
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
+	JNE  LBB2_5
+
+LBB2_6:
+	RET
+
+TEXT ·_divide_constant_int32_int64_sse4(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB3_8
+	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
+	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
+	JNE  LBB3_9
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+
+LBB3_3:
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB3_8
+	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB3_5
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB3_7
+
+LBB3_9:
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0xfee28341         // and    r10d, -2
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	JMP  LBB3_10
+
+LBB3_15:
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+
+LBB3_16:
+	LONG $0xc644894a; BYTE $0x08 // mov    qword [rsi + 8*r8 + 8], rax
+	LONG $0x02c08349             // add    r8, 2
+	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
+	JE   LBB3_3
+
+LBB3_10:
+	LONG $0x8704634a         // movsxd    rax, dword [rdi + 4*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB3_11
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB3_13
+
+LBB3_11:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB3_13:
+	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
+	LONG $0x8744634a; BYTE $0x04 // movsxd    rax, dword [rdi + 4*r8 + 4]
+	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
+	LONG $0x20eac148             // shr    rdx, 32
+	JNE  LBB3_15
+	WORD $0xd231                 // xor    edx, edx
+	WORD $0xf1f7                 // div    ecx
+	JMP  LBB3_16
+
+LBB3_5:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB3_7:
+	LONG $0xc604894a // mov    qword [rsi + 8*r8], rax
+
+LBB3_8:
+	RET
+
+TEXT ·_multiply_constant_int64_int32_sse4(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB4_6
+	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
+	LONG $0xff418d49         // lea    rax, [r9 - 1]
+	WORD $0x8945; BYTE $0xc8 // mov    r8d, r9d
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x03f88348         // cmp    rax, 3
+	JAE  LBB4_7
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB4_3
+
+LBB4_7:
+	LONG $0xfce18341 // and    r9d, -4
+	WORD $0xc031     // xor    eax, eax
+
+LBB4_8:
+	WORD $0x148b; BYTE $0xc7 // mov    edx, dword [rdi + 8*rax]
+	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
+	WORD $0x1489; BYTE $0x86 // mov    dword [rsi + 4*rax], edx
+	LONG $0x08c7548b         // mov    edx, dword [rdi + 8*rax + 8]
+	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
+	LONG $0x04865489         // mov    dword [rsi + 4*rax + 4], edx
+	LONG $0x10c7548b         // mov    edx, dword [rdi + 8*rax + 16]
+	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
+	LONG $0x08865489         // mov    dword [rsi + 4*rax + 8], edx
+	LONG $0x18c7548b         // mov    edx, dword [rdi + 8*rax + 24]
+	WORD $0xaf0f; BYTE $0xd1 // imul    edx, ecx
+	LONG $0x0c865489         // mov    dword [rsi + 4*rax + 12], edx
+	LONG $0x04c08348         // add    rax, 4
+	WORD $0x3949; BYTE $0xc1 // cmp    r9, rax
+	JNE  LBB4_8
+
+LBB4_3:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB4_6
+	LONG $0x86148d48         // lea    rdx, [rsi + 4*rax]
+	LONG $0xc7048d48         // lea    rax, [rdi + 8*rax]
+	WORD $0xf631             // xor    esi, esi
+
+LBB4_5:
+	WORD $0x3c8b; BYTE $0xf0 // mov    edi, dword [rax + 8*rsi]
+	WORD $0xaf0f; BYTE $0xf9 // imul    edi, ecx
+	WORD $0x3c89; BYTE $0xb2 // mov    dword [rdx + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
+	JNE  LBB4_5
+
+LBB4_6:
+	RET
+
+TEXT ·_divide_constant_int64_int32_sse4(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB5_8
+	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
+	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
+	JNE  LBB5_9
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+
+LBB5_3:
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB5_8
+	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB5_5
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB5_7
+
+LBB5_9:
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0xfee28341         // and    r10d, -2
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	JMP  LBB5_10
+
+LBB5_15:
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+
+LBB5_16:
+	LONG $0x86448942; BYTE $0x04 // mov    dword [rsi + 4*r8 + 4], eax
+	LONG $0x02c08349             // add    r8, 2
+	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
+	JE   LBB5_3
+
+LBB5_10:
+	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB5_11
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB5_13
+
+LBB5_11:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB5_13:
+	LONG $0x86048942             // mov    dword [rsi + 4*r8], eax
+	LONG $0xc7448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r8 + 8]
+	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
+	LONG $0x20eac148             // shr    rdx, 32
+	JNE  LBB5_15
+	WORD $0xd231                 // xor    edx, edx
+	WORD $0xf1f7                 // div    ecx
+	JMP  LBB5_16
+
+LBB5_5:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB5_7:
+	LONG $0x86048942 // mov    dword [rsi + 4*r8], eax
+
+LBB5_8:
+	RET
+
+TEXT ·_multiply_constant_int64_int64_sse4(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB6_6
+	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
+	LONG $0xff418d49         // lea    rax, [r9 - 1]
+	WORD $0x8945; BYTE $0xc8 // mov    r8d, r9d
+	LONG $0x03e08341         // and    r8d, 3
+	LONG $0x03f88348         // cmp    rax, 3
+	JAE  LBB6_7
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB6_3
+
+LBB6_7:
+	LONG $0xfce18341 // and    r9d, -4
+	WORD $0xc031     // xor    eax, eax
+
+LBB6_8:
+	LONG $0xc7148b48             // mov    rdx, qword [rdi + 8*rax]
+	LONG $0xd1af0f48             // imul    rdx, rcx
+	LONG $0xc6148948             // mov    qword [rsi + 8*rax], rdx
+	LONG $0xc7548b48; BYTE $0x08 // mov    rdx, qword [rdi + 8*rax + 8]
+	LONG $0xd1af0f48             // imul    rdx, rcx
+	LONG $0xc6548948; BYTE $0x08 // mov    qword [rsi + 8*rax + 8], rdx
+	LONG $0xc7548b48; BYTE $0x10 // mov    rdx, qword [rdi + 8*rax + 16]
+	LONG $0xd1af0f48             // imul    rdx, rcx
+	LONG $0xc6548948; BYTE $0x10 // mov    qword [rsi + 8*rax + 16], rdx
+	LONG $0xc7548b48; BYTE $0x18 // mov    rdx, qword [rdi + 8*rax + 24]
+	LONG $0xd1af0f48             // imul    rdx, rcx
+	LONG $0xc6548948; BYTE $0x18 // mov    qword [rsi + 8*rax + 24], rdx
+	LONG $0x04c08348             // add    rax, 4
+	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
+	JNE  LBB6_8
+
+LBB6_3:
+	WORD $0x854d; BYTE $0xc0 // test    r8, r8
+	JE   LBB6_6
+	LONG $0xc6148d48         // lea    rdx, [rsi + 8*rax]
+	LONG $0xc7048d48         // lea    rax, [rdi + 8*rax]
+	WORD $0xf631             // xor    esi, esi
+
+LBB6_5:
+	LONG $0xf03c8b48         // mov    rdi, qword [rax + 8*rsi]
+	LONG $0xf9af0f48         // imul    rdi, rcx
+	LONG $0xf23c8948         // mov    qword [rdx + 8*rsi], rdi
+	LONG $0x01c68348         // add    rsi, 1
+	WORD $0x3949; BYTE $0xf0 // cmp    r8, rsi
+	JNE  LBB6_5
+
+LBB6_6:
+	RET
+
+TEXT ·_divide_constant_int64_int64_sse4(SB), $0-32
+
+	MOVQ src+0(FP), DI
+	MOVQ dest+8(FP), SI
+	MOVQ len+16(FP), DX
+	MOVQ factor+24(FP), CX
+
+	WORD $0xd285             // test    edx, edx
+	JLE  LBB7_8
+	WORD $0x8941; BYTE $0xd1 // mov    r9d, edx
+	WORD $0xfa83; BYTE $0x01 // cmp    edx, 1
+	JNE  LBB7_9
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+
+LBB7_3:
+	LONG $0x01c1f641         // test    r9b, 1
+	JE   LBB7_8
+	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB7_5
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB7_7
+
+LBB7_9:
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0xfee28341         // and    r10d, -2
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	JMP  LBB7_10
+
+LBB7_15:
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+
+LBB7_16:
+	LONG $0xc644894a; BYTE $0x08 // mov    qword [rsi + 8*r8 + 8], rax
+	LONG $0x02c08349             // add    r8, 2
+	WORD $0x394d; BYTE $0xc2     // cmp    r10, r8
+	JE   LBB7_3
+
+LBB7_10:
+	LONG $0xc7048b4a         // mov    rax, qword [rdi + 8*r8]
+	WORD $0x8948; BYTE $0xc2 // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca // or    rdx, rcx
+	LONG $0x20eac148         // shr    rdx, 32
+	JE   LBB7_11
+	WORD $0x9948             // cqo
+	WORD $0xf748; BYTE $0xf9 // idiv    rcx
+	JMP  LBB7_13
+
+LBB7_11:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB7_13:
+	LONG $0xc604894a             // mov    qword [rsi + 8*r8], rax
+	LONG $0xc7448b4a; BYTE $0x08 // mov    rax, qword [rdi + 8*r8 + 8]
+	WORD $0x8948; BYTE $0xc2     // mov    rdx, rax
+	WORD $0x0948; BYTE $0xca     // or    rdx, rcx
+	LONG $0x20eac148             // shr    rdx, 32
+	JNE  LBB7_15
+	WORD $0xd231                 // xor    edx, edx
+	WORD $0xf1f7                 // div    ecx
+	JMP  LBB7_16
+
+LBB7_5:
+	WORD $0xd231 // xor    edx, edx
+	WORD $0xf1f7 // div    ecx
+
+LBB7_7:
+	LONG $0xc604894a // mov    qword [rsi + 8*r8], rax
+
+LBB7_8:
+	RET
diff --git a/go/arrow/compute/internal/kernels/doc.go b/go/arrow/compute/internal/kernels/doc.go
new file mode 100644
index 00000000000..4a9334bc44c
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/doc.go
@@ -0,0 +1,19 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// Package kernels defines all of the computation kernels for the compute
+// library. This requires >= go1.18 since it utilizes Go generics.
+package kernels
diff --git a/go/arrow/compute/internal/kernels/helpers.go b/go/arrow/compute/internal/kernels/helpers.go
new file mode 100644
index 00000000000..c938599d911
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/helpers.go
@@ -0,0 +1,989 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"fmt"
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"golang.org/x/exp/constraints"
+)
+
+// ScalarUnary returns a kernel for performing a unary operation on
+// FixedWidth types which is implemented using the passed in function
+// which will receive a slice containing the raw input data along with
+// a slice to populate for the output data.
+//
+// Note that bool is not included in exec.FixedWidthTypes since it is
+// represented as a bitmap, not as a slice of bool.
+func ScalarUnary[OutT, Arg0T exec.FixedWidthTypes](op func(*exec.KernelCtx, []Arg0T, []OutT) error) exec.ArrayKernelExec {
+	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
+		arg0 := in.Values[0].Array
+		inData := exec.GetSpanValues[Arg0T](&arg0, 1)
+		outData := exec.GetSpanValues[OutT](out, 1)
+		return op(ctx, inData, outData)
+	}
+}
+
+// ScalarUnaryNotNull is for generating a kernel to operate only on the
+// non-null values in the input array. The zerovalue of the output type
+// is used for any null input values.
+func ScalarUnaryNotNull[OutT, Arg0T exec.FixedWidthTypes](op func(*exec.KernelCtx, Arg0T, *error) OutT) exec.ArrayKernelExec {
+	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
+		var (
+			arg0     = &in.Values[0].Array
+			arg0Data = exec.GetSpanValues[Arg0T](arg0, 1)
+			outPos   = 0
+			def      OutT
+			outData  = exec.GetSpanValues[OutT](out, 1)
+			bitmap   = arg0.Buffers[0].Buf
+			err      error
+		)
+
+		bitutils.VisitBitBlocks(bitmap, arg0.Offset, arg0.Len,
+			func(pos int64) {
+				outData[outPos] = op(ctx, arg0Data[pos], &err)
+				outPos++
+			}, func() {
+				outData[outPos] = def
+				outPos++
+			})
+		return err
+	}
+}
+
+// ScalarUnaryBoolOutput is like ScalarUnary only it is for cases of boolean
+// output. The function should take in a slice of the input type and a slice
+// of bytes to fill with the output boolean bitmap.
+func ScalarUnaryBoolOutput[Arg0T exec.FixedWidthTypes](op func(*exec.KernelCtx, []Arg0T, []byte) error) exec.ArrayKernelExec {
+	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
+		arg0 := in.Values[0].Array
+		inData := exec.GetSpanValues[Arg0T](&arg0, 1)
+		return op(ctx, inData, out.Buffers[1].Buf)
+	}
+}
+
+// ScalarUnaryNotNullBinaryArgBoolOut creates a unary kernel that accepts
+// a binary type input (Binary [offset int32], String [offset int32],
+// LargeBinary [offset int64], LargeString [offset int64]) and returns
+// a boolean output which is never null.
+//
+// It implements the handling to iterate the offsets and values calling
+// the provided function on each byte slice. The provided default value
+// will be used as the output for elements of the input that are null.
+func ScalarUnaryNotNullBinaryArgBoolOut[OffsetT int32 | int64](defVal bool, op func(*exec.KernelCtx, []byte, *error) bool) exec.ArrayKernelExec {
+	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
+		var (
+			arg0        = in.Values[0].Array
+			outData     = out.Buffers[1].Buf
+			outPos      = 0
+			arg0Offsets = exec.GetSpanOffsets[OffsetT](&arg0, 1)
+			arg0Data    = arg0.Buffers[2].Buf
+			bitmap      = arg0.Buffers[0].Buf
+			err         error
+		)
+
+		bitutils.VisitBitBlocks(bitmap, arg0.Offset, arg0.Len,
+			func(pos int64) {
+				v := arg0Data[arg0Offsets[pos]:arg0Offsets[pos+1]]
+				bitutil.SetBitTo(outData, int(out.Offset)+outPos, op(ctx, v, &err))
+				outPos++
+			}, func() {
+				bitutil.SetBitTo(outData, int(out.Offset)+outPos, defVal)
+				outPos++
+			})
+		return err
+	}
+}
+
+// ScalarUnaryNotNullBinaryArg creates a unary kernel that accepts
+// a binary type input (Binary [offset int32], String [offset int32],
+// LargeBinary [offset int64], LargeString [offset int64]) and returns
+// a FixedWidthType output which is never null.
+//
+// It implements the handling to iterate the offsets and values calling
+// the provided function on each byte slice. The zero value of the OutT
+// will be used as the output for elements of the input that are null.
+func ScalarUnaryNotNullBinaryArg[OutT exec.FixedWidthTypes, OffsetT int32 | int64](op func(*exec.KernelCtx, []byte, *error) OutT) exec.ArrayKernelExec {
+	return func(ctx *exec.KernelCtx, in *exec.ExecSpan, out *exec.ExecResult) error {
+		var (
+			arg0        = &in.Values[0].Array
+			outData     = exec.GetSpanValues[OutT](out, 1)
+			outPos      = 0
+			arg0Offsets = exec.GetSpanOffsets[OffsetT](arg0, 1)
+			def         OutT
+			arg0Data    = arg0.Buffers[2].Buf
+			bitmap      = arg0.Buffers[0].Buf
+			err         error
+		)
+
+		bitutils.VisitBitBlocks(bitmap, arg0.Offset, arg0.Len,
+			func(pos int64) {
+				v := arg0Data[arg0Offsets[pos]:arg0Offsets[pos+1]]
+				outData[outPos] = op(ctx, v, &err)
+				outPos++
+			}, func() {
+				outData[outPos] = def
+				outPos++
+			})
+		return err
+	}
+}
+
+// ScalarUnaryBoolArg is like ScalarUnary except it specifically expects a
+// function that takes a byte slice since booleans arrays are represented
+// as a bitmap.
+func ScalarUnaryBoolArg[OutT exec.FixedWidthTypes](op func(*exec.KernelCtx, []byte, []OutT) error) exec.ArrayKernelExec {
+	return func(ctx *exec.KernelCtx, input *exec.ExecSpan, out *exec.ExecResult) error {
+		outData := exec.GetSpanValues[OutT](out, 1)
+		return op(ctx, input.Values[0].Array.Buffers[1].Buf, outData)
+	}
+}
+
+func UnboxScalar[T exec.FixedWidthTypes](val scalar.PrimitiveScalar) T {
+	return *(*T)(unsafe.Pointer(&val.Data()[0]))
+}
+
+func UnboxBinaryScalar(val scalar.BinaryScalar) []byte {
+	if !val.IsValid() {
+		return nil
+	}
+	return val.Data()
+}
+
+type arrArrFn[OutT, Arg0T, Arg1T exec.FixedWidthTypes] func(*exec.KernelCtx, []Arg0T, []Arg1T, []OutT) error
+type arrScalarFn[OutT, Arg0T, Arg1T exec.FixedWidthTypes] func(*exec.KernelCtx, []Arg0T, Arg1T, []OutT) error
+type scalarArrFn[OutT, Arg0T, Arg1T exec.FixedWidthTypes] func(*exec.KernelCtx, Arg0T, []Arg1T, []OutT) error
+
+type binaryOps[OutT, Arg0T, Arg1T exec.FixedWidthTypes] struct {
+	arrArr    arrArrFn[OutT, Arg0T, Arg1T]
+	arrScalar arrScalarFn[OutT, Arg0T, Arg1T]
+	scalarArr scalarArrFn[OutT, Arg0T, Arg1T]
+}
+
+type binaryBoolOps struct {
+	arrArr    func(ctx *exec.KernelCtx, lhs, rhs, out bitutil.Bitmap) error
+	arrScalar func(ctx *exec.KernelCtx, lhs bitutil.Bitmap, rhs bool, out bitutil.Bitmap) error
+	scalarArr func(ctx *exec.KernelCtx, lhs bool, rhs, out bitutil.Bitmap) error
+}
+
+func ScalarBinary[OutT, Arg0T, Arg1T exec.FixedWidthTypes](ops binaryOps[OutT, Arg0T, Arg1T]) exec.ArrayKernelExec {
+	arrayArray := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
+		var (
+			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
+			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
+			outData = exec.GetSpanValues[OutT](out, 1)
+		)
+		return ops.arrArr(ctx, a0, a1, outData)
+	}
+
+	arrayScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) error {
+		var (
+			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
+			a1      = UnboxScalar[Arg1T](arg1.(scalar.PrimitiveScalar))
+			outData = exec.GetSpanValues[OutT](out, 1)
+		)
+		return ops.arrScalar(ctx, a0, a1, outData)
+	}
+
+	scalarArray := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
+		var (
+			a0      = UnboxScalar[Arg0T](arg0.(scalar.PrimitiveScalar))
+			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
+			outData = exec.GetSpanValues[OutT](out, 1)
+		)
+		return ops.scalarArr(ctx, a0, a1, outData)
+	}
+
+	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		if batch.Values[0].IsArray() {
+			if batch.Values[1].IsArray() {
+				return arrayArray(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
+			}
+			return arrayScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
+		}
+
+		if batch.Values[1].IsArray() {
+			return scalarArray(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
+		}
+
+		debug.Assert(false, "should be unreachable")
+		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
+	}
+}
+
+func ScalarBinaryBools(ops *binaryBoolOps) exec.ArrayKernelExec {
+	arrayArray := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
+		var (
+			a0Bm  = bitutil.Bitmap{Data: arg0.Buffers[1].Buf, Offset: arg0.Offset, Len: arg0.Len}
+			a1Bm  = bitutil.Bitmap{Data: arg1.Buffers[1].Buf, Offset: arg1.Offset, Len: arg1.Len}
+			outBm = bitutil.Bitmap{Data: out.Buffers[1].Buf, Offset: out.Offset, Len: out.Len}
+		)
+
+		return ops.arrArr(ctx, a0Bm, a1Bm, outBm)
+	}
+
+	arrayScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) error {
+		var (
+			a0Bm  = bitutil.Bitmap{Data: arg0.Buffers[1].Buf, Offset: arg0.Offset, Len: arg0.Len}
+			a1    = arg1.(*scalar.Boolean).Value
+			outBm = bitutil.Bitmap{Data: out.Buffers[1].Buf, Offset: out.Offset, Len: out.Len}
+		)
+		return ops.arrScalar(ctx, a0Bm, a1, outBm)
+	}
+
+	scalarArray := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
+		var (
+			a0    = arg0.(*scalar.Boolean).Value
+			a1Bm  = bitutil.Bitmap{Data: arg1.Buffers[1].Buf, Offset: arg1.Offset, Len: arg1.Len}
+			outBm = bitutil.Bitmap{Data: out.Buffers[1].Buf, Offset: out.Offset, Len: out.Len}
+		)
+		return ops.scalarArr(ctx, a0, a1Bm, outBm)
+	}
+
+	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		if batch.Values[0].IsArray() {
+			if batch.Values[1].IsArray() {
+				return arrayArray(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
+			}
+			return arrayScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
+		}
+
+		if batch.Values[1].IsArray() {
+			return scalarArray(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
+		}
+
+		debug.Assert(false, "should be unreachable")
+		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
+	}
+}
+
+func ScalarBinaryNotNull[OutT, Arg0T, Arg1T exec.FixedWidthTypes](op func(*exec.KernelCtx, Arg0T, Arg1T, *error) OutT) exec.ArrayKernelExec {
+	arrayArray := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) (err error) {
+		// fast path if one side is entirely null
+		if arg0.UpdateNullCount() == arg0.Len || arg1.UpdateNullCount() == arg1.Len {
+			return nil
+		}
+
+		var (
+			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
+			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
+			outData = exec.GetSpanValues[OutT](out, 1)
+			outPos  int64
+			def     OutT
+		)
+		bitutils.VisitTwoBitBlocks(arg0.Buffers[0].Buf, arg1.Buffers[0].Buf, arg0.Offset, arg1.Offset, out.Len,
+			func(pos int64) {
+				outData[outPos] = op(ctx, a0[pos], a1[pos], &err)
+				outPos++
+			}, func() {
+				outData[outPos] = def
+				outPos++
+			})
+		return
+	}
+
+	arrayScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) (err error) {
+		// fast path if one side is entirely null
+		if arg0.UpdateNullCount() == arg0.Len || !arg1.IsValid() {
+			return nil
+		}
+
+		var (
+			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
+			outData = exec.GetSpanValues[OutT](out, 1)
+			outPos  int64
+			def     OutT
+		)
+		if !arg1.IsValid() {
+			return nil
+		}
+
+		a1 := UnboxScalar[Arg1T](arg1.(scalar.PrimitiveScalar))
+		bitutils.VisitBitBlocks(arg0.Buffers[0].Buf, arg0.Offset, arg0.Len,
+			func(pos int64) {
+				outData[outPos] = op(ctx, a0[pos], a1, &err)
+				outPos++
+			}, func() {
+				outData[outPos] = def
+				outPos++
+			})
+		return
+	}
+
+	scalarArray := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) (err error) {
+		// fast path if one side is entirely null
+		if arg1.UpdateNullCount() == arg1.Len || !arg0.IsValid() {
+			return nil
+		}
+
+		var (
+			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
+			outData = exec.GetSpanValues[OutT](out, 1)
+			outPos  int64
+			def     OutT
+		)
+		if !arg0.IsValid() {
+			return nil
+		}
+
+		a0 := UnboxScalar[Arg0T](arg0.(scalar.PrimitiveScalar))
+		bitutils.VisitBitBlocks(arg1.Buffers[0].Buf, arg1.Offset, arg1.Len,
+			func(pos int64) {
+				outData[outPos] = op(ctx, a0, a1[pos], &err)
+				outPos++
+			}, func() {
+				outData[outPos] = def
+				outPos++
+			})
+		return
+	}
+
+	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		if batch.Values[0].IsArray() {
+			if batch.Values[1].IsArray() {
+				return arrayArray(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
+			}
+			return arrayScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
+		}
+
+		if batch.Values[1].IsArray() {
+			return scalarArray(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
+		}
+
+		debug.Assert(false, "should be unreachable")
+		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
+	}
+}
+
+type binaryBinOp[T exec.FixedWidthTypes | bool] func(ctx *exec.KernelCtx, arg0, arg1 []byte) T
+
+func ScalarBinaryBinaryArgsBoolOut(itrFn func(*exec.ArraySpan) exec.ArrayIter[[]byte], op binaryBinOp[bool]) exec.ArrayKernelExec {
+	arrArr := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
+		var (
+			arg0It = itrFn(arg0)
+			arg1It = itrFn(arg1)
+		)
+
+		bitutils.GenerateBitsUnrolled(out.Buffers[1].Buf, out.Offset, out.Len, func() bool {
+			return op(ctx, arg0It.Next(), arg1It.Next())
+		})
+		return nil
+	}
+
+	arrScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) error {
+		var (
+			arg0It = itrFn(arg0)
+			a1     = UnboxBinaryScalar(arg1.(scalar.BinaryScalar))
+		)
+
+		bitutils.GenerateBitsUnrolled(out.Buffers[1].Buf, out.Offset, out.Len, func() bool {
+			return op(ctx, arg0It.Next(), a1)
+		})
+		return nil
+	}
+
+	scalarArr := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
+		var (
+			arg1It = itrFn(arg1)
+			a0     = UnboxBinaryScalar(arg0.(scalar.BinaryScalar))
+		)
+
+		bitutils.GenerateBitsUnrolled(out.Buffers[1].Buf, out.Offset, out.Len, func() bool {
+			return op(ctx, a0, arg1It.Next())
+		})
+		return nil
+	}
+
+	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		if batch.Values[0].IsArray() {
+			if batch.Values[1].IsArray() {
+				return arrArr(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
+			}
+			return arrScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
+		}
+
+		if batch.Values[1].IsArray() {
+			return scalarArr(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
+		}
+
+		debug.Assert(false, "should be unreachable")
+		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
+	}
+}
+
+// SizeOf determines the size in number of bytes for an integer
+// based on the generic value in a way that the compiler should
+// be able to easily evaluate and create as a constant.
+func SizeOf[T constraints.Integer]() uint {
+	x := uint16(1 << 8)
+	y := uint32(2 << 16)
+	z := uint64(4 << 32)
+	return 1 + uint(T(x))>>8 + uint(T(y))>>16 + uint(T(z))>>32
+}
+
+// MinOf returns the minimum value for a given type since there is not
+// currently a generic way to do this with Go generics yet.
+func MinOf[T constraints.Integer]() T {
+	if ones := ^T(0); ones < 0 {
+		return ones << (8*SizeOf[T]() - 1)
+	}
+	return 0
+}
+
+// MaxOf determines the max value for a given type since there is not
+// currently a generic way to do this for Go generics yet as all of the
+// math.Max/Min values are constants.
+func MaxOf[T constraints.Integer]() T {
+	ones := ^T(0)
+	if ones < 0 {
+		return ones ^ (ones << (8*SizeOf[T]() - 1))
+	}
+	return ones
+}
+
+func getSafeMinSameSign[I, O constraints.Integer]() I {
+	if SizeOf[I]() > SizeOf[O]() {
+		return I(MinOf[O]())
+	}
+	return MinOf[I]()
+}
+
+func getSafeMaxSameSign[I, O constraints.Integer]() I {
+	if SizeOf[I]() > SizeOf[O]() {
+		return I(MaxOf[O]())
+	}
+	return MaxOf[I]()
+}
+
+func getSafeMaxSignedUnsigned[I constraints.Signed, O constraints.Unsigned]() I {
+	if SizeOf[I]() <= SizeOf[O]() {
+		return MaxOf[I]()
+	}
+	return I(MaxOf[O]())
+}
+
+func getSafeMaxUnsignedSigned[I constraints.Unsigned, O constraints.Signed]() I {
+	if SizeOf[I]() < SizeOf[O]() {
+		return MaxOf[I]()
+	}
+	return I(MaxOf[O]())
+}
+
+func getSafeMinMaxSigned[T constraints.Signed](target arrow.Type) (min, max T) {
+	switch target {
+	case arrow.UINT8:
+		min, max = 0, getSafeMaxSignedUnsigned[T, uint8]()
+	case arrow.UINT16:
+		min, max = 0, getSafeMaxSignedUnsigned[T, uint16]()
+	case arrow.UINT32:
+		min, max = 0, getSafeMaxSignedUnsigned[T, uint32]()
+	case arrow.UINT64:
+		min, max = 0, getSafeMaxSignedUnsigned[T, uint64]()
+	case arrow.INT8:
+		min = getSafeMinSameSign[T, int8]()
+		max = getSafeMaxSameSign[T, int8]()
+	case arrow.INT16:
+		min = getSafeMinSameSign[T, int16]()
+		max = getSafeMaxSameSign[T, int16]()
+	case arrow.INT32:
+		min = getSafeMinSameSign[T, int32]()
+		max = getSafeMaxSameSign[T, int32]()
+	case arrow.INT64:
+		min = getSafeMinSameSign[T, int64]()
+		max = getSafeMaxSameSign[T, int64]()
+	}
+	return
+}
+
+func getSafeMinMaxUnsigned[T constraints.Unsigned](target arrow.Type) (min, max T) {
+	min = 0
+	switch target {
+	case arrow.UINT8:
+		max = getSafeMaxSameSign[T, uint8]()
+	case arrow.UINT16:
+		max = getSafeMaxSameSign[T, uint16]()
+	case arrow.UINT32:
+		max = getSafeMaxSameSign[T, uint32]()
+	case arrow.UINT64:
+		max = getSafeMaxSameSign[T, uint64]()
+	case arrow.INT8:
+		max = getSafeMaxUnsignedSigned[T, int8]()
+	case arrow.INT16:
+		max = getSafeMaxUnsignedSigned[T, int16]()
+	case arrow.INT32:
+		max = getSafeMaxUnsignedSigned[T, int32]()
+	case arrow.INT64:
+		max = getSafeMaxUnsignedSigned[T, int64]()
+	}
+	return
+}
+
+func intsCanFit(data *exec.ArraySpan, target arrow.Type) error {
+	if !arrow.IsInteger(target) {
+		return fmt.Errorf("%w: target type is not an integer type %s", arrow.ErrInvalid, target)
+	}
+
+	switch data.Type.ID() {
+	case arrow.INT8:
+		min, max := getSafeMinMaxSigned[int8](target)
+		return intsInRange(data, min, max)
+	case arrow.UINT8:
+		min, max := getSafeMinMaxUnsigned[uint8](target)
+		return intsInRange(data, min, max)
+	case arrow.INT16:
+		min, max := getSafeMinMaxSigned[int16](target)
+		return intsInRange(data, min, max)
+	case arrow.UINT16:
+		min, max := getSafeMinMaxUnsigned[uint16](target)
+		return intsInRange(data, min, max)
+	case arrow.INT32:
+		min, max := getSafeMinMaxSigned[int32](target)
+		return intsInRange(data, min, max)
+	case arrow.UINT32:
+		min, max := getSafeMinMaxUnsigned[uint32](target)
+		return intsInRange(data, min, max)
+	case arrow.INT64:
+		min, max := getSafeMinMaxSigned[int64](target)
+		return intsInRange(data, min, max)
+	case arrow.UINT64:
+		min, max := getSafeMinMaxUnsigned[uint64](target)
+		return intsInRange(data, min, max)
+	default:
+		return fmt.Errorf("%w: invalid type for int bounds checking", arrow.ErrInvalid)
+	}
+}
+
+func intsInRange[T exec.IntTypes | exec.UintTypes](data *exec.ArraySpan, lowerBound, upperBound T) error {
+	if MinOf[T]() >= lowerBound && MaxOf[T]() <= upperBound {
+		return nil
+	}
+
+	isOutOfBounds := func(val T) bool {
+		return val < lowerBound || val > upperBound
+	}
+	isOutOfBoundsMaybeNull := func(val T, isValid bool) bool {
+		return isValid && (val < lowerBound || val > upperBound)
+	}
+	getError := func(val T) error {
+		return fmt.Errorf("%w: integer value %d not in range: %d to %d",
+			arrow.ErrInvalid, val, lowerBound, upperBound)
+	}
+
+	values := exec.GetSpanValues[T](data, 1)
+	bitmap := data.Buffers[0].Buf
+
+	bitCounter := bitutils.NewOptionalBitBlockCounter(bitmap, data.Offset, data.Len)
+	pos, offsetPos := 0, data.Offset
+	for pos < int(data.Len) {
+		block := bitCounter.NextBlock()
+		outOfBounds := false
+
+		if block.Popcnt == block.Len {
+			// fast path: branchless
+			i := 0
+			for chunk := 0; chunk < int(block.Len)/8; chunk++ {
+				for j := 0; j < 8; j++ {
+					outOfBounds = outOfBounds || isOutOfBounds(values[i])
+					i++
+				}
+			}
+			for ; i < int(block.Len); i++ {
+				outOfBounds = outOfBounds || isOutOfBounds(values[i])
+			}
+		} else if block.Popcnt > 0 {
+			// values may be null, only bounds check non-null vals
+			i := 0
+			for chunk := 0; chunk < int(block.Len)/8; chunk++ {
+				for j := 0; j < 8; j++ {
+					outOfBounds = outOfBounds || isOutOfBoundsMaybeNull(
+						values[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i))
+					i++
+				}
+			}
+			for ; i < int(block.Len); i++ {
+				outOfBounds = outOfBounds || isOutOfBoundsMaybeNull(
+					values[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i))
+			}
+		}
+		if outOfBounds {
+			if data.Nulls > 0 {
+				for i := 0; i < int(block.Len); i++ {
+					if isOutOfBoundsMaybeNull(values[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i)) {
+						return getError(values[i])
+					}
+				}
+			} else {
+				for i := 0; i < int(block.Len); i++ {
+					if isOutOfBounds(values[i]) {
+						return getError(values[i])
+					}
+				}
+			}
+		}
+
+		values = values[block.Len:]
+		pos += int(block.Len)
+		offsetPos += int64(block.Len)
+	}
+	return nil
+}
+
+type numeric interface {
+	exec.IntTypes | exec.UintTypes | constraints.Float
+}
+
+func memCpySpan[T numeric](in, out *exec.ArraySpan) {
+	inData := exec.GetSpanValues[T](in, 1)
+	outData := exec.GetSpanValues[T](out, 1)
+	copy(outData, inData)
+}
+
+func castNumberMemCpy(in, out *exec.ArraySpan) {
+	switch in.Type.ID() {
+	case arrow.INT8:
+		memCpySpan[int8](in, out)
+	case arrow.UINT8:
+		memCpySpan[uint8](in, out)
+	case arrow.INT16:
+		memCpySpan[int16](in, out)
+	case arrow.UINT16:
+		memCpySpan[uint16](in, out)
+	case arrow.INT32:
+		memCpySpan[int32](in, out)
+	case arrow.UINT32:
+		memCpySpan[uint32](in, out)
+	case arrow.INT64:
+		memCpySpan[int64](in, out)
+	case arrow.UINT64:
+		memCpySpan[uint64](in, out)
+	case arrow.FLOAT32:
+		memCpySpan[float32](in, out)
+	case arrow.FLOAT64:
+		memCpySpan[float64](in, out)
+	}
+}
+
+func castNumberToNumberUnsafe(in, out *exec.ArraySpan) {
+	if in.Type.ID() == out.Type.ID() {
+		castNumberMemCpy(in, out)
+		return
+	}
+
+	inputOffset := in.Type.(arrow.FixedWidthDataType).Bytes() * int(in.Offset)
+	outputOffset := out.Type.(arrow.FixedWidthDataType).Bytes() * int(out.Offset)
+	castNumericUnsafe(in.Type.ID(), out.Type.ID(), in.Buffers[1].Buf[inputOffset:], out.Buffers[1].Buf[outputOffset:], int(in.Len))
+}
+
+func MaxDecimalDigitsForInt(id arrow.Type) (int32, error) {
+	switch id {
+	case arrow.INT8, arrow.UINT8:
+		return 3, nil
+	case arrow.INT16, arrow.UINT16:
+		return 5, nil
+	case arrow.INT32, arrow.UINT32:
+		return 10, nil
+	case arrow.INT64:
+		return 19, nil
+	case arrow.UINT64:
+		return 20, nil
+	}
+	return -1, fmt.Errorf("%w: not an integer type: %s", arrow.ErrInvalid, id)
+}
+
+func ResolveOutputFromOptions(ctx *exec.KernelCtx, _ []arrow.DataType) (arrow.DataType, error) {
+	opts := ctx.State.(CastState)
+	return opts.ToType, nil
+}
+
+var OutputTargetType = exec.NewComputedOutputType(ResolveOutputFromOptions)
+
+var OutputFirstType = exec.NewComputedOutputType(func(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
+	return args[0], nil
+})
+
+var OutputLastType = exec.NewComputedOutputType(func(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
+	return args[len(args)-1], nil
+})
+
+func resolveDecimalBinaryOpOutput(types []arrow.DataType, resolver func(prec1, scale1, prec2, scale2 int32) (prec, scale int32)) (arrow.DataType, error) {
+	leftType, rightType := types[0].(arrow.DecimalType), types[1].(arrow.DecimalType)
+	debug.Assert(leftType.ID() == rightType.ID(), "decimal binary ops should have casted to the same type")
+
+	prec, scale := resolver(leftType.GetPrecision(), leftType.GetScale(),
+		rightType.GetPrecision(), rightType.GetScale())
+
+	return arrow.NewDecimalType(leftType.ID(), prec, scale)
+}
+
+func resolveDecimalAddOrSubtractType(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
+	return resolveDecimalBinaryOpOutput(args,
+		func(prec1, scale1, prec2, scale2 int32) (prec int32, scale int32) {
+			debug.Assert(scale1 == scale2, "decimal operations should use the same scale")
+			scale = scale1
+			prec = exec.Max(prec1-scale1, prec2-scale2) + scale + 1
+			return
+		})
+}
+
+func resolveDecimalMultiplyOutput(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
+	return resolveDecimalBinaryOpOutput(args,
+		func(prec1, scale1, prec2, scale2 int32) (prec int32, scale int32) {
+			scale = scale1 + scale2
+			prec = prec1 + prec2 + 1
+			return
+		})
+}
+
+func resolveDecimalDivideOutput(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
+	return resolveDecimalBinaryOpOutput(args,
+		func(prec1, scale1, prec2, scale2 int32) (prec int32, scale int32) {
+			debug.Assert(scale1 >= scale2, "when dividing decimal values numerator scale should be greater/equal to denom scale")
+			scale = scale1 - scale2
+			prec = prec1
+			return
+		})
+}
+
+func resolveTemporalOutput(_ *exec.KernelCtx, args []arrow.DataType) (arrow.DataType, error) {
+	debug.Assert(args[0].ID() == args[1].ID(), "should only be used on the same types")
+	leftType, rightType := args[0].(*arrow.TimestampType), args[1].(*arrow.TimestampType)
+	debug.Assert(leftType.Unit == rightType.Unit, "should match units")
+
+	if (leftType.TimeZone == "" || rightType.TimeZone == "") && (leftType.TimeZone != rightType.TimeZone) {
+		return nil, fmt.Errorf("%w: subtraction of zoned and non-zoned times is ambiguous (%s, %s)",
+			arrow.ErrInvalid, leftType.TimeZone, rightType.TimeZone)
+	}
+
+	return &arrow.DurationType{Unit: rightType.Unit}, nil
+}
+
+var OutputResolveTemporal = exec.NewComputedOutputType(resolveTemporalOutput)
+
+type validityBuilder struct {
+	mem    memory.Allocator
+	buffer *memory.Buffer
+
+	data       []byte
+	bitLength  int
+	falseCount int
+}
+
+func (v *validityBuilder) Resize(n int64) {
+	if v.buffer == nil {
+		v.buffer = memory.NewResizableBuffer(v.mem)
+	}
+
+	v.buffer.ResizeNoShrink(int(bitutil.BytesForBits(n)))
+	v.data = v.buffer.Bytes()
+}
+
+func (v *validityBuilder) Reserve(n int64) {
+	if v.buffer == nil {
+		v.buffer = memory.NewResizableBuffer(v.mem)
+	}
+
+	v.buffer.Reserve(v.buffer.Cap() + int(bitutil.BytesForBits(n)))
+	v.data = v.buffer.Buf()
+}
+
+func (v *validityBuilder) UnsafeAppend(val bool) {
+	bitutil.SetBitTo(v.data, v.bitLength, val)
+	if !val {
+		v.falseCount++
+	}
+	v.bitLength++
+}
+
+func (v *validityBuilder) UnsafeAppendN(n int64, val bool) {
+	bitutil.SetBitsTo(v.data, int64(v.bitLength), n, val)
+	if !val {
+		v.falseCount += int(n)
+	}
+	v.bitLength += int(n)
+}
+
+func (v *validityBuilder) Append(val bool) {
+	v.Reserve(1)
+	v.UnsafeAppend(val)
+}
+
+func (v *validityBuilder) AppendN(n int64, val bool) {
+	v.Reserve(n)
+	v.UnsafeAppendN(n, val)
+}
+
+func (v *validityBuilder) Finish() (buf *memory.Buffer) {
+	if v.bitLength > 0 {
+		v.buffer.Resize(int(bitutil.BytesForBits(int64(v.bitLength))))
+	}
+
+	v.bitLength, v.falseCount = 0, 0
+	buf = v.buffer
+	v.buffer = nil
+	return
+}
+
+type execBufBuilder struct {
+	mem    memory.Allocator
+	buffer *memory.Buffer
+	data   []byte
+	sz     int
+}
+
+func (bldr *execBufBuilder) reserve(additional int) {
+	if bldr.buffer == nil {
+		bldr.buffer = memory.NewResizableBuffer(bldr.mem)
+	}
+
+	mincap := bldr.sz + additional
+	if mincap <= cap(bldr.data) {
+		return
+	}
+	bldr.buffer.ResizeNoShrink(mincap)
+	bldr.data = bldr.buffer.Buf()
+}
+
+func (bldr *execBufBuilder) unsafeAppend(data []byte) {
+	copy(bldr.data[bldr.sz:], data)
+	bldr.sz += len(data)
+}
+
+func (bldr *execBufBuilder) finish() (buf *memory.Buffer) {
+	if bldr.buffer == nil {
+		buf = memory.NewBufferBytes(nil)
+		return
+	}
+	bldr.buffer.Resize(bldr.sz)
+	buf = bldr.buffer
+	bldr.buffer, bldr.sz = nil, 0
+	return
+}
+
+type bufferBuilder[T exec.FixedWidthTypes] struct {
+	execBufBuilder
+	zero T
+}
+
+func newBufferBuilder[T exec.FixedWidthTypes](mem memory.Allocator) *bufferBuilder[T] {
+	return &bufferBuilder[T]{
+		execBufBuilder: execBufBuilder{
+			mem: mem,
+		},
+	}
+}
+
+func (b *bufferBuilder[T]) reserve(additional int) {
+	b.execBufBuilder.reserve(additional * int(unsafe.Sizeof(b.zero)))
+}
+
+func (b *bufferBuilder[T]) unsafeAppend(value T) {
+	b.execBufBuilder.unsafeAppend(exec.GetBytes([]T{value}))
+}
+
+func (b *bufferBuilder[T]) unsafeAppendSlice(values []T) {
+	b.execBufBuilder.unsafeAppend(exec.GetBytes(values))
+}
+
+func (b *bufferBuilder[T]) len() int { return b.sz / int(unsafe.Sizeof(b.zero)) }
+
+func (b *bufferBuilder[T]) cap() int {
+	return cap(b.data) / int(unsafe.Sizeof(b.zero))
+}
+
+func checkIndexBoundsImpl[T exec.IntTypes | exec.UintTypes](values *exec.ArraySpan, upperLimit uint64) error {
+	// for unsigned integers, if the values array is larger
+	// than the maximum index value, then there's no need to bounds check
+	isSigned := !arrow.IsUnsignedInteger(values.Type.ID())
+	if !isSigned && upperLimit > uint64(MaxOf[T]()) {
+		return nil
+	}
+
+	valuesData := exec.GetSpanValues[T](values, 1)
+	bitmap := values.Buffers[0].Buf
+	isOutOfBounds := func(val T) bool {
+		return ((isSigned && val < 0) || val >= 0 && uint64(val) >= upperLimit)
+	}
+	return bitutils.VisitSetBitRuns(bitmap, values.Offset, values.Len,
+		func(pos, length int64) error {
+			outOfBounds := false
+			for i := int64(0); i < length; i++ {
+				outOfBounds = outOfBounds || isOutOfBounds(valuesData[pos+i])
+			}
+			if outOfBounds {
+				for i := int64(0); i < length; i++ {
+					if isOutOfBounds(valuesData[pos+i]) {
+						return fmt.Errorf("%w: %d out of bounds",
+							arrow.ErrIndex, valuesData[pos+i])
+					}
+				}
+			}
+			return nil
+		})
+}
+
+func checkIndexBounds(values *exec.ArraySpan, upperLimit uint64) error {
+	switch values.Type.ID() {
+	case arrow.INT8:
+		return checkIndexBoundsImpl[int8](values, upperLimit)
+	case arrow.UINT8:
+		return checkIndexBoundsImpl[uint8](values, upperLimit)
+	case arrow.INT16:
+		return checkIndexBoundsImpl[int16](values, upperLimit)
+	case arrow.UINT16:
+		return checkIndexBoundsImpl[uint16](values, upperLimit)
+	case arrow.INT32:
+		return checkIndexBoundsImpl[int32](values, upperLimit)
+	case arrow.UINT32:
+		return checkIndexBoundsImpl[uint32](values, upperLimit)
+	case arrow.INT64:
+		return checkIndexBoundsImpl[int64](values, upperLimit)
+	case arrow.UINT64:
+		return checkIndexBoundsImpl[uint64](values, upperLimit)
+	default:
+		return fmt.Errorf("%w: invalid index type for bounds checking", arrow.ErrInvalid)
+	}
+}
+
+func checkIndexBoundsChunked(values *arrow.Chunked, upperLimit uint64) error {
+	var span exec.ArraySpan
+	for _, v := range values.Chunks() {
+		span.SetMembers(v.Data())
+		if err := checkIndexBounds(&span, upperLimit); err != nil {
+			return err
+		}
+	}
+	return nil
+}
+
+func packBits(vals [32]uint32, out []byte) {
+	const batchSize = 32
+	for i := 0; i < batchSize; i += 8 {
+		out[0] = byte(vals[i] | vals[i+1]<<1 | vals[i+2]<<2 | vals[i+3]<<3 |
+			vals[i+4]<<4 | vals[i+5]<<5 | vals[i+6]<<6 | vals[i+7]<<7)
+		out = out[1:]
+	}
+}
diff --git a/go/arrow/compute/internal/kernels/numeric_cast.go b/go/arrow/compute/internal/kernels/numeric_cast.go
new file mode 100644
index 00000000000..549648615ce
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/numeric_cast.go
@@ -0,0 +1,866 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"fmt"
+	"strconv"
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"golang.org/x/exp/constraints"
+)
+
+func CastIntToInt(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	opts := ctx.State.(CastOptions)
+	if !opts.AllowIntOverflow {
+		if err := intsCanFit(&batch.Values[0].Array, out.Type.ID()); err != nil {
+			return err
+		}
+	}
+	castNumberToNumberUnsafe(&batch.Values[0].Array, out)
+	return nil
+}
+
+func CastFloatingToFloating(_ *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	castNumberToNumberUnsafe(&batch.Values[0].Array, out)
+	return nil
+}
+
+func CastFloatingToInteger(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	opts := ctx.State.(CastOptions)
+	castNumberToNumberUnsafe(&batch.Values[0].Array, out)
+	if !opts.AllowFloatTruncate {
+		return checkFloatToIntTrunc(&batch.Values[0].Array, out)
+	}
+	return nil
+}
+
+func CastIntegerToFloating(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	opts := ctx.State.(CastOptions)
+	if !opts.AllowFloatTruncate {
+		if err := checkIntToFloatTrunc(&batch.Values[0].Array, out.Type.ID()); err != nil {
+			return err
+		}
+	}
+	castNumberToNumberUnsafe(&batch.Values[0].Array, out)
+	return nil
+}
+
+type decimal[T exec.DecimalTypes] interface {
+	Less(T) bool
+	GreaterEqual(T) bool
+	LowBits() uint64
+}
+
+func decimalToIntImpl[InT exec.DecimalTypes, OutT exec.IntTypes | exec.UintTypes](allowOverflow bool, min, max InT, v decimal[InT], err *error) OutT {
+	if !allowOverflow && (v.Less(min) || v.GreaterEqual(max)) {
+		debug.Log("integer value out of bounds from decimal")
+		*err = fmt.Errorf("%w: integer value out of bounds", arrow.ErrInvalid)
+		return OutT(0)
+	}
+	return OutT(v.LowBits())
+}
+
+func CastDecimal256ToInteger[T exec.IntTypes | exec.UintTypes](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		opts       = ctx.State.(CastState)
+		inputType  = batch.Values[0].Type().(*arrow.Decimal256Type)
+		inScale    = inputType.Scale
+		ex         exec.ArrayKernelExec
+		minLowBits = uint64(MinOf[T]())
+		minHiBits  int64
+		max        = decimal256.FromU64(uint64(MaxOf[T]()))
+	)
+
+	if MinOf[T]() < 0 {
+		minHiBits = -1
+	}
+	min := decimal256.New(uint64(minHiBits), uint64(minHiBits), uint64(minHiBits), minLowBits)
+	if opts.AllowDecimalTruncate {
+		if inScale < 0 {
+			ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) T {
+				v := val.IncreaseScaleBy(-inScale)
+				return decimalToIntImpl[decimal256.Num, T](opts.AllowIntOverflow, min, max, v, err)
+			})
+		} else {
+			ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) T {
+				v := val.ReduceScaleBy(inScale, true)
+				return decimalToIntImpl[decimal256.Num, T](opts.AllowIntOverflow, min, max, v, err)
+			})
+		}
+	} else {
+		ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) T {
+			v, e := val.Rescale(inScale, 0)
+			if e != nil {
+				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
+				return T(0)
+			}
+			return decimalToIntImpl[decimal256.Num, T](opts.AllowIntOverflow, min, max, v, err)
+		})
+	}
+
+	return ex(ctx, batch, out)
+}
+
+func CastDecimal128ToInteger[T exec.IntTypes | exec.UintTypes](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		opts       = ctx.State.(CastState)
+		inputType  = batch.Values[0].Type().(*arrow.Decimal128Type)
+		inScale    = inputType.Scale
+		ex         exec.ArrayKernelExec
+		minLowBits = uint64(MinOf[T]())
+		minHiBits  int64
+		max        = decimal128.FromU64(uint64(MaxOf[T]()))
+	)
+
+	if MinOf[T]() < 0 {
+		minHiBits = -1
+	}
+	min := decimal128.New(minHiBits, minLowBits)
+	if opts.AllowDecimalTruncate {
+		if inScale < 0 {
+			ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) T {
+				v := val.IncreaseScaleBy(-inScale)
+				return decimalToIntImpl[decimal128.Num, T](opts.AllowIntOverflow, min, max, v, err)
+			})
+		} else {
+			ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) T {
+				v := val.ReduceScaleBy(inScale, true)
+				return decimalToIntImpl[decimal128.Num, T](opts.AllowIntOverflow, min, max, v, err)
+			})
+		}
+	} else {
+		ex = ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) T {
+			v, e := val.Rescale(inScale, 0)
+			if e != nil {
+				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
+				return T(0)
+			}
+			return decimalToIntImpl[decimal128.Num, T](opts.AllowIntOverflow, min, max, v, err)
+		})
+	}
+
+	return ex(ctx, batch, out)
+}
+
+func integerToDecimal128[T exec.IntTypes | exec.UintTypes](inType arrow.Type, outScale int32) exec.ArrayKernelExec {
+	var getDecimal func(v T) decimal128.Num
+	switch inType {
+	case arrow.UINT8, arrow.UINT16, arrow.UINT32, arrow.UINT64:
+		getDecimal = func(v T) decimal128.Num { return decimal128.FromU64(uint64(v)) }
+	default:
+		getDecimal = func(v T) decimal128.Num { return decimal128.FromI64(int64(v)) }
+	}
+	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val T, err *error) decimal128.Num {
+		out, e := getDecimal(val).Rescale(0, outScale)
+		if e != nil {
+			*err = e
+		}
+		return out
+	})
+}
+
+func integerToDecimal256[T exec.IntTypes | exec.UintTypes](inType arrow.Type, outScale int32) exec.ArrayKernelExec {
+	var getDecimal func(v T) decimal256.Num
+	switch inType {
+	case arrow.UINT8, arrow.UINT16, arrow.UINT32, arrow.UINT64:
+		getDecimal = func(v T) decimal256.Num { return decimal256.FromU64(uint64(v)) }
+	default:
+		getDecimal = func(v T) decimal256.Num { return decimal256.FromI64(int64(v)) }
+	}
+	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val T, err *error) decimal256.Num {
+		out, e := getDecimal(val).Rescale(0, outScale)
+		if e != nil {
+			*err = e
+		}
+		return out
+	})
+}
+
+func CastIntegerToDecimal[OutT exec.DecimalTypes, Arg0 exec.IntTypes | exec.UintTypes](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		precision, scale int32
+		executor         exec.ArrayKernelExec
+	)
+	switch dt := out.Type.(type) {
+	case *arrow.Decimal128Type:
+		precision = dt.Precision
+		scale = dt.Scale
+		executor = integerToDecimal128[Arg0](batch.Values[0].Array.Type.ID(), scale)
+	case *arrow.Decimal256Type:
+		precision = dt.Precision
+		scale = dt.Scale
+		executor = integerToDecimal256[Arg0](batch.Values[0].Array.Type.ID(), scale)
+	}
+
+	if scale < 0 {
+		return fmt.Errorf("%w: scale must be non-negative", arrow.ErrInvalid)
+	}
+
+	minPrecision, err := MaxDecimalDigitsForInt(batch.Values[0].Type().ID())
+	if err != nil {
+		return err
+	}
+
+	minPrecision += scale
+	if precision < minPrecision {
+		return fmt.Errorf("%w: precision is not great enough for result. It should be at least %d",
+			arrow.ErrInvalid, minPrecision)
+	}
+
+	return executor(ctx, batch, out)
+}
+
+func getCastIntToDecimal[T exec.DecimalTypes](inType arrow.Type) exec.ArrayKernelExec {
+	switch inType {
+	case arrow.UINT8:
+		return CastIntegerToDecimal[T, uint8]
+	case arrow.INT8:
+		return CastIntegerToDecimal[T, int8]
+	case arrow.UINT16:
+		return CastIntegerToDecimal[T, uint16]
+	case arrow.INT16:
+		return CastIntegerToDecimal[T, int16]
+	case arrow.UINT32:
+		return CastIntegerToDecimal[T, uint32]
+	case arrow.INT32:
+		return CastIntegerToDecimal[T, int32]
+	case arrow.UINT64:
+		return CastIntegerToDecimal[T, uint64]
+	case arrow.INT64:
+		return CastIntegerToDecimal[T, int64]
+	}
+	debug.Assert(false, "invalid integer type")
+	return nil
+}
+
+func unsafeUpscaleDecimal256Out(inputType arrow.Type, by int32) exec.ArrayKernelExec {
+	if inputType == arrow.DECIMAL128 {
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal256.Num {
+			return decimal256.FromDecimal128(val).IncreaseScaleBy(by)
+		})
+	}
+	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal256.Num {
+		return val.IncreaseScaleBy(by)
+	})
+}
+
+func unsafeUpscaleDecimal128Out(inputType arrow.Type, by int32) exec.ArrayKernelExec {
+	if inputType == arrow.DECIMAL128 {
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal128.Num {
+			return val.IncreaseScaleBy(by)
+		})
+	}
+	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal128.Num {
+		vals := val.IncreaseScaleBy(by).Array()
+		return decimal128.New(int64(vals[1]), vals[0])
+	})
+}
+
+func unsafeDownscaleDecimal256Out(inputType arrow.Type, by int32) exec.ArrayKernelExec {
+	if inputType == arrow.DECIMAL128 {
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal256.Num {
+			return decimal256.FromDecimal128(val).ReduceScaleBy(by, false)
+		})
+	}
+	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal256.Num {
+		return val.ReduceScaleBy(by, false)
+	})
+}
+
+func unsafeDownscaleDecimal128Out(inputType arrow.Type, by int32) exec.ArrayKernelExec {
+	if inputType == arrow.DECIMAL128 {
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal128.Num {
+			return val.ReduceScaleBy(by, false)
+		})
+	}
+	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal128.Num {
+		vals := val.ReduceScaleBy(by, false).Array()
+		return decimal128.New(int64(vals[1]), vals[0])
+	})
+}
+
+func safeRescaleDecimal256Out(inputType arrow.Type, outScale, outPrecision, inScale int32) exec.ArrayKernelExec {
+	if inputType == arrow.DECIMAL128 {
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal256.Num {
+			out, e := decimal256.FromDecimal128(val).Rescale(inScale, outScale)
+			if e != nil {
+				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, *err)
+				return decimal256.Num{}
+			}
+
+			if out.FitsInPrecision(outPrecision) {
+				return out
+			}
+
+			*err = fmt.Errorf("%w: decimal value does not fit in precision", arrow.ErrInvalid)
+			return decimal256.Num{}
+		})
+	}
+	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal256.Num {
+		out, e := val.Rescale(inScale, outScale)
+		if e != nil {
+			*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, *err)
+			return decimal256.Num{}
+		}
+
+		if out.FitsInPrecision(outPrecision) {
+			return out
+		}
+
+		*err = fmt.Errorf("%w: decimal value does not fit in precision", arrow.ErrInvalid)
+		return decimal256.Num{}
+	})
+}
+
+func safeRescaleDecimal128Out(inputType arrow.Type, outScale, outPrecision, inScale int32) exec.ArrayKernelExec {
+	if inputType == arrow.DECIMAL128 {
+		return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal128.Num, err *error) decimal128.Num {
+			out, e := val.Rescale(inScale, outScale)
+			if e != nil {
+				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, *err)
+				return decimal128.Num{}
+			}
+
+			if out.FitsInPrecision(outPrecision) {
+				return out
+			}
+
+			*err = fmt.Errorf("%w: decimal value does not fit in precision", arrow.ErrInvalid)
+			return decimal128.Num{}
+		})
+	}
+	return ScalarUnaryNotNull(func(_ *exec.KernelCtx, val decimal256.Num, err *error) decimal128.Num {
+		out, e := val.Rescale(inScale, outScale)
+		if e != nil {
+			*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, *err)
+			return decimal128.Num{}
+		}
+
+		if out.FitsInPrecision(outPrecision) {
+			arr := out.Array()
+			return decimal128.New(int64(arr[1]), arr[0])
+		}
+
+		*err = fmt.Errorf("%w: decimal value does not fit in precision", arrow.ErrInvalid)
+		return decimal128.Num{}
+	})
+}
+
+func CastDecimalToDecimal(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		opts              = ctx.State.(CastState)
+		inType            = batch.Values[0].Type()
+		outType           = out.Type
+		inScale, outScale int32
+		outPrecision      int32
+	)
+
+	switch dt := inType.(type) {
+	case *arrow.Decimal128Type:
+		inScale = dt.Scale
+	case *arrow.Decimal256Type:
+		inScale = dt.Scale
+	}
+
+	switch dt := outType.(type) {
+	case *arrow.Decimal128Type:
+		outScale = dt.Scale
+		outPrecision = dt.Precision
+	case *arrow.Decimal256Type:
+		outScale = dt.Scale
+		outPrecision = dt.Precision
+	}
+
+	if opts.AllowDecimalTruncate {
+		if inScale < outScale {
+			// unsafe upscale
+			if outType.ID() == arrow.DECIMAL128 {
+				ex := unsafeUpscaleDecimal128Out(inType.ID(), outScale-inScale)
+				return ex(ctx, batch, out)
+			}
+			ex := unsafeUpscaleDecimal256Out(inType.ID(), outScale-inScale)
+			return ex(ctx, batch, out)
+		} else {
+			// unsafe downscale
+			if outType.ID() == arrow.DECIMAL128 {
+				ex := unsafeDownscaleDecimal128Out(inType.ID(), inScale-outScale)
+				return ex(ctx, batch, out)
+			}
+			ex := unsafeDownscaleDecimal256Out(inType.ID(), inScale-outScale)
+			return ex(ctx, batch, out)
+		}
+	}
+
+	// safe rescale
+	if outType.ID() == arrow.DECIMAL128 {
+		ex := safeRescaleDecimal128Out(inType.ID(), outScale, outPrecision, inScale)
+		return ex(ctx, batch, out)
+	}
+	ex := safeRescaleDecimal256Out(inType.ID(), outScale, outPrecision, inScale)
+	return ex(ctx, batch, out)
+}
+
+func CastFloat32ToDecimal(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		prec, scale int32
+		allowTrunc  bool
+		executor    exec.ArrayKernelExec
+		opts        = ctx.State.(CastState)
+	)
+
+	allowTrunc = opts.AllowDecimalTruncate
+	switch dt := out.Type.(type) {
+	case *arrow.Decimal128Type:
+		prec, scale = dt.Precision, dt.Scale
+		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v float32, err *error) decimal128.Num {
+			out, e := decimal128.FromFloat32(v, prec, scale)
+			if e == nil {
+				return out
+			}
+
+			if !allowTrunc {
+				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
+			}
+			return decimal128.Num{}
+		})
+	case *arrow.Decimal256Type:
+		prec, scale = dt.Precision, dt.Scale
+		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v float32, err *error) decimal256.Num {
+			out, e := decimal256.FromFloat32(v, prec, scale)
+			if e == nil {
+				return out
+			}
+
+			if !allowTrunc {
+				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
+			}
+			return decimal256.Num{}
+		})
+	}
+
+	return executor(ctx, batch, out)
+}
+
+func CastFloat64ToDecimal(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		prec, scale int32
+		allowTrunc  bool
+		executor    exec.ArrayKernelExec
+		opts        = ctx.State.(CastState)
+	)
+
+	allowTrunc = opts.AllowDecimalTruncate
+	switch dt := out.Type.(type) {
+	case *arrow.Decimal128Type:
+		prec, scale = dt.Precision, dt.Scale
+		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v float64, err *error) decimal128.Num {
+			out, e := decimal128.FromFloat64(v, prec, scale)
+			if e == nil {
+				return out
+			}
+
+			if !allowTrunc {
+				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
+			}
+			return decimal128.Num{}
+		})
+	case *arrow.Decimal256Type:
+		prec, scale = dt.Precision, dt.Scale
+		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v float64, err *error) decimal256.Num {
+			out, e := decimal256.FromFloat64(v, prec, scale)
+			if e == nil {
+				return out
+			}
+
+			if !allowTrunc {
+				*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
+			}
+			return decimal256.Num{}
+		})
+	}
+
+	return executor(ctx, batch, out)
+}
+
+func CastDecimalToFloating[OutT constraints.Float](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		executor exec.ArrayKernelExec
+	)
+
+	switch dt := batch.Values[0].Array.Type.(type) {
+	case *arrow.Decimal128Type:
+		scale := dt.Scale
+		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v decimal128.Num, err *error) OutT {
+			return OutT(v.ToFloat64(scale))
+		})
+	case *arrow.Decimal256Type:
+		scale := dt.Scale
+		executor = ScalarUnaryNotNull(func(_ *exec.KernelCtx, v decimal256.Num, err *error) OutT {
+			return OutT(v.ToFloat64(scale))
+		})
+	}
+
+	return executor(ctx, batch, out)
+}
+
+func boolToNum[T numeric](_ *exec.KernelCtx, in []byte, out []T) error {
+	var (
+		zero T
+		one  = T(1)
+	)
+
+	for i := range out {
+		if bitutil.BitIsSet(in, i) {
+			out[i] = one
+		} else {
+			out[i] = zero
+		}
+	}
+	return nil
+}
+
+func checkFloatTrunc[InT constraints.Float, OutT exec.IntTypes | exec.UintTypes](in, out *exec.ArraySpan) error {
+	wasTrunc := func(out OutT, in InT) bool {
+		return InT(out) != in
+	}
+	wasTruncMaybeNull := func(out OutT, in InT, isValid bool) bool {
+		return isValid && (InT(out) != in)
+	}
+	getError := func(val InT) error {
+		return fmt.Errorf("%w: float value %f was truncated converting to %s",
+			arrow.ErrInvalid, val, out.Type)
+	}
+
+	inData := exec.GetSpanValues[InT](in, 1)
+	outData := exec.GetSpanValues[OutT](out, 1)
+
+	bitmap := in.Buffers[0].Buf
+	bitCounter := bitutils.NewOptionalBitBlockCounter(bitmap, in.Offset, in.Len)
+	pos, offsetPos := int64(0), int64(0)
+	for pos < in.Len {
+		block := bitCounter.NextBlock()
+		outOfBounds := false
+		if block.Popcnt == block.Len {
+			// fast path: branchless
+			for i := 0; i < int(block.Len); i++ {
+				outOfBounds = outOfBounds || wasTrunc(outData[i], inData[i])
+			}
+		} else if block.Popcnt > 0 {
+			// must only bounds check non-null
+			for i := 0; i < int(block.Len); i++ {
+				outOfBounds = outOfBounds || wasTruncMaybeNull(outData[i], inData[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i))
+			}
+		}
+		if outOfBounds {
+			if in.Nulls > 0 {
+				for i := 0; i < int(block.Len); i++ {
+					if wasTruncMaybeNull(outData[i], inData[i], bitutil.BitIsSet(bitmap, int(offsetPos)+i)) {
+						return getError(inData[i])
+					}
+				}
+			} else {
+				for i := 0; i < int(block.Len); i++ {
+					if wasTrunc(outData[i], inData[i]) {
+						return getError(inData[i])
+					}
+				}
+			}
+		}
+		inData = inData[block.Len:]
+		outData = outData[block.Len:]
+		pos += int64(block.Len)
+		offsetPos += int64(block.Len)
+	}
+	return nil
+}
+
+func checkFloatToIntTruncImpl[T constraints.Float](in, out *exec.ArraySpan) error {
+	switch out.Type.ID() {
+	case arrow.INT8:
+		return checkFloatTrunc[T, int8](in, out)
+	case arrow.UINT8:
+		return checkFloatTrunc[T, uint8](in, out)
+	case arrow.INT16:
+		return checkFloatTrunc[T, int16](in, out)
+	case arrow.UINT16:
+		return checkFloatTrunc[T, uint16](in, out)
+	case arrow.INT32:
+		return checkFloatTrunc[T, int32](in, out)
+	case arrow.UINT32:
+		return checkFloatTrunc[T, uint32](in, out)
+	case arrow.INT64:
+		return checkFloatTrunc[T, int64](in, out)
+	case arrow.UINT64:
+		return checkFloatTrunc[T, uint64](in, out)
+	}
+	debug.Assert(false, "float to int truncation only for integer output")
+	return nil
+}
+
+func checkFloatToIntTrunc(in, out *exec.ArraySpan) error {
+	switch in.Type.ID() {
+	case arrow.FLOAT32:
+		return checkFloatToIntTruncImpl[float32](in, out)
+	case arrow.FLOAT64:
+		return checkFloatToIntTruncImpl[float64](in, out)
+	}
+	debug.Assert(false, "float to int truncation only for float32 and float64")
+	return nil
+}
+
+func checkIntToFloatTrunc(in *exec.ArraySpan, outType arrow.Type) error {
+	switch in.Type.ID() {
+	case arrow.INT8, arrow.INT16, arrow.UINT8, arrow.UINT16:
+		// small integers are all exactly representable as whole numbers
+		return nil
+	case arrow.INT32:
+		if outType == arrow.FLOAT64 {
+			return nil
+		}
+		const limit = int32(1 << 24)
+		return intsInRange(in, -limit, limit)
+	case arrow.UINT32:
+		if outType == arrow.FLOAT64 {
+			return nil
+		}
+		return intsInRange(in, 0, uint32(1<<24))
+	case arrow.INT64:
+		if outType == arrow.FLOAT32 {
+			const limit = int64(1 << 24)
+			return intsInRange(in, -limit, limit)
+		}
+		const limit = int64(1 << 53)
+		return intsInRange(in, -limit, limit)
+	case arrow.UINT64:
+		if outType == arrow.FLOAT32 {
+			return intsInRange(in, 0, uint64(1<<24))
+		}
+		return intsInRange(in, 0, uint64(1<<53))
+	}
+	debug.Assert(false, "intToFloatTrunc should only be called with int input")
+	return nil
+}
+
+func parseStringToNumberImpl[T exec.IntTypes | exec.UintTypes | exec.FloatTypes, OffsetT int32 | int64](parseFn func(string) (T, error)) exec.ArrayKernelExec {
+	return ScalarUnaryNotNullBinaryArg[T, OffsetT](func(_ *exec.KernelCtx, in []byte, err *error) T {
+		st := *(*string)(unsafe.Pointer(&in))
+		v, e := parseFn(st)
+		if e != nil {
+			*err = fmt.Errorf("%w: %s", arrow.ErrInvalid, e)
+		}
+		return v
+	})
+}
+
+func getParseStringExec[OffsetT int32 | int64](out arrow.Type) exec.ArrayKernelExec {
+	switch out {
+	case arrow.INT8:
+		return parseStringToNumberImpl[int8, OffsetT](func(s string) (int8, error) {
+			v, err := strconv.ParseInt(s, 0, 8)
+			return int8(v), err
+		})
+	case arrow.UINT8:
+		return parseStringToNumberImpl[uint8, OffsetT](func(s string) (uint8, error) {
+			v, err := strconv.ParseUint(s, 0, 8)
+			return uint8(v), err
+		})
+	case arrow.INT16:
+		return parseStringToNumberImpl[int16, OffsetT](func(s string) (int16, error) {
+			v, err := strconv.ParseInt(s, 0, 16)
+			return int16(v), err
+		})
+	case arrow.UINT16:
+		return parseStringToNumberImpl[uint16, OffsetT](func(s string) (uint16, error) {
+			v, err := strconv.ParseUint(s, 0, 16)
+			return uint16(v), err
+		})
+	case arrow.INT32:
+		return parseStringToNumberImpl[int32, OffsetT](func(s string) (int32, error) {
+			v, err := strconv.ParseInt(s, 0, 32)
+			return int32(v), err
+		})
+	case arrow.UINT32:
+		return parseStringToNumberImpl[uint32, OffsetT](func(s string) (uint32, error) {
+			v, err := strconv.ParseUint(s, 0, 32)
+			return uint32(v), err
+		})
+	case arrow.INT64:
+		return parseStringToNumberImpl[int64, OffsetT](func(s string) (int64, error) {
+			return strconv.ParseInt(s, 0, 64)
+		})
+	case arrow.UINT64:
+		return parseStringToNumberImpl[uint64, OffsetT](func(s string) (uint64, error) {
+			return strconv.ParseUint(s, 0, 64)
+		})
+	case arrow.FLOAT32:
+		return parseStringToNumberImpl[float32, OffsetT](func(s string) (float32, error) {
+			v, err := strconv.ParseFloat(s, 32)
+			return float32(v), err
+		})
+	case arrow.FLOAT64:
+		return parseStringToNumberImpl[float64, OffsetT](func(s string) (float64, error) {
+			return strconv.ParseFloat(s, 64)
+		})
+	}
+	panic("invalid type for getParseStringExec")
+}
+
+func addCommonNumberCasts[T numeric](outTy arrow.DataType, kernels []exec.ScalarKernel) []exec.ScalarKernel {
+	kernels = append(kernels, GetCommonCastKernels(outTy.ID(), exec.NewOutputType(outTy))...)
+
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewExactInput(arrow.FixedWidthTypes.Boolean)},
+		exec.NewOutputType(outTy), ScalarUnaryBoolArg(boolToNum[T]), nil))
+
+	for _, inTy := range []arrow.DataType{arrow.BinaryTypes.Binary, arrow.BinaryTypes.String} {
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(inTy)}, exec.NewOutputType(outTy),
+			getParseStringExec[int32](outTy.ID()), nil))
+	}
+	for _, inTy := range []arrow.DataType{arrow.BinaryTypes.LargeBinary, arrow.BinaryTypes.LargeString} {
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(inTy)}, exec.NewOutputType(outTy),
+			getParseStringExec[int64](outTy.ID()), nil))
+	}
+	return kernels
+}
+
+func GetCastToInteger[T exec.IntTypes | exec.UintTypes](outType arrow.DataType) []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+
+	output := exec.NewOutputType(outType)
+	for _, inTy := range intTypes {
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(inTy)}, output,
+			CastIntToInt, nil))
+	}
+
+	for _, inTy := range floatingTypes {
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(inTy)}, output,
+			CastFloatingToInteger, nil))
+	}
+
+	kernels = addCommonNumberCasts[T](outType, kernels)
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)}, output,
+		CastDecimal128ToInteger[T], nil))
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)}, output,
+		CastDecimal256ToInteger[T], nil))
+	return kernels
+}
+
+func GetCastToFloating[T constraints.Float](outType arrow.DataType) []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+
+	output := exec.NewOutputType(outType)
+	for _, inTy := range intTypes {
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(inTy)}, output,
+			CastIntegerToFloating, nil))
+	}
+
+	for _, inTy := range floatingTypes {
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(inTy)}, output,
+			CastFloatingToFloating, nil))
+	}
+
+	kernels = addCommonNumberCasts[T](outType, kernels)
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)}, output,
+		CastDecimalToFloating[T], nil))
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)}, output,
+		CastDecimalToFloating[T], nil))
+	return kernels
+}
+
+func resolveOutputFromOptions(ctx *exec.KernelCtx, _ []arrow.DataType) (arrow.DataType, error) {
+	return ctx.State.(CastState).ToType, nil
+}
+
+func GetCastToDecimal128() []exec.ScalarKernel {
+	outputType := exec.NewComputedOutputType(resolveOutputFromOptions)
+
+	kernels := make([]exec.ScalarKernel, 0)
+	kernels = append(kernels, GetCommonCastKernels(arrow.DECIMAL128, outputType)...)
+
+	// cast from floating point
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Float32)},
+		outputType, CastFloat32ToDecimal, nil))
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Float64)},
+		outputType, CastFloat64ToDecimal, nil))
+
+	// cast from integer
+	for _, inTy := range intTypes {
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(inTy)}, outputType,
+			getCastIntToDecimal[decimal128.Num](inTy.ID()), nil))
+	}
+
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)}, outputType,
+		CastDecimalToDecimal, nil))
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)}, outputType,
+		CastDecimalToDecimal, nil))
+	return kernels
+}
+
+func GetCastToDecimal256() []exec.ScalarKernel {
+	outputType := exec.NewComputedOutputType(resolveOutputFromOptions)
+
+	kernels := make([]exec.ScalarKernel, 0)
+	kernels = append(kernels, GetCommonCastKernels(arrow.DECIMAL256, outputType)...)
+
+	// cast from floating point
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Float32)},
+		outputType, CastFloat32ToDecimal, nil))
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewExactInput(arrow.PrimitiveTypes.Float64)},
+		outputType, CastFloat64ToDecimal, nil))
+
+	// cast from integer
+	for _, inTy := range intTypes {
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(inTy)}, outputType,
+			getCastIntToDecimal[decimal256.Num](inTy.ID()), nil))
+	}
+
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)}, outputType,
+		CastDecimalToDecimal, nil))
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)}, outputType,
+		CastDecimalToDecimal, nil))
+	return kernels
+}
diff --git a/go/arrow/compute/internal/kernels/rounding.go b/go/arrow/compute/internal/kernels/rounding.go
new file mode 100644
index 00000000000..412d8d993e6
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/rounding.go
@@ -0,0 +1,809 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"fmt"
+	"math"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"golang.org/x/exp/constraints"
+)
+
+//go:generate stringer -type=RoundMode
+
+type RoundMode int8
+
+const (
+	// Round to nearest integer less than or equal in magnitude (aka "floor")
+	RoundDown RoundMode = iota
+	// Round to nearest integer greater than or equal in magnitude (aka "ceil")
+	RoundUp
+	// Get integral part without fractional digits (aka "trunc")
+	TowardsZero
+	// Round negative values with DOWN and positive values with UP
+	AwayFromZero
+	// Round ties with DOWN (aka "round half towards negative infinity")
+	HalfDown
+	// Round ties with UP (aka "round half towards positive infinity")
+	HalfUp
+	// Round ties with TowardsZero (aka "round half away from infinity")
+	HalfTowardsZero
+	// Round ties with AwayFromZero (aka "round half towards infinity")
+	HalfAwayFromZero
+	// Round ties to nearest even integer
+	HalfToEven
+	// Round ties to nearest odd integer
+	HalfToOdd
+)
+
+type RoundOptions struct {
+	NDigits int64
+	Mode    RoundMode
+}
+
+func (RoundOptions) TypeName() string { return "RoundOptions" }
+
+type RoundState struct {
+	RoundOptions
+	Pow10 float64
+}
+
+func InitRoundState(_ *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
+	var rs RoundState
+
+	opts, ok := args.Options.(*RoundOptions)
+	if ok {
+		rs.RoundOptions = *opts
+	} else {
+		if rs.RoundOptions, ok = args.Options.(RoundOptions); !ok {
+			return nil, fmt.Errorf("%w: attempted to initialize kernel state from invalid function options",
+				arrow.ErrInvalid)
+		}
+	}
+
+	// Only positive exponents for powers of 10 are used because combining
+	// multiply and division operations produced more stable rounding than
+	// using multiply-only.  Refer to NumPy's round implementation:
+	// https://github.com/numpy/numpy/blob/7b2f20b406d27364c812f7a81a9c901afbd3600c/numpy/core/src/multiarray/calculation.c#L589
+	rs.Pow10 = math.Pow10(int(math.Abs(float64(rs.NDigits))))
+	return rs, nil
+}
+
+type RoundToMultipleOptions struct {
+	// Multiple is the multiple to round to.
+	//
+	// Should be a positive numeric scalar of a type compatible
+	// with the argument to be rounded. The cast kernel is used
+	// to convert the rounding multiple to match the result type.
+	Multiple scalar.Scalar
+	// Mode is the rounding and tie-breaking mode
+	Mode RoundMode
+}
+
+func (RoundToMultipleOptions) TypeName() string { return "RoundToMultipleOptions" }
+
+type RoundToMultipleState = RoundToMultipleOptions
+
+func isPositive(s scalar.Scalar) bool {
+	switch s := s.(type) {
+	case *scalar.Decimal128:
+		return s.Value.Greater(decimal128.Num{})
+	case *scalar.Decimal256:
+		return s.Value.Greater(decimal256.Num{})
+	case *scalar.Int8:
+		return s.Value > 0
+	case *scalar.Uint8, *scalar.Uint16, *scalar.Uint32, *scalar.Uint64:
+		return true
+	case *scalar.Int16:
+		return s.Value > 0
+	case *scalar.Int32:
+		return s.Value > 0
+	case *scalar.Int64:
+		return s.Value > 0
+	case *scalar.Float32:
+		return s.Value > 0
+	case *scalar.Float64:
+		return s.Value > 0
+	default:
+		return false
+	}
+}
+
+func InitRoundToMultipleState(_ *exec.KernelCtx, args exec.KernelInitArgs) (exec.KernelState, error) {
+	var rs RoundToMultipleState
+
+	opts, ok := args.Options.(*RoundToMultipleOptions)
+	if ok {
+		rs = *opts
+	} else {
+		if rs, ok = args.Options.(RoundToMultipleOptions); !ok {
+			return nil, fmt.Errorf("%w: attempted to initialize kernel state from invalid function options",
+				arrow.ErrInvalid)
+		}
+	}
+
+	mult := rs.Multiple
+	if mult == nil || !mult.IsValid() {
+		return nil, fmt.Errorf("%w: rounding multiple must be non-null and valid",
+			arrow.ErrInvalid)
+	}
+
+	if !isPositive(mult) {
+		return nil, fmt.Errorf("%w: rounding multiple must be positive", arrow.ErrInvalid)
+	}
+
+	// ensure the rounding multiple option matches the kernel's output type.
+	// the output type is not available here, so we use the following rule:
+	// if "multiple" is neither a floating-point nor decimal type,
+	// then cast to float64, else cast to the kernel's input type.
+	var toType arrow.DataType
+	if !arrow.IsFloating(mult.DataType().ID()) && !arrow.IsDecimal(mult.DataType().ID()) {
+		toType = arrow.PrimitiveTypes.Float64
+	} else {
+		toType = args.Inputs[0]
+	}
+
+	if !arrow.TypeEqual(mult.DataType(), toType) {
+		castedMultiple, err := mult.CastTo(toType)
+		if err != nil {
+			return nil, err
+		}
+
+		rs.Multiple = castedMultiple
+	}
+
+	return rs, nil
+}
+
+func getFloatRoundImpl[T constraints.Float](mode RoundMode) func(T) T {
+	switch mode {
+	case RoundDown:
+		return func(t T) T { return T(math.Floor(float64(t))) }
+	case RoundUp:
+		return func(t T) T { return T(math.Ceil(float64(t))) }
+	case TowardsZero: // truncate
+		return func(t T) T { return T(math.Trunc(float64(t))) }
+	case AwayFromZero:
+		return func(t T) T {
+			v := float64(t)
+			if math.Signbit(v) {
+				return T(math.Floor(v))
+			}
+			return T(math.Ceil(v))
+		}
+	// the Half variants are only called when the fractional portion
+	// was 0.5
+	case HalfDown:
+		return func(t T) T { return T(math.Floor(float64(t))) }
+	case HalfUp:
+		return func(t T) T { return T(math.Ceil(float64(t))) }
+	case HalfTowardsZero:
+		return func(t T) T { return T(math.Trunc(float64(t))) }
+	case HalfAwayFromZero:
+		return func(t T) T {
+			v := float64(t)
+			if math.Signbit(v) {
+				return T(math.Floor(v))
+			}
+			return T(math.Ceil(v))
+		}
+	case HalfToEven:
+		return func(t T) T { return T(math.RoundToEven(float64(t))) }
+	case HalfToOdd:
+		return func(t T) T {
+			v := float64(t)
+			return T(math.Floor(v*0.5) + math.Ceil(v*0.5))
+		}
+	}
+	panic("invalid rounding mode")
+}
+
+func getDecRounding[T decimal128.Num | decimal256.Num](mode RoundMode, opsImpl *roundDecImpl[T]) func(val, remainder T, pow10 T, scale int32) T {
+	var (
+		z   T
+		one = opsImpl.fromI64(1)
+		neg = opsImpl.fromI64(-1)
+	)
+
+	switch mode {
+	case RoundDown:
+		return func(val, remainder, pow10 T, _ int32) T {
+			val = opsImpl.Sub(val, remainder)
+			if opsImpl.Sign(val) < 0 {
+				val = opsImpl.Sub(val, pow10)
+			}
+			return val
+		}
+	case RoundUp:
+		return func(val, remainder, pow10 T, _ int32) T {
+			val = opsImpl.Sub(val, remainder)
+			if opsImpl.Sign(val) > 0 && remainder != z {
+				val = opsImpl.Add(val, pow10)
+			}
+			return val
+		}
+	case TowardsZero:
+		return func(val, remainder, _ T, _ int32) T {
+			return opsImpl.Sub(val, remainder)
+		}
+	case AwayFromZero:
+		return func(val, remainder, pow10 T, _ int32) T {
+			val = opsImpl.Sub(val, remainder)
+			if opsImpl.Sign(remainder) < 0 {
+				val = opsImpl.Sub(val, pow10)
+			} else if opsImpl.Sign(remainder) > 0 && remainder != z {
+				val = opsImpl.Add(val, pow10)
+			}
+			return val
+		}
+	// variants for Half_* modes are only invoked when the fractional part
+	// is equal to 0.5
+	case HalfDown:
+		return func(val, remainder, pow10 T, _ int32) T {
+			val = opsImpl.Sub(val, remainder)
+			if opsImpl.Sign(val) < 0 {
+				val = opsImpl.Sub(val, pow10)
+			}
+			return val
+		}
+	case HalfUp:
+		return func(val, remainder, pow10 T, _ int32) T {
+			val = opsImpl.Sub(val, remainder)
+			if opsImpl.Sign(val) > 0 && remainder != z {
+				val = opsImpl.Add(val, pow10)
+			}
+			return val
+		}
+	case HalfTowardsZero:
+		return func(val, remainder, _ T, _ int32) T {
+			return opsImpl.Sub(val, remainder)
+		}
+	case HalfAwayFromZero:
+		return func(val, remainder, pow10 T, _ int32) T {
+			val = opsImpl.Sub(val, remainder)
+			if opsImpl.Sign(remainder) < 0 {
+				val = opsImpl.Sub(val, pow10)
+			} else if opsImpl.Sign(remainder) > 0 && remainder != z {
+				val = opsImpl.Add(val, pow10)
+			}
+			return val
+		}
+	case HalfToEven:
+		return func(val, remainder, _ T, scale int32) T {
+			scaled := opsImpl.reduceScale(val, scale, false)
+			if opsImpl.lowBits(scaled)%2 != 0 {
+				if opsImpl.Sign(remainder) >= 0 {
+					scaled = opsImpl.Add(scaled, one)
+				} else {
+					scaled = opsImpl.Add(scaled, neg)
+				}
+			}
+			return opsImpl.increaseScale(scaled, scale)
+		}
+	case HalfToOdd:
+		return func(val, remainder, _ T, scale int32) T {
+			scaled := opsImpl.reduceScale(val, scale, false)
+			if opsImpl.lowBits(scaled)%2 == 0 {
+				if opsImpl.Sign(remainder) != 0 {
+					scaled = opsImpl.Add(scaled, one)
+				} else {
+					scaled = opsImpl.Add(scaled, neg)
+				}
+			}
+			return opsImpl.increaseScale(scaled, scale)
+		}
+	}
+	panic("invalid rounding mode")
+}
+
+type round[T constraints.Float] struct {
+	pow10   T
+	ndigits int64
+	mode    RoundMode
+
+	fn func(T) T
+}
+
+func (rnd *round[T]) call(_ *exec.KernelCtx, arg T, e *error) T {
+	val := float64(arg)
+	// do not process INF or NaN because they will trigger overflow errors
+	// at the end of this
+	if math.IsInf(val, 0) || math.IsNaN(val) {
+		return arg
+	}
+
+	var roundVal T
+	if rnd.ndigits >= 0 {
+		roundVal = arg * rnd.pow10
+	} else {
+		roundVal = arg / rnd.pow10
+	}
+
+	frac := roundVal - T(math.Floor(float64(roundVal)))
+	if frac == 0 {
+		// scaled value has no fractional component
+		// no rounding is needed.
+		return arg
+	}
+
+	if rnd.mode >= HalfDown && frac != 0.5 {
+		roundVal = T(math.Round(float64(roundVal)))
+	} else {
+		roundVal = rnd.fn(roundVal)
+	}
+
+	// equality check is omitted so that the common case of 10^0
+	// (integer rounding) uses multiply-only
+	if rnd.ndigits > 0 {
+		roundVal /= rnd.pow10
+	} else {
+		roundVal *= rnd.pow10
+	}
+	if math.IsInf(float64(roundVal), 0) || math.IsNaN(float64(roundVal)) {
+		*e = errOverflow
+		return arg
+	}
+
+	return roundVal
+}
+
+func roundKernelFloating[T constraints.Float](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	opts := ctx.State.(RoundState)
+	rnd := round[T]{
+		pow10:   T(opts.Pow10),
+		ndigits: opts.NDigits,
+		mode:    opts.Mode,
+		fn:      getFloatRoundImpl[T](opts.Mode),
+	}
+
+	return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
+}
+
+func roundToMultipleFloating[T constraints.Float](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	opts := ctx.State.(RoundToMultipleState)
+	rnd := roundToMultiple[T]{
+		mode:     opts.Mode,
+		multiple: UnboxScalar[T](opts.Multiple.(scalar.PrimitiveScalar)),
+		fn:       getFloatRoundImpl[T](opts.Mode),
+	}
+
+	return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
+}
+
+type roundDecImpl[T decimal128.Num | decimal256.Num] struct {
+	*decOps[T]
+	scaleMultiplier     func(int) T
+	halfScaleMultiplier func(int) T
+	divide              func(a, b T) (res, rem T)
+	fitsInPrec          func(T, int32) bool
+	less                func(a, b T) bool
+	reduceScale         func(T, int32, bool) T
+	increaseScale       func(T, int32) T
+	lowBits             func(T) uint64
+	fromI64             func(int64) T
+	str                 func(T, int32) string
+}
+
+var (
+	roundDec128 = roundDecImpl[decimal128.Num]{
+		decOps:              &dec128Ops,
+		scaleMultiplier:     decimal128.GetScaleMultiplier,
+		halfScaleMultiplier: decimal128.GetHalfScaleMultiplier,
+		divide:              func(a, b decimal128.Num) (res, rem decimal128.Num) { return a.Div(b) },
+		fitsInPrec:          func(a decimal128.Num, prec int32) bool { return a.FitsInPrecision(prec) },
+		less:                func(a, b decimal128.Num) bool { return a.Less(b) },
+		reduceScale:         func(a decimal128.Num, scale int32, round bool) decimal128.Num { return a.ReduceScaleBy(scale, round) },
+		increaseScale:       func(a decimal128.Num, scale int32) decimal128.Num { return a.IncreaseScaleBy(scale) },
+		lowBits:             func(a decimal128.Num) uint64 { return a.LowBits() },
+		fromI64:             func(v int64) decimal128.Num { return decimal128.FromI64(v) },
+		str:                 func(a decimal128.Num, scale int32) string { return a.ToString(scale) },
+	}
+	roundDec256 = roundDecImpl[decimal256.Num]{
+		decOps:              &dec256Ops,
+		scaleMultiplier:     decimal256.GetScaleMultiplier,
+		halfScaleMultiplier: decimal256.GetHalfScaleMultiplier,
+		divide:              func(a, b decimal256.Num) (res, rem decimal256.Num) { return a.Div(b) },
+		fitsInPrec:          func(a decimal256.Num, prec int32) bool { return a.FitsInPrecision(prec) },
+		less:                func(a, b decimal256.Num) bool { return a.Less(b) },
+		reduceScale:         func(a decimal256.Num, scale int32, round bool) decimal256.Num { return a.ReduceScaleBy(scale, round) },
+		increaseScale:       func(a decimal256.Num, scale int32) decimal256.Num { return a.IncreaseScaleBy(scale) },
+		lowBits:             func(a decimal256.Num) uint64 { return a.LowBits() },
+		fromI64:             func(v int64) decimal256.Num { return decimal256.FromI64(v) },
+		str:                 func(a decimal256.Num, scale int32) string { return a.ToString(scale) },
+	}
+)
+
+type roundDec[T decimal128.Num | decimal256.Num] struct {
+	ty      arrow.DecimalType
+	mode    RoundMode
+	ndigits int64
+	pow     int32
+	// pow10 is "1" for the given decimal scale. Similarly halfPow10 is "0.5"
+	pow10, halfPow10, negHalfPow10 T
+
+	opsImpl *roundDecImpl[T]
+	fn      func(T, T, T, int32) T
+}
+
+func (rnd *roundDec[T]) call(_ *exec.KernelCtx, arg T, e *error) T {
+	var def T
+	if rnd.pow >= rnd.ty.GetPrecision() {
+		*e = fmt.Errorf("%w: rounding to %d digits will not fit in precision of %s",
+			arrow.ErrInvalid, rnd.ndigits, rnd.ty)
+		return def
+	} else if rnd.pow < 0 {
+		// no-op copy output to input
+		return arg
+	}
+
+	_, remainder := rnd.opsImpl.divide(arg, rnd.pow10)
+	// the remainder is effectively the scaled fractional part after division
+	if remainder == def {
+		return arg
+	}
+
+	if rnd.mode >= HalfDown {
+		if remainder == rnd.halfPow10 || remainder == rnd.negHalfPow10 {
+			// on the halfway point, use tiebreaker
+			arg = rnd.fn(arg, remainder, rnd.pow10, rnd.pow)
+		} else if rnd.opsImpl.Sign(remainder) >= 0 {
+			// positive, round up/down
+			arg = rnd.opsImpl.Sub(arg, remainder)
+			if rnd.opsImpl.less(rnd.halfPow10, remainder) {
+				arg = rnd.opsImpl.Add(arg, rnd.pow10)
+			}
+		} else {
+			// negative, round up/down
+			arg = rnd.opsImpl.Sub(arg, remainder)
+			if rnd.opsImpl.less(remainder, rnd.negHalfPow10) {
+				arg = rnd.opsImpl.Sub(arg, rnd.pow10)
+			}
+		}
+	} else {
+		arg = rnd.fn(arg, remainder, rnd.pow10, rnd.pow)
+	}
+
+	if !rnd.opsImpl.fitsInPrec(arg, rnd.ty.GetPrecision()) {
+		*e = fmt.Errorf("%w: rounded value %s does not fit in precision of %s",
+			arrow.ErrInvalid, rnd.opsImpl.str(arg, rnd.ty.GetScale()), rnd.ty)
+		return def
+	}
+	return arg
+}
+
+func getRoundKernelDecimal[T decimal128.Num | decimal256.Num]() exec.ArrayKernelExec {
+	var def T
+	switch any(def).(type) {
+	case decimal128.Num:
+		return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+			return roundKernelDecimal(&roundDec128, ctx, batch, out)
+		}
+	case decimal256.Num:
+		return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+			return roundKernelDecimal(&roundDec256, ctx, batch, out)
+		}
+	}
+	panic("should never get here")
+}
+
+func roundKernelDecimal[T decimal128.Num | decimal256.Num](opsImpl *roundDecImpl[T], ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	opts := ctx.State.(RoundState)
+	rnd := roundDec[T]{
+		ty:      out.Type.(arrow.DecimalType),
+		ndigits: opts.NDigits,
+		mode:    opts.Mode,
+		opsImpl: opsImpl,
+		fn:      getDecRounding(opts.Mode, opsImpl),
+	}
+
+	rnd.pow = rnd.ty.GetScale() - int32(rnd.ndigits)
+	if rnd.pow < rnd.ty.GetPrecision() && rnd.pow >= 0 {
+		rnd.pow10 = opsImpl.scaleMultiplier(int(rnd.pow))
+		rnd.halfPow10 = opsImpl.halfScaleMultiplier(int(rnd.pow))
+		rnd.negHalfPow10 = opsImpl.Neg(rnd.halfPow10)
+	}
+
+	return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
+}
+
+func getRoundToMultipleKernelDecimal[T decimal128.Num | decimal256.Num]() exec.ArrayKernelExec {
+	var def T
+	switch any(def).(type) {
+	case decimal128.Num:
+		return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+			return roundToMultipleDecimal(&roundDec128, ctx, batch, out)
+		}
+	case decimal256.Num:
+		return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+			return roundToMultipleDecimal(&roundDec256, ctx, batch, out)
+		}
+	}
+	panic("should never get here")
+}
+
+func roundToMultipleDecimal[T decimal128.Num | decimal256.Num](opsImpl *roundDecImpl[T], ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	opts := ctx.State.(RoundToMultipleState)
+	rnd := roundToMultipleDec[T]{
+		ty:      out.Type.(arrow.DecimalType),
+		mode:    opts.Mode,
+		opsImpl: opsImpl,
+		fn:      getDecRounding(opts.Mode, opsImpl),
+		mult:    UnboxScalar[T](opts.Multiple.(scalar.PrimitiveScalar)),
+	}
+
+	rnd.halfMult = opsImpl.Div(rnd.mult, opsImpl.fromI64(2))
+	rnd.negHalfMult = opsImpl.Neg(rnd.halfMult)
+	rnd.hasHalfwayPoint = opsImpl.lowBits(rnd.mult)%2 == 0
+
+	return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
+}
+
+type roundToMultiple[T constraints.Float] struct {
+	multiple T
+	mode     RoundMode
+
+	fn func(T) T
+}
+
+func (rnd *roundToMultiple[T]) call(_ *exec.KernelCtx, arg T, e *error) T {
+	val := float64(arg)
+	// do not process Inf or NaN because they will trigger the overflow error
+	// at the end of this.
+	if math.IsInf(val, 0) || math.IsNaN(val) {
+		return arg
+	}
+
+	roundVal := arg / rnd.multiple
+	frac := roundVal - T(math.Floor(float64(roundVal)))
+	if frac == 0 {
+		// scaled value is an integer, no rounding needed
+		return arg
+	}
+
+	if rnd.mode >= HalfDown && frac != 0.5 {
+		roundVal = T(math.Round(float64(roundVal)))
+	} else {
+		roundVal = rnd.fn(roundVal)
+	}
+	roundVal *= rnd.multiple
+
+	if math.IsInf(float64(roundVal), 0) || math.IsNaN(float64(roundVal)) {
+		*e = errOverflow
+		return arg
+	}
+
+	return roundVal
+}
+
+type roundToMultipleDec[T decimal128.Num | decimal256.Num] struct {
+	ty   arrow.DecimalType
+	mode RoundMode
+
+	mult, halfMult, negHalfMult T
+	hasHalfwayPoint             bool
+
+	opsImpl *roundDecImpl[T]
+	fn      func(T, T, T, int32) T
+}
+
+func (rnd *roundToMultipleDec[T]) call(_ *exec.KernelCtx, arg T, e *error) T {
+	var def T
+
+	val, remainder := rnd.opsImpl.divide(arg, rnd.mult)
+	if remainder == def {
+		return arg
+	}
+
+	one := rnd.opsImpl.fromI64(1)
+	if rnd.mode >= HalfDown {
+		if rnd.hasHalfwayPoint && (remainder == rnd.halfMult || remainder == rnd.negHalfMult) {
+			// on the halfway point, use tiebreaker
+			// manually implement rounding since we're not actually rounding
+			// a decimal value, but rather manipulating the multiple
+			switch rnd.mode {
+			case HalfDown:
+				if rnd.opsImpl.Sign(remainder) < 0 {
+					val = rnd.opsImpl.Sub(val, one)
+				}
+			case HalfUp:
+				if rnd.opsImpl.Sign(remainder) >= 0 {
+					val = rnd.opsImpl.Add(val, one)
+				}
+			case HalfTowardsZero:
+			case HalfAwayFromZero:
+				if rnd.opsImpl.Sign(remainder) >= 0 {
+					val = rnd.opsImpl.Add(val, one)
+				} else {
+					val = rnd.opsImpl.Sub(val, one)
+				}
+			case HalfToEven:
+				if rnd.opsImpl.lowBits(val)%2 != 0 {
+					if rnd.opsImpl.Sign(remainder) >= 0 {
+						val = rnd.opsImpl.Add(val, one)
+					} else {
+						val = rnd.opsImpl.Sub(val, one)
+					}
+				}
+			case HalfToOdd:
+				if rnd.opsImpl.lowBits(val)%2 == 0 {
+					if rnd.opsImpl.Sign(remainder) >= 0 {
+						val = rnd.opsImpl.Add(val, one)
+					} else {
+						val = rnd.opsImpl.Sub(val, one)
+					}
+				}
+			}
+		} else if rnd.opsImpl.Sign(remainder) >= 0 {
+			// positive, round up/down
+			if rnd.opsImpl.less(rnd.halfMult, remainder) {
+				val = rnd.opsImpl.Add(val, one)
+			}
+		} else {
+			// negative, round up/down
+			if rnd.opsImpl.less(remainder, rnd.negHalfMult) {
+				val = rnd.opsImpl.Sub(val, one)
+			}
+		}
+	} else {
+		// manually implement rounding since we're not actually rounding
+		// a decimal value, but rather manipulating the multiple
+		switch rnd.mode {
+		case RoundDown:
+			if rnd.opsImpl.Sign(remainder) < 0 {
+				val = rnd.opsImpl.Sub(val, one)
+			}
+		case RoundUp:
+			if rnd.opsImpl.Sign(remainder) >= 0 {
+				val = rnd.opsImpl.Add(val, one)
+			}
+		case TowardsZero:
+		case AwayFromZero:
+			if rnd.opsImpl.Sign(remainder) >= 0 {
+				val = rnd.opsImpl.Add(val, one)
+			} else {
+				val = rnd.opsImpl.Sub(val, one)
+			}
+		}
+	}
+
+	roundVal := rnd.opsImpl.Mul(val, rnd.mult)
+	if !rnd.opsImpl.fitsInPrec(roundVal, rnd.ty.GetPrecision()) {
+		*e = fmt.Errorf("%w: rounded value %s does not fit in precision of %s",
+			arrow.ErrInvalid, rnd.opsImpl.str(roundVal, rnd.ty.GetScale()), rnd.ty)
+		return def
+	}
+	return roundVal
+}
+
+func UnaryRoundExec(ty arrow.Type) exec.ArrayKernelExec {
+	switch ty {
+	case arrow.FLOAT32:
+		return roundKernelFloating[float32]
+	case arrow.FLOAT64:
+		return roundKernelFloating[float64]
+	case arrow.DECIMAL128:
+		return getRoundKernelDecimal[decimal128.Num]()
+	case arrow.DECIMAL256:
+		return getRoundKernelDecimal[decimal256.Num]()
+	}
+	panic("should never get here")
+}
+
+func UnaryRoundToMultipleExec(ty arrow.Type) exec.ArrayKernelExec {
+	switch ty {
+	case arrow.FLOAT32:
+		return roundToMultipleFloating[float32]
+	case arrow.FLOAT64:
+		return roundToMultipleFloating[float64]
+	case arrow.DECIMAL128:
+		return getRoundToMultipleKernelDecimal[decimal128.Num]()
+	case arrow.DECIMAL256:
+		return getRoundToMultipleKernelDecimal[decimal256.Num]()
+	}
+	panic("should never get here")
+}
+
+func GetRoundUnaryKernels(init exec.KernelInitFn, knFn func(arrow.Type) exec.ArrayKernelExec) []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+	for _, ty := range []arrow.DataType{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float64,
+		&arrow.Decimal128Type{Precision: 1}, &arrow.Decimal256Type{Precision: 1}} {
+		tyID := ty.ID()
+
+		var out exec.OutputType
+		if arrow.IsDecimal(tyID) {
+			out = OutputFirstType
+		} else {
+			out = exec.NewOutputType(ty)
+		}
+
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewIDInput(tyID)}, out, knFn(tyID), init))
+	}
+
+	return append(kernels, NullExecKernel(1))
+}
+
+func GetSimpleRoundKernels(mode RoundMode) []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+	for _, ty := range floatingTypes {
+		var ex exec.ArrayKernelExec
+		switch ty.ID() {
+		case arrow.FLOAT32:
+			fn := getFloatRoundImpl[float32](mode)
+			ex = ScalarUnary(func(_ *exec.KernelCtx, in []float32, out []float32) error {
+				for i, v := range in {
+					out[i] = fn(v)
+				}
+				return nil
+			})
+		case arrow.FLOAT64:
+			fn := getFloatRoundImpl[float64](mode)
+			ex = ScalarUnary(func(_ *exec.KernelCtx, in []float64, out []float64) error {
+				for i, v := range in {
+					out[i] = fn(v)
+				}
+				return nil
+			})
+		}
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
+			ex, nil))
+	}
+	return append(kernels, NullExecKernel(1))
+}
+
+func fixedRoundDecimalExec[T decimal128.Num | decimal256.Num](opsImpl *roundDecImpl[T], mode RoundMode) exec.ArrayKernelExec {
+	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		rnd := roundDec[T]{
+			ty:      out.Type.(arrow.DecimalType),
+			mode:    mode,
+			opsImpl: opsImpl,
+			fn:      getDecRounding(mode, opsImpl),
+		}
+
+		rnd.pow = rnd.ty.GetScale() - int32(rnd.ndigits)
+		if rnd.pow < rnd.ty.GetPrecision() && rnd.pow >= 0 {
+			rnd.pow10 = opsImpl.scaleMultiplier(int(rnd.pow))
+			rnd.halfPow10 = opsImpl.halfScaleMultiplier(int(rnd.pow))
+			rnd.negHalfPow10 = opsImpl.Neg(rnd.halfPow10)
+		}
+
+		return ScalarUnaryNotNull(rnd.call)(ctx, batch, out)
+	}
+}
+
+func FixedRoundDecimalExec[T decimal128.Num | decimal256.Num](mode RoundMode) exec.ArrayKernelExec {
+	var def T
+	switch any(def).(type) {
+	case decimal128.Num:
+		return func() exec.ArrayKernelExec {
+			return fixedRoundDecimalExec(&roundDec128, mode)
+		}()
+	case decimal256.Num:
+		return func() exec.ArrayKernelExec {
+			return fixedRoundDecimalExec(&roundDec256, mode)
+		}()
+	}
+	panic("should never get here")
+}
diff --git a/go/arrow/compute/internal/kernels/roundmode_string.go b/go/arrow/compute/internal/kernels/roundmode_string.go
new file mode 100644
index 00000000000..87c6a6e74a8
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/roundmode_string.go
@@ -0,0 +1,34 @@
+// Code generated by "stringer -type=RoundMode"; DO NOT EDIT.
+
+//go:build go1.18
+
+package kernels
+
+import "strconv"
+
+func _() {
+	// An "invalid array index" compiler error signifies that the constant values have changed.
+	// Re-run the stringer command to generate them again.
+	var x [1]struct{}
+	_ = x[RoundDown-0]
+	_ = x[RoundUp-1]
+	_ = x[TowardsZero-2]
+	_ = x[AwayFromZero-3]
+	_ = x[HalfDown-4]
+	_ = x[HalfUp-5]
+	_ = x[HalfTowardsZero-6]
+	_ = x[HalfAwayFromZero-7]
+	_ = x[HalfToEven-8]
+	_ = x[HalfToOdd-9]
+}
+
+const _RoundMode_name = "RoundDownRoundUpTowardsZeroAwayFromZeroHalfDownHalfUpHalfTowardsZeroHalfAwayFromZeroHalfToEvenHalfToOdd"
+
+var _RoundMode_index = [...]uint8{0, 9, 16, 27, 39, 47, 53, 68, 84, 94, 103}
+
+func (i RoundMode) String() string {
+	if i < 0 || i >= RoundMode(len(_RoundMode_index)-1) {
+		return "RoundMode(" + strconv.FormatInt(int64(i), 10) + ")"
+	}
+	return _RoundMode_name[_RoundMode_index[i]:_RoundMode_index[i+1]]
+}
diff --git a/go/arrow/compute/internal/kernels/scalar_arithmetic.go b/go/arrow/compute/internal/kernels/scalar_arithmetic.go
new file mode 100644
index 00000000000..946e978bbb2
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/scalar_arithmetic.go
@@ -0,0 +1,412 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"fmt"
+	"time"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+)
+
+// scalar kernel that ignores (assumed all-null inputs) and returns null
+func NullToNullExec(_ *exec.KernelCtx, _ *exec.ExecSpan, _ *exec.ExecResult) error {
+	return nil
+}
+
+func NullExecKernel(nargs int) exec.ScalarKernel {
+	in := make([]exec.InputType, nargs)
+	for i := range in {
+		in[i] = exec.NewIDInput(arrow.NULL)
+	}
+	return exec.NewScalarKernel(in, exec.NewOutputType(arrow.Null), NullToNullExec, nil)
+}
+
+func GetArithmeticFunctionTimeDuration(op ArithmeticOp) []exec.ScalarKernel {
+	mult := (time.Hour * 24)
+	return []exec.ScalarKernel{exec.NewScalarKernel([]exec.InputType{
+		exec.NewExactInput(arrow.FixedWidthTypes.Time32s),
+		exec.NewExactInput(&arrow.DurationType{Unit: arrow.Second})}, OutputFirstType,
+		timeDurationOp[arrow.Time32, arrow.Time32, arrow.Duration](int64(mult.Seconds()), op), nil),
+		exec.NewScalarKernel([]exec.InputType{
+			exec.NewExactInput(arrow.FixedWidthTypes.Time32ms),
+			exec.NewExactInput(&arrow.DurationType{Unit: arrow.Millisecond})}, OutputFirstType,
+			timeDurationOp[arrow.Time32, arrow.Time32, arrow.Duration](int64(mult.Milliseconds()), op), nil),
+		exec.NewScalarKernel([]exec.InputType{
+			exec.NewExactInput(arrow.FixedWidthTypes.Time64us),
+			exec.NewExactInput(&arrow.DurationType{Unit: arrow.Microsecond})}, OutputFirstType,
+			timeDurationOp[arrow.Time64, arrow.Time64, arrow.Duration](int64(mult.Microseconds()), op), nil),
+		exec.NewScalarKernel([]exec.InputType{
+			exec.NewExactInput(arrow.FixedWidthTypes.Time64ns),
+			exec.NewExactInput(&arrow.DurationType{Unit: arrow.Nanosecond})}, OutputFirstType,
+			timeDurationOp[arrow.Time64, arrow.Time64, arrow.Duration](int64(mult.Nanoseconds()), op), nil)}
+}
+
+func GetDecimalBinaryKernels(op ArithmeticOp) []exec.ScalarKernel {
+	var outType exec.OutputType
+	switch op {
+	case OpAdd, OpSub, OpAddChecked, OpSubChecked:
+		outType = exec.NewComputedOutputType(resolveDecimalAddOrSubtractType)
+	case OpMul, OpMulChecked:
+		outType = exec.NewComputedOutputType(resolveDecimalMultiplyOutput)
+	case OpDiv, OpDivChecked:
+		outType = exec.NewComputedOutputType(resolveDecimalDivideOutput)
+	}
+
+	in128, in256 := exec.NewIDInput(arrow.DECIMAL128), exec.NewIDInput(arrow.DECIMAL256)
+	exec128, exec256 := getArithmeticDecimal[decimal128.Num](op), getArithmeticDecimal[decimal256.Num](op)
+	return []exec.ScalarKernel{
+		exec.NewScalarKernel([]exec.InputType{in128, in128}, outType, exec128, nil),
+		exec.NewScalarKernel([]exec.InputType{in256, in256}, outType, exec256, nil),
+	}
+}
+
+func GetArithmeticBinaryKernels(op ArithmeticOp) []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+	for _, ty := range numericTypes {
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(ty), exec.NewExactInput(ty)},
+			exec.NewOutputType(ty), ArithmeticExecSameType(ty.ID(), op), nil))
+	}
+
+	return append(kernels, NullExecKernel(2))
+}
+
+func GetDecimalUnaryKernels(op ArithmeticOp) []exec.ScalarKernel {
+	outType := OutputFirstType
+	in128 := exec.NewIDInput(arrow.DECIMAL128)
+	in256 := exec.NewIDInput(arrow.DECIMAL256)
+
+	exec128, exec256 := getArithmeticDecimal[decimal128.Num](op), getArithmeticDecimal[decimal256.Num](op)
+	return []exec.ScalarKernel{
+		exec.NewScalarKernel([]exec.InputType{in128}, outType, exec128, nil),
+		exec.NewScalarKernel([]exec.InputType{in256}, outType, exec256, nil),
+	}
+}
+
+func GetArithmeticUnaryKernels(op ArithmeticOp) []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+	for _, ty := range numericTypes {
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
+			ArithmeticExec(ty.ID(), ty.ID(), op), nil))
+	}
+
+	return append(kernels, NullExecKernel(1))
+}
+
+func GetArithmeticUnarySignedKernels(op ArithmeticOp) []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+	for _, ty := range append(signedIntTypes, floatingTypes...) {
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
+			ArithmeticExec(ty.ID(), ty.ID(), op), nil))
+	}
+
+	return append(kernels, NullExecKernel(1))
+}
+
+func GetArithmeticUnaryFloatingPointKernels(op ArithmeticOp) []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+	for _, ty := range floatingTypes {
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
+			ArithmeticExec(ty.ID(), ty.ID(), op), nil))
+	}
+
+	return append(kernels, NullExecKernel(1))
+}
+
+func GetArithmeticFloatingPointKernels(op ArithmeticOp) []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+	for _, ty := range floatingTypes {
+		in := exec.NewExactInput(ty)
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{in, in}, exec.NewOutputType(ty),
+			ArithmeticExecSameType(ty.ID(), op), nil))
+	}
+
+	return append(kernels, NullExecKernel(2))
+}
+
+func GetArithmeticUnaryFixedIntOutKernels(otype arrow.DataType, op ArithmeticOp) []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+
+	out := exec.NewOutputType(otype)
+	for _, ty := range numericTypes {
+		otype := otype
+		out := out
+		if arrow.IsFloating(ty.ID()) {
+			otype = ty
+			out = exec.NewOutputType(ty)
+		}
+
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(ty)}, out,
+			ArithmeticExec(ty.ID(), otype.ID(), op), nil))
+	}
+
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL128)},
+		exec.NewOutputType(arrow.PrimitiveTypes.Int64),
+		getArithmeticDecimal[decimal128.Num](op), nil))
+	kernels = append(kernels, exec.NewScalarKernel(
+		[]exec.InputType{exec.NewIDInput(arrow.DECIMAL256)},
+		exec.NewOutputType(arrow.PrimitiveTypes.Int64),
+		getArithmeticDecimal[decimal256.Num](op), nil))
+
+	return append(kernels, NullExecKernel(1))
+}
+
+type BitwiseOp int8
+
+const (
+	OpBitAnd BitwiseOp = iota
+	OpBitOr
+	OpBitXor
+)
+
+func bitwiseKernelOp(op BitwiseOp) exec.ArrayKernelExec {
+	var fn func([]byte, []byte, int64, int64, []byte, int64, int64)
+	switch op {
+	case OpBitOr:
+		fn = bitutil.BitmapOr
+	case OpBitAnd:
+		fn = bitutil.BitmapAnd
+	case OpBitXor:
+		fn = bitutil.BitmapXor
+	}
+
+	arrayArray := func(left, right *exec.ArraySpan, out *exec.ExecResult) error {
+		bits := int64(left.Type.(arrow.FixedWidthDataType).BitWidth())
+		fn(left.Buffers[1].Buf, right.Buffers[1].Buf,
+			bits*left.Offset, bits*right.Offset,
+			out.Buffers[1].Buf, bits*out.Offset, bits*left.Len)
+		return nil
+	}
+
+	arrayScalar := func(arr *exec.ArraySpan, sc scalar.Scalar, out *exec.ExecResult) error {
+		if !sc.IsValid() {
+			// no work to be done, everything is null
+			return nil
+		}
+
+		val := sc.(scalar.PrimitiveScalar).Data()
+		byteWidth := int64(len(val))
+		bitWidth := byteWidth * 8
+		arrBuf := arr.Buffers[1].Buf[byteWidth*arr.Offset:]
+		outBuf := out.Buffers[1].Buf[byteWidth*out.Offset:]
+
+		for i := int64(0); i < arr.Len; i++ {
+			fn(arrBuf, val, 0, 0, outBuf, 0, bitWidth)
+			arrBuf, outBuf = arrBuf[byteWidth:], outBuf[byteWidth:]
+		}
+		return nil
+	}
+
+	return func(_ *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		if batch.Values[0].IsArray() {
+			if batch.Values[1].IsArray() {
+				return arrayArray(&batch.Values[0].Array, &batch.Values[1].Array, out)
+			}
+			return arrayScalar(&batch.Values[0].Array, batch.Values[1].Scalar, out)
+		}
+
+		if batch.Values[1].IsArray() {
+			return arrayScalar(&batch.Values[1].Array, batch.Values[0].Scalar, out)
+		}
+
+		debug.Assert(false, "should be unreachable")
+		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
+	}
+}
+
+func GetBitwiseBinaryKernels(op BitwiseOp) []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+	for _, ty := range intTypes {
+		ex := bitwiseKernelOp(op)
+		inType := exec.NewExactInput(ty)
+		kernels = append(kernels, exec.NewScalarKernel([]exec.InputType{
+			inType, inType}, exec.NewOutputType(ty), ex, nil))
+	}
+	return append(kernels, NullExecKernel(2))
+}
+
+func bitwiseNot[T exec.IntTypes | exec.UintTypes](_ *exec.KernelCtx, arg T, _ *error) T {
+	return ^arg
+}
+
+func getBitwiseNotExec(ty arrow.DataType) exec.ArrayKernelExec {
+	switch ty.ID() {
+	case arrow.INT8, arrow.UINT8:
+		return ScalarUnaryNotNull(bitwiseNot[uint8])
+	case arrow.INT16, arrow.UINT16:
+		return ScalarUnaryNotNull(bitwiseNot[uint16])
+	case arrow.INT32, arrow.UINT32:
+		return ScalarUnaryNotNull(bitwiseNot[uint32])
+	case arrow.INT64, arrow.UINT64:
+		return ScalarUnaryNotNull(bitwiseNot[uint64])
+	}
+	panic("only integral types for bitwise not kernels")
+}
+
+func GetBitwiseUnaryKernels() []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+	for _, ty := range intTypes {
+		ex := getBitwiseNotExec(ty)
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(ty)}, exec.NewOutputType(ty),
+			ex, nil))
+	}
+	return append(kernels, NullExecKernel(1))
+}
+
+type ShiftDir int8
+
+const (
+	ShiftLeft ShiftDir = iota
+	ShiftRight
+)
+
+func shiftKernelSignedImpl[T exec.IntTypes, Unsigned exec.UintTypes](dir ShiftDir, checked bool) exec.ArrayKernelExec {
+	errShift := fmt.Errorf("%w: shift amount must be >= 0 and less than precision of type", arrow.ErrInvalid)
+	maxShift := T(8*SizeOf[T]() - 1)
+
+	switch dir {
+	case ShiftLeft:
+		if checked {
+			return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
+				if rhs < 0 || rhs >= maxShift {
+					*e = errShift
+					return lhs
+				}
+				return T(Unsigned(lhs) << Unsigned(rhs))
+			})
+		}
+
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, _ *error) T {
+			if rhs < 0 || rhs >= maxShift {
+				return lhs
+			}
+
+			return T(Unsigned(lhs) << Unsigned(rhs))
+		})
+	case ShiftRight:
+		if checked {
+			return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
+				if rhs < 0 || rhs >= maxShift {
+					*e = errShift
+					return lhs
+				}
+				return lhs >> rhs
+			})
+		}
+
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
+			if rhs < 0 || rhs >= maxShift {
+				return lhs
+			}
+			return lhs >> rhs
+		})
+	}
+	return nil
+}
+
+func shiftKernelUnsignedImpl[T exec.UintTypes](dir ShiftDir, checked bool) exec.ArrayKernelExec {
+	errShift := fmt.Errorf("%w: shift amount must be >= 0 and less than precision of type", arrow.ErrInvalid)
+	maxShift := T(8 * SizeOf[T]())
+
+	switch dir {
+	case ShiftLeft:
+		if checked {
+			return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
+				if rhs < 0 || rhs >= maxShift {
+					*e = errShift
+					return lhs
+				}
+				return lhs << rhs
+			})
+		}
+
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, _ *error) T {
+			if rhs < 0 || rhs >= maxShift {
+				return lhs
+			}
+			return lhs << rhs
+		})
+	case ShiftRight:
+		if checked {
+			return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, e *error) T {
+				if rhs < 0 || rhs >= maxShift {
+					*e = errShift
+					return lhs
+				}
+				return lhs >> rhs
+			})
+		}
+
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, lhs, rhs T, _ *error) T {
+			if rhs < 0 || rhs >= maxShift {
+				return lhs
+			}
+			return lhs >> rhs
+		})
+	}
+	return nil
+}
+
+func shiftKernel(dir ShiftDir, checked bool, ty arrow.Type) exec.ArrayKernelExec {
+	switch ty {
+	case arrow.INT8:
+		return shiftKernelSignedImpl[int8, uint8](dir, checked)
+	case arrow.UINT8:
+		return shiftKernelUnsignedImpl[uint8](dir, checked)
+	case arrow.INT16:
+		return shiftKernelSignedImpl[int16, uint16](dir, checked)
+	case arrow.UINT16:
+		return shiftKernelUnsignedImpl[uint16](dir, checked)
+	case arrow.INT32:
+		return shiftKernelSignedImpl[int32, uint32](dir, checked)
+	case arrow.UINT32:
+		return shiftKernelUnsignedImpl[uint32](dir, checked)
+	case arrow.INT64:
+		return shiftKernelSignedImpl[int64, uint64](dir, checked)
+	case arrow.UINT64:
+		return shiftKernelUnsignedImpl[uint64](dir, checked)
+	}
+	panic("invalid type for shift kernels")
+}
+
+func GetShiftKernels(dir ShiftDir, checked bool) []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+	for _, ty := range intTypes {
+		inType := exec.NewExactInput(ty)
+		ex := shiftKernel(dir, checked, ty.ID())
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{inType, inType}, exec.NewOutputType(ty),
+			ex, nil))
+	}
+	return append(kernels, NullExecKernel(2))
+}
diff --git a/go/arrow/compute/internal/kernels/scalar_boolean.go b/go/arrow/compute/internal/kernels/scalar_boolean.go
new file mode 100644
index 00000000000..4e02077aeb9
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/scalar_boolean.go
@@ -0,0 +1,334 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+)
+
+type computeWordFN func(leftTrue, leftFalse, rightTrue, rightFalse uint64) (outValid, outData uint64)
+
+func computeKleene(computeWord computeWordFN, ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
+	var (
+		inBMs = [4]bitutil.Bitmap{
+			{Data: left.Buffers[0].Buf, Offset: left.Offset, Len: left.Len},
+			{Data: left.Buffers[1].Buf, Offset: left.Offset, Len: left.Len},
+			{Data: right.Buffers[1].Buf, Offset: right.Offset, Len: right.Len},
+			{Data: right.Buffers[0].Buf, Offset: right.Offset, Len: right.Len},
+		}
+		outBMs = [2]bitutil.Bitmap{
+			{Data: out.Buffers[0].Buf, Offset: out.Offset, Len: out.Len},
+			{Data: out.Buffers[1].Buf, Offset: out.Offset, Len: out.Len},
+		}
+		apply = func(leftValid, leftData uint64, rightValid, rightData uint64) (outValidity, outData uint64) {
+			leftTrue, leftFalse := leftValid&leftData, leftValid&^leftData
+			rightTrue, rightFalse := rightValid&rightData, rightValid&^rightData
+			return computeWord(leftTrue, leftFalse, rightTrue, rightFalse)
+		}
+	)
+
+	switch {
+	case right.UpdateNullCount() == 0:
+		return bitutil.VisitWordsAndWrite(inBMs[:3], outBMs[:],
+			func(in, out []uint64) {
+				out[0], out[1] = apply(in[0], in[1], ^uint64(0), in[2])
+			})
+	case left.UpdateNullCount() == 0:
+		return bitutil.VisitWordsAndWrite(inBMs[1:], outBMs[:],
+			func(in, out []uint64) {
+				out[0], out[1] = apply(^uint64(0), in[0], in[2], in[1])
+			})
+	default:
+		return bitutil.VisitWordsAndWrite(inBMs[:], outBMs[:],
+			func(in, out []uint64) {
+				out[0], out[1] = apply(in[0], in[1], in[3], in[2])
+			})
+	}
+}
+
+type AndOpKernel struct {
+	commutativeBinaryKernel[AndOpKernel]
+}
+
+func (AndOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
+	bitutil.BitmapAnd(left.Buffers[1].Buf, right.Buffers[1].Buf,
+		left.Offset, right.Offset, out.Buffers[1].Buf, out.Offset, left.Len)
+	return nil
+}
+
+func (AndOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
+	if !left.IsValid() {
+		return nil
+	}
+
+	outBM := out.Buffers[1].Buf
+	if left.(*scalar.Boolean).Value {
+		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset),
+			int(right.Len), outBM, int(out.Offset))
+	} else {
+		bitutil.SetBitsTo(outBM, out.Offset, out.Len, false)
+	}
+	return nil
+}
+
+type KleeneAndOpKernel struct {
+	commutativeBinaryKernel[KleeneAndOpKernel]
+}
+
+func (KleeneAndOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
+	if left.UpdateNullCount() == 0 && right.UpdateNullCount() == 0 {
+		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
+		out.Nulls = 0
+		return (AndOpKernel{}).Call(ctx, left, right, out)
+	}
+
+	computeWord := func(leftTrue, leftFalse, rightTrue, rightFalse uint64) (outValid, outData uint64) {
+		return leftFalse | rightFalse | (leftTrue & rightTrue), leftTrue & rightTrue
+	}
+	return computeKleene(computeWord, ctx, left, right, out)
+}
+
+func (KleeneAndOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
+	var (
+		leftTrue  = left.IsValid() && left.(*scalar.Boolean).Value
+		leftFalse = left.IsValid() && !left.(*scalar.Boolean).Value
+	)
+
+	switch {
+	case leftFalse:
+		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
+		out.Nulls = 0
+		bitutil.SetBitsTo(out.Buffers[1].Buf, out.Offset, out.Len, false)
+	case leftTrue:
+		if right.UpdateNullCount() == 0 {
+			bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
+			out.Nulls = 0
+		} else {
+			bitutil.CopyBitmap(right.Buffers[0].Buf, int(right.Offset), int(right.Len),
+				out.Buffers[0].Buf, int(out.Offset))
+		}
+		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
+			out.Buffers[1].Buf, int(out.Offset))
+	default: // scalar was null: out[i] is valid iff right[i] was false
+		if right.UpdateNullCount() == 0 {
+			bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
+				out.Buffers[0].Buf, int(out.Offset))
+		} else {
+			bitutil.BitmapAndNot(right.Buffers[0].Buf, right.Buffers[1].Buf, right.Offset,
+				right.Offset, out.Buffers[0].Buf, out.Offset, right.Len)
+		}
+		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
+			out.Buffers[1].Buf, int(out.Offset))
+	}
+	return nil
+}
+
+type OrOpKernel struct {
+	commutativeBinaryKernel[OrOpKernel]
+}
+
+func (OrOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
+	bitutil.BitmapOr(left.Buffers[1].Buf, right.Buffers[1].Buf,
+		left.Offset, right.Offset, out.Buffers[1].Buf, out.Offset, left.Len)
+	return nil
+}
+
+func (OrOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
+	if !left.IsValid() {
+		return nil
+	}
+
+	outBM := out.Buffers[1].Buf
+	if left.(*scalar.Boolean).Value {
+		bitutil.SetBitsTo(outBM, out.Offset, out.Len, true)
+	} else {
+		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset),
+			int(right.Len), outBM, int(out.Offset))
+	}
+	return nil
+}
+
+type KleeneOrOpKernel struct {
+	commutativeBinaryKernel[KleeneOrOpKernel]
+}
+
+func (KleeneOrOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
+	if left.UpdateNullCount() == 0 && right.UpdateNullCount() == 0 {
+		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
+		out.Nulls = 0
+		return (OrOpKernel{}).Call(ctx, left, right, out)
+	}
+
+	computeWord := func(leftTrue, leftFalse, rightTrue, rightFalse uint64) (outValid, outData uint64) {
+		return leftTrue | rightTrue | (leftFalse & rightFalse), leftTrue | rightTrue
+	}
+	return computeKleene(computeWord, ctx, left, right, out)
+}
+
+func (KleeneOrOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
+	var (
+		leftTrue  = left.IsValid() && left.(*scalar.Boolean).Value
+		leftFalse = left.IsValid() && !left.(*scalar.Boolean).Value
+	)
+
+	switch {
+	case leftTrue:
+		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
+		out.Nulls = 0
+		bitutil.SetBitsTo(out.Buffers[1].Buf, out.Offset, out.Len, true) // all true case
+	case leftFalse:
+		if right.UpdateNullCount() == 0 {
+			bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
+			out.Nulls = 0
+		} else {
+			bitutil.CopyBitmap(right.Buffers[0].Buf, int(right.Offset), int(right.Len),
+				out.Buffers[0].Buf, int(out.Offset))
+		}
+		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
+			out.Buffers[1].Buf, int(out.Offset))
+	default: // scalar was null: out[i] is valid iff right[i] was true
+		if right.UpdateNullCount() == 0 {
+			bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
+				out.Buffers[0].Buf, int(out.Offset))
+		} else {
+			bitutil.BitmapAnd(right.Buffers[0].Buf, right.Buffers[1].Buf, right.Offset,
+				right.Offset, out.Buffers[0].Buf, out.Offset, right.Len)
+		}
+		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
+			out.Buffers[1].Buf, int(out.Offset))
+	}
+	return nil
+}
+
+type XorOpKernel struct {
+	commutativeBinaryKernel[XorOpKernel]
+}
+
+func (XorOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
+	bitutil.BitmapXor(left.Buffers[1].Buf, right.Buffers[1].Buf,
+		left.Offset, right.Offset, out.Buffers[1].Buf, out.Offset, out.Len)
+	return nil
+}
+
+func (XorOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
+	if !left.IsValid() {
+		return nil
+	}
+
+	outBM := out.Buffers[1].Buf
+	if left.(*scalar.Boolean).Value {
+		bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
+			outBM, int(out.Offset))
+	} else {
+		bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
+			outBM, int(out.Offset))
+	}
+	return nil
+}
+
+func invertScalar(in scalar.Scalar) *scalar.Boolean {
+	if in.IsValid() {
+		return scalar.NewBooleanScalar(!in.(*scalar.Boolean).Value)
+	}
+	return in.(*scalar.Boolean)
+}
+
+type AndNotOpKernel struct{}
+
+func (AndNotOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
+	bitutil.BitmapAndNot(left.Buffers[1].Buf, right.Buffers[1].Buf, left.Offset, right.Offset,
+		out.Buffers[1].Buf, out.Offset, right.Len)
+	return nil
+}
+
+func (AndNotOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
+	if !left.IsValid() {
+		return nil
+	}
+
+	outBM := out.Buffers[1].Buf
+	if left.(*scalar.Boolean).Value {
+		bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
+			outBM, int(out.Offset))
+	} else {
+		bitutil.SetBitsTo(outBM, out.Offset, out.Len, false)
+	}
+	return nil
+}
+
+func (AndNotOpKernel) CallScalarRight(ctx *exec.KernelCtx, left *exec.ArraySpan, right scalar.Scalar, out *exec.ExecResult) error {
+	return (AndOpKernel{}).CallScalarRight(ctx, left, invertScalar(right), out)
+}
+
+type KleeneAndNotOpKernel struct{}
+
+func (KleeneAndNotOpKernel) Call(ctx *exec.KernelCtx, left, right *exec.ArraySpan, out *exec.ExecResult) error {
+	if left.UpdateNullCount() == 0 && right.UpdateNullCount() == 0 {
+		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
+		out.Nulls = 0
+		return (AndNotOpKernel{}).Call(ctx, left, right, out)
+	}
+
+	computeWord := func(leftTrue, leftFalse, rightTrue, rightFalse uint64) (outValid, outData uint64) {
+		return leftFalse | rightTrue | (leftTrue & rightFalse), leftTrue & rightFalse
+	}
+
+	return computeKleene(computeWord, ctx, left, right, out)
+}
+
+func (KleeneAndNotOpKernel) CallScalarLeft(ctx *exec.KernelCtx, left scalar.Scalar, right *exec.ArraySpan, out *exec.ExecResult) error {
+	var (
+		leftTrue  = left.IsValid() && left.(*scalar.Boolean).Value
+		leftFalse = left.IsValid() && !left.(*scalar.Boolean).Value
+	)
+
+	switch {
+	case leftFalse:
+		bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
+		out.Nulls = 0
+		bitutil.SetBitsTo(out.Buffers[1].Buf, out.Offset, out.Len, false)
+	case leftTrue:
+		if right.UpdateNullCount() == 0 {
+			bitutil.SetBitsTo(out.Buffers[0].Buf, out.Offset, out.Len, true)
+			out.Nulls = 0
+		} else {
+			bitutil.CopyBitmap(right.Buffers[0].Buf, int(right.Offset), int(right.Len),
+				out.Buffers[0].Buf, int(out.Offset))
+		}
+		bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
+			out.Buffers[1].Buf, int(out.Offset))
+	default: // scalar was null: out[i] is valid iff right[i] was true
+		if right.UpdateNullCount() == 0 {
+			bitutil.CopyBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
+				out.Buffers[0].Buf, int(out.Offset))
+		} else {
+			bitutil.BitmapAnd(right.Buffers[0].Buf, right.Buffers[1].Buf, right.Offset, right.Offset,
+				out.Buffers[0].Buf, out.Offset, right.Len)
+		}
+		bitutil.InvertBitmap(right.Buffers[1].Buf, int(right.Offset), int(right.Len),
+			out.Buffers[1].Buf, int(out.Offset))
+	}
+	return nil
+}
+
+func (KleeneAndNotOpKernel) CallScalarRight(ctx *exec.KernelCtx, left *exec.ArraySpan, right scalar.Scalar, out *exec.ExecResult) error {
+	return (KleeneAndOpKernel{}).CallScalarRight(ctx, left, invertScalar(right), out)
+}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_amd64.go b/go/arrow/compute/internal/kernels/scalar_comparison_amd64.go
new file mode 100644
index 00000000000..c0e82b9cc08
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/scalar_comparison_amd64.go
@@ -0,0 +1,110 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && !noasm
+
+package kernels
+
+import (
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"golang.org/x/sys/cpu"
+)
+
+var pureGo bool
+
+type cmpfn func(arrow.Type, []byte, []byte, []byte, int64, int)
+
+var comparisonMap map[CompareOperator][3]cmpfn
+
+func genCompareKernel[T exec.NumericTypes](op CompareOperator) *CompareData {
+	if pureGo {
+		return genGoCompareKernel(getCmpOp[T](op))
+	}
+
+	ty := exec.GetType[T]()
+	byteWidth := int(unsafe.Sizeof(T(0)))
+	comparisonFns := comparisonMap[op]
+	return &CompareData{
+		funcAA: func(left, right, out []byte, offset int) {
+			length := int64(len(left) / byteWidth)
+			comparisonFns[0](ty, left, right, out, length, offset)
+		},
+		funcAS: func(left, right, out []byte, offset int) {
+			length := int64(len(left) / byteWidth)
+			comparisonFns[1](ty, left, right, out, length, offset)
+		},
+		funcSA: func(left, right, out []byte, offset int) {
+			length := int64(len(right) / byteWidth)
+			comparisonFns[2](ty, left, right, out, length, offset)
+		},
+	}
+}
+
+func init() {
+	if cpu.X86.HasAVX2 {
+		comparisonMap = map[CompareOperator][3]cmpfn{
+			CmpEQ: {
+				comparisonEqualArrArrAvx2,
+				comparisonEqualArrScalarAvx2,
+				comparisonEqualScalarArrAvx2,
+			},
+			CmpNE: {
+				comparisonNotEqualArrArrAvx2,
+				comparisonNotEqualArrScalarAvx2,
+				comparisonNotEqualScalarArrAvx2,
+			},
+			CmpGT: {
+				comparisonGreaterArrArrAvx2,
+				comparisonGreaterArrScalarAvx2,
+				comparisonGreaterScalarArrAvx2,
+			},
+			CmpGE: {
+				comparisonGreaterEqualArrArrAvx2,
+				comparisonGreaterEqualArrScalarAvx2,
+				comparisonGreaterEqualScalarArrAvx2,
+			},
+		}
+
+	} else if cpu.X86.HasSSE42 {
+		comparisonMap = map[CompareOperator][3]cmpfn{
+			CmpEQ: {
+				comparisonEqualArrArrSSE4,
+				comparisonEqualArrScalarSSE4,
+				comparisonEqualScalarArrSSE4,
+			},
+			CmpNE: {
+				comparisonNotEqualArrArrSSE4,
+				comparisonNotEqualArrScalarSSE4,
+				comparisonNotEqualScalarArrSSE4,
+			},
+			CmpGT: {
+				comparisonGreaterArrArrSSE4,
+				comparisonGreaterArrScalarSSE4,
+				comparisonGreaterScalarArrSSE4,
+			},
+			CmpGE: {
+				comparisonGreaterEqualArrArrSSE4,
+				comparisonGreaterEqualArrScalarSSE4,
+				comparisonGreaterEqualScalarArrSSE4,
+			},
+		}
+	} else {
+		pureGo = true
+	}
+}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.go b/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.go
new file mode 100644
index 00000000000..465480e63c3
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.go
@@ -0,0 +1,109 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && !noasm
+
+package kernels
+
+import (
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+)
+
+//go:noescape
+func _comparison_equal_arr_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonEqualArrArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_equal_arr_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_equal_arr_scalar_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonEqualArrScalarAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_equal_arr_scalar_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_equal_scalar_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonEqualScalarArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_equal_scalar_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_not_equal_arr_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonNotEqualArrArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_not_equal_arr_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_not_equal_arr_scalar_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonNotEqualArrScalarAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_not_equal_arr_scalar_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_not_equal_scalar_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonNotEqualScalarArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_not_equal_scalar_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_greater_arr_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonGreaterArrArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_greater_arr_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_greater_arr_scalar_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonGreaterArrScalarAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_greater_arr_scalar_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_greater_scalar_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonGreaterScalarArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_greater_scalar_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_greater_equal_arr_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonGreaterEqualArrArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_greater_equal_arr_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_greater_equal_arr_scalar_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonGreaterEqualArrScalarAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_greater_equal_arr_scalar_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_greater_equal_scalar_arr_avx2(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonGreaterEqualScalarArrAvx2(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_greater_equal_scalar_arr_avx2(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.s b/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.s
new file mode 100644
index 00000000000..bfc999b808a
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/scalar_comparison_avx2_amd64.s
@@ -0,0 +1,67310 @@
+//go:build go1.18 && !noasm && !appengine
+// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
+
+TEXT ·_comparison_equal_arr_arr_avx2(SB), $80-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	ADDQ $8, SP
+
+	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
+	WORD $0x8949; BYTE $0xce // mov    r14, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_29
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_2
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_68
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_79
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_22
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_20:
+	WORD $0x0e8b                 // mov    ecx, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_20
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_22:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_26
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB0_24:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd5940f41                           // sete    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd3940f41                           // sete    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd7940f41                           // sete    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd2940f41                           // sete    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd6940f41                           // sete    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd4940f41                           // sete    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd1940f41                           // sete    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB0_24
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB0_26:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_28:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_28
+	JMP  LBB0_123
+
+LBB0_29:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_30
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_101
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_112
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_50
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_48:
+	LONG $0x0610fbc5             // vmovsd    xmm0, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_48
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_50:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_54
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB0_52:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x0610fbc5                           // vmovsd    xmm0, qword [rsi]
+	LONG $0x4e10fbc5; BYTE $0x08               // vmovsd    xmm1, qword [rsi + 8]
+	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
+	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
+	LONG $0x4a2ef9c5; BYTE $0x08               // vucomisd    xmm1, qword [rdx + 8]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x4610fbc5; BYTE $0x10               // vmovsd    xmm0, qword [rsi + 16]
+	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
+	LONG $0x4610fbc5; BYTE $0x18               // vmovsd    xmm0, qword [rsi + 24]
+	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
+	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
+	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
+	LONG $0x4610fbc5; BYTE $0x20               // vmovsd    xmm0, qword [rsi + 32]
+	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
+	LONG $0x4610fbc5; BYTE $0x28               // vmovsd    xmm0, qword [rsi + 40]
+	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
+	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
+	LONG $0x4610fbc5; BYTE $0x30               // vmovsd    xmm0, qword [rsi + 48]
+	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
+	LONG $0x4610fbc5; BYTE $0x38               // vmovsd    xmm0, qword [rsi + 56]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x4610fbc5; BYTE $0x40               // vmovsd    xmm0, qword [rsi + 64]
+	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
+	LONG $0x4610fbc5; BYTE $0x48               // vmovsd    xmm0, qword [rsi + 72]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x4610fbc5; BYTE $0x50               // vmovsd    xmm0, qword [rsi + 80]
+	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
+	LONG $0x4610fbc5; BYTE $0x58               // vmovsd    xmm0, qword [rsi + 88]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x4610fbc5; BYTE $0x60               // vmovsd    xmm0, qword [rsi + 96]
+	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
+	LONG $0x4610fbc5; BYTE $0x68               // vmovsd    xmm0, qword [rsi + 104]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
+	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
+	LONG $0x4610fbc5; BYTE $0x70               // vmovsd    xmm0, qword [rsi + 112]
+	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
+	LONG $0x4610fbc5; BYTE $0x78               // vmovsd    xmm0, qword [rsi + 120]
+	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
+	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	QUAD $0x000000808610fbc5                   // vmovsd    xmm0, qword [rsi + 128]
+	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
+	QUAD $0x000000888610fbc5                   // vmovsd    xmm0, qword [rsi + 136]
+	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
+	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
+	QUAD $0x000000908610fbc5                   // vmovsd    xmm0, qword [rsi + 144]
+	LONG $0xd6940f41                           // sete    r14b
+	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
+	QUAD $0x000000988610fbc5                   // vmovsd    xmm0, qword [rsi + 152]
+	LONG $0xd4940f41                           // sete    r12b
+	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
+	QUAD $0x000000a08610fbc5                   // vmovsd    xmm0, qword [rsi + 160]
+	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
+	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
+	QUAD $0x000000a88610fbc5                   // vmovsd    xmm0, qword [rsi + 168]
+	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
+	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
+	QUAD $0x000000b08610fbc5                   // vmovsd    xmm0, qword [rsi + 176]
+	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
+	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
+	QUAD $0x000000b88610fbc5                   // vmovsd    xmm0, qword [rsi + 184]
+	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
+	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
+	QUAD $0x000000c08610fbc5                   // vmovsd    xmm0, qword [rsi + 192]
+	LONG $0xd0940f41                           // sete    r8b
+	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
+	QUAD $0x000000c88610fbc5                   // vmovsd    xmm0, qword [rsi + 200]
+	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
+	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
+	QUAD $0x000000d08610fbc5                   // vmovsd    xmm0, qword [rsi + 208]
+	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
+	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
+	QUAD $0x000000d88610fbc5                   // vmovsd    xmm0, qword [rsi + 216]
+	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
+	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
+	QUAD $0x000000e08610fbc5                   // vmovsd    xmm0, qword [rsi + 224]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
+	QUAD $0x000000e88610fbc5                   // vmovsd    xmm0, qword [rsi + 232]
+	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
+	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
+	QUAD $0x000000f08610fbc5                   // vmovsd    xmm0, qword [rsi + 240]
+	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
+	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
+	QUAD $0x000000f88610fbc5                   // vmovsd    xmm0, qword [rsi + 248]
+	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
+	LONG $0xd7940f40                           // sete    dil
+	WORD $0xc000                               // add    al, al
+	LONG $0x04244402                           // add    al, byte [rsp + 4]
+	LONG $0x06e5c041                           // shl    r13b, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
+	LONG $0x06e1c041                           // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB0_52
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB0_54:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_56:
+	LONG $0x0410fbc5; BYTE $0xce // vmovsd    xmm0, qword [rsi + 8*rcx]
+	LONG $0x042ef9c5; BYTE $0xca // vucomisd    xmm0, qword [rdx + 8*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_56
+	JMP  LBB0_123
+
+LBB0_2:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_57
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_8
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_6:
+	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x0a3a                 // cmp    cl, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_6
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_8:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_12
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB0_10:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x940f; BYTE $0xd1       // sete    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd7940f41               // sete    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd7940f40               // sete    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd2940f41               // sete    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd3940f41               // sete    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd6940f41               // sete    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x940f; BYTE $0xd3       // sete    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd4940f41               // sete    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd5940f41               // sete    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd1940f41               // sete    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd0940f41               // sete    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB0_10
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB0_12:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_14:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
+	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_14
+	JMP  LBB0_123
+
+LBB0_30:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_90
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_36
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_34:
+	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_34
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_36:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_40
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB0_38:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB0_38
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB0_40:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_42:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
+	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_42
+	JMP  LBB0_123
+
+LBB0_68:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_72
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_70:
+	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_70
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_72:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_76
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB0_74:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x2454940f; BYTE $0x20   // sete    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd5940f41               // sete    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd0940f41               // sete    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd3940f41               // sete    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd7940f41               // sete    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x940f; BYTE $0xd3       // sete    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd2940f41               // sete    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd6940f41               // sete    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd4940f41               // sete    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd1940f41               // sete    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd7940f40               // sete    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB0_74
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB0_76:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_78:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
+	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_78
+	JMP  LBB0_123
+
+LBB0_79:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_83
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_81:
+	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_81
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_83:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_87
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB0_85:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x2454940f; BYTE $0x20   // sete    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd5940f41               // sete    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd0940f41               // sete    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd3940f41               // sete    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd7940f41               // sete    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x940f; BYTE $0xd3       // sete    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd2940f41               // sete    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd6940f41               // sete    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd4940f41               // sete    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd1940f41               // sete    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd7940f40               // sete    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB0_85
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB0_87:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_89:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
+	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_89
+	JMP  LBB0_123
+
+LBB0_101:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_105
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_103:
+	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_103
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_105:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_109
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB0_107:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB0_107
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB0_109:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_111:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
+	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_111
+	JMP  LBB0_123
+
+LBB0_112:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_116
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_114:
+	LONG $0x0610fac5             // vmovss    xmm0, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_114
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_116:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_120
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB0_118:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x0610fac5                           // vmovss    xmm0, dword [rsi]
+	LONG $0x4e10fac5; BYTE $0x04               // vmovss    xmm1, dword [rsi + 4]
+	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
+	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
+	LONG $0x4a2ef8c5; BYTE $0x04               // vucomiss    xmm1, dword [rdx + 4]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x4610fac5; BYTE $0x08               // vmovss    xmm0, dword [rsi + 8]
+	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
+	LONG $0x4610fac5; BYTE $0x0c               // vmovss    xmm0, dword [rsi + 12]
+	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
+	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
+	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
+	LONG $0x4610fac5; BYTE $0x10               // vmovss    xmm0, dword [rsi + 16]
+	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
+	LONG $0x4610fac5; BYTE $0x14               // vmovss    xmm0, dword [rsi + 20]
+	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
+	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
+	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
+	LONG $0x4610fac5; BYTE $0x18               // vmovss    xmm0, dword [rsi + 24]
+	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
+	LONG $0x4610fac5; BYTE $0x1c               // vmovss    xmm0, dword [rsi + 28]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x4610fac5; BYTE $0x20               // vmovss    xmm0, dword [rsi + 32]
+	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
+	LONG $0x4610fac5; BYTE $0x24               // vmovss    xmm0, dword [rsi + 36]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x4610fac5; BYTE $0x28               // vmovss    xmm0, dword [rsi + 40]
+	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
+	LONG $0x4610fac5; BYTE $0x2c               // vmovss    xmm0, dword [rsi + 44]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x4610fac5; BYTE $0x30               // vmovss    xmm0, dword [rsi + 48]
+	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
+	LONG $0x4610fac5; BYTE $0x34               // vmovss    xmm0, dword [rsi + 52]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
+	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
+	LONG $0x4610fac5; BYTE $0x38               // vmovss    xmm0, dword [rsi + 56]
+	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
+	LONG $0x4610fac5; BYTE $0x3c               // vmovss    xmm0, dword [rsi + 60]
+	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
+	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x4610fac5; BYTE $0x40               // vmovss    xmm0, dword [rsi + 64]
+	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
+	LONG $0x4610fac5; BYTE $0x44               // vmovss    xmm0, dword [rsi + 68]
+	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
+	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
+	LONG $0x4610fac5; BYTE $0x48               // vmovss    xmm0, dword [rsi + 72]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
+	LONG $0x4610fac5; BYTE $0x4c               // vmovss    xmm0, dword [rsi + 76]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
+	LONG $0x4610fac5; BYTE $0x50               // vmovss    xmm0, dword [rsi + 80]
+	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
+	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
+	LONG $0x4610fac5; BYTE $0x54               // vmovss    xmm0, dword [rsi + 84]
+	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
+	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
+	LONG $0x4610fac5; BYTE $0x58               // vmovss    xmm0, dword [rsi + 88]
+	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
+	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
+	LONG $0x4610fac5; BYTE $0x5c               // vmovss    xmm0, dword [rsi + 92]
+	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
+	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
+	LONG $0x4610fac5; BYTE $0x60               // vmovss    xmm0, dword [rsi + 96]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
+	LONG $0x4610fac5; BYTE $0x64               // vmovss    xmm0, dword [rsi + 100]
+	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
+	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
+	LONG $0x4610fac5; BYTE $0x68               // vmovss    xmm0, dword [rsi + 104]
+	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
+	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
+	LONG $0x4610fac5; BYTE $0x6c               // vmovss    xmm0, dword [rsi + 108]
+	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
+	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
+	LONG $0x4610fac5; BYTE $0x70               // vmovss    xmm0, dword [rsi + 112]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
+	LONG $0x4610fac5; BYTE $0x74               // vmovss    xmm0, dword [rsi + 116]
+	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
+	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
+	LONG $0x4610fac5; BYTE $0x78               // vmovss    xmm0, dword [rsi + 120]
+	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
+	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
+	LONG $0x4610fac5; BYTE $0x7c               // vmovss    xmm0, dword [rsi + 124]
+	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
+	LONG $0xd7940f40                           // sete    dil
+	WORD $0xc000                               // add    al, al
+	LONG $0x04244402                           // add    al, byte [rsp + 4]
+	LONG $0x06e5c041                           // shl    r13b, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
+	LONG $0x06e1c041                           // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB0_118
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB0_120:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_122:
+	LONG $0x0410fac5; BYTE $0x8e // vmovss    xmm0, dword [rsi + 4*rcx]
+	LONG $0x042ef8c5; BYTE $0x8a // vucomiss    xmm0, dword [rdx + 4*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_122
+	JMP  LBB0_123
+
+LBB0_57:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_61
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_59:
+	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x0a3a                 // cmp    cl, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_59
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_61:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_65
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB0_63:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x940f; BYTE $0xd1       // sete    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd7940f41               // sete    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd7940f40               // sete    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd2940f41               // sete    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd3940f41               // sete    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd6940f41               // sete    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x940f; BYTE $0xd3       // sete    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd4940f41               // sete    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd5940f41               // sete    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd1940f41               // sete    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd0940f41               // sete    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB0_63
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB0_65:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_67:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
+	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_67
+	JMP  LBB0_123
+
+LBB0_90:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_94
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_92:
+	WORD $0x0e8b                 // mov    ecx, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_92
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_94:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_98
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB0_96:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd5940f41                           // sete    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd3940f41                           // sete    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd7940f41                           // sete    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd2940f41                           // sete    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd6940f41                           // sete    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd4940f41                           // sete    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd1940f41                           // sete    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB0_96
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB0_98:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_100:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_100
+
+LBB0_123:
+	SUBQ $8, SP
+	RET
+
+DATA LCDATA1<>+0x000(SB)/8, $0x0101010101010101
+DATA LCDATA1<>+0x008(SB)/8, $0x0101010101010101
+DATA LCDATA1<>+0x010(SB)/8, $0x0101010101010101
+DATA LCDATA1<>+0x018(SB)/8, $0x0101010101010101
+DATA LCDATA1<>+0x020(SB)/8, $0x0404040404040404
+DATA LCDATA1<>+0x028(SB)/8, $0x0404040404040404
+DATA LCDATA1<>+0x030(SB)/8, $0x0404040404040404
+DATA LCDATA1<>+0x038(SB)/8, $0x0404040404040404
+DATA LCDATA1<>+0x040(SB)/8, $0x0808080808080808
+DATA LCDATA1<>+0x048(SB)/8, $0x0808080808080808
+DATA LCDATA1<>+0x050(SB)/8, $0x0808080808080808
+DATA LCDATA1<>+0x058(SB)/8, $0x0808080808080808
+DATA LCDATA1<>+0x060(SB)/8, $0x1010101010101010
+DATA LCDATA1<>+0x068(SB)/8, $0x1010101010101010
+DATA LCDATA1<>+0x070(SB)/8, $0x1010101010101010
+DATA LCDATA1<>+0x078(SB)/8, $0x1010101010101010
+DATA LCDATA1<>+0x080(SB)/8, $0x2020202020202020
+DATA LCDATA1<>+0x088(SB)/8, $0x2020202020202020
+DATA LCDATA1<>+0x090(SB)/8, $0x2020202020202020
+DATA LCDATA1<>+0x098(SB)/8, $0x2020202020202020
+DATA LCDATA1<>+0x0a0(SB)/8, $0x4040404040404040
+DATA LCDATA1<>+0x0a8(SB)/8, $0x4040404040404040
+DATA LCDATA1<>+0x0b0(SB)/8, $0x4040404040404040
+DATA LCDATA1<>+0x0b8(SB)/8, $0x4040404040404040
+DATA LCDATA1<>+0x0c0(SB)/8, $0x8080808080808080
+DATA LCDATA1<>+0x0c8(SB)/8, $0x8080808080808080
+DATA LCDATA1<>+0x0d0(SB)/8, $0x8080808080808080
+DATA LCDATA1<>+0x0d8(SB)/8, $0x8080808080808080
+GLOBL LCDATA1<>(SB), 8, $224
+
+TEXT ·_comparison_equal_arr_scalar_avx2(SB), $1320-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $32, SP
+	ANDQ $-32, SP
+	MOVQ BP, 1280(SP)
+	LEAQ LCDATA1<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_13
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_25
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_49
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_57
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_164
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_9
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_7:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB1_7
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB1_9:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_101
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB1_11:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x48245402                           // add    dl, byte [rsp + 72]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB1_11
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB1_102
+	JMP  LBB1_164
+
+LBB1_13:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_39
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_65
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_73
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_164
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_21
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_19:
+	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB1_19
+	LONG $0x01c38349             // add    r11, 1
+
+LBB1_21:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_105
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB1_23:
+	LONG $0x062ef9c5                           // vucomisd    xmm0, qword [rsi]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x462ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rsi + 8]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x462ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rsi + 16]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x462ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rsi + 24]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x462ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rsi + 32]
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x462ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rsi + 40]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x462ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rsi + 48]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x462ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rsi + 56]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x462ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rsi + 64]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x462ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rsi + 72]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x462ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rsi + 80]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x462ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rsi + 88]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x462ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rsi + 96]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x462ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rsi + 104]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x462ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rsi + 112]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x462ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rsi + 120]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	QUAD $0x00000080862ef9c5                   // vucomisd    xmm0, qword [rsi + 128]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	QUAD $0x00000088862ef9c5                   // vucomisd    xmm0, qword [rsi + 136]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	QUAD $0x00000090862ef9c5                   // vucomisd    xmm0, qword [rsi + 144]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	QUAD $0x00000098862ef9c5                   // vucomisd    xmm0, qword [rsi + 152]
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	QUAD $0x000000a0862ef9c5                   // vucomisd    xmm0, qword [rsi + 160]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	QUAD $0x000000a8862ef9c5                   // vucomisd    xmm0, qword [rsi + 168]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	QUAD $0x000000b0862ef9c5                   // vucomisd    xmm0, qword [rsi + 176]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	QUAD $0x000000b8862ef9c5                   // vucomisd    xmm0, qword [rsi + 184]
+	LONG $0xd7940f41                           // sete    r15b
+	QUAD $0x000000c0862ef9c5                   // vucomisd    xmm0, qword [rsi + 192]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	QUAD $0x000000c8862ef9c5                   // vucomisd    xmm0, qword [rsi + 200]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	QUAD $0x000000d0862ef9c5                   // vucomisd    xmm0, qword [rsi + 208]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	QUAD $0x000000d8862ef9c5                   // vucomisd    xmm0, qword [rsi + 216]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	QUAD $0x000000e0862ef9c5                   // vucomisd    xmm0, qword [rsi + 224]
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	QUAD $0x000000e8862ef9c5                   // vucomisd    xmm0, qword [rsi + 232]
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	QUAD $0x000000f0862ef9c5                   // vucomisd    xmm0, qword [rsi + 240]
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	QUAD $0x000000f8862ef9c5                   // vucomisd    xmm0, qword [rsi + 248]
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x000000a0248c0244                   // add    r9b, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x70245402                           // add    dl, byte [rsp + 112]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0x48244402                           // add    al, byte [rsp + 72]
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB1_23
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB1_106
+	JMP  LBB1_164
+
+LBB1_25:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_81
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_164
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	LONG $0x1f6a8d4d         // lea    r13, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	WORD $0x894d; BYTE $0xd7 // mov    r15, r10
+	LONG $0xea490f4d         // cmovns    r13, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_31
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_29:
+	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB1_29
+	LONG $0x01c38349             // add    r11, 1
+
+LBB1_31:
+	LONG $0x05fdc149             // sar    r13, 5
+	LONG $0x20ff8349             // cmp    r15, 32
+	JL   LBB1_108
+	LONG $0x20fd8349             // cmp    r13, 32
+	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
+	QUAD $0x0000011824bc894c     // mov    qword [rsp + 280], r15
+	QUAD $0x0000018824ac894c     // mov    qword [rsp + 392], r13
+	JB   LBB1_35
+	WORD $0x894c; BYTE $0xe8     // mov    rax, r13
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
+	JAE  LBB1_165
+	LONG $0xab048d4b             // lea    rax, [r11 + 4*r13]
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB1_165
+
+LBB1_35:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
+
+LBB1_36:
+	QUAD $0x0000018024ac2b4c // sub    r13, qword [rsp + 384]
+	QUAD $0x0000009824ac894c // mov    qword [rsp + 152], r13
+
+LBB1_37:
+	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
+	LONG $0x24343845                           // cmp    byte [r12], r14b
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	QUAD $0x000001102494940f                   // sete    byte [rsp + 272]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x30               // add    r8b, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x40249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 320]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x58               // movzx    edi, byte [rsp + 88]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xc000                               // add    al, al
+	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x2454b60f; BYTE $0x20               // movzx    edx, byte [rsp + 32]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xd308                               // or    bl, dl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB1_37
+	QUAD $0x0000011824bc8b4c                   // mov    r15, qword [rsp + 280]
+	QUAD $0x0000018824ac8b4c                   // mov    r13, qword [rsp + 392]
+	JMP  LBB1_109
+
+LBB1_39:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_93
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_164
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_45
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_43:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB1_43
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB1_45:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_112
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+
+LBB1_47:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x48245402                           // add    dl, byte [rsp + 72]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB1_47
+	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB1_113
+	JMP  LBB1_164
+
+LBB1_49:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_53
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_51:
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB1_51
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB1_53:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_116
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB1_55:
+	LONG $0x2e394466                     // cmp    word [rsi], r13w
+	WORD $0x940f; BYTE $0xd0             // sete    al
+	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
+	LONG $0xd7940f40                     // sete    dil
+	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
+	LONG $0xd6940f41                     // sete    r14b
+	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
+	QUAD $0x000000a02494940f             // sete    byte [rsp + 160]
+	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
+	QUAD $0x000000882494940f             // sete    byte [rsp + 136]
+	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
+	LONG $0x2454940f; BYTE $0x58         // sete    byte [rsp + 88]
+	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
+	QUAD $0x000000982494940f             // sete    byte [rsp + 152]
+	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
+	WORD $0x940f; BYTE $0xd3             // sete    bl
+	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
+	LONG $0x2454940f; BYTE $0x70         // sete    byte [rsp + 112]
+	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
+	WORD $0x940f; BYTE $0xd2             // sete    dl
+	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
+	LONG $0xd1940f41                     // sete    r9b
+	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
+	LONG $0xd2940f41                     // sete    r10b
+	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
+	LONG $0xd3940f41                     // sete    r11b
+	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
+	LONG $0xd4940f41                     // sete    r12b
+	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
+	LONG $0x2454940f; BYTE $0x68         // sete    byte [rsp + 104]
+	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
+	WORD $0x940f; BYTE $0xd1             // sete    cl
+	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
+	LONG $0x2454940f; BYTE $0x48         // sete    byte [rsp + 72]
+	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
+	LONG $0x2454940f; BYTE $0x78         // sete    byte [rsp + 120]
+	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
+	QUAD $0x000000802494940f             // sete    byte [rsp + 128]
+	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
+	QUAD $0x000000902494940f             // sete    byte [rsp + 144]
+	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
+	LONG $0x2454940f; BYTE $0x50         // sete    byte [rsp + 80]
+	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
+	LONG $0x2454940f; BYTE $0x60         // sete    byte [rsp + 96]
+	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
+	LONG $0x2454940f; BYTE $0x40         // sete    byte [rsp + 64]
+	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
+	LONG $0xd7940f41                     // sete    r15b
+	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
+	LONG $0x2454940f; BYTE $0x20         // sete    byte [rsp + 32]
+	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
+	LONG $0x2454940f; BYTE $0x30         // sete    byte [rsp + 48]
+	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
+	LONG $0x2454940f; BYTE $0x38         // sete    byte [rsp + 56]
+	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
+	LONG $0x2454940f; BYTE $0x28         // sete    byte [rsp + 40]
+	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
+	QUAD $0x000001402494940f             // sete    byte [rsp + 320]
+	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
+	QUAD $0x000001202494940f             // sete    byte [rsp + 288]
+	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
+	LONG $0x2454940f; BYTE $0x1c         // sete    byte [rsp + 28]
+	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
+	LONG $0xd0940f41                     // sete    r8b
+	WORD $0x0040; BYTE $0xff             // add    dil, dil
+	WORD $0x0840; BYTE $0xc7             // or    dil, al
+	QUAD $0x000000982484b60f             // movzx    eax, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
+	WORD $0xc308                         // or    bl, al
+	LONG $0x02e6c041                     // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
+	WORD $0xd200                         // add    dl, dl
+	LONG $0x70245402                     // add    dl, byte [rsp + 112]
+	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0x0844; BYTE $0xf0             // or    al, r14b
+	LONG $0x02e1c041                     // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
+	QUAD $0x000000882494b60f             // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
+	WORD $0xc208                         // or    dl, al
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x03e2c041                     // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x58         // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	LONG $0x04e3c041                     // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
+	LONG $0x05e4c041                     // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x68         // movzx    edi, byte [rsp + 104]
+	LONG $0x06e7c040                     // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9             // or    cl, dil
+	WORD $0xd308                         // or    bl, dl
+	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x78         // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                         // add    dl, dl
+	LONG $0x48245402                     // add    dl, byte [rsp + 72]
+	WORD $0xd789                         // mov    edi, edx
+	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50         // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	QUAD $0x0000011024948b48             // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                         // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	LONG $0x07e7c041                     // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01             // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff             // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                         // add    cl, cl
+	LONG $0x20244c02                     // add    cl, byte [rsp + 32]
+	WORD $0xcb89                         // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
+	WORD $0xd908                         // or    cl, bl
+	WORD $0xcb89                         // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x28         // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
+	WORD $0xd908                         // or    cl, bl
+	WORD $0xcb89                         // mov    ebx, ecx
+	QUAD $0x00000140248cb60f             // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
+	WORD $0xd908                         // or    cl, bl
+	WORD $0xcb89                         // mov    ebx, ecx
+	QUAD $0x00000120248cb60f             // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
+	WORD $0xd908                         // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c         // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	LONG $0x07e0c041                     // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8             // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
+	LONG $0x027a8844                     // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                     // mov    byte [rdx + 3], r8b
+	LONG $0x40c68348                     // add    rsi, 64
+	LONG $0x04c28348                     // add    rdx, 4
+	QUAD $0x0000011024948948             // mov    qword [rsp + 272], rdx
+	QUAD $0x000000a824848348; BYTE $0xff // add    qword [rsp + 168], -1
+	JNE  LBB1_55
+	QUAD $0x0000011024b48b4c             // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c             // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c             // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                     // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7             // cmp    r15, r10
+	JL   LBB1_117
+	JMP  LBB1_164
+
+LBB1_57:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_61
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_59:
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB1_59
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB1_61:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_120
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB1_63:
+	LONG $0x2e394466                     // cmp    word [rsi], r13w
+	QUAD $0x000000982494940f             // sete    byte [rsp + 152]
+	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
+	LONG $0xd7940f40                     // sete    dil
+	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
+	LONG $0xd6940f41                     // sete    r14b
+	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
+	QUAD $0x000000a02494940f             // sete    byte [rsp + 160]
+	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
+	QUAD $0x000000882494940f             // sete    byte [rsp + 136]
+	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
+	LONG $0x2454940f; BYTE $0x58         // sete    byte [rsp + 88]
+	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
+	WORD $0x940f; BYTE $0xd0             // sete    al
+	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
+	WORD $0x940f; BYTE $0xd3             // sete    bl
+	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
+	LONG $0x2454940f; BYTE $0x68         // sete    byte [rsp + 104]
+	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
+	WORD $0x940f; BYTE $0xd2             // sete    dl
+	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
+	LONG $0xd1940f41                     // sete    r9b
+	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
+	LONG $0xd2940f41                     // sete    r10b
+	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
+	LONG $0xd3940f41                     // sete    r11b
+	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
+	LONG $0xd4940f41                     // sete    r12b
+	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
+	LONG $0x2454940f; BYTE $0x70         // sete    byte [rsp + 112]
+	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
+	WORD $0x940f; BYTE $0xd1             // sete    cl
+	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
+	LONG $0x2454940f; BYTE $0x48         // sete    byte [rsp + 72]
+	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
+	LONG $0x2454940f; BYTE $0x78         // sete    byte [rsp + 120]
+	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
+	QUAD $0x000000802494940f             // sete    byte [rsp + 128]
+	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
+	QUAD $0x000000902494940f             // sete    byte [rsp + 144]
+	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
+	LONG $0x2454940f; BYTE $0x50         // sete    byte [rsp + 80]
+	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
+	LONG $0x2454940f; BYTE $0x60         // sete    byte [rsp + 96]
+	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
+	LONG $0x2454940f; BYTE $0x40         // sete    byte [rsp + 64]
+	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
+	LONG $0xd7940f41                     // sete    r15b
+	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
+	LONG $0x2454940f; BYTE $0x20         // sete    byte [rsp + 32]
+	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
+	LONG $0x2454940f; BYTE $0x30         // sete    byte [rsp + 48]
+	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
+	LONG $0x2454940f; BYTE $0x38         // sete    byte [rsp + 56]
+	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
+	LONG $0x2454940f; BYTE $0x28         // sete    byte [rsp + 40]
+	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
+	QUAD $0x000001402494940f             // sete    byte [rsp + 320]
+	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
+	QUAD $0x000001202494940f             // sete    byte [rsp + 288]
+	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
+	LONG $0x2454940f; BYTE $0x1c         // sete    byte [rsp + 28]
+	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
+	LONG $0xd0940f41                     // sete    r8b
+	WORD $0x0040; BYTE $0xff             // add    dil, dil
+	QUAD $0x0000009824bc0240             // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
+	WORD $0xc308                         // or    bl, al
+	LONG $0x02e6c041                     // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
+	WORD $0xd200                         // add    dl, dl
+	LONG $0x68245402                     // add    dl, byte [rsp + 104]
+	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0x0844; BYTE $0xf0             // or    al, r14b
+	LONG $0x02e1c041                     // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
+	QUAD $0x000000882494b60f             // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
+	WORD $0xc208                         // or    dl, al
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x03e2c041                     // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x58         // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	LONG $0x04e3c041                     // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
+	LONG $0x05e4c041                     // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x70         // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                     // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9             // or    cl, dil
+	WORD $0xd308                         // or    bl, dl
+	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x78         // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                         // add    dl, dl
+	LONG $0x48245402                     // add    dl, byte [rsp + 72]
+	WORD $0xd789                         // mov    edi, edx
+	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50         // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	QUAD $0x0000011024948b48             // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                         // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	LONG $0x07e7c041                     // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01             // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff             // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                         // add    cl, cl
+	LONG $0x20244c02                     // add    cl, byte [rsp + 32]
+	WORD $0xcb89                         // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
+	WORD $0xd908                         // or    cl, bl
+	WORD $0xcb89                         // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x28         // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
+	WORD $0xd908                         // or    cl, bl
+	WORD $0xcb89                         // mov    ebx, ecx
+	QUAD $0x00000140248cb60f             // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
+	WORD $0xd908                         // or    cl, bl
+	WORD $0xcb89                         // mov    ebx, ecx
+	QUAD $0x00000120248cb60f             // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
+	WORD $0xd908                         // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c         // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	LONG $0x07e0c041                     // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8             // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
+	LONG $0x027a8844                     // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                     // mov    byte [rdx + 3], r8b
+	LONG $0x40c68348                     // add    rsi, 64
+	LONG $0x04c28348                     // add    rdx, 4
+	QUAD $0x0000011024948948             // mov    qword [rsp + 272], rdx
+	QUAD $0x000000a824848348; BYTE $0xff // add    qword [rsp + 168], -1
+	JNE  LBB1_63
+	QUAD $0x0000011024b48b4c             // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c             // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c             // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                     // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7             // cmp    r15, r10
+	JL   LBB1_121
+	JMP  LBB1_164
+
+LBB1_65:
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_69
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_67:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB1_67
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB1_69:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_123
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB1_71:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x48245402                           // add    dl, byte [rsp + 72]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB1_71
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB1_124
+	JMP  LBB1_164
+
+LBB1_73:
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_77
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_75:
+	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB1_75
+	LONG $0x01c38349             // add    r11, 1
+
+LBB1_77:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_126
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB1_79:
+	LONG $0x062ef8c5                           // vucomiss    xmm0, dword [rsi]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x462ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rsi + 4]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x462ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rsi + 8]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x462ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rsi + 12]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x462ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rsi + 16]
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x462ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rsi + 20]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x462ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rsi + 24]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x462ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rsi + 28]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x462ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rsi + 32]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x462ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rsi + 36]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x462ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rsi + 40]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x462ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rsi + 44]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x462ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rsi + 48]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x462ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rsi + 52]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x462ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rsi + 56]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x462ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rsi + 60]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x462ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rsi + 64]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x462ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rsi + 68]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x462ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rsi + 72]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x462ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rsi + 76]
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x462ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rsi + 80]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x462ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rsi + 84]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x462ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rsi + 88]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x462ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rsi + 92]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x462ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rsi + 96]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x462ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rsi + 100]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x462ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rsi + 104]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x462ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rsi + 108]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x462ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rsi + 112]
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0x462ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rsi + 116]
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0x462ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rsi + 120]
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	LONG $0x462ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rsi + 124]
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x000000a0248c0244                   // add    r9b, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x70245402                           // add    dl, byte [rsp + 112]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0x48244402                           // add    al, byte [rsp + 72]
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB1_79
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB1_127
+	JMP  LBB1_164
+
+LBB1_81:
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_85
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_83:
+	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB1_83
+	LONG $0x01c38349             // add    r11, 1
+
+LBB1_85:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB1_129
+	LONG $0x20ff8349             // cmp    r15, 32
+	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
+	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
+	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
+	JB   LBB1_89
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
+	JAE  LBB1_168
+	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB1_168
+
+LBB1_89:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
+
+LBB1_90:
+	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
+	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
+
+LBB1_91:
+	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
+	LONG $0x24343845                           // cmp    byte [r12], r14b
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	QUAD $0x000001102494940f                   // sete    byte [rsp + 272]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x40249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 320]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x50               // movzx    edi, byte [rsp + 80]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xc000                               // add    al, al
+	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xd308                               // or    bl, dl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB1_91
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
+	JMP  LBB1_130
+
+LBB1_93:
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_97
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_95:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB1_95
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB1_97:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_133
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+
+LBB1_99:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x48245402                           // add    dl, byte [rsp + 72]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB1_99
+	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB1_134
+	JMP  LBB1_164
+
+LBB1_101:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB1_164
+
+LBB1_102:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JE   LBB1_135
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB1_104:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB1_104
+	JMP  LBB1_161
+
+LBB1_105:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB1_164
+
+LBB1_106:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB1_136
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB1_138
+
+LBB1_108:
+	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+
+LBB1_109:
+	LONG $0x05e5c149         // shl    r13, 5
+	WORD $0x394d; BYTE $0xfd // cmp    r13, r15
+	JGE  LBB1_164
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xe8 // sub    r8, r13
+	WORD $0xf749; BYTE $0xd5 // not    r13
+	WORD $0x014d; BYTE $0xfd // add    r13, r15
+	JE   LBB1_132
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
+
+LBB1_141:
+	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_141
+	JMP  LBB1_156
+
+LBB1_112:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB1_164
+
+LBB1_113:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JE   LBB1_125
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB1_115:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB1_115
+	JMP  LBB1_148
+
+LBB1_116:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB1_164
+
+LBB1_117:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JE   LBB1_122
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB1_119:
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB1_119
+	JMP  LBB1_144
+
+LBB1_120:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB1_164
+
+LBB1_121:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB1_142
+
+LBB1_122:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB1_144
+
+LBB1_123:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB1_164
+
+LBB1_124:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB1_146
+
+LBB1_125:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB1_148
+
+LBB1_126:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB1_164
+
+LBB1_127:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB1_150
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB1_152
+
+LBB1_129:
+	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+
+LBB1_130:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB1_164
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB1_154
+
+LBB1_132:
+	WORD $0xf631  // xor    esi, esi
+	JMP  LBB1_157
+
+LBB1_133:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB1_164
+
+LBB1_134:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB1_159
+
+LBB1_135:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB1_161
+
+LBB1_136:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB1_137:
+	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x462ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rsi + 8]
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB1_137
+
+LBB1_138:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB1_164
+	LONG $0x062ef9c5 // vucomisd    xmm0, qword [rsi]
+	JMP  LBB1_163
+
+LBB1_142:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB1_143:
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB1_143
+
+LBB1_144:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB1_164
+	LONG $0x2e394466 // cmp    word [rsi], r13w
+	JMP  LBB1_163
+
+LBB1_146:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB1_147:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB1_147
+
+LBB1_148:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB1_164
+	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
+	JMP  LBB1_163
+
+LBB1_150:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB1_151:
+	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x462ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rsi + 4]
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB1_151
+
+LBB1_152:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB1_164
+	LONG $0x062ef8c5 // vucomiss    xmm0, dword [rsi]
+	JMP  LBB1_163
+
+LBB1_154:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
+
+LBB1_155:
+	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_155
+
+LBB1_156:
+	WORD $0x0149; BYTE $0xf4 // add    r12, rsi
+
+LBB1_157:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB1_164
+	LONG $0x24343845         // cmp    byte [r12], r14b
+	WORD $0x940f; BYTE $0xd0 // sete    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	QUAD $0x0000017824848b4c // mov    r8, qword [rsp + 376]
+	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
+	JMP  LBB1_164
+
+LBB1_159:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB1_160:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB1_160
+
+LBB1_161:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB1_164
+	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
+
+LBB1_163:
+	WORD $0x940f; BYTE $0xd0 // sete    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
+
+LBB1_164:
+	MOVQ 1280(SP), SP
+	VZEROUPPER
+	RET
+
+LBB1_165:
+	LONG $0xe0e58349                     // and    r13, -32
+	WORD $0x894c; BYTE $0xe8             // mov    rax, r13
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
+	QUAD $0x0000018024ac894c             // mov    qword [rsp + 384], r13
+	LONG $0xab048d4b                     // lea    rax, [r11 + 4*r13]
+	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
+	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
+
+LBB1_166:
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	QUAD $0x0000010824848948                   // mov    qword [rsp + 264], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x1644b60f; BYTE $0x01               // movzx    eax, byte [rsi + rdx + 1]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
+	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
+	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
+	LONG $0xe86e79c5                           // vmovd    xmm13, eax
+	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
+	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
+	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
+	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
+	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
+	LONG $0x80cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 640
+	QUAD $0x000000b024bc894c                   // mov    qword [rsp + 176], r15
+	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
+	LONG $0xa0cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 672
+	QUAD $0x000000c8249c894c                   // mov    qword [rsp + 200], r11
+	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
+	LONG $0xc0c88149; WORD $0x0002; BYTE $0x00 // or    r8, 704
+	QUAD $0x000000a82484894c                   // mov    qword [rsp + 168], r8
+	WORD $0x8948; BYTE $0xda                   // mov    rdx, rbx
+	LONG $0xe0ca8148; WORD $0x0002; BYTE $0x00 // or    rdx, 736
+	QUAD $0x000000c024948948                   // mov    qword [rsp + 192], rdx
+	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
+	LONG $0x00cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 768
+	QUAD $0x000000d824a4894c                   // mov    qword [rsp + 216], r12
+	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
+	LONG $0x20ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 800
+	QUAD $0x000000b824b4894c                   // mov    qword [rsp + 184], r14
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
+	LONG $0x2454894c; BYTE $0x50               // mov    qword [rsp + 80], r10
+	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
+	LONG $0x60c98149; WORD $0x0003; BYTE $0x00 // or    r9, 864
+	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
+	QUAD $0x000000f824848948                   // mov    qword [rsp + 248], rax
+	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
+	LONG $0xa0cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 928
+	LONG $0x247c8948; BYTE $0x70               // mov    qword [rsp + 112], rdi
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x00000100249c8948                   // mov    qword [rsp + 256], rbx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
+	LONG $0x244c8948; BYTE $0x38               // mov    qword [rsp + 56], rcx
+	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
+	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
+	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
+	LONG $0x2031e3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + rbx], 2
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
+	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 4
+	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 5
+	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + r8], 6
+	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 7
+	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 8
+	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 9
+	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r10], 10
+	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r9], 11
+	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
+	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r13], 12
+	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 13
+	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
+	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 1
+	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
+	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r12], 2
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 3
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 4
+	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
+	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 5
+	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
+	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 6
+	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
+	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 10
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 14
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x040116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 4
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x070116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 7
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x080116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 8
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
+	QUAD $0x0c012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 12
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x0e012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 14
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
+	QUAD $0x0101366c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r14 + 1], 1
+	QUAD $0x0201266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 2
+	QUAD $0x0301166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 3
+	QUAD $0x04011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 4
+	QUAD $0x0501066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 5
+	QUAD $0x06010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 6
+	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
+	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
+	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
+	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
+	QUAD $0x0a011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 10
+	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0e01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 14
+	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xd76e79c5                           // vmovd    xmm10, edi
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
+	QUAD $0x010216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 1
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x02020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 2
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x060206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 6
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x080226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 2], 8
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x0a020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 10
+	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
+	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
+	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
+	QUAD $0x0c0236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 12
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
+	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
+	QUAD $0x0602065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 2], 6
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
+	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
+	QUAD $0x0b02065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 2], 11
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
+	QUAD $0x010316642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + rdx + 3], 1
+	QUAD $0x02030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 2
+	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x04030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 4
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x05030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 5
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x06030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 6
+	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
+	QUAD $0x070306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 7
+	QUAD $0x080326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 8
+	QUAD $0x09032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 9
+	QUAD $0x0a030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 10
+	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
+	QUAD $0x0c0336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 12
+	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
+	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0e0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 14
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
+	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x0303166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 3
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x04033e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 3], 4
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0603066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 6
+	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
+	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
+	QUAD $0x08031e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 3], 8
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0903066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
+	LONG $0xc76e79c5                           // vmovd    xmm8, edi
+	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
+	QUAD $0x0f031e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 3], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
+	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
+	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x010406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 1
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x020406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 2
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
+	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
+	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x05040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 5
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x060406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 6
+	QUAD $0x070406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 7
+	QUAD $0x080426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x090406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 9
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0a0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 11
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x0c0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 12
+	QUAD $0x0d0436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 4], 13
+	QUAD $0x0e0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 14
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x0f0426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 15
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0104065c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rsi + rax + 4], 1
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0204165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 2
+	QUAD $0x0304165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 3
+	QUAD $0x04043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 4
+	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
+	QUAD $0x0504165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 5
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x06043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 6
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x0704365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 7
+	QUAD $0x08041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 8
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x09041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 10
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x0b041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 11
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x0c04065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 13
+	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
+	QUAD $0x0e043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 14
+	QUAD $0x0f040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 15
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x01050e642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r9 + 5], 1
+	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
+	QUAD $0x02053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 2
+	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
+	QUAD $0x03050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 3
+	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
+	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x06050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 6
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x07050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 7
+	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x080506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0a0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 11
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x0c0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 12
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0d050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
+	QUAD $0x0f0526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 15
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0105066c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rax + 5], 1
+	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x0405166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 4
+	QUAD $0x0505166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 5], 5
+	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
+	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
+	QUAD $0x0705366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 7
+	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
+	QUAD $0x0805366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 8
+	QUAD $0x09051e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 5], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
+	QUAD $0x0b051e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 5], 11
+	QUAD $0x0c05066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 5], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
+	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f0506442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 5], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x010606442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + rax + 6], 1
+	QUAD $0x02063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 2
+	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
+	QUAD $0x03060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 3
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x04061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 4
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x050616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 5
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x06061e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 6], 6
+	QUAD $0x07062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 7
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x08060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 8
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	QUAD $0x09062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 9
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0a060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 11
+	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
+	QUAD $0x0c0626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 6], 12
+	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
+	QUAD $0x0d0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 13
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0e060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 14
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0f060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 15
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x01060e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rcx + 6], 1
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x02060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 2
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
+	QUAD $0x0606166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 6], 6
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x07060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 7
+	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
+	QUAD $0x0806366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 8
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x09060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0b06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 11
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0c06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 12
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0d06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 13
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0e06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 14
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	QUAD $0x0f06366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 15
+	QUAD $0x010706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 1
+	QUAD $0x02073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 2
+	QUAD $0x03070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 3
+	QUAD $0x04071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 4
+	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
+	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
+	QUAD $0x06071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 6
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
+	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
+	QUAD $0x08071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 8
+	QUAD $0x09072e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 7], 9
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0a0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 10
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0b070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 11
+	QUAD $0x0c0726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 7], 12
+	QUAD $0x0d0706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 13
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0e0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 14
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0f0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 15
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x0107164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 1
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0207164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 2
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0307164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 3
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x0407164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 4
+	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x0607164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 6
+	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
+	QUAD $0x07073e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 7], 7
+	QUAD $0x0807164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 7], 8
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0907164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 9
+	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
+	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
+	QUAD $0x0b072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 11
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0c070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 12
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0d070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 13
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0e070e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rcx + 7], 14
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0f070e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 7], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x010806442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + rax + 8], 1
+	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
+	QUAD $0x020826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 8], 2
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
+	QUAD $0x04081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 4
+	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
+	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x060806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 6
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x070816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 7
+	QUAD $0x08081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 8
+	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
+	QUAD $0x090806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 8], 9
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0a0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 10
+	QUAD $0x0b080e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 8], 11
+	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
+	QUAD $0x0c081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 12
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0d083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 13
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0e0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 14
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x0f083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 15
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x0108166c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rdx + 8], 1
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x0208366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 8], 2
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x03083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 3
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x0608166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 6
+	QUAD $0x07083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 7
+	QUAD $0x0808166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 8], 8
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x09080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 9
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	QUAD $0x0a083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 10
+	QUAD $0x0b082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 11
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0c08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 12
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
+	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
+	QUAD $0x0f082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 15
+	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
+	QUAD $0x01092e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r13 + 9], 1
+	QUAD $0x020926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 2
+	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x04090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 4
+	QUAD $0x05091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 5
+	QUAD $0x060906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 6
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x070916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 7
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x080906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 8
+	QUAD $0x090906742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r8 + 9], 9
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0a0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 11
+	QUAD $0x0c091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 15
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0109067c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rax + 9], 1
+	QUAD $0x0209367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 2
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
+	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
+	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0609067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 6
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0709067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 7
+	QUAD $0x0809167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 8
+	QUAD $0x09090e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 9], 9
+	QUAD $0x0a093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 10
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x0d093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 13
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x00044024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm5
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
+	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
+	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
+	QUAD $0x020a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 2
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
+	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
+	QUAD $0x040a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 4
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x050a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 5
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x060a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 6
+	QUAD $0x070a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 7
+	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
+	QUAD $0x080a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 8
+	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
+	QUAD $0x090a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 9
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0a0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 10
+	QUAD $0x0b0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 11
+	QUAD $0x0c0a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 12
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0d0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 13
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0e0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 14
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x0f0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 15
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	QUAD $0x010a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 1
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x020a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 2
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
+	QUAD $0x040a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 4
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x050a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 5
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+	QUAD $0x060a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 6
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x070a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 7
+	QUAD $0x080a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 8
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x0a0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 10
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0b0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 11
+	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
+	QUAD $0x0c0a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 12
+	QUAD $0x0d0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 13
+	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
+	QUAD $0x0e0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 14
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 15
+	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
+	QUAD $0x020b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 2
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x030b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 3
+	QUAD $0x040b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 4
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x050b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 5
+	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
+	QUAD $0x060b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 6
+	QUAD $0x070b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 7
+	WORD $0x8949; BYTE $0xd1                   // mov    r9, rdx
+	QUAD $0x080b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 8
+	QUAD $0x090b264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 11], 9
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 11
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
+	QUAD $0x0d0b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+	QUAD $0x0f0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 15
+	QUAD $0x010b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 1
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
+	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x040b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 4
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x050b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 5
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x060b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 6
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x070b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 7
+	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
+	QUAD $0x080b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 8
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x090b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 9
+	QUAD $0x0a0b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 10
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x0b0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 11
+	QUAD $0x0c0b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 12
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0d0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0e0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 14
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0f0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x010c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 1
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x020c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 2
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x030c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 3
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x040c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 4
+	QUAD $0x050c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 5
+	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
+	QUAD $0x060c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 6
+	QUAD $0x070c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 7
+	QUAD $0x080c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 8
+	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
+	QUAD $0x090c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 9
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0a0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 11
+	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
+	QUAD $0x0c0c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 12
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0d0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 13
+	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
+	QUAD $0x0e0c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 12], 14
+	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
+	QUAD $0x0f0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 15
+	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
+	QUAD $0x010c2e542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + r13 + 12], 1
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x030c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 3
+	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x050c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 5
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
+	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
+	QUAD $0x070c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 7
+	QUAD $0x080c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 8
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0a0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 10
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x0b0c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 11
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0c0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 12
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0d0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 13
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0e0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 14
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0f0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 15
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x010d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 1
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x020d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 2
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x030d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 3
+	QUAD $0x040d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 4
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x050d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 5
+	QUAD $0x060d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 6
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x070d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 7
+	QUAD $0x080d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 8
+	QUAD $0x090d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 9
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x0a0d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 11
+	QUAD $0x0c0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 12
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x0d0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 13
+	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
+	QUAD $0x0f0d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 15
+	QUAD $0x010d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 1
+	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x030d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 3
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x040d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 4
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x050d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 5
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x060d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 6
+	QUAD $0x070d3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 13], 7
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	QUAD $0x080d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 8
+	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 10
+	QUAD $0x0b0d264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 13], 11
+	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
+	QUAD $0x0c0d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 13
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0e0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 14
+	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
+	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
+	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x0e36             // movzx    edi, byte [rsi + r14 + 14]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x010e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 1
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x020e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 2
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x030e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 3
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x040e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 14], 4
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x060e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 6
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x090e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 9
+	QUAD $0x0a0e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 10
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0b0e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 11
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x0c0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 12
+	QUAD $0x0d0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0e0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 15
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	QUAD $0x010e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 1
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+	QUAD $0x040e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 4
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x050e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 5
+	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
+	QUAD $0x060e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 6
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x070e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 7
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x090e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 9
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0a0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 10
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
+	QUAD $0x0c0e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 12
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0d0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 13
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
+	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
+	QUAD $0x020f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 2
+	QUAD $0x030f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 3
+	QUAD $0x040f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 4
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x050f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 5
+	QUAD $0x060f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 6
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x070f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 7
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x080f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 8
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x090f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 9
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0a0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 10
+	QUAD $0x0b0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 11
+	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
+	QUAD $0x0c0f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 12
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0d0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 13
+	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
+	QUAD $0x0e0f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 14
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
+	LONG $0x7cb60f42; WORD $0x0f36             // movzx    edi, byte [rsi + r14 + 15]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x010f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 1
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
+	QUAD $0x040f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 4
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x050f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 5
+	QUAD $0x060f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 6
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	QUAD $0x070f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 7
+	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x090f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 10
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x0b0f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 11
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 13
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0e0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 14
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x0f0f3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 15], 15
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rax + 16]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
+	QUAD $0x011036442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 16], 1
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x021006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 2
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x03101e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 16], 3
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x041006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 4
+	QUAD $0x05101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 5
+	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
+	QUAD $0x06100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 6
+	QUAD $0x071016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 7
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x081016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x091006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 9
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0a101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 11
+	QUAD $0x0c102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 13
+	QUAD $0x0e1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdi + 16]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x01103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 1
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x02103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 2
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x03103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 3
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x04103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 4
+	QUAD $0x05100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 5
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x06100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 6
+	QUAD $0x0710164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 7
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	QUAD $0x08100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 8
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x09103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 9
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0a103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 10
+	QUAD $0x0b10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 11
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0c103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 12
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x0d10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 13
+	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
+	QUAD $0x0e102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 14
+	QUAD $0x0f103e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 16], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rdi + 17]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 1
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	QUAD $0x021106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 2
+	QUAD $0x03111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 3
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+	QUAD $0x041116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 4
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x05113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 5
+	QUAD $0x06110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 6
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x07113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 7
+	QUAD $0x081116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 8
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x091116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 9
+	QUAD $0x0a111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 10
+	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
+	QUAD $0x0b111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 11
+	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
+	QUAD $0x0c1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 12
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0d1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 13
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0e1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 14
+	QUAD $0x0f1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	QUAD $0x0111365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 1
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x02113e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 17], 2
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	QUAD $0x03110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 3
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x0411165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 4
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0511065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 5
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0611065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 6
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	QUAD $0x07111e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 17], 7
+	QUAD $0x08110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 8
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x09110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 10
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0b11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 11
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0c11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 12
+	QUAD $0x0d11265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 13
+	QUAD $0x0e112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f1106442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 17], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rax + 18]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
+	QUAD $0x021206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 2
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x031206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 3
+	QUAD $0x041216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 4
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x051206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 5
+	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
+	QUAD $0x061206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 6
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x071206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 7
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x081206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x091206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 9
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x0a1216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 10
+	QUAD $0x0b121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 11
+	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
+	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0e123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 14
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x0f123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rdi + 18]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0112364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 1
+	QUAD $0x02123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 2
+	QUAD $0x03120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 3
+	QUAD $0x0412164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 4
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0512164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 5
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+	QUAD $0x0612364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 6
+	QUAD $0x07121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 7
+	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
+	QUAD $0x0812164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 8
+	QUAD $0x09120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	QUAD $0x0b123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 11
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0c12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 12
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0d123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 13
+	QUAD $0x0e122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 14
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0f121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x02133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 2
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x04133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 4
+	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
+	QUAD $0x05132e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 19], 5
+	QUAD $0x061306542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 19], 6
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
+	QUAD $0x091306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 9
+	QUAD $0x0a1316542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 19], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 11
+	QUAD $0x0c1326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 12
+	QUAD $0x0d131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 13
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x0e130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 15
+	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x1316             // movzx    edi, byte [rsi + r10 + 19]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0113065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 1
+	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
+	QUAD $0x0213065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 2
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0313065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0413065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 4
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0513065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 5
+	QUAD $0x0613365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 6
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0713065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 7
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0813065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 8
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0913065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 9
+	QUAD $0x0a130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 10
+	QUAD $0x0b133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 11
+	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 13
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0e13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 14
+	QUAD $0x0f131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	LONG $0x7cb60f42; WORD $0x141e             // movzx    edi, byte [rsi + r11 + 20]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x011406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 1
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x03143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 3
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x04143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 4
+	QUAD $0x05142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 5
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x06143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 6
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x07142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 7
+	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
+	QUAD $0x08143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 8
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x09143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 9
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x0a1426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 11
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x0c143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 12
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0d143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 13
+	QUAD $0x0e140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 14
+	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
+	QUAD $0x0f1436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 15
+	LONG $0x7cb60f42; WORD $0x1416             // movzx    edi, byte [rsi + r10 + 20]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x01141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 1
+	QUAD $0x0214064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 2
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x0314064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 3
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x04143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 4
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x05143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 5
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x06143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 6
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	QUAD $0x0714164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 7
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x09143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 9
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
+	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
+	QUAD $0x0c140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 12
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0e143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 14
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
+	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 1
+	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x041506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 4
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x051506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 5
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x061506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 6
+	QUAD $0x07152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 7
+	QUAD $0x08153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x091506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 9
+	QUAD $0x0a1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 10
+	QUAD $0x0b150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 11
+	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
+	QUAD $0x0c1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
+	QUAD $0x0f1536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 15
+	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x01151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 1
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
+	QUAD $0x0315065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 3
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x04150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 4
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0515065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 5
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0615065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 6
+	QUAD $0x0715165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 7
+	QUAD $0x0000010824ac8b4c                   // mov    r13, qword [rsp + 264]
+	QUAD $0x08152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 8
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x09153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 9
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	QUAD $0x0a153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 10
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x0b151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 11
+	QUAD $0x0c150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 12
+	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
+	QUAD $0x0d15065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 13
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0e153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x0f1516442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r10 + 21], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x02163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 2
+	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x041616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 4
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x061616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 6
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x071616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 7
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x081616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 8
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x091616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 9
+	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
+	QUAD $0x0a1636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
+	QUAD $0x0c1626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 12
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0d163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 13
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x0e160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 14
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
+	LONG $0x7cb60f42; WORD $0x161e             // movzx    edi, byte [rsi + r11 + 22]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x02163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 2
+	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
+	QUAD $0x0316264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 3
+	QUAD $0x04160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 4
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x05160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 5
+	QUAD $0x0616064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 6
+	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
+	QUAD $0x07161e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 22], 7
+	QUAD $0x08162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 8
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0916064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 9
+	QUAD $0x0a163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 10
+	QUAD $0x0b161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 11
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	QUAD $0x0c163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 12
+	QUAD $0x0d16064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 22], 13
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0e160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 14
+	QUAD $0x0f16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	QUAD $0x011716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 1
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	QUAD $0x021706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 2
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x03173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 3
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x04173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 4
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x05173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 5
+	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
+	QUAD $0x06172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 6
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x07173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 7
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x08173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 8
+	QUAD $0x091716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 9
+	QUAD $0x0a1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 10
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0b1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 11
+	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
+	QUAD $0x0c1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 12
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x0d171e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 23], 13
+	QUAD $0x0e170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 14
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0f1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	QUAD $0x01170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 1
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x02173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 2
+	QUAD $0x0317265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 3
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x04173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 4
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x05173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 5
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x06173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 6
+	QUAD $0x07171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 7
+	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
+	QUAD $0x0817265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 8
+	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x0a171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 10
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
+	QUAD $0x0c173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 13
+	QUAD $0x0e170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 14
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0f170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 15
+	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 1
+	QUAD $0x021806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 2
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x031816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 3
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x04183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 4
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x05183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 5
+	QUAD $0x06182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 6
+	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
+	QUAD $0x071806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 7
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x08183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 8
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	QUAD $0x09182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 9
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0a183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 11
+	QUAD $0x0c1836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 12
+	QUAD $0x0d181e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 24], 13
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0e183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 14
+	QUAD $0x0f1816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 15
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	LONG $0x167cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdx + 24]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x01180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 1
+	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
+	QUAD $0x02180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 2
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x03183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 3
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x04183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 4
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x05183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 5
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x06183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 6
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x07183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 7
+	QUAD $0x0818264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 8
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x09183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 9
+	QUAD $0x0a181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 10
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0b183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 11
+	QUAD $0x0c183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 12
+	QUAD $0x0d18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 13
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0e18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 14
+	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
+	QUAD $0x0f181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 15
+	LONG $0x0e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rcx + 25]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x011906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 1
+	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
+	QUAD $0x02191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 2
+	QUAD $0x031916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 3
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
+	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
+	QUAD $0x051936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 5
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x061906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 6
+	QUAD $0x071906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 7
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x08190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 8
+	QUAD $0x09192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 9
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x0a193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 10
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x0b1906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 11
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x0c1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0e1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 15
+	LONG $0x167cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdx + 25]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
+	QUAD $0x0119265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 1
+	QUAD $0x02190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 2
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0319065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0419065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 4
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0519065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 5
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x06192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 6
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0719065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 7
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0819065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 8
+	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
+	QUAD $0x0919165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 10
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0b19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 11
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0c19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 12
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0d19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 13
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0e19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 14
+	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
+	QUAD $0x0f191e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r11 + 25], 15
+	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	LONG $0x7cb60f42; WORD $0x1a1e             // movzx    edi, byte [rsi + r11 + 26]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
+	QUAD $0x021a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 2
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x031a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 3
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
+	QUAD $0x051a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 5
+	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
+	QUAD $0x061a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 6
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x071a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 7
+	QUAD $0x081a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 8
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x091a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 9
+	QUAD $0x0a1a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 10
+	QUAD $0x0b1a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 11
+	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
+	QUAD $0x0c1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 12
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x0d1a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 13
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0e1a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 14
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0f1a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 15
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0e7cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rcx + 26]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 1
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x021a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 2
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x031a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 3
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x041a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 4
+	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
+	QUAD $0x051a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 5
+	QUAD $0x061a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 6
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x071a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 7
+	QUAD $0x0000010824ac8b4c                   // mov    r13, qword [rsp + 264]
+	QUAD $0x081a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 8
+	QUAD $0x091a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0a1a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 10
+	QUAD $0x0b1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 11
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0c1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 12
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x0d1a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 13
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0e1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 14
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 15
+	LONG $0x7cb60f42; WORD $0x1b1e             // movzx    edi, byte [rsi + r11 + 27]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x011b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 1
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x021b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 2
+	QUAD $0x031b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 3
+	QUAD $0x041b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 4
+	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
+	QUAD $0x051b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 5
+	QUAD $0x061b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 6
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x071b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 7
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x081b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 8
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	QUAD $0x091b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 9
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0a1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 10
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0b1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 11
+	QUAD $0x0c1b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 12
+	QUAD $0x0d1b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 27], 13
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0e1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 14
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0f1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 15
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	LONG $0x167cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rdx + 27]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x011b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 1
+	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
+	QUAD $0x021b0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 27], 2
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x031b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 3
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x041b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 4
+	QUAD $0x051b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 5
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x061b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 6
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x071b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 7
+	QUAD $0x081b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 8
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x091b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 9
+	QUAD $0x0a1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 10
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x0b1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 11
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0c1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 12
+	QUAD $0x0d1b165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 27], 13
+	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
+	QUAD $0x0e1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 14
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0f1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0e7cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rcx + 28]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 1
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x021c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 2
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x031c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 3
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+	QUAD $0x041c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 4
+	QUAD $0x051c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 5
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x061c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 6
+	QUAD $0x071c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 7
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x081c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 8
+	QUAD $0x091c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 9
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0a1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 11
+	QUAD $0x000000f8249c8b48                   // mov    rbx, qword [rsp + 248]
+	QUAD $0x0c1c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 13
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0e1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 14
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x0f1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 15
+	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x1c26             // movzx    edi, byte [rsi + r12 + 28]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
+	QUAD $0x021c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 2
+	QUAD $0x031c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 3
+	QUAD $0x041c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 4
+	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
+	QUAD $0x051c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 5
+	QUAD $0x061c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 6
+	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
+	QUAD $0x071c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 7
+	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
+	QUAD $0x081c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 8
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x091c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 9
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x0a1c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 10
+	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
+	QUAD $0x0b1c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 11
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0c1c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 13
+	QUAD $0x0e1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 14
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0f1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
+	QUAD $0x011d2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 29], 1
+	QUAD $0x021d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 2
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x031d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 3
+	QUAD $0x041d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 4
+	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
+	QUAD $0x051d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 5
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x061d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 6
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x071d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 7
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x081d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 8
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0a1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 11
+	QUAD $0x0c1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 12
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0d1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 13
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0e1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 14
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x0f1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 15
+	LONG $0x7cb60f42; WORD $0x1d26             // movzx    edi, byte [rsi + r12 + 29]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x011d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 1
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x021d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 2
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x031d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 3
+	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
+	QUAD $0x041d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 4
+	QUAD $0x051d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 5
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x061d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 6
+	QUAD $0x071d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 7
+	QUAD $0x081d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 29], 8
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x091d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 9
+	QUAD $0x0a1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 10
+	QUAD $0x0b1d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 11
+	QUAD $0x0c1d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 12
+	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
+	QUAD $0x0d1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 13
+	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
+	QUAD $0x0e1d16642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r10 + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0f1d16442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + rdx + 29], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
+	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
+	LONG $0x7cb60f42; WORD $0x1e06             // movzx    edi, byte [rsi + r8 + 30]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 30], 1
+	LONG $0x7cb60f42; WORD $0x1f06             // movzx    edi, byte [rsi + r8 + 31]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011f2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 31], 1
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
+	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
+	QUAD $0x031e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 3
+	QUAD $0x031f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 3
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
+	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
+	QUAD $0x051e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 30], 5
+	QUAD $0x051f1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 31], 5
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
+	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
+	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
+	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
+	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0a1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 10
+	QUAD $0x0a1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
+	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
+	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0e1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 14
+	QUAD $0x0e1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
+	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0e44b60f; BYTE $0x1e               // movzx    eax, byte [rsi + rcx + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x011e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 1
+	LONG $0x0e44b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rcx + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 1
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
+	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
+	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
+	QUAD $0x041e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 4
+	QUAD $0x041f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 4
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
+	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
+	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
+	QUAD $0x071e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 7
+	QUAD $0x071f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 7
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x081e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 8
+	QUAD $0x081f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 8
+	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
+	QUAD $0x091e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 9
+	QUAD $0x091f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
+	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
+	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
+	QUAD $0x0c1e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 12
+	QUAD $0x0c1f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
+	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
+	QUAD $0x0e1e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 14
+	QUAD $0x0e1f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 14
+	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
+	QUAD $0x0f1e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 30], 15
+	QUAD $0x0f1f167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	QUAD $0x00020024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 512]
+	QUAD $0x0004c0249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 1216]
+	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
+	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
+	LONG $0xf87485c5                           // vpcmpeqb    ymm7, ymm15, ymm0
+	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
+	QUAD $0x0001e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 480]
+	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI1_1] */
+	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
+	QUAD $0x0001c024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 448]
+	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI1_2] */
+	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
+	LONG $0xe0740dc5                           // vpcmpeqb    ymm12, ymm14, ymm0
+	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI1_3] */
+	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x0001a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 416]
+	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI1_4] */
+	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
+	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
+	QUAD $0x0004a024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1184]
+	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI1_5] */
+	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
+	QUAD $0x00048024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1152]
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI1_6] */
+	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
+	QUAD $0x00044024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1088]
+	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
+	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
+	QUAD $0x00046024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1120]
+	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
+	QUAD $0x000420249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1056]
+	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
+	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000400249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1024]
+	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
+	QUAD $0x0003e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 992]
+	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	QUAD $0x0003c024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 960]
+	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
+	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000380249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 896]
+	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
+	QUAD $0x0003a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 928]
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
+	QUAD $0x00034024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 832]
+	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
+	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
+	QUAD $0x000360249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 864]
+	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
+	QUAD $0x00030024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 768]
+	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000320249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 800]
+	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
+	QUAD $0x0002c024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 704]
+	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	QUAD $0x0002e024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 736]
+	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
+	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
+	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
+	QUAD $0x0002a0249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 672]
+	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
+	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
+	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
+	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
+	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
+	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
+	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
+	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
+	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
+	QUAD $0x00022024ac74fdc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm0, yword [rsp + 544]
+	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
+	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
+	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
+	QUAD $0x00024024b474fdc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm0, yword [rsp + 576]
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	QUAD $0x000280249c74fdc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm0, yword [rsp + 640]
+	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
+	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
+	QUAD $0x00026024a474fdc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm0, yword [rsp + 608]
+	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI1_4] */
+	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x000140248c74fdc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm0, yword [rsp + 320]
+	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
+	QUAD $0x000120249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 288]
+	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
+	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
+	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
+	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
+	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
+	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
+	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
+	JNE  LBB1_166
+	QUAD $0x0000018824ac8b4c                   // mov    r13, qword [rsp + 392]
+	QUAD $0x0000018024ac3b4c                   // cmp    r13, qword [rsp + 384]
+	QUAD $0x0000011824bc8b4c                   // mov    r15, qword [rsp + 280]
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
+	JNE  LBB1_36
+	JMP  LBB1_109
+
+LBB1_168:
+	LONG $0xe0e78349                     // and    r15, -32
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
+	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
+	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
+	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
+	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
+
+LBB1_169:
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x0e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rcx + 2]
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
+	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
+	LONG $0xe86e79c5                           // vmovd    xmm13, eax
+	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
+	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
+	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
+	QUAD $0x000000f824948948                   // mov    qword [rsp + 248], rdx
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
+	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
+	LONG $0x40cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 576
+	QUAD $0x00000100249c8948                   // mov    qword [rsp + 256], rbx
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
+	LONG $0x80cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 640
+	QUAD $0x000000d024a4894c                   // mov    qword [rsp + 208], r12
+	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
+	LONG $0xa0ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 672
+	QUAD $0x0000009024b4894c                   // mov    qword [rsp + 144], r14
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
+	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	LONG $0xe0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 736
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	LONG $0x00c98149; WORD $0x0003; BYTE $0x00 // or    r9, 768
+	QUAD $0x000000e0248c894c                   // mov    qword [rsp + 224], r9
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
+	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
+	QUAD $0x000000c0249c894c                   // mov    qword [rsp + 192], r11
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	LONG $0x60ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 864
+	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
+	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
+	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
+	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0xa0ca8148; WORD $0x0003; BYTE $0x00 // or    rdx, 928
+	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000108248c8948                   // mov    qword [rsp + 264], rcx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
+	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
+	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
+	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
+	LONG $0x2031e3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + rbx], 2
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
+	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 4
+	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 5
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 6
+	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 7
+	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
+	QUAD $0x000000a024bc8948                   // mov    qword [rsp + 160], rdi
+	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r9], 8
+	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 9
+	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r11], 10
+	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r10], 11
+	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r8], 12
+	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 13
+	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
+	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
+	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
+	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 1
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 2
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r12], 3
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 4
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 5
+	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
+	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 6
+	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
+	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 10
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 14
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x040116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 4
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
+	QUAD $0x07012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 7
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x08012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 8
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x09012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 9
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0c0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 12
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0e0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 14
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
+	QUAD $0x0101366c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r14 + 1], 1
+	QUAD $0x0201166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 2
+	QUAD $0x0301266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 3
+	QUAD $0x0401066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 4
+	QUAD $0x05011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 5
+	QUAD $0x06010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 6
+	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
+	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
+	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
+	QUAD $0x0a011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 10
+	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 14
+	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xd76e79c5                           // vmovd    xmm10, edi
+	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
+	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
+	QUAD $0x010206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 1
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x02020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 2
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
+	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
+	QUAD $0x06020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 6
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x070216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 7
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x080206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 8
+	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
+	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x0a022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 10
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x0c0236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 12
+	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
+	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
+	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x06023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 6
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
+	QUAD $0x010306642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + r8 + 3], 1
+	QUAD $0x02030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 2
+	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x04031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 4
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x05030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 5
+	QUAD $0x06030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 6
+	QUAD $0x070316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 7
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x080316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 8
+	QUAD $0x090326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 9
+	QUAD $0x0a032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 10
+	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
+	QUAD $0x0c0336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 12
+	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0e030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 14
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x0f031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 15
+	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x02031e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 3], 2
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+	QUAD $0x0503166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 5
+	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
+	QUAD $0x0603366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 6
+	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0803066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 8
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+	QUAD $0x09033e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 3], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
+	LONG $0xc76e79c5                           // vmovd    xmm8, edi
+	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
+	QUAD $0x0f0326442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 3], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
+	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
+	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
+	QUAD $0x010406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 1
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x020406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 2
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
+	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
+	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
+	QUAD $0x05040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 5
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x060406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 6
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x070406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 7
+	QUAD $0x080416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x090406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 9
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0a0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 12
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x0d0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 13
+	QUAD $0x0e040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 14
+	QUAD $0x0f041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 15
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0104065c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rsi + rax + 4], 1
+	QUAD $0x02041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 2
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+	QUAD $0x03041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0404065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 4
+	QUAD $0x0504165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 5
+	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
+	QUAD $0x0604365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 6
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x0704165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 7
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	QUAD $0x08040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 8
+	QUAD $0x09043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 9
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0a041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 10
+	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
+	QUAD $0x0b04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 11
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0c041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 12
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0d041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 13
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x0e043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 14
+	QUAD $0x0f04265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 15
+	QUAD $0x010506642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r8 + 5], 1
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	QUAD $0x02053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 2
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x03051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 3
+	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
+	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	QUAD $0x06052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 6
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x07050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 7
+	QUAD $0x080516642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 5], 8
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x09050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 9
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0a050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 10
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0b0516642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 5], 11
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x0c050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 12
+	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
+	QUAD $0x0d0506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 13
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0e050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 15
+	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
+	QUAD $0x0105266c2049a3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + r12 + 5], 1
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
+	QUAD $0x03051e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 5], 3
+	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0505066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 5
+	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
+	QUAD $0x0705166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 5], 7
+	QUAD $0x08050e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 5], 8
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	QUAD $0x09050e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 5], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
+	QUAD $0x0b05366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
+	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0506442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 5], 15
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x01061e442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r11 + 6], 1
+	QUAD $0x02063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 2
+	QUAD $0x03061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 3
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x040606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 4
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x050606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 5
+	QUAD $0x06062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 6
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x070616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 7
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x080606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x090606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 9
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x0a0636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 10
+	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
+	QUAD $0x0b0616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c0606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 12
+	QUAD $0x0d0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 13
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
+	QUAD $0x0f060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 15
+	QUAD $0x0106266c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + r12 + 6], 1
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x02060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 2
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
+	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
+	QUAD $0x06061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 6
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x07060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 7
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x0806266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 6], 8
+	QUAD $0x09060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 9
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
+	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
+	QUAD $0x0b060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 11
+	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
+	QUAD $0x0c06066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 6], 12
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0d062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 13
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0e060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 14
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0f060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 15
+	QUAD $0x01071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 1
+	QUAD $0x02073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 2
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x03070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 3
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	QUAD $0x04071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 4
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x05070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 5
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x06070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 6
+	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x080716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 8
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x09070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 9
+	QUAD $0x0a0736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 10
+	QUAD $0x0b0716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 11
+	QUAD $0x0c0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 12
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x0d0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 13
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0e073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 15
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x01070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 1
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x02070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 2
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x03070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 3
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0407164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 4
+	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
+	QUAD $0x06071e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 7], 6
+	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
+	QUAD $0x07072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 7
+	QUAD $0x0807264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 8
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0907164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 9
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
+	QUAD $0x0b070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 11
+	QUAD $0x0c07064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 7], 12
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0d070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 13
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0e070e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rcx + 7], 14
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0f070e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 7], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x01080e442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + rcx + 8], 1
+	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
+	QUAD $0x020806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 8], 2
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
+	QUAD $0x04081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 4
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x05080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 5
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x06080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 6
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x070816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 7
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x080836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 8
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x090816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 8], 9
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x0a081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 10
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0b0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 11
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x0c0826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 8], 12
+	QUAD $0x0d0806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 13
+	QUAD $0x0e083e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 8], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f0806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 15
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0108066c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rax + 8], 1
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x02080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 2
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0308066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 3
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0508066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 5
+	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
+	QUAD $0x06083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 6
+	QUAD $0x07082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 7
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0808066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 8
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0908066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a08066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 10
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0b08066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 11
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0c08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 12
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0f08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 15
+	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
+	QUAD $0x01092e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r13 + 9], 1
+	QUAD $0x020906742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r8 + 9], 2
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x030916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 3
+	QUAD $0x04091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 4
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x050916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 5
+	QUAD $0x06090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 6
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x07090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 7
+	QUAD $0x080936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 8
+	QUAD $0x090916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 9
+	QUAD $0x0a091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 10
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0b090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 11
+	QUAD $0x0c0926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 12
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x0d090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 13
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0e090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 14
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x0f092e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r13 + 9], 15
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x01090e7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rcx + 9], 1
+	QUAD $0x02090e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 9], 2
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x03090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 3
+	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x05091e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 9], 5
+	QUAD $0x06093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 6
+	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
+	QUAD $0x07091e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 9], 7
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x08090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 8
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x09090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 9
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0a090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 10
+	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x00044024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm5
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x010a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 1
+	QUAD $0x020a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 2
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x030a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 3
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x040a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 4
+	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
+	QUAD $0x050a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 5
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x060a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 6
+	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
+	QUAD $0x070a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 7
+	QUAD $0x080a365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 10], 8
+	QUAD $0x090a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 9
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0a0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 12
+	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
+	QUAD $0x0d0a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 13
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0e0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 14
+	QUAD $0x0f0a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 15
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x010a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 1
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x020a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 2
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x040a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 4
+	QUAD $0x050a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 5
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	QUAD $0x060a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 6
+	QUAD $0x070a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 7
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x080a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 8
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0a0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 10
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x0b0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 11
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0c0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 12
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0d0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 13
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x0e0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 14
+	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
+	QUAD $0x0f0a2e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 10], 15
+	QUAD $0x010b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 1
+	QUAD $0x020b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 2
+	QUAD $0x030b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 3
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x040b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 4
+	QUAD $0x050b264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 11], 5
+	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
+	QUAD $0x060b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 6
+	QUAD $0x070b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 7
+	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
+	QUAD $0x080b364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 11], 8
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x090b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 9
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x0a0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 10
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0b0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 11
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0c0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 12
+	QUAD $0x0d0b164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 11], 13
+	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
+	QUAD $0x0e0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 14
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0f0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 15
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x010b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 11], 1
+	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
+	QUAD $0x020b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 2
+	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x040b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 4
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x050b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 5
+	QUAD $0x060b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 6
+	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
+	QUAD $0x070b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 11], 7
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x080b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 8
+	QUAD $0x090b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 10
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0b0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
+	QUAD $0x0e0b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 11], 14
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x010c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 1
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x020c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 2
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x030c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 3
+	QUAD $0x040c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 4
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x050c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 12], 5
+	QUAD $0x060c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 6
+	QUAD $0x070c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 12], 7
+	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
+	QUAD $0x080c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 12], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x090c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 9
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0a0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 11
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x0c0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 12
+	QUAD $0x0d0c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 13
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x0e0c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 15
+	QUAD $0x010c16542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + rdx + 12], 1
+	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
+	QUAD $0x020c36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 12], 2
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+	QUAD $0x030c1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 12], 3
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x040c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 4
+	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
+	QUAD $0x050c36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 12], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
+	QUAD $0x070c0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 12], 7
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x080c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 8
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x090c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 9
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0a0c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 10
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x0b0c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 11
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0c0c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 12
+	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
+	QUAD $0x0d0c0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 12], 13
+	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
+	QUAD $0x0e0c06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 12], 14
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0f0c1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 12], 15
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x010d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 1
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	QUAD $0x020d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 2
+	QUAD $0x030d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 3
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x040d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 4
+	QUAD $0x050d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 5
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	QUAD $0x060d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 6
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x070d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 7
+	QUAD $0x080d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 8
+	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
+	QUAD $0x090d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 9
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x0a0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 10
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0b0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 11
+	QUAD $0x0c0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 12
+	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
+	QUAD $0x0d0d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 13
+	QUAD $0x0e0d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 13], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 15
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x010d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 1
+	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
+	QUAD $0x030d1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 13], 3
+	QUAD $0x040d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 4
+	QUAD $0x050d364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 13], 5
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x060d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 6
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x070d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 7
+	QUAD $0x080d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 8
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 10
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0b0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 12
+	QUAD $0x0d0d0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 13], 13
+	QUAD $0x0e0d064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 13], 14
+	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
+	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
+	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x010e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 1
+	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
+	QUAD $0x020e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 2
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x030e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 3
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x040e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 4
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x050e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 14], 5
+	QUAD $0x060e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 6
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x070e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 7
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x080e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 8
+	QUAD $0x090e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 14], 9
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0a0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 10
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0b0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c0e3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 14], 12
+	QUAD $0x0d0e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 14], 13
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0e0e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 14
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x0f0e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 15
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x010e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 1
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x020e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 2
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	QUAD $0x030e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 3
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x040e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 4
+	QUAD $0x050e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 5
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x060e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 6
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x070e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 7
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x080e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 8
+	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
+	QUAD $0x090e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 9
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0a0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 10
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0c0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 12
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0d0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 13
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
+	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x010f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 1
+	QUAD $0x020f1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 15], 2
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x030f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 3
+	QUAD $0x040f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 4
+	QUAD $0x050f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 5
+	QUAD $0x060f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 6
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x070f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 7
+	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
+	QUAD $0x080f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x090f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 9
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x0a0f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 10
+	QUAD $0x0b0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 12
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x0d0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 13
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x0e0f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 14
+	QUAD $0x0f0f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rax + 15]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x010f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 1
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x020f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 2
+	QUAD $0x030f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x040f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 4
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x050f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x060f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 6
+	QUAD $0x070f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 7
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
+	QUAD $0x090f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 10
+	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
+	QUAD $0x0b0f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0d0f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 13
+	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
+	QUAD $0x0e0f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 14
+	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
+	QUAD $0x0f0f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 15
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	LONG $0x7cb60f42; WORD $0x1016             // movzx    edi, byte [rsi + r10 + 16]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x01100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 1
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x02100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 2
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x03100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 3
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	QUAD $0x04100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 4
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x05100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 5
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x06100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 6
+	QUAD $0x07103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 7
+	QUAD $0x081006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 8
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x09100e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 16], 9
+	QUAD $0x0a101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 10
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0b103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 12
+	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
+	QUAD $0x0d1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 13
+	QUAD $0x0e102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 14
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0f103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 15
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	LONG $0x1e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rbx + 16]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x01103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 1
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x02103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 2
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x03103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 3
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x04102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 4
+	QUAD $0x0510164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 5
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x0610164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 6
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x0710164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 7
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0810164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 8
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0910164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 9
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0a10164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 10
+	QUAD $0x0b10364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 11
+	QUAD $0x0c10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 12
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x0d103e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 16], 13
+	QUAD $0x0e101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 14
+	QUAD $0x0f10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 15
+	LONG $0x7cb60f42; WORD $0x1116             // movzx    edi, byte [rsi + r10 + 17]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x011106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 1
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	QUAD $0x021116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 2
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x031116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 3
+	QUAD $0x04110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 4
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x051106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 5
+	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
+	QUAD $0x06111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 6
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x071106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 7
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x081136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 8
+	QUAD $0x09110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 9
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0a1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 11
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x0c1126542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 17], 12
+	QUAD $0x0d1106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 13
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0e110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 15
+	LONG $0x1e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rbx + 17]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x01110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 1
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x02110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 2
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x0311065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 17], 3
+	QUAD $0x04112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 4
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x05113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 5
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x06113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 6
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x07113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 7
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x08113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 8
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x09113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 9
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x0a110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 10
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x0b113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 11
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0c113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 12
+	QUAD $0x0d113e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 17], 13
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0e113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f113e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rdi + 17], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	LONG $0x3e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rdi + 18]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x01123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 1
+	QUAD $0x021216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 2
+	QUAD $0x031216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 3
+	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
+	QUAD $0x04123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 4
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x05123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 5
+	QUAD $0x06121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 6
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x071216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 7
+	QUAD $0x081236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 8
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x091216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 9
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x0a1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 10
+	QUAD $0x0b1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 11
+	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x0d1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 15
+	LONG $0x1e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rbx + 18]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	QUAD $0x01122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 1
+	QUAD $0x02120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 2
+	QUAD $0x0312064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 3
+	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
+	QUAD $0x0412164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 4
+	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
+	QUAD $0x0512364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0612064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 6
+	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
+	QUAD $0x07121e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 18], 7
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x08120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 8
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0912064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 9
+	QUAD $0x0a120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 10
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x0b123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 11
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0c123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 12
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0d123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 13
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0e123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 15
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
+	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
+	QUAD $0x021326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 2
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
+	QUAD $0x04133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 4
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x05133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 5
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x06133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 6
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x09133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 9
+	QUAD $0x0a1316542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 19], 10
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0b133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 12
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x0d133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 13
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0e130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 14
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x0f1306542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 19], 15
+	LONG $0x1e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rbx + 19]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x01132e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 19], 1
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x0213165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 2
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x0313165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 3
+	QUAD $0x0413165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 4
+	QUAD $0x0513365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 5
+	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
+	QUAD $0x06131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 6
+	QUAD $0x07131e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 19], 7
+	QUAD $0x08130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 8
+	QUAD $0x0913065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 9
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x0a131e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 19], 10
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0b13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 11
+	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
+	QUAD $0x0c132e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 19], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 14
+	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
+	QUAD $0x0f13365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
+	LONG $0x7cb60f42; WORD $0x143e             // movzx    edi, byte [rsi + r15 + 20]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x01140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 1
+	QUAD $0x021426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 2
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x031406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 3
+	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
+	QUAD $0x041426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 4
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x051416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 20], 5
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x061406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 6
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x071406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 7
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x081406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x091406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 9
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0a1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 12
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x0d1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 13
+	QUAD $0x0e140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 14
+	QUAD $0x0f1406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 20], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rax + 20]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0114064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 20], 1
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x0214064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 2
+	QUAD $0x0314164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0414064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 20], 4
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x0514164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 5
+	QUAD $0x06141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 6
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x0714164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 7
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0814164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 8
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0914164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 9
+	QUAD $0x0a141e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 20], 10
+	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
+	QUAD $0x0b141e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 20], 11
+	QUAD $0x0c142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 12
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0d142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 13
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x0e140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 14
+	QUAD $0x0f14364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 15
+	LONG $0x7cb60f42; WORD $0x153e             // movzx    edi, byte [rsi + r15 + 21]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x01150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 1
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x02150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 2
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x03150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 3
+	QUAD $0x041526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 4
+	QUAD $0x051516542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 21], 5
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x061516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 6
+	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
+	QUAD $0x071526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 7
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x08150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 8
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x091516542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 21], 9
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x0a153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 10
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x0b1536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 12
+	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
+	QUAD $0x0d151e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 21], 13
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0e153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 14
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0f153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 15
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	LONG $0x3e7cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rdi + 21]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x01153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 1
+	QUAD $0x0215065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 2
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x03153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 3
+	QUAD $0x0415065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 4
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0515065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 5
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	QUAD $0x0615065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 6
+	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
+	QUAD $0x07153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 7
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0815065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 8
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0915065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a15065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 10
+	QUAD $0x0b151e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 21], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c15065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 12
+	QUAD $0x0d152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 13
+	QUAD $0x0e150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1506442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 21], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x067cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rax + 22]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x02163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 2
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x03163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 3
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x04163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 4
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x05162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 5
+	QUAD $0x061616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 6
+	QUAD $0x071626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 7
+	QUAD $0x08160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 8
+	QUAD $0x091616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 22], 9
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x0a1626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 10
+	QUAD $0x0b1636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 11
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x0c161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 12
+	QUAD $0x0d161e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 22], 13
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0e160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 15
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	LONG $0x1e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rbx + 22]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x0116164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 1
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x02160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 2
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x0316164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 3
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0416164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 4
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x0516164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 5
+	QUAD $0x0616064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 22], 6
+	QUAD $0x07163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 7
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0816164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 8
+	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
+	QUAD $0x0916364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 9
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0a16164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 10
+	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
+	QUAD $0x0b160e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 22], 11
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0c16164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 12
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0d16164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 13
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x0e163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 14
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0f16164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 22], 15
+	LONG $0x067cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rax + 23]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x011706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 1
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x021706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 2
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x031716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 3
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x041706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 4
+	QUAD $0x05172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 5
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x06173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 6
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x07173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 7
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x08173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 8
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x09173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 9
+	QUAD $0x0a1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 10
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0b173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 11
+	QUAD $0x0c171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 12
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x0d173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 13
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0e173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 14
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x0f172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 15
+	LONG $0x1e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rbx + 23]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0117165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 1
+	QUAD $0x02170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 2
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x03170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 3
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x04171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 4
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+	QUAD $0x0517165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 5
+	QUAD $0x0617065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 6
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x07173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 7
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x0817065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 8
+	QUAD $0x0917365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 9
+	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
+	QUAD $0x0a17265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 10
+	QUAD $0x0b170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 11
+	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
+	QUAD $0x0c171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 12
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	QUAD $0x0d17365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 13
+	QUAD $0x0e173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 14
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	QUAD $0x0f170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 15
+	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	LONG $0x3e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdi + 24]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x01183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 1
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	QUAD $0x02183e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 24], 2
+	QUAD $0x031816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 3
+	QUAD $0x041806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 4
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x051806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 5
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x061806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 6
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x071816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 7
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x081806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x091806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 9
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0a1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 12
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x0d1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e1806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 14
+	QUAD $0x0f182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rax + 24]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0118064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 1
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0218064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 2
+	QUAD $0x03180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 3
+	QUAD $0x04181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 4
+	QUAD $0x0518164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 5
+	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
+	QUAD $0x0618164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 6
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0718064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 7
+	QUAD $0x0818064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 8
+	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
+	QUAD $0x09182e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 24], 9
+	QUAD $0x0a18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 10
+	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
+	QUAD $0x0b18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 11
+	QUAD $0x0c181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 12
+	QUAD $0x0d18364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 24], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 14
+	QUAD $0x0f180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 15
+	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
+	LONG $0x7cb60f42; WORD $0x1906             // movzx    edi, byte [rsi + r8 + 25]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x01190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 1
+	QUAD $0x02193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 2
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x03190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 3
+	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
+	QUAD $0x04193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 4
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x05190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 5
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x06190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 6
+	QUAD $0x071916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 7
+	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
+	QUAD $0x08190e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 25], 8
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x091916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 9
+	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
+	QUAD $0x0a191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 10
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0b191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 11
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0c1916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 12
+	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
+	QUAD $0x0d1936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 13
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0e1916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 14
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0f1916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 15
+	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
+	LONG $0x167cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdx + 25]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0119165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 1
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x02193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 2
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x03193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 3
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x04193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 4
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x05193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 5
+	QUAD $0x0619165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 6
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x07193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 7
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x08193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 8
+	QUAD $0x09192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 9
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x0a192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 10
+	QUAD $0x0b19265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 11
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0c193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 12
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x0d19165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 13
+	QUAD $0x0e19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 14
+	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f193e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rdi + 25], 15
+	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
+	LONG $0x7cb60f42; WORD $0x1a06             // movzx    edi, byte [rsi + r8 + 26]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
+	QUAD $0x011a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 1
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x021a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 2
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x031a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 3
+	QUAD $0x041a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 4
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x051a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 5
+	QUAD $0x061a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 6
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x071a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 7
+	QUAD $0x081a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x091a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 9
+	QUAD $0x0a1a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 10
+	QUAD $0x0b1a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 11
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x0c1a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 12
+	QUAD $0x0d1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 13
+	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 15
+	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
+	LONG $0x7cb60f42; WORD $0x1a26             // movzx    edi, byte [rsi + r12 + 26]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 1
+	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
+	QUAD $0x021a364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 26], 2
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x031a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x041a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 4
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x051a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x061a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 6
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x071a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 7
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x081a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 8
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x091a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 9
+	QUAD $0x0a1a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 10
+	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
+	QUAD $0x0b1a1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 26], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 12
+	QUAD $0x0d1a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 14
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0f1a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 15
+	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
+	LONG $0x167cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rdx + 27]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 1
+	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
+	QUAD $0x021b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 2
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x031b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 3
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x041b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 4
+	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
+	QUAD $0x051b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 5
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	QUAD $0x061b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 6
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x071b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 7
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x081b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 8
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x091b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 9
+	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
+	QUAD $0x0a1b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 10
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0b1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 11
+	QUAD $0x0c1b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 12
+	QUAD $0x0d1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 13
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0e1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 14
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0f1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 15
+	LONG $0x7cb60f42; WORD $0x1b26             // movzx    edi, byte [rsi + r12 + 27]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x011b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 1
+	QUAD $0x021b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 2
+	QUAD $0x031b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 3
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x041b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 4
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x051b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 5
+	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
+	QUAD $0x061b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 6
+	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
+	QUAD $0x071b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 7
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x081b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 8
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x091b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 9
+	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
+	QUAD $0x0a1b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 10
+	QUAD $0x0b1b1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 27], 11
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0c1b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 12
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0d1b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 13
+	QUAD $0x0e1b065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 27], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1b065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x011c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 1
+	QUAD $0x021c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 2
+	QUAD $0x031c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 3
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x041c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 4
+	QUAD $0x051c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 5
+	QUAD $0x061c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 6
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x071c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 7
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x081c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 8
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x091c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 9
+	QUAD $0x0a1c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 10
+	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
+	QUAD $0x0b1c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 12
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x0d1c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 13
+	QUAD $0x0e1c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f1c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x021c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 2
+	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
+	QUAD $0x031c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 3
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x041c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 4
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+	QUAD $0x051c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 5
+	QUAD $0x061c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 6
+	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
+	QUAD $0x071c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 7
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x081c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 8
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x091c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 9
+	QUAD $0x0a1c264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 28], 10
+	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
+	QUAD $0x0b1c264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 28], 11
+	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
+	QUAD $0x0c1c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 12
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0d1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 13
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0e1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 15
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 1
+	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
+	QUAD $0x021d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 2
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x031d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 3
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x041d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 4
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x061d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 6
+	QUAD $0x071d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 7
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x081d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 8
+	QUAD $0x091d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 9
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x0a1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 10
+	QUAD $0x0b1d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 11
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0c1d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 12
+	QUAD $0x0d1d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 13
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0e1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 14
+	QUAD $0x0f1d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 15
+	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
+	LONG $0x7cb60f42; WORD $0x1d06             // movzx    edi, byte [rsi + r8 + 29]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
+	QUAD $0x011d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 1
+	QUAD $0x021d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 2
+	QUAD $0x031d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 3
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x041d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 4
+	QUAD $0x051d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 5
+	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
+	QUAD $0x061d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 6
+	QUAD $0x071d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 7
+	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
+	QUAD $0x081d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 8
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x091d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 10
+	QUAD $0x0b1d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 11
+	QUAD $0x0c1d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 13
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x0e1d3e642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r15 + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1d06442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + rax + 29], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x067cb60f; BYTE $0x1e               // movzx    edi, byte [rsi + rax + 30]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x011e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 1
+	LONG $0x067cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rax + 31]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 1
+	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
+	QUAD $0x021e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 30], 2
+	QUAD $0x021f1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 31], 2
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
+	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
+	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
+	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
+	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
+	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
+	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
+	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
+	QUAD $0x0a1e1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 30], 10
+	QUAD $0x0a1f1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 31], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
+	QUAD $0x0c1e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 30], 12
+	QUAD $0x0c1f164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 31], 12
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
+	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 14
+	QUAD $0x0e1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
+	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
+	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
+	LONG $0x44b60f42; WORD $0x1e06             // movzx    eax, byte [rsi + r8 + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x011e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 1
+	LONG $0x44b60f42; WORD $0x1f06             // movzx    eax, byte [rsi + r8 + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 1
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
+	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
+	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
+	QUAD $0x041e2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 30], 4
+	QUAD $0x041f2e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 31], 4
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
+	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
+	QUAD $0x061e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 6
+	QUAD $0x061f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 6
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x071e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 7
+	QUAD $0x071f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 7
+	QUAD $0x081e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 8
+	QUAD $0x081f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 8
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
+	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
+	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
+	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
+	QUAD $0x0b1e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 11
+	QUAD $0x0b1f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 12
+	QUAD $0x0c1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
+	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
+	QUAD $0x0e1e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 14
+	QUAD $0x0e1f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 15
+	QUAD $0x0f1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	QUAD $0x00020024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 512]
+	QUAD $0x0004c0249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 1216]
+	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
+	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
+	LONG $0xf87485c5                           // vpcmpeqb    ymm7, ymm15, ymm0
+	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
+	QUAD $0x0001e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 480]
+	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI1_1] */
+	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
+	QUAD $0x0001c024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 448]
+	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI1_2] */
+	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
+	LONG $0xe0740dc5                           // vpcmpeqb    ymm12, ymm14, ymm0
+	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI1_3] */
+	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x0001a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 416]
+	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI1_4] */
+	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
+	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
+	QUAD $0x0004a024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1184]
+	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI1_5] */
+	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
+	QUAD $0x00048024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1152]
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI1_6] */
+	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
+	QUAD $0x00044024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1088]
+	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
+	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
+	QUAD $0x00046024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1120]
+	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
+	QUAD $0x000420249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1056]
+	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
+	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000400249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1024]
+	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
+	QUAD $0x0003e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 992]
+	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	QUAD $0x0003c024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 960]
+	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
+	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000380249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 896]
+	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
+	QUAD $0x0003a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 928]
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
+	QUAD $0x00034024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 832]
+	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
+	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
+	QUAD $0x000360249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 864]
+	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
+	QUAD $0x00030024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 768]
+	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000320249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 800]
+	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
+	QUAD $0x0002c024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 704]
+	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	QUAD $0x0002e024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 736]
+	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
+	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
+	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
+	QUAD $0x0002a0249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 672]
+	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
+	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
+	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
+	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
+	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
+	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
+	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
+	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
+	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
+	QUAD $0x00022024ac74fdc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm0, yword [rsp + 544]
+	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
+	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
+	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
+	QUAD $0x00024024b474fdc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm0, yword [rsp + 576]
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	QUAD $0x000280249c74fdc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm0, yword [rsp + 640]
+	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
+	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
+	QUAD $0x00026024a474fdc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm0, yword [rsp + 608]
+	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI1_4] */
+	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x000140248c74fdc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm0, yword [rsp + 320]
+	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
+	QUAD $0x000120249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 288]
+	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
+	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
+	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
+	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
+	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
+	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
+	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
+	JNE  LBB1_169
+	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
+	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
+	JNE  LBB1_90
+	JMP  LBB1_130
+
+DATA LCDATA2<>+0x000(SB)/8, $0x0101010101010101
+DATA LCDATA2<>+0x008(SB)/8, $0x0101010101010101
+DATA LCDATA2<>+0x010(SB)/8, $0x0101010101010101
+DATA LCDATA2<>+0x018(SB)/8, $0x0101010101010101
+DATA LCDATA2<>+0x020(SB)/8, $0x0404040404040404
+DATA LCDATA2<>+0x028(SB)/8, $0x0404040404040404
+DATA LCDATA2<>+0x030(SB)/8, $0x0404040404040404
+DATA LCDATA2<>+0x038(SB)/8, $0x0404040404040404
+DATA LCDATA2<>+0x040(SB)/8, $0x0808080808080808
+DATA LCDATA2<>+0x048(SB)/8, $0x0808080808080808
+DATA LCDATA2<>+0x050(SB)/8, $0x0808080808080808
+DATA LCDATA2<>+0x058(SB)/8, $0x0808080808080808
+DATA LCDATA2<>+0x060(SB)/8, $0x1010101010101010
+DATA LCDATA2<>+0x068(SB)/8, $0x1010101010101010
+DATA LCDATA2<>+0x070(SB)/8, $0x1010101010101010
+DATA LCDATA2<>+0x078(SB)/8, $0x1010101010101010
+DATA LCDATA2<>+0x080(SB)/8, $0x2020202020202020
+DATA LCDATA2<>+0x088(SB)/8, $0x2020202020202020
+DATA LCDATA2<>+0x090(SB)/8, $0x2020202020202020
+DATA LCDATA2<>+0x098(SB)/8, $0x2020202020202020
+DATA LCDATA2<>+0x0a0(SB)/8, $0x4040404040404040
+DATA LCDATA2<>+0x0a8(SB)/8, $0x4040404040404040
+DATA LCDATA2<>+0x0b0(SB)/8, $0x4040404040404040
+DATA LCDATA2<>+0x0b8(SB)/8, $0x4040404040404040
+DATA LCDATA2<>+0x0c0(SB)/8, $0x8080808080808080
+DATA LCDATA2<>+0x0c8(SB)/8, $0x8080808080808080
+DATA LCDATA2<>+0x0d0(SB)/8, $0x8080808080808080
+DATA LCDATA2<>+0x0d8(SB)/8, $0x8080808080808080
+GLOBL LCDATA2<>(SB), 8, $224
+
+TEXT ·_comparison_equal_scalar_arr_avx2(SB), $1320-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $32, SP
+	ANDQ $-32, SP
+	MOVQ BP, 1280(SP)
+	LEAQ LCDATA2<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_17
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_32
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_60
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_72
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_157
+	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_9
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB2_7:
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
+	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB2_7
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB2_9:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_13
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
+	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
+
+LBB2_11:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
+	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
+	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20244402                           // add    al, byte [rsp + 32]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB2_11
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+
+LBB2_13:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB2_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JE   LBB2_127
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_16:
+	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	WORD $0x894d; BYTE $0xde     // mov    r14, r11
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x33048841             // mov    byte [r11 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_16
+	JMP  LBB2_154
+
+LBB2_17:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_46
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_83
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_94
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_157
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0610fbc5         // vmovsd    xmm0, qword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_25
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB2_23:
+	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	WORD $0x894d; BYTE $0xdf     // mov    r15, r11
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB2_23
+	LONG $0x01c38349             // add    r11, 1
+
+LBB2_25:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_29
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
+	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
+
+LBB2_27:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
+	LONG $0xd7940f41                           // sete    r15b
+	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x58               // add    sil, byte [rsp + 88]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x60               // movzx    esi, byte [rsp + 96]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
+	LONG $0x2474b60f; BYTE $0x38               // movzx    esi, byte [rsp + 56]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20244402                           // add    al, byte [rsp + 32]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB2_27
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
+
+LBB2_29:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB2_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB2_136
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB2_138
+
+LBB2_32:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_105
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_157
+	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_38
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB2_36:
+	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	WORD $0x894d; BYTE $0xdc     // mov    r12, r11
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB2_36
+	LONG $0x01c38349             // add    r11, 1
+
+LBB2_38:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB2_128
+	LONG $0x20ff8349             // cmp    r15, 32
+	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
+	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
+	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
+	JB   LBB2_42
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
+	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
+	JAE  LBB2_165
+	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
+	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
+	JAE  LBB2_165
+
+LBB2_42:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
+	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
+	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
+
+LBB2_43:
+	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
+	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
+
+LBB2_44:
+	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
+	LONG $0x24343a45                           // cmp    r14b, byte [r12]
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0x24743a45; BYTE $0x01               // cmp    r14b, byte [r12 + 1]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x24743a45; BYTE $0x02               // cmp    r14b, byte [r12 + 2]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x24743a45; BYTE $0x03               // cmp    r14b, byte [r12 + 3]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x24743a45; BYTE $0x04               // cmp    r14b, byte [r12 + 4]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x24743a45; BYTE $0x05               // cmp    r14b, byte [r12 + 5]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x24743a45; BYTE $0x06               // cmp    r14b, byte [r12 + 6]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x24743a45; BYTE $0x07               // cmp    r14b, byte [r12 + 7]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x08713a44                           // cmp    r14b, byte [rcx + 8]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x09713a44                           // cmp    r14b, byte [rcx + 9]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x0a713a44                           // cmp    r14b, byte [rcx + 10]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x0b713a44                           // cmp    r14b, byte [rcx + 11]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x0c713a44                           // cmp    r14b, byte [rcx + 12]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x0d713a44                           // cmp    r14b, byte [rcx + 13]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x0e713a44                           // cmp    r14b, byte [rcx + 14]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x0f713a44                           // cmp    r14b, byte [rcx + 15]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x10713a44                           // cmp    r14b, byte [rcx + 16]
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0x11713a44                           // cmp    r14b, byte [rcx + 17]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x12713a44                           // cmp    r14b, byte [rcx + 18]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x13713a44                           // cmp    r14b, byte [rcx + 19]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x14713a44                           // cmp    r14b, byte [rcx + 20]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x15713a44                           // cmp    r14b, byte [rcx + 21]
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x16713a44                           // cmp    r14b, byte [rcx + 22]
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x17713a44                           // cmp    r14b, byte [rcx + 23]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
+	QUAD $0x000001102494940f                   // sete    byte [rsp + 272]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	QUAD $0x0000014024940244                   // add    r10b, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e4c041                           // shl    r12b, 7
+	WORD $0x0841; BYTE $0xc4                   // or    r12b, al
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0844; BYTE $0xd3                   // or    bl, r10b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000a024b40240                   // add    sil, byte [rsp + 160]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x05e7c041                           // shl    r15b, 5
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	WORD $0x0845; BYTE $0xf8                   // or    r8b, r15b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
+	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0xc308                               // or    bl, al
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
+	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
+	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
+	QUAD $0x0000009024bcb60f                   // movzx    edi, byte [rsp + 144]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	LONG $0x01468844                           // mov    byte [rsi + 1], r8b
+	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd808                               // or    al, bl
+	LONG $0x245cb60f; BYTE $0x20               // movzx    ebx, byte [rsp + 32]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xda08                               // or    dl, bl
+	WORD $0xc208                               // or    dl, al
+	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	WORD $0x5688; BYTE $0x03                   // mov    byte [rsi + 3], dl
+	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB2_44
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
+	JMP  LBB2_129
+
+LBB2_46:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_117
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_157
+	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_52
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB2_50:
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
+	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB2_50
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB2_52:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_56
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
+	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
+
+LBB2_54:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
+	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
+	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20244402                           // add    al, byte [rsp + 32]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB2_54
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+
+LBB2_56:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB2_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JE   LBB2_93
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_59:
+	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	WORD $0x894d; BYTE $0xde     // mov    r14, r11
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x33048841             // mov    byte [r11 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_59
+	JMP  LBB2_146
+
+LBB2_60:
+	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_64
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB2_62:
+	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
+	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
+	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB2_62
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB2_64:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_68
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
+	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
+
+LBB2_66:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x6a3b4466; BYTE $0x02               // cmp    r13w, word [rdx + 2]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x6a3b4466; BYTE $0x04               // cmp    r13w, word [rdx + 4]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x6a3b4466; BYTE $0x06               // cmp    r13w, word [rdx + 6]
+	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
+	LONG $0x6a3b4466; BYTE $0x08               // cmp    r13w, word [rdx + 8]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x6a3b4466; BYTE $0x0a               // cmp    r13w, word [rdx + 10]
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x6a3b4466; BYTE $0x0c               // cmp    r13w, word [rdx + 12]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x6a3b4466; BYTE $0x0e               // cmp    r13w, word [rdx + 14]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x6a3b4466; BYTE $0x10               // cmp    r13w, word [rdx + 16]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x6a3b4466; BYTE $0x12               // cmp    r13w, word [rdx + 18]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x6a3b4466; BYTE $0x14               // cmp    r13w, word [rdx + 20]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x6a3b4466; BYTE $0x16               // cmp    r13w, word [rdx + 22]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x6a3b4466; BYTE $0x18               // cmp    r13w, word [rdx + 24]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x6a3b4466; BYTE $0x1a               // cmp    r13w, word [rdx + 26]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x6a3b4466; BYTE $0x1c               // cmp    r13w, word [rdx + 28]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x6a3b4466; BYTE $0x1e               // cmp    r13w, word [rdx + 30]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x6a3b4466; BYTE $0x20               // cmp    r13w, word [rdx + 32]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x6a3b4466; BYTE $0x22               // cmp    r13w, word [rdx + 34]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x6a3b4466; BYTE $0x24               // cmp    r13w, word [rdx + 36]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x6a3b4466; BYTE $0x26               // cmp    r13w, word [rdx + 38]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x6a3b4466; BYTE $0x28               // cmp    r13w, word [rdx + 40]
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x6a3b4466; BYTE $0x2a               // cmp    r13w, word [rdx + 42]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x6a3b4466; BYTE $0x2c               // cmp    r13w, word [rdx + 44]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x6a3b4466; BYTE $0x2e               // cmp    r13w, word [rdx + 46]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x6a3b4466; BYTE $0x30               // cmp    r13w, word [rdx + 48]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x6a3b4466; BYTE $0x32               // cmp    r13w, word [rdx + 50]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x6a3b4466; BYTE $0x34               // cmp    r13w, word [rdx + 52]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x6a3b4466; BYTE $0x36               // cmp    r13w, word [rdx + 54]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x6a3b4466; BYTE $0x38               // cmp    r13w, word [rdx + 56]
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0x6a3b4466; BYTE $0x3a               // cmp    r13w, word [rdx + 58]
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0x6a3b4466; BYTE $0x3c               // cmp    r13w, word [rdx + 60]
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	LONG $0x6a3b4466; BYTE $0x3e               // cmp    r13w, word [rdx + 62]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x58               // add    sil, byte [rsp + 88]
+	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
+	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20244402                           // add    al, byte [rsp + 32]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
+	LONG $0x40c28348                           // add    rdx, 64
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB2_66
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+
+LBB2_68:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB2_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JE   LBB2_82
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_71:
+	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	WORD $0x894d; BYTE $0xde     // mov    r14, r11
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x6a3b4466; BYTE $0x02 // cmp    r13w, word [rdx + 2]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x33048841             // mov    byte [r11 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_71
+	JMP  LBB2_142
+
+LBB2_72:
+	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_76
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB2_74:
+	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
+	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
+	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB2_74
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB2_76:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_80
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
+	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
+
+LBB2_78:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
+	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
+	LONG $0x6a3b4466; BYTE $0x02               // cmp    r13w, word [rdx + 2]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x6a3b4466; BYTE $0x04               // cmp    r13w, word [rdx + 4]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x6a3b4466; BYTE $0x06               // cmp    r13w, word [rdx + 6]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x6a3b4466; BYTE $0x08               // cmp    r13w, word [rdx + 8]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x6a3b4466; BYTE $0x0a               // cmp    r13w, word [rdx + 10]
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x6a3b4466; BYTE $0x0c               // cmp    r13w, word [rdx + 12]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x6a3b4466; BYTE $0x0e               // cmp    r13w, word [rdx + 14]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x6a3b4466; BYTE $0x10               // cmp    r13w, word [rdx + 16]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x6a3b4466; BYTE $0x12               // cmp    r13w, word [rdx + 18]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x6a3b4466; BYTE $0x14               // cmp    r13w, word [rdx + 20]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x6a3b4466; BYTE $0x16               // cmp    r13w, word [rdx + 22]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x6a3b4466; BYTE $0x18               // cmp    r13w, word [rdx + 24]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x6a3b4466; BYTE $0x1a               // cmp    r13w, word [rdx + 26]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x6a3b4466; BYTE $0x1c               // cmp    r13w, word [rdx + 28]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x6a3b4466; BYTE $0x1e               // cmp    r13w, word [rdx + 30]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x6a3b4466; BYTE $0x20               // cmp    r13w, word [rdx + 32]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x6a3b4466; BYTE $0x22               // cmp    r13w, word [rdx + 34]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x6a3b4466; BYTE $0x24               // cmp    r13w, word [rdx + 36]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x6a3b4466; BYTE $0x26               // cmp    r13w, word [rdx + 38]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x6a3b4466; BYTE $0x28               // cmp    r13w, word [rdx + 40]
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x6a3b4466; BYTE $0x2a               // cmp    r13w, word [rdx + 42]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x6a3b4466; BYTE $0x2c               // cmp    r13w, word [rdx + 44]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x6a3b4466; BYTE $0x2e               // cmp    r13w, word [rdx + 46]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x6a3b4466; BYTE $0x30               // cmp    r13w, word [rdx + 48]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x6a3b4466; BYTE $0x32               // cmp    r13w, word [rdx + 50]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x6a3b4466; BYTE $0x34               // cmp    r13w, word [rdx + 52]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x6a3b4466; BYTE $0x36               // cmp    r13w, word [rdx + 54]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x6a3b4466; BYTE $0x38               // cmp    r13w, word [rdx + 56]
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0x6a3b4466; BYTE $0x3a               // cmp    r13w, word [rdx + 58]
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0x6a3b4466; BYTE $0x3c               // cmp    r13w, word [rdx + 60]
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	LONG $0x6a3b4466; BYTE $0x3e               // cmp    r13w, word [rdx + 62]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
+	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20244402                           // add    al, byte [rsp + 32]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
+	LONG $0x40c28348                           // add    rdx, 64
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB2_78
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+
+LBB2_80:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB2_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB2_140
+
+LBB2_82:
+	WORD $0xff31  // xor    edi, edi
+	JMP  LBB2_142
+
+LBB2_83:
+	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_87
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB2_85:
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
+	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB2_85
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB2_87:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_91
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
+	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
+
+LBB2_89:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
+	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
+	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20244402                           // add    al, byte [rsp + 32]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB2_89
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+
+LBB2_91:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB2_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB2_144
+
+LBB2_93:
+	WORD $0xff31  // xor    edi, edi
+	JMP  LBB2_146
+
+LBB2_94:
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0610fac5         // vmovss    xmm0, dword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_98
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB2_96:
+	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	WORD $0x894d; BYTE $0xdf     // mov    r15, r11
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB2_96
+	LONG $0x01c38349             // add    r11, 1
+
+LBB2_98:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_102
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
+	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
+
+LBB2_100:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x58               // add    sil, byte [rsp + 88]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x60               // movzx    esi, byte [rsp + 96]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8845; BYTE $0x33                   // mov    byte [r11], r14b
+	LONG $0x2474b60f; BYTE $0x38               // movzx    esi, byte [rsp + 56]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20244402                           // add    al, byte [rsp + 32]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB2_100
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
+
+LBB2_102:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB2_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB2_148
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB2_150
+
+LBB2_105:
+	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_109
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB2_107:
+	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	WORD $0x894d; BYTE $0xdc     // mov    r12, r11
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB2_107
+	LONG $0x01c38349             // add    r11, 1
+
+LBB2_109:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB2_132
+	LONG $0x20ff8349             // cmp    r15, 32
+	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
+	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
+	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
+	JB   LBB2_113
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
+	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
+	JAE  LBB2_168
+	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
+	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
+	JAE  LBB2_168
+
+LBB2_113:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
+	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
+	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
+
+LBB2_114:
+	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
+	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
+
+LBB2_115:
+	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
+	LONG $0x24343a45                           // cmp    r14b, byte [r12]
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0x24743a45; BYTE $0x01               // cmp    r14b, byte [r12 + 1]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x24743a45; BYTE $0x02               // cmp    r14b, byte [r12 + 2]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x24743a45; BYTE $0x03               // cmp    r14b, byte [r12 + 3]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x24743a45; BYTE $0x04               // cmp    r14b, byte [r12 + 4]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x24743a45; BYTE $0x05               // cmp    r14b, byte [r12 + 5]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x24743a45; BYTE $0x06               // cmp    r14b, byte [r12 + 6]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x24743a45; BYTE $0x07               // cmp    r14b, byte [r12 + 7]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x08713a44                           // cmp    r14b, byte [rcx + 8]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x09713a44                           // cmp    r14b, byte [rcx + 9]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x0a713a44                           // cmp    r14b, byte [rcx + 10]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x0b713a44                           // cmp    r14b, byte [rcx + 11]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x0c713a44                           // cmp    r14b, byte [rcx + 12]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x0d713a44                           // cmp    r14b, byte [rcx + 13]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x0e713a44                           // cmp    r14b, byte [rcx + 14]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x0f713a44                           // cmp    r14b, byte [rcx + 15]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x10713a44                           // cmp    r14b, byte [rcx + 16]
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0x11713a44                           // cmp    r14b, byte [rcx + 17]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x12713a44                           // cmp    r14b, byte [rcx + 18]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x13713a44                           // cmp    r14b, byte [rcx + 19]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x14713a44                           // cmp    r14b, byte [rcx + 20]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x15713a44                           // cmp    r14b, byte [rcx + 21]
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x16713a44                           // cmp    r14b, byte [rcx + 22]
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x17713a44                           // cmp    r14b, byte [rcx + 23]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
+	QUAD $0x000001102494940f                   // sete    byte [rsp + 272]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x1c24548b                           // mov    edx, dword [rsp + 28]
+	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	QUAD $0x0000014024940244                   // add    r10b, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e4c041                           // shl    r12b, 7
+	WORD $0x0841; BYTE $0xc4                   // or    r12b, al
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0844; BYTE $0xd3                   // or    bl, r10b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000a024b40240                   // add    sil, byte [rsp + 160]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x05e7c041                           // shl    r15b, 5
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	WORD $0x0845; BYTE $0xf8                   // or    r8b, r15b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
+	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0xc308                               // or    bl, al
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
+	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
+	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
+	QUAD $0x0000009024bcb60f                   // movzx    edi, byte [rsp + 144]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	LONG $0x01468844                           // mov    byte [rsi + 1], r8b
+	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd808                               // or    al, bl
+	LONG $0x245cb60f; BYTE $0x20               // movzx    ebx, byte [rsp + 32]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xda08                               // or    dl, bl
+	WORD $0xc208                               // or    dl, al
+	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	WORD $0x5688; BYTE $0x03                   // mov    byte [rsi + 3], dl
+	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB2_115
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
+	JMP  LBB2_133
+
+LBB2_117:
+	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_121
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB2_119:
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
+	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB2_119
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB2_121:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_125
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
+	QUAD $0x000000a824b4894c // mov    qword [rsp + 168], r14
+
+LBB2_123:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	QUAD $0x000000982494940f                   // sete    byte [rsp + 152]
+	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
+	QUAD $0x000000902494940f                   // sete    byte [rsp + 144]
+	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
+	QUAD $0x000001402494940f                   // sete    byte [rsp + 320]
+	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
+	QUAD $0x000001202494940f                   // sete    byte [rsp + 288]
+	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
+	LONG $0x2454940f; BYTE $0x1c               // sete    byte [rsp + 28]
+	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x0000011024848b48                   // mov    rax, qword [rsp + 272]
+	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20244402                           // add    al, byte [rsp + 32]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x1c               // movzx    ecx, byte [rsp + 28]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB2_123
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+
+LBB2_125:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB2_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB2_152
+
+LBB2_127:
+	WORD $0xff31  // xor    edi, edi
+	JMP  LBB2_154
+
+LBB2_128:
+	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
+	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
+
+LBB2_129:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB2_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JE   LBB2_135
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
+
+LBB2_159:
+	LONG $0x34343a45             // cmp    r14b, byte [r12 + rsi]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x34743a45; BYTE $0x01 // cmp    r14b, byte [r12 + rsi + 1]
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_159
+	JMP  LBB2_162
+
+LBB2_132:
+	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
+	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
+
+LBB2_133:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB2_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB2_160
+
+LBB2_135:
+	WORD $0xf631  // xor    esi, esi
+	JMP  LBB2_163
+
+LBB2_136:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_137:
+	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	WORD $0x894d; BYTE $0xde     // mov    r14, r11
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x422ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x33048841             // mov    byte [r11 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_137
+
+LBB2_138:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB2_157
+	LONG $0x022ef9c5 // vucomisd    xmm0, qword [rdx]
+	JMP  LBB2_156
+
+LBB2_140:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_141:
+	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	WORD $0x894d; BYTE $0xde     // mov    r14, r11
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x6a3b4466; BYTE $0x02 // cmp    r13w, word [rdx + 2]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x33048841             // mov    byte [r11 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_141
+
+LBB2_142:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB2_157
+	LONG $0x2a3b4466 // cmp    r13w, word [rdx]
+	JMP  LBB2_156
+
+LBB2_144:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_145:
+	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	WORD $0x894d; BYTE $0xde     // mov    r14, r11
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x33048841             // mov    byte [r11 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_145
+
+LBB2_146:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB2_157
+	WORD $0x3b4c; BYTE $0x2a // cmp    r13, qword [rdx]
+	JMP  LBB2_156
+
+LBB2_148:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_149:
+	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	WORD $0x894d; BYTE $0xde     // mov    r14, r11
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x422ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x33048841             // mov    byte [r11 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_149
+
+LBB2_150:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB2_157
+	LONG $0x022ef8c5 // vucomiss    xmm0, dword [rdx]
+	JMP  LBB2_156
+
+LBB2_152:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_153:
+	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	WORD $0x894d; BYTE $0xde     // mov    r14, r11
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x33048841             // mov    byte [r11 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_153
+
+LBB2_154:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB2_157
+	WORD $0x3b44; BYTE $0x2a // cmp    r13d, dword [rdx]
+
+LBB2_156:
+	WORD $0x940f; BYTE $0xd0 // sete    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x13348a41         // mov    sil, byte [r11 + rdx]
+	LONG $0x07e78040         // and    dil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf989             // mov    ecx, edi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
+
+LBB2_157:
+	MOVQ 1280(SP), SP
+	VZEROUPPER
+	RET
+
+LBB2_160:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
+
+LBB2_161:
+	LONG $0x34343a45             // cmp    r14b, byte [r12 + rsi]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x34743a45; BYTE $0x01 // cmp    r14b, byte [r12 + rsi + 1]
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_161
+
+LBB2_162:
+	WORD $0x0149; BYTE $0xf4 // add    r12, rsi
+
+LBB2_163:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB2_157
+	LONG $0x24343a45         // cmp    r14b, byte [r12]
+	WORD $0x940f; BYTE $0xd0 // sete    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	QUAD $0x0000017824848b4c // mov    r8, qword [rsp + 376]
+	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
+	JMP  LBB2_157
+
+LBB2_165:
+	LONG $0xe0e78349                     // and    r15, -32
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
+	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
+	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
+	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
+	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
+
+LBB2_166:
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x3a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rdi + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x3a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rdi + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
+	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
+	LONG $0xe86e79c5                           // vmovd    xmm13, eax
+	LONG $0x3a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rdi + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
+	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
+	LONG $0x3a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rdi + 6]
+	QUAD $0x0000010024bc8948                   // mov    qword [rsp + 256], rdi
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x3a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rdi + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
+	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
+	LONG $0x40cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 576
+	QUAD $0x000000a8249c8948                   // mov    qword [rsp + 168], rbx
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
+	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
+	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
+	LONG $0x80cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 640
+	QUAD $0x000000f024a4894c                   // mov    qword [rsp + 240], r12
+	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
+	LONG $0xa0ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 672
+	QUAD $0x000000f824b4894c                   // mov    qword [rsp + 248], r14
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	LONG $0x00c98149; WORD $0x0003; BYTE $0x00 // or    r9, 768
+	QUAD $0x000000c0248c894c                   // mov    qword [rsp + 192], r9
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
+	QUAD $0x000000b824bc894c                   // mov    qword [rsp + 184], r15
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
+	QUAD $0x000000e0249c894c                   // mov    qword [rsp + 224], r11
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	LONG $0x60ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 864
+	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
+	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
+	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
+	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
+	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
+	LONG $0xa0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 928
+	QUAD $0x000000d024b48948                   // mov    qword [rsp + 208], rsi
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000108248c8948                   // mov    qword [rsp + 264], rcx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
+	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	LONG $0x207923c4; WORD $0x2a0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r13], 1
+	LONG $0x2031e3c4; WORD $0x1a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rbx], 2
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 3
+	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + r12], 4
+	LONG $0x2079a3c4; WORD $0x3204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r14], 5
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 6
+	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 7
+	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
+	QUAD $0x000000c824bc8948                   // mov    qword [rsp + 200], rdi
+	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + r9], 8
+	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 9
+	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r11], 10
+	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r10], 11
+	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + r8], 12
+	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
+	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
+	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 15
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 1
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + r10], 2
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r12], 3
+	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
+	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
+	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
+	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 5
+	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
+	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 6
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 9
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 10
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 11
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 12
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 13
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 14
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 15
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x01013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 1
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x02013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 2
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x03013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 3
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x04013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 4
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x05013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 5
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x06013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 6
+	QUAD $0x07012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 7
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x08012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 8
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	QUAD $0x09012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 9
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x0a013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 10
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0b013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 12
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x0d013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 14
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0f013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 15
+	QUAD $0x0101326c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r14 + 1], 1
+	QUAD $0x0201126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 1], 2
+	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
+	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
+	QUAD $0x05011a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 1], 5
+	QUAD $0x06010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 6
+	QUAD $0x07013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 7
+	QUAD $0x0801326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 8
+	QUAD $0x0901026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 9
+	QUAD $0x0a011a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 1], 10
+	QUAD $0x0b010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
+	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f0102442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 1], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
+	LONG $0xce6e79c5                           // vmovd    xmm9, esi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
+	LONG $0xd66e79c5                           // vmovd    xmm10, esi
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
+	QUAD $0x010202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 1
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x02020a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 2], 2
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x030212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x06020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 6
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x07023a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 2], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x080202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 8
+	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
+	QUAD $0x09022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 9
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x0a022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 10
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0b021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 11
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x0c0232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 2], 12
+	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
+	QUAD $0x0d023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
+	QUAD $0x0102025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0202325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 2
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x0302325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0402325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0502325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 5
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0602325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x08021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 8
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x09021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 9
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0a021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 10
+	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
+	QUAD $0x0b021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 11
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0d021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 13
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0e021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 14
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x0f021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 15
+	QUAD $0x010302642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r8 + 3], 1
+	QUAD $0x02030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 2
+	QUAD $0x030312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 3
+	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
+	QUAD $0x04031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 4
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x05030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 5
+	QUAD $0x06030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 6
+	QUAD $0x07033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 7
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x08033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 8
+	QUAD $0x090322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 3], 9
+	QUAD $0x0a032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 10
+	QUAD $0x0b031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 11
+	QUAD $0x0c0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 12
+	QUAD $0x0d033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 13
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x0e030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 14
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x0f033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 15
+	QUAD $0x0103026c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + rax + 3], 1
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x02031a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 3], 2
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0403026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 4
+	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
+	QUAD $0x0503126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 5
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x0603326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 6
+	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0803026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 8
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x09031a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 3], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
+	LONG $0xc66e79c5                           // vmovd    xmm8, esi
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x0f0322442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 3], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
+	LONG $0xde6e79c5                           // vmovd    xmm11, esi
+	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
+	QUAD $0x010402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 1
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x020402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x030402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 3
+	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
+	QUAD $0x04042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 4
+	QUAD $0x05040a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 4], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x060402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x070402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 7
+	QUAD $0x08043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x090402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 9
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0a0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 13
+	QUAD $0x0e040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 14
+	QUAD $0x0f043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 15
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0104025c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rdx + rax + 4], 1
+	QUAD $0x02041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 2
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+	QUAD $0x03041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0404025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 4
+	QUAD $0x0504125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 5
+	WORD $0x894c; BYTE $0xf6                   // mov    rsi, r14
+	QUAD $0x0604325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 6
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x0704125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 7
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x08040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 8
+	QUAD $0x09041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 9
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0a041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 10
+	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
+	QUAD $0x0b04325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 11
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0c041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 12
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0d041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 13
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0e043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 14
+	QUAD $0x0f04225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 4], 15
+	QUAD $0x010502642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + r8 + 5], 1
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	QUAD $0x02053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 2
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x03051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 3
+	QUAD $0x04052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 4
+	QUAD $0x05050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 5
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x06050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 6
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x07050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 7
+	QUAD $0x08053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 8
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x09050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 9
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x0a050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 10
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0b053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 12
+	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
+	QUAD $0x0d052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 14
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0f053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 15
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x01053a6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rdi + 5], 1
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x02053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 2
+	QUAD $0x03051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 3
+	QUAD $0x0405026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0505026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 5
+	QUAD $0x0605326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 5], 6
+	QUAD $0x0705126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 5], 7
+	QUAD $0x08050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 8
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x09050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
+	QUAD $0x0b05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
+	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
+	QUAD $0x0f0522442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r12 + 5], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
+	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
+	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
+	QUAD $0x010602442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + r8 + 6], 1
+	QUAD $0x02063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 2
+	QUAD $0x03061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 3
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	QUAD $0x04061a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 6], 4
+	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
+	QUAD $0x050602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x07063a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 6], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x090602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 9
+	QUAD $0x0a060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 10
+	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
+	QUAD $0x0b0612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 6], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 12
+	QUAD $0x0d062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 15
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x01060a6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rcx + 6], 1
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x02060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 2
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x03060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 3
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x04060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0506326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 5
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x06061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 6
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x08060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 8
+	QUAD $0x09060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 9
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0a060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 10
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x0b06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 11
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	QUAD $0x0c060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 12
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0d062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 13
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0e060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 14
+	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
+	QUAD $0x0f062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 15
+	QUAD $0x010732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 1
+	QUAD $0x02073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 2
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x03072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 3
+	QUAD $0x04071a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 7], 4
+	QUAD $0x050702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 5
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x06070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 6
+	QUAD $0x07073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 7
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x080732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 8
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x09070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 9
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x0a070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 10
+	QUAD $0x0b0712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 11
+	QUAD $0x0c0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 13
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x0e073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 15
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x01070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 1
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x02073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 2
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x03070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 3
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x04073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 4
+	QUAD $0x0507324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 5
+	QUAD $0x06071a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 7], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0707324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 7
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x08070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 8
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x09073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 9
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
+	QUAD $0x0b07224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 11
+	QUAD $0x0c070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 12
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0d070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 13
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0e070a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rcx + 7], 14
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x0f0722442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 7], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x01080a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rcx + 8], 1
+	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
+	QUAD $0x020802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 2
+	QUAD $0x03082a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 8], 3
+	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
+	QUAD $0x04081a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 8], 4
+	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
+	QUAD $0x05081a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 8], 5
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x06080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 6
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x070832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 7
+	QUAD $0x080832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 8], 8
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x090812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 9
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	QUAD $0x0a081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 10
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0b0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 11
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0c0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 12
+	QUAD $0x0d0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 13
+	QUAD $0x0e083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 15
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0108026c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + rax + 8], 1
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	QUAD $0x02080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 2
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x03083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0408326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0508026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 5
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x0608326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0708026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 7
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0808026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 8
+	QUAD $0x09083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 11
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0c083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 12
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0d083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 13
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0e083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 14
+	QUAD $0x0f08226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 15
+	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
+	QUAD $0x010922742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + r12 + 9], 1
+	QUAD $0x020902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 2
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x03093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 3
+	QUAD $0x04092a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 9], 4
+	QUAD $0x05091a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 9], 5
+	QUAD $0x06090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 6
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x07090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 7
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x08090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 8
+	QUAD $0x090912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 9
+	QUAD $0x0a091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 10
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0b090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 11
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x0c091a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 9], 12
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0d090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 14
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x0f0922742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 9], 15
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x01090a7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + rcx + 9], 1
+	QUAD $0x02090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 2
+	QUAD $0x03093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 3
+	QUAD $0x0409327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 4
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x05092a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 9], 5
+	QUAD $0x0609327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 6
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x07091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 7
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	QUAD $0x08093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x09090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 9
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0a090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 10
+	QUAD $0x0b09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x00044024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm5
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
+	LONG $0xee6ef9c5                           // vmovd    xmm5, esi
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x010a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 1
+	QUAD $0x020a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 2
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x030a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x040a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 4
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x050a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x060a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 6
+	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
+	QUAD $0x070a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 7
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x080a325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 10], 8
+	QUAD $0x090a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 9
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0a0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 11
+	QUAD $0x0c0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 12
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+	QUAD $0x0d0a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 13
+	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
+	QUAD $0x0e0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 14
+	QUAD $0x0f0a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 15
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x010a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x020a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 2
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x030a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 3
+	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
+	QUAD $0x040a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 4
+	QUAD $0x050a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x060a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 6
+	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
+	QUAD $0x080a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x090a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 9
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0a0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 10
+	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
+	QUAD $0x0b0a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 11
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0c0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 12
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0d0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 13
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x0e0a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 14
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x0f0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 15
+	QUAD $0x010b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 1
+	QUAD $0x020b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 2
+	QUAD $0x030b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 3
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x040b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 4
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x050b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 5
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x060b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 6
+	QUAD $0x070b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 7
+	QUAD $0x080b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 8
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x090b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 9
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x0a0b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 10
+	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
+	QUAD $0x0b0b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c0b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 12
+	QUAD $0x0d0b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 13
+	QUAD $0x0e0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 14
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x0f0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 15
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x010b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 1
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x020b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 2
+	QUAD $0x030b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 3
+	QUAD $0x040b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x050b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 5
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x060b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 6
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x070b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 11], 7
+	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
+	QUAD $0x080b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 8
+	QUAD $0x090b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 10
+	QUAD $0x0b0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
+	QUAD $0x0e0b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 14
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x010c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 1
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x020c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x030c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 3
+	QUAD $0x040c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 4
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x050c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x060c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x070c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x090c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 9
+	QUAD $0x0a0c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 12], 10
+	QUAD $0x0b0c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 12], 11
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x0c0c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 13
+	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
+	QUAD $0x0e0c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 14
+	QUAD $0x0f0c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 15
+	QUAD $0x010c3a542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + rdi + 12], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+	QUAD $0x030c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 3
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x040c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 4
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x050c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 5
+	QUAD $0x060c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 6
+	QUAD $0x070c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 7
+	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
+	QUAD $0x080c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 8
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x090c1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 12], 9
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0a0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 10
+	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
+	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
+	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
+	QUAD $0x0d0c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 13
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x0e0c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 14
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x0f0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 15
+	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
+	QUAD $0x010d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 1
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x020d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 2
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x030d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 3
+	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
+	QUAD $0x040d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 4
+	QUAD $0x050d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 5
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x060d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 6
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x070d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 7
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x080d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 8
+	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
+	QUAD $0x090d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 9
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	QUAD $0x0a0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 10
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0b0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 11
+	QUAD $0x0c0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 12
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+	QUAD $0x0d0d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 13
+	QUAD $0x0e0d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 13], 14
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0f0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 15
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x010d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 1
+	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
+	QUAD $0x030d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 3
+	QUAD $0x040d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 4
+	QUAD $0x050d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 5
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x060d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 6
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x070d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 7
+	QUAD $0x080d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 8
+	QUAD $0x090d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
+	QUAD $0x0d0d0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 13], 13
+	QUAD $0x0e0d024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 13], 14
+	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f0d02442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 13], 15
+	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
+	LONG $0x74b60f42; WORD $0x0e2a             // movzx    esi, byte [rdx + r13 + 14]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rax + 14]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x010e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 1
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x020e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 2
+	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
+	QUAD $0x030e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 3
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x040e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 4
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x050e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 5
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x060e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 6
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x070e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 7
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x080e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 8
+	QUAD $0x090e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 9
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x0a0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 10
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0b0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 11
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0c0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 12
+	QUAD $0x0d0e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 14
+	QUAD $0x0f0e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 15
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x010e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 14], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x020e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 2
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x030e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x040e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x050e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 5
+	QUAD $0x060e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 6
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x070e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 14], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x080e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 8
+	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
+	QUAD $0x090e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 9
+	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
+	QUAD $0x0a0e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 10
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0b0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 12
+	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
+	QUAD $0x0d0e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 14], 13
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0e0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 15
+	LONG $0x74b60f42; WORD $0x0f2a             // movzx    esi, byte [rdx + r13 + 15]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x010f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 1
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x020f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 2
+	QUAD $0x030f02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 15], 3
+	QUAD $0x040f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 4
+	QUAD $0x050f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 5
+	QUAD $0x060f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 15], 6
+	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
+	QUAD $0x070f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 7
+	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
+	QUAD $0x080f02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 15], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x090f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 9
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x0a0f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 10
+	QUAD $0x0b0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rax + 15]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x010f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x020f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 2
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x030f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x040f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 4
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x050f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x060f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 6
+	QUAD $0x070f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 7
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x080f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 8
+	QUAD $0x090f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 9
+	QUAD $0x0a0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 10
+	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
+	QUAD $0x0b0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 12
+	QUAD $0x0d0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 13
+	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
+	QUAD $0x0e0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 14
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x0f0f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 15
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	LONG $0x3274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rsi + 16]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
+	QUAD $0x01100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 1
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x021032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 2
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x031032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 3
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x041032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 4
+	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
+	QUAD $0x051032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 5
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x061032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 6
+	QUAD $0x07102a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 16], 7
+	QUAD $0x081002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 8
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x091032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 9
+	QUAD $0x0a103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 10
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0b1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 11
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0c1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 12
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0d1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 13
+	QUAD $0x0e100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 15
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	LONG $0x1a74b60f; BYTE $0x10               // movzx    esi, byte [rdx + rbx + 16]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x0110024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 16], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0210324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 2
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x0310324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0410324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 4
+	QUAD $0x05103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 5
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0610324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0710324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 7
+	QUAD $0x0810124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 8
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x09103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 9
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0a10324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 10
+	QUAD $0x0b10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 11
+	QUAD $0x0c10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 13
+	QUAD $0x0e101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 14
+	QUAD $0x0f10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x01110a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 17], 1
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x02111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 2
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x031112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x041102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 4
+	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
+	QUAD $0x05112a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 17], 5
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x06110a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 17], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x071102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 7
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x081132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 8
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	QUAD $0x09113a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 17], 9
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0a1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 11
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x0c1122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 12
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0d1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 14
+	QUAD $0x0f110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 15
+	LONG $0x1a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rbx + 17]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x0111025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 1
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x02110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 2
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x0311025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0411325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0511325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 5
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0611325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0711325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
+	QUAD $0x09113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 9
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0a113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 10
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0b11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0d11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 13
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0e11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f1132442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rsi + 17], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	LONG $0x3274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rsi + 18]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x011232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 1
+	QUAD $0x02121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 2
+	QUAD $0x031212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 3
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x041232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 4
+	QUAD $0x05122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 5
+	QUAD $0x06120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 6
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x071232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 7
+	QUAD $0x081232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 18], 8
+	QUAD $0x09123a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 18], 9
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x0a122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 10
+	QUAD $0x0b1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 11
+	QUAD $0x0c1222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 18], 12
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	QUAD $0x0d120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 15
+	LONG $0x1a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rbx + 18]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x0112324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 1
+	QUAD $0x02120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 2
+	QUAD $0x0312024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0412024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0512024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0612024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 6
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x07121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 7
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x08120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0912024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 9
+	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0b12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x0d12224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 13
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0e12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 14
+	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
+	QUAD $0x0f12124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 15
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	LONG $0x74b60f42; WORD $0x133a             // movzx    esi, byte [rdx + r15 + 19]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x011332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 1
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x021332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 2
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x031332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 3
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x041332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 4
+	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
+	QUAD $0x051332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 5
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x061332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 6
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x071332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 7
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x081332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 8
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x091332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 9
+	QUAD $0x0a132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 10
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0b1332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 11
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0c1332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 12
+	QUAD $0x0d130a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 19], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e133a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 19], 14
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x0f1302542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 19], 15
+	LONG $0x1a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rbx + 19]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x0113325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0213325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 2
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x03131a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 19], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0413325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0513325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 5
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x06132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 6
+	QUAD $0x07131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 7
+	QUAD $0x08130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 8
+	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	QUAD $0x0c130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 12
+	QUAD $0x0d13225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 13
+	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
+	QUAD $0x0e13325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 14
+	QUAD $0x0f13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	LONG $0x74b60f42; WORD $0x143a             // movzx    esi, byte [rdx + r15 + 20]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	QUAD $0x01141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 1
+	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
+	QUAD $0x021422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 20], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x031402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 3
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x04140a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 20], 4
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x051412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 20], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x061402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x071402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x081402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x091402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 9
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0a1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 13
+	QUAD $0x0e143a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 20], 14
+	QUAD $0x0f1402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rax + 20]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0114024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0214024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 2
+	QUAD $0x03141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0414024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 4
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x05143a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 20], 5
+	QUAD $0x06142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0714324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0814324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 8
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0914324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 9
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0a14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 10
+	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
+	QUAD $0x0b14024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 20], 11
+	QUAD $0x0c140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 12
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0d142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 13
+	QUAD $0x0e14324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 20], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 15
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	LONG $0x3274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rsi + 21]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x01151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 1
+	QUAD $0x021522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 2
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x031532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 3
+	QUAD $0x04150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 4
+	QUAD $0x051512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 5
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x06153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 6
+	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
+	QUAD $0x07151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 7
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x081522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 8
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x091512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 9
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x0a150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 10
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x0b1532542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 21], 11
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x0c150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 12
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x0d151a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 21], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 15
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	LONG $0x0a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rcx + 21]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x01150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 1
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x02150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 2
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x03150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 3
+	QUAD $0x0415025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 4
+	QUAD $0x05153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0615025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 6
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x07153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 7
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x08150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0915025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 10
+	QUAD $0x0b15025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 21], 11
+	QUAD $0x0c150a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 21], 12
+	QUAD $0x0d152a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 21], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x0f1502442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r8 + 21], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x011632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 1
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x021632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 2
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x031632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 3
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x041632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 4
+	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
+	QUAD $0x05162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 5
+	QUAD $0x06163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 6
+	QUAD $0x07161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 7
+	QUAD $0x081622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 8
+	QUAD $0x091612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 22], 9
+	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
+	QUAD $0x0a1622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 10
+	QUAD $0x0b1632442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 22], 11
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x0c161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 12
+	QUAD $0x0d161a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 22], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 14
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x0f1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 15
+	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
+	LONG $0x74b60f42; WORD $0x1612             // movzx    esi, byte [rdx + r10 + 22]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0116324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 1
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x02161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 2
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x0316324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0416324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 4
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x0516324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 5
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0616324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 6
+	QUAD $0x07163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 7
+	QUAD $0x08160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x09160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 9
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0a160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 10
+	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
+	QUAD $0x0b160a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 22], 11
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0c160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 12
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0d160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 13
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0e163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 14
+	QUAD $0x0f16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 15
+	LONG $0x0274b60f; BYTE $0x17               // movzx    esi, byte [rdx + rax + 23]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x011702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 1
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x021702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 2
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x03173a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 23], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x041702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 4
+	QUAD $0x05172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 5
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x06170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 6
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x07170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 7
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x08170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 8
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x09170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 9
+	QUAD $0x0a1722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 10
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0b170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 11
+	QUAD $0x0c171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 12
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0d170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 14
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x0f1722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 15
+	LONG $0x74b60f42; WORD $0x1712             // movzx    esi, byte [rdx + r10 + 23]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x01171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 1
+	QUAD $0x02171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 2
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x03170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 3
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x04171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 4
+	QUAD $0x0517325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 5
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x06172a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 23], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0717325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0817325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 8
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x0917025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 9
+	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
+	QUAD $0x0a17125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 10
+	QUAD $0x0b170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 12
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	QUAD $0x0d17325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 13
+	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 15
+	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
+	LONG $0x74b60f42; WORD $0x180a             // movzx    esi, byte [rdx + r9 + 24]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x011832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 1
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x021832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 2
+	QUAD $0x03183a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 24], 3
+	QUAD $0x041802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 4
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x051802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x061802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x071802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 7
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x08183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 8
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x091832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 9
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	QUAD $0x0a1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 10
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0b1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 11
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0c1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 12
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0d1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 14
+	QUAD $0x0f1822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 15
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	LONG $0x3274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rsi + 24]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x01181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0218324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 2
+	QUAD $0x03180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 3
+	QUAD $0x04181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 4
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x05180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 5
+	QUAD $0x06182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 6
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x07180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 7
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	QUAD $0x08183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 8
+	QUAD $0x0918024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 9
+	QUAD $0x0a18124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 10
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0c180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 12
+	QUAD $0x0d18324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 13
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x0e18024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 14
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0f180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 15
+	LONG $0x74b60f42; WORD $0x190a             // movzx    esi, byte [rdx + r9 + 25]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x01190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 1
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x02190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 2
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x03190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 3
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	QUAD $0x04191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 4
+	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
+	QUAD $0x05190a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 25], 5
+	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
+	QUAD $0x061922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 6
+	QUAD $0x071902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 7
+	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x091902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 9
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x0a192a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 25], 10
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0b191a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 25], 11
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x0c1932542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 25], 12
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0d190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x01193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0219025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 2
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0319025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0419025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0519025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0619025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0719025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 7
+	QUAD $0x08193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0919025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 9
+	QUAD $0x0a19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 12
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x0d19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 13
+	QUAD $0x0e19025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 14
+	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x0f1902442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r8 + 25], 15
+	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	LONG $0x3274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rsi + 26]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x011a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 1
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x021a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 2
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x031a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 3
+	QUAD $0x041a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 4
+	QUAD $0x051a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 5
+	QUAD $0x061a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 6
+	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
+	QUAD $0x071a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 7
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x081a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 8
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x091a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 9
+	QUAD $0x0a1a2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 26], 10
+	QUAD $0x0b1a1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 26], 11
+	QUAD $0x0c1a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 12
+	QUAD $0x0d1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 15
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	LONG $0x1a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rbx + 26]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x011a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 1
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x021a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 2
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	QUAD $0x031a224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 26], 3
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	QUAD $0x041a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 4
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x051a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 5
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x061a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 6
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x071a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 7
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x081a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 8
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x091a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 9
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0a1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 10
+	QUAD $0x0b1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 12
+	QUAD $0x0d1a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 13
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0e1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 14
+	QUAD $0x0f1a024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 26], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	QUAD $0x011b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 1
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x021b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 2
+	QUAD $0x031b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 3
+	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
+	QUAD $0x041b12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 27], 4
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x051b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x061b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 6
+	QUAD $0x071b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 27], 7
+	QUAD $0x081b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 8
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	QUAD $0x091b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 9
+	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
+	QUAD $0x0a1b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 15
+	LONG $0x1a74b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rbx + 27]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x011b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 1
+	QUAD $0x021b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 2
+	QUAD $0x031b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 3
+	QUAD $0x041b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 4
+	QUAD $0x051b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 5
+	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
+	QUAD $0x061b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x071b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x081b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 8
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x091b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 9
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0a1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 10
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0b1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 12
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0d1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 13
+	QUAD $0x0e1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 14
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0f1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
+	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
+	LONG $0x74b60f42; WORD $0x1c2a             // movzx    esi, byte [rdx + r13 + 28]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x011c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 1
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x021c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 2
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x031c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 3
+	QUAD $0x041c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 4
+	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
+	QUAD $0x051c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 28], 5
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x061c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 6
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x071c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 7
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x081c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 8
+	QUAD $0x091c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 9
+	QUAD $0x0a1c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 28], 10
+	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
+	QUAD $0x0b1c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 11
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	QUAD $0x0c1c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 12
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x0d1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e1c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 14
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x0f1c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 15
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	LONG $0x3274b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rsi + 28]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x011c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x021c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 2
+	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
+	QUAD $0x031c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x041c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x051c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 5
+	QUAD $0x061c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 6
+	QUAD $0x071c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 7
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x081c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x091c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 12
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0d1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 13
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0e1c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 15
+	LONG $0x74b60f42; WORD $0x1d2a             // movzx    esi, byte [rdx + r13 + 29]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	QUAD $0x011d2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 29], 1
+	QUAD $0x021d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 2
+	QUAD $0x031d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 3
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x041d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 4
+	QUAD $0x051d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 5
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x061d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 6
+	QUAD $0x071d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 7
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x081d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 8
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x091d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 9
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x0a1d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 10
+	QUAD $0x0b1d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 11
+	QUAD $0x0c1d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 12
+	QUAD $0x0d1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0e1d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 14
+	QUAD $0x0f1d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 15
+	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
+	LONG $0x74b60f42; WORD $0x1d02             // movzx    esi, byte [rdx + r8 + 29]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	QUAD $0x011d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 29], 1
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x021d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 29], 2
+	QUAD $0x031d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 3
+	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
+	QUAD $0x041d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x051d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 5
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x061d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x081d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 8
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x091d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 9
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0a1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 10
+	QUAD $0x0b1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 13
+	QUAD $0x0e1d22642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + r12 + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x0f1d22442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + r12 + 29], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3a74b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rdi + 30]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x011e2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 30], 1
+	LONG $0x3a74b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rdi + 31]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x011f2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 31], 1
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
+	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
+	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
+	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
+	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
+	QUAD $0x061e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 30], 6
+	QUAD $0x061f1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 31], 6
+	QUAD $0x0000011024bc8b48                   // mov    rdi, qword [rsp + 272]
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
+	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
+	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
+	QUAD $0x091e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 30], 9
+	QUAD $0x091f0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 31], 9
+	QUAD $0x0a1e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 30], 10
+	QUAD $0x0a1f324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 31], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 11
+	QUAD $0x0b1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
+	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
+	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x0e1e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 30], 14
+	QUAD $0x0e1f1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 31], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
+	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
+	WORD $0x894c; BYTE $0xc6                   // mov    rsi, r8
+	LONG $0x44b60f42; WORD $0x1e02             // movzx    eax, byte [rdx + r8 + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x011e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 30], 1
+	LONG $0x44b60f42; WORD $0x1f02             // movzx    eax, byte [rdx + r8 + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f3a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 31], 1
+	QUAD $0x021e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 2
+	QUAD $0x021f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 2
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
+	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
+	QUAD $0x041e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 30], 4
+	QUAD $0x041f0a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 31], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
+	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
+	QUAD $0x061f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
+	QUAD $0x071f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 7
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
+	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
+	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
+	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
+	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 12
+	QUAD $0x0c1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
+	QUAD $0x0d1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
+	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
+	QUAD $0x0f1e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 30], 15
+	QUAD $0x0f1f227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	QUAD $0x00020024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 512]
+	QUAD $0x0004c0249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 1216]
+	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
+	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
+	LONG $0xf87485c5                           // vpcmpeqb    ymm7, ymm15, ymm0
+	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
+	QUAD $0x0001e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 480]
+	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI2_1] */
+	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
+	QUAD $0x0001c024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 448]
+	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI2_2] */
+	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
+	LONG $0xe0740dc5                           // vpcmpeqb    ymm12, ymm14, ymm0
+	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI2_3] */
+	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x0001a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 416]
+	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI2_4] */
+	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
+	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
+	QUAD $0x0004a024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1184]
+	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI2_5] */
+	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
+	QUAD $0x00048024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1152]
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI2_6] */
+	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
+	QUAD $0x00044024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1088]
+	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
+	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
+	QUAD $0x00046024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1120]
+	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
+	QUAD $0x000420249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1056]
+	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
+	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000400249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1024]
+	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
+	QUAD $0x0003e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 992]
+	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	QUAD $0x0003c024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 960]
+	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
+	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000380249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 896]
+	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
+	QUAD $0x0003a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 928]
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
+	QUAD $0x00034024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 832]
+	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
+	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
+	QUAD $0x000360249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 864]
+	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
+	QUAD $0x00030024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 768]
+	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000320249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 800]
+	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
+	QUAD $0x0002c024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 704]
+	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	QUAD $0x0002e024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 736]
+	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
+	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
+	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
+	QUAD $0x0002a0249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 672]
+	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
+	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
+	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
+	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
+	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
+	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
+	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
+	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
+	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
+	QUAD $0x00022024ac74fdc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm0, yword [rsp + 544]
+	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
+	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
+	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
+	QUAD $0x00024024b474fdc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm0, yword [rsp + 576]
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	QUAD $0x000280249c74fdc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm0, yword [rsp + 640]
+	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
+	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
+	QUAD $0x00026024a474fdc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm0, yword [rsp + 608]
+	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI2_4] */
+	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x000140248c74fdc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm0, yword [rsp + 320]
+	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
+	QUAD $0x000120249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 288]
+	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
+	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
+	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
+	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
+	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
+	LONG $0x447ffec5; WORD $0x608f             // vmovdqu    yword [rdi + 4*rcx + 96], ymm0
+	LONG $0x547ffec5; WORD $0x408f             // vmovdqu    yword [rdi + 4*rcx + 64], ymm2
+	LONG $0x647ffec5; WORD $0x208f             // vmovdqu    yword [rdi + 4*rcx + 32], ymm4
+	LONG $0x0c7ffec5; BYTE $0x8f               // vmovdqu    yword [rdi + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
+	JNE  LBB2_166
+	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
+	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
+	JNE  LBB2_43
+	JMP  LBB2_129
+
+LBB2_168:
+	LONG $0xe0e78349                     // and    r15, -32
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
+	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
+	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
+	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
+	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
+
+LBB2_169:
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x3a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rdi + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x3a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rdi + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
+	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
+	LONG $0xe86e79c5                           // vmovd    xmm13, eax
+	LONG $0x3a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rdi + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
+	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
+	LONG $0x3a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rdi + 6]
+	QUAD $0x0000010024bc8948                   // mov    qword [rsp + 256], rdi
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x3a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rdi + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
+	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
+	LONG $0x40cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 576
+	QUAD $0x000000a8249c8948                   // mov    qword [rsp + 168], rbx
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
+	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
+	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
+	LONG $0x80cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 640
+	QUAD $0x000000f024a4894c                   // mov    qword [rsp + 240], r12
+	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
+	LONG $0xa0ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 672
+	QUAD $0x000000f824b4894c                   // mov    qword [rsp + 248], r14
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	LONG $0x00c98149; WORD $0x0003; BYTE $0x00 // or    r9, 768
+	QUAD $0x000000c0248c894c                   // mov    qword [rsp + 192], r9
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
+	QUAD $0x000000b824bc894c                   // mov    qword [rsp + 184], r15
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
+	QUAD $0x000000e0249c894c                   // mov    qword [rsp + 224], r11
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	LONG $0x60ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 864
+	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
+	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
+	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
+	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
+	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
+	LONG $0xa0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 928
+	QUAD $0x000000d024b48948                   // mov    qword [rsp + 208], rsi
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000108248c8948                   // mov    qword [rsp + 264], rcx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
+	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	LONG $0x207923c4; WORD $0x2a0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r13], 1
+	LONG $0x2031e3c4; WORD $0x1a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rbx], 2
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 3
+	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + r12], 4
+	LONG $0x2079a3c4; WORD $0x3204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r14], 5
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 6
+	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 7
+	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
+	QUAD $0x000000c824bc8948                   // mov    qword [rsp + 200], rdi
+	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + r9], 8
+	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 9
+	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r11], 10
+	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r10], 11
+	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + r8], 12
+	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
+	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
+	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 15
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 1
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + r10], 2
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r12], 3
+	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
+	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
+	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
+	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 5
+	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
+	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 6
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 9
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 10
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 11
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 12
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 13
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 14
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 15
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x01013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 1
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x02013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 2
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x03013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 3
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x04013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 4
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x05013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 5
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x06013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 6
+	QUAD $0x07012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 7
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x08012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 8
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	QUAD $0x09012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 9
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x0a013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 10
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0b013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 12
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x0d013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 14
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0f013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 15
+	QUAD $0x0101326c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r14 + 1], 1
+	QUAD $0x0201126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 1], 2
+	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
+	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
+	QUAD $0x05011a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 1], 5
+	QUAD $0x06010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 6
+	QUAD $0x07013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 7
+	QUAD $0x0801326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 8
+	QUAD $0x0901026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 9
+	QUAD $0x0a011a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 1], 10
+	QUAD $0x0b010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
+	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f0102442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 1], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
+	LONG $0xce6e79c5                           // vmovd    xmm9, esi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
+	LONG $0xd66e79c5                           // vmovd    xmm10, esi
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
+	QUAD $0x010202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 1
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x02020a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 2], 2
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x030212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x06020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 6
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x07023a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 2], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x080202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 8
+	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
+	QUAD $0x09022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 9
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x0a022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 10
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0b021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 11
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x0c0232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 2], 12
+	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
+	QUAD $0x0d023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
+	QUAD $0x0102025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0202325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 2
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x0302325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0402325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0502325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 5
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0602325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x08021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 8
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x09021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 9
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0a021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 10
+	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
+	QUAD $0x0b021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 11
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0d021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 13
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0e021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 14
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x0f021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 15
+	QUAD $0x010302642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r8 + 3], 1
+	QUAD $0x02030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 2
+	QUAD $0x030312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 3
+	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
+	QUAD $0x04031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 4
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x05030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 5
+	QUAD $0x06030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 6
+	QUAD $0x07033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 7
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x08033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 8
+	QUAD $0x090322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 3], 9
+	QUAD $0x0a032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 10
+	QUAD $0x0b031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 11
+	QUAD $0x0c0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 12
+	QUAD $0x0d033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 13
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x0e030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 14
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x0f033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 15
+	QUAD $0x0103026c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + rax + 3], 1
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x02031a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 3], 2
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0403026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 4
+	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
+	QUAD $0x0503126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 5
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x0603326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 6
+	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0803026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 8
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x09031a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 3], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
+	LONG $0xc66e79c5                           // vmovd    xmm8, esi
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x0f0322442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 3], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
+	LONG $0xde6e79c5                           // vmovd    xmm11, esi
+	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
+	QUAD $0x010402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 1
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x020402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x030402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 3
+	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
+	QUAD $0x04042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 4
+	QUAD $0x05040a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 4], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x060402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x070402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 7
+	QUAD $0x08043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x090402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 9
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0a0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 13
+	QUAD $0x0e040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 14
+	QUAD $0x0f043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 15
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0104025c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rdx + rax + 4], 1
+	QUAD $0x02041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 2
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+	QUAD $0x03041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0404025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 4
+	QUAD $0x0504125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 5
+	WORD $0x894c; BYTE $0xf6                   // mov    rsi, r14
+	QUAD $0x0604325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 6
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x0704125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 7
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x08040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 8
+	QUAD $0x09041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 9
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0a041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 10
+	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
+	QUAD $0x0b04325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 11
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0c041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 12
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0d041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 13
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0e043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 14
+	QUAD $0x0f04225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 4], 15
+	QUAD $0x010502642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + r8 + 5], 1
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	QUAD $0x02053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 2
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x03051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 3
+	QUAD $0x04052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 4
+	QUAD $0x05050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 5
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x06050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 6
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x07050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 7
+	QUAD $0x08053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 8
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x09050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 9
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x0a050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 10
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0b053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 12
+	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
+	QUAD $0x0d052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 14
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0f053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 15
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x01053a6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rdi + 5], 1
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x02053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 2
+	QUAD $0x03051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 3
+	QUAD $0x0405026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0505026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 5
+	QUAD $0x0605326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 5], 6
+	QUAD $0x0705126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 5], 7
+	QUAD $0x08050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 8
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x09050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
+	QUAD $0x0b05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
+	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
+	QUAD $0x0f0522442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r12 + 5], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
+	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
+	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
+	QUAD $0x010602442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + r8 + 6], 1
+	QUAD $0x02063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 2
+	QUAD $0x03061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 3
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	QUAD $0x04061a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 6], 4
+	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
+	QUAD $0x050602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x07063a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 6], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x090602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 9
+	QUAD $0x0a060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 10
+	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
+	QUAD $0x0b0612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 6], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 12
+	QUAD $0x0d062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 15
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x01060a6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rcx + 6], 1
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x02060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 2
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x03060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 3
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x04060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0506326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 5
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x06061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 6
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x08060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 8
+	QUAD $0x09060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 9
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0a060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 10
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x0b06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 11
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	QUAD $0x0c060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 12
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0d062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 13
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0e060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 14
+	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
+	QUAD $0x0f062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 15
+	QUAD $0x010732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 1
+	QUAD $0x02073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 2
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x03072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 3
+	QUAD $0x04071a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 7], 4
+	QUAD $0x050702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 5
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x06070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 6
+	QUAD $0x07073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 7
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x080732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 8
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x09070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 9
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x0a070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 10
+	QUAD $0x0b0712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 11
+	QUAD $0x0c0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 13
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x0e073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 15
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x01070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 1
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x02073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 2
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x03070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 3
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x04073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 4
+	QUAD $0x0507324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 5
+	QUAD $0x06071a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 7], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0707324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 7
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x08070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 8
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x09073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 9
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
+	QUAD $0x0b07224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 11
+	QUAD $0x0c070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 12
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0d070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 13
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0e070a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rcx + 7], 14
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x0f0722442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 7], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x01080a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rcx + 8], 1
+	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
+	QUAD $0x020802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 2
+	QUAD $0x03082a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 8], 3
+	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
+	QUAD $0x04081a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 8], 4
+	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
+	QUAD $0x05081a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 8], 5
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x06080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 6
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x070832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 7
+	QUAD $0x080832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 8], 8
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x090812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 9
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	QUAD $0x0a081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 10
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0b0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 11
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0c0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 12
+	QUAD $0x0d0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 13
+	QUAD $0x0e083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 15
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0108026c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + rax + 8], 1
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	QUAD $0x02080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 2
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x03083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0408326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0508026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 5
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x0608326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0708026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 7
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0808026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 8
+	QUAD $0x09083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 11
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0c083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 12
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0d083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 13
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0e083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 14
+	QUAD $0x0f08226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 15
+	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
+	QUAD $0x010922742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + r12 + 9], 1
+	QUAD $0x020902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 2
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x03093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 3
+	QUAD $0x04092a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 9], 4
+	QUAD $0x05091a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 9], 5
+	QUAD $0x06090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 6
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x07090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 7
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x08090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 8
+	QUAD $0x090912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 9
+	QUAD $0x0a091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 10
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0b090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 11
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x0c091a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 9], 12
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0d090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 14
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x0f0922742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 9], 15
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x01090a7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + rcx + 9], 1
+	QUAD $0x02090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 2
+	QUAD $0x03093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 3
+	QUAD $0x0409327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 4
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x05092a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 9], 5
+	QUAD $0x0609327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 6
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x07091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 7
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	QUAD $0x08093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x09090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 9
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0a090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 10
+	QUAD $0x0b09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x00044024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm5
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
+	LONG $0xee6ef9c5                           // vmovd    xmm5, esi
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x010a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 1
+	QUAD $0x020a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 2
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x030a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x040a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 4
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x050a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x060a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 6
+	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
+	QUAD $0x070a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 7
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x080a325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 10], 8
+	QUAD $0x090a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 9
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0a0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 11
+	QUAD $0x0c0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 12
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+	QUAD $0x0d0a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 13
+	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
+	QUAD $0x0e0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 14
+	QUAD $0x0f0a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 15
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x010a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x020a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 2
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x030a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 3
+	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
+	QUAD $0x040a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 4
+	QUAD $0x050a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x060a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 6
+	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
+	QUAD $0x080a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x090a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 9
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0a0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 10
+	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
+	QUAD $0x0b0a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 11
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0c0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 12
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0d0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 13
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x0e0a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 14
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x0f0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 15
+	QUAD $0x010b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 1
+	QUAD $0x020b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 2
+	QUAD $0x030b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 3
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x040b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 4
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x050b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 5
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x060b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 6
+	QUAD $0x070b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 7
+	QUAD $0x080b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 8
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x090b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 9
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x0a0b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 10
+	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
+	QUAD $0x0b0b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c0b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 12
+	QUAD $0x0d0b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 13
+	QUAD $0x0e0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 14
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x0f0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 15
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x010b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 1
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x020b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 2
+	QUAD $0x030b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 3
+	QUAD $0x040b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x050b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 5
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x060b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 6
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x070b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 11], 7
+	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
+	QUAD $0x080b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 8
+	QUAD $0x090b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 10
+	QUAD $0x0b0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
+	QUAD $0x0e0b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 14
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x010c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 1
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x020c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x030c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 3
+	QUAD $0x040c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 4
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x050c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x060c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x070c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x090c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 9
+	QUAD $0x0a0c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 12], 10
+	QUAD $0x0b0c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 12], 11
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x0c0c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 13
+	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
+	QUAD $0x0e0c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 14
+	QUAD $0x0f0c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 15
+	QUAD $0x010c3a542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + rdi + 12], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+	QUAD $0x030c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 3
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x040c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 4
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x050c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 5
+	QUAD $0x060c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 6
+	QUAD $0x070c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 7
+	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
+	QUAD $0x080c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 8
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x090c1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 12], 9
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0a0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 10
+	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
+	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
+	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
+	QUAD $0x0d0c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 13
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x0e0c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 14
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x0f0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 15
+	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
+	QUAD $0x010d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 1
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x020d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 2
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x030d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 3
+	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
+	QUAD $0x040d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 4
+	QUAD $0x050d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 5
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x060d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 6
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x070d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 7
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x080d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 8
+	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
+	QUAD $0x090d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 9
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	QUAD $0x0a0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 10
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0b0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 11
+	QUAD $0x0c0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 12
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+	QUAD $0x0d0d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 13
+	QUAD $0x0e0d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 13], 14
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0f0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 15
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x010d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 1
+	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
+	QUAD $0x030d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 3
+	QUAD $0x040d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 4
+	QUAD $0x050d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 5
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x060d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 6
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x070d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 7
+	QUAD $0x080d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 8
+	QUAD $0x090d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
+	QUAD $0x0d0d0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 13], 13
+	QUAD $0x0e0d024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 13], 14
+	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f0d02442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 13], 15
+	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
+	LONG $0x74b60f42; WORD $0x0e2a             // movzx    esi, byte [rdx + r13 + 14]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rax + 14]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x010e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 1
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x020e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 2
+	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
+	QUAD $0x030e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 3
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x040e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 4
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x050e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 5
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x060e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 6
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x070e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 7
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x080e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 8
+	QUAD $0x090e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 9
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x0a0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 10
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0b0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 11
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0c0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 12
+	QUAD $0x0d0e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 14
+	QUAD $0x0f0e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 15
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x010e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 14], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x020e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 2
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x030e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x040e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x050e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 5
+	QUAD $0x060e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 6
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x070e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 14], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x080e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 8
+	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
+	QUAD $0x090e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 9
+	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
+	QUAD $0x0a0e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 10
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0b0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 12
+	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
+	QUAD $0x0d0e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 14], 13
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0e0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 15
+	LONG $0x74b60f42; WORD $0x0f2a             // movzx    esi, byte [rdx + r13 + 15]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x010f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 1
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x020f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 2
+	QUAD $0x030f02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 15], 3
+	QUAD $0x040f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 4
+	QUAD $0x050f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 5
+	QUAD $0x060f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 15], 6
+	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
+	QUAD $0x070f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 7
+	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
+	QUAD $0x080f02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 15], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x090f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 9
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x0a0f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 10
+	QUAD $0x0b0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rax + 15]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x010f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x020f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 2
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x030f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x040f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 4
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x050f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x060f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 6
+	QUAD $0x070f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 7
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x080f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 8
+	QUAD $0x090f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 9
+	QUAD $0x0a0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 10
+	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
+	QUAD $0x0b0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 12
+	QUAD $0x0d0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 13
+	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
+	QUAD $0x0e0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 14
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x0f0f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 15
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	LONG $0x3274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rsi + 16]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
+	QUAD $0x01100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 1
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x021032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 2
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x031032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 3
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x041032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 4
+	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
+	QUAD $0x051032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 5
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x061032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 6
+	QUAD $0x07102a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 16], 7
+	QUAD $0x081002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 8
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x091032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 9
+	QUAD $0x0a103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 10
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0b1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 11
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0c1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 12
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0d1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 13
+	QUAD $0x0e100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 15
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	LONG $0x1a74b60f; BYTE $0x10               // movzx    esi, byte [rdx + rbx + 16]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x0110024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 16], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0210324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 2
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x0310324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0410324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 4
+	QUAD $0x05103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 5
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0610324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0710324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 7
+	QUAD $0x0810124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 8
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x09103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 9
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0a10324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 10
+	QUAD $0x0b10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 11
+	QUAD $0x0c10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 13
+	QUAD $0x0e101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 14
+	QUAD $0x0f10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x01110a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 17], 1
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x02111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 2
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x031112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x041102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 4
+	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
+	QUAD $0x05112a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 17], 5
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x06110a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 17], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x071102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 7
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x081132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 8
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	QUAD $0x09113a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 17], 9
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0a1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 11
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x0c1122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 12
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0d1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 14
+	QUAD $0x0f110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 15
+	LONG $0x1a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rbx + 17]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x0111025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 1
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x02110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 2
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x0311025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0411325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0511325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 5
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0611325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0711325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
+	QUAD $0x09113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 9
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0a113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 10
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0b11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0d11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 13
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0e11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f1132442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rsi + 17], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	LONG $0x3274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rsi + 18]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x011232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 1
+	QUAD $0x02121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 2
+	QUAD $0x031212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 3
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x041232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 4
+	QUAD $0x05122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 5
+	QUAD $0x06120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 6
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x071232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 7
+	QUAD $0x081232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 18], 8
+	QUAD $0x09123a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 18], 9
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x0a122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 10
+	QUAD $0x0b1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 11
+	QUAD $0x0c1222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 18], 12
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	QUAD $0x0d120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 15
+	LONG $0x1a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rbx + 18]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x0112324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 1
+	QUAD $0x02120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 2
+	QUAD $0x0312024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0412024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0512024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0612024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 6
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x07121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 7
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x08120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0912024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 9
+	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0b12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x0d12224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 13
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0e12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 14
+	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
+	QUAD $0x0f12124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 15
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	LONG $0x74b60f42; WORD $0x133a             // movzx    esi, byte [rdx + r15 + 19]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x011332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 1
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x021332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 2
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x031332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 3
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x041332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 4
+	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
+	QUAD $0x051332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 5
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x061332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 6
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x071332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 7
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x081332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 8
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x091332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 9
+	QUAD $0x0a132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 10
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0b1332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 11
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0c1332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 12
+	QUAD $0x0d130a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 19], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e133a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 19], 14
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x0f1302542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 19], 15
+	LONG $0x1a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rbx + 19]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x0113325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0213325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 2
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x03131a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 19], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0413325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0513325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 5
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x06132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 6
+	QUAD $0x07131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 7
+	QUAD $0x08130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 8
+	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	QUAD $0x0c130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 12
+	QUAD $0x0d13225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 13
+	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
+	QUAD $0x0e13325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 14
+	QUAD $0x0f13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	LONG $0x74b60f42; WORD $0x143a             // movzx    esi, byte [rdx + r15 + 20]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	QUAD $0x01141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 1
+	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
+	QUAD $0x021422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 20], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x031402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 3
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x04140a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 20], 4
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x051412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 20], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x061402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x071402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x081402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x091402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 9
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0a1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 13
+	QUAD $0x0e143a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 20], 14
+	QUAD $0x0f1402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rax + 20]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0114024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0214024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 2
+	QUAD $0x03141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0414024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 4
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x05143a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 20], 5
+	QUAD $0x06142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0714324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0814324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 8
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0914324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 9
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0a14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 10
+	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
+	QUAD $0x0b14024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 20], 11
+	QUAD $0x0c140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 12
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0d142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 13
+	QUAD $0x0e14324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 20], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 15
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	LONG $0x3274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rsi + 21]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x01151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 1
+	QUAD $0x021522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 2
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x031532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 3
+	QUAD $0x04150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 4
+	QUAD $0x051512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 5
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x06153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 6
+	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
+	QUAD $0x07151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 7
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x081522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 8
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x091512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 9
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x0a150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 10
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x0b1532542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 21], 11
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x0c150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 12
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x0d151a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 21], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f150a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 21], 15
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	LONG $0x0a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rcx + 21]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x01150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 1
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x02150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 2
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x03150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 3
+	QUAD $0x0415025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 4
+	QUAD $0x05153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0615025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 6
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x07153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 7
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x08150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0915025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 10
+	QUAD $0x0b15025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 21], 11
+	QUAD $0x0c150a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 21], 12
+	QUAD $0x0d152a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 21], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x0f1502442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r8 + 21], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x011632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 1
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x021632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 2
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x031632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 3
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x041632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 4
+	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
+	QUAD $0x05162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 5
+	QUAD $0x06163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 6
+	QUAD $0x07161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 7
+	QUAD $0x081622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 8
+	QUAD $0x091612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 22], 9
+	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
+	QUAD $0x0a1622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 10
+	QUAD $0x0b1632442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 22], 11
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x0c161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 12
+	QUAD $0x0d161a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 22], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 14
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x0f1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 15
+	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
+	LONG $0x74b60f42; WORD $0x1612             // movzx    esi, byte [rdx + r10 + 22]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0116324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 1
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x02161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 2
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x0316324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0416324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 4
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x0516324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 5
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0616324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 6
+	QUAD $0x07163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 7
+	QUAD $0x08160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x09160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 9
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0a160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 10
+	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
+	QUAD $0x0b160a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 22], 11
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0c160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 12
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0d160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 13
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0e163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 14
+	QUAD $0x0f16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 15
+	LONG $0x0274b60f; BYTE $0x17               // movzx    esi, byte [rdx + rax + 23]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x011702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 1
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x021702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 2
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x03173a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 23], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x041702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 4
+	QUAD $0x05172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 5
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x06170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 6
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x07170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 7
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x08170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 8
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x09170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 9
+	QUAD $0x0a1722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 10
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0b170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 11
+	QUAD $0x0c171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 12
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0d170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 14
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x0f1722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 15
+	LONG $0x74b60f42; WORD $0x1712             // movzx    esi, byte [rdx + r10 + 23]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x01171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 1
+	QUAD $0x02171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 2
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x03170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 3
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x04171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 4
+	QUAD $0x0517325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 5
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x06172a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 23], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0717325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0817325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 8
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x0917025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 9
+	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
+	QUAD $0x0a17125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 10
+	QUAD $0x0b170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 12
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	QUAD $0x0d17325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 13
+	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 15
+	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
+	LONG $0x74b60f42; WORD $0x180a             // movzx    esi, byte [rdx + r9 + 24]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x011832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 1
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x021832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 2
+	QUAD $0x03183a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 24], 3
+	QUAD $0x041802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 4
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x051802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x061802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x071802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 7
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x08183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 8
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x091832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 9
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	QUAD $0x0a1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 10
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0b1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 11
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0c1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 12
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0d1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 14
+	QUAD $0x0f1822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 15
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	LONG $0x3274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rsi + 24]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x01181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0218324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 2
+	QUAD $0x03180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 3
+	QUAD $0x04181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 4
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x05180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 5
+	QUAD $0x06182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 6
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x07180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 7
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	QUAD $0x08183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 8
+	QUAD $0x0918024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 9
+	QUAD $0x0a18124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 10
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0c180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 12
+	QUAD $0x0d18324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 13
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x0e18024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 14
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0f180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 15
+	LONG $0x74b60f42; WORD $0x190a             // movzx    esi, byte [rdx + r9 + 25]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x01190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 1
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x02190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 2
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x03190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 3
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	QUAD $0x04191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 4
+	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
+	QUAD $0x05190a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 25], 5
+	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
+	QUAD $0x061922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 6
+	QUAD $0x071902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 7
+	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x091902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 9
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x0a192a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 25], 10
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0b191a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 25], 11
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x0c1932542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 25], 12
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0d190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x01193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0219025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 2
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0319025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0419025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0519025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0619025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0719025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 7
+	QUAD $0x08193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0919025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 9
+	QUAD $0x0a19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 12
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x0d19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 13
+	QUAD $0x0e19025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 14
+	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x0f1902442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r8 + 25], 15
+	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	LONG $0x3274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rsi + 26]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x011a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 1
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x021a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 2
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x031a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 3
+	QUAD $0x041a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 4
+	QUAD $0x051a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 5
+	QUAD $0x061a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 6
+	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
+	QUAD $0x071a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 7
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x081a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 8
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x091a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 9
+	QUAD $0x0a1a2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 26], 10
+	QUAD $0x0b1a1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 26], 11
+	QUAD $0x0c1a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 12
+	QUAD $0x0d1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f1a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 15
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	LONG $0x1a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rbx + 26]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x011a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 1
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x021a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 2
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	QUAD $0x031a224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 26], 3
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	QUAD $0x041a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 4
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x051a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 5
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x061a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 6
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x071a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 7
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x081a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 8
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x091a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 9
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0a1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 10
+	QUAD $0x0b1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 12
+	QUAD $0x0d1a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 13
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0e1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 14
+	QUAD $0x0f1a024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 26], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	QUAD $0x011b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 1
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x021b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 2
+	QUAD $0x031b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 3
+	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
+	QUAD $0x041b12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 27], 4
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x051b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 5
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x061b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 6
+	QUAD $0x071b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 27], 7
+	QUAD $0x081b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 8
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	QUAD $0x091b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 9
+	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
+	QUAD $0x0a1b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 15
+	LONG $0x1a74b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rbx + 27]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x011b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 1
+	QUAD $0x021b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 2
+	QUAD $0x031b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 3
+	QUAD $0x041b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 4
+	QUAD $0x051b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 5
+	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
+	QUAD $0x061b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x071b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x081b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 8
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x091b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 9
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0a1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 10
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0b1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 12
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0d1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 13
+	QUAD $0x0e1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 14
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0f1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
+	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
+	LONG $0x74b60f42; WORD $0x1c2a             // movzx    esi, byte [rdx + r13 + 28]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x011c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 1
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x021c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 2
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x031c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 3
+	QUAD $0x041c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 4
+	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
+	QUAD $0x051c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 28], 5
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x061c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 6
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x071c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 7
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x081c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 8
+	QUAD $0x091c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 9
+	QUAD $0x0a1c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 28], 10
+	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
+	QUAD $0x0b1c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 11
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	QUAD $0x0c1c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 12
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x0d1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e1c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 14
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x0f1c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 15
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	LONG $0x3274b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rsi + 28]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x011c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x021c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 2
+	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
+	QUAD $0x031c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 3
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x041c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x051c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 5
+	QUAD $0x061c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 6
+	QUAD $0x071c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 7
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x081c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x091c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 11
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0c1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 12
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0d1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 13
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0e1c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 15
+	LONG $0x74b60f42; WORD $0x1d2a             // movzx    esi, byte [rdx + r13 + 29]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	QUAD $0x011d2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 29], 1
+	QUAD $0x021d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 2
+	QUAD $0x031d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 3
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x041d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 4
+	QUAD $0x051d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 5
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x061d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 6
+	QUAD $0x071d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 7
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x081d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 8
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x091d0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 29], 9
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x0a1d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 10
+	QUAD $0x0b1d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 11
+	QUAD $0x0c1d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 12
+	QUAD $0x0d1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0e1d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 14
+	QUAD $0x0f1d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 15
+	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
+	LONG $0x74b60f42; WORD $0x1d02             // movzx    esi, byte [rdx + r8 + 29]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	QUAD $0x011d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 29], 1
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x021d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 29], 2
+	QUAD $0x031d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 3
+	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
+	QUAD $0x041d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x051d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 5
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x061d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x081d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 8
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x091d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 9
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0a1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 10
+	QUAD $0x0b1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 13
+	QUAD $0x0e1d22642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + r12 + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x0f1d22442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + r12 + 29], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3a74b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rdi + 30]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x011e2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 30], 1
+	LONG $0x3a74b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rdi + 31]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x011f2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 31], 1
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
+	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
+	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
+	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
+	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
+	QUAD $0x061e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 30], 6
+	QUAD $0x061f1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 31], 6
+	QUAD $0x0000011024bc8b48                   // mov    rdi, qword [rsp + 272]
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
+	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
+	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
+	QUAD $0x091e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 30], 9
+	QUAD $0x091f0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 31], 9
+	QUAD $0x0a1e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 30], 10
+	QUAD $0x0a1f324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 31], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 11
+	QUAD $0x0b1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
+	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
+	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x0e1e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 30], 14
+	QUAD $0x0e1f1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 31], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
+	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
+	WORD $0x894c; BYTE $0xc6                   // mov    rsi, r8
+	LONG $0x44b60f42; WORD $0x1e02             // movzx    eax, byte [rdx + r8 + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x011e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 30], 1
+	LONG $0x44b60f42; WORD $0x1f02             // movzx    eax, byte [rdx + r8 + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f3a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 31], 1
+	QUAD $0x021e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 2
+	QUAD $0x021f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 2
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
+	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
+	QUAD $0x041e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 30], 4
+	QUAD $0x041f0a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 31], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
+	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
+	QUAD $0x061f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
+	QUAD $0x071f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 7
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
+	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
+	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
+	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
+	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0c1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 12
+	QUAD $0x0c1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 12
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
+	QUAD $0x0d1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
+	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
+	QUAD $0x0f1e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 30], 15
+	QUAD $0x0f1f227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	QUAD $0x00020024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 512]
+	QUAD $0x0004c0249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 1216]
+	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
+	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
+	LONG $0xf87485c5                           // vpcmpeqb    ymm7, ymm15, ymm0
+	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
+	QUAD $0x0001e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 480]
+	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI2_1] */
+	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
+	QUAD $0x0001c024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 448]
+	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI2_2] */
+	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
+	LONG $0xe0740dc5                           // vpcmpeqb    ymm12, ymm14, ymm0
+	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI2_3] */
+	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x0001a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 416]
+	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI2_4] */
+	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
+	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
+	QUAD $0x0004a024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1184]
+	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI2_5] */
+	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
+	QUAD $0x00048024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1152]
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI2_6] */
+	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
+	QUAD $0x00044024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 1088]
+	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
+	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
+	QUAD $0x00046024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 1120]
+	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
+	QUAD $0x000420249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1056]
+	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
+	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000400249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 1024]
+	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
+	QUAD $0x0003e024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 992]
+	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	QUAD $0x0003c024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 960]
+	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
+	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000380249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 896]
+	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
+	QUAD $0x0003a024a4747dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm0, yword [rsp + 928]
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
+	QUAD $0x00034024bc74fdc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm0, yword [rsp + 832]
+	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
+	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
+	QUAD $0x000360249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 864]
+	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
+	QUAD $0x00030024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 768]
+	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000320249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 800]
+	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
+	QUAD $0x0002c024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 704]
+	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	QUAD $0x0002e024b4747dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm0, yword [rsp + 736]
+	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
+	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
+	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
+	QUAD $0x0002a0249c747dc5; BYTE $0x00       // vpcmpeqb    ymm11, ymm0, yword [rsp + 672]
+	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
+	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
+	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
+	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
+	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
+	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
+	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
+	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
+	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
+	QUAD $0x00022024ac74fdc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm0, yword [rsp + 544]
+	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
+	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
+	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
+	QUAD $0x00024024b474fdc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm0, yword [rsp + 576]
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	QUAD $0x000280249c74fdc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm0, yword [rsp + 640]
+	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
+	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
+	QUAD $0x00026024a474fdc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm0, yword [rsp + 608]
+	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI2_4] */
+	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x000140248c74fdc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm0, yword [rsp + 320]
+	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
+	QUAD $0x000120249474fdc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm0, yword [rsp + 288]
+	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
+	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
+	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
+	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
+	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
+	LONG $0x447ffec5; WORD $0x608f             // vmovdqu    yword [rdi + 4*rcx + 96], ymm0
+	LONG $0x547ffec5; WORD $0x408f             // vmovdqu    yword [rdi + 4*rcx + 64], ymm2
+	LONG $0x647ffec5; WORD $0x208f             // vmovdqu    yword [rdi + 4*rcx + 32], ymm4
+	LONG $0x0c7ffec5; BYTE $0x8f               // vmovdqu    yword [rdi + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
+	JNE  LBB2_169
+	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
+	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
+	JNE  LBB2_114
+	JMP  LBB2_133
+
+TEXT ·_comparison_not_equal_arr_arr_avx2(SB), $80-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	ADDQ $8, SP
+
+	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
+	WORD $0x8949; BYTE $0xce // mov    r14, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB3_29
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB3_2
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB3_68
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB3_79
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB3_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_22
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_20:
+	WORD $0x0e8b                 // mov    ecx, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_20
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_22:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_26
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB3_24:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd5950f41                           // setne    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd3950f41                           // setne    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd7950f41                           // setne    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd2950f41                           // setne    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd6950f41                           // setne    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd4950f41                           // setne    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd1950f41                           // setne    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB3_24
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB3_26:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_28:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_28
+	JMP  LBB3_123
+
+LBB3_29:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB3_30
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB3_101
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB3_112
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB3_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_50
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_48:
+	LONG $0x0610fbc5             // vmovsd    xmm0, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_48
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_50:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_54
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB3_52:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x0610fbc5                           // vmovsd    xmm0, qword [rsi]
+	LONG $0x4e10fbc5; BYTE $0x08               // vmovsd    xmm1, qword [rsi + 8]
+	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
+	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
+	LONG $0x4a2ef9c5; BYTE $0x08               // vucomisd    xmm1, qword [rdx + 8]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x4610fbc5; BYTE $0x10               // vmovsd    xmm0, qword [rsi + 16]
+	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
+	LONG $0x4610fbc5; BYTE $0x18               // vmovsd    xmm0, qword [rsi + 24]
+	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
+	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
+	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
+	LONG $0x4610fbc5; BYTE $0x20               // vmovsd    xmm0, qword [rsi + 32]
+	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
+	LONG $0x4610fbc5; BYTE $0x28               // vmovsd    xmm0, qword [rsi + 40]
+	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
+	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
+	LONG $0x4610fbc5; BYTE $0x30               // vmovsd    xmm0, qword [rsi + 48]
+	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
+	LONG $0x4610fbc5; BYTE $0x38               // vmovsd    xmm0, qword [rsi + 56]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x4610fbc5; BYTE $0x40               // vmovsd    xmm0, qword [rsi + 64]
+	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
+	LONG $0x4610fbc5; BYTE $0x48               // vmovsd    xmm0, qword [rsi + 72]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x4610fbc5; BYTE $0x50               // vmovsd    xmm0, qword [rsi + 80]
+	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
+	LONG $0x4610fbc5; BYTE $0x58               // vmovsd    xmm0, qword [rsi + 88]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x4610fbc5; BYTE $0x60               // vmovsd    xmm0, qword [rsi + 96]
+	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
+	LONG $0x4610fbc5; BYTE $0x68               // vmovsd    xmm0, qword [rsi + 104]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
+	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
+	LONG $0x4610fbc5; BYTE $0x70               // vmovsd    xmm0, qword [rsi + 112]
+	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
+	LONG $0x4610fbc5; BYTE $0x78               // vmovsd    xmm0, qword [rsi + 120]
+	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
+	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	QUAD $0x000000808610fbc5                   // vmovsd    xmm0, qword [rsi + 128]
+	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
+	QUAD $0x000000888610fbc5                   // vmovsd    xmm0, qword [rsi + 136]
+	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
+	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
+	QUAD $0x000000908610fbc5                   // vmovsd    xmm0, qword [rsi + 144]
+	LONG $0xd6950f41                           // setne    r14b
+	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
+	QUAD $0x000000988610fbc5                   // vmovsd    xmm0, qword [rsi + 152]
+	LONG $0xd4950f41                           // setne    r12b
+	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
+	QUAD $0x000000a08610fbc5                   // vmovsd    xmm0, qword [rsi + 160]
+	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
+	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
+	QUAD $0x000000a88610fbc5                   // vmovsd    xmm0, qword [rsi + 168]
+	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
+	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
+	QUAD $0x000000b08610fbc5                   // vmovsd    xmm0, qword [rsi + 176]
+	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
+	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
+	QUAD $0x000000b88610fbc5                   // vmovsd    xmm0, qword [rsi + 184]
+	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
+	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
+	QUAD $0x000000c08610fbc5                   // vmovsd    xmm0, qword [rsi + 192]
+	LONG $0xd0950f41                           // setne    r8b
+	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
+	QUAD $0x000000c88610fbc5                   // vmovsd    xmm0, qword [rsi + 200]
+	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
+	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
+	QUAD $0x000000d08610fbc5                   // vmovsd    xmm0, qword [rsi + 208]
+	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
+	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
+	QUAD $0x000000d88610fbc5                   // vmovsd    xmm0, qword [rsi + 216]
+	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
+	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
+	QUAD $0x000000e08610fbc5                   // vmovsd    xmm0, qword [rsi + 224]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
+	QUAD $0x000000e88610fbc5                   // vmovsd    xmm0, qword [rsi + 232]
+	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
+	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
+	QUAD $0x000000f08610fbc5                   // vmovsd    xmm0, qword [rsi + 240]
+	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
+	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
+	QUAD $0x000000f88610fbc5                   // vmovsd    xmm0, qword [rsi + 248]
+	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
+	LONG $0xd7950f40                           // setne    dil
+	WORD $0xc000                               // add    al, al
+	LONG $0x04244402                           // add    al, byte [rsp + 4]
+	LONG $0x06e5c041                           // shl    r13b, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
+	LONG $0x06e1c041                           // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB3_52
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB3_54:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_56:
+	LONG $0x0410fbc5; BYTE $0xce // vmovsd    xmm0, qword [rsi + 8*rcx]
+	LONG $0x042ef9c5; BYTE $0xca // vucomisd    xmm0, qword [rdx + 8*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_56
+	JMP  LBB3_123
+
+LBB3_2:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB3_57
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB3_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_8
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_6:
+	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x0a3a                 // cmp    cl, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_6
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_8:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_12
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB3_10:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x950f; BYTE $0xd1       // setne    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd7950f41               // setne    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd7950f40               // setne    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd2950f41               // setne    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd3950f41               // setne    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd6950f41               // setne    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x950f; BYTE $0xd3       // setne    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd4950f41               // setne    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd5950f41               // setne    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd1950f41               // setne    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd0950f41               // setne    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB3_10
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB3_12:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_14:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
+	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_14
+	JMP  LBB3_123
+
+LBB3_30:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB3_90
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB3_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_36
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_34:
+	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_34
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_36:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_40
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB3_38:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB3_38
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB3_40:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_42:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
+	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_42
+	JMP  LBB3_123
+
+LBB3_68:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_72
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_70:
+	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_70
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_72:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_76
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB3_74:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x2454950f; BYTE $0x20   // setne    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd5950f41               // setne    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd0950f41               // setne    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd3950f41               // setne    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd7950f41               // setne    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x950f; BYTE $0xd3       // setne    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd2950f41               // setne    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd6950f41               // setne    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd4950f41               // setne    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd1950f41               // setne    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd7950f40               // setne    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB3_74
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB3_76:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_78:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
+	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_78
+	JMP  LBB3_123
+
+LBB3_79:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_83
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_81:
+	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_81
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_83:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_87
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB3_85:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x2454950f; BYTE $0x20   // setne    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd5950f41               // setne    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd0950f41               // setne    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd3950f41               // setne    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd7950f41               // setne    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x950f; BYTE $0xd3       // setne    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd2950f41               // setne    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd6950f41               // setne    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd4950f41               // setne    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd1950f41               // setne    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd7950f40               // setne    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB3_85
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB3_87:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_89:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
+	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_89
+	JMP  LBB3_123
+
+LBB3_101:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_105
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_103:
+	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_103
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_105:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_109
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB3_107:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB3_107
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB3_109:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_111:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
+	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_111
+	JMP  LBB3_123
+
+LBB3_112:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_116
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_114:
+	LONG $0x0610fac5             // vmovss    xmm0, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_114
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_116:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_120
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB3_118:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x0610fac5                           // vmovss    xmm0, dword [rsi]
+	LONG $0x4e10fac5; BYTE $0x04               // vmovss    xmm1, dword [rsi + 4]
+	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
+	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
+	LONG $0x4a2ef8c5; BYTE $0x04               // vucomiss    xmm1, dword [rdx + 4]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x4610fac5; BYTE $0x08               // vmovss    xmm0, dword [rsi + 8]
+	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
+	LONG $0x4610fac5; BYTE $0x0c               // vmovss    xmm0, dword [rsi + 12]
+	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
+	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
+	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
+	LONG $0x4610fac5; BYTE $0x10               // vmovss    xmm0, dword [rsi + 16]
+	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
+	LONG $0x4610fac5; BYTE $0x14               // vmovss    xmm0, dword [rsi + 20]
+	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
+	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
+	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
+	LONG $0x4610fac5; BYTE $0x18               // vmovss    xmm0, dword [rsi + 24]
+	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
+	LONG $0x4610fac5; BYTE $0x1c               // vmovss    xmm0, dword [rsi + 28]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x4610fac5; BYTE $0x20               // vmovss    xmm0, dword [rsi + 32]
+	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
+	LONG $0x4610fac5; BYTE $0x24               // vmovss    xmm0, dword [rsi + 36]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x4610fac5; BYTE $0x28               // vmovss    xmm0, dword [rsi + 40]
+	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
+	LONG $0x4610fac5; BYTE $0x2c               // vmovss    xmm0, dword [rsi + 44]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x4610fac5; BYTE $0x30               // vmovss    xmm0, dword [rsi + 48]
+	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
+	LONG $0x4610fac5; BYTE $0x34               // vmovss    xmm0, dword [rsi + 52]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
+	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
+	LONG $0x4610fac5; BYTE $0x38               // vmovss    xmm0, dword [rsi + 56]
+	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
+	LONG $0x4610fac5; BYTE $0x3c               // vmovss    xmm0, dword [rsi + 60]
+	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
+	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x4610fac5; BYTE $0x40               // vmovss    xmm0, dword [rsi + 64]
+	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
+	LONG $0x4610fac5; BYTE $0x44               // vmovss    xmm0, dword [rsi + 68]
+	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
+	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
+	LONG $0x4610fac5; BYTE $0x48               // vmovss    xmm0, dword [rsi + 72]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
+	LONG $0x4610fac5; BYTE $0x4c               // vmovss    xmm0, dword [rsi + 76]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
+	LONG $0x4610fac5; BYTE $0x50               // vmovss    xmm0, dword [rsi + 80]
+	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
+	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
+	LONG $0x4610fac5; BYTE $0x54               // vmovss    xmm0, dword [rsi + 84]
+	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
+	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
+	LONG $0x4610fac5; BYTE $0x58               // vmovss    xmm0, dword [rsi + 88]
+	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
+	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
+	LONG $0x4610fac5; BYTE $0x5c               // vmovss    xmm0, dword [rsi + 92]
+	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
+	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
+	LONG $0x4610fac5; BYTE $0x60               // vmovss    xmm0, dword [rsi + 96]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
+	LONG $0x4610fac5; BYTE $0x64               // vmovss    xmm0, dword [rsi + 100]
+	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
+	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
+	LONG $0x4610fac5; BYTE $0x68               // vmovss    xmm0, dword [rsi + 104]
+	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
+	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
+	LONG $0x4610fac5; BYTE $0x6c               // vmovss    xmm0, dword [rsi + 108]
+	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
+	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
+	LONG $0x4610fac5; BYTE $0x70               // vmovss    xmm0, dword [rsi + 112]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
+	LONG $0x4610fac5; BYTE $0x74               // vmovss    xmm0, dword [rsi + 116]
+	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
+	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
+	LONG $0x4610fac5; BYTE $0x78               // vmovss    xmm0, dword [rsi + 120]
+	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
+	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
+	LONG $0x4610fac5; BYTE $0x7c               // vmovss    xmm0, dword [rsi + 124]
+	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
+	LONG $0xd7950f40                           // setne    dil
+	WORD $0xc000                               // add    al, al
+	LONG $0x04244402                           // add    al, byte [rsp + 4]
+	LONG $0x06e5c041                           // shl    r13b, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
+	LONG $0x06e1c041                           // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB3_118
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB3_120:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_122:
+	LONG $0x0410fac5; BYTE $0x8e // vmovss    xmm0, dword [rsi + 4*rcx]
+	LONG $0x042ef8c5; BYTE $0x8a // vucomiss    xmm0, dword [rdx + 4*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_122
+	JMP  LBB3_123
+
+LBB3_57:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_61
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_59:
+	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x0a3a                 // cmp    cl, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_59
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_61:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_65
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB3_63:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x950f; BYTE $0xd1       // setne    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd7950f41               // setne    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd7950f40               // setne    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd2950f41               // setne    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd3950f41               // setne    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd6950f41               // setne    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x950f; BYTE $0xd3       // setne    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd4950f41               // setne    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd5950f41               // setne    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd1950f41               // setne    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd0950f41               // setne    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB3_63
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB3_65:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_67:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
+	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_67
+	JMP  LBB3_123
+
+LBB3_90:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_94
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_92:
+	WORD $0x0e8b                 // mov    ecx, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_92
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_94:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_98
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB3_96:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd5950f41                           // setne    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd3950f41                           // setne    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd7950f41                           // setne    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd2950f41                           // setne    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd6950f41                           // setne    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd4950f41                           // setne    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd1950f41                           // setne    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB3_96
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB3_98:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_100:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_100
+
+LBB3_123:
+	SUBQ $8, SP
+	RET
+
+DATA LCDATA3<>+0x000(SB)/8, $0x0202020202020202
+DATA LCDATA3<>+0x008(SB)/8, $0x0202020202020202
+DATA LCDATA3<>+0x010(SB)/8, $0x0202020202020202
+DATA LCDATA3<>+0x018(SB)/8, $0x0202020202020202
+DATA LCDATA3<>+0x020(SB)/8, $0x0404040404040404
+DATA LCDATA3<>+0x028(SB)/8, $0x0404040404040404
+DATA LCDATA3<>+0x030(SB)/8, $0x0404040404040404
+DATA LCDATA3<>+0x038(SB)/8, $0x0404040404040404
+DATA LCDATA3<>+0x040(SB)/8, $0x0808080808080808
+DATA LCDATA3<>+0x048(SB)/8, $0x0808080808080808
+DATA LCDATA3<>+0x050(SB)/8, $0x0808080808080808
+DATA LCDATA3<>+0x058(SB)/8, $0x0808080808080808
+DATA LCDATA3<>+0x060(SB)/8, $0x1010101010101010
+DATA LCDATA3<>+0x068(SB)/8, $0x1010101010101010
+DATA LCDATA3<>+0x070(SB)/8, $0x1010101010101010
+DATA LCDATA3<>+0x078(SB)/8, $0x1010101010101010
+DATA LCDATA3<>+0x080(SB)/8, $0x2020202020202020
+DATA LCDATA3<>+0x088(SB)/8, $0x2020202020202020
+DATA LCDATA3<>+0x090(SB)/8, $0x2020202020202020
+DATA LCDATA3<>+0x098(SB)/8, $0x2020202020202020
+DATA LCDATA3<>+0x0a0(SB)/8, $0x4040404040404040
+DATA LCDATA3<>+0x0a8(SB)/8, $0x4040404040404040
+DATA LCDATA3<>+0x0b0(SB)/8, $0x4040404040404040
+DATA LCDATA3<>+0x0b8(SB)/8, $0x4040404040404040
+DATA LCDATA3<>+0x0c0(SB)/8, $0x8080808080808080
+DATA LCDATA3<>+0x0c8(SB)/8, $0x8080808080808080
+DATA LCDATA3<>+0x0d0(SB)/8, $0x8080808080808080
+DATA LCDATA3<>+0x0d8(SB)/8, $0x8080808080808080
+GLOBL LCDATA3<>(SB), 8, $224
+
+TEXT ·_comparison_not_equal_arr_scalar_avx2(SB), $1320-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $32, SP
+	ANDQ $-32, SP
+	MOVQ BP, 1280(SP)
+	LEAQ LCDATA3<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB4_13
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB4_25
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB4_48
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB4_56
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB4_159
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_9
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_7:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB4_7
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB4_9:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB4_100
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB4_11:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB4_11
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB4_101
+	JMP  LBB4_159
+
+LBB4_13:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB4_38
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB4_64
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB4_72
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB4_159
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_21
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_19:
+	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB4_19
+	LONG $0x01c38349             // add    r11, 1
+
+LBB4_21:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB4_104
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB4_23:
+	LONG $0x062ef9c5                           // vucomisd    xmm0, qword [rsi]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x462ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rsi + 8]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x462ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rsi + 16]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x462ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rsi + 24]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x462ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rsi + 32]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x462ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rsi + 40]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x462ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rsi + 48]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x462ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rsi + 56]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x462ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rsi + 64]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x462ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rsi + 72]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x462ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rsi + 80]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x462ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rsi + 88]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x462ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rsi + 96]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x462ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rsi + 104]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x462ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rsi + 112]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x462ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rsi + 120]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	QUAD $0x00000080862ef9c5                   // vucomisd    xmm0, qword [rsi + 128]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	QUAD $0x00000088862ef9c5                   // vucomisd    xmm0, qword [rsi + 136]
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	QUAD $0x00000090862ef9c5                   // vucomisd    xmm0, qword [rsi + 144]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	QUAD $0x00000098862ef9c5                   // vucomisd    xmm0, qword [rsi + 152]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	QUAD $0x000000a0862ef9c5                   // vucomisd    xmm0, qword [rsi + 160]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	QUAD $0x000000a8862ef9c5                   // vucomisd    xmm0, qword [rsi + 168]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	QUAD $0x000000b0862ef9c5                   // vucomisd    xmm0, qword [rsi + 176]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	QUAD $0x000000b8862ef9c5                   // vucomisd    xmm0, qword [rsi + 184]
+	LONG $0xd7950f41                           // setne    r15b
+	QUAD $0x000000c0862ef9c5                   // vucomisd    xmm0, qword [rsi + 192]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	QUAD $0x000000c8862ef9c5                   // vucomisd    xmm0, qword [rsi + 200]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	QUAD $0x000000d0862ef9c5                   // vucomisd    xmm0, qword [rsi + 208]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	QUAD $0x000000d8862ef9c5                   // vucomisd    xmm0, qword [rsi + 216]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	QUAD $0x000000e0862ef9c5                   // vucomisd    xmm0, qword [rsi + 224]
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	QUAD $0x000000e8862ef9c5                   // vucomisd    xmm0, qword [rsi + 232]
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	QUAD $0x000000f0862ef9c5                   // vucomisd    xmm0, qword [rsi + 240]
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	QUAD $0x000000f8862ef9c5                   // vucomisd    xmm0, qword [rsi + 248]
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x00000098248c0244                   // add    r9b, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x70245402                           // add    dl, byte [rsp + 112]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xc000                               // add    al, al
+	LONG $0x50244402                           // add    al, byte [rsp + 80]
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x0000009024848348; BYTE $0xff       // add    qword [rsp + 144], -1
+	JNE  LBB4_23
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB4_105
+	JMP  LBB4_159
+
+LBB4_25:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB4_80
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB4_159
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_131
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+	WORD $0x894d; BYTE $0xdd // mov    r13, r11
+
+LBB4_29:
+	WORD $0x3844; BYTE $0x36       // cmp    byte [rsi], r14b
+	LONG $0x01768d48               // lea    rsi, [rsi + 1]
+	WORD $0x950f; BYTE $0xd2       // setne    dl
+	WORD $0xdaf6                   // neg    dl
+	LONG $0x07788d48               // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xf8490f48               // cmovns    rdi, rax
+	LONG $0x03ffc148               // sar    rdi, 3
+	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
+	WORD $0x3044; BYTE $0xca       // xor    dl, r9b
+	QUAD $0x00000000fd048d44       // lea    r8d, [8*rdi]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00   // mov    ebx, 1
+	WORD $0xe3d3                   // shl    ebx, cl
+	WORD $0xd320                   // and    bl, dl
+	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
+	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB4_29
+	LONG $0x01c58349               // add    r13, 1
+	LONG $0x05ffc149               // sar    r15, 5
+	LONG $0x20fa8349               // cmp    r10, 32
+	JL   LBB4_132
+
+LBB4_31:
+	LONG $0x20ff8349             // cmp    r15, 32
+	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
+	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
+	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
+	JB   LBB4_34
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc5     // cmp    r13, rax
+	JAE  LBB4_165
+	QUAD $0x00000000bd048d4a     // lea    rax, [4*r15]
+	WORD $0x014c; BYTE $0xe8     // add    rax, r13
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB4_165
+
+LBB4_34:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+	QUAD $0x0000017824ac894c // mov    qword [rsp + 376], r13
+
+LBB4_35:
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+	QUAD $0x0000018024ac2b4c // sub    r13, qword [rsp + 384]
+	QUAD $0x0000009024ac894c // mov    qword [rsp + 144], r13
+
+LBB4_36:
+	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
+	LONG $0x24343845                           // cmp    byte [r12], r14b
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	QUAD $0x000001102494950f                   // setne    byte [rsp + 272]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x20249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 288]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x0000009824b4b60f                   // movzx    esi, byte [rsp + 152]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xc000                               // add    al, al
+	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xd308                               // or    bl, dl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
+	QUAD $0x0000009024848348; BYTE $0xff       // add    qword [rsp + 144], -1
+	JNE  LBB4_36
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
+	JMP  LBB4_133
+
+LBB4_38:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB4_92
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB4_159
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_44
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_42:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB4_42
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB4_44:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB4_107
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+
+LBB4_46:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB4_46
+	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB4_108
+	JMP  LBB4_159
+
+LBB4_48:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_52
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_50:
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB4_50
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB4_52:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB4_111
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB4_54:
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB4_54
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB4_112
+	JMP  LBB4_159
+
+LBB4_56:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_60
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_58:
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB4_58
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB4_60:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB4_115
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB4_62:
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB4_62
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB4_116
+	JMP  LBB4_159
+
+LBB4_64:
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_68
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_66:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB4_66
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB4_68:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB4_118
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB4_70:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB4_70
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB4_119
+	JMP  LBB4_159
+
+LBB4_72:
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_76
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_74:
+	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB4_74
+	LONG $0x01c38349             // add    r11, 1
+
+LBB4_76:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB4_121
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB4_78:
+	LONG $0x062ef8c5                           // vucomiss    xmm0, dword [rsi]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x462ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rsi + 4]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x462ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rsi + 8]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x462ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rsi + 12]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x462ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rsi + 16]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x462ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rsi + 20]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x462ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rsi + 24]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x462ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rsi + 28]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x462ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rsi + 32]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x462ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rsi + 36]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x462ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rsi + 40]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x462ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rsi + 44]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x462ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rsi + 48]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x462ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rsi + 52]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x462ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rsi + 56]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x462ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rsi + 60]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x462ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rsi + 64]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x462ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rsi + 68]
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x462ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rsi + 72]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x462ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rsi + 76]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x462ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rsi + 80]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x462ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rsi + 84]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x462ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rsi + 88]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x462ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rsi + 92]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x462ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rsi + 96]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x462ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rsi + 100]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x462ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rsi + 104]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x462ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rsi + 108]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x462ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rsi + 112]
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x462ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rsi + 116]
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x462ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rsi + 120]
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0x462ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rsi + 124]
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x00000098248c0244                   // add    r9b, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x70245402                           // add    dl, byte [rsp + 112]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xc000                               // add    al, al
+	LONG $0x50244402                           // add    al, byte [rsp + 80]
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x0000009024848348; BYTE $0xff       // add    qword [rsp + 144], -1
+	JNE  LBB4_78
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB4_122
+	JMP  LBB4_159
+
+LBB4_80:
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_84
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_82:
+	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB4_82
+	LONG $0x01c38349             // add    r11, 1
+
+LBB4_84:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB4_124
+	LONG $0x20ff8349             // cmp    r15, 32
+	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
+	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
+	QUAD $0x0000018824bc894c     // mov    qword [rsp + 392], r15
+	JB   LBB4_88
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
+	JAE  LBB4_168
+	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB4_168
+
+LBB4_88:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
+
+LBB4_89:
+	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+
+LBB4_90:
+	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
+	LONG $0x24343845                           // cmp    byte [r12], r14b
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	QUAD $0x000001102494950f                   // setne    byte [rsp + 272]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x20249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 288]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	QUAD $0x000000982494b60f                   // movzx    edx, byte [rsp + 152]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	QUAD $0x0000017824b48b48                   // mov    rsi, qword [rsp + 376]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xc000                               // add    al, al
+	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xd308                               // or    bl, dl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x0000017824b48948                   // mov    qword [rsp + 376], rsi
+	QUAD $0x0000009024848348; BYTE $0xff       // add    qword [rsp + 144], -1
+	JNE  LBB4_90
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
+	JMP  LBB4_125
+
+LBB4_92:
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_96
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_94:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB4_94
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB4_96:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB4_128
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+
+LBB4_98:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009024bc0240                   // add    dil, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB4_98
+	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB4_129
+	JMP  LBB4_159
+
+LBB4_100:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB4_159
+
+LBB4_101:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JE   LBB4_130
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB4_103:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_103
+	JMP  LBB4_156
+
+LBB4_104:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB4_159
+
+LBB4_105:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB4_136
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB4_138
+
+LBB4_107:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB4_159
+
+LBB4_108:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JE   LBB4_120
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB4_110:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_110
+	JMP  LBB4_146
+
+LBB4_111:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB4_159
+
+LBB4_112:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JE   LBB4_117
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB4_114:
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_114
+	JMP  LBB4_142
+
+LBB4_115:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB4_159
+
+LBB4_116:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB4_140
+
+LBB4_117:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB4_142
+
+LBB4_118:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB4_159
+
+LBB4_119:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB4_144
+
+LBB4_120:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB4_146
+
+LBB4_121:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB4_159
+
+LBB4_122:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB4_148
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB4_150
+
+LBB4_124:
+	QUAD $0x00000178249c894c // mov    qword [rsp + 376], r11
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+
+LBB4_125:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB4_159
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JE   LBB4_127
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
+
+LBB4_153:
+	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB4_153
+	JMP  LBB4_162
+
+LBB4_128:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB4_159
+
+LBB4_129:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB4_154
+
+LBB4_130:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB4_156
+
+LBB4_131:
+	WORD $0x894d; BYTE $0xdd // mov    r13, r11
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JGE  LBB4_31
+
+LBB4_132:
+	QUAD $0x0000017824ac894c // mov    qword [rsp + 376], r13
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+
+LBB4_133:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB4_159
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB4_160
+
+LBB4_127:
+	WORD $0xf631  // xor    esi, esi
+	JMP  LBB4_163
+
+LBB4_136:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB4_137:
+	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x462ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rsi + 8]
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_137
+
+LBB4_138:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB4_159
+	LONG $0x062ef9c5 // vucomisd    xmm0, qword [rsi]
+	JMP  LBB4_158
+
+LBB4_140:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB4_141:
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_141
+
+LBB4_142:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB4_159
+	LONG $0x2e394466 // cmp    word [rsi], r13w
+	JMP  LBB4_158
+
+LBB4_144:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB4_145:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_145
+
+LBB4_146:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB4_159
+	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
+	JMP  LBB4_158
+
+LBB4_148:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB4_149:
+	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x462ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rsi + 4]
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_149
+
+LBB4_150:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB4_159
+	LONG $0x062ef8c5 // vucomiss    xmm0, dword [rsi]
+	JMP  LBB4_158
+
+LBB4_154:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB4_155:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_155
+
+LBB4_156:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB4_159
+	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
+
+LBB4_158:
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
+
+LBB4_159:
+	MOVQ 1280(SP), SP
+	VZEROUPPER
+	RET
+
+LBB4_160:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x00000178249c8b4c // mov    r11, qword [rsp + 376]
+
+LBB4_161:
+	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB4_161
+
+LBB4_162:
+	WORD $0x0149; BYTE $0xf4 // add    r12, rsi
+
+LBB4_163:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB4_159
+	LONG $0x24343845         // cmp    byte [r12], r14b
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	QUAD $0x0000017824848b4c // mov    r8, qword [rsp + 376]
+	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
+	JMP  LBB4_159
+
+LBB4_165:
+	LONG $0xe0e78349                     // and    r15, -32
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
+	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
+	QUAD $0x00000000bd048d4a             // lea    rax, [4*r15]
+	WORD $0x014c; BYTE $0xe8             // add    rax, r13
+	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
+	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x0000011024ac894c             // mov    qword [rsp + 272], r13
+
+LBB4_166:
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
+	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
+	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
+	LONG $0xf86e79c5                           // vmovd    xmm15, eax
+	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
+	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
+	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
+	QUAD $0x0000010024948948                   // mov    qword [rsp + 256], rdx
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	LONG $0x20cd8149; WORD $0x0002; BYTE $0x00 // or    r13, 544
+	QUAD $0x000000f824ac894c                   // mov    qword [rsp + 248], r13
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
+	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
+	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	LONG $0x80ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 640
+	QUAD $0x000000802494894c                   // mov    qword [rsp + 128], r10
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02a00d48; WORD $0x0000             // or    rax, 672
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
+	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
+	LONG $0xc0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 704
+	QUAD $0x000000d824bc8948                   // mov    qword [rsp + 216], rdi
+	WORD $0x8948; BYTE $0xda                   // mov    rdx, rbx
+	LONG $0xe0ca8148; WORD $0x0002; BYTE $0x00 // or    rdx, 736
+	QUAD $0x000000e024948948                   // mov    qword [rsp + 224], rdx
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
+	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
+	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
+	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
+	QUAD $0x000000a024bc894c                   // mov    qword [rsp + 160], r15
+	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
+	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
+	QUAD $0x000000d0249c894c                   // mov    qword [rsp + 208], r11
+	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
+	LONG $0x60c88149; WORD $0x0003; BYTE $0x00 // or    r8, 864
+	QUAD $0x000001082484894c                   // mov    qword [rsp + 264], r8
+	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
+	LONG $0x80ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 896
+	LONG $0x2474894c; BYTE $0x78               // mov    qword [rsp + 120], r14
+	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
+	LONG $0xa0c98149; WORD $0x0003; BYTE $0x00 // or    r9, 928
+	LONG $0x244c894c; BYTE $0x58               // mov    qword [rsp + 88], r9
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x000000f0249c8948                   // mov    qword [rsp + 240], rbx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
+	LONG $0x244c8948; BYTE $0x20               // mov    qword [rsp + 32], rcx
+	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
+	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
+	LONG $0x2031a3c4; WORD $0x2e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + r13], 2
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
+	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r10], 4
+	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 5
+	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 6
+	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 7
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 8
+	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 9
+	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r11], 10
+	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r8], 11
+	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r14], 12
+	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + r9], 13
+	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
+	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 1
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 2
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 3
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 4
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 5
+	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
+	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 6
+	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
+	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 7
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 10
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
+	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
+	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + r12], 14
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
+	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
+	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
+	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
+	QUAD $0x04012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 4
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x07012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 7
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	QUAD $0x08012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 8
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
+	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
+	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0c0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 12
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0e0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
+	QUAD $0x01011e6c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rbx + 1], 1
+	QUAD $0x02013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 2
+	QUAD $0x03010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 3
+	QUAD $0x0401166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 4
+	QUAD $0x05011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 5
+	QUAD $0x0601066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 6
+	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
+	QUAD $0x0701366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 1], 7
+	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
+	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 10
+	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
+	QUAD $0x0e01266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 14
+	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xd76e79c5                           // vmovd    xmm10, edi
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
+	QUAD $0x01020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 1
+	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
+	QUAD $0x02020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 2
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
+	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
+	QUAD $0x060236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 6
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
+	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
+	QUAD $0x08022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 8
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
+	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
+	QUAD $0x0a0206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 10
+	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
+	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0c0216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 12
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
+	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
+	QUAD $0x06021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 6
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
+	QUAD $0x01030e642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + rcx + 3], 1
+	QUAD $0x02030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 2
+	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x04031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 4
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+	QUAD $0x050316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 5
+	QUAD $0x060336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 6
+	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
+	QUAD $0x07030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 7
+	QUAD $0x080326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 8
+	QUAD $0x09032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 9
+	QUAD $0x0a0306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 10
+	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
+	QUAD $0x0c0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 12
+	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x0e0306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 14
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
+	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x0603366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 6
+	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0803066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0903066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
+	LONG $0xc76e79c5                           // vmovd    xmm8, edi
+	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
+	QUAD $0x0f0326442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 3], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	LONG $0x167cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rdx + 9]
+	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
+	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x010406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 1
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x02041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
+	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
+	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
+	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
+	QUAD $0x050416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 5
+	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
+	QUAD $0x06043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 6
+	QUAD $0x07040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 7
+	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
+	QUAD $0x080416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 8
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x090416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 9
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x0a0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 10
+	QUAD $0x0b041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 11
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0c0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 12
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0d0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 13
+	QUAD $0x0e0406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 14
+	QUAD $0x0f040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 15
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x01040e5c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rsi + rcx + 4], 1
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x0204165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 2
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x03040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 3
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x04040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 4
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x05040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 5
+	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
+	QUAD $0x0604365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 6
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x07040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 7
+	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
+	QUAD $0x08040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 9
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x0a04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 10
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0b040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 11
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0c040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 12
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0d040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 13
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x0e04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 14
+	QUAD $0x0f04265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 15
+	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
+	QUAD $0x010536642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r14 + 5], 1
+	QUAD $0x02051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 2
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x03051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 3
+	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
+	QUAD $0x050506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 5
+	QUAD $0x06053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 6
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x070506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 7
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	QUAD $0x080516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 8
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0a0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 10
+	QUAD $0x0b051e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 5], 11
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x0c052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 13
+	QUAD $0x0e0506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 15
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x01050e6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rcx + 5], 1
+	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0505066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 5
+	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0705066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 7
+	QUAD $0x08050e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 5], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0905066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
+	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
+	QUAD $0x0f0526442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + r12 + 5], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
+	QUAD $0x010636442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r14 + 6], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x020606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 2
+	QUAD $0x03061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 3
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x040636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x050606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 5
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x060616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 6
+	QUAD $0x07063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 7
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x080606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 8
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x09063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 9
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	QUAD $0x0a060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 10
+	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
+	QUAD $0x0b0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 11
+	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
+	QUAD $0x0c062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 12
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0d063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0f063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 15
+	QUAD $0x01060e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rcx + 6], 1
+	QUAD $0x0206166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 2
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x06062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 6
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0706166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 7
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x08060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0b061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 11
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0c061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 12
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x0d061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 13
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x0e061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 14
+	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
+	QUAD $0x0f06266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 6], 15
+	QUAD $0x01071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 1
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x02071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 2
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x03071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 3
+	QUAD $0x040736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 4
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
+	QUAD $0x060716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 6
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	QUAD $0x07071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 7
+	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
+	QUAD $0x080716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 8
+	QUAD $0x09073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 9
+	QUAD $0x0a070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 10
+	QUAD $0x0b0706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 11
+	QUAD $0x0c0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 15
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0107064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 1
+	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
+	QUAD $0x0207264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0307064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 3
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0407064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 4
+	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
+	QUAD $0x06072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 6
+	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
+	QUAD $0x0707164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 7
+	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
+	QUAD $0x08070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0907064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 9
+	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x0b072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 13
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e0706442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 7], 14
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0f0706442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 7], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
+	QUAD $0x01083e442031a3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + r15 + 8], 1
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x02081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 2
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x040806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 4
+	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x060806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 6
+	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
+	QUAD $0x07081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 7
+	QUAD $0x080816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 8], 8
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x090816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 9
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x0a0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 10
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x0b083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 11
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0c0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 12
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0d0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 13
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0e0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 15
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x0108166c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rdx + 8], 1
+	QUAD $0x0208266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 2
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0308166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 3
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
+	QUAD $0x0608066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 6
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0708166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 7
+	QUAD $0x08080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 8
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0908166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 9
+	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
+	QUAD $0x0a08066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 10
+	QUAD $0x0b082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 11
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0c08266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 12
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
+	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
+	QUAD $0x0f082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 15
+	QUAD $0x01093e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r15 + 9], 1
+	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
+	QUAD $0x02091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 2
+	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x04091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 4
+	QUAD $0x050936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 5
+	QUAD $0x060906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 6
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	QUAD $0x07091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 7
+	QUAD $0x080916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 8
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x09090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 9
+	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
+	QUAD $0x0a093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 10
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0b0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 11
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x0c091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 15
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0109067c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rax + 9], 1
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x0209167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
+	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0609067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0709067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0809067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0909067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 9
+	QUAD $0x0a09067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 9], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
+	QUAD $0x0c09267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 9], 12
+	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
+	QUAD $0x0d09367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 13
+	QUAD $0x0e09167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
+	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x020a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
+	QUAD $0x040a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 4
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x050a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 5
+	QUAD $0x060a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 6
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x070a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 7
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x080a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 8
+	QUAD $0x090a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 9
+	QUAD $0x0a0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 10
+	QUAD $0x00000108248c8b4c                   // mov    r9, qword [rsp + 264]
+	QUAD $0x0b0a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 11
+	QUAD $0x0c0a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 12
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0d0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 15
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x010a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 1
+	QUAD $0x020a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 2
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	QUAD $0x040a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 4
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x050a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 5
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x060a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x070a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x080a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 11
+	QUAD $0x0c0a26642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 10], 12
+	QUAD $0x0d0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 13
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x0e0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 14
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0f0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 15
+	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x020b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x030b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 3
+	QUAD $0x040b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 4
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	QUAD $0x050b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 5
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x060b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 6
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x070b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 7
+	QUAD $0x080b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 8
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x090b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 9
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
+	QUAD $0x0b0b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 11
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
+	QUAD $0x0d0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 15
+	QUAD $0x010b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 1
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
+	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
+	QUAD $0x040b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 4
+	QUAD $0x050b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 5
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x060b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x070b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x080b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 11
+	QUAD $0x0c0b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
+	QUAD $0x0e0b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 14
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0f0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
+	QUAD $0x010c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 1
+	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
+	QUAD $0x020c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 12], 2
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x030c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 3
+	QUAD $0x040c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 4
+	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
+	QUAD $0x050c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 5
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x060c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 6
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x070c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 7
+	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
+	QUAD $0x080c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 12], 8
+	QUAD $0x090c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 9
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x0a0c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 10
+	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
+	QUAD $0x0b0c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 12], 11
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0c0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 12
+	QUAD $0x0d0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 15
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x010c06542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + rax + 12], 1
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x030c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 3
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x050c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 5
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x070c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x080c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
+	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
+	QUAD $0x0a0c2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 12], 10
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0b0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 11
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0c0c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 12
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0d0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 13
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0e0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 14
+	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
+	QUAD $0x0f0c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 15
+	QUAD $0x010d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 1
+	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
+	QUAD $0x020d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 2
+	QUAD $0x030d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 3
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x040d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 4
+	QUAD $0x050d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 5
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x060d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 6
+	QUAD $0x070d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 7
+	QUAD $0x080d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 8
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x090d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 9
+	QUAD $0x0a0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 10
+	QUAD $0x0b0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 11
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x0c0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 12
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0d0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 13
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f0d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 15
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x010d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 1
+	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x030d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 3
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x040d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 4
+	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
+	QUAD $0x050d064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 13], 5
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x060d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 6
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x070d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 7
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x080d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 8
+	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
+	QUAD $0x0a0d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 11
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0c0d1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 13], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 14
+	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
+	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
+	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x010e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x020e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 2
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x030e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x040e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x060e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 14], 6
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x090e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 9
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0a0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 10
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0b0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 11
+	QUAD $0x0c0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 12
+	QUAD $0x0d0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 13
+	QUAD $0x0e0e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 14], 14
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0f0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 15
+	QUAD $0x010e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 1
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	QUAD $0x040e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 4
+	QUAD $0x050e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 5
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x060e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 6
+	QUAD $0x070e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x090e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 9
+	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
+	QUAD $0x0a0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
+	QUAD $0x0c0e1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 14], 12
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x0d0e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 13
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3e7cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rdi + 15]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x020f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 2
+	QUAD $0x030f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 3
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x040f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 4
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x050f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 5
+	QUAD $0x060f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 6
+	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
+	QUAD $0x070f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 7
+	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
+	QUAD $0x080f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 8
+	QUAD $0x090f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 9
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x0a0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 10
+	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
+	QUAD $0x0b0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 11
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0c0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 12
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0d0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 14
+	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
+	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x010f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 1
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
+	QUAD $0x040f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 4
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x050f2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 15], 5
+	QUAD $0x060f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 6
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x070f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 7
+	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
+	QUAD $0x090f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 9
+	QUAD $0x0a0f065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 15], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
+	QUAD $0x0d0f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 13
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0e0f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 14
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0f0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 15
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rax + 16]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x011016442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 16], 1
+	QUAD $0x02101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x031006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 3
+	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
+	QUAD $0x041006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 4
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x05101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 5
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x061006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 6
+	QUAD $0x071026442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 16], 7
+	QUAD $0x08100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 8
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x091006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 9
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0a1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 10
+	QUAD $0x0b103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 11
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0c1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	LONG $0x167cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdx + 16]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+	QUAD $0x0110364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 1
+	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
+	QUAD $0x02100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 2
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0310164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 3
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x0410164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 4
+	QUAD $0x05102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 5
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x0610164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 6
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0710164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 7
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x0810164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 8
+	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
+	QUAD $0x09101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 9
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0a103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 12
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0d103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 13
+	QUAD $0x0e100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 14
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0f100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 15
+	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x112e             // movzx    edi, byte [rsi + r13 + 17]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 1
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x02113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 2
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x031116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 3
+	QUAD $0x041106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 4
+	QUAD $0x05111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 5
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x06110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 6
+	QUAD $0x071126542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 17], 7
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x08110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 8
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x09113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 9
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x0a113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 10
+	QUAD $0x0b113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 11
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0c113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 12
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0d113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0e111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 14
+	QUAD $0x0f1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0111365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 1
+	QUAD $0x02110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0311065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 3
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x0411065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 17], 4
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0511065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 5
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0611065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 6
+	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
+	QUAD $0x07110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 7
+	QUAD $0x0811165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 8
+	QUAD $0x09111e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 17], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 10
+	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
+	QUAD $0x0b11365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0f1106442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 17], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	LONG $0x7cb60f42; WORD $0x122e             // movzx    edi, byte [rsi + r13 + 18]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x021206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 2
+	QUAD $0x031216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x041206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x051206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 5
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x061206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 6
+	QUAD $0x071226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 7
+	QUAD $0x08120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 8
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x091206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 9
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0a120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 10
+	QUAD $0x0b123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 11
+	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
+	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
+	QUAD $0x0e121e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 18], 14
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x0f123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 15
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rcx + 18]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x01120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 1
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x02120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 2
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x03120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 3
+	QUAD $0x0412064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 4
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x05120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 5
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x06120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 6
+	QUAD $0x07120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 7
+	QUAD $0x0812164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 8
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x0912064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
+	QUAD $0x0b12364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 11
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0c12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 12
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x0d12164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 13
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x0e121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 14
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0f123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 15
+	LONG $0x7cb60f42; WORD $0x132e             // movzx    edi, byte [rsi + r13 + 19]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x02133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 2
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
+	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
+	QUAD $0x04132e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 19], 4
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x05133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 5
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x06133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 6
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
+	QUAD $0x091306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 9
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0a1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 10
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0b1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 11
+	QUAD $0x0c1326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 12
+	QUAD $0x0d131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 14
+	QUAD $0x0f133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rax + 19]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0113065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 1
+	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
+	QUAD $0x0213365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0313065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 3
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0413065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 4
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x05133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 5
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x06130e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 19], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0713065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0813065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 8
+	QUAD $0x0913065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 9
+	QUAD $0x0a130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 11
+	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
+	QUAD $0x0d13165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 13
+	QUAD $0x0e131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 14
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0f13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x141e             // movzx    edi, byte [rsi + r11 + 20]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x011406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 1
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x03140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 3
+	QUAD $0x04142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 4
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x05140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 5
+	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
+	QUAD $0x061406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 20], 6
+	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
+	QUAD $0x071426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 7
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x08143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 8
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x09143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 9
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0a140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 10
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	QUAD $0x0b141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 11
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0c143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 12
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0d143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0f143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3e7cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rdi + 20]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x0114164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 1
+	QUAD $0x0214364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 2
+	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
+	QUAD $0x0314364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 3
+	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
+	QUAD $0x04142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 4
+	QUAD $0x05143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 5
+	QUAD $0x06140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 6
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x07143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 7
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+	QUAD $0x09143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 9
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 12
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x0e140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 14
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
+	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 1
+	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
+	WORD $0x8949; BYTE $0xd3                   // mov    r11, rdx
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x041506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x051506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 5
+	QUAD $0x061506542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 21], 6
+	QUAD $0x071526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 7
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x081506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 8
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x091506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 9
+	QUAD $0x0a150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 10
+	QUAD $0x0b151e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 21], 11
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0c1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rax + 21]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0115165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 1
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
+	QUAD $0x0315365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 3
+	QUAD $0x04152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 4
+	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
+	QUAD $0x0515365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 5
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0615065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 6
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x0715165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0815065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 8
+	QUAD $0x09153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 9
+	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
+	QUAD $0x0a15265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b15065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 11
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0c153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 12
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0d150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 13
+	QUAD $0x0e150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0f151e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rbx + 21], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rcx + 22]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
+	QUAD $0x02161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 2
+	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x04163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 4
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
+	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
+	QUAD $0x06160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 6
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x07163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 7
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x081616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 8
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x091616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 9
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	QUAD $0x0a161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 10
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x0c1606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 12
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0d163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	QUAD $0x02162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 2
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x03163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 3
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x04163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 4
+	QUAD $0x0516364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 5
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x06163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 6
+	QUAD $0x0716164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 7
+	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
+	QUAD $0x0816364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 9
+	QUAD $0x0a16264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 10
+	QUAD $0x0b16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 11
+	QUAD $0x0c163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 12
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x0d16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 14
+	QUAD $0x0f161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 15
+	LONG $0x0e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rcx + 23]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x011706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 1
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x02170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x031706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x041706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x051706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 5
+	QUAD $0x06170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 6
+	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
+	QUAD $0x07170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 7
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x081706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 8
+	QUAD $0x091716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 9
+	QUAD $0x0a171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 10
+	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
+	QUAD $0x0b1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 11
+	QUAD $0x0c1706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rax + 23]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0117065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 1
+	QUAD $0x02172e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 23], 2
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0317165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 3
+	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
+	QUAD $0x04173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 4
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x05171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 5
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x06172e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 23], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0717065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 7
+	QUAD $0x0817365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
+	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
+	QUAD $0x0a17065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 12
+	QUAD $0x0d17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 13
+	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
+	QUAD $0x0e17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 14
+	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
+	QUAD $0x0f171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 15
+	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
+	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdi + 24]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x01183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 1
+	QUAD $0x02180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 2
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x03180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 3
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x04180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 4
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x05180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 5
+	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
+	QUAD $0x061836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 6
+	QUAD $0x07180e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 24], 7
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x08180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 8
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x09180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 9
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0a180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 10
+	QUAD $0x0b1826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 24], 11
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0c180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 12
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0d180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 14
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0f180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 15
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
+	QUAD $0x01180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 1
+	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
+	QUAD $0x0218264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 2
+	QUAD $0x0318164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 3
+	QUAD $0x04183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 4
+	QUAD $0x05181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 5
+	QUAD $0x06182e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 24], 6
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x07180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 7
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	QUAD $0x08183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 9
+	QUAD $0x0a18064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 10
+	QUAD $0x0b18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 12
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0d180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 13
+	QUAD $0x0e18164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 14
+	QUAD $0x0f181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rax + 25]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
+	QUAD $0x011916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 1
+	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
+	QUAD $0x021906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x031906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x05191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 5
+	QUAD $0x061936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 6
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x071906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 7
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
+	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
+	QUAD $0x091916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 9
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	QUAD $0x0a1936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 10
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x0b193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 11
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x0c191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 12
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0d193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 14
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0f192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdi + 25]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x01190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 1
+	QUAD $0x0219265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 2
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	QUAD $0x03190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 3
+	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
+	QUAD $0x0419265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 4
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x05193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 5
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x06193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 6
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x07193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 7
+	QUAD $0x08193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 9
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0a193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 10
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x0b193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 12
+	QUAD $0x0d190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 13
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0e190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0f190e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rcx + 25], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0e7cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rcx + 26]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
+	QUAD $0x021a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 2
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x031a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 3
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
+	QUAD $0x051a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 5
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x061a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 6
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x071a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 7
+	QUAD $0x081a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 8
+	QUAD $0x091a16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 26], 9
+	QUAD $0x0a1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 10
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0b1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 11
+	QUAD $0x0c1a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 12
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x0d1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 13
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x0e1a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 14
+	QUAD $0x0f1a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 15
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	LONG $0x167cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rdx + 26]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x011a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 1
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x021a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 2
+	QUAD $0x031a0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 26], 3
+	QUAD $0x041a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 4
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x051a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 5
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x061a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 6
+	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
+	QUAD $0x071a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 7
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x081a1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 26], 8
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x091a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 9
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x0a1a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 10
+	QUAD $0x0b1a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 12
+	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
+	QUAD $0x0d1a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 13
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0e1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 14
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0f1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 15
+	LONG $0x0e7cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rcx + 27]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
+	QUAD $0x011b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 27], 1
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x021b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 2
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x031b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 3
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x041b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 4
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+	QUAD $0x051b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 5
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x061b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 6
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x071b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 7
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x081b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 8
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x091b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 9
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	QUAD $0x0a1b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 10
+	QUAD $0x0b1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 11
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0c1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 12
+	QUAD $0x0d1b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 13
+	QUAD $0x0e1b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x067cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rax + 27]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x011b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 1
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x021b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 2
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x031b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 3
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x041b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 4
+	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
+	QUAD $0x051b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 5
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x061b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 6
+	QUAD $0x071b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 7
+	QUAD $0x081b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x091b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 9
+	QUAD $0x0a1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 10
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0b1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 11
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x0c1b065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 27], 12
+	QUAD $0x0d1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 13
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x0e1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 14
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0f1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	LONG $0x167cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rdx + 28]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 1
+	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
+	QUAD $0x021c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 28], 2
+	QUAD $0x031c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 3
+	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
+	QUAD $0x041c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 4
+	QUAD $0x051c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 5
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x061c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 6
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	QUAD $0x071c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 7
+	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
+	QUAD $0x081c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 8
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x091c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 9
+	QUAD $0x0a1c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 10
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	QUAD $0x0b1c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 11
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0c1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 12
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0d1c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 13
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0e1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 15
+	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x021c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 2
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x031c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 3
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x041c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 4
+	QUAD $0x051c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 5
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x061c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 6
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x071c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 7
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x081c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 8
+	QUAD $0x091c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0a1c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 10
+	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
+	QUAD $0x0b1c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 11
+	QUAD $0x0c1c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 12
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x0d1c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 13
+	QUAD $0x0e1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 14
+	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
+	QUAD $0x0f1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x011d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 1
+	QUAD $0x021d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 2
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x031d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 3
+	QUAD $0x041d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 4
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x061d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 6
+	QUAD $0x071d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 7
+	QUAD $0x081d3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 29], 8
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	QUAD $0x0a1d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 10
+	QUAD $0x0b1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 11
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0c1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 12
+	QUAD $0x0d1d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 13
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x0e1d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0f1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 15
+	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
+	LONG $0x7cb60f42; WORD $0x1d3e             // movzx    edi, byte [rsi + r15 + 29]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x011d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 1
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x021d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x031d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 3
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x041d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 29], 4
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x051d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 5
+	QUAD $0x061d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 6
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x071d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 7
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x081d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 9
+	QUAD $0x0a1d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 10
+	QUAD $0x0b1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 11
+	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
+	QUAD $0x0c1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 12
+	QUAD $0x0d1d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 29], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e1d06642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + rax + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	QUAD $0x0f1d2e442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r13 + 29], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x1e               // movzx    edi, byte [rsi + rax + 30]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x011e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 1
+	LONG $0x067cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rax + 31]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
+	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
+	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
+	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
+	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
+	QUAD $0x061e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 30], 6
+	QUAD $0x061f264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 31], 6
+	QUAD $0x0000011024ac8b4c                   // mov    r13, qword [rsp + 272]
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
+	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
+	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
+	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
+	QUAD $0x0a1e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 30], 10
+	QUAD $0x0a1f0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 31], 10
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
+	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
+	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
+	QUAD $0x0e1e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 30], 14
+	QUAD $0x0e1f164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 31], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
+	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
+	LONG $0x44b60f42; WORD $0x1e3e             // movzx    eax, byte [rsi + r15 + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
+	LONG $0x44b60f42; WORD $0x1f3e             // movzx    eax, byte [rsi + r15 + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
+	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
+	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
+	QUAD $0x041e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 30], 4
+	QUAD $0x041f1e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 31], 4
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
+	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
+	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
+	QUAD $0x071e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 30], 7
+	QUAD $0x071f167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 31], 7
+	QUAD $0x081e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 8
+	QUAD $0x081f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
+	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
+	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
+	QUAD $0x0c1e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 12
+	QUAD $0x0c1f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
+	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 14
+	QUAD $0x0e1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 14
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0f1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 15
+	QUAD $0x0f1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
+	QUAD $0x00020024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 512]
+	LONG $0xc27495c5                           // vpcmpeqb    ymm0, ymm13, ymm2
+	QUAD $0x0004c024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1216]
+	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
+	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
+	QUAD $0x0001e024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 480]
+	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
+	QUAD $0x0001c024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 448]
+	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI4_2] */
+	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xe2740dc5                           // vpcmpeqb    ymm12, ymm14, ymm2
+	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI4_3] */
+	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
+	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	LONG $0xfa7485c5                           // vpcmpeqb    ymm7, ymm15, ymm2
+	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI4_4] */
+	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
+	QUAD $0x0001a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 416]
+	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI4_5] */
+	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x0004a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1184]
+	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI4_6] */
+	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	QUAD $0x00048024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1152]
+	QUAD $0x00046024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1120]
+	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
+	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
+	QUAD $0x00044024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1088]
+	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
+	QUAD $0x00042024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 1056]
+	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	QUAD $0x0003e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 992]
+	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x00040024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1024]
+	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
+	QUAD $0x0003a024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 928]
+	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	QUAD $0x0003c024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 960]
+	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
+	QUAD $0x00038024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 896]
+	QUAD $0x00036024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 864]
+	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
+	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
+	QUAD $0x00032024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 800]
+	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
+	QUAD $0x00034024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 832]
+	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
+	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
+	QUAD $0x0002e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 736]
+	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
+	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
+	QUAD $0x00030024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 768]
+	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
+	LONG $0xd2742dc5                           // vpcmpeqb    ymm10, ymm10, ymm2
+	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
+	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
+	LONG $0xda7425c5                           // vpcmpeqb    ymm11, ymm11, ymm2
+	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
+	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
+	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
+	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
+	QUAD $0x000220248c746dc5; BYTE $0x00       // vpcmpeqb    ymm9, ymm2, yword [rsp + 544]
+	QUAD $0x0002402484746dc5; BYTE $0x00       // vpcmpeqb    ymm8, ymm2, yword [rsp + 576]
+	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
+	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
+	QUAD $0x00026024ac74edc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm2, yword [rsp + 608]
+	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
+	QUAD $0x00028024b474edc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm2, yword [rsp + 640]
+	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
+	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
+	QUAD $0x0002a0249c74edc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm2, yword [rsp + 672]
+	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI4_3] */
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x0002c024a474edc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm2, yword [rsp + 704]
+	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
+	QUAD $0x000120248c74edc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm2, yword [rsp + 288]
+	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
+	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
+	QUAD $0x000140249474edc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm2, yword [rsp + 320]
+	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
+	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
+	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
+	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
+	LONG $0x7f7ec1c4; WORD $0x8d44; BYTE $0x60 // vmovdqu    yword [r13 + 4*rcx + 96], ymm0
+	LONG $0x7f7ec1c4; WORD $0x8d54; BYTE $0x40 // vmovdqu    yword [r13 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8d64; BYTE $0x20 // vmovdqu    yword [r13 + 4*rcx + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x8d4c; BYTE $0x00 // vmovdqu    yword [r13 + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
+	JNE  LBB4_166
+	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
+	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
+	JNE  LBB4_35
+	JMP  LBB4_133
+
+LBB4_168:
+	LONG $0xe0e78349                     // and    r15, -32
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
+	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
+	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
+	QUAD $0x0000017824848948             // mov    qword [rsp + 376], rax
+	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
+
+LBB4_169:
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0000019824848948                   // mov    qword [rsp + 408], rax
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x0e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rcx + 2]
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
+	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
+	LONG $0xf86e79c5                           // vmovd    xmm15, eax
+	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
+	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
+	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
+	QUAD $0x0000010024948948                   // mov    qword [rsp + 256], rdx
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
+	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
+	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
+	LONG $0x60cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 608
+	QUAD $0x000000b824a4894c                   // mov    qword [rsp + 184], r12
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02800d48; WORD $0x0000             // or    rax, 640
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	QUAD $0x0000010824848948                   // mov    qword [rsp + 264], rax
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	LONG $0xa0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 672
+	QUAD $0x000000e0248c894c                   // mov    qword [rsp + 224], r9
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0xc0cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 704
+	QUAD $0x000000f824bc894c                   // mov    qword [rsp + 248], r15
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	LONG $0xe0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 736
+	QUAD $0x0000009824bc8948                   // mov    qword [rsp + 152], rdi
+	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
+	LONG $0x00ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 768
+	LONG $0x2474894c; BYTE $0x70               // mov    qword [rsp + 112], r14
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	LONG $0x20cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 800
+	QUAD $0x000000d8249c894c                   // mov    qword [rsp + 216], r11
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
+	QUAD $0x000000b02494894c                   // mov    qword [rsp + 176], r10
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x03600d48; WORD $0x0000             // or    rax, 864
+	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
+	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
+	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
+	QUAD $0x000000c82484894c                   // mov    qword [rsp + 200], r8
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0xa0ca8148; WORD $0x0003; BYTE $0x00 // or    rdx, 928
+	QUAD $0x000000a824948948                   // mov    qword [rsp + 168], rdx
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000d0248c8948                   // mov    qword [rsp + 208], rcx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
+	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
+	LONG $0x244c8948; BYTE $0x28               // mov    qword [rsp + 40], rcx
+	LONG $0x207963c4; WORD $0x1e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + rbx], 1
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	LONG $0x2031e3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + rbx], 2
+	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 3
+	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r13], 4
+	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r9], 5
+	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 6
+	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 7
+	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 8
+	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 9
+	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r10], 10
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r13], 11
+	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r8], 12
+	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 13
+	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
+	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 1
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 2
+	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
+	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 3
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 4
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r12], 5
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 6
+	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
+	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 14
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
+	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
+	QUAD $0x040116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 4
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
+	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
+	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x070116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 7
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x080116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 8
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
+	QUAD $0x0b012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 11
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x0c0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 12
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x0e0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 14
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x0f012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 15
+	QUAD $0x0101366c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r14 + 1], 1
+	QUAD $0x02010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 2
+	QUAD $0x0301166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 3
+	QUAD $0x04011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 4
+	QUAD $0x0501266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 5
+	QUAD $0x0601066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 6
+	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
+	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
+	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
+	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
+	QUAD $0x0a011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 10
+	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 14
+	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xd76e79c5                           // vmovd    xmm10, edi
+	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
+	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
+	QUAD $0x010206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 1
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x020216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 2
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x06020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 6
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x080206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 8
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x090226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 2], 9
+	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
+	QUAD $0x0a022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 10
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
+	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
+	QUAD $0x0c0236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 12
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
+	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x06023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 6
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
+	QUAD $0x08020e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 2], 8
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	QUAD $0x09020e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 2], 9
+	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
+	QUAD $0x010306642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + r8 + 3], 1
+	QUAD $0x020316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 2
+	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
+	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
+	QUAD $0x040316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 4
+	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
+	QUAD $0x050306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 5
+	QUAD $0x06030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 6
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x07030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 7
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x080316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 8
+	QUAD $0x090326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 9
+	QUAD $0x0a032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 10
+	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
+	QUAD $0x0c0336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 12
+	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
+	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
+	QUAD $0x0e033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 14
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
+	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0603066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 6
+	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
+	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0803066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 8
+	QUAD $0x09030e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 3], 9
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0e7cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rcx + 9]
+	LONG $0xc76e79c5                           // vmovd    xmm8, edi
+	QUAD $0x0f031e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 3], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
+	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
+	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x01040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 1
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x020406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 2
+	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
+	QUAD $0x030436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 4], 3
+	QUAD $0x0000010824ac8b4c                   // mov    r13, qword [rsp + 264]
+	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
+	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
+	QUAD $0x050406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 5
+	QUAD $0x060416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 6
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	QUAD $0x070416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 7
+	QUAD $0x080416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 8
+	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
+	QUAD $0x090406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 9
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0a0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 11
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x0c041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 12
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0d0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 13
+	QUAD $0x0e043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 14
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 15
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0104065c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rsi + rax + 4], 1
+	QUAD $0x0204265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0304065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0404065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 4
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0504065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 5
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x06043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 6
+	QUAD $0x07041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 7
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0804065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 8
+	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
+	QUAD $0x09041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 9
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x0a043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 11
+	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
+	QUAD $0x0c043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 12
+	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
+	QUAD $0x0d04265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 13
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 14
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0f04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 15
+	QUAD $0x01050e642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r9 + 5], 1
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x02050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 2
+	QUAD $0x030536642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 5], 3
+	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
+	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
+	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x06050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 6
+	QUAD $0x070516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 7
+	QUAD $0x080516642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 5], 8
+	QUAD $0x090506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 9
+	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0a050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 10
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x0b052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 11
+	QUAD $0x0c051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 12
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0d050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 13
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 15
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x0105266c2049a3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + r12 + 5], 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0205066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x04051e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 5], 4
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x05050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 5
+	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0705066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 7
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0805066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 8
+	QUAD $0x09051e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 5], 9
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 11
+	QUAD $0x0c053e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 5], 12
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
+	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0f0506442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 5], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
+	QUAD $0x010606442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r8 + 6], 1
+	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
+	QUAD $0x02060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 2
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	QUAD $0x03063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 3
+	QUAD $0x040636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 4
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x050636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 5
+	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
+	QUAD $0x06060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 6
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x070616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 7
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x080606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 8
+	QUAD $0x090616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 9
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+	QUAD $0x0a0616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 10
+	QUAD $0x0b062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 11
+	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
+	QUAD $0x0c061e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 6], 12
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0d0606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 13
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0f063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 15
+	QUAD $0x0106266c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + r12 + 6], 1
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x02063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 2
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x03063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 3
+	QUAD $0x04061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 4
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x06061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 6
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x07061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 7
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x08061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 8
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x09061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 9
+	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
+	QUAD $0x0a06266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 6], 10
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0b061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 11
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0c061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 12
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x0d062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 13
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0e061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 14
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0f061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 15
+	QUAD $0x010706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 1
+	QUAD $0x02070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 2
+	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
+	QUAD $0x03073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 3
+	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
+	QUAD $0x04073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 4
+	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
+	QUAD $0x06070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 6
+	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
+	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x08070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 8
+	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
+	QUAD $0x09070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 9
+	QUAD $0x0a0716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 10
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0b070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 11
+	QUAD $0x0c071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 12
+	QUAD $0x0d0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 13
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x0e070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 14
+	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
+	QUAD $0x0f0716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 15
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0107064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0207064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0307064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 3
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x0407064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 7], 4
+	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0607064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0707064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 7
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0807064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 8
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0907164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 9
+	QUAD $0x0a07264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 10
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0b07264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 11
+	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
+	QUAD $0x0c071e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 7], 12
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x0d07164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 13
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0e0716442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rdx + 7], 14
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	LONG $0x167cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rdx + 11]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0f0716442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 7], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	LONG $0x167cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rdx + 11]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	QUAD $0x010816442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + rdx + 8], 1
+	QUAD $0x02081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 2
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x030816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 3
+	WORD $0x894c; BYTE $0xfa                   // mov    rdx, r15
+	QUAD $0x04083e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 8], 4
+	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
+	QUAD $0x06082e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 8], 6
+	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
+	QUAD $0x070836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 7
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x08083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 8
+	QUAD $0x09080e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 8], 9
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x0a083e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 8], 10
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0b083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 11
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x0c081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 12
+	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
+	QUAD $0x0d080e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 8], 13
+	QUAD $0x0e080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 14
+	QUAD $0x0f0816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 8], 15
+	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
+	QUAD $0x0108166c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r10 + 8], 1
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x02083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 2
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x03083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 3
+	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
+	QUAD $0x0408066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 4
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x05080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 5
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x06080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 6
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x07080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 7
+	QUAD $0x0808066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0908066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 9
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x0a080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 10
+	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
+	QUAD $0x0b08266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 11
+	QUAD $0x0c081e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 8], 12
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x0d081e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 8], 13
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x0e08266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 14
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0f080e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 8], 15
+	QUAD $0x000000f024a48b4c                   // mov    r12, qword [rsp + 240]
+	QUAD $0x010926742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r12 + 9], 1
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x02090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 2
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
+	QUAD $0x040916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 4
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x050916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 5
+	QUAD $0x06092e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r13 + 9], 6
+	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
+	QUAD $0x070936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 7
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x080916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 8
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x090916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 9
+	QUAD $0x0a093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 10
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0b0916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 11
+	QUAD $0x0c091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 12
+	QUAD $0x0d090e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r9 + 9], 13
+	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
+	QUAD $0x0e0926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 14
+	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
+	QUAD $0x0f0936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 15
+	QUAD $0x0109167c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + r10 + 9], 1
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x02091e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 9], 2
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0309167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 3
+	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0509167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 5
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x0609167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 6
+	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
+	QUAD $0x07093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 7
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0809167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 8
+	QUAD $0x0909067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 9
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0a09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 10
+	QUAD $0x0b09067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 9], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
+	QUAD $0x0d091e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 9], 13
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
+	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
+	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x020a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 2
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	QUAD $0x030a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 3
+	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
+	QUAD $0x040a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 4
+	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
+	QUAD $0x050a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 5
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	QUAD $0x060a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 6
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x070a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 7
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x080a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 8
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x090a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 9
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0a0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 10
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0b0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 11
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x0c0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 12
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0d0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 13
+	QUAD $0x0e0a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 14
+	QUAD $0x0f0a365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 10], 15
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x010a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 1
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x020a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 2
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x040a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 4
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x050a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 5
+	QUAD $0x060a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 6
+	QUAD $0x070a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 7
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x080a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x090a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 9
+	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
+	QUAD $0x0a0a26642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 10], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b0a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 11
+	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
+	QUAD $0x0c0a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 12
+	QUAD $0x0d0a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 13
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0e0a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 14
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0f0a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 15
+	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
+	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x020b1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 11], 2
+	QUAD $0x030b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 3
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	QUAD $0x040b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 4
+	QUAD $0x050b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 5
+	QUAD $0x060b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 6
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x070b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 7
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x080b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 8
+	QUAD $0x090b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 9
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 11
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0d0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 13
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 15
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x010b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
+	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
+	QUAD $0x040b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 4
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x050b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 5
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x060b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x070b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 7
+	QUAD $0x080b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 11], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 9
+	QUAD $0x0a0b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 11
+	QUAD $0x0c0b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 12
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0d0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 14
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0f0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x010c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 1
+	QUAD $0x020c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 2
+	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
+	QUAD $0x030c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 3
+	QUAD $0x0000010824ac8b4c                   // mov    r13, qword [rsp + 264]
+	QUAD $0x040c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 4
+	QUAD $0x050c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 5
+	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
+	QUAD $0x060c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 6
+	WORD $0x894d; BYTE $0xc3                   // mov    r11, r8
+	QUAD $0x070c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 7
+	QUAD $0x080c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 8
+	QUAD $0x090c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 9
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x0a0c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 10
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x0b0c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 11
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x0c0c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 12
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	QUAD $0x0d0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 13
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x0e0c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 14
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0f0c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 15
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x010c36542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + r14 + 12], 1
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x030c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 3
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x040c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 4
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x050c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 5
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x060c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 6
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x070c16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 12], 7
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x080c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 8
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x090c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 9
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x0a0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 10
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0b0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 11
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0c0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 12
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x0d0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 13
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0e0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 14
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0f0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 15
+	QUAD $0x010d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 1
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x020d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 2
+	QUAD $0x030d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 3
+	QUAD $0x040d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 13], 4
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x050d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 5
+	QUAD $0x060d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 6
+	QUAD $0x070d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 7
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x080d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 8
+	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
+	QUAD $0x090d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 9
+	QUAD $0x0a0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 10
+	QUAD $0x0b0d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 11
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x0c0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 12
+	QUAD $0x0d0d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 13
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x0e0d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 14
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0f0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 15
+	QUAD $0x010d364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 13], 1
+	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x030d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 3
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x040d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 4
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x050d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 5
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x060d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 6
+	QUAD $0x070d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 7
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x080d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 8
+	QUAD $0x090d264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 13], 9
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x0a0d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 10
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x0b0d064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 13], 11
+	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
+	QUAD $0x0c0d364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 13], 12
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x0d0d1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 13], 13
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0e0d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 14
+	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
+	QUAD $0x0f0d26442071a3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + r12 + 13], 15
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0e7cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rcx + 14]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	LONG $0x0e7cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rcx + 14]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x010e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 1
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x020e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 2
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x030e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 3
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x040e3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 14], 4
+	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x060e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 6
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
+	QUAD $0x090e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 9
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x0a0e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 10
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x0b0e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 14], 11
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0c0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 12
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0d0e3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 14], 13
+	QUAD $0x0e0e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 14
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0f0e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 15
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x010e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 1
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x020e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 2
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x030e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 3
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x040e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 4
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x050e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 5
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x060e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 6
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x070e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 7
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x080e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x090e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 9
+	QUAD $0x0a0e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 14], 10
+	QUAD $0x0b0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 11
+	QUAD $0x0c0e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 12
+	QUAD $0x0d0e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 13
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
+	QUAD $0x0f0e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 15
+	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x0f1e             // movzx    edi, byte [rsi + r11 + 15]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
+	QUAD $0x020f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 2
+	QUAD $0x030f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 3
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	QUAD $0x040f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 4
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x050f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 5
+	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
+	QUAD $0x060f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 6
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x070f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 7
+	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
+	QUAD $0x080f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 8
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x090f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 9
+	QUAD $0x0a0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 10
+	QUAD $0x0b0f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 11
+	QUAD $0x0c0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 12
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x0d0f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 13
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0e0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 14
+	QUAD $0x0f0f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 15
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	LONG $0x7cb60f42; WORD $0x0f36             // movzx    edi, byte [rsi + r14 + 15]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x010f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 1
+	QUAD $0x020f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 2
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
+	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
+	QUAD $0x040f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 4
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	QUAD $0x050f3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 15], 5
+	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
+	QUAD $0x060f2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 15], 6
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x070f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 7
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x080f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x090f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 9
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x0a0f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 10
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0b0f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 11
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0c0f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 12
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x0d0f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 13
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0e0f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 14
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0f0f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 15
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	LONG $0x7cb60f42; WORD $0x101e             // movzx    edi, byte [rsi + r11 + 16]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	QUAD $0x011016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 1
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x021016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 2
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x031016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 3
+	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
+	QUAD $0x04101e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 16], 4
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x051016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 5
+	QUAD $0x061006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 6
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x071006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 7
+	QUAD $0x081026442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 16], 8
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x091016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 9
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0a103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 10
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0b103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 11
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x0c103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 12
+	QUAD $0x0d101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 13
+	QUAD $0x0e1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 14
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
+	LONG $0x7cb60f42; WORD $0x1036             // movzx    edi, byte [rsi + r14 + 16]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x0110264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0210064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0310064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 3
+	QUAD $0x0410164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 4
+	QUAD $0x05103e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 16], 5
+	QUAD $0x06102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0710064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 7
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0810064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0910064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 9
+	QUAD $0x0a100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 10
+	QUAD $0x0b100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 12
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x0d102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 13
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x0e10164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 14
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0f10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 15
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	LONG $0x1e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rbx + 17]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x011106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 1
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x021106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 2
+	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
+	QUAD $0x03110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 3
+	QUAD $0x04111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 4
+	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
+	QUAD $0x05113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 5
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x061106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 6
+	QUAD $0x071106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 7
+	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
+	QUAD $0x081136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 8
+	QUAD $0x091116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 9
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0a1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 10
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0b110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 11
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x0c110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 12
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x0d111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 13
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	QUAD $0x0e1106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 14
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0f110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 15
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	LONG $0x0e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rcx + 17]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0111265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 1
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x02110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 2
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0311165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 3
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x04110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 4
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x05110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 5
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x06110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 6
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x07110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 7
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x08110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 9
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x0a113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 11
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0c113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 12
+	QUAD $0x0d112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 13
+	QUAD $0x0e11165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
+	QUAD $0x0f112e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r13 + 17], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	LONG $0x1e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rbx + 18]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x01123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 1
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x02123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 2
+	QUAD $0x03120e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 18], 3
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x04123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 4
+	QUAD $0x05123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 5
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x06123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 6
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x07123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 7
+	QUAD $0x081236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 8
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x09123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 9
+	QUAD $0x0a1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 11
+	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
+	QUAD $0x0c1236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 12
+	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
+	QUAD $0x0e1206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 14
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x0f120e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 18], 15
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rax + 18]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
+	QUAD $0x0112264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 18], 1
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x02121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 2
+	QUAD $0x0312164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 3
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x04121e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 18], 4
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x0512264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 18], 5
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x0612164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0712064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 7
+	QUAD $0x08120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0912064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 9
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 11
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0c120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 12
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x0d120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 13
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0e12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 14
+	QUAD $0x0f122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 15
+	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x132e             // movzx    edi, byte [rsi + r13 + 19]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x01130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 1
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x02130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 2
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x03130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 3
+	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
+	QUAD $0x04133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 4
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x05130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 5
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x06130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 6
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x07130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 7
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x08130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 8
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x09130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 9
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0a133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 10
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0b133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 11
+	QUAD $0x0c1336542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 19], 12
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0d133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 13
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x0e133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 14
+	QUAD $0x0f130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 15
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0113065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 1
+	QUAD $0x02131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 2
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x03133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 3
+	QUAD $0x04131e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 19], 4
+	QUAD $0x0513265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 19], 5
+	QUAD $0x0613165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 6
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x07131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 7
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x08133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 8
+	QUAD $0x0913065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 9
+	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
+	QUAD $0x0a13165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 11
+	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
+	QUAD $0x0c131e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 19], 12
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x0d13065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 13
+	QUAD $0x0e13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 14
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0f13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	LONG $0x7cb60f42; WORD $0x142e             // movzx    edi, byte [rsi + r13 + 20]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
+	QUAD $0x01142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 1
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
+	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
+	QUAD $0x031436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 3
+	QUAD $0x04143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 4
+	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
+	QUAD $0x05143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 5
+	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
+	QUAD $0x061416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 6
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x071416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 7
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x081416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 8
+	QUAD $0x09140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 9
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0a140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 10
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x0b140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 11
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x0c140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 12
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0d140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 13
+	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
+	QUAD $0x0e1426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 14
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0f140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 15
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	LONG $0x0e7cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rcx + 20]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x01140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 1
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x02140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 2
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x03140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 3
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x04140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 4
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0514164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 20], 5
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x06140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 6
+	QUAD $0x07141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 7
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x08140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 9
+	QUAD $0x0a14164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 11
+	QUAD $0x0c141e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 20], 12
+	QUAD $0x0d14064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 13
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0e140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 14
+	QUAD $0x0f14064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 20], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rax + 21]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x01152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 1
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x02151e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 21], 2
+	QUAD $0x031536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 3
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	QUAD $0x04150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 4
+	QUAD $0x05153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 5
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x061506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 6
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x07153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 7
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x08153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 8
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x09153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 9
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0a153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 10
+	QUAD $0x0b150e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 21], 11
+	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
+	QUAD $0x0c1516542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 21], 12
+	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
+	QUAD $0x0d1506542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 21], 13
+	QUAD $0x0e1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 14
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0f153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 15
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	LONG $0x3e7cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rdi + 21]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x01151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 1
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	QUAD $0x0215365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 2
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x03153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 3
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x04153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 4
+	QUAD $0x0515165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 5
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0615165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 6
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0715165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 7
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0815165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 8
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0915165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 9
+	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
+	QUAD $0x0a15265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 10
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0b150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 11
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0c15165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 12
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x0d15165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 21], 13
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0e152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0f1516442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rdx + 21], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	LONG $0x167cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdx + 22]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	QUAD $0x011616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 1
+	QUAD $0x02161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 2
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
+	QUAD $0x04160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 4
+	QUAD $0x05163e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 22], 5
+	QUAD $0x061606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 22], 6
+	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
+	QUAD $0x07163e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 22], 7
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x08161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 8
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x09160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 9
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x0a1616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b1606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 22], 11
+	QUAD $0x0c1616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 22], 12
+	QUAD $0x0d1606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 13
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0e1606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 22], 14
+	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
+	QUAD $0x0f1616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 22], 15
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rax + 22]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x01161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 1
+	QUAD $0x0216364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 2
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x03161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0416064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 4
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0516064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 5
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0616064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 6
+	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
+	QUAD $0x0716364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 7
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x08163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 9
+	QUAD $0x0a16264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 10
+	QUAD $0x0b160e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 22], 11
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0c163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 12
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x0d163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 13
+	QUAD $0x0e162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 14
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0f163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 15
+	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x172e             // movzx    edi, byte [rsi + r13 + 23]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x01170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 1
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x02173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 2
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x03173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 3
+	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
+	QUAD $0x041706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 4
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x05173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 5
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x06173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 6
+	QUAD $0x07173e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 23], 7
+	QUAD $0x08171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 8
+	QUAD $0x09170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 9
+	QUAD $0x0a1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 10
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0b170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 11
+	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
+	QUAD $0x0c1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 12
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0d170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 13
+	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
+	QUAD $0x0e173e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 23], 14
+	QUAD $0x0f1716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 15
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	LONG $0x7cb60f42; WORD $0x171e             // movzx    edi, byte [rsi + r11 + 23]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x01170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 1
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x02170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 2
+	QUAD $0x03171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 3
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x04170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 4
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x05171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 5
+	QUAD $0x0617065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 6
+	QUAD $0x0717365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 7
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x0817365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0a17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
+	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
+	QUAD $0x0c17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 12
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0d17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 13
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0e170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 14
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0f170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 15
+	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
+	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
+	LONG $0x7cb60f42; WORD $0x182e             // movzx    edi, byte [rsi + r13 + 24]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x01180e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 24], 1
+	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
+	QUAD $0x02182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 2
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x03180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 3
+	QUAD $0x041806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 4
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x05180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 5
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x06180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 6
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x07180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 7
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x081816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 8
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x091816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 9
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x0a1806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 10
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0b183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 11
+	QUAD $0x0c1826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 24], 12
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0d183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 13
+	QUAD $0x0e183e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 24], 14
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0f183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 15
+	LONG $0x7cb60f42; WORD $0x181e             // movzx    edi, byte [rsi + r11 + 24]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x01183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 1
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x02183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 2
+	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
+	QUAD $0x0318264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 3
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x04183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 4
+	QUAD $0x05181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 5
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x06181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 6
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x07183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 7
+	QUAD $0x0818364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 24], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 9
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+	QUAD $0x0a181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 11
+	QUAD $0x0c18164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 12
+	QUAD $0x0d18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 13
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x0e18164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 14
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0f18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rax + 25]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x01190e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 25], 1
+	QUAD $0x02192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 2
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x031906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 3
+	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
+	QUAD $0x04193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 4
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x051906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 5
+	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
+	QUAD $0x06192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 6
+	QUAD $0x07190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 7
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
+	QUAD $0x091916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 9
+	QUAD $0x0a1906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 11
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x0c1916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 12
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0d1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 13
+	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
+	QUAD $0x0e190e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 25], 14
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 15
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	LONG $0x7cb60f42; WORD $0x1936             // movzx    edi, byte [rsi + r14 + 25]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0119065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 1
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x0219065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 25], 2
+	QUAD $0x0319265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0419065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 4
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x0519265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 5
+	QUAD $0x06191e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 25], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0719065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 7
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x08191e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 25], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0919065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 9
+	QUAD $0x0a191e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 25], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 12
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0d19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 13
+	QUAD $0x0e19165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0f191e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r11 + 25], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rax + 26]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x011a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 1
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x021a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 2
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x031a16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 26], 3
+	QUAD $0x041a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 4
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x051a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 5
+	QUAD $0x061a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 6
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x071a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 7
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x081a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 8
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x091a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 9
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0a1a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 10
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x0b1a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 11
+	QUAD $0x0c1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 12
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x0d1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 13
+	QUAD $0x0e1a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 14
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x0f1a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 15
+	LONG $0x7cb60f42; WORD $0x1a36             // movzx    edi, byte [rsi + r14 + 26]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x011a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 1
+	QUAD $0x021a064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 26], 2
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x031a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 3
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x041a064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 26], 4
+	QUAD $0x051a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 5
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x061a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 6
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x071a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 7
+	QUAD $0x081a1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 26], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x091a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 9
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x0a1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 10
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0b1a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 11
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0c1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 12
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x0d1a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 13
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0e1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 14
+	QUAD $0x0f1a1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 26], 15
+	LONG $0x067cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rax + 27]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 1
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x021b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 2
+	QUAD $0x031b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 3
+	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
+	QUAD $0x041b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 4
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x051b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 5
+	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
+	QUAD $0x061b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 6
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x071b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 7
+	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
+	QUAD $0x081b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 8
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x091b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 9
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0a1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 10
+	QUAD $0x0b1b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 11
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0c1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 12
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0d1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 13
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	QUAD $0x0e1b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 14
+	QUAD $0x0f1b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 15
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	LONG $0x7cb60f42; WORD $0x1b0e             // movzx    edi, byte [rsi + r9 + 27]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x011b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 1
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x021b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 2
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x031b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 3
+	QUAD $0x041b065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 27], 4
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x051b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 5
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x061b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 6
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x071b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 7
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x081b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 8
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x091b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 9
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x0a1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 10
+	QUAD $0x0b1b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 11
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0c1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 12
+	QUAD $0x0d1b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 13
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x0e1b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 14
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0f1b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	LONG $0x167cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rdx + 28]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	QUAD $0x011c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 1
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x021c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 2
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x031c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 3
+	QUAD $0x041c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 4
+	QUAD $0x051c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 5
+	QUAD $0x061c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 6
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x071c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 7
+	QUAD $0x081c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 28], 8
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x091c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 9
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x0a1c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 10
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0b1c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 11
+	QUAD $0x0c1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 12
+	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
+	QUAD $0x0d1c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 28], 13
+	QUAD $0x0e1c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 14
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 15
+	LONG $0x7cb60f42; WORD $0x1c0e             // movzx    edi, byte [rsi + r9 + 28]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
+	QUAD $0x011c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x021c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 2
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x031c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x041c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 4
+	QUAD $0x051c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 28], 5
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x061c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 6
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	QUAD $0x071c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 7
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x081c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 8
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x091c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 28], 9
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0a1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 10
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0b1c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 11
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0c1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 12
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x0d1c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 13
+	QUAD $0x0e1c264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 28], 14
+	QUAD $0x0f1c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rax + 29]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f024a48b4c                   // mov    r12, qword [rsp + 240]
+	QUAD $0x011d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 1
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x021d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 2
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x031d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 3
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x041d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 4
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x061d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 6
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x071d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 7
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x081d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 8
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x091d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 9
+	QUAD $0x0a1d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 10
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x0b1d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 11
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x0c1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 12
+	QUAD $0x0d1d36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 29], 13
+	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
+	QUAD $0x0e1d36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 29], 14
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f1d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 15
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rax + 29]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x011d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 29], 1
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x021d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 2
+	QUAD $0x031d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x041d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 4
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x051d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 5
+	QUAD $0x061d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 6
+	QUAD $0x071d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 7
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x081d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 8
+	QUAD $0x091d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 9
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0a1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 10
+	QUAD $0x0b1d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 12
+	QUAD $0x0d1d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 13
+	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
+	QUAD $0x0e1d0e642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r9 + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	QUAD $0x0f1d3e442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r15 + 29], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	LONG $0x1e7cb60f; BYTE $0x1e               // movzx    edi, byte [rsi + rbx + 30]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 30], 1
+	LONG $0x1e7cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rbx + 31]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011f264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 31], 1
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
+	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
+	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
+	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
+	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
+	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
+	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
+	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
+	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0a1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 10
+	QUAD $0x0a1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 10
+	QUAD $0x0b1e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 30], 11
+	QUAD $0x0b1f064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 31], 11
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
+	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
+	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
+	QUAD $0x0e1e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 30], 14
+	QUAD $0x0e1f364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 31], 14
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
+	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	LONG $0x0e44b60f; BYTE $0x1e               // movzx    eax, byte [rsi + rcx + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
+	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
+	LONG $0x0e44b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rcx + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
+	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
+	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x041e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 4
+	QUAD $0x041f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 4
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
+	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
+	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x071e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 7
+	QUAD $0x071f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 7
+	QUAD $0x081e2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 30], 8
+	QUAD $0x081f2e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 31], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
+	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
+	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 12
+	QUAD $0x0c1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 12
+	QUAD $0x0d1e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 13
+	QUAD $0x0d1f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 13
+	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
+	QUAD $0x0e1e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 14
+	QUAD $0x0e1f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 14
+	QUAD $0x0f1e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 15
+	QUAD $0x0f1f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
+	QUAD $0x00020024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 512]
+	LONG $0xc27495c5                           // vpcmpeqb    ymm0, ymm13, ymm2
+	QUAD $0x0004c024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1216]
+	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
+	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
+	QUAD $0x0001e024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 480]
+	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI4_1] */
+	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
+	QUAD $0x0001c024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 448]
+	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI4_2] */
+	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xe2740dc5                           // vpcmpeqb    ymm12, ymm14, ymm2
+	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI4_3] */
+	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
+	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	LONG $0xfa7485c5                           // vpcmpeqb    ymm7, ymm15, ymm2
+	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI4_4] */
+	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
+	QUAD $0x0001a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 416]
+	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI4_5] */
+	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x0004a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1184]
+	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI4_6] */
+	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	QUAD $0x00048024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1152]
+	QUAD $0x00046024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1120]
+	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
+	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
+	QUAD $0x00044024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1088]
+	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
+	QUAD $0x00042024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 1056]
+	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	QUAD $0x0003e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 992]
+	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x00040024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1024]
+	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
+	QUAD $0x0003a024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 928]
+	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	QUAD $0x0003c024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 960]
+	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
+	QUAD $0x00038024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 896]
+	QUAD $0x00036024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 864]
+	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
+	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
+	QUAD $0x00032024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 800]
+	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
+	QUAD $0x00034024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 832]
+	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
+	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
+	QUAD $0x0002e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 736]
+	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
+	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
+	QUAD $0x00030024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 768]
+	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
+	LONG $0xd2742dc5                           // vpcmpeqb    ymm10, ymm10, ymm2
+	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
+	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
+	LONG $0xda7425c5                           // vpcmpeqb    ymm11, ymm11, ymm2
+	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
+	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
+	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
+	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
+	QUAD $0x000220248c746dc5; BYTE $0x00       // vpcmpeqb    ymm9, ymm2, yword [rsp + 544]
+	QUAD $0x0002402484746dc5; BYTE $0x00       // vpcmpeqb    ymm8, ymm2, yword [rsp + 576]
+	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
+	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
+	QUAD $0x00026024ac74edc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm2, yword [rsp + 608]
+	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
+	QUAD $0x00028024b474edc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm2, yword [rsp + 640]
+	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
+	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
+	QUAD $0x0002a0249c74edc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm2, yword [rsp + 672]
+	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI4_3] */
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x0002c024a474edc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm2, yword [rsp + 704]
+	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
+	QUAD $0x000120248c74edc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm2, yword [rsp + 288]
+	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
+	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
+	QUAD $0x000140249474edc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm2, yword [rsp + 320]
+	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
+	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
+	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
+	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
+	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
+	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
+	JNE  LBB4_169
+	QUAD $0x0000018824bc8b4c                   // mov    r15, qword [rsp + 392]
+	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	QUAD $0x0000019024a48b4c                   // mov    r12, qword [rsp + 400]
+	JNE  LBB4_89
+	JMP  LBB4_125
+
+DATA LCDATA4<>+0x000(SB)/8, $0x0202020202020202
+DATA LCDATA4<>+0x008(SB)/8, $0x0202020202020202
+DATA LCDATA4<>+0x010(SB)/8, $0x0202020202020202
+DATA LCDATA4<>+0x018(SB)/8, $0x0202020202020202
+DATA LCDATA4<>+0x020(SB)/8, $0x0404040404040404
+DATA LCDATA4<>+0x028(SB)/8, $0x0404040404040404
+DATA LCDATA4<>+0x030(SB)/8, $0x0404040404040404
+DATA LCDATA4<>+0x038(SB)/8, $0x0404040404040404
+DATA LCDATA4<>+0x040(SB)/8, $0x0808080808080808
+DATA LCDATA4<>+0x048(SB)/8, $0x0808080808080808
+DATA LCDATA4<>+0x050(SB)/8, $0x0808080808080808
+DATA LCDATA4<>+0x058(SB)/8, $0x0808080808080808
+DATA LCDATA4<>+0x060(SB)/8, $0x1010101010101010
+DATA LCDATA4<>+0x068(SB)/8, $0x1010101010101010
+DATA LCDATA4<>+0x070(SB)/8, $0x1010101010101010
+DATA LCDATA4<>+0x078(SB)/8, $0x1010101010101010
+DATA LCDATA4<>+0x080(SB)/8, $0x2020202020202020
+DATA LCDATA4<>+0x088(SB)/8, $0x2020202020202020
+DATA LCDATA4<>+0x090(SB)/8, $0x2020202020202020
+DATA LCDATA4<>+0x098(SB)/8, $0x2020202020202020
+DATA LCDATA4<>+0x0a0(SB)/8, $0x4040404040404040
+DATA LCDATA4<>+0x0a8(SB)/8, $0x4040404040404040
+DATA LCDATA4<>+0x0b0(SB)/8, $0x4040404040404040
+DATA LCDATA4<>+0x0b8(SB)/8, $0x4040404040404040
+DATA LCDATA4<>+0x0c0(SB)/8, $0x8080808080808080
+DATA LCDATA4<>+0x0c8(SB)/8, $0x8080808080808080
+DATA LCDATA4<>+0x0d0(SB)/8, $0x8080808080808080
+DATA LCDATA4<>+0x0d8(SB)/8, $0x8080808080808080
+GLOBL LCDATA4<>(SB), 8, $224
+
+TEXT ·_comparison_not_equal_scalar_arr_avx2(SB), $1320-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $32, SP
+	ANDQ $-32, SP
+	MOVQ BP, 1280(SP)
+	LEAQ LCDATA4<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	WORD $0x8949; BYTE $0xcf // mov    r15, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB5_17
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB5_32
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB5_60
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB5_72
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB5_157
+	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB5_9
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB5_7:
+	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB5_7
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB5_9:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB5_13
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
+	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
+
+LBB5_11:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
+	LONG $0xd4950f41                           // setne    r12b
+	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
+	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
+	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xc000                               // add    al, al
+	LONG $0x70244402                           // add    al, byte [rsp + 112]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x80ea8348                           // sub    rdx, -128
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
+	JNE  LBB5_11
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+
+LBB5_13:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB5_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JE   LBB5_127
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB5_16:
+	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB5_16
+	JMP  LBB5_154
+
+LBB5_17:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB5_46
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB5_83
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB5_94
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB5_157
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0610fbc5         // vmovsd    xmm0, qword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB5_25
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB5_23:
+	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB5_23
+	LONG $0x01c78349             // add    r15, 1
+
+LBB5_25:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB5_29
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
+	QUAD $0x000000a8249c894c // mov    qword [rsp + 168], r11
+
+LBB5_27:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
+	LONG $0xd6950f41                           // setne    r14b
+	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x00000098248c0244                   // add    r9b, byte [rsp + 152]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e4c041                           // shl    r12b, 7
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x78               // add    sil, byte [rsp + 120]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x03e0c041                           // shl    r8b, 3
+	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
+	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
+	LONG $0x05e7c041                           // shl    r15b, 5
+	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
+	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
+	WORD $0xdb00                               // add    bl, bl
+	LONG $0x58245c02                           // add    bl, byte [rsp + 88]
+	WORD $0xde89                               // mov    esi, ebx
+	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
+	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
+	LONG $0x2474b60f; BYTE $0x48               // movzx    esi, byte [rsp + 72]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
+	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
+	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB5_27
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+
+LBB5_29:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB5_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB5_136
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB5_138
+
+LBB5_32:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB5_105
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB5_157
+	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB5_38
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB5_36:
+	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB5_36
+	LONG $0x01c78349             // add    r15, 1
+
+LBB5_38:
+	LONG $0x05fec149             // sar    r14, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB5_128
+	LONG $0x20fe8349             // cmp    r14, 32
+	LONG $0x245c8944; BYTE $0x1c // mov    dword [rsp + 28], r11d
+	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
+	QUAD $0x0000018024b4894c     // mov    qword [rsp + 384], r14
+	JB   LBB5_42
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
+	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
+	JAE  LBB5_165
+	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
+	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
+	JAE  LBB5_165
+
+LBB5_42:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000017824848948 // mov    qword [rsp + 376], rax
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+
+LBB5_43:
+	QUAD $0x0000017824b42b4c // sub    r14, qword [rsp + 376]
+	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
+
+LBB5_44:
+	LONG $0x1f5a3a44                           // cmp    r11b, byte [rdx + 31]
+	QUAD $0x000001102494950f                   // setne    byte [rsp + 272]
+	LONG $0x1e5a3a44                           // cmp    r11b, byte [rdx + 30]
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x1d5a3a44                           // cmp    r11b, byte [rdx + 29]
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x1c5a3a44                           // cmp    r11b, byte [rdx + 28]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x1b5a3a44                           // cmp    r11b, byte [rdx + 27]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x1a5a3a44                           // cmp    r11b, byte [rdx + 26]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x195a3a44                           // cmp    r11b, byte [rdx + 25]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x175a3a44                           // cmp    r11b, byte [rdx + 23]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x165a3a44                           // cmp    r11b, byte [rdx + 22]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x155a3a44                           // cmp    r11b, byte [rdx + 21]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x145a3a44                           // cmp    r11b, byte [rdx + 20]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x135a3a44                           // cmp    r11b, byte [rdx + 19]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x125a3a44                           // cmp    r11b, byte [rdx + 18]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x115a3a44                           // cmp    r11b, byte [rdx + 17]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x0f5a3a44                           // cmp    r11b, byte [rdx + 15]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x0e5a3a44                           // cmp    r11b, byte [rdx + 14]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x0d5a3a44                           // cmp    r11b, byte [rdx + 13]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x0c5a3a44                           // cmp    r11b, byte [rdx + 12]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x0b5a3a44                           // cmp    r11b, byte [rdx + 11]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x0a5a3a44                           // cmp    r11b, byte [rdx + 10]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
+	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x023a                               // cmp    al, byte [rdx]
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
+	LONG $0x246c8b44; BYTE $0x1c               // mov    r13d, dword [rsp + 28]
+	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	WORD $0xc000                               // add    al, al
+	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xc108                               // or    cl, al
+	LONG $0x03e6c040                           // shl    sil, 3
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	LONG $0x04e0c041                           // shl    r8b, 4
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x05e1c041                           // shl    r9b, 5
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000a82484b60f                   // movzx    eax, byte [rsp + 168]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0844; BYTE $0xcf                   // or    dil, r9b
+	LONG $0x007d8841                           // mov    byte [r13], dil
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	QUAD $0x0000009824940244                   // add    r10b, byte [rsp + 152]
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
+	LONG $0x04e4c041                           // shl    r12b, 4
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xce                   // or    r14b, cl
+	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
+	LONG $0x01758845                           // mov    byte [r13 + 1], r14b
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xc000                               // add    al, al
+	LONG $0x50244402                           // add    al, byte [rsp + 80]
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02458841                           // mov    byte [r13 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40244402                           // add    al, byte [rsp + 64]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	QUAD $0x000001102484b60f                   // movzx    eax, byte [rsp + 272]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03458841                           // mov    byte [r13 + 3], al
+	LONG $0x20c28348                           // add    rdx, 32
+	LONG $0x04c58349                           // add    r13, 4
+	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
+	JNE  LBB5_44
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x0000018024b48b4c                   // mov    r14, qword [rsp + 384]
+	JMP  LBB5_129
+
+LBB5_46:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB5_117
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB5_157
+	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB5_52
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB5_50:
+	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB5_50
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB5_52:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB5_56
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
+	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
+
+LBB5_54:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
+	LONG $0xd4950f41                           // setne    r12b
+	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
+	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
+	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xc000                               // add    al, al
+	LONG $0x70244402                           // add    al, byte [rsp + 112]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
+	JNE  LBB5_54
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+
+LBB5_56:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB5_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JE   LBB5_93
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB5_59:
+	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB5_59
+	JMP  LBB5_146
+
+LBB5_60:
+	LONG $0x36b70f44         // movzx    r14d, word [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB5_64
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB5_62:
+	LONG $0x323b4466                           // cmp    r14w, word [rdx]
+	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB5_62
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB5_64:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB5_68
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
+	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
+
+LBB5_66:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0x723b4466; BYTE $0x3e               // cmp    r14w, word [rdx + 62]
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0x723b4466; BYTE $0x3c               // cmp    r14w, word [rdx + 60]
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x723b4466; BYTE $0x3a               // cmp    r14w, word [rdx + 58]
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x723b4466; BYTE $0x38               // cmp    r14w, word [rdx + 56]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x723b4466; BYTE $0x36               // cmp    r14w, word [rdx + 54]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x723b4466; BYTE $0x34               // cmp    r14w, word [rdx + 52]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x723b4466; BYTE $0x32               // cmp    r14w, word [rdx + 50]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x723b4466; BYTE $0x2e               // cmp    r14w, word [rdx + 46]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x723b4466; BYTE $0x2c               // cmp    r14w, word [rdx + 44]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x723b4466; BYTE $0x2a               // cmp    r14w, word [rdx + 42]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x723b4466; BYTE $0x28               // cmp    r14w, word [rdx + 40]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x723b4466; BYTE $0x26               // cmp    r14w, word [rdx + 38]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x723b4466; BYTE $0x24               // cmp    r14w, word [rdx + 36]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x723b4466; BYTE $0x22               // cmp    r14w, word [rdx + 34]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x723b4466; BYTE $0x1e               // cmp    r14w, word [rdx + 30]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x723b4466; BYTE $0x1c               // cmp    r14w, word [rdx + 28]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x723b4466; BYTE $0x1a               // cmp    r14w, word [rdx + 26]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x723b4466; BYTE $0x18               // cmp    r14w, word [rdx + 24]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x723b4466; BYTE $0x16               // cmp    r14w, word [rdx + 22]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x723b4466; BYTE $0x14               // cmp    r14w, word [rdx + 20]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x723b4466; BYTE $0x12               // cmp    r14w, word [rdx + 18]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x723b4466; BYTE $0x0e               // cmp    r14w, word [rdx + 14]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x723b4466; BYTE $0x0c               // cmp    r14w, word [rdx + 12]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x723b4466; BYTE $0x0a               // cmp    r14w, word [rdx + 10]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x723b4466; BYTE $0x08               // cmp    r14w, word [rdx + 8]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x723b4466; BYTE $0x06               // cmp    r14w, word [rdx + 6]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x723b4466; BYTE $0x04               // cmp    r14w, word [rdx + 4]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x323b4466                           // cmp    r14w, word [rdx]
+	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
+	LONG $0x723b4466; BYTE $0x02               // cmp    r14w, word [rdx + 2]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x723b4466; BYTE $0x10               // cmp    r14w, word [rdx + 16]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x723b4466; BYTE $0x20               // cmp    r14w, word [rdx + 32]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x723b4466; BYTE $0x30               // cmp    r14w, word [rdx + 48]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xc000                               // add    al, al
+	LONG $0x70244402                           // add    al, byte [rsp + 112]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x40c28348                           // add    rdx, 64
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
+	JNE  LBB5_66
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+
+LBB5_68:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB5_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JE   LBB5_82
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB5_71:
+	LONG $0x323b4466             // cmp    r14w, word [rdx]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB5_71
+	JMP  LBB5_142
+
+LBB5_72:
+	LONG $0x36b70f44         // movzx    r14d, word [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB5_76
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB5_74:
+	LONG $0x323b4466                           // cmp    r14w, word [rdx]
+	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB5_74
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB5_76:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB5_80
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
+	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
+
+LBB5_78:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0x723b4466; BYTE $0x3e               // cmp    r14w, word [rdx + 62]
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0x723b4466; BYTE $0x3c               // cmp    r14w, word [rdx + 60]
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x723b4466; BYTE $0x3a               // cmp    r14w, word [rdx + 58]
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x723b4466; BYTE $0x38               // cmp    r14w, word [rdx + 56]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x723b4466; BYTE $0x36               // cmp    r14w, word [rdx + 54]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x723b4466; BYTE $0x34               // cmp    r14w, word [rdx + 52]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x723b4466; BYTE $0x32               // cmp    r14w, word [rdx + 50]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x723b4466; BYTE $0x2e               // cmp    r14w, word [rdx + 46]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x723b4466; BYTE $0x2c               // cmp    r14w, word [rdx + 44]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x723b4466; BYTE $0x2a               // cmp    r14w, word [rdx + 42]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x723b4466; BYTE $0x28               // cmp    r14w, word [rdx + 40]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x723b4466; BYTE $0x26               // cmp    r14w, word [rdx + 38]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x723b4466; BYTE $0x24               // cmp    r14w, word [rdx + 36]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x723b4466; BYTE $0x22               // cmp    r14w, word [rdx + 34]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x723b4466; BYTE $0x1e               // cmp    r14w, word [rdx + 30]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x723b4466; BYTE $0x1c               // cmp    r14w, word [rdx + 28]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x723b4466; BYTE $0x1a               // cmp    r14w, word [rdx + 26]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x723b4466; BYTE $0x18               // cmp    r14w, word [rdx + 24]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x723b4466; BYTE $0x16               // cmp    r14w, word [rdx + 22]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x723b4466; BYTE $0x14               // cmp    r14w, word [rdx + 20]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x723b4466; BYTE $0x12               // cmp    r14w, word [rdx + 18]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x723b4466; BYTE $0x0e               // cmp    r14w, word [rdx + 14]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x723b4466; BYTE $0x0c               // cmp    r14w, word [rdx + 12]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x723b4466; BYTE $0x0a               // cmp    r14w, word [rdx + 10]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x723b4466; BYTE $0x08               // cmp    r14w, word [rdx + 8]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x723b4466; BYTE $0x06               // cmp    r14w, word [rdx + 6]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x723b4466; BYTE $0x04               // cmp    r14w, word [rdx + 4]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x323b4466                           // cmp    r14w, word [rdx]
+	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
+	LONG $0x723b4466; BYTE $0x02               // cmp    r14w, word [rdx + 2]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x723b4466; BYTE $0x10               // cmp    r14w, word [rdx + 16]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x723b4466; BYTE $0x20               // cmp    r14w, word [rdx + 32]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x723b4466; BYTE $0x30               // cmp    r14w, word [rdx + 48]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xc000                               // add    al, al
+	LONG $0x70244402                           // add    al, byte [rsp + 112]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x40c28348                           // add    rdx, 64
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
+	JNE  LBB5_78
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+
+LBB5_80:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB5_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB5_140
+
+LBB5_82:
+	WORD $0xff31  // xor    edi, edi
+	JMP  LBB5_142
+
+LBB5_83:
+	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB5_87
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB5_85:
+	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB5_85
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB5_87:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB5_91
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
+	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
+
+LBB5_89:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
+	LONG $0xd4950f41                           // setne    r12b
+	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
+	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
+	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xc000                               // add    al, al
+	LONG $0x70244402                           // add    al, byte [rsp + 112]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
+	JNE  LBB5_89
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+
+LBB5_91:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB5_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB5_144
+
+LBB5_93:
+	WORD $0xff31  // xor    edi, edi
+	JMP  LBB5_146
+
+LBB5_94:
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0610fac5         // vmovss    xmm0, dword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB5_98
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB5_96:
+	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB5_96
+	LONG $0x01c78349             // add    r15, 1
+
+LBB5_98:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB5_102
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
+	QUAD $0x000000a8249c894c // mov    qword [rsp + 168], r11
+
+LBB5_100:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x00000098248c0244                   // add    r9b, byte [rsp + 152]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e4c041                           // shl    r12b, 7
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x78               // add    sil, byte [rsp + 120]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x03e0c041                           // shl    r8b, 3
+	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
+	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
+	LONG $0x05e7c041                           // shl    r15b, 5
+	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
+	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
+	WORD $0xdb00                               // add    bl, bl
+	LONG $0x58245c02                           // add    bl, byte [rsp + 88]
+	WORD $0xde89                               // mov    esi, ebx
+	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
+	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
+	LONG $0x2474b60f; BYTE $0x48               // movzx    esi, byte [rsp + 72]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
+	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
+	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB5_100
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+
+LBB5_102:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB5_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB5_148
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB5_150
+
+LBB5_105:
+	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB5_109
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB5_107:
+	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB5_107
+	LONG $0x01c78349             // add    r15, 1
+
+LBB5_109:
+	LONG $0x05fec149             // sar    r14, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB5_132
+	LONG $0x20fe8349             // cmp    r14, 32
+	LONG $0x245c8944; BYTE $0x1c // mov    dword [rsp + 28], r11d
+	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
+	QUAD $0x0000018024b4894c     // mov    qword [rsp + 384], r14
+	JB   LBB5_113
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
+	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
+	JAE  LBB5_168
+	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
+	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
+	JAE  LBB5_168
+
+LBB5_113:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000017824848948 // mov    qword [rsp + 376], rax
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+
+LBB5_114:
+	QUAD $0x0000017824b42b4c // sub    r14, qword [rsp + 376]
+	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
+
+LBB5_115:
+	LONG $0x1f5a3a44                           // cmp    r11b, byte [rdx + 31]
+	QUAD $0x000001102494950f                   // setne    byte [rsp + 272]
+	LONG $0x1e5a3a44                           // cmp    r11b, byte [rdx + 30]
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x1d5a3a44                           // cmp    r11b, byte [rdx + 29]
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x1c5a3a44                           // cmp    r11b, byte [rdx + 28]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x1b5a3a44                           // cmp    r11b, byte [rdx + 27]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x1a5a3a44                           // cmp    r11b, byte [rdx + 26]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x195a3a44                           // cmp    r11b, byte [rdx + 25]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x175a3a44                           // cmp    r11b, byte [rdx + 23]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x165a3a44                           // cmp    r11b, byte [rdx + 22]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x155a3a44                           // cmp    r11b, byte [rdx + 21]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x145a3a44                           // cmp    r11b, byte [rdx + 20]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x135a3a44                           // cmp    r11b, byte [rdx + 19]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x125a3a44                           // cmp    r11b, byte [rdx + 18]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x115a3a44                           // cmp    r11b, byte [rdx + 17]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x0f5a3a44                           // cmp    r11b, byte [rdx + 15]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x0e5a3a44                           // cmp    r11b, byte [rdx + 14]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x0d5a3a44                           // cmp    r11b, byte [rdx + 13]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x0c5a3a44                           // cmp    r11b, byte [rdx + 12]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x0b5a3a44                           // cmp    r11b, byte [rdx + 11]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x0a5a3a44                           // cmp    r11b, byte [rdx + 10]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
+	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x023a                               // cmp    al, byte [rdx]
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
+	LONG $0x246c8b44; BYTE $0x1c               // mov    r13d, dword [rsp + 28]
+	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	WORD $0xc000                               // add    al, al
+	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xc108                               // or    cl, al
+	LONG $0x03e6c040                           // shl    sil, 3
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	LONG $0x04e0c041                           // shl    r8b, 4
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x05e1c041                           // shl    r9b, 5
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000a82484b60f                   // movzx    eax, byte [rsp + 168]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0844; BYTE $0xcf                   // or    dil, r9b
+	LONG $0x007d8841                           // mov    byte [r13], dil
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	QUAD $0x0000009824940244                   // add    r10b, byte [rsp + 152]
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
+	LONG $0x04e4c041                           // shl    r12b, 4
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xce                   // or    r14b, cl
+	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
+	LONG $0x01758845                           // mov    byte [r13 + 1], r14b
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xc000                               // add    al, al
+	LONG $0x50244402                           // add    al, byte [rsp + 80]
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02458841                           // mov    byte [r13 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x60244402                           // add    al, byte [rsp + 96]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	QUAD $0x000001102484b60f                   // movzx    eax, byte [rsp + 272]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03458841                           // mov    byte [r13 + 3], al
+	LONG $0x20c28348                           // add    rdx, 32
+	LONG $0x04c58349                           // add    r13, 4
+	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
+	JNE  LBB5_115
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x0000018024b48b4c                   // mov    r14, qword [rsp + 384]
+	JMP  LBB5_133
+
+LBB5_117:
+	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB5_121
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB5_119:
+	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB5_119
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB5_121:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB5_125
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
+	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
+
+LBB5_123:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
+	LONG $0x2454950f; BYTE $0x1c               // setne    byte [rsp + 28]
+	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
+	QUAD $0x000001202494950f                   // setne    byte [rsp + 288]
+	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
+	QUAD $0x000001402494950f                   // setne    byte [rsp + 320]
+	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
+	LONG $0xd4950f41                           // setne    r12b
+	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
+	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
+	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000a824bc0244                   // add    r15b, byte [rsp + 168]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xc000                               // add    al, al
+	LONG $0x70244402                           // add    al, byte [rsp + 112]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x88248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 136]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x80ea8348                           // sub    rdx, -128
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
+	JNE  LBB5_123
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+
+LBB5_125:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB5_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB5_152
+
+LBB5_127:
+	WORD $0xff31  // xor    edi, edi
+	JMP  LBB5_154
+
+LBB5_128:
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+
+LBB5_129:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB5_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JE   LBB5_135
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+
+LBB5_159:
+	LONG $0x321c3a44               // cmp    r11b, byte [rdx + rsi]
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f6                   // neg    al
+	WORD $0x8948; BYTE $0xf7       // mov    rdi, rsi
+	LONG $0x03efc148               // shr    rdi, 3
+	WORD $0xf189                   // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06       // and    cl, 6
+	WORD $0x01b3                   // mov    bl, 1
+	WORD $0xe3d2                   // shl    bl, cl
+	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
+	WORD $0x3044; BYTE $0xc8       // xor    al, r9b
+	WORD $0xc320                   // and    bl, al
+	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
+	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
+	LONG $0x325c3a44; BYTE $0x01   // cmp    r11b, byte [rdx + rsi + 1]
+	LONG $0x02768d48               // lea    rsi, [rsi + 2]
+	LONG $0xd1950f41               // setne    r9b
+	WORD $0xf641; BYTE $0xd9       // neg    r9b
+	WORD $0x3041; BYTE $0xd9       // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01       // or    cl, 1
+	WORD $0x01b0                   // mov    al, 1
+	WORD $0xe0d2                   // shl    al, cl
+	WORD $0x2044; BYTE $0xc8       // and    al, r9b
+	WORD $0xd830                   // xor    al, bl
+	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB5_159
+	JMP  LBB5_162
+
+LBB5_132:
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+
+LBB5_133:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB5_157
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB5_160
+
+LBB5_135:
+	WORD $0xf631  // xor    esi, esi
+	JMP  LBB5_163
+
+LBB5_136:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB5_137:
+	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x422ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB5_137
+
+LBB5_138:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB5_157
+	LONG $0x022ef9c5 // vucomisd    xmm0, qword [rdx]
+	JMP  LBB5_156
+
+LBB5_140:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB5_141:
+	LONG $0x323b4466             // cmp    r14w, word [rdx]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB5_141
+
+LBB5_142:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB5_157
+	LONG $0x323b4466 // cmp    r14w, word [rdx]
+	JMP  LBB5_156
+
+LBB5_144:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB5_145:
+	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB5_145
+
+LBB5_146:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB5_157
+	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
+	JMP  LBB5_156
+
+LBB5_148:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB5_149:
+	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x422ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB5_149
+
+LBB5_150:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB5_157
+	LONG $0x022ef8c5 // vucomiss    xmm0, dword [rdx]
+	JMP  LBB5_156
+
+LBB5_152:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB5_153:
+	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB5_153
+
+LBB5_154:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB5_157
+	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
+
+LBB5_156:
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
+	LONG $0x07e78040         // and    dil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf989             // mov    ecx, edi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
+
+LBB5_157:
+	MOVQ 1280(SP), SP
+	VZEROUPPER
+	RET
+
+LBB5_160:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+
+LBB5_161:
+	LONG $0x321c3a44               // cmp    r11b, byte [rdx + rsi]
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f6                   // neg    al
+	WORD $0x8948; BYTE $0xf7       // mov    rdi, rsi
+	LONG $0x03efc148               // shr    rdi, 3
+	WORD $0xf189                   // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06       // and    cl, 6
+	WORD $0x01b3                   // mov    bl, 1
+	WORD $0xe3d2                   // shl    bl, cl
+	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
+	WORD $0x3044; BYTE $0xc8       // xor    al, r9b
+	WORD $0xc320                   // and    bl, al
+	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
+	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
+	LONG $0x325c3a44; BYTE $0x01   // cmp    r11b, byte [rdx + rsi + 1]
+	LONG $0x02768d48               // lea    rsi, [rsi + 2]
+	LONG $0xd1950f41               // setne    r9b
+	WORD $0xf641; BYTE $0xd9       // neg    r9b
+	WORD $0x3041; BYTE $0xd9       // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01       // or    cl, 1
+	WORD $0x01b0                   // mov    al, 1
+	WORD $0xe0d2                   // shl    al, cl
+	WORD $0x2044; BYTE $0xc8       // and    al, r9b
+	WORD $0xd830                   // xor    al, bl
+	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB5_161
+
+LBB5_162:
+	WORD $0x0148; BYTE $0xf2 // add    rdx, rsi
+
+LBB5_163:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB5_157
+	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
+	LONG $0x07e68040             // and    sil, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8     // xor    al, dil
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
+	LONG $0x155c8841; BYTE $0x00 // mov    byte [r13 + rdx], bl
+	JMP  LBB5_157
+
+LBB5_165:
+	LONG $0xe0e68349                     // and    r14, -32
+	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	QUAD $0x0000018824848948             // mov    qword [rsp + 392], rax
+	QUAD $0x0000017824b4894c             // mov    qword [rsp + 376], r14
+	LONG $0xb7048d4b                     // lea    rax, [r15 + 4*r14]
+	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
+	LONG $0x6e79c1c4; BYTE $0xc3         // vmovd    xmm0, r11d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
+	WORD $0xf631                         // xor    esi, esi
+	QUAD $0x0000011024bc894c             // mov    qword [rsp + 272], r15
+
+LBB5_166:
+	QUAD $0x0000019824b48948                   // mov    qword [rsp + 408], rsi
+	LONG $0x05e6c148                           // shl    rsi, 5
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x20c88348                           // or    rax, 32
+	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x40c88348                           // or    rax, 64
+	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x60c88348                           // or    rax, 96
+	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	QUAD $0x0000010824b48948                   // mov    qword [rsp + 264], rsi
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	LONG $0x3204b60f                           // movzx    eax, byte [rdx + rsi]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	LONG $0x3244b60f; BYTE $0x01               // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
+	LONG $0x3244b60f; BYTE $0x02               // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x0a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rcx + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x3244b60f; BYTE $0x03               // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x0a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rcx + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
+	LONG $0x3244b60f; BYTE $0x04               // movzx    eax, byte [rdx + rsi + 4]
+	LONG $0xf86e79c5                           // vmovd    xmm15, eax
+	LONG $0x0a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rcx + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x3244b60f; BYTE $0x05               // movzx    eax, byte [rdx + rsi + 5]
+	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
+	LONG $0x0a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rcx + 6]
+	QUAD $0x000000f0248c8948                   // mov    qword [rsp + 240], rcx
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x3244b60f; BYTE $0x06               // movzx    eax, byte [rdx + rsi + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x0a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rcx + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x3244b60f; BYTE $0x07               // movzx    eax, byte [rdx + rsi + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
+	WORD $0x8949; BYTE $0xf4                   // mov    r12, rsi
+	LONG $0x40cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 576
+	QUAD $0x000000c824a4894c                   // mov    qword [rsp + 200], r12
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
+	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
+	QUAD $0x000000f824848948                   // mov    qword [rsp + 248], rax
+	WORD $0x8949; BYTE $0xf7                   // mov    r15, rsi
+	LONG $0x80cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 640
+	QUAD $0x0000010024bc894c                   // mov    qword [rsp + 256], r15
+	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
+	LONG $0xa0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 672
+	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
+	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
+	WORD $0x8949; BYTE $0xf0                   // mov    r8, rsi
+	LONG $0xe0c88149; WORD $0x0002; BYTE $0x00 // or    r8, 736
+	LONG $0x2444894c; BYTE $0x40               // mov    qword [rsp + 64], r8
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
+	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x03200d48; WORD $0x0000             // or    rax, 800
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
+	LONG $0x40c98149; WORD $0x0003; BYTE $0x00 // or    r9, 832
+	QUAD $0x000000b0248c894c                   // mov    qword [rsp + 176], r9
+	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
+	LONG $0x60cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 864
+	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
+	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
+	LONG $0x80c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 896
+	QUAD $0x00000088248c8948                   // mov    qword [rsp + 136], rcx
+	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
+	LONG $0xa0cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 928
+	QUAD $0x000000c0249c894c                   // mov    qword [rsp + 192], r11
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
+	LONG $0xe0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 992
+	LONG $0x24748948; BYTE $0x50               // mov    qword [rsp + 80], rsi
+	LONG $0x207923c4; WORD $0x2a0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r13], 1
+	LONG $0x2031a3c4; WORD $0x2204; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + r12], 2
+	LONG $0x2079a3c4; WORD $0x3204; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + r14], 3
+	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 4
+	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r10], 5
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 6
+	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + r8], 7
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 8
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 9
+	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r9], 10
+	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 11
+	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 12
+	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + r11], 13
+	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
+	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 15
+	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
+	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r12], 1
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 2
+	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
+	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 3
+	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
+	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 6
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 7
+	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
+	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 8
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 9
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rax], 10
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + r10], 11
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 12
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 13
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 14
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	LONG $0x2061a3c4; WORD $0x2a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + r13], 15
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x01010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 1
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x02010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 2
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x03010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 3
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x04010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 4
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x05010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 5
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x06010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 6
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x07010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 7
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x08010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x09010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 9
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0a010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 10
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0b010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 11
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0c010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 12
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0d010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 13
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0e010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 14
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x0f012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 15
+	QUAD $0x0101226c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r12 + 1], 1
+	QUAD $0x0201326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 1], 2
+	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
+	QUAD $0x03011a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 1], 3
+	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
+	QUAD $0x05010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 5
+	QUAD $0x06011a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 1], 6
+	QUAD $0x0701326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 7
+	QUAD $0x08013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 8
+	QUAD $0x09013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 9
+	QUAD $0x0a01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 10
+	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
+	QUAD $0x0b01126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 1], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
+	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0f0102442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 1], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
+	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
+	LONG $0xd76e79c5                           // vmovd    xmm10, edi
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
+	QUAD $0x010232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 2], 1
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x02021a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 2], 2
+	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
+	QUAD $0x030202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 3
+	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
+	QUAD $0x04020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 4
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x05023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 5
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x060202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 6
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x070202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x080202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x090202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 9
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	QUAD $0x0a0222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 2], 10
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x0b022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 11
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x0c0232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 2], 12
+	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
+	QUAD $0x0d0212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 13
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
+	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0102025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 1
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x02020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 2
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x03020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 3
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x04020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 4
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x05020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 5
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x06020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 6
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x07023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 7
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x08023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 8
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x09020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 9
+	QUAD $0x0a021a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 2], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 11
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0c020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 12
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0d020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 13
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0e020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 14
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x0f021a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 2], 15
+	QUAD $0x010332642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + rsi + 3], 1
+	QUAD $0x02031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 2
+	QUAD $0x030302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 3], 3
+	QUAD $0x04030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 4
+	QUAD $0x05033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 5
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x06030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 6
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+	QUAD $0x07033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 7
+	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
+	QUAD $0x08030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 8
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x09031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 9
+	QUAD $0x0a0322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 3], 10
+	QUAD $0x0b032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 11
+	QUAD $0x0c0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 12
+	QUAD $0x0d0312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 13
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0e030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 14
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x0f0312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 15
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x01030a6c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + rcx + 3], 1
+	QUAD $0x0203026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 2
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x04030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 4
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x05030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 5
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x0603326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 6
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
+	QUAD $0x08033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 8
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0903326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 9
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0a033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 13
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0e033a442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rdi + 3], 14
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rdi + 9]
+	LONG $0xc76e79c5                           // vmovd    xmm8, edi
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x0f032a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 3], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	LONG $0x3a7cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rdi + 9]
+	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
+	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
+	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
+	QUAD $0x010422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 4], 1
+	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
+	QUAD $0x020402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 2
+	QUAD $0x000000f8249c8b48                   // mov    rbx, qword [rsp + 248]
+	QUAD $0x03041a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 4], 3
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x04043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 4
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x05043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 5
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x06043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 6
+	QUAD $0x07043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 7
+	QUAD $0x08040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 8
+	QUAD $0x09041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 9
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x0a043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 10
+	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
+	QUAD $0x0b041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 11
+	QUAD $0x0c0432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 4], 12
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x0d040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 13
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x0e0432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 4], 14
+	QUAD $0x0f0412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 4], 15
+	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
+	QUAD $0x0104125c2001a3c4                   // vpinsrb    xmm3, xmm15, byte [rdx + r10 + 4], 1
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x02043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 2
+	QUAD $0x0304025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 3
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0404025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 4
+	QUAD $0x05040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 5
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0604025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 6
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x07043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 7
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0804025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 8
+	QUAD $0x0904325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 9
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0a04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 11
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0c040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 12
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0d040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 13
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0e040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 14
+	QUAD $0x0f042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 15
+	QUAD $0x010522642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + r12 + 5], 1
+	QUAD $0x020502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 2
+	QUAD $0x03051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 3
+	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
+	QUAD $0x040522642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 5], 4
+	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
+	QUAD $0x050502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 5
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x06051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 6
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x07051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 7
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	QUAD $0x08051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 8
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x09051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 9
+	QUAD $0x0a053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 10
+	QUAD $0x0b051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 11
+	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x0c051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 12
+	QUAD $0x0d050a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 5], 13
+	QUAD $0x0e0532642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 5], 14
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0f051a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 5], 15
+	QUAD $0x0105126c2049a3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + r10 + 5], 1
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	QUAD $0x02051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 2
+	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
+	QUAD $0x03051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 3
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x04051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 4
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	QUAD $0x05050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 5
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x06051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 6
+	QUAD $0x07053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 7
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x08053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 8
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x09053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 9
+	QUAD $0x0a05326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 5], 10
+	QUAD $0x0b05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
+	QUAD $0x0e050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 14
+	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
+	QUAD $0x0f052a442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r13 + 5], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	QUAD $0x01061a442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + r11 + 6], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x020602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 2
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x030602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 3
+	QUAD $0x040622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 6], 4
+	QUAD $0x050602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 5
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x07060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x090602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 9
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0a0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 10
+	QUAD $0x0b063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 11
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	QUAD $0x0c063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 12
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x0d0632442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 6], 13
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x0e061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 15
+	QUAD $0x0106126c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r10 + 6], 1
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0206026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 2
+	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
+	QUAD $0x0306026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 6], 3
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0406026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 4
+	QUAD $0x05060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 5
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x06063a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 6], 6
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0706026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 7
+	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
+	QUAD $0x08062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 8
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0906026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 9
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0a06326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 10
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0b060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 11
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x0c06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 12
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0d06326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 13
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0e06326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 14
+	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
+	QUAD $0x0f06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 15
+	QUAD $0x01071a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 7], 1
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x020732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 2
+	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
+	QUAD $0x030732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 3
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x040732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 4
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x050732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 5
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x060732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 6
+	QUAD $0x07070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 7
+	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
+	QUAD $0x080722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 7], 8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x09070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 9
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0a070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 10
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0b070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 11
+	QUAD $0x0c073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 12
+	QUAD $0x0d0732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 13
+	QUAD $0x0e071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 14
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x0f073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 15
+	QUAD $0x0107124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 7], 1
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	QUAD $0x02071a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 7], 2
+	QUAD $0x0307024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 7], 3
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x05070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 5
+	QUAD $0x06073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 6
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x07070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 7
+	QUAD $0x08072a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 7], 8
+	QUAD $0x0907024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 9
+	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
+	QUAD $0x0a07324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 10
+	QUAD $0x0b070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c07024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d07024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 13
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0e0702442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 7], 14
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rax + 11]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x0f071a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 7], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x027cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rax + 11]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x010802442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rax + 8], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x020802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 2
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x03080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 3
+	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
+	QUAD $0x040812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 4
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x050802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 5
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x060832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 6
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x070802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 7
+	QUAD $0x080822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 8], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x090802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 9
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	QUAD $0x0a0822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 8], 10
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0b083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 11
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0c083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 12
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x0d083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 13
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0e083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 14
+	QUAD $0x0f083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 15
+	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
+	QUAD $0x01083a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r15 + 8], 1
+	QUAD $0x02081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 2
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x03083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 3
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x04083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 4
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x05083a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 8], 5
+	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
+	QUAD $0x06080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 6
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x07082a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 8], 7
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x08081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 8
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x09081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 9
+	QUAD $0x0a08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 10
+	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
+	QUAD $0x0b08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 11
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0c081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 12
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0d081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 13
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x0e08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 14
+	QUAD $0x0f081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 15
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	QUAD $0x01091a742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + r11 + 9], 1
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x02091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 2
+	QUAD $0x03090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 3
+	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
+	QUAD $0x040912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 4
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x050912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 5
+	QUAD $0x060932742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 9], 6
+	QUAD $0x070902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 7
+	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
+	QUAD $0x080902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 8
+	QUAD $0x090902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 9
+	QUAD $0x0a0922742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 9], 10
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0b0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 11
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0c0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 12
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0d090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 13
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0e0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 15
+	QUAD $0x01093a7c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + r15 + 9], 1
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0209027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 2
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0309027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 3
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0409027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 4
+	QUAD $0x05093a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rdi + 9], 5
+	QUAD $0x06090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 6
+	QUAD $0x07092a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 9], 7
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0809027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 8
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x09093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 9
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0a09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
+	QUAD $0x0e09327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
+	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	QUAD $0x010a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x020a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 2
+	QUAD $0x030a1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 10], 3
+	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
+	QUAD $0x040a2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 10], 4
+	QUAD $0x050a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 5
+	QUAD $0x060a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 6
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x070a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 7
+	QUAD $0x080a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 8
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	QUAD $0x090a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 9
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0a0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 10
+	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
+	QUAD $0x0b0a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 11
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x0c0a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 12
+	QUAD $0x0d0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 13
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0e0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 14
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0f0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 15
+	QUAD $0x010a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 1
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x020a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 2
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x030a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 3
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x040a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 4
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x050a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 5
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x060a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 6
+	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
+	QUAD $0x070a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 7
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x080a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 8
+	QUAD $0x090a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 9
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0a0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 10
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0b0a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 11
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0c0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 12
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0d0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 13
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0e0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 14
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x0f0a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 15
+	QUAD $0x010b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 1
+	QUAD $0x020b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 2
+	QUAD $0x030b1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 11], 3
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x040b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 4
+	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x050b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 5
+	QUAD $0x060b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 6
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x070b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 7
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x080b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 8
+	QUAD $0x090b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 9
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+	QUAD $0x0a0b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 10
+	QUAD $0x0b0b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 11
+	QUAD $0x0c0b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 12
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0d0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 13
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0e0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 15
+	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
+	QUAD $0x010b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 1
+	QUAD $0x020b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 11], 2
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x030b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 3
+	QUAD $0x040b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 4
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x050b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 5
+	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
+	QUAD $0x060b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 6
+	QUAD $0x070b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 7
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x080b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 8
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x090b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 9
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0a0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 10
+	QUAD $0x0b0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 11
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0c0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 12
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0d0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0e0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 14
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0a7cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rcx + 13]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x0f0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	LONG $0x0a7cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rcx + 13]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x010c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 1
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x020c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 2
+	QUAD $0x030c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 3
+	QUAD $0x040c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 4
+	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
+	QUAD $0x050c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 12], 5
+	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
+	QUAD $0x060c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 12], 6
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x070c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
+	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
+	QUAD $0x090c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 12], 9
+	QUAD $0x0a0c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 10
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0b0c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 11
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0c0c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 12
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x0d0c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 13
+	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
+	QUAD $0x0e0c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 14
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x0f0c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 12], 15
+	QUAD $0x010c1a542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + rbx + 12], 1
+	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
+	QUAD $0x020c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 2
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x030c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 3
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x040c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 4
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x050c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 5
+	QUAD $0x060c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 6
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x070c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 7
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x080c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 8
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x090c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 9
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0a0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 10
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0d0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 13
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0e0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 14
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x0f0c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 15
+	QUAD $0x010d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 1
+	QUAD $0x020d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 13], 2
+	WORD $0x8949; BYTE $0xf5                   // mov    r13, rsi
+	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
+	QUAD $0x030d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 13], 3
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x040d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 4
+	QUAD $0x050d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 5
+	QUAD $0x060d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 6
+	QUAD $0x070d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 13], 7
+	QUAD $0x080d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 8
+	QUAD $0x090d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 13], 9
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x0a0d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 10
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0b0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 11
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0c0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 12
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0d0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 13
+	QUAD $0x0e0d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 14
+	QUAD $0x0f0d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 15
+	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x010d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 1
+	QUAD $0x020d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 2
+	QUAD $0x030d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 3
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x040d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 4
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x050d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 5
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x060d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 6
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x070d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 7
+	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
+	QUAD $0x080d124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 13], 8
+	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
+	QUAD $0x090d224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 13], 9
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0a0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 13
+	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
+	QUAD $0x0e0d1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 13], 14
+	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x0f0d3a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rdi + 13], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rdi + 14]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	LONG $0x3a7cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rdi + 14]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	QUAD $0x010e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 1
+	QUAD $0x020e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 2
+	QUAD $0x030e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 3
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x040e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 4
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x050e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 5
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x060e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 6
+	QUAD $0x070e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 14], 7
+	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
+	QUAD $0x080e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 14], 8
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x090e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 9
+	QUAD $0x0a0e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 10
+	QUAD $0x0b0e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 11
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x0c0e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 12
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x0d0e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 13
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0e0e3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 14], 14
+	QUAD $0x0f0e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 15
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	QUAD $0x010e02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 14], 1
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x020e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 2
+	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
+	QUAD $0x030e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 3
+	QUAD $0x040e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 4
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x050e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 5
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x060e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 6
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x070e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 7
+	QUAD $0x080e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 14], 8
+	QUAD $0x090e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 9
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0a0e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b0e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 11
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0c0e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 12
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0d0e0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 14], 13
+	QUAD $0x0e0e3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 14], 14
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x0f0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rdi + 15]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x010f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 1
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x020f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 2
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x030f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 3
+	QUAD $0x040f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 4
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x050f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 5
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x060f22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 15], 6
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x070f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 7
+	QUAD $0x080f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 15], 8
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x090f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 15], 9
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x0a0f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 10
+	QUAD $0x0b0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 11
+	QUAD $0x0c0f1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 15], 12
+	QUAD $0x0d0f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 13
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0e0f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 15
+	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
+	LONG $0x7cb60f42; WORD $0x0f12             // movzx    edi, byte [rdx + r10 + 15]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x010f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 1
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x020f2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 15], 2
+	QUAD $0x030f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 3
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x040f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 4
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x050f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 5
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x060f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 6
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x070f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 7
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x080f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 8
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x090f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 9
+	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
+	QUAD $0x0a0f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 10
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0b0f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 12
+	QUAD $0x0d0f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 13
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0e0f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 14
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+	QUAD $0x0f0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 15
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	LONG $0x7cb60f42; WORD $0x100a             // movzx    edi, byte [rdx + r9 + 16]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x01100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 1
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x02100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 2
+	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
+	QUAD $0x031002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 3
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x04103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 4
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x05103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 5
+	QUAD $0x061022442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 16], 6
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x07103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x08103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 8
+	QUAD $0x09101a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 16], 9
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	QUAD $0x0a1022442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 16], 10
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0b103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 11
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0c103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 12
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x0d103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 13
+	QUAD $0x0e1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 14
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x0f1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 15
+	LONG $0x7cb60f42; WORD $0x1012             // movzx    edi, byte [rdx + r10 + 16]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x0110324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 1
+	QUAD $0x02102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 2
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0310324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 3
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0410324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 4
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0510324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 5
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x06101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 6
+	QUAD $0x0710024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 7
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0810024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 8
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0910024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 9
+	QUAD $0x0a103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 10
+	QUAD $0x0b101a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 16], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 12
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0d101a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 16], 13
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0e10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 14
+	QUAD $0x0f10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 15
+	LONG $0x7cb60f42; WORD $0x110a             // movzx    edi, byte [rdx + r9 + 17]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x011102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 1
+	QUAD $0x02110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 2
+	QUAD $0x031102542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 17], 3
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x041102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 4
+	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
+	QUAD $0x051132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 5
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x061132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 6
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x071102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 7
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	QUAD $0x08113a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 17], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x091102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 9
+	QUAD $0x0a1122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 10
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0b1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 11
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0c1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 12
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x0d112a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 17], 13
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0e1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1102542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 17], 15
+	LONG $0x7cb60f42; WORD $0x1112             // movzx    edi, byte [rdx + r10 + 17]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
+	QUAD $0x0111225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 17], 1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x02110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 2
+	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
+	QUAD $0x0311025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 3
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x04110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 4
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x05110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 5
+	QUAD $0x06111a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 17], 6
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x07110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 7
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	QUAD $0x08110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 8
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x09110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 9
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0a110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 12
+	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
+	QUAD $0x0d111a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 17], 13
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0e113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x0f111a442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rbx + 17], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x12               // movzx    edi, byte [rdx + rdi + 18]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x01123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 1
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x02123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 2
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x03123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 3
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x04123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 4
+	QUAD $0x051232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 18], 5
+	QUAD $0x061232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 6
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x071232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 7
+	QUAD $0x08123a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 18], 8
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x091232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 9
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x0a1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 10
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0b1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 11
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0c1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 12
+	QUAD $0x0d122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 13
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0e1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 14
+	QUAD $0x0f1202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 15
+	LONG $0x7cb60f42; WORD $0x1212             // movzx    edi, byte [rdx + r10 + 18]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0112224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 1
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	QUAD $0x0212124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 2
+	QUAD $0x0312024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 3
+	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0412324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 4
+	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
+	QUAD $0x0512324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 5
+	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
+	QUAD $0x0612024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 6
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x07122a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 18], 7
+	QUAD $0x08120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 8
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0912024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 9
+	QUAD $0x0a120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 11
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0c120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 12
+	QUAD $0x0d121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 13
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0e120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 14
+	QUAD $0x0f121a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 18], 15
+	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
+	LONG $0x7cb60f42; WORD $0x133a             // movzx    edi, byte [rdx + r15 + 19]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x01130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 1
+	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
+	QUAD $0x02130a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 19], 2
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x03130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 3
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	QUAD $0x04131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 4
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x05130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 5
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x06130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 6
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x07130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 7
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x08130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 8
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x09131a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 19], 9
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0a130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 10
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0b130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 11
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0c130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 12
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0d130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 13
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0e130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 14
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 15
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	LONG $0x0a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rcx + 19]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x01133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 1
+	QUAD $0x0213125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 2
+	QUAD $0x0313225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 3
+	QUAD $0x0413325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 4
+	QUAD $0x0513325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 5
+	QUAD $0x0613025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 19], 6
+	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
+	QUAD $0x07132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 7
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0813325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 8
+	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0a13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x0c13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 13
+	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
+	QUAD $0x0e132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 14
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0f13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	LONG $0x7cb60f42; WORD $0x143a             // movzx    edi, byte [rdx + r15 + 20]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
+	QUAD $0x011402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 1
+	QUAD $0x02140a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 20], 2
+	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
+	QUAD $0x03143a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 20], 3
+	QUAD $0x04141a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 20], 4
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x051432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 5
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x061402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 6
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	QUAD $0x07140a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 20], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x081402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 8
+	QUAD $0x09141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 9
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0a1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 10
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0b1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 11
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0c1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 12
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0d1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 13
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0e1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 14
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0f143a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 20], 15
+	LONG $0x0a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rcx + 20]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x01140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x02140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 2
+	QUAD $0x0314224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 3
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x04143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 4
+	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
+	QUAD $0x05141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 5
+	QUAD $0x0614324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 20], 6
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x07143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 7
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x08143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 8
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x09141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 9
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0a143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 11
+	QUAD $0x0c14124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 13
+	QUAD $0x0e142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 14
+	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
+	QUAD $0x0f14224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x15               // movzx    edi, byte [rdx + rdi + 21]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 1
+	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
+	QUAD $0x02152a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 21], 2
+	QUAD $0x03153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 3
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	QUAD $0x04153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 4
+	QUAD $0x051532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 5
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x061532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 6
+	QUAD $0x07150a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 21], 7
+	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
+	QUAD $0x08150a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 21], 8
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x09153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 9
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0a153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 10
+	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
+	QUAD $0x0b1512542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 21], 11
+	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
+	QUAD $0x0c1502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 12
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x0d153a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 21], 13
+	QUAD $0x0e1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x027cb60f; BYTE $0x15               // movzx    edi, byte [rdx + rax + 21]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0115025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 1
+	QUAD $0x02150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 2
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0315025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 3
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0415025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 4
+	QUAD $0x05151a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 21], 5
+	QUAD $0x0615325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 6
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0715025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 7
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0815025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 8
+	QUAD $0x09151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 9
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0a15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 10
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0b151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 11
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	QUAD $0x0c15325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 13
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0e150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	QUAD $0x0f1522442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r12 + 21], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x16               // movzx    edi, byte [rdx + rax + 22]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x011602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 1
+	QUAD $0x02162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 2
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x031602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 3
+	QUAD $0x04163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 4
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x05163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 5
+	QUAD $0x061632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 6
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x071632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 7
+	QUAD $0x08160a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 22], 8
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x091632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 9
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x0a1632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 22], 10
+	QUAD $0x0b1612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 22], 11
+	QUAD $0x0c1602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 12
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x0d162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 13
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0e163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 14
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x0f1612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 22], 15
+	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
+	LONG $0x7cb60f42; WORD $0x161a             // movzx    edi, byte [rdx + r11 + 22]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
+	QUAD $0x01163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 1
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x02163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 2
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x03163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 3
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x04163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 4
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x05163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 5
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x06163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 6
+	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
+	QUAD $0x0716224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 22], 7
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x08163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 8
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x09163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 9
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0a163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 10
+	QUAD $0x0b161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 11
+	QUAD $0x0c16324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 12
+	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
+	QUAD $0x0d16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 13
+	QUAD $0x0e160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 14
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x0f160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 15
+	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
+	LONG $0x1a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rbx + 23]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x01173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 1
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x02173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 2
+	QUAD $0x031702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 3
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x041702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 4
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x05173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 5
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x061732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 23], 6
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x07173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 7
+	QUAD $0x08170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 8
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x09170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 9
+	QUAD $0x0a1732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 10
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0b1732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 11
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0c1732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 12
+	QUAD $0x0d172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 13
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x0e172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 14
+	QUAD $0x0f1712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 23], 15
+	LONG $0x7cb60f42; WORD $0x171a             // movzx    edi, byte [rdx + r11 + 23]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x01173a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 23], 1
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	QUAD $0x0217325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 2
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x03173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 3
+	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
+	QUAD $0x04173a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 23], 4
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x05173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 5
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x06173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 6
+	QUAD $0x0717225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 23], 7
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x08173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 8
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x09173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 9
+	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
+	QUAD $0x0a17225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 23], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 11
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x0c17125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 12
+	QUAD $0x0d17025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 13
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
+	QUAD $0x0f170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 15
+	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
+	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
+	LONG $0x1a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rbx + 24]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x01180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 1
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x02180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 2
+	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
+	QUAD $0x031802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 24], 3
+	QUAD $0x041802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 4
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x051802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 5
+	QUAD $0x061832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 24], 6
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x07181a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 24], 7
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x08180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 8
+	QUAD $0x09180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 9
+	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
+	QUAD $0x0a180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 10
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0b180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 11
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0c183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 12
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x0d183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 13
+	QUAD $0x0e182a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 24], 14
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0f183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 15
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	LONG $0x3a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rdi + 24]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
+	QUAD $0x0118324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 1
+	QUAD $0x0218324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 2
+	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
+	QUAD $0x03182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 3
+	QUAD $0x04183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 4
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0518324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 5
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x0618324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 6
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x07181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 7
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0818324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 8
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0918324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 9
+	QUAD $0x0a18224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 24], 10
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0b18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 11
+	QUAD $0x0c18124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 12
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0d18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 13
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0e183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 14
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0f18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 15
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	LONG $0x327cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rsi + 25]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+	QUAD $0x011912542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 25], 1
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x021932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 2
+	QUAD $0x031902542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 25], 3
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x04193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 4
+	QUAD $0x051902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 5
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x061902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 6
+	QUAD $0x07191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x091902542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 25], 9
+	QUAD $0x0a190a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 25], 10
+	QUAD $0x0b190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 11
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x0c190a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 25], 12
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0d190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 13
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0e190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 14
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x0f191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 15
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	LONG $0x0a7cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rcx + 25]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0119325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 25], 1
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x02193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 2
+	QUAD $0x03192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 3
+	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
+	QUAD $0x0419325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 25], 4
+	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
+	QUAD $0x05192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 5
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x06193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 6
+	QUAD $0x07191a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 25], 7
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x08193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 8
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x09193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 9
+	QUAD $0x0a19225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 25], 10
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0b19225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 25], 11
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0c191a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 25], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 13
+	QUAD $0x0e193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x0f193a442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rdi + 25], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rdi + 26]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011a12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 26], 1
+	QUAD $0x021a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 2
+	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
+	QUAD $0x031a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 3
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	QUAD $0x041a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 4
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x051a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 5
+	QUAD $0x061a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 6
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x071a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x081a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 8
+	QUAD $0x091a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 9
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x0a1a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 10
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0b1a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 11
+	QUAD $0x0c1a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 12
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x0d1a0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 26], 13
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0e1a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 14
+	QUAD $0x0f1a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 15
+	LONG $0x0a7cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rcx + 26]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x011a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 1
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x021a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 2
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x031a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 3
+	QUAD $0x041a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 4
+	QUAD $0x051a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 5
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x061a1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 26], 6
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x071a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 7
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x081a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 8
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x091a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 9
+	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
+	QUAD $0x0a1a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 10
+	QUAD $0x0b1a224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 26], 11
+	QUAD $0x0c1a1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 26], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 13
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0e1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 14
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x0f1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rdi + 27]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x011b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 27], 1
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x021b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 2
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x031b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 3
+	QUAD $0x041b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 4
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x051b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 5
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x061b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 6
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x071b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 27], 7
+	QUAD $0x081b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 8
+	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
+	QUAD $0x091b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 27], 9
+	QUAD $0x0a1b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 10
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0b1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 11
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0c1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 12
+	QUAD $0x0d1b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 27], 13
+	QUAD $0x0e1b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 14
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0f1b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 27], 15
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	LONG $0x327cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rsi + 27]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x011b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 1
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x021b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 2
+	QUAD $0x031b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 3
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x041b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 4
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x051b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 5
+	QUAD $0x061b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 6
+	QUAD $0x071b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 7
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x081b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 8
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x091b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 9
+	QUAD $0x0a1b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 11
+	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
+	QUAD $0x0c1b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 12
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x0d1b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 13
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0e1b3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 27], 14
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x0f1b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rdi + 28]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 1
+	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
+	QUAD $0x021c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 2
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x031c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 3
+	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
+	QUAD $0x041c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 28], 4
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x051c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 5
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x061c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 6
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x071c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 7
+	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
+	QUAD $0x081c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 8
+	QUAD $0x091c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 28], 9
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0a1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 10
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0b1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 11
+	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
+	QUAD $0x0c1c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 28], 12
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x0d1c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 13
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0e1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 14
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0f1c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 28], 15
+	LONG $0x327cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rsi + 28]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x011c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 1
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	QUAD $0x021c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 2
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x041c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 4
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x051c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 5
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x061c1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 28], 6
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x071c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 7
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x081c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 8
+	QUAD $0x091c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 9
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0a1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 10
+	QUAD $0x0b1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 11
+	QUAD $0x0c1c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 12
+	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
+	QUAD $0x0d1c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 13
+	QUAD $0x0e1c3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 28], 14
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x0f1c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x1d               // movzx    edi, byte [rdx + rax + 29]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	QUAD $0x011d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 1
+	QUAD $0x021d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 2
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x031d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 3
+	QUAD $0x041d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 4
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x051d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 5
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x061d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 6
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x071d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 7
+	QUAD $0x081d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 8
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x091d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 9
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0a1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 10
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0b1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 11
+	QUAD $0x0c1d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 12
+	QUAD $0x0d1d2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 29], 13
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x0e1d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 14
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x0f1d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 15
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	LONG $0x3a7cb60f; BYTE $0x1d               // movzx    edi, byte [rdx + rdi + 29]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x011d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 1
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x021d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 2
+	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x041d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 4
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x051d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 29], 5
+	QUAD $0x061d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 29], 6
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x081d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 8
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x091d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 9
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0a1d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b1d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 11
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0c1d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 29], 12
+	QUAD $0x0d1d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 13
+	QUAD $0x0e1d3a642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + r15 + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	QUAD $0x0f1d1a442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + r11 + 29], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	LONG $0x027cb60f; BYTE $0x1e               // movzx    edi, byte [rdx + rax + 30]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011e0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 30], 1
+	LONG $0x027cb60f; BYTE $0x1f               // movzx    edi, byte [rdx + rax + 31]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011f0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 31], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
+	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
+	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
+	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
+	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
+	QUAD $0x051e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 30], 5
+	QUAD $0x051f124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 31], 5
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x061e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 6
+	QUAD $0x061f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 6
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
+	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
+	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x091e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 9
+	QUAD $0x091f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 9
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0a1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 10
+	QUAD $0x0a1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 10
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0b1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 11
+	QUAD $0x0b1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 11
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
+	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
+	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
+	QUAD $0x0e1e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 30], 14
+	QUAD $0x0e1f324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 31], 14
+	QUAD $0x0f1e02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 30], 15
+	QUAD $0x0f1f02542071a3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + r8 + 31], 15
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	LONG $0x3a44b60f; BYTE $0x1e               // movzx    eax, byte [rdx + rdi + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
+	QUAD $0x011e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 1
+	LONG $0x3a44b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rdi + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 1
+	QUAD $0x021e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 30], 2
+	QUAD $0x021f2a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 31], 2
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
+	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x041e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 4
+	QUAD $0x041f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 4
+	QUAD $0x051e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 30], 5
+	QUAD $0x051f227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 31], 5
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
+	QUAD $0x061f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 6
+	QUAD $0x071e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 30], 7
+	QUAD $0x071f327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 31], 7
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
+	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
+	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
+	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
+	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x0c1e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 30], 12
+	QUAD $0x0c1f1a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 31], 12
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x0d1e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 30], 13
+	QUAD $0x0d1f0a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 31], 13
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
+	QUAD $0x0f1e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 15
+	QUAD $0x0f1f1a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	QUAD $0x00020024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 512]
+	LONG $0xc27495c5                           // vpcmpeqb    ymm0, ymm13, ymm2
+	QUAD $0x0004c024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1216]
+	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI5_0] */
+	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
+	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
+	QUAD $0x0001e024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 480]
+	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI5_1] */
+	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
+	QUAD $0x0001c024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 448]
+	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI5_2] */
+	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xe2740dc5                           // vpcmpeqb    ymm12, ymm14, ymm2
+	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI5_3] */
+	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
+	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	LONG $0xfa7485c5                           // vpcmpeqb    ymm7, ymm15, ymm2
+	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI5_4] */
+	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
+	QUAD $0x0001a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 416]
+	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI5_5] */
+	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x0004a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1184]
+	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI5_6] */
+	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	QUAD $0x00048024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1152]
+	QUAD $0x00046024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1120]
+	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
+	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
+	QUAD $0x00044024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1088]
+	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
+	QUAD $0x00042024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 1056]
+	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	QUAD $0x0003e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 992]
+	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x00040024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1024]
+	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
+	QUAD $0x0003a024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 928]
+	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	QUAD $0x0003c024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 960]
+	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
+	QUAD $0x00038024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 896]
+	QUAD $0x00036024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 864]
+	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
+	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
+	QUAD $0x00032024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 800]
+	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
+	QUAD $0x00034024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 832]
+	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
+	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
+	QUAD $0x0002e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 736]
+	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
+	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
+	QUAD $0x00030024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 768]
+	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
+	LONG $0xd2742dc5                           // vpcmpeqb    ymm10, ymm10, ymm2
+	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
+	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
+	LONG $0xda7425c5                           // vpcmpeqb    ymm11, ymm11, ymm2
+	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
+	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
+	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
+	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
+	QUAD $0x000220248c746dc5; BYTE $0x00       // vpcmpeqb    ymm9, ymm2, yword [rsp + 544]
+	QUAD $0x0002402484746dc5; BYTE $0x00       // vpcmpeqb    ymm8, ymm2, yword [rsp + 576]
+	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
+	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
+	QUAD $0x00026024ac74edc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm2, yword [rsp + 608]
+	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
+	QUAD $0x00028024b474edc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm2, yword [rsp + 640]
+	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
+	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
+	QUAD $0x0002a0249c74edc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm2, yword [rsp + 672]
+	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI5_3] */
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x0002c024a474edc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm2, yword [rsp + 704]
+	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
+	QUAD $0x000140248c74edc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm2, yword [rsp + 320]
+	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
+	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
+	QUAD $0x000120249474edc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm2, yword [rsp + 288]
+	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
+	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
+	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
+	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
+	LONG $0x7f7ec1c4; WORD $0x8f44; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm0
+	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8f64; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x8f0c             // vmovdqu    yword [r15 + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
+	QUAD $0x00000178248c3b48                   // cmp    rcx, qword [rsp + 376]
+	JNE  LBB5_166
+	QUAD $0x0000018024b48b4c                   // mov    r14, qword [rsp + 384]
+	QUAD $0x0000017824b43b4c                   // cmp    r14, qword [rsp + 376]
+	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
+	QUAD $0x0000019024ac8b4c                   // mov    r13, qword [rsp + 400]
+	QUAD $0x0000018824948b48                   // mov    rdx, qword [rsp + 392]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	JNE  LBB5_43
+	JMP  LBB5_129
+
+LBB5_168:
+	LONG $0xe0e68349                     // and    r14, -32
+	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	QUAD $0x0000018824848948             // mov    qword [rsp + 392], rax
+	QUAD $0x0000017824b4894c             // mov    qword [rsp + 376], r14
+	LONG $0xb7048d4b                     // lea    rax, [r15 + 4*r14]
+	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
+	LONG $0x6e79c1c4; BYTE $0xc3         // vmovd    xmm0, r11d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00020024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 512], ymm0
+	WORD $0xdb31                         // xor    ebx, ebx
+	QUAD $0x0000011024bc894c             // mov    qword [rsp + 272], r15
+
+LBB5_169:
+	QUAD $0x00000198249c8948                   // mov    qword [rsp + 408], rbx
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	QUAD $0x0000010824848948                   // mov    qword [rsp + 264], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
+	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x0a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rcx + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x0a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rcx + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
+	QUAD $0x00000100249c8948                   // mov    qword [rsp + 256], rbx
+	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
+	LONG $0xf86e79c5                           // vmovd    xmm15, eax
+	LONG $0x0a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rcx + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
+	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
+	LONG $0x0a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rcx + 6]
+	QUAD $0x000000f0248c8948                   // mov    qword [rsp + 240], rcx
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x0a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rcx + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
+	LONG $0x20ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 544
+	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x40c98148; WORD $0x0002; BYTE $0x00 // or    rcx, 576
+	QUAD $0x000000b0248c8948                   // mov    qword [rsp + 176], rcx
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02800d48; WORD $0x0000             // or    rax, 640
+	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	LONG $0xa0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 672
+	QUAD $0x000000f82494894c                   // mov    qword [rsp + 248], r10
+	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
+	LONG $0xc0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 704
+	QUAD $0x000000e8248c894c                   // mov    qword [rsp + 232], r9
+	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
+	LONG $0xe0cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 736
+	LONG $0x245c894c; BYTE $0x60               // mov    qword [rsp + 96], r11
+	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
+	LONG $0x00cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 768
+	LONG $0x2464894c; BYTE $0x70               // mov    qword [rsp + 112], r12
+	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
+	LONG $0x20c88149; WORD $0x0003; BYTE $0x00 // or    r8, 800
+	LONG $0x2444894c; BYTE $0x38               // mov    qword [rsp + 56], r8
+	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
+	LONG $0x40cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 832
+	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x03600d48; WORD $0x0000             // or    rax, 864
+	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x03a00d48; WORD $0x0000             // or    rax, 928
+	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
+	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
+	LONG $0xe0cb8148; WORD $0x0003; BYTE $0x00 // or    rbx, 992
+	LONG $0x207923c4; WORD $0x320c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r14], 1
+	LONG $0x2031e3c4; WORD $0x0a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rcx], 2
+	LONG $0x2079a3c4; WORD $0x2a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + r13], 3
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 4
+	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r10], 5
+	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + r9], 6
+	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + r11], 7
+	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + r12], 8
+	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r8], 9
+	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r15], 10
+	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
+	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r10], 11
+	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 12
+	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
+	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
+	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 15
+	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
+	QUAD $0x00000098249c8948                   // mov    qword [rsp + 152], rbx
+	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
+	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 1
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 2
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 3
+	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
+	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 7
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 8
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 9
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rax], 10
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 11
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 12
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 14
+	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
+	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + r14], 15
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x01011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 1
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x02011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 2
+	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
+	QUAD $0x03012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 3
+	QUAD $0x04010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 4
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x05010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 5
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x06010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 6
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x07010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 7
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x08010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 9
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0a010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 10
+	QUAD $0x0b0112642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 1], 11
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0c011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 12
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+	QUAD $0x0d0112642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 1], 13
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0e010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 14
+	QUAD $0x0f0122642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 1], 15
+	QUAD $0x01011a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r11 + 1], 1
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x02010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 2
+	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
+	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
+	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
+	QUAD $0x05010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 5
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x06010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 6
+	QUAD $0x0701326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 7
+	QUAD $0x08013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 8
+	QUAD $0x09013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 9
+	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
+	QUAD $0x0a01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
+	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
+	QUAD $0x0f0132442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r14 + 1], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
+	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
+	LONG $0xd76e79c5                           // vmovd    xmm10, edi
+	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	QUAD $0x01023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 1
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x020202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 2
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x030202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	QUAD $0x060202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 6
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x07020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 7
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x08021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 9
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0a0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 11
+	QUAD $0x0c021a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 2], 12
+	QUAD $0x0d0212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
+	QUAD $0x0102125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 2], 1
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0202025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 2
+	QUAD $0x0302225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 3
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x0402325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 2], 4
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0502225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 5
+	QUAD $0x06020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 6
+	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x08023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 8
+	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
+	QUAD $0x09022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 9
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0a02325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 10
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x0b022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 11
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0d021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0e021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 14
+	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
+	QUAD $0x0f022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 15
+	QUAD $0x01033a642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r15 + 3], 1
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x02031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 2
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x03031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 3
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x04031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 4
+	QUAD $0x000000f8249c8b48                   // mov    rbx, qword [rsp + 248]
+	QUAD $0x05031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 5
+	QUAD $0x060302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 3], 6
+	QUAD $0x07030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 7
+	QUAD $0x08031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 8
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	QUAD $0x09030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 9
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x0a031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 10
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0b031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 11
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0c031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 12
+	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
+	QUAD $0x0d032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 13
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0e031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 14
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x0f031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 15
+	QUAD $0x0103126c2039a3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + r10 + 3], 1
+	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
+	QUAD $0x0203026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 2
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
+	QUAD $0x0403326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 4
+	QUAD $0x0503226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 3], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0603026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0703026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 7
+	QUAD $0x08033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 8
+	QUAD $0x09030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 9
+	QUAD $0x0a03326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
+	LONG $0xc76e79c5                           // vmovd    xmm8, edi
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0302442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 3], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
+	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
+	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
+	QUAD $0x01043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 1
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x02043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 2
+	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
+	QUAD $0x030422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 4], 3
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x040432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 4], 4
+	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
+	QUAD $0x050402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x060402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 6
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x070402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 7
+	QUAD $0x08041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 8
+	QUAD $0x09040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 9
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0a0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 10
+	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
+	QUAD $0x0b040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 11
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0c0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 12
+	QUAD $0x0d042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 14
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	QUAD $0x0f0412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 4], 15
+	QUAD $0x01041a5c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rdx + rbx + 4], 1
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x02043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 2
+	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
+	QUAD $0x03042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 3
+	QUAD $0x0404325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 4
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0504025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x06043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 6
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x07043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0804025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 8
+	QUAD $0x09040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 9
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0a04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 10
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0b040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 15
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x010502642009e3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + rax + 5], 1
+	QUAD $0x02053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 2
+	QUAD $0x030522642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 5], 3
+	QUAD $0x040532642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 5], 4
+	QUAD $0x050502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x060502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 6
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x07053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 7
+	QUAD $0x08051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 9
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0a0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 10
+	QUAD $0x0b050a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 5], 11
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x0c051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 12
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x0d0532642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 5], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 14
+	QUAD $0x0f0512642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 5], 15
+	QUAD $0x01051a6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rbx + 5], 1
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0205026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 2
+	QUAD $0x03052a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 5], 3
+	QUAD $0x0405326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 4
+	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0505026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0605026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 6
+	QUAD $0x07053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 7
+	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
+	QUAD $0x0805326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 8
+	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
+	QUAD $0x0905226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 5], 9
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
+	QUAD $0x0b050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
+	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0502442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 5], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x010602442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + rax + 6], 1
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x020602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 2
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x03061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 3
+	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
+	QUAD $0x040602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 4
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x050612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 6], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
+	QUAD $0x07063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 7
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+	QUAD $0x09063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 9
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0a0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 10
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0b060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 11
+	QUAD $0x0c061a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 6], 12
+	QUAD $0x0d0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 13
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x0e0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 14
+	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
+	QUAD $0x0f062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 15
+	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
+	QUAD $0x01061a6c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r11 + 6], 1
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x02060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 2
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x03060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 3
+	QUAD $0x04060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 4
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x05060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x06063a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 6], 6
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
+	QUAD $0x0806326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 8
+	QUAD $0x0906226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 9
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0a060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 10
+	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
+	QUAD $0x0b06326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 11
+	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
+	QUAD $0x0c060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 14
+	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
+	QUAD $0x0f06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 15
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x01070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 1
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x02070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 2
+	QUAD $0x03071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 3
+	QUAD $0x040702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 4
+	QUAD $0x050712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 5
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	QUAD $0x060702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 6
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x07070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 7
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x080712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 8
+	QUAD $0x09073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 9
+	QUAD $0x0a0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 11
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0c0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 12
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x0d071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 13
+	QUAD $0x0e0732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 14
+	QUAD $0x0f072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 15
+	QUAD $0x01071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 1
+	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0207324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 2
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0307024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 3
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0507224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 5
+	QUAD $0x06073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 6
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x07073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 7
+	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
+	QUAD $0x08071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 8
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	QUAD $0x09070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 9
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
+	QUAD $0x0b07324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 11
+	QUAD $0x0c070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 13
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e073a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rdi + 7], 14
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0a7cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rcx + 11]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0f070a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 7], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0a7cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rcx + 11]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x01083a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rdi + 8], 1
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x02083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 2
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	QUAD $0x03083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 3
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x04080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 4
+	QUAD $0x000000f8248c8b4c                   // mov    r9, qword [rsp + 248]
+	QUAD $0x05080a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 8], 5
+	QUAD $0x060802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 6
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x07080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 7
+	QUAD $0x080812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 9
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0a080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 10
+	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
+	QUAD $0x0b0812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 11
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0c080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 12
+	QUAD $0x0d081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 13
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0e080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 14
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x0f080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 15
+	QUAD $0x01082a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r13 + 8], 1
+	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
+	QUAD $0x0208326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 2
+	QUAD $0x0308026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 3
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x04080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 4
+	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
+	QUAD $0x0508226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 5
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0608326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 6
+	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
+	QUAD $0x0708226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 7
+	QUAD $0x08081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 8
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0908026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 9
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x0a081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 10
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0b081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 11
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0c081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 12
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0d081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0e081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 14
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0f081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 15
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x01091a742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rbx + 9], 1
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x02091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 2
+	QUAD $0x03093a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 9], 3
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x04091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 4
+	QUAD $0x05090a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 9], 5
+	QUAD $0x060902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 6
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x07093a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 9], 7
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x08091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 8
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x09091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 9
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x0a091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 10
+	QUAD $0x0b0912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 11
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0c091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 12
+	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
+	QUAD $0x0d0902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 13
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0e091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 14
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x0f091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 15
+	QUAD $0x01092a7c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + r13 + 9], 1
+	QUAD $0x0209327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 2
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x03091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 3
+	QUAD $0x04090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 4
+	QUAD $0x05093a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rdi + 9], 5
+	QUAD $0x0609327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 6
+	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
+	QUAD $0x0709227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 9], 7
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x08090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 8
+	QUAD $0x0909027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 9
+	QUAD $0x0a091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 10
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x0b091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x00048024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
+	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
+	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
+	QUAD $0x010a2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 10], 1
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	QUAD $0x020a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 2
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x030a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 3
+	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
+	QUAD $0x040a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 4
+	QUAD $0x050a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 5
+	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
+	QUAD $0x060a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 6
+	QUAD $0x070a3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 10], 7
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x080a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 9
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0a0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 11
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0c0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 12
+	QUAD $0x0d0a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 14
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0f0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x010a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 1
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x020a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 2
+	QUAD $0x030a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x040a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 4
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x050a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 5
+	QUAD $0x060a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 6
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
+	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
+	QUAD $0x080a02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 10], 8
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x090a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 9
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0a0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 10
+	QUAD $0x0b0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 12
+	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
+	QUAD $0x0d0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 13
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	QUAD $0x0e0a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 15
+	QUAD $0x010b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 1
+	QUAD $0x020b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 2
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x030b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 3
+	QUAD $0x040b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 4
+	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
+	QUAD $0x050b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 5
+	QUAD $0x060b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 6
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x070b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 7
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x080b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 9
+	QUAD $0x0a0b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 11
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0c0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 12
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0d0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 13
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x0e0b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 14
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0f0b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 15
+	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
+	QUAD $0x010b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 11], 1
+	QUAD $0x020b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 2
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x030b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 3
+	QUAD $0x040b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 4
+	QUAD $0x050b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x060b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 6
+	QUAD $0x070b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 7
+	QUAD $0x080b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 11], 8
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	QUAD $0x090b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 9
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0a0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 12
+	QUAD $0x0d0b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
+	QUAD $0x0e0b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 11], 14
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rax + 13]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rax + 13]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x010c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 1
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x020c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 12], 2
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	QUAD $0x030c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 12], 3
+	QUAD $0x040c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 4
+	QUAD $0x050c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 12], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x060c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 6
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x070c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 7
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 9
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0a0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 11
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0c0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 12
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0d0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 13
+	QUAD $0x0e0c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 14
+	QUAD $0x0f0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 15
+	QUAD $0x010c0a542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r9 + 12], 1
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x030c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 3
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x040c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 4
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x050c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 5
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	QUAD $0x060c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x070c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 7
+	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
+	QUAD $0x080c1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 12], 8
+	QUAD $0x090c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 9
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0a0c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 10
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0d0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 13
+	QUAD $0x0e0c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 14
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0f0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 15
+	QUAD $0x010d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 1
+	QUAD $0x020d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 2
+	QUAD $0x030d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 3
+	QUAD $0x040d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 4
+	QUAD $0x050d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 5
+	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
+	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
+	QUAD $0x060d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 6
+	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
+	QUAD $0x070d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 7
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x080d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 8
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x090d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 9
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x0a0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 10
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0b0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 11
+	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
+	QUAD $0x0c0d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 12
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x0d0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 13
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0e0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 14
+	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
+	QUAD $0x0f0d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 15
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	QUAD $0x010d1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 13], 1
+	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
+	QUAD $0x030d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 3
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x040d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 4
+	QUAD $0x050d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 5
+	QUAD $0x060d0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 13], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x070d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 7
+	QUAD $0x080d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 8
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	QUAD $0x090d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 9
+	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 13
+	QUAD $0x0e0d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 14
+	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0d02442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 13], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x010e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 1
+	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
+	QUAD $0x020e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 2
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x030e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x040e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 4
+	QUAD $0x050e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 5
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	QUAD $0x060e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 6
+	QUAD $0x070e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 7
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x080e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 9
+	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
+	QUAD $0x0a0e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 10
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0b0e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 14], 11
+	QUAD $0x0c0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 12
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	QUAD $0x0d0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 13
+	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
+	QUAD $0x0e0e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 14
+	QUAD $0x0f0e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 15
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x010e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 1
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x020e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 2
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x030e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x040e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 4
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x050e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x060e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 6
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x070e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x080e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 8
+	QUAD $0x090e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 9
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0a0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 10
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0b0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 11
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x0c0e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 12
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0d0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 15
+	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
+	LONG $0x7cb60f42; WORD $0x0f02             // movzx    edi, byte [rdx + r8 + 15]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x010f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 1
+	QUAD $0x020f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 2
+	QUAD $0x030f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 3
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x040f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 4
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x050f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 5
+	QUAD $0x060f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 6
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x070f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 7
+	QUAD $0x080f1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 15], 8
+	QUAD $0x090f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 9
+	QUAD $0x0a0f12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 15], 10
+	QUAD $0x0b0f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 15], 11
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0c0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 12
+	QUAD $0x0d0f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 15], 13
+	QUAD $0x0e0f32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 15], 14
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x0f0f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 15
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	LONG $0x1a7cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rbx + 15]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
+	QUAD $0x010f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 1
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x020f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 2
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x030f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 3
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x040f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 4
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x050f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 5
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x060f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 6
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+	QUAD $0x070f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x080f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 8
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x090f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 9
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0a0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 11
+	QUAD $0x0c0f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 12
+	QUAD $0x0d0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 14
+	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
+	QUAD $0x0f0f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 15
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	LONG $0x7cb60f42; WORD $0x1002             // movzx    edi, byte [rdx + r8 + 16]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x011032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 1
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x021032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 2
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x031032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 3
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x041032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 4
+	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
+	QUAD $0x051032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 5
+	QUAD $0x06102a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 16], 6
+	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x071032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 7
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x081032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 8
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x091032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 9
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0a1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 10
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0b1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 11
+	QUAD $0x0c1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 12
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0d1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 13
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x0e1002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 14
+	QUAD $0x0f100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 15
+	LONG $0x1a7cb60f; BYTE $0x10               // movzx    edi, byte [rdx + rbx + 16]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x01101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 1
+	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
+	QUAD $0x02100a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 16], 2
+	QUAD $0x0310124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 3
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0410024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 4
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0510024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 5
+	QUAD $0x06100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 6
+	QUAD $0x0710324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 7
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x0810324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 8
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0910024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 9
+	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
+	QUAD $0x0a102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 12
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0d103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 13
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	QUAD $0x0e10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 14
+	QUAD $0x0f103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x01113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 1
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x02110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 2
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x03113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 3
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x04113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 4
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x051112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 5
+	QUAD $0x061122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 6
+	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
+	QUAD $0x071122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 7
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x08113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 9
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x0a111a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 17], 10
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0b113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 11
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0c113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 12
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x0d111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 13
+	QUAD $0x0e1102542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 17], 14
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x0f113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x01113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 1
+	QUAD $0x02110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 2
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x03113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x04113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 4
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x05113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 5
+	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
+	QUAD $0x06113a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 17], 6
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x0711025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 7
+	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
+	QUAD $0x0911025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 9
+	QUAD $0x0a112a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 17], 10
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x0b110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 11
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 13
+	QUAD $0x0e11325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1102442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rax + 17], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x12               // movzx    edi, byte [rdx + rax + 18]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x011202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 1
+	QUAD $0x02120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 2
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x03120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 3
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x04122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 4
+	QUAD $0x051212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 5
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x06120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 6
+	QUAD $0x071222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 18], 7
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x08120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 8
+	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
+	QUAD $0x091212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 9
+	QUAD $0x0a121a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 18], 10
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0b123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 11
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0c123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 12
+	QUAD $0x0d121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 13
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0e123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 14
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x0f123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 15
+	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x121a             // movzx    edi, byte [rdx + r11 + 18]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x01123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 1
+	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
+	QUAD $0x0212324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 2
+	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
+	QUAD $0x0312224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x04123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 4
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x05123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 5
+	QUAD $0x06123a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 18], 6
+	QUAD $0x0712024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x08123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 8
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x09123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 9
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
+	QUAD $0x0b120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 11
+	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
+	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
+	QUAD $0x0d120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 14
+	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
+	QUAD $0x0f12024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rdi + 19]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 1
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x021302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 2
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x03133a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 19], 3
+	QUAD $0x04132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 4
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x051302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x061302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 6
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x071302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 7
+	QUAD $0x08130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 8
+	QUAD $0x091312542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 19], 9
+	QUAD $0x0a131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 10
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0b131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 11
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	QUAD $0x0c132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 12
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0d1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 14
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0f1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 15
+	LONG $0x7cb60f42; WORD $0x131a             // movzx    edi, byte [rdx + r11 + 19]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x01130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 1
+	QUAD $0x0213325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 2
+	QUAD $0x0313225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 3
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0413025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 4
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0513025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 5
+	QUAD $0x06133a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 19], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0713025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 7
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x08130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 8
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x0a13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
+	QUAD $0x0c13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 12
+	QUAD $0x0d130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 13
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x0e130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 14
+	QUAD $0x0f13025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 19], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rax + 20]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x011432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 1
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+	QUAD $0x02141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 2
+	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
+	QUAD $0x031422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 20], 3
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x041432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 4
+	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
+	QUAD $0x051402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 5
+	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
+	QUAD $0x06143a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 20], 6
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x071432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 7
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x081432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 8
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x091432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 9
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0a1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 10
+	QUAD $0x0b141a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 20], 11
+	QUAD $0x0c142a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 20], 12
+	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
+	QUAD $0x0d1432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 20], 13
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x0e1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 14
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0f1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rdi + 20]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x01143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 1
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x02143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 2
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x03141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x04143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 4
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x05143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x06143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 6
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x07143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 7
+	QUAD $0x08140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 8
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	QUAD $0x09140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 9
+	QUAD $0x0a14124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 10
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0b140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 11
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0c140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 13
+	QUAD $0x0e140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 14
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	QUAD $0x0f140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 15
+	LONG $0x027cb60f; BYTE $0x15               // movzx    edi, byte [rdx + rax + 21]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x011502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 1
+	QUAD $0x02151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 2
+	QUAD $0x031522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 3
+	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x041502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 4
+	QUAD $0x051502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 5
+	QUAD $0x06153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 6
+	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
+	QUAD $0x071502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 7
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x08153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 9
+	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
+	QUAD $0x0a1522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 11
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0c1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 12
+	QUAD $0x0d1532542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 21], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 14
+	QUAD $0x0f1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 15
+	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x151a             // movzx    edi, byte [rdx + r11 + 21]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x0115325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 1
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x0215125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 2
+	QUAD $0x03151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 3
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x04151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 4
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x05150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 5
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0615325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 6
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0715325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 7
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x0815325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 8
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	QUAD $0x0915325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 9
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0a153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 12
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0d153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	QUAD $0x0f150a442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r9 + 21], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x16               // movzx    edi, byte [rdx + rdi + 22]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x01163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 1
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x02163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 2
+	QUAD $0x03162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 3
+	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
+	QUAD $0x04160a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 22], 4
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x05163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 5
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x06163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 6
+	QUAD $0x071602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 7
+	QUAD $0x08163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 9
+	QUAD $0x0a1622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 10
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0b163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 11
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0c163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 12
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0d163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 13
+	QUAD $0x0e1602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 14
+	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
+	QUAD $0x0f163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 15
+	LONG $0x7cb60f42; WORD $0x161a             // movzx    edi, byte [rdx + r11 + 22]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0116324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 1
+	QUAD $0x0216124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 2
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0316024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 3
+	QUAD $0x04161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 4
+	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
+	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
+	QUAD $0x0616224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 22], 6
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x07161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 7
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x0816124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 8
+	QUAD $0x0916324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 9
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0a16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 10
+	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
+	QUAD $0x0b16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rax + 23]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x011702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 1
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x021702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 2
+	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
+	QUAD $0x03172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 3
+	QUAD $0x04170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 4
+	QUAD $0x000000f824ac8b4c                   // mov    r13, qword [rsp + 248]
+	QUAD $0x05172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 5
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x061732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 6
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x07170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 7
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x081702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 9
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0a170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 10
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0b170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 11
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0c170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 12
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x0d171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 13
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0e173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 14
+	QUAD $0x0f173a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 23], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rdi + 23]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x01173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 1
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x02173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 2
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x03173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x04173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 4
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x05173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 5
+	QUAD $0x0617225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 23], 6
+	QUAD $0x07171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 7
+	QUAD $0x0817125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 8
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	QUAD $0x09171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 9
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0a173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 10
+	QUAD $0x0b17025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 12
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0d173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 15
+	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
+	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rdi + 24]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x01183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 1
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x02183a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 24], 2
+	QUAD $0x031832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 24], 3
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x04183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 4
+	QUAD $0x05182a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 24], 5
+	QUAD $0x061832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 6
+	QUAD $0x07180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 7
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x081832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 8
+	QUAD $0x091802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 9
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0a1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 10
+	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
+	QUAD $0x0b1822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 11
+	QUAD $0x0c180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 12
+	QUAD $0x0d181a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 24], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 14
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0f1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 15
+	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x1832             // movzx    edi, byte [rdx + r14 + 24]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
+	QUAD $0x01180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 1
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0218024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 2
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0318024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 3
+	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
+	QUAD $0x04181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 4
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x0518024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0618024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0718024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 7
+	QUAD $0x0818124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 8
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	QUAD $0x09181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 9
+	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
+	QUAD $0x0a182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 10
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0c18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0e181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rax + 25]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x011902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 1
+	QUAD $0x02193a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 25], 2
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x031902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x041902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 4
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x05193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 5
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x06193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 6
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x07193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 7
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 9
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0a193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 10
+	QUAD $0x0b1922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 11
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0c193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 12
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0d193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 13
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0e193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 14
+	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
+	QUAD $0x0f193a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 25], 15
+	LONG $0x7cb60f42; WORD $0x1932             // movzx    edi, byte [rdx + r14 + 25]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x01190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 1
+	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
+	QUAD $0x02190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 2
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x03193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 3
+	QUAD $0x04191a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 25], 4
+	QUAD $0x0519025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x06193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 6
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x07193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x08193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 8
+	QUAD $0x0919125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 9
+	QUAD $0x0a192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 10
+	QUAD $0x0b190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 11
+	QUAD $0x0c19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 12
+	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
+	QUAD $0x0d192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 13
+	QUAD $0x0e191a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 25], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0f190a442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rcx + 25], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	LONG $0x7cb60f42; WORD $0x1a1a             // movzx    edi, byte [rdx + r11 + 26]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x011a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 1
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x021a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 2
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x031a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 3
+	QUAD $0x041a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 4
+	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
+	QUAD $0x051a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x061a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 6
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x071a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 7
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x081a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 9
+	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
+	QUAD $0x0a1a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 11
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0c1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 12
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0d1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 13
+	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
+	QUAD $0x0e1a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 14
+	QUAD $0x0f1a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rax + 26]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x011a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 1
+	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
+	QUAD $0x021a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 2
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x031a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x041a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 4
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x051a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x061a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 6
+	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
+	QUAD $0x071a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 7
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	QUAD $0x081a3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 26], 8
+	QUAD $0x091a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 9
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x0a1a1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 26], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 12
+	QUAD $0x0d1a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 15
+	LONG $0x7cb60f42; WORD $0x1b1a             // movzx    edi, byte [rdx + r11 + 27]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x011b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 27], 1
+	QUAD $0x021b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 2
+	QUAD $0x031b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 3
+	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
+	QUAD $0x041b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 4
+	QUAD $0x051b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 5
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x061b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 6
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x071b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 7
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x081b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x091b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 9
+	QUAD $0x0a1b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 27], 10
+	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
+	QUAD $0x0b1b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 27], 11
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0c1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 12
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0d1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 13
+	QUAD $0x0e1b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 27], 14
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x0f1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 15
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0a7cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rcx + 27]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x011b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 1
+	QUAD $0x021b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 2
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x031b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 3
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x041b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 4
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x051b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x061b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 6
+	QUAD $0x071b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 7
+	QUAD $0x081b3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 27], 8
+	QUAD $0x091b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 9
+	QUAD $0x0a1b1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 27], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
+	LONG $0x7cb60f42; WORD $0x1c12             // movzx    edi, byte [rdx + r10 + 28]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 1
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x021c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 2
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x031c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 3
+	QUAD $0x041c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 4
+	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
+	QUAD $0x051c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 28], 5
+	QUAD $0x061c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 6
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x071c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 7
+	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
+	QUAD $0x081c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 28], 8
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x091c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 9
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0a1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 10
+	QUAD $0x0b1c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 11
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x0c1c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 12
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0d1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 13
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0e1c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 14
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0f1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rax + 28]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x011c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 1
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x021c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 2
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
+	QUAD $0x041c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 4
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x051c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 5
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	QUAD $0x061c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 6
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x071c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x081c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 8
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x091c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 9
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0a1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 10
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x0b1c2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 28], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 12
+	QUAD $0x0d1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 15
+	LONG $0x7cb60f42; WORD $0x1d12             // movzx    edi, byte [rdx + r10 + 29]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
+	QUAD $0x011d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 1
+	QUAD $0x021d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 2
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x031d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 3
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x041d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 4
+	QUAD $0x051d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 5
+	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
+	QUAD $0x061d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 6
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x071d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 7
+	QUAD $0x081d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 8
+	QUAD $0x091d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 9
+	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
+	QUAD $0x0a1d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 10
+	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
+	QUAD $0x0b1d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 11
+	QUAD $0x0c1d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 12
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0d1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 13
+	QUAD $0x0e1d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 14
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x0f1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 15
+	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x1d02             // movzx    edi, byte [rdx + r8 + 29]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
+	QUAD $0x011d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 1
+	QUAD $0x021d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 2
+	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x041d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 4
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x051d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 5
+	QUAD $0x061d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 29], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x071d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x081d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 8
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x091d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 9
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0a1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 10
+	QUAD $0x0b1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 11
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0c1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 13
+	QUAD $0x0e1d0a642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + rcx + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1d02442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + rax + 29], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0a7cb60f; BYTE $0x1e               // movzx    edi, byte [rdx + rcx + 30]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 30], 1
+	LONG $0x0a7cb60f; BYTE $0x1f               // movzx    edi, byte [rdx + rcx + 31]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011f124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 31], 1
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
+	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
+	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
+	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
+	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
+	QUAD $0x061e3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 30], 6
+	QUAD $0x061f3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 31], 6
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
+	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
+	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 9
+	QUAD $0x091f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 9
+	QUAD $0x0a1e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 30], 10
+	QUAD $0x0a1f224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 31], 10
+	QUAD $0x0b1e0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 30], 11
+	QUAD $0x0b1f0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 31], 11
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
+	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
+	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 14
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
+	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
+	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
+	LONG $0x44b60f42; WORD $0x1e02             // movzx    eax, byte [rdx + r8 + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x011e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 1
+	LONG $0x44b60f42; WORD $0x1f02             // movzx    eax, byte [rdx + r8 + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f1a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 31], 1
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x021e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 2
+	QUAD $0x021f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 2
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
+	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
+	QUAD $0x041e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 30], 4
+	QUAD $0x041f327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 31], 4
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
+	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
+	QUAD $0x061e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 30], 6
+	QUAD $0x061f327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 31], 6
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
+	QUAD $0x071f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
+	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
+	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
+	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
+	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
+	QUAD $0x0c1e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 30], 12
+	QUAD $0x0c1f2a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 31], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
+	QUAD $0x0d1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
+	QUAD $0x0f1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	QUAD $0x00020024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 512]
+	LONG $0xc27495c5                           // vpcmpeqb    ymm0, ymm13, ymm2
+	QUAD $0x0004c024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1216]
+	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI5_0] */
+	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
+	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
+	QUAD $0x0001e024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 480]
+	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI5_1] */
+	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
+	QUAD $0x0001c024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 448]
+	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI5_2] */
+	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xe2740dc5                           // vpcmpeqb    ymm12, ymm14, ymm2
+	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI5_3] */
+	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
+	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	LONG $0xfa7485c5                           // vpcmpeqb    ymm7, ymm15, ymm2
+	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI5_4] */
+	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
+	QUAD $0x0001a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 416]
+	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI5_5] */
+	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x0004a024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1184]
+	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI5_6] */
+	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	QUAD $0x00048024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 1152]
+	QUAD $0x00046024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1120]
+	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
+	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
+	QUAD $0x00044024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1088]
+	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
+	QUAD $0x00042024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 1056]
+	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	QUAD $0x0003e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 992]
+	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x00040024a4746dc5; BYTE $0x00       // vpcmpeqb    ymm12, ymm2, yword [rsp + 1024]
+	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
+	QUAD $0x0003a024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 928]
+	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	QUAD $0x0003c024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 960]
+	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
+	QUAD $0x00038024bc74edc5; BYTE $0x00       // vpcmpeqb    ymm7, ymm2, yword [rsp + 896]
+	QUAD $0x00036024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 864]
+	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
+	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
+	QUAD $0x00032024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 800]
+	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
+	QUAD $0x00034024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 832]
+	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
+	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
+	QUAD $0x0002e024bc746dc5; BYTE $0x00       // vpcmpeqb    ymm15, ymm2, yword [rsp + 736]
+	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
+	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
+	QUAD $0x00030024b4746dc5; BYTE $0x00       // vpcmpeqb    ymm14, ymm2, yword [rsp + 768]
+	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
+	LONG $0xd2742dc5                           // vpcmpeqb    ymm10, ymm10, ymm2
+	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
+	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
+	LONG $0xda7425c5                           // vpcmpeqb    ymm11, ymm11, ymm2
+	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
+	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
+	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
+	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
+	QUAD $0x000220248c746dc5; BYTE $0x00       // vpcmpeqb    ymm9, ymm2, yword [rsp + 544]
+	QUAD $0x0002402484746dc5; BYTE $0x00       // vpcmpeqb    ymm8, ymm2, yword [rsp + 576]
+	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
+	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
+	QUAD $0x00026024ac74edc5; BYTE $0x00       // vpcmpeqb    ymm5, ymm2, yword [rsp + 608]
+	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
+	QUAD $0x00028024b474edc5; BYTE $0x00       // vpcmpeqb    ymm6, ymm2, yword [rsp + 640]
+	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
+	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
+	QUAD $0x0002a0249c74edc5; BYTE $0x00       // vpcmpeqb    ymm3, ymm2, yword [rsp + 672]
+	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI5_3] */
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x0002c024a474edc5; BYTE $0x00       // vpcmpeqb    ymm4, ymm2, yword [rsp + 704]
+	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
+	QUAD $0x000140248c74edc5; BYTE $0x00       // vpcmpeqb    ymm1, ymm2, yword [rsp + 320]
+	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
+	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
+	QUAD $0x000120249474edc5; BYTE $0x00       // vpcmpeqb    ymm2, ymm2, yword [rsp + 288]
+	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
+	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
+	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
+	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000198248c8b48                   // mov    rcx, qword [rsp + 408]
+	LONG $0x7f7ec1c4; WORD $0x8f44; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm0
+	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8f64; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x8f0c             // vmovdqu    yword [r15 + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
+	QUAD $0x00000178248c3b48                   // cmp    rcx, qword [rsp + 376]
+	JNE  LBB5_169
+	QUAD $0x0000018024b48b4c                   // mov    r14, qword [rsp + 384]
+	QUAD $0x0000017824b43b4c                   // cmp    r14, qword [rsp + 376]
+	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
+	QUAD $0x0000019024ac8b4c                   // mov    r13, qword [rsp + 400]
+	QUAD $0x0000018824948b48                   // mov    rdx, qword [rsp + 392]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	JNE  LBB5_114
+	JMP  LBB5_133
+
+TEXT ·_comparison_greater_arr_arr_avx2(SB), $80-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	ADDQ $8, SP
+
+	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
+	WORD $0x8949; BYTE $0xce // mov    r14, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB6_29
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB6_2
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB6_68
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB6_79
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB6_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_22
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_20:
+	WORD $0x0a8b                 // mov    ecx, dword [rdx]
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x0e3b                 // cmp    ecx, dword [rsi]
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
+	LONG $0x07588d48             // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd8490f48             // cmovns    rbx, rax
+	LONG $0x03fbc148             // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
+	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_20
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_22:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_26
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB6_24:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	LONG $0xd5970f41                           // seta    r13b
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	LONG $0xd7970f41                           // seta    r15b
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	LONG $0xd0970f41                           // seta    r8b
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	LONG $0xd1970f41                           // seta    r9b
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0xd4970f41                           // seta    r12b
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	LONG $0x405e8b44                           // mov    r11d, dword [rsi + 64]
+	LONG $0xd2970f41                           // seta    r10b
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x405a3b44                           // cmp    r11d, dword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	LONG $0xd6970f41                           // seta    r14b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x4c                   // mov    eax, dword [rsi + 76]
+	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
+	WORD $0x423b; BYTE $0x4c                   // cmp    eax, dword [rdx + 76]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd3970f41                           // seta    r11b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd7970f40                           // seta    dil
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
+	LONG $0x246c0244; BYTE $0x28               // add    r13b, byte [rsp + 40]
+	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14               // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x6cb60f44; WORD $0x1524             // movzx    r13d, byte [rsp + 21]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xd9                   // or    r9b, bl
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x04e4c041                           // shl    r12b, 4
+	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
+	LONG $0x245cb60f; BYTE $0x05               // movzx    ebx, byte [rsp + 5]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0a               // add    r14b, byte [rsp + 10]
+	LONG $0x244cb60f; BYTE $0x06               // movzx    ecx, byte [rsp + 6]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0844; BYTE $0xf1                   // or    cl, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0841; BYTE $0xcb                   // or    r11b, cl
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xd9                   // or    cl, r11b
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x0b               // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x44b60f44; WORD $0x0d24             // movzx    r8d, byte [rsp + 13]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0844; BYTE $0xc7                   // or    dil, r8b
+	LONG $0x01568845                           // mov    byte [r14 + 1], r10b
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x244cb60f; BYTE $0x0e               // movzx    ecx, byte [rsp + 14]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x13244c02                           // add    cl, byte [rsp + 19]
+	LONG $0x245cb60f; BYTE $0x0c               // movzx    ebx, byte [rsp + 12]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x244cb60f; BYTE $0x0f               // movzx    ecx, byte [rsp + 15]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x12               // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x027e8841                           // mov    byte [r14 + 2], dil
+	LONG $0x03468841                           // mov    byte [r14 + 3], al
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff20             // add    qword [rsp + 32], -1
+	JNE  LBB6_24
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+
+LBB6_26:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_28:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8a     // mov    edi, dword [rdx + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8e     // cmp    edi, dword [rsi + 4*rcx]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_28
+	JMP  LBB6_123
+
+LBB6_29:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB6_30
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB6_101
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB6_112
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB6_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_50
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_48:
+	LONG $0x0610fbc5             // vmovsd    xmm0, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
+	LONG $0xd2970f41             // seta    r10b
+	LONG $0x08c28348             // add    rdx, 8
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_48
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_50:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_54
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB6_52:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x0610fbc5                           // vmovsd    xmm0, qword [rsi]
+	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	LONG $0x4610fbc5; BYTE $0x08               // vmovsd    xmm0, qword [rsi + 8]
+	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x4610fbc5; BYTE $0x10               // vmovsd    xmm0, qword [rsi + 16]
+	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
+	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
+	LONG $0x4610fbc5; BYTE $0x18               // vmovsd    xmm0, qword [rsi + 24]
+	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
+	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
+	LONG $0x4610fbc5; BYTE $0x20               // vmovsd    xmm0, qword [rsi + 32]
+	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
+	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
+	LONG $0x4610fbc5; BYTE $0x28               // vmovsd    xmm0, qword [rsi + 40]
+	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
+	LONG $0x4610fbc5; BYTE $0x30               // vmovsd    xmm0, qword [rsi + 48]
+	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x4610fbc5; BYTE $0x38               // vmovsd    xmm0, qword [rsi + 56]
+	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x4610fbc5; BYTE $0x40               // vmovsd    xmm0, qword [rsi + 64]
+	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x4610fbc5; BYTE $0x48               // vmovsd    xmm0, qword [rsi + 72]
+	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x4610fbc5; BYTE $0x50               // vmovsd    xmm0, qword [rsi + 80]
+	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x4610fbc5; BYTE $0x58               // vmovsd    xmm0, qword [rsi + 88]
+	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x4610fbc5; BYTE $0x60               // vmovsd    xmm0, qword [rsi + 96]
+	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x4610fbc5; BYTE $0x68               // vmovsd    xmm0, qword [rsi + 104]
+	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
+	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
+	LONG $0x4610fbc5; BYTE $0x70               // vmovsd    xmm0, qword [rsi + 112]
+	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
+	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
+	LONG $0x4610fbc5; BYTE $0x78               // vmovsd    xmm0, qword [rsi + 120]
+	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	QUAD $0x000000808610fbc5                   // vmovsd    xmm0, qword [rsi + 128]
+	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
+	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
+	QUAD $0x000000888610fbc5                   // vmovsd    xmm0, qword [rsi + 136]
+	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
+	LONG $0xd4970f41                           // seta    r12b
+	QUAD $0x000000908610fbc5                   // vmovsd    xmm0, qword [rsi + 144]
+	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
+	LONG $0xd5970f41                           // seta    r13b
+	QUAD $0x000000988610fbc5                   // vmovsd    xmm0, qword [rsi + 152]
+	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
+	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
+	QUAD $0x000000a08610fbc5                   // vmovsd    xmm0, qword [rsi + 160]
+	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
+	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
+	QUAD $0x000000a88610fbc5                   // vmovsd    xmm0, qword [rsi + 168]
+	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
+	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
+	QUAD $0x000000b08610fbc5                   // vmovsd    xmm0, qword [rsi + 176]
+	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
+	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
+	QUAD $0x000000b88610fbc5                   // vmovsd    xmm0, qword [rsi + 184]
+	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
+	LONG $0xd1970f41                           // seta    r9b
+	QUAD $0x000000c08610fbc5                   // vmovsd    xmm0, qword [rsi + 192]
+	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
+	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
+	QUAD $0x000000c88610fbc5                   // vmovsd    xmm0, qword [rsi + 200]
+	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
+	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
+	QUAD $0x000000d08610fbc5                   // vmovsd    xmm0, qword [rsi + 208]
+	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
+	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
+	QUAD $0x000000d88610fbc5                   // vmovsd    xmm0, qword [rsi + 216]
+	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	QUAD $0x000000e08610fbc5                   // vmovsd    xmm0, qword [rsi + 224]
+	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
+	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
+	QUAD $0x000000e88610fbc5                   // vmovsd    xmm0, qword [rsi + 232]
+	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
+	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
+	QUAD $0x000000f08610fbc5                   // vmovsd    xmm0, qword [rsi + 240]
+	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
+	QUAD $0x000000f88610fbc5                   // vmovsd    xmm0, qword [rsi + 248]
+	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
+	LONG $0xd0970f41                           // seta    r8b
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x04244c02                           // add    cl, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	LONG $0x247c0240; BYTE $0x08               // add    dil, byte [rsp + 8]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e2c041                           // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0xcf89                               // mov    edi, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x07               // movzx    edi, byte [rsp + 7]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0e               // add    r12b, byte [rsp + 14]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x13               // movzx    eax, byte [rsp + 19]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB6_52
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB6_54:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_56:
+	LONG $0x0410fbc5; BYTE $0xce // vmovsd    xmm0, qword [rsi + 8*rcx]
+	LONG $0x042ef9c5; BYTE $0xca // vucomisd    xmm0, qword [rdx + 8*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x970f; BYTE $0xd3     // seta    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_56
+	JMP  LBB6_123
+
+LBB6_2:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB6_57
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB6_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_8
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_6:
+	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x0a3a                 // cmp    cl, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0xd29f0f41             // setg    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_6
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_8:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_12
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB6_10:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x24549f0f; BYTE $0x28   // setg    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x9f0f; BYTE $0xd1       // setg    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x24549f0f; BYTE $0x14   // setg    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x24549f0f; BYTE $0x15   // setg    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x24549f0f; BYTE $0x16   // setg    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x24549f0f; BYTE $0x17   // setg    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x24549f0f; BYTE $0x04   // setg    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd79f0f41               // setg    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x24549f0f; BYTE $0x07   // setg    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd79f0f40               // setg    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd29f0f41               // setg    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd39f0f41               // setg    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd69f0f41               // setg    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x24549f0f; BYTE $0x05   // setg    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x24549f0f; BYTE $0x06   // setg    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x9f0f; BYTE $0xd3       // setg    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x24549f0f; BYTE $0x0d   // setg    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd49f0f41               // setg    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd59f0f41               // setg    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x24549f0f; BYTE $0x08   // setg    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x24549f0f; BYTE $0x09   // setg    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x24549f0f; BYTE $0x0a   // setg    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x24549f0f; BYTE $0x0b   // setg    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd19f0f41               // setg    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x24549f0f; BYTE $0x13   // setg    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x24549f0f; BYTE $0x0c   // setg    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x24549f0f; BYTE $0x0e   // setg    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x24549f0f; BYTE $0x0f   // setg    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x24549f0f; BYTE $0x10   // setg    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x24549f0f; BYTE $0x11   // setg    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x24549f0f; BYTE $0x12   // setg    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd09f0f41               // setg    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB6_10
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB6_12:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_14:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
+	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_14
+	JMP  LBB6_123
+
+LBB6_30:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB6_90
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB6_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_36
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_34:
+	WORD $0x8b48; BYTE $0x0a     // mov    rcx, qword [rdx]
+	LONG $0x08c28348             // add    rdx, 8
+	WORD $0x3b48; BYTE $0x0e     // cmp    rcx, qword [rsi]
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
+	LONG $0x07588d48             // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd8490f48             // cmovns    rbx, rax
+	LONG $0x03fbc148             // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
+	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_34
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_36:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_40
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB6_38:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0xd5970f41                           // seta    r13b
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	LONG $0x809e8b4c; WORD $0x0000; BYTE $0x00 // mov    r11, qword [rsi + 128]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x809a3b4c; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [rdx + 128]
+	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0x98868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 152]
+	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
+	LONG $0x98823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 152]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
+	LONG $0x246c0244; BYTE $0x28               // add    r13b, byte [rsp + 40]
+	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14               // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x6cb60f44; WORD $0x1524             // movzx    r13d, byte [rsp + 21]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xd9                   // or    r9b, bl
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x04e4c041                           // shl    r12b, 4
+	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
+	LONG $0x245cb60f; BYTE $0x05               // movzx    ebx, byte [rsp + 5]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0a               // add    r14b, byte [rsp + 10]
+	LONG $0x244cb60f; BYTE $0x06               // movzx    ecx, byte [rsp + 6]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0844; BYTE $0xf1                   // or    cl, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0841; BYTE $0xcb                   // or    r11b, cl
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xd9                   // or    cl, r11b
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x0b               // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x44b60f44; WORD $0x0d24             // movzx    r8d, byte [rsp + 13]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0844; BYTE $0xc7                   // or    dil, r8b
+	LONG $0x01568845                           // mov    byte [r14 + 1], r10b
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x244cb60f; BYTE $0x0e               // movzx    ecx, byte [rsp + 14]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x13244c02                           // add    cl, byte [rsp + 19]
+	LONG $0x245cb60f; BYTE $0x0c               // movzx    ebx, byte [rsp + 12]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x244cb60f; BYTE $0x0f               // movzx    ecx, byte [rsp + 15]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x12               // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x027e8841                           // mov    byte [r14 + 2], dil
+	LONG $0x03468841                           // mov    byte [r14 + 3], al
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff20             // add    qword [rsp + 32], -1
+	JNE  LBB6_38
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+
+LBB6_40:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_42:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xca3c8b48             // mov    rdi, qword [rdx + 8*rcx]
+	LONG $0xce3c3b48             // cmp    rdi, qword [rsi + 8*rcx]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_42
+	JMP  LBB6_123
+
+LBB6_68:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_72
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_70:
+	WORD $0xb70f; BYTE $0x0a     // movzx    ecx, word [rdx]
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3b66; BYTE $0x0e     // cmp    cx, word [rsi]
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
+	LONG $0x07588d48             // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd8490f48             // cmovns    rbx, rax
+	LONG $0x03fbc148             // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
+	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_70
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_72:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_76
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB6_74:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x2454970f; BYTE $0x28   // seta    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0xd5970f41               // seta    r13b
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x2454970f; BYTE $0x14   // seta    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x2454970f; BYTE $0x15   // seta    byte [rsp + 21]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x2454970f; BYTE $0x17   // seta    byte [rsp + 23]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x2454970f; BYTE $0x16   // seta    byte [rsp + 22]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x2454970f; BYTE $0x04   // seta    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0xd7970f41               // seta    r15b
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x2454970f; BYTE $0x09   // seta    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0xd0970f41               // seta    r8b
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	WORD $0x970f; BYTE $0xd3       // seta    bl
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0xd1970f41               // seta    r9b
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0xd4970f41               // seta    r12b
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x2454970f; BYTE $0x05   // seta    byte [rsp + 5]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x2454970f; BYTE $0x07   // seta    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	LONG $0x5eb70f44; BYTE $0x20   // movzx    r11d, word [rsi + 32]
+	LONG $0xd2970f41               // seta    r10b
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x5a3b4466; BYTE $0x20   // cmp    r11w, word [rdx + 32]
+	LONG $0x2454970f; BYTE $0x0a   // seta    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0xd6970f41               // seta    r14b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2646b70f               // movzx    eax, word [rsi + 38]
+	LONG $0x2454970f; BYTE $0x06   // seta    byte [rsp + 6]
+	LONG $0x26423b66               // cmp    ax, word [rdx + 38]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd3970f41               // seta    r11b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x2454970f; BYTE $0x08   // seta    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x2454970f; BYTE $0x0b   // seta    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2454970f; BYTE $0x0d   // seta    byte [rsp + 13]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd7970f40               // seta    dil
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x2454970f; BYTE $0x13   // seta    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x2454970f; BYTE $0x0e   // seta    byte [rsp + 14]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x2454970f; BYTE $0x0c   // seta    byte [rsp + 12]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x2454970f; BYTE $0x0f   // seta    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x2454970f; BYTE $0x12   // seta    byte [rsp + 18]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x2454970f; BYTE $0x11   // seta    byte [rsp + 17]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x2454970f; BYTE $0x10   // seta    byte [rsp + 16]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	WORD $0x970f; BYTE $0xd0       // seta    al
+	WORD $0x0045; BYTE $0xed       // add    r13b, r13b
+	LONG $0x246c0244; BYTE $0x28   // add    r13b, byte [rsp + 40]
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x6cb60f44; WORD $0x1524 // movzx    r13d, byte [rsp + 21]
+	LONG $0x03e5c041               // shl    r13b, 3
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xe3c0; BYTE $0x02       // shl    bl, 2
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e1c041               // shl    r9b, 3
+	WORD $0x0841; BYTE $0xd9       // or    r9b, bl
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x04e4c041               // shl    r12b, 4
+	WORD $0x0845; BYTE $0xcc       // or    r12b, r9b
+	LONG $0x245cb60f; BYTE $0x05   // movzx    ebx, byte [rsp + 5]
+	WORD $0xe3c0; BYTE $0x05       // shl    bl, 5
+	WORD $0x0844; BYTE $0xe3       // or    bl, r12b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	LONG $0x07e2c041               // shl    r10b, 7
+	WORD $0x0845; BYTE $0xc2       // or    r10b, r8b
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0x0841; BYTE $0xda       // or    r10b, bl
+	WORD $0x0045; BYTE $0xf6       // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0a   // add    r14b, byte [rsp + 10]
+	LONG $0x244cb60f; BYTE $0x06   // movzx    ecx, byte [rsp + 6]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0x0844; BYTE $0xf1       // or    cl, r14b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0841; BYTE $0xcb       // or    r11b, cl
+	LONG $0x244cb60f; BYTE $0x08   // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0x0844; BYTE $0xd9       // or    cl, r11b
+	WORD $0xcb89                   // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0xd908                   // or    cl, bl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x44b60f44; WORD $0x0d24 // movzx    r8d, byte [rsp + 13]
+	LONG $0x06e0c041               // shl    r8b, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0844; BYTE $0xc7       // or    dil, r8b
+	LONG $0x01568845               // mov    byte [r14 + 1], r10b
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	LONG $0x244cb60f; BYTE $0x0e   // movzx    ecx, byte [rsp + 14]
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x13244c02               // add    cl, byte [rsp + 19]
+	LONG $0x245cb60f; BYTE $0x0c   // movzx    ebx, byte [rsp + 12]
+	WORD $0xe3c0; BYTE $0x02       // shl    bl, 2
+	WORD $0xcb08                   // or    bl, cl
+	LONG $0x244cb60f; BYTE $0x0f   // movzx    ecx, byte [rsp + 15]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xd908                   // or    cl, bl
+	WORD $0xcb89                   // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xd908                   // or    cl, bl
+	WORD $0xcb89                   // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0xd908                   // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x10   // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06       // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07       // shl    al, 7
+	WORD $0xd808                   // or    al, bl
+	WORD $0xc808                   // or    al, cl
+	LONG $0x027e8841               // mov    byte [r14 + 2], dil
+	LONG $0x03468841               // mov    byte [r14 + 3], al
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB6_74
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB6_76:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_78:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4a3cb70f             // movzx    edi, word [rdx + 2*rcx]
+	LONG $0x4e3c3b66             // cmp    di, word [rsi + 2*rcx]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_78
+	JMP  LBB6_123
+
+LBB6_79:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_83
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_81:
+	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	LONG $0xd29f0f41             // setg    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_81
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_83:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_87
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB6_85:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x24549f0f; BYTE $0x28   // setg    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x24549f0f; BYTE $0x20   // setg    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x24549f0f; BYTE $0x14   // setg    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x24549f0f; BYTE $0x15   // setg    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x24549f0f; BYTE $0x16   // setg    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x24549f0f; BYTE $0x17   // setg    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x24549f0f; BYTE $0x04   // setg    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd59f0f41               // setg    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x24549f0f; BYTE $0x09   // setg    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd09f0f41               // setg    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd39f0f41               // setg    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd79f0f41               // setg    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x24549f0f; BYTE $0x05   // setg    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x24549f0f; BYTE $0x06   // setg    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x24549f0f; BYTE $0x07   // setg    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x9f0f; BYTE $0xd3       // setg    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x24549f0f; BYTE $0x0a   // setg    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd29f0f41               // setg    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd69f0f41               // setg    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd49f0f41               // setg    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x24549f0f; BYTE $0x08   // setg    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x24549f0f; BYTE $0x0b   // setg    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x24549f0f; BYTE $0x0c   // setg    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd19f0f41               // setg    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x24549f0f; BYTE $0x13   // setg    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x24549f0f; BYTE $0x0d   // setg    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x24549f0f; BYTE $0x0e   // setg    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x24549f0f; BYTE $0x0f   // setg    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x24549f0f; BYTE $0x10   // setg    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x24549f0f; BYTE $0x12   // setg    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x24549f0f; BYTE $0x11   // setg    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd79f0f40               // setg    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB6_85
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB6_87:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_89:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
+	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_89
+	JMP  LBB6_123
+
+LBB6_101:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_105
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_103:
+	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd29f0f41             // setg    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_103
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_105:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_109
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB6_107:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x24549f0f; BYTE $0x14               // setg    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x24549f0f; BYTE $0x15               // setg    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x24549f0f; BYTE $0x16               // setg    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x24549f0f; BYTE $0x17               // setg    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd59f0f41                           // setg    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x24549f0f; BYTE $0x09               // setg    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd09f0f41                           // setg    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x24549f0f; BYTE $0x05               // setg    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x24549f0f; BYTE $0x06               // setg    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x24549f0f; BYTE $0x07               // setg    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x24549f0f; BYTE $0x0a               // setg    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x24549f0f; BYTE $0x0b               // setg    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x24549f0f; BYTE $0x0c               // setg    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x24549f0f; BYTE $0x13               // setg    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x24549f0f; BYTE $0x0d               // setg    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x24549f0f; BYTE $0x0e               // setg    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x24549f0f; BYTE $0x0f               // setg    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x24549f0f; BYTE $0x12               // setg    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x24549f0f; BYTE $0x11               // setg    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB6_107
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB6_109:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_111:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
+	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_111
+	JMP  LBB6_123
+
+LBB6_112:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_116
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_114:
+	LONG $0x0610fac5             // vmovss    xmm0, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
+	LONG $0xd2970f41             // seta    r10b
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_114
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_116:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_120
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB6_118:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x0610fac5                           // vmovss    xmm0, dword [rsi]
+	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	LONG $0x4610fac5; BYTE $0x04               // vmovss    xmm0, dword [rsi + 4]
+	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x4610fac5; BYTE $0x08               // vmovss    xmm0, dword [rsi + 8]
+	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
+	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
+	LONG $0x4610fac5; BYTE $0x0c               // vmovss    xmm0, dword [rsi + 12]
+	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
+	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
+	LONG $0x4610fac5; BYTE $0x10               // vmovss    xmm0, dword [rsi + 16]
+	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
+	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
+	LONG $0x4610fac5; BYTE $0x14               // vmovss    xmm0, dword [rsi + 20]
+	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
+	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
+	LONG $0x4610fac5; BYTE $0x18               // vmovss    xmm0, dword [rsi + 24]
+	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x4610fac5; BYTE $0x1c               // vmovss    xmm0, dword [rsi + 28]
+	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x4610fac5; BYTE $0x20               // vmovss    xmm0, dword [rsi + 32]
+	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x4610fac5; BYTE $0x24               // vmovss    xmm0, dword [rsi + 36]
+	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x4610fac5; BYTE $0x28               // vmovss    xmm0, dword [rsi + 40]
+	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x4610fac5; BYTE $0x2c               // vmovss    xmm0, dword [rsi + 44]
+	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x4610fac5; BYTE $0x30               // vmovss    xmm0, dword [rsi + 48]
+	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x4610fac5; BYTE $0x34               // vmovss    xmm0, dword [rsi + 52]
+	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
+	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
+	LONG $0x4610fac5; BYTE $0x38               // vmovss    xmm0, dword [rsi + 56]
+	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
+	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
+	LONG $0x4610fac5; BYTE $0x3c               // vmovss    xmm0, dword [rsi + 60]
+	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	LONG $0x4610fac5; BYTE $0x40               // vmovss    xmm0, dword [rsi + 64]
+	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
+	LONG $0x4610fac5; BYTE $0x44               // vmovss    xmm0, dword [rsi + 68]
+	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x4610fac5; BYTE $0x48               // vmovss    xmm0, dword [rsi + 72]
+	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
+	LONG $0xd5970f41                           // seta    r13b
+	LONG $0x4610fac5; BYTE $0x4c               // vmovss    xmm0, dword [rsi + 76]
+	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
+	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
+	LONG $0x4610fac5; BYTE $0x50               // vmovss    xmm0, dword [rsi + 80]
+	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
+	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
+	LONG $0x4610fac5; BYTE $0x54               // vmovss    xmm0, dword [rsi + 84]
+	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
+	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
+	LONG $0x4610fac5; BYTE $0x58               // vmovss    xmm0, dword [rsi + 88]
+	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
+	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
+	LONG $0x4610fac5; BYTE $0x5c               // vmovss    xmm0, dword [rsi + 92]
+	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x4610fac5; BYTE $0x60               // vmovss    xmm0, dword [rsi + 96]
+	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
+	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
+	LONG $0x4610fac5; BYTE $0x64               // vmovss    xmm0, dword [rsi + 100]
+	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
+	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
+	LONG $0x4610fac5; BYTE $0x68               // vmovss    xmm0, dword [rsi + 104]
+	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
+	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
+	LONG $0x4610fac5; BYTE $0x6c               // vmovss    xmm0, dword [rsi + 108]
+	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x4610fac5; BYTE $0x70               // vmovss    xmm0, dword [rsi + 112]
+	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
+	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
+	LONG $0x4610fac5; BYTE $0x74               // vmovss    xmm0, dword [rsi + 116]
+	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
+	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
+	LONG $0x4610fac5; BYTE $0x78               // vmovss    xmm0, dword [rsi + 120]
+	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
+	LONG $0x4610fac5; BYTE $0x7c               // vmovss    xmm0, dword [rsi + 124]
+	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
+	LONG $0xd0970f41                           // seta    r8b
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x04244c02                           // add    cl, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	LONG $0x247c0240; BYTE $0x08               // add    dil, byte [rsp + 8]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e2c041                           // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0xcf89                               // mov    edi, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x07               // movzx    edi, byte [rsp + 7]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0e               // add    r12b, byte [rsp + 14]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x13               // movzx    eax, byte [rsp + 19]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB6_118
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB6_120:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_122:
+	LONG $0x0410fac5; BYTE $0x8e // vmovss    xmm0, dword [rsi + 4*rcx]
+	LONG $0x042ef8c5; BYTE $0x8a // vucomiss    xmm0, dword [rdx + 4*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x970f; BYTE $0xd3     // seta    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_122
+	JMP  LBB6_123
+
+LBB6_57:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_61
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_59:
+	WORD $0xb60f; BYTE $0x0a     // movzx    ecx, byte [rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x0e3a                 // cmp    cl, byte [rsi]
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
+	LONG $0x07588d48             // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd8490f48             // cmovns    rbx, rax
+	LONG $0x03fbc148             // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
+	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_59
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_61:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_65
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB6_63:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x2454970f; BYTE $0x04   // seta    byte [rsp + 4]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	LONG $0xd5970f41               // seta    r13b
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	LONG $0x2454970f; BYTE $0x14   // seta    byte [rsp + 20]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x2454970f; BYTE $0x16   // seta    byte [rsp + 22]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	LONG $0x2454970f; BYTE $0x15   // seta    byte [rsp + 21]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x2454970f; BYTE $0x17   // seta    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	LONG $0x2454970f; BYTE $0x28   // seta    byte [rsp + 40]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd7970f41               // seta    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	LONG $0x2454970f; BYTE $0x07   // seta    byte [rsp + 7]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	WORD $0x970f; BYTE $0xd1       // seta    cl
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	LONG $0xd1970f41               // seta    r9b
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd3970f41               // seta    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	LONG $0xd2970f41               // seta    r10b
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x2454970f; BYTE $0x06   // seta    byte [rsp + 6]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	LONG $0x2454970f; BYTE $0x05   // seta    byte [rsp + 5]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x970f; BYTE $0xd3       // seta    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	LONG $0x2454970f; BYTE $0x0c   // seta    byte [rsp + 12]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd4970f41               // seta    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	LONG $0xd6970f41               // seta    r14b
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x2454970f; BYTE $0x09   // seta    byte [rsp + 9]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	LONG $0x2454970f; BYTE $0x08   // seta    byte [rsp + 8]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x2454970f; BYTE $0x0b   // seta    byte [rsp + 11]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	LONG $0x2454970f; BYTE $0x0a   // seta    byte [rsp + 10]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd0970f41               // seta    r8b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	LONG $0x2454970f; BYTE $0x12   // seta    byte [rsp + 18]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x2454970f; BYTE $0x0e   // seta    byte [rsp + 14]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	LONG $0x2454970f; BYTE $0x0d   // seta    byte [rsp + 13]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x2454970f; BYTE $0x10   // seta    byte [rsp + 16]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	LONG $0x2454970f; BYTE $0x0f   // seta    byte [rsp + 15]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x2454970f; BYTE $0x11   // seta    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x2454970f; BYTE $0x13   // seta    byte [rsp + 19]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd7970f40               // seta    dil
+	WORD $0x0045; BYTE $0xed       // add    r13b, r13b
+	LONG $0x246c0244; BYTE $0x04   // add    r13b, byte [rsp + 4]
+	WORD $0x8944; BYTE $0xe8       // mov    eax, r13d
+	LONG $0x6cb60f44; WORD $0x2824 // movzx    r13d, byte [rsp + 40]
+	LONG $0x06e5c041               // shl    r13b, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef       // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x1424 // movzx    r13d, byte [rsp + 20]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	WORD $0x8944; BYTE $0xe8       // mov    eax, r13d
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x07244c02               // add    cl, byte [rsp + 7]
+	LONG $0x6cb60f44; WORD $0x1624 // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041               // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x02e1c041               // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd       // mov    r13d, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb       // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
+	LONG $0x04e2c041               // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda       // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xd0       // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0524 // movzx    r9d, byte [rsp + 5]
+	LONG $0x06e1c041               // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb       // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0c   // add    r12b, byte [rsp + 12]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xe6       // or    r14b, r12b
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x244cb60f; BYTE $0x08   // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0a   // movzx    ecx, byte [rsp + 10]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xc000                   // add    al, al
+	LONG $0x12244402               // add    al, byte [rsp + 18]
+	LONG $0x244cb60f; BYTE $0x0d   // movzx    ecx, byte [rsp + 13]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x0f   // movzx    ecx, byte [rsp + 15]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0xc108                   // or    cl, al
+	LONG $0x2444b60f; BYTE $0x13   // movzx    eax, byte [rsp + 19]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	LONG $0x02468845               // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB6_63
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB6_65:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_67:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0a1cb60f             // movzx    ebx, byte [rdx + rcx]
+	WORD $0x1c3a; BYTE $0x0e     // cmp    bl, byte [rsi + rcx]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_67
+	JMP  LBB6_123
+
+LBB6_90:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_94
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_92:
+	WORD $0x0e8b                 // mov    ecx, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd29f0f41             // setg    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_92
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_94:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_98
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB6_96:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x24549f0f; BYTE $0x14               // setg    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x24549f0f; BYTE $0x15               // setg    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x24549f0f; BYTE $0x16               // setg    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x24549f0f; BYTE $0x17               // setg    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd59f0f41                           // setg    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x24549f0f; BYTE $0x09               // setg    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd09f0f41                           // setg    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd39f0f41                           // setg    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd79f0f41                           // setg    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x24549f0f; BYTE $0x05               // setg    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x24549f0f; BYTE $0x06               // setg    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x24549f0f; BYTE $0x07               // setg    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x24549f0f; BYTE $0x0a               // setg    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd29f0f41                           // setg    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd69f0f41                           // setg    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd49f0f41                           // setg    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x24549f0f; BYTE $0x0b               // setg    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x24549f0f; BYTE $0x0c               // setg    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd19f0f41                           // setg    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x24549f0f; BYTE $0x13               // setg    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x24549f0f; BYTE $0x0d               // setg    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x24549f0f; BYTE $0x0e               // setg    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x24549f0f; BYTE $0x0f               // setg    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x24549f0f; BYTE $0x12               // setg    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x24549f0f; BYTE $0x11               // setg    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB6_96
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB6_98:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_100:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_100
+
+LBB6_123:
+	SUBQ $8, SP
+	RET
+
+DATA LCDATA5<>+0x000(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x008(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x010(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x018(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x020(SB)/8, $0x0404040404040404
+DATA LCDATA5<>+0x028(SB)/8, $0x0404040404040404
+DATA LCDATA5<>+0x030(SB)/8, $0x0404040404040404
+DATA LCDATA5<>+0x038(SB)/8, $0x0404040404040404
+DATA LCDATA5<>+0x040(SB)/8, $0x0808080808080808
+DATA LCDATA5<>+0x048(SB)/8, $0x0808080808080808
+DATA LCDATA5<>+0x050(SB)/8, $0x0808080808080808
+DATA LCDATA5<>+0x058(SB)/8, $0x0808080808080808
+DATA LCDATA5<>+0x060(SB)/8, $0x1010101010101010
+DATA LCDATA5<>+0x068(SB)/8, $0x1010101010101010
+DATA LCDATA5<>+0x070(SB)/8, $0x1010101010101010
+DATA LCDATA5<>+0x078(SB)/8, $0x1010101010101010
+DATA LCDATA5<>+0x080(SB)/8, $0x2020202020202020
+DATA LCDATA5<>+0x088(SB)/8, $0x2020202020202020
+DATA LCDATA5<>+0x090(SB)/8, $0x2020202020202020
+DATA LCDATA5<>+0x098(SB)/8, $0x2020202020202020
+DATA LCDATA5<>+0x0a0(SB)/8, $0x4040404040404040
+DATA LCDATA5<>+0x0a8(SB)/8, $0x4040404040404040
+DATA LCDATA5<>+0x0b0(SB)/8, $0x4040404040404040
+DATA LCDATA5<>+0x0b8(SB)/8, $0x4040404040404040
+DATA LCDATA5<>+0x0c0(SB)/8, $0x8080808080808080
+DATA LCDATA5<>+0x0c8(SB)/8, $0x8080808080808080
+DATA LCDATA5<>+0x0d0(SB)/8, $0x8080808080808080
+DATA LCDATA5<>+0x0d8(SB)/8, $0x8080808080808080
+GLOBL LCDATA5<>(SB), 8, $224
+
+TEXT ·_comparison_greater_arr_scalar_avx2(SB), $1384-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $32, SP
+	ANDQ $-32, SP
+	MOVQ BP, 1344(SP)
+	LEAQ LCDATA5<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB7_19
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB7_2
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB7_79
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB7_95
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB7_192
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_17
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_15:
+	WORD $0x3b44; BYTE $0x2e                   // cmp    r13d, dword [rsi]
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0xd219                               // sbb    edx, edx
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB7_15
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB7_17:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB7_18
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
+	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
+
+LBB7_113:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x970f; BYTE $0xd2                   // seta    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd0970f41                           // seta    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x40245402                           // add    dl, byte [rsp + 64]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB7_113
+	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB7_116
+	JMP  LBB7_192
+
+LBB7_19:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB7_20
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB7_148
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB7_164
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB7_192
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_35
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_33:
+	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0xd219                 // sbb    edx, edx
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB7_33
+	LONG $0x01c38349             // add    r11, 1
+
+LBB7_35:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB7_36
+	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
+	QUAD $0x0000008824bc894c     // mov    qword [rsp + 136], r15
+	LONG $0x247c894c; BYTE $0x78 // mov    qword [rsp + 120], r15
+	QUAD $0x000000f0249c894c     // mov    qword [rsp + 240], r11
+
+LBB7_181:
+	LONG $0x062ef9c5                           // vucomisd    xmm0, qword [rsi]
+	QUAD $0x000000802494920f                   // setb    byte [rsp + 128]
+	LONG $0x462ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rsi + 8]
+	LONG $0xd1920f41                           // setb    r9b
+	LONG $0x462ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rsi + 16]
+	LONG $0xd6920f41                           // setb    r14b
+	LONG $0x462ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rsi + 24]
+	LONG $0xd5920f41                           // setb    r13b
+	LONG $0x462ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rsi + 32]
+	LONG $0x2454920f; BYTE $0x58               // setb    byte [rsp + 88]
+	LONG $0x462ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rsi + 40]
+	LONG $0x2454920f; BYTE $0x30               // setb    byte [rsp + 48]
+	LONG $0x462ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rsi + 48]
+	WORD $0x920f; BYTE $0xd0                   // setb    al
+	LONG $0x462ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rsi + 56]
+	WORD $0x920f; BYTE $0xd3                   // setb    bl
+	LONG $0x462ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rsi + 64]
+	LONG $0x2454920f; BYTE $0x70               // setb    byte [rsp + 112]
+	LONG $0x462ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rsi + 72]
+	WORD $0x920f; BYTE $0xd2                   // setb    dl
+	LONG $0x462ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rsi + 80]
+	LONG $0xd7920f40                           // setb    dil
+	LONG $0x462ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rsi + 88]
+	LONG $0xd2920f41                           // setb    r10b
+	LONG $0x462ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rsi + 96]
+	LONG $0xd3920f41                           // setb    r11b
+	LONG $0x462ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rsi + 104]
+	LONG $0xd4920f41                           // setb    r12b
+	LONG $0x462ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rsi + 112]
+	LONG $0x2454920f; BYTE $0x48               // setb    byte [rsp + 72]
+	LONG $0x462ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rsi + 120]
+	WORD $0x920f; BYTE $0xd1                   // setb    cl
+	QUAD $0x00000080862ef9c5                   // vucomisd    xmm0, qword [rsi + 128]
+	LONG $0x2454920f; BYTE $0x40               // setb    byte [rsp + 64]
+	QUAD $0x00000088862ef9c5                   // vucomisd    xmm0, qword [rsi + 136]
+	LONG $0x2454920f; BYTE $0x68               // setb    byte [rsp + 104]
+	QUAD $0x00000090862ef9c5                   // vucomisd    xmm0, qword [rsi + 144]
+	LONG $0x2454920f; BYTE $0x50               // setb    byte [rsp + 80]
+	QUAD $0x00000098862ef9c5                   // vucomisd    xmm0, qword [rsi + 152]
+	LONG $0x2454920f; BYTE $0x60               // setb    byte [rsp + 96]
+	QUAD $0x000000a0862ef9c5                   // vucomisd    xmm0, qword [rsi + 160]
+	LONG $0x2454920f; BYTE $0x28               // setb    byte [rsp + 40]
+	QUAD $0x000000a8862ef9c5                   // vucomisd    xmm0, qword [rsi + 168]
+	LONG $0x2454920f; BYTE $0x38               // setb    byte [rsp + 56]
+	QUAD $0x000000b0862ef9c5                   // vucomisd    xmm0, qword [rsi + 176]
+	LONG $0x2454920f; BYTE $0x18               // setb    byte [rsp + 24]
+	QUAD $0x000000b8862ef9c5                   // vucomisd    xmm0, qword [rsi + 184]
+	LONG $0xd7920f41                           // setb    r15b
+	QUAD $0x000000c0862ef9c5                   // vucomisd    xmm0, qword [rsi + 192]
+	QUAD $0x000001402494920f                   // setb    byte [rsp + 320]
+	QUAD $0x000000c8862ef9c5                   // vucomisd    xmm0, qword [rsi + 200]
+	LONG $0x2454920f; BYTE $0x20               // setb    byte [rsp + 32]
+	QUAD $0x000000d0862ef9c5                   // vucomisd    xmm0, qword [rsi + 208]
+	LONG $0x2454920f; BYTE $0x10               // setb    byte [rsp + 16]
+	QUAD $0x000000d8862ef9c5                   // vucomisd    xmm0, qword [rsi + 216]
+	LONG $0x2454920f; BYTE $0x08               // setb    byte [rsp + 8]
+	QUAD $0x000000e0862ef9c5                   // vucomisd    xmm0, qword [rsi + 224]
+	QUAD $0x000001202494920f                   // setb    byte [rsp + 288]
+	QUAD $0x000000e8862ef9c5                   // vucomisd    xmm0, qword [rsi + 232]
+	QUAD $0x000001002494920f                   // setb    byte [rsp + 256]
+	QUAD $0x000000f0862ef9c5                   // vucomisd    xmm0, qword [rsi + 240]
+	LONG $0x2454920f; BYTE $0x04               // setb    byte [rsp + 4]
+	QUAD $0x000000f8862ef9c5                   // vucomisd    xmm0, qword [rsi + 248]
+	LONG $0xd0920f41                           // setb    r8b
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x00000080248c0244                   // add    r9b, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x70245402                           // add    dl, byte [rsp + 112]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x48               // movzx    edi, byte [rsp + 72]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40244402                           // add    al, byte [rsp + 64]
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
+	LONG $0x24448348; WORD $0xff78             // add    qword [rsp + 120], -1
+	JNE  LBB7_181
+	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB7_184
+	JMP  LBB7_192
+
+LBB7_2:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB7_37
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB7_192
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	LONG $0x1f6a8d4d         // lea    r13, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	WORD $0x894d; BYTE $0xd7 // mov    r15, r10
+	LONG $0xea490f4d         // cmovns    r13, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_8
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_6:
+	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0x9f0f; BYTE $0xd2     // setg    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB7_6
+	LONG $0x01c38349             // add    r11, 1
+
+LBB7_8:
+	LONG $0x05fdc149             // sar    r13, 5
+	LONG $0x20ff8349             // cmp    r15, 32
+	JL   LBB7_9
+	LONG $0x20fd8349             // cmp    r13, 32
+	LONG $0x24748944; BYTE $0x04 // mov    dword [rsp + 4], r14d
+	QUAD $0x000000f824bc894c     // mov    qword [rsp + 248], r15
+	QUAD $0x0000016824ac894c     // mov    qword [rsp + 360], r13
+	JB   LBB7_62
+	WORD $0x894c; BYTE $0xe8     // mov    rax, r13
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
+	JAE  LBB7_65
+	LONG $0xab048d4b             // lea    rax, [r11 + 4*r13]
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB7_65
+
+LBB7_62:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
+
+LBB7_68:
+	QUAD $0x0000018024ac2b4c     // sub    r13, qword [rsp + 384]
+	LONG $0x246c894c; BYTE $0x78 // mov    qword [rsp + 120], r13
+
+LBB7_69:
+	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
+	LONG $0x24343845                           // cmp    byte [r12], r14b
+	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
+	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
+	LONG $0xd09f0f41                           // setg    r8b
+	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
+	LONG $0xd59f0f41                           // setg    r13b
+	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
+	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
+	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
+	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
+	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
+	LONG $0xd69f0f40                           // setg    sil
+	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
+	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
+	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
+	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
+	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	QUAD $0x000000f024949f0f                   // setg    byte [rsp + 240]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x0000014024840244                   // add    r8b, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x20249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 288]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xc000                               // add    al, al
+	LONG $0x00248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 256]
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	QUAD $0x0000016024b48b48                   // mov    rsi, qword [rsp + 352]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x18               // movzx    edi, byte [rsp + 24]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xc000                               // add    al, al
+	LONG $0xf0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 240]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xd308                               // or    bl, dl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
+	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x0000016024b48948                   // mov    qword [rsp + 352], rsi
+	LONG $0x24448348; WORD $0xff78             // add    qword [rsp + 120], -1
+	JNE  LBB7_69
+	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
+	QUAD $0x0000016824ac8b4c                   // mov    r13, qword [rsp + 360]
+	JMP  LBB7_71
+
+LBB7_20:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB7_122
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB7_192
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_26
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_24:
+	WORD $0x3b4c; BYTE $0x2e                   // cmp    r13, qword [rsi]
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0xd219                               // sbb    edx, edx
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB7_24
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB7_26:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB7_27
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
+
+LBB7_139:
+	QUAD $0x000000f0249c894c                   // mov    qword [rsp + 240], r11
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x970f; BYTE $0xd2                   // seta    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd0970f41                           // seta    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x40245402                           // add    dl, byte [rsp + 64]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
+	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x04               // movzx    edx, byte [rsp + 4]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB7_139
+	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB7_142
+	JMP  LBB7_192
+
+LBB7_79:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_83
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_81:
+	LONG $0x2e3b4466                           // cmp    r13w, word [rsi]
+	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
+	WORD $0xd219                               // sbb    edx, edx
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB7_81
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB7_83:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB7_84
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
+	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
+
+LBB7_86:
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
+	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
+	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
+	WORD $0x970f; BYTE $0xd2                   // seta    dl
+	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
+	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
+	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
+	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
+	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
+	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
+	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
+	LONG $0xd0970f41                           // seta    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x48245402                           // add    dl, byte [rsp + 72]
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x68               // movzx    edi, byte [rsp + 104]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x40245402                           // add    dl, byte [rsp + 64]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB7_86
+	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB7_89
+	JMP  LBB7_192
+
+LBB7_95:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_99
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_97:
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB7_97
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB7_99:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB7_100
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
+	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
+
+LBB7_102:
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
+	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
+	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
+	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
+	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
+	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
+	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
+	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
+	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
+	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
+	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
+	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
+	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
+	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
+	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
+	LONG $0xd09f0f41                           // setg    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x40245402                           // add    dl, byte [rsp + 64]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB7_102
+	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB7_105
+	JMP  LBB7_192
+
+LBB7_148:
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_152
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_150:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB7_150
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB7_152:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB7_153
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
+	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
+
+LBB7_155:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd09f0f41                           // setg    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x40245402                           // add    dl, byte [rsp + 64]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB7_155
+	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB7_158
+	JMP  LBB7_192
+
+LBB7_164:
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_168
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_166:
+	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0xd219                 // sbb    edx, edx
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB7_166
+	LONG $0x01c38349             // add    r11, 1
+
+LBB7_168:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB7_169
+	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
+	QUAD $0x0000008824bc894c     // mov    qword [rsp + 136], r15
+	LONG $0x247c894c; BYTE $0x78 // mov    qword [rsp + 120], r15
+	QUAD $0x000000f0249c894c     // mov    qword [rsp + 240], r11
+
+LBB7_171:
+	LONG $0x062ef8c5                           // vucomiss    xmm0, dword [rsi]
+	QUAD $0x000000802494920f                   // setb    byte [rsp + 128]
+	LONG $0x462ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rsi + 4]
+	LONG $0xd1920f41                           // setb    r9b
+	LONG $0x462ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rsi + 8]
+	LONG $0xd6920f41                           // setb    r14b
+	LONG $0x462ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rsi + 12]
+	LONG $0xd5920f41                           // setb    r13b
+	LONG $0x462ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rsi + 16]
+	LONG $0x2454920f; BYTE $0x58               // setb    byte [rsp + 88]
+	LONG $0x462ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rsi + 20]
+	LONG $0x2454920f; BYTE $0x30               // setb    byte [rsp + 48]
+	LONG $0x462ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rsi + 24]
+	WORD $0x920f; BYTE $0xd0                   // setb    al
+	LONG $0x462ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rsi + 28]
+	WORD $0x920f; BYTE $0xd3                   // setb    bl
+	LONG $0x462ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rsi + 32]
+	LONG $0x2454920f; BYTE $0x70               // setb    byte [rsp + 112]
+	LONG $0x462ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rsi + 36]
+	WORD $0x920f; BYTE $0xd2                   // setb    dl
+	LONG $0x462ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rsi + 40]
+	LONG $0xd7920f40                           // setb    dil
+	LONG $0x462ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rsi + 44]
+	LONG $0xd2920f41                           // setb    r10b
+	LONG $0x462ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rsi + 48]
+	LONG $0xd3920f41                           // setb    r11b
+	LONG $0x462ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rsi + 52]
+	LONG $0xd4920f41                           // setb    r12b
+	LONG $0x462ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rsi + 56]
+	LONG $0x2454920f; BYTE $0x48               // setb    byte [rsp + 72]
+	LONG $0x462ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rsi + 60]
+	WORD $0x920f; BYTE $0xd1                   // setb    cl
+	LONG $0x462ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rsi + 64]
+	LONG $0x2454920f; BYTE $0x40               // setb    byte [rsp + 64]
+	LONG $0x462ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rsi + 68]
+	LONG $0x2454920f; BYTE $0x68               // setb    byte [rsp + 104]
+	LONG $0x462ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rsi + 72]
+	LONG $0x2454920f; BYTE $0x50               // setb    byte [rsp + 80]
+	LONG $0x462ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rsi + 76]
+	LONG $0x2454920f; BYTE $0x60               // setb    byte [rsp + 96]
+	LONG $0x462ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rsi + 80]
+	LONG $0x2454920f; BYTE $0x28               // setb    byte [rsp + 40]
+	LONG $0x462ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rsi + 84]
+	LONG $0x2454920f; BYTE $0x38               // setb    byte [rsp + 56]
+	LONG $0x462ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rsi + 88]
+	LONG $0x2454920f; BYTE $0x18               // setb    byte [rsp + 24]
+	LONG $0x462ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rsi + 92]
+	LONG $0xd7920f41                           // setb    r15b
+	LONG $0x462ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rsi + 96]
+	QUAD $0x000001402494920f                   // setb    byte [rsp + 320]
+	LONG $0x462ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rsi + 100]
+	LONG $0x2454920f; BYTE $0x20               // setb    byte [rsp + 32]
+	LONG $0x462ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rsi + 104]
+	LONG $0x2454920f; BYTE $0x10               // setb    byte [rsp + 16]
+	LONG $0x462ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rsi + 108]
+	LONG $0x2454920f; BYTE $0x08               // setb    byte [rsp + 8]
+	LONG $0x462ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rsi + 112]
+	QUAD $0x000001202494920f                   // setb    byte [rsp + 288]
+	LONG $0x462ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rsi + 116]
+	QUAD $0x000001002494920f                   // setb    byte [rsp + 256]
+	LONG $0x462ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rsi + 120]
+	LONG $0x2454920f; BYTE $0x04               // setb    byte [rsp + 4]
+	LONG $0x462ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rsi + 124]
+	LONG $0xd0920f41                           // setb    r8b
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x00000080248c0244                   // add    r9b, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x70245402                           // add    dl, byte [rsp + 112]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x48               // movzx    edi, byte [rsp + 72]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40244402                           // add    al, byte [rsp + 64]
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x04               // movzx    ebx, byte [rsp + 4]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
+	LONG $0x24448348; WORD $0xff78             // add    qword [rsp + 120], -1
+	JNE  LBB7_171
+	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB7_174
+	JMP  LBB7_192
+
+LBB7_37:
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_41
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_39:
+	WORD $0x3a44; BYTE $0x36     // cmp    r14b, byte [rsi]
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0xd219                 // sbb    edx, edx
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB7_39
+	LONG $0x01c38349             // add    r11, 1
+
+LBB7_41:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB7_42
+	LONG $0x20ff8349             // cmp    r15, 32
+	LONG $0x24748944; BYTE $0x04 // mov    dword [rsp + 4], r14d
+	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
+	QUAD $0x0000017824bc894c     // mov    qword [rsp + 376], r15
+	JB   LBB7_44
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
+	JAE  LBB7_47
+	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB7_47
+
+LBB7_44:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000016824848948 // mov    qword [rsp + 360], rax
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
+
+LBB7_50:
+	QUAD $0x0000016824bc2b4c     // sub    r15, qword [rsp + 360]
+	LONG $0x247c894c; BYTE $0x78 // mov    qword [rsp + 120], r15
+
+LBB7_51:
+	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
+	LONG $0x24343845                           // cmp    byte [r12], r14b
+	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
+	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
+	LONG $0xd5970f41                           // seta    r13b
+	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
+	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
+	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
+	WORD $0x970f; BYTE $0xd2                   // seta    dl
+	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
+	LONG $0xd6970f40                           // seta    sil
+	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
+	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
+	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
+	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
+	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	QUAD $0x000000f02494970f                   // seta    byte [rsp + 240]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x04245c8b                           // mov    ebx, dword [rsp + 4]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x0000014024840244                   // add    r8b, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x20249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 288]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xc000                               // add    al, al
+	LONG $0x00248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 256]
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	QUAD $0x0000016024b48b48                   // mov    rsi, qword [rsp + 352]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x18               // movzx    edi, byte [rsp + 24]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xc000                               // add    al, al
+	LONG $0xf0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 240]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x2454b60f; BYTE $0x10               // movzx    edx, byte [rsp + 16]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xd308                               // or    bl, dl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
+	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x0000016024b48948                   // mov    qword [rsp + 352], rsi
+	LONG $0x24448348; WORD $0xff78             // add    qword [rsp + 120], -1
+	JNE  LBB7_51
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000017824bc8b4c                   // mov    r15, qword [rsp + 376]
+	JMP  LBB7_53
+
+LBB7_122:
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_126
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_124:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB7_124
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB7_126:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB7_127
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
+
+LBB7_129:
+	QUAD $0x000000f0249c894c                   // mov    qword [rsp + 240], r11
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd09f0f41                           // setg    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	LONG $0x247c0240; BYTE $0x78               // add    dil, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x30               // movzx    edx, byte [rsp + 48]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	LONG $0x247cb60f; BYTE $0x70               // movzx    edi, byte [rsp + 112]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x40245402                           // add    dl, byte [rsp + 64]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x28               // movzx    edx, byte [rsp + 40]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
+	LONG $0x245cb60f; BYTE $0x18               // movzx    ebx, byte [rsp + 24]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x40248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 320]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x04               // movzx    edx, byte [rsp + 4]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB7_129
+	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB7_132
+	JMP  LBB7_192
+
+LBB7_18:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB7_192
+
+LBB7_116:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB7_120
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_118
+
+LBB7_36:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB7_192
+
+LBB7_184:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB7_186
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_188
+
+LBB7_9:
+	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+
+LBB7_71:
+	LONG $0x05e5c149         // shl    r13, 5
+	WORD $0x394d; BYTE $0xfd // cmp    r13, r15
+	JGE  LBB7_192
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xe8 // sub    r8, r13
+	WORD $0xf749; BYTE $0xd5 // not    r13
+	WORD $0x014d; BYTE $0xfd // add    r13, r15
+	JNE  LBB7_74
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB7_77
+
+LBB7_27:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB7_192
+
+LBB7_142:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB7_146
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_144
+
+LBB7_84:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB7_192
+
+LBB7_89:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB7_93
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_91
+
+LBB7_100:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB7_192
+
+LBB7_105:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB7_110
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_107
+
+LBB7_153:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB7_192
+
+LBB7_158:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB7_162
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_160
+
+LBB7_169:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB7_192
+
+LBB7_174:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB7_178
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_176
+
+LBB7_42:
+	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+
+LBB7_53:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB7_192
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB7_56
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB7_59
+
+LBB7_127:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB7_192
+
+LBB7_132:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB7_136
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_134
+
+LBB7_120:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB7_121:
+	WORD $0x3b44; BYTE $0x2e     // cmp    r13d, dword [rsi]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x17048841             // mov    byte [r15 + rdx], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3b44             // cmp    r13d, dword [rsi + 4]
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB7_121
+
+LBB7_118:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB7_192
+	WORD $0x3b44; BYTE $0x2e // cmp    r13d, dword [rsi]
+	JMP  LBB7_190
+
+LBB7_186:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB7_187:
+	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
+	WORD $0xc019                 // sbb    eax, eax
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x462ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rsi + 8]
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0xc019                 // sbb    eax, eax
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB7_187
+
+LBB7_188:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB7_192
+	LONG $0x062ef9c5 // vucomisd    xmm0, qword [rsi]
+	JMP  LBB7_190
+
+LBB7_74:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x00000160249c8b4c // mov    r11, qword [rsp + 352]
+
+LBB7_75:
+	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB7_75
+	WORD $0x0149; BYTE $0xf4     // add    r12, rsi
+
+LBB7_77:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB7_192
+	LONG $0x24343845         // cmp    byte [r12], r14b
+	WORD $0x9f0f; BYTE $0xd0 // setg    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	QUAD $0x0000016024848b4c // mov    r8, qword [rsp + 352]
+	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
+	JMP  LBB7_192
+
+LBB7_146:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB7_147:
+	WORD $0x3b4c; BYTE $0x2e     // cmp    r13, qword [rsi]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x17048841             // mov    byte [r15 + rdx], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e3b4c             // cmp    r13, qword [rsi + 8]
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB7_147
+
+LBB7_144:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB7_192
+	WORD $0x3b4c; BYTE $0x2e // cmp    r13, qword [rsi]
+	JMP  LBB7_190
+
+LBB7_93:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB7_94:
+	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x17048841             // mov    byte [r15 + rdx], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB7_94
+
+LBB7_91:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB7_192
+	LONG $0x2e3b4466 // cmp    r13w, word [rsi]
+	JMP  LBB7_190
+
+LBB7_110:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB7_111:
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB7_111
+
+LBB7_107:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB7_192
+	LONG $0x2e394466 // cmp    word [rsi], r13w
+	JMP  LBB7_109
+
+LBB7_162:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB7_163:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB7_163
+
+LBB7_160:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB7_192
+	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
+	JMP  LBB7_109
+
+LBB7_178:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB7_179:
+	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
+	WORD $0xc019                 // sbb    eax, eax
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x462ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rsi + 4]
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0xc019                 // sbb    eax, eax
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB7_179
+
+LBB7_176:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB7_192
+	LONG $0x062ef8c5 // vucomiss    xmm0, dword [rsi]
+
+LBB7_190:
+	WORD $0xc019             // sbb    eax, eax
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	JMP  LBB7_191
+
+LBB7_56:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000016024948b4c // mov    r10, qword [rsp + 352]
+
+LBB7_57:
+	LONG $0x04343a45             // cmp    r14b, byte [r12 + rax]
+	WORD $0xf619                 // sbb    esi, esi
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x1cb60f41; BYTE $0x3a // movzx    ebx, byte [r10 + rdi]
+	WORD $0x3040; BYTE $0xde     // xor    sil, bl
+	WORD $0x2040; BYTE $0xf2     // and    dl, sil
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3a148841             // mov    byte [r10 + rdi], dl
+	LONG $0x04743a45; BYTE $0x01 // cmp    r14b, byte [r12 + rax + 1]
+	LONG $0x02408d48             // lea    rax, [rax + 2]
+	WORD $0xf619                 // sbb    esi, esi
+	WORD $0x3040; BYTE $0xd6     // xor    sil, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xf3     // and    bl, sil
+	WORD $0xd330                 // xor    bl, dl
+	LONG $0x3a1c8841             // mov    byte [r10 + rdi], bl
+	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
+	JNE  LBB7_57
+	WORD $0x0149; BYTE $0xc4     // add    r12, rax
+
+LBB7_59:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB7_192
+	LONG $0x24343a45         // cmp    r14b, byte [r12]
+	WORD $0xd219             // sbb    edx, edx
+	WORD $0x8948; BYTE $0xc6 // mov    rsi, rax
+	LONG $0x03eec148         // shr    rsi, 3
+	QUAD $0x0000016024848b4c // mov    r8, qword [rsp + 352]
+	LONG $0x303c8a41         // mov    dil, byte [r8 + rsi]
+	WORD $0x0724             // and    al, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xfa // xor    dl, dil
+	WORD $0xd320             // and    bl, dl
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	JMP  LBB7_192
+
+LBB7_136:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB7_137:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB7_137
+
+LBB7_134:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB7_192
+	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
+
+LBB7_109:
+	WORD $0x9f0f; BYTE $0xd0 // setg    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+
+LBB7_191:
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
+
+LBB7_192:
+	MOVQ 1344(SP), SP
+	VZEROUPPER
+	RET
+
+LBB7_65:
+	LONG $0xe0e58349                     // and    r13, -32
+	WORD $0x894c; BYTE $0xe8             // mov    rax, r13
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000024024848948             // mov    qword [rsp + 576], rax
+	QUAD $0x0000018024ac894c             // mov    qword [rsp + 384], r13
+	LONG $0xab048d4b                     // lea    rax, [r11 + 4*r13]
+	QUAD $0x0000016024848948             // mov    qword [rsp + 352], rax
+	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00026024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 608], ymm0
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x000000f0249c894c             // mov    qword [rsp + 240], r11
+
+LBB7_66:
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0000017024848948                   // mov    qword [rsp + 368], rax
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	LONG $0x24448948; BYTE $0x18               // mov    qword [rsp + 24], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x1644b60f; BYTE $0x01               // movzx    eax, byte [rsi + rdx + 1]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x000220248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 544], xmm1
+	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
+	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
+	LONG $0xe86e79c5                           // vmovd    xmm13, eax
+	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
+	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
+	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
+	QUAD $0x000000d024948948                   // mov    qword [rsp + 208], rdx
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	QUAD $0x0000010024848948                   // mov    qword [rsp + 256], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
+	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
+	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
+	LONG $0x80cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 640
+	QUAD $0x0000009024bc894c                   // mov    qword [rsp + 144], r15
+	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
+	LONG $0xa0cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 672
+	QUAD $0x000000b8249c894c                   // mov    qword [rsp + 184], r11
+	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
+	LONG $0xc0c88149; WORD $0x0002; BYTE $0x00 // or    r8, 704
+	QUAD $0x000000882484894c                   // mov    qword [rsp + 136], r8
+	WORD $0x8948; BYTE $0xda                   // mov    rdx, rbx
+	LONG $0xe0ca8148; WORD $0x0002; BYTE $0x00 // or    rdx, 736
+	QUAD $0x000000b024948948                   // mov    qword [rsp + 176], rdx
+	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
+	LONG $0x00cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 768
+	QUAD $0x000000a024a4894c                   // mov    qword [rsp + 160], r12
+	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
+	LONG $0x20ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 800
+	QUAD $0x000000a824b4894c                   // mov    qword [rsp + 168], r14
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
+	LONG $0x2454894c; BYTE $0x28               // mov    qword [rsp + 40], r10
+	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
+	LONG $0x60c98149; WORD $0x0003; BYTE $0x00 // or    r9, 864
+	LONG $0x244c894c; BYTE $0x40               // mov    qword [rsp + 64], r9
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
+	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
+	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
+	LONG $0xa0cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 928
+	LONG $0x247c8948; BYTE $0x70               // mov    qword [rsp + 112], rdi
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x000000e0249c8948                   // mov    qword [rsp + 224], rbx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
+	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
+	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	LONG $0x2031e3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + rbx], 2
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
+	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 4
+	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 5
+	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + r8], 6
+	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 7
+	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 8
+	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 9
+	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r10], 10
+	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r9], 11
+	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
+	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r13], 12
+	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 13
+	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
+	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
+	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
+	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 1
+	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
+	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r12], 2
+	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
+	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 3
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 4
+	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
+	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 5
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 6
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 10
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x040116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 4
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x070116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 7
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x080116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 8
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
+	QUAD $0x0c012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 12
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
+	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
+	QUAD $0x0e012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 14
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
+	QUAD $0x0101366c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r14 + 1], 1
+	QUAD $0x0201266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 2
+	QUAD $0x0301166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 3
+	QUAD $0x04011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 4
+	QUAD $0x0501066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 5
+	QUAD $0x06010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 6
+	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
+	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
+	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
+	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
+	QUAD $0x0a011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 10
+	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 14
+	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x00050024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1280], ymm0
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xd76e79c5                           // vmovd    xmm10, edi
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x00022024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 544]
+	QUAD $0x010216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 1
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x02020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 2
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x060206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 6
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
+	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
+	QUAD $0x080226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 2], 8
+	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
+	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x0a020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 10
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
+	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
+	QUAD $0x0c0236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 12
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
+	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
+	QUAD $0x0602065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 2], 6
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
+	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
+	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x0b02065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 2], 11
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
+	QUAD $0x010316642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + rdx + 3], 1
+	QUAD $0x02030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 2
+	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x04030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 4
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x05030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 5
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x06030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 6
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x070306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 7
+	QUAD $0x080326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 8
+	QUAD $0x09032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 9
+	QUAD $0x0a030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 10
+	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
+	QUAD $0x0c0336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 12
+	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
+	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
+	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
+	QUAD $0x0e0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 14
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
+	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
+	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
+	QUAD $0x0303166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 3
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	QUAD $0x04033e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 3], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0603066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 6
+	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	QUAD $0x08031e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 3], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0903066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
+	LONG $0xc76e79c5                           // vmovd    xmm8, edi
+	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
+	QUAD $0x0f031e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 3], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
+	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
+	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x010406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 1
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x020406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 2
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x05040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 5
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x060406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 6
+	QUAD $0x070406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 7
+	QUAD $0x080426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 8
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x090406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 10
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0b0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 11
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0c0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 12
+	QUAD $0x0d0436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 4], 13
+	QUAD $0x0e0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 14
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x0f0426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 15
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0104065c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rsi + rax + 4], 1
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0204165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 2
+	QUAD $0x0304165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 3
+	QUAD $0x04043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 4
+	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
+	QUAD $0x0504165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 5
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x06043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 6
+	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
+	QUAD $0x0704365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 7
+	QUAD $0x08041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 8
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x09041e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 4], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 10
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x0b041e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 4], 11
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x0c04065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 13
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	QUAD $0x0e043e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 4], 14
+	QUAD $0x0f040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 15
+	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
+	QUAD $0x01050e642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r9 + 5], 1
+	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
+	QUAD $0x02053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 2
+	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
+	QUAD $0x03050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 3
+	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
+	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x06050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 6
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x07050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 7
+	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x080506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 8
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 10
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0b0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 11
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0c0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 12
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0d050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 13
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
+	QUAD $0x0f0526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 15
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0105066c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rax + 5], 1
+	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0405166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 4
+	QUAD $0x0505166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 5], 5
+	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
+	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
+	QUAD $0x0705366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 7
+	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
+	QUAD $0x0805366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 8
+	QUAD $0x09051e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 5], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
+	QUAD $0x0b051e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 5], 11
+	QUAD $0x0c05066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 5], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
+	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0506442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 5], 15
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x010606442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + rax + 6], 1
+	QUAD $0x02063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 2
+	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
+	QUAD $0x03060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 3
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x04061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 4
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x050616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 5
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x06061e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 6], 6
+	QUAD $0x07062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 7
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x08060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 8
+	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
+	QUAD $0x09062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 9
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0a060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 10
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0b060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 11
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x0c0626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 6], 12
+	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
+	QUAD $0x0d0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 13
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x0e060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 14
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0f060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 15
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x01060e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rcx + 6], 1
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x02060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 2
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
+	QUAD $0x0606166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 6], 6
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x07060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 7
+	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
+	QUAD $0x0806366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 9
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0b06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 11
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0c06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 12
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0d06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 13
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	QUAD $0x0e06166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 14
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	QUAD $0x0f06366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 15
+	QUAD $0x010706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 1
+	QUAD $0x02073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 2
+	QUAD $0x03070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 3
+	QUAD $0x04071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 4
+	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
+	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
+	QUAD $0x06071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 6
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+	QUAD $0x08071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 8
+	QUAD $0x09072e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 7], 9
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0a0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 10
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	QUAD $0x0b070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 11
+	QUAD $0x0c0726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 7], 12
+	QUAD $0x0d0706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 13
+	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
+	QUAD $0x0e0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 14
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0f0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 15
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x0107164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 1
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0207164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 2
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x0307164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 3
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0407164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 4
+	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0607164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 6
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	QUAD $0x07073e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 7], 7
+	QUAD $0x0807164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 7], 8
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0907164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 9
+	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x0b072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 11
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0c070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 13
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x00020024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm0
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x0e070e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rcx + 7], 14
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0f070e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 7], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0004e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm0
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x0e7cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rcx + 11]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x010806442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + rax + 8], 1
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x020826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 8], 2
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
+	QUAD $0x04081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 4
+	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
+	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x060806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 6
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x070816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 7
+	QUAD $0x08081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 8
+	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
+	QUAD $0x090806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 8], 9
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0a0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 10
+	QUAD $0x0b080e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 8], 11
+	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
+	QUAD $0x0c081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 12
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0d083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 13
+	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
+	QUAD $0x0e0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 14
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0f083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 15
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x0108166c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rdx + 8], 1
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	QUAD $0x0208366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 8], 2
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x03083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 3
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0608166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 6
+	QUAD $0x07083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 7
+	QUAD $0x0808166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 8], 8
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	QUAD $0x09080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 9
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0a083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 10
+	QUAD $0x0b082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 11
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0c08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 12
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0f082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 15
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x01092e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r13 + 9], 1
+	QUAD $0x020926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 2
+	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x04090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 4
+	QUAD $0x05091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 5
+	QUAD $0x060906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 6
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x070916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 7
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x080906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 8
+	QUAD $0x090906742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r8 + 9], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 10
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0b090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 11
+	QUAD $0x0c091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 13
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0f0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 15
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0109067c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rax + 9], 1
+	QUAD $0x0209367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 2
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
+	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
+	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0609067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0709067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 7
+	QUAD $0x0809167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 8
+	QUAD $0x09090e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 9], 9
+	QUAD $0x0a093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
+	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
+	QUAD $0x0d093e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 9], 13
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x0004a024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm5
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
+	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x020a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 2
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
+	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
+	QUAD $0x040a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 4
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x050a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 5
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x060a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 6
+	QUAD $0x070a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 7
+	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
+	QUAD $0x080a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 8
+	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
+	QUAD $0x090a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 10
+	QUAD $0x0b0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 11
+	QUAD $0x0c0a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 12
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0d0a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 13
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0e0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 14
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0f0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 15
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x010a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 1
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x020a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 2
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
+	QUAD $0x040a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x050a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 5
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x060a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x070a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 7
+	QUAD $0x080a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x0a0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 11
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x0c0a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 12
+	QUAD $0x0d0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 13
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	QUAD $0x0e0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 15
+	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
+	QUAD $0x020b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 2
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x030b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 3
+	QUAD $0x040b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 4
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	QUAD $0x050b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 5
+	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
+	QUAD $0x060b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 6
+	QUAD $0x070b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 7
+	WORD $0x8949; BYTE $0xd1                   // mov    r9, rdx
+	QUAD $0x080b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 8
+	QUAD $0x090b264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 11], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0b0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 11
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
+	QUAD $0x0d0b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 13
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
+	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
+	QUAD $0x0f0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 15
+	QUAD $0x010b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
+	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x040b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x050b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 5
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x060b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 6
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x070b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 7
+	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
+	QUAD $0x080b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x090b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 9
+	QUAD $0x0a0b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 10
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0b0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 11
+	QUAD $0x0c0b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000480249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm3
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x0e0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 14
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0f0b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000460248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x010c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 1
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x020c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 2
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x030c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 3
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x040c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 4
+	QUAD $0x050c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 5
+	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
+	QUAD $0x060c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 6
+	QUAD $0x070c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 7
+	QUAD $0x080c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 8
+	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
+	QUAD $0x090c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 9
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0a0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 10
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0b0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 11
+	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
+	QUAD $0x0c0c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 12
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0d0c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 12], 13
+	LONG $0x24748b4c; BYTE $0x08               // mov    r14, qword [rsp + 8]
+	QUAD $0x0e0c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 12], 14
+	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
+	QUAD $0x0f0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 15
+	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
+	QUAD $0x010c2e542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + r13 + 12], 1
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x030c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 3
+	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x050c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 5
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	QUAD $0x070c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 7
+	QUAD $0x080c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0a0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 10
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x0b0c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 11
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0c0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 13
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x0e0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 14
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0f0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 15
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x010d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 1
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x020d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 2
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x030d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 3
+	QUAD $0x040d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 4
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x050d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 5
+	QUAD $0x060d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 6
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x070d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 7
+	QUAD $0x080d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 8
+	QUAD $0x090d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 9
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x0a0d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 10
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0b0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 11
+	QUAD $0x0c0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 12
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x0d0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 13
+	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
+	QUAD $0x0f0d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 15
+	QUAD $0x010d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 1
+	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x030d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 3
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x040d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x050d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 5
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x060d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 6
+	QUAD $0x070d3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 13], 7
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x080d0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 13], 8
+	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 10
+	QUAD $0x0b0d264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 13], 11
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x0c0d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 13
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 14
+	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
+	QUAD $0x00044024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm0
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
+	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
+	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	LONG $0x7cb60f42; WORD $0x0e36             // movzx    edi, byte [rsi + r14 + 14]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x010e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 1
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x020e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 2
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x030e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 3
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x040e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 14], 4
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x060e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 6
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x090e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 9
+	QUAD $0x0a0e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 10
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+	QUAD $0x0b0e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 11
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0c0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 12
+	QUAD $0x0d0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 13
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0e0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0f0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 15
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x010e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x040e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x050e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 5
+	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
+	QUAD $0x060e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x070e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 7
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x090e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 9
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0a0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 10
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
+	QUAD $0x0c0e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 12
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0d0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 13
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
+	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
+	QUAD $0x020f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 2
+	QUAD $0x030f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 3
+	QUAD $0x040f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 4
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	QUAD $0x050f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 5
+	QUAD $0x060f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 6
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x070f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 7
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x080f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 8
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x090f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 9
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0a0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 10
+	QUAD $0x0b0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 11
+	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
+	QUAD $0x0c0f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 12
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0d0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 13
+	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
+	QUAD $0x0e0f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 14
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
+	LONG $0x7cb60f42; WORD $0x0f36             // movzx    edi, byte [rsi + r14 + 15]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x010f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 1
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
+	QUAD $0x040f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x050f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 5
+	QUAD $0x060f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 6
+	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
+	QUAD $0x070f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 7
+	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 10
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x0b0f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 13
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 14
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x0f0f3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 15], 15
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rax + 16]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x011036442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 16], 1
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x021006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 2
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x03101e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 16], 3
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x041006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 4
+	QUAD $0x05101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 5
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x06100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 6
+	QUAD $0x071016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 7
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x081016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 8
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x091006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 9
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0a101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 10
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0b1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 11
+	QUAD $0x0c102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 13
+	QUAD $0x0e1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	LONG $0x3e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdi + 16]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x01103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 1
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x02103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 2
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x03103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 3
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x04103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 4
+	QUAD $0x05100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 5
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x06100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 6
+	QUAD $0x0710164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 7
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x08100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 9
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0a103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 10
+	QUAD $0x0b10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 12
+	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
+	QUAD $0x0d10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 13
+	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
+	QUAD $0x0e102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 14
+	QUAD $0x0f103e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 16], 15
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	LONG $0x3e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rdi + 17]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 1
+	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
+	QUAD $0x021106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 2
+	QUAD $0x03111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 3
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x041116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 4
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x05113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 5
+	QUAD $0x06110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 6
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x07113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 7
+	QUAD $0x081116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 8
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x091116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 9
+	QUAD $0x0a111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 10
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x0b111e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 17], 11
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x0c1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 12
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0d1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 13
+	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
+	QUAD $0x0e1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 14
+	QUAD $0x0f1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
+	QUAD $0x0111365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 1
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x02113e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 17], 2
+	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
+	QUAD $0x03110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 3
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0411165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0511065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 5
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0611065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 6
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x07111e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 17], 7
+	QUAD $0x08110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 12
+	QUAD $0x0d11265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 13
+	QUAD $0x0e112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f1106442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 17], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x067cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rax + 18]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
+	QUAD $0x021206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 2
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x031206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 3
+	QUAD $0x041216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 4
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x051206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 5
+	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
+	QUAD $0x061206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 6
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x071206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 7
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x081206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 8
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x091206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 9
+	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
+	QUAD $0x0a1216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 10
+	QUAD $0x0b121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 11
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0e123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 14
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0f123e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 18], 15
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	LONG $0x3e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rdi + 18]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0112364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 1
+	QUAD $0x02123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 2
+	QUAD $0x03120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 3
+	QUAD $0x0412164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 4
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0512164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 5
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x0612364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 6
+	QUAD $0x07121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 7
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x0812164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 8
+	QUAD $0x09120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 9
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x0b123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 11
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0c12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 12
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0d123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 13
+	QUAD $0x0e122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 14
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0f121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 15
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x02133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 2
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x04133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 4
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	QUAD $0x05132e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 19], 5
+	QUAD $0x061306542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 19], 6
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
+	QUAD $0x091306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 9
+	QUAD $0x0a1316542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 19], 10
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0b1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 11
+	QUAD $0x0c1326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 12
+	QUAD $0x0d131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 13
+	LONG $0x244c8b4c; BYTE $0x08               // mov    r9, qword [rsp + 8]
+	QUAD $0x0e130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0f1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 15
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	LONG $0x7cb60f42; WORD $0x1316             // movzx    edi, byte [rsi + r10 + 19]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0113065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 1
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x0213065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 2
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0313065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0413065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0513065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 5
+	QUAD $0x0613365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0713065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 7
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0813065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0913065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 9
+	QUAD $0x0a130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 10
+	QUAD $0x0b133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 11
+	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 13
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 14
+	QUAD $0x0f131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	LONG $0x7cb60f42; WORD $0x141e             // movzx    edi, byte [rsi + r11 + 20]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x011406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 1
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x03143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 3
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x04143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 4
+	QUAD $0x05142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 5
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x06143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 6
+	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
+	QUAD $0x07142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 7
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x08143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 8
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x09143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 9
+	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
+	QUAD $0x0a1426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 10
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0b140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 11
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x0c143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 12
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0d143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 13
+	QUAD $0x0e140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 14
+	LONG $0x24748b4c; BYTE $0x10               // mov    r14, qword [rsp + 16]
+	QUAD $0x0f1436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 15
+	LONG $0x7cb60f42; WORD $0x1416             // movzx    edi, byte [rsi + r10 + 20]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x01141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 1
+	QUAD $0x0214064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 2
+	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
+	QUAD $0x0314064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 3
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x04143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 5
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x06143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 6
+	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
+	QUAD $0x0714164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 7
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 9
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0c140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 12
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x0e143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
+	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 1
+	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x041506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 4
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x051506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 5
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x061506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 6
+	QUAD $0x07152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 7
+	QUAD $0x08153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 8
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x091506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 9
+	QUAD $0x0a1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 10
+	QUAD $0x0b150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 11
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x0c1526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 13
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
+	QUAD $0x0f1536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 15
+	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
+	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x01151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
+	QUAD $0x0315065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 3
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x04150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0515065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 5
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0615065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 6
+	QUAD $0x0715165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 7
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	QUAD $0x08152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 9
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0a153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 10
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0b151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 11
+	QUAD $0x0c150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 12
+	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
+	QUAD $0x0d15065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 21], 13
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x0e153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x0f1516442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r10 + 21], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x02163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 2
+	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x041616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 4
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x061616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 6
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x071616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 7
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x081616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 8
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x091616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 9
+	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
+	QUAD $0x0a1636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 10
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
+	QUAD $0x0c1626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 12
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0d163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 13
+	LONG $0x244c8b4c; BYTE $0x08               // mov    r9, qword [rsp + 8]
+	QUAD $0x0e160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 14
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
+	LONG $0x7cb60f42; WORD $0x161e             // movzx    edi, byte [rsi + r11 + 22]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x02163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 2
+	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
+	QUAD $0x0316264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 3
+	QUAD $0x04160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x05160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 5
+	QUAD $0x0616064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 6
+	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
+	QUAD $0x07161e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 22], 7
+	QUAD $0x08162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0916064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 9
+	QUAD $0x0a163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 10
+	QUAD $0x0b161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 11
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0c163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 12
+	QUAD $0x0d16064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 22], 13
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x0e160e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 22], 14
+	QUAD $0x0f16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 15
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
+	QUAD $0x011716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 1
+	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
+	QUAD $0x021706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 2
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x03173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 3
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x04173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 4
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x05173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 5
+	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
+	QUAD $0x06172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 6
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x07173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 7
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x08173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 8
+	QUAD $0x091716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 9
+	QUAD $0x0a1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 10
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0b1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 11
+	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
+	QUAD $0x0c1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 12
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x0d171e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 23], 13
+	QUAD $0x0e170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 14
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0f1716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 15
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x01170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 1
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x02173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 2
+	QUAD $0x0317265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 3
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x04173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 5
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x06173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 6
+	QUAD $0x07171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 7
+	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
+	QUAD $0x0817265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 8
+	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0a171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
+	QUAD $0x0c173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 13
+	QUAD $0x0e170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 14
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0f170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 15
+	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 1
+	QUAD $0x021806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 2
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x031816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 3
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x04183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 4
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x05183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 5
+	QUAD $0x06182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 6
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x071806442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 24], 7
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x08183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 8
+	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
+	QUAD $0x09182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 9
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0a183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 10
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0b183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 11
+	QUAD $0x0c1836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 12
+	QUAD $0x0d181e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 24], 13
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0e183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 14
+	QUAD $0x0f1816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 24], 15
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	LONG $0x167cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdx + 24]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x01180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 1
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x02180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 2
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x03183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 3
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x04183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 5
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x06183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 6
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x07183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 7
+	QUAD $0x0818264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 9
+	QUAD $0x0a181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 10
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0b183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 11
+	QUAD $0x0c183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 12
+	QUAD $0x0d18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 13
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 14
+	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
+	QUAD $0x0f181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 15
+	LONG $0x0e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rcx + 25]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x011906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 1
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x02191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 2
+	QUAD $0x031916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 3
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
+	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
+	QUAD $0x051936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 5
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x061906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 6
+	QUAD $0x071906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 7
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x08190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 8
+	QUAD $0x09192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 9
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x0a193e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 25], 10
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x0b1906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 11
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0c1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 13
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0e1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0f1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 15
+	LONG $0x167cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdx + 25]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
+	QUAD $0x0119265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 1
+	QUAD $0x02190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 2
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0319065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0419065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0519065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 5
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x06192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 6
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0719065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 7
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0819065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 8
+	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
+	QUAD $0x0919165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b19065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 11
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0c19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 12
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0d19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 13
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	QUAD $0x0e19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 14
+	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
+	QUAD $0x0f191e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r11 + 25], 15
+	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	LONG $0x7cb60f42; WORD $0x1a1e             // movzx    edi, byte [rsi + r11 + 26]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
+	QUAD $0x021a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 2
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x031a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 3
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
+	QUAD $0x051a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 5
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x061a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 6
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x071a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 7
+	QUAD $0x081a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 8
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x091a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 9
+	QUAD $0x0a1a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 10
+	QUAD $0x0b1a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 11
+	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
+	QUAD $0x0c1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 12
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x0d1a3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 26], 13
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x0e1a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 14
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0f1a0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 26], 15
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x0e7cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rcx + 26]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 1
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x021a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 2
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x031a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 3
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x041a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 4
+	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
+	QUAD $0x051a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 5
+	QUAD $0x061a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 6
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x071a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 7
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	QUAD $0x081a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 8
+	QUAD $0x091a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 9
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0a1a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 10
+	QUAD $0x0b1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 12
+	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
+	QUAD $0x0d1a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 13
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 15
+	LONG $0x7cb60f42; WORD $0x1b1e             // movzx    edi, byte [rsi + r11 + 27]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x011b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 1
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x021b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 2
+	QUAD $0x031b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 3
+	QUAD $0x041b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 4
+	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
+	QUAD $0x051b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 5
+	QUAD $0x061b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 6
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x071b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 7
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x081b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 8
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x091b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 9
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0a1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 10
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0b1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 11
+	QUAD $0x0c1b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 12
+	QUAD $0x0d1b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 27], 13
+	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
+	QUAD $0x0e1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 14
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0f1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 15
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	LONG $0x167cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rdx + 27]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x011b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 1
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x021b0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 27], 2
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x031b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 3
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x041b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 4
+	QUAD $0x051b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 5
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x061b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 6
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x071b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 7
+	QUAD $0x081b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x091b3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 27], 9
+	QUAD $0x0a1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 10
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0b1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 11
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0c1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 12
+	QUAD $0x0d1b165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 27], 13
+	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
+	QUAD $0x0e1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 14
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0f1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	LONG $0x0e7cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rcx + 28]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 1
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x021c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 2
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x031c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 3
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x041c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 4
+	QUAD $0x051c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 5
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x061c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 6
+	QUAD $0x071c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 7
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x081c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 8
+	QUAD $0x091c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 10
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0b1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 11
+	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
+	QUAD $0x0c1c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d1c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 13
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0e1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 14
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0f1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 15
+	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
+	LONG $0x7cb60f42; WORD $0x1c26             // movzx    edi, byte [rsi + r12 + 28]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
+	QUAD $0x021c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 2
+	QUAD $0x031c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 3
+	QUAD $0x041c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 4
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	QUAD $0x051c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 5
+	QUAD $0x061c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 6
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	QUAD $0x071c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 7
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	QUAD $0x081c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 9
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x0a1c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 10
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x0b1c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 11
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0c1c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 13
+	QUAD $0x0e1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0f1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 15
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x011d2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 29], 1
+	QUAD $0x021d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 2
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x031d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 3
+	QUAD $0x041d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 4
+	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
+	QUAD $0x051d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 5
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x061d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 6
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x071d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 7
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x081d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 8
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0a1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 10
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0b1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 11
+	QUAD $0x0c1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 12
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0d1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 13
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0e1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 14
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0f1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 15
+	LONG $0x7cb60f42; WORD $0x1d26             // movzx    edi, byte [rsi + r12 + 29]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x011d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 1
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x021d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 2
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x031d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 3
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x041d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 4
+	QUAD $0x051d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 5
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x061d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 6
+	QUAD $0x071d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 7
+	QUAD $0x081d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 29], 8
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	QUAD $0x091d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 9
+	QUAD $0x0a1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 10
+	QUAD $0x0b1d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 11
+	QUAD $0x0c1d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 12
+	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
+	QUAD $0x0d1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 13
+	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
+	QUAD $0x0e1d16642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r10 + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f1d16442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + rdx + 29], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
+	LONG $0x7cb60f42; WORD $0x1e06             // movzx    edi, byte [rsi + r8 + 30]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 30], 1
+	LONG $0x7cb60f42; WORD $0x1f06             // movzx    edi, byte [rsi + r8 + 31]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011f2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 31], 1
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
+	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
+	QUAD $0x031e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 3
+	QUAD $0x031f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 3
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
+	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
+	QUAD $0x051e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 30], 5
+	QUAD $0x051f1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 31], 5
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
+	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
+	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
+	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
+	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 10
+	QUAD $0x0a1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 10
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
+	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
+	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0e1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 14
+	QUAD $0x0e1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
+	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x0e44b60f; BYTE $0x1e               // movzx    eax, byte [rsi + rcx + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x011e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 1
+	LONG $0x0e44b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rcx + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
+	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
+	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
+	QUAD $0x041e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 4
+	QUAD $0x041f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
+	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
+	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
+	QUAD $0x071e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 7
+	QUAD $0x071f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 7
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x081e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 8
+	QUAD $0x081f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 8
+	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
+	QUAD $0x091e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 9
+	QUAD $0x091f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
+	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
+	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
+	QUAD $0x0c1e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 12
+	QUAD $0x0c1f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
+	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
+	QUAD $0x0e1e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 14
+	QUAD $0x0e1f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 14
+	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
+	QUAD $0x0f1e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 30], 15
+	QUAD $0x0f1f167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00010024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 256], ymm0
+	QUAD $0x00026024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 608]
+	QUAD $0x000500248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 1280]
+	LONG $0xd064f5c5                           // vpcmpgtb    ymm2, ymm1, ymm0
+	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI7_0] */
+	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
+	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
+	LONG $0xf86485c5                           // vpcmpgtb    ymm7, ymm15, ymm0
+	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
+	QUAD $0x00022024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 544]
+	LONG $0xe0646dc5                           // vpcmpgtb    ymm12, ymm2, ymm0
+	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI7_1] */
+	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
+	QUAD $0x0001c024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 448]
+	LONG $0xf864edc5                           // vpcmpgtb    ymm7, ymm2, ymm0
+	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI7_2] */
+	LONG $0xfbdbc5c5                           // vpand    ymm7, ymm7, ymm3
+	LONG $0xe0640dc5                           // vpcmpgtb    ymm12, ymm14, ymm0
+	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI7_3] */
+	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x0001a024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 416]
+	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
+	QUAD $0x00000080956ffdc5                   // vmovdqa    ymm2, yword 128[rbp] /* [rip + .LCPI7_4] */
+	LONG $0xe2db1dc5                           // vpand    ymm12, ymm12, ymm2
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
+	QUAD $0x00020024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 512]
+	LONG $0xf864c5c5                           // vpcmpgtb    ymm7, ymm7, ymm0
+	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI7_5] */
+	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
+	QUAD $0x0004e024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1248]
+	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI7_6] */
+	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
+	QUAD $0x0004a024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 1184]
+	LONG $0xf864c5c5                           // vpcmpgtb    ymm7, ymm7, ymm0
+	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
+	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
+	QUAD $0x0004c0249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 1216]
+	LONG $0xe06425c5                           // vpcmpgtb    ymm12, ymm11, ymm0
+	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
+	QUAD $0x000480249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 1152]
+	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
+	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
+	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000460249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 1120]
+	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
+	LONG $0xdbdb25c5                           // vpand    ymm11, ymm11, ymm3
+	QUAD $0x00044024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1088]
+	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
+	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	QUAD $0x00042024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1056]
+	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
+	LONG $0xe2db1dc5                           // vpand    ymm12, ymm12, ymm2
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x0003e0249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 992]
+	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
+	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
+	QUAD $0x00040024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1024]
+	LONG $0xe0641dc5                           // vpcmpgtb    ymm12, ymm12, ymm0
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
+	QUAD $0x0003a024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 928]
+	LONG $0xf864c5c5                           // vpcmpgtb    ymm7, ymm7, ymm0
+	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
+	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
+	QUAD $0x0003c0249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 960]
+	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
+	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
+	QUAD $0x00036024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 864]
+	LONG $0xf0640dc5                           // vpcmpgtb    ymm14, ymm14, ymm0
+	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000380249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 896]
+	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
+	LONG $0xdbdb25c5                           // vpand    ymm11, ymm11, ymm3
+	QUAD $0x00032024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 800]
+	LONG $0xf0640dc5                           // vpcmpgtb    ymm14, ymm14, ymm0
+	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	QUAD $0x00034024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 832]
+	LONG $0xf0640dc5                           // vpcmpgtb    ymm14, ymm14, ymm0
+	LONG $0xf2db0dc5                           // vpand    ymm14, ymm14, ymm2
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	LONG $0xd0642dc5                           // vpcmpgtb    ymm10, ymm10, ymm0
+	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
+	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
+	QUAD $0x000300249c6f7dc5; BYTE $0x00       // vmovdqa    ymm11, yword [rsp + 768]
+	LONG $0xd86425c5                           // vpcmpgtb    ymm11, ymm11, ymm0
+	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
+	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
+	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
+	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
+	LONG $0xc0643dc5                           // vpcmpgtb    ymm8, ymm8, ymm0
+	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
+	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
+	LONG $0xc86435c5                           // vpcmpgtb    ymm9, ymm9, ymm0
+	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
+	QUAD $0x000280248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 640]
+	LONG $0xe864f5c5                           // vpcmpgtb    ymm5, ymm1, ymm0
+	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
+	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
+	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
+	QUAD $0x0002a0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 672]
+	LONG $0xf064f5c5                           // vpcmpgtb    ymm6, ymm1, ymm0
+	LONG $0xf3dbcdc5                           // vpand    ymm6, ymm6, ymm3
+	QUAD $0x0002e0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 736]
+	LONG $0xd864f5c5                           // vpcmpgtb    ymm3, ymm1, ymm0
+	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
+	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
+	QUAD $0x0002c0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 704]
+	LONG $0xe064f5c5                           // vpcmpgtb    ymm4, ymm1, ymm0
+	LONG $0xe2dbddc5                           // vpand    ymm4, ymm4, ymm2
+	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x000120248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 288]
+	LONG $0xc864f5c5                           // vpcmpgtb    ymm1, ymm1, ymm0
+	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
+	QUAD $0x00010024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 256]
+	LONG $0xd064edc5                           // vpcmpgtb    ymm2, ymm2, ymm0
+	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
+	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
+	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
+	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
+	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000170248c8b48                   // mov    rcx, qword [rsp + 368]
+	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
+	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
+	JNE  LBB7_66
+	QUAD $0x0000016824ac8b4c                   // mov    r13, qword [rsp + 360]
+	QUAD $0x0000018024ac3b4c                   // cmp    r13, qword [rsp + 384]
+	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
+	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
+	QUAD $0x0000024024a48b4c                   // mov    r12, qword [rsp + 576]
+	JNE  LBB7_68
+	JMP  LBB7_71
+
+LBB7_47:
+	LONG $0xe0e78349                     // and    r15, -32
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x000001f824848948             // mov    qword [rsp + 504], rax
+	QUAD $0x0000016824bc894c             // mov    qword [rsp + 360], r15
+	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
+	QUAD $0x0000016024848948             // mov    qword [rsp + 352], rax
+	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00024024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 576], ymm0
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x000000f0249c894c             // mov    qword [rsp + 240], r11
+	QUAD $0x00024024b46f7dc5; BYTE $0x00 // vmovdqa    ymm14, yword [rsp + 576]
+
+LBB7_48:
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0000017024848948                   // mov    qword [rsp + 368], rax
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	LONG $0x24448948; BYTE $0x18               // mov    qword [rsp + 24], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	QUAD $0x0000010024848948                   // mov    qword [rsp + 256], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x0e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rcx + 2]
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
+	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x000200248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 512], xmm1
+	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
+	LONG $0xe86e79c5                           // vmovd    xmm13, eax
+	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
+	LONG $0xf86e79c5                           // vmovd    xmm15, eax
+	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
+	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
+	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
+	QUAD $0x000000b824948948                   // mov    qword [rsp + 184], rdx
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	LONG $0x20cd8149; WORD $0x0002; BYTE $0x00 // or    r13, 544
+	LONG $0x246c894c; BYTE $0x38               // mov    qword [rsp + 56], r13
+	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
+	LONG $0x40cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 576
+	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
+	LONG $0x60ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 608
+	LONG $0x2474894c; BYTE $0x48               // mov    qword [rsp + 72], r14
+	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
+	LONG $0x80cf8149; WORD $0x0002; BYTE $0x00 // or    r15, 640
+	QUAD $0x000000a824bc894c                   // mov    qword [rsp + 168], r15
+	LONG $0xa0cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 672
+	QUAD $0x00000090249c8948                   // mov    qword [rsp + 144], rbx
+	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
+	LONG $0xc0cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 704
+	QUAD $0x000000c824a4894c                   // mov    qword [rsp + 200], r12
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
+	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
+	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
+	LONG $0x00c88149; WORD $0x0003; BYTE $0x00 // or    r8, 768
+	LONG $0x2444894c; BYTE $0x78               // mov    qword [rsp + 120], r8
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x03200d48; WORD $0x0000             // or    rax, 800
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	LONG $0x40c98149; WORD $0x0003; BYTE $0x00 // or    r9, 832
+	LONG $0x244c894c; BYTE $0x58               // mov    qword [rsp + 88], r9
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	LONG $0x60cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 864
+	QUAD $0x000000b024bc8948                   // mov    qword [rsp + 176], rdi
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0x80ca8148; WORD $0x0003; BYTE $0x00 // or    rdx, 896
+	QUAD $0x000000a024948948                   // mov    qword [rsp + 160], rdx
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	LONG $0xa0ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 928
+	QUAD $0x000000882494894c                   // mov    qword [rsp + 136], r10
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000e8248c8948                   // mov    qword [rsp + 232], rcx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
+	QUAD $0x000000d0248c8948                   // mov    qword [rsp + 208], rcx
+	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
+	LONG $0x245c894c; BYTE $0x50               // mov    qword [rsp + 80], r11
+	LONG $0x2031a3c4; WORD $0x1e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + r11], 2
+	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 3
+	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 4
+	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 5
+	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 6
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 7
+	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r8], 8
+	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
+	LONG $0x2079a3c4; WORD $0x2e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r13], 9
+	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r9], 10
+	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 11
+	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 12
+	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + r10], 13
+	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
+	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
+	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
+	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 1
+	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
+	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 2
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 3
+	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
+	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 5
+	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
+	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 6
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 7
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 10
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 12
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 13
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 14
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 15
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	LONG $0xd8da8dc5                           // vpminub    ymm3, ymm14, ymm0
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x01011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 1
+	QUAD $0x02011e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 1], 2
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x03011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 3
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x04011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 4
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x05011e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 1], 5
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x06011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 6
+	QUAD $0x070126642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 1], 7
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x08011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 8
+	QUAD $0x09012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 9
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0a011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 10
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x0b011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 11
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x0c011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 12
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x0d011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 13
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x0e012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 14
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x0f011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 15
+	QUAD $0x0101166c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r10 + 1], 1
+	QUAD $0x02010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 2
+	QUAD $0x03013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 3
+	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
+	QUAD $0x0401066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 4
+	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x05011e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 1], 5
+	QUAD $0x0601366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 1], 6
+	QUAD $0x0701166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 1], 7
+	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
+	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0a01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 10
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0b01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 11
+	QUAD $0x0c010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
+	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
+	QUAD $0x00050024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1280], ymm0
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 14
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f0106442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 1], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xd76e79c5                           // vmovd    xmm10, edi
+	QUAD $0x0001c024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 448]
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x010206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 1
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x020206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 2
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x030206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 3
+	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
+	QUAD $0x040226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 2], 4
+	QUAD $0x05021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 5
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x060216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 6
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x07020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 7
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x080206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 8
+	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
+	QUAD $0x09023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 10
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0b0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 11
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+	QUAD $0x0c021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 12
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0d0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0001a0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 416]
+	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x0202365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 2], 2
+	QUAD $0x0302165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 2], 3
+	QUAD $0x04022e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 2], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x05020e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 2], 5
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x06023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 6
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x0702165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 2], 7
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x08020e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 2], 8
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x09020e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 2], 9
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
+	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
+	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
+	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
+	QUAD $0x0c022e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 2], 12
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
+	QUAD $0x010306642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + r8 + 3], 1
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x02031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 2
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x03031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 3
+	QUAD $0x040326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 4
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x05032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 5
+	QUAD $0x060316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 6
+	QUAD $0x07030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 7
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x080316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 8
+	QUAD $0x09033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 9
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0a0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 10
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x0b0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 11
+	QUAD $0x0c031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 12
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x0d0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 13
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0e0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 14
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x0f0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 15
+	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
+	QUAD $0x0203366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 2
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0303166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 3], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
+	QUAD $0x06033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 6
+	QUAD $0x0703166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 7
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x0803166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 3], 8
+	QUAD $0x09030e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 3], 9
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 14
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 15
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
+	LONG $0xc76e79c5                           // vmovd    xmm8, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
+	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
+	QUAD $0x00020024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 512]
+	QUAD $0x010406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 1
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x020426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 4], 2
+	QUAD $0x03041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 3
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x04041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 4
+	QUAD $0x05042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 5
+	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
+	QUAD $0x060406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 6
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x07040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 7
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x08042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 8
+	QUAD $0x09043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 9
+	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
+	QUAD $0x0a040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 10
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x0b043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 11
+	QUAD $0x0c041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 12
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x0d041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 14
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0f0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 15
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0104065c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rsi + rax + 4], 1
+	QUAD $0x0204365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 2
+	QUAD $0x0304165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0404065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 5
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0604165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 6
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x07040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 7
+	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
+	QUAD $0x0804165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 8
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0904065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 9
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0a04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 10
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0b04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 11
+	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
+	QUAD $0x0c04165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 13
+	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
+	QUAD $0x0e04165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 4], 14
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 15
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x010506642001e3c4                   // vpinsrb    xmm4, xmm15, byte [rsi + rax + 5], 1
+	QUAD $0x020526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 2
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x030526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 3
+	QUAD $0x04051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 4
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x05051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 5
+	QUAD $0x060506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 6
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x070506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 7
+	QUAD $0x08052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
+	QUAD $0x0a050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 10
+	QUAD $0x0b053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 11
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x0c053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 12
+	QUAD $0x0d051e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 5], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0f0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 15
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	QUAD $0x01051e6c2049a3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + r11 + 5], 1
+	QUAD $0x0205366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 2
+	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x0305366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
+	QUAD $0x05053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 5
+	QUAD $0x0605166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 6
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0705166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 7
+	QUAD $0x08050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 8
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x09050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 9
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x0a050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 10
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x0b050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 11
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0c050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
+	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
+	QUAD $0x0e0516442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + r10 + 5], 14
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	LONG $0x0e7cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rcx + 10]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
+	QUAD $0x0f052e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 5], 15
+	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	LONG $0x0e7cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rcx + 10]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x010606442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + rax + 6], 1
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x020616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 2
+	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
+	QUAD $0x030626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 6], 3
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x04060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 4
+	QUAD $0x05061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 5
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x06060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 6
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x070626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 6], 7
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x08060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 8
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x09061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 9
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0a060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 10
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0b060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 11
+	QUAD $0x0c063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 12
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	QUAD $0x0d063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e0606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 14
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0f060e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 6], 15
+	QUAD $0x01061e6c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + r11 + 6], 1
+	QUAD $0x02060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 2
+	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
+	QUAD $0x0306366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 3
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x04063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0506066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 5
+	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
+	QUAD $0x06060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 6
+	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
+	QUAD $0x0706366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 7
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x0806166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 6], 8
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0906066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 9
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0a06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 10
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0b06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 14
+	QUAD $0x0f062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 15
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x010706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 1
+	QUAD $0x020716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 2
+	QUAD $0x030706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 3
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x040706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 4
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x050706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 5
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x060716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 6
+	QUAD $0x070726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 7], 7
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x080716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 8
+	QUAD $0x09071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 9
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0a0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 10
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x0b0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 11
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0c0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 12
+	QUAD $0x0d073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 13
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0e0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 14
+	QUAD $0x0f070e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 7], 15
+	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
+	QUAD $0x01073e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 7], 1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x02070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 2
+	QUAD $0x03071e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 7], 3
+	QUAD $0x04073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 4
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0507164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 5
+	QUAD $0x06070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 6
+	QUAD $0x0707364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 7], 7
+	QUAD $0x0807164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 7], 8
+	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0907064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 9
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0a07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 10
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0b07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x00020024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm0
+	QUAD $0x0f072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 15
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
+	QUAD $0x0004e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm1
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x010806542031a3c4                   // vpinsrb    xmm2, xmm9, byte [rsi + r8 + 8], 1
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x02080e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 8], 2
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x030806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 3
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x040806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 4
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x050806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 5
+	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
+	QUAD $0x060816542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 8], 6
+	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
+	QUAD $0x070826542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 8], 7
+	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
+	QUAD $0x080826542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 8], 8
+	QUAD $0x09081e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 8], 9
+	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
+	QUAD $0x0a082e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 8], 10
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x0b081e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 8], 11
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0c0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 12
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0d0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 14
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0f080e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 8], 15
+	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
+	QUAD $0x01083e6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + r15 + 8], 1
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x02083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 2
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x03083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 3
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
+	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x06083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 6
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x07083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 7
+	QUAD $0x0808366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 8], 8
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	QUAD $0x0908366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 8], 9
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	QUAD $0x0a08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 10
+	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
+	QUAD $0x0b08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 11
+	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
+	QUAD $0x0c083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 12
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x0f083e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 8], 15
+	LONG $0x3855e3c4; WORD $0x01d2             // vinserti128    ymm2, ymm5, xmm2, 1
+	LONG $0xeada8dc5                           // vpminub    ymm5, ymm14, ymm2
+	QUAD $0x010906742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r8 + 9], 1
+	QUAD $0x02090e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r9 + 9], 2
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x030916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 3
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	QUAD $0x04093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 4
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x050916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 5
+	QUAD $0x060916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 6
+	QUAD $0x07091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 7
+	QUAD $0x080926742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r12 + 9], 8
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x090916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 9
+	QUAD $0x0a092e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r13 + 9], 10
+	QUAD $0x0b091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 11
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x0c0916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 12
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x0d090e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r9 + 9], 13
+	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x0f0916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 15
+	QUAD $0x01090e7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rcx + 9], 1
+	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
+	QUAD $0x0209067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 9], 2
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0409067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x06091e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 9], 6
+	QUAD $0x07093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 7
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0809067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 8
+	QUAD $0x0909367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 9
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0a09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 10
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
+	LONG $0xd574edc5                           // vpcmpeqb    ymm2, ymm2, ymm5
+	QUAD $0x0004c024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm2
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x0004a024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x010a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 1
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x020a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 2
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
+	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
+	QUAD $0x040a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 4
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x050a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 5
+	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
+	QUAD $0x060a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 6
+	QUAD $0x070a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 7
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x080a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 8
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	QUAD $0x090a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 9
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0a0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 10
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0b0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 11
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x0c0a3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 10], 12
+	QUAD $0x0d0a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 13
+	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
+	QUAD $0x0e0a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 14
+	QUAD $0x0f0a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 15
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x010a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 1
+	QUAD $0x020a06642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 10], 2
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x040a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 4
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x050a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 5
+	QUAD $0x060a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 6
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x070a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 7
+	QUAD $0x000000d824848b4c                   // mov    r8, qword [rsp + 216]
+	QUAD $0x080a06642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 10], 8
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x090a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 9
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	QUAD $0x0a0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 10
+	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
+	QUAD $0x0b0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 11
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0c0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 12
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x0d0a3e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 10], 13
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x0e0a26642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 10], 14
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0f0a1e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 10], 15
+	QUAD $0x010b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 1
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x020b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 2
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x030b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 3
+	QUAD $0x040b2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 11], 4
+	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
+	QUAD $0x050b06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 11], 5
+	QUAD $0x060b36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 11], 6
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x070b36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 11], 7
+	QUAD $0x080b1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 11], 8
+	QUAD $0x090b16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 11], 9
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0a0b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 10
+	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
+	QUAD $0x0b0b2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 11], 11
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0c0b06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 11], 12
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0d0b06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 11], 13
+	QUAD $0x0e0b0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 11], 14
+	WORD $0x894d; BYTE $0xca                   // mov    r10, r9
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0f0b06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 11], 15
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x010b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 1
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x020b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 2
+	QUAD $0x030b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x040b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 4
+	QUAD $0x050b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 5
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x060b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 6
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x070b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 7
+	QUAD $0x080b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 8
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x090b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 9
+	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
+	QUAD $0x0a0b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 10
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0b0b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 11
+	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
+	QUAD $0x0c0b264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 11], 12
+	QUAD $0x0d0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000480249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm3
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e0b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 14
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	LONG $0x3e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rdi + 13]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0f0b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	LONG $0x3e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rdi + 13]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x010c3e4c2069e3c4                   // vpinsrb    xmm1, xmm2, byte [rsi + rdi + 12], 1
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x020c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 2
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x030c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 12], 3
+	QUAD $0x040c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 12], 4
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x050c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 5
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x060c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 6
+	QUAD $0x070c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 12], 7
+	QUAD $0x080c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 12], 8
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x090c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 9
+	QUAD $0x0a0c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 12], 10
+	WORD $0x894d; BYTE $0xe9                   // mov    r9, r13
+	QUAD $0x0b0c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 12], 11
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x0c0c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 12], 12
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0d0c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 12], 13
+	QUAD $0x0e0c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 12], 14
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	QUAD $0x0f0c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 12], 15
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x010c0e542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + rcx + 12], 1
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x030c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 3
+	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x050c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 5
+	QUAD $0x060c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 6
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x070c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 7
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x080c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 8
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
+	QUAD $0x0a0c06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 12], 10
+	LONG $0x24548b4c; BYTE $0x08               // mov    r10, qword [rsp + 8]
+	QUAD $0x0b0c16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 12], 11
+	QUAD $0x0c0c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 12
+	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
+	QUAD $0x0d0c06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 12], 13
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x0e0c26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 12], 14
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f0c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 15
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x010d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 1
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x020d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 2
+	QUAD $0x030d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 3
+	QUAD $0x040d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 4
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x050d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 5
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	QUAD $0x060d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 13], 6
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x070d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 7
+	QUAD $0x080d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 8
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x090d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 10
+	QUAD $0x0b0d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 11
+	QUAD $0x0c0d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 13], 12
+	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0d0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 14
+	QUAD $0x0f0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 15
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x010d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 1
+	QUAD $0x020d3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 13], 2
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x030d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x040d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 4
+	QUAD $0x050d0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 13], 5
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x060d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 6
+	QUAD $0x070d16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 13], 7
+	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
+	QUAD $0x080d2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 13], 8
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x090d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 9
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0a0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 10
+	QUAD $0x0b0d16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 13], 11
+	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 12
+	QUAD $0x0d0d06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 13], 13
+	QUAD $0x0e0d26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 13], 14
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000440248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 15
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x010e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 1
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x020e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 2
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x030e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 14], 3
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x040e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 4
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x050e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 5
+	QUAD $0x060e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 6
+	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
+	QUAD $0x070e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 7
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
+	QUAD $0x090e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 9
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0a0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 10
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0b0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 11
+	QUAD $0x0c0e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 12
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0d0e3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 14], 13
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x0e0e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 14
+	QUAD $0x0f0e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 14], 15
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x010e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 1
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x020e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 2
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x030e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 3
+	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
+	QUAD $0x040e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x050e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 5
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x060e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 6
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x070e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 7
+	QUAD $0x080e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 14], 8
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x090e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 14], 9
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x0a0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 10
+	QUAD $0x0b0e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 11
+	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
+	QUAD $0x0c0e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 14], 12
+	QUAD $0x0d0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x0f0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 15
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	LONG $0x3e7cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rdi + 15]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x010f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 1
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x020f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 2
+	QUAD $0x030f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 3
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+	QUAD $0x040f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 4
+	QUAD $0x050f16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 15], 5
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x060f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 6
+	QUAD $0x070f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 7
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x080f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x090f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 9
+	QUAD $0x0a0f1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 15], 10
+	QUAD $0x0b0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 11
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0c0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 12
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0d0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 13
+	QUAD $0x0e0f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 14
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0f0f06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 15], 15
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rax + 15]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x010f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x030f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 3
+	QUAD $0x040f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 4
+	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
+	QUAD $0x050f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 5
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x060f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 6
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x070f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 7
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x080f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 8
+	QUAD $0x090f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 9
+	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
+	QUAD $0x0a0f265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 15], 10
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0b0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 11
+	QUAD $0x0c0f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 12
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x0d0f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 14
+	QUAD $0x0f0f065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 15], 15
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	LONG $0x3e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdi + 16]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x01103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 1
+	QUAD $0x02102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 2
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x03103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 3
+	QUAD $0x041016442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 16], 4
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x051016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 5
+	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
+	QUAD $0x06102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 6
+	QUAD $0x07103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 7
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x081016442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 16], 8
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x09103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 9
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0a103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 10
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0b103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 11
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x0c103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 12
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0d103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 13
+	QUAD $0x0e101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 14
+	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
+	QUAD $0x0f1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 15
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	LONG $0x3e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdi + 16]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x01103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 1
+	QUAD $0x02100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 2
+	QUAD $0x03101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 3
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x04100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 4
+	QUAD $0x0510364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 5
+	QUAD $0x0610064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 6
+	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
+	QUAD $0x0710364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 7
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0810064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 8
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x09101e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 16], 9
+	QUAD $0x0a10264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 10
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0b10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 12
+	QUAD $0x0d100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 14
+	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
+	QUAD $0x0f101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 15
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	LONG $0x7cb60f42; WORD $0x113e             // movzx    edi, byte [rsi + r15 + 17]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x01110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 1
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x02110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 2
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x03110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 3
+	QUAD $0x041116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 4
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x05110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 5
+	QUAD $0x06112e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 17], 6
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x07110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 7
+	QUAD $0x081116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 8
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x09110e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 17], 9
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0a110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 10
+	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
+	QUAD $0x0b112e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 17], 11
+	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
+	QUAD $0x0c1116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 12
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x0d1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 13
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0e1116542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 17], 14
+	QUAD $0x0f1106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 15
+	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
+	LONG $0x7cb60f42; WORD $0x1126             // movzx    edi, byte [rsi + r12 + 17]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x0111165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 1
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x0211165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 2
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0311165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 3
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0411165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 4
+	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
+	QUAD $0x0511065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 17], 5
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x06113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 6
+	QUAD $0x0711365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 7
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x08113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 8
+	QUAD $0x09111e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 17], 9
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x0a113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 10
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0b113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 11
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0c113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 13
+	QUAD $0x0e11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0f111e4c2061a3c4                   // vpinsrb    xmm1, xmm3, byte [rsi + r11 + 17], 15
+	LONG $0xd8da8dc5                           // vpminub    ymm3, ymm14, ymm0
+	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
+	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
+	LONG $0x3875e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm1, xmm2, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	LONG $0x7cb60f42; WORD $0x123e             // movzx    edi, byte [rsi + r15 + 18]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x02121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 2
+	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
+	QUAD $0x031236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 3
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x041206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 4
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x05121e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 18], 5
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x061206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 6
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x071206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 7
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x081206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 8
+	QUAD $0x09120e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 18], 9
+	QUAD $0x0a120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 10
+	QUAD $0x0b122e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 18], 11
+	QUAD $0x0c1216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 12
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0d1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 14
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0f1206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 15
+	LONG $0x7cb60f42; WORD $0x1226             // movzx    edi, byte [rsi + r12 + 18]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0112064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 1
+	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
+	QUAD $0x0212264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 18], 2
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0312064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 3
+	QUAD $0x0412164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 4
+	QUAD $0x0512064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 5
+	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
+	QUAD $0x0612064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 6
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0712064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 7
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x0812164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 8
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0912064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 9
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0a12064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 10
+	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
+	QUAD $0x0b12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 11
+	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
+	QUAD $0x0c120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d12064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 18], 13
+	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
+	QUAD $0x0e123e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 18], 14
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0f120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 15
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
+	QUAD $0x02131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 2
+	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
+	QUAD $0x031336542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 19], 3
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x04131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 4
+	QUAD $0x05131e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 19], 5
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x06131e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 19], 6
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x09133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 9
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0a133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 10
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0b133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 11
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x0c1336542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 19], 12
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0d133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 13
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0e133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 14
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x0f133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 15
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x01133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 1
+	QUAD $0x0213265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 19], 2
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x03133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 3
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x04133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 5
+	QUAD $0x0613065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 6
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x07133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 7
+	QUAD $0x0813165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 8
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x09133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 9
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x0a133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 10
+	QUAD $0x0b13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 11
+	QUAD $0x0c130e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 19], 12
+	QUAD $0x0d13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 13
+	QUAD $0x0e133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	QUAD $0x0f130e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rcx + 19], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	LONG $0x067cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rax + 20]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x011416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 1
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x021406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 2
+	QUAD $0x03142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 3
+	QUAD $0x04141e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 20], 4
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x051406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 5
+	QUAD $0x06141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 6
+	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
+	QUAD $0x07143e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 20], 7
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x08141e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 20], 8
+	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
+	QUAD $0x091426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 10
+	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
+	QUAD $0x0b140e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 20], 11
+	QUAD $0x0c1436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 12
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x0d1436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 20], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 14
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0f1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 15
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	LONG $0x7cb60f42; WORD $0x1406             // movzx    edi, byte [rsi + r8 + 20]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
+	QUAD $0x0114164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x02140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 2
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x03141e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 20], 3
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x04140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x05140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 5
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x06140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 6
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x07140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 7
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x09143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 9
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0c143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 14
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	LONG $0x3e7cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rdi + 21]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 1
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x02152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 2
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x041516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 4
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x051516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 5
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x06153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 6
+	QUAD $0x07153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 7
+	QUAD $0x08151e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 21], 8
+	QUAD $0x091526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 9
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0a153e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 21], 10
+	QUAD $0x0b150e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 21], 11
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x0c153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 12
+	QUAD $0x0d1536542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 21], 13
+	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
+	QUAD $0x0e151e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 21], 14
+	QUAD $0x0f1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 15
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	LONG $0x7cb60f42; WORD $0x1506             // movzx    edi, byte [rsi + r8 + 21]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0115165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 1
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
+	QUAD $0x03151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0415065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 5
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x06153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 6
+	QUAD $0x07150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 7
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x0815265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 8
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x09150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 9
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	QUAD $0x0a151e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 21], 10
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x0b150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 11
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0c150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 12
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0d150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 13
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0e150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 14
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0f150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 15
+	LONG $0x387563c4; WORD $0x01d8             // vinserti128    ymm11, ymm1, xmm0, 1
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	LONG $0x0e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rcx + 22]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
+	QUAD $0x02162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 2
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x03163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 3
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x04163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 4
+	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
+	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
+	QUAD $0x06162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 6
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x071616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 7
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x081606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 8
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x09163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 9
+	QUAD $0x0a163e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 22], 10
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
+	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
+	QUAD $0x0c1616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 22], 12
+	QUAD $0x0d1636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 13
+	QUAD $0x0e161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 14
+	QUAD $0x0f160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 15
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
+	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
+	QUAD $0x02163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 2
+	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
+	QUAD $0x03160e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 22], 3
+	QUAD $0x0416064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0516064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 5
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0616064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 6
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0716064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 7
+	QUAD $0x0816264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 8
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0916064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 9
+	QUAD $0x0a161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 10
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	QUAD $0x0b16264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 14
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0f163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 15
+	LONG $0x0e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rcx + 23]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
+	QUAD $0x01171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 1
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x02170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 2
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x03170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 3
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x04170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 4
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x05170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 5
+	QUAD $0x06172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 6
+	QUAD $0x071716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 7
+	QUAD $0x081706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x09170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 9
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0a170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 10
+	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
+	QUAD $0x0b172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 11
+	QUAD $0x0c1716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 12
+	QUAD $0x0d1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 13
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0e170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 14
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	QUAD $0x0f1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 15
+	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
+	LONG $0x7cb60f42; WORD $0x1716             // movzx    edi, byte [rsi + r10 + 23]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x01170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 1
+	QUAD $0x02173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 2
+	QUAD $0x03170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 3
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0417165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x05170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 5
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x06173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 6
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x0717065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 7
+	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
+	QUAD $0x08171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 8
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x09170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 9
+	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
+	QUAD $0x0a170e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 23], 10
+	QUAD $0x0b17265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 11
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0c170e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 23], 12
+	QUAD $0x0d17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 13
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x0e17265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f1706442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 23], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x01181e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 24], 1
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x02183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 2
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x03180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 3
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x04180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 4
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x05183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 5
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x06180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 6
+	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
+	QUAD $0x07181e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 24], 7
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x08183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x09180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 9
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0a183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 10
+	QUAD $0x0b182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 11
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x0c183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 12
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0d183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 13
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0e183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 14
+	QUAD $0x0f1836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 15
+	LONG $0x7cb60f42; WORD $0x1816             // movzx    edi, byte [rsi + r10 + 24]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x01183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 1
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x02182e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 24], 2
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x03183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 3
+	QUAD $0x0418164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 4
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0518164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 5
+	QUAD $0x06183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 6
+	QUAD $0x0718064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 7
+	QUAD $0x08181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 8
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0918164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 9
+	QUAD $0x0a180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 10
+	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
+	QUAD $0x0b18164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 11
+	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
+	QUAD $0x0c18064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 12
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x0d183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 13
+	QUAD $0x0e18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 14
+	QUAD $0x0f18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 15
+	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
+	LONG $0x7cb60f42; WORD $0x190e             // movzx    edi, byte [rsi + r9 + 25]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x011906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 1
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x021906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 2
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x031906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 3
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x051916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 5
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x06191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 6
+	QUAD $0x07191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 7
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
+	QUAD $0x09190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 9
+	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
+	QUAD $0x0a1926542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 25], 10
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0b1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 11
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x0c193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 12
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x0d1936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 13
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0e190e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 25], 14
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x0f193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 15
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	LONG $0x0e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rcx + 25]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x01190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 1
+	QUAD $0x02192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 2
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x03193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 3
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x04193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x05190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 5
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x06192e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 25], 6
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x07193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 7
+	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
+	QUAD $0x08191e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 25], 8
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x09193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 9
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x0a193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 10
+	QUAD $0x0b19165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 25], 11
+	QUAD $0x0c19065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 25], 12
+	QUAD $0x0d193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 13
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0e190e4c2061e3c4                   // vpinsrb    xmm1, xmm3, byte [rsi + rcx + 25], 14
+	LONG $0xd8da8dc5                           // vpminub    ymm3, ymm14, ymm0
+	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0f190e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rcx + 25], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00018024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 384], ymm0
+	LONG $0x7cb60f42; WORD $0x1a0e             // movzx    edi, byte [rsi + r9 + 26]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x021a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 2
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x031a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 3
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
+	QUAD $0x051a16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 26], 5
+	QUAD $0x061a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 6
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x071a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 7
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x081a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 8
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x091a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 9
+	QUAD $0x0a1a26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 26], 10
+	QUAD $0x0b1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 11
+	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
+	QUAD $0x0c1a0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 26], 12
+	QUAD $0x0d1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 14
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x0f1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 15
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rax + 26]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x011a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 1
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	QUAD $0x021a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 2
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x031a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 3
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x041a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x051a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 5
+	QUAD $0x061a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 6
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x071a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 7
+	QUAD $0x081a1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 26], 8
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x091a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 9
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x0a1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 10
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0b1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 11
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0c1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 14
+	QUAD $0x0f1a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 15
+	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
+	LONG $0x7cb60f42; WORD $0x1b26             // movzx    edi, byte [rsi + r12 + 27]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x011b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 1
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x021b1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 27], 2
+	QUAD $0x031b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 3
+	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
+	QUAD $0x041b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 4
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x051b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 5
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x061b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 6
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x071b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 7
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x081b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 8
+	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
+	QUAD $0x091b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 9
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0a1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 10
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0b1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 11
+	QUAD $0x0c1b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 12
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0d1b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 13
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0e1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 14
+	QUAD $0x0f1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 15
+	WORD $0x8949; BYTE $0xd1                   // mov    r9, rdx
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	LONG $0x167cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rdx + 27]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x011b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 1
+	QUAD $0x021b165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 27], 2
+	QUAD $0x031b065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 27], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x041b065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 27], 4
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x051b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 5
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x061b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 6
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x071b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 7
+	QUAD $0x081b1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 27], 8
+	QUAD $0x091b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 9
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	QUAD $0x0a1b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 10
+	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
+	QUAD $0x0b1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 11
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0c1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 12
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0d1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 13
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0e1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 14
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0f1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	LONG $0x7cb60f42; WORD $0x1c26             // movzx    edi, byte [rsi + r12 + 28]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x011c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 1
+	QUAD $0x021c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 2
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x031c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 3
+	QUAD $0x041c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 4
+	QUAD $0x051c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 5
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x061c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 6
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x071c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 7
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x081c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 8
+	QUAD $0x091c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 28], 9
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0a1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 10
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x0b1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 11
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x0c1c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 28], 12
+	QUAD $0x0d1c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 13
+	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
+	QUAD $0x0e1c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 28], 14
+	QUAD $0x0f1c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 15
+	QUAD $0x000000e824848b4c                   // mov    r8, qword [rsp + 232]
+	LONG $0x7cb60f42; WORD $0x1c06             // movzx    edi, byte [rsi + r8 + 28]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
+	QUAD $0x011c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 28], 1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x021c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 2
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x031c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 3
+	QUAD $0x041c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x051c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 5
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x061c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 6
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x071c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 7
+	QUAD $0x081c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 8
+	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
+	QUAD $0x091c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 9
+	QUAD $0x0a1c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 10
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x0b1c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 11
+	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
+	QUAD $0x0c1c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 28], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 14
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x0f1c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 28], 15
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	LONG $0x067cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rax + 29]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x011d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 1
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x021d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 2
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x031d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 3
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x041d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 4
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
+	QUAD $0x061d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 6
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x071d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 7
+	QUAD $0x081d2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 29], 8
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0a1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 10
+	QUAD $0x0b1d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 11
+	QUAD $0x0c1d36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 29], 12
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x0d1d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 13
+	QUAD $0x0e1d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 14
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	QUAD $0x0f1d36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 29], 15
+	LONG $0x7cb60f42; WORD $0x1d06             // movzx    edi, byte [rsi + r8 + 29]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x011d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 1
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x021d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 2
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x031d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 3
+	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
+	QUAD $0x041d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 29], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x051d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 5
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x061d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 6
+	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
+	QUAD $0x071d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 7
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x081d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 8
+	QUAD $0x091d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 29], 9
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x0a1d3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 29], 10
+	QUAD $0x0b1d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 11
+	QUAD $0x0c1d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 12
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0d1d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 13
+	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
+	QUAD $0x0e1d3e642061a3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + r15 + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	QUAD $0x0f1d16442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r10 + 29], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
+	LONG $0x7cb60f42; WORD $0x1e1e             // movzx    edi, byte [rsi + r11 + 30]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x011e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 1
+	LONG $0x7cb60f42; WORD $0x1f1e             // movzx    edi, byte [rsi + r11 + 31]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 1
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
+	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
+	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
+	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
+	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x061e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 6
+	QUAD $0x061f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 6
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
+	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
+	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
+	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x0a1e1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 30], 10
+	QUAD $0x0a1f1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 31], 10
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
+	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
+	QUAD $0x0d1e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 30], 13
+	QUAD $0x0d1f164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 31], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 14
+	QUAD $0x0e1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 14
+	QUAD $0x0f1e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 30], 15
+	QUAD $0x0f1f36542071a3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + r14 + 31], 15
+	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
+	LONG $0x44b60f42; WORD $0x1e06             // movzx    eax, byte [rsi + r8 + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
+	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
+	LONG $0x1644b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rdx + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
+	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
+	QUAD $0x021e2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 30], 2
+	QUAD $0x021f2e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 31], 2
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
+	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
+	QUAD $0x041e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 30], 4
+	QUAD $0x041f0e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 31], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
+	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
+	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
+	QUAD $0x071e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 7
+	QUAD $0x071f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 7
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x081e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 8
+	QUAD $0x081f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 8
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
+	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
+	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0c1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 12
+	QUAD $0x0c1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 12
+	QUAD $0x0d1e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 30], 13
+	QUAD $0x0d1f0e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 31], 13
+	QUAD $0x0e1e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 14
+	QUAD $0x0e1f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 14
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 15
+	QUAD $0x0f1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00010024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 256], ymm0
+	QUAD $0x000220248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 544]
+	LONG $0xc1da8dc5                           // vpminub    ymm0, ymm14, ymm1
+	LONG $0xc074f5c5                           // vpcmpeqb    ymm0, ymm1, ymm0
+	LONG $0x656ffdc5; BYTE $0x00               // vmovdqa    ymm4, yword 0[rbp] /* [rip + .LCPI7_0] */
+	LONG $0xfcdffdc5                           // vpandn    ymm7, ymm0, ymm4
+	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
+	QUAD $0x0001c024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 448]
+	LONG $0xfada8dc5                           // vpminub    ymm7, ymm14, ymm2
+	LONG $0xff74edc5                           // vpcmpeqb    ymm7, ymm2, ymm7
+	QUAD $0x00050024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 1280]
+	LONG $0xe4df6dc5                           // vpandn    ymm12, ymm2, ymm4
+	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI7_1] */
+	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x0001a024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 416]
+	LONG $0xe2da0dc5                           // vpminub    ymm12, ymm14, ymm2
+	LONG $0xe2741dc5                           // vpcmpeqb    ymm12, ymm12, ymm2
+	LONG $0x6d6ffdc5; BYTE $0x40               // vmovdqa    ymm5, yword 64[rbp] /* [rip + .LCPI7_2] */
+	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	LONG $0xda15c1c4; BYTE $0xfe               // vpminub    ymm7, ymm13, ymm14
+	LONG $0xff7495c5                           // vpcmpeqb    ymm7, ymm13, ymm7
+	LONG $0xda0541c4; BYTE $0xe6               // vpminub    ymm12, ymm15, ymm14
+	LONG $0x740541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm15, ymm12
+	LONG $0x5d6ffdc5; BYTE $0x60               // vmovdqa    ymm3, yword 96[rbp] /* [rip + .LCPI7_3] */
+	LONG $0xfbdfc5c5                           // vpandn    ymm7, ymm7, ymm3
+	QUAD $0x00000080956f7dc5                   // vmovdqa    ymm10, yword 128[rbp] /* [rip + .LCPI7_4] */
+	LONG $0xdf1d41c4; BYTE $0xe2               // vpandn    ymm12, ymm12, ymm10
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x00020024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 512]
+	LONG $0xda1541c4; BYTE $0xe6               // vpminub    ymm12, ymm13, ymm14
+	LONG $0x741541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm13, ymm12
+	QUAD $0x000000a0956ffdc5                   // vmovdqa    ymm2, yword 160[rbp] /* [rip + .LCPI7_5] */
+	LONG $0xe2df1dc5                           // vpandn    ymm12, ymm12, ymm2
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x0004e024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 1248]
+	LONG $0xda1541c4; BYTE $0xe6               // vpminub    ymm12, ymm13, ymm14
+	LONG $0x741541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm13, ymm12
+	LONG $0xe1ef1dc5                           // vpxor    ymm12, ymm12, ymm1
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI7_6] */
+	LONG $0xdb1d41c4; BYTE $0xe1               // vpand    ymm12, ymm12, ymm9
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
+	QUAD $0x0004a024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1184]
+	LONG $0xda1dc1c4; BYTE $0xfe               // vpminub    ymm7, ymm12, ymm14
+	LONG $0xff749dc5                           // vpcmpeqb    ymm7, ymm12, ymm7
+	LONG $0xe4df45c5                           // vpandn    ymm12, ymm7, ymm4
+	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
+	QUAD $0x00048024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 1152]
+	LONG $0xda1541c4; BYTE $0xe6               // vpminub    ymm12, ymm13, ymm14
+	LONG $0x741541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm13, ymm12
+	QUAD $0x0004c024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 1216]
+	LONG $0xecdf15c5                           // vpandn    ymm13, ymm13, ymm4
+	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
+	LONG $0xeb1541c4; BYTE $0xe4               // vpor    ymm12, ymm13, ymm12
+	QUAD $0x00046024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 1120]
+	LONG $0xda0541c4; BYTE $0xee               // vpminub    ymm13, ymm15, ymm14
+	LONG $0x740541c4; BYTE $0xed               // vpcmpeqb    ymm13, ymm15, ymm13
+	LONG $0xeddf15c5                           // vpandn    ymm13, ymm13, ymm5
+	LONG $0xeb1d41c4; BYTE $0xe5               // vpor    ymm12, ymm12, ymm13
+	LONG $0xf9f8c5c5                           // vpsubb    ymm7, ymm7, ymm1
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x00044024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 1088]
+	LONG $0xda1541c4; BYTE $0xe6               // vpminub    ymm12, ymm13, ymm14
+	LONG $0x741541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm13, ymm12
+	QUAD $0x00042024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 1056]
+	LONG $0xda0541c4; BYTE $0xee               // vpminub    ymm13, ymm15, ymm14
+	LONG $0x740541c4; BYTE $0xed               // vpcmpeqb    ymm13, ymm15, ymm13
+	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
+	LONG $0xdf1541c4; BYTE $0xea               // vpandn    ymm13, ymm13, ymm10
+	LONG $0xeb1d41c4; BYTE $0xe5               // vpor    ymm12, ymm12, ymm13
+	QUAD $0x0003c024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 960]
+	LONG $0xda0541c4; BYTE $0xee               // vpminub    ymm13, ymm15, ymm14
+	LONG $0x740541c4; BYTE $0xed               // vpcmpeqb    ymm13, ymm15, ymm13
+	LONG $0xeadf15c5                           // vpandn    ymm13, ymm13, ymm2
+	LONG $0xeb1d41c4; BYTE $0xe5               // vpor    ymm12, ymm12, ymm13
+	QUAD $0x0003e024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 992]
+	LONG $0xda0541c4; BYTE $0xee               // vpminub    ymm13, ymm15, ymm14
+	LONG $0x740541c4; BYTE $0xed               // vpcmpeqb    ymm13, ymm15, ymm13
+	LONG $0xe9ef15c5                           // vpxor    ymm13, ymm13, ymm1
+	LONG $0x7115c1c4; WORD $0x07f5             // vpsllw    ymm13, ymm13, 7
+	LONG $0xdb1541c4; BYTE $0xe9               // vpand    ymm13, ymm13, ymm9
+	LONG $0xeb1d41c4; BYTE $0xe5               // vpor    ymm12, ymm12, ymm13
+	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
+	QUAD $0x0003a024ac6f7dc5; BYTE $0x00       // vmovdqa    ymm13, yword [rsp + 928]
+	LONG $0xda15c1c4; BYTE $0xfe               // vpminub    ymm7, ymm13, ymm14
+	LONG $0xff7495c5                           // vpcmpeqb    ymm7, ymm13, ymm7
+	LONG $0xecdf45c5                           // vpandn    ymm13, ymm7, ymm4
+	LONG $0xfffc95c5                           // vpaddb    ymm7, ymm13, ymm7
+	QUAD $0x00036024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 864]
+	LONG $0xe8da0dc5                           // vpminub    ymm13, ymm14, ymm0
+	LONG $0xe87415c5                           // vpcmpeqb    ymm13, ymm13, ymm0
+	QUAD $0x00040024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 1024]
+	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
+	LONG $0xeedf15c5                           // vpandn    ymm13, ymm13, ymm6
+	LONG $0xeb0541c4; BYTE $0xed               // vpor    ymm13, ymm15, ymm13
+	QUAD $0x00038024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 896]
+	LONG $0xf8da0dc5                           // vpminub    ymm15, ymm14, ymm0
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
+	LONG $0xeb1541c4; BYTE $0xef               // vpor    ymm13, ymm13, ymm15
+	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0xf9f8c5c5                           // vpsubb    ymm7, ymm7, ymm1
+	LONG $0xffeb95c5                           // vpor    ymm7, ymm13, ymm7
+	LONG $0xda2541c4; BYTE $0xee               // vpminub    ymm13, ymm11, ymm14
+	LONG $0x742541c4; BYTE $0xdd               // vpcmpeqb    ymm11, ymm11, ymm13
+	QUAD $0x00034024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 832]
+	LONG $0xe8da0dc5                           // vpminub    ymm13, ymm14, ymm0
+	LONG $0xe87415c5                           // vpcmpeqb    ymm13, ymm13, ymm0
+	LONG $0xdbdf25c5                           // vpandn    ymm11, ymm11, ymm3
+	LONG $0x6f7d41c4; BYTE $0xfa               // vmovdqa    ymm15, ymm10
+	LONG $0xdf1541c4; BYTE $0xea               // vpandn    ymm13, ymm13, ymm10
+	LONG $0xeb2541c4; BYTE $0xdd               // vpor    ymm11, ymm11, ymm13
+	QUAD $0x00026024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 608]
+	LONG $0xe8da0dc5                           // vpminub    ymm13, ymm14, ymm0
+	LONG $0xc07415c5                           // vpcmpeqb    ymm8, ymm13, ymm0
+	LONG $0xc2df3dc5                           // vpandn    ymm8, ymm8, ymm2
+	LONG $0xeb2541c4; BYTE $0xc0               // vpor    ymm8, ymm11, ymm8
+	QUAD $0x00028024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 640]
+	LONG $0xd8da0dc5                           // vpminub    ymm11, ymm14, ymm0
+	LONG $0xd07425c5                           // vpcmpeqb    ymm10, ymm11, ymm0
+	LONG $0xd1ef2dc5                           // vpxor    ymm10, ymm10, ymm1
+	LONG $0x762541c4; BYTE $0xdb               // vpcmpeqd    ymm11, ymm11, ymm11
+	LONG $0x712dc1c4; WORD $0x07f2             // vpsllw    ymm10, ymm10, 7
+	LONG $0x6f7d41c4; BYTE $0xe9               // vmovdqa    ymm13, ymm9
+	LONG $0xdb2d41c4; BYTE $0xd1               // vpand    ymm10, ymm10, ymm9
+	LONG $0xeb3d41c4; BYTE $0xc2               // vpor    ymm8, ymm8, ymm10
+	LONG $0xc7eb3dc5                           // vpor    ymm8, ymm8, ymm7
+	QUAD $0x00018024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 384]
+	LONG $0xf8da8dc5                           // vpminub    ymm7, ymm14, ymm0
+	LONG $0xff74fdc5                           // vpcmpeqb    ymm7, ymm0, ymm7
+	LONG $0xccdf45c5                           // vpandn    ymm9, ymm7, ymm4
+	LONG $0xfffcb5c5                           // vpaddb    ymm7, ymm9, ymm7
+	QUAD $0x0002a024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 672]
+	LONG $0xc8da0dc5                           // vpminub    ymm9, ymm14, ymm0
+	LONG $0xe874b5c5                           // vpcmpeqb    ymm5, ymm9, ymm0
+	QUAD $0x00032024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 800]
+	LONG $0xccdf7dc5                           // vpandn    ymm9, ymm0, ymm4
+	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
+	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
+	QUAD $0x0002c024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 704]
+	LONG $0xc8da0dc5                           // vpminub    ymm9, ymm14, ymm0
+	LONG $0xf074b5c5                           // vpcmpeqb    ymm6, ymm9, ymm0
+	LONG $0x75dfcdc5; BYTE $0x40               // vpandn    ymm6, ymm6, yword 64[rbp] /* [rip + .LCPI7_2] */
+	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
+	LONG $0xf845c1c4; BYTE $0xf3               // vpsubb    ymm6, ymm7, ymm11
+	LONG $0xedebcdc5                           // vpor    ymm5, ymm6, ymm5
+	QUAD $0x0002e024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 736]
+	LONG $0xf0da8dc5                           // vpminub    ymm6, ymm14, ymm0
+	LONG $0xde74fdc5                           // vpcmpeqb    ymm3, ymm0, ymm6
+	QUAD $0x00030024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 768]
+	LONG $0xf0da8dc5                           // vpminub    ymm6, ymm14, ymm0
+	LONG $0xe674fdc5                           // vpcmpeqb    ymm4, ymm0, ymm6
+	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI7_3] */
+	LONG $0xdf5dc1c4; BYTE $0xe7               // vpandn    ymm4, ymm4, ymm15
+	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
+	QUAD $0x00012024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 288]
+	LONG $0xe0da8dc5                           // vpminub    ymm4, ymm14, ymm0
+	LONG $0xcc74fdc5                           // vpcmpeqb    ymm1, ymm0, ymm4
+	LONG $0xcadff5c5                           // vpandn    ymm1, ymm1, ymm2
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	QUAD $0x00010024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 256]
+	LONG $0xd8da8dc5                           // vpminub    ymm3, ymm14, ymm0
+	LONG $0xd374fdc5                           // vpcmpeqb    ymm2, ymm0, ymm3
+	LONG $0xd2efa5c5                           // vpxor    ymm2, ymm11, ymm2
+	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
+	LONG $0xd2db95c5                           // vpand    ymm2, ymm13, ymm2
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xc9ebd5c5                           // vpor    ymm1, ymm5, ymm1
+	QUAD $0x00014024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 320]
+	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
+	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
+	LONG $0xd960bdc5                           // vpunpcklbw    ymm3, ymm8, ymm1
+	LONG $0xc968bdc5                           // vpunpckhbw    ymm1, ymm8, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000170248c8b48                   // mov    rcx, qword [rsp + 368]
+	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
+	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000168248c3b48                   // cmp    rcx, qword [rsp + 360]
+	JNE  LBB7_48
+	QUAD $0x0000017824bc8b4c                   // mov    r15, qword [rsp + 376]
+	QUAD $0x0000016824bc3b4c                   // cmp    r15, qword [rsp + 360]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
+	QUAD $0x000001f824a48b4c                   // mov    r12, qword [rsp + 504]
+	JNE  LBB7_50
+	JMP  LBB7_53
+
+DATA LCDATA6<>+0x000(SB)/8, $0x0101010101010101
+DATA LCDATA6<>+0x008(SB)/8, $0x0101010101010101
+DATA LCDATA6<>+0x010(SB)/8, $0x0101010101010101
+DATA LCDATA6<>+0x018(SB)/8, $0x0101010101010101
+DATA LCDATA6<>+0x020(SB)/8, $0x0404040404040404
+DATA LCDATA6<>+0x028(SB)/8, $0x0404040404040404
+DATA LCDATA6<>+0x030(SB)/8, $0x0404040404040404
+DATA LCDATA6<>+0x038(SB)/8, $0x0404040404040404
+DATA LCDATA6<>+0x040(SB)/8, $0x0808080808080808
+DATA LCDATA6<>+0x048(SB)/8, $0x0808080808080808
+DATA LCDATA6<>+0x050(SB)/8, $0x0808080808080808
+DATA LCDATA6<>+0x058(SB)/8, $0x0808080808080808
+DATA LCDATA6<>+0x060(SB)/8, $0x1010101010101010
+DATA LCDATA6<>+0x068(SB)/8, $0x1010101010101010
+DATA LCDATA6<>+0x070(SB)/8, $0x1010101010101010
+DATA LCDATA6<>+0x078(SB)/8, $0x1010101010101010
+DATA LCDATA6<>+0x080(SB)/8, $0x2020202020202020
+DATA LCDATA6<>+0x088(SB)/8, $0x2020202020202020
+DATA LCDATA6<>+0x090(SB)/8, $0x2020202020202020
+DATA LCDATA6<>+0x098(SB)/8, $0x2020202020202020
+DATA LCDATA6<>+0x0a0(SB)/8, $0x4040404040404040
+DATA LCDATA6<>+0x0a8(SB)/8, $0x4040404040404040
+DATA LCDATA6<>+0x0b0(SB)/8, $0x4040404040404040
+DATA LCDATA6<>+0x0b8(SB)/8, $0x4040404040404040
+DATA LCDATA6<>+0x0c0(SB)/8, $0x8080808080808080
+DATA LCDATA6<>+0x0c8(SB)/8, $0x8080808080808080
+DATA LCDATA6<>+0x0d0(SB)/8, $0x8080808080808080
+DATA LCDATA6<>+0x0d8(SB)/8, $0x8080808080808080
+GLOBL LCDATA6<>(SB), 8, $224
+
+TEXT ·_comparison_greater_scalar_arr_avx2(SB), $1352-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $32, SP
+	ANDQ $-32, SP
+	MOVQ BP, 1312(SP)
+	LEAQ LCDATA6<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB8_13
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB8_28
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB8_51
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB8_59
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB8_179
+	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_9
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_7:
+	WORD $0x3944; BYTE $0x2a                   // cmp    dword [rdx], r13d
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	WORD $0xf619                               // sbb    esi, esi
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB8_7
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB8_9:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_115
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
+	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
+
+LBB8_11:
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
+	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
+	LONG $0xd6970f40                           // seta    sil
+	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
+	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
+	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
+	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
+	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
+	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
+	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB8_11
+	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB8_116
+	JMP  LBB8_179
+
+LBB8_13:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB8_41
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB8_70
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB8_81
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB8_179
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0610fbc5         // vmovsd    xmm0, qword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_21
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_19:
+	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
+	WORD $0x970f; BYTE $0xd3     // seta    bl
+	LONG $0x08c28348             // add    rdx, 8
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB8_19
+	LONG $0x01c38349             // add    r11, 1
+
+LBB8_21:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_25
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
+	QUAD $0x0000008024b4894c // mov    qword [rsp + 128], r14
+	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
+
+LBB8_23:
+	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
+	LONG $0xd5970f41                           // seta    r13b
+	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
+	LONG $0xd6970f40                           // seta    sil
+	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
+	LONG $0xd7970f41                           // seta    r15b
+	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
+	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
+	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
+	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
+	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
+	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
+	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x78               // add    r8b, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
+	QUAD $0x0000008024848348; BYTE $0xff       // add    qword [rsp + 128], -1
+	JNE  LBB8_23
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+
+LBB8_25:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB8_179
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB8_133
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB8_135
+
+LBB8_28:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB8_92
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB8_179
+	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
+	LONG $0x1f6a8d4d         // lea    r13, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xea490f4d         // cmovns    r13, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_128
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+	WORD $0x894d; BYTE $0xdf // mov    r15, r11
+
+LBB8_32:
+	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB8_32
+	LONG $0x01c78349             // add    r15, 1
+	LONG $0x05fdc149             // sar    r13, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB8_129
+
+LBB8_34:
+	LONG $0x20fd8349             // cmp    r13, 32
+	LONG $0x24748944; BYTE $0x04 // mov    dword [rsp + 4], r14d
+	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
+	QUAD $0x0000016824ac894c     // mov    qword [rsp + 360], r13
+	JB   LBB8_37
+	WORD $0x894c; BYTE $0xe8     // mov    rax, r13
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
+	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
+	JAE  LBB8_180
+	LONG $0xaf048d4b             // lea    rax, [r15 + 4*r13]
+	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
+	JAE  LBB8_180
+
+LBB8_37:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
+	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
+	QUAD $0x0000016024bc894c // mov    qword [rsp + 352], r15
+
+LBB8_38:
+	QUAD $0x0000018024ac2b4c // sub    r13, qword [rsp + 384]
+	QUAD $0x0000008024ac894c // mov    qword [rsp + 128], r13
+
+LBB8_39:
+	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
+	LONG $0x24343a45                           // cmp    r14b, byte [r12]
+	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
+	LONG $0x24743a45; BYTE $0x01               // cmp    r14b, byte [r12 + 1]
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x24743a45; BYTE $0x02               // cmp    r14b, byte [r12 + 2]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	LONG $0x24743a45; BYTE $0x03               // cmp    r14b, byte [r12 + 3]
+	LONG $0xd59f0f41                           // setg    r13b
+	LONG $0x24743a45; BYTE $0x04               // cmp    r14b, byte [r12 + 4]
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x24743a45; BYTE $0x05               // cmp    r14b, byte [r12 + 5]
+	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
+	LONG $0x24743a45; BYTE $0x06               // cmp    r14b, byte [r12 + 6]
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x24743a45; BYTE $0x07               // cmp    r14b, byte [r12 + 7]
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x08713a44                           // cmp    r14b, byte [rcx + 8]
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x09713a44                           // cmp    r14b, byte [rcx + 9]
+	LONG $0xd69f0f40                           // setg    sil
+	LONG $0x0a713a44                           // cmp    r14b, byte [rcx + 10]
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x0b713a44                           // cmp    r14b, byte [rcx + 11]
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x0c713a44                           // cmp    r14b, byte [rcx + 12]
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x0d713a44                           // cmp    r14b, byte [rcx + 13]
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0x0e713a44                           // cmp    r14b, byte [rcx + 14]
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x0f713a44                           // cmp    r14b, byte [rcx + 15]
+	LONG $0xd09f0f41                           // setg    r8b
+	LONG $0x10713a44                           // cmp    r14b, byte [rcx + 16]
+	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
+	LONG $0x11713a44                           // cmp    r14b, byte [rcx + 17]
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x12713a44                           // cmp    r14b, byte [rcx + 18]
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0x13713a44                           // cmp    r14b, byte [rcx + 19]
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x14713a44                           // cmp    r14b, byte [rcx + 20]
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x15713a44                           // cmp    r14b, byte [rcx + 21]
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0x16713a44                           // cmp    r14b, byte [rcx + 22]
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0x17713a44                           // cmp    r14b, byte [rcx + 23]
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
+	QUAD $0x000000e824949f0f                   // setg    byte [rsp + 232]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
+	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	QUAD $0x0000012024940244                   // add    r10b, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e4c041                           // shl    r12b, 7
+	WORD $0x0841; BYTE $0xc4                   // or    r12b, al
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0844; BYTE $0xd3                   // or    bl, r10b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x78               // add    sil, byte [rsp + 120]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x05e7c041                           // shl    r15b, 5
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	WORD $0x0845; BYTE $0xf8                   // or    r8b, r15b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0x00248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 256]
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0xc308                               // or    bl, al
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
+	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x28               // movzx    ebx, byte [rsp + 40]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x30               // movzx    ebx, byte [rsp + 48]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	QUAD $0x0000016024b48b48                   // mov    rsi, qword [rsp + 352]
+	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
+	LONG $0x247cb60f; BYTE $0x10               // movzx    edi, byte [rsp + 16]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	LONG $0x01468844                           // mov    byte [rsi + 1], r8b
+	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0xe8248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 232]
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd808                               // or    al, bl
+	QUAD $0x00000140249cb60f                   // movzx    ebx, byte [rsp + 320]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xda08                               // or    dl, bl
+	WORD $0xc208                               // or    dl, al
+	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
+	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
+	WORD $0x5688; BYTE $0x03                   // mov    byte [rsi + 3], dl
+	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x0000016024b48948                   // mov    qword [rsp + 352], rsi
+	QUAD $0x0000008024848348; BYTE $0xff       // add    qword [rsp + 128], -1
+	JNE  LBB8_39
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000016824ac8b4c                   // mov    r13, qword [rsp + 360]
+	JMP  LBB8_130
+
+LBB8_41:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB8_104
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB8_179
+	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_47
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_45:
+	WORD $0x394c; BYTE $0x2a                   // cmp    qword [rdx], r13
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	WORD $0x1945; BYTE $0xc9                   // sbb    r9d, r9d
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3045; BYTE $0xc1                   // xor    r9b, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2044; BYTE $0xcf                   // and    dil, r9b
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB8_45
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB8_47:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_118
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
+
+LBB8_49:
+	QUAD $0x000000e8249c894c                   // mov    qword [rsp + 232], r11
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
+	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
+	LONG $0xd6970f40                           // seta    sil
+	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
+	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
+	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
+	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
+	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
+	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
+	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc789                               // mov    edi, eax
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001002484b60f                   // movzx    eax, byte [rsp + 256]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB8_49
+	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB8_119
+	JMP  LBB8_179
+
+LBB8_51:
+	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_55
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_53:
+	LONG $0x2a394466                           // cmp    word [rdx], r13w
+	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
+	WORD $0xf619                               // sbb    esi, esi
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB8_53
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB8_55:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_121
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
+	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
+
+LBB8_57:
+	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x6a3b4466; BYTE $0x02               // cmp    r13w, word [rdx + 2]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x6a3b4466; BYTE $0x04               // cmp    r13w, word [rdx + 4]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x6a3b4466; BYTE $0x06               // cmp    r13w, word [rdx + 6]
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x6a3b4466; BYTE $0x08               // cmp    r13w, word [rdx + 8]
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x6a3b4466; BYTE $0x0a               // cmp    r13w, word [rdx + 10]
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x6a3b4466; BYTE $0x0c               // cmp    r13w, word [rdx + 12]
+	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
+	LONG $0x6a3b4466; BYTE $0x0e               // cmp    r13w, word [rdx + 14]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x6a3b4466; BYTE $0x10               // cmp    r13w, word [rdx + 16]
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x6a3b4466; BYTE $0x12               // cmp    r13w, word [rdx + 18]
+	LONG $0xd6970f40                           // seta    sil
+	LONG $0x6a3b4466; BYTE $0x14               // cmp    r13w, word [rdx + 20]
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x6a3b4466; BYTE $0x16               // cmp    r13w, word [rdx + 22]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x6a3b4466; BYTE $0x18               // cmp    r13w, word [rdx + 24]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x6a3b4466; BYTE $0x1a               // cmp    r13w, word [rdx + 26]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x6a3b4466; BYTE $0x1c               // cmp    r13w, word [rdx + 28]
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x6a3b4466; BYTE $0x1e               // cmp    r13w, word [rdx + 30]
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x6a3b4466; BYTE $0x20               // cmp    r13w, word [rdx + 32]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x6a3b4466; BYTE $0x22               // cmp    r13w, word [rdx + 34]
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x6a3b4466; BYTE $0x24               // cmp    r13w, word [rdx + 36]
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x6a3b4466; BYTE $0x26               // cmp    r13w, word [rdx + 38]
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x6a3b4466; BYTE $0x28               // cmp    r13w, word [rdx + 40]
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0x6a3b4466; BYTE $0x2a               // cmp    r13w, word [rdx + 42]
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0x6a3b4466; BYTE $0x2c               // cmp    r13w, word [rdx + 44]
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0x6a3b4466; BYTE $0x2e               // cmp    r13w, word [rdx + 46]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x6a3b4466; BYTE $0x30               // cmp    r13w, word [rdx + 48]
+	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
+	LONG $0x6a3b4466; BYTE $0x32               // cmp    r13w, word [rdx + 50]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x6a3b4466; BYTE $0x34               // cmp    r13w, word [rdx + 52]
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0x6a3b4466; BYTE $0x36               // cmp    r13w, word [rdx + 54]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x6a3b4466; BYTE $0x38               // cmp    r13w, word [rdx + 56]
+	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
+	LONG $0x6a3b4466; BYTE $0x3a               // cmp    r13w, word [rdx + 58]
+	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
+	LONG $0x6a3b4466; BYTE $0x3c               // cmp    r13w, word [rdx + 60]
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	LONG $0x6a3b4466; BYTE $0x3e               // cmp    r13w, word [rdx + 62]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x40c28348                           // add    rdx, 64
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB8_57
+	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB8_122
+	JMP  LBB8_179
+
+LBB8_59:
+	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_63
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_61:
+	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
+	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB8_61
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB8_63:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_67
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000009024b4894c // mov    qword [rsp + 144], r14
+	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
+	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
+
+LBB8_65:
+	LONG $0x2a3b4466                           // cmp    r13w, word [rdx]
+	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
+	LONG $0x6a3b4466; BYTE $0x02               // cmp    r13w, word [rdx + 2]
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x6a3b4466; BYTE $0x04               // cmp    r13w, word [rdx + 4]
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x6a3b4466; BYTE $0x06               // cmp    r13w, word [rdx + 6]
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x6a3b4466; BYTE $0x08               // cmp    r13w, word [rdx + 8]
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x6a3b4466; BYTE $0x0a               // cmp    r13w, word [rdx + 10]
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0x6a3b4466; BYTE $0x0c               // cmp    r13w, word [rdx + 12]
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x6a3b4466; BYTE $0x0e               // cmp    r13w, word [rdx + 14]
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x6a3b4466; BYTE $0x10               // cmp    r13w, word [rdx + 16]
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x6a3b4466; BYTE $0x12               // cmp    r13w, word [rdx + 18]
+	LONG $0xd69f0f40                           // setg    sil
+	LONG $0x6a3b4466; BYTE $0x14               // cmp    r13w, word [rdx + 20]
+	LONG $0xd09f0f41                           // setg    r8b
+	LONG $0x6a3b4466; BYTE $0x16               // cmp    r13w, word [rdx + 22]
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x6a3b4466; BYTE $0x18               // cmp    r13w, word [rdx + 24]
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x6a3b4466; BYTE $0x1a               // cmp    r13w, word [rdx + 26]
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x6a3b4466; BYTE $0x1c               // cmp    r13w, word [rdx + 28]
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x6a3b4466; BYTE $0x1e               // cmp    r13w, word [rdx + 30]
+	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
+	LONG $0x6a3b4466; BYTE $0x20               // cmp    r13w, word [rdx + 32]
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x6a3b4466; BYTE $0x22               // cmp    r13w, word [rdx + 34]
+	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
+	LONG $0x6a3b4466; BYTE $0x24               // cmp    r13w, word [rdx + 36]
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0x6a3b4466; BYTE $0x26               // cmp    r13w, word [rdx + 38]
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x6a3b4466; BYTE $0x28               // cmp    r13w, word [rdx + 40]
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0x6a3b4466; BYTE $0x2a               // cmp    r13w, word [rdx + 42]
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0x6a3b4466; BYTE $0x2c               // cmp    r13w, word [rdx + 44]
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0x6a3b4466; BYTE $0x2e               // cmp    r13w, word [rdx + 46]
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0x6a3b4466; BYTE $0x30               // cmp    r13w, word [rdx + 48]
+	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
+	LONG $0x6a3b4466; BYTE $0x32               // cmp    r13w, word [rdx + 50]
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0x6a3b4466; BYTE $0x34               // cmp    r13w, word [rdx + 52]
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0x6a3b4466; BYTE $0x36               // cmp    r13w, word [rdx + 54]
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0x6a3b4466; BYTE $0x38               // cmp    r13w, word [rdx + 56]
+	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
+	LONG $0x6a3b4466; BYTE $0x3a               // cmp    r13w, word [rdx + 58]
+	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
+	LONG $0x6a3b4466; BYTE $0x3c               // cmp    r13w, word [rdx + 60]
+	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
+	LONG $0x6a3b4466; BYTE $0x3e               // cmp    r13w, word [rdx + 62]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x40c28348                           // add    rdx, 64
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB8_65
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+
+LBB8_67:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB8_179
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB8_137
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB8_139
+
+LBB8_70:
+	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_74
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_72:
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB8_72
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB8_74:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_78
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000009024b4894c // mov    qword [rsp + 144], r14
+	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
+	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
+
+LBB8_76:
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
+	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
+	LONG $0xd69f0f40                           // setg    sil
+	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
+	LONG $0xd09f0f41                           // setg    r8b
+	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
+	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
+	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
+	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
+	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
+	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
+	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
+	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
+	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
+	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
+	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
+	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
+	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB8_76
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+
+LBB8_78:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB8_179
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB8_141
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB8_143
+
+LBB8_81:
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0610fac5         // vmovss    xmm0, dword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_85
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_83:
+	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
+	WORD $0x970f; BYTE $0xd3     // seta    bl
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB8_83
+	LONG $0x01c38349             // add    r11, 1
+
+LBB8_85:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_89
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
+	QUAD $0x0000008024b4894c // mov    qword [rsp + 128], r14
+	QUAD $0x000000e8249c894c // mov    qword [rsp + 232], r11
+
+LBB8_87:
+	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
+	LONG $0xd5970f41                           // seta    r13b
+	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
+	LONG $0xd6970f40                           // seta    sil
+	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
+	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
+	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
+	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
+	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
+	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
+	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x78               // add    r8b, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x50               // add    sil, byte [rsp + 80]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x58               // movzx    esi, byte [rsp + 88]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x20               // movzx    edi, byte [rsp + 32]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	QUAD $0x00000100248cb60f                   // movzx    ecx, byte [rsp + 256]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x000000e824b48948                   // mov    qword [rsp + 232], rsi
+	QUAD $0x0000008024848348; BYTE $0xff       // add    qword [rsp + 128], -1
+	JNE  LBB8_87
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+
+LBB8_89:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB8_179
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB8_145
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB8_147
+
+LBB8_92:
+	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_96
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_94:
+	WORD $0x3844; BYTE $0x32     // cmp    byte [rdx], r14b
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	WORD $0xf619                 // sbb    esi, esi
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2040; BYTE $0xf3     // and    bl, sil
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB8_94
+	LONG $0x01c38349             // add    r11, 1
+
+LBB8_96:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB8_124
+	LONG $0x20ff8349             // cmp    r15, 32
+	LONG $0x24748944; BYTE $0x04 // mov    dword [rsp + 4], r14d
+	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
+	QUAD $0x0000017024bc894c     // mov    qword [rsp + 368], r15
+	JB   LBB8_100
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
+	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
+	JAE  LBB8_183
+	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
+	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
+	JAE  LBB8_183
+
+LBB8_100:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000016824848948 // mov    qword [rsp + 360], rax
+	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
+	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
+
+LBB8_101:
+	QUAD $0x0000016824bc2b4c // sub    r15, qword [rsp + 360]
+	QUAD $0x0000008024bc894c // mov    qword [rsp + 128], r15
+
+LBB8_102:
+	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
+	LONG $0x24343a45                           // cmp    r14b, byte [r12]
+	QUAD $0x000001402494970f                   // seta    byte [rsp + 320]
+	LONG $0x24743a45; BYTE $0x01               // cmp    r14b, byte [r12 + 1]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x24743a45; BYTE $0x02               // cmp    r14b, byte [r12 + 2]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	LONG $0x24743a45; BYTE $0x03               // cmp    r14b, byte [r12 + 3]
+	LONG $0xd5970f41                           // seta    r13b
+	LONG $0x24743a45; BYTE $0x04               // cmp    r14b, byte [r12 + 4]
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x24743a45; BYTE $0x05               // cmp    r14b, byte [r12 + 5]
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x24743a45; BYTE $0x06               // cmp    r14b, byte [r12 + 6]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x24743a45; BYTE $0x07               // cmp    r14b, byte [r12 + 7]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x08713a44                           // cmp    r14b, byte [rcx + 8]
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x09713a44                           // cmp    r14b, byte [rcx + 9]
+	LONG $0xd6970f40                           // seta    sil
+	LONG $0x0a713a44                           // cmp    r14b, byte [rcx + 10]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x0b713a44                           // cmp    r14b, byte [rcx + 11]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x0c713a44                           // cmp    r14b, byte [rcx + 12]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x0d713a44                           // cmp    r14b, byte [rcx + 13]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x0e713a44                           // cmp    r14b, byte [rcx + 14]
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x0f713a44                           // cmp    r14b, byte [rcx + 15]
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x10713a44                           // cmp    r14b, byte [rcx + 16]
+	QUAD $0x000001002494970f                   // seta    byte [rsp + 256]
+	LONG $0x11713a44                           // cmp    r14b, byte [rcx + 17]
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x12713a44                           // cmp    r14b, byte [rcx + 18]
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x13713a44                           // cmp    r14b, byte [rcx + 19]
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x14713a44                           // cmp    r14b, byte [rcx + 20]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x15713a44                           // cmp    r14b, byte [rcx + 21]
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0x16713a44                           // cmp    r14b, byte [rcx + 22]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x17713a44                           // cmp    r14b, byte [rcx + 23]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
+	QUAD $0x000000e82494970f                   // seta    byte [rsp + 232]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
+	QUAD $0x000001202494970f                   // seta    byte [rsp + 288]
+	LONG $0x0424548b                           // mov    edx, dword [rsp + 4]
+	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
+	WORD $0x970f; BYTE $0xd2                   // seta    dl
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	QUAD $0x0000014024940244                   // add    r10b, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e4c041                           // shl    r12b, 7
+	WORD $0x0841; BYTE $0xc4                   // or    r12b, al
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0844; BYTE $0xd3                   // or    bl, r10b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x78               // add    sil, byte [rsp + 120]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x05e7c041                           // shl    r15b, 5
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x2474b60f; BYTE $0x48               // movzx    esi, byte [rsp + 72]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	WORD $0x0845; BYTE $0xf8                   // or    r8b, r15b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0x00248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 256]
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0xc308                               // or    bl, al
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
+	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x28               // movzx    ebx, byte [rsp + 40]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x30               // movzx    ebx, byte [rsp + 48]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	QUAD $0x0000016024b48b48                   // mov    rsi, qword [rsp + 352]
+	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
+	LONG $0x247cb60f; BYTE $0x10               // movzx    edi, byte [rsp + 16]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	LONG $0x01468844                           // mov    byte [rsi + 1], r8b
+	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0xe8248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 232]
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd808                               // or    al, bl
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xda08                               // or    dl, bl
+	WORD $0xc208                               // or    dl, al
+	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
+	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
+	WORD $0x5688; BYTE $0x03                   // mov    byte [rsi + 3], dl
+	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x0000016024b48948                   // mov    qword [rsp + 352], rsi
+	QUAD $0x0000008024848348; BYTE $0xff       // add    qword [rsp + 128], -1
+	JNE  LBB8_102
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000017024bc8b4c                   // mov    r15, qword [rsp + 368]
+	JMP  LBB8_125
+
+LBB8_104:
+	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_108
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_106:
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x33               // movzx    r8d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x333c8841                           // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB8_106
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB8_108:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_112
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	QUAD $0x0000009024b4894c // mov    qword [rsp + 144], r14
+	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
+
+LBB8_110:
+	QUAD $0x000000e8249c894c                   // mov    qword [rsp + 232], r11
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
+	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
+	LONG $0xd69f0f40                           // setg    sil
+	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
+	LONG $0xd09f0f41                           // setg    r8b
+	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
+	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
+	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
+	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
+	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
+	QUAD $0x0000014024949f0f                   // setg    byte [rsp + 320]
+	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
+	QUAD $0x0000012024949f0f                   // setg    byte [rsp + 288]
+	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
+	QUAD $0x0000010024949f0f                   // setg    byte [rsp + 256]
+	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
+	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
+	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x48               // add    sil, byte [rsp + 72]
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 320]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202484b60f                   // movzx    eax, byte [rsp + 288]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001002484b60f                   // movzx    eax, byte [rsp + 256]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x035b8841                           // mov    byte [r11 + 3], bl
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB8_110
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+
+LBB8_112:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB8_179
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB8_150
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB8_152
+
+LBB8_115:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB8_179
+
+LBB8_116:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB8_156
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB8_158
+
+LBB8_118:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB8_179
+
+LBB8_119:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB8_160
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB8_162
+
+LBB8_121:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB8_179
+
+LBB8_122:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB8_164
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB8_166
+
+LBB8_124:
+	QUAD $0x00000160249c894c // mov    qword [rsp + 352], r11
+	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
+
+LBB8_125:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB8_179
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB8_169
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB8_172
+
+LBB8_128:
+	WORD $0x894d; BYTE $0xdf // mov    r15, r11
+	LONG $0x05fdc149         // sar    r13, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JGE  LBB8_34
+
+LBB8_129:
+	QUAD $0x0000016024bc894c // mov    qword [rsp + 352], r15
+	WORD $0x8949; BYTE $0xd4 // mov    r12, rdx
+
+LBB8_130:
+	LONG $0x05e5c149         // shl    r13, 5
+	WORD $0x394d; BYTE $0xd5 // cmp    r13, r10
+	JGE  LBB8_179
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xe8 // sub    r8, r13
+	WORD $0xf749; BYTE $0xd5 // not    r13
+	WORD $0x014d; BYTE $0xd5 // add    r13, r10
+	JNE  LBB8_174
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB8_177
+
+LBB8_133:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+
+LBB8_134:
+	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
+	WORD $0x970f; BYTE $0xd0     // seta    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x422ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rdx + 8]
+	LONG $0xd1970f41             // seta    r9b
+	LONG $0x10c28348             // add    rdx, 16
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x36048841             // mov    byte [r14 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB8_134
+
+LBB8_135:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB8_179
+	LONG $0x022ef9c5 // vucomisd    xmm0, qword [rdx]
+	JMP  LBB8_149
+
+LBB8_137:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+
+LBB8_138:
+	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x6a3b4466; BYTE $0x02 // cmp    r13w, word [rdx + 2]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd19f0f41             // setg    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x36048841             // mov    byte [r14 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB8_138
+
+LBB8_139:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB8_179
+	LONG $0x2a3b4466 // cmp    r13w, word [rdx]
+	JMP  LBB8_154
+
+LBB8_141:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+
+LBB8_142:
+	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0xd19f0f41             // setg    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x36048841             // mov    byte [r14 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB8_142
+
+LBB8_143:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB8_179
+	WORD $0x3b4c; BYTE $0x2a // cmp    r13, qword [rdx]
+	JMP  LBB8_154
+
+LBB8_145:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+
+LBB8_146:
+	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
+	WORD $0x970f; BYTE $0xd0     // seta    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x422ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rdx + 4]
+	LONG $0xd1970f41             // seta    r9b
+	LONG $0x08c28348             // add    rdx, 8
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x36048841             // mov    byte [r14 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB8_146
+
+LBB8_147:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB8_179
+	LONG $0x022ef8c5 // vucomiss    xmm0, dword [rdx]
+
+LBB8_149:
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	JMP  LBB8_155
+
+LBB8_150:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+
+LBB8_151:
+	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd19f0f41             // setg    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x36048841             // mov    byte [r14 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB8_151
+
+LBB8_152:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB8_179
+	WORD $0x3b44; BYTE $0x2a // cmp    r13d, dword [rdx]
+
+LBB8_154:
+	WORD $0x9f0f; BYTE $0xd0 // setg    al
+
+LBB8_155:
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x13348a41         // mov    sil, byte [r11 + rdx]
+	LONG $0x07e78040         // and    dil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf989             // mov    ecx, edi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
+	JMP  LBB8_179
+
+LBB8_156:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB8_157:
+	WORD $0x3944; BYTE $0x2a     // cmp    dword [rdx], r13d
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046a3944             // cmp    dword [rdx + 4], r13d
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB8_157
+
+LBB8_158:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB8_179
+	WORD $0x3944; BYTE $0x2a // cmp    dword [rdx], r13d
+	JMP  LBB8_168
+
+LBB8_160:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB8_161:
+	WORD $0x394c; BYTE $0x2a     // cmp    qword [rdx], r13
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086a394c             // cmp    qword [rdx + 8], r13
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB8_161
+
+LBB8_162:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB8_179
+	WORD $0x394c; BYTE $0x2a // cmp    qword [rdx], r13
+	JMP  LBB8_168
+
+LBB8_164:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB8_165:
+	LONG $0x2a394466             // cmp    word [rdx], r13w
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x6a394466; BYTE $0x02 // cmp    word [rdx + 2], r13w
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB8_165
+
+LBB8_166:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB8_179
+	LONG $0x2a394466 // cmp    word [rdx], r13w
+
+LBB8_168:
+	WORD $0xc019             // sbb    eax, eax
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
+	JMP  LBB8_179
+
+LBB8_169:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000016024948b4c // mov    r10, qword [rsp + 352]
+
+LBB8_170:
+	LONG $0x04343845             // cmp    byte [r12 + rax], r14b
+	WORD $0xf619                 // sbb    esi, esi
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x1cb60f41; BYTE $0x3a // movzx    ebx, byte [r10 + rdi]
+	WORD $0x3040; BYTE $0xde     // xor    sil, bl
+	WORD $0x2040; BYTE $0xf2     // and    dl, sil
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3a148841             // mov    byte [r10 + rdi], dl
+	LONG $0x04743845; BYTE $0x01 // cmp    byte [r12 + rax + 1], r14b
+	LONG $0x02408d48             // lea    rax, [rax + 2]
+	WORD $0xf619                 // sbb    esi, esi
+	WORD $0x3040; BYTE $0xd6     // xor    sil, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xf3     // and    bl, sil
+	WORD $0xd330                 // xor    bl, dl
+	LONG $0x3a1c8841             // mov    byte [r10 + rdi], bl
+	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
+	JNE  LBB8_170
+	WORD $0x0149; BYTE $0xc4     // add    r12, rax
+
+LBB8_172:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB8_179
+	LONG $0x24343845         // cmp    byte [r12], r14b
+	WORD $0xd219             // sbb    edx, edx
+	WORD $0x8948; BYTE $0xc6 // mov    rsi, rax
+	LONG $0x03eec148         // shr    rsi, 3
+	QUAD $0x0000016024848b4c // mov    r8, qword [rsp + 352]
+	LONG $0x303c8a41         // mov    dil, byte [r8 + rsi]
+	WORD $0x0724             // and    al, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xfa // xor    dl, dil
+	WORD $0xd320             // and    bl, dl
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	JMP  LBB8_179
+
+LBB8_174:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x00000160249c8b4c // mov    r11, qword [rsp + 352]
+
+LBB8_175:
+	LONG $0x34343a45             // cmp    r14b, byte [r12 + rsi]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x34743a45; BYTE $0x01 // cmp    r14b, byte [r12 + rsi + 1]
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB8_175
+	WORD $0x0149; BYTE $0xf4     // add    r12, rsi
+
+LBB8_177:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB8_179
+	LONG $0x24343a45         // cmp    r14b, byte [r12]
+	WORD $0x9f0f; BYTE $0xd0 // setg    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	QUAD $0x0000016024848b4c // mov    r8, qword [rsp + 352]
+	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
+
+LBB8_179:
+	MOVQ 1312(SP), SP
+	VZEROUPPER
+	RET
+
+LBB8_180:
+	LONG $0xe0e58349                     // and    r13, -32
+	WORD $0x894c; BYTE $0xe8             // mov    rax, r13
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	QUAD $0x0000017024848948             // mov    qword [rsp + 368], rax
+	QUAD $0x0000018024ac894c             // mov    qword [rsp + 384], r13
+	LONG $0xaf048d4b                     // lea    rax, [r15 + 4*r13]
+	QUAD $0x0000016024848948             // mov    qword [rsp + 352], rax
+	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00024024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 576], ymm0
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
+
+LBB8_181:
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0000017824848948                   // mov    qword [rsp + 376], rax
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
+	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x3244b60f; BYTE $0x02               // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x000220248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 544], xmm1
+	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x3244b60f; BYTE $0x03               // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x3244b60f; BYTE $0x04               // movzx    eax, byte [rdx + rsi + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
+	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
+	LONG $0xe86e79c5                           // vmovd    xmm13, eax
+	LONG $0x3244b60f; BYTE $0x05               // movzx    eax, byte [rdx + rsi + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
+	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
+	LONG $0x3244b60f; BYTE $0x06               // movzx    eax, byte [rdx + rsi + 6]
+	QUAD $0x000000d824b48948                   // mov    qword [rsp + 216], rsi
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x3244b60f; BYTE $0x07               // movzx    eax, byte [rdx + rsi + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	QUAD $0x0000010024848948                   // mov    qword [rsp + 256], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
+	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
+	LONG $0x40cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 576
+	QUAD $0x00000090249c8948                   // mov    qword [rsp + 144], rbx
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
+	LONG $0x80cc8149; WORD $0x0002; BYTE $0x00 // or    r12, 640
+	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
+	LONG $0xa0ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 672
+	LONG $0x2474894c; BYTE $0x18               // mov    qword [rsp + 24], r14
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	LONG $0xc0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 704
+	LONG $0x2454894c; BYTE $0x68               // mov    qword [rsp + 104], r10
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	LONG $0xe0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 736
+	QUAD $0x000000b024bc8948                   // mov    qword [rsp + 176], rdi
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
+	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
+	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	LONG $0x40cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 832
+	QUAD $0x00000088249c894c                   // mov    qword [rsp + 136], r11
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	LONG $0x60c98149; WORD $0x0003; BYTE $0x00 // or    r9, 864
+	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
+	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
+	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
+	QUAD $0x000000a82484894c                   // mov    qword [rsp + 168], r8
+	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
+	LONG $0xa0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 928
+	QUAD $0x000000c824b48948                   // mov    qword [rsp + 200], rsi
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000e0248c8948                   // mov    qword [rsp + 224], rcx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
+	QUAD $0x00000098248c8948                   // mov    qword [rsp + 152], rcx
+	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
+	LONG $0x207923c4; WORD $0x2a0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r13], 1
+	LONG $0x2031e3c4; WORD $0x1a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rbx], 2
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 3
+	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + r12], 4
+	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
+	QUAD $0x000000a024a4894c                   // mov    qword [rsp + 160], r12
+	LONG $0x2079a3c4; WORD $0x3204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r14], 5
+	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + r10], 6
+	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 8
+	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 9
+	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r11], 10
+	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r9], 11
+	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + r8], 12
+	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
+	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
+	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 15
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 1
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 2
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r12], 3
+	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
+	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
+	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
+	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + r10], 6
+	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
+	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 7
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 9
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 10
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 11
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 12
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 13
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 14
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 15
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x01013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 1
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x02013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 2
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x03013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 3
+	QUAD $0x04012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 4
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x05012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 5
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x06013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 6
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x07013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x08013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 8
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x09013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 9
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0a013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 11
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0c013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 12
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x0d013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e013a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 1], 14
+	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
+	QUAD $0x0f012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 15
+	QUAD $0x0101326c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r14 + 1], 1
+	QUAD $0x02011a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 1], 2
+	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
+	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
+	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
+	QUAD $0x05010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 5
+	QUAD $0x0601126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 1], 6
+	QUAD $0x07013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 7
+	QUAD $0x0801326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 8
+	QUAD $0x0901026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 9
+	QUAD $0x0a011a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 1], 10
+	QUAD $0x0b010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 11
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
+	LONG $0x386563c4; WORD $0x01f8             // vinserti128    ymm15, ymm3, xmm0, 1
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f0102442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 1], 15
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
+	LONG $0xce6e79c5                           // vmovd    xmm9, esi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0004e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm0
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
+	LONG $0xd66e79c5                           // vmovd    xmm10, esi
+	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
+	QUAD $0x00022024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 544]
+	QUAD $0x010202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 1
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x02020a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 2], 2
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x030212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x060202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 6
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x070202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 7
+	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
+	QUAD $0x080222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 2], 8
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x09022a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 2], 9
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x0a020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 10
+	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
+	QUAD $0x0b021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 11
+	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
+	QUAD $0x0c0232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 2], 12
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	QUAD $0x0d023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
+	QUAD $0x0102025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 1
+	QUAD $0x02023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 2
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0302325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 3
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0402325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 4
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x0502325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 5
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0602325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 6
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x08021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 9
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0a023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 10
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x0b023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 11
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0c023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 12
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0d023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 13
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x0e023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 14
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0f023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 15
+	QUAD $0x010302642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r8 + 3], 1
+	QUAD $0x02030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 2
+	QUAD $0x030312642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 3], 3
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x04030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 4
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x05033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 5
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x06033a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 3], 6
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x07030a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 3], 7
+	QUAD $0x080322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 3], 8
+	QUAD $0x09032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 9
+	QUAD $0x0a030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 10
+	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
+	QUAD $0x0b031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 11
+	QUAD $0x0c0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 12
+	QUAD $0x0d033a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 3], 13
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
+	QUAD $0x0e031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 14
+	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
+	QUAD $0x0f0332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 3], 15
+	QUAD $0x0103026c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + rax + 3], 1
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x02030a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 3], 2
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0403026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 4
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0503026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 5
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0603026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 6
+	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
+	QUAD $0x08031a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 3], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0903026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 9
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0a03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 10
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
+	LONG $0xc66e79c5                           // vmovd    xmm8, esi
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f0302442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 3], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x0274b60f; BYTE $0x09               // movzx    esi, byte [rdx + rax + 9]
+	LONG $0xde6e79c5                           // vmovd    xmm11, esi
+	QUAD $0x0001a024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 416]
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x010402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 1
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x020402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 2
+	QUAD $0x030412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 4], 3
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x04042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 4
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x050402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 5
+	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
+	QUAD $0x06043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 6
+	QUAD $0x07040a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 4], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x08043a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 4], 8
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x090432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 4], 9
+	QUAD $0x0a0402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 10
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x0b0402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 11
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0c040a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 4], 12
+	QUAD $0x0d0422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 4], 13
+	QUAD $0x0e041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 14
+	QUAD $0x0f0432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 4], 15
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0104325c2011e3c4                   // vpinsrb    xmm3, xmm13, byte [rdx + rsi + 4], 1
+	QUAD $0x02040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 2
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x03041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 3
+	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
+	QUAD $0x0404225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 4], 4
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x05040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 5
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0604325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 6
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x07041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 7
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x08040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 9
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0a040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 10
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x0b04325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 11
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x0c040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 13
+	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
+	QUAD $0x0e04125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 14
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0f040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 15
+	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
+	QUAD $0x010512642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + r10 + 5], 1
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x02050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 2
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x03050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 3
+	QUAD $0x04052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 4
+	QUAD $0x050502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 5
+	QUAD $0x06053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 6
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x07050a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 5], 7
+	QUAD $0x08053a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 5], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x090502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 9
+	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
+	QUAD $0x0a052a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 5], 10
+	QUAD $0x0b0502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 11
+	QUAD $0x000000a824848b4c                   // mov    r8, qword [rsp + 168]
+	QUAD $0x0c0502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 12
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0d0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 14
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0f0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 15
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0105026c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rax + 5], 1
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x0205026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 2
+	QUAD $0x03051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 3
+	QUAD $0x0405226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 5], 4
+	QUAD $0x05050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 5
+	QUAD $0x0605326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 5], 6
+	QUAD $0x07051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 7
+	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	QUAD $0x08050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0905026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 9
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
+	QUAD $0x0b05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 11
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
+	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f0502442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 5], 15
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
+	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
+	QUAD $0x010612442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + r10 + 6], 1
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+	QUAD $0x020632442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 6], 2
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x030602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x040602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 4
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x050632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 5
+	QUAD $0x06063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 6
+	QUAD $0x07060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 7
+	QUAD $0x08063a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 6], 8
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x09060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 9
+	QUAD $0x0a062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 10
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0b0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 11
+	QUAD $0x0c0602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 12
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x0d0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 14
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0f0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 15
+	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
+	QUAD $0x0106126c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r10 + 6], 1
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	QUAD $0x02061a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 6], 2
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0306326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 3
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0406326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 4
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x0506326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 5
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x06061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 6
+	QUAD $0x0706226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 7
+	QUAD $0x08060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 8
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+	QUAD $0x09063a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 6], 9
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0a061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 10
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x0b060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 11
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	QUAD $0x0c06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 12
+	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
+	QUAD $0x0d062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 13
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	QUAD $0x0e061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 14
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0f061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 15
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x01071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 1
+	QUAD $0x020732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 2
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x03071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 3
+	QUAD $0x040702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 4
+	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x050702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 5
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x060702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 6
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x070702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 7
+	QUAD $0x08073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 8
+	QUAD $0x09070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 11
+	QUAD $0x0c0702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 12
+	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0d0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 14
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x0f070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 15
+	QUAD $0x0107124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 7], 1
+	QUAD $0x02071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 2
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x03070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 3
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
+	QUAD $0x0507324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 5
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x06070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 6
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x07070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 7
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x08070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 8
+	QUAD $0x09073a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 7], 9
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
+	QUAD $0x0b070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 11
+	QUAD $0x0c07224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 12
+	QUAD $0x0d072a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 7], 13
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x00020024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm0
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x0e070a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rcx + 7], 14
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0f070a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 7], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x0a74b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rcx + 11]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x01080a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rcx + 8], 1
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x02080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 2
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x03082a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 8], 3
+	QUAD $0x040832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 8], 4
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x05080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 5
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x060832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 6
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x070832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 7
+	QUAD $0x08083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 8
+	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
+	QUAD $0x090802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 9
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x0a0812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 10
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0b0832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 8], 11
+	QUAD $0x0c081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 12
+	QUAD $0x0d0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 8], 14
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x0f080a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 8], 15
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x01081a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r11 + 8], 1
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x0208326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 2
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0308326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 3
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0408326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 4
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x05081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 5
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x06083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 6
+	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
+	QUAD $0x0708226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 7
+	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
+	QUAD $0x0808326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 8
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x09081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 9
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0a081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 10
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x0b081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 11
+	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
+	QUAD $0x0c081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 12
+	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
+	QUAD $0x0d08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 13
+	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
+	QUAD $0x0e08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 14
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0f081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 15
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x01091a742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rbx + 9], 1
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x02091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 2
+	QUAD $0x03092a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 9], 3
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x04091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 4
+	QUAD $0x05090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 5
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x06090a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 9], 6
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x07091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 7
+	QUAD $0x08093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 8
+	QUAD $0x090902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 9
+	QUAD $0x0a0912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 10
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0b091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 11
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0c093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 12
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x0d093a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 9], 13
+	QUAD $0x0e0902742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 9], 14
+	QUAD $0x0f090a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 9], 15
+	QUAD $0x01091a7c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + r11 + 9], 1
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x02090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 2
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0309027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 3
+	QUAD $0x0409327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 4
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0509027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 5
+	QUAD $0x06093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 6
+	QUAD $0x0709227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 9], 7
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+	QUAD $0x08093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0909027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 9
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0a09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 10
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x0b09227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 9], 11
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
+	QUAD $0x0e09327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
+	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
+	QUAD $0x0f09326c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r14 + 9], 15
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x00048024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm5
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
+	LONG $0xee6ef9c5                           // vmovd    xmm5, esi
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x010a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 1
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x020a2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 10], 2
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x030a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 3
+	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
+	QUAD $0x040a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 4
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x050a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 5
+	QUAD $0x060a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 6
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x070a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 7
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x080a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 8
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x090a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0a0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 10
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	QUAD $0x0b0a1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 10], 11
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x0c0a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 12
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x0d0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 14
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0f0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 15
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x010a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 1
+	QUAD $0x020a0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 10], 2
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x030a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 3
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x040a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 4
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x050a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 5
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x060a0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 10], 6
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
+	QUAD $0x080a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 8
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+	QUAD $0x090a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 9
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0a0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 10
+	QUAD $0x0b0a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 11
+	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
+	QUAD $0x0c0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 12
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0d0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 13
+	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
+	QUAD $0x0e0a22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 10], 14
+	QUAD $0x0f0a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 15
+	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
+	QUAD $0x010b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 1
+	QUAD $0x020b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 2
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x030b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 3
+	QUAD $0x040b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 4
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x050b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 5
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x060b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 6
+	QUAD $0x070b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 7
+	QUAD $0x080b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 8
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x090b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 10
+	QUAD $0x0b0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 11
+	QUAD $0x0c0b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 12
+	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
+	QUAD $0x0d0b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 14
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x0f0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 15
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x010b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 1
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x020b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 2
+	QUAD $0x030b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 3
+	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x040b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 4
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x050b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 5
+	QUAD $0x060b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 11], 6
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x070b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 7
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x080b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 8
+	QUAD $0x090b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 9
+	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
+	QUAD $0x0a0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 10
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0b0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 11
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x0c0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 12
+	QUAD $0x0d0b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000460249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm3
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x0e0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 14
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	LONG $0x0a74b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rcx + 13]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x0f0b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000440248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x0a74b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rcx + 13]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x010c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 1
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x020c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 2
+	QUAD $0x030c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 3
+	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
+	QUAD $0x040c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 12], 4
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x050c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 5
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x060c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 6
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+	QUAD $0x070c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 7
+	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
+	QUAD $0x080c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 12], 8
+	QUAD $0x090c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 9
+	QUAD $0x0a0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 10
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0b0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 11
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0c0c3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 12], 12
+	QUAD $0x0d0c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 12], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 14
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0f0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 15
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x010c02542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r8 + 12], 1
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
+	QUAD $0x030c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 3
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x040c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 4
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x050c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 5
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x060c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 6
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x070c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 7
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x080c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 8
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x090c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 9
+	QUAD $0x0a0c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 10
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
+	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
+	QUAD $0x0c0c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 12
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0d0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 13
+	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
+	QUAD $0x0e0c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 14
+	QUAD $0x0f0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 15
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x010d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 1
+	QUAD $0x020d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 2
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x030d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 3
+	QUAD $0x040d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 4
+	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
+	QUAD $0x050d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 5
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x060d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 6
+	QUAD $0x070d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 7
+	QUAD $0x080d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 13], 8
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x090d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 9
+	QUAD $0x0a0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 11
+	QUAD $0x0c0d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 13], 12
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0d0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 13], 14
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x0f0d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 13], 15
+	QUAD $0x010d024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 13], 1
+	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
+	WORD $0x8949; BYTE $0xf0                   // mov    r8, rsi
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x030d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 3
+	QUAD $0x040d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 4
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x050d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 5
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x060d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 6
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x070d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 7
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x080d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 8
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x090d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 9
+	QUAD $0x0a0d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 10
+	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
+	QUAD $0x0b0d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 11
+	LONG $0x24748b4c; BYTE $0x08               // mov    r14, qword [rsp + 8]
+	QUAD $0x0c0d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 12
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0d0d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 13
+	QUAD $0x0e0d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 14
+	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
+	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
+	QUAD $0x0f0d22442071a3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + r12 + 13], 15
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	LONG $0x3274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rsi + 14]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	LONG $0x3274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rsi + 14]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x010e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 1
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x020e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 2
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x030e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 3
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x040e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 4
+	QUAD $0x050e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 5
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x060e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 6
+	QUAD $0x070e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 7
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x080e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 8
+	QUAD $0x090e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0a0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 10
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0b0e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 11
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0c0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 12
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x0d0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 13
+	QUAD $0x0e0e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 14
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x0f0e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 15
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x010e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 14], 1
+	QUAD $0x020e02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 14], 2
+	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
+	QUAD $0x030e02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 14], 3
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x040e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 14], 4
+	QUAD $0x050e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 14], 5
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x060e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 14], 6
+	QUAD $0x070e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 7
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x080e1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 14], 8
+	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
+	QUAD $0x090e2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 14], 9
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0a0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 10
+	QUAD $0x0b0e3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 14], 11
+	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
+	QUAD $0x0c0e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 12
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0d0e1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 14], 13
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x0e0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 14
+	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
+	QUAD $0x0f0e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 14], 15
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	LONG $0x3274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rsi + 15]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x010f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 1
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x020f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 2
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x030f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 3
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x040f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 4
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x050f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 5
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x060f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 6
+	QUAD $0x070f12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 15], 7
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x080f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 8
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x090f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 9
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0a0f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 10
+	QUAD $0x0b0f22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 15], 11
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x0c0f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 15], 12
+	QUAD $0x0d0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e0f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 14
+	QUAD $0x0f0f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 15
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	LONG $0x3274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rsi + 15]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x010f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 1
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x020f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 2
+	QUAD $0x030f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 3
+	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
+	QUAD $0x040f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 4
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x050f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 5
+	QUAD $0x060f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 6
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x070f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 7
+	QUAD $0x080f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 8
+	QUAD $0x090f2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 15], 9
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0a0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 10
+	QUAD $0x0b0f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 11
+	QUAD $0x0c0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 12
+	QUAD $0x0d0f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 13
+	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
+	QUAD $0x0e0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 14
+	QUAD $0x0f0f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 15
+	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
+	LONG $0x74b60f42; WORD $0x103a             // movzx    esi, byte [rdx + r15 + 16]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x011002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 1
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+	QUAD $0x021032442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 16], 2
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x03103a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 16], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x041002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 4
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x051002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 5
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x061002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 6
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x071002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x081002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x091002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 11
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0c1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 12
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x0d101a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 16], 13
+	QUAD $0x0e100a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 16], 14
+	QUAD $0x0f100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x0274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rax + 16]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x01100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 1
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x02100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 2
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x03100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 3
+	QUAD $0x0410124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 4
+	QUAD $0x0510024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 16], 5
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x06100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 6
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x07100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 7
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x08100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 8
+	QUAD $0x09102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 9
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	QUAD $0x0a100a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 16], 10
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0b100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 11
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x0c100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 13
+	QUAD $0x0e101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 14
+	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
+	QUAD $0x0f10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 15
+	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
+	LONG $0x74b60f42; WORD $0x113a             // movzx    esi, byte [rdx + r15 + 17]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
+	QUAD $0x01113a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 17], 1
+	QUAD $0x021132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 2
+	QUAD $0x03113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 3
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x04113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 4
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x051132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 5
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x061112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 6
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x071132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 7
+	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
+	QUAD $0x081102542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 17], 8
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x09111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 9
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x0a1132542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 17], 10
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0b1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 11
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x0c1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 12
+	QUAD $0x0d111a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 17], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0e111a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 17], 14
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0f1132542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 17], 15
+	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
+	QUAD $0x0111225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 17], 1
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x0211025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 2
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0311025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 3
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0411025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 4
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0511025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 5
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0611025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 6
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0711025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 7
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0811025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 8
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0911325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 9
+	QUAD $0x0a110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 10
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x0b11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 11
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0d11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 13
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x0e11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	QUAD $0x0f112a442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r13 + 17], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	LONG $0x0a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rcx + 18]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x01123a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 18], 1
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x02120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 2
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x03122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 3
+	QUAD $0x04123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 4
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x05120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 5
+	QUAD $0x061212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 6
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x071232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 7
+	QUAD $0x081202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 18], 8
+	QUAD $0x09121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 9
+	QUAD $0x0a1232442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 18], 10
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x0b1202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 18], 11
+	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
+	QUAD $0x0c120a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 18], 12
+	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
+	QUAD $0x0d1212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 13
+	QUAD $0x0e121a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 18], 14
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0f1232442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 18], 15
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	LONG $0x3274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rsi + 18]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x0112224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 1
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	QUAD $0x02121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 2
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x0312224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 3
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x04123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 4
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x0512324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 5
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x06123a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 18], 6
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0712324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 7
+	QUAD $0x0812024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0912024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 9
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0a12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 10
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x0b12324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 11
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0c12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 13
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 14
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 15
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	LONG $0x0274b60f; BYTE $0x13               // movzx    esi, byte [rdx + rax + 19]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x011302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 1
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x021332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 2
+	QUAD $0x03132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 3
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x041332542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 19], 4
+	QUAD $0x05130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 5
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x06130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 6
+	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
+	QUAD $0x07132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 7
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x08130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 8
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x09130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0a130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 10
+	QUAD $0x0b1302542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 19], 11
+	QUAD $0x0c130a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 19], 12
+	QUAD $0x0d1312542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 19], 13
+	QUAD $0x0e131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 14
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x0f131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 15
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x0a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rcx + 19]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
+	QUAD $0x0113125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 1
+	QUAD $0x02131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 2
+	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
+	QUAD $0x0313225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 3
+	QUAD $0x04133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 4
+	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x0513225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 5
+	QUAD $0x06133a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 19], 6
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x07130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 7
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x08133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 8
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	QUAD $0x09130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 9
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0a13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 10
+	QUAD $0x0b13325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 11
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x0c13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 12
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0d13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 13
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x0e13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 14
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0f13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
+	LONG $0x74b60f42; WORD $0x143a             // movzx    esi, byte [rdx + r15 + 20]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x011402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 1
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x021402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 2
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x031402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x041402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 4
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x051402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 5
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x061402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 6
+	QUAD $0x07142a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 20], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x081402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x091402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 11
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0c1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 12
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0d1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 20], 14
+	QUAD $0x0f141a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 20], 15
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	LONG $0x1a74b60f; BYTE $0x14               // movzx    esi, byte [rdx + rbx + 20]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x0114124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 1
+	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
+	QUAD $0x0214324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 20], 2
+	QUAD $0x0314024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 20], 3
+	QUAD $0x04141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 4
+	QUAD $0x0514224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 5
+	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
+	QUAD $0x0614124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 6
+	QUAD $0x07140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 7
+	QUAD $0x08143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 8
+	QUAD $0x09140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 9
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0a140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 10
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x0b14224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 11
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0c143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 13
+	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
+	QUAD $0x0e141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 14
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x0f140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 15
+	LONG $0x74b60f42; WORD $0x153a             // movzx    esi, byte [rdx + r15 + 21]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x011532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 1
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x021502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 2
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x03152a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 21], 3
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x041532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 4
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x051532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 5
+	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
+	QUAD $0x06153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 6
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x071532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 7
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x081532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 8
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x091532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 9
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0a1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 10
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0b1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 11
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x0c1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 12
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x0d1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 14
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0f1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 15
+	LONG $0x1a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rbx + 21]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0115325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 1
+	QUAD $0x0215325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 2
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0315325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 3
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0415325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 4
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x0515325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 5
+	QUAD $0x0615125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 6
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+	QUAD $0x0715125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 7
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0815325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 8
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0915325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 9
+	QUAD $0x0a150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 10
+	QUAD $0x0b15225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 21], 11
+	QUAD $0x0c153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 12
+	QUAD $0x0d15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 13
+	QUAD $0x0e151a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 21], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	QUAD $0x0f150a442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r9 + 21], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x011602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 1
+	QUAD $0x021602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 2
+	QUAD $0x03162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 3
+	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
+	QUAD $0x04160a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 22], 4
+	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
+	QUAD $0x051622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 5
+	QUAD $0x06163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 6
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x07161a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 22], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x08163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x091602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 9
+	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
+	QUAD $0x0a1602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b160a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 22], 11
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0c160a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 22], 12
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x0d160a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 22], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e160a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 22], 14
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x0f161a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 22], 15
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x0a74b60f; BYTE $0x16               // movzx    esi, byte [rdx + rcx + 22]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x01160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 1
+	QUAD $0x0216324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 2
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x03160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 3
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x04160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 4
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x06160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 6
+	QUAD $0x0716124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 7
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x08160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 9
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0a160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 10
+	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
+	QUAD $0x0b163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 11
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x0c160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 12
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0d16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 13
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x0e16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 14
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x0f162a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 22], 15
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	LONG $0x3274b60f; BYTE $0x17               // movzx    esi, byte [rdx + rsi + 23]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x011732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 1
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x021732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 2
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x031732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 3
+	QUAD $0x04170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 4
+	QUAD $0x051722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 23], 5
+	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
+	QUAD $0x06170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 6
+	QUAD $0x07171a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 23], 7
+	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
+	QUAD $0x08173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 8
+	QUAD $0x091702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 9
+	QUAD $0x0a1702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 23], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b1702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 11
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0c1702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 12
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0d1702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0e171a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 23], 14
+	QUAD $0x0f171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 15
+	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
+	LONG $0x74b60f42; WORD $0x1702             // movzx    esi, byte [rdx + r8 + 23]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0117025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 1
+	QUAD $0x0217325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 2
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x0317325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 3
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x04171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 4
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x05173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 5
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0617325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 6
+	QUAD $0x0717125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 7
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0817325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 8
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0917325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 9
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0a17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 10
+	QUAD $0x0b173a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 23], 11
+	QUAD $0x0c170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 13
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x0e170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 14
+	QUAD $0x0f172a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 23], 15
+	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	LONG $0x0a74b60f; BYTE $0x18               // movzx    esi, byte [rdx + rcx + 24]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
+	QUAD $0x01182a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 24], 1
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x021832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 2
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x031832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 3
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x041832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 4
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x051832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 5
+	QUAD $0x06180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 6
+	QUAD $0x071822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 7
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x081832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 8
+	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
+	QUAD $0x091822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 9
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0a1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 10
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0b1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 11
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x0c1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 12
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x0d1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 13
+	QUAD $0x0e181a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 24], 14
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0f1832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 15
+	LONG $0x74b60f42; WORD $0x1802             // movzx    esi, byte [rdx + r8 + 24]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x0118024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 1
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x02180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 2
+	QUAD $0x0318324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 3
+	QUAD $0x04181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 4
+	QUAD $0x05183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 5
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0618024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 6
+	QUAD $0x0718124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 7
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0818024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 8
+	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
+	QUAD $0x0918124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 9
+	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
+	QUAD $0x0a183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 10
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x0b18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 11
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x0c18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 12
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0d18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 13
+	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
+	QUAD $0x0e18024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 14
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0f18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 15
+	LONG $0x0a74b60f; BYTE $0x19               // movzx    esi, byte [rdx + rcx + 25]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x01192a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 25], 1
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x02192a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 25], 2
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x03191a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 25], 3
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+	QUAD $0x04191a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 25], 4
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x05190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 5
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x06190a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 25], 6
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x071932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 7
+	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
+	QUAD $0x081932542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 25], 8
+	QUAD $0x091922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 9
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0a1932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 10
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0b1922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 11
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x0c1932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 12
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x0d193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e1932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 14
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0f1932542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 25], 15
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	LONG $0x3274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rsi + 25]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0119325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 1
+	QUAD $0x02190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 2
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0319325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 3
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0419325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 4
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x0519325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 5
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0619325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 6
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0719325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 7
+	QUAD $0x0819025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 8
+	QUAD $0x0919125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 9
+	QUAD $0x0a193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 10
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x0b190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 11
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0c19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 13
+	QUAD $0x0e19025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 14
+	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f1902442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rax + 25], 15
+	LONG $0x387d63c4; WORD $0x01c2             // vinserti128    ymm8, ymm0, xmm2, 1
+	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
+	LONG $0x74b60f42; WORD $0x1a3a             // movzx    esi, byte [rdx + r15 + 26]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x011a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 1
+	QUAD $0x021a2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 26], 2
+	QUAD $0x031a1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 26], 3
+	QUAD $0x041a1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 26], 4
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x051a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 5
+	QUAD $0x061a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 6
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x071a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 7
+	QUAD $0x081a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x091a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 10
+	QUAD $0x0b1a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 11
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x0c1a1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 26], 12
+	QUAD $0x0d1a3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 26], 13
+	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
+	QUAD $0x0e1a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 14
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x0f1a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x0274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rax + 26]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x011a1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 26], 1
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x021a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 2
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x031a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 3
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x041a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 4
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x051a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 5
+	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
+	QUAD $0x061a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 6
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x071a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 7
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x081a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 8
+	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
+	QUAD $0x091a324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 26], 9
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0a1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 10
+	QUAD $0x0b1a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 11
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x0c1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 12
+	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
+	QUAD $0x0d1a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 13
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x0e1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 14
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0f1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 15
+	LONG $0x74b60f42; WORD $0x1b3a             // movzx    esi, byte [rdx + r15 + 27]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
+	QUAD $0x011b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 27], 1
+	QUAD $0x021b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 27], 2
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x031b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 3
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x041b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 4
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x051b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 5
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x061b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 6
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x071b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 7
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x081b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 8
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x091b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 9
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0a1b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 10
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0b1b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 11
+	QUAD $0x0c1b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 27], 12
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x0d1b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 27], 13
+	QUAD $0x0e1b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 27], 14
+	QUAD $0x0f1b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 15
+	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
+	LONG $0x74b60f42; WORD $0x1b22             // movzx    esi, byte [rdx + r12 + 27]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x011b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 1
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	QUAD $0x021b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 2
+	QUAD $0x031b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 3
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x041b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 4
+	QUAD $0x051b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 5
+	QUAD $0x061b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 6
+	QUAD $0x071b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 7
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x081b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 8
+	QUAD $0x091b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 9
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0a1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 10
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0b1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 11
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x0c1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 12
+	QUAD $0x0d1b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 13
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x0e1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 14
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0f1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	LONG $0x0a74b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rcx + 28]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	QUAD $0x011c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 1
+	QUAD $0x021c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 2
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x031c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 3
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x041c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 4
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x051c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 5
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x061c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 6
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+	QUAD $0x071c32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 28], 7
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x081c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 8
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x091c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 9
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x0a1c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 28], 10
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0b1c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 11
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0c1c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 12
+	QUAD $0x0d1c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e1c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 28], 14
+	QUAD $0x0f1c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 15
+	LONG $0x74b60f42; WORD $0x1c22             // movzx    esi, byte [rdx + r12 + 28]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
+	QUAD $0x011c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 1
+	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
+	QUAD $0x021c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 2
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
+	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
+	QUAD $0x041c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 4
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x051c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 5
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x061c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 6
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x071c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 7
+	QUAD $0x081c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x091c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 9
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0a1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 10
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x0b1c1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 28], 11
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x0c1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 12
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0d1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 13
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x0e1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 14
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0f1c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 15
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	LONG $0x0274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rax + 29]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x011d32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 29], 1
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x021d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 2
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x031d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 3
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x041d32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 29], 4
+	QUAD $0x051d2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 29], 5
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x061d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 6
+	QUAD $0x071d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x081d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 8
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x091d32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 29], 9
+	QUAD $0x0a1d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 10
+	QUAD $0x0b1d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 11
+	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
+	QUAD $0x0c1d32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 29], 12
+	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
+	QUAD $0x0d1d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1d02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 29], 14
+	QUAD $0x0f1d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 15
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	LONG $0x74b60f42; WORD $0x1d2a             // movzx    esi, byte [rdx + r13 + 29]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x011d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 29], 1
+	QUAD $0x021d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 2
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x031d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 29], 3
+	QUAD $0x041d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 4
+	QUAD $0x051d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 5
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x061d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 6
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	QUAD $0x071d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 7
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x081d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 8
+	QUAD $0x091d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 9
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0a1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 10
+	QUAD $0x0b1d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 29], 11
+	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
+	QUAD $0x0c1d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 29], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d1d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 13
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e1d02642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + rax + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f1d02442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + rax + 29], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
+	LONG $0x74b60f42; WORD $0x1e3a             // movzx    esi, byte [rdx + r15 + 30]
+	LONG $0xc66ef9c5                           // vmovd    xmm0, esi
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x011e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 1
+	LONG $0x74b60f42; WORD $0x1f3a             // movzx    esi, byte [rdx + r15 + 31]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x011f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 1
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
+	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
+	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
+	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
+	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x061e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 6
+	QUAD $0x061f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 6
+	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
+	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
+	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x091e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 9
+	QUAD $0x091f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 10
+	QUAD $0x0a1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 11
+	QUAD $0x0b1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 11
+	QUAD $0x0c1e32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 30], 12
+	QUAD $0x0c1f324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 31], 12
+	QUAD $0x0d1e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 30], 13
+	QUAD $0x0d1f124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 31], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 14
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
+	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
+	LONG $0x44b60f42; WORD $0x1e2a             // movzx    eax, byte [rdx + r13 + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x011e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 30], 1
+	LONG $0x44b60f42; WORD $0x1f2a             // movzx    eax, byte [rdx + r13 + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f027c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r8 + 31], 1
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x021e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 2
+	QUAD $0x021f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 2
+	QUAD $0x031e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 30], 3
+	QUAD $0x031f227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 31], 3
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x041e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 4
+	QUAD $0x041f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 4
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
+	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
+	QUAD $0x061e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 30], 6
+	QUAD $0x061f0a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 31], 6
+	QUAD $0x071e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 7
+	QUAD $0x071f1a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 31], 7
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
+	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
+	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
+	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
+	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
+	QUAD $0x0c1e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 30], 12
+	QUAD $0x0c1f1a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 31], 12
+	QUAD $0x0d1e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 30], 13
+	QUAD $0x0d1f0a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 31], 13
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
+	QUAD $0x0f1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00010024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 256], ymm0
+	QUAD $0x00024024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 576]
+	QUAD $0x0004e0249464fdc5; BYTE $0x00       // vpcmpgtb    ymm2, ymm0, yword [rsp + 1248]
+	LONG $0x4d6ffdc5; BYTE $0x00               // vmovdqa    ymm1, yword 0[rbp] /* [rip + .LCPI8_0] */
+	LONG $0xf9dbedc5                           // vpand    ymm7, ymm2, ymm1
+	LONG $0xdaf845c5                           // vpsubb    ymm11, ymm7, ymm2
+	LONG $0x647dc1c4; BYTE $0xff               // vpcmpgtb    ymm7, ymm0, ymm15
+	LONG $0xf9dbc5c5                           // vpand    ymm7, ymm7, ymm1
+	QUAD $0x00022024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 544]
+	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI8_1] */
+	LONG $0xe6db1dc5                           // vpand    ymm12, ymm12, ymm6
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
+	QUAD $0x0001c024bc64fdc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm0, yword [rsp + 448]
+	LONG $0x556ffdc5; BYTE $0x40               // vmovdqa    ymm2, yword 64[rbp] /* [rip + .LCPI8_2] */
+	LONG $0xfadbc5c5                           // vpand    ymm7, ymm7, ymm2
+	LONG $0x647d41c4; BYTE $0xe6               // vpcmpgtb    ymm12, ymm0, ymm14
+	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI8_3] */
+	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x0001a024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 416]
+	QUAD $0x00000080ad6f7dc5                   // vmovdqa    ymm13, yword 128[rbp] /* [rip + .LCPI8_4] */
+	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
+	LONG $0x6f7d41c4; BYTE $0xf5               // vmovdqa    ymm14, ymm13
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xdfeb25c5                           // vpor    ymm11, ymm11, ymm7
+	QUAD $0x00020024bc64fdc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm0, yword [rsp + 512]
+	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI8_5] */
+	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
+	QUAD $0x0004c024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 1216]
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	QUAD $0x000000c0bd6f7dc5                   // vmovdqa    ymm15, yword 192[rbp] /* [rip + .LCPI8_6] */
+	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xefeb25c5                           // vpor    ymm13, ymm11, ymm7
+	QUAD $0x00048024bc64fdc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm0, yword [rsp + 1152]
+	LONG $0xe1db45c5                           // vpand    ymm12, ymm7, ymm1
+	LONG $0xfff89dc5                           // vpsubb    ymm7, ymm12, ymm7
+	QUAD $0x0004a024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 1184]
+	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
+	QUAD $0x000460249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 1120]
+	LONG $0xdedb25c5                           // vpand    ymm11, ymm11, ymm6
+	LONG $0xeb1d41c4; BYTE $0xdb               // vpor    ymm11, ymm12, ymm11
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000440249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 1088]
+	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
+	QUAD $0x00042024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 1056]
+	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	QUAD $0x00040024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 1024]
+	LONG $0xdb1d41c4; BYTE $0xe6               // vpand    ymm12, ymm12, ymm14
+	LONG $0x6f7dc1c4; BYTE $0xde               // vmovdqa    ymm3, ymm14
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x0003c0249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 960]
+	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
+	QUAD $0x0003e024a4647dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm0, yword [rsp + 992]
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	LONG $0xdb1d41c4; BYTE $0xe7               // vpand    ymm12, ymm12, ymm15
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xe7eb25c5                           // vpor    ymm12, ymm11, ymm7
+	QUAD $0x00038024bc64fdc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm0, yword [rsp + 896]
+	LONG $0xd9db45c5                           // vpand    ymm11, ymm7, ymm1
+	LONG $0xfff8a5c5                           // vpsubb    ymm7, ymm11, ymm7
+	QUAD $0x0003a0249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 928]
+	LONG $0xd9db25c5                           // vpand    ymm11, ymm11, ymm1
+	QUAD $0x00034024b4647dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm0, yword [rsp + 832]
+	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	QUAD $0x000360249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 864]
+	LONG $0xdadb25c5                           // vpand    ymm11, ymm11, ymm2
+	QUAD $0x00030024b4647dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm0, yword [rsp + 768]
+	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	QUAD $0x00032024b4647dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm0, yword [rsp + 800]
+	LONG $0xf3db0dc5                           // vpand    ymm14, ymm14, ymm3
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	LONG $0xffeba5c5                           // vpor    ymm7, ymm11, ymm7
+	LONG $0x647d41c4; BYTE $0xd2               // vpcmpgtb    ymm10, ymm0, ymm10
+	LONG $0xf56f7dc5                           // vmovdqa    ymm14, ymm5
+	LONG $0xd5db2dc5                           // vpand    ymm10, ymm10, ymm5
+	QUAD $0x0002e0249c647dc5; BYTE $0x00       // vpcmpgtb    ymm11, ymm0, yword [rsp + 736]
+	LONG $0x7125c1c4; WORD $0x07f3             // vpsllw    ymm11, ymm11, 7
+	LONG $0xdb2541c4; BYTE $0xdf               // vpand    ymm11, ymm11, ymm15
+	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
+	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
+	LONG $0x647d41c4; BYTE $0xc0               // vpcmpgtb    ymm8, ymm0, ymm8
+	LONG $0xd1db3dc5                           // vpand    ymm10, ymm8, ymm1
+	LONG $0xf82d41c4; BYTE $0xc0               // vpsubb    ymm8, ymm10, ymm8
+	LONG $0x647d41c4; BYTE $0xc9               // vpcmpgtb    ymm9, ymm0, ymm9
+	LONG $0xc9db35c5                           // vpand    ymm9, ymm9, ymm1
+	QUAD $0x00026024ac64fdc5; BYTE $0x00       // vpcmpgtb    ymm5, ymm0, yword [rsp + 608]
+	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
+	LONG $0xedebb5c5                           // vpor    ymm5, ymm9, ymm5
+	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
+	QUAD $0x00028024b464fdc5; BYTE $0x00       // vpcmpgtb    ymm6, ymm0, yword [rsp + 640]
+	LONG $0xf2dbcdc5                           // vpand    ymm6, ymm6, ymm2
+	QUAD $0x0002c0249c64fdc5; BYTE $0x00       // vpcmpgtb    ymm3, ymm0, yword [rsp + 704]
+	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
+	LONG $0xdbebcdc5                           // vpor    ymm3, ymm6, ymm3
+	QUAD $0x0002a024a464fdc5; BYTE $0x00       // vpcmpgtb    ymm4, ymm0, yword [rsp + 672]
+	QUAD $0x00000080a5dbddc5                   // vpand    ymm4, ymm4, yword 128[rbp] /* [rip + .LCPI8_4] */
+	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x000120248c64fdc5; BYTE $0x00       // vpcmpgtb    ymm1, ymm0, yword [rsp + 288]
+	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
+	QUAD $0x000100249464fdc5; BYTE $0x00       // vpcmpgtb    ymm2, ymm0, yword [rsp + 256]
+	LONG $0xf271edc5; BYTE $0x07               // vpsllw    ymm2, ymm2, 7
+	LONG $0xd2db85c5                           // vpand    ymm2, ymm15, ymm2
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	LONG $0x6015c1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm13, ymm12
+	LONG $0x6815c1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm13, ymm12
+	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
+	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
+	LONG $0x7f7ec1c4; WORD $0x8f44; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm0
+	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8f64; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x8f0c             // vmovdqu    yword [r15 + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
+	JNE  LBB8_181
+	QUAD $0x0000016824ac8b4c                   // mov    r13, qword [rsp + 360]
+	QUAD $0x0000018024ac3b4c                   // cmp    r13, qword [rsp + 384]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
+	QUAD $0x0000017024a48b4c                   // mov    r12, qword [rsp + 368]
+	JNE  LBB8_38
+	JMP  LBB8_130
+
+LBB8_183:
+	LONG $0xe0e78349             // and    r15, -32
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
+	QUAD $0x000001f824848948     // mov    qword [rsp + 504], rax
+	QUAD $0x0000016824bc894c     // mov    qword [rsp + 360], r15
+	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
+	QUAD $0x0000016024848948     // mov    qword [rsp + 352], rax
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000e8249c894c     // mov    qword [rsp + 232], r11
+
+LBB8_184:
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0000017824848948                   // mov    qword [rsp + 376], rax
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	LONG $0x24448948; BYTE $0x18               // mov    qword [rsp + 24], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	LONG $0xe86ef9c5                           // vmovd    xmm5, eax
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x3a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rdi + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001a0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 416], xmm1
+	LONG $0x3a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rdi + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x3a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rdi + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x000200248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 512], xmm1
+	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
+	LONG $0xf86e79c5                           // vmovd    xmm15, eax
+	LONG $0x3a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rdi + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x3a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rdi + 6]
+	QUAD $0x000000c824bc8948                   // mov    qword [rsp + 200], rdi
+	LONG $0xe86e79c5                           // vmovd    xmm13, eax
+	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x3a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rdi + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02200d48; WORD $0x0000             // or    rax, 544
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
+	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02800d48; WORD $0x0000             // or    rax, 640
+	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
+	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	LONG $0xa0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 672
+	LONG $0x244c894c; BYTE $0x28               // mov    qword [rsp + 40], r9
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	QUAD $0x0000010024848948                   // mov    qword [rsp + 256], rax
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	LONG $0x20cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 800
+	LONG $0x245c894c; BYTE $0x78               // mov    qword [rsp + 120], r11
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
+	QUAD $0x000000d02494894c                   // mov    qword [rsp + 208], r10
+	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
+	LONG $0x60c88149; WORD $0x0003; BYTE $0x00 // or    r8, 864
+	QUAD $0x000000d82484894c                   // mov    qword [rsp + 216], r8
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x80cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 896
+	LONG $0x247c894c; BYTE $0x58               // mov    qword [rsp + 88], r15
+	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
+	LONG $0xa0ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 928
+	QUAD $0x0000008824b48948                   // mov    qword [rsp + 136], rsi
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000e0248c8948                   // mov    qword [rsp + 224], rcx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
+	LONG $0x244c8948; BYTE $0x38               // mov    qword [rsp + 56], rcx
+	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
+	LONG $0x206123c4; WORD $0x220c; BYTE $0x01 // vpinsrb    xmm9, xmm3, byte [rdx + r12], 1
+	LONG $0x2031e3c4; WORD $0x1a1c; BYTE $0x02 // vpinsrb    xmm3, xmm9, byte [rdx + rbx], 2
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 3
+	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 4
+	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 6
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 7
+	LONG $0x2061a3c4; WORD $0x2a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r13], 8
+	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 9
+	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + r10], 10
+	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + r8], 11
+	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + r15], 12
+	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 13
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rax], 14
+	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 15
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	LONG $0x2059a3c4; WORD $0x3224; BYTE $0x01 // vpinsrb    xmm4, xmm4, byte [rdx + r14], 1
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	LONG $0x2059a3c4; WORD $0x1224; BYTE $0x02 // vpinsrb    xmm4, xmm4, byte [rdx + r10], 2
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	LONG $0x2059a3c4; WORD $0x1a24; BYTE $0x03 // vpinsrb    xmm4, xmm4, byte [rdx + r11], 3
+	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
+	LONG $0x2059a3c4; WORD $0x2224; BYTE $0x04 // vpinsrb    xmm4, xmm4, byte [rdx + r12], 4
+	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
+	LONG $0x2059a3c4; WORD $0x0224; BYTE $0x05 // vpinsrb    xmm4, xmm4, byte [rdx + r8], 5
+	LONG $0x244c8b4c; BYTE $0x08               // mov    r9, qword [rsp + 8]
+	LONG $0x2059a3c4; WORD $0x0a24; BYTE $0x06 // vpinsrb    xmm4, xmm4, byte [rdx + r9], 6
+	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
+	LONG $0x2059a3c4; WORD $0x3a24; BYTE $0x07 // vpinsrb    xmm4, xmm4, byte [rdx + r15], 7
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	LONG $0x2059e3c4; WORD $0x3224; BYTE $0x08 // vpinsrb    xmm4, xmm4, byte [rdx + rsi], 8
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	LONG $0x2059e3c4; WORD $0x0224; BYTE $0x09 // vpinsrb    xmm4, xmm4, byte [rdx + rax], 9
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	LONG $0x2059e3c4; WORD $0x1a24; BYTE $0x0a // vpinsrb    xmm4, xmm4, byte [rdx + rbx], 10
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	LONG $0x2059e3c4; WORD $0x0a24; BYTE $0x0b // vpinsrb    xmm4, xmm4, byte [rdx + rcx], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x0c // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 12
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x0d // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 13
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x0e // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 14
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x0f // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 15
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x01013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 1
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x02013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 2
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x03013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 3
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	QUAD $0x04012a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 1], 4
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x05013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 5
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x06013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 6
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x07013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 7
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x08013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 8
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x09012a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 1], 9
+	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
+	QUAD $0x0a012a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 1], 10
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x0b013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 11
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0c013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 12
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0d013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 13
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0e013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 14
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x0f013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 15
+	QUAD $0x010132742029a3c4                   // vpinsrb    xmm6, xmm10, byte [rdx + r14 + 1], 1
+	QUAD $0x020112742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 1], 2
+	QUAD $0x03011a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 1], 3
+	QUAD $0x040122742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 1], 4
+	QUAD $0x050102742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 1], 5
+	QUAD $0x06010a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 1], 6
+	QUAD $0x07013a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 1], 7
+	QUAD $0x080132742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 1], 8
+	QUAD $0x090102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 9
+	QUAD $0x0a011a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 1], 10
+	QUAD $0x0b010a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 1], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 13
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0e0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 14
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x0004e0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0f01025c2049e3c4                   // vpinsrb    xmm3, xmm6, byte [rdx + rax + 1], 15
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
+	LONG $0xce6e79c5                           // vmovd    xmm9, esi
+	LONG $0x3865e3c4; WORD $0x01dd             // vinserti128    ymm3, ymm3, xmm5, 1
+	QUAD $0x000220249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm3
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x0274b60f; BYTE $0x08               // movzx    esi, byte [rdx + rax + 8]
+	LONG $0xd66e79c5                           // vmovd    xmm10, esi
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
+	QUAD $0x01021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 1
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x02020a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 2], 2
+	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
+	QUAD $0x0302025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 2], 3
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0402025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 4
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0502025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 5
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x06020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 6
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0702025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 7
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0802025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 8
+	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
+	QUAD $0x0902225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 9
+	QUAD $0x0a022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 10
+	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
+	QUAD $0x0b021a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 2], 11
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x0c02325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 2], 12
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	QUAD $0x0d023a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 2], 13
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x0e02125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 2], 14
+	QUAD $0x0f023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0001a024a46ff9c5; BYTE $0x00       // vmovdqa    xmm4, oword [rsp + 416]
+	QUAD $0x010202642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 2], 1
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x020232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 2
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x030232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 3
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x040232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x050232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 5
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x060232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 6
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x070232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 7
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x08023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 8
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x09023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 9
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0a023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 10
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x0b023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 12
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0d023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 13
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0e023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 14
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0f023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 15
+	QUAD $0x01031a6c2021e3c4                   // vpinsrb    xmm5, xmm11, byte [rdx + rbx + 3], 1
+	QUAD $0x02030a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 3], 2
+	QUAD $0x0303026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 3], 3
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x04033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 4
+	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
+	QUAD $0x0503026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 3], 5
+	QUAD $0x06030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 6
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x07033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 7
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x08030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 8
+	QUAD $0x0903226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 3], 9
+	QUAD $0x0a032a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 3], 10
+	QUAD $0x0b031a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 3], 11
+	QUAD $0x0c03326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 12
+	QUAD $0x0d033a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 3], 13
+	QUAD $0x0e03126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 14
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0f030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 15
+	QUAD $0x010302742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rax + 3], 1
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x020302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 2
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x030312742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 3], 3
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x04030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 4
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x05030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 5
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x06030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 6
+	QUAD $0x070332742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 3], 7
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+	QUAD $0x080332742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 3], 8
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x09030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 9
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0a030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 10
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0b030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 11
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0c030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 12
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0d030a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 3], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x0001c0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm3
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0e030a5c2049e3c4                   // vpinsrb    xmm3, xmm6, byte [rdx + rcx + 3], 14
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	LONG $0x0a74b60f; BYTE $0x09               // movzx    esi, byte [rdx + rcx + 9]
+	LONG $0xc66e79c5                           // vmovd    xmm8, esi
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x0f03225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 3], 15
+	LONG $0x3865e3c4; WORD $0x01dd             // vinserti128    ymm3, ymm3, xmm5, 1
+	QUAD $0x0001a0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm3
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x0a74b60f; BYTE $0x09               // movzx    esi, byte [rdx + rcx + 9]
+	LONG $0xde6e79c5                           // vmovd    xmm11, esi
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x000200249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 512]
+	QUAD $0x01041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 1
+	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
+	QUAD $0x02040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 2
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x03040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 3
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	QUAD $0x04042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 4
+	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
+	QUAD $0x0504025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 4], 5
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0604325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 6
+	QUAD $0x07043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 7
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x08043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 8
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0904325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 9
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	QUAD $0x0a040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 10
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0b04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 11
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0c04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 12
+	QUAD $0x0d043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 13
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0e04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f04325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 4], 15
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x010432642001e3c4                   // vpinsrb    xmm4, xmm15, byte [rdx + rsi + 4], 1
+	QUAD $0x020402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 2
+	QUAD $0x030412642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 4], 3
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x040402642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 4], 4
+	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
+	QUAD $0x050412642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 4], 5
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x060432642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 4], 6
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x070402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 7
+	QUAD $0x080432642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 4], 8
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	QUAD $0x09043a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 4], 9
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0a0402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 10
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x0b0432642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 4], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c0402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d0402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 13
+	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
+	QUAD $0x0e0432642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 4], 14
+	QUAD $0x0f0422642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 4], 15
+	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
+	QUAD $0x01051a6c2009e3c4                   // vpinsrb    xmm5, xmm14, byte [rdx + rbx + 5], 1
+	QUAD $0x02051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 2
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+	QUAD $0x03051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 3
+	QUAD $0x04052a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 5], 4
+	QUAD $0x05050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 5
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0605026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 6
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0705026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 7
+	QUAD $0x08053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 8
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x09051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 9
+	QUAD $0x0a050a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 5], 10
+	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0d050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x010502742019e3c4                   // vpinsrb    xmm6, xmm12, byte [rdx + rax + 5], 1
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x020502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 2
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x03050a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 5], 3
+	QUAD $0x040502742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 5], 4
+	QUAD $0x050512742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 5], 5
+	QUAD $0x060532742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 5], 6
+	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
+	QUAD $0x07050a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 5], 7
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+	QUAD $0x080512742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 5], 8
+	QUAD $0x09053a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 5], 9
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0a0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 10
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x0b0522742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 5], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 13
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0e0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 14
+	LONG $0x385d63c4; WORD $0x01fb             // vinserti128    ymm15, ymm4, xmm3, 1
+	QUAD $0x0f0532642049a3c4                   // vpinsrb    xmm4, xmm6, byte [rdx + r14 + 5], 15
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
+	LONG $0xe66e79c5                           // vmovd    xmm12, esi
+	LONG $0x385de3c4; WORD $0x01dd             // vinserti128    ymm3, ymm4, xmm5, 1
+	QUAD $0x000200249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm3
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x0274b60f; BYTE $0x0a               // movzx    esi, byte [rdx + rax + 10]
+	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0106026c2011e3c4                   // vpinsrb    xmm5, xmm13, byte [rdx + rax + 6], 1
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x0206026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 2
+	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
+	QUAD $0x03061a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 6], 3
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x04060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 4
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0506026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 5
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x0606026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 6], 6
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x07063a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 6], 7
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x0806326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 8
+	QUAD $0x09061a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 6], 9
+	QUAD $0x0a062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 12
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0d06326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 6], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 14
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+	QUAD $0x0f063a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 6], 15
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x01062a742041a3c4                   // vpinsrb    xmm6, xmm7, byte [rdx + r13 + 6], 1
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x020632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 2
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x030632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 3
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x040632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x050632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 5
+	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
+	QUAD $0x06061a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 6], 6
+	QUAD $0x07060a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 6], 7
+	QUAD $0x080612742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 6], 8
+	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
+	QUAD $0x09060a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 6], 9
+	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
+	QUAD $0x0a0612742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 6], 10
+	QUAD $0x0b0622742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 6], 11
+	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
+	QUAD $0x0c061a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 6], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d0602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 13
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0e061a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 6], 14
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x0f061a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 6], 15
+	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
+	QUAD $0x010722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 7], 1
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x020702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 2
+	QUAD $0x030732542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 7], 3
+	QUAD $0x04070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 4
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x05070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 5
+	QUAD $0x060702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 6
+	QUAD $0x07073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 7
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x080702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 8
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x090702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 9
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0a070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 11
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0c073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 12
+	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
+	QUAD $0x0d0722542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 7], 13
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0e073a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 7], 14
+	QUAD $0x0f073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 15
+	QUAD $0x01072a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 7], 1
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x02073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 2
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x0307024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 7], 3
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x04073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 4
+	QUAD $0x0507324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 5
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x0607324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 6
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x0707324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 7
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x0807324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 8
+	QUAD $0x09070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 9
+	QUAD $0x0a07124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 7], 10
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x0b07324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 11
+	QUAD $0x0c071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 12
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0d07324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 13
+	LONG $0x384de3c4; WORD $0x01dd             // vinserti128    ymm3, ymm6, xmm5, 1
+	QUAD $0x0004c0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm3
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0e07326c2071e3c4                   // vpinsrb    xmm5, xmm1, byte [rdx + rsi + 7], 14
+	WORD $0x8949; BYTE $0xf5                   // mov    r13, rsi
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	LONG $0x3274b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rsi + 11]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x0f071a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 7], 15
+	LONG $0x3855e3c4; WORD $0x01d2             // vinserti128    ymm2, ymm5, xmm2, 1
+	QUAD $0x0004a024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm2
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	LONG $0x3274b60f; BYTE $0x0b               // movzx    esi, byte [rdx + rsi + 11]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x01083a6c2031e3c4                   // vpinsrb    xmm5, xmm9, byte [rdx + rdi + 8], 1
+	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
+	QUAD $0x02081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 2
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0308326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 3
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	QUAD $0x04083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 4
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0508326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 5
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0608326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 6
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x0708326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 7
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x0808326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 8
+	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
+	QUAD $0x09080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 9
+	QUAD $0x0a080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 10
+	QUAD $0x0b08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 12
+	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
+	QUAD $0x0d08226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e08026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 14
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0f080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 15
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x01080a742029e3c4                   // vpinsrb    xmm6, xmm10, byte [rdx + rcx + 8], 1
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x02080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 2
+	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
+	QUAD $0x030802742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 8], 3
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x040832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 4
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x05080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 5
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x06080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 6
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x07080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 7
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x080802742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 8], 8
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x09081a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 8], 9
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0a080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 10
+	QUAD $0x0b0832742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 8], 11
+	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
+	QUAD $0x0c0832742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 8], 12
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0d080a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rcx + 8], 13
+	QUAD $0x0e082a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 8], 14
+	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
+	QUAD $0x0f082a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r13 + 8], 15
+	QUAD $0x01093a7c2039e3c4                   // vpinsrb    xmm7, xmm8, byte [rdx + rdi + 9], 1
+	QUAD $0x02091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 2
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x03090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 3
+	QUAD $0x04093a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r15 + 9], 4
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x05093a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rdi + 9], 5
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x06091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 6
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x07091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 7
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	QUAD $0x08091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 8
+	QUAD $0x09090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 9
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0a090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 10
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x0b090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 11
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0c090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 12
+	QUAD $0x0d09127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 9], 13
+	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
+	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x0f091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0109025c2021e3c4                   // vpinsrb    xmm3, xmm11, byte [rdx + rax + 9], 1
+	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0209025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 2
+	QUAD $0x0309225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 9], 3
+	QUAD $0x0409325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 9], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0509025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 5
+	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
+	QUAD $0x06093a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 9], 6
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0709025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 7
+	QUAD $0x0809025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 9], 8
+	QUAD $0x09091a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 9], 9
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0a09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 10
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x0b092a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 9], 11
+	QUAD $0x0c09325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 9], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 13
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0e09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 14
+	LONG $0x384de3c4; WORD $0x01ed             // vinserti128    ymm5, ymm6, xmm5, 1
+	QUAD $0x00048024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm5
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0f09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 15
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
+	LONG $0xee6ef9c5                           // vmovd    xmm5, esi
+	LONG $0x3865e3c4; WORD $0x01df             // vinserti128    ymm3, ymm3, xmm7, 1
+	QUAD $0x000460249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm3
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x0274b60f; BYTE $0x0c               // movzx    esi, byte [rdx + rax + 12]
+	LONG $0xf66ef9c5                           // vmovd    xmm6, esi
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x010a0a5c2019a3c4                   // vpinsrb    xmm3, xmm12, byte [rdx + r9 + 10], 1
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x020a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 2
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x030a325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 10], 3
+	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
+	QUAD $0x040a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 4
+	QUAD $0x050a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 5
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x060a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 6
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x070a1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 10], 7
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x080a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 8
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x090a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 9
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0a0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 10
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x0b0a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 11
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0c0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 12
+	QUAD $0x0d0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 13
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0e0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 14
+	QUAD $0x0f0a1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 10], 15
+	QUAD $0x010a12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 10], 1
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x020a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 2
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x030a32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 10], 3
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x040a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 4
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x050a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 5
+	QUAD $0x060a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 6
+	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
+	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x080a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 8
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+	QUAD $0x090a12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 10], 9
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x0a0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 10
+	QUAD $0x0b0a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 11
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0c0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 12
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0d0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 13
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0e0a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 14
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	QUAD $0x0f0a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 15
+	QUAD $0x010b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 1
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x020b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 2
+	QUAD $0x030b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 3
+	QUAD $0x040b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 4
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x050b1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 11], 5
+	QUAD $0x060b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 6
+	QUAD $0x070b1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 11], 7
+	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x080b3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 11], 8
+	QUAD $0x090b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 9
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0a0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 10
+	QUAD $0x0b0b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 12
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0d0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 13
+	QUAD $0x0e0b0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 11], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x010b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 1
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x020b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 2
+	QUAD $0x030b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 3
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x040b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x050b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 5
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x060b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 6
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x070b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 7
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x080b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 8
+	QUAD $0x090b12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 11], 9
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0a0b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 10
+	QUAD $0x0b0b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 11
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0c0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 12
+	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
+	QUAD $0x0d0b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0e0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 14
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	LONG $0x0a74b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rcx + 13]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x0f0b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000420248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x0a74b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rcx + 13]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x010c1a542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r11 + 12], 1
+	WORD $0x894d; BYTE $0xca                   // mov    r10, r9
+	QUAD $0x020c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 2
+	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
+	QUAD $0x030c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 3
+	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
+	QUAD $0x040c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 4
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x050c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 5
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x060c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 6
+	QUAD $0x070c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 7
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x080c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 8
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x090c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 9
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0a0c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 10
+	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
+	QUAD $0x0b0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 11
+	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
+	QUAD $0x0c0c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 12], 12
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x0d0c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 13
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0e0c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f0c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 15
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x010c32642049e3c4                   // vpinsrb    xmm4, xmm6, byte [rdx + rsi + 12], 1
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x020c32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 12], 2
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x030c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 3
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x040c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 4
+	QUAD $0x050c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 5
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x060c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 6
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x070c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 7
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x080c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 8
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x090c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 9
+	QUAD $0x0a0c3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 12], 10
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x0b0c3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 12], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c0c3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 12], 12
+	QUAD $0x0d0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 13
+	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
+	QUAD $0x0e0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 14
+	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
+	QUAD $0x0f0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 15
+	QUAD $0x010d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 13], 1
+	QUAD $0x020d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 2
+	QUAD $0x030d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 3
+	QUAD $0x040d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 13], 4
+	QUAD $0x050d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 5
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x060d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 6
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x070d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 13], 7
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x080d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 8
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x090d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 9
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0a0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 10
+	QUAD $0x0b0d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 11
+	QUAD $0x0c0d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 12
+	QUAD $0x0d0d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 13
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0e0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 14
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0f0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 15
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x010d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 1
+	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
+	WORD $0x8949; BYTE $0xf1                   // mov    r9, rsi
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x030d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 3
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x040d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 4
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x050d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 5
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x060d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 6
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x070d0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 13], 7
+	QUAD $0x080d1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 13], 8
+	QUAD $0x090d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 9
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
+	QUAD $0x0c0d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 13
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0e0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 14
+	LONG $0x385de3c4; WORD $0x01d2             // vinserti128    ymm2, ymm4, xmm2, 1
+	QUAD $0x00040024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm2
+	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
+	QUAD $0x0f0d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 15
+	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
+	LONG $0x74b60f42; WORD $0x0e32             // movzx    esi, byte [rdx + r14 + 14]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	QUAD $0x0003e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm1
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x0274b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rax + 14]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x010e02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 14], 1
+	QUAD $0x020e12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 14], 2
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x030e0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 14], 3
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x040e12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 14], 4
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x050e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 5
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x060e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 6
+	QUAD $0x070e1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 14], 7
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x080e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 8
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x090e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 9
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0a0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 10
+	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
+	QUAD $0x0b0e1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 14], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 12
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0d0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 13
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0e0e3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 14], 14
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x0f0e1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 14], 15
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x010e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 1
+	QUAD $0x020e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 2
+	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
+	QUAD $0x030e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 3
+	QUAD $0x040e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x050e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 5
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x060e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 6
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x070e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 7
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x080e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 8
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x090e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 9
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0a0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 10
+	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
+	QUAD $0x0b0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 11
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0c0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 12
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0d0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 13
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0e0e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 14], 14
+	QUAD $0x0f0e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 15
+	LONG $0x74b60f42; WORD $0x0f32             // movzx    esi, byte [rdx + r14 + 15]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x010f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 1
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x020f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 2
+	QUAD $0x030f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 3
+	QUAD $0x040f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 4
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x050f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 5
+	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
+	QUAD $0x060f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 6
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x070f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 7
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x080f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 8
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x090f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 9
+	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
+	QUAD $0x0a0f025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 15], 10
+	QUAD $0x0b0f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 11
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0c0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 12
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0d0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 13
+	QUAD $0x0e0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 14
+	QUAD $0x0f0f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 15
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	LONG $0x3274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rsi + 15]
+	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
+	QUAD $0x010f2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 15], 1
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x020f32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 15], 2
+	QUAD $0x030f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 15], 3
+	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
+	QUAD $0x040f1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 15], 4
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x050f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 15], 5
+	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
+	QUAD $0x060f2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 15], 6
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x070f32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 15], 7
+	QUAD $0x080f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 8
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+	QUAD $0x090f12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 15], 9
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0a0f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 10
+	QUAD $0x0b0f3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 15], 11
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0c0f1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 15], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d0f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 13
+	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
+	QUAD $0x0e0f32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 15], 14
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0f0f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 15
+	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
+	QUAD $0x0003a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm1
+	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
+	QUAD $0x0003c0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	LONG $0x0274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rax + 16]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0110024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 1
+	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
+	QUAD $0x02103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 2
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0310024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 3
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0410024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 4
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0510024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 5
+	QUAD $0x0610224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 6
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0710024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 7
+	QUAD $0x08100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 8
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0910024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 9
+	QUAD $0x0a10024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 16], 10
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x0b10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 11
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0c100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 12
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0d10024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 13
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0e10324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f10324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 15
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	LONG $0x3274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rsi + 16]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x011032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 1
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x021032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 2
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x031032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 3
+	QUAD $0x04101a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 16], 4
+	QUAD $0x05100a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 16], 5
+	QUAD $0x06102a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 16], 6
+	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
+	QUAD $0x07100a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 16], 7
+	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
+	QUAD $0x08102a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 16], 8
+	QUAD $0x091012542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 16], 9
+	QUAD $0x0a103a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 16], 10
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x0b1032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 11
+	QUAD $0x0c101a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 16], 12
+	QUAD $0x00000120249c8b4c                   // mov    r11, qword [rsp + 288]
+	QUAD $0x0d101a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 16], 13
+	QUAD $0x0e1032542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 16], 14
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0f1032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 15
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	LONG $0x3a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rdi + 17]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x0111025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 1
+	QUAD $0x02113a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 17], 2
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0311325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 3
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	QUAD $0x04111a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 17], 4
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x05113a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 17], 5
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x0611125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 17], 6
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x0711325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 7
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0911325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 9
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0a11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 10
+	QUAD $0x0b11225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 17], 11
+	QUAD $0x0c110a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 17], 12
+	QUAD $0x0d11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
+	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x011102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 1
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x021122642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 17], 2
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+	QUAD $0x031132642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 17], 3
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x041102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x051102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 5
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x061102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 6
+	QUAD $0x07110a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 17], 7
+	QUAD $0x08112a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 17], 8
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x091102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 9
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0a1102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 10
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0b1102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c1102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 12
+	QUAD $0x0d111a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 17], 13
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0e1102642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 17], 14
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000380248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm1
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0f11024c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rax + 17], 15
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	QUAD $0x000360248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm1
+	LONG $0x3a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rdi + 18]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x0112024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 1
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x0212024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 2
+	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
+	QUAD $0x0312024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 3
+	QUAD $0x04121a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 18], 4
+	QUAD $0x05123a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 18], 5
+	QUAD $0x0612124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 6
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x07122a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 18], 7
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x08120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 8
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x09120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 9
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x0a120a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 18], 10
+	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
+	QUAD $0x0b121a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 18], 11
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0d12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 13
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x0e12124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 15
+	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
+	LONG $0x74b60f42; WORD $0x120a             // movzx    esi, byte [rdx + r9 + 18]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x01123a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 18], 1
+	QUAD $0x021222542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 18], 2
+	QUAD $0x031232542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 18], 3
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x041232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 4
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x051232542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 18], 5
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x061232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 6
+	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
+	QUAD $0x071222542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 18], 7
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x081232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 8
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x091232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 9
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0a1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 10
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x0b1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 11
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0c1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 12
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0d1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 13
+	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
+	QUAD $0x0e123a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 18], 14
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x0f121a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 18], 15
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	LONG $0x3274b60f; BYTE $0x13               // movzx    esi, byte [rdx + rsi + 19]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0113325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 1
+	QUAD $0x0213025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 2
+	QUAD $0x0313025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 19], 3
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0413025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 4
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0513025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 5
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0613025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 6
+	QUAD $0x07132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 7
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0813025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 8
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
+	QUAD $0x0a130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 10
+	QUAD $0x0b131a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 19], 11
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0c131a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 19], 12
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0d130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 13
+	QUAD $0x0e13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 14
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0f130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 15
+	LONG $0x74b60f42; WORD $0x130a             // movzx    esi, byte [rdx + r9 + 19]
+	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
+	QUAD $0x01133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 1
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x02132a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 19], 2
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x03133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 3
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x041302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 19], 4
+	QUAD $0x051332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 19], 5
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x061332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 6
+	QUAD $0x071322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 19], 7
+	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
+	QUAD $0x08130a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 19], 8
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x091332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 9
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0a1332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 10
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x0b1332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 11
+	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
+	QUAD $0x0c1332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 19], 12
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0d1332642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 19], 13
+	QUAD $0x0e133a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 19], 14
+	QUAD $0x0f131a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 19], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000320248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm1
+	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
+	QUAD $0x000340248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm1
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	LONG $0x3274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rsi + 20]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0114324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 1
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x0214324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 2
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0314324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 3
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x0414324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 4
+	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
+	QUAD $0x0514224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 20], 5
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0614324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 6
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x0714324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 7
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x0814324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 8
+	QUAD $0x0914024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 9
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0a14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 10
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0b14324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 11
+	QUAD $0x0c141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 12
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x0d14124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 13
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x0e141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 14
+	QUAD $0x0f140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 15
+	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
+	LONG $0x74b60f42; WORD $0x143a             // movzx    esi, byte [rdx + r15 + 20]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x011432542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 20], 1
+	QUAD $0x02142a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 20], 2
+	QUAD $0x03143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 3
+	QUAD $0x041402542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 20], 4
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x05142a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 20], 5
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x06140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 6
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x07140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 7
+	QUAD $0x08140a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 20], 8
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x09140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 9
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0a140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 10
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x0b140a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 20], 11
+	QUAD $0x0c1432542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 20], 12
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0d140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 13
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0e140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 14
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x0f140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 15
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	LONG $0x0a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rcx + 21]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x01153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 1
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x02150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 2
+	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
+	QUAD $0x0315025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 21], 3
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x0415325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 4
+	QUAD $0x0515225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 21], 5
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0615325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 6
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x0715325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 7
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x0815325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 8
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0915325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 9
+	QUAD $0x0a15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 10
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0b15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 11
+	QUAD $0x0c151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 12
+	QUAD $0x0d15125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 13
+	QUAD $0x0e151a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 21], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 15
+	LONG $0x74b60f42; WORD $0x153a             // movzx    esi, byte [rdx + r15 + 21]
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x011502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 1
+	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
+	QUAD $0x021532642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 21], 2
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x031502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 3
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x041502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 4
+	QUAD $0x05152a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 21], 5
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x061502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 6
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x07152a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 21], 7
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	QUAD $0x081522642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 21], 8
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	QUAD $0x09153a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 21], 9
+	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
+	QUAD $0x0a1512642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 21], 10
+	QUAD $0x0b150a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 21], 11
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0c150a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 21], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 13
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0e1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 14
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x0002e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm1
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0f15024c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rax + 21], 15
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	QUAD $0x000300248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x01163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 1
+	QUAD $0x02160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 2
+	QUAD $0x0316024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 3
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0416024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 4
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x06160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 6
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x07160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 7
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x0816324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 8
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x09163a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 22], 9
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0a16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 10
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0b16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 11
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0c161a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 22], 12
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0d16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 13
+	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
+	QUAD $0x0e16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 15
+	LONG $0x1a74b60f; BYTE $0x16               // movzx    esi, byte [rdx + rbx + 22]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x011632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 1
+	QUAD $0x021632542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 22], 2
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x031632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 3
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x041632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x051632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 5
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x061632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 6
+	QUAD $0x07162a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 22], 7
+	QUAD $0x081622542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 22], 8
+	QUAD $0x09163a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 22], 9
+	QUAD $0x0a1612542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 22], 10
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x0b1622542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 22], 11
+	QUAD $0x0c160a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 22], 12
+	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
+	QUAD $0x0d162a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 22], 13
+	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
+	QUAD $0x0e1612542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 22], 14
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0f1632542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 22], 15
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	LONG $0x74b60f42; WORD $0x173a             // movzx    esi, byte [rdx + r15 + 23]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x01170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 1
+	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
+	QUAD $0x0217325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 2
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0317325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 3
+	QUAD $0x0417025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 4
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0517025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 5
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0617025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 6
+	QUAD $0x07170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 7
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x0817025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 23], 8
+	QUAD $0x09173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 9
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x0a173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 10
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x0b170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 11
+	QUAD $0x0c171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 12
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0d17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 13
+	QUAD $0x0e17025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 15
+	LONG $0x1a74b60f; BYTE $0x17               // movzx    esi, byte [rdx + rbx + 23]
+	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x011732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 1
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x021732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 2
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x03171a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 23], 3
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x041732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x051732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 5
+	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
+	QUAD $0x06171a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 23], 6
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x071732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 7
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x081732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 8
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x091732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 9
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0a1732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 10
+	QUAD $0x0b1722642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 23], 11
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0c1732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 12
+	QUAD $0x0d172a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 23], 13
+	QUAD $0x0e1712642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 23], 14
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x0f1722642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 23], 15
+	LONG $0x386d63c4; WORD $0x01d9             // vinserti128    ymm11, ymm2, xmm1, 1
+	LONG $0x385d63c4; WORD $0x01e3             // vinserti128    ymm12, ymm4, xmm3, 1
+	LONG $0x74b60f42; WORD $0x183a             // movzx    esi, byte [rdx + r15 + 24]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x01180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 1
+	QUAD $0x0218324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 2
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0318324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 3
+	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
+	QUAD $0x0418024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 4
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0518324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 5
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+	QUAD $0x06183a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 24], 6
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x0718324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 7
+	QUAD $0x0818024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 8
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x0918324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 9
+	QUAD $0x0a183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 10
+	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
+	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
+	QUAD $0x0c180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 12
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0d18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 13
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x0e18124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 14
+	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
+	QUAD $0x0f182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x0274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rax + 24]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x011802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 1
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x021802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 2
+	QUAD $0x03181a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 24], 3
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x041802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 4
+	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
+	QUAD $0x05181a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 24], 5
+	QUAD $0x06181a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 24], 6
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x071802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 7
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x081802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 8
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x091802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 9
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x0a181a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 24], 10
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0b180a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 24], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c1802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 12
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0d183a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 24], 13
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0e1802542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 24], 14
+	QUAD $0x0f1822542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 24], 15
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0119025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 1
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x0219025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 2
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0319025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 3
+	QUAD $0x0419025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 4
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0519025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 5
+	QUAD $0x06193a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 25], 6
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0719025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 7
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x0819325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 8
+	QUAD $0x0919325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 25], 9
+	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
+	QUAD $0x0a19025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 10
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0b19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 11
+	QUAD $0x0c190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 12
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0d19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 13
+	QUAD $0x0e19125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 14
+	QUAD $0x0f192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 15
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	LONG $0x74b60f42; WORD $0x1912             // movzx    esi, byte [rdx + r10 + 25]
+	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x011932642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 25], 1
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x02190a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 25], 2
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x031932642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 25], 3
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x04193a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 25], 4
+	QUAD $0x05191a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 25], 5
+	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
+	QUAD $0x06191a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 25], 6
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x071932642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 25], 7
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x081932642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 25], 8
+	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
+	QUAD $0x091932642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 25], 9
+	QUAD $0x0a191a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 25], 10
+	QUAD $0x0b190a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 25], 11
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0c191a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 25], 12
+	QUAD $0x0d193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 13
+	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
+	QUAD $0x0e1922642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 25], 14
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000180248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 384], ymm1
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x0f190a4c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rcx + 25], 15
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	QUAD $0x000240248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm1
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	LONG $0x0a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rcx + 26]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x011a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 1
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x021a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 2
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x031a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 3
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x041a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 4
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x051a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 5
+	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
+	QUAD $0x061a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 6
+	QUAD $0x071a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 7
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x081a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 8
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x091a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 9
+	QUAD $0x0a1a024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 26], 10
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0b1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 12
+	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
+	QUAD $0x0d1a024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 26], 13
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0e1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 15
+	LONG $0x74b60f42; WORD $0x1a12             // movzx    esi, byte [rdx + r10 + 26]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x011a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 1
+	QUAD $0x021a0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 26], 2
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x031a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 3
+	QUAD $0x041a3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 26], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x051a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 5
+	QUAD $0x061a1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 26], 6
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x071a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 7
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x081a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 8
+	QUAD $0x091a32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 26], 9
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0a1a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 10
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x0b1a0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 26], 11
+	QUAD $0x0c1a1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 26], 12
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0d1a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 13
+	QUAD $0x0e1a22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 26], 14
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0f1a32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 26], 15
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	LONG $0x74b60f42; WORD $0x1b3a             // movzx    esi, byte [rdx + r15 + 27]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x011b1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 27], 1
+	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
+	QUAD $0x021b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 2
+	QUAD $0x031b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 3
+	QUAD $0x041b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 4
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x051b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 5
+	QUAD $0x061b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 6
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x071b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 7
+	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
+	QUAD $0x081b1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 27], 8
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x091b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 9
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	QUAD $0x0a1b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 10
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x0b1b225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 27], 11
+	QUAD $0x0c1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 12
+	QUAD $0x0d1b025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 27], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
+	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x011b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 1
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x021b02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 27], 2
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x031b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 3
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x041b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 4
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x051b3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 27], 5
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x061b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 6
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x071b2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 27], 7
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x081b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 8
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x091b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 9
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0a1b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 10
+	QUAD $0x0b1b0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 27], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c1b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d1b02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 27], 13
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0e1b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 14
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x0f1b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000260248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm1
+	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
+	QUAD $0x000280248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm1
+	LONG $0x74b60f42; WORD $0x1c3a             // movzx    esi, byte [rdx + r15 + 28]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x011c1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 28], 1
+	QUAD $0x021c124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 28], 2
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x041c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 4
+	QUAD $0x051c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 5
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+	QUAD $0x061c3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 28], 6
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x071c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 7
+	QUAD $0x081c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 8
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x091c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 9
+	QUAD $0x0a1c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 10
+	QUAD $0x0b1c224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 28], 11
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0c1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 12
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0d1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 13
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0e1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 14
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	QUAD $0x0f1c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 15
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x0a74b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rcx + 28]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x011c0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 28], 1
+	QUAD $0x021c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 28], 2
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x031c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 28], 3
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x041c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 28], 4
+	QUAD $0x051c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 28], 5
+	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
+	QUAD $0x061c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 28], 6
+	QUAD $0x071c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 28], 7
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+	QUAD $0x081c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 28], 8
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+	QUAD $0x091c12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 28], 9
+	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
+	QUAD $0x0a1c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 28], 10
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x0b1c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 28], 11
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0c1c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 28], 12
+	QUAD $0x0d1c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 13
+	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
+	QUAD $0x0e1c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 28], 14
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0f1c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 15
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	LONG $0x3274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rsi + 29]
+	LONG $0xde6ef9c5                           // vmovd    xmm3, esi
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x011d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 1
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x021d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 2
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x041d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 4
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x051d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 5
+	QUAD $0x061d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 29], 6
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x081d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 8
+	QUAD $0x091d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 9
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0a1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 10
+	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
+	QUAD $0x0b1d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 29], 11
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0c1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 12
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0d1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 13
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0e1d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 14
+	QUAD $0x0f1d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 29], 15
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	LONG $0x3274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rsi + 29]
+	LONG $0xe66ef9c5                           // vmovd    xmm4, esi
+	QUAD $0x011d0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 29], 1
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x021d0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 29], 2
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x031d0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 29], 3
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x041d0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 29], 4
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x051d32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 29], 5
+	QUAD $0x061d02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 29], 6
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x071d32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 29], 7
+	QUAD $0x081d32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 29], 8
+	QUAD $0x091d12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 29], 9
+	QUAD $0x0a1d2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 29], 10
+	QUAD $0x0b1d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 11
+	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
+	QUAD $0x0c1d1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 29], 12
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0d1d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 13
+	QUAD $0x0e1d22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 29], 14
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x0002a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm1
+	QUAD $0x0f1d024c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rax + 29], 15
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	QUAD $0x0002c0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm1
+	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
+	LONG $0x74b60f42; WORD $0x1e02             // movzx    esi, byte [rdx + r8 + 30]
+	LONG $0xce6ef9c5                           // vmovd    xmm1, esi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x011e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 1
+	LONG $0x74b60f42; WORD $0x1f02             // movzx    esi, byte [rdx + r8 + 31]
+	LONG $0xd66ef9c5                           // vmovd    xmm2, esi
+	QUAD $0x011f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 1
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x021e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 2
+	QUAD $0x021f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 2
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
+	QUAD $0x031f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 3
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x041e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 4
+	QUAD $0x041f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 4
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
+	QUAD $0x051f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 5
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
+	QUAD $0x061f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 6
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
+	QUAD $0x071f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 7
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
+	QUAD $0x081f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 8
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
+	QUAD $0x091f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 9
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
+	QUAD $0x0a1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 10
+	QUAD $0x0b1e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 30], 11
+	QUAD $0x0b1f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 31], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 12
+	QUAD $0x0c1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 12
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
+	QUAD $0x0d1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
+	QUAD $0x0f1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 15
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	LONG $0x3244b60f; BYTE $0x1e               // movzx    eax, byte [rdx + rsi + 30]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
+	QUAD $0x011e025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 30], 1
+	LONG $0x3244b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rsi + 31]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	QUAD $0x011f02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 31], 1
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x021e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 2
+	QUAD $0x021f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 2
+	QUAD $0x031e0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 30], 3
+	QUAD $0x031f0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 31], 3
+	QUAD $0x041e0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 30], 4
+	QUAD $0x041f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 31], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x051e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 5
+	QUAD $0x051f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 5
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x061e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 6
+	QUAD $0x061f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 6
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x071e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 7
+	QUAD $0x071f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 7
+	QUAD $0x081e325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 30], 8
+	QUAD $0x081f32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 31], 8
+	QUAD $0x091e125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 30], 9
+	QUAD $0x091f12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 31], 9
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0a1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 10
+	QUAD $0x0a1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 10
+	QUAD $0x0b1e2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 30], 11
+	QUAD $0x0b1f2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 31], 11
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x0c1e1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 30], 12
+	QUAD $0x0c1f1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 31], 12
+	QUAD $0x0d1e3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 30], 13
+	QUAD $0x0d1f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 31], 13
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0e1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 14
+	QUAD $0x0f1e225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 30], 15
+	QUAD $0x0f1f22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 31], 15
+	LONG $0x3865e3c4; WORD $0x01c9             // vinserti128    ymm1, ymm3, xmm1, 1
+	QUAD $0x000120248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	QUAD $0x000100248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 256], ymm1
+	QUAD $0x000220248cdafdc5; BYTE $0x00       // vpminub    ymm1, ymm0, yword [rsp + 544]
+	LONG $0xc974fdc5                           // vpcmpeqb    ymm1, ymm0, ymm1
+	LONG $0x7d6ffdc5; BYTE $0x00               // vmovdqa    ymm7, yword 0[rbp] /* [rip + .LCPI8_0] */
+	LONG $0xd7dff5c5                           // vpandn    ymm2, ymm1, ymm7
+	LONG $0xc9fcedc5                           // vpaddb    ymm1, ymm2, ymm1
+	QUAD $0x0004e02494dafdc5; BYTE $0x00       // vpminub    ymm2, ymm0, yword [rsp + 1248]
+	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
+	LONG $0xd7dfedc5                           // vpandn    ymm2, ymm2, ymm7
+	QUAD $0x0001c024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 448]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	LONG $0x4d6f7dc5; BYTE $0x20               // vmovdqa    ymm9, yword 32[rbp] /* [rip + .LCPI8_1] */
+	LONG $0xdf0d41c4; BYTE $0xf1               // vpandn    ymm14, ymm14, ymm9
+	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
+	QUAD $0x0001a024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 416]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	LONG $0x456f7dc5; BYTE $0x40               // vmovdqa    ymm8, yword 64[rbp] /* [rip + .LCPI8_2] */
+	LONG $0xdf0d41c4; BYTE $0xf0               // vpandn    ymm14, ymm14, ymm8
+	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
+	LONG $0xdb76e5c5                           // vpcmpeqd    ymm3, ymm3, ymm3
+	LONG $0xcbf8f5c5                           // vpsubb    ymm1, ymm1, ymm3
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xd0da85c5                           // vpminub    ymm2, ymm15, ymm0
+	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
+	LONG $0x756ffdc5; BYTE $0x60               // vmovdqa    ymm6, yword 96[rbp] /* [rip + .LCPI8_3] */
+	LONG $0xd6dfedc5                           // vpandn    ymm2, ymm2, ymm6
+	QUAD $0x00020024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 512]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	QUAD $0x00000080a56ffdc5                   // vmovdqa    ymm4, yword 128[rbp] /* [rip + .LCPI8_4] */
+	LONG $0xf4df0dc5                           // vpandn    ymm14, ymm14, ymm4
+	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
+	QUAD $0x0004c024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 1216]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	QUAD $0x000000a0ad6ffdc5                   // vmovdqa    ymm5, yword 160[rbp] /* [rip + .LCPI8_5] */
+	LONG $0xf5df0dc5                           // vpandn    ymm14, ymm14, ymm5
+	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
+	QUAD $0x0004a024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 1184]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	LONG $0xf3ef0dc5                           // vpxor    ymm14, ymm14, ymm3
+	LONG $0x710dc1c4; WORD $0x07f6             // vpsllw    ymm14, ymm14, 7
+	QUAD $0x000000c0956f7dc5                   // vmovdqa    ymm10, yword 192[rbp] /* [rip + .LCPI8_6] */
+	LONG $0xdb0d41c4; BYTE $0xf2               // vpand    ymm14, ymm14, ymm10
+	LONG $0xd2eb8dc5                           // vpor    ymm2, ymm14, ymm2
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	QUAD $0x000140248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm1
+	QUAD $0x000460248cdafdc5; BYTE $0x00       // vpminub    ymm1, ymm0, yword [rsp + 1120]
+	LONG $0xc974fdc5                           // vpcmpeqb    ymm1, ymm0, ymm1
+	LONG $0xf7df75c5                           // vpandn    ymm14, ymm1, ymm7
+	LONG $0xc9fc8dc5                           // vpaddb    ymm1, ymm14, ymm1
+	QUAD $0x00048024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 1152]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	LONG $0xf7df0dc5                           // vpandn    ymm14, ymm14, ymm7
+	QUAD $0x00044024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 1088]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0x6f7dc1c4; BYTE $0xd9               // vmovdqa    ymm3, ymm9
+	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	QUAD $0x00042024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 1056]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	LONG $0xd276edc5                           // vpcmpeqd    ymm2, ymm2, ymm2
+	LONG $0xcaf8f5c5                           // vpsubb    ymm1, ymm1, ymm2
+	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
+	QUAD $0x00040024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 1024]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	LONG $0xf6df0dc5                           // vpandn    ymm14, ymm14, ymm6
+	QUAD $0x0003e024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 992]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	QUAD $0x0003a024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 928]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	QUAD $0x0003c024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 960]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xfaef05c5                           // vpxor    ymm15, ymm15, ymm2
+	LONG $0xd276edc5                           // vpcmpeqd    ymm2, ymm2, ymm2
+	LONG $0x7105c1c4; WORD $0x07f7             // vpsllw    ymm15, ymm15, 7
+	LONG $0xdb0541c4; BYTE $0xfa               // vpand    ymm15, ymm15, ymm10
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
+	QUAD $0x00036024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 864]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	LONG $0xffdf0dc5                           // vpandn    ymm15, ymm14, ymm7
+	LONG $0xfc0541c4; BYTE $0xf6               // vpaddb    ymm14, ymm15, ymm14
+	QUAD $0x00038024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 896]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xffdf05c5                           // vpandn    ymm15, ymm15, ymm7
+	QUAD $0x00032024acda7dc5; BYTE $0x00       // vpminub    ymm13, ymm0, yword [rsp + 800]
+	LONG $0xe87415c5                           // vpcmpeqb    ymm13, ymm13, ymm0
+	LONG $0xdf1541c4; BYTE $0xe9               // vpandn    ymm13, ymm13, ymm9
+	LONG $0xeb0541c4; BYTE $0xed               // vpor    ymm13, ymm15, ymm13
+	QUAD $0x00034024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 832]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
+	LONG $0xeb1541c4; BYTE $0xef               // vpor    ymm13, ymm13, ymm15
+	LONG $0xf2f80dc5                           // vpsubb    ymm14, ymm14, ymm2
+	LONG $0xeb0d41c4; BYTE $0xed               // vpor    ymm13, ymm14, ymm13
+	QUAD $0x0002e024b4da7dc5; BYTE $0x00       // vpminub    ymm14, ymm0, yword [rsp + 736]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	LONG $0xf6df0dc5                           // vpandn    ymm14, ymm14, ymm6
+	QUAD $0x00030024bcda7dc5; BYTE $0x00       // vpminub    ymm15, ymm0, yword [rsp + 768]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	LONG $0xd8da25c5                           // vpminub    ymm11, ymm11, ymm0
+	LONG $0xd87425c5                           // vpcmpeqb    ymm11, ymm11, ymm0
+	LONG $0xfd6f7dc5                           // vmovdqa    ymm15, ymm5
+	LONG $0xdddf25c5                           // vpandn    ymm11, ymm11, ymm5
+	LONG $0xeb0d41c4; BYTE $0xdb               // vpor    ymm11, ymm14, ymm11
+	LONG $0xe0da1dc5                           // vpminub    ymm12, ymm12, ymm0
+	LONG $0xe0741dc5                           // vpcmpeqb    ymm12, ymm12, ymm0
+	LONG $0xe2ef1dc5                           // vpxor    ymm12, ymm12, ymm2
+	LONG $0x711dc1c4; WORD $0x07f4             // vpsllw    ymm12, ymm12, 7
+	LONG $0x6f7d41c4; BYTE $0xf2               // vmovdqa    ymm14, ymm10
+	LONG $0xdb1d41c4; BYTE $0xe2               // vpand    ymm12, ymm12, ymm10
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xeb1541c4; BYTE $0xdb               // vpor    ymm11, ymm13, ymm11
+	QUAD $0x000240248cda7dc5; BYTE $0x00       // vpminub    ymm9, ymm0, yword [rsp + 576]
+	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
+	LONG $0xe7df35c5                           // vpandn    ymm12, ymm9, ymm7
+	LONG $0xfc1d41c4; BYTE $0xc9               // vpaddb    ymm9, ymm12, ymm9
+	QUAD $0x0001802494da7dc5; BYTE $0x00       // vpminub    ymm10, ymm0, yword [rsp + 384]
+	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
+	LONG $0xd7df2dc5                           // vpandn    ymm10, ymm10, ymm7
+	QUAD $0x00026024bcdafdc5; BYTE $0x00       // vpminub    ymm7, ymm0, yword [rsp + 608]
+	LONG $0xff74fdc5                           // vpcmpeqb    ymm7, ymm0, ymm7
+	LONG $0xfbdfc5c5                           // vpandn    ymm7, ymm7, ymm3
+	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
+	QUAD $0x0002802484da7dc5; BYTE $0x00       // vpminub    ymm8, ymm0, yword [rsp + 640]
+	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
+	LONG $0x45df3dc5; BYTE $0x40               // vpandn    ymm8, ymm8, yword 64[rbp] /* [rip + .LCPI8_2] */
+	LONG $0xffebbdc5                           // vpor    ymm7, ymm8, ymm7
+	LONG $0xc2f835c5                           // vpsubb    ymm8, ymm9, ymm2
+	LONG $0xffebbdc5                           // vpor    ymm7, ymm8, ymm7
+	QUAD $0x0002a024acdafdc5; BYTE $0x00       // vpminub    ymm5, ymm0, yword [rsp + 672]
+	LONG $0xed74fdc5                           // vpcmpeqb    ymm5, ymm0, ymm5
+	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
+	QUAD $0x0002c024b4dafdc5; BYTE $0x00       // vpminub    ymm6, ymm0, yword [rsp + 704]
+	LONG $0xf674fdc5                           // vpcmpeqb    ymm6, ymm0, ymm6
+	LONG $0xf4dfcdc5                           // vpandn    ymm6, ymm6, ymm4
+	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
+	QUAD $0x000120249cdafdc5; BYTE $0x00       // vpminub    ymm3, ymm0, yword [rsp + 288]
+	LONG $0xdb74fdc5                           // vpcmpeqb    ymm3, ymm0, ymm3
+	LONG $0xdf65c1c4; BYTE $0xdf               // vpandn    ymm3, ymm3, ymm15
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x00010024a4dafdc5; BYTE $0x00       // vpminub    ymm4, ymm0, yword [rsp + 256]
+	LONG $0xe474fdc5                           // vpcmpeqb    ymm4, ymm0, ymm4
+	LONG $0xe2efddc5                           // vpxor    ymm4, ymm4, ymm2
+	LONG $0xf471ddc5; BYTE $0x07               // vpsllw    ymm4, ymm4, 7
+	LONG $0xe4db8dc5                           // vpand    ymm4, ymm14, ymm4
+	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
+	LONG $0xdbebc5c5                           // vpor    ymm3, ymm7, ymm3
+	QUAD $0x00014024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 320]
+	LONG $0xe160edc5                           // vpunpcklbw    ymm4, ymm2, ymm1
+	LONG $0xc968edc5                           // vpunpckhbw    ymm1, ymm2, ymm1
+	LONG $0xd360a5c5                           // vpunpcklbw    ymm2, ymm11, ymm3
+	LONG $0xdb68a5c5                           // vpunpckhbw    ymm3, ymm11, ymm3
+	LONG $0xea61ddc5                           // vpunpcklwd    ymm5, ymm4, ymm2
+	LONG $0xd269ddc5                           // vpunpckhwd    ymm2, ymm4, ymm2
+	LONG $0xe361f5c5                           // vpunpcklwd    ymm4, ymm1, ymm3
+	LONG $0xcb69f5c5                           // vpunpckhwd    ymm1, ymm1, ymm3
+	LONG $0x3855e3c4; WORD $0x01da             // vinserti128    ymm3, ymm5, xmm2, 1
+	LONG $0x4655e3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm5, ymm2, 49
+	LONG $0x385de3c4; WORD $0x01e9             // vinserti128    ymm5, ymm4, xmm1, 1
+	LONG $0x465de3c4; WORD $0x31c9             // vperm2i128    ymm1, ymm4, ymm1, 49
+	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
+	LONG $0x7f7ec1c4; WORD $0x8b4c; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm1
+	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8b6c; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm5
+	LONG $0x7f7ec1c4; WORD $0x8b1c             // vmovdqu    yword [r11 + 4*rcx], ymm3
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000168248c3b48                   // cmp    rcx, qword [rsp + 360]
+	JNE  LBB8_184
+	QUAD $0x0000017024bc8b4c                   // mov    r15, qword [rsp + 368]
+	QUAD $0x0000016824bc3b4c                   // cmp    r15, qword [rsp + 360]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	LONG $0x24748b44; BYTE $0x04               // mov    r14d, dword [rsp + 4]
+	QUAD $0x000001f824a48b4c                   // mov    r12, qword [rsp + 504]
+	JNE  LBB8_101
+	JMP  LBB8_125
+
+TEXT ·_comparison_greater_equal_arr_arr_avx2(SB), $80-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	ADDQ $8, SP
+
+	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
+	WORD $0x8949; BYTE $0xce // mov    r14, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB9_29
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB9_2
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB9_68
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB9_79
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB9_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_22
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_20:
+	WORD $0x0e8b                   // mov    ecx, dword [rsi]
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x0a3b                   // cmp    ecx, dword [rdx]
+	LONG $0x04528d48               // lea    rdx, [rdx + 4]
+	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
+	LONG $0xffd28041               // adc    r10b, -1
+	LONG $0x07588d48               // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xd8490f48               // cmovns    rbx, rax
+	LONG $0x03fbc148               // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
+	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB9_20
+	LONG $0x01c68349               // add    r14, 1
+
+LBB9_22:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_26
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB9_24:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd5930f41                           // setae    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd0930f41                           // setae    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd3930f41                           // setae    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd7930f41                           // setae    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd2930f41                           // setae    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd6930f41                           // setae    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd4930f41                           // setae    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd1930f41                           // setae    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB9_24
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB9_26:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_28:
+	WORD $0x048b; BYTE $0x8e     // mov    eax, dword [rsi + 4*rcx]
+	WORD $0x043b; BYTE $0x8a     // cmp    eax, dword [rdx + 4*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_28
+	JMP  LBB9_123
+
+LBB9_29:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB9_30
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB9_101
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB9_112
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB9_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_50
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_48:
+	LONG $0x0610fbc5               // vmovsd    xmm0, qword [rsi]
+	LONG $0x08c68348               // add    rsi, 8
+	LONG $0x022ef9c5               // vucomisd    xmm0, qword [rdx]
+	LONG $0x08528d48               // lea    rdx, [rdx + 8]
+	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
+	LONG $0xffd28041               // adc    r10b, -1
+	LONG $0x07588d48               // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xd8490f48               // cmovns    rbx, rax
+	LONG $0x03fbc148               // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
+	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB9_48
+	LONG $0x01c68349               // add    r14, 1
+
+LBB9_50:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_54
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB9_52:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x0610fbc5                           // vmovsd    xmm0, qword [rsi]
+	LONG $0x4e10fbc5; BYTE $0x08               // vmovsd    xmm1, qword [rsi + 8]
+	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
+	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
+	LONG $0x4a2ef9c5; BYTE $0x08               // vucomisd    xmm1, qword [rdx + 8]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x4610fbc5; BYTE $0x10               // vmovsd    xmm0, qword [rsi + 16]
+	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
+	LONG $0x4610fbc5; BYTE $0x18               // vmovsd    xmm0, qword [rsi + 24]
+	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
+	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
+	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
+	LONG $0x4610fbc5; BYTE $0x20               // vmovsd    xmm0, qword [rsi + 32]
+	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
+	LONG $0x4610fbc5; BYTE $0x28               // vmovsd    xmm0, qword [rsi + 40]
+	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
+	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
+	LONG $0x4610fbc5; BYTE $0x30               // vmovsd    xmm0, qword [rsi + 48]
+	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
+	LONG $0x4610fbc5; BYTE $0x38               // vmovsd    xmm0, qword [rsi + 56]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x4610fbc5; BYTE $0x40               // vmovsd    xmm0, qword [rsi + 64]
+	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
+	LONG $0x4610fbc5; BYTE $0x48               // vmovsd    xmm0, qword [rsi + 72]
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x4610fbc5; BYTE $0x50               // vmovsd    xmm0, qword [rsi + 80]
+	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
+	LONG $0x4610fbc5; BYTE $0x58               // vmovsd    xmm0, qword [rsi + 88]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x4610fbc5; BYTE $0x60               // vmovsd    xmm0, qword [rsi + 96]
+	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
+	LONG $0x4610fbc5; BYTE $0x68               // vmovsd    xmm0, qword [rsi + 104]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
+	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
+	LONG $0x4610fbc5; BYTE $0x70               // vmovsd    xmm0, qword [rsi + 112]
+	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
+	LONG $0x4610fbc5; BYTE $0x78               // vmovsd    xmm0, qword [rsi + 120]
+	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
+	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	QUAD $0x000000808610fbc5                   // vmovsd    xmm0, qword [rsi + 128]
+	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
+	QUAD $0x000000888610fbc5                   // vmovsd    xmm0, qword [rsi + 136]
+	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
+	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
+	QUAD $0x000000908610fbc5                   // vmovsd    xmm0, qword [rsi + 144]
+	LONG $0xd6930f41                           // setae    r14b
+	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
+	QUAD $0x000000988610fbc5                   // vmovsd    xmm0, qword [rsi + 152]
+	LONG $0xd4930f41                           // setae    r12b
+	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
+	QUAD $0x000000a08610fbc5                   // vmovsd    xmm0, qword [rsi + 160]
+	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
+	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
+	QUAD $0x000000a88610fbc5                   // vmovsd    xmm0, qword [rsi + 168]
+	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
+	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
+	QUAD $0x000000b08610fbc5                   // vmovsd    xmm0, qword [rsi + 176]
+	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
+	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
+	QUAD $0x000000b88610fbc5                   // vmovsd    xmm0, qword [rsi + 184]
+	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
+	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
+	QUAD $0x000000c08610fbc5                   // vmovsd    xmm0, qword [rsi + 192]
+	LONG $0xd0930f41                           // setae    r8b
+	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
+	QUAD $0x000000c88610fbc5                   // vmovsd    xmm0, qword [rsi + 200]
+	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
+	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
+	QUAD $0x000000d08610fbc5                   // vmovsd    xmm0, qword [rsi + 208]
+	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
+	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
+	QUAD $0x000000d88610fbc5                   // vmovsd    xmm0, qword [rsi + 216]
+	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
+	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
+	QUAD $0x000000e08610fbc5                   // vmovsd    xmm0, qword [rsi + 224]
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
+	QUAD $0x000000e88610fbc5                   // vmovsd    xmm0, qword [rsi + 232]
+	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
+	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
+	QUAD $0x000000f08610fbc5                   // vmovsd    xmm0, qword [rsi + 240]
+	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
+	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
+	QUAD $0x000000f88610fbc5                   // vmovsd    xmm0, qword [rsi + 248]
+	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
+	LONG $0xd7930f40                           // setae    dil
+	WORD $0xc000                               // add    al, al
+	LONG $0x04244402                           // add    al, byte [rsp + 4]
+	LONG $0x06e5c041                           // shl    r13b, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
+	LONG $0x06e1c041                           // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB9_52
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB9_54:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_56:
+	LONG $0x0410fbc5; BYTE $0xce // vmovsd    xmm0, qword [rsi + 8*rcx]
+	LONG $0x042ef9c5; BYTE $0xca // vucomisd    xmm0, qword [rdx + 8*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_56
+	JMP  LBB9_123
+
+LBB9_2:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB9_57
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB9_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_8
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_6:
+	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x0a3a                 // cmp    cl, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0xd29d0f41             // setge    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB9_6
+	LONG $0x01c68349             // add    r14, 1
+
+LBB9_8:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_12
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB9_10:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x24549d0f; BYTE $0x28   // setge    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x9d0f; BYTE $0xd1       // setge    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x24549d0f; BYTE $0x14   // setge    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x24549d0f; BYTE $0x15   // setge    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x24549d0f; BYTE $0x16   // setge    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x24549d0f; BYTE $0x17   // setge    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x24549d0f; BYTE $0x04   // setge    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd79d0f41               // setge    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x24549d0f; BYTE $0x07   // setge    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd79d0f40               // setge    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd29d0f41               // setge    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd39d0f41               // setge    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd69d0f41               // setge    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x24549d0f; BYTE $0x05   // setge    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x24549d0f; BYTE $0x06   // setge    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x9d0f; BYTE $0xd3       // setge    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x24549d0f; BYTE $0x0d   // setge    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd49d0f41               // setge    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd59d0f41               // setge    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x24549d0f; BYTE $0x08   // setge    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x24549d0f; BYTE $0x09   // setge    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x24549d0f; BYTE $0x0a   // setge    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x24549d0f; BYTE $0x0b   // setge    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd19d0f41               // setge    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x24549d0f; BYTE $0x13   // setge    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x24549d0f; BYTE $0x0c   // setge    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x24549d0f; BYTE $0x0e   // setge    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x24549d0f; BYTE $0x0f   // setge    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x24549d0f; BYTE $0x10   // setge    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x24549d0f; BYTE $0x11   // setge    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x24549d0f; BYTE $0x12   // setge    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd09d0f41               // setge    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB9_10
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB9_12:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_14:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
+	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_14
+	JMP  LBB9_123
+
+LBB9_30:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB9_90
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB9_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_36
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_34:
+	WORD $0x8b48; BYTE $0x0e       // mov    rcx, qword [rsi]
+	LONG $0x08c68348               // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a       // cmp    rcx, qword [rdx]
+	LONG $0x08528d48               // lea    rdx, [rdx + 8]
+	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
+	LONG $0xffd28041               // adc    r10b, -1
+	LONG $0x07588d48               // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xd8490f48               // cmovns    rbx, rax
+	LONG $0x03fbc148               // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
+	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB9_34
+	LONG $0x01c68349               // add    r14, 1
+
+LBB9_36:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_40
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB9_38:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB9_38
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB9_40:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_42:
+	LONG $0xce048b48             // mov    rax, qword [rsi + 8*rcx]
+	LONG $0xca043b48             // cmp    rax, qword [rdx + 8*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_42
+	JMP  LBB9_123
+
+LBB9_68:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_72
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_70:
+	WORD $0xb70f; BYTE $0x0e       // movzx    ecx, word [rsi]
+	LONG $0x02c68348               // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a       // cmp    cx, word [rdx]
+	LONG $0x02528d48               // lea    rdx, [rdx + 2]
+	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
+	LONG $0xffd28041               // adc    r10b, -1
+	LONG $0x07588d48               // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xd8490f48               // cmovns    rbx, rax
+	LONG $0x03fbc148               // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
+	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB9_70
+	LONG $0x01c68349               // add    r14, 1
+
+LBB9_72:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_76
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB9_74:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x2454930f; BYTE $0x28   // setae    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x2454930f; BYTE $0x20   // setae    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x2454930f; BYTE $0x14   // setae    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x2454930f; BYTE $0x15   // setae    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x2454930f; BYTE $0x16   // setae    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x2454930f; BYTE $0x17   // setae    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x2454930f; BYTE $0x04   // setae    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd5930f41               // setae    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x2454930f; BYTE $0x09   // setae    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd0930f41               // setae    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd3930f41               // setae    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd7930f41               // setae    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x2454930f; BYTE $0x05   // setae    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x2454930f; BYTE $0x06   // setae    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x2454930f; BYTE $0x07   // setae    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x930f; BYTE $0xd3       // setae    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x2454930f; BYTE $0x0a   // setae    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd2930f41               // setae    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd6930f41               // setae    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd4930f41               // setae    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x2454930f; BYTE $0x08   // setae    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x2454930f; BYTE $0x0b   // setae    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x2454930f; BYTE $0x0c   // setae    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd1930f41               // setae    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x2454930f; BYTE $0x13   // setae    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x2454930f; BYTE $0x0d   // setae    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x2454930f; BYTE $0x0e   // setae    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x2454930f; BYTE $0x0f   // setae    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x2454930f; BYTE $0x10   // setae    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x2454930f; BYTE $0x12   // setae    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x2454930f; BYTE $0x11   // setae    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd7930f40               // setae    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB9_74
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB9_76:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_78:
+	LONG $0x4e04b70f             // movzx    eax, word [rsi + 2*rcx]
+	LONG $0x4a043b66             // cmp    ax, word [rdx + 2*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_78
+	JMP  LBB9_123
+
+LBB9_79:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_83
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_81:
+	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	LONG $0xd29d0f41             // setge    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB9_81
+	LONG $0x01c68349             // add    r14, 1
+
+LBB9_83:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_87
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB9_85:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x24549d0f; BYTE $0x28   // setge    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x24549d0f; BYTE $0x20   // setge    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x24549d0f; BYTE $0x14   // setge    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x24549d0f; BYTE $0x15   // setge    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x24549d0f; BYTE $0x16   // setge    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x24549d0f; BYTE $0x17   // setge    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x24549d0f; BYTE $0x04   // setge    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd59d0f41               // setge    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x24549d0f; BYTE $0x09   // setge    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd09d0f41               // setge    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd39d0f41               // setge    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd79d0f41               // setge    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x24549d0f; BYTE $0x05   // setge    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x24549d0f; BYTE $0x06   // setge    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x24549d0f; BYTE $0x07   // setge    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x9d0f; BYTE $0xd3       // setge    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x24549d0f; BYTE $0x0a   // setge    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd29d0f41               // setge    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd69d0f41               // setge    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd49d0f41               // setge    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x24549d0f; BYTE $0x08   // setge    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x24549d0f; BYTE $0x0b   // setge    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x24549d0f; BYTE $0x0c   // setge    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd19d0f41               // setge    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x24549d0f; BYTE $0x13   // setge    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x24549d0f; BYTE $0x0d   // setge    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x24549d0f; BYTE $0x0e   // setge    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x24549d0f; BYTE $0x0f   // setge    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x24549d0f; BYTE $0x10   // setge    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x24549d0f; BYTE $0x12   // setge    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x24549d0f; BYTE $0x11   // setge    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd79d0f40               // setge    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB9_85
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB9_87:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_89:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
+	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_89
+	JMP  LBB9_123
+
+LBB9_101:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_105
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_103:
+	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd29d0f41             // setge    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB9_103
+	LONG $0x01c68349             // add    r14, 1
+
+LBB9_105:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_109
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB9_107:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x24549d0f; BYTE $0x14               // setge    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x24549d0f; BYTE $0x15               // setge    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x24549d0f; BYTE $0x16               // setge    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x24549d0f; BYTE $0x17               // setge    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x24549d0f; BYTE $0x04               // setge    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd59d0f41                           // setge    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x24549d0f; BYTE $0x09               // setge    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd09d0f41                           // setge    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x24549d0f; BYTE $0x05               // setge    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x24549d0f; BYTE $0x06               // setge    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x24549d0f; BYTE $0x07               // setge    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x24549d0f; BYTE $0x0a               // setge    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd69d0f41                           // setge    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd49d0f41                           // setge    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x24549d0f; BYTE $0x0b               // setge    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x24549d0f; BYTE $0x0c               // setge    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x24549d0f; BYTE $0x13               // setge    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x24549d0f; BYTE $0x0d               // setge    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x24549d0f; BYTE $0x0e               // setge    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x24549d0f; BYTE $0x0f               // setge    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x24549d0f; BYTE $0x12               // setge    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x24549d0f; BYTE $0x11               // setge    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB9_107
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB9_109:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_111:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
+	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_111
+	JMP  LBB9_123
+
+LBB9_112:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_116
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_114:
+	LONG $0x0610fac5               // vmovss    xmm0, dword [rsi]
+	LONG $0x04c68348               // add    rsi, 4
+	LONG $0x022ef8c5               // vucomiss    xmm0, dword [rdx]
+	LONG $0x04528d48               // lea    rdx, [rdx + 4]
+	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
+	LONG $0xffd28041               // adc    r10b, -1
+	LONG $0x07588d48               // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xd8490f48               // cmovns    rbx, rax
+	LONG $0x03fbc148               // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
+	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB9_114
+	LONG $0x01c68349               // add    r14, 1
+
+LBB9_116:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_120
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB9_118:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x0610fac5                           // vmovss    xmm0, dword [rsi]
+	LONG $0x4e10fac5; BYTE $0x04               // vmovss    xmm1, dword [rsi + 4]
+	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
+	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
+	LONG $0x4a2ef8c5; BYTE $0x04               // vucomiss    xmm1, dword [rdx + 4]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x4610fac5; BYTE $0x08               // vmovss    xmm0, dword [rsi + 8]
+	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
+	LONG $0x4610fac5; BYTE $0x0c               // vmovss    xmm0, dword [rsi + 12]
+	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
+	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
+	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
+	LONG $0x4610fac5; BYTE $0x10               // vmovss    xmm0, dword [rsi + 16]
+	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
+	LONG $0x4610fac5; BYTE $0x14               // vmovss    xmm0, dword [rsi + 20]
+	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
+	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
+	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
+	LONG $0x4610fac5; BYTE $0x18               // vmovss    xmm0, dword [rsi + 24]
+	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
+	LONG $0x4610fac5; BYTE $0x1c               // vmovss    xmm0, dword [rsi + 28]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x4610fac5; BYTE $0x20               // vmovss    xmm0, dword [rsi + 32]
+	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
+	LONG $0x4610fac5; BYTE $0x24               // vmovss    xmm0, dword [rsi + 36]
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x4610fac5; BYTE $0x28               // vmovss    xmm0, dword [rsi + 40]
+	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
+	LONG $0x4610fac5; BYTE $0x2c               // vmovss    xmm0, dword [rsi + 44]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x4610fac5; BYTE $0x30               // vmovss    xmm0, dword [rsi + 48]
+	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
+	LONG $0x4610fac5; BYTE $0x34               // vmovss    xmm0, dword [rsi + 52]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
+	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
+	LONG $0x4610fac5; BYTE $0x38               // vmovss    xmm0, dword [rsi + 56]
+	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
+	LONG $0x4610fac5; BYTE $0x3c               // vmovss    xmm0, dword [rsi + 60]
+	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
+	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x4610fac5; BYTE $0x40               // vmovss    xmm0, dword [rsi + 64]
+	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
+	LONG $0x4610fac5; BYTE $0x44               // vmovss    xmm0, dword [rsi + 68]
+	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
+	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
+	LONG $0x4610fac5; BYTE $0x48               // vmovss    xmm0, dword [rsi + 72]
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
+	LONG $0x4610fac5; BYTE $0x4c               // vmovss    xmm0, dword [rsi + 76]
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
+	LONG $0x4610fac5; BYTE $0x50               // vmovss    xmm0, dword [rsi + 80]
+	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
+	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
+	LONG $0x4610fac5; BYTE $0x54               // vmovss    xmm0, dword [rsi + 84]
+	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
+	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
+	LONG $0x4610fac5; BYTE $0x58               // vmovss    xmm0, dword [rsi + 88]
+	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
+	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
+	LONG $0x4610fac5; BYTE $0x5c               // vmovss    xmm0, dword [rsi + 92]
+	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
+	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
+	LONG $0x4610fac5; BYTE $0x60               // vmovss    xmm0, dword [rsi + 96]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
+	LONG $0x4610fac5; BYTE $0x64               // vmovss    xmm0, dword [rsi + 100]
+	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
+	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
+	LONG $0x4610fac5; BYTE $0x68               // vmovss    xmm0, dword [rsi + 104]
+	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
+	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
+	LONG $0x4610fac5; BYTE $0x6c               // vmovss    xmm0, dword [rsi + 108]
+	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
+	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
+	LONG $0x4610fac5; BYTE $0x70               // vmovss    xmm0, dword [rsi + 112]
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
+	LONG $0x4610fac5; BYTE $0x74               // vmovss    xmm0, dword [rsi + 116]
+	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
+	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
+	LONG $0x4610fac5; BYTE $0x78               // vmovss    xmm0, dword [rsi + 120]
+	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
+	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
+	LONG $0x4610fac5; BYTE $0x7c               // vmovss    xmm0, dword [rsi + 124]
+	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
+	LONG $0xd7930f40                           // setae    dil
+	WORD $0xc000                               // add    al, al
+	LONG $0x04244402                           // add    al, byte [rsp + 4]
+	LONG $0x06e5c041                           // shl    r13b, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
+	LONG $0x06e1c041                           // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB9_118
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB9_120:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_122:
+	LONG $0x0410fac5; BYTE $0x8e // vmovss    xmm0, dword [rsi + 4*rcx]
+	LONG $0x042ef8c5; BYTE $0x8a // vucomiss    xmm0, dword [rdx + 4*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_122
+	JMP  LBB9_123
+
+LBB9_57:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_61
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_59:
+	WORD $0xb60f; BYTE $0x0e       // movzx    ecx, byte [rsi]
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x0a3a                   // cmp    cl, byte [rdx]
+	LONG $0x01528d48               // lea    rdx, [rdx + 1]
+	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
+	LONG $0xffd28041               // adc    r10b, -1
+	LONG $0x07588d48               // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xd8490f48               // cmovns    rbx, rax
+	LONG $0x03fbc148               // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
+	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB9_59
+	LONG $0x01c68349               // add    r14, 1
+
+LBB9_61:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_65
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB9_63:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x2454930f; BYTE $0x28   // setae    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x930f; BYTE $0xd1       // setae    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x2454930f; BYTE $0x14   // setae    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x2454930f; BYTE $0x15   // setae    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x2454930f; BYTE $0x16   // setae    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x2454930f; BYTE $0x17   // setae    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x2454930f; BYTE $0x04   // setae    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd7930f41               // setae    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x2454930f; BYTE $0x07   // setae    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd7930f40               // setae    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd2930f41               // setae    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd3930f41               // setae    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd6930f41               // setae    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x2454930f; BYTE $0x05   // setae    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x2454930f; BYTE $0x06   // setae    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x930f; BYTE $0xd3       // setae    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x2454930f; BYTE $0x0d   // setae    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd4930f41               // setae    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd5930f41               // setae    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x2454930f; BYTE $0x08   // setae    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x2454930f; BYTE $0x09   // setae    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x2454930f; BYTE $0x0a   // setae    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x2454930f; BYTE $0x0b   // setae    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd1930f41               // setae    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x2454930f; BYTE $0x13   // setae    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x2454930f; BYTE $0x0c   // setae    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x2454930f; BYTE $0x0e   // setae    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x2454930f; BYTE $0x0f   // setae    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x2454930f; BYTE $0x10   // setae    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x2454930f; BYTE $0x11   // setae    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x2454930f; BYTE $0x12   // setae    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd0930f41               // setae    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB9_63
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB9_65:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_67:
+	LONG $0x0e04b60f             // movzx    eax, byte [rsi + rcx]
+	WORD $0x043a; BYTE $0x0a     // cmp    al, byte [rdx + rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_67
+	JMP  LBB9_123
+
+LBB9_90:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_94
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_92:
+	WORD $0x0e8b                 // mov    ecx, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd29d0f41             // setge    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB9_92
+	LONG $0x01c68349             // add    r14, 1
+
+LBB9_94:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_98
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB9_96:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x24549d0f; BYTE $0x14               // setge    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x24549d0f; BYTE $0x15               // setge    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x24549d0f; BYTE $0x16               // setge    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x24549d0f; BYTE $0x17               // setge    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x24549d0f; BYTE $0x04               // setge    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd59d0f41                           // setge    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x24549d0f; BYTE $0x09               // setge    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd09d0f41                           // setge    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd39d0f41                           // setge    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd79d0f41                           // setge    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x24549d0f; BYTE $0x05               // setge    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x24549d0f; BYTE $0x06               // setge    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x24549d0f; BYTE $0x07               // setge    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x24549d0f; BYTE $0x0a               // setge    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd29d0f41                           // setge    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd69d0f41                           // setge    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd49d0f41                           // setge    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x24549d0f; BYTE $0x0b               // setge    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x24549d0f; BYTE $0x0c               // setge    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd19d0f41                           // setge    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x24549d0f; BYTE $0x13               // setge    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x24549d0f; BYTE $0x0d               // setge    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x24549d0f; BYTE $0x0e               // setge    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x24549d0f; BYTE $0x0f               // setge    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x24549d0f; BYTE $0x12               // setge    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x24549d0f; BYTE $0x11               // setge    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB9_96
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB9_98:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_100:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_100
+
+LBB9_123:
+	SUBQ $8, SP
+	RET
+
+DATA LCDATA7<>+0x000(SB)/8, $0x0202020202020202
+DATA LCDATA7<>+0x008(SB)/8, $0x0202020202020202
+DATA LCDATA7<>+0x010(SB)/8, $0x0202020202020202
+DATA LCDATA7<>+0x018(SB)/8, $0x0202020202020202
+DATA LCDATA7<>+0x020(SB)/8, $0x0404040404040404
+DATA LCDATA7<>+0x028(SB)/8, $0x0404040404040404
+DATA LCDATA7<>+0x030(SB)/8, $0x0404040404040404
+DATA LCDATA7<>+0x038(SB)/8, $0x0404040404040404
+DATA LCDATA7<>+0x040(SB)/8, $0x0808080808080808
+DATA LCDATA7<>+0x048(SB)/8, $0x0808080808080808
+DATA LCDATA7<>+0x050(SB)/8, $0x0808080808080808
+DATA LCDATA7<>+0x058(SB)/8, $0x0808080808080808
+DATA LCDATA7<>+0x060(SB)/8, $0x1010101010101010
+DATA LCDATA7<>+0x068(SB)/8, $0x1010101010101010
+DATA LCDATA7<>+0x070(SB)/8, $0x1010101010101010
+DATA LCDATA7<>+0x078(SB)/8, $0x1010101010101010
+DATA LCDATA7<>+0x080(SB)/8, $0x2020202020202020
+DATA LCDATA7<>+0x088(SB)/8, $0x2020202020202020
+DATA LCDATA7<>+0x090(SB)/8, $0x2020202020202020
+DATA LCDATA7<>+0x098(SB)/8, $0x2020202020202020
+DATA LCDATA7<>+0x0a0(SB)/8, $0x4040404040404040
+DATA LCDATA7<>+0x0a8(SB)/8, $0x4040404040404040
+DATA LCDATA7<>+0x0b0(SB)/8, $0x4040404040404040
+DATA LCDATA7<>+0x0b8(SB)/8, $0x4040404040404040
+DATA LCDATA7<>+0x0c0(SB)/8, $0x8080808080808080
+DATA LCDATA7<>+0x0c8(SB)/8, $0x8080808080808080
+DATA LCDATA7<>+0x0d0(SB)/8, $0x8080808080808080
+DATA LCDATA7<>+0x0d8(SB)/8, $0x8080808080808080
+GLOBL LCDATA7<>(SB), 8, $224
+
+TEXT ·_comparison_greater_equal_arr_scalar_avx2(SB), $1384-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $32, SP
+	ANDQ $-32, SP
+	MOVQ BP, 1344(SP)
+	LEAQ LCDATA7<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	WORD $0x8949; BYTE $0xcb // mov    r11, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB10_13
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB10_25
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB10_48
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB10_56
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB10_175
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_9
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_7:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
+	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB10_7
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB10_9:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB10_100
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB10_11:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x000000982494930f                   // setae    byte [rsp + 152]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x930f; BYTE $0xd2                   // setae    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd0930f41                           // setae    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x70245402                           // add    dl, byte [rsp + 112]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB10_11
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB10_101
+	JMP  LBB10_175
+
+LBB10_13:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB10_38
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB10_64
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB10_72
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB10_175
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_21
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_19:
+	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
+	WORD $0x960f; BYTE $0xd2     // setbe    dl
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB10_19
+	LONG $0x01c38349             // add    r11, 1
+
+LBB10_21:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB10_103
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB10_23:
+	LONG $0x062ef9c5                           // vucomisd    xmm0, qword [rsi]
+	QUAD $0x000000a02494960f                   // setbe    byte [rsp + 160]
+	LONG $0x462ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rsi + 8]
+	LONG $0xd1960f41                           // setbe    r9b
+	LONG $0x462ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rsi + 16]
+	LONG $0xd6960f41                           // setbe    r14b
+	LONG $0x462ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rsi + 24]
+	LONG $0xd5960f41                           // setbe    r13b
+	LONG $0x462ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rsi + 32]
+	QUAD $0x000000902494960f                   // setbe    byte [rsp + 144]
+	LONG $0x462ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rsi + 40]
+	LONG $0x2454960f; BYTE $0x60               // setbe    byte [rsp + 96]
+	LONG $0x462ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rsi + 48]
+	WORD $0x960f; BYTE $0xd0                   // setbe    al
+	LONG $0x462ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rsi + 56]
+	WORD $0x960f; BYTE $0xd3                   // setbe    bl
+	LONG $0x462ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rsi + 64]
+	LONG $0x2454960f; BYTE $0x78               // setbe    byte [rsp + 120]
+	LONG $0x462ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rsi + 72]
+	WORD $0x960f; BYTE $0xd2                   // setbe    dl
+	LONG $0x462ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rsi + 80]
+	LONG $0xd7960f40                           // setbe    dil
+	LONG $0x462ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rsi + 88]
+	LONG $0xd2960f41                           // setbe    r10b
+	LONG $0x462ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rsi + 96]
+	LONG $0xd3960f41                           // setbe    r11b
+	LONG $0x462ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rsi + 104]
+	LONG $0xd4960f41                           // setbe    r12b
+	LONG $0x462ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rsi + 112]
+	QUAD $0x000000802494960f                   // setbe    byte [rsp + 128]
+	LONG $0x462ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rsi + 120]
+	WORD $0x960f; BYTE $0xd1                   // setbe    cl
+	QUAD $0x00000080862ef9c5                   // vucomisd    xmm0, qword [rsi + 128]
+	LONG $0x2454960f; BYTE $0x50               // setbe    byte [rsp + 80]
+	QUAD $0x00000088862ef9c5                   // vucomisd    xmm0, qword [rsi + 136]
+	LONG $0x2454960f; BYTE $0x70               // setbe    byte [rsp + 112]
+	QUAD $0x00000090862ef9c5                   // vucomisd    xmm0, qword [rsi + 144]
+	QUAD $0x000000882494960f                   // setbe    byte [rsp + 136]
+	QUAD $0x00000098862ef9c5                   // vucomisd    xmm0, qword [rsi + 152]
+	LONG $0x2454960f; BYTE $0x48               // setbe    byte [rsp + 72]
+	QUAD $0x000000a0862ef9c5                   // vucomisd    xmm0, qword [rsi + 160]
+	LONG $0x2454960f; BYTE $0x58               // setbe    byte [rsp + 88]
+	QUAD $0x000000a8862ef9c5                   // vucomisd    xmm0, qword [rsi + 168]
+	LONG $0x2454960f; BYTE $0x68               // setbe    byte [rsp + 104]
+	QUAD $0x000000b0862ef9c5                   // vucomisd    xmm0, qword [rsi + 176]
+	LONG $0x2454960f; BYTE $0x40               // setbe    byte [rsp + 64]
+	QUAD $0x000000b8862ef9c5                   // vucomisd    xmm0, qword [rsi + 184]
+	LONG $0xd7960f41                           // setbe    r15b
+	QUAD $0x000000c0862ef9c5                   // vucomisd    xmm0, qword [rsi + 192]
+	LONG $0x2454960f; BYTE $0x20               // setbe    byte [rsp + 32]
+	QUAD $0x000000c8862ef9c5                   // vucomisd    xmm0, qword [rsi + 200]
+	LONG $0x2454960f; BYTE $0x28               // setbe    byte [rsp + 40]
+	QUAD $0x000000d0862ef9c5                   // vucomisd    xmm0, qword [rsi + 208]
+	LONG $0x2454960f; BYTE $0x30               // setbe    byte [rsp + 48]
+	QUAD $0x000000d8862ef9c5                   // vucomisd    xmm0, qword [rsi + 216]
+	LONG $0x2454960f; BYTE $0x38               // setbe    byte [rsp + 56]
+	QUAD $0x000000e0862ef9c5                   // vucomisd    xmm0, qword [rsi + 224]
+	QUAD $0x000001402494960f                   // setbe    byte [rsp + 320]
+	QUAD $0x000000e8862ef9c5                   // vucomisd    xmm0, qword [rsi + 232]
+	QUAD $0x000001202494960f                   // setbe    byte [rsp + 288]
+	QUAD $0x000000f0862ef9c5                   // vucomisd    xmm0, qword [rsi + 240]
+	LONG $0x2454960f; BYTE $0x1c               // setbe    byte [rsp + 28]
+	QUAD $0x000000f8862ef9c5                   // vucomisd    xmm0, qword [rsi + 248]
+	LONG $0xd0960f41                           // setbe    r8b
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x000000a0248c0244                   // add    r9b, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x78245402                           // add    dl, byte [rsp + 120]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x0000008024bcb60f                   // movzx    edi, byte [rsp + 128]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xc000                               // add    al, al
+	LONG $0x50244402                           // add    al, byte [rsp + 80]
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB10_23
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB10_104
+	JMP  LBB10_175
+
+LBB10_25:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB10_80
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB10_175
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_128
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+	WORD $0x894d; BYTE $0xdd // mov    r13, r11
+
+LBB10_29:
+	WORD $0x3844; BYTE $0x36       // cmp    byte [rsi], r14b
+	LONG $0x01768d48               // lea    rsi, [rsi + 1]
+	WORD $0x9d0f; BYTE $0xd2       // setge    dl
+	WORD $0xdaf6                   // neg    dl
+	LONG $0x07788d48               // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xf8490f48               // cmovns    rdi, rax
+	LONG $0x03ffc148               // sar    rdi, 3
+	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
+	WORD $0x3044; BYTE $0xca       // xor    dl, r9b
+	QUAD $0x00000000fd048d44       // lea    r8d, [8*rdi]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00   // mov    ebx, 1
+	WORD $0xe3d3                   // shl    ebx, cl
+	WORD $0xd320                   // and    bl, dl
+	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
+	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB10_29
+	LONG $0x01c58349               // add    r13, 1
+	LONG $0x05ffc149               // sar    r15, 5
+	LONG $0x20fa8349               // cmp    r10, 32
+	JL   LBB10_129
+
+LBB10_31:
+	LONG $0x20ff8349             // cmp    r15, 32
+	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
+	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
+	QUAD $0x0000026024bc894c     // mov    qword [rsp + 608], r15
+	JB   LBB10_34
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc5     // cmp    r13, rax
+	JAE  LBB10_182
+	QUAD $0x00000000bd048d4a     // lea    rax, [4*r15]
+	WORD $0x014c; BYTE $0xe8     // add    rax, r13
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB10_182
+
+LBB10_34:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x000001a024848948 // mov    qword [rsp + 416], rax
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+	QUAD $0x0000016824ac894c // mov    qword [rsp + 360], r13
+
+LBB10_35:
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+	QUAD $0x000001a024ac2b4c // sub    r13, qword [rsp + 416]
+	QUAD $0x0000009824ac894c // mov    qword [rsp + 152], r13
+
+LBB10_36:
+	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
+	LONG $0x24343845                           // cmp    byte [r12], r14b
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
+	LONG $0xd09d0f41                           // setge    r8b
+	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
+	LONG $0xd59d0f41                           // setge    r13b
+	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
+	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
+	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
+	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
+	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
+	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
+	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
+	LONG $0xd69d0f40                           // setge    sil
+	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
+	LONG $0xd49d0f41                           // setge    r12b
+	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
+	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
+	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
+	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
+	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
+	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
+	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
+	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
+	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
+	LONG $0xd69d0f41                           // setge    r14b
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x40249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 320]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	QUAD $0x0000016824b48b48                   // mov    rsi, qword [rsp + 360]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xc000                               // add    al, al
+	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xd308                               // or    bl, dl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x0000016824b48948                   // mov    qword [rsp + 360], rsi
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB10_36
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x0000026024bc8b4c                   // mov    r15, qword [rsp + 608]
+	JMP  LBB10_130
+
+LBB10_38:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB10_92
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB10_175
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_44
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_42:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
+	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB10_42
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB10_44:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB10_106
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+
+LBB10_46:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x000000982494930f                   // setae    byte [rsp + 152]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x930f; BYTE $0xd2                   // setae    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd0930f41                           // setae    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x70245402                           // add    dl, byte [rsp + 112]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB10_46
+	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB10_107
+	JMP  LBB10_175
+
+LBB10_48:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_52
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_50:
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
+	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
+	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB10_50
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB10_52:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB10_109
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB10_54:
+	LONG $0x2e394466                     // cmp    word [rsi], r13w
+	WORD $0x930f; BYTE $0xd0             // setae    al
+	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
+	LONG $0xd7930f40                     // setae    dil
+	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
+	LONG $0xd6930f41                     // setae    r14b
+	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
+	QUAD $0x000000a02494930f             // setae    byte [rsp + 160]
+	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
+	QUAD $0x000000902494930f             // setae    byte [rsp + 144]
+	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
+	LONG $0x2454930f; BYTE $0x60         // setae    byte [rsp + 96]
+	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
+	QUAD $0x000000982494930f             // setae    byte [rsp + 152]
+	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
+	WORD $0x930f; BYTE $0xd3             // setae    bl
+	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
+	LONG $0x2454930f; BYTE $0x70         // setae    byte [rsp + 112]
+	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
+	WORD $0x930f; BYTE $0xd2             // setae    dl
+	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
+	LONG $0xd1930f41                     // setae    r9b
+	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
+	LONG $0xd2930f41                     // setae    r10b
+	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
+	LONG $0xd3930f41                     // setae    r11b
+	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
+	LONG $0xd4930f41                     // setae    r12b
+	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
+	LONG $0x2454930f; BYTE $0x78         // setae    byte [rsp + 120]
+	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
+	WORD $0x930f; BYTE $0xd1             // setae    cl
+	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
+	LONG $0x2454930f; BYTE $0x50         // setae    byte [rsp + 80]
+	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
+	QUAD $0x000000802494930f             // setae    byte [rsp + 128]
+	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
+	QUAD $0x000000882494930f             // setae    byte [rsp + 136]
+	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
+	LONG $0x2454930f; BYTE $0x48         // setae    byte [rsp + 72]
+	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
+	LONG $0x2454930f; BYTE $0x58         // setae    byte [rsp + 88]
+	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
+	LONG $0x2454930f; BYTE $0x68         // setae    byte [rsp + 104]
+	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
+	LONG $0x2454930f; BYTE $0x40         // setae    byte [rsp + 64]
+	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
+	LONG $0xd7930f41                     // setae    r15b
+	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
+	LONG $0x2454930f; BYTE $0x20         // setae    byte [rsp + 32]
+	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
+	LONG $0x2454930f; BYTE $0x28         // setae    byte [rsp + 40]
+	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
+	LONG $0x2454930f; BYTE $0x30         // setae    byte [rsp + 48]
+	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
+	LONG $0x2454930f; BYTE $0x38         // setae    byte [rsp + 56]
+	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
+	QUAD $0x000001402494930f             // setae    byte [rsp + 320]
+	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
+	QUAD $0x000001202494930f             // setae    byte [rsp + 288]
+	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
+	LONG $0x2454930f; BYTE $0x1c         // setae    byte [rsp + 28]
+	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
+	LONG $0xd0930f41                     // setae    r8b
+	WORD $0x0040; BYTE $0xff             // add    dil, dil
+	WORD $0x0840; BYTE $0xc7             // or    dil, al
+	QUAD $0x000000982484b60f             // movzx    eax, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
+	WORD $0xc308                         // or    bl, al
+	LONG $0x02e6c041                     // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
+	WORD $0xd200                         // add    dl, dl
+	LONG $0x70245402                     // add    dl, byte [rsp + 112]
+	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0x0844; BYTE $0xf0             // or    al, r14b
+	LONG $0x02e1c041                     // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
+	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
+	WORD $0xc208                         // or    dl, al
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x03e2c041                     // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	LONG $0x04e3c041                     // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
+	LONG $0x05e4c041                     // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x78         // movzx    edi, byte [rsp + 120]
+	LONG $0x06e7c040                     // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9             // or    cl, dil
+	WORD $0xd308                         // or    bl, dl
+	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
+	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
+	WORD $0xd200                         // add    dl, dl
+	LONG $0x50245402                     // add    dl, byte [rsp + 80]
+	WORD $0xd789                         // mov    edi, edx
+	QUAD $0x000000882494b60f             // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48         // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58         // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68         // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	QUAD $0x0000011024948b48             // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                         // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	LONG $0x07e7c041                     // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01             // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff             // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x28         // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                         // add    cl, cl
+	LONG $0x20244c02                     // add    cl, byte [rsp + 32]
+	WORD $0xcb89                         // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
+	WORD $0xd908                         // or    cl, bl
+	WORD $0xcb89                         // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
+	WORD $0xd908                         // or    cl, bl
+	WORD $0xcb89                         // mov    ebx, ecx
+	QUAD $0x00000140248cb60f             // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
+	WORD $0xd908                         // or    cl, bl
+	WORD $0xcb89                         // mov    ebx, ecx
+	QUAD $0x00000120248cb60f             // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
+	WORD $0xd908                         // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c         // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	LONG $0x07e0c041                     // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8             // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
+	LONG $0x027a8844                     // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                     // mov    byte [rdx + 3], r8b
+	LONG $0x40c68348                     // add    rsi, 64
+	LONG $0x04c28348                     // add    rdx, 4
+	QUAD $0x0000011024948948             // mov    qword [rsp + 272], rdx
+	QUAD $0x000000a824848348; BYTE $0xff // add    qword [rsp + 168], -1
+	JNE  LBB10_54
+	QUAD $0x0000011024b48b4c             // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c             // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c             // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                     // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7             // cmp    r15, r10
+	JL   LBB10_110
+	JMP  LBB10_175
+
+LBB10_56:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_60
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_58:
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
+	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB10_58
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB10_60:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB10_112
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB10_62:
+	LONG $0x2e394466                     // cmp    word [rsi], r13w
+	QUAD $0x0000009824949d0f             // setge    byte [rsp + 152]
+	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
+	LONG $0xd79d0f40                     // setge    dil
+	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
+	LONG $0xd69d0f41                     // setge    r14b
+	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
+	QUAD $0x000000a024949d0f             // setge    byte [rsp + 160]
+	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
+	QUAD $0x0000009024949d0f             // setge    byte [rsp + 144]
+	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
+	LONG $0x24549d0f; BYTE $0x60         // setge    byte [rsp + 96]
+	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
+	WORD $0x9d0f; BYTE $0xd0             // setge    al
+	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
+	WORD $0x9d0f; BYTE $0xd3             // setge    bl
+	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
+	LONG $0x24549d0f; BYTE $0x70         // setge    byte [rsp + 112]
+	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
+	WORD $0x9d0f; BYTE $0xd2             // setge    dl
+	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
+	LONG $0xd19d0f41                     // setge    r9b
+	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
+	LONG $0xd29d0f41                     // setge    r10b
+	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
+	LONG $0xd39d0f41                     // setge    r11b
+	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
+	LONG $0xd49d0f41                     // setge    r12b
+	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
+	LONG $0x24549d0f; BYTE $0x78         // setge    byte [rsp + 120]
+	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
+	WORD $0x9d0f; BYTE $0xd1             // setge    cl
+	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
+	LONG $0x24549d0f; BYTE $0x50         // setge    byte [rsp + 80]
+	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
+	QUAD $0x0000008024949d0f             // setge    byte [rsp + 128]
+	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
+	QUAD $0x0000008824949d0f             // setge    byte [rsp + 136]
+	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
+	LONG $0x24549d0f; BYTE $0x48         // setge    byte [rsp + 72]
+	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
+	LONG $0x24549d0f; BYTE $0x58         // setge    byte [rsp + 88]
+	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
+	LONG $0x24549d0f; BYTE $0x68         // setge    byte [rsp + 104]
+	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
+	LONG $0x24549d0f; BYTE $0x40         // setge    byte [rsp + 64]
+	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
+	LONG $0xd79d0f41                     // setge    r15b
+	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
+	LONG $0x24549d0f; BYTE $0x20         // setge    byte [rsp + 32]
+	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
+	LONG $0x24549d0f; BYTE $0x28         // setge    byte [rsp + 40]
+	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
+	LONG $0x24549d0f; BYTE $0x30         // setge    byte [rsp + 48]
+	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
+	LONG $0x24549d0f; BYTE $0x38         // setge    byte [rsp + 56]
+	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
+	QUAD $0x0000014024949d0f             // setge    byte [rsp + 320]
+	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
+	QUAD $0x0000012024949d0f             // setge    byte [rsp + 288]
+	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
+	LONG $0x24549d0f; BYTE $0x1c         // setge    byte [rsp + 28]
+	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
+	LONG $0xd09d0f41                     // setge    r8b
+	WORD $0x0040; BYTE $0xff             // add    dil, dil
+	QUAD $0x0000009824bc0240             // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
+	WORD $0xc308                         // or    bl, al
+	LONG $0x02e6c041                     // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
+	WORD $0xd200                         // add    dl, dl
+	LONG $0x70245402                     // add    dl, byte [rsp + 112]
+	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0x0844; BYTE $0xf0             // or    al, r14b
+	LONG $0x02e1c041                     // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
+	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
+	WORD $0xc208                         // or    dl, al
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x03e2c041                     // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	LONG $0x04e3c041                     // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
+	LONG $0x05e4c041                     // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x78         // movzx    edi, byte [rsp + 120]
+	LONG $0x06e7c040                     // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9             // or    cl, dil
+	WORD $0xd308                         // or    bl, dl
+	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
+	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
+	WORD $0xd200                         // add    dl, dl
+	LONG $0x50245402                     // add    dl, byte [rsp + 80]
+	WORD $0xd789                         // mov    edi, edx
+	QUAD $0x000000882494b60f             // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48         // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58         // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68         // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	QUAD $0x0000011024948b48             // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                         // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	LONG $0x07e7c041                     // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01             // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff             // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x28         // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                         // add    cl, cl
+	LONG $0x20244c02                     // add    cl, byte [rsp + 32]
+	WORD $0xcb89                         // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
+	WORD $0xd908                         // or    cl, bl
+	WORD $0xcb89                         // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
+	WORD $0xd908                         // or    cl, bl
+	WORD $0xcb89                         // mov    ebx, ecx
+	QUAD $0x00000140248cb60f             // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
+	WORD $0xd908                         // or    cl, bl
+	WORD $0xcb89                         // mov    ebx, ecx
+	QUAD $0x00000120248cb60f             // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
+	WORD $0xd908                         // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c         // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	LONG $0x07e0c041                     // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8             // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
+	LONG $0x027a8844                     // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                     // mov    byte [rdx + 3], r8b
+	LONG $0x40c68348                     // add    rsi, 64
+	LONG $0x04c28348                     // add    rdx, 4
+	QUAD $0x0000011024948948             // mov    qword [rsp + 272], rdx
+	QUAD $0x000000a824848348; BYTE $0xff // add    qword [rsp + 168], -1
+	JNE  LBB10_62
+	QUAD $0x0000011024b48b4c             // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c             // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c             // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                     // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7             // cmp    r15, r10
+	JL   LBB10_113
+	JMP  LBB10_175
+
+LBB10_64:
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_68
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_66:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB10_66
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB10_68:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB10_115
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB10_70:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x0000009824949d0f                   // setge    byte [rsp + 152]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd69d0f41                           // setge    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd49d0f41                           // setge    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd09d0f41                           // setge    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x70245402                           // add    dl, byte [rsp + 112]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB10_70
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB10_116
+	JMP  LBB10_175
+
+LBB10_72:
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_76
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_74:
+	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
+	WORD $0x960f; BYTE $0xd2     // setbe    dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB10_74
+	LONG $0x01c38349             // add    r11, 1
+
+LBB10_76:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB10_118
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
+	QUAD $0x00000110249c894c // mov    qword [rsp + 272], r11
+
+LBB10_78:
+	LONG $0x062ef8c5                           // vucomiss    xmm0, dword [rsi]
+	QUAD $0x000000a02494960f                   // setbe    byte [rsp + 160]
+	LONG $0x462ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rsi + 4]
+	LONG $0xd1960f41                           // setbe    r9b
+	LONG $0x462ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rsi + 8]
+	LONG $0xd6960f41                           // setbe    r14b
+	LONG $0x462ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rsi + 12]
+	LONG $0xd5960f41                           // setbe    r13b
+	LONG $0x462ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rsi + 16]
+	QUAD $0x000000902494960f                   // setbe    byte [rsp + 144]
+	LONG $0x462ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rsi + 20]
+	LONG $0x2454960f; BYTE $0x60               // setbe    byte [rsp + 96]
+	LONG $0x462ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rsi + 24]
+	WORD $0x960f; BYTE $0xd0                   // setbe    al
+	LONG $0x462ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rsi + 28]
+	WORD $0x960f; BYTE $0xd3                   // setbe    bl
+	LONG $0x462ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rsi + 32]
+	LONG $0x2454960f; BYTE $0x78               // setbe    byte [rsp + 120]
+	LONG $0x462ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rsi + 36]
+	WORD $0x960f; BYTE $0xd2                   // setbe    dl
+	LONG $0x462ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rsi + 40]
+	LONG $0xd7960f40                           // setbe    dil
+	LONG $0x462ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rsi + 44]
+	LONG $0xd2960f41                           // setbe    r10b
+	LONG $0x462ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rsi + 48]
+	LONG $0xd3960f41                           // setbe    r11b
+	LONG $0x462ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rsi + 52]
+	LONG $0xd4960f41                           // setbe    r12b
+	LONG $0x462ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rsi + 56]
+	QUAD $0x000000802494960f                   // setbe    byte [rsp + 128]
+	LONG $0x462ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rsi + 60]
+	WORD $0x960f; BYTE $0xd1                   // setbe    cl
+	LONG $0x462ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rsi + 64]
+	LONG $0x2454960f; BYTE $0x50               // setbe    byte [rsp + 80]
+	LONG $0x462ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rsi + 68]
+	LONG $0x2454960f; BYTE $0x70               // setbe    byte [rsp + 112]
+	LONG $0x462ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rsi + 72]
+	QUAD $0x000000882494960f                   // setbe    byte [rsp + 136]
+	LONG $0x462ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rsi + 76]
+	LONG $0x2454960f; BYTE $0x48               // setbe    byte [rsp + 72]
+	LONG $0x462ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rsi + 80]
+	LONG $0x2454960f; BYTE $0x58               // setbe    byte [rsp + 88]
+	LONG $0x462ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rsi + 84]
+	LONG $0x2454960f; BYTE $0x68               // setbe    byte [rsp + 104]
+	LONG $0x462ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rsi + 88]
+	LONG $0x2454960f; BYTE $0x40               // setbe    byte [rsp + 64]
+	LONG $0x462ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rsi + 92]
+	LONG $0xd7960f41                           // setbe    r15b
+	LONG $0x462ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rsi + 96]
+	LONG $0x2454960f; BYTE $0x20               // setbe    byte [rsp + 32]
+	LONG $0x462ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rsi + 100]
+	LONG $0x2454960f; BYTE $0x28               // setbe    byte [rsp + 40]
+	LONG $0x462ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rsi + 104]
+	LONG $0x2454960f; BYTE $0x30               // setbe    byte [rsp + 48]
+	LONG $0x462ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rsi + 108]
+	LONG $0x2454960f; BYTE $0x38               // setbe    byte [rsp + 56]
+	LONG $0x462ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rsi + 112]
+	QUAD $0x000001402494960f                   // setbe    byte [rsp + 320]
+	LONG $0x462ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rsi + 116]
+	QUAD $0x000001202494960f                   // setbe    byte [rsp + 288]
+	LONG $0x462ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rsi + 120]
+	LONG $0x2454960f; BYTE $0x1c               // setbe    byte [rsp + 28]
+	LONG $0x462ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rsi + 124]
+	LONG $0xd0960f41                           // setbe    r8b
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x000000a0248c0244                   // add    r9b, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x78245402                           // add    dl, byte [rsp + 120]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x0000008024bcb60f                   // movzx    edi, byte [rsp + 128]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xc000                               // add    al, al
+	LONG $0x50244402                           // add    al, byte [rsp + 80]
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	WORD $0x1a88                               // mov    byte [rdx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4a88; BYTE $0x01                   // mov    byte [rdx + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd8                   // or    r8b, bl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027a8844                           // mov    byte [rdx + 2], r15b
+	LONG $0x03428844                           // mov    byte [rdx + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x0000011024948948                   // mov    qword [rsp + 272], rdx
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB10_78
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB10_119
+	JMP  LBB10_175
+
+LBB10_80:
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_84
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_82:
+	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	LONG $0x000000ba; BYTE $0x00 // mov    edx, 0
+	WORD $0xd280; BYTE $0xff     // adc    dl, -1
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB10_82
+	LONG $0x01c38349             // add    r11, 1
+
+LBB10_84:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB10_121
+	LONG $0x20ff8349             // cmp    r15, 32
+	LONG $0x24748944; BYTE $0x1c // mov    dword [rsp + 28], r14d
+	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
+	QUAD $0x0000017024bc894c     // mov    qword [rsp + 368], r15
+	JB   LBB10_88
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc3     // cmp    r11, rax
+	JAE  LBB10_185
+	LONG $0xbb048d4b             // lea    rax, [r11 + 4*r15]
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB10_185
+
+LBB10_88:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+	QUAD $0x00000168249c894c // mov    qword [rsp + 360], r11
+
+LBB10_89:
+	QUAD $0x0000018024bc2b4c // sub    r15, qword [rsp + 384]
+	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
+
+LBB10_90:
+	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
+	LONG $0x24343845                           // cmp    byte [r12], r14b
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x24743845; BYTE $0x01               // cmp    byte [r12 + 1], r14b
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x24743845; BYTE $0x02               // cmp    byte [r12 + 2], r14b
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x24743845; BYTE $0x03               // cmp    byte [r12 + 3], r14b
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x24743845; BYTE $0x04               // cmp    byte [r12 + 4], r14b
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0x24743845; BYTE $0x05               // cmp    byte [r12 + 5], r14b
+	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
+	LONG $0x24743845; BYTE $0x06               // cmp    byte [r12 + 6], r14b
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x24743845; BYTE $0x07               // cmp    byte [r12 + 7], r14b
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x24743845; BYTE $0x08               // cmp    byte [r12 + 8], r14b
+	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
+	LONG $0x24743845; BYTE $0x09               // cmp    byte [r12 + 9], r14b
+	WORD $0x930f; BYTE $0xd2                   // setae    dl
+	LONG $0x24743845; BYTE $0x0a               // cmp    byte [r12 + 10], r14b
+	LONG $0xd6930f40                           // setae    sil
+	LONG $0x24743845; BYTE $0x0b               // cmp    byte [r12 + 11], r14b
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x24743845; BYTE $0x0c               // cmp    byte [r12 + 12], r14b
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x24743845; BYTE $0x0d               // cmp    byte [r12 + 13], r14b
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
+	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
+	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
+	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
+	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x20               // add    r8b, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0845; BYTE $0xc7                   // or    r15b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x40249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 320]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 288]
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	QUAD $0x0000016824b48b48                   // mov    rsi, qword [rsp + 360]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd6                   // or    r14b, dl
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xc000                               // add    al, al
+	LONG $0x10248402; WORD $0x0001; BYTE $0x00 // add    al, byte [rsp + 272]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xd308                               // or    bl, dl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x20618d4c                           // lea    r12, [rcx + 32]
+	LONG $0x04c68348                           // add    rsi, 4
+	QUAD $0x0000016824b48948                   // mov    qword [rsp + 360], rsi
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB10_90
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x0000017024bc8b4c                   // mov    r15, qword [rsp + 368]
+	JMP  LBB10_122
+
+LBB10_92:
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_96
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_94:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1b               // movzx    r8d, byte [r11 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1b3c8841                           // mov    byte [r11 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB10_94
+	LONG $0x01c38349                           // add    r11, 1
+
+LBB10_96:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB10_125
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b024bc894c // mov    qword [rsp + 176], r15
+	QUAD $0x000000a824bc894c // mov    qword [rsp + 168], r15
+
+LBB10_98:
+	QUAD $0x00000110249c894c                   // mov    qword [rsp + 272], r11
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x0000009824949d0f                   // setge    byte [rsp + 152]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd69d0f41                           // setge    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd49d0f41                           // setge    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd09d0f41                           // setge    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x70245402                           // add    dl, byte [rsp + 112]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1b                   // mov    byte [r11], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014b8841                           // mov    byte [r11 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x1c               // movzx    edx, byte [rsp + 28]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027b8845                           // mov    byte [r11 + 2], r15b
+	LONG $0x03438845                           // mov    byte [r11 + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c38349                           // add    r11, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB10_98
+	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7                   // cmp    r15, r10
+	JL   LBB10_126
+	JMP  LBB10_175
+
+LBB10_100:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB10_175
+
+LBB10_101:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB10_133
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_135
+
+LBB10_103:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB10_175
+
+LBB10_104:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB10_137
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_139
+
+LBB10_106:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB10_175
+
+LBB10_107:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB10_141
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_143
+
+LBB10_109:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB10_175
+
+LBB10_110:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB10_145
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_147
+
+LBB10_112:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB10_175
+
+LBB10_113:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB10_150
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_152
+
+LBB10_115:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB10_175
+
+LBB10_116:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB10_154
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_156
+
+LBB10_118:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB10_175
+
+LBB10_119:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB10_158
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_160
+
+LBB10_121:
+	QUAD $0x00000168249c894c // mov    qword [rsp + 360], r11
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+
+LBB10_122:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB10_175
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB10_163
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB10_166
+
+LBB10_125:
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB10_175
+
+LBB10_126:
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB10_168
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_170
+
+LBB10_128:
+	WORD $0x894d; BYTE $0xdd // mov    r13, r11
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JGE  LBB10_31
+
+LBB10_129:
+	QUAD $0x0000016824ac894c // mov    qword [rsp + 360], r13
+	WORD $0x8949; BYTE $0xf4 // mov    r12, rsi
+
+LBB10_130:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB10_175
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB10_176
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB10_179
+
+LBB10_133:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB10_134:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x17048841             // mov    byte [r15 + rdx], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB10_134
+
+LBB10_135:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB10_175
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
+	JMP  LBB10_149
+
+LBB10_137:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB10_138:
+	LONG $0x062ef9c5             // vucomisd    xmm0, qword [rsi]
+	WORD $0x960f; BYTE $0xd0     // setbe    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x462ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rsi + 8]
+	WORD $0x960f; BYTE $0xd0     // setbe    al
+	LONG $0x10c68348             // add    rsi, 16
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB10_138
+
+LBB10_139:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB10_175
+	LONG $0x062ef9c5 // vucomisd    xmm0, qword [rsi]
+	JMP  LBB10_162
+
+LBB10_141:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB10_142:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x17048841             // mov    byte [r15 + rdx], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB10_142
+
+LBB10_143:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB10_175
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
+	JMP  LBB10_149
+
+LBB10_145:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB10_146:
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x14b60f45; BYTE $0x17 // movzx    r10d, byte [r15 + rdx]
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x17048841             // mov    byte [r15 + rdx], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x171c8841             // mov    byte [r15 + rdx], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB10_146
+
+LBB10_147:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB10_175
+	WORD $0xc031     // xor    eax, eax
+	LONG $0x2e394466 // cmp    word [rsi], r13w
+
+LBB10_149:
+	WORD $0xff14             // adc    al, -1
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	JMP  LBB10_174
+
+LBB10_150:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB10_151:
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB10_151
+
+LBB10_152:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB10_175
+	LONG $0x2e394466 // cmp    word [rsi], r13w
+	JMP  LBB10_172
+
+LBB10_154:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB10_155:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB10_155
+
+LBB10_156:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB10_175
+	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
+	JMP  LBB10_172
+
+LBB10_158:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB10_159:
+	LONG $0x062ef8c5             // vucomiss    xmm0, dword [rsi]
+	WORD $0x960f; BYTE $0xd0     // setbe    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x462ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rsi + 4]
+	WORD $0x960f; BYTE $0xd0     // setbe    al
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB10_159
+
+LBB10_160:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB10_175
+	LONG $0x062ef8c5 // vucomiss    xmm0, dword [rsi]
+
+LBB10_162:
+	WORD $0x960f; BYTE $0xd0 // setbe    al
+	JMP  LBB10_173
+
+LBB10_163:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x00000168249c8b4c // mov    r11, qword [rsp + 360]
+
+LBB10_164:
+	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
+	LONG $0x000000bb; BYTE $0x00 // mov    ebx, 0
+	WORD $0xd380; BYTE $0xff     // adc    bl, -1
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	LONG $0x000000bb; BYTE $0x00 // mov    ebx, 0
+	WORD $0xd380; BYTE $0xff     // adc    bl, -1
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB10_164
+	WORD $0x0149; BYTE $0xf4     // add    r12, rsi
+
+LBB10_166:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB10_175
+	WORD $0xc031             // xor    eax, eax
+	LONG $0x24343845         // cmp    byte [r12], r14b
+	WORD $0xff14             // adc    al, -1
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	QUAD $0x0000016824848b4c // mov    r8, qword [rsp + 360]
+	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	JMP  LBB10_181
+
+LBB10_168:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB10_169:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3f148841             // mov    byte [r15 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB10_169
+
+LBB10_170:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB10_175
+	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
+
+LBB10_172:
+	WORD $0x9d0f; BYTE $0xd0 // setge    al
+
+LBB10_173:
+	WORD $0xd8f6             // neg    al
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+
+LBB10_174:
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
+
+LBB10_175:
+	MOVQ 1344(SP), SP
+	VZEROUPPER
+	RET
+
+LBB10_176:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x00000168249c8b4c // mov    r11, qword [rsp + 360]
+
+LBB10_177:
+	LONG $0x34343845             // cmp    byte [r12 + rsi], r14b
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x34743845; BYTE $0x01 // cmp    byte [r12 + rsi + 1], r14b
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB10_177
+	WORD $0x0149; BYTE $0xf4     // add    r12, rsi
+
+LBB10_179:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB10_175
+	LONG $0x24343845         // cmp    byte [r12], r14b
+	WORD $0x9d0f; BYTE $0xd0 // setge    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	QUAD $0x0000016824848b4c // mov    r8, qword [rsp + 360]
+	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+
+LBB10_181:
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
+	JMP  LBB10_175
+
+LBB10_182:
+	LONG $0xe0e78349                     // and    r15, -32
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000017024848948             // mov    qword [rsp + 368], rax
+	QUAD $0x000001a024bc894c             // mov    qword [rsp + 416], r15
+	QUAD $0x00000000bd048d4a             // lea    rax, [4*r15]
+	WORD $0x014c; BYTE $0xe8             // add    rax, r13
+	QUAD $0x0000016824848948             // mov    qword [rsp + 360], rax
+	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00018024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 384], ymm0
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x0000011024ac894c             // mov    qword [rsp + 272], r13
+
+LBB10_183:
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0000017824848948                   // mov    qword [rsp + 376], rax
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x0e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rcx + 1]
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x000240248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 576], xmm1
+	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
+	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
+	LONG $0xf86e79c5                           // vmovd    xmm15, eax
+	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
+	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
+	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
+	QUAD $0x0000010024948948                   // mov    qword [rsp + 256], rdx
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	LONG $0x20cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 544
+	QUAD $0x000000f8249c8948                   // mov    qword [rsp + 248], rbx
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
+	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
+	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	LONG $0x80cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 640
+	QUAD $0x00000088249c894c                   // mov    qword [rsp + 136], r11
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02a00d48; WORD $0x0000             // or    rax, 672
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	QUAD $0x000000b024848948                   // mov    qword [rsp + 176], rax
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	LONG $0xc0cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 704
+	QUAD $0x000000f024bc8948                   // mov    qword [rsp + 240], rdi
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0xe0ca8148; WORD $0x0002; BYTE $0x00 // or    rdx, 736
+	QUAD $0x000000d824948948                   // mov    qword [rsp + 216], rdx
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x03000d48; WORD $0x0000             // or    rax, 768
+	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x20cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 800
+	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
+	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
+	LONG $0x40ce8149; WORD $0x0003; BYTE $0x00 // or    r14, 832
+	QUAD $0x000000c024b4894c                   // mov    qword [rsp + 192], r14
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	LONG $0x60c98149; WORD $0x0003; BYTE $0x00 // or    r9, 864
+	QUAD $0x00000108248c894c                   // mov    qword [rsp + 264], r9
+	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
+	LONG $0x80c88149; WORD $0x0003; BYTE $0x00 // or    r8, 896
+	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	LONG $0xa0ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 928
+	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000e8248c8948                   // mov    qword [rsp + 232], rcx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
+	LONG $0x244c8948; BYTE $0x20               // mov    qword [rsp + 32], rcx
+	LONG $0x207963c4; WORD $0x1e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + rbx], 1
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	LONG $0x2031a3c4; WORD $0x2e04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + r13], 2
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 3
+	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 4
+	LONG $0x2079a3c4; WORD $0x2604; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r12], 5
+	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 6
+	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 7
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 8
+	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + r15], 9
+	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r14], 10
+	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r9], 11
+	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r8], 12
+	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + r10], 13
+	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
+	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 1
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 2
+	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
+	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 3
+	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
+	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 4
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r11], 5
+	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
+	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 6
+	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
+	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 7
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 10
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 12
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 13
+	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
+	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + r12], 14
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 15
+	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
+	QUAD $0x010116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 1
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x020116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 2
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x030116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 3
+	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
+	QUAD $0x04012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 4
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x050116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 5
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	QUAD $0x060116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 6
+	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
+	QUAD $0x07012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 7
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x08012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 8
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x090116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 9
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x0a0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 10
+	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
+	QUAD $0x0b0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 11
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0c0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 12
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0d0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 13
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0e0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f0116642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 1], 15
+	QUAD $0x01011e6c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rbx + 1], 1
+	QUAD $0x02013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 2
+	QUAD $0x03010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 3
+	QUAD $0x0401166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 4
+	QUAD $0x05011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 5
+	QUAD $0x0601066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 6
+	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
+	QUAD $0x0701366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 1], 7
+	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
+	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0a01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 10
+	QUAD $0x0b010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
+	QUAD $0x0e01266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 1], 14
+	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0106442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 1], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x00050024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1280], ymm0
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xd76e79c5                           // vmovd    xmm10, edi
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x00024024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 576]
+	QUAD $0x01020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 1
+	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
+	QUAD $0x02020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 2
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x030216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 3
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x040206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x050206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 5
+	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
+	QUAD $0x060236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 2], 6
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x070206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 7
+	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
+	QUAD $0x08022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 8
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x09022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 9
+	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
+	QUAD $0x0a0206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 10
+	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
+	QUAD $0x0b021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 11
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0c0216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 2], 12
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0d023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 15
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0001e0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 480]
+	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x04023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 4
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x05023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 5
+	QUAD $0x06021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 6
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x07023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 7
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x08021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 8
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x09021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 9
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x0a021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 10
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0b021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 11
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0c021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 12
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
+	QUAD $0x01030e642021e3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + rcx + 3], 1
+	QUAD $0x02030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 2
+	QUAD $0x030316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 3
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x04031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 4
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+	QUAD $0x050316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 5
+	QUAD $0x060336642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 3], 6
+	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
+	QUAD $0x07030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 7
+	QUAD $0x080326642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 3], 8
+	QUAD $0x09032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 9
+	QUAD $0x0a0306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 10
+	QUAD $0x0b031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 11
+	QUAD $0x0c0316642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 3], 12
+	QUAD $0x0d033e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 3], 13
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x0e0306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 14
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
+	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0203066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 2
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	QUAD $0x0603366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 6
+	QUAD $0x07033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0803066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0903066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 9
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 14
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
+	LONG $0xc76e79c5                           // vmovd    xmm8, edi
+	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
+	QUAD $0x0f0326442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 3], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	LONG $0x167cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rdx + 9]
+	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
+	QUAD $0x0001c024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 448]
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x010406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 1
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	QUAD $0x02041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x030406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 3
+	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
+	QUAD $0x04042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 4
+	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
+	QUAD $0x050416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 5
+	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
+	QUAD $0x06043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 6
+	QUAD $0x07040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 7
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	QUAD $0x080416442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 4], 8
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x090416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 9
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x0a0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 10
+	QUAD $0x0b041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 11
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0c0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 12
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0d0416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 13
+	QUAD $0x0e0406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 4], 14
+	QUAD $0x0f040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 15
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x01040e5c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rsi + rcx + 4], 1
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x0204165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 4], 2
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x03040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 3
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x04040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 4
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x05040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 5
+	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
+	QUAD $0x0604365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 6
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x07040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 7
+	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
+	QUAD $0x08040e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 4], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 9
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+	QUAD $0x0a04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 10
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0b040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 11
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0c040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 12
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0d040e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 4], 13
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x0e04365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 4], 14
+	QUAD $0x0f04265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 4], 15
+	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
+	QUAD $0x010536642009a3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + r14 + 5], 1
+	QUAD $0x02051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 2
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x03051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 3
+	QUAD $0x04052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 4
+	QUAD $0x050506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 5
+	QUAD $0x06053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 6
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x070506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 7
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	QUAD $0x080516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x090506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 9
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0a0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 10
+	QUAD $0x0b051e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 5], 11
+	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
+	QUAD $0x0c052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 13
+	QUAD $0x0e0506642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 5], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 15
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x01050e6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rcx + 5], 1
+	QUAD $0x0205166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 2
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0305066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0505066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 5
+	QUAD $0x06053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0705066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 7
+	QUAD $0x08050e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 5], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0905066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 9
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0a05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e05066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 14
+	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
+	QUAD $0x0f0526442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + r12 + 5], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rax + 10]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
+	QUAD $0x010636442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r14 + 6], 1
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x020606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 2
+	QUAD $0x03061e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 6], 3
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x040636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 6], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x050606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 5
+	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
+	QUAD $0x060616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 6
+	QUAD $0x07063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 7
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x080606442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 6], 8
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x09063e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 6], 9
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x0a060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 10
+	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
+	QUAD $0x0b0606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 6], 11
+	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
+	QUAD $0x0c062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 12
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0d063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0f063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 15
+	QUAD $0x01060e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rcx + 6], 1
+	QUAD $0x0206166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 2
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x03060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 3
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x04060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 4
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x05063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 5
+	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
+	QUAD $0x06062e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 6], 6
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0706166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 6], 7
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x08060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 9
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x0a060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 10
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0b061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 11
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0c061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 12
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x0d061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 13
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x0e061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 14
+	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
+	QUAD $0x0f06266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 6], 15
+	QUAD $0x01071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 1
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	QUAD $0x02071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 2
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x03071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 3
+	QUAD $0x040736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 4
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+	QUAD $0x050736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 7], 5
+	QUAD $0x060716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 6
+	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
+	QUAD $0x07071e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 7], 7
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	QUAD $0x080716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 7], 8
+	QUAD $0x09073e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 7], 9
+	QUAD $0x0a070e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 7], 10
+	QUAD $0x0b0706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 7], 11
+	QUAD $0x0c0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 7], 15
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0107064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 1
+	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
+	QUAD $0x0207264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 7], 2
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0307064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0407064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 4
+	QUAD $0x05073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 5
+	QUAD $0x06072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 6
+	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
+	QUAD $0x0707164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 7
+	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
+	QUAD $0x08070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0907064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 9
+	QUAD $0x0a070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 10
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x0b072e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 7], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 13
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e0706442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 7], 14
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0706442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 7], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
+	QUAD $0x01083e442031a3c4                   // vpinsrb    xmm0, xmm9, byte [rsi + r15 + 8], 1
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	QUAD $0x02081e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 8], 2
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x03080e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 8], 3
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x040806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 4
+	QUAD $0x050836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 8], 5
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x060806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 8], 6
+	QUAD $0x000000d8249c8b4c                   // mov    r11, qword [rsp + 216]
+	QUAD $0x07081e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 8], 7
+	QUAD $0x080816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 8], 8
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x090816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 9
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x0a0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 10
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x0b083e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 8], 11
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0c0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 12
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0d0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 13
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0e0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f0816442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 8], 15
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x0108166c2029e3c4                   // vpinsrb    xmm5, xmm10, byte [rsi + rdx + 8], 1
+	QUAD $0x0208266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 2
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0308166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 3
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x04083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 4
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0508166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 5
+	QUAD $0x0608066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 6
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0708166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 7
+	QUAD $0x08080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 8
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0908166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 9
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x0a08066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 8], 10
+	QUAD $0x0b082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 11
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0c08266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 8], 12
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0d08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 13
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0e08166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 8], 14
+	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
+	QUAD $0x0f082e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r13 + 8], 15
+	QUAD $0x01093e742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r15 + 9], 1
+	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
+	QUAD $0x02091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 2
+	QUAD $0x03090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 3
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x04091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 4
+	QUAD $0x050936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 5
+	QUAD $0x060906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 6
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	QUAD $0x07091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 7
+	QUAD $0x080916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 8
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x09090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 9
+	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
+	QUAD $0x0a093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 10
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0b0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 11
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x0c091e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r11 + 9], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0906742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rax + 9], 15
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0109067c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rax + 9], 1
+	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
+	QUAD $0x0209167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 9], 2
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0309067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 3
+	QUAD $0x04093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 4
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0509067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0609067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0709067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0809067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0909067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 9
+	QUAD $0x0a09067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 9], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
+	QUAD $0x0c09267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 9], 12
+	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
+	QUAD $0x0d09367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 13
+	QUAD $0x0e09167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0004e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x0004c024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
+	QUAD $0x010a2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 10], 1
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x020a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x030a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 3
+	QUAD $0x040a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 4
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x050a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 5
+	QUAD $0x060a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 6
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x070a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 7
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x080a165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 10], 8
+	QUAD $0x090a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 9
+	QUAD $0x0a0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 10
+	QUAD $0x00000108248c8b4c                   // mov    r9, qword [rsp + 264]
+	QUAD $0x0b0a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 11
+	QUAD $0x0c0a1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 10], 12
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0d0a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 15
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x010a0e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 10], 1
+	QUAD $0x020a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 2
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
+	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
+	QUAD $0x040a16642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 10], 4
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x050a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x060a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x070a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x080a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 9
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0a0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 11
+	QUAD $0x0c0a26642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 10], 12
+	QUAD $0x0d0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 13
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x0e0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 15
+	QUAD $0x010b2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 11], 1
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x020b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x030b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 3
+	QUAD $0x040b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 4
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	QUAD $0x050b064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 11], 5
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x060b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 6
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x070b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 7
+	QUAD $0x080b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 8
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x090b1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 11], 9
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
+	QUAD $0x0b0b0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 11], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
+	QUAD $0x0d0b3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 11], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 15
+	QUAD $0x010b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 11], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x020b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 2
+	QUAD $0x030b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 11], 3
+	QUAD $0x040b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 11], 4
+	QUAD $0x050b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 11], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x060b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x070b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x080b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 9
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0a0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 11
+	QUAD $0x0c0b26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 11], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x0004a0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm3
+	QUAD $0x0e0b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 11], 14
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000480248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm1
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
+	QUAD $0x010c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 12], 1
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x020c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 12], 2
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x030c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 12], 3
+	QUAD $0x040c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 12], 4
+	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
+	QUAD $0x050c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 12], 5
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x060c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 6
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x070c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 12], 7
+	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
+	QUAD $0x080c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 12], 8
+	QUAD $0x090c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 9
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x0a0c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 12], 10
+	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
+	QUAD $0x0b0c36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 12], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 12
+	QUAD $0x0d0c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 12], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 12], 15
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x010c06542051e3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + rax + 12], 1
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x030c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x040c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 4
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x050c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x060c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x070c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x080c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090c06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 12], 9
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x0a0c2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 12], 10
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0b0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 11
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0c0c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 12
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0d0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 13
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0e0c0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 12], 14
+	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
+	QUAD $0x0f0c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 15
+	QUAD $0x010d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 1
+	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
+	QUAD $0x020d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 13], 2
+	QUAD $0x030d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 3
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x040d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 4
+	QUAD $0x050d0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 13], 5
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x060d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 6
+	QUAD $0x070d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 7
+	QUAD $0x080d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 8
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x090d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 9
+	QUAD $0x0a0d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 10
+	QUAD $0x0b0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 11
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x0c0d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 13], 12
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0d0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 13
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f0d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 15
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	QUAD $0x010d164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 13], 1
+	QUAD $0x020d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 2
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x030d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 3
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x040d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 4
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x050d064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 13], 5
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x060d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 6
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x070d164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 13], 7
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x080d3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 13], 8
+	QUAD $0x090d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 9
+	QUAD $0x0a0d2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 13], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 11
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0c0d1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 13], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e0d064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 13], 14
+	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
+	QUAD $0x00044024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0d06442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rax + 13], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	LONG $0x7cb60f42; WORD $0x0e2e             // movzx    edi, byte [rsi + r13 + 14]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x010e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 1
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x020e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 2
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x030e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 3
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x040e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
+	QUAD $0x000000f024a48b4c                   // mov    r12, qword [rsp + 240]
+	QUAD $0x060e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 14], 6
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x080e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 8
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x090e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 14], 9
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0a0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 10
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0b0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 11
+	QUAD $0x0c0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 12
+	QUAD $0x0d0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 13
+	QUAD $0x0e0e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 14], 14
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0f0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 15
+	QUAD $0x010e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
+	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
+	QUAD $0x040e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 14], 4
+	QUAD $0x050e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 5
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	QUAD $0x060e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 6
+	QUAD $0x070e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x090e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 9
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x0a0e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 14], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
+	QUAD $0x0c0e1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 14], 12
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x0d0e1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 14], 13
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3e7cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rdi + 15]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x010f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 1
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	QUAD $0x020f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 2
+	QUAD $0x030f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 3
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x040f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 4
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x050f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 5
+	QUAD $0x060f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 6
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x070f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 7
+	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
+	QUAD $0x080f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 8
+	QUAD $0x090f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 9
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x0a0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 10
+	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
+	QUAD $0x0b0f3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 15], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 12
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0d0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 14
+	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
+	LONG $0x7cb60f42; WORD $0x0f2e             // movzx    edi, byte [rsi + r13 + 15]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x010f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 1
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x030f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 3
+	QUAD $0x040f165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 15], 4
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x050f2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 15], 5
+	QUAD $0x060f365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 15], 6
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x070f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 7
+	QUAD $0x080f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 8
+	QUAD $0x090f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 9
+	QUAD $0x0a0f065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 15], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
+	QUAD $0x0d0f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 13
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0e0f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 15
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rax + 16]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x011016442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 16], 1
+	QUAD $0x02101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x031006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 3
+	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
+	QUAD $0x041006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 4
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x05101e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 16], 5
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x061006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 6
+	QUAD $0x071026442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 16], 7
+	QUAD $0x08100e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 16], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x091006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 9
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0a1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 10
+	QUAD $0x0b103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f1006442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 16], 15
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	LONG $0x167cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rdx + 16]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
+	QUAD $0x0110364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 16], 1
+	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
+	QUAD $0x02100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 2
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0310164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 3
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x0410164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 4
+	QUAD $0x05102e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 16], 5
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x0610164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 6
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0710164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 7
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x0810164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 8
+	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
+	QUAD $0x09101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 9
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x0a103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 12
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0d103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 13
+	QUAD $0x0e100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 14
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0f100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 15
+	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x112e             // movzx    edi, byte [rsi + r13 + 17]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 1
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x02113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 2
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x031116542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 17], 3
+	QUAD $0x041106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 4
+	QUAD $0x05111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 5
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x06110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 6
+	QUAD $0x071126542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 17], 7
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x08110e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 17], 8
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x09113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 9
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x0a113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 10
+	QUAD $0x0b113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 12
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0d113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0e111e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 17], 14
+	QUAD $0x0f1106542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 17], 15
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0111365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 1
+	QUAD $0x02110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 2
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0311065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 3
+	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
+	QUAD $0x0411065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 17], 4
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0511065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0611065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 6
+	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
+	QUAD $0x07110e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 17], 7
+	QUAD $0x0811165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 8
+	QUAD $0x09111e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 17], 9
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0a11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 10
+	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
+	QUAD $0x0b11365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 17], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e11065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1106442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rax + 17], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	LONG $0x7cb60f42; WORD $0x122e             // movzx    edi, byte [rsi + r13 + 18]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x011206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 1
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x021206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 2
+	QUAD $0x031216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 3
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x041206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x051206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 5
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x061206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 6
+	QUAD $0x071226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 7
+	QUAD $0x08120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x091206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 18], 9
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0a120e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 18], 10
+	QUAD $0x0b123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 11
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	QUAD $0x0c1226442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 18], 12
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0d121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 13
+	QUAD $0x0e121e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 18], 14
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x0f123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 15
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	LONG $0x0e7cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rcx + 18]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x01120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 1
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x02120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 2
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x03120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 3
+	QUAD $0x0412064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 4
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x05120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 5
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x06120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 6
+	QUAD $0x07120e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 18], 7
+	QUAD $0x0812164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 8
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x0912064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 18], 9
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x0a120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 10
+	QUAD $0x0b12364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 18], 11
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0c12164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 12
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x0d12164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 18], 13
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x0e121e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 18], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 15
+	LONG $0x7cb60f42; WORD $0x132e             // movzx    edi, byte [rsi + r13 + 19]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x01133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 1
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x02133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 2
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x03133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 3
+	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
+	QUAD $0x04132e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 19], 4
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x05133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 5
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x06133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 6
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x07133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 7
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x08133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 8
+	QUAD $0x091306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 9
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0a1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 10
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0b1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 11
+	QUAD $0x0c1326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 12
+	QUAD $0x0d131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 14
+	QUAD $0x0f133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 15
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rax + 19]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0113065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 1
+	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
+	QUAD $0x0213365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 2
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0313065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 3
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0413065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 4
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	QUAD $0x05133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 5
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	QUAD $0x06130e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 19], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0713065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0813065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 8
+	QUAD $0x0913065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 9
+	QUAD $0x0a130e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 19], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 11
+	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
+	QUAD $0x0d13165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 13
+	QUAD $0x0e131e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 19], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f13065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 19], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	QUAD $0x00000100249c8b4c                   // mov    r11, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x141e             // movzx    edi, byte [rsi + r11 + 20]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x011406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 1
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x03140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 3
+	QUAD $0x04142e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 20], 4
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x05140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 5
+	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
+	QUAD $0x061406442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 20], 6
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x071426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 7
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x08143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 8
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x09143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 9
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0a140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 10
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	QUAD $0x0b141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 12
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0d143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0f143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 15
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	LONG $0x3e7cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rdi + 20]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	QUAD $0x0114164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 1
+	QUAD $0x0214364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 2
+	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
+	QUAD $0x0314364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 3
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x04142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 4
+	QUAD $0x05143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 5
+	QUAD $0x06140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 6
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x07143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 7
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x08143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 8
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+	QUAD $0x09143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 9
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x0a143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 12
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0d143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 13
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x0e140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 15
+	LONG $0x7cb60f42; WORD $0x151e             // movzx    edi, byte [rsi + r11 + 21]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 1
+	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
+	WORD $0x8949; BYTE $0xd3                   // mov    r11, rdx
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x041506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x051506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 5
+	QUAD $0x061506542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 21], 6
+	QUAD $0x071526542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 21], 7
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x081506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x091506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 9
+	QUAD $0x0a150e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 21], 10
+	QUAD $0x0b151e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 21], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 15
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rax + 21]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0115165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0215065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 2
+	QUAD $0x0315365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 3
+	QUAD $0x04152e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 21], 4
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x0515365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 21], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0615065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 6
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x0715165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 7
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0815065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 8
+	QUAD $0x09153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 9
+	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
+	QUAD $0x0a15265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b15065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 11
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0c153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 12
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0d150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 13
+	QUAD $0x0e150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0f151e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rbx + 21], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rcx + 22]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x01163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 1
+	QUAD $0x02161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 2
+	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x04163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 4
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x06160e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 22], 6
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x07163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 7
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x081616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 8
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x091616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 9
+	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
+	QUAD $0x0a161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 10
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x0b163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 11
+	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
+	QUAD $0x0c1606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 12
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0d163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	LONG $0x3e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rdi + 22]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x01163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 1
+	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
+	QUAD $0x02162e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 22], 2
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x03163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 3
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x04163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 4
+	QUAD $0x0516364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x06163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 6
+	QUAD $0x0716164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 7
+	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
+	QUAD $0x0816364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 22], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 9
+	QUAD $0x0a16264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 22], 10
+	QUAD $0x0b16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 11
+	QUAD $0x0c163e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 22], 12
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x0d16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e16064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 14
+	QUAD $0x0f161e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 22], 15
+	LONG $0x0e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rcx + 23]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x011706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 1
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x02170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x031706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 3
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x041706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x051706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 5
+	QUAD $0x06170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 6
+	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
+	QUAD $0x07170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 7
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x081706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 8
+	QUAD $0x091716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 9
+	QUAD $0x0a171e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 23], 10
+	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
+	QUAD $0x0b1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 11
+	QUAD $0x0c1706542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 23], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f1706542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 23], 15
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rax + 23]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0117065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 1
+	QUAD $0x02172e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 23], 2
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0317165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 3
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x04173e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 23], 4
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x05171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 5
+	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
+	QUAD $0x06172e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 23], 6
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0717065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 7
+	QUAD $0x0817365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 23], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0917065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 9
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x0a17065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c173e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 23], 12
+	QUAD $0x0d17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 13
+	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
+	QUAD $0x0e17165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 23], 14
+	QUAD $0x00000120249c8b4c                   // mov    r11, qword [rsp + 288]
+	QUAD $0x0f171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 15
+	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
+	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rdi + 24]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x01183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 1
+	QUAD $0x02180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 2
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x03180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 3
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x04180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 4
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x05180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 5
+	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
+	QUAD $0x061836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 6
+	QUAD $0x07180e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 24], 7
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x08180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 8
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x09180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 9
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x0a180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 10
+	QUAD $0x0b1826442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 24], 11
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x0c180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 12
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0d180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 14
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0f180e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 24], 15
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x01180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 1
+	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
+	QUAD $0x0218264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 2
+	QUAD $0x0318164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 3
+	QUAD $0x04183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 4
+	QUAD $0x05181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 5
+	QUAD $0x06182e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 24], 6
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x07180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 7
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	QUAD $0x08183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 9
+	QUAD $0x0a18064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 10
+	QUAD $0x0b18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 11
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c18064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 24], 12
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0d180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 13
+	QUAD $0x0e18164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 14
+	QUAD $0x0f181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rax + 25]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
+	QUAD $0x011916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 1
+	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
+	QUAD $0x021906542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 25], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x031906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 3
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x041906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 4
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x05191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 5
+	QUAD $0x061936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 6
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x071906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 7
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x091916542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 25], 9
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x0a1936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 10
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x0b193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 11
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x0c191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 12
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0d193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e193e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 25], 14
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0f192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 15
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	LONG $0x3e7cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rdi + 25]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x01190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 1
+	QUAD $0x0219265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 2
+	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
+	QUAD $0x03190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 3
+	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
+	QUAD $0x0419265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 4
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x05193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x06193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 6
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x07193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 7
+	QUAD $0x08193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 9
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x0a193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 10
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x0b193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 12
+	QUAD $0x0d190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 13
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0e190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0f190e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rcx + 25], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0e7cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rcx + 26]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 1
+	QUAD $0x021a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 2
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x031a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 3
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x041a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 4
+	QUAD $0x051a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 5
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	QUAD $0x061a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 6
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x071a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 7
+	QUAD $0x081a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 8
+	QUAD $0x091a16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 26], 9
+	QUAD $0x0a1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 10
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0b1a06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 26], 11
+	QUAD $0x0c1a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 12
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x0d1a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 13
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x0e1a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 14
+	QUAD $0x0f1a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 15
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	LONG $0x167cb60f; BYTE $0x1a               // movzx    edi, byte [rsi + rdx + 26]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x011a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 1
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x021a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 2
+	QUAD $0x031a0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 26], 3
+	QUAD $0x041a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 4
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x051a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 5
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x061a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 6
+	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
+	QUAD $0x071a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 7
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x081a1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 26], 8
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x091a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 9
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x0a1a164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 26], 10
+	QUAD $0x0b1a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 12
+	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
+	QUAD $0x0d1a2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 26], 13
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0e1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f1a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 15
+	LONG $0x0e7cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rcx + 27]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
+	QUAD $0x011b3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 27], 1
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x021b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 2
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x031b0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 27], 3
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x041b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 4
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+	QUAD $0x051b16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 27], 5
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x061b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 6
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x071b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 7
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x081b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 8
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x091b0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 27], 9
+	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
+	QUAD $0x0a1b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 10
+	QUAD $0x0b1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 12
+	QUAD $0x0d1b36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 27], 13
+	QUAD $0x0e1b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f1b06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 27], 15
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	LONG $0x067cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rax + 27]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x011b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 1
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x021b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 2
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x031b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 3
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x041b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 4
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x051b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 5
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x061b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 6
+	QUAD $0x071b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 7
+	QUAD $0x081b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x091b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 9
+	QUAD $0x0a1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 10
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0b1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 11
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x0c1b065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 27], 12
+	QUAD $0x0d1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 13
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x0e1b2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 27], 14
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0f1b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	LONG $0x167cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rdx + 28]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 1
+	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
+	QUAD $0x021c26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 28], 2
+	QUAD $0x031c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 3
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x041c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 4
+	QUAD $0x051c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 5
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	QUAD $0x061c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 6
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x071c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 7
+	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
+	QUAD $0x081c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 8
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x091c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 9
+	QUAD $0x0a1c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 10
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	QUAD $0x0b1c1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 28], 11
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x0c1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 12
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0d1c1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 28], 13
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0e1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 15
+	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x011c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 1
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x021c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 2
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x031c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 3
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x041c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 4
+	QUAD $0x051c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 5
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x061c164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 28], 6
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x071c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 7
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x081c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 8
+	QUAD $0x091c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 9
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x0a1c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 28], 10
+	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
+	QUAD $0x0b1c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 11
+	QUAD $0x0c1c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 12
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x0d1c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 28], 13
+	QUAD $0x0e1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 14
+	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
+	QUAD $0x0f1c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3e7cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdi + 29]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x011d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 1
+	QUAD $0x021d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 2
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x031d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 3
+	QUAD $0x041d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 4
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x051d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 5
+	QUAD $0x000000f024a48b4c                   // mov    r12, qword [rsp + 240]
+	QUAD $0x061d26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 29], 6
+	QUAD $0x071d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 7
+	QUAD $0x081d3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 29], 8
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x091d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 9
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x0a1d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 10
+	QUAD $0x0b1d1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 29], 11
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x0c1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 12
+	QUAD $0x0d1d1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 29], 13
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x0e1d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0f1d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 15
+	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
+	LONG $0x7cb60f42; WORD $0x1d3e             // movzx    edi, byte [rsi + r15 + 29]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x011d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x021d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 2
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x031d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 3
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+	QUAD $0x041d1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 29], 4
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x051d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 5
+	QUAD $0x061d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 6
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x071d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 29], 7
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x081d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 29], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 9
+	QUAD $0x0a1d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 29], 10
+	QUAD $0x0b1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 11
+	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
+	QUAD $0x0c1d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 12
+	QUAD $0x0d1d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 29], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e1d06642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + rax + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	QUAD $0x0f1d2e442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r13 + 29], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x1e               // movzx    edi, byte [rsi + rax + 30]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x011e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 1
+	LONG $0x067cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rax + 31]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 1
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
+	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
+	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
+	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
+	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
+	QUAD $0x061e26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 30], 6
+	QUAD $0x061f264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 31], 6
+	QUAD $0x0000011024ac8b4c                   // mov    r13, qword [rsp + 272]
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
+	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
+	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
+	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
+	QUAD $0x0a1e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 30], 10
+	QUAD $0x0a1f0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 31], 10
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0c1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 12
+	QUAD $0x0c1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
+	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
+	QUAD $0x0e1e16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 30], 14
+	QUAD $0x0e1f164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 31], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
+	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
+	LONG $0x44b60f42; WORD $0x1e3e             // movzx    eax, byte [rsi + r15 + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
+	LONG $0x44b60f42; WORD $0x1f3e             // movzx    eax, byte [rsi + r15 + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x021e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 2
+	QUAD $0x021f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 2
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
+	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
+	QUAD $0x041e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 30], 4
+	QUAD $0x041f1e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 31], 4
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
+	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
+	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
+	QUAD $0x071e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 30], 7
+	QUAD $0x071f167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 31], 7
+	QUAD $0x081e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 8
+	QUAD $0x081f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 9
+	QUAD $0x091f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 9
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
+	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 11
+	QUAD $0x0c1e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 12
+	QUAD $0x0c1f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 12
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
+	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0e1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 14
+	QUAD $0x0e1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 15
+	QUAD $0x0f1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	QUAD $0x00018024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 384]
+	LONG $0x646dc1c4; BYTE $0xc5               // vpcmpgtb    ymm0, ymm2, ymm13
+	QUAD $0x00050024bc64edc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm2, yword [rsp + 1280]
+	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI10_0] */
+	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
+	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
+	QUAD $0x00024024bc64edc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm2, yword [rsp + 576]
+	LONG $0x756ffdc5; BYTE $0x20               // vmovdqa    ymm6, yword 32[rbp] /* [rip + .LCPI10_1] */
+	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
+	QUAD $0x0001e024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 480]
+	LONG $0x5d6ffdc5; BYTE $0x40               // vmovdqa    ymm3, yword 64[rbp] /* [rip + .LCPI10_2] */
+	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0x646d41c4; BYTE $0xe6               // vpcmpgtb    ymm12, ymm2, ymm14
+	LONG $0x456f7dc5; BYTE $0x60               // vmovdqa    ymm8, yword 96[rbp] /* [rip + .LCPI10_3] */
+	LONG $0xdf1d41c4; BYTE $0xe0               // vpandn    ymm12, ymm12, ymm8
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc976f5c5                           // vpcmpeqd    ymm1, ymm1, ymm1
+	LONG $0xc1f8fdc5                           // vpsubb    ymm0, ymm0, ymm1
+	LONG $0xe476ddc5                           // vpcmpeqd    ymm4, ymm4, ymm4
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	LONG $0x646dc1c4; BYTE $0xff               // vpcmpgtb    ymm7, ymm2, ymm15
+	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI10_4] */
+	LONG $0xf9dfc5c5                           // vpandn    ymm7, ymm7, ymm1
+	QUAD $0x0001c024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 448]
+	QUAD $0x000000a0ad6f7dc5                   // vmovdqa    ymm13, yword 160[rbp] /* [rip + .LCPI10_5] */
+	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x00022024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 544]
+	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI10_6] */
+	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	QUAD $0x0004e024bc64edc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm2, yword [rsp + 1248]
+	QUAD $0x0004c024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 1216]
+	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
+	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
+	QUAD $0x0004a024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 1184]
+	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
+	QUAD $0x00048024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 1152]
+	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	QUAD $0x00044024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 1088]
+	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x00046024a4646dc5; BYTE $0x00       // vpcmpgtb    ymm12, ymm2, yword [rsp + 1120]
+	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
+	QUAD $0x00040024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 1024]
+	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	QUAD $0x00042024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 1056]
+	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
+	QUAD $0x0003e024bc64edc5; BYTE $0x00       // vpcmpgtb    ymm7, ymm2, yword [rsp + 992]
+	QUAD $0x0003c024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 960]
+	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
+	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
+	QUAD $0x00038024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 896]
+	LONG $0xfedf05c5                           // vpandn    ymm15, ymm15, ymm6
+	QUAD $0x0003a024b4646dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm2, yword [rsp + 928]
+	LONG $0xf3df0dc5                           // vpandn    ymm14, ymm14, ymm3
+	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
+	QUAD $0x00034024bc646dc5; BYTE $0x00       // vpcmpgtb    ymm15, ymm2, yword [rsp + 832]
+	LONG $0xdf0541c4; BYTE $0xf8               // vpandn    ymm15, ymm15, ymm8
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	LONG $0xfcf8c5c5                           // vpsubb    ymm7, ymm7, ymm4
+	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
+	QUAD $0x00036024b4646dc5; BYTE $0x00       // vpcmpgtb    ymm14, ymm2, yword [rsp + 864]
+	LONG $0xf1df0dc5                           // vpandn    ymm14, ymm14, ymm1
+	LONG $0x646d41c4; BYTE $0xd2               // vpcmpgtb    ymm10, ymm2, ymm10
+	LONG $0xdf2d41c4; BYTE $0xd5               // vpandn    ymm10, ymm10, ymm13
+	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
+	LONG $0x646d41c4; BYTE $0xdb               // vpcmpgtb    ymm11, ymm2, ymm11
+	LONG $0x6f7d41c4; BYTE $0xf1               // vmovdqa    ymm14, ymm9
+	LONG $0xdf2541c4; BYTE $0xd9               // vpandn    ymm11, ymm11, ymm9
+	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
+	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
+	QUAD $0x000280248c646dc5; BYTE $0x00       // vpcmpgtb    ymm9, ymm2, yword [rsp + 640]
+	QUAD $0x0002a02484646dc5; BYTE $0x00       // vpcmpgtb    ymm8, ymm2, yword [rsp + 672]
+	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
+	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
+	QUAD $0x0002c024ac64edc5; BYTE $0x00       // vpcmpgtb    ymm5, ymm2, yword [rsp + 704]
+	LONG $0xeedfd5c5                           // vpandn    ymm5, ymm5, ymm6
+	QUAD $0x0002e024b464edc5; BYTE $0x00       // vpcmpgtb    ymm6, ymm2, yword [rsp + 736]
+	LONG $0xf3dfcdc5                           // vpandn    ymm6, ymm6, ymm3
+	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
+	QUAD $0x000300249c64edc5; BYTE $0x00       // vpcmpgtb    ymm3, ymm2, yword [rsp + 768]
+	LONG $0x5ddfe5c5; BYTE $0x60               // vpandn    ymm3, ymm3, yword 96[rbp] /* [rip + .LCPI10_3] */
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	LONG $0xecf8bdc5                           // vpsubb    ymm5, ymm8, ymm4
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x00032024a464edc5; BYTE $0x00       // vpcmpgtb    ymm4, ymm2, yword [rsp + 800]
+	LONG $0xe1dfddc5                           // vpandn    ymm4, ymm4, ymm1
+	QUAD $0x000140248c64edc5; BYTE $0x00       // vpcmpgtb    ymm1, ymm2, yword [rsp + 320]
+	LONG $0xdf75c1c4; BYTE $0xcd               // vpandn    ymm1, ymm1, ymm13
+	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
+	QUAD $0x000120249464edc5; BYTE $0x00       // vpcmpgtb    ymm2, ymm2, yword [rsp + 288]
+	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
+	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
+	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
+	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
+	LONG $0x7f7ec1c4; WORD $0x8d44; BYTE $0x60 // vmovdqu    yword [r13 + 4*rcx + 96], ymm0
+	LONG $0x7f7ec1c4; WORD $0x8d54; BYTE $0x40 // vmovdqu    yword [r13 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8d64; BYTE $0x20 // vmovdqu    yword [r13 + 4*rcx + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x8d4c; BYTE $0x00 // vmovdqu    yword [r13 + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000001a0248c3b48                   // cmp    rcx, qword [rsp + 416]
+	JNE  LBB10_183
+	QUAD $0x0000026024bc8b4c                   // mov    r15, qword [rsp + 608]
+	QUAD $0x000001a024bc3b4c                   // cmp    r15, qword [rsp + 416]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	QUAD $0x0000017024a48b4c                   // mov    r12, qword [rsp + 368]
+	JNE  LBB10_35
+	JMP  LBB10_130
+
+LBB10_185:
+	LONG $0xe0e78349                     // and    r15, -32
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000021824848948             // mov    qword [rsp + 536], rax
+	QUAD $0x0000018024bc894c             // mov    qword [rsp + 384], r15
+	LONG $0xbb048d4b                     // lea    rax, [r11 + 4*r15]
+	QUAD $0x0000016824848948             // mov    qword [rsp + 360], rax
+	LONG $0x6e79c1c4; BYTE $0xc6         // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00026024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 608], ymm0
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x00000110249c894c             // mov    qword [rsp + 272], r11
+
+LBB10_186:
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0000017824848948                   // mov    qword [rsp + 376], rax
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0604b60f                           // movzx    eax, byte [rsi + rax]
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x1e04b60f                           // movzx    eax, byte [rsi + rbx]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x1644b60f; BYTE $0x01               // movzx    eax, byte [rsi + rdx + 1]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	LONG $0x1e44b60f; BYTE $0x01               // movzx    eax, byte [rsi + rbx + 1]
+	LONG $0xe86ef9c5                           // vmovd    xmm5, eax
+	LONG $0x1644b60f; BYTE $0x02               // movzx    eax, byte [rsi + rdx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
+	LONG $0x1e44b60f; BYTE $0x02               // movzx    eax, byte [rsi + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x1644b60f; BYTE $0x03               // movzx    eax, byte [rsi + rdx + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1e44b60f; BYTE $0x03               // movzx    eax, byte [rsi + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x1644b60f; BYTE $0x04               // movzx    eax, byte [rsi + rdx + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x000220248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 544], xmm1
+	LONG $0x1e44b60f; BYTE $0x04               // movzx    eax, byte [rsi + rbx + 4]
+	LONG $0xf86e79c5                           // vmovd    xmm15, eax
+	LONG $0x1644b60f; BYTE $0x05               // movzx    eax, byte [rsi + rdx + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1e44b60f; BYTE $0x05               // movzx    eax, byte [rsi + rbx + 5]
+	LONG $0xe86e79c5                           // vmovd    xmm13, eax
+	LONG $0x1644b60f; BYTE $0x06               // movzx    eax, byte [rsi + rdx + 6]
+	QUAD $0x0000010824948948                   // mov    qword [rsp + 264], rdx
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x1e44b60f; BYTE $0x06               // movzx    eax, byte [rsi + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x1644b60f; BYTE $0x07               // movzx    eax, byte [rsi + rdx + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1e44b60f; BYTE $0x07               // movzx    eax, byte [rsi + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	LONG $0x20cd8149; WORD $0x0002; BYTE $0x00 // or    r13, 544
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
+	LONG $0x60ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 608
+	QUAD $0x000000c024b4894c                   // mov    qword [rsp + 192], r14
+	LONG $0x80cb8148; WORD $0x0002; BYTE $0x00 // or    rbx, 640
+	QUAD $0x000000f0249c8948                   // mov    qword [rsp + 240], rbx
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	LONG $0xa0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 672
+	QUAD $0x00000088248c894c                   // mov    qword [rsp + 136], r9
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
+	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x02e00d48; WORD $0x0000             // or    rax, 736
+	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	LONG $0x00cb8149; WORD $0x0003; BYTE $0x00 // or    r11, 768
+	QUAD $0x000000b0249c894c                   // mov    qword [rsp + 176], r11
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	LONG $0x20cf8148; WORD $0x0003; BYTE $0x00 // or    rdi, 800
+	LONG $0x247c8948; BYTE $0x58               // mov    qword [rsp + 88], rdi
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	LONG $0x40ca8149; WORD $0x0003; BYTE $0x00 // or    r10, 832
+	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
+	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
+	LONG $0x60c88149; WORD $0x0003; BYTE $0x00 // or    r8, 864
+	QUAD $0x000000a82484894c                   // mov    qword [rsp + 168], r8
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0xa0ca8148; WORD $0x0003; BYTE $0x00 // or    rdx, 928
+	LONG $0x24548948; BYTE $0x28               // mov    qword [rsp + 40], rdx
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000100248c8948                   // mov    qword [rsp + 256], rcx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
+	LONG $0xe0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 992
+	QUAD $0x000000d8248c8948                   // mov    qword [rsp + 216], rcx
+	QUAD $0x000000f824ac894c                   // mov    qword [rsp + 248], r13
+	LONG $0x207923c4; WORD $0x2e0c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rsi + r13], 1
+	LONG $0x2031a3c4; WORD $0x2604; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rsi + r12], 2
+	LONG $0x2079a3c4; WORD $0x3604; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rsi + r14], 3
+	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 4
+	LONG $0x2079a3c4; WORD $0x0e04; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rsi + r9], 5
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 6
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	LONG $0x2079e3c4; WORD $0x1e04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rsi + rbx], 7
+	LONG $0x2079a3c4; WORD $0x1e04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rsi + r11], 8
+	LONG $0x2079e3c4; WORD $0x3e04; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rsi + rdi], 9
+	LONG $0x2079a3c4; WORD $0x1604; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rsi + r10], 10
+	LONG $0x2079a3c4; WORD $0x0604; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rsi + r8], 11
+	LONG $0x2079a3c4; WORD $0x3e04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rsi + r15], 12
+	LONG $0x2079e3c4; WORD $0x1604; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rsi + rdx], 13
+	LONG $0x2079e3c4; WORD $0x0604; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rsi + rax], 14
+	LONG $0x2079e3c4; WORD $0x0e04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rsi + rcx], 15
+	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
+	LONG $0x2061a3c4; WORD $0x061c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rsi + r8], 1
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	LONG $0x2061a3c4; WORD $0x161c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rsi + r10], 2
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	LONG $0x2061e3c4; WORD $0x161c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rsi + rdx], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 4
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	LONG $0x2061a3c4; WORD $0x0e1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rsi + r9], 5
+	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
+	LONG $0x2061a3c4; WORD $0x361c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rsi + r14], 6
+	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
+	LONG $0x2061a3c4; WORD $0x3e1c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rsi + r15], 7
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	LONG $0x2061e3c4; WORD $0x3e1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rsi + rdi], 8
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	LONG $0x2061e3c4; WORD $0x061c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rsi + rax], 9
+	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
+	LONG $0x2061a3c4; WORD $0x1e1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rsi + r11], 10
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 11
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	LONG $0x2061e3c4; WORD $0x0e1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rsi + rcx], 12
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 13
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	LONG $0x2061a3c4; WORD $0x261c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rsi + r12], 14
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	LONG $0x2061e3c4; WORD $0x1e1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rsi + rbx], 15
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x00026024946f7dc5; BYTE $0x00       // vmovdqa    ymm10, yword [rsp + 608]
+	LONG $0xd8deadc5                           // vpmaxub    ymm3, ymm10, ymm0
+	QUAD $0x01012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 1
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x02011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 2
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x03012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 3
+	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
+	QUAD $0x04012e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 1], 4
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x05011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 5
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x06011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 6
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	QUAD $0x07011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 7
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x08011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 8
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x09011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 9
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x0a011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 10
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x0b011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 11
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	QUAD $0x0c011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 12
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0d011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 13
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x0e011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 14
+	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
+	QUAD $0x0f011e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 1], 15
+	QUAD $0x0101066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 1], 1
+	QUAD $0x0201166c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r10 + 1], 2
+	QUAD $0x0301166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 1], 3
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0401166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 1], 4
+	QUAD $0x05010e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 1], 5
+	QUAD $0x0601366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 1], 6
+	QUAD $0x07013e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 1], 7
+	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
+	QUAD $0x08013e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 1], 8
+	QUAD $0x0901066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 9
+	QUAD $0x0a011e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 1], 10
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0b01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 11
+	QUAD $0x0c010e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 1], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d01066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 1], 13
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
+	QUAD $0x00050024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1280], ymm0
+	QUAD $0x0e0126442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + r12 + 1], 14
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0f0106442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 1], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x08               // movzx    edi, byte [rsi + rax + 8]
+	LONG $0xf76ef9c5                           // vmovd    xmm6, edi
+	QUAD $0x0001e024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 480]
+	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
+	QUAD $0x01023e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 2], 1
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x020206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 2
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x030206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 3
+	QUAD $0x04022e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 2], 4
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x05021e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 2], 5
+	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
+	QUAD $0x06020e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 2], 6
+	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
+	QUAD $0x070206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 2], 7
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x080206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 8
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x090206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 9
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0a0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 10
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0b0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 11
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0c0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d0206442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 2], 13
+	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
+	QUAD $0x0e0216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 2], 14
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x0f020e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 2], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0001c0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 448]
+	QUAD $0x0102065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 2], 1
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x02023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 2
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x03023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 3
+	QUAD $0x0402165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 4
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0502165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 5
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x06023e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 2], 6
+	QUAD $0x0702365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 2], 7
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	QUAD $0x0802365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 2], 8
+	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
+	QUAD $0x0902265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 2], 9
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0a02165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 10
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0b02165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 11
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x0c02165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 2], 12
+	QUAD $0x0d021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 13
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0e021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 14
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x0f021e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 2], 15
+	QUAD $0x01033e642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rsi + r15 + 3], 1
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x02031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 2
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x03031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 3
+	QUAD $0x04032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 4
+	QUAD $0x05031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 5
+	QUAD $0x06030e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 3], 6
+	QUAD $0x070306642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r8 + 3], 7
+	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
+	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
+	QUAD $0x08032e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 3], 8
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x09031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 9
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x0a031e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 3], 10
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x0b031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 11
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	QUAD $0x0c031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 12
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0d031e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 3], 13
+	QUAD $0x0e0316642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 3], 14
+	QUAD $0x0f030e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 3], 15
+	QUAD $0x0103066c2039e3c4                   // vpinsrb    xmm5, xmm8, byte [rsi + rax + 3], 1
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x0203066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 3], 2
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0303066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0403066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0503066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 5
+	QUAD $0x06033e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 3], 6
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0703066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 7
+	QUAD $0x0803366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 3], 8
+	QUAD $0x0903266c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r12 + 3], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 10
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0b03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 11
+	QUAD $0x0c03166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 3], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e03066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 3], 14
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0f0306442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rax + 3], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
+	LONG $0xc76e79c5                           // vmovd    xmm8, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x09               // movzx    edi, byte [rsi + rax + 9]
+	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x00022024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 544]
+	QUAD $0x01040e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 4], 1
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x020416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 4], 2
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x03040e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 4], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x040406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 4
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x050406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 5
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x060436442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 4], 6
+	QUAD $0x07043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 7
+	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
+	QUAD $0x08042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 8
+	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
+	QUAD $0x09042e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 4], 9
+	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
+	QUAD $0x0a041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 10
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x0b041e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 4], 11
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	QUAD $0x0c041e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 4], 12
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x0d043e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 4], 13
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0e0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 14
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0f0406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 4], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0104065c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rsi + rax + 4], 1
+	QUAD $0x0204065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 2
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0304065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0404065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 4
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x05043e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 4], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0604065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 6
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0704065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 7
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0804065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 8
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0904065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 10
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x0b04065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 11
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x0c04065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 4], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 14
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0f04065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 4], 15
+	QUAD $0x01050e642009e3c4                   // vpinsrb    xmm4, xmm14, byte [rsi + rcx + 5], 1
+	QUAD $0x020516642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 5], 2
+	QUAD $0x03050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x040506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 4
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x05050e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rcx + 5], 5
+	QUAD $0x060536642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 5], 6
+	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
+	QUAD $0x07050e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r9 + 5], 7
+	QUAD $0x080526642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r12 + 5], 8
+	QUAD $0x09052e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 5], 9
+	QUAD $0x0a0516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 10
+	QUAD $0x0b051e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 5], 11
+	QUAD $0x0c051e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rbx + 5], 12
+	QUAD $0x0d053e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r15 + 5], 13
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0e0506642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 5], 14
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x0f0516642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r10 + 5], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0105066c2011e3c4                   // vpinsrb    xmm5, xmm13, byte [rsi + rax + 5], 1
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x02050e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 5], 2
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x0305366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 5], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0405066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 4
+	QUAD $0x05053e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 5], 5
+	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
+	QUAD $0x06051e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 5], 6
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0705066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 5], 7
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0805166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 8
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x0905166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 9
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0a05166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 10
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0b05166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 11
+	QUAD $0x0c05066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 5], 12
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0d05166c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdx + 5], 13
+	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0e0516442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rsi + rdx + 5], 14
+	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
+	LONG $0x167cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rdx + 10]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+	QUAD $0x0f053e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 5], 15
+	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	LONG $0x167cb60f; BYTE $0x0a               // movzx    edi, byte [rsi + rdx + 10]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
+	QUAD $0x010626442019a3c4                   // vpinsrb    xmm0, xmm12, byte [rsi + r12 + 6], 1
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x02062e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 6], 2
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x030616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 3
+	QUAD $0x000000f024948b48                   // mov    rdx, qword [rsp + 240]
+	QUAD $0x040616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 6], 4
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x05061e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 6], 5
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x06063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 6
+	QUAD $0x07060e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 6], 7
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x08063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 8
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x09063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 9
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0a063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 10
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0b063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 11
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x0c063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 13
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0e063e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 6], 14
+	QUAD $0x0f0616442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 6], 15
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x01063e6c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rdi + 6], 1
+	QUAD $0x02060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 2
+	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
+	QUAD $0x0306366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 3
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x04063e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 6], 4
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x05060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 5
+	QUAD $0x06061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 6
+	QUAD $0x0706066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 7
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x0806066c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r8 + 6], 8
+	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
+	QUAD $0x0906366c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r14 + 6], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 10
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0b06066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 6], 11
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x0c061e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 6], 12
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	QUAD $0x0d060e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 6], 13
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0e060e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rcx + 6], 14
+	QUAD $0x0f063e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r15 + 6], 15
+	QUAD $0x010726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 7], 1
+	QUAD $0x02072e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 7], 2
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x03072e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 7], 3
+	QUAD $0x040716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 4
+	QUAD $0x05071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 5
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x060716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 6
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x070716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 7
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x080716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 8
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x09071e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 7], 9
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0a0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 10
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x0b0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 11
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x0c0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 12
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0d0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 13
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0e0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 14
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x0f0716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 7], 15
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0107164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 1
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x0207164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 2
+	QUAD $0x0307164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 7], 3
+	QUAD $0x04073e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 7], 4
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0507164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 5
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x0607164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 6
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x0707164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 7
+	QUAD $0x0807064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 7], 8
+	QUAD $0x0907364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 7], 9
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0a07164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 7], 10
+	QUAD $0x0b07064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 7], 11
+	QUAD $0x0c071e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 7], 12
+	QUAD $0x0d070e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 7], 13
+	QUAD $0x0e070e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 7], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	QUAD $0x0f073e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 7], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
+	QUAD $0x0004e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1248], ymm1
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0b               // movzx    edi, byte [rsi + rax + 11]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x010826542031a3c4                   // vpinsrb    xmm2, xmm9, byte [rsi + r12 + 8], 1
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x020806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 2
+	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
+	QUAD $0x03082e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 8], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x040806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 4
+	QUAD $0x0000008824ac8b4c                   // mov    r13, qword [rsp + 136]
+	QUAD $0x05082e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 8], 5
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x060806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 6
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x070816542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 8], 7
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x080806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 8
+	QUAD $0x09081e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 8], 9
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0a0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 10
+	QUAD $0x000000a824948b48                   // mov    rdx, qword [rsp + 168]
+	QUAD $0x0b0816542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 8], 11
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x0c0836542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 8], 12
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0d080e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 8], 13
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0e0806542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 8], 14
+	QUAD $0x000000d824bc8b4c                   // mov    r15, qword [rsp + 216]
+	QUAD $0x0f083e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 8], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0108066c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rsi + rax + 8], 1
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0208066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 2
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0308066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0408066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 4
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x05080e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r9 + 8], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0608066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 6
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x07083e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rdi + 8], 7
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0808066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 8
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0908066c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rax + 8], 9
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0a081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 10
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x0b081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 11
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x0c081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 12
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0d081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 13
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0e081e6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + rbx + 8], 14
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x0f081e6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rsi + r11 + 8], 15
+	LONG $0x3855e3c4; WORD $0x01d2             // vinserti128    ymm2, ymm5, xmm2, 1
+	LONG $0xeadeadc5                           // vpmaxub    ymm5, ymm10, ymm2
+	QUAD $0x010926742039a3c4                   // vpinsrb    xmm6, xmm8, byte [rsi + r12 + 9], 1
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x02091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 2
+	QUAD $0x030906742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r8 + 9], 3
+	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
+	QUAD $0x04091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 4
+	QUAD $0x05092e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r13 + 9], 5
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x06091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 6
+	QUAD $0x070916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 7
+	WORD $0x894d; BYTE $0xd4                   // mov    r12, r10
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x08091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 8
+	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
+	QUAD $0x090916742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r10 + 9], 9
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x0a091e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rbx + 9], 10
+	QUAD $0x0b0916742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rdx + 9], 11
+	QUAD $0x0c0936742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r14 + 9], 12
+	QUAD $0x0d090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 13
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0e090e742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + rcx + 9], 14
+	QUAD $0x0f093e742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rsi + r15 + 9], 15
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x01090e7c2021e3c4                   // vpinsrb    xmm7, xmm11, byte [rsi + rcx + 9], 1
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x02091e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r11 + 9], 2
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x03090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 3
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x04090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 4
+	QUAD $0x05090e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r9 + 9], 5
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x0609167c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdx + 9], 6
+	QUAD $0x07093e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rdi + 9], 7
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x08090e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rcx + 9], 8
+	QUAD $0x0909067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 9
+	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
+	QUAD $0x0a09367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 9], 10
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0b09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 11
+	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
+	QUAD $0x0c092e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 9], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e09067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 9], 14
+	LONG $0xd574edc5                           // vpcmpeqb    ymm2, ymm2, ymm5
+	QUAD $0x0004c024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm2
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0f09066c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rsi + rax + 9], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x0004a024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm5
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0c               // movzx    edi, byte [rsi + rax + 12]
+	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
+	QUAD $0x000000f824bc8b4c                   // mov    r15, qword [rsp + 248]
+	QUAD $0x010a3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 10], 1
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x020a1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 10], 2
+	QUAD $0x030a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 3
+	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
+	QUAD $0x040a065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 10], 4
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x050a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 5
+	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
+	QUAD $0x060a0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 10], 6
+	QUAD $0x070a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 7
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x080a0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 10], 8
+	QUAD $0x090a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 9
+	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
+	QUAD $0x0a0a265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 10], 10
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0b0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 11
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0c0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 13
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0e0a065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 10], 14
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x0f0a165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 10], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x010a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 1
+	QUAD $0x020a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 2
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x030a3e642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdi + 10], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x040a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x050a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 5
+	QUAD $0x060a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 6
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	QUAD $0x070a1e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r11 + 10], 7
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x080a06642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rax + 10], 8
+	QUAD $0x000000c824948b48                   // mov    rdx, qword [rsp + 200]
+	QUAD $0x090a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 9
+	QUAD $0x0a0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 10
+	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
+	QUAD $0x0b0a36642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r14 + 10], 11
+	QUAD $0x0c0a2e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 10], 12
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0d0a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 13
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0e0a16642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + rdx + 10], 14
+	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
+	QUAD $0x0f0a2e642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rsi + r13 + 10], 15
+	QUAD $0x010b3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 11], 1
+	QUAD $0x020b1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 11], 2
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x030b1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 11], 3
+	QUAD $0x040b06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 11], 4
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x050b1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 11], 5
+	QUAD $0x060b0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 11], 6
+	QUAD $0x000000b8249c8b48                   // mov    rbx, qword [rsp + 184]
+	QUAD $0x070b1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 11], 7
+	QUAD $0x080b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 8
+	LONG $0x244c8b4c; BYTE $0x58               // mov    r9, qword [rsp + 88]
+	QUAD $0x090b0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 11], 9
+	QUAD $0x0a0b26442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 11], 10
+	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
+	QUAD $0x0b0b2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 11], 11
+	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
+	QUAD $0x0c0b3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 11], 12
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0d0b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 13
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0e0b0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 11], 14
+	QUAD $0x0f0b16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 11], 15
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x010b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 1
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x020b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 2
+	QUAD $0x030b3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 11], 3
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x040b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 4
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x050b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 5
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x060b0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 11], 6
+	QUAD $0x070b1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 11], 7
+	QUAD $0x080b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 8
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x090b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 10
+	QUAD $0x0b0b364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 11], 11
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0c0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000480249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm3
+	QUAD $0x0e0b164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 11], 14
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	LONG $0x0e7cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rcx + 13]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0f0b064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 11], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00046024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0d               // movzx    edi, byte [rsi + rax + 13]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824a48b4c                   // mov    r12, qword [rsp + 248]
+	QUAD $0x010c264c2069a3c4                   // vpinsrb    xmm1, xmm2, byte [rsi + r12 + 12], 1
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x020c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 2
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x030c0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 12], 3
+	QUAD $0x040c064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 12], 4
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x050c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 5
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x060c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 6
+	QUAD $0x070c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 12], 7
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x080c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 12], 8
+	QUAD $0x090c0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 12], 9
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0a0c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 10
+	QUAD $0x0b0c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 12], 11
+	QUAD $0x0c0c3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 12], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d0c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 12], 13
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x0e0c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 12], 14
+	QUAD $0x0f0c164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 12], 15
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x010c16542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rsi + r10 + 12], 1
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x020c3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 12], 2
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x030c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 3
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x040c1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 12], 4
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x050c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 5
+	QUAD $0x000000e824bc8b4c                   // mov    r15, qword [rsp + 232]
+	QUAD $0x060c3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 12], 6
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x070c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 7
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x080c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 8
+	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
+	QUAD $0x090c2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 12], 9
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0a0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 10
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0b0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 11
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x0c0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 12
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0d0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 13
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x0e0c0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 12], 14
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0f0c16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 12], 15
+	QUAD $0x010d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 1
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x020d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 2
+	QUAD $0x030d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 3
+	QUAD $0x040d065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 13], 4
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x050d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 5
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x060d165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 13], 6
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x070d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 7
+	QUAD $0x080d1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 13], 8
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x090d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 9
+	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
+	QUAD $0x0a0d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 13], 10
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0b0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 11
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x0c0d0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 13], 12
+	QUAD $0x0d0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 13
+	QUAD $0x0e0d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 13], 14
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0f0d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 13], 15
+	QUAD $0x010d16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 13], 1
+	QUAD $0x020d3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 13], 2
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x030d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 3
+	QUAD $0x040d1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 13], 4
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x050d36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 13], 5
+	QUAD $0x060d3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 13], 6
+	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
+	QUAD $0x070d3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 13], 7
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x080d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 8
+	QUAD $0x090d2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 13], 9
+	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
+	QUAD $0x0a0d2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 13], 10
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0b0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 11
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0c0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 13
+	QUAD $0x0e0d0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 13], 14
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000440248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0f0d06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 13], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x0e               // movzx    edi, byte [rsi + rax + 14]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
+	QUAD $0x010e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 14], 1
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x020e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 14], 2
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x030e0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 14], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x040e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 4
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x050e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 5
+	QUAD $0x060e164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 14], 6
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x070e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 7
+	QUAD $0x080e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 14], 8
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x090e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 9
+	QUAD $0x0a0e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 14], 10
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0b0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 11
+	QUAD $0x0c0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d0e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 14], 13
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x0e0e1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 14], 14
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x0f0e0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 14], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x010e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 1
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x020e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 2
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x030e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x040e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 4
+	QUAD $0x050e36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 14], 5
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x060e16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 14], 6
+	QUAD $0x070e3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 14], 7
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x080e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 8
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x090e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 14], 9
+	QUAD $0x0a0e2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 14], 10
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x0b0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 11
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x0c0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 12
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0d0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 13
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0e0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 14
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0f0e3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 14], 15
+	QUAD $0x0000010824bc8b4c                   // mov    r15, qword [rsp + 264]
+	LONG $0x7cb60f42; WORD $0x0f3e             // movzx    edi, byte [rsi + r15 + 15]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x010f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 1
+	QUAD $0x020f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 2
+	QUAD $0x030f0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 15], 3
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x040f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 4
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x050f16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 15], 5
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x060f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 6
+	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
+	QUAD $0x070f06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 15], 7
+	QUAD $0x080f1e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 15], 8
+	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
+	QUAD $0x090f2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 15], 9
+	QUAD $0x0a0f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 10
+	QUAD $0x000000a824b48b4c                   // mov    r14, qword [rsp + 168]
+	QUAD $0x0b0f36542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 15], 11
+	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
+	QUAD $0x0c0f26542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 15], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d0f3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 15], 13
+	QUAD $0x0e0f1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 15], 14
+	QUAD $0x0f0f0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 15], 15
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	LONG $0x1e7cb60f; BYTE $0x0f               // movzx    edi, byte [rsi + rbx + 15]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x010f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 1
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x020f0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 15], 2
+	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
+	QUAD $0x030f0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 15], 3
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x040f1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 15], 4
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x050f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 5
+	QUAD $0x060f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 6
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x070f165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 15], 7
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x080f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 8
+	QUAD $0x090f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 10
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0b0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 11
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0c0f065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 15], 12
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0d0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 13
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0e0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 14
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0f0f3e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 15], 15
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	LONG $0x7cb60f42; WORD $0x103e             // movzx    edi, byte [rsi + r15 + 16]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x01103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 1
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x02103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 2
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x03103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 3
+	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
+	QUAD $0x04103e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 16], 4
+	QUAD $0x051016442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 16], 5
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x06103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 6
+	QUAD $0x071006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 7
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x08103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 8
+	QUAD $0x09102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 9
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0a103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 10
+	QUAD $0x0b1036442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 16], 11
+	QUAD $0x0c1026442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 16], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d103e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 16], 13
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x0e1006442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 16], 14
+	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
+	QUAD $0x0f102e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 16], 15
+	LONG $0x1e7cb60f; BYTE $0x10               // movzx    edi, byte [rsi + rbx + 16]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x01101e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 16], 1
+	QUAD $0x02100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 2
+	QUAD $0x03100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 3
+	QUAD $0x04101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 4
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x05100e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 16], 5
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x06103e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 16], 6
+	QUAD $0x0710164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 7
+	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
+	QUAD $0x08101e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 16], 8
+	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
+	QUAD $0x0910264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 16], 9
+	QUAD $0x0000014024948b4c                   // mov    r10, qword [rsp + 320]
+	QUAD $0x0a10164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 16], 10
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0b10164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 16], 11
+	QUAD $0x0c10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e10064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 16], 14
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	QUAD $0x0f100e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 16], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rax + 17]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x01113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 1
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x02113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 2
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x03113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 3
+	QUAD $0x04113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 4
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x05113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 5
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	QUAD $0x06113e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 17], 6
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x07113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 7
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x08113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 8
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x09113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 9
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0a113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 10
+	QUAD $0x0b1136542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 17], 11
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x0c113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d113e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 17], 13
+	QUAD $0x0e1106542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 17], 14
+	QUAD $0x0f112e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 17], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3e7cb60f; BYTE $0x11               // movzx    edi, byte [rsi + rdi + 17]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x01111e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 17], 1
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x02113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 2
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x03113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 3
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x04113e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 17], 4
+	QUAD $0x05110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 5
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	QUAD $0x06112e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 17], 6
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x07110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 7
+	QUAD $0x08111e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 17], 8
+	QUAD $0x0911265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 9
+	QUAD $0x0a11165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 17], 10
+	QUAD $0x0b11165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 17], 11
+	QUAD $0x0000009824a48b4c                   // mov    r12, qword [rsp + 152]
+	QUAD $0x0c11265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 17], 12
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0d110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 13
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0e110e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0f110e4c2061a3c4                   // vpinsrb    xmm1, xmm3, byte [rsi + r9 + 17], 15
+	LONG $0xd8deadc5                           // vpmaxub    ymm3, ymm10, ymm0
+	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
+	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
+	LONG $0x3875e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm1, xmm2, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	LONG $0x067cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rax + 18]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
+	QUAD $0x01121e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 18], 1
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x021216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 2
+	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
+	QUAD $0x031206442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 18], 3
+	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
+	QUAD $0x04121e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 18], 4
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x051216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 5
+	QUAD $0x06123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 6
+	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
+	QUAD $0x07120e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 18], 7
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+	QUAD $0x081216442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 18], 8
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x091216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 9
+	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
+	QUAD $0x0a1236442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 18], 10
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	QUAD $0x0b123e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 18], 11
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x0c1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 12
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0d1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 13
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0e1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 14
+	QUAD $0x000000d824948b48                   // mov    rdx, qword [rsp + 216]
+	QUAD $0x0f1216442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 18], 15
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	LONG $0x167cb60f; BYTE $0x12               // movzx    edi, byte [rsi + rdx + 18]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0112164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 1
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x0212164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 2
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x0312164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 3
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0412164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 18], 4
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x05123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 5
+	QUAD $0x06122e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 18], 6
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x07123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 7
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x08123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 8
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x09123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 9
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0a123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 10
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x0b123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 11
+	QUAD $0x0c12264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 18], 12
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0d123e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 18], 13
+	QUAD $0x0e120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 14
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0f120e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 18], 15
+	LONG $0x067cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rax + 19]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x01131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 1
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x021306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 2
+	QUAD $0x031306542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 19], 3
+	QUAD $0x04131e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 19], 4
+	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
+	QUAD $0x051326542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 19], 5
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x06130e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 19], 6
+	QUAD $0x07130e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 19], 7
+	QUAD $0x081316542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 19], 8
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x09131e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 19], 9
+	QUAD $0x0a1336542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 19], 10
+	QUAD $0x0b133e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 19], 11
+	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
+	QUAD $0x0c131e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 19], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d1306542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 19], 13
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0e133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 14
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x0f133e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 19], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3e7cb60f; BYTE $0x13               // movzx    edi, byte [rsi + rdi + 19]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x01133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 1
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x02133e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 19], 2
+	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
+	QUAD $0x0313065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 19], 3
+	QUAD $0x0413165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 4
+	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
+	QUAD $0x0513165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 19], 5
+	QUAD $0x06132e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 19], 6
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	QUAD $0x0713365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 19], 7
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0813165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 8
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	QUAD $0x09133e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 19], 9
+	QUAD $0x0000014024948b48                   // mov    rdx, qword [rsp + 320]
+	QUAD $0x0a13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 10
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0b13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 11
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x0c13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 12
+	QUAD $0x0000012024948b48                   // mov    rdx, qword [rsp + 288]
+	QUAD $0x0d13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 13
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0e13165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 19], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	QUAD $0x0f130e442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + r9 + 19], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	QUAD $0x0000010824948b48                   // mov    rdx, qword [rsp + 264]
+	LONG $0x167cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rdx + 20]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
+	QUAD $0x011416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 1
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x021416442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 20], 2
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x03143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 3
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x04143e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 20], 4
+	QUAD $0x051426442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 20], 5
+	QUAD $0x06140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 6
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x07140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 7
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x08140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 8
+	QUAD $0x09141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 9
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0a140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 10
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0b140e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 20], 11
+	QUAD $0x0c141e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 20], 12
+	QUAD $0x0d1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 13
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0e1406442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 20], 14
+	QUAD $0x000000d8249c8b48                   // mov    rbx, qword [rsp + 216]
+	QUAD $0x0f141e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 20], 15
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0e7cb60f; BYTE $0x14               // movzx    edi, byte [rsi + rcx + 20]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x01140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 1
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x02140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 2
+	QUAD $0x0314064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 20], 3
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x04140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 4
+	QUAD $0x0514164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 20], 5
+	QUAD $0x06142e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 20], 6
+	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
+	QUAD $0x0714364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 20], 7
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x08140e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 20], 8
+	QUAD $0x09143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 9
+	QUAD $0x0000014024bc8b4c                   // mov    r15, qword [rsp + 320]
+	QUAD $0x0a143e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 20], 10
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x0b143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 11
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x0c143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 12
+	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
+	QUAD $0x0d14264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 20], 13
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0e143e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 20], 14
+	QUAD $0x0f140e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 20], 15
+	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
+	LONG $0x7cb60f42; WORD $0x1536             // movzx    edi, byte [rsi + r14 + 21]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x01153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 1
+	QUAD $0x021516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 2
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x031516542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 21], 3
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x04153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 4
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x05153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 5
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x06151e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 21], 6
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	QUAD $0x07152e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 21], 7
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x081506542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 21], 8
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x09153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 9
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0a153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 10
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0b153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 11
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x0c153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d153e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 21], 13
+	QUAD $0x0e1506542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 21], 14
+	QUAD $0x0f151e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 21], 15
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	LONG $0x1e7cb60f; BYTE $0x15               // movzx    edi, byte [rsi + rbx + 21]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0115065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 21], 1
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x02153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 2
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x03153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 3
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x04153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 4
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x05153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 5
+	QUAD $0x0615165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 6
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x07153e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 21], 7
+	QUAD $0x08150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 8
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x09150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 9
+	QUAD $0x0a153e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 21], 10
+	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
+	QUAD $0x0b15165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 21], 11
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x0c150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 12
+	QUAD $0x0d15265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 21], 13
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x0e150e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 21], 14
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x0f150e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 21], 15
+	LONG $0x387563c4; WORD $0x01d8             // vinserti128    ymm11, ymm1, xmm0, 1
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	LONG $0x7cb60f42; WORD $0x1636             // movzx    edi, byte [rsi + r14 + 22]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x01160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 1
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x02160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 2
+	WORD $0x8949; BYTE $0xd7                   // mov    r15, rdx
+	QUAD $0x031616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 3
+	QUAD $0x000000f024b48b4c                   // mov    r14, qword [rsp + 240]
+	QUAD $0x041636442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 22], 4
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x051616442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 22], 5
+	QUAD $0x06161e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 22], 6
+	QUAD $0x07162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 7
+	QUAD $0x081606442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 22], 8
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x09160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 9
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0a160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 10
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0b160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 11
+	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
+	QUAD $0x0c1626442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r12 + 22], 12
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x0d162e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 22], 13
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0e160e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 22], 14
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x0f163e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 22], 15
+	LONG $0x1e7cb60f; BYTE $0x16               // movzx    edi, byte [rsi + rbx + 22]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0116064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 1
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x0216064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 22], 2
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0316064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 22], 3
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x04161e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 22], 4
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x05163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 5
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x06163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 6
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x07163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 7
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x08163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 8
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x09163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 9
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0a163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 10
+	QUAD $0x0b16164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 22], 11
+	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x0c163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 12
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0d163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 13
+	QUAD $0x0e160e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 22], 14
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0f163e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 22], 15
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	LONG $0x3e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rdi + 23]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x01173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 1
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x02173e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 23], 2
+	QUAD $0x03173e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 23], 3
+	QUAD $0x041736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 4
+	QUAD $0x051716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 5
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x061716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 6
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x071716542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 23], 7
+	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
+	QUAD $0x08170e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 23], 8
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x09173e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 23], 9
+	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
+	QUAD $0x0a1736542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 23], 10
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+	QUAD $0x0b1716542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 23], 11
+	QUAD $0x0c1726542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r12 + 23], 12
+	QUAD $0x0d172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 13
+	QUAD $0x0e170e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 23], 14
+	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
+	QUAD $0x0f172e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 23], 15
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0e7cb60f; BYTE $0x17               // movzx    edi, byte [rsi + rcx + 23]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0117165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 1
+	QUAD $0x0217065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 2
+	QUAD $0x0317065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 3
+	QUAD $0x04171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0517065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0617065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 6
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	QUAD $0x0717165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 23], 7
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0817065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 8
+	QUAD $0x000000c8249c8b4c                   // mov    r11, qword [rsp + 200]
+	QUAD $0x09171e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 23], 9
+	QUAD $0x0000014024a48b4c                   // mov    r12, qword [rsp + 320]
+	QUAD $0x0a17265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 23], 10
+	QUAD $0x0b171e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 23], 11
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0c17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 12
+	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
+	QUAD $0x0d17065c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r8 + 23], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e17065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 23], 14
+	LONG $0x387563c4; WORD $0x01c8             // vinserti128    ymm9, ymm1, xmm0, 1
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x0f171e442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rsi + rbx + 23], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rax + 24]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x011806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 1
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x021806442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 24], 2
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x03183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 3
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x04183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 4
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x05183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 5
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x06183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 6
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x07183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 7
+	QUAD $0x08180e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 24], 8
+	QUAD $0x09183e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 24], 9
+	QUAD $0x0a1836442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 24], 10
+	QUAD $0x0b1816442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 24], 11
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x0c183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 13
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0e183e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 24], 14
+	QUAD $0x0f182e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 24], 15
+	LONG $0x0e7cb60f; BYTE $0x18               // movzx    edi, byte [rsi + rcx + 24]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x0118164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 24], 1
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x02180e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 24], 2
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x03183e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 24], 3
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x04183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 4
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x05180e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 24], 5
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x06183e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 24], 6
+	QUAD $0x0718164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 7
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0818164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 8
+	QUAD $0x09181e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 24], 9
+	QUAD $0x0a18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 10
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x0b18264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 24], 11
+	QUAD $0x0000009824948b48                   // mov    rdx, qword [rsp + 152]
+	QUAD $0x0c18164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 12
+	QUAD $0x0d18064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 24], 13
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0e18164c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdx + 24], 14
+	QUAD $0x0f181e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 24], 15
+	QUAD $0x0000010824848b4c                   // mov    r8, qword [rsp + 264]
+	LONG $0x7cb60f42; WORD $0x1906             // movzx    edi, byte [rsi + r8 + 25]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824948b48                   // mov    rdx, qword [rsp + 248]
+	QUAD $0x011916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 1
+	QUAD $0x021906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 2
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x031936542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r14 + 25], 3
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	QUAD $0x04191e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 25], 4
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x051916542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 25], 5
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x06191e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rbx + 25], 6
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x071906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 7
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x081906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 8
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x091906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 9
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0a1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 10
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0b1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 11
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x0c192e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 25], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 13
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0e1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 14
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0f1906542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 25], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x067cb60f; BYTE $0x19               // movzx    edi, byte [rsi + rax + 25]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0119165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 25], 1
+	QUAD $0x02190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 2
+	QUAD $0x03193e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 25], 3
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x04190e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 25], 4
+	QUAD $0x05190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0619065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 6
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0719065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 7
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0819065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 25], 8
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x09193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 9
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0a193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 10
+	QUAD $0x0b19265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 25], 11
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x0c190e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 25], 12
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0d193e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdi + 25], 13
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x0e19164c2061a3c4                   // vpinsrb    xmm1, xmm3, byte [rsi + r10 + 25], 14
+	LONG $0xd8deadc5                           // vpmaxub    ymm3, ymm10, ymm0
+	LONG $0xc374fdc5                           // vpcmpeqb    ymm0, ymm0, ymm3
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0f193e442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rsi + rdi + 25], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0001a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm0
+	LONG $0x7cb60f42; WORD $0x1a06             // movzx    edi, byte [rsi + r8 + 26]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
+	QUAD $0x011a06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 26], 1
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x021a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 2
+	QUAD $0x031a36442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r14 + 26], 3
+	QUAD $0x041a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 4
+	QUAD $0x051a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 5
+	QUAD $0x061a1e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rbx + 26], 6
+	QUAD $0x000000b824948b48                   // mov    rdx, qword [rsp + 184]
+	QUAD $0x071a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 7
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x081a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 8
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x091a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 9
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0a1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 10
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x0b1a1e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r11 + 26], 11
+	QUAD $0x0c1a2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 26], 12
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0d1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 13
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x0e1a16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 26], 14
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x0f1a3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 26], 15
+	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x1a36             // movzx    edi, byte [rsi + r14 + 26]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x011a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 1
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x021a3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 26], 2
+	QUAD $0x031a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 3
+	QUAD $0x041a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 4
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x051a3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 26], 5
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x061a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 6
+	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
+	QUAD $0x071a264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 26], 7
+	QUAD $0x081a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 8
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x091a1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 26], 9
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0a1a0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 26], 10
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0b1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 11
+	QUAD $0x0c1a0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 26], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d1a064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 26], 13
+	QUAD $0x0e1a164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 26], 14
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	QUAD $0x0f1a0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 26], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x1b               // movzx    edi, byte [rsi + rax + 27]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
+	QUAD $0x011b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 1
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x021b06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 27], 2
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x031b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 3
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x041b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 4
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x051b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 5
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x061b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 6
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x071b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 7
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x081b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 8
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x091b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 9
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0a1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 10
+	QUAD $0x0b1b1e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r11 + 27], 11
+	QUAD $0x0c1b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d1b3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 27], 13
+	QUAD $0x0e1b16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 27], 14
+	QUAD $0x000000d824ac8b4c                   // mov    r13, qword [rsp + 216]
+	QUAD $0x0f1b2e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r13 + 27], 15
+	LONG $0x7cb60f42; WORD $0x1b36             // movzx    edi, byte [rsi + r14 + 27]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	QUAD $0x011b365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 27], 1
+	QUAD $0x0000009024948b48                   // mov    rdx, qword [rsp + 144]
+	QUAD $0x021b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 2
+	QUAD $0x000000a024948b48                   // mov    rdx, qword [rsp + 160]
+	QUAD $0x031b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 3
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x041b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 4
+	QUAD $0x051b3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 27], 5
+	QUAD $0x000000e824948b48                   // mov    rdx, qword [rsp + 232]
+	QUAD $0x061b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 6
+	QUAD $0x071b265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 27], 7
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x081b165c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rdx + 27], 8
+	QUAD $0x091b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 9
+	QUAD $0x0a1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 10
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0b1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 11
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x0c1b1e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r11 + 27], 12
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0d1b1e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rbx + 27], 13
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0e1b0e5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rcx + 27], 14
+	QUAD $0x0f1b0e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r9 + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	LONG $0x067cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rax + 28]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 1
+	QUAD $0x021c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 2
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x031c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 3
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x041c0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 28], 4
+	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
+	QUAD $0x051c06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 28], 5
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x061c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 6
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x071c0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 28], 7
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x081c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 8
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x091c06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 28], 9
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0a1c16442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdx + 28], 10
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+	QUAD $0x0b1c16442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r10 + 28], 11
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x0c1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 12
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x0d1c3e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r15 + 28], 13
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x0e1c3e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rdi + 28], 14
+	QUAD $0x0f1c2e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r13 + 28], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3e7cb60f; BYTE $0x1c               // movzx    edi, byte [rsi + rdi + 28]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 1
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x021c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 2
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x031c364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 28], 3
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	QUAD $0x041c2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 28], 4
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x051c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 5
+	QUAD $0x000000e824a48b4c                   // mov    r12, qword [rsp + 232]
+	QUAD $0x061c264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 28], 6
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x071c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 7
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x081c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 8
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x091c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a1c064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 28], 10
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x0b1c3e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rdi + 28], 11
+	QUAD $0x0c1c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 12
+	QUAD $0x0d1c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 28], 13
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0e1c1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 28], 14
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x0f1c1e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r11 + 28], 15
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	LONG $0x067cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rax + 29]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x011d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 1
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x021d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 2
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x031d3e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdi + 29], 3
+	QUAD $0x041d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 4
+	QUAD $0x051d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 5
+	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
+	QUAD $0x061d06542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r8 + 29], 6
+	QUAD $0x071d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 7
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x081d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 8
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x091d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 9
+	QUAD $0x0a1d16542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rdx + 29], 10
+	QUAD $0x0b1d16542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r10 + 29], 11
+	QUAD $0x000000e0248c8b4c                   // mov    r9, qword [rsp + 224]
+	QUAD $0x0c1d0e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r9 + 29], 12
+	QUAD $0x0d1d3e542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + r15 + 29], 13
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0e1d0e542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rcx + 29], 14
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0f1d06542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rsi + rax + 29], 15
+	QUAD $0x0000010024948b48                   // mov    rdx, qword [rsp + 256]
+	LONG $0x167cb60f; BYTE $0x1d               // movzx    edi, byte [rsi + rdx + 29]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x011d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 1
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x021d3e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r15 + 29], 2
+	QUAD $0x031d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 3
+	QUAD $0x041d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x051d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 5
+	QUAD $0x061d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 6
+	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
+	QUAD $0x071d265c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r12 + 29], 7
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x081d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 8
+	QUAD $0x000000c824b48b4c                   // mov    r14, qword [rsp + 200]
+	QUAD $0x091d365c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r14 + 29], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 10
+	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
+	QUAD $0x0b1d165c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r10 + 29], 11
+	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
+	QUAD $0x0c1d2e5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + r13 + 29], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d1d065c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rsi + rax + 29], 13
+	QUAD $0x0e1d1e642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rsi + rbx + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	QUAD $0x0f1d1e442059a3c4                   // vpinsrb    xmm0, xmm4, byte [rsi + r11 + 29], 15
+	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
+	LONG $0x7cb60f42; WORD $0x1e1e             // movzx    edi, byte [rsi + r11 + 30]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x011e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 1
+	LONG $0x7cb60f42; WORD $0x1f1e             // movzx    edi, byte [rsi + r11 + 31]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 1
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x021e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 2
+	QUAD $0x021f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 2
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x031e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 3
+	QUAD $0x031f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x041e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 4
+	QUAD $0x041f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 4
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x051e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 5
+	QUAD $0x051f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 5
+	QUAD $0x061e06442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r8 + 30], 6
+	QUAD $0x061f064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 31], 6
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x071e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 7
+	QUAD $0x071f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 7
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x081e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 8
+	QUAD $0x081f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 8
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x091e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 9
+	QUAD $0x091f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 9
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0a1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 10
+	QUAD $0x0a1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 10
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0b1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 11
+	QUAD $0x0c1e0e442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + r9 + 30], 12
+	QUAD $0x0c1f0e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r9 + 31], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 13
+	QUAD $0x0d1f064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 31], 13
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x0e1e0e442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rcx + 30], 14
+	QUAD $0x0e1f0e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rcx + 31], 14
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0f1e06442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rsi + rax + 30], 15
+	QUAD $0x0f1f06542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rsi + rax + 31], 15
+	LONG $0x1644b60f; BYTE $0x1e               // movzx    eax, byte [rsi + rdx + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
+	QUAD $0x011e064c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r8 + 30], 1
+	LONG $0x1644b60f; BYTE $0x1f               // movzx    eax, byte [rsi + rdx + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f067c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r8 + 31], 1
+	QUAD $0x021e3e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r15 + 30], 2
+	QUAD $0x021f3e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r15 + 31], 2
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x031e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 3
+	QUAD $0x031f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x041e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 4
+	QUAD $0x041f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x051e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 5
+	QUAD $0x051f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 5
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x061e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 6
+	QUAD $0x061f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 6
+	QUAD $0x071e264c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r12 + 30], 7
+	QUAD $0x071f267c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r12 + 31], 7
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x081e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 8
+	QUAD $0x081f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 8
+	QUAD $0x091e364c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r14 + 30], 9
+	QUAD $0x091f367c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r14 + 31], 9
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0a1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 10
+	QUAD $0x0a1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 10
+	QUAD $0x0b1e164c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r10 + 30], 11
+	QUAD $0x0b1f167c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r10 + 31], 11
+	QUAD $0x0c1e2e4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + r13 + 30], 12
+	QUAD $0x0c1f2e7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + r13 + 31], 12
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0d1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 13
+	QUAD $0x0d1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0e1e064c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rax + 30], 14
+	QUAD $0x0e1f067c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rax + 31], 14
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x0f1e1e4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rsi + rbx + 30], 15
+	QUAD $0x0f1f1e7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rsi + rbx + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	LONG $0x6f7dc1c4; BYTE $0xd2               // vmovdqa    ymm2, ymm10
+	QUAD $0x000240248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 576]
+	LONG $0xc1deadc5                           // vpmaxub    ymm0, ymm10, ymm1
+	LONG $0xc074f5c5                           // vpcmpeqb    ymm0, ymm1, ymm0
+	LONG $0x756ffdc5; BYTE $0x00               // vmovdqa    ymm6, yword 0[rbp] /* [rip + .LCPI10_0] */
+	LONG $0xc6dbfdc5                           // vpand    ymm0, ymm0, ymm6
+	QUAD $0x0005002484f8fdc5; BYTE $0x00       // vpsubb    ymm0, ymm0, yword [rsp + 1280]
+	QUAD $0x0001e0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 480]
+	LONG $0xf9deadc5                           // vpmaxub    ymm7, ymm10, ymm1
+	LONG $0xff74f5c5                           // vpcmpeqb    ymm7, ymm1, ymm7
+	QUAD $0x0001c0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 448]
+	LONG $0xe1de2dc5                           // vpmaxub    ymm12, ymm10, ymm1
+	LONG $0xe1741dc5                           // vpcmpeqb    ymm12, ymm12, ymm1
+	LONG $0x456f7dc5; BYTE $0x20               // vmovdqa    ymm8, yword 32[rbp] /* [rip + .LCPI10_1] */
+	LONG $0xffdbbdc5                           // vpand    ymm7, ymm8, ymm7
+	LONG $0x656ffdc5; BYTE $0x40               // vmovdqa    ymm4, yword 64[rbp] /* [rip + .LCPI10_2] */
+	LONG $0xe4db1dc5                           // vpand    ymm12, ymm12, ymm4
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	LONG $0xde0dc1c4; BYTE $0xfa               // vpmaxub    ymm7, ymm14, ymm10
+	LONG $0xff748dc5                           // vpcmpeqb    ymm7, ymm14, ymm7
+	LONG $0xde0541c4; BYTE $0xe2               // vpmaxub    ymm12, ymm15, ymm10
+	LONG $0x740541c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm15, ymm12
+	LONG $0x6d6ffdc5; BYTE $0x60               // vmovdqa    ymm5, yword 96[rbp] /* [rip + .LCPI10_3] */
+	LONG $0xfddbc5c5                           // vpand    ymm7, ymm7, ymm5
+	QUAD $0x000000808d6ffdc5                   // vmovdqa    ymm1, yword 128[rbp] /* [rip + .LCPI10_4] */
+	LONG $0xe1db1dc5                           // vpand    ymm12, ymm12, ymm1
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x00022024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 544]
+	LONG $0xde0d41c4; BYTE $0xe2               // vpmaxub    ymm12, ymm14, ymm10
+	LONG $0x740d41c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm14, ymm12
+	QUAD $0x000000a09d6ffdc5                   // vmovdqa    ymm3, yword 160[rbp] /* [rip + .LCPI10_5] */
+	LONG $0xe3db1dc5                           // vpand    ymm12, ymm12, ymm3
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	QUAD $0x0004e024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1248]
+	LONG $0xde1dc1c4; BYTE $0xfa               // vpmaxub    ymm7, ymm12, ymm10
+	LONG $0xff749dc5                           // vpcmpeqb    ymm7, ymm12, ymm7
+	QUAD $0x000000c0ad6f7dc5                   // vmovdqa    ymm13, yword 192[rbp] /* [rip + .LCPI10_6] */
+	LONG $0xffdb95c5                           // vpand    ymm7, ymm13, ymm7
+	LONG $0xd7eb7dc5                           // vpor    ymm10, ymm0, ymm7
+	QUAD $0x0004a024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1184]
+	LONG $0xfade9dc5                           // vpmaxub    ymm7, ymm12, ymm2
+	LONG $0xff749dc5                           // vpcmpeqb    ymm7, ymm12, ymm7
+	LONG $0xfedbc5c5                           // vpand    ymm7, ymm7, ymm6
+	QUAD $0x0004c024bcf8c5c5; BYTE $0x00       // vpsubb    ymm7, ymm7, yword [rsp + 1216]
+	QUAD $0x00048024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1152]
+	LONG $0xe2de0dc5                           // vpmaxub    ymm12, ymm14, ymm2
+	LONG $0x740d41c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm14, ymm12
+	QUAD $0x00046024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1120]
+	LONG $0xfade0dc5                           // vpmaxub    ymm15, ymm14, ymm2
+	LONG $0x740d41c4; BYTE $0xff               // vpcmpeqb    ymm15, ymm14, ymm15
+	LONG $0xdb1d41c4; BYTE $0xe0               // vpand    ymm12, ymm12, ymm8
+	LONG $0xfcdb05c5                           // vpand    ymm15, ymm15, ymm4
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x00044024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1088]
+	LONG $0xe2de0dc5                           // vpmaxub    ymm12, ymm14, ymm2
+	LONG $0x740d41c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm14, ymm12
+	QUAD $0x00042024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1056]
+	LONG $0xfade0dc5                           // vpmaxub    ymm15, ymm14, ymm2
+	LONG $0x740d41c4; BYTE $0xff               // vpcmpeqb    ymm15, ymm14, ymm15
+	LONG $0xe5db1dc5                           // vpand    ymm12, ymm12, ymm5
+	LONG $0xf9db05c5                           // vpand    ymm15, ymm15, ymm1
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	QUAD $0x0003c024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 960]
+	LONG $0xfade0dc5                           // vpmaxub    ymm15, ymm14, ymm2
+	LONG $0x740d41c4; BYTE $0xff               // vpcmpeqb    ymm15, ymm14, ymm15
+	LONG $0xfbdb05c5                           // vpand    ymm15, ymm15, ymm3
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x0003e024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 992]
+	LONG $0xe2de0dc5                           // vpmaxub    ymm12, ymm14, ymm2
+	LONG $0x740d41c4; BYTE $0xe4               // vpcmpeqb    ymm12, ymm14, ymm12
+	LONG $0xdb1d41c4; BYTE $0xe5               // vpand    ymm12, ymm12, ymm13
+	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
+	QUAD $0x0003a024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 928]
+	LONG $0xfade8dc5                           // vpmaxub    ymm7, ymm14, ymm2
+	LONG $0xff748dc5                           // vpcmpeqb    ymm7, ymm14, ymm7
+	LONG $0xfedbc5c5                           // vpand    ymm7, ymm7, ymm6
+	QUAD $0x00040024bcf8c5c5; BYTE $0x00       // vpsubb    ymm7, ymm7, yword [rsp + 1024]
+	QUAD $0x00036024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 864]
+	LONG $0xfade7dc5                           // vpmaxub    ymm15, ymm0, ymm2
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	QUAD $0x00038024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 896]
+	LONG $0xf2de7dc5                           // vpmaxub    ymm14, ymm0, ymm2
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	LONG $0xdb0541c4; BYTE $0xf8               // vpand    ymm15, ymm15, ymm8
+	LONG $0xf4db0dc5                           // vpand    ymm14, ymm14, ymm4
+	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
+	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
+	LONG $0xf2de25c5                           // vpmaxub    ymm14, ymm11, ymm2
+	LONG $0x742541c4; BYTE $0xde               // vpcmpeqb    ymm11, ymm11, ymm14
+	QUAD $0x00034024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 832]
+	LONG $0xf2de7dc5                           // vpmaxub    ymm14, ymm0, ymm2
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	LONG $0xfd6f7dc5                           // vmovdqa    ymm15, ymm5
+	LONG $0xdddb25c5                           // vpand    ymm11, ymm11, ymm5
+	LONG $0xf1db0dc5                           // vpand    ymm14, ymm14, ymm1
+	LONG $0xeb2541c4; BYTE $0xde               // vpor    ymm11, ymm11, ymm14
+	LONG $0xf2de35c5                           // vpmaxub    ymm14, ymm9, ymm2
+	LONG $0x743541c4; BYTE $0xce               // vpcmpeqb    ymm9, ymm9, ymm14
+	LONG $0xf36f7dc5                           // vmovdqa    ymm14, ymm3
+	LONG $0xcbdb35c5                           // vpand    ymm9, ymm9, ymm3
+	LONG $0xeb2541c4; BYTE $0xc9               // vpor    ymm9, ymm11, ymm9
+	LONG $0xffebb5c5                           // vpor    ymm7, ymm9, ymm7
+	QUAD $0x00032024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 800]
+	LONG $0xcade7dc5                           // vpmaxub    ymm9, ymm0, ymm2
+	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
+	LONG $0xdb3541c4; BYTE $0xcd               // vpand    ymm9, ymm9, ymm13
+	LONG $0xffebb5c5                           // vpor    ymm7, ymm9, ymm7
+	QUAD $0x0001a024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 416]
+	LONG $0xcade7dc5                           // vpmaxub    ymm9, ymm0, ymm2
+	LONG $0xc07435c5                           // vpcmpeqb    ymm8, ymm9, ymm0
+	LONG $0xc6db3dc5                           // vpand    ymm8, ymm8, ymm6
+	QUAD $0x0003002484f83dc5; BYTE $0x00       // vpsubb    ymm8, ymm8, yword [rsp + 768]
+	QUAD $0x00028024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 640]
+	LONG $0xcade7dc5                           // vpmaxub    ymm9, ymm0, ymm2
+	LONG $0xe874b5c5                           // vpcmpeqb    ymm5, ymm9, ymm0
+	QUAD $0x0002a024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 672]
+	LONG $0xcade7dc5                           // vpmaxub    ymm9, ymm0, ymm2
+	LONG $0xf074b5c5                           // vpcmpeqb    ymm6, ymm9, ymm0
+	LONG $0x6ddbd5c5; BYTE $0x20               // vpand    ymm5, ymm5, yword 32[rbp] /* [rip + .LCPI10_1] */
+	LONG $0xf4dbcdc5                           // vpand    ymm6, ymm6, ymm4
+	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
+	LONG $0xedebbdc5                           // vpor    ymm5, ymm8, ymm5
+	QUAD $0x0002e024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 736]
+	LONG $0xf2defdc5                           // vpmaxub    ymm6, ymm0, ymm2
+	LONG $0xde74fdc5                           // vpcmpeqb    ymm3, ymm0, ymm6
+	QUAD $0x0002c024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 704]
+	LONG $0xf2defdc5                           // vpmaxub    ymm6, ymm0, ymm2
+	LONG $0xe674fdc5                           // vpcmpeqb    ymm4, ymm0, ymm6
+	LONG $0xdbdb85c5                           // vpand    ymm3, ymm15, ymm3
+	LONG $0xe1dbddc5                           // vpand    ymm4, ymm4, ymm1
+	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
+	QUAD $0x00014024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 320]
+	LONG $0xe2defdc5                           // vpmaxub    ymm4, ymm0, ymm2
+	LONG $0xcc74fdc5                           // vpcmpeqb    ymm1, ymm0, ymm4
+	LONG $0xc9db8dc5                           // vpand    ymm1, ymm14, ymm1
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	LONG $0xc9ebd5c5                           // vpor    ymm1, ymm5, ymm1
+	QUAD $0x00012024846ffdc5; BYTE $0x00       // vmovdqa    ymm0, yword [rsp + 288]
+	LONG $0xdadefdc5                           // vpmaxub    ymm3, ymm0, ymm2
+	LONG $0xd374fdc5                           // vpcmpeqb    ymm2, ymm0, ymm3
+	LONG $0xd2db95c5                           // vpand    ymm2, ymm13, ymm2
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0x602dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm10, ymm12
+	LONG $0x682dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm10, ymm12
+	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
+	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
+	LONG $0x7f7ec1c4; WORD $0x8b44; BYTE $0x60 // vmovdqu    yword [r11 + 4*rcx + 96], ymm0
+	LONG $0x7f7ec1c4; WORD $0x8b54; BYTE $0x40 // vmovdqu    yword [r11 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8b64; BYTE $0x20 // vmovdqu    yword [r11 + 4*rcx + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x8b0c             // vmovdqu    yword [r11 + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
+	JNE  LBB10_186
+	QUAD $0x0000017024bc8b4c                   // mov    r15, qword [rsp + 368]
+	QUAD $0x0000018024bc3b4c                   // cmp    r15, qword [rsp + 384]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	LONG $0x24748b44; BYTE $0x1c               // mov    r14d, dword [rsp + 28]
+	QUAD $0x0000021824a48b4c                   // mov    r12, qword [rsp + 536]
+	JNE  LBB10_89
+	JMP  LBB10_122
+
+DATA LCDATA8<>+0x000(SB)/8, $0x0202020202020202
+DATA LCDATA8<>+0x008(SB)/8, $0x0202020202020202
+DATA LCDATA8<>+0x010(SB)/8, $0x0202020202020202
+DATA LCDATA8<>+0x018(SB)/8, $0x0202020202020202
+DATA LCDATA8<>+0x020(SB)/8, $0x0404040404040404
+DATA LCDATA8<>+0x028(SB)/8, $0x0404040404040404
+DATA LCDATA8<>+0x030(SB)/8, $0x0404040404040404
+DATA LCDATA8<>+0x038(SB)/8, $0x0404040404040404
+DATA LCDATA8<>+0x040(SB)/8, $0x0808080808080808
+DATA LCDATA8<>+0x048(SB)/8, $0x0808080808080808
+DATA LCDATA8<>+0x050(SB)/8, $0x0808080808080808
+DATA LCDATA8<>+0x058(SB)/8, $0x0808080808080808
+DATA LCDATA8<>+0x060(SB)/8, $0x1010101010101010
+DATA LCDATA8<>+0x068(SB)/8, $0x1010101010101010
+DATA LCDATA8<>+0x070(SB)/8, $0x1010101010101010
+DATA LCDATA8<>+0x078(SB)/8, $0x1010101010101010
+DATA LCDATA8<>+0x080(SB)/8, $0x2020202020202020
+DATA LCDATA8<>+0x088(SB)/8, $0x2020202020202020
+DATA LCDATA8<>+0x090(SB)/8, $0x2020202020202020
+DATA LCDATA8<>+0x098(SB)/8, $0x2020202020202020
+DATA LCDATA8<>+0x0a0(SB)/8, $0x4040404040404040
+DATA LCDATA8<>+0x0a8(SB)/8, $0x4040404040404040
+DATA LCDATA8<>+0x0b0(SB)/8, $0x4040404040404040
+DATA LCDATA8<>+0x0b8(SB)/8, $0x4040404040404040
+DATA LCDATA8<>+0x0c0(SB)/8, $0x8080808080808080
+DATA LCDATA8<>+0x0c8(SB)/8, $0x8080808080808080
+DATA LCDATA8<>+0x0d0(SB)/8, $0x8080808080808080
+DATA LCDATA8<>+0x0d8(SB)/8, $0x8080808080808080
+DATA LCDATA8<>+0x0e0(SB)/8, $0xffffffffffffffff
+DATA LCDATA8<>+0x0e8(SB)/8, $0xffffffffffffffff
+DATA LCDATA8<>+0x0f0(SB)/8, $0xffffffffffffffff
+DATA LCDATA8<>+0x0f8(SB)/8, $0xffffffffffffffff
+GLOBL LCDATA8<>(SB), 8, $256
+
+TEXT ·_comparison_greater_equal_scalar_arr_avx2(SB), $1320-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $32, SP
+	ANDQ $-32, SP
+	MOVQ BP, 1280(SP)
+	LEAQ LCDATA8<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	WORD $0x8949; BYTE $0xcf // mov    r15, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB11_26
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB11_2
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB11_99
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB11_114
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB11_185
+	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_17
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_15:
+	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
+	LONG $0xffd68040                           // adc    sil, -1
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
+	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB11_15
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB11_17:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB11_21
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+
+LBB11_19:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
+	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
+	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
+	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
+	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
+	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
+	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
+	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
+	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
+	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
+	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
+	LONG $0xd6930f40                           // setae    sil
+	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
+	LONG $0xd4930f41                           // setae    r12b
+	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
+	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
+	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x70244402                           // add    al, byte [rsp + 112]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x80ea8348                           // sub    rdx, -128
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB11_19
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+
+LBB11_21:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB11_185
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB11_130
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB11_24
+
+LBB11_26:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB11_27
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB11_149
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB11_164
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB11_185
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0610fbc5         // vmovsd    xmm0, qword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_49
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_47:
+	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
+	LONG $0xffd68040             // adc    sil, -1
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2040; BYTE $0xf3     // and    bl, sil
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB11_47
+	LONG $0x01c78349             // add    r15, 1
+
+LBB11_49:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB11_53
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
+
+LBB11_51:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0x022ef9c5                           // vucomisd    xmm0, qword [rdx]
+	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
+	LONG $0x422ef9c5; BYTE $0x08               // vucomisd    xmm0, qword [rdx + 8]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x422ef9c5; BYTE $0x10               // vucomisd    xmm0, qword [rdx + 16]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x422ef9c5; BYTE $0x18               // vucomisd    xmm0, qword [rdx + 24]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x422ef9c5; BYTE $0x20               // vucomisd    xmm0, qword [rdx + 32]
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x422ef9c5; BYTE $0x28               // vucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	LONG $0x422ef9c5; BYTE $0x30               // vucomisd    xmm0, qword [rdx + 48]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x422ef9c5; BYTE $0x38               // vucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x422ef9c5; BYTE $0x40               // vucomisd    xmm0, qword [rdx + 64]
+	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
+	LONG $0x422ef9c5; BYTE $0x48               // vucomisd    xmm0, qword [rdx + 72]
+	LONG $0xd6930f40                           // setae    sil
+	LONG $0x422ef9c5; BYTE $0x50               // vucomisd    xmm0, qword [rdx + 80]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x422ef9c5; BYTE $0x58               // vucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x422ef9c5; BYTE $0x60               // vucomisd    xmm0, qword [rdx + 96]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x422ef9c5; BYTE $0x68               // vucomisd    xmm0, qword [rdx + 104]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x422ef9c5; BYTE $0x70               // vucomisd    xmm0, qword [rdx + 112]
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x422ef9c5; BYTE $0x78               // vucomisd    xmm0, qword [rdx + 120]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	QUAD $0x00000080822ef9c5                   // vucomisd    xmm0, qword [rdx + 128]
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	QUAD $0x00000088822ef9c5                   // vucomisd    xmm0, qword [rdx + 136]
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	QUAD $0x00000090822ef9c5                   // vucomisd    xmm0, qword [rdx + 144]
+	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
+	QUAD $0x00000098822ef9c5                   // vucomisd    xmm0, qword [rdx + 152]
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	QUAD $0x000000a0822ef9c5                   // vucomisd    xmm0, qword [rdx + 160]
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	QUAD $0x000000a8822ef9c5                   // vucomisd    xmm0, qword [rdx + 168]
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	QUAD $0x000000b0822ef9c5                   // vucomisd    xmm0, qword [rdx + 176]
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	QUAD $0x000000b8822ef9c5                   // vucomisd    xmm0, qword [rdx + 184]
+	LONG $0xd6930f41                           // setae    r14b
+	QUAD $0x000000c0822ef9c5                   // vucomisd    xmm0, qword [rdx + 192]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	QUAD $0x000000c8822ef9c5                   // vucomisd    xmm0, qword [rdx + 200]
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	QUAD $0x000000d0822ef9c5                   // vucomisd    xmm0, qword [rdx + 208]
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	QUAD $0x000000d8822ef9c5                   // vucomisd    xmm0, qword [rdx + 216]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	QUAD $0x000000e0822ef9c5                   // vucomisd    xmm0, qword [rdx + 224]
+	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
+	QUAD $0x000000e8822ef9c5                   // vucomisd    xmm0, qword [rdx + 232]
+	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
+	QUAD $0x000000f0822ef9c5                   // vucomisd    xmm0, qword [rdx + 240]
+	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
+	QUAD $0x000000f8822ef9c5                   // vucomisd    xmm0, qword [rdx + 248]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x000000a8248c0244                   // add    r9b, byte [rsp + 168]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e4c041                           // shl    r12b, 7
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x0000008824b40240                   // add    sil, byte [rsp + 136]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x03e0c041                           // shl    r8b, 3
+	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
+	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
+	LONG $0x05e7c041                           // shl    r15b, 5
+	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
+	QUAD $0x0000009024b4b60f                   // movzx    esi, byte [rsp + 144]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
+	WORD $0xdb00                               // add    bl, bl
+	LONG $0x48245c02                           // add    bl, byte [rsp + 72]
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x78               // movzx    ebx, byte [rsp + 120]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
+	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
+	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
+	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
+	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
+	JNE  LBB11_51
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+
+LBB11_53:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB11_185
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB11_179
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB11_181
+
+LBB11_2:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB11_56
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB11_185
+	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_8
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_6:
+	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB11_6
+	LONG $0x01c78349             // add    r15, 1
+
+LBB11_8:
+	LONG $0x05fec149             // sar    r14, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB11_9
+	LONG $0x20fe8349             // cmp    r14, 32
+	LONG $0x245c8944; BYTE $0x1c // mov    dword [rsp + 28], r11d
+	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
+	QUAD $0x0000016024b4894c     // mov    qword [rsp + 352], r14
+	JB   LBB11_82
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
+	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
+	JAE  LBB11_85
+	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
+	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
+	JAE  LBB11_85
+
+LBB11_82:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x000001a024848948 // mov    qword [rsp + 416], rax
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+
+LBB11_88:
+	QUAD $0x000001a024b42b4c // sub    r14, qword [rsp + 416]
+	QUAD $0x000000b024b4894c // mov    qword [rsp + 176], r14
+
+LBB11_89:
+	LONG $0x1f5a3a44                           // cmp    r11b, byte [rdx + 31]
+	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
+	LONG $0x1e5a3a44                           // cmp    r11b, byte [rdx + 30]
+	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
+	LONG $0x1d5a3a44                           // cmp    r11b, byte [rdx + 29]
+	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
+	LONG $0x1c5a3a44                           // cmp    r11b, byte [rdx + 28]
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0x1b5a3a44                           // cmp    r11b, byte [rdx + 27]
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	LONG $0x1a5a3a44                           // cmp    r11b, byte [rdx + 26]
+	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
+	LONG $0x195a3a44                           // cmp    r11b, byte [rdx + 25]
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0x175a3a44                           // cmp    r11b, byte [rdx + 23]
+	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
+	LONG $0x165a3a44                           // cmp    r11b, byte [rdx + 22]
+	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
+	LONG $0x155a3a44                           // cmp    r11b, byte [rdx + 21]
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x145a3a44                           // cmp    r11b, byte [rdx + 20]
+	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
+	LONG $0x135a3a44                           // cmp    r11b, byte [rdx + 19]
+	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
+	LONG $0x125a3a44                           // cmp    r11b, byte [rdx + 18]
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	LONG $0x115a3a44                           // cmp    r11b, byte [rdx + 17]
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	LONG $0x0f5a3a44                           // cmp    r11b, byte [rdx + 15]
+	LONG $0xd69d0f41                           // setge    r14b
+	LONG $0x0e5a3a44                           // cmp    r11b, byte [rdx + 14]
+	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
+	LONG $0x0d5a3a44                           // cmp    r11b, byte [rdx + 13]
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0x0c5a3a44                           // cmp    r11b, byte [rdx + 12]
+	LONG $0xd49d0f41                           // setge    r12b
+	LONG $0x0b5a3a44                           // cmp    r11b, byte [rdx + 11]
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x0a5a3a44                           // cmp    r11b, byte [rdx + 10]
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
+	LONG $0xd09d0f41                           // setge    r8b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
+	LONG $0xd69d0f40                           // setge    sil
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
+	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x023a                               // cmp    al, byte [rdx]
+	QUAD $0x0000009824949d0f                   // setge    byte [rsp + 152]
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
+	LONG $0x246c8b44; BYTE $0x1c               // mov    r13d, dword [rsp + 28]
+	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	QUAD $0x000000a824949d0f                   // setge    byte [rsp + 168]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
+	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	WORD $0xc000                               // add    al, al
+	LONG $0x98248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 152]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xc108                               // or    cl, al
+	LONG $0x03e6c040                           // shl    sil, 3
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	LONG $0x04e0c041                           // shl    r8b, 4
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x05e1c041                           // shl    r9b, 5
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0844; BYTE $0xcf                   // or    dil, r9b
+	LONG $0x007d8841                           // mov    byte [r13], dil
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	QUAD $0x000000a824940244                   // add    r10b, byte [rsp + 168]
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
+	LONG $0x04e4c041                           // shl    r12b, 4
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xce                   // or    r14b, cl
+	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
+	LONG $0x01758845                           // mov    byte [r13 + 1], r14b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xc000                               // add    al, al
+	LONG $0x68244402                           // add    al, byte [rsp + 104]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02458841                           // mov    byte [r13 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x60244402                           // add    al, byte [rsp + 96]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	QUAD $0x000001102484b60f                   // movzx    eax, byte [rsp + 272]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03458841                           // mov    byte [r13 + 3], al
+	LONG $0x20c28348                           // add    rdx, 32
+	LONG $0x04c58349                           // add    r13, 4
+	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
+	JNE  LBB11_89
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
+	JMP  LBB11_91
+
+LBB11_27:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB11_132
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB11_185
+	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_33
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_31:
+	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
+	LONG $0xffd68040                           // adc    sil, -1
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
+	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB11_31
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB11_33:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB11_37
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+
+LBB11_35:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
+	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
+	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
+	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
+	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
+	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
+	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
+	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
+	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
+	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
+	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
+	LONG $0xd6930f40                           // setae    sil
+	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
+	LONG $0xd4930f41                           // setae    r12b
+	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
+	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
+	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x70244402                           // add    al, byte [rsp + 112]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB11_35
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+
+LBB11_37:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB11_185
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB11_147
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB11_40
+
+LBB11_99:
+	LONG $0x36b70f44         // movzx    r14d, word [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_103
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_101:
+	LONG $0x323b4466                           // cmp    r14w, word [rdx]
+	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
+	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
+	LONG $0xffd68040                           // adc    sil, -1
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
+	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB11_101
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB11_103:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB11_107
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+
+LBB11_105:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0x723b4466; BYTE $0x3e               // cmp    r14w, word [rdx + 62]
+	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
+	LONG $0x723b4466; BYTE $0x3c               // cmp    r14w, word [rdx + 60]
+	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
+	LONG $0x723b4466; BYTE $0x3a               // cmp    r14w, word [rdx + 58]
+	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
+	LONG $0x723b4466; BYTE $0x38               // cmp    r14w, word [rdx + 56]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x723b4466; BYTE $0x36               // cmp    r14w, word [rdx + 54]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0x723b4466; BYTE $0x34               // cmp    r14w, word [rdx + 52]
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	LONG $0x723b4466; BYTE $0x32               // cmp    r14w, word [rdx + 50]
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0x723b4466; BYTE $0x2e               // cmp    r14w, word [rdx + 46]
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	LONG $0x723b4466; BYTE $0x2c               // cmp    r14w, word [rdx + 44]
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x723b4466; BYTE $0x2a               // cmp    r14w, word [rdx + 42]
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	LONG $0x723b4466; BYTE $0x28               // cmp    r14w, word [rdx + 40]
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x723b4466; BYTE $0x26               // cmp    r14w, word [rdx + 38]
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	LONG $0x723b4466; BYTE $0x24               // cmp    r14w, word [rdx + 36]
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	LONG $0x723b4466; BYTE $0x22               // cmp    r14w, word [rdx + 34]
+	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
+	LONG $0x723b4466; BYTE $0x1e               // cmp    r14w, word [rdx + 30]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x723b4466; BYTE $0x1c               // cmp    r14w, word [rdx + 28]
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x723b4466; BYTE $0x1a               // cmp    r14w, word [rdx + 26]
+	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
+	LONG $0x723b4466; BYTE $0x18               // cmp    r14w, word [rdx + 24]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x723b4466; BYTE $0x16               // cmp    r14w, word [rdx + 22]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x723b4466; BYTE $0x14               // cmp    r14w, word [rdx + 20]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x723b4466; BYTE $0x12               // cmp    r14w, word [rdx + 18]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x723b4466; BYTE $0x0e               // cmp    r14w, word [rdx + 14]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x723b4466; BYTE $0x0c               // cmp    r14w, word [rdx + 12]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x723b4466; BYTE $0x0a               // cmp    r14w, word [rdx + 10]
+	LONG $0xd6930f40                           // setae    sil
+	LONG $0x723b4466; BYTE $0x08               // cmp    r14w, word [rdx + 8]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x723b4466; BYTE $0x06               // cmp    r14w, word [rdx + 6]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x723b4466; BYTE $0x04               // cmp    r14w, word [rdx + 4]
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x323b4466                           // cmp    r14w, word [rdx]
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x723b4466; BYTE $0x02               // cmp    r14w, word [rdx + 2]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x723b4466; BYTE $0x10               // cmp    r14w, word [rdx + 16]
+	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
+	LONG $0x723b4466; BYTE $0x20               // cmp    r14w, word [rdx + 32]
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x723b4466; BYTE $0x30               // cmp    r14w, word [rdx + 48]
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x70244402                           // add    al, byte [rsp + 112]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x40c28348                           // add    rdx, 64
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB11_105
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+
+LBB11_107:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB11_185
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB11_112
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB11_110
+
+LBB11_114:
+	LONG $0x36b70f44         // movzx    r14d, word [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_118
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_116:
+	LONG $0x323b4466                           // cmp    r14w, word [rdx]
+	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB11_116
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB11_118:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB11_122
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+
+LBB11_120:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0x723b4466; BYTE $0x3e               // cmp    r14w, word [rdx + 62]
+	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
+	LONG $0x723b4466; BYTE $0x3c               // cmp    r14w, word [rdx + 60]
+	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
+	LONG $0x723b4466; BYTE $0x3a               // cmp    r14w, word [rdx + 58]
+	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
+	LONG $0x723b4466; BYTE $0x38               // cmp    r14w, word [rdx + 56]
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0x723b4466; BYTE $0x36               // cmp    r14w, word [rdx + 54]
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	LONG $0x723b4466; BYTE $0x34               // cmp    r14w, word [rdx + 52]
+	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
+	LONG $0x723b4466; BYTE $0x32               // cmp    r14w, word [rdx + 50]
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0x723b4466; BYTE $0x2e               // cmp    r14w, word [rdx + 46]
+	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
+	LONG $0x723b4466; BYTE $0x2c               // cmp    r14w, word [rdx + 44]
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0x723b4466; BYTE $0x2a               // cmp    r14w, word [rdx + 42]
+	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
+	LONG $0x723b4466; BYTE $0x28               // cmp    r14w, word [rdx + 40]
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x723b4466; BYTE $0x26               // cmp    r14w, word [rdx + 38]
+	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
+	LONG $0x723b4466; BYTE $0x24               // cmp    r14w, word [rdx + 36]
+	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
+	LONG $0x723b4466; BYTE $0x22               // cmp    r14w, word [rdx + 34]
+	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
+	LONG $0x723b4466; BYTE $0x1e               // cmp    r14w, word [rdx + 30]
+	LONG $0xd09d0f41                           // setge    r8b
+	LONG $0x723b4466; BYTE $0x1c               // cmp    r14w, word [rdx + 28]
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	LONG $0x723b4466; BYTE $0x1a               // cmp    r14w, word [rdx + 26]
+	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
+	LONG $0x723b4466; BYTE $0x18               // cmp    r14w, word [rdx + 24]
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x723b4466; BYTE $0x16               // cmp    r14w, word [rdx + 22]
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x723b4466; BYTE $0x14               // cmp    r14w, word [rdx + 20]
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x723b4466; BYTE $0x12               // cmp    r14w, word [rdx + 18]
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x723b4466; BYTE $0x0e               // cmp    r14w, word [rdx + 14]
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	LONG $0x723b4466; BYTE $0x0c               // cmp    r14w, word [rdx + 12]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	LONG $0x723b4466; BYTE $0x0a               // cmp    r14w, word [rdx + 10]
+	LONG $0xd69d0f40                           // setge    sil
+	LONG $0x723b4466; BYTE $0x08               // cmp    r14w, word [rdx + 8]
+	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
+	LONG $0x723b4466; BYTE $0x06               // cmp    r14w, word [rdx + 6]
+	LONG $0xd59d0f41                           // setge    r13b
+	LONG $0x723b4466; BYTE $0x04               // cmp    r14w, word [rdx + 4]
+	LONG $0xd49d0f41                           // setge    r12b
+	LONG $0x323b4466                           // cmp    r14w, word [rdx]
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	LONG $0x723b4466; BYTE $0x02               // cmp    r14w, word [rdx + 2]
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x723b4466; BYTE $0x10               // cmp    r14w, word [rdx + 16]
+	QUAD $0x000000a824949d0f                   // setge    byte [rsp + 168]
+	LONG $0x723b4466; BYTE $0x20               // cmp    r14w, word [rdx + 32]
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0x723b4466; BYTE $0x30               // cmp    r14w, word [rdx + 48]
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x70244402                           // add    al, byte [rsp + 112]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x40c28348                           // add    rdx, 64
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB11_120
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+
+LBB11_122:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB11_185
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB11_128
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB11_125
+
+LBB11_149:
+	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_153
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_151:
+	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB11_151
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB11_153:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB11_157
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+
+LBB11_155:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
+	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
+	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
+	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
+	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
+	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
+	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
+	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
+	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
+	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
+	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
+	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
+	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
+	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
+	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
+	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
+	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
+	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
+	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
+	LONG $0xd09d0f41                           // setge    r8b
+	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
+	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
+	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
+	LONG $0xd69d0f40                           // setge    sil
+	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
+	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
+	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
+	LONG $0xd59d0f41                           // setge    r13b
+	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
+	LONG $0xd49d0f41                           // setge    r12b
+	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
+	QUAD $0x000000a824949d0f                   // setge    byte [rsp + 168]
+	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x70244402                           // add    al, byte [rsp + 112]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB11_155
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+
+LBB11_157:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB11_185
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB11_162
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB11_160
+
+LBB11_164:
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x0610fac5         // vmovss    xmm0, dword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_168
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_166:
+	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
+	LONG $0xffd68040             // adc    sil, -1
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2040; BYTE $0xf3     // and    bl, sil
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB11_166
+	LONG $0x01c78349             // add    r15, 1
+
+LBB11_168:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB11_172
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+	QUAD $0x000000a0249c894c // mov    qword [rsp + 160], r11
+
+LBB11_170:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0x022ef8c5                           // vucomiss    xmm0, dword [rdx]
+	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
+	LONG $0x422ef8c5; BYTE $0x04               // vucomiss    xmm0, dword [rdx + 4]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x422ef8c5; BYTE $0x08               // vucomiss    xmm0, dword [rdx + 8]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x422ef8c5; BYTE $0x0c               // vucomiss    xmm0, dword [rdx + 12]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x422ef8c5; BYTE $0x10               // vucomiss    xmm0, dword [rdx + 16]
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x422ef8c5; BYTE $0x14               // vucomiss    xmm0, dword [rdx + 20]
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	LONG $0x422ef8c5; BYTE $0x18               // vucomiss    xmm0, dword [rdx + 24]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x422ef8c5; BYTE $0x1c               // vucomiss    xmm0, dword [rdx + 28]
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x422ef8c5; BYTE $0x20               // vucomiss    xmm0, dword [rdx + 32]
+	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
+	LONG $0x422ef8c5; BYTE $0x24               // vucomiss    xmm0, dword [rdx + 36]
+	LONG $0xd6930f40                           // setae    sil
+	LONG $0x422ef8c5; BYTE $0x28               // vucomiss    xmm0, dword [rdx + 40]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x422ef8c5; BYTE $0x2c               // vucomiss    xmm0, dword [rdx + 44]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x422ef8c5; BYTE $0x30               // vucomiss    xmm0, dword [rdx + 48]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x422ef8c5; BYTE $0x34               // vucomiss    xmm0, dword [rdx + 52]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x422ef8c5; BYTE $0x38               // vucomiss    xmm0, dword [rdx + 56]
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x422ef8c5; BYTE $0x3c               // vucomiss    xmm0, dword [rdx + 60]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x422ef8c5; BYTE $0x40               // vucomiss    xmm0, dword [rdx + 64]
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	LONG $0x422ef8c5; BYTE $0x44               // vucomiss    xmm0, dword [rdx + 68]
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0x422ef8c5; BYTE $0x48               // vucomiss    xmm0, dword [rdx + 72]
+	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
+	LONG $0x422ef8c5; BYTE $0x4c               // vucomiss    xmm0, dword [rdx + 76]
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	LONG $0x422ef8c5; BYTE $0x50               // vucomiss    xmm0, dword [rdx + 80]
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x422ef8c5; BYTE $0x54               // vucomiss    xmm0, dword [rdx + 84]
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x422ef8c5; BYTE $0x58               // vucomiss    xmm0, dword [rdx + 88]
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	LONG $0x422ef8c5; BYTE $0x5c               // vucomiss    xmm0, dword [rdx + 92]
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x422ef8c5; BYTE $0x60               // vucomiss    xmm0, dword [rdx + 96]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x422ef8c5; BYTE $0x64               // vucomiss    xmm0, dword [rdx + 100]
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0x422ef8c5; BYTE $0x68               // vucomiss    xmm0, dword [rdx + 104]
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	LONG $0x422ef8c5; BYTE $0x6c               // vucomiss    xmm0, dword [rdx + 108]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0x422ef8c5; BYTE $0x70               // vucomiss    xmm0, dword [rdx + 112]
+	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
+	LONG $0x422ef8c5; BYTE $0x74               // vucomiss    xmm0, dword [rdx + 116]
+	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
+	LONG $0x422ef8c5; BYTE $0x78               // vucomiss    xmm0, dword [rdx + 120]
+	LONG $0x2454930f; BYTE $0x1c               // setae    byte [rsp + 28]
+	LONG $0x422ef8c5; BYTE $0x7c               // vucomiss    xmm0, dword [rdx + 124]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x000000a8248c0244                   // add    r9b, byte [rsp + 168]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e4c041                           // shl    r12b, 7
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x0000008824b40240                   // add    sil, byte [rsp + 136]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x03e0c041                           // shl    r8b, 3
+	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
+	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
+	LONG $0x05e7c041                           // shl    r15b, 5
+	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
+	QUAD $0x0000009024b4b60f                   // movzx    esi, byte [rsp + 144]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
+	WORD $0xdb00                               // add    bl, bl
+	LONG $0x48245c02                           // add    bl, byte [rsp + 72]
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x78               // movzx    ebx, byte [rsp + 120]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
+	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
+	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
+	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
+	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000140248cb60f                   // movzx    ecx, byte [rsp + 320]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x1c               // movzx    ebx, byte [rsp + 28]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
+	JNE  LBB11_170
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+
+LBB11_172:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB11_185
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB11_177
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB11_175
+
+LBB11_56:
+	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_60
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_58:
+	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
+	LONG $0xffd68040             // adc    sil, -1
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2040; BYTE $0xf3     // and    bl, sil
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB11_58
+	LONG $0x01c78349             // add    r15, 1
+
+LBB11_60:
+	LONG $0x05fec149             // sar    r14, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB11_61
+	LONG $0x20fe8349             // cmp    r14, 32
+	LONG $0x245c8944; BYTE $0x1c // mov    dword [rsp + 28], r11d
+	QUAD $0x000001182494894c     // mov    qword [rsp + 280], r10
+	QUAD $0x0000016024b4894c     // mov    qword [rsp + 352], r14
+	JB   LBB11_63
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
+	WORD $0x3949; BYTE $0xc7     // cmp    r15, rax
+	JAE  LBB11_66
+	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
+	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
+	JAE  LBB11_66
+
+LBB11_63:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000018024848948 // mov    qword [rsp + 384], rax
+	WORD $0x8948; BYTE $0xd7 // mov    rdi, rdx
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+
+LBB11_69:
+	QUAD $0x0000018024b42b4c // sub    r14, qword [rsp + 384]
+	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
+
+LBB11_70:
+	LONG $0x1f5f3a44                           // cmp    r11b, byte [rdi + 31]
+	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
+	LONG $0x1e5f3a44                           // cmp    r11b, byte [rdi + 30]
+	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
+	LONG $0x1d5f3a44                           // cmp    r11b, byte [rdi + 29]
+	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
+	LONG $0x1c5f3a44                           // cmp    r11b, byte [rdi + 28]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x1b5f3a44                           // cmp    r11b, byte [rdi + 27]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0x1a5f3a44                           // cmp    r11b, byte [rdi + 26]
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	LONG $0x195f3a44                           // cmp    r11b, byte [rdi + 25]
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0x175f3a44                           // cmp    r11b, byte [rdi + 23]
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	LONG $0x165f3a44                           // cmp    r11b, byte [rdi + 22]
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x155f3a44                           // cmp    r11b, byte [rdi + 21]
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	LONG $0x145f3a44                           // cmp    r11b, byte [rdi + 20]
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x135f3a44                           // cmp    r11b, byte [rdi + 19]
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	LONG $0x125f3a44                           // cmp    r11b, byte [rdi + 18]
+	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
+	LONG $0x115f3a44                           // cmp    r11b, byte [rdi + 17]
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0x0f5f3a44                           // cmp    r11b, byte [rdi + 15]
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x0e5f3a44                           // cmp    r11b, byte [rdi + 14]
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x0d5f3a44                           // cmp    r11b, byte [rdi + 13]
+	QUAD $0x000000882494930f                   // setae    byte [rsp + 136]
+	LONG $0x0c5f3a44                           // cmp    r11b, byte [rdi + 12]
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x0b5f3a44                           // cmp    r11b, byte [rdi + 11]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x0a5f3a44                           // cmp    r11b, byte [rdi + 10]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x473a; BYTE $0x09                   // cmp    al, byte [rdi + 9]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x473a; BYTE $0x07                   // cmp    al, byte [rdi + 7]
+	LONG $0xd6930f40                           // setae    sil
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x473a; BYTE $0x06                   // cmp    al, byte [rdi + 6]
+	QUAD $0x000000a82494930f                   // setae    byte [rsp + 168]
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x473a; BYTE $0x05                   // cmp    al, byte [rdi + 5]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x473a; BYTE $0x04                   // cmp    al, byte [rdi + 4]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x473a; BYTE $0x03                   // cmp    al, byte [rdi + 3]
+	WORD $0x930f; BYTE $0xd2                   // setae    dl
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x473a; BYTE $0x02                   // cmp    al, byte [rdi + 2]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x073a                               // cmp    al, byte [rdi]
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x1c24448b                           // mov    eax, dword [rsp + 28]
+	WORD $0x473a; BYTE $0x01                   // cmp    al, byte [rdi + 1]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
+	LONG $0x246c8b44; BYTE $0x1c               // mov    r13d, dword [rsp + 28]
+	LONG $0x086f3a44                           // cmp    r13b, byte [rdi + 8]
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5f3a; BYTE $0x10                   // cmp    bl, byte [rdi + 16]
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	LONG $0x1c245c8b                           // mov    ebx, dword [rsp + 28]
+	WORD $0x5f3a; BYTE $0x18                   // cmp    bl, byte [rdi + 24]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	WORD $0xc000                               // add    al, al
+	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xc108                               // or    cl, al
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0xca08                               // or    dl, cl
+	LONG $0x04e0c041                           // shl    r8b, 4
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	LONG $0x05e1c041                           // shl    r9b, 5
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000a82484b60f                   // movzx    eax, byte [rsp + 168]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e6c040                           // shl    sil, 7
+	WORD $0x0840; BYTE $0xc6                   // or    sil, al
+	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
+	LONG $0x00758841                           // mov    byte [r13], sil
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	QUAD $0x0000008024940244                   // add    r10b, byte [rsp + 128]
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
+	LONG $0x04e4c041                           // shl    r12b, 4
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xce                   // or    r14b, cl
+	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
+	LONG $0x01758845                           // mov    byte [r13 + 1], r14b
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xc000                               // add    al, al
+	LONG $0x48244402                           // add    al, byte [rsp + 72]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02458841                           // mov    byte [r13 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	QUAD $0x000001102484b60f                   // movzx    eax, byte [rsp + 272]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03458841                           // mov    byte [r13 + 3], al
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x04c58349                           // add    r13, 4
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB11_70
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
+	JMP  LBB11_72
+
+LBB11_132:
+	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_136
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_134:
+	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB11_134
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB11_136:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB11_140
+	QUAD $0x000001182494894c // mov    qword [rsp + 280], r10
+	QUAD $0x000000b0249c894c // mov    qword [rsp + 176], r11
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+
+LBB11_138:
+	QUAD $0x0000011024bc894c                   // mov    qword [rsp + 272], r15
+	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
+	LONG $0x24549d0f; BYTE $0x1c               // setge    byte [rsp + 28]
+	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
+	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
+	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
+	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
+	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
+	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
+	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
+	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
+	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
+	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
+	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
+	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
+	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
+	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
+	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
+	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
+	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
+	LONG $0xd09d0f41                           // setge    r8b
+	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
+	QUAD $0x0000008824949d0f                   // setge    byte [rsp + 136]
+	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
+	LONG $0xd69d0f40                           // setge    sil
+	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
+	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
+	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
+	LONG $0xd59d0f41                           // setge    r13b
+	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
+	LONG $0xd49d0f41                           // setge    r12b
+	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
+	QUAD $0x000000a824949d0f                   // setge    byte [rsp + 168]
+	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000a024bc0244                   // add    r15b, byte [rsp + 160]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000a824bc0240                   // add    dil, byte [rsp + 168]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x70244402                           // add    al, byte [rsp + 112]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000001402484b60f                   // movzx    eax, byte [rsp + 320]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x00000120249cb60f                   // movzx    ebx, byte [rsp + 288]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x1c               // movzx    eax, byte [rsp + 28]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x80ea8348                           // sub    rdx, -128
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB11_138
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+
+LBB11_140:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB11_185
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB11_145
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB11_143
+
+LBB11_9:
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+
+LBB11_91:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB11_185
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB11_94
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB11_97
+
+LBB11_61:
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+	WORD $0x8948; BYTE $0xd7 // mov    rdi, rdx
+
+LBB11_72:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB11_185
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB11_75
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+	JMP  LBB11_78
+
+LBB11_130:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB11_131:
+	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB11_131
+
+LBB11_24:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB11_185
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
+	JMP  LBB11_183
+
+LBB11_179:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB11_180:
+	LONG $0x022ef9c5             // vucomisd    xmm0, qword [rdx]
+	LONG $0x000000b8; BYTE $0x00 // mov    eax, 0
+	WORD $0xff14                 // adc    al, -1
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x422ef9c5; BYTE $0x08 // vucomisd    xmm0, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xdf     // xor    dil, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB11_180
+
+LBB11_181:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB11_185
+	WORD $0xc031     // xor    eax, eax
+	LONG $0x022ef9c5 // vucomisd    xmm0, qword [rdx]
+	JMP  LBB11_183
+
+LBB11_147:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB11_148:
+	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB11_148
+
+LBB11_40:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB11_185
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
+	JMP  LBB11_183
+
+LBB11_112:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB11_113:
+	LONG $0x323b4466             // cmp    r14w, word [rdx]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB11_113
+
+LBB11_110:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB11_185
+	WORD $0xc031     // xor    eax, eax
+	LONG $0x323b4466 // cmp    r14w, word [rdx]
+	JMP  LBB11_183
+
+LBB11_128:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB11_129:
+	LONG $0x323b4466             // cmp    r14w, word [rdx]
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd19d0f41             // setge    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB11_129
+
+LBB11_125:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB11_185
+	LONG $0x323b4466 // cmp    r14w, word [rdx]
+	JMP  LBB11_127
+
+LBB11_162:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB11_163:
+	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0xd19d0f41             // setge    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB11_163
+
+LBB11_160:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB11_185
+	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
+	JMP  LBB11_127
+
+LBB11_177:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB11_178:
+	LONG $0x022ef8c5             // vucomiss    xmm0, dword [rdx]
+	LONG $0x000000b8; BYTE $0x00 // mov    eax, 0
+	WORD $0xff14                 // adc    al, -1
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x422ef8c5; BYTE $0x04 // vucomiss    xmm0, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xdf     // xor    dil, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB11_178
+
+LBB11_175:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB11_185
+	WORD $0xc031     // xor    eax, eax
+	LONG $0x022ef8c5 // vucomiss    xmm0, dword [rdx]
+
+LBB11_183:
+	WORD $0xff14             // adc    al, -1
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	JMP  LBB11_184
+
+LBB11_145:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB11_146:
+	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd19d0f41             // setge    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB11_146
+
+LBB11_143:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB11_185
+	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
+
+LBB11_127:
+	WORD $0x9d0f; BYTE $0xd0 // setge    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
+	LONG $0x07e78040         // and    dil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf989             // mov    ecx, edi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+
+LBB11_184:
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
+
+LBB11_185:
+	MOVQ 1280(SP), SP
+	VZEROUPPER
+	RET
+
+LBB11_94:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+
+LBB11_95:
+	LONG $0x321c3a44               // cmp    r11b, byte [rdx + rsi]
+	WORD $0x9d0f; BYTE $0xd0       // setge    al
+	WORD $0xd8f6                   // neg    al
+	WORD $0x8948; BYTE $0xf7       // mov    rdi, rsi
+	LONG $0x03efc148               // shr    rdi, 3
+	WORD $0xf189                   // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06       // and    cl, 6
+	WORD $0x01b3                   // mov    bl, 1
+	WORD $0xe3d2                   // shl    bl, cl
+	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
+	WORD $0x3044; BYTE $0xc8       // xor    al, r9b
+	WORD $0xc320                   // and    bl, al
+	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
+	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
+	LONG $0x325c3a44; BYTE $0x01   // cmp    r11b, byte [rdx + rsi + 1]
+	LONG $0x02768d48               // lea    rsi, [rsi + 2]
+	LONG $0xd19d0f41               // setge    r9b
+	WORD $0xf641; BYTE $0xd9       // neg    r9b
+	WORD $0x3041; BYTE $0xd9       // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01       // or    cl, 1
+	WORD $0x01b0                   // mov    al, 1
+	WORD $0xe0d2                   // shl    al, cl
+	WORD $0x2044; BYTE $0xc8       // and    al, r9b
+	WORD $0xd830                   // xor    al, bl
+	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB11_95
+	WORD $0x0148; BYTE $0xf2       // add    rdx, rsi
+
+LBB11_97:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB11_185
+	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
+	LONG $0x07e68040             // and    sil, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8     // xor    al, dil
+	WORD $0xc320                 // and    bl, al
+	JMP  LBB11_80
+
+LBB11_75:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+
+LBB11_76:
+	WORD $0x894c; BYTE $0xc8       // mov    rax, r9
+	LONG $0x0f1c3a46               // cmp    r11b, byte [rdi + r9]
+	LONG $0x000000bb; BYTE $0x00   // mov    ebx, 0
+	WORD $0xd380; BYTE $0xff       // adc    bl, -1
+	WORD $0x894c; BYTE $0xce       // mov    rsi, r9
+	LONG $0x03eec148               // shr    rsi, 3
+	LONG $0x4cb60f45; WORD $0x0035 // movzx    r9d, byte [r13 + rsi]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06       // and    cl, 6
+	WORD $0x01b2                   // mov    dl, 1
+	WORD $0xe2d2                   // shl    dl, cl
+	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
+	WORD $0xda20                   // and    dl, bl
+	WORD $0x3044; BYTE $0xca       // xor    dl, r9b
+	LONG $0x35548841; BYTE $0x00   // mov    byte [r13 + rsi], dl
+	LONG $0x075c3a44; BYTE $0x01   // cmp    r11b, byte [rdi + rax + 1]
+	LONG $0x02488d4c               // lea    r9, [rax + 2]
+	LONG $0x000000bb; BYTE $0x00   // mov    ebx, 0
+	WORD $0xd380; BYTE $0xff       // adc    bl, -1
+	WORD $0xd330                   // xor    bl, dl
+	WORD $0xc980; BYTE $0x01       // or    cl, 1
+	WORD $0x01b0                   // mov    al, 1
+	WORD $0xe0d2                   // shl    al, cl
+	WORD $0xd820                   // and    al, bl
+	WORD $0xd030                   // xor    al, dl
+	LONG $0x35448841; BYTE $0x00   // mov    byte [r13 + rsi], al
+	WORD $0x394d; BYTE $0xca       // cmp    r10, r9
+	JNE  LBB11_76
+	WORD $0x014c; BYTE $0xcf       // add    rdi, r9
+
+LBB11_78:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB11_185
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x3a44; BYTE $0x1f     // cmp    r11b, byte [rdi]
+	WORD $0xff14                 // adc    al, -1
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
+	LONG $0x07e18041             // and    r9b, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8     // xor    al, dil
+	WORD $0xc320                 // and    bl, al
+
+LBB11_80:
+	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
+	LONG $0x155c8841; BYTE $0x00 // mov    byte [r13 + rdx], bl
+	JMP  LBB11_185
+
+LBB11_85:
+	LONG $0xe0e68349                     // and    r14, -32
+	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	QUAD $0x0000016824848948             // mov    qword [rsp + 360], rax
+	QUAD $0x000001a024b4894c             // mov    qword [rsp + 416], r14
+	LONG $0xb7048d4b                     // lea    rax, [r15 + 4*r14]
+	QUAD $0x0000017024848948             // mov    qword [rsp + 368], rax
+	LONG $0x6e79c1c4; BYTE $0xc3         // vmovd    xmm0, r11d
+	LONG $0x787de2c4; BYTE $0xc0         // vpbroadcastb    ymm0, xmm0
+	QUAD $0x00018024847ffdc5; BYTE $0x00 // vmovdqa    yword [rsp + 384], ymm0
+	WORD $0xdb31                         // xor    ebx, ebx
+	QUAD $0x0000011024bc894c             // mov    qword [rsp + 272], r15
+
+LBB11_86:
+	QUAD $0x00000178249c8948                   // mov    qword [rsp + 376], rbx
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	QUAD $0x000000e824848948                   // mov    qword [rsp + 232], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	QUAD $0x000000c024848948                   // mov    qword [rsp + 192], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	QUAD $0x000000b824848948                   // mov    qword [rsp + 184], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	QUAD $0x0000010824848948                   // mov    qword [rsp + 264], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
+	LONG $0xc06ef9c5                           // vmovd    xmm0, eax
+	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x000220248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 544], xmm1
+	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
+	LONG $0x0a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rcx + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x0a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rcx + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	QUAD $0x000000f8249c8948                   // mov    qword [rsp + 248], rbx
+	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
+	LONG $0xf86e79c5                           // vmovd    xmm15, eax
+	LONG $0x0a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rcx + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
+	LONG $0xf06ef9c5                           // vmovd    xmm6, eax
+	LONG $0x0a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rcx + 6]
+	QUAD $0x000000e0248c8948                   // mov    qword [rsp + 224], rcx
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x0a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rcx + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
+	LONG $0x20ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 544
+	QUAD $0x0000009024b4894c                   // mov    qword [rsp + 144], r14
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0x40c98148; WORD $0x0002; BYTE $0x00 // or    rcx, 576
+	QUAD $0x000000b0248c8948                   // mov    qword [rsp + 176], rcx
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02600d48; WORD $0x0000             // or    rax, 608
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	QUAD $0x000000c824848948                   // mov    qword [rsp + 200], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02800d48; WORD $0x0000             // or    rax, 640
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	LONG $0xa0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 672
+	QUAD $0x000001002494894c                   // mov    qword [rsp + 256], r10
+	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
+	LONG $0xc0c98149; WORD $0x0002; BYTE $0x00 // or    r9, 704
+	QUAD $0x000000f0248c894c                   // mov    qword [rsp + 240], r9
+	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
+	LONG $0xe0cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 736
+	LONG $0x245c894c; BYTE $0x50               // mov    qword [rsp + 80], r11
+	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
+	LONG $0x00cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 768
+	QUAD $0x0000008024bc894c                   // mov    qword [rsp + 128], r15
+	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
+	LONG $0x20c88149; WORD $0x0003; BYTE $0x00 // or    r8, 800
+	LONG $0x2444894c; BYTE $0x38               // mov    qword [rsp + 56], r8
+	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
+	LONG $0x40cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 832
+	QUAD $0x0000008824a4894c                   // mov    qword [rsp + 136], r12
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x03600d48; WORD $0x0000             // or    rax, 864
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x03800d48; WORD $0x0000             // or    rax, 896
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x03a00d48; WORD $0x0000             // or    rax, 928
+	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
+	QUAD $0x000000a024848948                   // mov    qword [rsp + 160], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	LONG $0xe0cb8148; WORD $0x0003; BYTE $0x00 // or    rbx, 992
+	LONG $0x207923c4; WORD $0x320c; BYTE $0x01 // vpinsrb    xmm9, xmm0, byte [rdx + r14], 1
+	LONG $0x2031e3c4; WORD $0x0a04; BYTE $0x02 // vpinsrb    xmm0, xmm9, byte [rdx + rcx], 2
+	LONG $0x2079a3c4; WORD $0x2a04; BYTE $0x03 // vpinsrb    xmm0, xmm0, byte [rdx + r13], 3
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	LONG $0x2079e3c4; WORD $0x0a04; BYTE $0x04 // vpinsrb    xmm0, xmm0, byte [rdx + rcx], 4
+	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x05 // vpinsrb    xmm0, xmm0, byte [rdx + r10], 5
+	LONG $0x2079a3c4; WORD $0x0a04; BYTE $0x06 // vpinsrb    xmm0, xmm0, byte [rdx + r9], 6
+	LONG $0x2079a3c4; WORD $0x1a04; BYTE $0x07 // vpinsrb    xmm0, xmm0, byte [rdx + r11], 7
+	LONG $0x2079a3c4; WORD $0x3a04; BYTE $0x08 // vpinsrb    xmm0, xmm0, byte [rdx + r15], 8
+	LONG $0x2079a3c4; WORD $0x0204; BYTE $0x09 // vpinsrb    xmm0, xmm0, byte [rdx + r8], 9
+	LONG $0x2079a3c4; WORD $0x2204; BYTE $0x0a // vpinsrb    xmm0, xmm0, byte [rdx + r12], 10
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	LONG $0x2079a3c4; WORD $0x1204; BYTE $0x0b // vpinsrb    xmm0, xmm0, byte [rdx + r10], 11
+	LONG $0x2079e3c4; WORD $0x3a04; BYTE $0x0c // vpinsrb    xmm0, xmm0, byte [rdx + rdi], 12
+	LONG $0x2079e3c4; WORD $0x3204; BYTE $0x0d // vpinsrb    xmm0, xmm0, byte [rdx + rsi], 13
+	LONG $0x2079e3c4; WORD $0x0204; BYTE $0x0e // vpinsrb    xmm0, xmm0, byte [rdx + rax], 14
+	LONG $0x2079e3c4; WORD $0x1a04; BYTE $0x0f // vpinsrb    xmm0, xmm0, byte [rdx + rbx], 15
+	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
+	QUAD $0x000000a8249c8948                   // mov    qword [rsp + 168], rbx
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x01 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 1
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x02 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 3
+	QUAD $0x000000c024848b4c                   // mov    r8, qword [rsp + 192]
+	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 4
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r9], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rax], 6
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 7
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 8
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 9
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + rax], 10
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 11
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 12
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 14
+	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
+	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + r14], 15
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x01011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 1
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x02011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 2
+	QUAD $0x000000c824ac8b4c                   // mov    r13, qword [rsp + 200]
+	QUAD $0x03012a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 1], 3
+	QUAD $0x04010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 4
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x05010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 5
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x06010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 6
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x07010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 7
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x08010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0a010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 10
+	QUAD $0x0b0112642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 1], 11
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0c011a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 1], 12
+	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
+	QUAD $0x0d0112642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 1], 13
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0e010a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 1], 14
+	QUAD $0x0f0122642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 1], 15
+	QUAD $0x01011a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r11 + 1], 1
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x02010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 2
+	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
+	QUAD $0x0301226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 1], 3
+	QUAD $0x0401026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 1], 4
+	QUAD $0x05010a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 1], 5
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x06010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 6
+	QUAD $0x0701326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 1], 7
+	QUAD $0x08013a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 1], 8
+	QUAD $0x09013a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 1], 9
+	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
+	QUAD $0x0a01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e01026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 1], 14
+	LONG $0x386563c4; WORD $0x01e8             // vinserti128    ymm13, ymm3, xmm0, 1
+	QUAD $0x0f0132442051a3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + r14 + 1], 15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
+	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0004c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm0
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
+	LONG $0xd76e79c5                           // vmovd    xmm10, edi
+	QUAD $0x00022024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 544]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x01023a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 2], 1
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x020202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 2
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x030202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 3
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x040202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 4
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x050202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 5
+	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
+	QUAD $0x060202442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 2], 6
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x07020a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 2], 7
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x08021a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 2], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 11
+	QUAD $0x0c021a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 2], 12
+	QUAD $0x0d0212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 2], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 14
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0f0202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 2], 15
+	QUAD $0x000000e824948b4c                   // mov    r10, qword [rsp + 232]
+	QUAD $0x0001e0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 480]
+	QUAD $0x0102125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 2], 1
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0202025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 2
+	QUAD $0x0302225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 3
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x0402325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 2], 4
+	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
+	QUAD $0x0502225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 5
+	QUAD $0x06020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 6
+	QUAD $0x0702325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x08023a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 2], 8
+	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
+	QUAD $0x09022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 9
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0a02325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 2], 10
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x0b022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 11
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0d021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0e021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 14
+	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
+	QUAD $0x0f022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 15
+	QUAD $0x01033a642021a3c4                   // vpinsrb    xmm4, xmm11, byte [rdx + r15 + 3], 1
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x02031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 2
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x03031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 3
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x04031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 4
+	QUAD $0x00000100249c8b48                   // mov    rbx, qword [rsp + 256]
+	QUAD $0x05031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 5
+	QUAD $0x060302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 3], 6
+	QUAD $0x07030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 7
+	QUAD $0x08031a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 3], 8
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	QUAD $0x09030a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 3], 9
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x0a031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 10
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0b031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 11
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0c031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 12
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x0d032a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 3], 13
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0e031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 14
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x0f031a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 3], 15
+	QUAD $0x0103126c2039a3c4                   // vpinsrb    xmm5, xmm8, byte [rdx + r10 + 3], 1
+	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
+	QUAD $0x0203026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0303026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 3
+	QUAD $0x0403326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 4
+	QUAD $0x0503226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 3], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0603026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 6
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0703026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 7
+	QUAD $0x08033a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 3], 8
+	QUAD $0x09030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 9
+	QUAD $0x0a03326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d03026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 3], 13
+	LONG $0x3865e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm3, xmm0, 1
+	QUAD $0x00022024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm0
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e0302442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 3], 14
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
+	LONG $0xc76e79c5                           // vmovd    xmm8, edi
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0302442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 3], 15
+	LONG $0x387de3c4; WORD $0x01c4             // vinserti128    ymm0, ymm0, xmm4, 1
+	QUAD $0x0001e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm0
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
+	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
+	QUAD $0x0001c024846ff9c5; BYTE $0x00       // vmovdqa    xmm0, oword [rsp + 448]
+	QUAD $0x01043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 1
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x02043a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 4], 2
+	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
+	QUAD $0x030422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 4], 3
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x040432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 4], 4
+	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
+	QUAD $0x050402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 4], 5
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x060402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 6
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x070402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 7
+	QUAD $0x08041a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 4], 8
+	QUAD $0x09040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 10
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0b040a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 4], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 12
+	QUAD $0x0d042a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 4], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e0402442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 4], 14
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+	QUAD $0x0f0412442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 4], 15
+	QUAD $0x01041a5c2001e3c4                   // vpinsrb    xmm3, xmm15, byte [rdx + rbx + 4], 1
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x02043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 2
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x03042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 3
+	QUAD $0x0404325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 4
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0504025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x06043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 6
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x07043a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 4], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0804025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 8
+	QUAD $0x09040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 9
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0a04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 10
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0b040a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 4], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 15
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x010502642009e3c4                   // vpinsrb    xmm4, xmm14, byte [rdx + rax + 5], 1
+	QUAD $0x02053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 2
+	QUAD $0x030522642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 5], 3
+	QUAD $0x040532642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 5], 4
+	QUAD $0x050502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 5], 5
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x060502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 6
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x07053a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 5], 7
+	QUAD $0x08051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 10
+	QUAD $0x0b050a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 5], 11
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0c051a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 5], 12
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0d0532642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 5], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e0502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 5], 14
+	QUAD $0x0f0512642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 5], 15
+	QUAD $0x01051a6c2049e3c4                   // vpinsrb    xmm5, xmm6, byte [rdx + rbx + 5], 1
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0205026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 2
+	QUAD $0x03052a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 5], 3
+	QUAD $0x0405326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 4
+	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0505026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0605026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 6
+	QUAD $0x07053a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 5], 7
+	QUAD $0x000000b824b48b4c                   // mov    r14, qword [rsp + 184]
+	QUAD $0x0805326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 8
+	QUAD $0x0000010824a48b4c                   // mov    r12, qword [rsp + 264]
+	QUAD $0x0905226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 5], 9
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0a05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 10
+	QUAD $0x0b050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e05026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 5], 14
+	LONG $0x386563c4; WORD $0x01f0             // vinserti128    ymm14, ymm3, xmm0, 1
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0502442051e3c4                   // vpinsrb    xmm0, xmm5, byte [rdx + rax + 5], 15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x387d63c4; WORD $0x01fc             // vinserti128    ymm15, ymm0, xmm4, 1
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x010602442019e3c4                   // vpinsrb    xmm0, xmm12, byte [rdx + rax + 6], 1
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x020602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 2
+	QUAD $0x000000c8249c8b48                   // mov    rbx, qword [rsp + 200]
+	QUAD $0x03061a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 6], 3
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x040602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 6], 4
+	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
+	QUAD $0x050612442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 6], 5
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x060602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 6
+	QUAD $0x07063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 7
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x080602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 8
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+	QUAD $0x09063a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 6], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a0602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 6], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b060a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 6], 11
+	QUAD $0x0c061a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 6], 12
+	QUAD $0x0d0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 13
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0e0632442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 6], 14
+	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
+	QUAD $0x0f062a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 6], 15
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	QUAD $0x01061a6c2041a3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + r11 + 6], 1
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x02060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 2
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x03060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 3
+	QUAD $0x04060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 4
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x05060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x06063a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rdi + 6], 6
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
+	QUAD $0x0806326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 8
+	QUAD $0x0906226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 9
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0a060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 10
+	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
+	QUAD $0x0b06326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 11
+	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
+	QUAD $0x0c060a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 6], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 14
+	QUAD $0x0000012024a48b4c                   // mov    r12, qword [rsp + 288]
+	QUAD $0x0f06226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 6], 15
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x01070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 1
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x02070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 2
+	QUAD $0x03071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 3
+	QUAD $0x040702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 4
+	QUAD $0x050712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 5
+	QUAD $0x000000f024848b4c                   // mov    r8, qword [rsp + 240]
+	QUAD $0x060702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 6
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x07070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 7
+	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
+	QUAD $0x080712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 8
+	QUAD $0x09073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 9
+	QUAD $0x0a0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c0702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 7], 12
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x0d071a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 7], 13
+	QUAD $0x0e0732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 14
+	QUAD $0x0f072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 15
+	QUAD $0x01071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 1
+	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x0207324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 7], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0307024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 3
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
+	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
+	QUAD $0x0507224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 5
+	QUAD $0x06073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 6
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x07073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 7
+	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
+	QUAD $0x08071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 8
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	QUAD $0x09070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 9
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0a070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 10
+	QUAD $0x0b07324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 11
+	QUAD $0x0c070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 13
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0001c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm0
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e073a442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rdi + 7], 14
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x0a7cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rcx + 11]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0f070a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 7], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00020024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm0
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	LONG $0x0a7cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rcx + 11]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x01083a442031e3c4                   // vpinsrb    xmm0, xmm9, byte [rdx + rdi + 8], 1
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x02083a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 8], 2
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	QUAD $0x03083a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 8], 3
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x04080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 4
+	QUAD $0x00000100248c8b4c                   // mov    r9, qword [rsp + 256]
+	QUAD $0x05080a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 8], 5
+	QUAD $0x060802442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 8], 6
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x07080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 7
+	QUAD $0x080812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x09080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0a080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 10
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x0b0812442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 8], 11
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0c080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 12
+	QUAD $0x0d081a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 8], 13
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0e080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 14
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0f080a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 8], 15
+	QUAD $0x01082a6c2029a3c4                   // vpinsrb    xmm5, xmm10, byte [rdx + r13 + 8], 1
+	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
+	QUAD $0x0208326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 2
+	QUAD $0x0308026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 3
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x04080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 4
+	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
+	QUAD $0x0508226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 5
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0608326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 6
+	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
+	QUAD $0x0708226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 8], 7
+	QUAD $0x08081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 8
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0908026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 9
+	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
+	QUAD $0x0a081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 10
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0b081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 11
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0c081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 12
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0d081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0e081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 14
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0f081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 15
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x01091a742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rbx + 9], 1
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x02091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 2
+	QUAD $0x03093a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 9], 3
+	QUAD $0x00000098249c8b48                   // mov    rbx, qword [rsp + 152]
+	QUAD $0x04091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 4
+	QUAD $0x05090a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 9], 5
+	QUAD $0x060902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 6
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x07093a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 9], 7
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x08091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 8
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x09091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 9
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x0a091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 10
+	QUAD $0x0b0912742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 9], 11
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0c091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 12
+	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
+	QUAD $0x0d0902742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 9], 13
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0e091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 14
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x0f091a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 9], 15
+	QUAD $0x01092a7c2021a3c4                   // vpinsrb    xmm7, xmm11, byte [rdx + r13 + 9], 1
+	QUAD $0x0209327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 2
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x03091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 3
+	QUAD $0x04090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 4
+	QUAD $0x05093a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rdi + 9], 5
+	QUAD $0x0609327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 6
+	WORD $0x8949; BYTE $0xf6                   // mov    r14, rsi
+	QUAD $0x0709227c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r12 + 9], 7
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x08090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 8
+	QUAD $0x0909027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 9
+	QUAD $0x0a091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 10
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x0b091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 14
+	LONG $0x3855e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm5, xmm0, 1
+	QUAD $0x0004a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f09026c2041e3c4                   // vpinsrb    xmm5, xmm7, byte [rdx + rax + 9], 15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	LONG $0x3855e3c4; WORD $0x01ee             // vinserti128    ymm5, ymm5, xmm6, 1
+	QUAD $0x00048024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm5
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
+	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x010a2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 10], 1
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	QUAD $0x020a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 2
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x030a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 3
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	QUAD $0x040a125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 10], 4
+	QUAD $0x050a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 5
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x060a0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 10], 6
+	QUAD $0x070a3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 10], 7
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x080a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 9
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0a0a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 12
+	QUAD $0x0d0a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 14
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0f0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 15
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x010a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 1
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x020a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 2
+	QUAD $0x030a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x040a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 4
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+	QUAD $0x050a3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 10], 5
+	QUAD $0x060a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 6
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x070a1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 10], 7
+	QUAD $0x000000b824848b4c                   // mov    r8, qword [rsp + 184]
+	QUAD $0x080a02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 10], 8
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x090a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 9
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0a0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 10
+	QUAD $0x0b0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 12
+	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
+	QUAD $0x0d0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 13
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	QUAD $0x0e0a32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 10], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 15
+	QUAD $0x010b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 1
+	QUAD $0x020b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 2
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x030b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 3
+	QUAD $0x040b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 4
+	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
+	QUAD $0x050b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 5
+	QUAD $0x060b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 6
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x070b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 7
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x080b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 9
+	QUAD $0x0a0b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 12
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0d0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 13
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	QUAD $0x0e0b2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 11], 14
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x0f0b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 15
+	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
+	QUAD $0x010b0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 11], 1
+	QUAD $0x020b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x030b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 3
+	QUAD $0x040b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 4
+	QUAD $0x050b3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 11], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x060b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 6
+	QUAD $0x070b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 7
+	QUAD $0x080b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 11], 8
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	QUAD $0x090b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 9
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0a0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 12
+	QUAD $0x0d0b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000460249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm3
+	QUAD $0x0e0b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 11], 14
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x027cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rax + 13]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000440248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm1
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x027cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rax + 13]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x010c0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 12], 1
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x020c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 12], 2
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	QUAD $0x030c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 12], 3
+	QUAD $0x040c12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 12], 4
+	QUAD $0x050c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 12], 5
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x060c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 6
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x070c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 7
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x080c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 12
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0d0c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 12], 13
+	QUAD $0x0e0c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 12], 14
+	QUAD $0x0f0c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 12], 15
+	QUAD $0x010c0a542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r9 + 12], 1
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x020c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 2
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x030c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 3
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x040c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 4
+	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
+	QUAD $0x050c2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 12], 5
+	QUAD $0x000000d0248c8b4c                   // mov    r9, qword [rsp + 208]
+	QUAD $0x060c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 6
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x070c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 7
+	QUAD $0x000000b8249c8b4c                   // mov    r11, qword [rsp + 184]
+	QUAD $0x080c1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 12], 8
+	QUAD $0x090c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 9
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0a0c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 12], 10
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0b0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 11
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0c0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 12
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x0d0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 13
+	QUAD $0x0e0c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 14
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x0f0c1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 12], 15
+	QUAD $0x010d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 1
+	QUAD $0x020d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 2
+	QUAD $0x030d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 3
+	QUAD $0x040d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 4
+	QUAD $0x050d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 5
+	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
+	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
+	QUAD $0x060d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 6
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x070d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 7
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x080d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 8
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x090d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 9
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x0a0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 10
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0b0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 11
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0c0d3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 13], 12
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x0d0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 13
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0e0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 14
+	QUAD $0x000000a824a48b4c                   // mov    r12, qword [rsp + 168]
+	QUAD $0x0f0d225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 13], 15
+	QUAD $0x000000e8249c8b48                   // mov    rbx, qword [rsp + 232]
+	QUAD $0x010d1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 13], 1
+	QUAD $0x020d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 2
+	QUAD $0x030d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 3
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x040d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 4
+	QUAD $0x050d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 5
+	QUAD $0x060d0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 13], 6
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x070d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 7
+	QUAD $0x080d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 8
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	QUAD $0x090d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 9
+	QUAD $0x0a0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 13
+	QUAD $0x0e0d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 14
+	LONG $0x386de3c4; WORD $0x01c0             // vinserti128    ymm0, ymm2, xmm0, 1
+	QUAD $0x00040024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f0d02442071e3c4                   // vpinsrb    xmm0, xmm1, byte [rdx + rax + 13], 15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x387de3c4; WORD $0x01c3             // vinserti128    ymm0, ymm0, xmm3, 1
+	QUAD $0x00042024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm0
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x010e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 1
+	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
+	QUAD $0x020e0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 14], 2
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x030e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 3
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x040e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 4
+	QUAD $0x050e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 5
+	QUAD $0x000000f024ac8b4c                   // mov    r13, qword [rsp + 240]
+	QUAD $0x060e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 14], 6
+	QUAD $0x070e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 7
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x080e1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 14], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 14], 9
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x0a0e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 10
+	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
+	QUAD $0x0b0e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 14], 11
+	QUAD $0x0c0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 12
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x0d0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 13
+	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
+	QUAD $0x0e0e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 14
+	QUAD $0x0f0e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 15
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x010e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 1
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x020e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 2
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x030e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x040e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 4
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x050e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x060e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 6
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x070e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x080e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 8
+	QUAD $0x090e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 9
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0a0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 10
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0b0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 11
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x0c0e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 14], 12
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0d0e32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 14], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f0e3a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 14], 15
+	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
+	LONG $0x7cb60f42; WORD $0x0f02             // movzx    edi, byte [rdx + r8 + 15]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x010f3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 15], 1
+	QUAD $0x020f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 2
+	QUAD $0x030f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 3
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x040f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 4
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	QUAD $0x050f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 5
+	QUAD $0x060f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 15], 6
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x070f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 15], 7
+	QUAD $0x080f1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 15], 8
+	QUAD $0x090f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 9
+	QUAD $0x0a0f12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 15], 10
+	QUAD $0x0b0f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 15], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c0f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 15], 12
+	QUAD $0x0d0f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 15], 13
+	QUAD $0x0e0f32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 15], 14
+	QUAD $0x000000a8248c8b4c                   // mov    r9, qword [rsp + 168]
+	QUAD $0x0f0f0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 15], 15
+	QUAD $0x000000f8249c8b48                   // mov    rbx, qword [rsp + 248]
+	LONG $0x1a7cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rbx + 15]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	QUAD $0x010f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 1
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x020f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 2
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x030f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 3
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x040f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 4
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x050f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 5
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x060f0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 15], 6
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x070f325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 15], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x080f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 8
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x090f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 9
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0a0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b0f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 11
+	QUAD $0x0c0f225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 15], 12
+	QUAD $0x0d0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 13
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0e0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 14
+	QUAD $0x0000012024bc8b4c                   // mov    r15, qword [rsp + 288]
+	QUAD $0x0f0f3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 15], 15
+	LONG $0x387de3c4; WORD $0x01c1             // vinserti128    ymm0, ymm0, xmm1, 1
+	QUAD $0x0003c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0003e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm0
+	LONG $0x7cb60f42; WORD $0x1002             // movzx    edi, byte [rdx + r8 + 16]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x011032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 1
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x021032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 2
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x031032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 3
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x041032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 4
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x051032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 5
+	QUAD $0x06102a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 16], 6
+	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x071032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 7
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x081032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 8
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x091032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 9
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0a1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 10
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0b1032442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 16], 11
+	QUAD $0x0c1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 12
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0d1002442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 16], 13
+	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
+	QUAD $0x0e1002442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 16], 14
+	QUAD $0x0f100a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 16], 15
+	LONG $0x1a7cb60f; BYTE $0x10               // movzx    edi, byte [rdx + rbx + 16]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x01101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 1
+	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
+	QUAD $0x02100a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 16], 2
+	QUAD $0x0310124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 3
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0410024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 4
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0510024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 5
+	QUAD $0x06100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 6
+	QUAD $0x0710324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 7
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x0810324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 16], 8
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0910024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 16], 9
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x0a102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 12
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0d103a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 16], 13
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	QUAD $0x0e10324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 16], 14
+	QUAD $0x0f103a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 16], 15
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x01113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 1
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x02110a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 17], 2
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x03113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 3
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x04113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 4
+	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
+	QUAD $0x051112542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 17], 5
+	QUAD $0x061122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 6
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x071122542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 17], 7
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x08113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 9
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x0a111a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 17], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 11
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0c113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 12
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+	QUAD $0x0d111a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 17], 13
+	QUAD $0x0e1102542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 17], 14
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0f113a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 17], 15
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x01113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 1
+	QUAD $0x02110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 2
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x03113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x04113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 4
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x05113a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 17], 5
+	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
+	QUAD $0x06113a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 17], 6
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x0711025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 17], 7
+	QUAD $0x0811325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 8
+	QUAD $0x0911025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 9
+	QUAD $0x0a112a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 17], 10
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x0b110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 11
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0c11325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 17], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 13
+	QUAD $0x0e11325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 17], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0003a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1102442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rax + 17], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00038024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm0
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x027cb60f; BYTE $0x12               // movzx    edi, byte [rdx + rax + 18]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x011202442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 18], 1
+	QUAD $0x02120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 2
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x03120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 3
+	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
+	QUAD $0x04122a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 18], 4
+	QUAD $0x051212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 5
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x06120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 6
+	QUAD $0x071222442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 18], 7
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x08120a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 18], 8
+	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
+	QUAD $0x091212442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 18], 9
+	QUAD $0x0a121a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 18], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 11
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0c123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 12
+	QUAD $0x0d121a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 18], 13
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0e123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 14
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0f123a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 18], 15
+	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
+	LONG $0x7cb60f42; WORD $0x121a             // movzx    edi, byte [rdx + r11 + 18]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x01123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 1
+	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
+	QUAD $0x0212324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 18], 2
+	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
+	QUAD $0x0312224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 18], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x04123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 4
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x05123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 5
+	QUAD $0x06123a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 18], 6
+	QUAD $0x0712024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x08123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 8
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x09123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 9
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
+	QUAD $0x0b120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 11
+	QUAD $0x0c12324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 18], 12
+	QUAD $0x00000140248c8b4c                   // mov    r9, qword [rsp + 320]
+	QUAD $0x0d120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 14
+	QUAD $0x0000012024848b4c                   // mov    r8, qword [rsp + 288]
+	QUAD $0x0f12024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 18], 15
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	LONG $0x3a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rdi + 19]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 1
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x021302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 2
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x03133a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 19], 3
+	QUAD $0x04132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 4
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x051302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 5
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x061302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 6
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x071302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 7
+	QUAD $0x08130a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 19], 8
+	QUAD $0x091312542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 19], 9
+	QUAD $0x0a131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 10
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x0b131a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 19], 11
+	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
+	QUAD $0x0c132a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 19], 12
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0d1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 14
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0f1302542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 19], 15
+	LONG $0x7cb60f42; WORD $0x131a             // movzx    edi, byte [rdx + r11 + 19]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x01130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 1
+	QUAD $0x0213325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 19], 2
+	QUAD $0x0313225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 19], 3
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0413025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 4
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0513025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 5
+	QUAD $0x06133a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 19], 6
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0713025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 7
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x08130a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 19], 8
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0913025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 9
+	LONG $0x24548b4c; BYTE $0x60               // mov    r10, qword [rsp + 96]
+	QUAD $0x0a13125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b13025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 19], 11
+	QUAD $0x0c13325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 12
+	QUAD $0x0d130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 13
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x0e130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 14
+	QUAD $0x0f13025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 19], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00034024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x00036024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm0
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x027cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rax + 20]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x011432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 1
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+	QUAD $0x02141a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 20], 2
+	QUAD $0x000000c824a48b4c                   // mov    r12, qword [rsp + 200]
+	QUAD $0x031422442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 20], 3
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x041432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 4
+	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
+	QUAD $0x051402442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 20], 5
+	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
+	QUAD $0x06143a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 20], 6
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x071432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 7
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x081432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 8
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x091432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 9
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0a1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 10
+	QUAD $0x0b141a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 20], 11
+	QUAD $0x0c142a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 20], 12
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x0d1432442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 20], 13
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0e1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 14
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x0f1432442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 20], 15
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	LONG $0x3a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rdi + 20]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x01143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 1
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x02143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 2
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x03141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x04143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 4
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x05143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x06143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 6
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x07143a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 20], 7
+	QUAD $0x08140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 8
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	QUAD $0x09140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 9
+	QUAD $0x0a14124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 10
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0b140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 11
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0c140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d140a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 20], 13
+	QUAD $0x0e140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 14
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	QUAD $0x0f140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 15
+	LONG $0x027cb60f; BYTE $0x15               // movzx    edi, byte [rdx + rax + 21]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x011502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 1
+	QUAD $0x02151a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 21], 2
+	QUAD $0x031522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 3
+	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x041502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 4
+	QUAD $0x051502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 5
+	QUAD $0x06153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 6
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x071502542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 21], 7
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	QUAD $0x08153a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 21], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 9
+	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
+	QUAD $0x0a1522542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 21], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 12
+	QUAD $0x0d1532542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 21], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e1502542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 21], 14
+	QUAD $0x0f1532542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 21], 15
+	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
+	LONG $0x7cb60f42; WORD $0x151a             // movzx    edi, byte [rdx + r11 + 21]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e824b48b4c                   // mov    r14, qword [rsp + 232]
+	QUAD $0x0115325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 21], 1
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x0215125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 2
+	QUAD $0x03151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 3
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x04151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 4
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x05150a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 21], 5
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x0615325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 6
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0715325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 7
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x0815325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 8
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	QUAD $0x0915325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 9
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0a153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 12
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0d153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00030024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm0
+	QUAD $0x0f150a442061a3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + r9 + 21], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00032024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm0
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	LONG $0x3a7cb60f; BYTE $0x16               // movzx    edi, byte [rdx + rdi + 22]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x01163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 1
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x02163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 2
+	QUAD $0x03162a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 22], 3
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x04160a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 22], 4
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x05163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 5
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x06163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 6
+	QUAD $0x071602442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 22], 7
+	QUAD $0x08163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 9
+	QUAD $0x0a1622442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 22], 10
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 11
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0c163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 12
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x0d163a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 22], 13
+	QUAD $0x0e1602442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 22], 14
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	QUAD $0x0f163a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 22], 15
+	LONG $0x7cb60f42; WORD $0x161a             // movzx    edi, byte [rdx + r11 + 22]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0116324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 22], 1
+	QUAD $0x0216124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0316024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 3
+	QUAD $0x04161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 4
+	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
+	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
+	QUAD $0x0616224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 22], 6
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x07161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 7
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x0816124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 22], 8
+	QUAD $0x0916324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 9
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0a16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 10
+	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
+	QUAD $0x0b16024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 22], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f16024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 22], 15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x027cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rax + 23]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x011702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 1
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x021702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 2
+	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
+	QUAD $0x03172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 3
+	QUAD $0x04170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 4
+	QUAD $0x0000010024ac8b4c                   // mov    r13, qword [rsp + 256]
+	QUAD $0x05172a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 23], 5
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x061732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 23], 6
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x07170a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 23], 7
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x081702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091702542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 23], 9
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x0a170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 11
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0c170a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 23], 12
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+	QUAD $0x0d171a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 23], 13
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0e173a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 23], 14
+	QUAD $0x0f173a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 23], 15
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	LONG $0x3a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rdi + 23]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x01173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 1
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x02173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 2
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x03173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x04173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 4
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x05173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 5
+	QUAD $0x0617225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 23], 6
+	QUAD $0x07171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 7
+	QUAD $0x0817125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 8
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	QUAD $0x09171a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 23], 9
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0a173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 10
+	QUAD $0x0b17025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 12
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x0d173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 15
+	LONG $0x387563c4; WORD $0x01d0             // vinserti128    ymm10, ymm1, xmm0, 1
+	LONG $0x386563c4; WORD $0x01da             // vinserti128    ymm11, ymm3, xmm2, 1
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	LONG $0x3a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rdi + 24]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x01183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 1
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x02183a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 24], 2
+	QUAD $0x031832442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 24], 3
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x04183a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rdi + 24], 4
+	QUAD $0x05182a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 24], 5
+	QUAD $0x061832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 6
+	QUAD $0x07180a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 24], 7
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x081832442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 24], 8
+	QUAD $0x091802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 10
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0b1822442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 24], 11
+	QUAD $0x0c180a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 24], 12
+	QUAD $0x0d181a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 24], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 14
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0f1802442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 24], 15
+	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
+	LONG $0x7cb60f42; WORD $0x1832             // movzx    edi, byte [rdx + r14 + 24]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e8248c8b4c                   // mov    r9, qword [rsp + 232]
+	QUAD $0x01180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 1
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0218024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0318024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 3
+	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
+	QUAD $0x04181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 4
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x0518024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0618024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 6
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0718024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 7
+	QUAD $0x0818124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 8
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	QUAD $0x09181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 9
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x0a182a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 24], 10
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0b180a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 24], 11
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0c18324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 24], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 13
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0e181a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 24], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f18024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 15
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	LONG $0x027cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rax + 25]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x011902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 1
+	QUAD $0x02193a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 25], 2
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x031902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 3
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x041902542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 25], 4
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	QUAD $0x05193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 5
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x06193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 6
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x07193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 7
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x08193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 8
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x09193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 9
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x0a193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 10
+	QUAD $0x0b1922542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 25], 11
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0c193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 12
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x0d193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 13
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0e193a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 25], 14
+	QUAD $0x000000a824bc8b4c                   // mov    r15, qword [rsp + 168]
+	QUAD $0x0f193a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 25], 15
+	LONG $0x7cb60f42; WORD $0x1932             // movzx    edi, byte [rdx + r14 + 25]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x01190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 1
+	QUAD $0x000000d8248c8b4c                   // mov    r9, qword [rsp + 216]
+	QUAD $0x02190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 2
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x03193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 3
+	QUAD $0x04191a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 25], 4
+	QUAD $0x0519025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 25], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x06193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 6
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x07193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x08193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 8
+	QUAD $0x0919125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 25], 9
+	QUAD $0x0a192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 10
+	QUAD $0x0b190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 11
+	QUAD $0x0c19325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 12
+	QUAD $0x0000014024ac8b4c                   // mov    r13, qword [rsp + 320]
+	QUAD $0x0d192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 13
+	QUAD $0x0e191a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 25], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00024024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm0
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x0f190a442061e3c4                   // vpinsrb    xmm0, xmm3, byte [rdx + rcx + 25], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x00026024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm0
+	QUAD $0x000000e0249c8b4c                   // mov    r11, qword [rsp + 224]
+	LONG $0x7cb60f42; WORD $0x1a1a             // movzx    edi, byte [rdx + r11 + 26]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x011a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 1
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x021a02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 26], 2
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x031a0a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rcx + 26], 3
+	QUAD $0x041a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 4
+	QUAD $0x0000010024b48b48                   // mov    rsi, qword [rsp + 256]
+	QUAD $0x051a32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 26], 5
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x061a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 6
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x071a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 7
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x081a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 9
+	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
+	QUAD $0x0a1a22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 26], 10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 12
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0d1a02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 26], 13
+	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
+	QUAD $0x0e1a32442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r14 + 26], 14
+	QUAD $0x0f1a3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 26], 15
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x027cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rax + 26]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x011a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 1
+	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
+	QUAD $0x021a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 2
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x031a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 3
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x041a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 4
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x051a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 5
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x061a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 6
+	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
+	QUAD $0x071a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 7
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	QUAD $0x081a3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 26], 8
+	QUAD $0x091a124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 26], 9
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x0a1a1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 26], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 12
+	QUAD $0x0d1a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0e1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f1a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 15
+	LONG $0x7cb60f42; WORD $0x1b1a             // movzx    edi, byte [rdx + r11 + 27]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x011b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 27], 1
+	QUAD $0x021b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 2
+	QUAD $0x031b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 3
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x041b02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 27], 4
+	QUAD $0x051b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 5
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	QUAD $0x061b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 27], 6
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x071b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 7
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x081b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 8
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x091b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 9
+	QUAD $0x0a1b22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 27], 10
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x0b1b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 27], 11
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0c1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 12
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x0d1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 13
+	QUAD $0x0e1b32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 27], 14
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x0f1b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 27], 15
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	LONG $0x0a7cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rcx + 27]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x011b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 1
+	QUAD $0x021b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x031b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 3
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x041b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 4
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x051b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 5
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x061b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 6
+	QUAD $0x071b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 7
+	QUAD $0x081b3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 27], 8
+	QUAD $0x091b125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 27], 9
+	QUAD $0x0a1b1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 27], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 12
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x0d1b0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 27], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00028024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm0
+	LONG $0x3865e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm3, xmm2, 1
+	QUAD $0x0002a024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm0
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	LONG $0x7cb60f42; WORD $0x1c12             // movzx    edi, byte [rdx + r10 + 28]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 1
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x021c3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 28], 2
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x031c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 3
+	QUAD $0x041c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 4
+	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
+	QUAD $0x051c22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 28], 5
+	QUAD $0x061c32442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rsi + 28], 6
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x071c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 7
+	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
+	QUAD $0x081c0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 28], 8
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x091c02442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r8 + 28], 9
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x0a1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 10
+	QUAD $0x0b1c2a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r13 + 28], 11
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0c1c1a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r11 + 28], 12
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0d1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 13
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0e1c1a442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rbx + 28], 14
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0f1c02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 28], 15
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	LONG $0x027cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rax + 28]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x011c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 1
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x021c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 2
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
+	QUAD $0x041c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 4
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x051c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 5
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	QUAD $0x061c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 6
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x071c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 7
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x081c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 8
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x091c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 9
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0a1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 10
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x0b1c2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 28], 11
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 12
+	QUAD $0x0d1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e1c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 14
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x0f1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 15
+	LONG $0x7cb60f42; WORD $0x1d12             // movzx    edi, byte [rdx + r10 + 29]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x011d12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 29], 1
+	QUAD $0x021d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 2
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x031d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 3
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x041d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 4
+	QUAD $0x051d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 5
+	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
+	QUAD $0x061d3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 29], 6
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x071d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 7
+	QUAD $0x081d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 8
+	QUAD $0x091d02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 29], 9
+	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
+	QUAD $0x0a1d22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 29], 10
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0b1d0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 29], 11
+	QUAD $0x0c1d1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 29], 12
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x0d1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 13
+	QUAD $0x0e1d1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 29], 14
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x0f1d3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 29], 15
+	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
+	LONG $0x7cb60f42; WORD $0x1d02             // movzx    edi, byte [rdx + r8 + 29]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	QUAD $0x011d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 1
+	QUAD $0x021d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 2
+	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x041d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 4
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x051d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 5
+	QUAD $0x061d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 29], 6
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x071d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x081d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 8
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x091d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 9
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0a1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 10
+	QUAD $0x0b1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 11
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0c1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d1d025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 29], 13
+	QUAD $0x0e1d0a642061e3c4                   // vpinsrb    xmm4, xmm3, byte [rdx + rcx + 29], 14
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x0002c024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm0
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1d02442059e3c4                   // vpinsrb    xmm0, xmm4, byte [rdx + rax + 29], 15
+	LONG $0x387de3c4; WORD $0x01c2             // vinserti128    ymm0, ymm0, xmm2, 1
+	QUAD $0x0002e024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm0
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x0a7cb60f; BYTE $0x1e               // movzx    edi, byte [rdx + rcx + 30]
+	LONG $0xc76ef9c5                           // vmovd    xmm0, edi
+	QUAD $0x011e12442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r10 + 30], 1
+	LONG $0x0a7cb60f; BYTE $0x1f               // movzx    edi, byte [rdx + rcx + 31]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011f124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 31], 1
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x021e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 2
+	QUAD $0x021f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 2
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x031e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 3
+	QUAD $0x031f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 3
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x041e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 4
+	QUAD $0x041f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 4
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	QUAD $0x051e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 5
+	QUAD $0x051f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 5
+	QUAD $0x061e3a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r15 + 30], 6
+	QUAD $0x061f3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 31], 6
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x071e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 7
+	QUAD $0x071f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 7
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x081e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 8
+	QUAD $0x081f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 8
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x091e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 9
+	QUAD $0x091f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 9
+	QUAD $0x0a1e22442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r12 + 30], 10
+	QUAD $0x0a1f224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 31], 10
+	QUAD $0x0b1e0a442079a3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + r9 + 30], 11
+	QUAD $0x0b1f0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 31], 11
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0c1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 12
+	QUAD $0x0c1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 12
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0d1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 13
+	QUAD $0x0d1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0e1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 31], 14
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0f1e02442079e3c4                   // vpinsrb    xmm0, xmm0, byte [rdx + rax + 30], 15
+	QUAD $0x0f1f02542071e3c4                   // vpinsrb    xmm2, xmm1, byte [rdx + rax + 31], 15
+	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
+	LONG $0x44b60f42; WORD $0x1e02             // movzx    eax, byte [rdx + r8 + 30]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x011e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 1
+	LONG $0x44b60f42; WORD $0x1f02             // movzx    eax, byte [rdx + r8 + 31]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	QUAD $0x011f1a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 31], 1
+	QUAD $0x000000d824948b4c                   // mov    r10, qword [rsp + 216]
+	QUAD $0x021e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 2
+	QUAD $0x021f127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 31], 2
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
+	QUAD $0x031f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 3
+	QUAD $0x041e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 30], 4
+	QUAD $0x041f327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 31], 4
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
+	QUAD $0x051f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 5
+	QUAD $0x061e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 30], 6
+	QUAD $0x061f327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 31], 6
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x071e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 7
+	QUAD $0x071f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 7
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
+	QUAD $0x081f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 8
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
+	QUAD $0x091f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 9
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
+	QUAD $0x0a1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 11
+	QUAD $0x0b1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 11
+	QUAD $0x0c1e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 30], 12
+	QUAD $0x0c1f2a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 31], 12
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0d1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 13
+	QUAD $0x0d1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 14
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
+	QUAD $0x0f1f027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 31], 15
+	LONG $0x3875e3c4; WORD $0x01c0             // vinserti128    ymm0, ymm1, xmm0, 1
+	QUAD $0x00014024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm0
+	LONG $0x3845e3c4; WORD $0x01c2             // vinserti128    ymm0, ymm7, xmm2, 1
+	QUAD $0x00012024847ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm0
+	QUAD $0x00018024946ffdc5; BYTE $0x00       // vmovdqa    ymm2, yword [rsp + 384]
+	LONG $0xc26495c5                           // vpcmpgtb    ymm0, ymm13, ymm2
+	QUAD $0x0004c0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 1216]
+	LONG $0xfa64f5c5                           // vpcmpgtb    ymm7, ymm1, ymm2
+	LONG $0x6d6ffdc5; BYTE $0x00               // vmovdqa    ymm5, yword 0[rbp] /* [rip + .LCPI11_0] */
+	LONG $0xfddfc5c5                           // vpandn    ymm7, ymm7, ymm5
+	LONG $0xc0fcc5c5                           // vpaddb    ymm0, ymm7, ymm0
+	QUAD $0x000220249c6ffdc5; BYTE $0x00       // vmovdqa    ymm3, yword [rsp + 544]
+	LONG $0xfa64e5c5                           // vpcmpgtb    ymm7, ymm3, ymm2
+	LONG $0x6d6f7dc5; BYTE $0x20               // vmovdqa    ymm13, yword 32[rbp] /* [rip + .LCPI11_1] */
+	LONG $0xdf45c1c4; BYTE $0xfd               // vpandn    ymm7, ymm7, ymm13
+	QUAD $0x0001e0249c6ffdc5; BYTE $0x00       // vmovdqa    ymm3, yword [rsp + 480]
+	LONG $0xe26465c5                           // vpcmpgtb    ymm12, ymm3, ymm2
+	LONG $0x4d6f7dc5; BYTE $0x40               // vmovdqa    ymm9, yword 64[rbp] /* [rip + .LCPI11_2] */
+	LONG $0xdf1d41c4; BYTE $0xe1               // vpandn    ymm12, ymm12, ymm9
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xe2640dc5                           // vpcmpgtb    ymm12, ymm14, ymm2
+	LONG $0x656ffdc5; BYTE $0x60               // vmovdqa    ymm4, yword 96[rbp] /* [rip + .LCPI11_3] */
+	LONG $0xe4df1dc5                           // vpandn    ymm12, ymm12, ymm4
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0x761d41c4; BYTE $0xe4               // vpcmpeqd    ymm12, ymm12, ymm12
+	LONG $0xf87dc1c4; BYTE $0xc4               // vpsubb    ymm0, ymm0, ymm12
+	LONG $0x763d41c4; BYTE $0xc0               // vpcmpeqd    ymm8, ymm8, ymm8
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	LONG $0xfa6485c5                           // vpcmpgtb    ymm7, ymm15, ymm2
+	QUAD $0x00000080b56ffdc5                   // vmovdqa    ymm6, yword 128[rbp] /* [rip + .LCPI11_4] */
+	LONG $0xfedfc5c5                           // vpandn    ymm7, ymm7, ymm6
+	QUAD $0x0001c024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 448]
+	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
+	QUAD $0x000000a09d6ffdc5                   // vmovdqa    ymm3, yword 160[rbp] /* [rip + .LCPI11_5] */
+	LONG $0xe3df1dc5                           // vpandn    ymm12, ymm12, ymm3
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x00020024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 512]
+	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
+	QUAD $0x000000c08d6ffdc5                   // vmovdqa    ymm1, yword 192[rbp] /* [rip + .LCPI11_6] */
+	LONG $0xe1df1dc5                           // vpandn    ymm12, ymm12, ymm1
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	LONG $0xc7ebfdc5                           // vpor    ymm0, ymm0, ymm7
+	QUAD $0x0004a024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 1184]
+	LONG $0xfa64c5c5                           // vpcmpgtb    ymm7, ymm7, ymm2
+	QUAD $0x00048024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1152]
+	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
+	LONG $0xe5df1dc5                           // vpandn    ymm12, ymm12, ymm5
+	LONG $0xfffc9dc5                           // vpaddb    ymm7, ymm12, ymm7
+	QUAD $0x00046024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1120]
+	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
+	LONG $0xdf1d41c4; BYTE $0xe5               // vpandn    ymm12, ymm12, ymm13
+	QUAD $0x00044024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1088]
+	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
+	LONG $0xdf0541c4; BYTE $0xf9               // vpandn    ymm15, ymm15, ymm9
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	QUAD $0x00040024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 1024]
+	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
+	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xf845c1c4; BYTE $0xf8               // vpsubb    ymm7, ymm7, ymm8
+	LONG $0xffeb9dc5                           // vpor    ymm7, ymm12, ymm7
+	QUAD $0x00042024a46f7dc5; BYTE $0x00       // vmovdqa    ymm12, yword [rsp + 1056]
+	LONG $0xe2641dc5                           // vpcmpgtb    ymm12, ymm12, ymm2
+	LONG $0xe6df1dc5                           // vpandn    ymm12, ymm12, ymm6
+	QUAD $0x0003c024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 960]
+	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
+	LONG $0xfbdf05c5                           // vpandn    ymm15, ymm15, ymm3
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	QUAD $0x0003e024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 992]
+	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
+	LONG $0xf9df05c5                           // vpandn    ymm15, ymm15, ymm1
+	LONG $0xeb1d41c4; BYTE $0xe7               // vpor    ymm12, ymm12, ymm15
+	LONG $0xe7eb1dc5                           // vpor    ymm12, ymm12, ymm7
+	QUAD $0x0003a024bc6ffdc5; BYTE $0x00       // vmovdqa    ymm7, yword [rsp + 928]
+	LONG $0xfa64c5c5                           // vpcmpgtb    ymm7, ymm7, ymm2
+	QUAD $0x00038024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 896]
+	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
+	LONG $0xfddf05c5                           // vpandn    ymm15, ymm15, ymm5
+	LONG $0xfffc85c5                           // vpaddb    ymm7, ymm15, ymm7
+	QUAD $0x00034024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 832]
+	LONG $0xfa640dc5                           // vpcmpgtb    ymm15, ymm14, ymm2
+	LONG $0xdf0541c4; BYTE $0xfd               // vpandn    ymm15, ymm15, ymm13
+	QUAD $0x00036024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 864]
+	LONG $0xf2640dc5                           // vpcmpgtb    ymm14, ymm14, ymm2
+	LONG $0xdf0d41c4; BYTE $0xf1               // vpandn    ymm14, ymm14, ymm9
+	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
+	QUAD $0x00030024bc6f7dc5; BYTE $0x00       // vmovdqa    ymm15, yword [rsp + 768]
+	LONG $0xfa6405c5                           // vpcmpgtb    ymm15, ymm15, ymm2
+	LONG $0xfcdf05c5                           // vpandn    ymm15, ymm15, ymm4
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	LONG $0xf845c1c4; BYTE $0xf8               // vpsubb    ymm7, ymm7, ymm8
+	LONG $0xffeb8dc5                           // vpor    ymm7, ymm14, ymm7
+	QUAD $0x00032024b46f7dc5; BYTE $0x00       // vmovdqa    ymm14, yword [rsp + 800]
+	LONG $0xf2640dc5                           // vpcmpgtb    ymm14, ymm14, ymm2
+	LONG $0xfe6f7dc5                           // vmovdqa    ymm15, ymm6
+	LONG $0xf6df0dc5                           // vpandn    ymm14, ymm14, ymm6
+	LONG $0xd2642dc5                           // vpcmpgtb    ymm10, ymm10, ymm2
+	LONG $0xd3df2dc5                           // vpandn    ymm10, ymm10, ymm3
+	LONG $0xeb0d41c4; BYTE $0xd2               // vpor    ymm10, ymm14, ymm10
+	LONG $0xda6425c5                           // vpcmpgtb    ymm11, ymm11, ymm2
+	LONG $0xd9df25c5                           // vpandn    ymm11, ymm11, ymm1
+	LONG $0xf16f7dc5                           // vmovdqa    ymm14, ymm1
+	LONG $0xeb2d41c4; BYTE $0xd3               // vpor    ymm10, ymm10, ymm11
+	LONG $0xffebadc5                           // vpor    ymm7, ymm10, ymm7
+	QUAD $0x000240248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 576]
+	LONG $0xca6475c5                           // vpcmpgtb    ymm9, ymm1, ymm2
+	QUAD $0x000260248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 608]
+	LONG $0xc26475c5                           // vpcmpgtb    ymm8, ymm1, ymm2
+	LONG $0xc5df3dc5                           // vpandn    ymm8, ymm8, ymm5
+	LONG $0xfc3d41c4; BYTE $0xc1               // vpaddb    ymm8, ymm8, ymm9
+	QUAD $0x000280248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 640]
+	LONG $0xea64f5c5                           // vpcmpgtb    ymm5, ymm1, ymm2
+	LONG $0xdf55c1c4; BYTE $0xed               // vpandn    ymm5, ymm5, ymm13
+	QUAD $0x0002a0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 672]
+	LONG $0xf264f5c5                           // vpcmpgtb    ymm6, ymm1, ymm2
+	LONG $0x75dfcdc5; BYTE $0x40               // vpandn    ymm6, ymm6, yword 64[rbp] /* [rip + .LCPI11_2] */
+	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
+	QUAD $0x0002c0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 704]
+	LONG $0xda64f5c5                           // vpcmpgtb    ymm3, ymm1, ymm2
+	LONG $0xdcdfe5c5                           // vpandn    ymm3, ymm3, ymm4
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x000000e0adf8bdc5                   // vpsubb    ymm5, ymm8, yword 224[rbp] /* [rip + .LCPI11_7] */
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	QUAD $0x0002e0248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 736]
+	LONG $0xe264f5c5                           // vpcmpgtb    ymm4, ymm1, ymm2
+	LONG $0xdf5dc1c4; BYTE $0xe7               // vpandn    ymm4, ymm4, ymm15
+	QUAD $0x000140248c6ffdc5; BYTE $0x00       // vmovdqa    ymm1, yword [rsp + 320]
+	LONG $0xca64f5c5                           // vpcmpgtb    ymm1, ymm1, ymm2
+	QUAD $0x000000a08ddff5c5                   // vpandn    ymm1, ymm1, yword 160[rbp] /* [rip + .LCPI11_5] */
+	LONG $0xc9ebddc5                           // vpor    ymm1, ymm4, ymm1
+	QUAD $0x00012024a46ffdc5; BYTE $0x00       // vmovdqa    ymm4, yword [rsp + 288]
+	LONG $0xd264ddc5                           // vpcmpgtb    ymm2, ymm4, ymm2
+	LONG $0xdf6dc1c4; BYTE $0xd6               // vpandn    ymm2, ymm2, ymm14
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xc9ebe5c5                           // vpor    ymm1, ymm3, ymm1
+	LONG $0x607dc1c4; BYTE $0xd4               // vpunpcklbw    ymm2, ymm0, ymm12
+	LONG $0x687dc1c4; BYTE $0xc4               // vpunpckhbw    ymm0, ymm0, ymm12
+	LONG $0xd960c5c5                           // vpunpcklbw    ymm3, ymm7, ymm1
+	LONG $0xc968c5c5                           // vpunpckhbw    ymm1, ymm7, ymm1
+	LONG $0xe361edc5                           // vpunpcklwd    ymm4, ymm2, ymm3
+	LONG $0xd369edc5                           // vpunpckhwd    ymm2, ymm2, ymm3
+	LONG $0xd961fdc5                           // vpunpcklwd    ymm3, ymm0, ymm1
+	LONG $0xc169fdc5                           // vpunpckhwd    ymm0, ymm0, ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	LONG $0x465de3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm4, ymm2, 49
+	LONG $0x3865e3c4; WORD $0x01e0             // vinserti128    ymm4, ymm3, xmm0, 1
+	LONG $0x4665e3c4; WORD $0x31c0             // vperm2i128    ymm0, ymm3, ymm0, 49
+	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
+	LONG $0x7f7ec1c4; WORD $0x8f44; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm0
+	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8f64; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm4
+	LONG $0x7f7ec1c4; WORD $0x8f0c             // vmovdqu    yword [r15 + 4*rcx], ymm1
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
+	QUAD $0x000001a0248c3b48                   // cmp    rcx, qword [rsp + 416]
+	JNE  LBB11_86
+	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
+	QUAD $0x000001a024b43b4c                   // cmp    r14, qword [rsp + 416]
+	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
+	QUAD $0x0000017024ac8b4c                   // mov    r13, qword [rsp + 368]
+	QUAD $0x0000016824948b48                   // mov    rdx, qword [rsp + 360]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	JNE  LBB11_88
+	JMP  LBB11_91
+
+LBB11_66:
+	LONG $0xe0e68349             // and    r14, -32
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
+	QUAD $0x0000016824848948     // mov    qword [rsp + 360], rax
+	QUAD $0x0000018024b4894c     // mov    qword [rsp + 384], r14
+	LONG $0xb7048d4b             // lea    rax, [r15 + 4*r14]
+	QUAD $0x0000017024848948     // mov    qword [rsp + 368], rax
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	WORD $0xdb31                 // xor    ebx, ebx
+	QUAD $0x0000011024bc894c     // mov    qword [rsp + 272], r15
+
+LBB11_67:
+	QUAD $0x00000178249c8948                   // mov    qword [rsp + 376], rbx
+	LONG $0x05e3c148                           // shl    rbx, 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x20c88348                           // or    rax, 32
+	QUAD $0x000000d024848948                   // mov    qword [rsp + 208], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x40c88348                           // or    rax, 64
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x60c88348                           // or    rax, 96
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00a00d48; WORD $0x0000             // or    rax, 160
+	QUAD $0x0000012024848948                   // mov    qword [rsp + 288], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00c00d48; WORD $0x0000             // or    rax, 192
+	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	QUAD $0x0000008824848948                   // mov    qword [rsp + 136], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01000d48; WORD $0x0000             // or    rax, 256
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01200d48; WORD $0x0000             // or    rax, 288
+	QUAD $0x000000d824848948                   // mov    qword [rsp + 216], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x000000f0249c8948                   // mov    qword [rsp + 240], rbx
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02000d48; WORD $0x0000             // or    rax, 512
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x0204b60f                           // movzx    eax, byte [rdx + rax]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	LONG $0x1a04b60f                           // movzx    eax, byte [rdx + rbx]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	LONG $0x0a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rcx + 1]
+	LONG $0xe86ef9c5                           // vmovd    xmm5, eax
+	LONG $0x1a44b60f; BYTE $0x01               // movzx    eax, byte [rdx + rbx + 1]
+	LONG $0xd06e79c5                           // vmovd    xmm10, eax
+	LONG $0x0a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rcx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001e0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 480], xmm1
+	LONG $0x1a44b60f; BYTE $0x02               // movzx    eax, byte [rdx + rbx + 2]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x0001c0248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 448], xmm1
+	LONG $0x0a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rcx + 3]
+	LONG $0xd86e79c5                           // vmovd    xmm11, eax
+	LONG $0x1a44b60f; BYTE $0x03               // movzx    eax, byte [rdx + rbx + 3]
+	LONG $0xc06e79c5                           // vmovd    xmm8, eax
+	LONG $0x0a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rcx + 4]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	QUAD $0x000200248c7ff9c5; BYTE $0x00       // vmovdqa    oword [rsp + 512], xmm1
+	LONG $0x1a44b60f; BYTE $0x04               // movzx    eax, byte [rdx + rbx + 4]
+	LONG $0xf86e79c5                           // vmovd    xmm15, eax
+	LONG $0x0a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rcx + 5]
+	LONG $0xf06e79c5                           // vmovd    xmm14, eax
+	LONG $0x1a44b60f; BYTE $0x05               // movzx    eax, byte [rdx + rbx + 5]
+	LONG $0xe06e79c5                           // vmovd    xmm12, eax
+	LONG $0x0a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rcx + 6]
+	QUAD $0x00000100248c8948                   // mov    qword [rsp + 256], rcx
+	LONG $0xe86e79c5                           // vmovd    xmm13, eax
+	LONG $0x1a44b60f; BYTE $0x06               // movzx    eax, byte [rdx + rbx + 6]
+	LONG $0xf86ef9c5                           // vmovd    xmm7, eax
+	LONG $0x0a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rcx + 7]
+	LONG $0xd06ef9c5                           // vmovd    xmm2, eax
+	LONG $0x1a44b60f; BYTE $0x07               // movzx    eax, byte [rdx + rbx + 7]
+	LONG $0xc86ef9c5                           // vmovd    xmm1, eax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
+	LONG $0x20cf8148; WORD $0x0002; BYTE $0x00 // or    rdi, 544
+	QUAD $0x000000c824bc8948                   // mov    qword [rsp + 200], rdi
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02400d48; WORD $0x0000             // or    rax, 576
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
+	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
+	LONG $0x60cb8149; WORD $0x0002; BYTE $0x00 // or    r11, 608
+	QUAD $0x000000a8249c894c                   // mov    qword [rsp + 168], r11
+	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
+	LONG $0x80ce8149; WORD $0x0002; BYTE $0x00 // or    r14, 640
+	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	LONG $0xa0ca8149; WORD $0x0002; BYTE $0x00 // or    r10, 672
+	QUAD $0x000000a02494894c                   // mov    qword [rsp + 160], r10
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x02c00d48; WORD $0x0000             // or    rax, 704
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
+	LONG $0xe0c88149; WORD $0x0002; BYTE $0x00 // or    r8, 736
+	LONG $0x2444894c; BYTE $0x78               // mov    qword [rsp + 120], r8
+	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
+	LONG $0x00cf8149; WORD $0x0003; BYTE $0x00 // or    r15, 768
+	QUAD $0x000000c024bc894c                   // mov    qword [rsp + 192], r15
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x03200d48; WORD $0x0000             // or    rax, 800
+	QUAD $0x0000014024848948                   // mov    qword [rsp + 320], rax
+	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
+	LONG $0x40c98149; WORD $0x0003; BYTE $0x00 // or    r9, 832
+	QUAD $0x000000b8248c894c                   // mov    qword [rsp + 184], r9
+	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
+	LONG $0x60cc8149; WORD $0x0003; BYTE $0x00 // or    r12, 864
+	QUAD $0x000000b024a4894c                   // mov    qword [rsp + 176], r12
+	WORD $0x8948; BYTE $0xde                   // mov    rsi, rbx
+	LONG $0x80ce8148; WORD $0x0003; BYTE $0x00 // or    rsi, 896
+	QUAD $0x0000010824b48948                   // mov    qword [rsp + 264], rsi
+	WORD $0x8948; BYTE $0xd9                   // mov    rcx, rbx
+	LONG $0xa0c98148; WORD $0x0003; BYTE $0x00 // or    rcx, 928
+	QUAD $0x000000e8248c8948                   // mov    qword [rsp + 232], rcx
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	LONG $0x03c00d48; WORD $0x0000             // or    rax, 960
+	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
+	LONG $0xe0cb8148; WORD $0x0003; BYTE $0x00 // or    rbx, 992
+	QUAD $0x000000f8249c8948                   // mov    qword [rsp + 248], rbx
+	LONG $0x206163c4; WORD $0x3a0c; BYTE $0x01 // vpinsrb    xmm9, xmm3, byte [rdx + rdi], 1
+	LONG $0x2031a3c4; WORD $0x2a1c; BYTE $0x02 // vpinsrb    xmm3, xmm9, byte [rdx + r13], 2
+	LONG $0x2061a3c4; WORD $0x1a1c; BYTE $0x03 // vpinsrb    xmm3, xmm3, byte [rdx + r11], 3
+	LONG $0x2061a3c4; WORD $0x321c; BYTE $0x04 // vpinsrb    xmm3, xmm3, byte [rdx + r14], 4
+	LONG $0x2061a3c4; WORD $0x121c; BYTE $0x05 // vpinsrb    xmm3, xmm3, byte [rdx + r10], 5
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x06 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 6
+	LONG $0x2061a3c4; WORD $0x021c; BYTE $0x07 // vpinsrb    xmm3, xmm3, byte [rdx + r8], 7
+	LONG $0x2061a3c4; WORD $0x3a1c; BYTE $0x08 // vpinsrb    xmm3, xmm3, byte [rdx + r15], 8
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	LONG $0x2061e3c4; WORD $0x3a1c; BYTE $0x09 // vpinsrb    xmm3, xmm3, byte [rdx + rdi], 9
+	LONG $0x2061a3c4; WORD $0x0a1c; BYTE $0x0a // vpinsrb    xmm3, xmm3, byte [rdx + r9], 10
+	LONG $0x2061a3c4; WORD $0x221c; BYTE $0x0b // vpinsrb    xmm3, xmm3, byte [rdx + r12], 11
+	LONG $0x2061e3c4; WORD $0x321c; BYTE $0x0c // vpinsrb    xmm3, xmm3, byte [rdx + rsi], 12
+	LONG $0x2061e3c4; WORD $0x0a1c; BYTE $0x0d // vpinsrb    xmm3, xmm3, byte [rdx + rcx], 13
+	LONG $0x2061e3c4; WORD $0x021c; BYTE $0x0e // vpinsrb    xmm3, xmm3, byte [rdx + rax], 14
+	LONG $0x2061e3c4; WORD $0x1a1c; BYTE $0x0f // vpinsrb    xmm3, xmm3, byte [rdx + rbx], 15
+	QUAD $0x000000d024a48b4c                   // mov    r12, qword [rsp + 208]
+	LONG $0x2059a3c4; WORD $0x2224; BYTE $0x01 // vpinsrb    xmm4, xmm4, byte [rdx + r12], 1
+	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
+	LONG $0x2059a3c4; WORD $0x3224; BYTE $0x02 // vpinsrb    xmm4, xmm4, byte [rdx + r14], 2
+	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
+	LONG $0x2059a3c4; WORD $0x1a24; BYTE $0x03 // vpinsrb    xmm4, xmm4, byte [rdx + r11], 3
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	LONG $0x2059a3c4; WORD $0x0224; BYTE $0x04 // vpinsrb    xmm4, xmm4, byte [rdx + r8], 4
+	QUAD $0x00000120248c8b4c                   // mov    r9, qword [rsp + 288]
+	LONG $0x2059a3c4; WORD $0x0a24; BYTE $0x05 // vpinsrb    xmm4, xmm4, byte [rdx + r9], 5
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	LONG $0x2059e3c4; WORD $0x1a24; BYTE $0x06 // vpinsrb    xmm4, xmm4, byte [rdx + rbx], 6
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	LONG $0x2059e3c4; WORD $0x3224; BYTE $0x07 // vpinsrb    xmm4, xmm4, byte [rdx + rsi], 7
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	LONG $0x2059a3c4; WORD $0x3a24; BYTE $0x08 // vpinsrb    xmm4, xmm4, byte [rdx + r15], 8
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	LONG $0x2059e3c4; WORD $0x3a24; BYTE $0x09 // vpinsrb    xmm4, xmm4, byte [rdx + rdi], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	LONG $0x2059e3c4; WORD $0x0224; BYTE $0x0a // vpinsrb    xmm4, xmm4, byte [rdx + rax], 10
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	LONG $0x2059a3c4; WORD $0x1224; BYTE $0x0b // vpinsrb    xmm4, xmm4, byte [rdx + r10], 11
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	LONG $0x2059e3c4; WORD $0x0a24; BYTE $0x0c // vpinsrb    xmm4, xmm4, byte [rdx + rcx], 12
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	LONG $0x2059e3c4; WORD $0x0a24; BYTE $0x0d // vpinsrb    xmm4, xmm4, byte [rdx + rcx], 13
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	LONG $0x2059e3c4; WORD $0x0a24; BYTE $0x0e // vpinsrb    xmm4, xmm4, byte [rdx + rcx], 14
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	LONG $0x2059a3c4; WORD $0x2a24; BYTE $0x0f // vpinsrb    xmm4, xmm4, byte [rdx + r13], 15
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x01010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x02010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 2
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x03010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 3
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x04010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 4
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x05010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 5
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x06010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 6
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x07010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 7
+	QUAD $0x000000c024ac8b4c                   // mov    r13, qword [rsp + 192]
+	QUAD $0x08012a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 1], 8
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x09010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 9
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x0a010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 10
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0b010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 11
+	QUAD $0x00000108248c8b48                   // mov    rcx, qword [rsp + 264]
+	QUAD $0x0c010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 12
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x0d010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 13
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0e010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 14
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x0f010a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 1], 15
+	QUAD $0x010122742029a3c4                   // vpinsrb    xmm6, xmm10, byte [rdx + r12 + 1], 1
+	QUAD $0x020132742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 1], 2
+	QUAD $0x03011a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r11 + 1], 3
+	QUAD $0x040102742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r8 + 1], 4
+	QUAD $0x05010a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 1], 5
+	QUAD $0x06011a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 1], 6
+	QUAD $0x070132742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 1], 7
+	QUAD $0x08013a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 1], 8
+	QUAD $0x09013a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 1], 9
+	QUAD $0x0a0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 10
+	QUAD $0x0b0112742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r10 + 1], 11
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0c0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 12
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0d0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 13
+	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e0102742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 1], 14
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x0004c0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1216], ymm3
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0f01025c2049e3c4                   // vpinsrb    xmm3, xmm6, byte [rdx + rax + 1], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
+	LONG $0xcf6e79c5                           // vmovd    xmm9, edi
+	LONG $0x3865e3c4; WORD $0x01dd             // vinserti128    ymm3, ymm3, xmm5, 1
+	QUAD $0x000220249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 544], ymm3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x08               // movzx    edi, byte [rdx + rax + 8]
+	LONG $0xd76e79c5                           // vmovd    xmm10, edi
+	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
+	QUAD $0x0001e0249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 480]
+	QUAD $0x01020a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 2], 1
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x0202325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 2], 2
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0302025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 3
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	QUAD $0x04023a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 2], 4
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0502025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 5
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	QUAD $0x0602125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 2], 6
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0702025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 7
+	QUAD $0x08022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 8
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0902025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 9
+	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
+	QUAD $0x0a02225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 2], 10
+	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
+	QUAD $0x0b022a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 2], 11
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	QUAD $0x0c021a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 2], 12
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x0d020a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 2], 13
+	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
+	QUAD $0x0e02025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 2], 14
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x0f02025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 2], 15
+	QUAD $0x0001c024a46ff9c5; BYTE $0x00       // vmovdqa    xmm4, oword [rsp + 448]
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x010202642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 2], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x020202642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 2], 2
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x03023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 3
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x04023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 5
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x06023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 6
+	QUAD $0x070232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 7
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x08023a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 2], 8
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x090232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 9
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0a0232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 10
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x0b0232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 11
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0c0232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 12
+	QUAD $0x0d021a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 2], 13
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0e0232642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 2], 14
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x0f021a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 2], 15
+	QUAD $0x01030a6c2021a3c4                   // vpinsrb    xmm5, xmm11, byte [rdx + r9 + 3], 1
+	QUAD $0x0203326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 2
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x0303326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 3
+	QUAD $0x04033a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 3], 4
+	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
+	QUAD $0x000000a024b48b4c                   // mov    r14, qword [rsp + 160]
+	QUAD $0x0503326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 3], 5
+	QUAD $0x0603126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 6
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0703326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 7
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x08030a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 3], 8
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x0903326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 3], 9
+	QUAD $0x0a03226c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r12 + 3], 10
+	QUAD $0x0b032a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 3], 11
+	QUAD $0x0c031a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 3], 12
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	QUAD $0x0d030a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 3], 13
+	QUAD $0x0e03026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 3], 14
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0f03126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 3], 15
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x01030a742039e3c4                   // vpinsrb    xmm6, xmm8, byte [rdx + rcx + 3], 1
+	QUAD $0x020302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 2
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x030302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 3
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x040302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x050302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 5
+	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
+	QUAD $0x060322742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 3], 6
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x070302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 7
+	QUAD $0x08033a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 3], 8
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x090332742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 3], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a0302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b0302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 11
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0c0302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 12
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0d0302742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 3], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x0001e0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 480], ymm3
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e03025c2049e3c4                   // vpinsrb    xmm3, xmm6, byte [rdx + rax + 3], 14
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
+	LONG $0xc76e79c5                           // vmovd    xmm8, edi
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0f030a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 3], 15
+	LONG $0x3865e3c4; WORD $0x01dd             // vinserti128    ymm3, ymm3, xmm5, 1
+	QUAD $0x0001c0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 448], ymm3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x09               // movzx    edi, byte [rdx + rax + 9]
+	LONG $0xdf6e79c5                           // vmovd    xmm11, edi
+	QUAD $0x000200249c6ff9c5; BYTE $0x00       // vmovdqa    xmm3, oword [rsp + 512]
+	QUAD $0x000000c824848b4c                   // mov    r8, qword [rsp + 200]
+	QUAD $0x0104025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 4], 1
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0204025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 2
+	QUAD $0x000000a8249c8b48                   // mov    rbx, qword [rsp + 168]
+	QUAD $0x03041a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 4], 3
+	QUAD $0x04043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 4
+	QUAD $0x0504325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 5
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0604025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 6
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x07041a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 4], 7
+	QUAD $0x08040a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 4], 8
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0904025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 9
+	QUAD $0x000000b824bc8b4c                   // mov    r15, qword [rsp + 184]
+	QUAD $0x0a043a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 4], 10
+	QUAD $0x000000b024b48b4c                   // mov    r14, qword [rsp + 176]
+	QUAD $0x0b04325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 4], 11
+	QUAD $0x0c042a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 4], 12
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0d04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 13
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0e04025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 4], 14
+	QUAD $0x0f04125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 4], 15
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+	QUAD $0x010412642001a3c4                   // vpinsrb    xmm4, xmm15, byte [rdx + r10 + 4], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x020402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 2
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x030402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 3
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x040402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x050402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 5
+	QUAD $0x060422642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 4], 6
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x07043a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 4], 7
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x080402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 8
+	QUAD $0x090432642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 4], 9
+	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
+	QUAD $0x0a0422642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 4], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b0402642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 4], 11
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0c0432642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 4], 12
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0d040a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 4], 13
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0e0432642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 4], 14
+	QUAD $0x0f040a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 4], 15
+	QUAD $0x0105026c2009a3c4                   // vpinsrb    xmm5, xmm14, byte [rdx + r8 + 5], 1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x02050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 2
+	QUAD $0x03051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 3
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x04051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 4
+	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
+	QUAD $0x0505026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 5], 5
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x06050a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 5], 6
+	QUAD $0x07051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 7
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x08051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 8
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x09051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 9
+	QUAD $0x0a053a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 5], 10
+	QUAD $0x0b05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 11
+	QUAD $0x0c052a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 5], 12
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	QUAD $0x0d051a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 5], 13
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x0e051a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 5], 14
+	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
+	QUAD $0x0f05326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 5], 15
+	QUAD $0x010512742019a3c4                   // vpinsrb    xmm6, xmm12, byte [rdx + r10 + 5], 1
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x02051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 2
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x03051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 3
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x04051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 4
+	QUAD $0x00000120249c8b48                   // mov    rbx, qword [rsp + 288]
+	QUAD $0x05051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 5
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x06051a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 5], 6
+	QUAD $0x07053a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 5], 7
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x08053a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 5], 8
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x09053a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 5], 9
+	QUAD $0x0a0522742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 5], 10
+	QUAD $0x0b0502742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 5], 11
+	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
+	QUAD $0x0c0522742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 5], 12
+	QUAD $0x0d050a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 5], 13
+	QUAD $0x0e0532742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 5], 14
+	LONG $0x385d63c4; WORD $0x01f3             // vinserti128    ymm14, ymm4, xmm3, 1
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0f0502642049e3c4                   // vpinsrb    xmm4, xmm6, byte [rdx + rax + 5], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
+	LONG $0xe76e79c5                           // vmovd    xmm12, edi
+	LONG $0x385de3c4; WORD $0x01dd             // vinserti128    ymm3, ymm4, xmm5, 1
+	QUAD $0x000200249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 512], ymm3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x0a               // movzx    edi, byte [rdx + rax + 10]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	QUAD $0x01063a6c2011a3c4                   // vpinsrb    xmm5, xmm13, byte [rdx + r15 + 6], 1
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0206026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 2
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0306026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0406026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 4
+	QUAD $0x0506026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 6], 5
+	QUAD $0x06060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 6
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x07060a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 6], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0806026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 8
+	QUAD $0x0000014024848b4c                   // mov    r8, qword [rsp + 320]
+	QUAD $0x0906026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 6], 9
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0a06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 10
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0b06026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 6], 11
+	QUAD $0x0c062a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 6], 12
+	QUAD $0x0d061a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 6], 13
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x0e06126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 6], 14
+	QUAD $0x0f06326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 6], 15
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	QUAD $0x01061a742041a3c4                   // vpinsrb    xmm6, xmm7, byte [rdx + r11 + 6], 1
+	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
+	QUAD $0x020632742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r14 + 6], 2
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x03061a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rbx + 6], 3
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x040602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x050602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 5
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x06063a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 6], 6
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x070602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 7
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x080602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 8
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x090602742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rax + 6], 9
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0a0632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 10
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x0b060a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r9 + 6], 11
+	QUAD $0x0c0622742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 6], 12
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0d0622742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 6], 13
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0e0632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 14
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0f0632742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 6], 15
+	QUAD $0x01073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 1
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	QUAD $0x020732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 2
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x030732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 3
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x040732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 4
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x050732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 5
+	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
+	QUAD $0x06073a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 7], 6
+	QUAD $0x07070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 7
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x08070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 8
+	QUAD $0x090702542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 7], 9
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x0a0732542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 7], 10
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0b070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 11
+	QUAD $0x0c072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 12
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	QUAD $0x0d072a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 7], 13
+	QUAD $0x0e0712542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 7], 14
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x0f070a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 7], 15
+	QUAD $0x01071a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 7], 1
+	QUAD $0x0207324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 7], 2
+	QUAD $0x03071a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 7], 3
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x04070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x05070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 5
+	QUAD $0x06073a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 7], 6
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x07070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 7
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x08070a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 7], 8
+	QUAD $0x0907024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a07024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 10
+	QUAD $0x0b070a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 7], 11
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0c07024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 7], 12
+	QUAD $0x0d07224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 7], 13
+	LONG $0x384de3c4; WORD $0x01dd             // vinserti128    ymm3, ymm6, xmm5, 1
+	QUAD $0x0004a0249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1184], ymm3
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e07026c2071e3c4                   // vpinsrb    xmm5, xmm1, byte [rdx + rax + 7], 14
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rax + 11]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0f07026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 7], 15
+	LONG $0x3855e3c4; WORD $0x01d2             // vinserti128    ymm2, ymm5, xmm2, 1
+	QUAD $0x00048024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1152], ymm2
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x0b               // movzx    edi, byte [rdx + rax + 11]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0108026c2031e3c4                   // vpinsrb    xmm5, xmm9, byte [rdx + rax + 8], 1
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x0208026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 2
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x03080a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rcx + 8], 3
+	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
+	QUAD $0x0408126c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r10 + 8], 4
+	QUAD $0x000000a0249c8b48                   // mov    rbx, qword [rsp + 160]
+	QUAD $0x05081a6c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rbx + 8], 5
+	QUAD $0x06083a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r15 + 8], 6
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0708026c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rax + 8], 7
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x08080a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r9 + 8], 8
+	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
+	QUAD $0x0908026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 8], 9
+	QUAD $0x0a08326c2051e3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + rsi + 8], 10
+	QUAD $0x000000b024848b4c                   // mov    r8, qword [rsp + 176]
+	QUAD $0x0b08026c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r8 + 8], 11
+	QUAD $0x00000108249c8b4c                   // mov    r11, qword [rsp + 264]
+	QUAD $0x0c081a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r11 + 8], 12
+	QUAD $0x0d082a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 8], 13
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x0e082a6c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r13 + 8], 14
+	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
+	QUAD $0x0f08326c2051a3c4                   // vpinsrb    xmm5, xmm5, byte [rdx + r14 + 8], 15
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x010832742029e3c4                   // vpinsrb    xmm6, xmm10, byte [rdx + rsi + 8], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x020832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 2
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x030832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 3
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+	QUAD $0x04083a742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r15 + 8], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05083a742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rdi + 8], 5
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x060832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 6
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x070832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 7
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x080832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 8
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x090832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 9
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0a0832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 10
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x0b0832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 11
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0c0832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 12
+	QUAD $0x0d0822742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 8], 13
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x0e0822742049a3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + r12 + 8], 14
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0f0832742049e3c4                   // vpinsrb    xmm6, xmm6, byte [rdx + rsi + 8], 15
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x0109327c2039e3c4                   // vpinsrb    xmm7, xmm8, byte [rdx + rsi + 9], 1
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	QUAD $0x0209327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 2
+	QUAD $0x03090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 3
+	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
+	QUAD $0x0409127c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r10 + 9], 4
+	QUAD $0x05091a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rbx + 9], 5
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0609327c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rsi + 9], 6
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x07090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 7
+	QUAD $0x08090a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r9 + 9], 8
+	QUAD $0x0909027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 9
+	QUAD $0x000000b8248c8b48                   // mov    rcx, qword [rsp + 184]
+	QUAD $0x0a090a7c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rcx + 9], 10
+	QUAD $0x0b09027c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r8 + 9], 11
+	QUAD $0x0c091a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r11 + 9], 12
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0d09027c2041e3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + rax + 9], 13
+	QUAD $0x0e092a7c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r13 + 9], 14
+	QUAD $0x0f09327c2041a3c4                   // vpinsrb    xmm7, xmm7, byte [rdx + r14 + 9], 15
+	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
+	QUAD $0x01092a5c2021a3c4                   // vpinsrb    xmm3, xmm11, byte [rdx + r13 + 9], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0209025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 2
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0309025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 3
+	QUAD $0x04093a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 9], 4
+	QUAD $0x05093a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 9], 5
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0609025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 6
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x07091a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 9], 7
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0809025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 8
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x0909025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 11
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0c09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 12
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0d09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 13
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 14
+	LONG $0x384de3c4; WORD $0x01ed             // vinserti128    ymm5, ymm6, xmm5, 1
+	QUAD $0x00046024ac7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1120], ymm5
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0f09025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 9], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
+	LONG $0xef6ef9c5                           // vmovd    xmm5, edi
+	LONG $0x3865e3c4; WORD $0x01df             // vinserti128    ymm3, ymm3, xmm7, 1
+	QUAD $0x000440249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1088], ymm3
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x0c               // movzx    edi, byte [rdx + rax + 12]
+	LONG $0xf76ef9c5                           // vmovd    xmm6, edi
+	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
+	QUAD $0x010a125c2019a3c4                   // vpinsrb    xmm3, xmm12, byte [rdx + r10 + 10], 1
+	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
+	QUAD $0x020a025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 10], 2
+	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
+	QUAD $0x030a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 3
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x040a1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 10], 4
+	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
+	QUAD $0x050a225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 10], 5
+	QUAD $0x060a325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 10], 6
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x070a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 7
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x080a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 8
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x090a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 9
+	QUAD $0x0a0a0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 10], 10
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x0b0a3a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 10], 11
+	QUAD $0x0000010824b48b4c                   // mov    r14, qword [rsp + 264]
+	QUAD $0x0c0a325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 10], 12
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x0d0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 13
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0e0a025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 10], 14
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x0f0a3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 10], 15
+	QUAD $0x010a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 1
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x020a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 2
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x030a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 3
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x040a3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 10], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x050a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 5
+	QUAD $0x0000009024ac8b4c                   // mov    r13, qword [rsp + 144]
+	QUAD $0x060a2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 10], 6
+	QUAD $0x070a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 7
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x080a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 8
+	QUAD $0x000000d8248c8b48                   // mov    rcx, qword [rsp + 216]
+	QUAD $0x090a0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 10], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 10
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x0b0a1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 10], 11
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0c0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 12
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0d0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 13
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 14
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0f0a02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 10], 15
+	QUAD $0x010b124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 11], 1
+	QUAD $0x020b024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 11], 2
+	QUAD $0x030b0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 11], 3
+	QUAD $0x040b1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 11], 4
+	QUAD $0x050b224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 11], 5
+	QUAD $0x060b324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 11], 6
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x070b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x080b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 8
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x090b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 9
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0a0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 10
+	QUAD $0x0b0b3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 11], 11
+	QUAD $0x0c0b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 12
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0d0b024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 11], 13
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x0e0b3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 11], 14
+	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
+	QUAD $0x0f0b324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 11], 15
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x010b1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 11], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x020b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 2
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x030b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 3
+	QUAD $0x040b3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 11], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x050b02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 11], 5
+	QUAD $0x060b2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 11], 6
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x070b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 7
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x080b32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 11], 8
+	QUAD $0x090b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 9
+	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0a0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 10
+	QUAD $0x0b0b1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 11], 11
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0c0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 12
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0d0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 13
+	LONG $0x385de3c4; WORD $0x01db             // vinserti128    ymm3, ymm4, xmm3, 1
+	QUAD $0x000420249c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1056], ymm3
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0e0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 14
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0a7cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rcx + 13]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0f0b0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 11], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000400248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 1024], ymm1
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0a7cb60f; BYTE $0x0d               // movzx    edi, byte [rdx + rcx + 13]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
+	QUAD $0x010c12542051a3c4                   // vpinsrb    xmm2, xmm5, byte [rdx + r10 + 12], 1
+	QUAD $0x020c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 2
+	QUAD $0x030c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 3
+	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
+	QUAD $0x040c02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 12], 4
+	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
+	QUAD $0x050c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 12], 5
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x060c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 6
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x070c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 7
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x080c32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 12], 8
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x090c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 9
+	QUAD $0x000000b824948b4c                   // mov    r10, qword [rsp + 184]
+	QUAD $0x0a0c12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 12], 10
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0b0c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 11
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x0c0c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 12
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x0d0c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 12], 13
+	QUAD $0x0e0c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 12], 14
+	QUAD $0x0f0c32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 12], 15
+	QUAD $0x010c1a642049e3c4                   // vpinsrb    xmm4, xmm6, byte [rdx + rbx + 12], 1
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+	QUAD $0x020c3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 12], 2
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x030c3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 12], 3
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x040c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 4
+	QUAD $0x050c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 5
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+	QUAD $0x060c32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 12], 6
+	QUAD $0x0000008824a48b4c                   // mov    r12, qword [rsp + 136]
+	QUAD $0x070c22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 12], 7
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x080c02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 12], 8
+	QUAD $0x090c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 9
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0a0c1a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r11 + 12], 10
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0b0c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 11
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0c0c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 12
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x0d0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 13
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0e0c1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 12], 14
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	QUAD $0x0f0c2a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 12], 15
+	QUAD $0x010d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x020d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 2
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x030d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 3
+	QUAD $0x040d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 4
+	QUAD $0x050d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 5
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x060d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 6
+	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
+	QUAD $0x070d0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 13], 7
+	QUAD $0x080d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 13], 8
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x090d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 9
+	QUAD $0x0a0d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 13], 10
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0b0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 11
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	QUAD $0x0c0d1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 13], 12
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x0d0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 13
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0e0d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 13], 14
+	QUAD $0x000000f824848b4c                   // mov    r8, qword [rsp + 248]
+	QUAD $0x0f0d025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 13], 15
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+	QUAD $0x010d124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 13], 1
+	QUAD $0x020d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 2
+	QUAD $0x030d3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 13], 3
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x040d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 4
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x050d324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 13], 5
+	QUAD $0x060d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 6
+	QUAD $0x070d224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 13], 7
+	QUAD $0x080d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 8
+	QUAD $0x000000d824b48b4c                   // mov    r14, qword [rsp + 216]
+	QUAD $0x090d324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 13], 9
+	QUAD $0x0a0d1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 13], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 11
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0c0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 12
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0d0d024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 13], 13
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x0e0d3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 13], 14
+	LONG $0x385de3c4; WORD $0x01d2             // vinserti128    ymm2, ymm4, xmm2, 1
+	QUAD $0x0003e024947ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 992], ymm2
+	QUAD $0x0f0d2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 13], 15
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	QUAD $0x0003c0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 960], ymm1
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x0e               // movzx    edi, byte [rdx + rax + 14]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000c824b48b48                   // mov    rsi, qword [rsp + 200]
+	QUAD $0x010e32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 14], 1
+	QUAD $0x000000e024848b48                   // mov    rax, qword [rsp + 224]
+	QUAD $0x020e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 2
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x030e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x040e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 4
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x050e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 5
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x060e1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 14], 6
+	QUAD $0x070e0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 14], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x080e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 8
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x090e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 9
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0a0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 10
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0b0e02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 14], 11
+	QUAD $0x0c0e1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 14], 12
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	QUAD $0x0d0e2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 14], 13
+	QUAD $0x0e0e0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 14], 14
+	QUAD $0x0f0e02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 14], 15
+	QUAD $0x010e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 14], 1
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x020e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 2
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x030e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 3
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x040e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x050e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 5
+	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
+	QUAD $0x060e224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 14], 6
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x070e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 7
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x080e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 8
+	QUAD $0x090e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 9
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0a0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 10
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0b0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 11
+	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
+	QUAD $0x0c0e324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 14], 12
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0d0e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 14], 13
+	QUAD $0x0e0e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 14], 14
+	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
+	QUAD $0x0f0e024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 14], 15
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0a7cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rcx + 15]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x010f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 1
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	QUAD $0x020f125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 15], 2
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x030f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 3
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x040f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 4
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x050f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 5
+	QUAD $0x060f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 6
+	QUAD $0x070f0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 15], 7
+	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
+	QUAD $0x080f1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 15], 8
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x090f3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 15], 9
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x0a0f325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 15], 10
+	QUAD $0x0b0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 11
+	QUAD $0x0c0f1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 15], 12
+	QUAD $0x0d0f2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 15], 13
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0e0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 14
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x0f0f025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 15], 15
+	QUAD $0x000000f024b48b48                   // mov    rsi, qword [rsp + 240]
+	LONG $0x327cb60f; BYTE $0x0f               // movzx    edi, byte [rdx + rsi + 15]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x010f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x020f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 2
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x030f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 3
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x040f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x050f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 5
+	QUAD $0x060f22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 15], 6
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x070f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 15], 7
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x080f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 8
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x090f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 9
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0a0f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 10
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x0b0f3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 15], 11
+	QUAD $0x0c0f32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 15], 12
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0d0f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 15], 13
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0e0f3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 15], 14
+	QUAD $0x0f0f02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 15], 15
+	LONG $0x3875e3c4; WORD $0x01ca             // vinserti128    ymm1, ymm1, xmm2, 1
+	QUAD $0x000380248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 896], ymm1
+	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
+	QUAD $0x0003a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 928], ymm1
+	LONG $0x0a7cb60f; BYTE $0x10               // movzx    edi, byte [rdx + rcx + 16]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x01100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 1
+	QUAD $0x0210124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 16], 2
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x03100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 3
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x04100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 4
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x05100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 5
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x06100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 6
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x07100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 7
+	QUAD $0x08101a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 16], 8
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x09100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 9
+	QUAD $0x000000b824a48b4c                   // mov    r12, qword [rsp + 184]
+	QUAD $0x0a10224c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r12 + 16], 10
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0b100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 11
+	QUAD $0x0c101a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 16], 12
+	QUAD $0x0d102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 13
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x0e102a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 16], 14
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x0f100a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 16], 15
+	LONG $0x327cb60f; BYTE $0x10               // movzx    edi, byte [rdx + rsi + 16]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x01100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 1
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x02101a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 16], 2
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x03100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 3
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x04100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x05100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 5
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x06100a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 16], 6
+	QUAD $0x071002542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 16], 7
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x081002542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 16], 8
+	QUAD $0x000000d824b48b48                   // mov    rsi, qword [rsp + 216]
+	QUAD $0x091032542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 16], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a1002542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 16], 10
+	QUAD $0x0b103a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 16], 11
+	QUAD $0x0c1032542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 16], 12
+	QUAD $0x0d100a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 16], 13
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e1002542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 16], 14
+	QUAD $0x0f1002542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 16], 15
+	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x1102             // movzx    edi, byte [rdx + r8 + 17]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0111025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 1
+	QUAD $0x0211125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 17], 2
+	QUAD $0x000000a8249c8b4c                   // mov    r11, qword [rsp + 168]
+	QUAD $0x03111a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 17], 3
+	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
+	QUAD $0x04110a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 17], 4
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x0511025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 5
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x0611025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 6
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0711025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0811025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 8
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0911025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 9
+	QUAD $0x0a11225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 17], 10
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x0b11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 11
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0c11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 12
+	QUAD $0x000000e824848b48                   // mov    rax, qword [rsp + 232]
+	QUAD $0x0d11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 13
+	QUAD $0x0e112a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 17], 14
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x0f11025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 17], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x11               // movzx    edi, byte [rdx + rdi + 17]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x000000d024bc8b4c                   // mov    r15, qword [rsp + 208]
+	QUAD $0x01113a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 17], 1
+	QUAD $0x02111a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 17], 2
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x03111a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 17], 3
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x04113a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 17], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05113a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 17], 5
+	QUAD $0x06110a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 17], 6
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x071132642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 17], 7
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x08110a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 17], 8
+	QUAD $0x091132642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 17], 9
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0a1132642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 17], 10
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x0b1122642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 17], 11
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x0c112a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 17], 12
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0d1132642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 17], 13
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0e113a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 17], 14
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000360248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 864], ymm1
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x0f11324c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rsi + 17], 15
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	QUAD $0x000340248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 832], ymm1
+	LONG $0x7cb60f42; WORD $0x1202             // movzx    edi, byte [rdx + r8 + 18]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x01123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 1
+	QUAD $0x0212124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 18], 2
+	QUAD $0x03121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 3
+	QUAD $0x04120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 4
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+	QUAD $0x05121a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 18], 5
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x06123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 6
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x07123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 7
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x08120a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 18], 8
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x09123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 9
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x0a123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 10
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0b123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 11
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x0c123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 12
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x0d123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 13
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0e123a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 18], 14
+	QUAD $0x0f12024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 18], 15
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	LONG $0x027cb60f; BYTE $0x12               // movzx    edi, byte [rdx + rax + 18]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x01123a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 18], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x021202542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 18], 2
+	QUAD $0x03121a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 18], 3
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x041202542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 18], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x051202542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 18], 5
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x06121a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 18], 6
+	QUAD $0x071232542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 18], 7
+	QUAD $0x08120a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 18], 8
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x091202542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 18], 9
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0a123a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 18], 10
+	QUAD $0x0b1222542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 18], 11
+	QUAD $0x0c122a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 18], 12
+	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
+	QUAD $0x0d1232542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 18], 13
+	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
+	QUAD $0x0e1202542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 18], 14
+	QUAD $0x0f1232542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 18], 15
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rcx + 19]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000c824948b4c                   // mov    r10, qword [rsp + 200]
+	QUAD $0x0113125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 19], 1
+	QUAD $0x000000e024b48b48                   // mov    rsi, qword [rsp + 224]
+	QUAD $0x0213325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 19], 2
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x03133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 3
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x04133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 4
+	QUAD $0x05131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 5
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x06133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 6
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x07131a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 19], 7
+	QUAD $0x08130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 8
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x09133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 9
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x0a133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 10
+	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
+	QUAD $0x0b130a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 19], 11
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x0c133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 12
+	QUAD $0x000000e824ac8b4c                   // mov    r13, qword [rsp + 232]
+	QUAD $0x0d132a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 19], 13
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0e133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 14
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x0f133a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 19], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x13               // movzx    edi, byte [rdx + rdi + 19]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x000000d024bc8b48                   // mov    rdi, qword [rsp + 208]
+	QUAD $0x01133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 1
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x02133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 2
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x03133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 3
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x041322642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 19], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 5
+	QUAD $0x06131a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 19], 6
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x07133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 7
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x08133a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 19], 8
+	QUAD $0x091302642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 19], 9
+	QUAD $0x0a133a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 19], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b1302642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 19], 11
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0c1302642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 19], 12
+	QUAD $0x0d1332642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 19], 13
+	QUAD $0x0e1302642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 19], 14
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0f1302642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 19], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000300248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 768], ymm1
+	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
+	QUAD $0x000320248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 800], ymm1
+	LONG $0x0a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rcx + 20]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x0114124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 1
+	QUAD $0x0214324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 2
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+	QUAD $0x0314124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 20], 3
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	QUAD $0x04143a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 20], 4
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x0514324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 20], 5
+	QUAD $0x0000009824848b4c                   // mov    r8, qword [rsp + 152]
+	QUAD $0x0614024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 20], 6
+	QUAD $0x07141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0814024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 8
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x09141a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 20], 9
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0a14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 10
+	QUAD $0x0b140a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 20], 11
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0c14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 12
+	QUAD $0x0d142a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 20], 13
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0e14024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 20], 14
+	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
+	QUAD $0x0f141a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 20], 15
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0a7cb60f; BYTE $0x14               // movzx    edi, byte [rdx + rcx + 20]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x01140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 1
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	QUAD $0x02140a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 20], 2
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x03140a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 20], 3
+	QUAD $0x041422542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 20], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 5
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x06143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 6
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x07143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 7
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x081432542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 20], 8
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x09143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 9
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0a143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 10
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0b143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 11
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0c143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 12
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0d143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 13
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0e143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 14
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0f143a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 20], 15
+	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x1522             // movzx    edi, byte [rdx + r12 + 21]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x01153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 1
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x02153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 2
+	QUAD $0x0315125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 21], 3
+	QUAD $0x04153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 4
+	QUAD $0x0515325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 5
+	QUAD $0x0615025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 21], 6
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x07152a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 21], 7
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x08153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 8
+	QUAD $0x09151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 9
+	QUAD $0x000000b824b48b48                   // mov    rsi, qword [rsp + 184]
+	QUAD $0x0a15325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 21], 10
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x0b153a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r15 + 21], 11
+	QUAD $0x00000108249c8b48                   // mov    rbx, qword [rsp + 264]
+	QUAD $0x0c151a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 21], 12
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x0d153a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 21], 13
+	QUAD $0x0e15025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 21], 14
+	QUAD $0x0f151a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 21], 15
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	LONG $0x7cb60f42; WORD $0x151a             // movzx    edi, byte [rdx + r11 + 21]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x011502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 1
+	QUAD $0x02150a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 21], 2
+	QUAD $0x03150a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 21], 3
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x041502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 4
+	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
+	QUAD $0x051512642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 21], 5
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x061502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 6
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x071502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 7
+	QUAD $0x081532642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 21], 8
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x091502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 9
+	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
+	QUAD $0x0a1502642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 21], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 11
+	LONG $0x24748b4c; BYTE $0x28               // mov    r14, qword [rsp + 40]
+	QUAD $0x0c1532642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 21], 12
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0d1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 13
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e1502642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 21], 14
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x0002c0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 704], ymm1
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0f150a4c2059e3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + rcx + 21], 15
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	QUAD $0x0002e0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 736], ymm1
+	LONG $0x7cb60f42; WORD $0x1622             // movzx    edi, byte [rdx + r12 + 22]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x01160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x02160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 2
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	QUAD $0x03160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 3
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x04160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 4
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x05160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 5
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	QUAD $0x06160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 6
+	QUAD $0x07162a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 22], 7
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x08160a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 22], 8
+	QUAD $0x00000140248c8b48                   // mov    rcx, qword [rsp + 320]
+	QUAD $0x09160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 9
+	QUAD $0x0a16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 10
+	QUAD $0x0b163a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 22], 11
+	QUAD $0x0c161a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 22], 12
+	QUAD $0x000000e824b48b48                   // mov    rsi, qword [rsp + 232]
+	QUAD $0x0d16324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 22], 13
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0e160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 14
+	QUAD $0x000000f8248c8b48                   // mov    rcx, qword [rsp + 248]
+	QUAD $0x0f160a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 22], 15
+	LONG $0x7cb60f42; WORD $0x161a             // movzx    edi, byte [rdx + r11 + 22]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x01161a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 22], 1
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x02163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 2
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x03163a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 22], 3
+	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
+	QUAD $0x04162a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 22], 4
+	QUAD $0x051612542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 22], 5
+	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
+	QUAD $0x061622542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 22], 6
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x07163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 7
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x08163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 8
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x09163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 9
+	QUAD $0x0a1602542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 22], 10
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0b163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 11
+	QUAD $0x0c1632542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 22], 12
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0d163a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 22], 13
+	QUAD $0x0e1602542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 22], 14
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x0f1602542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 22], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rdi + 23]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x01173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 1
+	QUAD $0x000000e024848b4c                   // mov    r8, qword [rsp + 224]
+	QUAD $0x0217025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 23], 2
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x03173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 3
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x04173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 4
+	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
+	QUAD $0x0517125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 23], 5
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x06171a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 23], 6
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x0717325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 23], 7
+	QUAD $0x08170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 8
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x09173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 9
+	QUAD $0x000000b8248c8b4c                   // mov    r9, qword [rsp + 184]
+	QUAD $0x0a170a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 23], 10
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0b173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 11
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x0c173a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 23], 12
+	QUAD $0x0d17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 13
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x0e17325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 23], 14
+	QUAD $0x0f170a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 23], 15
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0a7cb60f; BYTE $0x17               // movzx    edi, byte [rdx + rcx + 23]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x01171a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 23], 1
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x02170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 2
+	QUAD $0x03173a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 23], 3
+	QUAD $0x04172a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 23], 4
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x051732642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 23], 5
+	QUAD $0x061722642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 23], 6
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	QUAD $0x07173a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 23], 7
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x08170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 8
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x091722642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 23], 9
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0a170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 10
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x0b172a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r13 + 23], 11
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0c170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 12
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0d170a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 23], 13
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0e173a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 23], 14
+	QUAD $0x0f1702642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 23], 15
+	LONG $0x386d63c4; WORD $0x01d9             // vinserti128    ymm11, ymm2, xmm1, 1
+	LONG $0x385d63c4; WORD $0x01e3             // vinserti128    ymm12, ymm4, xmm3, 1
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rax + 24]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000c824848b48                   // mov    rax, qword [rsp + 200]
+	QUAD $0x0118024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 1
+	QUAD $0x0218024c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r8 + 24], 2
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x0318024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x0418024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 4
+	QUAD $0x0518124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 24], 5
+	QUAD $0x06181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 6
+	QUAD $0x0718324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 24], 7
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x0818024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 24], 8
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x09183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 9
+	QUAD $0x0a180a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 24], 10
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+	QUAD $0x0b181a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 24], 11
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x0c183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 12
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x0d183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 13
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0e183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 14
+	QUAD $0x000000f824bc8b48                   // mov    rdi, qword [rsp + 248]
+	QUAD $0x0f183a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 24], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x18               // movzx    edi, byte [rdx + rdi + 24]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x01181a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 24], 1
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x02183a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 24], 2
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x03183a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 24], 3
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x04183a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 24], 4
+	QUAD $0x051832542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 24], 5
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x061832542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 24], 6
+	QUAD $0x07183a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 24], 7
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x081832542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 24], 8
+	QUAD $0x091822542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 24], 9
+	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
+	QUAD $0x0a1802542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 24], 10
+	QUAD $0x0b182a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 24], 11
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0c1832542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 24], 12
+	QUAD $0x0d180a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 24], 13
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0e180a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 24], 14
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x0f1812542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 24], 15
+	QUAD $0x00000100248c8b48                   // mov    rcx, qword [rsp + 256]
+	LONG $0x0a7cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rcx + 25]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000c8248c8b4c                   // mov    r9, qword [rsp + 200]
+	QUAD $0x01190a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 25], 1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x02190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 2
+	QUAD $0x000000a824ac8b4c                   // mov    r13, qword [rsp + 168]
+	QUAD $0x03192a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 25], 3
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x04190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 4
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x05190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 5
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x0619325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 25], 6
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x07190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 7
+	QUAD $0x0819025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 8
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x0919025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 9
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0a19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 10
+	QUAD $0x0b191a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 25], 11
+	QUAD $0x0000010824848b48                   // mov    rax, qword [rsp + 264]
+	QUAD $0x0c19025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 25], 12
+	QUAD $0x000000e8248c8b48                   // mov    rcx, qword [rsp + 232]
+	QUAD $0x0d190a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 25], 13
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0e193a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 25], 14
+	QUAD $0x000000f8249c8b4c                   // mov    r11, qword [rsp + 248]
+	QUAD $0x0f191a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 25], 15
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	LONG $0x3a7cb60f; BYTE $0x19               // movzx    edi, byte [rdx + rdi + 25]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x01191a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 25], 1
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x02193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 2
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x03193a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 25], 3
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x04193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x05193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 5
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x06193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 6
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x07193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 7
+	QUAD $0x081932642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 25], 8
+	QUAD $0x091922642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 25], 9
+	QUAD $0x0a1902642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 25], 10
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x0b1922642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 25], 11
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0c193a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 25], 12
+	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
+	QUAD $0x0d1932642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 25], 13
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0e191a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 25], 14
+	LONG $0x386d63c4; WORD $0x01d1             // vinserti128    ymm10, ymm2, xmm1, 1
+	QUAD $0x0f19124c2059a3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + r10 + 25], 15
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	QUAD $0x0001a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 416], ymm1
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3a7cb60f; BYTE $0x1a               // movzx    edi, byte [rdx + rdi + 26]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x011a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 1
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x021a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 2
+	QUAD $0x031a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 3
+	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
+	QUAD $0x041a0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 26], 4
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x051a3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 26], 5
+	QUAD $0x061a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 6
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x071a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 7
+	QUAD $0x000000c024b48b48                   // mov    rsi, qword [rsp + 192]
+	QUAD $0x081a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 8
+	QUAD $0x0000014024b48b48                   // mov    rsi, qword [rsp + 320]
+	QUAD $0x091a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 9
+	QUAD $0x000000b824ac8b4c                   // mov    r13, qword [rsp + 184]
+	QUAD $0x0a1a2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 26], 10
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x0b1a324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 26], 11
+	QUAD $0x0c1a024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 26], 12
+	QUAD $0x0d1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 13
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0e1a0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 26], 14
+	WORD $0x894c; BYTE $0xde                   // mov    rsi, r11
+	QUAD $0x0f1a1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 26], 15
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	LONG $0x7cb60f42; WORD $0x1a1a             // movzx    edi, byte [rdx + r11 + 26]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	QUAD $0x011a0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 26], 1
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x021a02542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r8 + 26], 2
+	QUAD $0x031a3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 26], 3
+	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
+	QUAD $0x041a12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 26], 4
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	QUAD $0x051a0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 26], 5
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x061a0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 26], 6
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	QUAD $0x071a3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 26], 7
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x081a0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 26], 8
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x091a3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 26], 9
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x0a1a3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 26], 10
+	QUAD $0x0b1a22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 26], 11
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0c1a3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 26], 12
+	QUAD $0x0d1a32542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r14 + 26], 13
+	QUAD $0x0e1a1a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rbx + 26], 14
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0f1a3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 26], 15
+	QUAD $0x0000010024bc8b48                   // mov    rdi, qword [rsp + 256]
+	LONG $0x3a7cb60f; BYTE $0x1b               // movzx    edi, byte [rdx + rdi + 27]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x000000c824bc8b48                   // mov    rdi, qword [rsp + 200]
+	QUAD $0x011b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 1
+	QUAD $0x000000e024b48b4c                   // mov    r14, qword [rsp + 224]
+	QUAD $0x021b325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 27], 2
+	QUAD $0x000000a824bc8b48                   // mov    rdi, qword [rsp + 168]
+	QUAD $0x031b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 3
+	QUAD $0x041b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 4
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x051b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 5
+	QUAD $0x0000009824bc8b48                   // mov    rdi, qword [rsp + 152]
+	QUAD $0x061b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 6
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x071b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 7
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x081b0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 27], 8
+	QUAD $0x00000140249c8b48                   // mov    rbx, qword [rsp + 320]
+	QUAD $0x091b1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 27], 9
+	QUAD $0x0a1b2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 27], 10
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0b1b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 11
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x0c1b3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 27], 12
+	QUAD $0x0d1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 13
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0e1b025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 27], 14
+	QUAD $0x0f1b325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 27], 15
+	LONG $0x7cb60f42; WORD $0x1b1a             // movzx    edi, byte [rdx + r11 + 27]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x011b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 1
+	QUAD $0x021b02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 27], 2
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x031b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 3
+	QUAD $0x041b12642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r10 + 27], 4
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x051b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 5
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x061b32642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rsi + 27], 6
+	QUAD $0x071b3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 27], 7
+	QUAD $0x081b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 8
+	QUAD $0x000000d824a48b4c                   // mov    r12, qword [rsp + 216]
+	QUAD $0x091b22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 27], 9
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0a1b3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 27], 10
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0b1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 11
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0c1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 12
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0d1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 13
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0e1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 14
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0f1b0a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rcx + 27], 15
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000240248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 576], ymm1
+	LONG $0x385de3c4; WORD $0x01cb             // vinserti128    ymm1, ymm4, xmm3, 1
+	QUAD $0x000260248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 608], ymm1
+	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
+	LONG $0x7cb60f42; WORD $0x1c02             // movzx    edi, byte [rdx + r8 + 28]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000c8248c8b48                   // mov    rcx, qword [rsp + 200]
+	QUAD $0x011c0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 28], 1
+	QUAD $0x021c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 2
+	QUAD $0x000000a824b48b48                   // mov    rsi, qword [rsp + 168]
+	QUAD $0x031c324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 28], 3
+	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
+	QUAD $0x041c124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 28], 4
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+	QUAD $0x051c1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 28], 5
+	QUAD $0x0000009824ac8b4c                   // mov    r13, qword [rsp + 152]
+	QUAD $0x061c2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 28], 6
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x071c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 7
+	QUAD $0x081c0a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r9 + 28], 8
+	QUAD $0x091c1a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rbx + 28], 9
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x0a1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 10
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0b1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 11
+	QUAD $0x0000010824bc8b48                   // mov    rdi, qword [rsp + 264]
+	QUAD $0x0c1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 12
+	QUAD $0x000000e824bc8b48                   // mov    rdi, qword [rsp + 232]
+	QUAD $0x0d1c3a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rdi + 28], 13
+	QUAD $0x0e1c024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 28], 14
+	QUAD $0x000000f824b48b4c                   // mov    r14, qword [rsp + 248]
+	QUAD $0x0f1c324c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r14 + 28], 15
+	QUAD $0x000000f0249c8b48                   // mov    rbx, qword [rsp + 240]
+	LONG $0x1a7cb60f; BYTE $0x1c               // movzx    edi, byte [rdx + rbx + 28]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x011c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x021c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 2
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x031c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 3
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x041c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x051c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 5
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x061c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 6
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x071c0a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r9 + 28], 7
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x081c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 8
+	QUAD $0x091c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 28], 9
+	QUAD $0x0a1c3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 28], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b1c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 11
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0c1c02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 28], 12
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0d1c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 28], 13
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0e1c3a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rdi + 28], 14
+	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
+	QUAD $0x0f1c22542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r12 + 28], 15
+	LONG $0x7cb60f42; WORD $0x1d02             // movzx    edi, byte [rdx + r8 + 29]
+	LONG $0xdf6ef9c5                           // vmovd    xmm3, edi
+	QUAD $0x011d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 1
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	QUAD $0x021d0a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rcx + 29], 2
+	QUAD $0x031d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 3
+	QUAD $0x041d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 29], 4
+	QUAD $0x051d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 5
+	QUAD $0x061d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 6
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x071d325c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rsi + 29], 7
+	QUAD $0x000000c024bc8b48                   // mov    rdi, qword [rsp + 192]
+	QUAD $0x081d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 8
+	QUAD $0x0000014024bc8b48                   // mov    rdi, qword [rsp + 320]
+	QUAD $0x091d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 9
+	QUAD $0x000000b824bc8b48                   // mov    rdi, qword [rsp + 184]
+	QUAD $0x0a1d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 10
+	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
+	QUAD $0x0b1d2a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r13 + 29], 11
+	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
+	QUAD $0x0c1d125c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r10 + 29], 12
+	QUAD $0x000000e8249c8b4c                   // mov    r11, qword [rsp + 232]
+	QUAD $0x0d1d1a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r11 + 29], 13
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0e1d3a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rdi + 29], 14
+	QUAD $0x0f1d325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 29], 15
+	LONG $0x1a7cb60f; BYTE $0x1d               // movzx    edi, byte [rdx + rbx + 29]
+	LONG $0xe76ef9c5                           // vmovd    xmm4, edi
+	QUAD $0x000000d024848b4c                   // mov    r8, qword [rsp + 208]
+	QUAD $0x011d02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 29], 1
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x021d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 2
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x031d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 3
+	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
+	QUAD $0x041d32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 29], 4
+	QUAD $0x0000012024bc8b48                   // mov    rdi, qword [rsp + 288]
+	QUAD $0x051d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 5
+	QUAD $0x00000090249c8b48                   // mov    rbx, qword [rsp + 144]
+	QUAD $0x061d1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 29], 6
+	QUAD $0x071d0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 29], 7
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x081d0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 29], 8
+	QUAD $0x000000d824bc8b48                   // mov    rdi, qword [rsp + 216]
+	QUAD $0x091d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 9
+	QUAD $0x0a1d3a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r15 + 29], 10
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x0b1d3a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rdi + 29], 11
+	QUAD $0x0c1d02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 29], 12
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0d1d02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 29], 13
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e1d02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 29], 14
+	LONG $0x386de3c4; WORD $0x01c9             // vinserti128    ymm1, ymm2, xmm1, 1
+	QUAD $0x000280248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 640], ymm1
+	QUAD $0x0f1d224c2059a3c4                   // vpinsrb    xmm1, xmm4, byte [rdx + r12 + 29], 15
+	LONG $0x3875e3c4; WORD $0x01cb             // vinserti128    ymm1, ymm1, xmm3, 1
+	QUAD $0x0002a0248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 672], ymm1
+	QUAD $0x0000010024848b48                   // mov    rax, qword [rsp + 256]
+	LONG $0x027cb60f; BYTE $0x1e               // movzx    edi, byte [rdx + rax + 30]
+	LONG $0xcf6ef9c5                           // vmovd    xmm1, edi
+	QUAD $0x000000c824bc8b4c                   // mov    r15, qword [rsp + 200]
+	QUAD $0x011e3a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r15 + 30], 1
+	LONG $0x027cb60f; BYTE $0x1f               // movzx    edi, byte [rdx + rax + 31]
+	LONG $0xd76ef9c5                           // vmovd    xmm2, edi
+	QUAD $0x011f3a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r15 + 31], 1
+	QUAD $0x021e0a4c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rcx + 30], 2
+	QUAD $0x021f0a542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rcx + 31], 2
+	QUAD $0x000000a824848b48                   // mov    rax, qword [rsp + 168]
+	QUAD $0x031e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 3
+	QUAD $0x031f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x041e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 4
+	QUAD $0x041f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 4
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x051e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 5
+	QUAD $0x051f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 5
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x061e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 6
+	QUAD $0x061f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 6
+	QUAD $0x071e324c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rsi + 30], 7
+	QUAD $0x071f32542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rsi + 31], 7
+	QUAD $0x0000011024bc8b4c                   // mov    r15, qword [rsp + 272]
+	QUAD $0x000000c024848b48                   // mov    rax, qword [rsp + 192]
+	QUAD $0x081e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 8
+	QUAD $0x081f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 8
+	QUAD $0x0000014024848b48                   // mov    rax, qword [rsp + 320]
+	QUAD $0x091e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 9
+	QUAD $0x091f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 9
+	QUAD $0x000000b824848b48                   // mov    rax, qword [rsp + 184]
+	QUAD $0x0a1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 10
+	QUAD $0x0a1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 10
+	QUAD $0x0b1e2a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r13 + 30], 11
+	QUAD $0x0b1f2a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r13 + 31], 11
+	QUAD $0x0c1e124c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r10 + 30], 12
+	QUAD $0x0c1f12542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r10 + 31], 12
+	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
+	QUAD $0x0d1e1a4c2071a3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + r11 + 30], 13
+	QUAD $0x0d1f1a542069a3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + r11 + 31], 13
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0e1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 14
+	QUAD $0x000000f824848b48                   // mov    rax, qword [rsp + 248]
+	QUAD $0x0f1e024c2071e3c4                   // vpinsrb    xmm1, xmm1, byte [rdx + rax + 30], 15
+	QUAD $0x0f1f02542069e3c4                   // vpinsrb    xmm2, xmm2, byte [rdx + rax + 31], 15
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x0a44b60f; BYTE $0x1e               // movzx    eax, byte [rdx + rcx + 30]
+	LONG $0xd86ef9c5                           // vmovd    xmm3, eax
+	QUAD $0x011e025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 30], 1
+	LONG $0x0a44b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rcx + 31]
+	LONG $0xe06ef9c5                           // vmovd    xmm4, eax
+	QUAD $0x011f02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 31], 1
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x021e025c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r8 + 30], 2
+	QUAD $0x021f02642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r8 + 31], 2
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x031e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 3
+	QUAD $0x031f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 3
+	QUAD $0x041e325c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r14 + 30], 4
+	QUAD $0x041f32642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r14 + 31], 4
+	QUAD $0x0000012024848b48                   // mov    rax, qword [rsp + 288]
+	QUAD $0x051e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 5
+	QUAD $0x051f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 5
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x061e1a5c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rbx + 30], 6
+	QUAD $0x061f1a642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rbx + 31], 6
+	QUAD $0x0000008824848b48                   // mov    rax, qword [rsp + 136]
+	QUAD $0x071e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 7
+	QUAD $0x071f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 7
+	QUAD $0x081e0a5c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r9 + 30], 8
+	QUAD $0x081f0a642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r9 + 31], 8
+	QUAD $0x000000d824848b48                   // mov    rax, qword [rsp + 216]
+	QUAD $0x091e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 9
+	QUAD $0x091f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 9
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0a1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 10
+	QUAD $0x0a1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 11
+	QUAD $0x0b1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 11
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0c1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 12
+	QUAD $0x0c1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 12
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0d1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 13
+	QUAD $0x0d1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 13
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e1e025c2061e3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f02642059e3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + rax + 31], 14
+	QUAD $0x0f1e225c2061a3c4                   // vpinsrb    xmm3, xmm3, byte [rdx + r12 + 30], 15
+	QUAD $0x0f1f22642059a3c4                   // vpinsrb    xmm4, xmm4, byte [rdx + r12 + 31], 15
+	LONG $0x3865e3c4; WORD $0x01c9             // vinserti128    ymm1, ymm3, xmm1, 1
+	QUAD $0x000140248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 320], ymm1
+	LONG $0x385de3c4; WORD $0x01ca             // vinserti128    ymm1, ymm4, xmm2, 1
+	QUAD $0x000120248c7ffdc5; BYTE $0x00       // vmovdqa    yword [rsp + 288], ymm1
+	QUAD $0x0004c0248cdefdc5; BYTE $0x00       // vpmaxub    ymm1, ymm0, yword [rsp + 1216]
+	LONG $0xc974fdc5                           // vpcmpeqb    ymm1, ymm0, ymm1
+	QUAD $0x0002202494defdc5; BYTE $0x00       // vpmaxub    ymm2, ymm0, yword [rsp + 544]
+	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
+	LONG $0x7d6ffdc5; BYTE $0x00               // vmovdqa    ymm7, yword 0[rbp] /* [rip + .LCPI11_0] */
+	LONG $0xd7dbedc5                           // vpand    ymm2, ymm2, ymm7
+	LONG $0xc9f8edc5                           // vpsubb    ymm1, ymm2, ymm1
+	QUAD $0x0001e02494defdc5; BYTE $0x00       // vpmaxub    ymm2, ymm0, yword [rsp + 480]
+	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
+	LONG $0x456f7dc5; BYTE $0x20               // vmovdqa    ymm8, yword 32[rbp] /* [rip + .LCPI11_1] */
+	LONG $0xd2dbbdc5                           // vpand    ymm2, ymm8, ymm2
+	QUAD $0x0001c024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 448]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0x6d6ffdc5; BYTE $0x40               // vmovdqa    ymm5, yword 64[rbp] /* [rip + .LCPI11_2] */
+	LONG $0xfddb05c5                           // vpand    ymm15, ymm15, ymm5
+	LONG $0xd2eb85c5                           // vpor    ymm2, ymm15, ymm2
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	LONG $0xd0de8dc5                           // vpmaxub    ymm2, ymm14, ymm0
+	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
+	LONG $0x756ffdc5; BYTE $0x60               // vmovdqa    ymm6, yword 96[rbp] /* [rip + .LCPI11_3] */
+	LONG $0xd6dbedc5                           // vpand    ymm2, ymm2, ymm6
+	QUAD $0x00020024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 512]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	QUAD $0x000000809d6ffdc5                   // vmovdqa    ymm3, yword 128[rbp] /* [rip + .LCPI11_4] */
+	LONG $0xfbdb05c5                           // vpand    ymm15, ymm15, ymm3
+	LONG $0xd2eb85c5                           // vpor    ymm2, ymm15, ymm2
+	QUAD $0x0004a024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 1184]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	QUAD $0x000000a0a56ffdc5                   // vmovdqa    ymm4, yword 160[rbp] /* [rip + .LCPI11_5] */
+	LONG $0xfcdb05c5                           // vpand    ymm15, ymm15, ymm4
+	LONG $0xd2eb85c5                           // vpor    ymm2, ymm15, ymm2
+	LONG $0xcaebf5c5                           // vpor    ymm1, ymm1, ymm2
+	QUAD $0x0004802494defdc5; BYTE $0x00       // vpmaxub    ymm2, ymm0, yword [rsp + 1152]
+	LONG $0xd274fdc5                           // vpcmpeqb    ymm2, ymm0, ymm2
+	QUAD $0x000000c08d6f7dc5                   // vmovdqa    ymm9, yword 192[rbp] /* [rip + .LCPI11_6] */
+	LONG $0xd2dbb5c5                           // vpand    ymm2, ymm9, ymm2
+	LONG $0xd2ebf5c5                           // vpor    ymm2, ymm1, ymm2
+	QUAD $0x000460248cdefdc5; BYTE $0x00       // vpmaxub    ymm1, ymm0, yword [rsp + 1120]
+	LONG $0xc974fdc5                           // vpcmpeqb    ymm1, ymm0, ymm1
+	QUAD $0x00044024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 1088]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xffdb05c5                           // vpand    ymm15, ymm15, ymm7
+	LONG $0xc9f885c5                           // vpsubb    ymm1, ymm15, ymm1
+	QUAD $0x00042024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 1056]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xdb0541c4; BYTE $0xf8               // vpand    ymm15, ymm15, ymm8
+	QUAD $0x00040024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 1024]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	LONG $0xf5db0dc5                           // vpand    ymm14, ymm14, ymm5
+	LONG $0xeb0541c4; BYTE $0xf6               // vpor    ymm14, ymm15, ymm14
+	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
+	QUAD $0x0003e024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 992]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
+	QUAD $0x0003c024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 960]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xfbdb05c5                           // vpand    ymm15, ymm15, ymm3
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	QUAD $0x00038024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 896]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xfcdb05c5                           // vpand    ymm15, ymm15, ymm4
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
+	QUAD $0x0003a024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 928]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	LONG $0xdb0d41c4; BYTE $0xf1               // vpand    ymm14, ymm14, ymm9
+	LONG $0xc9eb8dc5                           // vpor    ymm1, ymm14, ymm1
+	QUAD $0x00036024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 864]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	QUAD $0x00034024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 832]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xffdb05c5                           // vpand    ymm15, ymm15, ymm7
+	LONG $0xf80541c4; BYTE $0xf6               // vpsubb    ymm14, ymm15, ymm14
+	QUAD $0x00030024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 768]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xdb0541c4; BYTE $0xf8               // vpand    ymm15, ymm15, ymm8
+	QUAD $0x00032024acde7dc5; BYTE $0x00       // vpmaxub    ymm13, ymm0, yword [rsp + 800]
+	LONG $0xe87415c5                           // vpcmpeqb    ymm13, ymm13, ymm0
+	LONG $0xeddb15c5                           // vpand    ymm13, ymm13, ymm5
+	LONG $0xeb0541c4; BYTE $0xed               // vpor    ymm13, ymm15, ymm13
+	LONG $0xeb0d41c4; BYTE $0xed               // vpor    ymm13, ymm14, ymm13
+	QUAD $0x0002c024b4de7dc5; BYTE $0x00       // vpmaxub    ymm14, ymm0, yword [rsp + 704]
+	LONG $0xf0740dc5                           // vpcmpeqb    ymm14, ymm14, ymm0
+	LONG $0xf6db0dc5                           // vpand    ymm14, ymm14, ymm6
+	QUAD $0x0002e024bcde7dc5; BYTE $0x00       // vpmaxub    ymm15, ymm0, yword [rsp + 736]
+	LONG $0xf87405c5                           // vpcmpeqb    ymm15, ymm15, ymm0
+	LONG $0xfbdb05c5                           // vpand    ymm15, ymm15, ymm3
+	LONG $0xeb0d41c4; BYTE $0xf7               // vpor    ymm14, ymm14, ymm15
+	LONG $0xd8de25c5                           // vpmaxub    ymm11, ymm11, ymm0
+	LONG $0xd87425c5                           // vpcmpeqb    ymm11, ymm11, ymm0
+	LONG $0xdcdb25c5                           // vpand    ymm11, ymm11, ymm4
+	LONG $0xeb0d41c4; BYTE $0xdb               // vpor    ymm11, ymm14, ymm11
+	LONG $0xeb1541c4; BYTE $0xdb               // vpor    ymm11, ymm13, ymm11
+	LONG $0xe0de1dc5                           // vpmaxub    ymm12, ymm12, ymm0
+	LONG $0xe0741dc5                           // vpcmpeqb    ymm12, ymm12, ymm0
+	LONG $0x6f7d41c4; BYTE $0xe9               // vmovdqa    ymm13, ymm9
+	LONG $0xdb1d41c4; BYTE $0xe1               // vpand    ymm12, ymm12, ymm9
+	LONG $0xeb2541c4; BYTE $0xdc               // vpor    ymm11, ymm11, ymm12
+	LONG $0xd0de2dc5                           // vpmaxub    ymm10, ymm10, ymm0
+	LONG $0xd0742dc5                           // vpcmpeqb    ymm10, ymm10, ymm0
+	QUAD $0x0001a0248cde7dc5; BYTE $0x00       // vpmaxub    ymm9, ymm0, yword [rsp + 416]
+	LONG $0xc87435c5                           // vpcmpeqb    ymm9, ymm9, ymm0
+	LONG $0xcfdb35c5                           // vpand    ymm9, ymm9, ymm7
+	LONG $0xf83541c4; BYTE $0xca               // vpsubb    ymm9, ymm9, ymm10
+	QUAD $0x00024024bcdefdc5; BYTE $0x00       // vpmaxub    ymm7, ymm0, yword [rsp + 576]
+	LONG $0xff74fdc5                           // vpcmpeqb    ymm7, ymm0, ymm7
+	LONG $0xffdbbdc5                           // vpand    ymm7, ymm8, ymm7
+	QUAD $0x0002602484de7dc5; BYTE $0x00       // vpmaxub    ymm8, ymm0, yword [rsp + 608]
+	LONG $0xc0743dc5                           // vpcmpeqb    ymm8, ymm8, ymm0
+	LONG $0xc5db3dc5                           // vpand    ymm8, ymm8, ymm5
+	LONG $0xffebbdc5                           // vpor    ymm7, ymm8, ymm7
+	LONG $0xffebb5c5                           // vpor    ymm7, ymm9, ymm7
+	QUAD $0x00028024acdefdc5; BYTE $0x00       // vpmaxub    ymm5, ymm0, yword [rsp + 640]
+	LONG $0xed74fdc5                           // vpcmpeqb    ymm5, ymm0, ymm5
+	LONG $0xeedbd5c5                           // vpand    ymm5, ymm5, ymm6
+	QUAD $0x0002a024b4defdc5; BYTE $0x00       // vpmaxub    ymm6, ymm0, yword [rsp + 672]
+	LONG $0xf674fdc5                           // vpcmpeqb    ymm6, ymm0, ymm6
+	LONG $0xf3dbcdc5                           // vpand    ymm6, ymm6, ymm3
+	LONG $0xeeebd5c5                           // vpor    ymm5, ymm5, ymm6
+	QUAD $0x000140249cdefdc5; BYTE $0x00       // vpmaxub    ymm3, ymm0, yword [rsp + 320]
+	LONG $0xdb74fdc5                           // vpcmpeqb    ymm3, ymm0, ymm3
+	LONG $0xdcdbe5c5                           // vpand    ymm3, ymm3, ymm4
+	LONG $0xdbebd5c5                           // vpor    ymm3, ymm5, ymm3
+	LONG $0xdbebc5c5                           // vpor    ymm3, ymm7, ymm3
+	QUAD $0x00012024a4defdc5; BYTE $0x00       // vpmaxub    ymm4, ymm0, yword [rsp + 288]
+	LONG $0xe474fdc5                           // vpcmpeqb    ymm4, ymm0, ymm4
+	LONG $0xe4db95c5                           // vpand    ymm4, ymm13, ymm4
+	LONG $0xdcebe5c5                           // vpor    ymm3, ymm3, ymm4
+	LONG $0xe160edc5                           // vpunpcklbw    ymm4, ymm2, ymm1
+	LONG $0xc968edc5                           // vpunpckhbw    ymm1, ymm2, ymm1
+	LONG $0xd360a5c5                           // vpunpcklbw    ymm2, ymm11, ymm3
+	LONG $0xdb68a5c5                           // vpunpckhbw    ymm3, ymm11, ymm3
+	LONG $0xea61ddc5                           // vpunpcklwd    ymm5, ymm4, ymm2
+	LONG $0xd269ddc5                           // vpunpckhwd    ymm2, ymm4, ymm2
+	LONG $0xe361f5c5                           // vpunpcklwd    ymm4, ymm1, ymm3
+	LONG $0xcb69f5c5                           // vpunpckhwd    ymm1, ymm1, ymm3
+	LONG $0x3855e3c4; WORD $0x01da             // vinserti128    ymm3, ymm5, xmm2, 1
+	LONG $0x4655e3c4; WORD $0x31d2             // vperm2i128    ymm2, ymm5, ymm2, 49
+	LONG $0x385de3c4; WORD $0x01e9             // vinserti128    ymm5, ymm4, xmm1, 1
+	LONG $0x465de3c4; WORD $0x31c9             // vperm2i128    ymm1, ymm4, ymm1, 49
+	QUAD $0x00000178248c8b48                   // mov    rcx, qword [rsp + 376]
+	LONG $0x7f7ec1c4; WORD $0x8f4c; BYTE $0x60 // vmovdqu    yword [r15 + 4*rcx + 96], ymm1
+	LONG $0x7f7ec1c4; WORD $0x8f54; BYTE $0x40 // vmovdqu    yword [r15 + 4*rcx + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x8f6c; BYTE $0x20 // vmovdqu    yword [r15 + 4*rcx + 32], ymm5
+	LONG $0x7f7ec1c4; WORD $0x8f1c             // vmovdqu    yword [r15 + 4*rcx], ymm3
+	LONG $0x20c18348                           // add    rcx, 32
+	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
+	QUAD $0x00000180248c3b48                   // cmp    rcx, qword [rsp + 384]
+	JNE  LBB11_67
+	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
+	QUAD $0x0000018024b43b4c                   // cmp    r14, qword [rsp + 384]
+	LONG $0x245c8b44; BYTE $0x1c               // mov    r11d, dword [rsp + 28]
+	QUAD $0x0000017024ac8b4c                   // mov    r13, qword [rsp + 368]
+	QUAD $0x0000016824bc8b48                   // mov    rdi, qword [rsp + 360]
+	QUAD $0x0000011824948b4c                   // mov    r10, qword [rsp + 280]
+	JNE  LBB11_69
+	JMP  LBB11_72
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_noasm.go b/go/arrow/compute/internal/kernels/scalar_comparison_noasm.go
new file mode 100644
index 00000000000..d8b72e75fd2
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/scalar_comparison_noasm.go
@@ -0,0 +1,25 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && noasm
+
+package kernels
+
+import "github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+
+func genCompareKernel[T exec.NumericTypes](op CompareOperator) *CompareData {
+	return genGoCompareKernel(getCmpOp[T](op))
+}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.go b/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.go
new file mode 100644
index 00000000000..b8a7bd64980
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.go
@@ -0,0 +1,109 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18 && !noasm
+
+package kernels
+
+import (
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+)
+
+//go:noescape
+func _comparison_equal_arr_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonEqualArrArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_equal_arr_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_equal_arr_scalar_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonEqualArrScalarSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_equal_arr_scalar_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_equal_scalar_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonEqualScalarArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_equal_scalar_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_not_equal_arr_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonNotEqualArrArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_not_equal_arr_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_not_equal_arr_scalar_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonNotEqualArrScalarSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_not_equal_arr_scalar_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_not_equal_scalar_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonNotEqualScalarArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_not_equal_scalar_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_greater_arr_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonGreaterArrArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_greater_arr_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_greater_arr_scalar_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonGreaterArrScalarSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_greater_arr_scalar_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_greater_scalar_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonGreaterScalarArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_greater_scalar_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_greater_equal_arr_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonGreaterEqualArrArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_greater_equal_arr_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_greater_equal_arr_scalar_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonGreaterEqualArrScalarSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_greater_equal_arr_scalar_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
+
+//go:noescape
+func _comparison_greater_equal_scalar_arr_sse4(typ int, left, right, out unsafe.Pointer, length int64, offset int)
+
+func comparisonGreaterEqualScalarArrSSE4(typ arrow.Type, left, right, out []byte, length int64, offset int) {
+	_comparison_greater_equal_scalar_arr_sse4(int(typ), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), length, offset)
+}
diff --git a/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.s b/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.s
new file mode 100644
index 00000000000..00fdac38de7
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/scalar_comparison_sse4_amd64.s
@@ -0,0 +1,58288 @@
+//go:build go1.18 && !noasm && !appengine
+// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
+
+TEXT ·_comparison_equal_arr_arr_sse4(SB), $80-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	ADDQ $8, SP
+
+	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
+	WORD $0x8949; BYTE $0xce // mov    r14, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_29
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_2
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_68
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_79
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_22
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_20:
+	WORD $0x0e8b                 // mov    ecx, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_20
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_22:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_26
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB0_24:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd5940f41                           // sete    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd3940f41                           // sete    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd7940f41                           // sete    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd2940f41                           // sete    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd6940f41                           // sete    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd4940f41                           // sete    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd1940f41                           // sete    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB0_24
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB0_26:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_28:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_28
+	JMP  LBB0_123
+
+LBB0_29:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_30
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_101
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_112
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_50
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_48:
+	LONG $0x06100ff2             // movsd    xmm0, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_48
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_50:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_54
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB0_52:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x06100ff2                           // movsd    xmm0, qword [rsi]
+	LONG $0x4e100ff2; BYTE $0x08               // movsd    xmm1, qword [rsi + 8]
+	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
+	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
+	LONG $0x4a2e0f66; BYTE $0x08               // ucomisd    xmm1, qword [rdx + 8]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x46100ff2; BYTE $0x10               // movsd    xmm0, qword [rsi + 16]
+	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
+	LONG $0x46100ff2; BYTE $0x18               // movsd    xmm0, qword [rsi + 24]
+	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
+	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
+	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
+	LONG $0x46100ff2; BYTE $0x20               // movsd    xmm0, qword [rsi + 32]
+	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
+	LONG $0x46100ff2; BYTE $0x28               // movsd    xmm0, qword [rsi + 40]
+	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
+	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
+	LONG $0x46100ff2; BYTE $0x30               // movsd    xmm0, qword [rsi + 48]
+	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
+	LONG $0x46100ff2; BYTE $0x38               // movsd    xmm0, qword [rsi + 56]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x46100ff2; BYTE $0x40               // movsd    xmm0, qword [rsi + 64]
+	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
+	LONG $0x46100ff2; BYTE $0x48               // movsd    xmm0, qword [rsi + 72]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x46100ff2; BYTE $0x50               // movsd    xmm0, qword [rsi + 80]
+	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
+	LONG $0x46100ff2; BYTE $0x58               // movsd    xmm0, qword [rsi + 88]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x46100ff2; BYTE $0x60               // movsd    xmm0, qword [rsi + 96]
+	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
+	LONG $0x46100ff2; BYTE $0x68               // movsd    xmm0, qword [rsi + 104]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
+	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
+	LONG $0x46100ff2; BYTE $0x70               // movsd    xmm0, qword [rsi + 112]
+	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
+	LONG $0x46100ff2; BYTE $0x78               // movsd    xmm0, qword [rsi + 120]
+	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
+	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	QUAD $0x0000008086100ff2                   // movsd    xmm0, qword [rsi + 128]
+	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
+	QUAD $0x0000008886100ff2                   // movsd    xmm0, qword [rsi + 136]
+	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
+	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
+	QUAD $0x0000009086100ff2                   // movsd    xmm0, qword [rsi + 144]
+	LONG $0xd6940f41                           // sete    r14b
+	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
+	QUAD $0x0000009886100ff2                   // movsd    xmm0, qword [rsi + 152]
+	LONG $0xd4940f41                           // sete    r12b
+	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
+	QUAD $0x000000a086100ff2                   // movsd    xmm0, qword [rsi + 160]
+	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
+	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
+	QUAD $0x000000a886100ff2                   // movsd    xmm0, qword [rsi + 168]
+	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
+	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
+	QUAD $0x000000b086100ff2                   // movsd    xmm0, qword [rsi + 176]
+	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
+	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
+	QUAD $0x000000b886100ff2                   // movsd    xmm0, qword [rsi + 184]
+	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
+	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
+	QUAD $0x000000c086100ff2                   // movsd    xmm0, qword [rsi + 192]
+	LONG $0xd0940f41                           // sete    r8b
+	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
+	QUAD $0x000000c886100ff2                   // movsd    xmm0, qword [rsi + 200]
+	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
+	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
+	QUAD $0x000000d086100ff2                   // movsd    xmm0, qword [rsi + 208]
+	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
+	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
+	QUAD $0x000000d886100ff2                   // movsd    xmm0, qword [rsi + 216]
+	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
+	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
+	QUAD $0x000000e086100ff2                   // movsd    xmm0, qword [rsi + 224]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
+	QUAD $0x000000e886100ff2                   // movsd    xmm0, qword [rsi + 232]
+	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
+	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
+	QUAD $0x000000f086100ff2                   // movsd    xmm0, qword [rsi + 240]
+	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
+	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
+	QUAD $0x000000f886100ff2                   // movsd    xmm0, qword [rsi + 248]
+	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
+	LONG $0xd7940f40                           // sete    dil
+	WORD $0xc000                               // add    al, al
+	LONG $0x04244402                           // add    al, byte [rsp + 4]
+	LONG $0x06e5c041                           // shl    r13b, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
+	LONG $0x06e1c041                           // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB0_52
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB0_54:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_56:
+	LONG $0x04100ff2; BYTE $0xce // movsd    xmm0, qword [rsi + 8*rcx]
+	LONG $0x042e0f66; BYTE $0xca // ucomisd    xmm0, qword [rdx + 8*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_56
+	JMP  LBB0_123
+
+LBB0_2:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_57
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_8
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_6:
+	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x0a3a                 // cmp    cl, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_6
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_8:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_12
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB0_10:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x940f; BYTE $0xd1       // sete    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd7940f41               // sete    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd7940f40               // sete    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd2940f41               // sete    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd3940f41               // sete    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd6940f41               // sete    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x940f; BYTE $0xd3       // sete    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd4940f41               // sete    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd5940f41               // sete    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd1940f41               // sete    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd0940f41               // sete    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB0_10
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB0_12:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_14:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
+	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_14
+	JMP  LBB0_123
+
+LBB0_30:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_90
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_36
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_34:
+	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_34
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_36:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_40
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB0_38:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB0_38
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB0_40:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_42:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
+	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_42
+	JMP  LBB0_123
+
+LBB0_68:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_72
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_70:
+	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_70
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_72:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_76
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB0_74:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x2454940f; BYTE $0x20   // sete    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd5940f41               // sete    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd0940f41               // sete    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd3940f41               // sete    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd7940f41               // sete    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x940f; BYTE $0xd3       // sete    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd2940f41               // sete    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd6940f41               // sete    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd4940f41               // sete    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd1940f41               // sete    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd7940f40               // sete    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB0_74
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB0_76:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_78:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
+	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_78
+	JMP  LBB0_123
+
+LBB0_79:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_83
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_81:
+	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_81
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_83:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_87
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB0_85:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x2454940f; BYTE $0x20   // sete    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd5940f41               // sete    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd0940f41               // sete    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd3940f41               // sete    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd7940f41               // sete    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x940f; BYTE $0xd3       // sete    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd2940f41               // sete    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd6940f41               // sete    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd4940f41               // sete    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd1940f41               // sete    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd7940f40               // sete    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB0_85
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB0_87:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_89:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
+	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_89
+	JMP  LBB0_123
+
+LBB0_101:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_105
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_103:
+	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_103
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_105:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_109
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB0_107:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB0_107
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB0_109:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_111:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
+	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_111
+	JMP  LBB0_123
+
+LBB0_112:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_116
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_114:
+	LONG $0x06100ff3             // movss    xmm0, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_114
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_116:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_120
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB0_118:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x06100ff3                           // movss    xmm0, dword [rsi]
+	LONG $0x4e100ff3; BYTE $0x04               // movss    xmm1, dword [rsi + 4]
+	WORD $0x2e0f; BYTE $0x02                   // ucomiss    xmm0, dword [rdx]
+	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
+	LONG $0x044a2e0f                           // ucomiss    xmm1, dword [rdx + 4]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x46100ff3; BYTE $0x08               // movss    xmm0, dword [rsi + 8]
+	LONG $0x08422e0f                           // ucomiss    xmm0, dword [rdx + 8]
+	LONG $0x46100ff3; BYTE $0x0c               // movss    xmm0, dword [rsi + 12]
+	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
+	LONG $0x0c422e0f                           // ucomiss    xmm0, dword [rdx + 12]
+	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
+	LONG $0x46100ff3; BYTE $0x10               // movss    xmm0, dword [rsi + 16]
+	LONG $0x10422e0f                           // ucomiss    xmm0, dword [rdx + 16]
+	LONG $0x46100ff3; BYTE $0x14               // movss    xmm0, dword [rsi + 20]
+	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
+	LONG $0x14422e0f                           // ucomiss    xmm0, dword [rdx + 20]
+	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
+	LONG $0x46100ff3; BYTE $0x18               // movss    xmm0, dword [rsi + 24]
+	LONG $0x18422e0f                           // ucomiss    xmm0, dword [rdx + 24]
+	LONG $0x46100ff3; BYTE $0x1c               // movss    xmm0, dword [rsi + 28]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x1c422e0f                           // ucomiss    xmm0, dword [rdx + 28]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x46100ff3; BYTE $0x20               // movss    xmm0, dword [rsi + 32]
+	LONG $0x20422e0f                           // ucomiss    xmm0, dword [rdx + 32]
+	LONG $0x46100ff3; BYTE $0x24               // movss    xmm0, dword [rsi + 36]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0x24422e0f                           // ucomiss    xmm0, dword [rdx + 36]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x46100ff3; BYTE $0x28               // movss    xmm0, dword [rsi + 40]
+	LONG $0x28422e0f                           // ucomiss    xmm0, dword [rdx + 40]
+	LONG $0x46100ff3; BYTE $0x2c               // movss    xmm0, dword [rsi + 44]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x2c422e0f                           // ucomiss    xmm0, dword [rdx + 44]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x46100ff3; BYTE $0x30               // movss    xmm0, dword [rsi + 48]
+	LONG $0x30422e0f                           // ucomiss    xmm0, dword [rdx + 48]
+	LONG $0x46100ff3; BYTE $0x34               // movss    xmm0, dword [rsi + 52]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x34422e0f                           // ucomiss    xmm0, dword [rdx + 52]
+	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
+	LONG $0x46100ff3; BYTE $0x38               // movss    xmm0, dword [rsi + 56]
+	LONG $0x38422e0f                           // ucomiss    xmm0, dword [rdx + 56]
+	LONG $0x46100ff3; BYTE $0x3c               // movss    xmm0, dword [rsi + 60]
+	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
+	LONG $0x3c422e0f                           // ucomiss    xmm0, dword [rdx + 60]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x46100ff3; BYTE $0x40               // movss    xmm0, dword [rsi + 64]
+	LONG $0x40422e0f                           // ucomiss    xmm0, dword [rdx + 64]
+	LONG $0x46100ff3; BYTE $0x44               // movss    xmm0, dword [rsi + 68]
+	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
+	LONG $0x44422e0f                           // ucomiss    xmm0, dword [rdx + 68]
+	LONG $0x46100ff3; BYTE $0x48               // movss    xmm0, dword [rsi + 72]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x48422e0f                           // ucomiss    xmm0, dword [rdx + 72]
+	LONG $0x46100ff3; BYTE $0x4c               // movss    xmm0, dword [rsi + 76]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x4c422e0f                           // ucomiss    xmm0, dword [rdx + 76]
+	LONG $0x46100ff3; BYTE $0x50               // movss    xmm0, dword [rsi + 80]
+	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
+	LONG $0x50422e0f                           // ucomiss    xmm0, dword [rdx + 80]
+	LONG $0x46100ff3; BYTE $0x54               // movss    xmm0, dword [rsi + 84]
+	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
+	LONG $0x54422e0f                           // ucomiss    xmm0, dword [rdx + 84]
+	LONG $0x46100ff3; BYTE $0x58               // movss    xmm0, dword [rsi + 88]
+	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
+	LONG $0x58422e0f                           // ucomiss    xmm0, dword [rdx + 88]
+	LONG $0x46100ff3; BYTE $0x5c               // movss    xmm0, dword [rsi + 92]
+	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
+	LONG $0x5c422e0f                           // ucomiss    xmm0, dword [rdx + 92]
+	LONG $0x46100ff3; BYTE $0x60               // movss    xmm0, dword [rsi + 96]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x60422e0f                           // ucomiss    xmm0, dword [rdx + 96]
+	LONG $0x46100ff3; BYTE $0x64               // movss    xmm0, dword [rsi + 100]
+	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
+	LONG $0x64422e0f                           // ucomiss    xmm0, dword [rdx + 100]
+	LONG $0x46100ff3; BYTE $0x68               // movss    xmm0, dword [rsi + 104]
+	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
+	LONG $0x68422e0f                           // ucomiss    xmm0, dword [rdx + 104]
+	LONG $0x46100ff3; BYTE $0x6c               // movss    xmm0, dword [rsi + 108]
+	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
+	LONG $0x6c422e0f                           // ucomiss    xmm0, dword [rdx + 108]
+	LONG $0x46100ff3; BYTE $0x70               // movss    xmm0, dword [rsi + 112]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x70422e0f                           // ucomiss    xmm0, dword [rdx + 112]
+	LONG $0x46100ff3; BYTE $0x74               // movss    xmm0, dword [rsi + 116]
+	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
+	LONG $0x74422e0f                           // ucomiss    xmm0, dword [rdx + 116]
+	LONG $0x46100ff3; BYTE $0x78               // movss    xmm0, dword [rsi + 120]
+	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
+	LONG $0x78422e0f                           // ucomiss    xmm0, dword [rdx + 120]
+	LONG $0x46100ff3; BYTE $0x7c               // movss    xmm0, dword [rsi + 124]
+	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x7c422e0f                           // ucomiss    xmm0, dword [rdx + 124]
+	LONG $0xd7940f40                           // sete    dil
+	WORD $0xc000                               // add    al, al
+	LONG $0x04244402                           // add    al, byte [rsp + 4]
+	LONG $0x06e5c041                           // shl    r13b, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
+	LONG $0x06e1c041                           // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB0_118
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB0_120:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_122:
+	LONG $0x04100ff3; BYTE $0x8e // movss    xmm0, dword [rsi + 4*rcx]
+	LONG $0x8a042e0f             // ucomiss    xmm0, dword [rdx + 4*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_122
+	JMP  LBB0_123
+
+LBB0_57:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_61
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_59:
+	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x0a3a                 // cmp    cl, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_59
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_61:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_65
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB0_63:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x2454940f; BYTE $0x28   // sete    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x940f; BYTE $0xd1       // sete    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x2454940f; BYTE $0x14   // sete    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x2454940f; BYTE $0x15   // sete    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x2454940f; BYTE $0x16   // sete    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x2454940f; BYTE $0x17   // sete    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x2454940f; BYTE $0x04   // sete    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd7940f41               // sete    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x2454940f; BYTE $0x07   // sete    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd7940f40               // sete    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd2940f41               // sete    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd3940f41               // sete    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd6940f41               // sete    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x2454940f; BYTE $0x05   // sete    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x2454940f; BYTE $0x06   // sete    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x940f; BYTE $0xd3       // sete    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x2454940f; BYTE $0x0d   // sete    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd4940f41               // sete    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd5940f41               // sete    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x2454940f; BYTE $0x08   // sete    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x2454940f; BYTE $0x09   // sete    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x2454940f; BYTE $0x0a   // sete    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x2454940f; BYTE $0x0b   // sete    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd1940f41               // sete    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x2454940f; BYTE $0x13   // sete    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x2454940f; BYTE $0x0c   // sete    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x2454940f; BYTE $0x0e   // sete    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x2454940f; BYTE $0x0f   // sete    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x2454940f; BYTE $0x10   // sete    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x2454940f; BYTE $0x11   // sete    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x2454940f; BYTE $0x12   // sete    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd0940f41               // sete    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB0_63
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB0_65:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_67:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
+	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_67
+	JMP  LBB0_123
+
+LBB0_90:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB0_94
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB0_92:
+	WORD $0x0e8b                 // mov    ecx, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd2940f41             // sete    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB0_92
+	LONG $0x01c68349             // add    r14, 1
+
+LBB0_94:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB0_98
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB0_96:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x2454940f; BYTE $0x14               // sete    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x2454940f; BYTE $0x15               // sete    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x2454940f; BYTE $0x16               // sete    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x2454940f; BYTE $0x17               // sete    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x2454940f; BYTE $0x04               // sete    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd5940f41                           // sete    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x09               // sete    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd3940f41                           // sete    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd7940f41                           // sete    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x2454940f; BYTE $0x05               // sete    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x2454940f; BYTE $0x06               // sete    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x2454940f; BYTE $0x07               // sete    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x2454940f; BYTE $0x0a               // sete    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd2940f41                           // sete    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd6940f41                           // sete    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd4940f41                           // sete    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x2454940f; BYTE $0x0b               // sete    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x2454940f; BYTE $0x0c               // sete    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd1940f41                           // sete    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x2454940f; BYTE $0x13               // sete    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x2454940f; BYTE $0x0d               // sete    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x2454940f; BYTE $0x0e               // sete    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x2454940f; BYTE $0x0f               // sete    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x2454940f; BYTE $0x12               // sete    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x2454940f; BYTE $0x11               // sete    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB0_96
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB0_98:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB0_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB0_100:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB0_100
+
+LBB0_123:
+	SUBQ $8, SP
+	RET
+
+DATA LCDATA1<>+0x000(SB)/8, $0x0000000001010101
+DATA LCDATA1<>+0x008(SB)/8, $0x0000000000000000
+DATA LCDATA1<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA1<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA1<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA1<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA1<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA1<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA1<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA1<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA1<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA1<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA1<>+0x060(SB)/8, $0x8080808080808080
+DATA LCDATA1<>+0x068(SB)/8, $0x8080808080808080
+DATA LCDATA1<>+0x070(SB)/8, $0x0b030a0209010800
+DATA LCDATA1<>+0x078(SB)/8, $0x0f070e060d050c04
+DATA LCDATA1<>+0x080(SB)/8, $0x0101010101010101
+DATA LCDATA1<>+0x088(SB)/8, $0x0000000000000000
+DATA LCDATA1<>+0x090(SB)/8, $0x0f070e060d050c04
+DATA LCDATA1<>+0x098(SB)/8, $0x0000000000000000
+DATA LCDATA1<>+0x0a0(SB)/8, $0x0101010101010101
+DATA LCDATA1<>+0x0a8(SB)/8, $0x0101010101010101
+DATA LCDATA1<>+0x0b0(SB)/8, $0x0404040404040404
+DATA LCDATA1<>+0x0b8(SB)/8, $0x0404040404040404
+DATA LCDATA1<>+0x0c0(SB)/8, $0x0808080808080808
+DATA LCDATA1<>+0x0c8(SB)/8, $0x0808080808080808
+DATA LCDATA1<>+0x0d0(SB)/8, $0x1010101010101010
+DATA LCDATA1<>+0x0d8(SB)/8, $0x1010101010101010
+DATA LCDATA1<>+0x0e0(SB)/8, $0x2020202020202020
+DATA LCDATA1<>+0x0e8(SB)/8, $0x2020202020202020
+DATA LCDATA1<>+0x0f0(SB)/8, $0x4040404040404040
+DATA LCDATA1<>+0x0f8(SB)/8, $0x4040404040404040
+GLOBL LCDATA1<>(SB), 8, $256
+
+TEXT ·_comparison_equal_arr_scalar_sse4(SB), $344-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $16, SP
+	ANDQ $-16, SP
+	MOVQ BP, 320(SP)
+	LEAQ LCDATA1<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	WORD $0x8949; BYTE $0xce // mov    r14, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_26
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_2
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_100
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_123
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_202
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_17
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_15:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB1_15
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB1_17:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_21
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
+
+LBB1_19:
+	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000e024bc0240                   // add    dil, byte [rsp + 224]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB1_19
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+
+LBB1_21:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB1_202
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JE   LBB1_23
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB1_147:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB1_147
+	JMP  LBB1_24
+
+LBB1_26:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_27
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_162
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_174
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_202
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_49
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_47:
+	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB1_47
+	LONG $0x01c68349             // add    r14, 1
+
+LBB1_49:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_53
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
+	QUAD $0x000000e0249c894c // mov    qword [rsp + 224], r11
+
+LBB1_51:
+	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
+	LONG $0x062e0f66                           // ucomisd    xmm0, qword [rsi]
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x462e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rsi + 8]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x462e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rsi + 16]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x462e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rsi + 24]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x462e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rsi + 32]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x462e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rsi + 40]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x462e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rsi + 48]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x462e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rsi + 56]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x462e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rsi + 64]
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x462e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rsi + 72]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x462e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rsi + 80]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x462e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rsi + 88]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x462e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rsi + 96]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x462e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rsi + 104]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x462e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rsi + 112]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x462e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rsi + 120]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	QUAD $0x00000080862e0f66                   // ucomisd    xmm0, qword [rsi + 128]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	QUAD $0x00000088862e0f66                   // ucomisd    xmm0, qword [rsi + 136]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	QUAD $0x00000090862e0f66                   // ucomisd    xmm0, qword [rsi + 144]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	QUAD $0x00000098862e0f66                   // ucomisd    xmm0, qword [rsi + 152]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	QUAD $0x000000a0862e0f66                   // ucomisd    xmm0, qword [rsi + 160]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	QUAD $0x000000a8862e0f66                   // ucomisd    xmm0, qword [rsi + 168]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	QUAD $0x000000b0862e0f66                   // ucomisd    xmm0, qword [rsi + 176]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	QUAD $0x000000b8862e0f66                   // ucomisd    xmm0, qword [rsi + 184]
+	LONG $0xd7940f41                           // sete    r15b
+	QUAD $0x000000c0862e0f66                   // ucomisd    xmm0, qword [rsi + 192]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	QUAD $0x000000c8862e0f66                   // ucomisd    xmm0, qword [rsi + 200]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	QUAD $0x000000d0862e0f66                   // ucomisd    xmm0, qword [rsi + 208]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	QUAD $0x000000d8862e0f66                   // ucomisd    xmm0, qword [rsi + 216]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	QUAD $0x000000e0862e0f66                   // ucomisd    xmm0, qword [rsi + 224]
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	QUAD $0x000000e8862e0f66                   // ucomisd    xmm0, qword [rsi + 232]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	QUAD $0x000000f0862e0f66                   // ucomisd    xmm0, qword [rsi + 240]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	QUAD $0x000000f8862e0f66                   // ucomisd    xmm0, qword [rsi + 248]
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x000000d0248c0244                   // add    r9b, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x0000008024bcb60f                   // movzx    edi, byte [rsp + 128]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xc000                               // add    al, al
+	LONG $0x68244402                           // add    al, byte [rsp + 104]
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
+	JNE  LBB1_51
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
+
+LBB1_53:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB1_202
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB1_197
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB1_199
+
+LBB1_2:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_56
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_202
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_8
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_6:
+	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB1_6
+	LONG $0x01c68349             // add    r14, 1
+
+LBB1_8:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB1_9
+	LONG $0x10ff8349             // cmp    r15, 16
+	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
+	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
+	QUAD $0x0000010024bc894c     // mov    qword [rsp + 256], r15
+	JB   LBB1_83
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
+	JAE  LBB1_86
+	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB1_86
+
+LBB1_83:
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000f824848948     // mov    qword [rsp + 248], rax
+	LONG $0x2474894c; BYTE $0x78 // mov    qword [rsp + 120], r14
+
+LBB1_89:
+	WORD $0x894d; BYTE $0xfe // mov    r14, r15
+	QUAD $0x000000f824b42b4c // sub    r14, qword [rsp + 248]
+	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
+
+LBB1_90:
+	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
+	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
+	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
+	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
+	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
+	QUAD $0x000000e02484b60f                   // movzx    eax, byte [rsp + 224]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0xc208                               // or    dl, al
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x05e5c041                           // shl    r13b, 5
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x80249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 128]
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
+	LONG $0x247cb60f; BYTE $0x48               // movzx    edi, byte [rsp + 72]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
+	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
+	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xc000                               // add    al, al
+	LONG $0x38244402                           // add    al, byte [rsp + 56]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	QUAD $0x0000008824b4b60f                   // movzx    esi, byte [rsp + 136]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xc308                               // or    bl, al
+	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
+	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
+	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
+	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
+	LONG $0x04c28348                           // add    rdx, 4
+	LONG $0x24548948; BYTE $0x78               // mov    qword [rsp + 120], rdx
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB1_90
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	JMP  LBB1_92
+
+LBB1_27:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_148
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_202
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_33
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_31:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB1_31
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB1_33:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_37
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
+
+LBB1_35:
+	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000e024bc0240                   // add    dil, byte [rsp + 224]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB1_35
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+
+LBB1_37:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB1_202
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JE   LBB1_39
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB1_161:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB1_161
+	JMP  LBB1_40
+
+LBB1_56:
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_60
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_58:
+	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB1_58
+	LONG $0x01c68349             // add    r14, 1
+
+LBB1_60:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB1_61
+	LONG $0x10ff8349             // cmp    r15, 16
+	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
+	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
+	QUAD $0x0000010024bc894c     // mov    qword [rsp + 256], r15
+	JB   LBB1_63
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
+	JAE  LBB1_66
+	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB1_66
+
+LBB1_63:
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000f824848948     // mov    qword [rsp + 248], rax
+	LONG $0x2474894c; BYTE $0x50 // mov    qword [rsp + 80], r14
+
+LBB1_69:
+	WORD $0x894d; BYTE $0xfe // mov    r14, r15
+	QUAD $0x000000f824b42b4c // sub    r14, qword [rsp + 248]
+	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
+
+LBB1_70:
+	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
+	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
+	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
+	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
+	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
+	QUAD $0x000000e02484b60f                   // movzx    eax, byte [rsp + 224]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0xc208                               // or    dl, al
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x05e5c041                           // shl    r13b, 5
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x80249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 128]
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
+	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
+	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
+	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xc000                               // add    al, al
+	LONG $0x38244402                           // add    al, byte [rsp + 56]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	QUAD $0x0000008824b4b60f                   // movzx    esi, byte [rsp + 136]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xc308                               // or    bl, al
+	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
+	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
+	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
+	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
+	LONG $0x04c28348                           // add    rdx, 4
+	LONG $0x24548948; BYTE $0x50               // mov    qword [rsp + 80], rdx
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB1_70
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	JMP  LBB1_72
+
+LBB1_148:
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_152
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_150:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB1_150
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB1_152:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_156
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
+
+LBB1_154:
+	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000e024bc0240                   // add    dil, byte [rsp + 224]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB1_154
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+
+LBB1_156:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB1_202
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB1_158
+
+LBB1_23:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB1_24
+
+LBB1_100:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_104
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_102:
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB1_102
+	LONG $0x01c68349             // add    r14, 1
+
+LBB1_104:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_105
+	LONG $0x08fb8349         // cmp    r11, 8
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+	JB   LBB1_107
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x06e0c148         // shl    rax, 6
+	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
+	JAE  LBB1_110
+	LONG $0x9e048d4b         // lea    rax, [r14 + 4*r11]
+	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
+	JBE  LBB1_110
+
+LBB1_107:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x24448948; BYTE $0x10 // mov    qword [rsp + 16], rax
+	LONG $0x2474894c; BYTE $0x08 // mov    qword [rsp + 8], r14
+
+LBB1_113:
+	LONG $0x245c2b4c; BYTE $0x10 // sub    r11, qword [rsp + 16]
+	QUAD $0x000000c0249c894c     // mov    qword [rsp + 192], r11
+
+LBB1_114:
+	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
+	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x000000e024840244                   // add    r8b, byte [rsp + 224]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0xc900                               // add    cl, cl
+	LONG $0xa0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 160]
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
+	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x68244c02                           // add    cl, byte [rsp + 104]
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	WORD $0x1988                               // mov    byte [rcx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x01798840                           // mov    byte [rcx + 1], dil
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20244402                           // add    al, byte [rsp + 32]
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd808                               // or    al, bl
+	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xda08                               // or    dl, bl
+	WORD $0xc208                               // or    dl, al
+	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
+	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
+	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
+	LONG $0x04c18348                           // add    rcx, 4
+	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB1_114
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	JMP  LBB1_116
+
+LBB1_123:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_127
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_125:
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB1_125
+	LONG $0x01c68349             // add    r14, 1
+
+LBB1_127:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_128
+	LONG $0x08ff8349         // cmp    r15, 8
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
+	JB   LBB1_130
+	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
+	LONG $0x06e0c148         // shl    rax, 6
+	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
+	JAE  LBB1_133
+	LONG $0xbe048d4b         // lea    rax, [r14 + 4*r15]
+	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
+	JBE  LBB1_133
+
+LBB1_130:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x24448948; BYTE $0x10 // mov    qword [rsp + 16], rax
+	WORD $0x894d; BYTE $0xf4     // mov    r12, r14
+
+LBB1_136:
+	LONG $0x2464894c; BYTE $0x08 // mov    qword [rsp + 8], r12
+	WORD $0x894d; BYTE $0xfe     // mov    r14, r15
+	LONG $0x24742b4c; BYTE $0x10 // sub    r14, qword [rsp + 16]
+	QUAD $0x000000c024b4894c     // mov    qword [rsp + 192], r14
+
+LBB1_137:
+	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
+	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x000000e024840244                   // add    r8b, byte [rsp + 224]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0xc900                               // add    cl, cl
+	LONG $0xa0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 160]
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
+	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x68244c02                           // add    cl, byte [rsp + 104]
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	WORD $0x1988                               // mov    byte [rcx], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x01798840                           // mov    byte [rcx + 1], dil
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20244402                           // add    al, byte [rsp + 32]
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd808                               // or    al, bl
+	QUAD $0x00000088249cb60f                   // movzx    ebx, byte [rsp + 136]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xda08                               // or    dl, bl
+	WORD $0xc208                               // or    dl, al
+	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
+	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
+	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
+	LONG $0x04c18348                           // add    rcx, 4
+	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB1_137
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	JMP  LBB1_139
+
+LBB1_162:
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_166
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_164:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB1_164
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB1_166:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_170
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
+
+LBB1_168:
+	QUAD $0x0000008824b4894c                   // mov    qword [rsp + 136], r14
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x000000e02494940f                   // sete    byte [rsp + 224]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd0940f41                           // sete    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000e024bc0240                   // add    dil, byte [rsp + 224]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB1_168
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+
+LBB1_170:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB1_202
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB1_172
+
+LBB1_39:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB1_40
+
+LBB1_174:
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB1_178
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB1_176:
+	WORD $0x2e0f; BYTE $0x06     // ucomiss    xmm0, dword [rsi]
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB1_176
+	LONG $0x01c68349             // add    r14, 1
+
+LBB1_178:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB1_179
+	LONG $0x04fb8349         // cmp    r11, 4
+	JB   LBB1_181
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x07e0c148         // shl    rax, 7
+	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
+	JAE  LBB1_184
+	LONG $0x9e048d4b         // lea    rax, [r14 + 4*r11]
+	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
+	JBE  LBB1_184
+
+LBB1_181:
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB1_187:
+	LONG $0x247c894c; BYTE $0x08 // mov    qword [rsp + 8], r15
+	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
+	QUAD $0x000000c0249c894c     // mov    qword [rsp + 192], r11
+	WORD $0x294d; BYTE $0xc3     // sub    r11, r8
+	QUAD $0x000000e0249c894c     // mov    qword [rsp + 224], r11
+
+LBB1_188:
+	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
+	QUAD $0x000000882494940f                   // sete    byte [rsp + 136]
+	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x000000d024840244                   // add    r8b, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xc000                               // add    al, al
+	LONG $0x68244402                           // add    al, byte [rsp + 104]
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20244402                           // add    al, byte [rsp + 32]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	QUAD $0x000000882494b60f                   // movzx    edx, byte [rsp + 136]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xc108                               // or    cl, al
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
+	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
+	LONG $0x04c68348                           // add    rsi, 4
+	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
+	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
+	JNE  LBB1_188
+	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
+	JMP  LBB1_190
+
+LBB1_9:
+	LONG $0x2474894c; BYTE $0x78 // mov    qword [rsp + 120], r14
+
+LBB1_92:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB1_202
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB1_95
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+	JMP  LBB1_98
+
+LBB1_61:
+	LONG $0x2474894c; BYTE $0x50 // mov    qword [rsp + 80], r14
+
+LBB1_72:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB1_202
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB1_75
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+	JMP  LBB1_78
+
+LBB1_105:
+	LONG $0x2474894c; BYTE $0x08 // mov    qword [rsp + 8], r14
+
+LBB1_116:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB1_202
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB1_121
+	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
+	JMP  LBB1_119
+
+LBB1_128:
+	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
+
+LBB1_139:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB1_202
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB1_144
+	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
+	JMP  LBB1_142
+
+LBB1_179:
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
+
+LBB1_190:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB1_202
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB1_195
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB1_193
+
+LBB1_158:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB1_159:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB1_159
+
+LBB1_24:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB1_202
+	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
+	JMP  LBB1_201
+
+LBB1_95:
+	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0x24748b4c; BYTE $0x78 // mov    r14, qword [rsp + 120]
+
+LBB1_96:
+	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
+	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
+	LONG $0x02488d4c             // lea    r9, [rax + 2]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
+	JNE  LBB1_96
+	WORD $0x014c; BYTE $0xce     // add    rsi, r9
+
+LBB1_98:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB1_202
+	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x24448b4c; BYTE $0x78 // mov    r8, qword [rsp + 120]
+	JMP  LBB1_80
+
+LBB1_75:
+	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0x24748b4c; BYTE $0x50 // mov    r14, qword [rsp + 80]
+
+LBB1_76:
+	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
+	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
+	LONG $0x02488d4c             // lea    r9, [rax + 2]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
+	JNE  LBB1_76
+	WORD $0x014c; BYTE $0xce     // add    rsi, r9
+
+LBB1_78:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB1_202
+	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x24448b4c; BYTE $0x50 // mov    r8, qword [rsp + 80]
+
+LBB1_80:
+	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
+	LONG $0x07e18041         // and    r9b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xc9 // mov    ecx, r9d
+	JMP  LBB1_81
+
+LBB1_197:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB1_198:
+	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x462e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rsi + 8]
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB1_198
+
+LBB1_199:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB1_202
+	LONG $0x062e0f66 // ucomisd    xmm0, qword [rsi]
+	JMP  LBB1_201
+
+LBB1_172:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB1_173:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB1_173
+
+LBB1_40:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB1_202
+	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
+
+LBB1_201:
+	WORD $0x940f; BYTE $0xd0 // sete    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
+	JMP  LBB1_202
+
+LBB1_121:
+	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
+	LONG $0xfee18349             // and    r9, -2
+	WORD $0x3145; BYTE $0xf6     // xor    r14d, r14d
+	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
+
+LBB1_122:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x14b60f45; BYTE $0x3b // movzx    r10d, byte [r11 + rdi]
+	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x02c68349             // add    r14, 2
+	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xda30                 // xor    dl, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
+	JNE  LBB1_122
+
+LBB1_119:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB1_202
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xf2     // mov    rdx, r14
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
+	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
+	LONG $0x07e68041             // and    r14b, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
+
+LBB1_81:
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
+	JMP  LBB1_202
+
+LBB1_144:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
+
+LBB1_145:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
+	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x02c68349             // add    r14, 2
+	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xda30                 // xor    dl, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x3c048841             // mov    byte [r12 + rdi], al
+	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
+	JNE  LBB1_145
+
+LBB1_142:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB1_202
+	LONG $0x2e394466         // cmp    word [rsi], r13w
+	WORD $0x940f; BYTE $0xd0 // sete    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x894c; BYTE $0xf2 // mov    rdx, r14
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
+	LONG $0x07e68041         // and    r14b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xf1 // mov    ecx, r14d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
+	JMP  LBB1_202
+
+LBB1_195:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x894d; BYTE $0xfb // mov    r11, r15
+
+LBB1_196:
+	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	LONG $0x02c68348             // add    rsi, 2
+	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
+	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x2044; BYTE $0xca     // and    dl, r9b
+	WORD $0xc230                 // xor    dl, al
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_196
+
+LBB1_193:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB1_202
+	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
+	WORD $0x940f; BYTE $0xd0 // sete    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	WORD $0x894d; BYTE $0xfe // mov    r14, r15
+	LONG $0x173c8a41         // mov    dil, byte [r15 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
+
+LBB1_202:
+	MOVQ 320(SP), SP
+	RET
+
+LBB1_86:
+	LONG $0xf0e78349                     // and    r15, -16
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
+	QUAD $0x000000f824bc894c             // mov    qword [rsp + 248], r15
+	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
+	LONG $0x24448948; BYTE $0x78         // mov    qword [rsp + 120], rax
+	LONG $0xc3b60f41                     // movzx    eax, r11b
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x0000d0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 208], xmm1
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x0000008824b4894c             // mov    qword [rsp + 136], r14
+
+LBB1_87:
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	LONG $0x05e7c148                           // shl    rdi, 5
+	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
+	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
+	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
+	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
+	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
+	WORD $0x8949; BYTE $0xf8                   // mov    r8, rdi
+	WORD $0x8949; BYTE $0xfc                   // mov    r12, rdi
+	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
+	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
+	LONG $0x247c8948; BYTE $0x58               // mov    qword [rsp + 88], rdi
+	LONG $0x247c8948; BYTE $0x38               // mov    qword [rsp + 56], rdi
+	LONG $0x3e0cb60f                           // movzx    ecx, byte [rsi + rdi]
+	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
+	LONG $0x3e4cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rdi + 1]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	LONG $0x3e4cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rdi + 2]
+	LONG $0xf16e0f66                           // movd    xmm6, ecx
+	LONG $0x3e4cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rdi + 3]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	LONG $0x3e4cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rdi + 4]
+	LONG $0xc96e0f66                           // movd    xmm1, ecx
+	LONG $0x3e4cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rdi + 5]
+	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
+	LONG $0x3e4cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rdi + 6]
+	LONG $0xd96e0f66                           // movd    xmm3, ecx
+	LONG $0x3e4cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rdi + 7]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
+	LONG $0x3e4cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rdi + 8]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
+	LONG $0x3e4cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rdi + 9]
+	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
+	LONG $0x3e4cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rdi + 10]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
+	LONG $0x3e4cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rdi + 11]
+	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
+	LONG $0x3e4cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rdi + 12]
+	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
+	LONG $0x3e4cb60f; BYTE $0x0d               // movzx    ecx, byte [rsi + rdi + 13]
+	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
+	LONG $0x3e4cb60f; BYTE $0x0e               // movzx    ecx, byte [rsi + rdi + 14]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00012024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 288], xmm0
+	LONG $0x247c8948; BYTE $0x20               // mov    qword [rsp + 32], rdi
+	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
+	LONG $0x20cd8349                           // or    r13, 32
+	LONG $0x246c894c; BYTE $0x28               // mov    qword [rsp + 40], r13
+	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
+	LONG $0x40c98348                           // or    rcx, 64
+	LONG $0x244c8948; BYTE $0x40               // mov    qword [rsp + 64], rcx
+	LONG $0x60cb8349                           // or    r11, 96
+	LONG $0x80cb8148; WORD $0x0000; BYTE $0x00 // or    rbx, 128
+	LONG $0xa0ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 160
+	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
+	LONG $0xe0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 224
+	LONG $0x00cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 256
+	LONG $0x20c98149; WORD $0x0001; BYTE $0x00 // or    r9, 288
+	QUAD $0x00000080248c894c                   // mov    qword [rsp + 128], r9
+	LONG $0x40ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 320
+	LONG $0x24548948; BYTE $0x30               // mov    qword [rsp + 48], rdx
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	LONG $0x60ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 352
+	LONG $0x24548948; BYTE $0x58               // mov    qword [rsp + 88], rdx
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	LONG $0x80c88149; WORD $0x0001; BYTE $0x00 // or    r8, 384
+	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
+	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x18               // mov    qword [rsp + 24], rax
+	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
+	QUAD $0x012e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 1
+	QUAD $0x020e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 2
+	LONG $0x245c894c; BYTE $0x68               // mov    qword [rsp + 104], r11
+	QUAD $0x031e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r11], 3
+	LONG $0x245c8948; BYTE $0x50               // mov    qword [rsp + 80], rbx
+	QUAD $0x041e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rbx], 4
+	LONG $0x2474894c; BYTE $0x60               // mov    qword [rsp + 96], r14
+	QUAD $0x05363c203a0f4666                   // pinsrb    xmm15, byte [rsi + r14], 5
+	QUAD $0x063e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r15], 6
+	WORD $0x894c; BYTE $0xd7                   // mov    rdi, r10
+	QUAD $0x07163c203a0f4666                   // pinsrb    xmm15, byte [rsi + r10], 7
+	QUAD $0x08263c203a0f4666                   // pinsrb    xmm15, byte [rsi + r12], 8
+	QUAD $0x090e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 9
+	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
+	QUAD $0x0a2e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 10
+	QUAD $0x0b163c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdx], 11
+	QUAD $0x0c063c203a0f4666                   // pinsrb    xmm15, byte [rsi + r8], 12
+	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
+	QUAD $0x0d0e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 13
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x0e0e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 14
+	QUAD $0x0f063c203a0f4466                   // pinsrb    xmm15, byte [rsi + rax], 15
+	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
+	QUAD $0x01166c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r10 + 1], 1
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x02010e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 1], 2
+	QUAD $0x011e6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r11 + 1], 3
+	QUAD $0x04011e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 1], 4
+	QUAD $0x01366c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r14 + 1], 5
+	QUAD $0x013e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r15 + 1], 6
+	QUAD $0x000000b024bc894c                   // mov    qword [rsp + 176], r15
+	QUAD $0x07013e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 1], 7
+	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
+	QUAD $0x000000a024bc8948                   // mov    qword [rsp + 160], rdi
+	QUAD $0x01266c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r12 + 1], 8
+	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
+	LONG $0x2464894c; BYTE $0x48               // mov    qword [rsp + 72], r12
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x09010e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 1], 9
+	QUAD $0x012e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r13 + 1], 10
+	QUAD $0x0b01166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 1], 11
+	QUAD $0x01066c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r8 + 1], 12
+	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
+	LONG $0x2444894c; BYTE $0x38               // mov    qword [rsp + 56], r8
+	QUAD $0x010e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r9 + 1], 13
+	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
+	QUAD $0x01266c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r12 + 1], 14
+	QUAD $0x0f01066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 1], 15
+	QUAD $0x00d0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 208]
+	LONG $0x740f4166; BYTE $0xe9               // pcmpeqb    xmm5, xmm9
+	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
+	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI1_10] */
+	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
+	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	LONG $0x0654b60f; BYTE $0x0f               // movzx    edx, byte [rsi + rax + 15]
+	LONG $0x6e0f4466; BYTE $0xf2               // movd    xmm14, edx
+	LONG $0x740f4566; BYTE $0xf9               // pcmpeqb    xmm15, xmm9
+	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
+	QUAD $0x020674203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r8 + 2], 1
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x021e74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r11 + 2], 2
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	QUAD $0x022e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r13 + 2], 3
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x04020e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 2], 4
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x05023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 5
+	QUAD $0x023e74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r15 + 2], 6
+	QUAD $0x023674203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r14 + 2], 7
+	QUAD $0x08021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 8
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	QUAD $0x09021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 9
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	QUAD $0x023674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r14 + 2], 10
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x023e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r15 + 2], 11
+	QUAD $0x021674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r10 + 2], 12
+	WORD $0x894d; BYTE $0xca                   // mov    r10, r9
+	QUAD $0x020e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r9 + 2], 13
+	QUAD $0x022674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r12 + 2], 14
+	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
+	QUAD $0x020e74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r9 + 2], 15
+	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
+	LONG $0x740f4166; BYTE $0xf1               // pcmpeqb    xmm6, xmm9
+	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI1_11] */
+	LONG $0xf0db0f66                           // pand    xmm6, xmm0
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x0654b60f; BYTE $0x10               // movzx    edx, byte [rsi + rax + 16]
+	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
+	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
+	QUAD $0x030654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r8 + 3], 1
+	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
+	QUAD $0x031e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r11 + 3], 2
+	QUAD $0x032e54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r13 + 3], 3
+	QUAD $0x04030e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 3], 4
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	QUAD $0x05033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 5
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x06030e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 3], 6
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x07033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 7
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x030654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 3], 8
+	QUAD $0x09031e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 3], 9
+	QUAD $0x033654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r14 + 3], 10
+	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
+	QUAD $0x033e54203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r15 + 3], 11
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+	QUAD $0x033e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 3], 12
+	QUAD $0x031654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r10 + 3], 13
+	QUAD $0x032654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r12 + 3], 14
+	QUAD $0x030e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r9 + 3], 15
+	QUAD $0x0104164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 1
+	QUAD $0x0204064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 2
+	QUAD $0x042e4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r13 + 4], 3
+	QUAD $0x041e4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r11 + 4], 4
+	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
+	QUAD $0x041e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r11 + 4], 5
+	QUAD $0x06040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 6
+	QUAD $0x07043e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 4], 7
+	QUAD $0x04064c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r8 + 4], 8
+	QUAD $0x09041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 9
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0a040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 10
+	QUAD $0x04364c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r14 + 4], 11
+	QUAD $0x043e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 4], 12
+	QUAD $0x04164c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r10 + 4], 13
+	WORD $0x894d; BYTE $0xd7                   // mov    r15, r10
+	QUAD $0x04264c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r12 + 4], 14
+	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
+	QUAD $0x040e4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r9 + 4], 15
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	LONG $0x3e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rdi + 17]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI1_12] */
+	LONG $0xd5db0f66                           // pand    xmm2, xmm5
+	LONG $0x740f4166; BYTE $0xc9               // pcmpeqb    xmm1, xmm9
+	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI1_13] */
+	LONG $0xcddb0f66                           // pand    xmm1, xmm5
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	LONG $0x3e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rdi + 18]
+	LONG $0xea6e0f66                           // movd    xmm5, edx
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x050e44203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r9 + 5], 1
+	QUAD $0x050644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rax + 5], 2
+	QUAD $0x052e44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r13 + 5], 3
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x051644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 5], 4
+	QUAD $0x051e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r11 + 5], 5
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x053e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rdi + 5], 6
+	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
+	QUAD $0x050644203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r8 + 5], 7
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x051644203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rsi + rdx + 5], 8
+	QUAD $0x051e44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rsi + rbx + 5], 9
+	QUAD $0x050e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rcx + 5], 10
+	QUAD $0x053644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 5], 11
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x050e44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rcx + 5], 12
+	QUAD $0x053e44203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r15 + 5], 13
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	QUAD $0x051644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r10 + 5], 14
+	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
+	QUAD $0x051644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r10 + 5], 15
+	LONG $0x740f4566; BYTE $0xc1               // pcmpeqb    xmm8, xmm9
+	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI1_14] */
+	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
+	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	LONG $0x0e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rcx + 19]
+	LONG $0xfa6e0f66                           // movd    xmm7, edx
+	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
+	LONG $0x0e54b60f; BYTE $0x14               // movzx    edx, byte [rsi + rcx + 20]
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	QUAD $0x060e5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r9 + 6], 1
+	QUAD $0x0206065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 2
+	QUAD $0x062e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r13 + 6], 3
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x061e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r11 + 6], 4
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x063e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r15 + 6], 5
+	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
+	QUAD $0x06063e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 6], 6
+	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
+	QUAD $0x06065c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r8 + 6], 7
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0806165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 6], 8
+	QUAD $0x09061e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 6], 9
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x06065c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r8 + 6], 10
+	QUAD $0x06365c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r14 + 6], 11
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0c06065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 12
+	QUAD $0x06265c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r12 + 6], 13
+	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x0e06165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 6], 14
+	QUAD $0x06165c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r10 + 6], 15
+	QUAD $0x0000e024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 224]
+	QUAD $0x070e54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r9 + 7], 1
+	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
+	QUAD $0x072654203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r12 + 7], 2
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x03071654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 7], 3
+	QUAD $0x071e54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r11 + 7], 4
+	QUAD $0x073e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r15 + 7], 5
+	QUAD $0x06070e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 7], 6
+	QUAD $0x07073e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 7], 7
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x071654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r10 + 7], 8
+	QUAD $0x09071e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 7], 9
+	QUAD $0x070654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r8 + 7], 10
+	QUAD $0x073654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 7], 11
+	QUAD $0x0c070654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 7], 12
+	QUAD $0x072e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r13 + 7], 13
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x0e073e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 7], 14
+	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
+	QUAD $0x070e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r9 + 7], 15
+	LONG $0x740f4166; BYTE $0xd9               // pcmpeqb    xmm3, xmm9
+	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI1_15] */
+	LONG $0xd9db0f66                           // pand    xmm3, xmm1
+	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
+	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
+	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI1_6] */
+	LONG $0xd1db0f66                           // pand    xmm2, xmm1
+	LONG $0xd3eb0f66                           // por    xmm2, xmm3
+	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	LONG $0x1e54b60f; BYTE $0x15               // movzx    edx, byte [rsi + rbx + 21]
+	LONG $0xd26e0f66                           // movd    xmm2, edx
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x091e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r11 + 9], 1
+	QUAD $0x092654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r12 + 9], 2
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x090654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rax + 9], 3
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x090e54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rcx + 9], 4
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x093e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r15 + 9], 5
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	QUAD $0x092654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r12 + 9], 6
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x090654203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rax + 9], 7
+	QUAD $0x091654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r10 + 9], 8
+	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x090654203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rax + 9], 9
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x090654203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rax + 9], 10
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x091654203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rdx + 9], 11
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x091654203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rdx + 9], 12
+	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
+	QUAD $0x092e54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r13 + 9], 13
+	QUAD $0x093e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rdi + 9], 14
+	QUAD $0x090e54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r9 + 9], 15
+	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
+	QUAD $0x0000e0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm1
+	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
+	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
+	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
+	LONG $0x1e54b60f; BYTE $0x16               // movzx    edx, byte [rsi + rbx + 22]
+	LONG $0xda6e0f66                           // movd    xmm3, edx
+	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
+	QUAD $0x081e64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r11 + 8], 1
+	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
+	QUAD $0x082e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r13 + 8], 2
+	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
+	QUAD $0x080664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r8 + 8], 3
+	QUAD $0x04080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 4
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	QUAD $0x083e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r15 + 8], 5
+	QUAD $0x082664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r12 + 8], 6
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x083e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r15 + 8], 7
+	QUAD $0x083664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r14 + 8], 8
+	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x09081664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 8], 9
+	QUAD $0x0a080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 11
+	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
+	QUAD $0x083664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r14 + 8], 12
+	QUAD $0x081664203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r10 + 8], 13
+	QUAD $0x0e083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0f080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 15
+	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	QUAD $0x00c024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 192]
+	QUAD $0x0a1e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r11 + 10], 1
+	QUAD $0x0a2e54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r13 + 10], 2
+	QUAD $0x0a0654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r8 + 10], 3
+	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
+	QUAD $0x0a0e54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rcx + 10], 4
+	QUAD $0x0a0e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r9 + 10], 5
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0a0e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rcx + 10], 6
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	QUAD $0x0a3e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r15 + 10], 7
+	QUAD $0x0a1e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rbx + 10], 8
+	QUAD $0x0a1654203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rdx + 10], 9
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0a1654203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rdx + 10], 10
+	WORD $0x8948; BYTE $0xd3                   // mov    rbx, rdx
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0a3e54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r15 + 10], 11
+	QUAD $0x0a3654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r14 + 10], 12
+	QUAD $0x0a1654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r10 + 10], 13
+	QUAD $0x0a3e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rdi + 10], 14
+	QUAD $0x0a0654203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rax + 10], 15
+	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
+	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI1_11] */
+	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	LONG $0x0654b60f; BYTE $0x17               // movzx    edx, byte [rsi + rax + 23]
+	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
+	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
+	QUAD $0x00c024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 192], xmm10
+	LONG $0x0654b60f; BYTE $0x18               // movzx    edx, byte [rsi + rax + 24]
+	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
+	QUAD $0x0b1e5c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rsi + r11 + 11], 1
+	QUAD $0x0b2e5c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rsi + r13 + 11], 2
+	QUAD $0x0b265c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r12 + 11], 3
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b065c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rsi + rax + 11], 4
+	QUAD $0x0b0e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r9 + 11], 5
+	QUAD $0x0b0e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rcx + 11], 6
+	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
+	QUAD $0x0b065c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r8 + 11], 7
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x0b065c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r8 + 11], 8
+	QUAD $0x00000080248c8b4c                   // mov    r9, qword [rsp + 128]
+	QUAD $0x0b0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 11], 9
+	QUAD $0x0b1e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rbx + 11], 10
+	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
+	QUAD $0x0b3e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 11], 11
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+	QUAD $0x0b3e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 11], 12
+	QUAD $0x0b165c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r10 + 11], 13
+	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
+	QUAD $0x0b265c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r12 + 11], 14
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0b165c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdx + 11], 15
+	QUAD $0x0c1e6c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r11 + 12], 1
+	QUAD $0x0c2e6c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rsi + r13 + 12], 2
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0c1e6c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rsi + rbx + 12], 3
+	QUAD $0x0c066c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rsi + rax + 12], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0c066c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rsi + rax + 12], 5
+	QUAD $0x0c0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 12], 6
+	QUAD $0x0c3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 12], 7
+	QUAD $0x0c066c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r8 + 12], 8
+	QUAD $0x0c0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 12], 9
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0c1e6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rbx + 12], 10
+	QUAD $0x0c366c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r14 + 12], 11
+	QUAD $0x0c3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 12], 12
+	QUAD $0x0c166c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r10 + 12], 13
+	WORD $0x894d; BYTE $0xd3                   // mov    r11, r10
+	QUAD $0x0c266c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r12 + 12], 14
+	QUAD $0x0c166c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdx + 12], 15
+	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
+	QUAD $0x0d1664203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rsi + r10 + 13], 1
+	QUAD $0x0d2e64203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rsi + r13 + 13], 2
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	QUAD $0x0d2e64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r13 + 13], 3
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x0d1e64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rbx + 13], 4
+	QUAD $0x0d0664203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rsi + rax + 13], 5
+	QUAD $0x0d0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 13], 6
+	QUAD $0x0d3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 13], 7
+	QUAD $0x0d0664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r8 + 13], 8
+	QUAD $0x0d0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 13], 9
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0d1e64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rbx + 13], 10
+	QUAD $0x0d3664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r14 + 13], 11
+	QUAD $0x0d3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 13], 12
+	QUAD $0x0d1e64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r11 + 13], 13
+	QUAD $0x0d2664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r12 + 13], 14
+	QUAD $0x0d1664203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rdx + 13], 15
+	LONG $0x740f4566; BYTE $0xd9               // pcmpeqb    xmm11, xmm9
+	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI1_12] */
+	LONG $0x740f4566; BYTE $0xe9               // pcmpeqb    xmm13, xmm9
+	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI1_13] */
+	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	LONG $0x0654b60f; BYTE $0x19               // movzx    edx, byte [rsi + rax + 25]
+	LONG $0xca6e0f66                           // movd    xmm1, edx
+	LONG $0x740f4566; BYTE $0xe1               // pcmpeqb    xmm12, xmm9
+	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI1_14] */
+	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
+	LONG $0x0654b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rax + 26]
+	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
+	QUAD $0x00012024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 288]
+	QUAD $0x0e1664203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r10 + 14], 1
+	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
+	QUAD $0x0e2664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r12 + 14], 2
+	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
+	QUAD $0x0e2e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r13 + 14], 3
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x0e1e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r11 + 14], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x050e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 14], 5
+	QUAD $0x060e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 6
+	QUAD $0x070e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 7
+	QUAD $0x0e0664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 14], 8
+	QUAD $0x0e0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 14], 9
+	QUAD $0x0a0e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 14], 10
+	QUAD $0x0e3664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 14], 11
+	QUAD $0x0e3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 14], 12
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0d0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 13
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x0e2e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r13 + 14], 14
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0f0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 15
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0f1674203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rdx + 15], 1
+	QUAD $0x0f2674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r12 + 15], 2
+	QUAD $0x0f1674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r10 + 15], 3
+	QUAD $0x0f1e74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r11 + 15], 4
+	QUAD $0x0f0674203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rax + 15], 5
+	QUAD $0x0f0e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rcx + 15], 6
+	QUAD $0x0f3e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rdi + 15], 7
+	QUAD $0x0f0674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 15], 8
+	QUAD $0x0f0e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 15], 9
+	QUAD $0x0f1e74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rbx + 15], 10
+	QUAD $0x0f3674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 15], 11
+	QUAD $0x0f3e74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r15 + 15], 12
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0f1674203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rdx + 15], 13
+	QUAD $0x0f2e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r13 + 15], 14
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0f1674203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rdx + 15], 15
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x10167c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rdx + 16], 1
+	QUAD $0x10267c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r12 + 16], 2
+	QUAD $0x10167c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r10 + 16], 3
+	QUAD $0x101e7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r11 + 16], 4
+	QUAD $0x10067c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rax + 16], 5
+	QUAD $0x100e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rcx + 16], 6
+	QUAD $0x103e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rdi + 16], 7
+	QUAD $0x10067c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r8 + 16], 8
+	QUAD $0x100e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 16], 9
+	QUAD $0x101e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rbx + 16], 10
+	QUAD $0x10367c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r14 + 16], 11
+	QUAD $0x103e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 16], 12
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x10167c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rdx + 16], 13
+	QUAD $0x102e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r13 + 16], 14
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x01111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 1
+	QUAD $0x112644203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r12 + 17], 2
+	QUAD $0x111644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 17], 3
+	QUAD $0x111e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 17], 4
+	QUAD $0x05110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 5
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	QUAD $0x06110e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 17], 6
+	QUAD $0x07113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 7
+	QUAD $0x110644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r8 + 17], 8
+	QUAD $0x110e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 17], 9
+	QUAD $0x0a111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 10
+	QUAD $0x113644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 17], 11
+	QUAD $0x113e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 17], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 13
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x0e111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 14
+	QUAD $0x00c024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 192]
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	LONG $0x54b60f42; WORD $0x1b26             // movzx    edx, byte [rsi + r12 + 27]
+	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
+	QUAD $0x00d024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 208]
+	LONG $0x740f4166; BYTE $0xe5               // pcmpeqb    xmm4, xmm13
+	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI1_15] */
+	LONG $0x740f4566; BYTE $0xf5               // pcmpeqb    xmm14, xmm13
+	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
+	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
+	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
+	LONG $0x54b60f42; WORD $0x1c26             // movzx    edx, byte [rsi + r12 + 28]
+	LONG $0xe26e0f66                           // movd    xmm4, edx
+	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
+	QUAD $0x110644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r8 + 17], 15
+	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
+	LONG $0x740f4166; BYTE $0xc5               // pcmpeqb    xmm0, xmm13
+	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
+	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI1_10] */
+	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
+	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
+	QUAD $0x00c024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 192], xmm13
+	LONG $0x54b60f42; WORD $0x1d26             // movzx    edx, byte [rsi + r12 + 29]
+	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
+	QUAD $0x10067c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r8 + 16], 15
+	QUAD $0x0000d024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 208]
+	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
+	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
+	QUAD $0x12266c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r12 + 18], 1
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0212166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 2
+	QUAD $0x12166c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r10 + 18], 3
+	QUAD $0x121e6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r11 + 18], 4
+	QUAD $0x122e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r13 + 18], 5
+	QUAD $0x06120e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 18], 6
+	QUAD $0x07123e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 18], 7
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x0812166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 8
+	QUAD $0x120e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r9 + 18], 9
+	QUAD $0x0a121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 10
+	QUAD $0x12366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 18], 11
+	QUAD $0x123e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 18], 12
+	QUAD $0x0d12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 13
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0e12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 14
+	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
+	QUAD $0x12066c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r8 + 18], 15
+	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
+	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI1_11] */
+	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	LONG $0x0654b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rax + 30]
+	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
+	QUAD $0x13267c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rsi + r12 + 19], 1
+	QUAD $0x142674203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r12 + 20], 1
+	QUAD $0x152654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r12 + 21], 1
+	QUAD $0x16265c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r12 + 22], 1
+	QUAD $0x172644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r12 + 23], 1
+	QUAD $0x182654203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r12 + 24], 1
+	QUAD $0x19264c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rsi + r12 + 25], 1
+	QUAD $0x1a265c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rsi + r12 + 26], 1
+	QUAD $0x1b264c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rsi + r12 + 27], 1
+	QUAD $0x1c2664203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r12 + 28], 1
+	QUAD $0x1d266c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r12 + 29], 1
+	QUAD $0x1e2664203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rsi + r12 + 30], 1
+	LONG $0x0654b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rax + 31]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	QUAD $0x1f2644203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rsi + r12 + 31], 1
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0213167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 2
+	QUAD $0x02141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 2
+	QUAD $0x02151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 2
+	QUAD $0x0216165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 2
+	QUAD $0x171644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdx + 23], 2
+	QUAD $0x181654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdx + 24], 2
+	QUAD $0x0219164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 2
+	QUAD $0x1a165c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdx + 26], 2
+	QUAD $0x1b164c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdx + 27], 2
+	QUAD $0x021c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 2
+	QUAD $0x1d166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 29], 2
+	QUAD $0x1e1664203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdx + 30], 2
+	QUAD $0x021f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 2
+	QUAD $0x13167c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r10 + 19], 3
+	QUAD $0x131e7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r11 + 19], 4
+	QUAD $0x132e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r13 + 19], 5
+	QUAD $0x06130e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 19], 6
+	QUAD $0x07133e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 19], 7
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x13267c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r12 + 19], 8
+	QUAD $0x130e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 19], 9
+	QUAD $0x0a131e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 19], 10
+	QUAD $0x13367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 19], 11
+	QUAD $0x133e7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r15 + 19], 12
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0d13167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 13
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0e13067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 19], 14
+	QUAD $0x13067c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r8 + 19], 15
+	QUAD $0x141674203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r10 + 20], 3
+	QUAD $0x141e74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r11 + 20], 4
+	QUAD $0x142e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r13 + 20], 5
+	QUAD $0x06140e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 20], 6
+	QUAD $0x07143e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 20], 7
+	QUAD $0x142674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r12 + 20], 8
+	QUAD $0x140e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 20], 9
+	QUAD $0x0a141e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 20], 10
+	QUAD $0x143674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r14 + 20], 11
+	QUAD $0x143e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 20], 12
+	QUAD $0x0d141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 13
+	QUAD $0x0e140674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 20], 14
+	QUAD $0x0000c024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 192]
+	QUAD $0x140674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r8 + 20], 15
+	QUAD $0x00d024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 208]
+	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
+	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI1_12] */
+	LONG $0x740f4166; BYTE $0xf7               // pcmpeqb    xmm6, xmm15
+	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI1_13] */
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	QUAD $0x151654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r10 + 21], 3
+	QUAD $0x151e54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r11 + 21], 4
+	QUAD $0x152e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r13 + 21], 5
+	QUAD $0x06150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 6
+	QUAD $0x07153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 7
+	QUAD $0x152654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r12 + 21], 8
+	QUAD $0x150e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 21], 9
+	QUAD $0x0a151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 10
+	QUAD $0x153654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 21], 11
+	QUAD $0x153e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 21], 12
+	QUAD $0x0d151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 13
+	QUAD $0x0e150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 14
+	QUAD $0x150654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r8 + 21], 15
+	LONG $0x740f4166; BYTE $0xd7               // pcmpeqb    xmm2, xmm15
+	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI1_14] */
+	LONG $0xd7db0f66                           // pand    xmm2, xmm7
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	LONG $0xd5eb0f66                           // por    xmm2, xmm5
+	QUAD $0x16165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 22], 3
+	QUAD $0x161e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r11 + 22], 4
+	QUAD $0x162e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 22], 5
+	QUAD $0x06160e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 22], 6
+	QUAD $0x07163e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 22], 7
+	QUAD $0x16265c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r12 + 22], 8
+	QUAD $0x160e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r9 + 22], 9
+	QUAD $0x0a161e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 22], 10
+	QUAD $0x16365c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r14 + 22], 11
+	QUAD $0x163e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 22], 12
+	QUAD $0x0d16165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 13
+	QUAD $0x0e16065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 22], 14
+	QUAD $0x16065c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r8 + 22], 15
+	QUAD $0x171644203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r10 + 23], 3
+	QUAD $0x171e44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r11 + 23], 4
+	QUAD $0x172e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r13 + 23], 5
+	QUAD $0x170e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 23], 6
+	QUAD $0x173e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rdi + 23], 7
+	QUAD $0x172644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r12 + 23], 8
+	QUAD $0x170e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 23], 9
+	QUAD $0x171e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rbx + 23], 10
+	QUAD $0x173644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 23], 11
+	QUAD $0x173e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 23], 12
+	QUAD $0x171644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rdx + 23], 13
+	QUAD $0x170644203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rax + 23], 14
+	QUAD $0x170644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r8 + 23], 15
+	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
+	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI1_15] */
+	LONG $0xdddb0f66                           // pand    xmm3, xmm5
+	LONG $0x740f4566; BYTE $0xc7               // pcmpeqb    xmm8, xmm15
+	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
+	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI1_6] */
+	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
+	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
+	QUAD $0x19164c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r10 + 25], 3
+	QUAD $0x191e4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r11 + 25], 4
+	QUAD $0x192e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r13 + 25], 5
+	QUAD $0x06190e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 25], 6
+	QUAD $0x07193e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 25], 7
+	QUAD $0x19264c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r12 + 25], 8
+	QUAD $0x190e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 25], 9
+	QUAD $0x0a191e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 25], 10
+	QUAD $0x19364c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r14 + 25], 11
+	QUAD $0x193e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 25], 12
+	QUAD $0x0d19164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 13
+	QUAD $0x0e19064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 25], 14
+	QUAD $0x19064c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r8 + 25], 15
+	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
+	LONG $0x740f4166; BYTE $0xcf               // pcmpeqb    xmm1, xmm15
+	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
+	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI1_10] */
+	LONG $0xd3db0f66                           // pand    xmm2, xmm3
+	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
+	QUAD $0x181654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r10 + 24], 3
+	QUAD $0x181e54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r11 + 24], 4
+	QUAD $0x182e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r13 + 24], 5
+	QUAD $0x180e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rcx + 24], 6
+	QUAD $0x183e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rdi + 24], 7
+	QUAD $0x182654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r12 + 24], 8
+	QUAD $0x180e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 24], 9
+	QUAD $0x181e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rbx + 24], 10
+	QUAD $0x183654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r14 + 24], 11
+	QUAD $0x183e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 24], 12
+	QUAD $0x181654203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rdx + 24], 13
+	QUAD $0x180654203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rax + 24], 14
+	QUAD $0x180654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r8 + 24], 15
+	LONG $0x740f4566; BYTE $0xd7               // pcmpeqb    xmm10, xmm15
+	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
+	QUAD $0x1a165c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r10 + 26], 3
+	QUAD $0x1a1e5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r11 + 26], 4
+	QUAD $0x1a2e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r13 + 26], 5
+	QUAD $0x1a0e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rcx + 26], 6
+	QUAD $0x1a3e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdi + 26], 7
+	QUAD $0x1a265c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r12 + 26], 8
+	QUAD $0x1a0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 26], 9
+	QUAD $0x1a1e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rbx + 26], 10
+	QUAD $0x1a365c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r14 + 26], 11
+	QUAD $0x1a3e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 26], 12
+	QUAD $0x1a165c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rdx + 26], 13
+	QUAD $0x1a065c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rax + 26], 14
+	QUAD $0x1a065c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r8 + 26], 15
+	LONG $0x740f4566; BYTE $0xdf               // pcmpeqb    xmm11, xmm15
+	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI1_11] */
+	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
+	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
+	QUAD $0x1b164c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r10 + 27], 3
+	QUAD $0x1b1e4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r11 + 27], 4
+	QUAD $0x1b2e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r13 + 27], 5
+	QUAD $0x1b0e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rcx + 27], 6
+	QUAD $0x1b3e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rdi + 27], 7
+	QUAD $0x1b264c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r12 + 27], 8
+	QUAD $0x1b0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 27], 9
+	QUAD $0x1b1e4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rbx + 27], 10
+	QUAD $0x1b364c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r14 + 27], 11
+	QUAD $0x1b3e4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r15 + 27], 12
+	QUAD $0x1b164c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdx + 27], 13
+	QUAD $0x1b064c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rax + 27], 14
+	QUAD $0x1b064c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r8 + 27], 15
+	QUAD $0x1c1664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 28], 3
+	QUAD $0x1c1e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r11 + 28], 4
+	QUAD $0x1c2e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r13 + 28], 5
+	QUAD $0x061c0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 28], 6
+	QUAD $0x071c3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 28], 7
+	QUAD $0x1c2664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r12 + 28], 8
+	QUAD $0x1c0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 28], 9
+	QUAD $0x0a1c1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 28], 10
+	QUAD $0x1c3664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 28], 11
+	QUAD $0x1c3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 28], 12
+	QUAD $0x0d1c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 13
+	QUAD $0x0e1c0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 28], 14
+	QUAD $0x1c0664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r8 + 28], 15
+	QUAD $0x1d166c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r10 + 29], 3
+	QUAD $0x1d1e6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r11 + 29], 4
+	QUAD $0x1d2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 29], 5
+	QUAD $0x1d0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 29], 6
+	QUAD $0x1d3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 29], 7
+	QUAD $0x1d266c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r12 + 29], 8
+	QUAD $0x1d0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 29], 9
+	QUAD $0x1d1e6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rbx + 29], 10
+	QUAD $0x1d366c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r14 + 29], 11
+	QUAD $0x1d3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 29], 12
+	QUAD $0x1d166c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rdx + 29], 13
+	QUAD $0x1d066c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rax + 29], 14
+	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
+	LONG $0x740f4566; BYTE $0xcf               // pcmpeqb    xmm9, xmm15
+	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI1_12] */
+	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
+	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI1_13] */
+	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
+	QUAD $0x1d066c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r8 + 29], 15
+	LONG $0x740f4566; BYTE $0xef               // pcmpeqb    xmm13, xmm15
+	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
+	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
+	QUAD $0x1e1664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r10 + 30], 3
+	QUAD $0x1f1644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 31], 3
+	QUAD $0x1e1e64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r11 + 30], 4
+	QUAD $0x1f1e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 31], 4
+	QUAD $0x1e2e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r13 + 30], 5
+	QUAD $0x1f2e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r13 + 31], 5
+	QUAD $0x1e0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 30], 6
+	QUAD $0x061f0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 31], 6
+	QUAD $0x1e3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 30], 7
+	QUAD $0x071f3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 31], 7
+	QUAD $0x1e2664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r12 + 30], 8
+	QUAD $0x1f2644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r12 + 31], 8
+	QUAD $0x1e0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 30], 9
+	QUAD $0x1f0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 31], 9
+	QUAD $0x1e1e64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rbx + 30], 10
+	QUAD $0x0a1f1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 31], 10
+	QUAD $0x1e3664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r14 + 30], 11
+	QUAD $0x1f3644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 31], 11
+	QUAD $0x1e3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 30], 12
+	QUAD $0x1f3e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 31], 12
+	QUAD $0x1e1664203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rdx + 30], 13
+	QUAD $0x0d1f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 13
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x1e0664203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rax + 30], 14
+	QUAD $0x0e1f0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 31], 14
+	QUAD $0x1e0664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r8 + 30], 15
+	QUAD $0x1f0644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r8 + 31], 15
+	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
+	LONG $0x740f4566; BYTE $0xe7               // pcmpeqb    xmm12, xmm15
+	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
+	LONG $0x740f4166; BYTE $0xc7               // pcmpeqb    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
+	LONG $0xc6db0f66                           // pand    xmm0, xmm6
+	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
+	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
+	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
+	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
+	QUAD $0x0000e024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 224]
+	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
+	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
+	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
+	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
+	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
+	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
+	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
+	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
+	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x8e54; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm2
+	LONG $0x7f0f41f3; WORD $0x8e1c             // movdqu    oword [r14 + 4*rcx], xmm3
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000f8248c3b48                   // cmp    rcx, qword [rsp + 248]
+	JNE  LBB1_87
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	QUAD $0x000000f824bc3b4c                   // cmp    r15, qword [rsp + 248]
+	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	JNE  LBB1_89
+	JMP  LBB1_92
+
+LBB1_66:
+	LONG $0xf0e78349                     // and    r15, -16
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
+	QUAD $0x000000f824bc894c             // mov    qword [rsp + 248], r15
+	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
+	LONG $0x24448948; BYTE $0x50         // mov    qword [rsp + 80], rax
+	LONG $0xc3b60f41                     // movzx    eax, r11b
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x0000008824b4894c             // mov    qword [rsp + 136], r14
+
+LBB1_67:
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
+	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
+	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
+	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
+	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
+	LONG $0x14b60f42; BYTE $0x3e               // movzx    edx, byte [rsi + r15]
+	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
+	LONG $0x54b60f42; WORD $0x013e             // movzx    edx, byte [rsi + r15 + 1]
+	LONG $0xea6e0f66                           // movd    xmm5, edx
+	LONG $0x54b60f42; WORD $0x023e             // movzx    edx, byte [rsi + r15 + 2]
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	LONG $0x54b60f42; WORD $0x033e             // movzx    edx, byte [rsi + r15 + 3]
+	LONG $0xd26e0f66                           // movd    xmm2, edx
+	LONG $0x54b60f42; WORD $0x043e             // movzx    edx, byte [rsi + r15 + 4]
+	LONG $0xca6e0f66                           // movd    xmm1, edx
+	LONG $0x54b60f42; WORD $0x053e             // movzx    edx, byte [rsi + r15 + 5]
+	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
+	LONG $0x54b60f42; WORD $0x063e             // movzx    edx, byte [rsi + r15 + 6]
+	LONG $0xda6e0f66                           // movd    xmm3, edx
+	LONG $0x54b60f42; WORD $0x073e             // movzx    edx, byte [rsi + r15 + 7]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
+	LONG $0x54b60f42; WORD $0x083e             // movzx    edx, byte [rsi + r15 + 8]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	QUAD $0x00012024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 288], xmm0
+	LONG $0x54b60f42; WORD $0x093e             // movzx    edx, byte [rsi + r15 + 9]
+	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
+	LONG $0x54b60f42; WORD $0x0a3e             // movzx    edx, byte [rsi + r15 + 10]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
+	LONG $0x54b60f42; WORD $0x0b3e             // movzx    edx, byte [rsi + r15 + 11]
+	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
+	LONG $0x54b60f42; WORD $0x0c3e             // movzx    edx, byte [rsi + r15 + 12]
+	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
+	LONG $0x54b60f42; WORD $0x0d3e             // movzx    edx, byte [rsi + r15 + 13]
+	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
+	LONG $0x54b60f42; WORD $0x0e3e             // movzx    edx, byte [rsi + r15 + 14]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
+	LONG $0x247c894c; BYTE $0x38               // mov    qword [rsp + 56], r15
+	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
+	LONG $0x20cd8349                           // or    r13, 32
+	LONG $0x246c894c; BYTE $0x18               // mov    qword [rsp + 24], r13
+	LONG $0x40cf8348                           // or    rdi, 64
+	LONG $0x60c98348                           // or    rcx, 96
+	QUAD $0x00000080248c8948                   // mov    qword [rsp + 128], rcx
+	LONG $0x80ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 128
+	LONG $0xa0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 160
+	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
+	LONG $0xe0c98149; WORD $0x0000; BYTE $0x00 // or    r9, 224
+	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
+	LONG $0x20cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 288
+	LONG $0x40ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 320
+	LONG $0x01600d48; WORD $0x0000             // or    rax, 352
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	LONG $0x80ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 384
+	LONG $0x24548948; BYTE $0x70               // mov    qword [rsp + 112], rdx
+	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	QUAD $0x012e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 1
+	QUAD $0x023e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdi], 2
+	QUAD $0x030e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 3
+	QUAD $0x04163c203a0f4666                   // pinsrb    xmm15, byte [rsi + r10], 4
+	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
+	LONG $0x2444894c; BYTE $0x78               // mov    qword [rsp + 120], r8
+	QUAD $0x05063c203a0f4666                   // pinsrb    xmm15, byte [rsi + r8], 5
+	LONG $0x2464894c; BYTE $0x68               // mov    qword [rsp + 104], r12
+	QUAD $0x06263c203a0f4666                   // pinsrb    xmm15, byte [rsi + r12], 6
+	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
+	QUAD $0x070e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 7
+	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
+	LONG $0x245c894c; BYTE $0x10               // mov    qword [rsp + 16], r11
+	QUAD $0x081e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r11], 8
+	LONG $0x245c8948; BYTE $0x40               // mov    qword [rsp + 64], rbx
+	QUAD $0x091e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rbx], 9
+	LONG $0x2474894c; BYTE $0x60               // mov    qword [rsp + 96], r14
+	QUAD $0x0a363c203a0f4666                   // pinsrb    xmm15, byte [rsi + r14], 10
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x0b2e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 11
+	QUAD $0x0c163c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdx], 12
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0d0e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 13
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0e0e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 14
+	QUAD $0x0f063c203a0f4466                   // pinsrb    xmm15, byte [rsi + rax], 15
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	QUAD $0x011e6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r11 + 1], 1
+	QUAD $0x02013e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 1], 2
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x011e6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r11 + 1], 3
+	QUAD $0x01166c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r10 + 1], 4
+	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
+	QUAD $0x013e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r15 + 1], 5
+	QUAD $0x01266c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r12 + 1], 6
+	QUAD $0x01066c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r8 + 1], 7
+	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
+	QUAD $0x010e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r9 + 1], 8
+	QUAD $0x09011e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 1], 9
+	QUAD $0x01366c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r14 + 1], 10
+	QUAD $0x012e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r13 + 1], 11
+	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
+	QUAD $0x0c01166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 1], 12
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0d01166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 1], 13
+	QUAD $0x0e010e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 1], 14
+	QUAD $0x0f01066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 1], 15
+	QUAD $0x00b0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 176]
+	LONG $0x740f4166; BYTE $0xe9               // pcmpeqb    xmm5, xmm9
+	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
+	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI1_10] */
+	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
+	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x0654b60f; BYTE $0x0f               // movzx    edx, byte [rsi + rax + 15]
+	LONG $0x6e0f4466; BYTE $0xf2               // movd    xmm14, edx
+	LONG $0x740f4566; BYTE $0xf9               // pcmpeqb    xmm15, xmm9
+	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
+	QUAD $0x01021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 1
+	QUAD $0x02023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 2
+	WORD $0x894d; BYTE $0xdc                   // mov    r12, r11
+	QUAD $0x021e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r11 + 2], 3
+	QUAD $0x021674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r10 + 2], 4
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x05020e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 2], 5
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x021e74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r11 + 2], 6
+	QUAD $0x000000c024bc894c                   // mov    qword [rsp + 192], r15
+	QUAD $0x023e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r15 + 2], 7
+	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
+	QUAD $0x022e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r13 + 2], 8
+	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
+	QUAD $0x023674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r14 + 2], 9
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x020e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r9 + 2], 10
+	QUAD $0x020674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r8 + 2], 11
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0c021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 12
+	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
+	QUAD $0x021674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r10 + 2], 13
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0e021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 15
+	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
+	LONG $0x740f4166; BYTE $0xf1               // pcmpeqb    xmm6, xmm9
+	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI1_11] */
+	LONG $0xf0db0f66                           // pand    xmm6, xmm0
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x0654b60f; BYTE $0x10               // movzx    edx, byte [rsi + rax + 16]
+	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
+	QUAD $0x01031e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 3], 1
+	QUAD $0x02033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 2
+	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
+	QUAD $0x032654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r12 + 3], 3
+	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
+	QUAD $0x032654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r12 + 3], 4
+	QUAD $0x05030e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 3], 5
+	QUAD $0x031e54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r11 + 3], 6
+	QUAD $0x033e54203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r15 + 3], 7
+	QUAD $0x032e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r13 + 3], 8
+	QUAD $0x033654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r14 + 3], 9
+	QUAD $0x030e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 3], 10
+	WORD $0x894d; BYTE $0xce                   // mov    r14, r9
+	QUAD $0x030654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r8 + 3], 11
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x033e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 3], 12
+	QUAD $0x031654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r10 + 3], 13
+	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
+	QUAD $0x032e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r13 + 3], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f031654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 3], 15
+	QUAD $0x01041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 1
+	QUAD $0x02043e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 4], 2
+	QUAD $0x0304064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 3
+	QUAD $0x04264c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r12 + 4], 4
+	QUAD $0x05040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 5
+	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
+	QUAD $0x041e4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rsi + r11 + 4], 6
+	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
+	QUAD $0x041e4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r11 + 4], 7
+	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
+	QUAD $0x040e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r9 + 4], 8
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x09041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 9
+	QUAD $0x04364c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r14 + 4], 10
+	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
+	QUAD $0x04064c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r8 + 4], 11
+	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
+	QUAD $0x043e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 4], 12
+	QUAD $0x04164c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r10 + 4], 13
+	QUAD $0x042e4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r13 + 4], 14
+	QUAD $0x0f04164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 15
+	WORD $0x8949; BYTE $0xd2                   // mov    r10, rdx
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	LONG $0x1e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rbx + 17]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI1_12] */
+	LONG $0xd5db0f66                           // pand    xmm2, xmm5
+	LONG $0x740f4166; BYTE $0xc9               // pcmpeqb    xmm1, xmm9
+	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI1_13] */
+	LONG $0xcddb0f66                           // pand    xmm1, xmm5
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	LONG $0x1e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rbx + 18]
+	LONG $0xea6e0f66                           // movd    xmm5, edx
+	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
+	QUAD $0x050644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r8 + 5], 1
+	QUAD $0x053e44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdi + 5], 2
+	QUAD $0x050644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rax + 5], 3
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x051644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 5], 4
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x051644203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rdx + 5], 5
+	QUAD $0x050e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 5], 6
+	QUAD $0x051e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r11 + 5], 7
+	QUAD $0x050e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r9 + 5], 8
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x050e44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rsi + rcx + 5], 9
+	QUAD $0x052644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r12 + 5], 10
+	QUAD $0x053644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 5], 11
+	QUAD $0x053e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 5], 12
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x050e44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rcx + 5], 13
+	QUAD $0x052e44203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r13 + 5], 14
+	QUAD $0x051644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r10 + 5], 15
+	LONG $0x740f4566; BYTE $0xc1               // pcmpeqb    xmm8, xmm9
+	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI1_14] */
+	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
+	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
+	LONG $0x1e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rbx + 19]
+	LONG $0xfa6e0f66                           // movd    xmm7, edx
+	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
+	LONG $0x1e54b60f; BYTE $0x14               // movzx    edx, byte [rsi + rbx + 20]
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
+	QUAD $0x06065c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r8 + 6], 1
+	QUAD $0x02063e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 6], 2
+	QUAD $0x0306065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 3
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x061e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r11 + 6], 4
+	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
+	QUAD $0x060e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r9 + 6], 5
+	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
+	QUAD $0x06065c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r8 + 6], 6
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x06265c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r12 + 6], 7
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0806065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 8
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x09061e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 6], 9
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x06365c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r14 + 6], 10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0b060e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 6], 11
+	QUAD $0x063e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 6], 12
+	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
+	QUAD $0x06165c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r10 + 6], 13
+	QUAD $0x062e5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r13 + 6], 14
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0f060e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 6], 15
+	QUAD $0x0000d024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 208]
+	QUAD $0x01071654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 7], 1
+	QUAD $0x02073e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 7], 2
+	QUAD $0x000000e024bc8948                   // mov    qword [rsp + 224], rdi
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x03070e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 7], 3
+	QUAD $0x071e54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r11 + 7], 4
+	QUAD $0x070e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r9 + 7], 5
+	QUAD $0x070654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r8 + 7], 6
+	QUAD $0x072654203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r12 + 7], 7
+	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
+	QUAD $0x08070654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 7], 8
+	QUAD $0x09071e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 7], 9
+	QUAD $0x073654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r14 + 7], 10
+	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0b070654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 7], 11
+	QUAD $0x073e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 7], 12
+	QUAD $0x071654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r10 + 7], 13
+	QUAD $0x072e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r13 + 7], 14
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	QUAD $0x073654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r14 + 7], 15
+	LONG $0x740f4166; BYTE $0xd9               // pcmpeqb    xmm3, xmm9
+	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI1_15] */
+	LONG $0xd9db0f66                           // pand    xmm3, xmm1
+	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
+	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
+	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI1_6] */
+	LONG $0xd1db0f66                           // pand    xmm2, xmm1
+	LONG $0xd3eb0f66                           // por    xmm2, xmm3
+	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	LONG $0x1e54b60f; BYTE $0x15               // movzx    edx, byte [rsi + rbx + 21]
+	LONG $0xd26e0f66                           // movd    xmm2, edx
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x091654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rdx + 9], 1
+	QUAD $0x093e54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdi + 9], 2
+	QUAD $0x090e54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rcx + 9], 3
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x093e54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rdi + 9], 4
+	QUAD $0x090e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r9 + 9], 5
+	QUAD $0x090654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r8 + 9], 6
+	QUAD $0x091e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r11 + 9], 7
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x090e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rcx + 9], 8
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x090e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rcx + 9], 9
+	QUAD $0x092654203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r12 + 9], 10
+	QUAD $0x090654203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rax + 9], 11
+	QUAD $0x093e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 9], 12
+	QUAD $0x091654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r10 + 9], 13
+	QUAD $0x092e54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r13 + 9], 14
+	QUAD $0x093654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r14 + 9], 15
+	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
+	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
+	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
+	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
+	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
+	LONG $0x1e54b60f; BYTE $0x16               // movzx    edx, byte [rsi + rbx + 22]
+	LONG $0xda6e0f66                           // movd    xmm3, edx
+	QUAD $0x00012024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 288]
+	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
+	QUAD $0x081664203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r10 + 8], 1
+	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
+	QUAD $0x082664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r12 + 8], 2
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x03080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 3
+	QUAD $0x04083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 4
+	QUAD $0x080e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r9 + 8], 5
+	QUAD $0x080664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r8 + 8], 6
+	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
+	QUAD $0x081e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 8], 7
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x08081664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 8], 8
+	QUAD $0x09080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 9
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0a080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 10
+	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
+	QUAD $0x083664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 8], 11
+	QUAD $0x083e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 8], 12
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0d083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 13
+	QUAD $0x082e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r13 + 8], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0f083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 15
+	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	QUAD $0x00a024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 160]
+	QUAD $0x0a1654203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r10 + 10], 1
+	QUAD $0x0a2654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r12 + 10], 2
+	QUAD $0x0a0654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rax + 10], 3
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x0a1e54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r11 + 10], 4
+	QUAD $0x0a0e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r9 + 10], 5
+	QUAD $0x0a0654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r8 + 10], 6
+	QUAD $0x0a1e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rbx + 10], 7
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	QUAD $0x0a1654203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rdx + 10], 8
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x0a0654203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r8 + 10], 9
+	QUAD $0x0a0e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rcx + 10], 10
+	QUAD $0x0a3654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r14 + 10], 11
+	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
+	QUAD $0x0a3e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 10], 12
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0a0e54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rcx + 10], 13
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0a1654203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rdx + 10], 14
+	QUAD $0x0a3e54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rdi + 10], 15
+	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
+	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI1_11] */
+	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	LONG $0x3e54b60f; BYTE $0x17               // movzx    edx, byte [rsi + rdi + 23]
+	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
+	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
+	QUAD $0x00a024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm10
+	LONG $0x3e54b60f; BYTE $0x18               // movzx    edx, byte [rsi + rdi + 24]
+	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x0b165c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rdx + 11], 1
+	QUAD $0x0b265c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rsi + r12 + 11], 2
+	QUAD $0x0b065c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rax + 11], 3
+	QUAD $0x0b1e5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r11 + 11], 4
+	QUAD $0x0b0e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r9 + 11], 5
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0b1e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rbx + 11], 6
+	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
+	QUAD $0x0b165c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r10 + 11], 7
+	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
+	QUAD $0x0b165c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r10 + 11], 8
+	QUAD $0x0b065c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r8 + 11], 9
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x0b0e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r9 + 11], 10
+	QUAD $0x0b2e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r13 + 11], 11
+	QUAD $0x0b3e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 11], 12
+	QUAD $0x0b0e5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rcx + 11], 13
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0b3e5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rdi + 11], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0b3e5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdi + 11], 15
+	QUAD $0x0c166c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rdx + 12], 1
+	QUAD $0x0c266c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rsi + r12 + 12], 2
+	QUAD $0x0c066c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rsi + rax + 12], 3
+	QUAD $0x0c1e6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r11 + 12], 4
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x0c2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 12], 5
+	QUAD $0x0c1e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rbx + 12], 6
+	QUAD $0x0c366c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r14 + 12], 7
+	QUAD $0x0c166c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r10 + 12], 8
+	QUAD $0x0c066c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r8 + 12], 9
+	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
+	QUAD $0x0c0e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r9 + 12], 10
+	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x0c2e6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r13 + 12], 11
+	QUAD $0x0c3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 12], 12
+	QUAD $0x0c0e6c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rcx + 12], 13
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x0c0e6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r9 + 12], 14
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c3e6c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdi + 12], 15
+	QUAD $0x0d1664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rdx + 13], 1
+	QUAD $0x0d2664203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rsi + r12 + 13], 2
+	QUAD $0x0d0664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rax + 13], 3
+	QUAD $0x0d1e64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r11 + 13], 4
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x0d0664203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rsi + rax + 13], 5
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0d1664203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rdx + 13], 6
+	QUAD $0x0d3664203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r14 + 13], 7
+	QUAD $0x0d1664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r10 + 13], 8
+	QUAD $0x0d1e64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rsi + rbx + 13], 9
+	QUAD $0x0d0664203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r8 + 13], 10
+	QUAD $0x0d2e64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r13 + 13], 11
+	QUAD $0x0d3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 13], 12
+	QUAD $0x0d0e64203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rcx + 13], 13
+	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
+	QUAD $0x0d0e64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r9 + 13], 14
+	QUAD $0x0d3e64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rdi + 13], 15
+	LONG $0x740f4566; BYTE $0xd9               // pcmpeqb    xmm11, xmm9
+	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI1_12] */
+	LONG $0x740f4566; BYTE $0xe9               // pcmpeqb    xmm13, xmm9
+	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI1_13] */
+	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	LONG $0x0e54b60f; BYTE $0x19               // movzx    edx, byte [rsi + rcx + 25]
+	LONG $0xca6e0f66                           // movd    xmm1, edx
+	LONG $0x740f4566; BYTE $0xe1               // pcmpeqb    xmm12, xmm9
+	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI1_14] */
+	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
+	LONG $0x0e54b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rcx + 26]
+	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
+	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x010e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 1
+	QUAD $0x0e2664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r12 + 14], 2
+	QUAD $0x0000008024948b4c                   // mov    r10, qword [rsp + 128]
+	QUAD $0x0e1664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 14], 3
+	QUAD $0x0e1e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r11 + 14], 4
+	QUAD $0x050e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 14], 5
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x060e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 6
+	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
+	QUAD $0x0e3664203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r14 + 14], 7
+	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
+	QUAD $0x0e0664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 14], 8
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	QUAD $0x0e0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 14], 9
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x0a0e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 14], 10
+	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
+	QUAD $0x0e3664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 14], 11
+	QUAD $0x0e3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 14], 12
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0d0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 13
+	QUAD $0x0e2e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r13 + 14], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 15
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x0f1674203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rdx + 15], 1
+	QUAD $0x0f2674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r12 + 15], 2
+	QUAD $0x0f1674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r10 + 15], 3
+	QUAD $0x0f1e74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r11 + 15], 4
+	QUAD $0x0f0674203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rax + 15], 5
+	QUAD $0x0f0e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rcx + 15], 6
+	QUAD $0x0f3e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rdi + 15], 7
+	QUAD $0x0f0674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 15], 8
+	QUAD $0x0f0e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 15], 9
+	QUAD $0x0f1e74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rbx + 15], 10
+	QUAD $0x0f3674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 15], 11
+	QUAD $0x0f3e74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r15 + 15], 12
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0f1674203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rdx + 15], 13
+	QUAD $0x0f2e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r13 + 15], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f1674203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rdx + 15], 15
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x10167c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rdx + 16], 1
+	QUAD $0x10267c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r12 + 16], 2
+	QUAD $0x10167c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r10 + 16], 3
+	QUAD $0x101e7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r11 + 16], 4
+	QUAD $0x10067c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rax + 16], 5
+	QUAD $0x100e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rcx + 16], 6
+	QUAD $0x103e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rdi + 16], 7
+	QUAD $0x10067c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r8 + 16], 8
+	QUAD $0x100e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 16], 9
+	QUAD $0x101e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rbx + 16], 10
+	QUAD $0x10367c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r14 + 16], 11
+	QUAD $0x103e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 16], 12
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x10167c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rdx + 16], 13
+	QUAD $0x102e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r13 + 16], 14
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x01111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 1
+	QUAD $0x112644203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r12 + 17], 2
+	QUAD $0x111644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 17], 3
+	QUAD $0x111e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 17], 4
+	QUAD $0x05110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 5
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	QUAD $0x06110e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 17], 6
+	QUAD $0x07113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 7
+	QUAD $0x110644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r8 + 17], 8
+	QUAD $0x110e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 17], 9
+	QUAD $0x0a111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 10
+	QUAD $0x113644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 17], 11
+	QUAD $0x113e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 17], 12
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 13
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0e111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 14
+	QUAD $0x00a024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 160]
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	LONG $0x54b60f42; WORD $0x1b26             // movzx    edx, byte [rsi + r12 + 27]
+	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
+	QUAD $0x00b024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 176]
+	LONG $0x740f4166; BYTE $0xe5               // pcmpeqb    xmm4, xmm13
+	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI1_15] */
+	LONG $0x740f4566; BYTE $0xf5               // pcmpeqb    xmm14, xmm13
+	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
+	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
+	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
+	LONG $0x54b60f42; WORD $0x1c26             // movzx    edx, byte [rsi + r12 + 28]
+	LONG $0xe26e0f66                           // movd    xmm4, edx
+	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
+	QUAD $0x110644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r8 + 17], 15
+	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
+	LONG $0x740f4166; BYTE $0xc5               // pcmpeqb    xmm0, xmm13
+	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
+	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI1_10] */
+	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
+	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
+	QUAD $0x00a024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm13
+	LONG $0x54b60f42; WORD $0x1d26             // movzx    edx, byte [rsi + r12 + 29]
+	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
+	QUAD $0x10067c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r8 + 16], 15
+	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
+	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
+	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
+	QUAD $0x12266c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r12 + 18], 1
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x0212166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 2
+	QUAD $0x12166c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r10 + 18], 3
+	QUAD $0x121e6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r11 + 18], 4
+	QUAD $0x122e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r13 + 18], 5
+	QUAD $0x06120e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 18], 6
+	QUAD $0x07123e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 18], 7
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0812166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 8
+	QUAD $0x120e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r9 + 18], 9
+	QUAD $0x0a121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 10
+	QUAD $0x12366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 18], 11
+	QUAD $0x123e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 18], 12
+	QUAD $0x0d12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 14
+	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
+	QUAD $0x12066c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r8 + 18], 15
+	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
+	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI1_11] */
+	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x0654b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rax + 30]
+	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
+	QUAD $0x13267c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rsi + r12 + 19], 1
+	QUAD $0x142674203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r12 + 20], 1
+	QUAD $0x152654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r12 + 21], 1
+	QUAD $0x16265c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r12 + 22], 1
+	QUAD $0x172644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r12 + 23], 1
+	QUAD $0x182654203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r12 + 24], 1
+	QUAD $0x19264c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rsi + r12 + 25], 1
+	QUAD $0x1a265c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rsi + r12 + 26], 1
+	QUAD $0x1b264c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rsi + r12 + 27], 1
+	QUAD $0x1c2664203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r12 + 28], 1
+	QUAD $0x1d266c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r12 + 29], 1
+	QUAD $0x1e2664203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rsi + r12 + 30], 1
+	LONG $0x0654b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rax + 31]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	QUAD $0x1f2644203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rsi + r12 + 31], 1
+	QUAD $0x000000e024948b48                   // mov    rdx, qword [rsp + 224]
+	QUAD $0x0213167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 2
+	QUAD $0x02141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 2
+	QUAD $0x02151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 2
+	QUAD $0x0216165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 2
+	QUAD $0x171644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdx + 23], 2
+	QUAD $0x181654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdx + 24], 2
+	QUAD $0x0219164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 2
+	QUAD $0x1a165c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdx + 26], 2
+	QUAD $0x1b164c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdx + 27], 2
+	QUAD $0x021c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 2
+	QUAD $0x1d166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 29], 2
+	QUAD $0x1e1664203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdx + 30], 2
+	QUAD $0x021f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 2
+	QUAD $0x13167c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r10 + 19], 3
+	QUAD $0x131e7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r11 + 19], 4
+	QUAD $0x132e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r13 + 19], 5
+	QUAD $0x06130e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 19], 6
+	QUAD $0x07133e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 19], 7
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x13267c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r12 + 19], 8
+	QUAD $0x130e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 19], 9
+	QUAD $0x0a131e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 19], 10
+	QUAD $0x13367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 19], 11
+	QUAD $0x133e7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r15 + 19], 12
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0d13167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 13
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0e13067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 19], 14
+	QUAD $0x13067c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r8 + 19], 15
+	QUAD $0x141674203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r10 + 20], 3
+	QUAD $0x141e74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r11 + 20], 4
+	QUAD $0x142e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r13 + 20], 5
+	QUAD $0x06140e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 20], 6
+	QUAD $0x07143e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 20], 7
+	QUAD $0x142674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r12 + 20], 8
+	QUAD $0x140e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 20], 9
+	QUAD $0x0a141e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 20], 10
+	QUAD $0x143674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r14 + 20], 11
+	QUAD $0x143e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 20], 12
+	QUAD $0x0d141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 13
+	QUAD $0x0e140674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 20], 14
+	QUAD $0x0000a024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 160]
+	QUAD $0x140674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r8 + 20], 15
+	QUAD $0x00b024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 176]
+	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
+	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI1_12] */
+	LONG $0x740f4166; BYTE $0xf7               // pcmpeqb    xmm6, xmm15
+	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI1_13] */
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	QUAD $0x151654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r10 + 21], 3
+	QUAD $0x151e54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r11 + 21], 4
+	QUAD $0x152e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r13 + 21], 5
+	QUAD $0x06150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 6
+	QUAD $0x07153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 7
+	QUAD $0x152654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r12 + 21], 8
+	QUAD $0x150e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 21], 9
+	QUAD $0x0a151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 10
+	QUAD $0x153654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 21], 11
+	QUAD $0x153e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 21], 12
+	QUAD $0x0d151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 13
+	QUAD $0x0e150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 14
+	QUAD $0x150654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r8 + 21], 15
+	LONG $0x740f4166; BYTE $0xd7               // pcmpeqb    xmm2, xmm15
+	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI1_14] */
+	LONG $0xd7db0f66                           // pand    xmm2, xmm7
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	LONG $0xd5eb0f66                           // por    xmm2, xmm5
+	QUAD $0x16165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 22], 3
+	QUAD $0x161e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r11 + 22], 4
+	QUAD $0x162e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 22], 5
+	QUAD $0x06160e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 22], 6
+	QUAD $0x07163e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 22], 7
+	QUAD $0x16265c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r12 + 22], 8
+	QUAD $0x160e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r9 + 22], 9
+	QUAD $0x0a161e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 22], 10
+	QUAD $0x16365c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r14 + 22], 11
+	QUAD $0x163e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 22], 12
+	QUAD $0x0d16165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 13
+	QUAD $0x0e16065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 22], 14
+	QUAD $0x16065c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r8 + 22], 15
+	QUAD $0x171644203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r10 + 23], 3
+	QUAD $0x171e44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r11 + 23], 4
+	QUAD $0x172e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r13 + 23], 5
+	QUAD $0x170e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 23], 6
+	QUAD $0x173e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rdi + 23], 7
+	QUAD $0x172644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r12 + 23], 8
+	QUAD $0x170e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 23], 9
+	QUAD $0x171e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rbx + 23], 10
+	QUAD $0x173644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 23], 11
+	QUAD $0x173e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 23], 12
+	QUAD $0x171644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rdx + 23], 13
+	QUAD $0x170644203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rax + 23], 14
+	QUAD $0x170644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r8 + 23], 15
+	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
+	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI1_15] */
+	LONG $0xdddb0f66                           // pand    xmm3, xmm5
+	LONG $0x740f4566; BYTE $0xc7               // pcmpeqb    xmm8, xmm15
+	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
+	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI1_6] */
+	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
+	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
+	QUAD $0x19164c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r10 + 25], 3
+	QUAD $0x191e4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r11 + 25], 4
+	QUAD $0x192e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r13 + 25], 5
+	QUAD $0x06190e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 25], 6
+	QUAD $0x07193e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 25], 7
+	QUAD $0x19264c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r12 + 25], 8
+	QUAD $0x190e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 25], 9
+	QUAD $0x0a191e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 25], 10
+	QUAD $0x19364c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r14 + 25], 11
+	QUAD $0x193e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 25], 12
+	QUAD $0x0d19164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 13
+	QUAD $0x0e19064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 25], 14
+	QUAD $0x19064c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r8 + 25], 15
+	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
+	LONG $0x740f4166; BYTE $0xcf               // pcmpeqb    xmm1, xmm15
+	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
+	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI1_10] */
+	LONG $0xd3db0f66                           // pand    xmm2, xmm3
+	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
+	QUAD $0x181654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r10 + 24], 3
+	QUAD $0x181e54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r11 + 24], 4
+	QUAD $0x182e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r13 + 24], 5
+	QUAD $0x180e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rcx + 24], 6
+	QUAD $0x183e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rdi + 24], 7
+	QUAD $0x182654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r12 + 24], 8
+	QUAD $0x180e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 24], 9
+	QUAD $0x181e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rbx + 24], 10
+	QUAD $0x183654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r14 + 24], 11
+	QUAD $0x183e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 24], 12
+	QUAD $0x181654203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rdx + 24], 13
+	QUAD $0x180654203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rax + 24], 14
+	QUAD $0x180654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r8 + 24], 15
+	LONG $0x740f4566; BYTE $0xd7               // pcmpeqb    xmm10, xmm15
+	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
+	QUAD $0x1a165c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r10 + 26], 3
+	QUAD $0x1a1e5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r11 + 26], 4
+	QUAD $0x1a2e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r13 + 26], 5
+	QUAD $0x1a0e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rcx + 26], 6
+	QUAD $0x1a3e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdi + 26], 7
+	QUAD $0x1a265c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r12 + 26], 8
+	QUAD $0x1a0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 26], 9
+	QUAD $0x1a1e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rbx + 26], 10
+	QUAD $0x1a365c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r14 + 26], 11
+	QUAD $0x1a3e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 26], 12
+	QUAD $0x1a165c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rdx + 26], 13
+	QUAD $0x1a065c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rax + 26], 14
+	QUAD $0x1a065c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r8 + 26], 15
+	LONG $0x740f4566; BYTE $0xdf               // pcmpeqb    xmm11, xmm15
+	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI1_11] */
+	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
+	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
+	QUAD $0x1b164c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r10 + 27], 3
+	QUAD $0x1b1e4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r11 + 27], 4
+	QUAD $0x1b2e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r13 + 27], 5
+	QUAD $0x1b0e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rcx + 27], 6
+	QUAD $0x1b3e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rdi + 27], 7
+	QUAD $0x1b264c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r12 + 27], 8
+	QUAD $0x1b0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 27], 9
+	QUAD $0x1b1e4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rbx + 27], 10
+	QUAD $0x1b364c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r14 + 27], 11
+	QUAD $0x1b3e4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r15 + 27], 12
+	QUAD $0x1b164c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdx + 27], 13
+	QUAD $0x1b064c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rax + 27], 14
+	QUAD $0x1b064c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r8 + 27], 15
+	QUAD $0x1c1664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 28], 3
+	QUAD $0x1c1e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r11 + 28], 4
+	QUAD $0x1c2e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r13 + 28], 5
+	QUAD $0x061c0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 28], 6
+	QUAD $0x071c3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 28], 7
+	QUAD $0x1c2664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r12 + 28], 8
+	QUAD $0x1c0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 28], 9
+	QUAD $0x0a1c1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 28], 10
+	QUAD $0x1c3664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r14 + 28], 11
+	QUAD $0x1c3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 28], 12
+	QUAD $0x0d1c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 13
+	QUAD $0x0e1c0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 28], 14
+	QUAD $0x1c0664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r8 + 28], 15
+	QUAD $0x1d166c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r10 + 29], 3
+	QUAD $0x1d1e6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r11 + 29], 4
+	QUAD $0x1d2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 29], 5
+	QUAD $0x1d0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 29], 6
+	QUAD $0x1d3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 29], 7
+	QUAD $0x1d266c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r12 + 29], 8
+	QUAD $0x1d0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 29], 9
+	QUAD $0x1d1e6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rbx + 29], 10
+	QUAD $0x1d366c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r14 + 29], 11
+	QUAD $0x1d3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 29], 12
+	QUAD $0x1d166c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rdx + 29], 13
+	QUAD $0x1d066c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rax + 29], 14
+	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
+	LONG $0x740f4566; BYTE $0xcf               // pcmpeqb    xmm9, xmm15
+	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI1_12] */
+	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
+	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI1_13] */
+	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
+	QUAD $0x1d066c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r8 + 29], 15
+	LONG $0x740f4566; BYTE $0xef               // pcmpeqb    xmm13, xmm15
+	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
+	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
+	QUAD $0x1e1664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r10 + 30], 3
+	QUAD $0x1f1644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 31], 3
+	QUAD $0x1e1e64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r11 + 30], 4
+	QUAD $0x1f1e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 31], 4
+	QUAD $0x1e2e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r13 + 30], 5
+	QUAD $0x1f2e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r13 + 31], 5
+	QUAD $0x1e0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 30], 6
+	QUAD $0x061f0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 31], 6
+	QUAD $0x1e3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 30], 7
+	QUAD $0x071f3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 31], 7
+	QUAD $0x1e2664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r12 + 30], 8
+	QUAD $0x1f2644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r12 + 31], 8
+	QUAD $0x1e0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 30], 9
+	QUAD $0x1f0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 31], 9
+	QUAD $0x1e1e64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rbx + 30], 10
+	QUAD $0x0a1f1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 31], 10
+	QUAD $0x1e3664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r14 + 30], 11
+	QUAD $0x1f3644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 31], 11
+	QUAD $0x1e3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 30], 12
+	QUAD $0x1f3e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 31], 12
+	QUAD $0x1e1664203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rdx + 30], 13
+	QUAD $0x0d1f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 13
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x1e0664203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rax + 30], 14
+	QUAD $0x0e1f0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 31], 14
+	QUAD $0x1e0664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r8 + 30], 15
+	QUAD $0x1f0644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r8 + 31], 15
+	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
+	LONG $0x740f4566; BYTE $0xe7               // pcmpeqb    xmm12, xmm15
+	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
+	LONG $0x740f4166; BYTE $0xc7               // pcmpeqb    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
+	LONG $0xc6db0f66                           // pand    xmm0, xmm6
+	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
+	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
+	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
+	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
+	QUAD $0x0000d024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 208]
+	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
+	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
+	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
+	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
+	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
+	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
+	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
+	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
+	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x8e54; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm2
+	LONG $0x7f0f41f3; WORD $0x8e1c             // movdqu    oword [r14 + 4*rcx], xmm3
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000f8248c3b48                   // cmp    rcx, qword [rsp + 248]
+	JNE  LBB1_67
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	QUAD $0x000000f824bc3b4c                   // cmp    r15, qword [rsp + 248]
+	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	JNE  LBB1_69
+	JMP  LBB1_72
+
+LBB1_110:
+	LONG $0xf8e38349                     // and    r11, -8
+	WORD $0x894c; BYTE $0xd8             // mov    rax, r11
+	LONG $0x06e0c148                     // shl    rax, 6
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	LONG $0x24448948; BYTE $0x40         // mov    qword [rsp + 64], rax
+	LONG $0x245c894c; BYTE $0x10         // mov    qword [rsp + 16], r11
+	LONG $0x9e048d4b                     // lea    rax, [r14 + 4*r11]
+	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
+	LONG $0x246c8944; BYTE $0x38         // mov    dword [rsp + 56], r13d
+	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
+	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
+	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
+	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI1_8] */
+	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI1_1] */
+	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI1_2] */
+	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI1_3] */
+	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI1_4] */
+	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI1_5] */
+	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
+	QUAD $0x0000008824b4894c             // mov    qword [rsp + 136], r14
+
+LBB1_111:
+	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
+	LONG $0x06e7c149                           // shl    r15, 6
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
+	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
+	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	LONG $0x34b70f46; BYTE $0x3e               // movzx    r14d, word [rsi + r15]
+	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
+	LONG $0x54b70f42; WORD $0x043e             // movzx    edx, word [rsi + r15 + 4]
+	LONG $0x5cb70f46; WORD $0x063e             // movzx    r11d, word [rsi + r15 + 6]
+	LONG $0x54b70f46; WORD $0x083e             // movzx    r10d, word [rsi + r15 + 8]
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	LONG $0x40c88349                           // or    r8, 64
+	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
+	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
+	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
+	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
+	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
+	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
+	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
+	LONG $0xc40f4266; WORD $0x0624; BYTE $0x01 // pinsrw    xmm4, word [rsi + r8], 1
+	LONG $0xc40f4266; WORD $0x0e24; BYTE $0x02 // pinsrw    xmm4, word [rsi + r9], 2
+	LONG $0xc40f4266; WORD $0x2624; BYTE $0x03 // pinsrw    xmm4, word [rsi + r12], 3
+	LONG $0xc40f4266; WORD $0x2e24; BYTE $0x04 // pinsrw    xmm4, word [rsi + r13], 4
+	LONG $0x24c40f66; WORD $0x050e             // pinsrw    xmm4, word [rsi + rcx], 5
+	LONG $0x24c40f66; WORD $0x063e             // pinsrw    xmm4, word [rsi + rdi], 6
+	LONG $0x24c40f66; WORD $0x071e             // pinsrw    xmm4, word [rsi + rbx], 7
+	LONG $0x74b70f46; WORD $0x0a3e             // movzx    r14d, word [rsi + r15 + 10]
+	LONG $0xf06e0f66                           // movd    xmm6, eax
+	QUAD $0x01020674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 2], 1
+	QUAD $0x02020e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 2], 2
+	QUAD $0x03022674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 2], 3
+	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
+	LONG $0x20244489                           // mov    dword [rsp + 32], eax
+	QUAD $0x04022e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 2], 4
+	LONG $0xd26e0f66                           // movd    xmm2, edx
+	LONG $0x54b70f42; WORD $0x0e3e             // movzx    edx, word [rsi + r15 + 14]
+	LONG $0x74c40f66; WORD $0x020e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 2], 5
+	LONG $0x6e0f4166; BYTE $0xeb               // movd    xmm5, r11d
+	LONG $0x44b70f42; WORD $0x103e             // movzx    eax, word [rsi + r15 + 16]
+	LONG $0x18244489                           // mov    dword [rsp + 24], eax
+	LONG $0x74c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 2], 6
+	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
+	LONG $0x44b70f42; WORD $0x123e             // movzx    eax, word [rsi + r15 + 18]
+	LONG $0x30244489                           // mov    dword [rsp + 48], eax
+	LONG $0x74c40f66; WORD $0x021e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 2], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xcef80f66                           // psubb    xmm1, xmm6
+	LONG $0x6e0f4166; BYTE $0xf6               // movd    xmm6, r14d
+	LONG $0x5cb70f46; WORD $0x143e             // movzx    r11d, word [rsi + r15 + 20]
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
+	QUAD $0x01040654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 4], 1
+	QUAD $0x02040e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 4], 2
+	QUAD $0x03042654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 4], 3
+	QUAD $0x04042e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 4], 4
+	LONG $0x54c40f66; WORD $0x040e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 4], 5
+	LONG $0x54c40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 4], 6
+	LONG $0x54c40f66; WORD $0x041e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 4], 7
+	QUAD $0x0106066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 6], 1
+	QUAD $0x02060e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 6], 2
+	QUAD $0x0306266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 6], 3
+	QUAD $0x04062e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 6], 4
+	LONG $0x6cc40f66; WORD $0x060e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 6], 5
+	LONG $0x6cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 6], 6
+	LONG $0x6cc40f66; WORD $0x061e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 6], 7
+	QUAD $0x0108065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 8], 1
+	QUAD $0x02080e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 8], 2
+	QUAD $0x0308265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 8], 3
+	QUAD $0x04082e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 8], 4
+	LONG $0x5cc40f66; WORD $0x080e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 8], 5
+	LONG $0x5cc40f66; WORD $0x083e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 8], 6
+	LONG $0x5cc40f66; WORD $0x081e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 8], 7
+	LONG $0xcceb0f66                           // por    xmm1, xmm4
+	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
+	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
+	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	LONG $0xe26e0f66                           // movd    xmm4, edx
+	LONG $0x54b70f42; WORD $0x183e             // movzx    edx, word [rsi + r15 + 24]
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
+	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
+	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
+	LONG $0x54b70f46; WORD $0x1a3e             // movzx    r10d, word [rsi + r15 + 26]
+	QUAD $0x010a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 10], 1
+	QUAD $0x020a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 10], 2
+	QUAD $0x030a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 10], 3
+	QUAD $0x040a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 10], 4
+	LONG $0x74c40f66; WORD $0x0a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 10], 5
+	LONG $0x74c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 10], 6
+	LONG $0x74c40f66; WORD $0x0a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 10], 7
+	QUAD $0x010c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 12], 1
+	QUAD $0x020c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 12], 2
+	QUAD $0x030c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 12], 3
+	QUAD $0x040c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 12], 4
+	LONG $0x7cc40f66; WORD $0x0c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 12], 5
+	LONG $0x7cc40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 12], 6
+	LONG $0x7cc40f66; WORD $0x0c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 12], 7
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x30 // movd    xmm8, dword [rsp + 48]
+	LONG $0x74b70f46; WORD $0x1c3e             // movzx    r14d, word [rsi + r15 + 28]
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	LONG $0x6e0f4166; BYTE $0xeb               // movd    xmm5, r11d
+	LONG $0x5cb70f46; WORD $0x1e3e             // movzx    r11d, word [rsi + r15 + 30]
+	QUAD $0x010e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 14], 1
+	QUAD $0x020e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 14], 2
+	QUAD $0x030e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 14], 3
+	QUAD $0x040e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 14], 4
+	LONG $0x64c40f66; WORD $0x0e0e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rcx + 14], 5
+	LONG $0x64c40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 14], 6
+	LONG $0x64c40f66; WORD $0x0e1e; BYTE $0x07 // pinsrw    xmm4, word [rsi + rbx + 14], 7
+	QUAD $0x01120644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 18], 1
+	QUAD $0x02120e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 18], 2
+	QUAD $0x03122644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 18], 3
+	QUAD $0x04122e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 18], 4
+	QUAD $0x05120e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 18], 5
+	QUAD $0x06123e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 18], 6
+	QUAD $0x07121e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 18], 7
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
+	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
+	LONG $0xe7eb0f66                           // por    xmm4, xmm7
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x44b70f42; WORD $0x203e             // movzx    eax, word [rsi + r15 + 32]
+	LONG $0xe3eb0f66                           // por    xmm4, xmm3
+	LONG $0x750f4466; BYTE $0xc0               // pcmpeqw    xmm8, xmm0
+	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
+	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
+	LONG $0xda6e0f66                           // movd    xmm3, edx
+	LONG $0x54b70f42; WORD $0x223e             // movzx    edx, word [rsi + r15 + 34]
+	LONG $0x20245489                           // mov    dword [rsp + 32], edx
+	QUAD $0x0110064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 16], 1
+	QUAD $0x02100e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 16], 2
+	QUAD $0x0310264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 16], 3
+	QUAD $0x04102e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 16], 4
+	LONG $0x4cc40f66; WORD $0x100e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 16], 5
+	LONG $0x4cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 16], 6
+	LONG $0x4cc40f66; WORD $0x101e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 16], 7
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	LONG $0x54b70f46; WORD $0x243e             // movzx    r10d, word [rsi + r15 + 36]
+	QUAD $0x0114066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 20], 1
+	QUAD $0x02140e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 20], 2
+	QUAD $0x0314266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 20], 3
+	QUAD $0x04142e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 20], 4
+	LONG $0x6cc40f66; WORD $0x140e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 20], 5
+	LONG $0x6cc40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 20], 6
+	LONG $0x6cc40f66; WORD $0x141e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 20], 7
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
+	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
+	LONG $0x54b70f42; WORD $0x263e             // movzx    edx, word [rsi + r15 + 38]
+	LONG $0x18245489                           // mov    dword [rsp + 24], edx
+	QUAD $0x01160654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 22], 1
+	QUAD $0x02160e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 22], 2
+	QUAD $0x03162654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 22], 3
+	QUAD $0x04162e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 22], 4
+	LONG $0x54c40f66; WORD $0x160e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 22], 5
+	LONG $0x54c40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 22], 6
+	LONG $0x54c40f66; WORD $0x161e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 22], 7
+	QUAD $0x0118065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 24], 1
+	QUAD $0x02180e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 24], 2
+	QUAD $0x0318265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 24], 3
+	QUAD $0x04182e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 24], 4
+	LONG $0x5cc40f66; WORD $0x180e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 24], 5
+	LONG $0x5cc40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 24], 6
+	LONG $0x5cc40f66; WORD $0x181e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 24], 7
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
+	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
+	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
+	LONG $0x74b70f46; WORD $0x283e             // movzx    r14d, word [rsi + r15 + 40]
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x5cb70f46; WORD $0x2a3e             // movzx    r11d, word [rsi + r15 + 42]
+	QUAD $0x011a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 26], 1
+	QUAD $0x021a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 26], 2
+	QUAD $0x031a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 26], 3
+	QUAD $0x041a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 26], 4
+	LONG $0x74c40f66; WORD $0x1a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 26], 5
+	LONG $0x74c40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 26], 6
+	LONG $0x74c40f66; WORD $0x1a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 26], 7
+	QUAD $0x011c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 28], 1
+	QUAD $0x021c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 28], 2
+	QUAD $0x031c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 28], 3
+	QUAD $0x041c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 28], 4
+	LONG $0x7cc40f66; WORD $0x1c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 28], 5
+	LONG $0x7cc40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 28], 6
+	LONG $0x7cc40f66; WORD $0x1c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 28], 7
+	QUAD $0x011e0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 30], 1
+	QUAD $0x021e0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 30], 2
+	QUAD $0x031e2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 30], 3
+	QUAD $0x041e2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 30], 4
+	LONG $0x54c40f66; WORD $0x1e0e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 30], 5
+	LONG $0x54c40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 30], 6
+	LONG $0x54c40f66; WORD $0x1e1e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 30], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
+	LONG $0x54b70f42; WORD $0x2c3e             // movzx    edx, word [rsi + r15 + 44]
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
+	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	LONG $0x44b70f42; WORD $0x2e3e             // movzx    eax, word [rsi + r15 + 46]
+	QUAD $0x0120066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 32], 1
+	QUAD $0x02200e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 32], 2
+	QUAD $0x0320266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 32], 3
+	QUAD $0x04202e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 32], 4
+	LONG $0x6cc40f66; WORD $0x200e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 32], 5
+	LONG $0x6cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 32], 6
+	QUAD $0x0122064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 34], 1
+	QUAD $0x02220e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 34], 2
+	QUAD $0x0322264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 34], 3
+	QUAD $0x04222e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 34], 4
+	LONG $0x4cc40f66; WORD $0x220e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 34], 5
+	LONG $0x4cc40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 34], 6
+	LONG $0x4cc40f66; WORD $0x221e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 34], 7
+	LONG $0xd3eb0f66                           // por    xmm2, xmm3
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
+	LONG $0x5c6e0f66; WORD $0x1824             // movd    xmm3, dword [rsp + 24]
+	LONG $0x54b70f46; WORD $0x303e             // movzx    r10d, word [rsi + r15 + 48]
+	LONG $0x6cc40f66; WORD $0x201e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 32], 7
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	QUAD $0x01240674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 36], 1
+	QUAD $0x02240e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 36], 2
+	QUAD $0x03242674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 36], 3
+	QUAD $0x04242e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 36], 4
+	LONG $0x74c40f66; WORD $0x240e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 36], 5
+	LONG $0x74c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 36], 6
+	LONG $0x74c40f66; WORD $0x241e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 36], 7
+	QUAD $0x0126065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 38], 1
+	QUAD $0x02260e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 38], 2
+	QUAD $0x0326265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 38], 3
+	QUAD $0x04262e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 38], 4
+	LONG $0x5cc40f66; WORD $0x260e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 38], 5
+	LONG $0x5cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 38], 6
+	LONG $0x5cc40f66; WORD $0x261e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 38], 7
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
+	QUAD $0x0128066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 40], 1
+	QUAD $0x02280e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 40], 2
+	QUAD $0x0328266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 40], 3
+	QUAD $0x04282e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 40], 4
+	LONG $0x6cc40f66; WORD $0x280e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 40], 5
+	LONG $0x6cc40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 40], 6
+	LONG $0x74b70f46; WORD $0x323e             // movzx    r14d, word [rsi + r15 + 50]
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
+	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
+	LONG $0x5cb70f46; WORD $0x343e             // movzx    r11d, word [rsi + r15 + 52]
+	LONG $0x6cc40f66; WORD $0x281e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 40], 7
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
+	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xebeb0f66                           // por    xmm5, xmm3
+	LONG $0xfa6e0f66                           // movd    xmm7, edx
+	LONG $0x54b70f42; WORD $0x363e             // movzx    edx, word [rsi + r15 + 54]
+	QUAD $0x012a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 42], 1
+	QUAD $0x022a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 42], 2
+	QUAD $0x032a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 42], 3
+	QUAD $0x042a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 42], 4
+	LONG $0x4cc40f66; WORD $0x2a0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 42], 5
+	LONG $0x4cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 42], 6
+	LONG $0x4cc40f66; WORD $0x2a1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 42], 7
+	QUAD $0x012c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 44], 1
+	QUAD $0x022c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 44], 2
+	QUAD $0x032c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 44], 3
+	QUAD $0x042c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 44], 4
+	LONG $0x7cc40f66; WORD $0x2c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 44], 5
+	LONG $0x7cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 44], 6
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0xd86e0f66                           // movd    xmm3, eax
+	LONG $0x44b70f42; WORD $0x383e             // movzx    eax, word [rsi + r15 + 56]
+	LONG $0x7cc40f66; WORD $0x2c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 44], 7
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
+	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
+	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	LONG $0x54b70f46; WORD $0x3a3e             // movzx    r10d, word [rsi + r15 + 58]
+	QUAD $0x012e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 46], 1
+	QUAD $0x022e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 46], 2
+	QUAD $0x032e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 46], 3
+	QUAD $0x042e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 46], 4
+	LONG $0x5cc40f66; WORD $0x2e0e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 46], 5
+	LONG $0x5cc40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 46], 6
+	LONG $0x5cc40f66; WORD $0x2e1e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 46], 7
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
+	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
+	LONG $0xdfeb0f66                           // por    xmm3, xmm7
+	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
+	LONG $0x74b70f46; WORD $0x3c3e             // movzx    r14d, word [rsi + r15 + 60]
+	LONG $0x7cb70f46; WORD $0x3e3e             // movzx    r15d, word [rsi + r15 + 62]
+	QUAD $0x0132064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 1
+	QUAD $0x02320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 2
+	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
+	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
+	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 50], 5
+	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
+	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 50], 7
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
+	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
+	QUAD $0x01300674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 48], 1
+	QUAD $0x02300e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 48], 2
+	QUAD $0x03302674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 48], 3
+	QUAD $0x04302e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 48], 4
+	LONG $0x74c40f66; WORD $0x300e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 48], 5
+	LONG $0x74c40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 48], 6
+	LONG $0x74c40f66; WORD $0x301e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 48], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	QUAD $0x0134064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 52], 1
+	QUAD $0x02340e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 52], 2
+	QUAD $0x0334264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 52], 3
+	QUAD $0x04342e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 52], 4
+	LONG $0x4cc40f66; WORD $0x340e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 52], 5
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0x4cc40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 52], 6
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	LONG $0x4cc40f66; WORD $0x341e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 52], 7
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
+	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
+	LONG $0xcdeb0f66                           // por    xmm1, xmm5
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	QUAD $0x01360674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 54], 1
+	QUAD $0x02360e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 54], 2
+	QUAD $0x03362674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 54], 3
+	QUAD $0x04362e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 54], 4
+	LONG $0x74c40f66; WORD $0x360e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 54], 5
+	LONG $0x74c40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 54], 6
+	LONG $0x74c40f66; WORD $0x361e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 54], 7
+	QUAD $0x0138066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 56], 1
+	QUAD $0x02380e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 56], 2
+	QUAD $0x0338266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 56], 3
+	QUAD $0x04382e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 56], 4
+	LONG $0x6cc40f66; WORD $0x380e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 56], 5
+	LONG $0x6cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 56], 6
+	LONG $0x6cc40f66; WORD $0x381e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 56], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
+	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	QUAD $0x013a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 58], 1
+	QUAD $0x023a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 58], 2
+	QUAD $0x033a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 58], 3
+	QUAD $0x043a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 58], 4
+	LONG $0x74c40f66; WORD $0x3a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 58], 5
+	LONG $0x74c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 58], 6
+	LONG $0x74c40f66; WORD $0x3a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 58], 7
+	LONG $0xe9eb0f66                           // por    xmm5, xmm1
+	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
+	QUAD $0x013c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 60], 1
+	QUAD $0x023c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 60], 2
+	QUAD $0x033c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 60], 3
+	QUAD $0x043c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 60], 4
+	LONG $0x4cc40f66; WORD $0x3c0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 60], 5
+	LONG $0x4cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 60], 6
+	LONG $0x4cc40f66; WORD $0x3c1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 60], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
+	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
+	LONG $0xceeb0f66                           // por    xmm1, xmm6
+	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
+	QUAD $0x013e0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 62], 1
+	QUAD $0x023e0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 62], 2
+	QUAD $0x033e2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 62], 3
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x043e2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 62], 4
+	LONG $0x74c40f66; WORD $0x3e0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 62], 5
+	LONG $0x74c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 62], 6
+	LONG $0x74c40f66; WORD $0x3e1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 62], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
+	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
+	LONG $0xf1eb0f66                           // por    xmm6, xmm1
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
+	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI1_9] */
+	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
+	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
+	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
+	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
+	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
+	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
+	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
+	LONG $0x08c18348                           // add    rcx, 8
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x244c3b48; BYTE $0x10               // cmp    rcx, qword [rsp + 16]
+	JNE  LBB1_111
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	LONG $0x245c3b4c; BYTE $0x10               // cmp    r11, qword [rsp + 16]
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	LONG $0x246c8b44; BYTE $0x38               // mov    r13d, dword [rsp + 56]
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	JNE  LBB1_113
+	JMP  LBB1_116
+
+LBB1_133:
+	LONG $0xf8e78349                     // and    r15, -8
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x06e0c148                     // shl    rax, 6
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	LONG $0x24448948; BYTE $0x40         // mov    qword [rsp + 64], rax
+	LONG $0x247c894c; BYTE $0x10         // mov    qword [rsp + 16], r15
+	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
+	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
+	LONG $0x246c8944; BYTE $0x38         // mov    dword [rsp + 56], r13d
+	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
+	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
+	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
+	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI1_8] */
+	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI1_1] */
+	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI1_2] */
+	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI1_3] */
+	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI1_4] */
+	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI1_5] */
+	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
+	QUAD $0x0000008824b4894c             // mov    qword [rsp + 136], r14
+
+LBB1_134:
+	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
+	LONG $0x06e7c149                           // shl    r15, 6
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
+	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
+	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	LONG $0x34b70f46; BYTE $0x3e               // movzx    r14d, word [rsi + r15]
+	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
+	LONG $0x54b70f42; WORD $0x043e             // movzx    edx, word [rsi + r15 + 4]
+	LONG $0x5cb70f46; WORD $0x063e             // movzx    r11d, word [rsi + r15 + 6]
+	LONG $0x54b70f46; WORD $0x083e             // movzx    r10d, word [rsi + r15 + 8]
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	LONG $0x40c88349                           // or    r8, 64
+	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
+	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
+	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
+	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
+	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
+	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
+	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
+	LONG $0xc40f4266; WORD $0x0624; BYTE $0x01 // pinsrw    xmm4, word [rsi + r8], 1
+	LONG $0xc40f4266; WORD $0x0e24; BYTE $0x02 // pinsrw    xmm4, word [rsi + r9], 2
+	LONG $0xc40f4266; WORD $0x2624; BYTE $0x03 // pinsrw    xmm4, word [rsi + r12], 3
+	LONG $0xc40f4266; WORD $0x2e24; BYTE $0x04 // pinsrw    xmm4, word [rsi + r13], 4
+	LONG $0x24c40f66; WORD $0x050e             // pinsrw    xmm4, word [rsi + rcx], 5
+	LONG $0x24c40f66; WORD $0x063e             // pinsrw    xmm4, word [rsi + rdi], 6
+	LONG $0x24c40f66; WORD $0x071e             // pinsrw    xmm4, word [rsi + rbx], 7
+	LONG $0x74b70f46; WORD $0x0a3e             // movzx    r14d, word [rsi + r15 + 10]
+	LONG $0xf06e0f66                           // movd    xmm6, eax
+	QUAD $0x01020674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 2], 1
+	QUAD $0x02020e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 2], 2
+	QUAD $0x03022674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 2], 3
+	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
+	LONG $0x20244489                           // mov    dword [rsp + 32], eax
+	QUAD $0x04022e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 2], 4
+	LONG $0xd26e0f66                           // movd    xmm2, edx
+	LONG $0x54b70f42; WORD $0x0e3e             // movzx    edx, word [rsi + r15 + 14]
+	LONG $0x74c40f66; WORD $0x020e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 2], 5
+	LONG $0x6e0f4166; BYTE $0xeb               // movd    xmm5, r11d
+	LONG $0x44b70f42; WORD $0x103e             // movzx    eax, word [rsi + r15 + 16]
+	LONG $0x18244489                           // mov    dword [rsp + 24], eax
+	LONG $0x74c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 2], 6
+	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
+	LONG $0x44b70f42; WORD $0x123e             // movzx    eax, word [rsi + r15 + 18]
+	LONG $0x30244489                           // mov    dword [rsp + 48], eax
+	LONG $0x74c40f66; WORD $0x021e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 2], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xcef80f66                           // psubb    xmm1, xmm6
+	LONG $0x6e0f4166; BYTE $0xf6               // movd    xmm6, r14d
+	LONG $0x5cb70f46; WORD $0x143e             // movzx    r11d, word [rsi + r15 + 20]
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
+	QUAD $0x01040654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 4], 1
+	QUAD $0x02040e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 4], 2
+	QUAD $0x03042654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 4], 3
+	QUAD $0x04042e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 4], 4
+	LONG $0x54c40f66; WORD $0x040e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 4], 5
+	LONG $0x54c40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 4], 6
+	LONG $0x54c40f66; WORD $0x041e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 4], 7
+	QUAD $0x0106066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 6], 1
+	QUAD $0x02060e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 6], 2
+	QUAD $0x0306266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 6], 3
+	QUAD $0x04062e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 6], 4
+	LONG $0x6cc40f66; WORD $0x060e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 6], 5
+	LONG $0x6cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 6], 6
+	LONG $0x6cc40f66; WORD $0x061e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 6], 7
+	QUAD $0x0108065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 8], 1
+	QUAD $0x02080e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 8], 2
+	QUAD $0x0308265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 8], 3
+	QUAD $0x04082e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 8], 4
+	LONG $0x5cc40f66; WORD $0x080e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 8], 5
+	LONG $0x5cc40f66; WORD $0x083e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 8], 6
+	LONG $0x5cc40f66; WORD $0x081e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 8], 7
+	LONG $0xcceb0f66                           // por    xmm1, xmm4
+	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
+	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
+	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	LONG $0xe26e0f66                           // movd    xmm4, edx
+	LONG $0x54b70f42; WORD $0x183e             // movzx    edx, word [rsi + r15 + 24]
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
+	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
+	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
+	LONG $0x54b70f46; WORD $0x1a3e             // movzx    r10d, word [rsi + r15 + 26]
+	QUAD $0x010a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 10], 1
+	QUAD $0x020a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 10], 2
+	QUAD $0x030a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 10], 3
+	QUAD $0x040a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 10], 4
+	LONG $0x74c40f66; WORD $0x0a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 10], 5
+	LONG $0x74c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 10], 6
+	LONG $0x74c40f66; WORD $0x0a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 10], 7
+	QUAD $0x010c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 12], 1
+	QUAD $0x020c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 12], 2
+	QUAD $0x030c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 12], 3
+	QUAD $0x040c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 12], 4
+	LONG $0x7cc40f66; WORD $0x0c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 12], 5
+	LONG $0x7cc40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 12], 6
+	LONG $0x7cc40f66; WORD $0x0c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 12], 7
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x30 // movd    xmm8, dword [rsp + 48]
+	LONG $0x74b70f46; WORD $0x1c3e             // movzx    r14d, word [rsi + r15 + 28]
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	LONG $0x6e0f4166; BYTE $0xeb               // movd    xmm5, r11d
+	LONG $0x5cb70f46; WORD $0x1e3e             // movzx    r11d, word [rsi + r15 + 30]
+	QUAD $0x010e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 14], 1
+	QUAD $0x020e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 14], 2
+	QUAD $0x030e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 14], 3
+	QUAD $0x040e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 14], 4
+	LONG $0x64c40f66; WORD $0x0e0e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rcx + 14], 5
+	LONG $0x64c40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 14], 6
+	LONG $0x64c40f66; WORD $0x0e1e; BYTE $0x07 // pinsrw    xmm4, word [rsi + rbx + 14], 7
+	QUAD $0x01120644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 18], 1
+	QUAD $0x02120e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 18], 2
+	QUAD $0x03122644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 18], 3
+	QUAD $0x04122e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 18], 4
+	QUAD $0x05120e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 18], 5
+	QUAD $0x06123e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 18], 6
+	QUAD $0x07121e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 18], 7
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
+	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
+	LONG $0xe7eb0f66                           // por    xmm4, xmm7
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x44b70f42; WORD $0x203e             // movzx    eax, word [rsi + r15 + 32]
+	LONG $0xe3eb0f66                           // por    xmm4, xmm3
+	LONG $0x750f4466; BYTE $0xc0               // pcmpeqw    xmm8, xmm0
+	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
+	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
+	LONG $0xda6e0f66                           // movd    xmm3, edx
+	LONG $0x54b70f42; WORD $0x223e             // movzx    edx, word [rsi + r15 + 34]
+	LONG $0x20245489                           // mov    dword [rsp + 32], edx
+	QUAD $0x0110064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 16], 1
+	QUAD $0x02100e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 16], 2
+	QUAD $0x0310264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 16], 3
+	QUAD $0x04102e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 16], 4
+	LONG $0x4cc40f66; WORD $0x100e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 16], 5
+	LONG $0x4cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 16], 6
+	LONG $0x4cc40f66; WORD $0x101e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 16], 7
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	LONG $0x54b70f46; WORD $0x243e             // movzx    r10d, word [rsi + r15 + 36]
+	QUAD $0x0114066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 20], 1
+	QUAD $0x02140e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 20], 2
+	QUAD $0x0314266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 20], 3
+	QUAD $0x04142e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 20], 4
+	LONG $0x6cc40f66; WORD $0x140e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 20], 5
+	LONG $0x6cc40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 20], 6
+	LONG $0x6cc40f66; WORD $0x141e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 20], 7
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
+	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
+	LONG $0x54b70f42; WORD $0x263e             // movzx    edx, word [rsi + r15 + 38]
+	LONG $0x18245489                           // mov    dword [rsp + 24], edx
+	QUAD $0x01160654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 22], 1
+	QUAD $0x02160e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 22], 2
+	QUAD $0x03162654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 22], 3
+	QUAD $0x04162e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 22], 4
+	LONG $0x54c40f66; WORD $0x160e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 22], 5
+	LONG $0x54c40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 22], 6
+	LONG $0x54c40f66; WORD $0x161e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 22], 7
+	QUAD $0x0118065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 24], 1
+	QUAD $0x02180e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 24], 2
+	QUAD $0x0318265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 24], 3
+	QUAD $0x04182e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 24], 4
+	LONG $0x5cc40f66; WORD $0x180e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 24], 5
+	LONG $0x5cc40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 24], 6
+	LONG $0x5cc40f66; WORD $0x181e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 24], 7
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
+	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
+	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
+	LONG $0x74b70f46; WORD $0x283e             // movzx    r14d, word [rsi + r15 + 40]
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x5cb70f46; WORD $0x2a3e             // movzx    r11d, word [rsi + r15 + 42]
+	QUAD $0x011a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 26], 1
+	QUAD $0x021a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 26], 2
+	QUAD $0x031a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 26], 3
+	QUAD $0x041a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 26], 4
+	LONG $0x74c40f66; WORD $0x1a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 26], 5
+	LONG $0x74c40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 26], 6
+	LONG $0x74c40f66; WORD $0x1a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 26], 7
+	QUAD $0x011c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 28], 1
+	QUAD $0x021c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 28], 2
+	QUAD $0x031c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 28], 3
+	QUAD $0x041c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 28], 4
+	LONG $0x7cc40f66; WORD $0x1c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 28], 5
+	LONG $0x7cc40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 28], 6
+	LONG $0x7cc40f66; WORD $0x1c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 28], 7
+	QUAD $0x011e0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 30], 1
+	QUAD $0x021e0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 30], 2
+	QUAD $0x031e2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 30], 3
+	QUAD $0x041e2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 30], 4
+	LONG $0x54c40f66; WORD $0x1e0e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 30], 5
+	LONG $0x54c40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 30], 6
+	LONG $0x54c40f66; WORD $0x1e1e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 30], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
+	LONG $0x54b70f42; WORD $0x2c3e             // movzx    edx, word [rsi + r15 + 44]
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
+	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	LONG $0x44b70f42; WORD $0x2e3e             // movzx    eax, word [rsi + r15 + 46]
+	QUAD $0x0120066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 32], 1
+	QUAD $0x02200e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 32], 2
+	QUAD $0x0320266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 32], 3
+	QUAD $0x04202e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 32], 4
+	LONG $0x6cc40f66; WORD $0x200e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 32], 5
+	LONG $0x6cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 32], 6
+	QUAD $0x0122064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 34], 1
+	QUAD $0x02220e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 34], 2
+	QUAD $0x0322264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 34], 3
+	QUAD $0x04222e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 34], 4
+	LONG $0x4cc40f66; WORD $0x220e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 34], 5
+	LONG $0x4cc40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 34], 6
+	LONG $0x4cc40f66; WORD $0x221e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 34], 7
+	LONG $0xd3eb0f66                           // por    xmm2, xmm3
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
+	LONG $0x5c6e0f66; WORD $0x1824             // movd    xmm3, dword [rsp + 24]
+	LONG $0x54b70f46; WORD $0x303e             // movzx    r10d, word [rsi + r15 + 48]
+	LONG $0x6cc40f66; WORD $0x201e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 32], 7
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	QUAD $0x01240674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 36], 1
+	QUAD $0x02240e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 36], 2
+	QUAD $0x03242674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 36], 3
+	QUAD $0x04242e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 36], 4
+	LONG $0x74c40f66; WORD $0x240e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 36], 5
+	LONG $0x74c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 36], 6
+	LONG $0x74c40f66; WORD $0x241e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 36], 7
+	QUAD $0x0126065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 38], 1
+	QUAD $0x02260e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 38], 2
+	QUAD $0x0326265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 38], 3
+	QUAD $0x04262e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 38], 4
+	LONG $0x5cc40f66; WORD $0x260e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 38], 5
+	LONG $0x5cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 38], 6
+	LONG $0x5cc40f66; WORD $0x261e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 38], 7
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
+	QUAD $0x0128066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 40], 1
+	QUAD $0x02280e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 40], 2
+	QUAD $0x0328266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 40], 3
+	QUAD $0x04282e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 40], 4
+	LONG $0x6cc40f66; WORD $0x280e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 40], 5
+	LONG $0x6cc40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 40], 6
+	LONG $0x74b70f46; WORD $0x323e             // movzx    r14d, word [rsi + r15 + 50]
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
+	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
+	LONG $0x5cb70f46; WORD $0x343e             // movzx    r11d, word [rsi + r15 + 52]
+	LONG $0x6cc40f66; WORD $0x281e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 40], 7
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
+	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xebeb0f66                           // por    xmm5, xmm3
+	LONG $0xfa6e0f66                           // movd    xmm7, edx
+	LONG $0x54b70f42; WORD $0x363e             // movzx    edx, word [rsi + r15 + 54]
+	QUAD $0x012a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 42], 1
+	QUAD $0x022a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 42], 2
+	QUAD $0x032a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 42], 3
+	QUAD $0x042a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 42], 4
+	LONG $0x4cc40f66; WORD $0x2a0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 42], 5
+	LONG $0x4cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 42], 6
+	LONG $0x4cc40f66; WORD $0x2a1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 42], 7
+	QUAD $0x012c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 44], 1
+	QUAD $0x022c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 44], 2
+	QUAD $0x032c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 44], 3
+	QUAD $0x042c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 44], 4
+	LONG $0x7cc40f66; WORD $0x2c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 44], 5
+	LONG $0x7cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 44], 6
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0xd86e0f66                           // movd    xmm3, eax
+	LONG $0x44b70f42; WORD $0x383e             // movzx    eax, word [rsi + r15 + 56]
+	LONG $0x7cc40f66; WORD $0x2c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 44], 7
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
+	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
+	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	LONG $0x54b70f46; WORD $0x3a3e             // movzx    r10d, word [rsi + r15 + 58]
+	QUAD $0x012e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 46], 1
+	QUAD $0x022e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 46], 2
+	QUAD $0x032e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 46], 3
+	QUAD $0x042e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 46], 4
+	LONG $0x5cc40f66; WORD $0x2e0e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 46], 5
+	LONG $0x5cc40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 46], 6
+	LONG $0x5cc40f66; WORD $0x2e1e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 46], 7
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
+	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
+	LONG $0xdfeb0f66                           // por    xmm3, xmm7
+	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
+	LONG $0x74b70f46; WORD $0x3c3e             // movzx    r14d, word [rsi + r15 + 60]
+	LONG $0x7cb70f46; WORD $0x3e3e             // movzx    r15d, word [rsi + r15 + 62]
+	QUAD $0x0132064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 1
+	QUAD $0x02320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 2
+	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
+	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
+	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 50], 5
+	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
+	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 50], 7
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
+	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
+	QUAD $0x01300674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 48], 1
+	QUAD $0x02300e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 48], 2
+	QUAD $0x03302674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 48], 3
+	QUAD $0x04302e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 48], 4
+	LONG $0x74c40f66; WORD $0x300e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 48], 5
+	LONG $0x74c40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 48], 6
+	LONG $0x74c40f66; WORD $0x301e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 48], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	QUAD $0x0134064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 52], 1
+	QUAD $0x02340e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 52], 2
+	QUAD $0x0334264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 52], 3
+	QUAD $0x04342e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 52], 4
+	LONG $0x4cc40f66; WORD $0x340e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 52], 5
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0x4cc40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 52], 6
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	LONG $0x4cc40f66; WORD $0x341e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 52], 7
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
+	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
+	LONG $0xcdeb0f66                           // por    xmm1, xmm5
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	QUAD $0x01360674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 54], 1
+	QUAD $0x02360e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 54], 2
+	QUAD $0x03362674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 54], 3
+	QUAD $0x04362e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 54], 4
+	LONG $0x74c40f66; WORD $0x360e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 54], 5
+	LONG $0x74c40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 54], 6
+	LONG $0x74c40f66; WORD $0x361e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 54], 7
+	QUAD $0x0138066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 56], 1
+	QUAD $0x02380e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 56], 2
+	QUAD $0x0338266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 56], 3
+	QUAD $0x04382e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 56], 4
+	LONG $0x6cc40f66; WORD $0x380e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 56], 5
+	LONG $0x6cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 56], 6
+	LONG $0x6cc40f66; WORD $0x381e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 56], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
+	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	QUAD $0x013a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 58], 1
+	QUAD $0x023a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 58], 2
+	QUAD $0x033a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 58], 3
+	QUAD $0x043a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 58], 4
+	LONG $0x74c40f66; WORD $0x3a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 58], 5
+	LONG $0x74c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 58], 6
+	LONG $0x74c40f66; WORD $0x3a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 58], 7
+	LONG $0xe9eb0f66                           // por    xmm5, xmm1
+	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
+	QUAD $0x013c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 60], 1
+	QUAD $0x023c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 60], 2
+	QUAD $0x033c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 60], 3
+	QUAD $0x043c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 60], 4
+	LONG $0x4cc40f66; WORD $0x3c0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 60], 5
+	LONG $0x4cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 60], 6
+	LONG $0x4cc40f66; WORD $0x3c1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 60], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
+	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
+	LONG $0xceeb0f66                           // por    xmm1, xmm6
+	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
+	QUAD $0x013e0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 62], 1
+	QUAD $0x023e0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 62], 2
+	QUAD $0x033e2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 62], 3
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	QUAD $0x043e2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 62], 4
+	LONG $0x74c40f66; WORD $0x3e0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 62], 5
+	LONG $0x74c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 62], 6
+	LONG $0x74c40f66; WORD $0x3e1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 62], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
+	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
+	LONG $0xf1eb0f66                           // por    xmm6, xmm1
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
+	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI1_9] */
+	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
+	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
+	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
+	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
+	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
+	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
+	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
+	LONG $0x08c18348                           // add    rcx, 8
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x244c3b48; BYTE $0x10               // cmp    rcx, qword [rsp + 16]
+	JNE  LBB1_134
+	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
+	LONG $0x247c3b4c; BYTE $0x10               // cmp    r15, qword [rsp + 16]
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	LONG $0x246c8b44; BYTE $0x38               // mov    r13d, dword [rsp + 56]
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	JNE  LBB1_136
+	JMP  LBB1_139
+
+LBB1_184:
+	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
+	LONG $0xfce08349                           // and    r8, -4
+	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
+	LONG $0x07e3c148                           // shl    rbx, 7
+	WORD $0x0148; BYTE $0xf3                   // add    rbx, rsi
+	LONG $0x863c8d4f                           // lea    r15, [r14 + 4*r8]
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
+	LONG $0xfcc68148; WORD $0x0001; BYTE $0x00 // add    rsi, 508
+	WORD $0xc931                               // xor    ecx, ecx
+	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI1_0] */
+	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI1_1] */
+	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI1_2] */
+	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI1_3] */
+	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI1_4] */
+	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI1_5] */
+	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI1_6] */
+	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI1_7] */
+
+LBB1_185:
+	QUAD $0xfffffe04b6100ff3                   // movss    xmm6, dword [rsi - 508]
+	QUAD $0xfffffe08be100ff3                   // movss    xmm7, dword [rsi - 504]
+	QUAD $0xfffffe0cae100ff3                   // movss    xmm5, dword [rsi - 500]
+	QUAD $0xfffffe10a6100ff3                   // movss    xmm4, dword [rsi - 496]
+	QUAD $0xfffe84b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 380], 16
+	QUAD $0xffff04b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 252], 32
+	LONG $0x213a0f66; WORD $0x8476; BYTE $0x30 // insertps    xmm6, dword [rsi - 124], 48
+	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	QUAD $0xfffe88be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 376], 16
+	QUAD $0xffff08be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 248], 32
+	LONG $0x213a0f66; WORD $0x887e; BYTE $0x30 // insertps    xmm7, dword [rsi - 120], 48
+	QUAD $0xfffe8cae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 372], 16
+	QUAD $0xffff0cae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 244], 32
+	LONG $0x213a0f66; WORD $0x8c6e; BYTE $0x30 // insertps    xmm5, dword [rsi - 116], 48
+	QUAD $0xfffe90a6213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rsi - 368], 16
+	QUAD $0xffff10a6213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rsi - 240], 32
+	LONG $0x213a0f66; WORD $0x9066; BYTE $0x30 // insertps    xmm4, dword [rsi - 112], 48
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
+	QUAD $0xfffffe14be100ff3                   // movss    xmm7, dword [rsi - 492]
+	QUAD $0xfffe94be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 364], 16
+	QUAD $0xffff14be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 236], 32
+	LONG $0x213a0f66; WORD $0x947e; BYTE $0x30 // insertps    xmm7, dword [rsi - 108], 48
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0xfffffe18b6100ff3                   // movss    xmm6, dword [rsi - 488]
+	QUAD $0xfffe98b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 360], 16
+	QUAD $0xffff18b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 232], 32
+	LONG $0x213a0f66; WORD $0x9876; BYTE $0x30 // insertps    xmm6, dword [rsi - 104], 48
+	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
+	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
+	LONG $0xeaeb0f66                           // por    xmm5, xmm2
+	QUAD $0xfffffe1c9e100ff3                   // movss    xmm3, dword [rsi - 484]
+	QUAD $0xfffe9c9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 356], 16
+	QUAD $0xffff1c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 228], 32
+	LONG $0x213a0f66; WORD $0x9c5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 100], 48
+	LONG $0x00e1c20f                           // cmpeqps    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
+	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
+	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
+	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
+	LONG $0xfceb0f66                           // por    xmm7, xmm4
+	QUAD $0xfffffe20a6100ff3                   // movss    xmm4, dword [rsi - 480]
+	QUAD $0xfffea0a6213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rsi - 352], 16
+	QUAD $0xffff20a6213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rsi - 224], 32
+	LONG $0x213a0f66; WORD $0xa066; BYTE $0x30 // insertps    xmm4, dword [rsi - 96], 48
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	QUAD $0xfffffe24ae100ff3                   // movss    xmm5, dword [rsi - 476]
+	QUAD $0xfffea4ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 348], 16
+	QUAD $0xffff24ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 220], 32
+	LONG $0x213a0f66; WORD $0xa46e; BYTE $0x30 // insertps    xmm5, dword [rsi - 92], 48
+	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
+	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe2896100ff3                   // movss    xmm2, dword [rsi - 472]
+	QUAD $0xfffea896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 344], 16
+	QUAD $0xffff2896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 216], 32
+	LONG $0x213a0f66; WORD $0xa856; BYTE $0x30 // insertps    xmm2, dword [rsi - 88], 48
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0x00e1c20f                           // cmpeqps    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
+	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
+	LONG $0xe3eb0f66                           // por    xmm4, xmm3
+	QUAD $0xfffffe2c9e100ff3                   // movss    xmm3, dword [rsi - 468]
+	QUAD $0xfffeac9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 340], 16
+	QUAD $0xffff2c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 212], 32
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0x213a0f66; WORD $0xac5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 84], 48
+	LONG $0xe7eb0f66                           // por    xmm4, xmm7
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
+	QUAD $0xfffffe30be100ff3                   // movss    xmm7, dword [rsi - 464]
+	QUAD $0xfffeb0be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 336], 16
+	QUAD $0xffff30be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 208], 32
+	LONG $0x213a0f66; WORD $0xb07e; BYTE $0x30 // insertps    xmm7, dword [rsi - 80], 48
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	QUAD $0xfffffe34ae100ff3                   // movss    xmm5, dword [rsi - 460]
+	QUAD $0xfffeb4ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 332], 16
+	QUAD $0xffff34ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 204], 32
+	LONG $0x213a0f66; WORD $0xb46e; BYTE $0x30 // insertps    xmm5, dword [rsi - 76], 48
+	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe38b6100ff3                   // movss    xmm6, dword [rsi - 456]
+	QUAD $0xfffeb8b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 328], 16
+	QUAD $0xffff38b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 200], 32
+	LONG $0x213a0f66; WORD $0xb876; BYTE $0x30 // insertps    xmm6, dword [rsi - 72], 48
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
+	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
+	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	QUAD $0xfffffe3c96100ff3                   // movss    xmm2, dword [rsi - 452]
+	QUAD $0xfffebc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 324], 16
+	QUAD $0xffff3c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 196], 32
+	LONG $0x213a0f66; WORD $0xbc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 68], 48
+	LONG $0xebeb0f66                           // por    xmm5, xmm3
+	QUAD $0xfffffe40be100ff3                   // movss    xmm7, dword [rsi - 448]
+	QUAD $0xfffec0be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 320], 16
+	QUAD $0xffff40be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 192], 32
+	LONG $0x213a0f66; WORD $0xc07e; BYTE $0x30 // insertps    xmm7, dword [rsi - 64], 48
+	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0xfffffe44b6100ff3                   // movss    xmm6, dword [rsi - 444]
+	QUAD $0xfffec4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 316], 16
+	QUAD $0xffff44b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 188], 32
+	LONG $0x213a0f66; WORD $0xc476; BYTE $0x30 // insertps    xmm6, dword [rsi - 60], 48
+	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
+	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
+	LONG $0xfaeb0f66                           // por    xmm7, xmm2
+	QUAD $0xfffffe4896100ff3                   // movss    xmm2, dword [rsi - 440]
+	QUAD $0xfffec896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 312], 16
+	QUAD $0xffff4896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 184], 32
+	LONG $0x213a0f66; WORD $0xc856; BYTE $0x30 // insertps    xmm2, dword [rsi - 56], 48
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	QUAD $0xfffffe4c9e100ff3                   // movss    xmm3, dword [rsi - 436]
+	QUAD $0xfffecc9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 308], 16
+	QUAD $0xffff4c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 180], 32
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0x213a0f66; WORD $0xcc5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 52], 48
+	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
+	QUAD $0xfffffe50ae100ff3                   // movss    xmm5, dword [rsi - 432]
+	QUAD $0xfffed0ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 304], 16
+	QUAD $0xffff50ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 176], 32
+	LONG $0x213a0f66; WORD $0xd06e; BYTE $0x30 // insertps    xmm5, dword [rsi - 48], 48
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	QUAD $0xfffffe54b6100ff3                   // movss    xmm6, dword [rsi - 428]
+	QUAD $0xfffed4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 300], 16
+	QUAD $0xffff54b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 172], 32
+	LONG $0x213a0f66; WORD $0xd476; BYTE $0x30 // insertps    xmm6, dword [rsi - 44], 48
+	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdfeb0f66                           // por    xmm3, xmm7
+	QUAD $0xfffffe58be100ff3                   // movss    xmm7, dword [rsi - 424]
+	QUAD $0xfffed8be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 296], 16
+	QUAD $0xffff58be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 168], 32
+	LONG $0x213a0f66; WORD $0xd87e; BYTE $0x30 // insertps    xmm7, dword [rsi - 40], 48
+	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
+	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
+	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
+	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	QUAD $0xfffffe5c96100ff3                   // movss    xmm2, dword [rsi - 420]
+	QUAD $0xfffedc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 292], 16
+	QUAD $0xffff5c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 164], 32
+	LONG $0x213a0f66; WORD $0xdc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 36], 48
+	LONG $0xf3eb0f66                           // por    xmm6, xmm3
+	QUAD $0xfffffe60ae100ff3                   // movss    xmm5, dword [rsi - 416]
+	QUAD $0xfffee0ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 288], 16
+	QUAD $0xffff60ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 160], 32
+	LONG $0x213a0f66; WORD $0xe06e; BYTE $0x30 // insertps    xmm5, dword [rsi - 32], 48
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
+	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	QUAD $0xfffffe64be100ff3                   // movss    xmm7, dword [rsi - 412]
+	QUAD $0xfffee4be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 284], 16
+	QUAD $0xffff64be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 156], 32
+	LONG $0x213a0f66; WORD $0xe47e; BYTE $0x30 // insertps    xmm7, dword [rsi - 28], 48
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
+	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
+	LONG $0xeaeb0f66                           // por    xmm5, xmm2
+	QUAD $0xfffffe6896100ff3                   // movss    xmm2, dword [rsi - 408]
+	QUAD $0xfffee896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 280], 16
+	QUAD $0xffff6896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 152], 32
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0x213a0f66; WORD $0xe856; BYTE $0x30 // insertps    xmm2, dword [rsi - 24], 48
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
+	QUAD $0xfffffe6c9e100ff3                   // movss    xmm3, dword [rsi - 404]
+	QUAD $0xfffeec9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 276], 16
+	QUAD $0xffff6c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 148], 32
+	LONG $0x213a0f66; WORD $0xec5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 20], 48
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	QUAD $0xfffffe7096100ff3                   // movss    xmm2, dword [rsi - 400]
+	QUAD $0xfffef096213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 272], 16
+	QUAD $0xffff7096213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 144], 32
+	LONG $0x213a0f66; WORD $0xf056; BYTE $0x30 // insertps    xmm2, dword [rsi - 16], 48
+	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe74b6100ff3                   // movss    xmm6, dword [rsi - 396]
+	QUAD $0xfffef4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 268], 16
+	QUAD $0xffff74b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 140], 32
+	LONG $0x213a0f66; WORD $0xf476; BYTE $0x30 // insertps    xmm6, dword [rsi - 12], 48
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
+	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
+	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
+	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
+	LONG $0xf2eb0f66                           // por    xmm6, xmm2
+	QUAD $0xfffffe78be100ff3                   // movss    xmm7, dword [rsi - 392]
+	QUAD $0xfffef8be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 264], 16
+	QUAD $0xffff78be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 136], 32
+	LONG $0x213a0f66; WORD $0xf87e; BYTE $0x30 // insertps    xmm7, dword [rsi - 8], 48
+	LONG $0xf3eb0f66                           // por    xmm6, xmm3
+	QUAD $0xfffffe7c96100ff3                   // movss    xmm2, dword [rsi - 388]
+	QUAD $0xfffefc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 260], 16
+	QUAD $0xffff7c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 132], 32
+	LONG $0x213a0f66; WORD $0xfc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 4], 48
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
+	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	QUAD $0xfffffe809e100ff3                   // movss    xmm3, dword [rsi - 384]
+	QUAD $0xffff009e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 256], 16
+	LONG $0x213a0f66; WORD $0x805e; BYTE $0x20 // insertps    xmm3, dword [rsi - 128], 32
+	LONG $0x213a0f66; WORD $0x301e             // insertps    xmm3, dword [rsi], 48
+	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
+	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
+	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
+	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
+	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
+	LONG $0x04c18348                           // add    rcx, 4
+	LONG $0x00c68148; WORD $0x0002; BYTE $0x00 // add    rsi, 512
+	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
+	JNE  LBB1_185
+	WORD $0x394d; BYTE $0xc3                   // cmp    r11, r8
+	JNE  LBB1_187
+	JMP  LBB1_190
+
+DATA LCDATA2<>+0x000(SB)/8, $0x0000000001010101
+DATA LCDATA2<>+0x008(SB)/8, $0x0000000000000000
+DATA LCDATA2<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA2<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA2<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA2<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA2<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA2<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA2<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA2<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA2<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA2<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA2<>+0x060(SB)/8, $0x8080808080808080
+DATA LCDATA2<>+0x068(SB)/8, $0x8080808080808080
+DATA LCDATA2<>+0x070(SB)/8, $0x0b030a0209010800
+DATA LCDATA2<>+0x078(SB)/8, $0x0f070e060d050c04
+DATA LCDATA2<>+0x080(SB)/8, $0x0101010101010101
+DATA LCDATA2<>+0x088(SB)/8, $0x0000000000000000
+DATA LCDATA2<>+0x090(SB)/8, $0x0f070e060d050c04
+DATA LCDATA2<>+0x098(SB)/8, $0x0000000000000000
+DATA LCDATA2<>+0x0a0(SB)/8, $0x0101010101010101
+DATA LCDATA2<>+0x0a8(SB)/8, $0x0101010101010101
+DATA LCDATA2<>+0x0b0(SB)/8, $0x0404040404040404
+DATA LCDATA2<>+0x0b8(SB)/8, $0x0404040404040404
+DATA LCDATA2<>+0x0c0(SB)/8, $0x0808080808080808
+DATA LCDATA2<>+0x0c8(SB)/8, $0x0808080808080808
+DATA LCDATA2<>+0x0d0(SB)/8, $0x1010101010101010
+DATA LCDATA2<>+0x0d8(SB)/8, $0x1010101010101010
+DATA LCDATA2<>+0x0e0(SB)/8, $0x2020202020202020
+DATA LCDATA2<>+0x0e8(SB)/8, $0x2020202020202020
+DATA LCDATA2<>+0x0f0(SB)/8, $0x4040404040404040
+DATA LCDATA2<>+0x0f8(SB)/8, $0x4040404040404040
+GLOBL LCDATA2<>(SB), 8, $256
+
+TEXT ·_comparison_equal_scalar_arr_sse4(SB), $328-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $16, SP
+	ANDQ $-16, SP
+	MOVQ BP, 304(SP)
+	LEAQ LCDATA2<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0x240c8948         // mov    qword [rsp], rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_17
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_32
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_83
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_95
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_176
+	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_9
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+	LONG $0x240c8b4c         // mov    r9, qword [rsp]
+
+LBB2_7:
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x31               // movzx    r8d, byte [r9 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x313c8841                           // mov    byte [r9 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB2_7
+	LONG $0x24048348; BYTE $0x01               // add    qword [rsp], 1
+
+LBB2_9:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_13
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+
+LBB2_11:
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
+	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000d024b40240                   // add    sil, byte [rsp + 208]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xc000                               // add    al, al
+	LONG $0x48244402                           // add    al, byte [rsp + 72]
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x24048b48                           // mov    rax, qword [rsp]
+	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
+	LONG $0x24348b48                           // mov    rsi, qword [rsp]
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68348                           // add    rsi, 4
+	LONG $0x24348948                           // mov    qword [rsp], rsi
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB2_11
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+
+LBB2_13:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB2_176
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JE   LBB2_82
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+	LONG $0x241c8b4c         // mov    r11, qword [rsp]
+
+LBB2_16:
+	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x33048841             // mov    byte [r11 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_16
+	JMP  LBB2_152
+
+LBB2_17:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_46
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_107
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_118
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_176
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x06100ff2         // movsd    xmm0, qword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_25
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+	LONG $0x241c8b4c         // mov    r11, qword [rsp]
+
+LBB2_23:
+	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB2_23
+	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
+
+LBB2_25:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_29
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
+	QUAD $0x000000c024b4894c // mov    qword [rsp + 192], r14
+
+LBB2_27:
+	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x422e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rdx + 8]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
+	LONG $0xd7940f41                           // sete    r15b
+	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000b024b40240                   // add    sil, byte [rsp + 176]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
+	LONG $0x24048b4c                           // mov    r8, qword [rsp]
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	WORD $0x8941; BYTE $0xc3                   // mov    r11d, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x78               // movzx    esi, byte [rsp + 120]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc6                   // or    r14b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xc000                               // add    al, al
+	LONG $0x48244402                           // add    al, byte [rsp + 72]
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8845; BYTE $0x30                   // mov    byte [r8], r14b
+	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x01488841                           // mov    byte [r8 + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02788845                           // mov    byte [r8 + 2], r15b
+	LONG $0x03588841                           // mov    byte [r8 + 3], bl
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c08349                           // add    r8, 4
+	LONG $0x2404894c                           // mov    qword [rsp], r8
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB2_27
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+
+LBB2_29:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB2_176
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB2_161
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB2_163
+
+LBB2_32:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_60
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_176
+	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_38
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+	LONG $0x241c8b4c         // mov    r11, qword [rsp]
+
+LBB2_36:
+	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB2_36
+	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
+
+LBB2_38:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB2_130
+	LONG $0x10ff8349             // cmp    r15, 16
+	LONG $0x24748844; BYTE $0x08 // mov    byte [rsp + 8], r14b
+	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
+	QUAD $0x000000f024bc894c     // mov    qword [rsp + 240], r15
+	JB   LBB2_42
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
+	LONG $0x24043948             // cmp    qword [rsp], rax
+	JAE  LBB2_185
+	LONG $0x24048b48             // mov    rax, qword [rsp]
+	LONG $0xb8048d4a             // lea    rax, [rax + 4*r15]
+	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
+	JAE  LBB2_185
+
+LBB2_42:
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	LONG $0x24048b48             // mov    rax, qword [rsp]
+	LONG $0x24448948; BYTE $0x68 // mov    qword [rsp + 104], rax
+
+LBB2_43:
+	QUAD $0x000000e824bc2b4c // sub    r15, qword [rsp + 232]
+	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
+
+LBB2_44:
+	WORD $0x8948; BYTE $0xf1             // mov    rcx, rsi
+	WORD $0x3a44; BYTE $0x36             // cmp    r14b, byte [rsi]
+	QUAD $0x000000c02494940f             // sete    byte [rsp + 192]
+	LONG $0x01763a44                     // cmp    r14b, byte [rsi + 1]
+	LONG $0xd7940f40                     // sete    dil
+	LONG $0x02763a44                     // cmp    r14b, byte [rsi + 2]
+	LONG $0xd3940f41                     // sete    r11b
+	LONG $0x03763a44                     // cmp    r14b, byte [rsi + 3]
+	LONG $0xd7940f41                     // sete    r15b
+	LONG $0x04763a44                     // cmp    r14b, byte [rsi + 4]
+	QUAD $0x000000a02494940f             // sete    byte [rsp + 160]
+	LONG $0x05763a44                     // cmp    r14b, byte [rsi + 5]
+	LONG $0x2454940f; BYTE $0x40         // sete    byte [rsp + 64]
+	LONG $0x06763a44                     // cmp    r14b, byte [rsi + 6]
+	WORD $0x940f; BYTE $0xd3             // sete    bl
+	LONG $0x07763a44                     // cmp    r14b, byte [rsi + 7]
+	LONG $0xd5940f41                     // sete    r13b
+	LONG $0x08763a44                     // cmp    r14b, byte [rsi + 8]
+	QUAD $0x000000d02494940f             // sete    byte [rsp + 208]
+	LONG $0x09763a44                     // cmp    r14b, byte [rsi + 9]
+	LONG $0xd6940f40                     // sete    sil
+	LONG $0x0a713a44                     // cmp    r14b, byte [rcx + 10]
+	LONG $0xd0940f41                     // sete    r8b
+	LONG $0x0b713a44                     // cmp    r14b, byte [rcx + 11]
+	LONG $0xd1940f41                     // sete    r9b
+	LONG $0x0c713a44                     // cmp    r14b, byte [rcx + 12]
+	LONG $0xd6940f41                     // sete    r14b
+	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
+	WORD $0x413a; BYTE $0x0d             // cmp    al, byte [rcx + 13]
+	LONG $0xd4940f41                     // sete    r12b
+	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
+	WORD $0x413a; BYTE $0x0e             // cmp    al, byte [rcx + 14]
+	QUAD $0x000000b02494940f             // sete    byte [rsp + 176]
+	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
+	WORD $0x413a; BYTE $0x0f             // cmp    al, byte [rcx + 15]
+	WORD $0x940f; BYTE $0xd0             // sete    al
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x10             // cmp    dl, byte [rcx + 16]
+	LONG $0x2454940f; BYTE $0x78         // sete    byte [rsp + 120]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x11             // cmp    dl, byte [rcx + 17]
+	QUAD $0x000000802494940f             // sete    byte [rsp + 128]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x12             // cmp    dl, byte [rcx + 18]
+	LONG $0x2454940f; BYTE $0x70         // sete    byte [rsp + 112]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x13             // cmp    dl, byte [rcx + 19]
+	LONG $0x2454940f; BYTE $0x60         // sete    byte [rsp + 96]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x14             // cmp    dl, byte [rcx + 20]
+	LONG $0x2454940f; BYTE $0x48         // sete    byte [rsp + 72]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x15             // cmp    dl, byte [rcx + 21]
+	LONG $0x2454940f; BYTE $0x58         // sete    byte [rsp + 88]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x16             // cmp    dl, byte [rcx + 22]
+	LONG $0x2454940f; BYTE $0x50         // sete    byte [rsp + 80]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x17             // cmp    dl, byte [rcx + 23]
+	LONG $0xd2940f41                     // sete    r10b
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x18             // cmp    dl, byte [rcx + 24]
+	LONG $0x2454940f; BYTE $0x38         // sete    byte [rsp + 56]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x19             // cmp    dl, byte [rcx + 25]
+	LONG $0x2454940f; BYTE $0x20         // sete    byte [rsp + 32]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x1a             // cmp    dl, byte [rcx + 26]
+	LONG $0x2454940f; BYTE $0x28         // sete    byte [rsp + 40]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x1b             // cmp    dl, byte [rcx + 27]
+	LONG $0x2454940f; BYTE $0x18         // sete    byte [rsp + 24]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x1c             // cmp    dl, byte [rcx + 28]
+	LONG $0x2454940f; BYTE $0x10         // sete    byte [rsp + 16]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x1d             // cmp    dl, byte [rcx + 29]
+	LONG $0x2454940f; BYTE $0x30         // sete    byte [rsp + 48]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x1e             // cmp    dl, byte [rcx + 30]
+	LONG $0x2414940f                     // sete    byte [rsp]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x1f             // cmp    dl, byte [rcx + 31]
+	WORD $0x940f; BYTE $0xd2             // sete    dl
+	WORD $0x0040; BYTE $0xff             // add    dil, dil
+	QUAD $0x000000c024bc0240             // add    dil, byte [rsp + 192]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	LONG $0x07e5c041                     // shl    r13b, 7
+	WORD $0x0841; BYTE $0xdd             // or    r13b, bl
+	LONG $0x02e3c041                     // shl    r11b, 2
+	WORD $0x0841; BYTE $0xfb             // or    r11b, dil
+	WORD $0x0040; BYTE $0xf6             // add    sil, sil
+	QUAD $0x000000d024b40240             // add    sil, byte [rsp + 208]
+	LONG $0x03e7c041                     // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf             // or    r15b, r11b
+	LONG $0x02e0c041                     // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0             // or    r8b, sil
+	QUAD $0x000000a0249cb60f             // movzx    ebx, byte [rsp + 160]
+	WORD $0xe3c0; BYTE $0x04             // shl    bl, 4
+	WORD $0x0844; BYTE $0xfb             // or    bl, r15b
+	WORD $0xde89                         // mov    esi, ebx
+	LONG $0x03e1c041                     // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1             // or    r9b, r8b
+	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x05             // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3             // or    bl, sil
+	LONG $0x04e6c041                     // shl    r14b, 4
+	WORD $0x0845; BYTE $0xce             // or    r14b, r9b
+	LONG $0x05e4c041                     // shl    r12b, 5
+	WORD $0x0845; BYTE $0xf4             // or    r12b, r14b
+	LONG $0x74b60f44; WORD $0x0824       // movzx    r14d, byte [rsp + 8]
+	QUAD $0x000000b024b4b60f             // movzx    esi, byte [rsp + 176]
+	LONG $0x06e6c040                     // shl    sil, 6
+	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
+	WORD $0x0840; BYTE $0xf0             // or    al, sil
+	WORD $0x0841; BYTE $0xdd             // or    r13b, bl
+	WORD $0x0844; BYTE $0xe0             // or    al, r12b
+	QUAD $0x00000080249cb60f             // movzx    ebx, byte [rsp + 128]
+	WORD $0xdb00                         // add    bl, bl
+	LONG $0x78245c02                     // add    bl, byte [rsp + 120]
+	WORD $0xde89                         // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x70         // movzx    ebx, byte [rsp + 112]
+	WORD $0xe3c0; BYTE $0x02             // shl    bl, 2
+	WORD $0x0840; BYTE $0xf3             // or    bl, sil
+	WORD $0xde89                         // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x60         // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x03             // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3             // or    bl, sil
+	WORD $0xde89                         // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x48         // movzx    ebx, byte [rsp + 72]
+	WORD $0xe3c0; BYTE $0x04             // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3             // or    bl, sil
+	WORD $0xde89                         // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x58         // movzx    ebx, byte [rsp + 88]
+	WORD $0xe3c0; BYTE $0x05             // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3             // or    bl, sil
+	LONG $0x247c8b48; BYTE $0x68         // mov    rdi, qword [rsp + 104]
+	WORD $0x8844; BYTE $0x2f             // mov    byte [rdi], r13b
+	LONG $0x2474b60f; BYTE $0x50         // movzx    esi, byte [rsp + 80]
+	LONG $0x06e6c040                     // shl    sil, 6
+	LONG $0x07e2c041                     // shl    r10b, 7
+	WORD $0x0841; BYTE $0xf2             // or    r10b, sil
+	WORD $0x4788; BYTE $0x01             // mov    byte [rdi + 1], al
+	WORD $0x0841; BYTE $0xda             // or    r10b, bl
+	LONG $0x2444b60f; BYTE $0x20         // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                         // add    al, al
+	LONG $0x38244402                     // add    al, byte [rsp + 56]
+	WORD $0xc389                         // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
+	WORD $0xd808                         // or    al, bl
+	WORD $0xc389                         // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x18         // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0xd808                         // or    al, bl
+	WORD $0xc389                         // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x10         // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
+	WORD $0xd808                         // or    al, bl
+	WORD $0xc389                         // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
+	WORD $0xd808                         // or    al, bl
+	LONG $0x241cb60f                     // movzx    ebx, byte [rsp]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07             // shl    dl, 7
+	WORD $0xda08                         // or    dl, bl
+	WORD $0xc208                         // or    dl, al
+	LONG $0x02578844                     // mov    byte [rdi + 2], r10b
+	WORD $0x5788; BYTE $0x03             // mov    byte [rdi + 3], dl
+	LONG $0x20718d48                     // lea    rsi, [rcx + 32]
+	LONG $0x04c78348                     // add    rdi, 4
+	LONG $0x247c8948; BYTE $0x68         // mov    qword [rsp + 104], rdi
+	QUAD $0x0000008824848348; BYTE $0xff // add    qword [rsp + 136], -1
+	JNE  LBB2_44
+	QUAD $0x0000009024948b4c             // mov    r10, qword [rsp + 144]
+	QUAD $0x000000f024bc8b4c             // mov    r15, qword [rsp + 240]
+	JMP  LBB2_131
+
+LBB2_46:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_72
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_176
+	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_52
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+	LONG $0x240c8b4c         // mov    r9, qword [rsp]
+
+LBB2_50:
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x31               // movzx    r8d, byte [r9 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x313c8841                           // mov    byte [r9 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB2_50
+	LONG $0x24048348; BYTE $0x01               // add    qword [rsp], 1
+
+LBB2_52:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_56
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+
+LBB2_54:
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
+	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000d024b40240                   // add    sil, byte [rsp + 208]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xc000                               // add    al, al
+	LONG $0x48244402                           // add    al, byte [rsp + 72]
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x24048b48                           // mov    rax, qword [rsp]
+	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
+	LONG $0x24348b48                           // mov    rsi, qword [rsp]
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68348                           // add    rsi, 4
+	LONG $0x24348948                           // mov    qword [rsp], rsi
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB2_54
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+
+LBB2_56:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB2_176
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JE   LBB2_117
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+	LONG $0x241c8b4c         // mov    r11, qword [rsp]
+
+LBB2_59:
+	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x33048841             // mov    byte [r11 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_59
+	JMP  LBB2_167
+
+LBB2_60:
+	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_64
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+	LONG $0x241c8b4c         // mov    r11, qword [rsp]
+
+LBB2_62:
+	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB2_62
+	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
+
+LBB2_64:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB2_134
+	LONG $0x10ff8349             // cmp    r15, 16
+	LONG $0x24748844; BYTE $0x08 // mov    byte [rsp + 8], r14b
+	QUAD $0x000000902494894c     // mov    qword [rsp + 144], r10
+	QUAD $0x000000f024bc894c     // mov    qword [rsp + 240], r15
+	JB   LBB2_68
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0     // add    rax, rdx
+	LONG $0x24043948             // cmp    qword [rsp], rax
+	JAE  LBB2_188
+	LONG $0x24048b48             // mov    rax, qword [rsp]
+	LONG $0xb8048d4a             // lea    rax, [rax + 4*r15]
+	WORD $0x3948; BYTE $0xc2     // cmp    rdx, rax
+	JAE  LBB2_188
+
+LBB2_68:
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	LONG $0x24048b48             // mov    rax, qword [rsp]
+	LONG $0x24448948; BYTE $0x68 // mov    qword [rsp + 104], rax
+
+LBB2_69:
+	QUAD $0x000000e824bc2b4c // sub    r15, qword [rsp + 232]
+	QUAD $0x0000008824bc894c // mov    qword [rsp + 136], r15
+
+LBB2_70:
+	WORD $0x8948; BYTE $0xf1             // mov    rcx, rsi
+	WORD $0x3a44; BYTE $0x36             // cmp    r14b, byte [rsi]
+	QUAD $0x000000c02494940f             // sete    byte [rsp + 192]
+	LONG $0x01763a44                     // cmp    r14b, byte [rsi + 1]
+	LONG $0xd7940f40                     // sete    dil
+	LONG $0x02763a44                     // cmp    r14b, byte [rsi + 2]
+	LONG $0xd3940f41                     // sete    r11b
+	LONG $0x03763a44                     // cmp    r14b, byte [rsi + 3]
+	LONG $0xd7940f41                     // sete    r15b
+	LONG $0x04763a44                     // cmp    r14b, byte [rsi + 4]
+	QUAD $0x000000a02494940f             // sete    byte [rsp + 160]
+	LONG $0x05763a44                     // cmp    r14b, byte [rsi + 5]
+	LONG $0x2454940f; BYTE $0x40         // sete    byte [rsp + 64]
+	LONG $0x06763a44                     // cmp    r14b, byte [rsi + 6]
+	WORD $0x940f; BYTE $0xd3             // sete    bl
+	LONG $0x07763a44                     // cmp    r14b, byte [rsi + 7]
+	LONG $0xd5940f41                     // sete    r13b
+	LONG $0x08763a44                     // cmp    r14b, byte [rsi + 8]
+	QUAD $0x000000d02494940f             // sete    byte [rsp + 208]
+	LONG $0x09763a44                     // cmp    r14b, byte [rsi + 9]
+	LONG $0xd6940f40                     // sete    sil
+	LONG $0x0a713a44                     // cmp    r14b, byte [rcx + 10]
+	LONG $0xd0940f41                     // sete    r8b
+	LONG $0x0b713a44                     // cmp    r14b, byte [rcx + 11]
+	LONG $0xd1940f41                     // sete    r9b
+	LONG $0x0c713a44                     // cmp    r14b, byte [rcx + 12]
+	LONG $0xd6940f41                     // sete    r14b
+	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
+	WORD $0x413a; BYTE $0x0d             // cmp    al, byte [rcx + 13]
+	LONG $0xd4940f41                     // sete    r12b
+	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
+	WORD $0x413a; BYTE $0x0e             // cmp    al, byte [rcx + 14]
+	QUAD $0x000000b02494940f             // sete    byte [rsp + 176]
+	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
+	WORD $0x413a; BYTE $0x0f             // cmp    al, byte [rcx + 15]
+	WORD $0x940f; BYTE $0xd0             // sete    al
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x10             // cmp    dl, byte [rcx + 16]
+	LONG $0x2454940f; BYTE $0x78         // sete    byte [rsp + 120]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x11             // cmp    dl, byte [rcx + 17]
+	QUAD $0x000000802494940f             // sete    byte [rsp + 128]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x12             // cmp    dl, byte [rcx + 18]
+	LONG $0x2454940f; BYTE $0x70         // sete    byte [rsp + 112]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x13             // cmp    dl, byte [rcx + 19]
+	LONG $0x2454940f; BYTE $0x60         // sete    byte [rsp + 96]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x14             // cmp    dl, byte [rcx + 20]
+	LONG $0x2454940f; BYTE $0x48         // sete    byte [rsp + 72]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x15             // cmp    dl, byte [rcx + 21]
+	LONG $0x2454940f; BYTE $0x58         // sete    byte [rsp + 88]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x16             // cmp    dl, byte [rcx + 22]
+	LONG $0x2454940f; BYTE $0x50         // sete    byte [rsp + 80]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x17             // cmp    dl, byte [rcx + 23]
+	LONG $0xd2940f41                     // sete    r10b
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x18             // cmp    dl, byte [rcx + 24]
+	LONG $0x2454940f; BYTE $0x38         // sete    byte [rsp + 56]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x19             // cmp    dl, byte [rcx + 25]
+	LONG $0x2454940f; BYTE $0x20         // sete    byte [rsp + 32]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x1a             // cmp    dl, byte [rcx + 26]
+	LONG $0x2454940f; BYTE $0x28         // sete    byte [rsp + 40]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x1b             // cmp    dl, byte [rcx + 27]
+	LONG $0x2454940f; BYTE $0x18         // sete    byte [rsp + 24]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x1c             // cmp    dl, byte [rcx + 28]
+	LONG $0x2454940f; BYTE $0x10         // sete    byte [rsp + 16]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x1d             // cmp    dl, byte [rcx + 29]
+	LONG $0x2454940f; BYTE $0x30         // sete    byte [rsp + 48]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x1e             // cmp    dl, byte [rcx + 30]
+	LONG $0x2414940f                     // sete    byte [rsp]
+	LONG $0x2454b60f; BYTE $0x08         // movzx    edx, byte [rsp + 8]
+	WORD $0x513a; BYTE $0x1f             // cmp    dl, byte [rcx + 31]
+	WORD $0x940f; BYTE $0xd2             // sete    dl
+	WORD $0x0040; BYTE $0xff             // add    dil, dil
+	QUAD $0x000000c024bc0240             // add    dil, byte [rsp + 192]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	LONG $0x07e5c041                     // shl    r13b, 7
+	WORD $0x0841; BYTE $0xdd             // or    r13b, bl
+	LONG $0x02e3c041                     // shl    r11b, 2
+	WORD $0x0841; BYTE $0xfb             // or    r11b, dil
+	WORD $0x0040; BYTE $0xf6             // add    sil, sil
+	QUAD $0x000000d024b40240             // add    sil, byte [rsp + 208]
+	LONG $0x03e7c041                     // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf             // or    r15b, r11b
+	LONG $0x02e0c041                     // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0             // or    r8b, sil
+	QUAD $0x000000a0249cb60f             // movzx    ebx, byte [rsp + 160]
+	WORD $0xe3c0; BYTE $0x04             // shl    bl, 4
+	WORD $0x0844; BYTE $0xfb             // or    bl, r15b
+	WORD $0xde89                         // mov    esi, ebx
+	LONG $0x03e1c041                     // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1             // or    r9b, r8b
+	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x05             // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3             // or    bl, sil
+	LONG $0x04e6c041                     // shl    r14b, 4
+	WORD $0x0845; BYTE $0xce             // or    r14b, r9b
+	LONG $0x05e4c041                     // shl    r12b, 5
+	WORD $0x0845; BYTE $0xf4             // or    r12b, r14b
+	LONG $0x74b60f44; WORD $0x0824       // movzx    r14d, byte [rsp + 8]
+	QUAD $0x000000b024b4b60f             // movzx    esi, byte [rsp + 176]
+	LONG $0x06e6c040                     // shl    sil, 6
+	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
+	WORD $0x0840; BYTE $0xf0             // or    al, sil
+	WORD $0x0841; BYTE $0xdd             // or    r13b, bl
+	WORD $0x0844; BYTE $0xe0             // or    al, r12b
+	QUAD $0x00000080249cb60f             // movzx    ebx, byte [rsp + 128]
+	WORD $0xdb00                         // add    bl, bl
+	LONG $0x78245c02                     // add    bl, byte [rsp + 120]
+	WORD $0xde89                         // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x70         // movzx    ebx, byte [rsp + 112]
+	WORD $0xe3c0; BYTE $0x02             // shl    bl, 2
+	WORD $0x0840; BYTE $0xf3             // or    bl, sil
+	WORD $0xde89                         // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x60         // movzx    ebx, byte [rsp + 96]
+	WORD $0xe3c0; BYTE $0x03             // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3             // or    bl, sil
+	WORD $0xde89                         // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x48         // movzx    ebx, byte [rsp + 72]
+	WORD $0xe3c0; BYTE $0x04             // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3             // or    bl, sil
+	WORD $0xde89                         // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x58         // movzx    ebx, byte [rsp + 88]
+	WORD $0xe3c0; BYTE $0x05             // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3             // or    bl, sil
+	LONG $0x247c8b48; BYTE $0x68         // mov    rdi, qword [rsp + 104]
+	WORD $0x8844; BYTE $0x2f             // mov    byte [rdi], r13b
+	LONG $0x2474b60f; BYTE $0x50         // movzx    esi, byte [rsp + 80]
+	LONG $0x06e6c040                     // shl    sil, 6
+	LONG $0x07e2c041                     // shl    r10b, 7
+	WORD $0x0841; BYTE $0xf2             // or    r10b, sil
+	WORD $0x4788; BYTE $0x01             // mov    byte [rdi + 1], al
+	WORD $0x0841; BYTE $0xda             // or    r10b, bl
+	LONG $0x2444b60f; BYTE $0x20         // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                         // add    al, al
+	LONG $0x38244402                     // add    al, byte [rsp + 56]
+	WORD $0xc389                         // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
+	WORD $0xd808                         // or    al, bl
+	WORD $0xc389                         // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x18         // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0xd808                         // or    al, bl
+	WORD $0xc389                         // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x10         // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
+	WORD $0xd808                         // or    al, bl
+	WORD $0xc389                         // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
+	WORD $0xd808                         // or    al, bl
+	LONG $0x241cb60f                     // movzx    ebx, byte [rsp]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07             // shl    dl, 7
+	WORD $0xda08                         // or    dl, bl
+	WORD $0xc208                         // or    dl, al
+	LONG $0x02578844                     // mov    byte [rdi + 2], r10b
+	WORD $0x5788; BYTE $0x03             // mov    byte [rdi + 3], dl
+	LONG $0x20718d48                     // lea    rsi, [rcx + 32]
+	LONG $0x04c78348                     // add    rdi, 4
+	LONG $0x247c8948; BYTE $0x68         // mov    qword [rsp + 104], rdi
+	QUAD $0x0000008824848348; BYTE $0xff // add    qword [rsp + 136], -1
+	JNE  LBB2_70
+	QUAD $0x0000009024948b4c             // mov    r10, qword [rsp + 144]
+	QUAD $0x000000f024bc8b4c             // mov    r15, qword [rsp + 240]
+	JMP  LBB2_135
+
+LBB2_72:
+	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_76
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+	LONG $0x240c8b4c         // mov    r9, qword [rsp]
+
+LBB2_74:
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x31               // movzx    r8d, byte [r9 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x313c8841                           // mov    byte [r9 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB2_74
+	LONG $0x24048348; BYTE $0x01               // add    qword [rsp], 1
+
+LBB2_76:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_80
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+
+LBB2_78:
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
+	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000d024b40240                   // add    sil, byte [rsp + 208]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xc000                               // add    al, al
+	LONG $0x48244402                           // add    al, byte [rsp + 72]
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x24048b48                           // mov    rax, qword [rsp]
+	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
+	LONG $0x24348b48                           // mov    rsi, qword [rsp]
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68348                           // add    rsi, 4
+	LONG $0x24348948                           // mov    qword [rsp], rsi
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB2_78
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+
+LBB2_80:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB2_176
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB2_150
+
+LBB2_82:
+	WORD $0xff31  // xor    edi, edi
+	JMP  LBB2_152
+
+LBB2_83:
+	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_87
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+	LONG $0x241c8b4c         // mov    r11, qword [rsp]
+
+LBB2_85:
+	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB2_85
+	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
+
+LBB2_87:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_138
+	LONG $0x08fe8349         // cmp    r14, 8
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x0000009824b4894c // mov    qword [rsp + 152], r14
+	JB   LBB2_91
+	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
+	LONG $0x06e0c148         // shl    rax, 6
+	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
+	LONG $0x24043948         // cmp    qword [rsp], rax
+	JAE  LBB2_191
+	LONG $0x24048b48         // mov    rax, qword [rsp]
+	LONG $0xb0048d4a         // lea    rax, [rax + 4*r14]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB2_191
+
+LBB2_91:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x24448948; BYTE $0x20 // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	LONG $0x24048b48             // mov    rax, qword [rsp]
+	LONG $0x24448948; BYTE $0x08 // mov    qword [rsp + 8], rax
+
+LBB2_92:
+	LONG $0x24742b4c; BYTE $0x20 // sub    r14, qword [rsp + 32]
+	QUAD $0x0000008824b4894c     // mov    qword [rsp + 136], r14
+
+LBB2_93:
+	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
+	LONG $0x2e3b4466                           // cmp    r13w, word [rsi]
+	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
+	LONG $0x6e3b4466; BYTE $0x02               // cmp    r13w, word [rsi + 2]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x6e3b4466; BYTE $0x04               // cmp    r13w, word [rsi + 4]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x6e3b4466; BYTE $0x06               // cmp    r13w, word [rsi + 6]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x6e3b4466; BYTE $0x08               // cmp    r13w, word [rsi + 8]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x6e3b4466; BYTE $0x0a               // cmp    r13w, word [rsi + 10]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x6e3b4466; BYTE $0x0c               // cmp    r13w, word [rsi + 12]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x6e3b4466; BYTE $0x0e               // cmp    r13w, word [rsi + 14]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x6e3b4466; BYTE $0x10               // cmp    r13w, word [rsi + 16]
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x6e3b4466; BYTE $0x12               // cmp    r13w, word [rsi + 18]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x6e3b4466; BYTE $0x14               // cmp    r13w, word [rsi + 20]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x6e3b4466; BYTE $0x16               // cmp    r13w, word [rsi + 22]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x6b3b4566; BYTE $0x18               // cmp    r13w, word [r11 + 24]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x6b3b4566; BYTE $0x1a               // cmp    r13w, word [r11 + 26]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x6b3b4566; BYTE $0x1c               // cmp    r13w, word [r11 + 28]
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x6b3b4566; BYTE $0x1e               // cmp    r13w, word [r11 + 30]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x6b3b4566; BYTE $0x20               // cmp    r13w, word [r11 + 32]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x6b3b4566; BYTE $0x22               // cmp    r13w, word [r11 + 34]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x6b3b4566; BYTE $0x24               // cmp    r13w, word [r11 + 36]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x6b3b4566; BYTE $0x26               // cmp    r13w, word [r11 + 38]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x6b3b4566; BYTE $0x28               // cmp    r13w, word [r11 + 40]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x6b3b4566; BYTE $0x2a               // cmp    r13w, word [r11 + 42]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x6b3b4566; BYTE $0x2c               // cmp    r13w, word [r11 + 44]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x6b3b4566; BYTE $0x2e               // cmp    r13w, word [r11 + 46]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x6b3b4566; BYTE $0x30               // cmp    r13w, word [r11 + 48]
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0x6b3b4566; BYTE $0x32               // cmp    r13w, word [r11 + 50]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x6b3b4566; BYTE $0x34               // cmp    r13w, word [r11 + 52]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x6b3b4566; BYTE $0x36               // cmp    r13w, word [r11 + 54]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x6b3b4566; BYTE $0x38               // cmp    r13w, word [r11 + 56]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x6b3b4566; BYTE $0x3a               // cmp    r13w, word [r11 + 58]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x6b3b4566; BYTE $0x3c               // cmp    r13w, word [r11 + 60]
+	LONG $0x2414940f                           // sete    byte [rsp]
+	LONG $0x6b3b4566; BYTE $0x3e               // cmp    r13w, word [r11 + 62]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xc900                               // add    cl, cl
+	LONG $0xd0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 208]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xca08                               // or    dl, cl
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0xcf89                               // mov    edi, ecx
+	LONG $0x03e6c040                           // shl    sil, 3
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	LONG $0x04e1c041                           // shl    r9b, 4
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
+	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
+	WORD $0x0845; BYTE $0xe0                   // or    r8b, r12b
+	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x48244c02                           // add    cl, byte [rsp + 72]
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	WORD $0x8844; BYTE $0x11                   // mov    byte [rcx], r10b
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x01418844                           // mov    byte [rcx + 1], r8b
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xd308                               // or    bl, dl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
+	WORD $0x5988; BYTE $0x03                   // mov    byte [rcx + 3], bl
+	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
+	LONG $0x04c18348                           // add    rcx, 4
+	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB2_93
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
+	JMP  LBB2_139
+
+LBB2_95:
+	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_99
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+	LONG $0x241c8b4c         // mov    r11, qword [rsp]
+
+LBB2_97:
+	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB2_97
+	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
+
+LBB2_99:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_142
+	LONG $0x08ff8349         // cmp    r15, 8
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x0000009824bc894c // mov    qword [rsp + 152], r15
+	JB   LBB2_103
+	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
+	LONG $0x06e0c148         // shl    rax, 6
+	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
+	LONG $0x24043948         // cmp    qword [rsp], rax
+	JAE  LBB2_194
+	LONG $0x24048b48         // mov    rax, qword [rsp]
+	LONG $0xb8048d4a         // lea    rax, [rax + 4*r15]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB2_194
+
+LBB2_103:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x24448948; BYTE $0x20 // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	LONG $0x24348b4c             // mov    r14, qword [rsp]
+
+LBB2_104:
+	LONG $0x2474894c; BYTE $0x08 // mov    qword [rsp + 8], r14
+	LONG $0x247c2b4c; BYTE $0x20 // sub    r15, qword [rsp + 32]
+	QUAD $0x0000008824bc894c     // mov    qword [rsp + 136], r15
+
+LBB2_105:
+	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
+	LONG $0x2e3b4466                           // cmp    r13w, word [rsi]
+	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
+	LONG $0x6e3b4466; BYTE $0x02               // cmp    r13w, word [rsi + 2]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x6e3b4466; BYTE $0x04               // cmp    r13w, word [rsi + 4]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x6e3b4466; BYTE $0x06               // cmp    r13w, word [rsi + 6]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x6e3b4466; BYTE $0x08               // cmp    r13w, word [rsi + 8]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x6e3b4466; BYTE $0x0a               // cmp    r13w, word [rsi + 10]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x6e3b4466; BYTE $0x0c               // cmp    r13w, word [rsi + 12]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x6e3b4466; BYTE $0x0e               // cmp    r13w, word [rsi + 14]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x6e3b4466; BYTE $0x10               // cmp    r13w, word [rsi + 16]
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x6e3b4466; BYTE $0x12               // cmp    r13w, word [rsi + 18]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x6e3b4466; BYTE $0x14               // cmp    r13w, word [rsi + 20]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x6e3b4466; BYTE $0x16               // cmp    r13w, word [rsi + 22]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x6b3b4566; BYTE $0x18               // cmp    r13w, word [r11 + 24]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x6b3b4566; BYTE $0x1a               // cmp    r13w, word [r11 + 26]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x6b3b4566; BYTE $0x1c               // cmp    r13w, word [r11 + 28]
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x6b3b4566; BYTE $0x1e               // cmp    r13w, word [r11 + 30]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x6b3b4566; BYTE $0x20               // cmp    r13w, word [r11 + 32]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x6b3b4566; BYTE $0x22               // cmp    r13w, word [r11 + 34]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x6b3b4566; BYTE $0x24               // cmp    r13w, word [r11 + 36]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x6b3b4566; BYTE $0x26               // cmp    r13w, word [r11 + 38]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x6b3b4566; BYTE $0x28               // cmp    r13w, word [r11 + 40]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x6b3b4566; BYTE $0x2a               // cmp    r13w, word [r11 + 42]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x6b3b4566; BYTE $0x2c               // cmp    r13w, word [r11 + 44]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x6b3b4566; BYTE $0x2e               // cmp    r13w, word [r11 + 46]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x6b3b4566; BYTE $0x30               // cmp    r13w, word [r11 + 48]
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0x6b3b4566; BYTE $0x32               // cmp    r13w, word [r11 + 50]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x6b3b4566; BYTE $0x34               // cmp    r13w, word [r11 + 52]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x6b3b4566; BYTE $0x36               // cmp    r13w, word [r11 + 54]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x6b3b4566; BYTE $0x38               // cmp    r13w, word [r11 + 56]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x6b3b4566; BYTE $0x3a               // cmp    r13w, word [r11 + 58]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x6b3b4566; BYTE $0x3c               // cmp    r13w, word [r11 + 60]
+	LONG $0x2414940f                           // sete    byte [rsp]
+	LONG $0x6b3b4566; BYTE $0x3e               // cmp    r13w, word [r11 + 62]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xc900                               // add    cl, cl
+	LONG $0xd0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 208]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xca08                               // or    dl, cl
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0xcf89                               // mov    edi, ecx
+	LONG $0x03e6c040                           // shl    sil, 3
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	LONG $0x04e1c041                           // shl    r9b, 4
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
+	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
+	WORD $0x0845; BYTE $0xe0                   // or    r8b, r12b
+	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x48244c02                           // add    cl, byte [rsp + 72]
+	WORD $0xca89                               // mov    edx, ecx
+	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	WORD $0x8844; BYTE $0x11                   // mov    byte [rcx], r10b
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x01418844                           // mov    byte [rcx + 1], r8b
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xd308                               // or    bl, dl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
+	WORD $0x5988; BYTE $0x03                   // mov    byte [rcx + 3], bl
+	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
+	LONG $0x04c18348                           // add    rcx, 4
+	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB2_105
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
+	LONG $0x24748b4c; BYTE $0x08               // mov    r14, qword [rsp + 8]
+	JMP  LBB2_143
+
+LBB2_107:
+	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_111
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+	LONG $0x240c8b4c         // mov    r9, qword [rsp]
+
+LBB2_109:
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x31               // movzx    r8d, byte [r9 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x313c8841                           // mov    byte [r9 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB2_109
+	LONG $0x24048348; BYTE $0x01               // add    qword [rsp], 1
+
+LBB2_111:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_115
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x00000098249c894c // mov    qword [rsp + 152], r11
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+
+LBB2_113:
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	QUAD $0x000000c02494940f                   // sete    byte [rsp + 192]
+	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
+	WORD $0x940f; BYTE $0xd3                   // sete    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000d024b40240                   // add    sil, byte [rsp + 208]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xc000                               // add    al, al
+	LONG $0x48244402                           // add    al, byte [rsp + 72]
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x24048b48                           // mov    rax, qword [rsp]
+	WORD $0x8844; BYTE $0x18                   // mov    byte [rax], r11b
+	LONG $0x24348b48                           // mov    rsi, qword [rsp]
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x5e88; BYTE $0x03                   // mov    byte [rsi + 3], bl
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68348                           // add    rsi, 4
+	LONG $0x24348948                           // mov    qword [rsp], rsi
+	QUAD $0x0000008824848348; BYTE $0xff       // add    qword [rsp + 136], -1
+	JNE  LBB2_113
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+
+LBB2_115:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB2_176
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB2_165
+
+LBB2_117:
+	WORD $0xff31  // xor    edi, edi
+	JMP  LBB2_167
+
+LBB2_118:
+	LONG $0x1f728d4d         // lea    r14, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xf2490f4d         // cmovns    r14, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x06100ff3         // movss    xmm0, dword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB2_122
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+	LONG $0x241c8b4c         // mov    r11, qword [rsp]
+
+LBB2_120:
+	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x333c8841             // mov    byte [r11 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB2_120
+	LONG $0x24048348; BYTE $0x01 // add    qword [rsp], 1
+
+LBB2_122:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB2_146
+	LONG $0x04fe8349         // cmp    r14, 4
+	JB   LBB2_126
+	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
+	LONG $0x07e0c148         // shl    rax, 7
+	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
+	LONG $0x24043948         // cmp    qword [rsp], rax
+	JAE  LBB2_197
+	LONG $0x24048b48         // mov    rax, qword [rsp]
+	LONG $0xb0048d4a         // lea    rax, [rax + 4*r14]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB2_197
+
+LBB2_126:
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
+	LONG $0x241c8b4c         // mov    r11, qword [rsp]
+
+LBB2_127:
+	LONG $0x241c894c         // mov    qword [rsp], r11
+	QUAD $0x000000902494894c // mov    qword [rsp + 144], r10
+	QUAD $0x0000008824b4894c // mov    qword [rsp + 136], r14
+	WORD $0x294d; BYTE $0xc6 // sub    r14, r8
+	QUAD $0x000000c024b4894c // mov    qword [rsp + 192], r14
+
+LBB2_128:
+	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
+	QUAD $0x000000a02494940f                   // sete    byte [rsp + 160]
+	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
+	LONG $0xd0940f41                           // sete    r8b
+	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
+	LONG $0xd6940f41                           // sete    r14b
+	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
+	LONG $0xd5940f41                           // sete    r13b
+	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
+	LONG $0x2454940f; BYTE $0x70               // sete    byte [rsp + 112]
+	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
+	LONG $0x2454940f; BYTE $0x58               // sete    byte [rsp + 88]
+	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
+	WORD $0x940f; BYTE $0xd0                   // sete    al
+	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
+	LONG $0xd3940f41                           // sete    r11b
+	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
+	QUAD $0x000000b02494940f                   // sete    byte [rsp + 176]
+	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
+	WORD $0x940f; BYTE $0xd2                   // sete    dl
+	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
+	LONG $0xd6940f40                           // sete    sil
+	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
+	LONG $0xd7940f40                           // sete    dil
+	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
+	LONG $0xd2940f41                           // sete    r10b
+	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
+	LONG $0xd4940f41                           // sete    r12b
+	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
+	LONG $0x2454940f; BYTE $0x78               // sete    byte [rsp + 120]
+	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
+	LONG $0xd1940f41                           // sete    r9b
+	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
+	LONG $0x2454940f; BYTE $0x48               // sete    byte [rsp + 72]
+	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
+	QUAD $0x000000d02494940f                   // sete    byte [rsp + 208]
+	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
+	QUAD $0x000000802494940f                   // sete    byte [rsp + 128]
+	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
+	LONG $0x2454940f; BYTE $0x60               // sete    byte [rsp + 96]
+	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
+	LONG $0x2454940f; BYTE $0x50               // sete    byte [rsp + 80]
+	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
+	LONG $0x2454940f; BYTE $0x68               // sete    byte [rsp + 104]
+	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
+	LONG $0x2454940f; BYTE $0x40               // sete    byte [rsp + 64]
+	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
+	LONG $0xd7940f41                           // sete    r15b
+	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
+	LONG $0x2454940f; BYTE $0x18               // sete    byte [rsp + 24]
+	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
+	LONG $0x2454940f; BYTE $0x38               // sete    byte [rsp + 56]
+	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
+	LONG $0x2454940f; BYTE $0x20               // sete    byte [rsp + 32]
+	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
+	LONG $0x2454940f; BYTE $0x28               // sete    byte [rsp + 40]
+	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
+	LONG $0x2454940f; BYTE $0x10               // sete    byte [rsp + 16]
+	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
+	LONG $0x2454940f; BYTE $0x30               // sete    byte [rsp + 48]
+	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
+	LONG $0x2454940f; BYTE $0x08               // sete    byte [rsp + 8]
+	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
+	WORD $0x940f; BYTE $0xd1                   // sete    cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x78               // movzx    esi, byte [rsp + 120]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xc000                               // add    al, al
+	LONG $0x48244402                           // add    al, byte [rsp + 72]
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	LONG $0x24348b48                           // mov    rsi, qword [rsp]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xc108                               // or    cl, al
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
+	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
+	LONG $0x04c68348                           // add    rsi, 4
+	LONG $0x24348948                           // mov    qword [rsp], rsi
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB2_128
+	LONG $0x241c8b4c                           // mov    r11, qword [rsp]
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	QUAD $0x0000008824b48b4c                   // mov    r14, qword [rsp + 136]
+	JMP  LBB2_147
+
+LBB2_130:
+	LONG $0x24048b48             // mov    rax, qword [rsp]
+	LONG $0x24448948; BYTE $0x68 // mov    qword [rsp + 104], rax
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+
+LBB2_131:
+	LONG $0x05e7c149             // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7     // cmp    r15, r10
+	JGE  LBB2_176
+	WORD $0x894d; BYTE $0xd0     // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8     // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7     // not    r15
+	WORD $0x014d; BYTE $0xd7     // add    r15, r10
+	JE   LBB2_137
+	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0x245c8b4c; BYTE $0x68 // mov    r11, qword [rsp + 104]
+
+LBB2_155:
+	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
+	LONG $0x0e343a46             // cmp    r14b, byte [rsi + r9]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x06743a44; BYTE $0x01 // cmp    r14b, byte [rsi + rax + 1]
+	LONG $0x02488d4c             // lea    r9, [rax + 2]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
+	JNE  LBB2_155
+	JMP  LBB2_158
+
+LBB2_134:
+	LONG $0x24048b48             // mov    rax, qword [rsp]
+	LONG $0x24448948; BYTE $0x68 // mov    qword [rsp + 104], rax
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+
+LBB2_135:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB2_176
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB2_156
+
+LBB2_137:
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB2_176
+	JMP  LBB2_160
+
+LBB2_138:
+	LONG $0x24048b48             // mov    rax, qword [rsp]
+	LONG $0x24448948; BYTE $0x08 // mov    qword [rsp + 8], rax
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+
+LBB2_139:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB2_176
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB2_170
+	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
+	JMP  LBB2_172
+
+LBB2_142:
+	LONG $0x24348b4c         // mov    r14, qword [rsp]
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+
+LBB2_143:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB2_176
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB2_177
+	WORD $0x3145; BYTE $0xff // xor    r15d, r15d
+	JMP  LBB2_179
+
+LBB2_146:
+	LONG $0x241c8b4c         // mov    r11, qword [rsp]
+	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
+
+LBB2_147:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xd6 // cmp    r14, r10
+	JGE  LBB2_176
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	JNE  LBB2_181
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB2_183
+
+LBB2_150:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+	LONG $0x241c8b4c         // mov    r11, qword [rsp]
+
+LBB2_151:
+	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x33048841             // mov    byte [r11 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_151
+
+LBB2_152:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB2_176
+	WORD $0x3b44; BYTE $0x2a // cmp    r13d, dword [rdx]
+	JMP  LBB2_169
+
+LBB2_156:
+	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0x245c8b4c; BYTE $0x68 // mov    r11, qword [rsp + 104]
+
+LBB2_157:
+	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
+	LONG $0x0e343a46             // cmp    r14b, byte [rsi + r9]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x06743a44; BYTE $0x01 // cmp    r14b, byte [rsi + rax + 1]
+	LONG $0x02488d4c             // lea    r9, [rax + 2]
+	WORD $0x940f; BYTE $0xd3     // sete    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
+	JNE  LBB2_157
+
+LBB2_158:
+	WORD $0x014c; BYTE $0xce // add    rsi, r9
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB2_176
+
+LBB2_160:
+	WORD $0x3a44; BYTE $0x36     // cmp    r14b, byte [rsi]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x24448b4c; BYTE $0x68 // mov    r8, qword [rsp + 104]
+	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
+	LONG $0x07e18041             // and    r9b, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
+	JMP  LBB2_174
+
+LBB2_161:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+	LONG $0x241c8b4c         // mov    r11, qword [rsp]
+
+LBB2_162:
+	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x422e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x33048841             // mov    byte [r11 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_162
+
+LBB2_163:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB2_176
+	LONG $0x022e0f66 // ucomisd    xmm0, qword [rdx]
+	JMP  LBB2_169
+
+LBB2_165:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+	LONG $0x241c8b4c         // mov    r11, qword [rsp]
+
+LBB2_166:
+	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x33 // movzx    r9d, byte [r11 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x331c8841             // mov    byte [r11 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x33048841             // mov    byte [r11 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB2_166
+
+LBB2_167:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB2_176
+	WORD $0x3b4c; BYTE $0x2a // cmp    r13, qword [rdx]
+
+LBB2_169:
+	WORD $0x940f; BYTE $0xd0 // sete    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x24048b4c         // mov    r8, qword [rsp]
+	LONG $0x10348a41         // mov    sil, byte [r8 + rdx]
+	LONG $0x07e78040         // and    dil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf989             // mov    ecx, edi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	JMP  LBB2_175
+
+LBB2_170:
+	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
+	LONG $0xfee18349             // and    r9, -2
+	WORD $0x3145; BYTE $0xf6     // xor    r14d, r14d
+	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
+
+LBB2_171:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x14b60f45; BYTE $0x3b // movzx    r10d, byte [r11 + rdi]
+	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	LONG $0x02c68349             // add    r14, 2
+	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xda30                 // xor    dl, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
+	JNE  LBB2_171
+
+LBB2_172:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB2_176
+	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
+	WORD $0x940f; BYTE $0xd0     // sete    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xf2     // mov    rdx, r14
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
+	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
+	LONG $0x07e68041             // and    r14b, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
+
+LBB2_174:
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+
+LBB2_175:
+	LONG $0x101c8841 // mov    byte [r8 + rdx], bl
+
+LBB2_176:
+	MOVQ 304(SP), SP
+	RET
+
+LBB2_177:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xff // xor    r15d, r15d
+
+LBB2_178:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x894c; BYTE $0xff     // mov    rdi, r15
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x14b60f45; BYTE $0x3e // movzx    r10d, byte [r14 + rdi]
+	WORD $0x8944; BYTE $0xf9     // mov    ecx, r15d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c78349             // add    r15, 2
+	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xda30                 // xor    dl, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x394d; BYTE $0xf9     // cmp    r9, r15
+	JNE  LBB2_178
+
+LBB2_179:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB2_176
+	LONG $0x2e3b4466         // cmp    r13w, word [rsi]
+	WORD $0x940f; BYTE $0xd0 // sete    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x894c; BYTE $0xfa // mov    rdx, r15
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x163c8a41         // mov    dil, byte [r14 + rdx]
+	LONG $0x07e78041         // and    r15b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xf9 // mov    ecx, r15d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
+	JMP  LBB2_176
+
+LBB2_181:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+
+LBB2_182:
+	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
+	WORD $0x940f; BYTE $0xd2     // sete    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	LONG $0x02c68348             // add    rsi, 2
+	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
+	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
+	LONG $0xd1940f41             // sete    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x2044; BYTE $0xca     // and    dl, r9b
+	WORD $0xc230                 // xor    dl, al
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_182
+
+LBB2_183:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB2_176
+	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
+	WORD $0x940f; BYTE $0xd0 // sete    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x133c8a41         // mov    dil, byte [r11 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
+	JMP  LBB2_176
+
+LBB2_185:
+	LONG $0xf0e78349                     // and    r15, -16
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	QUAD $0x000000f824848948             // mov    qword [rsp + 248], rax
+	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
+	LONG $0x24048b48                     // mov    rax, qword [rsp]
+	LONG $0xb8048d4a                     // lea    rax, [rax + 4*r15]
+	LONG $0x24448948; BYTE $0x68         // mov    qword [rsp + 104], rax
+	LONG $0xc6b60f41                     // movzx    eax, r14b
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
+	WORD $0xc031                         // xor    eax, eax
+
+LBB2_186:
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	LONG $0x05e7c148                           // shl    rdi, 5
+	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
+	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
+	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
+	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
+	WORD $0x8949; BYTE $0xfc                   // mov    r12, rdi
+	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
+	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
+	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
+	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
+	LONG $0x247c8948; BYTE $0x50               // mov    qword [rsp + 80], rdi
+	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
+	LONG $0x3a0cb60f                           // movzx    ecx, byte [rdx + rdi]
+	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
+	LONG $0x3a4cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rdi + 1]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	LONG $0x3a4cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rdi + 2]
+	LONG $0xf16e0f66                           // movd    xmm6, ecx
+	LONG $0x3a4cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rdi + 3]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	LONG $0x3a4cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rdi + 4]
+	LONG $0xc96e0f66                           // movd    xmm1, ecx
+	LONG $0x3a4cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rdi + 5]
+	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
+	LONG $0x3a4cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rdi + 6]
+	LONG $0xd96e0f66                           // movd    xmm3, ecx
+	LONG $0x3a4cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rdi + 7]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
+	LONG $0x3a4cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rdi + 8]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00010024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm0
+	LONG $0x3a4cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rdi + 9]
+	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
+	LONG $0x3a4cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rdi + 10]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
+	LONG $0x3a4cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rdi + 11]
+	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
+	LONG $0x3a4cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rdi + 12]
+	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
+	LONG $0x3a4cb60f; BYTE $0x0d               // movzx    ecx, byte [rdx + rdi + 13]
+	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
+	LONG $0x3a4cb60f; BYTE $0x0e               // movzx    ecx, byte [rdx + rdi + 14]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
+	LONG $0x247c8948; BYTE $0x40               // mov    qword [rsp + 64], rdi
+	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
+	LONG $0x20cd8349                           // or    r13, 32
+	LONG $0x246c894c; BYTE $0x18               // mov    qword [rsp + 24], r13
+	LONG $0x40ce8348                           // or    rsi, 64
+	LONG $0x24748948; BYTE $0x28               // mov    qword [rsp + 40], rsi
+	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
+	LONG $0x60c98348                           // or    rcx, 96
+	LONG $0x80ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 128
+	LONG $0xa0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 160
+	LONG $0xc0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 192
+	LONG $0xe0cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 224
+	LONG $0x00cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 256
+	LONG $0x20c98149; WORD $0x0001; BYTE $0x00 // or    r9, 288
+	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
+	LONG $0x40cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 320
+	LONG $0x245c8948; BYTE $0x78               // mov    qword [rsp + 120], rbx
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	LONG $0x60cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 352
+	LONG $0x245c8948; BYTE $0x50               // mov    qword [rsp + 80], rbx
+	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
+	LONG $0x80c88149; WORD $0x0001; BYTE $0x00 // or    r8, 384
+	LONG $0x2444894c; BYTE $0x60               // mov    qword [rsp + 96], r8
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x30               // mov    qword [rsp + 48], rax
+	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
+	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
+	LONG $0x01e00d48; WORD $0x0000             // or    rax, 480
+	QUAD $0x012a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r13], 1
+	QUAD $0x02323c203a0f4466                   // pinsrb    xmm15, byte [rdx + rsi], 2
+	LONG $0x244c8948; BYTE $0x20               // mov    qword [rsp + 32], rcx
+	QUAD $0x030a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rcx], 3
+	LONG $0x2474894c; BYTE $0x70               // mov    qword [rsp + 112], r14
+	QUAD $0x04323c203a0f4666                   // pinsrb    xmm15, byte [rdx + r14], 4
+	QUAD $0x0000008024bc894c                   // mov    qword [rsp + 128], r15
+	QUAD $0x053a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r15], 5
+	WORD $0x894c; BYTE $0xd7                   // mov    rdi, r10
+	QUAD $0x06123c203a0f4666                   // pinsrb    xmm15, byte [rdx + r10], 6
+	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
+	LONG $0x245c894c; BYTE $0x58               // mov    qword [rsp + 88], r11
+	QUAD $0x071a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r11], 7
+	QUAD $0x08223c203a0f4666                   // pinsrb    xmm15, byte [rdx + r12], 8
+	QUAD $0x090a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r9], 9
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x0a2a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r13], 10
+	QUAD $0x0b1a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rbx], 11
+	QUAD $0x0c023c203a0f4666                   // pinsrb    xmm15, byte [rdx + r8], 12
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0d323c203a0f4466                   // pinsrb    xmm15, byte [rdx + rsi], 13
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0e323c203a0f4466                   // pinsrb    xmm15, byte [rdx + rsi], 14
+	QUAD $0x0f023c203a0f4466                   // pinsrb    xmm15, byte [rdx + rax], 15
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	QUAD $0x011a6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r11 + 1], 1
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0201326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 1], 2
+	QUAD $0x03010a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 1], 3
+	QUAD $0x01326c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r14 + 1], 4
+	QUAD $0x013a6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rdx + r15 + 1], 5
+	QUAD $0x06013a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 1], 6
+	QUAD $0x01126c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r10 + 1], 7
+	QUAD $0x01226c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r12 + 1], 8
+	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
+	QUAD $0x000000c024a4894c                   // mov    qword [rsp + 192], r12
+	QUAD $0x010a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r9 + 1], 9
+	QUAD $0x012a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r13 + 1], 10
+	WORD $0x894d; BYTE $0xef                   // mov    r15, r13
+	QUAD $0x0b011a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 1], 11
+	QUAD $0x01026c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r8 + 1], 12
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x010a6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r9 + 1], 13
+	LONG $0x245c8b4c; BYTE $0x10               // mov    r11, qword [rsp + 16]
+	QUAD $0x011a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r11 + 1], 14
+	QUAD $0x0f01026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 1], 15
+	QUAD $0x00b0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 176]
+	LONG $0x740f4166; BYTE $0xe9               // pcmpeqb    xmm5, xmm9
+	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
+	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI2_10] */
+	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
+	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
+	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
+	LONG $0x74b60f42; WORD $0x0f22             // movzx    esi, byte [rdx + r12 + 15]
+	LONG $0x6e0f4466; BYTE $0xf6               // movd    xmm14, esi
+	LONG $0x740f4566; BYTE $0xf9               // pcmpeqb    xmm15, xmm9
+	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
+	QUAD $0x020274203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rdx + r8 + 2], 1
+	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
+	QUAD $0x021274203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rdx + r10 + 2], 2
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x03020a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 2], 3
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x04021a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 2], 4
+	QUAD $0x0000008024b48b48                   // mov    rsi, qword [rsp + 128]
+	QUAD $0x05023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 5
+	QUAD $0x06023a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 2], 6
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x07023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 7
+	QUAD $0x023274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r14 + 2], 8
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x022a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r13 + 2], 9
+	QUAD $0x023a74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r15 + 2], 10
+	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
+	QUAD $0x023274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r14 + 2], 11
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x023a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 2], 12
+	QUAD $0x020a74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rdx + r9 + 2], 13
+	QUAD $0x021a74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r11 + 2], 14
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	QUAD $0x0f020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 15
+	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
+	LONG $0x740f4166; BYTE $0xf1               // pcmpeqb    xmm6, xmm9
+	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI2_11] */
+	LONG $0xf0db0f66                           // pand    xmm6, xmm0
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x74b60f42; WORD $0x1022             // movzx    esi, byte [rdx + r12 + 16]
+	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
+	WORD $0x894c; BYTE $0xc6                   // mov    rsi, r8
+	QUAD $0x030254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r8 + 3], 1
+	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
+	QUAD $0x031254203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r10 + 3], 2
+	QUAD $0x03030a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 3], 3
+	QUAD $0x04031a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 3], 4
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x05030a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 3], 5
+	QUAD $0x0000008824bc8948                   // mov    qword [rsp + 136], rdi
+	QUAD $0x06033a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 3], 6
+	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
+	QUAD $0x030254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r8 + 3], 7
+	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
+	QUAD $0x031254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r10 + 3], 8
+	QUAD $0x032a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r13 + 3], 9
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x0a031a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 3], 10
+	QUAD $0x033254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r14 + 3], 11
+	QUAD $0x033a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 3], 12
+	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
+	QUAD $0x032254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 3], 13
+	QUAD $0x031a54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r11 + 3], 14
+	QUAD $0x030a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r9 + 3], 15
+	QUAD $0x0104324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 1
+	QUAD $0x0204024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 4], 2
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0304324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 3
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x0404324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 4
+	QUAD $0x05040a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 4], 5
+	QUAD $0x06043a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 4], 6
+	QUAD $0x04024c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r8 + 4], 7
+	QUAD $0x04124c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r10 + 4], 8
+	QUAD $0x042a4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r13 + 4], 9
+	QUAD $0x0a041a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 4], 10
+	QUAD $0x04324c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r14 + 4], 11
+	QUAD $0x043a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 4], 12
+	QUAD $0x04224c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r12 + 4], 13
+	QUAD $0x041a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r11 + 4], 14
+	QUAD $0x040a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r9 + 4], 15
+	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
+	LONG $0x244c894c; BYTE $0x38               // mov    qword [rsp + 56], r9
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	LONG $0x74b60f42; WORD $0x110a             // movzx    esi, byte [rdx + r9 + 17]
+	LONG $0xc66e0f66                           // movd    xmm0, esi
+	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI2_12] */
+	LONG $0xd5db0f66                           // pand    xmm2, xmm5
+	LONG $0x740f4166; BYTE $0xc9               // pcmpeqb    xmm1, xmm9
+	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI2_13] */
+	LONG $0xcddb0f66                           // pand    xmm1, xmm5
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	LONG $0x74b60f42; WORD $0x120a             // movzx    esi, byte [rdx + r9 + 18]
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x052a44203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r13 + 5], 1
+	QUAD $0x050244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rax + 5], 2
+	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
+	QUAD $0x051a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r11 + 5], 3
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x050244203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rdx + rax + 5], 4
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x053a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rdi + 5], 5
+	QUAD $0x0000008824848b4c                   // mov    r8, qword [rsp + 136]
+	QUAD $0x050244203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r8 + 5], 6
+	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
+	QUAD $0x051244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r10 + 5], 7
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x051a44203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rdx + rbx + 5], 8
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x053244203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rsi + 5], 9
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x053244203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + r14 + 5], 10
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x053a44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r15 + 5], 11
+	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
+	QUAD $0x052244203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r12 + 5], 12
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x053244203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rsi + 5], 13
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x053244203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rsi + 5], 14
+	QUAD $0x050a44203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + rcx + 5], 15
+	LONG $0x740f4566; BYTE $0xc1               // pcmpeqb    xmm8, xmm9
+	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI2_14] */
+	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
+	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
+	LONG $0x74b60f42; WORD $0x130a             // movzx    esi, byte [rdx + r9 + 19]
+	LONG $0xfe6e0f66                           // movd    xmm7, esi
+	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
+	LONG $0x74b60f42; WORD $0x140a             // movzx    esi, byte [rdx + r9 + 20]
+	LONG $0xf66e0f66                           // movd    xmm6, esi
+	QUAD $0x062a5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r13 + 6], 1
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x060a5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r9 + 6], 2
+	QUAD $0x061a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r11 + 6], 3
+	QUAD $0x0406025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 4
+	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
+	QUAD $0x05063a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 6], 5
+	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
+	QUAD $0x06025c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r8 + 6], 6
+	QUAD $0x06125c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r10 + 6], 7
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	QUAD $0x08061a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 6], 8
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0906025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 9
+	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
+	QUAD $0x06325c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r14 + 6], 10
+	WORD $0x894c; BYTE $0xfe                   // mov    rsi, r15
+	QUAD $0x063a5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r15 + 6], 11
+	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
+	QUAD $0x06225c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r12 + 6], 12
+	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
+	QUAD $0x06225c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r12 + 6], 13
+	LONG $0x24748b4c; BYTE $0x10               // mov    r14, qword [rsp + 16]
+	QUAD $0x06325c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r14 + 6], 14
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x06025c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r8 + 6], 15
+	QUAD $0x0000d024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 208]
+	QUAD $0x072a54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r13 + 7], 1
+	QUAD $0x070a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r9 + 7], 2
+	QUAD $0x071a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 7], 3
+	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
+	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
+	QUAD $0x070a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r9 + 7], 4
+	QUAD $0x05070a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 7], 5
+	QUAD $0x06073a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 7], 6
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x07070a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 7], 7
+	QUAD $0x071254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r10 + 7], 8
+	QUAD $0x09070254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 7], 9
+	QUAD $0x0a071a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 7], 10
+	QUAD $0x0b073254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 7], 11
+	QUAD $0x073a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 7], 12
+	QUAD $0x072254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 7], 13
+	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
+	QUAD $0x073254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r14 + 7], 14
+	QUAD $0x070254203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r8 + 7], 15
+	LONG $0x740f4166; BYTE $0xd9               // pcmpeqb    xmm3, xmm9
+	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI2_15] */
+	LONG $0xd9db0f66                           // pand    xmm3, xmm1
+	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
+	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
+	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI2_6] */
+	LONG $0xd1db0f66                           // pand    xmm2, xmm1
+	LONG $0xd3eb0f66                           // por    xmm2, xmm3
+	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
+	LONG $0xd66e0f66                           // movd    xmm2, esi
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x090a54203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rcx + 9], 1
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x091a54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r11 + 9], 2
+	QUAD $0x092a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r13 + 9], 3
+	QUAD $0x090a54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r9 + 9], 4
+	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
+	QUAD $0x092a54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r13 + 9], 5
+	QUAD $0x093a54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rdx + rdi + 9], 6
+	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
+	QUAD $0x090254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r8 + 9], 7
+	QUAD $0x091254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r10 + 9], 8
+	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x093254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rsi + 9], 9
+	QUAD $0x091a54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rbx + 9], 10
+	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x091254203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r10 + 9], 11
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x091a54203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rbx + 9], 12
+	QUAD $0x093a54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r15 + 9], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x093a54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + rdi + 9], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x093254203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rsi + 9], 15
+	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
+	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
+	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
+	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
+	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
+	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
+	LONG $0xde6e0f66                           // movd    xmm3, esi
+	QUAD $0x00010024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 256]
+	QUAD $0x01080a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 8], 1
+	QUAD $0x081a64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r11 + 8], 2
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x03080264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 8], 3
+	QUAD $0x080a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r9 + 8], 4
+	QUAD $0x082a64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r13 + 8], 5
+	QUAD $0x0000008824bc8b4c                   // mov    r15, qword [rsp + 136]
+	QUAD $0x083a64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r15 + 8], 6
+	QUAD $0x080264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r8 + 8], 7
+	QUAD $0x083264203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r14 + 8], 8
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x09083264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 8], 9
+	QUAD $0x082264203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r12 + 8], 10
+	QUAD $0x081264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r10 + 8], 11
+	QUAD $0x0c081a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 8], 12
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0d081a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 8], 13
+	QUAD $0x0e083a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 8], 14
+	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0f080a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 8], 15
+	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	QUAD $0x00a024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 160]
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x0a3a54203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rdi + 10], 1
+	QUAD $0x0a1a54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r11 + 10], 2
+	QUAD $0x0a0254203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rdx + rax + 10], 3
+	QUAD $0x0a0a54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r9 + 10], 4
+	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
+	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
+	QUAD $0x0a2a54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r13 + 10], 5
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	QUAD $0x0a3a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r15 + 10], 6
+	QUAD $0x0a0254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r8 + 10], 7
+	QUAD $0x0a3254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r14 + 10], 8
+	QUAD $0x0a3254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rsi + 10], 9
+	QUAD $0x0a2254203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r12 + 10], 10
+	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
+	QUAD $0x0a3254203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r14 + 10], 11
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x0a3a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r15 + 10], 12
+	QUAD $0x0a1a54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rbx + 10], 13
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	QUAD $0x0a1254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r10 + 10], 14
+	QUAD $0x0a0a54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rcx + 10], 15
+	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
+	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI2_11] */
+	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	LONG $0x0a74b60f; BYTE $0x17               // movzx    esi, byte [rdx + rcx + 23]
+	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
+	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
+	QUAD $0x00a024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm10
+	LONG $0x0a74b60f; BYTE $0x18               // movzx    esi, byte [rdx + rcx + 24]
+	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
+	QUAD $0x0b3a5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rdi + 11], 1
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0b0a5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rcx + 11], 2
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0b0a5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rdx + rcx + 11], 3
+	QUAD $0x0b025c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rax + 11], 4
+	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
+	QUAD $0x0b1a5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r11 + 11], 5
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	QUAD $0x0b0a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r9 + 11], 6
+	QUAD $0x0b025c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r8 + 11], 7
+	QUAD $0x000000c0248c8b4c                   // mov    r9, qword [rsp + 192]
+	QUAD $0x0b0a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r9 + 11], 8
+	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
+	QUAD $0x0b1a5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r11 + 11], 9
+	QUAD $0x0b225c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r12 + 11], 10
+	QUAD $0x0b325c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r14 + 11], 11
+	QUAD $0x0b3a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 11], 12
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	QUAD $0x0b1a5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rbx + 11], 13
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x0b225c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r12 + 11], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0b325c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rsi + 11], 15
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x0c2a6c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r13 + 12], 1
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0c1a6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rbx + 12], 2
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0c1a6c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rdx + rbx + 12], 3
+	QUAD $0x0c026c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rax + 12], 4
+	QUAD $0x0c0a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rcx + 12], 5
+	QUAD $0x0c3a6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rdx + rdi + 12], 6
+	QUAD $0x0c026c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r8 + 12], 7
+	QUAD $0x0c0a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r9 + 12], 8
+	QUAD $0x0c1a6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r11 + 12], 9
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x0c1a6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rbx + 12], 10
+	QUAD $0x0c326c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r14 + 12], 11
+	QUAD $0x0c3a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r15 + 12], 12
+	QUAD $0x0c126c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r10 + 12], 13
+	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
+	QUAD $0x0c226c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r12 + 12], 14
+	QUAD $0x0c326c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rsi + 12], 15
+	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
+	QUAD $0x0d1264203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r10 + 13], 1
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0d3264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rsi + 13], 2
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0d3264203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rdx + rsi + 13], 3
+	QUAD $0x0d0264203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rax + 13], 4
+	QUAD $0x0d0a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rcx + 13], 5
+	QUAD $0x0d3a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rdi + 13], 6
+	QUAD $0x0d0264203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r8 + 13], 7
+	QUAD $0x0d0a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r9 + 13], 8
+	QUAD $0x0d1a64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r11 + 13], 9
+	QUAD $0x0d1a64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rbx + 13], 10
+	QUAD $0x0d3264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r14 + 13], 11
+	QUAD $0x0d3a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r15 + 13], 12
+	QUAD $0x0d2a64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r13 + 13], 13
+	QUAD $0x0d2264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r12 + 13], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0d0264203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rax + 13], 15
+	LONG $0x740f4566; BYTE $0xd9               // pcmpeqb    xmm11, xmm9
+	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI2_12] */
+	LONG $0x740f4566; BYTE $0xe9               // pcmpeqb    xmm13, xmm9
+	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI2_13] */
+	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0x740f4566; BYTE $0xe1               // pcmpeqb    xmm12, xmm9
+	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI2_14] */
+	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
+	LONG $0x0274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rax + 26]
+	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
+	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
+	QUAD $0x0e1264203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rdx + r10 + 14], 1
+	WORD $0x894c; BYTE $0xd6                   // mov    rsi, r10
+	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
+	QUAD $0x0e2264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r12 + 14], 2
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x0e1264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r10 + 14], 3
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x0e2a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r13 + 14], 4
+	QUAD $0x050e0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 14], 5
+	QUAD $0x060e3a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 14], 6
+	QUAD $0x0e0264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r8 + 14], 7
+	QUAD $0x0e0a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r9 + 14], 8
+	QUAD $0x0e1a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r11 + 14], 9
+	QUAD $0x0a0e1a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 14], 10
+	QUAD $0x0e3264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 14], 11
+	QUAD $0x0e3a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 14], 12
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0d0e0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 14], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e0e0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 14], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0f0e0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 14], 15
+	QUAD $0x0f3274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rsi + 15], 1
+	QUAD $0x0f2274203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r12 + 15], 2
+	QUAD $0x0f1274203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r10 + 15], 3
+	QUAD $0x0f2a74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rdx + r13 + 15], 4
+	QUAD $0x0f0a74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rdx + rcx + 15], 5
+	QUAD $0x0f3a74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rdx + rdi + 15], 6
+	QUAD $0x0f0274203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rdx + r8 + 15], 7
+	QUAD $0x0f0a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r9 + 15], 8
+	QUAD $0x0f1a74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rdx + r11 + 15], 9
+	QUAD $0x0f1a74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + rbx + 15], 10
+	QUAD $0x0f3274203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + r14 + 15], 11
+	QUAD $0x0f3a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r15 + 15], 12
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0f3274203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rsi + 15], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0f0274203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + rax + 15], 14
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0f3274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rsi + 15], 15
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x10327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 16], 1
+	QUAD $0x10227c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r12 + 16], 2
+	QUAD $0x10127c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r10 + 16], 3
+	QUAD $0x102a7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r13 + 16], 4
+	QUAD $0x100a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rcx + 16], 5
+	QUAD $0x103a7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rdx + rdi + 16], 6
+	QUAD $0x10027c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r8 + 16], 7
+	QUAD $0x100a7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r9 + 16], 8
+	QUAD $0x101a7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r11 + 16], 9
+	QUAD $0x101a7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + rbx + 16], 10
+	QUAD $0x10327c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r14 + 16], 11
+	QUAD $0x103a7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r15 + 16], 12
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x10327c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rsi + 16], 13
+	QUAD $0x10027c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rax + 16], 14
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x01110244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 17], 1
+	QUAD $0x112244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r12 + 17], 2
+	QUAD $0x111244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r10 + 17], 3
+	QUAD $0x112a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r13 + 17], 4
+	QUAD $0x05110a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 17], 5
+	QUAD $0x06113a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 17], 6
+	QUAD $0x110244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r8 + 17], 7
+	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
+	QUAD $0x110a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r9 + 17], 8
+	QUAD $0x111a44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r11 + 17], 9
+	QUAD $0x0a111a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 17], 10
+	QUAD $0x113244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r14 + 17], 11
+	QUAD $0x113a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 17], 12
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0d113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 13
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0e113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 14
+	QUAD $0x00a024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 160]
+	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
+	LONG $0x74b60f42; WORD $0x1b22             // movzx    esi, byte [rdx + r12 + 27]
+	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
+	QUAD $0x00b024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 176]
+	LONG $0x740f4166; BYTE $0xe5               // pcmpeqb    xmm4, xmm13
+	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI2_15] */
+	LONG $0x740f4566; BYTE $0xf5               // pcmpeqb    xmm14, xmm13
+	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
+	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
+	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
+	LONG $0x74b60f42; WORD $0x1c22             // movzx    esi, byte [rdx + r12 + 28]
+	LONG $0xe66e0f66                           // movd    xmm4, esi
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x110244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r8 + 17], 15
+	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
+	LONG $0x740f4166; BYTE $0xc5               // pcmpeqb    xmm0, xmm13
+	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
+	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI2_10] */
+	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
+	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
+	QUAD $0x00a024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm13
+	LONG $0x74b60f42; WORD $0x1d22             // movzx    esi, byte [rdx + r12 + 29]
+	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
+	QUAD $0x10027c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r8 + 16], 15
+	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
+	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
+	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
+	QUAD $0x12226c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r12 + 18], 1
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0212326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 2
+	QUAD $0x12126c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r10 + 18], 3
+	QUAD $0x122a6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r13 + 18], 4
+	QUAD $0x05120a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 18], 5
+	QUAD $0x06123a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 18], 6
+	QUAD $0x0712026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 18], 7
+	QUAD $0x120a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r9 + 18], 8
+	QUAD $0x121a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r11 + 18], 9
+	QUAD $0x0a121a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 18], 10
+	QUAD $0x12326c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r14 + 18], 11
+	QUAD $0x123a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 18], 12
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0d12326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 13
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0e12326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 14
+	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
+	QUAD $0x12026c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r8 + 18], 15
+	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
+	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI2_11] */
+	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
+	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
+	QUAD $0x13227c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rdx + r12 + 19], 1
+	QUAD $0x142274203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rdx + r12 + 20], 1
+	QUAD $0x152254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r12 + 21], 1
+	QUAD $0x16225c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r12 + 22], 1
+	QUAD $0x172244203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r12 + 23], 1
+	QUAD $0x182254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r12 + 24], 1
+	QUAD $0x19224c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rdx + r12 + 25], 1
+	QUAD $0x1a225c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r12 + 26], 1
+	QUAD $0x1b224c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rdx + r12 + 27], 1
+	QUAD $0x1c2264203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rdx + r12 + 28], 1
+	QUAD $0x1d226c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r12 + 29], 1
+	QUAD $0x1e2264203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r12 + 30], 1
+	LONG $0x0274b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rax + 31]
+	LONG $0xc66e0f66                           // movd    xmm0, esi
+	QUAD $0x1f2244203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rdx + r12 + 31], 1
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0213327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 19], 2
+	QUAD $0x02143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 2
+	QUAD $0x02153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 2
+	QUAD $0x0216325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 22], 2
+	QUAD $0x173244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rsi + 23], 2
+	QUAD $0x183254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rsi + 24], 2
+	QUAD $0x0219324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 25], 2
+	QUAD $0x1a325c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rsi + 26], 2
+	QUAD $0x1b324c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rsi + 27], 2
+	QUAD $0x021c3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 28], 2
+	QUAD $0x1d326c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rsi + 29], 2
+	QUAD $0x1e3264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rsi + 30], 2
+	QUAD $0x021f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 2
+	QUAD $0x13127c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r10 + 19], 3
+	QUAD $0x132a7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r13 + 19], 4
+	QUAD $0x05130a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 19], 5
+	QUAD $0x06133a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 19], 6
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0713027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 19], 7
+	QUAD $0x130a7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r9 + 19], 8
+	QUAD $0x131a7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r11 + 19], 9
+	QUAD $0x0a131a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 19], 10
+	QUAD $0x13327c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r14 + 19], 11
+	QUAD $0x133a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 19], 12
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0d13327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 19], 13
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x13227c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r12 + 19], 14
+	QUAD $0x13027c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r8 + 19], 15
+	QUAD $0x141274203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r10 + 20], 3
+	QUAD $0x142a74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r13 + 20], 4
+	QUAD $0x05140a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 20], 5
+	QUAD $0x06143a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 20], 6
+	QUAD $0x07140274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 20], 7
+	QUAD $0x140a74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r9 + 20], 8
+	QUAD $0x141a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r11 + 20], 9
+	QUAD $0x0a141a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 20], 10
+	QUAD $0x143274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r14 + 20], 11
+	QUAD $0x143a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 20], 12
+	QUAD $0x0d143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 13
+	QUAD $0x142274203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r12 + 20], 14
+	QUAD $0x0000a024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 160]
+	QUAD $0x140274203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r8 + 20], 15
+	QUAD $0x00b024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 176]
+	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
+	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI2_12] */
+	LONG $0x740f4166; BYTE $0xf7               // pcmpeqb    xmm6, xmm15
+	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI2_13] */
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	QUAD $0x151254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r10 + 21], 3
+	QUAD $0x152a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r13 + 21], 4
+	QUAD $0x05150a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 21], 5
+	QUAD $0x06153a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 21], 6
+	QUAD $0x07150254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 21], 7
+	QUAD $0x150a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r9 + 21], 8
+	QUAD $0x151a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r11 + 21], 9
+	QUAD $0x0a151a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 21], 10
+	QUAD $0x153254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r14 + 21], 11
+	QUAD $0x153a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 21], 12
+	QUAD $0x0d153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 13
+	QUAD $0x152254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r12 + 21], 14
+	QUAD $0x150254203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r8 + 21], 15
+	LONG $0x740f4166; BYTE $0xd7               // pcmpeqb    xmm2, xmm15
+	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI2_14] */
+	LONG $0xd7db0f66                           // pand    xmm2, xmm7
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	LONG $0xd5eb0f66                           // por    xmm2, xmm5
+	QUAD $0x16125c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r10 + 22], 3
+	QUAD $0x162a5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r13 + 22], 4
+	QUAD $0x05160a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 22], 5
+	QUAD $0x06163a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 22], 6
+	QUAD $0x0716025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 22], 7
+	QUAD $0x160a5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r9 + 22], 8
+	QUAD $0x161a5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r11 + 22], 9
+	QUAD $0x0a161a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 22], 10
+	QUAD $0x16325c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r14 + 22], 11
+	QUAD $0x163a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r15 + 22], 12
+	QUAD $0x0d16325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 22], 13
+	QUAD $0x16225c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r12 + 22], 14
+	QUAD $0x16025c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r8 + 22], 15
+	QUAD $0x171244203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r10 + 23], 3
+	QUAD $0x172a44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r13 + 23], 4
+	QUAD $0x170a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rcx + 23], 5
+	QUAD $0x173a44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rdx + rdi + 23], 6
+	QUAD $0x170244203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rdx + rax + 23], 7
+	QUAD $0x170a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r9 + 23], 8
+	QUAD $0x171a44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rdx + r11 + 23], 9
+	QUAD $0x171a44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rbx + 23], 10
+	QUAD $0x173244203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r14 + 23], 11
+	QUAD $0x173a44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r15 + 23], 12
+	QUAD $0x173244203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rsi + 23], 13
+	QUAD $0x172244203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + r12 + 23], 14
+	QUAD $0x170244203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r8 + 23], 15
+	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
+	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI2_15] */
+	LONG $0xdddb0f66                           // pand    xmm3, xmm5
+	LONG $0x740f4566; BYTE $0xc7               // pcmpeqb    xmm8, xmm15
+	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
+	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI2_6] */
+	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
+	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
+	QUAD $0x19124c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r10 + 25], 3
+	QUAD $0x192a4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r13 + 25], 4
+	QUAD $0x05190a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 25], 5
+	QUAD $0x06193a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 25], 6
+	QUAD $0x0719024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 25], 7
+	QUAD $0x190a4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r9 + 25], 8
+	QUAD $0x191a4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r11 + 25], 9
+	QUAD $0x0a191a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 25], 10
+	QUAD $0x19324c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r14 + 25], 11
+	QUAD $0x193a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 25], 12
+	QUAD $0x0d19324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 25], 13
+	QUAD $0x19224c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r12 + 25], 14
+	QUAD $0x19024c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r8 + 25], 15
+	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
+	LONG $0x740f4166; BYTE $0xcf               // pcmpeqb    xmm1, xmm15
+	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
+	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI2_10] */
+	LONG $0xd3db0f66                           // pand    xmm2, xmm3
+	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
+	QUAD $0x181254203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r10 + 24], 3
+	QUAD $0x182a54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r13 + 24], 4
+	QUAD $0x180a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rcx + 24], 5
+	QUAD $0x183a54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rdx + rdi + 24], 6
+	QUAD $0x180254203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rax + 24], 7
+	QUAD $0x180a54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r9 + 24], 8
+	QUAD $0x181a54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rdx + r11 + 24], 9
+	QUAD $0x181a54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rbx + 24], 10
+	QUAD $0x183254203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r14 + 24], 11
+	QUAD $0x183a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r15 + 24], 12
+	QUAD $0x183254203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rsi + 24], 13
+	QUAD $0x182254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r12 + 24], 14
+	QUAD $0x180254203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r8 + 24], 15
+	LONG $0x740f4566; BYTE $0xd7               // pcmpeqb    xmm10, xmm15
+	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
+	QUAD $0x1a125c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r10 + 26], 3
+	QUAD $0x1a2a5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r13 + 26], 4
+	QUAD $0x1a0a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rcx + 26], 5
+	QUAD $0x1a3a5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rdx + rdi + 26], 6
+	QUAD $0x1a025c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rax + 26], 7
+	QUAD $0x1a0a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r9 + 26], 8
+	QUAD $0x1a1a5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r11 + 26], 9
+	QUAD $0x1a1a5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rbx + 26], 10
+	QUAD $0x1a325c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r14 + 26], 11
+	QUAD $0x1a3a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 26], 12
+	QUAD $0x1a325c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rsi + 26], 13
+	QUAD $0x1a225c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r12 + 26], 14
+	QUAD $0x1a025c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r8 + 26], 15
+	LONG $0x740f4566; BYTE $0xdf               // pcmpeqb    xmm11, xmm15
+	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI2_11] */
+	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
+	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
+	QUAD $0x1b124c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r10 + 27], 3
+	QUAD $0x1b2a4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r13 + 27], 4
+	QUAD $0x1b0a4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rcx + 27], 5
+	QUAD $0x1b3a4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rdx + rdi + 27], 6
+	QUAD $0x1b024c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rdx + rax + 27], 7
+	QUAD $0x1b0a4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r9 + 27], 8
+	QUAD $0x1b1a4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r11 + 27], 9
+	QUAD $0x1b1a4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + rbx + 27], 10
+	QUAD $0x1b324c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r14 + 27], 11
+	QUAD $0x1b3a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r15 + 27], 12
+	QUAD $0x1b324c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rsi + 27], 13
+	QUAD $0x1b224c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r12 + 27], 14
+	QUAD $0x1b024c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r8 + 27], 15
+	QUAD $0x1c1264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r10 + 28], 3
+	QUAD $0x1c2a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r13 + 28], 4
+	QUAD $0x051c0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 28], 5
+	QUAD $0x061c3a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 28], 6
+	QUAD $0x071c0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 28], 7
+	QUAD $0x1c0a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r9 + 28], 8
+	QUAD $0x1c1a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r11 + 28], 9
+	QUAD $0x0a1c1a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 28], 10
+	QUAD $0x1c3264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 28], 11
+	QUAD $0x1c3a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 28], 12
+	QUAD $0x0d1c3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 28], 13
+	QUAD $0x1c2264203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r12 + 28], 14
+	QUAD $0x1c0264203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r8 + 28], 15
+	QUAD $0x1d126c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r10 + 29], 3
+	QUAD $0x1d2a6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r13 + 29], 4
+	QUAD $0x1d0a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rcx + 29], 5
+	QUAD $0x1d3a6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rdx + rdi + 29], 6
+	QUAD $0x1d026c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rdx + rax + 29], 7
+	QUAD $0x1d0a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r9 + 29], 8
+	QUAD $0x1d1a6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r11 + 29], 9
+	QUAD $0x1d1a6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rbx + 29], 10
+	QUAD $0x1d326c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r14 + 29], 11
+	QUAD $0x1d3a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r15 + 29], 12
+	QUAD $0x1d326c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + rsi + 29], 13
+	QUAD $0x1d226c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r12 + 29], 14
+	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
+	LONG $0x740f4566; BYTE $0xcf               // pcmpeqb    xmm9, xmm15
+	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI2_12] */
+	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
+	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI2_13] */
+	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
+	QUAD $0x1d026c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + r8 + 29], 15
+	LONG $0x740f4566; BYTE $0xef               // pcmpeqb    xmm13, xmm15
+	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
+	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
+	QUAD $0x1e1264203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r10 + 30], 3
+	QUAD $0x1f1244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r10 + 31], 3
+	QUAD $0x1e2a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r13 + 30], 4
+	QUAD $0x1f2a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r13 + 31], 4
+	QUAD $0x1e0a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rcx + 30], 5
+	QUAD $0x051f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 31], 5
+	QUAD $0x1e3a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rdi + 30], 6
+	QUAD $0x061f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 31], 6
+	QUAD $0x1e0264203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rax + 30], 7
+	QUAD $0x071f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 31], 7
+	QUAD $0x1e0a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r9 + 30], 8
+	QUAD $0x1f0a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r9 + 31], 8
+	QUAD $0x1e1a64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r11 + 30], 9
+	QUAD $0x1f1a44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r11 + 31], 9
+	QUAD $0x1e1a64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rbx + 30], 10
+	QUAD $0x0a1f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 31], 10
+	QUAD $0x1e3264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r14 + 30], 11
+	QUAD $0x1f3244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r14 + 31], 11
+	QUAD $0x1e3a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r15 + 30], 12
+	QUAD $0x1f3a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 31], 12
+	QUAD $0x1e3264203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rsi + 30], 13
+	QUAD $0x0d1f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 13
+	QUAD $0x1e2264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r12 + 30], 14
+	QUAD $0x1f2244203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r12 + 31], 14
+	QUAD $0x1e0264203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r8 + 30], 15
+	QUAD $0x1f0244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r8 + 31], 15
+	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
+	LONG $0x740f4566; BYTE $0xe7               // pcmpeqb    xmm12, xmm15
+	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
+	LONG $0x740f4166; BYTE $0xc7               // pcmpeqb    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
+	LONG $0xc6db0f66                           // pand    xmm0, xmm6
+	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
+	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
+	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
+	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
+	QUAD $0x0000d024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 208]
+	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
+	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
+	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
+	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
+	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
+	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
+	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
+	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	LONG $0x24048b48                           // mov    rax, qword [rsp]
+	LONG $0x647f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm4
+	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
+	LONG $0x547f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm2
+	LONG $0x1c7f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm3
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
+	JNE  LBB2_186
+	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
+	QUAD $0x000000e824bc3b4c                   // cmp    r15, qword [rsp + 232]
+	LONG $0x24748a44; BYTE $0x08               // mov    r14b, byte [rsp + 8]
+	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	JNE  LBB2_43
+	JMP  LBB2_131
+
+LBB2_188:
+	LONG $0xf0e78349                     // and    r15, -16
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	QUAD $0x000000f824848948             // mov    qword [rsp + 248], rax
+	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
+	LONG $0x24048b48                     // mov    rax, qword [rsp]
+	LONG $0xb8048d4a                     // lea    rax, [rax + 4*r15]
+	LONG $0x24448948; BYTE $0x68         // mov    qword [rsp + 104], rax
+	LONG $0xc6b60f41                     // movzx    eax, r14b
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
+	WORD $0xc031                         // xor    eax, eax
+
+LBB2_189:
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	LONG $0x05e7c149                           // shl    r15, 5
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
+	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
+	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
+	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
+	LONG $0x247c894c; BYTE $0x20               // mov    qword [rsp + 32], r15
+	LONG $0x34b60f42; BYTE $0x3a               // movzx    esi, byte [rdx + r15]
+	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
+	LONG $0x74b60f42; WORD $0x013a             // movzx    esi, byte [rdx + r15 + 1]
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	LONG $0x74b60f42; WORD $0x023a             // movzx    esi, byte [rdx + r15 + 2]
+	LONG $0xf66e0f66                           // movd    xmm6, esi
+	LONG $0x74b60f42; WORD $0x033a             // movzx    esi, byte [rdx + r15 + 3]
+	LONG $0xd66e0f66                           // movd    xmm2, esi
+	LONG $0x74b60f42; WORD $0x043a             // movzx    esi, byte [rdx + r15 + 4]
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0x74b60f42; WORD $0x053a             // movzx    esi, byte [rdx + r15 + 5]
+	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
+	LONG $0x74b60f42; WORD $0x063a             // movzx    esi, byte [rdx + r15 + 6]
+	LONG $0xde6e0f66                           // movd    xmm3, esi
+	LONG $0x74b60f42; WORD $0x073a             // movzx    esi, byte [rdx + r15 + 7]
+	LONG $0xc66e0f66                           // movd    xmm0, esi
+	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
+	LONG $0x74b60f42; WORD $0x083a             // movzx    esi, byte [rdx + r15 + 8]
+	LONG $0xc66e0f66                           // movd    xmm0, esi
+	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
+	LONG $0x74b60f42; WORD $0x093a             // movzx    esi, byte [rdx + r15 + 9]
+	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
+	LONG $0x74b60f42; WORD $0x0a3a             // movzx    esi, byte [rdx + r15 + 10]
+	LONG $0xc66e0f66                           // movd    xmm0, esi
+	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
+	LONG $0x74b60f42; WORD $0x0b3a             // movzx    esi, byte [rdx + r15 + 11]
+	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
+	LONG $0x74b60f42; WORD $0x0c3a             // movzx    esi, byte [rdx + r15 + 12]
+	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
+	LONG $0x74b60f42; WORD $0x0d3a             // movzx    esi, byte [rdx + r15 + 13]
+	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
+	LONG $0x74b60f42; WORD $0x0e3a             // movzx    esi, byte [rdx + r15 + 14]
+	LONG $0xc66e0f66                           // movd    xmm0, esi
+	QUAD $0x00010024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm0
+	LONG $0x247c894c; BYTE $0x38               // mov    qword [rsp + 56], r15
+	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
+	LONG $0x20ce8349                           // or    r14, 32
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x40cb8348                           // or    rbx, 64
+	LONG $0x245c8948; BYTE $0x48               // mov    qword [rsp + 72], rbx
+	LONG $0x60c88348                           // or    rax, 96
+	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
+	LONG $0x80c98148; WORD $0x0000; BYTE $0x00 // or    rcx, 128
+	LONG $0xa0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 160
+	LONG $0xc0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 192
+	LONG $0xe0c98149; WORD $0x0000; BYTE $0x00 // or    r9, 224
+	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
+	LONG $0x20cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 288
+	LONG $0x2464894c; BYTE $0x40               // mov    qword [rsp + 64], r12
+	LONG $0x40ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 320
+	LONG $0x2454894c; BYTE $0x58               // mov    qword [rsp + 88], r10
+	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
+	LONG $0x60ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 352
+	LONG $0x2454894c; BYTE $0x50               // mov    qword [rsp + 80], r10
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	LONG $0x80cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 384
+	WORD $0x894c; BYTE $0xfe                   // mov    rsi, r15
+	LONG $0xa0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 416
+	LONG $0x24748948; BYTE $0x10               // mov    qword [rsp + 16], rsi
+	LONG $0xc0cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 448
+	LONG $0x246c894c; BYTE $0x18               // mov    qword [rsp + 24], r13
+	WORD $0x894c; BYTE $0xfe                   // mov    rsi, r15
+	LONG $0xe0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 480
+	LONG $0x24748948; BYTE $0x28               // mov    qword [rsp + 40], rsi
+	QUAD $0x01323c203a0f4666                   // pinsrb    xmm15, byte [rdx + r14], 1
+	QUAD $0x021a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rbx], 2
+	QUAD $0x03023c203a0f4466                   // pinsrb    xmm15, byte [rdx + rax], 3
+	QUAD $0x00000080248c8948                   // mov    qword [rsp + 128], rcx
+	QUAD $0x040a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rcx], 4
+	QUAD $0x053a3c203a0f4466                   // pinsrb    xmm15, byte [rdx + rdi], 5
+	LONG $0x2444894c; BYTE $0x60               // mov    qword [rsp + 96], r8
+	QUAD $0x06023c203a0f4666                   // pinsrb    xmm15, byte [rdx + r8], 6
+	QUAD $0x000000d0248c894c                   // mov    qword [rsp + 208], r9
+	QUAD $0x070a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r9], 7
+	LONG $0x245c894c; BYTE $0x78               // mov    qword [rsp + 120], r11
+	QUAD $0x081a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r11], 8
+	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
+	QUAD $0x09323c203a0f4666                   // pinsrb    xmm15, byte [rdx + r14], 9
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0a3a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r15], 10
+	QUAD $0x0b123c203a0f4666                   // pinsrb    xmm15, byte [rdx + r10], 11
+	LONG $0x2464894c; BYTE $0x20               // mov    qword [rsp + 32], r12
+	QUAD $0x0c223c203a0f4666                   // pinsrb    xmm15, byte [rdx + r12], 12
+	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
+	QUAD $0x0d123c203a0f4666                   // pinsrb    xmm15, byte [rdx + r10], 13
+	QUAD $0x0e2a3c203a0f4666                   // pinsrb    xmm15, byte [rdx + r13], 14
+	QUAD $0x0f323c203a0f4466                   // pinsrb    xmm15, byte [rdx + rsi], 15
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x01011a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 1], 1
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x02011a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 1], 2
+	QUAD $0x0301026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 1], 3
+	QUAD $0x04010a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 1], 4
+	QUAD $0x05013a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 1], 5
+	QUAD $0x01026c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r8 + 1], 6
+	QUAD $0x010a6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r9 + 1], 7
+	QUAD $0x011a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r11 + 1], 8
+	QUAD $0x01326c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r14 + 1], 9
+	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
+	QUAD $0x013a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r15 + 1], 10
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0b010a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 1], 11
+	QUAD $0x01226c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r12 + 1], 12
+	QUAD $0x01126c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r10 + 1], 13
+	QUAD $0x012a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r13 + 1], 14
+	QUAD $0x0f01326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 1], 15
+	QUAD $0x00b0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 176]
+	LONG $0x740f4166; BYTE $0xe9               // pcmpeqb    xmm5, xmm9
+	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
+	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI2_10] */
+	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
+	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
+	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
+	LONG $0x74b60f42; WORD $0x0f2a             // movzx    esi, byte [rdx + r13 + 15]
+	LONG $0x6e0f4466; BYTE $0xf6               // movd    xmm14, esi
+	LONG $0x740f4566; BYTE $0xf9               // pcmpeqb    xmm15, xmm9
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x01020a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 2], 1
+	QUAD $0x02021a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 2], 2
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x021a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 2], 3
+	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
+	QUAD $0x020274203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r8 + 2], 4
+	QUAD $0x05023a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 2], 5
+	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
+	QUAD $0x022274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r12 + 2], 6
+	QUAD $0x000000d024b48b4c                   // mov    r14, qword [rsp + 208]
+	QUAD $0x023274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r14 + 2], 7
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	QUAD $0x023a74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r15 + 2], 8
+	QUAD $0x09020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 9
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x0a023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 10
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x021274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r10 + 2], 11
+	LONG $0x244c8b4c; BYTE $0x20               // mov    r9, qword [rsp + 32]
+	QUAD $0x020a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r9 + 2], 12
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0d023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 13
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x0e023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 14
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0f023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 15
+	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
+	LONG $0x740f4166; BYTE $0xf1               // pcmpeqb    xmm6, xmm9
+	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI2_11] */
+	LONG $0xf0db0f66                           // pand    xmm6, xmm0
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x74b60f42; WORD $0x102a             // movzx    esi, byte [rdx + r13 + 16]
+	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
+	QUAD $0x01030a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 3], 1
+	QUAD $0x02031a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 3], 2
+	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
+	QUAD $0x031a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 3], 3
+	QUAD $0x030254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r8 + 3], 4
+	QUAD $0x0000008824bc8948                   // mov    qword [rsp + 136], rdi
+	QUAD $0x05033a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 3], 5
+	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
+	QUAD $0x032254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r12 + 3], 6
+	QUAD $0x033254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 3], 7
+	WORD $0x894c; BYTE $0xfe                   // mov    rsi, r15
+	QUAD $0x033a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r15 + 3], 8
+	QUAD $0x09030254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 3], 9
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x033a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r15 + 3], 10
+	QUAD $0x031254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r10 + 3], 11
+	QUAD $0x030a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 3], 12
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x032254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 3], 13
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0e030254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 3], 14
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0f030254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 3], 15
+	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
+	QUAD $0x042a4c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rdx + r13 + 4], 1
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x02041a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 4], 2
+	QUAD $0x03040a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 4], 3
+	QUAD $0x04024c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r8 + 4], 4
+	QUAD $0x05043a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 4], 5
+	QUAD $0x041a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r11 + 4], 6
+	QUAD $0x04324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 4], 7
+	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
+	QUAD $0x0804324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 8
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0904324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 4], 9
+	QUAD $0x043a4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r15 + 4], 10
+	QUAD $0x04124c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r10 + 4], 11
+	WORD $0x894d; BYTE $0xd7                   // mov    r15, r10
+	QUAD $0x040a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r9 + 4], 12
+	QUAD $0x04224c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r12 + 4], 13
+	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
+	QUAD $0x0e041a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 4], 14
+	QUAD $0x0f04024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 4], 15
+	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	LONG $0x3a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rdi + 17]
+	LONG $0xc66e0f66                           // movd    xmm0, esi
+	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI2_12] */
+	LONG $0xd5db0f66                           // pand    xmm2, xmm5
+	LONG $0x740f4166; BYTE $0xc9               // pcmpeqb    xmm1, xmm9
+	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI2_13] */
+	LONG $0xcddb0f66                           // pand    xmm1, xmm5
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	LONG $0x3a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rdi + 18]
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
+	QUAD $0x052a44203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r13 + 5], 1
+	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
+	QUAD $0x051a44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rdx + r11 + 5], 2
+	QUAD $0x050a44203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rdx + rcx + 5], 3
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x053244203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r14 + 5], 4
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x050a44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rdx + r9 + 5], 5
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x050244203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rdx + rax + 5], 6
+	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
+	QUAD $0x050244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r8 + 5], 7
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x050244203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r8 + 5], 8
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x053244203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rsi + 5], 9
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x053244203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rsi + 5], 10
+	QUAD $0x053a44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r15 + 5], 11
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x052244203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r12 + 5], 12
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x053244203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rsi + 5], 13
+	QUAD $0x051a44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rbx + 5], 14
+	QUAD $0x051244203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r10 + 5], 15
+	LONG $0x740f4566; BYTE $0xc1               // pcmpeqb    xmm8, xmm9
+	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI2_14] */
+	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
+	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
+	LONG $0x3a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rdi + 19]
+	LONG $0xfe6e0f66                           // movd    xmm7, esi
+	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
+	LONG $0x3a74b60f; BYTE $0x14               // movzx    esi, byte [rdx + rdi + 20]
+	LONG $0xf66e0f66                           // movd    xmm6, esi
+	QUAD $0x062a5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r13 + 6], 1
+	WORD $0x894c; BYTE $0xde                   // mov    rsi, r11
+	QUAD $0x061a5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r11 + 6], 2
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x06125c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r10 + 6], 3
+	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
+	QUAD $0x06325c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r14 + 6], 4
+	QUAD $0x060a5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r9 + 6], 5
+	QUAD $0x0606025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 6
+	QUAD $0x07060a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 6], 7
+	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
+	QUAD $0x06025c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r8 + 6], 8
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x09063a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 6], 9
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x063a5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r15 + 6], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b06025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 11
+	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
+	QUAD $0x06225c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r12 + 6], 12
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x06225c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r12 + 6], 13
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x0e060a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 6], 14
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0f060a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 6], 15
+	QUAD $0x0000c024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 192]
+	QUAD $0x072a54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r13 + 7], 1
+	QUAD $0x02073254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 7], 2
+	WORD $0x8949; BYTE $0xf5                   // mov    r13, rsi
+	QUAD $0x071254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r10 + 7], 3
+	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
+	QUAD $0x071a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r11 + 7], 4
+	QUAD $0x070a54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r9 + 7], 5
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x06070a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 7], 6
+	QUAD $0x073254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 7], 7
+	QUAD $0x070254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r8 + 7], 8
+	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
+	QUAD $0x09073a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 7], 9
+	QUAD $0x073a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r15 + 7], 10
+	QUAD $0x0b070254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 7], 11
+	QUAD $0x0c071a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 7], 12
+	QUAD $0x072254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 7], 13
+	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
+	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
+	QUAD $0x072254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r12 + 7], 14
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0f071a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 7], 15
+	LONG $0x740f4166; BYTE $0xd9               // pcmpeqb    xmm3, xmm9
+	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI2_15] */
+	LONG $0xd9db0f66                           // pand    xmm3, xmm1
+	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
+	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
+	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI2_6] */
+	LONG $0xd1db0f66                           // pand    xmm2, xmm1
+	LONG $0xd3eb0f66                           // por    xmm2, xmm3
+	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
+	LONG $0xd66e0f66                           // movd    xmm2, esi
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x090a54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r9 + 9], 1
+	QUAD $0x092a54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r13 + 9], 2
+	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
+	QUAD $0x090254203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r8 + 9], 3
+	QUAD $0x091254203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r10 + 9], 4
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x093a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rdi + 9], 5
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x092a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r13 + 9], 6
+	QUAD $0x093254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r14 + 9], 7
+	QUAD $0x090a54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rdx + rcx + 9], 8
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x093254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rsi + 9], 9
+	QUAD $0x093a54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r15 + 9], 10
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x093254203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rsi + 9], 11
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x093254203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rsi + 9], 12
+	QUAD $0x091a54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r11 + 9], 13
+	QUAD $0x092254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r12 + 9], 14
+	QUAD $0x091a54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rbx + 9], 15
+	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
+	QUAD $0x0000c0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm1
+	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
+	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
+	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
+	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
+	LONG $0xde6e0f66                           // movd    xmm3, esi
+	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
+	QUAD $0x080a64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rdx + r9 + 8], 1
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x082264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r12 + 8], 2
+	QUAD $0x080264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r8 + 8], 3
+	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
+	QUAD $0x081264203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r10 + 8], 4
+	QUAD $0x05083a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 8], 5
+	QUAD $0x082a64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r13 + 8], 6
+	QUAD $0x083264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r14 + 8], 7
+	QUAD $0x08080a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 8], 8
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x09081a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 8], 9
+	QUAD $0x083a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r15 + 8], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b080264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 8], 11
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0c083264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 8], 12
+	QUAD $0x081a64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r11 + 8], 13
+	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
+	QUAD $0x081264203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r10 + 8], 14
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x0f080a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 8], 15
+	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	QUAD $0x00a024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 160]
+	QUAD $0x0a0a54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r9 + 10], 1
+	QUAD $0x0a2254203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r12 + 10], 2
+	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
+	QUAD $0x0a0a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r9 + 10], 3
+	QUAD $0x0a0254203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r8 + 10], 4
+	QUAD $0x0a3a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rdi + 10], 5
+	QUAD $0x0a2a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r13 + 10], 6
+	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
+	QUAD $0x0a3254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r14 + 10], 7
+	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x0a3254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r14 + 10], 8
+	QUAD $0x0a1a54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rbx + 10], 9
+	QUAD $0x0a3a54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r15 + 10], 10
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	QUAD $0x0a0254203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rax + 10], 11
+	QUAD $0x0a3254203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rsi + 10], 12
+	QUAD $0x0a1a54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r11 + 10], 13
+	QUAD $0x0a1254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r10 + 10], 14
+	QUAD $0x0a0a54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rcx + 10], 15
+	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
+	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI2_11] */
+	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	LONG $0x0a74b60f; BYTE $0x17               // movzx    esi, byte [rdx + rcx + 23]
+	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
+	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
+	QUAD $0x00a024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm10
+	LONG $0x0a74b60f; BYTE $0x18               // movzx    esi, byte [rdx + rcx + 24]
+	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x0b125c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r10 + 11], 1
+	QUAD $0x0b225c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rdx + r12 + 11], 2
+	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
+	QUAD $0x0b0a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r9 + 11], 3
+	QUAD $0x00000080249c8b4c                   // mov    r11, qword [rsp + 128]
+	QUAD $0x0b1a5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r11 + 11], 4
+	QUAD $0x0b3a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rdi + 11], 5
+	QUAD $0x0b025c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r8 + 11], 6
+	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
+	QUAD $0x0b2a5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r13 + 11], 7
+	QUAD $0x0b325c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r14 + 11], 8
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x0b025c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r8 + 11], 9
+	QUAD $0x0b1a5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rbx + 11], 10
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0b025c203a0f4466; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + rax + 11], 11
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0b2a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r13 + 11], 12
+	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
+	QUAD $0x0b0a5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r9 + 11], 13
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x0b325c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + rsi + 11], 14
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0b025c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rax + 11], 15
+	QUAD $0x0c126c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r10 + 12], 1
+	QUAD $0x0c226c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rdx + r12 + 12], 2
+	QUAD $0x0c0a6c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rdx + rcx + 12], 3
+	QUAD $0x0c1a6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r11 + 12], 4
+	QUAD $0x0c3a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rdi + 12], 5
+	QUAD $0x0c3a6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r15 + 12], 6
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	QUAD $0x0c1a6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r11 + 12], 7
+	QUAD $0x0c326c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r14 + 12], 8
+	QUAD $0x0c026c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r8 + 12], 9
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x0c3a6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + r15 + 12], 10
+	QUAD $0x0c1a6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rbx + 12], 11
+	QUAD $0x0c2a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r13 + 12], 12
+	QUAD $0x0c0a6c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r9 + 12], 13
+	QUAD $0x0c326c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + rsi + 12], 14
+	QUAD $0x0c026c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rax + 12], 15
+	QUAD $0x0d1264203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r10 + 13], 1
+	QUAD $0x0d2264203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rdx + r12 + 13], 2
+	QUAD $0x0d0a64203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rdx + rcx + 13], 3
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x0d0a64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rcx + 13], 4
+	QUAD $0x0d3a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rdi + 13], 5
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0d3a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rdi + 13], 6
+	QUAD $0x0d1a64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r11 + 13], 7
+	QUAD $0x0d3264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r14 + 13], 8
+	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
+	QUAD $0x0d0264203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r8 + 13], 9
+	QUAD $0x0d3a64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r15 + 13], 10
+	QUAD $0x0d1a64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + rbx + 13], 11
+	QUAD $0x0d2a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r13 + 13], 12
+	QUAD $0x0d0a64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r9 + 13], 13
+	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
+	QUAD $0x0d3264203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + rsi + 13], 14
+	QUAD $0x0d0264203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rax + 13], 15
+	LONG $0x740f4566; BYTE $0xd9               // pcmpeqb    xmm11, xmm9
+	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI2_12] */
+	LONG $0x740f4566; BYTE $0xe9               // pcmpeqb    xmm13, xmm9
+	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI2_13] */
+	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	LONG $0x1a74b60f; BYTE $0x19               // movzx    esi, byte [rdx + rbx + 25]
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0x740f4566; BYTE $0xe1               // pcmpeqb    xmm12, xmm9
+	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI2_14] */
+	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
+	LONG $0x1a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rbx + 26]
+	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
+	QUAD $0x00010024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 256]
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x010e0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 14], 1
+	QUAD $0x0e2264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r12 + 14], 2
+	QUAD $0x0e1264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r10 + 14], 3
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x040e0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 14], 4
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x050e0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 14], 5
+	QUAD $0x060e3a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 14], 6
+	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
+	QUAD $0x0e1a64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r11 + 14], 7
+	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
+	QUAD $0x0e0a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r9 + 14], 8
+	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
+	QUAD $0x0e3264203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r14 + 14], 9
+	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
+	QUAD $0x0e3a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r15 + 14], 10
+	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
+	QUAD $0x0e3264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 14], 11
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x0e3a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 14], 12
+	QUAD $0x0e2a64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r13 + 14], 13
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x0e2a64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r13 + 14], 14
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0f0e3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 14], 15
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0f3274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rsi + 15], 1
+	QUAD $0x0f2274203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r12 + 15], 2
+	QUAD $0x0f1274203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r10 + 15], 3
+	QUAD $0x0f0274203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rdx + rax + 15], 4
+	QUAD $0x0f0a74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rdx + rcx + 15], 5
+	QUAD $0x0f3a74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rdx + rdi + 15], 6
+	QUAD $0x0f0274203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rdx + r8 + 15], 7
+	QUAD $0x0f0a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r9 + 15], 8
+	QUAD $0x0f1a74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rbx + 15], 9
+	QUAD $0x0f1a74203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + r11 + 15], 10
+	QUAD $0x0f3274203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + r14 + 15], 11
+	QUAD $0x0f3a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r15 + 15], 12
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0f3274203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rsi + 15], 13
+	QUAD $0x0f2a74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r13 + 15], 14
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0f3274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rsi + 15], 15
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x10327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 16], 1
+	QUAD $0x10227c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r12 + 16], 2
+	QUAD $0x10127c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r10 + 16], 3
+	QUAD $0x10027c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rdx + rax + 16], 4
+	QUAD $0x100a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rcx + 16], 5
+	QUAD $0x103a7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rdx + rdi + 16], 6
+	QUAD $0x10027c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r8 + 16], 7
+	QUAD $0x100a7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r9 + 16], 8
+	QUAD $0x101a7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rdx + rbx + 16], 9
+	QUAD $0x101a7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r11 + 16], 10
+	QUAD $0x10327c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r14 + 16], 11
+	QUAD $0x103a7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r15 + 16], 12
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x10327c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rsi + 16], 13
+	QUAD $0x102a7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + r13 + 16], 14
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x01113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 1
+	QUAD $0x112244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r12 + 17], 2
+	QUAD $0x111244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r10 + 17], 3
+	QUAD $0x04110244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 17], 4
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	QUAD $0x05110a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 17], 5
+	QUAD $0x06113a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 17], 6
+	QUAD $0x110244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r8 + 17], 7
+	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
+	QUAD $0x110a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r9 + 17], 8
+	QUAD $0x09111a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 17], 9
+	QUAD $0x111a44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r11 + 17], 10
+	QUAD $0x113244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r14 + 17], 11
+	QUAD $0x113a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 17], 12
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0d113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 13
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x0e113244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 17], 14
+	QUAD $0x00a024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 160]
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	LONG $0x74b60f42; WORD $0x1b22             // movzx    esi, byte [rdx + r12 + 27]
+	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
+	QUAD $0x00b024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 176]
+	LONG $0x740f4166; BYTE $0xe5               // pcmpeqb    xmm4, xmm13
+	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI2_15] */
+	LONG $0x740f4566; BYTE $0xf5               // pcmpeqb    xmm14, xmm13
+	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
+	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
+	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
+	LONG $0x74b60f42; WORD $0x1c22             // movzx    esi, byte [rdx + r12 + 28]
+	LONG $0xe66e0f66                           // movd    xmm4, esi
+	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
+	QUAD $0x110244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r8 + 17], 15
+	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
+	LONG $0x740f4166; BYTE $0xc5               // pcmpeqb    xmm0, xmm13
+	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
+	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI2_10] */
+	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
+	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
+	QUAD $0x00a024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm13
+	LONG $0x74b60f42; WORD $0x1d22             // movzx    esi, byte [rdx + r12 + 29]
+	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
+	QUAD $0x10027c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r8 + 16], 15
+	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
+	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
+	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
+	QUAD $0x12226c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r12 + 18], 1
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0212326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 2
+	QUAD $0x12126c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r10 + 18], 3
+	QUAD $0x122a6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r13 + 18], 4
+	QUAD $0x05120a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 18], 5
+	QUAD $0x06123a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 18], 6
+	QUAD $0x0712026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 18], 7
+	QUAD $0x120a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r9 + 18], 8
+	QUAD $0x09121a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 18], 9
+	QUAD $0x121a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r11 + 18], 10
+	QUAD $0x12326c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r14 + 18], 11
+	QUAD $0x123a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 18], 12
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0d12326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 13
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x0e12326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 18], 14
+	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
+	QUAD $0x12026c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r8 + 18], 15
+	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
+	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI2_11] */
+	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
+	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
+	QUAD $0x13227c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rdx + r12 + 19], 1
+	QUAD $0x142274203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rdx + r12 + 20], 1
+	QUAD $0x152254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r12 + 21], 1
+	QUAD $0x16225c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r12 + 22], 1
+	QUAD $0x172244203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r12 + 23], 1
+	QUAD $0x182254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r12 + 24], 1
+	QUAD $0x19224c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rdx + r12 + 25], 1
+	QUAD $0x1a225c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r12 + 26], 1
+	QUAD $0x1b224c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rdx + r12 + 27], 1
+	QUAD $0x1c2264203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rdx + r12 + 28], 1
+	QUAD $0x1d226c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r12 + 29], 1
+	QUAD $0x1e2264203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r12 + 30], 1
+	LONG $0x0274b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rax + 31]
+	LONG $0xc66e0f66                           // movd    xmm0, esi
+	QUAD $0x1f2244203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rdx + r12 + 31], 1
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0213327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 19], 2
+	QUAD $0x02143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 2
+	QUAD $0x02153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 2
+	QUAD $0x0216325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 22], 2
+	QUAD $0x173244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rsi + 23], 2
+	QUAD $0x183254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rsi + 24], 2
+	QUAD $0x0219324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 25], 2
+	QUAD $0x1a325c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rsi + 26], 2
+	QUAD $0x1b324c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rsi + 27], 2
+	QUAD $0x021c3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 28], 2
+	QUAD $0x1d326c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rsi + 29], 2
+	QUAD $0x1e3264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rsi + 30], 2
+	QUAD $0x021f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 2
+	QUAD $0x13127c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r10 + 19], 3
+	QUAD $0x132a7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r13 + 19], 4
+	QUAD $0x05130a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 19], 5
+	QUAD $0x06133a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 19], 6
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	QUAD $0x0713027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 19], 7
+	QUAD $0x130a7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r9 + 19], 8
+	QUAD $0x09131a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 19], 9
+	QUAD $0x131a7c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r11 + 19], 10
+	QUAD $0x13327c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r14 + 19], 11
+	QUAD $0x133a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 19], 12
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0d13327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 19], 13
+	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
+	QUAD $0x13227c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r12 + 19], 14
+	QUAD $0x13027c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r8 + 19], 15
+	QUAD $0x141274203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r10 + 20], 3
+	QUAD $0x142a74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r13 + 20], 4
+	QUAD $0x05140a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 20], 5
+	QUAD $0x06143a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 20], 6
+	QUAD $0x07140274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 20], 7
+	QUAD $0x140a74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r9 + 20], 8
+	QUAD $0x09141a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 20], 9
+	QUAD $0x141a74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r11 + 20], 10
+	QUAD $0x143274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r14 + 20], 11
+	QUAD $0x143a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 20], 12
+	QUAD $0x0d143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 13
+	QUAD $0x142274203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r12 + 20], 14
+	QUAD $0x0000a024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 160]
+	QUAD $0x140274203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r8 + 20], 15
+	QUAD $0x00b024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 176]
+	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
+	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI2_12] */
+	LONG $0x740f4166; BYTE $0xf7               // pcmpeqb    xmm6, xmm15
+	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI2_13] */
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	QUAD $0x151254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r10 + 21], 3
+	QUAD $0x152a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r13 + 21], 4
+	QUAD $0x05150a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 21], 5
+	QUAD $0x06153a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 21], 6
+	QUAD $0x07150254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 21], 7
+	QUAD $0x150a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r9 + 21], 8
+	QUAD $0x09151a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 21], 9
+	QUAD $0x151a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r11 + 21], 10
+	QUAD $0x153254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r14 + 21], 11
+	QUAD $0x153a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 21], 12
+	QUAD $0x0d153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 13
+	QUAD $0x152254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r12 + 21], 14
+	QUAD $0x150254203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r8 + 21], 15
+	LONG $0x740f4166; BYTE $0xd7               // pcmpeqb    xmm2, xmm15
+	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI2_14] */
+	LONG $0xd7db0f66                           // pand    xmm2, xmm7
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	LONG $0xd5eb0f66                           // por    xmm2, xmm5
+	QUAD $0x16125c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r10 + 22], 3
+	QUAD $0x162a5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r13 + 22], 4
+	QUAD $0x05160a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 22], 5
+	QUAD $0x06163a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 22], 6
+	QUAD $0x0716025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 22], 7
+	QUAD $0x160a5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r9 + 22], 8
+	QUAD $0x09161a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 22], 9
+	QUAD $0x161a5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r11 + 22], 10
+	QUAD $0x16325c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r14 + 22], 11
+	QUAD $0x163a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r15 + 22], 12
+	QUAD $0x0d16325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 22], 13
+	QUAD $0x16225c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r12 + 22], 14
+	QUAD $0x16025c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r8 + 22], 15
+	QUAD $0x171244203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r10 + 23], 3
+	QUAD $0x172a44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r13 + 23], 4
+	QUAD $0x170a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rcx + 23], 5
+	QUAD $0x173a44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rdx + rdi + 23], 6
+	QUAD $0x170244203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rdx + rax + 23], 7
+	QUAD $0x170a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r9 + 23], 8
+	QUAD $0x171a44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rbx + 23], 9
+	QUAD $0x171a44203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + r11 + 23], 10
+	QUAD $0x173244203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r14 + 23], 11
+	QUAD $0x173a44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r15 + 23], 12
+	QUAD $0x173244203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rsi + 23], 13
+	QUAD $0x172244203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + r12 + 23], 14
+	QUAD $0x170244203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r8 + 23], 15
+	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
+	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI2_15] */
+	LONG $0xdddb0f66                           // pand    xmm3, xmm5
+	LONG $0x740f4566; BYTE $0xc7               // pcmpeqb    xmm8, xmm15
+	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
+	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI2_6] */
+	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
+	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
+	QUAD $0x19124c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r10 + 25], 3
+	QUAD $0x192a4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r13 + 25], 4
+	QUAD $0x05190a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 25], 5
+	QUAD $0x06193a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 25], 6
+	QUAD $0x0719024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 25], 7
+	QUAD $0x190a4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r9 + 25], 8
+	QUAD $0x09191a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 25], 9
+	QUAD $0x191a4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r11 + 25], 10
+	QUAD $0x19324c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r14 + 25], 11
+	QUAD $0x193a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 25], 12
+	QUAD $0x0d19324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 25], 13
+	QUAD $0x19224c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r12 + 25], 14
+	QUAD $0x19024c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r8 + 25], 15
+	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
+	LONG $0x740f4166; BYTE $0xcf               // pcmpeqb    xmm1, xmm15
+	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
+	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI2_10] */
+	LONG $0xd3db0f66                           // pand    xmm2, xmm3
+	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
+	QUAD $0x181254203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r10 + 24], 3
+	QUAD $0x182a54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r13 + 24], 4
+	QUAD $0x180a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rcx + 24], 5
+	QUAD $0x183a54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rdx + rdi + 24], 6
+	QUAD $0x180254203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rax + 24], 7
+	QUAD $0x180a54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r9 + 24], 8
+	QUAD $0x181a54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rbx + 24], 9
+	QUAD $0x181a54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r11 + 24], 10
+	QUAD $0x183254203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r14 + 24], 11
+	QUAD $0x183a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r15 + 24], 12
+	QUAD $0x183254203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rsi + 24], 13
+	QUAD $0x182254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r12 + 24], 14
+	QUAD $0x180254203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r8 + 24], 15
+	LONG $0x740f4566; BYTE $0xd7               // pcmpeqb    xmm10, xmm15
+	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
+	QUAD $0x1a125c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r10 + 26], 3
+	QUAD $0x1a2a5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r13 + 26], 4
+	QUAD $0x1a0a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rcx + 26], 5
+	QUAD $0x1a3a5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rdx + rdi + 26], 6
+	QUAD $0x1a025c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rax + 26], 7
+	QUAD $0x1a0a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r9 + 26], 8
+	QUAD $0x1a1a5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rbx + 26], 9
+	QUAD $0x1a1a5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r11 + 26], 10
+	QUAD $0x1a325c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r14 + 26], 11
+	QUAD $0x1a3a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 26], 12
+	QUAD $0x1a325c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rsi + 26], 13
+	QUAD $0x1a225c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r12 + 26], 14
+	QUAD $0x1a025c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r8 + 26], 15
+	LONG $0x740f4566; BYTE $0xdf               // pcmpeqb    xmm11, xmm15
+	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI2_11] */
+	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
+	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
+	QUAD $0x1b124c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r10 + 27], 3
+	QUAD $0x1b2a4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r13 + 27], 4
+	QUAD $0x1b0a4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rcx + 27], 5
+	QUAD $0x1b3a4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rdx + rdi + 27], 6
+	QUAD $0x1b024c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rdx + rax + 27], 7
+	QUAD $0x1b0a4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r9 + 27], 8
+	QUAD $0x1b1a4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rdx + rbx + 27], 9
+	QUAD $0x1b1a4c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r11 + 27], 10
+	QUAD $0x1b324c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r14 + 27], 11
+	QUAD $0x1b3a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r15 + 27], 12
+	QUAD $0x1b324c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rsi + 27], 13
+	QUAD $0x1b224c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r12 + 27], 14
+	QUAD $0x1b024c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r8 + 27], 15
+	QUAD $0x1c1264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r10 + 28], 3
+	QUAD $0x1c2a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r13 + 28], 4
+	QUAD $0x051c0a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 28], 5
+	QUAD $0x061c3a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 28], 6
+	QUAD $0x071c0264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 28], 7
+	QUAD $0x1c0a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r9 + 28], 8
+	QUAD $0x091c1a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 28], 9
+	QUAD $0x1c1a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r11 + 28], 10
+	QUAD $0x1c3264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 28], 11
+	QUAD $0x1c3a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 28], 12
+	QUAD $0x0d1c3264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 28], 13
+	QUAD $0x1c2264203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r12 + 28], 14
+	QUAD $0x1c0264203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r8 + 28], 15
+	QUAD $0x1d126c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r10 + 29], 3
+	QUAD $0x1d2a6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r13 + 29], 4
+	QUAD $0x1d0a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rcx + 29], 5
+	QUAD $0x1d3a6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rdx + rdi + 29], 6
+	QUAD $0x1d026c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rdx + rax + 29], 7
+	QUAD $0x1d0a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r9 + 29], 8
+	QUAD $0x1d1a6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rbx + 29], 9
+	QUAD $0x1d1a6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + r11 + 29], 10
+	QUAD $0x1d326c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r14 + 29], 11
+	QUAD $0x1d3a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r15 + 29], 12
+	QUAD $0x1d326c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + rsi + 29], 13
+	QUAD $0x1d226c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r12 + 29], 14
+	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
+	LONG $0x740f4566; BYTE $0xcf               // pcmpeqb    xmm9, xmm15
+	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI2_12] */
+	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
+	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI2_13] */
+	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
+	QUAD $0x1d026c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + r8 + 29], 15
+	LONG $0x740f4566; BYTE $0xef               // pcmpeqb    xmm13, xmm15
+	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
+	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
+	QUAD $0x1e1264203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r10 + 30], 3
+	QUAD $0x1f1244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r10 + 31], 3
+	QUAD $0x1e2a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r13 + 30], 4
+	QUAD $0x1f2a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r13 + 31], 4
+	QUAD $0x1e0a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rcx + 30], 5
+	QUAD $0x051f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 31], 5
+	QUAD $0x1e3a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rdi + 30], 6
+	QUAD $0x061f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 31], 6
+	QUAD $0x1e0264203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rax + 30], 7
+	QUAD $0x071f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 31], 7
+	QUAD $0x1e0a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r9 + 30], 8
+	QUAD $0x1f0a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r9 + 31], 8
+	QUAD $0x1e1a64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rbx + 30], 9
+	QUAD $0x091f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 31], 9
+	QUAD $0x1e1a64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r11 + 30], 10
+	QUAD $0x1f1a44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r11 + 31], 10
+	QUAD $0x1e3264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r14 + 30], 11
+	QUAD $0x1f3244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r14 + 31], 11
+	QUAD $0x1e3a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r15 + 30], 12
+	QUAD $0x1f3a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 31], 12
+	QUAD $0x1e3264203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rsi + 30], 13
+	QUAD $0x0d1f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 13
+	QUAD $0x1e2264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r12 + 30], 14
+	QUAD $0x1f2244203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r12 + 31], 14
+	QUAD $0x1e0264203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r8 + 30], 15
+	QUAD $0x1f0244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r8 + 31], 15
+	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
+	LONG $0x740f4566; BYTE $0xe7               // pcmpeqb    xmm12, xmm15
+	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
+	LONG $0x740f4166; BYTE $0xc7               // pcmpeqb    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
+	LONG $0xc6db0f66                           // pand    xmm0, xmm6
+	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
+	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
+	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
+	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
+	QUAD $0x0000c024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 192]
+	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
+	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
+	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
+	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
+	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
+	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
+	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
+	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	LONG $0x24048b48                           // mov    rax, qword [rsp]
+	LONG $0x647f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm4
+	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
+	LONG $0x547f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm2
+	LONG $0x1c7f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm3
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
+	JNE  LBB2_189
+	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
+	QUAD $0x000000e824bc3b4c                   // cmp    r15, qword [rsp + 232]
+	LONG $0x24748a44; BYTE $0x08               // mov    r14b, byte [rsp + 8]
+	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	JNE  LBB2_69
+	JMP  LBB2_135
+
+LBB2_191:
+	LONG $0xf8e68349                     // and    r14, -8
+	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
+	LONG $0x06e0c148                     // shl    rax, 6
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	LONG $0x24448948; BYTE $0x40         // mov    qword [rsp + 64], rax
+	LONG $0x24048b48                     // mov    rax, qword [rsp]
+	LONG $0x2474894c; BYTE $0x20         // mov    qword [rsp + 32], r14
+	LONG $0xb0048d4a                     // lea    rax, [rax + 4*r14]
+	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
+	LONG $0x246c8944; BYTE $0x38         // mov    dword [rsp + 56], r13d
+	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
+	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
+	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
+	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI2_8] */
+	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI2_1] */
+	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI2_2] */
+	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI2_3] */
+	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI2_4] */
+	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI2_5] */
+	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
+
+LBB2_192:
+	LONG $0x247c894c; BYTE $0x30               // mov    qword [rsp + 48], r15
+	LONG $0x06e7c149                           // shl    r15, 6
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
+	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
+	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	LONG $0x04b70f42; BYTE $0x3a               // movzx    eax, word [rdx + r15]
+	LONG $0x54b70f46; WORD $0x023a             // movzx    r10d, word [rdx + r15 + 2]
+	LONG $0x74b70f46; WORD $0x043a             // movzx    r14d, word [rdx + r15 + 4]
+	LONG $0x74b70f42; WORD $0x063a             // movzx    esi, word [rdx + r15 + 6]
+	LONG $0x5cb70f46; WORD $0x083a             // movzx    r11d, word [rdx + r15 + 8]
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	LONG $0x40c88349                           // or    r8, 64
+	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
+	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
+	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
+	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
+	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
+	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
+	LONG $0xe06e0f66                           // movd    xmm4, eax
+	LONG $0xc40f4266; WORD $0x0224; BYTE $0x01 // pinsrw    xmm4, word [rdx + r8], 1
+	LONG $0xc40f4266; WORD $0x0a24; BYTE $0x02 // pinsrw    xmm4, word [rdx + r9], 2
+	LONG $0xc40f4266; WORD $0x2224; BYTE $0x03 // pinsrw    xmm4, word [rdx + r12], 3
+	LONG $0xc40f4266; WORD $0x2a24; BYTE $0x04 // pinsrw    xmm4, word [rdx + r13], 4
+	LONG $0x24c40f66; WORD $0x050a             // pinsrw    xmm4, word [rdx + rcx], 5
+	LONG $0x24c40f66; WORD $0x063a             // pinsrw    xmm4, word [rdx + rdi], 6
+	LONG $0x24c40f66; WORD $0x071a             // pinsrw    xmm4, word [rdx + rbx], 7
+	LONG $0x44b70f42; WORD $0x0a3a             // movzx    eax, word [rdx + r15 + 10]
+	LONG $0x18244489                           // mov    dword [rsp + 24], eax
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	QUAD $0x01020274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 2], 1
+	QUAD $0x02020a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 2], 2
+	QUAD $0x03022274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 2], 3
+	LONG $0x44b70f42; WORD $0x0c3a             // movzx    eax, word [rdx + r15 + 12]
+	LONG $0x10244489                           // mov    dword [rsp + 16], eax
+	QUAD $0x04022a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 2], 4
+	LONG $0x6e0f4166; BYTE $0xd6               // movd    xmm2, r14d
+	LONG $0x74b70f46; WORD $0x0e3a             // movzx    r14d, word [rdx + r15 + 14]
+	LONG $0x74c40f66; WORD $0x020a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 2], 5
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	LONG $0x74b70f42; WORD $0x103a             // movzx    esi, word [rdx + r15 + 16]
+	LONG $0x74c40f66; WORD $0x023a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 2], 6
+	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
+	LONG $0x44b70f42; WORD $0x123a             // movzx    eax, word [rdx + r15 + 18]
+	LONG $0x28244489                           // mov    dword [rsp + 40], eax
+	LONG $0x74c40f66; WORD $0x021a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 2], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xcef80f66                           // psubb    xmm1, xmm6
+	LONG $0x746e0f66; WORD $0x1824             // movd    xmm6, dword [rsp + 24]
+	LONG $0x54b70f46; WORD $0x143a             // movzx    r10d, word [rdx + r15 + 20]
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
+	QUAD $0x01040254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 4], 1
+	QUAD $0x02040a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 4], 2
+	QUAD $0x03042254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 4], 3
+	QUAD $0x04042a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 4], 4
+	LONG $0x54c40f66; WORD $0x040a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 4], 5
+	LONG $0x54c40f66; WORD $0x043a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 4], 6
+	LONG $0x54c40f66; WORD $0x041a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 4], 7
+	QUAD $0x0106026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 6], 1
+	QUAD $0x02060a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 6], 2
+	QUAD $0x0306226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 6], 3
+	QUAD $0x04062a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 6], 4
+	LONG $0x6cc40f66; WORD $0x060a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 6], 5
+	LONG $0x6cc40f66; WORD $0x063a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 6], 6
+	LONG $0x6cc40f66; WORD $0x061a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 6], 7
+	QUAD $0x0108025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 8], 1
+	QUAD $0x02080a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 8], 2
+	QUAD $0x0308225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 8], 3
+	QUAD $0x04082a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 8], 4
+	LONG $0x5cc40f66; WORD $0x080a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 8], 5
+	LONG $0x5cc40f66; WORD $0x083a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 8], 6
+	LONG $0x5cc40f66; WORD $0x081a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 8], 7
+	LONG $0xcceb0f66                           // por    xmm1, xmm4
+	LONG $0x7c6e0f66; WORD $0x1024             // movd    xmm7, dword [rsp + 16]
+	LONG $0x44b70f42; WORD $0x163a             // movzx    eax, word [rdx + r15 + 22]
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
+	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
+	LONG $0x5cb70f46; WORD $0x183a             // movzx    r11d, word [rdx + r15 + 24]
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
+	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
+	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0x74b70f42; WORD $0x1a3a             // movzx    esi, word [rdx + r15 + 26]
+	QUAD $0x010a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 10], 1
+	QUAD $0x020a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 10], 2
+	QUAD $0x030a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 10], 3
+	QUAD $0x040a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 10], 4
+	LONG $0x74c40f66; WORD $0x0a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 10], 5
+	LONG $0x74c40f66; WORD $0x0a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 10], 6
+	LONG $0x74c40f66; WORD $0x0a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 10], 7
+	QUAD $0x010c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 12], 1
+	QUAD $0x020c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 12], 2
+	QUAD $0x030c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 12], 3
+	QUAD $0x040c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 12], 4
+	LONG $0x7cc40f66; WORD $0x0c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 12], 5
+	LONG $0x7cc40f66; WORD $0x0c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 12], 6
+	LONG $0x7cc40f66; WORD $0x0c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 12], 7
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x28 // movd    xmm8, dword [rsp + 40]
+	LONG $0x74b70f46; WORD $0x1c3a             // movzx    r14d, word [rdx + r15 + 28]
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	LONG $0x6e0f4166; BYTE $0xea               // movd    xmm5, r10d
+	LONG $0x54b70f46; WORD $0x1e3a             // movzx    r10d, word [rdx + r15 + 30]
+	QUAD $0x010e0264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 14], 1
+	QUAD $0x020e0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 14], 2
+	QUAD $0x030e2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 14], 3
+	QUAD $0x040e2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 14], 4
+	LONG $0x64c40f66; WORD $0x0e0a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 14], 5
+	LONG $0x64c40f66; WORD $0x0e3a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 14], 6
+	LONG $0x64c40f66; WORD $0x0e1a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 14], 7
+	QUAD $0x01120244c40f4666                   // pinsrw    xmm8, word [rdx + r8 + 18], 1
+	QUAD $0x02120a44c40f4666                   // pinsrw    xmm8, word [rdx + r9 + 18], 2
+	QUAD $0x03122244c40f4666                   // pinsrw    xmm8, word [rdx + r12 + 18], 3
+	QUAD $0x04122a44c40f4666                   // pinsrw    xmm8, word [rdx + r13 + 18], 4
+	QUAD $0x05120a44c40f4466                   // pinsrw    xmm8, word [rdx + rcx + 18], 5
+	QUAD $0x06123a44c40f4466                   // pinsrw    xmm8, word [rdx + rdi + 18], 6
+	QUAD $0x07121a44c40f4466                   // pinsrw    xmm8, word [rdx + rbx + 18], 7
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
+	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
+	LONG $0xe7eb0f66                           // por    xmm4, xmm7
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x44b70f42; WORD $0x203a             // movzx    eax, word [rdx + r15 + 32]
+	LONG $0xe3eb0f66                           // por    xmm4, xmm3
+	LONG $0x750f4466; BYTE $0xc0               // pcmpeqw    xmm8, xmm0
+	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
+	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
+	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
+	LONG $0x5cb70f46; WORD $0x223a             // movzx    r11d, word [rdx + r15 + 34]
+	QUAD $0x0110024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 16], 1
+	QUAD $0x02100a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 16], 2
+	QUAD $0x0310224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 16], 3
+	QUAD $0x04102a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 16], 4
+	LONG $0x4cc40f66; WORD $0x100a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 16], 5
+	LONG $0x4cc40f66; WORD $0x103a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 16], 6
+	LONG $0x4cc40f66; WORD $0x101a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 16], 7
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	LONG $0xf66e0f66                           // movd    xmm6, esi
+	LONG $0x74b70f42; WORD $0x243a             // movzx    esi, word [rdx + r15 + 36]
+	LONG $0x28247489                           // mov    dword [rsp + 40], esi
+	QUAD $0x0114026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 20], 1
+	QUAD $0x02140a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 20], 2
+	QUAD $0x0314226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 20], 3
+	QUAD $0x04142a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 20], 4
+	LONG $0x6cc40f66; WORD $0x140a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 20], 5
+	LONG $0x6cc40f66; WORD $0x143a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 20], 6
+	LONG $0x6cc40f66; WORD $0x141a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 20], 7
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
+	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
+	LONG $0x74b70f42; WORD $0x263a             // movzx    esi, word [rdx + r15 + 38]
+	LONG $0x10247489                           // mov    dword [rsp + 16], esi
+	QUAD $0x01160254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 22], 1
+	QUAD $0x02160a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 22], 2
+	QUAD $0x03162254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 22], 3
+	QUAD $0x04162a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 22], 4
+	LONG $0x54c40f66; WORD $0x160a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 22], 5
+	LONG $0x54c40f66; WORD $0x163a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 22], 6
+	LONG $0x54c40f66; WORD $0x161a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 22], 7
+	QUAD $0x0118025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 24], 1
+	QUAD $0x02180a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 24], 2
+	QUAD $0x0318225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 24], 3
+	QUAD $0x04182a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 24], 4
+	LONG $0x5cc40f66; WORD $0x180a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 24], 5
+	LONG $0x5cc40f66; WORD $0x183a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 24], 6
+	LONG $0x5cc40f66; WORD $0x181a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 24], 7
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
+	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
+	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
+	LONG $0x74b70f46; WORD $0x283a             // movzx    r14d, word [rdx + r15 + 40]
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x44b70f42; WORD $0x2a3a             // movzx    eax, word [rdx + r15 + 42]
+	LONG $0x18244489                           // mov    dword [rsp + 24], eax
+	QUAD $0x011a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 26], 1
+	QUAD $0x021a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 26], 2
+	QUAD $0x031a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 26], 3
+	QUAD $0x041a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 26], 4
+	LONG $0x74c40f66; WORD $0x1a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 26], 5
+	LONG $0x74c40f66; WORD $0x1a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 26], 6
+	LONG $0x74c40f66; WORD $0x1a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 26], 7
+	QUAD $0x011c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 28], 1
+	QUAD $0x021c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 28], 2
+	QUAD $0x031c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 28], 3
+	QUAD $0x041c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 28], 4
+	LONG $0x7cc40f66; WORD $0x1c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 28], 5
+	LONG $0x7cc40f66; WORD $0x1c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 28], 6
+	LONG $0x7cc40f66; WORD $0x1c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 28], 7
+	QUAD $0x011e0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 30], 1
+	QUAD $0x021e0a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 30], 2
+	QUAD $0x031e2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 30], 3
+	QUAD $0x041e2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 30], 4
+	LONG $0x54c40f66; WORD $0x1e0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 30], 5
+	LONG $0x54c40f66; WORD $0x1e3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 30], 6
+	LONG $0x54c40f66; WORD $0x1e1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 30], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
+	LONG $0x54b70f46; WORD $0x2c3a             // movzx    r10d, word [rdx + r15 + 44]
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
+	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	LONG $0x746e0f66; WORD $0x2824             // movd    xmm6, dword [rsp + 40]
+	LONG $0x74b70f42; WORD $0x2e3a             // movzx    esi, word [rdx + r15 + 46]
+	QUAD $0x0120026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 32], 1
+	QUAD $0x02200a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 32], 2
+	QUAD $0x0320226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 32], 3
+	QUAD $0x04202a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 32], 4
+	LONG $0x6cc40f66; WORD $0x200a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 32], 5
+	LONG $0x6cc40f66; WORD $0x203a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 32], 6
+	QUAD $0x0122024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 34], 1
+	QUAD $0x02220a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 34], 2
+	QUAD $0x0322224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 34], 3
+	QUAD $0x04222a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 34], 4
+	LONG $0x4cc40f66; WORD $0x220a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 34], 5
+	LONG $0x4cc40f66; WORD $0x223a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 34], 6
+	LONG $0x4cc40f66; WORD $0x221a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 34], 7
+	LONG $0xd3eb0f66                           // por    xmm2, xmm3
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
+	LONG $0x5c6e0f66; WORD $0x1024             // movd    xmm3, dword [rsp + 16]
+	LONG $0x5cb70f46; WORD $0x303a             // movzx    r11d, word [rdx + r15 + 48]
+	LONG $0x6cc40f66; WORD $0x201a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 32], 7
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	QUAD $0x01240274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 36], 1
+	QUAD $0x02240a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 36], 2
+	QUAD $0x03242274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 36], 3
+	QUAD $0x04242a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 36], 4
+	LONG $0x74c40f66; WORD $0x240a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 36], 5
+	LONG $0x74c40f66; WORD $0x243a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 36], 6
+	LONG $0x74c40f66; WORD $0x241a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 36], 7
+	QUAD $0x0126025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 38], 1
+	QUAD $0x02260a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 38], 2
+	QUAD $0x0326225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 38], 3
+	QUAD $0x04262a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 38], 4
+	LONG $0x5cc40f66; WORD $0x260a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 38], 5
+	LONG $0x5cc40f66; WORD $0x263a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 38], 6
+	LONG $0x5cc40f66; WORD $0x261a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 38], 7
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
+	QUAD $0x0128026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 40], 1
+	QUAD $0x02280a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 40], 2
+	QUAD $0x0328226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 40], 3
+	QUAD $0x04282a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 40], 4
+	LONG $0x6cc40f66; WORD $0x280a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 40], 5
+	LONG $0x6cc40f66; WORD $0x283a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 40], 6
+	LONG $0x44b70f42; WORD $0x323a             // movzx    eax, word [rdx + r15 + 50]
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
+	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
+	LONG $0x74b70f46; WORD $0x343a             // movzx    r14d, word [rdx + r15 + 52]
+	LONG $0x6cc40f66; WORD $0x281a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 40], 7
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
+	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xebeb0f66                           // por    xmm5, xmm3
+	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
+	LONG $0x54b70f46; WORD $0x363a             // movzx    r10d, word [rdx + r15 + 54]
+	QUAD $0x012a024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 42], 1
+	QUAD $0x022a0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 42], 2
+	QUAD $0x032a224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 42], 3
+	QUAD $0x042a2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 42], 4
+	LONG $0x4cc40f66; WORD $0x2a0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 42], 5
+	LONG $0x4cc40f66; WORD $0x2a3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 42], 6
+	LONG $0x4cc40f66; WORD $0x2a1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 42], 7
+	QUAD $0x012c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 44], 1
+	QUAD $0x022c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 44], 2
+	QUAD $0x032c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 44], 3
+	QUAD $0x042c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 44], 4
+	LONG $0x7cc40f66; WORD $0x2c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 44], 5
+	LONG $0x7cc40f66; WORD $0x2c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 44], 6
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0xde6e0f66                           // movd    xmm3, esi
+	LONG $0x74b70f42; WORD $0x383a             // movzx    esi, word [rdx + r15 + 56]
+	LONG $0x7cc40f66; WORD $0x2c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 44], 7
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
+	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
+	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
+	LONG $0x5cb70f46; WORD $0x3a3a             // movzx    r11d, word [rdx + r15 + 58]
+	QUAD $0x012e025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 46], 1
+	QUAD $0x022e0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 46], 2
+	QUAD $0x032e225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 46], 3
+	QUAD $0x042e2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 46], 4
+	LONG $0x5cc40f66; WORD $0x2e0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 46], 5
+	LONG $0x5cc40f66; WORD $0x2e3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 46], 6
+	LONG $0x5cc40f66; WORD $0x2e1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 46], 7
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
+	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
+	LONG $0xdfeb0f66                           // por    xmm3, xmm7
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x44b70f42; WORD $0x3c3a             // movzx    eax, word [rdx + r15 + 60]
+	LONG $0x7cb70f46; WORD $0x3e3a             // movzx    r15d, word [rdx + r15 + 62]
+	QUAD $0x0132024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 50], 1
+	QUAD $0x02320a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 50], 2
+	QUAD $0x0332224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 50], 3
+	QUAD $0x04322a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 50], 4
+	LONG $0x4cc40f66; WORD $0x320a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 50], 5
+	LONG $0x4cc40f66; WORD $0x323a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 50], 6
+	LONG $0x4cc40f66; WORD $0x321a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 50], 7
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
+	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
+	QUAD $0x01300274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 48], 1
+	QUAD $0x02300a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 48], 2
+	QUAD $0x03302274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 48], 3
+	QUAD $0x04302a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 48], 4
+	LONG $0x74c40f66; WORD $0x300a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 48], 5
+	LONG $0x74c40f66; WORD $0x303a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 48], 6
+	LONG $0x74c40f66; WORD $0x301a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 48], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	QUAD $0x0134024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 52], 1
+	QUAD $0x02340a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 52], 2
+	QUAD $0x0334224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 52], 3
+	QUAD $0x04342a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 52], 4
+	LONG $0x4cc40f66; WORD $0x340a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 52], 5
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0x4cc40f66; WORD $0x343a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 52], 6
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	LONG $0x4cc40f66; WORD $0x341a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 52], 7
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
+	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
+	LONG $0xcdeb0f66                           // por    xmm1, xmm5
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	QUAD $0x01360274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 54], 1
+	QUAD $0x02360a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 54], 2
+	QUAD $0x03362274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 54], 3
+	QUAD $0x04362a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 54], 4
+	LONG $0x74c40f66; WORD $0x360a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 54], 5
+	LONG $0x74c40f66; WORD $0x363a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 54], 6
+	LONG $0x74c40f66; WORD $0x361a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 54], 7
+	QUAD $0x0138026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 56], 1
+	QUAD $0x02380a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 56], 2
+	QUAD $0x0338226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 56], 3
+	QUAD $0x04382a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 56], 4
+	LONG $0x6cc40f66; WORD $0x380a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 56], 5
+	LONG $0x6cc40f66; WORD $0x383a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 56], 6
+	LONG $0x6cc40f66; WORD $0x381a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 56], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
+	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
+	LONG $0x24348b48                           // mov    rsi, qword [rsp]
+	QUAD $0x013a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 58], 1
+	QUAD $0x023a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 58], 2
+	QUAD $0x033a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 58], 3
+	QUAD $0x043a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 58], 4
+	LONG $0x74c40f66; WORD $0x3a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 58], 5
+	LONG $0x74c40f66; WORD $0x3a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 58], 6
+	LONG $0x74c40f66; WORD $0x3a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 58], 7
+	LONG $0xe9eb0f66                           // por    xmm5, xmm1
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	QUAD $0x013c024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 60], 1
+	QUAD $0x023c0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 60], 2
+	QUAD $0x033c224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 60], 3
+	QUAD $0x043c2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 60], 4
+	LONG $0x4cc40f66; WORD $0x3c0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 60], 5
+	LONG $0x4cc40f66; WORD $0x3c3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 60], 6
+	LONG $0x4cc40f66; WORD $0x3c1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 60], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
+	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
+	LONG $0xceeb0f66                           // por    xmm1, xmm6
+	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
+	QUAD $0x013e0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 62], 1
+	QUAD $0x023e0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 62], 2
+	QUAD $0x033e2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 62], 3
+	QUAD $0x043e2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 62], 4
+	LONG $0x74c40f66; WORD $0x3e0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 62], 5
+	LONG $0x74c40f66; WORD $0x3e3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 62], 6
+	LONG $0x74c40f66; WORD $0x3e1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 62], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
+	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
+	LONG $0xf1eb0f66                           // por    xmm6, xmm1
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
+	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI2_9] */
+	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
+	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
+	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
+	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
+	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
+	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	LONG $0x247f0ff3; BYTE $0x8e               // movdqu    oword [rsi + 4*rcx], xmm4
+	LONG $0x24348948                           // mov    qword [rsp], rsi
+	LONG $0x4c7f0ff3; WORD $0x108e             // movdqu    oword [rsi + 4*rcx + 16], xmm1
+	LONG $0x08c18348                           // add    rcx, 8
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x244c3b48; BYTE $0x20               // cmp    rcx, qword [rsp + 32]
+	JNE  LBB2_192
+	QUAD $0x0000009824b48b4c                   // mov    r14, qword [rsp + 152]
+	LONG $0x24743b4c; BYTE $0x20               // cmp    r14, qword [rsp + 32]
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	LONG $0x246c8b44; BYTE $0x38               // mov    r13d, dword [rsp + 56]
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	JNE  LBB2_92
+	JMP  LBB2_139
+
+LBB2_194:
+	LONG $0xf8e78349                     // and    r15, -8
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x06e0c148                     // shl    rax, 6
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	LONG $0x24448948; BYTE $0x40         // mov    qword [rsp + 64], rax
+	LONG $0x24048b48                     // mov    rax, qword [rsp]
+	LONG $0x247c894c; BYTE $0x20         // mov    qword [rsp + 32], r15
+	LONG $0xb8048d4a                     // lea    rax, [rax + 4*r15]
+	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
+	LONG $0x246c8944; BYTE $0x38         // mov    dword [rsp + 56], r13d
+	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
+	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
+	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
+	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI2_8] */
+	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI2_1] */
+	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI2_2] */
+	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI2_3] */
+	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI2_4] */
+	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI2_5] */
+	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
+
+LBB2_195:
+	LONG $0x247c894c; BYTE $0x30               // mov    qword [rsp + 48], r15
+	LONG $0x06e7c149                           // shl    r15, 6
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
+	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
+	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	LONG $0x04b70f42; BYTE $0x3a               // movzx    eax, word [rdx + r15]
+	LONG $0x54b70f46; WORD $0x023a             // movzx    r10d, word [rdx + r15 + 2]
+	LONG $0x74b70f46; WORD $0x043a             // movzx    r14d, word [rdx + r15 + 4]
+	LONG $0x74b70f42; WORD $0x063a             // movzx    esi, word [rdx + r15 + 6]
+	LONG $0x5cb70f46; WORD $0x083a             // movzx    r11d, word [rdx + r15 + 8]
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	LONG $0x40c88349                           // or    r8, 64
+	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
+	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
+	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
+	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
+	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
+	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
+	LONG $0xe06e0f66                           // movd    xmm4, eax
+	LONG $0xc40f4266; WORD $0x0224; BYTE $0x01 // pinsrw    xmm4, word [rdx + r8], 1
+	LONG $0xc40f4266; WORD $0x0a24; BYTE $0x02 // pinsrw    xmm4, word [rdx + r9], 2
+	LONG $0xc40f4266; WORD $0x2224; BYTE $0x03 // pinsrw    xmm4, word [rdx + r12], 3
+	LONG $0xc40f4266; WORD $0x2a24; BYTE $0x04 // pinsrw    xmm4, word [rdx + r13], 4
+	LONG $0x24c40f66; WORD $0x050a             // pinsrw    xmm4, word [rdx + rcx], 5
+	LONG $0x24c40f66; WORD $0x063a             // pinsrw    xmm4, word [rdx + rdi], 6
+	LONG $0x24c40f66; WORD $0x071a             // pinsrw    xmm4, word [rdx + rbx], 7
+	LONG $0x44b70f42; WORD $0x0a3a             // movzx    eax, word [rdx + r15 + 10]
+	LONG $0x18244489                           // mov    dword [rsp + 24], eax
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	QUAD $0x01020274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 2], 1
+	QUAD $0x02020a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 2], 2
+	QUAD $0x03022274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 2], 3
+	LONG $0x44b70f42; WORD $0x0c3a             // movzx    eax, word [rdx + r15 + 12]
+	LONG $0x10244489                           // mov    dword [rsp + 16], eax
+	QUAD $0x04022a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 2], 4
+	LONG $0x6e0f4166; BYTE $0xd6               // movd    xmm2, r14d
+	LONG $0x74b70f46; WORD $0x0e3a             // movzx    r14d, word [rdx + r15 + 14]
+	LONG $0x74c40f66; WORD $0x020a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 2], 5
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	LONG $0x74b70f42; WORD $0x103a             // movzx    esi, word [rdx + r15 + 16]
+	LONG $0x74c40f66; WORD $0x023a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 2], 6
+	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
+	LONG $0x44b70f42; WORD $0x123a             // movzx    eax, word [rdx + r15 + 18]
+	LONG $0x28244489                           // mov    dword [rsp + 40], eax
+	LONG $0x74c40f66; WORD $0x021a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 2], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xcef80f66                           // psubb    xmm1, xmm6
+	LONG $0x746e0f66; WORD $0x1824             // movd    xmm6, dword [rsp + 24]
+	LONG $0x54b70f46; WORD $0x143a             // movzx    r10d, word [rdx + r15 + 20]
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
+	QUAD $0x01040254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 4], 1
+	QUAD $0x02040a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 4], 2
+	QUAD $0x03042254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 4], 3
+	QUAD $0x04042a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 4], 4
+	LONG $0x54c40f66; WORD $0x040a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 4], 5
+	LONG $0x54c40f66; WORD $0x043a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 4], 6
+	LONG $0x54c40f66; WORD $0x041a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 4], 7
+	QUAD $0x0106026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 6], 1
+	QUAD $0x02060a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 6], 2
+	QUAD $0x0306226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 6], 3
+	QUAD $0x04062a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 6], 4
+	LONG $0x6cc40f66; WORD $0x060a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 6], 5
+	LONG $0x6cc40f66; WORD $0x063a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 6], 6
+	LONG $0x6cc40f66; WORD $0x061a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 6], 7
+	QUAD $0x0108025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 8], 1
+	QUAD $0x02080a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 8], 2
+	QUAD $0x0308225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 8], 3
+	QUAD $0x04082a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 8], 4
+	LONG $0x5cc40f66; WORD $0x080a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 8], 5
+	LONG $0x5cc40f66; WORD $0x083a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 8], 6
+	LONG $0x5cc40f66; WORD $0x081a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 8], 7
+	LONG $0xcceb0f66                           // por    xmm1, xmm4
+	LONG $0x7c6e0f66; WORD $0x1024             // movd    xmm7, dword [rsp + 16]
+	LONG $0x44b70f42; WORD $0x163a             // movzx    eax, word [rdx + r15 + 22]
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
+	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
+	LONG $0x5cb70f46; WORD $0x183a             // movzx    r11d, word [rdx + r15 + 24]
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
+	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
+	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0x74b70f42; WORD $0x1a3a             // movzx    esi, word [rdx + r15 + 26]
+	QUAD $0x010a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 10], 1
+	QUAD $0x020a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 10], 2
+	QUAD $0x030a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 10], 3
+	QUAD $0x040a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 10], 4
+	LONG $0x74c40f66; WORD $0x0a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 10], 5
+	LONG $0x74c40f66; WORD $0x0a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 10], 6
+	LONG $0x74c40f66; WORD $0x0a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 10], 7
+	QUAD $0x010c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 12], 1
+	QUAD $0x020c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 12], 2
+	QUAD $0x030c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 12], 3
+	QUAD $0x040c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 12], 4
+	LONG $0x7cc40f66; WORD $0x0c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 12], 5
+	LONG $0x7cc40f66; WORD $0x0c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 12], 6
+	LONG $0x7cc40f66; WORD $0x0c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 12], 7
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x28 // movd    xmm8, dword [rsp + 40]
+	LONG $0x74b70f46; WORD $0x1c3a             // movzx    r14d, word [rdx + r15 + 28]
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	LONG $0x6e0f4166; BYTE $0xea               // movd    xmm5, r10d
+	LONG $0x54b70f46; WORD $0x1e3a             // movzx    r10d, word [rdx + r15 + 30]
+	QUAD $0x010e0264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 14], 1
+	QUAD $0x020e0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 14], 2
+	QUAD $0x030e2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 14], 3
+	QUAD $0x040e2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 14], 4
+	LONG $0x64c40f66; WORD $0x0e0a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 14], 5
+	LONG $0x64c40f66; WORD $0x0e3a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 14], 6
+	LONG $0x64c40f66; WORD $0x0e1a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 14], 7
+	QUAD $0x01120244c40f4666                   // pinsrw    xmm8, word [rdx + r8 + 18], 1
+	QUAD $0x02120a44c40f4666                   // pinsrw    xmm8, word [rdx + r9 + 18], 2
+	QUAD $0x03122244c40f4666                   // pinsrw    xmm8, word [rdx + r12 + 18], 3
+	QUAD $0x04122a44c40f4666                   // pinsrw    xmm8, word [rdx + r13 + 18], 4
+	QUAD $0x05120a44c40f4466                   // pinsrw    xmm8, word [rdx + rcx + 18], 5
+	QUAD $0x06123a44c40f4466                   // pinsrw    xmm8, word [rdx + rdi + 18], 6
+	QUAD $0x07121a44c40f4466                   // pinsrw    xmm8, word [rdx + rbx + 18], 7
+	LONG $0xe0750f66                           // pcmpeqw    xmm4, xmm0
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
+	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
+	LONG $0xe7eb0f66                           // por    xmm4, xmm7
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x44b70f42; WORD $0x203a             // movzx    eax, word [rdx + r15 + 32]
+	LONG $0xe3eb0f66                           // por    xmm4, xmm3
+	LONG $0x750f4466; BYTE $0xc0               // pcmpeqw    xmm8, xmm0
+	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
+	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
+	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
+	LONG $0x5cb70f46; WORD $0x223a             // movzx    r11d, word [rdx + r15 + 34]
+	QUAD $0x0110024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 16], 1
+	QUAD $0x02100a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 16], 2
+	QUAD $0x0310224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 16], 3
+	QUAD $0x04102a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 16], 4
+	LONG $0x4cc40f66; WORD $0x100a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 16], 5
+	LONG $0x4cc40f66; WORD $0x103a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 16], 6
+	LONG $0x4cc40f66; WORD $0x101a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 16], 7
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	LONG $0xf66e0f66                           // movd    xmm6, esi
+	LONG $0x74b70f42; WORD $0x243a             // movzx    esi, word [rdx + r15 + 36]
+	LONG $0x28247489                           // mov    dword [rsp + 40], esi
+	QUAD $0x0114026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 20], 1
+	QUAD $0x02140a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 20], 2
+	QUAD $0x0314226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 20], 3
+	QUAD $0x04142a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 20], 4
+	LONG $0x6cc40f66; WORD $0x140a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 20], 5
+	LONG $0x6cc40f66; WORD $0x143a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 20], 6
+	LONG $0x6cc40f66; WORD $0x141a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 20], 7
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
+	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
+	LONG $0x74b70f42; WORD $0x263a             // movzx    esi, word [rdx + r15 + 38]
+	LONG $0x10247489                           // mov    dword [rsp + 16], esi
+	QUAD $0x01160254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 22], 1
+	QUAD $0x02160a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 22], 2
+	QUAD $0x03162254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 22], 3
+	QUAD $0x04162a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 22], 4
+	LONG $0x54c40f66; WORD $0x160a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 22], 5
+	LONG $0x54c40f66; WORD $0x163a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 22], 6
+	LONG $0x54c40f66; WORD $0x161a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 22], 7
+	QUAD $0x0118025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 24], 1
+	QUAD $0x02180a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 24], 2
+	QUAD $0x0318225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 24], 3
+	QUAD $0x04182a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 24], 4
+	LONG $0x5cc40f66; WORD $0x180a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 24], 5
+	LONG $0x5cc40f66; WORD $0x183a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 24], 6
+	LONG $0x5cc40f66; WORD $0x181a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 24], 7
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
+	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
+	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
+	LONG $0x74b70f46; WORD $0x283a             // movzx    r14d, word [rdx + r15 + 40]
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x44b70f42; WORD $0x2a3a             // movzx    eax, word [rdx + r15 + 42]
+	LONG $0x18244489                           // mov    dword [rsp + 24], eax
+	QUAD $0x011a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 26], 1
+	QUAD $0x021a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 26], 2
+	QUAD $0x031a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 26], 3
+	QUAD $0x041a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 26], 4
+	LONG $0x74c40f66; WORD $0x1a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 26], 5
+	LONG $0x74c40f66; WORD $0x1a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 26], 6
+	LONG $0x74c40f66; WORD $0x1a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 26], 7
+	QUAD $0x011c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 28], 1
+	QUAD $0x021c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 28], 2
+	QUAD $0x031c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 28], 3
+	QUAD $0x041c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 28], 4
+	LONG $0x7cc40f66; WORD $0x1c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 28], 5
+	LONG $0x7cc40f66; WORD $0x1c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 28], 6
+	LONG $0x7cc40f66; WORD $0x1c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 28], 7
+	QUAD $0x011e0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 30], 1
+	QUAD $0x021e0a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 30], 2
+	QUAD $0x031e2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 30], 3
+	QUAD $0x041e2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 30], 4
+	LONG $0x54c40f66; WORD $0x1e0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 30], 5
+	LONG $0x54c40f66; WORD $0x1e3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 30], 6
+	LONG $0x54c40f66; WORD $0x1e1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 30], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
+	LONG $0x54b70f46; WORD $0x2c3a             // movzx    r10d, word [rdx + r15 + 44]
+	LONG $0xd0750f66                           // pcmpeqw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
+	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	LONG $0x746e0f66; WORD $0x2824             // movd    xmm6, dword [rsp + 40]
+	LONG $0x74b70f42; WORD $0x2e3a             // movzx    esi, word [rdx + r15 + 46]
+	QUAD $0x0120026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 32], 1
+	QUAD $0x02200a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 32], 2
+	QUAD $0x0320226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 32], 3
+	QUAD $0x04202a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 32], 4
+	LONG $0x6cc40f66; WORD $0x200a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 32], 5
+	LONG $0x6cc40f66; WORD $0x203a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 32], 6
+	QUAD $0x0122024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 34], 1
+	QUAD $0x02220a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 34], 2
+	QUAD $0x0322224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 34], 3
+	QUAD $0x04222a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 34], 4
+	LONG $0x4cc40f66; WORD $0x220a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 34], 5
+	LONG $0x4cc40f66; WORD $0x223a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 34], 6
+	LONG $0x4cc40f66; WORD $0x221a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 34], 7
+	LONG $0xd3eb0f66                           // por    xmm2, xmm3
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
+	LONG $0x5c6e0f66; WORD $0x1024             // movd    xmm3, dword [rsp + 16]
+	LONG $0x5cb70f46; WORD $0x303a             // movzx    r11d, word [rdx + r15 + 48]
+	LONG $0x6cc40f66; WORD $0x201a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 32], 7
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	QUAD $0x01240274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 36], 1
+	QUAD $0x02240a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 36], 2
+	QUAD $0x03242274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 36], 3
+	QUAD $0x04242a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 36], 4
+	LONG $0x74c40f66; WORD $0x240a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 36], 5
+	LONG $0x74c40f66; WORD $0x243a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 36], 6
+	LONG $0x74c40f66; WORD $0x241a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 36], 7
+	QUAD $0x0126025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 38], 1
+	QUAD $0x02260a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 38], 2
+	QUAD $0x0326225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 38], 3
+	QUAD $0x04262a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 38], 4
+	LONG $0x5cc40f66; WORD $0x260a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 38], 5
+	LONG $0x5cc40f66; WORD $0x263a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 38], 6
+	LONG $0x5cc40f66; WORD $0x261a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 38], 7
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
+	QUAD $0x0128026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 40], 1
+	QUAD $0x02280a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 40], 2
+	QUAD $0x0328226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 40], 3
+	QUAD $0x04282a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 40], 4
+	LONG $0x6cc40f66; WORD $0x280a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 40], 5
+	LONG $0x6cc40f66; WORD $0x283a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 40], 6
+	LONG $0x44b70f42; WORD $0x323a             // movzx    eax, word [rdx + r15 + 50]
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
+	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
+	LONG $0x74b70f46; WORD $0x343a             // movzx    r14d, word [rdx + r15 + 52]
+	LONG $0x6cc40f66; WORD $0x281a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 40], 7
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
+	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xebeb0f66                           // por    xmm5, xmm3
+	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
+	LONG $0x54b70f46; WORD $0x363a             // movzx    r10d, word [rdx + r15 + 54]
+	QUAD $0x012a024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 42], 1
+	QUAD $0x022a0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 42], 2
+	QUAD $0x032a224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 42], 3
+	QUAD $0x042a2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 42], 4
+	LONG $0x4cc40f66; WORD $0x2a0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 42], 5
+	LONG $0x4cc40f66; WORD $0x2a3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 42], 6
+	LONG $0x4cc40f66; WORD $0x2a1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 42], 7
+	QUAD $0x012c027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 44], 1
+	QUAD $0x022c0a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 44], 2
+	QUAD $0x032c227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 44], 3
+	QUAD $0x042c2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 44], 4
+	LONG $0x7cc40f66; WORD $0x2c0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 44], 5
+	LONG $0x7cc40f66; WORD $0x2c3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 44], 6
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0xde6e0f66                           // movd    xmm3, esi
+	LONG $0x74b70f42; WORD $0x383a             // movzx    esi, word [rdx + r15 + 56]
+	LONG $0x7cc40f66; WORD $0x2c1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 44], 7
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
+	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
+	LONG $0xf8750f66                           // pcmpeqw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
+	LONG $0x5cb70f46; WORD $0x3a3a             // movzx    r11d, word [rdx + r15 + 58]
+	QUAD $0x012e025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 46], 1
+	QUAD $0x022e0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 46], 2
+	QUAD $0x032e225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 46], 3
+	QUAD $0x042e2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 46], 4
+	LONG $0x5cc40f66; WORD $0x2e0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 46], 5
+	LONG $0x5cc40f66; WORD $0x2e3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 46], 6
+	LONG $0x5cc40f66; WORD $0x2e1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 46], 7
+	LONG $0xd8750f66                           // pcmpeqw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
+	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
+	LONG $0xdfeb0f66                           // por    xmm3, xmm7
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x44b70f42; WORD $0x3c3a             // movzx    eax, word [rdx + r15 + 60]
+	LONG $0x7cb70f46; WORD $0x3e3a             // movzx    r15d, word [rdx + r15 + 62]
+	QUAD $0x0132024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 50], 1
+	QUAD $0x02320a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 50], 2
+	QUAD $0x0332224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 50], 3
+	QUAD $0x04322a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 50], 4
+	LONG $0x4cc40f66; WORD $0x320a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 50], 5
+	LONG $0x4cc40f66; WORD $0x323a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 50], 6
+	LONG $0x4cc40f66; WORD $0x321a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 50], 7
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
+	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
+	QUAD $0x01300274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 48], 1
+	QUAD $0x02300a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 48], 2
+	QUAD $0x03302274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 48], 3
+	QUAD $0x04302a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 48], 4
+	LONG $0x74c40f66; WORD $0x300a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 48], 5
+	LONG $0x74c40f66; WORD $0x303a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 48], 6
+	LONG $0x74c40f66; WORD $0x301a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 48], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	QUAD $0x0134024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 52], 1
+	QUAD $0x02340a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 52], 2
+	QUAD $0x0334224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 52], 3
+	QUAD $0x04342a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 52], 4
+	LONG $0x4cc40f66; WORD $0x340a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 52], 5
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0x4cc40f66; WORD $0x343a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 52], 6
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	LONG $0x4cc40f66; WORD $0x341a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 52], 7
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
+	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
+	LONG $0xcdeb0f66                           // por    xmm1, xmm5
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	QUAD $0x01360274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 54], 1
+	QUAD $0x02360a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 54], 2
+	QUAD $0x03362274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 54], 3
+	QUAD $0x04362a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 54], 4
+	LONG $0x74c40f66; WORD $0x360a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 54], 5
+	LONG $0x74c40f66; WORD $0x363a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 54], 6
+	LONG $0x74c40f66; WORD $0x361a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 54], 7
+	QUAD $0x0138026cc40f4266                   // pinsrw    xmm5, word [rdx + r8 + 56], 1
+	QUAD $0x02380a6cc40f4266                   // pinsrw    xmm5, word [rdx + r9 + 56], 2
+	QUAD $0x0338226cc40f4266                   // pinsrw    xmm5, word [rdx + r12 + 56], 3
+	QUAD $0x04382a6cc40f4266                   // pinsrw    xmm5, word [rdx + r13 + 56], 4
+	LONG $0x6cc40f66; WORD $0x380a; BYTE $0x05 // pinsrw    xmm5, word [rdx + rcx + 56], 5
+	LONG $0x6cc40f66; WORD $0x383a; BYTE $0x06 // pinsrw    xmm5, word [rdx + rdi + 56], 6
+	LONG $0x6cc40f66; WORD $0x381a; BYTE $0x07 // pinsrw    xmm5, word [rdx + rbx + 56], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
+	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
+	LONG $0xe8750f66                           // pcmpeqw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
+	LONG $0x24348b48                           // mov    rsi, qword [rsp]
+	QUAD $0x013a0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 58], 1
+	QUAD $0x023a0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 58], 2
+	QUAD $0x033a2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 58], 3
+	QUAD $0x043a2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 58], 4
+	LONG $0x74c40f66; WORD $0x3a0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 58], 5
+	LONG $0x74c40f66; WORD $0x3a3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 58], 6
+	LONG $0x74c40f66; WORD $0x3a1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 58], 7
+	LONG $0xe9eb0f66                           // por    xmm5, xmm1
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	QUAD $0x013c024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 60], 1
+	QUAD $0x023c0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 60], 2
+	QUAD $0x033c224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 60], 3
+	QUAD $0x043c2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 60], 4
+	LONG $0x4cc40f66; WORD $0x3c0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 60], 5
+	LONG $0x4cc40f66; WORD $0x3c3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 60], 6
+	LONG $0x4cc40f66; WORD $0x3c1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 60], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xc8750f66                           // pcmpeqw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
+	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
+	LONG $0xceeb0f66                           // por    xmm1, xmm6
+	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
+	QUAD $0x013e0274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 62], 1
+	QUAD $0x023e0a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 62], 2
+	QUAD $0x033e2274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 62], 3
+	QUAD $0x043e2a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 62], 4
+	LONG $0x74c40f66; WORD $0x3e0a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 62], 5
+	LONG $0x74c40f66; WORD $0x3e3a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 62], 6
+	LONG $0x74c40f66; WORD $0x3e1a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 62], 7
+	LONG $0xf0750f66                           // pcmpeqw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
+	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
+	LONG $0xf1eb0f66                           // por    xmm6, xmm1
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
+	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI2_9] */
+	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
+	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
+	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
+	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
+	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
+	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	LONG $0x247f0ff3; BYTE $0x8e               // movdqu    oword [rsi + 4*rcx], xmm4
+	LONG $0x24348948                           // mov    qword [rsp], rsi
+	LONG $0x4c7f0ff3; WORD $0x108e             // movdqu    oword [rsi + 4*rcx + 16], xmm1
+	LONG $0x08c18348                           // add    rcx, 8
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x244c3b48; BYTE $0x20               // cmp    rcx, qword [rsp + 32]
+	JNE  LBB2_195
+	QUAD $0x0000009824bc8b4c                   // mov    r15, qword [rsp + 152]
+	LONG $0x247c3b4c; BYTE $0x20               // cmp    r15, qword [rsp + 32]
+	QUAD $0x0000009024948b4c                   // mov    r10, qword [rsp + 144]
+	LONG $0x246c8b44; BYTE $0x38               // mov    r13d, dword [rsp + 56]
+	LONG $0x24748b4c; BYTE $0x08               // mov    r14, qword [rsp + 8]
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	JNE  LBB2_104
+	JMP  LBB2_143
+
+LBB2_197:
+	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
+	LONG $0xfce08349                           // and    r8, -4
+	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
+	LONG $0x07e3c148                           // shl    rbx, 7
+	WORD $0x0148; BYTE $0xd3                   // add    rbx, rdx
+	LONG $0x24048b48                           // mov    rax, qword [rsp]
+	LONG $0x801c8d4e                           // lea    r11, [rax + 4*r8]
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
+	LONG $0xfcc28148; WORD $0x0001; BYTE $0x00 // add    rdx, 508
+	WORD $0xc931                               // xor    ecx, ecx
+	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI2_0] */
+	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI2_1] */
+	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI2_2] */
+	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI2_3] */
+	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI2_4] */
+	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI2_5] */
+	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI2_6] */
+	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI2_7] */
+	LONG $0x24048b48                           // mov    rax, qword [rsp]
+
+LBB2_198:
+	QUAD $0xfffffe04b2100ff3                   // movss    xmm6, dword [rdx - 508]
+	QUAD $0xfffffe08ba100ff3                   // movss    xmm7, dword [rdx - 504]
+	QUAD $0xfffffe0caa100ff3                   // movss    xmm5, dword [rdx - 500]
+	QUAD $0xfffffe10a2100ff3                   // movss    xmm4, dword [rdx - 496]
+	QUAD $0xfffe84b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 380], 16
+	QUAD $0xffff04b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 252], 32
+	LONG $0x213a0f66; WORD $0x8472; BYTE $0x30 // insertps    xmm6, dword [rdx - 124], 48
+	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	QUAD $0xfffe88ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 376], 16
+	QUAD $0xffff08ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 248], 32
+	LONG $0x213a0f66; WORD $0x887a; BYTE $0x30 // insertps    xmm7, dword [rdx - 120], 48
+	QUAD $0xfffe8caa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 372], 16
+	QUAD $0xffff0caa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 244], 32
+	LONG $0x213a0f66; WORD $0x8c6a; BYTE $0x30 // insertps    xmm5, dword [rdx - 116], 48
+	QUAD $0xfffe90a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 368], 16
+	QUAD $0xffff10a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 240], 32
+	LONG $0x213a0f66; WORD $0x9062; BYTE $0x30 // insertps    xmm4, dword [rdx - 112], 48
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
+	QUAD $0xfffffe14ba100ff3                   // movss    xmm7, dword [rdx - 492]
+	QUAD $0xfffe94ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 364], 16
+	QUAD $0xffff14ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 236], 32
+	LONG $0x213a0f66; WORD $0x947a; BYTE $0x30 // insertps    xmm7, dword [rdx - 108], 48
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0xfffffe18b2100ff3                   // movss    xmm6, dword [rdx - 488]
+	QUAD $0xfffe98b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 360], 16
+	QUAD $0xffff18b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 232], 32
+	LONG $0x213a0f66; WORD $0x9872; BYTE $0x30 // insertps    xmm6, dword [rdx - 104], 48
+	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
+	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
+	LONG $0xeaeb0f66                           // por    xmm5, xmm2
+	QUAD $0xfffffe1c9a100ff3                   // movss    xmm3, dword [rdx - 484]
+	QUAD $0xfffe9c9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 356], 16
+	QUAD $0xffff1c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 228], 32
+	LONG $0x213a0f66; WORD $0x9c5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 100], 48
+	LONG $0x00e1c20f                           // cmpeqps    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
+	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
+	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
+	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
+	LONG $0xfceb0f66                           // por    xmm7, xmm4
+	QUAD $0xfffffe20a2100ff3                   // movss    xmm4, dword [rdx - 480]
+	QUAD $0xfffea0a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 352], 16
+	QUAD $0xffff20a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 224], 32
+	LONG $0x213a0f66; WORD $0xa062; BYTE $0x30 // insertps    xmm4, dword [rdx - 96], 48
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	QUAD $0xfffffe24aa100ff3                   // movss    xmm5, dword [rdx - 476]
+	QUAD $0xfffea4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 348], 16
+	QUAD $0xffff24aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 220], 32
+	LONG $0x213a0f66; WORD $0xa46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 92], 48
+	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
+	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe2892100ff3                   // movss    xmm2, dword [rdx - 472]
+	QUAD $0xfffea892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 344], 16
+	QUAD $0xffff2892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 216], 32
+	LONG $0x213a0f66; WORD $0xa852; BYTE $0x30 // insertps    xmm2, dword [rdx - 88], 48
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0x00e1c20f                           // cmpeqps    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
+	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
+	LONG $0xe3eb0f66                           // por    xmm4, xmm3
+	QUAD $0xfffffe2c9a100ff3                   // movss    xmm3, dword [rdx - 468]
+	QUAD $0xfffeac9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 340], 16
+	QUAD $0xffff2c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 212], 32
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0x213a0f66; WORD $0xac5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 84], 48
+	LONG $0xe7eb0f66                           // por    xmm4, xmm7
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
+	QUAD $0xfffffe30ba100ff3                   // movss    xmm7, dword [rdx - 464]
+	QUAD $0xfffeb0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 336], 16
+	QUAD $0xffff30ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 208], 32
+	LONG $0x213a0f66; WORD $0xb07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 80], 48
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	QUAD $0xfffffe34aa100ff3                   // movss    xmm5, dword [rdx - 460]
+	QUAD $0xfffeb4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 332], 16
+	QUAD $0xffff34aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 204], 32
+	LONG $0x213a0f66; WORD $0xb46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 76], 48
+	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe38b2100ff3                   // movss    xmm6, dword [rdx - 456]
+	QUAD $0xfffeb8b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 328], 16
+	QUAD $0xffff38b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 200], 32
+	LONG $0x213a0f66; WORD $0xb872; BYTE $0x30 // insertps    xmm6, dword [rdx - 72], 48
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
+	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
+	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	QUAD $0xfffffe3c92100ff3                   // movss    xmm2, dword [rdx - 452]
+	QUAD $0xfffebc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 324], 16
+	QUAD $0xffff3c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 196], 32
+	LONG $0x213a0f66; WORD $0xbc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 68], 48
+	LONG $0xebeb0f66                           // por    xmm5, xmm3
+	QUAD $0xfffffe40ba100ff3                   // movss    xmm7, dword [rdx - 448]
+	QUAD $0xfffec0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 320], 16
+	QUAD $0xffff40ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 192], 32
+	LONG $0x213a0f66; WORD $0xc07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 64], 48
+	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0xfffffe44b2100ff3                   // movss    xmm6, dword [rdx - 444]
+	QUAD $0xfffec4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 316], 16
+	QUAD $0xffff44b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 188], 32
+	LONG $0x213a0f66; WORD $0xc472; BYTE $0x30 // insertps    xmm6, dword [rdx - 60], 48
+	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
+	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
+	LONG $0xfaeb0f66                           // por    xmm7, xmm2
+	QUAD $0xfffffe4892100ff3                   // movss    xmm2, dword [rdx - 440]
+	QUAD $0xfffec892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 312], 16
+	QUAD $0xffff4892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 184], 32
+	LONG $0x213a0f66; WORD $0xc852; BYTE $0x30 // insertps    xmm2, dword [rdx - 56], 48
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	QUAD $0xfffffe4c9a100ff3                   // movss    xmm3, dword [rdx - 436]
+	QUAD $0xfffecc9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 308], 16
+	QUAD $0xffff4c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 180], 32
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0x213a0f66; WORD $0xcc5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 52], 48
+	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
+	QUAD $0xfffffe50aa100ff3                   // movss    xmm5, dword [rdx - 432]
+	QUAD $0xfffed0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 304], 16
+	QUAD $0xffff50aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 176], 32
+	LONG $0x213a0f66; WORD $0xd06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 48], 48
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	QUAD $0xfffffe54b2100ff3                   // movss    xmm6, dword [rdx - 428]
+	QUAD $0xfffed4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 300], 16
+	QUAD $0xffff54b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 172], 32
+	LONG $0x213a0f66; WORD $0xd472; BYTE $0x30 // insertps    xmm6, dword [rdx - 44], 48
+	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdfeb0f66                           // por    xmm3, xmm7
+	QUAD $0xfffffe58ba100ff3                   // movss    xmm7, dword [rdx - 424]
+	QUAD $0xfffed8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 296], 16
+	QUAD $0xffff58ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 168], 32
+	LONG $0x213a0f66; WORD $0xd87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 40], 48
+	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
+	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
+	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
+	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	QUAD $0xfffffe5c92100ff3                   // movss    xmm2, dword [rdx - 420]
+	QUAD $0xfffedc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 292], 16
+	QUAD $0xffff5c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 164], 32
+	LONG $0x213a0f66; WORD $0xdc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 36], 48
+	LONG $0xf3eb0f66                           // por    xmm6, xmm3
+	QUAD $0xfffffe60aa100ff3                   // movss    xmm5, dword [rdx - 416]
+	QUAD $0xfffee0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 288], 16
+	QUAD $0xffff60aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 160], 32
+	LONG $0x213a0f66; WORD $0xe06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 32], 48
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
+	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	QUAD $0xfffffe64ba100ff3                   // movss    xmm7, dword [rdx - 412]
+	QUAD $0xfffee4ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 284], 16
+	QUAD $0xffff64ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 156], 32
+	LONG $0x213a0f66; WORD $0xe47a; BYTE $0x30 // insertps    xmm7, dword [rdx - 28], 48
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0x00e9c20f                           // cmpeqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
+	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
+	LONG $0xeaeb0f66                           // por    xmm5, xmm2
+	QUAD $0xfffffe6892100ff3                   // movss    xmm2, dword [rdx - 408]
+	QUAD $0xfffee892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 280], 16
+	QUAD $0xffff6892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 152], 32
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0x213a0f66; WORD $0xe852; BYTE $0x30 // insertps    xmm2, dword [rdx - 24], 48
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
+	QUAD $0xfffffe6c9a100ff3                   // movss    xmm3, dword [rdx - 404]
+	QUAD $0xfffeec9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 276], 16
+	QUAD $0xffff6c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 148], 32
+	LONG $0x213a0f66; WORD $0xec5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 20], 48
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	QUAD $0xfffffe7092100ff3                   // movss    xmm2, dword [rdx - 400]
+	QUAD $0xfffef092213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 272], 16
+	QUAD $0xffff7092213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 144], 32
+	LONG $0x213a0f66; WORD $0xf052; BYTE $0x30 // insertps    xmm2, dword [rdx - 16], 48
+	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe74b2100ff3                   // movss    xmm6, dword [rdx - 396]
+	QUAD $0xfffef4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 268], 16
+	QUAD $0xffff74b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 140], 32
+	LONG $0x213a0f66; WORD $0xf472; BYTE $0x30 // insertps    xmm6, dword [rdx - 12], 48
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
+	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
+	LONG $0x00f1c20f                           // cmpeqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
+	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
+	LONG $0xf2eb0f66                           // por    xmm6, xmm2
+	QUAD $0xfffffe78ba100ff3                   // movss    xmm7, dword [rdx - 392]
+	QUAD $0xfffef8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 264], 16
+	QUAD $0xffff78ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 136], 32
+	LONG $0x213a0f66; WORD $0xf87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 8], 48
+	LONG $0xf3eb0f66                           // por    xmm6, xmm3
+	QUAD $0xfffffe7c92100ff3                   // movss    xmm2, dword [rdx - 388]
+	QUAD $0xfffefc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 260], 16
+	QUAD $0xffff7c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 132], 32
+	LONG $0x213a0f66; WORD $0xfc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 4], 48
+	LONG $0x00f9c20f                           // cmpeqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
+	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
+	LONG $0x00d1c20f                           // cmpeqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	QUAD $0xfffffe809a100ff3                   // movss    xmm3, dword [rdx - 384]
+	QUAD $0xffff009a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 256], 16
+	LONG $0x213a0f66; WORD $0x805a; BYTE $0x20 // insertps    xmm3, dword [rdx - 128], 32
+	LONG $0x213a0f66; WORD $0x301a             // insertps    xmm3, dword [rdx], 48
+	LONG $0x00d9c20f                           // cmpeqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
+	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
+	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
+	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
+	LONG $0x247f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm4
+	LONG $0x04c18348                           // add    rcx, 4
+	LONG $0x00c28148; WORD $0x0002; BYTE $0x00 // add    rdx, 512
+	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
+	JNE  LBB2_198
+	WORD $0x394d; BYTE $0xc6                   // cmp    r14, r8
+	JNE  LBB2_127
+	JMP  LBB2_147
+
+TEXT ·_comparison_not_equal_arr_arr_sse4(SB), $80-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	ADDQ $8, SP
+
+	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
+	WORD $0x8949; BYTE $0xce // mov    r14, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB3_29
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB3_2
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB3_68
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB3_79
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB3_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_22
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_20:
+	WORD $0x0e8b                 // mov    ecx, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_20
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_22:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_26
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB3_24:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd5950f41                           // setne    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd3950f41                           // setne    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd7950f41                           // setne    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd2950f41                           // setne    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd6950f41                           // setne    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd4950f41                           // setne    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd1950f41                           // setne    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB3_24
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB3_26:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_28:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_28
+	JMP  LBB3_123
+
+LBB3_29:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB3_30
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB3_101
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB3_112
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB3_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_50
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_48:
+	LONG $0x06100ff2             // movsd    xmm0, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_48
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_50:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_54
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB3_52:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x06100ff2                           // movsd    xmm0, qword [rsi]
+	LONG $0x4e100ff2; BYTE $0x08               // movsd    xmm1, qword [rsi + 8]
+	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
+	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
+	LONG $0x4a2e0f66; BYTE $0x08               // ucomisd    xmm1, qword [rdx + 8]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x46100ff2; BYTE $0x10               // movsd    xmm0, qword [rsi + 16]
+	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
+	LONG $0x46100ff2; BYTE $0x18               // movsd    xmm0, qword [rsi + 24]
+	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
+	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
+	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
+	LONG $0x46100ff2; BYTE $0x20               // movsd    xmm0, qword [rsi + 32]
+	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
+	LONG $0x46100ff2; BYTE $0x28               // movsd    xmm0, qword [rsi + 40]
+	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
+	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
+	LONG $0x46100ff2; BYTE $0x30               // movsd    xmm0, qword [rsi + 48]
+	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
+	LONG $0x46100ff2; BYTE $0x38               // movsd    xmm0, qword [rsi + 56]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x46100ff2; BYTE $0x40               // movsd    xmm0, qword [rsi + 64]
+	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
+	LONG $0x46100ff2; BYTE $0x48               // movsd    xmm0, qword [rsi + 72]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x46100ff2; BYTE $0x50               // movsd    xmm0, qword [rsi + 80]
+	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
+	LONG $0x46100ff2; BYTE $0x58               // movsd    xmm0, qword [rsi + 88]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x46100ff2; BYTE $0x60               // movsd    xmm0, qword [rsi + 96]
+	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
+	LONG $0x46100ff2; BYTE $0x68               // movsd    xmm0, qword [rsi + 104]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
+	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
+	LONG $0x46100ff2; BYTE $0x70               // movsd    xmm0, qword [rsi + 112]
+	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
+	LONG $0x46100ff2; BYTE $0x78               // movsd    xmm0, qword [rsi + 120]
+	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
+	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	QUAD $0x0000008086100ff2                   // movsd    xmm0, qword [rsi + 128]
+	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
+	QUAD $0x0000008886100ff2                   // movsd    xmm0, qword [rsi + 136]
+	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
+	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
+	QUAD $0x0000009086100ff2                   // movsd    xmm0, qword [rsi + 144]
+	LONG $0xd6950f41                           // setne    r14b
+	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
+	QUAD $0x0000009886100ff2                   // movsd    xmm0, qword [rsi + 152]
+	LONG $0xd4950f41                           // setne    r12b
+	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
+	QUAD $0x000000a086100ff2                   // movsd    xmm0, qword [rsi + 160]
+	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
+	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
+	QUAD $0x000000a886100ff2                   // movsd    xmm0, qword [rsi + 168]
+	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
+	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
+	QUAD $0x000000b086100ff2                   // movsd    xmm0, qword [rsi + 176]
+	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
+	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
+	QUAD $0x000000b886100ff2                   // movsd    xmm0, qword [rsi + 184]
+	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
+	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
+	QUAD $0x000000c086100ff2                   // movsd    xmm0, qword [rsi + 192]
+	LONG $0xd0950f41                           // setne    r8b
+	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
+	QUAD $0x000000c886100ff2                   // movsd    xmm0, qword [rsi + 200]
+	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
+	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
+	QUAD $0x000000d086100ff2                   // movsd    xmm0, qword [rsi + 208]
+	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
+	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
+	QUAD $0x000000d886100ff2                   // movsd    xmm0, qword [rsi + 216]
+	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
+	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
+	QUAD $0x000000e086100ff2                   // movsd    xmm0, qword [rsi + 224]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
+	QUAD $0x000000e886100ff2                   // movsd    xmm0, qword [rsi + 232]
+	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
+	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
+	QUAD $0x000000f086100ff2                   // movsd    xmm0, qword [rsi + 240]
+	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
+	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
+	QUAD $0x000000f886100ff2                   // movsd    xmm0, qword [rsi + 248]
+	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
+	LONG $0xd7950f40                           // setne    dil
+	WORD $0xc000                               // add    al, al
+	LONG $0x04244402                           // add    al, byte [rsp + 4]
+	LONG $0x06e5c041                           // shl    r13b, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
+	LONG $0x06e1c041                           // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB3_52
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB3_54:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_56:
+	LONG $0x04100ff2; BYTE $0xce // movsd    xmm0, qword [rsi + 8*rcx]
+	LONG $0x042e0f66; BYTE $0xca // ucomisd    xmm0, qword [rdx + 8*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_56
+	JMP  LBB3_123
+
+LBB3_2:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB3_57
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB3_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_8
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_6:
+	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x0a3a                 // cmp    cl, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_6
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_8:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_12
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB3_10:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x950f; BYTE $0xd1       // setne    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd7950f41               // setne    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd7950f40               // setne    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd2950f41               // setne    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd3950f41               // setne    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd6950f41               // setne    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x950f; BYTE $0xd3       // setne    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd4950f41               // setne    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd5950f41               // setne    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd1950f41               // setne    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd0950f41               // setne    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB3_10
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB3_12:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_14:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
+	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_14
+	JMP  LBB3_123
+
+LBB3_30:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB3_90
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB3_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_36
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_34:
+	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_34
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_36:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_40
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB3_38:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB3_38
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB3_40:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_42:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
+	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_42
+	JMP  LBB3_123
+
+LBB3_68:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_72
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_70:
+	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_70
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_72:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_76
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB3_74:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x2454950f; BYTE $0x20   // setne    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd5950f41               // setne    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd0950f41               // setne    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd3950f41               // setne    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd7950f41               // setne    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x950f; BYTE $0xd3       // setne    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd2950f41               // setne    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd6950f41               // setne    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd4950f41               // setne    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd1950f41               // setne    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd7950f40               // setne    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB3_74
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB3_76:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_78:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
+	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_78
+	JMP  LBB3_123
+
+LBB3_79:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_83
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_81:
+	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_81
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_83:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_87
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB3_85:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x2454950f; BYTE $0x20   // setne    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd5950f41               // setne    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd0950f41               // setne    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd3950f41               // setne    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd7950f41               // setne    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x950f; BYTE $0xd3       // setne    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd2950f41               // setne    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd6950f41               // setne    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd4950f41               // setne    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd1950f41               // setne    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd7950f40               // setne    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB3_85
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB3_87:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_89:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
+	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_89
+	JMP  LBB3_123
+
+LBB3_101:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_105
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_103:
+	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_103
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_105:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_109
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB3_107:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB3_107
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB3_109:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_111:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
+	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_111
+	JMP  LBB3_123
+
+LBB3_112:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_116
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_114:
+	LONG $0x06100ff3             // movss    xmm0, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_114
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_116:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_120
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB3_118:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x06100ff3                           // movss    xmm0, dword [rsi]
+	LONG $0x4e100ff3; BYTE $0x04               // movss    xmm1, dword [rsi + 4]
+	WORD $0x2e0f; BYTE $0x02                   // ucomiss    xmm0, dword [rdx]
+	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
+	LONG $0x044a2e0f                           // ucomiss    xmm1, dword [rdx + 4]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x46100ff3; BYTE $0x08               // movss    xmm0, dword [rsi + 8]
+	LONG $0x08422e0f                           // ucomiss    xmm0, dword [rdx + 8]
+	LONG $0x46100ff3; BYTE $0x0c               // movss    xmm0, dword [rsi + 12]
+	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
+	LONG $0x0c422e0f                           // ucomiss    xmm0, dword [rdx + 12]
+	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
+	LONG $0x46100ff3; BYTE $0x10               // movss    xmm0, dword [rsi + 16]
+	LONG $0x10422e0f                           // ucomiss    xmm0, dword [rdx + 16]
+	LONG $0x46100ff3; BYTE $0x14               // movss    xmm0, dword [rsi + 20]
+	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
+	LONG $0x14422e0f                           // ucomiss    xmm0, dword [rdx + 20]
+	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
+	LONG $0x46100ff3; BYTE $0x18               // movss    xmm0, dword [rsi + 24]
+	LONG $0x18422e0f                           // ucomiss    xmm0, dword [rdx + 24]
+	LONG $0x46100ff3; BYTE $0x1c               // movss    xmm0, dword [rsi + 28]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x1c422e0f                           // ucomiss    xmm0, dword [rdx + 28]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x46100ff3; BYTE $0x20               // movss    xmm0, dword [rsi + 32]
+	LONG $0x20422e0f                           // ucomiss    xmm0, dword [rdx + 32]
+	LONG $0x46100ff3; BYTE $0x24               // movss    xmm0, dword [rsi + 36]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0x24422e0f                           // ucomiss    xmm0, dword [rdx + 36]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x46100ff3; BYTE $0x28               // movss    xmm0, dword [rsi + 40]
+	LONG $0x28422e0f                           // ucomiss    xmm0, dword [rdx + 40]
+	LONG $0x46100ff3; BYTE $0x2c               // movss    xmm0, dword [rsi + 44]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x2c422e0f                           // ucomiss    xmm0, dword [rdx + 44]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x46100ff3; BYTE $0x30               // movss    xmm0, dword [rsi + 48]
+	LONG $0x30422e0f                           // ucomiss    xmm0, dword [rdx + 48]
+	LONG $0x46100ff3; BYTE $0x34               // movss    xmm0, dword [rsi + 52]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x34422e0f                           // ucomiss    xmm0, dword [rdx + 52]
+	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
+	LONG $0x46100ff3; BYTE $0x38               // movss    xmm0, dword [rsi + 56]
+	LONG $0x38422e0f                           // ucomiss    xmm0, dword [rdx + 56]
+	LONG $0x46100ff3; BYTE $0x3c               // movss    xmm0, dword [rsi + 60]
+	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
+	LONG $0x3c422e0f                           // ucomiss    xmm0, dword [rdx + 60]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x46100ff3; BYTE $0x40               // movss    xmm0, dword [rsi + 64]
+	LONG $0x40422e0f                           // ucomiss    xmm0, dword [rdx + 64]
+	LONG $0x46100ff3; BYTE $0x44               // movss    xmm0, dword [rsi + 68]
+	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
+	LONG $0x44422e0f                           // ucomiss    xmm0, dword [rdx + 68]
+	LONG $0x46100ff3; BYTE $0x48               // movss    xmm0, dword [rsi + 72]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x48422e0f                           // ucomiss    xmm0, dword [rdx + 72]
+	LONG $0x46100ff3; BYTE $0x4c               // movss    xmm0, dword [rsi + 76]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x4c422e0f                           // ucomiss    xmm0, dword [rdx + 76]
+	LONG $0x46100ff3; BYTE $0x50               // movss    xmm0, dword [rsi + 80]
+	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
+	LONG $0x50422e0f                           // ucomiss    xmm0, dword [rdx + 80]
+	LONG $0x46100ff3; BYTE $0x54               // movss    xmm0, dword [rsi + 84]
+	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
+	LONG $0x54422e0f                           // ucomiss    xmm0, dword [rdx + 84]
+	LONG $0x46100ff3; BYTE $0x58               // movss    xmm0, dword [rsi + 88]
+	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
+	LONG $0x58422e0f                           // ucomiss    xmm0, dword [rdx + 88]
+	LONG $0x46100ff3; BYTE $0x5c               // movss    xmm0, dword [rsi + 92]
+	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
+	LONG $0x5c422e0f                           // ucomiss    xmm0, dword [rdx + 92]
+	LONG $0x46100ff3; BYTE $0x60               // movss    xmm0, dword [rsi + 96]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x60422e0f                           // ucomiss    xmm0, dword [rdx + 96]
+	LONG $0x46100ff3; BYTE $0x64               // movss    xmm0, dword [rsi + 100]
+	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
+	LONG $0x64422e0f                           // ucomiss    xmm0, dword [rdx + 100]
+	LONG $0x46100ff3; BYTE $0x68               // movss    xmm0, dword [rsi + 104]
+	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
+	LONG $0x68422e0f                           // ucomiss    xmm0, dword [rdx + 104]
+	LONG $0x46100ff3; BYTE $0x6c               // movss    xmm0, dword [rsi + 108]
+	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
+	LONG $0x6c422e0f                           // ucomiss    xmm0, dword [rdx + 108]
+	LONG $0x46100ff3; BYTE $0x70               // movss    xmm0, dword [rsi + 112]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x70422e0f                           // ucomiss    xmm0, dword [rdx + 112]
+	LONG $0x46100ff3; BYTE $0x74               // movss    xmm0, dword [rsi + 116]
+	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
+	LONG $0x74422e0f                           // ucomiss    xmm0, dword [rdx + 116]
+	LONG $0x46100ff3; BYTE $0x78               // movss    xmm0, dword [rsi + 120]
+	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
+	LONG $0x78422e0f                           // ucomiss    xmm0, dword [rdx + 120]
+	LONG $0x46100ff3; BYTE $0x7c               // movss    xmm0, dword [rsi + 124]
+	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x7c422e0f                           // ucomiss    xmm0, dword [rdx + 124]
+	LONG $0xd7950f40                           // setne    dil
+	WORD $0xc000                               // add    al, al
+	LONG $0x04244402                           // add    al, byte [rsp + 4]
+	LONG $0x06e5c041                           // shl    r13b, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
+	LONG $0x06e1c041                           // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB3_118
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB3_120:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_122:
+	LONG $0x04100ff3; BYTE $0x8e // movss    xmm0, dword [rsi + 4*rcx]
+	LONG $0x8a042e0f             // ucomiss    xmm0, dword [rdx + 4*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_122
+	JMP  LBB3_123
+
+LBB3_57:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_61
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_59:
+	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x0a3a                 // cmp    cl, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_59
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_61:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_65
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB3_63:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x2454950f; BYTE $0x28   // setne    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x950f; BYTE $0xd1       // setne    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x2454950f; BYTE $0x14   // setne    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x2454950f; BYTE $0x15   // setne    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x2454950f; BYTE $0x16   // setne    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x2454950f; BYTE $0x17   // setne    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x2454950f; BYTE $0x04   // setne    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd7950f41               // setne    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x2454950f; BYTE $0x07   // setne    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd7950f40               // setne    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd2950f41               // setne    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd3950f41               // setne    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd6950f41               // setne    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x2454950f; BYTE $0x05   // setne    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x2454950f; BYTE $0x06   // setne    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x950f; BYTE $0xd3       // setne    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x2454950f; BYTE $0x0d   // setne    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd4950f41               // setne    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd5950f41               // setne    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x2454950f; BYTE $0x08   // setne    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x2454950f; BYTE $0x09   // setne    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x2454950f; BYTE $0x0a   // setne    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x2454950f; BYTE $0x0b   // setne    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd1950f41               // setne    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x2454950f; BYTE $0x13   // setne    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x2454950f; BYTE $0x0c   // setne    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x2454950f; BYTE $0x0e   // setne    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x2454950f; BYTE $0x0f   // setne    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x2454950f; BYTE $0x10   // setne    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x2454950f; BYTE $0x11   // setne    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x2454950f; BYTE $0x12   // setne    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd0950f41               // setne    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB3_63
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB3_65:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_67:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
+	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_67
+	JMP  LBB3_123
+
+LBB3_90:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB3_94
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB3_92:
+	WORD $0x0e8b                 // mov    ecx, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd2950f41             // setne    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB3_92
+	LONG $0x01c68349             // add    r14, 1
+
+LBB3_94:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB3_98
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB3_96:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x2454950f; BYTE $0x14               // setne    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x2454950f; BYTE $0x15               // setne    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x2454950f; BYTE $0x16               // setne    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x2454950f; BYTE $0x17               // setne    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x2454950f; BYTE $0x04               // setne    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd5950f41                           // setne    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x2454950f; BYTE $0x09               // setne    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd3950f41                           // setne    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd7950f41                           // setne    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x2454950f; BYTE $0x05               // setne    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x2454950f; BYTE $0x06               // setne    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x2454950f; BYTE $0x07               // setne    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x2454950f; BYTE $0x0a               // setne    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd2950f41                           // setne    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd6950f41                           // setne    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd4950f41                           // setne    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x2454950f; BYTE $0x0b               // setne    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x2454950f; BYTE $0x0c               // setne    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd1950f41                           // setne    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x2454950f; BYTE $0x13               // setne    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x2454950f; BYTE $0x0d               // setne    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x2454950f; BYTE $0x0e               // setne    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x2454950f; BYTE $0x0f               // setne    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x2454950f; BYTE $0x12               // setne    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x2454950f; BYTE $0x11               // setne    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB3_96
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB3_98:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB3_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB3_100:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB3_100
+
+LBB3_123:
+	SUBQ $8, SP
+	RET
+
+DATA LCDATA3<>+0x000(SB)/8, $0x0000000001010101
+DATA LCDATA3<>+0x008(SB)/8, $0x0000000000000000
+DATA LCDATA3<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA3<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA3<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA3<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA3<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA3<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA3<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA3<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA3<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA3<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA3<>+0x060(SB)/8, $0x8080808080808080
+DATA LCDATA3<>+0x068(SB)/8, $0x8080808080808080
+DATA LCDATA3<>+0x070(SB)/8, $0x0b030a0209010800
+DATA LCDATA3<>+0x078(SB)/8, $0x0f070e060d050c04
+DATA LCDATA3<>+0x080(SB)/8, $0x0202020202020202
+DATA LCDATA3<>+0x088(SB)/8, $0x0000000000000000
+DATA LCDATA3<>+0x090(SB)/8, $0x0404040404040404
+DATA LCDATA3<>+0x098(SB)/8, $0x0000000000000000
+DATA LCDATA3<>+0x0a0(SB)/8, $0x0808080808080808
+DATA LCDATA3<>+0x0a8(SB)/8, $0x0000000000000000
+DATA LCDATA3<>+0x0b0(SB)/8, $0x1010101010101010
+DATA LCDATA3<>+0x0b8(SB)/8, $0x0000000000000000
+DATA LCDATA3<>+0x0c0(SB)/8, $0x2020202020202020
+DATA LCDATA3<>+0x0c8(SB)/8, $0x0000000000000000
+DATA LCDATA3<>+0x0d0(SB)/8, $0x4040404040404040
+DATA LCDATA3<>+0x0d8(SB)/8, $0x0000000000000000
+DATA LCDATA3<>+0x0e0(SB)/8, $0x8080808080808080
+DATA LCDATA3<>+0x0e8(SB)/8, $0x0000000000000000
+DATA LCDATA3<>+0x0f0(SB)/8, $0x0f070e060d050c04
+DATA LCDATA3<>+0x0f8(SB)/8, $0x0000000000000000
+DATA LCDATA3<>+0x100(SB)/8, $0x0202020202020202
+DATA LCDATA3<>+0x108(SB)/8, $0x0202020202020202
+DATA LCDATA3<>+0x110(SB)/8, $0x0404040404040404
+DATA LCDATA3<>+0x118(SB)/8, $0x0404040404040404
+DATA LCDATA3<>+0x120(SB)/8, $0x0808080808080808
+DATA LCDATA3<>+0x128(SB)/8, $0x0808080808080808
+DATA LCDATA3<>+0x130(SB)/8, $0x1010101010101010
+DATA LCDATA3<>+0x138(SB)/8, $0x1010101010101010
+DATA LCDATA3<>+0x140(SB)/8, $0x2020202020202020
+DATA LCDATA3<>+0x148(SB)/8, $0x2020202020202020
+DATA LCDATA3<>+0x150(SB)/8, $0x4040404040404040
+DATA LCDATA3<>+0x158(SB)/8, $0x4040404040404040
+DATA LCDATA3<>+0x160(SB)/8, $0xffffffffffffffff
+DATA LCDATA3<>+0x168(SB)/8, $0xffffffffffffffff
+GLOBL LCDATA3<>(SB), 8, $368
+
+TEXT ·_comparison_not_equal_arr_scalar_sse4(SB), $328-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $16, SP
+	ANDQ $-16, SP
+	MOVQ BP, 304(SP)
+	LEAQ LCDATA3<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc7 // mov    r15, r8
+	WORD $0x8949; BYTE $0xce // mov    r14, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB4_17
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB4_32
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB4_83
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB4_95
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB4_179
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff // test    r15, r15
+	LONG $0xd7490f4d         // cmovns    r10, r15
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_9
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_7:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB4_7
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB4_9:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20ff8349         // cmp    r15, 32
+	JL   LBB4_13
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
+
+LBB4_11:
+	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x60245402                           // add    dl, byte [rsp + 96]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
+	JNE  LBB4_11
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+
+LBB4_13:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB4_179
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JE   LBB4_82
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB4_16:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_16
+	JMP  LBB4_153
+
+LBB4_17:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB4_46
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB4_107
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB4_118
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB4_179
+	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff // test    r15, r15
+	LONG $0xd7490f4d         // cmovns    r10, r15
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_25
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_23:
+	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB4_23
+	LONG $0x01c68349             // add    r14, 1
+
+LBB4_25:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20ff8349         // cmp    r15, 32
+	JL   LBB4_29
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
+	QUAD $0x000000982494894c // mov    qword [rsp + 152], r10
+
+LBB4_27:
+	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
+	LONG $0x062e0f66                           // ucomisd    xmm0, qword [rsi]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x462e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rsi + 8]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x462e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rsi + 16]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x462e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rsi + 24]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x462e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rsi + 32]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x462e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rsi + 40]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x462e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rsi + 48]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x462e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rsi + 56]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x462e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rsi + 64]
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x462e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rsi + 72]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x462e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rsi + 80]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x462e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rsi + 88]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x462e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rsi + 96]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x462e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rsi + 104]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x462e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rsi + 112]
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x462e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rsi + 120]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	QUAD $0x00000080862e0f66                   // ucomisd    xmm0, qword [rsi + 128]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	QUAD $0x00000088862e0f66                   // ucomisd    xmm0, qword [rsi + 136]
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	QUAD $0x00000090862e0f66                   // ucomisd    xmm0, qword [rsi + 144]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	QUAD $0x00000098862e0f66                   // ucomisd    xmm0, qword [rsi + 152]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	QUAD $0x000000a0862e0f66                   // ucomisd    xmm0, qword [rsi + 160]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	QUAD $0x000000a8862e0f66                   // ucomisd    xmm0, qword [rsi + 168]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	QUAD $0x000000b0862e0f66                   // ucomisd    xmm0, qword [rsi + 176]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	QUAD $0x000000b8862e0f66                   // ucomisd    xmm0, qword [rsi + 184]
+	LONG $0xd7950f41                           // setne    r15b
+	QUAD $0x000000c0862e0f66                   // ucomisd    xmm0, qword [rsi + 192]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	QUAD $0x000000c8862e0f66                   // ucomisd    xmm0, qword [rsi + 200]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	QUAD $0x000000d0862e0f66                   // ucomisd    xmm0, qword [rsi + 208]
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	QUAD $0x000000d8862e0f66                   // ucomisd    xmm0, qword [rsi + 216]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	QUAD $0x000000e0862e0f66                   // ucomisd    xmm0, qword [rsi + 224]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	QUAD $0x000000e8862e0f66                   // ucomisd    xmm0, qword [rsi + 232]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	QUAD $0x000000f0862e0f66                   // ucomisd    xmm0, qword [rsi + 240]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	QUAD $0x000000f8862e0f66                   // ucomisd    xmm0, qword [rsi + 248]
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x00000088248c0244                   // add    r9b, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000b024bcb60f                   // movzx    edi, byte [rsp + 176]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
+	WORD $0xc000                               // add    al, al
+	LONG $0x60244402                           // add    al, byte [rsp + 96]
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB4_27
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+
+LBB4_29:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB4_179
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JNE  LBB4_162
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB4_164
+
+LBB4_32:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB4_60
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB4_179
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff // test    r15, r15
+	LONG $0xd7490f4d         // cmovns    r10, r15
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_38
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_36:
+	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB4_36
+	LONG $0x01c68349             // add    r14, 1
+
+LBB4_38:
+	LONG $0x05fac149             // sar    r10, 5
+	LONG $0x20ff8349             // cmp    r15, 32
+	JL   LBB4_130
+	LONG $0x10fa8349             // cmp    r10, 16
+	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
+	QUAD $0x0000009024bc894c     // mov    qword [rsp + 144], r15
+	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
+	JB   LBB4_42
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
+	JAE  LBB4_180
+	LONG $0x96048d4b             // lea    rax, [r14 + 4*r10]
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB4_180
+
+LBB4_42:
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000f024848948     // mov    qword [rsp + 240], rax
+	LONG $0x2474894c; BYTE $0x68 // mov    qword [rsp + 104], r14
+
+LBB4_43:
+	QUAD $0x000000f024942b4c // sub    r10, qword [rsp + 240]
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+
+LBB4_44:
+	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
+	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
+	QUAD $0x000000e02494950f                   // setne    byte [rsp + 224]
+	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000e024b40240                   // add    sil, byte [rsp + 224]
+	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0xc208                               // or    dl, al
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x05e5c041                           // shl    r13b, 5
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
+	LONG $0x247cb60f; BYTE $0x50               // movzx    edi, byte [rsp + 80]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
+	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
+	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40244402                           // add    al, byte [rsp + 64]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xc308                               // or    bl, al
+	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
+	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
+	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
+	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
+	LONG $0x04c28348                           // add    rdx, 4
+	LONG $0x24548948; BYTE $0x68               // mov    qword [rsp + 104], rdx
+	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
+	JNE  LBB4_44
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	JMP  LBB4_131
+
+LBB4_46:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB4_72
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB4_179
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff // test    r15, r15
+	LONG $0xd7490f4d         // cmovns    r10, r15
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_52
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_50:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB4_50
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB4_52:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20ff8349         // cmp    r15, 32
+	JL   LBB4_56
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
+
+LBB4_54:
+	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x60245402                           // add    dl, byte [rsp + 96]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
+	JNE  LBB4_54
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+
+LBB4_56:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB4_179
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JE   LBB4_117
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB4_59:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_59
+	JMP  LBB4_168
+
+LBB4_60:
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff // test    r15, r15
+	LONG $0xd7490f4d         // cmovns    r10, r15
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_64
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_62:
+	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB4_62
+	LONG $0x01c68349             // add    r14, 1
+
+LBB4_64:
+	LONG $0x05fac149             // sar    r10, 5
+	LONG $0x20ff8349             // cmp    r15, 32
+	JL   LBB4_134
+	LONG $0x10fa8349             // cmp    r10, 16
+	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
+	QUAD $0x0000009024bc894c     // mov    qword [rsp + 144], r15
+	QUAD $0x000001002494894c     // mov    qword [rsp + 256], r10
+	JB   LBB4_68
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
+	JAE  LBB4_183
+	LONG $0x96048d4b             // lea    rax, [r14 + 4*r10]
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB4_183
+
+LBB4_68:
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000f024848948     // mov    qword [rsp + 240], rax
+	LONG $0x2474894c; BYTE $0x68 // mov    qword [rsp + 104], r14
+
+LBB4_69:
+	QUAD $0x000000f024942b4c // sub    r10, qword [rsp + 240]
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+
+LBB4_70:
+	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
+	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
+	QUAD $0x000000e02494950f                   // setne    byte [rsp + 224]
+	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000e024b40240                   // add    sil, byte [rsp + 224]
+	QUAD $0x000000982484b60f                   // movzx    eax, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0xc208                               // or    dl, al
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x05e5c041                           // shl    r13b, 5
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
+	LONG $0x247cb60f; BYTE $0x50               // movzx    edi, byte [rsp + 80]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
+	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
+	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40244402                           // add    al, byte [rsp + 64]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xc308                               // or    bl, al
+	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
+	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
+	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
+	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
+	LONG $0x04c28348                           // add    rdx, 4
+	LONG $0x24548948; BYTE $0x68               // mov    qword [rsp + 104], rdx
+	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
+	JNE  LBB4_70
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
+	JMP  LBB4_135
+
+LBB4_72:
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff // test    r15, r15
+	LONG $0xd7490f4d         // cmovns    r10, r15
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_76
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_74:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB4_74
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB4_76:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20ff8349         // cmp    r15, 32
+	JL   LBB4_80
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
+
+LBB4_78:
+	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x60245402                           // add    dl, byte [rsp + 96]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
+	JNE  LBB4_78
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+
+LBB4_80:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB4_179
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JNE  LBB4_151
+
+LBB4_82:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB4_153
+
+LBB4_83:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff // test    r15, r15
+	LONG $0xd7490f4d         // cmovns    r10, r15
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_87
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_85:
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB4_85
+	LONG $0x01c68349             // add    r14, 1
+
+LBB4_87:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20ff8349         // cmp    r15, 32
+	JL   LBB4_138
+	LONG $0x08fa8349         // cmp    r10, 8
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+	JB   LBB4_91
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x06e0c148         // shl    rax, 6
+	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
+	JAE  LBB4_186
+	LONG $0x96048d4b         // lea    rax, [r14 + 4*r10]
+	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
+	JBE  LBB4_186
+
+LBB4_91:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
+	WORD $0x894d; BYTE $0xf4     // mov    r12, r14
+
+LBB4_92:
+	LONG $0x2464894c; BYTE $0x08 // mov    qword [rsp + 8], r12
+	LONG $0x24542b4c; BYTE $0x18 // sub    r10, qword [rsp + 24]
+	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
+
+LBB4_93:
+	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x6b394566; BYTE $0x04               // cmp    word [r11 + 4], r13w
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x6b394566; BYTE $0x06               // cmp    word [r11 + 6], r13w
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x6b394566; BYTE $0x08               // cmp    word [r11 + 8], r13w
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x6b394566; BYTE $0x0a               // cmp    word [r11 + 10], r13w
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x6b394566; BYTE $0x0c               // cmp    word [r11 + 12], r13w
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x6b394566; BYTE $0x0e               // cmp    word [r11 + 14], r13w
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x6b394566; BYTE $0x10               // cmp    word [r11 + 16], r13w
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x6b394566; BYTE $0x12               // cmp    word [r11 + 18], r13w
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x6b394566; BYTE $0x14               // cmp    word [r11 + 20], r13w
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x0000009824b40240                   // add    sil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	WORD $0xc900                               // add    cl, cl
+	LONG $0xc0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 192]
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	QUAD $0x000000b0248cb60f                   // movzx    ecx, byte [rsp + 176]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x50244c02                           // add    cl, byte [rsp + 80]
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	WORD $0x1988                               // mov    byte [rcx], bl
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
+	LONG $0x01798840                           // mov    byte [rcx + 1], dil
+	WORD $0x0841; BYTE $0xf2                   // or    r10b, sil
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xc000                               // add    al, al
+	LONG $0x30244402                           // add    al, byte [rsp + 48]
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd808                               // or    al, bl
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xda08                               // or    dl, bl
+	WORD $0xc208                               // or    dl, al
+	LONG $0x02518844                           // mov    byte [rcx + 2], r10b
+	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
+	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
+	LONG $0x04c18348                           // add    rcx, 4
+	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
+	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
+	JNE  LBB4_93
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	JMP  LBB4_139
+
+LBB4_95:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff // test    r15, r15
+	LONG $0xd7490f4d         // cmovns    r10, r15
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_99
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_97:
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB4_97
+	LONG $0x01c68349             // add    r14, 1
+
+LBB4_99:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20ff8349         // cmp    r15, 32
+	JL   LBB4_143
+	LONG $0x08fa8349         // cmp    r10, 8
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+	JB   LBB4_103
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x06e0c148         // shl    rax, 6
+	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
+	JAE  LBB4_189
+	LONG $0x96048d4b         // lea    rax, [r14 + 4*r10]
+	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
+	JBE  LBB4_189
+
+LBB4_103:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
+	WORD $0x894d; BYTE $0xf4     // mov    r12, r14
+
+LBB4_104:
+	LONG $0x2464894c; BYTE $0x08 // mov    qword [rsp + 8], r12
+	LONG $0x24542b4c; BYTE $0x18 // sub    r10, qword [rsp + 24]
+	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
+
+LBB4_105:
+	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x6b394566; BYTE $0x04               // cmp    word [r11 + 4], r13w
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x6b394566; BYTE $0x06               // cmp    word [r11 + 6], r13w
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x6b394566; BYTE $0x08               // cmp    word [r11 + 8], r13w
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x6b394566; BYTE $0x0a               // cmp    word [r11 + 10], r13w
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x6b394566; BYTE $0x0c               // cmp    word [r11 + 12], r13w
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x6b394566; BYTE $0x0e               // cmp    word [r11 + 14], r13w
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x6b394566; BYTE $0x10               // cmp    word [r11 + 16], r13w
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x6b394566; BYTE $0x12               // cmp    word [r11 + 18], r13w
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x6b394566; BYTE $0x14               // cmp    word [r11 + 20], r13w
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x0000009824b40240                   // add    sil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	WORD $0xc900                               // add    cl, cl
+	LONG $0xc0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 192]
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	QUAD $0x000000b0248cb60f                   // movzx    ecx, byte [rsp + 176]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x50244c02                           // add    cl, byte [rsp + 80]
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	WORD $0x1988                               // mov    byte [rcx], bl
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
+	LONG $0x01798840                           // mov    byte [rcx + 1], dil
+	WORD $0x0841; BYTE $0xf2                   // or    r10b, sil
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xc000                               // add    al, al
+	LONG $0x30244402                           // add    al, byte [rsp + 48]
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd808                               // or    al, bl
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xda08                               // or    dl, bl
+	WORD $0xc208                               // or    dl, al
+	LONG $0x02518844                           // mov    byte [rcx + 2], r10b
+	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
+	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
+	LONG $0x04c18348                           // add    rcx, 4
+	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
+	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
+	JNE  LBB4_105
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	JMP  LBB4_144
+
+LBB4_107:
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff // test    r15, r15
+	LONG $0xd7490f4d         // cmovns    r10, r15
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_111
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_109:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB4_109
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB4_111:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20ff8349         // cmp    r15, 32
+	JL   LBB4_115
+	QUAD $0x0000009024bc894c // mov    qword [rsp + 144], r15
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
+
+LBB4_113:
+	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd0950f41                           // setne    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000009824bc0240                   // add    dil, byte [rsp + 152]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xc0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 192]
+	QUAD $0x000000882484b60f                   // movzx    eax, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x60245402                           // add    dl, byte [rsp + 96]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
+	JNE  LBB4_113
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+
+LBB4_115:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB4_179
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JNE  LBB4_166
+
+LBB4_117:
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB4_168
+
+LBB4_118:
+	LONG $0x1f578d4d         // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff // test    r15, r15
+	LONG $0xd7490f4d         // cmovns    r10, r15
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB4_122
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB4_120:
+	WORD $0x2e0f; BYTE $0x06     // ucomiss    xmm0, dword [rsi]
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB4_120
+	LONG $0x01c68349             // add    r14, 1
+
+LBB4_122:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20ff8349         // cmp    r15, 32
+	JL   LBB4_147
+	LONG $0x04fa8349         // cmp    r10, 4
+	JB   LBB4_126
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x07e0c148         // shl    rax, 7
+	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
+	JAE  LBB4_192
+	LONG $0x96048d4b         // lea    rax, [r14 + 4*r10]
+	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
+	JBE  LBB4_192
+
+LBB4_126:
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
+	WORD $0x894d; BYTE $0xf3 // mov    r11, r14
+
+LBB4_127:
+	LONG $0x245c894c; BYTE $0x08 // mov    qword [rsp + 8], r11
+	QUAD $0x0000009024bc894c     // mov    qword [rsp + 144], r15
+	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
+	WORD $0x294d; BYTE $0xc2     // sub    r10, r8
+	QUAD $0x000000982494894c     // mov    qword [rsp + 152], r10
+
+LBB4_128:
+	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
+	QUAD $0x000000a02494950f                   // setne    byte [rsp + 160]
+	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x0000008824840244                   // add    r8b, byte [rsp + 136]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
+	WORD $0xc000                               // add    al, al
+	LONG $0x60244402                           // add    al, byte [rsp + 96]
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x38               // movzx    edi, byte [rsp + 56]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20244402                           // add    al, byte [rsp + 32]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xc108                               // or    cl, al
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
+	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
+	LONG $0x04c68348                           // add    rsi, 4
+	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB4_128
+	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	JMP  LBB4_148
+
+LBB4_130:
+	LONG $0x2474894c; BYTE $0x68 // mov    qword [rsp + 104], r14
+
+LBB4_131:
+	LONG $0x05e2c149             // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa     // cmp    r10, r15
+	JGE  LBB4_179
+	WORD $0x894d; BYTE $0xf8     // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0     // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2     // not    r10
+	WORD $0x014d; BYTE $0xfa     // add    r10, r15
+	JE   LBB4_137
+	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0x24748b4c; BYTE $0x68 // mov    r14, qword [rsp + 104]
+
+LBB4_156:
+	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
+	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
+	LONG $0x02488d4c             // lea    r9, [rax + 2]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
+	JNE  LBB4_156
+	JMP  LBB4_159
+
+LBB4_134:
+	LONG $0x2474894c; BYTE $0x68 // mov    qword [rsp + 104], r14
+
+LBB4_135:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB4_179
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JNE  LBB4_157
+
+LBB4_137:
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB4_179
+	JMP  LBB4_161
+
+LBB4_138:
+	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
+
+LBB4_139:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB4_179
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JE   LBB4_146
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
+
+LBB4_142:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
+	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x02c68349             // add    r14, 2
+	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xda30                 // xor    dl, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x3c048841             // mov    byte [r12 + rdi], al
+	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
+	JNE  LBB4_142
+	JMP  LBB4_173
+
+LBB4_143:
+	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
+
+LBB4_144:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB4_179
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JNE  LBB4_171
+
+LBB4_146:
+	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
+	JMP  LBB4_173
+
+LBB4_147:
+	WORD $0x894d; BYTE $0xf3 // mov    r11, r14
+	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
+
+LBB4_148:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB4_179
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JNE  LBB4_175
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB4_177
+
+LBB4_151:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB4_152:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_152
+
+LBB4_153:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB4_179
+	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
+	JMP  LBB4_170
+
+LBB4_157:
+	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0x24748b4c; BYTE $0x68 // mov    r14, qword [rsp + 104]
+
+LBB4_158:
+	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
+	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
+	LONG $0x02488d4c             // lea    r9, [rax + 2]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
+	JNE  LBB4_158
+
+LBB4_159:
+	WORD $0x014c; BYTE $0xce // add    rsi, r9
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB4_179
+
+LBB4_161:
+	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x24448b4c; BYTE $0x68 // mov    r8, qword [rsp + 104]
+	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
+	LONG $0x07e18041             // and    r9b, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8     // xor    al, dil
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
+	LONG $0x101c8841             // mov    byte [r8 + rdx], bl
+	JMP  LBB4_179
+
+LBB4_162:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB4_163:
+	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x462e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rsi + 8]
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_163
+
+LBB4_164:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB4_179
+	LONG $0x062e0f66 // ucomisd    xmm0, qword [rsi]
+	JMP  LBB4_170
+
+LBB4_166:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB4_167:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB4_167
+
+LBB4_168:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB4_179
+	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
+
+LBB4_170:
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
+	JMP  LBB4_179
+
+LBB4_171:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
+
+LBB4_172:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
+	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x02c68349             // add    r14, 2
+	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xda30                 // xor    dl, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x3c048841             // mov    byte [r12 + rdi], al
+	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
+	JNE  LBB4_172
+
+LBB4_173:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB4_179
+	LONG $0x2e394466         // cmp    word [rsi], r13w
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x894c; BYTE $0xf2 // mov    rdx, r14
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
+	LONG $0x07e68041         // and    r14b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xf1 // mov    ecx, r14d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
+	JMP  LBB4_179
+
+LBB4_175:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+
+LBB4_176:
+	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	LONG $0x02c68348             // add    rsi, 2
+	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
+	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x2044; BYTE $0xca     // and    dl, r9b
+	WORD $0xc230                 // xor    dl, al
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB4_176
+
+LBB4_177:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB4_179
+	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x133c8a41         // mov    dil, byte [r11 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
+
+LBB4_179:
+	MOVQ 304(SP), SP
+	RET
+
+LBB4_180:
+	LONG $0xf0e28349                     // and    r10, -16
+	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000012024848948             // mov    qword [rsp + 288], rax
+	QUAD $0x000000f02494894c             // mov    qword [rsp + 240], r10
+	LONG $0x96048d4b                     // lea    rax, [r14 + 4*r10]
+	LONG $0x24448948; BYTE $0x68         // mov    qword [rsp + 104], rax
+	LONG $0xc3b60f41                     // movzx    eax, r11b
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x000100248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 256], xmm1
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
+
+LBB4_181:
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x05e1c148                           // shl    rcx, 5
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
+	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
+	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
+	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
+	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	LONG $0x0e0cb60f                           // movzx    ecx, byte [rsi + rcx]
+	LONG $0xe16e0f66                           // movd    xmm4, ecx
+	LONG $0x164cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rdx + 1]
+	LONG $0xd96e0f66                           // movd    xmm3, ecx
+	LONG $0x164cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rdx + 2]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	LONG $0x164cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rdx + 3]
+	LONG $0xf96e0f66                           // movd    xmm7, ecx
+	LONG $0x164cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rdx + 4]
+	LONG $0xc96e0f66                           // movd    xmm1, ecx
+	LONG $0x164cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rdx + 5]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	LONG $0x164cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rdx + 6]
+	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
+	LONG $0x164cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rdx + 7]
+	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
+	LONG $0x164cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rdx + 8]
+	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
+	LONG $0x164cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rdx + 9]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
+	LONG $0x164cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rdx + 10]
+	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
+	LONG $0x164cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rdx + 11]
+	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
+	LONG $0x164cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rdx + 12]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
+	LONG $0x164cb60f; BYTE $0x0d               // movzx    ecx, byte [rsi + rdx + 13]
+	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
+	LONG $0x164cb60f; BYTE $0x0e               // movzx    ecx, byte [rsi + rdx + 14]
+	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
+	LONG $0x164cb60f; BYTE $0x0f               // movzx    ecx, byte [rsi + rdx + 15]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000b024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm0
+	LONG $0x24548948; BYTE $0x18               // mov    qword [rsp + 24], rdx
+	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
+	LONG $0x20c98348                           // or    rcx, 32
+	LONG $0x244c8948; BYTE $0x28               // mov    qword [rsp + 40], rcx
+	LONG $0x40cb8349                           // or    r11, 64
+	LONG $0x245c894c; BYTE $0x70               // mov    qword [rsp + 112], r11
+	LONG $0x60c88349                           // or    r8, 96
+	LONG $0x2444894c; BYTE $0x40               // mov    qword [rsp + 64], r8
+	LONG $0x80ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 128
+	LONG $0xa0cd8149; WORD $0x0000; BYTE $0x00 // or    r13, 160
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	LONG $0xc0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 192
+	LONG $0x2454894c; BYTE $0x48               // mov    qword [rsp + 72], r10
+	LONG $0xe0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 224
+	LONG $0x00cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 256
+	LONG $0x20cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 288
+	QUAD $0x000000c024bc8948                   // mov    qword [rsp + 192], rdi
+	LONG $0x40c98149; WORD $0x0001; BYTE $0x00 // or    r9, 320
+	LONG $0x244c894c; BYTE $0x20               // mov    qword [rsp + 32], r9
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	LONG $0x60cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 352
+	LONG $0x245c8948; BYTE $0x30               // mov    qword [rsp + 48], rbx
+	LONG $0x01800d48; WORD $0x0000             // or    rax, 384
+	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
+	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
+	LONG $0xc0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 448
+	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
+	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
+	LONG $0xe0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 480
+	LONG $0x244c8948; BYTE $0x38               // mov    qword [rsp + 56], rcx
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	LONG $0x203a0f66; WORD $0x1624; BYTE $0x01 // pinsrb    xmm4, byte [rsi + rdx], 1
+	QUAD $0x021e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r11], 2
+	QUAD $0x030624203a0f4266                   // pinsrb    xmm4, byte [rsi + r8], 3
+	QUAD $0x043624203a0f4266                   // pinsrb    xmm4, byte [rsi + r14], 4
+	QUAD $0x052e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r13], 5
+	QUAD $0x061624203a0f4266                   // pinsrb    xmm4, byte [rsi + r10], 6
+	QUAD $0x072624203a0f4266                   // pinsrb    xmm4, byte [rsi + r12], 7
+	QUAD $0x083e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r15], 8
+	LONG $0x203a0f66; WORD $0x3e24; BYTE $0x09 // pinsrb    xmm4, byte [rsi + rdi], 9
+	QUAD $0x0a0e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r9], 10
+	LONG $0x203a0f66; WORD $0x1e24; BYTE $0x0b // pinsrb    xmm4, byte [rsi + rbx], 11
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	LONG $0x203a0f66; WORD $0x1624; BYTE $0x0c // pinsrb    xmm4, byte [rsi + rdx], 12
+	LONG $0x203a0f66; WORD $0x0624; BYTE $0x0d // pinsrb    xmm4, byte [rsi + rax], 13
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	LONG $0x203a0f66; WORD $0x1e24; BYTE $0x0e // pinsrb    xmm4, byte [rsi + rbx], 14
+	LONG $0x203a0f66; WORD $0x0e24; BYTE $0x0f // pinsrb    xmm4, byte [rsi + rcx], 15
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x01011e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 1], 1
+	QUAD $0x011e5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r11 + 1], 2
+	QUAD $0x01065c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r8 + 1], 3
+	QUAD $0x01365c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r14 + 1], 4
+	QUAD $0x012e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 1], 5
+	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
+	QUAD $0x01165c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r10 + 1], 6
+	QUAD $0x01265c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r12 + 1], 7
+	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
+	QUAD $0x013e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r15 + 1], 8
+	QUAD $0x09013e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 1], 9
+	QUAD $0x010e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 1], 10
+	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
+	QUAD $0x01265c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r12 + 1], 11
+	QUAD $0x0c01165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 1], 12
+	QUAD $0x0d01065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 1], 13
+	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
+	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e01065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 1], 14
+	QUAD $0x00010024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 256]
+	LONG $0xe6740f66                           // pcmpeqb    xmm4, xmm6
+	QUAD $0x0f010e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 1], 15
+	LONG $0xde740f66                           // pcmpeqb    xmm3, xmm6
+	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI4_16] */
+	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
+	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	LONG $0x0654b60f; BYTE $0x10               // movzx    edx, byte [rsi + rax + 16]
+	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0102066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 1
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x02166c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rsi + r10 + 2], 2
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x03023e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 2], 3
+	QUAD $0x02366c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r14 + 2], 4
+	QUAD $0x021e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r11 + 2], 5
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x020e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r9 + 2], 6
+	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
+	QUAD $0x022e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r13 + 2], 7
+	QUAD $0x023e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r15 + 2], 8
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x0902166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 2], 9
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0a02066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 10
+	QUAD $0x02266c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r12 + 2], 11
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0c020e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 2], 12
+	QUAD $0x02066c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r8 + 2], 13
+	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
+	QUAD $0x022e6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r13 + 2], 14
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x02066c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r8 + 2], 15
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0103067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 1
+	QUAD $0x03167c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rsi + r10 + 3], 2
+	QUAD $0x03033e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 3], 3
+	QUAD $0x03367c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r14 + 3], 4
+	QUAD $0x031e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r11 + 3], 5
+	QUAD $0x030e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r9 + 3], 6
+	QUAD $0x07031e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 3], 7
+	QUAD $0x033e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r15 + 3], 8
+	QUAD $0x0903167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 3], 9
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0a03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 10
+	QUAD $0x03267c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r12 + 3], 11
+	QUAD $0x0c030e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 3], 12
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0d03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 13
+	QUAD $0x032e7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r13 + 3], 14
+	QUAD $0x03067c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r8 + 3], 15
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0104064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 1
+	QUAD $0x04164c203a0f4266; BYTE $0x02       // pinsrb    xmm1, byte [rsi + r10 + 4], 2
+	QUAD $0x03043e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 4], 3
+	QUAD $0x04364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 4], 4
+	QUAD $0x041e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r11 + 4], 5
+	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
+	QUAD $0x00000088249c894c                   // mov    qword [rsp + 136], r11
+	QUAD $0x040e4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rsi + r9 + 4], 6
+	QUAD $0x07041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 7
+	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
+	QUAD $0x043e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r15 + 4], 8
+	QUAD $0x0904164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 9
+	WORD $0x8948; BYTE $0xd3                   // mov    rbx, rdx
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0a04164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 10
+	QUAD $0x04264c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r12 + 4], 11
+	QUAD $0x0c040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 12
+	LONG $0x245c8b4c; BYTE $0x58               // mov    r11, qword [rsp + 88]
+	QUAD $0x041e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r11 + 4], 13
+	QUAD $0x042e4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r13 + 4], 14
+	QUAD $0x04064c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r8 + 4], 15
+	LONG $0xee740f66                           // pcmpeqb    xmm5, xmm6
+	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI4_17] */
+	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
+	LONG $0xfe740f66                           // pcmpeqb    xmm7, xmm6
+	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI4_18] */
+	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	LONG $0x0e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rcx + 17]
+	LONG $0xe26e0f66                           // movd    xmm4, edx
+	LONG $0xce740f66                           // pcmpeqb    xmm1, xmm6
+	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI4_19] */
+	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
+	LONG $0xcfeb0f66                           // por    xmm1, xmm7
+	LONG $0x0e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rcx + 18]
+	LONG $0xfa6e0f66                           // movd    xmm7, edx
+	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
+	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
+	LONG $0xcbeb0f66                           // por    xmm1, xmm3
+	LONG $0x0e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rcx + 19]
+	LONG $0xea6e0f66                           // movd    xmm5, edx
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x01051654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 5], 1
+	QUAD $0x051654203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r10 + 5], 2
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x03050e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 5], 3
+	LONG $0x2474894c; BYTE $0x78               // mov    qword [rsp + 120], r14
+	QUAD $0x053654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 5], 4
+	QUAD $0x05050654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 5], 5
+	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
+	QUAD $0x050e54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r9 + 5], 6
+	QUAD $0x000000a024bc8948                   // mov    qword [rsp + 160], rdi
+	QUAD $0x07053e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 5], 7
+	QUAD $0x053e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r15 + 5], 8
+	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
+	QUAD $0x09051e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 5], 9
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0a050654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 5], 10
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0b050e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 5], 11
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x052e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r13 + 5], 12
+	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
+	QUAD $0x051e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r11 + 5], 13
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0e050e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 5], 14
+	LONG $0x245c8b4c; BYTE $0x38               // mov    r11, qword [rsp + 56]
+	QUAD $0x051e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r11 + 5], 15
+	QUAD $0x061644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rdx + 6], 1
+	QUAD $0x061644203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r10 + 6], 2
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x061e44203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rbx + 6], 3
+	QUAD $0x063644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 6], 4
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x061e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rbx + 6], 5
+	QUAD $0x062644203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r12 + 6], 6
+	QUAD $0x063e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rdi + 6], 7
+	QUAD $0x063e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r15 + 6], 8
+	QUAD $0x060e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 6], 9
+	QUAD $0x060644203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rax + 6], 10
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x061e44203a0f4466; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + rbx + 6], 11
+	QUAD $0x062e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r13 + 6], 12
+	QUAD $0x060644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r8 + 6], 13
+	QUAD $0x060e44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rcx + 6], 14
+	QUAD $0x061e44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r11 + 6], 15
+	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
+	QUAD $0x071674203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rdx + 7], 1
+	QUAD $0x071674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r10 + 7], 2
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x071674203a0f4466; BYTE $0x03       // pinsrb    xmm14, byte [rsi + rdx + 7], 3
+	QUAD $0x073674203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r14 + 7], 4
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x071e74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rsi + r11 + 7], 5
+	QUAD $0x072674203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rsi + r12 + 7], 6
+	QUAD $0x073e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rdi + 7], 7
+	QUAD $0x073e74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r15 + 7], 8
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	LONG $0x247c894c; BYTE $0x60               // mov    qword [rsp + 96], r15
+	QUAD $0x070e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 7], 9
+	QUAD $0x070674203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rax + 7], 10
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x071e74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + rbx + 7], 11
+	QUAD $0x072e74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r13 + 7], 12
+	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
+	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
+	QUAD $0x070674203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + r8 + 7], 13
+	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
+	QUAD $0x072e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r13 + 7], 14
+	LONG $0xd6740f66                           // pcmpeqb    xmm2, xmm6
+	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI4_20] */
+	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
+	LONG $0x740f4466; BYTE $0xc6               // pcmpeqb    xmm8, xmm6
+	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI4_21] */
+	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
+	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
+	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
+	LONG $0x54b60f42; WORD $0x140e             // movzx    edx, byte [rsi + r9 + 20]
+	LONG $0xda6e0f66                           // movd    xmm3, edx
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x070e74203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rcx + 7], 15
+	LONG $0x740f4466; BYTE $0xf6               // pcmpeqb    xmm14, xmm6
+	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI4_6] */
+	LONG $0xdf0f4466; BYTE $0xf0               // pandn    xmm14, xmm0
+	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
+	LONG $0x54b60f42; WORD $0x150e             // movzx    edx, byte [rsi + r9 + 21]
+	LONG $0xd26e0f66                           // movd    xmm2, edx
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x080e4c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rcx + 8], 1
+	QUAD $0x08164c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rsi + r10 + 8], 2
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x08064c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r8 + 8], 3
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x08164c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdx + 8], 4
+	QUAD $0x081e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r11 + 8], 5
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x08164c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rdx + 8], 6
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x083e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r15 + 8], 7
+	QUAD $0x08264c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r12 + 8], 8
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x08264c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r12 + 8], 9
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x08164c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rdx + 8], 10
+	QUAD $0x081e4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + rbx + 8], 11
+	QUAD $0x08364c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r14 + 8], 12
+	QUAD $0x083e4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdi + 8], 13
+	QUAD $0x082e4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r13 + 8], 14
+	QUAD $0x08064c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rax + 8], 15
+	LONG $0xeb0f4466; BYTE $0xf1               // por    xmm14, xmm1
+	QUAD $0x011024b47f0f4466; WORD $0x0000     // movdqa    oword [rsp + 272], xmm14
+	LONG $0x54b60f42; WORD $0x160e             // movzx    edx, byte [rsi + r9 + 22]
+	LONG $0xca6e0f66                           // movd    xmm1, edx
+	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
+	LONG $0x740f4466; BYTE $0xce               // pcmpeqb    xmm9, xmm6
+	QUAD $0x00d024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 208]
+	QUAD $0x090e74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rcx + 9], 1
+	QUAD $0x091674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r10 + 9], 2
+	QUAD $0x090674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r8 + 9], 3
+	LONG $0x24448b48; BYTE $0x78               // mov    rax, qword [rsp + 120]
+	QUAD $0x090674203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rsi + rax + 9], 4
+	QUAD $0x091e74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rsi + r11 + 9], 5
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x091674203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rdx + 9], 6
+	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
+	QUAD $0x093e74203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rsi + r15 + 9], 7
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x093e74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r15 + 9], 8
+	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
+	QUAD $0x092674203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r12 + 9], 9
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x092e74203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r13 + 9], 10
+	QUAD $0x091e74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + rbx + 9], 11
+	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
+	QUAD $0x093674203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r14 + 9], 12
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x093674203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + r14 + 9], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x090674203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + rax + 9], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090674203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rax + 9], 15
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	QUAD $0x0a0e64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rcx + 10], 1
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0a0e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rcx + 10], 2
+	QUAD $0x0a0664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r8 + 10], 3
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0a0e64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rcx + 10], 4
+	QUAD $0x0a1e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r11 + 10], 5
+	QUAD $0x0a1664203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rdx + 10], 6
+	QUAD $0x0a3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 10], 7
+	QUAD $0x0a3e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r15 + 10], 8
+	QUAD $0x0a0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 10], 9
+	QUAD $0x0a2e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r13 + 10], 10
+	QUAD $0x0a1e64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + rbx + 10], 11
+	QUAD $0x0a2664203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r12 + 10], 12
+	QUAD $0x0a3664203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r14 + 10], 13
+	LONG $0x24748b4c; BYTE $0x10               // mov    r14, qword [rsp + 16]
+	QUAD $0x0a3664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r14 + 10], 14
+	QUAD $0x0a0664203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rax + 10], 15
+	QUAD $0x0b166c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r10 + 11], 1
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x0b166c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rsi + r10 + 11], 2
+	QUAD $0x0b066c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r8 + 11], 3
+	QUAD $0x0b0e6c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rsi + rcx + 11], 4
+	QUAD $0x0b1e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r11 + 11], 5
+	QUAD $0x0b166c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rdx + 11], 6
+	QUAD $0x0b3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 11], 7
+	QUAD $0x0b3e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r15 + 11], 8
+	QUAD $0x0b0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 11], 9
+	QUAD $0x0b2e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r13 + 11], 10
+	QUAD $0x0b1e6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + rbx + 11], 11
+	WORD $0x8949; BYTE $0xdf                   // mov    r15, rbx
+	QUAD $0x0b266c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r12 + 11], 12
+	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
+	QUAD $0x0b2e6c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r13 + 11], 13
+	QUAD $0x0b366c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r14 + 11], 14
+	QUAD $0x0b066c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rax + 11], 15
+	LONG $0x740f4466; BYTE $0xf6               // pcmpeqb    xmm14, xmm6
+	QUAD $0x000100b5df0f4466; BYTE $0x00       // pandn    xmm14, oword 256[rbp] /* [rip + .LCPI4_16] */
+	LONG $0xfc0f4566; BYTE $0xf1               // paddb    xmm14, xmm9
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	LONG $0x0654b60f; BYTE $0x17               // movzx    edx, byte [rsi + rax + 23]
+	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
+	LONG $0x740f4466; BYTE $0xe6               // pcmpeqb    xmm12, xmm6
+	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI4_17] */
+	LONG $0x740f4466; BYTE $0xee               // pcmpeqb    xmm13, xmm6
+	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI4_18] */
+	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
+	LONG $0x0654b60f; BYTE $0x18               // movzx    edx, byte [rsi + rax + 24]
+	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
+	QUAD $0x00e0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 224]
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0c064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 12], 1
+	QUAD $0x0c164c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rsi + r10 + 12], 2
+	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
+	QUAD $0x0c064c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r8 + 12], 3
+	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
+	QUAD $0x0c0e4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rcx + 12], 4
+	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
+	QUAD $0x0c1e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r11 + 12], 5
+	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
+	QUAD $0x0c1e4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rsi + r11 + 12], 6
+	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
+	QUAD $0x0c3e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rdi + 12], 7
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0c0e4c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rsi + rcx + 12], 8
+	QUAD $0x0c0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 12], 9
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c3e4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rdi + 12], 10
+	QUAD $0x0c3e4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r15 + 12], 11
+	QUAD $0x0c264c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r12 + 12], 12
+	QUAD $0x0c2e4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r13 + 12], 13
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0c164c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rdx + 12], 14
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0c164c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rdx + 12], 15
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0d165c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rdx + 13], 1
+	QUAD $0x0d165c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rsi + r10 + 13], 2
+	QUAD $0x0d065c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rax + 13], 3
+	QUAD $0x0d365c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r14 + 13], 4
+	QUAD $0x0d065c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r8 + 13], 5
+	QUAD $0x0d1e5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rsi + r11 + 13], 6
+	QUAD $0x0d1e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rbx + 13], 7
+	QUAD $0x0d0e5c203a0f4466; BYTE $0x08       // pinsrb    xmm11, byte [rsi + rcx + 13], 8
+	QUAD $0x0d0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 13], 9
+	QUAD $0x0d3e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rdi + 13], 10
+	QUAD $0x0d3e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 13], 11
+	QUAD $0x0d265c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r12 + 13], 12
+	QUAD $0x0d2e5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r13 + 13], 13
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0d165c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rdx + 13], 14
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0d165c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdx + 13], 15
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0e167c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rdx + 14], 1
+	QUAD $0x0e167c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r10 + 14], 2
+	QUAD $0x0e067c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rax + 14], 3
+	QUAD $0x0e367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 14], 4
+	QUAD $0x0e067c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rsi + r8 + 14], 5
+	QUAD $0x0e1e7c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rsi + r11 + 14], 6
+	QUAD $0x0e1e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rbx + 14], 7
+	QUAD $0x0e0e7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rsi + rcx + 14], 8
+	QUAD $0x0e0e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 14], 9
+	QUAD $0x0e3e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rdi + 14], 10
+	QUAD $0x0e3e7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r15 + 14], 11
+	QUAD $0x0e267c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r12 + 14], 12
+	QUAD $0x0e2e7c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r13 + 14], 13
+	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
+	QUAD $0x0e3e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r15 + 14], 14
+	LONG $0x740f4466; BYTE $0xce               // pcmpeqb    xmm9, xmm6
+	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI4_19] */
+	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	LONG $0x0e54b60f; BYTE $0x19               // movzx    edx, byte [rsi + rcx + 25]
+	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
+	QUAD $0x000160b5f80f4466; BYTE $0x00       // psubb    xmm14, oword 352[rbp] /* [rip + .LCPI4_22] */
+	LONG $0xeb0f4566; BYTE $0xce               // por    xmm9, xmm14
+	LONG $0x0e54b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rcx + 26]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0e067c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + rax + 14], 15
+	LONG $0x740f4466; BYTE $0xde               // pcmpeqb    xmm11, xmm6
+	QUAD $0x0001409ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 320[rbp] /* [rip + .LCPI4_20] */
+	LONG $0x740f4466; BYTE $0xfe               // pcmpeqb    xmm15, xmm6
+	LONG $0x6f0f4466; BYTE $0xf6               // movdqa    xmm14, xmm6
+	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI4_21] */
+	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
+	LONG $0x0e54b60f; BYTE $0x1b               // movzx    edx, byte [rsi + rcx + 27]
+	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
+	QUAD $0x0000b024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 176]
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x0f1e74203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r11 + 15], 1
+	QUAD $0x0f1674203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r10 + 15], 2
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x030f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 15], 3
+	QUAD $0x0f3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 15], 4
+	QUAD $0x0f0674203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r8 + 15], 5
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0f2674203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r12 + 15], 6
+	QUAD $0x000000a0248c8b48                   // mov    rcx, qword [rsp + 160]
+	QUAD $0x070f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 7
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x080f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 8
+	QUAD $0x0f0e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 15], 9
+	QUAD $0x0a0f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 10
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x0b0f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 11
+	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
+	QUAD $0x0f3674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r14 + 15], 12
+	QUAD $0x0f2e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r13 + 15], 13
+	QUAD $0x0f3e74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r15 + 15], 14
+	QUAD $0x0f0f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 15], 15
+	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
+	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI4_6] */
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	LONG $0x0654b60f; BYTE $0x1c               // movzx    edx, byte [rsi + rax + 28]
+	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
+	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
+	QUAD $0x0000b024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm6
+	LONG $0x0654b60f; BYTE $0x1d               // movzx    edx, byte [rsi + rax + 29]
+	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
+	QUAD $0x101e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r11 + 16], 1
+	QUAD $0x101654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r10 + 16], 2
+	QUAD $0x101e54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rbx + 16], 3
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x102e54203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r13 + 16], 4
+	QUAD $0x100654203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r8 + 16], 5
+	QUAD $0x102654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r12 + 16], 6
+	QUAD $0x000000a024a48b4c                   // mov    r12, qword [rsp + 160]
+	QUAD $0x102654203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r12 + 16], 7
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x101654203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rdx + 16], 8
+	QUAD $0x100e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 16], 9
+	QUAD $0x103e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rdi + 16], 10
+	QUAD $0x100e54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rcx + 16], 11
+	QUAD $0x103654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r14 + 16], 12
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x103654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r14 + 16], 13
+	QUAD $0x103e54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r15 + 16], 14
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x100654203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rax + 16], 15
+	QUAD $0x111e64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r11 + 17], 1
+	QUAD $0x111664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r10 + 17], 2
+	QUAD $0x03111e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 17], 3
+	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
+	QUAD $0x112e64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r13 + 17], 4
+	QUAD $0x110664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r8 + 17], 5
+	LONG $0x245c8b4c; BYTE $0x48               // mov    r11, qword [rsp + 72]
+	QUAD $0x111e64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r11 + 17], 6
+	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
+	QUAD $0x112664203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r12 + 17], 7
+	QUAD $0x08111664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 17], 8
+	QUAD $0x110e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 17], 9
+	QUAD $0x0a113e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 17], 10
+	QUAD $0x0b110e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 17], 11
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0c110e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 17], 12
+	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
+	QUAD $0x113664203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r14 + 17], 13
+	QUAD $0x113e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r15 + 17], 14
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	QUAD $0x0f110664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 17], 15
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	LONG $0x6f0f4166; BYTE $0xf6               // movdqa    xmm6, xmm14
+	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
+	LONG $0x740f4166; BYTE $0xe6               // pcmpeqb    xmm4, xmm14
+	QUAD $0x00000100a5df0f66                   // pandn    xmm4, oword 256[rbp] /* [rip + .LCPI4_16] */
+	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	LONG $0x3e54b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rdi + 30]
+	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0112067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 18], 1
+	QUAD $0x0113066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 1
+	QUAD $0x0114065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 20], 1
+	QUAD $0x01150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 1
+	QUAD $0x0116064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 22], 1
+	QUAD $0x170644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 23], 1
+	QUAD $0x180664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 24], 1
+	QUAD $0x19066c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rax + 25], 1
+	QUAD $0x011a0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 26], 1
+	QUAD $0x1b065c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rax + 27], 1
+	QUAD $0x1c067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 28], 1
+	QUAD $0x1d064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 29], 1
+	QUAD $0x1e0654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 30], 1
+	LONG $0x3e54b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rdi + 31]
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	QUAD $0x011f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 31], 1
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0212167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 2
+	QUAD $0x0213166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 2
+	QUAD $0x0214165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 20], 2
+	QUAD $0x02151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 2
+	QUAD $0x0216164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 22], 2
+	QUAD $0x171644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdx + 23], 2
+	QUAD $0x181664203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdx + 24], 2
+	QUAD $0x19166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 25], 2
+	QUAD $0x021a1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 26], 2
+	QUAD $0x1b165c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdx + 27], 2
+	QUAD $0x1c167c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rdx + 28], 2
+	QUAD $0x1d164c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdx + 29], 2
+	QUAD $0x1e1654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdx + 30], 2
+	QUAD $0x021f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 31], 2
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x0312167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 3
+	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
+	QUAD $0x12167c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r10 + 18], 4
+	QUAD $0x12067c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r8 + 18], 5
+	QUAD $0x121e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r11 + 18], 6
+	QUAD $0x07121e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 18], 7
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0812067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 18], 8
+	QUAD $0x120e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 18], 9
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0a123e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 18], 10
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x12167c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r10 + 18], 11
+	QUAD $0x0c120e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 18], 12
+	QUAD $0x122e7c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r13 + 18], 13
+	QUAD $0x12267c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r12 + 18], 14
+	QUAD $0x123e7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r15 + 18], 15
+	QUAD $0x0313166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 3
+	QUAD $0x13366c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r14 + 19], 4
+	QUAD $0x13066c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r8 + 19], 5
+	QUAD $0x131e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r11 + 19], 6
+	QUAD $0x07131e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 19], 7
+	QUAD $0x0813066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 8
+	QUAD $0x130e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r9 + 19], 9
+	QUAD $0x0a133e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 19], 10
+	QUAD $0x13166c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r10 + 19], 11
+	QUAD $0x0c130e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 19], 12
+	QUAD $0x132e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r13 + 19], 13
+	QUAD $0x13266c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r12 + 19], 14
+	QUAD $0x133e6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r15 + 19], 15
+	QUAD $0x0314165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 20], 3
+	QUAD $0x14365c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r14 + 20], 4
+	QUAD $0x14065c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r8 + 20], 5
+	QUAD $0x141e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r11 + 20], 6
+	QUAD $0x07141e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 20], 7
+	QUAD $0x0814065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 20], 8
+	QUAD $0x140e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r9 + 20], 9
+	QUAD $0x0a143e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 20], 10
+	QUAD $0x14165c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r10 + 20], 11
+	QUAD $0x0c140e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 20], 12
+	QUAD $0x142e5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r13 + 20], 13
+	QUAD $0x14265c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r12 + 20], 14
+	LONG $0x740f4166; BYTE $0xfe               // pcmpeqb    xmm7, xmm14
+	QUAD $0x00000110bddf0f66                   // pandn    xmm7, oword 272[rbp] /* [rip + .LCPI4_17] */
+	LONG $0x740f4166; BYTE $0xee               // pcmpeqb    xmm5, xmm14
+	QUAD $0x00000120addf0f66                   // pandn    xmm5, oword 288[rbp] /* [rip + .LCPI4_18] */
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	QUAD $0x143e5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r15 + 20], 15
+	LONG $0x740f4166; BYTE $0xde               // pcmpeqb    xmm3, xmm14
+	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI4_19] */
+	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
+	LONG $0xdceb0f66                           // por    xmm3, xmm4
+	QUAD $0x03151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 3
+	QUAD $0x153654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 21], 4
+	QUAD $0x150654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r8 + 21], 5
+	QUAD $0x151e54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r11 + 21], 6
+	QUAD $0x07151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 7
+	QUAD $0x08150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 8
+	QUAD $0x150e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 21], 9
+	QUAD $0x0a153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 10
+	QUAD $0x151654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r10 + 21], 11
+	QUAD $0x0c150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 12
+	QUAD $0x152e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r13 + 21], 13
+	QUAD $0x152654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r12 + 21], 14
+	QUAD $0x153e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r15 + 21], 15
+	QUAD $0x0316164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 22], 3
+	QUAD $0x16364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 22], 4
+	QUAD $0x16064c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r8 + 22], 5
+	QUAD $0x161e4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rsi + r11 + 22], 6
+	QUAD $0x07161e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 22], 7
+	QUAD $0x0816064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 22], 8
+	QUAD $0x160e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 22], 9
+	QUAD $0x0a163e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 22], 10
+	QUAD $0x16164c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r10 + 22], 11
+	QUAD $0x0c160e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 22], 12
+	QUAD $0x162e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r13 + 22], 13
+	QUAD $0x16264c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r12 + 22], 14
+	QUAD $0x163e4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r15 + 22], 15
+	QUAD $0x171644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rdx + 23], 3
+	QUAD $0x173644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 23], 4
+	QUAD $0x170644203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r8 + 23], 5
+	QUAD $0x171e44203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r11 + 23], 6
+	QUAD $0x171e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 23], 7
+	QUAD $0x170644203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rsi + rax + 23], 8
+	QUAD $0x170e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 23], 9
+	QUAD $0x173e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rdi + 23], 10
+	QUAD $0x171644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r10 + 23], 11
+	QUAD $0x170e44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rcx + 23], 12
+	QUAD $0x172e44203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r13 + 23], 13
+	QUAD $0x172644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r12 + 23], 14
+	LONG $0x6f0f4166; BYTE $0xe6               // movdqa    xmm4, xmm14
+	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
+	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI4_20] */
+	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
+	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
+	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI4_21] */
+	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	QUAD $0x173e44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r15 + 23], 15
+	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
+	LONG $0x6f0f4166; BYTE $0xd6               // movdqa    xmm2, xmm14
+	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI4_6] */
+	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
+	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
+	QUAD $0x181664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rdx + 24], 3
+	QUAD $0x183664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r14 + 24], 4
+	QUAD $0x180664203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r8 + 24], 5
+	QUAD $0x181e64203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rsi + r11 + 24], 6
+	QUAD $0x181e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rbx + 24], 7
+	QUAD $0x180664203a0f4466; BYTE $0x08       // pinsrb    xmm12, byte [rsi + rax + 24], 8
+	QUAD $0x180e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 24], 9
+	QUAD $0x183e64203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rdi + 24], 10
+	QUAD $0x181664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r10 + 24], 11
+	QUAD $0x180e64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + rcx + 24], 12
+	QUAD $0x182e64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r13 + 24], 13
+	QUAD $0x182664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r12 + 24], 14
+	QUAD $0x183e64203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r15 + 24], 15
+	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
+	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
+	QUAD $0x19166c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rsi + rdx + 25], 3
+	QUAD $0x19366c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r14 + 25], 4
+	QUAD $0x19066c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r8 + 25], 5
+	QUAD $0x191e6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rsi + r11 + 25], 6
+	QUAD $0x191e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rbx + 25], 7
+	QUAD $0x19066c203a0f4466; BYTE $0x08       // pinsrb    xmm13, byte [rsi + rax + 25], 8
+	QUAD $0x190e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 25], 9
+	QUAD $0x193e6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rdi + 25], 10
+	QUAD $0x19166c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r10 + 25], 11
+	QUAD $0x190e6c203a0f4466; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + rcx + 25], 12
+	QUAD $0x192e6c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r13 + 25], 13
+	QUAD $0x19266c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r12 + 25], 14
+	QUAD $0x193e6c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r15 + 25], 15
+	QUAD $0x031a1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 26], 3
+	QUAD $0x1a3644203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r14 + 26], 4
+	QUAD $0x1a0644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r8 + 26], 5
+	QUAD $0x1a1e44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r11 + 26], 6
+	QUAD $0x071a1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 26], 7
+	QUAD $0x081a0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 26], 8
+	QUAD $0x1a0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 26], 9
+	QUAD $0x0a1a3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 26], 10
+	QUAD $0x1a1644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r10 + 26], 11
+	QUAD $0x0c1a0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 26], 12
+	QUAD $0x1a2e44203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r13 + 26], 13
+	QUAD $0x1a2644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r12 + 26], 14
+	QUAD $0x1a3e44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r15 + 26], 15
+	QUAD $0x1b165c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rdx + 27], 3
+	QUAD $0x1b365c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r14 + 27], 4
+	QUAD $0x1b065c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r8 + 27], 5
+	QUAD $0x1b1e5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rsi + r11 + 27], 6
+	QUAD $0x1b1e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rbx + 27], 7
+	QUAD $0x1b065c203a0f4466; BYTE $0x08       // pinsrb    xmm11, byte [rsi + rax + 27], 8
+	QUAD $0x1b0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 27], 9
+	QUAD $0x1b3e5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rdi + 27], 10
+	QUAD $0x1b165c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r10 + 27], 11
+	QUAD $0x1b0e5c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + rcx + 27], 12
+	QUAD $0x1b2e5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r13 + 27], 13
+	QUAD $0x1b265c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r12 + 27], 14
+	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
+	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI4_16] */
+	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
+	QUAD $0x1b3e5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r15 + 27], 15
+	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
+	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI4_17] */
+	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
+	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI4_18] */
+	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
+	QUAD $0x1c167c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rdx + 28], 3
+	QUAD $0x1d164c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdx + 29], 3
+	QUAD $0x1e1654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rdx + 30], 3
+	QUAD $0x031f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 31], 3
+	QUAD $0x1c367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 28], 4
+	QUAD $0x1d364c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r14 + 29], 4
+	QUAD $0x1e3654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 30], 4
+	QUAD $0x1f3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 31], 4
+	QUAD $0x1c067c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rsi + r8 + 28], 5
+	QUAD $0x1d064c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r8 + 29], 5
+	QUAD $0x1e0654203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r8 + 30], 5
+	QUAD $0x1f0674203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r8 + 31], 5
+	WORD $0x894c; BYTE $0xda                   // mov    rdx, r11
+	QUAD $0x1c1e7c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rsi + r11 + 28], 6
+	QUAD $0x1d1e4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rsi + r11 + 29], 6
+	QUAD $0x1e1e54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r11 + 30], 6
+	QUAD $0x1f1e74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r11 + 31], 6
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	WORD $0x8948; BYTE $0xda                   // mov    rdx, rbx
+	QUAD $0x1c1e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rbx + 28], 7
+	QUAD $0x1d1e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rbx + 29], 7
+	QUAD $0x1e1e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rbx + 30], 7
+	QUAD $0x071f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 31], 7
+	QUAD $0x1c067c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rsi + rax + 28], 8
+	QUAD $0x1d064c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rsi + rax + 29], 8
+	QUAD $0x1e0654203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rax + 30], 8
+	QUAD $0x081f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 31], 8
+	QUAD $0x1c0e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 28], 9
+	QUAD $0x1d0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 29], 9
+	QUAD $0x1e0e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 30], 9
+	QUAD $0x1f0e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 31], 9
+	QUAD $0x1c3e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rdi + 28], 10
+	QUAD $0x1d3e4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rdi + 29], 10
+	QUAD $0x1e3e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rdi + 30], 10
+	QUAD $0x0a1f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 31], 10
+	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
+	QUAD $0x1c167c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r10 + 28], 11
+	QUAD $0x1d164c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r10 + 29], 11
+	QUAD $0x1e1654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r10 + 30], 11
+	QUAD $0x1f1674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r10 + 31], 11
+	QUAD $0x1c0e7c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + rcx + 28], 12
+	QUAD $0x1d0e4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + rcx + 29], 12
+	QUAD $0x1e0e54203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rcx + 30], 12
+	QUAD $0x0c1f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 31], 12
+	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
+	QUAD $0x1c2e7c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r13 + 28], 13
+	QUAD $0x1d2e4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r13 + 29], 13
+	QUAD $0x1e2e54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r13 + 30], 13
+	QUAD $0x1f2e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r13 + 31], 13
+	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
+	QUAD $0x1c267c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r12 + 28], 14
+	QUAD $0x1d264c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r12 + 29], 14
+	QUAD $0x1e2654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r12 + 30], 14
+	QUAD $0x1f2674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r12 + 31], 14
+	QUAD $0x1c3e7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r15 + 28], 15
+	QUAD $0x1d3e4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r15 + 29], 15
+	QUAD $0x1e3e54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r15 + 30], 15
+	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
+	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI4_19] */
+	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
+	QUAD $0x1f3e74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r15 + 31], 15
+	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI4_22] */
+	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
+	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
+	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
+	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
+	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
+	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
+	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
+	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
+	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
+	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
+	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	QUAD $0x0000b0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 176]
+	LONG $0xcb600f66                           // punpcklbw    xmm1, xmm3
+	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
+	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
+	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
+	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
+	LONG $0xe3680f66                           // punpckhbw    xmm4, xmm3
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
+	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
+	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
+	LONG $0x7f0f41f3; WORD $0x8e14             // movdqu    oword [r14 + 4*rcx], xmm2
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000f0248c3b48                   // cmp    rcx, qword [rsp + 240]
+	JNE  LBB4_181
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x000000f024943b4c                   // cmp    r10, qword [rsp + 240]
+	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
+	QUAD $0x0000012024b48b48                   // mov    rsi, qword [rsp + 288]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	JNE  LBB4_43
+	JMP  LBB4_131
+
+LBB4_183:
+	LONG $0xf0e28349                     // and    r10, -16
+	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x000000f824848948             // mov    qword [rsp + 248], rax
+	QUAD $0x000000f02494894c             // mov    qword [rsp + 240], r10
+	LONG $0x96048d4b                     // lea    rax, [r14 + 4*r10]
+	LONG $0x24448948; BYTE $0x68         // mov    qword [rsp + 104], rax
+	LONG $0xc3b60f41                     // movzx    eax, r11b
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x0000a0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 160], xmm1
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
+
+LBB4_184:
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	QUAD $0x0000009824848948                   // mov    qword [rsp + 152], rax
+	LONG $0x05e1c149                           // shl    r9, 5
+	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
+	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
+	WORD $0x894d; BYTE $0xca                   // mov    r10, r9
+	LONG $0x244c894c; BYTE $0x40               // mov    qword [rsp + 64], r9
+	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
+	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
+	WORD $0x894d; BYTE $0xce                   // mov    r14, r9
+	WORD $0x894c; BYTE $0xca                   // mov    rdx, r9
+	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
+	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	LONG $0x04b60f42; BYTE $0x0e               // movzx    eax, byte [rsi + r9]
+	LONG $0xe06e0f66                           // movd    xmm4, eax
+	LONG $0x44b60f42; WORD $0x010e             // movzx    eax, byte [rsi + r9 + 1]
+	LONG $0xd86e0f66                           // movd    xmm3, eax
+	LONG $0x44b60f42; WORD $0x020e             // movzx    eax, byte [rsi + r9 + 2]
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x44b60f42; WORD $0x030e             // movzx    eax, byte [rsi + r9 + 3]
+	LONG $0xf86e0f66                           // movd    xmm7, eax
+	LONG $0x44b60f42; WORD $0x040e             // movzx    eax, byte [rsi + r9 + 4]
+	LONG $0x6e0f4466; BYTE $0xc8               // movd    xmm9, eax
+	LONG $0x44b60f42; WORD $0x050e             // movzx    eax, byte [rsi + r9 + 5]
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x44b60f42; WORD $0x060e             // movzx    eax, byte [rsi + r9 + 6]
+	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
+	LONG $0x44b60f42; WORD $0x070e             // movzx    eax, byte [rsi + r9 + 7]
+	LONG $0x6e0f4466; BYTE $0xf0               // movd    xmm14, eax
+	LONG $0x44b60f42; WORD $0x080e             // movzx    eax, byte [rsi + r9 + 8]
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
+	LONG $0x44b60f42; WORD $0x090e             // movzx    eax, byte [rsi + r9 + 9]
+	LONG $0x6e0f4466; BYTE $0xd8               // movd    xmm11, eax
+	LONG $0x44b60f42; WORD $0x0a0e             // movzx    eax, byte [rsi + r9 + 10]
+	LONG $0x6e0f4466; BYTE $0xe0               // movd    xmm12, eax
+	LONG $0x44b60f42; WORD $0x0b0e             // movzx    eax, byte [rsi + r9 + 11]
+	LONG $0x6e0f4466; BYTE $0xe8               // movd    xmm13, eax
+	LONG $0x44b60f42; WORD $0x0c0e             // movzx    eax, byte [rsi + r9 + 12]
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
+	LONG $0x44b60f42; WORD $0x0d0e             // movzx    eax, byte [rsi + r9 + 13]
+	LONG $0xf06e0f66                           // movd    xmm6, eax
+	LONG $0x44b60f42; WORD $0x0e0e             // movzx    eax, byte [rsi + r9 + 14]
+	LONG $0x6e0f4466; BYTE $0xf8               // movd    xmm15, eax
+	LONG $0x44b60f42; WORD $0x0f0e             // movzx    eax, byte [rsi + r9 + 15]
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
+	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
+	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
+	LONG $0x20c98348                           // or    rcx, 32
+	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
+	LONG $0x40cc8349                           // or    r12, 64
+	LONG $0x60cd8349                           // or    r13, 96
+	LONG $0x80ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 128
+	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	LONG $0xa0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 160
+	LONG $0x2454894c; BYTE $0x40               // mov    qword [rsp + 64], r10
+	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
+	LONG $0x247c894c; BYTE $0x18               // mov    qword [rsp + 24], r15
+	LONG $0xe0cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 224
+	LONG $0x00ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 256
+	QUAD $0x000000b024b4894c                   // mov    qword [rsp + 176], r14
+	LONG $0x20ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 288
+	LONG $0x40c88149; WORD $0x0001; BYTE $0x00 // or    r8, 320
+	LONG $0x2444894c; BYTE $0x78               // mov    qword [rsp + 120], r8
+	LONG $0x60cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 352
+	LONG $0x245c8948; BYTE $0x58               // mov    qword [rsp + 88], rbx
+	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
+	LONG $0x247c8948; BYTE $0x20               // mov    qword [rsp + 32], rdi
+	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
+	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	LONG $0xe0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 480
+	LONG $0x203a0f66; WORD $0x0e24; BYTE $0x01 // pinsrb    xmm4, byte [rsi + rcx], 1
+	LONG $0x2464894c; BYTE $0x60               // mov    qword [rsp + 96], r12
+	QUAD $0x022624203a0f4266                   // pinsrb    xmm4, byte [rsi + r12], 2
+	QUAD $0x032e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r13], 3
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	LONG $0x203a0f66; WORD $0x0e24; BYTE $0x04 // pinsrb    xmm4, byte [rsi + rcx], 4
+	QUAD $0x051624203a0f4266                   // pinsrb    xmm4, byte [rsi + r10], 5
+	QUAD $0x063e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r15], 6
+	QUAD $0x071e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r11], 7
+	QUAD $0x083624203a0f4266                   // pinsrb    xmm4, byte [rsi + r14], 8
+	LONG $0x203a0f66; WORD $0x1624; BYTE $0x09 // pinsrb    xmm4, byte [rsi + rdx], 9
+	QUAD $0x0a0624203a0f4266                   // pinsrb    xmm4, byte [rsi + r8], 10
+	LONG $0x203a0f66; WORD $0x1e24; BYTE $0x0b // pinsrb    xmm4, byte [rsi + rbx], 11
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	LONG $0x203a0f66; WORD $0x0e24; BYTE $0x0c // pinsrb    xmm4, byte [rsi + rcx], 12
+	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
+	QUAD $0x0d0e24203a0f4266                   // pinsrb    xmm4, byte [rsi + r9], 13
+	LONG $0x203a0f66; WORD $0x0624; BYTE $0x0e // pinsrb    xmm4, byte [rsi + rax], 14
+	LONG $0x203a0f66; WORD $0x3e24; BYTE $0x0f // pinsrb    xmm4, byte [rsi + rdi], 15
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x010e5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r9 + 1], 1
+	QUAD $0x01265c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r12 + 1], 2
+	QUAD $0x012e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r13 + 1], 3
+	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x012e5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r13 + 1], 4
+	QUAD $0x01165c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r10 + 1], 5
+	QUAD $0x013e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r15 + 1], 6
+	QUAD $0x011e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 1], 7
+	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
+	QUAD $0x01365c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r14 + 1], 8
+	QUAD $0x0901165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 1], 9
+	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
+	QUAD $0x01065c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r8 + 1], 10
+	QUAD $0x0b011e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 1], 11
+	QUAD $0x0c010e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 1], 12
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0d01165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 1], 13
+	QUAD $0x0e01065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 1], 14
+	QUAD $0x0000a0248c6f0f66; BYTE $0x00       // movdqa    xmm1, oword [rsp + 160]
+	LONG $0xe1740f66                           // pcmpeqb    xmm4, xmm1
+	QUAD $0x0f013e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 1], 15
+	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
+	LONG $0xd9740f66                           // pcmpeqb    xmm3, xmm1
+	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI4_16] */
+	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
+	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	LONG $0x0654b60f; BYTE $0x10               // movzx    edx, byte [rsi + rax + 16]
+	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
+	WORD $0x894c; BYTE $0xca                   // mov    rdx, r9
+	QUAD $0x020e6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r9 + 2], 1
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x02023e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 2], 2
+	LONG $0x2464894c; BYTE $0x38               // mov    qword [rsp + 56], r12
+	QUAD $0x02266c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r12 + 2], 3
+	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
+	QUAD $0x022e6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r13 + 2], 4
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x021e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r11 + 2], 5
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x022e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r13 + 2], 6
+	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
+	QUAD $0x02166c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r10 + 2], 7
+	QUAD $0x000000b024bc8b4c                   // mov    r15, qword [rsp + 176]
+	QUAD $0x023e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r15 + 2], 8
+	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
+	QUAD $0x02366c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r14 + 2], 9
+	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
+	QUAD $0x02166c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r10 + 2], 10
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x02366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 2], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c02066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 12
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0d02066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0e02066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 2], 14
+	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
+	QUAD $0x0f020e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 2], 15
+	QUAD $0x0103167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 3], 1
+	QUAD $0x02033e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 3], 2
+	QUAD $0x03267c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r12 + 3], 3
+	QUAD $0x03067c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r8 + 3], 4
+	QUAD $0x031e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r11 + 3], 5
+	QUAD $0x032e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r13 + 3], 6
+	QUAD $0x07031e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 3], 7
+	QUAD $0x033e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r15 + 3], 8
+	QUAD $0x030e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 3], 9
+	QUAD $0x03167c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r10 + 3], 10
+	QUAD $0x03367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 3], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0c03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 12
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0d03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0e03067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 3], 14
+	QUAD $0x0f030e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 3], 15
+	QUAD $0x04164c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rdx + 4], 1
+	QUAD $0x043e4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdi + 4], 2
+	QUAD $0x04264c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r12 + 4], 3
+	QUAD $0x04064c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r8 + 4], 4
+	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
+	QUAD $0x041e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r11 + 4], 5
+	QUAD $0x042e4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rsi + r13 + 4], 6
+	QUAD $0x041e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rbx + 4], 7
+	QUAD $0x043e4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r15 + 4], 8
+	QUAD $0x040e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 4], 9
+	QUAD $0x04164c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r10 + 4], 10
+	QUAD $0x04364c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r14 + 4], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x04064c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + rax + 4], 12
+	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
+	QUAD $0x04064c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r8 + 4], 13
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x04164c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rdx + 4], 14
+	QUAD $0x040e4c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rcx + 4], 15
+	LONG $0xe9740f66                           // pcmpeqb    xmm5, xmm1
+	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI4_17] */
+	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
+	LONG $0xf9740f66                           // pcmpeqb    xmm7, xmm1
+	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI4_18] */
+	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	LONG $0x0e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rcx + 17]
+	LONG $0xe26e0f66                           // movd    xmm4, edx
+	LONG $0x740f4466; BYTE $0xc9               // pcmpeqb    xmm9, xmm1
+	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI4_19] */
+	LONG $0xdf0f4466; BYTE $0xc8               // pandn    xmm9, xmm0
+	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
+	LONG $0x0e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rcx + 18]
+	LONG $0xfa6e0f66                           // movd    xmm7, edx
+	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
+	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
+	LONG $0xeb0f4466; BYTE $0xcb               // por    xmm9, xmm3
+	LONG $0x0e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rcx + 19]
+	LONG $0xea6e0f66                           // movd    xmm5, edx
+	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
+	QUAD $0x052654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r12 + 5], 1
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x052e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r13 + 5], 2
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x03050654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 5], 3
+	QUAD $0x04053e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 5], 4
+	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
+	QUAD $0x051e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r11 + 5], 5
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x06050654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 5], 6
+	QUAD $0x00000110249c8948                   // mov    qword [rsp + 272], rbx
+	QUAD $0x07051e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 5], 7
+	QUAD $0x053e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r15 + 5], 8
+	QUAD $0x00000088248c894c                   // mov    qword [rsp + 136], r9
+	QUAD $0x050e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 5], 9
+	QUAD $0x051654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r10 + 5], 10
+	QUAD $0x053654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 5], 11
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0c051654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 5], 12
+	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
+	QUAD $0x050654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r8 + 5], 13
+	LONG $0x24448b4c; BYTE $0x28               // mov    r8, qword [rsp + 40]
+	QUAD $0x050654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r8 + 5], 14
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x051e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r11 + 5], 15
+	QUAD $0x062644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r12 + 6], 1
+	QUAD $0x062e44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r13 + 6], 2
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x060644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rax + 6], 3
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x062e44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r13 + 6], 4
+	QUAD $0x063e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rdi + 6], 5
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x060644203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rax + 6], 6
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	QUAD $0x061e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 6], 7
+	QUAD $0x063e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r15 + 6], 8
+	QUAD $0x060e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 6], 9
+	QUAD $0x061644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r10 + 6], 10
+	QUAD $0x063644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 6], 11
+	QUAD $0x061644203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rdx + 6], 12
+	QUAD $0x060e44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rcx + 6], 13
+	QUAD $0x060644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r8 + 6], 14
+	QUAD $0x061e44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r11 + 6], 15
+	QUAD $0x072674203a0f4666; BYTE $0x01       // pinsrb    xmm14, byte [rsi + r12 + 7], 1
+	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
+	QUAD $0x072674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r12 + 7], 2
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x070674203a0f4466; BYTE $0x03       // pinsrb    xmm14, byte [rsi + rax + 7], 3
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x071e74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r11 + 7], 4
+	QUAD $0x073e74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rdi + 7], 5
+	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
+	QUAD $0x072e74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rsi + r13 + 7], 6
+	QUAD $0x071e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rbx + 7], 7
+	QUAD $0x073e74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r15 + 7], 8
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	QUAD $0x070e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 7], 9
+	QUAD $0x071674203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r10 + 7], 10
+	QUAD $0x073674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 7], 11
+	QUAD $0x071674203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + rdx + 7], 12
+	QUAD $0x070e74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rcx + 7], 13
+	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
+	QUAD $0x070674203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r8 + 7], 14
+	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
+	QUAD $0x00a024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 160]
+	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
+	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI4_20] */
+	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
+	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
+	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI4_21] */
+	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
+	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	LONG $0x3e54b60f; BYTE $0x14               // movzx    edx, byte [rsi + rdi + 20]
+	LONG $0xda6e0f66                           // movd    xmm3, edx
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0f070e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 7], 15
+	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
+	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI4_6] */
+	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
+	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
+	LONG $0x3e54b60f; BYTE $0x15               // movzx    edx, byte [rsi + rdi + 21]
+	LONG $0xd26e0f66                           // movd    xmm2, edx
+	QUAD $0x0000d024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 208]
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x01080644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 8], 1
+	QUAD $0x082644203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r12 + 8], 2
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x082644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r12 + 8], 3
+	QUAD $0x081e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r11 + 8], 4
+	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
+	LONG $0x24748b4c; BYTE $0x40               // mov    r14, qword [rsp + 64]
+	QUAD $0x083644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r14 + 8], 5
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x06081644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 8], 6
+	QUAD $0x00000110249c8b4c                   // mov    r11, qword [rsp + 272]
+	QUAD $0x081e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 8], 7
+	QUAD $0x083e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r15 + 8], 8
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x081644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r10 + 8], 9
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	QUAD $0x083e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r15 + 8], 10
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x0b081644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 8], 11
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0c081644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 8], 12
+	QUAD $0x082e44203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r13 + 8], 13
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0e081644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 8], 14
+	QUAD $0x0f080e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 8], 15
+	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
+	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
+	LONG $0x3e54b60f; BYTE $0x16               // movzx    edx, byte [rsi + rdi + 22]
+	LONG $0xca6e0f66                           // movd    xmm1, edx
+	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
+	QUAD $0x09065c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rax + 9], 1
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x093e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdi + 9], 2
+	QUAD $0x09265c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r12 + 9], 3
+	QUAD $0x09065c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r8 + 9], 4
+	QUAD $0x09365c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r14 + 9], 5
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x092e5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rsi + r13 + 9], 6
+	QUAD $0x091e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r11 + 9], 7
+	QUAD $0x091e5c203a0f4466; BYTE $0x08       // pinsrb    xmm11, byte [rsi + rbx + 9], 8
+	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
+	QUAD $0x09165c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r10 + 9], 9
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	QUAD $0x093e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r15 + 9], 10
+	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
+	QUAD $0x09165c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r10 + 9], 11
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x093e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 9], 12
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x09165c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rdx + 9], 13
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x09165c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rdx + 9], 14
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x09165c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdx + 9], 15
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0a0664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 10], 1
+	QUAD $0x0a3e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdi + 10], 2
+	QUAD $0x0a2664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r12 + 10], 3
+	QUAD $0x0a0664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r8 + 10], 4
+	QUAD $0x0a3664203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r14 + 10], 5
+	QUAD $0x0a2e64203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rsi + r13 + 10], 6
+	QUAD $0x0a1e64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r11 + 10], 7
+	QUAD $0x0a1e64203a0f4466; BYTE $0x08       // pinsrb    xmm12, byte [rsi + rbx + 10], 8
+	QUAD $0x0a0e64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rsi + rcx + 10], 9
+	QUAD $0x0a0e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r9 + 10], 10
+	QUAD $0x0a1664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r10 + 10], 11
+	QUAD $0x0a3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 10], 12
+	LONG $0x24748b4c; BYTE $0x10               // mov    r14, qword [rsp + 16]
+	QUAD $0x0a3664203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r14 + 10], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a0664203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rax + 10], 14
+	QUAD $0x0a1664203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rdx + 10], 15
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0b066c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rax + 11], 1
+	QUAD $0x0b3e6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdi + 11], 2
+	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
+	QUAD $0x0b266c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r12 + 11], 3
+	QUAD $0x0b066c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r8 + 11], 4
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0b066c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rsi + rax + 11], 5
+	QUAD $0x0b2e6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rsi + r13 + 11], 6
+	QUAD $0x0b1e6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r11 + 11], 7
+	WORD $0x894d; BYTE $0xdc                   // mov    r12, r11
+	QUAD $0x0b1e6c203a0f4466; BYTE $0x08       // pinsrb    xmm13, byte [rsi + rbx + 11], 8
+	QUAD $0x0b0e6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rsi + rcx + 11], 9
+	QUAD $0x0b0e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r9 + 11], 10
+	QUAD $0x0b166c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r10 + 11], 11
+	QUAD $0x0b3e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 11], 12
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0b3e6c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rdi + 11], 13
+	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x0b0e6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r9 + 11], 14
+	QUAD $0x0b166c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdx + 11], 15
+	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
+	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI4_16] */
+	LONG $0xfc0f4466; BYTE $0xd8               // paddb    xmm11, xmm0
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	LONG $0x3e54b60f; BYTE $0x17               // movzx    edx, byte [rsi + rdi + 23]
+	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
+	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
+	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI4_17] */
+	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
+	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI4_18] */
+	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
+	LONG $0x3e54b60f; BYTE $0x18               // movzx    edx, byte [rsi + rdi + 24]
+	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
+	QUAD $0x00e0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 224]
+	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
+	QUAD $0x0c1e4c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rsi + r11 + 12], 1
+	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
+	QUAD $0x0c364c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rsi + r14 + 12], 2
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x0c3e4c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdi + 12], 3
+	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
+	QUAD $0x0c364c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r14 + 12], 4
+	QUAD $0x0c064c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rsi + rax + 12], 5
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x0c164c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rdx + 12], 6
+	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
+	QUAD $0x0c264c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r12 + 12], 7
+	QUAD $0x0c1e4c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rsi + rbx + 12], 8
+	QUAD $0x0c0e4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rsi + rcx + 12], 9
+	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
+	QUAD $0x0c264c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r12 + 12], 10
+	QUAD $0x0c164c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r10 + 12], 11
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x0c164c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r10 + 12], 12
+	QUAD $0x0c2e4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r13 + 12], 13
+	QUAD $0x0c0e4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r9 + 12], 14
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x0c2e4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r13 + 12], 15
+	QUAD $0x0d1e74203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r11 + 13], 1
+	QUAD $0x0d0674203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r8 + 13], 2
+	QUAD $0x030d3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 13], 3
+	QUAD $0x0d3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 13], 4
+	QUAD $0x050d0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 13], 5
+	QUAD $0x060d1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 13], 6
+	QUAD $0x0d3e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r15 + 13], 7
+	QUAD $0x080d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 13], 8
+	QUAD $0x090d0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 13], 9
+	QUAD $0x0d2674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r12 + 13], 10
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0b0d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 13], 11
+	QUAD $0x0d1674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r10 + 13], 12
+	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
+	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
+	QUAD $0x0d1674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r10 + 13], 13
+	QUAD $0x0d0e74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r9 + 13], 14
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x0d0e74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r9 + 13], 15
+	QUAD $0x0e1e7c203a0f4666; BYTE $0x01       // pinsrb    xmm15, byte [rsi + r11 + 14], 1
+	QUAD $0x0e067c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r8 + 14], 2
+	QUAD $0x0e3e7c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rdi + 14], 3
+	QUAD $0x0e367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 14], 4
+	QUAD $0x0e067c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rax + 14], 5
+	QUAD $0x0e167c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rdx + 14], 6
+	QUAD $0x0e3e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r15 + 14], 7
+	QUAD $0x000000b024bc8b48                   // mov    rdi, qword [rsp + 176]
+	QUAD $0x0e3e7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rsi + rdi + 14], 8
+	QUAD $0x0e0e7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rsi + rcx + 14], 9
+	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
+	QUAD $0x0e267c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r12 + 14], 10
+	QUAD $0x0e1e7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + rbx + 14], 11
+	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
+	QUAD $0x0e2e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r13 + 14], 12
+	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
+	QUAD $0x0e167c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r10 + 14], 13
+	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
+	QUAD $0x0e167c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r10 + 14], 14
+	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
+	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI4_19] */
+	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	LONG $0x0654b60f; BYTE $0x19               // movzx    edx, byte [rsi + rax + 25]
+	LONG $0x6e0f4466; BYTE $0xea               // movd    xmm13, edx
+	QUAD $0x0001609df80f4466; BYTE $0x00       // psubb    xmm11, oword 352[rbp] /* [rip + .LCPI4_22] */
+	LONG $0xeb0f4566; BYTE $0xcb               // por    xmm9, xmm11
+	LONG $0x0654b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rax + 26]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	QUAD $0x0e0e7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r9 + 14], 15
+	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
+	QUAD $0x00000140b5df0f66                   // pandn    xmm6, oword 320[rbp] /* [rip + .LCPI4_20] */
+	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
+	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI4_21] */
+	LONG $0xeb0f4466; BYTE $0xfe               // por    xmm15, xmm6
+	LONG $0x0654b60f; BYTE $0x1b               // movzx    edx, byte [rsi + rax + 27]
+	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
+	QUAD $0x0000c024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 192]
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x010f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 1
+	QUAD $0x0f0674203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r8 + 15], 2
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	QUAD $0x0f0e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r9 + 15], 3
+	QUAD $0x0f3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 15], 4
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x050f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 5
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x060f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 15], 6
+	QUAD $0x0f3e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r15 + 15], 7
+	QUAD $0x080f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 8
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x090f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 9
+	QUAD $0x0f1e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r11 + 15], 10
+	QUAD $0x0b0f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 15], 11
+	QUAD $0x0f2674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r12 + 15], 12
+	QUAD $0x0f2e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r13 + 15], 13
+	QUAD $0x0f1674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r10 + 15], 14
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x0f1674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r10 + 15], 15
+	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
+	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI4_6] */
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x0654b60f; BYTE $0x1c               // movzx    edx, byte [rsi + rax + 28]
+	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
+	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
+	QUAD $0x0000c024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm6
+	LONG $0x0654b60f; BYTE $0x1d               // movzx    edx, byte [rsi + rax + 29]
+	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x101654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rdx + 16], 1
+	QUAD $0x100654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r8 + 16], 2
+	QUAD $0x100e54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r9 + 16], 3
+	QUAD $0x103654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 16], 4
+	QUAD $0x100e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rcx + 16], 5
+	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
+	QUAD $0x102654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r12 + 16], 6
+	QUAD $0x103e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r15 + 16], 7
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x100e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rcx + 16], 8
+	QUAD $0x103e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rdi + 16], 9
+	QUAD $0x101e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r11 + 16], 10
+	QUAD $0x101e54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rbx + 16], 11
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x100654203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rax + 16], 12
+	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
+	QUAD $0x102e54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r13 + 16], 13
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x102e54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r13 + 16], 14
+	QUAD $0x101654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r10 + 16], 15
+	QUAD $0x01111664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 17], 1
+	QUAD $0x110664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r8 + 17], 2
+	QUAD $0x110e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r9 + 17], 3
+	QUAD $0x113664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r14 + 17], 4
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x110664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r8 + 17], 5
+	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
+	QUAD $0x112664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r12 + 17], 6
+	QUAD $0x113e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r15 + 17], 7
+	QUAD $0x08110e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 17], 8
+	QUAD $0x09113e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 17], 9
+	QUAD $0x111e64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r11 + 17], 10
+	QUAD $0x0b111e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 17], 11
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x112664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r12 + 17], 12
+	QUAD $0x0d110664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 17], 13
+	QUAD $0x112e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r13 + 17], 14
+	QUAD $0x111664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r10 + 17], 15
+	WORD $0x894c; BYTE $0xd7                   // mov    rdi, r10
+	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
+	LONG $0x740f4166; BYTE $0xe6               // pcmpeqb    xmm4, xmm14
+	QUAD $0x00000100b56f0f66                   // movdqa    xmm6, oword 256[rbp] /* [rip + .LCPI4_16] */
+	LONG $0xe6df0f66                           // pandn    xmm4, xmm6
+	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	LONG $0x0e54b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rcx + 30]
+	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0112067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 18], 1
+	QUAD $0x0113066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 1
+	QUAD $0x0114065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 20], 1
+	QUAD $0x01150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 1
+	QUAD $0x0116064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 22], 1
+	QUAD $0x170644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 23], 1
+	QUAD $0x180664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 24], 1
+	QUAD $0x19066c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rax + 25], 1
+	QUAD $0x011a0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 26], 1
+	QUAD $0x1b065c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rax + 27], 1
+	QUAD $0x1c067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 28], 1
+	QUAD $0x1d064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 29], 1
+	QUAD $0x1e0654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 30], 1
+	LONG $0x0e54b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rcx + 31]
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	QUAD $0x011f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 31], 1
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0212167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 2
+	QUAD $0x0213166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 2
+	QUAD $0x0214165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 20], 2
+	QUAD $0x02151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 2
+	QUAD $0x0216164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 22], 2
+	QUAD $0x171644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdx + 23], 2
+	QUAD $0x181664203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdx + 24], 2
+	QUAD $0x19166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 25], 2
+	QUAD $0x021a1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 26], 2
+	QUAD $0x1b165c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdx + 27], 2
+	QUAD $0x1c167c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rdx + 28], 2
+	QUAD $0x1d164c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdx + 29], 2
+	QUAD $0x1e1654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdx + 30], 2
+	QUAD $0x021f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 31], 2
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0312167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 3
+	QUAD $0x12367c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r14 + 18], 4
+	QUAD $0x12067c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r8 + 18], 5
+	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
+	QUAD $0x120e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r9 + 18], 6
+	QUAD $0x123e7c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r15 + 18], 7
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+	QUAD $0x121e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r11 + 18], 8
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x09120e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 18], 9
+	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
+	QUAD $0x120e7c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r9 + 18], 10
+	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
+	QUAD $0x12167c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r10 + 18], 11
+	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
+	QUAD $0x12267c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r12 + 18], 12
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x12267c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r12 + 18], 13
+	QUAD $0x122e7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r13 + 18], 14
+	QUAD $0x0f123e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 18], 15
+	QUAD $0x0313166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 3
+	QUAD $0x13366c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r14 + 19], 4
+	QUAD $0x13066c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r8 + 19], 5
+	QUAD $0x06131e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 19], 6
+	QUAD $0x133e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r15 + 19], 7
+	QUAD $0x131e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r11 + 19], 8
+	QUAD $0x09130e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 19], 9
+	QUAD $0x130e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r9 + 19], 10
+	QUAD $0x13166c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r10 + 19], 11
+	QUAD $0x0c13066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 12
+	QUAD $0x13266c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r12 + 19], 13
+	QUAD $0x132e6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r13 + 19], 14
+	QUAD $0x0f133e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 19], 15
+	QUAD $0x0314165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 20], 3
+	QUAD $0x14365c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r14 + 20], 4
+	QUAD $0x14065c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r8 + 20], 5
+	QUAD $0x06141e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 20], 6
+	QUAD $0x143e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r15 + 20], 7
+	QUAD $0x141e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 20], 8
+	QUAD $0x09140e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 20], 9
+	QUAD $0x140e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 20], 10
+	QUAD $0x14165c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r10 + 20], 11
+	QUAD $0x0c14065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 20], 12
+	QUAD $0x14265c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r12 + 20], 13
+	QUAD $0x142e5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r13 + 20], 14
+	LONG $0x740f4166; BYTE $0xfe               // pcmpeqb    xmm7, xmm14
+	QUAD $0x000110b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 272[rbp] /* [rip + .LCPI4_17] */
+	LONG $0xdf0f4166; BYTE $0xfe               // pandn    xmm7, xmm14
+	QUAD $0x0000a024ac740f66; BYTE $0x00       // pcmpeqb    xmm5, oword [rsp + 160]
+	QUAD $0x000120b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 288[rbp] /* [rip + .LCPI4_18] */
+	LONG $0xdf0f4166; BYTE $0xee               // pandn    xmm5, xmm14
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	QUAD $0x0f143e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 20], 15
+	QUAD $0x00a024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 160]
+	LONG $0x740f4166; BYTE $0xde               // pcmpeqb    xmm3, xmm14
+	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI4_19] */
+	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
+	LONG $0xdceb0f66                           // por    xmm3, xmm4
+	QUAD $0x03151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 3
+	QUAD $0x153654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 21], 4
+	QUAD $0x150654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r8 + 21], 5
+	QUAD $0x06151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 6
+	QUAD $0x153e54203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r15 + 21], 7
+	QUAD $0x151e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r11 + 21], 8
+	QUAD $0x09150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 9
+	QUAD $0x150e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 21], 10
+	QUAD $0x151654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r10 + 21], 11
+	QUAD $0x0c150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 12
+	QUAD $0x152654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r12 + 21], 13
+	QUAD $0x152e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r13 + 21], 14
+	QUAD $0x0f153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 15
+	QUAD $0x0316164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 22], 3
+	QUAD $0x16364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 22], 4
+	QUAD $0x16064c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r8 + 22], 5
+	QUAD $0x06161e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 22], 6
+	QUAD $0x163e4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r15 + 22], 7
+	QUAD $0x161e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r11 + 22], 8
+	QUAD $0x09160e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 22], 9
+	QUAD $0x160e4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r9 + 22], 10
+	QUAD $0x16164c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r10 + 22], 11
+	QUAD $0x0c16064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 22], 12
+	QUAD $0x16264c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r12 + 22], 13
+	QUAD $0x162e4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r13 + 22], 14
+	QUAD $0x0f163e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 22], 15
+	QUAD $0x171644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rdx + 23], 3
+	QUAD $0x173644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 23], 4
+	QUAD $0x170644203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r8 + 23], 5
+	QUAD $0x171e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rbx + 23], 6
+	QUAD $0x173e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r15 + 23], 7
+	QUAD $0x171e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r11 + 23], 8
+	QUAD $0x170e44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rsi + rcx + 23], 9
+	QUAD $0x170e44203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r9 + 23], 10
+	QUAD $0x171644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r10 + 23], 11
+	QUAD $0x170644203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rax + 23], 12
+	QUAD $0x172644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r12 + 23], 13
+	QUAD $0x172e44203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r13 + 23], 14
+	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
+	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI4_20] */
+	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
+	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
+	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI4_21] */
+	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	QUAD $0x173e44203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + rdi + 23], 15
+	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
+	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI4_6] */
+	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
+	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
+	QUAD $0x181664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rdx + 24], 3
+	QUAD $0x183664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r14 + 24], 4
+	QUAD $0x180664203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r8 + 24], 5
+	QUAD $0x181e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rbx + 24], 6
+	QUAD $0x183e64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r15 + 24], 7
+	QUAD $0x181e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r11 + 24], 8
+	QUAD $0x180e64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rsi + rcx + 24], 9
+	QUAD $0x180e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r9 + 24], 10
+	QUAD $0x181664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r10 + 24], 11
+	QUAD $0x180664203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + rax + 24], 12
+	QUAD $0x182664203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r12 + 24], 13
+	QUAD $0x182e64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r13 + 24], 14
+	QUAD $0x183e64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rdi + 24], 15
+	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
+	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
+	QUAD $0x19166c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rsi + rdx + 25], 3
+	QUAD $0x19366c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r14 + 25], 4
+	QUAD $0x19066c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r8 + 25], 5
+	QUAD $0x191e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rbx + 25], 6
+	QUAD $0x193e6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r15 + 25], 7
+	QUAD $0x191e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r11 + 25], 8
+	QUAD $0x190e6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rsi + rcx + 25], 9
+	QUAD $0x190e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r9 + 25], 10
+	QUAD $0x19166c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r10 + 25], 11
+	QUAD $0x19066c203a0f4466; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + rax + 25], 12
+	QUAD $0x19266c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r12 + 25], 13
+	QUAD $0x192e6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + r13 + 25], 14
+	QUAD $0x193e6c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdi + 25], 15
+	QUAD $0x031a1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 26], 3
+	QUAD $0x1a3644203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r14 + 26], 4
+	QUAD $0x1a0644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r8 + 26], 5
+	QUAD $0x061a1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 26], 6
+	QUAD $0x1a3e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r15 + 26], 7
+	QUAD $0x1a1e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 26], 8
+	QUAD $0x091a0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 26], 9
+	QUAD $0x1a0e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r9 + 26], 10
+	QUAD $0x1a1644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r10 + 26], 11
+	QUAD $0x0c1a0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 26], 12
+	QUAD $0x1a2644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r12 + 26], 13
+	QUAD $0x1a2e44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r13 + 26], 14
+	QUAD $0x0f1a3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 26], 15
+	QUAD $0x1b165c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rdx + 27], 3
+	QUAD $0x1b365c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r14 + 27], 4
+	QUAD $0x1b065c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r8 + 27], 5
+	QUAD $0x1b1e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rbx + 27], 6
+	QUAD $0x1b3e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r15 + 27], 7
+	QUAD $0x1b1e5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r11 + 27], 8
+	QUAD $0x1b0e5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rsi + rcx + 27], 9
+	QUAD $0x1b0e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r9 + 27], 10
+	QUAD $0x1b165c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r10 + 27], 11
+	QUAD $0x1b065c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + rax + 27], 12
+	QUAD $0x1b265c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r12 + 27], 13
+	QUAD $0x1b2e5c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r13 + 27], 14
+	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
+	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI4_16] */
+	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
+	QUAD $0x1b3e5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rdi + 27], 15
+	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
+	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI4_17] */
+	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
+	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI4_18] */
+	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
+	QUAD $0x1c167c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rdx + 28], 3
+	QUAD $0x1d164c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdx + 29], 3
+	QUAD $0x1e1654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rdx + 30], 3
+	QUAD $0x031f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 31], 3
+	QUAD $0x1c367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 28], 4
+	QUAD $0x1d364c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r14 + 29], 4
+	QUAD $0x1e3654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 30], 4
+	QUAD $0x1f3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 31], 4
+	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
+	QUAD $0x1c067c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rsi + r8 + 28], 5
+	QUAD $0x1d064c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r8 + 29], 5
+	QUAD $0x1e0654203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r8 + 30], 5
+	QUAD $0x1f0674203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r8 + 31], 5
+	QUAD $0x1c1e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rbx + 28], 6
+	QUAD $0x1d1e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rbx + 29], 6
+	QUAD $0x1e1e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rbx + 30], 6
+	QUAD $0x061f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 31], 6
+	QUAD $0x1c3e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r15 + 28], 7
+	QUAD $0x1d3e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r15 + 29], 7
+	QUAD $0x1e3e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r15 + 30], 7
+	QUAD $0x1f3e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r15 + 31], 7
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x1c1e7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r11 + 28], 8
+	QUAD $0x1d1e4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r11 + 29], 8
+	QUAD $0x1e1e54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r11 + 30], 8
+	QUAD $0x1f1e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 31], 8
+	QUAD $0x1c0e7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rsi + rcx + 28], 9
+	QUAD $0x1d0e4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rsi + rcx + 29], 9
+	QUAD $0x1e0e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rcx + 30], 9
+	QUAD $0x091f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 31], 9
+	WORD $0x894c; BYTE $0xca                   // mov    rdx, r9
+	QUAD $0x1c0e7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r9 + 28], 10
+	QUAD $0x1d0e4c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r9 + 29], 10
+	QUAD $0x1e0e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r9 + 30], 10
+	QUAD $0x1f0e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r9 + 31], 10
+	WORD $0x894c; BYTE $0xd2                   // mov    rdx, r10
+	QUAD $0x1c167c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r10 + 28], 11
+	QUAD $0x1d164c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r10 + 29], 11
+	QUAD $0x1e1654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r10 + 30], 11
+	QUAD $0x1f1674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r10 + 31], 11
+	QUAD $0x1c067c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + rax + 28], 12
+	QUAD $0x1d064c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + rax + 29], 12
+	QUAD $0x1e0654203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rax + 30], 12
+	QUAD $0x0c1f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 31], 12
+	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
+	QUAD $0x1c267c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r12 + 28], 13
+	QUAD $0x1d264c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r12 + 29], 13
+	QUAD $0x1e2654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r12 + 30], 13
+	QUAD $0x1f2674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r12 + 31], 13
+	QUAD $0x1c2e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r13 + 28], 14
+	QUAD $0x1d2e4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r13 + 29], 14
+	QUAD $0x1e2e54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r13 + 30], 14
+	QUAD $0x1f2e74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r13 + 31], 14
+	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
+	QUAD $0x1c3e7c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + rdi + 28], 15
+	QUAD $0x1d3e4c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rdi + 29], 15
+	QUAD $0x1e3e54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rdi + 30], 15
+	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
+	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI4_19] */
+	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
+	QUAD $0x0f1f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 31], 15
+	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI4_22] */
+	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
+	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
+	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
+	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
+	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
+	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
+	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
+	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
+	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
+	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
+	QUAD $0x0000d0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 208]
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	QUAD $0x0000c024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 192]
+	LONG $0xcc600f66                           // punpcklbw    xmm1, xmm4
+	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
+	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
+	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
+	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
+	LONG $0xdc680f66                           // punpckhbw    xmm3, xmm4
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
+	LONG $0x690f4166; BYTE $0xd8               // punpckhwd    xmm3, xmm8
+	QUAD $0x00000098248c8b48                   // mov    rcx, qword [rsp + 152]
+	LONG $0x7f0f41f3; WORD $0x8e5c; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm3
+	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
+	LONG $0x7f0f41f3; WORD $0x8e14             // movdqu    oword [r14 + 4*rcx], xmm2
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000f0248c3b48                   // cmp    rcx, qword [rsp + 240]
+	JNE  LBB4_184
+	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
+	QUAD $0x000000f024943b4c                   // cmp    r10, qword [rsp + 240]
+	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
+	QUAD $0x000000f824b48b48                   // mov    rsi, qword [rsp + 248]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	JNE  LBB4_69
+	JMP  LBB4_135
+
+LBB4_186:
+	LONG $0xf8e28349               // and    r10, -8
+	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
+	LONG $0x06e0c148               // shl    rax, 6
+	WORD $0x0148; BYTE $0xf0       // add    rax, rsi
+	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
+	LONG $0x2454894c; BYTE $0x18   // mov    qword [rsp + 24], r10
+	LONG $0x96048d4b               // lea    rax, [r14 + 4*r10]
+	LONG $0x24448948; BYTE $0x08   // mov    qword [rsp + 8], rax
+	LONG $0x246c8944; BYTE $0x40   // mov    dword [rsp + 64], r13d
+	LONG $0x6e0f4166; BYTE $0xc5   // movd    xmm0, r13d
+	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
+	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
+	WORD $0x3145; BYTE $0xff       // xor    r15d, r15d
+	QUAD $0x0000008024b4894c       // mov    qword [rsp + 128], r14
+	LONG $0xef0f4566; BYTE $0xff   // pxor    xmm15, xmm15
+
+LBB4_187:
+	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
+	LONG $0x06e7c149                           // shl    r15, 6
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	LONG $0x04b70f42; BYTE $0x3e               // movzx    eax, word [rsi + r15]
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	LONG $0x44b70f42; WORD $0x043e             // movzx    eax, word [rsi + r15 + 4]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x44b70f42; WORD $0x063e             // movzx    eax, word [rsi + r15 + 6]
+	LONG $0xf86e0f66                           // movd    xmm7, eax
+	LONG $0x44b70f42; WORD $0x083e             // movzx    eax, word [rsi + r15 + 8]
+	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
+	LONG $0x44b70f42; WORD $0x0a3e             // movzx    eax, word [rsi + r15 + 10]
+	LONG $0xe06e0f66                           // movd    xmm4, eax
+	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
+	LONG $0x54b70f46; WORD $0x0e3e             // movzx    r10d, word [rsi + r15 + 14]
+	LONG $0x5cb70f46; WORD $0x103e             // movzx    r11d, word [rsi + r15 + 16]
+	LONG $0x54b70f42; WORD $0x123e             // movzx    edx, word [rsi + r15 + 18]
+	LONG $0x74b70f46; WORD $0x143e             // movzx    r14d, word [rsi + r15 + 20]
+	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
+	LONG $0x40c98348                           // or    rcx, 64
+	LONG $0x80c88149; WORD $0x0000; BYTE $0x00 // or    r8, 128
+	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
+	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
+	LONG $0x40cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 320
+	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
+	LONG $0x2cc40f66; WORD $0x010e             // pinsrw    xmm5, word [rsi + rcx], 1
+	LONG $0xc40f4266; WORD $0x062c; BYTE $0x02 // pinsrw    xmm5, word [rsi + r8], 2
+	LONG $0xc40f4266; WORD $0x262c; BYTE $0x03 // pinsrw    xmm5, word [rsi + r12], 3
+	LONG $0xc40f4266; WORD $0x2e2c; BYTE $0x04 // pinsrw    xmm5, word [rsi + r13], 4
+	LONG $0x2cc40f66; WORD $0x051e             // pinsrw    xmm5, word [rsi + rbx], 5
+	LONG $0x2cc40f66; WORD $0x063e             // pinsrw    xmm5, word [rsi + rdi], 6
+	LONG $0x44c40f66; WORD $0x020e; BYTE $0x01 // pinsrw    xmm0, word [rsi + rcx + 2], 1
+	QUAD $0x02020644c40f4266                   // pinsrw    xmm0, word [rsi + r8 + 2], 2
+	QUAD $0x03022644c40f4266                   // pinsrw    xmm0, word [rsi + r12 + 2], 3
+	QUAD $0x04022e44c40f4266                   // pinsrw    xmm0, word [rsi + r13 + 2], 4
+	LONG $0x44c40f66; WORD $0x021e; BYTE $0x05 // pinsrw    xmm0, word [rsi + rbx + 2], 5
+	LONG $0x44c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm0, word [rsi + rdi + 2], 6
+	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
+	QUAD $0x07020e44c40f4266                   // pinsrw    xmm0, word [rsi + r9 + 2], 7
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
+	LONG $0x10244489                           // mov    dword [rsp + 16], eax
+	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
+	LONG $0x4cc40f66; WORD $0x040e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 4], 1
+	QUAD $0x0204064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 4], 2
+	QUAD $0x0304264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 4], 3
+	QUAD $0x04042e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 4], 4
+	LONG $0x4cc40f66; WORD $0x041e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 4], 5
+	LONG $0x4cc40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 4], 6
+	QUAD $0x07040e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 4], 7
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	QUAD $0x0000808d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 128[rbp] /* [rip + .LCPI4_8] */
+	LONG $0x6f0f4166; BYTE $0xd9               // movdqa    xmm3, xmm9
+	LONG $0x380f4166; WORD $0xdf10             // pblendvb    xmm3, xmm15, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x00000090856f0f66                   // movdqa    xmm0, oword 144[rbp] /* [rip + .LCPI4_9] */
+	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
+	LONG $0x6f0f4466; BYTE $0xf0               // movdqa    xmm14, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xca               // movd    xmm1, r10d
+	LONG $0x54b70f46; WORD $0x183e             // movzx    r10d, word [rsi + r15 + 24]
+	LONG $0xc40f4266; WORD $0x0e2c; BYTE $0x07 // pinsrw    xmm5, word [rsi + r9], 7
+	LONG $0x750f4166; BYTE $0xeb               // pcmpeqw    xmm5, xmm11
+	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
+	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0x7cc40f66; WORD $0x060e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 6], 1
+	QUAD $0x0206067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 6], 2
+	QUAD $0x0306267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 6], 3
+	QUAD $0x04062e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 6], 4
+	LONG $0x7cc40f66; WORD $0x061e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 6], 5
+	LONG $0x7cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 6], 6
+	QUAD $0x07060e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 6], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x01080e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 8], 1
+	QUAD $0x02080644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 8], 2
+	QUAD $0x03082644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 8], 3
+	QUAD $0x04082e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 8], 4
+	QUAD $0x05081e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 8], 5
+	QUAD $0x06083e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 8], 6
+	QUAD $0x07080e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 8], 7
+	LONG $0xddf80f66                           // psubb    xmm3, xmm5
+	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI4_10] */
+	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
+	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
+	LONG $0x44b70f42; WORD $0x1a3e             // movzx    eax, word [rsi + r15 + 26]
+	LONG $0x750f4566; BYTE $0xc3               // pcmpeqw    xmm8, xmm11
+	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
+	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
+	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI4_11] */
+	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
+	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	LONG $0x5cb70f46; WORD $0x1c3e             // movzx    r11d, word [rsi + r15 + 28]
+	LONG $0x64c40f66; WORD $0x0a0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 10], 1
+	QUAD $0x020a0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 10], 2
+	QUAD $0x030a2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 10], 3
+	QUAD $0x040a2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 10], 4
+	LONG $0x64c40f66; WORD $0x0a1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 10], 5
+	LONG $0x64c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 10], 6
+	QUAD $0x070a0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 10], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0x54c40f66; WORD $0x0c0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 12], 1
+	QUAD $0x020c0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 12], 2
+	QUAD $0x030c2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 12], 3
+	QUAD $0x040c2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 12], 4
+	LONG $0x54c40f66; WORD $0x0c1e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 12], 5
+	LONG $0x54c40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 12], 6
+	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI4_12] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
+	LONG $0x54b70f42; WORD $0x1e3e             // movzx    edx, word [rsi + r15 + 30]
+	LONG $0x30245489                           // mov    dword [rsp + 48], edx
+	QUAD $0x070c0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 12], 7
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
+	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI4_13] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
+	LONG $0x5c6e0f66; WORD $0x1024             // movd    xmm3, dword [rsp + 16]
+	LONG $0x54b70f42; WORD $0x203e             // movzx    edx, word [rsi + r15 + 32]
+	LONG $0x20245489                           // mov    dword [rsp + 32], edx
+	LONG $0x4cc40f66; WORD $0x0e0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 14], 1
+	QUAD $0x020e064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 14], 2
+	QUAD $0x030e264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 14], 3
+	QUAD $0x040e2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 14], 4
+	LONG $0x4cc40f66; WORD $0x0e1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 14], 5
+	LONG $0x4cc40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 14], 6
+	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
+	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
+	LONG $0x54b70f42; WORD $0x223e             // movzx    edx, word [rsi + r15 + 34]
+	LONG $0x10245489                           // mov    dword [rsp + 16], edx
+	QUAD $0x070e0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 14], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0x74c40f66; WORD $0x120e; BYTE $0x01 // pinsrw    xmm6, word [rsi + rcx + 18], 1
+	QUAD $0x02120674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 18], 2
+	QUAD $0x03122674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 18], 3
+	QUAD $0x04122e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 18], 4
+	LONG $0x74c40f66; WORD $0x121e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rbx + 18], 5
+	LONG $0x74c40f66; WORD $0x123e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 18], 6
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x07120e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 18], 7
+	LONG $0x750f4166; BYTE $0xf3               // pcmpeqw    xmm6, xmm11
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
+	QUAD $0x0000e0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 224[rbp] /* [rip + .LCPI4_14] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
+	LONG $0x6f0f4566; BYTE $0xc1               // movdqa    xmm8, xmm9
+	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
+	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x74b70f46; WORD $0x243e             // movzx    r14d, word [rsi + r15 + 36]
+	LONG $0x7cc40f66; WORD $0x100e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 16], 1
+	QUAD $0x0210067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 16], 2
+	QUAD $0x0310267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 16], 3
+	QUAD $0x04102e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 16], 4
+	LONG $0x7cc40f66; WORD $0x101e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 16], 5
+	LONG $0x7cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 16], 6
+	LONG $0x64c40f66; WORD $0x140e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 20], 1
+	QUAD $0x02140664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 20], 2
+	QUAD $0x03142664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 20], 3
+	QUAD $0x04142e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 20], 4
+	LONG $0x64c40f66; WORD $0x141e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 20], 5
+	LONG $0x64c40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 20], 6
+	QUAD $0x07140e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 20], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
+	LONG $0x6f0f4166; BYTE $0xee               // movdqa    xmm5, xmm14
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
+	LONG $0x5cb70f46; WORD $0x263e             // movzx    r11d, word [rsi + r15 + 38]
+	QUAD $0x07100e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 16], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0x5cc40f66; WORD $0x160e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 22], 1
+	QUAD $0x0216065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 22], 2
+	QUAD $0x0316265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 22], 3
+	QUAD $0x04162e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 22], 4
+	LONG $0x5cc40f66; WORD $0x161e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 22], 5
+	LONG $0x5cc40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 22], 6
+	QUAD $0x07160e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 22], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0x54c40f66; WORD $0x180e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 24], 1
+	QUAD $0x02180654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 24], 2
+	QUAD $0x03182654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 24], 3
+	QUAD $0x04182e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 24], 4
+	LONG $0x54c40f66; WORD $0x181e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 24], 5
+	LONG $0x54c40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 24], 6
+	QUAD $0x07180e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 24], 7
+	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
+	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI4_10] */
+	LONG $0x6f0f4566; BYTE $0xf2               // movdqa    xmm14, xmm10
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
+	LONG $0x5c6e0f66; WORD $0x3024             // movd    xmm3, dword [rsp + 48]
+	LONG $0x44b70f42; WORD $0x283e             // movzx    eax, word [rsi + r15 + 40]
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4466; BYTE $0xf5               // por    xmm14, xmm5
+	QUAD $0x0000b08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 176[rbp] /* [rip + .LCPI4_11] */
+	LONG $0x6f0f4566; BYTE $0xe9               // movdqa    xmm13, xmm9
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
+	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
+	LONG $0x54b70f46; WORD $0x2a3e             // movzx    r10d, word [rsi + r15 + 42]
+	LONG $0x4cc40f66; WORD $0x1a0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 26], 1
+	QUAD $0x021a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 26], 2
+	QUAD $0x031a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 26], 3
+	QUAD $0x041a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 26], 4
+	LONG $0x4cc40f66; WORD $0x1a1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 26], 5
+	LONG $0x4cc40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 26], 6
+	QUAD $0x071a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 26], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0x64c40f66; WORD $0x1c0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 28], 1
+	QUAD $0x021c0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 28], 2
+	QUAD $0x031c2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 28], 3
+	QUAD $0x041c2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 28], 4
+	LONG $0x64c40f66; WORD $0x1c1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 28], 5
+	LONG $0x64c40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 28], 6
+	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI4_12] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	LONG $0x546e0f66; WORD $0x1024             // movd    xmm2, dword [rsp + 16]
+	LONG $0x54b70f42; WORD $0x2c3e             // movzx    edx, word [rsi + r15 + 44]
+	LONG $0x20245489                           // mov    dword [rsp + 32], edx
+	QUAD $0x071c0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 28], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
+	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI4_13] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
+	LONG $0x54b70f42; WORD $0x2e3e             // movzx    edx, word [rsi + r15 + 46]
+	LONG $0x10245489                           // mov    dword [rsp + 16], edx
+	LONG $0x5cc40f66; WORD $0x1e0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 30], 1
+	QUAD $0x021e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 30], 2
+	QUAD $0x031e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 30], 3
+	QUAD $0x041e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 30], 4
+	LONG $0x5cc40f66; WORD $0x1e1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 30], 5
+	LONG $0x5cc40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 30], 6
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
+	LONG $0x5cb70f46; WORD $0x303e             // movzx    r11d, word [rsi + r15 + 48]
+	QUAD $0x071e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 30], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0x54c40f66; WORD $0x220e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 34], 1
+	QUAD $0x02220654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 34], 2
+	QUAD $0x03222654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 34], 3
+	QUAD $0x04222e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 34], 4
+	LONG $0x54c40f66; WORD $0x221e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 34], 5
+	LONG $0x54c40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 34], 6
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x07220e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 34], 7
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
+	QUAD $0x0000e0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 224[rbp] /* [rip + .LCPI4_14] */
+	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
+	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x74b70f46; WORD $0x323e             // movzx    r14d, word [rsi + r15 + 50]
+	LONG $0x7cc40f66; WORD $0x200e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 32], 1
+	QUAD $0x0220067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 32], 2
+	QUAD $0x0320267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 32], 3
+	QUAD $0x04202e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 32], 4
+	LONG $0x7cc40f66; WORD $0x201e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 32], 5
+	LONG $0x7cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 32], 6
+	LONG $0x64c40f66; WORD $0x240e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 36], 1
+	QUAD $0x02240664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 36], 2
+	QUAD $0x03242664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 36], 3
+	QUAD $0x04242e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 36], 4
+	LONG $0x64c40f66; WORD $0x241e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 36], 5
+	LONG $0x64c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 36], 6
+	QUAD $0x07240e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 36], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
+	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI4_9] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
+	LONG $0x54b70f42; WORD $0x343e             // movzx    edx, word [rsi + r15 + 52]
+	QUAD $0x07200e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 32], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0x4cc40f66; WORD $0x260e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 38], 1
+	QUAD $0x0226064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 38], 2
+	QUAD $0x0326264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 38], 3
+	QUAD $0x04262e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 38], 4
+	LONG $0x4cc40f66; WORD $0x261e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 38], 5
+	LONG $0x4cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 38], 6
+	QUAD $0x07260e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 38], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0x54c40f66; WORD $0x280e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 40], 1
+	QUAD $0x02280654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 40], 2
+	QUAD $0x03282654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 40], 3
+	QUAD $0x04282e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 40], 4
+	LONG $0x54c40f66; WORD $0x281e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 40], 5
+	LONG $0x54c40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 40], 6
+	QUAD $0x07280e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 40], 7
+	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
+	LONG $0x6f0f4166; BYTE $0xea               // movdqa    xmm5, xmm10
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
+	LONG $0x54b70f46; WORD $0x363e             // movzx    r10d, word [rsi + r15 + 54]
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x6f0f4166; BYTE $0xf1               // movdqa    xmm6, xmm9
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x646e0f66; WORD $0x1024             // movd    xmm4, dword [rsp + 16]
+	LONG $0x44b70f42; WORD $0x383e             // movzx    eax, word [rsi + r15 + 56]
+	LONG $0x5cc40f66; WORD $0x2a0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 42], 1
+	QUAD $0x022a065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 42], 2
+	QUAD $0x032a265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 42], 3
+	QUAD $0x042a2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 42], 4
+	LONG $0x5cc40f66; WORD $0x2a1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 42], 5
+	LONG $0x5cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 42], 6
+	QUAD $0x072a0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 42], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0x4cc40f66; WORD $0x2c0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 44], 1
+	QUAD $0x022c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 44], 2
+	QUAD $0x032c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 44], 3
+	QUAD $0x042c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 44], 4
+	LONG $0x4cc40f66; WORD $0x2c1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 44], 5
+	LONG $0x4cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 44], 6
+	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
+	QUAD $0x0000c08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 192[rbp] /* [rip + .LCPI4_12] */
+	LONG $0x6f0f4166; BYTE $0xd1               // movdqa    xmm2, xmm9
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4166; WORD $0xd710             // pblendvb    xmm2, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
+	LONG $0x5cb70f46; WORD $0x3a3e             // movzx    r11d, word [rsi + r15 + 58]
+	QUAD $0x072c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 44], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0x0000d0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 208[rbp] /* [rip + .LCPI4_13] */
+	LONG $0x6f0f4166; BYTE $0xf2               // movdqa    xmm6, xmm10
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
+	LONG $0x74b70f46; WORD $0x3c3e             // movzx    r14d, word [rsi + r15 + 60]
+	LONG $0xf2eb0f66                           // por    xmm6, xmm2
+	LONG $0xd26e0f66                           // movd    xmm2, edx
+	LONG $0x64c40f66; WORD $0x2e0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 46], 1
+	QUAD $0x022e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 46], 2
+	QUAD $0x032e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 46], 3
+	QUAD $0x042e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 46], 4
+	LONG $0x64c40f66; WORD $0x2e1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 46], 5
+	LONG $0x64c40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 46], 6
+	QUAD $0x072e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 46], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
+	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 50], 1
+	QUAD $0x0232064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 2
+	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
+	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
+	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 50], 5
+	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
+	QUAD $0x07320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
+	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x7cc40f66; WORD $0x300e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 48], 1
+	QUAD $0x0230067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 48], 2
+	QUAD $0x0330267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 48], 3
+	QUAD $0x04302e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 48], 4
+	LONG $0x7cc40f66; WORD $0x301e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 48], 5
+	LONG $0x7cc40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 48], 6
+	QUAD $0x07300e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 48], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
+	LONG $0x54c40f66; WORD $0x340e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 52], 1
+	QUAD $0x02340654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 52], 2
+	QUAD $0x03342654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 52], 3
+	QUAD $0x04342e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 52], 4
+	LONG $0x54c40f66; WORD $0x341e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 52], 5
+	LONG $0x54c40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 52], 6
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x07340e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 52], 7
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0x5cc40f66; WORD $0x360e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 54], 1
+	QUAD $0x0236065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 54], 2
+	QUAD $0x0336265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 54], 3
+	QUAD $0x04362e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 54], 4
+	LONG $0x5cc40f66; WORD $0x361e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 54], 5
+	LONG $0x5cc40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 54], 6
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x07360e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 54], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0x4cc40f66; WORD $0x380e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 56], 1
+	QUAD $0x0238064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 56], 2
+	QUAD $0x0338264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 56], 3
+	QUAD $0x04382e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 56], 4
+	LONG $0x4cc40f66; WORD $0x381e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 56], 5
+	LONG $0x4cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 56], 6
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x07380e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 56], 7
+	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
+	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI4_9] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI4_10] */
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0x54c40f66; WORD $0x3a0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 58], 1
+	QUAD $0x023a0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 58], 2
+	QUAD $0x033a2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 58], 3
+	QUAD $0x043a2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 58], 4
+	LONG $0x54c40f66; WORD $0x3a1e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 58], 5
+	LONG $0x54c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 58], 6
+	QUAD $0x073a0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 58], 7
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0x6e0f4166; BYTE $0xde               // movd    xmm3, r14d
+	LONG $0x5cc40f66; WORD $0x3c0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 60], 1
+	QUAD $0x023c065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 60], 2
+	QUAD $0x033c265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 60], 3
+	QUAD $0x043c2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 60], 4
+	LONG $0x5cc40f66; WORD $0x3c1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 60], 5
+	LONG $0x5cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 60], 6
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x073c0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 60], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf4eb0f66                           // por    xmm6, xmm4
+	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_11] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
+	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xcf10             // pblendvb    xmm1, xmm15, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4566; WORD $0xd710             // pblendvb    xmm10, xmm15, xmm0
+	LONG $0xcceb0f66                           // por    xmm1, xmm4
+	LONG $0x44b70f42; WORD $0x3e3e             // movzx    eax, word [rsi + r15 + 62]
+	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	LONG $0x44c40f66; WORD $0x3e0e; BYTE $0x01 // pinsrw    xmm0, word [rsi + rcx + 62], 1
+	QUAD $0x023e0644c40f4266                   // pinsrw    xmm0, word [rsi + r8 + 62], 2
+	QUAD $0x033e2644c40f4266                   // pinsrw    xmm0, word [rsi + r12 + 62], 3
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x043e2e44c40f4266                   // pinsrw    xmm0, word [rsi + r13 + 62], 4
+	LONG $0x44c40f66; WORD $0x3e1e; BYTE $0x05 // pinsrw    xmm0, word [rsi + rbx + 62], 5
+	LONG $0x44c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm0, word [rsi + rdi + 62], 6
+	QUAD $0x073e0e44c40f4266                   // pinsrw    xmm0, word [rsi + r9 + 62], 7
+	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xeb0f4466; BYTE $0xd6               // por    xmm10, xmm6
+	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
+	LONG $0xeb0f4566; BYTE $0xf2               // por    xmm14, xmm10
+	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
+	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
+	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
+	LONG $0x6c0f4166; BYTE $0xd6               // punpcklqdq    xmm2, xmm14
+	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI4_15] */
+	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
+	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
+	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
+	LONG $0x600f4566; BYTE $0xc6               // punpcklbw    xmm8, xmm14
+	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
+	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	LONG $0x7f0f45f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm12
+	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm0
+	LONG $0x08c18348                           // add    rcx, 8
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
+	JNE  LBB4_187
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+	LONG $0x24543b4c; BYTE $0x18               // cmp    r10, qword [rsp + 24]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	LONG $0x246c8b44; BYTE $0x40               // mov    r13d, dword [rsp + 64]
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	JNE  LBB4_92
+	JMP  LBB4_139
+
+LBB4_189:
+	LONG $0xf8e28349               // and    r10, -8
+	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
+	LONG $0x06e0c148               // shl    rax, 6
+	WORD $0x0148; BYTE $0xf0       // add    rax, rsi
+	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
+	LONG $0x2454894c; BYTE $0x18   // mov    qword [rsp + 24], r10
+	LONG $0x96048d4b               // lea    rax, [r14 + 4*r10]
+	LONG $0x24448948; BYTE $0x08   // mov    qword [rsp + 8], rax
+	LONG $0x246c8944; BYTE $0x40   // mov    dword [rsp + 64], r13d
+	LONG $0x6e0f4166; BYTE $0xc5   // movd    xmm0, r13d
+	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
+	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
+	WORD $0x3145; BYTE $0xff       // xor    r15d, r15d
+	QUAD $0x0000008024b4894c       // mov    qword [rsp + 128], r14
+	LONG $0xef0f4566; BYTE $0xff   // pxor    xmm15, xmm15
+
+LBB4_190:
+	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
+	LONG $0x06e7c149                           // shl    r15, 6
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	LONG $0x04b70f42; BYTE $0x3e               // movzx    eax, word [rsi + r15]
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	LONG $0x44b70f42; WORD $0x043e             // movzx    eax, word [rsi + r15 + 4]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x44b70f42; WORD $0x063e             // movzx    eax, word [rsi + r15 + 6]
+	LONG $0xf86e0f66                           // movd    xmm7, eax
+	LONG $0x44b70f42; WORD $0x083e             // movzx    eax, word [rsi + r15 + 8]
+	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
+	LONG $0x44b70f42; WORD $0x0a3e             // movzx    eax, word [rsi + r15 + 10]
+	LONG $0xe06e0f66                           // movd    xmm4, eax
+	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
+	LONG $0x54b70f46; WORD $0x0e3e             // movzx    r10d, word [rsi + r15 + 14]
+	LONG $0x5cb70f46; WORD $0x103e             // movzx    r11d, word [rsi + r15 + 16]
+	LONG $0x54b70f42; WORD $0x123e             // movzx    edx, word [rsi + r15 + 18]
+	LONG $0x74b70f46; WORD $0x143e             // movzx    r14d, word [rsi + r15 + 20]
+	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
+	LONG $0x40c98348                           // or    rcx, 64
+	LONG $0x80c88149; WORD $0x0000; BYTE $0x00 // or    r8, 128
+	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
+	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
+	LONG $0x40cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 320
+	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
+	LONG $0x2cc40f66; WORD $0x010e             // pinsrw    xmm5, word [rsi + rcx], 1
+	LONG $0xc40f4266; WORD $0x062c; BYTE $0x02 // pinsrw    xmm5, word [rsi + r8], 2
+	LONG $0xc40f4266; WORD $0x262c; BYTE $0x03 // pinsrw    xmm5, word [rsi + r12], 3
+	LONG $0xc40f4266; WORD $0x2e2c; BYTE $0x04 // pinsrw    xmm5, word [rsi + r13], 4
+	LONG $0x2cc40f66; WORD $0x051e             // pinsrw    xmm5, word [rsi + rbx], 5
+	LONG $0x2cc40f66; WORD $0x063e             // pinsrw    xmm5, word [rsi + rdi], 6
+	LONG $0x44c40f66; WORD $0x020e; BYTE $0x01 // pinsrw    xmm0, word [rsi + rcx + 2], 1
+	QUAD $0x02020644c40f4266                   // pinsrw    xmm0, word [rsi + r8 + 2], 2
+	QUAD $0x03022644c40f4266                   // pinsrw    xmm0, word [rsi + r12 + 2], 3
+	QUAD $0x04022e44c40f4266                   // pinsrw    xmm0, word [rsi + r13 + 2], 4
+	LONG $0x44c40f66; WORD $0x021e; BYTE $0x05 // pinsrw    xmm0, word [rsi + rbx + 2], 5
+	LONG $0x44c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm0, word [rsi + rdi + 2], 6
+	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
+	QUAD $0x07020e44c40f4266                   // pinsrw    xmm0, word [rsi + r9 + 2], 7
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
+	LONG $0x10244489                           // mov    dword [rsp + 16], eax
+	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
+	LONG $0x4cc40f66; WORD $0x040e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 4], 1
+	QUAD $0x0204064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 4], 2
+	QUAD $0x0304264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 4], 3
+	QUAD $0x04042e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 4], 4
+	LONG $0x4cc40f66; WORD $0x041e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 4], 5
+	LONG $0x4cc40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 4], 6
+	QUAD $0x07040e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 4], 7
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	QUAD $0x0000808d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 128[rbp] /* [rip + .LCPI4_8] */
+	LONG $0x6f0f4166; BYTE $0xd9               // movdqa    xmm3, xmm9
+	LONG $0x380f4166; WORD $0xdf10             // pblendvb    xmm3, xmm15, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x00000090856f0f66                   // movdqa    xmm0, oword 144[rbp] /* [rip + .LCPI4_9] */
+	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
+	LONG $0x6f0f4466; BYTE $0xf0               // movdqa    xmm14, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xca               // movd    xmm1, r10d
+	LONG $0x54b70f46; WORD $0x183e             // movzx    r10d, word [rsi + r15 + 24]
+	LONG $0xc40f4266; WORD $0x0e2c; BYTE $0x07 // pinsrw    xmm5, word [rsi + r9], 7
+	LONG $0x750f4166; BYTE $0xeb               // pcmpeqw    xmm5, xmm11
+	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
+	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0x7cc40f66; WORD $0x060e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 6], 1
+	QUAD $0x0206067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 6], 2
+	QUAD $0x0306267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 6], 3
+	QUAD $0x04062e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 6], 4
+	LONG $0x7cc40f66; WORD $0x061e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 6], 5
+	LONG $0x7cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 6], 6
+	QUAD $0x07060e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 6], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x01080e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 8], 1
+	QUAD $0x02080644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 8], 2
+	QUAD $0x03082644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 8], 3
+	QUAD $0x04082e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 8], 4
+	QUAD $0x05081e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 8], 5
+	QUAD $0x06083e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 8], 6
+	QUAD $0x07080e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 8], 7
+	LONG $0xddf80f66                           // psubb    xmm3, xmm5
+	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI4_10] */
+	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
+	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
+	LONG $0x44b70f42; WORD $0x1a3e             // movzx    eax, word [rsi + r15 + 26]
+	LONG $0x750f4566; BYTE $0xc3               // pcmpeqw    xmm8, xmm11
+	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
+	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
+	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI4_11] */
+	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
+	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	LONG $0x5cb70f46; WORD $0x1c3e             // movzx    r11d, word [rsi + r15 + 28]
+	LONG $0x64c40f66; WORD $0x0a0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 10], 1
+	QUAD $0x020a0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 10], 2
+	QUAD $0x030a2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 10], 3
+	QUAD $0x040a2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 10], 4
+	LONG $0x64c40f66; WORD $0x0a1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 10], 5
+	LONG $0x64c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 10], 6
+	QUAD $0x070a0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 10], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0x54c40f66; WORD $0x0c0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 12], 1
+	QUAD $0x020c0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 12], 2
+	QUAD $0x030c2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 12], 3
+	QUAD $0x040c2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 12], 4
+	LONG $0x54c40f66; WORD $0x0c1e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 12], 5
+	LONG $0x54c40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 12], 6
+	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI4_12] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
+	LONG $0x54b70f42; WORD $0x1e3e             // movzx    edx, word [rsi + r15 + 30]
+	LONG $0x30245489                           // mov    dword [rsp + 48], edx
+	QUAD $0x070c0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 12], 7
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
+	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI4_13] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
+	LONG $0x5c6e0f66; WORD $0x1024             // movd    xmm3, dword [rsp + 16]
+	LONG $0x54b70f42; WORD $0x203e             // movzx    edx, word [rsi + r15 + 32]
+	LONG $0x20245489                           // mov    dword [rsp + 32], edx
+	LONG $0x4cc40f66; WORD $0x0e0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 14], 1
+	QUAD $0x020e064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 14], 2
+	QUAD $0x030e264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 14], 3
+	QUAD $0x040e2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 14], 4
+	LONG $0x4cc40f66; WORD $0x0e1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 14], 5
+	LONG $0x4cc40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 14], 6
+	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
+	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
+	LONG $0x54b70f42; WORD $0x223e             // movzx    edx, word [rsi + r15 + 34]
+	LONG $0x10245489                           // mov    dword [rsp + 16], edx
+	QUAD $0x070e0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 14], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0x74c40f66; WORD $0x120e; BYTE $0x01 // pinsrw    xmm6, word [rsi + rcx + 18], 1
+	QUAD $0x02120674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 18], 2
+	QUAD $0x03122674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 18], 3
+	QUAD $0x04122e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 18], 4
+	LONG $0x74c40f66; WORD $0x121e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rbx + 18], 5
+	LONG $0x74c40f66; WORD $0x123e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 18], 6
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x07120e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 18], 7
+	LONG $0x750f4166; BYTE $0xf3               // pcmpeqw    xmm6, xmm11
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
+	QUAD $0x0000e0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 224[rbp] /* [rip + .LCPI4_14] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
+	LONG $0x6f0f4566; BYTE $0xc1               // movdqa    xmm8, xmm9
+	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
+	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x74b70f46; WORD $0x243e             // movzx    r14d, word [rsi + r15 + 36]
+	LONG $0x7cc40f66; WORD $0x100e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 16], 1
+	QUAD $0x0210067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 16], 2
+	QUAD $0x0310267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 16], 3
+	QUAD $0x04102e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 16], 4
+	LONG $0x7cc40f66; WORD $0x101e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 16], 5
+	LONG $0x7cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 16], 6
+	LONG $0x64c40f66; WORD $0x140e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 20], 1
+	QUAD $0x02140664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 20], 2
+	QUAD $0x03142664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 20], 3
+	QUAD $0x04142e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 20], 4
+	LONG $0x64c40f66; WORD $0x141e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 20], 5
+	LONG $0x64c40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 20], 6
+	QUAD $0x07140e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 20], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
+	LONG $0x6f0f4166; BYTE $0xee               // movdqa    xmm5, xmm14
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
+	LONG $0x5cb70f46; WORD $0x263e             // movzx    r11d, word [rsi + r15 + 38]
+	QUAD $0x07100e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 16], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0x5cc40f66; WORD $0x160e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 22], 1
+	QUAD $0x0216065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 22], 2
+	QUAD $0x0316265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 22], 3
+	QUAD $0x04162e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 22], 4
+	LONG $0x5cc40f66; WORD $0x161e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 22], 5
+	LONG $0x5cc40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 22], 6
+	QUAD $0x07160e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 22], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0x54c40f66; WORD $0x180e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 24], 1
+	QUAD $0x02180654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 24], 2
+	QUAD $0x03182654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 24], 3
+	QUAD $0x04182e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 24], 4
+	LONG $0x54c40f66; WORD $0x181e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 24], 5
+	LONG $0x54c40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 24], 6
+	QUAD $0x07180e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 24], 7
+	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
+	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI4_10] */
+	LONG $0x6f0f4566; BYTE $0xf2               // movdqa    xmm14, xmm10
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
+	LONG $0x5c6e0f66; WORD $0x3024             // movd    xmm3, dword [rsp + 48]
+	LONG $0x44b70f42; WORD $0x283e             // movzx    eax, word [rsi + r15 + 40]
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4466; BYTE $0xf5               // por    xmm14, xmm5
+	QUAD $0x0000b08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 176[rbp] /* [rip + .LCPI4_11] */
+	LONG $0x6f0f4566; BYTE $0xe9               // movdqa    xmm13, xmm9
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
+	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
+	LONG $0x54b70f46; WORD $0x2a3e             // movzx    r10d, word [rsi + r15 + 42]
+	LONG $0x4cc40f66; WORD $0x1a0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 26], 1
+	QUAD $0x021a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 26], 2
+	QUAD $0x031a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 26], 3
+	QUAD $0x041a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 26], 4
+	LONG $0x4cc40f66; WORD $0x1a1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 26], 5
+	LONG $0x4cc40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 26], 6
+	QUAD $0x071a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 26], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0x64c40f66; WORD $0x1c0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 28], 1
+	QUAD $0x021c0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 28], 2
+	QUAD $0x031c2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 28], 3
+	QUAD $0x041c2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 28], 4
+	LONG $0x64c40f66; WORD $0x1c1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 28], 5
+	LONG $0x64c40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 28], 6
+	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI4_12] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	LONG $0x546e0f66; WORD $0x1024             // movd    xmm2, dword [rsp + 16]
+	LONG $0x54b70f42; WORD $0x2c3e             // movzx    edx, word [rsi + r15 + 44]
+	LONG $0x20245489                           // mov    dword [rsp + 32], edx
+	QUAD $0x071c0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 28], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
+	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI4_13] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
+	LONG $0x54b70f42; WORD $0x2e3e             // movzx    edx, word [rsi + r15 + 46]
+	LONG $0x10245489                           // mov    dword [rsp + 16], edx
+	LONG $0x5cc40f66; WORD $0x1e0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 30], 1
+	QUAD $0x021e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 30], 2
+	QUAD $0x031e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 30], 3
+	QUAD $0x041e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 30], 4
+	LONG $0x5cc40f66; WORD $0x1e1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 30], 5
+	LONG $0x5cc40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 30], 6
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
+	LONG $0x5cb70f46; WORD $0x303e             // movzx    r11d, word [rsi + r15 + 48]
+	QUAD $0x071e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 30], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0x54c40f66; WORD $0x220e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 34], 1
+	QUAD $0x02220654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 34], 2
+	QUAD $0x03222654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 34], 3
+	QUAD $0x04222e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 34], 4
+	LONG $0x54c40f66; WORD $0x221e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 34], 5
+	LONG $0x54c40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 34], 6
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x07220e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 34], 7
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
+	QUAD $0x0000e0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 224[rbp] /* [rip + .LCPI4_14] */
+	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
+	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x74b70f46; WORD $0x323e             // movzx    r14d, word [rsi + r15 + 50]
+	LONG $0x7cc40f66; WORD $0x200e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 32], 1
+	QUAD $0x0220067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 32], 2
+	QUAD $0x0320267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 32], 3
+	QUAD $0x04202e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 32], 4
+	LONG $0x7cc40f66; WORD $0x201e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 32], 5
+	LONG $0x7cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 32], 6
+	LONG $0x64c40f66; WORD $0x240e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 36], 1
+	QUAD $0x02240664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 36], 2
+	QUAD $0x03242664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 36], 3
+	QUAD $0x04242e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 36], 4
+	LONG $0x64c40f66; WORD $0x241e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 36], 5
+	LONG $0x64c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 36], 6
+	QUAD $0x07240e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 36], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
+	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI4_9] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
+	LONG $0x54b70f42; WORD $0x343e             // movzx    edx, word [rsi + r15 + 52]
+	QUAD $0x07200e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 32], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0x4cc40f66; WORD $0x260e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 38], 1
+	QUAD $0x0226064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 38], 2
+	QUAD $0x0326264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 38], 3
+	QUAD $0x04262e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 38], 4
+	LONG $0x4cc40f66; WORD $0x261e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 38], 5
+	LONG $0x4cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 38], 6
+	QUAD $0x07260e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 38], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0x54c40f66; WORD $0x280e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 40], 1
+	QUAD $0x02280654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 40], 2
+	QUAD $0x03282654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 40], 3
+	QUAD $0x04282e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 40], 4
+	LONG $0x54c40f66; WORD $0x281e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 40], 5
+	LONG $0x54c40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 40], 6
+	QUAD $0x07280e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 40], 7
+	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
+	LONG $0x6f0f4166; BYTE $0xea               // movdqa    xmm5, xmm10
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
+	LONG $0x54b70f46; WORD $0x363e             // movzx    r10d, word [rsi + r15 + 54]
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x6f0f4166; BYTE $0xf1               // movdqa    xmm6, xmm9
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x646e0f66; WORD $0x1024             // movd    xmm4, dword [rsp + 16]
+	LONG $0x44b70f42; WORD $0x383e             // movzx    eax, word [rsi + r15 + 56]
+	LONG $0x5cc40f66; WORD $0x2a0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 42], 1
+	QUAD $0x022a065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 42], 2
+	QUAD $0x032a265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 42], 3
+	QUAD $0x042a2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 42], 4
+	LONG $0x5cc40f66; WORD $0x2a1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 42], 5
+	LONG $0x5cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 42], 6
+	QUAD $0x072a0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 42], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0x4cc40f66; WORD $0x2c0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 44], 1
+	QUAD $0x022c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 44], 2
+	QUAD $0x032c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 44], 3
+	QUAD $0x042c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 44], 4
+	LONG $0x4cc40f66; WORD $0x2c1e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 44], 5
+	LONG $0x4cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 44], 6
+	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
+	QUAD $0x0000c08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 192[rbp] /* [rip + .LCPI4_12] */
+	LONG $0x6f0f4166; BYTE $0xd1               // movdqa    xmm2, xmm9
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4166; WORD $0xd710             // pblendvb    xmm2, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
+	LONG $0x5cb70f46; WORD $0x3a3e             // movzx    r11d, word [rsi + r15 + 58]
+	QUAD $0x072c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 44], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0x0000d0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 208[rbp] /* [rip + .LCPI4_13] */
+	LONG $0x6f0f4166; BYTE $0xf2               // movdqa    xmm6, xmm10
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
+	LONG $0x74b70f46; WORD $0x3c3e             // movzx    r14d, word [rsi + r15 + 60]
+	LONG $0xf2eb0f66                           // por    xmm6, xmm2
+	LONG $0xd26e0f66                           // movd    xmm2, edx
+	LONG $0x64c40f66; WORD $0x2e0e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 46], 1
+	QUAD $0x022e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 46], 2
+	QUAD $0x032e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 46], 3
+	QUAD $0x042e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 46], 4
+	LONG $0x64c40f66; WORD $0x2e1e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rbx + 46], 5
+	LONG $0x64c40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 46], 6
+	QUAD $0x072e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 46], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
+	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 50], 1
+	QUAD $0x0232064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 2
+	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
+	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
+	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 50], 5
+	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
+	QUAD $0x07320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
+	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI4_8] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x7cc40f66; WORD $0x300e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 48], 1
+	QUAD $0x0230067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 48], 2
+	QUAD $0x0330267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 48], 3
+	QUAD $0x04302e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 48], 4
+	LONG $0x7cc40f66; WORD $0x301e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rbx + 48], 5
+	LONG $0x7cc40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 48], 6
+	QUAD $0x07300e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 48], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI4_22] */
+	LONG $0x54c40f66; WORD $0x340e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 52], 1
+	QUAD $0x02340654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 52], 2
+	QUAD $0x03342654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 52], 3
+	QUAD $0x04342e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 52], 4
+	LONG $0x54c40f66; WORD $0x341e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 52], 5
+	LONG $0x54c40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 52], 6
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x07340e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 52], 7
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0x5cc40f66; WORD $0x360e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 54], 1
+	QUAD $0x0236065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 54], 2
+	QUAD $0x0336265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 54], 3
+	QUAD $0x04362e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 54], 4
+	LONG $0x5cc40f66; WORD $0x361e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 54], 5
+	LONG $0x5cc40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 54], 6
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x07360e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 54], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0x4cc40f66; WORD $0x380e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 56], 1
+	QUAD $0x0238064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 56], 2
+	QUAD $0x0338264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 56], 3
+	QUAD $0x04382e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 56], 4
+	LONG $0x4cc40f66; WORD $0x381e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rbx + 56], 5
+	LONG $0x4cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 56], 6
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x07380e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 56], 7
+	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
+	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI4_9] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI4_10] */
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0x54c40f66; WORD $0x3a0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 58], 1
+	QUAD $0x023a0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 58], 2
+	QUAD $0x033a2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 58], 3
+	QUAD $0x043a2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 58], 4
+	LONG $0x54c40f66; WORD $0x3a1e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rbx + 58], 5
+	LONG $0x54c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 58], 6
+	QUAD $0x073a0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 58], 7
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0x6e0f4166; BYTE $0xde               // movd    xmm3, r14d
+	LONG $0x5cc40f66; WORD $0x3c0e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 60], 1
+	QUAD $0x023c065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 60], 2
+	QUAD $0x033c265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 60], 3
+	QUAD $0x043c2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 60], 4
+	LONG $0x5cc40f66; WORD $0x3c1e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rbx + 60], 5
+	LONG $0x5cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 60], 6
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x073c0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 60], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf4eb0f66                           // por    xmm6, xmm4
+	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI4_11] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
+	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xcf10             // pblendvb    xmm1, xmm15, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4566; WORD $0xd710             // pblendvb    xmm10, xmm15, xmm0
+	LONG $0xcceb0f66                           // por    xmm1, xmm4
+	LONG $0x44b70f42; WORD $0x3e3e             // movzx    eax, word [rsi + r15 + 62]
+	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	LONG $0x44c40f66; WORD $0x3e0e; BYTE $0x01 // pinsrw    xmm0, word [rsi + rcx + 62], 1
+	QUAD $0x023e0644c40f4266                   // pinsrw    xmm0, word [rsi + r8 + 62], 2
+	QUAD $0x033e2644c40f4266                   // pinsrw    xmm0, word [rsi + r12 + 62], 3
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x043e2e44c40f4266                   // pinsrw    xmm0, word [rsi + r13 + 62], 4
+	LONG $0x44c40f66; WORD $0x3e1e; BYTE $0x05 // pinsrw    xmm0, word [rsi + rbx + 62], 5
+	LONG $0x44c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm0, word [rsi + rdi + 62], 6
+	QUAD $0x073e0e44c40f4266                   // pinsrw    xmm0, word [rsi + r9 + 62], 7
+	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xeb0f4466; BYTE $0xd6               // por    xmm10, xmm6
+	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
+	LONG $0xeb0f4566; BYTE $0xf2               // por    xmm14, xmm10
+	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
+	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
+	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
+	LONG $0x6c0f4166; BYTE $0xd6               // punpcklqdq    xmm2, xmm14
+	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI4_15] */
+	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
+	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
+	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
+	LONG $0x600f4566; BYTE $0xc6               // punpcklbw    xmm8, xmm14
+	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
+	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	LONG $0x7f0f45f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm12
+	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm0
+	LONG $0x08c18348                           // add    rcx, 8
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
+	JNE  LBB4_190
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+	LONG $0x24543b4c; BYTE $0x18               // cmp    r10, qword [rsp + 24]
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	LONG $0x246c8b44; BYTE $0x40               // mov    r13d, dword [rsp + 64]
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	JNE  LBB4_104
+	JMP  LBB4_144
+
+LBB4_192:
+	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
+	LONG $0xfce08349                           // and    r8, -4
+	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
+	LONG $0x07e3c148                           // shl    rbx, 7
+	WORD $0x0148; BYTE $0xf3                   // add    rbx, rsi
+	LONG $0x861c8d4f                           // lea    r11, [r14 + 4*r8]
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
+	LONG $0xfcc68148; WORD $0x0001; BYTE $0x00 // add    rsi, 508
+	WORD $0xc931                               // xor    ecx, ecx
+	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI4_0] */
+	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI4_1] */
+	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI4_2] */
+	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI4_3] */
+	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI4_4] */
+	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI4_5] */
+	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI4_6] */
+	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI4_7] */
+
+LBB4_193:
+	QUAD $0xfffffe04b6100ff3                   // movss    xmm6, dword [rsi - 508]
+	QUAD $0xfffffe08be100ff3                   // movss    xmm7, dword [rsi - 504]
+	QUAD $0xfffffe0cae100ff3                   // movss    xmm5, dword [rsi - 500]
+	QUAD $0xfffffe10a6100ff3                   // movss    xmm4, dword [rsi - 496]
+	QUAD $0xfffe84b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 380], 16
+	QUAD $0xffff04b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 252], 32
+	LONG $0x213a0f66; WORD $0x8476; BYTE $0x30 // insertps    xmm6, dword [rsi - 124], 48
+	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	QUAD $0xfffe88be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 376], 16
+	QUAD $0xffff08be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 248], 32
+	LONG $0x213a0f66; WORD $0x887e; BYTE $0x30 // insertps    xmm7, dword [rsi - 120], 48
+	QUAD $0xfffe8cae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 372], 16
+	QUAD $0xffff0cae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 244], 32
+	LONG $0x213a0f66; WORD $0x8c6e; BYTE $0x30 // insertps    xmm5, dword [rsi - 116], 48
+	QUAD $0xfffe90a6213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rsi - 368], 16
+	QUAD $0xffff10a6213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rsi - 240], 32
+	LONG $0x213a0f66; WORD $0x9066; BYTE $0x30 // insertps    xmm4, dword [rsi - 112], 48
+	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
+	QUAD $0xfffffe14be100ff3                   // movss    xmm7, dword [rsi - 492]
+	QUAD $0xfffe94be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 364], 16
+	QUAD $0xffff14be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 236], 32
+	LONG $0x213a0f66; WORD $0x947e; BYTE $0x30 // insertps    xmm7, dword [rsi - 108], 48
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0xfffffe18b6100ff3                   // movss    xmm6, dword [rsi - 488]
+	QUAD $0xfffe98b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 360], 16
+	QUAD $0xffff18b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 232], 32
+	LONG $0x213a0f66; WORD $0x9876; BYTE $0x30 // insertps    xmm6, dword [rsi - 104], 48
+	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
+	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
+	LONG $0xeaeb0f66                           // por    xmm5, xmm2
+	QUAD $0xfffffe1c9e100ff3                   // movss    xmm3, dword [rsi - 484]
+	QUAD $0xfffe9c9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 356], 16
+	QUAD $0xffff1c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 228], 32
+	LONG $0x213a0f66; WORD $0x9c5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 100], 48
+	LONG $0x04e1c20f                           // cmpneqps    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
+	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
+	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
+	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
+	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
+	LONG $0xfceb0f66                           // por    xmm7, xmm4
+	QUAD $0xfffffe20a6100ff3                   // movss    xmm4, dword [rsi - 480]
+	QUAD $0xfffea0a6213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rsi - 352], 16
+	QUAD $0xffff20a6213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rsi - 224], 32
+	LONG $0x213a0f66; WORD $0xa066; BYTE $0x30 // insertps    xmm4, dword [rsi - 96], 48
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	QUAD $0xfffffe24ae100ff3                   // movss    xmm5, dword [rsi - 476]
+	QUAD $0xfffea4ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 348], 16
+	QUAD $0xffff24ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 220], 32
+	LONG $0x213a0f66; WORD $0xa46e; BYTE $0x30 // insertps    xmm5, dword [rsi - 92], 48
+	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
+	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe2896100ff3                   // movss    xmm2, dword [rsi - 472]
+	QUAD $0xfffea896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 344], 16
+	QUAD $0xffff2896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 216], 32
+	LONG $0x213a0f66; WORD $0xa856; BYTE $0x30 // insertps    xmm2, dword [rsi - 88], 48
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0x04e1c20f                           // cmpneqps    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
+	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
+	LONG $0xe3eb0f66                           // por    xmm4, xmm3
+	QUAD $0xfffffe2c9e100ff3                   // movss    xmm3, dword [rsi - 468]
+	QUAD $0xfffeac9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 340], 16
+	QUAD $0xffff2c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 212], 32
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0x213a0f66; WORD $0xac5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 84], 48
+	LONG $0xe7eb0f66                           // por    xmm4, xmm7
+	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
+	QUAD $0xfffffe30be100ff3                   // movss    xmm7, dword [rsi - 464]
+	QUAD $0xfffeb0be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 336], 16
+	QUAD $0xffff30be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 208], 32
+	LONG $0x213a0f66; WORD $0xb07e; BYTE $0x30 // insertps    xmm7, dword [rsi - 80], 48
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	QUAD $0xfffffe34ae100ff3                   // movss    xmm5, dword [rsi - 460]
+	QUAD $0xfffeb4ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 332], 16
+	QUAD $0xffff34ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 204], 32
+	LONG $0x213a0f66; WORD $0xb46e; BYTE $0x30 // insertps    xmm5, dword [rsi - 76], 48
+	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe38b6100ff3                   // movss    xmm6, dword [rsi - 456]
+	QUAD $0xfffeb8b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 328], 16
+	QUAD $0xffff38b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 200], 32
+	LONG $0x213a0f66; WORD $0xb876; BYTE $0x30 // insertps    xmm6, dword [rsi - 72], 48
+	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
+	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
+	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	QUAD $0xfffffe3c96100ff3                   // movss    xmm2, dword [rsi - 452]
+	QUAD $0xfffebc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 324], 16
+	QUAD $0xffff3c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 196], 32
+	LONG $0x213a0f66; WORD $0xbc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 68], 48
+	LONG $0xebeb0f66                           // por    xmm5, xmm3
+	QUAD $0xfffffe40be100ff3                   // movss    xmm7, dword [rsi - 448]
+	QUAD $0xfffec0be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 320], 16
+	QUAD $0xffff40be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 192], 32
+	LONG $0x213a0f66; WORD $0xc07e; BYTE $0x30 // insertps    xmm7, dword [rsi - 64], 48
+	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0xfffffe44b6100ff3                   // movss    xmm6, dword [rsi - 444]
+	QUAD $0xfffec4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 316], 16
+	QUAD $0xffff44b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 188], 32
+	LONG $0x213a0f66; WORD $0xc476; BYTE $0x30 // insertps    xmm6, dword [rsi - 60], 48
+	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
+	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
+	LONG $0xfaeb0f66                           // por    xmm7, xmm2
+	QUAD $0xfffffe4896100ff3                   // movss    xmm2, dword [rsi - 440]
+	QUAD $0xfffec896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 312], 16
+	QUAD $0xffff4896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 184], 32
+	LONG $0x213a0f66; WORD $0xc856; BYTE $0x30 // insertps    xmm2, dword [rsi - 56], 48
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	QUAD $0xfffffe4c9e100ff3                   // movss    xmm3, dword [rsi - 436]
+	QUAD $0xfffecc9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 308], 16
+	QUAD $0xffff4c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 180], 32
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0x213a0f66; WORD $0xcc5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 52], 48
+	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
+	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
+	QUAD $0xfffffe50ae100ff3                   // movss    xmm5, dword [rsi - 432]
+	QUAD $0xfffed0ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 304], 16
+	QUAD $0xffff50ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 176], 32
+	LONG $0x213a0f66; WORD $0xd06e; BYTE $0x30 // insertps    xmm5, dword [rsi - 48], 48
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	QUAD $0xfffffe54b6100ff3                   // movss    xmm6, dword [rsi - 428]
+	QUAD $0xfffed4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 300], 16
+	QUAD $0xffff54b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 172], 32
+	LONG $0x213a0f66; WORD $0xd476; BYTE $0x30 // insertps    xmm6, dword [rsi - 44], 48
+	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdfeb0f66                           // por    xmm3, xmm7
+	QUAD $0xfffffe58be100ff3                   // movss    xmm7, dword [rsi - 424]
+	QUAD $0xfffed8be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 296], 16
+	QUAD $0xffff58be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 168], 32
+	LONG $0x213a0f66; WORD $0xd87e; BYTE $0x30 // insertps    xmm7, dword [rsi - 40], 48
+	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
+	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
+	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
+	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	QUAD $0xfffffe5c96100ff3                   // movss    xmm2, dword [rsi - 420]
+	QUAD $0xfffedc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 292], 16
+	QUAD $0xffff5c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 164], 32
+	LONG $0x213a0f66; WORD $0xdc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 36], 48
+	LONG $0xf3eb0f66                           // por    xmm6, xmm3
+	QUAD $0xfffffe60ae100ff3                   // movss    xmm5, dword [rsi - 416]
+	QUAD $0xfffee0ae213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rsi - 288], 16
+	QUAD $0xffff60ae213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rsi - 160], 32
+	LONG $0x213a0f66; WORD $0xe06e; BYTE $0x30 // insertps    xmm5, dword [rsi - 32], 48
+	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
+	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
+	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	QUAD $0xfffffe64be100ff3                   // movss    xmm7, dword [rsi - 412]
+	QUAD $0xfffee4be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 284], 16
+	QUAD $0xffff64be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 156], 32
+	LONG $0x213a0f66; WORD $0xe47e; BYTE $0x30 // insertps    xmm7, dword [rsi - 28], 48
+	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0x04e9c20f                           // cmpneqps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
+	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
+	LONG $0xeaeb0f66                           // por    xmm5, xmm2
+	QUAD $0xfffffe6896100ff3                   // movss    xmm2, dword [rsi - 408]
+	QUAD $0xfffee896213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 280], 16
+	QUAD $0xffff6896213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 152], 32
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0x213a0f66; WORD $0xe856; BYTE $0x30 // insertps    xmm2, dword [rsi - 24], 48
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
+	QUAD $0xfffffe6c9e100ff3                   // movss    xmm3, dword [rsi - 404]
+	QUAD $0xfffeec9e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 276], 16
+	QUAD $0xffff6c9e213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rsi - 148], 32
+	LONG $0x213a0f66; WORD $0xec5e; BYTE $0x30 // insertps    xmm3, dword [rsi - 20], 48
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	QUAD $0xfffffe7096100ff3                   // movss    xmm2, dword [rsi - 400]
+	QUAD $0xfffef096213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 272], 16
+	QUAD $0xffff7096213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 144], 32
+	LONG $0x213a0f66; WORD $0xf056; BYTE $0x30 // insertps    xmm2, dword [rsi - 16], 48
+	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe74b6100ff3                   // movss    xmm6, dword [rsi - 396]
+	QUAD $0xfffef4b6213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rsi - 268], 16
+	QUAD $0xffff74b6213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rsi - 140], 32
+	LONG $0x213a0f66; WORD $0xf476; BYTE $0x30 // insertps    xmm6, dword [rsi - 12], 48
+	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
+	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
+	LONG $0x04f1c20f                           // cmpneqps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
+	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
+	LONG $0xf2eb0f66                           // por    xmm6, xmm2
+	QUAD $0xfffffe78be100ff3                   // movss    xmm7, dword [rsi - 392]
+	QUAD $0xfffef8be213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rsi - 264], 16
+	QUAD $0xffff78be213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rsi - 136], 32
+	LONG $0x213a0f66; WORD $0xf87e; BYTE $0x30 // insertps    xmm7, dword [rsi - 8], 48
+	LONG $0xf3eb0f66                           // por    xmm6, xmm3
+	QUAD $0xfffffe7c96100ff3                   // movss    xmm2, dword [rsi - 388]
+	QUAD $0xfffefc96213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rsi - 260], 16
+	QUAD $0xffff7c96213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rsi - 132], 32
+	LONG $0x213a0f66; WORD $0xfc56; BYTE $0x30 // insertps    xmm2, dword [rsi - 4], 48
+	LONG $0x04f9c20f                           // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
+	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
+	LONG $0x04d1c20f                           // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	QUAD $0xfffffe809e100ff3                   // movss    xmm3, dword [rsi - 384]
+	QUAD $0xffff009e213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rsi - 256], 16
+	LONG $0x213a0f66; WORD $0x805e; BYTE $0x20 // insertps    xmm3, dword [rsi - 128], 32
+	LONG $0x213a0f66; WORD $0x301e             // insertps    xmm3, dword [rsi], 48
+	LONG $0x04d9c20f                           // cmpneqps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
+	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
+	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
+	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
+	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
+	LONG $0x04c18348                           // add    rcx, 4
+	LONG $0x00c68148; WORD $0x0002; BYTE $0x00 // add    rsi, 512
+	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
+	JNE  LBB4_193
+	WORD $0x394d; BYTE $0xc2                   // cmp    r10, r8
+	JNE  LBB4_127
+	JMP  LBB4_148
+
+DATA LCDATA4<>+0x000(SB)/8, $0x0000000001010101
+DATA LCDATA4<>+0x008(SB)/8, $0x0000000000000000
+DATA LCDATA4<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA4<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA4<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA4<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA4<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA4<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA4<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA4<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA4<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA4<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA4<>+0x060(SB)/8, $0x8080808080808080
+DATA LCDATA4<>+0x068(SB)/8, $0x8080808080808080
+DATA LCDATA4<>+0x070(SB)/8, $0x0b030a0209010800
+DATA LCDATA4<>+0x078(SB)/8, $0x0f070e060d050c04
+DATA LCDATA4<>+0x080(SB)/8, $0x0202020202020202
+DATA LCDATA4<>+0x088(SB)/8, $0x0000000000000000
+DATA LCDATA4<>+0x090(SB)/8, $0x0404040404040404
+DATA LCDATA4<>+0x098(SB)/8, $0x0000000000000000
+DATA LCDATA4<>+0x0a0(SB)/8, $0x0808080808080808
+DATA LCDATA4<>+0x0a8(SB)/8, $0x0000000000000000
+DATA LCDATA4<>+0x0b0(SB)/8, $0x1010101010101010
+DATA LCDATA4<>+0x0b8(SB)/8, $0x0000000000000000
+DATA LCDATA4<>+0x0c0(SB)/8, $0x2020202020202020
+DATA LCDATA4<>+0x0c8(SB)/8, $0x0000000000000000
+DATA LCDATA4<>+0x0d0(SB)/8, $0x4040404040404040
+DATA LCDATA4<>+0x0d8(SB)/8, $0x0000000000000000
+DATA LCDATA4<>+0x0e0(SB)/8, $0x8080808080808080
+DATA LCDATA4<>+0x0e8(SB)/8, $0x0000000000000000
+DATA LCDATA4<>+0x0f0(SB)/8, $0x0f070e060d050c04
+DATA LCDATA4<>+0x0f8(SB)/8, $0x0000000000000000
+DATA LCDATA4<>+0x100(SB)/8, $0x0202020202020202
+DATA LCDATA4<>+0x108(SB)/8, $0x0202020202020202
+DATA LCDATA4<>+0x110(SB)/8, $0x0404040404040404
+DATA LCDATA4<>+0x118(SB)/8, $0x0404040404040404
+DATA LCDATA4<>+0x120(SB)/8, $0x0808080808080808
+DATA LCDATA4<>+0x128(SB)/8, $0x0808080808080808
+DATA LCDATA4<>+0x130(SB)/8, $0x1010101010101010
+DATA LCDATA4<>+0x138(SB)/8, $0x1010101010101010
+DATA LCDATA4<>+0x140(SB)/8, $0x2020202020202020
+DATA LCDATA4<>+0x148(SB)/8, $0x2020202020202020
+DATA LCDATA4<>+0x150(SB)/8, $0x4040404040404040
+DATA LCDATA4<>+0x158(SB)/8, $0x4040404040404040
+DATA LCDATA4<>+0x160(SB)/8, $0xffffffffffffffff
+DATA LCDATA4<>+0x168(SB)/8, $0xffffffffffffffff
+GLOBL LCDATA4<>(SB), 8, $368
+
+TEXT ·_comparison_not_equal_scalar_arr_sse4(SB), $312-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $16, SP
+	ANDQ $-16, SP
+	MOVQ BP, 288(SP)
+	LEAQ LCDATA4<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc7     // mov    r15, r8
+	LONG $0x244c8948; BYTE $0x08 // mov    qword [rsp + 8], rcx
+	WORD $0x8949; BYTE $0xd6     // mov    r14, rdx
+	WORD $0xff83; BYTE $0x06     // cmp    edi, 6
+	JG   LBB5_26
+	WORD $0xff83; BYTE $0x03     // cmp    edi, 3
+	JLE  LBB5_2
+	WORD $0xff83; BYTE $0x04     // cmp    edi, 4
+	JE   LBB5_99
+	WORD $0xff83; BYTE $0x05     // cmp    edi, 5
+	JE   LBB5_122
+	WORD $0xff83; BYTE $0x06     // cmp    edi, 6
+	JNE  LBB5_199
+	WORD $0x8b44; BYTE $0x1e     // mov    r11d, dword [rsi]
+	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff     // test    r15, r15
+	LONG $0xd7490f4d             // cmovns    r10, r15
+	LONG $0x07418d41             // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xc1490f41             // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8     // and    eax, -8
+	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
+	JE   LBB5_17
+	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
+	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
+
+LBB5_15:
+	WORD $0x3b45; BYTE $0x1e                   // cmp    r11d, dword [r14]
+	LONG $0x04768d4d                           // lea    r14, [r14 + 4]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f44; BYTE $0x32               // movzx    r8d, byte [rdx + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x323c8840                           // mov    byte [rdx + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB5_15
+	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
+
+LBB5_17:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20ff8349         // cmp    r15, 32
+	JL   LBB5_21
+	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
+	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
+	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
+
+LBB5_19:
+	LONG $0x7c5e3b45                           // cmp    r11d, dword [r14 + 124]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x785e3b45                           // cmp    r11d, dword [r14 + 120]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x745e3b45                           // cmp    r11d, dword [r14 + 116]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x705e3b45                           // cmp    r11d, dword [r14 + 112]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x6c5e3b45                           // cmp    r11d, dword [r14 + 108]
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x685e3b45                           // cmp    r11d, dword [r14 + 104]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x645e3b45                           // cmp    r11d, dword [r14 + 100]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x5c5e3b45                           // cmp    r11d, dword [r14 + 92]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x585e3b45                           // cmp    r11d, dword [r14 + 88]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x545e3b45                           // cmp    r11d, dword [r14 + 84]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x505e3b45                           // cmp    r11d, dword [r14 + 80]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x4c5e3b45                           // cmp    r11d, dword [r14 + 76]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x485e3b45                           // cmp    r11d, dword [r14 + 72]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x445e3b45                           // cmp    r11d, dword [r14 + 68]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x3c5e3b45                           // cmp    r11d, dword [r14 + 60]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x385e3b45                           // cmp    r11d, dword [r14 + 56]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x345e3b45                           // cmp    r11d, dword [r14 + 52]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x305e3b45                           // cmp    r11d, dword [r14 + 48]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x2c5e3b45                           // cmp    r11d, dword [r14 + 44]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x285e3b45                           // cmp    r11d, dword [r14 + 40]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x245e3b45                           // cmp    r11d, dword [r14 + 36]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x1c5e3b45                           // cmp    r11d, dword [r14 + 28]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x185e3b45                           // cmp    r11d, dword [r14 + 24]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x145e3b45                           // cmp    r11d, dword [r14 + 20]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x105e3b45                           // cmp    r11d, dword [r14 + 16]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x0c5e3b45                           // cmp    r11d, dword [r14 + 12]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x085e3b45                           // cmp    r11d, dword [r14 + 8]
+	LONG $0xd7950f41                           // setne    r15b
+	WORD $0x3b45; BYTE $0x1e                   // cmp    r11d, dword [r14]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x045e3b45                           // cmp    r11d, dword [r14 + 4]
+	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x205d3b45                           // cmp    r11d, dword [r13 + 32]
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x405d3b45                           // cmp    r11d, dword [r13 + 64]
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x605d3b45                           // cmp    r11d, dword [r13 + 96]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	QUAD $0x0000009824b40244                   // add    r14b, byte [rsp + 152]
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0845; BYTE $0xf7                   // or    r15b, r14b
+	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0xca08                               // or    dl, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xd008                               // or    al, dl
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e7c040                           // shl    dil, 4
+	WORD $0x0844; BYTE $0xd7                   // or    dil, r10b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x60244402                           // add    al, byte [rsp + 96]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x80ee8349                           // sub    r14, -128
+	LONG $0x04c78349                           // add    r15, 4
+	LONG $0x247c894c; BYTE $0x08               // mov    qword [rsp + 8], r15
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB5_19
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+
+LBB5_21:
+	LONG $0x05e2c149             // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa     // cmp    r10, r15
+	JGE  LBB5_199
+	WORD $0x894d; BYTE $0xf8     // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0     // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2     // not    r10
+	WORD $0x014d; BYTE $0xfa     // add    r10, r15
+	JE   LBB5_23
+	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
+	LONG $0xfee18349             // and    r9, -2
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x247c8b4c; BYTE $0x08 // mov    r15, qword [rsp + 8]
+
+LBB5_143:
+	WORD $0x3b45; BYTE $0x1e     // cmp    r11d, dword [r14]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	WORD $0xc220                 // and    dl, al
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	LONG $0x37148841             // mov    byte [r15 + rsi], dl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x045e3b45             // cmp    r11d, dword [r14 + 4]
+	LONG $0x08768d4d             // lea    r14, [r14 + 8]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd030                 // xor    al, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0xd330                 // xor    bl, dl
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
+	JNE  LBB5_143
+	JMP  LBB5_24
+
+LBB5_26:
+	WORD $0xff83; BYTE $0x08     // cmp    edi, 8
+	JLE  LBB5_27
+	WORD $0xff83; BYTE $0x09     // cmp    edi, 9
+	JE   LBB5_158
+	WORD $0xff83; BYTE $0x0b     // cmp    edi, 11
+	JE   LBB5_170
+	WORD $0xff83; BYTE $0x0c     // cmp    edi, 12
+	JNE  LBB5_199
+	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff     // test    r15, r15
+	LONG $0xd7490f4d             // cmovns    r10, r15
+	LONG $0x07418d41             // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xc1490f41             // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8     // and    eax, -8
+	LONG $0x06100ff2             // movsd    xmm0, qword [rsi]
+	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
+	JE   LBB5_49
+	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
+	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
+
+LBB5_47:
+	LONG $0x2e0f4166; BYTE $0x06               // ucomisd    xmm0, qword [r14]
+	LONG $0x08768d4d                           // lea    r14, [r14 + 8]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
+	WORD $0xda30                               // xor    dl, bl
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
+	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB5_47
+	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
+
+LBB5_49:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20ff8349         // cmp    r15, 32
+	JL   LBB5_53
+	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
+	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
+	QUAD $0x000000982494894c // mov    qword [rsp + 152], r10
+
+LBB5_51:
+	WORD $0x894c; BYTE $0xf2                   // mov    rdx, r14
+	LONG $0x2e0f4166; BYTE $0x06               // ucomisd    xmm0, qword [r14]
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x2e0f4166; WORD $0x0846             // ucomisd    xmm0, qword [r14 + 8]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x2e0f4166; WORD $0x1046             // ucomisd    xmm0, qword [r14 + 16]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x2e0f4166; WORD $0x1846             // ucomisd    xmm0, qword [r14 + 24]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x2e0f4166; WORD $0x2046             // ucomisd    xmm0, qword [r14 + 32]
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x2e0f4166; WORD $0x2846             // ucomisd    xmm0, qword [r14 + 40]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x2e0f4166; WORD $0x3046             // ucomisd    xmm0, qword [r14 + 48]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x2e0f4166; WORD $0x3846             // ucomisd    xmm0, qword [r14 + 56]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x2e0f4166; WORD $0x4046             // ucomisd    xmm0, qword [r14 + 64]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x2e0f4166; WORD $0x4846             // ucomisd    xmm0, qword [r14 + 72]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x2e0f4166; WORD $0x5046             // ucomisd    xmm0, qword [r14 + 80]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x2e0f4166; WORD $0x5846             // ucomisd    xmm0, qword [r14 + 88]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x2e0f4166; WORD $0x6046             // ucomisd    xmm0, qword [r14 + 96]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x2e0f4166; WORD $0x6846             // ucomisd    xmm0, qword [r14 + 104]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x2e0f4166; WORD $0x7046             // ucomisd    xmm0, qword [r14 + 112]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x2e0f4166; WORD $0x7846             // ucomisd    xmm0, qword [r14 + 120]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	QUAD $0x000080862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 128]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	QUAD $0x000088862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 136]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	QUAD $0x000090862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 144]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	QUAD $0x000098862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 152]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	QUAD $0x0000a0862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 160]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	QUAD $0x0000a8862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 168]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	QUAD $0x0000b0862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 176]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	QUAD $0x0000b8862e0f4166; BYTE $0x00       // ucomisd    xmm0, qword [r14 + 184]
+	LONG $0xd6950f41                           // setne    r14b
+	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x000000c0248c0244                   // add    r9b, byte [rsp + 192]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e4c041                           // shl    r12b, 7
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x0000009024b40240                   // add    sil, byte [rsp + 144]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	QUAD $0x000000b0249cb60f                   // movzx    ebx, byte [rsp + 176]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
+	WORD $0x8941; BYTE $0xd9                   // mov    r9d, ebx
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	LONG $0x03e0c041                           // shl    r8b, 3
+	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
+	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
+	LONG $0x05e7c041                           // shl    r15b, 5
+	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
+	QUAD $0x0000008824bcb60f                   // movzx    edi, byte [rsp + 136]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xdb00                               // add    bl, bl
+	LONG $0x78245c02                           // add    bl, byte [rsp + 120]
+	WORD $0xdf89                               // mov    edi, ebx
+	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
+	WORD $0xdf89                               // mov    edi, ebx
+	LONG $0x245cb60f; BYTE $0x70               // movzx    ebx, byte [rsp + 112]
+	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
+	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
+	WORD $0xdf89                               // mov    edi, ebx
+	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
+	WORD $0xdf89                               // mov    edi, ebx
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
+	WORD $0x8844; BYTE $0x26                   // mov    byte [rsi], r12b
+	LONG $0x247cb60f; BYTE $0x58               // movzx    edi, byte [rsp + 88]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x4e88; BYTE $0x01                   // mov    byte [rsi + 1], cl
+	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x20244c02                           // add    cl, byte [rsp + 32]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02768844                           // mov    byte [rsi + 2], r14b
+	WORD $0x4688; BYTE $0x03                   // mov    byte [rsi + 3], al
+	LONG $0x00b28d4c; WORD $0x0001; BYTE $0x00 // lea    r14, [rdx + 256]
+	LONG $0x04c68348                           // add    rsi, 4
+	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB5_51
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+
+LBB5_53:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB5_199
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JNE  LBB5_193
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB5_195
+
+LBB5_2:
+	WORD $0xff83; BYTE $0x02     // cmp    edi, 2
+	JE   LBB5_56
+	WORD $0xff83; BYTE $0x03     // cmp    edi, 3
+	JNE  LBB5_199
+	WORD $0x068a                 // mov    al, byte [rsi]
+	LONG $0x40244488             // mov    byte [rsp + 64], al
+	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff     // test    r15, r15
+	LONG $0xd7490f4d             // cmovns    r10, r15
+	LONG $0x07418d41             // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xc1490f41             // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8     // and    eax, -8
+	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
+	JE   LBB5_8
+	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
+	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
+
+LBB5_6:
+	LONG $0x244cb60f; BYTE $0x40   // movzx    ecx, byte [rsp + 64]
+	WORD $0x3a41; BYTE $0x0e       // cmp    cl, byte [r14]
+	LONG $0x01768d4d               // lea    r14, [r14 + 1]
+	WORD $0x950f; BYTE $0xd3       // setne    bl
+	WORD $0xdbf6                   // neg    bl
+	LONG $0x07708d48               // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xf0490f48               // cmovns    rsi, rax
+	LONG $0x03fec148               // sar    rsi, 3
+	LONG $0x0cb60f44; BYTE $0x32   // movzx    r9d, byte [rdx + rsi]
+	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
+	QUAD $0x00000000f5048d44       // lea    r8d, [8*rsi]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf       // and    dil, bl
+	WORD $0x3044; BYTE $0xcf       // xor    dil, r9b
+	LONG $0x323c8840               // mov    byte [rdx + rsi], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB5_6
+	LONG $0x24448348; WORD $0x0108 // add    qword [rsp + 8], 1
+
+LBB5_8:
+	LONG $0x05fac149             // sar    r10, 5
+	LONG $0x20ff8349             // cmp    r15, 32
+	JL   LBB5_9
+	LONG $0x10fa8349             // cmp    r10, 16
+	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
+	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
+	JB   LBB5_82
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
+	JAE  LBB5_85
+	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
+	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
+	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
+	JAE  LBB5_85
+
+LBB5_82:
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000d824848948     // mov    qword [rsp + 216], rax
+	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
+	QUAD $0x0000008024848948     // mov    qword [rsp + 128], rax
+
+LBB5_88:
+	QUAD $0x000000d824942b4c // sub    r10, qword [rsp + 216]
+	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
+
+LBB5_89:
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	LONG $0x1f463a41                           // cmp    al, byte [r14 + 31]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0x1e463a41                           // cmp    al, byte [r14 + 30]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x1d463a41                           // cmp    al, byte [r14 + 29]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x1c463a41                           // cmp    al, byte [r14 + 28]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x1b463a41                           // cmp    al, byte [r14 + 27]
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x1a463a41                           // cmp    al, byte [r14 + 26]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x19463a41                           // cmp    al, byte [r14 + 25]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x17463a41                           // cmp    al, byte [r14 + 23]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x16463a41                           // cmp    al, byte [r14 + 22]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x15463a41                           // cmp    al, byte [r14 + 21]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x14463a41                           // cmp    al, byte [r14 + 20]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x13463a41                           // cmp    al, byte [r14 + 19]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x12463a41                           // cmp    al, byte [r14 + 18]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x11463a41                           // cmp    al, byte [r14 + 17]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x0f463a41                           // cmp    al, byte [r14 + 15]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x0e463a41                           // cmp    al, byte [r14 + 14]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x0d463a41                           // cmp    al, byte [r14 + 13]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x0c463a41                           // cmp    al, byte [r14 + 12]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x0b463a41                           // cmp    al, byte [r14 + 11]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x0a463a41                           // cmp    al, byte [r14 + 10]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x09463a41                           // cmp    al, byte [r14 + 9]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x07463a41                           // cmp    al, byte [r14 + 7]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x06463a41                           // cmp    al, byte [r14 + 6]
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x05463a41                           // cmp    al, byte [r14 + 5]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x04463a41                           // cmp    al, byte [r14 + 4]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x03463a41                           // cmp    al, byte [r14 + 3]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x02463a41                           // cmp    al, byte [r14 + 2]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0x3a41; BYTE $0x06                   // cmp    al, byte [r14]
+	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
+	LONG $0x01463a41                           // cmp    al, byte [r14 + 1]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x08463a41                           // cmp    al, byte [r14 + 8]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x10463a41                           // cmp    al, byte [r14 + 16]
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x18463a41                           // cmp    al, byte [r14 + 24]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0xa8248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 168]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xca08                               // or    dl, cl
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	LONG $0x04e0c041                           // shl    r8b, 4
+	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
+	LONG $0x05e1c041                           // shl    r9b, 5
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e6c040                           // shl    sil, 7
+	WORD $0x0840; BYTE $0xc6                   // or    sil, al
+	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	WORD $0x8840; BYTE $0x30                   // mov    byte [rax], sil
+	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
+	QUAD $0x00000098249c0244                   // add    r11b, byte [rsp + 152]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0844; BYTE $0xdb                   // or    bl, r11b
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x04e4c041                           // shl    r12b, 4
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x05e5c041                           // shl    r13b, 5
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
+	WORD $0x0845; BYTE $0xea                   // or    r10b, r13b
+	LONG $0x01508844                           // mov    byte [rax + 1], r10b
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0xb0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 176]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xd108                               // or    cl, dl
+	WORD $0x4888; BYTE $0x02                   // mov    byte [rax + 2], cl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x88248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 136]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xd108                               // or    cl, dl
+	WORD $0x4888; BYTE $0x03                   // mov    byte [rax + 3], cl
+	LONG $0x20c68349                           // add    r14, 32
+	LONG $0x04c08348                           // add    rax, 4
+	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
+	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
+	JNE  LBB5_89
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	JMP  LBB5_91
+
+LBB5_27:
+	WORD $0xff83; BYTE $0x07     // cmp    edi, 7
+	JE   LBB5_144
+	WORD $0xff83; BYTE $0x08     // cmp    edi, 8
+	JNE  LBB5_199
+	WORD $0x8b4c; BYTE $0x1e     // mov    r11, qword [rsi]
+	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff     // test    r15, r15
+	LONG $0xd7490f4d             // cmovns    r10, r15
+	LONG $0x07418d41             // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xc1490f41             // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8     // and    eax, -8
+	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
+	JE   LBB5_33
+	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
+	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
+
+LBB5_31:
+	WORD $0x3b4d; BYTE $0x1e                   // cmp    r11, qword [r14]
+	LONG $0x08768d4d                           // lea    r14, [r14 + 8]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
+	WORD $0xda30                               // xor    dl, bl
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
+	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB5_31
+	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
+
+LBB5_33:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20ff8349         // cmp    r15, 32
+	JL   LBB5_37
+	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
+	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
+	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
+
+LBB5_35:
+	LONG $0xf89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 248]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0xf09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 240]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0xe89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 232]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0xe09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 224]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0xd89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 216]
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0xd09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 208]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0xc89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 200]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0xb89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 184]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0xb09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 176]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0xa89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 168]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0xa09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 160]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x989e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 152]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x909e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 144]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x889e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 136]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x785e3b4d                           // cmp    r11, qword [r14 + 120]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x705e3b4d                           // cmp    r11, qword [r14 + 112]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x685e3b4d                           // cmp    r11, qword [r14 + 104]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x605e3b4d                           // cmp    r11, qword [r14 + 96]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x585e3b4d                           // cmp    r11, qword [r14 + 88]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x505e3b4d                           // cmp    r11, qword [r14 + 80]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x485e3b4d                           // cmp    r11, qword [r14 + 72]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x385e3b4d                           // cmp    r11, qword [r14 + 56]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x305e3b4d                           // cmp    r11, qword [r14 + 48]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x285e3b4d                           // cmp    r11, qword [r14 + 40]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x205e3b4d                           // cmp    r11, qword [r14 + 32]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x185e3b4d                           // cmp    r11, qword [r14 + 24]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x105e3b4d                           // cmp    r11, qword [r14 + 16]
+	LONG $0xd5950f41                           // setne    r13b
+	WORD $0x3b4d; BYTE $0x1e                   // cmp    r11, qword [r14]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x085e3b4d                           // cmp    r11, qword [r14 + 8]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x405e3b4d                           // cmp    r11, qword [r14 + 64]
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x809e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 128]
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0xc09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 192]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
+	QUAD $0x0000009824a40244                   // add    r12b, byte [rsp + 152]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xfa                   // or    dl, r15b
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x24048841                           // mov    byte [r12], al
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e7c040                           // shl    dil, 4
+	WORD $0x0844; BYTE $0xd7                   // or    dil, r10b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x24448845; BYTE $0x01               // mov    byte [r12 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x60244402                           // add    al, byte [rsp + 96]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
+	LONG $0x00c68149; WORD $0x0001; BYTE $0x00 // add    r14, 256
+	LONG $0x04c48349                           // add    r12, 4
+	LONG $0x2464894c; BYTE $0x08               // mov    qword [rsp + 8], r12
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB5_35
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+
+LBB5_37:
+	LONG $0x05e2c149             // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa     // cmp    r10, r15
+	JGE  LBB5_199
+	WORD $0x894d; BYTE $0xf8     // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0     // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2     // not    r10
+	WORD $0x014d; BYTE $0xfa     // add    r10, r15
+	JE   LBB5_39
+	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
+	LONG $0xfee18349             // and    r9, -2
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x247c8b4c; BYTE $0x08 // mov    r15, qword [rsp + 8]
+
+LBB5_157:
+	WORD $0x3b4d; BYTE $0x1e     // cmp    r11, qword [r14]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	WORD $0xc220                 // and    dl, al
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	LONG $0x37148841             // mov    byte [r15 + rsi], dl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x085e3b4d             // cmp    r11, qword [r14 + 8]
+	LONG $0x10768d4d             // lea    r14, [r14 + 16]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd030                 // xor    al, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0xd330                 // xor    bl, dl
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
+	JNE  LBB5_157
+	JMP  LBB5_40
+
+LBB5_56:
+	WORD $0x068a                 // mov    al, byte [rsi]
+	LONG $0x28244488             // mov    byte [rsp + 40], al
+	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff     // test    r15, r15
+	LONG $0xd7490f4d             // cmovns    r10, r15
+	LONG $0x07418d41             // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xc1490f41             // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8     // and    eax, -8
+	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
+	JE   LBB5_60
+	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
+	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
+
+LBB5_58:
+	LONG $0x244cb60f; BYTE $0x28   // movzx    ecx, byte [rsp + 40]
+	WORD $0x3a41; BYTE $0x0e       // cmp    cl, byte [r14]
+	LONG $0x01768d4d               // lea    r14, [r14 + 1]
+	WORD $0x950f; BYTE $0xd3       // setne    bl
+	WORD $0xdbf6                   // neg    bl
+	LONG $0x07708d48               // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xf0490f48               // cmovns    rsi, rax
+	LONG $0x03fec148               // sar    rsi, 3
+	LONG $0x0cb60f44; BYTE $0x32   // movzx    r9d, byte [rdx + rsi]
+	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
+	QUAD $0x00000000f5048d44       // lea    r8d, [8*rsi]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf       // and    dil, bl
+	WORD $0x3044; BYTE $0xcf       // xor    dil, r9b
+	LONG $0x323c8840               // mov    byte [rdx + rsi], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB5_58
+	LONG $0x24448348; WORD $0x0108 // add    qword [rsp + 8], 1
+
+LBB5_60:
+	LONG $0x05fac149             // sar    r10, 5
+	LONG $0x20ff8349             // cmp    r15, 32
+	JL   LBB5_61
+	LONG $0x10fa8349             // cmp    r10, 16
+	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
+	QUAD $0x000000f82494894c     // mov    qword [rsp + 248], r10
+	JB   LBB5_63
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
+	JAE  LBB5_66
+	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
+	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
+	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
+	JAE  LBB5_66
+
+LBB5_63:
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000d824848948     // mov    qword [rsp + 216], rax
+	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
+	LONG $0x24448948; BYTE $0x58 // mov    qword [rsp + 88], rax
+
+LBB5_69:
+	QUAD $0x000000d824942b4c // sub    r10, qword [rsp + 216]
+	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
+
+LBB5_70:
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	LONG $0x1f463a41                           // cmp    al, byte [r14 + 31]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0x1e463a41                           // cmp    al, byte [r14 + 30]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x1d463a41                           // cmp    al, byte [r14 + 29]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x1c463a41                           // cmp    al, byte [r14 + 28]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x1b463a41                           // cmp    al, byte [r14 + 27]
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x1a463a41                           // cmp    al, byte [r14 + 26]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x19463a41                           // cmp    al, byte [r14 + 25]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x17463a41                           // cmp    al, byte [r14 + 23]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x16463a41                           // cmp    al, byte [r14 + 22]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x15463a41                           // cmp    al, byte [r14 + 21]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x14463a41                           // cmp    al, byte [r14 + 20]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x13463a41                           // cmp    al, byte [r14 + 19]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x12463a41                           // cmp    al, byte [r14 + 18]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x11463a41                           // cmp    al, byte [r14 + 17]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x0f463a41                           // cmp    al, byte [r14 + 15]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x0e463a41                           // cmp    al, byte [r14 + 14]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x0d463a41                           // cmp    al, byte [r14 + 13]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x0c463a41                           // cmp    al, byte [r14 + 12]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x0b463a41                           // cmp    al, byte [r14 + 11]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x0a463a41                           // cmp    al, byte [r14 + 10]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x09463a41                           // cmp    al, byte [r14 + 9]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x07463a41                           // cmp    al, byte [r14 + 7]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x06463a41                           // cmp    al, byte [r14 + 6]
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x05463a41                           // cmp    al, byte [r14 + 5]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x04463a41                           // cmp    al, byte [r14 + 4]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x03463a41                           // cmp    al, byte [r14 + 3]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x02463a41                           // cmp    al, byte [r14 + 2]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0x3a41; BYTE $0x06                   // cmp    al, byte [r14]
+	QUAD $0x000000a82494950f                   // setne    byte [rsp + 168]
+	LONG $0x01463a41                           // cmp    al, byte [r14 + 1]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x08463a41                           // cmp    al, byte [r14 + 8]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x10463a41                           // cmp    al, byte [r14 + 16]
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x18463a41                           // cmp    al, byte [r14 + 24]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0xa8248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 168]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xca08                               // or    dl, cl
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	LONG $0x04e0c041                           // shl    r8b, 4
+	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
+	LONG $0x05e1c041                           // shl    r9b, 5
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e6c040                           // shl    sil, 7
+	WORD $0x0840; BYTE $0xc6                   // or    sil, al
+	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	WORD $0x8840; BYTE $0x30                   // mov    byte [rax], sil
+	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
+	QUAD $0x00000098249c0244                   // add    r11b, byte [rsp + 152]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0844; BYTE $0xdb                   // or    bl, r11b
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x04e4c041                           // shl    r12b, 4
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x05e5c041                           // shl    r13b, 5
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
+	WORD $0x0845; BYTE $0xea                   // or    r10b, r13b
+	LONG $0x01508844                           // mov    byte [rax + 1], r10b
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0xb0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 176]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	QUAD $0x00000080248cb60f                   // movzx    ecx, byte [rsp + 128]
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xd108                               // or    cl, dl
+	WORD $0x4888; BYTE $0x02                   // mov    byte [rax + 2], cl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x88248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 136]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xd108                               // or    cl, dl
+	WORD $0x4888; BYTE $0x03                   // mov    byte [rax + 3], cl
+	LONG $0x20c68349                           // add    r14, 32
+	LONG $0x04c08348                           // add    rax, 4
+	LONG $0x24448948; BYTE $0x58               // mov    qword [rsp + 88], rax
+	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
+	JNE  LBB5_70
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	JMP  LBB5_72
+
+LBB5_144:
+	WORD $0x8b44; BYTE $0x1e     // mov    r11d, dword [rsi]
+	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff     // test    r15, r15
+	LONG $0xd7490f4d             // cmovns    r10, r15
+	LONG $0x07418d41             // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xc1490f41             // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8     // and    eax, -8
+	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
+	JE   LBB5_148
+	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
+	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
+
+LBB5_146:
+	WORD $0x3b45; BYTE $0x1e                   // cmp    r11d, dword [r14]
+	LONG $0x04768d4d                           // lea    r14, [r14 + 4]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
+	WORD $0xda30                               // xor    dl, bl
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
+	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB5_146
+	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
+
+LBB5_148:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20ff8349         // cmp    r15, 32
+	JL   LBB5_152
+	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
+	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
+	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
+
+LBB5_150:
+	LONG $0x7c5e3b45                           // cmp    r11d, dword [r14 + 124]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x785e3b45                           // cmp    r11d, dword [r14 + 120]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x745e3b45                           // cmp    r11d, dword [r14 + 116]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x705e3b45                           // cmp    r11d, dword [r14 + 112]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x6c5e3b45                           // cmp    r11d, dword [r14 + 108]
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x685e3b45                           // cmp    r11d, dword [r14 + 104]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x645e3b45                           // cmp    r11d, dword [r14 + 100]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x5c5e3b45                           // cmp    r11d, dword [r14 + 92]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x585e3b45                           // cmp    r11d, dword [r14 + 88]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x545e3b45                           // cmp    r11d, dword [r14 + 84]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x505e3b45                           // cmp    r11d, dword [r14 + 80]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x4c5e3b45                           // cmp    r11d, dword [r14 + 76]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x485e3b45                           // cmp    r11d, dword [r14 + 72]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x445e3b45                           // cmp    r11d, dword [r14 + 68]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x3c5e3b45                           // cmp    r11d, dword [r14 + 60]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x385e3b45                           // cmp    r11d, dword [r14 + 56]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x345e3b45                           // cmp    r11d, dword [r14 + 52]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x305e3b45                           // cmp    r11d, dword [r14 + 48]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x2c5e3b45                           // cmp    r11d, dword [r14 + 44]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x285e3b45                           // cmp    r11d, dword [r14 + 40]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x245e3b45                           // cmp    r11d, dword [r14 + 36]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x1c5e3b45                           // cmp    r11d, dword [r14 + 28]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x185e3b45                           // cmp    r11d, dword [r14 + 24]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x145e3b45                           // cmp    r11d, dword [r14 + 20]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x105e3b45                           // cmp    r11d, dword [r14 + 16]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x0c5e3b45                           // cmp    r11d, dword [r14 + 12]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x085e3b45                           // cmp    r11d, dword [r14 + 8]
+	LONG $0xd5950f41                           // setne    r13b
+	WORD $0x3b45; BYTE $0x1e                   // cmp    r11d, dword [r14]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x045e3b45                           // cmp    r11d, dword [r14 + 4]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x205e3b45                           // cmp    r11d, dword [r14 + 32]
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x405e3b45                           // cmp    r11d, dword [r14 + 64]
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x605e3b45                           // cmp    r11d, dword [r14 + 96]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
+	QUAD $0x0000009824a40244                   // add    r12b, byte [rsp + 152]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xfa                   // or    dl, r15b
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x24048841                           // mov    byte [r12], al
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e7c040                           // shl    dil, 4
+	WORD $0x0844; BYTE $0xd7                   // or    dil, r10b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x24448845; BYTE $0x01               // mov    byte [r12 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x60244402                           // add    al, byte [rsp + 96]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
+	LONG $0x80ee8349                           // sub    r14, -128
+	LONG $0x04c48349                           // add    r12, 4
+	LONG $0x2464894c; BYTE $0x08               // mov    qword [rsp + 8], r12
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB5_150
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+
+LBB5_152:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB5_199
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JNE  LBB5_154
+
+LBB5_23:
+	WORD $0xff31 // xor    edi, edi
+	JMP  LBB5_24
+
+LBB5_99:
+	LONG $0x1eb70f44             // movzx    r11d, word [rsi]
+	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff     // test    r15, r15
+	LONG $0xd7490f4d             // cmovns    r10, r15
+	LONG $0x07418d41             // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xc1490f41             // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8     // and    eax, -8
+	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
+	JE   LBB5_103
+	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
+	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
+
+LBB5_101:
+	LONG $0x1e3b4566               // cmp    r11w, word [r14]
+	LONG $0x02768d4d               // lea    r14, [r14 + 2]
+	WORD $0x950f; BYTE $0xd3       // setne    bl
+	WORD $0xdbf6                   // neg    bl
+	LONG $0x07708d48               // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xf0490f48               // cmovns    rsi, rax
+	LONG $0x03fec148               // sar    rsi, 3
+	LONG $0x0cb60f44; BYTE $0x32   // movzx    r9d, byte [rdx + rsi]
+	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
+	QUAD $0x00000000f5048d44       // lea    r8d, [8*rsi]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf       // and    dil, bl
+	WORD $0x3044; BYTE $0xcf       // xor    dil, r9b
+	LONG $0x323c8840               // mov    byte [rdx + rsi], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB5_101
+	LONG $0x24448348; WORD $0x0108 // add    qword [rsp + 8], 1
+
+LBB5_103:
+	LONG $0x05fac149             // sar    r10, 5
+	LONG $0x20ff8349             // cmp    r15, 32
+	JL   LBB5_104
+	LONG $0x08fa8349             // cmp    r10, 8
+	LONG $0x245c8944; BYTE $0x10 // mov    dword [rsp + 16], r11d
+	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
+	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
+	JB   LBB5_106
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0x06e0c148             // shl    rax, 6
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
+	JAE  LBB5_109
+	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
+	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
+	WORD $0x394c; BYTE $0xf0     // cmp    rax, r14
+	JBE  LBB5_109
+
+LBB5_106:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
+	LONG $0x24648b4c; BYTE $0x08 // mov    r12, qword [rsp + 8]
+
+LBB5_112:
+	LONG $0x24542b4c; BYTE $0x18 // sub    r10, qword [rsp + 24]
+	QUAD $0x000000a82494894c     // mov    qword [rsp + 168], r10
+
+LBB5_113:
+	LONG $0x5e3b4566; BYTE $0x3e               // cmp    r11w, word [r14 + 62]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0x5e3b4566; BYTE $0x3c               // cmp    r11w, word [r14 + 60]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x5e3b4566; BYTE $0x3a               // cmp    r11w, word [r14 + 58]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x5e3b4566; BYTE $0x38               // cmp    r11w, word [r14 + 56]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x5e3b4566; BYTE $0x36               // cmp    r11w, word [r14 + 54]
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x5e3b4566; BYTE $0x34               // cmp    r11w, word [r14 + 52]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x5e3b4566; BYTE $0x32               // cmp    r11w, word [r14 + 50]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x5e3b4566; BYTE $0x2e               // cmp    r11w, word [r14 + 46]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x5e3b4566; BYTE $0x2c               // cmp    r11w, word [r14 + 44]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x5e3b4566; BYTE $0x2a               // cmp    r11w, word [r14 + 42]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x5e3b4566; BYTE $0x28               // cmp    r11w, word [r14 + 40]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x5e3b4566; BYTE $0x26               // cmp    r11w, word [r14 + 38]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x5e3b4566; BYTE $0x24               // cmp    r11w, word [r14 + 36]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x5e3b4566; BYTE $0x22               // cmp    r11w, word [r14 + 34]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x5e3b4566; BYTE $0x1e               // cmp    r11w, word [r14 + 30]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x5e3b4566; BYTE $0x1c               // cmp    r11w, word [r14 + 28]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x5e3b4566; BYTE $0x1a               // cmp    r11w, word [r14 + 26]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x5e3b4566; BYTE $0x18               // cmp    r11w, word [r14 + 24]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x5e3b4566; BYTE $0x16               // cmp    r11w, word [r14 + 22]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x5e3b4566; BYTE $0x14               // cmp    r11w, word [r14 + 20]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x12               // cmp    ax, word [r14 + 18]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x0e               // cmp    ax, word [r14 + 14]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x0c               // cmp    ax, word [r14 + 12]
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x0a               // cmp    ax, word [r14 + 10]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x08               // cmp    ax, word [r14 + 8]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x06               // cmp    ax, word [r14 + 6]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x04               // cmp    ax, word [r14 + 4]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x063b4166                           // cmp    ax, word [r14]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x02               // cmp    ax, word [r14 + 2]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
+	LONG $0x24648b44; BYTE $0x10               // mov    r12d, dword [rsp + 16]
+	LONG $0x663b4566; BYTE $0x10               // cmp    r12w, word [r14 + 16]
+	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x10245c8b                           // mov    ebx, dword [rsp + 16]
+	LONG $0x5e3b4166; BYTE $0x20               // cmp    bx, word [r14 + 32]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x10245c8b                           // mov    ebx, dword [rsp + 16]
+	LONG $0x5e3b4166; BYTE $0x30               // cmp    bx, word [r14 + 48]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0xc000                               // add    al, al
+	LONG $0x98248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 152]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xc108                               // or    cl, al
+	LONG $0x03e6c040                           // shl    sil, 3
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	LONG $0x04e7c040                           // shl    dil, 4
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x05e0c041                           // shl    r8b, 5
+	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
+	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xc208                               // or    dl, al
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x24148841                           // mov    byte [r12], dl
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	QUAD $0x000000c024940244                   // add    r10b, byte [rsp + 192]
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x245c8b44; BYTE $0x10               // mov    r11d, dword [rsp + 16]
+	LONG $0x04e5c041                           // shl    r13b, 4
+	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x244c8845; BYTE $0x01               // mov    byte [r12 + 1], r9b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
+	LONG $0x40c68349                           // add    r14, 64
+	LONG $0x04c48349                           // add    r12, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB5_113
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	JMP  LBB5_115
+
+LBB5_122:
+	LONG $0x1eb70f44             // movzx    r11d, word [rsi]
+	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff     // test    r15, r15
+	LONG $0xd7490f4d             // cmovns    r10, r15
+	LONG $0x07418d41             // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xc1490f41             // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8     // and    eax, -8
+	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
+	JE   LBB5_126
+	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
+	LONG $0x24548b48; BYTE $0x08 // mov    rdx, qword [rsp + 8]
+
+LBB5_124:
+	LONG $0x1e3b4566               // cmp    r11w, word [r14]
+	LONG $0x02768d4d               // lea    r14, [r14 + 2]
+	WORD $0x950f; BYTE $0xd3       // setne    bl
+	WORD $0xdbf6                   // neg    bl
+	LONG $0x07708d48               // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xf0490f48               // cmovns    rsi, rax
+	LONG $0x03fec148               // sar    rsi, 3
+	LONG $0x0cb60f44; BYTE $0x32   // movzx    r9d, byte [rdx + rsi]
+	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
+	QUAD $0x00000000f5048d44       // lea    r8d, [8*rsi]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1       // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf       // and    dil, bl
+	WORD $0x3044; BYTE $0xcf       // xor    dil, r9b
+	LONG $0x323c8840               // mov    byte [rdx + rsi], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB5_124
+	LONG $0x24448348; WORD $0x0108 // add    qword [rsp + 8], 1
+
+LBB5_126:
+	LONG $0x05fac149             // sar    r10, 5
+	LONG $0x20ff8349             // cmp    r15, 32
+	JL   LBB5_127
+	LONG $0x08fa8349             // cmp    r10, 8
+	LONG $0x245c8944; BYTE $0x10 // mov    dword [rsp + 16], r11d
+	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
+	QUAD $0x000000e02494894c     // mov    qword [rsp + 224], r10
+	JB   LBB5_129
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0x06e0c148             // shl    rax, 6
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
+	JAE  LBB5_132
+	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
+	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
+	WORD $0x394c; BYTE $0xf0     // cmp    rax, r14
+	JBE  LBB5_132
+
+LBB5_129:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
+	LONG $0x24648b4c; BYTE $0x08 // mov    r12, qword [rsp + 8]
+
+LBB5_135:
+	LONG $0x24542b4c; BYTE $0x18 // sub    r10, qword [rsp + 24]
+	QUAD $0x000000a82494894c     // mov    qword [rsp + 168], r10
+
+LBB5_136:
+	LONG $0x5e3b4566; BYTE $0x3e               // cmp    r11w, word [r14 + 62]
+	LONG $0x2454950f; BYTE $0x08               // setne    byte [rsp + 8]
+	LONG $0x5e3b4566; BYTE $0x3c               // cmp    r11w, word [r14 + 60]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x5e3b4566; BYTE $0x3a               // cmp    r11w, word [r14 + 58]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x5e3b4566; BYTE $0x38               // cmp    r11w, word [r14 + 56]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x5e3b4566; BYTE $0x36               // cmp    r11w, word [r14 + 54]
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x5e3b4566; BYTE $0x34               // cmp    r11w, word [r14 + 52]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x5e3b4566; BYTE $0x32               // cmp    r11w, word [r14 + 50]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x5e3b4566; BYTE $0x2e               // cmp    r11w, word [r14 + 46]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x5e3b4566; BYTE $0x2c               // cmp    r11w, word [r14 + 44]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x5e3b4566; BYTE $0x2a               // cmp    r11w, word [r14 + 42]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x5e3b4566; BYTE $0x28               // cmp    r11w, word [r14 + 40]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x5e3b4566; BYTE $0x26               // cmp    r11w, word [r14 + 38]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x5e3b4566; BYTE $0x24               // cmp    r11w, word [r14 + 36]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x5e3b4566; BYTE $0x22               // cmp    r11w, word [r14 + 34]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x5e3b4566; BYTE $0x1e               // cmp    r11w, word [r14 + 30]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x5e3b4566; BYTE $0x1c               // cmp    r11w, word [r14 + 28]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x5e3b4566; BYTE $0x1a               // cmp    r11w, word [r14 + 26]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x5e3b4566; BYTE $0x18               // cmp    r11w, word [r14 + 24]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x5e3b4566; BYTE $0x16               // cmp    r11w, word [r14 + 22]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x5e3b4566; BYTE $0x14               // cmp    r11w, word [r14 + 20]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x12               // cmp    ax, word [r14 + 18]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x0e               // cmp    ax, word [r14 + 14]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x0c               // cmp    ax, word [r14 + 12]
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x0a               // cmp    ax, word [r14 + 10]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x08               // cmp    ax, word [r14 + 8]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x06               // cmp    ax, word [r14 + 6]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x04               // cmp    ax, word [r14 + 4]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x063b4166                           // cmp    ax, word [r14]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x1024448b                           // mov    eax, dword [rsp + 16]
+	LONG $0x463b4166; BYTE $0x02               // cmp    ax, word [r14 + 2]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
+	LONG $0x24648b44; BYTE $0x10               // mov    r12d, dword [rsp + 16]
+	LONG $0x663b4566; BYTE $0x10               // cmp    r12w, word [r14 + 16]
+	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x10245c8b                           // mov    ebx, dword [rsp + 16]
+	LONG $0x5e3b4166; BYTE $0x20               // cmp    bx, word [r14 + 32]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x10245c8b                           // mov    ebx, dword [rsp + 16]
+	LONG $0x5e3b4166; BYTE $0x30               // cmp    bx, word [r14 + 48]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	WORD $0xc000                               // add    al, al
+	LONG $0x98248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 152]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xc108                               // or    cl, al
+	LONG $0x03e6c040                           // shl    sil, 3
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	LONG $0x04e7c040                           // shl    dil, 4
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x05e0c041                           // shl    r8b, 5
+	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
+	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xc208                               // or    dl, al
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x24148841                           // mov    byte [r12], dl
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	QUAD $0x000000c024940244                   // add    r10b, byte [rsp + 192]
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x245c8b44; BYTE $0x10               // mov    r11d, dword [rsp + 16]
+	LONG $0x04e5c041                           // shl    r13b, 4
+	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x244c8845; BYTE $0x01               // mov    byte [r12 + 1], r9b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
+	LONG $0x40c68349                           // add    r14, 64
+	LONG $0x04c48349                           // add    r12, 4
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB5_136
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	JMP  LBB5_138
+
+LBB5_158:
+	WORD $0x8b4c; BYTE $0x1e     // mov    r11, qword [rsi]
+	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff     // test    r15, r15
+	LONG $0xd7490f4d             // cmovns    r10, r15
+	LONG $0x07418d41             // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xc1490f41             // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8     // and    eax, -8
+	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
+	JE   LBB5_162
+	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
+	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
+
+LBB5_160:
+	WORD $0x3b4d; BYTE $0x1e                   // cmp    r11, qword [r14]
+	LONG $0x08768d4d                           // lea    r14, [r14 + 8]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
+	WORD $0xda30                               // xor    dl, bl
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
+	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB5_160
+	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
+
+LBB5_162:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20ff8349         // cmp    r15, 32
+	JL   LBB5_166
+	QUAD $0x000000a024bc894c // mov    qword [rsp + 160], r15
+	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
+	QUAD $0x000000a82494894c // mov    qword [rsp + 168], r10
+
+LBB5_164:
+	LONG $0xf89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 248]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0xf09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 240]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0xe89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 232]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0xe09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 224]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0xd89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 216]
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0xd09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 208]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0xc89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 200]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0xb89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 184]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0xb09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 176]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0xa89e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 168]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0xa09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 160]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x989e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 152]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x909e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 144]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x889e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 136]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x785e3b4d                           // cmp    r11, qword [r14 + 120]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x705e3b4d                           // cmp    r11, qword [r14 + 112]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x685e3b4d                           // cmp    r11, qword [r14 + 104]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x605e3b4d                           // cmp    r11, qword [r14 + 96]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x585e3b4d                           // cmp    r11, qword [r14 + 88]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x505e3b4d                           // cmp    r11, qword [r14 + 80]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x485e3b4d                           // cmp    r11, qword [r14 + 72]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x385e3b4d                           // cmp    r11, qword [r14 + 56]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x305e3b4d                           // cmp    r11, qword [r14 + 48]
+	WORD $0x950f; BYTE $0xd3                   // setne    bl
+	LONG $0x285e3b4d                           // cmp    r11, qword [r14 + 40]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	LONG $0x205e3b4d                           // cmp    r11, qword [r14 + 32]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x185e3b4d                           // cmp    r11, qword [r14 + 24]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x105e3b4d                           // cmp    r11, qword [r14 + 16]
+	LONG $0xd5950f41                           // setne    r13b
+	WORD $0x3b4d; BYTE $0x1e                   // cmp    r11, qword [r14]
+	QUAD $0x000000982494950f                   // setne    byte [rsp + 152]
+	LONG $0x085e3b4d                           // cmp    r11, qword [r14 + 8]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x405e3b4d                           // cmp    r11, qword [r14 + 64]
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x809e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 128]
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0xc09e3b4d; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [r14 + 192]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
+	QUAD $0x0000009824a40244                   // add    r12b, byte [rsp + 152]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xfa                   // or    dl, r15b
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x24048841                           // mov    byte [r12], al
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e7c040                           // shl    dil, 4
+	WORD $0x0844; BYTE $0xd7                   // or    dil, r10b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	QUAD $0x00000088248cb60f                   // movzx    ecx, byte [rsp + 136]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x24448845; BYTE $0x01               // mov    byte [r12 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x24448841; BYTE $0x02               // mov    byte [r12 + 2], al
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x60244402                           // add    al, byte [rsp + 96]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x24448841; BYTE $0x03               // mov    byte [r12 + 3], al
+	LONG $0x00c68149; WORD $0x0001; BYTE $0x00 // add    r14, 256
+	LONG $0x04c48349                           // add    r12, 4
+	LONG $0x2464894c; BYTE $0x08               // mov    qword [rsp + 8], r12
+	QUAD $0x000000a824848348; BYTE $0xff       // add    qword [rsp + 168], -1
+	JNE  LBB5_164
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+
+LBB5_166:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB5_199
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JNE  LBB5_168
+
+LBB5_39:
+	WORD $0xff31 // xor    edi, edi
+	JMP  LBB5_40
+
+LBB5_170:
+	LONG $0x1f578d4d             // lea    r10, [r15 + 31]
+	WORD $0x854d; BYTE $0xff     // test    r15, r15
+	LONG $0xd7490f4d             // cmovns    r10, r15
+	LONG $0x07418d41             // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xc1490f41             // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8     // and    eax, -8
+	LONG $0x06100ff3             // movss    xmm0, dword [rsi]
+	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
+	JE   LBB5_174
+	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
+	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
+
+LBB5_172:
+	LONG $0x062e0f41                           // ucomiss    xmm0, dword [r14]
+	LONG $0x04768d4d                           // lea    r14, [r14 + 4]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x1cb60f41; BYTE $0x30               // movzx    ebx, byte [r8 + rsi]
+	WORD $0xda30                               // xor    dl, bl
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3040; BYTE $0xdf                   // xor    dil, bl
+	LONG $0x303c8841                           // mov    byte [r8 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB5_172
+	LONG $0x24448348; WORD $0x0108             // add    qword [rsp + 8], 1
+
+LBB5_174:
+	LONG $0x05fac149             // sar    r10, 5
+	LONG $0x20ff8349             // cmp    r15, 32
+	JL   LBB5_175
+	LONG $0x04fa8349             // cmp    r10, 4
+	JB   LBB5_177
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0x07e0c148             // shl    rax, 7
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0x24443948; BYTE $0x08 // cmp    qword [rsp + 8], rax
+	JAE  LBB5_180
+	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
+	LONG $0x90048d4a             // lea    rax, [rax + 4*r10]
+	WORD $0x394c; BYTE $0xf0     // cmp    rax, r14
+	JBE  LBB5_180
+
+LBB5_177:
+	WORD $0x3145; BYTE $0xc0     // xor    r8d, r8d
+	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
+	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
+
+LBB5_183:
+	LONG $0x245c894c; BYTE $0x08 // mov    qword [rsp + 8], r11
+	QUAD $0x000000a024bc894c     // mov    qword [rsp + 160], r15
+	QUAD $0x000000a82494894c     // mov    qword [rsp + 168], r10
+	WORD $0x294d; BYTE $0xc2     // sub    r10, r8
+	QUAD $0x000000982494894c     // mov    qword [rsp + 152], r10
+
+LBB5_184:
+	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
+	QUAD $0x000000c02494950f                   // setne    byte [rsp + 192]
+	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
+	LONG $0xd0950f41                           // setne    r8b
+	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
+	LONG $0xd6950f41                           // setne    r14b
+	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
+	LONG $0xd5950f41                           // setne    r13b
+	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
+	LONG $0x2454950f; BYTE $0x68               // setne    byte [rsp + 104]
+	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
+	LONG $0x2454950f; BYTE $0x50               // setne    byte [rsp + 80]
+	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
+	WORD $0x950f; BYTE $0xd0                   // setne    al
+	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
+	LONG $0xd3950f41                           // setne    r11b
+	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
+	QUAD $0x000000902494950f                   // setne    byte [rsp + 144]
+	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
+	WORD $0x950f; BYTE $0xd2                   // setne    dl
+	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
+	LONG $0xd6950f40                           // setne    sil
+	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
+	LONG $0xd7950f40                           // setne    dil
+	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
+	LONG $0xd2950f41                           // setne    r10b
+	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
+	LONG $0xd4950f41                           // setne    r12b
+	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
+	QUAD $0x000000882494950f                   // setne    byte [rsp + 136]
+	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
+	LONG $0xd1950f41                           // setne    r9b
+	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
+	LONG $0x2454950f; BYTE $0x78               // setne    byte [rsp + 120]
+	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
+	QUAD $0x000000b02494950f                   // setne    byte [rsp + 176]
+	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
+	LONG $0x2454950f; BYTE $0x60               // setne    byte [rsp + 96]
+	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
+	LONG $0x2454950f; BYTE $0x70               // setne    byte [rsp + 112]
+	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
+	LONG $0x2454950f; BYTE $0x48               // setne    byte [rsp + 72]
+	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
+	QUAD $0x000000802494950f                   // setne    byte [rsp + 128]
+	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
+	LONG $0x2454950f; BYTE $0x58               // setne    byte [rsp + 88]
+	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
+	LONG $0xd7950f41                           // setne    r15b
+	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
+	LONG $0x2454950f; BYTE $0x20               // setne    byte [rsp + 32]
+	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
+	LONG $0x2454950f; BYTE $0x30               // setne    byte [rsp + 48]
+	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
+	LONG $0x2454950f; BYTE $0x38               // setne    byte [rsp + 56]
+	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
+	LONG $0x2454950f; BYTE $0x18               // setne    byte [rsp + 24]
+	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
+	LONG $0x2454950f; BYTE $0x28               // setne    byte [rsp + 40]
+	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
+	LONG $0x2454950f; BYTE $0x40               // setne    byte [rsp + 64]
+	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
+	LONG $0x2454950f; BYTE $0x10               // setne    byte [rsp + 16]
+	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
+	WORD $0x950f; BYTE $0xd1                   // setne    cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x000000c024840244                   // add    r8b, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x0000008824b4b60f                   // movzx    esi, byte [rsp + 136]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
+	WORD $0xc000                               // add    al, al
+	LONG $0x78244402                           // add    al, byte [rsp + 120]
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x58               // movzx    edi, byte [rsp + 88]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x20244402                           // add    al, byte [rsp + 32]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x2454b60f; BYTE $0x10               // movzx    edx, byte [rsp + 16]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xc108                               // or    cl, al
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
+	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
+	LONG $0x04c68348                           // add    rsi, 4
+	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
+	QUAD $0x0000009824848348; BYTE $0xff       // add    qword [rsp + 152], -1
+	JNE  LBB5_184
+	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	QUAD $0x000000a824948b4c                   // mov    r10, qword [rsp + 168]
+	JMP  LBB5_186
+
+LBB5_9:
+	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
+	QUAD $0x0000008024848948     // mov    qword [rsp + 128], rax
+
+LBB5_91:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB5_199
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JNE  LBB5_94
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB5_97
+
+LBB5_61:
+	LONG $0x24448b48; BYTE $0x08 // mov    rax, qword [rsp + 8]
+	LONG $0x24448948; BYTE $0x58 // mov    qword [rsp + 88], rax
+
+LBB5_72:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB5_199
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JNE  LBB5_75
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB5_78
+
+LBB5_104:
+	LONG $0x24648b4c; BYTE $0x08 // mov    r12, qword [rsp + 8]
+
+LBB5_115:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB5_199
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JE   LBB5_117
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0xf631             // xor    esi, esi
+
+LBB5_121:
+	LONG $0x1e3b4566             // cmp    r11w, word [r14]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x02c68348             // add    rsi, 2
+	LONG $0x5e3b4566; BYTE $0x02 // cmp    r11w, word [r14 + 2]
+	LONG $0x04768d4d             // lea    r14, [r14 + 4]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xda30                 // xor    dl, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x3c048841             // mov    byte [r12 + rdi], al
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB5_121
+	JMP  LBB5_118
+
+LBB5_127:
+	LONG $0x24648b4c; BYTE $0x08 // mov    r12, qword [rsp + 8]
+
+LBB5_138:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB5_199
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JNE  LBB5_140
+
+LBB5_117:
+	WORD $0xf631  // xor    esi, esi
+	JMP  LBB5_118
+
+LBB5_175:
+	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
+	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
+
+LBB5_186:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xfa // cmp    r10, r15
+	JGE  LBB5_199
+	WORD $0x894d; BYTE $0xf8 // mov    r8, r15
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xfa // add    r10, r15
+	JNE  LBB5_191
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB5_189
+
+LBB5_154:
+	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
+	LONG $0xfee18349             // and    r9, -2
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x247c8b4c; BYTE $0x08 // mov    r15, qword [rsp + 8]
+
+LBB5_155:
+	WORD $0x3b45; BYTE $0x1e     // cmp    r11d, dword [r14]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	WORD $0xc220                 // and    dl, al
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	LONG $0x37148841             // mov    byte [r15 + rsi], dl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x045e3b45             // cmp    r11d, dword [r14 + 4]
+	LONG $0x08768d4d             // lea    r14, [r14 + 8]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd030                 // xor    al, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0xd330                 // xor    bl, dl
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
+	JNE  LBB5_155
+
+LBB5_24:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB5_199
+	WORD $0x3b45; BYTE $0x1e // cmp    r11d, dword [r14]
+	JMP  LBB5_197
+
+LBB5_94:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x00000080249c8b4c // mov    r11, qword [rsp + 128]
+
+LBB5_95:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x2474b60f; BYTE $0x40 // movzx    esi, byte [rsp + 64]
+	LONG $0x06343a41             // cmp    sil, byte [r14 + rax]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x06743a41; BYTE $0x01 // cmp    sil, byte [r14 + rax + 1]
+	LONG $0x02708d48             // lea    rsi, [rax + 2]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB5_95
+	WORD $0x0149; BYTE $0xf6     // add    r14, rsi
+
+LBB5_97:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB5_199
+	LONG $0x4024448a         // mov    al, byte [rsp + 64]
+	WORD $0x3a41; BYTE $0x06 // cmp    al, byte [r14]
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	QUAD $0x0000008024848b4c // mov    r8, qword [rsp + 128]
+	JMP  LBB5_80
+
+LBB5_75:
+	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0xf631                 // xor    esi, esi
+	LONG $0x245c8b4c; BYTE $0x58 // mov    r11, qword [rsp + 88]
+
+LBB5_76:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x2474b60f; BYTE $0x28 // movzx    esi, byte [rsp + 40]
+	LONG $0x06343a41             // cmp    sil, byte [r14 + rax]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x06743a41; BYTE $0x01 // cmp    sil, byte [r14 + rax + 1]
+	LONG $0x02708d48             // lea    rsi, [rax + 2]
+	WORD $0x950f; BYTE $0xd3     // setne    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB5_76
+	WORD $0x0149; BYTE $0xf6     // add    r14, rsi
+
+LBB5_78:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB5_199
+	LONG $0x2824448a             // mov    al, byte [rsp + 40]
+	WORD $0x3a41; BYTE $0x06     // cmp    al, byte [r14]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x24448b4c; BYTE $0x58 // mov    r8, qword [rsp + 88]
+
+LBB5_80:
+	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	JMP  LBB5_198
+
+LBB5_193:
+	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
+	LONG $0xfee18349             // and    r9, -2
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x245c8b4c; BYTE $0x08 // mov    r11, qword [rsp + 8]
+
+LBB5_194:
+	LONG $0x2e0f4166; BYTE $0x06   // ucomisd    xmm0, qword [r14]
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f6                   // neg    al
+	WORD $0x8948; BYTE $0xfe       // mov    rsi, rdi
+	LONG $0x03eec148               // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x33   // movzx    r10d, byte [r11 + rsi]
+	WORD $0x3044; BYTE $0xd0       // xor    al, r10b
+	WORD $0xf989                   // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06       // and    cl, 6
+	WORD $0x01b2                   // mov    dl, 1
+	WORD $0xe2d2                   // shl    dl, cl
+	WORD $0xc220                   // and    dl, al
+	WORD $0x3044; BYTE $0xd2       // xor    dl, r10b
+	LONG $0x33148841               // mov    byte [r11 + rsi], dl
+	LONG $0x02c78348               // add    rdi, 2
+	LONG $0x2e0f4166; WORD $0x0846 // ucomisd    xmm0, qword [r14 + 8]
+	LONG $0x10768d4d               // lea    r14, [r14 + 16]
+	WORD $0x950f; BYTE $0xd0       // setne    al
+	WORD $0xd8f6                   // neg    al
+	WORD $0xd030                   // xor    al, dl
+	WORD $0xc980; BYTE $0x01       // or    cl, 1
+	WORD $0x01b3                   // mov    bl, 1
+	WORD $0xe3d2                   // shl    bl, cl
+	WORD $0xc320                   // and    bl, al
+	WORD $0xd330                   // xor    bl, dl
+	LONG $0x331c8841               // mov    byte [r11 + rsi], bl
+	WORD $0x3949; BYTE $0xf9       // cmp    r9, rdi
+	JNE  LBB5_194
+
+LBB5_195:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB5_199
+	LONG $0x2e0f4166; BYTE $0x06 // ucomisd    xmm0, qword [r14]
+	JMP  LBB5_197
+
+LBB5_168:
+	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
+	LONG $0xfee18349             // and    r9, -2
+	WORD $0xff31                 // xor    edi, edi
+	LONG $0x247c8b4c; BYTE $0x08 // mov    r15, qword [rsp + 8]
+
+LBB5_169:
+	WORD $0x3b4d; BYTE $0x1e     // cmp    r11, qword [r14]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	WORD $0xc220                 // and    dl, al
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	LONG $0x37148841             // mov    byte [r15 + rsi], dl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x085e3b4d             // cmp    r11, qword [r14 + 8]
+	LONG $0x10768d4d             // lea    r14, [r14 + 16]
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd030                 // xor    al, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0xd330                 // xor    bl, dl
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	WORD $0x3949; BYTE $0xf9     // cmp    r9, rdi
+	JNE  LBB5_169
+
+LBB5_40:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB5_199
+	WORD $0x3b4d; BYTE $0x1e // cmp    r11, qword [r14]
+
+LBB5_197:
+	WORD $0x950f; BYTE $0xd0     // setne    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfa     // mov    rdx, rdi
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x24448b4c; BYTE $0x08 // mov    r8, qword [rsp + 8]
+	LONG $0x10348a41             // mov    sil, byte [r8 + rdx]
+	LONG $0x07e78040             // and    dil, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0     // xor    al, sil
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3040; BYTE $0xf3     // xor    bl, sil
+
+LBB5_198:
+	LONG $0x101c8841 // mov    byte [r8 + rdx], bl
+	JMP  LBB5_199
+
+LBB5_140:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0xf631             // xor    esi, esi
+
+LBB5_141:
+	LONG $0x1e3b4566             // cmp    r11w, word [r14]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x02c68348             // add    rsi, 2
+	LONG $0x5e3b4566; BYTE $0x02 // cmp    r11w, word [r14 + 2]
+	LONG $0x04768d4d             // lea    r14, [r14 + 4]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xda30                 // xor    dl, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x3c048841             // mov    byte [r12 + rdi], al
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB5_141
+
+LBB5_118:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB5_199
+	LONG $0x1e3b4566         // cmp    r11w, word [r14]
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
+	JMP  LBB5_199
+
+LBB5_191:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x894d; BYTE $0xde // mov    r14, r11
+
+LBB5_192:
+	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
+	WORD $0x950f; BYTE $0xd2     // setne    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	LONG $0x02c68348             // add    rsi, 2
+	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
+	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
+	LONG $0xd1950f41             // setne    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x2044; BYTE $0xca     // and    dl, r9b
+	WORD $0xc230                 // xor    dl, al
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB5_192
+
+LBB5_189:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB5_199
+	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
+	WORD $0x950f; BYTE $0xd0 // setne    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x133c8a41         // mov    dil, byte [r11 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x131c8841         // mov    byte [r11 + rdx], bl
+
+LBB5_199:
+	MOVQ 288(SP), SP
+	RET
+
+LBB5_85:
+	LONG $0xf0e28349                     // and    r10, -16
+	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x014c; BYTE $0xf0             // add    rax, r14
+	QUAD $0x0000011024848948             // mov    qword [rsp + 272], rax
+	QUAD $0x000000d82494894c             // mov    qword [rsp + 216], r10
+	LONG $0x24448b48; BYTE $0x08         // mov    rax, qword [rsp + 8]
+	LONG $0x90048d4a                     // lea    rax, [rax + 4*r10]
+	QUAD $0x0000008024848948             // mov    qword [rsp + 128], rax
+	LONG $0x2444b60f; BYTE $0x40         // movzx    eax, byte [rsp + 64]
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
+	WORD $0xc031                         // xor    eax, eax
+
+LBB5_86:
+	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
+	LONG $0x05e0c148                           // shl    rax, 5
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
+	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
+	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	LONG $0x0cb60f41; BYTE $0x06               // movzx    ecx, byte [r14 + rax]
+	LONG $0xe16e0f66                           // movd    xmm4, ecx
+	LONG $0x4cb60f41; WORD $0x0106             // movzx    ecx, byte [r14 + rax + 1]
+	LONG $0xd96e0f66                           // movd    xmm3, ecx
+	LONG $0x4cb60f41; WORD $0x0206             // movzx    ecx, byte [r14 + rax + 2]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	LONG $0x4cb60f41; WORD $0x0306             // movzx    ecx, byte [r14 + rax + 3]
+	LONG $0xf96e0f66                           // movd    xmm7, ecx
+	LONG $0x4cb60f41; WORD $0x0406             // movzx    ecx, byte [r14 + rax + 4]
+	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
+	LONG $0x4cb60f41; WORD $0x0506             // movzx    ecx, byte [r14 + rax + 5]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	LONG $0x4cb60f41; WORD $0x0606             // movzx    ecx, byte [r14 + rax + 6]
+	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
+	LONG $0x4cb60f41; WORD $0x0706             // movzx    ecx, byte [r14 + rax + 7]
+	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
+	LONG $0x4cb60f41; WORD $0x0806             // movzx    ecx, byte [r14 + rax + 8]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00010024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm0
+	LONG $0x4cb60f41; WORD $0x0906             // movzx    ecx, byte [r14 + rax + 9]
+	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
+	LONG $0x4cb60f41; WORD $0x0a06             // movzx    ecx, byte [r14 + rax + 10]
+	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
+	LONG $0x4cb60f41; WORD $0x0b06             // movzx    ecx, byte [r14 + rax + 11]
+	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
+	LONG $0x4cb60f41; WORD $0x0c06             // movzx    ecx, byte [r14 + rax + 12]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
+	LONG $0x4cb60f41; WORD $0x0d06             // movzx    ecx, byte [r14 + rax + 13]
+	LONG $0xf16e0f66                           // movd    xmm6, ecx
+	LONG $0x4cb60f41; WORD $0x0e06             // movzx    ecx, byte [r14 + rax + 14]
+	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
+	LONG $0x4cb60f41; WORD $0x0f06             // movzx    ecx, byte [r14 + rax + 15]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	LONG $0x20cf8348                           // or    rdi, 32
+	LONG $0x247c8948; BYTE $0x18               // mov    qword [rsp + 24], rdi
+	LONG $0x40c98349                           // or    r9, 64
+	LONG $0x244c894c; BYTE $0x48               // mov    qword [rsp + 72], r9
+	LONG $0x60cb8348                           // or    rbx, 96
+	LONG $0x245c8948; BYTE $0x20               // mov    qword [rsp + 32], rbx
+	LONG $0x80cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 128
+	LONG $0x247c894c; BYTE $0x30               // mov    qword [rsp + 48], r15
+	LONG $0xa0ca8148; WORD $0x0000; BYTE $0x00 // or    rdx, 160
+	LONG $0xc0cd8149; WORD $0x0000; BYTE $0x00 // or    r13, 192
+	LONG $0xe0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 224
+	LONG $0x00cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 256
+	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
+	LONG $0x40cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 320
+	LONG $0x60ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 352
+	LONG $0x24748948; BYTE $0x58               // mov    qword [rsp + 88], rsi
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	LONG $0x80ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 384
+	LONG $0x24748948; BYTE $0x38               // mov    qword [rsp + 56], rsi
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x28               // mov    qword [rsp + 40], rax
+	LONG $0xe0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 480
+	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
+	QUAD $0x013e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rdi], 1
+	QUAD $0x020e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r9], 2
+	QUAD $0x031e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rbx], 3
+	QUAD $0x043e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r15], 4
+	WORD $0x8948; BYTE $0xd7                   // mov    rdi, rdx
+	QUAD $0x051624203a0f4166                   // pinsrb    xmm4, byte [r14 + rdx], 5
+	WORD $0x894c; BYTE $0xea                   // mov    rdx, r13
+	QUAD $0x0000009824ac894c                   // mov    qword [rsp + 152], r13
+	QUAD $0x062e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r13], 6
+	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
+	QUAD $0x070624203a0f4366                   // pinsrb    xmm4, byte [r14 + r8], 7
+	WORD $0x894d; BYTE $0xe0                   // mov    r8, r12
+	QUAD $0x082624203a0f4366                   // pinsrb    xmm4, byte [r14 + r12], 8
+	QUAD $0x091624203a0f4366                   // pinsrb    xmm4, byte [r14 + r10], 9
+	LONG $0x245c894c; BYTE $0x70               // mov    qword [rsp + 112], r11
+	QUAD $0x0a1e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r11], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0b0624203a0f4166                   // pinsrb    xmm4, byte [r14 + rax], 11
+	QUAD $0x0c3624203a0f4166                   // pinsrb    xmm4, byte [r14 + rsi], 12
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0d0e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rcx], 13
+	LONG $0x24648b4c; BYTE $0x28               // mov    r12, qword [rsp + 40]
+	QUAD $0x0e2624203a0f4366                   // pinsrb    xmm4, byte [r14 + r12], 14
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x0f1e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rbx], 15
+	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
+	QUAD $0x013e5c203a0f4366; BYTE $0x01       // pinsrb    xmm3, byte [r14 + r15 + 1], 1
+	QUAD $0x010e5c203a0f4366; BYTE $0x02       // pinsrb    xmm3, byte [r14 + r9 + 1], 2
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x011e5c203a0f4166; BYTE $0x03       // pinsrb    xmm3, byte [r14 + rbx + 1], 3
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x010e5c203a0f4366; BYTE $0x04       // pinsrb    xmm3, byte [r14 + r9 + 1], 4
+	QUAD $0x013e5c203a0f4166; BYTE $0x05       // pinsrb    xmm3, byte [r14 + rdi + 1], 5
+	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
+	QUAD $0x01165c203a0f4166; BYTE $0x06       // pinsrb    xmm3, byte [r14 + rdx + 1], 6
+	QUAD $0x012e5c203a0f4366; BYTE $0x07       // pinsrb    xmm3, byte [r14 + r13 + 1], 7
+	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
+	QUAD $0x01065c203a0f4366; BYTE $0x08       // pinsrb    xmm3, byte [r14 + r8 + 1], 8
+	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
+	QUAD $0x01165c203a0f4366; BYTE $0x09       // pinsrb    xmm3, byte [r14 + r10 + 1], 9
+	WORD $0x894c; BYTE $0xd2                   // mov    rdx, r10
+	QUAD $0x000000902494894c                   // mov    qword [rsp + 144], r10
+	QUAD $0x011e5c203a0f4366; BYTE $0x0a       // pinsrb    xmm3, byte [r14 + r11 + 1], 10
+	QUAD $0x01065c203a0f4166; BYTE $0x0b       // pinsrb    xmm3, byte [r14 + rax + 1], 11
+	QUAD $0x01365c203a0f4166; BYTE $0x0c       // pinsrb    xmm3, byte [r14 + rsi + 1], 12
+	QUAD $0x010e5c203a0f4166; BYTE $0x0d       // pinsrb    xmm3, byte [r14 + rcx + 1], 13
+	QUAD $0x01265c203a0f4366; BYTE $0x0e       // pinsrb    xmm3, byte [r14 + r12 + 1], 14
+	QUAD $0x0000b0248c6f0f66; BYTE $0x00       // movdqa    xmm1, oword [rsp + 176]
+	LONG $0xe1740f66                           // pcmpeqb    xmm4, xmm1
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x01065c203a0f4166; BYTE $0x0f       // pinsrb    xmm3, byte [r14 + rax + 1], 15
+	LONG $0xd9740f66                           // pcmpeqb    xmm3, xmm1
+	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI5_16] */
+	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
+	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	LONG $0x74b60f41; WORD $0x1006             // movzx    esi, byte [r14 + rax + 16]
+	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
+	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
+	QUAD $0x02266c203a0f4366; BYTE $0x01       // pinsrb    xmm5, byte [r14 + r12 + 2], 1
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x020e6c203a0f4166; BYTE $0x02       // pinsrb    xmm5, byte [r14 + rcx + 2], 2
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x023e6c203a0f4366; BYTE $0x03       // pinsrb    xmm5, byte [r14 + r15 + 2], 3
+	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
+	QUAD $0x020e6c203a0f4366; BYTE $0x04       // pinsrb    xmm5, byte [r14 + r9 + 2], 4
+	QUAD $0x023e6c203a0f4166; BYTE $0x05       // pinsrb    xmm5, byte [r14 + rdi + 2], 5
+	QUAD $0x0000009824948b4c                   // mov    r10, qword [rsp + 152]
+	QUAD $0x02166c203a0f4366; BYTE $0x06       // pinsrb    xmm5, byte [r14 + r10 + 2], 6
+	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
+	QUAD $0x021e6c203a0f4166; BYTE $0x07       // pinsrb    xmm5, byte [r14 + rbx + 2], 7
+	LONG $0x246c894c; BYTE $0x68               // mov    qword [rsp + 104], r13
+	QUAD $0x022e6c203a0f4366; BYTE $0x08       // pinsrb    xmm5, byte [r14 + r13 + 2], 8
+	QUAD $0x02166c203a0f4166; BYTE $0x09       // pinsrb    xmm5, byte [r14 + rdx + 2], 9
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x023e6c203a0f4166; BYTE $0x0a       // pinsrb    xmm5, byte [r14 + rdi + 2], 10
+	LONG $0x24748b48; BYTE $0x58               // mov    rsi, qword [rsp + 88]
+	QUAD $0x02366c203a0f4166; BYTE $0x0b       // pinsrb    xmm5, byte [r14 + rsi + 2], 11
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x02066c203a0f4166; BYTE $0x0c       // pinsrb    xmm5, byte [r14 + rax + 2], 12
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x021e6c203a0f4166; BYTE $0x0d       // pinsrb    xmm5, byte [r14 + rbx + 2], 13
+	LONG $0x244c8b4c; BYTE $0x28               // mov    r9, qword [rsp + 40]
+	QUAD $0x020e6c203a0f4366; BYTE $0x0e       // pinsrb    xmm5, byte [r14 + r9 + 2], 14
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x02166c203a0f4166; BYTE $0x0f       // pinsrb    xmm5, byte [r14 + rdx + 2], 15
+	QUAD $0x03267c203a0f4366; BYTE $0x01       // pinsrb    xmm7, byte [r14 + r12 + 3], 1
+	QUAD $0x030e7c203a0f4166; BYTE $0x02       // pinsrb    xmm7, byte [r14 + rcx + 3], 2
+	QUAD $0x033e7c203a0f4366; BYTE $0x03       // pinsrb    xmm7, byte [r14 + r15 + 3], 3
+	QUAD $0x031e7c203a0f4366; BYTE $0x04       // pinsrb    xmm7, byte [r14 + r11 + 3], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x03067c203a0f4166; BYTE $0x05       // pinsrb    xmm7, byte [r14 + rax + 3], 5
+	QUAD $0x03167c203a0f4366; BYTE $0x06       // pinsrb    xmm7, byte [r14 + r10 + 3], 6
+	QUAD $0x03067c203a0f4366; BYTE $0x07       // pinsrb    xmm7, byte [r14 + r8 + 3], 7
+	QUAD $0x032e7c203a0f4366; BYTE $0x08       // pinsrb    xmm7, byte [r14 + r13 + 3], 8
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x03067c203a0f4166; BYTE $0x09       // pinsrb    xmm7, byte [r14 + rax + 3], 9
+	QUAD $0x033e7c203a0f4166; BYTE $0x0a       // pinsrb    xmm7, byte [r14 + rdi + 3], 10
+	QUAD $0x03367c203a0f4166; BYTE $0x0b       // pinsrb    xmm7, byte [r14 + rsi + 3], 11
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x03067c203a0f4166; BYTE $0x0c       // pinsrb    xmm7, byte [r14 + rax + 3], 12
+	QUAD $0x031e7c203a0f4166; BYTE $0x0d       // pinsrb    xmm7, byte [r14 + rbx + 3], 13
+	QUAD $0x030e7c203a0f4366; BYTE $0x0e       // pinsrb    xmm7, byte [r14 + r9 + 3], 14
+	QUAD $0x03167c203a0f4166; BYTE $0x0f       // pinsrb    xmm7, byte [r14 + rdx + 3], 15
+	QUAD $0x04264c203a0f4766; BYTE $0x01       // pinsrb    xmm9, byte [r14 + r12 + 4], 1
+	QUAD $0x040e4c203a0f4566; BYTE $0x02       // pinsrb    xmm9, byte [r14 + rcx + 4], 2
+	QUAD $0x043e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 4], 3
+	QUAD $0x041e4c203a0f4766; BYTE $0x04       // pinsrb    xmm9, byte [r14 + r11 + 4], 4
+	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
+	QUAD $0x04264c203a0f4766; BYTE $0x05       // pinsrb    xmm9, byte [r14 + r12 + 4], 5
+	QUAD $0x04164c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r10 + 4], 6
+	QUAD $0x04064c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r8 + 4], 7
+	QUAD $0x042e4c203a0f4766; BYTE $0x08       // pinsrb    xmm9, byte [r14 + r13 + 4], 8
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x040e4c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rcx + 4], 9
+	QUAD $0x043e4c203a0f4566; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + rdi + 4], 10
+	QUAD $0x04364c203a0f4566; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + rsi + 4], 11
+	QUAD $0x04064c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rax + 4], 12
+	QUAD $0x041e4c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rbx + 4], 13
+	QUAD $0x040e4c203a0f4766; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + r9 + 4], 14
+	QUAD $0x04164c203a0f4566; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + rdx + 4], 15
+	LONG $0xe9740f66                           // pcmpeqb    xmm5, xmm1
+	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI5_17] */
+	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
+	LONG $0xf9740f66                           // pcmpeqb    xmm7, xmm1
+	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI5_18] */
+	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	LONG $0x74b60f41; WORD $0x1116             // movzx    esi, byte [r14 + rdx + 17]
+	LONG $0xe66e0f66                           // movd    xmm4, esi
+	LONG $0x740f4466; BYTE $0xc9               // pcmpeqb    xmm9, xmm1
+	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI5_19] */
+	LONG $0xdf0f4466; BYTE $0xc8               // pandn    xmm9, xmm0
+	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
+	LONG $0x74b60f41; WORD $0x1216             // movzx    esi, byte [r14 + rdx + 18]
+	LONG $0xfe6e0f66                           // movd    xmm7, esi
+	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
+	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
+	LONG $0xeb0f4466; BYTE $0xcb               // por    xmm9, xmm3
+	LONG $0x74b60f41; WORD $0x1316             // movzx    esi, byte [r14 + rdx + 19]
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x051654203a0f4166; BYTE $0x01       // pinsrb    xmm2, byte [r14 + rdx + 5], 1
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x053e54203a0f4166; BYTE $0x02       // pinsrb    xmm2, byte [r14 + rdi + 5], 2
+	QUAD $0x053e54203a0f4366; BYTE $0x03       // pinsrb    xmm2, byte [r14 + r15 + 5], 3
+	QUAD $0x051e54203a0f4366; BYTE $0x04       // pinsrb    xmm2, byte [r14 + r11 + 5], 4
+	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
+	QUAD $0x052654203a0f4366; BYTE $0x05       // pinsrb    xmm2, byte [r14 + r12 + 5], 5
+	QUAD $0x051654203a0f4366; BYTE $0x06       // pinsrb    xmm2, byte [r14 + r10 + 5], 6
+	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
+	QUAD $0x050654203a0f4366; BYTE $0x07       // pinsrb    xmm2, byte [r14 + r8 + 5], 7
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x051e54203a0f4366; BYTE $0x08       // pinsrb    xmm2, byte [r14 + r11 + 5], 8
+	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
+	QUAD $0x052654203a0f4366; BYTE $0x09       // pinsrb    xmm2, byte [r14 + r12 + 5], 9
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x053654203a0f4166; BYTE $0x0a       // pinsrb    xmm2, byte [r14 + rsi + 5], 10
+	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
+	QUAD $0x050654203a0f4366; BYTE $0x0b       // pinsrb    xmm2, byte [r14 + r8 + 5], 11
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	QUAD $0x050654203a0f4166; BYTE $0x0c       // pinsrb    xmm2, byte [r14 + rax + 5], 12
+	QUAD $0x051e54203a0f4166; BYTE $0x0d       // pinsrb    xmm2, byte [r14 + rbx + 5], 13
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x053e54203a0f4366; BYTE $0x0e       // pinsrb    xmm2, byte [r14 + r15 + 5], 14
+	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
+	QUAD $0x053e54203a0f4366; BYTE $0x0f       // pinsrb    xmm2, byte [r14 + r15 + 5], 15
+	QUAD $0x061644203a0f4566; BYTE $0x01       // pinsrb    xmm8, byte [r14 + rdx + 6], 1
+	QUAD $0x063e44203a0f4566; BYTE $0x02       // pinsrb    xmm8, byte [r14 + rdi + 6], 2
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x060644203a0f4566; BYTE $0x03       // pinsrb    xmm8, byte [r14 + rax + 6], 3
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x060644203a0f4566; BYTE $0x04       // pinsrb    xmm8, byte [r14 + rax + 6], 4
+	QUAD $0x060e44203a0f4766; BYTE $0x05       // pinsrb    xmm8, byte [r14 + r9 + 6], 5
+	QUAD $0x061644203a0f4766; BYTE $0x06       // pinsrb    xmm8, byte [r14 + r10 + 6], 6
+	QUAD $0x062e44203a0f4766; BYTE $0x07       // pinsrb    xmm8, byte [r14 + r13 + 6], 7
+	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
+	QUAD $0x0000008824ac894c                   // mov    qword [rsp + 136], r13
+	QUAD $0x061e44203a0f4766; BYTE $0x08       // pinsrb    xmm8, byte [r14 + r11 + 6], 8
+	QUAD $0x062644203a0f4766; BYTE $0x09       // pinsrb    xmm8, byte [r14 + r12 + 6], 9
+	QUAD $0x063644203a0f4566; BYTE $0x0a       // pinsrb    xmm8, byte [r14 + rsi + 6], 10
+	QUAD $0x060644203a0f4766; BYTE $0x0b       // pinsrb    xmm8, byte [r14 + r8 + 6], 11
+	QUAD $0x060e44203a0f4566; BYTE $0x0c       // pinsrb    xmm8, byte [r14 + rcx + 6], 12
+	QUAD $0x061e44203a0f4566; BYTE $0x0d       // pinsrb    xmm8, byte [r14 + rbx + 6], 13
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x062e44203a0f4766; BYTE $0x0e       // pinsrb    xmm8, byte [r14 + r13 + 6], 14
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	QUAD $0x063e44203a0f4766; BYTE $0x0f       // pinsrb    xmm8, byte [r14 + r15 + 6], 15
+	QUAD $0x071674203a0f4566; BYTE $0x01       // pinsrb    xmm14, byte [r14 + rdx + 7], 1
+	QUAD $0x073e74203a0f4566; BYTE $0x02       // pinsrb    xmm14, byte [r14 + rdi + 7], 2
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x070674203a0f4566; BYTE $0x03       // pinsrb    xmm14, byte [r14 + rax + 7], 3
+	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
+	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
+	QUAD $0x071e74203a0f4766; BYTE $0x04       // pinsrb    xmm14, byte [r14 + r11 + 7], 4
+	QUAD $0x070e74203a0f4766; BYTE $0x05       // pinsrb    xmm14, byte [r14 + r9 + 7], 5
+	QUAD $0x00000098248c8b4c                   // mov    r9, qword [rsp + 152]
+	QUAD $0x070e74203a0f4766; BYTE $0x06       // pinsrb    xmm14, byte [r14 + r9 + 7], 6
+	QUAD $0x071674203a0f4766; BYTE $0x07       // pinsrb    xmm14, byte [r14 + r10 + 7], 7
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x070674203a0f4566; BYTE $0x08       // pinsrb    xmm14, byte [r14 + rax + 7], 8
+	QUAD $0x072674203a0f4766; BYTE $0x09       // pinsrb    xmm14, byte [r14 + r12 + 7], 9
+	QUAD $0x073674203a0f4566; BYTE $0x0a       // pinsrb    xmm14, byte [r14 + rsi + 7], 10
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x070674203a0f4566; BYTE $0x0b       // pinsrb    xmm14, byte [r14 + rax + 7], 11
+	QUAD $0x070e74203a0f4566; BYTE $0x0c       // pinsrb    xmm14, byte [r14 + rcx + 7], 12
+	QUAD $0x071e74203a0f4566; BYTE $0x0d       // pinsrb    xmm14, byte [r14 + rbx + 7], 13
+	QUAD $0x072e74203a0f4766; BYTE $0x0e       // pinsrb    xmm14, byte [r14 + r13 + 7], 14
+	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
+	QUAD $0x00b024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 176]
+	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
+	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI5_20] */
+	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
+	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
+	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI5_21] */
+	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
+	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	LONG $0x74b60f43; WORD $0x1416             // movzx    esi, byte [r14 + r10 + 20]
+	LONG $0xde6e0f66                           // movd    xmm3, esi
+	QUAD $0x073e4c203a0f4366; BYTE $0x0f       // pinsrb    xmm1, byte [r14 + r15 + 7], 15
+	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
+	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI5_6] */
+	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
+	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
+	LONG $0x74b60f43; WORD $0x1516             // movzx    esi, byte [r14 + r10 + 21]
+	LONG $0xd66e0f66                           // movd    xmm2, esi
+	QUAD $0x00010024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 256]
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x080e44203a0f4166; BYTE $0x01       // pinsrb    xmm0, byte [r14 + rcx + 8], 1
+	QUAD $0x083e44203a0f4166; BYTE $0x02       // pinsrb    xmm0, byte [r14 + rdi + 8], 2
+	WORD $0x8949; BYTE $0xd5                   // mov    r13, rdx
+	QUAD $0x081644203a0f4166; BYTE $0x03       // pinsrb    xmm0, byte [r14 + rdx + 8], 3
+	QUAD $0x081e44203a0f4366; BYTE $0x04       // pinsrb    xmm0, byte [r14 + r11 + 8], 4
+	WORD $0x894c; BYTE $0xda                   // mov    rdx, r11
+	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
+	QUAD $0x080644203a0f4366; BYTE $0x05       // pinsrb    xmm0, byte [r14 + r8 + 8], 5
+	QUAD $0x080e44203a0f4366; BYTE $0x06       // pinsrb    xmm0, byte [r14 + r9 + 8], 6
+	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x083e44203a0f4166; BYTE $0x07       // pinsrb    xmm0, byte [r14 + rdi + 8], 7
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x081e44203a0f4166; BYTE $0x08       // pinsrb    xmm0, byte [r14 + rbx + 8], 8
+	QUAD $0x082644203a0f4366; BYTE $0x09       // pinsrb    xmm0, byte [r14 + r12 + 8], 9
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x083644203a0f4166; BYTE $0x0a       // pinsrb    xmm0, byte [r14 + rsi + 8], 10
+	QUAD $0x080644203a0f4166; BYTE $0x0b       // pinsrb    xmm0, byte [r14 + rax + 8], 11
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x080644203a0f4166; BYTE $0x0c       // pinsrb    xmm0, byte [r14 + rax + 8], 12
+	LONG $0x244c8b4c; BYTE $0x78               // mov    r9, qword [rsp + 120]
+	QUAD $0x080e44203a0f4366; BYTE $0x0d       // pinsrb    xmm0, byte [r14 + r9 + 8], 13
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x081e44203a0f4366; BYTE $0x0e       // pinsrb    xmm0, byte [r14 + r11 + 8], 14
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x083644203a0f4166; BYTE $0x0f       // pinsrb    xmm0, byte [r14 + rsi + 8], 15
+	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
+	QUAD $0x000100248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm1
+	LONG $0x74b60f43; WORD $0x1616             // movzx    esi, byte [r14 + r10 + 22]
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
+	QUAD $0x090e5c203a0f4566; BYTE $0x01       // pinsrb    xmm11, byte [r14 + rcx + 9], 1
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x09065c203a0f4566; BYTE $0x02       // pinsrb    xmm11, byte [r14 + rax + 9], 2
+	QUAD $0x092e5c203a0f4766; BYTE $0x03       // pinsrb    xmm11, byte [r14 + r13 + 9], 3
+	QUAD $0x09165c203a0f4566; BYTE $0x04       // pinsrb    xmm11, byte [r14 + rdx + 9], 4
+	QUAD $0x09065c203a0f4766; BYTE $0x05       // pinsrb    xmm11, byte [r14 + r8 + 9], 5
+	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
+	QUAD $0x093e5c203a0f4766; BYTE $0x06       // pinsrb    xmm11, byte [r14 + r15 + 9], 6
+	QUAD $0x093e5c203a0f4566; BYTE $0x07       // pinsrb    xmm11, byte [r14 + rdi + 9], 7
+	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
+	QUAD $0x091e5c203a0f4566; BYTE $0x08       // pinsrb    xmm11, byte [r14 + rbx + 9], 8
+	QUAD $0x09265c203a0f4766; BYTE $0x09       // pinsrb    xmm11, byte [r14 + r12 + 9], 9
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x09365c203a0f4566; BYTE $0x0a       // pinsrb    xmm11, byte [r14 + rsi + 9], 10
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	QUAD $0x09165c203a0f4566; BYTE $0x0b       // pinsrb    xmm11, byte [r14 + rdx + 9], 11
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x093e5c203a0f4566; BYTE $0x0c       // pinsrb    xmm11, byte [r14 + rdi + 9], 12
+	QUAD $0x090e5c203a0f4766; BYTE $0x0d       // pinsrb    xmm11, byte [r14 + r9 + 9], 13
+	QUAD $0x091e5c203a0f4766; BYTE $0x0e       // pinsrb    xmm11, byte [r14 + r11 + 9], 14
+	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
+	QUAD $0x09065c203a0f4766; BYTE $0x0f       // pinsrb    xmm11, byte [r14 + r8 + 9], 15
+	QUAD $0x0a0e64203a0f4566; BYTE $0x01       // pinsrb    xmm12, byte [r14 + rcx + 10], 1
+	QUAD $0x0a0664203a0f4566; BYTE $0x02       // pinsrb    xmm12, byte [r14 + rax + 10], 2
+	QUAD $0x0a2e64203a0f4766; BYTE $0x03       // pinsrb    xmm12, byte [r14 + r13 + 10], 3
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0a1e64203a0f4566; BYTE $0x04       // pinsrb    xmm12, byte [r14 + rbx + 10], 4
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x0a2e64203a0f4766; BYTE $0x05       // pinsrb    xmm12, byte [r14 + r13 + 10], 5
+	QUAD $0x0a1664203a0f4766; BYTE $0x06       // pinsrb    xmm12, byte [r14 + r10 + 10], 6
+	QUAD $0x0a3e64203a0f4766; BYTE $0x07       // pinsrb    xmm12, byte [r14 + r15 + 10], 7
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0a1e64203a0f4566; BYTE $0x08       // pinsrb    xmm12, byte [r14 + rbx + 10], 8
+	QUAD $0x0a2664203a0f4766; BYTE $0x09       // pinsrb    xmm12, byte [r14 + r12 + 10], 9
+	QUAD $0x0a3664203a0f4566; BYTE $0x0a       // pinsrb    xmm12, byte [r14 + rsi + 10], 10
+	QUAD $0x0a1664203a0f4566; BYTE $0x0b       // pinsrb    xmm12, byte [r14 + rdx + 10], 11
+	QUAD $0x0a3e64203a0f4566; BYTE $0x0c       // pinsrb    xmm12, byte [r14 + rdi + 10], 12
+	QUAD $0x0a0e64203a0f4766; BYTE $0x0d       // pinsrb    xmm12, byte [r14 + r9 + 10], 13
+	QUAD $0x0a1e64203a0f4766; BYTE $0x0e       // pinsrb    xmm12, byte [r14 + r11 + 10], 14
+	QUAD $0x0a0664203a0f4766; BYTE $0x0f       // pinsrb    xmm12, byte [r14 + r8 + 10], 15
+	QUAD $0x0b0e6c203a0f4566; BYTE $0x01       // pinsrb    xmm13, byte [r14 + rcx + 11], 1
+	QUAD $0x0b066c203a0f4566; BYTE $0x02       // pinsrb    xmm13, byte [r14 + rax + 11], 2
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0b066c203a0f4566; BYTE $0x03       // pinsrb    xmm13, byte [r14 + rax + 11], 3
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0b066c203a0f4566; BYTE $0x04       // pinsrb    xmm13, byte [r14 + rax + 11], 4
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0b066c203a0f4566; BYTE $0x05       // pinsrb    xmm13, byte [r14 + rax + 11], 5
+	QUAD $0x0b166c203a0f4766; BYTE $0x06       // pinsrb    xmm13, byte [r14 + r10 + 11], 6
+	QUAD $0x0b3e6c203a0f4766; BYTE $0x07       // pinsrb    xmm13, byte [r14 + r15 + 11], 7
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	QUAD $0x0b2e6c203a0f4766; BYTE $0x08       // pinsrb    xmm13, byte [r14 + r13 + 11], 8
+	QUAD $0x0b266c203a0f4766; BYTE $0x09       // pinsrb    xmm13, byte [r14 + r12 + 11], 9
+	QUAD $0x0b366c203a0f4566; BYTE $0x0a       // pinsrb    xmm13, byte [r14 + rsi + 11], 10
+	QUAD $0x0b166c203a0f4566; BYTE $0x0b       // pinsrb    xmm13, byte [r14 + rdx + 11], 11
+	QUAD $0x0b3e6c203a0f4566; BYTE $0x0c       // pinsrb    xmm13, byte [r14 + rdi + 11], 12
+	QUAD $0x0b0e6c203a0f4766; BYTE $0x0d       // pinsrb    xmm13, byte [r14 + r9 + 11], 13
+	QUAD $0x0b1e6c203a0f4766; BYTE $0x0e       // pinsrb    xmm13, byte [r14 + r11 + 11], 14
+	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
+	QUAD $0x0b066c203a0f4766; BYTE $0x0f       // pinsrb    xmm13, byte [r14 + r8 + 11], 15
+	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
+	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI5_16] */
+	LONG $0xfc0f4466; BYTE $0xd8               // paddb    xmm11, xmm0
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	LONG $0x74b60f41; WORD $0x171e             // movzx    esi, byte [r14 + rbx + 23]
+	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
+	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
+	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI5_17] */
+	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
+	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI5_18] */
+	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
+	LONG $0x74b60f41; WORD $0x181e             // movzx    esi, byte [r14 + rbx + 24]
+	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
+	QUAD $0x00e0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 224]
+	QUAD $0x0c0e4c203a0f4566; BYTE $0x01       // pinsrb    xmm9, byte [r14 + rcx + 12], 1
+	LONG $0x24648b4c; BYTE $0x48               // mov    r12, qword [rsp + 72]
+	QUAD $0x0c264c203a0f4766; BYTE $0x02       // pinsrb    xmm9, byte [r14 + r12 + 12], 2
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x0c3e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 12], 3
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0c1e4c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rbx + 12], 4
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x0c0e4c203a0f4766; BYTE $0x05       // pinsrb    xmm9, byte [r14 + r9 + 12], 5
+	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
+	QUAD $0x0c164c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r10 + 12], 6
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x0c1e4c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r11 + 12], 7
+	QUAD $0x0c2e4c203a0f4766; BYTE $0x08       // pinsrb    xmm9, byte [r14 + r13 + 12], 8
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x0c0e4c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rcx + 12], 9
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x0c164c203a0f4766; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + r10 + 12], 10
+	QUAD $0x0c164c203a0f4566; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + rdx + 12], 11
+	QUAD $0x0c3e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rdi + 12], 12
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0c364c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rsi + 12], 13
+	QUAD $0x0c064c203a0f4566; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + rax + 12], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0c064c203a0f4566; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + rax + 12], 15
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0d0674203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rax + 13], 1
+	QUAD $0x0d2674203a0f4366; BYTE $0x02       // pinsrb    xmm6, byte [r14 + r12 + 13], 2
+	QUAD $0x0d3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 13], 3
+	QUAD $0x0d1e74203a0f4166; BYTE $0x04       // pinsrb    xmm6, byte [r14 + rbx + 13], 4
+	QUAD $0x0d0e74203a0f4366; BYTE $0x05       // pinsrb    xmm6, byte [r14 + r9 + 13], 5
+	QUAD $0x0d0674203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r8 + 13], 6
+	QUAD $0x0d1e74203a0f4366; BYTE $0x07       // pinsrb    xmm6, byte [r14 + r11 + 13], 7
+	QUAD $0x0d2e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r13 + 13], 8
+	QUAD $0x0d0e74203a0f4166; BYTE $0x09       // pinsrb    xmm6, byte [r14 + rcx + 13], 9
+	QUAD $0x0d1674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r10 + 13], 10
+	QUAD $0x0d1674203a0f4166; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + rdx + 13], 11
+	QUAD $0x0d3e74203a0f4166; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + rdi + 13], 12
+	QUAD $0x0d3674203a0f4166; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + rsi + 13], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0d0674203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rax + 13], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0d0674203a0f4166; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + rax + 13], 15
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0e067c203a0f4566; BYTE $0x01       // pinsrb    xmm15, byte [r14 + rax + 14], 1
+	QUAD $0x0e267c203a0f4766; BYTE $0x02       // pinsrb    xmm15, byte [r14 + r12 + 14], 2
+	QUAD $0x0e3e7c203a0f4766; BYTE $0x03       // pinsrb    xmm15, byte [r14 + r15 + 14], 3
+	QUAD $0x0e1e7c203a0f4566; BYTE $0x04       // pinsrb    xmm15, byte [r14 + rbx + 14], 4
+	QUAD $0x0e0e7c203a0f4766; BYTE $0x05       // pinsrb    xmm15, byte [r14 + r9 + 14], 5
+	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
+	QUAD $0x0e067c203a0f4766; BYTE $0x06       // pinsrb    xmm15, byte [r14 + r8 + 14], 6
+	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
+	QUAD $0x0e1e7c203a0f4766; BYTE $0x07       // pinsrb    xmm15, byte [r14 + r11 + 14], 7
+	QUAD $0x0e2e7c203a0f4766; BYTE $0x08       // pinsrb    xmm15, byte [r14 + r13 + 14], 8
+	QUAD $0x0e0e7c203a0f4566; BYTE $0x09       // pinsrb    xmm15, byte [r14 + rcx + 14], 9
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	QUAD $0x0e167c203a0f4766; BYTE $0x0a       // pinsrb    xmm15, byte [r14 + r10 + 14], 10
+	QUAD $0x0e167c203a0f4566; BYTE $0x0b       // pinsrb    xmm15, byte [r14 + rdx + 14], 11
+	QUAD $0x0e3e7c203a0f4566; BYTE $0x0c       // pinsrb    xmm15, byte [r14 + rdi + 14], 12
+	QUAD $0x0e367c203a0f4566; BYTE $0x0d       // pinsrb    xmm15, byte [r14 + rsi + 14], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0e067c203a0f4566; BYTE $0x0e       // pinsrb    xmm15, byte [r14 + rax + 14], 14
+	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
+	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI5_19] */
+	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	LONG $0x74b60f41; WORD $0x1906             // movzx    esi, byte [r14 + rax + 25]
+	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
+	QUAD $0x0001609df80f4466; BYTE $0x00       // psubb    xmm11, oword 352[rbp] /* [rip + .LCPI5_22] */
+	LONG $0xeb0f4566; BYTE $0xcb               // por    xmm9, xmm11
+	LONG $0x74b60f41; WORD $0x1a06             // movzx    esi, byte [r14 + rax + 26]
+	LONG $0xc66e0f66                           // movd    xmm0, esi
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0e0e7c203a0f4566; BYTE $0x0f       // pinsrb    xmm15, byte [r14 + rcx + 14], 15
+	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
+	QUAD $0x00000140b5df0f66                   // pandn    xmm6, oword 320[rbp] /* [rip + .LCPI5_20] */
+	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
+	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI5_21] */
+	LONG $0xeb0f4466; BYTE $0xfe               // por    xmm15, xmm6
+	LONG $0x74b60f41; WORD $0x1b06             // movzx    esi, byte [r14 + rax + 27]
+	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
+	QUAD $0x0000c024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 192]
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x0f3e74203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rdi + 15], 1
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x0f0e74203a0f4366; BYTE $0x02       // pinsrb    xmm6, byte [r14 + r9 + 15], 2
+	QUAD $0x0f3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 15], 3
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x0f0674203a0f4366; BYTE $0x04       // pinsrb    xmm6, byte [r14 + r8 + 15], 4
+	QUAD $0x0f1e74203a0f4166; BYTE $0x05       // pinsrb    xmm6, byte [r14 + rbx + 15], 5
+	QUAD $0x0f2674203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r12 + 15], 6
+	QUAD $0x0000008824b48b48                   // mov    rsi, qword [rsp + 136]
+	QUAD $0x0f3674203a0f4166; BYTE $0x07       // pinsrb    xmm6, byte [r14 + rsi + 15], 7
+	WORD $0x894d; BYTE $0xef                   // mov    r15, r13
+	QUAD $0x0f2e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r13 + 15], 8
+	QUAD $0x0f1e74203a0f4366; BYTE $0x09       // pinsrb    xmm6, byte [r14 + r11 + 15], 9
+	QUAD $0x0f1674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r10 + 15], 10
+	QUAD $0x0f1674203a0f4166; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + rdx + 15], 11
+	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
+	QUAD $0x0f1674203a0f4366; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + r10 + 15], 12
+	LONG $0x246c8b4c; BYTE $0x78               // mov    r13, qword [rsp + 120]
+	QUAD $0x0f2e74203a0f4366; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + r13 + 15], 13
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0f1674203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rdx + 15], 14
+	QUAD $0x0f0e74203a0f4166; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + rcx + 15], 15
+	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
+	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI5_6] */
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x74b60f41; WORD $0x1c06             // movzx    esi, byte [r14 + rax + 28]
+	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
+	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
+	QUAD $0x0000c024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm6
+	LONG $0x74b60f41; WORD $0x1d06             // movzx    esi, byte [r14 + rax + 29]
+	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
+	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
+	QUAD $0x103e54203a0f4566; BYTE $0x01       // pinsrb    xmm10, byte [r14 + rdi + 16], 1
+	QUAD $0x100e54203a0f4766; BYTE $0x02       // pinsrb    xmm10, byte [r14 + r9 + 16], 2
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x101654203a0f4566; BYTE $0x03       // pinsrb    xmm10, byte [r14 + rdx + 16], 3
+	QUAD $0x100654203a0f4766; BYTE $0x04       // pinsrb    xmm10, byte [r14 + r8 + 16], 4
+	QUAD $0x101e54203a0f4566; BYTE $0x05       // pinsrb    xmm10, byte [r14 + rbx + 16], 5
+	QUAD $0x102654203a0f4766; BYTE $0x06       // pinsrb    xmm10, byte [r14 + r12 + 16], 6
+	QUAD $0x0000008824bc8b48                   // mov    rdi, qword [rsp + 136]
+	QUAD $0x103e54203a0f4566; BYTE $0x07       // pinsrb    xmm10, byte [r14 + rdi + 16], 7
+	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
+	QUAD $0x103e54203a0f4766; BYTE $0x08       // pinsrb    xmm10, byte [r14 + r15 + 16], 8
+	QUAD $0x101e54203a0f4766; BYTE $0x09       // pinsrb    xmm10, byte [r14 + r11 + 16], 9
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x103e54203a0f4766; BYTE $0x0a       // pinsrb    xmm10, byte [r14 + r15 + 16], 10
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x100e54203a0f4566; BYTE $0x0b       // pinsrb    xmm10, byte [r14 + rcx + 16], 11
+	QUAD $0x101654203a0f4766; BYTE $0x0c       // pinsrb    xmm10, byte [r14 + r10 + 16], 12
+	QUAD $0x102e54203a0f4766; BYTE $0x0d       // pinsrb    xmm10, byte [r14 + r13 + 16], 13
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x100e54203a0f4566; BYTE $0x0e       // pinsrb    xmm10, byte [r14 + rcx + 16], 14
+	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
+	QUAD $0x102e54203a0f4766; BYTE $0x0f       // pinsrb    xmm10, byte [r14 + r13 + 16], 15
+	QUAD $0x113664203a0f4166; BYTE $0x01       // pinsrb    xmm4, byte [r14 + rsi + 17], 1
+	QUAD $0x110e64203a0f4366; BYTE $0x02       // pinsrb    xmm4, byte [r14 + r9 + 17], 2
+	QUAD $0x111664203a0f4166; BYTE $0x03       // pinsrb    xmm4, byte [r14 + rdx + 17], 3
+	QUAD $0x110664203a0f4366; BYTE $0x04       // pinsrb    xmm4, byte [r14 + r8 + 17], 4
+	QUAD $0x111e64203a0f4166; BYTE $0x05       // pinsrb    xmm4, byte [r14 + rbx + 17], 5
+	QUAD $0x112664203a0f4366; BYTE $0x06       // pinsrb    xmm4, byte [r14 + r12 + 17], 6
+	QUAD $0x113e64203a0f4166; BYTE $0x07       // pinsrb    xmm4, byte [r14 + rdi + 17], 7
+	QUAD $0x110664203a0f4166; BYTE $0x08       // pinsrb    xmm4, byte [r14 + rax + 17], 8
+	WORD $0x894d; BYTE $0xd9                   // mov    r9, r11
+	QUAD $0x111e64203a0f4366; BYTE $0x09       // pinsrb    xmm4, byte [r14 + r11 + 17], 9
+	WORD $0x894d; BYTE $0xfa                   // mov    r10, r15
+	QUAD $0x113e64203a0f4366; BYTE $0x0a       // pinsrb    xmm4, byte [r14 + r15 + 17], 10
+	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
+	QUAD $0x110664203a0f4366; BYTE $0x0b       // pinsrb    xmm4, byte [r14 + r8 + 17], 11
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x113e64203a0f4166; BYTE $0x0c       // pinsrb    xmm4, byte [r14 + rdi + 17], 12
+	LONG $0x24548b48; BYTE $0x78               // mov    rdx, qword [rsp + 120]
+	QUAD $0x111664203a0f4166; BYTE $0x0d       // pinsrb    xmm4, byte [r14 + rdx + 17], 13
+	QUAD $0x110e64203a0f4166; BYTE $0x0e       // pinsrb    xmm4, byte [r14 + rcx + 17], 14
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	QUAD $0x112e64203a0f4366; BYTE $0x0f       // pinsrb    xmm4, byte [r14 + r13 + 17], 15
+	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
+	LONG $0x740f4166; BYTE $0xe6               // pcmpeqb    xmm4, xmm14
+	QUAD $0x00000100b56f0f66                   // movdqa    xmm6, oword 256[rbp] /* [rip + .LCPI5_16] */
+	LONG $0xe6df0f66                           // pandn    xmm4, xmm6
+	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	LONG $0x74b60f41; WORD $0x1e06             // movzx    esi, byte [r14 + rax + 30]
+	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x12367c203a0f4166; BYTE $0x01       // pinsrb    xmm7, byte [r14 + rsi + 18], 1
+	QUAD $0x13366c203a0f4166; BYTE $0x01       // pinsrb    xmm5, byte [r14 + rsi + 19], 1
+	QUAD $0x14365c203a0f4166; BYTE $0x01       // pinsrb    xmm3, byte [r14 + rsi + 20], 1
+	QUAD $0x153654203a0f4166; BYTE $0x01       // pinsrb    xmm2, byte [r14 + rsi + 21], 1
+	QUAD $0x16364c203a0f4166; BYTE $0x01       // pinsrb    xmm1, byte [r14 + rsi + 22], 1
+	QUAD $0x173644203a0f4566; BYTE $0x01       // pinsrb    xmm8, byte [r14 + rsi + 23], 1
+	QUAD $0x183664203a0f4566; BYTE $0x01       // pinsrb    xmm12, byte [r14 + rsi + 24], 1
+	QUAD $0x19366c203a0f4566; BYTE $0x01       // pinsrb    xmm13, byte [r14 + rsi + 25], 1
+	QUAD $0x1a3644203a0f4166; BYTE $0x01       // pinsrb    xmm0, byte [r14 + rsi + 26], 1
+	QUAD $0x1b365c203a0f4566; BYTE $0x01       // pinsrb    xmm11, byte [r14 + rsi + 27], 1
+	QUAD $0x1c367c203a0f4566; BYTE $0x01       // pinsrb    xmm15, byte [r14 + rsi + 28], 1
+	QUAD $0x1d364c203a0f4566; BYTE $0x01       // pinsrb    xmm9, byte [r14 + rsi + 29], 1
+	QUAD $0x1e3654203a0f4566; BYTE $0x01       // pinsrb    xmm10, byte [r14 + rsi + 30], 1
+	LONG $0x44b60f41; WORD $0x1f06             // movzx    eax, byte [r14 + rax + 31]
+	LONG $0xf06e0f66                           // movd    xmm6, eax
+	QUAD $0x1f3674203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rsi + 31], 1
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x12067c203a0f4166; BYTE $0x02       // pinsrb    xmm7, byte [r14 + rax + 18], 2
+	QUAD $0x13066c203a0f4166; BYTE $0x02       // pinsrb    xmm5, byte [r14 + rax + 19], 2
+	QUAD $0x14065c203a0f4166; BYTE $0x02       // pinsrb    xmm3, byte [r14 + rax + 20], 2
+	QUAD $0x150654203a0f4166; BYTE $0x02       // pinsrb    xmm2, byte [r14 + rax + 21], 2
+	QUAD $0x16064c203a0f4166; BYTE $0x02       // pinsrb    xmm1, byte [r14 + rax + 22], 2
+	QUAD $0x170644203a0f4566; BYTE $0x02       // pinsrb    xmm8, byte [r14 + rax + 23], 2
+	QUAD $0x180664203a0f4566; BYTE $0x02       // pinsrb    xmm12, byte [r14 + rax + 24], 2
+	QUAD $0x19066c203a0f4566; BYTE $0x02       // pinsrb    xmm13, byte [r14 + rax + 25], 2
+	QUAD $0x1a0644203a0f4166; BYTE $0x02       // pinsrb    xmm0, byte [r14 + rax + 26], 2
+	QUAD $0x1b065c203a0f4566; BYTE $0x02       // pinsrb    xmm11, byte [r14 + rax + 27], 2
+	QUAD $0x1c067c203a0f4566; BYTE $0x02       // pinsrb    xmm15, byte [r14 + rax + 28], 2
+	QUAD $0x1d064c203a0f4566; BYTE $0x02       // pinsrb    xmm9, byte [r14 + rax + 29], 2
+	QUAD $0x1e0654203a0f4566; BYTE $0x02       // pinsrb    xmm10, byte [r14 + rax + 30], 2
+	QUAD $0x1f0674203a0f4166; BYTE $0x02       // pinsrb    xmm6, byte [r14 + rax + 31], 2
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x123e7c203a0f4366; BYTE $0x03       // pinsrb    xmm7, byte [r14 + r15 + 18], 3
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x12067c203a0f4166; BYTE $0x04       // pinsrb    xmm7, byte [r14 + rax + 18], 4
+	QUAD $0x121e7c203a0f4166; BYTE $0x05       // pinsrb    xmm7, byte [r14 + rbx + 18], 5
+	QUAD $0x12267c203a0f4366; BYTE $0x06       // pinsrb    xmm7, byte [r14 + r12 + 18], 6
+	QUAD $0x00000088248c8b48                   // mov    rcx, qword [rsp + 136]
+	QUAD $0x120e7c203a0f4166; BYTE $0x07       // pinsrb    xmm7, byte [r14 + rcx + 18], 7
+	LONG $0x24748b48; BYTE $0x68               // mov    rsi, qword [rsp + 104]
+	QUAD $0x12367c203a0f4166; BYTE $0x08       // pinsrb    xmm7, byte [r14 + rsi + 18], 8
+	QUAD $0x120e7c203a0f4366; BYTE $0x09       // pinsrb    xmm7, byte [r14 + r9 + 18], 9
+	QUAD $0x12167c203a0f4366; BYTE $0x0a       // pinsrb    xmm7, byte [r14 + r10 + 18], 10
+	QUAD $0x12067c203a0f4366; BYTE $0x0b       // pinsrb    xmm7, byte [r14 + r8 + 18], 11
+	QUAD $0x123e7c203a0f4166; BYTE $0x0c       // pinsrb    xmm7, byte [r14 + rdi + 18], 12
+	QUAD $0x12167c203a0f4166; BYTE $0x0d       // pinsrb    xmm7, byte [r14 + rdx + 18], 13
+	QUAD $0x121e7c203a0f4366; BYTE $0x0e       // pinsrb    xmm7, byte [r14 + r11 + 18], 14
+	QUAD $0x122e7c203a0f4366; BYTE $0x0f       // pinsrb    xmm7, byte [r14 + r13 + 18], 15
+	QUAD $0x133e6c203a0f4366; BYTE $0x03       // pinsrb    xmm5, byte [r14 + r15 + 19], 3
+	QUAD $0x13066c203a0f4166; BYTE $0x04       // pinsrb    xmm5, byte [r14 + rax + 19], 4
+	QUAD $0x131e6c203a0f4166; BYTE $0x05       // pinsrb    xmm5, byte [r14 + rbx + 19], 5
+	QUAD $0x13266c203a0f4366; BYTE $0x06       // pinsrb    xmm5, byte [r14 + r12 + 19], 6
+	QUAD $0x130e6c203a0f4166; BYTE $0x07       // pinsrb    xmm5, byte [r14 + rcx + 19], 7
+	QUAD $0x13366c203a0f4166; BYTE $0x08       // pinsrb    xmm5, byte [r14 + rsi + 19], 8
+	QUAD $0x130e6c203a0f4366; BYTE $0x09       // pinsrb    xmm5, byte [r14 + r9 + 19], 9
+	QUAD $0x13166c203a0f4366; BYTE $0x0a       // pinsrb    xmm5, byte [r14 + r10 + 19], 10
+	QUAD $0x13066c203a0f4366; BYTE $0x0b       // pinsrb    xmm5, byte [r14 + r8 + 19], 11
+	QUAD $0x133e6c203a0f4166; BYTE $0x0c       // pinsrb    xmm5, byte [r14 + rdi + 19], 12
+	QUAD $0x13166c203a0f4166; BYTE $0x0d       // pinsrb    xmm5, byte [r14 + rdx + 19], 13
+	QUAD $0x131e6c203a0f4366; BYTE $0x0e       // pinsrb    xmm5, byte [r14 + r11 + 19], 14
+	QUAD $0x132e6c203a0f4366; BYTE $0x0f       // pinsrb    xmm5, byte [r14 + r13 + 19], 15
+	QUAD $0x143e5c203a0f4366; BYTE $0x03       // pinsrb    xmm3, byte [r14 + r15 + 20], 3
+	QUAD $0x14065c203a0f4166; BYTE $0x04       // pinsrb    xmm3, byte [r14 + rax + 20], 4
+	QUAD $0x141e5c203a0f4166; BYTE $0x05       // pinsrb    xmm3, byte [r14 + rbx + 20], 5
+	QUAD $0x14265c203a0f4366; BYTE $0x06       // pinsrb    xmm3, byte [r14 + r12 + 20], 6
+	QUAD $0x140e5c203a0f4166; BYTE $0x07       // pinsrb    xmm3, byte [r14 + rcx + 20], 7
+	QUAD $0x14365c203a0f4166; BYTE $0x08       // pinsrb    xmm3, byte [r14 + rsi + 20], 8
+	QUAD $0x140e5c203a0f4366; BYTE $0x09       // pinsrb    xmm3, byte [r14 + r9 + 20], 9
+	QUAD $0x14165c203a0f4366; BYTE $0x0a       // pinsrb    xmm3, byte [r14 + r10 + 20], 10
+	QUAD $0x14065c203a0f4366; BYTE $0x0b       // pinsrb    xmm3, byte [r14 + r8 + 20], 11
+	QUAD $0x143e5c203a0f4166; BYTE $0x0c       // pinsrb    xmm3, byte [r14 + rdi + 20], 12
+	QUAD $0x14165c203a0f4166; BYTE $0x0d       // pinsrb    xmm3, byte [r14 + rdx + 20], 13
+	QUAD $0x141e5c203a0f4366; BYTE $0x0e       // pinsrb    xmm3, byte [r14 + r11 + 20], 14
+	LONG $0x740f4166; BYTE $0xfe               // pcmpeqb    xmm7, xmm14
+	QUAD $0x000110b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 272[rbp] /* [rip + .LCPI5_17] */
+	LONG $0xdf0f4166; BYTE $0xfe               // pandn    xmm7, xmm14
+	QUAD $0x0000b024ac740f66; BYTE $0x00       // pcmpeqb    xmm5, oword [rsp + 176]
+	QUAD $0x000120b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 288[rbp] /* [rip + .LCPI5_18] */
+	LONG $0xdf0f4166; BYTE $0xee               // pandn    xmm5, xmm14
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	QUAD $0x142e5c203a0f4366; BYTE $0x0f       // pinsrb    xmm3, byte [r14 + r13 + 20], 15
+	QUAD $0x00b024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 176]
+	LONG $0x740f4166; BYTE $0xde               // pcmpeqb    xmm3, xmm14
+	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI5_19] */
+	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
+	LONG $0xdceb0f66                           // por    xmm3, xmm4
+	QUAD $0x153e54203a0f4366; BYTE $0x03       // pinsrb    xmm2, byte [r14 + r15 + 21], 3
+	QUAD $0x150654203a0f4166; BYTE $0x04       // pinsrb    xmm2, byte [r14 + rax + 21], 4
+	QUAD $0x151e54203a0f4166; BYTE $0x05       // pinsrb    xmm2, byte [r14 + rbx + 21], 5
+	QUAD $0x152654203a0f4366; BYTE $0x06       // pinsrb    xmm2, byte [r14 + r12 + 21], 6
+	QUAD $0x150e54203a0f4166; BYTE $0x07       // pinsrb    xmm2, byte [r14 + rcx + 21], 7
+	QUAD $0x153654203a0f4166; BYTE $0x08       // pinsrb    xmm2, byte [r14 + rsi + 21], 8
+	QUAD $0x150e54203a0f4366; BYTE $0x09       // pinsrb    xmm2, byte [r14 + r9 + 21], 9
+	QUAD $0x151654203a0f4366; BYTE $0x0a       // pinsrb    xmm2, byte [r14 + r10 + 21], 10
+	QUAD $0x150654203a0f4366; BYTE $0x0b       // pinsrb    xmm2, byte [r14 + r8 + 21], 11
+	QUAD $0x153e54203a0f4166; BYTE $0x0c       // pinsrb    xmm2, byte [r14 + rdi + 21], 12
+	QUAD $0x151654203a0f4166; BYTE $0x0d       // pinsrb    xmm2, byte [r14 + rdx + 21], 13
+	QUAD $0x151e54203a0f4366; BYTE $0x0e       // pinsrb    xmm2, byte [r14 + r11 + 21], 14
+	QUAD $0x152e54203a0f4366; BYTE $0x0f       // pinsrb    xmm2, byte [r14 + r13 + 21], 15
+	QUAD $0x163e4c203a0f4366; BYTE $0x03       // pinsrb    xmm1, byte [r14 + r15 + 22], 3
+	QUAD $0x16064c203a0f4166; BYTE $0x04       // pinsrb    xmm1, byte [r14 + rax + 22], 4
+	QUAD $0x161e4c203a0f4166; BYTE $0x05       // pinsrb    xmm1, byte [r14 + rbx + 22], 5
+	QUAD $0x16264c203a0f4366; BYTE $0x06       // pinsrb    xmm1, byte [r14 + r12 + 22], 6
+	QUAD $0x160e4c203a0f4166; BYTE $0x07       // pinsrb    xmm1, byte [r14 + rcx + 22], 7
+	QUAD $0x16364c203a0f4166; BYTE $0x08       // pinsrb    xmm1, byte [r14 + rsi + 22], 8
+	QUAD $0x160e4c203a0f4366; BYTE $0x09       // pinsrb    xmm1, byte [r14 + r9 + 22], 9
+	QUAD $0x16164c203a0f4366; BYTE $0x0a       // pinsrb    xmm1, byte [r14 + r10 + 22], 10
+	QUAD $0x16064c203a0f4366; BYTE $0x0b       // pinsrb    xmm1, byte [r14 + r8 + 22], 11
+	QUAD $0x163e4c203a0f4166; BYTE $0x0c       // pinsrb    xmm1, byte [r14 + rdi + 22], 12
+	QUAD $0x16164c203a0f4166; BYTE $0x0d       // pinsrb    xmm1, byte [r14 + rdx + 22], 13
+	QUAD $0x161e4c203a0f4366; BYTE $0x0e       // pinsrb    xmm1, byte [r14 + r11 + 22], 14
+	QUAD $0x162e4c203a0f4366; BYTE $0x0f       // pinsrb    xmm1, byte [r14 + r13 + 22], 15
+	QUAD $0x173e44203a0f4766; BYTE $0x03       // pinsrb    xmm8, byte [r14 + r15 + 23], 3
+	QUAD $0x170644203a0f4566; BYTE $0x04       // pinsrb    xmm8, byte [r14 + rax + 23], 4
+	QUAD $0x171e44203a0f4566; BYTE $0x05       // pinsrb    xmm8, byte [r14 + rbx + 23], 5
+	QUAD $0x172644203a0f4766; BYTE $0x06       // pinsrb    xmm8, byte [r14 + r12 + 23], 6
+	QUAD $0x170e44203a0f4566; BYTE $0x07       // pinsrb    xmm8, byte [r14 + rcx + 23], 7
+	QUAD $0x173644203a0f4566; BYTE $0x08       // pinsrb    xmm8, byte [r14 + rsi + 23], 8
+	QUAD $0x170e44203a0f4766; BYTE $0x09       // pinsrb    xmm8, byte [r14 + r9 + 23], 9
+	QUAD $0x171644203a0f4766; BYTE $0x0a       // pinsrb    xmm8, byte [r14 + r10 + 23], 10
+	QUAD $0x170644203a0f4766; BYTE $0x0b       // pinsrb    xmm8, byte [r14 + r8 + 23], 11
+	QUAD $0x173e44203a0f4566; BYTE $0x0c       // pinsrb    xmm8, byte [r14 + rdi + 23], 12
+	QUAD $0x171644203a0f4566; BYTE $0x0d       // pinsrb    xmm8, byte [r14 + rdx + 23], 13
+	QUAD $0x171e44203a0f4766; BYTE $0x0e       // pinsrb    xmm8, byte [r14 + r11 + 23], 14
+	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
+	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI5_20] */
+	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
+	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
+	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI5_21] */
+	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	QUAD $0x172e44203a0f4766; BYTE $0x0f       // pinsrb    xmm8, byte [r14 + r13 + 23], 15
+	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
+	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI5_6] */
+	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
+	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
+	QUAD $0x183e64203a0f4766; BYTE $0x03       // pinsrb    xmm12, byte [r14 + r15 + 24], 3
+	QUAD $0x180664203a0f4566; BYTE $0x04       // pinsrb    xmm12, byte [r14 + rax + 24], 4
+	QUAD $0x181e64203a0f4566; BYTE $0x05       // pinsrb    xmm12, byte [r14 + rbx + 24], 5
+	QUAD $0x182664203a0f4766; BYTE $0x06       // pinsrb    xmm12, byte [r14 + r12 + 24], 6
+	QUAD $0x180e64203a0f4566; BYTE $0x07       // pinsrb    xmm12, byte [r14 + rcx + 24], 7
+	QUAD $0x183664203a0f4566; BYTE $0x08       // pinsrb    xmm12, byte [r14 + rsi + 24], 8
+	QUAD $0x180e64203a0f4766; BYTE $0x09       // pinsrb    xmm12, byte [r14 + r9 + 24], 9
+	QUAD $0x181664203a0f4766; BYTE $0x0a       // pinsrb    xmm12, byte [r14 + r10 + 24], 10
+	QUAD $0x180664203a0f4766; BYTE $0x0b       // pinsrb    xmm12, byte [r14 + r8 + 24], 11
+	QUAD $0x183e64203a0f4566; BYTE $0x0c       // pinsrb    xmm12, byte [r14 + rdi + 24], 12
+	QUAD $0x181664203a0f4566; BYTE $0x0d       // pinsrb    xmm12, byte [r14 + rdx + 24], 13
+	QUAD $0x181e64203a0f4766; BYTE $0x0e       // pinsrb    xmm12, byte [r14 + r11 + 24], 14
+	QUAD $0x182e64203a0f4766; BYTE $0x0f       // pinsrb    xmm12, byte [r14 + r13 + 24], 15
+	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
+	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
+	QUAD $0x193e6c203a0f4766; BYTE $0x03       // pinsrb    xmm13, byte [r14 + r15 + 25], 3
+	QUAD $0x19066c203a0f4566; BYTE $0x04       // pinsrb    xmm13, byte [r14 + rax + 25], 4
+	QUAD $0x191e6c203a0f4566; BYTE $0x05       // pinsrb    xmm13, byte [r14 + rbx + 25], 5
+	QUAD $0x19266c203a0f4766; BYTE $0x06       // pinsrb    xmm13, byte [r14 + r12 + 25], 6
+	QUAD $0x190e6c203a0f4566; BYTE $0x07       // pinsrb    xmm13, byte [r14 + rcx + 25], 7
+	QUAD $0x19366c203a0f4566; BYTE $0x08       // pinsrb    xmm13, byte [r14 + rsi + 25], 8
+	QUAD $0x190e6c203a0f4766; BYTE $0x09       // pinsrb    xmm13, byte [r14 + r9 + 25], 9
+	QUAD $0x19166c203a0f4766; BYTE $0x0a       // pinsrb    xmm13, byte [r14 + r10 + 25], 10
+	QUAD $0x19066c203a0f4766; BYTE $0x0b       // pinsrb    xmm13, byte [r14 + r8 + 25], 11
+	QUAD $0x193e6c203a0f4566; BYTE $0x0c       // pinsrb    xmm13, byte [r14 + rdi + 25], 12
+	QUAD $0x19166c203a0f4566; BYTE $0x0d       // pinsrb    xmm13, byte [r14 + rdx + 25], 13
+	QUAD $0x191e6c203a0f4766; BYTE $0x0e       // pinsrb    xmm13, byte [r14 + r11 + 25], 14
+	QUAD $0x192e6c203a0f4766; BYTE $0x0f       // pinsrb    xmm13, byte [r14 + r13 + 25], 15
+	QUAD $0x1a3e44203a0f4366; BYTE $0x03       // pinsrb    xmm0, byte [r14 + r15 + 26], 3
+	QUAD $0x1a0644203a0f4166; BYTE $0x04       // pinsrb    xmm0, byte [r14 + rax + 26], 4
+	QUAD $0x1a1e44203a0f4166; BYTE $0x05       // pinsrb    xmm0, byte [r14 + rbx + 26], 5
+	QUAD $0x1a2644203a0f4366; BYTE $0x06       // pinsrb    xmm0, byte [r14 + r12 + 26], 6
+	QUAD $0x1a0e44203a0f4166; BYTE $0x07       // pinsrb    xmm0, byte [r14 + rcx + 26], 7
+	QUAD $0x1a3644203a0f4166; BYTE $0x08       // pinsrb    xmm0, byte [r14 + rsi + 26], 8
+	QUAD $0x1a0e44203a0f4366; BYTE $0x09       // pinsrb    xmm0, byte [r14 + r9 + 26], 9
+	QUAD $0x1a1644203a0f4366; BYTE $0x0a       // pinsrb    xmm0, byte [r14 + r10 + 26], 10
+	QUAD $0x1a0644203a0f4366; BYTE $0x0b       // pinsrb    xmm0, byte [r14 + r8 + 26], 11
+	QUAD $0x1a3e44203a0f4166; BYTE $0x0c       // pinsrb    xmm0, byte [r14 + rdi + 26], 12
+	QUAD $0x1a1644203a0f4166; BYTE $0x0d       // pinsrb    xmm0, byte [r14 + rdx + 26], 13
+	QUAD $0x1a1e44203a0f4366; BYTE $0x0e       // pinsrb    xmm0, byte [r14 + r11 + 26], 14
+	QUAD $0x1a2e44203a0f4366; BYTE $0x0f       // pinsrb    xmm0, byte [r14 + r13 + 26], 15
+	QUAD $0x1b3e5c203a0f4766; BYTE $0x03       // pinsrb    xmm11, byte [r14 + r15 + 27], 3
+	QUAD $0x1b065c203a0f4566; BYTE $0x04       // pinsrb    xmm11, byte [r14 + rax + 27], 4
+	QUAD $0x1b1e5c203a0f4566; BYTE $0x05       // pinsrb    xmm11, byte [r14 + rbx + 27], 5
+	QUAD $0x1b265c203a0f4766; BYTE $0x06       // pinsrb    xmm11, byte [r14 + r12 + 27], 6
+	QUAD $0x1b0e5c203a0f4566; BYTE $0x07       // pinsrb    xmm11, byte [r14 + rcx + 27], 7
+	QUAD $0x1b365c203a0f4566; BYTE $0x08       // pinsrb    xmm11, byte [r14 + rsi + 27], 8
+	QUAD $0x1b0e5c203a0f4766; BYTE $0x09       // pinsrb    xmm11, byte [r14 + r9 + 27], 9
+	QUAD $0x1b165c203a0f4766; BYTE $0x0a       // pinsrb    xmm11, byte [r14 + r10 + 27], 10
+	QUAD $0x1b065c203a0f4766; BYTE $0x0b       // pinsrb    xmm11, byte [r14 + r8 + 27], 11
+	QUAD $0x1b3e5c203a0f4566; BYTE $0x0c       // pinsrb    xmm11, byte [r14 + rdi + 27], 12
+	QUAD $0x1b165c203a0f4566; BYTE $0x0d       // pinsrb    xmm11, byte [r14 + rdx + 27], 13
+	QUAD $0x1b1e5c203a0f4766; BYTE $0x0e       // pinsrb    xmm11, byte [r14 + r11 + 27], 14
+	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
+	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI5_16] */
+	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
+	QUAD $0x1b2e5c203a0f4766; BYTE $0x0f       // pinsrb    xmm11, byte [r14 + r13 + 27], 15
+	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
+	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI5_17] */
+	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
+	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI5_18] */
+	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
+	QUAD $0x1c3e7c203a0f4766; BYTE $0x03       // pinsrb    xmm15, byte [r14 + r15 + 28], 3
+	QUAD $0x1d3e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 29], 3
+	QUAD $0x1e3e54203a0f4766; BYTE $0x03       // pinsrb    xmm10, byte [r14 + r15 + 30], 3
+	QUAD $0x1f3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 31], 3
+	QUAD $0x1c067c203a0f4566; BYTE $0x04       // pinsrb    xmm15, byte [r14 + rax + 28], 4
+	QUAD $0x1d064c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rax + 29], 4
+	QUAD $0x1e0654203a0f4566; BYTE $0x04       // pinsrb    xmm10, byte [r14 + rax + 30], 4
+	QUAD $0x1f0674203a0f4166; BYTE $0x04       // pinsrb    xmm6, byte [r14 + rax + 31], 4
+	QUAD $0x1c1e7c203a0f4566; BYTE $0x05       // pinsrb    xmm15, byte [r14 + rbx + 28], 5
+	QUAD $0x1d1e4c203a0f4566; BYTE $0x05       // pinsrb    xmm9, byte [r14 + rbx + 29], 5
+	QUAD $0x1e1e54203a0f4566; BYTE $0x05       // pinsrb    xmm10, byte [r14 + rbx + 30], 5
+	QUAD $0x1f1e74203a0f4166; BYTE $0x05       // pinsrb    xmm6, byte [r14 + rbx + 31], 5
+	QUAD $0x1c267c203a0f4766; BYTE $0x06       // pinsrb    xmm15, byte [r14 + r12 + 28], 6
+	QUAD $0x1d264c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r12 + 29], 6
+	QUAD $0x1e2654203a0f4766; BYTE $0x06       // pinsrb    xmm10, byte [r14 + r12 + 30], 6
+	QUAD $0x1f2674203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r12 + 31], 6
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x1c0e7c203a0f4566; BYTE $0x07       // pinsrb    xmm15, byte [r14 + rcx + 28], 7
+	QUAD $0x1d0e4c203a0f4566; BYTE $0x07       // pinsrb    xmm9, byte [r14 + rcx + 29], 7
+	QUAD $0x1e0e54203a0f4566; BYTE $0x07       // pinsrb    xmm10, byte [r14 + rcx + 30], 7
+	QUAD $0x1f0e74203a0f4166; BYTE $0x07       // pinsrb    xmm6, byte [r14 + rcx + 31], 7
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	QUAD $0x1c367c203a0f4566; BYTE $0x08       // pinsrb    xmm15, byte [r14 + rsi + 28], 8
+	QUAD $0x1d364c203a0f4566; BYTE $0x08       // pinsrb    xmm9, byte [r14 + rsi + 29], 8
+	QUAD $0x1e3654203a0f4566; BYTE $0x08       // pinsrb    xmm10, byte [r14 + rsi + 30], 8
+	QUAD $0x1f3674203a0f4166; BYTE $0x08       // pinsrb    xmm6, byte [r14 + rsi + 31], 8
+	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
+	QUAD $0x1c0e7c203a0f4766; BYTE $0x09       // pinsrb    xmm15, byte [r14 + r9 + 28], 9
+	QUAD $0x1d0e4c203a0f4766; BYTE $0x09       // pinsrb    xmm9, byte [r14 + r9 + 29], 9
+	QUAD $0x1e0e54203a0f4766; BYTE $0x09       // pinsrb    xmm10, byte [r14 + r9 + 30], 9
+	QUAD $0x1f0e74203a0f4366; BYTE $0x09       // pinsrb    xmm6, byte [r14 + r9 + 31], 9
+	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
+	QUAD $0x1c167c203a0f4766; BYTE $0x0a       // pinsrb    xmm15, byte [r14 + r10 + 28], 10
+	QUAD $0x1d164c203a0f4766; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + r10 + 29], 10
+	QUAD $0x1e1654203a0f4766; BYTE $0x0a       // pinsrb    xmm10, byte [r14 + r10 + 30], 10
+	QUAD $0x1f1674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r10 + 31], 10
+	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
+	QUAD $0x1c067c203a0f4766; BYTE $0x0b       // pinsrb    xmm15, byte [r14 + r8 + 28], 11
+	QUAD $0x1d064c203a0f4766; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + r8 + 29], 11
+	QUAD $0x1e0654203a0f4766; BYTE $0x0b       // pinsrb    xmm10, byte [r14 + r8 + 30], 11
+	QUAD $0x1f0674203a0f4366; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + r8 + 31], 11
+	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
+	QUAD $0x1c3e7c203a0f4566; BYTE $0x0c       // pinsrb    xmm15, byte [r14 + rdi + 28], 12
+	QUAD $0x1d3e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rdi + 29], 12
+	QUAD $0x1e3e54203a0f4566; BYTE $0x0c       // pinsrb    xmm10, byte [r14 + rdi + 30], 12
+	QUAD $0x1f3e74203a0f4166; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + rdi + 31], 12
+	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
+	QUAD $0x1c167c203a0f4566; BYTE $0x0d       // pinsrb    xmm15, byte [r14 + rdx + 28], 13
+	QUAD $0x1d164c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rdx + 29], 13
+	QUAD $0x1e1654203a0f4566; BYTE $0x0d       // pinsrb    xmm10, byte [r14 + rdx + 30], 13
+	QUAD $0x1f1674203a0f4166; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + rdx + 31], 13
+	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
+	QUAD $0x1c1e7c203a0f4766; BYTE $0x0e       // pinsrb    xmm15, byte [r14 + r11 + 28], 14
+	QUAD $0x1d1e4c203a0f4766; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + r11 + 29], 14
+	QUAD $0x1e1e54203a0f4766; BYTE $0x0e       // pinsrb    xmm10, byte [r14 + r11 + 30], 14
+	QUAD $0x1f1e74203a0f4366; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + r11 + 31], 14
+	QUAD $0x1c2e7c203a0f4766; BYTE $0x0f       // pinsrb    xmm15, byte [r14 + r13 + 28], 15
+	QUAD $0x1d2e4c203a0f4766; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + r13 + 29], 15
+	QUAD $0x1e2e54203a0f4766; BYTE $0x0f       // pinsrb    xmm10, byte [r14 + r13 + 30], 15
+	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
+	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI5_19] */
+	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
+	QUAD $0x1f2e74203a0f4366; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + r13 + 31], 15
+	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI5_22] */
+	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
+	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
+	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
+	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
+	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
+	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
+	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
+	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
+	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
+	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
+	QUAD $0x000100249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 256]
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	QUAD $0x0000c024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 192]
+	LONG $0xcc600f66                           // punpcklbw    xmm1, xmm4
+	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
+	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
+	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
+	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
+	LONG $0xdc680f66                           // punpckhbw    xmm3, xmm4
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
+	LONG $0x690f4166; BYTE $0xd8               // punpckhwd    xmm3, xmm8
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	LONG $0x5c7f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm3
+	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm1
+	LONG $0x147f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm2
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000d8248c3b48                   // cmp    rcx, qword [rsp + 216]
+	JNE  LBB5_86
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x000000d824943b4c                   // cmp    r10, qword [rsp + 216]
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	JNE  LBB5_88
+	JMP  LBB5_91
+
+LBB5_66:
+	LONG $0xf0e28349                     // and    r10, -16
+	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x014c; BYTE $0xf0             // add    rax, r14
+	QUAD $0x0000011024848948             // mov    qword [rsp + 272], rax
+	QUAD $0x000000d82494894c             // mov    qword [rsp + 216], r10
+	LONG $0x24448b48; BYTE $0x08         // mov    rax, qword [rsp + 8]
+	LONG $0x90048d4a                     // lea    rax, [rax + 4*r10]
+	LONG $0x24448948; BYTE $0x58         // mov    qword [rsp + 88], rax
+	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x0000b0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 176], xmm1
+	WORD $0xc031                         // xor    eax, eax
+
+LBB5_67:
+	QUAD $0x000000a824848948                   // mov    qword [rsp + 168], rax
+	LONG $0x05e0c148                           // shl    rax, 5
+	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
+	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
+	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
+	LONG $0x0cb60f41; BYTE $0x06               // movzx    ecx, byte [r14 + rax]
+	LONG $0xe16e0f66                           // movd    xmm4, ecx
+	LONG $0x4cb60f41; WORD $0x0106             // movzx    ecx, byte [r14 + rax + 1]
+	LONG $0xd96e0f66                           // movd    xmm3, ecx
+	LONG $0x4cb60f41; WORD $0x0206             // movzx    ecx, byte [r14 + rax + 2]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	LONG $0x4cb60f41; WORD $0x0306             // movzx    ecx, byte [r14 + rax + 3]
+	LONG $0xf96e0f66                           // movd    xmm7, ecx
+	LONG $0x4cb60f41; WORD $0x0406             // movzx    ecx, byte [r14 + rax + 4]
+	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
+	LONG $0x4cb60f41; WORD $0x0506             // movzx    ecx, byte [r14 + rax + 5]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	LONG $0x4cb60f41; WORD $0x0606             // movzx    ecx, byte [r14 + rax + 6]
+	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
+	LONG $0x4cb60f41; WORD $0x0706             // movzx    ecx, byte [r14 + rax + 7]
+	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
+	LONG $0x4cb60f41; WORD $0x0806             // movzx    ecx, byte [r14 + rax + 8]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00010024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm0
+	LONG $0x4cb60f41; WORD $0x0906             // movzx    ecx, byte [r14 + rax + 9]
+	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
+	LONG $0x4cb60f41; WORD $0x0a06             // movzx    ecx, byte [r14 + rax + 10]
+	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
+	LONG $0x4cb60f41; WORD $0x0b06             // movzx    ecx, byte [r14 + rax + 11]
+	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
+	LONG $0x4cb60f41; WORD $0x0c06             // movzx    ecx, byte [r14 + rax + 12]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
+	LONG $0x4cb60f41; WORD $0x0d06             // movzx    ecx, byte [r14 + rax + 13]
+	LONG $0xf16e0f66                           // movd    xmm6, ecx
+	LONG $0x4cb60f41; WORD $0x0e06             // movzx    ecx, byte [r14 + rax + 14]
+	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
+	LONG $0x4cb60f41; WORD $0x0f06             // movzx    ecx, byte [r14 + rax + 15]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
+	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x20c98348                           // or    rcx, 32
+	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
+	LONG $0x40c88349                           // or    r8, 64
+	LONG $0x2444894c; BYTE $0x20               // mov    qword [rsp + 32], r8
+	LONG $0x60cb8349                           // or    r11, 96
+	LONG $0x245c894c; BYTE $0x50               // mov    qword [rsp + 80], r11
+	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
+	LONG $0x244c894c; BYTE $0x18               // mov    qword [rsp + 24], r9
+	LONG $0xa0cd8149; WORD $0x0000; BYTE $0x00 // or    r13, 160
+	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
+	LONG $0xe0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 224
+	LONG $0x247c8948; BYTE $0x68               // mov    qword [rsp + 104], rdi
+	LONG $0x00ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 256
+	QUAD $0x000000982494894c                   // mov    qword [rsp + 152], r10
+	LONG $0x20cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 288
+	LONG $0x40cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 320
+	QUAD $0x00000090249c8948                   // mov    qword [rsp + 144], rbx
+	LONG $0x60ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 352
+	LONG $0x24548948; BYTE $0x70               // mov    qword [rsp + 112], rdx
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
+	LONG $0x245c8948; BYTE $0x78               // mov    qword [rsp + 120], rbx
+	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
+	LONG $0xa0ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 416
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0xc0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 448
+	LONG $0x244c8948; BYTE $0x40               // mov    qword [rsp + 64], rcx
+	LONG $0xe0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 480
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x010624203a0f4166                   // pinsrb    xmm4, byte [r14 + rax], 1
+	QUAD $0x020624203a0f4366                   // pinsrb    xmm4, byte [r14 + r8], 2
+	QUAD $0x031e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r11], 3
+	QUAD $0x040e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r9], 4
+	QUAD $0x052e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r13], 5
+	QUAD $0x063e24203a0f4366                   // pinsrb    xmm4, byte [r14 + r15], 6
+	QUAD $0x073e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rdi], 7
+	QUAD $0x081624203a0f4366                   // pinsrb    xmm4, byte [r14 + r10], 8
+	QUAD $0x092624203a0f4366                   // pinsrb    xmm4, byte [r14 + r12], 9
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x0a0624203a0f4166                   // pinsrb    xmm4, byte [r14 + rax], 10
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0b0624203a0f4166                   // pinsrb    xmm4, byte [r14 + rax], 11
+	QUAD $0x0c1e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rbx], 12
+	QUAD $0x0d1624203a0f4166                   // pinsrb    xmm4, byte [r14 + rdx], 13
+	QUAD $0x0e0e24203a0f4166                   // pinsrb    xmm4, byte [r14 + rcx], 14
+	QUAD $0x0f3624203a0f4166                   // pinsrb    xmm4, byte [r14 + rsi], 15
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x01065c203a0f4166; BYTE $0x01       // pinsrb    xmm3, byte [r14 + rax + 1], 1
+	QUAD $0x01065c203a0f4366; BYTE $0x02       // pinsrb    xmm3, byte [r14 + r8 + 1], 2
+	QUAD $0x011e5c203a0f4366; BYTE $0x03       // pinsrb    xmm3, byte [r14 + r11 + 1], 3
+	QUAD $0x010e5c203a0f4366; BYTE $0x04       // pinsrb    xmm3, byte [r14 + r9 + 1], 4
+	QUAD $0x012e5c203a0f4366; BYTE $0x05       // pinsrb    xmm3, byte [r14 + r13 + 1], 5
+	WORD $0x894d; BYTE $0xe9                   // mov    r9, r13
+	QUAD $0x013e5c203a0f4366; BYTE $0x06       // pinsrb    xmm3, byte [r14 + r15 + 1], 6
+	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
+	QUAD $0x013e5c203a0f4166; BYTE $0x07       // pinsrb    xmm3, byte [r14 + rdi + 1], 7
+	QUAD $0x01165c203a0f4366; BYTE $0x08       // pinsrb    xmm3, byte [r14 + r10 + 1], 8
+	QUAD $0x01265c203a0f4366; BYTE $0x09       // pinsrb    xmm3, byte [r14 + r12 + 1], 9
+	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
+	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
+	QUAD $0x01265c203a0f4366; BYTE $0x0a       // pinsrb    xmm3, byte [r14 + r12 + 1], 10
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x01065c203a0f4166; BYTE $0x0b       // pinsrb    xmm3, byte [r14 + rax + 1], 11
+	QUAD $0x011e5c203a0f4166; BYTE $0x0c       // pinsrb    xmm3, byte [r14 + rbx + 1], 12
+	QUAD $0x01165c203a0f4166; BYTE $0x0d       // pinsrb    xmm3, byte [r14 + rdx + 1], 13
+	LONG $0x24548948; BYTE $0x30               // mov    qword [rsp + 48], rdx
+	QUAD $0x010e5c203a0f4166; BYTE $0x0e       // pinsrb    xmm3, byte [r14 + rcx + 1], 14
+	QUAD $0x0000b0248c6f0f66; BYTE $0x00       // movdqa    xmm1, oword [rsp + 176]
+	LONG $0xe1740f66                           // pcmpeqb    xmm4, xmm1
+	QUAD $0x01365c203a0f4166; BYTE $0x0f       // pinsrb    xmm3, byte [r14 + rsi + 1], 15
+	WORD $0x8949; BYTE $0xf0                   // mov    r8, rsi
+	LONG $0xd9740f66                           // pcmpeqb    xmm3, xmm1
+	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI5_16] */
+	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
+	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	LONG $0x74b60f41; WORD $0x1006             // movzx    esi, byte [r14 + rax + 16]
+	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x02066c203a0f4166; BYTE $0x01       // pinsrb    xmm5, byte [r14 + rax + 2], 1
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x022e6c203a0f4366; BYTE $0x02       // pinsrb    xmm5, byte [r14 + r13 + 2], 2
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x023e6c203a0f4366; BYTE $0x03       // pinsrb    xmm5, byte [r14 + r15 + 2], 3
+	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
+	QUAD $0x021e6c203a0f4166; BYTE $0x04       // pinsrb    xmm5, byte [r14 + rbx + 2], 4
+	QUAD $0x020e6c203a0f4366; BYTE $0x05       // pinsrb    xmm5, byte [r14 + r9 + 2], 5
+	QUAD $0x00000088249c894c                   // mov    qword [rsp + 136], r11
+	QUAD $0x021e6c203a0f4366; BYTE $0x06       // pinsrb    xmm5, byte [r14 + r11 + 2], 6
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x02166c203a0f4366; BYTE $0x07       // pinsrb    xmm5, byte [r14 + r10 + 2], 7
+	QUAD $0x0000009824848b48                   // mov    rax, qword [rsp + 152]
+	QUAD $0x02066c203a0f4166; BYTE $0x08       // pinsrb    xmm5, byte [r14 + rax + 2], 8
+	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
+	QUAD $0x023e6c203a0f4166; BYTE $0x09       // pinsrb    xmm5, byte [r14 + rdi + 2], 9
+	QUAD $0x02266c203a0f4366; BYTE $0x0a       // pinsrb    xmm5, byte [r14 + r12 + 2], 10
+	LONG $0x24748b48; BYTE $0x70               // mov    rsi, qword [rsp + 112]
+	QUAD $0x02366c203a0f4166; BYTE $0x0b       // pinsrb    xmm5, byte [r14 + rsi + 2], 11
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x020e6c203a0f4166; BYTE $0x0c       // pinsrb    xmm5, byte [r14 + rcx + 2], 12
+	QUAD $0x02166c203a0f4166; BYTE $0x0d       // pinsrb    xmm5, byte [r14 + rdx + 2], 13
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x02166c203a0f4166; BYTE $0x0e       // pinsrb    xmm5, byte [r14 + rdx + 2], 14
+	QUAD $0x02066c203a0f4366; BYTE $0x0f       // pinsrb    xmm5, byte [r14 + r8 + 2], 15
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x03167c203a0f4166; BYTE $0x01       // pinsrb    xmm7, byte [r14 + rdx + 3], 1
+	QUAD $0x032e7c203a0f4366; BYTE $0x02       // pinsrb    xmm7, byte [r14 + r13 + 3], 2
+	QUAD $0x033e7c203a0f4366; BYTE $0x03       // pinsrb    xmm7, byte [r14 + r15 + 3], 3
+	QUAD $0x031e7c203a0f4166; BYTE $0x04       // pinsrb    xmm7, byte [r14 + rbx + 3], 4
+	QUAD $0x030e7c203a0f4366; BYTE $0x05       // pinsrb    xmm7, byte [r14 + r9 + 3], 5
+	QUAD $0x031e7c203a0f4366; BYTE $0x06       // pinsrb    xmm7, byte [r14 + r11 + 3], 6
+	QUAD $0x03167c203a0f4366; BYTE $0x07       // pinsrb    xmm7, byte [r14 + r10 + 3], 7
+	QUAD $0x03067c203a0f4166; BYTE $0x08       // pinsrb    xmm7, byte [r14 + rax + 3], 8
+	QUAD $0x033e7c203a0f4166; BYTE $0x09       // pinsrb    xmm7, byte [r14 + rdi + 3], 9
+	QUAD $0x03267c203a0f4366; BYTE $0x0a       // pinsrb    xmm7, byte [r14 + r12 + 3], 10
+	QUAD $0x03367c203a0f4166; BYTE $0x0b       // pinsrb    xmm7, byte [r14 + rsi + 3], 11
+	QUAD $0x030e7c203a0f4166; BYTE $0x0c       // pinsrb    xmm7, byte [r14 + rcx + 3], 12
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x03167c203a0f4166; BYTE $0x0d       // pinsrb    xmm7, byte [r14 + rdx + 3], 13
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x03167c203a0f4166; BYTE $0x0e       // pinsrb    xmm7, byte [r14 + rdx + 3], 14
+	QUAD $0x03067c203a0f4366; BYTE $0x0f       // pinsrb    xmm7, byte [r14 + r8 + 3], 15
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x04164c203a0f4566; BYTE $0x01       // pinsrb    xmm9, byte [r14 + rdx + 4], 1
+	QUAD $0x042e4c203a0f4766; BYTE $0x02       // pinsrb    xmm9, byte [r14 + r13 + 4], 2
+	QUAD $0x043e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 4], 3
+	QUAD $0x041e4c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rbx + 4], 4
+	QUAD $0x040e4c203a0f4766; BYTE $0x05       // pinsrb    xmm9, byte [r14 + r9 + 4], 5
+	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
+	LONG $0x244c894c; BYTE $0x38               // mov    qword [rsp + 56], r9
+	QUAD $0x041e4c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r11 + 4], 6
+	QUAD $0x04164c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r10 + 4], 7
+	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
+	QUAD $0x04064c203a0f4566; BYTE $0x08       // pinsrb    xmm9, byte [r14 + rax + 4], 8
+	QUAD $0x043e4c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rdi + 4], 9
+	QUAD $0x04264c203a0f4766; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + r12 + 4], 10
+	QUAD $0x04364c203a0f4566; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + rsi + 4], 11
+	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
+	QUAD $0x040e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rcx + 4], 12
+	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
+	QUAD $0x04264c203a0f4766; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + r12 + 4], 13
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x04164c203a0f4566; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + rdx + 4], 14
+	QUAD $0x04064c203a0f4766; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + r8 + 4], 15
+	LONG $0xe9740f66                           // pcmpeqb    xmm5, xmm1
+	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI5_17] */
+	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
+	LONG $0xf9740f66                           // pcmpeqb    xmm7, xmm1
+	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI5_18] */
+	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	LONG $0x74b60f41; WORD $0x1116             // movzx    esi, byte [r14 + rdx + 17]
+	LONG $0xe66e0f66                           // movd    xmm4, esi
+	LONG $0x740f4466; BYTE $0xc9               // pcmpeqb    xmm9, xmm1
+	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI5_19] */
+	LONG $0xdf0f4466; BYTE $0xc8               // pandn    xmm9, xmm0
+	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
+	LONG $0x74b60f41; WORD $0x1216             // movzx    esi, byte [r14 + rdx + 18]
+	LONG $0xfe6e0f66                           // movd    xmm7, esi
+	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
+	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
+	LONG $0xeb0f4466; BYTE $0xcb               // por    xmm9, xmm3
+	LONG $0x74b60f41; WORD $0x1316             // movzx    esi, byte [r14 + rdx + 19]
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x051654203a0f4166; BYTE $0x01       // pinsrb    xmm2, byte [r14 + rdx + 5], 1
+	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
+	QUAD $0x051e54203a0f4366; BYTE $0x02       // pinsrb    xmm2, byte [r14 + r11 + 5], 2
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x052e54203a0f4366; BYTE $0x03       // pinsrb    xmm2, byte [r14 + r13 + 5], 3
+	QUAD $0x051e54203a0f4166; BYTE $0x04       // pinsrb    xmm2, byte [r14 + rbx + 5], 4
+	QUAD $0x053e54203a0f4366; BYTE $0x05       // pinsrb    xmm2, byte [r14 + r15 + 5], 5
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x051654203a0f4366; BYTE $0x06       // pinsrb    xmm2, byte [r14 + r10 + 5], 6
+	QUAD $0x050e54203a0f4366; BYTE $0x07       // pinsrb    xmm2, byte [r14 + r9 + 5], 7
+	QUAD $0x050654203a0f4166; BYTE $0x08       // pinsrb    xmm2, byte [r14 + rax + 5], 8
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x053654203a0f4166; BYTE $0x09       // pinsrb    xmm2, byte [r14 + rsi + 5], 9
+	QUAD $0x0000009024bc8b4c                   // mov    r15, qword [rsp + 144]
+	QUAD $0x053e54203a0f4366; BYTE $0x0a       // pinsrb    xmm2, byte [r14 + r15 + 5], 10
+	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
+	QUAD $0x053e54203a0f4166; BYTE $0x0b       // pinsrb    xmm2, byte [r14 + rdi + 5], 11
+	QUAD $0x050e54203a0f4166; BYTE $0x0c       // pinsrb    xmm2, byte [r14 + rcx + 5], 12
+	QUAD $0x052654203a0f4366; BYTE $0x0d       // pinsrb    xmm2, byte [r14 + r12 + 5], 13
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x053e54203a0f4166; BYTE $0x0e       // pinsrb    xmm2, byte [r14 + rdi + 5], 14
+	LONG $0x2444894c; BYTE $0x48               // mov    qword [rsp + 72], r8
+	QUAD $0x050654203a0f4366; BYTE $0x0f       // pinsrb    xmm2, byte [r14 + r8 + 5], 15
+	QUAD $0x061644203a0f4566; BYTE $0x01       // pinsrb    xmm8, byte [r14 + rdx + 6], 1
+	QUAD $0x061e44203a0f4766; BYTE $0x02       // pinsrb    xmm8, byte [r14 + r11 + 6], 2
+	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
+	QUAD $0x062e44203a0f4766; BYTE $0x03       // pinsrb    xmm8, byte [r14 + r13 + 6], 3
+	QUAD $0x061e44203a0f4566; BYTE $0x04       // pinsrb    xmm8, byte [r14 + rbx + 6], 4
+	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
+	QUAD $0x062e44203a0f4766; BYTE $0x05       // pinsrb    xmm8, byte [r14 + r13 + 6], 5
+	QUAD $0x061644203a0f4766; BYTE $0x06       // pinsrb    xmm8, byte [r14 + r10 + 6], 6
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x061e44203a0f4566; BYTE $0x07       // pinsrb    xmm8, byte [r14 + rbx + 6], 7
+	QUAD $0x060644203a0f4566; BYTE $0x08       // pinsrb    xmm8, byte [r14 + rax + 6], 8
+	QUAD $0x063644203a0f4566; BYTE $0x09       // pinsrb    xmm8, byte [r14 + rsi + 6], 9
+	QUAD $0x063e44203a0f4766; BYTE $0x0a       // pinsrb    xmm8, byte [r14 + r15 + 6], 10
+	QUAD $0x060e44203a0f4766; BYTE $0x0b       // pinsrb    xmm8, byte [r14 + r9 + 6], 11
+	QUAD $0x060e44203a0f4566; BYTE $0x0c       // pinsrb    xmm8, byte [r14 + rcx + 6], 12
+	QUAD $0x062644203a0f4766; BYTE $0x0d       // pinsrb    xmm8, byte [r14 + r12 + 6], 13
+	QUAD $0x063e44203a0f4566; BYTE $0x0e       // pinsrb    xmm8, byte [r14 + rdi + 6], 14
+	QUAD $0x060644203a0f4766; BYTE $0x0f       // pinsrb    xmm8, byte [r14 + r8 + 6], 15
+	QUAD $0x071674203a0f4566; BYTE $0x01       // pinsrb    xmm14, byte [r14 + rdx + 7], 1
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x071e74203a0f4566; BYTE $0x02       // pinsrb    xmm14, byte [r14 + rbx + 7], 2
+	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
+	QUAD $0x071e74203a0f4766; BYTE $0x03       // pinsrb    xmm14, byte [r14 + r11 + 7], 3
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x071674203a0f4566; BYTE $0x04       // pinsrb    xmm14, byte [r14 + rdx + 7], 4
+	QUAD $0x072e74203a0f4766; BYTE $0x05       // pinsrb    xmm14, byte [r14 + r13 + 7], 5
+	QUAD $0x0000008824948b48                   // mov    rdx, qword [rsp + 136]
+	QUAD $0x071674203a0f4566; BYTE $0x06       // pinsrb    xmm14, byte [r14 + rdx + 7], 6
+	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
+	QUAD $0x070e74203a0f4766; BYTE $0x07       // pinsrb    xmm14, byte [r14 + r9 + 7], 7
+	QUAD $0x070674203a0f4566; BYTE $0x08       // pinsrb    xmm14, byte [r14 + rax + 7], 8
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	QUAD $0x073674203a0f4566; BYTE $0x09       // pinsrb    xmm14, byte [r14 + rsi + 7], 9
+	QUAD $0x073e74203a0f4766; BYTE $0x0a       // pinsrb    xmm14, byte [r14 + r15 + 7], 10
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x071674203a0f4766; BYTE $0x0b       // pinsrb    xmm14, byte [r14 + r10 + 7], 11
+	QUAD $0x070e74203a0f4566; BYTE $0x0c       // pinsrb    xmm14, byte [r14 + rcx + 7], 12
+	QUAD $0x072674203a0f4766; BYTE $0x0d       // pinsrb    xmm14, byte [r14 + r12 + 7], 13
+	QUAD $0x073e74203a0f4566; BYTE $0x0e       // pinsrb    xmm14, byte [r14 + rdi + 7], 14
+	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
+	QUAD $0x00b024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 176]
+	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
+	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI5_20] */
+	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
+	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
+	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI5_21] */
+	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
+	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	LONG $0x74b60f43; WORD $0x143e             // movzx    esi, byte [r14 + r15 + 20]
+	LONG $0xde6e0f66                           // movd    xmm3, esi
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x07064c203a0f4166; BYTE $0x0f       // pinsrb    xmm1, byte [r14 + rax + 7], 15
+	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
+	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI5_6] */
+	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
+	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
+	LONG $0x74b60f43; WORD $0x153e             // movzx    esi, byte [r14 + r15 + 21]
+	LONG $0xd66e0f66                           // movd    xmm2, esi
+	QUAD $0x00010024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 256]
+	LONG $0x245c8b4c; BYTE $0x10               // mov    r11, qword [rsp + 16]
+	QUAD $0x081e44203a0f4366; BYTE $0x01       // pinsrb    xmm0, byte [r14 + r11 + 8], 1
+	QUAD $0x081e44203a0f4166; BYTE $0x02       // pinsrb    xmm0, byte [r14 + rbx + 8], 2
+	QUAD $0x080644203a0f4366; BYTE $0x03       // pinsrb    xmm0, byte [r14 + r8 + 8], 3
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x080e44203a0f4166; BYTE $0x04       // pinsrb    xmm0, byte [r14 + rcx + 8], 4
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x083644203a0f4166; BYTE $0x05       // pinsrb    xmm0, byte [r14 + rsi + 8], 5
+	QUAD $0x081644203a0f4166; BYTE $0x06       // pinsrb    xmm0, byte [r14 + rdx + 8], 6
+	QUAD $0x080e44203a0f4366; BYTE $0x07       // pinsrb    xmm0, byte [r14 + r9 + 8], 7
+	QUAD $0x082e44203a0f4366; BYTE $0x08       // pinsrb    xmm0, byte [r14 + r13 + 8], 8
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x083644203a0f4166; BYTE $0x09       // pinsrb    xmm0, byte [r14 + rsi + 8], 9
+	QUAD $0x0000009024a48b4c                   // mov    r12, qword [rsp + 144]
+	QUAD $0x082644203a0f4366; BYTE $0x0a       // pinsrb    xmm0, byte [r14 + r12 + 8], 10
+	QUAD $0x081644203a0f4366; BYTE $0x0b       // pinsrb    xmm0, byte [r14 + r10 + 8], 11
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x083644203a0f4166; BYTE $0x0c       // pinsrb    xmm0, byte [r14 + rsi + 8], 12
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x081e44203a0f4166; BYTE $0x0d       // pinsrb    xmm0, byte [r14 + rbx + 8], 13
+	QUAD $0x083e44203a0f4166; BYTE $0x0e       // pinsrb    xmm0, byte [r14 + rdi + 8], 14
+	QUAD $0x080644203a0f4166; BYTE $0x0f       // pinsrb    xmm0, byte [r14 + rax + 8], 15
+	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
+	QUAD $0x000100248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm1
+	LONG $0x74b60f43; WORD $0x163e             // movzx    esi, byte [r14 + r15 + 22]
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
+	QUAD $0x091e5c203a0f4766; BYTE $0x01       // pinsrb    xmm11, byte [r14 + r11 + 9], 1
+	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x09165c203a0f4766; BYTE $0x02       // pinsrb    xmm11, byte [r14 + r10 + 9], 2
+	QUAD $0x09065c203a0f4766; BYTE $0x03       // pinsrb    xmm11, byte [r14 + r8 + 9], 3
+	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
+	QUAD $0x090e5c203a0f4566; BYTE $0x04       // pinsrb    xmm11, byte [r14 + rcx + 9], 4
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	QUAD $0x090e5c203a0f4766; BYTE $0x05       // pinsrb    xmm11, byte [r14 + r9 + 9], 5
+	QUAD $0x09165c203a0f4566; BYTE $0x06       // pinsrb    xmm11, byte [r14 + rdx + 9], 6
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x091e5c203a0f4766; BYTE $0x07       // pinsrb    xmm11, byte [r14 + r11 + 9], 7
+	QUAD $0x0000009824b48b48                   // mov    rsi, qword [rsp + 152]
+	QUAD $0x09365c203a0f4566; BYTE $0x08       // pinsrb    xmm11, byte [r14 + rsi + 9], 8
+	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
+	QUAD $0x09065c203a0f4766; BYTE $0x09       // pinsrb    xmm11, byte [r14 + r8 + 9], 9
+	QUAD $0x09265c203a0f4766; BYTE $0x0a       // pinsrb    xmm11, byte [r14 + r12 + 9], 10
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x09165c203a0f4566; BYTE $0x0b       // pinsrb    xmm11, byte [r14 + rdx + 9], 11
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x093e5c203a0f4566; BYTE $0x0c       // pinsrb    xmm11, byte [r14 + rdi + 9], 12
+	QUAD $0x091e5c203a0f4566; BYTE $0x0d       // pinsrb    xmm11, byte [r14 + rbx + 9], 13
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x09065c203a0f4566; BYTE $0x0e       // pinsrb    xmm11, byte [r14 + rax + 9], 14
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x090e5c203a0f4566; BYTE $0x0f       // pinsrb    xmm11, byte [r14 + rcx + 9], 15
+	QUAD $0x0a3e64203a0f4766; BYTE $0x01       // pinsrb    xmm12, byte [r14 + r15 + 10], 1
+	QUAD $0x0a1664203a0f4766; BYTE $0x02       // pinsrb    xmm12, byte [r14 + r10 + 10], 2
+	QUAD $0x0a2e64203a0f4766; BYTE $0x03       // pinsrb    xmm12, byte [r14 + r13 + 10], 3
+	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
+	QUAD $0x0a1664203a0f4766; BYTE $0x04       // pinsrb    xmm12, byte [r14 + r10 + 10], 4
+	QUAD $0x0a0e64203a0f4766; BYTE $0x05       // pinsrb    xmm12, byte [r14 + r9 + 10], 5
+	QUAD $0x00000088248c8b4c                   // mov    r9, qword [rsp + 136]
+	QUAD $0x0a0e64203a0f4766; BYTE $0x06       // pinsrb    xmm12, byte [r14 + r9 + 10], 6
+	QUAD $0x0a1e64203a0f4766; BYTE $0x07       // pinsrb    xmm12, byte [r14 + r11 + 10], 7
+	QUAD $0x0a3664203a0f4566; BYTE $0x08       // pinsrb    xmm12, byte [r14 + rsi + 10], 8
+	QUAD $0x0a0664203a0f4766; BYTE $0x09       // pinsrb    xmm12, byte [r14 + r8 + 10], 9
+	QUAD $0x0a2664203a0f4766; BYTE $0x0a       // pinsrb    xmm12, byte [r14 + r12 + 10], 10
+	QUAD $0x0a1664203a0f4566; BYTE $0x0b       // pinsrb    xmm12, byte [r14 + rdx + 10], 11
+	QUAD $0x0a3e64203a0f4566; BYTE $0x0c       // pinsrb    xmm12, byte [r14 + rdi + 10], 12
+	QUAD $0x0a1e64203a0f4566; BYTE $0x0d       // pinsrb    xmm12, byte [r14 + rbx + 10], 13
+	QUAD $0x0a0664203a0f4566; BYTE $0x0e       // pinsrb    xmm12, byte [r14 + rax + 10], 14
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	QUAD $0x0a0e64203a0f4566; BYTE $0x0f       // pinsrb    xmm12, byte [r14 + rcx + 10], 15
+	QUAD $0x0b3e6c203a0f4766; BYTE $0x01       // pinsrb    xmm13, byte [r14 + r15 + 11], 1
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0b2e6c203a0f4766; BYTE $0x02       // pinsrb    xmm13, byte [r14 + r13 + 11], 2
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b066c203a0f4566; BYTE $0x03       // pinsrb    xmm13, byte [r14 + rax + 11], 3
+	QUAD $0x0b166c203a0f4766; BYTE $0x04       // pinsrb    xmm13, byte [r14 + r10 + 11], 4
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0b066c203a0f4566; BYTE $0x05       // pinsrb    xmm13, byte [r14 + rax + 11], 5
+	QUAD $0x0b0e6c203a0f4766; BYTE $0x06       // pinsrb    xmm13, byte [r14 + r9 + 11], 6
+	QUAD $0x0b1e6c203a0f4766; BYTE $0x07       // pinsrb    xmm13, byte [r14 + r11 + 11], 7
+	QUAD $0x0b366c203a0f4566; BYTE $0x08       // pinsrb    xmm13, byte [r14 + rsi + 11], 8
+	QUAD $0x0b066c203a0f4766; BYTE $0x09       // pinsrb    xmm13, byte [r14 + r8 + 11], 9
+	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
+	QUAD $0x0b266c203a0f4766; BYTE $0x0a       // pinsrb    xmm13, byte [r14 + r12 + 11], 10
+	QUAD $0x0b166c203a0f4566; BYTE $0x0b       // pinsrb    xmm13, byte [r14 + rdx + 11], 11
+	QUAD $0x0b3e6c203a0f4566; BYTE $0x0c       // pinsrb    xmm13, byte [r14 + rdi + 11], 12
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0b366c203a0f4566; BYTE $0x0d       // pinsrb    xmm13, byte [r14 + rsi + 11], 13
+	QUAD $0x0b1e6c203a0f4566; BYTE $0x0e       // pinsrb    xmm13, byte [r14 + rbx + 11], 14
+	QUAD $0x0b0e6c203a0f4566; BYTE $0x0f       // pinsrb    xmm13, byte [r14 + rcx + 11], 15
+	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
+	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI5_16] */
+	LONG $0xfc0f4466; BYTE $0xd8               // paddb    xmm11, xmm0
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	LONG $0x74b60f41; WORD $0x170e             // movzx    esi, byte [r14 + rcx + 23]
+	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
+	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
+	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI5_17] */
+	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
+	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI5_18] */
+	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
+	LONG $0x74b60f41; WORD $0x180e             // movzx    esi, byte [r14 + rcx + 24]
+	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
+	QUAD $0x00e0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 224]
+	QUAD $0x0c3e4c203a0f4766; BYTE $0x01       // pinsrb    xmm9, byte [r14 + r15 + 12], 1
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0c2e4c203a0f4766; BYTE $0x02       // pinsrb    xmm9, byte [r14 + r13 + 12], 2
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x0c3e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 12], 3
+	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
+	QUAD $0x0c1e4c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rbx + 12], 4
+	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
+	QUAD $0x0c164c203a0f4766; BYTE $0x05       // pinsrb    xmm9, byte [r14 + r10 + 12], 5
+	QUAD $0x0c0e4c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r9 + 12], 6
+	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
+	QUAD $0x0c1e4c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r11 + 12], 7
+	QUAD $0x00000098249c8b4c                   // mov    r11, qword [rsp + 152]
+	QUAD $0x0c1e4c203a0f4766; BYTE $0x08       // pinsrb    xmm9, byte [r14 + r11 + 12], 8
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	QUAD $0x0c064c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rax + 12], 9
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x0c0e4c203a0f4566; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + rcx + 12], 10
+	QUAD $0x0c164c203a0f4566; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + rdx + 12], 11
+	QUAD $0x0c3e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rdi + 12], 12
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0c364c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rsi + 12], 13
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0c064c203a0f4566; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + rax + 12], 14
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0c064c203a0f4566; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + rax + 12], 15
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0d0674203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rax + 13], 1
+	QUAD $0x0d2e74203a0f4366; BYTE $0x02       // pinsrb    xmm6, byte [r14 + r13 + 13], 2
+	QUAD $0x0d3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 13], 3
+	QUAD $0x0d1e74203a0f4166; BYTE $0x04       // pinsrb    xmm6, byte [r14 + rbx + 13], 4
+	QUAD $0x0d1674203a0f4366; BYTE $0x05       // pinsrb    xmm6, byte [r14 + r10 + 13], 5
+	QUAD $0x0d0e74203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r9 + 13], 6
+	QUAD $0x0d0674203a0f4366; BYTE $0x07       // pinsrb    xmm6, byte [r14 + r8 + 13], 7
+	QUAD $0x0d1e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r11 + 13], 8
+	QUAD $0x0d2674203a0f4366; BYTE $0x09       // pinsrb    xmm6, byte [r14 + r12 + 13], 9
+	QUAD $0x0d0e74203a0f4166; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + rcx + 13], 10
+	QUAD $0x0d1674203a0f4166; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + rdx + 13], 11
+	QUAD $0x0d3e74203a0f4166; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + rdi + 13], 12
+	QUAD $0x0d3674203a0f4166; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + rsi + 13], 13
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0d0674203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rax + 13], 14
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0d0674203a0f4166; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + rax + 13], 15
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e067c203a0f4566; BYTE $0x01       // pinsrb    xmm15, byte [r14 + rax + 14], 1
+	QUAD $0x0e2e7c203a0f4766; BYTE $0x02       // pinsrb    xmm15, byte [r14 + r13 + 14], 2
+	QUAD $0x0e3e7c203a0f4766; BYTE $0x03       // pinsrb    xmm15, byte [r14 + r15 + 14], 3
+	QUAD $0x0e1e7c203a0f4566; BYTE $0x04       // pinsrb    xmm15, byte [r14 + rbx + 14], 4
+	QUAD $0x0e167c203a0f4766; BYTE $0x05       // pinsrb    xmm15, byte [r14 + r10 + 14], 5
+	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
+	QUAD $0x0e0e7c203a0f4766; BYTE $0x06       // pinsrb    xmm15, byte [r14 + r9 + 14], 6
+	QUAD $0x0e067c203a0f4766; BYTE $0x07       // pinsrb    xmm15, byte [r14 + r8 + 14], 7
+	QUAD $0x0e1e7c203a0f4766; BYTE $0x08       // pinsrb    xmm15, byte [r14 + r11 + 14], 8
+	QUAD $0x0e267c203a0f4766; BYTE $0x09       // pinsrb    xmm15, byte [r14 + r12 + 14], 9
+	QUAD $0x0e0e7c203a0f4566; BYTE $0x0a       // pinsrb    xmm15, byte [r14 + rcx + 14], 10
+	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
+	QUAD $0x0e167c203a0f4566; BYTE $0x0b       // pinsrb    xmm15, byte [r14 + rdx + 14], 11
+	WORD $0x8949; BYTE $0xd2                   // mov    r10, rdx
+	QUAD $0x0e3e7c203a0f4566; BYTE $0x0c       // pinsrb    xmm15, byte [r14 + rdi + 14], 12
+	QUAD $0x0e367c203a0f4566; BYTE $0x0d       // pinsrb    xmm15, byte [r14 + rsi + 14], 13
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0e067c203a0f4566; BYTE $0x0e       // pinsrb    xmm15, byte [r14 + rax + 14], 14
+	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
+	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI5_19] */
+	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	LONG $0x74b60f41; WORD $0x1906             // movzx    esi, byte [r14 + rax + 25]
+	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
+	QUAD $0x0001609df80f4466; BYTE $0x00       // psubb    xmm11, oword 352[rbp] /* [rip + .LCPI5_22] */
+	LONG $0xeb0f4566; BYTE $0xcb               // por    xmm9, xmm11
+	LONG $0x74b60f41; WORD $0x1a06             // movzx    esi, byte [r14 + rax + 26]
+	LONG $0xc66e0f66                           // movd    xmm0, esi
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x0e0e7c203a0f4566; BYTE $0x0f       // pinsrb    xmm15, byte [r14 + rcx + 14], 15
+	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
+	QUAD $0x00000140b5df0f66                   // pandn    xmm6, oword 320[rbp] /* [rip + .LCPI5_20] */
+	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
+	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI5_21] */
+	LONG $0xeb0f4466; BYTE $0xfe               // por    xmm15, xmm6
+	LONG $0x74b60f41; WORD $0x1b06             // movzx    esi, byte [r14 + rax + 27]
+	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
+	QUAD $0x0000c024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 192]
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0f3e74203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rdi + 15], 1
+	WORD $0x894c; BYTE $0xea                   // mov    rdx, r13
+	QUAD $0x0f2e74203a0f4366; BYTE $0x02       // pinsrb    xmm6, byte [r14 + r13 + 15], 2
+	QUAD $0x0f3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 15], 3
+	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
+	QUAD $0x0f0e74203a0f4366; BYTE $0x04       // pinsrb    xmm6, byte [r14 + r9 + 15], 4
+	QUAD $0x0f1e74203a0f4166; BYTE $0x05       // pinsrb    xmm6, byte [r14 + rbx + 15], 5
+	QUAD $0x00000088249c8b48                   // mov    rbx, qword [rsp + 136]
+	QUAD $0x0f1e74203a0f4166; BYTE $0x06       // pinsrb    xmm6, byte [r14 + rbx + 15], 6
+	QUAD $0x0f0674203a0f4366; BYTE $0x07       // pinsrb    xmm6, byte [r14 + r8 + 15], 7
+	QUAD $0x0f1e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r11 + 15], 8
+	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
+	QUAD $0x0f0674203a0f4366; BYTE $0x09       // pinsrb    xmm6, byte [r14 + r8 + 15], 9
+	QUAD $0x0f2674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r12 + 15], 10
+	QUAD $0x0f1674203a0f4366; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + r10 + 15], 11
+	WORD $0x894d; BYTE $0xd7                   // mov    r15, r10
+	LONG $0x24548b4c; BYTE $0x78               // mov    r10, qword [rsp + 120]
+	QUAD $0x0f1674203a0f4366; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + r10 + 15], 12
+	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
+	QUAD $0x0f2e74203a0f4366; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + r13 + 15], 13
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x0f3674203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rsi + 15], 14
+	QUAD $0x0f0e74203a0f4166; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + rcx + 15], 15
+	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
+	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI5_6] */
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x74b60f41; WORD $0x1c06             // movzx    esi, byte [r14 + rax + 28]
+	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
+	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
+	QUAD $0x0000c024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm6
+	LONG $0x74b60f41; WORD $0x1d06             // movzx    esi, byte [r14 + rax + 29]
+	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
+	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
+	QUAD $0x103e54203a0f4566; BYTE $0x01       // pinsrb    xmm10, byte [r14 + rdi + 16], 1
+	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
+	QUAD $0x101654203a0f4566; BYTE $0x02       // pinsrb    xmm10, byte [r14 + rdx + 16], 2
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x101654203a0f4566; BYTE $0x03       // pinsrb    xmm10, byte [r14 + rdx + 16], 3
+	QUAD $0x100e54203a0f4766; BYTE $0x04       // pinsrb    xmm10, byte [r14 + r9 + 16], 4
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x103e54203a0f4566; BYTE $0x05       // pinsrb    xmm10, byte [r14 + rdi + 16], 5
+	QUAD $0x101e54203a0f4566; BYTE $0x06       // pinsrb    xmm10, byte [r14 + rbx + 16], 6
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x101e54203a0f4566; BYTE $0x07       // pinsrb    xmm10, byte [r14 + rbx + 16], 7
+	QUAD $0x101e54203a0f4766; BYTE $0x08       // pinsrb    xmm10, byte [r14 + r11 + 16], 8
+	QUAD $0x100654203a0f4766; BYTE $0x09       // pinsrb    xmm10, byte [r14 + r8 + 16], 9
+	QUAD $0x102654203a0f4766; BYTE $0x0a       // pinsrb    xmm10, byte [r14 + r12 + 16], 10
+	QUAD $0x103e54203a0f4766; BYTE $0x0b       // pinsrb    xmm10, byte [r14 + r15 + 16], 11
+	QUAD $0x101654203a0f4766; BYTE $0x0c       // pinsrb    xmm10, byte [r14 + r10 + 16], 12
+	QUAD $0x102e54203a0f4766; BYTE $0x0d       // pinsrb    xmm10, byte [r14 + r13 + 16], 13
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x100e54203a0f4566; BYTE $0x0e       // pinsrb    xmm10, byte [r14 + rcx + 16], 14
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x102e54203a0f4766; BYTE $0x0f       // pinsrb    xmm10, byte [r14 + r13 + 16], 15
+	QUAD $0x113664203a0f4166; BYTE $0x01       // pinsrb    xmm4, byte [r14 + rsi + 17], 1
+	QUAD $0x110664203a0f4166; BYTE $0x02       // pinsrb    xmm4, byte [r14 + rax + 17], 2
+	QUAD $0x111664203a0f4166; BYTE $0x03       // pinsrb    xmm4, byte [r14 + rdx + 17], 3
+	QUAD $0x110e64203a0f4366; BYTE $0x04       // pinsrb    xmm4, byte [r14 + r9 + 17], 4
+	QUAD $0x113e64203a0f4166; BYTE $0x05       // pinsrb    xmm4, byte [r14 + rdi + 17], 5
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x111664203a0f4366; BYTE $0x06       // pinsrb    xmm4, byte [r14 + r10 + 17], 6
+	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
+	QUAD $0x111e64203a0f4166; BYTE $0x07       // pinsrb    xmm4, byte [r14 + rbx + 17], 7
+	QUAD $0x111e64203a0f4366; BYTE $0x08       // pinsrb    xmm4, byte [r14 + r11 + 17], 8
+	QUAD $0x110664203a0f4366; BYTE $0x09       // pinsrb    xmm4, byte [r14 + r8 + 17], 9
+	QUAD $0x112664203a0f4366; BYTE $0x0a       // pinsrb    xmm4, byte [r14 + r12 + 17], 10
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	QUAD $0x113e64203a0f4366; BYTE $0x0b       // pinsrb    xmm4, byte [r14 + r15 + 17], 11
+	LONG $0x247c8b48; BYTE $0x78               // mov    rdi, qword [rsp + 120]
+	QUAD $0x113e64203a0f4166; BYTE $0x0c       // pinsrb    xmm4, byte [r14 + rdi + 17], 12
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x111664203a0f4166; BYTE $0x0d       // pinsrb    xmm4, byte [r14 + rdx + 17], 13
+	QUAD $0x110e64203a0f4166; BYTE $0x0e       // pinsrb    xmm4, byte [r14 + rcx + 17], 14
+	QUAD $0x112e64203a0f4366; BYTE $0x0f       // pinsrb    xmm4, byte [r14 + r13 + 17], 15
+	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
+	LONG $0x740f4166; BYTE $0xe6               // pcmpeqb    xmm4, xmm14
+	QUAD $0x00000100b56f0f66                   // movdqa    xmm6, oword 256[rbp] /* [rip + .LCPI5_16] */
+	LONG $0xe6df0f66                           // pandn    xmm4, xmm6
+	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	LONG $0x74b60f41; WORD $0x1e06             // movzx    esi, byte [r14 + rax + 30]
+	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x12367c203a0f4166; BYTE $0x01       // pinsrb    xmm7, byte [r14 + rsi + 18], 1
+	QUAD $0x13366c203a0f4166; BYTE $0x01       // pinsrb    xmm5, byte [r14 + rsi + 19], 1
+	QUAD $0x14365c203a0f4166; BYTE $0x01       // pinsrb    xmm3, byte [r14 + rsi + 20], 1
+	QUAD $0x153654203a0f4166; BYTE $0x01       // pinsrb    xmm2, byte [r14 + rsi + 21], 1
+	QUAD $0x16364c203a0f4166; BYTE $0x01       // pinsrb    xmm1, byte [r14 + rsi + 22], 1
+	QUAD $0x173644203a0f4566; BYTE $0x01       // pinsrb    xmm8, byte [r14 + rsi + 23], 1
+	QUAD $0x183664203a0f4566; BYTE $0x01       // pinsrb    xmm12, byte [r14 + rsi + 24], 1
+	QUAD $0x19366c203a0f4566; BYTE $0x01       // pinsrb    xmm13, byte [r14 + rsi + 25], 1
+	QUAD $0x1a3644203a0f4166; BYTE $0x01       // pinsrb    xmm0, byte [r14 + rsi + 26], 1
+	QUAD $0x1b365c203a0f4566; BYTE $0x01       // pinsrb    xmm11, byte [r14 + rsi + 27], 1
+	QUAD $0x1c367c203a0f4566; BYTE $0x01       // pinsrb    xmm15, byte [r14 + rsi + 28], 1
+	QUAD $0x1d364c203a0f4566; BYTE $0x01       // pinsrb    xmm9, byte [r14 + rsi + 29], 1
+	QUAD $0x1e3654203a0f4566; BYTE $0x01       // pinsrb    xmm10, byte [r14 + rsi + 30], 1
+	LONG $0x44b60f41; WORD $0x1f06             // movzx    eax, byte [r14 + rax + 31]
+	LONG $0xf06e0f66                           // movd    xmm6, eax
+	QUAD $0x1f3674203a0f4166; BYTE $0x01       // pinsrb    xmm6, byte [r14 + rsi + 31], 1
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x12067c203a0f4166; BYTE $0x02       // pinsrb    xmm7, byte [r14 + rax + 18], 2
+	QUAD $0x13066c203a0f4166; BYTE $0x02       // pinsrb    xmm5, byte [r14 + rax + 19], 2
+	QUAD $0x14065c203a0f4166; BYTE $0x02       // pinsrb    xmm3, byte [r14 + rax + 20], 2
+	QUAD $0x150654203a0f4166; BYTE $0x02       // pinsrb    xmm2, byte [r14 + rax + 21], 2
+	QUAD $0x16064c203a0f4166; BYTE $0x02       // pinsrb    xmm1, byte [r14 + rax + 22], 2
+	QUAD $0x170644203a0f4566; BYTE $0x02       // pinsrb    xmm8, byte [r14 + rax + 23], 2
+	QUAD $0x180664203a0f4566; BYTE $0x02       // pinsrb    xmm12, byte [r14 + rax + 24], 2
+	QUAD $0x19066c203a0f4566; BYTE $0x02       // pinsrb    xmm13, byte [r14 + rax + 25], 2
+	QUAD $0x1a0644203a0f4166; BYTE $0x02       // pinsrb    xmm0, byte [r14 + rax + 26], 2
+	QUAD $0x1b065c203a0f4566; BYTE $0x02       // pinsrb    xmm11, byte [r14 + rax + 27], 2
+	QUAD $0x1c067c203a0f4566; BYTE $0x02       // pinsrb    xmm15, byte [r14 + rax + 28], 2
+	QUAD $0x1d064c203a0f4566; BYTE $0x02       // pinsrb    xmm9, byte [r14 + rax + 29], 2
+	QUAD $0x1e0654203a0f4566; BYTE $0x02       // pinsrb    xmm10, byte [r14 + rax + 30], 2
+	QUAD $0x1f0674203a0f4166; BYTE $0x02       // pinsrb    xmm6, byte [r14 + rax + 31], 2
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x123e7c203a0f4366; BYTE $0x03       // pinsrb    xmm7, byte [r14 + r15 + 18], 3
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x12067c203a0f4166; BYTE $0x04       // pinsrb    xmm7, byte [r14 + rax + 18], 4
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x121e7c203a0f4166; BYTE $0x05       // pinsrb    xmm7, byte [r14 + rbx + 18], 5
+	QUAD $0x12167c203a0f4366; BYTE $0x06       // pinsrb    xmm7, byte [r14 + r10 + 18], 6
+	QUAD $0x120e7c203a0f4366; BYTE $0x07       // pinsrb    xmm7, byte [r14 + r9 + 18], 7
+	QUAD $0x121e7c203a0f4366; BYTE $0x08       // pinsrb    xmm7, byte [r14 + r11 + 18], 8
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x12367c203a0f4166; BYTE $0x09       // pinsrb    xmm7, byte [r14 + rsi + 18], 9
+	QUAD $0x12267c203a0f4366; BYTE $0x0a       // pinsrb    xmm7, byte [r14 + r12 + 18], 10
+	QUAD $0x12067c203a0f4366; BYTE $0x0b       // pinsrb    xmm7, byte [r14 + r8 + 18], 11
+	QUAD $0x123e7c203a0f4166; BYTE $0x0c       // pinsrb    xmm7, byte [r14 + rdi + 18], 12
+	QUAD $0x12167c203a0f4166; BYTE $0x0d       // pinsrb    xmm7, byte [r14 + rdx + 18], 13
+	QUAD $0x120e7c203a0f4166; BYTE $0x0e       // pinsrb    xmm7, byte [r14 + rcx + 18], 14
+	QUAD $0x122e7c203a0f4366; BYTE $0x0f       // pinsrb    xmm7, byte [r14 + r13 + 18], 15
+	QUAD $0x133e6c203a0f4366; BYTE $0x03       // pinsrb    xmm5, byte [r14 + r15 + 19], 3
+	QUAD $0x13066c203a0f4166; BYTE $0x04       // pinsrb    xmm5, byte [r14 + rax + 19], 4
+	QUAD $0x131e6c203a0f4166; BYTE $0x05       // pinsrb    xmm5, byte [r14 + rbx + 19], 5
+	QUAD $0x13166c203a0f4366; BYTE $0x06       // pinsrb    xmm5, byte [r14 + r10 + 19], 6
+	QUAD $0x130e6c203a0f4366; BYTE $0x07       // pinsrb    xmm5, byte [r14 + r9 + 19], 7
+	QUAD $0x131e6c203a0f4366; BYTE $0x08       // pinsrb    xmm5, byte [r14 + r11 + 19], 8
+	QUAD $0x13366c203a0f4166; BYTE $0x09       // pinsrb    xmm5, byte [r14 + rsi + 19], 9
+	QUAD $0x13266c203a0f4366; BYTE $0x0a       // pinsrb    xmm5, byte [r14 + r12 + 19], 10
+	QUAD $0x13066c203a0f4366; BYTE $0x0b       // pinsrb    xmm5, byte [r14 + r8 + 19], 11
+	QUAD $0x133e6c203a0f4166; BYTE $0x0c       // pinsrb    xmm5, byte [r14 + rdi + 19], 12
+	QUAD $0x13166c203a0f4166; BYTE $0x0d       // pinsrb    xmm5, byte [r14 + rdx + 19], 13
+	QUAD $0x130e6c203a0f4166; BYTE $0x0e       // pinsrb    xmm5, byte [r14 + rcx + 19], 14
+	QUAD $0x132e6c203a0f4366; BYTE $0x0f       // pinsrb    xmm5, byte [r14 + r13 + 19], 15
+	QUAD $0x143e5c203a0f4366; BYTE $0x03       // pinsrb    xmm3, byte [r14 + r15 + 20], 3
+	QUAD $0x14065c203a0f4166; BYTE $0x04       // pinsrb    xmm3, byte [r14 + rax + 20], 4
+	QUAD $0x141e5c203a0f4166; BYTE $0x05       // pinsrb    xmm3, byte [r14 + rbx + 20], 5
+	QUAD $0x14165c203a0f4366; BYTE $0x06       // pinsrb    xmm3, byte [r14 + r10 + 20], 6
+	QUAD $0x140e5c203a0f4366; BYTE $0x07       // pinsrb    xmm3, byte [r14 + r9 + 20], 7
+	QUAD $0x141e5c203a0f4366; BYTE $0x08       // pinsrb    xmm3, byte [r14 + r11 + 20], 8
+	QUAD $0x14365c203a0f4166; BYTE $0x09       // pinsrb    xmm3, byte [r14 + rsi + 20], 9
+	QUAD $0x14265c203a0f4366; BYTE $0x0a       // pinsrb    xmm3, byte [r14 + r12 + 20], 10
+	QUAD $0x14065c203a0f4366; BYTE $0x0b       // pinsrb    xmm3, byte [r14 + r8 + 20], 11
+	QUAD $0x143e5c203a0f4166; BYTE $0x0c       // pinsrb    xmm3, byte [r14 + rdi + 20], 12
+	QUAD $0x14165c203a0f4166; BYTE $0x0d       // pinsrb    xmm3, byte [r14 + rdx + 20], 13
+	QUAD $0x140e5c203a0f4166; BYTE $0x0e       // pinsrb    xmm3, byte [r14 + rcx + 20], 14
+	LONG $0x740f4166; BYTE $0xfe               // pcmpeqb    xmm7, xmm14
+	QUAD $0x000110b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 272[rbp] /* [rip + .LCPI5_17] */
+	LONG $0xdf0f4166; BYTE $0xfe               // pandn    xmm7, xmm14
+	QUAD $0x0000b024ac740f66; BYTE $0x00       // pcmpeqb    xmm5, oword [rsp + 176]
+	QUAD $0x000120b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 288[rbp] /* [rip + .LCPI5_18] */
+	LONG $0xdf0f4166; BYTE $0xee               // pandn    xmm5, xmm14
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	QUAD $0x142e5c203a0f4366; BYTE $0x0f       // pinsrb    xmm3, byte [r14 + r13 + 20], 15
+	QUAD $0x00b024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 176]
+	LONG $0x740f4166; BYTE $0xde               // pcmpeqb    xmm3, xmm14
+	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI5_19] */
+	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
+	LONG $0xdceb0f66                           // por    xmm3, xmm4
+	QUAD $0x153e54203a0f4366; BYTE $0x03       // pinsrb    xmm2, byte [r14 + r15 + 21], 3
+	QUAD $0x150654203a0f4166; BYTE $0x04       // pinsrb    xmm2, byte [r14 + rax + 21], 4
+	QUAD $0x151e54203a0f4166; BYTE $0x05       // pinsrb    xmm2, byte [r14 + rbx + 21], 5
+	QUAD $0x151654203a0f4366; BYTE $0x06       // pinsrb    xmm2, byte [r14 + r10 + 21], 6
+	QUAD $0x150e54203a0f4366; BYTE $0x07       // pinsrb    xmm2, byte [r14 + r9 + 21], 7
+	QUAD $0x151e54203a0f4366; BYTE $0x08       // pinsrb    xmm2, byte [r14 + r11 + 21], 8
+	QUAD $0x153654203a0f4166; BYTE $0x09       // pinsrb    xmm2, byte [r14 + rsi + 21], 9
+	QUAD $0x152654203a0f4366; BYTE $0x0a       // pinsrb    xmm2, byte [r14 + r12 + 21], 10
+	QUAD $0x150654203a0f4366; BYTE $0x0b       // pinsrb    xmm2, byte [r14 + r8 + 21], 11
+	QUAD $0x153e54203a0f4166; BYTE $0x0c       // pinsrb    xmm2, byte [r14 + rdi + 21], 12
+	QUAD $0x151654203a0f4166; BYTE $0x0d       // pinsrb    xmm2, byte [r14 + rdx + 21], 13
+	QUAD $0x150e54203a0f4166; BYTE $0x0e       // pinsrb    xmm2, byte [r14 + rcx + 21], 14
+	QUAD $0x152e54203a0f4366; BYTE $0x0f       // pinsrb    xmm2, byte [r14 + r13 + 21], 15
+	QUAD $0x163e4c203a0f4366; BYTE $0x03       // pinsrb    xmm1, byte [r14 + r15 + 22], 3
+	QUAD $0x16064c203a0f4166; BYTE $0x04       // pinsrb    xmm1, byte [r14 + rax + 22], 4
+	QUAD $0x161e4c203a0f4166; BYTE $0x05       // pinsrb    xmm1, byte [r14 + rbx + 22], 5
+	QUAD $0x16164c203a0f4366; BYTE $0x06       // pinsrb    xmm1, byte [r14 + r10 + 22], 6
+	QUAD $0x160e4c203a0f4366; BYTE $0x07       // pinsrb    xmm1, byte [r14 + r9 + 22], 7
+	QUAD $0x161e4c203a0f4366; BYTE $0x08       // pinsrb    xmm1, byte [r14 + r11 + 22], 8
+	QUAD $0x16364c203a0f4166; BYTE $0x09       // pinsrb    xmm1, byte [r14 + rsi + 22], 9
+	QUAD $0x16264c203a0f4366; BYTE $0x0a       // pinsrb    xmm1, byte [r14 + r12 + 22], 10
+	QUAD $0x16064c203a0f4366; BYTE $0x0b       // pinsrb    xmm1, byte [r14 + r8 + 22], 11
+	QUAD $0x163e4c203a0f4166; BYTE $0x0c       // pinsrb    xmm1, byte [r14 + rdi + 22], 12
+	QUAD $0x16164c203a0f4166; BYTE $0x0d       // pinsrb    xmm1, byte [r14 + rdx + 22], 13
+	QUAD $0x160e4c203a0f4166; BYTE $0x0e       // pinsrb    xmm1, byte [r14 + rcx + 22], 14
+	QUAD $0x162e4c203a0f4366; BYTE $0x0f       // pinsrb    xmm1, byte [r14 + r13 + 22], 15
+	QUAD $0x173e44203a0f4766; BYTE $0x03       // pinsrb    xmm8, byte [r14 + r15 + 23], 3
+	QUAD $0x170644203a0f4566; BYTE $0x04       // pinsrb    xmm8, byte [r14 + rax + 23], 4
+	QUAD $0x171e44203a0f4566; BYTE $0x05       // pinsrb    xmm8, byte [r14 + rbx + 23], 5
+	QUAD $0x171644203a0f4766; BYTE $0x06       // pinsrb    xmm8, byte [r14 + r10 + 23], 6
+	QUAD $0x170e44203a0f4766; BYTE $0x07       // pinsrb    xmm8, byte [r14 + r9 + 23], 7
+	QUAD $0x171e44203a0f4766; BYTE $0x08       // pinsrb    xmm8, byte [r14 + r11 + 23], 8
+	QUAD $0x173644203a0f4566; BYTE $0x09       // pinsrb    xmm8, byte [r14 + rsi + 23], 9
+	QUAD $0x172644203a0f4766; BYTE $0x0a       // pinsrb    xmm8, byte [r14 + r12 + 23], 10
+	QUAD $0x170644203a0f4766; BYTE $0x0b       // pinsrb    xmm8, byte [r14 + r8 + 23], 11
+	QUAD $0x173e44203a0f4566; BYTE $0x0c       // pinsrb    xmm8, byte [r14 + rdi + 23], 12
+	QUAD $0x171644203a0f4566; BYTE $0x0d       // pinsrb    xmm8, byte [r14 + rdx + 23], 13
+	QUAD $0x170e44203a0f4566; BYTE $0x0e       // pinsrb    xmm8, byte [r14 + rcx + 23], 14
+	LONG $0x740f4166; BYTE $0xd6               // pcmpeqb    xmm2, xmm14
+	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI5_20] */
+	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
+	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
+	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI5_21] */
+	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	QUAD $0x172e44203a0f4766; BYTE $0x0f       // pinsrb    xmm8, byte [r14 + r13 + 23], 15
+	LONG $0x740f4566; BYTE $0xc6               // pcmpeqb    xmm8, xmm14
+	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI5_6] */
+	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
+	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
+	QUAD $0x183e64203a0f4766; BYTE $0x03       // pinsrb    xmm12, byte [r14 + r15 + 24], 3
+	QUAD $0x180664203a0f4566; BYTE $0x04       // pinsrb    xmm12, byte [r14 + rax + 24], 4
+	QUAD $0x181e64203a0f4566; BYTE $0x05       // pinsrb    xmm12, byte [r14 + rbx + 24], 5
+	QUAD $0x181664203a0f4766; BYTE $0x06       // pinsrb    xmm12, byte [r14 + r10 + 24], 6
+	QUAD $0x180e64203a0f4766; BYTE $0x07       // pinsrb    xmm12, byte [r14 + r9 + 24], 7
+	QUAD $0x181e64203a0f4766; BYTE $0x08       // pinsrb    xmm12, byte [r14 + r11 + 24], 8
+	QUAD $0x183664203a0f4566; BYTE $0x09       // pinsrb    xmm12, byte [r14 + rsi + 24], 9
+	QUAD $0x182664203a0f4766; BYTE $0x0a       // pinsrb    xmm12, byte [r14 + r12 + 24], 10
+	QUAD $0x180664203a0f4766; BYTE $0x0b       // pinsrb    xmm12, byte [r14 + r8 + 24], 11
+	QUAD $0x183e64203a0f4566; BYTE $0x0c       // pinsrb    xmm12, byte [r14 + rdi + 24], 12
+	QUAD $0x181664203a0f4566; BYTE $0x0d       // pinsrb    xmm12, byte [r14 + rdx + 24], 13
+	QUAD $0x180e64203a0f4566; BYTE $0x0e       // pinsrb    xmm12, byte [r14 + rcx + 24], 14
+	QUAD $0x182e64203a0f4766; BYTE $0x0f       // pinsrb    xmm12, byte [r14 + r13 + 24], 15
+	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
+	LONG $0x740f4566; BYTE $0xe6               // pcmpeqb    xmm12, xmm14
+	QUAD $0x193e6c203a0f4766; BYTE $0x03       // pinsrb    xmm13, byte [r14 + r15 + 25], 3
+	QUAD $0x19066c203a0f4566; BYTE $0x04       // pinsrb    xmm13, byte [r14 + rax + 25], 4
+	QUAD $0x191e6c203a0f4566; BYTE $0x05       // pinsrb    xmm13, byte [r14 + rbx + 25], 5
+	QUAD $0x19166c203a0f4766; BYTE $0x06       // pinsrb    xmm13, byte [r14 + r10 + 25], 6
+	QUAD $0x190e6c203a0f4766; BYTE $0x07       // pinsrb    xmm13, byte [r14 + r9 + 25], 7
+	QUAD $0x191e6c203a0f4766; BYTE $0x08       // pinsrb    xmm13, byte [r14 + r11 + 25], 8
+	QUAD $0x19366c203a0f4566; BYTE $0x09       // pinsrb    xmm13, byte [r14 + rsi + 25], 9
+	QUAD $0x19266c203a0f4766; BYTE $0x0a       // pinsrb    xmm13, byte [r14 + r12 + 25], 10
+	QUAD $0x19066c203a0f4766; BYTE $0x0b       // pinsrb    xmm13, byte [r14 + r8 + 25], 11
+	QUAD $0x193e6c203a0f4566; BYTE $0x0c       // pinsrb    xmm13, byte [r14 + rdi + 25], 12
+	QUAD $0x19166c203a0f4566; BYTE $0x0d       // pinsrb    xmm13, byte [r14 + rdx + 25], 13
+	QUAD $0x190e6c203a0f4566; BYTE $0x0e       // pinsrb    xmm13, byte [r14 + rcx + 25], 14
+	QUAD $0x192e6c203a0f4766; BYTE $0x0f       // pinsrb    xmm13, byte [r14 + r13 + 25], 15
+	QUAD $0x1a3e44203a0f4366; BYTE $0x03       // pinsrb    xmm0, byte [r14 + r15 + 26], 3
+	QUAD $0x1a0644203a0f4166; BYTE $0x04       // pinsrb    xmm0, byte [r14 + rax + 26], 4
+	QUAD $0x1a1e44203a0f4166; BYTE $0x05       // pinsrb    xmm0, byte [r14 + rbx + 26], 5
+	QUAD $0x1a1644203a0f4366; BYTE $0x06       // pinsrb    xmm0, byte [r14 + r10 + 26], 6
+	QUAD $0x1a0e44203a0f4366; BYTE $0x07       // pinsrb    xmm0, byte [r14 + r9 + 26], 7
+	QUAD $0x1a1e44203a0f4366; BYTE $0x08       // pinsrb    xmm0, byte [r14 + r11 + 26], 8
+	QUAD $0x1a3644203a0f4166; BYTE $0x09       // pinsrb    xmm0, byte [r14 + rsi + 26], 9
+	QUAD $0x1a2644203a0f4366; BYTE $0x0a       // pinsrb    xmm0, byte [r14 + r12 + 26], 10
+	QUAD $0x1a0644203a0f4366; BYTE $0x0b       // pinsrb    xmm0, byte [r14 + r8 + 26], 11
+	QUAD $0x1a3e44203a0f4166; BYTE $0x0c       // pinsrb    xmm0, byte [r14 + rdi + 26], 12
+	QUAD $0x1a1644203a0f4166; BYTE $0x0d       // pinsrb    xmm0, byte [r14 + rdx + 26], 13
+	QUAD $0x1a0e44203a0f4166; BYTE $0x0e       // pinsrb    xmm0, byte [r14 + rcx + 26], 14
+	QUAD $0x1a2e44203a0f4366; BYTE $0x0f       // pinsrb    xmm0, byte [r14 + r13 + 26], 15
+	QUAD $0x1b3e5c203a0f4766; BYTE $0x03       // pinsrb    xmm11, byte [r14 + r15 + 27], 3
+	QUAD $0x1b065c203a0f4566; BYTE $0x04       // pinsrb    xmm11, byte [r14 + rax + 27], 4
+	QUAD $0x1b1e5c203a0f4566; BYTE $0x05       // pinsrb    xmm11, byte [r14 + rbx + 27], 5
+	QUAD $0x1b165c203a0f4766; BYTE $0x06       // pinsrb    xmm11, byte [r14 + r10 + 27], 6
+	QUAD $0x1b0e5c203a0f4766; BYTE $0x07       // pinsrb    xmm11, byte [r14 + r9 + 27], 7
+	QUAD $0x1b1e5c203a0f4766; BYTE $0x08       // pinsrb    xmm11, byte [r14 + r11 + 27], 8
+	QUAD $0x1b365c203a0f4566; BYTE $0x09       // pinsrb    xmm11, byte [r14 + rsi + 27], 9
+	QUAD $0x1b265c203a0f4766; BYTE $0x0a       // pinsrb    xmm11, byte [r14 + r12 + 27], 10
+	QUAD $0x1b065c203a0f4766; BYTE $0x0b       // pinsrb    xmm11, byte [r14 + r8 + 27], 11
+	QUAD $0x1b3e5c203a0f4566; BYTE $0x0c       // pinsrb    xmm11, byte [r14 + rdi + 27], 12
+	QUAD $0x1b165c203a0f4566; BYTE $0x0d       // pinsrb    xmm11, byte [r14 + rdx + 27], 13
+	QUAD $0x1b0e5c203a0f4566; BYTE $0x0e       // pinsrb    xmm11, byte [r14 + rcx + 27], 14
+	LONG $0x740f4566; BYTE $0xee               // pcmpeqb    xmm13, xmm14
+	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI5_16] */
+	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
+	QUAD $0x1b2e5c203a0f4766; BYTE $0x0f       // pinsrb    xmm11, byte [r14 + r13 + 27], 15
+	LONG $0x740f4166; BYTE $0xc6               // pcmpeqb    xmm0, xmm14
+	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI5_17] */
+	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
+	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI5_18] */
+	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
+	QUAD $0x1c3e7c203a0f4766; BYTE $0x03       // pinsrb    xmm15, byte [r14 + r15 + 28], 3
+	QUAD $0x1d3e4c203a0f4766; BYTE $0x03       // pinsrb    xmm9, byte [r14 + r15 + 29], 3
+	QUAD $0x1e3e54203a0f4766; BYTE $0x03       // pinsrb    xmm10, byte [r14 + r15 + 30], 3
+	QUAD $0x1f3e74203a0f4366; BYTE $0x03       // pinsrb    xmm6, byte [r14 + r15 + 31], 3
+	QUAD $0x1c067c203a0f4566; BYTE $0x04       // pinsrb    xmm15, byte [r14 + rax + 28], 4
+	QUAD $0x1d064c203a0f4566; BYTE $0x04       // pinsrb    xmm9, byte [r14 + rax + 29], 4
+	QUAD $0x1e0654203a0f4566; BYTE $0x04       // pinsrb    xmm10, byte [r14 + rax + 30], 4
+	QUAD $0x1f0674203a0f4166; BYTE $0x04       // pinsrb    xmm6, byte [r14 + rax + 31], 4
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x1c1e7c203a0f4566; BYTE $0x05       // pinsrb    xmm15, byte [r14 + rbx + 28], 5
+	QUAD $0x1d1e4c203a0f4566; BYTE $0x05       // pinsrb    xmm9, byte [r14 + rbx + 29], 5
+	QUAD $0x1e1e54203a0f4566; BYTE $0x05       // pinsrb    xmm10, byte [r14 + rbx + 30], 5
+	QUAD $0x1f1e74203a0f4166; BYTE $0x05       // pinsrb    xmm6, byte [r14 + rbx + 31], 5
+	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
+	QUAD $0x1c167c203a0f4766; BYTE $0x06       // pinsrb    xmm15, byte [r14 + r10 + 28], 6
+	QUAD $0x1d164c203a0f4766; BYTE $0x06       // pinsrb    xmm9, byte [r14 + r10 + 29], 6
+	QUAD $0x1e1654203a0f4766; BYTE $0x06       // pinsrb    xmm10, byte [r14 + r10 + 30], 6
+	QUAD $0x1f1674203a0f4366; BYTE $0x06       // pinsrb    xmm6, byte [r14 + r10 + 31], 6
+	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
+	QUAD $0x1c0e7c203a0f4766; BYTE $0x07       // pinsrb    xmm15, byte [r14 + r9 + 28], 7
+	QUAD $0x1d0e4c203a0f4766; BYTE $0x07       // pinsrb    xmm9, byte [r14 + r9 + 29], 7
+	QUAD $0x1e0e54203a0f4766; BYTE $0x07       // pinsrb    xmm10, byte [r14 + r9 + 30], 7
+	QUAD $0x1f0e74203a0f4366; BYTE $0x07       // pinsrb    xmm6, byte [r14 + r9 + 31], 7
+	QUAD $0x1c1e7c203a0f4766; BYTE $0x08       // pinsrb    xmm15, byte [r14 + r11 + 28], 8
+	QUAD $0x1d1e4c203a0f4766; BYTE $0x08       // pinsrb    xmm9, byte [r14 + r11 + 29], 8
+	QUAD $0x1e1e54203a0f4766; BYTE $0x08       // pinsrb    xmm10, byte [r14 + r11 + 30], 8
+	QUAD $0x1f1e74203a0f4366; BYTE $0x08       // pinsrb    xmm6, byte [r14 + r11 + 31], 8
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	QUAD $0x1c367c203a0f4566; BYTE $0x09       // pinsrb    xmm15, byte [r14 + rsi + 28], 9
+	QUAD $0x1d364c203a0f4566; BYTE $0x09       // pinsrb    xmm9, byte [r14 + rsi + 29], 9
+	QUAD $0x1e3654203a0f4566; BYTE $0x09       // pinsrb    xmm10, byte [r14 + rsi + 30], 9
+	QUAD $0x1f3674203a0f4166; BYTE $0x09       // pinsrb    xmm6, byte [r14 + rsi + 31], 9
+	QUAD $0x1c267c203a0f4766; BYTE $0x0a       // pinsrb    xmm15, byte [r14 + r12 + 28], 10
+	QUAD $0x1d264c203a0f4766; BYTE $0x0a       // pinsrb    xmm9, byte [r14 + r12 + 29], 10
+	QUAD $0x1e2654203a0f4766; BYTE $0x0a       // pinsrb    xmm10, byte [r14 + r12 + 30], 10
+	QUAD $0x1f2674203a0f4366; BYTE $0x0a       // pinsrb    xmm6, byte [r14 + r12 + 31], 10
+	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
+	QUAD $0x1c067c203a0f4766; BYTE $0x0b       // pinsrb    xmm15, byte [r14 + r8 + 28], 11
+	QUAD $0x1d064c203a0f4766; BYTE $0x0b       // pinsrb    xmm9, byte [r14 + r8 + 29], 11
+	QUAD $0x1e0654203a0f4766; BYTE $0x0b       // pinsrb    xmm10, byte [r14 + r8 + 30], 11
+	QUAD $0x1f0674203a0f4366; BYTE $0x0b       // pinsrb    xmm6, byte [r14 + r8 + 31], 11
+	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
+	QUAD $0x1c3e7c203a0f4566; BYTE $0x0c       // pinsrb    xmm15, byte [r14 + rdi + 28], 12
+	QUAD $0x1d3e4c203a0f4566; BYTE $0x0c       // pinsrb    xmm9, byte [r14 + rdi + 29], 12
+	QUAD $0x1e3e54203a0f4566; BYTE $0x0c       // pinsrb    xmm10, byte [r14 + rdi + 30], 12
+	QUAD $0x1f3e74203a0f4166; BYTE $0x0c       // pinsrb    xmm6, byte [r14 + rdi + 31], 12
+	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
+	QUAD $0x1c167c203a0f4566; BYTE $0x0d       // pinsrb    xmm15, byte [r14 + rdx + 28], 13
+	QUAD $0x1d164c203a0f4566; BYTE $0x0d       // pinsrb    xmm9, byte [r14 + rdx + 29], 13
+	QUAD $0x1e1654203a0f4566; BYTE $0x0d       // pinsrb    xmm10, byte [r14 + rdx + 30], 13
+	QUAD $0x1f1674203a0f4166; BYTE $0x0d       // pinsrb    xmm6, byte [r14 + rdx + 31], 13
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x1c0e7c203a0f4566; BYTE $0x0e       // pinsrb    xmm15, byte [r14 + rcx + 28], 14
+	QUAD $0x1d0e4c203a0f4566; BYTE $0x0e       // pinsrb    xmm9, byte [r14 + rcx + 29], 14
+	QUAD $0x1e0e54203a0f4566; BYTE $0x0e       // pinsrb    xmm10, byte [r14 + rcx + 30], 14
+	QUAD $0x1f0e74203a0f4166; BYTE $0x0e       // pinsrb    xmm6, byte [r14 + rcx + 31], 14
+	QUAD $0x1c2e7c203a0f4766; BYTE $0x0f       // pinsrb    xmm15, byte [r14 + r13 + 28], 15
+	QUAD $0x1d2e4c203a0f4766; BYTE $0x0f       // pinsrb    xmm9, byte [r14 + r13 + 29], 15
+	QUAD $0x1e2e54203a0f4766; BYTE $0x0f       // pinsrb    xmm10, byte [r14 + r13 + 30], 15
+	LONG $0x740f4566; BYTE $0xfe               // pcmpeqb    xmm15, xmm14
+	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI5_19] */
+	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
+	QUAD $0x1f2e74203a0f4366; BYTE $0x0f       // pinsrb    xmm6, byte [r14 + r13 + 31], 15
+	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI5_22] */
+	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
+	LONG $0x740f4566; BYTE $0xce               // pcmpeqb    xmm9, xmm14
+	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
+	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
+	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
+	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
+	LONG $0x740f4166; BYTE $0xf6               // pcmpeqb    xmm6, xmm14
+	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
+	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
+	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
+	QUAD $0x000100249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 256]
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	QUAD $0x0000c024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 192]
+	LONG $0xcc600f66                           // punpcklbw    xmm1, xmm4
+	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
+	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
+	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
+	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
+	LONG $0xdc680f66                           // punpckhbw    xmm3, xmm4
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
+	LONG $0x690f4166; BYTE $0xd8               // punpckhwd    xmm3, xmm8
+	QUAD $0x000000a8248c8b48                   // mov    rcx, qword [rsp + 168]
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	LONG $0x5c7f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm3
+	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
+	LONG $0x4c7f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm1
+	LONG $0x147f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm2
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000d8248c3b48                   // cmp    rcx, qword [rsp + 216]
+	JNE  LBB5_67
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x000000d824943b4c                   // cmp    r10, qword [rsp + 216]
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	JNE  LBB5_69
+	JMP  LBB5_72
+
+LBB5_109:
+	LONG $0xf8e28349               // and    r10, -8
+	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
+	LONG $0x06e0c148               // shl    rax, 6
+	WORD $0x014c; BYTE $0xf0       // add    rax, r14
+	LONG $0x24448948; BYTE $0x30   // mov    qword [rsp + 48], rax
+	LONG $0x24448b48; BYTE $0x08   // mov    rax, qword [rsp + 8]
+	LONG $0x2454894c; BYTE $0x18   // mov    qword [rsp + 24], r10
+	LONG $0x90048d4a               // lea    rax, [rax + 4*r10]
+	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
+	LONG $0x6e0f4166; BYTE $0xc3   // movd    xmm0, r11d
+	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
+	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0xef0f4566; BYTE $0xc9   // pxor    xmm9, xmm9
+
+LBB5_110:
+	LONG $0x247c8948; BYTE $0x40               // mov    qword [rsp + 64], rdi
+	LONG $0x06e7c148                           // shl    rdi, 6
+	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
+	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
+	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
+	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
+	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
+	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
+	LONG $0x04b70f41; BYTE $0x3e               // movzx    eax, word [r14 + rdi]
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x44b70f41; WORD $0x023e             // movzx    eax, word [r14 + rdi + 2]
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	LONG $0x44b70f41; WORD $0x043e             // movzx    eax, word [r14 + rdi + 4]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x44b70f41; WORD $0x063e             // movzx    eax, word [r14 + rdi + 6]
+	LONG $0xf86e0f66                           // movd    xmm7, eax
+	LONG $0x44b70f41; WORD $0x083e             // movzx    eax, word [r14 + rdi + 8]
+	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
+	LONG $0x44b70f41; WORD $0x0a3e             // movzx    eax, word [r14 + rdi + 10]
+	LONG $0xe06e0f66                           // movd    xmm4, eax
+	LONG $0x44b70f41; WORD $0x0c3e             // movzx    eax, word [r14 + rdi + 12]
+	LONG $0x44b70f45; WORD $0x0e3e             // movzx    r8d, word [r14 + rdi + 14]
+	LONG $0x54b70f45; WORD $0x103e             // movzx    r10d, word [r14 + rdi + 16]
+	LONG $0x64b70f45; WORD $0x123e             // movzx    r12d, word [r14 + rdi + 18]
+	LONG $0x4cb70f41; WORD $0x143e             // movzx    ecx, word [r14 + rdi + 20]
+	LONG $0x28244c89                           // mov    dword [rsp + 40], ecx
+	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
+	LONG $0x40c98348                           // or    rcx, 64
+	LONG $0x80cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 128
+	LONG $0xc0ce8148; WORD $0x0000; BYTE $0x00 // or    rsi, 192
+	LONG $0x00ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 256
+	LONG $0x40cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 320
+	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
+	LONG $0xc40f4166; WORD $0x0e2c; BYTE $0x01 // pinsrw    xmm5, word [r14 + rcx], 1
+	LONG $0xc40f4366; WORD $0x3e2c; BYTE $0x02 // pinsrw    xmm5, word [r14 + r15], 2
+	LONG $0xc40f4166; WORD $0x362c; BYTE $0x03 // pinsrw    xmm5, word [r14 + rsi], 3
+	LONG $0xc40f4166; WORD $0x162c; BYTE $0x04 // pinsrw    xmm5, word [r14 + rdx], 4
+	LONG $0xc40f4366; WORD $0x2e2c; BYTE $0x05 // pinsrw    xmm5, word [r14 + r13], 5
+	LONG $0xc40f4166; WORD $0x1e2c; BYTE $0x06 // pinsrw    xmm5, word [r14 + rbx], 6
+	QUAD $0x01020e44c40f4166                   // pinsrw    xmm0, word [r14 + rcx + 2], 1
+	QUAD $0x02023e44c40f4366                   // pinsrw    xmm0, word [r14 + r15 + 2], 2
+	QUAD $0x03023644c40f4166                   // pinsrw    xmm0, word [r14 + rsi + 2], 3
+	QUAD $0x04021644c40f4166                   // pinsrw    xmm0, word [r14 + rdx + 2], 4
+	QUAD $0x05022e44c40f4366                   // pinsrw    xmm0, word [r14 + r13 + 2], 5
+	QUAD $0x06021e44c40f4166                   // pinsrw    xmm0, word [r14 + rbx + 2], 6
+	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
+	QUAD $0x07020e44c40f4366                   // pinsrw    xmm0, word [r14 + r9 + 2], 7
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x44b70f41; WORD $0x163e             // movzx    eax, word [r14 + rdi + 22]
+	LONG $0x20244489                           // mov    dword [rsp + 32], eax
+	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
+	QUAD $0x01040e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 4], 1
+	QUAD $0x02043e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 4], 2
+	QUAD $0x0304364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 4], 3
+	QUAD $0x0404164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 4], 4
+	QUAD $0x05042e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 4], 5
+	QUAD $0x06041e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 4], 6
+	QUAD $0x07040e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 4], 7
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	QUAD $0x000080b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 128[rbp] /* [rip + .LCPI5_8] */
+	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
+	LONG $0x380f4166; WORD $0xd910             // pblendvb    xmm3, xmm9, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x000090bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 144[rbp] /* [rip + .LCPI5_9] */
+	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
+	LONG $0x5cb70f45; WORD $0x183e             // movzx    r11d, word [r14 + rdi + 24]
+	LONG $0xc40f4366; WORD $0x0e2c; BYTE $0x07 // pinsrw    xmm5, word [r14 + r9], 7
+	LONG $0x750f4166; BYTE $0xeb               // pcmpeqw    xmm5, xmm11
+	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
+	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	QUAD $0x01060e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 6], 1
+	QUAD $0x02063e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 6], 2
+	QUAD $0x0306367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 6], 3
+	QUAD $0x0406167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 6], 4
+	QUAD $0x05062e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 6], 5
+	QUAD $0x06061e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 6], 6
+	QUAD $0x07060e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 6], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x01080e44c40f4566                   // pinsrw    xmm8, word [r14 + rcx + 8], 1
+	QUAD $0x02083e44c40f4766                   // pinsrw    xmm8, word [r14 + r15 + 8], 2
+	QUAD $0x03083644c40f4566                   // pinsrw    xmm8, word [r14 + rsi + 8], 3
+	QUAD $0x04081644c40f4566                   // pinsrw    xmm8, word [r14 + rdx + 8], 4
+	QUAD $0x05082e44c40f4766                   // pinsrw    xmm8, word [r14 + r13 + 8], 5
+	QUAD $0x06081e44c40f4566                   // pinsrw    xmm8, word [r14 + rbx + 8], 6
+	QUAD $0x07080e44c40f4766                   // pinsrw    xmm8, word [r14 + r9 + 8], 7
+	LONG $0xddf80f66                           // psubb    xmm3, xmm5
+	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI5_10] */
+	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
+	LONG $0x380f4566; WORD $0xe110             // pblendvb    xmm12, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
+	LONG $0x44b70f45; WORD $0x1a3e             // movzx    r8d, word [r14 + rdi + 26]
+	LONG $0x750f4566; BYTE $0xc3               // pcmpeqw    xmm8, xmm11
+	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
+	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
+	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI5_11] */
+	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
+	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xf4               // movd    xmm6, r12d
+	LONG $0x64b70f45; WORD $0x1c3e             // movzx    r12d, word [r14 + rdi + 28]
+	QUAD $0x010a0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 10], 1
+	QUAD $0x020a3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 10], 2
+	QUAD $0x030a3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 10], 3
+	QUAD $0x040a1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 10], 4
+	QUAD $0x050a2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 10], 5
+	QUAD $0x060a1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 10], 6
+	QUAD $0x070a0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 10], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	QUAD $0x010c0e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 12], 1
+	QUAD $0x020c3e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 12], 2
+	QUAD $0x030c3654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 12], 3
+	QUAD $0x040c1654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 12], 4
+	QUAD $0x050c2e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 12], 5
+	QUAD $0x060c1e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 12], 6
+	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI5_12] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
+	LONG $0x646e0f66; WORD $0x2824             // movd    xmm4, dword [rsp + 40]
+	LONG $0x54b70f45; WORD $0x1e3e             // movzx    r10d, word [r14 + rdi + 30]
+	QUAD $0x070c0e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 12], 7
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
+	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI5_13] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
+	LONG $0x5c6e0f66; WORD $0x2024             // movd    xmm3, dword [rsp + 32]
+	LONG $0x44b70f41; WORD $0x203e             // movzx    eax, word [r14 + rdi + 32]
+	LONG $0x20244489                           // mov    dword [rsp + 32], eax
+	QUAD $0x010e0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 14], 1
+	QUAD $0x020e3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 14], 2
+	QUAD $0x030e364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 14], 3
+	QUAD $0x040e164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 14], 4
+	QUAD $0x050e2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 14], 5
+	QUAD $0x060e1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 14], 6
+	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
+	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
+	LONG $0x44b70f41; WORD $0x223e             // movzx    eax, word [r14 + rdi + 34]
+	LONG $0x28244489                           // mov    dword [rsp + 40], eax
+	QUAD $0x070e0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 14], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	QUAD $0x01120e74c40f4166                   // pinsrw    xmm6, word [r14 + rcx + 18], 1
+	QUAD $0x02123e74c40f4366                   // pinsrw    xmm6, word [r14 + r15 + 18], 2
+	QUAD $0x03123674c40f4166                   // pinsrw    xmm6, word [r14 + rsi + 18], 3
+	QUAD $0x04121674c40f4166                   // pinsrw    xmm6, word [r14 + rdx + 18], 4
+	QUAD $0x05122e74c40f4366                   // pinsrw    xmm6, word [r14 + r13 + 18], 5
+	QUAD $0x06121e74c40f4166                   // pinsrw    xmm6, word [r14 + rbx + 18], 6
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x07120e74c40f4366                   // pinsrw    xmm6, word [r14 + r9 + 18], 7
+	LONG $0x750f4166; BYTE $0xf3               // pcmpeqw    xmm6, xmm11
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
+	QUAD $0x0000e0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 224[rbp] /* [rip + .LCPI5_14] */
+	LONG $0x6f0f4566; BYTE $0xe2               // movdqa    xmm12, xmm10
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4566; WORD $0xe110             // pblendvb    xmm12, xmm9, xmm0
+	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
+	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
+	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
+	LONG $0x5cb70f45; WORD $0x243e             // movzx    r11d, word [r14 + rdi + 36]
+	QUAD $0x01100e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 16], 1
+	QUAD $0x02103e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 16], 2
+	QUAD $0x0310367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 16], 3
+	QUAD $0x0410167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 16], 4
+	QUAD $0x05102e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 16], 5
+	QUAD $0x06101e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 16], 6
+	QUAD $0x01140e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 20], 1
+	QUAD $0x02143e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 20], 2
+	QUAD $0x03143664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 20], 3
+	QUAD $0x04141664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 20], 4
+	QUAD $0x05142e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 20], 5
+	QUAD $0x06141e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 20], 6
+	QUAD $0x07140e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 20], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4566; WORD $0xf910             // pblendvb    xmm15, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xe4               // movd    xmm4, r12d
+	LONG $0x64b70f45; WORD $0x263e             // movzx    r12d, word [r14 + rdi + 38]
+	QUAD $0x07100e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 16], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI5_22] */
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x01160e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 22], 1
+	QUAD $0x02163e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 22], 2
+	QUAD $0x0316365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 22], 3
+	QUAD $0x0416165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 22], 4
+	QUAD $0x05162e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 22], 5
+	QUAD $0x06161e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 22], 6
+	QUAD $0x07160e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 22], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x01180e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 24], 1
+	QUAD $0x02183e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 24], 2
+	QUAD $0x03183654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 24], 3
+	QUAD $0x04181654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 24], 4
+	QUAD $0x05182e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 24], 5
+	QUAD $0x06181e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 24], 6
+	QUAD $0x07180e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 24], 7
+	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
+	QUAD $0x0000a0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 160[rbp] /* [rip + .LCPI5_10] */
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4566; WORD $0xf110             // pblendvb    xmm14, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
+	LONG $0x44b70f45; WORD $0x283e             // movzx    r8d, word [r14 + rdi + 40]
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4566; BYTE $0xf7               // por    xmm14, xmm15
+	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI5_11] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
+	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
+	LONG $0x54b70f45; WORD $0x2a3e             // movzx    r10d, word [r14 + rdi + 42]
+	QUAD $0x011a0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 26], 1
+	QUAD $0x021a3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 26], 2
+	QUAD $0x031a364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 26], 3
+	QUAD $0x041a164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 26], 4
+	QUAD $0x051a2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 26], 5
+	QUAD $0x061a1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 26], 6
+	QUAD $0x071a0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 26], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x011c0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 28], 1
+	QUAD $0x021c3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 28], 2
+	QUAD $0x031c3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 28], 3
+	QUAD $0x041c1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 28], 4
+	QUAD $0x051c2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 28], 5
+	QUAD $0x061c1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 28], 6
+	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
+	QUAD $0x0000c0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 192[rbp] /* [rip + .LCPI5_12] */
+	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
+	LONG $0x546e0f66; WORD $0x2824             // movd    xmm2, dword [rsp + 40]
+	LONG $0x44b70f41; WORD $0x2c3e             // movzx    eax, word [r14 + rdi + 44]
+	LONG $0x20244489                           // mov    dword [rsp + 32], eax
+	QUAD $0x071c0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 28], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
+	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI5_13] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
+	LONG $0x5cb70f45; WORD $0x2e3e             // movzx    r11d, word [r14 + rdi + 46]
+	QUAD $0x011e0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 30], 1
+	QUAD $0x021e3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 30], 2
+	QUAD $0x031e365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 30], 3
+	QUAD $0x041e165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 30], 4
+	QUAD $0x051e2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 30], 5
+	QUAD $0x061e1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 30], 6
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0x6e0f4166; BYTE $0xcc               // movd    xmm1, r12d
+	LONG $0x44b70f41; WORD $0x303e             // movzx    eax, word [r14 + rdi + 48]
+	LONG $0x28244489                           // mov    dword [rsp + 40], eax
+	QUAD $0x071e0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 30], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	QUAD $0x01220e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 34], 1
+	QUAD $0x02223e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 34], 2
+	QUAD $0x03223654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 34], 3
+	QUAD $0x04221654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 34], 4
+	QUAD $0x05222e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 34], 5
+	QUAD $0x06221e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 34], 6
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x07220e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 34], 7
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
+	LONG $0x6f0f4566; BYTE $0xea               // movdqa    xmm13, xmm10
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
+	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI5_8] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xd0               // movd    xmm2, r8d
+	LONG $0x64b70f45; WORD $0x323e             // movzx    r12d, word [r14 + rdi + 50]
+	QUAD $0x01200e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 32], 1
+	QUAD $0x02203e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 32], 2
+	QUAD $0x0320367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 32], 3
+	QUAD $0x0420167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 32], 4
+	QUAD $0x05202e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 32], 5
+	QUAD $0x06201e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 32], 6
+	QUAD $0x01240e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 36], 1
+	QUAD $0x02243e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 36], 2
+	QUAD $0x03243664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 36], 3
+	QUAD $0x04241664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 36], 4
+	QUAD $0x05242e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 36], 5
+	QUAD $0x06241e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 36], 6
+	QUAD $0x07240e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 36], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
+	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI5_9] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
+	LONG $0x54b70f45; WORD $0x343e             // movzx    r10d, word [r14 + rdi + 52]
+	QUAD $0x07200e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 32], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	LONG $0x760f4566; BYTE $0xf6               // pcmpeqd    xmm14, xmm14
+	LONG $0xef0f4166; BYTE $0xfe               // pxor    xmm7, xmm14
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x01260e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 38], 1
+	QUAD $0x02263e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 38], 2
+	QUAD $0x0326364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 38], 3
+	QUAD $0x0426164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 38], 4
+	QUAD $0x05262e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 38], 5
+	QUAD $0x06261e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 38], 6
+	QUAD $0x07260e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 38], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x01280e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 40], 1
+	QUAD $0x02283e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 40], 2
+	QUAD $0x03283654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 40], 3
+	QUAD $0x04281654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 40], 4
+	QUAD $0x05282e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 40], 5
+	QUAD $0x06281e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 40], 6
+	QUAD $0x07280e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 40], 7
+	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
+	QUAD $0x000000a0ad6f0f66                   // movdqa    xmm5, oword 160[rbp] /* [rip + .LCPI5_10] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
+	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
+	LONG $0x44b70f45; WORD $0x363e             // movzx    r8d, word [r14 + rdi + 54]
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	QUAD $0x000000b0b56f0f66                   // movdqa    xmm6, oword 176[rbp] /* [rip + .LCPI5_11] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
+	LONG $0x44b70f41; WORD $0x383e             // movzx    eax, word [r14 + rdi + 56]
+	QUAD $0x012a0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 42], 1
+	QUAD $0x022a3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 42], 2
+	QUAD $0x032a365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 42], 3
+	QUAD $0x042a165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 42], 4
+	QUAD $0x052a2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 42], 5
+	QUAD $0x062a1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 42], 6
+	QUAD $0x072a0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 42], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x012c0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 44], 1
+	QUAD $0x022c3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 44], 2
+	QUAD $0x032c364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 44], 3
+	QUAD $0x042c164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 44], 4
+	QUAD $0x052c2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 44], 5
+	QUAD $0x062c1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 44], 6
+	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
+	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4166; WORD $0xd110             // pblendvb    xmm2, xmm9, xmm0
+	LONG $0x7c6e0f66; WORD $0x2824             // movd    xmm7, dword [rsp + 40]
+	LONG $0x5cb70f45; WORD $0x3a3e             // movzx    r11d, word [r14 + rdi + 58]
+	QUAD $0x072c0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 44], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0x0000d0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 208[rbp] /* [rip + .LCPI5_13] */
+	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xcc               // movd    xmm1, r12d
+	LONG $0x64b70f45; WORD $0x3c3e             // movzx    r12d, word [r14 + rdi + 60]
+	LONG $0xf2eb0f66                           // por    xmm6, xmm2
+	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
+	QUAD $0x012e0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 46], 1
+	QUAD $0x022e3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 46], 2
+	QUAD $0x032e3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 46], 3
+	QUAD $0x042e1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 46], 4
+	QUAD $0x052e2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 46], 5
+	QUAD $0x062e1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 46], 6
+	QUAD $0x072e0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 46], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0x6f0f4566; BYTE $0xc2               // movdqa    xmm8, xmm10
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xd8               // movd    xmm3, r8d
+	QUAD $0x01320e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 50], 1
+	QUAD $0x02323e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 50], 2
+	QUAD $0x0332364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 50], 3
+	QUAD $0x0432164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 50], 4
+	QUAD $0x05322e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 50], 5
+	QUAD $0x06321e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 50], 6
+	QUAD $0x07320e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 50], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
+	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI5_8] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe110             // pblendvb    xmm4, xmm9, xmm0
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	QUAD $0x01300e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 48], 1
+	QUAD $0x02303e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 48], 2
+	QUAD $0x0330367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 48], 3
+	QUAD $0x0430167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 48], 4
+	QUAD $0x05302e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 48], 5
+	QUAD $0x06301e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 48], 6
+	QUAD $0x07300e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 48], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	LONG $0xef0f4166; BYTE $0xfe               // pxor    xmm7, xmm14
+	QUAD $0x01340e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 52], 1
+	QUAD $0x02343e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 52], 2
+	QUAD $0x03343654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 52], 3
+	QUAD $0x04341654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 52], 4
+	QUAD $0x05342e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 52], 5
+	QUAD $0x06341e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 52], 6
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x07340e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 52], 7
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	QUAD $0x01360e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 54], 1
+	QUAD $0x02363e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 54], 2
+	QUAD $0x0336365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 54], 3
+	QUAD $0x0436165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 54], 4
+	QUAD $0x05362e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 54], 5
+	QUAD $0x06361e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 54], 6
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x07360e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 54], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	QUAD $0x01380e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 56], 1
+	QUAD $0x02383e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 56], 2
+	QUAD $0x0338364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 56], 3
+	QUAD $0x0438164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 56], 4
+	QUAD $0x05382e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 56], 5
+	QUAD $0x06381e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 56], 6
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x07380e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 56], 7
+	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
+	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI5_9] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
+	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI5_10] */
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	QUAD $0x013a0e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 58], 1
+	QUAD $0x023a3e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 58], 2
+	QUAD $0x033a3654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 58], 3
+	QUAD $0x043a1654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 58], 4
+	QUAD $0x053a2e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 58], 5
+	QUAD $0x063a1e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 58], 6
+	QUAD $0x073a0e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 58], 7
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0x6e0f4166; BYTE $0xdc               // movd    xmm3, r12d
+	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
+	QUAD $0x013c0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 60], 1
+	QUAD $0x023c3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 60], 2
+	QUAD $0x033c365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 60], 3
+	QUAD $0x043c165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 60], 4
+	QUAD $0x053c2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 60], 5
+	QUAD $0x063c1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 60], 6
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x073c0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 60], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf4eb0f66                           // por    xmm6, xmm4
+	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI5_11] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe110             // pblendvb    xmm4, xmm9, xmm0
+	QUAD $0x000000c08d6f0f66                   // movdqa    xmm1, oword 192[rbp] /* [rip + .LCPI5_12] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xc910             // pblendvb    xmm1, xmm9, xmm0
+	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4166; WORD $0xd110             // pblendvb    xmm2, xmm9, xmm0
+	LONG $0xcceb0f66                           // por    xmm1, xmm4
+	LONG $0x44b70f41; WORD $0x3e3e             // movzx    eax, word [r14 + rdi + 62]
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	QUAD $0x013e0e44c40f4166                   // pinsrw    xmm0, word [r14 + rcx + 62], 1
+	QUAD $0x023e3e44c40f4366                   // pinsrw    xmm0, word [r14 + r15 + 62], 2
+	QUAD $0x033e3644c40f4166                   // pinsrw    xmm0, word [r14 + rsi + 62], 3
+	QUAD $0x043e1644c40f4166                   // pinsrw    xmm0, word [r14 + rdx + 62], 4
+	QUAD $0x053e2e44c40f4366                   // pinsrw    xmm0, word [r14 + r13 + 62], 5
+	QUAD $0x063e1e44c40f4166                   // pinsrw    xmm0, word [r14 + rbx + 62], 6
+	QUAD $0x073e0e44c40f4366                   // pinsrw    xmm0, word [r14 + r9 + 62], 7
+	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	LONG $0x380f4566; WORD $0xd110             // pblendvb    xmm10, xmm9, xmm0
+	LONG $0xeb0f4466; BYTE $0xd2               // por    xmm10, xmm2
+	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
+	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
+	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
+	LONG $0x6c0f4166; BYTE $0xd2               // punpcklqdq    xmm2, xmm10
+	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI5_15] */
+	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
+	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
+	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
+	LONG $0x600f4566; BYTE $0xc2               // punpcklbw    xmm8, xmm10
+	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
+	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	LONG $0x7f0f45f3; WORD $0x8824             // movdqu    oword [r8 + 4*rcx], xmm12
+	LONG $0x2444894c; BYTE $0x08               // mov    qword [rsp + 8], r8
+	LONG $0x7f0f41f3; WORD $0x8844; BYTE $0x10 // movdqu    oword [r8 + 4*rcx + 16], xmm0
+	LONG $0x08c18348                           // add    rcx, 8
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
+	JNE  LBB5_110
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	LONG $0x24543b4c; BYTE $0x18               // cmp    r10, qword [rsp + 24]
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	LONG $0x245c8b44; BYTE $0x10               // mov    r11d, dword [rsp + 16]
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	JNE  LBB5_112
+	JMP  LBB5_115
+
+LBB5_132:
+	LONG $0xf8e28349               // and    r10, -8
+	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
+	LONG $0x06e0c148               // shl    rax, 6
+	WORD $0x014c; BYTE $0xf0       // add    rax, r14
+	LONG $0x24448948; BYTE $0x30   // mov    qword [rsp + 48], rax
+	LONG $0x24448b48; BYTE $0x08   // mov    rax, qword [rsp + 8]
+	LONG $0x2454894c; BYTE $0x18   // mov    qword [rsp + 24], r10
+	LONG $0x90048d4a               // lea    rax, [rax + 4*r10]
+	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
+	LONG $0x6e0f4166; BYTE $0xc3   // movd    xmm0, r11d
+	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
+	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
+	WORD $0xff31                   // xor    edi, edi
+	LONG $0xef0f4566; BYTE $0xc9   // pxor    xmm9, xmm9
+
+LBB5_133:
+	LONG $0x247c8948; BYTE $0x40               // mov    qword [rsp + 64], rdi
+	LONG $0x06e7c148                           // shl    rdi, 6
+	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
+	WORD $0x8948; BYTE $0xfe                   // mov    rsi, rdi
+	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
+	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
+	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
+	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
+	LONG $0x04b70f41; BYTE $0x3e               // movzx    eax, word [r14 + rdi]
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x44b70f41; WORD $0x023e             // movzx    eax, word [r14 + rdi + 2]
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	LONG $0x44b70f41; WORD $0x043e             // movzx    eax, word [r14 + rdi + 4]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x44b70f41; WORD $0x063e             // movzx    eax, word [r14 + rdi + 6]
+	LONG $0xf86e0f66                           // movd    xmm7, eax
+	LONG $0x44b70f41; WORD $0x083e             // movzx    eax, word [r14 + rdi + 8]
+	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
+	LONG $0x44b70f41; WORD $0x0a3e             // movzx    eax, word [r14 + rdi + 10]
+	LONG $0xe06e0f66                           // movd    xmm4, eax
+	LONG $0x44b70f41; WORD $0x0c3e             // movzx    eax, word [r14 + rdi + 12]
+	LONG $0x44b70f45; WORD $0x0e3e             // movzx    r8d, word [r14 + rdi + 14]
+	LONG $0x54b70f45; WORD $0x103e             // movzx    r10d, word [r14 + rdi + 16]
+	LONG $0x64b70f45; WORD $0x123e             // movzx    r12d, word [r14 + rdi + 18]
+	LONG $0x4cb70f41; WORD $0x143e             // movzx    ecx, word [r14 + rdi + 20]
+	LONG $0x28244c89                           // mov    dword [rsp + 40], ecx
+	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
+	LONG $0x40c98348                           // or    rcx, 64
+	LONG $0x80cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 128
+	LONG $0xc0ce8148; WORD $0x0000; BYTE $0x00 // or    rsi, 192
+	LONG $0x00ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 256
+	LONG $0x40cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 320
+	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
+	LONG $0xc40f4166; WORD $0x0e2c; BYTE $0x01 // pinsrw    xmm5, word [r14 + rcx], 1
+	LONG $0xc40f4366; WORD $0x3e2c; BYTE $0x02 // pinsrw    xmm5, word [r14 + r15], 2
+	LONG $0xc40f4166; WORD $0x362c; BYTE $0x03 // pinsrw    xmm5, word [r14 + rsi], 3
+	LONG $0xc40f4166; WORD $0x162c; BYTE $0x04 // pinsrw    xmm5, word [r14 + rdx], 4
+	LONG $0xc40f4366; WORD $0x2e2c; BYTE $0x05 // pinsrw    xmm5, word [r14 + r13], 5
+	LONG $0xc40f4166; WORD $0x1e2c; BYTE $0x06 // pinsrw    xmm5, word [r14 + rbx], 6
+	QUAD $0x01020e44c40f4166                   // pinsrw    xmm0, word [r14 + rcx + 2], 1
+	QUAD $0x02023e44c40f4366                   // pinsrw    xmm0, word [r14 + r15 + 2], 2
+	QUAD $0x03023644c40f4166                   // pinsrw    xmm0, word [r14 + rsi + 2], 3
+	QUAD $0x04021644c40f4166                   // pinsrw    xmm0, word [r14 + rdx + 2], 4
+	QUAD $0x05022e44c40f4366                   // pinsrw    xmm0, word [r14 + r13 + 2], 5
+	QUAD $0x06021e44c40f4166                   // pinsrw    xmm0, word [r14 + rbx + 2], 6
+	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
+	QUAD $0x07020e44c40f4366                   // pinsrw    xmm0, word [r14 + r9 + 2], 7
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x44b70f41; WORD $0x163e             // movzx    eax, word [r14 + rdi + 22]
+	LONG $0x20244489                           // mov    dword [rsp + 32], eax
+	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
+	QUAD $0x01040e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 4], 1
+	QUAD $0x02043e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 4], 2
+	QUAD $0x0304364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 4], 3
+	QUAD $0x0404164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 4], 4
+	QUAD $0x05042e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 4], 5
+	QUAD $0x06041e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 4], 6
+	QUAD $0x07040e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 4], 7
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	QUAD $0x000080b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 128[rbp] /* [rip + .LCPI5_8] */
+	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
+	LONG $0x380f4166; WORD $0xd910             // pblendvb    xmm3, xmm9, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x000090bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 144[rbp] /* [rip + .LCPI5_9] */
+	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
+	LONG $0x5cb70f45; WORD $0x183e             // movzx    r11d, word [r14 + rdi + 24]
+	LONG $0xc40f4366; WORD $0x0e2c; BYTE $0x07 // pinsrw    xmm5, word [r14 + r9], 7
+	LONG $0x750f4166; BYTE $0xeb               // pcmpeqw    xmm5, xmm11
+	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
+	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	QUAD $0x01060e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 6], 1
+	QUAD $0x02063e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 6], 2
+	QUAD $0x0306367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 6], 3
+	QUAD $0x0406167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 6], 4
+	QUAD $0x05062e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 6], 5
+	QUAD $0x06061e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 6], 6
+	QUAD $0x07060e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 6], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x01080e44c40f4566                   // pinsrw    xmm8, word [r14 + rcx + 8], 1
+	QUAD $0x02083e44c40f4766                   // pinsrw    xmm8, word [r14 + r15 + 8], 2
+	QUAD $0x03083644c40f4566                   // pinsrw    xmm8, word [r14 + rsi + 8], 3
+	QUAD $0x04081644c40f4566                   // pinsrw    xmm8, word [r14 + rdx + 8], 4
+	QUAD $0x05082e44c40f4766                   // pinsrw    xmm8, word [r14 + r13 + 8], 5
+	QUAD $0x06081e44c40f4566                   // pinsrw    xmm8, word [r14 + rbx + 8], 6
+	QUAD $0x07080e44c40f4766                   // pinsrw    xmm8, word [r14 + r9 + 8], 7
+	LONG $0xddf80f66                           // psubb    xmm3, xmm5
+	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI5_10] */
+	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
+	LONG $0x380f4566; WORD $0xe110             // pblendvb    xmm12, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
+	LONG $0x44b70f45; WORD $0x1a3e             // movzx    r8d, word [r14 + rdi + 26]
+	LONG $0x750f4566; BYTE $0xc3               // pcmpeqw    xmm8, xmm11
+	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
+	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
+	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI5_11] */
+	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
+	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xf4               // movd    xmm6, r12d
+	LONG $0x64b70f45; WORD $0x1c3e             // movzx    r12d, word [r14 + rdi + 28]
+	QUAD $0x010a0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 10], 1
+	QUAD $0x020a3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 10], 2
+	QUAD $0x030a3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 10], 3
+	QUAD $0x040a1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 10], 4
+	QUAD $0x050a2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 10], 5
+	QUAD $0x060a1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 10], 6
+	QUAD $0x070a0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 10], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	QUAD $0x010c0e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 12], 1
+	QUAD $0x020c3e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 12], 2
+	QUAD $0x030c3654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 12], 3
+	QUAD $0x040c1654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 12], 4
+	QUAD $0x050c2e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 12], 5
+	QUAD $0x060c1e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 12], 6
+	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI5_12] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
+	LONG $0x646e0f66; WORD $0x2824             // movd    xmm4, dword [rsp + 40]
+	LONG $0x54b70f45; WORD $0x1e3e             // movzx    r10d, word [r14 + rdi + 30]
+	QUAD $0x070c0e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 12], 7
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
+	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI5_13] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
+	LONG $0x5c6e0f66; WORD $0x2024             // movd    xmm3, dword [rsp + 32]
+	LONG $0x44b70f41; WORD $0x203e             // movzx    eax, word [r14 + rdi + 32]
+	LONG $0x20244489                           // mov    dword [rsp + 32], eax
+	QUAD $0x010e0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 14], 1
+	QUAD $0x020e3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 14], 2
+	QUAD $0x030e364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 14], 3
+	QUAD $0x040e164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 14], 4
+	QUAD $0x050e2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 14], 5
+	QUAD $0x060e1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 14], 6
+	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
+	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
+	LONG $0x44b70f41; WORD $0x223e             // movzx    eax, word [r14 + rdi + 34]
+	LONG $0x28244489                           // mov    dword [rsp + 40], eax
+	QUAD $0x070e0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 14], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	QUAD $0x01120e74c40f4166                   // pinsrw    xmm6, word [r14 + rcx + 18], 1
+	QUAD $0x02123e74c40f4366                   // pinsrw    xmm6, word [r14 + r15 + 18], 2
+	QUAD $0x03123674c40f4166                   // pinsrw    xmm6, word [r14 + rsi + 18], 3
+	QUAD $0x04121674c40f4166                   // pinsrw    xmm6, word [r14 + rdx + 18], 4
+	QUAD $0x05122e74c40f4366                   // pinsrw    xmm6, word [r14 + r13 + 18], 5
+	QUAD $0x06121e74c40f4166                   // pinsrw    xmm6, word [r14 + rbx + 18], 6
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x07120e74c40f4366                   // pinsrw    xmm6, word [r14 + r9 + 18], 7
+	LONG $0x750f4166; BYTE $0xf3               // pcmpeqw    xmm6, xmm11
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
+	QUAD $0x0000e0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 224[rbp] /* [rip + .LCPI5_14] */
+	LONG $0x6f0f4566; BYTE $0xe2               // movdqa    xmm12, xmm10
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4566; WORD $0xe110             // pblendvb    xmm12, xmm9, xmm0
+	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
+	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
+	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
+	LONG $0x5cb70f45; WORD $0x243e             // movzx    r11d, word [r14 + rdi + 36]
+	QUAD $0x01100e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 16], 1
+	QUAD $0x02103e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 16], 2
+	QUAD $0x0310367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 16], 3
+	QUAD $0x0410167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 16], 4
+	QUAD $0x05102e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 16], 5
+	QUAD $0x06101e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 16], 6
+	QUAD $0x01140e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 20], 1
+	QUAD $0x02143e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 20], 2
+	QUAD $0x03143664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 20], 3
+	QUAD $0x04141664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 20], 4
+	QUAD $0x05142e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 20], 5
+	QUAD $0x06141e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 20], 6
+	QUAD $0x07140e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 20], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4566; WORD $0xf910             // pblendvb    xmm15, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xe4               // movd    xmm4, r12d
+	LONG $0x64b70f45; WORD $0x263e             // movzx    r12d, word [r14 + rdi + 38]
+	QUAD $0x07100e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 16], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI5_22] */
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x01160e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 22], 1
+	QUAD $0x02163e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 22], 2
+	QUAD $0x0316365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 22], 3
+	QUAD $0x0416165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 22], 4
+	QUAD $0x05162e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 22], 5
+	QUAD $0x06161e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 22], 6
+	QUAD $0x07160e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 22], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x01180e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 24], 1
+	QUAD $0x02183e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 24], 2
+	QUAD $0x03183654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 24], 3
+	QUAD $0x04181654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 24], 4
+	QUAD $0x05182e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 24], 5
+	QUAD $0x06181e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 24], 6
+	QUAD $0x07180e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 24], 7
+	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
+	QUAD $0x0000a0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 160[rbp] /* [rip + .LCPI5_10] */
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4566; WORD $0xf110             // pblendvb    xmm14, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
+	LONG $0x44b70f45; WORD $0x283e             // movzx    r8d, word [r14 + rdi + 40]
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4566; BYTE $0xf7               // por    xmm14, xmm15
+	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI5_11] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
+	LONG $0x7c6e0f66; WORD $0x2024             // movd    xmm7, dword [rsp + 32]
+	LONG $0x54b70f45; WORD $0x2a3e             // movzx    r10d, word [r14 + rdi + 42]
+	QUAD $0x011a0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 26], 1
+	QUAD $0x021a3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 26], 2
+	QUAD $0x031a364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 26], 3
+	QUAD $0x041a164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 26], 4
+	QUAD $0x051a2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 26], 5
+	QUAD $0x061a1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 26], 6
+	QUAD $0x071a0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 26], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x011c0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 28], 1
+	QUAD $0x021c3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 28], 2
+	QUAD $0x031c3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 28], 3
+	QUAD $0x041c1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 28], 4
+	QUAD $0x051c2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 28], 5
+	QUAD $0x061c1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 28], 6
+	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
+	QUAD $0x0000c0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 192[rbp] /* [rip + .LCPI5_12] */
+	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
+	LONG $0x546e0f66; WORD $0x2824             // movd    xmm2, dword [rsp + 40]
+	LONG $0x44b70f41; WORD $0x2c3e             // movzx    eax, word [r14 + rdi + 44]
+	LONG $0x20244489                           // mov    dword [rsp + 32], eax
+	QUAD $0x071c0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 28], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
+	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI5_13] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
+	LONG $0x5cb70f45; WORD $0x2e3e             // movzx    r11d, word [r14 + rdi + 46]
+	QUAD $0x011e0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 30], 1
+	QUAD $0x021e3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 30], 2
+	QUAD $0x031e365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 30], 3
+	QUAD $0x041e165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 30], 4
+	QUAD $0x051e2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 30], 5
+	QUAD $0x061e1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 30], 6
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0x6e0f4166; BYTE $0xcc               // movd    xmm1, r12d
+	LONG $0x44b70f41; WORD $0x303e             // movzx    eax, word [r14 + rdi + 48]
+	LONG $0x28244489                           // mov    dword [rsp + 40], eax
+	QUAD $0x071e0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 30], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	QUAD $0x01220e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 34], 1
+	QUAD $0x02223e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 34], 2
+	QUAD $0x03223654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 34], 3
+	QUAD $0x04221654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 34], 4
+	QUAD $0x05222e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 34], 5
+	QUAD $0x06221e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 34], 6
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x07220e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 34], 7
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
+	LONG $0x6f0f4566; BYTE $0xea               // movdqa    xmm13, xmm10
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4566; WORD $0xe910             // pblendvb    xmm13, xmm9, xmm0
+	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI5_8] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xd0               // movd    xmm2, r8d
+	LONG $0x64b70f45; WORD $0x323e             // movzx    r12d, word [r14 + rdi + 50]
+	QUAD $0x01200e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 32], 1
+	QUAD $0x02203e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 32], 2
+	QUAD $0x0320367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 32], 3
+	QUAD $0x0420167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 32], 4
+	QUAD $0x05202e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 32], 5
+	QUAD $0x06201e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 32], 6
+	QUAD $0x01240e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 36], 1
+	QUAD $0x02243e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 36], 2
+	QUAD $0x03243664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 36], 3
+	QUAD $0x04241664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 36], 4
+	QUAD $0x05242e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 36], 5
+	QUAD $0x06241e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 36], 6
+	QUAD $0x07240e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 36], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
+	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI5_9] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
+	LONG $0x54b70f45; WORD $0x343e             // movzx    r10d, word [r14 + rdi + 52]
+	QUAD $0x07200e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 32], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	LONG $0x760f4566; BYTE $0xf6               // pcmpeqd    xmm14, xmm14
+	LONG $0xef0f4166; BYTE $0xfe               // pxor    xmm7, xmm14
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x01260e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 38], 1
+	QUAD $0x02263e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 38], 2
+	QUAD $0x0326364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 38], 3
+	QUAD $0x0426164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 38], 4
+	QUAD $0x05262e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 38], 5
+	QUAD $0x06261e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 38], 6
+	QUAD $0x07260e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 38], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x01280e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 40], 1
+	QUAD $0x02283e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 40], 2
+	QUAD $0x03283654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 40], 3
+	QUAD $0x04281654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 40], 4
+	QUAD $0x05282e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 40], 5
+	QUAD $0x06281e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 40], 6
+	QUAD $0x07280e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 40], 7
+	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
+	QUAD $0x000000a0ad6f0f66                   // movdqa    xmm5, oword 160[rbp] /* [rip + .LCPI5_10] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
+	LONG $0x4c6e0f66; WORD $0x2024             // movd    xmm1, dword [rsp + 32]
+	LONG $0x44b70f45; WORD $0x363e             // movzx    r8d, word [r14 + rdi + 54]
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	QUAD $0x000000b0b56f0f66                   // movdqa    xmm6, oword 176[rbp] /* [rip + .LCPI5_11] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
+	LONG $0x44b70f41; WORD $0x383e             // movzx    eax, word [r14 + rdi + 56]
+	QUAD $0x012a0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 42], 1
+	QUAD $0x022a3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 42], 2
+	QUAD $0x032a365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 42], 3
+	QUAD $0x042a165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 42], 4
+	QUAD $0x052a2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 42], 5
+	QUAD $0x062a1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 42], 6
+	QUAD $0x072a0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 42], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x012c0e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 44], 1
+	QUAD $0x022c3e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 44], 2
+	QUAD $0x032c364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 44], 3
+	QUAD $0x042c164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 44], 4
+	QUAD $0x052c2e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 44], 5
+	QUAD $0x062c1e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 44], 6
+	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
+	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4166; WORD $0xd110             // pblendvb    xmm2, xmm9, xmm0
+	LONG $0x7c6e0f66; WORD $0x2824             // movd    xmm7, dword [rsp + 40]
+	LONG $0x5cb70f45; WORD $0x3a3e             // movzx    r11d, word [r14 + rdi + 58]
+	QUAD $0x072c0e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 44], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0x0000d0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 208[rbp] /* [rip + .LCPI5_13] */
+	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xcc               // movd    xmm1, r12d
+	LONG $0x64b70f45; WORD $0x3c3e             // movzx    r12d, word [r14 + rdi + 60]
+	LONG $0xf2eb0f66                           // por    xmm6, xmm2
+	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
+	QUAD $0x012e0e64c40f4166                   // pinsrw    xmm4, word [r14 + rcx + 46], 1
+	QUAD $0x022e3e64c40f4366                   // pinsrw    xmm4, word [r14 + r15 + 46], 2
+	QUAD $0x032e3664c40f4166                   // pinsrw    xmm4, word [r14 + rsi + 46], 3
+	QUAD $0x042e1664c40f4166                   // pinsrw    xmm4, word [r14 + rdx + 46], 4
+	QUAD $0x052e2e64c40f4366                   // pinsrw    xmm4, word [r14 + r13 + 46], 5
+	QUAD $0x062e1e64c40f4166                   // pinsrw    xmm4, word [r14 + rbx + 46], 6
+	QUAD $0x072e0e64c40f4366                   // pinsrw    xmm4, word [r14 + r9 + 46], 7
+	LONG $0x750f4166; BYTE $0xe3               // pcmpeqw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0x6f0f4566; BYTE $0xc2               // movdqa    xmm8, xmm10
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4566; WORD $0xc110             // pblendvb    xmm8, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xd8               // movd    xmm3, r8d
+	QUAD $0x01320e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 50], 1
+	QUAD $0x02323e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 50], 2
+	QUAD $0x0332364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 50], 3
+	QUAD $0x0432164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 50], 4
+	QUAD $0x05322e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 50], 5
+	QUAD $0x06321e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 50], 6
+	QUAD $0x07320e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 50], 7
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
+	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI5_8] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe110             // pblendvb    xmm4, xmm9, xmm0
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	QUAD $0x01300e7cc40f4166                   // pinsrw    xmm7, word [r14 + rcx + 48], 1
+	QUAD $0x02303e7cc40f4366                   // pinsrw    xmm7, word [r14 + r15 + 48], 2
+	QUAD $0x0330367cc40f4166                   // pinsrw    xmm7, word [r14 + rsi + 48], 3
+	QUAD $0x0430167cc40f4166                   // pinsrw    xmm7, word [r14 + rdx + 48], 4
+	QUAD $0x05302e7cc40f4366                   // pinsrw    xmm7, word [r14 + r13 + 48], 5
+	QUAD $0x06301e7cc40f4166                   // pinsrw    xmm7, word [r14 + rbx + 48], 6
+	QUAD $0x07300e7cc40f4366                   // pinsrw    xmm7, word [r14 + r9 + 48], 7
+	LONG $0x750f4166; BYTE $0xfb               // pcmpeqw    xmm7, xmm11
+	LONG $0xef0f4166; BYTE $0xfe               // pxor    xmm7, xmm14
+	QUAD $0x01340e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 52], 1
+	QUAD $0x02343e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 52], 2
+	QUAD $0x03343654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 52], 3
+	QUAD $0x04341654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 52], 4
+	QUAD $0x05342e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 52], 5
+	QUAD $0x06341e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 52], 6
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x07340e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 52], 7
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	QUAD $0x01360e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 54], 1
+	QUAD $0x02363e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 54], 2
+	QUAD $0x0336365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 54], 3
+	QUAD $0x0436165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 54], 4
+	QUAD $0x05362e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 54], 5
+	QUAD $0x06361e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 54], 6
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x07360e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 54], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	QUAD $0x01380e4cc40f4166                   // pinsrw    xmm1, word [r14 + rcx + 56], 1
+	QUAD $0x02383e4cc40f4366                   // pinsrw    xmm1, word [r14 + r15 + 56], 2
+	QUAD $0x0338364cc40f4166                   // pinsrw    xmm1, word [r14 + rsi + 56], 3
+	QUAD $0x0438164cc40f4166                   // pinsrw    xmm1, word [r14 + rdx + 56], 4
+	QUAD $0x05382e4cc40f4366                   // pinsrw    xmm1, word [r14 + r13 + 56], 5
+	QUAD $0x06381e4cc40f4166                   // pinsrw    xmm1, word [r14 + rbx + 56], 6
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x07380e4cc40f4366                   // pinsrw    xmm1, word [r14 + r9 + 56], 7
+	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
+	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI5_9] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xe910             // pblendvb    xmm5, xmm9, xmm0
+	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI5_10] */
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4166; WORD $0xf110             // pblendvb    xmm6, xmm9, xmm0
+	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
+	LONG $0x750f4166; BYTE $0xcb               // pcmpeqw    xmm1, xmm11
+	QUAD $0x013a0e54c40f4166                   // pinsrw    xmm2, word [r14 + rcx + 58], 1
+	QUAD $0x023a3e54c40f4366                   // pinsrw    xmm2, word [r14 + r15 + 58], 2
+	QUAD $0x033a3654c40f4166                   // pinsrw    xmm2, word [r14 + rsi + 58], 3
+	QUAD $0x043a1654c40f4166                   // pinsrw    xmm2, word [r14 + rdx + 58], 4
+	QUAD $0x053a2e54c40f4366                   // pinsrw    xmm2, word [r14 + r13 + 58], 5
+	QUAD $0x063a1e54c40f4166                   // pinsrw    xmm2, word [r14 + rbx + 58], 6
+	QUAD $0x073a0e54c40f4366                   // pinsrw    xmm2, word [r14 + r9 + 58], 7
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0x750f4166; BYTE $0xd3               // pcmpeqw    xmm2, xmm11
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0x6e0f4166; BYTE $0xdc               // movd    xmm3, r12d
+	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
+	QUAD $0x013c0e5cc40f4166                   // pinsrw    xmm3, word [r14 + rcx + 60], 1
+	QUAD $0x023c3e5cc40f4366                   // pinsrw    xmm3, word [r14 + r15 + 60], 2
+	QUAD $0x033c365cc40f4166                   // pinsrw    xmm3, word [r14 + rsi + 60], 3
+	QUAD $0x043c165cc40f4166                   // pinsrw    xmm3, word [r14 + rdx + 60], 4
+	QUAD $0x053c2e5cc40f4366                   // pinsrw    xmm3, word [r14 + r13 + 60], 5
+	QUAD $0x063c1e5cc40f4166                   // pinsrw    xmm3, word [r14 + rbx + 60], 6
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x073c0e5cc40f4366                   // pinsrw    xmm3, word [r14 + r9 + 60], 7
+	LONG $0x750f4166; BYTE $0xdb               // pcmpeqw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf4eb0f66                           // por    xmm6, xmm4
+	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI5_11] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe110             // pblendvb    xmm4, xmm9, xmm0
+	QUAD $0x000000c08d6f0f66                   // movdqa    xmm1, oword 192[rbp] /* [rip + .LCPI5_12] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xc910             // pblendvb    xmm1, xmm9, xmm0
+	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4166; WORD $0xd110             // pblendvb    xmm2, xmm9, xmm0
+	LONG $0xcceb0f66                           // por    xmm1, xmm4
+	LONG $0x44b70f41; WORD $0x3e3e             // movzx    eax, word [r14 + rdi + 62]
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	QUAD $0x013e0e44c40f4166                   // pinsrw    xmm0, word [r14 + rcx + 62], 1
+	QUAD $0x023e3e44c40f4366                   // pinsrw    xmm0, word [r14 + r15 + 62], 2
+	QUAD $0x033e3644c40f4166                   // pinsrw    xmm0, word [r14 + rsi + 62], 3
+	QUAD $0x043e1644c40f4166                   // pinsrw    xmm0, word [r14 + rdx + 62], 4
+	QUAD $0x053e2e44c40f4366                   // pinsrw    xmm0, word [r14 + r13 + 62], 5
+	QUAD $0x063e1e44c40f4166                   // pinsrw    xmm0, word [r14 + rbx + 62], 6
+	QUAD $0x073e0e44c40f4366                   // pinsrw    xmm0, word [r14 + r9 + 62], 7
+	LONG $0x750f4166; BYTE $0xc3               // pcmpeqw    xmm0, xmm11
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	LONG $0x380f4566; WORD $0xd110             // pblendvb    xmm10, xmm9, xmm0
+	LONG $0xeb0f4466; BYTE $0xd2               // por    xmm10, xmm2
+	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
+	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
+	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
+	LONG $0x6c0f4166; BYTE $0xd2               // punpcklqdq    xmm2, xmm10
+	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI5_15] */
+	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
+	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
+	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
+	LONG $0x600f4566; BYTE $0xc2               // punpcklbw    xmm8, xmm10
+	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
+	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	LONG $0x7f0f45f3; WORD $0x8824             // movdqu    oword [r8 + 4*rcx], xmm12
+	LONG $0x2444894c; BYTE $0x08               // mov    qword [rsp + 8], r8
+	LONG $0x7f0f41f3; WORD $0x8844; BYTE $0x10 // movdqu    oword [r8 + 4*rcx + 16], xmm0
+	LONG $0x08c18348                           // add    rcx, 8
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
+	JNE  LBB5_133
+	QUAD $0x000000e024948b4c                   // mov    r10, qword [rsp + 224]
+	LONG $0x24543b4c; BYTE $0x18               // cmp    r10, qword [rsp + 24]
+	QUAD $0x000000a024bc8b4c                   // mov    r15, qword [rsp + 160]
+	LONG $0x245c8b44; BYTE $0x10               // mov    r11d, dword [rsp + 16]
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	JNE  LBB5_135
+	JMP  LBB5_138
+
+LBB5_180:
+	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
+	LONG $0xfce08349                           // and    r8, -4
+	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
+	LONG $0x07e3c148                           // shl    rbx, 7
+	WORD $0x014c; BYTE $0xf3                   // add    rbx, r14
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	LONG $0x801c8d4e                           // lea    r11, [rax + 4*r8]
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
+	LONG $0xfcc68149; WORD $0x0001; BYTE $0x00 // add    r14, 508
+	WORD $0xc931                               // xor    ecx, ecx
+	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI5_0] */
+	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI5_1] */
+	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI5_2] */
+	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI5_3] */
+	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI5_4] */
+	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI5_5] */
+	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI5_6] */
+	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI5_7] */
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+
+LBB5_181:
+	QUAD $0xfffe04b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 508]
+	QUAD $0xfffe08be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 504]
+	QUAD $0xfffe0cae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 500]
+	QUAD $0xfffe10a6100f41f3; BYTE $0xff               // movss    xmm4, dword [r14 - 496]
+	QUAD $0xfe84b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 380], 16
+	QUAD $0xff04b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 252], 32
+	QUAD $0x308476213a0f4166                           // insertps    xmm6, dword [r14 - 124], 48
+	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
+	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	QUAD $0xfe88be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 376], 16
+	QUAD $0xff08be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 248], 32
+	QUAD $0x30887e213a0f4166                           // insertps    xmm7, dword [r14 - 120], 48
+	QUAD $0xfe8cae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 372], 16
+	QUAD $0xff0cae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 244], 32
+	QUAD $0x308c6e213a0f4166                           // insertps    xmm5, dword [r14 - 116], 48
+	QUAD $0xfe90a6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm4, dword [r14 - 368], 16
+	QUAD $0xff10a6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm4, dword [r14 - 240], 32
+	QUAD $0x309066213a0f4166                           // insertps    xmm4, dword [r14 - 112], 48
+	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
+	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
+	LONG $0xd76f0f66                                   // movdqa    xmm2, xmm7
+	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
+	LONG $0xd7f80f66                                   // psubb    xmm2, xmm7
+	QUAD $0xfffe14be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 492]
+	QUAD $0xfe94be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 364], 16
+	QUAD $0xff14be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 236], 32
+	QUAD $0x30947e213a0f4166                           // insertps    xmm7, dword [r14 - 108], 48
+	LONG $0xd6eb0f66                                   // por    xmm2, xmm6
+	QUAD $0xfffe18b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 488]
+	QUAD $0xfe98b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 360], 16
+	QUAD $0xff18b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 232], 32
+	QUAD $0x309876213a0f4166                           // insertps    xmm6, dword [r14 - 104], 48
+	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
+	LONG $0xdb0f4166; BYTE $0xe8                       // pand    xmm5, xmm8
+	LONG $0xeaeb0f66                                   // por    xmm5, xmm2
+	QUAD $0xfffe1c9e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 484]
+	QUAD $0xfe9c9e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 356], 16
+	QUAD $0xff1c9e213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm3, dword [r14 - 228], 32
+	QUAD $0x309c5e213a0f4166                           // insertps    xmm3, dword [r14 - 100], 48
+	LONG $0x04e1c20f                                   // cmpneqps    xmm4, xmm1
+	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
+	LONG $0xf4710f66; BYTE $0x03                       // psllw    xmm4, 3
+	LONG $0xdb0f4166; BYTE $0xe2                       // pand    xmm4, xmm10
+	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
+	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x04                       // psllw    xmm7, 4
+	LONG $0xdb0f4166; BYTE $0xfb                       // pand    xmm7, xmm11
+	LONG $0xfceb0f66                                   // por    xmm7, xmm4
+	QUAD $0xfffe20a6100f41f3; BYTE $0xff               // movss    xmm4, dword [r14 - 480]
+	QUAD $0xfea0a6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm4, dword [r14 - 352], 16
+	QUAD $0xff20a6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm4, dword [r14 - 224], 32
+	QUAD $0x30a066213a0f4166                           // insertps    xmm4, dword [r14 - 96], 48
+	LONG $0xfdeb0f66                                   // por    xmm7, xmm5
+	QUAD $0xfffe24ae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 476]
+	QUAD $0xfea4ae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 348], 16
+	QUAD $0xff24ae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 220], 32
+	QUAD $0x30a46e213a0f4166                           // insertps    xmm5, dword [r14 - 92], 48
+	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
+	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05                       // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4                       // pand    xmm6, xmm12
+	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
+	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x06                       // psllw    xmm3, 6
+	LONG $0xdb0f4166; BYTE $0xdd                       // pand    xmm3, xmm13
+	LONG $0xdeeb0f66                                   // por    xmm3, xmm6
+	QUAD $0xfffe2896100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 472]
+	QUAD $0xfea896213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 344], 16
+	QUAD $0xff2896213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 216], 32
+	QUAD $0x30a856213a0f4166                           // insertps    xmm2, dword [r14 - 88], 48
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0x04e1c20f                                   // cmpneqps    xmm4, xmm1
+	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
+	LONG $0xf4710f66; BYTE $0x07                       // psllw    xmm4, 7
+	LONG $0xdb0f4166; BYTE $0xe6                       // pand    xmm4, xmm14
+	LONG $0xe3eb0f66                                   // por    xmm4, xmm3
+	QUAD $0xfffe2c9e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 468]
+	QUAD $0xfeac9e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 340], 16
+	QUAD $0xff2c9e213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm3, dword [r14 - 212], 32
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	QUAD $0x30ac5e213a0f4166                           // insertps    xmm3, dword [r14 - 84], 48
+	LONG $0xe7eb0f66                                   // por    xmm4, xmm7
+	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
+	LONG $0xf26f0f66                                   // movdqa    xmm6, xmm2
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	LONG $0xf2f80f66                                   // psubb    xmm6, xmm2
+	QUAD $0xfffe30be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 464]
+	QUAD $0xfeb0be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 336], 16
+	QUAD $0xff30be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 208], 32
+	QUAD $0x30b07e213a0f4166                           // insertps    xmm7, dword [r14 - 80], 48
+	LONG $0xf5eb0f66                                   // por    xmm6, xmm5
+	QUAD $0xfffe34ae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 460]
+	QUAD $0xfeb4ae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 332], 16
+	QUAD $0xff34ae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 204], 32
+	QUAD $0x30b46e213a0f4166                           // insertps    xmm5, dword [r14 - 76], 48
+	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
+	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02                       // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8                       // pand    xmm3, xmm8
+	LONG $0xdeeb0f66                                   // por    xmm3, xmm6
+	QUAD $0xfffe38b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 456]
+	QUAD $0xfeb8b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 328], 16
+	QUAD $0xff38b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 200], 32
+	QUAD $0x30b876213a0f4166                           // insertps    xmm6, dword [r14 - 72], 48
+	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
+	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x03                       // psllw    xmm7, 3
+	LONG $0xdb0f4166; BYTE $0xfa                       // pand    xmm7, xmm10
+	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04                       // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb                       // pand    xmm5, xmm11
+	LONG $0xefeb0f66                                   // por    xmm5, xmm7
+	QUAD $0xfffe3c96100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 452]
+	QUAD $0xfebc96213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 324], 16
+	QUAD $0xff3c96213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 196], 32
+	QUAD $0x30bc56213a0f4166                           // insertps    xmm2, dword [r14 - 68], 48
+	LONG $0xebeb0f66                                   // por    xmm5, xmm3
+	QUAD $0xfffe40be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 448]
+	QUAD $0xfec0be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 320], 16
+	QUAD $0xff40be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 192], 32
+	QUAD $0x30c07e213a0f4166                           // insertps    xmm7, dword [r14 - 64], 48
+	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
+	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05                       // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4                       // pand    xmm6, xmm12
+	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06                       // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5                       // pand    xmm2, xmm13
+	LONG $0xd6eb0f66                                   // por    xmm2, xmm6
+	QUAD $0xfffe44b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 444]
+	QUAD $0xfec4b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 316], 16
+	QUAD $0xff44b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 188], 32
+	QUAD $0x30c476213a0f4166                           // insertps    xmm6, dword [r14 - 60], 48
+	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
+	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
+	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
+	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
+	LONG $0xf7710f66; BYTE $0x07                       // psllw    xmm7, 7
+	LONG $0xdb0f4166; BYTE $0xfe                       // pand    xmm7, xmm14
+	LONG $0xfaeb0f66                                   // por    xmm7, xmm2
+	QUAD $0xfffe4896100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 440]
+	QUAD $0xfec896213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 312], 16
+	QUAD $0xff4896213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 184], 32
+	QUAD $0x30c856213a0f4166                           // insertps    xmm2, dword [r14 - 56], 48
+	LONG $0xfdeb0f66                                   // por    xmm7, xmm5
+	QUAD $0xfffe4c9e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 436]
+	QUAD $0xfecc9e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 308], 16
+	QUAD $0xff4c9e213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm3, dword [r14 - 180], 32
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	QUAD $0x30cc5e213a0f4166                           // insertps    xmm3, dword [r14 - 52], 48
+	LONG $0xe7620f66                                   // punpckldq    xmm4, xmm7
+	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
+	LONG $0xfa6f0f66                                   // movdqa    xmm7, xmm2
+	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
+	LONG $0xfaf80f66                                   // psubb    xmm7, xmm2
+	QUAD $0xfffe50ae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 432]
+	QUAD $0xfed0ae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 304], 16
+	QUAD $0xff50ae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 176], 32
+	QUAD $0x30d06e213a0f4166                           // insertps    xmm5, dword [r14 - 48], 48
+	LONG $0xfeeb0f66                                   // por    xmm7, xmm6
+	QUAD $0xfffe54b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 428]
+	QUAD $0xfed4b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 300], 16
+	QUAD $0xff54b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 172], 32
+	QUAD $0x30d476213a0f4166                           // insertps    xmm6, dword [r14 - 44], 48
+	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
+	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02                       // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8                       // pand    xmm3, xmm8
+	LONG $0xdfeb0f66                                   // por    xmm3, xmm7
+	QUAD $0xfffe58be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 424]
+	QUAD $0xfed8be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 296], 16
+	QUAD $0xff58be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 168], 32
+	QUAD $0x30d87e213a0f4166                           // insertps    xmm7, dword [r14 - 40], 48
+	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x03                       // psllw    xmm5, 3
+	LONG $0xdb0f4166; BYTE $0xea                       // pand    xmm5, xmm10
+	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
+	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x04                       // psllw    xmm6, 4
+	LONG $0xdb0f4166; BYTE $0xf3                       // pand    xmm6, xmm11
+	LONG $0xf5eb0f66                                   // por    xmm6, xmm5
+	QUAD $0xfffe5c96100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 420]
+	QUAD $0xfedc96213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 292], 16
+	QUAD $0xff5c96213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 164], 32
+	QUAD $0x30dc56213a0f4166                           // insertps    xmm2, dword [r14 - 36], 48
+	LONG $0xf3eb0f66                                   // por    xmm6, xmm3
+	QUAD $0xfffe60ae100f41f3; BYTE $0xff               // movss    xmm5, dword [r14 - 416]
+	QUAD $0xfee0ae213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm5, dword [r14 - 288], 16
+	QUAD $0xff60ae213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm5, dword [r14 - 160], 32
+	QUAD $0x30e06e213a0f4166                           // insertps    xmm5, dword [r14 - 32], 48
+	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
+	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x05                       // psllw    xmm7, 5
+	LONG $0xdb0f4166; BYTE $0xfc                       // pand    xmm7, xmm12
+	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06                       // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5                       // pand    xmm2, xmm13
+	LONG $0xd7eb0f66                                   // por    xmm2, xmm7
+	QUAD $0xfffe64be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 412]
+	QUAD $0xfee4be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 284], 16
+	QUAD $0xff64be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 156], 32
+	QUAD $0x30e47e213a0f4166                           // insertps    xmm7, dword [r14 - 28], 48
+	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
+	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
+	LONG $0x04e9c20f                                   // cmpneqps    xmm5, xmm1
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xf5710f66; BYTE $0x07                       // psllw    xmm5, 7
+	LONG $0xdb0f4166; BYTE $0xee                       // pand    xmm5, xmm14
+	LONG $0xeaeb0f66                                   // por    xmm5, xmm2
+	QUAD $0xfffe6896100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 408]
+	QUAD $0xfee896213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 280], 16
+	QUAD $0xff6896213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 152], 32
+	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
+	QUAD $0x30e856213a0f4166                           // insertps    xmm2, dword [r14 - 24], 48
+	LONG $0xeeeb0f66                                   // por    xmm5, xmm6
+	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
+	LONG $0xf26f0f66                                   // movdqa    xmm6, xmm2
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	LONG $0xf2f80f66                                   // psubb    xmm6, xmm2
+	QUAD $0xfffe6c9e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 404]
+	QUAD $0xfeec9e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 276], 16
+	QUAD $0xff6c9e213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm3, dword [r14 - 148], 32
+	QUAD $0x30ec5e213a0f4166                           // insertps    xmm3, dword [r14 - 20], 48
+	LONG $0xf7eb0f66                                   // por    xmm6, xmm7
+	QUAD $0xfffe7096100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 400]
+	QUAD $0xfef096213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 272], 16
+	QUAD $0xff7096213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 144], 32
+	QUAD $0x30f056213a0f4166                           // insertps    xmm2, dword [r14 - 16], 48
+	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
+	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02                       // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8                       // pand    xmm3, xmm8
+	LONG $0xdeeb0f66                                   // por    xmm3, xmm6
+	QUAD $0xfffe74b6100f41f3; BYTE $0xff               // movss    xmm6, dword [r14 - 396]
+	QUAD $0xfef4b6213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm6, dword [r14 - 268], 16
+	QUAD $0xff74b6213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm6, dword [r14 - 140], 32
+	QUAD $0x30f476213a0f4166                           // insertps    xmm6, dword [r14 - 12], 48
+	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x03                       // psllw    xmm2, 3
+	LONG $0xdb0f4166; BYTE $0xd2                       // pand    xmm2, xmm10
+	LONG $0x04f1c20f                                   // cmpneqps    xmm6, xmm1
+	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x04                       // psllw    xmm6, 4
+	LONG $0xdb0f4166; BYTE $0xf3                       // pand    xmm6, xmm11
+	LONG $0xf2eb0f66                                   // por    xmm6, xmm2
+	QUAD $0xfffe78be100f41f3; BYTE $0xff               // movss    xmm7, dword [r14 - 392]
+	QUAD $0xfef8be213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm7, dword [r14 - 264], 16
+	QUAD $0xff78be213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm7, dword [r14 - 136], 32
+	QUAD $0x30f87e213a0f4166                           // insertps    xmm7, dword [r14 - 8], 48
+	LONG $0xf3eb0f66                                   // por    xmm6, xmm3
+	QUAD $0xfffe7c96100f41f3; BYTE $0xff               // movss    xmm2, dword [r14 - 388]
+	QUAD $0xfefc96213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm2, dword [r14 - 260], 16
+	QUAD $0xff7c96213a0f4166; WORD $0xffff; BYTE $0x20 // insertps    xmm2, dword [r14 - 132], 32
+	QUAD $0x30fc56213a0f4166                           // insertps    xmm2, dword [r14 - 4], 48
+	LONG $0x04f9c20f                                   // cmpneqps    xmm7, xmm1
+	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
+	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x05                       // psllw    xmm7, 5
+	LONG $0xdb0f4166; BYTE $0xfc                       // pand    xmm7, xmm12
+	LONG $0x04d1c20f                                   // cmpneqps    xmm2, xmm1
+	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7                       // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06                       // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5                       // pand    xmm2, xmm13
+	LONG $0xd7eb0f66                                   // por    xmm2, xmm7
+	QUAD $0xfffe809e100f41f3; BYTE $0xff               // movss    xmm3, dword [r14 - 384]
+	QUAD $0xff009e213a0f4166; WORD $0xffff; BYTE $0x10 // insertps    xmm3, dword [r14 - 256], 16
+	QUAD $0x20805e213a0f4166                           // insertps    xmm3, dword [r14 - 128], 32
+	LONG $0x3a0f4166; WORD $0x1e21; BYTE $0x30         // insertps    xmm3, dword [r14], 48
+	LONG $0x04d9c20f                                   // cmpneqps    xmm3, xmm1
+	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
+	LONG $0xf3710f66; BYTE $0x07                       // psllw    xmm3, 7
+	LONG $0xdb0f4166; BYTE $0xde                       // pand    xmm3, xmm14
+	LONG $0xdaeb0f66                                   // por    xmm3, xmm2
+	LONG $0xdeeb0f66                                   // por    xmm3, xmm6
+	LONG $0xeb620f66                                   // punpckldq    xmm5, xmm3
+	LONG $0xe5600f66                                   // punpcklbw    xmm4, xmm5
+	LONG $0x380f4166; WORD $0xe100                     // pshufb    xmm4, xmm9
+	LONG $0x247f0ff3; BYTE $0x88                       // movdqu    oword [rax + 4*rcx], xmm4
+	LONG $0x04c18348                                   // add    rcx, 4
+	LONG $0x00c68149; WORD $0x0002; BYTE $0x00         // add    r14, 512
+	WORD $0x3949; BYTE $0xc8                           // cmp    r8, rcx
+	JNE  LBB5_181
+	WORD $0x394d; BYTE $0xc2                           // cmp    r10, r8
+	JNE  LBB5_183
+	JMP  LBB5_186
+
+TEXT ·_comparison_greater_arr_arr_sse4(SB), $80-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	ADDQ $8, SP
+
+	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
+	WORD $0x8949; BYTE $0xce // mov    r14, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB6_29
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB6_2
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB6_68
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB6_79
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB6_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_22
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_20:
+	WORD $0x0a8b                 // mov    ecx, dword [rdx]
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0x0e3b                 // cmp    ecx, dword [rsi]
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
+	LONG $0x07588d48             // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd8490f48             // cmovns    rbx, rax
+	LONG $0x03fbc148             // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
+	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_20
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_22:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_26
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB6_24:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	LONG $0xd5970f41                           // seta    r13b
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	LONG $0xd7970f41                           // seta    r15b
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	LONG $0xd0970f41                           // seta    r8b
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	LONG $0xd1970f41                           // seta    r9b
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0xd4970f41                           // seta    r12b
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	LONG $0x405e8b44                           // mov    r11d, dword [rsi + 64]
+	LONG $0xd2970f41                           // seta    r10b
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x405a3b44                           // cmp    r11d, dword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	LONG $0xd6970f41                           // seta    r14b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x4c                   // mov    eax, dword [rsi + 76]
+	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
+	WORD $0x423b; BYTE $0x4c                   // cmp    eax, dword [rdx + 76]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd3970f41                           // seta    r11b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd7970f40                           // seta    dil
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
+	LONG $0x246c0244; BYTE $0x28               // add    r13b, byte [rsp + 40]
+	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14               // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x6cb60f44; WORD $0x1524             // movzx    r13d, byte [rsp + 21]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xd9                   // or    r9b, bl
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x04e4c041                           // shl    r12b, 4
+	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
+	LONG $0x245cb60f; BYTE $0x05               // movzx    ebx, byte [rsp + 5]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0a               // add    r14b, byte [rsp + 10]
+	LONG $0x244cb60f; BYTE $0x06               // movzx    ecx, byte [rsp + 6]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0844; BYTE $0xf1                   // or    cl, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0841; BYTE $0xcb                   // or    r11b, cl
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xd9                   // or    cl, r11b
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x0b               // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x44b60f44; WORD $0x0d24             // movzx    r8d, byte [rsp + 13]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0844; BYTE $0xc7                   // or    dil, r8b
+	LONG $0x01568845                           // mov    byte [r14 + 1], r10b
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x244cb60f; BYTE $0x0e               // movzx    ecx, byte [rsp + 14]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x13244c02                           // add    cl, byte [rsp + 19]
+	LONG $0x245cb60f; BYTE $0x0c               // movzx    ebx, byte [rsp + 12]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x244cb60f; BYTE $0x0f               // movzx    ecx, byte [rsp + 15]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x12               // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x027e8841                           // mov    byte [r14 + 2], dil
+	LONG $0x03468841                           // mov    byte [r14 + 3], al
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff20             // add    qword [rsp + 32], -1
+	JNE  LBB6_24
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+
+LBB6_26:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_28:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8a     // mov    edi, dword [rdx + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8e     // cmp    edi, dword [rsi + 4*rcx]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_28
+	JMP  LBB6_123
+
+LBB6_29:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB6_30
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB6_101
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB6_112
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB6_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_50
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_48:
+	LONG $0x06100ff2             // movsd    xmm0, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
+	LONG $0xd2970f41             // seta    r10b
+	LONG $0x08c28348             // add    rdx, 8
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_48
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_50:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_54
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB6_52:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x06100ff2                           // movsd    xmm0, qword [rsi]
+	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	LONG $0x46100ff2; BYTE $0x08               // movsd    xmm0, qword [rsi + 8]
+	LONG $0x422e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rdx + 8]
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x46100ff2; BYTE $0x10               // movsd    xmm0, qword [rsi + 16]
+	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
+	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
+	LONG $0x46100ff2; BYTE $0x18               // movsd    xmm0, qword [rsi + 24]
+	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
+	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
+	LONG $0x46100ff2; BYTE $0x20               // movsd    xmm0, qword [rsi + 32]
+	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
+	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
+	LONG $0x46100ff2; BYTE $0x28               // movsd    xmm0, qword [rsi + 40]
+	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
+	LONG $0x46100ff2; BYTE $0x30               // movsd    xmm0, qword [rsi + 48]
+	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x46100ff2; BYTE $0x38               // movsd    xmm0, qword [rsi + 56]
+	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x46100ff2; BYTE $0x40               // movsd    xmm0, qword [rsi + 64]
+	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x46100ff2; BYTE $0x48               // movsd    xmm0, qword [rsi + 72]
+	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x46100ff2; BYTE $0x50               // movsd    xmm0, qword [rsi + 80]
+	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x46100ff2; BYTE $0x58               // movsd    xmm0, qword [rsi + 88]
+	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x46100ff2; BYTE $0x60               // movsd    xmm0, qword [rsi + 96]
+	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x46100ff2; BYTE $0x68               // movsd    xmm0, qword [rsi + 104]
+	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
+	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
+	LONG $0x46100ff2; BYTE $0x70               // movsd    xmm0, qword [rsi + 112]
+	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
+	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
+	LONG $0x46100ff2; BYTE $0x78               // movsd    xmm0, qword [rsi + 120]
+	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	QUAD $0x0000008086100ff2                   // movsd    xmm0, qword [rsi + 128]
+	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
+	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
+	QUAD $0x0000008886100ff2                   // movsd    xmm0, qword [rsi + 136]
+	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
+	LONG $0xd4970f41                           // seta    r12b
+	QUAD $0x0000009086100ff2                   // movsd    xmm0, qword [rsi + 144]
+	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
+	LONG $0xd5970f41                           // seta    r13b
+	QUAD $0x0000009886100ff2                   // movsd    xmm0, qword [rsi + 152]
+	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
+	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
+	QUAD $0x000000a086100ff2                   // movsd    xmm0, qword [rsi + 160]
+	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
+	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
+	QUAD $0x000000a886100ff2                   // movsd    xmm0, qword [rsi + 168]
+	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
+	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
+	QUAD $0x000000b086100ff2                   // movsd    xmm0, qword [rsi + 176]
+	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
+	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
+	QUAD $0x000000b886100ff2                   // movsd    xmm0, qword [rsi + 184]
+	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
+	LONG $0xd1970f41                           // seta    r9b
+	QUAD $0x000000c086100ff2                   // movsd    xmm0, qword [rsi + 192]
+	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
+	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
+	QUAD $0x000000c886100ff2                   // movsd    xmm0, qword [rsi + 200]
+	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
+	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
+	QUAD $0x000000d086100ff2                   // movsd    xmm0, qword [rsi + 208]
+	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
+	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
+	QUAD $0x000000d886100ff2                   // movsd    xmm0, qword [rsi + 216]
+	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	QUAD $0x000000e086100ff2                   // movsd    xmm0, qword [rsi + 224]
+	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
+	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
+	QUAD $0x000000e886100ff2                   // movsd    xmm0, qword [rsi + 232]
+	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
+	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
+	QUAD $0x000000f086100ff2                   // movsd    xmm0, qword [rsi + 240]
+	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
+	QUAD $0x000000f886100ff2                   // movsd    xmm0, qword [rsi + 248]
+	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
+	LONG $0xd0970f41                           // seta    r8b
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x04244c02                           // add    cl, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	LONG $0x247c0240; BYTE $0x08               // add    dil, byte [rsp + 8]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e2c041                           // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0xcf89                               // mov    edi, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x07               // movzx    edi, byte [rsp + 7]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0e               // add    r12b, byte [rsp + 14]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x13               // movzx    eax, byte [rsp + 19]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB6_52
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB6_54:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_56:
+	LONG $0x04100ff2; BYTE $0xce // movsd    xmm0, qword [rsi + 8*rcx]
+	LONG $0x042e0f66; BYTE $0xca // ucomisd    xmm0, qword [rdx + 8*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x970f; BYTE $0xd3     // seta    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_56
+	JMP  LBB6_123
+
+LBB6_2:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB6_57
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB6_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_8
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_6:
+	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x0a3a                 // cmp    cl, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0xd29f0f41             // setg    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_6
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_8:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_12
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB6_10:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x24549f0f; BYTE $0x28   // setg    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x9f0f; BYTE $0xd1       // setg    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x24549f0f; BYTE $0x14   // setg    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x24549f0f; BYTE $0x15   // setg    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x24549f0f; BYTE $0x16   // setg    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x24549f0f; BYTE $0x17   // setg    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x24549f0f; BYTE $0x04   // setg    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd79f0f41               // setg    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x24549f0f; BYTE $0x07   // setg    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd79f0f40               // setg    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd29f0f41               // setg    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd39f0f41               // setg    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd69f0f41               // setg    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x24549f0f; BYTE $0x05   // setg    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x24549f0f; BYTE $0x06   // setg    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x9f0f; BYTE $0xd3       // setg    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x24549f0f; BYTE $0x0d   // setg    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd49f0f41               // setg    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd59f0f41               // setg    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x24549f0f; BYTE $0x08   // setg    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x24549f0f; BYTE $0x09   // setg    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x24549f0f; BYTE $0x0a   // setg    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x24549f0f; BYTE $0x0b   // setg    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd19f0f41               // setg    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x24549f0f; BYTE $0x13   // setg    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x24549f0f; BYTE $0x0c   // setg    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x24549f0f; BYTE $0x0e   // setg    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x24549f0f; BYTE $0x0f   // setg    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x24549f0f; BYTE $0x10   // setg    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x24549f0f; BYTE $0x11   // setg    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x24549f0f; BYTE $0x12   // setg    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd09f0f41               // setg    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB6_10
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB6_12:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_14:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
+	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_14
+	JMP  LBB6_123
+
+LBB6_30:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB6_90
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB6_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_36
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_34:
+	WORD $0x8b48; BYTE $0x0a     // mov    rcx, qword [rdx]
+	LONG $0x08c28348             // add    rdx, 8
+	WORD $0x3b48; BYTE $0x0e     // cmp    rcx, qword [rsi]
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
+	LONG $0x07588d48             // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd8490f48             // cmovns    rbx, rax
+	LONG $0x03fbc148             // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
+	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_34
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_36:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_40
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB6_38:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0xd5970f41                           // seta    r13b
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	LONG $0x809e8b4c; WORD $0x0000; BYTE $0x00 // mov    r11, qword [rsi + 128]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x809a3b4c; WORD $0x0000; BYTE $0x00 // cmp    r11, qword [rdx + 128]
+	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0x98868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 152]
+	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
+	LONG $0x98823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 152]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
+	LONG $0x246c0244; BYTE $0x28               // add    r13b, byte [rsp + 40]
+	LONG $0x244cb60f; BYTE $0x04               // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14               // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x6cb60f44; WORD $0x1524             // movzx    r13d, byte [rsp + 21]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xd9                   // or    r9b, bl
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x04e4c041                           // shl    r12b, 4
+	WORD $0x0845; BYTE $0xcc                   // or    r12b, r9b
+	LONG $0x245cb60f; BYTE $0x05               // movzx    ebx, byte [rsp + 5]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0a               // add    r14b, byte [rsp + 10]
+	LONG $0x244cb60f; BYTE $0x06               // movzx    ecx, byte [rsp + 6]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0844; BYTE $0xf1                   // or    cl, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0841; BYTE $0xcb                   // or    r11b, cl
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xd9                   // or    cl, r11b
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x0b               // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x44b60f44; WORD $0x0d24             // movzx    r8d, byte [rsp + 13]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0844; BYTE $0xc7                   // or    dil, r8b
+	LONG $0x01568845                           // mov    byte [r14 + 1], r10b
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x244cb60f; BYTE $0x0e               // movzx    ecx, byte [rsp + 14]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x13244c02                           // add    cl, byte [rsp + 19]
+	LONG $0x245cb60f; BYTE $0x0c               // movzx    ebx, byte [rsp + 12]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0xcb08                               // or    bl, cl
+	LONG $0x244cb60f; BYTE $0x0f               // movzx    ecx, byte [rsp + 15]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x12               // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x027e8841                           // mov    byte [r14 + 2], dil
+	LONG $0x03468841                           // mov    byte [r14 + 3], al
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff20             // add    qword [rsp + 32], -1
+	JNE  LBB6_38
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+
+LBB6_40:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_42:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xca3c8b48             // mov    rdi, qword [rdx + 8*rcx]
+	LONG $0xce3c3b48             // cmp    rdi, qword [rsi + 8*rcx]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_42
+	JMP  LBB6_123
+
+LBB6_68:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_72
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_70:
+	WORD $0xb70f; BYTE $0x0a     // movzx    ecx, word [rdx]
+	LONG $0x02c28348             // add    rdx, 2
+	WORD $0x3b66; BYTE $0x0e     // cmp    cx, word [rsi]
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
+	LONG $0x07588d48             // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd8490f48             // cmovns    rbx, rax
+	LONG $0x03fbc148             // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
+	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_70
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_72:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_76
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB6_74:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x2454970f; BYTE $0x28   // seta    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0xd5970f41               // seta    r13b
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x2454970f; BYTE $0x14   // seta    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x2454970f; BYTE $0x15   // seta    byte [rsp + 21]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x2454970f; BYTE $0x17   // seta    byte [rsp + 23]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x2454970f; BYTE $0x16   // seta    byte [rsp + 22]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x2454970f; BYTE $0x04   // seta    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0xd7970f41               // seta    r15b
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x2454970f; BYTE $0x09   // seta    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0xd0970f41               // seta    r8b
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	WORD $0x970f; BYTE $0xd3       // seta    bl
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0xd1970f41               // seta    r9b
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0xd4970f41               // seta    r12b
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x2454970f; BYTE $0x05   // seta    byte [rsp + 5]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x2454970f; BYTE $0x07   // seta    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	LONG $0x5eb70f44; BYTE $0x20   // movzx    r11d, word [rsi + 32]
+	LONG $0xd2970f41               // seta    r10b
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x5a3b4466; BYTE $0x20   // cmp    r11w, word [rdx + 32]
+	LONG $0x2454970f; BYTE $0x0a   // seta    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0xd6970f41               // seta    r14b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2646b70f               // movzx    eax, word [rsi + 38]
+	LONG $0x2454970f; BYTE $0x06   // seta    byte [rsp + 6]
+	LONG $0x26423b66               // cmp    ax, word [rdx + 38]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd3970f41               // seta    r11b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x2454970f; BYTE $0x08   // seta    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x2454970f; BYTE $0x0b   // seta    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2454970f; BYTE $0x0d   // seta    byte [rsp + 13]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd7970f40               // seta    dil
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x2454970f; BYTE $0x13   // seta    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x2454970f; BYTE $0x0e   // seta    byte [rsp + 14]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x2454970f; BYTE $0x0c   // seta    byte [rsp + 12]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x2454970f; BYTE $0x0f   // seta    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x2454970f; BYTE $0x12   // seta    byte [rsp + 18]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x2454970f; BYTE $0x11   // seta    byte [rsp + 17]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x2454970f; BYTE $0x10   // seta    byte [rsp + 16]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	WORD $0x970f; BYTE $0xd0       // seta    al
+	WORD $0x0045; BYTE $0xed       // add    r13b, r13b
+	LONG $0x246c0244; BYTE $0x28   // add    r13b, byte [rsp + 40]
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x6cb60f44; WORD $0x1524 // movzx    r13d, byte [rsp + 21]
+	LONG $0x03e5c041               // shl    r13b, 3
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xe3c0; BYTE $0x02       // shl    bl, 2
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e1c041               // shl    r9b, 3
+	WORD $0x0841; BYTE $0xd9       // or    r9b, bl
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x04e4c041               // shl    r12b, 4
+	WORD $0x0845; BYTE $0xcc       // or    r12b, r9b
+	LONG $0x245cb60f; BYTE $0x05   // movzx    ebx, byte [rsp + 5]
+	WORD $0xe3c0; BYTE $0x05       // shl    bl, 5
+	WORD $0x0844; BYTE $0xe3       // or    bl, r12b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	LONG $0x07e2c041               // shl    r10b, 7
+	WORD $0x0845; BYTE $0xc2       // or    r10b, r8b
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0x0841; BYTE $0xda       // or    r10b, bl
+	WORD $0x0045; BYTE $0xf6       // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0a   // add    r14b, byte [rsp + 10]
+	LONG $0x244cb60f; BYTE $0x06   // movzx    ecx, byte [rsp + 6]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0x0844; BYTE $0xf1       // or    cl, r14b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0841; BYTE $0xcb       // or    r11b, cl
+	LONG $0x244cb60f; BYTE $0x08   // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0x0844; BYTE $0xd9       // or    cl, r11b
+	WORD $0xcb89                   // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0xd908                   // or    cl, bl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x44b60f44; WORD $0x0d24 // movzx    r8d, byte [rsp + 13]
+	LONG $0x06e0c041               // shl    r8b, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0844; BYTE $0xc7       // or    dil, r8b
+	LONG $0x01568845               // mov    byte [r14 + 1], r10b
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	LONG $0x244cb60f; BYTE $0x0e   // movzx    ecx, byte [rsp + 14]
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x13244c02               // add    cl, byte [rsp + 19]
+	LONG $0x245cb60f; BYTE $0x0c   // movzx    ebx, byte [rsp + 12]
+	WORD $0xe3c0; BYTE $0x02       // shl    bl, 2
+	WORD $0xcb08                   // or    bl, cl
+	LONG $0x244cb60f; BYTE $0x0f   // movzx    ecx, byte [rsp + 15]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xd908                   // or    cl, bl
+	WORD $0xcb89                   // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xd908                   // or    cl, bl
+	WORD $0xcb89                   // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0xd908                   // or    cl, bl
+	LONG $0x245cb60f; BYTE $0x10   // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06       // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07       // shl    al, 7
+	WORD $0xd808                   // or    al, bl
+	WORD $0xc808                   // or    al, cl
+	LONG $0x027e8841               // mov    byte [r14 + 2], dil
+	LONG $0x03468841               // mov    byte [r14 + 3], al
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB6_74
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB6_76:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_78:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4a3cb70f             // movzx    edi, word [rdx + 2*rcx]
+	LONG $0x4e3c3b66             // cmp    di, word [rsi + 2*rcx]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_78
+	JMP  LBB6_123
+
+LBB6_79:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_83
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_81:
+	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	LONG $0xd29f0f41             // setg    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_81
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_83:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_87
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB6_85:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x24549f0f; BYTE $0x28   // setg    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x24549f0f; BYTE $0x20   // setg    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x24549f0f; BYTE $0x14   // setg    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x24549f0f; BYTE $0x15   // setg    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x24549f0f; BYTE $0x16   // setg    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x24549f0f; BYTE $0x17   // setg    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x24549f0f; BYTE $0x04   // setg    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd59f0f41               // setg    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x24549f0f; BYTE $0x09   // setg    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd09f0f41               // setg    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd39f0f41               // setg    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd79f0f41               // setg    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x24549f0f; BYTE $0x05   // setg    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x24549f0f; BYTE $0x06   // setg    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x24549f0f; BYTE $0x07   // setg    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x9f0f; BYTE $0xd3       // setg    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x24549f0f; BYTE $0x0a   // setg    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd29f0f41               // setg    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd69f0f41               // setg    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd49f0f41               // setg    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x24549f0f; BYTE $0x08   // setg    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x24549f0f; BYTE $0x0b   // setg    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x24549f0f; BYTE $0x0c   // setg    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd19f0f41               // setg    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x24549f0f; BYTE $0x13   // setg    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x24549f0f; BYTE $0x0d   // setg    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x24549f0f; BYTE $0x0e   // setg    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x24549f0f; BYTE $0x0f   // setg    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x24549f0f; BYTE $0x10   // setg    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x24549f0f; BYTE $0x12   // setg    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x24549f0f; BYTE $0x11   // setg    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd79f0f40               // setg    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB6_85
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB6_87:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_89:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
+	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_89
+	JMP  LBB6_123
+
+LBB6_101:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_105
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_103:
+	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd29f0f41             // setg    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_103
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_105:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_109
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB6_107:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x24549f0f; BYTE $0x14               // setg    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x24549f0f; BYTE $0x15               // setg    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x24549f0f; BYTE $0x16               // setg    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x24549f0f; BYTE $0x17               // setg    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd59f0f41                           // setg    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x24549f0f; BYTE $0x09               // setg    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd09f0f41                           // setg    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x24549f0f; BYTE $0x05               // setg    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x24549f0f; BYTE $0x06               // setg    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x24549f0f; BYTE $0x07               // setg    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x24549f0f; BYTE $0x0a               // setg    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x24549f0f; BYTE $0x0b               // setg    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x24549f0f; BYTE $0x0c               // setg    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x24549f0f; BYTE $0x13               // setg    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x24549f0f; BYTE $0x0d               // setg    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x24549f0f; BYTE $0x0e               // setg    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x24549f0f; BYTE $0x0f               // setg    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x24549f0f; BYTE $0x12               // setg    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x24549f0f; BYTE $0x11               // setg    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB6_107
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB6_109:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_111:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
+	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_111
+	JMP  LBB6_123
+
+LBB6_112:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_116
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_114:
+	LONG $0x06100ff3             // movss    xmm0, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
+	LONG $0xd2970f41             // seta    r10b
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_114
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_116:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_120
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB6_118:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x06100ff3                           // movss    xmm0, dword [rsi]
+	WORD $0x2e0f; BYTE $0x02                   // ucomiss    xmm0, dword [rdx]
+	LONG $0x2454970f; BYTE $0x04               // seta    byte [rsp + 4]
+	LONG $0x46100ff3; BYTE $0x04               // movss    xmm0, dword [rsi + 4]
+	LONG $0x04422e0f                           // ucomiss    xmm0, dword [rdx + 4]
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x46100ff3; BYTE $0x08               // movss    xmm0, dword [rsi + 8]
+	LONG $0x08422e0f                           // ucomiss    xmm0, dword [rdx + 8]
+	LONG $0x2454970f; BYTE $0x06               // seta    byte [rsp + 6]
+	LONG $0x46100ff3; BYTE $0x0c               // movss    xmm0, dword [rsi + 12]
+	LONG $0x0c422e0f                           // ucomiss    xmm0, dword [rdx + 12]
+	LONG $0x2454970f; BYTE $0x15               // seta    byte [rsp + 21]
+	LONG $0x46100ff3; BYTE $0x10               // movss    xmm0, dword [rsi + 16]
+	LONG $0x10422e0f                           // ucomiss    xmm0, dword [rdx + 16]
+	LONG $0x2454970f; BYTE $0x16               // seta    byte [rsp + 22]
+	LONG $0x46100ff3; BYTE $0x14               // movss    xmm0, dword [rsi + 20]
+	LONG $0x14422e0f                           // ucomiss    xmm0, dword [rdx + 20]
+	LONG $0x2454970f; BYTE $0x17               // seta    byte [rsp + 23]
+	LONG $0x46100ff3; BYTE $0x18               // movss    xmm0, dword [rsi + 24]
+	LONG $0x18422e0f                           // ucomiss    xmm0, dword [rdx + 24]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x46100ff3; BYTE $0x1c               // movss    xmm0, dword [rsi + 28]
+	LONG $0x1c422e0f                           // ucomiss    xmm0, dword [rdx + 28]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x46100ff3; BYTE $0x20               // movss    xmm0, dword [rsi + 32]
+	LONG $0x20422e0f                           // ucomiss    xmm0, dword [rdx + 32]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x46100ff3; BYTE $0x24               // movss    xmm0, dword [rsi + 36]
+	LONG $0x24422e0f                           // ucomiss    xmm0, dword [rdx + 36]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x46100ff3; BYTE $0x28               // movss    xmm0, dword [rsi + 40]
+	LONG $0x28422e0f                           // ucomiss    xmm0, dword [rdx + 40]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x46100ff3; BYTE $0x2c               // movss    xmm0, dword [rsi + 44]
+	LONG $0x2c422e0f                           // ucomiss    xmm0, dword [rdx + 44]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x46100ff3; BYTE $0x30               // movss    xmm0, dword [rsi + 48]
+	LONG $0x30422e0f                           // ucomiss    xmm0, dword [rdx + 48]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x46100ff3; BYTE $0x34               // movss    xmm0, dword [rsi + 52]
+	LONG $0x34422e0f                           // ucomiss    xmm0, dword [rdx + 52]
+	LONG $0x2454970f; BYTE $0x05               // seta    byte [rsp + 5]
+	LONG $0x46100ff3; BYTE $0x38               // movss    xmm0, dword [rsi + 56]
+	LONG $0x38422e0f                           // ucomiss    xmm0, dword [rdx + 56]
+	LONG $0x2454970f; BYTE $0x07               // seta    byte [rsp + 7]
+	LONG $0x46100ff3; BYTE $0x3c               // movss    xmm0, dword [rsi + 60]
+	LONG $0x3c422e0f                           // ucomiss    xmm0, dword [rdx + 60]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	LONG $0x46100ff3; BYTE $0x40               // movss    xmm0, dword [rsi + 64]
+	LONG $0x40422e0f                           // ucomiss    xmm0, dword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x0e               // seta    byte [rsp + 14]
+	LONG $0x46100ff3; BYTE $0x44               // movss    xmm0, dword [rsi + 68]
+	LONG $0x44422e0f                           // ucomiss    xmm0, dword [rdx + 68]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x46100ff3; BYTE $0x48               // movss    xmm0, dword [rsi + 72]
+	LONG $0x48422e0f                           // ucomiss    xmm0, dword [rdx + 72]
+	LONG $0xd5970f41                           // seta    r13b
+	LONG $0x46100ff3; BYTE $0x4c               // movss    xmm0, dword [rsi + 76]
+	LONG $0x4c422e0f                           // ucomiss    xmm0, dword [rdx + 76]
+	LONG $0x2454970f; BYTE $0x09               // seta    byte [rsp + 9]
+	LONG $0x46100ff3; BYTE $0x50               // movss    xmm0, dword [rsi + 80]
+	LONG $0x50422e0f                           // ucomiss    xmm0, dword [rdx + 80]
+	LONG $0x2454970f; BYTE $0x0a               // seta    byte [rsp + 10]
+	LONG $0x46100ff3; BYTE $0x54               // movss    xmm0, dword [rsi + 84]
+	LONG $0x54422e0f                           // ucomiss    xmm0, dword [rdx + 84]
+	LONG $0x2454970f; BYTE $0x0b               // seta    byte [rsp + 11]
+	LONG $0x46100ff3; BYTE $0x58               // movss    xmm0, dword [rsi + 88]
+	LONG $0x58422e0f                           // ucomiss    xmm0, dword [rdx + 88]
+	LONG $0x2454970f; BYTE $0x0c               // seta    byte [rsp + 12]
+	LONG $0x46100ff3; BYTE $0x5c               // movss    xmm0, dword [rsi + 92]
+	LONG $0x5c422e0f                           // ucomiss    xmm0, dword [rdx + 92]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x46100ff3; BYTE $0x60               // movss    xmm0, dword [rsi + 96]
+	LONG $0x60422e0f                           // ucomiss    xmm0, dword [rdx + 96]
+	LONG $0x2454970f; BYTE $0x14               // seta    byte [rsp + 20]
+	LONG $0x46100ff3; BYTE $0x64               // movss    xmm0, dword [rsi + 100]
+	LONG $0x64422e0f                           // ucomiss    xmm0, dword [rdx + 100]
+	LONG $0x2454970f; BYTE $0x0d               // seta    byte [rsp + 13]
+	LONG $0x46100ff3; BYTE $0x68               // movss    xmm0, dword [rsi + 104]
+	LONG $0x68422e0f                           // ucomiss    xmm0, dword [rdx + 104]
+	LONG $0x2454970f; BYTE $0x0f               // seta    byte [rsp + 15]
+	LONG $0x46100ff3; BYTE $0x6c               // movss    xmm0, dword [rsi + 108]
+	LONG $0x6c422e0f                           // ucomiss    xmm0, dword [rdx + 108]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x46100ff3; BYTE $0x70               // movss    xmm0, dword [rsi + 112]
+	LONG $0x70422e0f                           // ucomiss    xmm0, dword [rdx + 112]
+	LONG $0x2454970f; BYTE $0x12               // seta    byte [rsp + 18]
+	LONG $0x46100ff3; BYTE $0x74               // movss    xmm0, dword [rsi + 116]
+	LONG $0x74422e0f                           // ucomiss    xmm0, dword [rdx + 116]
+	LONG $0x2454970f; BYTE $0x13               // seta    byte [rsp + 19]
+	LONG $0x46100ff3; BYTE $0x78               // movss    xmm0, dword [rsi + 120]
+	LONG $0x78422e0f                           // ucomiss    xmm0, dword [rdx + 120]
+	LONG $0x46100ff3; BYTE $0x7c               // movss    xmm0, dword [rsi + 124]
+	LONG $0x2454970f; BYTE $0x11               // seta    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x7c422e0f                           // ucomiss    xmm0, dword [rdx + 124]
+	LONG $0xd0970f41                           // seta    r8b
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x04244c02                           // add    cl, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	LONG $0x247c0240; BYTE $0x08               // add    dil, byte [rsp + 8]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e2c041                           // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0xcf89                               // mov    edi, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x07               // movzx    edi, byte [rsp + 7]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb                   // or    bl, dil
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xe4                   // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0e               // add    r12b, byte [rsp + 14]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x13               // movzx    eax, byte [rsp + 19]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB6_118
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB6_120:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_122:
+	LONG $0x04100ff3; BYTE $0x8e // movss    xmm0, dword [rsi + 4*rcx]
+	LONG $0x8a042e0f             // ucomiss    xmm0, dword [rdx + 4*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x970f; BYTE $0xd3     // seta    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_122
+	JMP  LBB6_123
+
+LBB6_57:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_61
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_59:
+	WORD $0xb60f; BYTE $0x0a     // movzx    ecx, byte [rdx]
+	LONG $0x01c28348             // add    rdx, 1
+	WORD $0x0e3a                 // cmp    cl, byte [rsi]
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0x1945; BYTE $0xd2     // sbb    r10d, r10d
+	LONG $0x07588d48             // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xd8490f48             // cmovns    rbx, rax
+	LONG $0x03fbc148             // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44     // lea    r9d, [8*rbx]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7     // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7     // xor    dil, r8b
+	LONG $0x1e3c8841             // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_59
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_61:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_65
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB6_63:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x2454970f; BYTE $0x04   // seta    byte [rsp + 4]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	LONG $0xd5970f41               // seta    r13b
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	LONG $0x2454970f; BYTE $0x14   // seta    byte [rsp + 20]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x2454970f; BYTE $0x16   // seta    byte [rsp + 22]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	LONG $0x2454970f; BYTE $0x15   // seta    byte [rsp + 21]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x2454970f; BYTE $0x17   // seta    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	LONG $0x2454970f; BYTE $0x28   // seta    byte [rsp + 40]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd7970f41               // seta    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	LONG $0x2454970f; BYTE $0x07   // seta    byte [rsp + 7]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	WORD $0x970f; BYTE $0xd1       // seta    cl
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	LONG $0xd1970f41               // seta    r9b
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd3970f41               // seta    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	LONG $0xd2970f41               // seta    r10b
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x2454970f; BYTE $0x06   // seta    byte [rsp + 6]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	LONG $0x2454970f; BYTE $0x05   // seta    byte [rsp + 5]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x970f; BYTE $0xd3       // seta    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	LONG $0x2454970f; BYTE $0x0c   // seta    byte [rsp + 12]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd4970f41               // seta    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	LONG $0xd6970f41               // seta    r14b
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x2454970f; BYTE $0x09   // seta    byte [rsp + 9]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	LONG $0x2454970f; BYTE $0x08   // seta    byte [rsp + 8]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x2454970f; BYTE $0x0b   // seta    byte [rsp + 11]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	LONG $0x2454970f; BYTE $0x0a   // seta    byte [rsp + 10]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd0970f41               // seta    r8b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	LONG $0x2454970f; BYTE $0x12   // seta    byte [rsp + 18]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x2454970f; BYTE $0x0e   // seta    byte [rsp + 14]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	LONG $0x2454970f; BYTE $0x0d   // seta    byte [rsp + 13]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x2454970f; BYTE $0x10   // seta    byte [rsp + 16]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	LONG $0x2454970f; BYTE $0x0f   // seta    byte [rsp + 15]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x2454970f; BYTE $0x11   // seta    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x2454970f; BYTE $0x13   // seta    byte [rsp + 19]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd7970f40               // seta    dil
+	WORD $0x0045; BYTE $0xed       // add    r13b, r13b
+	LONG $0x246c0244; BYTE $0x04   // add    r13b, byte [rsp + 4]
+	WORD $0x8944; BYTE $0xe8       // mov    eax, r13d
+	LONG $0x6cb60f44; WORD $0x2824 // movzx    r13d, byte [rsp + 40]
+	LONG $0x06e5c041               // shl    r13b, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef       // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x1424 // movzx    r13d, byte [rsp + 20]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	WORD $0x8944; BYTE $0xe8       // mov    eax, r13d
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x07244c02               // add    cl, byte [rsp + 7]
+	LONG $0x6cb60f44; WORD $0x1624 // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041               // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x02e1c041               // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd       // mov    r13d, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb       // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9       // or    cl, r13b
+	LONG $0x04e2c041               // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda       // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xd0       // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0524 // movzx    r9d, byte [rsp + 5]
+	LONG $0x06e1c041               // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb       // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0c   // add    r12b, byte [rsp + 12]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xe6       // or    r14b, r12b
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x244cb60f; BYTE $0x08   // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0a   // movzx    ecx, byte [rsp + 10]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xc000                   // add    al, al
+	LONG $0x12244402               // add    al, byte [rsp + 18]
+	LONG $0x244cb60f; BYTE $0x0d   // movzx    ecx, byte [rsp + 13]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x0f   // movzx    ecx, byte [rsp + 15]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0xc108                   // or    cl, al
+	LONG $0x2444b60f; BYTE $0x13   // movzx    eax, byte [rsp + 19]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	LONG $0x02468845               // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB6_63
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB6_65:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_67:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0a1cb60f             // movzx    ebx, byte [rdx + rcx]
+	WORD $0x1c3a; BYTE $0x0e     // cmp    bl, byte [rsi + rcx]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_67
+	JMP  LBB6_123
+
+LBB6_90:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB6_94
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB6_92:
+	WORD $0x0e8b                 // mov    ecx, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd29f0f41             // setg    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB6_92
+	LONG $0x01c68349             // add    r14, 1
+
+LBB6_94:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB6_98
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB6_96:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x24549f0f; BYTE $0x14               // setg    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x24549f0f; BYTE $0x15               // setg    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x24549f0f; BYTE $0x16               // setg    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x24549f0f; BYTE $0x17               // setg    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x24549f0f; BYTE $0x04               // setg    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd59f0f41                           // setg    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x24549f0f; BYTE $0x09               // setg    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd09f0f41                           // setg    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd39f0f41                           // setg    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd79f0f41                           // setg    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x24549f0f; BYTE $0x05               // setg    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x24549f0f; BYTE $0x06               // setg    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x24549f0f; BYTE $0x07               // setg    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x24549f0f; BYTE $0x0a               // setg    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd29f0f41                           // setg    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd69f0f41                           // setg    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd49f0f41                           // setg    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x24549f0f; BYTE $0x0b               // setg    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x24549f0f; BYTE $0x0c               // setg    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd19f0f41                           // setg    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x24549f0f; BYTE $0x13               // setg    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x24549f0f; BYTE $0x0d               // setg    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x24549f0f; BYTE $0x0e               // setg    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x24549f0f; BYTE $0x0f               // setg    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x24549f0f; BYTE $0x12               // setg    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x24549f0f; BYTE $0x11               // setg    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB6_96
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB6_98:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB6_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB6_100:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB6_100
+
+LBB6_123:
+	SUBQ $8, SP
+	RET
+
+DATA LCDATA5<>+0x000(SB)/8, $0x0000000001010101
+DATA LCDATA5<>+0x008(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA5<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA5<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA5<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA5<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA5<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA5<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA5<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA5<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA5<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA5<>+0x060(SB)/8, $0x8080808080808080
+DATA LCDATA5<>+0x068(SB)/8, $0x8080808080808080
+DATA LCDATA5<>+0x070(SB)/8, $0x0b030a0209010800
+DATA LCDATA5<>+0x078(SB)/8, $0x0f070e060d050c04
+DATA LCDATA5<>+0x080(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x088(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x090(SB)/8, $0x0f070e060d050c04
+DATA LCDATA5<>+0x098(SB)/8, $0x0000000000000000
+DATA LCDATA5<>+0x0a0(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x0a8(SB)/8, $0x0101010101010101
+DATA LCDATA5<>+0x0b0(SB)/8, $0x0404040404040404
+DATA LCDATA5<>+0x0b8(SB)/8, $0x0404040404040404
+DATA LCDATA5<>+0x0c0(SB)/8, $0x0808080808080808
+DATA LCDATA5<>+0x0c8(SB)/8, $0x0808080808080808
+DATA LCDATA5<>+0x0d0(SB)/8, $0x1010101010101010
+DATA LCDATA5<>+0x0d8(SB)/8, $0x1010101010101010
+DATA LCDATA5<>+0x0e0(SB)/8, $0x2020202020202020
+DATA LCDATA5<>+0x0e8(SB)/8, $0x2020202020202020
+DATA LCDATA5<>+0x0f0(SB)/8, $0x4040404040404040
+DATA LCDATA5<>+0x0f8(SB)/8, $0x4040404040404040
+DATA LCDATA5<>+0x100(SB)/8, $0xffffffffffffffff
+DATA LCDATA5<>+0x108(SB)/8, $0xffffffffffffffff
+GLOBL LCDATA5<>(SB), 8, $272
+
+TEXT ·_comparison_greater_arr_scalar_sse4(SB), $360-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $16, SP
+	ANDQ $-16, SP
+	MOVQ BP, 336(SP)
+	LEAQ LCDATA5<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
+	WORD $0x8949; BYTE $0xcc // mov    r12, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB7_26
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB7_2
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB7_98
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB7_113
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB7_200
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_17
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_15:
+	WORD $0x3b44; BYTE $0x2e                   // cmp    r13d, dword [rsi]
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0xd219                               // sbb    edx, edx
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
+	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB7_15
+	LONG $0x01c48349                           // add    r12, 1
+
+LBB7_17:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB7_21
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
+	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
+
+LBB7_19:
+	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000000d02494970f                   // seta    byte [rsp + 208]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x970f; BYTE $0xd2                   // seta    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x2414970f                           // seta    byte [rsp]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd0970f41                           // seta    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x241c8841                           // mov    byte [r12], bl
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x244c8841; BYTE $0x01               // mov    byte [r12 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x247c8845; BYTE $0x02               // mov    byte [r12 + 2], r15b
+	LONG $0x24448845; BYTE $0x03               // mov    byte [r12 + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c48349                           // add    r12, 4
+	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
+	JNE  LBB7_19
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
+
+LBB7_21:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB7_200
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB7_135
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_24
+
+LBB7_26:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB7_27
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB7_155
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB7_170
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB7_200
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_49
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_47:
+	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0xd219                 // sbb    edx, edx
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
+	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB7_47
+	LONG $0x01c48349             // add    r12, 1
+
+LBB7_49:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB7_53
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
+	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
+
+LBB7_51:
+	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
+	LONG $0x062e0f66                           // ucomisd    xmm0, qword [rsi]
+	QUAD $0x000000d02494920f                   // setb    byte [rsp + 208]
+	LONG $0x462e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rsi + 8]
+	LONG $0xd1920f41                           // setb    r9b
+	LONG $0x462e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rsi + 16]
+	LONG $0xd6920f41                           // setb    r14b
+	LONG $0x462e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rsi + 24]
+	LONG $0xd5920f41                           // setb    r13b
+	LONG $0x462e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rsi + 32]
+	LONG $0x2454920f; BYTE $0x70               // setb    byte [rsp + 112]
+	LONG $0x462e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rsi + 40]
+	LONG $0x2454920f; BYTE $0x58               // setb    byte [rsp + 88]
+	LONG $0x462e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rsi + 48]
+	WORD $0x920f; BYTE $0xd0                   // setb    al
+	LONG $0x462e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rsi + 56]
+	WORD $0x920f; BYTE $0xd3                   // setb    bl
+	LONG $0x462e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rsi + 64]
+	QUAD $0x000000a02494920f                   // setb    byte [rsp + 160]
+	LONG $0x462e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rsi + 72]
+	WORD $0x920f; BYTE $0xd2                   // setb    dl
+	LONG $0x462e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rsi + 80]
+	LONG $0xd7920f40                           // setb    dil
+	LONG $0x462e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rsi + 88]
+	LONG $0xd2920f41                           // setb    r10b
+	LONG $0x462e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rsi + 96]
+	LONG $0xd3920f41                           // setb    r11b
+	LONG $0x462e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rsi + 104]
+	LONG $0xd4920f41                           // setb    r12b
+	LONG $0x462e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rsi + 112]
+	LONG $0x2454920f; BYTE $0x78               // setb    byte [rsp + 120]
+	LONG $0x462e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rsi + 120]
+	WORD $0x920f; BYTE $0xd1                   // setb    cl
+	QUAD $0x00000080862e0f66                   // ucomisd    xmm0, qword [rsi + 128]
+	LONG $0x2454920f; BYTE $0x50               // setb    byte [rsp + 80]
+	QUAD $0x00000088862e0f66                   // ucomisd    xmm0, qword [rsi + 136]
+	QUAD $0x000000902494920f                   // setb    byte [rsp + 144]
+	QUAD $0x00000090862e0f66                   // ucomisd    xmm0, qword [rsi + 144]
+	LONG $0x2454920f; BYTE $0x68               // setb    byte [rsp + 104]
+	QUAD $0x00000098862e0f66                   // ucomisd    xmm0, qword [rsi + 152]
+	LONG $0x2454920f; BYTE $0x60               // setb    byte [rsp + 96]
+	QUAD $0x000000a0862e0f66                   // ucomisd    xmm0, qword [rsi + 160]
+	LONG $0x2454920f; BYTE $0x40               // setb    byte [rsp + 64]
+	QUAD $0x000000a8862e0f66                   // ucomisd    xmm0, qword [rsi + 168]
+	LONG $0x2454920f; BYTE $0x48               // setb    byte [rsp + 72]
+	QUAD $0x000000b0862e0f66                   // ucomisd    xmm0, qword [rsi + 176]
+	LONG $0x2454920f; BYTE $0x38               // setb    byte [rsp + 56]
+	QUAD $0x000000b8862e0f66                   // ucomisd    xmm0, qword [rsi + 184]
+	LONG $0xd7920f41                           // setb    r15b
+	QUAD $0x000000c0862e0f66                   // ucomisd    xmm0, qword [rsi + 192]
+	LONG $0x2454920f; BYTE $0x08               // setb    byte [rsp + 8]
+	QUAD $0x000000c8862e0f66                   // ucomisd    xmm0, qword [rsi + 200]
+	LONG $0x2454920f; BYTE $0x30               // setb    byte [rsp + 48]
+	QUAD $0x000000d0862e0f66                   // ucomisd    xmm0, qword [rsi + 208]
+	LONG $0x2454920f; BYTE $0x18               // setb    byte [rsp + 24]
+	QUAD $0x000000d8862e0f66                   // ucomisd    xmm0, qword [rsi + 216]
+	LONG $0x2454920f; BYTE $0x20               // setb    byte [rsp + 32]
+	QUAD $0x000000e0862e0f66                   // ucomisd    xmm0, qword [rsi + 224]
+	LONG $0x2454920f; BYTE $0x28               // setb    byte [rsp + 40]
+	QUAD $0x000000e8862e0f66                   // ucomisd    xmm0, qword [rsi + 232]
+	LONG $0x2454920f; BYTE $0x10               // setb    byte [rsp + 16]
+	QUAD $0x000000f0862e0f66                   // ucomisd    xmm0, qword [rsi + 240]
+	LONG $0x2414920f                           // setb    byte [rsp]
+	QUAD $0x000000f8862e0f66                   // ucomisd    xmm0, qword [rsi + 248]
+	LONG $0xd0920f41                           // setb    r8b
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x000000d0248c0244                   // add    r9b, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	LONG $0x247cb60f; BYTE $0x78               // movzx    edi, byte [rsp + 120]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x1888                               // mov    byte [rax], bl
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	WORD $0x4888; BYTE $0x01                   // mov    byte [rax + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x02788844                           // mov    byte [rax + 2], r15b
+	LONG $0x03408844                           // mov    byte [rax + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c08348                           // add    rax, 4
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB7_51
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+
+LBB7_53:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB7_200
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB7_193
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_195
+
+LBB7_2:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB7_56
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB7_200
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_8
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_6:
+	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0x9f0f; BYTE $0xd2     // setg    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	WORD $0x894d; BYTE $0xe7     // mov    r15, r12
+	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB7_6
+	LONG $0x01c48349             // add    r12, 1
+
+LBB7_8:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB7_9
+	LONG $0x10fa8349         // cmp    r10, 16
+	LONG $0x24348844         // mov    byte [rsp], r14b
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000001202494894c // mov    qword [rsp + 288], r10
+	JB   LBB7_81
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x05e0c148         // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
+	WORD $0x3949; BYTE $0xc4 // cmp    r12, rax
+	JAE  LBB7_84
+	LONG $0x94048d4b         // lea    rax, [r12 + 4*r10]
+	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
+	JAE  LBB7_84
+
+LBB7_81:
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
+	LONG $0x2464894c; BYTE $0x58 // mov    qword [rsp + 88], r12
+
+LBB7_87:
+	QUAD $0x000000e824942b4c // sub    r10, qword [rsp + 232]
+	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
+
+LBB7_88:
+	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
+	WORD $0x3844; BYTE $0x36                   // cmp    byte [rsi], r14b
+	QUAD $0x000000b024949f0f                   // setg    byte [rsp + 176]
+	LONG $0x01763844                           // cmp    byte [rsi + 1], r14b
+	LONG $0xd69f0f40                           // setg    sil
+	LONG $0x02713844                           // cmp    byte [rcx + 2], r14b
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0x03713844                           // cmp    byte [rcx + 3], r14b
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x04713844                           // cmp    byte [rcx + 4], r14b
+	QUAD $0x000000d024949f0f                   // setg    byte [rsp + 208]
+	LONG $0x05713844                           // cmp    byte [rcx + 5], r14b
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0x06713844                           // cmp    byte [rcx + 6], r14b
+	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
+	LONG $0x07713844                           // cmp    byte [rcx + 7], r14b
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x08713844                           // cmp    byte [rcx + 8], r14b
+	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
+	LONG $0x09713844                           // cmp    byte [rcx + 9], r14b
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	LONG $0x0a713844                           // cmp    byte [rcx + 10], r14b
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x0b713844                           // cmp    byte [rcx + 11], r14b
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x0c713844                           // cmp    byte [rcx + 12], r14b
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
+	LONG $0xd59f0f41                           // setg    r13b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
+	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
+	LONG $0xd09f0f41                           // setg    r8b
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000b024b40240                   // add    sil, byte [rsp + 176]
+	QUAD $0x000000c02484b60f                   // movzx    eax, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0xc208                               // or    dl, al
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x05e5c041                           // shl    r13b, 5
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x34b60f44; BYTE $0x24               // movzx    r14d, byte [rsp]
+	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x78245402                           // add    dl, byte [rsp + 120]
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x24548b48; BYTE $0x58               // mov    rdx, qword [rsp + 88]
+	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
+	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
+	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
+	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xc000                               // add    al, al
+	LONG $0x30244402                           // add    al, byte [rsp + 48]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	QUAD $0x0000008024b4b60f                   // movzx    esi, byte [rsp + 128]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xc308                               // or    bl, al
+	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
+	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
+	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
+	LONG $0x04c28348                           // add    rdx, 4
+	LONG $0x24548948; BYTE $0x58               // mov    qword [rsp + 88], rdx
+	QUAD $0x000000f024848348; BYTE $0xff       // add    qword [rsp + 240], -1
+	JNE  LBB7_88
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
+	JMP  LBB7_90
+
+LBB7_27:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB7_137
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB7_200
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_33
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_31:
+	WORD $0x3b4c; BYTE $0x2e                   // cmp    r13, qword [rsi]
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0xd219                               // sbb    edx, edx
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
+	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB7_31
+	LONG $0x01c48349                           // add    r12, 1
+
+LBB7_33:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB7_37
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
+	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
+
+LBB7_35:
+	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000000d02494970f                   // seta    byte [rsp + 208]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x970f; BYTE $0xd2                   // seta    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x2414970f                           // seta    byte [rsp]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd0970f41                           // seta    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x241c8841                           // mov    byte [r12], bl
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x244c8841; BYTE $0x01               // mov    byte [r12 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x247c8845; BYTE $0x02               // mov    byte [r12 + 2], r15b
+	LONG $0x24448845; BYTE $0x03               // mov    byte [r12 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c48349                           // add    r12, 4
+	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
+	JNE  LBB7_35
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
+
+LBB7_37:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB7_200
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB7_153
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_40
+
+LBB7_56:
+	WORD $0x028a             // mov    al, byte [rdx]
+	LONG $0x28244488         // mov    byte [rsp + 40], al
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_60
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_58:
+	LONG $0x244cb60f; BYTE $0x28 // movzx    ecx, byte [rsp + 40]
+	WORD $0x0e3a                 // cmp    cl, byte [rsi]
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0xd219                 // sbb    edx, edx
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
+	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB7_58
+	LONG $0x01c48349             // add    r12, 1
+
+LBB7_60:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB7_61
+	LONG $0x10fa8349         // cmp    r10, 16
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000001082494894c // mov    qword [rsp + 264], r10
+	JB   LBB7_63
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x05e0c148         // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
+	WORD $0x3949; BYTE $0xc4 // cmp    r12, rax
+	JAE  LBB7_66
+	LONG $0x94048d4b         // lea    rax, [r12 + 4*r10]
+	WORD $0x3948; BYTE $0xc6 // cmp    rsi, rax
+	JAE  LBB7_66
+
+LBB7_63:
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
+	WORD $0x8949; BYTE $0xf6     // mov    r14, rsi
+	LONG $0x2464894c; BYTE $0x48 // mov    qword [rsp + 72], r12
+
+LBB7_69:
+	QUAD $0x000000e824942b4c // sub    r10, qword [rsp + 232]
+	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
+
+LBB7_70:
+	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
+	LONG $0x74b60f44; WORD $0x2824             // movzx    r14d, byte [rsp + 40]
+	WORD $0x3844; BYTE $0x31                   // cmp    byte [rcx], r14b
+	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
+	LONG $0x01713844                           // cmp    byte [rcx + 1], r14b
+	LONG $0xd6970f40                           // seta    sil
+	LONG $0x02713844                           // cmp    byte [rcx + 2], r14b
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x03713844                           // cmp    byte [rcx + 3], r14b
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x04713844                           // cmp    byte [rcx + 4], r14b
+	QUAD $0x000000d02494970f                   // seta    byte [rsp + 208]
+	LONG $0x05713844                           // cmp    byte [rcx + 5], r14b
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x06713844                           // cmp    byte [rcx + 6], r14b
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x07713844                           // cmp    byte [rcx + 7], r14b
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x08713844                           // cmp    byte [rcx + 8], r14b
+	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
+	LONG $0x09713844                           // cmp    byte [rcx + 9], r14b
+	WORD $0x970f; BYTE $0xd2                   // seta    dl
+	LONG $0x0a713844                           // cmp    byte [rcx + 10], r14b
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x0b713844                           // cmp    byte [rcx + 11], r14b
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x0c713844                           // cmp    byte [rcx + 12], r14b
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x0d713844                           // cmp    byte [rcx + 13], r14b
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x0e713844                           // cmp    byte [rcx + 14], r14b
+	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
+	LONG $0x0f713844                           // cmp    byte [rcx + 15], r14b
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	LONG $0x10713844                           // cmp    byte [rcx + 16], r14b
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x11713844                           // cmp    byte [rcx + 17], r14b
+	LONG $0xd5970f41                           // seta    r13b
+	LONG $0x12713844                           // cmp    byte [rcx + 18], r14b
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x13713844                           // cmp    byte [rcx + 19], r14b
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x14713844                           // cmp    byte [rcx + 20], r14b
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x15713844                           // cmp    byte [rcx + 21], r14b
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0x16713844                           // cmp    byte [rcx + 22], r14b
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x17713844                           // cmp    byte [rcx + 23], r14b
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x18713844                           // cmp    byte [rcx + 24], r14b
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0x19713844                           // cmp    byte [rcx + 25], r14b
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0x1a713844                           // cmp    byte [rcx + 26], r14b
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0x1b713844                           // cmp    byte [rcx + 27], r14b
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x1c713844                           // cmp    byte [rcx + 28], r14b
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x1d713844                           // cmp    byte [rcx + 29], r14b
+	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
+	LONG $0x1e713844                           // cmp    byte [rcx + 30], r14b
+	LONG $0x2414970f                           // seta    byte [rsp]
+	LONG $0x1f713844                           // cmp    byte [rcx + 31], r14b
+	LONG $0xd6970f41                           // seta    r14b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x000000c024b40240                   // add    sil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	WORD $0x0844; BYTE $0xe3                   // or    bl, r12b
+	WORD $0x0045; BYTE $0xed                   // add    r13b, r13b
+	LONG $0x246c0244; BYTE $0x68               // add    r13b, byte [rsp + 104]
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	WORD $0x8844; BYTE $0x00                   // mov    byte [rax], r8b
+	LONG $0x247cb60f; BYTE $0x38               // movzx    edi, byte [rsp + 56]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x5888; BYTE $0x01                   // mov    byte [rax + 1], bl
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	LONG $0x245cb60f; BYTE $0x30               // movzx    ebx, byte [rsp + 48]
+	WORD $0xdb00                               // add    bl, bl
+	LONG $0x18245c02                           // add    bl, byte [rsp + 24]
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x20               // movzx    ebx, byte [rsp + 32]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x2434b60f                           // movzx    esi, byte [rsp]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
+	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
+	WORD $0x5088; BYTE $0x02                   // mov    byte [rax + 2], dl
+	LONG $0x03708844                           // mov    byte [rax + 3], r14b
+	LONG $0x20718d4c                           // lea    r14, [rcx + 32]
+	LONG $0x04c08348                           // add    rax, 4
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
+	JNE  LBB7_70
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
+	JMP  LBB7_72
+
+LBB7_137:
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_141
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_139:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
+	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB7_139
+	LONG $0x01c48349                           // add    r12, 1
+
+LBB7_141:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB7_145
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
+	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
+
+LBB7_143:
+	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000000d024949f0f                   // setg    byte [rsp + 208]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x24149f0f                           // setg    byte [rsp]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd09f0f41                           // setg    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x241c8841                           // mov    byte [r12], bl
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x244c8841; BYTE $0x01               // mov    byte [r12 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x247c8845; BYTE $0x02               // mov    byte [r12 + 2], r15b
+	LONG $0x24448845; BYTE $0x03               // mov    byte [r12 + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c48349                           // add    r12, 4
+	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
+	JNE  LBB7_143
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
+
+LBB7_145:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB7_200
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB7_151
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_148
+
+LBB7_98:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_102
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_100:
+	LONG $0x2e3b4466                           // cmp    r13w, word [rsi]
+	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
+	WORD $0x1945; BYTE $0xc9                   // sbb    r9d, r9d
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	WORD $0x894c; BYTE $0xe2                   // mov    rdx, r12
+	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
+	WORD $0x3045; BYTE $0xc1                   // xor    r9b, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2044; BYTE $0xcf                   // and    dil, r9b
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB7_100
+	LONG $0x01c48349                           // add    r12, 1
+
+LBB7_102:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB7_106
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
+	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
+
+LBB7_104:
+	QUAD $0x0000008024a4894c             // mov    qword [rsp + 128], r12
+	LONG $0x2e394466                     // cmp    word [rsi], r13w
+	LONG $0x2454970f; BYTE $0x58         // seta    byte [rsp + 88]
+	LONG $0x6e394466; BYTE $0x02         // cmp    word [rsi + 2], r13w
+	LONG $0xd7970f40                     // seta    dil
+	LONG $0x6e394466; BYTE $0x04         // cmp    word [rsi + 4], r13w
+	LONG $0xd6970f41                     // seta    r14b
+	LONG $0x6e394466; BYTE $0x06         // cmp    word [rsi + 6], r13w
+	QUAD $0x000000c02494970f             // seta    byte [rsp + 192]
+	LONG $0x6e394466; BYTE $0x08         // cmp    word [rsi + 8], r13w
+	QUAD $0x000000902494970f             // seta    byte [rsp + 144]
+	LONG $0x6e394466; BYTE $0x0a         // cmp    word [rsi + 10], r13w
+	LONG $0x2454970f; BYTE $0x78         // seta    byte [rsp + 120]
+	LONG $0x6e394466; BYTE $0x0c         // cmp    word [rsi + 12], r13w
+	WORD $0x970f; BYTE $0xd0             // seta    al
+	LONG $0x6e394466; BYTE $0x0e         // cmp    word [rsi + 14], r13w
+	WORD $0x970f; BYTE $0xd3             // seta    bl
+	LONG $0x6e394466; BYTE $0x10         // cmp    word [rsi + 16], r13w
+	LONG $0x2454970f; BYTE $0x20         // seta    byte [rsp + 32]
+	LONG $0x6e394466; BYTE $0x12         // cmp    word [rsi + 18], r13w
+	WORD $0x970f; BYTE $0xd2             // seta    dl
+	LONG $0x6e394466; BYTE $0x14         // cmp    word [rsi + 20], r13w
+	LONG $0xd1970f41                     // seta    r9b
+	LONG $0x6e394466; BYTE $0x16         // cmp    word [rsi + 22], r13w
+	LONG $0xd2970f41                     // seta    r10b
+	LONG $0x6e394466; BYTE $0x18         // cmp    word [rsi + 24], r13w
+	LONG $0xd3970f41                     // seta    r11b
+	LONG $0x6e394466; BYTE $0x1a         // cmp    word [rsi + 26], r13w
+	LONG $0xd4970f41                     // seta    r12b
+	LONG $0x6e394466; BYTE $0x1c         // cmp    word [rsi + 28], r13w
+	QUAD $0x000000d02494970f             // seta    byte [rsp + 208]
+	LONG $0x6e394466; BYTE $0x1e         // cmp    word [rsi + 30], r13w
+	WORD $0x970f; BYTE $0xd1             // seta    cl
+	LONG $0x6e394466; BYTE $0x20         // cmp    word [rsi + 32], r13w
+	LONG $0x2454970f; BYTE $0x10         // seta    byte [rsp + 16]
+	LONG $0x6e394466; BYTE $0x22         // cmp    word [rsi + 34], r13w
+	QUAD $0x000000a02494970f             // seta    byte [rsp + 160]
+	LONG $0x6e394466; BYTE $0x24         // cmp    word [rsi + 36], r13w
+	LONG $0x2454970f; BYTE $0x68         // seta    byte [rsp + 104]
+	LONG $0x6e394466; BYTE $0x26         // cmp    word [rsi + 38], r13w
+	LONG $0x2454970f; BYTE $0x70         // seta    byte [rsp + 112]
+	LONG $0x6e394466; BYTE $0x28         // cmp    word [rsi + 40], r13w
+	LONG $0x2454970f; BYTE $0x60         // seta    byte [rsp + 96]
+	LONG $0x6e394466; BYTE $0x2a         // cmp    word [rsi + 42], r13w
+	LONG $0x2454970f; BYTE $0x50         // seta    byte [rsp + 80]
+	LONG $0x6e394466; BYTE $0x2c         // cmp    word [rsi + 44], r13w
+	LONG $0x2454970f; BYTE $0x40         // seta    byte [rsp + 64]
+	LONG $0x6e394466; BYTE $0x2e         // cmp    word [rsi + 46], r13w
+	LONG $0xd7970f41                     // seta    r15b
+	LONG $0x6e394466; BYTE $0x30         // cmp    word [rsi + 48], r13w
+	LONG $0x2414970f                     // seta    byte [rsp]
+	LONG $0x6e394466; BYTE $0x32         // cmp    word [rsi + 50], r13w
+	LONG $0x2454970f; BYTE $0x48         // seta    byte [rsp + 72]
+	LONG $0x6e394466; BYTE $0x34         // cmp    word [rsi + 52], r13w
+	LONG $0x2454970f; BYTE $0x38         // seta    byte [rsp + 56]
+	LONG $0x6e394466; BYTE $0x36         // cmp    word [rsi + 54], r13w
+	LONG $0x2454970f; BYTE $0x30         // seta    byte [rsp + 48]
+	LONG $0x6e394466; BYTE $0x38         // cmp    word [rsi + 56], r13w
+	LONG $0x2454970f; BYTE $0x18         // seta    byte [rsp + 24]
+	LONG $0x6e394466; BYTE $0x3a         // cmp    word [rsi + 58], r13w
+	LONG $0x2454970f; BYTE $0x08         // seta    byte [rsp + 8]
+	LONG $0x6e394466; BYTE $0x3c         // cmp    word [rsi + 60], r13w
+	LONG $0x2454970f; BYTE $0x28         // seta    byte [rsp + 40]
+	LONG $0x6e394466; BYTE $0x3e         // cmp    word [rsi + 62], r13w
+	LONG $0xd0970f41                     // seta    r8b
+	WORD $0x0040; BYTE $0xff             // add    dil, dil
+	LONG $0x247c0240; BYTE $0x58         // add    dil, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
+	WORD $0xc308                         // or    bl, al
+	LONG $0x02e6c041                     // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
+	WORD $0xd200                         // add    dl, dl
+	LONG $0x20245402                     // add    dl, byte [rsp + 32]
+	QUAD $0x000000c02484b60f             // movzx    eax, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0x0844; BYTE $0xf0             // or    al, r14b
+	LONG $0x02e1c041                     // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1             // or    r9b, dl
+	QUAD $0x000000902494b60f             // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
+	WORD $0xc208                         // or    dl, al
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x03e2c041                     // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x78         // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	LONG $0x04e3c041                     // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
+	LONG $0x05e4c041                     // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc             // or    r12b, r11b
+	QUAD $0x000000d024bcb60f             // movzx    edi, byte [rsp + 208]
+	LONG $0x06e7c040                     // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9             // or    cl, dil
+	WORD $0xd308                         // or    bl, dl
+	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
+	QUAD $0x0000008024a48b4c             // mov    r12, qword [rsp + 128]
+	QUAD $0x000000a02494b60f             // movzx    edx, byte [rsp + 160]
+	WORD $0xd200                         // add    dl, dl
+	LONG $0x10245402                     // add    dl, byte [rsp + 16]
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68         // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x70         // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x03             // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60         // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x04             // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	WORD $0xd789                         // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x50         // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x05             // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa             // or    dl, dil
+	LONG $0x241c8841                     // mov    byte [r12], bl
+	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	LONG $0x07e7c041                     // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf             // or    r15b, bl
+	LONG $0x244c8841; BYTE $0x01         // mov    byte [r12 + 1], cl
+	WORD $0x0841; BYTE $0xd7             // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x48         // movzx    ecx, byte [rsp + 72]
+	WORD $0xc900                         // add    cl, cl
+	WORD $0x0c02; BYTE $0x24             // add    cl, byte [rsp]
+	WORD $0xca89                         // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
+	WORD $0xd108                         // or    cl, dl
+	WORD $0xca89                         // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x30         // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
+	WORD $0xd108                         // or    cl, dl
+	WORD $0xca89                         // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18         // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
+	WORD $0xd108                         // or    cl, dl
+	WORD $0xca89                         // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x08         // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
+	WORD $0xd108                         // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x28         // movzx    edx, byte [rsp + 40]
+	WORD $0xe2c0; BYTE $0x06             // shl    dl, 6
+	LONG $0x07e0c041                     // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0             // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
+	LONG $0x247c8845; BYTE $0x02         // mov    byte [r12 + 2], r15b
+	LONG $0x24448845; BYTE $0x03         // mov    byte [r12 + 3], r8b
+	LONG $0x40c68348                     // add    rsi, 64
+	LONG $0x04c48349                     // add    r12, 4
+	QUAD $0x000000b024848348; BYTE $0xff // add    qword [rsp + 176], -1
+	JNE  LBB7_104
+	QUAD $0x00000088249c8b4c             // mov    r11, qword [rsp + 136]
+	QUAD $0x000000f024948b4c             // mov    r10, qword [rsp + 240]
+
+LBB7_106:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB7_200
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB7_111
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_109
+
+LBB7_113:
+	WORD $0xb70f; BYTE $0x02                   // movzx    eax, word [rdx]
+	LONG $0xf0248489; WORD $0x0000; BYTE $0x00 // mov    dword [rsp + 240], eax
+	LONG $0x1f738d4d                           // lea    r14, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb                   // test    r11, r11
+	LONG $0xf3490f4d                           // cmovns    r14, r11
+	LONG $0x07418d41                           // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	LONG $0xc1490f41                           // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8                   // and    eax, -8
+	WORD $0x2941; BYTE $0xc1                   // sub    r9d, eax
+	JE   LBB7_117
+	WORD $0x6349; BYTE $0xc1                   // movsxd    rax, r9d
+	QUAD $0x000000f024948b44                   // mov    r10d, dword [rsp + 240]
+
+LBB7_115:
+	LONG $0x16394466             // cmp    word [rsi], r10w
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x9f0f; BYTE $0xd2     // setg    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	WORD $0x894d; BYTE $0xe7     // mov    r15, r12
+	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB7_115
+	LONG $0x01c48349             // add    r12, 1
+
+LBB7_117:
+	LONG $0x05fec149         // sar    r14, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB7_128
+	LONG $0x08fe8349         // cmp    r14, 8
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x0000011024b4894c // mov    qword [rsp + 272], r14
+	JB   LBB7_119
+	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
+	LONG $0x06e0c148         // shl    rax, 6
+	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
+	WORD $0x3949; BYTE $0xc4 // cmp    r12, rax
+	JAE  LBB7_122
+	LONG $0xb4048d4b         // lea    rax, [r12 + 4*r14]
+	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
+	JBE  LBB7_122
+
+LBB7_119:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x24448948; BYTE $0x18 // mov    qword [rsp + 24], rax
+
+LBB7_125:
+	LONG $0x2424894c             // mov    qword [rsp], r12
+	LONG $0x24742b4c; BYTE $0x18 // sub    r14, qword [rsp + 24]
+	QUAD $0x000000b024b4894c     // mov    qword [rsp + 176], r14
+	QUAD $0x000000f024ac8b44     // mov    r13d, dword [rsp + 240]
+
+LBB7_126:
+	WORD $0x8949; BYTE $0xf3                   // mov    r11, rsi
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
+	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
+	LONG $0xd09f0f41                           // setg    r8b
+	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
+	QUAD $0x000000d024949f0f                   // setg    byte [rsp + 208]
+	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
+	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
+	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
+	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
+	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
+	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
+	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
+	LONG $0xd69f0f40                           // setg    sil
+	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
+	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
+	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
+	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
+	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x000000c024840244                   // add    r8b, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x90248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 144]
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
+	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x50244c02                           // add    cl, byte [rsp + 80]
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x40               // movzx    ecx, byte [rsp + 64]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x240c8b48                           // mov    rcx, qword [rsp]
+	WORD $0x1988                               // mov    byte [rcx], bl
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x01798840                           // mov    byte [rcx + 1], dil
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x08244402                           // add    al, byte [rsp + 8]
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd808                               // or    al, bl
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xda08                               // or    dl, bl
+	WORD $0xc208                               // or    dl, al
+	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
+	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
+	LONG $0x40738d49                           // lea    rsi, [r11 + 64]
+	LONG $0x04c18348                           // add    rcx, 4
+	LONG $0x240c8948                           // mov    qword [rsp], rcx
+	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
+	JNE  LBB7_126
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	LONG $0x24248b4c                           // mov    r12, qword [rsp]
+
+LBB7_128:
+	LONG $0x05e6c149         // shl    r14, 5
+	WORD $0x394d; BYTE $0xde // cmp    r14, r11
+	JGE  LBB7_200
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xf0 // sub    r8, r14
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xde // add    r14, r11
+	JNE  LBB7_133
+	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
+	JMP  LBB7_131
+
+LBB7_155:
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB7_159
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB7_157:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
+	LONG $0x04b60f45; BYTE $0x1c               // movzx    r8d, byte [r12 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1c3c8841                           // mov    byte [r12 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB7_157
+	LONG $0x01c48349                           // add    r12, 1
+
+LBB7_159:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB7_163
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000f02494894c // mov    qword [rsp + 240], r10
+	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
+
+LBB7_161:
+	QUAD $0x0000008024a4894c                   // mov    qword [rsp + 128], r12
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000000d024949f0f                   // setg    byte [rsp + 208]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x24149f0f                           // setg    byte [rsp]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd09f0f41                           // setg    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x90249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 144]
+	QUAD $0x000000d02484b60f                   // movzx    eax, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x000000a024bcb60f                   // movzx    edi, byte [rsp + 160]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008024a48b4c                   // mov    r12, qword [rsp + 128]
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x50245402                           // add    dl, byte [rsp + 80]
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x241c8841                           // mov    byte [r12], bl
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x244c8841; BYTE $0x01               // mov    byte [r12 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x247c8845; BYTE $0x02               // mov    byte [r12 + 2], r15b
+	LONG $0x24448845; BYTE $0x03               // mov    byte [r12 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c48349                           // add    r12, 4
+	QUAD $0x000000b024848348; BYTE $0xff       // add    qword [rsp + 176], -1
+	JNE  LBB7_161
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000f024948b4c                   // mov    r10, qword [rsp + 240]
+
+LBB7_163:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB7_200
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB7_168
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_166
+
+LBB7_170:
+	LONG $0x1f538d4d             // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb     // test    r11, r11
+	LONG $0xd3490f4d             // cmovns    r10, r11
+	LONG $0x07418d41             // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xc1490f41             // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8     // and    eax, -8
+	LONG $0x100f44f3; BYTE $0x1a // movss    xmm11, dword [rdx]
+	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
+	JE   LBB7_174
+	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
+
+LBB7_172:
+	LONG $0x1e2e0f44             // ucomiss    xmm11, dword [rsi]
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0xd219                 // sbb    edx, edx
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
+	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB7_172
+	LONG $0x01c48349             // add    r12, 1
+
+LBB7_174:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB7_175
+	LONG $0x04fa8349         // cmp    r10, 4
+	JB   LBB7_177
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x07e0c148         // shl    rax, 7
+	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
+	WORD $0x3949; BYTE $0xc4 // cmp    r12, rax
+	JAE  LBB7_180
+	LONG $0x94048d4b         // lea    rax, [r12 + 4*r10]
+	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
+	JBE  LBB7_180
+
+LBB7_177:
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
+	WORD $0x894d; BYTE $0xe6 // mov    r14, r12
+
+LBB7_183:
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000b02494894c // mov    qword [rsp + 176], r10
+	WORD $0x294d; BYTE $0xc2 // sub    r10, r8
+	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
+
+LBB7_184:
+	LONG $0x2434894c                           // mov    qword [rsp], r14
+	LONG $0x1b2e0f44                           // ucomiss    xmm11, dword [rbx]
+	QUAD $0x000000d02494920f                   // setb    byte [rsp + 208]
+	LONG $0x5b2e0f44; BYTE $0x04               // ucomiss    xmm11, dword [rbx + 4]
+	LONG $0xd0920f41                           // setb    r8b
+	LONG $0x5b2e0f44; BYTE $0x08               // ucomiss    xmm11, dword [rbx + 8]
+	LONG $0xd6920f41                           // setb    r14b
+	LONG $0x5b2e0f44; BYTE $0x0c               // ucomiss    xmm11, dword [rbx + 12]
+	LONG $0xd5920f41                           // setb    r13b
+	LONG $0x5b2e0f44; BYTE $0x10               // ucomiss    xmm11, dword [rbx + 16]
+	LONG $0x2454920f; BYTE $0x70               // setb    byte [rsp + 112]
+	LONG $0x5b2e0f44; BYTE $0x14               // ucomiss    xmm11, dword [rbx + 20]
+	LONG $0x2454920f; BYTE $0x58               // setb    byte [rsp + 88]
+	LONG $0x5b2e0f44; BYTE $0x18               // ucomiss    xmm11, dword [rbx + 24]
+	WORD $0x920f; BYTE $0xd0                   // setb    al
+	LONG $0x5b2e0f44; BYTE $0x1c               // ucomiss    xmm11, dword [rbx + 28]
+	LONG $0xd3920f41                           // setb    r11b
+	LONG $0x5b2e0f44; BYTE $0x20               // ucomiss    xmm11, dword [rbx + 32]
+	QUAD $0x000000a02494920f                   // setb    byte [rsp + 160]
+	LONG $0x5b2e0f44; BYTE $0x24               // ucomiss    xmm11, dword [rbx + 36]
+	WORD $0x920f; BYTE $0xd2                   // setb    dl
+	LONG $0x5b2e0f44; BYTE $0x28               // ucomiss    xmm11, dword [rbx + 40]
+	LONG $0xd6920f40                           // setb    sil
+	LONG $0x5b2e0f44; BYTE $0x2c               // ucomiss    xmm11, dword [rbx + 44]
+	LONG $0xd1920f41                           // setb    r9b
+	LONG $0x5b2e0f44; BYTE $0x30               // ucomiss    xmm11, dword [rbx + 48]
+	LONG $0xd2920f41                           // setb    r10b
+	LONG $0x5b2e0f44; BYTE $0x34               // ucomiss    xmm11, dword [rbx + 52]
+	LONG $0xd4920f41                           // setb    r12b
+	LONG $0x5b2e0f44; BYTE $0x38               // ucomiss    xmm11, dword [rbx + 56]
+	LONG $0x2454920f; BYTE $0x78               // setb    byte [rsp + 120]
+	LONG $0x5b2e0f44; BYTE $0x3c               // ucomiss    xmm11, dword [rbx + 60]
+	LONG $0xd7920f40                           // setb    dil
+	LONG $0x5b2e0f44; BYTE $0x40               // ucomiss    xmm11, dword [rbx + 64]
+	LONG $0x2454920f; BYTE $0x50               // setb    byte [rsp + 80]
+	LONG $0x5b2e0f44; BYTE $0x44               // ucomiss    xmm11, dword [rbx + 68]
+	QUAD $0x000000902494920f                   // setb    byte [rsp + 144]
+	LONG $0x5b2e0f44; BYTE $0x48               // ucomiss    xmm11, dword [rbx + 72]
+	LONG $0x2454920f; BYTE $0x68               // setb    byte [rsp + 104]
+	LONG $0x5b2e0f44; BYTE $0x4c               // ucomiss    xmm11, dword [rbx + 76]
+	LONG $0x2454920f; BYTE $0x60               // setb    byte [rsp + 96]
+	LONG $0x5b2e0f44; BYTE $0x50               // ucomiss    xmm11, dword [rbx + 80]
+	LONG $0x2454920f; BYTE $0x40               // setb    byte [rsp + 64]
+	LONG $0x5b2e0f44; BYTE $0x54               // ucomiss    xmm11, dword [rbx + 84]
+	LONG $0x2454920f; BYTE $0x48               // setb    byte [rsp + 72]
+	LONG $0x5b2e0f44; BYTE $0x58               // ucomiss    xmm11, dword [rbx + 88]
+	LONG $0x2454920f; BYTE $0x38               // setb    byte [rsp + 56]
+	LONG $0x5b2e0f44; BYTE $0x5c               // ucomiss    xmm11, dword [rbx + 92]
+	LONG $0xd7920f41                           // setb    r15b
+	LONG $0x5b2e0f44; BYTE $0x60               // ucomiss    xmm11, dword [rbx + 96]
+	LONG $0x2454920f; BYTE $0x08               // setb    byte [rsp + 8]
+	LONG $0x5b2e0f44; BYTE $0x64               // ucomiss    xmm11, dword [rbx + 100]
+	LONG $0x2454920f; BYTE $0x30               // setb    byte [rsp + 48]
+	LONG $0x5b2e0f44; BYTE $0x68               // ucomiss    xmm11, dword [rbx + 104]
+	LONG $0x2454920f; BYTE $0x18               // setb    byte [rsp + 24]
+	LONG $0x5b2e0f44; BYTE $0x6c               // ucomiss    xmm11, dword [rbx + 108]
+	LONG $0x2454920f; BYTE $0x20               // setb    byte [rsp + 32]
+	LONG $0x5b2e0f44; BYTE $0x70               // ucomiss    xmm11, dword [rbx + 112]
+	LONG $0x2454920f; BYTE $0x28               // setb    byte [rsp + 40]
+	LONG $0x5b2e0f44; BYTE $0x74               // ucomiss    xmm11, dword [rbx + 116]
+	LONG $0x2454920f; BYTE $0x10               // setb    byte [rsp + 16]
+	LONG $0x5b2e0f44; BYTE $0x78               // ucomiss    xmm11, dword [rbx + 120]
+	QUAD $0x000000802494920f                   // setb    byte [rsp + 128]
+	LONG $0x5b2e0f44; BYTE $0x7c               // ucomiss    xmm11, dword [rbx + 124]
+	WORD $0x920f; BYTE $0xd1                   // setb    cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x000000d024840244                   // add    r8b, byte [rsp + 208]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xa0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 160]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x78               // movzx    esi, byte [rsp + 120]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
+	LONG $0x24348b4c                           // mov    r14, qword [rsp]
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xc000                               // add    al, al
+	LONG $0x50244402                           // add    al, byte [rsp + 80]
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
+	LONG $0x2474b60f; BYTE $0x38               // movzx    esi, byte [rsp + 56]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x017e8841                           // mov    byte [r14 + 1], dil
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x08244402                           // add    al, byte [rsp + 8]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xc108                               // or    cl, al
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x034e8841                           // mov    byte [r14 + 3], cl
+	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB7_184
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+	JMP  LBB7_186
+
+LBB7_9:
+	LONG $0x2464894c; BYTE $0x58 // mov    qword [rsp + 88], r12
+
+LBB7_90:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB7_200
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB7_93
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+	JMP  LBB7_96
+
+LBB7_61:
+	LONG $0x2464894c; BYTE $0x48 // mov    qword [rsp + 72], r12
+	WORD $0x8949; BYTE $0xf6     // mov    r14, rsi
+
+LBB7_72:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB7_200
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB7_75
+	WORD $0xc031             // xor    eax, eax
+	JMP  LBB7_78
+
+LBB7_175:
+	WORD $0x894d; BYTE $0xe6 // mov    r14, r12
+	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
+
+LBB7_186:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB7_200
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB7_191
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB7_189
+
+LBB7_153:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB7_154:
+	WORD $0x3b4c; BYTE $0x2e     // cmp    r13, qword [rsi]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
+	LONG $0x03eac148             // shr    rdx, 3
+	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
+	LONG $0x14b60f45; BYTE $0x14 // movzx    r10d, byte [r12 + rdx]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x14048841             // mov    byte [r12 + rdx], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e3b4c             // cmp    r13, qword [rsi + 8]
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x141c8841             // mov    byte [r12 + rdx], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB7_154
+
+LBB7_40:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB7_200
+	WORD $0x3b4c; BYTE $0x2e // cmp    r13, qword [rsi]
+	JMP  LBB7_197
+
+LBB7_151:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB7_152:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
+	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB7_152
+
+LBB7_148:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB7_200
+	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
+	JMP  LBB7_150
+
+LBB7_93:
+	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0x245c8b4c; BYTE $0x58 // mov    r11, qword [rsp + 88]
+
+LBB7_94:
+	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
+	LONG $0x0e343846             // cmp    byte [rsi + r9], r14b
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x06743844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r14b
+	LONG $0x02488d4c             // lea    r9, [rax + 2]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
+	JNE  LBB7_94
+	WORD $0x014c; BYTE $0xce     // add    rsi, r9
+
+LBB7_96:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB7_200
+	WORD $0x3844; BYTE $0x36     // cmp    byte [rsi], r14b
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x24448b4c; BYTE $0x58 // mov    r8, qword [rsp + 88]
+	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
+	LONG $0x07e18041             // and    r9b, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8     // xor    al, dil
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
+	LONG $0x101c8841             // mov    byte [r8 + rdx], bl
+	JMP  LBB7_200
+
+LBB7_75:
+	WORD $0x894d; BYTE $0xc1     // mov    r9, r8
+	LONG $0xfee18349             // and    r9, -2
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x245c8b4c; BYTE $0x48 // mov    r11, qword [rsp + 72]
+	LONG $0x24548a44; BYTE $0x28 // mov    r10b, byte [rsp + 40]
+
+LBB7_76:
+	LONG $0x06143a45             // cmp    r10b, byte [r14 + rax]
+	WORD $0xf619                 // sbb    esi, esi
+	WORD $0x8948; BYTE $0xc7     // mov    rdi, rax
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x1cb60f41; BYTE $0x3b // movzx    ebx, byte [r11 + rdi]
+	WORD $0x3040; BYTE $0xde     // xor    sil, bl
+	WORD $0x2040; BYTE $0xf2     // and    dl, sil
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	LONG $0x06543a45; BYTE $0x01 // cmp    r10b, byte [r14 + rax + 1]
+	LONG $0x02408d48             // lea    rax, [rax + 2]
+	WORD $0xf619                 // sbb    esi, esi
+	WORD $0x3040; BYTE $0xd6     // xor    sil, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xf3     // and    bl, sil
+	WORD $0xd330                 // xor    bl, dl
+	LONG $0x3b1c8841             // mov    byte [r11 + rdi], bl
+	WORD $0x3949; BYTE $0xc1     // cmp    r9, rax
+	JNE  LBB7_76
+	WORD $0x0149; BYTE $0xc6     // add    r14, rax
+
+LBB7_78:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB7_200
+	LONG $0x28244c8a             // mov    cl, byte [rsp + 40]
+	WORD $0x3a41; BYTE $0x0e     // cmp    cl, byte [r14]
+	WORD $0xd219                 // sbb    edx, edx
+	WORD $0x8948; BYTE $0xc6     // mov    rsi, rax
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x24448b4c; BYTE $0x48 // mov    r8, qword [rsp + 72]
+	LONG $0x303c8a41             // mov    dil, byte [r8 + rsi]
+	WORD $0x0724                 // and    al, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3040; BYTE $0xfa     // xor    dl, dil
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
+	LONG $0x301c8841             // mov    byte [r8 + rsi], bl
+	JMP  LBB7_200
+
+LBB7_135:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB7_136:
+	WORD $0x3b44; BYTE $0x2e     // cmp    r13d, dword [rsi]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
+	LONG $0x03eac148             // shr    rdx, 3
+	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
+	LONG $0x14b60f45; BYTE $0x14 // movzx    r10d, byte [r12 + rdx]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x14048841             // mov    byte [r12 + rdx], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3b44             // cmp    r13d, dword [rsi + 4]
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x141c8841             // mov    byte [r12 + rdx], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB7_136
+
+LBB7_24:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB7_200
+	WORD $0x3b44; BYTE $0x2e // cmp    r13d, dword [rsi]
+	JMP  LBB7_197
+
+LBB7_193:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB7_194:
+	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
+	WORD $0xc019                 // sbb    eax, eax
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
+	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x462e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rsi + 8]
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0xc019                 // sbb    eax, eax
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB7_194
+
+LBB7_195:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB7_200
+	LONG $0x062e0f66 // ucomisd    xmm0, qword [rsi]
+	JMP  LBB7_197
+
+LBB7_111:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB7_112:
+	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
+	LONG $0x03eac148             // shr    rdx, 3
+	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
+	LONG $0x14b60f45; BYTE $0x14 // movzx    r10d, byte [r12 + rdx]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x14048841             // mov    byte [r12 + rdx], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x141c8841             // mov    byte [r12 + rdx], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB7_112
+
+LBB7_109:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB7_200
+	LONG $0x2e3b4466 // cmp    r13w, word [rsi]
+
+LBB7_197:
+	WORD $0xc019             // sbb    eax, eax
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x14348a41         // mov    sil, byte [r12 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	JMP  LBB7_198
+
+LBB7_133:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
+	QUAD $0x000000f0249c8b44 // mov    r11d, dword [rsp + 240]
+
+LBB7_134:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x1e394466             // cmp    word [rsi], r11w
+	WORD $0x9f0f; BYTE $0xd2     // setg    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
+	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x02c68349             // add    r14, 2
+	LONG $0x5e394466; BYTE $0x02 // cmp    word [rsi + 2], r11w
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x9f0f; BYTE $0xd2     // setg    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xda30                 // xor    dl, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x3c048841             // mov    byte [r12 + rdi], al
+	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
+	JNE  LBB7_134
+
+LBB7_131:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB7_200
+	LONG $0xf024848b; WORD $0x0000; BYTE $0x00 // mov    eax, dword [rsp + 240]
+	WORD $0x3966; BYTE $0x06                   // cmp    word [rsi], ax
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	WORD $0xd8f6                               // neg    al
+	WORD $0x894c; BYTE $0xf2                   // mov    rdx, r14
+	LONG $0x03eac148                           // shr    rdx, 3
+	LONG $0x143c8a41                           // mov    dil, byte [r12 + rdx]
+	LONG $0x07e68041                           // and    r14b, 7
+	WORD $0x01b3                               // mov    bl, 1
+	WORD $0x8944; BYTE $0xf1                   // mov    ecx, r14d
+	WORD $0xe3d2                               // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8                   // xor    al, dil
+	WORD $0xc320                               // and    bl, al
+	WORD $0x3040; BYTE $0xfb                   // xor    bl, dil
+	JMP  LBB7_199
+
+LBB7_168:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB7_169:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0x894d; BYTE $0xe6     // mov    r14, r12
+	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB7_169
+
+LBB7_166:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB7_200
+	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
+
+LBB7_150:
+	WORD $0x9f0f; BYTE $0xd0 // setg    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x14348a41         // mov    sil, byte [r12 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+
+LBB7_198:
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+
+LBB7_199:
+	LONG $0x141c8841 // mov    byte [r12 + rdx], bl
+
+LBB7_200:
+	MOVQ 336(SP), SP
+	RET
+
+LBB7_191:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB7_192:
+	LONG $0x1b2e0f44             // ucomiss    xmm11, dword [rbx]
+	WORD $0xd219                 // sbb    edx, edx
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x5b2e0f44; BYTE $0x04 // ucomiss    xmm11, dword [rbx + 4]
+	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
+	WORD $0xf619                 // sbb    esi, esi
+	WORD $0x3040; BYTE $0xc6     // xor    sil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x2040; BYTE $0xf2     // and    dl, sil
+	WORD $0xc230                 // xor    dl, al
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB7_192
+
+LBB7_189:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB7_200
+	LONG $0x1b2e0f44         // ucomiss    xmm11, dword [rbx]
+	WORD $0xc019             // sbb    eax, eax
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
+	JMP  LBB7_200
+
+LBB7_84:
+	LONG $0xf0e28349                     // and    r10, -16
+	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
+	QUAD $0x000000e82494894c             // mov    qword [rsp + 232], r10
+	LONG $0x94048d4b                     // lea    rax, [r12 + 4*r10]
+	LONG $0x24448948; BYTE $0x58         // mov    qword [rsp + 88], rax
+	LONG $0xc6b60f41                     // movzx    eax, r14b
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x0000a0248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 160], xmm1
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x0000008024a4894c             // mov    qword [rsp + 128], r12
+
+LBB7_85:
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
+	LONG $0x05e7c148                           // shl    rdi, 5
+	WORD $0x8949; BYTE $0xf8                   // mov    r8, rdi
+	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
+	WORD $0x8949; BYTE $0xf9                   // mov    r9, rdi
+	WORD $0x8949; BYTE $0xfc                   // mov    r12, rdi
+	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
+	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
+	LONG $0x247c8948; BYTE $0x20               // mov    qword [rsp + 32], rdi
+	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
+	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
+	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
+	WORD $0x8948; BYTE $0xfb                   // mov    rbx, rdi
+	LONG $0x3e0cb60f                           // movzx    ecx, byte [rsi + rdi]
+	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
+	LONG $0x3e4cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rdi + 1]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	LONG $0x3e4cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rdi + 2]
+	LONG $0xf16e0f66                           // movd    xmm6, ecx
+	LONG $0x3e4cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rdi + 3]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	LONG $0x3e4cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rdi + 4]
+	LONG $0xc96e0f66                           // movd    xmm1, ecx
+	LONG $0x3e4cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rdi + 5]
+	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
+	LONG $0x3e4cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rdi + 6]
+	LONG $0xd96e0f66                           // movd    xmm3, ecx
+	LONG $0x3e4cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rdi + 7]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
+	LONG $0x3e4cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rdi + 8]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
+	LONG $0x3e4cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rdi + 9]
+	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
+	LONG $0x3e4cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rdi + 10]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00009024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm0
+	LONG $0x3e4cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rdi + 11]
+	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
+	LONG $0x3e4cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rdi + 12]
+	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
+	LONG $0x3e4cb60f; BYTE $0x0d               // movzx    ecx, byte [rsi + rdi + 13]
+	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
+	LONG $0x3e4cb60f; BYTE $0x0e               // movzx    ecx, byte [rsi + rdi + 14]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00013024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm0
+	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
+	LONG $0x20cd8349                           // or    r13, 32
+	LONG $0x246c894c; BYTE $0x28               // mov    qword [rsp + 40], r13
+	LONG $0x40c88349                           // or    r8, 64
+	LONG $0x60ca8348                           // or    rdx, 96
+	LONG $0x24548948; BYTE $0x78               // mov    qword [rsp + 120], rdx
+	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
+	LONG $0xa0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 160
+	LONG $0xc0cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 192
+	LONG $0x245c894c; BYTE $0x40               // mov    qword [rsp + 64], r11
+	LONG $0x00e00d48; WORD $0x0000             // or    rax, 224
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
+	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
+	LONG $0x20ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 288
+	LONG $0x40ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 320
+	LONG $0x60cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 352
+	LONG $0x247c894c; BYTE $0x50               // mov    qword [rsp + 80], r15
+	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
+	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
+	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
+	WORD $0x8948; BYTE $0xf9                   // mov    rcx, rdi
+	LONG $0x247c8948; BYTE $0x18               // mov    qword [rsp + 24], rdi
+	LONG $0x01c00d48; WORD $0x0000             // or    rax, 448
+	LONG $0x24448948; BYTE $0x10               // mov    qword [rsp + 16], rax
+	LONG $0xe0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 480
+	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
+	QUAD $0x012e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 1
+	QUAD $0x02063c203a0f4666                   // pinsrb    xmm15, byte [rsi + r8], 2
+	QUAD $0x03163c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdx], 3
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	LONG $0x244c894c; BYTE $0x38               // mov    qword [rsp + 56], r9
+	QUAD $0x040e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 4
+	QUAD $0x05263c203a0f4666                   // pinsrb    xmm15, byte [rsi + r12], 5
+	LONG $0x244c8b4c; BYTE $0x40               // mov    r9, qword [rsp + 64]
+	QUAD $0x060e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r9], 6
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x072e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r13], 7
+	LONG $0x245c894c; BYTE $0x20               // mov    qword [rsp + 32], r11
+	QUAD $0x081e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r11], 8
+	QUAD $0x09363c203a0f4666                   // pinsrb    xmm15, byte [rsi + r14], 9
+	QUAD $0x0a163c203a0f4666                   // pinsrb    xmm15, byte [rsi + r10], 10
+	QUAD $0x0b3e3c203a0f4666                   // pinsrb    xmm15, byte [rsi + r15], 11
+	QUAD $0x0c1e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rbx], 12
+	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
+	QUAD $0x0d163c203a0f4466                   // pinsrb    xmm15, byte [rsi + rdx], 13
+	QUAD $0x0e063c203a0f4466                   // pinsrb    xmm15, byte [rsi + rax], 14
+	QUAD $0x0f0e3c203a0f4466                   // pinsrb    xmm15, byte [rsi + rcx], 15
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x011e6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r11 + 1], 1
+	QUAD $0x01066c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rsi + r8 + 1], 2
+	WORD $0x894d; BYTE $0xc3                   // mov    r11, r8
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x01066c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r8 + 1], 3
+	QUAD $0x04013e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 1], 4
+	QUAD $0x01266c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r12 + 1], 5
+	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
+	QUAD $0x010e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r9 + 1], 6
+	QUAD $0x012e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r13 + 1], 7
+	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0801166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 1], 8
+	QUAD $0x01366c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r14 + 1], 9
+	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
+	QUAD $0x01166c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r10 + 1], 10
+	QUAD $0x013e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r15 + 1], 11
+	QUAD $0x0c011e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 1], 12
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	QUAD $0x000000c0249c8948                   // mov    qword [rsp + 192], rbx
+	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
+	QUAD $0x013e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r15 + 1], 13
+	QUAD $0x0e01066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 1], 14
+	QUAD $0x0f010e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 1], 15
+	QUAD $0x00a0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 160]
+	LONG $0x640f4166; BYTE $0xe9               // pcmpgtb    xmm5, xmm9
+	LONG $0xfd6f0f66                           // movdqa    xmm7, xmm5
+	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI7_10] */
+	LONG $0xfcdb0f66                           // pand    xmm7, xmm4
+	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	LONG $0x065cb60f; BYTE $0x0f               // movzx    ebx, byte [rsi + rax + 15]
+	LONG $0x6e0f4466; BYTE $0xf3               // movd    xmm14, ebx
+	LONG $0x640f4566; BYTE $0xf9               // pcmpgtb    xmm15, xmm9
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x01021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 1
+	QUAD $0x021e74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r11 + 2], 2
+	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
+	QUAD $0x020674203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r8 + 2], 3
+	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
+	QUAD $0x023674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 2], 4
+	QUAD $0x05023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 5
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x020674203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r8 + 2], 6
+	QUAD $0x022674203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r12 + 2], 7
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x08021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 8
+	QUAD $0x000000b0248c894c                   // mov    qword [rsp + 176], r9
+	QUAD $0x020e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 2], 9
+	QUAD $0x021674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r10 + 2], 10
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x022674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r12 + 2], 11
+	QUAD $0x022e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r13 + 2], 12
+	QUAD $0x023e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r15 + 2], 13
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x0e021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 14
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0f021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 15
+	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
+	LONG $0x640f4166; BYTE $0xf1               // pcmpgtb    xmm6, xmm9
+	QUAD $0x000000b0856f0f66                   // movdqa    xmm0, oword 176[rbp] /* [rip + .LCPI7_11] */
+	LONG $0xf0db0f66                           // pand    xmm6, xmm0
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x065cb60f; BYTE $0x10               // movzx    ebx, byte [rsi + rax + 16]
+	LONG $0x6e0f4466; BYTE $0xfb               // movd    xmm15, ebx
+	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
+	QUAD $0x01031654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 3], 1
+	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
+	QUAD $0x031e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r11 + 3], 2
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	QUAD $0x03030e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 3], 3
+	QUAD $0x033654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 3], 4
+	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
+	LONG $0x247c8948; BYTE $0x68               // mov    qword [rsp + 104], rdi
+	QUAD $0x05033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 5
+	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
+	QUAD $0x030654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r8 + 3], 6
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x07033e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 3], 7
+	LONG $0x24448b4c; BYTE $0x20               // mov    r8, qword [rsp + 32]
+	QUAD $0x030654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 3], 8
+	QUAD $0x030e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 3], 9
+	QUAD $0x031654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r10 + 3], 10
+	QUAD $0x032654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r12 + 3], 11
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x032654203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r12 + 3], 12
+	QUAD $0x033e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r15 + 3], 13
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x0e031e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 3], 14
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0f031e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 3], 15
+	QUAD $0x0104064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 1
+	QUAD $0x042e4c203a0f4266; BYTE $0x02       // pinsrb    xmm1, byte [rsi + r13 + 4], 2
+	LONG $0x246c894c; BYTE $0x60               // mov    qword [rsp + 96], r13
+	QUAD $0x041e4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r11 + 4], 3
+	QUAD $0x04364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 4], 4
+	QUAD $0x0504164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 5
+	QUAD $0x06040e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 4], 6
+	QUAD $0x07043e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 4], 7
+	QUAD $0x04064c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r8 + 4], 8
+	QUAD $0x040e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 4], 9
+	QUAD $0x04164c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r10 + 4], 10
+	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b04064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 4], 11
+	QUAD $0x04264c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r12 + 4], 12
+	QUAD $0x043e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r15 + 4], 13
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0e04164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 4], 14
+	QUAD $0x0f041e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 4], 15
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	LONG $0x065cb60f; BYTE $0x11               // movzx    ebx, byte [rsi + rax + 17]
+	LONG $0xc36e0f66                           // movd    xmm0, ebx
+	LONG $0x640f4166; BYTE $0xd1               // pcmpgtb    xmm2, xmm9
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI7_12] */
+	LONG $0xd5db0f66                           // pand    xmm2, xmm5
+	LONG $0x640f4166; BYTE $0xc9               // pcmpgtb    xmm1, xmm9
+	QUAD $0x000000d0ad6f0f66                   // movdqa    xmm5, oword 208[rbp] /* [rip + .LCPI7_13] */
+	LONG $0xcddb0f66                           // pand    xmm1, xmm5
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	LONG $0x065cb60f; BYTE $0x12               // movzx    ebx, byte [rsi + rax + 18]
+	LONG $0xeb6e0f66                           // movd    xmm5, ebx
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x050e44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rcx + 5], 1
+	QUAD $0x052e44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r13 + 5], 2
+	QUAD $0x051e44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r11 + 5], 3
+	QUAD $0x053644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 5], 4
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x053e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rdi + 5], 5
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x051e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rbx + 5], 6
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x050e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r9 + 5], 7
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x052644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r12 + 5], 8
+	QUAD $0x000000b024ac8b4c                   // mov    r13, qword [rsp + 176]
+	QUAD $0x052e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r13 + 5], 9
+	QUAD $0x051644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r10 + 5], 10
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x053e44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r15 + 5], 11
+	QUAD $0x000000c0249c8b48                   // mov    rbx, qword [rsp + 192]
+	QUAD $0x051e44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rbx + 5], 12
+	QUAD $0x050644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r8 + 5], 13
+	QUAD $0x051644203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rdx + 5], 14
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	QUAD $0x053644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r14 + 5], 15
+	LONG $0x640f4566; BYTE $0xc1               // pcmpgtb    xmm8, xmm9
+	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI7_14] */
+	LONG $0xdb0f4466; BYTE $0xc2               // pand    xmm8, xmm2
+	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
+	LONG $0x065cb60f; BYTE $0x13               // movzx    ebx, byte [rsi + rax + 19]
+	LONG $0xfb6e0f66                           // movd    xmm7, ebx
+	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
+	LONG $0x065cb60f; BYTE $0x14               // movzx    ebx, byte [rsi + rax + 20]
+	LONG $0xf36e0f66                           // movd    xmm6, ebx
+	QUAD $0x01060e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 6], 1
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0206065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 2
+	QUAD $0x061e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r11 + 6], 3
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0406065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 6], 4
+	WORD $0x8949; BYTE $0xf8                   // mov    r8, rdi
+	QUAD $0x05063e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 6], 5
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x06060e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 6], 6
+	QUAD $0x060e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r9 + 6], 7
+	QUAD $0x06265c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r12 + 6], 8
+	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
+	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
+	QUAD $0x062e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r13 + 6], 9
+	LONG $0x247c8b48; BYTE $0x70               // mov    rdi, qword [rsp + 112]
+	QUAD $0x0a063e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 6], 10
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	QUAD $0x063e5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r15 + 6], 11
+	QUAD $0x000000c024a48b4c                   // mov    r12, qword [rsp + 192]
+	QUAD $0x06265c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r12 + 6], 12
+	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
+	QUAD $0x0d06165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 6], 13
+	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
+	QUAD $0x063e5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r15 + 6], 14
+	QUAD $0x06365c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r14 + 6], 15
+	QUAD $0x0000d024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 208]
+	QUAD $0x071654203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r10 + 7], 1
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x072e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r13 + 7], 2
+	QUAD $0x071e54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r11 + 7], 3
+	LONG $0x24548b4c; BYTE $0x38               // mov    r10, qword [rsp + 56]
+	QUAD $0x071654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r10 + 7], 4
+	QUAD $0x070654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r8 + 7], 5
+	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
+	QUAD $0x06070e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 7], 6
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x07070e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 7], 7
+	QUAD $0x070e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r9 + 7], 8
+	QUAD $0x09070654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 7], 9
+	QUAD $0x0a073e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 7], 10
+	QUAD $0x0b071e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 7], 11
+	QUAD $0x072654203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r12 + 7], 12
+	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
+	QUAD $0x071e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r11 + 7], 13
+	QUAD $0x073e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r15 + 7], 14
+	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
+	QUAD $0x073654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r14 + 7], 15
+	LONG $0x640f4166; BYTE $0xd9               // pcmpgtb    xmm3, xmm9
+	QUAD $0x000000f08d6f0f66                   // movdqa    xmm1, oword 240[rbp] /* [rip + .LCPI7_15] */
+	LONG $0xd9db0f66                           // pand    xmm3, xmm1
+	LONG $0x640f4166; BYTE $0xd1               // pcmpgtb    xmm2, xmm9
+	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
+	LONG $0x4d6f0f66; BYTE $0x60               // movdqa    xmm1, oword 96[rbp] /* [rip + .LCPI7_6] */
+	LONG $0xd1db0f66                           // pand    xmm2, xmm1
+	LONG $0xd3eb0f66                           // por    xmm2, xmm3
+	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	LONG $0x065cb60f; BYTE $0x15               // movzx    ebx, byte [rsi + rax + 21]
+	LONG $0xd36e0f66                           // movd    xmm2, ebx
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x090e54203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rcx + 9], 1
+	QUAD $0x092e54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r13 + 9], 2
+	LONG $0x24448b4c; BYTE $0x78               // mov    r8, qword [rsp + 120]
+	QUAD $0x090654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r8 + 9], 3
+	QUAD $0x091654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r10 + 9], 4
+	QUAD $0x091654203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rdx + 9], 5
+	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
+	LONG $0x24548b48; BYTE $0x40               // mov    rdx, qword [rsp + 64]
+	QUAD $0x091654203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rdx + 9], 6
+	LONG $0x244c8b4c; BYTE $0x48               // mov    r9, qword [rsp + 72]
+	QUAD $0x090e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r9 + 9], 7
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x091e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rbx + 9], 8
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x091e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rbx + 9], 9
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x093e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r15 + 9], 10
+	LONG $0x245c8b48; BYTE $0x50               // mov    rbx, qword [rsp + 80]
+	QUAD $0x091e54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rbx + 9], 11
+	QUAD $0x092654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r12 + 9], 12
+	QUAD $0x091e54203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r11 + 9], 13
+	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
+	QUAD $0x091654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r10 + 9], 14
+	QUAD $0x093e54203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rdi + 9], 15
+	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
+	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
+	LONG $0x640f4566; BYTE $0xd1               // pcmpgtb    xmm10, xmm9
+	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
+	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
+	LONG $0xccdb0f66                           // pand    xmm1, xmm4
+	LONG $0xf80f4166; BYTE $0xca               // psubb    xmm1, xmm10
+	LONG $0x065cb60f; BYTE $0x16               // movzx    ebx, byte [rsi + rax + 22]
+	LONG $0xdb6e0f66                           // movd    xmm3, ebx
+	QUAD $0x00011024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 272]
+	QUAD $0x01080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 1
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	QUAD $0x082e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r13 + 8], 2
+	QUAD $0x080664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r8 + 8], 3
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x04083e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 8], 4
+	QUAD $0x083664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r14 + 8], 5
+	QUAD $0x06081664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 8], 6
+	WORD $0x894c; BYTE $0xca                   // mov    rdx, r9
+	QUAD $0x080e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r9 + 8], 7
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	QUAD $0x083664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r14 + 8], 8
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x09080664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 8], 9
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	QUAD $0x083e64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r15 + 8], 10
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x083e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 8], 11
+	QUAD $0x082664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r12 + 8], 12
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x0d080e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 8], 13
+	QUAD $0x081664203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r10 + 8], 14
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x080e64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r9 + 8], 15
+	LONG $0x640f4166; BYTE $0xe1               // pcmpgtb    xmm4, xmm9
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	QUAD $0x009024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 144]
+	QUAD $0x0a1e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r11 + 10], 1
+	QUAD $0x0a2e54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r13 + 10], 2
+	QUAD $0x0a0654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r8 + 10], 3
+	QUAD $0x0a3e54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rdi + 10], 4
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0a3e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rdi + 10], 5
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x0a0654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r8 + 10], 6
+	QUAD $0x0a1654203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rdx + 10], 7
+	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
+	QUAD $0x0a3654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r14 + 10], 8
+	QUAD $0x0a0654203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rax + 10], 9
+	QUAD $0x0a1e54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rbx + 10], 10
+	QUAD $0x0a3e54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r15 + 10], 11
+	QUAD $0x0a2654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r12 + 10], 12
+	QUAD $0x0a0e54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rcx + 10], 13
+	QUAD $0x0a1654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r10 + 10], 14
+	QUAD $0x0a0e54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r9 + 10], 15
+	LONG $0x640f4566; BYTE $0xd1               // pcmpgtb    xmm10, xmm9
+	QUAD $0x0000b095db0f4466; BYTE $0x00       // pand    xmm10, oword 176[rbp] /* [rip + .LCPI7_11] */
+	LONG $0xeb0f4466; BYTE $0xd4               // por    xmm10, xmm4
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	LONG $0x0e5cb60f; BYTE $0x17               // movzx    ebx, byte [rsi + rcx + 23]
+	LONG $0x6e0f4466; BYTE $0xc3               // movd    xmm8, ebx
+	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
+	QUAD $0x009024947f0f4466; WORD $0x0000     // movdqa    oword [rsp + 144], xmm10
+	LONG $0x0e5cb60f; BYTE $0x18               // movzx    ebx, byte [rsi + rcx + 24]
+	LONG $0x6e0f4466; BYTE $0xd3               // movd    xmm10, ebx
+	LONG $0x24548b48; BYTE $0x28               // mov    rdx, qword [rsp + 40]
+	QUAD $0x0b165c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rdx + 11], 1
+	QUAD $0x0b2e5c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rsi + r13 + 11], 2
+	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	QUAD $0x0b0e5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rcx + 11], 3
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x0b0e5c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rsi + rcx + 11], 4
+	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
+	QUAD $0x0b3e5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rsi + rdi + 11], 5
+	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
+	QUAD $0x0b065c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rsi + r8 + 11], 6
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0b3e5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdi + 11], 7
+	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
+	QUAD $0x0b1e5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r11 + 11], 8
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	QUAD $0x0b065c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rsi + rax + 11], 9
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x0b165c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r10 + 11], 10
+	QUAD $0x0b3e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 11], 11
+	QUAD $0x0b265c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r12 + 11], 12
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0b065c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rax + 11], 13
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x0b1e5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rbx + 11], 14
+	LONG $0x245c8b4c; BYTE $0x30               // mov    r11, qword [rsp + 48]
+	QUAD $0x0b1e5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r11 + 11], 15
+	QUAD $0x0c166c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rdx + 12], 1
+	QUAD $0x0c366c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rsi + r14 + 12], 2
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x0c366c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r14 + 12], 3
+	QUAD $0x0c2e6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r13 + 12], 4
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	QUAD $0x0c2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 12], 5
+	QUAD $0x0c0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 12], 6
+	QUAD $0x0c3e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdi + 12], 7
+	QUAD $0x0c066c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r8 + 12], 8
+	QUAD $0x0c0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 12], 9
+	QUAD $0x0c166c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r10 + 12], 10
+	QUAD $0x0c3e6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r15 + 12], 11
+	QUAD $0x0c266c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r12 + 12], 12
+	QUAD $0x0c066c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rax + 12], 13
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	QUAD $0x0c1e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rbx + 12], 14
+	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
+	QUAD $0x0c1e6c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r11 + 12], 15
+	QUAD $0x0d1664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rdx + 13], 1
+	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
+	QUAD $0x0d1e64203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rsi + r11 + 13], 2
+	QUAD $0x0d3664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r14 + 13], 3
+	LONG $0x24548b48; BYTE $0x38               // mov    rdx, qword [rsp + 56]
+	QUAD $0x0d1664203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rdx + 13], 4
+	LONG $0x24548b48; BYTE $0x68               // mov    rdx, qword [rsp + 104]
+	QUAD $0x0d1664203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rsi + rdx + 13], 5
+	QUAD $0x0d0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 13], 6
+	QUAD $0x0d3e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdi + 13], 7
+	QUAD $0x0d0664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r8 + 13], 8
+	QUAD $0x0d0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 13], 9
+	QUAD $0x0d1664203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r10 + 13], 10
+	QUAD $0x0d3e64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r15 + 13], 11
+	QUAD $0x0d2664203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r12 + 13], 12
+	WORD $0x894c; BYTE $0xef                   // mov    rdi, r13
+	QUAD $0x0d2e64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r13 + 13], 13
+	QUAD $0x0d1e64203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rbx + 13], 14
+	QUAD $0x0d0664203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rax + 13], 15
+	LONG $0x640f4566; BYTE $0xd9               // pcmpgtb    xmm11, xmm9
+	QUAD $0x0000c09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 192[rbp] /* [rip + .LCPI7_12] */
+	LONG $0x640f4566; BYTE $0xe9               // pcmpgtb    xmm13, xmm9
+	QUAD $0x0000d0addb0f4466; BYTE $0x00       // pand    xmm13, oword 208[rbp] /* [rip + .LCPI7_13] */
+	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	LONG $0x065cb60f; BYTE $0x19               // movzx    ebx, byte [rsi + rax + 25]
+	LONG $0xcb6e0f66                           // movd    xmm1, ebx
+	LONG $0x640f4566; BYTE $0xe1               // pcmpgtb    xmm12, xmm9
+	QUAD $0x0000e0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 224[rbp] /* [rip + .LCPI7_14] */
+	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
+	LONG $0x065cb60f; BYTE $0x1a               // movzx    ebx, byte [rsi + rax + 26]
+	LONG $0x6e0f4466; BYTE $0xdb               // movd    xmm11, ebx
+	QUAD $0x00013024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 304]
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x010e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 14], 1
+	WORD $0x894d; BYTE $0xdd                   // mov    r13, r11
+	QUAD $0x0e1e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r11 + 14], 2
+	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
+	QUAD $0x0e3664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r14 + 14], 3
+	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
+	QUAD $0x0e3664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r14 + 14], 4
+	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
+	QUAD $0x050e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 5
+	QUAD $0x060e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 6
+	LONG $0x24548b48; BYTE $0x48               // mov    rdx, qword [rsp + 72]
+	QUAD $0x070e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 7
+	QUAD $0x0e0664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 14], 8
+	QUAD $0x0e0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 14], 9
+	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
+	QUAD $0x0e1664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r10 + 14], 10
+	QUAD $0x0e3e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 14], 11
+	QUAD $0x0e2664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r12 + 14], 12
+	QUAD $0x0d0e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e0e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 14
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x0e1664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r10 + 14], 15
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0f3e74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rdi + 15], 1
+	QUAD $0x0f2e74203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r13 + 15], 2
+	QUAD $0x0f1e74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r11 + 15], 3
+	QUAD $0x0f3674203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r14 + 15], 4
+	QUAD $0x0f0674203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rax + 15], 5
+	QUAD $0x0f0e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rcx + 15], 6
+	QUAD $0x0f1674203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rdx + 15], 7
+	QUAD $0x0f0674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 15], 8
+	QUAD $0x0f0e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r9 + 15], 9
+	QUAD $0x0f1e74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rbx + 15], 10
+	QUAD $0x0f3e74203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r15 + 15], 11
+	QUAD $0x0f2674203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r12 + 15], 12
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0f3e74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rdi + 15], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0f3e74203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + rdi + 15], 14
+	QUAD $0x0f1674203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + r10 + 15], 15
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x103e7c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rdi + 16], 1
+	QUAD $0x102e7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r13 + 16], 2
+	QUAD $0x101e7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r11 + 16], 3
+	QUAD $0x10367c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r14 + 16], 4
+	QUAD $0x10067c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rax + 16], 5
+	QUAD $0x100e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rcx + 16], 6
+	QUAD $0x10167c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rdx + 16], 7
+	QUAD $0x10067c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r8 + 16], 8
+	QUAD $0x100e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r9 + 16], 9
+	QUAD $0x101e7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + rbx + 16], 10
+	QUAD $0x103e7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r15 + 16], 11
+	QUAD $0x10267c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r12 + 16], 12
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x103e7c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rdi + 16], 13
+	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
+	QUAD $0x10167c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r10 + 16], 14
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x01113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 1
+	QUAD $0x112e44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r13 + 17], 2
+	QUAD $0x111e44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r11 + 17], 3
+	QUAD $0x113644203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r14 + 17], 4
+	QUAD $0x05110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 5
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	QUAD $0x06110e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 17], 6
+	QUAD $0x07111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 7
+	QUAD $0x110644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r8 + 17], 8
+	QUAD $0x110e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 17], 9
+	QUAD $0x0a111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 10
+	QUAD $0x113e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r15 + 17], 11
+	QUAD $0x112644203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r12 + 17], 12
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0d110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 14
+	QUAD $0x009024a4eb0f4466; WORD $0x0000     // por    xmm12, oword [rsp + 144]
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	LONG $0x065cb60f; BYTE $0x1b               // movzx    ebx, byte [rsi + rax + 27]
+	LONG $0x6e0f4466; BYTE $0xcb               // movd    xmm9, ebx
+	QUAD $0x00a024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 160]
+	LONG $0x640f4166; BYTE $0xe5               // pcmpgtb    xmm4, xmm13
+	QUAD $0x000000f0a5db0f66                   // pand    xmm4, oword 240[rbp] /* [rip + .LCPI7_15] */
+	LONG $0x640f4566; BYTE $0xf5               // pcmpgtb    xmm14, xmm13
+	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
+	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI7_6] */
+	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
+	LONG $0x065cb60f; BYTE $0x1c               // movzx    ebx, byte [rsi + rax + 28]
+	LONG $0xe36e0f66                           // movd    xmm4, ebx
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x111644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r10 + 17], 15
+	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
+	LONG $0x640f4166; BYTE $0xc5               // pcmpgtb    xmm0, xmm13
+	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
+	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI7_10] */
+	LONG $0xdb0f4566; BYTE $0xec               // pand    xmm13, xmm12
+	LONG $0xf80f4466; BYTE $0xe8               // psubb    xmm13, xmm0
+	QUAD $0x009024ac7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 144], xmm13
+	LONG $0x065cb60f; BYTE $0x1d               // movzx    ebx, byte [rsi + rax + 29]
+	LONG $0x6e0f4466; BYTE $0xeb               // movd    xmm13, ebx
+	QUAD $0x10167c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r10 + 16], 15
+	QUAD $0x0000a024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 160]
+	LONG $0x640f4466; BYTE $0xf8               // pcmpgtb    xmm15, xmm0
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x01121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 1
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x02121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 2
+	QUAD $0x121e6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r11 + 18], 3
+	QUAD $0x12366c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r14 + 18], 4
+	QUAD $0x122e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r13 + 18], 5
+	QUAD $0x06120e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 18], 6
+	QUAD $0x0712166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 18], 7
+	QUAD $0x12066c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r8 + 18], 8
+	QUAD $0x120e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r9 + 18], 9
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0a12066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 18], 10
+	QUAD $0x123e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r15 + 18], 11
+	QUAD $0x12266c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r12 + 18], 12
+	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
+	QUAD $0x0d121e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 18], 13
+	QUAD $0x0e123e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 18], 14
+	LONG $0xdb0f4566; BYTE $0xfc               // pand    xmm15, xmm12
+	QUAD $0x12166c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r10 + 18], 15
+	LONG $0xe8640f66                           // pcmpgtb    xmm5, xmm0
+	QUAD $0x000000b0addb0f66                   // pand    xmm5, oword 176[rbp] /* [rip + .LCPI7_11] */
+	LONG $0xeb0f4166; BYTE $0xef               // por    xmm5, xmm15
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	LONG $0x3e5cb60f; BYTE $0x1e               // movzx    ebx, byte [rsi + rdi + 30]
+	LONG $0x6e0f4466; BYTE $0xe3               // movd    xmm12, ebx
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x01131e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 19], 1
+	QUAD $0x01141e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 20], 1
+	QUAD $0x01151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 1
+	QUAD $0x01161e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 22], 1
+	QUAD $0x171e44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rbx + 23], 1
+	QUAD $0x181e54203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rbx + 24], 1
+	QUAD $0x01191e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 25], 1
+	QUAD $0x1a1e5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rbx + 26], 1
+	QUAD $0x1b1e4c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rbx + 27], 1
+	QUAD $0x011c1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 28], 1
+	QUAD $0x1d1e6c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rbx + 29], 1
+	QUAD $0x1e1e64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rbx + 30], 1
+	LONG $0x3e7cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rdi + 31]
+	LONG $0xc76e0f66                           // movd    xmm0, edi
+	QUAD $0x011f1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 31], 1
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x02133e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 19], 2
+	QUAD $0x02143e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 20], 2
+	QUAD $0x02153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 2
+	QUAD $0x02163e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 22], 2
+	QUAD $0x173e44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rdi + 23], 2
+	QUAD $0x183e54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdi + 24], 2
+	QUAD $0x02193e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 25], 2
+	QUAD $0x1a3e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rdi + 26], 2
+	QUAD $0x1b3e4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rdi + 27], 2
+	QUAD $0x021c3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 28], 2
+	QUAD $0x1d3e6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdi + 29], 2
+	QUAD $0x1e3e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdi + 30], 2
+	QUAD $0x021f3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 31], 2
+	QUAD $0x131e7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r11 + 19], 3
+	QUAD $0x13367c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r14 + 19], 4
+	QUAD $0x132e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r13 + 19], 5
+	QUAD $0x06130e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 19], 6
+	QUAD $0x0713167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 19], 7
+	QUAD $0x13067c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r8 + 19], 8
+	QUAD $0x130e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r9 + 19], 9
+	QUAD $0x0a13067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 19], 10
+	QUAD $0x133e7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r15 + 19], 11
+	QUAD $0x13267c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r12 + 19], 12
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0d133e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 19], 13
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x0e131e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 19], 14
+	QUAD $0x13167c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r10 + 19], 15
+	QUAD $0x141e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r11 + 20], 3
+	QUAD $0x143674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 20], 4
+	QUAD $0x142e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r13 + 20], 5
+	QUAD $0x06140e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 20], 6
+	QUAD $0x07141674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 20], 7
+	QUAD $0x140674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r8 + 20], 8
+	QUAD $0x140e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 20], 9
+	QUAD $0x0a140674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 20], 10
+	QUAD $0x143e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r15 + 20], 11
+	QUAD $0x142674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r12 + 20], 12
+	QUAD $0x0d143e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 20], 13
+	QUAD $0x0e141e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 20], 14
+	QUAD $0x00009024aceb0f66; BYTE $0x00       // por    xmm5, oword [rsp + 144]
+	QUAD $0x141674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r10 + 20], 15
+	QUAD $0x00a024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 160]
+	LONG $0x640f4166; BYTE $0xff               // pcmpgtb    xmm7, xmm15
+	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI7_12] */
+	LONG $0x640f4166; BYTE $0xf7               // pcmpgtb    xmm6, xmm15
+	QUAD $0x000000d0b5db0f66                   // pand    xmm6, oword 208[rbp] /* [rip + .LCPI7_13] */
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	QUAD $0x151e54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r11 + 21], 3
+	QUAD $0x153654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r14 + 21], 4
+	QUAD $0x152e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r13 + 21], 5
+	QUAD $0x06150e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 21], 6
+	QUAD $0x07151654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 21], 7
+	QUAD $0x150654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 21], 8
+	QUAD $0x150e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r9 + 21], 9
+	QUAD $0x0a150654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 21], 10
+	QUAD $0x153e54203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r15 + 21], 11
+	QUAD $0x152654203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r12 + 21], 12
+	QUAD $0x0d153e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 21], 13
+	QUAD $0x0e151e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 21], 14
+	QUAD $0x151654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r10 + 21], 15
+	LONG $0x640f4166; BYTE $0xd7               // pcmpgtb    xmm2, xmm15
+	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI7_14] */
+	LONG $0xd7db0f66                           // pand    xmm2, xmm7
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	LONG $0xd5eb0f66                           // por    xmm2, xmm5
+	QUAD $0x161e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r11 + 22], 3
+	QUAD $0x16365c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r14 + 22], 4
+	QUAD $0x162e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 22], 5
+	QUAD $0x06160e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 22], 6
+	QUAD $0x0716165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 22], 7
+	QUAD $0x16065c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r8 + 22], 8
+	QUAD $0x160e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r9 + 22], 9
+	QUAD $0x0a16065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 22], 10
+	QUAD $0x163e5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r15 + 22], 11
+	QUAD $0x16265c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r12 + 22], 12
+	QUAD $0x0d163e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 22], 13
+	QUAD $0x0e161e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 22], 14
+	QUAD $0x16165c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r10 + 22], 15
+	QUAD $0x171e44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r11 + 23], 3
+	QUAD $0x173644203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rsi + r14 + 23], 4
+	QUAD $0x172e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r13 + 23], 5
+	QUAD $0x170e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 23], 6
+	QUAD $0x171644203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rdx + 23], 7
+	QUAD $0x170644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r8 + 23], 8
+	QUAD $0x170e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r9 + 23], 9
+	QUAD $0x170644203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rax + 23], 10
+	QUAD $0x173e44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r15 + 23], 11
+	QUAD $0x172644203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r12 + 23], 12
+	QUAD $0x173e44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rdi + 23], 13
+	QUAD $0x171e44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rbx + 23], 14
+	QUAD $0x171644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r10 + 23], 15
+	LONG $0x640f4166; BYTE $0xdf               // pcmpgtb    xmm3, xmm15
+	QUAD $0x000000f0ad6f0f66                   // movdqa    xmm5, oword 240[rbp] /* [rip + .LCPI7_15] */
+	LONG $0xdddb0f66                           // pand    xmm3, xmm5
+	LONG $0x640f4566; BYTE $0xc7               // pcmpgtb    xmm8, xmm15
+	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
+	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI7_6] */
+	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
+	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
+	QUAD $0x191e4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r11 + 25], 3
+	QUAD $0x19364c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r14 + 25], 4
+	QUAD $0x192e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r13 + 25], 5
+	QUAD $0x06190e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 25], 6
+	QUAD $0x0719164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 25], 7
+	QUAD $0x19064c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r8 + 25], 8
+	QUAD $0x190e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r9 + 25], 9
+	QUAD $0x0a19064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 25], 10
+	QUAD $0x193e4c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r15 + 25], 11
+	QUAD $0x19264c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r12 + 25], 12
+	QUAD $0x0d193e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 25], 13
+	QUAD $0x0e191e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 25], 14
+	QUAD $0x19164c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r10 + 25], 15
+	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
+	LONG $0x640f4166; BYTE $0xcf               // pcmpgtb    xmm1, xmm15
+	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
+	QUAD $0x000000a09d6f0f66                   // movdqa    xmm3, oword 160[rbp] /* [rip + .LCPI7_10] */
+	LONG $0xd3db0f66                           // pand    xmm2, xmm3
+	LONG $0xd1f80f66                           // psubb    xmm2, xmm1
+	QUAD $0x181e54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r11 + 24], 3
+	QUAD $0x183654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 24], 4
+	QUAD $0x182e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r13 + 24], 5
+	QUAD $0x180e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rcx + 24], 6
+	QUAD $0x181654203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rdx + 24], 7
+	QUAD $0x180654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r8 + 24], 8
+	QUAD $0x180e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r9 + 24], 9
+	QUAD $0x180654203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + rax + 24], 10
+	QUAD $0x183e54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r15 + 24], 11
+	QUAD $0x182654203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r12 + 24], 12
+	QUAD $0x183e54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rdi + 24], 13
+	QUAD $0x181e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rbx + 24], 14
+	QUAD $0x181654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r10 + 24], 15
+	LONG $0x640f4566; BYTE $0xd7               // pcmpgtb    xmm10, xmm15
+	LONG $0xdb0f4466; BYTE $0xd3               // pand    xmm10, xmm3
+	QUAD $0x1a1e5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r11 + 26], 3
+	QUAD $0x1a365c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r14 + 26], 4
+	QUAD $0x1a2e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r13 + 26], 5
+	QUAD $0x1a0e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rcx + 26], 6
+	QUAD $0x1a165c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdx + 26], 7
+	QUAD $0x1a065c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r8 + 26], 8
+	QUAD $0x1a0e5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r9 + 26], 9
+	QUAD $0x1a065c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + rax + 26], 10
+	QUAD $0x1a3e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 26], 11
+	QUAD $0x1a265c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r12 + 26], 12
+	QUAD $0x1a3e5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rdi + 26], 13
+	QUAD $0x1a1e5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rbx + 26], 14
+	QUAD $0x1a165c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r10 + 26], 15
+	LONG $0x640f4566; BYTE $0xdf               // pcmpgtb    xmm11, xmm15
+	QUAD $0x0000b09ddb0f4466; BYTE $0x00       // pand    xmm11, oword 176[rbp] /* [rip + .LCPI7_11] */
+	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
+	LONG $0xeb0f4466; BYTE $0xda               // por    xmm11, xmm2
+	QUAD $0x1b1e4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r11 + 27], 3
+	QUAD $0x1b364c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rsi + r14 + 27], 4
+	QUAD $0x1b2e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r13 + 27], 5
+	QUAD $0x1b0e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rcx + 27], 6
+	QUAD $0x1b164c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rdx + 27], 7
+	QUAD $0x1b064c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r8 + 27], 8
+	QUAD $0x1b0e4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r9 + 27], 9
+	QUAD $0x1b064c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + rax + 27], 10
+	QUAD $0x1b3e4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r15 + 27], 11
+	QUAD $0x1b264c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r12 + 27], 12
+	QUAD $0x1b3e4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdi + 27], 13
+	QUAD $0x1b1e4c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rbx + 27], 14
+	QUAD $0x1b164c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r10 + 27], 15
+	QUAD $0x1c1e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r11 + 28], 3
+	QUAD $0x1c3664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r14 + 28], 4
+	QUAD $0x1c2e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r13 + 28], 5
+	QUAD $0x061c0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 28], 6
+	QUAD $0x071c1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 28], 7
+	QUAD $0x1c0664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 28], 8
+	QUAD $0x1c0e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r9 + 28], 9
+	QUAD $0x0a1c0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 28], 10
+	QUAD $0x1c3e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 28], 11
+	QUAD $0x1c2664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r12 + 28], 12
+	QUAD $0x0d1c3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 28], 13
+	QUAD $0x0e1c1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 28], 14
+	QUAD $0x1c1664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r10 + 28], 15
+	QUAD $0x1d1e6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r11 + 29], 3
+	QUAD $0x1d366c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r14 + 29], 4
+	QUAD $0x1d2e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r13 + 29], 5
+	QUAD $0x1d0e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 29], 6
+	QUAD $0x1d166c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rdx + 29], 7
+	QUAD $0x1d066c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r8 + 29], 8
+	QUAD $0x1d0e6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r9 + 29], 9
+	QUAD $0x1d066c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rax + 29], 10
+	QUAD $0x1d3e6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r15 + 29], 11
+	QUAD $0x1d266c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r12 + 29], 12
+	QUAD $0x1d3e6c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rdi + 29], 13
+	QUAD $0x1d1e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rbx + 29], 14
+	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
+	LONG $0x640f4566; BYTE $0xcf               // pcmpgtb    xmm9, xmm15
+	QUAD $0x0000c08ddb0f4466; BYTE $0x00       // pand    xmm9, oword 192[rbp] /* [rip + .LCPI7_12] */
+	LONG $0x640f4166; BYTE $0xe7               // pcmpgtb    xmm4, xmm15
+	QUAD $0x000000d0a5db0f66                   // pand    xmm4, oword 208[rbp] /* [rip + .LCPI7_13] */
+	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
+	QUAD $0x1d166c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r10 + 29], 15
+	LONG $0x640f4566; BYTE $0xef               // pcmpgtb    xmm13, xmm15
+	LONG $0xdb0f4466; BYTE $0xef               // pand    xmm13, xmm7
+	LONG $0xeb0f4466; BYTE $0xec               // por    xmm13, xmm4
+	QUAD $0x1e1e64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r11 + 30], 3
+	QUAD $0x1f1e44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r11 + 31], 3
+	QUAD $0x1e3664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r14 + 30], 4
+	QUAD $0x1f3644203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r14 + 31], 4
+	QUAD $0x1e2e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r13 + 30], 5
+	QUAD $0x1f2e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r13 + 31], 5
+	QUAD $0x1e0e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rcx + 30], 6
+	QUAD $0x061f0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 31], 6
+	QUAD $0x1e1664203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rdx + 30], 7
+	QUAD $0x071f1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 31], 7
+	QUAD $0x1e0664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r8 + 30], 8
+	QUAD $0x1f0644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r8 + 31], 8
+	QUAD $0x1e0e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r9 + 30], 9
+	QUAD $0x1f0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 31], 9
+	QUAD $0x1e0664203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + rax + 30], 10
+	QUAD $0x0a1f0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 31], 10
+	QUAD $0x1e3e64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r15 + 30], 11
+	QUAD $0x1f3e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r15 + 31], 11
+	QUAD $0x1e2664203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r12 + 30], 12
+	QUAD $0x1f2644203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r12 + 31], 12
+	QUAD $0x1e3e64203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rdi + 30], 13
+	QUAD $0x0d1f3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 31], 13
+	QUAD $0x1e1e64203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rbx + 30], 14
+	QUAD $0x0e1f1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 31], 14
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x1e1664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r10 + 30], 15
+	QUAD $0x1f1644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r10 + 31], 15
+	LONG $0xeb0f4566; BYTE $0xeb               // por    xmm13, xmm11
+	LONG $0x640f4566; BYTE $0xe7               // pcmpgtb    xmm12, xmm15
+	LONG $0xdb0f4466; BYTE $0xe5               // pand    xmm12, xmm5
+	LONG $0x640f4166; BYTE $0xc7               // pcmpgtb    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
+	LONG $0xc6db0f66                           // pand    xmm0, xmm6
+	LONG $0xeb0f4166; BYTE $0xc4               // por    xmm0, xmm12
+	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
+	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
+	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
+	QUAD $0x0000d024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 208]
+	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
+	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
+	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
+	LONG $0xd9610f66                           // punpcklwd    xmm3, xmm1
+	LONG $0xd1690f66                           // punpckhwd    xmm2, xmm1
+	LONG $0x680f4466; BYTE $0xc0               // punpckhbw    xmm8, xmm0
+	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
+	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x647f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm4
+	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
+	LONG $0x547f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm2
+	LONG $0x1c7f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm3
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
+	JNE  LBB7_85
+	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
+	QUAD $0x000000e824943b4c                   // cmp    r10, qword [rsp + 232]
+	LONG $0x24348a44                           // mov    r14b, byte [rsp]
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	JNE  LBB7_87
+	JMP  LBB7_90
+
+LBB7_66:
+	LONG $0xf0e28349                     // and    r10, -16
+	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000014024848948             // mov    qword [rsp + 320], rax
+	QUAD $0x000000e82494894c             // mov    qword [rsp + 232], r10
+	LONG $0x94048d4b                     // lea    rax, [r12 + 4*r10]
+	LONG $0x24448948; BYTE $0x48         // mov    qword [rsp + 72], rax
+	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x000120248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 288], xmm1
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x0000008024a4894c             // mov    qword [rsp + 128], r12
+
+LBB7_67:
+	QUAD $0x0000009024848948                   // mov    qword [rsp + 144], rax
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	LONG $0x05e0c148                           // shl    rax, 5
+	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	LONG $0x24448948; BYTE $0x08               // mov    qword [rsp + 8], rax
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
+	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
+	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
+	LONG $0x24448948; BYTE $0x68               // mov    qword [rsp + 104], rax
+	LONG $0x060cb60f                           // movzx    ecx, byte [rsi + rax]
+	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
+	LONG $0x064cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rax + 1]
+	LONG $0xe16e0f66                           // movd    xmm4, ecx
+	LONG $0x064cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rax + 2]
+	LONG $0xf16e0f66                           // movd    xmm6, ecx
+	LONG $0x064cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rax + 3]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	LONG $0x064cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rax + 4]
+	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
+	LONG $0x064cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rax + 5]
+	LONG $0xf96e0f66                           // movd    xmm7, ecx
+	LONG $0x064cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rax + 6]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	LONG $0x064cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rax + 7]
+	LONG $0xc96e0f66                           // movd    xmm1, ecx
+	QUAD $0x0000b0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm1
+	LONG $0x064cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rax + 8]
+	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
+	LONG $0x064cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rax + 9]
+	LONG $0xc96e0f66                           // movd    xmm1, ecx
+	QUAD $0x0000c0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm1
+	LONG $0x064cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rax + 10]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	LONG $0x064cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rax + 11]
+	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
+	LONG $0x064cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rax + 12]
+	LONG $0xc96e0f66                           // movd    xmm1, ecx
+	QUAD $0x000130248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm1
+	LONG $0x064cb60f; BYTE $0x10               // movzx    ecx, byte [rsi + rax + 16]
+	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
+	LONG $0x24448948; BYTE $0x60               // mov    qword [rsp + 96], rax
+	LONG $0x064cb60f; BYTE $0x18               // movzx    ecx, byte [rsi + rax + 24]
+	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	LONG $0x20cd8349                           // or    r13, 32
+	LONG $0x246c894c; BYTE $0x38               // mov    qword [rsp + 56], r13
+	LONG $0x40ca8348                           // or    rdx, 64
+	LONG $0x24548948; BYTE $0x58               // mov    qword [rsp + 88], rdx
+	LONG $0x60cc8349                           // or    r12, 96
+	LONG $0x2464894c; BYTE $0x10               // mov    qword [rsp + 16], r12
+	LONG $0x80cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 128
+	LONG $0xa0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 160
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	LONG $0xc0c98148; WORD $0x0000; BYTE $0x00 // or    rcx, 192
+	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
+	LONG $0xe0c98149; WORD $0x0000; BYTE $0x00 // or    r9, 224
+	LONG $0x00cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 256
+	LONG $0x247c894c; BYTE $0x70               // mov    qword [rsp + 112], r15
+	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
+	LONG $0x2454894c; BYTE $0x78               // mov    qword [rsp + 120], r10
+	LONG $0x40ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 320
+	LONG $0x60c88149; WORD $0x0001; BYTE $0x00 // or    r8, 352
+	QUAD $0x000000d02484894c                   // mov    qword [rsp + 208], r8
+	LONG $0x24448b4c; BYTE $0x68               // mov    r8, qword [rsp + 104]
+	LONG $0x80c88149; WORD $0x0001; BYTE $0x00 // or    r8, 384
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	LONG $0xa0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 416
+	LONG $0x241c8948                           // mov    qword [rsp], rbx
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
+	LONG $0x245c8948; BYTE $0x18               // mov    qword [rsp + 24], rbx
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	LONG $0xe0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 480
+	LONG $0x245c8948; BYTE $0x20               // mov    qword [rsp + 32], rbx
+	QUAD $0x012e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r13], 1
+	QUAD $0x021614203a0f4466                   // pinsrb    xmm10, byte [rsi + rdx], 2
+	QUAD $0x032614203a0f4666                   // pinsrb    xmm10, byte [rsi + r12], 3
+	WORD $0x894d; BYTE $0xdc                   // mov    r12, r11
+	LONG $0x245c894c; BYTE $0x30               // mov    qword [rsp + 48], r11
+	QUAD $0x041e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r11], 4
+	QUAD $0x053e14203a0f4466                   // pinsrb    xmm10, byte [rsi + rdi], 5
+	LONG $0x247c8948; BYTE $0x40               // mov    qword [rsp + 64], rdi
+	QUAD $0x060e14203a0f4466                   // pinsrb    xmm10, byte [rsi + rcx], 6
+	QUAD $0x070e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r9], 7
+	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
+	QUAD $0x083e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r15], 8
+	QUAD $0x091614203a0f4666                   // pinsrb    xmm10, byte [rsi + r10], 9
+	QUAD $0x0a3614203a0f4666                   // pinsrb    xmm10, byte [rsi + r14], 10
+	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
+	QUAD $0x0b2e14203a0f4666                   // pinsrb    xmm10, byte [rsi + r13], 11
+	QUAD $0x0c0614203a0f4666                   // pinsrb    xmm10, byte [rsi + r8], 12
+	LONG $0x24048b48                           // mov    rax, qword [rsp]
+	QUAD $0x0d0614203a0f4466                   // pinsrb    xmm10, byte [rsi + rax], 13
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0e0614203a0f4466                   // pinsrb    xmm10, byte [rsi + rax], 14
+	QUAD $0x0f1e14203a0f4466                   // pinsrb    xmm10, byte [rsi + rbx], 15
+	LONG $0x6f0f4566; BYTE $0xc2               // movdqa    xmm8, xmm10
+	QUAD $0x012024a46f0f4466; WORD $0x0000     // movdqa    xmm12, oword [rsp + 288]
+	LONG $0xda0f4566; BYTE $0xc4               // pminub    xmm8, xmm12
+	LONG $0x740f4566; BYTE $0xc2               // pcmpeqb    xmm8, xmm10
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	QUAD $0x010e64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r9 + 1], 1
+	QUAD $0x02011664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 1], 2
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x03011e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 1], 3
+	QUAD $0x012664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r12 + 1], 4
+	QUAD $0x05013e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 1], 5
+	QUAD $0x06010e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 1], 6
+	QUAD $0x011e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 1], 7
+	LONG $0x24548b4c; BYTE $0x70               // mov    r10, qword [rsp + 112]
+	QUAD $0x011664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r10 + 1], 8
+	LONG $0x245c8b48; BYTE $0x78               // mov    rbx, qword [rsp + 120]
+	QUAD $0x09011e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 1], 9
+	QUAD $0x013664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r14 + 1], 10
+	QUAD $0x012e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r13 + 1], 11
+	QUAD $0x010664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r8 + 1], 12
+	QUAD $0x013e64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r15 + 1], 13
+	QUAD $0x0e010664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 1], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f010664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 1], 15
+	QUAD $0x020e74203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r9 + 2], 1
+	QUAD $0x02021674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 2], 2
+	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
+	QUAD $0x023e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r15 + 2], 3
+	QUAD $0x022674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r12 + 2], 4
+	QUAD $0x05023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 5
+	QUAD $0x06020e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 2], 6
+	QUAD $0x021e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r11 + 2], 7
+	QUAD $0x021674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r10 + 2], 8
+	QUAD $0x09021e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 2], 9
+	QUAD $0x023674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r14 + 2], 10
+	QUAD $0x022e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r13 + 2], 11
+	QUAD $0x020674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r8 + 2], 12
+	LONG $0x243c8b48                           // mov    rdi, qword [rsp]
+	QUAD $0x0d023e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 2], 13
+	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
+	QUAD $0x023e74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r15 + 2], 14
+	QUAD $0x0f020674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 2], 15
+	QUAD $0x080e74203a0f4666; BYTE $0x01       // pinsrb    xmm14, byte [rsi + r9 + 8], 1
+	QUAD $0x081674203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rsi + rdx + 8], 2
+	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
+	QUAD $0x083e74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r15 + 8], 3
+	QUAD $0x082674203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r12 + 8], 4
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x083e74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rdi + 8], 5
+	QUAD $0x080e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rcx + 8], 6
+	QUAD $0x081e74203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rsi + r11 + 8], 7
+	QUAD $0x081674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r10 + 8], 8
+	QUAD $0x081e74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rsi + rbx + 8], 9
+	QUAD $0x083674203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r14 + 8], 10
+	QUAD $0x082e74203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r13 + 8], 11
+	QUAD $0x080674203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r8 + 8], 12
+	LONG $0x24048b48                           // mov    rax, qword [rsp]
+	QUAD $0x080674203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rax + 8], 13
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x080674203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + rax + 8], 14
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x081674203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + r10 + 8], 15
+	LONG $0x6f0f4566; BYTE $0xd6               // movdqa    xmm10, xmm14
+	LONG $0xda0f4566; BYTE $0xd4               // pminub    xmm10, xmm12
+	LONG $0x740f4566; BYTE $0xd6               // pcmpeqb    xmm10, xmm14
+	QUAD $0x100e6c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rsi + r9 + 16], 1
+	QUAD $0x10166c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rdx + 16], 2
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	QUAD $0x103e6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r15 + 16], 3
+	QUAD $0x10266c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r12 + 16], 4
+	QUAD $0x103e6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rsi + rdi + 16], 5
+	QUAD $0x100e6c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rcx + 16], 6
+	QUAD $0x101e6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r11 + 16], 7
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x103e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r15 + 16], 8
+	QUAD $0x101e6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rsi + rbx + 16], 9
+	QUAD $0x10366c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r14 + 16], 10
+	QUAD $0x102e6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + r13 + 16], 11
+	QUAD $0x10066c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r8 + 16], 12
+	LONG $0x24248b4c                           // mov    r12, qword [rsp]
+	QUAD $0x10266c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r12 + 16], 13
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x100e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rcx + 16], 14
+	QUAD $0x10166c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r10 + 16], 15
+	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
+	LONG $0xda0f4166; BYTE $0xdc               // pminub    xmm3, xmm12
+	LONG $0x740f4166; BYTE $0xdd               // pcmpeqb    xmm3, xmm13
+	QUAD $0x000110249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm3
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x18067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 24], 1
+	QUAD $0x18167c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rdx + 24], 2
+	QUAD $0x180e7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r9 + 24], 3
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x180e7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rsi + r9 + 24], 4
+	QUAD $0x183e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rdi + 24], 5
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x18067c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rax + 24], 6
+	QUAD $0x181e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r11 + 24], 7
+	QUAD $0x183e7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r15 + 24], 8
+	QUAD $0x181e7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rsi + rbx + 24], 9
+	QUAD $0x18367c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r14 + 24], 10
+	QUAD $0x182e7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r13 + 24], 11
+	QUAD $0x18067c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r8 + 24], 12
+	QUAD $0x18267c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r12 + 24], 13
+	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
+	QUAD $0x180e7c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + rcx + 24], 14
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x18167c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r10 + 24], 15
+	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
+	LONG $0xda0f4166; BYTE $0xdc               // pminub    xmm3, xmm12
+	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
+	QUAD $0x0000f0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 240], xmm3
+	LONG $0x6f0f4466; BYTE $0xf4               // movdqa    xmm14, xmm4
+	LONG $0xda0f4566; BYTE $0xf4               // pminub    xmm14, xmm12
+	LONG $0x740f4466; BYTE $0xf4               // pcmpeqb    xmm14, xmm4
+	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
+	QUAD $0x000000a0a56f0f66                   // movdqa    xmm4, oword 160[rbp] /* [rip + .LCPI7_10] */
+	LONG $0xdf0f4466; BYTE $0xec               // pandn    xmm13, xmm4
+	LONG $0xfc0f4566; BYTE $0xee               // paddb    xmm13, xmm14
+	LONG $0x6f0f4466; BYTE $0xf6               // movdqa    xmm14, xmm6
+	LONG $0xda0f4566; BYTE $0xf4               // pminub    xmm14, xmm12
+	LONG $0x740f4466; BYTE $0xf6               // pcmpeqb    xmm14, xmm6
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	LONG $0x0e54b60f; BYTE $0x0d               // movzx    edx, byte [rsi + rcx + 13]
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	QUAD $0x03266c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rsi + r12 + 3], 1
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x02030e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 3], 2
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0303166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 3], 3
+	QUAD $0x030e6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rsi + r9 + 3], 4
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x03166c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r10 + 3], 5
+	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
+	QUAD $0x0603166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 3], 6
+	LONG $0x245c894c; BYTE $0x50               // mov    qword [rsp + 80], r11
+	QUAD $0x031e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 3], 7
+	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
+	QUAD $0x030e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r9 + 3], 8
+	QUAD $0x09031e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 3], 9
+	QUAD $0x000000a024b4894c                   // mov    qword [rsp + 160], r14
+	QUAD $0x03366c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r14 + 3], 10
+	QUAD $0x032e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r13 + 3], 11
+	QUAD $0x03066c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r8 + 3], 12
+	QUAD $0x033e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r15 + 3], 13
+	QUAD $0x0e03066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 3], 14
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x033e6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r15 + 3], 15
+	QUAD $0x04264c203a0f4666; BYTE $0x01       // pinsrb    xmm9, byte [rsi + r12 + 4], 1
+	QUAD $0x040e4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rcx + 4], 2
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x043e4c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdi + 4], 3
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x043e4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdi + 4], 4
+	QUAD $0x04164c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r10 + 4], 5
+	QUAD $0x04164c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rdx + 4], 6
+	QUAD $0x041e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r11 + 4], 7
+	QUAD $0x040e4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r9 + 4], 8
+	QUAD $0x041e4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rsi + rbx + 4], 9
+	QUAD $0x04364c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r14 + 4], 10
+	QUAD $0x042e4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r13 + 4], 11
+	QUAD $0x04064c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r8 + 4], 12
+	LONG $0x243c8b48                           // mov    rdi, qword [rsp]
+	QUAD $0x043e4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rdi + 4], 13
+	QUAD $0x04064c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + rax + 4], 14
+	QUAD $0x043e4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r15 + 4], 15
+	QUAD $0x05267c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rsi + r12 + 5], 1
+	QUAD $0x02050e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 5], 2
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x03053e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 5], 3
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x04053e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 5], 4
+	QUAD $0x05167c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r10 + 5], 5
+	QUAD $0x0605167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 5], 6
+	QUAD $0x051e7c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r11 + 5], 7
+	QUAD $0x050e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r9 + 5], 8
+	QUAD $0x09051e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 5], 9
+	QUAD $0x05367c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r14 + 5], 10
+	QUAD $0x052e7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r13 + 5], 11
+	QUAD $0x05067c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r8 + 5], 12
+	LONG $0x243c8b48                           // mov    rdi, qword [rsp]
+	QUAD $0x0d053e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 5], 13
+	QUAD $0x0e05067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 5], 14
+	QUAD $0x053e7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r15 + 5], 15
+	QUAD $0x062644203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rsi + r12 + 6], 1
+	QUAD $0x02060e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 6], 2
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x062644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r12 + 6], 3
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x04060e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 6], 4
+	QUAD $0x061644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r10 + 6], 5
+	QUAD $0x06061644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 6], 6
+	QUAD $0x061e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 6], 7
+	QUAD $0x060e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r9 + 6], 8
+	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
+	QUAD $0x09061e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 6], 9
+	QUAD $0x063644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r14 + 6], 10
+	QUAD $0x062e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r13 + 6], 11
+	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
+	QUAD $0x060644203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r8 + 6], 12
+	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
+	LONG $0x24048b4c                           // mov    r8, qword [rsp]
+	QUAD $0x060644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r8 + 6], 13
+	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
+	QUAD $0x0e060644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 6], 14
+	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI7_11] */
+	LONG $0xdf0f4466; BYTE $0xf4               // pandn    xmm14, xmm4
+	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
+	LONG $0x6f0f4466; BYTE $0xfd               // movdqa    xmm15, xmm5
+	LONG $0xda0f4566; BYTE $0xfc               // pminub    xmm15, xmm12
+	LONG $0x740f4466; BYTE $0xfd               // pcmpeqb    xmm15, xmm5
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	LONG $0x0654b60f; BYTE $0x0e               // movzx    edx, byte [rsi + rax + 14]
+	LONG $0xea6e0f66                           // movd    xmm5, edx
+	QUAD $0x000000c0a56f0f66                   // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI7_12] */
+	LONG $0xdf0f4466; BYTE $0xfc               // pandn    xmm15, xmm4
+	LONG $0xeb0f4566; BYTE $0xfe               // por    xmm15, xmm14
+	LONG $0x0654b60f; BYTE $0x0f               // movzx    edx, byte [rsi + rax + 15]
+	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xf80f4466; BYTE $0xeb               // psubb    xmm13, xmm3
+	LONG $0x760f4566; BYTE $0xf6               // pcmpeqd    xmm14, xmm14
+	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
+	LONG $0x6f0f4166; BYTE $0xe1               // movdqa    xmm4, xmm9
+	LONG $0xda0f4166; BYTE $0xe4               // pminub    xmm4, xmm12
+	LONG $0x740f4166; BYTE $0xe1               // pcmpeqb    xmm4, xmm9
+	LONG $0x6f0f4466; BYTE $0xcf               // movdqa    xmm9, xmm7
+	LONG $0xda0f4566; BYTE $0xcc               // pminub    xmm9, xmm12
+	LONG $0x740f4466; BYTE $0xcf               // pcmpeqb    xmm9, xmm7
+	LONG $0x0654b60f; BYTE $0x11               // movzx    edx, byte [rsi + rax + 17]
+	LONG $0xfa6e0f66                           // movd    xmm7, edx
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0f063e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 6], 15
+	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI7_13] */
+	LONG $0xe1df0f66                           // pandn    xmm4, xmm1
+	QUAD $0x000000e08d6f0f66                   // movdqa    xmm1, oword 224[rbp] /* [rip + .LCPI7_14] */
+	LONG $0xdf0f4466; BYTE $0xc9               // pandn    xmm9, xmm1
+	LONG $0xeb0f4466; BYTE $0xcc               // por    xmm9, xmm4
+	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
+	LONG $0xda0f4166; BYTE $0xe4               // pminub    xmm4, xmm12
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0x0654b60f; BYTE $0x12               // movzx    edx, byte [rsi + rax + 18]
+	LONG $0xca6e0f66                           // movd    xmm1, edx
+	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x01070e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 7], 1
+	QUAD $0x073e44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r15 + 7], 2
+	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
+	QUAD $0x072644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r12 + 7], 3
+	LONG $0x244c8b4c; BYTE $0x30               // mov    r9, qword [rsp + 48]
+	QUAD $0x070e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r9 + 7], 4
+	QUAD $0x071644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r10 + 7], 5
+	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
+	QUAD $0x073e44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r15 + 7], 6
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x07071644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 7], 7
+	QUAD $0x071e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 7], 8
+	LONG $0x24648b4c; BYTE $0x78               // mov    r12, qword [rsp + 120]
+	QUAD $0x072644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r12 + 7], 9
+	QUAD $0x000000a0249c8b4c                   // mov    r11, qword [rsp + 160]
+	QUAD $0x071e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r11 + 7], 10
+	QUAD $0x073644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 7], 11
+	QUAD $0x072e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r13 + 7], 12
+	QUAD $0x070644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r8 + 7], 13
+	LONG $0x24548b48; BYTE $0x18               // mov    rdx, qword [rsp + 24]
+	QUAD $0x0e071644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 7], 14
+	QUAD $0x0f073e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 7], 15
+	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI7_15] */
+	LONG $0xe3df0f66                           // pandn    xmm4, xmm3
+	LONG $0xeb0f4166; BYTE $0xe1               // por    xmm4, xmm9
+	LONG $0x6f0f4466; BYTE $0xc8               // movdqa    xmm9, xmm0
+	LONG $0xda0f4566; BYTE $0xcc               // pminub    xmm9, xmm12
+	LONG $0x740f4466; BYTE $0xc8               // pcmpeqb    xmm9, xmm0
+	LONG $0x0654b60f; BYTE $0x13               // movzx    edx, byte [rsi + rax + 19]
+	LONG $0xda6e0f66                           // movd    xmm3, edx
+	LONG $0xef0f4566; BYTE $0xce               // pxor    xmm9, xmm14
+	LONG $0x710f4166; WORD $0x07f1             // psllw    xmm9, 7
+	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI7_6] */
+	LONG $0xdb0f4466; BYTE $0xc8               // pand    xmm9, xmm0
+	LONG $0xeb0f4466; BYTE $0xcc               // por    xmm9, xmm4
+	LONG $0x6f0f4166; BYTE $0xe1               // movdqa    xmm4, xmm9
+	LONG $0x0654b60f; BYTE $0x14               // movzx    edx, byte [rsi + rax + 20]
+	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
+	QUAD $0x0000c024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 192]
+	QUAD $0x01090e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 9], 1
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x02090e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 9], 2
+	QUAD $0x03091e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 9], 3
+	QUAD $0x090e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r9 + 9], 4
+	QUAD $0x091644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r10 + 9], 5
+	QUAD $0x093e44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r15 + 9], 6
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x07093e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 9], 7
+	LONG $0x247c8b4c; BYTE $0x70               // mov    r15, qword [rsp + 112]
+	QUAD $0x093e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r15 + 9], 8
+	QUAD $0x092644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r12 + 9], 9
+	WORD $0x894d; BYTE $0xe2                   // mov    r10, r12
+	QUAD $0x091e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r11 + 9], 10
+	QUAD $0x093644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 9], 11
+	QUAD $0x092e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r13 + 9], 12
+	LONG $0x246c894c; BYTE $0x68               // mov    qword [rsp + 104], r13
+	LONG $0x24248b4c                           // mov    r12, qword [rsp]
+	QUAD $0x092644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r12 + 9], 13
+	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
+	QUAD $0x090e44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r9 + 9], 14
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x0f091644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 9], 15
+	QUAD $0x010a0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 10], 1
+	QUAD $0x020a0e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 10], 2
+	QUAD $0x030a1e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 10], 3
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x040a1e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 10], 4
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x050a0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 10], 5
+	QUAD $0x0a0654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r8 + 10], 6
+	QUAD $0x070a3e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 10], 7
+	QUAD $0x0a3e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r15 + 10], 8
+	QUAD $0x0a1654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r10 + 10], 9
+	QUAD $0x0a1e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r11 + 10], 10
+	QUAD $0x0a3654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 10], 11
+	QUAD $0x0a2e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r13 + 10], 12
+	QUAD $0x0a2654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r12 + 10], 13
+	QUAD $0x0a0e54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r9 + 10], 14
+	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
+	QUAD $0x0f0a1654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 10], 15
+	WORD $0x8949; BYTE $0xd4                   // mov    r12, rdx
+	LONG $0xeb0f4166; BYTE $0xe7               // por    xmm4, xmm15
+	QUAD $0x0000c024a47f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm4
+	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
+	LONG $0xda0f4166; BYTE $0xe4               // pminub    xmm4, xmm12
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	LONG $0x6f0f4466; BYTE $0xec               // movdqa    xmm13, xmm4
+	QUAD $0x0000a0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 160[rbp] /* [rip + .LCPI7_10] */
+	LONG $0xdf0f4566; BYTE $0xee               // pandn    xmm13, xmm14
+	LONG $0xfc0f4466; BYTE $0xec               // paddb    xmm13, xmm4
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0xda0f4166; BYTE $0xc4               // pminub    xmm0, xmm12
+	LONG $0xc2740f66                           // pcmpeqb    xmm0, xmm2
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	LONG $0x0654b60f; BYTE $0x15               // movzx    edx, byte [rsi + rax + 21]
+	LONG $0xe26e0f66                           // movd    xmm4, edx
+	LONG $0xdf0f4566; BYTE $0xd6               // pandn    xmm10, xmm14
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x0b065c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rsi + r8 + 11], 1
+	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
+	QUAD $0x0b0e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rcx + 11], 2
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0b0e5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rcx + 11], 3
+	QUAD $0x0b1e5c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rsi + rbx + 11], 4
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x0b3e5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rsi + rdi + 11], 5
+	LONG $0x24548b48; BYTE $0x08               // mov    rdx, qword [rsp + 8]
+	QUAD $0x0b165c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rdx + 11], 6
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0b165c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rsi + rdx + 11], 7
+	QUAD $0x0b3e5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r15 + 11], 8
+	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
+	QUAD $0x0b165c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r10 + 11], 9
+	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
+	QUAD $0x0b165c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r10 + 11], 10
+	QUAD $0x0b365c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r14 + 11], 11
+	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
+	QUAD $0x0b365c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r14 + 11], 12
+	LONG $0x241c8b48                           // mov    rbx, qword [rsp]
+	QUAD $0x0b1e5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rbx + 11], 13
+	QUAD $0x0b1e5c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r11 + 11], 14
+	QUAD $0x0b265c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r12 + 11], 15
+	QUAD $0x000000b085df0f66                   // pandn    xmm0, oword 176[rbp] /* [rip + .LCPI7_11] */
+	LONG $0xeb0f4166; BYTE $0xc2               // por    xmm0, xmm10
+	LONG $0x6f0f4566; BYTE $0xd3               // movdqa    xmm10, xmm11
+	LONG $0xda0f4566; BYTE $0xd4               // pminub    xmm10, xmm12
+	LONG $0x740f4566; BYTE $0xd3               // pcmpeqb    xmm10, xmm11
+	LONG $0x0654b60f; BYTE $0x16               // movzx    edx, byte [rsi + rax + 22]
+	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
+	QUAD $0x0000c095df0f4466; BYTE $0x00       // pandn    xmm10, oword 192[rbp] /* [rip + .LCPI7_12] */
+	LONG $0xeb0f4466; BYTE $0xd0               // por    xmm10, xmm0
+	LONG $0x0654b60f; BYTE $0x17               // movzx    edx, byte [rsi + rax + 23]
+	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
+	QUAD $0x00013024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 304]
+	QUAD $0x0c0644203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rsi + r8 + 12], 1
+	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
+	QUAD $0x0c2e44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r13 + 12], 2
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	QUAD $0x030c0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 12], 3
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x0c3e44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rsi + r15 + 12], 4
+	QUAD $0x050c3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 12], 5
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x060c0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 12], 6
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x070c3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 12], 7
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x0c1e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 12], 8
+	QUAD $0x0c0e44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r9 + 12], 9
+	QUAD $0x0c1644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r10 + 12], 10
+	QUAD $0x000000d024ac8b4c                   // mov    r13, qword [rsp + 208]
+	QUAD $0x0c2e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r13 + 12], 11
+	QUAD $0x0c3644203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r14 + 12], 12
+	QUAD $0x0d0c1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 12], 13
+	LONG $0x24548b4c; BYTE $0x18               // mov    r10, qword [rsp + 24]
+	QUAD $0x0c1644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r10 + 12], 14
+	QUAD $0x0c2644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r12 + 12], 15
+	QUAD $0x0d0674203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r8 + 13], 1
+	QUAD $0x020d0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 13], 2
+	QUAD $0x030d1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 13], 3
+	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
+	QUAD $0x0d3e74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r15 + 13], 4
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+	QUAD $0x0d3e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r15 + 13], 5
+	QUAD $0x060d0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 13], 6
+	QUAD $0x070d3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 13], 7
+	QUAD $0x0d1e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 13], 8
+	QUAD $0x0d0e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r9 + 13], 9
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x0a0d3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 13], 10
+	QUAD $0x0d2e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r13 + 13], 11
+	QUAD $0x0d3674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r14 + 13], 12
+	QUAD $0x0d0d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 13], 13
+	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
+	QUAD $0x0d1674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r10 + 13], 14
+	QUAD $0x0d2674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r12 + 13], 15
+	QUAD $0x000100adf80f4466; BYTE $0x00       // psubb    xmm13, oword 256[rbp] /* [rip + .LCPI7_16] */
+	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
+	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
+	LONG $0x6f0f4566; BYTE $0xec               // movdqa    xmm13, xmm12
+	LONG $0xda0f4166; BYTE $0xd4               // pminub    xmm2, xmm12
+	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
+	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
+	LONG $0xda0f4166; BYTE $0xc4               // pminub    xmm0, xmm12
+	LONG $0xc6740f66                           // pcmpeqb    xmm0, xmm6
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	LONG $0x0e54b60f; BYTE $0x19               // movzx    edx, byte [rsi + rcx + 25]
+	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x010e1e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 14], 1
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x020e0e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 14], 2
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x0e266c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r12 + 14], 3
+	WORD $0x8948; BYTE $0xc2                   // mov    rdx, rax
+	QUAD $0x040e066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 14], 4
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	QUAD $0x0e3e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r15 + 14], 5
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x060e0e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 14], 6
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x0e166c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r10 + 14], 7
+	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
+	QUAD $0x0e1e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r11 + 14], 8
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x0e1e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r11 + 14], 9
+	QUAD $0x0a0e3e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 14], 10
+	WORD $0x894d; BYTE $0xee                   // mov    r14, r13
+	QUAD $0x0e2e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r13 + 14], 11
+	LONG $0x246c8b4c; BYTE $0x68               // mov    r13, qword [rsp + 104]
+	QUAD $0x0e2e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r13 + 14], 12
+	LONG $0x24048b48                           // mov    rax, qword [rsp]
+	QUAD $0x0d0e066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 14], 13
+	QUAD $0x0e066c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r8 + 14], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0e066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 14], 15
+	QUAD $0x0f1e44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rbx + 15], 1
+	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
+	QUAD $0x0f0644203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r8 + 15], 2
+	QUAD $0x0f2644203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r12 + 15], 3
+	QUAD $0x0f1644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 15], 4
+	QUAD $0x0f0e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r9 + 15], 5
+	QUAD $0x0f0e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rcx + 15], 6
+	QUAD $0x0f1644203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r10 + 15], 7
+	QUAD $0x0f3e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r15 + 15], 8
+	QUAD $0x0f1e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r11 + 15], 9
+	QUAD $0x0f3e44203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + rdi + 15], 10
+	QUAD $0x0f3644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 15], 11
+	QUAD $0x0f2e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r13 + 15], 12
+	LONG $0x24048b48                           // mov    rax, qword [rsp]
+	QUAD $0x0f0644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rax + 15], 13
+	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
+	QUAD $0x0f0644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r8 + 15], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f0644203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + rax + 15], 15
+	QUAD $0x01111e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 17], 1
+	LONG $0x24448b48; BYTE $0x58               // mov    rax, qword [rsp + 88]
+	QUAD $0x0211067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 17], 2
+	QUAD $0x11267c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r12 + 17], 3
+	QUAD $0x0411167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 17], 4
+	QUAD $0x110e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r9 + 17], 5
+	QUAD $0x06110e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 17], 6
+	QUAD $0x11167c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r10 + 17], 7
+	QUAD $0x113e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r15 + 17], 8
+	QUAD $0x111e7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r11 + 17], 9
+	QUAD $0x0a113e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 17], 10
+	QUAD $0x11367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 17], 11
+	QUAD $0x112e7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r13 + 17], 12
+	LONG $0x24048b48                           // mov    rax, qword [rsp]
+	QUAD $0x0d11067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 17], 13
+	QUAD $0x11067c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r8 + 17], 14
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0f11067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 17], 15
+	QUAD $0x01121e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 18], 1
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x02121e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 18], 2
+	QUAD $0x12264c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r12 + 18], 3
+	QUAD $0x0412164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 18], 4
+	QUAD $0x120e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r9 + 18], 5
+	QUAD $0x06120e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 18], 6
+	QUAD $0x12164c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r10 + 18], 7
+	QUAD $0x123e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r15 + 18], 8
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	QUAD $0x121e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r11 + 18], 9
+	QUAD $0x0a123e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 18], 10
+	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
+	QUAD $0x12364c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r14 + 18], 11
+	WORD $0x894d; BYTE $0xf7                   // mov    r15, r14
+	QUAD $0x122e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r13 + 18], 12
+	LONG $0x240c8b4c                           // mov    r9, qword [rsp]
+	QUAD $0x120e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r9 + 18], 13
+	QUAD $0x000000d095df0f66                   // pandn    xmm2, oword 208[rbp] /* [rip + .LCPI7_13] */
+	QUAD $0x000000e085df0f66                   // pandn    xmm0, oword 224[rbp] /* [rip + .LCPI7_14] */
+	LONG $0xc2eb0f66                           // por    xmm0, xmm2
+	LONG $0xd56f0f66                           // movdqa    xmm2, xmm5
+	LONG $0xda0f4166; BYTE $0xd5               // pminub    xmm2, xmm13
+	LONG $0xd5740f66                           // pcmpeqb    xmm2, xmm5
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	LONG $0x0654b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rax + 26]
+	LONG $0xea6e0f66                           // movd    xmm5, edx
+	QUAD $0x12064c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r8 + 18], 14
+	QUAD $0x000000f095df0f66                   // pandn    xmm2, oword 240[rbp] /* [rip + .LCPI7_15] */
+	LONG $0xd0eb0f66                           // por    xmm2, xmm0
+	LONG $0x6f0f4166; BYTE $0xf0               // movdqa    xmm6, xmm8
+	LONG $0xda0f4166; BYTE $0xf5               // pminub    xmm6, xmm13
+	LONG $0x740f4166; BYTE $0xf0               // pcmpeqb    xmm6, xmm8
+	LONG $0x0654b60f; BYTE $0x1b               // movzx    edx, byte [rsi + rax + 27]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0f120e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 18], 15
+	QUAD $0x00000100b5ef0f66                   // pxor    xmm6, oword 256[rbp] /* [rip + .LCPI7_16] */
+	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
+	LONG $0x75db0f66; BYTE $0x60               // pand    xmm6, oword 96[rbp] /* [rip + .LCPI7_6] */
+	LONG $0xf2eb0f66                           // por    xmm6, xmm2
+	LONG $0x0654b60f; BYTE $0x1c               // movzx    edx, byte [rsi + rax + 28]
+	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
+	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
+	QUAD $0x0000b024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm6
+	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
+	LONG $0xda0f4166; BYTE $0xd5               // pminub    xmm2, xmm13
+	LONG $0xd7740f66                           // pcmpeqb    xmm2, xmm7
+	LONG $0x6f0f4466; BYTE $0xf2               // movdqa    xmm14, xmm2
+	QUAD $0x0000a0b5df0f4466; BYTE $0x00       // pandn    xmm14, oword 160[rbp] /* [rip + .LCPI7_10] */
+	LONG $0xfc0f4466; BYTE $0xf2               // paddb    xmm14, xmm2
+	LONG $0x6f0f4466; BYTE $0xd1               // movdqa    xmm10, xmm1
+	LONG $0xda0f4566; BYTE $0xd5               // pminub    xmm10, xmm13
+	LONG $0x740f4466; BYTE $0xd1               // pcmpeqb    xmm10, xmm1
+	LONG $0x0654b60f; BYTE $0x1d               // movzx    edx, byte [rsi + rax + 29]
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	LONG $0x0654b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rax + 30]
+	LONG $0x067cb60f; BYTE $0x1f               // movzx    edi, byte [rsi + rax + 31]
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x0113065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 19], 1
+	QUAD $0x14064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 20], 1
+	QUAD $0x01150664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 21], 1
+	QUAD $0x16067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 22], 1
+	QUAD $0x17065c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rax + 23], 1
+	QUAD $0x190664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 25], 1
+	QUAD $0x011a066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 26], 1
+	QUAD $0x011b0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 27], 1
+	QUAD $0x1c0644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 28], 1
+	QUAD $0x011d0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 29], 1
+	LONG $0xca6e0f66                           // movd    xmm1, edx
+	QUAD $0x011e064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 30], 1
+	LONG $0xff6e0f66                           // movd    xmm7, edi
+	QUAD $0x011f067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 31], 1
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x02131e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 19], 2
+	QUAD $0x141e4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rbx + 20], 2
+	QUAD $0x02151e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 21], 2
+	QUAD $0x161e7c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rbx + 22], 2
+	QUAD $0x171e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rbx + 23], 2
+	QUAD $0x191e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rbx + 25], 2
+	QUAD $0x021a1e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 26], 2
+	QUAD $0x021b1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 27], 2
+	QUAD $0x1c1e44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rbx + 28], 2
+	QUAD $0x021d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 29], 2
+	QUAD $0x021e1e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 30], 2
+	QUAD $0x021f1e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 31], 2
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0313065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 19], 3
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0413165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 19], 4
+	LONG $0x246c8b4c; BYTE $0x40               // mov    r13, qword [rsp + 64]
+	QUAD $0x132e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r13 + 19], 5
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x06133e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 19], 6
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x131e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 19], 7
+	QUAD $0x13265c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r12 + 19], 8
+	LONG $0x24748b4c; BYTE $0x78               // mov    r14, qword [rsp + 120]
+	QUAD $0x13365c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r14 + 19], 9
+	QUAD $0x13165c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r10 + 19], 10
+	QUAD $0x133e5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r15 + 19], 11
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0c131e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 19], 12
+	QUAD $0x130e5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r9 + 19], 13
+	QUAD $0x13065c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r8 + 19], 14
+	QUAD $0x0f130e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 19], 15
+	QUAD $0x14064c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rax + 20], 3
+	QUAD $0x14164c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdx + 20], 4
+	QUAD $0x142e4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rsi + r13 + 20], 5
+	QUAD $0x143e4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rdi + 20], 6
+	QUAD $0x141e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r11 + 20], 7
+	QUAD $0x14264c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r12 + 20], 8
+	QUAD $0x14364c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r14 + 20], 9
+	QUAD $0x14164c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r10 + 20], 10
+	QUAD $0x143e4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r15 + 20], 11
+	QUAD $0x141e4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + rbx + 20], 12
+	QUAD $0x140e4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r9 + 20], 13
+	QUAD $0x14064c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r8 + 20], 14
+	QUAD $0x140e4c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + rcx + 20], 15
+	QUAD $0x03150664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 21], 3
+	QUAD $0x04151664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 21], 4
+	QUAD $0x152e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r13 + 21], 5
+	QUAD $0x06153e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 21], 6
+	QUAD $0x151e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 21], 7
+	QUAD $0x152664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r12 + 21], 8
+	QUAD $0x153664203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r14 + 21], 9
+	QUAD $0x151664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r10 + 21], 10
+	QUAD $0x153e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 21], 11
+	QUAD $0x0c151e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 21], 12
+	QUAD $0x150e64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r9 + 21], 13
+	QUAD $0x150664203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r8 + 21], 14
+	QUAD $0x0f150e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 21], 15
+	QUAD $0x16067c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rax + 22], 3
+	QUAD $0x16167c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rdx + 22], 4
+	QUAD $0x162e7c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rsi + r13 + 22], 5
+	QUAD $0x163e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rdi + 22], 6
+	QUAD $0x161e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r11 + 22], 7
+	QUAD $0x16267c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r12 + 22], 8
+	QUAD $0x16367c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r14 + 22], 9
+	QUAD $0x16167c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r10 + 22], 10
+	QUAD $0x00011024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 272]
+	QUAD $0x000000a095df0f66                   // pandn    xmm2, oword 160[rbp] /* [rip + .LCPI7_10] */
+	QUAD $0x163e7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r15 + 22], 11
+	QUAD $0x0000b095df0f4466; BYTE $0x00       // pandn    xmm10, oword 176[rbp] /* [rip + .LCPI7_11] */
+	LONG $0xeb0f4466; BYTE $0xd2               // por    xmm10, xmm2
+	QUAD $0x161e7c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + rbx + 22], 12
+	LONG $0xd36f0f66                           // movdqa    xmm2, xmm3
+	LONG $0xda0f4166; BYTE $0xd5               // pminub    xmm2, xmm13
+	LONG $0xd3740f66                           // pcmpeqb    xmm2, xmm3
+	QUAD $0x160e7c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r9 + 22], 13
+	QUAD $0x000000c095df0f66                   // pandn    xmm2, oword 192[rbp] /* [rip + .LCPI7_12] */
+	LONG $0xeb0f4166; BYTE $0xd2               // por    xmm2, xmm10
+	QUAD $0x16067c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r8 + 22], 14
+	QUAD $0x000100b5f80f4466; BYTE $0x00       // psubb    xmm14, oword 256[rbp] /* [rip + .LCPI7_16] */
+	LONG $0xeb0f4166; BYTE $0xd6               // por    xmm2, xmm14
+	LONG $0x6f0f4566; BYTE $0xd1               // movdqa    xmm10, xmm9
+	LONG $0xda0f4566; BYTE $0xd5               // pminub    xmm10, xmm13
+	LONG $0x740f4566; BYTE $0xd1               // pcmpeqb    xmm10, xmm9
+	LONG $0xdc6f0f66                           // movdqa    xmm3, xmm4
+	LONG $0x6f0f4566; BYTE $0xcd               // movdqa    xmm9, xmm13
+	LONG $0xda0f4166; BYTE $0xdd               // pminub    xmm3, xmm13
+	LONG $0xdc740f66                           // pcmpeqb    xmm3, xmm4
+	QUAD $0x160e7c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + rcx + 22], 15
+	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI7_13] */
+	LONG $0xdf0f4566; BYTE $0xd5               // pandn    xmm10, xmm13
+	QUAD $0x000000e0a56f0f66                   // movdqa    xmm4, oword 224[rbp] /* [rip + .LCPI7_14] */
+	LONG $0xdcdf0f66                           // pandn    xmm3, xmm4
+	LONG $0xeb0f4166; BYTE $0xda               // por    xmm3, xmm10
+	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
+	LONG $0xda0f4166; BYTE $0xe1               // pminub    xmm4, xmm9
+	LONG $0x6f0f4566; BYTE $0xe9               // movdqa    xmm13, xmm9
+	LONG $0x740f4166; BYTE $0xe7               // pcmpeqb    xmm4, xmm15
+	QUAD $0x17065c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rsi + rax + 23], 3
+	QUAD $0x17165c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rsi + rdx + 23], 4
+	QUAD $0x172e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r13 + 23], 5
+	QUAD $0x173e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rdi + 23], 6
+	QUAD $0x171e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r11 + 23], 7
+	QUAD $0x17265c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r12 + 23], 8
+	QUAD $0x17365c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r14 + 23], 9
+	QUAD $0x17165c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r10 + 23], 10
+	QUAD $0x173e5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r15 + 23], 11
+	QUAD $0x171e5c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + rbx + 23], 12
+	QUAD $0x170e5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r9 + 23], 13
+	QUAD $0x17065c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r8 + 23], 14
+	QUAD $0x170e5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + rcx + 23], 15
+	QUAD $0x0000f0bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 240[rbp] /* [rip + .LCPI7_15] */
+	LONG $0xdf0f4166; BYTE $0xe7               // pandn    xmm4, xmm15
+	LONG $0xe3eb0f66                           // por    xmm4, xmm3
+	LONG $0x6f0f4166; BYTE $0xdb               // movdqa    xmm3, xmm11
+	LONG $0xda0f4166; BYTE $0xd9               // pminub    xmm3, xmm9
+	LONG $0x740f4166; BYTE $0xdb               // pcmpeqb    xmm3, xmm11
+	QUAD $0x000001009def0f66                   // pxor    xmm3, oword 256[rbp] /* [rip + .LCPI7_16] */
+	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
+	LONG $0x6f0f4466; WORD $0x605d             // movdqa    xmm11, oword 96[rbp] /* [rip + .LCPI7_6] */
+	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
+	LONG $0xdceb0f66                           // por    xmm3, xmm4
+	QUAD $0x190664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rax + 25], 3
+	QUAD $0x191664203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rdx + 25], 4
+	QUAD $0x192e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r13 + 25], 5
+	QUAD $0x193e64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rdi + 25], 6
+	QUAD $0x191e64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r11 + 25], 7
+	QUAD $0x192664203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r12 + 25], 8
+	QUAD $0x193664203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r14 + 25], 9
+	QUAD $0x191664203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r10 + 25], 10
+	QUAD $0x193e64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r15 + 25], 11
+	QUAD $0x191e64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + rbx + 25], 12
+	QUAD $0x190e64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r9 + 25], 13
+	QUAD $0x190664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r8 + 25], 14
+	QUAD $0x190e64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + rcx + 25], 15
+	QUAD $0x031a066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 26], 3
+	QUAD $0x041a166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 26], 4
+	QUAD $0x1a2e6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r13 + 26], 5
+	QUAD $0x061a3e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 26], 6
+	QUAD $0x1a1e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 26], 7
+	QUAD $0x1a266c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r12 + 26], 8
+	QUAD $0x1a366c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r14 + 26], 9
+	QUAD $0x1a166c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r10 + 26], 10
+	QUAD $0x1a3e6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r15 + 26], 11
+	QUAD $0x0c1a1e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 26], 12
+	QUAD $0x1a0e6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r9 + 26], 13
+	QUAD $0x1a066c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r8 + 26], 14
+	QUAD $0x0f1a0e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 26], 15
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0x6f0f4166; BYTE $0xd4               // movdqa    xmm2, xmm12
+	LONG $0xda0f4166; BYTE $0xd1               // pminub    xmm2, xmm9
+	LONG $0x740f4166; BYTE $0xd4               // pcmpeqb    xmm2, xmm12
+	LONG $0x6f0f4466; BYTE $0xca               // movdqa    xmm9, xmm2
+	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI7_10] */
+	LONG $0xdf0f4566; BYTE $0xca               // pandn    xmm9, xmm10
+	LONG $0xfc0f4466; BYTE $0xca               // paddb    xmm9, xmm2
+	LONG $0xe56f0f66                           // movdqa    xmm4, xmm5
+	LONG $0xda0f4166; BYTE $0xe5               // pminub    xmm4, xmm13
+	LONG $0xe5740f66                           // pcmpeqb    xmm4, xmm5
+	QUAD $0x0000f024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 240]
+	LONG $0xdf0f4166; BYTE $0xd2               // pandn    xmm2, xmm10
+	QUAD $0x031b0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 27], 3
+	QUAD $0x041b1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 27], 4
+	QUAD $0x1b2e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r13 + 27], 5
+	QUAD $0x061b3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 27], 6
+	QUAD $0x1b1e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 27], 7
+	QUAD $0x1b2644203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r12 + 27], 8
+	QUAD $0x1b3644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r14 + 27], 9
+	QUAD $0x1b1644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r10 + 27], 10
+	QUAD $0x1b3e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r15 + 27], 11
+	QUAD $0x0c1b1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 27], 12
+	QUAD $0x1b0e44203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r9 + 27], 13
+	QUAD $0x1b0644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r8 + 27], 14
+	QUAD $0x0f1b0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 27], 15
+	QUAD $0x000000b0a5df0f66                   // pandn    xmm4, oword 176[rbp] /* [rip + .LCPI7_11] */
+	LONG $0xe2eb0f66                           // por    xmm4, xmm2
+	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
+	LONG $0xda0f4166; BYTE $0xd5               // pminub    xmm2, xmm13
+	LONG $0xd0740f66                           // pcmpeqb    xmm2, xmm0
+	QUAD $0x000000c095df0f66                   // pandn    xmm2, oword 192[rbp] /* [rip + .LCPI7_12] */
+	LONG $0xd4eb0f66                           // por    xmm2, xmm4
+	QUAD $0x1c0644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rax + 28], 3
+	QUAD $0x1c1644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 28], 4
+	QUAD $0x1c2e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r13 + 28], 5
+	QUAD $0x1c3e44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rdi + 28], 6
+	QUAD $0x1c1e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r11 + 28], 7
+	QUAD $0x1c2644203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r12 + 28], 8
+	QUAD $0x1c3644203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r14 + 28], 9
+	QUAD $0x1c1644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r10 + 28], 10
+	QUAD $0x1c3e44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r15 + 28], 11
+	QUAD $0x1c1e44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rbx + 28], 12
+	QUAD $0x1c0e44203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r9 + 28], 13
+	QUAD $0x1c0644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r8 + 28], 14
+	QUAD $0x1c0e44203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + rcx + 28], 15
+	QUAD $0x031d0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 29], 3
+	QUAD $0x041d1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 29], 4
+	QUAD $0x1d2e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r13 + 29], 5
+	QUAD $0x061d3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 29], 6
+	QUAD $0x1d1e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r11 + 29], 7
+	QUAD $0x1d2674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r12 + 29], 8
+	QUAD $0x1d3674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r14 + 29], 9
+	QUAD $0x1d1674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r10 + 29], 10
+	QUAD $0x1d3e74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r15 + 29], 11
+	QUAD $0x0c1d1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 29], 12
+	QUAD $0x1d0e74203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r9 + 29], 13
+	QUAD $0x1d0674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r8 + 29], 14
+	QUAD $0x0f1d0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 29], 15
+	LONG $0x760f4566; BYTE $0xd2               // pcmpeqd    xmm10, xmm10
+	LONG $0xf80f4566; BYTE $0xca               // psubb    xmm9, xmm10
+	LONG $0xeb0f4166; BYTE $0xd1               // por    xmm2, xmm9
+	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
+	LONG $0xda0f4166; BYTE $0xc5               // pminub    xmm0, xmm13
+	LONG $0x740f4166; BYTE $0xc0               // pcmpeqb    xmm0, xmm8
+	LONG $0xe66f0f66                           // movdqa    xmm4, xmm6
+	LONG $0xda0f4166; BYTE $0xe5               // pminub    xmm4, xmm13
+	LONG $0xe6740f66                           // pcmpeqb    xmm4, xmm6
+	QUAD $0x031e064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 30], 3
+	QUAD $0x031f067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 31], 3
+	QUAD $0x041e164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 30], 4
+	QUAD $0x041f167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 31], 4
+	QUAD $0x1e2e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r13 + 30], 5
+	QUAD $0x1f2e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r13 + 31], 5
+	QUAD $0x061e3e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 30], 6
+	QUAD $0x061f3e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 31], 6
+	QUAD $0x1e1e4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r11 + 30], 7
+	QUAD $0x1f1e7c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r11 + 31], 7
+	QUAD $0x1e264c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r12 + 30], 8
+	QUAD $0x1f267c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r12 + 31], 8
+	QUAD $0x1e364c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r14 + 30], 9
+	QUAD $0x1f367c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r14 + 31], 9
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x1e164c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r10 + 30], 10
+	QUAD $0x1f167c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r10 + 31], 10
+	QUAD $0x1e3e4c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rsi + r15 + 30], 11
+	QUAD $0x1f3e7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r15 + 31], 11
+	QUAD $0x0c1e1e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 30], 12
+	QUAD $0x0c1f1e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 31], 12
+	QUAD $0x1e0e4c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r9 + 30], 13
+	QUAD $0x1f0e7c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r9 + 31], 13
+	QUAD $0x1e064c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rsi + r8 + 30], 14
+	QUAD $0x1f067c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r8 + 31], 14
+	QUAD $0x0f1e0e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 30], 15
+	QUAD $0x0f1f0e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 31], 15
+	QUAD $0x000000d085df0f66                   // pandn    xmm0, oword 208[rbp] /* [rip + .LCPI7_13] */
+	QUAD $0x000000e0a5df0f66                   // pandn    xmm4, oword 224[rbp] /* [rip + .LCPI7_14] */
+	LONG $0xe0eb0f66                           // por    xmm4, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0xda0f4166; BYTE $0xc5               // pminub    xmm0, xmm13
+	LONG $0xc1740f66                           // pcmpeqb    xmm0, xmm1
+	LONG $0xdf0f4166; BYTE $0xc7               // pandn    xmm0, xmm15
+	LONG $0xc4eb0f66                           // por    xmm0, xmm4
+	LONG $0xcf6f0f66                           // movdqa    xmm1, xmm7
+	LONG $0xda0f4166; BYTE $0xcd               // pminub    xmm1, xmm13
+	LONG $0xcf740f66                           // pcmpeqb    xmm1, xmm7
+	LONG $0xef0f4166; BYTE $0xca               // pxor    xmm1, xmm10
+	LONG $0xf1710f66; BYTE $0x07               // psllw    xmm1, 7
+	LONG $0xdb0f4166; BYTE $0xcb               // pand    xmm1, xmm11
+	LONG $0xc8eb0f66                           // por    xmm1, xmm0
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0xc1600f66                           // punpcklbw    xmm0, xmm1
+	QUAD $0x0000c024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 192]
+	LONG $0xd56f0f66                           // movdqa    xmm2, xmm5
+	QUAD $0x0000b024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 176]
+	LONG $0xd6600f66                           // punpcklbw    xmm2, xmm6
+	LONG $0xe26f0f66                           // movdqa    xmm4, xmm2
+	LONG $0xe0610f66                           // punpcklwd    xmm4, xmm0
+	LONG $0xd0690f66                           // punpckhwd    xmm2, xmm0
+	LONG $0xd9680f66                           // punpckhbw    xmm3, xmm1
+	LONG $0xee680f66                           // punpckhbw    xmm5, xmm6
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc3610f66                           // punpcklwd    xmm0, xmm3
+	LONG $0xeb690f66                           // punpckhwd    xmm5, xmm3
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	LONG $0x6c7f0ff3; WORD $0x3088             // movdqu    oword [rax + 4*rcx + 48], xmm5
+	LONG $0x447f0ff3; WORD $0x2088             // movdqu    oword [rax + 4*rcx + 32], xmm0
+	LONG $0x547f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm2
+	LONG $0x247f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm4
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
+	JNE  LBB7_67
+	QUAD $0x0000010824948b4c                   // mov    r10, qword [rsp + 264]
+	QUAD $0x000000e824943b4c                   // cmp    r10, qword [rsp + 232]
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x0000014024b48b4c                   // mov    r14, qword [rsp + 320]
+	JNE  LBB7_69
+	JMP  LBB7_72
+
+LBB7_180:
+	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
+	LONG $0xfce08349                           // and    r8, -4
+	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
+	LONG $0x07e3c148                           // shl    rbx, 7
+	WORD $0x0148; BYTE $0xf3                   // add    rbx, rsi
+	LONG $0x84348d4f                           // lea    r14, [r12 + 4*r8]
+	LONG $0xeb280f45                           // movaps    xmm13, xmm11
+	LONG $0xebc60f45; BYTE $0x00               // shufps    xmm13, xmm11, 0
+	LONG $0xfcc68148; WORD $0x0001; BYTE $0x00 // add    rsi, 508
+	WORD $0xc931                               // xor    ecx, ecx
+	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI7_0] */
+
+LBB7_181:
+	QUAD $0xfffffe049e100ff3                           // movss    xmm3, dword [rsi - 508]
+	QUAD $0xfffe0896100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 504]
+	QUAD $0xfffe0c8e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 500]
+	QUAD $0xfffffe108e100ff3                           // movss    xmm1, dword [rsi - 496]
+	QUAD $0xfffe849e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 380], 16
+	QUAD $0xffff049e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 252], 32
+	LONG $0x213a0f66; WORD $0x845e; BYTE $0x30         // insertps    xmm3, dword [rsi - 124], 48
+	QUAD $0xfe8896213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 376], 16
+	QUAD $0xff0896213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 248], 32
+	QUAD $0x308856213a0f4466                           // insertps    xmm10, dword [rsi - 120], 48
+	QUAD $0xfe8c8e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 372], 16
+	QUAD $0xff0c8e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 244], 32
+	QUAD $0x308c4e213a0f4466                           // insertps    xmm9, dword [rsi - 116], 48
+	QUAD $0xfffe908e213a0f66; WORD $0x10ff             // insertps    xmm1, dword [rsi - 368], 16
+	QUAD $0xffff108e213a0f66; WORD $0x20ff             // insertps    xmm1, dword [rsi - 240], 32
+	LONG $0x213a0f66; WORD $0x904e; BYTE $0x30         // insertps    xmm1, dword [rsi - 112], 48
+	QUAD $0xfffe1486100f44f3; BYTE $0xff               // movss    xmm8, dword [rsi - 492]
+	QUAD $0xfe9486213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm8, dword [rsi - 364], 16
+	QUAD $0xff1486213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm8, dword [rsi - 236], 32
+	LONG $0xe5280f45                                   // movaps    xmm12, xmm13
+	QUAD $0x309446213a0f4466                           // insertps    xmm8, dword [rsi - 108], 48
+	QUAD $0xfffffe1896100ff3                           // movss    xmm2, dword [rsi - 488]
+	QUAD $0xfffe9896213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 360], 16
+	QUAD $0xffff1896213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 232], 32
+	LONG $0xe3c20f44; BYTE $0x01                       // cmpltps    xmm12, xmm3
+	LONG $0x213a0f66; WORD $0x9856; BYTE $0x30         // insertps    xmm2, dword [rsi - 104], 48
+	QUAD $0xfffffe1c9e100ff3                           // movss    xmm3, dword [rsi - 484]
+	QUAD $0xfffe9c9e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 356], 16
+	QUAD $0xffff1c9e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 228], 32
+	LONG $0x6b0f4566; BYTE $0xe4                       // packssdw    xmm12, xmm12
+	LONG $0x213a0f66; WORD $0x9c5e; BYTE $0x30         // insertps    xmm3, dword [rsi - 100], 48
+	QUAD $0xfffffe24a6100ff3                           // movss    xmm4, dword [rsi - 476]
+	QUAD $0xfffea4a6213a0f66; WORD $0x10ff             // insertps    xmm4, dword [rsi - 348], 16
+	QUAD $0xffff24a6213a0f66; WORD $0x20ff             // insertps    xmm4, dword [rsi - 220], 32
+	LONG $0x630f4566; BYTE $0xe4                       // packsswb    xmm12, xmm12
+	LONG $0x213a0f66; WORD $0xa466; BYTE $0x30         // insertps    xmm4, dword [rsi - 92], 48
+	LONG $0xfd280f41                                   // movaps    xmm7, xmm13
+	QUAD $0xfffffe44ae100ff3                           // movss    xmm5, dword [rsi - 444]
+	QUAD $0xfffec4ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 316], 16
+	QUAD $0xffff44ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 188], 32
+	LONG $0x01fcc20f                                   // cmpltps    xmm7, xmm4
+	LONG $0x213a0f66; WORD $0xc46e; BYTE $0x30         // insertps    xmm5, dword [rsi - 60], 48
+	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
+	QUAD $0xfffffe6486100ff3                           // movss    xmm0, dword [rsi - 412]
+	QUAD $0xfffee486213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 284], 16
+	QUAD $0xffff6486213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 156], 32
+	LONG $0x01f5c20f                                   // cmpltps    xmm6, xmm5
+	LONG $0x213a0f66; WORD $0xe446; BYTE $0x30         // insertps    xmm0, dword [rsi - 28], 48
+	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
+	LONG $0x01e0c20f                                   // cmpltps    xmm4, xmm0
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0xc2c20f41; BYTE $0x01                       // cmpltps    xmm0, xmm10
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0x6f0f4466; BYTE $0xf0                       // movdqa    xmm14, xmm0
+	LONG $0xdb0f4566; BYTE $0xf7                       // pand    xmm14, xmm15
+	LONG $0xf80f4466; BYTE $0xf0                       // psubb    xmm14, xmm0
+	QUAD $0xfffe2096100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 480]
+	QUAD $0xfea096213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 352], 16
+	LONG $0xdb0f4566; BYTE $0xe7                       // pand    xmm12, xmm15
+	QUAD $0xff2096213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 224], 32
+	LONG $0xeb0f4566; BYTE $0xf4                       // por    xmm14, xmm12
+	LONG $0xed280f41                                   // movaps    xmm5, xmm13
+	LONG $0xe9c20f41; BYTE $0x01                       // cmpltps    xmm5, xmm9
+	QUAD $0x30a056213a0f4466                           // insertps    xmm10, dword [rsi - 96], 48
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
+	LONG $0x456f0f66; BYTE $0x10                       // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI7_1] */
+	LONG $0xe8db0f66                                   // pand    xmm5, xmm0
+	LONG $0xeb0f4166; BYTE $0xee                       // por    xmm5, xmm14
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x01c1c20f                                   // cmpltps    xmm0, xmm1
+	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
+	LONG $0xc8c20f41; BYTE $0x01                       // cmpltps    xmm1, xmm8
+	QUAD $0xfffe288e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 472]
+	QUAD $0xfea88e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 344], 16
+	QUAD $0xff288e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 216], 32
+	QUAD $0x30a84e213a0f4466                           // insertps    xmm9, dword [rsi - 88], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
+	LONG $0x6f0f4466; WORD $0x2075                     // movdqa    xmm14, oword 32[rbp] /* [rip + .LCPI7_2] */
+	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
+	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
+	LONG $0x6f0f4466; WORD $0x3075                     // movdqa    xmm14, oword 48[rbp] /* [rip + .LCPI7_3] */
+	LONG $0xdb0f4166; BYTE $0xce                       // pand    xmm1, xmm14
+	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
+	QUAD $0xfffe2ca6100f44f3; BYTE $0xff               // movss    xmm12, dword [rsi - 468]
+	QUAD $0xfeaca6213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm12, dword [rsi - 340], 16
+	QUAD $0xff2ca6213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm12, dword [rsi - 212], 32
+	QUAD $0x30ac66213a0f4466                           // insertps    xmm12, dword [rsi - 84], 48
+	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x01c2c20f                                   // cmpltps    xmm0, xmm2
+	LONG $0xed280f41                                   // movaps    xmm5, xmm13
+	LONG $0x01ebc20f                                   // cmpltps    xmm5, xmm3
+	QUAD $0xfffffe3096100ff3                           // movss    xmm2, dword [rsi - 464]
+	QUAD $0xfffeb096213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 336], 16
+	QUAD $0xffff3096213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 208], 32
+	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
+	LONG $0x213a0f66; WORD $0xb056; BYTE $0x30         // insertps    xmm2, dword [rsi - 80], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
+	LONG $0x6f0f4466; WORD $0x4075                     // movdqa    xmm14, oword 64[rbp] /* [rip + .LCPI7_4] */
+	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x06                       // psllw    xmm5, 6
+	LONG $0x5d6f0f66; BYTE $0x50                       // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI7_5] */
+	LONG $0xebdb0f66                                   // pand    xmm5, xmm3
+	LONG $0xe8eb0f66                                   // por    xmm5, xmm0
+	LONG $0xc5280f45                                   // movaps    xmm8, xmm13
+	LONG $0xc2c20f45; BYTE $0x01                       // cmpltps    xmm8, xmm10
+	QUAD $0xfffffe349e100ff3                           // movss    xmm3, dword [rsi - 460]
+	QUAD $0xfffeb49e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 332], 16
+	QUAD $0xffff349e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 204], 32
+	LONG $0x213a0f66; WORD $0xb45e; BYTE $0x30         // insertps    xmm3, dword [rsi - 76], 48
+	LONG $0x6b0f4566; BYTE $0xc0                       // packssdw    xmm8, xmm8
+	LONG $0x630f4566; BYTE $0xc0                       // packsswb    xmm8, xmm8
+	LONG $0x710f4166; WORD $0x07f0                     // psllw    xmm8, 7
+	LONG $0x456f0f66; BYTE $0x60                       // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI7_6] */
+	LONG $0xdb0f4466; BYTE $0xc0                       // pand    xmm8, xmm0
+	LONG $0xeb0f4466; BYTE $0xc5                       // por    xmm8, xmm5
+	QUAD $0xfffe3896100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 456]
+	QUAD $0xfeb896213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 328], 16
+	QUAD $0xff3896213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 200], 32
+	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
+	QUAD $0x30b856213a0f4466                           // insertps    xmm10, dword [rsi - 72], 48
+	LONG $0xeb0f4466; BYTE $0xc1                       // por    xmm8, xmm1
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0xc1c20f41; BYTE $0x01                       // cmpltps    xmm0, xmm9
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xc86f0f66                                   // movdqa    xmm1, xmm0
+	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
+	LONG $0xc8f80f66                                   // psubb    xmm1, xmm0
+	QUAD $0xfffe3c8e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 452]
+	QUAD $0xfebc8e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 324], 16
+	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
+	QUAD $0xff3c8e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 196], 32
+	LONG $0xcfeb0f66                                   // por    xmm1, xmm7
+	LONG $0xed280f41                                   // movaps    xmm5, xmm13
+	LONG $0xecc20f41; BYTE $0x01                       // cmpltps    xmm5, xmm12
+	QUAD $0x30bc4e213a0f4466                           // insertps    xmm9, dword [rsi - 68], 48
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
+	LONG $0x6ddb0f66; BYTE $0x10                       // pand    xmm5, oword 16[rbp] /* [rip + .LCPI7_1] */
+	LONG $0xe9eb0f66                                   // por    xmm5, xmm1
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x01c2c20f                                   // cmpltps    xmm0, xmm2
+	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
+	LONG $0x01cbc20f                                   // cmpltps    xmm1, xmm3
+	QUAD $0xfffffe409e100ff3                           // movss    xmm3, dword [rsi - 448]
+	QUAD $0xfffec09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 320], 16
+	QUAD $0xffff409e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 192], 32
+	LONG $0x213a0f66; WORD $0xc05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 64], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
+	LONG $0x6f0f4466; WORD $0x2065                     // movdqa    xmm12, oword 32[rbp] /* [rip + .LCPI7_2] */
+	LONG $0xdb0f4166; BYTE $0xc4                       // pand    xmm0, xmm12
+	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
+	LONG $0x4ddb0f66; BYTE $0x30                       // pand    xmm1, oword 48[rbp] /* [rip + .LCPI7_3] */
+	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
+	QUAD $0xfffffe4896100ff3                           // movss    xmm2, dword [rsi - 440]
+	QUAD $0xfffec896213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 312], 16
+	QUAD $0xffff4896213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 184], 32
+	LONG $0x213a0f66; WORD $0xc856; BYTE $0x30         // insertps    xmm2, dword [rsi - 56], 48
+	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0xc2c20f41; BYTE $0x01                       // cmpltps    xmm0, xmm10
+	LONG $0xed280f41                                   // movaps    xmm5, xmm13
+	LONG $0xe9c20f41; BYTE $0x01                       // cmpltps    xmm5, xmm9
+	QUAD $0xfffffe4cbe100ff3                           // movss    xmm7, dword [rsi - 436]
+	QUAD $0xfffeccbe213a0f66; WORD $0x10ff             // insertps    xmm7, dword [rsi - 308], 16
+	QUAD $0xffff4cbe213a0f66; WORD $0x20ff             // insertps    xmm7, dword [rsi - 180], 32
+	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
+	LONG $0x213a0f66; WORD $0xcc7e; BYTE $0x30         // insertps    xmm7, dword [rsi - 52], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
+	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x06                       // psllw    xmm5, 6
+	LONG $0x6ddb0f66; BYTE $0x50                       // pand    xmm5, oword 80[rbp] /* [rip + .LCPI7_5] */
+	LONG $0xe8eb0f66                                   // por    xmm5, xmm0
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x01c3c20f                                   // cmpltps    xmm0, xmm3
+	QUAD $0xfffffe509e100ff3                           // movss    xmm3, dword [rsi - 432]
+	QUAD $0xfffed09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 304], 16
+	QUAD $0xffff509e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 176], 32
+	LONG $0x213a0f66; WORD $0xd05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 48], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xf0710f66; BYTE $0x07                       // psllw    xmm0, 7
+	LONG $0x6f0f4466; WORD $0x6055                     // movdqa    xmm10, oword 96[rbp] /* [rip + .LCPI7_6] */
+	LONG $0xdb0f4166; BYTE $0xc2                       // pand    xmm0, xmm10
+	LONG $0xc5eb0f66                                   // por    xmm0, xmm5
+	QUAD $0xfffffe54ae100ff3                           // movss    xmm5, dword [rsi - 428]
+	QUAD $0xfffed4ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 300], 16
+	QUAD $0xffff54ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 172], 32
+	LONG $0x213a0f66; WORD $0xd46e; BYTE $0x30         // insertps    xmm5, dword [rsi - 44], 48
+	LONG $0xc1eb0f66                                   // por    xmm0, xmm1
+	QUAD $0xfffe588e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 424]
+	QUAD $0xfed88e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 296], 16
+	QUAD $0xff588e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 168], 32
+	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
+	QUAD $0x30d84e213a0f4466                           // insertps    xmm9, dword [rsi - 40], 48
+	LONG $0x620f4466; BYTE $0xc0                       // punpckldq    xmm8, xmm0
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x01c2c20f                                   // cmpltps    xmm0, xmm2
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xc86f0f66                                   // movdqa    xmm1, xmm0
+	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
+	LONG $0xc8f80f66                                   // psubb    xmm1, xmm0
+	QUAD $0xfffffe5c96100ff3                           // movss    xmm2, dword [rsi - 420]
+	QUAD $0xfffedc96213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 292], 16
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	QUAD $0xffff5c96213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 164], 32
+	LONG $0xceeb0f66                                   // por    xmm1, xmm6
+	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
+	LONG $0x01f7c20f                                   // cmpltps    xmm6, xmm7
+	LONG $0x213a0f66; WORD $0xdc56; BYTE $0x30         // insertps    xmm2, dword [rsi - 36], 48
+	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x02                       // psllw    xmm6, 2
+	LONG $0x456f0f66; BYTE $0x10                       // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI7_1] */
+	LONG $0xf0db0f66                                   // pand    xmm6, xmm0
+	LONG $0xf1eb0f66                                   // por    xmm6, xmm1
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x01c3c20f                                   // cmpltps    xmm0, xmm3
+	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
+	LONG $0x01cdc20f                                   // cmpltps    xmm1, xmm5
+	QUAD $0xfffffe609e100ff3                           // movss    xmm3, dword [rsi - 416]
+	QUAD $0xfffee09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 288], 16
+	QUAD $0xffff609e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 160], 32
+	LONG $0x213a0f66; WORD $0xe05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 32], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
+	LONG $0xdb0f4166; BYTE $0xc4                       // pand    xmm0, xmm12
+	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
+	LONG $0x6f0f4466; WORD $0x3065                     // movdqa    xmm12, oword 48[rbp] /* [rip + .LCPI7_3] */
+	LONG $0xdb0f4166; BYTE $0xcc                       // pand    xmm1, xmm12
+	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
+	QUAD $0xfffffe68ae100ff3                           // movss    xmm5, dword [rsi - 408]
+	QUAD $0xfffee8ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 280], 16
+	QUAD $0xffff68ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 152], 32
+	LONG $0x213a0f66; WORD $0xe86e; BYTE $0x30         // insertps    xmm5, dword [rsi - 24], 48
+	LONG $0xceeb0f66                                   // por    xmm1, xmm6
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0xc1c20f41; BYTE $0x01                       // cmpltps    xmm0, xmm9
+	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
+	LONG $0x01f2c20f                                   // cmpltps    xmm6, xmm2
+	QUAD $0xfffffe6cbe100ff3                           // movss    xmm7, dword [rsi - 404]
+	QUAD $0xfffeecbe213a0f66; WORD $0x10ff             // insertps    xmm7, dword [rsi - 276], 16
+	QUAD $0xffff6cbe213a0f66; WORD $0x20ff             // insertps    xmm7, dword [rsi - 148], 32
+	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
+	LONG $0x213a0f66; WORD $0xec7e; BYTE $0x30         // insertps    xmm7, dword [rsi - 20], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
+	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
+	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x06                       // psllw    xmm6, 6
+	LONG $0x6f0f4466; WORD $0x504d                     // movdqa    xmm9, oword 80[rbp] /* [rip + .LCPI7_5] */
+	LONG $0xdb0f4166; BYTE $0xf1                       // pand    xmm6, xmm9
+	LONG $0xf0eb0f66                                   // por    xmm6, xmm0
+	LONG $0xd5280f41                                   // movaps    xmm2, xmm13
+	LONG $0x01d3c20f                                   // cmpltps    xmm2, xmm3
+	QUAD $0xfffffe7086100ff3                           // movss    xmm0, dword [rsi - 400]
+	QUAD $0xfffef086213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 272], 16
+	QUAD $0xffff7086213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 144], 32
+	LONG $0x213a0f66; WORD $0xf046; BYTE $0x30         // insertps    xmm0, dword [rsi - 16], 48
+	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
+	LONG $0xf2710f66; BYTE $0x07                       // psllw    xmm2, 7
+	LONG $0xdb0f4166; BYTE $0xd2                       // pand    xmm2, xmm10
+	LONG $0xd6eb0f66                                   // por    xmm2, xmm6
+	QUAD $0xfffffe74b6100ff3                           // movss    xmm6, dword [rsi - 396]
+	QUAD $0xfffef4b6213a0f66; WORD $0x10ff             // insertps    xmm6, dword [rsi - 268], 16
+	QUAD $0xffff74b6213a0f66; WORD $0x20ff             // insertps    xmm6, dword [rsi - 140], 32
+	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
+	LONG $0x213a0f66; WORD $0xf476; BYTE $0x30         // insertps    xmm6, dword [rsi - 12], 48
+	LONG $0xd1eb0f66                                   // por    xmm2, xmm1
+	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
+	LONG $0x01cdc20f                                   // cmpltps    xmm1, xmm5
+	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
+	LONG $0xe96f0f66                                   // movdqa    xmm5, xmm1
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xe9f80f66                                   // psubb    xmm5, xmm1
+	QUAD $0xfffffe789e100ff3                           // movss    xmm3, dword [rsi - 392]
+	QUAD $0xfffef89e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 264], 16
+	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
+	QUAD $0xffff789e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 136], 32
+	LONG $0xeceb0f66                                   // por    xmm5, xmm4
+	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
+	LONG $0x01e7c20f                                   // cmpltps    xmm4, xmm7
+	LONG $0x213a0f66; WORD $0xf85e; BYTE $0x30         // insertps    xmm3, dword [rsi - 8], 48
+	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
+	LONG $0xf4710f66; BYTE $0x02                       // psllw    xmm4, 2
+	LONG $0x65db0f66; BYTE $0x10                       // pand    xmm4, oword 16[rbp] /* [rip + .LCPI7_1] */
+	LONG $0xe5eb0f66                                   // por    xmm4, xmm5
+	LONG $0xed280f41                                   // movaps    xmm5, xmm13
+	LONG $0x01e8c20f                                   // cmpltps    xmm5, xmm0
+	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
+	LONG $0x01cec20f                                   // cmpltps    xmm1, xmm6
+	QUAD $0xfffffe7c86100ff3                           // movss    xmm0, dword [rsi - 388]
+	QUAD $0xfffefc86213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 260], 16
+	QUAD $0xffff7c86213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 132], 32
+	LONG $0x213a0f66; WORD $0xfc46; BYTE $0x30         // insertps    xmm0, dword [rsi - 4], 48
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x03                       // psllw    xmm5, 3
+	LONG $0x6ddb0f66; BYTE $0x20                       // pand    xmm5, oword 32[rbp] /* [rip + .LCPI7_2] */
+	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
+	LONG $0xdb0f4166; BYTE $0xcc                       // pand    xmm1, xmm12
+	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
+	QUAD $0xfffffe80ae100ff3                           // movss    xmm5, dword [rsi - 384]
+	QUAD $0xffff00ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 256], 16
+	LONG $0x213a0f66; WORD $0x806e; BYTE $0x20         // insertps    xmm5, dword [rsi - 128], 32
+	LONG $0xcceb0f66                                   // por    xmm1, xmm4
+	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
+	LONG $0x01e3c20f                                   // cmpltps    xmm4, xmm3
+	LONG $0xdd280f41                                   // movaps    xmm3, xmm13
+	LONG $0x01d8c20f                                   // cmpltps    xmm3, xmm0
+	LONG $0x213a0f66; WORD $0x302e                     // insertps    xmm5, dword [rsi], 48
+	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
+	LONG $0xf4710f66; BYTE $0x05                       // psllw    xmm4, 5
+	LONG $0xdb0f4166; BYTE $0xe6                       // pand    xmm4, xmm14
+	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x06                       // psllw    xmm3, 6
+	LONG $0xdb0f4166; BYTE $0xd9                       // pand    xmm3, xmm9
+	LONG $0xdceb0f66                                   // por    xmm3, xmm4
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x01c5c20f                                   // cmpltps    xmm0, xmm5
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xf0710f66; BYTE $0x07                       // psllw    xmm0, 7
+	LONG $0xdb0f4166; BYTE $0xc2                       // pand    xmm0, xmm10
+	LONG $0xc3eb0f66                                   // por    xmm0, xmm3
+	LONG $0xc1eb0f66                                   // por    xmm0, xmm1
+	LONG $0xd0620f66                                   // punpckldq    xmm2, xmm0
+	LONG $0x600f4466; BYTE $0xc2                       // punpcklbw    xmm8, xmm2
+	LONG $0x380f4466; WORD $0x4500; BYTE $0x70         // pshufb    xmm8, oword 112[rbp] /* [rip + .LCPI7_7] */
+	LONG $0x7f0f45f3; WORD $0x8c04                     // movdqu    oword [r12 + 4*rcx], xmm8
+	LONG $0x04c18348                                   // add    rcx, 4
+	LONG $0x00c68148; WORD $0x0002; BYTE $0x00         // add    rsi, 512
+	WORD $0x3949; BYTE $0xc8                           // cmp    r8, rcx
+	JNE  LBB7_181
+	WORD $0x394d; BYTE $0xc2                           // cmp    r10, r8
+	JNE  LBB7_183
+	JMP  LBB7_186
+
+LBB7_122:
+	LONG $0xf8e68349                     // and    r14, -8
+	WORD $0x894c; BYTE $0xf0             // mov    rax, r14
+	LONG $0x06e0c148                     // shl    rax, 6
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	LONG $0x24448948; BYTE $0x30         // mov    qword [rsp + 48], rax
+	LONG $0x2474894c; BYTE $0x18         // mov    qword [rsp + 24], r14
+	LONG $0xb4048d4b                     // lea    rax, [r12 + 4*r14]
+	LONG $0x24048948                     // mov    qword [rsp], rax
+	QUAD $0x0000f024846e0f66; BYTE $0x00 // movd    xmm0, dword [rsp + 240]
+	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
+	WORD $0x3145; BYTE $0xff             // xor    r15d, r15d
+	QUAD $0x000080bd6f0f4466; BYTE $0x00 // movdqa    xmm15, oword 128[rbp] /* [rip + .LCPI7_8] */
+	LONG $0x6f0f4466; WORD $0x104d       // movdqa    xmm9, oword 16[rbp] /* [rip + .LCPI7_1] */
+	LONG $0x6f0f4466; WORD $0x2055       // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI7_2] */
+	LONG $0x6f0f4466; WORD $0x305d       // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI7_3] */
+	LONG $0x6f0f4466; WORD $0x4065       // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI7_4] */
+	LONG $0x6f0f4466; WORD $0x506d       // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI7_5] */
+	LONG $0x6f0f4466; WORD $0x6075       // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI7_6] */
+	QUAD $0x0000008024a4894c             // mov    qword [rsp + 128], r12
+
+LBB7_123:
+	LONG $0x247c894c; BYTE $0x10               // mov    qword [rsp + 16], r15
+	LONG $0x06e7c149                           // shl    r15, 6
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	WORD $0x894d; BYTE $0xfd                   // mov    r13, r15
+	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
+	WORD $0x894c; BYTE $0xff                   // mov    rdi, r15
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	LONG $0x34b70f46; BYTE $0x3e               // movzx    r14d, word [rsi + r15]
+	LONG $0x44b70f42; WORD $0x023e             // movzx    eax, word [rsi + r15 + 2]
+	LONG $0x5cb70f46; WORD $0x043e             // movzx    r11d, word [rsi + r15 + 4]
+	LONG $0x54b70f42; WORD $0x063e             // movzx    edx, word [rsi + r15 + 6]
+	LONG $0x54b70f46; WORD $0x083e             // movzx    r10d, word [rsi + r15 + 8]
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	LONG $0x40c88349                           // or    r8, 64
+	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
+	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
+	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
+	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
+	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
+	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
+	LONG $0x6e0f4166; BYTE $0xe6               // movd    xmm4, r14d
+	LONG $0xc40f4266; WORD $0x0624; BYTE $0x01 // pinsrw    xmm4, word [rsi + r8], 1
+	LONG $0xc40f4266; WORD $0x0e24; BYTE $0x02 // pinsrw    xmm4, word [rsi + r9], 2
+	LONG $0xc40f4266; WORD $0x2624; BYTE $0x03 // pinsrw    xmm4, word [rsi + r12], 3
+	LONG $0xc40f4266; WORD $0x2e24; BYTE $0x04 // pinsrw    xmm4, word [rsi + r13], 4
+	LONG $0x24c40f66; WORD $0x050e             // pinsrw    xmm4, word [rsi + rcx], 5
+	LONG $0x24c40f66; WORD $0x063e             // pinsrw    xmm4, word [rsi + rdi], 6
+	LONG $0x24c40f66; WORD $0x071e             // pinsrw    xmm4, word [rsi + rbx], 7
+	LONG $0x74b70f46; WORD $0x0a3e             // movzx    r14d, word [rsi + r15 + 10]
+	LONG $0xf06e0f66                           // movd    xmm6, eax
+	QUAD $0x01020674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 2], 1
+	QUAD $0x02020e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 2], 2
+	QUAD $0x03022674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 2], 3
+	LONG $0x44b70f42; WORD $0x0c3e             // movzx    eax, word [rsi + r15 + 12]
+	LONG $0x08244489                           // mov    dword [rsp + 8], eax
+	QUAD $0x04022e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 2], 4
+	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
+	LONG $0x5cb70f46; WORD $0x0e3e             // movzx    r11d, word [rsi + r15 + 14]
+	LONG $0x74c40f66; WORD $0x020e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 2], 5
+	LONG $0xea6e0f66                           // movd    xmm5, edx
+	LONG $0x54b70f42; WORD $0x103e             // movzx    edx, word [rsi + r15 + 16]
+	LONG $0x74c40f66; WORD $0x023e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 2], 6
+	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
+	LONG $0x44b70f42; WORD $0x123e             // movzx    eax, word [rsi + r15 + 18]
+	LONG $0x28244489                           // mov    dword [rsp + 40], eax
+	LONG $0x74c40f66; WORD $0x021e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 2], 7
+	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xcef80f66                           // psubb    xmm1, xmm6
+	LONG $0x6e0f4166; BYTE $0xf6               // movd    xmm6, r14d
+	LONG $0x54b70f46; WORD $0x143e             // movzx    r10d, word [rsi + r15 + 20]
+	LONG $0xe0650f66                           // pcmpgtw    xmm4, xmm0
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
+	QUAD $0x01040654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 4], 1
+	QUAD $0x02040e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 4], 2
+	QUAD $0x03042654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 4], 3
+	QUAD $0x04042e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 4], 4
+	LONG $0x54c40f66; WORD $0x040e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 4], 5
+	LONG $0x54c40f66; WORD $0x043e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 4], 6
+	LONG $0x54c40f66; WORD $0x041e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 4], 7
+	QUAD $0x0106066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 6], 1
+	QUAD $0x02060e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 6], 2
+	QUAD $0x0306266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 6], 3
+	QUAD $0x04062e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 6], 4
+	LONG $0x6cc40f66; WORD $0x060e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 6], 5
+	LONG $0x6cc40f66; WORD $0x063e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 6], 6
+	LONG $0x6cc40f66; WORD $0x061e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 6], 7
+	QUAD $0x0108065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 8], 1
+	QUAD $0x02080e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 8], 2
+	QUAD $0x0308265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 8], 3
+	QUAD $0x04082e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 8], 4
+	LONG $0x5cc40f66; WORD $0x080e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 8], 5
+	LONG $0x5cc40f66; WORD $0x083e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 8], 6
+	LONG $0x5cc40f66; WORD $0x081e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 8], 7
+	LONG $0xcceb0f66                           // por    xmm1, xmm4
+	LONG $0x7c6e0f66; WORD $0x0824             // movd    xmm7, dword [rsp + 8]
+	LONG $0x44b70f42; WORD $0x163e             // movzx    eax, word [rsi + r15 + 22]
+	LONG $0xd0650f66                           // pcmpgtw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
+	LONG $0xdb0f4166; BYTE $0xd1               // pand    xmm2, xmm9
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
+	LONG $0x5cb70f46; WORD $0x183e             // movzx    r11d, word [rsi + r15 + 24]
+	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
+	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
+	LONG $0xd8650f66                           // pcmpgtw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
+	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xca6e0f66                           // movd    xmm1, edx
+	LONG $0x54b70f42; WORD $0x1a3e             // movzx    edx, word [rsi + r15 + 26]
+	QUAD $0x010a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 10], 1
+	QUAD $0x020a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 10], 2
+	QUAD $0x030a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 10], 3
+	QUAD $0x040a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 10], 4
+	LONG $0x74c40f66; WORD $0x0a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 10], 5
+	LONG $0x74c40f66; WORD $0x0a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 10], 6
+	LONG $0x74c40f66; WORD $0x0a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 10], 7
+	QUAD $0x010c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 12], 1
+	QUAD $0x020c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 12], 2
+	QUAD $0x030c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 12], 3
+	QUAD $0x040c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 12], 4
+	LONG $0x7cc40f66; WORD $0x0c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 12], 5
+	LONG $0x7cc40f66; WORD $0x0c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 12], 6
+	LONG $0x7cc40f66; WORD $0x0c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 12], 7
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0x6e0f4466; WORD $0x2444; BYTE $0x28 // movd    xmm8, dword [rsp + 40]
+	LONG $0x74b70f46; WORD $0x1c3e             // movzx    r14d, word [rsi + r15 + 28]
+	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xf8650f66                           // pcmpgtw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	LONG $0x6e0f4166; BYTE $0xea               // movd    xmm5, r10d
+	LONG $0x54b70f46; WORD $0x1e3e             // movzx    r10d, word [rsi + r15 + 30]
+	QUAD $0x010e0664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 14], 1
+	QUAD $0x020e0e64c40f4266                   // pinsrw    xmm4, word [rsi + r9 + 14], 2
+	QUAD $0x030e2664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 14], 3
+	QUAD $0x040e2e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 14], 4
+	LONG $0x64c40f66; WORD $0x0e0e; BYTE $0x05 // pinsrw    xmm4, word [rsi + rcx + 14], 5
+	LONG $0x64c40f66; WORD $0x0e3e; BYTE $0x06 // pinsrw    xmm4, word [rsi + rdi + 14], 6
+	LONG $0x64c40f66; WORD $0x0e1e; BYTE $0x07 // pinsrw    xmm4, word [rsi + rbx + 14], 7
+	QUAD $0x01120644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 18], 1
+	QUAD $0x02120e44c40f4666                   // pinsrw    xmm8, word [rsi + r9 + 18], 2
+	QUAD $0x03122644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 18], 3
+	QUAD $0x04122e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 18], 4
+	QUAD $0x05120e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 18], 5
+	QUAD $0x06123e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 18], 6
+	QUAD $0x07121e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 18], 7
+	LONG $0xe0650f66                           // pcmpgtw    xmm4, xmm0
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
+	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
+	LONG $0xe7eb0f66                           // por    xmm4, xmm7
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x44b70f42; WORD $0x203e             // movzx    eax, word [rsi + r15 + 32]
+	LONG $0xe3eb0f66                           // por    xmm4, xmm3
+	LONG $0x650f4466; BYTE $0xc0               // pcmpgtw    xmm8, xmm0
+	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
+	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf80f4166; BYTE $0xf8               // psubb    xmm7, xmm8
+	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
+	LONG $0x5cb70f46; WORD $0x223e             // movzx    r11d, word [rsi + r15 + 34]
+	QUAD $0x0110064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 16], 1
+	QUAD $0x02100e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 16], 2
+	QUAD $0x0310264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 16], 3
+	QUAD $0x04102e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 16], 4
+	LONG $0x4cc40f66; WORD $0x100e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 16], 5
+	LONG $0x4cc40f66; WORD $0x103e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 16], 6
+	LONG $0x4cc40f66; WORD $0x101e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 16], 7
+	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	LONG $0x54b70f42; WORD $0x243e             // movzx    edx, word [rsi + r15 + 36]
+	LONG $0x20245489                           // mov    dword [rsp + 32], edx
+	QUAD $0x0114066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 20], 1
+	QUAD $0x02140e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 20], 2
+	QUAD $0x0314266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 20], 3
+	QUAD $0x04142e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 20], 4
+	LONG $0x6cc40f66; WORD $0x140e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 20], 5
+	LONG $0x6cc40f66; WORD $0x143e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 20], 6
+	LONG $0x6cc40f66; WORD $0x141e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 20], 7
+	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
+	LONG $0xdb0f4166; BYTE $0xe9               // pand    xmm5, xmm9
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	LONG $0x6e0f4166; BYTE $0xfe               // movd    xmm7, r14d
+	LONG $0x54b70f42; WORD $0x263e             // movzx    edx, word [rsi + r15 + 38]
+	LONG $0x28245489                           // mov    dword [rsp + 40], edx
+	QUAD $0x01160654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 22], 1
+	QUAD $0x02160e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 22], 2
+	QUAD $0x03162654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 22], 3
+	QUAD $0x04162e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 22], 4
+	LONG $0x54c40f66; WORD $0x160e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 22], 5
+	LONG $0x54c40f66; WORD $0x163e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 22], 6
+	LONG $0x54c40f66; WORD $0x161e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 22], 7
+	QUAD $0x0118065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 24], 1
+	QUAD $0x02180e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 24], 2
+	QUAD $0x0318265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 24], 3
+	QUAD $0x04182e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 24], 4
+	LONG $0x5cc40f66; WORD $0x180e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 24], 5
+	LONG $0x5cc40f66; WORD $0x183e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 24], 6
+	LONG $0x5cc40f66; WORD $0x181e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 24], 7
+	LONG $0xd0650f66                           // pcmpgtw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
+	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
+	LONG $0xd8650f66                           // pcmpgtw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x04               // psllw    xmm3, 4
+	LONG $0xdb0f4166; BYTE $0xdb               // pand    xmm3, xmm11
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
+	LONG $0x74b70f46; WORD $0x283e             // movzx    r14d, word [rsi + r15 + 40]
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x44b70f42; WORD $0x2a3e             // movzx    eax, word [rsi + r15 + 42]
+	LONG $0x08244489                           // mov    dword [rsp + 8], eax
+	QUAD $0x011a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 26], 1
+	QUAD $0x021a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 26], 2
+	QUAD $0x031a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 26], 3
+	QUAD $0x041a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 26], 4
+	LONG $0x74c40f66; WORD $0x1a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 26], 5
+	LONG $0x74c40f66; WORD $0x1a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 26], 6
+	LONG $0x74c40f66; WORD $0x1a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 26], 7
+	QUAD $0x011c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 28], 1
+	QUAD $0x021c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 28], 2
+	QUAD $0x031c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 28], 3
+	QUAD $0x041c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 28], 4
+	LONG $0x7cc40f66; WORD $0x1c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 28], 5
+	LONG $0x7cc40f66; WORD $0x1c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 28], 6
+	LONG $0x7cc40f66; WORD $0x1c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 28], 7
+	QUAD $0x011e0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 30], 1
+	QUAD $0x021e0e54c40f4266                   // pinsrw    xmm2, word [rsi + r9 + 30], 2
+	QUAD $0x031e2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 30], 3
+	QUAD $0x041e2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 30], 4
+	LONG $0x54c40f66; WORD $0x1e0e; BYTE $0x05 // pinsrw    xmm2, word [rsi + rcx + 30], 5
+	LONG $0x54c40f66; WORD $0x1e3e; BYTE $0x06 // pinsrw    xmm2, word [rsi + rdi + 30], 6
+	LONG $0x54c40f66; WORD $0x1e1e; BYTE $0x07 // pinsrw    xmm2, word [rsi + rbx + 30], 7
+	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xf8650f66                           // pcmpgtw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
+	LONG $0x54b70f46; WORD $0x2c3e             // movzx    r10d, word [rsi + r15 + 44]
+	LONG $0xd0650f66                           // pcmpgtw    xmm2, xmm0
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf2710f66; BYTE $0x07               // psllw    xmm2, 7
+	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	LONG $0x746e0f66; WORD $0x2024             // movd    xmm6, dword [rsp + 32]
+	LONG $0x54b70f42; WORD $0x2e3e             // movzx    edx, word [rsi + r15 + 46]
+	QUAD $0x0120066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 32], 1
+	QUAD $0x02200e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 32], 2
+	QUAD $0x0320266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 32], 3
+	QUAD $0x04202e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 32], 4
+	LONG $0x6cc40f66; WORD $0x200e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 32], 5
+	LONG $0x6cc40f66; WORD $0x203e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 32], 6
+	QUAD $0x0122064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 34], 1
+	QUAD $0x02220e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 34], 2
+	QUAD $0x0322264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 34], 3
+	QUAD $0x04222e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 34], 4
+	LONG $0x4cc40f66; WORD $0x220e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 34], 5
+	LONG $0x4cc40f66; WORD $0x223e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 34], 6
+	LONG $0x4cc40f66; WORD $0x221e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 34], 7
+	LONG $0xd3eb0f66                           // por    xmm2, xmm3
+	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
+	LONG $0x5c6e0f66; WORD $0x2824             // movd    xmm3, dword [rsp + 40]
+	LONG $0x5cb70f46; WORD $0x303e             // movzx    r11d, word [rsi + r15 + 48]
+	LONG $0x6cc40f66; WORD $0x201e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 32], 7
+	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	QUAD $0x01240674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 36], 1
+	QUAD $0x02240e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 36], 2
+	QUAD $0x03242674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 36], 3
+	QUAD $0x04242e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 36], 4
+	LONG $0x74c40f66; WORD $0x240e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 36], 5
+	LONG $0x74c40f66; WORD $0x243e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 36], 6
+	LONG $0x74c40f66; WORD $0x241e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 36], 7
+	QUAD $0x0126065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 38], 1
+	QUAD $0x02260e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 38], 2
+	QUAD $0x0326265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 38], 3
+	QUAD $0x04262e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 38], 4
+	LONG $0x5cc40f66; WORD $0x260e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 38], 5
+	LONG $0x5cc40f66; WORD $0x263e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 38], 6
+	LONG $0x5cc40f66; WORD $0x261e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 38], 7
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	LONG $0x6e0f4166; BYTE $0xee               // movd    xmm5, r14d
+	QUAD $0x0128066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 40], 1
+	QUAD $0x02280e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 40], 2
+	QUAD $0x0328266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 40], 3
+	QUAD $0x04282e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 40], 4
+	LONG $0x6cc40f66; WORD $0x280e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 40], 5
+	LONG $0x6cc40f66; WORD $0x283e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 40], 6
+	LONG $0x44b70f42; WORD $0x323e             // movzx    eax, word [rsi + r15 + 50]
+	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
+	LONG $0xdb0f4166; BYTE $0xf1               // pand    xmm6, xmm9
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	LONG $0x4c6e0f66; WORD $0x0824             // movd    xmm1, dword [rsp + 8]
+	LONG $0x74b70f46; WORD $0x343e             // movzx    r14d, word [rsi + r15 + 52]
+	LONG $0x6cc40f66; WORD $0x281e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 40], 7
+	LONG $0xd8650f66                           // pcmpgtw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
+	LONG $0xdb0f4166; BYTE $0xda               // pand    xmm3, xmm10
+	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xebeb0f66                           // por    xmm5, xmm3
+	LONG $0x6e0f4166; BYTE $0xfa               // movd    xmm7, r10d
+	LONG $0x54b70f46; WORD $0x363e             // movzx    r10d, word [rsi + r15 + 54]
+	QUAD $0x012a064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 42], 1
+	QUAD $0x022a0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 42], 2
+	QUAD $0x032a264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 42], 3
+	QUAD $0x042a2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 42], 4
+	LONG $0x4cc40f66; WORD $0x2a0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 42], 5
+	LONG $0x4cc40f66; WORD $0x2a3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 42], 6
+	LONG $0x4cc40f66; WORD $0x2a1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 42], 7
+	QUAD $0x012c067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 44], 1
+	QUAD $0x022c0e7cc40f4266                   // pinsrw    xmm7, word [rsi + r9 + 44], 2
+	QUAD $0x032c267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 44], 3
+	QUAD $0x042c2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 44], 4
+	LONG $0x7cc40f66; WORD $0x2c0e; BYTE $0x05 // pinsrw    xmm7, word [rsi + rcx + 44], 5
+	LONG $0x7cc40f66; WORD $0x2c3e; BYTE $0x06 // pinsrw    xmm7, word [rsi + rdi + 44], 6
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0xda6e0f66                           // movd    xmm3, edx
+	LONG $0x54b70f42; WORD $0x383e             // movzx    edx, word [rsi + r15 + 56]
+	LONG $0x7cc40f66; WORD $0x2c1e; BYTE $0x07 // pinsrw    xmm7, word [rsi + rbx + 44], 7
+	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x05               // psllw    xmm1, 5
+	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
+	LONG $0xf8650f66                           // pcmpgtw    xmm7, xmm0
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0xdb0f4166; BYTE $0xfd               // pand    xmm7, xmm13
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
+	LONG $0x5cb70f46; WORD $0x3a3e             // movzx    r11d, word [rsi + r15 + 58]
+	QUAD $0x012e065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 46], 1
+	QUAD $0x022e0e5cc40f4266                   // pinsrw    xmm3, word [rsi + r9 + 46], 2
+	QUAD $0x032e265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 46], 3
+	QUAD $0x042e2e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 46], 4
+	LONG $0x5cc40f66; WORD $0x2e0e; BYTE $0x05 // pinsrw    xmm3, word [rsi + rcx + 46], 5
+	LONG $0x5cc40f66; WORD $0x2e3e; BYTE $0x06 // pinsrw    xmm3, word [rsi + rdi + 46], 6
+	LONG $0x5cc40f66; WORD $0x2e1e; BYTE $0x07 // pinsrw    xmm3, word [rsi + rbx + 46], 7
+	LONG $0xd8650f66                           // pcmpgtw    xmm3, xmm0
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
+	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
+	LONG $0xdfeb0f66                           // por    xmm3, xmm7
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x44b70f42; WORD $0x3c3e             // movzx    eax, word [rsi + r15 + 60]
+	LONG $0x7cb70f46; WORD $0x3e3e             // movzx    r15d, word [rsi + r15 + 62]
+	QUAD $0x0132064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 50], 1
+	QUAD $0x02320e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 50], 2
+	QUAD $0x0332264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 50], 3
+	QUAD $0x04322e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 50], 4
+	LONG $0x4cc40f66; WORD $0x320e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 50], 5
+	LONG $0x4cc40f66; WORD $0x323e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 50], 6
+	LONG $0x4cc40f66; WORD $0x321e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 50], 7
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
+	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
+	QUAD $0x01300674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 48], 1
+	QUAD $0x02300e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 48], 2
+	QUAD $0x03302674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 48], 3
+	QUAD $0x04302e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 48], 4
+	LONG $0x74c40f66; WORD $0x300e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 48], 5
+	LONG $0x74c40f66; WORD $0x303e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 48], 6
+	LONG $0x74c40f66; WORD $0x301e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 48], 7
+	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	QUAD $0x0134064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 52], 1
+	QUAD $0x02340e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 52], 2
+	QUAD $0x0334264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 52], 3
+	QUAD $0x04342e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 52], 4
+	LONG $0x4cc40f66; WORD $0x340e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 52], 5
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0x4cc40f66; WORD $0x343e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 52], 6
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	LONG $0x4cc40f66; WORD $0x341e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 52], 7
+	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x02               // psllw    xmm1, 2
+	LONG $0xdb0f4166; BYTE $0xc9               // pand    xmm1, xmm9
+	LONG $0xcdeb0f66                           // por    xmm1, xmm5
+	LONG $0xea6e0f66                           // movd    xmm5, edx
+	QUAD $0x01360674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 54], 1
+	QUAD $0x02360e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 54], 2
+	QUAD $0x03362674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 54], 3
+	QUAD $0x04362e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 54], 4
+	LONG $0x74c40f66; WORD $0x360e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 54], 5
+	LONG $0x74c40f66; WORD $0x363e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 54], 6
+	LONG $0x74c40f66; WORD $0x361e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 54], 7
+	QUAD $0x0138066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 56], 1
+	QUAD $0x02380e6cc40f4266                   // pinsrw    xmm5, word [rsi + r9 + 56], 2
+	QUAD $0x0338266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 56], 3
+	QUAD $0x04382e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 56], 4
+	LONG $0x6cc40f66; WORD $0x380e; BYTE $0x05 // pinsrw    xmm5, word [rsi + rcx + 56], 5
+	LONG $0x6cc40f66; WORD $0x383e; BYTE $0x06 // pinsrw    xmm5, word [rsi + rdi + 56], 6
+	LONG $0x6cc40f66; WORD $0x381e; BYTE $0x07 // pinsrw    xmm5, word [rsi + rbx + 56], 7
+	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x03               // psllw    xmm6, 3
+	LONG $0xdb0f4166; BYTE $0xf2               // pand    xmm6, xmm10
+	LONG $0xe8650f66                           // pcmpgtw    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x6e0f4166; BYTE $0xf3               // movd    xmm6, r11d
+	QUAD $0x013a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 58], 1
+	QUAD $0x023a0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 58], 2
+	QUAD $0x033a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 58], 3
+	QUAD $0x043a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 58], 4
+	LONG $0x74c40f66; WORD $0x3a0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 58], 5
+	LONG $0x74c40f66; WORD $0x3a3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 58], 6
+	LONG $0x74c40f66; WORD $0x3a1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 58], 7
+	LONG $0xe9eb0f66                           // por    xmm5, xmm1
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	QUAD $0x013c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 60], 1
+	QUAD $0x023c0e4cc40f4266                   // pinsrw    xmm1, word [rsi + r9 + 60], 2
+	QUAD $0x033c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 60], 3
+	QUAD $0x043c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 60], 4
+	LONG $0x4cc40f66; WORD $0x3c0e; BYTE $0x05 // pinsrw    xmm1, word [rsi + rcx + 60], 5
+	LONG $0x4cc40f66; WORD $0x3c3e; BYTE $0x06 // pinsrw    xmm1, word [rsi + rdi + 60], 6
+	LONG $0x4cc40f66; WORD $0x3c1e; BYTE $0x07 // pinsrw    xmm1, word [rsi + rbx + 60], 7
+	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf               // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x06               // psllw    xmm1, 6
+	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
+	LONG $0xceeb0f66                           // por    xmm1, xmm6
+	LONG $0x6e0f4166; BYTE $0xf7               // movd    xmm6, r15d
+	QUAD $0x013e0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 62], 1
+	QUAD $0x023e0e74c40f4266                   // pinsrw    xmm6, word [rsi + r9 + 62], 2
+	QUAD $0x033e2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 62], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x043e2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 62], 4
+	LONG $0x74c40f66; WORD $0x3e0e; BYTE $0x05 // pinsrw    xmm6, word [rsi + rcx + 62], 5
+	LONG $0x74c40f66; WORD $0x3e3e; BYTE $0x06 // pinsrw    xmm6, word [rsi + rdi + 62], 6
+	LONG $0x74c40f66; WORD $0x3e1e; BYTE $0x07 // pinsrw    xmm6, word [rsi + rbx + 62], 7
+	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
+	LONG $0xdb0f4166; BYTE $0xf6               // pand    xmm6, xmm14
+	LONG $0xf1eb0f66                           // por    xmm6, xmm1
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
+	LONG $0xeb6f0f66                           // movdqa    xmm5, xmm3
+	LONG $0xee6c0f66                           // punpcklqdq    xmm5, xmm6
+	QUAD $0x00000090bd6f0f66                   // movdqa    xmm7, oword 144[rbp] /* [rip + .LCPI7_9] */
+	LONG $0x00380f66; BYTE $0xef               // pshufb    xmm5, xmm7
+	LONG $0x00380f66; BYTE $0xcf               // pshufb    xmm1, xmm7
+	LONG $0xcd610f66                           // punpcklwd    xmm1, xmm5
+	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
+	LONG $0xe2600f66                           // punpcklbw    xmm4, xmm2
+	LONG $0xe3610f66                           // punpcklwd    xmm4, xmm3
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	LONG $0x247f0ff3; BYTE $0x88               // movdqu    oword [rax + 4*rcx], xmm4
+	LONG $0x4c7f0ff3; WORD $0x1088             // movdqu    oword [rax + 4*rcx + 16], xmm1
+	LONG $0x08c18348                           // add    rcx, 8
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	LONG $0x244c3b48; BYTE $0x18               // cmp    rcx, qword [rsp + 24]
+	JNE  LBB7_123
+	QUAD $0x0000011024b48b4c                   // mov    r14, qword [rsp + 272]
+	LONG $0x24743b4c; BYTE $0x18               // cmp    r14, qword [rsp + 24]
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	LONG $0x24248b4c                           // mov    r12, qword [rsp]
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	JNE  LBB7_125
+	JMP  LBB7_128
+
+DATA LCDATA6<>+0x000(SB)/8, $0x0000000001010101
+DATA LCDATA6<>+0x008(SB)/8, $0x0000000000000000
+DATA LCDATA6<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA6<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA6<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA6<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA6<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA6<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA6<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA6<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA6<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA6<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA6<>+0x060(SB)/8, $0x8080808080808080
+DATA LCDATA6<>+0x068(SB)/8, $0x8080808080808080
+DATA LCDATA6<>+0x070(SB)/8, $0x0b030a0209010800
+DATA LCDATA6<>+0x078(SB)/8, $0x0f070e060d050c04
+DATA LCDATA6<>+0x080(SB)/8, $0x0101010101010101
+DATA LCDATA6<>+0x088(SB)/8, $0x0000000000000000
+DATA LCDATA6<>+0x090(SB)/8, $0x0f070e060d050c04
+DATA LCDATA6<>+0x098(SB)/8, $0x0000000000000000
+DATA LCDATA6<>+0x0a0(SB)/8, $0x0101010101010101
+DATA LCDATA6<>+0x0a8(SB)/8, $0x0101010101010101
+DATA LCDATA6<>+0x0b0(SB)/8, $0x0404040404040404
+DATA LCDATA6<>+0x0b8(SB)/8, $0x0404040404040404
+DATA LCDATA6<>+0x0c0(SB)/8, $0x0808080808080808
+DATA LCDATA6<>+0x0c8(SB)/8, $0x0808080808080808
+DATA LCDATA6<>+0x0d0(SB)/8, $0x1010101010101010
+DATA LCDATA6<>+0x0d8(SB)/8, $0x1010101010101010
+DATA LCDATA6<>+0x0e0(SB)/8, $0x2020202020202020
+DATA LCDATA6<>+0x0e8(SB)/8, $0x2020202020202020
+DATA LCDATA6<>+0x0f0(SB)/8, $0x4040404040404040
+DATA LCDATA6<>+0x0f8(SB)/8, $0x4040404040404040
+DATA LCDATA6<>+0x100(SB)/8, $0xffffffffffffffff
+DATA LCDATA6<>+0x108(SB)/8, $0xffffffffffffffff
+GLOBL LCDATA6<>(SB), 8, $272
+
+TEXT ·_comparison_greater_scalar_arr_sse4(SB), $360-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $16, SP
+	ANDQ $-16, SP
+	MOVQ BP, 336(SP)
+	LEAQ LCDATA6<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	WORD $0x8949; BYTE $0xce // mov    r14, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB8_16
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB8_31
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB8_81
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB8_92
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB8_182
+	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_9
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_7:
+	WORD $0x3944; BYTE $0x2a                   // cmp    dword [rdx], r13d
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	WORD $0xf619                               // sbb    esi, esi
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB8_7
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB8_9:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_13
+	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
+	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
+	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
+
+LBB8_11:
+	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
+	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
+	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
+	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
+	LONG $0xd6970f40                           // seta    sil
+	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
+	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
+	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
+	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
+	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
+	LONG $0x2414970f                           // seta    byte [rsp]
+	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
+	WORD $0xc000                               // add    al, al
+	LONG $0x58244402                           // add    al, byte [rsp + 88]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
+	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
+	JNE  LBB8_11
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+
+LBB8_13:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB8_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB8_162
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB8_164
+
+LBB8_16:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB8_45
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB8_104
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB8_115
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB8_182
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x06100ff2         // movsd    xmm0, qword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_24
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_22:
+	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
+	WORD $0x970f; BYTE $0xd3     // seta    bl
+	LONG $0x08c28348             // add    rdx, 8
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x363c8841             // mov    byte [r14 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB8_22
+	LONG $0x01c68349             // add    r14, 1
+
+LBB8_24:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_28
+	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
+	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
+	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
+
+LBB8_26:
+	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
+	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x422e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rdx + 8]
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
+	LONG $0xd5970f41                           // seta    r13b
+	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
+	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
+	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
+	LONG $0xd6970f40                           // seta    sil
+	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
+	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
+	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
+	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
+	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
+	LONG $0xd7970f41                           // seta    r15b
+	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
+	LONG $0x2414970f                           // seta    byte [rsp]
+	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x78               // add    r8b, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x68               // add    sil, byte [rsp + 104]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xc000                               // add    al, al
+	LONG $0x58244402                           // add    al, byte [rsp + 88]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
+	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB8_26
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+
+LBB8_28:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB8_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB8_166
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB8_168
+
+LBB8_31:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB8_58
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB8_182
+	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_37
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_35:
+	WORD $0x3a44; BYTE $0x1a     // cmp    r11b, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x363c8841             // mov    byte [r14 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB8_35
+	LONG $0x01c68349             // add    r14, 1
+
+LBB8_37:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_127
+	LONG $0x10ff8349         // cmp    r15, 16
+	LONG $0x241c8844         // mov    byte [rsp], r11b
+	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
+	QUAD $0x0000010024bc894c // mov    qword [rsp + 256], r15
+	JB   LBB8_41
+	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
+	LONG $0x05e0c148         // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
+	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
+	JAE  LBB8_191
+	LONG $0xbe048d4b         // lea    rax, [r14 + 4*r15]
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JAE  LBB8_191
+
+LBB8_41:
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	LONG $0x2474894c; BYTE $0x58 // mov    qword [rsp + 88], r14
+
+LBB8_42:
+	WORD $0x894d; BYTE $0xfe // mov    r14, r15
+	QUAD $0x000000e824b42b4c // sub    r14, qword [rsp + 232]
+	QUAD $0x000000d024b4894c // mov    qword [rsp + 208], r14
+
+LBB8_43:
+	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
+	WORD $0x3a44; BYTE $0x1e                   // cmp    r11b, byte [rsi]
+	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
+	LONG $0x015e3a44                           // cmp    r11b, byte [rsi + 1]
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x025e3a44                           // cmp    r11b, byte [rsi + 2]
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x03                   // cmp    al, byte [rsi + 3]
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x04                   // cmp    al, byte [rsi + 4]
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x05                   // cmp    al, byte [rsi + 5]
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x06                   // cmp    al, byte [rsi + 6]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x07                   // cmp    al, byte [rsi + 7]
+	LONG $0xd59f0f41                           // setg    r13b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x08                   // cmp    al, byte [rsi + 8]
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x09                   // cmp    al, byte [rsi + 9]
+	LONG $0xd69f0f40                           // setg    sil
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x413a; BYTE $0x0a                   // cmp    al, byte [rcx + 10]
+	LONG $0xd09f0f41                           // setg    r8b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x413a; BYTE $0x0b                   // cmp    al, byte [rcx + 11]
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x413a; BYTE $0x0c                   // cmp    al, byte [rcx + 12]
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x413a; BYTE $0x0d                   // cmp    al, byte [rcx + 13]
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x413a; BYTE $0x0e                   // cmp    al, byte [rcx + 14]
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x413a; BYTE $0x0f                   // cmp    al, byte [rcx + 15]
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x10                   // cmp    dl, byte [rcx + 16]
+	QUAD $0x000000b024949f0f                   // setg    byte [rsp + 176]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x11                   // cmp    dl, byte [rcx + 17]
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x12                   // cmp    dl, byte [rcx + 18]
+	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x13                   // cmp    dl, byte [rcx + 19]
+	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x14                   // cmp    dl, byte [rcx + 20]
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x15                   // cmp    dl, byte [rcx + 21]
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x16                   // cmp    dl, byte [rcx + 22]
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x17                   // cmp    dl, byte [rcx + 23]
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
+	QUAD $0x0000008024949f0f                   // setg    byte [rsp + 128]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
+	WORD $0x9f0f; BYTE $0xd2                   // setg    dl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x1cb60f44; BYTE $0x24               // movzx    r11d, byte [rsp]
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x245cb60f; BYTE $0x78               // movzx    ebx, byte [rsp + 120]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0844; BYTE $0xfb                   // or    bl, r15b
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xdb00                               // add    bl, bl
+	LONG $0xb0249c02; WORD $0x0000; BYTE $0x00 // add    bl, byte [rsp + 176]
+	WORD $0xde89                               // mov    esi, ebx
+	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	QUAD $0x000000a0249cb60f                   // movzx    ebx, byte [rsp + 160]
+	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	WORD $0x8844; BYTE $0x2f                   // mov    byte [rdi], r13b
+	LONG $0x2474b60f; BYTE $0x48               // movzx    esi, byte [rsp + 72]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0841; BYTE $0xf2                   // or    r10b, sil
+	WORD $0x4788; BYTE $0x01                   // mov    byte [rdi + 1], al
+	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd808                               // or    al, bl
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xda08                               // or    dl, bl
+	WORD $0xc208                               // or    dl, al
+	LONG $0x02578844                           // mov    byte [rdi + 2], r10b
+	WORD $0x5788; BYTE $0x03                   // mov    byte [rdi + 3], dl
+	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
+	LONG $0x04c78348                           // add    rdi, 4
+	LONG $0x247c8948; BYTE $0x58               // mov    qword [rsp + 88], rdi
+	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
+	JNE  LBB8_43
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	JMP  LBB8_128
+
+LBB8_45:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB8_70
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB8_182
+	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_51
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_49:
+	WORD $0x394c; BYTE $0x2a                   // cmp    qword [rdx], r13
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	WORD $0xf619                               // sbb    esi, esi
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB8_49
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB8_51:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_55
+	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
+	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
+	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
+
+LBB8_53:
+	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
+	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
+	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
+	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
+	LONG $0xd6970f40                           // seta    sil
+	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
+	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
+	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
+	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
+	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
+	LONG $0x2414970f                           // seta    byte [rsp]
+	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
+	WORD $0xc000                               // add    al, al
+	LONG $0x58244402                           // add    al, byte [rsp + 88]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
+	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
+	JNE  LBB8_53
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+
+LBB8_55:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB8_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB8_143
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB8_145
+
+LBB8_58:
+	WORD $0x8a44; BYTE $0x1e // mov    r11b, byte [rsi]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_62
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_60:
+	WORD $0x3844; BYTE $0x1a     // cmp    byte [rdx], r11b
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	WORD $0xf619                 // sbb    esi, esi
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2040; BYTE $0xf3     // and    bl, sil
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB8_60
+	LONG $0x01c68349             // add    r14, 1
+
+LBB8_62:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_131
+	LONG $0x10ff8349         // cmp    r15, 16
+	LONG $0x241c8844         // mov    byte [rsp], r11b
+	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
+	QUAD $0x0000010024bc894c // mov    qword [rsp + 256], r15
+	JB   LBB8_66
+	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
+	LONG $0x05e0c148         // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
+	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
+	JAE  LBB8_194
+	LONG $0xbe048d4b         // lea    rax, [r14 + 4*r15]
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JAE  LBB8_194
+
+LBB8_66:
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000e824848948     // mov    qword [rsp + 232], rax
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	LONG $0x2474894c; BYTE $0x30 // mov    qword [rsp + 48], r14
+
+LBB8_67:
+	WORD $0x894d; BYTE $0xfe // mov    r14, r15
+	QUAD $0x000000e824b42b4c // sub    r14, qword [rsp + 232]
+	QUAD $0x000000d024b4894c // mov    qword [rsp + 208], r14
+
+LBB8_68:
+	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
+	WORD $0x3a44; BYTE $0x1e                   // cmp    r11b, byte [rsi]
+	QUAD $0x000000c02494970f                   // seta    byte [rsp + 192]
+	LONG $0x015e3a44                           // cmp    r11b, byte [rsi + 1]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x025e3a44                           // cmp    r11b, byte [rsi + 2]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x03                   // cmp    al, byte [rsi + 3]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x04                   // cmp    al, byte [rsi + 4]
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x05                   // cmp    al, byte [rsi + 5]
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x06                   // cmp    al, byte [rsi + 6]
+	WORD $0x970f; BYTE $0xd3                   // seta    bl
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x07                   // cmp    al, byte [rsi + 7]
+	LONG $0xd5970f41                           // seta    r13b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x08                   // cmp    al, byte [rsi + 8]
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x463a; BYTE $0x09                   // cmp    al, byte [rsi + 9]
+	LONG $0xd6970f40                           // seta    sil
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x413a; BYTE $0x0a                   // cmp    al, byte [rcx + 10]
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x413a; BYTE $0x0b                   // cmp    al, byte [rcx + 11]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x413a; BYTE $0x0c                   // cmp    al, byte [rcx + 12]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x413a; BYTE $0x0d                   // cmp    al, byte [rcx + 13]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x413a; BYTE $0x0e                   // cmp    al, byte [rcx + 14]
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x413a; BYTE $0x0f                   // cmp    al, byte [rcx + 15]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x10                   // cmp    dl, byte [rcx + 16]
+	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x11                   // cmp    dl, byte [rcx + 17]
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x12                   // cmp    dl, byte [rcx + 18]
+	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x13                   // cmp    dl, byte [rcx + 19]
+	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x14                   // cmp    dl, byte [rcx + 20]
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x15                   // cmp    dl, byte [rcx + 21]
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x16                   // cmp    dl, byte [rcx + 22]
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x17                   // cmp    dl, byte [rcx + 23]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x18                   // cmp    dl, byte [rcx + 24]
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x19                   // cmp    dl, byte [rcx + 25]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x1a                   // cmp    dl, byte [rcx + 26]
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x1b                   // cmp    dl, byte [rcx + 27]
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x1c                   // cmp    dl, byte [rcx + 28]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x1d                   // cmp    dl, byte [rcx + 29]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x1e                   // cmp    dl, byte [rcx + 30]
+	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
+	LONG $0x2414b60f                           // movzx    edx, byte [rsp]
+	WORD $0x513a; BYTE $0x1f                   // cmp    dl, byte [rcx + 31]
+	WORD $0x970f; BYTE $0xd2                   // seta    dl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x1cb60f44; BYTE $0x24               // movzx    r11d, byte [rsp]
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	LONG $0x245cb60f; BYTE $0x78               // movzx    ebx, byte [rsp + 120]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0844; BYTE $0xfb                   // or    bl, r15b
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x245cb60f; BYTE $0x38               // movzx    ebx, byte [rsp + 56]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x0841; BYTE $0xdd                   // or    r13b, bl
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	LONG $0x245cb60f; BYTE $0x60               // movzx    ebx, byte [rsp + 96]
+	WORD $0xdb00                               // add    bl, bl
+	LONG $0xb0249c02; WORD $0x0000; BYTE $0x00 // add    bl, byte [rsp + 176]
+	WORD $0xde89                               // mov    esi, ebx
+	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	QUAD $0x000000a0249cb60f                   // movzx    ebx, byte [rsp + 160]
+	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	WORD $0x8844; BYTE $0x2f                   // mov    byte [rdi], r13b
+	LONG $0x2474b60f; BYTE $0x50               // movzx    esi, byte [rsp + 80]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0841; BYTE $0xf2                   // or    r10b, sil
+	WORD $0x4788; BYTE $0x01                   // mov    byte [rdi + 1], al
+	WORD $0x0841; BYTE $0xda                   // or    r10b, bl
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xc000                               // add    al, al
+	LONG $0x40244402                           // add    al, byte [rsp + 64]
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd808                               // or    al, bl
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xda08                               // or    dl, bl
+	WORD $0xc208                               // or    dl, al
+	LONG $0x02578844                           // mov    byte [rdi + 2], r10b
+	WORD $0x5788; BYTE $0x03                   // mov    byte [rdi + 3], dl
+	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
+	LONG $0x04c78348                           // add    rdi, 4
+	LONG $0x247c8948; BYTE $0x30               // mov    qword [rsp + 48], rdi
+	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
+	JNE  LBB8_68
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	JMP  LBB8_132
+
+LBB8_70:
+	WORD $0x8b44; BYTE $0x2e // mov    r13d, dword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_74
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_72:
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x36               // movzx    r8d, byte [r14 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x363c8841                           // mov    byte [r14 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB8_72
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB8_74:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_78
+	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
+	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
+	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
+
+LBB8_76:
+	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
+	WORD $0x3b44; BYTE $0x2a                   // cmp    r13d, dword [rdx]
+	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
+	LONG $0x046a3b44                           // cmp    r13d, dword [rdx + 4]
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x086a3b44                           // cmp    r13d, dword [rdx + 8]
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x0c6a3b44                           // cmp    r13d, dword [rdx + 12]
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x106a3b44                           // cmp    r13d, dword [rdx + 16]
+	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
+	LONG $0x146a3b44                           // cmp    r13d, dword [rdx + 20]
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x186a3b44                           // cmp    r13d, dword [rdx + 24]
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x1c6a3b44                           // cmp    r13d, dword [rdx + 28]
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x206a3b44                           // cmp    r13d, dword [rdx + 32]
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x246a3b44                           // cmp    r13d, dword [rdx + 36]
+	LONG $0xd69f0f40                           // setg    sil
+	LONG $0x286a3b44                           // cmp    r13d, dword [rdx + 40]
+	LONG $0xd09f0f41                           // setg    r8b
+	LONG $0x2c6a3b44                           // cmp    r13d, dword [rdx + 44]
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x306a3b44                           // cmp    r13d, dword [rdx + 48]
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x346a3b44                           // cmp    r13d, dword [rdx + 52]
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x386a3b44                           // cmp    r13d, dword [rdx + 56]
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x3c6a3b44                           // cmp    r13d, dword [rdx + 60]
+	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
+	LONG $0x406a3b44                           // cmp    r13d, dword [rdx + 64]
+	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
+	LONG $0x446a3b44                           // cmp    r13d, dword [rdx + 68]
+	QUAD $0x000000b024949f0f                   // setg    byte [rsp + 176]
+	LONG $0x486a3b44                           // cmp    r13d, dword [rdx + 72]
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0x4c6a3b44                           // cmp    r13d, dword [rdx + 76]
+	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
+	LONG $0x506a3b44                           // cmp    r13d, dword [rdx + 80]
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0x546a3b44                           // cmp    r13d, dword [rdx + 84]
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0x586a3b44                           // cmp    r13d, dword [rdx + 88]
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0x5c6a3b44                           // cmp    r13d, dword [rdx + 92]
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0x606a3b44                           // cmp    r13d, dword [rdx + 96]
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0x646a3b44                           // cmp    r13d, dword [rdx + 100]
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0x686a3b44                           // cmp    r13d, dword [rdx + 104]
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0x6c6a3b44                           // cmp    r13d, dword [rdx + 108]
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0x706a3b44                           // cmp    r13d, dword [rdx + 112]
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0x746a3b44                           // cmp    r13d, dword [rdx + 116]
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0x786a3b44                           // cmp    r13d, dword [rdx + 120]
+	LONG $0x24149f0f                           // setg    byte [rsp]
+	LONG $0x7c6a3b44                           // cmp    r13d, dword [rdx + 124]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
+	WORD $0xc000                               // add    al, al
+	LONG $0x58244402                           // add    al, byte [rsp + 88]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
+	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
+	JNE  LBB8_76
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+
+LBB8_78:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB8_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB8_147
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB8_149
+
+LBB8_81:
+	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_85
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_83:
+	LONG $0x2a394466                           // cmp    word [rdx], r13w
+	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
+	WORD $0xf619                               // sbb    esi, esi
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB8_83
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB8_85:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_89
+	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
+	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
+	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
+
+LBB8_87:
+	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
+	LONG $0x2a3b4466                     // cmp    r13w, word [rdx]
+	LONG $0x2454970f; BYTE $0x60         // seta    byte [rsp + 96]
+	LONG $0x6a3b4466; BYTE $0x02         // cmp    r13w, word [rdx + 2]
+	LONG $0xd7970f40                     // seta    dil
+	LONG $0x6a3b4466; BYTE $0x04         // cmp    r13w, word [rdx + 4]
+	LONG $0xd6970f41                     // seta    r14b
+	LONG $0x6a3b4466; BYTE $0x06         // cmp    r13w, word [rdx + 6]
+	QUAD $0x000000c02494970f             // seta    byte [rsp + 192]
+	LONG $0x6a3b4466; BYTE $0x08         // cmp    r13w, word [rdx + 8]
+	LONG $0x2454970f; BYTE $0x78         // seta    byte [rsp + 120]
+	LONG $0x6a3b4466; BYTE $0x0a         // cmp    r13w, word [rdx + 10]
+	LONG $0x2454970f; BYTE $0x68         // seta    byte [rsp + 104]
+	LONG $0x6a3b4466; BYTE $0x0c         // cmp    r13w, word [rdx + 12]
+	WORD $0x970f; BYTE $0xd0             // seta    al
+	LONG $0x6a3b4466; BYTE $0x0e         // cmp    r13w, word [rdx + 14]
+	LONG $0xd3970f41                     // seta    r11b
+	LONG $0x6a3b4466; BYTE $0x10         // cmp    r13w, word [rdx + 16]
+	LONG $0x2454970f; BYTE $0x38         // seta    byte [rsp + 56]
+	LONG $0x6a3b4466; BYTE $0x12         // cmp    r13w, word [rdx + 18]
+	LONG $0xd6970f40                     // seta    sil
+	LONG $0x6a3b4466; BYTE $0x14         // cmp    r13w, word [rdx + 20]
+	LONG $0xd0970f41                     // seta    r8b
+	LONG $0x6a3b4466; BYTE $0x16         // cmp    r13w, word [rdx + 22]
+	LONG $0xd1970f41                     // seta    r9b
+	LONG $0x6a3b4466; BYTE $0x18         // cmp    r13w, word [rdx + 24]
+	LONG $0xd2970f41                     // seta    r10b
+	LONG $0x6a3b4466; BYTE $0x1a         // cmp    r13w, word [rdx + 26]
+	LONG $0xd4970f41                     // seta    r12b
+	LONG $0x6a3b4466; BYTE $0x1c         // cmp    r13w, word [rdx + 28]
+	LONG $0x2454970f; BYTE $0x70         // seta    byte [rsp + 112]
+	LONG $0x6a3b4466; BYTE $0x1e         // cmp    r13w, word [rdx + 30]
+	WORD $0x970f; BYTE $0xd1             // seta    cl
+	LONG $0x6a3b4466; BYTE $0x20         // cmp    r13w, word [rdx + 32]
+	LONG $0x2454970f; BYTE $0x28         // seta    byte [rsp + 40]
+	LONG $0x6a3b4466; BYTE $0x22         // cmp    r13w, word [rdx + 34]
+	QUAD $0x000000b02494970f             // seta    byte [rsp + 176]
+	LONG $0x6a3b4466; BYTE $0x24         // cmp    r13w, word [rdx + 36]
+	QUAD $0x000000902494970f             // seta    byte [rsp + 144]
+	LONG $0x6a3b4466; BYTE $0x26         // cmp    r13w, word [rdx + 38]
+	QUAD $0x000000a02494970f             // seta    byte [rsp + 160]
+	LONG $0x6a3b4466; BYTE $0x28         // cmp    r13w, word [rdx + 40]
+	LONG $0x2454970f; BYTE $0x58         // seta    byte [rsp + 88]
+	LONG $0x6a3b4466; BYTE $0x2a         // cmp    r13w, word [rdx + 42]
+	LONG $0x2454970f; BYTE $0x50         // seta    byte [rsp + 80]
+	LONG $0x6a3b4466; BYTE $0x2c         // cmp    r13w, word [rdx + 44]
+	LONG $0x2454970f; BYTE $0x48         // seta    byte [rsp + 72]
+	LONG $0x6a3b4466; BYTE $0x2e         // cmp    r13w, word [rdx + 46]
+	LONG $0xd7970f41                     // seta    r15b
+	LONG $0x6a3b4466; BYTE $0x30         // cmp    r13w, word [rdx + 48]
+	LONG $0x2414970f                     // seta    byte [rsp]
+	LONG $0x6a3b4466; BYTE $0x32         // cmp    r13w, word [rdx + 50]
+	LONG $0x2454970f; BYTE $0x40         // seta    byte [rsp + 64]
+	LONG $0x6a3b4466; BYTE $0x34         // cmp    r13w, word [rdx + 52]
+	LONG $0x2454970f; BYTE $0x30         // seta    byte [rsp + 48]
+	LONG $0x6a3b4466; BYTE $0x36         // cmp    r13w, word [rdx + 54]
+	LONG $0x2454970f; BYTE $0x20         // seta    byte [rsp + 32]
+	LONG $0x6a3b4466; BYTE $0x38         // cmp    r13w, word [rdx + 56]
+	LONG $0x2454970f; BYTE $0x18         // seta    byte [rsp + 24]
+	LONG $0x6a3b4466; BYTE $0x3a         // cmp    r13w, word [rdx + 58]
+	LONG $0x2454970f; BYTE $0x08         // seta    byte [rsp + 8]
+	LONG $0x6a3b4466; BYTE $0x3c         // cmp    r13w, word [rdx + 60]
+	LONG $0x2454970f; BYTE $0x10         // seta    byte [rsp + 16]
+	LONG $0x6a3b4466; BYTE $0x3e         // cmp    r13w, word [rdx + 62]
+	WORD $0x970f; BYTE $0xd3             // seta    bl
+	WORD $0x0040; BYTE $0xff             // add    dil, dil
+	LONG $0x247c0240; BYTE $0x60         // add    dil, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
+	LONG $0x07e3c041                     // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3             // or    r11b, al
+	LONG $0x02e6c041                     // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6             // add    sil, sil
+	LONG $0x24740240; BYTE $0x38         // add    sil, byte [rsp + 56]
+	QUAD $0x000000c02484b60f             // movzx    eax, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0x0844; BYTE $0xf0             // or    al, r14b
+	WORD $0xc789                         // mov    edi, eax
+	LONG $0x02e0c041                     // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0             // or    r8b, sil
+	LONG $0x2444b60f; BYTE $0x78         // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
+	WORD $0x0840; BYTE $0xf8             // or    al, dil
+	WORD $0xc789                         // mov    edi, eax
+	LONG $0x03e1c041                     // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1             // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x68         // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
+	WORD $0x0840; BYTE $0xf8             // or    al, dil
+	LONG $0x04e2c041                     // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
+	LONG $0x05e4c041                     // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4             // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x70         // movzx    esi, byte [rsp + 112]
+	LONG $0x06e6c040                     // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07             // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1             // or    cl, sil
+	WORD $0x0841; BYTE $0xc3             // or    r11b, al
+	WORD $0x0844; BYTE $0xe1             // or    cl, r12b
+	QUAD $0x0000008024b48b4c             // mov    r14, qword [rsp + 128]
+	QUAD $0x000000b02484b60f             // movzx    eax, byte [rsp + 176]
+	WORD $0xc000                         // add    al, al
+	LONG $0x28244402                     // add    al, byte [rsp + 40]
+	WORD $0xc689                         // mov    esi, eax
+	QUAD $0x000000902484b60f             // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
+	WORD $0x0840; BYTE $0xf0             // or    al, sil
+	WORD $0xc689                         // mov    esi, eax
+	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0x0840; BYTE $0xf0             // or    al, sil
+	WORD $0xc689                         // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x58         // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
+	WORD $0x0840; BYTE $0xf0             // or    al, sil
+	WORD $0xc689                         // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x50         // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
+	WORD $0x0840; BYTE $0xf0             // or    al, sil
+	WORD $0x8845; BYTE $0x1e             // mov    byte [r14], r11b
+	LONG $0x2474b60f; BYTE $0x48         // movzx    esi, byte [rsp + 72]
+	LONG $0x06e6c040                     // shl    sil, 6
+	LONG $0x07e7c041                     // shl    r15b, 7
+	WORD $0x0841; BYTE $0xf7             // or    r15b, sil
+	LONG $0x014e8841                     // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xc7             // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x40         // movzx    eax, byte [rsp + 64]
+	WORD $0xc000                         // add    al, al
+	WORD $0x0402; BYTE $0x24             // add    al, byte [rsp]
+	WORD $0xc189                         // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
+	WORD $0xc808                         // or    al, cl
+	WORD $0xc189                         // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20         // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0xc808                         // or    al, cl
+	WORD $0xc189                         // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18         // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
+	WORD $0xc808                         // or    al, cl
+	WORD $0xc189                         // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
+	WORD $0xc808                         // or    al, cl
+	LONG $0x244cb60f; BYTE $0x10         // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x06             // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
+	WORD $0xcb08                         // or    bl, cl
+	WORD $0xc308                         // or    bl, al
+	LONG $0x027e8845                     // mov    byte [r14 + 2], r15b
+	LONG $0x035e8841                     // mov    byte [r14 + 3], bl
+	LONG $0x40c28348                     // add    rdx, 64
+	LONG $0x04c68349                     // add    r14, 4
+	QUAD $0x000000d024848348; BYTE $0xff // add    qword [rsp + 208], -1
+	JNE  LBB8_87
+	QUAD $0x0000008824948b4c             // mov    r10, qword [rsp + 136]
+	QUAD $0x000000f0249c8b4c             // mov    r11, qword [rsp + 240]
+
+LBB8_89:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB8_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB8_170
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB8_172
+
+LBB8_92:
+	LONG $0x2eb70f44         // movzx    r13d, word [rsi]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_96
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_94:
+	LONG $0x2a3b4466             // cmp    r13w, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x363c8841             // mov    byte [r14 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB8_94
+	LONG $0x01c68349             // add    r14, 1
+
+LBB8_96:
+	LONG $0x05ffc149         // sar    r15, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_135
+	LONG $0x08ff8349         // cmp    r15, 8
+	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
+	QUAD $0x000000f024bc894c // mov    qword [rsp + 240], r15
+	JB   LBB8_100
+	WORD $0x894c; BYTE $0xf8 // mov    rax, r15
+	LONG $0x06e0c148         // shl    rax, 6
+	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
+	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
+	JAE  LBB8_197
+	LONG $0xbe048d4b         // lea    rax, [r14 + 4*r15]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB8_197
+
+LBB8_100:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x24448948; BYTE $0x20 // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+	WORD $0x894d; BYTE $0xf4     // mov    r12, r14
+
+LBB8_101:
+	LONG $0x2424894c             // mov    qword [rsp], r12
+	WORD $0x894d; BYTE $0xfe     // mov    r14, r15
+	LONG $0x24742b4c; BYTE $0x20 // sub    r14, qword [rsp + 32]
+	QUAD $0x000000d024b4894c     // mov    qword [rsp + 208], r14
+
+LBB8_102:
+	WORD $0x8949; BYTE $0xf3             // mov    r11, rsi
+	LONG $0x2e3b4466                     // cmp    r13w, word [rsi]
+	QUAD $0x000000c024949f0f             // setg    byte [rsp + 192]
+	LONG $0x6e3b4466; BYTE $0x02         // cmp    r13w, word [rsi + 2]
+	LONG $0xd79f0f40                     // setg    dil
+	LONG $0x6e3b4466; BYTE $0x04         // cmp    r13w, word [rsi + 4]
+	LONG $0xd69f0f41                     // setg    r14b
+	LONG $0x6e3b4466; BYTE $0x06         // cmp    r13w, word [rsi + 6]
+	LONG $0x24549f0f; BYTE $0x78         // setg    byte [rsp + 120]
+	LONG $0x6e3b4466; BYTE $0x08         // cmp    r13w, word [rsi + 8]
+	QUAD $0x0000009024949f0f             // setg    byte [rsp + 144]
+	LONG $0x6e3b4466; BYTE $0x0a         // cmp    r13w, word [rsi + 10]
+	LONG $0x24549f0f; BYTE $0x48         // setg    byte [rsp + 72]
+	LONG $0x6e3b4466; BYTE $0x0c         // cmp    r13w, word [rsi + 12]
+	WORD $0x9f0f; BYTE $0xd0             // setg    al
+	LONG $0x6e3b4466; BYTE $0x0e         // cmp    r13w, word [rsi + 14]
+	LONG $0xd29f0f41                     // setg    r10b
+	LONG $0x6e3b4466; BYTE $0x10         // cmp    r13w, word [rsi + 16]
+	LONG $0x24549f0f; BYTE $0x70         // setg    byte [rsp + 112]
+	LONG $0x6e3b4466; BYTE $0x12         // cmp    r13w, word [rsi + 18]
+	WORD $0x9f0f; BYTE $0xd1             // setg    cl
+	LONG $0x6e3b4466; BYTE $0x14         // cmp    r13w, word [rsi + 20]
+	WORD $0x9f0f; BYTE $0xd2             // setg    dl
+	LONG $0x6e3b4466; BYTE $0x16         // cmp    r13w, word [rsi + 22]
+	LONG $0xd69f0f40                     // setg    sil
+	LONG $0x6b3b4566; BYTE $0x18         // cmp    r13w, word [r11 + 24]
+	LONG $0xd19f0f41                     // setg    r9b
+	LONG $0x6b3b4566; BYTE $0x1a         // cmp    r13w, word [r11 + 26]
+	LONG $0xd49f0f41                     // setg    r12b
+	LONG $0x6b3b4566; BYTE $0x1c         // cmp    r13w, word [r11 + 28]
+	LONG $0x24549f0f; BYTE $0x68         // setg    byte [rsp + 104]
+	LONG $0x6b3b4566; BYTE $0x1e         // cmp    r13w, word [r11 + 30]
+	LONG $0xd09f0f41                     // setg    r8b
+	LONG $0x6b3b4566; BYTE $0x20         // cmp    r13w, word [r11 + 32]
+	LONG $0x24549f0f; BYTE $0x58         // setg    byte [rsp + 88]
+	LONG $0x6b3b4566; BYTE $0x22         // cmp    r13w, word [r11 + 34]
+	QUAD $0x000000b024949f0f             // setg    byte [rsp + 176]
+	LONG $0x6b3b4566; BYTE $0x24         // cmp    r13w, word [r11 + 36]
+	LONG $0x24549f0f; BYTE $0x60         // setg    byte [rsp + 96]
+	LONG $0x6b3b4566; BYTE $0x26         // cmp    r13w, word [r11 + 38]
+	QUAD $0x000000a024949f0f             // setg    byte [rsp + 160]
+	LONG $0x6b3b4566; BYTE $0x28         // cmp    r13w, word [r11 + 40]
+	LONG $0x24549f0f; BYTE $0x50         // setg    byte [rsp + 80]
+	LONG $0x6b3b4566; BYTE $0x2a         // cmp    r13w, word [r11 + 42]
+	LONG $0x24549f0f; BYTE $0x38         // setg    byte [rsp + 56]
+	LONG $0x6b3b4566; BYTE $0x2c         // cmp    r13w, word [r11 + 44]
+	LONG $0x24549f0f; BYTE $0x40         // setg    byte [rsp + 64]
+	LONG $0x6b3b4566; BYTE $0x2e         // cmp    r13w, word [r11 + 46]
+	LONG $0xd79f0f41                     // setg    r15b
+	LONG $0x6b3b4566; BYTE $0x30         // cmp    r13w, word [r11 + 48]
+	LONG $0x24549f0f; BYTE $0x18         // setg    byte [rsp + 24]
+	LONG $0x6b3b4566; BYTE $0x32         // cmp    r13w, word [r11 + 50]
+	LONG $0x24549f0f; BYTE $0x28         // setg    byte [rsp + 40]
+	LONG $0x6b3b4566; BYTE $0x34         // cmp    r13w, word [r11 + 52]
+	LONG $0x24549f0f; BYTE $0x30         // setg    byte [rsp + 48]
+	LONG $0x6b3b4566; BYTE $0x36         // cmp    r13w, word [r11 + 54]
+	LONG $0x24549f0f; BYTE $0x20         // setg    byte [rsp + 32]
+	LONG $0x6b3b4566; BYTE $0x38         // cmp    r13w, word [r11 + 56]
+	LONG $0x24549f0f; BYTE $0x08         // setg    byte [rsp + 8]
+	LONG $0x6b3b4566; BYTE $0x3a         // cmp    r13w, word [r11 + 58]
+	LONG $0x24549f0f; BYTE $0x10         // setg    byte [rsp + 16]
+	LONG $0x6b3b4566; BYTE $0x3c         // cmp    r13w, word [r11 + 60]
+	QUAD $0x0000008024949f0f             // setg    byte [rsp + 128]
+	LONG $0x6b3b4566; BYTE $0x3e         // cmp    r13w, word [r11 + 62]
+	WORD $0x9f0f; BYTE $0xd3             // setg    bl
+	WORD $0x0040; BYTE $0xff             // add    dil, dil
+	QUAD $0x000000c024bc0240             // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06             // shl    al, 6
+	LONG $0x07e2c041                     // shl    r10b, 7
+	WORD $0x0841; BYTE $0xc2             // or    r10b, al
+	LONG $0x02e6c041                     // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe             // or    r14b, dil
+	WORD $0xc900                         // add    cl, cl
+	LONG $0x70244c02                     // add    cl, byte [rsp + 112]
+	LONG $0x2444b60f; BYTE $0x78         // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0x0844; BYTE $0xf0             // or    al, r14b
+	WORD $0xe2c0; BYTE $0x02             // shl    dl, 2
+	WORD $0xca08                         // or    dl, cl
+	QUAD $0x00000090248cb60f             // movzx    ecx, byte [rsp + 144]
+	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
+	WORD $0xc108                         // or    cl, al
+	WORD $0xcf89                         // mov    edi, ecx
+	LONG $0x03e6c040                     // shl    sil, 3
+	WORD $0x0840; BYTE $0xd6             // or    sil, dl
+	LONG $0x244cb60f; BYTE $0x48         // movzx    ecx, byte [rsp + 72]
+	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9             // or    cl, dil
+	LONG $0x04e1c041                     // shl    r9b, 4
+	WORD $0x0841; BYTE $0xf1             // or    r9b, sil
+	LONG $0x05e4c041                     // shl    r12b, 5
+	WORD $0x0845; BYTE $0xcc             // or    r12b, r9b
+	LONG $0x2454b60f; BYTE $0x68         // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x06             // shl    dl, 6
+	LONG $0x07e0c041                     // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0             // or    r8b, dl
+	WORD $0x0841; BYTE $0xca             // or    r10b, cl
+	WORD $0x0845; BYTE $0xe0             // or    r8b, r12b
+	QUAD $0x000000b0248cb60f             // movzx    ecx, byte [rsp + 176]
+	WORD $0xc900                         // add    cl, cl
+	LONG $0x58244c02                     // add    cl, byte [rsp + 88]
+	WORD $0xca89                         // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x60         // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x02             // shl    cl, 2
+	WORD $0xd108                         // or    cl, dl
+	WORD $0xca89                         // mov    edx, ecx
+	QUAD $0x000000a0248cb60f             // movzx    ecx, byte [rsp + 160]
+	WORD $0xe1c0; BYTE $0x03             // shl    cl, 3
+	WORD $0xd108                         // or    cl, dl
+	WORD $0xca89                         // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x50         // movzx    ecx, byte [rsp + 80]
+	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
+	WORD $0xd108                         // or    cl, dl
+	WORD $0xca89                         // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x38         // movzx    ecx, byte [rsp + 56]
+	WORD $0xe1c0; BYTE $0x05             // shl    cl, 5
+	WORD $0xd108                         // or    cl, dl
+	WORD $0xce89                         // mov    esi, ecx
+	LONG $0x240c8b48                     // mov    rcx, qword [rsp]
+	WORD $0x8844; BYTE $0x11             // mov    byte [rcx], r10b
+	LONG $0x2454b60f; BYTE $0x40         // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x06             // shl    dl, 6
+	LONG $0x07e7c041                     // shl    r15b, 7
+	WORD $0x0841; BYTE $0xd7             // or    r15b, dl
+	LONG $0x01418844                     // mov    byte [rcx + 1], r8b
+	WORD $0x0841; BYTE $0xf7             // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
+	WORD $0xc000                         // add    al, al
+	LONG $0x18244402                     // add    al, byte [rsp + 24]
+	WORD $0xc289                         // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
+	WORD $0xd008                         // or    al, dl
+	WORD $0xc289                         // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x20         // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0xd008                         // or    al, dl
+	WORD $0xc289                         // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
+	WORD $0xd008                         // or    al, dl
+	WORD $0xc289                         // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x10         // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
+	WORD $0xd008                         // or    al, dl
+	QUAD $0x000000802494b60f             // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x06             // shl    dl, 6
+	WORD $0xe3c0; BYTE $0x07             // shl    bl, 7
+	WORD $0xd308                         // or    bl, dl
+	WORD $0xc308                         // or    bl, al
+	LONG $0x02798844                     // mov    byte [rcx + 2], r15b
+	WORD $0x5988; BYTE $0x03             // mov    byte [rcx + 3], bl
+	LONG $0x40738d49                     // lea    rsi, [r11 + 64]
+	LONG $0x04c18348                     // add    rcx, 4
+	LONG $0x240c8948                     // mov    qword [rsp], rcx
+	QUAD $0x000000d024848348; BYTE $0xff // add    qword [rsp + 208], -1
+	JNE  LBB8_102
+	QUAD $0x0000008824948b4c             // mov    r10, qword [rsp + 136]
+	QUAD $0x000000f024bc8b4c             // mov    r15, qword [rsp + 240]
+	LONG $0x24248b4c                     // mov    r12, qword [rsp]
+	JMP  LBB8_136
+
+LBB8_104:
+	WORD $0x8b4c; BYTE $0x2e // mov    r13, qword [rsi]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_108
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_106:
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x36               // movzx    r8d, byte [r14 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x363c8841                           // mov    byte [r14 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB8_106
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB8_108:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_112
+	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
+	QUAD $0x000000f0249c894c // mov    qword [rsp + 240], r11
+	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
+
+LBB8_110:
+	QUAD $0x0000008024b4894c                   // mov    qword [rsp + 128], r14
+	WORD $0x3b4c; BYTE $0x2a                   // cmp    r13, qword [rdx]
+	QUAD $0x000000c024949f0f                   // setg    byte [rsp + 192]
+	LONG $0x086a3b4c                           // cmp    r13, qword [rdx + 8]
+	LONG $0xd79f0f40                           // setg    dil
+	LONG $0x106a3b4c                           // cmp    r13, qword [rdx + 16]
+	LONG $0xd69f0f41                           // setg    r14b
+	LONG $0x186a3b4c                           // cmp    r13, qword [rdx + 24]
+	LONG $0x24549f0f; BYTE $0x78               // setg    byte [rsp + 120]
+	LONG $0x206a3b4c                           // cmp    r13, qword [rdx + 32]
+	QUAD $0x0000009024949f0f                   // setg    byte [rsp + 144]
+	LONG $0x286a3b4c                           // cmp    r13, qword [rdx + 40]
+	LONG $0x24549f0f; BYTE $0x48               // setg    byte [rsp + 72]
+	LONG $0x306a3b4c                           // cmp    r13, qword [rdx + 48]
+	WORD $0x9f0f; BYTE $0xd0                   // setg    al
+	LONG $0x386a3b4c                           // cmp    r13, qword [rdx + 56]
+	LONG $0xd39f0f41                           // setg    r11b
+	LONG $0x406a3b4c                           // cmp    r13, qword [rdx + 64]
+	LONG $0x24549f0f; BYTE $0x70               // setg    byte [rsp + 112]
+	LONG $0x486a3b4c                           // cmp    r13, qword [rdx + 72]
+	LONG $0xd69f0f40                           // setg    sil
+	LONG $0x506a3b4c                           // cmp    r13, qword [rdx + 80]
+	LONG $0xd09f0f41                           // setg    r8b
+	LONG $0x586a3b4c                           // cmp    r13, qword [rdx + 88]
+	LONG $0xd19f0f41                           // setg    r9b
+	LONG $0x606a3b4c                           // cmp    r13, qword [rdx + 96]
+	LONG $0xd29f0f41                           // setg    r10b
+	LONG $0x686a3b4c                           // cmp    r13, qword [rdx + 104]
+	LONG $0xd49f0f41                           // setg    r12b
+	LONG $0x706a3b4c                           // cmp    r13, qword [rdx + 112]
+	LONG $0x24549f0f; BYTE $0x68               // setg    byte [rsp + 104]
+	LONG $0x786a3b4c                           // cmp    r13, qword [rdx + 120]
+	WORD $0x9f0f; BYTE $0xd1                   // setg    cl
+	LONG $0x80aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 128]
+	LONG $0x24549f0f; BYTE $0x58               // setg    byte [rsp + 88]
+	LONG $0x88aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 136]
+	QUAD $0x000000b024949f0f                   // setg    byte [rsp + 176]
+	LONG $0x90aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 144]
+	LONG $0x24549f0f; BYTE $0x60               // setg    byte [rsp + 96]
+	LONG $0x98aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 152]
+	QUAD $0x000000a024949f0f                   // setg    byte [rsp + 160]
+	LONG $0xa0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 160]
+	LONG $0x24549f0f; BYTE $0x50               // setg    byte [rsp + 80]
+	LONG $0xa8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 168]
+	LONG $0x24549f0f; BYTE $0x38               // setg    byte [rsp + 56]
+	LONG $0xb0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 176]
+	LONG $0x24549f0f; BYTE $0x40               // setg    byte [rsp + 64]
+	LONG $0xb8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 184]
+	LONG $0xd79f0f41                           // setg    r15b
+	LONG $0xc0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 192]
+	LONG $0x24549f0f; BYTE $0x18               // setg    byte [rsp + 24]
+	LONG $0xc8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 200]
+	LONG $0x24549f0f; BYTE $0x28               // setg    byte [rsp + 40]
+	LONG $0xd0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 208]
+	LONG $0x24549f0f; BYTE $0x30               // setg    byte [rsp + 48]
+	LONG $0xd8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 216]
+	LONG $0x24549f0f; BYTE $0x20               // setg    byte [rsp + 32]
+	LONG $0xe0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 224]
+	LONG $0x24549f0f; BYTE $0x08               // setg    byte [rsp + 8]
+	LONG $0xe8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 232]
+	LONG $0x24549f0f; BYTE $0x10               // setg    byte [rsp + 16]
+	LONG $0xf0aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 240]
+	LONG $0x24149f0f                           // setg    byte [rsp]
+	LONG $0xf8aa3b4c; WORD $0x0000; BYTE $0x00 // cmp    r13, qword [rdx + 248]
+	WORD $0x9f0f; BYTE $0xd3                   // setg    bl
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000c024bc0240                   // add    dil, byte [rsp + 192]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x02e0c041                           // shl    r8b, 2
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	WORD $0xc789                               // mov    edi, eax
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf8                   // or    al, dil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	LONG $0x2474b60f; BYTE $0x68               // movzx    esi, byte [rsp + 104]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
+	WORD $0xc000                               // add    al, al
+	LONG $0x58244402                           // add    al, byte [rsp + 88]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
+	LONG $0x2474b60f; BYTE $0x40               // movzx    esi, byte [rsp + 64]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xc7                   // or    r15b, al
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x240cb60f                           // movzx    ecx, byte [rsp]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0xc308                               // or    bl, al
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x035e8841                           // mov    byte [r14 + 3], bl
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
+	JNE  LBB8_110
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+
+LBB8_112:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB8_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB8_175
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB8_177
+
+LBB8_115:
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x06100ff3         // movss    xmm0, dword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB8_119
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB8_117:
+	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
+	WORD $0x970f; BYTE $0xd3     // seta    bl
+	LONG $0x04c28348             // add    rdx, 4
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x363c8841             // mov    byte [r14 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB8_117
+	LONG $0x01c68349             // add    r14, 1
+
+LBB8_119:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB8_139
+	LONG $0x04fb8349         // cmp    r11, 4
+	JB   LBB8_123
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x07e0c148         // shl    rax, 7
+	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
+	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
+	JAE  LBB8_200
+	LONG $0x9e048d4b         // lea    rax, [r14 + 4*r11]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB8_200
+
+LBB8_123:
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB8_124:
+	LONG $0x243c894c         // mov    qword [rsp], r15
+	QUAD $0x000000882494894c // mov    qword [rsp + 136], r10
+	QUAD $0x000000d0249c894c // mov    qword [rsp + 208], r11
+	WORD $0x294d; BYTE $0xc3 // sub    r11, r8
+	QUAD $0x000000c0249c894c // mov    qword [rsp + 192], r11
+
+LBB8_125:
+	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
+	LONG $0x2454970f; BYTE $0x78               // seta    byte [rsp + 120]
+	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
+	LONG $0xd0970f41                           // seta    r8b
+	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
+	LONG $0xd6970f41                           // seta    r14b
+	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
+	LONG $0xd5970f41                           // seta    r13b
+	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
+	QUAD $0x000000902494970f                   // seta    byte [rsp + 144]
+	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
+	LONG $0x2454970f; BYTE $0x48               // seta    byte [rsp + 72]
+	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
+	WORD $0x970f; BYTE $0xd0                   // seta    al
+	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
+	LONG $0xd3970f41                           // seta    r11b
+	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
+	LONG $0x2454970f; BYTE $0x68               // seta    byte [rsp + 104]
+	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
+	WORD $0x970f; BYTE $0xd2                   // seta    dl
+	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
+	LONG $0xd6970f40                           // seta    sil
+	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
+	LONG $0xd7970f40                           // seta    dil
+	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
+	LONG $0xd2970f41                           // seta    r10b
+	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
+	LONG $0xd4970f41                           // seta    r12b
+	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
+	QUAD $0x000000b02494970f                   // seta    byte [rsp + 176]
+	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
+	LONG $0xd1970f41                           // seta    r9b
+	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
+	LONG $0x2454970f; BYTE $0x58               // seta    byte [rsp + 88]
+	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
+	LONG $0x2454970f; BYTE $0x70               // seta    byte [rsp + 112]
+	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
+	LONG $0x2454970f; BYTE $0x60               // seta    byte [rsp + 96]
+	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
+	QUAD $0x000000a02494970f                   // seta    byte [rsp + 160]
+	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
+	LONG $0x2454970f; BYTE $0x50               // seta    byte [rsp + 80]
+	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
+	LONG $0x2454970f; BYTE $0x38               // seta    byte [rsp + 56]
+	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
+	LONG $0x2454970f; BYTE $0x40               // seta    byte [rsp + 64]
+	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
+	LONG $0xd7970f41                           // seta    r15b
+	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
+	LONG $0x2454970f; BYTE $0x18               // seta    byte [rsp + 24]
+	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
+	LONG $0x2454970f; BYTE $0x28               // seta    byte [rsp + 40]
+	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
+	LONG $0x2454970f; BYTE $0x30               // seta    byte [rsp + 48]
+	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
+	LONG $0x2454970f; BYTE $0x20               // seta    byte [rsp + 32]
+	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
+	LONG $0x2454970f; BYTE $0x08               // seta    byte [rsp + 8]
+	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
+	LONG $0x2454970f; BYTE $0x10               // seta    byte [rsp + 16]
+	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
+	QUAD $0x000000802494970f                   // seta    byte [rsp + 128]
+	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
+	WORD $0x970f; BYTE $0xd1                   // seta    cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x78               // add    r8b, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x68245402                           // add    dl, byte [rsp + 104]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000b024b4b60f                   // movzx    esi, byte [rsp + 176]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xc000                               // add    al, al
+	LONG $0x58244402                           // add    al, byte [rsp + 88]
+	LONG $0x2454b60f; BYTE $0x60               // movzx    edx, byte [rsp + 96]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000a02494b60f                   // movzx    edx, byte [rsp + 160]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x38               // movzx    edx, byte [rsp + 56]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	LONG $0x24348b48                           // mov    rsi, qword [rsp]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	LONG $0x247cb60f; BYTE $0x40               // movzx    edi, byte [rsp + 64]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xc108                               // or    cl, al
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
+	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
+	LONG $0x04c68348                           // add    rsi, 4
+	LONG $0x24348948                           // mov    qword [rsp], rsi
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB8_125
+	LONG $0x243c8b4c                           // mov    r15, qword [rsp]
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	QUAD $0x000000d0249c8b4c                   // mov    r11, qword [rsp + 208]
+	JMP  LBB8_140
+
+LBB8_127:
+	LONG $0x2474894c; BYTE $0x58 // mov    qword [rsp + 88], r14
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+
+LBB8_128:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB8_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB8_151
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+	JMP  LBB8_154
+
+LBB8_131:
+	LONG $0x2474894c; BYTE $0x30 // mov    qword [rsp + 48], r14
+	WORD $0x8948; BYTE $0xd6     // mov    rsi, rdx
+
+LBB8_132:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB8_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB8_156
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+	JMP  LBB8_159
+
+LBB8_135:
+	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+
+LBB8_136:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB8_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB8_183
+	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
+	JMP  LBB8_185
+
+LBB8_139:
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
+
+LBB8_140:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB8_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB8_187
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB8_189
+
+LBB8_143:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB8_144:
+	WORD $0x394c; BYTE $0x2a     // cmp    qword [rdx], r13
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x36 // movzx    r10d, byte [r14 + rsi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x36048841             // mov    byte [r14 + rsi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086a394c             // cmp    qword [rdx + 8], r13
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB8_144
+
+LBB8_145:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB8_182
+	WORD $0x394c; BYTE $0x2a // cmp    qword [rdx], r13
+	JMP  LBB8_174
+
+LBB8_147:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB8_148:
+	WORD $0x3b44; BYTE $0x2a     // cmp    r13d, dword [rdx]
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x046a3b44             // cmp    r13d, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd19f0f41             // setg    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x36048841             // mov    byte [r14 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB8_148
+
+LBB8_149:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB8_182
+	WORD $0x3b44; BYTE $0x2a // cmp    r13d, dword [rdx]
+	JMP  LBB8_179
+
+LBB8_151:
+	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0x24748b4c; BYTE $0x58 // mov    r14, qword [rsp + 88]
+
+LBB8_152:
+	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
+	LONG $0x0e1c3a46             // cmp    r11b, byte [rsi + r9]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	LONG $0x065c3a44; BYTE $0x01 // cmp    r11b, byte [rsi + rax + 1]
+	LONG $0x02488d4c             // lea    r9, [rax + 2]
+	WORD $0x9f0f; BYTE $0xd3     // setg    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
+	JNE  LBB8_152
+	WORD $0x014c; BYTE $0xce     // add    rsi, r9
+
+LBB8_154:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB8_182
+	WORD $0x3a44; BYTE $0x1e     // cmp    r11b, byte [rsi]
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x24448b4c; BYTE $0x58 // mov    r8, qword [rsp + 88]
+	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
+	LONG $0x07e18041             // and    r9b, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8     // xor    al, dil
+	WORD $0xc320                 // and    bl, al
+	JMP  LBB8_161
+
+LBB8_156:
+	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0x24748b4c; BYTE $0x30 // mov    r14, qword [rsp + 48]
+
+LBB8_157:
+	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
+	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
+	LONG $0x03ebc148             // shr    rbx, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0x2040; BYTE $0xfa     // and    dl, dil
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x1e148841             // mov    byte [r14 + rbx], dl
+	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
+	LONG $0x02488d4c             // lea    r9, [rax + 2]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x3040; BYTE $0xd7     // xor    dil, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
+	JNE  LBB8_157
+	WORD $0x014c; BYTE $0xce     // add    rsi, r9
+
+LBB8_159:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB8_182
+	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
+	WORD $0xc019                 // sbb    eax, eax
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x24448b4c; BYTE $0x30 // mov    r8, qword [rsp + 48]
+	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
+	LONG $0x07e18041             // and    r9b, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8     // xor    al, dil
+	WORD $0xc320                 // and    bl, al
+
+LBB8_161:
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
+	JMP  LBB8_182
+
+LBB8_162:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB8_163:
+	WORD $0x3944; BYTE $0x2a     // cmp    dword [rdx], r13d
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x36 // movzx    r10d, byte [r14 + rsi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x36048841             // mov    byte [r14 + rsi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046a3944             // cmp    dword [rdx + 4], r13d
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB8_163
+
+LBB8_164:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB8_182
+	WORD $0x3944; BYTE $0x2a // cmp    dword [rdx], r13d
+	JMP  LBB8_174
+
+LBB8_166:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB8_167:
+	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
+	WORD $0x970f; BYTE $0xd0     // seta    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x422e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rdx + 8]
+	LONG $0xd1970f41             // seta    r9b
+	LONG $0x10c28348             // add    rdx, 16
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x36048841             // mov    byte [r14 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB8_167
+
+LBB8_168:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB8_182
+	LONG $0x022e0f66         // ucomisd    xmm0, qword [rdx]
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	JMP  LBB8_180
+
+LBB8_170:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB8_171:
+	LONG $0x2a394466             // cmp    word [rdx], r13w
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x36 // movzx    r10d, byte [r14 + rsi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x36048841             // mov    byte [r14 + rsi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x6a394466; BYTE $0x02 // cmp    word [rdx + 2], r13w
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	WORD $0xff19                 // sbb    edi, edi
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB8_171
+
+LBB8_172:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB8_182
+	LONG $0x2a394466 // cmp    word [rdx], r13w
+
+LBB8_174:
+	WORD $0xc019             // sbb    eax, eax
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	JMP  LBB8_181
+
+LBB8_175:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB8_176:
+	WORD $0x3b4c; BYTE $0x2a     // cmp    r13, qword [rdx]
+	WORD $0x9f0f; BYTE $0xd0     // setg    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x36 // movzx    r9d, byte [r14 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x361c8841             // mov    byte [r14 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x086a3b4c             // cmp    r13, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0xd19f0f41             // setg    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x36048841             // mov    byte [r14 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB8_176
+
+LBB8_177:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB8_182
+	WORD $0x3b4c; BYTE $0x2a // cmp    r13, qword [rdx]
+
+LBB8_179:
+	WORD $0x9f0f; BYTE $0xd0 // setg    al
+
+LBB8_180:
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e78040         // and    dil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf989             // mov    ecx, edi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+
+LBB8_181:
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
+
+LBB8_182:
+	MOVQ 336(SP), SP
+	RET
+
+LBB8_183:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xf6 // xor    r14d, r14d
+
+LBB8_184:
+	WORD $0x8948; BYTE $0xf0     // mov    rax, rsi
+	LONG $0x2e3b4466             // cmp    r13w, word [rsi]
+	WORD $0x9f0f; BYTE $0xd2     // setg    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x894c; BYTE $0xf7     // mov    rdi, r14
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
+	WORD $0x8944; BYTE $0xf1     // mov    ecx, r14d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x02c68349             // add    r14, 2
+	LONG $0x6e3b4466; BYTE $0x02 // cmp    r13w, word [rsi + 2]
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	WORD $0x9f0f; BYTE $0xd2     // setg    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0xda30                 // xor    dl, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd020                 // and    al, dl
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x3c048841             // mov    byte [r12 + rdi], al
+	WORD $0x394d; BYTE $0xf1     // cmp    r9, r14
+	JNE  LBB8_184
+
+LBB8_185:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB8_182
+	LONG $0x2e3b4466         // cmp    r13w, word [rsi]
+	WORD $0x9f0f; BYTE $0xd0 // setg    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x894c; BYTE $0xf2 // mov    rdx, r14
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
+	LONG $0x07e68041         // and    r14b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xf1 // mov    ecx, r14d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
+	JMP  LBB8_182
+
+LBB8_187:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x894d; BYTE $0xfb // mov    r11, r15
+
+LBB8_188:
+	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
+	WORD $0x970f; BYTE $0xd2     // seta    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	WORD $0xd020                 // and    al, dl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	LONG $0x02c68348             // add    rsi, 2
+	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
+	LONG $0xd1970f41             // seta    r9b
+	LONG $0x08c38348             // add    rbx, 8
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x2044; BYTE $0xca     // and    dl, r9b
+	WORD $0xc230                 // xor    dl, al
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB8_188
+
+LBB8_189:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB8_182
+	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	WORD $0x894d; BYTE $0xfe // mov    r14, r15
+	LONG $0x173c8a41         // mov    dil, byte [r15 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
+	JMP  LBB8_182
+
+LBB8_191:
+	LONG $0xf0e78349                     // and    r15, -16
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
+	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
+	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
+	LONG $0x24448948; BYTE $0x58         // mov    qword [rsp + 88], rax
+	LONG $0xc3b60f41                     // movzx    eax, r11b
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x000120248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 288], xmm1
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
+
+LBB8_192:
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	LONG $0x24448948; BYTE $0x78               // mov    qword [rsp + 120], rax
+	LONG $0x05e0c148                           // shl    rax, 5
+	LONG $0x24448948; BYTE $0x40               // mov    qword [rsp + 64], rax
+	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
+	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	LONG $0x020cb60f                           // movzx    ecx, byte [rdx + rax]
+	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
+	LONG $0x024cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rax + 1]
+	LONG $0xf96e0f66                           // movd    xmm7, ecx
+	LONG $0x024cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rax + 2]
+	LONG $0xf16e0f66                           // movd    xmm6, ecx
+	LONG $0x024cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rax + 3]
+	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
+	LONG $0x024cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rax + 4]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	LONG $0x024cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rax + 5]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	LONG $0x024cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rax + 6]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
+	LONG $0x024cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rax + 7]
+	LONG $0xc96e0f66                           // movd    xmm1, ecx
+	LONG $0x024cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rax + 8]
+	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
+	LONG $0x024cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rax + 9]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	LONG $0x024cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rax + 10]
+	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
+	LONG $0x024cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rax + 11]
+	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
+	LONG $0x024cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rax + 12]
+	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
+	LONG $0x024cb60f; BYTE $0x10               // movzx    ecx, byte [rdx + rax + 16]
+	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
+	LONG $0x024cb60f; BYTE $0x18               // movzx    ecx, byte [rdx + rax + 24]
+	LONG $0xe16e0f66                           // movd    xmm4, ecx
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x20c98348                           // or    rcx, 32
+	LONG $0x244c8948; BYTE $0x10               // mov    qword [rsp + 16], rcx
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	LONG $0x40c88349                           // or    r8, 64
+	LONG $0x2444894c; BYTE $0x40               // mov    qword [rsp + 64], r8
+	LONG $0x60cb8349                           // or    r11, 96
+	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
+	LONG $0xa0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 160
+	QUAD $0x000000a024a4894c                   // mov    qword [rsp + 160], r12
+	LONG $0xc0ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 192
+	QUAD $0x0000009024b4894c                   // mov    qword [rsp + 144], r14
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	LONG $0xe0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 224
+	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
+	LONG $0x246c894c; BYTE $0x20               // mov    qword [rsp + 32], r13
+	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
+	LONG $0x40cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 320
+	LONG $0x60cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 352
+	QUAD $0x00018048244c8148; BYTE $0x00       // or    qword [rsp + 72], 384
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0xa0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 416
+	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
+	LONG $0xc0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 448
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0xe0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 480
+	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x010204203a0f4466                   // pinsrb    xmm8, byte [rdx + rax], 1
+	QUAD $0x020204203a0f4666                   // pinsrb    xmm8, byte [rdx + r8], 2
+	QUAD $0x031a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r11], 3
+	QUAD $0x040a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r9], 4
+	QUAD $0x052204203a0f4666                   // pinsrb    xmm8, byte [rdx + r12], 5
+	QUAD $0x063204203a0f4666                   // pinsrb    xmm8, byte [rdx + r14], 6
+	QUAD $0x073a04203a0f4466                   // pinsrb    xmm8, byte [rdx + rdi], 7
+	QUAD $0x082a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r13], 8
+	QUAD $0x091204203a0f4666                   // pinsrb    xmm8, byte [rdx + r10], 9
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	LONG $0x247c894c; BYTE $0x60               // mov    qword [rsp + 96], r15
+	QUAD $0x0a3a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r15], 10
+	QUAD $0x0b1a04203a0f4466                   // pinsrb    xmm8, byte [rdx + rbx], 11
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0c3a04203a0f4666                   // pinsrb    xmm8, byte [rdx + r15], 12
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0d0204203a0f4466                   // pinsrb    xmm8, byte [rdx + rax], 13
+	QUAD $0x0e3204203a0f4466                   // pinsrb    xmm8, byte [rdx + rsi], 14
+	QUAD $0x0f0a04203a0f4466                   // pinsrb    xmm8, byte [rdx + rcx], 15
+	QUAD $0x012024ac6f0f4466; WORD $0x0000     // movdqa    xmm13, oword [rsp + 288]
+	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0101027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 1], 1
+	QUAD $0x01027c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rdx + r8 + 1], 2
+	QUAD $0x011a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r11 + 1], 3
+	QUAD $0x010a7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r9 + 1], 4
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x012a7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r13 + 1], 5
+	QUAD $0x01327c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r14 + 1], 6
+	QUAD $0x07013a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 1], 7
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0801027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 1], 8
+	QUAD $0x01127c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r10 + 1], 9
+	QUAD $0x01227c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r12 + 1], 10
+	QUAD $0x0b011a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 1], 11
+	QUAD $0x013a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 1], 12
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0d01027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 1], 13
+	QUAD $0x0e01327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 1], 14
+	QUAD $0x0f010a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 1], 15
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x01020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 1
+	QUAD $0x020274203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rdx + r8 + 2], 2
+	QUAD $0x021a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 2], 3
+	QUAD $0x020a74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r9 + 2], 4
+	QUAD $0x022a74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r13 + 2], 5
+	QUAD $0x023274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r14 + 2], 6
+	QUAD $0x07023a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 2], 7
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x08020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 8
+	QUAD $0x021274203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r10 + 2], 9
+	QUAD $0x022274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r12 + 2], 10
+	QUAD $0x0b021a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 2], 11
+	QUAD $0x023a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 2], 12
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0d020274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 2], 13
+	QUAD $0x0e023274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 2], 14
+	QUAD $0x0f020a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 2], 15
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x080264203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rax + 8], 1
+	QUAD $0x080264203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rdx + r8 + 8], 2
+	QUAD $0x081a64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r11 + 8], 3
+	QUAD $0x080a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r9 + 8], 4
+	QUAD $0x082a64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rdx + r13 + 8], 5
+	QUAD $0x083264203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r14 + 8], 6
+	QUAD $0x083a64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rdi + 8], 7
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x080264203a0f4466; BYTE $0x08       // pinsrb    xmm12, byte [rdx + rax + 8], 8
+	QUAD $0x081264203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r10 + 8], 9
+	QUAD $0x082264203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r12 + 8], 10
+	QUAD $0x081a64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + rbx + 8], 11
+	QUAD $0x083a64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r15 + 8], 12
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x080264203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rax + 8], 13
+	QUAD $0x083264203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + rsi + 8], 14
+	QUAD $0x080a64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rcx + 8], 15
+	LONG $0x640f4166; BYTE $0xd8               // pcmpgtb    xmm3, xmm8
+	QUAD $0x000110249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm3
+	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
+	LONG $0x640f4166; BYTE $0xdc               // pcmpgtb    xmm3, xmm12
+	QUAD $0x000130249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm3
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x100a74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rcx + 16], 1
+	QUAD $0x100274203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r8 + 16], 2
+	QUAD $0x101a74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r11 + 16], 3
+	QUAD $0x100a74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rdx + r9 + 16], 4
+	QUAD $0x102a74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rdx + r13 + 16], 5
+	QUAD $0x103274203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r14 + 16], 6
+	QUAD $0x103a74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rdx + rdi + 16], 7
+	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x100a74203a0f4466; BYTE $0x08       // pinsrb    xmm14, byte [rdx + rcx + 16], 8
+	QUAD $0x101274203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rdx + r10 + 16], 9
+	QUAD $0x102274203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + r12 + 16], 10
+	QUAD $0x101a74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + rbx + 16], 11
+	QUAD $0x103a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r15 + 16], 12
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	QUAD $0x100274203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rax + 16], 13
+	LONG $0x24748948; BYTE $0x18               // mov    qword [rsp + 24], rsi
+	QUAD $0x103274203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + rsi + 16], 14
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x103a74203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rdi + 16], 15
+	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x01180264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 24], 1
+	QUAD $0x180264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r8 + 24], 2
+	QUAD $0x181a64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r11 + 24], 3
+	QUAD $0x180a64203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r9 + 24], 4
+	QUAD $0x182a64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r13 + 24], 5
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x180264203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r8 + 24], 6
+	QUAD $0x183264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r14 + 24], 7
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x08180264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 24], 8
+	QUAD $0x181264203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r10 + 24], 9
+	QUAD $0x000000b02494894c                   // mov    qword [rsp + 176], r10
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0a180264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 24], 10
+	QUAD $0x0b181a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 24], 11
+	QUAD $0x183a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 24], 12
+	QUAD $0x0d180a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 24], 13
+	QUAD $0x0e183264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 24], 14
+	LONG $0x640f4166; BYTE $0xde               // pcmpgtb    xmm3, xmm14
+	QUAD $0x0000f0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 240], xmm3
+	QUAD $0x0f183a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 24], 15
+	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
+	LONG $0xdc640f66                           // pcmpgtb    xmm3, xmm4
+	QUAD $0x0000d0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm3
+	LONG $0x6f0f4166; BYTE $0xe5               // movdqa    xmm4, xmm13
+	LONG $0xe7640f66                           // pcmpgtb    xmm4, xmm7
+	LONG $0x6f0f4466; BYTE $0xe4               // movdqa    xmm12, xmm4
+	QUAD $0x0000a0856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 160[rbp] /* [rip + .LCPI8_10] */
+	LONG $0xdb0f4566; BYTE $0xe0               // pand    xmm12, xmm8
+	LONG $0xf80f4466; BYTE $0xe4               // psubb    xmm12, xmm4
+	LONG $0x6f0f4166; BYTE $0xe5               // movdqa    xmm4, xmm13
+	LONG $0x6f0f4566; BYTE $0xf5               // movdqa    xmm14, xmm13
+	LONG $0xe6640f66                           // pcmpgtb    xmm4, xmm6
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x0274b60f; BYTE $0x0d               // movzx    esi, byte [rdx + rax + 13]
+	LONG $0xfe6e0f66                           // movd    xmm7, esi
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x03327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 3], 1
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x03027c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rdx + rax + 3], 2
+	LONG $0x245c894c; BYTE $0x28               // mov    qword [rsp + 40], r11
+	QUAD $0x031a7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r11 + 3], 3
+	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
+	LONG $0x244c894c; BYTE $0x70               // mov    qword [rsp + 112], r9
+	QUAD $0x030a7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r9 + 3], 4
+	QUAD $0x032a7c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rdx + r13 + 3], 5
+	QUAD $0x03027c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r8 + 3], 6
+	LONG $0x2474894c; BYTE $0x50               // mov    qword [rsp + 80], r14
+	QUAD $0x03327c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r14 + 3], 7
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x03227c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r12 + 3], 8
+	QUAD $0x03127c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r10 + 3], 9
+	LONG $0x244c8b4c; BYTE $0x60               // mov    r9, qword [rsp + 96]
+	QUAD $0x030a7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r9 + 3], 10
+	LONG $0x245c8948; BYTE $0x68               // mov    qword [rsp + 104], rbx
+	QUAD $0x031a7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + rbx + 3], 11
+	QUAD $0x033a7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r15 + 3], 12
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x033a7c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rdi + 3], 13
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x033a7c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rdi + 3], 14
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x03127c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r10 + 3], 15
+	QUAD $0x0104326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 4], 1
+	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
+	QUAD $0x0204026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 4], 2
+	QUAD $0x041a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r11 + 4], 3
+	QUAD $0x04040a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 4], 4
+	QUAD $0x042a6c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rdx + r13 + 4], 5
+	QUAD $0x04026c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r8 + 4], 6
+	QUAD $0x04326c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r14 + 4], 7
+	QUAD $0x04226c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r12 + 4], 8
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x09040a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 4], 9
+	QUAD $0x040a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r9 + 4], 10
+	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
+	QUAD $0x0b041a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 4], 11
+	QUAD $0x043a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 4], 12
+	LONG $0x244c8b4c; BYTE $0x08               // mov    r9, qword [rsp + 8]
+	QUAD $0x040a6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r9 + 4], 13
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0e04026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 4], 14
+	QUAD $0x000110249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 272]
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	QUAD $0x000000b0b56f0f66                   // movdqa    xmm6, oword 176[rbp] /* [rip + .LCPI8_11] */
+	LONG $0xe6db0f66                           // pand    xmm4, xmm6
+	LONG $0xe3eb0f66                           // por    xmm4, xmm3
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	LONG $0x3a74b60f; BYTE $0x0e               // movzx    esi, byte [rdx + rdi + 14]
+	LONG $0xf66e0f66                           // movd    xmm6, esi
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x0f041a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 4], 15
+	LONG $0xeb0f4166; BYTE $0xe4               // por    xmm4, xmm12
+	LONG $0x6f0f4566; BYTE $0xe5               // movdqa    xmm12, xmm13
+	LONG $0x640f4566; BYTE $0xe7               // pcmpgtb    xmm12, xmm15
+	LONG $0x640f4466; BYTE $0xed               // pcmpgtb    xmm13, xmm5
+	LONG $0x3a74b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rdi + 15]
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	QUAD $0x051254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r10 + 5], 1
+	LONG $0x24448b4c; BYTE $0x40               // mov    r8, qword [rsp + 64]
+	QUAD $0x050254203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r8 + 5], 2
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x03053a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 5], 3
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x052a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r13 + 5], 4
+	QUAD $0x000000a024b48b48                   // mov    rsi, qword [rsp + 160]
+	QUAD $0x05053254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 5], 5
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+	QUAD $0x053254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r14 + 5], 6
+	LONG $0x24548b4c; BYTE $0x50               // mov    r10, qword [rsp + 80]
+	QUAD $0x051254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r10 + 5], 7
+	QUAD $0x052254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r12 + 5], 8
+	QUAD $0x09050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 9
+	QUAD $0x051a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r11 + 5], 10
+	LONG $0x244c8b48; BYTE $0x68               // mov    rcx, qword [rsp + 104]
+	QUAD $0x0b050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 11
+	QUAD $0x053a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 5], 12
+	QUAD $0x050a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r9 + 5], 13
+	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
+	QUAD $0x0e050254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 5], 14
+	QUAD $0x0f051a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 5], 15
+	QUAD $0x000000c09d6f0f66                   // movdqa    xmm3, oword 192[rbp] /* [rip + .LCPI8_12] */
+	LONG $0xdb0f4466; BYTE $0xe3               // pand    xmm12, xmm3
+	QUAD $0x000000d09d6f0f66                   // movdqa    xmm3, oword 208[rbp] /* [rip + .LCPI8_13] */
+	LONG $0xdb0f4466; BYTE $0xeb               // pand    xmm13, xmm3
+	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
+	LONG $0x6f0f4566; BYTE $0xe6               // movdqa    xmm12, xmm14
+	LONG $0x640f4466; BYTE $0xe2               // pcmpgtb    xmm12, xmm2
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
+	LONG $0xd66e0f66                           // movd    xmm2, esi
+	QUAD $0x000000e09d6f0f66                   // movdqa    xmm3, oword 224[rbp] /* [rip + .LCPI8_14] */
+	LONG $0xdb0f4466; BYTE $0xe3               // pand    xmm12, xmm3
+	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
+	LONG $0x0274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rax + 18]
+	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
+	QUAD $0x0000c0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 192]
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0106025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 6], 1
+	WORD $0x894d; BYTE $0xc1                   // mov    r9, r8
+	QUAD $0x06025c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r8 + 6], 2
+	QUAD $0x03063a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 6], 3
+	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
+	QUAD $0x062a5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r13 + 6], 4
+	QUAD $0x000000a024ac8b4c                   // mov    r13, qword [rsp + 160]
+	QUAD $0x062a5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r13 + 6], 5
+	QUAD $0x06325c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r14 + 6], 6
+	QUAD $0x06125c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r10 + 6], 7
+	QUAD $0x06225c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r12 + 6], 8
+	QUAD $0x000000b024b48b48                   // mov    rsi, qword [rsp + 176]
+	QUAD $0x0906325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 6], 9
+	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
+	QUAD $0x06025c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r8 + 6], 10
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0b061a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 6], 11
+	LONG $0x247c894c; BYTE $0x48               // mov    qword [rsp + 72], r15
+	QUAD $0x063a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r15 + 6], 12
+	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
+	QUAD $0x061a5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r11 + 6], 13
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	QUAD $0x061a5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r11 + 6], 14
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x06125c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r10 + 6], 15
+	QUAD $0x0107024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 7], 1
+	QUAD $0x070a4c203a0f4266; BYTE $0x02       // pinsrb    xmm1, byte [rdx + r9 + 7], 2
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0307024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 7], 3
+	QUAD $0x04070a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 7], 4
+	QUAD $0x072a4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rdx + r13 + 7], 5
+	QUAD $0x07324c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r14 + 7], 6
+	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
+	QUAD $0x07324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 7], 7
+	QUAD $0x07224c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r12 + 7], 8
+	QUAD $0x0907324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 7], 9
+	QUAD $0x07024c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r8 + 7], 10
+	QUAD $0x0b071a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 7], 11
+	QUAD $0x073a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 7], 12
+	QUAD $0x0d073a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 7], 13
+	QUAD $0x071a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r11 + 7], 14
+	QUAD $0x07124c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r10 + 7], 15
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x01090244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 9], 1
+	QUAD $0x090a44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r9 + 9], 2
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x03090244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 9], 3
+	QUAD $0x04090a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 9], 4
+	QUAD $0x092a44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r13 + 9], 5
+	QUAD $0x0000009024848b48                   // mov    rax, qword [rsp + 144]
+	QUAD $0x06090244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 9], 6
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x07090244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 9], 7
+	QUAD $0x092244203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r12 + 9], 8
+	QUAD $0x09093244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 9], 9
+	QUAD $0x090244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r8 + 9], 10
+	QUAD $0x0b091a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 9], 11
+	QUAD $0x093a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 9], 12
+	QUAD $0x0d093a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 9], 13
+	QUAD $0x091a44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r11 + 9], 14
+	WORD $0x894d; BYTE $0xde                   // mov    r14, r11
+	QUAD $0x091244203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r10 + 9], 15
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0a024c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rax + 10], 1
+	QUAD $0x0a0a4c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rdx + r9 + 10], 2
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0a024c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rdx + rax + 10], 3
+	QUAD $0x0a0a4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rdx + rcx + 10], 4
+	QUAD $0x0a2a4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r13 + 10], 5
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x0a1a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r11 + 10], 6
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x0a0a4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rdx + rcx + 10], 7
+	QUAD $0x0a224c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r12 + 10], 8
+	QUAD $0x0a324c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rdx + rsi + 10], 9
+	QUAD $0x0a024c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r8 + 10], 10
+	QUAD $0x0a1a4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + rbx + 10], 11
+	QUAD $0x0a3a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r15 + 10], 12
+	QUAD $0x0a3a4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rdi + 10], 13
+	LONG $0xeb0f4466; BYTE $0xe4               // por    xmm12, xmm4
+	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
+	LONG $0x6f0f4166; BYTE $0xe6               // movdqa    xmm4, xmm14
+	LONG $0xe3640f66                           // pcmpgtb    xmm4, xmm3
+	LONG $0x640f4466; BYTE $0xf1               // pcmpgtb    xmm14, xmm1
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	LONG $0x3a74b60f; BYTE $0x13               // movzx    esi, byte [rdx + rdi + 19]
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	QUAD $0x0a324c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r14 + 10], 14
+	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI8_15] */
+	LONG $0xe3db0f66                           // pand    xmm4, xmm3
+	LONG $0x710f4166; WORD $0x07f6             // psllw    xmm14, 7
+	LONG $0x5d6f0f66; BYTE $0x60               // movdqa    xmm3, oword 96[rbp] /* [rip + .LCPI8_6] */
+	LONG $0xdb0f4466; BYTE $0xf3               // pand    xmm14, xmm3
+	LONG $0xeb0f4466; BYTE $0xf4               // por    xmm14, xmm4
+	LONG $0x3a74b60f; BYTE $0x14               // movzx    esi, byte [rdx + rdi + 20]
+	LONG $0xe66e0f66                           // movd    xmm4, esi
+	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
+	QUAD $0x0a124c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r10 + 10], 15
+	LONG $0xeb0f4566; BYTE $0xf4               // por    xmm14, xmm12
+	QUAD $0x00c024b47f0f4466; WORD $0x0000     // movdqa    oword [rsp + 192], xmm14
+	LONG $0x6f0f4566; BYTE $0xf5               // movdqa    xmm14, xmm13
+	LONG $0x6f0f4166; BYTE $0xdd               // movdqa    xmm3, xmm13
+	LONG $0xd8640f66                           // pcmpgtb    xmm3, xmm0
+	LONG $0x6f0f4466; BYTE $0xe3               // movdqa    xmm12, xmm3
+	LONG $0xdb0f4566; BYTE $0xe0               // pand    xmm12, xmm8
+	LONG $0xf80f4466; BYTE $0xe3               // psubb    xmm12, xmm3
+	LONG $0x640f4566; BYTE $0xe9               // pcmpgtb    xmm13, xmm9
+	LONG $0x3a74b60f; BYTE $0x15               // movzx    esi, byte [rdx + rdi + 21]
+	LONG $0xc66e0f66                           // movd    xmm0, esi
+	LONG $0x24548b4c; BYTE $0x10               // mov    r10, qword [rsp + 16]
+	QUAD $0x0b1254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r10 + 11], 1
+	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
+	QUAD $0x0b0a54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rdx + r9 + 11], 2
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b3a54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rdx + rdi + 11], 3
+	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
+	QUAD $0x0b0254203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r8 + 11], 4
+	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
+	QUAD $0x0b0a54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r9 + 11], 5
+	QUAD $0x0b1a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r11 + 11], 6
+	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
+	QUAD $0x0b0a54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rcx + 11], 7
+	QUAD $0x0b2254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r12 + 11], 8
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0b0a54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rcx + 11], 9
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x0b3254203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r14 + 11], 10
+	LONG $0x247c8b4c; BYTE $0x68               // mov    r15, qword [rsp + 104]
+	QUAD $0x0b3a54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r15 + 11], 11
+	LONG $0x24748b48; BYTE $0x48               // mov    rsi, qword [rsp + 72]
+	QUAD $0x0b3254203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rsi + 11], 12
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x0b3254203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rsi + 11], 13
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x0b3254203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + rsi + 11], 14
+	QUAD $0x0b2a54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r13 + 11], 15
+	QUAD $0x0c125c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r10 + 12], 1
+	QUAD $0x0c025c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rax + 12], 2
+	QUAD $0x0c3a5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rdx + rdi + 12], 3
+	QUAD $0x0c025c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r8 + 12], 4
+	QUAD $0x0c0a5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r9 + 12], 5
+	QUAD $0x0c1a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r11 + 12], 6
+	QUAD $0x0c1a5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rbx + 12], 7
+	QUAD $0x0c225c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r12 + 12], 8
+	QUAD $0x0c0a5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rcx + 12], 9
+	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
+	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
+	QUAD $0x0c325c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r14 + 12], 10
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	QUAD $0x0c3a5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r15 + 12], 11
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x0c3a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 12], 12
+	LONG $0x247c8b48; BYTE $0x08               // mov    rdi, qword [rsp + 8]
+	QUAD $0x0c3a5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rdi + 12], 13
+	QUAD $0x0c325c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + rsi + 12], 14
+	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
+	QUAD $0x000130249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 304]
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	QUAD $0x0000b0addb0f4466; BYTE $0x00       // pand    xmm13, oword 176[rbp] /* [rip + .LCPI8_11] */
+	LONG $0xeb0f4466; BYTE $0xeb               // por    xmm13, xmm3
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
+	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
+	QUAD $0x0c2a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r13 + 12], 15
+	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
+	LONG $0x6f0f4566; BYTE $0xe6               // movdqa    xmm12, xmm14
+	LONG $0x640f4566; BYTE $0xe2               // pcmpgtb    xmm12, xmm10
+	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
+	LONG $0x640f4166; BYTE $0xdb               // pcmpgtb    xmm3, xmm11
+	LONG $0x0274b60f; BYTE $0x17               // movzx    esi, byte [rdx + rax + 23]
+	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x010d027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 13], 1
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x020d0a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 13], 2
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x0d1a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r11 + 13], 3
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x040d0a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 13], 4
+	QUAD $0x0d0a7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r9 + 13], 5
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+	QUAD $0x0d327c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r14 + 13], 6
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x070d327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 13], 7
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x080d327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 13], 8
+	QUAD $0x0d227c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r12 + 13], 9
+	QUAD $0x0d027c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r8 + 13], 10
+	QUAD $0x0b0d1a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 13], 11
+	QUAD $0x0d3a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 13], 12
+	QUAD $0x0d0d3a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 13], 13
+	QUAD $0x0d127c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r10 + 13], 14
+	QUAD $0x0d2a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r13 + 13], 15
+	QUAD $0x0000c0a5db0f4466; BYTE $0x00       // pand    xmm12, oword 192[rbp] /* [rip + .LCPI8_12] */
+	QUAD $0x000000d09ddb0f66                   // pand    xmm3, oword 208[rbp] /* [rip + .LCPI8_13] */
+	LONG $0xeb0f4166; BYTE $0xdc               // por    xmm3, xmm12
+	LONG $0x6f0f4566; BYTE $0xd6               // movdqa    xmm10, xmm14
+	LONG $0x640f4466; BYTE $0xd7               // pcmpgtb    xmm10, xmm7
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	LONG $0x74b60f42; WORD $0x1922             // movzx    esi, byte [rdx + r12 + 25]
+	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
+	QUAD $0x0000e095db0f4466; BYTE $0x00       // pand    xmm10, oword 224[rbp] /* [rip + .LCPI8_14] */
+	LONG $0xeb0f4466; BYTE $0xd3               // por    xmm10, xmm3
+	LONG $0x74b60f42; WORD $0x1a22             // movzx    esi, byte [rdx + r12 + 26]
+	LONG $0xfe6e0f66                           // movd    xmm7, esi
+	QUAD $0x010e0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 14], 1
+	LONG $0x24748b48; BYTE $0x40               // mov    rsi, qword [rsp + 64]
+	QUAD $0x020e3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 14], 2
+	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
+	QUAD $0x0e1a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 14], 3
+	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
+	QUAD $0x040e0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 14], 4
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	QUAD $0x0e0a74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r9 + 14], 5
+	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
+	QUAD $0x0e3274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r14 + 14], 6
+	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
+	QUAD $0x0e3274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r14 + 14], 7
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x080e0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 14], 8
+	QUAD $0x000000b0248c8b4c                   // mov    r9, qword [rsp + 176]
+	QUAD $0x0e0a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r9 + 14], 9
+	QUAD $0x0e0274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r8 + 14], 10
+	QUAD $0x0b0e1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 14], 11
+	QUAD $0x0e3a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 14], 12
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0d0e0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 14], 13
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0e0e0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 14], 14
+	QUAD $0x0e2a74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r13 + 14], 15
+	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
+	QUAD $0x0f2a6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r13 + 15], 1
+	QUAD $0x020f326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 15], 2
+	QUAD $0x0f126c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r10 + 15], 3
+	QUAD $0x0f226c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r12 + 15], 4
+	QUAD $0x050f3a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 15], 5
+	QUAD $0x0f1a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r11 + 15], 6
+	QUAD $0x0f326c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r14 + 15], 7
+	QUAD $0x080f0a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 15], 8
+	QUAD $0x0f0a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r9 + 15], 9
+	QUAD $0x0f026c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r8 + 15], 10
+	QUAD $0x0b0f1a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 15], 11
+	QUAD $0x0f3a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 15], 12
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0d0f026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 15], 13
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0e0f026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 15], 14
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f0f026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 15], 15
+	QUAD $0x112a54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r13 + 17], 1
+	QUAD $0x02113254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 17], 2
+	QUAD $0x111254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r10 + 17], 3
+	QUAD $0x112254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r12 + 17], 4
+	QUAD $0x05113a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 17], 5
+	QUAD $0x111a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r11 + 17], 6
+	QUAD $0x113254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 17], 7
+	QUAD $0x08110a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 17], 8
+	QUAD $0x110a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r9 + 17], 9
+	QUAD $0x110254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r8 + 17], 10
+	QUAD $0x0b111a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 17], 11
+	QUAD $0x113a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 17], 12
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0d110254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 17], 13
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0e110254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 17], 14
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f110254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 17], 15
+	QUAD $0x122a7c203a0f4666; BYTE $0x01       // pinsrb    xmm15, byte [rdx + r13 + 18], 1
+	QUAD $0x12327c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rdx + rsi + 18], 2
+	QUAD $0x12127c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r10 + 18], 3
+	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
+	QUAD $0x12227c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r12 + 18], 4
+	QUAD $0x123a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rdi + 18], 5
+	QUAD $0x121a7c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r11 + 18], 6
+	QUAD $0x12327c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r14 + 18], 7
+	QUAD $0x120a7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rdx + rcx + 18], 8
+	QUAD $0x120a7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r9 + 18], 9
+	QUAD $0x12027c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r8 + 18], 10
+	QUAD $0x121a7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + rbx + 18], 11
+	WORD $0x8948; BYTE $0xdf                   // mov    rdi, rbx
+	QUAD $0x123a7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r15 + 18], 12
+	LONG $0x24548b4c; BYTE $0x08               // mov    r10, qword [rsp + 8]
+	QUAD $0x12127c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + r10 + 18], 13
+	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
+	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
+	LONG $0x640f4466; BYTE $0xee               // pcmpgtb    xmm13, xmm6
+	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
+	LONG $0xdd640f66                           // pcmpgtb    xmm3, xmm5
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x120a7c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rcx + 18], 14
+	QUAD $0x0000f0addb0f4466; BYTE $0x00       // pand    xmm13, oword 240[rbp] /* [rip + .LCPI8_15] */
+	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
+	LONG $0x5ddb0f66; BYTE $0x60               // pand    xmm3, oword 96[rbp] /* [rip + .LCPI8_6] */
+	LONG $0xeb0f4166; BYTE $0xdd               // por    xmm3, xmm13
+	LONG $0x0274b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rax + 28]
+	LONG $0xf66e0f66                           // movd    xmm6, esi
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	QUAD $0x120a7c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + rcx + 18], 15
+	LONG $0xeb0f4166; BYTE $0xda               // por    xmm3, xmm10
+	QUAD $0x000110249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm3
+	LONG $0x6f0f4166; BYTE $0xde               // movdqa    xmm3, xmm14
+	LONG $0xda640f66                           // pcmpgtb    xmm3, xmm2
+	LONG $0x6f0f4466; BYTE $0xeb               // movdqa    xmm13, xmm3
+	QUAD $0x000000a0956f0f66                   // movdqa    xmm2, oword 160[rbp] /* [rip + .LCPI8_10] */
+	LONG $0xdb0f4466; BYTE $0xea               // pand    xmm13, xmm2
+	LONG $0xf80f4466; BYTE $0xeb               // psubb    xmm13, xmm3
+	LONG $0x6f0f4566; BYTE $0xd6               // movdqa    xmm10, xmm14
+	LONG $0x640f4566; BYTE $0xd7               // pcmpgtb    xmm10, xmm15
+	LONG $0x0274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rax + 29]
+	LONG $0xde6e0f66                           // movd    xmm3, esi
+	QUAD $0x00f024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 240]
+	LONG $0xdb0f4466; BYTE $0xfa               // pand    xmm15, xmm2
+	QUAD $0x000000b0956f0f66                   // movdqa    xmm2, oword 176[rbp] /* [rip + .LCPI8_11] */
+	LONG $0xdb0f4466; BYTE $0xd2               // pand    xmm10, xmm2
+	LONG $0xeb0f4566; BYTE $0xd7               // por    xmm10, xmm15
+	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
+	LONG $0xd66e0f66                           // movd    xmm2, esi
+	LONG $0x0244b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rax + 31]
+	LONG $0x38244489                           // mov    dword [rsp + 56], eax
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0113024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 19], 1
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x02130a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 19], 2
+	QUAD $0x132a4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r13 + 19], 3
+	QUAD $0x13224c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r12 + 19], 4
+	QUAD $0x000000a024848b4c                   // mov    r8, qword [rsp + 160]
+	QUAD $0x13024c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rdx + r8 + 19], 5
+	QUAD $0x131a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r11 + 19], 6
+	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
+	QUAD $0x13324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 19], 7
+	WORD $0x894d; BYTE $0xf7                   // mov    r15, r14
+	LONG $0x24748b48; BYTE $0x20               // mov    rsi, qword [rsp + 32]
+	QUAD $0x0813324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 19], 8
+	QUAD $0x130a4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r9 + 19], 9
+	LONG $0x245c8b4c; BYTE $0x60               // mov    r11, qword [rsp + 96]
+	QUAD $0x131a4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r11 + 19], 10
+	QUAD $0x0b133a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 19], 11
+	LONG $0x247c8b48; BYTE $0x48               // mov    rdi, qword [rsp + 72]
+	QUAD $0x0c133a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 19], 12
+	QUAD $0x13124c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r10 + 19], 13
+	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x0e133a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 19], 14
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x13124c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r10 + 19], 15
+	QUAD $0x01140264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 20], 1
+	QUAD $0x02140a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 20], 2
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x142a64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r13 + 20], 3
+	QUAD $0x142264203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r12 + 20], 4
+	QUAD $0x140264203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r8 + 20], 5
+	QUAD $0x06141a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 20], 6
+	QUAD $0x143a64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r15 + 20], 7
+	QUAD $0x08143264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 20], 8
+	QUAD $0x140a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r9 + 20], 9
+	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
+	QUAD $0x141a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r11 + 20], 10
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x0b141a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 20], 11
+	LONG $0x247c8b4c; BYTE $0x48               // mov    r15, qword [rsp + 72]
+	QUAD $0x143a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 20], 12
+	QUAD $0x143264203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r14 + 20], 13
+	QUAD $0x0e143a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 20], 14
+	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
+	QUAD $0x141264203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r10 + 20], 15
+	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
+	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
+	LONG $0x640f4466; BYTE $0xe9               // pcmpgtb    xmm13, xmm1
+	LONG $0x6f0f4566; BYTE $0xfe               // movdqa    xmm15, xmm14
+	LONG $0x640f4466; BYTE $0xfc               // pcmpgtb    xmm15, xmm4
+	LONG $0x4c6e0f66; WORD $0x3824             // movd    xmm1, dword [rsp + 56]
+	QUAD $0x01150244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 21], 1
+	QUAD $0x160244203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rdx + rax + 22], 1
+	QUAD $0x17024c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rax + 23], 1
+	QUAD $0x19025c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rax + 25], 1
+	QUAD $0x011a027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 26], 1
+	QUAD $0x011b026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 27], 1
+	QUAD $0x011c0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 28], 1
+	QUAD $0x011d025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 29], 1
+	QUAD $0x011e0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 30], 1
+	QUAD $0x011f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 1
+	QUAD $0x02150a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 21], 2
+	QUAD $0x160a44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rcx + 22], 2
+	QUAD $0x170a4c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rcx + 23], 2
+	QUAD $0x190a5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rcx + 25], 2
+	QUAD $0x021a0a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 26], 2
+	QUAD $0x021b0a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 27], 2
+	QUAD $0x021c0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 28], 2
+	QUAD $0x021d0a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 29], 2
+	QUAD $0x021e0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 30], 2
+	QUAD $0x021f0a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 31], 2
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x152a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r13 + 21], 3
+	QUAD $0x152244203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r12 + 21], 4
+	QUAD $0x000000a024bc8b48                   // mov    rdi, qword [rsp + 160]
+	QUAD $0x05153a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 21], 5
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x151a44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r11 + 21], 6
+	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
+	QUAD $0x153244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r14 + 21], 7
+	QUAD $0x08153244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 21], 8
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+	QUAD $0x151244203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r10 + 21], 9
+	QUAD $0x150244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r8 + 21], 10
+	QUAD $0x0b151a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 21], 11
+	QUAD $0x153a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r15 + 21], 12
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x0d150a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 21], 13
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0e150244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 21], 14
+	QUAD $0x150a44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r9 + 21], 15
+	QUAD $0x000000c0a56f0f66                   // movdqa    xmm4, oword 192[rbp] /* [rip + .LCPI8_12] */
+	LONG $0xdb0f4466; BYTE $0xec               // pand    xmm13, xmm4
+	QUAD $0x000000d0a56f0f66                   // movdqa    xmm4, oword 208[rbp] /* [rip + .LCPI8_13] */
+	LONG $0xdb0f4466; BYTE $0xfc               // pand    xmm15, xmm4
+	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
+	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
+	LONG $0x640f4466; BYTE $0xe8               // pcmpgtb    xmm13, xmm0
+	QUAD $0x000000e0856f0f66                   // movdqa    xmm0, oword 224[rbp] /* [rip + .LCPI8_14] */
+	LONG $0xdb0f4466; BYTE $0xe8               // pand    xmm13, xmm0
+	LONG $0xeb0f4566; BYTE $0xef               // por    xmm13, xmm15
+	QUAD $0x162a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r13 + 22], 3
+	QUAD $0x162244203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r12 + 22], 4
+	QUAD $0x163a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rdi + 22], 5
+	QUAD $0x161a44203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r11 + 22], 6
+	QUAD $0x163244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r14 + 22], 7
+	QUAD $0x163244203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rdx + rsi + 22], 8
+	QUAD $0x161244203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rdx + r10 + 22], 9
+	QUAD $0x160244203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + r8 + 22], 10
+	QUAD $0x161a44203a0f4466; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + rbx + 22], 11
+	QUAD $0x163a44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r15 + 22], 12
+	QUAD $0x160a44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rcx + 22], 13
+	QUAD $0x160244203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rax + 22], 14
+	QUAD $0x160a44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r9 + 22], 15
+	QUAD $0x172a4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r13 + 23], 3
+	QUAD $0x17224c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r12 + 23], 4
+	QUAD $0x173a4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rdi + 23], 5
+	QUAD $0x171a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r11 + 23], 6
+	QUAD $0x17324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 23], 7
+	QUAD $0x17324c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rdx + rsi + 23], 8
+	QUAD $0x17124c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r10 + 23], 9
+	QUAD $0x17024c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r8 + 23], 10
+	QUAD $0x171a4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + rbx + 23], 11
+	QUAD $0x173a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r15 + 23], 12
+	QUAD $0x170a4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rcx + 23], 13
+	QUAD $0x17024c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + rax + 23], 14
+	QUAD $0x170a4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r9 + 23], 15
+	QUAD $0x192a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r13 + 25], 3
+	QUAD $0x19225c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r12 + 25], 4
+	QUAD $0x193a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rdi + 25], 5
+	QUAD $0x191a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r11 + 25], 6
+	QUAD $0x19325c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r14 + 25], 7
+	QUAD $0x19325c203a0f4466; BYTE $0x08       // pinsrb    xmm11, byte [rdx + rsi + 25], 8
+	QUAD $0x19125c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r10 + 25], 9
+	QUAD $0x19025c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r8 + 25], 10
+	QUAD $0x191a5c203a0f4466; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + rbx + 25], 11
+	QUAD $0x193a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r15 + 25], 12
+	QUAD $0x190a5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rcx + 25], 13
+	QUAD $0x19025c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + rax + 25], 14
+	QUAD $0x190a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r9 + 25], 15
+	QUAD $0x1a2a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r13 + 26], 3
+	QUAD $0x1a227c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r12 + 26], 4
+	QUAD $0x051a3a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 26], 5
+	QUAD $0x1a1a7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r11 + 26], 6
+	QUAD $0x1a327c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r14 + 26], 7
+	QUAD $0x081a327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 26], 8
+	QUAD $0x1a127c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r10 + 26], 9
+	QUAD $0x1a027c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r8 + 26], 10
+	QUAD $0x0b1a1a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 26], 11
+	QUAD $0x1a3a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r15 + 26], 12
+	QUAD $0x0d1a0a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 26], 13
+	QUAD $0x0e1a027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 26], 14
+	LONG $0xeb0f4566; BYTE $0xea               // por    xmm13, xmm10
+	LONG $0x6f0f4566; BYTE $0xe6               // movdqa    xmm12, xmm14
+	LONG $0x6f0f4166; BYTE $0xe6               // movdqa    xmm4, xmm14
+	LONG $0x640f4166; BYTE $0xe0               // pcmpgtb    xmm4, xmm8
+	LONG $0x6f0f4166; BYTE $0xc6               // movdqa    xmm0, xmm14
+	LONG $0x640f4166; BYTE $0xc1               // pcmpgtb    xmm0, xmm9
+	QUAD $0x0000f0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 240[rbp] /* [rip + .LCPI8_15] */
+	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
+	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
+	LONG $0x6f0f4466; WORD $0x607d             // movdqa    xmm15, oword 96[rbp] /* [rip + .LCPI8_6] */
+	LONG $0xdb0f4166; BYTE $0xc7               // pand    xmm0, xmm15
+	LONG $0xc4eb0f66                           // por    xmm0, xmm4
+	QUAD $0x1a0a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r9 + 26], 15
+	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
+	LONG $0x6f0f4166; BYTE $0xe4               // movdqa    xmm4, xmm12
+	LONG $0x640f4166; BYTE $0xe3               // pcmpgtb    xmm4, xmm11
+	LONG $0x6f0f4466; BYTE $0xc4               // movdqa    xmm8, xmm4
+	QUAD $0x0000a09d6f0f4466; BYTE $0x00       // movdqa    xmm11, oword 160[rbp] /* [rip + .LCPI8_10] */
+	LONG $0xdb0f4566; BYTE $0xc3               // pand    xmm8, xmm11
+	LONG $0xf80f4466; BYTE $0xc4               // psubb    xmm8, xmm4
+	LONG $0x6f0f4166; BYTE $0xe4               // movdqa    xmm4, xmm12
+	LONG $0xe7640f66                           // pcmpgtb    xmm4, xmm7
+	QUAD $0x1b2a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r13 + 27], 3
+	QUAD $0x1b226c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r12 + 27], 4
+	QUAD $0x051b3a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 27], 5
+	QUAD $0x1b1a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r11 + 27], 6
+	QUAD $0x1b326c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r14 + 27], 7
+	QUAD $0x081b326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 27], 8
+	QUAD $0x1b126c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r10 + 27], 9
+	QUAD $0x1b026c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r8 + 27], 10
+	QUAD $0x0b1b1a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 27], 11
+	QUAD $0x1b3a6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r15 + 27], 12
+	QUAD $0x0d1b0a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 27], 13
+	QUAD $0x0e1b026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 27], 14
+	QUAD $0x1b0a6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r9 + 27], 15
+	QUAD $0x1c2a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r13 + 28], 3
+	QUAD $0x1c2274203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r12 + 28], 4
+	QUAD $0x051c3a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 28], 5
+	QUAD $0x1c1a74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r11 + 28], 6
+	QUAD $0x1c3274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r14 + 28], 7
+	QUAD $0x081c3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 28], 8
+	QUAD $0x1c1274203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r10 + 28], 9
+	QUAD $0x1c0274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r8 + 28], 10
+	QUAD $0x0b1c1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 28], 11
+	QUAD $0x1c3a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r15 + 28], 12
+	QUAD $0x0d1c0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 28], 13
+	QUAD $0x0000d024bc6f0f66; BYTE $0x00       // movdqa    xmm7, oword [rsp + 208]
+	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
+	QUAD $0x0e1c0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 28], 14
+	QUAD $0x000000b0a5db0f66                   // pand    xmm4, oword 176[rbp] /* [rip + .LCPI8_11] */
+	LONG $0xe7eb0f66                           // por    xmm4, xmm7
+	QUAD $0x1c0a74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r9 + 28], 15
+	LONG $0xeb0f4166; BYTE $0xe0               // por    xmm4, xmm8
+	LONG $0x6f0f4166; BYTE $0xfc               // movdqa    xmm7, xmm12
+	LONG $0xfd640f66                           // pcmpgtb    xmm7, xmm5
+	LONG $0x6f0f4166; BYTE $0xec               // movdqa    xmm5, xmm12
+	LONG $0xee640f66                           // pcmpgtb    xmm5, xmm6
+	QUAD $0x1d2a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r13 + 29], 3
+	QUAD $0x1d225c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r12 + 29], 4
+	QUAD $0x051d3a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 29], 5
+	QUAD $0x1d1a5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r11 + 29], 6
+	QUAD $0x1d325c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r14 + 29], 7
+	QUAD $0x081d325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 29], 8
+	QUAD $0x1d125c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r10 + 29], 9
+	QUAD $0x1d025c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r8 + 29], 10
+	QUAD $0x0b1d1a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 29], 11
+	QUAD $0x1d3a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r15 + 29], 12
+	QUAD $0x0d1d0a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 29], 13
+	QUAD $0x0e1d025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 29], 14
+	QUAD $0x1d0a5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r9 + 29], 15
+	QUAD $0x000000c0bddb0f66                   // pand    xmm7, oword 192[rbp] /* [rip + .LCPI8_12] */
+	QUAD $0x000000d0addb0f66                   // pand    xmm5, oword 208[rbp] /* [rip + .LCPI8_13] */
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	LONG $0x6f0f4166; BYTE $0xf4               // movdqa    xmm6, xmm12
+	LONG $0xf3640f66                           // pcmpgtb    xmm6, xmm3
+	QUAD $0x000000e0b5db0f66                   // pand    xmm6, oword 224[rbp] /* [rip + .LCPI8_14] */
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	QUAD $0x1e2a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r13 + 30], 3
+	QUAD $0x1f2a4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r13 + 31], 3
+	QUAD $0x1e2254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r12 + 30], 4
+	QUAD $0x1f224c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r12 + 31], 4
+	QUAD $0x051e3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 30], 5
+	QUAD $0x051f3a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 31], 5
+	QUAD $0x1e1a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r11 + 30], 6
+	QUAD $0x1f1a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r11 + 31], 6
+	QUAD $0x1e3254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 30], 7
+	QUAD $0x1f324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 31], 7
+	QUAD $0x081e3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 30], 8
+	QUAD $0x081f324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 31], 8
+	QUAD $0x1e1254203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r10 + 30], 9
+	QUAD $0x1f124c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r10 + 31], 9
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x1e0254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r8 + 30], 10
+	QUAD $0x1f024c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r8 + 31], 10
+	QUAD $0x0b1e1a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 30], 11
+	QUAD $0x0b1f1a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 31], 11
+	QUAD $0x1e3a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r15 + 30], 12
+	QUAD $0x1f3a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r15 + 31], 12
+	QUAD $0x0d1e0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 30], 13
+	QUAD $0x0d1f0a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 31], 13
+	QUAD $0x0e1e0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 30], 14
+	QUAD $0x0e1f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 14
+	QUAD $0x1e0a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r9 + 30], 15
+	QUAD $0x1f0a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r9 + 31], 15
+	LONG $0xf4eb0f66                           // por    xmm6, xmm4
+	LONG $0x6f0f4166; BYTE $0xdc               // movdqa    xmm3, xmm12
+	LONG $0xda640f66                           // pcmpgtb    xmm3, xmm2
+	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
+	LONG $0x640f4466; BYTE $0xe1               // pcmpgtb    xmm12, xmm1
+	LONG $0x710f4166; WORD $0x07f4             // psllw    xmm12, 7
+	LONG $0xdb0f4566; BYTE $0xe7               // pand    xmm12, xmm15
+	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
+	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0x600f4166; BYTE $0xcc               // punpcklbw    xmm1, xmm12
+	QUAD $0x0000c024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 192]
+	LONG $0xdd6f0f66                           // movdqa    xmm3, xmm5
+	QUAD $0x00011024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 272]
+	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
+	LONG $0xe36f0f66                           // movdqa    xmm4, xmm3
+	LONG $0xe1610f66                           // punpcklwd    xmm4, xmm1
+	LONG $0xd9690f66                           // punpckhwd    xmm3, xmm1
+	LONG $0x680f4166; BYTE $0xc4               // punpckhbw    xmm0, xmm12
+	LONG $0xee680f66                           // punpckhbw    xmm5, xmm6
+	LONG $0xcd6f0f66                           // movdqa    xmm1, xmm5
+	LONG $0xc8610f66                           // punpcklwd    xmm1, xmm0
+	LONG $0xe8690f66                           // punpckhwd    xmm5, xmm0
+	LONG $0x244c8b48; BYTE $0x78               // mov    rcx, qword [rsp + 120]
+	LONG $0x7f0f41f3; WORD $0x8e6c; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm5
+	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x8e5c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm3
+	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
+	JNE  LBB8_192
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	QUAD $0x000000e824bc3b4c                   // cmp    r15, qword [rsp + 232]
+	LONG $0x241c8a44                           // mov    r11b, byte [rsp]
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	JNE  LBB8_42
+	JMP  LBB8_128
+
+LBB8_194:
+	LONG $0xf0e78349                     // and    r15, -16
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	QUAD $0x0000010824848948             // mov    qword [rsp + 264], rax
+	QUAD $0x000000e824bc894c             // mov    qword [rsp + 232], r15
+	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
+	LONG $0x24448948; BYTE $0x30         // mov    qword [rsp + 48], rax
+	LONG $0xc3b60f41                     // movzx    eax, r11b
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x000120248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 288], xmm1
+	WORD $0xc031                         // xor    eax, eax
+	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
+
+LBB8_195:
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	QUAD $0x000000f024848948                   // mov    qword [rsp + 240], rax
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0x05e1c148                           // shl    rcx, 5
+	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
+	WORD $0x8948; BYTE $0xcb                   // mov    rbx, rcx
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	WORD $0x8949; BYTE $0xcb                   // mov    r11, rcx
+	WORD $0x8949; BYTE $0xca                   // mov    r10, rcx
+	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	LONG $0x244c8948; BYTE $0x40               // mov    qword [rsp + 64], rcx
+	WORD $0x8949; BYTE $0xcc                   // mov    r12, rcx
+	WORD $0x8949; BYTE $0xcf                   // mov    r15, rcx
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
+	LONG $0x0a0cb60f                           // movzx    ecx, byte [rdx + rcx]
+	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
+	LONG $0x324cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rsi + 1]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	LONG $0x324cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rsi + 2]
+	LONG $0xf96e0f66                           // movd    xmm7, ecx
+	LONG $0x324cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rsi + 3]
+	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
+	LONG $0x324cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rsi + 4]
+	LONG $0xd96e0f66                           // movd    xmm3, ecx
+	LONG $0x324cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rsi + 5]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	LONG $0x324cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rsi + 6]
+	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
+	LONG $0x324cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rsi + 7]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
+	LONG $0x324cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rsi + 8]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
+	LONG $0x324cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rsi + 9]
+	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
+	LONG $0x324cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rsi + 10]
+	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
+	LONG $0x324cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rsi + 11]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00009024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm0
+	LONG $0x324cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rsi + 12]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00013024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm0
+	LONG $0x324cb60f; BYTE $0x0d               // movzx    ecx, byte [rdx + rsi + 13]
+	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
+	LONG $0x324cb60f; BYTE $0x0e               // movzx    ecx, byte [rdx + rsi + 14]
+	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
+	LONG $0x24748948; BYTE $0x38               // mov    qword [rsp + 56], rsi
+	WORD $0x8949; BYTE $0xf5                   // mov    r13, rsi
+	LONG $0x20cd8349                           // or    r13, 32
+	LONG $0x246c894c; BYTE $0x08               // mov    qword [rsp + 8], r13
+	LONG $0x40ce8349                           // or    r14, 64
+	LONG $0x2474894c; BYTE $0x20               // mov    qword [rsp + 32], r14
+	LONG $0x60cb8348                           // or    rbx, 96
+	LONG $0x245c8948; BYTE $0x58               // mov    qword [rsp + 88], rbx
+	LONG $0x00800d48; WORD $0x0000             // or    rax, 128
+	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
+	LONG $0xa0cb8148; WORD $0x0000; BYTE $0x00 // or    rbx, 160
+	WORD $0x894d; BYTE $0xd3                   // mov    r11, r10
+	LONG $0xc0cb8149; WORD $0x0000; BYTE $0x00 // or    r11, 192
+	LONG $0x245c894c; BYTE $0x60               // mov    qword [rsp + 96], r11
+	LONG $0xe0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 224
+	LONG $0x00c98149; WORD $0x0001; BYTE $0x00 // or    r9, 256
+	LONG $0x244c894c; BYTE $0x50               // mov    qword [rsp + 80], r9
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	LONG $0x20c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 288
+	LONG $0x40cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 320
+	LONG $0x60cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 352
+	LONG $0x247c894c; BYTE $0x28               // mov    qword [rsp + 40], r15
+	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
+	LONG $0x80ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 384
+	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
+	LONG $0xa0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 416
+	LONG $0x247c8948; BYTE $0x68               // mov    qword [rsp + 104], rdi
+	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
+	LONG $0xc0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 448
+	LONG $0x247c8948; BYTE $0x10               // mov    qword [rsp + 16], rdi
+	WORD $0x8948; BYTE $0xf7                   // mov    rdi, rsi
+	LONG $0xe0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 480
+	LONG $0x247c8948; BYTE $0x18               // mov    qword [rsp + 24], rdi
+	QUAD $0x012a6c203a0f4266; BYTE $0x01       // pinsrb    xmm5, byte [rdx + r13 + 1], 1
+	QUAD $0x01326c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rdx + r14 + 1], 2
+	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
+	QUAD $0x012a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r13 + 1], 3
+	QUAD $0x0401026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 1], 4
+	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
+	QUAD $0x05011a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 1], 5
+	QUAD $0x011a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r11 + 1], 6
+	QUAD $0x01026c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r8 + 1], 7
+	QUAD $0x010a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r9 + 1], 8
+	QUAD $0x09010a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 1], 9
+	QUAD $0x01226c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r12 + 1], 10
+	QUAD $0x013a6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r15 + 1], 11
+	QUAD $0x01126c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r10 + 1], 12
+	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x011a6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r11 + 1], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e01026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 1], 14
+	QUAD $0x0f013a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 1], 15
+	QUAD $0x012024946f0f4466; WORD $0x0000     // movdqa    xmm10, oword [rsp + 288]
+	LONG $0xda0f4166; BYTE $0xea               // pminub    xmm5, xmm10
+	LONG $0x740f4166; BYTE $0xea               // pcmpeqb    xmm5, xmm10
+	LONG $0xf56f0f66                           // movdqa    xmm6, xmm5
+	QUAD $0x000000a08d6f0f66                   // movdqa    xmm1, oword 160[rbp] /* [rip + .LCPI8_10] */
+	LONG $0xf1df0f66                           // pandn    xmm6, xmm1
+	LONG $0xf5fc0f66                           // paddb    xmm6, xmm5
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	LONG $0x3274b60f; BYTE $0x0f               // movzx    esi, byte [rdx + rsi + 15]
+	LONG $0xc66e0f66                           // movd    xmm0, esi
+	QUAD $0x0000b024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm0
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x01020c203a0f4466                   // pinsrb    xmm9, byte [rdx + rax], 1
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x02120c203a0f4666                   // pinsrb    xmm9, byte [rdx + r10], 2
+	QUAD $0x032a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r13], 3
+	WORD $0x894c; BYTE $0xf6                   // mov    rsi, r14
+	QUAD $0x04320c203a0f4666                   // pinsrb    xmm9, byte [rdx + r14], 4
+	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
+	QUAD $0x051a0c203a0f4466                   // pinsrb    xmm9, byte [rdx + rbx], 5
+	LONG $0x245c8b48; BYTE $0x60               // mov    rbx, qword [rsp + 96]
+	QUAD $0x061a0c203a0f4466                   // pinsrb    xmm9, byte [rdx + rbx], 6
+	QUAD $0x07020c203a0f4666                   // pinsrb    xmm9, byte [rdx + r8], 7
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x083a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r15], 8
+	LONG $0x244c8948; BYTE $0x40               // mov    qword [rsp + 64], rcx
+	QUAD $0x090a0c203a0f4466                   // pinsrb    xmm9, byte [rdx + rcx], 9
+	LONG $0x2464894c; BYTE $0x48               // mov    qword [rsp + 72], r12
+	QUAD $0x0a220c203a0f4666                   // pinsrb    xmm9, byte [rdx + r12], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b3a0c203a0f4466                   // pinsrb    xmm9, byte [rdx + rdi], 11
+	QUAD $0x0c0a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r9], 12
+	QUAD $0x0d1a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r11], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e020c203a0f4466                   // pinsrb    xmm9, byte [rdx + rax], 14
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x0f2a0c203a0f4666                   // pinsrb    xmm9, byte [rdx + r13], 15
+	LONG $0xda0f4566; BYTE $0xca               // pminub    xmm9, xmm10
+	LONG $0x740f4566; BYTE $0xca               // pcmpeqb    xmm9, xmm10
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0102027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 2], 1
+	QUAD $0x02127c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rdx + r10 + 2], 2
+	LONG $0x246c8b4c; BYTE $0x58               // mov    r13, qword [rsp + 88]
+	QUAD $0x022a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r13 + 2], 3
+	QUAD $0x0402327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 2], 4
+	QUAD $0x02327c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r14 + 2], 5
+	QUAD $0x06021a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 2], 6
+	QUAD $0x02027c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r8 + 2], 7
+	QUAD $0x023a7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r15 + 2], 8
+	QUAD $0x09020a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 2], 9
+	QUAD $0x02227c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rdx + r12 + 2], 10
+	QUAD $0x0b023a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 2], 11
+	QUAD $0x020a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r9 + 2], 12
+	QUAD $0x021a7c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rdx + r11 + 2], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e02027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 2], 14
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0f02027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 2], 15
+	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x01030244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 3], 1
+	QUAD $0x031244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r10 + 3], 2
+	QUAD $0x032a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r13 + 3], 3
+	QUAD $0x04033244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 3], 4
+	QUAD $0x033244203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r14 + 3], 5
+	QUAD $0x06031a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 3], 6
+	QUAD $0x030244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r8 + 3], 7
+	QUAD $0x033a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r15 + 3], 8
+	QUAD $0x09030a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 3], 9
+	QUAD $0x032244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r12 + 3], 10
+	QUAD $0x0b033a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 3], 11
+	QUAD $0x030a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r9 + 3], 12
+	QUAD $0x031a44203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rdx + r11 + 3], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e030244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 3], 14
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0f030244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 3], 15
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0104025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 4], 1
+	QUAD $0x04125c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r10 + 4], 2
+	QUAD $0x042a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r13 + 4], 3
+	QUAD $0x0404325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 4], 4
+	QUAD $0x04325c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r14 + 4], 5
+	QUAD $0x06041a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 4], 6
+	QUAD $0x04025c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r8 + 4], 7
+	QUAD $0x043a5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r15 + 4], 8
+	QUAD $0x09040a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 4], 9
+	QUAD $0x04225c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r12 + 4], 10
+	QUAD $0x0b043a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 4], 11
+	QUAD $0x040a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r9 + 4], 12
+	QUAD $0x041a5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r11 + 4], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e04025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 4], 14
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0f04025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 4], 15
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x01050254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 5], 1
+	QUAD $0x051254203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r10 + 5], 2
+	QUAD $0x052a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r13 + 5], 3
+	QUAD $0x04053254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 5], 4
+	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
+	QUAD $0x000000c024b48948                   // mov    qword [rsp + 192], rsi
+	QUAD $0x053254203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r14 + 5], 5
+	QUAD $0x06051a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 5], 6
+	QUAD $0x050254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r8 + 5], 7
+	QUAD $0x053a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r15 + 5], 8
+	QUAD $0x09050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 9
+	QUAD $0x052254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r12 + 5], 10
+	QUAD $0x0b053a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 5], 11
+	QUAD $0x050a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 5], 12
+	QUAD $0x051a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r11 + 5], 13
+	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
+	LONG $0xdf0f4466; BYTE $0xc9               // pandn    xmm9, xmm1
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e050254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 5], 14
+	LONG $0xda0f4166; BYTE $0xfa               // pminub    xmm7, xmm10
+	LONG $0x740f4166; BYTE $0xfa               // pcmpeqb    xmm7, xmm10
+	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI8_11] */
+	LONG $0xf9df0f66                           // pandn    xmm7, xmm1
+	LONG $0xeb0f4166; BYTE $0xf9               // por    xmm7, xmm9
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	LONG $0x74b60f42; WORD $0x1022             // movzx    esi, byte [rdx + r12 + 16]
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x0f050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 15
+	LONG $0xda0f4166; BYTE $0xc2               // pminub    xmm0, xmm10
+	LONG $0x740f4166; BYTE $0xc2               // pcmpeqb    xmm0, xmm10
+	QUAD $0x000000c08d6f0f66                   // movdqa    xmm1, oword 192[rbp] /* [rip + .LCPI8_12] */
+	LONG $0xc1df0f66                           // pandn    xmm0, xmm1
+	LONG $0xc7eb0f66                           // por    xmm0, xmm7
+	LONG $0x74b60f42; WORD $0x1122             // movzx    esi, byte [rdx + r12 + 17]
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0xff760f66                           // pcmpeqd    xmm7, xmm7
+	LONG $0xf7f80f66                           // psubb    xmm6, xmm7
+	LONG $0x760f4566; BYTE $0xc9               // pcmpeqd    xmm9, xmm9
+	LONG $0xc6eb0f66                           // por    xmm0, xmm6
+	LONG $0x74b60f42; WORD $0x1222             // movzx    esi, byte [rdx + r12 + 18]
+	LONG $0xfe6e0f66                           // movd    xmm7, esi
+	LONG $0xda0f4166; BYTE $0xda               // pminub    xmm3, xmm10
+	LONG $0x740f4166; BYTE $0xda               // pcmpeqb    xmm3, xmm10
+	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI8_13] */
+	LONG $0xdedf0f66                           // pandn    xmm3, xmm6
+	LONG $0xda0f4166; BYTE $0xd2               // pminub    xmm2, xmm10
+	LONG $0x740f4166; BYTE $0xd2               // pcmpeqb    xmm2, xmm10
+	QUAD $0x000000e0b56f0f66                   // movdqa    xmm6, oword 224[rbp] /* [rip + .LCPI8_14] */
+	LONG $0xd6df0f66                           // pandn    xmm2, xmm6
+	LONG $0xd3eb0f66                           // por    xmm2, xmm3
+	LONG $0x74b60f42; WORD $0x1322             // movzx    esi, byte [rdx + r12 + 19]
+	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x060a44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rdx + rcx + 6], 1
+	LONG $0x245c8b4c; BYTE $0x20               // mov    r11, qword [rsp + 32]
+	QUAD $0x061a44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rdx + r11 + 6], 2
+	QUAD $0x062a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r13 + 6], 3
+	QUAD $0x061244203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r10 + 6], 4
+	LONG $0x2474894c; BYTE $0x78               // mov    qword [rsp + 120], r14
+	QUAD $0x063244203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rdx + r14 + 6], 5
+	QUAD $0x061a44203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rdx + rbx + 6], 6
+	QUAD $0x000000d02484894c                   // mov    qword [rsp + 208], r8
+	QUAD $0x060244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r8 + 6], 7
+	QUAD $0x063a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r15 + 6], 8
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+	QUAD $0x063a44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rdx + r15 + 6], 9
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x060244203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rax + 6], 10
+	LONG $0x24548b4c; BYTE $0x28               // mov    r10, qword [rsp + 40]
+	QUAD $0x061244203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r10 + 6], 11
+	QUAD $0x060a44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r9 + 6], 12
+	QUAD $0x063a44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rdi + 6], 13
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x061a44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rbx + 6], 14
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x060244203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + rax + 6], 15
+	LONG $0xda0f4566; BYTE $0xc2               // pminub    xmm8, xmm10
+	LONG $0x740f4566; BYTE $0xc2               // pcmpeqb    xmm8, xmm10
+	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI8_15] */
+	LONG $0xdf0f4466; BYTE $0xc3               // pandn    xmm8, xmm3
+	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
+	LONG $0x74b60f42; WORD $0x1422             // movzx    esi, byte [rdx + r12 + 20]
+	LONG $0xe66e0f66                           // movd    xmm4, esi
+	QUAD $0x0000a024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 160]
+	QUAD $0x01070a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 7], 1
+	QUAD $0x071a74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rdx + r11 + 7], 2
+	QUAD $0x072a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r13 + 7], 3
+	QUAD $0x000000c0248c8b48                   // mov    rcx, qword [rsp + 192]
+	QUAD $0x04070a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 7], 4
+	QUAD $0x073274203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r14 + 7], 5
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x073274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r14 + 7], 6
+	QUAD $0x070274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r8 + 7], 7
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x072274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r12 + 7], 8
+	QUAD $0x073a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r15 + 7], 9
+	LONG $0x24448b4c; BYTE $0x48               // mov    r8, qword [rsp + 72]
+	QUAD $0x070274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r8 + 7], 10
+	QUAD $0x071274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r10 + 7], 11
+	QUAD $0x070a74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r9 + 7], 12
+	QUAD $0x0d073a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 7], 13
+	WORD $0x8949; BYTE $0xff                   // mov    r15, rdi
+	QUAD $0x0e071a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 7], 14
+	QUAD $0x0f070274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 7], 15
+	LONG $0xda0f4166; BYTE $0xf2               // pminub    xmm6, xmm10
+	LONG $0x740f4166; BYTE $0xf2               // pcmpeqb    xmm6, xmm10
+	LONG $0xef0f4166; BYTE $0xf1               // pxor    xmm6, xmm9
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xf6710f66; BYTE $0x07               // psllw    xmm6, 7
+	LONG $0x556f0f66; BYTE $0x60               // movdqa    xmm2, oword 96[rbp] /* [rip + .LCPI8_6] */
+	LONG $0xf2db0f66                           // pand    xmm6, xmm2
+	LONG $0xeb0f4166; BYTE $0xf0               // por    xmm6, xmm8
+	LONG $0x6f0f4466; BYTE $0xc6               // movdqa    xmm8, xmm6
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
+	LONG $0xf66e0f66                           // movd    xmm6, esi
+	QUAD $0x00011024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 272]
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x01080a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 8], 1
+	WORD $0x894c; BYTE $0xd8                   // mov    rax, r11
+	QUAD $0x081a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r11 + 8], 2
+	WORD $0x894c; BYTE $0xef                   // mov    rdi, r13
+	QUAD $0x082a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r13 + 8], 3
+	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
+	QUAD $0x081254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r10 + 8], 4
+	LONG $0x245c8b4c; BYTE $0x78               // mov    r11, qword [rsp + 120]
+	QUAD $0x081a54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r11 + 8], 5
+	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
+	QUAD $0x083254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r14 + 8], 6
+	QUAD $0x000000d024b48b48                   // mov    rsi, qword [rsp + 208]
+	QUAD $0x07083254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 8], 7
+	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
+	QUAD $0x082254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r12 + 8], 8
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x09081a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 8], 9
+	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
+	QUAD $0x080254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r8 + 8], 10
+	LONG $0x245c8b48; BYTE $0x28               // mov    rbx, qword [rsp + 40]
+	QUAD $0x0b081a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 8], 11
+	LONG $0x244c894c; BYTE $0x70               // mov    qword [rsp + 112], r9
+	QUAD $0x080a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 8], 12
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	QUAD $0x083a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r15 + 8], 13
+	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
+	QUAD $0x083a54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r15 + 8], 14
+	QUAD $0x090a5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rcx + 9], 1
+	QUAD $0x09025c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rax + 9], 2
+	QUAD $0x093a5c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rdx + rdi + 9], 3
+	QUAD $0x09125c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r10 + 9], 4
+	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
+	QUAD $0x091a5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r11 + 9], 5
+	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
+	QUAD $0x092a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r13 + 9], 6
+	WORD $0x894d; BYTE $0xea                   // mov    r10, r13
+	QUAD $0x09325c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rsi + 9], 7
+	QUAD $0x09325c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r14 + 9], 8
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x09025c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rax + 9], 9
+	QUAD $0x09225c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r12 + 9], 10
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x091a5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r11 + 9], 11
+	QUAD $0x090a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r9 + 9], 12
+	QUAD $0x09025c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r8 + 9], 13
+	WORD $0x894d; BYTE $0xc5                   // mov    r13, r8
+	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
+	QUAD $0x09025c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r8 + 9], 14
+	LONG $0x247c8b4c; BYTE $0x18               // mov    r15, qword [rsp + 24]
+	QUAD $0x093a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r15 + 9], 15
+	LONG $0xeb0f4466; BYTE $0xc0               // por    xmm8, xmm0
+	QUAD $0x00a024847f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm8
+	LONG $0xda0f4566; BYTE $0xda               // pminub    xmm11, xmm10
+	LONG $0x740f4566; BYTE $0xda               // pcmpeqb    xmm11, xmm10
+	LONG $0x6f0f4166; BYTE $0xc3               // movdqa    xmm0, xmm11
+	QUAD $0x0000a0856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 160[rbp] /* [rip + .LCPI8_10] */
+	LONG $0xdf0f4166; BYTE $0xc0               // pandn    xmm0, xmm8
+	LONG $0xfc0f4166; BYTE $0xc3               // paddb    xmm0, xmm11
+	LONG $0x244c8b4c; BYTE $0x38               // mov    r9, qword [rsp + 56]
+	LONG $0x74b60f42; WORD $0x160a             // movzx    esi, byte [rdx + r9 + 22]
+	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
+	QUAD $0x083a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r15 + 8], 15
+	LONG $0xda0f4166; BYTE $0xd2               // pminub    xmm2, xmm10
+	LONG $0x740f4166; BYTE $0xd2               // pcmpeqb    xmm2, xmm10
+	LONG $0xdf0f4166; BYTE $0xd0               // pandn    xmm2, xmm8
+	QUAD $0x0a0a64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rcx + 10], 1
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x0a0a64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rcx + 10], 2
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0a0a64203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rdx + rcx + 10], 3
+	QUAD $0x0a1a64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rbx + 10], 4
+	QUAD $0x0a3a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rdi + 10], 5
+	QUAD $0x0a1264203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r10 + 10], 6
+	QUAD $0x000000d0249c8b48                   // mov    rbx, qword [rsp + 208]
+	QUAD $0x0a1a64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rbx + 10], 7
+	QUAD $0x0a3264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r14 + 10], 8
+	QUAD $0x0a0264203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rax + 10], 9
+	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
+	QUAD $0x0a2264203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r12 + 10], 10
+	QUAD $0x0a1a64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r11 + 10], 11
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0a0264203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + rax + 10], 12
+	QUAD $0x0a2a64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r13 + 10], 13
+	QUAD $0x0a0264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r8 + 10], 14
+	QUAD $0x0a3a64203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r15 + 10], 15
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	LONG $0xda0f4566; BYTE $0xe2               // pminub    xmm12, xmm10
+	LONG $0x740f4566; BYTE $0xe2               // pcmpeqb    xmm12, xmm10
+	QUAD $0x0000b0a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 176[rbp] /* [rip + .LCPI8_11] */
+	LONG $0xeb0f4466; BYTE $0xe2               // por    xmm12, xmm2
+	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
+	LONG $0x74b60f42; WORD $0x170a             // movzx    esi, byte [rdx + r9 + 23]
+	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
+	QUAD $0x00009024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 144]
+	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
+	QUAD $0x0b0254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r8 + 11], 1
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x0b3a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r15 + 11], 2
+	QUAD $0x030b0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 11], 3
+	QUAD $0x000000c0249c8b4c                   // mov    r11, qword [rsp + 192]
+	QUAD $0x0b1a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r11 + 11], 4
+	QUAD $0x050b3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 11], 5
+	QUAD $0x0b1254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r10 + 11], 6
+	QUAD $0x070b1a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 11], 7
+	LONG $0x24748b48; BYTE $0x50               // mov    rsi, qword [rsp + 80]
+	QUAD $0x080b3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 11], 8
+	QUAD $0x0b3254203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r14 + 11], 9
+	LONG $0x24748b4c; BYTE $0x48               // mov    r14, qword [rsp + 72]
+	QUAD $0x0b3254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r14 + 11], 10
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x0b0b3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 11], 11
+	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
+	QUAD $0x0b0a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 11], 12
+	QUAD $0x0b2a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r13 + 11], 13
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0e0b3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 11], 14
+	QUAD $0x0b2254203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r12 + 11], 15
+	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
+	LONG $0xda0f4166; BYTE $0xd2               // pminub    xmm2, xmm10
+	LONG $0x740f4166; BYTE $0xd2               // pcmpeqb    xmm2, xmm10
+	QUAD $0x000000c095df0f66                   // pandn    xmm2, oword 192[rbp] /* [rip + .LCPI8_12] */
+	LONG $0xeb0f4166; BYTE $0xd4               // por    xmm2, xmm12
+	LONG $0x0274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rax + 24]
+	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
+	LONG $0xc3f80f66                           // psubb    xmm0, xmm3
+	LONG $0xd0eb0f66                           // por    xmm2, xmm0
+	QUAD $0x00009024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm2
+	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
+	LONG $0xde6e0f66                           // movd    xmm3, esi
+	QUAD $0x00013024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 304]
+	QUAD $0x0c0254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r8 + 12], 1
+	QUAD $0x0c3a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r15 + 12], 2
+	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
+	QUAD $0x0c0254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r8 + 12], 3
+	WORD $0x894d; BYTE $0xda                   // mov    r10, r11
+	QUAD $0x0c1a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r11 + 12], 4
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x050c3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 12], 5
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x0c3a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r15 + 12], 6
+	QUAD $0x070c1a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 12], 7
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x0c1a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r11 + 12], 8
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x090c0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 12], 9
+	QUAD $0x0c3254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r14 + 12], 10
+	QUAD $0x0b0c3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 12], 11
+	QUAD $0x0c0a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 12], 12
+	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
+	QUAD $0x0c2254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 12], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e0c0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 12], 14
+	QUAD $0x0c2a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r13 + 12], 15
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0d0274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rax + 13], 1
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0d2a74203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r13 + 13], 2
+	QUAD $0x0d0274203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r8 + 13], 3
+	QUAD $0x0d1274203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rdx + r10 + 13], 4
+	QUAD $0x0d3274203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rdx + rsi + 13], 5
+	QUAD $0x0d3a74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r15 + 13], 6
+	QUAD $0x0d1a74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rdx + rbx + 13], 7
+	QUAD $0x0d1a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r11 + 13], 8
+	QUAD $0x0d0a74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rcx + 13], 9
+	QUAD $0x0d3274203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + r14 + 13], 10
+	QUAD $0x0d3a74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + rdi + 13], 11
+	QUAD $0x0d0a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r9 + 13], 12
+	QUAD $0x0d2274203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + r12 + 13], 13
+	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
+	QUAD $0x0d2a74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r13 + 13], 14
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0d0274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rax + 13], 15
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0e026c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rax + 14], 1
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0e026c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rax + 14], 2
+	QUAD $0x0e026c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r8 + 14], 3
+	QUAD $0x0e126c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r10 + 14], 4
+	QUAD $0x0e326c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rsi + 14], 5
+	QUAD $0x0e3a6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r15 + 14], 6
+	QUAD $0x0e1a6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rdx + rbx + 14], 7
+	QUAD $0x0e1a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r11 + 14], 8
+	QUAD $0x0e0a6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rcx + 14], 9
+	QUAD $0x0e326c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + r14 + 14], 10
+	QUAD $0x0e3a6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rdi + 14], 11
+	QUAD $0x0e0a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r9 + 14], 12
+	QUAD $0x0e226c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r12 + 14], 13
+	QUAD $0x0e2a6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r13 + 14], 14
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0e026c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rax + 14], 15
+	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x010f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 1
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x0f2a44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r13 + 15], 2
+	QUAD $0x0f0244203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r8 + 15], 3
+	QUAD $0x0f1244203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r10 + 15], 4
+	QUAD $0x050f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 15], 5
+	QUAD $0x0f3a44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r15 + 15], 6
+	QUAD $0x070f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 15], 7
+	QUAD $0x0f1a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r11 + 15], 8
+	QUAD $0x090f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 15], 9
+	QUAD $0x0f3244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r14 + 15], 10
+	QUAD $0x0b0f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 15], 11
+	QUAD $0x0f0a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r9 + 15], 12
+	QUAD $0x0f2244203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rdx + r12 + 15], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e0f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 14
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0f0f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 15
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0111024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 17], 1
+	QUAD $0x112a4c203a0f4266; BYTE $0x02       // pinsrb    xmm1, byte [rdx + r13 + 17], 2
+	QUAD $0x11024c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r8 + 17], 3
+	QUAD $0x11124c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r10 + 17], 4
+	QUAD $0x0511324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 17], 5
+	QUAD $0x113a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r15 + 17], 6
+	QUAD $0x07111a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 17], 7
+	QUAD $0x111a4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r11 + 17], 8
+	QUAD $0x09110a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 17], 9
+	QUAD $0x11324c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r14 + 17], 10
+	QUAD $0x0b113a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 17], 11
+	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
+	QUAD $0x110a4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r9 + 17], 12
+	QUAD $0x11224c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r12 + 17], 13
+	LONG $0xda0f4166; BYTE $0xd2               // pminub    xmm2, xmm10
+	LONG $0x740f4166; BYTE $0xd2               // pcmpeqb    xmm2, xmm10
+	QUAD $0x000000d095df0f66                   // pandn    xmm2, oword 208[rbp] /* [rip + .LCPI8_13] */
+	LONG $0xda0f4566; BYTE $0xf2               // pminub    xmm14, xmm10
+	LONG $0x740f4566; BYTE $0xf2               // pcmpeqb    xmm14, xmm10
+	QUAD $0x0000e0b5df0f4466; BYTE $0x00       // pandn    xmm14, oword 224[rbp] /* [rip + .LCPI8_14] */
+	LONG $0xeb0f4466; BYTE $0xf2               // por    xmm14, xmm2
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	LONG $0x3a74b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rdi + 26]
+	LONG $0xd66e0f66                           // movd    xmm2, esi
+	LONG $0x244c8b4c; BYTE $0x10               // mov    r9, qword [rsp + 16]
+	QUAD $0x110a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r9 + 17], 14
+	LONG $0xda0f4566; BYTE $0xea               // pminub    xmm13, xmm10
+	LONG $0x740f4566; BYTE $0xea               // pcmpeqb    xmm13, xmm10
+	QUAD $0x0000f0addf0f4466; BYTE $0x00       // pandn    xmm13, oword 240[rbp] /* [rip + .LCPI8_15] */
+	LONG $0xeb0f4566; BYTE $0xee               // por    xmm13, xmm14
+	LONG $0x3a74b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rdi + 27]
+	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
+	LONG $0xda0f4166; BYTE $0xc2               // pminub    xmm0, xmm10
+	LONG $0x740f4166; BYTE $0xc2               // pcmpeqb    xmm0, xmm10
+	QUAD $0x0000010085ef0f66                   // pxor    xmm0, oword 256[rbp] /* [rip + .LCPI8_16] */
+	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
+	LONG $0x45db0f66; BYTE $0x60               // pand    xmm0, oword 96[rbp] /* [rip + .LCPI8_6] */
+	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
+	LONG $0x3a74b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rdi + 28]
+	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x112a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r13 + 17], 15
+	QUAD $0x0000902484eb0f66; BYTE $0x00       // por    xmm0, oword [rsp + 144]
+	QUAD $0x0000b024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm0
+	LONG $0xda0f4166; BYTE $0xca               // pminub    xmm1, xmm10
+	LONG $0x740f4166; BYTE $0xca               // pcmpeqb    xmm1, xmm10
+	LONG $0x6f0f4166; BYTE $0xc2               // movdqa    xmm0, xmm10
+	LONG $0x6f0f4466; BYTE $0xf1               // movdqa    xmm14, xmm1
+	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI8_10] */
+	LONG $0xdf0f4566; BYTE $0xf2               // pandn    xmm14, xmm10
+	LONG $0xfc0f4466; BYTE $0xf1               // paddb    xmm14, xmm1
+	QUAD $0x009024b47f0f4466; WORD $0x0000     // movdqa    oword [rsp + 144], xmm14
+	LONG $0x3a74b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rdi + 29]
+	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0110026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 16], 1
+	QUAD $0x0112027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 1
+	QUAD $0x13027c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rax + 19], 1
+	QUAD $0x01140264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 20], 1
+	QUAD $0x01150274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 21], 1
+	QUAD $0x16024c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rax + 22], 1
+	QUAD $0x170244203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rdx + rax + 23], 1
+	QUAD $0x18025c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rax + 24], 1
+	QUAD $0x0119025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 25], 1
+	QUAD $0x011a0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 26], 1
+	QUAD $0x1b0264203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rax + 27], 1
+	QUAD $0x1c026c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rax + 28], 1
+	QUAD $0x1d0254203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rax + 29], 1
+	LONG $0x3a74b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rdi + 30]
+	LONG $0x6e0f4466; BYTE $0xf6               // movd    xmm14, esi
+	QUAD $0x1e0274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rax + 30], 1
+	LONG $0x3a74b60f; BYTE $0x1f               // movzx    esi, byte [rdx + rdi + 31]
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	QUAD $0x011f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 1
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0210026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 16], 2
+	QUAD $0x0212027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 2
+	QUAD $0x13027c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rdx + rax + 19], 2
+	QUAD $0x02140264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 20], 2
+	QUAD $0x02150274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 21], 2
+	QUAD $0x16024c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rax + 22], 2
+	QUAD $0x170244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rax + 23], 2
+	QUAD $0x18025c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rax + 24], 2
+	QUAD $0x0219025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 25], 2
+	QUAD $0x021a0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 26], 2
+	QUAD $0x1b0264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rax + 27], 2
+	QUAD $0x1c026c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rax + 28], 2
+	QUAD $0x1d0254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rax + 29], 2
+	QUAD $0x1e0274203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rdx + rax + 30], 2
+	QUAD $0x021f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 2
+	QUAD $0x10026c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r8 + 16], 3
+	QUAD $0x10126c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r10 + 16], 4
+	LONG $0x24748b48; BYTE $0x78               // mov    rsi, qword [rsp + 120]
+	QUAD $0x0510326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 16], 5
+	QUAD $0x103a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r15 + 16], 6
+	QUAD $0x07101a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 16], 7
+	QUAD $0x101a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r11 + 16], 8
+	QUAD $0x09100a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 16], 9
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x0a10026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 16], 10
+	QUAD $0x10326c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r14 + 16], 11
+	LONG $0x24648b4c; BYTE $0x70               // mov    r12, qword [rsp + 112]
+	QUAD $0x10226c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r12 + 16], 12
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x0d103a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 16], 13
+	QUAD $0x100a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r9 + 16], 14
+	QUAD $0x102a6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r13 + 16], 15
+	LONG $0xe8da0f66                           // pminub    xmm5, xmm0
+	LONG $0xe8740f66                           // pcmpeqb    xmm5, xmm0
+	QUAD $0x12027c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r8 + 18], 3
+	QUAD $0x12127c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r10 + 18], 4
+	QUAD $0x0512327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 18], 5
+	QUAD $0x123a7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r15 + 18], 6
+	QUAD $0x07121a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 18], 7
+	QUAD $0x121a7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r11 + 18], 8
+	QUAD $0x09120a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 18], 9
+	QUAD $0x0a12027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 10
+	QUAD $0x12327c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r14 + 18], 11
+	QUAD $0x12227c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r12 + 18], 12
+	QUAD $0x0d123a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 18], 13
+	QUAD $0x120a7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r9 + 18], 14
+	QUAD $0x122a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r13 + 18], 15
+	QUAD $0x13027c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r8 + 19], 3
+	QUAD $0x13127c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r10 + 19], 4
+	QUAD $0x13327c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rsi + 19], 5
+	QUAD $0x133a7c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r15 + 19], 6
+	QUAD $0x131a7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rdx + rbx + 19], 7
+	QUAD $0x131a7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r11 + 19], 8
+	QUAD $0x130a7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rdx + rcx + 19], 9
+	QUAD $0x13027c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + rax + 19], 10
+	QUAD $0x13327c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r14 + 19], 11
+	QUAD $0x13227c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r12 + 19], 12
+	QUAD $0x133a7c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rdi + 19], 13
+	QUAD $0x130a7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + r9 + 19], 14
+	QUAD $0x132a7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r13 + 19], 15
+	QUAD $0x140264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r8 + 20], 3
+	QUAD $0x141264203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r10 + 20], 4
+	QUAD $0x05143264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 20], 5
+	QUAD $0x143a64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r15 + 20], 6
+	QUAD $0x07141a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 20], 7
+	QUAD $0x141a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r11 + 20], 8
+	QUAD $0x09140a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 20], 9
+	QUAD $0x0a140264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 20], 10
+	QUAD $0x143264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r14 + 20], 11
+	QUAD $0x142264203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r12 + 20], 12
+	QUAD $0x0d143a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 20], 13
+	QUAD $0x140a64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r9 + 20], 14
+	QUAD $0x142a64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r13 + 20], 15
+	QUAD $0x150274203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r8 + 21], 3
+	QUAD $0x151274203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r10 + 21], 4
+	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
+	QUAD $0x05153274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 21], 5
+	QUAD $0x153a74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r15 + 21], 6
+	QUAD $0x07151a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 21], 7
+	QUAD $0x151a74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r11 + 21], 8
+	QUAD $0x09150a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 21], 9
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x151274203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r10 + 21], 10
+	QUAD $0x153274203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r14 + 21], 11
+	QUAD $0x152274203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r12 + 21], 12
+	QUAD $0x0d153a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 21], 13
+	QUAD $0x150a74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r9 + 21], 14
+	QUAD $0x000000a0addf0f66                   // pandn    xmm5, oword 160[rbp] /* [rip + .LCPI8_10] */
+	LONG $0xf8da0f66                           // pminub    xmm7, xmm0
+	LONG $0xf8740f66                           // pcmpeqb    xmm7, xmm0
+	QUAD $0x000000b0bddf0f66                   // pandn    xmm7, oword 176[rbp] /* [rip + .LCPI8_11] */
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	LONG $0xda0f4466; BYTE $0xf8               // pminub    xmm15, xmm0
+	LONG $0x740f4466; BYTE $0xf8               // pcmpeqb    xmm15, xmm0
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI8_12] */
+	LONG $0xdf0f4466; BYTE $0xfd               // pandn    xmm15, xmm5
+	LONG $0xeb0f4466; BYTE $0xff               // por    xmm15, xmm7
+	QUAD $0x152a74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rdx + r13 + 21], 15
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	QUAD $0x00009024bc6f0f66; BYTE $0x00       // movdqa    xmm7, oword [rsp + 144]
+	LONG $0xfdf80f66                           // psubb    xmm7, xmm5
+	LONG $0xeb0f4466; BYTE $0xff               // por    xmm15, xmm7
+	LONG $0xe0da0f66                           // pminub    xmm4, xmm0
+	LONG $0xe0740f66                           // pcmpeqb    xmm4, xmm0
+	QUAD $0x000000d0bd6f0f66                   // movdqa    xmm7, oword 208[rbp] /* [rip + .LCPI8_13] */
+	LONG $0xe7df0f66                           // pandn    xmm4, xmm7
+	LONG $0xf0da0f66                           // pminub    xmm6, xmm0
+	LONG $0xf0740f66                           // pcmpeqb    xmm6, xmm0
+	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI8_14] */
+	LONG $0xf7df0f66                           // pandn    xmm6, xmm7
+	LONG $0xf4eb0f66                           // por    xmm6, xmm4
+	QUAD $0x16024c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r8 + 22], 3
+	QUAD $0x16024c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rdx + rax + 22], 4
+	QUAD $0x16324c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rsi + 22], 5
+	QUAD $0x163a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r15 + 22], 6
+	QUAD $0x161a4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rdx + rbx + 22], 7
+	QUAD $0x161a4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r11 + 22], 8
+	QUAD $0x160a4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rdx + rcx + 22], 9
+	QUAD $0x16124c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r10 + 22], 10
+	QUAD $0x16324c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r14 + 22], 11
+	QUAD $0x16224c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r12 + 22], 12
+	QUAD $0x163a4c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rdi + 22], 13
+	QUAD $0x160a4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r9 + 22], 14
+	QUAD $0x162a4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r13 + 22], 15
+	LONG $0xda0f4466; BYTE $0xc8               // pminub    xmm9, xmm0
+	LONG $0x740f4466; BYTE $0xc8               // pcmpeqb    xmm9, xmm0
+	QUAD $0x000000f0bd6f0f66                   // movdqa    xmm7, oword 240[rbp] /* [rip + .LCPI8_15] */
+	LONG $0xdf0f4466; BYTE $0xcf               // pandn    xmm9, xmm7
+	LONG $0xeb0f4466; BYTE $0xce               // por    xmm9, xmm6
+	QUAD $0x170244203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r8 + 23], 3
+	QUAD $0x170244203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rdx + rax + 23], 4
+	QUAD $0x173244203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rsi + 23], 5
+	QUAD $0x173a44203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r15 + 23], 6
+	QUAD $0x171a44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rdx + rbx + 23], 7
+	QUAD $0x171a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r11 + 23], 8
+	QUAD $0x170a44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rcx + 23], 9
+	QUAD $0x171244203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + r10 + 23], 10
+	QUAD $0x173244203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r14 + 23], 11
+	QUAD $0x172244203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + r12 + 23], 12
+	QUAD $0x173a44203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + rdi + 23], 13
+	QUAD $0x170a44203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + r9 + 23], 14
+	QUAD $0x172a44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r13 + 23], 15
+	LONG $0xda0f4466; BYTE $0xc0               // pminub    xmm8, xmm0
+	LONG $0x740f4466; BYTE $0xc0               // pcmpeqb    xmm8, xmm0
+	LONG $0xef0f4466; BYTE $0xc5               // pxor    xmm8, xmm5
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0x710f4166; WORD $0x07f0             // psllw    xmm8, 7
+	LONG $0x756f0f66; BYTE $0x60               // movdqa    xmm6, oword 96[rbp] /* [rip + .LCPI8_6] */
+	LONG $0xdb0f4466; BYTE $0xc6               // pand    xmm8, xmm6
+	LONG $0xeb0f4566; BYTE $0xc1               // por    xmm8, xmm9
+	QUAD $0x18025c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r8 + 24], 3
+	QUAD $0x18025c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rax + 24], 4
+	QUAD $0x18325c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rsi + 24], 5
+	QUAD $0x183a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r15 + 24], 6
+	QUAD $0x181a5c203a0f4466; BYTE $0x07       // pinsrb    xmm11, byte [rdx + rbx + 24], 7
+	QUAD $0x181a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r11 + 24], 8
+	QUAD $0x180a5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rcx + 24], 9
+	QUAD $0x18125c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r10 + 24], 10
+	QUAD $0x18325c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r14 + 24], 11
+	QUAD $0x18225c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r12 + 24], 12
+	QUAD $0x183a5c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rdi + 24], 13
+	QUAD $0x180a5c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r9 + 24], 14
+	QUAD $0x19025c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r8 + 25], 3
+	QUAD $0x0419025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 25], 4
+	QUAD $0x0519325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 25], 5
+	QUAD $0x193a5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r15 + 25], 6
+	QUAD $0x07191a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 25], 7
+	QUAD $0x191a5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r11 + 25], 8
+	QUAD $0x09190a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 25], 9
+	QUAD $0x19125c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r10 + 25], 10
+	QUAD $0x19325c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r14 + 25], 11
+	QUAD $0x19225c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r12 + 25], 12
+	QUAD $0x0d193a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 25], 13
+	QUAD $0x190a5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r9 + 25], 14
+	QUAD $0x192a5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r13 + 25], 15
+	LONG $0xeb0f4566; BYTE $0xc7               // por    xmm8, xmm15
+	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
+	LONG $0xd8da0f66                           // pminub    xmm3, xmm0
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	QUAD $0x0000a08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 160[rbp] /* [rip + .LCPI8_10] */
+	LONG $0xdf0f4166; BYTE $0xc1               // pandn    xmm0, xmm9
+	LONG $0xc3fc0f66                           // paddb    xmm0, xmm3
+	QUAD $0x182a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r13 + 24], 15
+	LONG $0xda0f4466; BYTE $0xdc               // pminub    xmm11, xmm4
+	LONG $0x740f4466; BYTE $0xdc               // pcmpeqb    xmm11, xmm4
+	LONG $0xdf0f4566; BYTE $0xd9               // pandn    xmm11, xmm9
+	QUAD $0x1a0254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r8 + 26], 3
+	QUAD $0x041a0254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 26], 4
+	QUAD $0x051a3254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 26], 5
+	QUAD $0x1a3a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r15 + 26], 6
+	QUAD $0x071a1a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 26], 7
+	QUAD $0x1a1a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r11 + 26], 8
+	QUAD $0x091a0a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 26], 9
+	QUAD $0x1a1254203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r10 + 26], 10
+	QUAD $0x1a3254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r14 + 26], 11
+	QUAD $0x1a2254203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r12 + 26], 12
+	QUAD $0x0d1a3a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 26], 13
+	QUAD $0x1a0a54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r9 + 26], 14
+	QUAD $0x1a2a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r13 + 26], 15
+	LONG $0xd4da0f66                           // pminub    xmm2, xmm4
+	LONG $0xd4740f66                           // pcmpeqb    xmm2, xmm4
+	QUAD $0x000000b095df0f66                   // pandn    xmm2, oword 176[rbp] /* [rip + .LCPI8_11] */
+	LONG $0xeb0f4166; BYTE $0xd3               // por    xmm2, xmm11
+	QUAD $0x1b0264203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r8 + 27], 3
+	QUAD $0x1b0264203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rax + 27], 4
+	QUAD $0x1b3264203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rsi + 27], 5
+	QUAD $0x1b3a64203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r15 + 27], 6
+	QUAD $0x1b1a64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rdx + rbx + 27], 7
+	QUAD $0x1b1a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r11 + 27], 8
+	QUAD $0x1b0a64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rcx + 27], 9
+	QUAD $0x1b1264203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + r10 + 27], 10
+	QUAD $0x1b3264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r14 + 27], 11
+	QUAD $0x1b2264203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r12 + 27], 12
+	QUAD $0x1b3a64203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rdi + 27], 13
+	QUAD $0x1b0a64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r9 + 27], 14
+	QUAD $0x1b2a64203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r13 + 27], 15
+	LONG $0xda0f4466; BYTE $0xe4               // pminub    xmm12, xmm4
+	LONG $0x740f4466; BYTE $0xe4               // pcmpeqb    xmm12, xmm4
+	LONG $0xdc6f0f66                           // movdqa    xmm3, xmm4
+	QUAD $0x0000c0a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 192[rbp] /* [rip + .LCPI8_12] */
+	LONG $0xeb0f4466; BYTE $0xe2               // por    xmm12, xmm2
+	LONG $0xc5f80f66                           // psubb    xmm0, xmm5
+	LONG $0xeb0f4466; BYTE $0xe0               // por    xmm12, xmm0
+	QUAD $0x1c026c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r8 + 28], 3
+	QUAD $0x1d0254203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r8 + 29], 3
+	QUAD $0x1e0274203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r8 + 30], 3
+	QUAD $0x1f024c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r8 + 31], 3
+	QUAD $0x1c026c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rax + 28], 4
+	QUAD $0x1d0254203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rdx + rax + 29], 4
+	QUAD $0x1e0274203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rdx + rax + 30], 4
+	QUAD $0x041f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 4
+	QUAD $0x1c326c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rsi + 28], 5
+	QUAD $0x1d3254203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rsi + 29], 5
+	QUAD $0x1e3274203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rdx + rsi + 30], 5
+	QUAD $0x051f324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 31], 5
+	QUAD $0x1c3a6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r15 + 28], 6
+	QUAD $0x1d3a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r15 + 29], 6
+	QUAD $0x1e3a74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r15 + 30], 6
+	QUAD $0x1f3a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r15 + 31], 6
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x1c1a6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rdx + rbx + 28], 7
+	QUAD $0x1d1a54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rbx + 29], 7
+	QUAD $0x1e1a74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rdx + rbx + 30], 7
+	QUAD $0x071f1a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 31], 7
+	QUAD $0x1c1a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r11 + 28], 8
+	QUAD $0x1d1a54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r11 + 29], 8
+	QUAD $0x1e1a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r11 + 30], 8
+	QUAD $0x1f1a4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r11 + 31], 8
+	QUAD $0x1c0a6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rcx + 28], 9
+	QUAD $0x1d0a54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rcx + 29], 9
+	QUAD $0x1e0a74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rcx + 30], 9
+	QUAD $0x091f0a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 31], 9
+	WORD $0x894c; BYTE $0xd0                   // mov    rax, r10
+	QUAD $0x1c126c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + r10 + 28], 10
+	QUAD $0x1d1254203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + r10 + 29], 10
+	QUAD $0x1e1274203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + r10 + 30], 10
+	QUAD $0x1f124c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rdx + r10 + 31], 10
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x1c026c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rax + 28], 11
+	QUAD $0x1d0254203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rax + 29], 11
+	QUAD $0x1e0274203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + rax + 30], 11
+	QUAD $0x0b1f024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 31], 11
+	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
+	QUAD $0x1c226c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r12 + 28], 12
+	QUAD $0x1d2254203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r12 + 29], 12
+	QUAD $0x1e2274203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r12 + 30], 12
+	QUAD $0x1f224c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r12 + 31], 12
+	QUAD $0x1c3a6c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + rdi + 28], 13
+	QUAD $0x1d3a54203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rdi + 29], 13
+	QUAD $0x1e3a74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rdi + 30], 13
+	QUAD $0x0d1f3a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 31], 13
+	QUAD $0x1c0a6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r9 + 28], 14
+	QUAD $0x1d0a54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r9 + 29], 14
+	QUAD $0x1e0a74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r9 + 30], 14
+	QUAD $0x1f0a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r9 + 31], 14
+	WORD $0x894c; BYTE $0xe8                   // mov    rax, r13
+	QUAD $0x1c2a6c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + r13 + 28], 15
+	QUAD $0x1d2a54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r13 + 29], 15
+	QUAD $0x1e2a74203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + r13 + 30], 15
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xda0f4466; BYTE $0xec               // pminub    xmm13, xmm4
+	LONG $0x740f4466; BYTE $0xec               // pcmpeqb    xmm13, xmm4
+	QUAD $0x0000d0addf0f4466; BYTE $0x00       // pandn    xmm13, oword 208[rbp] /* [rip + .LCPI8_13] */
+	LONG $0xda0f4466; BYTE $0xd4               // pminub    xmm10, xmm4
+	LONG $0x740f4466; BYTE $0xd4               // pcmpeqb    xmm10, xmm4
+	QUAD $0x0000e095df0f4466; BYTE $0x00       // pandn    xmm10, oword 224[rbp] /* [rip + .LCPI8_14] */
+	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
+	QUAD $0x1f2a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r13 + 31], 15
+	LONG $0xda0f4466; BYTE $0xf4               // pminub    xmm14, xmm4
+	LONG $0x740f4466; BYTE $0xf4               // pcmpeqb    xmm14, xmm4
+	LONG $0xdf0f4466; BYTE $0xf7               // pandn    xmm14, xmm7
+	LONG $0xeb0f4566; BYTE $0xf2               // por    xmm14, xmm10
+	LONG $0xccda0f66                           // pminub    xmm1, xmm4
+	LONG $0xcc740f66                           // pcmpeqb    xmm1, xmm4
+	LONG $0xcdef0f66                           // pxor    xmm1, xmm5
+	LONG $0xf1710f66; BYTE $0x07               // psllw    xmm1, 7
+	LONG $0xcedb0f66                           // pand    xmm1, xmm6
+	LONG $0xeb0f4166; BYTE $0xce               // por    xmm1, xmm14
+	LONG $0xeb0f4166; BYTE $0xcc               // por    xmm1, xmm12
+	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
+	LONG $0xc1600f66                           // punpcklbw    xmm0, xmm1
+	QUAD $0x0000a024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 160]
+	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
+	QUAD $0x0000b024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 176]
+	LONG $0xd5600f66                           // punpcklbw    xmm2, xmm5
+	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
+	LONG $0xd8610f66                           // punpcklwd    xmm3, xmm0
+	LONG $0xd0690f66                           // punpckhwd    xmm2, xmm0
+	LONG $0x680f4466; BYTE $0xc1               // punpckhbw    xmm8, xmm1
+	LONG $0xe5680f66                           // punpckhbw    xmm4, xmm5
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
+	LONG $0x690f4166; BYTE $0xe0               // punpckhwd    xmm4, xmm8
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
+	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x8e54; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm2
+	LONG $0x7f0f41f3; WORD $0x8e1c             // movdqu    oword [r14 + 4*rcx], xmm3
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000e8248c3b48                   // cmp    rcx, qword [rsp + 232]
+	JNE  LBB8_195
+	QUAD $0x0000010024bc8b4c                   // mov    r15, qword [rsp + 256]
+	QUAD $0x000000e824bc3b4c                   // cmp    r15, qword [rsp + 232]
+	LONG $0x241c8a44                           // mov    r11b, byte [rsp]
+	QUAD $0x0000010824b48b48                   // mov    rsi, qword [rsp + 264]
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	JNE  LBB8_67
+	JMP  LBB8_132
+
+LBB8_197:
+	LONG $0xf8e78349                     // and    r15, -8
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x06e0c148                     // shl    rax, 6
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	LONG $0x24448948; BYTE $0x28         // mov    qword [rsp + 40], rax
+	LONG $0x247c894c; BYTE $0x20         // mov    qword [rsp + 32], r15
+	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
+	LONG $0x24048948                     // mov    qword [rsp], rax
+	LONG $0x246c8944; BYTE $0x30         // mov    dword [rsp + 48], r13d
+	LONG $0x6e0f4166; BYTE $0xc5         // movd    xmm0, r13d
+	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
+	LONG $0x700f4466; WORD $0x00f8       // pshufd    xmm15, xmm0, 0
+	WORD $0x3145; BYTE $0xc9             // xor    r9d, r9d
+	QUAD $0x0000008024b4894c             // mov    qword [rsp + 128], r14
+	QUAD $0x000080856f0f4466; BYTE $0x00 // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI8_8] */
+
+LBB8_198:
+	LONG $0x244c894c; BYTE $0x10               // mov    qword [rsp + 16], r9
+	LONG $0x06e1c149                           // shl    r9, 6
+	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
+	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
+	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
+	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
+	LONG $0x04b70f42; BYTE $0x0a               // movzx    eax, word [rdx + r9]
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x44b70f42; WORD $0x020a             // movzx    eax, word [rdx + r9 + 2]
+	LONG $0xd86e0f66                           // movd    xmm3, eax
+	LONG $0x44b70f42; WORD $0x040a             // movzx    eax, word [rdx + r9 + 4]
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x44b70f42; WORD $0x060a             // movzx    eax, word [rdx + r9 + 6]
+	LONG $0xe06e0f66                           // movd    xmm4, eax
+	LONG $0x54b70f46; WORD $0x080a             // movzx    r10d, word [rdx + r9 + 8]
+	LONG $0x74b70f42; WORD $0x0a0a             // movzx    esi, word [rdx + r9 + 10]
+	LONG $0x5cb70f46; WORD $0x0c0a             // movzx    r11d, word [rdx + r9 + 12]
+	LONG $0x44b70f42; WORD $0x0e0a             // movzx    eax, word [rdx + r9 + 14]
+	LONG $0x08244489                           // mov    dword [rsp + 8], eax
+	LONG $0x44b70f42; WORD $0x100a             // movzx    eax, word [rdx + r9 + 16]
+	LONG $0xf06e0f66                           // movd    xmm6, eax
+	LONG $0x44b70f42; WORD $0x200a             // movzx    eax, word [rdx + r9 + 32]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x44b70f42; WORD $0x300a             // movzx    eax, word [rdx + r9 + 48]
+	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
+	LONG $0x40cf8349                           // or    r15, 64
+	LONG $0x80c88149; WORD $0x0000; BYTE $0x00 // or    r8, 128
+	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
+	LONG $0x00cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 256
+	LONG $0x40c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 320
+	LONG $0x80cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 384
+	LONG $0xc40f4266; WORD $0x3a2c; BYTE $0x01 // pinsrw    xmm5, word [rdx + r15], 1
+	LONG $0xc40f4266; WORD $0x022c; BYTE $0x02 // pinsrw    xmm5, word [rdx + r8], 2
+	LONG $0xc40f4266; WORD $0x222c; BYTE $0x03 // pinsrw    xmm5, word [rdx + r12], 3
+	LONG $0xc40f4266; WORD $0x2a2c; BYTE $0x04 // pinsrw    xmm5, word [rdx + r13], 4
+	LONG $0x2cc40f66; WORD $0x050a             // pinsrw    xmm5, word [rdx + rcx], 5
+	LONG $0x2cc40f66; WORD $0x063a             // pinsrw    xmm5, word [rdx + rdi], 6
+	LONG $0xc0cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 448
+	LONG $0x2cc40f66; WORD $0x071a             // pinsrw    xmm5, word [rdx + rbx], 7
+	LONG $0x6e0f4466; BYTE $0xc8               // movd    xmm9, eax
+	LONG $0x44b70f42; WORD $0x120a             // movzx    eax, word [rdx + r9 + 18]
+	LONG $0x18244489                           // mov    dword [rsp + 24], eax
+	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
+	LONG $0xc5650f66                           // pcmpgtw    xmm0, xmm5
+	QUAD $0x01023a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 2], 1
+	QUAD $0x0202025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 2], 2
+	QUAD $0x0302225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 2], 3
+	QUAD $0x04022a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 2], 4
+	LONG $0x5cc40f66; WORD $0x020a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 2], 5
+	LONG $0x5cc40f66; WORD $0x023a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 2], 6
+	LONG $0x5cc40f66; WORD $0x021a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 2], 7
+	QUAD $0x01103a74c40f4266                   // pinsrw    xmm6, word [rdx + r15 + 16], 1
+	QUAD $0x02100274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 16], 2
+	QUAD $0x03102274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 16], 3
+	QUAD $0x04102a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 16], 4
+	LONG $0x74c40f66; WORD $0x100a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 16], 5
+	LONG $0x74c40f66; WORD $0x103a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 16], 6
+	LONG $0x74c40f66; WORD $0x101a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 16], 7
+	LONG $0x6f0f4566; BYTE $0xd7               // movdqa    xmm10, xmm15
+	QUAD $0x01203a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 32], 1
+	QUAD $0x0220024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 32], 2
+	QUAD $0x0320224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 32], 3
+	QUAD $0x04202a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 32], 4
+	LONG $0x4cc40f66; WORD $0x200a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 32], 5
+	LONG $0x4cc40f66; WORD $0x203a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 32], 6
+	LONG $0x4cc40f66; WORD $0x201a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 32], 7
+	LONG $0x650f4466; BYTE $0xd6               // pcmpgtw    xmm10, xmm6
+	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
+	LONG $0xf1650f66                           // pcmpgtw    xmm6, xmm1
+	QUAD $0x01303a4cc40f4666                   // pinsrw    xmm9, word [rdx + r15 + 48], 1
+	QUAD $0x0230024cc40f4666                   // pinsrw    xmm9, word [rdx + r8 + 48], 2
+	QUAD $0x0330224cc40f4666                   // pinsrw    xmm9, word [rdx + r12 + 48], 3
+	QUAD $0x04302a4cc40f4666                   // pinsrw    xmm9, word [rdx + r13 + 48], 4
+	QUAD $0x05300a4cc40f4466                   // pinsrw    xmm9, word [rdx + rcx + 48], 5
+	QUAD $0x06303a4cc40f4466                   // pinsrw    xmm9, word [rdx + rdi + 48], 6
+	QUAD $0x07301a4cc40f4466                   // pinsrw    xmm9, word [rdx + rbx + 48], 7
+	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
+	LONG $0x650f4166; BYTE $0xe9               // pcmpgtw    xmm5, xmm9
+	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
+	LONG $0xcb650f66                           // pcmpgtw    xmm1, xmm3
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xd96f0f66                           // movdqa    xmm3, xmm1
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0x6e0f4166; BYTE $0xca               // movd    xmm1, r10d
+	LONG $0x74b70f46; WORD $0x140a             // movzx    r14d, word [rdx + r9 + 20]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	QUAD $0x01043a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 4], 1
+	QUAD $0x02040254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 4], 2
+	QUAD $0x03042254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 4], 3
+	QUAD $0x04042a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 4], 4
+	LONG $0x54c40f66; WORD $0x040a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 4], 5
+	LONG $0x54c40f66; WORD $0x043a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 4], 6
+	LONG $0x54c40f66; WORD $0x041a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 4], 7
+	QUAD $0x01063a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 6], 1
+	QUAD $0x02060264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 6], 2
+	QUAD $0x03062264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 6], 3
+	QUAD $0x04062a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 6], 4
+	LONG $0x64c40f66; WORD $0x060a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 6], 5
+	LONG $0x64c40f66; WORD $0x063a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 6], 6
+	LONG $0x64c40f66; WORD $0x061a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 6], 7
+	QUAD $0x01083a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 8], 1
+	QUAD $0x0208024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 8], 2
+	QUAD $0x0308224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 8], 3
+	QUAD $0x04082a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 8], 4
+	LONG $0x4cc40f66; WORD $0x080a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 8], 5
+	LONG $0x4cc40f66; WORD $0x083a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 8], 6
+	LONG $0xdb0f4166; BYTE $0xc0               // pand    xmm0, xmm8
+	LONG $0xd8eb0f66                           // por    xmm3, xmm0
+	LONG $0x6f0f4166; BYTE $0xff               // movdqa    xmm7, xmm15
+	LONG $0xfa650f66                           // pcmpgtw    xmm7, xmm2
+	LONG $0xd66e0f66                           // movd    xmm2, esi
+	LONG $0x74b70f42; WORD $0x160a             // movzx    esi, word [rdx + r9 + 22]
+	LONG $0x4cc40f66; WORD $0x081a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 8], 7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xf8               // pand    xmm7, xmm8
+	LONG $0xf7710f66; BYTE $0x02               // psllw    xmm7, 2
+	LONG $0x6f0f4466; WORD $0x105d             // movdqa    xmm11, oword 16[rbp] /* [rip + .LCPI8_1] */
+	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
+	LONG $0xfbeb0f66                           // por    xmm7, xmm3
+	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
+	LONG $0xdc650f66                           // pcmpgtw    xmm3, xmm4
+	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
+	LONG $0xc1650f66                           // pcmpgtw    xmm0, xmm1
+	LONG $0x6e0f4166; BYTE $0xcb               // movd    xmm1, r11d
+	LONG $0x5cb70f46; WORD $0x180a             // movzx    r11d, word [rdx + r9 + 24]
+	QUAD $0x010a3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 10], 1
+	QUAD $0x020a0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 10], 2
+	QUAD $0x030a2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 10], 3
+	QUAD $0x040a2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 10], 4
+	LONG $0x54c40f66; WORD $0x0a0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 10], 5
+	LONG $0x54c40f66; WORD $0x0a3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 10], 6
+	LONG $0x54c40f66; WORD $0x0a1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 10], 7
+	QUAD $0x010c3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 12], 1
+	QUAD $0x020c024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 12], 2
+	QUAD $0x030c224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 12], 3
+	QUAD $0x040c2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 12], 4
+	LONG $0x4cc40f66; WORD $0x0c0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 12], 5
+	LONG $0x4cc40f66; WORD $0x0c3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 12], 6
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xf3710f66; BYTE $0x03               // psllw    xmm3, 3
+	LONG $0x6f0f4466; WORD $0x2065             // movdqa    xmm12, oword 32[rbp] /* [rip + .LCPI8_2] */
+	LONG $0xdb0f4166; BYTE $0xdc               // pand    xmm3, xmm12
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc0               // pand    xmm0, xmm8
+	LONG $0xf0710f66; BYTE $0x04               // psllw    xmm0, 4
+	LONG $0x6f0f4466; WORD $0x306d             // movdqa    xmm13, oword 48[rbp] /* [rip + .LCPI8_3] */
+	LONG $0xdb0f4166; BYTE $0xc5               // pand    xmm0, xmm13
+	LONG $0xc3eb0f66                           // por    xmm0, xmm3
+	LONG $0x5c6e0f66; WORD $0x0824             // movd    xmm3, dword [rsp + 8]
+	LONG $0x44b70f42; WORD $0x1a0a             // movzx    eax, word [rdx + r9 + 26]
+	LONG $0x4cc40f66; WORD $0x0c1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 12], 7
+	LONG $0xc7eb0f66                           // por    xmm0, xmm7
+	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
+	LONG $0xe2650f66                           // pcmpgtw    xmm4, xmm2
+	LONG $0x6f0f4166; BYTE $0xff               // movdqa    xmm7, xmm15
+	LONG $0xf9650f66                           // pcmpgtw    xmm7, xmm1
+	LONG $0x4c6e0f66; WORD $0x1824             // movd    xmm1, dword [rsp + 24]
+	LONG $0x54b70f46; WORD $0x1c0a             // movzx    r10d, word [rdx + r9 + 28]
+	QUAD $0x010e3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 14], 1
+	QUAD $0x020e025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 14], 2
+	QUAD $0x030e225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 14], 3
+	QUAD $0x040e2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 14], 4
+	LONG $0x5cc40f66; WORD $0x0e0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 14], 5
+	LONG $0x5cc40f66; WORD $0x0e3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 14], 6
+	LONG $0x5cc40f66; WORD $0x0e1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 14], 7
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	LONG $0xf4710f66; BYTE $0x05               // psllw    xmm4, 5
+	LONG $0x6f0f4466; WORD $0x4075             // movdqa    xmm14, oword 64[rbp] /* [rip + .LCPI8_4] */
+	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xf8               // pand    xmm7, xmm8
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0x6f0f4466; WORD $0x505d             // movdqa    xmm11, oword 80[rbp] /* [rip + .LCPI8_5] */
+	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
+	LONG $0xfceb0f66                           // por    xmm7, xmm4
+	LONG $0x6f0f4566; BYTE $0xcf               // movdqa    xmm9, xmm15
+	LONG $0x650f4466; BYTE $0xcb               // pcmpgtw    xmm9, xmm3
+	LONG $0x6e0f4166; BYTE $0xde               // movd    xmm3, r14d
+	LONG $0x74b70f46; WORD $0x1e0a             // movzx    r14d, word [rdx + r9 + 30]
+	LONG $0x630f4566; BYTE $0xc9               // packsswb    xmm9, xmm9
+	LONG $0x710f4166; WORD $0x07f1             // psllw    xmm9, 7
+	LONG $0x556f0f66; BYTE $0x60               // movdqa    xmm2, oword 96[rbp] /* [rip + .LCPI8_6] */
+	LONG $0xdb0f4466; BYTE $0xca               // pand    xmm9, xmm2
+	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
+	LONG $0xe66e0f66                           // movd    xmm4, esi
+	LONG $0x74b70f42; WORD $0x220a             // movzx    esi, word [rdx + r9 + 34]
+	LONG $0x18247489                           // mov    dword [rsp + 24], esi
+	QUAD $0x01123a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 18], 1
+	QUAD $0x0212024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 18], 2
+	QUAD $0x0312224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 18], 3
+	QUAD $0x04122a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 18], 4
+	LONG $0x4cc40f66; WORD $0x120a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 18], 5
+	LONG $0x4cc40f66; WORD $0x123a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 18], 6
+	LONG $0x4cc40f66; WORD $0x121a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 18], 7
+	LONG $0xeb0f4466; BYTE $0xc8               // por    xmm9, xmm0
+	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
+	LONG $0xc1650f66                           // pcmpgtw    xmm0, xmm1
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
+	LONG $0x74b70f42; WORD $0x240a             // movzx    esi, word [rdx + r9 + 36]
+	LONG $0x08247489                           // mov    dword [rsp + 8], esi
+	LONG $0x630f4566; BYTE $0xd2               // packsswb    xmm10, xmm10
+	QUAD $0x01143a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 20], 1
+	QUAD $0x0214025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 20], 2
+	QUAD $0x0314225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 20], 3
+	QUAD $0x04142a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 20], 4
+	LONG $0x5cc40f66; WORD $0x140a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 20], 5
+	LONG $0x5cc40f66; WORD $0x143a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 20], 6
+	LONG $0x5cc40f66; WORD $0x141a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 20], 7
+	QUAD $0x01163a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 22], 1
+	QUAD $0x02160264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 22], 2
+	QUAD $0x03162264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 22], 3
+	QUAD $0x04162a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 22], 4
+	LONG $0x64c40f66; WORD $0x160a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 22], 5
+	LONG $0x64c40f66; WORD $0x163a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 22], 6
+	LONG $0x64c40f66; WORD $0x161a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 22], 7
+	QUAD $0x01183a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 24], 1
+	QUAD $0x0218027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 24], 2
+	QUAD $0x0318227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 24], 3
+	QUAD $0x04182a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 24], 4
+	LONG $0x7cc40f66; WORD $0x180a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 24], 5
+	LONG $0x7cc40f66; WORD $0x183a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 24], 6
+	LONG $0x7cc40f66; WORD $0x181a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 24], 7
+	LONG $0xdb0f4566; BYTE $0xd0               // pand    xmm10, xmm8
+	LONG $0xeb0f4166; BYTE $0xca               // por    xmm1, xmm10
+	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
+	LONG $0xd3650f66                           // pcmpgtw    xmm2, xmm3
+	LONG $0xd86e0f66                           // movd    xmm3, eax
+	LONG $0x5cb70f46; WORD $0x260a             // movzx    r11d, word [rdx + r9 + 38]
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
+	LONG $0xf2710f66; BYTE $0x02               // psllw    xmm2, 2
+	LONG $0x6f0f4466; WORD $0x106d             // movdqa    xmm13, oword 16[rbp] /* [rip + .LCPI8_1] */
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
+	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
+	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
+	LONG $0xc7650f66                           // pcmpgtw    xmm0, xmm7
+	LONG $0x6e0f4166; BYTE $0xe2               // movd    xmm4, r10d
+	LONG $0x54b70f46; WORD $0x280a             // movzx    r10d, word [rdx + r9 + 40]
+	QUAD $0x011a3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 26], 1
+	QUAD $0x021a025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 26], 2
+	QUAD $0x031a225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 26], 3
+	QUAD $0x041a2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 26], 4
+	LONG $0x5cc40f66; WORD $0x1a0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 26], 5
+	LONG $0x5cc40f66; WORD $0x1a3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 26], 6
+	LONG $0x5cc40f66; WORD $0x1a1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 26], 7
+	QUAD $0x011c3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 28], 1
+	QUAD $0x021c0264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 28], 2
+	QUAD $0x031c2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 28], 3
+	QUAD $0x041c2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 28], 4
+	LONG $0x64c40f66; WORD $0x1c0a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 28], 5
+	LONG $0x64c40f66; WORD $0x1c3a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 28], 6
+	LONG $0x64c40f66; WORD $0x1c1a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 28], 7
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
+	LONG $0xf1710f66; BYTE $0x03               // psllw    xmm1, 3
+	LONG $0x6f0f4566; BYTE $0xdc               // movdqa    xmm11, xmm12
+	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc0               // pand    xmm0, xmm8
+	LONG $0xf0710f66; BYTE $0x04               // psllw    xmm0, 4
+	LONG $0x6f0f4466; WORD $0x3065             // movdqa    xmm12, oword 48[rbp] /* [rip + .LCPI8_3] */
+	LONG $0xdb0f4166; BYTE $0xc4               // pand    xmm0, xmm12
+	LONG $0xc1eb0f66                           // por    xmm0, xmm1
+	LONG $0x6e0f4166; BYTE $0xce               // movd    xmm1, r14d
+	LONG $0x44b70f42; WORD $0x2a0a             // movzx    eax, word [rdx + r9 + 42]
+	LONG $0xc2eb0f66                           // por    xmm0, xmm2
+	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
+	LONG $0xd3650f66                           // pcmpgtw    xmm2, xmm3
+	LONG $0x6f0f4166; BYTE $0xff               // movdqa    xmm7, xmm15
+	LONG $0xfc650f66                           // pcmpgtw    xmm7, xmm4
+	LONG $0x646e0f66; WORD $0x1824             // movd    xmm4, dword [rsp + 24]
+	LONG $0x74b70f46; WORD $0x2c0a             // movzx    r14d, word [rdx + r9 + 44]
+	QUAD $0x011e3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 30], 1
+	QUAD $0x021e024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 30], 2
+	QUAD $0x031e224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 30], 3
+	QUAD $0x041e2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 30], 4
+	LONG $0x4cc40f66; WORD $0x1e0a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 30], 5
+	LONG $0x4cc40f66; WORD $0x1e3a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 30], 6
+	LONG $0x4cc40f66; WORD $0x1e1a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 30], 7
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
+	LONG $0xf2710f66; BYTE $0x05               // psllw    xmm2, 5
+	LONG $0xdb0f4166; BYTE $0xd6               // pand    xmm2, xmm14
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xf8               // pand    xmm7, xmm8
+	LONG $0xf7710f66; BYTE $0x06               // psllw    xmm7, 6
+	LONG $0x5d6f0f66; BYTE $0x50               // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI8_5] */
+	LONG $0xfbdb0f66                           // pand    xmm7, xmm3
+	LONG $0xfaeb0f66                           // por    xmm7, xmm2
+	LONG $0x6f0f4566; BYTE $0xd7               // movdqa    xmm10, xmm15
+	LONG $0x650f4466; BYTE $0xd1               // pcmpgtw    xmm10, xmm1
+	LONG $0x4c6e0f66; WORD $0x0824             // movd    xmm1, dword [rsp + 8]
+	LONG $0x74b70f42; WORD $0x2e0a             // movzx    esi, word [rdx + r9 + 46]
+	LONG $0x18247489                           // mov    dword [rsp + 24], esi
+	LONG $0x630f4566; BYTE $0xd2               // packsswb    xmm10, xmm10
+	LONG $0x710f4166; WORD $0x07f2             // psllw    xmm10, 7
+	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI8_6] */
+	LONG $0xdb0f4566; BYTE $0xd6               // pand    xmm10, xmm14
+	LONG $0xeb0f4466; BYTE $0xd7               // por    xmm10, xmm7
+	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
+	LONG $0x5cb70f46; WORD $0x320a             // movzx    r11d, word [rdx + r9 + 50]
+	QUAD $0x01223a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 34], 1
+	QUAD $0x02220264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 34], 2
+	QUAD $0x03222264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 34], 3
+	QUAD $0x04222a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 34], 4
+	LONG $0x64c40f66; WORD $0x220a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 34], 5
+	LONG $0x64c40f66; WORD $0x223a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 34], 6
+	LONG $0x64c40f66; WORD $0x221a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 34], 7
+	LONG $0xeb0f4466; BYTE $0xd0               // por    xmm10, xmm0
+	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
+	LONG $0xc4650f66                           // pcmpgtw    xmm0, xmm4
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xe06f0f66                           // movdqa    xmm4, xmm0
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	LONG $0xe0f80f66                           // psubb    xmm4, xmm0
+	LONG $0x6e0f4166; BYTE $0xc2               // movd    xmm0, r10d
+	LONG $0x74b70f42; WORD $0x340a             // movzx    esi, word [rdx + r9 + 52]
+	LONG $0x08247489                           // mov    dword [rsp + 8], esi
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	QUAD $0x01243a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 36], 1
+	QUAD $0x0224024cc40f4266                   // pinsrw    xmm1, word [rdx + r8 + 36], 2
+	QUAD $0x0324224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 36], 3
+	QUAD $0x04242a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 36], 4
+	LONG $0x4cc40f66; WORD $0x240a; BYTE $0x05 // pinsrw    xmm1, word [rdx + rcx + 36], 5
+	LONG $0x4cc40f66; WORD $0x243a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rdi + 36], 6
+	LONG $0x4cc40f66; WORD $0x241a; BYTE $0x07 // pinsrw    xmm1, word [rdx + rbx + 36], 7
+	QUAD $0x01263a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 38], 1
+	QUAD $0x02260254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 38], 2
+	QUAD $0x03262254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 38], 3
+	QUAD $0x04262a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 38], 4
+	LONG $0x54c40f66; WORD $0x260a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 38], 5
+	LONG $0x54c40f66; WORD $0x263a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 38], 6
+	LONG $0x54c40f66; WORD $0x261a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 38], 7
+	QUAD $0x01283a44c40f4266                   // pinsrw    xmm0, word [rdx + r15 + 40], 1
+	QUAD $0x02280244c40f4266                   // pinsrw    xmm0, word [rdx + r8 + 40], 2
+	QUAD $0x03282244c40f4266                   // pinsrw    xmm0, word [rdx + r12 + 40], 3
+	QUAD $0x04282a44c40f4266                   // pinsrw    xmm0, word [rdx + r13 + 40], 4
+	LONG $0x44c40f66; WORD $0x280a; BYTE $0x05 // pinsrw    xmm0, word [rdx + rcx + 40], 5
+	LONG $0x44c40f66; WORD $0x283a; BYTE $0x06 // pinsrw    xmm0, word [rdx + rdi + 40], 6
+	LONG $0xdb0f4166; BYTE $0xf0               // pand    xmm6, xmm8
+	LONG $0xe6eb0f66                           // por    xmm4, xmm6
+	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
+	LONG $0xf1650f66                           // pcmpgtw    xmm6, xmm1
+	LONG $0xf86e0f66                           // movd    xmm7, eax
+	LONG $0x54b70f46; WORD $0x360a             // movzx    r10d, word [rdx + r9 + 54]
+	LONG $0x44c40f66; WORD $0x281a; BYTE $0x07 // pinsrw    xmm0, word [rdx + rbx + 40], 7
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf0               // pand    xmm6, xmm8
+	LONG $0xf6710f66; BYTE $0x02               // psllw    xmm6, 2
+	LONG $0xdb0f4166; BYTE $0xf5               // pand    xmm6, xmm13
+	LONG $0xf4eb0f66                           // por    xmm6, xmm4
+	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
+	LONG $0xe2650f66                           // pcmpgtw    xmm4, xmm2
+	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
+	LONG $0xc8650f66                           // pcmpgtw    xmm1, xmm0
+	LONG $0x6e0f4166; BYTE $0xc6               // movd    xmm0, r14d
+	LONG $0x44b70f42; WORD $0x380a             // movzx    eax, word [rdx + r9 + 56]
+	QUAD $0x012a3a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 42], 1
+	QUAD $0x022a027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 42], 2
+	QUAD $0x032a227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 42], 3
+	QUAD $0x042a2a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 42], 4
+	LONG $0x7cc40f66; WORD $0x2a0a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 42], 5
+	LONG $0x7cc40f66; WORD $0x2a3a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 42], 6
+	LONG $0x7cc40f66; WORD $0x2a1a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 42], 7
+	QUAD $0x012c3a44c40f4266                   // pinsrw    xmm0, word [rdx + r15 + 44], 1
+	QUAD $0x022c0244c40f4266                   // pinsrw    xmm0, word [rdx + r8 + 44], 2
+	QUAD $0x032c2244c40f4266                   // pinsrw    xmm0, word [rdx + r12 + 44], 3
+	QUAD $0x042c2a44c40f4266                   // pinsrw    xmm0, word [rdx + r13 + 44], 4
+	LONG $0x44c40f66; WORD $0x2c0a; BYTE $0x05 // pinsrw    xmm0, word [rdx + rcx + 44], 5
+	LONG $0x44c40f66; WORD $0x2c3a; BYTE $0x06 // pinsrw    xmm0, word [rdx + rdi + 44], 6
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
+	LONG $0xdb0f4166; BYTE $0xe3               // pand    xmm4, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
+	LONG $0xf1710f66; BYTE $0x04               // psllw    xmm1, 4
+	LONG $0xdb0f4166; BYTE $0xcc               // pand    xmm1, xmm12
+	LONG $0x6f0f4566; BYTE $0xec               // movdqa    xmm13, xmm12
+	LONG $0xcceb0f66                           // por    xmm1, xmm4
+	LONG $0x546e0f66; WORD $0x1824             // movd    xmm2, dword [rsp + 24]
+	LONG $0x74b70f42; WORD $0x3a0a             // movzx    esi, word [rdx + r9 + 58]
+	LONG $0x44c40f66; WORD $0x2c1a; BYTE $0x07 // pinsrw    xmm0, word [rdx + rbx + 44], 7
+	LONG $0xceeb0f66                           // por    xmm1, xmm6
+	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
+	LONG $0xe7650f66                           // pcmpgtw    xmm4, xmm7
+	LONG $0x6f0f4166; BYTE $0xf7               // movdqa    xmm6, xmm15
+	LONG $0xf0650f66                           // pcmpgtw    xmm6, xmm0
+	LONG $0x6e0f4166; BYTE $0xfb               // movd    xmm7, r11d
+	LONG $0x5cb70f46; WORD $0x3c0a             // movzx    r11d, word [rdx + r9 + 60]
+	QUAD $0x012e3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 46], 1
+	QUAD $0x022e0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 46], 2
+	QUAD $0x032e2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 46], 3
+	QUAD $0x042e2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 46], 4
+	LONG $0x54c40f66; WORD $0x2e0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 46], 5
+	LONG $0x54c40f66; WORD $0x2e3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 46], 6
+	LONG $0x4cb70f46; WORD $0x3e0a             // movzx    r9d, word [rdx + r9 + 62]
+	LONG $0x54c40f66; WORD $0x2e1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 46], 7
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	LONG $0xf4710f66; BYTE $0x05               // psllw    xmm4, 5
+	LONG $0x65db0f66; BYTE $0x40               // pand    xmm4, oword 64[rbp] /* [rip + .LCPI8_4] */
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf0               // pand    xmm6, xmm8
+	LONG $0xf6710f66; BYTE $0x06               // psllw    xmm6, 6
+	LONG $0xf3db0f66                           // pand    xmm6, xmm3
+	LONG $0x6f0f4466; BYTE $0xe3               // movdqa    xmm12, xmm3
+	LONG $0xf4eb0f66                           // por    xmm6, xmm4
+	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
+	LONG $0xc2650f66                           // pcmpgtw    xmm0, xmm2
+	LONG $0x546e0f66; WORD $0x0824             // movd    xmm2, dword [rsp + 8]
+	QUAD $0x01323a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 50], 1
+	QUAD $0x0232027cc40f4266                   // pinsrw    xmm7, word [rdx + r8 + 50], 2
+	QUAD $0x0332227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 50], 3
+	QUAD $0x04322a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 50], 4
+	LONG $0x7cc40f66; WORD $0x320a; BYTE $0x05 // pinsrw    xmm7, word [rdx + rcx + 50], 5
+	LONG $0x7cc40f66; WORD $0x323a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rdi + 50], 6
+	LONG $0x7cc40f66; WORD $0x321a; BYTE $0x07 // pinsrw    xmm7, word [rdx + rbx + 50], 7
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xf0710f66; BYTE $0x07               // psllw    xmm0, 7
+	LONG $0xdb0f4166; BYTE $0xc6               // pand    xmm0, xmm14
+	LONG $0xc6eb0f66                           // por    xmm0, xmm6
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	LONG $0xc1eb0f66                           // por    xmm0, xmm1
+	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
+	LONG $0xcf650f66                           // pcmpgtw    xmm1, xmm7
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
+	LONG $0xdb0f4166; BYTE $0xf8               // pand    xmm7, xmm8
+	LONG $0xf9f80f66                           // psubb    xmm7, xmm1
+	LONG $0xd86e0f66                           // movd    xmm3, eax
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	QUAD $0x01343a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 52], 1
+	QUAD $0x02340254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 52], 2
+	QUAD $0x03342254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 52], 3
+	QUAD $0x04342a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 52], 4
+	LONG $0x54c40f66; WORD $0x340a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 52], 5
+	LONG $0x54c40f66; WORD $0x343a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 52], 6
+	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
+	LONG $0x54c40f66; WORD $0x341a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 52], 7
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
+	LONG $0xea650f66                           // pcmpgtw    xmm5, xmm2
+	LONG $0xe66e0f66                           // movd    xmm4, esi
+	QUAD $0x01363a74c40f4266                   // pinsrw    xmm6, word [rdx + r15 + 54], 1
+	QUAD $0x02360274c40f4266                   // pinsrw    xmm6, word [rdx + r8 + 54], 2
+	QUAD $0x03362274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 54], 3
+	QUAD $0x04362a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 54], 4
+	LONG $0x74c40f66; WORD $0x360a; BYTE $0x05 // pinsrw    xmm6, word [rdx + rcx + 54], 5
+	LONG $0x74c40f66; WORD $0x363a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rdi + 54], 6
+	LONG $0x74c40f66; WORD $0x361a; BYTE $0x07 // pinsrw    xmm6, word [rdx + rbx + 54], 7
+	QUAD $0x01383a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 56], 1
+	QUAD $0x0238025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 56], 2
+	QUAD $0x0338225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 56], 3
+	QUAD $0x04382a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 56], 4
+	LONG $0x5cc40f66; WORD $0x380a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 56], 5
+	LONG $0x5cc40f66; WORD $0x383a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 56], 6
+	LONG $0x5cc40f66; WORD $0x381a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 56], 7
+	QUAD $0x013a3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 58], 1
+	QUAD $0x023a0264c40f4266                   // pinsrw    xmm4, word [rdx + r8 + 58], 2
+	QUAD $0x033a2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 58], 3
+	QUAD $0x043a2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 58], 4
+	LONG $0x64c40f66; WORD $0x3a0a; BYTE $0x05 // pinsrw    xmm4, word [rdx + rcx + 58], 5
+	LONG $0x64c40f66; WORD $0x3a3a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rdi + 58], 6
+	LONG $0x64c40f66; WORD $0x3a1a; BYTE $0x07 // pinsrw    xmm4, word [rdx + rbx + 58], 7
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
+	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
+	LONG $0x6ddb0f66; BYTE $0x10               // pand    xmm5, oword 16[rbp] /* [rip + .LCPI8_1] */
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	LONG $0x6f0f4166; BYTE $0xd7               // movdqa    xmm2, xmm15
+	LONG $0xd6650f66                           // pcmpgtw    xmm2, xmm6
+	LONG $0x6f0f4166; BYTE $0xcf               // movdqa    xmm1, xmm15
+	LONG $0xcb650f66                           // pcmpgtw    xmm1, xmm3
+	LONG $0x6e0f4166; BYTE $0xdb               // movd    xmm3, r11d
+	QUAD $0x013c3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 60], 1
+	QUAD $0x023c025cc40f4266                   // pinsrw    xmm3, word [rdx + r8 + 60], 2
+	QUAD $0x033c225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 60], 3
+	QUAD $0x043c2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 60], 4
+	LONG $0x5cc40f66; WORD $0x3c0a; BYTE $0x05 // pinsrw    xmm3, word [rdx + rcx + 60], 5
+	LONG $0x5cc40f66; WORD $0x3c3a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rdi + 60], 6
+	LONG $0x5cc40f66; WORD $0x3c1a; BYTE $0x07 // pinsrw    xmm3, word [rdx + rbx + 60], 7
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd0               // pand    xmm2, xmm8
+	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
+	LONG $0xdb0f4166; BYTE $0xd3               // pand    xmm2, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xc8               // pand    xmm1, xmm8
+	LONG $0xf1710f66; BYTE $0x04               // psllw    xmm1, 4
+	LONG $0xdb0f4166; BYTE $0xcd               // pand    xmm1, xmm13
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	LONG $0x6e0f4166; BYTE $0xd1               // movd    xmm2, r9d
+	QUAD $0x013e3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 62], 1
+	QUAD $0x023e0254c40f4266                   // pinsrw    xmm2, word [rdx + r8 + 62], 2
+	QUAD $0x033e2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 62], 3
+	QUAD $0x0000008024b48b4c                   // mov    r14, qword [rsp + 128]
+	QUAD $0x043e2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 62], 4
+	LONG $0x54c40f66; WORD $0x3e0a; BYTE $0x05 // pinsrw    xmm2, word [rdx + rcx + 62], 5
+	LONG $0x54c40f66; WORD $0x3e3a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rdi + 62], 6
+	LONG $0x54c40f66; WORD $0x3e1a; BYTE $0x07 // pinsrw    xmm2, word [rdx + rbx + 62], 7
+	LONG $0xcdeb0f66                           // por    xmm1, xmm5
+	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
+	LONG $0xec650f66                           // pcmpgtw    xmm5, xmm4
+	LONG $0x6f0f4166; BYTE $0xe7               // movdqa    xmm4, xmm15
+	LONG $0xe3650f66                           // pcmpgtw    xmm4, xmm3
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
+	LONG $0xf5710f66; BYTE $0x05               // psllw    xmm5, 5
+	LONG $0x6ddb0f66; BYTE $0x40               // pand    xmm5, oword 64[rbp] /* [rip + .LCPI8_4] */
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe0               // pand    xmm4, xmm8
+	LONG $0xf4710f66; BYTE $0x06               // psllw    xmm4, 6
+	LONG $0xdb0f4166; BYTE $0xe4               // pand    xmm4, xmm12
+	LONG $0xe5eb0f66                           // por    xmm4, xmm5
+	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
+	LONG $0xda650f66                           // pcmpgtw    xmm3, xmm2
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
+	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
+	LONG $0xdceb0f66                           // por    xmm3, xmm4
+	LONG $0xd9eb0f66                           // por    xmm3, xmm1
+	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
+	LONG $0x6c0f4166; BYTE $0xca               // punpcklqdq    xmm1, xmm10
+	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
+	LONG $0xd36c0f66                           // punpcklqdq    xmm2, xmm3
+	QUAD $0x00000090a56f0f66                   // movdqa    xmm4, oword 144[rbp] /* [rip + .LCPI8_9] */
+	LONG $0x00380f66; BYTE $0xd4               // pshufb    xmm2, xmm4
+	LONG $0x00380f66; BYTE $0xcc               // pshufb    xmm1, xmm4
+	LONG $0xca610f66                           // punpcklwd    xmm1, xmm2
+	LONG $0xc3600f66                           // punpcklbw    xmm0, xmm3
+	LONG $0x600f4566; BYTE $0xca               // punpcklbw    xmm9, xmm10
+	LONG $0x610f4466; BYTE $0xc8               // punpcklwd    xmm9, xmm0
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	LONG $0x7f0f45f3; WORD $0x8e0c             // movdqu    oword [r14 + 4*rcx], xmm9
+	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm1
+	LONG $0x08c18348                           // add    rcx, 8
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	LONG $0x244c3b48; BYTE $0x20               // cmp    rcx, qword [rsp + 32]
+	JNE  LBB8_198
+	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
+	LONG $0x247c3b4c; BYTE $0x20               // cmp    r15, qword [rsp + 32]
+	QUAD $0x0000008824948b4c                   // mov    r10, qword [rsp + 136]
+	LONG $0x246c8b44; BYTE $0x30               // mov    r13d, dword [rsp + 48]
+	LONG $0x24248b4c                           // mov    r12, qword [rsp]
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	JNE  LBB8_101
+	JMP  LBB8_136
+
+LBB8_200:
+	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
+	LONG $0xfce08349                           // and    r8, -4
+	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
+	LONG $0x07e3c148                           // shl    rbx, 7
+	WORD $0x0148; BYTE $0xd3                   // add    rbx, rdx
+	LONG $0x863c8d4f                           // lea    r15, [r14 + 4*r8]
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
+	LONG $0xfcc28148; WORD $0x0001; BYTE $0x00 // add    rdx, 508
+	WORD $0xc931                               // xor    ecx, ecx
+	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI8_0] */
+	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI8_1] */
+	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI8_2] */
+	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI8_3] */
+	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI8_4] */
+	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI8_5] */
+	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI8_6] */
+	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI8_7] */
+
+LBB8_201:
+	QUAD $0xfffffe04b2100ff3                   // movss    xmm6, dword [rdx - 508]
+	QUAD $0xfffffe08ba100ff3                   // movss    xmm7, dword [rdx - 504]
+	QUAD $0xfffffe0caa100ff3                   // movss    xmm5, dword [rdx - 500]
+	QUAD $0xfffffe10a2100ff3                   // movss    xmm4, dword [rdx - 496]
+	QUAD $0xfffe84b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 380], 16
+	QUAD $0xffff04b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 252], 32
+	LONG $0x213a0f66; WORD $0x8472; BYTE $0x30 // insertps    xmm6, dword [rdx - 124], 48
+	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	QUAD $0xfffe88ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 376], 16
+	QUAD $0xffff08ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 248], 32
+	LONG $0x213a0f66; WORD $0x887a; BYTE $0x30 // insertps    xmm7, dword [rdx - 120], 48
+	QUAD $0xfffe8caa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 372], 16
+	QUAD $0xffff0caa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 244], 32
+	LONG $0x213a0f66; WORD $0x8c6a; BYTE $0x30 // insertps    xmm5, dword [rdx - 116], 48
+	QUAD $0xfffe90a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 368], 16
+	QUAD $0xffff10a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 240], 32
+	LONG $0x213a0f66; WORD $0x9062; BYTE $0x30 // insertps    xmm4, dword [rdx - 112], 48
+	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
+	QUAD $0xfffffe14ba100ff3                   // movss    xmm7, dword [rdx - 492]
+	QUAD $0xfffe94ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 364], 16
+	QUAD $0xffff14ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 236], 32
+	LONG $0x213a0f66; WORD $0x947a; BYTE $0x30 // insertps    xmm7, dword [rdx - 108], 48
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0xfffffe18b2100ff3                   // movss    xmm6, dword [rdx - 488]
+	QUAD $0xfffe98b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 360], 16
+	QUAD $0xffff18b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 232], 32
+	LONG $0x213a0f66; WORD $0x9872; BYTE $0x30 // insertps    xmm6, dword [rdx - 104], 48
+	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
+	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
+	LONG $0xeaeb0f66                           // por    xmm5, xmm2
+	QUAD $0xfffffe1c9a100ff3                   // movss    xmm3, dword [rdx - 484]
+	QUAD $0xfffe9c9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 356], 16
+	QUAD $0xffff1c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 228], 32
+	LONG $0x213a0f66; WORD $0x9c5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 100], 48
+	LONG $0x01e1c20f                           // cmpltps    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
+	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
+	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
+	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
+	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
+	LONG $0xfceb0f66                           // por    xmm7, xmm4
+	QUAD $0xfffffe20a2100ff3                   // movss    xmm4, dword [rdx - 480]
+	QUAD $0xfffea0a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 352], 16
+	QUAD $0xffff20a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 224], 32
+	LONG $0x213a0f66; WORD $0xa062; BYTE $0x30 // insertps    xmm4, dword [rdx - 96], 48
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	QUAD $0xfffffe24aa100ff3                   // movss    xmm5, dword [rdx - 476]
+	QUAD $0xfffea4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 348], 16
+	QUAD $0xffff24aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 220], 32
+	LONG $0x213a0f66; WORD $0xa46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 92], 48
+	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
+	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe2892100ff3                   // movss    xmm2, dword [rdx - 472]
+	QUAD $0xfffea892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 344], 16
+	QUAD $0xffff2892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 216], 32
+	LONG $0x213a0f66; WORD $0xa852; BYTE $0x30 // insertps    xmm2, dword [rdx - 88], 48
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0x01e1c20f                           // cmpltps    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
+	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
+	LONG $0xe3eb0f66                           // por    xmm4, xmm3
+	QUAD $0xfffffe2c9a100ff3                   // movss    xmm3, dword [rdx - 468]
+	QUAD $0xfffeac9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 340], 16
+	QUAD $0xffff2c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 212], 32
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0x213a0f66; WORD $0xac5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 84], 48
+	LONG $0xe7eb0f66                           // por    xmm4, xmm7
+	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
+	QUAD $0xfffffe30ba100ff3                   // movss    xmm7, dword [rdx - 464]
+	QUAD $0xfffeb0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 336], 16
+	QUAD $0xffff30ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 208], 32
+	LONG $0x213a0f66; WORD $0xb07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 80], 48
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	QUAD $0xfffffe34aa100ff3                   // movss    xmm5, dword [rdx - 460]
+	QUAD $0xfffeb4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 332], 16
+	QUAD $0xffff34aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 204], 32
+	LONG $0x213a0f66; WORD $0xb46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 76], 48
+	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe38b2100ff3                   // movss    xmm6, dword [rdx - 456]
+	QUAD $0xfffeb8b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 328], 16
+	QUAD $0xffff38b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 200], 32
+	LONG $0x213a0f66; WORD $0xb872; BYTE $0x30 // insertps    xmm6, dword [rdx - 72], 48
+	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
+	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
+	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	QUAD $0xfffffe3c92100ff3                   // movss    xmm2, dword [rdx - 452]
+	QUAD $0xfffebc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 324], 16
+	QUAD $0xffff3c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 196], 32
+	LONG $0x213a0f66; WORD $0xbc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 68], 48
+	LONG $0xebeb0f66                           // por    xmm5, xmm3
+	QUAD $0xfffffe40ba100ff3                   // movss    xmm7, dword [rdx - 448]
+	QUAD $0xfffec0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 320], 16
+	QUAD $0xffff40ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 192], 32
+	LONG $0x213a0f66; WORD $0xc07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 64], 48
+	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0xfffffe44b2100ff3                   // movss    xmm6, dword [rdx - 444]
+	QUAD $0xfffec4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 316], 16
+	QUAD $0xffff44b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 188], 32
+	LONG $0x213a0f66; WORD $0xc472; BYTE $0x30 // insertps    xmm6, dword [rdx - 60], 48
+	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
+	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
+	LONG $0xfaeb0f66                           // por    xmm7, xmm2
+	QUAD $0xfffffe4892100ff3                   // movss    xmm2, dword [rdx - 440]
+	QUAD $0xfffec892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 312], 16
+	QUAD $0xffff4892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 184], 32
+	LONG $0x213a0f66; WORD $0xc852; BYTE $0x30 // insertps    xmm2, dword [rdx - 56], 48
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	QUAD $0xfffffe4c9a100ff3                   // movss    xmm3, dword [rdx - 436]
+	QUAD $0xfffecc9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 308], 16
+	QUAD $0xffff4c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 180], 32
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0x213a0f66; WORD $0xcc5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 52], 48
+	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
+	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
+	QUAD $0xfffffe50aa100ff3                   // movss    xmm5, dword [rdx - 432]
+	QUAD $0xfffed0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 304], 16
+	QUAD $0xffff50aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 176], 32
+	LONG $0x213a0f66; WORD $0xd06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 48], 48
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	QUAD $0xfffffe54b2100ff3                   // movss    xmm6, dword [rdx - 428]
+	QUAD $0xfffed4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 300], 16
+	QUAD $0xffff54b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 172], 32
+	LONG $0x213a0f66; WORD $0xd472; BYTE $0x30 // insertps    xmm6, dword [rdx - 44], 48
+	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdfeb0f66                           // por    xmm3, xmm7
+	QUAD $0xfffffe58ba100ff3                   // movss    xmm7, dword [rdx - 424]
+	QUAD $0xfffed8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 296], 16
+	QUAD $0xffff58ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 168], 32
+	LONG $0x213a0f66; WORD $0xd87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 40], 48
+	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
+	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
+	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
+	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	QUAD $0xfffffe5c92100ff3                   // movss    xmm2, dword [rdx - 420]
+	QUAD $0xfffedc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 292], 16
+	QUAD $0xffff5c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 164], 32
+	LONG $0x213a0f66; WORD $0xdc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 36], 48
+	LONG $0xf3eb0f66                           // por    xmm6, xmm3
+	QUAD $0xfffffe60aa100ff3                   // movss    xmm5, dword [rdx - 416]
+	QUAD $0xfffee0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 288], 16
+	QUAD $0xffff60aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 160], 32
+	LONG $0x213a0f66; WORD $0xe06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 32], 48
+	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
+	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
+	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	QUAD $0xfffffe64ba100ff3                   // movss    xmm7, dword [rdx - 412]
+	QUAD $0xfffee4ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 284], 16
+	QUAD $0xffff64ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 156], 32
+	LONG $0x213a0f66; WORD $0xe47a; BYTE $0x30 // insertps    xmm7, dword [rdx - 28], 48
+	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0x01e9c20f                           // cmpltps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
+	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
+	LONG $0xeaeb0f66                           // por    xmm5, xmm2
+	QUAD $0xfffffe6892100ff3                   // movss    xmm2, dword [rdx - 408]
+	QUAD $0xfffee892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 280], 16
+	QUAD $0xffff6892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 152], 32
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0x213a0f66; WORD $0xe852; BYTE $0x30 // insertps    xmm2, dword [rdx - 24], 48
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
+	QUAD $0xfffffe6c9a100ff3                   // movss    xmm3, dword [rdx - 404]
+	QUAD $0xfffeec9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 276], 16
+	QUAD $0xffff6c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 148], 32
+	LONG $0x213a0f66; WORD $0xec5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 20], 48
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	QUAD $0xfffffe7092100ff3                   // movss    xmm2, dword [rdx - 400]
+	QUAD $0xfffef092213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 272], 16
+	QUAD $0xffff7092213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 144], 32
+	LONG $0x213a0f66; WORD $0xf052; BYTE $0x30 // insertps    xmm2, dword [rdx - 16], 48
+	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe74b2100ff3                   // movss    xmm6, dword [rdx - 396]
+	QUAD $0xfffef4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 268], 16
+	QUAD $0xffff74b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 140], 32
+	LONG $0x213a0f66; WORD $0xf472; BYTE $0x30 // insertps    xmm6, dword [rdx - 12], 48
+	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
+	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
+	LONG $0x01f1c20f                           // cmpltps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
+	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
+	LONG $0xf2eb0f66                           // por    xmm6, xmm2
+	QUAD $0xfffffe78ba100ff3                   // movss    xmm7, dword [rdx - 392]
+	QUAD $0xfffef8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 264], 16
+	QUAD $0xffff78ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 136], 32
+	LONG $0x213a0f66; WORD $0xf87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 8], 48
+	LONG $0xf3eb0f66                           // por    xmm6, xmm3
+	QUAD $0xfffffe7c92100ff3                   // movss    xmm2, dword [rdx - 388]
+	QUAD $0xfffefc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 260], 16
+	QUAD $0xffff7c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 132], 32
+	LONG $0x213a0f66; WORD $0xfc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 4], 48
+	LONG $0x01f9c20f                           // cmpltps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
+	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
+	LONG $0x01d1c20f                           // cmpltps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	QUAD $0xfffffe809a100ff3                   // movss    xmm3, dword [rdx - 384]
+	QUAD $0xffff009a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 256], 16
+	LONG $0x213a0f66; WORD $0x805a; BYTE $0x20 // insertps    xmm3, dword [rdx - 128], 32
+	LONG $0x213a0f66; WORD $0x301a             // insertps    xmm3, dword [rdx], 48
+	LONG $0x01d9c20f                           // cmpltps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
+	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
+	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
+	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
+	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
+	LONG $0x04c18348                           // add    rcx, 4
+	LONG $0x00c28148; WORD $0x0002; BYTE $0x00 // add    rdx, 512
+	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
+	JNE  LBB8_201
+	WORD $0x394d; BYTE $0xc3                   // cmp    r11, r8
+	JNE  LBB8_124
+	JMP  LBB8_140
+
+TEXT ·_comparison_greater_equal_arr_arr_sse4(SB), $80-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	ADDQ $8, SP
+
+	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
+	WORD $0x8949; BYTE $0xce // mov    r14, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB9_29
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB9_2
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB9_68
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB9_79
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB9_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_22
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_20:
+	WORD $0x0e8b                   // mov    ecx, dword [rsi]
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x0a3b                   // cmp    ecx, dword [rdx]
+	LONG $0x04528d48               // lea    rdx, [rdx + 4]
+	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
+	LONG $0xffd28041               // adc    r10b, -1
+	LONG $0x07588d48               // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xd8490f48               // cmovns    rbx, rax
+	LONG $0x03fbc148               // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
+	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB9_20
+	LONG $0x01c68349               // add    r14, 1
+
+LBB9_22:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_26
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB9_24:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd5930f41                           // setae    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd0930f41                           // setae    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd3930f41                           // setae    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd7930f41                           // setae    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd2930f41                           // setae    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd6930f41                           // setae    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd4930f41                           // setae    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd1930f41                           // setae    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB9_24
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB9_26:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_28:
+	WORD $0x048b; BYTE $0x8e     // mov    eax, dword [rsi + 4*rcx]
+	WORD $0x043b; BYTE $0x8a     // cmp    eax, dword [rdx + 4*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_28
+	JMP  LBB9_123
+
+LBB9_29:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB9_30
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB9_101
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB9_112
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB9_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_50
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_48:
+	LONG $0x06100ff2               // movsd    xmm0, qword [rsi]
+	LONG $0x08c68348               // add    rsi, 8
+	LONG $0x022e0f66               // ucomisd    xmm0, qword [rdx]
+	LONG $0x08528d48               // lea    rdx, [rdx + 8]
+	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
+	LONG $0xffd28041               // adc    r10b, -1
+	LONG $0x07588d48               // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xd8490f48               // cmovns    rbx, rax
+	LONG $0x03fbc148               // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
+	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB9_48
+	LONG $0x01c68349               // add    r14, 1
+
+LBB9_50:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_54
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB9_52:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x06100ff2                           // movsd    xmm0, qword [rsi]
+	LONG $0x4e100ff2; BYTE $0x08               // movsd    xmm1, qword [rsi + 8]
+	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
+	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
+	LONG $0x4a2e0f66; BYTE $0x08               // ucomisd    xmm1, qword [rdx + 8]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x46100ff2; BYTE $0x10               // movsd    xmm0, qword [rsi + 16]
+	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
+	LONG $0x46100ff2; BYTE $0x18               // movsd    xmm0, qword [rsi + 24]
+	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
+	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
+	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
+	LONG $0x46100ff2; BYTE $0x20               // movsd    xmm0, qword [rsi + 32]
+	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
+	LONG $0x46100ff2; BYTE $0x28               // movsd    xmm0, qword [rsi + 40]
+	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
+	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
+	LONG $0x46100ff2; BYTE $0x30               // movsd    xmm0, qword [rsi + 48]
+	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
+	LONG $0x46100ff2; BYTE $0x38               // movsd    xmm0, qword [rsi + 56]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x46100ff2; BYTE $0x40               // movsd    xmm0, qword [rsi + 64]
+	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
+	LONG $0x46100ff2; BYTE $0x48               // movsd    xmm0, qword [rsi + 72]
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x46100ff2; BYTE $0x50               // movsd    xmm0, qword [rsi + 80]
+	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
+	LONG $0x46100ff2; BYTE $0x58               // movsd    xmm0, qword [rsi + 88]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x46100ff2; BYTE $0x60               // movsd    xmm0, qword [rsi + 96]
+	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
+	LONG $0x46100ff2; BYTE $0x68               // movsd    xmm0, qword [rsi + 104]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
+	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
+	LONG $0x46100ff2; BYTE $0x70               // movsd    xmm0, qword [rsi + 112]
+	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
+	LONG $0x46100ff2; BYTE $0x78               // movsd    xmm0, qword [rsi + 120]
+	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
+	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	QUAD $0x0000008086100ff2                   // movsd    xmm0, qword [rsi + 128]
+	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
+	QUAD $0x0000008886100ff2                   // movsd    xmm0, qword [rsi + 136]
+	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
+	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
+	QUAD $0x0000009086100ff2                   // movsd    xmm0, qword [rsi + 144]
+	LONG $0xd6930f41                           // setae    r14b
+	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
+	QUAD $0x0000009886100ff2                   // movsd    xmm0, qword [rsi + 152]
+	LONG $0xd4930f41                           // setae    r12b
+	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
+	QUAD $0x000000a086100ff2                   // movsd    xmm0, qword [rsi + 160]
+	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
+	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
+	QUAD $0x000000a886100ff2                   // movsd    xmm0, qword [rsi + 168]
+	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
+	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
+	QUAD $0x000000b086100ff2                   // movsd    xmm0, qword [rsi + 176]
+	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
+	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
+	QUAD $0x000000b886100ff2                   // movsd    xmm0, qword [rsi + 184]
+	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
+	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
+	QUAD $0x000000c086100ff2                   // movsd    xmm0, qword [rsi + 192]
+	LONG $0xd0930f41                           // setae    r8b
+	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
+	QUAD $0x000000c886100ff2                   // movsd    xmm0, qword [rsi + 200]
+	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
+	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
+	QUAD $0x000000d086100ff2                   // movsd    xmm0, qword [rsi + 208]
+	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
+	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
+	QUAD $0x000000d886100ff2                   // movsd    xmm0, qword [rsi + 216]
+	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
+	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
+	QUAD $0x000000e086100ff2                   // movsd    xmm0, qword [rsi + 224]
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
+	QUAD $0x000000e886100ff2                   // movsd    xmm0, qword [rsi + 232]
+	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
+	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
+	QUAD $0x000000f086100ff2                   // movsd    xmm0, qword [rsi + 240]
+	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
+	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
+	QUAD $0x000000f886100ff2                   // movsd    xmm0, qword [rsi + 248]
+	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
+	LONG $0xd7930f40                           // setae    dil
+	WORD $0xc000                               // add    al, al
+	LONG $0x04244402                           // add    al, byte [rsp + 4]
+	LONG $0x06e5c041                           // shl    r13b, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
+	LONG $0x06e1c041                           // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB9_52
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB9_54:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_56:
+	LONG $0x04100ff2; BYTE $0xce // movsd    xmm0, qword [rsi + 8*rcx]
+	LONG $0x042e0f66; BYTE $0xca // ucomisd    xmm0, qword [rdx + 8*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_56
+	JMP  LBB9_123
+
+LBB9_2:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB9_57
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB9_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_8
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_6:
+	WORD $0xb60f; BYTE $0x0e     // movzx    ecx, byte [rsi]
+	LONG $0x01c68348             // add    rsi, 1
+	WORD $0x0a3a                 // cmp    cl, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0xd29d0f41             // setge    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB9_6
+	LONG $0x01c68349             // add    r14, 1
+
+LBB9_8:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_12
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB9_10:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x24549d0f; BYTE $0x28   // setge    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x9d0f; BYTE $0xd1       // setge    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x24549d0f; BYTE $0x14   // setge    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x24549d0f; BYTE $0x15   // setge    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x24549d0f; BYTE $0x16   // setge    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x24549d0f; BYTE $0x17   // setge    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x24549d0f; BYTE $0x04   // setge    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd79d0f41               // setge    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x24549d0f; BYTE $0x07   // setge    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd79d0f40               // setge    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd29d0f41               // setge    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd39d0f41               // setge    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd69d0f41               // setge    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x24549d0f; BYTE $0x05   // setge    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x24549d0f; BYTE $0x06   // setge    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x9d0f; BYTE $0xd3       // setge    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x24549d0f; BYTE $0x0d   // setge    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd49d0f41               // setge    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd59d0f41               // setge    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x24549d0f; BYTE $0x08   // setge    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x24549d0f; BYTE $0x09   // setge    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x24549d0f; BYTE $0x0a   // setge    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x24549d0f; BYTE $0x0b   // setge    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd19d0f41               // setge    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x24549d0f; BYTE $0x13   // setge    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x24549d0f; BYTE $0x0c   // setge    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x24549d0f; BYTE $0x0e   // setge    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x24549d0f; BYTE $0x0f   // setge    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x24549d0f; BYTE $0x10   // setge    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x24549d0f; BYTE $0x11   // setge    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x24549d0f; BYTE $0x12   // setge    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd09d0f41               // setge    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB9_10
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB9_12:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_14:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x0e1cb60f             // movzx    ebx, byte [rsi + rcx]
+	WORD $0x1c3a; BYTE $0x0a     // cmp    bl, byte [rdx + rcx]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_14
+	JMP  LBB9_123
+
+LBB9_30:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB9_90
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB9_123
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_36
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_34:
+	WORD $0x8b48; BYTE $0x0e       // mov    rcx, qword [rsi]
+	LONG $0x08c68348               // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a       // cmp    rcx, qword [rdx]
+	LONG $0x08528d48               // lea    rdx, [rdx + 8]
+	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
+	LONG $0xffd28041               // adc    r10b, -1
+	LONG $0x07588d48               // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xd8490f48               // cmovns    rbx, rax
+	LONG $0x03fbc148               // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
+	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB9_34
+	LONG $0x01c68349               // add    r14, 1
+
+LBB9_36:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_40
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB9_38:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB9_38
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB9_40:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_42:
+	LONG $0xce048b48             // mov    rax, qword [rsi + 8*rcx]
+	LONG $0xca043b48             // cmp    rax, qword [rdx + 8*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_42
+	JMP  LBB9_123
+
+LBB9_68:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_72
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_70:
+	WORD $0xb70f; BYTE $0x0e       // movzx    ecx, word [rsi]
+	LONG $0x02c68348               // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a       // cmp    cx, word [rdx]
+	LONG $0x02528d48               // lea    rdx, [rdx + 2]
+	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
+	LONG $0xffd28041               // adc    r10b, -1
+	LONG $0x07588d48               // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xd8490f48               // cmovns    rbx, rax
+	LONG $0x03fbc148               // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
+	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB9_70
+	LONG $0x01c68349               // add    r14, 1
+
+LBB9_72:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_76
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB9_74:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x2454930f; BYTE $0x28   // setae    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x2454930f; BYTE $0x20   // setae    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x2454930f; BYTE $0x14   // setae    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x2454930f; BYTE $0x15   // setae    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x2454930f; BYTE $0x16   // setae    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x2454930f; BYTE $0x17   // setae    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x2454930f; BYTE $0x04   // setae    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd5930f41               // setae    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x2454930f; BYTE $0x09   // setae    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd0930f41               // setae    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd3930f41               // setae    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd7930f41               // setae    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x2454930f; BYTE $0x05   // setae    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x2454930f; BYTE $0x06   // setae    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x2454930f; BYTE $0x07   // setae    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x930f; BYTE $0xd3       // setae    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x2454930f; BYTE $0x0a   // setae    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd2930f41               // setae    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd6930f41               // setae    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd4930f41               // setae    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x2454930f; BYTE $0x08   // setae    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x2454930f; BYTE $0x0b   // setae    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x2454930f; BYTE $0x0c   // setae    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd1930f41               // setae    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x2454930f; BYTE $0x13   // setae    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x2454930f; BYTE $0x0d   // setae    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x2454930f; BYTE $0x0e   // setae    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x2454930f; BYTE $0x0f   // setae    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x2454930f; BYTE $0x10   // setae    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x2454930f; BYTE $0x12   // setae    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x2454930f; BYTE $0x11   // setae    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd7930f40               // setae    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB9_74
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB9_76:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_78:
+	LONG $0x4e04b70f             // movzx    eax, word [rsi + 2*rcx]
+	LONG $0x4a043b66             // cmp    ax, word [rdx + 2*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_78
+	JMP  LBB9_123
+
+LBB9_79:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_83
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_81:
+	WORD $0xb70f; BYTE $0x0e     // movzx    ecx, word [rsi]
+	LONG $0x02c68348             // add    rsi, 2
+	WORD $0x3b66; BYTE $0x0a     // cmp    cx, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	LONG $0xd29d0f41             // setge    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB9_81
+	LONG $0x01c68349             // add    r14, 1
+
+LBB9_83:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_87
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB9_85:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb70f; BYTE $0x06       // movzx    eax, word [rsi]
+	LONG $0x024eb70f               // movzx    ecx, word [rsi + 2]
+	WORD $0x3b66; BYTE $0x02       // cmp    ax, word [rdx]
+	LONG $0x24549d0f; BYTE $0x28   // setge    byte [rsp + 40]
+	LONG $0x024a3b66               // cmp    cx, word [rdx + 2]
+	LONG $0x24549d0f; BYTE $0x20   // setge    byte [rsp + 32]
+	LONG $0x0446b70f               // movzx    eax, word [rsi + 4]
+	LONG $0x04423b66               // cmp    ax, word [rdx + 4]
+	LONG $0x24549d0f; BYTE $0x14   // setge    byte [rsp + 20]
+	LONG $0x0646b70f               // movzx    eax, word [rsi + 6]
+	LONG $0x06423b66               // cmp    ax, word [rdx + 6]
+	LONG $0x24549d0f; BYTE $0x15   // setge    byte [rsp + 21]
+	LONG $0x0846b70f               // movzx    eax, word [rsi + 8]
+	LONG $0x08423b66               // cmp    ax, word [rdx + 8]
+	LONG $0x24549d0f; BYTE $0x16   // setge    byte [rsp + 22]
+	LONG $0x0a46b70f               // movzx    eax, word [rsi + 10]
+	LONG $0x0a423b66               // cmp    ax, word [rdx + 10]
+	LONG $0x24549d0f; BYTE $0x17   // setge    byte [rsp + 23]
+	LONG $0x0c46b70f               // movzx    eax, word [rsi + 12]
+	LONG $0x0c423b66               // cmp    ax, word [rdx + 12]
+	LONG $0x24549d0f; BYTE $0x04   // setge    byte [rsp + 4]
+	LONG $0x0e46b70f               // movzx    eax, word [rsi + 14]
+	LONG $0x0e423b66               // cmp    ax, word [rdx + 14]
+	LONG $0xd59d0f41               // setge    r13b
+	LONG $0x1046b70f               // movzx    eax, word [rsi + 16]
+	LONG $0x10423b66               // cmp    ax, word [rdx + 16]
+	LONG $0x24549d0f; BYTE $0x09   // setge    byte [rsp + 9]
+	LONG $0x1246b70f               // movzx    eax, word [rsi + 18]
+	LONG $0x12423b66               // cmp    ax, word [rdx + 18]
+	LONG $0xd09d0f41               // setge    r8b
+	LONG $0x1446b70f               // movzx    eax, word [rsi + 20]
+	LONG $0x14423b66               // cmp    ax, word [rdx + 20]
+	LONG $0xd39d0f41               // setge    r11b
+	LONG $0x1646b70f               // movzx    eax, word [rsi + 22]
+	LONG $0x16423b66               // cmp    ax, word [rdx + 22]
+	LONG $0xd79d0f41               // setge    r15b
+	LONG $0x1846b70f               // movzx    eax, word [rsi + 24]
+	LONG $0x18423b66               // cmp    ax, word [rdx + 24]
+	LONG $0x24549d0f; BYTE $0x05   // setge    byte [rsp + 5]
+	LONG $0x1a46b70f               // movzx    eax, word [rsi + 26]
+	LONG $0x1a423b66               // cmp    ax, word [rdx + 26]
+	LONG $0x24549d0f; BYTE $0x06   // setge    byte [rsp + 6]
+	LONG $0x1c46b70f               // movzx    eax, word [rsi + 28]
+	LONG $0x1c423b66               // cmp    ax, word [rdx + 28]
+	LONG $0x24549d0f; BYTE $0x07   // setge    byte [rsp + 7]
+	LONG $0x1e46b70f               // movzx    eax, word [rsi + 30]
+	LONG $0x1e423b66               // cmp    ax, word [rdx + 30]
+	WORD $0x9d0f; BYTE $0xd3       // setge    bl
+	LONG $0x2046b70f               // movzx    eax, word [rsi + 32]
+	LONG $0x224eb70f               // movzx    ecx, word [rsi + 34]
+	LONG $0x20423b66               // cmp    ax, word [rdx + 32]
+	LONG $0x2446b70f               // movzx    eax, word [rsi + 36]
+	LONG $0x24549d0f; BYTE $0x0a   // setge    byte [rsp + 10]
+	LONG $0x224a3b66               // cmp    cx, word [rdx + 34]
+	LONG $0x264eb70f               // movzx    ecx, word [rsi + 38]
+	LONG $0xd29d0f41               // setge    r10b
+	LONG $0x24423b66               // cmp    ax, word [rdx + 36]
+	LONG $0x2846b70f               // movzx    eax, word [rsi + 40]
+	LONG $0xd69d0f41               // setge    r14b
+	LONG $0x264a3b66               // cmp    cx, word [rdx + 38]
+	LONG $0x2a4eb70f               // movzx    ecx, word [rsi + 42]
+	LONG $0xd49d0f41               // setge    r12b
+	LONG $0x28423b66               // cmp    ax, word [rdx + 40]
+	LONG $0x24549d0f; BYTE $0x08   // setge    byte [rsp + 8]
+	LONG $0x2a4a3b66               // cmp    cx, word [rdx + 42]
+	LONG $0x2c46b70f               // movzx    eax, word [rsi + 44]
+	LONG $0x24549d0f; BYTE $0x0b   // setge    byte [rsp + 11]
+	LONG $0x2c423b66               // cmp    ax, word [rdx + 44]
+	LONG $0x2e46b70f               // movzx    eax, word [rsi + 46]
+	LONG $0x24549d0f; BYTE $0x0c   // setge    byte [rsp + 12]
+	LONG $0x2e423b66               // cmp    ax, word [rdx + 46]
+	LONG $0x3046b70f               // movzx    eax, word [rsi + 48]
+	LONG $0xd19d0f41               // setge    r9b
+	LONG $0x30423b66               // cmp    ax, word [rdx + 48]
+	LONG $0x3246b70f               // movzx    eax, word [rsi + 50]
+	LONG $0x24549d0f; BYTE $0x13   // setge    byte [rsp + 19]
+	LONG $0x32423b66               // cmp    ax, word [rdx + 50]
+	LONG $0x3446b70f               // movzx    eax, word [rsi + 52]
+	LONG $0x24549d0f; BYTE $0x0d   // setge    byte [rsp + 13]
+	LONG $0x34423b66               // cmp    ax, word [rdx + 52]
+	LONG $0x3646b70f               // movzx    eax, word [rsi + 54]
+	LONG $0x24549d0f; BYTE $0x0e   // setge    byte [rsp + 14]
+	LONG $0x36423b66               // cmp    ax, word [rdx + 54]
+	LONG $0x3846b70f               // movzx    eax, word [rsi + 56]
+	LONG $0x24549d0f; BYTE $0x0f   // setge    byte [rsp + 15]
+	LONG $0x38423b66               // cmp    ax, word [rdx + 56]
+	LONG $0x3a46b70f               // movzx    eax, word [rsi + 58]
+	LONG $0x24549d0f; BYTE $0x10   // setge    byte [rsp + 16]
+	LONG $0x3a423b66               // cmp    ax, word [rdx + 58]
+	LONG $0x3c46b70f               // movzx    eax, word [rsi + 60]
+	LONG $0x24549d0f; BYTE $0x12   // setge    byte [rsp + 18]
+	LONG $0x3c423b66               // cmp    ax, word [rdx + 60]
+	LONG $0x3e46b70f               // movzx    eax, word [rsi + 62]
+	LONG $0x24549d0f; BYTE $0x11   // setge    byte [rsp + 17]
+	LONG $0x40c68348               // add    rsi, 64
+	LONG $0x3e423b66               // cmp    ax, word [rdx + 62]
+	LONG $0xd79d0f40               // setge    dil
+	LONG $0x2444b60f; BYTE $0x20   // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                   // add    al, al
+	LONG $0x28244402               // add    al, byte [rsp + 40]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04   // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06       // shl    al, 6
+	LONG $0x07e5c041               // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5       // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14   // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0x0045; BYTE $0xc0       // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09   // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e3c041               // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3       // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0x8941; BYTE $0xc8       // mov    r8d, ecx
+	LONG $0x03e7c041               // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf       // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1       // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xf8       // or    al, r15b
+	WORD $0x8941; BYTE $0xc0       // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06   // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xc0       // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724 // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041               // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3       // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd       // or    r13b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xd2       // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a   // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041               // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6       // or    r14b, r10b
+	LONG $0x03e4c041               // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4       // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0x0844; BYTE $0xe0       // or    al, r12b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b   // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x2e       // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c   // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d   // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12   // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11   // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c040               // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf       // or    dil, cl
+	WORD $0x0840; BYTE $0xc7       // or    dil, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841               // mov    byte [r14 + 3], dil
+	LONG $0x40c28348               // add    rdx, 64
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff38 // add    qword [rsp + 56], -1
+	JNE  LBB9_85
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40   // mov    r15, qword [rsp + 64]
+
+LBB9_87:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_89:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x4e3cb70f             // movzx    edi, word [rsi + 2*rcx]
+	LONG $0x4a3c3b66             // cmp    di, word [rdx + 2*rcx]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_89
+	JMP  LBB9_123
+
+LBB9_101:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_105
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_103:
+	WORD $0x8b48; BYTE $0x0e     // mov    rcx, qword [rsi]
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0x3b48; BYTE $0x0a     // cmp    rcx, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd29d0f41             // setge    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB9_103
+	LONG $0x01c68349             // add    r14, 1
+
+LBB9_105:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_109
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB9_107:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x8b48; BYTE $0x06                   // mov    rax, qword [rsi]
+	LONG $0x084e8b48                           // mov    rcx, qword [rsi + 8]
+	WORD $0x3b48; BYTE $0x02                   // cmp    rax, qword [rdx]
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	LONG $0x084a3b48                           // cmp    rcx, qword [rdx + 8]
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0x10468b48                           // mov    rax, qword [rsi + 16]
+	LONG $0x10423b48                           // cmp    rax, qword [rdx + 16]
+	LONG $0x24549d0f; BYTE $0x14               // setge    byte [rsp + 20]
+	LONG $0x18468b48                           // mov    rax, qword [rsi + 24]
+	LONG $0x18423b48                           // cmp    rax, qword [rdx + 24]
+	LONG $0x24549d0f; BYTE $0x15               // setge    byte [rsp + 21]
+	LONG $0x20468b48                           // mov    rax, qword [rsi + 32]
+	LONG $0x20423b48                           // cmp    rax, qword [rdx + 32]
+	LONG $0x24549d0f; BYTE $0x16               // setge    byte [rsp + 22]
+	LONG $0x28468b48                           // mov    rax, qword [rsi + 40]
+	LONG $0x28423b48                           // cmp    rax, qword [rdx + 40]
+	LONG $0x24549d0f; BYTE $0x17               // setge    byte [rsp + 23]
+	LONG $0x30468b48                           // mov    rax, qword [rsi + 48]
+	LONG $0x30423b48                           // cmp    rax, qword [rdx + 48]
+	LONG $0x24549d0f; BYTE $0x04               // setge    byte [rsp + 4]
+	LONG $0x38468b48                           // mov    rax, qword [rsi + 56]
+	LONG $0x38423b48                           // cmp    rax, qword [rdx + 56]
+	LONG $0xd59d0f41                           // setge    r13b
+	LONG $0x40468b48                           // mov    rax, qword [rsi + 64]
+	LONG $0x40423b48                           // cmp    rax, qword [rdx + 64]
+	LONG $0x24549d0f; BYTE $0x09               // setge    byte [rsp + 9]
+	LONG $0x48468b48                           // mov    rax, qword [rsi + 72]
+	LONG $0x48423b48                           // cmp    rax, qword [rdx + 72]
+	LONG $0xd09d0f41                           // setge    r8b
+	LONG $0x50468b48                           // mov    rax, qword [rsi + 80]
+	LONG $0x50423b48                           // cmp    rax, qword [rdx + 80]
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x58468b48                           // mov    rax, qword [rsi + 88]
+	LONG $0x58423b48                           // cmp    rax, qword [rdx + 88]
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x60468b48                           // mov    rax, qword [rsi + 96]
+	LONG $0x60423b48                           // cmp    rax, qword [rdx + 96]
+	LONG $0x24549d0f; BYTE $0x05               // setge    byte [rsp + 5]
+	LONG $0x68468b48                           // mov    rax, qword [rsi + 104]
+	LONG $0x68423b48                           // cmp    rax, qword [rdx + 104]
+	LONG $0x24549d0f; BYTE $0x06               // setge    byte [rsp + 6]
+	LONG $0x70468b48                           // mov    rax, qword [rsi + 112]
+	LONG $0x70423b48                           // cmp    rax, qword [rdx + 112]
+	LONG $0x24549d0f; BYTE $0x07               // setge    byte [rsp + 7]
+	LONG $0x78468b48                           // mov    rax, qword [rsi + 120]
+	LONG $0x78423b48                           // cmp    rax, qword [rdx + 120]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	LONG $0x80868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 128]
+	LONG $0x888e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 136]
+	LONG $0x80823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 128]
+	LONG $0x90868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 144]
+	LONG $0x24549d0f; BYTE $0x0a               // setge    byte [rsp + 10]
+	LONG $0x888a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 136]
+	LONG $0x988e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 152]
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x90823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 144]
+	LONG $0xa0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 160]
+	LONG $0xd69d0f41                           // setge    r14b
+	LONG $0x988a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 152]
+	LONG $0xa88e8b48; WORD $0x0000; BYTE $0x00 // mov    rcx, qword [rsi + 168]
+	LONG $0xd49d0f41                           // setge    r12b
+	LONG $0xa0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 160]
+	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
+	LONG $0xa88a3b48; WORD $0x0000; BYTE $0x00 // cmp    rcx, qword [rdx + 168]
+	LONG $0xb0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 176]
+	LONG $0x24549d0f; BYTE $0x0b               // setge    byte [rsp + 11]
+	LONG $0xb0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 176]
+	LONG $0xb8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 184]
+	LONG $0x24549d0f; BYTE $0x0c               // setge    byte [rsp + 12]
+	LONG $0xb8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 184]
+	LONG $0xc0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 192]
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0xc0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 192]
+	LONG $0xc8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 200]
+	LONG $0x24549d0f; BYTE $0x13               // setge    byte [rsp + 19]
+	LONG $0xc8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 200]
+	LONG $0xd0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 208]
+	LONG $0x24549d0f; BYTE $0x0d               // setge    byte [rsp + 13]
+	LONG $0xd0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 208]
+	LONG $0xd8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 216]
+	LONG $0x24549d0f; BYTE $0x0e               // setge    byte [rsp + 14]
+	LONG $0xd8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 216]
+	LONG $0xe0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 224]
+	LONG $0x24549d0f; BYTE $0x0f               // setge    byte [rsp + 15]
+	LONG $0xe0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 224]
+	LONG $0xe8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 232]
+	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
+	LONG $0xe8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 232]
+	LONG $0xf0868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 240]
+	LONG $0x24549d0f; BYTE $0x12               // setge    byte [rsp + 18]
+	LONG $0xf0823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 240]
+	LONG $0xf8868b48; WORD $0x0000; BYTE $0x00 // mov    rax, qword [rsi + 248]
+	LONG $0x24549d0f; BYTE $0x11               // setge    byte [rsp + 17]
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0xf8823b48; WORD $0x0000; BYTE $0x00 // cmp    rax, qword [rdx + 248]
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB9_107
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB9_109:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_111:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0xce3c8b48             // mov    rdi, qword [rsi + 8*rcx]
+	LONG $0xca3c3b48             // cmp    rdi, qword [rdx + 8*rcx]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_111
+	JMP  LBB9_123
+
+LBB9_112:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_116
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_114:
+	LONG $0x06100ff3               // movss    xmm0, dword [rsi]
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x2e0f; BYTE $0x02       // ucomiss    xmm0, dword [rdx]
+	LONG $0x04528d48               // lea    rdx, [rdx + 4]
+	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
+	LONG $0xffd28041               // adc    r10b, -1
+	LONG $0x07588d48               // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xd8490f48               // cmovns    rbx, rax
+	LONG $0x03fbc148               // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
+	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB9_114
+	LONG $0x01c68349               // add    r14, 1
+
+LBB9_116:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_120
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+	LONG $0x247c894c; BYTE $0x28 // mov    qword [rsp + 40], r15
+
+LBB9_118:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	LONG $0x06100ff3                           // movss    xmm0, dword [rsi]
+	LONG $0x4e100ff3; BYTE $0x04               // movss    xmm1, dword [rsi + 4]
+	WORD $0x2e0f; BYTE $0x02                   // ucomiss    xmm0, dword [rdx]
+	LONG $0x2454930f; BYTE $0x04               // setae    byte [rsp + 4]
+	LONG $0x044a2e0f                           // ucomiss    xmm1, dword [rdx + 4]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x46100ff3; BYTE $0x08               // movss    xmm0, dword [rsi + 8]
+	LONG $0x08422e0f                           // ucomiss    xmm0, dword [rdx + 8]
+	LONG $0x46100ff3; BYTE $0x0c               // movss    xmm0, dword [rsi + 12]
+	LONG $0x2454930f; BYTE $0x05               // setae    byte [rsp + 5]
+	LONG $0x0c422e0f                           // ucomiss    xmm0, dword [rdx + 12]
+	LONG $0x2454930f; BYTE $0x16               // setae    byte [rsp + 22]
+	LONG $0x46100ff3; BYTE $0x10               // movss    xmm0, dword [rsi + 16]
+	LONG $0x10422e0f                           // ucomiss    xmm0, dword [rdx + 16]
+	LONG $0x46100ff3; BYTE $0x14               // movss    xmm0, dword [rsi + 20]
+	LONG $0x2454930f; BYTE $0x15               // setae    byte [rsp + 21]
+	LONG $0x14422e0f                           // ucomiss    xmm0, dword [rdx + 20]
+	LONG $0x2454930f; BYTE $0x17               // setae    byte [rsp + 23]
+	LONG $0x46100ff3; BYTE $0x18               // movss    xmm0, dword [rsi + 24]
+	LONG $0x18422e0f                           // ucomiss    xmm0, dword [rdx + 24]
+	LONG $0x46100ff3; BYTE $0x1c               // movss    xmm0, dword [rsi + 28]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x1c422e0f                           // ucomiss    xmm0, dword [rdx + 28]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x46100ff3; BYTE $0x20               // movss    xmm0, dword [rsi + 32]
+	LONG $0x20422e0f                           // ucomiss    xmm0, dword [rdx + 32]
+	LONG $0x46100ff3; BYTE $0x24               // movss    xmm0, dword [rsi + 36]
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	LONG $0x24422e0f                           // ucomiss    xmm0, dword [rdx + 36]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x46100ff3; BYTE $0x28               // movss    xmm0, dword [rsi + 40]
+	LONG $0x28422e0f                           // ucomiss    xmm0, dword [rdx + 40]
+	LONG $0x46100ff3; BYTE $0x2c               // movss    xmm0, dword [rsi + 44]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x2c422e0f                           // ucomiss    xmm0, dword [rdx + 44]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x46100ff3; BYTE $0x30               // movss    xmm0, dword [rsi + 48]
+	LONG $0x30422e0f                           // ucomiss    xmm0, dword [rdx + 48]
+	LONG $0x46100ff3; BYTE $0x34               // movss    xmm0, dword [rsi + 52]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x34422e0f                           // ucomiss    xmm0, dword [rdx + 52]
+	LONG $0x2454930f; BYTE $0x07               // setae    byte [rsp + 7]
+	LONG $0x46100ff3; BYTE $0x38               // movss    xmm0, dword [rsi + 56]
+	LONG $0x38422e0f                           // ucomiss    xmm0, dword [rdx + 56]
+	LONG $0x46100ff3; BYTE $0x3c               // movss    xmm0, dword [rsi + 60]
+	LONG $0x2454930f; BYTE $0x06               // setae    byte [rsp + 6]
+	LONG $0x3c422e0f                           // ucomiss    xmm0, dword [rdx + 60]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x46100ff3; BYTE $0x40               // movss    xmm0, dword [rsi + 64]
+	LONG $0x40422e0f                           // ucomiss    xmm0, dword [rdx + 64]
+	LONG $0x46100ff3; BYTE $0x44               // movss    xmm0, dword [rsi + 68]
+	LONG $0x2454930f; BYTE $0x0e               // setae    byte [rsp + 14]
+	LONG $0x44422e0f                           // ucomiss    xmm0, dword [rdx + 68]
+	LONG $0x46100ff3; BYTE $0x48               // movss    xmm0, dword [rsi + 72]
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x48422e0f                           // ucomiss    xmm0, dword [rdx + 72]
+	LONG $0x46100ff3; BYTE $0x4c               // movss    xmm0, dword [rsi + 76]
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x4c422e0f                           // ucomiss    xmm0, dword [rdx + 76]
+	LONG $0x46100ff3; BYTE $0x50               // movss    xmm0, dword [rsi + 80]
+	LONG $0x2454930f; BYTE $0x09               // setae    byte [rsp + 9]
+	LONG $0x50422e0f                           // ucomiss    xmm0, dword [rdx + 80]
+	LONG $0x46100ff3; BYTE $0x54               // movss    xmm0, dword [rsi + 84]
+	LONG $0x2454930f; BYTE $0x0a               // setae    byte [rsp + 10]
+	LONG $0x54422e0f                           // ucomiss    xmm0, dword [rdx + 84]
+	LONG $0x46100ff3; BYTE $0x58               // movss    xmm0, dword [rsi + 88]
+	LONG $0x2454930f; BYTE $0x0b               // setae    byte [rsp + 11]
+	LONG $0x58422e0f                           // ucomiss    xmm0, dword [rdx + 88]
+	LONG $0x46100ff3; BYTE $0x5c               // movss    xmm0, dword [rsi + 92]
+	LONG $0x2454930f; BYTE $0x0c               // setae    byte [rsp + 12]
+	LONG $0x5c422e0f                           // ucomiss    xmm0, dword [rdx + 92]
+	LONG $0x46100ff3; BYTE $0x60               // movss    xmm0, dword [rsi + 96]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x60422e0f                           // ucomiss    xmm0, dword [rdx + 96]
+	LONG $0x46100ff3; BYTE $0x64               // movss    xmm0, dword [rsi + 100]
+	LONG $0x2454930f; BYTE $0x14               // setae    byte [rsp + 20]
+	LONG $0x64422e0f                           // ucomiss    xmm0, dword [rdx + 100]
+	LONG $0x46100ff3; BYTE $0x68               // movss    xmm0, dword [rsi + 104]
+	LONG $0x2454930f; BYTE $0x0d               // setae    byte [rsp + 13]
+	LONG $0x68422e0f                           // ucomiss    xmm0, dword [rdx + 104]
+	LONG $0x46100ff3; BYTE $0x6c               // movss    xmm0, dword [rsi + 108]
+	LONG $0x2454930f; BYTE $0x0f               // setae    byte [rsp + 15]
+	LONG $0x6c422e0f                           // ucomiss    xmm0, dword [rdx + 108]
+	LONG $0x46100ff3; BYTE $0x70               // movss    xmm0, dword [rsi + 112]
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	LONG $0x70422e0f                           // ucomiss    xmm0, dword [rdx + 112]
+	LONG $0x46100ff3; BYTE $0x74               // movss    xmm0, dword [rsi + 116]
+	LONG $0x2454930f; BYTE $0x11               // setae    byte [rsp + 17]
+	LONG $0x74422e0f                           // ucomiss    xmm0, dword [rdx + 116]
+	LONG $0x46100ff3; BYTE $0x78               // movss    xmm0, dword [rsi + 120]
+	LONG $0x2454930f; BYTE $0x13               // setae    byte [rsp + 19]
+	LONG $0x78422e0f                           // ucomiss    xmm0, dword [rdx + 120]
+	LONG $0x46100ff3; BYTE $0x7c               // movss    xmm0, dword [rsi + 124]
+	LONG $0x2454930f; BYTE $0x12               // setae    byte [rsp + 18]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	LONG $0x7c422e0f                           // ucomiss    xmm0, dword [rdx + 124]
+	LONG $0xd7930f40                           // setae    dil
+	WORD $0xc000                               // add    al, al
+	LONG $0x04244402                           // add    al, byte [rsp + 4]
+	LONG $0x06e5c041                           // shl    r13b, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0845; BYTE $0xef                   // or    r15b, r13b
+	LONG $0x6cb60f44; WORD $0x0524             // movzx    r13d, byte [rsp + 5]
+	LONG $0x02e5c041                           // shl    r13b, 2
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	WORD $0x8944; BYTE $0xe8                   // mov    eax, r13d
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x08244c02                           // add    cl, byte [rsp + 8]
+	LONG $0x6cb60f44; WORD $0x1624             // movzx    r13d, byte [rsp + 22]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	WORD $0x8941; BYTE $0xcd                   // mov    r13d, ecx
+	LONG $0x03e3c041                           // shl    r11b, 3
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xda                   // or    r10b, r11b
+	LONG $0x2444b60f; BYTE $0x07               // movzx    eax, byte [rsp + 7]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd0                   // or    al, r10b
+	LONG $0x4cb60f44; WORD $0x0624             // movzx    r9d, byte [rsp + 6]
+	LONG $0x06e1c041                           // shl    r9b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xcb                   // or    bl, r9b
+	WORD $0x0841; BYTE $0xcf                   // or    r15b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xf6                   // add    r14b, r14b
+	LONG $0x24740244; BYTE $0x0e               // add    r14b, byte [rsp + 14]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x09               // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a               // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x3e                   // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x14244402                           // add    al, byte [rsp + 20]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11               // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x13               // movzx    ecx, byte [rsp + 19]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xc108                               // or    cl, al
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x02468845                           // mov    byte [r14 + 2], r8b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff28             // add    qword [rsp + 40], -1
+	JNE  LBB9_118
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+
+LBB9_120:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_122:
+	LONG $0x04100ff3; BYTE $0x8e // movss    xmm0, dword [rsi + 4*rcx]
+	LONG $0x8a042e0f             // ucomiss    xmm0, dword [rdx + 4*rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_122
+	JMP  LBB9_123
+
+LBB9_57:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_61
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_59:
+	WORD $0xb60f; BYTE $0x0e       // movzx    ecx, byte [rsi]
+	LONG $0x01c68348               // add    rsi, 1
+	WORD $0x0a3a                   // cmp    cl, byte [rdx]
+	LONG $0x01528d48               // lea    rdx, [rdx + 1]
+	LONG $0x0000ba41; WORD $0x0000 // mov    r10d, 0
+	LONG $0xffd28041               // adc    r10b, -1
+	LONG $0x07588d48               // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0       // test    rax, rax
+	LONG $0xd8490f48               // cmovns    rbx, rax
+	LONG $0x03fbc148               // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e   // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3045; BYTE $0xc2       // xor    r10b, r8b
+	QUAD $0x00000000dd0c8d44       // lea    r9d, [8*rbx]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9       // sub    ecx, r9d
+	LONG $0x000001bf; BYTE $0x00   // mov    edi, 1
+	WORD $0xe7d3                   // shl    edi, cl
+	WORD $0x2044; BYTE $0xd7       // and    dil, r10b
+	WORD $0x3044; BYTE $0xc7       // xor    dil, r8b
+	LONG $0x1e3c8841               // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348               // add    rax, 1
+	LONG $0x08f88348               // cmp    rax, 8
+	JNE  LBB9_59
+	LONG $0x01c68349               // add    r14, 1
+
+LBB9_61:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_65
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+	LONG $0x247c894c; BYTE $0x20 // mov    qword [rsp + 32], r15
+
+LBB9_63:
+	LONG $0x2474894c; BYTE $0x30   // mov    qword [rsp + 48], r14
+	WORD $0xb60f; BYTE $0x06       // movzx    eax, byte [rsi]
+	LONG $0x014eb60f               // movzx    ecx, byte [rsi + 1]
+	WORD $0x023a                   // cmp    al, byte [rdx]
+	LONG $0x2454930f; BYTE $0x28   // setae    byte [rsp + 40]
+	WORD $0x4a3a; BYTE $0x01       // cmp    cl, byte [rdx + 1]
+	WORD $0x930f; BYTE $0xd1       // setae    cl
+	LONG $0x0246b60f               // movzx    eax, byte [rsi + 2]
+	WORD $0x423a; BYTE $0x02       // cmp    al, byte [rdx + 2]
+	LONG $0x2454930f; BYTE $0x14   // setae    byte [rsp + 20]
+	LONG $0x0346b60f               // movzx    eax, byte [rsi + 3]
+	WORD $0x423a; BYTE $0x03       // cmp    al, byte [rdx + 3]
+	LONG $0x2454930f; BYTE $0x15   // setae    byte [rsp + 21]
+	LONG $0x0446b60f               // movzx    eax, byte [rsi + 4]
+	WORD $0x423a; BYTE $0x04       // cmp    al, byte [rdx + 4]
+	LONG $0x2454930f; BYTE $0x16   // setae    byte [rsp + 22]
+	LONG $0x0546b60f               // movzx    eax, byte [rsi + 5]
+	WORD $0x423a; BYTE $0x05       // cmp    al, byte [rdx + 5]
+	LONG $0x2454930f; BYTE $0x17   // setae    byte [rsp + 23]
+	LONG $0x0646b60f               // movzx    eax, byte [rsi + 6]
+	WORD $0x423a; BYTE $0x06       // cmp    al, byte [rdx + 6]
+	LONG $0x2454930f; BYTE $0x04   // setae    byte [rsp + 4]
+	LONG $0x0746b60f               // movzx    eax, byte [rsi + 7]
+	WORD $0x423a; BYTE $0x07       // cmp    al, byte [rdx + 7]
+	LONG $0xd7930f41               // setae    r15b
+	LONG $0x0846b60f               // movzx    eax, byte [rsi + 8]
+	WORD $0x423a; BYTE $0x08       // cmp    al, byte [rdx + 8]
+	LONG $0x2454930f; BYTE $0x07   // setae    byte [rsp + 7]
+	LONG $0x0946b60f               // movzx    eax, byte [rsi + 9]
+	WORD $0x423a; BYTE $0x09       // cmp    al, byte [rdx + 9]
+	LONG $0xd7930f40               // setae    dil
+	LONG $0x0a46b60f               // movzx    eax, byte [rsi + 10]
+	WORD $0x423a; BYTE $0x0a       // cmp    al, byte [rdx + 10]
+	LONG $0xd2930f41               // setae    r10b
+	LONG $0x0b46b60f               // movzx    eax, byte [rsi + 11]
+	WORD $0x423a; BYTE $0x0b       // cmp    al, byte [rdx + 11]
+	LONG $0xd3930f41               // setae    r11b
+	LONG $0x0c46b60f               // movzx    eax, byte [rsi + 12]
+	WORD $0x423a; BYTE $0x0c       // cmp    al, byte [rdx + 12]
+	LONG $0xd6930f41               // setae    r14b
+	LONG $0x0d46b60f               // movzx    eax, byte [rsi + 13]
+	WORD $0x423a; BYTE $0x0d       // cmp    al, byte [rdx + 13]
+	LONG $0x2454930f; BYTE $0x05   // setae    byte [rsp + 5]
+	LONG $0x0e46b60f               // movzx    eax, byte [rsi + 14]
+	WORD $0x423a; BYTE $0x0e       // cmp    al, byte [rdx + 14]
+	LONG $0x2454930f; BYTE $0x06   // setae    byte [rsp + 6]
+	LONG $0x0f46b60f               // movzx    eax, byte [rsi + 15]
+	WORD $0x423a; BYTE $0x0f       // cmp    al, byte [rdx + 15]
+	WORD $0x930f; BYTE $0xd3       // setae    bl
+	LONG $0x1046b60f               // movzx    eax, byte [rsi + 16]
+	WORD $0x423a; BYTE $0x10       // cmp    al, byte [rdx + 16]
+	LONG $0x2454930f; BYTE $0x0d   // setae    byte [rsp + 13]
+	LONG $0x1146b60f               // movzx    eax, byte [rsi + 17]
+	WORD $0x423a; BYTE $0x11       // cmp    al, byte [rdx + 17]
+	LONG $0xd4930f41               // setae    r12b
+	LONG $0x1246b60f               // movzx    eax, byte [rsi + 18]
+	WORD $0x423a; BYTE $0x12       // cmp    al, byte [rdx + 18]
+	LONG $0xd5930f41               // setae    r13b
+	LONG $0x1346b60f               // movzx    eax, byte [rsi + 19]
+	WORD $0x423a; BYTE $0x13       // cmp    al, byte [rdx + 19]
+	LONG $0x2454930f; BYTE $0x08   // setae    byte [rsp + 8]
+	LONG $0x1446b60f               // movzx    eax, byte [rsi + 20]
+	WORD $0x423a; BYTE $0x14       // cmp    al, byte [rdx + 20]
+	LONG $0x2454930f; BYTE $0x09   // setae    byte [rsp + 9]
+	LONG $0x1546b60f               // movzx    eax, byte [rsi + 21]
+	WORD $0x423a; BYTE $0x15       // cmp    al, byte [rdx + 21]
+	LONG $0x2454930f; BYTE $0x0a   // setae    byte [rsp + 10]
+	LONG $0x1646b60f               // movzx    eax, byte [rsi + 22]
+	WORD $0x423a; BYTE $0x16       // cmp    al, byte [rdx + 22]
+	LONG $0x2454930f; BYTE $0x0b   // setae    byte [rsp + 11]
+	LONG $0x1746b60f               // movzx    eax, byte [rsi + 23]
+	WORD $0x423a; BYTE $0x17       // cmp    al, byte [rdx + 23]
+	LONG $0xd1930f41               // setae    r9b
+	LONG $0x1846b60f               // movzx    eax, byte [rsi + 24]
+	WORD $0x423a; BYTE $0x18       // cmp    al, byte [rdx + 24]
+	LONG $0x2454930f; BYTE $0x13   // setae    byte [rsp + 19]
+	LONG $0x1946b60f               // movzx    eax, byte [rsi + 25]
+	WORD $0x423a; BYTE $0x19       // cmp    al, byte [rdx + 25]
+	LONG $0x2454930f; BYTE $0x0c   // setae    byte [rsp + 12]
+	LONG $0x1a46b60f               // movzx    eax, byte [rsi + 26]
+	WORD $0x423a; BYTE $0x1a       // cmp    al, byte [rdx + 26]
+	LONG $0x2454930f; BYTE $0x0e   // setae    byte [rsp + 14]
+	LONG $0x1b46b60f               // movzx    eax, byte [rsi + 27]
+	WORD $0x423a; BYTE $0x1b       // cmp    al, byte [rdx + 27]
+	LONG $0x2454930f; BYTE $0x0f   // setae    byte [rsp + 15]
+	LONG $0x1c46b60f               // movzx    eax, byte [rsi + 28]
+	WORD $0x423a; BYTE $0x1c       // cmp    al, byte [rdx + 28]
+	LONG $0x2454930f; BYTE $0x10   // setae    byte [rsp + 16]
+	LONG $0x1d46b60f               // movzx    eax, byte [rsi + 29]
+	WORD $0x423a; BYTE $0x1d       // cmp    al, byte [rdx + 29]
+	LONG $0x2454930f; BYTE $0x11   // setae    byte [rsp + 17]
+	LONG $0x1e46b60f               // movzx    eax, byte [rsi + 30]
+	WORD $0x423a; BYTE $0x1e       // cmp    al, byte [rdx + 30]
+	LONG $0x2454930f; BYTE $0x12   // setae    byte [rsp + 18]
+	LONG $0x1f46b60f               // movzx    eax, byte [rsi + 31]
+	LONG $0x20c68348               // add    rsi, 32
+	WORD $0x423a; BYTE $0x1f       // cmp    al, byte [rdx + 31]
+	LONG $0xd0930f41               // setae    r8b
+	WORD $0xc900                   // add    cl, cl
+	LONG $0x28244c02               // add    cl, byte [rsp + 40]
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x244cb60f; BYTE $0x04   // movzx    ecx, byte [rsp + 4]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e7c041               // shl    r15b, 7
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	LONG $0x244cb60f; BYTE $0x14   // movzx    ecx, byte [rsp + 20]
+	WORD $0xe1c0; BYTE $0x02       // shl    cl, 2
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	WORD $0x0040; BYTE $0xff       // add    dil, dil
+	LONG $0x247c0240; BYTE $0x07   // add    dil, byte [rsp + 7]
+	LONG $0x244cb60f; BYTE $0x15   // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03       // shl    cl, 3
+	WORD $0xc108                   // or    cl, al
+	WORD $0xc889                   // mov    eax, ecx
+	LONG $0x02e2c041               // shl    r10b, 2
+	WORD $0x0841; BYTE $0xfa       // or    r10b, dil
+	LONG $0x244cb60f; BYTE $0x16   // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04       // shl    cl, 4
+	WORD $0xc108                   // or    cl, al
+	WORD $0xcf89                   // mov    edi, ecx
+	LONG $0x03e3c041               // shl    r11b, 3
+	WORD $0x0845; BYTE $0xd3       // or    r11b, r10b
+	LONG $0x244cb60f; BYTE $0x17   // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05       // shl    cl, 5
+	WORD $0x0840; BYTE $0xf9       // or    cl, dil
+	LONG $0x04e6c041               // shl    r14b, 4
+	WORD $0x0845; BYTE $0xde       // or    r14b, r11b
+	LONG $0x2444b60f; BYTE $0x05   // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0x0844; BYTE $0xf0       // or    al, r14b
+	LONG $0x247cb60f; BYTE $0x06   // movzx    edi, byte [rsp + 6]
+	LONG $0x06e7c040               // shl    dil, 6
+	WORD $0xe3c0; BYTE $0x07       // shl    bl, 7
+	WORD $0x0840; BYTE $0xfb       // or    bl, dil
+	WORD $0x0841; BYTE $0xcf       // or    r15b, cl
+	WORD $0xc308                   // or    bl, al
+	WORD $0x0045; BYTE $0xe4       // add    r12b, r12b
+	LONG $0x24640244; BYTE $0x0d   // add    r12b, byte [rsp + 13]
+	LONG $0x02e5c041               // shl    r13b, 2
+	WORD $0x0845; BYTE $0xe5       // or    r13b, r12b
+	LONG $0x24748b4c; BYTE $0x30   // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x08   // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0x0844; BYTE $0xe8       // or    al, r13b
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x09   // movzx    eax, byte [rsp + 9]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0a   // movzx    eax, byte [rsp + 10]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	WORD $0x8845; BYTE $0x3e       // mov    byte [r14], r15b
+	LONG $0x244cb60f; BYTE $0x0b   // movzx    ecx, byte [rsp + 11]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e1c041               // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9       // or    r9b, cl
+	LONG $0x015e8841               // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1       // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0c   // movzx    eax, byte [rsp + 12]
+	WORD $0xc000                   // add    al, al
+	LONG $0x13244402               // add    al, byte [rsp + 19]
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e   // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02       // shl    al, 2
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f   // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03       // shl    al, 3
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10   // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04       // shl    al, 4
+	WORD $0xc808                   // or    al, cl
+	WORD $0xc189                   // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x11   // movzx    eax, byte [rsp + 17]
+	WORD $0xe0c0; BYTE $0x05       // shl    al, 5
+	WORD $0xc808                   // or    al, cl
+	LONG $0x244cb60f; BYTE $0x12   // movzx    ecx, byte [rsp + 18]
+	WORD $0xe1c0; BYTE $0x06       // shl    cl, 6
+	LONG $0x07e0c041               // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8       // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0       // or    r8b, al
+	LONG $0x024e8845               // mov    byte [r14 + 2], r9b
+	LONG $0x03468845               // mov    byte [r14 + 3], r8b
+	LONG $0x20c28348               // add    rdx, 32
+	LONG $0x04c68349               // add    r14, 4
+	LONG $0x24448348; WORD $0xff20 // add    qword [rsp + 32], -1
+	JNE  LBB9_63
+	LONG $0x245c8b4c; BYTE $0x18   // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x38   // mov    r15, qword [rsp + 56]
+
+LBB9_65:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_67:
+	LONG $0x0e04b60f             // movzx    eax, byte [rsi + rcx]
+	WORD $0x043a; BYTE $0x0a     // cmp    al, byte [rdx + rcx]
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x8948; BYTE $0xcb     // mov    rbx, rcx
+	LONG $0x03ebc148             // shr    rbx, 3
+	LONG $0x0cb60f45; BYTE $0x1e // movzx    r9d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x1e048841             // mov    byte [r14 + rbx], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_67
+	JMP  LBB9_123
+
+LBB9_90:
+	LONG $0x1f7b8d4d         // lea    r15, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xfb490f4d         // cmovns    r15, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB9_94
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB9_92:
+	WORD $0x0e8b                 // mov    ecx, dword [rsi]
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x0a3b                 // cmp    ecx, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0xd29d0f41             // setge    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x04b60f45; BYTE $0x3e // movzx    r8d, byte [r14 + rdi]
+	WORD $0x3045; BYTE $0xc2     // xor    r10b, r8b
+	QUAD $0x00000000fd0c8d44     // lea    r9d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc9     // sub    ecx, r9d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2044; BYTE $0xd3     // and    bl, r10b
+	WORD $0x3044; BYTE $0xc3     // xor    bl, r8b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB9_92
+	LONG $0x01c68349             // add    r14, 1
+
+LBB9_94:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fb8349             // cmp    r11, 32
+	JL   LBB9_98
+	LONG $0x245c894c; BYTE $0x18 // mov    qword [rsp + 24], r11
+	LONG $0x247c894c; BYTE $0x40 // mov    qword [rsp + 64], r15
+	LONG $0x247c894c; BYTE $0x38 // mov    qword [rsp + 56], r15
+
+LBB9_96:
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	WORD $0x068b                               // mov    eax, dword [rsi]
+	WORD $0x4e8b; BYTE $0x04                   // mov    ecx, dword [rsi + 4]
+	WORD $0x023b                               // cmp    eax, dword [rdx]
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	WORD $0x4a3b; BYTE $0x04                   // cmp    ecx, dword [rdx + 4]
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	WORD $0x468b; BYTE $0x08                   // mov    eax, dword [rsi + 8]
+	WORD $0x423b; BYTE $0x08                   // cmp    eax, dword [rdx + 8]
+	LONG $0x24549d0f; BYTE $0x14               // setge    byte [rsp + 20]
+	WORD $0x468b; BYTE $0x0c                   // mov    eax, dword [rsi + 12]
+	WORD $0x423b; BYTE $0x0c                   // cmp    eax, dword [rdx + 12]
+	LONG $0x24549d0f; BYTE $0x15               // setge    byte [rsp + 21]
+	WORD $0x468b; BYTE $0x10                   // mov    eax, dword [rsi + 16]
+	WORD $0x423b; BYTE $0x10                   // cmp    eax, dword [rdx + 16]
+	LONG $0x24549d0f; BYTE $0x16               // setge    byte [rsp + 22]
+	WORD $0x468b; BYTE $0x14                   // mov    eax, dword [rsi + 20]
+	WORD $0x423b; BYTE $0x14                   // cmp    eax, dword [rdx + 20]
+	LONG $0x24549d0f; BYTE $0x17               // setge    byte [rsp + 23]
+	WORD $0x468b; BYTE $0x18                   // mov    eax, dword [rsi + 24]
+	WORD $0x423b; BYTE $0x18                   // cmp    eax, dword [rdx + 24]
+	LONG $0x24549d0f; BYTE $0x04               // setge    byte [rsp + 4]
+	WORD $0x468b; BYTE $0x1c                   // mov    eax, dword [rsi + 28]
+	WORD $0x423b; BYTE $0x1c                   // cmp    eax, dword [rdx + 28]
+	LONG $0xd59d0f41                           // setge    r13b
+	WORD $0x468b; BYTE $0x20                   // mov    eax, dword [rsi + 32]
+	WORD $0x423b; BYTE $0x20                   // cmp    eax, dword [rdx + 32]
+	LONG $0x24549d0f; BYTE $0x09               // setge    byte [rsp + 9]
+	WORD $0x468b; BYTE $0x24                   // mov    eax, dword [rsi + 36]
+	WORD $0x423b; BYTE $0x24                   // cmp    eax, dword [rdx + 36]
+	LONG $0xd09d0f41                           // setge    r8b
+	WORD $0x468b; BYTE $0x28                   // mov    eax, dword [rsi + 40]
+	WORD $0x423b; BYTE $0x28                   // cmp    eax, dword [rdx + 40]
+	LONG $0xd39d0f41                           // setge    r11b
+	WORD $0x468b; BYTE $0x2c                   // mov    eax, dword [rsi + 44]
+	WORD $0x423b; BYTE $0x2c                   // cmp    eax, dword [rdx + 44]
+	LONG $0xd79d0f41                           // setge    r15b
+	WORD $0x468b; BYTE $0x30                   // mov    eax, dword [rsi + 48]
+	WORD $0x423b; BYTE $0x30                   // cmp    eax, dword [rdx + 48]
+	LONG $0x24549d0f; BYTE $0x05               // setge    byte [rsp + 5]
+	WORD $0x468b; BYTE $0x34                   // mov    eax, dword [rsi + 52]
+	WORD $0x423b; BYTE $0x34                   // cmp    eax, dword [rdx + 52]
+	LONG $0x24549d0f; BYTE $0x06               // setge    byte [rsp + 6]
+	WORD $0x468b; BYTE $0x38                   // mov    eax, dword [rsi + 56]
+	WORD $0x423b; BYTE $0x38                   // cmp    eax, dword [rdx + 56]
+	LONG $0x24549d0f; BYTE $0x07               // setge    byte [rsp + 7]
+	WORD $0x468b; BYTE $0x3c                   // mov    eax, dword [rsi + 60]
+	WORD $0x423b; BYTE $0x3c                   // cmp    eax, dword [rdx + 60]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	WORD $0x468b; BYTE $0x40                   // mov    eax, dword [rsi + 64]
+	WORD $0x4e8b; BYTE $0x44                   // mov    ecx, dword [rsi + 68]
+	WORD $0x423b; BYTE $0x40                   // cmp    eax, dword [rdx + 64]
+	WORD $0x468b; BYTE $0x48                   // mov    eax, dword [rsi + 72]
+	LONG $0x24549d0f; BYTE $0x0a               // setge    byte [rsp + 10]
+	WORD $0x4a3b; BYTE $0x44                   // cmp    ecx, dword [rdx + 68]
+	WORD $0x4e8b; BYTE $0x4c                   // mov    ecx, dword [rsi + 76]
+	LONG $0xd29d0f41                           // setge    r10b
+	WORD $0x423b; BYTE $0x48                   // cmp    eax, dword [rdx + 72]
+	WORD $0x468b; BYTE $0x50                   // mov    eax, dword [rsi + 80]
+	LONG $0xd69d0f41                           // setge    r14b
+	WORD $0x4a3b; BYTE $0x4c                   // cmp    ecx, dword [rdx + 76]
+	WORD $0x4e8b; BYTE $0x54                   // mov    ecx, dword [rsi + 84]
+	LONG $0xd49d0f41                           // setge    r12b
+	WORD $0x423b; BYTE $0x50                   // cmp    eax, dword [rdx + 80]
+	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
+	WORD $0x4a3b; BYTE $0x54                   // cmp    ecx, dword [rdx + 84]
+	WORD $0x468b; BYTE $0x58                   // mov    eax, dword [rsi + 88]
+	LONG $0x24549d0f; BYTE $0x0b               // setge    byte [rsp + 11]
+	WORD $0x423b; BYTE $0x58                   // cmp    eax, dword [rdx + 88]
+	WORD $0x468b; BYTE $0x5c                   // mov    eax, dword [rsi + 92]
+	LONG $0x24549d0f; BYTE $0x0c               // setge    byte [rsp + 12]
+	WORD $0x423b; BYTE $0x5c                   // cmp    eax, dword [rdx + 92]
+	WORD $0x468b; BYTE $0x60                   // mov    eax, dword [rsi + 96]
+	LONG $0xd19d0f41                           // setge    r9b
+	WORD $0x423b; BYTE $0x60                   // cmp    eax, dword [rdx + 96]
+	WORD $0x468b; BYTE $0x64                   // mov    eax, dword [rsi + 100]
+	LONG $0x24549d0f; BYTE $0x13               // setge    byte [rsp + 19]
+	WORD $0x423b; BYTE $0x64                   // cmp    eax, dword [rdx + 100]
+	WORD $0x468b; BYTE $0x68                   // mov    eax, dword [rsi + 104]
+	LONG $0x24549d0f; BYTE $0x0d               // setge    byte [rsp + 13]
+	WORD $0x423b; BYTE $0x68                   // cmp    eax, dword [rdx + 104]
+	WORD $0x468b; BYTE $0x6c                   // mov    eax, dword [rsi + 108]
+	LONG $0x24549d0f; BYTE $0x0e               // setge    byte [rsp + 14]
+	WORD $0x423b; BYTE $0x6c                   // cmp    eax, dword [rdx + 108]
+	WORD $0x468b; BYTE $0x70                   // mov    eax, dword [rsi + 112]
+	LONG $0x24549d0f; BYTE $0x0f               // setge    byte [rsp + 15]
+	WORD $0x423b; BYTE $0x70                   // cmp    eax, dword [rdx + 112]
+	WORD $0x468b; BYTE $0x74                   // mov    eax, dword [rsi + 116]
+	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
+	WORD $0x423b; BYTE $0x74                   // cmp    eax, dword [rdx + 116]
+	WORD $0x468b; BYTE $0x78                   // mov    eax, dword [rsi + 120]
+	LONG $0x24549d0f; BYTE $0x12               // setge    byte [rsp + 18]
+	WORD $0x423b; BYTE $0x78                   // cmp    eax, dword [rdx + 120]
+	WORD $0x468b; BYTE $0x7c                   // mov    eax, dword [rsi + 124]
+	LONG $0x24549d0f; BYTE $0x11               // setge    byte [rsp + 17]
+	LONG $0x80ee8348                           // sub    rsi, -128
+	WORD $0x423b; BYTE $0x7c                   // cmp    eax, dword [rdx + 124]
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xc000                               // add    al, al
+	LONG $0x28244402                           // add    al, byte [rsp + 40]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x04               // movzx    eax, byte [rsp + 4]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e5c041                           // shl    r13b, 7
+	WORD $0x0841; BYTE $0xc5                   // or    r13b, al
+	LONG $0x2444b60f; BYTE $0x14               // movzx    eax, byte [rsp + 20]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	LONG $0x24440244; BYTE $0x09               // add    r8b, byte [rsp + 9]
+	LONG $0x244cb60f; BYTE $0x15               // movzx    ecx, byte [rsp + 21]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xc108                               // or    cl, al
+	WORD $0xc889                               // mov    eax, ecx
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xc3                   // or    r11b, r8b
+	LONG $0x244cb60f; BYTE $0x16               // movzx    ecx, byte [rsp + 22]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xdf                   // or    r15b, r11b
+	LONG $0x244cb60f; BYTE $0x17               // movzx    ecx, byte [rsp + 23]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x2444b60f; BYTE $0x05               // movzx    eax, byte [rsp + 5]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xf8                   // or    al, r15b
+	WORD $0x8941; BYTE $0xc0                   // mov    r8d, eax
+	LONG $0x2444b60f; BYTE $0x06               // movzx    eax, byte [rsp + 6]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xc0                   // or    al, r8b
+	LONG $0x44b60f44; WORD $0x0724             // movzx    r8d, byte [rsp + 7]
+	LONG $0x06e0c041                           // shl    r8b, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0844; BYTE $0xc3                   // or    bl, r8b
+	WORD $0x0841; BYTE $0xcd                   // or    r13b, cl
+	WORD $0xc308                               // or    bl, al
+	WORD $0x0045; BYTE $0xd2                   // add    r10b, r10b
+	LONG $0x24540244; BYTE $0x0a               // add    r10b, byte [rsp + 10]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xf4                   // or    r12b, r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	LONG $0x2444b60f; BYTE $0x0b               // movzx    eax, byte [rsp + 11]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0x8845; BYTE $0x2e                   // mov    byte [r14], r13b
+	LONG $0x244cb60f; BYTE $0x0c               // movzx    ecx, byte [rsp + 12]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc9                   // or    r9b, cl
+	LONG $0x015e8841                           // mov    byte [r14 + 1], bl
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x2444b60f; BYTE $0x0d               // movzx    eax, byte [rsp + 13]
+	WORD $0xc000                               // add    al, al
+	LONG $0x13244402                           // add    al, byte [rsp + 19]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0e               // movzx    eax, byte [rsp + 14]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x0f               // movzx    eax, byte [rsp + 15]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x12               // movzx    eax, byte [rsp + 18]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	LONG $0x244cb60f; BYTE $0x11               // movzx    ecx, byte [rsp + 17]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	WORD $0x0840; BYTE $0xc7                   // or    dil, al
+	LONG $0x024e8845                           // mov    byte [r14 + 2], r9b
+	LONG $0x037e8841                           // mov    byte [r14 + 3], dil
+	LONG $0x80c28148; WORD $0x0000; BYTE $0x00 // add    rdx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	LONG $0x24448348; WORD $0xff38             // add    qword [rsp + 56], -1
+	JNE  LBB9_96
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	LONG $0x247c8b4c; BYTE $0x40               // mov    r15, qword [rsp + 64]
+
+LBB9_98:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xdf // cmp    r15, r11
+	JGE  LBB9_123
+	WORD $0x294d; BYTE $0xfb // sub    r11, r15
+	WORD $0xc931             // xor    ecx, ecx
+
+LBB9_100:
+	LONG $0x01418d4c             // lea    r8, [rcx + 1]
+	WORD $0x3c8b; BYTE $0x8e     // mov    edi, dword [rsi + 4*rcx]
+	WORD $0x3c3b; BYTE $0x8a     // cmp    edi, dword [rdx + 4*rcx]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xcf     // mov    rdi, rcx
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xe180; BYTE $0x07     // and    cl, 7
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x894c; BYTE $0xc1     // mov    rcx, r8
+	WORD $0x394d; BYTE $0xc3     // cmp    r11, r8
+	JNE  LBB9_100
+
+LBB9_123:
+	SUBQ $8, SP
+	RET
+
+DATA LCDATA7<>+0x000(SB)/8, $0x0000000001010101
+DATA LCDATA7<>+0x008(SB)/8, $0x0000000000000000
+DATA LCDATA7<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA7<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA7<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA7<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA7<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA7<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA7<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA7<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA7<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA7<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA7<>+0x060(SB)/8, $0x8080808080808080
+DATA LCDATA7<>+0x068(SB)/8, $0x8080808080808080
+DATA LCDATA7<>+0x070(SB)/8, $0x0b030a0209010800
+DATA LCDATA7<>+0x078(SB)/8, $0x0f070e060d050c04
+DATA LCDATA7<>+0x080(SB)/8, $0x0202020202020202
+DATA LCDATA7<>+0x088(SB)/8, $0x0000000000000000
+DATA LCDATA7<>+0x090(SB)/8, $0x0404040404040404
+DATA LCDATA7<>+0x098(SB)/8, $0x0000000000000000
+DATA LCDATA7<>+0x0a0(SB)/8, $0x0808080808080808
+DATA LCDATA7<>+0x0a8(SB)/8, $0x0000000000000000
+DATA LCDATA7<>+0x0b0(SB)/8, $0x1010101010101010
+DATA LCDATA7<>+0x0b8(SB)/8, $0x0000000000000000
+DATA LCDATA7<>+0x0c0(SB)/8, $0x2020202020202020
+DATA LCDATA7<>+0x0c8(SB)/8, $0x0000000000000000
+DATA LCDATA7<>+0x0d0(SB)/8, $0x4040404040404040
+DATA LCDATA7<>+0x0d8(SB)/8, $0x0000000000000000
+DATA LCDATA7<>+0x0e0(SB)/8, $0x8080808080808080
+DATA LCDATA7<>+0x0e8(SB)/8, $0x0000000000000000
+DATA LCDATA7<>+0x0f0(SB)/8, $0x0f070e060d050c04
+DATA LCDATA7<>+0x0f8(SB)/8, $0x0000000000000000
+DATA LCDATA7<>+0x100(SB)/8, $0x0202020202020202
+DATA LCDATA7<>+0x108(SB)/8, $0x0202020202020202
+DATA LCDATA7<>+0x110(SB)/8, $0x0404040404040404
+DATA LCDATA7<>+0x118(SB)/8, $0x0404040404040404
+DATA LCDATA7<>+0x120(SB)/8, $0x0808080808080808
+DATA LCDATA7<>+0x128(SB)/8, $0x0808080808080808
+DATA LCDATA7<>+0x130(SB)/8, $0x1010101010101010
+DATA LCDATA7<>+0x138(SB)/8, $0x1010101010101010
+DATA LCDATA7<>+0x140(SB)/8, $0x2020202020202020
+DATA LCDATA7<>+0x148(SB)/8, $0x2020202020202020
+DATA LCDATA7<>+0x150(SB)/8, $0x4040404040404040
+DATA LCDATA7<>+0x158(SB)/8, $0x4040404040404040
+DATA LCDATA7<>+0x160(SB)/8, $0xffffffffffffffff
+DATA LCDATA7<>+0x168(SB)/8, $0xffffffffffffffff
+GLOBL LCDATA7<>(SB), 8, $368
+
+TEXT ·_comparison_greater_equal_arr_scalar_sse4(SB), $520-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $16, SP
+	ANDQ $-16, SP
+	MOVQ BP, 496(SP)
+	LEAQ LCDATA7<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	WORD $0x8949; BYTE $0xce // mov    r14, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB10_16
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB10_31
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB10_81
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB10_92
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB10_182
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_9
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_7:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
+	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB10_7
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB10_9:
+	LONG $0x05fbc149             // sar    r11, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB10_13
+	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
+	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
+	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
+
+LBB10_11:
+	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x000001502494930f                   // setae    byte [rsp + 336]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	QUAD $0x000000d02494930f                   // setae    byte [rsp + 208]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	QUAD $0x000001302494930f                   // setae    byte [rsp + 304]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x930f; BYTE $0xd2                   // setae    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	QUAD $0x000001002494930f                   // setae    byte [rsp + 256]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	QUAD $0x000000f02494930f                   // setae    byte [rsp + 240]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	QUAD $0x000000c02494930f                   // setae    byte [rsp + 192]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd0930f41                           // setae    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
+	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
+	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
+	JNE  LBB10_11
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
+
+LBB10_13:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB10_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB10_162
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_164
+
+LBB10_16:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB10_45
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB10_104
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB10_115
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB10_182
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_24
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_22:
+	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
+	WORD $0x960f; BYTE $0xd2     // setbe    dl
+	LONG $0x08c68348             // add    rsi, 8
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB10_22
+	LONG $0x01c68349             // add    r14, 1
+
+LBB10_24:
+	LONG $0x05fbc149             // sar    r11, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB10_28
+	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
+	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
+	QUAD $0x000000a0249c894c     // mov    qword [rsp + 160], r11
+
+LBB10_26:
+	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
+	LONG $0x062e0f66                           // ucomisd    xmm0, qword [rsi]
+	QUAD $0x000001502494960f                   // setbe    byte [rsp + 336]
+	LONG $0x462e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rsi + 8]
+	LONG $0xd1960f41                           // setbe    r9b
+	LONG $0x462e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rsi + 16]
+	LONG $0xd6960f41                           // setbe    r14b
+	LONG $0x462e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rsi + 24]
+	LONG $0xd5960f41                           // setbe    r13b
+	LONG $0x462e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rsi + 32]
+	QUAD $0x000000e02494960f                   // setbe    byte [rsp + 224]
+	LONG $0x462e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rsi + 40]
+	QUAD $0x000000d02494960f                   // setbe    byte [rsp + 208]
+	LONG $0x462e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rsi + 48]
+	WORD $0x960f; BYTE $0xd0                   // setbe    al
+	LONG $0x462e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rsi + 56]
+	WORD $0x960f; BYTE $0xd3                   // setbe    bl
+	LONG $0x462e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rsi + 64]
+	QUAD $0x000001002494960f                   // setbe    byte [rsp + 256]
+	LONG $0x462e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rsi + 72]
+	WORD $0x960f; BYTE $0xd2                   // setbe    dl
+	LONG $0x462e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rsi + 80]
+	LONG $0xd7960f40                           // setbe    dil
+	LONG $0x462e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rsi + 88]
+	LONG $0xd2960f41                           // setbe    r10b
+	LONG $0x462e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rsi + 96]
+	LONG $0xd3960f41                           // setbe    r11b
+	LONG $0x462e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rsi + 104]
+	LONG $0xd4960f41                           // setbe    r12b
+	LONG $0x462e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rsi + 112]
+	QUAD $0x000001102494960f                   // setbe    byte [rsp + 272]
+	LONG $0x462e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rsi + 120]
+	WORD $0x960f; BYTE $0xd1                   // setbe    cl
+	QUAD $0x00000080862e0f66                   // ucomisd    xmm0, qword [rsi + 128]
+	QUAD $0x000000b02494960f                   // setbe    byte [rsp + 176]
+	QUAD $0x00000088862e0f66                   // ucomisd    xmm0, qword [rsi + 136]
+	QUAD $0x000001302494960f                   // setbe    byte [rsp + 304]
+	QUAD $0x00000090862e0f66                   // ucomisd    xmm0, qword [rsi + 144]
+	QUAD $0x000001202494960f                   // setbe    byte [rsp + 288]
+	QUAD $0x00000098862e0f66                   // ucomisd    xmm0, qword [rsi + 152]
+	QUAD $0x000000f02494960f                   // setbe    byte [rsp + 240]
+	QUAD $0x000000a0862e0f66                   // ucomisd    xmm0, qword [rsi + 160]
+	QUAD $0x000000c02494960f                   // setbe    byte [rsp + 192]
+	QUAD $0x000000a8862e0f66                   // ucomisd    xmm0, qword [rsi + 168]
+	QUAD $0x000000902494960f                   // setbe    byte [rsp + 144]
+	QUAD $0x000000b0862e0f66                   // ucomisd    xmm0, qword [rsi + 176]
+	QUAD $0x000000802494960f                   // setbe    byte [rsp + 128]
+	QUAD $0x000000b8862e0f66                   // ucomisd    xmm0, qword [rsi + 184]
+	LONG $0xd7960f41                           // setbe    r15b
+	QUAD $0x000000c0862e0f66                   // ucomisd    xmm0, qword [rsi + 192]
+	LONG $0x2454960f; BYTE $0x30               // setbe    byte [rsp + 48]
+	QUAD $0x000000c8862e0f66                   // ucomisd    xmm0, qword [rsi + 200]
+	LONG $0x2454960f; BYTE $0x70               // setbe    byte [rsp + 112]
+	QUAD $0x000000d0862e0f66                   // ucomisd    xmm0, qword [rsi + 208]
+	LONG $0x2454960f; BYTE $0x60               // setbe    byte [rsp + 96]
+	QUAD $0x000000d8862e0f66                   // ucomisd    xmm0, qword [rsi + 216]
+	LONG $0x2454960f; BYTE $0x50               // setbe    byte [rsp + 80]
+	QUAD $0x000000e0862e0f66                   // ucomisd    xmm0, qword [rsi + 224]
+	LONG $0x2454960f; BYTE $0x20               // setbe    byte [rsp + 32]
+	QUAD $0x000000e8862e0f66                   // ucomisd    xmm0, qword [rsi + 232]
+	LONG $0x2454960f; BYTE $0x10               // setbe    byte [rsp + 16]
+	QUAD $0x000000f0862e0f66                   // ucomisd    xmm0, qword [rsi + 240]
+	LONG $0x2454960f; BYTE $0x08               // setbe    byte [rsp + 8]
+	QUAD $0x000000f8862e0f66                   // ucomisd    xmm0, qword [rsi + 248]
+	LONG $0xd0960f41                           // setbe    r8b
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x00000150248c0244                   // add    r9b, byte [rsp + 336]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xce                   // or    r14b, r9b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x00249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 256]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd1                   // mov    r9d, edx
+	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xca                   // or    dl, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x0000011024bcb60f                   // movzx    edi, byte [rsp + 272]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x000001302484b60f                   // movzx    eax, byte [rsp + 304]
+	WORD $0xc000                               // add    al, al
+	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
+	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
+	JNE  LBB10_26
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
+
+LBB10_28:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB10_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB10_166
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_168
+
+LBB10_31:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB10_58
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB10_182
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_37
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_35:
+	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	WORD $0x9d0f; BYTE $0xd2     // setge    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB10_35
+	LONG $0x01c68349             // add    r14, 1
+
+LBB10_37:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB10_127
+	LONG $0x10ff8349             // cmp    r15, 16
+	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
+	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
+	QUAD $0x000001b024bc894c     // mov    qword [rsp + 432], r15
+	JB   LBB10_41
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
+	JAE  LBB10_191
+	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB10_191
+
+LBB10_41:
+	WORD $0xc031                 // xor    eax, eax
+	QUAD $0x000000a024848948     // mov    qword [rsp + 160], rax
+	LONG $0x2474894c; BYTE $0x70 // mov    qword [rsp + 112], r14
+
+LBB10_42:
+	WORD $0x894d; BYTE $0xfe // mov    r14, r15
+	QUAD $0x000000a024b42b4c // sub    r14, qword [rsp + 160]
+	QUAD $0x0000017024b4894c // mov    qword [rsp + 368], r14
+
+LBB10_43:
+	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
+	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
+	QUAD $0x0000014024949d0f                   // setge    byte [rsp + 320]
+	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
+	LONG $0xd69d0f40                           // setge    sil
+	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
+	LONG $0xd49d0f41                           // setge    r12b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
+	QUAD $0x0000015024949d0f                   // setge    byte [rsp + 336]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
+	QUAD $0x0000013024949d0f                   // setge    byte [rsp + 304]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
+	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
+	LONG $0xd69d0f41                           // setge    r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
+	LONG $0xd59d0f41                           // setge    r13b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
+	QUAD $0x0000010024949d0f                   // setge    byte [rsp + 256]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
+	LONG $0xd09d0f41                           // setge    r8b
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
+	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
+	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
+	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
+	QUAD $0x000000f024949d0f                   // setge    byte [rsp + 240]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
+	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
+	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
+	QUAD $0x000000c024949d0f                   // setge    byte [rsp + 192]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	QUAD $0x0000016024949d0f                   // setge    byte [rsp + 352]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x0000014024b40240                   // add    sil, byte [rsp + 320]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0xc208                               // or    dl, al
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x05e5c041                           // shl    r13b, 5
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	QUAD $0x0000010024b4b60f                   // movzx    esi, byte [rsp + 256]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
+	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x10249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 272]
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
+	QUAD $0x000000c024bcb60f                   // movzx    edi, byte [rsp + 192]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
+	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
+	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xc000                               // add    al, al
+	LONG $0x80248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 128]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	QUAD $0x0000016024b4b60f                   // movzx    esi, byte [rsp + 352]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xc308                               // or    bl, al
+	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
+	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
+	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
+	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
+	LONG $0x04c28348                           // add    rdx, 4
+	LONG $0x24548948; BYTE $0x70               // mov    qword [rsp + 112], rdx
+	QUAD $0x0000017024848348; BYTE $0xff       // add    qword [rsp + 368], -1
+	JNE  LBB10_43
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x000001b024bc8b4c                   // mov    r15, qword [rsp + 432]
+	JMP  LBB10_128
+
+LBB10_45:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB10_70
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB10_182
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_51
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_49:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
+	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB10_49
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB10_51:
+	LONG $0x05fbc149             // sar    r11, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB10_55
+	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
+	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
+	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
+
+LBB10_53:
+	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x000001502494930f                   // setae    byte [rsp + 336]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	QUAD $0x000000d02494930f                   // setae    byte [rsp + 208]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	QUAD $0x000001302494930f                   // setae    byte [rsp + 304]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x930f; BYTE $0xd2                   // setae    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	QUAD $0x000001002494930f                   // setae    byte [rsp + 256]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	QUAD $0x000000f02494930f                   // setae    byte [rsp + 240]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	QUAD $0x000000c02494930f                   // setae    byte [rsp + 192]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd0930f41                           // setae    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
+	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
+	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
+	JNE  LBB10_53
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
+
+LBB10_55:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB10_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB10_143
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_145
+
+LBB10_58:
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_62
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_60:
+	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
+	LONG $0x01768d48             // lea    rsi, [rsi + 1]
+	LONG $0x000000ba; BYTE $0x00 // mov    edx, 0
+	WORD $0xd280; BYTE $0xff     // adc    dl, -1
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB10_60
+	LONG $0x01c68349             // add    r14, 1
+
+LBB10_62:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB10_131
+	LONG $0x10ff8349             // cmp    r15, 16
+	LONG $0x245c8844; BYTE $0x08 // mov    byte [rsp + 8], r11b
+	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
+	QUAD $0x000001d024bc894c     // mov    qword [rsp + 464], r15
+	JB   LBB10_66
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x05e0c148             // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
+	JAE  LBB10_194
+	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
+	WORD $0x3948; BYTE $0xc6     // cmp    rsi, rax
+	JAE  LBB10_194
+
+LBB10_66:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x000001a024848948 // mov    qword [rsp + 416], rax
+	QUAD $0x000000d024b4894c // mov    qword [rsp + 208], r14
+
+LBB10_67:
+	WORD $0x894d; BYTE $0xfe // mov    r14, r15
+	QUAD $0x000001a024b42b4c // sub    r14, qword [rsp + 416]
+	QUAD $0x0000017024b4894c // mov    qword [rsp + 368], r14
+
+LBB10_68:
+	WORD $0x8948; BYTE $0xf1                   // mov    rcx, rsi
+	WORD $0x3844; BYTE $0x1e                   // cmp    byte [rsi], r11b
+	QUAD $0x000001402494930f                   // setae    byte [rsp + 320]
+	LONG $0x015e3844                           // cmp    byte [rsi + 1], r11b
+	LONG $0xd6930f40                           // setae    sil
+	LONG $0x02593844                           // cmp    byte [rcx + 2], r11b
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x03                   // cmp    byte [rcx + 3], al
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x04                   // cmp    byte [rcx + 4], al
+	QUAD $0x000001502494930f                   // setae    byte [rsp + 336]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x05                   // cmp    byte [rcx + 5], al
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x06                   // cmp    byte [rcx + 6], al
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x07                   // cmp    byte [rcx + 7], al
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x08                   // cmp    byte [rcx + 8], al
+	QUAD $0x000001302494930f                   // setae    byte [rsp + 304]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x09                   // cmp    byte [rcx + 9], al
+	WORD $0x930f; BYTE $0xd2                   // setae    dl
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0a                   // cmp    byte [rcx + 10], al
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0b                   // cmp    byte [rcx + 11], al
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0c                   // cmp    byte [rcx + 12], al
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0d                   // cmp    byte [rcx + 13], al
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0e                   // cmp    byte [rcx + 14], al
+	QUAD $0x000001002494930f                   // setae    byte [rsp + 256]
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0x4138; BYTE $0x0f                   // cmp    byte [rcx + 15], al
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x10                   // cmp    byte [rcx + 16], bl
+	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x11                   // cmp    byte [rcx + 17], bl
+	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x12                   // cmp    byte [rcx + 18], bl
+	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x13                   // cmp    byte [rcx + 19], bl
+	QUAD $0x000000f02494930f                   // setae    byte [rsp + 240]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x14                   // cmp    byte [rcx + 20], bl
+	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x15                   // cmp    byte [rcx + 21], bl
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x16                   // cmp    byte [rcx + 22], bl
+	QUAD $0x000000c02494930f                   // setae    byte [rsp + 192]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x17                   // cmp    byte [rcx + 23], bl
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x18                   // cmp    byte [rcx + 24], bl
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x19                   // cmp    byte [rcx + 25], bl
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1a                   // cmp    byte [rcx + 26], bl
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1b                   // cmp    byte [rcx + 27], bl
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1c                   // cmp    byte [rcx + 28], bl
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1d                   // cmp    byte [rcx + 29], bl
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1e                   // cmp    byte [rcx + 30], bl
+	QUAD $0x000001602494930f                   // setae    byte [rsp + 352]
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0x5938; BYTE $0x1f                   // cmp    byte [rcx + 31], bl
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	QUAD $0x0000014024b40240                   // add    sil, byte [rsp + 320]
+	QUAD $0x000000a02484b60f                   // movzx    eax, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xc1                   // or    r9b, al
+	LONG $0x02e7c041                           // shl    r15b, 2
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
+	LONG $0x03e4c041                           // shl    r12b, 3
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x7cb60f44; WORD $0x0824             // movzx    r15d, byte [rsp + 8]
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	QUAD $0x000000802494b60f                   // movzx    edx, byte [rsp + 128]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0xc208                               // or    dl, al
+	LONG $0x04e6c041                           // shl    r14b, 4
+	WORD $0x0845; BYTE $0xd6                   // or    r14b, r10b
+	LONG $0x05e5c041                           // shl    r13b, 5
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	QUAD $0x0000010024b4b60f                   // movzx    esi, byte [rsp + 256]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xf0                   // or    r8b, sil
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	WORD $0x0845; BYTE $0xe8                   // or    r8b, r13b
+	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x10249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 272]
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000b02494b60f                   // movzx    edx, byte [rsp + 176]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000d024948b48                   // mov    rdx, qword [rsp + 208]
+	WORD $0x8844; BYTE $0x0a                   // mov    byte [rdx], r9b
+	QUAD $0x000000c024bcb60f                   // movzx    edi, byte [rsp + 192]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xfb                   // or    r11b, dil
+	LONG $0x01428844                           // mov    byte [rdx + 1], r8b
+	WORD $0x0841; BYTE $0xf3                   // or    r11b, sil
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xc000                               // add    al, al
+	LONG $0x70244402                           // add    al, byte [rsp + 112]
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0xc689                               // mov    esi, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	QUAD $0x0000016024b4b60f                   // movzx    esi, byte [rsp + 352]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xc308                               // or    bl, al
+	LONG $0x025a8844                           // mov    byte [rdx + 2], r11b
+	WORD $0x8945; BYTE $0xfb                   // mov    r11d, r15d
+	WORD $0x5a88; BYTE $0x03                   // mov    byte [rdx + 3], bl
+	LONG $0x20718d48                           // lea    rsi, [rcx + 32]
+	LONG $0x04c28348                           // add    rdx, 4
+	QUAD $0x000000d024948948                   // mov    qword [rsp + 208], rdx
+	QUAD $0x0000017024848348; BYTE $0xff       // add    qword [rsp + 368], -1
+	JNE  LBB10_68
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x000001d024bc8b4c                   // mov    r15, qword [rsp + 464]
+	JMP  LBB10_132
+
+LBB10_70:
+	WORD $0x8b44; BYTE $0x2a // mov    r13d, dword [rdx]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_74
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_72:
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	LONG $0x04768d48                           // lea    rsi, [rsi + 4]
+	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB10_72
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB10_74:
+	LONG $0x05fbc149             // sar    r11, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB10_78
+	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
+	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
+	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
+
+LBB10_76:
+	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
+	WORD $0x3944; BYTE $0x2e                   // cmp    dword [rsi], r13d
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	LONG $0x046e3944                           // cmp    dword [rsi + 4], r13d
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x086e3944                           // cmp    dword [rsi + 8], r13d
+	LONG $0xd69d0f41                           // setge    r14b
+	LONG $0x0c6e3944                           // cmp    dword [rsi + 12], r13d
+	QUAD $0x0000015024949d0f                   // setge    byte [rsp + 336]
+	LONG $0x106e3944                           // cmp    dword [rsi + 16], r13d
+	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
+	LONG $0x146e3944                           // cmp    dword [rsi + 20], r13d
+	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
+	LONG $0x186e3944                           // cmp    dword [rsi + 24], r13d
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	LONG $0x1c6e3944                           // cmp    dword [rsi + 28], r13d
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	LONG $0x206e3944                           // cmp    dword [rsi + 32], r13d
+	QUAD $0x0000013024949d0f                   // setge    byte [rsp + 304]
+	LONG $0x246e3944                           // cmp    dword [rsi + 36], r13d
+	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
+	LONG $0x286e3944                           // cmp    dword [rsi + 40], r13d
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x2c6e3944                           // cmp    dword [rsi + 44], r13d
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x306e3944                           // cmp    dword [rsi + 48], r13d
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x346e3944                           // cmp    dword [rsi + 52], r13d
+	LONG $0xd49d0f41                           // setge    r12b
+	LONG $0x386e3944                           // cmp    dword [rsi + 56], r13d
+	QUAD $0x0000010024949d0f                   // setge    byte [rsp + 256]
+	LONG $0x3c6e3944                           // cmp    dword [rsi + 60], r13d
+	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
+	LONG $0x406e3944                           // cmp    dword [rsi + 64], r13d
+	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
+	LONG $0x446e3944                           // cmp    dword [rsi + 68], r13d
+	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
+	LONG $0x486e3944                           // cmp    dword [rsi + 72], r13d
+	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
+	LONG $0x4c6e3944                           // cmp    dword [rsi + 76], r13d
+	QUAD $0x000000f024949d0f                   // setge    byte [rsp + 240]
+	LONG $0x506e3944                           // cmp    dword [rsi + 80], r13d
+	QUAD $0x000000c024949d0f                   // setge    byte [rsp + 192]
+	LONG $0x546e3944                           // cmp    dword [rsi + 84], r13d
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	LONG $0x586e3944                           // cmp    dword [rsi + 88], r13d
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0x5c6e3944                           // cmp    dword [rsi + 92], r13d
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x606e3944                           // cmp    dword [rsi + 96], r13d
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0x646e3944                           // cmp    dword [rsi + 100], r13d
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	LONG $0x686e3944                           // cmp    dword [rsi + 104], r13d
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0x6c6e3944                           // cmp    dword [rsi + 108], r13d
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x706e3944                           // cmp    dword [rsi + 112], r13d
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0x746e3944                           // cmp    dword [rsi + 116], r13d
+	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
+	LONG $0x786e3944                           // cmp    dword [rsi + 120], r13d
+	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
+	LONG $0x7c6e3944                           // cmp    dword [rsi + 124], r13d
+	LONG $0xd09d0f41                           // setge    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
+	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
+	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x80c68148; WORD $0x0000; BYTE $0x00 // add    rsi, 128
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
+	JNE  LBB10_76
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
+
+LBB10_78:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB10_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB10_147
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_149
+
+LBB10_81:
+	LONG $0x2ab70f44         // movzx    r13d, word [rdx]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_85
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_83:
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	LONG $0x02768d48                           // lea    rsi, [rsi + 2]
+	LONG $0x000000ba; BYTE $0x00               // mov    edx, 0
+	WORD $0xd280; BYTE $0xff                   // adc    dl, -1
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB10_83
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB10_85:
+	LONG $0x05fbc149             // sar    r11, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB10_89
+	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
+	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
+	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
+
+LBB10_87:
+	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
+	LONG $0x2e394466                           // cmp    word [rsi], r13w
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x6e394466; BYTE $0x02               // cmp    word [rsi + 2], r13w
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x6e394466; BYTE $0x04               // cmp    word [rsi + 4], r13w
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x6e394466; BYTE $0x06               // cmp    word [rsi + 6], r13w
+	QUAD $0x000001502494930f                   // setae    byte [rsp + 336]
+	LONG $0x6e394466; BYTE $0x08               // cmp    word [rsi + 8], r13w
+	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
+	LONG $0x6e394466; BYTE $0x0a               // cmp    word [rsi + 10], r13w
+	QUAD $0x000000d02494930f                   // setae    byte [rsp + 208]
+	LONG $0x6e394466; BYTE $0x0c               // cmp    word [rsi + 12], r13w
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x6e394466; BYTE $0x0e               // cmp    word [rsi + 14], r13w
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x6e394466; BYTE $0x10               // cmp    word [rsi + 16], r13w
+	QUAD $0x000001302494930f                   // setae    byte [rsp + 304]
+	LONG $0x6e394466; BYTE $0x12               // cmp    word [rsi + 18], r13w
+	WORD $0x930f; BYTE $0xd2                   // setae    dl
+	LONG $0x6e394466; BYTE $0x14               // cmp    word [rsi + 20], r13w
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x6e394466; BYTE $0x16               // cmp    word [rsi + 22], r13w
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x6e394466; BYTE $0x18               // cmp    word [rsi + 24], r13w
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x6e394466; BYTE $0x1a               // cmp    word [rsi + 26], r13w
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x6e394466; BYTE $0x1c               // cmp    word [rsi + 28], r13w
+	QUAD $0x000001002494930f                   // setae    byte [rsp + 256]
+	LONG $0x6e394466; BYTE $0x1e               // cmp    word [rsi + 30], r13w
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x6e394466; BYTE $0x20               // cmp    word [rsi + 32], r13w
+	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
+	LONG $0x6e394466; BYTE $0x22               // cmp    word [rsi + 34], r13w
+	QUAD $0x000001102494930f                   // setae    byte [rsp + 272]
+	LONG $0x6e394466; BYTE $0x24               // cmp    word [rsi + 36], r13w
+	QUAD $0x000001202494930f                   // setae    byte [rsp + 288]
+	LONG $0x6e394466; BYTE $0x26               // cmp    word [rsi + 38], r13w
+	QUAD $0x000000f02494930f                   // setae    byte [rsp + 240]
+	LONG $0x6e394466; BYTE $0x28               // cmp    word [rsi + 40], r13w
+	QUAD $0x000000c02494930f                   // setae    byte [rsp + 192]
+	LONG $0x6e394466; BYTE $0x2a               // cmp    word [rsi + 42], r13w
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x6e394466; BYTE $0x2c               // cmp    word [rsi + 44], r13w
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x6e394466; BYTE $0x2e               // cmp    word [rsi + 46], r13w
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x6e394466; BYTE $0x30               // cmp    word [rsi + 48], r13w
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0x6e394466; BYTE $0x32               // cmp    word [rsi + 50], r13w
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0x6e394466; BYTE $0x34               // cmp    word [rsi + 52], r13w
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x6e394466; BYTE $0x36               // cmp    word [rsi + 54], r13w
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x6e394466; BYTE $0x38               // cmp    word [rsi + 56], r13w
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x6e394466; BYTE $0x3a               // cmp    word [rsi + 58], r13w
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	LONG $0x6e394466; BYTE $0x3c               // cmp    word [rsi + 60], r13w
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	LONG $0x6e394466; BYTE $0x3e               // cmp    word [rsi + 62], r13w
+	LONG $0xd0930f41                           // setae    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
+	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
+	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
+	JNE  LBB10_87
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
+
+LBB10_89:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB10_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB10_170
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_172
+
+LBB10_92:
+	LONG $0x1ab70f44         // movzx    r11d, word [rdx]
+	LONG $0x1f7a8d4d         // lea    r15, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xfa490f4d         // cmovns    r15, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_96
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_94:
+	LONG $0x1e394466             // cmp    word [rsi], r11w
+	LONG $0x02768d48             // lea    rsi, [rsi + 2]
+	WORD $0x9d0f; BYTE $0xd2     // setge    dl
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB10_94
+	LONG $0x01c68349             // add    r14, 1
+
+LBB10_96:
+	LONG $0x05ffc149             // sar    r15, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	QUAD $0x00000188249c8944     // mov    dword [rsp + 392], r11d
+	JL   LBB10_135
+	LONG $0x08ff8349             // cmp    r15, 8
+	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
+	QUAD $0x000001c824bc894c     // mov    qword [rsp + 456], r15
+	JB   LBB10_100
+	WORD $0x894c; BYTE $0xf8     // mov    rax, r15
+	LONG $0x06e0c148             // shl    rax, 6
+	WORD $0x0148; BYTE $0xf0     // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6     // cmp    r14, rax
+	JAE  LBB10_197
+	LONG $0xbe048d4b             // lea    rax, [r14 + 4*r15]
+	WORD $0x3948; BYTE $0xf0     // cmp    rax, rsi
+	JBE  LBB10_197
+
+LBB10_100:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000019024848948 // mov    qword [rsp + 400], rax
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
+
+LBB10_101:
+	LONG $0x2464894c; BYTE $0x08 // mov    qword [rsp + 8], r12
+	WORD $0x894d; BYTE $0xfe     // mov    r14, r15
+	QUAD $0x0000019024b42b4c     // sub    r14, qword [rsp + 400]
+	QUAD $0x0000014024b4894c     // mov    qword [rsp + 320], r14
+	QUAD $0x0000018824ac8b44     // mov    r13d, dword [rsp + 392]
+
+LBB10_102:
+	LONG $0x2b394566                           // cmp    word [r11], r13w
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	LONG $0x6b394566; BYTE $0x02               // cmp    word [r11 + 2], r13w
+	LONG $0xd09d0f41                           // setge    r8b
+	LONG $0x6b394566; BYTE $0x04               // cmp    word [r11 + 4], r13w
+	LONG $0xd69d0f41                           // setge    r14b
+	LONG $0x6b394566; BYTE $0x06               // cmp    word [r11 + 6], r13w
+	QUAD $0x0000015024949d0f                   // setge    byte [rsp + 336]
+	LONG $0x6b394566; BYTE $0x08               // cmp    word [r11 + 8], r13w
+	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
+	LONG $0x6b394566; BYTE $0x0a               // cmp    word [r11 + 10], r13w
+	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
+	LONG $0x6b394566; BYTE $0x0c               // cmp    word [r11 + 12], r13w
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	LONG $0x6b394566; BYTE $0x0e               // cmp    word [r11 + 14], r13w
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	LONG $0x6b394566; BYTE $0x10               // cmp    word [r11 + 16], r13w
+	QUAD $0x0000013024949d0f                   // setge    byte [rsp + 304]
+	LONG $0x6b394566; BYTE $0x12               // cmp    word [r11 + 18], r13w
+	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
+	LONG $0x6b394566; BYTE $0x14               // cmp    word [r11 + 20], r13w
+	LONG $0xd69d0f40                           // setge    sil
+	LONG $0x6b394566; BYTE $0x16               // cmp    word [r11 + 22], r13w
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x6b394566; BYTE $0x18               // cmp    word [r11 + 24], r13w
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x6b394566; BYTE $0x1a               // cmp    word [r11 + 26], r13w
+	LONG $0xd49d0f41                           // setge    r12b
+	LONG $0x6b394566; BYTE $0x1c               // cmp    word [r11 + 28], r13w
+	QUAD $0x0000010024949d0f                   // setge    byte [rsp + 256]
+	LONG $0x6b394566; BYTE $0x1e               // cmp    word [r11 + 30], r13w
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x6b394566; BYTE $0x20               // cmp    word [r11 + 32], r13w
+	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
+	LONG $0x6b394566; BYTE $0x22               // cmp    word [r11 + 34], r13w
+	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
+	LONG $0x6b394566; BYTE $0x24               // cmp    word [r11 + 36], r13w
+	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
+	LONG $0x6b394566; BYTE $0x26               // cmp    word [r11 + 38], r13w
+	QUAD $0x000000f024949d0f                   // setge    byte [rsp + 240]
+	LONG $0x6b394566; BYTE $0x28               // cmp    word [r11 + 40], r13w
+	QUAD $0x000000c024949d0f                   // setge    byte [rsp + 192]
+	LONG $0x6b394566; BYTE $0x2a               // cmp    word [r11 + 42], r13w
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	LONG $0x6b394566; BYTE $0x2c               // cmp    word [r11 + 44], r13w
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0x6b394566; BYTE $0x2e               // cmp    word [r11 + 46], r13w
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x6b394566; BYTE $0x30               // cmp    word [r11 + 48], r13w
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0x6b394566; BYTE $0x32               // cmp    word [r11 + 50], r13w
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	LONG $0x6b394566; BYTE $0x34               // cmp    word [r11 + 52], r13w
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0x6b394566; BYTE $0x36               // cmp    word [r11 + 54], r13w
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x6b394566; BYTE $0x38               // cmp    word [r11 + 56], r13w
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0x6b394566; BYTE $0x3a               // cmp    word [r11 + 58], r13w
+	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
+	LONG $0x6b394566; BYTE $0x3c               // cmp    word [r11 + 60], r13w
+	QUAD $0x0000016024949d0f                   // setge    byte [rsp + 352]
+	LONG $0x6b394566; BYTE $0x3e               // cmp    word [r11 + 62], r13w
+	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x000000a024840244                   // add    r8b, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x30248c02; WORD $0x0001; BYTE $0x00 // add    cl, byte [rsp + 304]
+	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	QUAD $0x000000e0248cb60f                   // movzx    ecx, byte [rsp + 224]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xc108                               // or    cl, al
+	WORD $0x8941; BYTE $0xc8                   // mov    r8d, ecx
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	QUAD $0x000000d0248cb60f                   // movzx    ecx, byte [rsp + 208]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0844; BYTE $0xc1                   // or    cl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x0000010024b4b60f                   // movzx    esi, byte [rsp + 256]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	WORD $0xcb08                               // or    bl, cl
+	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
+	QUAD $0x00000110248cb60f                   // movzx    ecx, byte [rsp + 272]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0xb0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 176]
+	WORD $0xce89                               // mov    esi, ecx
+	QUAD $0x00000120248cb60f                   // movzx    ecx, byte [rsp + 288]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	QUAD $0x000000f0248cb60f                   // movzx    ecx, byte [rsp + 240]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	QUAD $0x000000c0248cb60f                   // movzx    ecx, byte [rsp + 192]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	QUAD $0x00000090248cb60f                   // movzx    ecx, byte [rsp + 144]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0xce89                               // mov    esi, ecx
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	WORD $0x1988                               // mov    byte [rcx], bl
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x01798840                           // mov    byte [rcx + 1], dil
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xc000                               // add    al, al
+	LONG $0x30244402                           // add    al, byte [rsp + 48]
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc389                               // mov    ebx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd808                               // or    al, bl
+	QUAD $0x00000160249cb60f                   // movzx    ebx, byte [rsp + 352]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe2c0; BYTE $0x07                   // shl    dl, 7
+	WORD $0xda08                               // or    dl, bl
+	WORD $0xc208                               // or    dl, al
+	LONG $0x02798844                           // mov    byte [rcx + 2], r15b
+	WORD $0x5188; BYTE $0x03                   // mov    byte [rcx + 3], dl
+	LONG $0x40c38349                           // add    r11, 64
+	LONG $0x04c18348                           // add    rcx, 4
+	LONG $0x244c8948; BYTE $0x08               // mov    qword [rsp + 8], rcx
+	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
+	JNE  LBB10_102
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x000001c824bc8b4c                   // mov    r15, qword [rsp + 456]
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	JMP  LBB10_136
+
+LBB10_104:
+	WORD $0x8b4c; BYTE $0x2a // mov    r13, qword [rdx]
+	LONG $0x1f5a8d4d         // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2 // test    r10, r10
+	LONG $0xda490f4d         // cmovns    r11, r10
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB10_108
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB10_106:
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	LONG $0x08768d48                           // lea    rsi, [rsi + 8]
+	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
+	WORD $0xdaf6                               // neg    dl
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1e               // movzx    r8d, byte [r14 + rbx]
+	WORD $0x3044; BYTE $0xc2                   // xor    dl, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xd7                   // and    dil, dl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1e3c8841                           // mov    byte [r14 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB10_106
+	LONG $0x01c68349                           // add    r14, 1
+
+LBB10_108:
+	LONG $0x05fbc149             // sar    r11, 5
+	LONG $0x20fa8349             // cmp    r10, 32
+	JL   LBB10_112
+	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
+	QUAD $0x00000170249c894c     // mov    qword [rsp + 368], r11
+	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
+
+LBB10_110:
+	QUAD $0x0000016024b4894c                   // mov    qword [rsp + 352], r14
+	WORD $0x394c; BYTE $0x2e                   // cmp    qword [rsi], r13
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	LONG $0x086e394c                           // cmp    qword [rsi + 8], r13
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x106e394c                           // cmp    qword [rsi + 16], r13
+	LONG $0xd69d0f41                           // setge    r14b
+	LONG $0x186e394c                           // cmp    qword [rsi + 24], r13
+	QUAD $0x0000015024949d0f                   // setge    byte [rsp + 336]
+	LONG $0x206e394c                           // cmp    qword [rsi + 32], r13
+	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
+	LONG $0x286e394c                           // cmp    qword [rsi + 40], r13
+	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
+	LONG $0x306e394c                           // cmp    qword [rsi + 48], r13
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	LONG $0x386e394c                           // cmp    qword [rsi + 56], r13
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	LONG $0x406e394c                           // cmp    qword [rsi + 64], r13
+	QUAD $0x0000013024949d0f                   // setge    byte [rsp + 304]
+	LONG $0x486e394c                           // cmp    qword [rsi + 72], r13
+	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
+	LONG $0x506e394c                           // cmp    qword [rsi + 80], r13
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x586e394c                           // cmp    qword [rsi + 88], r13
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x606e394c                           // cmp    qword [rsi + 96], r13
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x686e394c                           // cmp    qword [rsi + 104], r13
+	LONG $0xd49d0f41                           // setge    r12b
+	LONG $0x706e394c                           // cmp    qword [rsi + 112], r13
+	QUAD $0x0000010024949d0f                   // setge    byte [rsp + 256]
+	LONG $0x786e394c                           // cmp    qword [rsi + 120], r13
+	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
+	LONG $0x80ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 128], r13
+	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
+	LONG $0x88ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 136], r13
+	QUAD $0x0000011024949d0f                   // setge    byte [rsp + 272]
+	LONG $0x90ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 144], r13
+	QUAD $0x0000012024949d0f                   // setge    byte [rsp + 288]
+	LONG $0x98ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 152], r13
+	QUAD $0x000000f024949d0f                   // setge    byte [rsp + 240]
+	LONG $0xa0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 160], r13
+	QUAD $0x000000c024949d0f                   // setge    byte [rsp + 192]
+	LONG $0xa8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 168], r13
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	LONG $0xb0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 176], r13
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0xb8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 184], r13
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0xc0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 192], r13
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0xc8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 200], r13
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	LONG $0xd0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 208], r13
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0xd8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 216], r13
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0xe0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 224], r13
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0xe8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 232], r13
+	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
+	LONG $0xf0ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 240], r13
+	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
+	LONG $0xf8ae394c; WORD $0x0000; BYTE $0x00 // cmp    qword [rsi + 248], r13
+	LONG $0xd09d0f41                           // setge    r8b
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x000000a024bc0240                   // add    dil, byte [rsp + 160]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	WORD $0xe3c0; BYTE $0x07                   // shl    bl, 7
+	WORD $0xc308                               // or    bl, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0841; BYTE $0xfe                   // or    r14b, dil
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x30249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 304]
+	QUAD $0x000001502484b60f                   // movzx    eax, byte [rsp + 336]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0x0844; BYTE $0xf0                   // or    al, r14b
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xd1                   // or    r9b, dl
+	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd789                               // mov    edi, edx
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xdc                   // or    r12b, r11b
+	QUAD $0x0000010024bcb60f                   // movzx    edi, byte [rsp + 256]
+	LONG $0x06e7c040                           // shl    dil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf9                   // or    cl, dil
+	WORD $0xd308                               // or    bl, dl
+	WORD $0x0844; BYTE $0xe1                   // or    cl, r12b
+	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
+	QUAD $0x000001102494b60f                   // movzx    edx, byte [rsp + 272]
+	WORD $0xd200                               // add    dl, dl
+	LONG $0xb0249402; WORD $0x0000; BYTE $0x00 // add    dl, byte [rsp + 176]
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0xd789                               // mov    edi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xfa                   // or    dl, dil
+	WORD $0x8841; BYTE $0x1e                   // mov    byte [r14], bl
+	QUAD $0x00000080249cb60f                   // movzx    ebx, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xdf                   // or    r15b, bl
+	LONG $0x014e8841                           // mov    byte [r14 + 1], cl
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x30244c02                           // add    cl, byte [rsp + 48]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x2454b60f; BYTE $0x08               // movzx    edx, byte [rsp + 8]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xd0                   // or    r8b, dl
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x03468845                           // mov    byte [r14 + 3], r8b
+	LONG $0x00c68148; WORD $0x0001; BYTE $0x00 // add    rsi, 256
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x0000014024848348; BYTE $0xff       // add    qword [rsp + 320], -1
+	JNE  LBB10_110
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x00000170249c8b4c                   // mov    r11, qword [rsp + 368]
+
+LBB10_112:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB10_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB10_175
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB10_177
+
+LBB10_115:
+	LONG $0x1f5a8d4d             // lea    r11, [r10 + 31]
+	WORD $0x854d; BYTE $0xd2     // test    r10, r10
+	LONG $0xda490f4d             // cmovns    r11, r10
+	LONG $0x07418d41             // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9     // test    r9d, r9d
+	LONG $0xc1490f41             // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8     // and    eax, -8
+	LONG $0x100f44f3; BYTE $0x1a // movss    xmm11, dword [rdx]
+	WORD $0x2941; BYTE $0xc1     // sub    r9d, eax
+	JE   LBB10_119
+	WORD $0x6349; BYTE $0xc1     // movsxd    rax, r9d
+
+LBB10_117:
+	LONG $0x1e2e0f44             // ucomiss    xmm11, dword [rsi]
+	WORD $0x960f; BYTE $0xd2     // setbe    dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0xdaf6                 // neg    dl
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB10_117
+	LONG $0x01c68349             // add    r14, 1
+
+LBB10_119:
+	LONG $0x05fbc149         // sar    r11, 5
+	LONG $0x20fa8349         // cmp    r10, 32
+	JL   LBB10_139
+	LONG $0x04fb8349         // cmp    r11, 4
+	JB   LBB10_123
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x07e0c148         // shl    rax, 7
+	WORD $0x0148; BYTE $0xf0 // add    rax, rsi
+	WORD $0x3949; BYTE $0xc6 // cmp    r14, rax
+	JAE  LBB10_200
+	LONG $0x9e048d4b         // lea    rax, [r14 + 4*r11]
+	WORD $0x3948; BYTE $0xf0 // cmp    rax, rsi
+	JBE  LBB10_200
+
+LBB10_123:
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+
+LBB10_124:
+	LONG $0x247c894c; BYTE $0x08 // mov    qword [rsp + 8], r15
+	LONG $0x2454894c; BYTE $0x48 // mov    qword [rsp + 72], r10
+	QUAD $0x00000140249c894c     // mov    qword [rsp + 320], r11
+	WORD $0x294d; BYTE $0xc3     // sub    r11, r8
+	QUAD $0x000000a0249c894c     // mov    qword [rsp + 160], r11
+
+LBB10_125:
+	LONG $0x1b2e0f44                           // ucomiss    xmm11, dword [rbx]
+	QUAD $0x000001502494960f                   // setbe    byte [rsp + 336]
+	LONG $0x5b2e0f44; BYTE $0x04               // ucomiss    xmm11, dword [rbx + 4]
+	LONG $0xd0960f41                           // setbe    r8b
+	LONG $0x5b2e0f44; BYTE $0x08               // ucomiss    xmm11, dword [rbx + 8]
+	LONG $0xd6960f41                           // setbe    r14b
+	LONG $0x5b2e0f44; BYTE $0x0c               // ucomiss    xmm11, dword [rbx + 12]
+	LONG $0xd5960f41                           // setbe    r13b
+	LONG $0x5b2e0f44; BYTE $0x10               // ucomiss    xmm11, dword [rbx + 16]
+	QUAD $0x000000e02494960f                   // setbe    byte [rsp + 224]
+	LONG $0x5b2e0f44; BYTE $0x14               // ucomiss    xmm11, dword [rbx + 20]
+	QUAD $0x000000d02494960f                   // setbe    byte [rsp + 208]
+	LONG $0x5b2e0f44; BYTE $0x18               // ucomiss    xmm11, dword [rbx + 24]
+	WORD $0x960f; BYTE $0xd0                   // setbe    al
+	LONG $0x5b2e0f44; BYTE $0x1c               // ucomiss    xmm11, dword [rbx + 28]
+	LONG $0xd3960f41                           // setbe    r11b
+	LONG $0x5b2e0f44; BYTE $0x20               // ucomiss    xmm11, dword [rbx + 32]
+	QUAD $0x000001002494960f                   // setbe    byte [rsp + 256]
+	LONG $0x5b2e0f44; BYTE $0x24               // ucomiss    xmm11, dword [rbx + 36]
+	WORD $0x960f; BYTE $0xd2                   // setbe    dl
+	LONG $0x5b2e0f44; BYTE $0x28               // ucomiss    xmm11, dword [rbx + 40]
+	LONG $0xd6960f40                           // setbe    sil
+	LONG $0x5b2e0f44; BYTE $0x2c               // ucomiss    xmm11, dword [rbx + 44]
+	LONG $0xd7960f40                           // setbe    dil
+	LONG $0x5b2e0f44; BYTE $0x30               // ucomiss    xmm11, dword [rbx + 48]
+	LONG $0xd2960f41                           // setbe    r10b
+	LONG $0x5b2e0f44; BYTE $0x34               // ucomiss    xmm11, dword [rbx + 52]
+	LONG $0xd4960f41                           // setbe    r12b
+	LONG $0x5b2e0f44; BYTE $0x38               // ucomiss    xmm11, dword [rbx + 56]
+	QUAD $0x000001102494960f                   // setbe    byte [rsp + 272]
+	LONG $0x5b2e0f44; BYTE $0x3c               // ucomiss    xmm11, dword [rbx + 60]
+	LONG $0xd1960f41                           // setbe    r9b
+	LONG $0x5b2e0f44; BYTE $0x40               // ucomiss    xmm11, dword [rbx + 64]
+	QUAD $0x000000b02494960f                   // setbe    byte [rsp + 176]
+	LONG $0x5b2e0f44; BYTE $0x44               // ucomiss    xmm11, dword [rbx + 68]
+	QUAD $0x000001302494960f                   // setbe    byte [rsp + 304]
+	LONG $0x5b2e0f44; BYTE $0x48               // ucomiss    xmm11, dword [rbx + 72]
+	QUAD $0x000001202494960f                   // setbe    byte [rsp + 288]
+	LONG $0x5b2e0f44; BYTE $0x4c               // ucomiss    xmm11, dword [rbx + 76]
+	QUAD $0x000000f02494960f                   // setbe    byte [rsp + 240]
+	LONG $0x5b2e0f44; BYTE $0x50               // ucomiss    xmm11, dword [rbx + 80]
+	QUAD $0x000000c02494960f                   // setbe    byte [rsp + 192]
+	LONG $0x5b2e0f44; BYTE $0x54               // ucomiss    xmm11, dword [rbx + 84]
+	QUAD $0x000000902494960f                   // setbe    byte [rsp + 144]
+	LONG $0x5b2e0f44; BYTE $0x58               // ucomiss    xmm11, dword [rbx + 88]
+	QUAD $0x000000802494960f                   // setbe    byte [rsp + 128]
+	LONG $0x5b2e0f44; BYTE $0x5c               // ucomiss    xmm11, dword [rbx + 92]
+	LONG $0xd7960f41                           // setbe    r15b
+	LONG $0x5b2e0f44; BYTE $0x60               // ucomiss    xmm11, dword [rbx + 96]
+	LONG $0x2454960f; BYTE $0x30               // setbe    byte [rsp + 48]
+	LONG $0x5b2e0f44; BYTE $0x64               // ucomiss    xmm11, dword [rbx + 100]
+	LONG $0x2454960f; BYTE $0x70               // setbe    byte [rsp + 112]
+	LONG $0x5b2e0f44; BYTE $0x68               // ucomiss    xmm11, dword [rbx + 104]
+	LONG $0x2454960f; BYTE $0x60               // setbe    byte [rsp + 96]
+	LONG $0x5b2e0f44; BYTE $0x6c               // ucomiss    xmm11, dword [rbx + 108]
+	LONG $0x2454960f; BYTE $0x50               // setbe    byte [rsp + 80]
+	LONG $0x5b2e0f44; BYTE $0x70               // ucomiss    xmm11, dword [rbx + 112]
+	LONG $0x2454960f; BYTE $0x20               // setbe    byte [rsp + 32]
+	LONG $0x5b2e0f44; BYTE $0x74               // ucomiss    xmm11, dword [rbx + 116]
+	LONG $0x2454960f; BYTE $0x10               // setbe    byte [rsp + 16]
+	LONG $0x5b2e0f44; BYTE $0x78               // ucomiss    xmm11, dword [rbx + 120]
+	QUAD $0x000001602494960f                   // setbe    byte [rsp + 352]
+	LONG $0x5b2e0f44; BYTE $0x7c               // ucomiss    xmm11, dword [rbx + 124]
+	WORD $0x960f; BYTE $0xd1                   // setbe    cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x0000015024840244                   // add    r8b, byte [rsp + 336]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x00249402; WORD $0x0001; BYTE $0x00 // add    dl, byte [rsp + 256]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	QUAD $0x000000e02494b60f                   // movzx    edx, byte [rsp + 224]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	QUAD $0x000000d02494b60f                   // movzx    edx, byte [rsp + 208]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0841; BYTE $0xfa                   // or    r10b, dil
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x0000011024b4b60f                   // movzx    esi, byte [rsp + 272]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e1c041                           // shl    r9b, 7
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0845; BYTE $0xe1                   // or    r9b, r12b
+	QUAD $0x000001302484b60f                   // movzx    eax, byte [rsp + 304]
+	WORD $0xc000                               // add    al, al
+	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
+	QUAD $0x000001202494b60f                   // movzx    edx, byte [rsp + 288]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000f02494b60f                   // movzx    edx, byte [rsp + 240]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000c02494b60f                   // movzx    edx, byte [rsp + 192]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	WORD $0x8844; BYTE $0x1e                   // mov    byte [rsi], r11b
+	QUAD $0x0000008024bcb60f                   // movzx    edi, byte [rsp + 128]
+	LONG $0x06e7c040                           // shl    dil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xff                   // or    r15b, dil
+	LONG $0x014e8844                           // mov    byte [rsi + 1], r9b
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xc000                               // add    al, al
+	LONG $0x30244402                           // add    al, byte [rsp + 48]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	QUAD $0x000001602494b60f                   // movzx    edx, byte [rsp + 352]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xc108                               // or    cl, al
+	LONG $0x027e8844                           // mov    byte [rsi + 2], r15b
+	WORD $0x4e88; BYTE $0x03                   // mov    byte [rsi + 3], cl
+	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
+	LONG $0x04c68348                           // add    rsi, 4
+	LONG $0x24748948; BYTE $0x08               // mov    qword [rsp + 8], rsi
+	QUAD $0x000000a024848348; BYTE $0xff       // add    qword [rsp + 160], -1
+	JNE  LBB10_125
+	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	QUAD $0x00000140249c8b4c                   // mov    r11, qword [rsp + 320]
+	JMP  LBB10_140
+
+LBB10_127:
+	LONG $0x2474894c; BYTE $0x70 // mov    qword [rsp + 112], r14
+
+LBB10_128:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB10_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB10_151
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+	JMP  LBB10_154
+
+LBB10_131:
+	QUAD $0x000000d024b4894c // mov    qword [rsp + 208], r14
+
+LBB10_132:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB10_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB10_156
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+	JMP  LBB10_159
+
+LBB10_135:
+	WORD $0x894d; BYTE $0xf4 // mov    r12, r14
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+
+LBB10_136:
+	LONG $0x05e7c149         // shl    r15, 5
+	WORD $0x394d; BYTE $0xd7 // cmp    r15, r10
+	JGE  LBB10_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xf8 // sub    r8, r15
+	WORD $0xf749; BYTE $0xd7 // not    r15
+	WORD $0x014d; BYTE $0xd7 // add    r15, r10
+	JNE  LBB10_183
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB10_185
+
+LBB10_139:
+	WORD $0x894d; BYTE $0xf7 // mov    r15, r14
+	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
+
+LBB10_140:
+	LONG $0x05e3c149         // shl    r11, 5
+	WORD $0x394d; BYTE $0xd3 // cmp    r11, r10
+	JGE  LBB10_182
+	WORD $0x894d; BYTE $0xd0 // mov    r8, r10
+	WORD $0x294d; BYTE $0xd8 // sub    r8, r11
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	JNE  LBB10_187
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB10_189
+
+LBB10_143:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB10_144:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x14b60f45; BYTE $0x16 // movzx    r10d, byte [r14 + rdx]
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x16048841             // mov    byte [r14 + rdx], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x161c8841             // mov    byte [r14 + rdx], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB10_144
+
+LBB10_145:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB10_182
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
+	JMP  LBB10_174
+
+LBB10_147:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB10_148:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB10_148
+
+LBB10_149:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB10_182
+	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
+	JMP  LBB10_179
+
+LBB10_151:
+	WORD $0x894d; BYTE $0xc2     // mov    r10, r8
+	LONG $0xfee28349             // and    r10, -2
+	WORD $0x3145; BYTE $0xc9     // xor    r9d, r9d
+	LONG $0x24748b4c; BYTE $0x70 // mov    r14, qword [rsp + 112]
+
+LBB10_152:
+	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
+	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03efc148             // shr    rdi, 3
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
+	LONG $0x02488d4c             // lea    r9, [rax + 2]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
+	JNE  LBB10_152
+	WORD $0x014c; BYTE $0xce     // add    rsi, r9
+
+LBB10_154:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB10_182
+	WORD $0x3844; BYTE $0x1e     // cmp    byte [rsi], r11b
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x24448b4c; BYTE $0x70 // mov    r8, qword [rsp + 112]
+	LONG $0x103c8a41             // mov    dil, byte [r8 + rdx]
+	LONG $0x07e18041             // and    r9b, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8     // xor    al, dil
+	WORD $0xc320                 // and    bl, al
+	JMP  LBB10_161
+
+LBB10_156:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+	QUAD $0x000000d024b48b4c // mov    r14, qword [rsp + 208]
+
+LBB10_157:
+	WORD $0x894c; BYTE $0xc8     // mov    rax, r9
+	LONG $0x0e1c3846             // cmp    byte [rsi + r9], r11b
+	LONG $0x000000bb; BYTE $0x00 // mov    ebx, 0
+	WORD $0xd380; BYTE $0xff     // adc    bl, -1
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	LONG $0x065c3844; BYTE $0x01 // cmp    byte [rsi + rax + 1], r11b
+	LONG $0x02488d4c             // lea    r9, [rax + 2]
+	LONG $0x000000bb; BYTE $0x00 // mov    ebx, 0
+	WORD $0xd380; BYTE $0xff     // adc    bl, -1
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	WORD $0x394d; BYTE $0xca     // cmp    r10, r9
+	JNE  LBB10_157
+	WORD $0x014c; BYTE $0xce     // add    rsi, r9
+
+LBB10_159:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB10_182
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x3844; BYTE $0x1e // cmp    byte [rsi], r11b
+	WORD $0xff14             // adc    al, -1
+	WORD $0x894c; BYTE $0xca // mov    rdx, r9
+	LONG $0x03eac148         // shr    rdx, 3
+	QUAD $0x000000d024848b4c // mov    r8, qword [rsp + 208]
+	LONG $0x103c8a41         // mov    dil, byte [r8 + rdx]
+	LONG $0x07e18041         // and    r9b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xc9 // mov    ecx, r9d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+
+LBB10_161:
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x101c8841         // mov    byte [r8 + rdx], bl
+	JMP  LBB10_182
+
+LBB10_162:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB10_163:
+	WORD $0x3944; BYTE $0x2e     // cmp    dword [rsi], r13d
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x14b60f45; BYTE $0x16 // movzx    r10d, byte [r14 + rdx]
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x16048841             // mov    byte [r14 + rdx], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x046e3944             // cmp    dword [rsi + 4], r13d
+	LONG $0x08768d48             // lea    rsi, [rsi + 8]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x161c8841             // mov    byte [r14 + rdx], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB10_163
+
+LBB10_164:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB10_182
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x3944; BYTE $0x2e // cmp    dword [rsi], r13d
+	JMP  LBB10_174
+
+LBB10_166:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB10_167:
+	LONG $0x062e0f66             // ucomisd    xmm0, qword [rsi]
+	WORD $0x960f; BYTE $0xd0     // setbe    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x462e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rsi + 8]
+	WORD $0x960f; BYTE $0xd0     // setbe    al
+	LONG $0x10c68348             // add    rsi, 16
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB10_167
+
+LBB10_168:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB10_182
+	LONG $0x062e0f66         // ucomisd    xmm0, qword [rsi]
+	WORD $0x960f; BYTE $0xd0 // setbe    al
+	JMP  LBB10_180
+
+LBB10_170:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB10_171:
+	LONG $0x2e394466             // cmp    word [rsi], r13w
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x894c; BYTE $0xda     // mov    rdx, r11
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x14b60f45; BYTE $0x16 // movzx    r10d, byte [r14 + rdx]
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x16048841             // mov    byte [r14 + rdx], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x6e394466; BYTE $0x02 // cmp    word [rsi + 2], r13w
+	LONG $0x04768d48             // lea    rsi, [rsi + 4]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x161c8841             // mov    byte [r14 + rdx], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB10_171
+
+LBB10_172:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB10_182
+	WORD $0xc031     // xor    eax, eax
+	LONG $0x2e394466 // cmp    word [rsi], r13w
+
+LBB10_174:
+	WORD $0xff14             // adc    al, -1
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	JMP  LBB10_181
+
+LBB10_175:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB10_176:
+	WORD $0x394c; BYTE $0x2e     // cmp    qword [rsi], r13
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3e1c8841             // mov    byte [r14 + rdi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x086e394c             // cmp    qword [rsi + 8], r13
+	LONG $0x10768d48             // lea    rsi, [rsi + 16]
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0xd830                 // xor    al, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0xc220                 // and    dl, al
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB10_176
+
+LBB10_177:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB10_182
+	WORD $0x394c; BYTE $0x2e // cmp    qword [rsi], r13
+
+LBB10_179:
+	WORD $0x9d0f; BYTE $0xd0 // setge    al
+
+LBB10_180:
+	WORD $0xd8f6             // neg    al
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+
+LBB10_181:
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
+
+LBB10_182:
+	MOVQ 496(SP), SP
+	RET
+
+LBB10_183:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	QUAD $0x0000018824b48b44 // mov    r14d, dword [rsp + 392]
+
+LBB10_184:
+	LONG $0x33394566             // cmp    word [r11], r14w
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3c // movzx    r9d, byte [r12 + rdi]
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	WORD $0xda20                 // and    dl, bl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
+	LONG $0x02c68348             // add    rsi, 2
+	LONG $0x73394566; BYTE $0x02 // cmp    word [r11 + 2], r14w
+	LONG $0x045b8d4d             // lea    r11, [r11 + 4]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	WORD $0xd330                 // xor    bl, dl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0xd820                 // and    al, bl
+	WORD $0xd030                 // xor    al, dl
+	LONG $0x3c048841             // mov    byte [r12 + rdi], al
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB10_184
+
+LBB10_185:
+	LONG $0x01c0f641                           // test    r8b, 1
+	JE   LBB10_182
+	LONG $0x8824848b; WORD $0x0001; BYTE $0x00 // mov    eax, dword [rsp + 392]
+	LONG $0x03394166                           // cmp    word [r11], ax
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	WORD $0xd8f6                               // neg    al
+	WORD $0x8948; BYTE $0xf2                   // mov    rdx, rsi
+	LONG $0x03eac148                           // shr    rdx, 3
+	LONG $0x143c8a41                           // mov    dil, byte [r12 + rdx]
+	LONG $0x07e68040                           // and    sil, 7
+	WORD $0x01b3                               // mov    bl, 1
+	WORD $0xf189                               // mov    ecx, esi
+	WORD $0xe3d2                               // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8                   // xor    al, dil
+	WORD $0xc320                               // and    bl, al
+	WORD $0x3040; BYTE $0xfb                   // xor    bl, dil
+	LONG $0x141c8841                           // mov    byte [r12 + rdx], bl
+	JMP  LBB10_182
+
+LBB10_187:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x894d; BYTE $0xfb // mov    r11, r15
+
+LBB10_188:
+	LONG $0x1b2e0f44             // ucomiss    xmm11, dword [rbx]
+	WORD $0x960f; BYTE $0xd2     // setbe    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3b // movzx    r9d, byte [r11 + rdi]
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	WORD $0xd020                 // and    al, dl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3b048841             // mov    byte [r11 + rdi], al
+	LONG $0x02c68348             // add    rsi, 2
+	LONG $0x5b2e0f44; BYTE $0x04 // ucomiss    xmm11, dword [rbx + 4]
+	LONG $0xd1960f41             // setbe    r9b
+	LONG $0x08c38348             // add    rbx, 8
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xc1     // xor    r9b, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x2044; BYTE $0xca     // and    dl, r9b
+	WORD $0xc230                 // xor    dl, al
+	LONG $0x3b148841             // mov    byte [r11 + rdi], dl
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB10_188
+
+LBB10_189:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB10_182
+	LONG $0x1b2e0f44         // ucomiss    xmm11, dword [rbx]
+	WORD $0x960f; BYTE $0xd0 // setbe    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	WORD $0x894d; BYTE $0xfe // mov    r14, r15
+	LONG $0x173c8a41         // mov    dil, byte [r15 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
+	JMP  LBB10_182
+
+LBB10_191:
+	LONG $0xf0e78349                     // and    r15, -16
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000017024848948             // mov    qword [rsp + 368], rax
+	QUAD $0x000000a024bc894c             // mov    qword [rsp + 160], r15
+	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
+	LONG $0x24448948; BYTE $0x70         // mov    qword [rsp + 112], rax
+	LONG $0xc3b60f41                     // movzx    eax, r11b
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x000140248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 320], xmm1
+	WORD $0x3145; BYTE $0xc0             // xor    r8d, r8d
+	QUAD $0x0000016024b4894c             // mov    qword [rsp + 352], r14
+
+LBB10_192:
+	QUAD $0x000001202484894c                   // mov    qword [rsp + 288], r8
+	LONG $0x05e0c149                           // shl    r8, 5
+	WORD $0x894d; BYTE $0xc1                   // mov    r9, r8
+	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
+	QUAD $0x000000802484894c                   // mov    qword [rsp + 128], r8
+	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
+	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
+	LONG $0x2444894c; BYTE $0x10               // mov    qword [rsp + 16], r8
+	WORD $0x894d; BYTE $0xc3                   // mov    r11, r8
+	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
+	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
+	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
+	WORD $0x894d; BYTE $0xc6                   // mov    r14, r8
+	LONG $0x0cb60f42; BYTE $0x06               // movzx    ecx, byte [rsi + r8]
+	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
+	LONG $0x4cb60f42; WORD $0x0106             // movzx    ecx, byte [rsi + r8 + 1]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	LONG $0x4cb60f42; WORD $0x0206             // movzx    ecx, byte [rsi + r8 + 2]
+	LONG $0xd96e0f66                           // movd    xmm3, ecx
+	LONG $0x4cb60f42; WORD $0x0306             // movzx    ecx, byte [rsi + r8 + 3]
+	LONG $0xe16e0f66                           // movd    xmm4, ecx
+	LONG $0x4cb60f42; WORD $0x0406             // movzx    ecx, byte [rsi + r8 + 4]
+	LONG $0xf16e0f66                           // movd    xmm6, ecx
+	LONG $0x4cb60f42; WORD $0x0506             // movzx    ecx, byte [rsi + r8 + 5]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00009024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm0
+	LONG $0x4cb60f42; WORD $0x0606             // movzx    ecx, byte [rsi + r8 + 6]
+	LONG $0xf96e0f66                           // movd    xmm7, ecx
+	LONG $0x4cb60f42; WORD $0x0706             // movzx    ecx, byte [rsi + r8 + 7]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x00011024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm0
+	LONG $0x4cb60f42; WORD $0x0806             // movzx    ecx, byte [rsi + r8 + 8]
+	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
+	LONG $0x4cb60f42; WORD $0x0906             // movzx    ecx, byte [rsi + r8 + 9]
+	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
+	LONG $0x4cb60f42; WORD $0x0a06             // movzx    ecx, byte [rsi + r8 + 10]
+	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
+	LONG $0x4cb60f42; WORD $0x0b06             // movzx    ecx, byte [rsi + r8 + 11]
+	LONG $0xc96e0f66                           // movd    xmm1, ecx
+	LONG $0x4cb60f42; WORD $0x0c06             // movzx    ecx, byte [rsi + r8 + 12]
+	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
+	LONG $0x4cb60f42; WORD $0x1006             // movzx    ecx, byte [rsi + r8 + 16]
+	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
+	QUAD $0x000000d02484894c                   // mov    qword [rsp + 208], r8
+	LONG $0x4cb60f42; WORD $0x1806             // movzx    ecx, byte [rsi + r8 + 24]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
+	LONG $0x20c98348                           // or    rcx, 32
+	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
+	LONG $0x244c8948; BYTE $0x50               // mov    qword [rsp + 80], rcx
+	LONG $0x40c98349                           // or    r9, 64
+	LONG $0x244c894c; BYTE $0x20               // mov    qword [rsp + 32], r9
+	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
+	WORD $0x894d; BYTE $0xc1                   // mov    r9, r8
+	LONG $0x60c98349                           // or    r9, 96
+	QUAD $0x00000080248c8148; LONG $0x00000080 // or    qword [rsp + 128], 128
+	LONG $0xa0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 160
+	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	LONG $0xe0cb8148; WORD $0x0000; BYTE $0x00 // or    rbx, 224
+	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
+	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
+	LONG $0x01400d48; WORD $0x0000             // or    rax, 320
+	LONG $0x60ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 352
+	LONG $0x24548948; BYTE $0x30               // mov    qword [rsp + 48], rdx
+	LONG $0x80ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 384
+	QUAD $0x000000c024b4894c                   // mov    qword [rsp + 192], r14
+	LONG $0xa0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 416
+	LONG $0x247c8948; BYTE $0x60               // mov    qword [rsp + 96], rdi
+	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
+	LONG $0xc0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 448
+	LONG $0x247c8948; BYTE $0x10               // mov    qword [rsp + 16], rdi
+	WORD $0x894c; BYTE $0xc7                   // mov    rdi, r8
+	LONG $0xe0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 480
+	QUAD $0x012e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r13], 1
+	QUAD $0x020e0c203a0f4466                   // pinsrb    xmm9, byte [rsi + rcx], 2
+	QUAD $0x030e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r9], 3
+	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
+	QUAD $0x04060c203a0f4666                   // pinsrb    xmm9, byte [rsi + r8], 4
+	QUAD $0x05260c203a0f4666                   // pinsrb    xmm9, byte [rsi + r12], 5
+	QUAD $0x063e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r15], 6
+	QUAD $0x071e0c203a0f4466                   // pinsrb    xmm9, byte [rsi + rbx], 7
+	QUAD $0x081e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r11], 8
+	QUAD $0x09160c203a0f4666                   // pinsrb    xmm9, byte [rsi + r10], 9
+	QUAD $0x0a060c203a0f4466                   // pinsrb    xmm9, byte [rsi + rax], 10
+	QUAD $0x0b160c203a0f4466                   // pinsrb    xmm9, byte [rsi + rdx], 11
+	QUAD $0x0c360c203a0f4666                   // pinsrb    xmm9, byte [rsi + r14], 12
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x0d2e0c203a0f4666                   // pinsrb    xmm9, byte [rsi + r13], 13
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0e0e0c203a0f4466                   // pinsrb    xmm9, byte [rsi + rcx], 14
+	QUAD $0x000000e024bc8948                   // mov    qword [rsp + 224], rdi
+	QUAD $0x0f3e0c203a0f4466                   // pinsrb    xmm9, byte [rsi + rdi], 15
+	QUAD $0x014024bc6f0f4466; WORD $0x0000     // movdqa    xmm15, oword [rsp + 320]
+	LONG $0x6f0f4566; BYTE $0xdf               // movdqa    xmm11, xmm15
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x01010e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 1], 1
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x02010e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 1], 2
+	QUAD $0x010e54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r9 + 1], 3
+	QUAD $0x010654203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rsi + r8 + 1], 4
+	QUAD $0x012654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r12 + 1], 5
+	QUAD $0x013e54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r15 + 1], 6
+	QUAD $0x07011e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 1], 7
+	QUAD $0x011e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r11 + 1], 8
+	QUAD $0x011654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r10 + 1], 9
+	QUAD $0x0a010654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 1], 10
+	QUAD $0x0b011654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 1], 11
+	QUAD $0x013654203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r14 + 1], 12
+	LONG $0x246c8b4c; BYTE $0x60               // mov    r13, qword [rsp + 96]
+	QUAD $0x012e54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r13 + 1], 13
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0e010e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 1], 14
+	QUAD $0x0f013e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 1], 15
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x01020e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 2], 1
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x022e5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r13 + 2], 2
+	QUAD $0x020e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r9 + 2], 3
+	QUAD $0x02065c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r8 + 2], 4
+	QUAD $0x02265c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r12 + 2], 5
+	QUAD $0x023e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r15 + 2], 6
+	QUAD $0x07021e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 2], 7
+	QUAD $0x021e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 2], 8
+	QUAD $0x02165c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r10 + 2], 9
+	QUAD $0x0a02065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 2], 10
+	QUAD $0x0b02165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 2], 11
+	QUAD $0x02365c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r14 + 2], 12
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0d020e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 2], 13
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0e020e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 2], 14
+	QUAD $0x0f023e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 2], 15
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x01030e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 3], 1
+	QUAD $0x032e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r13 + 3], 2
+	QUAD $0x030e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r9 + 3], 3
+	QUAD $0x030664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r8 + 3], 4
+	QUAD $0x032664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r12 + 3], 5
+	QUAD $0x033e64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r15 + 3], 6
+	QUAD $0x07031e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 3], 7
+	QUAD $0x031e64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r11 + 3], 8
+	QUAD $0x031664203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r10 + 3], 9
+	QUAD $0x0a030664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 3], 10
+	QUAD $0x0b031664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 3], 11
+	QUAD $0x033664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r14 + 3], 12
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0d030e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 3], 13
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0e030e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 3], 14
+	QUAD $0x0f033e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 3], 15
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x01040e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 4], 1
+	QUAD $0x042e74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r13 + 4], 2
+	QUAD $0x040e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r9 + 4], 3
+	QUAD $0x040674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r8 + 4], 4
+	QUAD $0x042674203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r12 + 4], 5
+	QUAD $0x043e74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r15 + 4], 6
+	QUAD $0x07041e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 4], 7
+	QUAD $0x041e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 4], 8
+	QUAD $0x041674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r10 + 4], 9
+	QUAD $0x0a040674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 4], 10
+	QUAD $0x0b041674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 4], 11
+	QUAD $0x043674203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r14 + 4], 12
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0d040e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 4], 13
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0e040e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 4], 14
+	QUAD $0x0f043e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 4], 15
+	QUAD $0x000090249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 144]
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	QUAD $0x01050e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 5], 1
+	QUAD $0x052e5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r13 + 5], 2
+	QUAD $0x050e5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r9 + 5], 3
+	QUAD $0x05065c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rsi + r8 + 5], 4
+	QUAD $0x05265c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r12 + 5], 5
+	QUAD $0x053e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r15 + 5], 6
+	QUAD $0x07051e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 5], 7
+	QUAD $0x051e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 5], 8
+	QUAD $0x05165c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r10 + 5], 9
+	QUAD $0x0a05065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 5], 10
+	QUAD $0x0b05165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 5], 11
+	QUAD $0x05365c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r14 + 5], 12
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0d050e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 5], 13
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0e050e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 5], 14
+	QUAD $0x0f053e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 5], 15
+	QUAD $0x000090249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm3
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x01063e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 6], 1
+	WORD $0x894c; BYTE $0xe9                   // mov    rcx, r13
+	QUAD $0x062e7c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rsi + r13 + 6], 2
+	QUAD $0x060e7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r9 + 6], 3
+	QUAD $0x06067c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rsi + r8 + 6], 4
+	QUAD $0x06267c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r12 + 6], 5
+	QUAD $0x063e7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r15 + 6], 6
+	QUAD $0x07061e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 6], 7
+	QUAD $0x061e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r11 + 6], 8
+	QUAD $0x06167c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r10 + 6], 9
+	QUAD $0x0a06067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 6], 10
+	QUAD $0x0b06167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 6], 11
+	QUAD $0x06367c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r14 + 6], 12
+	QUAD $0x083e6c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rdi + 8], 1
+	WORD $0x8949; BYTE $0xfd                   // mov    r13, rdi
+	QUAD $0x080e6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rcx + 8], 2
+	QUAD $0x080e6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r9 + 8], 3
+	QUAD $0x08066c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r8 + 8], 4
+	QUAD $0x08266c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r12 + 8], 5
+	QUAD $0x083e6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rsi + r15 + 8], 6
+	QUAD $0x081e6c203a0f4466; BYTE $0x07       // pinsrb    xmm13, byte [rsi + rbx + 8], 7
+	QUAD $0x081e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r11 + 8], 8
+	QUAD $0x08166c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r10 + 8], 9
+	QUAD $0x08066c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + rax + 8], 10
+	QUAD $0x08166c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + rdx + 8], 11
+	QUAD $0x08366c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r14 + 8], 12
+	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
+	QUAD $0x08066c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + r8 + 8], 13
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x080e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rcx + 8], 14
+	LONG $0x640f4566; BYTE $0xd9               // pcmpgtb    xmm11, xmm9
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x083e6c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + rdi + 8], 15
+	LONG $0x6f0f4566; BYTE $0xcf               // movdqa    xmm9, xmm15
+	LONG $0x640f4566; BYTE $0xcd               // pcmpgtb    xmm9, xmm13
+	QUAD $0x102e74203a0f4666; BYTE $0x01       // pinsrb    xmm14, byte [rsi + r13 + 16], 1
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x100e74203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rsi + rcx + 16], 2
+	QUAD $0x100e74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r9 + 16], 3
+	WORD $0x894d; BYTE $0xce                   // mov    r14, r9
+	QUAD $0x000000b0248c894c                   // mov    qword [rsp + 176], r9
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	QUAD $0x100e74203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rsi + rcx + 16], 4
+	QUAD $0x102674203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rsi + r12 + 16], 5
+	QUAD $0x000000f024a4894c                   // mov    qword [rsp + 240], r12
+	QUAD $0x103e74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rsi + r15 + 16], 6
+	QUAD $0x101e74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rsi + rbx + 16], 7
+	QUAD $0x101e74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r11 + 16], 8
+	QUAD $0x101674203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r10 + 16], 9
+	QUAD $0x100674203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + rax + 16], 10
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	QUAD $0x101674203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + rdx + 16], 11
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x101674203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + rdx + 16], 12
+	QUAD $0x100674203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + r8 + 16], 13
+	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
+	QUAD $0x102e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r13 + 16], 14
+	QUAD $0x103e74203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + rdi + 16], 15
+	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0118066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 24], 1
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0218066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 24], 2
+	QUAD $0x18366c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r14 + 24], 3
+	QUAD $0x04180e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 24], 4
+	QUAD $0x18266c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rsi + r12 + 24], 5
+	QUAD $0x183e6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r15 + 24], 6
+	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
+	QUAD $0x07181e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 24], 7
+	QUAD $0x181e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r11 + 24], 8
+	QUAD $0x18166c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r10 + 24], 9
+	QUAD $0x180e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r9 + 24], 10
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0b18066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 24], 11
+	QUAD $0x0c18166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 24], 12
+	QUAD $0x18066c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r8 + 24], 13
+	QUAD $0x182e6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r13 + 24], 14
+	QUAD $0x0f183e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 24], 15
+	LONG $0x640f4166; BYTE $0xde               // pcmpgtb    xmm3, xmm14
+	QUAD $0x000130249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm3
+	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
+	LONG $0xdd640f66                           // pcmpgtb    xmm3, xmm5
+	QUAD $0x000100249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm3
+	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
+	LONG $0xea640f66                           // pcmpgtb    xmm5, xmm2
+	QUAD $0x000000d0248c8b48                   // mov    rcx, qword [rsp + 208]
+	LONG $0x0e54b60f; BYTE $0x0d               // movzx    edx, byte [rsi + rcx + 13]
+	LONG $0xd26e0f66                           // movd    xmm2, edx
+	QUAD $0x06067c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r8 + 6], 13
+	QUAD $0x000001009d6f0f66                   // movdqa    xmm3, oword 256[rbp] /* [rip + .LCPI10_16] */
+	LONG $0xebdf0f66                           // pandn    xmm5, xmm3
+	LONG $0xfc0f4166; BYTE $0xeb               // paddb    xmm5, xmm11
+	LONG $0x6f0f4566; BYTE $0xef               // movdqa    xmm13, xmm15
+	LONG $0x640f4466; BYTE $0xe8               // pcmpgtb    xmm13, xmm0
+	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
+	LONG $0xdc640f66                           // pcmpgtb    xmm3, xmm4
+	LONG $0x0e54b60f; BYTE $0x0e               // movzx    edx, byte [rsi + rcx + 14]
+	LONG $0xe26e0f66                           // movd    xmm4, edx
+	QUAD $0x062e7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r13 + 6], 14
+	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI10_17] */
+	LONG $0xdf0f4466; BYTE $0xe8               // pandn    xmm13, xmm0
+	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI10_18] */
+	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
+	LONG $0xeb0f4166; BYTE $0xdd               // por    xmm3, xmm13
+	LONG $0x6f0f4566; BYTE $0xf7               // movdqa    xmm14, xmm15
+	LONG $0x640f4466; BYTE $0xf6               // pcmpgtb    xmm14, xmm6
+	LONG $0x0e54b60f; BYTE $0x0f               // movzx    edx, byte [rsi + rcx + 15]
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI10_19] */
+	LONG $0xdf0f4466; BYTE $0xf0               // pandn    xmm14, xmm0
+	LONG $0xeb0f4466; BYTE $0xf3               // por    xmm14, xmm3
+	LONG $0x0e54b60f; BYTE $0x11               // movzx    edx, byte [rsi + rcx + 17]
+	LONG $0xda6e0f66                           // movd    xmm3, edx
+	QUAD $0x0f063e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 6], 15
+	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
+	LONG $0xe8f80f66                           // psubb    xmm5, xmm0
+	LONG $0xeb0f4466; BYTE $0xf5               // por    xmm14, xmm5
+	LONG $0x6f0f4166; BYTE $0xef               // movdqa    xmm5, xmm15
+	QUAD $0x00009024ac640f66; BYTE $0x00       // pcmpgtb    xmm5, oword [rsp + 144]
+	LONG $0x6f0f4566; BYTE $0xef               // movdqa    xmm13, xmm15
+	LONG $0x6f0f4566; BYTE $0xdf               // movdqa    xmm11, xmm15
+	LONG $0x640f4466; BYTE $0xef               // pcmpgtb    xmm13, xmm7
+	LONG $0x0e54b60f; BYTE $0x12               // movzx    edx, byte [rsi + rcx + 18]
+	LONG $0xfa6e0f66                           // movd    xmm7, edx
+	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI10_20] */
+	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
+	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI10_21] */
+	LONG $0xdf0f4466; BYTE $0xe8               // pandn    xmm13, xmm0
+	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
+	LONG $0x0e54b60f; BYTE $0x13               // movzx    edx, byte [rsi + rcx + 19]
+	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
+	QUAD $0x00011024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 272]
+	LONG $0x247c8b48; BYTE $0x50               // mov    rdi, qword [rsp + 80]
+	QUAD $0x01073e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 7], 1
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x02070644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 7], 2
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x03070e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 7], 3
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	QUAD $0x04070644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 7], 4
+	QUAD $0x000000f024bc8b4c                   // mov    r15, qword [rsp + 240]
+	QUAD $0x073e44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r15 + 7], 5
+	QUAD $0x073644203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r14 + 7], 6
+	QUAD $0x07071e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 7], 7
+	QUAD $0x071e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 7], 8
+	QUAD $0x071644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r10 + 7], 9
+	QUAD $0x070e44203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r9 + 7], 10
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0b071644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 7], 11
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x0c071644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 7], 12
+	QUAD $0x070644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r8 + 7], 13
+	QUAD $0x072e44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r13 + 7], 14
+	QUAD $0x000000e024a48b4c                   // mov    r12, qword [rsp + 224]
+	QUAD $0x072644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r12 + 7], 15
+	QUAD $0x093e44203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rdi + 9], 1
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x092e44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r13 + 9], 2
+	QUAD $0x090e44203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rcx + 9], 3
+	QUAD $0x090644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rax + 9], 4
+	QUAD $0x093e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r15 + 9], 5
+	QUAD $0x093644203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r14 + 9], 6
+	QUAD $0x091e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 9], 7
+	QUAD $0x091e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r11 + 9], 8
+	QUAD $0x091644203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r10 + 9], 9
+	QUAD $0x090e44203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r9 + 9], 10
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x093e44203a0f4466; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + rdi + 9], 11
+	QUAD $0x091644203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + rdx + 9], 12
+	QUAD $0x090644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r8 + 9], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x093e44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rdi + 9], 14
+	QUAD $0x092644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r12 + 9], 15
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x0a2e54203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rsi + r13 + 10], 1
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0a3e54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rdi + 10], 2
+	QUAD $0x0a0e54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rcx + 10], 3
+	QUAD $0x0a0654203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rax + 10], 4
+	QUAD $0x0a3e54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rsi + r15 + 10], 5
+	QUAD $0x0a3654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r14 + 10], 6
+	QUAD $0x0a1e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rbx + 10], 7
+	QUAD $0x0a1e54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r11 + 10], 8
+	QUAD $0x0a1654203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r10 + 10], 9
+	QUAD $0x0a0e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r9 + 10], 10
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0a3e54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + rdi + 10], 11
+	QUAD $0x0a1654203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + rdx + 10], 12
+	QUAD $0x0a0654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r8 + 10], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0a3e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rdi + 10], 14
+	QUAD $0x0a2654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r12 + 10], 15
+	QUAD $0x0b2e4c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rsi + r13 + 11], 1
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x020b3e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 11], 2
+	QUAD $0x030b0e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 11], 3
+	QUAD $0x040b064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 11], 4
+	QUAD $0x0b3e4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rsi + r15 + 11], 5
+	QUAD $0x0b364c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rsi + r14 + 11], 6
+	QUAD $0x070b1e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 11], 7
+	QUAD $0x0b1e4c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r11 + 11], 8
+	QUAD $0x0b164c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r10 + 11], 9
+	QUAD $0x0b0e4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r9 + 11], 10
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0b0b3e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 11], 11
+	QUAD $0x0c0b164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 11], 12
+	QUAD $0x0b064c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rsi + r8 + 11], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e0b3e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 11], 14
+	QUAD $0x0b264c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r12 + 11], 15
+	QUAD $0x0c2e64203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rsi + r13 + 12], 1
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x0c3e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rdi + 12], 2
+	QUAD $0x0c0e64203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rcx + 12], 3
+	QUAD $0x0c0664203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rax + 12], 4
+	QUAD $0x0c3e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r15 + 12], 5
+	QUAD $0x0c3664203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rsi + r14 + 12], 6
+	QUAD $0x0c1e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rbx + 12], 7
+	QUAD $0x0c1e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r11 + 12], 8
+	QUAD $0x0c1664203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r10 + 12], 9
+	QUAD $0x0c0e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r9 + 12], 10
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0c3e64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + rdi + 12], 11
+	QUAD $0x0c1664203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + rdx + 12], 12
+	QUAD $0x0c0664203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + r8 + 12], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0c3e64203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rdi + 12], 14
+	QUAD $0x0c2664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r12 + 12], 15
+	QUAD $0x0d2e54203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rsi + r13 + 13], 1
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x020d3e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 13], 2
+	QUAD $0x030d0e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 13], 3
+	QUAD $0x040d0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 13], 4
+	QUAD $0x0d3e54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r15 + 13], 5
+	QUAD $0x0d3654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r14 + 13], 6
+	QUAD $0x070d1e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 13], 7
+	QUAD $0x0d1e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r11 + 13], 8
+	QUAD $0x0d1654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r10 + 13], 9
+	QUAD $0x0d0e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 13], 10
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0b0d3e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 13], 11
+	QUAD $0x0c0d1654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 13], 12
+	QUAD $0x0d0654203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rsi + r8 + 13], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e0d3e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 13], 14
+	QUAD $0x0d2654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r12 + 13], 15
+	QUAD $0x0e2e64203a0f4266; BYTE $0x01       // pinsrb    xmm4, byte [rsi + r13 + 14], 1
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x020e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 2
+	QUAD $0x030e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 14], 3
+	QUAD $0x040e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 14], 4
+	QUAD $0x0e3e64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r15 + 14], 5
+	QUAD $0x0e3664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r14 + 14], 6
+	QUAD $0x070e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 14], 7
+	QUAD $0x0e1e64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r11 + 14], 8
+	QUAD $0x0e1664203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r10 + 14], 9
+	QUAD $0x0e0e64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r9 + 14], 10
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0b0e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 11
+	QUAD $0x0c0e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 14], 12
+	QUAD $0x0e0664203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r8 + 14], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e0e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 14], 14
+	QUAD $0x0e2664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r12 + 14], 15
+	QUAD $0x0f2e74203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rsi + r13 + 15], 1
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x020f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 2
+	QUAD $0x030f0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 15], 3
+	QUAD $0x040f0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 15], 4
+	QUAD $0x0f3e74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rsi + r15 + 15], 5
+	QUAD $0x0f3674203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r14 + 15], 6
+	QUAD $0x070f1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 15], 7
+	QUAD $0x0f1e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 15], 8
+	QUAD $0x0f1674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r10 + 15], 9
+	QUAD $0x0f0e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r9 + 15], 10
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0b0f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 11
+	QUAD $0x0c0f1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 15], 12
+	QUAD $0x0f0674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r8 + 15], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e0f3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 15], 14
+	QUAD $0x0f2674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r12 + 15], 15
+	QUAD $0x112e5c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r13 + 17], 1
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x02113e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 17], 2
+	QUAD $0x03110e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 17], 3
+	QUAD $0x0411065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 17], 4
+	QUAD $0x113e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r15 + 17], 5
+	QUAD $0x11365c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r14 + 17], 6
+	QUAD $0x07111e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 17], 7
+	QUAD $0x111e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 17], 8
+	QUAD $0x11165c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r10 + 17], 9
+	QUAD $0x110e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 17], 10
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0b113e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 17], 11
+	QUAD $0x0c11165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 17], 12
+	QUAD $0x11065c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r8 + 17], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e113e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 17], 14
+	QUAD $0x11265c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r12 + 17], 15
+	QUAD $0x122e7c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rsi + r13 + 18], 1
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x02123e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 18], 2
+	QUAD $0x03120e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 18], 3
+	QUAD $0x0412067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 18], 4
+	QUAD $0x123e7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rsi + r15 + 18], 5
+	QUAD $0x12367c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rsi + r14 + 18], 6
+	QUAD $0x07121e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 18], 7
+	QUAD $0x121e7c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rsi + r11 + 18], 8
+	QUAD $0x12167c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rsi + r10 + 18], 9
+	QUAD $0x120e7c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r9 + 18], 10
+	QUAD $0x00000150248c894c                   // mov    qword [rsp + 336], r9
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x0b123e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 18], 11
+	QUAD $0x0c12167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 18], 12
+	WORD $0x8949; BYTE $0xd7                   // mov    r15, rdx
+	QUAD $0x12067c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r8 + 18], 13
+	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
+	QUAD $0x12067c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r8 + 18], 14
+	QUAD $0x12267c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r12 + 18], 15
+	QUAD $0x132e7c203a0f4666; BYTE $0x01       // pinsrb    xmm15, byte [rsi + r13 + 19], 1
+	LONG $0x246c8b4c; BYTE $0x20               // mov    r13, qword [rsp + 32]
+	QUAD $0x132e7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r13 + 19], 2
+	QUAD $0x130e7c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rcx + 19], 3
+	QUAD $0x13067c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rax + 19], 4
+	QUAD $0x000000f0248c8b48                   // mov    rcx, qword [rsp + 240]
+	QUAD $0x130e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rcx + 19], 5
+	QUAD $0x13367c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rsi + r14 + 19], 6
+	QUAD $0x131e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rbx + 19], 7
+	QUAD $0x131e7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r11 + 19], 8
+	QUAD $0x13167c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r10 + 19], 9
+	QUAD $0x130e7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r9 + 19], 10
+	QUAD $0x133e7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + rdi + 19], 11
+	LONG $0x6f0f4166; BYTE $0xeb               // movdqa    xmm5, xmm11
+	LONG $0xe8640f66                           // pcmpgtb    xmm5, xmm0
+	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI10_6] */
+	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
+	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
+	QUAD $0x000000d024848b48                   // mov    rax, qword [rsp + 208]
+	LONG $0x0654b60f; BYTE $0x14               // movzx    edx, byte [rsi + rax + 20]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	LONG $0xeb0f4166; BYTE $0xee               // por    xmm5, xmm14
+	QUAD $0x00009024ac7f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm5
+	LONG $0x6f0f4566; BYTE $0xeb               // movdqa    xmm13, xmm11
+	LONG $0x640f4566; BYTE $0xe8               // pcmpgtb    xmm13, xmm8
+	LONG $0x0654b60f; BYTE $0x15               // movzx    edx, byte [rsi + rax + 21]
+	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
+	QUAD $0x133e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 19], 12
+	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI10_16] */
+	LONG $0xfc0f4566; BYTE $0xe9               // paddb    xmm13, xmm9
+	LONG $0x6f0f4166; BYTE $0xeb               // movdqa    xmm5, xmm11
+	LONG $0x640f4166; BYTE $0xea               // pcmpgtb    xmm5, xmm10
+	LONG $0x6f0f4566; BYTE $0xcb               // movdqa    xmm9, xmm11
+	LONG $0x640f4466; BYTE $0xc9               // pcmpgtb    xmm9, xmm1
+	LONG $0x0654b60f; BYTE $0x16               // movzx    edx, byte [rsi + rax + 22]
+	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x13167c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rdx + 19], 13
+	QUAD $0x00000110addf0f66                   // pandn    xmm5, oword 272[rbp] /* [rip + .LCPI10_17] */
+	QUAD $0x0001208ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 288[rbp] /* [rip + .LCPI10_18] */
+	LONG $0xeb0f4466; BYTE $0xcd               // por    xmm9, xmm5
+	LONG $0x6f0f4166; BYTE $0xcb               // movdqa    xmm1, xmm11
+	LONG $0x640f4166; BYTE $0xcc               // pcmpgtb    xmm1, xmm12
+	LONG $0x0654b60f; BYTE $0x17               // movzx    edx, byte [rsi + rax + 23]
+	LONG $0xea6e0f66                           // movd    xmm5, edx
+	QUAD $0x000001308ddf0f66                   // pandn    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
+	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
+	LONG $0x0654b60f; BYTE $0x19               // movzx    edx, byte [rsi + rax + 25]
+	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
+	QUAD $0x13067c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r8 + 19], 14
+	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI10_22] */
+	LONG $0xeb0f4166; BYTE $0xcd               // por    xmm1, xmm13
+	LONG $0x6f0f4566; BYTE $0xf3               // movdqa    xmm14, xmm11
+	LONG $0x640f4466; BYTE $0xf2               // pcmpgtb    xmm14, xmm2
+	LONG $0x6f0f4566; BYTE $0xeb               // movdqa    xmm13, xmm11
+	LONG $0x640f4466; BYTE $0xec               // pcmpgtb    xmm13, xmm4
+	LONG $0x0654b60f; BYTE $0x1a               // movzx    edx, byte [rsi + rax + 26]
+	LONG $0x6e0f4466; BYTE $0xe2               // movd    xmm12, edx
+	QUAD $0x13267c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r12 + 19], 15
+	QUAD $0x000140b5df0f4466; BYTE $0x00       // pandn    xmm14, oword 320[rbp] /* [rip + .LCPI10_20] */
+	QUAD $0x000150addf0f4466; BYTE $0x00       // pandn    xmm13, oword 336[rbp] /* [rip + .LCPI10_21] */
+	LONG $0xeb0f4566; BYTE $0xee               // por    xmm13, xmm14
+	LONG $0x6f0f4166; BYTE $0xe3               // movdqa    xmm4, xmm11
+	LONG $0x6f0f4566; BYTE $0xf3               // movdqa    xmm14, xmm11
+	LONG $0x640f4466; BYTE $0xf6               // pcmpgtb    xmm14, xmm6
+	LONG $0x0654b60f; BYTE $0x1b               // movzx    edx, byte [rsi + rax + 27]
+	LONG $0xd26e0f66                           // movd    xmm2, edx
+	LONG $0xdf0f4466; WORD $0x6075             // pandn    xmm14, oword 96[rbp] /* [rip + .LCPI10_6] */
+	LONG $0xeb0f4566; BYTE $0xf5               // por    xmm14, xmm13
+	LONG $0x0654b60f; BYTE $0x1c               // movzx    edx, byte [rsi + rax + 28]
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	LONG $0xeb0f4466; BYTE $0xf1               // por    xmm14, xmm1
+	LONG $0x640f4466; BYTE $0xdb               // pcmpgtb    xmm11, xmm3
+	LONG $0x0654b60f; BYTE $0x1d               // movzx    edx, byte [rsi + rax + 29]
+	LONG $0xda6e0f66                           // movd    xmm3, edx
+	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI10_16] */
+	QUAD $0x0130249cfc0f4466; WORD $0x0000     // paddb    xmm11, oword [rsp + 304]
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xcf640f66                           // pcmpgtb    xmm1, xmm7
+	LONG $0x6f0f4466; BYTE $0xec               // movdqa    xmm13, xmm4
+	LONG $0xfc6f0f66                           // movdqa    xmm7, xmm4
+	LONG $0x640f4566; BYTE $0xef               // pcmpgtb    xmm13, xmm15
+	LONG $0x0654b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rax + 30]
+	LONG $0xe26e0f66                           // movd    xmm4, edx
+	LONG $0x0654b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rax + 31]
+	QUAD $0x000001108ddf0f66                   // pandn    xmm1, oword 272[rbp] /* [rip + .LCPI10_17] */
+	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI10_18] */
+	LONG $0xeb0f4466; BYTE $0xe9               // por    xmm13, xmm1
+	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x01140644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 20], 1
+	QUAD $0x150644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 21], 1
+	QUAD $0x160654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 22], 1
+	QUAD $0x0117066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 23], 1
+	QUAD $0x19064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 25], 1
+	QUAD $0x1a0664203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rax + 26], 1
+	QUAD $0x011b0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 27], 1
+	QUAD $0x011c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 28], 1
+	QUAD $0x011d065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 29], 1
+	QUAD $0x011e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 1
+	QUAD $0x1f067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 31], 1
+	QUAD $0x142e44203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rsi + r13 + 20], 2
+	QUAD $0x152e44203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r13 + 21], 2
+	QUAD $0x162e54203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r13 + 22], 2
+	QUAD $0x172e6c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rsi + r13 + 23], 2
+	QUAD $0x192e4c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rsi + r13 + 25], 2
+	QUAD $0x1a2e64203a0f4666; BYTE $0x02       // pinsrb    xmm12, byte [rsi + r13 + 26], 2
+	QUAD $0x1b2e54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r13 + 27], 2
+	QUAD $0x1c2e74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r13 + 28], 2
+	QUAD $0x1d2e5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r13 + 29], 2
+	QUAD $0x1e2e64203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r13 + 30], 2
+	QUAD $0x1f2e7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r13 + 31], 2
+	QUAD $0x000000b024948b48                   // mov    rdx, qword [rsp + 176]
+	QUAD $0x03141644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 20], 3
+	QUAD $0x151644203a0f4466; BYTE $0x03       // pinsrb    xmm8, byte [rsi + rdx + 21], 3
+	QUAD $0x161654203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rsi + rdx + 22], 3
+	QUAD $0x0317166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 23], 3
+	QUAD $0x19164c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rsi + rdx + 25], 3
+	QUAD $0x1a1664203a0f4466; BYTE $0x03       // pinsrb    xmm12, byte [rsi + rdx + 26], 3
+	QUAD $0x031b1654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 27], 3
+	QUAD $0x031c1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 28], 3
+	QUAD $0x031d165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 29], 3
+	QUAD $0x031e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 30], 3
+	QUAD $0x1f167c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rsi + rdx + 31], 3
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	QUAD $0x04141644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 20], 4
+	QUAD $0x151644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 21], 4
+	QUAD $0x161654203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rdx + 22], 4
+	QUAD $0x0417166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 23], 4
+	QUAD $0x19164c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdx + 25], 4
+	QUAD $0x1a1664203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rsi + rdx + 26], 4
+	QUAD $0x041b1654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 27], 4
+	QUAD $0x041c1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 28], 4
+	QUAD $0x041d165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 29], 4
+	QUAD $0x041e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 30], 4
+	QUAD $0x1f167c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rdx + 31], 4
+	QUAD $0x05140e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 20], 5
+	QUAD $0x150e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rcx + 21], 5
+	QUAD $0x160e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rcx + 22], 5
+	QUAD $0x05170e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 23], 5
+	QUAD $0x190e4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rsi + rcx + 25], 5
+	QUAD $0x1a0e64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rsi + rcx + 26], 5
+	QUAD $0x051b0e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 27], 5
+	QUAD $0x051c0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 28], 5
+	QUAD $0x051d0e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 29], 5
+	QUAD $0x051e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 30], 5
+	QUAD $0x1f0e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rcx + 31], 5
+	QUAD $0x143644203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r14 + 20], 6
+	QUAD $0x153644203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r14 + 21], 6
+	QUAD $0x163654203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rsi + r14 + 22], 6
+	QUAD $0x17366c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rsi + r14 + 23], 6
+	QUAD $0x19364c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rsi + r14 + 25], 6
+	QUAD $0x1a3664203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rsi + r14 + 26], 6
+	QUAD $0x1b3654203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rsi + r14 + 27], 6
+	QUAD $0x1c3674203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rsi + r14 + 28], 6
+	QUAD $0x1d365c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r14 + 29], 6
+	QUAD $0x1e3664203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r14 + 30], 6
+	QUAD $0x1f367c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rsi + r14 + 31], 6
+	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
+	QUAD $0x07141e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 20], 7
+	QUAD $0x151e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 21], 7
+	QUAD $0x161e54203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rsi + rbx + 22], 7
+	QUAD $0x07171e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 23], 7
+	QUAD $0x191e4c203a0f4466; BYTE $0x07       // pinsrb    xmm9, byte [rsi + rbx + 25], 7
+	QUAD $0x1a1e64203a0f4466; BYTE $0x07       // pinsrb    xmm12, byte [rsi + rbx + 26], 7
+	QUAD $0x071b1e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 27], 7
+	QUAD $0x071c1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 28], 7
+	QUAD $0x071d1e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 29], 7
+	QUAD $0x071e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 30], 7
+	QUAD $0x1f1e7c203a0f4466; BYTE $0x07       // pinsrb    xmm15, byte [rsi + rbx + 31], 7
+	QUAD $0x141e44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rsi + r11 + 20], 8
+	QUAD $0x151e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r11 + 21], 8
+	QUAD $0x161e54203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r11 + 22], 8
+	QUAD $0x171e6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r11 + 23], 8
+	QUAD $0x191e4c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rsi + r11 + 25], 8
+	QUAD $0x1a1e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r11 + 26], 8
+	QUAD $0x1b1e54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r11 + 27], 8
+	QUAD $0x1c1e74203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r11 + 28], 8
+	QUAD $0x1d1e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r11 + 29], 8
+	QUAD $0x1e1e64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r11 + 30], 8
+	QUAD $0x1f1e7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r11 + 31], 8
+	QUAD $0x141644203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rsi + r10 + 20], 9
+	QUAD $0x151644203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r10 + 21], 9
+	QUAD $0x161654203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r10 + 22], 9
+	QUAD $0x17166c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r10 + 23], 9
+	QUAD $0x19164c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rsi + r10 + 25], 9
+	QUAD $0x1a1664203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r10 + 26], 9
+	QUAD $0x1b1654203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r10 + 27], 9
+	QUAD $0x1c1674203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r10 + 28], 9
+	QUAD $0x1d165c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r10 + 29], 9
+	QUAD $0x1e1664203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r10 + 30], 9
+	QUAD $0x1f167c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r10 + 31], 9
+	QUAD $0x0000015024948b4c                   // mov    r10, qword [rsp + 336]
+	QUAD $0x141644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r10 + 20], 10
+	QUAD $0x151644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r10 + 21], 10
+	QUAD $0x161654203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r10 + 22], 10
+	QUAD $0x17166c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r10 + 23], 10
+	QUAD $0x19164c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r10 + 25], 10
+	QUAD $0x1a1664203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r10 + 26], 10
+	QUAD $0x1b1654203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r10 + 27], 10
+	QUAD $0x1c1674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r10 + 28], 10
+	QUAD $0x1d165c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r10 + 29], 10
+	QUAD $0x1e1664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r10 + 30], 10
+	QUAD $0x1f167c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r10 + 31], 10
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x141644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r10 + 20], 11
+	QUAD $0x151644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r10 + 21], 11
+	QUAD $0x161654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r10 + 22], 11
+	QUAD $0x17166c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r10 + 23], 11
+	QUAD $0x19164c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r10 + 25], 11
+	QUAD $0x1a1664203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + r10 + 26], 11
+	QUAD $0x1b1654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r10 + 27], 11
+	QUAD $0x1c1674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r10 + 28], 11
+	QUAD $0x1d165c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r10 + 29], 11
+	QUAD $0x1e1664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r10 + 30], 11
+	QUAD $0x1f167c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r10 + 31], 11
+	QUAD $0x143e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 20], 12
+	QUAD $0x153e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 21], 12
+	QUAD $0x163e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 22], 12
+	QUAD $0x173e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 23], 12
+	QUAD $0x193e4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r15 + 25], 12
+	QUAD $0x1a3e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 26], 12
+	QUAD $0x1b3e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 27], 12
+	QUAD $0x1c3e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 28], 12
+	QUAD $0x1d3e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 29], 12
+	QUAD $0x1e3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 30], 12
+	QUAD $0x1f3e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 31], 12
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0d140644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 20], 13
+	QUAD $0x150644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rax + 21], 13
+	QUAD $0x160654203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rax + 22], 13
+	QUAD $0x0d17066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 23], 13
+	QUAD $0x19064c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + rax + 25], 13
+	QUAD $0x1a0664203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rax + 26], 13
+	QUAD $0x0d1b0654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 27], 13
+	QUAD $0x0d1c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 28], 13
+	QUAD $0x0d1d065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 29], 13
+	QUAD $0x0d1e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 13
+	QUAD $0x1f067c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rax + 31], 13
+	QUAD $0x140644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r8 + 20], 14
+	QUAD $0x150644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r8 + 21], 14
+	QUAD $0x160654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r8 + 22], 14
+	QUAD $0x17066c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r8 + 23], 14
+	QUAD $0x19064c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r8 + 25], 14
+	QUAD $0x1a0664203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + r8 + 26], 14
+	QUAD $0x1b0654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r8 + 27], 14
+	QUAD $0x1c0674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r8 + 28], 14
+	QUAD $0x1d065c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r8 + 29], 14
+	QUAD $0x1e0664203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r8 + 30], 14
+	QUAD $0x1f067c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r8 + 31], 14
+	QUAD $0x142644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r12 + 20], 15
+	QUAD $0x152644203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r12 + 21], 15
+	QUAD $0x162654203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r12 + 22], 15
+	QUAD $0x17266c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r12 + 23], 15
+	QUAD $0x19264c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r12 + 25], 15
+	QUAD $0x1a2664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r12 + 26], 15
+	LONG $0xcf6f0f66                           // movdqa    xmm1, xmm7
+	LONG $0xc8640f66                           // pcmpgtb    xmm1, xmm0
+	QUAD $0x1b2654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r12 + 27], 15
+	QUAD $0x000001308ddf0f66                   // pandn    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
+	LONG $0xeb0f4166; BYTE $0xcd               // por    xmm1, xmm13
+	LONG $0x760f4566; BYTE $0xed               // pcmpeqd    xmm13, xmm13
+	LONG $0xf80f4566; BYTE $0xdd               // psubb    xmm11, xmm13
+	LONG $0xeb0f4166; BYTE $0xcb               // por    xmm1, xmm11
+	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
+	LONG $0x640f4166; BYTE $0xc0               // pcmpgtb    xmm0, xmm8
+	LONG $0x6f0f4466; BYTE $0xc7               // movdqa    xmm8, xmm7
+	LONG $0x640f4166; BYTE $0xfa               // pcmpgtb    xmm7, xmm10
+	QUAD $0x000140956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 320[rbp] /* [rip + .LCPI10_20] */
+	LONG $0xdf0f4166; BYTE $0xc2               // pandn    xmm0, xmm10
+	QUAD $0x0001509d6f0f4466; BYTE $0x00       // movdqa    xmm11, oword 336[rbp] /* [rip + .LCPI10_21] */
+	LONG $0xdf0f4166; BYTE $0xfb               // pandn    xmm7, xmm11
+	LONG $0xf8eb0f66                           // por    xmm7, xmm0
+	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
+	LONG $0xc5640f66                           // pcmpgtb    xmm0, xmm5
+	QUAD $0x1c2674203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r12 + 28], 15
+	LONG $0x6d6f0f66; BYTE $0x60               // movdqa    xmm5, oword 96[rbp] /* [rip + .LCPI10_6] */
+	LONG $0xc5df0f66                           // pandn    xmm0, xmm5
+	LONG $0xc7eb0f66                           // por    xmm0, xmm7
+	QUAD $0x1d265c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r12 + 29], 15
+	LONG $0xc1eb0f66                           // por    xmm0, xmm1
+	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
+	LONG $0x640f4166; BYTE $0xc9               // pcmpgtb    xmm1, xmm9
+	QUAD $0x000001008ddf0f66                   // pandn    xmm1, oword 256[rbp] /* [rip + .LCPI10_16] */
+	QUAD $0x000100248cfc0f66; BYTE $0x00       // paddb    xmm1, oword [rsp + 256]
+	LONG $0x6f0f4166; BYTE $0xe8               // movdqa    xmm5, xmm8
+	LONG $0x640f4166; BYTE $0xec               // pcmpgtb    xmm5, xmm12
+	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
+	LONG $0xfa640f66                           // pcmpgtb    xmm7, xmm2
+	QUAD $0x00000110addf0f66                   // pandn    xmm5, oword 272[rbp] /* [rip + .LCPI10_17] */
+	QUAD $0x00000120bddf0f66                   // pandn    xmm7, oword 288[rbp] /* [rip + .LCPI10_18] */
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
+	LONG $0xd6640f66                           // pcmpgtb    xmm2, xmm6
+	QUAD $0x1e2664203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r12 + 30], 15
+	QUAD $0x0000013095df0f66                   // pandn    xmm2, oword 304[rbp] /* [rip + .LCPI10_19] */
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	LONG $0xf80f4166; BYTE $0xcd               // psubb    xmm1, xmm13
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
+	LONG $0xcb640f66                           // pcmpgtb    xmm1, xmm3
+	LONG $0x6f0f4166; BYTE $0xd8               // movdqa    xmm3, xmm8
+	LONG $0xdc640f66                           // pcmpgtb    xmm3, xmm4
+	QUAD $0x1f267c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r12 + 31], 15
+	LONG $0xdf0f4166; BYTE $0xca               // pandn    xmm1, xmm10
+	LONG $0xdf0f4166; BYTE $0xdb               // pandn    xmm3, xmm11
+	LONG $0xd9eb0f66                           // por    xmm3, xmm1
+	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
+	LONG $0x640f4166; BYTE $0xcf               // pcmpgtb    xmm1, xmm15
+	LONG $0x4ddf0f66; BYTE $0x60               // pandn    xmm1, oword 96[rbp] /* [rip + .LCPI10_6] */
+	LONG $0xcbeb0f66                           // por    xmm1, xmm3
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
+	LONG $0xd1600f66                           // punpcklbw    xmm2, xmm1
+	QUAD $0x00009024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 144]
+	LONG $0xdd6f0f66                           // movdqa    xmm3, xmm5
+	LONG $0x600f4166; BYTE $0xde               // punpcklbw    xmm3, xmm14
+	LONG $0xe36f0f66                           // movdqa    xmm4, xmm3
+	LONG $0xe2610f66                           // punpcklwd    xmm4, xmm2
+	LONG $0xda690f66                           // punpckhwd    xmm3, xmm2
+	LONG $0xc1680f66                           // punpckhbw    xmm0, xmm1
+	LONG $0x680f4166; BYTE $0xee               // punpckhbw    xmm5, xmm14
+	LONG $0xcd6f0f66                           // movdqa    xmm1, xmm5
+	LONG $0xc8610f66                           // punpcklwd    xmm1, xmm0
+	LONG $0xe8690f66                           // punpckhwd    xmm5, xmm0
+	QUAD $0x00000120248c8b48                   // mov    rcx, qword [rsp + 288]
+	LONG $0x7f0f41f3; WORD $0x8e6c; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm5
+	LONG $0x7f0f41f3; WORD $0x8e4c; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x8e5c; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm3
+	LONG $0x7f0f41f3; WORD $0x8e24             // movdqu    oword [r14 + 4*rcx], xmm4
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8949; BYTE $0xc8                   // mov    r8, rcx
+	QUAD $0x000000a0248c3b48                   // cmp    rcx, qword [rsp + 160]
+	JNE  LBB10_192
+	QUAD $0x000001b024bc8b4c                   // mov    r15, qword [rsp + 432]
+	QUAD $0x000000a024bc3b4c                   // cmp    r15, qword [rsp + 160]
+	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
+	QUAD $0x0000017024b48b48                   // mov    rsi, qword [rsp + 368]
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	JNE  LBB10_42
+	JMP  LBB10_128
+
+LBB10_194:
+	LONG $0xf0e78349                     // and    r15, -16
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xf0             // add    rax, rsi
+	QUAD $0x0000018824848948             // mov    qword [rsp + 392], rax
+	QUAD $0x000001a024bc894c             // mov    qword [rsp + 416], r15
+	LONG $0xbe048d4b                     // lea    rax, [r14 + 4*r15]
+	QUAD $0x000000d024848948             // mov    qword [rsp + 208], rax
+	LONG $0xc3b60f41                     // movzx    eax, r11b
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x000190248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 400], xmm1
+	WORD $0xd231                         // xor    edx, edx
+	QUAD $0x0000016024b4894c             // mov    qword [rsp + 352], r14
+
+LBB10_195:
+	QUAD $0x0000015024948948                   // mov    qword [rsp + 336], rdx
+	LONG $0x05e2c148                           // shl    rdx, 5
+	WORD $0x8948; BYTE $0xd3                   // mov    rbx, rdx
+	WORD $0x8949; BYTE $0xd3                   // mov    r11, rdx
+	WORD $0x8949; BYTE $0xd4                   // mov    r12, rdx
+	QUAD $0x0000009024948948                   // mov    qword [rsp + 144], rdx
+	WORD $0x8949; BYTE $0xd0                   // mov    r8, rdx
+	WORD $0x8949; BYTE $0xd5                   // mov    r13, rdx
+	WORD $0x8949; BYTE $0xd1                   // mov    r9, rdx
+	WORD $0x8949; BYTE $0xd2                   // mov    r10, rdx
+	WORD $0x8949; BYTE $0xd6                   // mov    r14, rdx
+	WORD $0x8948; BYTE $0xd7                   // mov    rdi, rdx
+	WORD $0x8949; BYTE $0xd7                   // mov    r15, rdx
+	LONG $0x160cb60f                           // movzx    ecx, byte [rsi + rdx]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	LONG $0x164cb60f; BYTE $0x01               // movzx    ecx, byte [rsi + rdx + 1]
+	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
+	LONG $0x164cb60f; BYTE $0x02               // movzx    ecx, byte [rsi + rdx + 2]
+	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
+	LONG $0x164cb60f; BYTE $0x03               // movzx    ecx, byte [rsi + rdx + 3]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	LONG $0x164cb60f; BYTE $0x04               // movzx    ecx, byte [rsi + rdx + 4]
+	LONG $0xd96e0f66                           // movd    xmm3, ecx
+	LONG $0x164cb60f; BYTE $0x05               // movzx    ecx, byte [rsi + rdx + 5]
+	LONG $0xc96e0f66                           // movd    xmm1, ecx
+	LONG $0x164cb60f; BYTE $0x06               // movzx    ecx, byte [rsi + rdx + 6]
+	LONG $0xe16e0f66                           // movd    xmm4, ecx
+	LONG $0x164cb60f; BYTE $0x07               // movzx    ecx, byte [rsi + rdx + 7]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	QUAD $0x00017024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 368], xmm2
+	LONG $0x164cb60f; BYTE $0x08               // movzx    ecx, byte [rsi + rdx + 8]
+	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
+	LONG $0x164cb60f; BYTE $0x09               // movzx    ecx, byte [rsi + rdx + 9]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	QUAD $0x0000a024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm2
+	LONG $0x164cb60f; BYTE $0x0a               // movzx    ecx, byte [rsi + rdx + 10]
+	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
+	LONG $0x164cb60f; BYTE $0x0b               // movzx    ecx, byte [rsi + rdx + 11]
+	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
+	LONG $0x164cb60f; BYTE $0x0c               // movzx    ecx, byte [rsi + rdx + 12]
+	LONG $0xf16e0f66                           // movd    xmm6, ecx
+	LONG $0x164cb60f; BYTE $0x10               // movzx    ecx, byte [rsi + rdx + 16]
+	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
+	LONG $0x164cb60f; BYTE $0x18               // movzx    ecx, byte [rsi + rdx + 24]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	QUAD $0x0000008024948948                   // mov    qword [rsp + 128], rdx
+	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
+	LONG $0x20c88348                           // or    rax, 32
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	LONG $0x40cb8348                           // or    rbx, 64
+	LONG $0x60cb8349                           // or    r11, 96
+	QUAD $0x00000120249c894c                   // mov    qword [rsp + 288], r11
+	LONG $0x80cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 128
+	LONG $0x2464894c; BYTE $0x60               // mov    qword [rsp + 96], r12
+	QUAD $0x00000090248c8148; LONG $0x000000a0 // or    qword [rsp + 144], 160
+	LONG $0xc0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 192
+	LONG $0xe0cd8149; WORD $0x0000; BYTE $0x00 // or    r13, 224
+	QUAD $0x0000013024ac894c                   // mov    qword [rsp + 304], r13
+	LONG $0x00c98149; WORD $0x0001; BYTE $0x00 // or    r9, 256
+	LONG $0x20ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 288
+	QUAD $0x000001102494894c                   // mov    qword [rsp + 272], r10
+	LONG $0x40ce8149; WORD $0x0001; BYTE $0x00 // or    r14, 320
+	LONG $0x60cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 352
+	LONG $0x247c8948; BYTE $0x50               // mov    qword [rsp + 80], rdi
+	LONG $0x80cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 384
+	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
+	LONG $0x01a00d48; WORD $0x0000             // or    rax, 416
+	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
+	LONG $0x24548948; BYTE $0x10               // mov    qword [rsp + 16], rdx
+	QUAD $0x0001c010244c8148; BYTE $0x00       // or    qword [rsp + 16], 448
+	LONG $0xe0ca8148; WORD $0x0001; BYTE $0x00 // or    rdx, 480
+	LONG $0x24548948; BYTE $0x30               // mov    qword [rsp + 48], rdx
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	LONG $0x203a0f66; WORD $0x0e04; BYTE $0x01 // pinsrb    xmm0, byte [rsi + rcx], 1
+	LONG $0x203a0f66; WORD $0x1e04; BYTE $0x02 // pinsrb    xmm0, byte [rsi + rbx], 2
+	QUAD $0x031e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r11], 3
+	QUAD $0x042604203a0f4266                   // pinsrb    xmm0, byte [rsi + r12], 4
+	QUAD $0x00000090249c8b4c                   // mov    r11, qword [rsp + 144]
+	QUAD $0x051e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r11], 5
+	WORD $0x894c; BYTE $0xc2                   // mov    rdx, r8
+	QUAD $0x060604203a0f4266                   // pinsrb    xmm0, byte [rsi + r8], 6
+	QUAD $0x072e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r13], 7
+	QUAD $0x080e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r9], 8
+	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
+	QUAD $0x000000e0248c894c                   // mov    qword [rsp + 224], r9
+	QUAD $0x091604203a0f4266                   // pinsrb    xmm0, byte [rsi + r10], 9
+	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
+	QUAD $0x0a3604203a0f4266                   // pinsrb    xmm0, byte [rsi + r14], 10
+	LONG $0x203a0f66; WORD $0x3e04; BYTE $0x0b // pinsrb    xmm0, byte [rsi + rdi], 11
+	QUAD $0x0c3e04203a0f4266                   // pinsrb    xmm0, byte [rsi + r15], 12
+	LONG $0x203a0f66; WORD $0x0604; BYTE $0x0d // pinsrb    xmm0, byte [rsi + rax], 13
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	LONG $0x203a0f66; WORD $0x0e04; BYTE $0x0e // pinsrb    xmm0, byte [rsi + rcx], 14
+	LONG $0x244c8b48; BYTE $0x30               // mov    rcx, qword [rsp + 48]
+	LONG $0x203a0f66; WORD $0x0e04; BYTE $0x0f // pinsrb    xmm0, byte [rsi + rcx], 15
+	LONG $0x6f0f4466; BYTE $0xc8               // movdqa    xmm9, xmm0
+	QUAD $0x00019024bc6f0f66; BYTE $0x00       // movdqa    xmm7, oword [rsp + 400]
+	LONG $0xde0f4466; BYTE $0xcf               // pmaxub    xmm9, xmm7
+	LONG $0x6f0f4466; BYTE $0xff               // movdqa    xmm15, xmm7
+	LONG $0x740f4466; BYTE $0xc8               // pcmpeqb    xmm9, xmm0
+	LONG $0x6f0f4166; BYTE $0xc1               // movdqa    xmm0, xmm9
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x010e5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rcx + 1], 1
+	QUAD $0x011e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rbx + 1], 2
+	QUAD $0x0000012024b48b4c                   // mov    r14, qword [rsp + 288]
+	QUAD $0x01365c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r14 + 1], 3
+	QUAD $0x01265c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r12 + 1], 4
+	QUAD $0x011e5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rsi + r11 + 1], 5
+	QUAD $0x01165c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rdx + 1], 6
+	QUAD $0x012e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r13 + 1], 7
+	QUAD $0x01065c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r8 + 1], 8
+	QUAD $0x01165c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rsi + r10 + 1], 9
+	QUAD $0x010e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r9 + 1], 10
+	QUAD $0x013e5c203a0f4466; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + rdi + 1], 11
+	QUAD $0x013e5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + r15 + 1], 12
+	QUAD $0x01065c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + rax + 1], 13
+	LONG $0x24448b4c; BYTE $0x10               // mov    r8, qword [rsp + 16]
+	QUAD $0x01065c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + r8 + 1], 14
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x01065c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r8 + 1], 15
+	QUAD $0x080e6c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rsi + rcx + 8], 1
+	QUAD $0x081e6c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rsi + rbx + 8], 2
+	QUAD $0x08366c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rsi + r14 + 8], 3
+	QUAD $0x08266c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rsi + r12 + 8], 4
+	QUAD $0x081e6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rsi + r11 + 8], 5
+	QUAD $0x08166c203a0f4466; BYTE $0x06       // pinsrb    xmm13, byte [rsi + rdx + 8], 6
+	QUAD $0x082e6c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rsi + r13 + 8], 7
+	QUAD $0x000000e024ac8b4c                   // mov    r13, qword [rsp + 224]
+	QUAD $0x082e6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rsi + r13 + 8], 8
+	QUAD $0x08166c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rsi + r10 + 8], 9
+	QUAD $0x080e6c203a0f4666; BYTE $0x0a       // pinsrb    xmm13, byte [rsi + r9 + 8], 10
+	QUAD $0x083e6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rsi + rdi + 8], 11
+	QUAD $0x083e6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rsi + r15 + 8], 12
+	QUAD $0x08066c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rsi + rax + 8], 13
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x080e6c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rsi + rcx + 8], 14
+	QUAD $0x08066c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rsi + r8 + 8], 15
+	LONG $0x6f0f4566; BYTE $0xcd               // movdqa    xmm9, xmm13
+	LONG $0xde0f4466; BYTE $0xcf               // pmaxub    xmm9, xmm7
+	LONG $0x740f4566; BYTE $0xcd               // pcmpeqb    xmm9, xmm13
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x103e64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rsi + rdi + 16], 1
+	QUAD $0x101e64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rsi + rbx + 16], 2
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	QUAD $0x103664203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rsi + r14 + 16], 3
+	QUAD $0x102664203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rsi + r12 + 16], 4
+	QUAD $0x101e64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rsi + r11 + 16], 5
+	QUAD $0x101664203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rsi + rdx + 16], 6
+	WORD $0x8948; BYTE $0xd1                   // mov    rcx, rdx
+	QUAD $0x000000f024948948                   // mov    qword [rsp + 240], rdx
+	QUAD $0x00000130249c8b4c                   // mov    r11, qword [rsp + 304]
+	QUAD $0x101e64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rsi + r11 + 16], 7
+	QUAD $0x102e64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rsi + r13 + 16], 8
+	WORD $0x894d; BYTE $0xe8                   // mov    r8, r13
+	QUAD $0x0000011024ac8b4c                   // mov    r13, qword [rsp + 272]
+	QUAD $0x102e64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rsi + r13 + 16], 9
+	QUAD $0x100e64203a0f4666; BYTE $0x0a       // pinsrb    xmm12, byte [rsi + r9 + 16], 10
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x101664203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rsi + rdx + 16], 11
+	QUAD $0x103e64203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rsi + r15 + 16], 12
+	QUAD $0x100664203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rsi + rax + 16], 13
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x101e64203a0f4466; BYTE $0x0e       // pinsrb    xmm12, byte [rsi + rbx + 16], 14
+	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
+	QUAD $0x102664203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rsi + r12 + 16], 15
+	LONG $0x6f0f4166; BYTE $0xfc               // movdqa    xmm7, xmm12
+	LONG $0xde0f4166; BYTE $0xff               // pmaxub    xmm7, xmm15
+	LONG $0x740f4166; BYTE $0xfc               // pcmpeqb    xmm7, xmm12
+	QUAD $0x0001b024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 432], xmm7
+	QUAD $0x01183e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 24], 1
+	QUAD $0x181654203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rsi + r10 + 24], 2
+	QUAD $0x183654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r14 + 24], 3
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x04183e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 24], 4
+	QUAD $0x0000009024b48b4c                   // mov    r14, qword [rsp + 144]
+	QUAD $0x183654203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rsi + r14 + 24], 5
+	QUAD $0x06180e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 24], 6
+	QUAD $0x181e54203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r11 + 24], 7
+	QUAD $0x180654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 24], 8
+	QUAD $0x182e54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rsi + r13 + 24], 9
+	QUAD $0x180e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 24], 10
+	QUAD $0x0b181654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 24], 11
+	QUAD $0x183e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 24], 12
+	QUAD $0x0d180654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 24], 13
+	QUAD $0x0e181e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 24], 14
+	QUAD $0x182654203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r12 + 24], 15
+	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
+	LONG $0xde0f4166; BYTE $0xff               // pmaxub    xmm7, xmm15
+	LONG $0xfa740f66                           // pcmpeqb    xmm7, xmm2
+	QUAD $0x00014024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 320], xmm7
+	LONG $0x6f0f4566; BYTE $0xe3               // movdqa    xmm12, xmm11
+	LONG $0x6f0f4566; BYTE $0xef               // movdqa    xmm13, xmm15
+	LONG $0xde0f4566; BYTE $0xe7               // pmaxub    xmm12, xmm15
+	LONG $0x740f4566; BYTE $0xe3               // pcmpeqb    xmm12, xmm11
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	LONG $0x1654b60f; BYTE $0x0d               // movzx    edx, byte [rsi + rdx + 13]
+	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x020e74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rcx + 2], 1
+	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
+	QUAD $0x021674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r10 + 2], 2
+	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
+	QUAD $0x021674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r10 + 2], 3
+	WORD $0x8948; BYTE $0xfa                   // mov    rdx, rdi
+	QUAD $0x023e74203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rsi + rdi + 2], 4
+	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
+	QUAD $0x023674203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rsi + r14 + 2], 5
+	QUAD $0x000000f024bc8b48                   // mov    rdi, qword [rsp + 240]
+	QUAD $0x023e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rdi + 2], 6
+	QUAD $0x021e74203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rsi + r11 + 2], 7
+	QUAD $0x020674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 2], 8
+	QUAD $0x022e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r13 + 2], 9
+	QUAD $0x020e74203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r9 + 2], 10
+	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
+	QUAD $0x023674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 2], 11
+	QUAD $0x023e74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + r15 + 2], 12
+	LONG $0x24448948; BYTE $0x70               // mov    qword [rsp + 112], rax
+	QUAD $0x020674203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + rax + 2], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x020674203a0f4466; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + rax + 2], 14
+	QUAD $0x022674203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + r12 + 2], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0103066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 3], 1
+	QUAD $0x02031e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 3], 2
+	QUAD $0x03166c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r10 + 3], 3
+	QUAD $0x0403166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 3], 4
+	WORD $0x8948; BYTE $0xd0                   // mov    rax, rdx
+	QUAD $0x05030e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 3], 5
+	QUAD $0x06033e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 3], 6
+	QUAD $0x031e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 3], 7
+	QUAD $0x03066c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r8 + 3], 8
+	QUAD $0x032e6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rsi + r13 + 3], 9
+	QUAD $0x030e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r9 + 3], 10
+	QUAD $0x03366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 3], 11
+	QUAD $0x033e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 3], 12
+	LONG $0x24748b4c; BYTE $0x70               // mov    r14, qword [rsp + 112]
+	QUAD $0x03366c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r14 + 3], 13
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0e03166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 3], 14
+	QUAD $0x03266c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r12 + 3], 15
+	QUAD $0x00000100956f0f66                   // movdqa    xmm2, oword 256[rbp] /* [rip + .LCPI10_16] */
+	LONG $0xdb0f4466; BYTE $0xe2               // pand    xmm12, xmm2
+	LONG $0xf80f4466; BYTE $0xe0               // psubb    xmm12, xmm0
+	LONG $0x6f0f4566; BYTE $0xde               // movdqa    xmm11, xmm14
+	LONG $0xde0f4566; BYTE $0xdd               // pmaxub    xmm11, xmm13
+	LONG $0x740f4566; BYTE $0xde               // pcmpeqb    xmm11, xmm14
+	LONG $0xd56f0f66                           // movdqa    xmm2, xmm5
+	LONG $0xde0f4166; BYTE $0xd5               // pmaxub    xmm2, xmm13
+	LONG $0xd5740f66                           // pcmpeqb    xmm2, xmm5
+	QUAD $0x0000008024948b48                   // mov    rdx, qword [rsp + 128]
+	LONG $0x1654b60f; BYTE $0x0e               // movzx    edx, byte [rsi + rdx + 14]
+	LONG $0x6e0f4466; BYTE $0xf2               // movd    xmm14, edx
+	LONG $0x24648b4c; BYTE $0x20               // mov    r12, qword [rsp + 32]
+	QUAD $0x04265c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r12 + 4], 1
+	QUAD $0x02041e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 4], 2
+	QUAD $0x04165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 4], 3
+	QUAD $0x0404065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 4], 4
+	QUAD $0x05040e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 4], 5
+	QUAD $0x06043e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 4], 6
+	QUAD $0x041e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 4], 7
+	QUAD $0x04065c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r8 + 4], 8
+	QUAD $0x042e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r13 + 4], 9
+	QUAD $0x040e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 4], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b04065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 4], 11
+	QUAD $0x000000c024bc894c                   // mov    qword [rsp + 192], r15
+	QUAD $0x043e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 4], 12
+	QUAD $0x04365c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rsi + r14 + 4], 13
+	LONG $0x24548b48; BYTE $0x10               // mov    rdx, qword [rsp + 16]
+	QUAD $0x0e04165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 4], 14
+	LONG $0x24748b4c; BYTE $0x30               // mov    r14, qword [rsp + 48]
+	QUAD $0x04365c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r14 + 4], 15
+	QUAD $0x05264c203a0f4266; BYTE $0x01       // pinsrb    xmm1, byte [rsi + r12 + 5], 1
+	QUAD $0x02051e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rbx + 5], 2
+	QUAD $0x05164c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rsi + r10 + 5], 3
+	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
+	QUAD $0x05264c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rsi + r12 + 5], 4
+	QUAD $0x05050e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rcx + 5], 5
+	QUAD $0x06053e4c203a0f66                   // pinsrb    xmm1, byte [rsi + rdi + 5], 6
+	QUAD $0x051e4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rsi + r11 + 5], 7
+	QUAD $0x05064c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rsi + r8 + 5], 8
+	QUAD $0x052e4c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rsi + r13 + 5], 9
+	QUAD $0x050e4c203a0f4266; BYTE $0x0a       // pinsrb    xmm1, byte [rsi + r9 + 5], 10
+	QUAD $0x0b05064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 5], 11
+	QUAD $0x053e4c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rsi + r15 + 5], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0d05064c203a0f66                   // pinsrb    xmm1, byte [rsi + rax + 5], 13
+	QUAD $0x0e05164c203a0f66                   // pinsrb    xmm1, byte [rsi + rdx + 5], 14
+	QUAD $0x00000110ad6f0f66                   // movdqa    xmm5, oword 272[rbp] /* [rip + .LCPI10_17] */
+	LONG $0xdb0f4466; BYTE $0xdd               // pand    xmm11, xmm5
+	QUAD $0x00000120ad6f0f66                   // movdqa    xmm5, oword 288[rbp] /* [rip + .LCPI10_18] */
+	LONG $0xd5db0f66                           // pand    xmm2, xmm5
+	LONG $0xeb0f4166; BYTE $0xd3               // por    xmm2, xmm11
+	QUAD $0x0000008024bc8b4c                   // mov    r15, qword [rsp + 128]
+	LONG $0x54b60f42; WORD $0x0f3e             // movzx    edx, byte [rsi + r15 + 15]
+	LONG $0x6e0f4466; BYTE $0xda               // movd    xmm11, edx
+	QUAD $0x05364c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rsi + r14 + 5], 15
+	LONG $0xeb0f4166; BYTE $0xd4               // por    xmm2, xmm12
+	LONG $0x6f0f4466; BYTE $0xe3               // movdqa    xmm12, xmm3
+	LONG $0xde0f4566; BYTE $0xe5               // pmaxub    xmm12, xmm13
+	LONG $0x740f4466; BYTE $0xe3               // pcmpeqb    xmm12, xmm3
+	LONG $0xe96f0f66                           // movdqa    xmm5, xmm1
+	LONG $0xde0f4166; BYTE $0xed               // pmaxub    xmm5, xmm13
+	LONG $0xe9740f66                           // pcmpeqb    xmm5, xmm1
+	LONG $0x54b60f42; WORD $0x113e             // movzx    edx, byte [rsi + r15 + 17]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	LONG $0x24548b48; BYTE $0x20               // mov    rdx, qword [rsp + 32]
+	QUAD $0x01061664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 6], 1
+	QUAD $0x000000b0249c8948                   // mov    qword [rsp + 176], rbx
+	QUAD $0x02061e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 6], 2
+	QUAD $0x061664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 6], 3
+	QUAD $0x062664203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rsi + r12 + 6], 4
+	QUAD $0x05060e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 6], 5
+	QUAD $0x06063e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 6], 6
+	QUAD $0x061e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 6], 7
+	QUAD $0x060664203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rsi + r8 + 6], 8
+	QUAD $0x062e64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rsi + r13 + 6], 9
+	QUAD $0x00000100248c894c                   // mov    qword [rsp + 256], r9
+	QUAD $0x060e64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r9 + 6], 10
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x062664203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r12 + 6], 11
+	QUAD $0x000000c024b48b4c                   // mov    r14, qword [rsp + 192]
+	QUAD $0x063664203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r14 + 6], 12
+	QUAD $0x0d060664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 6], 13
+	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
+	QUAD $0x063e64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r15 + 6], 14
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x063e64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r15 + 6], 15
+	QUAD $0x000170249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 368]
+	QUAD $0x0107165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 7], 1
+	QUAD $0x02071e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 7], 2
+	QUAD $0x07165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 7], 3
+	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x0407165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 7], 4
+	QUAD $0x05070e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 7], 5
+	QUAD $0x06073e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 7], 6
+	QUAD $0x071e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 7], 7
+	QUAD $0x07065c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r8 + 7], 8
+	QUAD $0x072e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r13 + 7], 9
+	QUAD $0x070e5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r9 + 7], 10
+	QUAD $0x07265c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r12 + 7], 11
+	QUAD $0x07365c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r14 + 7], 12
+	QUAD $0x0d07065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 7], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0e073e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 7], 14
+	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
+	QUAD $0x073e5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r15 + 7], 15
+	QUAD $0x000001308d6f0f66                   // movdqa    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
+	LONG $0xdb0f4466; BYTE $0xe1               // pand    xmm12, xmm1
+	QUAD $0x000001408d6f0f66                   // movdqa    xmm1, oword 320[rbp] /* [rip + .LCPI10_20] */
+	LONG $0xe9db0f66                           // pand    xmm5, xmm1
+	LONG $0xeb0f4166; BYTE $0xec               // por    xmm5, xmm12
+	LONG $0xcc6f0f66                           // movdqa    xmm1, xmm4
+	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
+	LONG $0xcc740f66                           // pcmpeqb    xmm1, xmm4
+	QUAD $0x0000008024848b4c                   // mov    r8, qword [rsp + 128]
+	LONG $0x54b60f42; WORD $0x1206             // movzx    edx, byte [rsi + r8 + 18]
+	LONG $0xe26e0f66                           // movd    xmm4, edx
+	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI10_21] */
+	LONG $0xcfdb0f66                           // pand    xmm1, xmm7
+	LONG $0xcdeb0f66                           // por    xmm1, xmm5
+	LONG $0x54b60f42; WORD $0x1306             // movzx    edx, byte [rsi + r8 + 19]
+	LONG $0xea6e0f66                           // movd    xmm5, edx
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	LONG $0xd36f0f66                           // movdqa    xmm2, xmm3
+	LONG $0xde0f4166; BYTE $0xd5               // pmaxub    xmm2, xmm13
+	LONG $0xd3740f66                           // pcmpeqb    xmm2, xmm3
+	LONG $0x6f0f4466; BYTE $0xe2               // movdqa    xmm12, xmm2
+	LONG $0x54b60f42; WORD $0x1406             // movzx    edx, byte [rsi + r8 + 20]
+	LONG $0xd26e0f66                           // movd    xmm2, edx
+	QUAD $0x0000a0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 160]
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	QUAD $0x09365c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rsi + r14 + 9], 1
+	QUAD $0x000000b024948b4c                   // mov    r10, qword [rsp + 176]
+	QUAD $0x09165c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rsi + r10 + 9], 2
+	QUAD $0x03091e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 9], 3
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0409065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 9], 4
+	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
+	QUAD $0x090e5c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rsi + r9 + 9], 5
+	QUAD $0x000000f0249c8b4c                   // mov    r11, qword [rsp + 240]
+	QUAD $0x091e5c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rsi + r11 + 9], 6
+	QUAD $0x00000130249c8b48                   // mov    rbx, qword [rsp + 304]
+	QUAD $0x07091e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 9], 7
+	QUAD $0x000000e024bc8b4c                   // mov    r15, qword [rsp + 224]
+	QUAD $0x093e5c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r15 + 9], 8
+	QUAD $0x092e5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rsi + r13 + 9], 9
+	QUAD $0x0000010024a48b4c                   // mov    r12, qword [rsp + 256]
+	QUAD $0x09265c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r12 + 9], 10
+	LONG $0x24548b48; BYTE $0x50               // mov    rdx, qword [rsp + 80]
+	QUAD $0x0b09165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 9], 11
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x0c09165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 9], 12
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0d09165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 9], 13
+	QUAD $0x0e093e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 9], 14
+	QUAD $0x0f090e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 9], 15
+	LONG $0x7d6f0f66; BYTE $0x60               // movdqa    xmm7, oword 96[rbp] /* [rip + .LCPI10_6] */
+	LONG $0xdb0f4466; BYTE $0xe7               // pand    xmm12, xmm7
+	LONG $0xeb0f4466; BYTE $0xe1               // por    xmm12, xmm1
+	QUAD $0x00a024a47f0f4466; WORD $0x0000     // movdqa    oword [rsp + 160], xmm12
+	LONG $0xfb6f0f66                           // movdqa    xmm7, xmm3
+	LONG $0xde0f4166; BYTE $0xfd               // pmaxub    xmm7, xmm13
+	LONG $0xfb740f66                           // pcmpeqb    xmm7, xmm3
+	LONG $0x54b60f42; WORD $0x1506             // movzx    edx, byte [rsi + r8 + 21]
+	LONG $0xda6e0f66                           // movd    xmm3, edx
+	QUAD $0x0a3644203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rsi + r14 + 10], 1
+	WORD $0x894d; BYTE $0xd6                   // mov    r14, r10
+	QUAD $0x0a1644203a0f4666; BYTE $0x02       // pinsrb    xmm8, byte [rsi + r10 + 10], 2
+	QUAD $0x0000012024948b4c                   // mov    r10, qword [rsp + 288]
+	QUAD $0x0a1644203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r10 + 10], 3
+	QUAD $0x0a0644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rax + 10], 4
+	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
+	QUAD $0x0a0e44203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rsi + r9 + 10], 5
+	WORD $0x894c; BYTE $0xdf                   // mov    rdi, r11
+	QUAD $0x0a1e44203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rsi + r11 + 10], 6
+	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
+	QUAD $0x0a1e44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rsi + rbx + 10], 7
+	WORD $0x894d; BYTE $0xf8                   // mov    r8, r15
+	QUAD $0x0a3e44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rsi + r15 + 10], 8
+	QUAD $0x0a2e44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rsi + r13 + 10], 9
+	WORD $0x894d; BYTE $0xe1                   // mov    r9, r12
+	QUAD $0x0a2644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r12 + 10], 10
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	QUAD $0x0a2644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r12 + 10], 11
+	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
+	QUAD $0x0a3e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 10], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0a0644203a0f4466; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + rax + 10], 13
+	LONG $0x245c8b48; BYTE $0x10               // mov    rbx, qword [rsp + 16]
+	QUAD $0x0a1e44203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + rbx + 10], 14
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0a1644203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + rdx + 10], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0b0654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 11], 1
+	QUAD $0x0b3654203a0f4666; BYTE $0x02       // pinsrb    xmm10, byte [rsi + r14 + 11], 2
+	QUAD $0x0b1654203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r10 + 11], 3
+	LONG $0x24748b4c; BYTE $0x60               // mov    r14, qword [rsp + 96]
+	QUAD $0x0b3654203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rsi + r14 + 11], 4
+	QUAD $0x0b0e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rcx + 11], 5
+	QUAD $0x0b3e54203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rdi + 11], 6
+	QUAD $0x0b1e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r11 + 11], 7
+	QUAD $0x0b0654203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rsi + r8 + 11], 8
+	QUAD $0x0b2e54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rsi + r13 + 11], 9
+	QUAD $0x0b0e54203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r9 + 11], 10
+	QUAD $0x0b2654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r12 + 11], 11
+	QUAD $0x0b3e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 11], 12
+	LONG $0x24448b48; BYTE $0x70               // mov    rax, qword [rsp + 112]
+	QUAD $0x0b0654203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + rax + 11], 13
+	QUAD $0x0b1e54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + rbx + 11], 14
+	QUAD $0x0b1654203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + rdx + 11], 15
+	QUAD $0x00000100bddb0f66                   // pand    xmm7, oword 256[rbp] /* [rip + .LCPI10_16] */
+	LONG $0xf80f4166; BYTE $0xf9               // psubb    xmm7, xmm9
+	LONG $0x6f0f4166; BYTE $0xc8               // movdqa    xmm1, xmm8
+	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
+	LONG $0x740f4166; BYTE $0xc8               // pcmpeqb    xmm1, xmm8
+	LONG $0x6f0f4566; BYTE $0xca               // movdqa    xmm9, xmm10
+	LONG $0xde0f4566; BYTE $0xcd               // pmaxub    xmm9, xmm13
+	LONG $0x740f4566; BYTE $0xca               // pcmpeqb    xmm9, xmm10
+	QUAD $0x0000008024848b48                   // mov    rax, qword [rsp + 128]
+	LONG $0x0654b60f; BYTE $0x16               // movzx    edx, byte [rsi + rax + 22]
+	LONG $0x6e0f4466; BYTE $0xd2               // movd    xmm10, edx
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x010c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 12], 1
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	QUAD $0x0c2674203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rsi + r12 + 12], 2
+	QUAD $0x0c1674203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r10 + 12], 3
+	WORD $0x894c; BYTE $0xf2                   // mov    rdx, r14
+	QUAD $0x0c3674203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rsi + r14 + 12], 4
+	QUAD $0x050c0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 12], 5
+	QUAD $0x060c3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 12], 6
+	QUAD $0x0c1e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r11 + 12], 7
+	QUAD $0x0c0674203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rsi + r8 + 12], 8
+	QUAD $0x0c2e74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rsi + r13 + 12], 9
+	QUAD $0x0c0e74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r9 + 12], 10
+	LONG $0x24748b4c; BYTE $0x50               // mov    r14, qword [rsp + 80]
+	QUAD $0x0c3674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r14 + 12], 11
+	QUAD $0x0c3e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 12], 12
+	LONG $0x245c8b48; BYTE $0x70               // mov    rbx, qword [rsp + 112]
+	QUAD $0x0d0c1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 12], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e0c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 12], 14
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x0f0c0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 12], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0d067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 13], 1
+	QUAD $0x0d267c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rsi + r12 + 13], 2
+	QUAD $0x0d167c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r10 + 13], 3
+	QUAD $0x0d167c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rdx + 13], 4
+	QUAD $0x0d0e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rcx + 13], 5
+	QUAD $0x0d3e7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rdi + 13], 6
+	QUAD $0x0d1e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r11 + 13], 7
+	QUAD $0x0d067c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rsi + r8 + 13], 8
+	QUAD $0x0d2e7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rsi + r13 + 13], 9
+	QUAD $0x0d0e7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r9 + 13], 10
+	QUAD $0x0d367c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r14 + 13], 11
+	QUAD $0x0d3e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 13], 12
+	WORD $0x894c; BYTE $0xf8                   // mov    rax, r15
+	QUAD $0x0d1e7c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + rbx + 13], 13
+	LONG $0x247c8b4c; BYTE $0x10               // mov    r15, qword [rsp + 16]
+	QUAD $0x0d3e7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r15 + 13], 14
+	QUAD $0x000001108ddb0f66                   // pand    xmm1, oword 272[rbp] /* [rip + .LCPI10_17] */
+	QUAD $0x0001208ddb0f4466; BYTE $0x00       // pand    xmm9, oword 288[rbp] /* [rip + .LCPI10_18] */
+	LONG $0xeb0f4466; BYTE $0xc9               // por    xmm9, xmm1
+	QUAD $0x00000080249c8b48                   // mov    rbx, qword [rsp + 128]
+	LONG $0x1e54b60f; BYTE $0x17               // movzx    edx, byte [rsi + rbx + 23]
+	LONG $0x6e0f4466; BYTE $0xc2               // movd    xmm8, edx
+	LONG $0x24548b48; BYTE $0x30               // mov    rdx, qword [rsp + 48]
+	QUAD $0x0d167c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + rdx + 13], 15
+	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
+	LONG $0xce6f0f66                           // movdqa    xmm1, xmm6
+	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
+	LONG $0xce740f66                           // pcmpeqb    xmm1, xmm6
+	LONG $0x6f0f4166; BYTE $0xff               // movdqa    xmm7, xmm15
+	LONG $0xde0f4166; BYTE $0xfd               // pmaxub    xmm7, xmm13
+	LONG $0x740f4166; BYTE $0xff               // pcmpeqb    xmm7, xmm15
+	LONG $0x1e54b60f; BYTE $0x19               // movzx    edx, byte [rsi + rbx + 25]
+	LONG $0x6e0f4466; BYTE $0xfa               // movd    xmm15, edx
+	LONG $0x245c8b48; BYTE $0x20               // mov    rbx, qword [rsp + 32]
+	QUAD $0x0e1e74203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rsi + rbx + 14], 1
+	QUAD $0x0e2674203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rsi + r12 + 14], 2
+	QUAD $0x0e1674203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rsi + r10 + 14], 3
+	LONG $0x24648b4c; BYTE $0x60               // mov    r12, qword [rsp + 96]
+	QUAD $0x0e2674203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rsi + r12 + 14], 4
+	QUAD $0x0e0e74203a0f4466; BYTE $0x05       // pinsrb    xmm14, byte [rsi + rcx + 14], 5
+	QUAD $0x0e3e74203a0f4466; BYTE $0x06       // pinsrb    xmm14, byte [rsi + rdi + 14], 6
+	QUAD $0x0e1e74203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rsi + r11 + 14], 7
+	QUAD $0x0e0674203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rsi + r8 + 14], 8
+	WORD $0x894c; BYTE $0xea                   // mov    rdx, r13
+	QUAD $0x0e2e74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rsi + r13 + 14], 9
+	QUAD $0x0e0e74203a0f4666; BYTE $0x0a       // pinsrb    xmm14, byte [rsi + r9 + 14], 10
+	QUAD $0x0e3674203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rsi + r14 + 14], 11
+	QUAD $0x0e0674203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rsi + rax + 14], 12
+	LONG $0x246c8b4c; BYTE $0x70               // mov    r13, qword [rsp + 112]
+	QUAD $0x0e2e74203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rsi + r13 + 14], 13
+	QUAD $0x0e3e74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rsi + r15 + 14], 14
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x0e3e74203a0f4666; BYTE $0x0f       // pinsrb    xmm14, byte [rsi + r15 + 14], 15
+	QUAD $0x0f1e5c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rsi + rbx + 15], 1
+	QUAD $0x000000b0249c8b48                   // mov    rbx, qword [rsp + 176]
+	QUAD $0x0f1e5c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rsi + rbx + 15], 2
+	QUAD $0x0f165c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rsi + r10 + 15], 3
+	QUAD $0x0f265c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rsi + r12 + 15], 4
+	QUAD $0x0f0e5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rsi + rcx + 15], 5
+	QUAD $0x0f3e5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rsi + rdi + 15], 6
+	QUAD $0x0f1e5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rsi + r11 + 15], 7
+	QUAD $0x0f065c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rsi + r8 + 15], 8
+	QUAD $0x0f165c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rsi + rdx + 15], 9
+	QUAD $0x0f0e5c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rsi + r9 + 15], 10
+	QUAD $0x0f365c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rsi + r14 + 15], 11
+	QUAD $0x0f065c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rsi + rax + 15], 12
+	QUAD $0x0f2e5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rsi + r13 + 15], 13
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x0f3e5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rsi + rdi + 15], 14
+	QUAD $0x0f3e5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rsi + r15 + 15], 15
+	WORD $0x894d; BYTE $0xfc                   // mov    r12, r15
+	QUAD $0x000001308ddb0f66                   // pand    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
+	QUAD $0x00000140bddb0f66                   // pand    xmm7, oword 320[rbp] /* [rip + .LCPI10_20] */
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
+	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
+	LONG $0x740f4166; BYTE $0xce               // pcmpeqb    xmm1, xmm14
+	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
+	LONG $0x54b60f42; WORD $0x1a2e             // movzx    edx, byte [rsi + r13 + 26]
+	LONG $0xf26e0f66                           // movd    xmm6, edx
+	QUAD $0x000001508ddb0f66                   // pand    xmm1, oword 336[rbp] /* [rip + .LCPI10_21] */
+	LONG $0xcfeb0f66                           // por    xmm1, xmm7
+	LONG $0x54b60f42; WORD $0x1b2e             // movzx    edx, byte [rsi + r13 + 27]
+	LONG $0xfa6e0f66                           // movd    xmm7, edx
+	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
+	LONG $0x6f0f4566; BYTE $0xf3               // movdqa    xmm14, xmm11
+	LONG $0xde0f4566; BYTE $0xf5               // pmaxub    xmm14, xmm13
+	LONG $0x740f4566; BYTE $0xf3               // pcmpeqb    xmm14, xmm11
+	LONG $0x54b60f42; WORD $0x1c2e             // movzx    edx, byte [rsi + r13 + 28]
+	LONG $0x6e0f4466; BYTE $0xca               // movd    xmm9, edx
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x01110e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 17], 1
+	QUAD $0x02111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 2
+	QUAD $0x111644203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r10 + 17], 3
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x04110644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 17], 4
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x110644203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rsi + r8 + 17], 5
+	QUAD $0x000000f0248c8b4c                   // mov    r9, qword [rsp + 240]
+	QUAD $0x110e44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rsi + r9 + 17], 6
+	QUAD $0x111e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 17], 7
+	QUAD $0x000000e0249c8b48                   // mov    rbx, qword [rsp + 224]
+	QUAD $0x08111e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 17], 8
+	QUAD $0x0000011024948b48                   // mov    rdx, qword [rsp + 272]
+	QUAD $0x09111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 9
+	QUAD $0x0000010024b48b4c                   // mov    r14, qword [rsp + 256]
+	QUAD $0x113644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r14 + 17], 10
+	LONG $0x247c8b4c; BYTE $0x50               // mov    r15, qword [rsp + 80]
+	QUAD $0x113e44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r15 + 17], 11
+	QUAD $0x000000c024948b48                   // mov    rdx, qword [rsp + 192]
+	QUAD $0x0c111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 12
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0d111644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 17], 13
+	QUAD $0x0e113e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 17], 14
+	QUAD $0x112644203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r12 + 17], 15
+	LONG $0xdb0f4466; WORD $0x6075             // pand    xmm14, oword 96[rbp] /* [rip + .LCPI10_6] */
+	LONG $0xeb0f4466; BYTE $0xf1               // por    xmm14, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0x6f0f4566; BYTE $0xe5               // movdqa    xmm12, xmm13
+	LONG $0xde0f4166; BYTE $0xcd               // pmaxub    xmm1, xmm13
+	LONG $0xc8740f66                           // pcmpeqb    xmm1, xmm0
+	LONG $0x54b60f42; WORD $0x1d2e             // movzx    edx, byte [rsi + r13 + 29]
+	LONG $0xc26e0f66                           // movd    xmm0, edx
+	QUAD $0x01120e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 18], 1
+	QUAD $0x000000b024a48b4c                   // mov    r12, qword [rsp + 176]
+	QUAD $0x122664203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rsi + r12 + 18], 2
+	QUAD $0x121664203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r10 + 18], 3
+	QUAD $0x04120664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 18], 4
+	WORD $0x894c; BYTE $0xc1                   // mov    rcx, r8
+	QUAD $0x120664203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rsi + r8 + 18], 5
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	QUAD $0x120e64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rsi + r9 + 18], 6
+	QUAD $0x121e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 18], 7
+	WORD $0x8949; BYTE $0xd8                   // mov    r8, rbx
+	QUAD $0x08121e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 18], 8
+	QUAD $0x00000110249c8b48                   // mov    rbx, qword [rsp + 272]
+	QUAD $0x09121e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 18], 9
+	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
+	QUAD $0x123664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r14 + 18], 10
+	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
+	QUAD $0x123e64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rsi + r15 + 18], 11
+	QUAD $0x000000c024bc8b4c                   // mov    r15, qword [rsp + 192]
+	QUAD $0x123e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 18], 12
+	LONG $0x24548b48; BYTE $0x70               // mov    rdx, qword [rsp + 112]
+	QUAD $0x0d121664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 18], 13
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0e120664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 18], 14
+	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
+	QUAD $0x122e64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r13 + 18], 15
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0113066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 1
+	QUAD $0x13266c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rsi + r12 + 19], 2
+	QUAD $0x13166c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r10 + 19], 3
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x0413066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 19], 4
+	QUAD $0x05130e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 19], 5
+	QUAD $0x06133e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 19], 6
+	QUAD $0x131e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 19], 7
+	QUAD $0x13066c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rsi + r8 + 19], 8
+	QUAD $0x09131e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 19], 9
+	QUAD $0x130e6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r9 + 19], 10
+	QUAD $0x13366c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rsi + r14 + 19], 11
+	QUAD $0x133e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 19], 12
+	QUAD $0x0d13166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 19], 13
+	WORD $0x8948; BYTE $0xd7                   // mov    rdi, rdx
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x13266c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r12 + 19], 14
+	QUAD $0x132e6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r13 + 19], 15
+	QUAD $0x000001008ddb0f66                   // pand    xmm1, oword 256[rbp] /* [rip + .LCPI10_16] */
+	QUAD $0x0001b0248cf80f66; BYTE $0x00       // psubb    xmm1, oword [rsp + 432]
+	LONG $0x6f0f4466; BYTE $0xec               // movdqa    xmm13, xmm4
+	LONG $0xde0f4566; BYTE $0xec               // pmaxub    xmm13, xmm12
+	LONG $0x740f4466; BYTE $0xec               // pcmpeqb    xmm13, xmm4
+	LONG $0x6f0f4466; BYTE $0xdd               // movdqa    xmm11, xmm5
+	LONG $0xde0f4566; BYTE $0xdc               // pmaxub    xmm11, xmm12
+	LONG $0x740f4466; BYTE $0xdd               // pcmpeqb    xmm11, xmm5
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	LONG $0x0e54b60f; BYTE $0x1e               // movzx    edx, byte [rsi + rcx + 30]
+	LONG $0xe26e0f66                           // movd    xmm4, edx
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x01140654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 20], 1
+	QUAD $0x0115065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 21], 1
+	QUAD $0x160654203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rsi + rax + 22], 1
+	QUAD $0x170644203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rsi + rax + 23], 1
+	QUAD $0x19067c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rsi + rax + 25], 1
+	QUAD $0x011a0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 26], 1
+	QUAD $0x011b067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 27], 1
+	QUAD $0x1c064c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rsi + rax + 28], 1
+	QUAD $0x011d0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 29], 1
+	LONG $0x0e54b60f; BYTE $0x1f               // movzx    edx, byte [rsi + rcx + 31]
+	QUAD $0x011e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 1
+	LONG $0xea6e0f66                           // movd    xmm5, edx
+	QUAD $0x011f066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 31], 1
+	QUAD $0x000000b024848b48                   // mov    rax, qword [rsp + 176]
+	QUAD $0x02140654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 20], 2
+	QUAD $0x0215065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 21], 2
+	QUAD $0x160654203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rsi + rax + 22], 2
+	QUAD $0x170644203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rsi + rax + 23], 2
+	QUAD $0x19067c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rsi + rax + 25], 2
+	QUAD $0x021a0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 26], 2
+	QUAD $0x021b067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 27], 2
+	QUAD $0x1c064c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rsi + rax + 28], 2
+	QUAD $0x021d0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 29], 2
+	QUAD $0x021e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 2
+	QUAD $0x021f066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 31], 2
+	QUAD $0x141654203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rsi + r10 + 20], 3
+	LONG $0x24548b48; BYTE $0x60               // mov    rdx, qword [rsp + 96]
+	QUAD $0x04141654203a0f66                   // pinsrb    xmm2, byte [rsi + rdx + 20], 4
+	QUAD $0x00000090248c8b48                   // mov    rcx, qword [rsp + 144]
+	QUAD $0x05140e54203a0f66                   // pinsrb    xmm2, byte [rsi + rcx + 20], 5
+	QUAD $0x000000f024848b48                   // mov    rax, qword [rsp + 240]
+	QUAD $0x06140654203a0f66                   // pinsrb    xmm2, byte [rsi + rax + 20], 6
+	QUAD $0x141e54203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rsi + r11 + 20], 7
+	QUAD $0x140654203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rsi + r8 + 20], 8
+	QUAD $0x09141e54203a0f66                   // pinsrb    xmm2, byte [rsi + rbx + 20], 9
+	QUAD $0x140e54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rsi + r9 + 20], 10
+	QUAD $0x143654203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rsi + r14 + 20], 11
+	QUAD $0x143e54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rsi + r15 + 20], 12
+	QUAD $0x0d143e54203a0f66                   // pinsrb    xmm2, byte [rsi + rdi + 20], 13
+	QUAD $0x142654203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rsi + r12 + 20], 14
+	QUAD $0x142e54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rsi + r13 + 20], 15
+	QUAD $0x15165c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rsi + r10 + 21], 3
+	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
+	QUAD $0x0415165c203a0f66                   // pinsrb    xmm3, byte [rsi + rdx + 21], 4
+	QUAD $0x05150e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rcx + 21], 5
+	QUAD $0x0615065c203a0f66                   // pinsrb    xmm3, byte [rsi + rax + 21], 6
+	QUAD $0x151e5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rsi + r11 + 21], 7
+	QUAD $0x15065c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rsi + r8 + 21], 8
+	QUAD $0x09151e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rbx + 21], 9
+	QUAD $0x0000010024848b4c                   // mov    r8, qword [rsp + 256]
+	QUAD $0x15065c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rsi + r8 + 21], 10
+	QUAD $0x15365c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rsi + r14 + 21], 11
+	QUAD $0x153e5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rsi + r15 + 21], 12
+	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
+	QUAD $0x0d153e5c203a0f66                   // pinsrb    xmm3, byte [rsi + rdi + 21], 13
+	QUAD $0x15265c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rsi + r12 + 21], 14
+	QUAD $0x000110addb0f4466; BYTE $0x00       // pand    xmm13, oword 272[rbp] /* [rip + .LCPI10_17] */
+	QUAD $0x0001209ddb0f4466; BYTE $0x00       // pand    xmm11, oword 288[rbp] /* [rip + .LCPI10_18] */
+	LONG $0xeb0f4566; BYTE $0xdd               // por    xmm11, xmm13
+	QUAD $0x152e5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rsi + r13 + 21], 15
+	LONG $0xeb0f4466; BYTE $0xd9               // por    xmm11, xmm1
+	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
+	LONG $0xde0f4166; BYTE $0xcc               // pmaxub    xmm1, xmm12
+	LONG $0xca740f66                           // pcmpeqb    xmm1, xmm2
+	LONG $0xd36f0f66                           // movdqa    xmm2, xmm3
+	LONG $0xde0f4166; BYTE $0xd4               // pmaxub    xmm2, xmm12
+	LONG $0xd3740f66                           // pcmpeqb    xmm2, xmm3
+	QUAD $0x160e54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rsi + r9 + 22], 3
+	QUAD $0x161654203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rsi + rdx + 22], 4
+	QUAD $0x160e54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rsi + rcx + 22], 5
+	QUAD $0x160654203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rsi + rax + 22], 6
+	QUAD $0x161e54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rsi + r11 + 22], 7
+	QUAD $0x000000e024bc8b48                   // mov    rdi, qword [rsp + 224]
+	QUAD $0x163e54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rsi + rdi + 22], 8
+	QUAD $0x161e54203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rsi + rbx + 22], 9
+	QUAD $0x160654203a0f4666; BYTE $0x0a       // pinsrb    xmm10, byte [rsi + r8 + 22], 10
+	QUAD $0x163654203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rsi + r14 + 22], 11
+	QUAD $0x163e54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rsi + r15 + 22], 12
+	QUAD $0x161654203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rsi + r10 + 22], 13
+	QUAD $0x162654203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rsi + r12 + 22], 14
+	QUAD $0x162e54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rsi + r13 + 22], 15
+	QUAD $0x170e44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rsi + r9 + 23], 3
+	QUAD $0x171644203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rsi + rdx + 23], 4
+	QUAD $0x170e44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rsi + rcx + 23], 5
+	QUAD $0x170644203a0f4466; BYTE $0x06       // pinsrb    xmm8, byte [rsi + rax + 23], 6
+	QUAD $0x171e44203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rsi + r11 + 23], 7
+	QUAD $0x173e44203a0f4466; BYTE $0x08       // pinsrb    xmm8, byte [rsi + rdi + 23], 8
+	QUAD $0x171e44203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rsi + rbx + 23], 9
+	QUAD $0x170644203a0f4666; BYTE $0x0a       // pinsrb    xmm8, byte [rsi + r8 + 23], 10
+	QUAD $0x173644203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rsi + r14 + 23], 11
+	QUAD $0x173e44203a0f4666; BYTE $0x0c       // pinsrb    xmm8, byte [rsi + r15 + 23], 12
+	QUAD $0x171644203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rsi + r10 + 23], 13
+	QUAD $0x000001308ddb0f66                   // pand    xmm1, oword 304[rbp] /* [rip + .LCPI10_19] */
+	QUAD $0x0000014095db0f66                   // pand    xmm2, oword 320[rbp] /* [rip + .LCPI10_20] */
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	LONG $0x6f0f4166; BYTE $0xca               // movdqa    xmm1, xmm10
+	LONG $0xde0f4166; BYTE $0xcc               // pmaxub    xmm1, xmm12
+	LONG $0x740f4166; BYTE $0xca               // pcmpeqb    xmm1, xmm10
+	QUAD $0x172644203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rsi + r12 + 23], 14
+	QUAD $0x000001508ddb0f66                   // pand    xmm1, oword 336[rbp] /* [rip + .LCPI10_21] */
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	QUAD $0x172e44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rsi + r13 + 23], 15
+	LONG $0xeb0f4166; BYTE $0xcb               // por    xmm1, xmm11
+	LONG $0x6f0f4566; BYTE $0xd0               // movdqa    xmm10, xmm8
+	LONG $0xde0f4566; BYTE $0xd4               // pmaxub    xmm10, xmm12
+	LONG $0x740f4566; BYTE $0xd0               // pcmpeqb    xmm10, xmm8
+	QUAD $0x190e7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rsi + r9 + 25], 3
+	QUAD $0x19167c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rsi + rdx + 25], 4
+	QUAD $0x190e7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rsi + rcx + 25], 5
+	QUAD $0x19067c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rsi + rax + 25], 6
+	QUAD $0x191e7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rsi + r11 + 25], 7
+	QUAD $0x193e7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rsi + rdi + 25], 8
+	QUAD $0x191e7c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rsi + rbx + 25], 9
+	QUAD $0x19067c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rsi + r8 + 25], 10
+	QUAD $0x19367c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rsi + r14 + 25], 11
+	QUAD $0x193e7c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rsi + r15 + 25], 12
+	QUAD $0x19167c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rsi + r10 + 25], 13
+	QUAD $0x19267c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rsi + r12 + 25], 14
+	QUAD $0x192e7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rsi + r13 + 25], 15
+	LONG $0x6f0f4466; WORD $0x605d             // movdqa    xmm11, oword 96[rbp] /* [rip + .LCPI10_6] */
+	LONG $0xdb0f4566; BYTE $0xd3               // pand    xmm10, xmm11
+	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
+	LONG $0x6f0f4166; BYTE $0xdf               // movdqa    xmm3, xmm15
+	LONG $0xde0f4166; BYTE $0xdc               // pmaxub    xmm3, xmm12
+	LONG $0x740f4166; BYTE $0xdf               // pcmpeqb    xmm3, xmm15
+	QUAD $0x1a0e74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rsi + r9 + 26], 3
+	QUAD $0x041a1674203a0f66                   // pinsrb    xmm6, byte [rsi + rdx + 26], 4
+	QUAD $0x051a0e74203a0f66                   // pinsrb    xmm6, byte [rsi + rcx + 26], 5
+	QUAD $0x061a0674203a0f66                   // pinsrb    xmm6, byte [rsi + rax + 26], 6
+	QUAD $0x1a1e74203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rsi + r11 + 26], 7
+	QUAD $0x081a3e74203a0f66                   // pinsrb    xmm6, byte [rsi + rdi + 26], 8
+	QUAD $0x091a1e74203a0f66                   // pinsrb    xmm6, byte [rsi + rbx + 26], 9
+	QUAD $0x1a0674203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rsi + r8 + 26], 10
+	QUAD $0x1a3674203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rsi + r14 + 26], 11
+	QUAD $0x1a3e74203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rsi + r15 + 26], 12
+	QUAD $0x1a1674203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rsi + r10 + 26], 13
+	QUAD $0x1a2674203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rsi + r12 + 26], 14
+	QUAD $0x1a2e74203a0f4266; BYTE $0x0f       // pinsrb    xmm6, byte [rsi + r13 + 26], 15
+	QUAD $0x1b0e7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rsi + r9 + 27], 3
+	QUAD $0x041b167c203a0f66                   // pinsrb    xmm7, byte [rsi + rdx + 27], 4
+	QUAD $0x051b0e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rcx + 27], 5
+	QUAD $0x061b067c203a0f66                   // pinsrb    xmm7, byte [rsi + rax + 27], 6
+	QUAD $0x1b1e7c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rsi + r11 + 27], 7
+	QUAD $0x081b3e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rdi + 27], 8
+	QUAD $0x091b1e7c203a0f66                   // pinsrb    xmm7, byte [rsi + rbx + 27], 9
+	QUAD $0x1b067c203a0f4266; BYTE $0x0a       // pinsrb    xmm7, byte [rsi + r8 + 27], 10
+	QUAD $0x1b367c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rsi + r14 + 27], 11
+	QUAD $0x1b3e7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rsi + r15 + 27], 12
+	QUAD $0x1b167c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rsi + r10 + 27], 13
+	QUAD $0x1b267c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rsi + r12 + 27], 14
+	QUAD $0x1b2e7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rsi + r13 + 27], 15
+	QUAD $0x000001009ddb0f66                   // pand    xmm3, oword 256[rbp] /* [rip + .LCPI10_16] */
+	QUAD $0x000140249cf80f66; BYTE $0x00       // psubb    xmm3, oword [rsp + 320]
+	LONG $0xd66f0f66                           // movdqa    xmm2, xmm6
+	LONG $0xde0f4166; BYTE $0xd4               // pmaxub    xmm2, xmm12
+	LONG $0xd6740f66                           // pcmpeqb    xmm2, xmm6
+	LONG $0xcf6f0f66                           // movdqa    xmm1, xmm7
+	LONG $0xde0f4166; BYTE $0xcc               // pmaxub    xmm1, xmm12
+	LONG $0xcf740f66                           // pcmpeqb    xmm1, xmm7
+	QUAD $0x1c0e4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rsi + r9 + 28], 3
+	QUAD $0x1c164c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rsi + rdx + 28], 4
+	QUAD $0x1c0e4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rsi + rcx + 28], 5
+	QUAD $0x1c064c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rsi + rax + 28], 6
+	QUAD $0x1c1e4c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rsi + r11 + 28], 7
+	QUAD $0x1c3e4c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rsi + rdi + 28], 8
+	QUAD $0x1c1e4c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rsi + rbx + 28], 9
+	QUAD $0x1c064c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rsi + r8 + 28], 10
+	QUAD $0x1c364c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rsi + r14 + 28], 11
+	QUAD $0x1c3e4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rsi + r15 + 28], 12
+	QUAD $0x1c164c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rsi + r10 + 28], 13
+	QUAD $0x1c264c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rsi + r12 + 28], 14
+	QUAD $0x1c2e4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rsi + r13 + 28], 15
+	QUAD $0x1d0e44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rsi + r9 + 29], 3
+	QUAD $0x041d1644203a0f66                   // pinsrb    xmm0, byte [rsi + rdx + 29], 4
+	QUAD $0x051d0e44203a0f66                   // pinsrb    xmm0, byte [rsi + rcx + 29], 5
+	QUAD $0x061d0644203a0f66                   // pinsrb    xmm0, byte [rsi + rax + 29], 6
+	QUAD $0x1d1e44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rsi + r11 + 29], 7
+	QUAD $0x081d3e44203a0f66                   // pinsrb    xmm0, byte [rsi + rdi + 29], 8
+	QUAD $0x091d1e44203a0f66                   // pinsrb    xmm0, byte [rsi + rbx + 29], 9
+	QUAD $0x1d0644203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rsi + r8 + 29], 10
+	QUAD $0x1d3644203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rsi + r14 + 29], 11
+	QUAD $0x1d3e44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rsi + r15 + 29], 12
+	QUAD $0x1d1644203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rsi + r10 + 29], 13
+	QUAD $0x1d2644203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rsi + r12 + 29], 14
+	QUAD $0x1d2e44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rsi + r13 + 29], 15
+	QUAD $0x0000011095db0f66                   // pand    xmm2, oword 272[rbp] /* [rip + .LCPI10_17] */
+	QUAD $0x000001208ddb0f66                   // pand    xmm1, oword 288[rbp] /* [rip + .LCPI10_18] */
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	LONG $0xcbeb0f66                           // por    xmm1, xmm3
+	LONG $0x6f0f4166; BYTE $0xd1               // movdqa    xmm2, xmm9
+	LONG $0xde0f4166; BYTE $0xd4               // pmaxub    xmm2, xmm12
+	LONG $0x740f4166; BYTE $0xd1               // pcmpeqb    xmm2, xmm9
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xde0f4166; BYTE $0xdc               // pmaxub    xmm3, xmm12
+	LONG $0xd8740f66                           // pcmpeqb    xmm3, xmm0
+	QUAD $0x1e0e64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rsi + r9 + 30], 3
+	QUAD $0x1f0e6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rsi + r9 + 31], 3
+	QUAD $0x041e1664203a0f66                   // pinsrb    xmm4, byte [rsi + rdx + 30], 4
+	QUAD $0x041f166c203a0f66                   // pinsrb    xmm5, byte [rsi + rdx + 31], 4
+	QUAD $0x051e0e64203a0f66                   // pinsrb    xmm4, byte [rsi + rcx + 30], 5
+	QUAD $0x051f0e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rcx + 31], 5
+	QUAD $0x061e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 6
+	QUAD $0x061f066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 31], 6
+	QUAD $0x1e1e64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rsi + r11 + 30], 7
+	QUAD $0x1f1e6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rsi + r11 + 31], 7
+	WORD $0x8948; BYTE $0xf8                   // mov    rax, rdi
+	QUAD $0x081e3e64203a0f66                   // pinsrb    xmm4, byte [rsi + rdi + 30], 8
+	QUAD $0x081f3e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rdi + 31], 8
+	QUAD $0x091e1e64203a0f66                   // pinsrb    xmm4, byte [rsi + rbx + 30], 9
+	QUAD $0x091f1e6c203a0f66                   // pinsrb    xmm5, byte [rsi + rbx + 31], 9
+	QUAD $0x0000016024b48b4c                   // mov    r14, qword [rsp + 352]
+	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
+	QUAD $0x1e0664203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rsi + r8 + 30], 10
+	QUAD $0x1f066c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rsi + r8 + 31], 10
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0b1e0664203a0f66                   // pinsrb    xmm4, byte [rsi + rax + 30], 11
+	QUAD $0x0b1f066c203a0f66                   // pinsrb    xmm5, byte [rsi + rax + 31], 11
+	QUAD $0x1e3e64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rsi + r15 + 30], 12
+	QUAD $0x1f3e6c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rsi + r15 + 31], 12
+	QUAD $0x1e1664203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rsi + r10 + 30], 13
+	QUAD $0x1f166c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rsi + r10 + 31], 13
+	QUAD $0x1e2664203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rsi + r12 + 30], 14
+	QUAD $0x1f266c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rsi + r12 + 31], 14
+	QUAD $0x1e2e64203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rsi + r13 + 30], 15
+	QUAD $0x0000013095db0f66                   // pand    xmm2, oword 304[rbp] /* [rip + .LCPI10_19] */
+	QUAD $0x000001409ddb0f66                   // pand    xmm3, oword 320[rbp] /* [rip + .LCPI10_20] */
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0xde0f4166; BYTE $0xc4               // pmaxub    xmm0, xmm12
+	LONG $0xc4740f66                           // pcmpeqb    xmm0, xmm4
+	QUAD $0x1f2e6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rsi + r13 + 31], 15
+	QUAD $0x0000015085db0f66                   // pand    xmm0, oword 336[rbp] /* [rip + .LCPI10_21] */
+	LONG $0xc3eb0f66                           // por    xmm0, xmm3
+	LONG $0xc1eb0f66                           // por    xmm0, xmm1
+	LONG $0xcd6f0f66                           // movdqa    xmm1, xmm5
+	LONG $0xde0f4166; BYTE $0xcc               // pmaxub    xmm1, xmm12
+	LONG $0xcd740f66                           // pcmpeqb    xmm1, xmm5
+	LONG $0xdb0f4166; BYTE $0xcb               // pand    xmm1, xmm11
+	LONG $0xc8eb0f66                           // por    xmm1, xmm0
+	LONG $0x6f0f4166; BYTE $0xc2               // movdqa    xmm0, xmm10
+	LONG $0xc1600f66                           // punpcklbw    xmm0, xmm1
+	QUAD $0x0000a024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 160]
+	LONG $0xd46f0f66                           // movdqa    xmm2, xmm4
+	LONG $0x600f4166; BYTE $0xd6               // punpcklbw    xmm2, xmm14
+	LONG $0xda6f0f66                           // movdqa    xmm3, xmm2
+	LONG $0xd8610f66                           // punpcklwd    xmm3, xmm0
+	LONG $0xd0690f66                           // punpckhwd    xmm2, xmm0
+	LONG $0x680f4466; BYTE $0xd1               // punpckhbw    xmm10, xmm1
+	LONG $0x680f4166; BYTE $0xe6               // punpckhbw    xmm4, xmm14
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x610f4166; BYTE $0xc2               // punpcklwd    xmm0, xmm10
+	LONG $0x690f4166; BYTE $0xe2               // punpckhwd    xmm4, xmm10
+	QUAD $0x00000150248c8b48                   // mov    rcx, qword [rsp + 336]
+	LONG $0x7f0f41f3; WORD $0x8e64; BYTE $0x30 // movdqu    oword [r14 + 4*rcx + 48], xmm4
+	LONG $0x7f0f41f3; WORD $0x8e44; BYTE $0x20 // movdqu    oword [r14 + 4*rcx + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x8e54; BYTE $0x10 // movdqu    oword [r14 + 4*rcx + 16], xmm2
+	LONG $0x7f0f41f3; WORD $0x8e1c             // movdqu    oword [r14 + 4*rcx], xmm3
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xca                   // mov    rdx, rcx
+	QUAD $0x000001a0248c3b48                   // cmp    rcx, qword [rsp + 416]
+	JNE  LBB10_195
+	QUAD $0x000001d024bc8b4c                   // mov    r15, qword [rsp + 464]
+	QUAD $0x000001a024bc3b4c                   // cmp    r15, qword [rsp + 416]
+	LONG $0x245c8a44; BYTE $0x08               // mov    r11b, byte [rsp + 8]
+	QUAD $0x0000018824b48b48                   // mov    rsi, qword [rsp + 392]
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	JNE  LBB10_67
+	JMP  LBB10_132
+
+LBB10_197:
+	WORD $0x894c; BYTE $0xf8             // mov    rax, r15
+	LONG $0xf8e08348                     // and    rax, -8
+	WORD $0x8949; BYTE $0xc3             // mov    r11, rax
+	LONG $0x06e3c149                     // shl    r11, 6
+	WORD $0x0149; BYTE $0xf3             // add    r11, rsi
+	QUAD $0x0000019024848948             // mov    qword [rsp + 400], rax
+	LONG $0x86048d49                     // lea    rax, [r14 + 4*rax]
+	LONG $0x24448948; BYTE $0x08         // mov    qword [rsp + 8], rax
+	QUAD $0x00018824846e0f66; BYTE $0x00 // movd    xmm0, dword [rsp + 392]
+	LONG $0xc0700ff2; BYTE $0xe0         // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00         // pshufd    xmm0, xmm0, 0
+	QUAD $0x0001d024847f0f66; BYTE $0x00 // movdqa    oword [rsp + 464], xmm0
+	WORD $0x3145; BYTE $0xd2             // xor    r10d, r10d
+
+LBB10_198:
+	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
+	LONG $0x06e1c149                           // shl    r9, 6
+	WORD $0x894d; BYTE $0xc8                   // mov    r8, r9
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	WORD $0x894c; BYTE $0xcb                   // mov    rbx, r9
+	WORD $0x894d; BYTE $0xcf                   // mov    r15, r9
+	WORD $0x894d; BYTE $0xcc                   // mov    r12, r9
+	WORD $0x894d; BYTE $0xcd                   // mov    r13, r9
+	LONG $0x0cb70f42; BYTE $0x0e               // movzx    ecx, word [rsi + r9]
+	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
+	LONG $0x4cb70f42; WORD $0x020e             // movzx    ecx, word [rsi + r9 + 2]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	LONG $0x447f0f66; WORD $0x1024             // movdqa    oword [rsp + 16], xmm0
+	LONG $0x4cb70f42; WORD $0x040e             // movzx    ecx, word [rsi + r9 + 4]
+	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
+	LONG $0x4cb70f42; WORD $0x060e             // movzx    ecx, word [rsi + r9 + 6]
+	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
+	LONG $0x4cb70f42; WORD $0x080e             // movzx    ecx, word [rsi + r9 + 8]
+	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
+	LONG $0x4cb70f42; WORD $0x0a0e             // movzx    ecx, word [rsi + r9 + 10]
+	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
+	LONG $0x4cb70f42; WORD $0x0c0e             // movzx    ecx, word [rsi + r9 + 12]
+	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
+	LONG $0x4cb70f42; WORD $0x0e0e             // movzx    ecx, word [rsi + r9 + 14]
+	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
+	LONG $0x4cb70f42; WORD $0x100e             // movzx    ecx, word [rsi + r9 + 16]
+	LONG $0xc96e0f66                           // movd    xmm1, ecx
+	LONG $0x4cb70f42; WORD $0x120e             // movzx    ecx, word [rsi + r9 + 18]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	LONG $0x4cb70f42; WORD $0x140e             // movzx    ecx, word [rsi + r9 + 20]
+	LONG $0xd96e0f66                           // movd    xmm3, ecx
+	LONG $0x4cb70f42; WORD $0x160e             // movzx    ecx, word [rsi + r9 + 22]
+	LONG $0xe16e0f66                           // movd    xmm4, ecx
+	LONG $0x4cb70f42; WORD $0x180e             // movzx    ecx, word [rsi + r9 + 24]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	LONG $0x4cb70f42; WORD $0x1a0e             // movzx    ecx, word [rsi + r9 + 26]
+	LONG $0xf16e0f66                           // movd    xmm6, ecx
+	LONG $0x44b70f42; WORD $0x1c0e             // movzx    eax, word [rsi + r9 + 28]
+	LONG $0x54b70f42; WORD $0x1e0e             // movzx    edx, word [rsi + r9 + 30]
+	WORD $0x894c; BYTE $0xc9                   // mov    rcx, r9
+	LONG $0x40c98348                           // or    rcx, 64
+	LONG $0x80c88149; WORD $0x0000; BYTE $0x00 // or    r8, 128
+	LONG $0xc0cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 192
+	LONG $0x00cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 256
+	LONG $0x40cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 320
+	LONG $0x80cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 384
+	LONG $0xc0cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 448
+	LONG $0xc40f4466; WORD $0x0e1c; BYTE $0x01 // pinsrw    xmm11, word [rsi + rcx], 1
+	LONG $0xc40f4666; WORD $0x061c; BYTE $0x02 // pinsrw    xmm11, word [rsi + r8], 2
+	LONG $0xc40f4466; WORD $0x3e1c; BYTE $0x03 // pinsrw    xmm11, word [rsi + rdi], 3
+	LONG $0xc40f4466; WORD $0x1e1c; BYTE $0x04 // pinsrw    xmm11, word [rsi + rbx], 4
+	LONG $0xc40f4666; WORD $0x3e1c; BYTE $0x05 // pinsrw    xmm11, word [rsi + r15], 5
+	LONG $0xc40f4666; WORD $0x261c; BYTE $0x06 // pinsrw    xmm11, word [rsi + r12], 6
+	LONG $0xc40f4666; WORD $0x2e1c; BYTE $0x07 // pinsrw    xmm11, word [rsi + r13], 7
+	LONG $0x6e0f4466; BYTE $0xf8               // movd    xmm15, eax
+	QUAD $0x0001d024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 464]
+	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
+	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
+	QUAD $0x00016024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 352], xmm7
+	LONG $0x7c6f0f66; WORD $0x1024             // movdqa    xmm7, oword [rsp + 16]
+	LONG $0x7cc40f66; WORD $0x020e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 2], 1
+	QUAD $0x0202067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 2], 2
+	LONG $0x7cc40f66; WORD $0x023e; BYTE $0x03 // pinsrw    xmm7, word [rsi + rdi + 2], 3
+	LONG $0x7cc40f66; WORD $0x021e; BYTE $0x04 // pinsrw    xmm7, word [rsi + rbx + 2], 4
+	QUAD $0x05023e7cc40f4266                   // pinsrw    xmm7, word [rsi + r15 + 2], 5
+	QUAD $0x0602267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 2], 6
+	QUAD $0x07022e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 2], 7
+	LONG $0x6f0f4466; BYTE $0xd8               // movdqa    xmm11, xmm0
+	QUAD $0x01040e4cc40f4466                   // pinsrw    xmm9, word [rsi + rcx + 4], 1
+	QUAD $0x0204064cc40f4666                   // pinsrw    xmm9, word [rsi + r8 + 4], 2
+	QUAD $0x03043e4cc40f4466                   // pinsrw    xmm9, word [rsi + rdi + 4], 3
+	QUAD $0x04041e4cc40f4466                   // pinsrw    xmm9, word [rsi + rbx + 4], 4
+	QUAD $0x05043e4cc40f4666                   // pinsrw    xmm9, word [rsi + r15 + 4], 5
+	QUAD $0x0604264cc40f4666                   // pinsrw    xmm9, word [rsi + r12 + 4], 6
+	LONG $0x650f4466; BYTE $0xdf               // pcmpgtw    xmm11, xmm7
+	QUAD $0x07042e4cc40f4666                   // pinsrw    xmm9, word [rsi + r13 + 4], 7
+	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
+	LONG $0x650f4166; BYTE $0xf9               // pcmpgtw    xmm7, xmm9
+	LONG $0x7c7f0f66; WORD $0x5024             // movdqa    oword [rsp + 80], xmm7
+	QUAD $0x01060e54c40f4466                   // pinsrw    xmm10, word [rsi + rcx + 6], 1
+	QUAD $0x02060654c40f4666                   // pinsrw    xmm10, word [rsi + r8 + 6], 2
+	QUAD $0x03063e54c40f4466                   // pinsrw    xmm10, word [rsi + rdi + 6], 3
+	QUAD $0x04061e54c40f4466                   // pinsrw    xmm10, word [rsi + rbx + 6], 4
+	QUAD $0x05063e54c40f4666                   // pinsrw    xmm10, word [rsi + r15 + 6], 5
+	QUAD $0x06062654c40f4666                   // pinsrw    xmm10, word [rsi + r12 + 6], 6
+	QUAD $0x07062e54c40f4666                   // pinsrw    xmm10, word [rsi + r13 + 6], 7
+	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
+	QUAD $0x01080e64c40f4466                   // pinsrw    xmm12, word [rsi + rcx + 8], 1
+	QUAD $0x02080664c40f4666                   // pinsrw    xmm12, word [rsi + r8 + 8], 2
+	QUAD $0x03083e64c40f4466                   // pinsrw    xmm12, word [rsi + rdi + 8], 3
+	QUAD $0x04081e64c40f4466                   // pinsrw    xmm12, word [rsi + rbx + 8], 4
+	QUAD $0x05083e64c40f4666                   // pinsrw    xmm12, word [rsi + r15 + 8], 5
+	QUAD $0x06082664c40f4666                   // pinsrw    xmm12, word [rsi + r12 + 8], 6
+	QUAD $0x07082e64c40f4666                   // pinsrw    xmm12, word [rsi + r13 + 8], 7
+	LONG $0x650f4166; BYTE $0xfa               // pcmpgtw    xmm7, xmm10
+	LONG $0x7c7f0f66; WORD $0x7024             // movdqa    oword [rsp + 112], xmm7
+	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
+	LONG $0x650f4166; BYTE $0xfc               // pcmpgtw    xmm7, xmm12
+	LONG $0x7c7f0f66; WORD $0x2024             // movdqa    oword [rsp + 32], xmm7
+	QUAD $0x010a0e6cc40f4466                   // pinsrw    xmm13, word [rsi + rcx + 10], 1
+	QUAD $0x020a066cc40f4666                   // pinsrw    xmm13, word [rsi + r8 + 10], 2
+	QUAD $0x030a3e6cc40f4466                   // pinsrw    xmm13, word [rsi + rdi + 10], 3
+	QUAD $0x040a1e6cc40f4466                   // pinsrw    xmm13, word [rsi + rbx + 10], 4
+	QUAD $0x050a3e6cc40f4666                   // pinsrw    xmm13, word [rsi + r15 + 10], 5
+	QUAD $0x060a266cc40f4666                   // pinsrw    xmm13, word [rsi + r12 + 10], 6
+	QUAD $0x070a2e6cc40f4666                   // pinsrw    xmm13, word [rsi + r13 + 10], 7
+	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
+	QUAD $0x010c0e74c40f4466                   // pinsrw    xmm14, word [rsi + rcx + 12], 1
+	QUAD $0x020c0674c40f4666                   // pinsrw    xmm14, word [rsi + r8 + 12], 2
+	QUAD $0x030c3e74c40f4466                   // pinsrw    xmm14, word [rsi + rdi + 12], 3
+	QUAD $0x040c1e74c40f4466                   // pinsrw    xmm14, word [rsi + rbx + 12], 4
+	QUAD $0x050c3e74c40f4666                   // pinsrw    xmm14, word [rsi + r15 + 12], 5
+	QUAD $0x060c2674c40f4666                   // pinsrw    xmm14, word [rsi + r12 + 12], 6
+	LONG $0x650f4166; BYTE $0xfd               // pcmpgtw    xmm7, xmm13
+	QUAD $0x00008024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 128], xmm7
+	QUAD $0x070c2e74c40f4666                   // pinsrw    xmm14, word [rsi + r13 + 12], 7
+	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
+	LONG $0x650f4166; BYTE $0xfe               // pcmpgtw    xmm7, xmm14
+	LONG $0x6f0f4466; BYTE $0xf7               // movdqa    xmm14, xmm7
+	QUAD $0x010e0e44c40f4466                   // pinsrw    xmm8, word [rsi + rcx + 14], 1
+	QUAD $0x020e0644c40f4666                   // pinsrw    xmm8, word [rsi + r8 + 14], 2
+	QUAD $0x030e3e44c40f4466                   // pinsrw    xmm8, word [rsi + rdi + 14], 3
+	QUAD $0x040e1e44c40f4466                   // pinsrw    xmm8, word [rsi + rbx + 14], 4
+	QUAD $0x050e3e44c40f4666                   // pinsrw    xmm8, word [rsi + r15 + 14], 5
+	QUAD $0x060e2644c40f4666                   // pinsrw    xmm8, word [rsi + r12 + 14], 6
+	QUAD $0x070e2e44c40f4666                   // pinsrw    xmm8, word [rsi + r13 + 14], 7
+	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
+	LONG $0x4cc40f66; WORD $0x100e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 16], 1
+	QUAD $0x0210064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 16], 2
+	LONG $0x4cc40f66; WORD $0x103e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 16], 3
+	LONG $0x4cc40f66; WORD $0x101e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 16], 4
+	QUAD $0x05103e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 16], 5
+	QUAD $0x0610264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 16], 6
+	QUAD $0x07102e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 16], 7
+	LONG $0x650f4166; BYTE $0xf8               // pcmpgtw    xmm7, xmm8
+	LONG $0x7c7f0f66; WORD $0x6024             // movdqa    oword [rsp + 96], xmm7
+	LONG $0xf86f0f66                           // movdqa    xmm7, xmm0
+	LONG $0xf9650f66                           // pcmpgtw    xmm7, xmm1
+	QUAD $0x0001b024bc7f0f66; BYTE $0x00       // movdqa    oword [rsp + 432], xmm7
+	LONG $0x54c40f66; WORD $0x120e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 18], 1
+	QUAD $0x02120654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 18], 2
+	LONG $0x54c40f66; WORD $0x123e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 18], 3
+	LONG $0x54c40f66; WORD $0x121e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 18], 4
+	QUAD $0x05123e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 18], 5
+	QUAD $0x06122654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 18], 6
+	QUAD $0x07122e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 18], 7
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0x5cc40f66; WORD $0x140e; BYTE $0x01 // pinsrw    xmm3, word [rsi + rcx + 20], 1
+	QUAD $0x0214065cc40f4266                   // pinsrw    xmm3, word [rsi + r8 + 20], 2
+	LONG $0x5cc40f66; WORD $0x143e; BYTE $0x03 // pinsrw    xmm3, word [rsi + rdi + 20], 3
+	LONG $0x5cc40f66; WORD $0x141e; BYTE $0x04 // pinsrw    xmm3, word [rsi + rbx + 20], 4
+	QUAD $0x05143e5cc40f4266                   // pinsrw    xmm3, word [rsi + r15 + 20], 5
+	QUAD $0x0614265cc40f4266                   // pinsrw    xmm3, word [rsi + r12 + 20], 6
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	QUAD $0x0000b0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm1
+	QUAD $0x07142e5cc40f4266                   // pinsrw    xmm3, word [rsi + r13 + 20], 7
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcb650f66                           // pcmpgtw    xmm1, xmm3
+	LONG $0x4c7f0f66; WORD $0x3024             // movdqa    oword [rsp + 48], xmm1
+	LONG $0x64c40f66; WORD $0x160e; BYTE $0x01 // pinsrw    xmm4, word [rsi + rcx + 22], 1
+	QUAD $0x02160664c40f4266                   // pinsrw    xmm4, word [rsi + r8 + 22], 2
+	LONG $0x64c40f66; WORD $0x163e; BYTE $0x03 // pinsrw    xmm4, word [rsi + rdi + 22], 3
+	LONG $0x64c40f66; WORD $0x161e; BYTE $0x04 // pinsrw    xmm4, word [rsi + rbx + 22], 4
+	QUAD $0x05163e64c40f4266                   // pinsrw    xmm4, word [rsi + r15 + 22], 5
+	QUAD $0x06162664c40f4266                   // pinsrw    xmm4, word [rsi + r12 + 22], 6
+	QUAD $0x07162e64c40f4266                   // pinsrw    xmm4, word [rsi + r13 + 22], 7
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0x6cc40f66; WORD $0x180e; BYTE $0x01 // pinsrw    xmm5, word [rsi + rcx + 24], 1
+	QUAD $0x0218066cc40f4266                   // pinsrw    xmm5, word [rsi + r8 + 24], 2
+	LONG $0x6cc40f66; WORD $0x183e; BYTE $0x03 // pinsrw    xmm5, word [rsi + rdi + 24], 3
+	LONG $0x6cc40f66; WORD $0x181e; BYTE $0x04 // pinsrw    xmm5, word [rsi + rbx + 24], 4
+	QUAD $0x05183e6cc40f4266                   // pinsrw    xmm5, word [rsi + r15 + 24], 5
+	QUAD $0x0618266cc40f4266                   // pinsrw    xmm5, word [rsi + r12 + 24], 6
+	QUAD $0x07182e6cc40f4266                   // pinsrw    xmm5, word [rsi + r13 + 24], 7
+	LONG $0xcc650f66                           // pcmpgtw    xmm1, xmm4
+	QUAD $0x0000c0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcd650f66                           // pcmpgtw    xmm1, xmm5
+	LONG $0x4c7f0f66; WORD $0x1024             // movdqa    oword [rsp + 16], xmm1
+	LONG $0x74c40f66; WORD $0x1a0e; BYTE $0x01 // pinsrw    xmm6, word [rsi + rcx + 26], 1
+	QUAD $0x021a0674c40f4266                   // pinsrw    xmm6, word [rsi + r8 + 26], 2
+	LONG $0x74c40f66; WORD $0x1a3e; BYTE $0x03 // pinsrw    xmm6, word [rsi + rdi + 26], 3
+	LONG $0x74c40f66; WORD $0x1a1e; BYTE $0x04 // pinsrw    xmm6, word [rsi + rbx + 26], 4
+	QUAD $0x051a3e74c40f4266                   // pinsrw    xmm6, word [rsi + r15 + 26], 5
+	QUAD $0x061a2674c40f4266                   // pinsrw    xmm6, word [rsi + r12 + 26], 6
+	QUAD $0x071a2e74c40f4266                   // pinsrw    xmm6, word [rsi + r13 + 26], 7
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	QUAD $0x011c0e7cc40f4466                   // pinsrw    xmm15, word [rsi + rcx + 28], 1
+	QUAD $0x021c067cc40f4666                   // pinsrw    xmm15, word [rsi + r8 + 28], 2
+	QUAD $0x031c3e7cc40f4466                   // pinsrw    xmm15, word [rsi + rdi + 28], 3
+	QUAD $0x041c1e7cc40f4466                   // pinsrw    xmm15, word [rsi + rbx + 28], 4
+	QUAD $0x051c3e7cc40f4666                   // pinsrw    xmm15, word [rsi + r15 + 28], 5
+	QUAD $0x061c267cc40f4666                   // pinsrw    xmm15, word [rsi + r12 + 28], 6
+	LONG $0xce650f66                           // pcmpgtw    xmm1, xmm6
+	QUAD $0x0000d0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm1
+	QUAD $0x071c2e7cc40f4666                   // pinsrw    xmm15, word [rsi + r13 + 28], 7
+	LONG $0xca6e0f66                           // movd    xmm1, edx
+	LONG $0x4cc40f66; WORD $0x1e0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 30], 1
+	QUAD $0x021e064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 30], 2
+	LONG $0x4cc40f66; WORD $0x1e3e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 30], 3
+	LONG $0x4cc40f66; WORD $0x1e1e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 30], 4
+	QUAD $0x051e3e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 30], 5
+	QUAD $0x061e264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 30], 6
+	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
+	LONG $0x650f4166; BYTE $0xd7               // pcmpgtw    xmm2, xmm15
+	QUAD $0x0000f024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 240], xmm2
+	QUAD $0x071e2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 30], 7
+	LONG $0xd06f0f66                           // movdqa    xmm2, xmm0
+	LONG $0xd1650f66                           // pcmpgtw    xmm2, xmm1
+	QUAD $0x00009024947f0f66; BYTE $0x00       // movdqa    oword [rsp + 144], xmm2
+	LONG $0x44b70f42; WORD $0x200e             // movzx    eax, word [rsi + r9 + 32]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x4cc40f66; WORD $0x200e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 32], 1
+	QUAD $0x0220064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 32], 2
+	LONG $0x4cc40f66; WORD $0x203e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 32], 3
+	LONG $0x4cc40f66; WORD $0x201e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 32], 4
+	QUAD $0x05203e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 32], 5
+	QUAD $0x0620264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 32], 6
+	QUAD $0x07202e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 32], 7
+	LONG $0x44b70f42; WORD $0x220e             // movzx    eax, word [rsi + r9 + 34]
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x54c40f66; WORD $0x220e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 34], 1
+	QUAD $0x02220654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 34], 2
+	LONG $0x54c40f66; WORD $0x223e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 34], 3
+	LONG $0x54c40f66; WORD $0x221e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 34], 4
+	QUAD $0x05223e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 34], 5
+	QUAD $0x06222654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 34], 6
+	QUAD $0x07222e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 34], 7
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
+	QUAD $0x0000e0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm3
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	QUAD $0x000120248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 288], xmm1
+	LONG $0x44b70f42; WORD $0x240e             // movzx    eax, word [rsi + r9 + 36]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x4cc40f66; WORD $0x240e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 36], 1
+	QUAD $0x0224064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 36], 2
+	LONG $0x4cc40f66; WORD $0x243e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 36], 3
+	LONG $0x4cc40f66; WORD $0x241e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 36], 4
+	QUAD $0x05243e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 36], 5
+	QUAD $0x0624264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 36], 6
+	LONG $0x44b70f42; WORD $0x260e             // movzx    eax, word [rsi + r9 + 38]
+	QUAD $0x07242e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 36], 7
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x54c40f66; WORD $0x260e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 38], 1
+	QUAD $0x02260654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 38], 2
+	LONG $0x54c40f66; WORD $0x263e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 38], 3
+	LONG $0x54c40f66; WORD $0x261e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 38], 4
+	QUAD $0x05263e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 38], 5
+	QUAD $0x06262654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 38], 6
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
+	QUAD $0x000100249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 256], xmm3
+	QUAD $0x07262e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 38], 7
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	QUAD $0x000110248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 272], xmm1
+	LONG $0x44b70f42; WORD $0x280e             // movzx    eax, word [rsi + r9 + 40]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x4cc40f66; WORD $0x280e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 40], 1
+	QUAD $0x0228064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 40], 2
+	LONG $0x4cc40f66; WORD $0x283e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 40], 3
+	LONG $0x4cc40f66; WORD $0x281e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 40], 4
+	QUAD $0x05283e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 40], 5
+	QUAD $0x0628264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 40], 6
+	QUAD $0x07282e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 40], 7
+	LONG $0x44b70f42; WORD $0x2a0e             // movzx    eax, word [rsi + r9 + 42]
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x54c40f66; WORD $0x2a0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 42], 1
+	QUAD $0x022a0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 42], 2
+	LONG $0x54c40f66; WORD $0x2a3e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 42], 3
+	LONG $0x54c40f66; WORD $0x2a1e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 42], 4
+	QUAD $0x052a3e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 42], 5
+	QUAD $0x062a2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 42], 6
+	QUAD $0x072a2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 42], 7
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
+	QUAD $0x000130249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 304], xmm3
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	QUAD $0x000150248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 336], xmm1
+	LONG $0x44b70f42; WORD $0x2c0e             // movzx    eax, word [rsi + r9 + 44]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x4cc40f66; WORD $0x2c0e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 44], 1
+	QUAD $0x022c064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 44], 2
+	LONG $0x4cc40f66; WORD $0x2c3e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 44], 3
+	LONG $0x4cc40f66; WORD $0x2c1e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 44], 4
+	QUAD $0x052c3e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 44], 5
+	QUAD $0x062c264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 44], 6
+	LONG $0x44b70f42; WORD $0x2e0e             // movzx    eax, word [rsi + r9 + 46]
+	QUAD $0x072c2e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 44], 7
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x54c40f66; WORD $0x2e0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 46], 1
+	QUAD $0x022e0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 46], 2
+	LONG $0x54c40f66; WORD $0x2e3e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 46], 3
+	LONG $0x54c40f66; WORD $0x2e1e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 46], 4
+	QUAD $0x052e3e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 46], 5
+	QUAD $0x062e2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 46], 6
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
+	QUAD $0x000140249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 320], xmm3
+	QUAD $0x072e2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 46], 7
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	QUAD $0x0000a0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm1
+	LONG $0x44b70f42; WORD $0x300e             // movzx    eax, word [rsi + r9 + 48]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x4cc40f66; WORD $0x300e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 48], 1
+	QUAD $0x0230064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 48], 2
+	LONG $0x4cc40f66; WORD $0x303e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 48], 3
+	LONG $0x4cc40f66; WORD $0x301e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 48], 4
+	QUAD $0x05303e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 48], 5
+	QUAD $0x0630264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 48], 6
+	QUAD $0x07302e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 48], 7
+	LONG $0x44b70f42; WORD $0x320e             // movzx    eax, word [rsi + r9 + 50]
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x54c40f66; WORD $0x320e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 50], 1
+	QUAD $0x02320654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 50], 2
+	LONG $0x54c40f66; WORD $0x323e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 50], 3
+	LONG $0x54c40f66; WORD $0x321e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 50], 4
+	QUAD $0x05323e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 50], 5
+	QUAD $0x06322654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 50], 6
+	QUAD $0x07322e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 50], 7
+	LONG $0x6f0f4466; BYTE $0xe8               // movdqa    xmm13, xmm0
+	LONG $0x650f4466; BYTE $0xe9               // pcmpgtw    xmm13, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xca650f66                           // pcmpgtw    xmm1, xmm2
+	QUAD $0x000170248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 368], xmm1
+	LONG $0x44b70f42; WORD $0x340e             // movzx    eax, word [rsi + r9 + 52]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x4cc40f66; WORD $0x340e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 52], 1
+	QUAD $0x0234064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 52], 2
+	LONG $0x4cc40f66; WORD $0x343e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 52], 3
+	LONG $0x4cc40f66; WORD $0x341e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 52], 4
+	QUAD $0x05343e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 52], 5
+	QUAD $0x0634264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 52], 6
+	LONG $0x44b70f42; WORD $0x360e             // movzx    eax, word [rsi + r9 + 54]
+	QUAD $0x07342e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 52], 7
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x54c40f66; WORD $0x360e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 54], 1
+	QUAD $0x02360654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 54], 2
+	LONG $0x54c40f66; WORD $0x363e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 54], 3
+	LONG $0x54c40f66; WORD $0x361e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 54], 4
+	QUAD $0x05363e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 54], 5
+	QUAD $0x06362654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 54], 6
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9650f66                           // pcmpgtw    xmm3, xmm1
+	QUAD $0x0001a0249c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 416], xmm3
+	QUAD $0x07362e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 54], 7
+	LONG $0x6f0f4466; BYTE $0xf8               // movdqa    xmm15, xmm0
+	LONG $0x650f4466; BYTE $0xfa               // pcmpgtw    xmm15, xmm2
+	LONG $0x44b70f42; WORD $0x380e             // movzx    eax, word [rsi + r9 + 56]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x4cc40f66; WORD $0x380e; BYTE $0x01 // pinsrw    xmm1, word [rsi + rcx + 56], 1
+	QUAD $0x0238064cc40f4266                   // pinsrw    xmm1, word [rsi + r8 + 56], 2
+	LONG $0x4cc40f66; WORD $0x383e; BYTE $0x03 // pinsrw    xmm1, word [rsi + rdi + 56], 3
+	LONG $0x4cc40f66; WORD $0x381e; BYTE $0x04 // pinsrw    xmm1, word [rsi + rbx + 56], 4
+	QUAD $0x05383e4cc40f4266                   // pinsrw    xmm1, word [rsi + r15 + 56], 5
+	QUAD $0x0638264cc40f4266                   // pinsrw    xmm1, word [rsi + r12 + 56], 6
+	QUAD $0x07382e4cc40f4266                   // pinsrw    xmm1, word [rsi + r13 + 56], 7
+	LONG $0x44b70f42; WORD $0x3a0e             // movzx    eax, word [rsi + r9 + 58]
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x54c40f66; WORD $0x3a0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 58], 1
+	QUAD $0x023a0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 58], 2
+	LONG $0x54c40f66; WORD $0x3a3e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 58], 3
+	LONG $0x54c40f66; WORD $0x3a1e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 58], 4
+	QUAD $0x053a3e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 58], 5
+	QUAD $0x063a2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 58], 6
+	QUAD $0x073a2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 58], 7
+	LONG $0x6f0f4466; BYTE $0xc8               // movdqa    xmm9, xmm0
+	LONG $0x650f4466; BYTE $0xc9               // pcmpgtw    xmm9, xmm1
+	LONG $0x6f0f4466; BYTE $0xe0               // movdqa    xmm12, xmm0
+	LONG $0x650f4466; BYTE $0xe2               // pcmpgtw    xmm12, xmm2
+	LONG $0x44b70f42; WORD $0x3c0e             // movzx    eax, word [rsi + r9 + 60]
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x54c40f66; WORD $0x3c0e; BYTE $0x01 // pinsrw    xmm2, word [rsi + rcx + 60], 1
+	QUAD $0x023c0654c40f4266                   // pinsrw    xmm2, word [rsi + r8 + 60], 2
+	LONG $0x54c40f66; WORD $0x3c3e; BYTE $0x03 // pinsrw    xmm2, word [rsi + rdi + 60], 3
+	LONG $0x54c40f66; WORD $0x3c1e; BYTE $0x04 // pinsrw    xmm2, word [rsi + rbx + 60], 4
+	QUAD $0x053c3e54c40f4266                   // pinsrw    xmm2, word [rsi + r15 + 60], 5
+	QUAD $0x063c2654c40f4266                   // pinsrw    xmm2, word [rsi + r12 + 60], 6
+	LONG $0x44b70f42; WORD $0x3e0e             // movzx    eax, word [rsi + r9 + 62]
+	QUAD $0x073c2e54c40f4266                   // pinsrw    xmm2, word [rsi + r13 + 60], 7
+	LONG $0xf86e0f66                           // movd    xmm7, eax
+	LONG $0x7cc40f66; WORD $0x3e0e; BYTE $0x01 // pinsrw    xmm7, word [rsi + rcx + 62], 1
+	QUAD $0x023e067cc40f4266                   // pinsrw    xmm7, word [rsi + r8 + 62], 2
+	LONG $0x7cc40f66; WORD $0x3e3e; BYTE $0x03 // pinsrw    xmm7, word [rsi + rdi + 62], 3
+	LONG $0x7cc40f66; WORD $0x3e1e; BYTE $0x04 // pinsrw    xmm7, word [rsi + rbx + 62], 4
+	QUAD $0x053e3e7cc40f4266                   // pinsrw    xmm7, word [rsi + r15 + 62], 5
+	QUAD $0x063e267cc40f4266                   // pinsrw    xmm7, word [rsi + r12 + 62], 6
+	LONG $0xe86f0f66                           // movdqa    xmm5, xmm0
+	LONG $0xea650f66                           // pcmpgtw    xmm5, xmm2
+	QUAD $0x073e2e7cc40f4266                   // pinsrw    xmm7, word [rsi + r13 + 62], 7
+	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
+	LONG $0xf7650f66                           // pcmpgtw    xmm6, xmm7
+	LONG $0x630f4566; BYTE $0xdb               // packsswb    xmm11, xmm11
+	QUAD $0x000000808d6f0f66                   // movdqa    xmm1, oword 128[rbp] /* [rip + .LCPI10_8] */
+	LONG $0xf96f0f66                           // movdqa    xmm7, xmm1
+	LONG $0xd96f0f66                           // movdqa    xmm3, xmm1
+	LONG $0x6f0f4166; BYTE $0xc3               // movdqa    xmm0, xmm11
+	LONG $0xe4ef0f66                           // pxor    xmm4, xmm4
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0x546f0f66; WORD $0x5024             // movdqa    xmm2, oword [rsp + 80]
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x000000908d6f0f66                   // movdqa    xmm1, oword 144[rbp] /* [rip + .LCPI10_9] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
+	LONG $0xd2760f66                           // pcmpeqd    xmm2, xmm2
+	QUAD $0x00016024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 352]
+	LONG $0xc2ef0f66                           // pxor    xmm0, xmm2
+	LONG $0x760f4566; BYTE $0xc0               // pcmpeqd    xmm8, xmm8
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xf8f80f66                           // psubb    xmm7, xmm0
+	LONG $0x546f0f66; WORD $0x7024             // movdqa    xmm2, oword [rsp + 112]
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x0000a09d6f0f4466; BYTE $0x00       // movdqa    xmm11, oword 160[rbp] /* [rip + .LCPI10_10] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4466; WORD $0xdc10             // pblendvb    xmm11, xmm4, xmm0
+	LONG $0xeb0f4466; BYTE $0xd9               // por    xmm11, xmm1
+	LONG $0x546f0f66; WORD $0x2024             // movdqa    xmm2, oword [rsp + 32]
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI10_11] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
+	LONG $0xeb0f4466; BYTE $0xdf               // por    xmm11, xmm7
+	QUAD $0x00008024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 128]
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x0000c0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 192[rbp] /* [rip + .LCPI10_12] */
+	LONG $0x6f0f4166; BYTE $0xfa               // movdqa    xmm7, xmm10
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	LONG $0x630f4566; BYTE $0xf6               // packsswb    xmm14, xmm14
+	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI10_13] */
+	LONG $0x6f0f4166; BYTE $0xc6               // movdqa    xmm0, xmm14
+	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
+	LONG $0xcfeb0f66                           // por    xmm1, xmm7
+	LONG $0x546f0f66; WORD $0x6024             // movdqa    xmm2, oword [rsp + 96]
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x0000e0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 224[rbp] /* [rip + .LCPI10_14] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4466; WORD $0xf410             // pblendvb    xmm14, xmm4, xmm0
+	LONG $0xeb0f4166; BYTE $0xcb               // por    xmm1, xmm11
+	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x6f0f4466; BYTE $0xdb               // movdqa    xmm11, xmm3
+	LONG $0xfb6f0f66                           // movdqa    xmm7, xmm3
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0xeb0f4466; BYTE $0xf1               // por    xmm14, xmm1
+	QUAD $0x0001b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 432]
+	LONG $0xef0f4166; BYTE $0xc0               // pxor    xmm0, xmm8
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xf8f80f66                           // psubb    xmm7, xmm0
+	LONG $0x446f0f66; WORD $0x3024             // movdqa    xmm0, oword [rsp + 48]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	QUAD $0x000000909d6f0f66                   // movdqa    xmm3, oword 144[rbp] /* [rip + .LCPI10_9] */
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
+	QUAD $0x0000c024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 192]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	QUAD $0x0000a0856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 160[rbp] /* [rip + .LCPI10_10] */
+	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	LONG $0x446f0f66; WORD $0x1024             // movdqa    xmm0, oword [rsp + 16]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI10_11] */
+	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
+	QUAD $0x0000d024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 208]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x380f4466; WORD $0xd410             // pblendvb    xmm10, xmm4, xmm0
+	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
+	QUAD $0x0000f024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 240]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI10_13] */
+	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
+	LONG $0xeb0f4166; BYTE $0xca               // por    xmm1, xmm10
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	QUAD $0x00009024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 144]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	QUAD $0x0000e0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 224[rbp] /* [rip + .LCPI10_14] */
+	LONG $0x380f4466; WORD $0xd410             // pblendvb    xmm10, xmm4, xmm0
+	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
+	QUAD $0x00012024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 288]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x6f0f4166; BYTE $0xcb               // movdqa    xmm1, xmm11
+	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
+	QUAD $0x00010024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 256]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xd36f0f66                           // movdqa    xmm2, xmm3
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	QUAD $0x0000e024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 224]
+	QUAD $0x0000016085ef0f66                   // pxor    xmm0, oword 352[rbp] /* [rip + .LCPI10_22] */
+	LONG $0xdb760f66                           // pcmpeqd    xmm3, xmm3
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	QUAD $0x00011024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 272]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x6f0f4166; BYTE $0xf8               // movdqa    xmm7, xmm8
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	LONG $0xfaeb0f66                           // por    xmm7, xmm2
+	QUAD $0x00013024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 304]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	QUAD $0x0150249c6f0f4466; WORD $0x0000     // movdqa    xmm11, oword [rsp + 336]
+	LONG $0x630f4566; BYTE $0xdb               // packsswb    xmm11, xmm11
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI10_11] */
+	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
+	QUAD $0x000000c0956f0f66                   // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI10_12] */
+	LONG $0x6f0f4166; BYTE $0xc3               // movdqa    xmm0, xmm11
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	QUAD $0x00014024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 320]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI10_13] */
+	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	QUAD $0x0000a024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 160]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	QUAD $0x0170249c6f0f4466; WORD $0x0000     // movdqa    xmm11, oword [rsp + 368]
+	LONG $0x630f4566; BYTE $0xdb               // packsswb    xmm11, xmm11
+	LONG $0xcfeb0f66                           // por    xmm1, xmm7
+	QUAD $0x000000e0bd6f0f66                   // movdqa    xmm7, oword 224[rbp] /* [rip + .LCPI10_14] */
+	LONG $0x10380f66; BYTE $0xfc               // pblendvb    xmm7, xmm4, xmm0
+	QUAD $0x00000080956f0f66                   // movdqa    xmm2, oword 128[rbp] /* [rip + .LCPI10_8] */
+	LONG $0x6f0f4166; BYTE $0xc3               // movdqa    xmm0, xmm11
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xf9eb0f66                           // por    xmm7, xmm1
+	LONG $0xef0f4466; BYTE $0xeb               // pxor    xmm13, xmm3
+	LONG $0x630f4566; BYTE $0xed               // packsswb    xmm13, xmm13
+	QUAD $0x0001a024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 416]
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x630f4566; BYTE $0xff               // packsswb    xmm15, xmm15
+	LONG $0xf80f4166; BYTE $0xd5               // psubb    xmm2, xmm13
+	QUAD $0x000000908d6f0f66                   // movdqa    xmm1, oword 144[rbp] /* [rip + .LCPI10_9] */
+	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
+	LONG $0x6f0f4166; BYTE $0xc7               // movdqa    xmm0, xmm15
+	LONG $0x380f4466; WORD $0xc410             // pblendvb    xmm8, xmm4, xmm0
+	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
+	LONG $0x630f4566; BYTE $0xc9               // packsswb    xmm9, xmm9
+	LONG $0x630f4566; BYTE $0xe4               // packsswb    xmm12, xmm12
+	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
+	QUAD $0x000000b08d6f0f66                   // movdqa    xmm1, oword 176[rbp] /* [rip + .LCPI10_11] */
+	LONG $0x6f0f4166; BYTE $0xc1               // movdqa    xmm0, xmm9
+	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
+	QUAD $0x000000c0956f0f66                   // movdqa    xmm2, oword 192[rbp] /* [rip + .LCPI10_12] */
+	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	QUAD $0x000000d08d6f0f66                   // movdqa    xmm1, oword 208[rbp] /* [rip + .LCPI10_13] */
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0x10380f66; BYTE $0xcc               // pblendvb    xmm1, xmm4, xmm0
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
+	QUAD $0x000000e0956f0f66                   // movdqa    xmm2, oword 224[rbp] /* [rip + .LCPI10_14] */
+	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
+	LONG $0x10380f66; BYTE $0xd4               // pblendvb    xmm2, xmm4, xmm0
+	LONG $0xd1eb0f66                           // por    xmm2, xmm1
+	LONG $0x6f0f4166; BYTE $0xc6               // movdqa    xmm0, xmm14
+	LONG $0x6c0f4166; BYTE $0xc2               // punpcklqdq    xmm0, xmm10
+	LONG $0xcf6f0f66                           // movdqa    xmm1, xmm7
+	LONG $0xca6c0f66                           // punpcklqdq    xmm1, xmm2
+	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI10_15] */
+	LONG $0x00380f66; BYTE $0xcb               // pshufb    xmm1, xmm3
+	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
+	LONG $0xc1610f66                           // punpcklwd    xmm0, xmm1
+	LONG $0xfa600f66                           // punpcklbw    xmm7, xmm2
+	LONG $0x600f4566; BYTE $0xf2               // punpcklbw    xmm14, xmm10
+	LONG $0x610f4466; BYTE $0xf7               // punpcklwd    xmm14, xmm7
+	LONG $0x7f0f47f3; WORD $0x9634             // movdqu    oword [r14 + 4*r10], xmm14
+	LONG $0x7f0f43f3; WORD $0x9644; BYTE $0x10 // movdqu    oword [r14 + 4*r10 + 16], xmm0
+	LONG $0x08c28349                           // add    r10, 8
+	QUAD $0x0000019024943b4c                   // cmp    r10, qword [rsp + 400]
+	JNE  LBB10_198
+	QUAD $0x000001c824bc8b4c                   // mov    r15, qword [rsp + 456]
+	QUAD $0x0000019024bc3b4c                   // cmp    r15, qword [rsp + 400]
+	LONG $0x24548b4c; BYTE $0x48               // mov    r10, qword [rsp + 72]
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	JNE  LBB10_101
+	JMP  LBB10_136
+
+LBB10_200:
+	WORD $0x894d; BYTE $0xd8                   // mov    r8, r11
+	LONG $0xfce08349                           // and    r8, -4
+	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
+	LONG $0x07e3c148                           // shl    rbx, 7
+	WORD $0x0148; BYTE $0xf3                   // add    rbx, rsi
+	LONG $0x863c8d4f                           // lea    r15, [r14 + 4*r8]
+	LONG $0xeb280f45                           // movaps    xmm13, xmm11
+	LONG $0xebc60f45; BYTE $0x00               // shufps    xmm13, xmm11, 0
+	LONG $0xfcc68148; WORD $0x0001; BYTE $0x00 // add    rsi, 508
+	WORD $0xc931                               // xor    ecx, ecx
+	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI10_0] */
+
+LBB10_201:
+	QUAD $0xfffffe049e100ff3                           // movss    xmm3, dword [rsi - 508]
+	QUAD $0xfffe0896100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 504]
+	QUAD $0xfffe0c8e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 500]
+	QUAD $0xfffffe108e100ff3                           // movss    xmm1, dword [rsi - 496]
+	QUAD $0xfffe849e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 380], 16
+	QUAD $0xffff049e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 252], 32
+	LONG $0x213a0f66; WORD $0x845e; BYTE $0x30         // insertps    xmm3, dword [rsi - 124], 48
+	QUAD $0xfe8896213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 376], 16
+	QUAD $0xff0896213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 248], 32
+	QUAD $0x308856213a0f4466                           // insertps    xmm10, dword [rsi - 120], 48
+	QUAD $0xfe8c8e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 372], 16
+	QUAD $0xff0c8e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 244], 32
+	QUAD $0x308c4e213a0f4466                           // insertps    xmm9, dword [rsi - 116], 48
+	QUAD $0xfffe908e213a0f66; WORD $0x10ff             // insertps    xmm1, dword [rsi - 368], 16
+	QUAD $0xffff108e213a0f66; WORD $0x20ff             // insertps    xmm1, dword [rsi - 240], 32
+	LONG $0x213a0f66; WORD $0x904e; BYTE $0x30         // insertps    xmm1, dword [rsi - 112], 48
+	QUAD $0xfffe1486100f44f3; BYTE $0xff               // movss    xmm8, dword [rsi - 492]
+	QUAD $0xfe9486213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm8, dword [rsi - 364], 16
+	QUAD $0xff1486213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm8, dword [rsi - 236], 32
+	LONG $0xe5280f45                                   // movaps    xmm12, xmm13
+	QUAD $0x309446213a0f4466                           // insertps    xmm8, dword [rsi - 108], 48
+	QUAD $0xfffffe1896100ff3                           // movss    xmm2, dword [rsi - 488]
+	QUAD $0xfffe9896213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 360], 16
+	QUAD $0xffff1896213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 232], 32
+	LONG $0xe3c20f44; BYTE $0x02                       // cmpleps    xmm12, xmm3
+	LONG $0x213a0f66; WORD $0x9856; BYTE $0x30         // insertps    xmm2, dword [rsi - 104], 48
+	QUAD $0xfffffe1c9e100ff3                           // movss    xmm3, dword [rsi - 484]
+	QUAD $0xfffe9c9e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 356], 16
+	QUAD $0xffff1c9e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 228], 32
+	LONG $0x6b0f4566; BYTE $0xe4                       // packssdw    xmm12, xmm12
+	LONG $0x213a0f66; WORD $0x9c5e; BYTE $0x30         // insertps    xmm3, dword [rsi - 100], 48
+	QUAD $0xfffffe24a6100ff3                           // movss    xmm4, dword [rsi - 476]
+	QUAD $0xfffea4a6213a0f66; WORD $0x10ff             // insertps    xmm4, dword [rsi - 348], 16
+	QUAD $0xffff24a6213a0f66; WORD $0x20ff             // insertps    xmm4, dword [rsi - 220], 32
+	LONG $0x630f4566; BYTE $0xe4                       // packsswb    xmm12, xmm12
+	LONG $0x213a0f66; WORD $0xa466; BYTE $0x30         // insertps    xmm4, dword [rsi - 92], 48
+	LONG $0xfd280f41                                   // movaps    xmm7, xmm13
+	QUAD $0xfffffe44ae100ff3                           // movss    xmm5, dword [rsi - 444]
+	QUAD $0xfffec4ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 316], 16
+	QUAD $0xffff44ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 188], 32
+	LONG $0x02fcc20f                                   // cmpleps    xmm7, xmm4
+	LONG $0x213a0f66; WORD $0xc46e; BYTE $0x30         // insertps    xmm5, dword [rsi - 60], 48
+	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
+	QUAD $0xfffffe6486100ff3                           // movss    xmm0, dword [rsi - 412]
+	QUAD $0xfffee486213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 284], 16
+	QUAD $0xffff6486213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 156], 32
+	LONG $0x02f5c20f                                   // cmpleps    xmm6, xmm5
+	LONG $0x213a0f66; WORD $0xe446; BYTE $0x30         // insertps    xmm0, dword [rsi - 28], 48
+	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
+	LONG $0x02e0c20f                                   // cmpleps    xmm4, xmm0
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0xc2c20f41; BYTE $0x02                       // cmpleps    xmm0, xmm10
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0x6f0f4466; BYTE $0xf0                       // movdqa    xmm14, xmm0
+	LONG $0xdb0f4566; BYTE $0xf7                       // pand    xmm14, xmm15
+	LONG $0xf80f4466; BYTE $0xf0                       // psubb    xmm14, xmm0
+	QUAD $0xfffe2096100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 480]
+	QUAD $0xfea096213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 352], 16
+	LONG $0xdb0f4566; BYTE $0xe7                       // pand    xmm12, xmm15
+	QUAD $0xff2096213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 224], 32
+	LONG $0xeb0f4566; BYTE $0xf4                       // por    xmm14, xmm12
+	LONG $0xed280f41                                   // movaps    xmm5, xmm13
+	LONG $0xe9c20f41; BYTE $0x02                       // cmpleps    xmm5, xmm9
+	QUAD $0x30a056213a0f4466                           // insertps    xmm10, dword [rsi - 96], 48
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
+	LONG $0x456f0f66; BYTE $0x10                       // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI10_1] */
+	LONG $0xe8db0f66                                   // pand    xmm5, xmm0
+	LONG $0xeb0f4166; BYTE $0xee                       // por    xmm5, xmm14
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x02c1c20f                                   // cmpleps    xmm0, xmm1
+	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
+	LONG $0xc8c20f41; BYTE $0x02                       // cmpleps    xmm1, xmm8
+	QUAD $0xfffe288e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 472]
+	QUAD $0xfea88e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 344], 16
+	QUAD $0xff288e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 216], 32
+	QUAD $0x30a84e213a0f4466                           // insertps    xmm9, dword [rsi - 88], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
+	LONG $0x6f0f4466; WORD $0x2075                     // movdqa    xmm14, oword 32[rbp] /* [rip + .LCPI10_2] */
+	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
+	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
+	LONG $0x6f0f4466; WORD $0x3075                     // movdqa    xmm14, oword 48[rbp] /* [rip + .LCPI10_3] */
+	LONG $0xdb0f4166; BYTE $0xce                       // pand    xmm1, xmm14
+	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
+	QUAD $0xfffe2ca6100f44f3; BYTE $0xff               // movss    xmm12, dword [rsi - 468]
+	QUAD $0xfeaca6213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm12, dword [rsi - 340], 16
+	QUAD $0xff2ca6213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm12, dword [rsi - 212], 32
+	QUAD $0x30ac66213a0f4466                           // insertps    xmm12, dword [rsi - 84], 48
+	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x02c2c20f                                   // cmpleps    xmm0, xmm2
+	LONG $0xed280f41                                   // movaps    xmm5, xmm13
+	LONG $0x02ebc20f                                   // cmpleps    xmm5, xmm3
+	QUAD $0xfffffe3096100ff3                           // movss    xmm2, dword [rsi - 464]
+	QUAD $0xfffeb096213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 336], 16
+	QUAD $0xffff3096213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 208], 32
+	LONG $0xff6b0f66                                   // packssdw    xmm7, xmm7
+	LONG $0x213a0f66; WORD $0xb056; BYTE $0x30         // insertps    xmm2, dword [rsi - 80], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
+	LONG $0x6f0f4466; WORD $0x4075                     // movdqa    xmm14, oword 64[rbp] /* [rip + .LCPI10_4] */
+	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x06                       // psllw    xmm5, 6
+	LONG $0x5d6f0f66; BYTE $0x50                       // movdqa    xmm3, oword 80[rbp] /* [rip + .LCPI10_5] */
+	LONG $0xebdb0f66                                   // pand    xmm5, xmm3
+	LONG $0xe8eb0f66                                   // por    xmm5, xmm0
+	LONG $0xc5280f45                                   // movaps    xmm8, xmm13
+	LONG $0xc2c20f45; BYTE $0x02                       // cmpleps    xmm8, xmm10
+	QUAD $0xfffffe349e100ff3                           // movss    xmm3, dword [rsi - 460]
+	QUAD $0xfffeb49e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 332], 16
+	QUAD $0xffff349e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 204], 32
+	LONG $0x213a0f66; WORD $0xb45e; BYTE $0x30         // insertps    xmm3, dword [rsi - 76], 48
+	LONG $0x6b0f4566; BYTE $0xc0                       // packssdw    xmm8, xmm8
+	LONG $0x630f4566; BYTE $0xc0                       // packsswb    xmm8, xmm8
+	LONG $0x710f4166; WORD $0x07f0                     // psllw    xmm8, 7
+	LONG $0x456f0f66; BYTE $0x60                       // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI10_6] */
+	LONG $0xdb0f4466; BYTE $0xc0                       // pand    xmm8, xmm0
+	LONG $0xeb0f4466; BYTE $0xc5                       // por    xmm8, xmm5
+	QUAD $0xfffe3896100f44f3; BYTE $0xff               // movss    xmm10, dword [rsi - 456]
+	QUAD $0xfeb896213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm10, dword [rsi - 328], 16
+	QUAD $0xff3896213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm10, dword [rsi - 200], 32
+	LONG $0xff630f66                                   // packsswb    xmm7, xmm7
+	QUAD $0x30b856213a0f4466                           // insertps    xmm10, dword [rsi - 72], 48
+	LONG $0xeb0f4466; BYTE $0xc1                       // por    xmm8, xmm1
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0xc1c20f41; BYTE $0x02                       // cmpleps    xmm0, xmm9
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xc86f0f66                                   // movdqa    xmm1, xmm0
+	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
+	LONG $0xc8f80f66                                   // psubb    xmm1, xmm0
+	QUAD $0xfffe3c8e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 452]
+	QUAD $0xfebc8e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 324], 16
+	LONG $0xdb0f4166; BYTE $0xff                       // pand    xmm7, xmm15
+	QUAD $0xff3c8e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 196], 32
+	LONG $0xcfeb0f66                                   // por    xmm1, xmm7
+	LONG $0xed280f41                                   // movaps    xmm5, xmm13
+	LONG $0xecc20f41; BYTE $0x02                       // cmpleps    xmm5, xmm12
+	QUAD $0x30bc4e213a0f4466                           // insertps    xmm9, dword [rsi - 68], 48
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02                       // psllw    xmm5, 2
+	LONG $0x6ddb0f66; BYTE $0x10                       // pand    xmm5, oword 16[rbp] /* [rip + .LCPI10_1] */
+	LONG $0xe9eb0f66                                   // por    xmm5, xmm1
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x02c2c20f                                   // cmpleps    xmm0, xmm2
+	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
+	LONG $0x02cbc20f                                   // cmpleps    xmm1, xmm3
+	QUAD $0xfffffe409e100ff3                           // movss    xmm3, dword [rsi - 448]
+	QUAD $0xfffec09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 320], 16
+	QUAD $0xffff409e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 192], 32
+	LONG $0x213a0f66; WORD $0xc05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 64], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
+	LONG $0x6f0f4466; WORD $0x2065                     // movdqa    xmm12, oword 32[rbp] /* [rip + .LCPI10_2] */
+	LONG $0xdb0f4166; BYTE $0xc4                       // pand    xmm0, xmm12
+	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
+	LONG $0x4ddb0f66; BYTE $0x30                       // pand    xmm1, oword 48[rbp] /* [rip + .LCPI10_3] */
+	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
+	QUAD $0xfffffe4896100ff3                           // movss    xmm2, dword [rsi - 440]
+	QUAD $0xfffec896213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 312], 16
+	QUAD $0xffff4896213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 184], 32
+	LONG $0x213a0f66; WORD $0xc856; BYTE $0x30         // insertps    xmm2, dword [rsi - 56], 48
+	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0xc2c20f41; BYTE $0x02                       // cmpleps    xmm0, xmm10
+	LONG $0xed280f41                                   // movaps    xmm5, xmm13
+	LONG $0xe9c20f41; BYTE $0x02                       // cmpleps    xmm5, xmm9
+	QUAD $0xfffffe4cbe100ff3                           // movss    xmm7, dword [rsi - 436]
+	QUAD $0xfffeccbe213a0f66; WORD $0x10ff             // insertps    xmm7, dword [rsi - 308], 16
+	QUAD $0xffff4cbe213a0f66; WORD $0x20ff             // insertps    xmm7, dword [rsi - 180], 32
+	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
+	LONG $0x213a0f66; WORD $0xcc7e; BYTE $0x30         // insertps    xmm7, dword [rsi - 52], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
+	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x06                       // psllw    xmm5, 6
+	LONG $0x6ddb0f66; BYTE $0x50                       // pand    xmm5, oword 80[rbp] /* [rip + .LCPI10_5] */
+	LONG $0xe8eb0f66                                   // por    xmm5, xmm0
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x02c3c20f                                   // cmpleps    xmm0, xmm3
+	QUAD $0xfffffe509e100ff3                           // movss    xmm3, dword [rsi - 432]
+	QUAD $0xfffed09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 304], 16
+	QUAD $0xffff509e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 176], 32
+	LONG $0x213a0f66; WORD $0xd05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 48], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xf0710f66; BYTE $0x07                       // psllw    xmm0, 7
+	LONG $0x6f0f4466; WORD $0x6055                     // movdqa    xmm10, oword 96[rbp] /* [rip + .LCPI10_6] */
+	LONG $0xdb0f4166; BYTE $0xc2                       // pand    xmm0, xmm10
+	LONG $0xc5eb0f66                                   // por    xmm0, xmm5
+	QUAD $0xfffffe54ae100ff3                           // movss    xmm5, dword [rsi - 428]
+	QUAD $0xfffed4ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 300], 16
+	QUAD $0xffff54ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 172], 32
+	LONG $0x213a0f66; WORD $0xd46e; BYTE $0x30         // insertps    xmm5, dword [rsi - 44], 48
+	LONG $0xc1eb0f66                                   // por    xmm0, xmm1
+	QUAD $0xfffe588e100f44f3; BYTE $0xff               // movss    xmm9, dword [rsi - 424]
+	QUAD $0xfed88e213a0f4466; WORD $0xffff; BYTE $0x10 // insertps    xmm9, dword [rsi - 296], 16
+	QUAD $0xff588e213a0f4466; WORD $0xffff; BYTE $0x20 // insertps    xmm9, dword [rsi - 168], 32
+	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
+	QUAD $0x30d84e213a0f4466                           // insertps    xmm9, dword [rsi - 40], 48
+	LONG $0x620f4466; BYTE $0xc0                       // punpckldq    xmm8, xmm0
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x02c2c20f                                   // cmpleps    xmm0, xmm2
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xc86f0f66                                   // movdqa    xmm1, xmm0
+	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
+	LONG $0xc8f80f66                                   // psubb    xmm1, xmm0
+	QUAD $0xfffffe5c96100ff3                           // movss    xmm2, dword [rsi - 420]
+	QUAD $0xfffedc96213a0f66; WORD $0x10ff             // insertps    xmm2, dword [rsi - 292], 16
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	QUAD $0xffff5c96213a0f66; WORD $0x20ff             // insertps    xmm2, dword [rsi - 164], 32
+	LONG $0xceeb0f66                                   // por    xmm1, xmm6
+	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
+	LONG $0x02f7c20f                                   // cmpleps    xmm6, xmm7
+	LONG $0x213a0f66; WORD $0xdc56; BYTE $0x30         // insertps    xmm2, dword [rsi - 36], 48
+	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x02                       // psllw    xmm6, 2
+	LONG $0x456f0f66; BYTE $0x10                       // movdqa    xmm0, oword 16[rbp] /* [rip + .LCPI10_1] */
+	LONG $0xf0db0f66                                   // pand    xmm6, xmm0
+	LONG $0xf1eb0f66                                   // por    xmm6, xmm1
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x02c3c20f                                   // cmpleps    xmm0, xmm3
+	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
+	LONG $0x02cdc20f                                   // cmpleps    xmm1, xmm5
+	QUAD $0xfffffe609e100ff3                           // movss    xmm3, dword [rsi - 416]
+	QUAD $0xfffee09e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 288], 16
+	QUAD $0xffff609e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 160], 32
+	LONG $0x213a0f66; WORD $0xe05e; BYTE $0x30         // insertps    xmm3, dword [rsi - 32], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x03                       // psllw    xmm0, 3
+	LONG $0xdb0f4166; BYTE $0xc4                       // pand    xmm0, xmm12
+	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
+	LONG $0x6f0f4466; WORD $0x3065                     // movdqa    xmm12, oword 48[rbp] /* [rip + .LCPI10_3] */
+	LONG $0xdb0f4166; BYTE $0xcc                       // pand    xmm1, xmm12
+	LONG $0xc8eb0f66                                   // por    xmm1, xmm0
+	QUAD $0xfffffe68ae100ff3                           // movss    xmm5, dword [rsi - 408]
+	QUAD $0xfffee8ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 280], 16
+	QUAD $0xffff68ae213a0f66; WORD $0x20ff             // insertps    xmm5, dword [rsi - 152], 32
+	LONG $0x213a0f66; WORD $0xe86e; BYTE $0x30         // insertps    xmm5, dword [rsi - 24], 48
+	LONG $0xceeb0f66                                   // por    xmm1, xmm6
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0xc1c20f41; BYTE $0x02                       // cmpleps    xmm0, xmm9
+	LONG $0xf5280f41                                   // movaps    xmm6, xmm13
+	LONG $0x02f2c20f                                   // cmpleps    xmm6, xmm2
+	QUAD $0xfffffe6cbe100ff3                           // movss    xmm7, dword [rsi - 404]
+	QUAD $0xfffeecbe213a0f66; WORD $0x10ff             // insertps    xmm7, dword [rsi - 276], 16
+	QUAD $0xffff6cbe213a0f66; WORD $0x20ff             // insertps    xmm7, dword [rsi - 148], 32
+	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
+	LONG $0x213a0f66; WORD $0xec7e; BYTE $0x30         // insertps    xmm7, dword [rsi - 20], 48
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xdb0f4166; BYTE $0xc7                       // pand    xmm0, xmm15
+	LONG $0xf0710f66; BYTE $0x05                       // psllw    xmm0, 5
+	LONG $0xdb0f4166; BYTE $0xc6                       // pand    xmm0, xmm14
+	LONG $0xf66b0f66                                   // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                                   // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7                       // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x06                       // psllw    xmm6, 6
+	LONG $0x6f0f4466; WORD $0x504d                     // movdqa    xmm9, oword 80[rbp] /* [rip + .LCPI10_5] */
+	LONG $0xdb0f4166; BYTE $0xf1                       // pand    xmm6, xmm9
+	LONG $0xf0eb0f66                                   // por    xmm6, xmm0
+	LONG $0xd5280f41                                   // movaps    xmm2, xmm13
+	LONG $0x02d3c20f                                   // cmpleps    xmm2, xmm3
+	QUAD $0xfffffe7086100ff3                           // movss    xmm0, dword [rsi - 400]
+	QUAD $0xfffef086213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 272], 16
+	QUAD $0xffff7086213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 144], 32
+	LONG $0x213a0f66; WORD $0xf046; BYTE $0x30         // insertps    xmm0, dword [rsi - 16], 48
+	LONG $0xd26b0f66                                   // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                                   // packsswb    xmm2, xmm2
+	LONG $0xf2710f66; BYTE $0x07                       // psllw    xmm2, 7
+	LONG $0xdb0f4166; BYTE $0xd2                       // pand    xmm2, xmm10
+	LONG $0xd6eb0f66                                   // por    xmm2, xmm6
+	QUAD $0xfffffe74b6100ff3                           // movss    xmm6, dword [rsi - 396]
+	QUAD $0xfffef4b6213a0f66; WORD $0x10ff             // insertps    xmm6, dword [rsi - 268], 16
+	QUAD $0xffff74b6213a0f66; WORD $0x20ff             // insertps    xmm6, dword [rsi - 140], 32
+	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
+	LONG $0x213a0f66; WORD $0xf476; BYTE $0x30         // insertps    xmm6, dword [rsi - 12], 48
+	LONG $0xd1eb0f66                                   // por    xmm2, xmm1
+	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
+	LONG $0x02cdc20f                                   // cmpleps    xmm1, xmm5
+	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
+	LONG $0xe96f0f66                                   // movdqa    xmm5, xmm1
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xe9f80f66                                   // psubb    xmm5, xmm1
+	QUAD $0xfffffe789e100ff3                           // movss    xmm3, dword [rsi - 392]
+	QUAD $0xfffef89e213a0f66; WORD $0x10ff             // insertps    xmm3, dword [rsi - 264], 16
+	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
+	QUAD $0xffff789e213a0f66; WORD $0x20ff             // insertps    xmm3, dword [rsi - 136], 32
+	LONG $0xeceb0f66                                   // por    xmm5, xmm4
+	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
+	LONG $0x02e7c20f                                   // cmpleps    xmm4, xmm7
+	LONG $0x213a0f66; WORD $0xf85e; BYTE $0x30         // insertps    xmm3, dword [rsi - 8], 48
+	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
+	LONG $0xf4710f66; BYTE $0x02                       // psllw    xmm4, 2
+	LONG $0x65db0f66; BYTE $0x10                       // pand    xmm4, oword 16[rbp] /* [rip + .LCPI10_1] */
+	LONG $0xe5eb0f66                                   // por    xmm4, xmm5
+	LONG $0xed280f41                                   // movaps    xmm5, xmm13
+	LONG $0x02e8c20f                                   // cmpleps    xmm5, xmm0
+	LONG $0xcd280f41                                   // movaps    xmm1, xmm13
+	LONG $0x02cec20f                                   // cmpleps    xmm1, xmm6
+	QUAD $0xfffffe7c86100ff3                           // movss    xmm0, dword [rsi - 388]
+	QUAD $0xfffefc86213a0f66; WORD $0x10ff             // insertps    xmm0, dword [rsi - 260], 16
+	QUAD $0xffff7c86213a0f66; WORD $0x20ff             // insertps    xmm0, dword [rsi - 132], 32
+	LONG $0x213a0f66; WORD $0xfc46; BYTE $0x30         // insertps    xmm0, dword [rsi - 4], 48
+	LONG $0xed6b0f66                                   // packssdw    xmm5, xmm5
+	LONG $0xed630f66                                   // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef                       // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x03                       // psllw    xmm5, 3
+	LONG $0x6ddb0f66; BYTE $0x20                       // pand    xmm5, oword 32[rbp] /* [rip + .LCPI10_2] */
+	LONG $0xc96b0f66                                   // packssdw    xmm1, xmm1
+	LONG $0xc9630f66                                   // packsswb    xmm1, xmm1
+	LONG $0xdb0f4166; BYTE $0xcf                       // pand    xmm1, xmm15
+	LONG $0xf1710f66; BYTE $0x04                       // psllw    xmm1, 4
+	LONG $0xdb0f4166; BYTE $0xcc                       // pand    xmm1, xmm12
+	LONG $0xcdeb0f66                                   // por    xmm1, xmm5
+	QUAD $0xfffffe80ae100ff3                           // movss    xmm5, dword [rsi - 384]
+	QUAD $0xffff00ae213a0f66; WORD $0x10ff             // insertps    xmm5, dword [rsi - 256], 16
+	LONG $0x213a0f66; WORD $0x806e; BYTE $0x20         // insertps    xmm5, dword [rsi - 128], 32
+	LONG $0xcceb0f66                                   // por    xmm1, xmm4
+	LONG $0xe5280f41                                   // movaps    xmm4, xmm13
+	LONG $0x02e3c20f                                   // cmpleps    xmm4, xmm3
+	LONG $0xdd280f41                                   // movaps    xmm3, xmm13
+	LONG $0x02d8c20f                                   // cmpleps    xmm3, xmm0
+	LONG $0x213a0f66; WORD $0x302e                     // insertps    xmm5, dword [rsi], 48
+	LONG $0xe46b0f66                                   // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                                   // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7                       // pand    xmm4, xmm15
+	LONG $0xf4710f66; BYTE $0x05                       // psllw    xmm4, 5
+	LONG $0xdb0f4166; BYTE $0xe6                       // pand    xmm4, xmm14
+	LONG $0xdb6b0f66                                   // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                                   // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf                       // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x06                       // psllw    xmm3, 6
+	LONG $0xdb0f4166; BYTE $0xd9                       // pand    xmm3, xmm9
+	LONG $0xdceb0f66                                   // por    xmm3, xmm4
+	LONG $0xc5280f41                                   // movaps    xmm0, xmm13
+	LONG $0x02c5c20f                                   // cmpleps    xmm0, xmm5
+	LONG $0xc06b0f66                                   // packssdw    xmm0, xmm0
+	LONG $0xc0630f66                                   // packsswb    xmm0, xmm0
+	LONG $0xf0710f66; BYTE $0x07                       // psllw    xmm0, 7
+	LONG $0xdb0f4166; BYTE $0xc2                       // pand    xmm0, xmm10
+	LONG $0xc3eb0f66                                   // por    xmm0, xmm3
+	LONG $0xc1eb0f66                                   // por    xmm0, xmm1
+	LONG $0xd0620f66                                   // punpckldq    xmm2, xmm0
+	LONG $0x600f4466; BYTE $0xc2                       // punpcklbw    xmm8, xmm2
+	LONG $0x380f4466; WORD $0x4500; BYTE $0x70         // pshufb    xmm8, oword 112[rbp] /* [rip + .LCPI10_7] */
+	LONG $0x7f0f45f3; WORD $0x8e04                     // movdqu    oword [r14 + 4*rcx], xmm8
+	LONG $0x04c18348                                   // add    rcx, 4
+	LONG $0x00c68148; WORD $0x0002; BYTE $0x00         // add    rsi, 512
+	WORD $0x3949; BYTE $0xc8                           // cmp    r8, rcx
+	JNE  LBB10_201
+	WORD $0x394d; BYTE $0xc3                           // cmp    r11, r8
+	JNE  LBB10_124
+	JMP  LBB10_140
+
+DATA LCDATA8<>+0x000(SB)/8, $0x0000000001010101
+DATA LCDATA8<>+0x008(SB)/8, $0x0000000000000000
+DATA LCDATA8<>+0x010(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA8<>+0x018(SB)/8, $0xfcfcfcfcfcfcfcfc
+DATA LCDATA8<>+0x020(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA8<>+0x028(SB)/8, $0xf8f8f8f8f8f8f8f8
+DATA LCDATA8<>+0x030(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA8<>+0x038(SB)/8, $0xf0f0f0f0f0f0f0f0
+DATA LCDATA8<>+0x040(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA8<>+0x048(SB)/8, $0xe0e0e0e0e0e0e0e0
+DATA LCDATA8<>+0x050(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA8<>+0x058(SB)/8, $0xc0c0c0c0c0c0c0c0
+DATA LCDATA8<>+0x060(SB)/8, $0x8080808080808080
+DATA LCDATA8<>+0x068(SB)/8, $0x8080808080808080
+DATA LCDATA8<>+0x070(SB)/8, $0x0b030a0209010800
+DATA LCDATA8<>+0x078(SB)/8, $0x0f070e060d050c04
+DATA LCDATA8<>+0x080(SB)/8, $0x0202020202020202
+DATA LCDATA8<>+0x088(SB)/8, $0x0000000000000000
+DATA LCDATA8<>+0x090(SB)/8, $0x0404040404040404
+DATA LCDATA8<>+0x098(SB)/8, $0x0000000000000000
+DATA LCDATA8<>+0x0a0(SB)/8, $0x0808080808080808
+DATA LCDATA8<>+0x0a8(SB)/8, $0x0000000000000000
+DATA LCDATA8<>+0x0b0(SB)/8, $0x1010101010101010
+DATA LCDATA8<>+0x0b8(SB)/8, $0x0000000000000000
+DATA LCDATA8<>+0x0c0(SB)/8, $0x2020202020202020
+DATA LCDATA8<>+0x0c8(SB)/8, $0x0000000000000000
+DATA LCDATA8<>+0x0d0(SB)/8, $0x4040404040404040
+DATA LCDATA8<>+0x0d8(SB)/8, $0x0000000000000000
+DATA LCDATA8<>+0x0e0(SB)/8, $0x8080808080808080
+DATA LCDATA8<>+0x0e8(SB)/8, $0x0000000000000000
+DATA LCDATA8<>+0x0f0(SB)/8, $0x0f070e060d050c04
+DATA LCDATA8<>+0x0f8(SB)/8, $0x0000000000000000
+DATA LCDATA8<>+0x100(SB)/8, $0x0202020202020202
+DATA LCDATA8<>+0x108(SB)/8, $0x0202020202020202
+DATA LCDATA8<>+0x110(SB)/8, $0x0404040404040404
+DATA LCDATA8<>+0x118(SB)/8, $0x0404040404040404
+DATA LCDATA8<>+0x120(SB)/8, $0x0808080808080808
+DATA LCDATA8<>+0x128(SB)/8, $0x0808080808080808
+DATA LCDATA8<>+0x130(SB)/8, $0x1010101010101010
+DATA LCDATA8<>+0x138(SB)/8, $0x1010101010101010
+DATA LCDATA8<>+0x140(SB)/8, $0x2020202020202020
+DATA LCDATA8<>+0x148(SB)/8, $0x2020202020202020
+DATA LCDATA8<>+0x150(SB)/8, $0x4040404040404040
+DATA LCDATA8<>+0x158(SB)/8, $0x4040404040404040
+DATA LCDATA8<>+0x160(SB)/8, $0xffffffffffffffff
+DATA LCDATA8<>+0x168(SB)/8, $0xffffffffffffffff
+GLOBL LCDATA8<>(SB), 8, $368
+
+TEXT ·_comparison_greater_equal_scalar_arr_sse4(SB), $328-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ left+8(FP), SI
+	MOVQ right+16(FP), DX
+	MOVQ out+24(FP), CX
+	MOVQ length+32(FP), R8
+	MOVQ offset+40(FP), R9
+	MOVQ SP, BP
+	ADDQ $16, SP
+	ANDQ $-16, SP
+	MOVQ BP, 304(SP)
+	LEAQ LCDATA8<>(SB), BP
+
+	WORD $0x894d; BYTE $0xc3 // mov    r11, r8
+	WORD $0x8949; BYTE $0xcf // mov    r15, rcx
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB11_26
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB11_2
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB11_99
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB11_114
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB11_201
+	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_17
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_15:
+	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
+	LONG $0xffd68040                           // adc    sil, -1
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
+	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB11_15
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB11_17:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB11_21
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+
+LBB11_19:
+	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
+	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
+	LONG $0x2414930f                           // setae    byte [rsp]
+	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
+	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
+	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
+	LONG $0xd6930f40                           // setae    sil
+	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
+	LONG $0xd4930f41                           // setae    r12b
+	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
+	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
+	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
+	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
+	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000e024bc0244                   // add    r15b, byte [rsp + 224]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x000000a0248cb60f                   // movzx    ecx, byte [rsp + 160]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x80ea8348                           // sub    rdx, -128
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
+	JNE  LBB11_19
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
+
+LBB11_21:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB11_201
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB11_137
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB11_24
+
+LBB11_26:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB11_27
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB11_157
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB11_172
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB11_201
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x06100ff2         // movsd    xmm0, qword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_49
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_47:
+	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
+	LONG $0xffd68040             // adc    sil, -1
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2040; BYTE $0xf3     // and    bl, sil
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB11_47
+	LONG $0x01c78349             // add    r15, 1
+
+LBB11_49:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB11_53
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
+
+LBB11_51:
+	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
+	LONG $0x022e0f66                           // ucomisd    xmm0, qword [rdx]
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x422e0f66; BYTE $0x08               // ucomisd    xmm0, qword [rdx + 8]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x422e0f66; BYTE $0x10               // ucomisd    xmm0, qword [rdx + 16]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x422e0f66; BYTE $0x18               // ucomisd    xmm0, qword [rdx + 24]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x422e0f66; BYTE $0x20               // ucomisd    xmm0, qword [rdx + 32]
+	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
+	LONG $0x422e0f66; BYTE $0x28               // ucomisd    xmm0, qword [rdx + 40]
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	LONG $0x422e0f66; BYTE $0x30               // ucomisd    xmm0, qword [rdx + 48]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x422e0f66; BYTE $0x38               // ucomisd    xmm0, qword [rdx + 56]
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x422e0f66; BYTE $0x40               // ucomisd    xmm0, qword [rdx + 64]
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0x422e0f66; BYTE $0x48               // ucomisd    xmm0, qword [rdx + 72]
+	LONG $0xd6930f40                           // setae    sil
+	LONG $0x422e0f66; BYTE $0x50               // ucomisd    xmm0, qword [rdx + 80]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x422e0f66; BYTE $0x58               // ucomisd    xmm0, qword [rdx + 88]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x422e0f66; BYTE $0x60               // ucomisd    xmm0, qword [rdx + 96]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x422e0f66; BYTE $0x68               // ucomisd    xmm0, qword [rdx + 104]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x422e0f66; BYTE $0x70               // ucomisd    xmm0, qword [rdx + 112]
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x422e0f66; BYTE $0x78               // ucomisd    xmm0, qword [rdx + 120]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	QUAD $0x00000080822e0f66                   // ucomisd    xmm0, qword [rdx + 128]
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	QUAD $0x00000088822e0f66                   // ucomisd    xmm0, qword [rdx + 136]
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	QUAD $0x00000090822e0f66                   // ucomisd    xmm0, qword [rdx + 144]
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	QUAD $0x00000098822e0f66                   // ucomisd    xmm0, qword [rdx + 152]
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	QUAD $0x000000a0822e0f66                   // ucomisd    xmm0, qword [rdx + 160]
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	QUAD $0x000000a8822e0f66                   // ucomisd    xmm0, qword [rdx + 168]
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	QUAD $0x000000b0822e0f66                   // ucomisd    xmm0, qword [rdx + 176]
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	QUAD $0x000000b8822e0f66                   // ucomisd    xmm0, qword [rdx + 184]
+	LONG $0xd6930f41                           // setae    r14b
+	QUAD $0x000000c0822e0f66                   // ucomisd    xmm0, qword [rdx + 192]
+	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
+	QUAD $0x000000c8822e0f66                   // ucomisd    xmm0, qword [rdx + 200]
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	QUAD $0x000000d0822e0f66                   // ucomisd    xmm0, qword [rdx + 208]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	QUAD $0x000000d8822e0f66                   // ucomisd    xmm0, qword [rdx + 216]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	QUAD $0x000000e0822e0f66                   // ucomisd    xmm0, qword [rdx + 224]
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	QUAD $0x000000e8822e0f66                   // ucomisd    xmm0, qword [rdx + 232]
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	QUAD $0x000000f0822e0f66                   // ucomisd    xmm0, qword [rdx + 240]
+	LONG $0x2414930f                           // setae    byte [rsp]
+	QUAD $0x000000f8822e0f66                   // ucomisd    xmm0, qword [rdx + 248]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	WORD $0x0045; BYTE $0xc9                   // add    r9b, r9b
+	QUAD $0x00000080248c0244                   // add    r9b, byte [rsp + 128]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x07e4c041                           // shl    r12b, 7
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	LONG $0x02e3c041                           // shl    r11b, 2
+	WORD $0x0845; BYTE $0xcb                   // or    r11b, r9b
+	WORD $0x0040; BYTE $0xf6                   // add    sil, sil
+	LONG $0x24740240; BYTE $0x70               // add    sil, byte [rsp + 112]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xdd                   // or    r13b, r11b
+	LONG $0x02e7c040                           // shl    dil, 2
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	QUAD $0x000000b0249cb60f                   // movzx    ebx, byte [rsp + 176]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0844; BYTE $0xeb                   // or    bl, r13b
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x03e0c041                           // shl    r8b, 3
+	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xc2                   // or    r10b, r8b
+	LONG $0x05e7c041                           // shl    r15b, 5
+	WORD $0x0845; BYTE $0xd7                   // or    r15b, r10b
+	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
+	LONG $0x06e6c040                           // shl    sil, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0x0840; BYTE $0xf1                   // or    cl, sil
+	WORD $0x0841; BYTE $0xdc                   // or    r12b, bl
+	WORD $0x0844; BYTE $0xf9                   // or    cl, r15b
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	QUAD $0x00000090249cb60f                   // movzx    ebx, byte [rsp + 144]
+	WORD $0xdb00                               // add    bl, bl
+	LONG $0x60245c02                           // add    bl, byte [rsp + 96]
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x68               // movzx    ebx, byte [rsp + 104]
+	WORD $0xe3c0; BYTE $0x02                   // shl    bl, 2
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x58               // movzx    ebx, byte [rsp + 88]
+	WORD $0xe3c0; BYTE $0x03                   // shl    bl, 3
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x50               // movzx    ebx, byte [rsp + 80]
+	WORD $0xe3c0; BYTE $0x04                   // shl    bl, 4
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0xde89                               // mov    esi, ebx
+	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
+	WORD $0xe3c0; BYTE $0x05                   // shl    bl, 5
+	WORD $0x0840; BYTE $0xf3                   // or    bl, sil
+	WORD $0x8845; BYTE $0x27                   // mov    byte [r15], r12b
+	LONG $0x2474b60f; BYTE $0x30               // movzx    esi, byte [rsp + 48]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e6c041                           // shl    r14b, 7
+	WORD $0x0841; BYTE $0xf6                   // or    r14b, sil
+	LONG $0x014f8841                           // mov    byte [r15 + 1], cl
+	WORD $0x0841; BYTE $0xde                   // or    r14b, bl
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0x18244c02                           // add    cl, byte [rsp + 24]
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x08               // movzx    ecx, byte [rsp + 8]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xcb89                               // mov    ebx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd908                               // or    cl, bl
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02778845                           // mov    byte [r15 + 2], r14b
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
+	JNE  LBB11_51
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+
+LBB11_53:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB11_201
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB11_195
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB11_197
+
+LBB11_2:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB11_56
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB11_201
+	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_8
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_6:
+	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB11_6
+	LONG $0x01c78349             // add    r15, 1
+
+LBB11_8:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB11_9
+	LONG $0x10fa8349         // cmp    r10, 16
+	LONG $0x24348844         // mov    byte [rsp], r14b
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	JB   LBB11_82
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x05e0c148         // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
+	WORD $0x3949; BYTE $0xc7 // cmp    r15, rax
+	JAE  LBB11_85
+	LONG $0x97048d4b         // lea    rax, [r15 + 4*r10]
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JAE  LBB11_85
+
+LBB11_82:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x0000010024848948 // mov    qword [rsp + 256], rax
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+
+LBB11_88:
+	QUAD $0x0000010024942b4c // sub    r10, qword [rsp + 256]
+	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
+
+LBB11_89:
+	LONG $0x1f723a44                           // cmp    r14b, byte [rdx + 31]
+	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
+	LONG $0x1e723a44                           // cmp    r14b, byte [rdx + 30]
+	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
+	LONG $0x1d723a44                           // cmp    r14b, byte [rdx + 29]
+	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
+	LONG $0x1c723a44                           // cmp    r14b, byte [rdx + 28]
+	LONG $0x24549d0f; BYTE $0x18               // setge    byte [rsp + 24]
+	LONG $0x1b723a44                           // cmp    r14b, byte [rdx + 27]
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	LONG $0x1a723a44                           // cmp    r14b, byte [rdx + 26]
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0x19723a44                           // cmp    r14b, byte [rdx + 25]
+	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
+	LONG $0x17723a44                           // cmp    r14b, byte [rdx + 23]
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0x16723a44                           // cmp    r14b, byte [rdx + 22]
+	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
+	LONG $0x15723a44                           // cmp    r14b, byte [rdx + 21]
+	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
+	LONG $0x14723a44                           // cmp    r14b, byte [rdx + 20]
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x13723a44                           // cmp    r14b, byte [rdx + 19]
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0x12723a44                           // cmp    r14b, byte [rdx + 18]
+	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
+	LONG $0x11723a44                           // cmp    r14b, byte [rdx + 17]
+	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
+	LONG $0x0f723a44                           // cmp    r14b, byte [rdx + 15]
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x0e723a44                           // cmp    r14b, byte [rdx + 14]
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	LONG $0x0d723a44                           // cmp    r14b, byte [rdx + 13]
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	LONG $0x0c723a44                           // cmp    r14b, byte [rdx + 12]
+	LONG $0xd49d0f41                           // setge    r12b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x0b                   // cmp    al, byte [rdx + 11]
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x0a                   // cmp    al, byte [rdx + 10]
+	LONG $0xd69d0f41                           // setge    r14b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
+	LONG $0xd69d0f40                           // setge    sil
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
+	LONG $0xd09d0f41                           // setge    r8b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
+	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x023a                               // cmp    al, byte [rdx]
+	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
+	LONG $0x2cb60f44; BYTE $0x24               // movzx    r13d, byte [rsp]
+	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
+	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	WORD $0xc000                               // add    al, al
+	LONG $0xd0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 208]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xc108                               // or    cl, al
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x04e0c041                           // shl    r8b, 4
+	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
+	LONG $0x05e1c041                           // shl    r9b, 5
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e6c040                           // shl    sil, 7
+	WORD $0x0840; BYTE $0xc6                   // or    sil, al
+	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
+	LONG $0x00758841                           // mov    byte [r13], sil
+	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
+	QUAD $0x000000e0249c0244                   // add    r11b, byte [rsp + 224]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xf7                   // or    r15b, r14b
+	LONG $0x04e4c041                           // shl    r12b, 4
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	LONG $0x34b60f44; BYTE $0x24               // movzx    r14d, byte [rsp]
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
+	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
+	LONG $0x01558845                           // mov    byte [r13 + 1], r10b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02458841                           // mov    byte [r13 + 2], al
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03458841                           // mov    byte [r13 + 3], al
+	LONG $0x20c28348                           // add    rdx, 32
+	LONG $0x04c58349                           // add    r13, 4
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB11_89
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	JMP  LBB11_91
+
+LBB11_27:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB11_139
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB11_201
+	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_33
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_31:
+	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
+	LONG $0xffd68040                           // adc    sil, -1
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
+	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB11_31
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB11_33:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB11_37
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+
+LBB11_35:
+	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
+	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
+	LONG $0x2414930f                           // setae    byte [rsp]
+	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
+	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
+	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
+	WORD $0x930f; BYTE $0xd3                   // setae    bl
+	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
+	LONG $0xd6930f40                           // setae    sil
+	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
+	LONG $0xd4930f41                           // setae    r12b
+	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
+	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
+	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
+	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
+	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000e024bc0244                   // add    r15b, byte [rsp + 224]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x000000a0248cb60f                   // movzx    ecx, byte [rsp + 160]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
+	JNE  LBB11_35
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
+
+LBB11_37:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB11_201
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB11_155
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB11_40
+
+LBB11_56:
+	WORD $0x8a44; BYTE $0x36 // mov    r14b, byte [rsi]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_60
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_58:
+	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
+	LONG $0x01528d48             // lea    rdx, [rdx + 1]
+	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
+	LONG $0xffd68040             // adc    sil, -1
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2040; BYTE $0xf3     // and    bl, sil
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB11_58
+	LONG $0x01c78349             // add    r15, 1
+
+LBB11_60:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB11_61
+	LONG $0x10fa8349         // cmp    r10, 16
+	LONG $0x24348844         // mov    byte [rsp], r14b
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000f82494894c // mov    qword [rsp + 248], r10
+	JB   LBB11_63
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x05e0c148         // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
+	WORD $0x3949; BYTE $0xc7 // cmp    r15, rax
+	JAE  LBB11_66
+	LONG $0x97048d4b         // lea    rax, [r15 + 4*r10]
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JAE  LBB11_66
+
+LBB11_63:
+	WORD $0xc031             // xor    eax, eax
+	QUAD $0x000000c024848948 // mov    qword [rsp + 192], rax
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+
+LBB11_69:
+	QUAD $0x000000c024942b4c // sub    r10, qword [rsp + 192]
+	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
+
+LBB11_70:
+	LONG $0x1f723a44                           // cmp    r14b, byte [rdx + 31]
+	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
+	LONG $0x1e723a44                           // cmp    r14b, byte [rdx + 30]
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	LONG $0x1d723a44                           // cmp    r14b, byte [rdx + 29]
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	LONG $0x1c723a44                           // cmp    r14b, byte [rdx + 28]
+	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
+	LONG $0x1b723a44                           // cmp    r14b, byte [rdx + 27]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0x1a723a44                           // cmp    r14b, byte [rdx + 26]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x19723a44                           // cmp    r14b, byte [rdx + 25]
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	LONG $0x17723a44                           // cmp    r14b, byte [rdx + 23]
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0x16723a44                           // cmp    r14b, byte [rdx + 22]
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	LONG $0x15723a44                           // cmp    r14b, byte [rdx + 21]
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	LONG $0x14723a44                           // cmp    r14b, byte [rdx + 20]
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x13723a44                           // cmp    r14b, byte [rdx + 19]
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x12723a44                           // cmp    r14b, byte [rdx + 18]
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	LONG $0x11723a44                           // cmp    r14b, byte [rdx + 17]
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	LONG $0x0f723a44                           // cmp    r14b, byte [rdx + 15]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x0e723a44                           // cmp    r14b, byte [rdx + 14]
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0x0d723a44                           // cmp    r14b, byte [rdx + 13]
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x0c723a44                           // cmp    r14b, byte [rdx + 12]
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x0b                   // cmp    al, byte [rdx + 11]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x0a                   // cmp    al, byte [rdx + 10]
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x09                   // cmp    al, byte [rdx + 9]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x07                   // cmp    al, byte [rdx + 7]
+	LONG $0xd6930f40                           // setae    sil
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x06                   // cmp    al, byte [rdx + 6]
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x05                   // cmp    al, byte [rdx + 5]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x04                   // cmp    al, byte [rdx + 4]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x03                   // cmp    al, byte [rdx + 3]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x02                   // cmp    al, byte [rdx + 2]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x023a                               // cmp    al, byte [rdx]
+	QUAD $0x000000d02494930f                   // setae    byte [rsp + 208]
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0x423a; BYTE $0x01                   // cmp    al, byte [rdx + 1]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	WORD $0x894c; BYTE $0xeb                   // mov    rbx, r13
+	LONG $0x2cb60f44; BYTE $0x24               // movzx    r13d, byte [rsp]
+	LONG $0x086a3a44                           // cmp    r13b, byte [rdx + 8]
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	QUAD $0x000000e02494930f                   // setae    byte [rsp + 224]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5a3a; BYTE $0x10                   // cmp    bl, byte [rdx + 16]
+	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
+	LONG $0x241cb60f                           // movzx    ebx, byte [rsp]
+	WORD $0x5a3a; BYTE $0x18                   // cmp    bl, byte [rdx + 24]
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	WORD $0xc000                               // add    al, al
+	LONG $0xd0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 208]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xc108                               // or    cl, al
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xcf                   // or    dil, cl
+	LONG $0x04e0c041                           // shl    r8b, 4
+	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
+	LONG $0x05e1c041                           // shl    r9b, 5
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e6c040                           // shl    sil, 7
+	WORD $0x0840; BYTE $0xc6                   // or    sil, al
+	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
+	LONG $0x00758841                           // mov    byte [r13], sil
+	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
+	QUAD $0x000000e0249c0244                   // add    r11b, byte [rsp + 224]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xf7                   // or    r15b, r14b
+	LONG $0x04e4c041                           // shl    r12b, 4
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xe0                   // or    al, r12b
+	LONG $0x34b60f44; BYTE $0x24               // movzx    r14d, byte [rsp]
+	LONG $0x244cb60f; BYTE $0x70               // movzx    ecx, byte [rsp + 112]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0841; BYTE $0xca                   // or    r10b, cl
+	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
+	LONG $0x01558845                           // mov    byte [r13 + 1], r10b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x48               // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02458841                           // mov    byte [r13 + 2], al
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0xa0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 160]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x78               // movzx    eax, byte [rsp + 120]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03458841                           // mov    byte [r13 + 3], al
+	LONG $0x20c28348                           // add    rdx, 32
+	LONG $0x04c58349                           // add    r13, 4
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB11_70
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	JMP  LBB11_72
+
+LBB11_139:
+	WORD $0x8b44; BYTE $0x36 // mov    r14d, dword [rsi]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_143
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_141:
+	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
+	LONG $0x04528d48                           // lea    rdx, [rdx + 4]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB11_141
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB11_143:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB11_147
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+
+LBB11_145:
+	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
+	LONG $0x7c723b44                           // cmp    r14d, dword [rdx + 124]
+	LONG $0x24149d0f                           // setge    byte [rsp]
+	LONG $0x78723b44                           // cmp    r14d, dword [rdx + 120]
+	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
+	LONG $0x74723b44                           // cmp    r14d, dword [rdx + 116]
+	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
+	LONG $0x70723b44                           // cmp    r14d, dword [rdx + 112]
+	LONG $0x24549d0f; BYTE $0x18               // setge    byte [rsp + 24]
+	LONG $0x6c723b44                           // cmp    r14d, dword [rdx + 108]
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	LONG $0x68723b44                           // cmp    r14d, dword [rdx + 104]
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0x64723b44                           // cmp    r14d, dword [rdx + 100]
+	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
+	LONG $0x5c723b44                           // cmp    r14d, dword [rdx + 92]
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0x58723b44                           // cmp    r14d, dword [rdx + 88]
+	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
+	LONG $0x54723b44                           // cmp    r14d, dword [rdx + 84]
+	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
+	LONG $0x50723b44                           // cmp    r14d, dword [rdx + 80]
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x4c723b44                           // cmp    r14d, dword [rdx + 76]
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0x48723b44                           // cmp    r14d, dword [rdx + 72]
+	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
+	LONG $0x44723b44                           // cmp    r14d, dword [rdx + 68]
+	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
+	LONG $0x3c723b44                           // cmp    r14d, dword [rdx + 60]
+	LONG $0xd09d0f41                           // setge    r8b
+	LONG $0x38723b44                           // cmp    r14d, dword [rdx + 56]
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	LONG $0x34723b44                           // cmp    r14d, dword [rdx + 52]
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	LONG $0x30723b44                           // cmp    r14d, dword [rdx + 48]
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x2c723b44                           // cmp    r14d, dword [rdx + 44]
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x28723b44                           // cmp    r14d, dword [rdx + 40]
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x24723b44                           // cmp    r14d, dword [rdx + 36]
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x1c723b44                           // cmp    r14d, dword [rdx + 28]
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	LONG $0x18723b44                           // cmp    r14d, dword [rdx + 24]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	LONG $0x14723b44                           // cmp    r14d, dword [rdx + 20]
+	LONG $0xd69d0f40                           // setge    sil
+	LONG $0x10723b44                           // cmp    r14d, dword [rdx + 16]
+	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
+	LONG $0x0c723b44                           // cmp    r14d, dword [rdx + 12]
+	LONG $0xd59d0f41                           // setge    r13b
+	LONG $0x08723b44                           // cmp    r14d, dword [rdx + 8]
+	LONG $0xd49d0f41                           // setge    r12b
+	WORD $0x3b44; BYTE $0x32                   // cmp    r14d, dword [rdx]
+	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
+	LONG $0x04723b44                           // cmp    r14d, dword [rdx + 4]
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x20723b44                           // cmp    r14d, dword [rdx + 32]
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0x40723b44                           // cmp    r14d, dword [rdx + 64]
+	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
+	LONG $0x60723b44                           // cmp    r14d, dword [rdx + 96]
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000e024bc0244                   // add    r15b, byte [rsp + 224]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x000000a0248cb60f                   // movzx    ecx, byte [rsp + 160]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x80ea8348                           // sub    rdx, -128
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
+	JNE  LBB11_145
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
+
+LBB11_147:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB11_201
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB11_153
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB11_150
+
+LBB11_99:
+	LONG $0x36b70f44         // movzx    r14d, word [rsi]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_103
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_101:
+	LONG $0x323b4466                           // cmp    r14w, word [rdx]
+	LONG $0x02528d48                           // lea    rdx, [rdx + 2]
+	LONG $0x000000be; BYTE $0x00               // mov    esi, 0
+	LONG $0xffd68040                           // adc    sil, -1
+	LONG $0x07588d48                           // lea    rbx, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xd8490f48                           // cmovns    rbx, rax
+	LONG $0x03fbc148                           // sar    rbx, 3
+	LONG $0x04b60f45; BYTE $0x1f               // movzx    r8d, byte [r15 + rbx]
+	WORD $0x3044; BYTE $0xc6                   // xor    sil, r8b
+	LONG $0x00dd3c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rbx]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xf7                   // and    dil, sil
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x1f3c8841                           // mov    byte [r15 + rbx], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB11_101
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB11_103:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB11_107
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+
+LBB11_105:
+	LONG $0x247c894c; BYTE $0x78         // mov    qword [rsp + 120], r15
+	LONG $0x723b4466; BYTE $0x3e         // cmp    r14w, word [rdx + 62]
+	LONG $0x2414930f                     // setae    byte [rsp]
+	LONG $0x723b4466; BYTE $0x3c         // cmp    r14w, word [rdx + 60]
+	LONG $0x2454930f; BYTE $0x10         // setae    byte [rsp + 16]
+	LONG $0x723b4466; BYTE $0x3a         // cmp    r14w, word [rdx + 58]
+	LONG $0x2454930f; BYTE $0x08         // setae    byte [rsp + 8]
+	LONG $0x723b4466; BYTE $0x38         // cmp    r14w, word [rdx + 56]
+	LONG $0x2454930f; BYTE $0x18         // setae    byte [rsp + 24]
+	LONG $0x723b4466; BYTE $0x36         // cmp    r14w, word [rdx + 54]
+	LONG $0x2454930f; BYTE $0x28         // setae    byte [rsp + 40]
+	LONG $0x723b4466; BYTE $0x34         // cmp    r14w, word [rdx + 52]
+	LONG $0x2454930f; BYTE $0x38         // setae    byte [rsp + 56]
+	LONG $0x723b4466; BYTE $0x32         // cmp    r14w, word [rdx + 50]
+	LONG $0x2454930f; BYTE $0x30         // setae    byte [rsp + 48]
+	LONG $0x723b4466; BYTE $0x2e         // cmp    r14w, word [rdx + 46]
+	LONG $0x2454930f; BYTE $0x48         // setae    byte [rsp + 72]
+	LONG $0x723b4466; BYTE $0x2c         // cmp    r14w, word [rdx + 44]
+	LONG $0x2454930f; BYTE $0x40         // setae    byte [rsp + 64]
+	LONG $0x723b4466; BYTE $0x2a         // cmp    r14w, word [rdx + 42]
+	LONG $0x2454930f; BYTE $0x50         // setae    byte [rsp + 80]
+	LONG $0x723b4466; BYTE $0x28         // cmp    r14w, word [rdx + 40]
+	LONG $0x2454930f; BYTE $0x58         // setae    byte [rsp + 88]
+	LONG $0x723b4466; BYTE $0x26         // cmp    r14w, word [rdx + 38]
+	LONG $0x2454930f; BYTE $0x68         // setae    byte [rsp + 104]
+	LONG $0x723b4466; BYTE $0x24         // cmp    r14w, word [rdx + 36]
+	QUAD $0x000000902494930f             // setae    byte [rsp + 144]
+	LONG $0x723b4466; BYTE $0x22         // cmp    r14w, word [rdx + 34]
+	QUAD $0x000000a02494930f             // setae    byte [rsp + 160]
+	LONG $0x723b4466; BYTE $0x1e         // cmp    r14w, word [rdx + 30]
+	LONG $0xd0930f41                     // setae    r8b
+	LONG $0x723b4466; BYTE $0x1c         // cmp    r14w, word [rdx + 28]
+	LONG $0x2454930f; BYTE $0x70         // setae    byte [rsp + 112]
+	LONG $0x723b4466; BYTE $0x1a         // cmp    r14w, word [rdx + 26]
+	QUAD $0x000000b02494930f             // setae    byte [rsp + 176]
+	LONG $0x723b4466; BYTE $0x18         // cmp    r14w, word [rdx + 24]
+	LONG $0xd3930f41                     // setae    r11b
+	LONG $0x723b4466; BYTE $0x16         // cmp    r14w, word [rdx + 22]
+	LONG $0xd2930f41                     // setae    r10b
+	LONG $0x723b4466; BYTE $0x14         // cmp    r14w, word [rdx + 20]
+	LONG $0xd1930f41                     // setae    r9b
+	LONG $0x723b4466; BYTE $0x12         // cmp    r14w, word [rdx + 18]
+	LONG $0xd7930f40                     // setae    dil
+	LONG $0x723b4466; BYTE $0x0e         // cmp    r14w, word [rdx + 14]
+	WORD $0x930f; BYTE $0xd0             // setae    al
+	LONG $0x723b4466; BYTE $0x0c         // cmp    r14w, word [rdx + 12]
+	WORD $0x930f; BYTE $0xd3             // setae    bl
+	LONG $0x723b4466; BYTE $0x0a         // cmp    r14w, word [rdx + 10]
+	LONG $0xd6930f40                     // setae    sil
+	LONG $0x723b4466; BYTE $0x08         // cmp    r14w, word [rdx + 8]
+	WORD $0x930f; BYTE $0xd1             // setae    cl
+	LONG $0x723b4466; BYTE $0x06         // cmp    r14w, word [rdx + 6]
+	LONG $0xd5930f41                     // setae    r13b
+	LONG $0x723b4466; BYTE $0x04         // cmp    r14w, word [rdx + 4]
+	LONG $0xd4930f41                     // setae    r12b
+	LONG $0x323b4466                     // cmp    r14w, word [rdx]
+	QUAD $0x000000e02494930f             // setae    byte [rsp + 224]
+	LONG $0x723b4466; BYTE $0x02         // cmp    r14w, word [rdx + 2]
+	LONG $0xd7930f41                     // setae    r15b
+	LONG $0x723b4466; BYTE $0x10         // cmp    r14w, word [rdx + 16]
+	QUAD $0x000000802494930f             // setae    byte [rsp + 128]
+	LONG $0x723b4466; BYTE $0x20         // cmp    r14w, word [rdx + 32]
+	LONG $0x2454930f; BYTE $0x60         // setae    byte [rsp + 96]
+	LONG $0x723b4466; BYTE $0x30         // cmp    r14w, word [rdx + 48]
+	LONG $0x2454930f; BYTE $0x20         // setae    byte [rsp + 32]
+	WORD $0x0045; BYTE $0xff             // add    r15b, r15b
+	QUAD $0x000000e024bc0244             // add    r15b, byte [rsp + 224]
+	LONG $0x02e4c041                     // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc             // or    r12b, r15b
+	LONG $0x247c8b4c; BYTE $0x78         // mov    r15, qword [rsp + 120]
+	LONG $0x03e5c041                     // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5             // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04             // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9             // or    cl, r13b
+	LONG $0x05e6c040                     // shl    sil, 5
+	WORD $0x0840; BYTE $0xce             // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
+	WORD $0xd808                         // or    al, bl
+	WORD $0x0840; BYTE $0xf0             // or    al, sil
+	WORD $0x8841; BYTE $0x07             // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff             // add    dil, dil
+	QUAD $0x0000008024bc0240             // add    dil, byte [rsp + 128]
+	LONG $0x02e1c041                     // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9             // or    r9b, dil
+	LONG $0x03e2c041                     // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca             // or    r10b, r9b
+	LONG $0x04e3c041                     // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3             // or    r11b, r10b
+	QUAD $0x000000b02484b60f             // movzx    eax, byte [rsp + 176]
+	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
+	WORD $0x0844; BYTE $0xd8             // or    al, r11b
+	LONG $0x244cb60f; BYTE $0x70         // movzx    ecx, byte [rsp + 112]
+	WORD $0xe1c0; BYTE $0x06             // shl    cl, 6
+	LONG $0x07e0c041                     // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8             // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0             // or    r8b, al
+	LONG $0x01478845                     // mov    byte [r15 + 1], r8b
+	QUAD $0x000000a02484b60f             // movzx    eax, byte [rsp + 160]
+	WORD $0xc000                         // add    al, al
+	LONG $0x60244402                     // add    al, byte [rsp + 96]
+	WORD $0xc189                         // mov    ecx, eax
+	QUAD $0x000000902484b60f             // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
+	WORD $0xc808                         // or    al, cl
+	WORD $0xc189                         // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x68         // movzx    eax, byte [rsp + 104]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0xc808                         // or    al, cl
+	WORD $0xc189                         // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58         // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
+	WORD $0xc808                         // or    al, cl
+	WORD $0xc189                         // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50         // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
+	WORD $0xc808                         // or    al, cl
+	WORD $0xc189                         // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x40         // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x48         // movzx    eax, byte [rsp + 72]
+	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
+	WORD $0xd808                         // or    al, bl
+	WORD $0xc808                         // or    al, cl
+	LONG $0x02478841                     // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x30         // movzx    eax, byte [rsp + 48]
+	WORD $0xc000                         // add    al, al
+	LONG $0x20244402                     // add    al, byte [rsp + 32]
+	WORD $0xc189                         // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x38         // movzx    eax, byte [rsp + 56]
+	WORD $0xe0c0; BYTE $0x02             // shl    al, 2
+	WORD $0xc808                         // or    al, cl
+	WORD $0xc189                         // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28         // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03             // shl    al, 3
+	WORD $0xc808                         // or    al, cl
+	WORD $0xc189                         // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18         // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04             // shl    al, 4
+	WORD $0xc808                         // or    al, cl
+	WORD $0xc189                         // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08         // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x05             // shl    al, 5
+	WORD $0xc808                         // or    al, cl
+	WORD $0xc189                         // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x10         // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06             // shl    bl, 6
+	LONG $0x2404b60f                     // movzx    eax, byte [rsp]
+	WORD $0xe0c0; BYTE $0x07             // shl    al, 7
+	WORD $0xd808                         // or    al, bl
+	WORD $0xc808                         // or    al, cl
+	LONG $0x03478841                     // mov    byte [r15 + 3], al
+	LONG $0x40c28348                     // add    rdx, 64
+	LONG $0x04c78349                     // add    r15, 4
+	QUAD $0x000000d024848348; BYTE $0xff // add    qword [rsp + 208], -1
+	JNE  LBB11_105
+	QUAD $0x00000088249c8b4c             // mov    r11, qword [rsp + 136]
+	QUAD $0x000000c024948b4c             // mov    r10, qword [rsp + 192]
+
+LBB11_107:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB11_201
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB11_112
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB11_110
+
+LBB11_114:
+	LONG $0x36b70f44         // movzx    r14d, word [rsi]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_118
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_116:
+	LONG $0x323b4466             // cmp    r14w, word [rdx]
+	LONG $0x02528d48             // lea    rdx, [rdx + 2]
+	WORD $0x9d0f; BYTE $0xd3     // setge    bl
+	WORD $0xdbf6                 // neg    bl
+	LONG $0x07708d48             // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf0490f48             // cmovns    rsi, rax
+	LONG $0x03fec148             // sar    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	QUAD $0x00000000f5048d44     // lea    r8d, [8*rsi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bf; BYTE $0x00 // mov    edi, 1
+	WORD $0xe7d3                 // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf     // and    dil, bl
+	WORD $0x3044; BYTE $0xcf     // xor    dil, r9b
+	LONG $0x373c8841             // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB11_116
+	LONG $0x01c78349             // add    r15, 1
+
+LBB11_118:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB11_119
+	LONG $0x08fa8349         // cmp    r10, 8
+	LONG $0x24348944         // mov    dword [rsp], r14d
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000001002494894c // mov    qword [rsp + 256], r10
+	JB   LBB11_121
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x06e0c148         // shl    rax, 6
+	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
+	WORD $0x3949; BYTE $0xc7 // cmp    r15, rax
+	JAE  LBB11_124
+	LONG $0x97048d4b         // lea    rax, [r15 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB11_124
+
+LBB11_121:
+	WORD $0xc031                 // xor    eax, eax
+	LONG $0x24448948; BYTE $0x20 // mov    qword [rsp + 32], rax
+	WORD $0x8948; BYTE $0xd0     // mov    rax, rdx
+	WORD $0x894d; BYTE $0xfc     // mov    r12, r15
+
+LBB11_127:
+	LONG $0x24542b4c; BYTE $0x20 // sub    r10, qword [rsp + 32]
+	QUAD $0x000000c02494894c     // mov    qword [rsp + 192], r10
+
+LBB11_128:
+	LONG $0x703b4466; BYTE $0x3e               // cmp    r14w, word [rax + 62]
+	LONG $0x24549d0f; BYTE $0x78               // setge    byte [rsp + 120]
+	LONG $0x703b4466; BYTE $0x3c               // cmp    r14w, word [rax + 60]
+	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
+	LONG $0x703b4466; BYTE $0x3a               // cmp    r14w, word [rax + 58]
+	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
+	LONG $0x703b4466; BYTE $0x38               // cmp    r14w, word [rax + 56]
+	LONG $0x24549d0f; BYTE $0x18               // setge    byte [rsp + 24]
+	LONG $0x703b4466; BYTE $0x36               // cmp    r14w, word [rax + 54]
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	LONG $0x703b4466; BYTE $0x34               // cmp    r14w, word [rax + 52]
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0x703b4466; BYTE $0x32               // cmp    r14w, word [rax + 50]
+	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
+	LONG $0x703b4466; BYTE $0x2e               // cmp    r14w, word [rax + 46]
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0x703b4466; BYTE $0x2c               // cmp    r14w, word [rax + 44]
+	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
+	LONG $0x703b4466; BYTE $0x2a               // cmp    r14w, word [rax + 42]
+	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
+	LONG $0x703b4466; BYTE $0x28               // cmp    r14w, word [rax + 40]
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x703b4466; BYTE $0x26               // cmp    r14w, word [rax + 38]
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0x703b4466; BYTE $0x24               // cmp    r14w, word [rax + 36]
+	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
+	LONG $0x703b4466; BYTE $0x22               // cmp    r14w, word [rax + 34]
+	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
+	LONG $0x703b4466; BYTE $0x1e               // cmp    r14w, word [rax + 30]
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x703b4466; BYTE $0x1c               // cmp    r14w, word [rax + 28]
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	LONG $0x703b4466; BYTE $0x1a               // cmp    r14w, word [rax + 26]
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	LONG $0x703b4466; BYTE $0x18               // cmp    r14w, word [rax + 24]
+	LONG $0xd59d0f41                           // setge    r13b
+	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
+	LONG $0x16413b66                           // cmp    ax, word [rcx + 22]
+	LONG $0xd79d0f41                           // setge    r15b
+	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
+	LONG $0x14413b66                           // cmp    ax, word [rcx + 20]
+	LONG $0xd69d0f41                           // setge    r14b
+	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
+	LONG $0x12413b66                           // cmp    ax, word [rcx + 18]
+	LONG $0xd39d0f41                           // setge    r11b
+	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
+	LONG $0x0e413b66                           // cmp    ax, word [rcx + 14]
+	LONG $0xd69d0f40                           // setge    sil
+	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
+	LONG $0x0c413b66                           // cmp    ax, word [rcx + 12]
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
+	LONG $0x0a413b66                           // cmp    ax, word [rcx + 10]
+	LONG $0xd19d0f41                           // setge    r9b
+	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
+	LONG $0x08413b66                           // cmp    ax, word [rcx + 8]
+	LONG $0xd09d0f41                           // setge    r8b
+	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
+	LONG $0x06413b66                           // cmp    ax, word [rcx + 6]
+	LONG $0xd79d0f40                           // setge    dil
+	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
+	LONG $0x04413b66                           // cmp    ax, word [rcx + 4]
+	WORD $0x9d0f; BYTE $0xd2                   // setge    dl
+	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
+	WORD $0x3b66; BYTE $0x01                   // cmp    ax, word [rcx]
+	QUAD $0x000000d024949d0f                   // setge    byte [rsp + 208]
+	WORD $0x048b; BYTE $0x24                   // mov    eax, dword [rsp]
+	LONG $0x02413b66                           // cmp    ax, word [rcx + 2]
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	WORD $0x894c; BYTE $0xe3                   // mov    rbx, r12
+	LONG $0x24248b44                           // mov    r12d, dword [rsp]
+	LONG $0x613b4466; BYTE $0x10               // cmp    r12w, word [rcx + 16]
+	WORD $0x8949; BYTE $0xdc                   // mov    r12, rbx
+	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
+	WORD $0x1c8b; BYTE $0x24                   // mov    ebx, dword [rsp]
+	LONG $0x20593b66                           // cmp    bx, word [rcx + 32]
+	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
+	WORD $0x1c8b; BYTE $0x24                   // mov    ebx, dword [rsp]
+	LONG $0x30593b66                           // cmp    bx, word [rcx + 48]
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	WORD $0xc000                               // add    al, al
+	LONG $0xd0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 208]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	LONG $0x03e7c040                           // shl    dil, 3
+	WORD $0x0840; BYTE $0xd7                   // or    dil, dl
+	LONG $0x04e0c041                           // shl    r8b, 4
+	WORD $0x0841; BYTE $0xf8                   // or    r8b, dil
+	LONG $0x05e1c041                           // shl    r9b, 5
+	WORD $0x0845; BYTE $0xc1                   // or    r9b, r8b
+	QUAD $0x000000802484b60f                   // movzx    eax, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e6c040                           // shl    sil, 7
+	WORD $0x0840; BYTE $0xc6                   // or    sil, al
+	WORD $0x0844; BYTE $0xce                   // or    sil, r9b
+	LONG $0x24348841                           // mov    byte [r12], sil
+	WORD $0x0045; BYTE $0xdb                   // add    r11b, r11b
+	QUAD $0x000000e0249c0244                   // add    r11b, byte [rsp + 224]
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xde                   // or    r14b, r11b
+	LONG $0x03e7c041                           // shl    r15b, 3
+	WORD $0x0845; BYTE $0xf7                   // or    r15b, r14b
+	LONG $0x04e5c041                           // shl    r13b, 4
+	WORD $0x0845; BYTE $0xfd                   // or    r13b, r15b
+	QUAD $0x000000902484b60f                   // movzx    eax, byte [rsp + 144]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xe8                   // or    al, r13b
+	LONG $0x24348b44                           // mov    r14d, dword [rsp]
+	LONG $0x2454b60f; BYTE $0x70               // movzx    edx, byte [rsp + 112]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	LONG $0x07e2c041                           // shl    r10b, 7
+	WORD $0x0841; BYTE $0xd2                   // or    r10b, dl
+	WORD $0x0841; BYTE $0xc2                   // or    r10b, al
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	LONG $0x24548845; BYTE $0x01               // mov    byte [r12 + 1], r10b
+	LONG $0x244cb60f; BYTE $0x68               // movzx    ecx, byte [rsp + 104]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0xb0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 176]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x58               // movzx    ecx, byte [rsp + 88]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x60               // movzx    ecx, byte [rsp + 96]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x50               // movzx    ecx, byte [rsp + 80]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x48               // movzx    ecx, byte [rsp + 72]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x245cb60f; BYTE $0x40               // movzx    ebx, byte [rsp + 64]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x244cb60f; BYTE $0x30               // movzx    ecx, byte [rsp + 48]
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x244c8841; BYTE $0x02               // mov    byte [r12 + 2], cl
+	LONG $0x244cb60f; BYTE $0x38               // movzx    ecx, byte [rsp + 56]
+	WORD $0xc900                               // add    cl, cl
+	LONG $0xa0248c02; WORD $0x0000; BYTE $0x00 // add    cl, byte [rsp + 160]
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x20               // movzx    ecx, byte [rsp + 32]
+	WORD $0xe1c0; BYTE $0x02                   // shl    cl, 2
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x28               // movzx    ecx, byte [rsp + 40]
+	WORD $0xe1c0; BYTE $0x03                   // shl    cl, 3
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x18               // movzx    ecx, byte [rsp + 24]
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x244cb60f; BYTE $0x10               // movzx    ecx, byte [rsp + 16]
+	WORD $0xe1c0; BYTE $0x05                   // shl    cl, 5
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xca89                               // mov    edx, ecx
+	LONG $0x245cb60f; BYTE $0x08               // movzx    ebx, byte [rsp + 8]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x244cb60f; BYTE $0x78               // movzx    ecx, byte [rsp + 120]
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd908                               // or    cl, bl
+	WORD $0xd108                               // or    cl, dl
+	LONG $0x244c8841; BYTE $0x03               // mov    byte [r12 + 3], cl
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x04c48349                           // add    r12, 4
+	QUAD $0x000000c024848348; BYTE $0xff       // add    qword [rsp + 192], -1
+	JNE  LBB11_128
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
+	JMP  LBB11_130
+
+LBB11_157:
+	WORD $0x8b4c; BYTE $0x36 // mov    r14, qword [rsi]
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_161
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_159:
+	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
+	LONG $0x08528d48                           // lea    rdx, [rdx + 8]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	WORD $0xdbf6                               // neg    bl
+	LONG $0x07708d48                           // lea    rsi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0                   // test    rax, rax
+	LONG $0xf0490f48                           // cmovns    rsi, rax
+	LONG $0x03fec148                           // sar    rsi, 3
+	LONG $0x04b60f45; BYTE $0x37               // movzx    r8d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xc3                   // xor    bl, r8b
+	LONG $0x00f53c8d; WORD $0x0000; BYTE $0x00 // lea    edi, [8*rsi]
+	WORD $0xc189                               // mov    ecx, eax
+	WORD $0xf929                               // sub    ecx, edi
+	LONG $0x000001bf; BYTE $0x00               // mov    edi, 1
+	WORD $0xe7d3                               // shl    edi, cl
+	WORD $0x2040; BYTE $0xdf                   // and    dil, bl
+	WORD $0x3044; BYTE $0xc7                   // xor    dil, r8b
+	LONG $0x373c8841                           // mov    byte [r15 + rsi], dil
+	LONG $0x01c08348                           // add    rax, 1
+	LONG $0x08f88348                           // cmp    rax, 8
+	JNE  LBB11_159
+	LONG $0x01c78349                           // add    r15, 1
+
+LBB11_161:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB11_165
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000c02494894c // mov    qword [rsp + 192], r10
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+
+LBB11_163:
+	LONG $0x247c894c; BYTE $0x78               // mov    qword [rsp + 120], r15
+	LONG $0xf8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 248]
+	LONG $0x24149d0f                           // setge    byte [rsp]
+	LONG $0xf0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 240]
+	LONG $0x24549d0f; BYTE $0x10               // setge    byte [rsp + 16]
+	LONG $0xe8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 232]
+	LONG $0x24549d0f; BYTE $0x08               // setge    byte [rsp + 8]
+	LONG $0xe0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 224]
+	LONG $0x24549d0f; BYTE $0x18               // setge    byte [rsp + 24]
+	LONG $0xd8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 216]
+	LONG $0x24549d0f; BYTE $0x28               // setge    byte [rsp + 40]
+	LONG $0xd0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 208]
+	LONG $0x24549d0f; BYTE $0x20               // setge    byte [rsp + 32]
+	LONG $0xc8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 200]
+	LONG $0x24549d0f; BYTE $0x38               // setge    byte [rsp + 56]
+	LONG $0xb8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 184]
+	LONG $0x24549d0f; BYTE $0x30               // setge    byte [rsp + 48]
+	LONG $0xb0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 176]
+	LONG $0x24549d0f; BYTE $0x48               // setge    byte [rsp + 72]
+	LONG $0xa8b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 168]
+	LONG $0x24549d0f; BYTE $0x40               // setge    byte [rsp + 64]
+	LONG $0xa0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 160]
+	LONG $0x24549d0f; BYTE $0x50               // setge    byte [rsp + 80]
+	LONG $0x98b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 152]
+	LONG $0x24549d0f; BYTE $0x60               // setge    byte [rsp + 96]
+	LONG $0x90b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 144]
+	LONG $0x24549d0f; BYTE $0x58               // setge    byte [rsp + 88]
+	LONG $0x88b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 136]
+	LONG $0x24549d0f; BYTE $0x68               // setge    byte [rsp + 104]
+	LONG $0x78723b4c                           // cmp    r14, qword [rdx + 120]
+	LONG $0xd09d0f41                           // setge    r8b
+	LONG $0x70723b4c                           // cmp    r14, qword [rdx + 112]
+	QUAD $0x000000a024949d0f                   // setge    byte [rsp + 160]
+	LONG $0x68723b4c                           // cmp    r14, qword [rdx + 104]
+	LONG $0x24549d0f; BYTE $0x70               // setge    byte [rsp + 112]
+	LONG $0x60723b4c                           // cmp    r14, qword [rdx + 96]
+	LONG $0xd39d0f41                           // setge    r11b
+	LONG $0x58723b4c                           // cmp    r14, qword [rdx + 88]
+	LONG $0xd29d0f41                           // setge    r10b
+	LONG $0x50723b4c                           // cmp    r14, qword [rdx + 80]
+	LONG $0xd19d0f41                           // setge    r9b
+	LONG $0x48723b4c                           // cmp    r14, qword [rdx + 72]
+	LONG $0xd79d0f40                           // setge    dil
+	LONG $0x38723b4c                           // cmp    r14, qword [rdx + 56]
+	WORD $0x9d0f; BYTE $0xd0                   // setge    al
+	LONG $0x30723b4c                           // cmp    r14, qword [rdx + 48]
+	WORD $0x9d0f; BYTE $0xd3                   // setge    bl
+	LONG $0x28723b4c                           // cmp    r14, qword [rdx + 40]
+	LONG $0xd69d0f40                           // setge    sil
+	LONG $0x20723b4c                           // cmp    r14, qword [rdx + 32]
+	WORD $0x9d0f; BYTE $0xd1                   // setge    cl
+	LONG $0x18723b4c                           // cmp    r14, qword [rdx + 24]
+	LONG $0xd59d0f41                           // setge    r13b
+	LONG $0x10723b4c                           // cmp    r14, qword [rdx + 16]
+	LONG $0xd49d0f41                           // setge    r12b
+	WORD $0x3b4c; BYTE $0x32                   // cmp    r14, qword [rdx]
+	QUAD $0x000000e024949d0f                   // setge    byte [rsp + 224]
+	LONG $0x08723b4c                           // cmp    r14, qword [rdx + 8]
+	LONG $0xd79d0f41                           // setge    r15b
+	LONG $0x40723b4c                           // cmp    r14, qword [rdx + 64]
+	QUAD $0x0000008024949d0f                   // setge    byte [rsp + 128]
+	LONG $0x80b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 128]
+	QUAD $0x000000b024949d0f                   // setge    byte [rsp + 176]
+	LONG $0xc0b23b4c; WORD $0x0000; BYTE $0x00 // cmp    r14, qword [rdx + 192]
+	QUAD $0x0000009024949d0f                   // setge    byte [rsp + 144]
+	WORD $0x0045; BYTE $0xff                   // add    r15b, r15b
+	QUAD $0x000000e024bc0244                   // add    r15b, byte [rsp + 224]
+	LONG $0x02e4c041                           // shl    r12b, 2
+	WORD $0x0845; BYTE $0xfc                   // or    r12b, r15b
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xe5                   // or    r13b, r12b
+	WORD $0xe1c0; BYTE $0x04                   // shl    cl, 4
+	WORD $0x0844; BYTE $0xe9                   // or    cl, r13b
+	LONG $0x05e6c040                           // shl    sil, 5
+	WORD $0x0840; BYTE $0xce                   // or    sil, cl
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0x0840; BYTE $0xf0                   // or    al, sil
+	WORD $0x8841; BYTE $0x07                   // mov    byte [r15], al
+	WORD $0x0040; BYTE $0xff                   // add    dil, dil
+	QUAD $0x0000008024bc0240                   // add    dil, byte [rsp + 128]
+	LONG $0x02e1c041                           // shl    r9b, 2
+	WORD $0x0841; BYTE $0xf9                   // or    r9b, dil
+	LONG $0x03e2c041                           // shl    r10b, 3
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x04e3c041                           // shl    r11b, 4
+	WORD $0x0845; BYTE $0xd3                   // or    r11b, r10b
+	LONG $0x2444b60f; BYTE $0x70               // movzx    eax, byte [rsp + 112]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0x0844; BYTE $0xd8                   // or    al, r11b
+	QUAD $0x000000a0248cb60f                   // movzx    ecx, byte [rsp + 160]
+	WORD $0xe1c0; BYTE $0x06                   // shl    cl, 6
+	LONG $0x07e0c041                           // shl    r8b, 7
+	WORD $0x0841; BYTE $0xc8                   // or    r8b, cl
+	WORD $0x0841; BYTE $0xc0                   // or    r8b, al
+	LONG $0x01478845                           // mov    byte [r15 + 1], r8b
+	LONG $0x2444b60f; BYTE $0x68               // movzx    eax, byte [rsp + 104]
+	WORD $0xc000                               // add    al, al
+	LONG $0xb0248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 176]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x58               // movzx    eax, byte [rsp + 88]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x60               // movzx    eax, byte [rsp + 96]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x50               // movzx    eax, byte [rsp + 80]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x40               // movzx    eax, byte [rsp + 64]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x48               // movzx    ebx, byte [rsp + 72]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2444b60f; BYTE $0x30               // movzx    eax, byte [rsp + 48]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x02478841                           // mov    byte [r15 + 2], al
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x90248402; WORD $0x0000; BYTE $0x00 // add    al, byte [rsp + 144]
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x18               // movzx    eax, byte [rsp + 24]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xc808                               // or    al, cl
+	WORD $0xc189                               // mov    ecx, eax
+	LONG $0x245cb60f; BYTE $0x10               // movzx    ebx, byte [rsp + 16]
+	WORD $0xe3c0; BYTE $0x06                   // shl    bl, 6
+	LONG $0x2404b60f                           // movzx    eax, byte [rsp]
+	WORD $0xe0c0; BYTE $0x07                   // shl    al, 7
+	WORD $0xd808                               // or    al, bl
+	WORD $0xc808                               // or    al, cl
+	LONG $0x03478841                           // mov    byte [r15 + 3], al
+	LONG $0x00c28148; WORD $0x0001; BYTE $0x00 // add    rdx, 256
+	LONG $0x04c78349                           // add    r15, 4
+	QUAD $0x000000d024848348; BYTE $0xff       // add    qword [rsp + 208], -1
+	JNE  LBB11_163
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000c024948b4c                   // mov    r10, qword [rsp + 192]
+
+LBB11_165:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB11_201
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB11_170
+	WORD $0xff31             // xor    edi, edi
+	JMP  LBB11_168
+
+LBB11_172:
+	LONG $0x1f538d4d         // lea    r10, [r11 + 31]
+	WORD $0x854d; BYTE $0xdb // test    r11, r11
+	LONG $0xd3490f4d         // cmovns    r10, r11
+	LONG $0x07418d41         // lea    eax, [r9 + 7]
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	LONG $0xc1490f41         // cmovns    eax, r9d
+	WORD $0xe083; BYTE $0xf8 // and    eax, -8
+	LONG $0x06100ff3         // movss    xmm0, dword [rsi]
+	WORD $0x2941; BYTE $0xc1 // sub    r9d, eax
+	JE   LBB11_176
+	WORD $0x6349; BYTE $0xc1 // movsxd    rax, r9d
+
+LBB11_174:
+	WORD $0x2e0f; BYTE $0x02     // ucomiss    xmm0, dword [rdx]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
+	LONG $0xffd68040             // adc    sil, -1
+	LONG $0x07788d48             // lea    rdi, [rax + 7]
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	LONG $0xf8490f48             // cmovns    rdi, rax
+	LONG $0x03ffc148             // sar    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3f // movzx    r9d, byte [r15 + rdi]
+	WORD $0x3044; BYTE $0xce     // xor    sil, r9b
+	QUAD $0x00000000fd048d44     // lea    r8d, [8*rdi]
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0x2944; BYTE $0xc1     // sub    ecx, r8d
+	LONG $0x000001bb; BYTE $0x00 // mov    ebx, 1
+	WORD $0xe3d3                 // shl    ebx, cl
+	WORD $0x2040; BYTE $0xf3     // and    bl, sil
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x3f1c8841             // mov    byte [r15 + rdi], bl
+	LONG $0x01c08348             // add    rax, 1
+	LONG $0x08f88348             // cmp    rax, 8
+	JNE  LBB11_174
+	LONG $0x01c78349             // add    r15, 1
+
+LBB11_176:
+	LONG $0x05fac149         // sar    r10, 5
+	LONG $0x20fb8349         // cmp    r11, 32
+	JL   LBB11_177
+	LONG $0x04fa8349         // cmp    r10, 4
+	JB   LBB11_179
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x07e0c148         // shl    rax, 7
+	WORD $0x0148; BYTE $0xd0 // add    rax, rdx
+	WORD $0x3949; BYTE $0xc7 // cmp    r15, rax
+	JAE  LBB11_182
+	LONG $0x97048d4b         // lea    rax, [r15 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB11_182
+
+LBB11_179:
+	WORD $0x3145; BYTE $0xc0 // xor    r8d, r8d
+	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
+	WORD $0x894d; BYTE $0xfe // mov    r14, r15
+
+LBB11_185:
+	QUAD $0x00000088249c894c // mov    qword [rsp + 136], r11
+	QUAD $0x000000d02494894c // mov    qword [rsp + 208], r10
+	WORD $0x294d; BYTE $0xc2 // sub    r10, r8
+	QUAD $0x000000e02494894c // mov    qword [rsp + 224], r10
+
+LBB11_186:
+	LONG $0x2434894c                           // mov    qword [rsp], r14
+	WORD $0x2e0f; BYTE $0x03                   // ucomiss    xmm0, dword [rbx]
+	QUAD $0x000000802494930f                   // setae    byte [rsp + 128]
+	LONG $0x04432e0f                           // ucomiss    xmm0, dword [rbx + 4]
+	LONG $0xd0930f41                           // setae    r8b
+	LONG $0x08432e0f                           // ucomiss    xmm0, dword [rbx + 8]
+	LONG $0xd6930f41                           // setae    r14b
+	LONG $0x0c432e0f                           // ucomiss    xmm0, dword [rbx + 12]
+	LONG $0xd5930f41                           // setae    r13b
+	LONG $0x10432e0f                           // ucomiss    xmm0, dword [rbx + 16]
+	LONG $0x2454930f; BYTE $0x68               // setae    byte [rsp + 104]
+	LONG $0x14432e0f                           // ucomiss    xmm0, dword [rbx + 20]
+	LONG $0x2454930f; BYTE $0x40               // setae    byte [rsp + 64]
+	LONG $0x18432e0f                           // ucomiss    xmm0, dword [rbx + 24]
+	WORD $0x930f; BYTE $0xd0                   // setae    al
+	LONG $0x1c432e0f                           // ucomiss    xmm0, dword [rbx + 28]
+	LONG $0xd3930f41                           // setae    r11b
+	LONG $0x20432e0f                           // ucomiss    xmm0, dword [rbx + 32]
+	LONG $0x2454930f; BYTE $0x70               // setae    byte [rsp + 112]
+	LONG $0x24432e0f                           // ucomiss    xmm0, dword [rbx + 36]
+	WORD $0x930f; BYTE $0xd2                   // setae    dl
+	LONG $0x28432e0f                           // ucomiss    xmm0, dword [rbx + 40]
+	LONG $0xd6930f40                           // setae    sil
+	LONG $0x2c432e0f                           // ucomiss    xmm0, dword [rbx + 44]
+	LONG $0xd1930f41                           // setae    r9b
+	LONG $0x30432e0f                           // ucomiss    xmm0, dword [rbx + 48]
+	LONG $0xd2930f41                           // setae    r10b
+	LONG $0x34432e0f                           // ucomiss    xmm0, dword [rbx + 52]
+	LONG $0xd4930f41                           // setae    r12b
+	LONG $0x38432e0f                           // ucomiss    xmm0, dword [rbx + 56]
+	QUAD $0x000000a02494930f                   // setae    byte [rsp + 160]
+	LONG $0x3c432e0f                           // ucomiss    xmm0, dword [rbx + 60]
+	LONG $0xd7930f40                           // setae    dil
+	LONG $0x40432e0f                           // ucomiss    xmm0, dword [rbx + 64]
+	LONG $0x2454930f; BYTE $0x60               // setae    byte [rsp + 96]
+	LONG $0x44432e0f                           // ucomiss    xmm0, dword [rbx + 68]
+	QUAD $0x000000b02494930f                   // setae    byte [rsp + 176]
+	LONG $0x48432e0f                           // ucomiss    xmm0, dword [rbx + 72]
+	QUAD $0x000000902494930f                   // setae    byte [rsp + 144]
+	LONG $0x4c432e0f                           // ucomiss    xmm0, dword [rbx + 76]
+	LONG $0x2454930f; BYTE $0x58               // setae    byte [rsp + 88]
+	LONG $0x50432e0f                           // ucomiss    xmm0, dword [rbx + 80]
+	LONG $0x2454930f; BYTE $0x50               // setae    byte [rsp + 80]
+	LONG $0x54432e0f                           // ucomiss    xmm0, dword [rbx + 84]
+	LONG $0x2454930f; BYTE $0x48               // setae    byte [rsp + 72]
+	LONG $0x58432e0f                           // ucomiss    xmm0, dword [rbx + 88]
+	LONG $0x2454930f; BYTE $0x30               // setae    byte [rsp + 48]
+	LONG $0x5c432e0f                           // ucomiss    xmm0, dword [rbx + 92]
+	LONG $0xd7930f41                           // setae    r15b
+	LONG $0x60432e0f                           // ucomiss    xmm0, dword [rbx + 96]
+	LONG $0x2454930f; BYTE $0x18               // setae    byte [rsp + 24]
+	LONG $0x64432e0f                           // ucomiss    xmm0, dword [rbx + 100]
+	LONG $0x2454930f; BYTE $0x38               // setae    byte [rsp + 56]
+	LONG $0x68432e0f                           // ucomiss    xmm0, dword [rbx + 104]
+	LONG $0x2454930f; BYTE $0x20               // setae    byte [rsp + 32]
+	LONG $0x6c432e0f                           // ucomiss    xmm0, dword [rbx + 108]
+	LONG $0x2454930f; BYTE $0x28               // setae    byte [rsp + 40]
+	LONG $0x70432e0f                           // ucomiss    xmm0, dword [rbx + 112]
+	LONG $0x2454930f; BYTE $0x08               // setae    byte [rsp + 8]
+	LONG $0x74432e0f                           // ucomiss    xmm0, dword [rbx + 116]
+	LONG $0x2454930f; BYTE $0x10               // setae    byte [rsp + 16]
+	LONG $0x78432e0f                           // ucomiss    xmm0, dword [rbx + 120]
+	LONG $0x2454930f; BYTE $0x78               // setae    byte [rsp + 120]
+	LONG $0x7c432e0f                           // ucomiss    xmm0, dword [rbx + 124]
+	WORD $0x930f; BYTE $0xd1                   // setae    cl
+	WORD $0x0045; BYTE $0xc0                   // add    r8b, r8b
+	QUAD $0x0000008024840244                   // add    r8b, byte [rsp + 128]
+	WORD $0xe0c0; BYTE $0x06                   // shl    al, 6
+	LONG $0x07e3c041                           // shl    r11b, 7
+	WORD $0x0841; BYTE $0xc3                   // or    r11b, al
+	LONG $0x02e6c041                           // shl    r14b, 2
+	WORD $0x0845; BYTE $0xc6                   // or    r14b, r8b
+	WORD $0xd200                               // add    dl, dl
+	LONG $0x70245402                           // add    dl, byte [rsp + 112]
+	LONG $0x03e5c041                           // shl    r13b, 3
+	WORD $0x0845; BYTE $0xf5                   // or    r13b, r14b
+	LONG $0x02e6c040                           // shl    sil, 2
+	WORD $0x0840; BYTE $0xd6                   // or    sil, dl
+	LONG $0x2454b60f; BYTE $0x68               // movzx    edx, byte [rsp + 104]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0844; BYTE $0xea                   // or    dl, r13b
+	WORD $0x8941; BYTE $0xd0                   // mov    r8d, edx
+	LONG $0x24348b4c                           // mov    r14, qword [rsp]
+	LONG $0x03e1c041                           // shl    r9b, 3
+	WORD $0x0841; BYTE $0xf1                   // or    r9b, sil
+	LONG $0x2454b60f; BYTE $0x40               // movzx    edx, byte [rsp + 64]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0844; BYTE $0xc2                   // or    dl, r8b
+	LONG $0x04e2c041                           // shl    r10b, 4
+	WORD $0x0845; BYTE $0xca                   // or    r10b, r9b
+	LONG $0x05e4c041                           // shl    r12b, 5
+	WORD $0x0845; BYTE $0xd4                   // or    r12b, r10b
+	QUAD $0x000000a024b4b60f                   // movzx    esi, byte [rsp + 160]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c040                           // shl    dil, 7
+	WORD $0x0840; BYTE $0xf7                   // or    dil, sil
+	WORD $0x0841; BYTE $0xd3                   // or    r11b, dl
+	WORD $0x0844; BYTE $0xe7                   // or    dil, r12b
+	QUAD $0x000000b02484b60f                   // movzx    eax, byte [rsp + 176]
+	WORD $0xc000                               // add    al, al
+	LONG $0x60244402                           // add    al, byte [rsp + 96]
+	QUAD $0x000000902494b60f                   // movzx    edx, byte [rsp + 144]
+	WORD $0xe2c0; BYTE $0x02                   // shl    dl, 2
+	WORD $0xc208                               // or    dl, al
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x58               // movzx    edx, byte [rsp + 88]
+	WORD $0xe2c0; BYTE $0x03                   // shl    dl, 3
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x50               // movzx    edx, byte [rsp + 80]
+	WORD $0xe2c0; BYTE $0x04                   // shl    dl, 4
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0xd689                               // mov    esi, edx
+	LONG $0x2454b60f; BYTE $0x48               // movzx    edx, byte [rsp + 72]
+	WORD $0xe2c0; BYTE $0x05                   // shl    dl, 5
+	WORD $0x0840; BYTE $0xf2                   // or    dl, sil
+	WORD $0x8845; BYTE $0x1e                   // mov    byte [r14], r11b
+	LONG $0x2474b60f; BYTE $0x30               // movzx    esi, byte [rsp + 48]
+	LONG $0x06e6c040                           // shl    sil, 6
+	LONG $0x07e7c041                           // shl    r15b, 7
+	WORD $0x0841; BYTE $0xf7                   // or    r15b, sil
+	LONG $0x017e8841                           // mov    byte [r14 + 1], dil
+	WORD $0x0841; BYTE $0xd7                   // or    r15b, dl
+	LONG $0x2444b60f; BYTE $0x38               // movzx    eax, byte [rsp + 56]
+	WORD $0xc000                               // add    al, al
+	LONG $0x18244402                           // add    al, byte [rsp + 24]
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x20               // movzx    eax, byte [rsp + 32]
+	WORD $0xe0c0; BYTE $0x02                   // shl    al, 2
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x28               // movzx    eax, byte [rsp + 40]
+	WORD $0xe0c0; BYTE $0x03                   // shl    al, 3
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x08               // movzx    eax, byte [rsp + 8]
+	WORD $0xe0c0; BYTE $0x04                   // shl    al, 4
+	WORD $0xd008                               // or    al, dl
+	WORD $0xc289                               // mov    edx, eax
+	LONG $0x2444b60f; BYTE $0x10               // movzx    eax, byte [rsp + 16]
+	WORD $0xe0c0; BYTE $0x05                   // shl    al, 5
+	WORD $0xd008                               // or    al, dl
+	LONG $0x2454b60f; BYTE $0x78               // movzx    edx, byte [rsp + 120]
+	WORD $0xe2c0; BYTE $0x06                   // shl    dl, 6
+	WORD $0xe1c0; BYTE $0x07                   // shl    cl, 7
+	WORD $0xd108                               // or    cl, dl
+	WORD $0xc108                               // or    cl, al
+	LONG $0x027e8845                           // mov    byte [r14 + 2], r15b
+	LONG $0x034e8841                           // mov    byte [r14 + 3], cl
+	LONG $0x80c38148; WORD $0x0000; BYTE $0x00 // add    rbx, 128
+	LONG $0x04c68349                           // add    r14, 4
+	QUAD $0x000000e024848348; BYTE $0xff       // add    qword [rsp + 224], -1
+	JNE  LBB11_186
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	QUAD $0x000000d024948b4c                   // mov    r10, qword [rsp + 208]
+	JMP  LBB11_188
+
+LBB11_9:
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+
+LBB11_91:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB11_201
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB11_94
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB11_97
+
+LBB11_61:
+	WORD $0x894d; BYTE $0xfd // mov    r13, r15
+
+LBB11_72:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB11_201
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB11_75
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+	JMP  LBB11_78
+
+LBB11_119:
+	WORD $0x894d; BYTE $0xfc // mov    r12, r15
+	WORD $0x8948; BYTE $0xd0 // mov    rax, rdx
+
+LBB11_130:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB11_201
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB11_135
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB11_133
+
+LBB11_177:
+	WORD $0x894d; BYTE $0xfe // mov    r14, r15
+	WORD $0x8948; BYTE $0xd3 // mov    rbx, rdx
+
+LBB11_188:
+	LONG $0x05e2c149         // shl    r10, 5
+	WORD $0x394d; BYTE $0xda // cmp    r10, r11
+	JGE  LBB11_201
+	WORD $0x894d; BYTE $0xd8 // mov    r8, r11
+	WORD $0x294d; BYTE $0xd0 // sub    r8, r10
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	JNE  LBB11_193
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+	JMP  LBB11_191
+
+LBB11_155:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB11_156:
+	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB11_156
+
+LBB11_40:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB11_201
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
+	JMP  LBB11_199
+
+LBB11_153:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB11_154:
+	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0xd19d0f41             // setge    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB11_154
+
+LBB11_150:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB11_201
+	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
+	JMP  LBB11_152
+
+LBB11_94:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xf631             // xor    esi, esi
+
+LBB11_95:
+	LONG $0x32343a44               // cmp    r14b, byte [rdx + rsi]
+	WORD $0x9d0f; BYTE $0xd0       // setge    al
+	WORD $0xd8f6                   // neg    al
+	WORD $0x8948; BYTE $0xf7       // mov    rdi, rsi
+	LONG $0x03efc148               // shr    rdi, 3
+	WORD $0xf189                   // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06       // and    cl, 6
+	WORD $0x01b3                   // mov    bl, 1
+	WORD $0xe3d2                   // shl    bl, cl
+	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
+	WORD $0x3044; BYTE $0xc8       // xor    al, r9b
+	WORD $0xc320                   // and    bl, al
+	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
+	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
+	LONG $0x32743a44; BYTE $0x01   // cmp    r14b, byte [rdx + rsi + 1]
+	LONG $0x02768d48               // lea    rsi, [rsi + 2]
+	LONG $0xd19d0f41               // setge    r9b
+	WORD $0xf641; BYTE $0xd9       // neg    r9b
+	WORD $0x3041; BYTE $0xd9       // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01       // or    cl, 1
+	WORD $0x01b0                   // mov    al, 1
+	WORD $0xe0d2                   // shl    al, cl
+	WORD $0x2044; BYTE $0xc8       // and    al, r9b
+	WORD $0xd830                   // xor    al, bl
+	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB11_95
+	WORD $0x0148; BYTE $0xf2       // add    rdx, rsi
+
+LBB11_97:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB11_201
+	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xf2     // mov    rdx, rsi
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
+	LONG $0x07e68040             // and    sil, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8     // xor    al, dil
+	WORD $0xc320                 // and    bl, al
+	JMP  LBB11_80
+
+LBB11_75:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xc9 // xor    r9d, r9d
+
+LBB11_76:
+	WORD $0x894c; BYTE $0xc8       // mov    rax, r9
+	LONG $0x0a343a46               // cmp    r14b, byte [rdx + r9]
+	LONG $0x000000be; BYTE $0x00   // mov    esi, 0
+	LONG $0xffd68040               // adc    sil, -1
+	WORD $0x894c; BYTE $0xcf       // mov    rdi, r9
+	LONG $0x03efc148               // shr    rdi, 3
+	LONG $0x4cb60f45; WORD $0x003d // movzx    r9d, byte [r13 + rdi]
+	WORD $0xc189                   // mov    ecx, eax
+	WORD $0xe180; BYTE $0x06       // and    cl, 6
+	WORD $0x01b3                   // mov    bl, 1
+	WORD $0xe3d2                   // shl    bl, cl
+	WORD $0x3044; BYTE $0xce       // xor    sil, r9b
+	WORD $0x2040; BYTE $0xf3       // and    bl, sil
+	WORD $0x3044; BYTE $0xcb       // xor    bl, r9b
+	LONG $0x3d5c8841; BYTE $0x00   // mov    byte [r13 + rdi], bl
+	LONG $0x02743a44; BYTE $0x01   // cmp    r14b, byte [rdx + rax + 1]
+	LONG $0x02488d4c               // lea    r9, [rax + 2]
+	LONG $0x000000be; BYTE $0x00   // mov    esi, 0
+	LONG $0xffd68040               // adc    sil, -1
+	WORD $0x3040; BYTE $0xde       // xor    sil, bl
+	WORD $0xc980; BYTE $0x01       // or    cl, 1
+	WORD $0x01b0                   // mov    al, 1
+	WORD $0xe0d2                   // shl    al, cl
+	WORD $0x2040; BYTE $0xf0       // and    al, sil
+	WORD $0xd830                   // xor    al, bl
+	LONG $0x3d448841; BYTE $0x00   // mov    byte [r13 + rdi], al
+	WORD $0x394d; BYTE $0xca       // cmp    r10, r9
+	JNE  LBB11_76
+	WORD $0x014c; BYTE $0xca       // add    rdx, r9
+
+LBB11_78:
+	LONG $0x01c0f641             // test    r8b, 1
+	JE   LBB11_201
+	WORD $0xc031                 // xor    eax, eax
+	WORD $0x3a44; BYTE $0x32     // cmp    r14b, byte [rdx]
+	WORD $0xff14                 // adc    al, -1
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0x03eac148             // shr    rdx, 3
+	LONG $0x157c8a41; BYTE $0x00 // mov    dil, byte [r13 + rdx]
+	LONG $0x07e18041             // and    r9b, 7
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0x8944; BYTE $0xc9     // mov    ecx, r9d
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8     // xor    al, dil
+	WORD $0xc320                 // and    bl, al
+
+LBB11_80:
+	WORD $0x3040; BYTE $0xfb     // xor    bl, dil
+	LONG $0x155c8841; BYTE $0x00 // mov    byte [r13 + rdx], bl
+	JMP  LBB11_201
+
+LBB11_137:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB11_138:
+	WORD $0x3b44; BYTE $0x32     // cmp    r14d, dword [rdx]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x04723b44             // cmp    r14d, dword [rdx + 4]
+	LONG $0x08528d48             // lea    rdx, [rdx + 8]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB11_138
+
+LBB11_24:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB11_201
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x3b44; BYTE $0x32 // cmp    r14d, dword [rdx]
+	JMP  LBB11_199
+
+LBB11_195:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB11_196:
+	LONG $0x022e0f66             // ucomisd    xmm0, qword [rdx]
+	LONG $0x000000b8; BYTE $0x00 // mov    eax, 0
+	WORD $0xff14                 // adc    al, -1
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x422e0f66; BYTE $0x08 // ucomisd    xmm0, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xdf     // xor    dil, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB11_196
+
+LBB11_197:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB11_201
+	WORD $0xc031     // xor    eax, eax
+	LONG $0x022e0f66 // ucomisd    xmm0, qword [rdx]
+	JMP  LBB11_199
+
+LBB11_112:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB11_113:
+	LONG $0x323b4466             // cmp    r14w, word [rdx]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x894c; BYTE $0xde     // mov    rsi, r11
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x14b60f45; BYTE $0x37 // movzx    r10d, byte [r15 + rsi]
+	WORD $0x3044; BYTE $0xd7     // xor    dil, r10b
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2040; BYTE $0xf8     // and    al, dil
+	WORD $0x3044; BYTE $0xd0     // xor    al, r10b
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x723b4466; BYTE $0x02 // cmp    r14w, word [rdx + 2]
+	LONG $0x04528d48             // lea    rdx, [rdx + 4]
+	LONG $0x000000bf; BYTE $0x00 // mov    edi, 0
+	LONG $0xffd78040             // adc    dil, -1
+	WORD $0x3040; BYTE $0xc7     // xor    dil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x2040; BYTE $0xfb     // and    bl, dil
+	WORD $0xc330                 // xor    bl, al
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	WORD $0x394d; BYTE $0xd9     // cmp    r9, r11
+	JNE  LBB11_113
+
+LBB11_110:
+	LONG $0x01c0f641 // test    r8b, 1
+	JE   LBB11_201
+	WORD $0xc031     // xor    eax, eax
+	LONG $0x323b4466 // cmp    r14w, word [rdx]
+
+LBB11_199:
+	WORD $0xff14             // adc    al, -1
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	JMP  LBB11_200
+
+LBB11_170:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0xff31             // xor    edi, edi
+
+LBB11_171:
+	WORD $0x3b4c; BYTE $0x32     // cmp    r14, qword [rdx]
+	WORD $0x9d0f; BYTE $0xd0     // setge    al
+	WORD $0xd8f6                 // neg    al
+	WORD $0x8948; BYTE $0xfe     // mov    rsi, rdi
+	LONG $0x03eec148             // shr    rsi, 3
+	LONG $0x0cb60f45; BYTE $0x37 // movzx    r9d, byte [r15 + rsi]
+	WORD $0xf989                 // mov    ecx, edi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	WORD $0xc320                 // and    bl, al
+	WORD $0x3044; BYTE $0xcb     // xor    bl, r9b
+	LONG $0x371c8841             // mov    byte [r15 + rsi], bl
+	LONG $0x02c78348             // add    rdi, 2
+	LONG $0x08723b4c             // cmp    r14, qword [rdx + 8]
+	LONG $0x10528d48             // lea    rdx, [rdx + 16]
+	LONG $0xd19d0f41             // setge    r9b
+	WORD $0xf641; BYTE $0xd9     // neg    r9b
+	WORD $0x3041; BYTE $0xd9     // xor    r9b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x2044; BYTE $0xc8     // and    al, r9b
+	WORD $0xd830                 // xor    al, bl
+	LONG $0x37048841             // mov    byte [r15 + rsi], al
+	WORD $0x3949; BYTE $0xfa     // cmp    r10, rdi
+	JNE  LBB11_171
+
+LBB11_168:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB11_201
+	WORD $0x3b4c; BYTE $0x32 // cmp    r14, qword [rdx]
+
+LBB11_152:
+	WORD $0x9d0f; BYTE $0xd0 // setge    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xfa // mov    rdx, rdi
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x17348a41         // mov    sil, byte [r15 + rdx]
+	LONG $0x07e78040         // and    dil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf989             // mov    ecx, edi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+
+LBB11_200:
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x171c8841         // mov    byte [r15 + rdx], bl
+
+LBB11_201:
+	MOVQ 304(SP), SP
+	RET
+
+LBB11_135:
+	WORD $0x894d; BYTE $0xc1 // mov    r9, r8
+	LONG $0xfee18349         // and    r9, -2
+	WORD $0xf631             // xor    esi, esi
+
+LBB11_136:
+	LONG $0x303b4466             // cmp    r14w, word [rax]
+	WORD $0x9d0f; BYTE $0xd2     // setge    dl
+	WORD $0xdaf6                 // neg    dl
+	WORD $0x8948; BYTE $0xf7     // mov    rdi, rsi
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x14b60f45; BYTE $0x3c // movzx    r10d, byte [r12 + rdi]
+	WORD $0xf189                 // mov    ecx, esi
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b3                 // mov    bl, 1
+	WORD $0xe3d2                 // shl    bl, cl
+	WORD $0x3044; BYTE $0xd2     // xor    dl, r10b
+	WORD $0xd320                 // and    bl, dl
+	WORD $0x3044; BYTE $0xd3     // xor    bl, r10b
+	LONG $0x3c1c8841             // mov    byte [r12 + rdi], bl
+	LONG $0x02c68348             // add    rsi, 2
+	LONG $0x703b4466; BYTE $0x02 // cmp    r14w, word [rax + 2]
+	LONG $0x04408d48             // lea    rax, [rax + 4]
+	LONG $0xd29d0f41             // setge    r10b
+	WORD $0xf641; BYTE $0xda     // neg    r10b
+	WORD $0x3041; BYTE $0xda     // xor    r10b, bl
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x2044; BYTE $0xd2     // and    dl, r10b
+	WORD $0xda30                 // xor    dl, bl
+	LONG $0x3c148841             // mov    byte [r12 + rdi], dl
+	WORD $0x3949; BYTE $0xf1     // cmp    r9, rsi
+	JNE  LBB11_136
+
+LBB11_133:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB11_201
+	LONG $0x303b4466         // cmp    r14w, word [rax]
+	WORD $0x9d0f; BYTE $0xd0 // setge    al
+	WORD $0xd8f6             // neg    al
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x143c8a41         // mov    dil, byte [r12 + rdx]
+	LONG $0x07e68040         // and    sil, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0xf189             // mov    ecx, esi
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf8 // xor    al, dil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xfb // xor    bl, dil
+	LONG $0x141c8841         // mov    byte [r12 + rdx], bl
+	JMP  LBB11_201
+
+LBB11_193:
+	WORD $0x894d; BYTE $0xc2 // mov    r10, r8
+	LONG $0xfee28349         // and    r10, -2
+	WORD $0x3145; BYTE $0xdb // xor    r11d, r11d
+
+LBB11_194:
+	WORD $0x2e0f; BYTE $0x03     // ucomiss    xmm0, dword [rbx]
+	LONG $0x000000ba; BYTE $0x00 // mov    edx, 0
+	WORD $0xd280; BYTE $0xff     // adc    dl, -1
+	WORD $0x894c; BYTE $0xdf     // mov    rdi, r11
+	LONG $0x03efc148             // shr    rdi, 3
+	LONG $0x0cb60f45; BYTE $0x3e // movzx    r9d, byte [r14 + rdi]
+	WORD $0x8944; BYTE $0xd9     // mov    ecx, r11d
+	WORD $0xe180; BYTE $0x06     // and    cl, 6
+	WORD $0x01b0                 // mov    al, 1
+	WORD $0xe0d2                 // shl    al, cl
+	WORD $0x3044; BYTE $0xca     // xor    dl, r9b
+	WORD $0xd020                 // and    al, dl
+	WORD $0x3044; BYTE $0xc8     // xor    al, r9b
+	LONG $0x3e048841             // mov    byte [r14 + rdi], al
+	LONG $0x02c38349             // add    r11, 2
+	LONG $0x04432e0f             // ucomiss    xmm0, dword [rbx + 4]
+	LONG $0x085b8d48             // lea    rbx, [rbx + 8]
+	LONG $0x000000be; BYTE $0x00 // mov    esi, 0
+	LONG $0xffd68040             // adc    sil, -1
+	WORD $0x3040; BYTE $0xc6     // xor    sil, al
+	WORD $0xc980; BYTE $0x01     // or    cl, 1
+	WORD $0x01b2                 // mov    dl, 1
+	WORD $0xe2d2                 // shl    dl, cl
+	WORD $0x2040; BYTE $0xf2     // and    dl, sil
+	WORD $0xc230                 // xor    dl, al
+	LONG $0x3e148841             // mov    byte [r14 + rdi], dl
+	WORD $0x394d; BYTE $0xda     // cmp    r10, r11
+	JNE  LBB11_194
+
+LBB11_191:
+	LONG $0x01c0f641         // test    r8b, 1
+	JE   LBB11_201
+	WORD $0xc031             // xor    eax, eax
+	WORD $0x2e0f; BYTE $0x03 // ucomiss    xmm0, dword [rbx]
+	WORD $0xff14             // adc    al, -1
+	WORD $0x894c; BYTE $0xda // mov    rdx, r11
+	LONG $0x03eac148         // shr    rdx, 3
+	LONG $0x16348a41         // mov    sil, byte [r14 + rdx]
+	LONG $0x07e38041         // and    r11b, 7
+	WORD $0x01b3             // mov    bl, 1
+	WORD $0x8944; BYTE $0xd9 // mov    ecx, r11d
+	WORD $0xe3d2             // shl    bl, cl
+	WORD $0x3040; BYTE $0xf0 // xor    al, sil
+	WORD $0xc320             // and    bl, al
+	WORD $0x3040; BYTE $0xf3 // xor    bl, sil
+	LONG $0x161c8841         // mov    byte [r14 + rdx], bl
+	JMP  LBB11_201
+
+LBB11_85:
+	LONG $0xf0e28349                     // and    r10, -16
+	WORD $0x894c; BYTE $0xd0             // mov    rax, r10
+	LONG $0x05e0c148                     // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0             // add    rax, rdx
+	QUAD $0x0000011824848948             // mov    qword [rsp + 280], rax
+	QUAD $0x000001002494894c             // mov    qword [rsp + 256], r10
+	LONG $0x97048d4b                     // lea    rax, [r15 + 4*r10]
+	QUAD $0x0000012024848948             // mov    qword [rsp + 288], rax
+	LONG $0xc6b60f41                     // movzx    eax, r14b
+	LONG $0xc86e0f66                     // movd    xmm1, eax
+	LONG $0xc0ef0f66                     // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8         // pshufb    xmm1, xmm0
+	QUAD $0x000090248c7f0f66; BYTE $0x00 // movdqa    oword [rsp + 144], xmm1
+	WORD $0xc031                         // xor    eax, eax
+	LONG $0x247c894c; BYTE $0x78         // mov    qword [rsp + 120], r15
+
+LBB11_86:
+	QUAD $0x000000e024848948                   // mov    qword [rsp + 224], rax
+	LONG $0x05e0c148                           // shl    rax, 5
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	LONG $0x24448948; BYTE $0x38               // mov    qword [rsp + 56], rax
+	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
+	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
+	LONG $0x020cb60f                           // movzx    ecx, byte [rdx + rax]
+	LONG $0xe16e0f66                           // movd    xmm4, ecx
+	LONG $0x024cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rax + 1]
+	LONG $0xd96e0f66                           // movd    xmm3, ecx
+	LONG $0x024cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rax + 2]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	LONG $0x024cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rax + 3]
+	LONG $0xf96e0f66                           // movd    xmm7, ecx
+	LONG $0x024cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rax + 4]
+	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
+	LONG $0x024cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rax + 5]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	LONG $0x024cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rax + 6]
+	LONG $0x6e0f4466; BYTE $0xc1               // movd    xmm8, ecx
+	LONG $0x024cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rax + 7]
+	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
+	LONG $0x024cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rax + 8]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000c024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm0
+	LONG $0x024cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rax + 9]
+	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
+	LONG $0x024cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rax + 10]
+	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
+	LONG $0x024cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rax + 11]
+	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
+	LONG $0x024cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rax + 12]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000d024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 208], xmm0
+	LONG $0x024cb60f; BYTE $0x0d               // movzx    ecx, byte [rdx + rax + 13]
+	LONG $0xf16e0f66                           // movd    xmm6, ecx
+	LONG $0x024cb60f; BYTE $0x0e               // movzx    ecx, byte [rdx + rax + 14]
+	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
+	LONG $0x024cb60f; BYTE $0x0f               // movzx    ecx, byte [rdx + rax + 15]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000a024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm0
+	LONG $0x24448948; BYTE $0x48               // mov    qword [rsp + 72], rax
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	LONG $0x20cb8348                           // or    rbx, 32
+	LONG $0x245c8948; BYTE $0x08               // mov    qword [rsp + 8], rbx
+	LONG $0x40cf8348                           // or    rdi, 64
+	LONG $0x247c8948; BYTE $0x20               // mov    qword [rsp + 32], rdi
+	LONG $0x60ce8348                           // or    rsi, 96
+	LONG $0x24748948; BYTE $0x18               // mov    qword [rsp + 24], rsi
+	LONG $0x80c98149; WORD $0x0000; BYTE $0x00 // or    r9, 128
+	LONG $0xa0ca8149; WORD $0x0000; BYTE $0x00 // or    r10, 160
+	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
+	LONG $0x2464894c; BYTE $0x40               // mov    qword [rsp + 64], r12
+	LONG $0xe0ce8149; WORD $0x0000; BYTE $0x00 // or    r14, 224
+	LONG $0x00cf8149; WORD $0x0001; BYTE $0x00 // or    r15, 256
+	LONG $0x247c894c; BYTE $0x58               // mov    qword [rsp + 88], r15
+	LONG $0x20cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 288
+	LONG $0x246c894c; BYTE $0x50               // mov    qword [rsp + 80], r13
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	LONG $0x40cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 320
+	LONG $0x60cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 352
+	LONG $0x80c88149; WORD $0x0001; BYTE $0x00 // or    r8, 384
+	LONG $0x2444894c; BYTE $0x60               // mov    qword [rsp + 96], r8
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0xa0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 416
+	LONG $0x244c8948; BYTE $0x30               // mov    qword [rsp + 48], rcx
+	WORD $0x8948; BYTE $0xc1                   // mov    rcx, rax
+	LONG $0xc0c98148; WORD $0x0001; BYTE $0x00 // or    rcx, 448
+	LONG $0x244c8948; BYTE $0x28               // mov    qword [rsp + 40], rcx
+	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
+	LONG $0xe0ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 480
+	LONG $0x24748948; BYTE $0x10               // mov    qword [rsp + 16], rsi
+	LONG $0x203a0f66; WORD $0x1a24; BYTE $0x01 // pinsrb    xmm4, byte [rdx + rbx], 1
+	LONG $0x203a0f66; WORD $0x3a24; BYTE $0x02 // pinsrb    xmm4, byte [rdx + rdi], 2
+	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
+	LONG $0x203a0f66; WORD $0x1a24; BYTE $0x03 // pinsrb    xmm4, byte [rdx + rbx], 3
+	QUAD $0x040a24203a0f4266                   // pinsrb    xmm4, byte [rdx + r9], 4
+	QUAD $0x051224203a0f4266                   // pinsrb    xmm4, byte [rdx + r10], 5
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	LONG $0x203a0f66; WORD $0x0224; BYTE $0x06 // pinsrb    xmm4, byte [rdx + rax], 6
+	QUAD $0x073224203a0f4266                   // pinsrb    xmm4, byte [rdx + r14], 7
+	QUAD $0x083a24203a0f4266                   // pinsrb    xmm4, byte [rdx + r15], 8
+	QUAD $0x092a24203a0f4266                   // pinsrb    xmm4, byte [rdx + r13], 9
+	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
+	LONG $0x2464894c; BYTE $0x38               // mov    qword [rsp + 56], r12
+	QUAD $0x0a2224203a0f4266                   // pinsrb    xmm4, byte [rdx + r12], 10
+	QUAD $0x0b1a24203a0f4266                   // pinsrb    xmm4, byte [rdx + r11], 11
+	QUAD $0x0c0224203a0f4266                   // pinsrb    xmm4, byte [rdx + r8], 12
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	LONG $0x203a0f66; WORD $0x0224; BYTE $0x0d // pinsrb    xmm4, byte [rdx + rax], 13
+	LONG $0x203a0f66; WORD $0x0a24; BYTE $0x0e // pinsrb    xmm4, byte [rdx + rcx], 14
+	LONG $0x203a0f66; WORD $0x3224; BYTE $0x0f // pinsrb    xmm4, byte [rdx + rsi], 15
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	QUAD $0x01225c203a0f4266; BYTE $0x01       // pinsrb    xmm3, byte [rdx + r12 + 1], 1
+	QUAD $0x02013a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 1], 2
+	QUAD $0x03011a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 1], 3
+	QUAD $0x010a5c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r9 + 1], 4
+	QUAD $0x01125c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r10 + 1], 5
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x06011a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 1], 6
+	QUAD $0x01325c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r14 + 1], 7
+	LONG $0x247c8b48; BYTE $0x58               // mov    rdi, qword [rsp + 88]
+	QUAD $0x08013a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 1], 8
+	QUAD $0x012a5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r13 + 1], 9
+	QUAD $0x013a5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r15 + 1], 10
+	QUAD $0x011a5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r11 + 1], 11
+	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
+	QUAD $0x01025c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r8 + 1], 12
+	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
+	QUAD $0x012a5c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r13 + 1], 13
+	QUAD $0x0e010a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 1], 14
+	QUAD $0x000090248c6f0f66; BYTE $0x00       // movdqa    xmm1, oword [rsp + 144]
+	LONG $0xe1640f66                           // pcmpgtb    xmm4, xmm1
+	QUAD $0x0f01325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 1], 15
+	LONG $0xd9640f66                           // pcmpgtb    xmm3, xmm1
+	QUAD $0x00000100856f0f66                   // movdqa    xmm0, oword 256[rbp] /* [rip + .LCPI11_16] */
+	LONG $0xd8df0f66                           // pandn    xmm3, xmm0
+	LONG $0xdcfc0f66                           // paddb    xmm3, xmm4
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	LONG $0x0274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rax + 16]
+	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0102026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 2], 1
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0202026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 2], 2
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	QUAD $0x021a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r11 + 2], 3
+	QUAD $0x020a6c203a0f4266; BYTE $0x04       // pinsrb    xmm5, byte [rdx + r9 + 2], 4
+	QUAD $0x02126c203a0f4266; BYTE $0x05       // pinsrb    xmm5, byte [rdx + r10 + 2], 5
+	QUAD $0x06021a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 2], 6
+	LONG $0x2474894c; BYTE $0x68               // mov    qword [rsp + 104], r14
+	QUAD $0x02326c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r14 + 2], 7
+	WORD $0x8949; BYTE $0xfc                   // mov    r12, rdi
+	QUAD $0x08023a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 2], 8
+	LONG $0x24448b4c; BYTE $0x50               // mov    r8, qword [rsp + 80]
+	QUAD $0x02026c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r8 + 2], 9
+	LONG $0x247c8b48; BYTE $0x38               // mov    rdi, qword [rsp + 56]
+	QUAD $0x0a023a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 2], 10
+	QUAD $0x000000b024bc894c                   // mov    qword [rsp + 176], r15
+	QUAD $0x023a6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r15 + 2], 11
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0c020a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 2], 12
+	WORD $0x894c; BYTE $0xee                   // mov    rsi, r13
+	QUAD $0x022a6c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r13 + 2], 13
+	LONG $0x246c8b4c; BYTE $0x28               // mov    r13, qword [rsp + 40]
+	QUAD $0x022a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r13 + 2], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0f02026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 2], 15
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0103027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 3], 1
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0203027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 3], 2
+	QUAD $0x031a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r11 + 3], 3
+	QUAD $0x030a7c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r9 + 3], 4
+	QUAD $0x03127c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r10 + 3], 5
+	QUAD $0x06031a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 3], 6
+	QUAD $0x03327c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r14 + 3], 7
+	QUAD $0x03227c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r12 + 3], 8
+	QUAD $0x03027c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r8 + 3], 9
+	QUAD $0x0a033a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 3], 10
+	QUAD $0x033a7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r15 + 3], 11
+	QUAD $0x0c030a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 3], 12
+	QUAD $0x0d03327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 3], 13
+	QUAD $0x032a7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r13 + 3], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0f03027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 3], 15
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x04024c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rax + 4], 1
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x04024c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rax + 4], 2
+	QUAD $0x041a4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r11 + 4], 3
+	QUAD $0x040a4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r9 + 4], 4
+	QUAD $0x00000080248c894c                   // mov    qword [rsp + 128], r9
+	QUAD $0x04124c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r10 + 4], 5
+	QUAD $0x041a4c203a0f4466; BYTE $0x06       // pinsrb    xmm9, byte [rdx + rbx + 4], 6
+	QUAD $0x04324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 4], 7
+	QUAD $0x04224c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r12 + 4], 8
+	QUAD $0x04024c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r8 + 4], 9
+	QUAD $0x043a4c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + rdi + 4], 10
+	QUAD $0x043a4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r15 + 4], 11
+	QUAD $0x040a4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + rcx + 4], 12
+	QUAD $0x04324c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rsi + 4], 13
+	QUAD $0x042a4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r13 + 4], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x04024c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + rax + 4], 15
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	LONG $0xe9640f66                           // pcmpgtb    xmm5, xmm1
+	QUAD $0x00000110856f0f66                   // movdqa    xmm0, oword 272[rbp] /* [rip + .LCPI11_17] */
+	LONG $0xe8df0f66                           // pandn    xmm5, xmm0
+	LONG $0xf9640f66                           // pcmpgtb    xmm7, xmm1
+	QUAD $0x00000120856f0f66                   // movdqa    xmm0, oword 288[rbp] /* [rip + .LCPI11_18] */
+	LONG $0xf8df0f66                           // pandn    xmm7, xmm0
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	LONG $0x0274b60f; BYTE $0x11               // movzx    esi, byte [rdx + rax + 17]
+	LONG $0xe66e0f66                           // movd    xmm4, esi
+	LONG $0x640f4466; BYTE $0xc9               // pcmpgtb    xmm9, xmm1
+	QUAD $0x00000130856f0f66                   // movdqa    xmm0, oword 304[rbp] /* [rip + .LCPI11_19] */
+	LONG $0xdf0f4466; BYTE $0xc8               // pandn    xmm9, xmm0
+	LONG $0xeb0f4466; BYTE $0xcf               // por    xmm9, xmm7
+	LONG $0x0274b60f; BYTE $0x12               // movzx    esi, byte [rdx + rax + 18]
+	LONG $0xfe6e0f66                           // movd    xmm7, esi
+	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
+	LONG $0xd8f80f66                           // psubb    xmm3, xmm0
+	LONG $0xeb0f4466; BYTE $0xcb               // por    xmm9, xmm3
+	LONG $0x0274b60f; BYTE $0x13               // movzx    esi, byte [rdx + rax + 19]
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
+	QUAD $0x050254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r8 + 5], 1
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x02053a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 5], 2
+	QUAD $0x051a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 5], 3
+	QUAD $0x050a54203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r9 + 5], 4
+	QUAD $0x051254203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r10 + 5], 5
+	WORD $0x894d; BYTE $0xd4                   // mov    r12, r10
+	WORD $0x8949; BYTE $0xde                   // mov    r14, rbx
+	QUAD $0x06051a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 5], 6
+	LONG $0x245c8b48; BYTE $0x68               // mov    rbx, qword [rsp + 104]
+	QUAD $0x07051a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 5], 7
+	LONG $0x247c8b4c; BYTE $0x58               // mov    r15, qword [rsp + 88]
+	QUAD $0x053a54203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r15 + 5], 8
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	QUAD $0x050a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r9 + 5], 9
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0a053254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 5], 10
+	QUAD $0x000000b0249c8b4c                   // mov    r11, qword [rsp + 176]
+	QUAD $0x051a54203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r11 + 5], 11
+	QUAD $0x0c050a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 5], 12
+	LONG $0x24548b4c; BYTE $0x30               // mov    r10, qword [rsp + 48]
+	QUAD $0x051254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r10 + 5], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0e050254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 5], 14
+	QUAD $0x052a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r13 + 5], 15
+	QUAD $0x060244203a0f4666; BYTE $0x01       // pinsrb    xmm8, byte [rdx + r8 + 6], 1
+	QUAD $0x063a44203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rdi + 6], 2
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x062a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r13 + 6], 3
+	QUAD $0x0000008024ac8b4c                   // mov    r13, qword [rsp + 128]
+	QUAD $0x062a44203a0f4666; BYTE $0x04       // pinsrb    xmm8, byte [rdx + r13 + 6], 4
+	QUAD $0x062244203a0f4666; BYTE $0x05       // pinsrb    xmm8, byte [rdx + r12 + 6], 5
+	QUAD $0x063244203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r14 + 6], 6
+	QUAD $0x061a44203a0f4466; BYTE $0x07       // pinsrb    xmm8, byte [rdx + rbx + 6], 7
+	QUAD $0x063a44203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r15 + 6], 8
+	QUAD $0x060a44203a0f4666; BYTE $0x09       // pinsrb    xmm8, byte [rdx + r9 + 6], 9
+	QUAD $0x063244203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rsi + 6], 10
+	QUAD $0x061a44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r11 + 6], 11
+	WORD $0x894d; BYTE $0xdf                   // mov    r15, r11
+	QUAD $0x060a44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + rcx + 6], 12
+	QUAD $0x061244203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + r10 + 6], 13
+	QUAD $0x060244203a0f4466; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + rax + 6], 14
+	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x060244203a0f4466; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + rax + 6], 15
+	QUAD $0x070274203a0f4666; BYTE $0x01       // pinsrb    xmm14, byte [rdx + r8 + 7], 1
+	QUAD $0x073a74203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rdx + rdi + 7], 2
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x070274203a0f4466; BYTE $0x03       // pinsrb    xmm14, byte [rdx + rax + 7], 3
+	WORD $0x894d; BYTE $0xe9                   // mov    r9, r13
+	QUAD $0x072a74203a0f4666; BYTE $0x04       // pinsrb    xmm14, byte [rdx + r13 + 7], 4
+	WORD $0x894c; BYTE $0xe7                   // mov    rdi, r12
+	QUAD $0x072274203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rdx + r12 + 7], 5
+	QUAD $0x073274203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r14 + 7], 6
+	QUAD $0x071a74203a0f4466; BYTE $0x07       // pinsrb    xmm14, byte [rdx + rbx + 7], 7
+	WORD $0x8949; BYTE $0xdb                   // mov    r11, rbx
+	LONG $0x24648b4c; BYTE $0x58               // mov    r12, qword [rsp + 88]
+	QUAD $0x072274203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r12 + 7], 8
+	LONG $0x246c8b4c; BYTE $0x50               // mov    r13, qword [rsp + 80]
+	QUAD $0x072a74203a0f4666; BYTE $0x09       // pinsrb    xmm14, byte [rdx + r13 + 7], 9
+	QUAD $0x073274203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + rsi + 7], 10
+	QUAD $0x073a74203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + r15 + 7], 11
+	QUAD $0x070a74203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + rcx + 7], 12
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x071a74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rbx + 7], 13
+	QUAD $0x071274203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r10 + 7], 14
+	LONG $0x6f0f4166; BYTE $0xce               // movdqa    xmm1, xmm14
+	QUAD $0x009024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 144]
+	LONG $0x640f4166; BYTE $0xd6               // pcmpgtb    xmm2, xmm14
+	QUAD $0x00000140856f0f66                   // movdqa    xmm0, oword 320[rbp] /* [rip + .LCPI11_20] */
+	LONG $0xd0df0f66                           // pandn    xmm2, xmm0
+	LONG $0x640f4566; BYTE $0xc6               // pcmpgtb    xmm8, xmm14
+	QUAD $0x00000150856f0f66                   // movdqa    xmm0, oword 336[rbp] /* [rip + .LCPI11_21] */
+	LONG $0xdf0f4466; BYTE $0xc0               // pandn    xmm8, xmm0
+	LONG $0xeb0f4466; BYTE $0xc2               // por    xmm8, xmm2
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	LONG $0x0274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rax + 20]
+	LONG $0xde6e0f66                           // movd    xmm3, esi
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0f070a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 7], 15
+	LONG $0x640f4166; BYTE $0xce               // pcmpgtb    xmm1, xmm14
+	LONG $0x456f0f66; BYTE $0x60               // movdqa    xmm0, oword 96[rbp] /* [rip + .LCPI11_6] */
+	LONG $0xc8df0f66                           // pandn    xmm1, xmm0
+	LONG $0xeb0f4166; BYTE $0xc8               // por    xmm1, xmm8
+	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
+	LONG $0xd66e0f66                           // movd    xmm2, esi
+	QUAD $0x0000c024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 192]
+	QUAD $0x080244203a0f4266; BYTE $0x01       // pinsrb    xmm0, byte [rdx + r8 + 8], 1
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	QUAD $0x083244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r14 + 8], 2
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x03083244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 8], 3
+	QUAD $0x080a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r9 + 8], 4
+	QUAD $0x05083a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 8], 5
+	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
+	LONG $0x247c8b48; BYTE $0x40               // mov    rdi, qword [rsp + 64]
+	QUAD $0x06083a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 8], 6
+	QUAD $0x081a44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r11 + 8], 7
+	QUAD $0x082244203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r12 + 8], 8
+	QUAD $0x082a44203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r13 + 8], 9
+	LONG $0x24448b4c; BYTE $0x38               // mov    r8, qword [rsp + 56]
+	QUAD $0x080244203a0f4266; BYTE $0x0a       // pinsrb    xmm0, byte [rdx + r8 + 8], 10
+	QUAD $0x083a44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r15 + 8], 11
+	LONG $0x24748b48; BYTE $0x60               // mov    rsi, qword [rsp + 96]
+	QUAD $0x0c083244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 8], 12
+	QUAD $0x0d081a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 8], 13
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0e083244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 8], 14
+	QUAD $0x0f080a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 8], 15
+	LONG $0xeb0f4166; BYTE $0xc9               // por    xmm1, xmm9
+	QUAD $0x0000c0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 192], xmm1
+	LONG $0x0274b60f; BYTE $0x16               // movzx    esi, byte [rdx + rax + 22]
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0x640f4166; BYTE $0xc6               // pcmpgtb    xmm0, xmm14
+	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
+	QUAD $0x091a5c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r11 + 9], 1
+	WORD $0x894c; BYTE $0xdb                   // mov    rbx, r11
+	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
+	QUAD $0x09325c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rdx + r14 + 9], 2
+	LONG $0x245c8b4c; BYTE $0x18               // mov    r11, qword [rsp + 24]
+	QUAD $0x091a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r11 + 9], 3
+	QUAD $0x090a5c203a0f4666; BYTE $0x04       // pinsrb    xmm11, byte [rdx + r9 + 9], 4
+	LONG $0x2454894c; BYTE $0x70               // mov    qword [rsp + 112], r10
+	QUAD $0x09125c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r10 + 9], 5
+	QUAD $0x093a5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rdx + rdi + 9], 6
+	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
+	QUAD $0x09325c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r14 + 9], 7
+	QUAD $0x09225c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r12 + 9], 8
+	QUAD $0x092a5c203a0f4666; BYTE $0x09       // pinsrb    xmm11, byte [rdx + r13 + 9], 9
+	WORD $0x894c; BYTE $0xc6                   // mov    rsi, r8
+	QUAD $0x09025c203a0f4666; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + r8 + 9], 10
+	WORD $0x894c; BYTE $0xf9                   // mov    rcx, r15
+	QUAD $0x093a5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r15 + 9], 11
+	LONG $0x24448b4c; BYTE $0x60               // mov    r8, qword [rsp + 96]
+	QUAD $0x09025c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r8 + 9], 12
+	LONG $0x247c8b4c; BYTE $0x30               // mov    r15, qword [rsp + 48]
+	QUAD $0x093a5c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r15 + 9], 13
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x093a5c203a0f4466; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + rdi + 9], 14
+	LONG $0x247c8b48; BYTE $0x10               // mov    rdi, qword [rsp + 16]
+	QUAD $0x093a5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rdi + 9], 15
+	QUAD $0x0a1a64203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rbx + 10], 1
+	QUAD $0x0a0264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rax + 10], 2
+	QUAD $0x0a1a64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r11 + 10], 3
+	QUAD $0x0a0a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r9 + 10], 4
+	QUAD $0x0a1264203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rdx + r10 + 10], 5
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x0a1a64203a0f4466; BYTE $0x06       // pinsrb    xmm12, byte [rdx + rbx + 10], 6
+	QUAD $0x0a3264203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r14 + 10], 7
+	QUAD $0x0a2264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r12 + 10], 8
+	QUAD $0x0a2a64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r13 + 10], 9
+	QUAD $0x0a3264203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rsi + 10], 10
+	QUAD $0x0a0a64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + rcx + 10], 11
+	QUAD $0x0a0264203a0f4666; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + r8 + 10], 12
+	QUAD $0x0a3a64203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r15 + 10], 13
+	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x0a3a64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r15 + 10], 14
+	QUAD $0x0a3a64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rdi + 10], 15
+	LONG $0x245c8b48; BYTE $0x08               // mov    rbx, qword [rsp + 8]
+	QUAD $0x0b1a6c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rbx + 11], 1
+	QUAD $0x0b026c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rax + 11], 2
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0b026c203a0f4466; BYTE $0x03       // pinsrb    xmm13, byte [rdx + rax + 11], 3
+	QUAD $0x0b0a6c203a0f4666; BYTE $0x04       // pinsrb    xmm13, byte [rdx + r9 + 11], 4
+	QUAD $0x0b126c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rdx + r10 + 11], 5
+	LONG $0x24548b4c; BYTE $0x40               // mov    r10, qword [rsp + 64]
+	QUAD $0x0b126c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r10 + 11], 6
+	QUAD $0x0b326c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r14 + 11], 7
+	QUAD $0x0b226c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r12 + 11], 8
+	QUAD $0x0b2a6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r13 + 11], 9
+	QUAD $0x0b326c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rsi + 11], 10
+	QUAD $0x0b0a6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rcx + 11], 11
+	QUAD $0x0b026c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r8 + 11], 12
+	QUAD $0x0b1a6c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r11 + 11], 13
+	QUAD $0x0b3a6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r15 + 11], 14
+	QUAD $0x0b3a6c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rdi + 11], 15
+	LONG $0x640f4566; BYTE $0xde               // pcmpgtb    xmm11, xmm14
+	QUAD $0x0001009ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 256[rbp] /* [rip + .LCPI11_16] */
+	LONG $0xfc0f4466; BYTE $0xd8               // paddb    xmm11, xmm0
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	LONG $0x0a74b60f; BYTE $0x17               // movzx    esi, byte [rdx + rcx + 23]
+	LONG $0x6e0f4466; BYTE $0xc6               // movd    xmm8, esi
+	LONG $0x640f4566; BYTE $0xe6               // pcmpgtb    xmm12, xmm14
+	QUAD $0x000110a5df0f4466; BYTE $0x00       // pandn    xmm12, oword 272[rbp] /* [rip + .LCPI11_17] */
+	LONG $0x640f4566; BYTE $0xee               // pcmpgtb    xmm13, xmm14
+	QUAD $0x000120addf0f4466; BYTE $0x00       // pandn    xmm13, oword 288[rbp] /* [rip + .LCPI11_18] */
+	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
+	LONG $0x0a74b60f; BYTE $0x18               // movzx    esi, byte [rdx + rcx + 24]
+	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
+	QUAD $0x00d0248c6f0f4466; WORD $0x0000     // movdqa    xmm9, oword [rsp + 208]
+	QUAD $0x0c1a4c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rbx + 12], 1
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x0c3a4c203a0f4666; BYTE $0x02       // pinsrb    xmm9, byte [rdx + r15 + 12], 2
+	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
+	QUAD $0x0c024c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rdx + rax + 12], 3
+	WORD $0x894c; BYTE $0xcf                   // mov    rdi, r9
+	QUAD $0x0c0a4c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r9 + 12], 4
+	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
+	QUAD $0x0c0a4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r9 + 12], 5
+	WORD $0x894c; BYTE $0xd3                   // mov    rbx, r10
+	QUAD $0x0c124c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r10 + 12], 6
+	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
+	QUAD $0x0c324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 12], 7
+	WORD $0x894d; BYTE $0xe6                   // mov    r14, r12
+	QUAD $0x0c224c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r12 + 12], 8
+	WORD $0x894d; BYTE $0xec                   // mov    r12, r13
+	QUAD $0x0c2a4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r13 + 12], 9
+	LONG $0x246c8b4c; BYTE $0x38               // mov    r13, qword [rsp + 56]
+	QUAD $0x0c2a4c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r13 + 12], 10
+	QUAD $0x000000b0248c8b48                   // mov    rcx, qword [rsp + 176]
+	QUAD $0x0c0a4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + rcx + 12], 11
+	QUAD $0x0c024c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r8 + 12], 12
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0c324c203a0f4466; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + rsi + 12], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0c024c203a0f4466; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + rax + 12], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0c024c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + rax + 12], 15
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x010d0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 13], 1
+	QUAD $0x0d3a74203a0f4266; BYTE $0x02       // pinsrb    xmm6, byte [rdx + r15 + 13], 2
+	QUAD $0x0d1a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 13], 3
+	QUAD $0x040d3a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 13], 4
+	QUAD $0x0d0a74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r9 + 13], 5
+	QUAD $0x060d1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 13], 6
+	QUAD $0x0d1274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r10 + 13], 7
+	QUAD $0x0d3274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r14 + 13], 8
+	QUAD $0x0d2274203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r12 + 13], 9
+	QUAD $0x0d2a74203a0f4266; BYTE $0x0a       // pinsrb    xmm6, byte [rdx + r13 + 13], 10
+	QUAD $0x0b0d0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 13], 11
+	QUAD $0x0d0274203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r8 + 13], 12
+	QUAD $0x0d0d3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 13], 13
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x0e0d0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 13], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0f0d0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 13], 15
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0e027c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rax + 14], 1
+	QUAD $0x0e3a7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r15 + 14], 2
+	QUAD $0x0e1a7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r11 + 14], 3
+	QUAD $0x0e3a7c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rdx + rdi + 14], 4
+	WORD $0x8949; BYTE $0xfb                   // mov    r11, rdi
+	QUAD $0x0e0a7c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rdx + r9 + 14], 5
+	QUAD $0x0e1a7c203a0f4466; BYTE $0x06       // pinsrb    xmm15, byte [rdx + rbx + 14], 6
+	QUAD $0x0e127c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r10 + 14], 7
+	QUAD $0x0e327c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r14 + 14], 8
+	QUAD $0x0e227c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r12 + 14], 9
+	QUAD $0x0e2a7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r13 + 14], 10
+	QUAD $0x0e0a7c203a0f4466; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + rcx + 14], 11
+	WORD $0x8949; BYTE $0xcd                   // mov    r13, rcx
+	QUAD $0x0e027c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r8 + 14], 12
+	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
+	QUAD $0x0e327c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rsi + 14], 13
+	LONG $0x247c8b4c; BYTE $0x28               // mov    r15, qword [rsp + 40]
+	QUAD $0x0e3a7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + r15 + 14], 14
+	LONG $0x640f4566; BYTE $0xce               // pcmpgtb    xmm9, xmm14
+	QUAD $0x0001308ddf0f4466; BYTE $0x00       // pandn    xmm9, oword 304[rbp] /* [rip + .LCPI11_19] */
+	LONG $0xeb0f4566; BYTE $0xcd               // por    xmm9, xmm13
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
+	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
+	QUAD $0x0001609df80f4466; BYTE $0x00       // psubb    xmm11, oword 352[rbp] /* [rip + .LCPI11_22] */
+	LONG $0xeb0f4566; BYTE $0xcb               // por    xmm9, xmm11
+	LONG $0x0274b60f; BYTE $0x1a               // movzx    esi, byte [rdx + rax + 26]
+	LONG $0xc66e0f66                           // movd    xmm0, esi
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0e0a7c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + rcx + 14], 15
+	LONG $0x640f4166; BYTE $0xf6               // pcmpgtb    xmm6, xmm14
+	QUAD $0x00000140b5df0f66                   // pandn    xmm6, oword 320[rbp] /* [rip + .LCPI11_20] */
+	LONG $0x640f4566; BYTE $0xfe               // pcmpgtb    xmm15, xmm14
+	QUAD $0x000150bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 336[rbp] /* [rip + .LCPI11_21] */
+	LONG $0xeb0f4466; BYTE $0xfe               // por    xmm15, xmm6
+	LONG $0x0274b60f; BYTE $0x1b               // movzx    esi, byte [rdx + rax + 27]
+	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
+	QUAD $0x0000a024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 160]
+	LONG $0x24448b4c; BYTE $0x08               // mov    r8, qword [rsp + 8]
+	QUAD $0x0f0274203a0f4266; BYTE $0x01       // pinsrb    xmm6, byte [rdx + r8 + 15], 1
+	LONG $0x247c8b48; BYTE $0x20               // mov    rdi, qword [rsp + 32]
+	QUAD $0x020f3a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 15], 2
+	LONG $0x24748b48; BYTE $0x18               // mov    rsi, qword [rsp + 24]
+	QUAD $0x030f3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 15], 3
+	QUAD $0x0f1a74203a0f4266; BYTE $0x04       // pinsrb    xmm6, byte [rdx + r11 + 15], 4
+	QUAD $0x0f0a74203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r9 + 15], 5
+	WORD $0x8949; BYTE $0xd9                   // mov    r9, rbx
+	QUAD $0x060f1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 15], 6
+	QUAD $0x0f1274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r10 + 15], 7
+	QUAD $0x0f3274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r14 + 15], 8
+	WORD $0x894d; BYTE $0xf2                   // mov    r10, r14
+	LONG $0x245c8b4c; BYTE $0x50               // mov    r11, qword [rsp + 80]
+	QUAD $0x0f1a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r11 + 15], 9
+	LONG $0x245c8b48; BYTE $0x38               // mov    rbx, qword [rsp + 56]
+	QUAD $0x0a0f1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 15], 10
+	QUAD $0x0f2a74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r13 + 15], 11
+	QUAD $0x0f2274203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r12 + 15], 12
+	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
+	QUAD $0x0f2274203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rdx + r12 + 15], 13
+	QUAD $0x0f3a74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r15 + 15], 14
+	QUAD $0x0f0f0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 15], 15
+	LONG $0x640f4166; BYTE $0xf6               // pcmpgtb    xmm6, xmm14
+	LONG $0x75df0f66; BYTE $0x60               // pandn    xmm6, oword 96[rbp] /* [rip + .LCPI11_6] */
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x0274b60f; BYTE $0x1c               // movzx    esi, byte [rdx + rax + 28]
+	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
+	LONG $0xeb0f4166; BYTE $0xf1               // por    xmm6, xmm9
+	QUAD $0x0000a024b47f0f66; BYTE $0x00       // movdqa    oword [rsp + 160], xmm6
+	LONG $0x0274b60f; BYTE $0x1d               // movzx    esi, byte [rdx + rax + 29]
+	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
+	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
+	QUAD $0x100254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r8 + 16], 1
+	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
+	QUAD $0x103a54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rdi + 16], 2
+	LONG $0x244c8b48; BYTE $0x18               // mov    rcx, qword [rsp + 24]
+	QUAD $0x100a54203a0f4466; BYTE $0x03       // pinsrb    xmm10, byte [rdx + rcx + 16], 3
+	QUAD $0x0000008024bc8b48                   // mov    rdi, qword [rsp + 128]
+	QUAD $0x103a54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rdx + rdi + 16], 4
+	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
+	QUAD $0x100254203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r8 + 16], 5
+	QUAD $0x100a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r9 + 16], 6
+	LONG $0x244c8b4c; BYTE $0x68               // mov    r9, qword [rsp + 104]
+	QUAD $0x100a54203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r9 + 16], 7
+	QUAD $0x101254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r10 + 16], 8
+	QUAD $0x101a54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rdx + r11 + 16], 9
+	QUAD $0x101a54203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rbx + 16], 10
+	QUAD $0x102a54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r13 + 16], 11
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x103a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r15 + 16], 12
+	QUAD $0x102254203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r12 + 16], 13
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x100a54203a0f4466; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + rcx + 16], 14
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x103254203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rsi + 16], 15
+	QUAD $0x01110264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 17], 1
+	QUAD $0x113264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r14 + 17], 2
+	LONG $0x24748b4c; BYTE $0x18               // mov    r14, qword [rsp + 24]
+	QUAD $0x113264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r14 + 17], 3
+	QUAD $0x04113a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 17], 4
+	QUAD $0x110264203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r8 + 17], 5
+	LONG $0x24648b4c; BYTE $0x40               // mov    r12, qword [rsp + 64]
+	QUAD $0x112264203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r12 + 17], 6
+	QUAD $0x110a64203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r9 + 17], 7
+	QUAD $0x111264203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r10 + 17], 8
+	QUAD $0x111a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r11 + 17], 9
+	QUAD $0x0a111a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 17], 10
+	QUAD $0x112a64203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r13 + 17], 11
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	QUAD $0x113a64203a0f4266; BYTE $0x0c       // pinsrb    xmm4, byte [rdx + r15 + 17], 12
+	LONG $0x24448b4c; BYTE $0x30               // mov    r8, qword [rsp + 48]
+	QUAD $0x110264203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r8 + 17], 13
+	QUAD $0x0e110a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 17], 14
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	QUAD $0x0f113264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 17], 15
+	WORD $0x8949; BYTE $0xf7                   // mov    r15, rsi
+	LONG $0x640f4566; BYTE $0xd6               // pcmpgtb    xmm10, xmm14
+	LONG $0x640f4166; BYTE $0xe6               // pcmpgtb    xmm4, xmm14
+	QUAD $0x00000100b56f0f66                   // movdqa    xmm6, oword 256[rbp] /* [rip + .LCPI11_16] */
+	LONG $0xe6df0f66                           // pandn    xmm4, xmm6
+	LONG $0xfc0f4166; BYTE $0xe2               // paddb    xmm4, xmm10
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
+	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x0112327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 18], 1
+	QUAD $0x0113326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 19], 1
+	QUAD $0x0114325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 20], 1
+	QUAD $0x01153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 1
+	QUAD $0x0116324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 22], 1
+	QUAD $0x173244203a0f4466; BYTE $0x01       // pinsrb    xmm8, byte [rdx + rsi + 23], 1
+	QUAD $0x183264203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rsi + 24], 1
+	QUAD $0x19326c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rsi + 25], 1
+	QUAD $0x011a3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 26], 1
+	QUAD $0x1b325c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rsi + 27], 1
+	QUAD $0x1c327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 28], 1
+	QUAD $0x1d324c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rsi + 29], 1
+	QUAD $0x1e3254203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rsi + 30], 1
+	LONG $0x0244b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rax + 31]
+	LONG $0xf06e0f66                           // movd    xmm6, eax
+	QUAD $0x011f3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 31], 1
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0212027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 2
+	QUAD $0x0213026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 19], 2
+	QUAD $0x0214025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 20], 2
+	QUAD $0x02150254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 21], 2
+	QUAD $0x0216024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 22], 2
+	QUAD $0x170244203a0f4466; BYTE $0x02       // pinsrb    xmm8, byte [rdx + rax + 23], 2
+	QUAD $0x180264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rax + 24], 2
+	QUAD $0x19026c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rax + 25], 2
+	QUAD $0x021a0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 26], 2
+	QUAD $0x1b025c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rax + 27], 2
+	QUAD $0x1c027c203a0f4466; BYTE $0x02       // pinsrb    xmm15, byte [rdx + rax + 28], 2
+	QUAD $0x1d024c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rax + 29], 2
+	QUAD $0x1e0254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rax + 30], 2
+	QUAD $0x021f0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 31], 2
+	WORD $0x894d; BYTE $0xf3                   // mov    r11, r14
+	QUAD $0x12327c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r14 + 18], 3
+	QUAD $0x04123a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 18], 4
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x05120a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 18], 5
+	QUAD $0x12227c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r12 + 18], 6
+	LONG $0x24548b4c; BYTE $0x68               // mov    r10, qword [rsp + 104]
+	QUAD $0x12127c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r10 + 18], 7
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x12327c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r14 + 18], 8
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	QUAD $0x0912027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 18], 9
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0a12327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 18], 10
+	QUAD $0x122a7c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r13 + 18], 11
+	QUAD $0x0c121a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 18], 12
+	QUAD $0x12027c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rdx + r8 + 18], 13
+	QUAD $0x120a7c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r9 + 18], 14
+	QUAD $0x123a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r15 + 18], 15
+	QUAD $0x131a6c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r11 + 19], 3
+	QUAD $0x04133a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 19], 4
+	QUAD $0x05130a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 19], 5
+	QUAD $0x13226c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r12 + 19], 6
+	QUAD $0x13126c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r10 + 19], 7
+	QUAD $0x13326c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r14 + 19], 8
+	QUAD $0x0913026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 19], 9
+	QUAD $0x0a13326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 19], 10
+	QUAD $0x132a6c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r13 + 19], 11
+	QUAD $0x0c131a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 19], 12
+	QUAD $0x13026c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r8 + 19], 13
+	QUAD $0x130a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r9 + 19], 14
+	QUAD $0x133a6c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r15 + 19], 15
+	QUAD $0x141a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r11 + 20], 3
+	QUAD $0x04143a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 20], 4
+	QUAD $0x05140a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 20], 5
+	QUAD $0x14225c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r12 + 20], 6
+	QUAD $0x14125c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r10 + 20], 7
+	QUAD $0x14325c203a0f4266; BYTE $0x08       // pinsrb    xmm3, byte [rdx + r14 + 20], 8
+	QUAD $0x0914025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 20], 9
+	QUAD $0x0a14325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 20], 10
+	QUAD $0x142a5c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r13 + 20], 11
+	QUAD $0x0c141a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 20], 12
+	QUAD $0x14025c203a0f4266; BYTE $0x0d       // pinsrb    xmm3, byte [rdx + r8 + 20], 13
+	QUAD $0x140a5c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r9 + 20], 14
+	LONG $0x640f4166; BYTE $0xfe               // pcmpgtb    xmm7, xmm14
+	QUAD $0x000110b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 272[rbp] /* [rip + .LCPI11_17] */
+	LONG $0xdf0f4166; BYTE $0xfe               // pandn    xmm7, xmm14
+	QUAD $0x00009024ac640f66; BYTE $0x00       // pcmpgtb    xmm5, oword [rsp + 144]
+	QUAD $0x000120b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 288[rbp] /* [rip + .LCPI11_18] */
+	LONG $0xdf0f4166; BYTE $0xee               // pandn    xmm5, xmm14
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	QUAD $0x143a5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r15 + 20], 15
+	QUAD $0x009024b46f0f4466; WORD $0x0000     // movdqa    xmm14, oword [rsp + 144]
+	LONG $0x640f4166; BYTE $0xde               // pcmpgtb    xmm3, xmm14
+	QUAD $0x00000130bd6f0f66                   // movdqa    xmm7, oword 304[rbp] /* [rip + .LCPI11_19] */
+	LONG $0xdfdf0f66                           // pandn    xmm3, xmm7
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	LONG $0xed760f66                           // pcmpeqd    xmm5, xmm5
+	LONG $0xe5f80f66                           // psubb    xmm4, xmm5
+	LONG $0xdceb0f66                           // por    xmm3, xmm4
+	QUAD $0x151a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 21], 3
+	QUAD $0x04153a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 21], 4
+	QUAD $0x05150a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 21], 5
+	QUAD $0x152254203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r12 + 21], 6
+	QUAD $0x151254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r10 + 21], 7
+	QUAD $0x153254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r14 + 21], 8
+	QUAD $0x09150254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 21], 9
+	QUAD $0x0a153254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 21], 10
+	QUAD $0x152a54203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r13 + 21], 11
+	QUAD $0x0c151a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 21], 12
+	QUAD $0x150254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r8 + 21], 13
+	QUAD $0x150a54203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r9 + 21], 14
+	QUAD $0x153a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r15 + 21], 15
+	QUAD $0x161a4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r11 + 22], 3
+	QUAD $0x04163a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 22], 4
+	QUAD $0x05160a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 22], 5
+	QUAD $0x16224c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r12 + 22], 6
+	QUAD $0x16124c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r10 + 22], 7
+	QUAD $0x16324c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r14 + 22], 8
+	QUAD $0x0916024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 22], 9
+	QUAD $0x0a16324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 22], 10
+	QUAD $0x162a4c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r13 + 22], 11
+	QUAD $0x0c161a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 22], 12
+	QUAD $0x16024c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r8 + 22], 13
+	QUAD $0x160a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r9 + 22], 14
+	QUAD $0x163a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r15 + 22], 15
+	QUAD $0x171a44203a0f4666; BYTE $0x03       // pinsrb    xmm8, byte [rdx + r11 + 23], 3
+	QUAD $0x173a44203a0f4466; BYTE $0x04       // pinsrb    xmm8, byte [rdx + rdi + 23], 4
+	QUAD $0x170a44203a0f4466; BYTE $0x05       // pinsrb    xmm8, byte [rdx + rcx + 23], 5
+	QUAD $0x172244203a0f4666; BYTE $0x06       // pinsrb    xmm8, byte [rdx + r12 + 23], 6
+	QUAD $0x171244203a0f4666; BYTE $0x07       // pinsrb    xmm8, byte [rdx + r10 + 23], 7
+	QUAD $0x173244203a0f4666; BYTE $0x08       // pinsrb    xmm8, byte [rdx + r14 + 23], 8
+	QUAD $0x170244203a0f4466; BYTE $0x09       // pinsrb    xmm8, byte [rdx + rax + 23], 9
+	QUAD $0x173244203a0f4466; BYTE $0x0a       // pinsrb    xmm8, byte [rdx + rsi + 23], 10
+	QUAD $0x172a44203a0f4666; BYTE $0x0b       // pinsrb    xmm8, byte [rdx + r13 + 23], 11
+	QUAD $0x171a44203a0f4466; BYTE $0x0c       // pinsrb    xmm8, byte [rdx + rbx + 23], 12
+	QUAD $0x170244203a0f4666; BYTE $0x0d       // pinsrb    xmm8, byte [rdx + r8 + 23], 13
+	QUAD $0x170a44203a0f4666; BYTE $0x0e       // pinsrb    xmm8, byte [rdx + r9 + 23], 14
+	LONG $0x640f4166; BYTE $0xd6               // pcmpgtb    xmm2, xmm14
+	QUAD $0x00000140ad6f0f66                   // movdqa    xmm5, oword 320[rbp] /* [rip + .LCPI11_20] */
+	LONG $0xd5df0f66                           // pandn    xmm2, xmm5
+	LONG $0x640f4166; BYTE $0xce               // pcmpgtb    xmm1, xmm14
+	QUAD $0x00000150bd6f0f66                   // movdqa    xmm7, oword 336[rbp] /* [rip + .LCPI11_21] */
+	LONG $0xcfdf0f66                           // pandn    xmm1, xmm7
+	LONG $0xcaeb0f66                           // por    xmm1, xmm2
+	QUAD $0x173a44203a0f4666; BYTE $0x0f       // pinsrb    xmm8, byte [rdx + r15 + 23], 15
+	LONG $0x640f4566; BYTE $0xc6               // pcmpgtb    xmm8, xmm14
+	LONG $0x656f0f66; BYTE $0x60               // movdqa    xmm4, oword 96[rbp] /* [rip + .LCPI11_6] */
+	LONG $0xdf0f4466; BYTE $0xc4               // pandn    xmm8, xmm4
+	LONG $0xeb0f4466; BYTE $0xc1               // por    xmm8, xmm1
+	QUAD $0x181a64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r11 + 24], 3
+	QUAD $0x183a64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rdi + 24], 4
+	QUAD $0x180a64203a0f4466; BYTE $0x05       // pinsrb    xmm12, byte [rdx + rcx + 24], 5
+	QUAD $0x182264203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r12 + 24], 6
+	QUAD $0x181264203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r10 + 24], 7
+	QUAD $0x183264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r14 + 24], 8
+	QUAD $0x180264203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rax + 24], 9
+	QUAD $0x183264203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rsi + 24], 10
+	QUAD $0x182a64203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r13 + 24], 11
+	QUAD $0x181a64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + rbx + 24], 12
+	QUAD $0x180264203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r8 + 24], 13
+	QUAD $0x180a64203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r9 + 24], 14
+	QUAD $0x183a64203a0f4666; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + r15 + 24], 15
+	LONG $0xeb0f4466; BYTE $0xc3               // por    xmm8, xmm3
+	LONG $0x640f4566; BYTE $0xe6               // pcmpgtb    xmm12, xmm14
+	QUAD $0x191a6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r11 + 25], 3
+	QUAD $0x193a6c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rdi + 25], 4
+	QUAD $0x190a6c203a0f4466; BYTE $0x05       // pinsrb    xmm13, byte [rdx + rcx + 25], 5
+	QUAD $0x19226c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r12 + 25], 6
+	QUAD $0x19126c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r10 + 25], 7
+	QUAD $0x19326c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r14 + 25], 8
+	QUAD $0x19026c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rax + 25], 9
+	QUAD $0x19326c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rsi + 25], 10
+	QUAD $0x192a6c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r13 + 25], 11
+	QUAD $0x191a6c203a0f4466; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + rbx + 25], 12
+	QUAD $0x19026c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r8 + 25], 13
+	QUAD $0x190a6c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r9 + 25], 14
+	QUAD $0x193a6c203a0f4666; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + r15 + 25], 15
+	QUAD $0x1a1a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r11 + 26], 3
+	QUAD $0x041a3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 26], 4
+	QUAD $0x051a0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 26], 5
+	QUAD $0x1a2244203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r12 + 26], 6
+	QUAD $0x1a1244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r10 + 26], 7
+	QUAD $0x1a3244203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r14 + 26], 8
+	QUAD $0x091a0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 26], 9
+	QUAD $0x0a1a3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 26], 10
+	QUAD $0x1a2a44203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r13 + 26], 11
+	QUAD $0x0c1a1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 26], 12
+	QUAD $0x1a0244203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rdx + r8 + 26], 13
+	QUAD $0x1a0a44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r9 + 26], 14
+	QUAD $0x1a3a44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r15 + 26], 15
+	QUAD $0x1b1a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r11 + 27], 3
+	QUAD $0x1b3a5c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rdi + 27], 4
+	QUAD $0x1b0a5c203a0f4466; BYTE $0x05       // pinsrb    xmm11, byte [rdx + rcx + 27], 5
+	QUAD $0x1b225c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r12 + 27], 6
+	QUAD $0x1b125c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r10 + 27], 7
+	QUAD $0x1b325c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r14 + 27], 8
+	QUAD $0x1b025c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rax + 27], 9
+	QUAD $0x1b325c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rsi + 27], 10
+	QUAD $0x1b2a5c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r13 + 27], 11
+	QUAD $0x1b1a5c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + rbx + 27], 12
+	QUAD $0x1b025c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r8 + 27], 13
+	QUAD $0x1b0a5c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r9 + 27], 14
+	LONG $0x640f4566; BYTE $0xee               // pcmpgtb    xmm13, xmm14
+	QUAD $0x000100addf0f4466; BYTE $0x00       // pandn    xmm13, oword 256[rbp] /* [rip + .LCPI11_16] */
+	LONG $0xfc0f4566; BYTE $0xec               // paddb    xmm13, xmm12
+	QUAD $0x1b3a5c203a0f4666; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + r15 + 27], 15
+	LONG $0x640f4166; BYTE $0xc6               // pcmpgtb    xmm0, xmm14
+	QUAD $0x0000011085df0f66                   // pandn    xmm0, oword 272[rbp] /* [rip + .LCPI11_17] */
+	LONG $0x640f4566; BYTE $0xde               // pcmpgtb    xmm11, xmm14
+	QUAD $0x0001209ddf0f4466; BYTE $0x00       // pandn    xmm11, oword 288[rbp] /* [rip + .LCPI11_18] */
+	LONG $0xeb0f4466; BYTE $0xd8               // por    xmm11, xmm0
+	QUAD $0x1c1a7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r11 + 28], 3
+	QUAD $0x1d1a4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r11 + 29], 3
+	QUAD $0x1e1a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r11 + 30], 3
+	QUAD $0x1f1a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 31], 3
+	QUAD $0x1c3a7c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rdx + rdi + 28], 4
+	QUAD $0x1d3a4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rdx + rdi + 29], 4
+	QUAD $0x1e3a54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rdx + rdi + 30], 4
+	QUAD $0x041f3a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 31], 4
+	WORD $0x8948; BYTE $0xcf                   // mov    rdi, rcx
+	QUAD $0x1c0a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rcx + 28], 5
+	QUAD $0x1d0a4c203a0f4466; BYTE $0x05       // pinsrb    xmm9, byte [rdx + rcx + 29], 5
+	QUAD $0x1e0a54203a0f4466; BYTE $0x05       // pinsrb    xmm10, byte [rdx + rcx + 30], 5
+	QUAD $0x051f0a74203a0f66                   // pinsrb    xmm6, byte [rdx + rcx + 31], 5
+	QUAD $0x1c227c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r12 + 28], 6
+	QUAD $0x1d224c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r12 + 29], 6
+	QUAD $0x1e2254203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r12 + 30], 6
+	QUAD $0x1f2274203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r12 + 31], 6
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	WORD $0x894c; BYTE $0xd7                   // mov    rdi, r10
+	QUAD $0x1c127c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r10 + 28], 7
+	QUAD $0x1d124c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r10 + 29], 7
+	QUAD $0x1e1254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r10 + 30], 7
+	QUAD $0x1f1274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r10 + 31], 7
+	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
+	QUAD $0x1c327c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r14 + 28], 8
+	QUAD $0x1d324c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r14 + 29], 8
+	QUAD $0x1e3254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r14 + 30], 8
+	QUAD $0x1f3274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r14 + 31], 8
+	QUAD $0x1c027c203a0f4466; BYTE $0x09       // pinsrb    xmm15, byte [rdx + rax + 28], 9
+	QUAD $0x1d024c203a0f4466; BYTE $0x09       // pinsrb    xmm9, byte [rdx + rax + 29], 9
+	QUAD $0x1e0254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rax + 30], 9
+	QUAD $0x091f0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 31], 9
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	QUAD $0x1c327c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + rsi + 28], 10
+	QUAD $0x1d324c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + rsi + 29], 10
+	QUAD $0x1e3254203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rsi + 30], 10
+	QUAD $0x0a1f3274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 31], 10
+	QUAD $0x1c2a7c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r13 + 28], 11
+	QUAD $0x1d2a4c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r13 + 29], 11
+	QUAD $0x1e2a54203a0f4666; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + r13 + 30], 11
+	QUAD $0x1f2a74203a0f4266; BYTE $0x0b       // pinsrb    xmm6, byte [rdx + r13 + 31], 11
+	QUAD $0x1c1a7c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + rbx + 28], 12
+	QUAD $0x1d1a4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + rbx + 29], 12
+	QUAD $0x1e1a54203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rbx + 30], 12
+	QUAD $0x0c1f1a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 31], 12
+	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
+	QUAD $0x1c027c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + r8 + 28], 13
+	QUAD $0x1d024c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + r8 + 29], 13
+	QUAD $0x1e0254203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r8 + 30], 13
+	QUAD $0x1f0274203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rdx + r8 + 31], 13
+	WORD $0x894c; BYTE $0xc8                   // mov    rax, r9
+	QUAD $0x1c0a7c203a0f4666; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + r9 + 28], 14
+	QUAD $0x1d0a4c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r9 + 29], 14
+	QUAD $0x1e0a54203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r9 + 30], 14
+	QUAD $0x1f0a74203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r9 + 31], 14
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x1c027c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + rax + 28], 15
+	QUAD $0x1d024c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + rax + 29], 15
+	QUAD $0x1e0254203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rax + 30], 15
+	LONG $0x640f4566; BYTE $0xfe               // pcmpgtb    xmm15, xmm14
+	QUAD $0x000130bddf0f4466; BYTE $0x00       // pandn    xmm15, oword 304[rbp] /* [rip + .LCPI11_19] */
+	LONG $0xeb0f4566; BYTE $0xfb               // por    xmm15, xmm11
+	QUAD $0x0f1f0274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 31], 15
+	QUAD $0x000160adf80f4466; BYTE $0x00       // psubb    xmm13, oword 352[rbp] /* [rip + .LCPI11_22] */
+	LONG $0xeb0f4566; BYTE $0xfd               // por    xmm15, xmm13
+	LONG $0x640f4566; BYTE $0xce               // pcmpgtb    xmm9, xmm14
+	LONG $0xdf0f4466; BYTE $0xcd               // pandn    xmm9, xmm5
+	LONG $0x640f4566; BYTE $0xd6               // pcmpgtb    xmm10, xmm14
+	LONG $0xdf0f4466; BYTE $0xd7               // pandn    xmm10, xmm7
+	LONG $0xeb0f4566; BYTE $0xd1               // por    xmm10, xmm9
+	LONG $0x640f4166; BYTE $0xf6               // pcmpgtb    xmm6, xmm14
+	LONG $0xf4df0f66                           // pandn    xmm6, xmm4
+	LONG $0xeb0f4166; BYTE $0xf2               // por    xmm6, xmm10
+	LONG $0xeb0f4166; BYTE $0xf7               // por    xmm6, xmm15
+	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
+	LONG $0xc6600f66                           // punpcklbw    xmm0, xmm6
+	QUAD $0x0000c0249c6f0f66; BYTE $0x00       // movdqa    xmm3, oword [rsp + 192]
+	LONG $0xcb6f0f66                           // movdqa    xmm1, xmm3
+	QUAD $0x0000a024a46f0f66; BYTE $0x00       // movdqa    xmm4, oword [rsp + 160]
+	LONG $0xcc600f66                           // punpcklbw    xmm1, xmm4
+	LONG $0xd16f0f66                           // movdqa    xmm2, xmm1
+	LONG $0xd0610f66                           // punpcklwd    xmm2, xmm0
+	LONG $0xc8690f66                           // punpckhwd    xmm1, xmm0
+	LONG $0x680f4466; BYTE $0xc6               // punpckhbw    xmm8, xmm6
+	LONG $0xdc680f66                           // punpckhbw    xmm3, xmm4
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x610f4166; BYTE $0xc0               // punpcklwd    xmm0, xmm8
+	LONG $0x690f4166; BYTE $0xd8               // punpckhwd    xmm3, xmm8
+	QUAD $0x000000e0248c8b48                   // mov    rcx, qword [rsp + 224]
+	LONG $0x7f0f41f3; WORD $0x8f5c; BYTE $0x30 // movdqu    oword [r15 + 4*rcx + 48], xmm3
+	LONG $0x7f0f41f3; WORD $0x8f44; BYTE $0x20 // movdqu    oword [r15 + 4*rcx + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x8f4c; BYTE $0x10 // movdqu    oword [r15 + 4*rcx + 16], xmm1
+	LONG $0x7f0f41f3; WORD $0x8f14             // movdqu    oword [r15 + 4*rcx], xmm2
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x00000100248c3b48                   // cmp    rcx, qword [rsp + 256]
+	JNE  LBB11_86
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x0000010024943b4c                   // cmp    r10, qword [rsp + 256]
+	LONG $0x24348a44                           // mov    r14b, byte [rsp]
+	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
+	QUAD $0x0000011824948b48                   // mov    rdx, qword [rsp + 280]
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	JNE  LBB11_88
+	JMP  LBB11_91
+
+LBB11_66:
+	LONG $0xf0e28349                       // and    r10, -16
+	WORD $0x894c; BYTE $0xd0               // mov    rax, r10
+	LONG $0x05e0c148                       // shl    rax, 5
+	WORD $0x0148; BYTE $0xd0               // add    rax, rdx
+	QUAD $0x0000011824848948               // mov    qword [rsp + 280], rax
+	QUAD $0x000000c02494894c               // mov    qword [rsp + 192], r10
+	LONG $0x97048d4b                       // lea    rax, [r15 + 4*r10]
+	QUAD $0x0000012024848948               // mov    qword [rsp + 288], rax
+	LONG $0xc6b60f41                       // movzx    eax, r14b
+	LONG $0xc86e0f66                       // movd    xmm1, eax
+	LONG $0xc0ef0f66                       // pxor    xmm0, xmm0
+	LONG $0x00380f66; BYTE $0xc8           // pshufb    xmm1, xmm0
+	QUAD $0x000100248c7f0f66; BYTE $0x00   // movdqa    oword [rsp + 256], xmm1
+	WORD $0xc031                           // xor    eax, eax
+	LONG $0x247c894c; BYTE $0x78           // mov    qword [rsp + 120], r15
+	QUAD $0x010024846f0f4466; WORD $0x0000 // movdqa    xmm8, oword [rsp + 256]
+
+LBB11_67:
+	QUAD $0x0000008024848948                   // mov    qword [rsp + 128], rax
+	LONG $0x05e0c148                           // shl    rax, 5
+	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
+	WORD $0x8948; BYTE $0xc3                   // mov    rbx, rax
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	LONG $0x24448948; BYTE $0x20               // mov    qword [rsp + 32], rax
+	WORD $0x8949; BYTE $0xc4                   // mov    r12, rax
+	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
+	WORD $0x8949; BYTE $0xc3                   // mov    r11, rax
+	WORD $0x8949; BYTE $0xc1                   // mov    r9, rax
+	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
+	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	LONG $0x020cb60f                           // movzx    ecx, byte [rdx + rax]
+	LONG $0xf16e0f66                           // movd    xmm6, ecx
+	LONG $0x024cb60f; BYTE $0x01               // movzx    ecx, byte [rdx + rax + 1]
+	LONG $0x6e0f4466; BYTE $0xf9               // movd    xmm15, ecx
+	LONG $0x024cb60f; BYTE $0x02               // movzx    ecx, byte [rdx + rax + 2]
+	LONG $0xe96e0f66                           // movd    xmm5, ecx
+	LONG $0x024cb60f; BYTE $0x03               // movzx    ecx, byte [rdx + rax + 3]
+	LONG $0xe16e0f66                           // movd    xmm4, ecx
+	LONG $0x024cb60f; BYTE $0x04               // movzx    ecx, byte [rdx + rax + 4]
+	LONG $0xd96e0f66                           // movd    xmm3, ecx
+	LONG $0x024cb60f; BYTE $0x05               // movzx    ecx, byte [rdx + rax + 5]
+	LONG $0xf96e0f66                           // movd    xmm7, ecx
+	LONG $0x024cb60f; BYTE $0x06               // movzx    ecx, byte [rdx + rax + 6]
+	LONG $0xd16e0f66                           // movd    xmm2, ecx
+	LONG $0x024cb60f; BYTE $0x07               // movzx    ecx, byte [rdx + rax + 7]
+	LONG $0x6e0f4466; BYTE $0xc9               // movd    xmm9, ecx
+	LONG $0x024cb60f; BYTE $0x08               // movzx    ecx, byte [rdx + rax + 8]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	QUAD $0x0000e024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 224], xmm0
+	LONG $0x024cb60f; BYTE $0x09               // movzx    ecx, byte [rdx + rax + 9]
+	LONG $0x6e0f4466; BYTE $0xd1               // movd    xmm10, ecx
+	LONG $0x024cb60f; BYTE $0x0a               // movzx    ecx, byte [rdx + rax + 10]
+	LONG $0x6e0f4466; BYTE $0xe1               // movd    xmm12, ecx
+	LONG $0x024cb60f; BYTE $0x0b               // movzx    ecx, byte [rdx + rax + 11]
+	LONG $0x6e0f4466; BYTE $0xd9               // movd    xmm11, ecx
+	LONG $0x024cb60f; BYTE $0x0c               // movzx    ecx, byte [rdx + rax + 12]
+	LONG $0x6e0f4466; BYTE $0xe9               // movd    xmm13, ecx
+	LONG $0x024cb60f; BYTE $0x0d               // movzx    ecx, byte [rdx + rax + 13]
+	LONG $0xc16e0f66                           // movd    xmm0, ecx
+	LONG $0x024cb60f; BYTE $0x0e               // movzx    ecx, byte [rdx + rax + 14]
+	LONG $0x6e0f4466; BYTE $0xf1               // movd    xmm14, ecx
+	LONG $0x024cb60f; BYTE $0x0f               // movzx    ecx, byte [rdx + rax + 15]
+	LONG $0xc96e0f66                           // movd    xmm1, ecx
+	QUAD $0x0000b0248c7f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm1
+	LONG $0x24448948; BYTE $0x50               // mov    qword [rsp + 80], rax
+	WORD $0x8949; BYTE $0xc5                   // mov    r13, rax
+	LONG $0x20cd8349                           // or    r13, 32
+	LONG $0x246c894c; BYTE $0x28               // mov    qword [rsp + 40], r13
+	LONG $0x40ce8349                           // or    r14, 64
+	LONG $0x60cb8348                           // or    rbx, 96
+	LONG $0x80cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 128
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	LONG $0xa0c98148; WORD $0x0000; BYTE $0x00 // or    rcx, 160
+	LONG $0x244c8948; BYTE $0x20               // mov    qword [rsp + 32], rcx
+	LONG $0xc0cc8149; WORD $0x0000; BYTE $0x00 // or    r12, 192
+	LONG $0xe0c88149; WORD $0x0000; BYTE $0x00 // or    r8, 224
+	LONG $0x00cb8149; WORD $0x0001; BYTE $0x00 // or    r11, 256
+	LONG $0x20c98149; WORD $0x0001; BYTE $0x00 // or    r9, 288
+	LONG $0x40ca8149; WORD $0x0001; BYTE $0x00 // or    r10, 320
+	LONG $0x60ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 352
+	LONG $0x24748948; BYTE $0x58               // mov    qword [rsp + 88], rsi
+	WORD $0x8948; BYTE $0xc6                   // mov    rsi, rax
+	LONG $0x80ce8148; WORD $0x0001; BYTE $0x00 // or    rsi, 384
+	LONG $0x24748948; BYTE $0x70               // mov    qword [rsp + 112], rsi
+	LONG $0xa0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 416
+	LONG $0x247c8948; BYTE $0x10               // mov    qword [rsp + 16], rdi
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	LONG $0xc0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 448
+	LONG $0x247c8948; BYTE $0x18               // mov    qword [rsp + 24], rdi
+	WORD $0x8948; BYTE $0xc7                   // mov    rdi, rax
+	LONG $0xe0cf8148; WORD $0x0001; BYTE $0x00 // or    rdi, 480
+	LONG $0x247c8948; BYTE $0x08               // mov    qword [rsp + 8], rdi
+	QUAD $0x012a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r13], 1
+	QUAD $0x023234203a0f4266                   // pinsrb    xmm6, byte [rdx + r14], 2
+	LONG $0x245c8948; BYTE $0x68               // mov    qword [rsp + 104], rbx
+	LONG $0x203a0f66; WORD $0x1a34; BYTE $0x03 // pinsrb    xmm6, byte [rdx + rbx], 3
+	QUAD $0x043a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r15], 4
+	LONG $0x203a0f66; WORD $0x0a34; BYTE $0x05 // pinsrb    xmm6, byte [rdx + rcx], 5
+	QUAD $0x062234203a0f4266                   // pinsrb    xmm6, byte [rdx + r12], 6
+	LONG $0x2444894c; BYTE $0x38               // mov    qword [rsp + 56], r8
+	QUAD $0x070234203a0f4266                   // pinsrb    xmm6, byte [rdx + r8], 7
+	LONG $0x245c894c; BYTE $0x48               // mov    qword [rsp + 72], r11
+	QUAD $0x081a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r11], 8
+	WORD $0x894d; BYTE $0xcb                   // mov    r11, r9
+	LONG $0x244c894c; BYTE $0x60               // mov    qword [rsp + 96], r9
+	QUAD $0x090a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r9], 9
+	WORD $0x894d; BYTE $0xd1                   // mov    r9, r10
+	QUAD $0x0a1234203a0f4266                   // pinsrb    xmm6, byte [rdx + r10], 10
+	LONG $0x24548b4c; BYTE $0x58               // mov    r10, qword [rsp + 88]
+	QUAD $0x0b1234203a0f4266                   // pinsrb    xmm6, byte [rdx + r10], 11
+	LONG $0x203a0f66; WORD $0x3234; BYTE $0x0c // pinsrb    xmm6, byte [rdx + rsi], 12
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	LONG $0x203a0f66; WORD $0x0234; BYTE $0x0d // pinsrb    xmm6, byte [rdx + rax], 13
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x0e2a34203a0f4266                   // pinsrb    xmm6, byte [rdx + r13], 14
+	LONG $0x203a0f66; WORD $0x3a34; BYTE $0x0f // pinsrb    xmm6, byte [rdx + rdi], 15
+	LONG $0xde0f4166; BYTE $0xf0               // pmaxub    xmm6, xmm8
+	LONG $0x740f4166; BYTE $0xf0               // pcmpeqb    xmm6, xmm8
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x013a7c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rdi + 1], 1
+	QUAD $0x01327c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r14 + 1], 2
+	QUAD $0x011a7c203a0f4466; BYTE $0x03       // pinsrb    xmm15, byte [rdx + rbx + 1], 3
+	QUAD $0x013a7c203a0f4666; BYTE $0x04       // pinsrb    xmm15, byte [rdx + r15 + 1], 4
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	QUAD $0x010a7c203a0f4466; BYTE $0x05       // pinsrb    xmm15, byte [rdx + rcx + 1], 5
+	QUAD $0x01227c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r12 + 1], 6
+	WORD $0x894d; BYTE $0xe7                   // mov    r15, r12
+	QUAD $0x01027c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r8 + 1], 7
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x012a7c203a0f4666; BYTE $0x08       // pinsrb    xmm15, byte [rdx + r13 + 1], 8
+	QUAD $0x011a7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r11 + 1], 9
+	QUAD $0x010a7c203a0f4666; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + r9 + 1], 10
+	LONG $0x244c894c; BYTE $0x40               // mov    qword [rsp + 64], r9
+	QUAD $0x01127c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r10 + 1], 11
+	WORD $0x894c; BYTE $0xd1                   // mov    rcx, r10
+	QUAD $0x01327c203a0f4466; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + rsi + 1], 12
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x01227c203a0f4666; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + r12 + 1], 13
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x01027c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rax + 1], 14
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x01027c203a0f4466; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + rax + 1], 15
+	LONG $0xde0f4566; BYTE $0xf8               // pmaxub    xmm15, xmm8
+	LONG $0x740f4566; BYTE $0xf8               // pcmpeqb    xmm15, xmm8
+	QUAD $0x000001008d6f0f66                   // movdqa    xmm1, oword 256[rbp] /* [rip + .LCPI11_16] */
+	LONG $0xdb0f4466; BYTE $0xf9               // pand    xmm15, xmm1
+	LONG $0xf80f4466; BYTE $0xfe               // psubb    xmm15, xmm6
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	LONG $0x0274b60f; BYTE $0x10               // movzx    esi, byte [rdx + rax + 16]
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x01023a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 2], 1
+	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
+	LONG $0x2474894c; BYTE $0x30               // mov    qword [rsp + 48], r14
+	QUAD $0x02326c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rdx + r14 + 2], 2
+	LONG $0x24748b4c; BYTE $0x68               // mov    r14, qword [rsp + 104]
+	QUAD $0x02326c203a0f4266; BYTE $0x03       // pinsrb    xmm5, byte [rdx + r14 + 2], 3
+	WORD $0x8949; BYTE $0xda                   // mov    r10, rbx
+	QUAD $0x04021a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 2], 4
+	LONG $0x24448b48; BYTE $0x20               // mov    rax, qword [rsp + 32]
+	QUAD $0x0502026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 2], 5
+	WORD $0x894c; BYTE $0xfb                   // mov    rbx, r15
+	QUAD $0x023a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r15 + 2], 6
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x0702326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 2], 7
+	WORD $0x894d; BYTE $0xeb                   // mov    r11, r13
+	QUAD $0x022a6c203a0f4266; BYTE $0x08       // pinsrb    xmm5, byte [rdx + r13 + 2], 8
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x023a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r15 + 2], 9
+	QUAD $0x020a6c203a0f4266; BYTE $0x0a       // pinsrb    xmm5, byte [rdx + r9 + 2], 10
+	QUAD $0x0b020a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 2], 11
+	LONG $0x244c8b48; BYTE $0x70               // mov    rcx, qword [rsp + 112]
+	QUAD $0x0c020a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 2], 12
+	WORD $0x894d; BYTE $0xe5                   // mov    r13, r12
+	QUAD $0x02226c203a0f4266; BYTE $0x0d       // pinsrb    xmm5, byte [rdx + r12 + 2], 13
+	LONG $0x244c8b4c; BYTE $0x18               // mov    r9, qword [rsp + 24]
+	QUAD $0x020a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r9 + 2], 14
+	LONG $0x24648b4c; BYTE $0x08               // mov    r12, qword [rsp + 8]
+	QUAD $0x02226c203a0f4266; BYTE $0x0f       // pinsrb    xmm5, byte [rdx + r12 + 2], 15
+	QUAD $0x01033a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 3], 1
+	QUAD $0x030264203a0f4266; BYTE $0x02       // pinsrb    xmm4, byte [rdx + r8 + 3], 2
+	QUAD $0x033264203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r14 + 3], 3
+	QUAD $0x031264203a0f4266; BYTE $0x04       // pinsrb    xmm4, byte [rdx + r10 + 3], 4
+	QUAD $0x05030264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 3], 5
+	QUAD $0x06031a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 3], 6
+	QUAD $0x07033264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 3], 7
+	QUAD $0x031a64203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r11 + 3], 8
+	QUAD $0x033a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r15 + 3], 9
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x031a64203a0f4266; BYTE $0x0a       // pinsrb    xmm4, byte [rdx + r11 + 3], 10
+	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
+	QUAD $0x030264203a0f4266; BYTE $0x0b       // pinsrb    xmm4, byte [rdx + r8 + 3], 11
+	QUAD $0x0c030a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 3], 12
+	QUAD $0x032a64203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r13 + 3], 13
+	QUAD $0x030a64203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r9 + 3], 14
+	QUAD $0x032264203a0f4266; BYTE $0x0f       // pinsrb    xmm4, byte [rdx + r12 + 3], 15
+	LONG $0xde0f4166; BYTE $0xe8               // pmaxub    xmm5, xmm8
+	LONG $0x740f4166; BYTE $0xe8               // pcmpeqb    xmm5, xmm8
+	QUAD $0x00000110b56f0f66                   // movdqa    xmm6, oword 272[rbp] /* [rip + .LCPI11_17] */
+	LONG $0xeedb0f66                           // pand    xmm5, xmm6
+	LONG $0xde0f4166; BYTE $0xe0               // pmaxub    xmm4, xmm8
+	LONG $0x740f4166; BYTE $0xe0               // pcmpeqb    xmm4, xmm8
+	QUAD $0x00000120b56f0f66                   // movdqa    xmm6, oword 288[rbp] /* [rip + .LCPI11_18] */
+	LONG $0xe6db0f66                           // pand    xmm4, xmm6
+	LONG $0xe5eb0f66                           // por    xmm4, xmm5
+	LONG $0x244c8b48; BYTE $0x50               // mov    rcx, qword [rsp + 80]
+	LONG $0x0a74b60f; BYTE $0x11               // movzx    esi, byte [rdx + rcx + 17]
+	LONG $0xee6e0f66                           // movd    xmm5, esi
+	LONG $0xeb0f4166; BYTE $0xe7               // por    xmm4, xmm15
+	LONG $0x0a74b60f; BYTE $0x12               // movzx    esi, byte [rdx + rcx + 18]
+	LONG $0x6e0f4466; BYTE $0xfe               // movd    xmm15, esi
+	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
+	QUAD $0x01043a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 4], 1
+	LONG $0x246c8b4c; BYTE $0x30               // mov    r13, qword [rsp + 48]
+	QUAD $0x042a5c203a0f4266; BYTE $0x02       // pinsrb    xmm3, byte [rdx + r13 + 4], 2
+	LONG $0x24648b4c; BYTE $0x68               // mov    r12, qword [rsp + 104]
+	QUAD $0x04225c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r12 + 4], 3
+	QUAD $0x000000902494894c                   // mov    qword [rsp + 144], r10
+	QUAD $0x04125c203a0f4266; BYTE $0x04       // pinsrb    xmm3, byte [rdx + r10 + 4], 4
+	QUAD $0x0504025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 4], 5
+	QUAD $0x06041a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 4], 6
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x07040a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 4], 7
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x08040a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 4], 8
+	QUAD $0x043a5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r15 + 4], 9
+	WORD $0x894c; BYTE $0xde                   // mov    rsi, r11
+	QUAD $0x041a5c203a0f4266; BYTE $0x0a       // pinsrb    xmm3, byte [rdx + r11 + 4], 10
+	QUAD $0x04025c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r8 + 4], 11
+	LONG $0x244c8b4c; BYTE $0x70               // mov    r9, qword [rsp + 112]
+	QUAD $0x040a5c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r9 + 4], 12
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0d040a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 4], 13
+	LONG $0x247c8b48; BYTE $0x18               // mov    rdi, qword [rsp + 24]
+	QUAD $0x0e043a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 4], 14
+	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
+	QUAD $0x041a5c203a0f4266; BYTE $0x0f       // pinsrb    xmm3, byte [rdx + r11 + 4], 15
+	QUAD $0x05327c203a0f4266; BYTE $0x01       // pinsrb    xmm7, byte [rdx + r14 + 5], 1
+	QUAD $0x052a7c203a0f4266; BYTE $0x02       // pinsrb    xmm7, byte [rdx + r13 + 5], 2
+	QUAD $0x05227c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r12 + 5], 3
+	QUAD $0x05127c203a0f4266; BYTE $0x04       // pinsrb    xmm7, byte [rdx + r10 + 5], 4
+	QUAD $0x0505027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 5], 5
+	QUAD $0x06051a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 5], 6
+	LONG $0x244c8b48; BYTE $0x38               // mov    rcx, qword [rsp + 56]
+	QUAD $0x07050a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 5], 7
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x08050a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 5], 8
+	QUAD $0x053a7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r15 + 5], 9
+	QUAD $0x0a05327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 5], 10
+	QUAD $0x05027c203a0f4266; BYTE $0x0b       // pinsrb    xmm7, byte [rdx + r8 + 5], 11
+	QUAD $0x050a7c203a0f4266; BYTE $0x0c       // pinsrb    xmm7, byte [rdx + r9 + 5], 12
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0d050a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 5], 13
+	QUAD $0x0e053a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 5], 14
+	QUAD $0x051a7c203a0f4266; BYTE $0x0f       // pinsrb    xmm7, byte [rdx + r11 + 5], 15
+	QUAD $0x063254203a0f4266; BYTE $0x01       // pinsrb    xmm2, byte [rdx + r14 + 6], 1
+	QUAD $0x062a54203a0f4266; BYTE $0x02       // pinsrb    xmm2, byte [rdx + r13 + 6], 2
+	QUAD $0x062254203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r12 + 6], 3
+	QUAD $0x061254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r10 + 6], 4
+	QUAD $0x05060254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 6], 5
+	WORD $0x8949; BYTE $0xc2                   // mov    r10, rax
+	QUAD $0x06061a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 6], 6
+	WORD $0x8949; BYTE $0xdd                   // mov    r13, rbx
+	QUAD $0x000000a0249c8948                   // mov    qword [rsp + 160], rbx
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x07060254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 6], 7
+	WORD $0x8949; BYTE $0xc6                   // mov    r14, rax
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x08061a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 6], 8
+	QUAD $0x063a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r15 + 6], 9
+	WORD $0x894d; BYTE $0xfb                   // mov    r11, r15
+	QUAD $0x0a063254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 6], 10
+	QUAD $0x060254203a0f4266; BYTE $0x0b       // pinsrb    xmm2, byte [rdx + r8 + 6], 11
+	WORD $0x894d; BYTE $0xc4                   // mov    r12, r8
+	QUAD $0x060a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r9 + 6], 12
+	QUAD $0x0d060a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 6], 13
+	QUAD $0x0e063a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 6], 14
+	LONG $0x247c8b4c; BYTE $0x08               // mov    r15, qword [rsp + 8]
+	QUAD $0x063a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r15 + 6], 15
+	LONG $0xde0f4166; BYTE $0xd8               // pmaxub    xmm3, xmm8
+	LONG $0x740f4166; BYTE $0xd8               // pcmpeqb    xmm3, xmm8
+	QUAD $0x00000130b56f0f66                   // movdqa    xmm6, oword 304[rbp] /* [rip + .LCPI11_19] */
+	LONG $0xdedb0f66                           // pand    xmm3, xmm6
+	LONG $0xde0f4166; BYTE $0xf8               // pmaxub    xmm7, xmm8
+	LONG $0x740f4166; BYTE $0xf8               // pcmpeqb    xmm7, xmm8
+	QUAD $0x00000140b56f0f66                   // movdqa    xmm6, oword 320[rbp] /* [rip + .LCPI11_20] */
+	LONG $0xfedb0f66                           // pand    xmm7, xmm6
+	LONG $0xfbeb0f66                           // por    xmm7, xmm3
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	LONG $0x0274b60f; BYTE $0x13               // movzx    esi, byte [rdx + rax + 19]
+	LONG $0xde6e0f66                           // movd    xmm3, esi
+	LONG $0xde0f4166; BYTE $0xd0               // pmaxub    xmm2, xmm8
+	LONG $0x740f4166; BYTE $0xd0               // pcmpeqb    xmm2, xmm8
+	QUAD $0x00000150b56f0f66                   // movdqa    xmm6, oword 336[rbp] /* [rip + .LCPI11_21] */
+	LONG $0xd6db0f66                           // pand    xmm2, xmm6
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	LONG $0x0274b60f; BYTE $0x14               // movzx    esi, byte [rdx + rax + 20]
+	LONG $0xf66e0f66                           // movd    xmm6, esi
+	LONG $0xd4eb0f66                           // por    xmm2, xmm4
+	LONG $0x0274b60f; BYTE $0x15               // movzx    esi, byte [rdx + rax + 21]
+	LONG $0xe66e0f66                           // movd    xmm4, esi
+	LONG $0x247c8b48; BYTE $0x28               // mov    rdi, qword [rsp + 40]
+	QUAD $0x073a4c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rdi + 7], 1
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	QUAD $0x07024c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rax + 7], 2
+	LONG $0x24448b48; BYTE $0x68               // mov    rax, qword [rsp + 104]
+	QUAD $0x07024c203a0f4466; BYTE $0x03       // pinsrb    xmm9, byte [rdx + rax + 7], 3
+	QUAD $0x0000009024848b4c                   // mov    r8, qword [rsp + 144]
+	QUAD $0x07024c203a0f4666; BYTE $0x04       // pinsrb    xmm9, byte [rdx + r8 + 7], 4
+	QUAD $0x07124c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r10 + 7], 5
+	QUAD $0x072a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r13 + 7], 6
+	QUAD $0x07324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 7], 7
+	QUAD $0x071a4c203a0f4466; BYTE $0x08       // pinsrb    xmm9, byte [rdx + rbx + 7], 8
+	QUAD $0x071a4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r11 + 7], 9
+	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
+	LONG $0x245c8b4c; BYTE $0x40               // mov    r11, qword [rsp + 64]
+	QUAD $0x071a4c203a0f4666; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + r11 + 7], 10
+	QUAD $0x07224c203a0f4666; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + r12 + 7], 11
+	QUAD $0x070a4c203a0f4666; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + r9 + 7], 12
+	LONG $0x246c8b4c; BYTE $0x10               // mov    r13, qword [rsp + 16]
+	QUAD $0x072a4c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + r13 + 7], 13
+	LONG $0x24648b4c; BYTE $0x18               // mov    r12, qword [rsp + 24]
+	QUAD $0x07224c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r12 + 7], 14
+	QUAD $0x073a4c203a0f4666; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + r15 + 7], 15
+	LONG $0xde0f4566; BYTE $0xc8               // pmaxub    xmm9, xmm8
+	LONG $0x740f4566; BYTE $0xc8               // pcmpeqb    xmm9, xmm8
+	LONG $0x7d6f0f66; BYTE $0x60               // movdqa    xmm7, oword 96[rbp] /* [rip + .LCPI11_6] */
+	LONG $0xdb0f4466; BYTE $0xcf               // pand    xmm9, xmm7
+	LONG $0xeb0f4466; BYTE $0xca               // por    xmm9, xmm2
+	QUAD $0x00d0248c7f0f4466; WORD $0x0000     // movdqa    oword [rsp + 208], xmm9
+	LONG $0x244c8b4c; BYTE $0x50               // mov    r9, qword [rsp + 80]
+	LONG $0x74b60f42; WORD $0x160a             // movzx    esi, byte [rdx + r9 + 22]
+	LONG $0xfe6e0f66                           // movd    xmm7, esi
+	QUAD $0x0000e024946f0f66; BYTE $0x00       // movdqa    xmm2, oword [rsp + 224]
+	QUAD $0x01083a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 8], 1
+	WORD $0x8949; BYTE $0xfe                   // mov    r14, rdi
+	LONG $0x247c8b48; BYTE $0x30               // mov    rdi, qword [rsp + 48]
+	QUAD $0x02083a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 8], 2
+	QUAD $0x03080254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 8], 3
+	WORD $0x8949; BYTE $0xc7                   // mov    r15, rax
+	QUAD $0x080254203a0f4266; BYTE $0x04       // pinsrb    xmm2, byte [rdx + r8 + 8], 4
+	QUAD $0x081254203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r10 + 8], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x06080254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 8], 6
+	LONG $0x24748b48; BYTE $0x38               // mov    rsi, qword [rsp + 56]
+	QUAD $0x07083254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 8], 7
+	LONG $0x245c8b48; BYTE $0x48               // mov    rbx, qword [rsp + 72]
+	QUAD $0x08081a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 8], 8
+	QUAD $0x09080a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 8], 9
+	QUAD $0x081a54203a0f4266; BYTE $0x0a       // pinsrb    xmm2, byte [rdx + r11 + 8], 10
+	LONG $0x244c8b48; BYTE $0x58               // mov    rcx, qword [rsp + 88]
+	QUAD $0x0b080a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 8], 11
+	LONG $0x245c8b4c; BYTE $0x70               // mov    r11, qword [rsp + 112]
+	QUAD $0x081a54203a0f4266; BYTE $0x0c       // pinsrb    xmm2, byte [rdx + r11 + 8], 12
+	WORD $0x894c; BYTE $0xee                   // mov    rsi, r13
+	QUAD $0x082a54203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r13 + 8], 13
+	QUAD $0x082254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r12 + 8], 14
+	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
+	QUAD $0x082a54203a0f4266; BYTE $0x0f       // pinsrb    xmm2, byte [rdx + r13 + 8], 15
+	LONG $0xde0f4166; BYTE $0xd0               // pmaxub    xmm2, xmm8
+	LONG $0x740f4166; BYTE $0xd0               // pcmpeqb    xmm2, xmm8
+	QUAD $0x093254203a0f4666; BYTE $0x01       // pinsrb    xmm10, byte [rdx + r14 + 9], 1
+	QUAD $0x093a54203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rdi + 9], 2
+	QUAD $0x093a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r15 + 9], 3
+	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
+	QUAD $0x090254203a0f4666; BYTE $0x04       // pinsrb    xmm10, byte [rdx + r8 + 9], 4
+	WORD $0x894d; BYTE $0xc7                   // mov    r15, r8
+	QUAD $0x091254203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r10 + 9], 5
+	QUAD $0x090254203a0f4466; BYTE $0x06       // pinsrb    xmm10, byte [rdx + rax + 9], 6
+	WORD $0x8949; BYTE $0xc0                   // mov    r8, rax
+	LONG $0x24448b48; BYTE $0x38               // mov    rax, qword [rsp + 56]
+	QUAD $0x090254203a0f4466; BYTE $0x07       // pinsrb    xmm10, byte [rdx + rax + 9], 7
+	QUAD $0x091a54203a0f4466; BYTE $0x08       // pinsrb    xmm10, byte [rdx + rbx + 9], 8
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x090254203a0f4466; BYTE $0x09       // pinsrb    xmm10, byte [rdx + rax + 9], 9
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x090254203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rax + 9], 10
+	QUAD $0x090a54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rcx + 9], 11
+	WORD $0x894c; BYTE $0xd9                   // mov    rcx, r11
+	QUAD $0x091a54203a0f4666; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + r11 + 9], 12
+	QUAD $0x093254203a0f4466; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + rsi + 9], 13
+	QUAD $0x092254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r12 + 9], 14
+	QUAD $0x092a54203a0f4666; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + r13 + 9], 15
+	LONG $0xde0f4566; BYTE $0xd0               // pmaxub    xmm10, xmm8
+	LONG $0x740f4566; BYTE $0xd0               // pcmpeqb    xmm10, xmm8
+	QUAD $0x00010095db0f4466; BYTE $0x00       // pand    xmm10, oword 256[rbp] /* [rip + .LCPI11_16] */
+	LONG $0xf80f4466; BYTE $0xd2               // psubb    xmm10, xmm2
+	LONG $0x74b60f42; WORD $0x170a             // movzx    esi, byte [rdx + r9 + 23]
+	LONG $0xd66e0f66                           // movd    xmm2, esi
+	LONG $0x245c8b4c; BYTE $0x28               // mov    r11, qword [rsp + 40]
+	QUAD $0x0a1a64203a0f4666; BYTE $0x01       // pinsrb    xmm12, byte [rdx + r11 + 10], 1
+	QUAD $0x0a3a64203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rdi + 10], 2
+	WORD $0x8949; BYTE $0xfa                   // mov    r10, rdi
+	WORD $0x894c; BYTE $0xf6                   // mov    rsi, r14
+	QUAD $0x0a3264203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r14 + 10], 3
+	QUAD $0x0a3a64203a0f4666; BYTE $0x04       // pinsrb    xmm12, byte [rdx + r15 + 10], 4
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	QUAD $0x0a3264203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rdx + r14 + 10], 5
+	QUAD $0x0a0264203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r8 + 10], 6
+	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
+	LONG $0x247c8b4c; BYTE $0x38               // mov    r15, qword [rsp + 56]
+	QUAD $0x0a3a64203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r15 + 10], 7
+	LONG $0x246c8b4c; BYTE $0x48               // mov    r13, qword [rsp + 72]
+	QUAD $0x0a2a64203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r13 + 10], 8
+	LONG $0x247c8b48; BYTE $0x60               // mov    rdi, qword [rsp + 96]
+	QUAD $0x0a3a64203a0f4466; BYTE $0x09       // pinsrb    xmm12, byte [rdx + rdi + 10], 9
+	QUAD $0x0a0264203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rax + 10], 10
+	LONG $0x24448b4c; BYTE $0x58               // mov    r8, qword [rsp + 88]
+	QUAD $0x0a0264203a0f4666; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + r8 + 10], 11
+	WORD $0x8949; BYTE $0xc9                   // mov    r9, rcx
+	QUAD $0x0a0a64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + rcx + 10], 12
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0a0264203a0f4466; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + rax + 10], 13
+	QUAD $0x0a2264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r12 + 10], 14
+	LONG $0x244c8b48; BYTE $0x08               // mov    rcx, qword [rsp + 8]
+	QUAD $0x0a0a64203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rcx + 10], 15
+	QUAD $0x0b1a5c203a0f4666; BYTE $0x01       // pinsrb    xmm11, byte [rdx + r11 + 11], 1
+	QUAD $0x0b125c203a0f4666; BYTE $0x02       // pinsrb    xmm11, byte [rdx + r10 + 11], 2
+	QUAD $0x0b325c203a0f4466; BYTE $0x03       // pinsrb    xmm11, byte [rdx + rsi + 11], 3
+	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
+	QUAD $0x0000009024b48b48                   // mov    rsi, qword [rsp + 144]
+	QUAD $0x0b325c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rsi + 11], 4
+	QUAD $0x0b325c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r14 + 11], 5
+	QUAD $0x0b1a5c203a0f4466; BYTE $0x06       // pinsrb    xmm11, byte [rdx + rbx + 11], 6
+	QUAD $0x0b3a5c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r15 + 11], 7
+	WORD $0x894d; BYTE $0xfe                   // mov    r14, r15
+	QUAD $0x0b2a5c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r13 + 11], 8
+	QUAD $0x0b3a5c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rdi + 11], 9
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x0b1a5c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rbx + 11], 10
+	QUAD $0x0b025c203a0f4666; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + r8 + 11], 11
+	QUAD $0x0b0a5c203a0f4666; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + r9 + 11], 12
+	QUAD $0x0b025c203a0f4466; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + rax + 11], 13
+	QUAD $0x0b225c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r12 + 11], 14
+	QUAD $0x0b0a5c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rcx + 11], 15
+	LONG $0xde0f4566; BYTE $0xe0               // pmaxub    xmm12, xmm8
+	LONG $0x740f4566; BYTE $0xe0               // pcmpeqb    xmm12, xmm8
+	QUAD $0x000110a5db0f4466; BYTE $0x00       // pand    xmm12, oword 272[rbp] /* [rip + .LCPI11_17] */
+	LONG $0xde0f4566; BYTE $0xd8               // pmaxub    xmm11, xmm8
+	LONG $0x740f4566; BYTE $0xd8               // pcmpeqb    xmm11, xmm8
+	QUAD $0x0001209ddb0f4466; BYTE $0x00       // pand    xmm11, oword 288[rbp] /* [rip + .LCPI11_18] */
+	LONG $0xeb0f4566; BYTE $0xdc               // por    xmm11, xmm12
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	LONG $0x0274b60f; BYTE $0x18               // movzx    esi, byte [rdx + rax + 24]
+	LONG $0x6e0f4466; BYTE $0xce               // movd    xmm9, esi
+	LONG $0xeb0f4566; BYTE $0xda               // por    xmm11, xmm10
+	LONG $0x0274b60f; BYTE $0x19               // movzx    esi, byte [rdx + rax + 25]
+	LONG $0x6e0f4466; BYTE $0xe6               // movd    xmm12, esi
+	QUAD $0x0c1a6c203a0f4666; BYTE $0x01       // pinsrb    xmm13, byte [rdx + r11 + 12], 1
+	LONG $0x24648b4c; BYTE $0x30               // mov    r12, qword [rsp + 48]
+	QUAD $0x0c226c203a0f4666; BYTE $0x02       // pinsrb    xmm13, byte [rdx + r12 + 12], 2
+	WORD $0x894d; BYTE $0xd3                   // mov    r11, r10
+	QUAD $0x0c126c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r10 + 12], 3
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x0c3a6c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rdi + 12], 4
+	LONG $0x247c8b4c; BYTE $0x20               // mov    r15, qword [rsp + 32]
+	QUAD $0x0c3a6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rdx + r15 + 12], 5
+	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
+	QUAD $0x0c126c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r10 + 12], 6
+	QUAD $0x0c326c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r14 + 12], 7
+	QUAD $0x0c2a6c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r13 + 12], 8
+	LONG $0x244c8b48; BYTE $0x60               // mov    rcx, qword [rsp + 96]
+	QUAD $0x0c0a6c203a0f4466; BYTE $0x09       // pinsrb    xmm13, byte [rdx + rcx + 12], 9
+	QUAD $0x0c1a6c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rbx + 12], 10
+	QUAD $0x0c026c203a0f4666; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + r8 + 12], 11
+	QUAD $0x0c0a6c203a0f4666; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + r9 + 12], 12
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0c026c203a0f4466; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + rax + 12], 13
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0c026c203a0f4466; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + rax + 12], 14
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x0c326c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rsi + 12], 15
+	LONG $0x24448b48; BYTE $0x28               // mov    rax, qword [rsp + 40]
+	QUAD $0x010d0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 13], 1
+	QUAD $0x0d2244203a0f4266; BYTE $0x02       // pinsrb    xmm0, byte [rdx + r12 + 13], 2
+	QUAD $0x0d1a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r11 + 13], 3
+	QUAD $0x040d3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 13], 4
+	QUAD $0x0d3a44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r15 + 13], 5
+	QUAD $0x0d1244203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r10 + 13], 6
+	QUAD $0x0d3244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r14 + 13], 7
+	QUAD $0x0d2a44203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r13 + 13], 8
+	QUAD $0x090d0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 13], 9
+	QUAD $0x0a0d1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 13], 10
+	QUAD $0x0d0244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r8 + 13], 11
+	QUAD $0x0d0a44203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r9 + 13], 12
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0d0d0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 13], 13
+	LONG $0x24448b48; BYTE $0x18               // mov    rax, qword [rsp + 24]
+	QUAD $0x0e0d0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 13], 14
+	QUAD $0x0f0d3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 13], 15
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x0e3274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rsi + 14], 1
+	QUAD $0x0e2274203a0f4666; BYTE $0x02       // pinsrb    xmm14, byte [rdx + r12 + 14], 2
+	QUAD $0x0e1a74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r11 + 14], 3
+	QUAD $0x0e3a74203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rdx + rdi + 14], 4
+	QUAD $0x0e3a74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rdx + r15 + 14], 5
+	QUAD $0x0e1274203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r10 + 14], 6
+	QUAD $0x0e3274203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rdx + r14 + 14], 7
+	WORD $0x894d; BYTE $0xf7                   // mov    r15, r14
+	QUAD $0x0e2a74203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r13 + 14], 8
+	QUAD $0x0e0a74203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rcx + 14], 9
+	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
+	QUAD $0x0e1a74203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + rbx + 14], 10
+	QUAD $0x0e0274203a0f4666; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + r8 + 14], 11
+	QUAD $0x0e0a74203a0f4666; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + r9 + 14], 12
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	QUAD $0x0e0a74203a0f4466; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + rcx + 14], 13
+	LONG $0x246c8b4c; BYTE $0x18               // mov    r13, qword [rsp + 24]
+	QUAD $0x0e2a74203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r13 + 14], 14
+	QUAD $0x0e0274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rax + 14], 15
+	LONG $0xde0f4566; BYTE $0xe8               // pmaxub    xmm13, xmm8
+	LONG $0x740f4566; BYTE $0xe8               // pcmpeqb    xmm13, xmm8
+	QUAD $0x000130addb0f4466; BYTE $0x00       // pand    xmm13, oword 304[rbp] /* [rip + .LCPI11_19] */
+	LONG $0xde0f4166; BYTE $0xc0               // pmaxub    xmm0, xmm8
+	LONG $0x740f4166; BYTE $0xc0               // pcmpeqb    xmm0, xmm8
+	QUAD $0x0000014085db0f66                   // pand    xmm0, oword 320[rbp] /* [rip + .LCPI11_20] */
+	LONG $0xeb0f4166; BYTE $0xc5               // por    xmm0, xmm13
+	LONG $0x24648b4c; BYTE $0x50               // mov    r12, qword [rsp + 80]
+	LONG $0x74b60f42; WORD $0x1a22             // movzx    esi, byte [rdx + r12 + 26]
+	LONG $0x6e0f4466; BYTE $0xee               // movd    xmm13, esi
+	LONG $0xde0f4566; BYTE $0xf0               // pmaxub    xmm14, xmm8
+	LONG $0x740f4566; BYTE $0xf0               // pcmpeqb    xmm14, xmm8
+	QUAD $0x000150b5db0f4466; BYTE $0x00       // pand    xmm14, oword 336[rbp] /* [rip + .LCPI11_21] */
+	LONG $0xeb0f4466; BYTE $0xf0               // por    xmm14, xmm0
+	LONG $0x74b60f42; WORD $0x1b22             // movzx    esi, byte [rdx + r12 + 27]
+	LONG $0x6e0f4466; BYTE $0xd6               // movd    xmm10, esi
+	LONG $0xeb0f4566; BYTE $0xf3               // por    xmm14, xmm11
+	LONG $0x74b60f42; WORD $0x1c22             // movzx    esi, byte [rdx + r12 + 28]
+	LONG $0x6e0f4466; BYTE $0xde               // movd    xmm11, esi
+	QUAD $0x0000b024846f0f66; BYTE $0x00       // movdqa    xmm0, oword [rsp + 176]
+	LONG $0x244c8b48; BYTE $0x28               // mov    rcx, qword [rsp + 40]
+	QUAD $0x010f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 15], 1
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x020f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 15], 2
+	LONG $0x247c8b48; BYTE $0x68               // mov    rdi, qword [rsp + 104]
+	QUAD $0x030f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 15], 3
+	QUAD $0x00000090248c8b4c                   // mov    r9, qword [rsp + 144]
+	QUAD $0x0f0a44203a0f4266; BYTE $0x04       // pinsrb    xmm0, byte [rdx + r9 + 15], 4
+	LONG $0x24548b4c; BYTE $0x20               // mov    r10, qword [rsp + 32]
+	QUAD $0x0f1244203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r10 + 15], 5
+	QUAD $0x000000a024848b48                   // mov    rax, qword [rsp + 160]
+	QUAD $0x060f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 6
+	QUAD $0x0f3a44203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r15 + 15], 7
+	LONG $0x24448b48; BYTE $0x48               // mov    rax, qword [rsp + 72]
+	QUAD $0x080f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 15], 8
+	QUAD $0x0f3244203a0f4266; BYTE $0x09       // pinsrb    xmm0, byte [rdx + r14 + 15], 9
+	LONG $0x245c8b48; BYTE $0x40               // mov    rbx, qword [rsp + 64]
+	QUAD $0x0a0f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 15], 10
+	QUAD $0x0f0244203a0f4266; BYTE $0x0b       // pinsrb    xmm0, byte [rdx + r8 + 15], 11
+	LONG $0x24448b4c; BYTE $0x70               // mov    r8, qword [rsp + 112]
+	QUAD $0x0f0244203a0f4266; BYTE $0x0c       // pinsrb    xmm0, byte [rdx + r8 + 15], 12
+	LONG $0x24748b48; BYTE $0x10               // mov    rsi, qword [rsp + 16]
+	QUAD $0x0d0f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 15], 13
+	QUAD $0x0f2a44203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r13 + 15], 14
+	LONG $0x245c8b4c; BYTE $0x08               // mov    r11, qword [rsp + 8]
+	QUAD $0x0f1a44203a0f4266; BYTE $0x0f       // pinsrb    xmm0, byte [rdx + r11 + 15], 15
+	LONG $0xde0f4166; BYTE $0xc0               // pmaxub    xmm0, xmm8
+	LONG $0x740f4166; BYTE $0xc0               // pcmpeqb    xmm0, xmm8
+	LONG $0x45db0f66; BYTE $0x60               // pand    xmm0, oword 96[rbp] /* [rip + .LCPI11_6] */
+	LONG $0xeb0f4166; BYTE $0xc6               // por    xmm0, xmm14
+	QUAD $0x0000b024847f0f66; BYTE $0x00       // movdqa    oword [rsp + 176], xmm0
+	LONG $0x74b60f42; WORD $0x1d22             // movzx    esi, byte [rdx + r12 + 29]
+	LONG $0x6e0f4466; BYTE $0xf6               // movd    xmm14, esi
+	QUAD $0x01100a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 16], 1
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x0210324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 16], 2
+	WORD $0x8949; BYTE $0xf4                   // mov    r12, rsi
+	QUAD $0x03103a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 16], 3
+	QUAD $0x100a4c203a0f4266; BYTE $0x04       // pinsrb    xmm1, byte [rdx + r9 + 16], 4
+	QUAD $0x10124c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rdx + r10 + 16], 5
+	QUAD $0x000000a0248c8b4c                   // mov    r9, qword [rsp + 160]
+	QUAD $0x100a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r9 + 16], 6
+	QUAD $0x103a4c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r15 + 16], 7
+	QUAD $0x0810024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 16], 8
+	QUAD $0x10324c203a0f4266; BYTE $0x09       // pinsrb    xmm1, byte [rdx + r14 + 16], 9
+	QUAD $0x0a101a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 16], 10
+	LONG $0x24748b4c; BYTE $0x58               // mov    r14, qword [rsp + 88]
+	QUAD $0x10324c203a0f4266; BYTE $0x0b       // pinsrb    xmm1, byte [rdx + r14 + 16], 11
+	QUAD $0x10024c203a0f4266; BYTE $0x0c       // pinsrb    xmm1, byte [rdx + r8 + 16], 12
+	WORD $0x894d; BYTE $0xc2                   // mov    r10, r8
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x0d10024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 16], 13
+	QUAD $0x102a4c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r13 + 16], 14
+	WORD $0x894c; BYTE $0xde                   // mov    rsi, r11
+	QUAD $0x101a4c203a0f4266; BYTE $0x0f       // pinsrb    xmm1, byte [rdx + r11 + 16], 15
+	LONG $0xde0f4166; BYTE $0xc8               // pmaxub    xmm1, xmm8
+	LONG $0x740f4166; BYTE $0xc8               // pcmpeqb    xmm1, xmm8
+	QUAD $0x01110a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 17], 1
+	QUAD $0x11226c203a0f4266; BYTE $0x02       // pinsrb    xmm5, byte [rdx + r12 + 17], 2
+	WORD $0x894d; BYTE $0xe3                   // mov    r11, r12
+	QUAD $0x03113a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 17], 3
+	QUAD $0x0000009024bc8b48                   // mov    rdi, qword [rsp + 144]
+	QUAD $0x04113a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rdi + 17], 4
+	LONG $0x244c8b48; BYTE $0x20               // mov    rcx, qword [rsp + 32]
+	QUAD $0x05110a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 17], 5
+	QUAD $0x110a6c203a0f4266; BYTE $0x06       // pinsrb    xmm5, byte [rdx + r9 + 17], 6
+	QUAD $0x113a6c203a0f4266; BYTE $0x07       // pinsrb    xmm5, byte [rdx + r15 + 17], 7
+	WORD $0x894d; BYTE $0xf9                   // mov    r9, r15
+	LONG $0x244c8b48; BYTE $0x48               // mov    rcx, qword [rsp + 72]
+	QUAD $0x08110a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rcx + 17], 8
+	LONG $0x247c8b4c; BYTE $0x60               // mov    r15, qword [rsp + 96]
+	QUAD $0x113a6c203a0f4266; BYTE $0x09       // pinsrb    xmm5, byte [rdx + r15 + 17], 9
+	QUAD $0x0a111a6c203a0f66                   // pinsrb    xmm5, byte [rdx + rbx + 17], 10
+	WORD $0x894d; BYTE $0xf0                   // mov    r8, r14
+	QUAD $0x11326c203a0f4266; BYTE $0x0b       // pinsrb    xmm5, byte [rdx + r14 + 17], 11
+	QUAD $0x11126c203a0f4266; BYTE $0x0c       // pinsrb    xmm5, byte [rdx + r10 + 17], 12
+	WORD $0x894d; BYTE $0xd4                   // mov    r12, r10
+	QUAD $0x0d11026c203a0f66                   // pinsrb    xmm5, byte [rdx + rax + 17], 13
+	QUAD $0x112a6c203a0f4266; BYTE $0x0e       // pinsrb    xmm5, byte [rdx + r13 + 17], 14
+	QUAD $0x0f11326c203a0f66                   // pinsrb    xmm5, byte [rdx + rsi + 17], 15
+	LONG $0xde0f4166; BYTE $0xe8               // pmaxub    xmm5, xmm8
+	LONG $0x740f4166; BYTE $0xe8               // pcmpeqb    xmm5, xmm8
+	QUAD $0x00000100addb0f66                   // pand    xmm5, oword 256[rbp] /* [rip + .LCPI11_16] */
+	LONG $0xe9f80f66                           // psubb    xmm5, xmm1
+	LONG $0x24448b48; BYTE $0x50               // mov    rax, qword [rsp + 80]
+	LONG $0x0274b60f; BYTE $0x1e               // movzx    esi, byte [rdx + rax + 30]
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0x24748b48; BYTE $0x28               // mov    rsi, qword [rsp + 40]
+	QUAD $0x12327c203a0f4466; BYTE $0x01       // pinsrb    xmm15, byte [rdx + rsi + 18], 1
+	QUAD $0x0113325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 19], 1
+	QUAD $0x01143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 1
+	QUAD $0x01153264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 21], 1
+	QUAD $0x0116327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 22], 1
+	QUAD $0x01173254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 23], 1
+	QUAD $0x18324c203a0f4466; BYTE $0x01       // pinsrb    xmm9, byte [rdx + rsi + 24], 1
+	QUAD $0x193264203a0f4466; BYTE $0x01       // pinsrb    xmm12, byte [rdx + rsi + 25], 1
+	QUAD $0x1a326c203a0f4466; BYTE $0x01       // pinsrb    xmm13, byte [rdx + rsi + 26], 1
+	QUAD $0x1b3254203a0f4466; BYTE $0x01       // pinsrb    xmm10, byte [rdx + rsi + 27], 1
+	QUAD $0x1c325c203a0f4466; BYTE $0x01       // pinsrb    xmm11, byte [rdx + rsi + 28], 1
+	QUAD $0x1d3274203a0f4466; BYTE $0x01       // pinsrb    xmm14, byte [rdx + rsi + 29], 1
+	QUAD $0x011e324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 30], 1
+	LONG $0x0244b60f; BYTE $0x1f               // movzx    eax, byte [rdx + rax + 31]
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	QUAD $0x011f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 1
+	QUAD $0x121a7c203a0f4666; BYTE $0x02       // pinsrb    xmm15, byte [rdx + r11 + 18], 2
+	LONG $0x245c8b4c; BYTE $0x68               // mov    r11, qword [rsp + 104]
+	QUAD $0x121a7c203a0f4666; BYTE $0x03       // pinsrb    xmm15, byte [rdx + r11 + 18], 3
+	QUAD $0x123a7c203a0f4466; BYTE $0x04       // pinsrb    xmm15, byte [rdx + rdi + 18], 4
+	LONG $0x24748b4c; BYTE $0x20               // mov    r14, qword [rsp + 32]
+	QUAD $0x12327c203a0f4666; BYTE $0x05       // pinsrb    xmm15, byte [rdx + r14 + 18], 5
+	QUAD $0x000000a024948b4c                   // mov    r10, qword [rsp + 160]
+	QUAD $0x12127c203a0f4666; BYTE $0x06       // pinsrb    xmm15, byte [rdx + r10 + 18], 6
+	QUAD $0x120a7c203a0f4666; BYTE $0x07       // pinsrb    xmm15, byte [rdx + r9 + 18], 7
+	WORD $0x8948; BYTE $0xce                   // mov    rsi, rcx
+	QUAD $0x120a7c203a0f4466; BYTE $0x08       // pinsrb    xmm15, byte [rdx + rcx + 18], 8
+	QUAD $0x123a7c203a0f4666; BYTE $0x09       // pinsrb    xmm15, byte [rdx + r15 + 18], 9
+	LONG $0x244c8b48; BYTE $0x40               // mov    rcx, qword [rsp + 64]
+	QUAD $0x120a7c203a0f4466; BYTE $0x0a       // pinsrb    xmm15, byte [rdx + rcx + 18], 10
+	QUAD $0x12027c203a0f4666; BYTE $0x0b       // pinsrb    xmm15, byte [rdx + r8 + 18], 11
+	QUAD $0x12227c203a0f4666; BYTE $0x0c       // pinsrb    xmm15, byte [rdx + r12 + 18], 12
+	LONG $0x24448b48; BYTE $0x10               // mov    rax, qword [rsp + 16]
+	QUAD $0x12027c203a0f4466; BYTE $0x0d       // pinsrb    xmm15, byte [rdx + rax + 18], 13
+	LONG $0x245c8b48; BYTE $0x18               // mov    rbx, qword [rsp + 24]
+	QUAD $0x121a7c203a0f4466; BYTE $0x0e       // pinsrb    xmm15, byte [rdx + rbx + 18], 14
+	LONG $0x246c8b4c; BYTE $0x08               // mov    r13, qword [rsp + 8]
+	QUAD $0x122a7c203a0f4666; BYTE $0x0f       // pinsrb    xmm15, byte [rdx + r13 + 18], 15
+	LONG $0x245c8b48; BYTE $0x30               // mov    rbx, qword [rsp + 48]
+	QUAD $0x02131a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rbx + 19], 2
+	QUAD $0x131a5c203a0f4266; BYTE $0x03       // pinsrb    xmm3, byte [rdx + r11 + 19], 3
+	QUAD $0x04133a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rdi + 19], 4
+	QUAD $0x13325c203a0f4266; BYTE $0x05       // pinsrb    xmm3, byte [rdx + r14 + 19], 5
+	QUAD $0x13125c203a0f4266; BYTE $0x06       // pinsrb    xmm3, byte [rdx + r10 + 19], 6
+	WORD $0x894d; BYTE $0xd5                   // mov    r13, r10
+	QUAD $0x130a5c203a0f4266; BYTE $0x07       // pinsrb    xmm3, byte [rdx + r9 + 19], 7
+	QUAD $0x0813325c203a0f66                   // pinsrb    xmm3, byte [rdx + rsi + 19], 8
+	WORD $0x8949; BYTE $0xf2                   // mov    r10, rsi
+	QUAD $0x133a5c203a0f4266; BYTE $0x09       // pinsrb    xmm3, byte [rdx + r15 + 19], 9
+	QUAD $0x0a130a5c203a0f66                   // pinsrb    xmm3, byte [rdx + rcx + 19], 10
+	QUAD $0x13025c203a0f4266; BYTE $0x0b       // pinsrb    xmm3, byte [rdx + r8 + 19], 11
+	WORD $0x894c; BYTE $0xe1                   // mov    rcx, r12
+	QUAD $0x13225c203a0f4266; BYTE $0x0c       // pinsrb    xmm3, byte [rdx + r12 + 19], 12
+	QUAD $0x0d13025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 19], 13
+	LONG $0x24448b4c; BYTE $0x18               // mov    r8, qword [rsp + 24]
+	QUAD $0x13025c203a0f4266; BYTE $0x0e       // pinsrb    xmm3, byte [rdx + r8 + 19], 14
+	LONG $0x24448b48; BYTE $0x08               // mov    rax, qword [rsp + 8]
+	QUAD $0x0f13025c203a0f66                   // pinsrb    xmm3, byte [rdx + rax + 19], 15
+	LONG $0x24748b48; BYTE $0x30               // mov    rsi, qword [rsp + 48]
+	QUAD $0x02143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 2
+	QUAD $0x02153264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 21], 2
+	QUAD $0x0216327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 22], 2
+	QUAD $0x02173254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 23], 2
+	QUAD $0x18324c203a0f4466; BYTE $0x02       // pinsrb    xmm9, byte [rdx + rsi + 24], 2
+	QUAD $0x193264203a0f4466; BYTE $0x02       // pinsrb    xmm12, byte [rdx + rsi + 25], 2
+	QUAD $0x1a326c203a0f4466; BYTE $0x02       // pinsrb    xmm13, byte [rdx + rsi + 26], 2
+	QUAD $0x1b3254203a0f4466; BYTE $0x02       // pinsrb    xmm10, byte [rdx + rsi + 27], 2
+	QUAD $0x1c325c203a0f4466; BYTE $0x02       // pinsrb    xmm11, byte [rdx + rsi + 28], 2
+	QUAD $0x1d3274203a0f4466; BYTE $0x02       // pinsrb    xmm14, byte [rdx + rsi + 29], 2
+	QUAD $0x021e324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 30], 2
+	LONG $0xde0f4566; BYTE $0xf8               // pmaxub    xmm15, xmm8
+	LONG $0x740f4566; BYTE $0xf8               // pcmpeqb    xmm15, xmm8
+	QUAD $0x000110bddb0f4466; BYTE $0x00       // pand    xmm15, oword 272[rbp] /* [rip + .LCPI11_17] */
+	LONG $0xde0f4166; BYTE $0xd8               // pmaxub    xmm3, xmm8
+	LONG $0x740f4166; BYTE $0xd8               // pcmpeqb    xmm3, xmm8
+	QUAD $0x000001209ddb0f66                   // pand    xmm3, oword 288[rbp] /* [rip + .LCPI11_18] */
+	LONG $0xeb0f4166; BYTE $0xdf               // por    xmm3, xmm15
+	QUAD $0x021f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 2
+	LONG $0xddeb0f66                           // por    xmm3, xmm5
+	QUAD $0x141a74203a0f4266; BYTE $0x03       // pinsrb    xmm6, byte [rdx + r11 + 20], 3
+	QUAD $0x04143a74203a0f66                   // pinsrb    xmm6, byte [rdx + rdi + 20], 4
+	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
+	QUAD $0x143274203a0f4266; BYTE $0x05       // pinsrb    xmm6, byte [rdx + r14 + 20], 5
+	QUAD $0x142a74203a0f4266; BYTE $0x06       // pinsrb    xmm6, byte [rdx + r13 + 20], 6
+	LONG $0x24748b4c; BYTE $0x38               // mov    r14, qword [rsp + 56]
+	QUAD $0x143274203a0f4266; BYTE $0x07       // pinsrb    xmm6, byte [rdx + r14 + 20], 7
+	QUAD $0x141274203a0f4266; BYTE $0x08       // pinsrb    xmm6, byte [rdx + r10 + 20], 8
+	QUAD $0x143a74203a0f4266; BYTE $0x09       // pinsrb    xmm6, byte [rdx + r15 + 20], 9
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x0a140274203a0f66                   // pinsrb    xmm6, byte [rdx + rax + 20], 10
+	LONG $0x245c8b48; BYTE $0x58               // mov    rbx, qword [rsp + 88]
+	QUAD $0x0b141a74203a0f66                   // pinsrb    xmm6, byte [rdx + rbx + 20], 11
+	QUAD $0x142274203a0f4266; BYTE $0x0c       // pinsrb    xmm6, byte [rdx + r12 + 20], 12
+	LONG $0x24648b4c; BYTE $0x10               // mov    r12, qword [rsp + 16]
+	QUAD $0x142274203a0f4266; BYTE $0x0d       // pinsrb    xmm6, byte [rdx + r12 + 20], 13
+	QUAD $0x140274203a0f4266; BYTE $0x0e       // pinsrb    xmm6, byte [rdx + r8 + 20], 14
+	LONG $0x24748b48; BYTE $0x08               // mov    rsi, qword [rsp + 8]
+	QUAD $0x0f143274203a0f66                   // pinsrb    xmm6, byte [rdx + rsi + 20], 15
+	QUAD $0x151a64203a0f4266; BYTE $0x03       // pinsrb    xmm4, byte [rdx + r11 + 21], 3
+	QUAD $0x04153a64203a0f66                   // pinsrb    xmm4, byte [rdx + rdi + 21], 4
+	QUAD $0x150a64203a0f4266; BYTE $0x05       // pinsrb    xmm4, byte [rdx + r9 + 21], 5
+	QUAD $0x152a64203a0f4266; BYTE $0x06       // pinsrb    xmm4, byte [rdx + r13 + 21], 6
+	QUAD $0x153264203a0f4266; BYTE $0x07       // pinsrb    xmm4, byte [rdx + r14 + 21], 7
+	QUAD $0x151264203a0f4266; BYTE $0x08       // pinsrb    xmm4, byte [rdx + r10 + 21], 8
+	QUAD $0x153a64203a0f4266; BYTE $0x09       // pinsrb    xmm4, byte [rdx + r15 + 21], 9
+	QUAD $0x0a150264203a0f66                   // pinsrb    xmm4, byte [rdx + rax + 21], 10
+	QUAD $0x0b151a64203a0f66                   // pinsrb    xmm4, byte [rdx + rbx + 21], 11
+	QUAD $0x0c150a64203a0f66                   // pinsrb    xmm4, byte [rdx + rcx + 21], 12
+	QUAD $0x152264203a0f4266; BYTE $0x0d       // pinsrb    xmm4, byte [rdx + r12 + 21], 13
+	QUAD $0x150264203a0f4266; BYTE $0x0e       // pinsrb    xmm4, byte [rdx + r8 + 21], 14
+	QUAD $0x0f153264203a0f66                   // pinsrb    xmm4, byte [rdx + rsi + 21], 15
+	QUAD $0x161a7c203a0f4266; BYTE $0x03       // pinsrb    xmm7, byte [rdx + r11 + 22], 3
+	QUAD $0x04163a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rdi + 22], 4
+	QUAD $0x160a7c203a0f4266; BYTE $0x05       // pinsrb    xmm7, byte [rdx + r9 + 22], 5
+	QUAD $0x162a7c203a0f4266; BYTE $0x06       // pinsrb    xmm7, byte [rdx + r13 + 22], 6
+	QUAD $0x16327c203a0f4266; BYTE $0x07       // pinsrb    xmm7, byte [rdx + r14 + 22], 7
+	QUAD $0x16127c203a0f4266; BYTE $0x08       // pinsrb    xmm7, byte [rdx + r10 + 22], 8
+	QUAD $0x163a7c203a0f4266; BYTE $0x09       // pinsrb    xmm7, byte [rdx + r15 + 22], 9
+	QUAD $0x0a16027c203a0f66                   // pinsrb    xmm7, byte [rdx + rax + 22], 10
+	QUAD $0x0b161a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rbx + 22], 11
+	QUAD $0x0c160a7c203a0f66                   // pinsrb    xmm7, byte [rdx + rcx + 22], 12
+	QUAD $0x16227c203a0f4266; BYTE $0x0d       // pinsrb    xmm7, byte [rdx + r12 + 22], 13
+	QUAD $0x16027c203a0f4266; BYTE $0x0e       // pinsrb    xmm7, byte [rdx + r8 + 22], 14
+	QUAD $0x0f16327c203a0f66                   // pinsrb    xmm7, byte [rdx + rsi + 22], 15
+	LONG $0xde0f4166; BYTE $0xf0               // pmaxub    xmm6, xmm8
+	LONG $0x740f4166; BYTE $0xf0               // pcmpeqb    xmm6, xmm8
+	QUAD $0x00000130ad6f0f66                   // movdqa    xmm5, oword 304[rbp] /* [rip + .LCPI11_19] */
+	LONG $0xf5db0f66                           // pand    xmm6, xmm5
+	LONG $0xde0f4166; BYTE $0xe0               // pmaxub    xmm4, xmm8
+	LONG $0x740f4166; BYTE $0xe0               // pcmpeqb    xmm4, xmm8
+	QUAD $0x000140bd6f0f4466; BYTE $0x00       // movdqa    xmm15, oword 320[rbp] /* [rip + .LCPI11_20] */
+	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
+	LONG $0xe6eb0f66                           // por    xmm4, xmm6
+	LONG $0xde0f4166; BYTE $0xf8               // pmaxub    xmm7, xmm8
+	LONG $0x740f4166; BYTE $0xf8               // pcmpeqb    xmm7, xmm8
+	QUAD $0x00000150b56f0f66                   // movdqa    xmm6, oword 336[rbp] /* [rip + .LCPI11_21] */
+	LONG $0xfedb0f66                           // pand    xmm7, xmm6
+	LONG $0xfceb0f66                           // por    xmm7, xmm4
+	LONG $0xfbeb0f66                           // por    xmm7, xmm3
+	QUAD $0x171a54203a0f4266; BYTE $0x03       // pinsrb    xmm2, byte [rdx + r11 + 23], 3
+	QUAD $0x04173a54203a0f66                   // pinsrb    xmm2, byte [rdx + rdi + 23], 4
+	QUAD $0x170a54203a0f4266; BYTE $0x05       // pinsrb    xmm2, byte [rdx + r9 + 23], 5
+	QUAD $0x172a54203a0f4266; BYTE $0x06       // pinsrb    xmm2, byte [rdx + r13 + 23], 6
+	QUAD $0x173254203a0f4266; BYTE $0x07       // pinsrb    xmm2, byte [rdx + r14 + 23], 7
+	QUAD $0x171254203a0f4266; BYTE $0x08       // pinsrb    xmm2, byte [rdx + r10 + 23], 8
+	QUAD $0x173a54203a0f4266; BYTE $0x09       // pinsrb    xmm2, byte [rdx + r15 + 23], 9
+	QUAD $0x0a170254203a0f66                   // pinsrb    xmm2, byte [rdx + rax + 23], 10
+	QUAD $0x0b171a54203a0f66                   // pinsrb    xmm2, byte [rdx + rbx + 23], 11
+	QUAD $0x0c170a54203a0f66                   // pinsrb    xmm2, byte [rdx + rcx + 23], 12
+	QUAD $0x172254203a0f4266; BYTE $0x0d       // pinsrb    xmm2, byte [rdx + r12 + 23], 13
+	QUAD $0x170254203a0f4266; BYTE $0x0e       // pinsrb    xmm2, byte [rdx + r8 + 23], 14
+	QUAD $0x0f173254203a0f66                   // pinsrb    xmm2, byte [rdx + rsi + 23], 15
+	LONG $0xde0f4166; BYTE $0xd0               // pmaxub    xmm2, xmm8
+	LONG $0x740f4166; BYTE $0xd0               // pcmpeqb    xmm2, xmm8
+	LONG $0x5d6f0f66; BYTE $0x60               // movdqa    xmm3, oword 96[rbp] /* [rip + .LCPI11_6] */
+	LONG $0xd3db0f66                           // pand    xmm2, xmm3
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	QUAD $0x181a4c203a0f4666; BYTE $0x03       // pinsrb    xmm9, byte [rdx + r11 + 24], 3
+	QUAD $0x183a4c203a0f4466; BYTE $0x04       // pinsrb    xmm9, byte [rdx + rdi + 24], 4
+	QUAD $0x180a4c203a0f4666; BYTE $0x05       // pinsrb    xmm9, byte [rdx + r9 + 24], 5
+	QUAD $0x182a4c203a0f4666; BYTE $0x06       // pinsrb    xmm9, byte [rdx + r13 + 24], 6
+	QUAD $0x18324c203a0f4666; BYTE $0x07       // pinsrb    xmm9, byte [rdx + r14 + 24], 7
+	QUAD $0x18124c203a0f4666; BYTE $0x08       // pinsrb    xmm9, byte [rdx + r10 + 24], 8
+	QUAD $0x183a4c203a0f4666; BYTE $0x09       // pinsrb    xmm9, byte [rdx + r15 + 24], 9
+	QUAD $0x18024c203a0f4466; BYTE $0x0a       // pinsrb    xmm9, byte [rdx + rax + 24], 10
+	QUAD $0x181a4c203a0f4466; BYTE $0x0b       // pinsrb    xmm9, byte [rdx + rbx + 24], 11
+	QUAD $0x180a4c203a0f4466; BYTE $0x0c       // pinsrb    xmm9, byte [rdx + rcx + 24], 12
+	QUAD $0x18224c203a0f4666; BYTE $0x0d       // pinsrb    xmm9, byte [rdx + r12 + 24], 13
+	QUAD $0x18024c203a0f4666; BYTE $0x0e       // pinsrb    xmm9, byte [rdx + r8 + 24], 14
+	QUAD $0x18324c203a0f4466; BYTE $0x0f       // pinsrb    xmm9, byte [rdx + rsi + 24], 15
+	LONG $0xde0f4566; BYTE $0xc8               // pmaxub    xmm9, xmm8
+	LONG $0x740f4566; BYTE $0xc8               // pcmpeqb    xmm9, xmm8
+	QUAD $0x191a64203a0f4666; BYTE $0x03       // pinsrb    xmm12, byte [rdx + r11 + 25], 3
+	QUAD $0x193a64203a0f4466; BYTE $0x04       // pinsrb    xmm12, byte [rdx + rdi + 25], 4
+	QUAD $0x190a64203a0f4666; BYTE $0x05       // pinsrb    xmm12, byte [rdx + r9 + 25], 5
+	QUAD $0x192a64203a0f4666; BYTE $0x06       // pinsrb    xmm12, byte [rdx + r13 + 25], 6
+	QUAD $0x193264203a0f4666; BYTE $0x07       // pinsrb    xmm12, byte [rdx + r14 + 25], 7
+	QUAD $0x191264203a0f4666; BYTE $0x08       // pinsrb    xmm12, byte [rdx + r10 + 25], 8
+	QUAD $0x193a64203a0f4666; BYTE $0x09       // pinsrb    xmm12, byte [rdx + r15 + 25], 9
+	QUAD $0x190264203a0f4466; BYTE $0x0a       // pinsrb    xmm12, byte [rdx + rax + 25], 10
+	QUAD $0x191a64203a0f4466; BYTE $0x0b       // pinsrb    xmm12, byte [rdx + rbx + 25], 11
+	QUAD $0x190a64203a0f4466; BYTE $0x0c       // pinsrb    xmm12, byte [rdx + rcx + 25], 12
+	QUAD $0x192264203a0f4666; BYTE $0x0d       // pinsrb    xmm12, byte [rdx + r12 + 25], 13
+	QUAD $0x190264203a0f4666; BYTE $0x0e       // pinsrb    xmm12, byte [rdx + r8 + 25], 14
+	QUAD $0x193264203a0f4466; BYTE $0x0f       // pinsrb    xmm12, byte [rdx + rsi + 25], 15
+	LONG $0xde0f4566; BYTE $0xe0               // pmaxub    xmm12, xmm8
+	LONG $0x740f4566; BYTE $0xe0               // pcmpeqb    xmm12, xmm8
+	QUAD $0x000100a5db0f4466; BYTE $0x00       // pand    xmm12, oword 256[rbp] /* [rip + .LCPI11_16] */
+	LONG $0xf80f4566; BYTE $0xe1               // psubb    xmm12, xmm9
+	QUAD $0x1a1a6c203a0f4666; BYTE $0x03       // pinsrb    xmm13, byte [rdx + r11 + 26], 3
+	QUAD $0x1a3a6c203a0f4466; BYTE $0x04       // pinsrb    xmm13, byte [rdx + rdi + 26], 4
+	QUAD $0x1a0a6c203a0f4666; BYTE $0x05       // pinsrb    xmm13, byte [rdx + r9 + 26], 5
+	QUAD $0x1a2a6c203a0f4666; BYTE $0x06       // pinsrb    xmm13, byte [rdx + r13 + 26], 6
+	QUAD $0x1a326c203a0f4666; BYTE $0x07       // pinsrb    xmm13, byte [rdx + r14 + 26], 7
+	QUAD $0x1a126c203a0f4666; BYTE $0x08       // pinsrb    xmm13, byte [rdx + r10 + 26], 8
+	QUAD $0x1a3a6c203a0f4666; BYTE $0x09       // pinsrb    xmm13, byte [rdx + r15 + 26], 9
+	QUAD $0x1a026c203a0f4466; BYTE $0x0a       // pinsrb    xmm13, byte [rdx + rax + 26], 10
+	QUAD $0x1a1a6c203a0f4466; BYTE $0x0b       // pinsrb    xmm13, byte [rdx + rbx + 26], 11
+	QUAD $0x1a0a6c203a0f4466; BYTE $0x0c       // pinsrb    xmm13, byte [rdx + rcx + 26], 12
+	QUAD $0x1a226c203a0f4666; BYTE $0x0d       // pinsrb    xmm13, byte [rdx + r12 + 26], 13
+	QUAD $0x1a026c203a0f4666; BYTE $0x0e       // pinsrb    xmm13, byte [rdx + r8 + 26], 14
+	QUAD $0x1a326c203a0f4466; BYTE $0x0f       // pinsrb    xmm13, byte [rdx + rsi + 26], 15
+	QUAD $0x1b1a54203a0f4666; BYTE $0x03       // pinsrb    xmm10, byte [rdx + r11 + 27], 3
+	QUAD $0x1b3a54203a0f4466; BYTE $0x04       // pinsrb    xmm10, byte [rdx + rdi + 27], 4
+	QUAD $0x1b0a54203a0f4666; BYTE $0x05       // pinsrb    xmm10, byte [rdx + r9 + 27], 5
+	QUAD $0x1b2a54203a0f4666; BYTE $0x06       // pinsrb    xmm10, byte [rdx + r13 + 27], 6
+	QUAD $0x1b3254203a0f4666; BYTE $0x07       // pinsrb    xmm10, byte [rdx + r14 + 27], 7
+	QUAD $0x1b1254203a0f4666; BYTE $0x08       // pinsrb    xmm10, byte [rdx + r10 + 27], 8
+	QUAD $0x1b3a54203a0f4666; BYTE $0x09       // pinsrb    xmm10, byte [rdx + r15 + 27], 9
+	QUAD $0x1b0254203a0f4466; BYTE $0x0a       // pinsrb    xmm10, byte [rdx + rax + 27], 10
+	QUAD $0x1b1a54203a0f4466; BYTE $0x0b       // pinsrb    xmm10, byte [rdx + rbx + 27], 11
+	QUAD $0x1b0a54203a0f4466; BYTE $0x0c       // pinsrb    xmm10, byte [rdx + rcx + 27], 12
+	QUAD $0x1b2254203a0f4666; BYTE $0x0d       // pinsrb    xmm10, byte [rdx + r12 + 27], 13
+	QUAD $0x1b0254203a0f4666; BYTE $0x0e       // pinsrb    xmm10, byte [rdx + r8 + 27], 14
+	QUAD $0x1b3254203a0f4466; BYTE $0x0f       // pinsrb    xmm10, byte [rdx + rsi + 27], 15
+	LONG $0xde0f4566; BYTE $0xe8               // pmaxub    xmm13, xmm8
+	LONG $0x740f4566; BYTE $0xe8               // pcmpeqb    xmm13, xmm8
+	QUAD $0x000110addb0f4466; BYTE $0x00       // pand    xmm13, oword 272[rbp] /* [rip + .LCPI11_17] */
+	LONG $0xde0f4566; BYTE $0xd0               // pmaxub    xmm10, xmm8
+	LONG $0x740f4566; BYTE $0xd0               // pcmpeqb    xmm10, xmm8
+	QUAD $0x00012095db0f4466; BYTE $0x00       // pand    xmm10, oword 288[rbp] /* [rip + .LCPI11_18] */
+	LONG $0xeb0f4566; BYTE $0xd5               // por    xmm10, xmm13
+	LONG $0xeb0f4566; BYTE $0xd4               // por    xmm10, xmm12
+	QUAD $0x1c1a5c203a0f4666; BYTE $0x03       // pinsrb    xmm11, byte [rdx + r11 + 28], 3
+	QUAD $0x1d1a74203a0f4666; BYTE $0x03       // pinsrb    xmm14, byte [rdx + r11 + 29], 3
+	QUAD $0x1e1a4c203a0f4266; BYTE $0x03       // pinsrb    xmm1, byte [rdx + r11 + 30], 3
+	QUAD $0x1f1a44203a0f4266; BYTE $0x03       // pinsrb    xmm0, byte [rdx + r11 + 31], 3
+	QUAD $0x1c3a5c203a0f4466; BYTE $0x04       // pinsrb    xmm11, byte [rdx + rdi + 28], 4
+	QUAD $0x1d3a74203a0f4466; BYTE $0x04       // pinsrb    xmm14, byte [rdx + rdi + 29], 4
+	QUAD $0x041e3a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rdi + 30], 4
+	QUAD $0x041f3a44203a0f66                   // pinsrb    xmm0, byte [rdx + rdi + 31], 4
+	QUAD $0x1c0a5c203a0f4666; BYTE $0x05       // pinsrb    xmm11, byte [rdx + r9 + 28], 5
+	QUAD $0x1d0a74203a0f4666; BYTE $0x05       // pinsrb    xmm14, byte [rdx + r9 + 29], 5
+	QUAD $0x1e0a4c203a0f4266; BYTE $0x05       // pinsrb    xmm1, byte [rdx + r9 + 30], 5
+	QUAD $0x1f0a44203a0f4266; BYTE $0x05       // pinsrb    xmm0, byte [rdx + r9 + 31], 5
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	QUAD $0x1c2a5c203a0f4666; BYTE $0x06       // pinsrb    xmm11, byte [rdx + r13 + 28], 6
+	QUAD $0x1d2a74203a0f4666; BYTE $0x06       // pinsrb    xmm14, byte [rdx + r13 + 29], 6
+	QUAD $0x1e2a4c203a0f4266; BYTE $0x06       // pinsrb    xmm1, byte [rdx + r13 + 30], 6
+	QUAD $0x1f2a44203a0f4266; BYTE $0x06       // pinsrb    xmm0, byte [rdx + r13 + 31], 6
+	WORD $0x894c; BYTE $0xf0                   // mov    rax, r14
+	QUAD $0x1c325c203a0f4666; BYTE $0x07       // pinsrb    xmm11, byte [rdx + r14 + 28], 7
+	QUAD $0x1d3274203a0f4666; BYTE $0x07       // pinsrb    xmm14, byte [rdx + r14 + 29], 7
+	QUAD $0x1e324c203a0f4266; BYTE $0x07       // pinsrb    xmm1, byte [rdx + r14 + 30], 7
+	QUAD $0x1f3244203a0f4266; BYTE $0x07       // pinsrb    xmm0, byte [rdx + r14 + 31], 7
+	QUAD $0x1c125c203a0f4666; BYTE $0x08       // pinsrb    xmm11, byte [rdx + r10 + 28], 8
+	QUAD $0x1d1274203a0f4666; BYTE $0x08       // pinsrb    xmm14, byte [rdx + r10 + 29], 8
+	QUAD $0x1e124c203a0f4266; BYTE $0x08       // pinsrb    xmm1, byte [rdx + r10 + 30], 8
+	QUAD $0x1f1244203a0f4266; BYTE $0x08       // pinsrb    xmm0, byte [rdx + r10 + 31], 8
+	LONG $0x24448b48; BYTE $0x60               // mov    rax, qword [rsp + 96]
+	QUAD $0x1c025c203a0f4466; BYTE $0x09       // pinsrb    xmm11, byte [rdx + rax + 28], 9
+	QUAD $0x1d0274203a0f4466; BYTE $0x09       // pinsrb    xmm14, byte [rdx + rax + 29], 9
+	QUAD $0x091e024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 30], 9
+	QUAD $0x091f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 31], 9
+	LONG $0x24448b48; BYTE $0x40               // mov    rax, qword [rsp + 64]
+	QUAD $0x1c025c203a0f4466; BYTE $0x0a       // pinsrb    xmm11, byte [rdx + rax + 28], 10
+	QUAD $0x1d0274203a0f4466; BYTE $0x0a       // pinsrb    xmm14, byte [rdx + rax + 29], 10
+	QUAD $0x0a1e024c203a0f66                   // pinsrb    xmm1, byte [rdx + rax + 30], 10
+	QUAD $0x0a1f0244203a0f66                   // pinsrb    xmm0, byte [rdx + rax + 31], 10
+	WORD $0x8948; BYTE $0xd8                   // mov    rax, rbx
+	QUAD $0x1c1a5c203a0f4466; BYTE $0x0b       // pinsrb    xmm11, byte [rdx + rbx + 28], 11
+	QUAD $0x1d1a74203a0f4466; BYTE $0x0b       // pinsrb    xmm14, byte [rdx + rbx + 29], 11
+	QUAD $0x0b1e1a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rbx + 30], 11
+	QUAD $0x0b1f1a44203a0f66                   // pinsrb    xmm0, byte [rdx + rbx + 31], 11
+	QUAD $0x1c0a5c203a0f4466; BYTE $0x0c       // pinsrb    xmm11, byte [rdx + rcx + 28], 12
+	QUAD $0x1d0a74203a0f4466; BYTE $0x0c       // pinsrb    xmm14, byte [rdx + rcx + 29], 12
+	QUAD $0x0c1e0a4c203a0f66                   // pinsrb    xmm1, byte [rdx + rcx + 30], 12
+	QUAD $0x0c1f0a44203a0f66                   // pinsrb    xmm0, byte [rdx + rcx + 31], 12
+	WORD $0x894c; BYTE $0xe0                   // mov    rax, r12
+	QUAD $0x1c225c203a0f4666; BYTE $0x0d       // pinsrb    xmm11, byte [rdx + r12 + 28], 13
+	QUAD $0x1d2274203a0f4666; BYTE $0x0d       // pinsrb    xmm14, byte [rdx + r12 + 29], 13
+	QUAD $0x1e224c203a0f4266; BYTE $0x0d       // pinsrb    xmm1, byte [rdx + r12 + 30], 13
+	QUAD $0x1f2244203a0f4266; BYTE $0x0d       // pinsrb    xmm0, byte [rdx + r12 + 31], 13
+	WORD $0x894c; BYTE $0xc0                   // mov    rax, r8
+	QUAD $0x1c025c203a0f4666; BYTE $0x0e       // pinsrb    xmm11, byte [rdx + r8 + 28], 14
+	QUAD $0x1d0274203a0f4666; BYTE $0x0e       // pinsrb    xmm14, byte [rdx + r8 + 29], 14
+	QUAD $0x1e024c203a0f4266; BYTE $0x0e       // pinsrb    xmm1, byte [rdx + r8 + 30], 14
+	QUAD $0x1f0244203a0f4266; BYTE $0x0e       // pinsrb    xmm0, byte [rdx + r8 + 31], 14
+	WORD $0x8948; BYTE $0xf0                   // mov    rax, rsi
+	QUAD $0x1c325c203a0f4466; BYTE $0x0f       // pinsrb    xmm11, byte [rdx + rsi + 28], 15
+	QUAD $0x1d3274203a0f4466; BYTE $0x0f       // pinsrb    xmm14, byte [rdx + rsi + 29], 15
+	QUAD $0x0f1e324c203a0f66                   // pinsrb    xmm1, byte [rdx + rsi + 30], 15
+	QUAD $0x0f1f3244203a0f66                   // pinsrb    xmm0, byte [rdx + rsi + 31], 15
+	LONG $0xde0f4566; BYTE $0xd8               // pmaxub    xmm11, xmm8
+	LONG $0x740f4566; BYTE $0xd8               // pcmpeqb    xmm11, xmm8
+	LONG $0xdb0f4466; BYTE $0xdd               // pand    xmm11, xmm5
+	LONG $0xde0f4566; BYTE $0xf0               // pmaxub    xmm14, xmm8
+	LONG $0x740f4566; BYTE $0xf0               // pcmpeqb    xmm14, xmm8
+	LONG $0xdb0f4566; BYTE $0xf7               // pand    xmm14, xmm15
+	LONG $0xeb0f4566; BYTE $0xf3               // por    xmm14, xmm11
+	LONG $0xde0f4166; BYTE $0xc8               // pmaxub    xmm1, xmm8
+	LONG $0x740f4166; BYTE $0xc8               // pcmpeqb    xmm1, xmm8
+	LONG $0xcedb0f66                           // pand    xmm1, xmm6
+	LONG $0xeb0f4166; BYTE $0xce               // por    xmm1, xmm14
+	LONG $0xeb0f4166; BYTE $0xca               // por    xmm1, xmm10
+	LONG $0xde0f4166; BYTE $0xc0               // pmaxub    xmm0, xmm8
+	LONG $0x740f4166; BYTE $0xc0               // pcmpeqb    xmm0, xmm8
+	LONG $0xc3db0f66                           // pand    xmm0, xmm3
+	LONG $0xc1eb0f66                           // por    xmm0, xmm1
+	LONG $0xca6f0f66                           // movdqa    xmm1, xmm2
+	LONG $0xc8600f66                           // punpcklbw    xmm1, xmm0
+	QUAD $0x0000d024ac6f0f66; BYTE $0x00       // movdqa    xmm5, oword [rsp + 208]
+	LONG $0xdd6f0f66                           // movdqa    xmm3, xmm5
+	QUAD $0x0000b024b46f0f66; BYTE $0x00       // movdqa    xmm6, oword [rsp + 176]
+	LONG $0xde600f66                           // punpcklbw    xmm3, xmm6
+	LONG $0xe36f0f66                           // movdqa    xmm4, xmm3
+	LONG $0xe1610f66                           // punpcklwd    xmm4, xmm1
+	LONG $0xd9690f66                           // punpckhwd    xmm3, xmm1
+	LONG $0xd0680f66                           // punpckhbw    xmm2, xmm0
+	LONG $0xee680f66                           // punpckhbw    xmm5, xmm6
+	LONG $0xc56f0f66                           // movdqa    xmm0, xmm5
+	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
+	LONG $0xea690f66                           // punpckhwd    xmm5, xmm2
+	QUAD $0x00000080248c8b48                   // mov    rcx, qword [rsp + 128]
+	LONG $0x7f0f41f3; WORD $0x8f6c; BYTE $0x30 // movdqu    oword [r15 + 4*rcx + 48], xmm5
+	LONG $0x7f0f41f3; WORD $0x8f44; BYTE $0x20 // movdqu    oword [r15 + 4*rcx + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x8f5c; BYTE $0x10 // movdqu    oword [r15 + 4*rcx + 16], xmm3
+	LONG $0x7f0f41f3; WORD $0x8f24             // movdqu    oword [r15 + 4*rcx], xmm4
+	LONG $0x10c18348                           // add    rcx, 16
+	WORD $0x8948; BYTE $0xc8                   // mov    rax, rcx
+	QUAD $0x000000c0248c3b48                   // cmp    rcx, qword [rsp + 192]
+	JNE  LBB11_67
+	QUAD $0x000000f824948b4c                   // mov    r10, qword [rsp + 248]
+	QUAD $0x000000c024943b4c                   // cmp    r10, qword [rsp + 192]
+	LONG $0x24348a44                           // mov    r14b, byte [rsp]
+	QUAD $0x0000012024ac8b4c                   // mov    r13, qword [rsp + 288]
+	QUAD $0x0000011824948b48                   // mov    rdx, qword [rsp + 280]
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	JNE  LBB11_69
+	JMP  LBB11_72
+
+LBB11_124:
+	LONG $0xf8e28349               // and    r10, -8
+	WORD $0x894c; BYTE $0xd0       // mov    rax, r10
+	LONG $0x06e0c148               // shl    rax, 6
+	WORD $0x0148; BYTE $0xd0       // add    rax, rdx
+	LONG $0x24448948; BYTE $0x30   // mov    qword [rsp + 48], rax
+	LONG $0x2454894c; BYTE $0x20   // mov    qword [rsp + 32], r10
+	LONG $0x97048d4b               // lea    rax, [r15 + 4*r10]
+	LONG $0x24448948; BYTE $0x38   // mov    qword [rsp + 56], rax
+	LONG $0x6e0f4166; BYTE $0xc6   // movd    xmm0, r14d
+	LONG $0xc0700ff2; BYTE $0xe0   // pshuflw    xmm0, xmm0, 224
+	LONG $0x700f4466; WORD $0x00d8 // pshufd    xmm11, xmm0, 0
+	WORD $0x3145; BYTE $0xf6       // xor    r14d, r14d
+	LONG $0x247c894c; BYTE $0x78   // mov    qword [rsp + 120], r15
+	LONG $0xef0f4566; BYTE $0xff   // pxor    xmm15, xmm15
+
+LBB11_125:
+	LONG $0x2474894c; BYTE $0x10               // mov    qword [rsp + 16], r14
+	LONG $0x06e6c149                           // shl    r14, 6
+	WORD $0x894c; BYTE $0xf7                   // mov    rdi, r14
+	WORD $0x894d; BYTE $0xf7                   // mov    r15, r14
+	WORD $0x894d; BYTE $0xf4                   // mov    r12, r14
+	WORD $0x894d; BYTE $0xf5                   // mov    r13, r14
+	WORD $0x894c; BYTE $0xf3                   // mov    rbx, r14
+	WORD $0x894d; BYTE $0xf1                   // mov    r9, r14
+	LONG $0x04b70f42; BYTE $0x32               // movzx    eax, word [rdx + r14]
+	LONG $0xe86e0f66                           // movd    xmm5, eax
+	LONG $0x44b70f42; WORD $0x0232             // movzx    eax, word [rdx + r14 + 2]
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	LONG $0x44b70f42; WORD $0x0432             // movzx    eax, word [rdx + r14 + 4]
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x44b70f42; WORD $0x0632             // movzx    eax, word [rdx + r14 + 6]
+	LONG $0xf86e0f66                           // movd    xmm7, eax
+	LONG $0x44b70f42; WORD $0x0832             // movzx    eax, word [rdx + r14 + 8]
+	LONG $0x6e0f4466; BYTE $0xc0               // movd    xmm8, eax
+	LONG $0x44b70f42; WORD $0x0a32             // movzx    eax, word [rdx + r14 + 10]
+	LONG $0xe06e0f66                           // movd    xmm4, eax
+	LONG $0x44b70f42; WORD $0x0c32             // movzx    eax, word [rdx + r14 + 12]
+	LONG $0x74b70f42; WORD $0x0e32             // movzx    esi, word [rdx + r14 + 14]
+	LONG $0x4cb70f42; WORD $0x1032             // movzx    ecx, word [rdx + r14 + 16]
+	LONG $0x18244c89                           // mov    dword [rsp + 24], ecx
+	LONG $0x54b70f46; WORD $0x1232             // movzx    r10d, word [rdx + r14 + 18]
+	LONG $0x5cb70f46; WORD $0x1432             // movzx    r11d, word [rdx + r14 + 20]
+	WORD $0x894c; BYTE $0xf1                   // mov    rcx, r14
+	LONG $0x40c98348                           // or    rcx, 64
+	LONG $0x80cf8148; WORD $0x0000; BYTE $0x00 // or    rdi, 128
+	LONG $0xc0cf8149; WORD $0x0000; BYTE $0x00 // or    r15, 192
+	LONG $0x00cc8149; WORD $0x0001; BYTE $0x00 // or    r12, 256
+	LONG $0x40cd8149; WORD $0x0001; BYTE $0x00 // or    r13, 320
+	LONG $0x80cb8148; WORD $0x0001; BYTE $0x00 // or    rbx, 384
+	LONG $0x2cc40f66; WORD $0x010a             // pinsrw    xmm5, word [rdx + rcx], 1
+	LONG $0x2cc40f66; WORD $0x023a             // pinsrw    xmm5, word [rdx + rdi], 2
+	LONG $0xc40f4266; WORD $0x3a2c; BYTE $0x03 // pinsrw    xmm5, word [rdx + r15], 3
+	LONG $0xc40f4266; WORD $0x222c; BYTE $0x04 // pinsrw    xmm5, word [rdx + r12], 4
+	LONG $0xc40f4266; WORD $0x2a2c; BYTE $0x05 // pinsrw    xmm5, word [rdx + r13], 5
+	LONG $0x2cc40f66; WORD $0x061a             // pinsrw    xmm5, word [rdx + rbx], 6
+	LONG $0x44c40f66; WORD $0x020a; BYTE $0x01 // pinsrw    xmm0, word [rdx + rcx + 2], 1
+	LONG $0x44c40f66; WORD $0x023a; BYTE $0x02 // pinsrw    xmm0, word [rdx + rdi + 2], 2
+	QUAD $0x03023a44c40f4266                   // pinsrw    xmm0, word [rdx + r15 + 2], 3
+	QUAD $0x04022244c40f4266                   // pinsrw    xmm0, word [rdx + r12 + 2], 4
+	QUAD $0x05022a44c40f4266                   // pinsrw    xmm0, word [rdx + r13 + 2], 5
+	LONG $0x44c40f66; WORD $0x021a; BYTE $0x06 // pinsrw    xmm0, word [rdx + rbx + 2], 6
+	LONG $0xc0c98149; WORD $0x0001; BYTE $0x00 // or    r9, 448
+	QUAD $0x07020a44c40f4266                   // pinsrw    xmm0, word [rdx + r9 + 2], 7
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x44b70f42; WORD $0x1632             // movzx    eax, word [rdx + r14 + 22]
+	LONG $0x08244489                           // mov    dword [rsp + 8], eax
+	LONG $0x650f4166; BYTE $0xc3               // pcmpgtw    xmm0, xmm11
+	LONG $0x4cc40f66; WORD $0x040a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 4], 1
+	LONG $0x4cc40f66; WORD $0x043a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 4], 2
+	QUAD $0x03043a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 4], 3
+	QUAD $0x0404224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 4], 4
+	QUAD $0x05042a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 4], 5
+	LONG $0x4cc40f66; WORD $0x041a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 4], 6
+	QUAD $0x07040a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 4], 7
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
+	QUAD $0x0000808d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 128[rbp] /* [rip + .LCPI11_8] */
+	LONG $0x6f0f4166; BYTE $0xd9               // movdqa    xmm3, xmm9
+	LONG $0x380f4166; WORD $0xdf10             // pblendvb    xmm3, xmm15, xmm0
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x00000090856f0f66                   // movdqa    xmm0, oword 144[rbp] /* [rip + .LCPI11_9] */
+	LONG $0xf06f0f66                           // movdqa    xmm6, xmm0
+	LONG $0x6f0f4466; BYTE $0xf0               // movdqa    xmm14, xmm0
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0x44b70f46; WORD $0x1832             // movzx    r8d, word [rdx + r14 + 24]
+	LONG $0xc40f4266; WORD $0x0a2c; BYTE $0x07 // pinsrw    xmm5, word [rdx + r9], 7
+	LONG $0x650f4166; BYTE $0xeb               // pcmpgtw    xmm5, xmm11
+	LONG $0xc0760f66                           // pcmpeqd    xmm0, xmm0
+	LONG $0xe8ef0f66                           // pxor    xmm5, xmm0
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0x7cc40f66; WORD $0x060a; BYTE $0x01 // pinsrw    xmm7, word [rdx + rcx + 6], 1
+	LONG $0x7cc40f66; WORD $0x063a; BYTE $0x02 // pinsrw    xmm7, word [rdx + rdi + 6], 2
+	QUAD $0x03063a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 6], 3
+	QUAD $0x0406227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 6], 4
+	QUAD $0x05062a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 6], 5
+	LONG $0x7cc40f66; WORD $0x061a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rbx + 6], 6
+	QUAD $0x07060a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 6], 7
+	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x01080a44c40f4466                   // pinsrw    xmm8, word [rdx + rcx + 8], 1
+	QUAD $0x02083a44c40f4466                   // pinsrw    xmm8, word [rdx + rdi + 8], 2
+	QUAD $0x03083a44c40f4666                   // pinsrw    xmm8, word [rdx + r15 + 8], 3
+	QUAD $0x04082244c40f4666                   // pinsrw    xmm8, word [rdx + r12 + 8], 4
+	QUAD $0x05082a44c40f4666                   // pinsrw    xmm8, word [rdx + r13 + 8], 5
+	QUAD $0x06081a44c40f4466                   // pinsrw    xmm8, word [rdx + rbx + 8], 6
+	QUAD $0x07080a44c40f4666                   // pinsrw    xmm8, word [rdx + r9 + 8], 7
+	LONG $0xddf80f66                           // psubb    xmm3, xmm5
+	QUAD $0x0000a0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 160[rbp] /* [rip + .LCPI11_10] */
+	LONG $0xc76f0f66                           // movdqa    xmm0, xmm7
+	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
+	LONG $0x7c6e0f66; WORD $0x1824             // movd    xmm7, dword [rsp + 24]
+	LONG $0x44b70f42; WORD $0x1a32             // movzx    eax, word [rdx + r14 + 26]
+	LONG $0x650f4566; BYTE $0xc3               // pcmpgtw    xmm8, xmm11
+	LONG $0x630f4566; BYTE $0xc0               // packsswb    xmm8, xmm8
+	LONG $0xeb0f4466; BYTE $0xe6               // por    xmm12, xmm6
+	QUAD $0x0000b0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 176[rbp] /* [rip + .LCPI11_11] */
+	LONG $0x6f0f4166; BYTE $0xc0               // movdqa    xmm0, xmm8
+	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xf2               // movd    xmm6, r10d
+	LONG $0x54b70f46; WORD $0x1c32             // movzx    r10d, word [rdx + r14 + 28]
+	LONG $0x64c40f66; WORD $0x0a0a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 10], 1
+	LONG $0x64c40f66; WORD $0x0a3a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 10], 2
+	QUAD $0x030a3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 10], 3
+	QUAD $0x040a2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 10], 4
+	QUAD $0x050a2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 10], 5
+	LONG $0x64c40f66; WORD $0x0a1a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 10], 6
+	QUAD $0x070a0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 10], 7
+	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0x54c40f66; WORD $0x0c0a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 12], 1
+	LONG $0x54c40f66; WORD $0x0c3a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 12], 2
+	QUAD $0x030c3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 12], 3
+	QUAD $0x040c2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 12], 4
+	QUAD $0x050c2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 12], 5
+	LONG $0x54c40f66; WORD $0x0c1a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 12], 6
+	LONG $0xeb0f4466; BYTE $0xe3               // por    xmm12, xmm3
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI11_12] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
+	LONG $0x74b70f42; WORD $0x1e32             // movzx    esi, word [rdx + r14 + 30]
+	LONG $0x28247489                           // mov    dword [rsp + 40], esi
+	QUAD $0x070c0a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 12], 7
+	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
+	QUAD $0x0000d0ad6f0f4466; BYTE $0x00       // movdqa    xmm13, oword 208[rbp] /* [rip + .LCPI11_13] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
+	LONG $0x5c6e0f66; WORD $0x0824             // movd    xmm3, dword [rsp + 8]
+	LONG $0x74b70f42; WORD $0x2032             // movzx    esi, word [rdx + r14 + 32]
+	LONG $0x18247489                           // mov    dword [rsp + 24], esi
+	LONG $0x4cc40f66; WORD $0x0e0a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 14], 1
+	LONG $0x4cc40f66; WORD $0x0e3a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 14], 2
+	QUAD $0x030e3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 14], 3
+	QUAD $0x040e224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 14], 4
+	QUAD $0x050e2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 14], 5
+	LONG $0x4cc40f66; WORD $0x0e1a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 14], 6
+	LONG $0xeb0f4466; BYTE $0xed               // por    xmm13, xmm5
+	LONG $0x6e0f4166; BYTE $0xd0               // movd    xmm2, r8d
+	LONG $0x74b70f42; WORD $0x2232             // movzx    esi, word [rdx + r14 + 34]
+	LONG $0x08247489                           // mov    dword [rsp + 8], esi
+	QUAD $0x070e0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 14], 7
+	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
+	LONG $0x74c40f66; WORD $0x120a; BYTE $0x01 // pinsrw    xmm6, word [rdx + rcx + 18], 1
+	LONG $0x74c40f66; WORD $0x123a; BYTE $0x02 // pinsrw    xmm6, word [rdx + rdi + 18], 2
+	QUAD $0x03123a74c40f4266                   // pinsrw    xmm6, word [rdx + r15 + 18], 3
+	QUAD $0x04122274c40f4266                   // pinsrw    xmm6, word [rdx + r12 + 18], 4
+	QUAD $0x05122a74c40f4266                   // pinsrw    xmm6, word [rdx + r13 + 18], 5
+	LONG $0x74c40f66; WORD $0x121a; BYTE $0x06 // pinsrw    xmm6, word [rdx + rbx + 18], 6
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	QUAD $0x07120a74c40f4266                   // pinsrw    xmm6, word [rdx + r9 + 18], 7
+	LONG $0x650f4166; BYTE $0xf3               // pcmpgtw    xmm6, xmm11
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xeb0f4566; BYTE $0xec               // por    xmm13, xmm12
+	QUAD $0x0000e0a56f0f4466; BYTE $0x00       // movdqa    xmm12, oword 224[rbp] /* [rip + .LCPI11_14] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4566; WORD $0xe710             // pblendvb    xmm12, xmm15, xmm0
+	LONG $0x6f0f4566; BYTE $0xc1               // movdqa    xmm8, xmm9
+	LONG $0xc66f0f66                           // movdqa    xmm0, xmm6
+	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x5cb70f46; WORD $0x2432             // movzx    r11d, word [rdx + r14 + 36]
+	LONG $0x7cc40f66; WORD $0x100a; BYTE $0x01 // pinsrw    xmm7, word [rdx + rcx + 16], 1
+	LONG $0x7cc40f66; WORD $0x103a; BYTE $0x02 // pinsrw    xmm7, word [rdx + rdi + 16], 2
+	QUAD $0x03103a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 16], 3
+	QUAD $0x0410227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 16], 4
+	QUAD $0x05102a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 16], 5
+	LONG $0x7cc40f66; WORD $0x101a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rbx + 16], 6
+	LONG $0x64c40f66; WORD $0x140a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 20], 1
+	LONG $0x64c40f66; WORD $0x143a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 20], 2
+	QUAD $0x03143a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 20], 3
+	QUAD $0x04142264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 20], 4
+	QUAD $0x05142a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 20], 5
+	LONG $0x64c40f66; WORD $0x141a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 20], 6
+	QUAD $0x07140a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 20], 7
+	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4566; BYTE $0xe5               // por    xmm12, xmm13
+	LONG $0x6f0f4166; BYTE $0xee               // movdqa    xmm5, xmm14
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xe2               // movd    xmm4, r10d
+	LONG $0x74b70f42; WORD $0x2632             // movzx    esi, word [rdx + r14 + 38]
+	QUAD $0x07100a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 16], 7
+	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
+	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI11_22] */
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0x5cc40f66; WORD $0x160a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 22], 1
+	LONG $0x5cc40f66; WORD $0x163a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 22], 2
+	QUAD $0x03163a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 22], 3
+	QUAD $0x0416225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 22], 4
+	QUAD $0x05162a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 22], 5
+	LONG $0x5cc40f66; WORD $0x161a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 22], 6
+	QUAD $0x07160a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 22], 7
+	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0x54c40f66; WORD $0x180a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 24], 1
+	LONG $0x54c40f66; WORD $0x183a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 24], 2
+	QUAD $0x03183a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 24], 3
+	QUAD $0x04182254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 24], 4
+	QUAD $0x05182a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 24], 5
+	LONG $0x54c40f66; WORD $0x181a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 24], 6
+	QUAD $0x07180a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 24], 7
+	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
+	QUAD $0x0000a0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 160[rbp] /* [rip + .LCPI11_10] */
+	LONG $0x6f0f4566; BYTE $0xf2               // movdqa    xmm14, xmm10
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
+	LONG $0x5c6e0f66; WORD $0x2824             // movd    xmm3, dword [rsp + 40]
+	LONG $0x44b70f42; WORD $0x2832             // movzx    eax, word [rdx + r14 + 40]
+	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4466; BYTE $0xf5               // por    xmm14, xmm5
+	QUAD $0x0000b08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 176[rbp] /* [rip + .LCPI11_11] */
+	LONG $0x6f0f4566; BYTE $0xe9               // movdqa    xmm13, xmm9
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
+	LONG $0x7c6e0f66; WORD $0x1824             // movd    xmm7, dword [rsp + 24]
+	LONG $0x54b70f46; WORD $0x2a32             // movzx    r10d, word [rdx + r14 + 42]
+	LONG $0x4cc40f66; WORD $0x1a0a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 26], 1
+	LONG $0x4cc40f66; WORD $0x1a3a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 26], 2
+	QUAD $0x031a3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 26], 3
+	QUAD $0x041a224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 26], 4
+	QUAD $0x051a2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 26], 5
+	LONG $0x4cc40f66; WORD $0x1a1a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 26], 6
+	QUAD $0x071a0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 26], 7
+	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0x64c40f66; WORD $0x1c0a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 28], 1
+	LONG $0x64c40f66; WORD $0x1c3a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 28], 2
+	QUAD $0x031c3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 28], 3
+	QUAD $0x041c2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 28], 4
+	QUAD $0x051c2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 28], 5
+	LONG $0x64c40f66; WORD $0x1c1a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 28], 6
+	LONG $0xeb0f4566; BYTE $0xf0               // por    xmm14, xmm8
+	QUAD $0x000000c0ad6f0f66                   // movdqa    xmm5, oword 192[rbp] /* [rip + .LCPI11_12] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	LONG $0x546e0f66; WORD $0x0824             // movd    xmm2, dword [rsp + 8]
+	LONG $0x44b70f46; WORD $0x2c32             // movzx    r8d, word [rdx + r14 + 44]
+	QUAD $0x071c0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 28], 7
+	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4166; BYTE $0xed               // por    xmm5, xmm13
+	QUAD $0x000000d0b56f0f66                   // movdqa    xmm6, oword 208[rbp] /* [rip + .LCPI11_13] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
+	LONG $0x5cb70f46; WORD $0x2e32             // movzx    r11d, word [rdx + r14 + 46]
+	LONG $0x5cc40f66; WORD $0x1e0a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 30], 1
+	LONG $0x5cc40f66; WORD $0x1e3a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 30], 2
+	QUAD $0x031e3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 30], 3
+	QUAD $0x041e225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 30], 4
+	QUAD $0x051e2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 30], 5
+	LONG $0x5cc40f66; WORD $0x1e1a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 30], 6
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0x74b70f42; WORD $0x3032             // movzx    esi, word [rdx + r14 + 48]
+	LONG $0x08247489                           // mov    dword [rsp + 8], esi
+	QUAD $0x071e0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 30], 7
+	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
+	LONG $0x54c40f66; WORD $0x220a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 34], 1
+	LONG $0x54c40f66; WORD $0x223a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 34], 2
+	QUAD $0x03223a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 34], 3
+	QUAD $0x04222254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 34], 4
+	QUAD $0x05222a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 34], 5
+	LONG $0x54c40f66; WORD $0x221a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 34], 6
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x07220a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 34], 7
+	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeb0f4166; BYTE $0xf6               // por    xmm6, xmm14
+	QUAD $0x0000e0b56f0f4466; BYTE $0x00       // movdqa    xmm14, oword 224[rbp] /* [rip + .LCPI11_14] */
+	LONG $0x6f0f4566; BYTE $0xee               // movdqa    xmm13, xmm14
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4566; WORD $0xef10             // pblendvb    xmm13, xmm15, xmm0
+	QUAD $0x000080856f0f4466; BYTE $0x00       // movdqa    xmm8, oword 128[rbp] /* [rip + .LCPI11_8] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
+	LONG $0xd06e0f66                           // movd    xmm2, eax
+	LONG $0x74b70f42; WORD $0x3232             // movzx    esi, word [rdx + r14 + 50]
+	LONG $0x7cc40f66; WORD $0x200a; BYTE $0x01 // pinsrw    xmm7, word [rdx + rcx + 32], 1
+	LONG $0x7cc40f66; WORD $0x203a; BYTE $0x02 // pinsrw    xmm7, word [rdx + rdi + 32], 2
+	QUAD $0x03203a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 32], 3
+	QUAD $0x0420227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 32], 4
+	QUAD $0x05202a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 32], 5
+	LONG $0x7cc40f66; WORD $0x201a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rbx + 32], 6
+	LONG $0x64c40f66; WORD $0x240a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 36], 1
+	LONG $0x64c40f66; WORD $0x243a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 36], 2
+	QUAD $0x03243a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 36], 3
+	QUAD $0x04242264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 36], 4
+	QUAD $0x05242a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 36], 5
+	LONG $0x64c40f66; WORD $0x241a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 36], 6
+	QUAD $0x07240a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 36], 7
+	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xeb0f4466; BYTE $0xee               // por    xmm13, xmm6
+	QUAD $0x00000090b56f0f66                   // movdqa    xmm6, oword 144[rbp] /* [rip + .LCPI11_9] */
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xda               // movd    xmm3, r10d
+	LONG $0x54b70f46; WORD $0x3432             // movzx    r10d, word [rdx + r14 + 52]
+	QUAD $0x07200a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 32], 7
+	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
+	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI11_22] */
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0x4cc40f66; WORD $0x260a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 38], 1
+	LONG $0x4cc40f66; WORD $0x263a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 38], 2
+	QUAD $0x03263a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 38], 3
+	QUAD $0x0426224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 38], 4
+	QUAD $0x05262a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 38], 5
+	LONG $0x4cc40f66; WORD $0x261a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 38], 6
+	QUAD $0x07260a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 38], 7
+	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0x54c40f66; WORD $0x280a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 40], 1
+	LONG $0x54c40f66; WORD $0x283a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 40], 2
+	QUAD $0x03283a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 40], 3
+	QUAD $0x04282254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 40], 4
+	QUAD $0x05282a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 40], 5
+	LONG $0x54c40f66; WORD $0x281a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 40], 6
+	QUAD $0x07280a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 40], 7
+	LONG $0xf80f4466; BYTE $0xc7               // psubb    xmm8, xmm7
+	LONG $0x6f0f4166; BYTE $0xea               // movdqa    xmm5, xmm10
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xc8               // movd    xmm1, r8d
+	LONG $0x44b70f46; WORD $0x3632             // movzx    r8d, word [rdx + r14 + 54]
+	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x6f0f4166; BYTE $0xf1               // movdqa    xmm6, xmm9
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xe3               // movd    xmm4, r11d
+	LONG $0x44b70f42; WORD $0x3832             // movzx    eax, word [rdx + r14 + 56]
+	LONG $0x5cc40f66; WORD $0x2a0a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 42], 1
+	LONG $0x5cc40f66; WORD $0x2a3a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 42], 2
+	QUAD $0x032a3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 42], 3
+	QUAD $0x042a225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 42], 4
+	QUAD $0x052a2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 42], 5
+	LONG $0x5cc40f66; WORD $0x2a1a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 42], 6
+	QUAD $0x072a0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 42], 7
+	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0x4cc40f66; WORD $0x2c0a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 44], 1
+	LONG $0x4cc40f66; WORD $0x2c3a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 44], 2
+	QUAD $0x032c3a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 44], 3
+	QUAD $0x042c224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 44], 4
+	QUAD $0x052c2a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 44], 5
+	LONG $0x4cc40f66; WORD $0x2c1a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 44], 6
+	LONG $0xeb0f4166; BYTE $0xe8               // por    xmm5, xmm8
+	QUAD $0x0000c08d6f0f4466; BYTE $0x00       // movdqa    xmm9, oword 192[rbp] /* [rip + .LCPI11_12] */
+	LONG $0x6f0f4166; BYTE $0xd1               // movdqa    xmm2, xmm9
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4166; WORD $0xd710             // pblendvb    xmm2, xmm15, xmm0
+	LONG $0x7c6e0f66; WORD $0x0824             // movd    xmm7, dword [rsp + 8]
+	LONG $0x5cb70f46; WORD $0x3a32             // movzx    r11d, word [rdx + r14 + 58]
+	QUAD $0x072c0a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 44], 7
+	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0x0000d0956f0f4466; BYTE $0x00       // movdqa    xmm10, oword 208[rbp] /* [rip + .LCPI11_13] */
+	LONG $0x6f0f4166; BYTE $0xf2               // movdqa    xmm6, xmm10
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0xce6e0f66                           // movd    xmm1, esi
+	LONG $0x74b70f42; WORD $0x3c32             // movzx    esi, word [rdx + r14 + 60]
+	LONG $0xf2eb0f66                           // por    xmm6, xmm2
+	LONG $0x6e0f4166; BYTE $0xd2               // movd    xmm2, r10d
+	LONG $0x64c40f66; WORD $0x2e0a; BYTE $0x01 // pinsrw    xmm4, word [rdx + rcx + 46], 1
+	LONG $0x64c40f66; WORD $0x2e3a; BYTE $0x02 // pinsrw    xmm4, word [rdx + rdi + 46], 2
+	QUAD $0x032e3a64c40f4266                   // pinsrw    xmm4, word [rdx + r15 + 46], 3
+	QUAD $0x042e2264c40f4266                   // pinsrw    xmm4, word [rdx + r12 + 46], 4
+	QUAD $0x052e2a64c40f4266                   // pinsrw    xmm4, word [rdx + r13 + 46], 5
+	LONG $0x64c40f66; WORD $0x2e1a; BYTE $0x06 // pinsrw    xmm4, word [rdx + rbx + 46], 6
+	QUAD $0x072e0a64c40f4266                   // pinsrw    xmm4, word [rdx + r9 + 46], 7
+	LONG $0x650f4166; BYTE $0xe3               // pcmpgtw    xmm4, xmm11
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0x6f0f4566; BYTE $0xc6               // movdqa    xmm8, xmm14
+	LONG $0xc46f0f66                           // movdqa    xmm0, xmm4
+	LONG $0x380f4566; WORD $0xc710             // pblendvb    xmm8, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xd8               // movd    xmm3, r8d
+	LONG $0x4cc40f66; WORD $0x320a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 50], 1
+	LONG $0x4cc40f66; WORD $0x323a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 50], 2
+	QUAD $0x03323a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 50], 3
+	QUAD $0x0432224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 50], 4
+	QUAD $0x05322a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 50], 5
+	LONG $0x4cc40f66; WORD $0x321a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 50], 6
+	QUAD $0x07320a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 50], 7
+	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0xeb0f4466; BYTE $0xc6               // por    xmm8, xmm6
+	QUAD $0x00000080a56f0f66                   // movdqa    xmm4, oword 128[rbp] /* [rip + .LCPI11_8] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
+	LONG $0xc86e0f66                           // movd    xmm1, eax
+	LONG $0x7cc40f66; WORD $0x300a; BYTE $0x01 // pinsrw    xmm7, word [rdx + rcx + 48], 1
+	LONG $0x7cc40f66; WORD $0x303a; BYTE $0x02 // pinsrw    xmm7, word [rdx + rdi + 48], 2
+	QUAD $0x03303a7cc40f4266                   // pinsrw    xmm7, word [rdx + r15 + 48], 3
+	QUAD $0x0430227cc40f4266                   // pinsrw    xmm7, word [rdx + r12 + 48], 4
+	QUAD $0x05302a7cc40f4266                   // pinsrw    xmm7, word [rdx + r13 + 48], 5
+	LONG $0x7cc40f66; WORD $0x301a; BYTE $0x06 // pinsrw    xmm7, word [rdx + rbx + 48], 6
+	QUAD $0x07300a7cc40f4266                   // pinsrw    xmm7, word [rdx + r9 + 48], 7
+	LONG $0x650f4166; BYTE $0xfb               // pcmpgtw    xmm7, xmm11
+	QUAD $0x00000160bdef0f66                   // pxor    xmm7, oword 352[rbp] /* [rip + .LCPI11_22] */
+	LONG $0x54c40f66; WORD $0x340a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 52], 1
+	LONG $0x54c40f66; WORD $0x343a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 52], 2
+	QUAD $0x03343a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 52], 3
+	QUAD $0x04342254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 52], 4
+	QUAD $0x05342a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 52], 5
+	LONG $0x54c40f66; WORD $0x341a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 52], 6
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	QUAD $0x07340a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 52], 7
+	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
+	LONG $0x5cc40f66; WORD $0x360a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 54], 1
+	LONG $0x5cc40f66; WORD $0x363a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 54], 2
+	QUAD $0x03363a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 54], 3
+	QUAD $0x0436225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 54], 4
+	QUAD $0x05362a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 54], 5
+	LONG $0x5cc40f66; WORD $0x361a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 54], 6
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x07360a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 54], 7
+	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
+	LONG $0x4cc40f66; WORD $0x380a; BYTE $0x01 // pinsrw    xmm1, word [rdx + rcx + 56], 1
+	LONG $0x4cc40f66; WORD $0x383a; BYTE $0x02 // pinsrw    xmm1, word [rdx + rdi + 56], 2
+	QUAD $0x03383a4cc40f4266                   // pinsrw    xmm1, word [rdx + r15 + 56], 3
+	QUAD $0x0438224cc40f4266                   // pinsrw    xmm1, word [rdx + r12 + 56], 4
+	QUAD $0x05382a4cc40f4266                   // pinsrw    xmm1, word [rdx + r13 + 56], 5
+	LONG $0x4cc40f66; WORD $0x381a; BYTE $0x06 // pinsrw    xmm1, word [rdx + rbx + 56], 6
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	QUAD $0x07380a4cc40f4266                   // pinsrw    xmm1, word [rdx + r9 + 56], 7
+	LONG $0xe7f80f66                           // psubb    xmm4, xmm7
+	QUAD $0x00000090ad6f0f66                   // movdqa    xmm5, oword 144[rbp] /* [rip + .LCPI11_9] */
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xef10             // pblendvb    xmm5, xmm15, xmm0
+	QUAD $0x000000a0b56f0f66                   // movdqa    xmm6, oword 160[rbp] /* [rip + .LCPI11_10] */
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4166; WORD $0xf710             // pblendvb    xmm6, xmm15, xmm0
+	LONG $0x6e0f4166; BYTE $0xd3               // movd    xmm2, r11d
+	LONG $0x650f4166; BYTE $0xcb               // pcmpgtw    xmm1, xmm11
+	LONG $0x54c40f66; WORD $0x3a0a; BYTE $0x01 // pinsrw    xmm2, word [rdx + rcx + 58], 1
+	LONG $0x54c40f66; WORD $0x3a3a; BYTE $0x02 // pinsrw    xmm2, word [rdx + rdi + 58], 2
+	QUAD $0x033a3a54c40f4266                   // pinsrw    xmm2, word [rdx + r15 + 58], 3
+	QUAD $0x043a2254c40f4266                   // pinsrw    xmm2, word [rdx + r12 + 58], 4
+	QUAD $0x053a2a54c40f4266                   // pinsrw    xmm2, word [rdx + r13 + 58], 5
+	LONG $0x54c40f66; WORD $0x3a1a; BYTE $0x06 // pinsrw    xmm2, word [rdx + rbx + 58], 6
+	QUAD $0x073a0a54c40f4266                   // pinsrw    xmm2, word [rdx + r9 + 58], 7
+	LONG $0xc9630f66                           // packsswb    xmm1, xmm1
+	LONG $0x650f4166; BYTE $0xd3               // pcmpgtw    xmm2, xmm11
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	LONG $0xde6e0f66                           // movd    xmm3, esi
+	LONG $0x5cc40f66; WORD $0x3c0a; BYTE $0x01 // pinsrw    xmm3, word [rdx + rcx + 60], 1
+	LONG $0x5cc40f66; WORD $0x3c3a; BYTE $0x02 // pinsrw    xmm3, word [rdx + rdi + 60], 2
+	QUAD $0x033c3a5cc40f4266                   // pinsrw    xmm3, word [rdx + r15 + 60], 3
+	QUAD $0x043c225cc40f4266                   // pinsrw    xmm3, word [rdx + r12 + 60], 4
+	QUAD $0x053c2a5cc40f4266                   // pinsrw    xmm3, word [rdx + r13 + 60], 5
+	LONG $0x5cc40f66; WORD $0x3c1a; BYTE $0x06 // pinsrw    xmm3, word [rdx + rbx + 60], 6
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	QUAD $0x073c0a5cc40f4266                   // pinsrw    xmm3, word [rdx + r9 + 60], 7
+	LONG $0x650f4166; BYTE $0xdb               // pcmpgtw    xmm3, xmm11
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf4eb0f66                           // por    xmm6, xmm4
+	QUAD $0x000000b0a56f0f66                   // movdqa    xmm4, oword 176[rbp] /* [rip + .LCPI11_11] */
+	LONG $0xc16f0f66                           // movdqa    xmm0, xmm1
+	LONG $0x380f4166; WORD $0xe710             // pblendvb    xmm4, xmm15, xmm0
+	LONG $0x6f0f4166; BYTE $0xc9               // movdqa    xmm1, xmm9
+	LONG $0xc26f0f66                           // movdqa    xmm0, xmm2
+	LONG $0x380f4166; WORD $0xcf10             // pblendvb    xmm1, xmm15, xmm0
+	LONG $0xc36f0f66                           // movdqa    xmm0, xmm3
+	LONG $0x380f4566; WORD $0xd710             // pblendvb    xmm10, xmm15, xmm0
+	LONG $0xcceb0f66                           // por    xmm1, xmm4
+	LONG $0x44b70f42; WORD $0x3e32             // movzx    eax, word [rdx + r14 + 62]
+	LONG $0xeb0f4466; BYTE $0xd1               // por    xmm10, xmm1
+	LONG $0xc06e0f66                           // movd    xmm0, eax
+	LONG $0x44c40f66; WORD $0x3e0a; BYTE $0x01 // pinsrw    xmm0, word [rdx + rcx + 62], 1
+	LONG $0x44c40f66; WORD $0x3e3a; BYTE $0x02 // pinsrw    xmm0, word [rdx + rdi + 62], 2
+	QUAD $0x033e3a44c40f4266                   // pinsrw    xmm0, word [rdx + r15 + 62], 3
+	LONG $0x247c8b4c; BYTE $0x78               // mov    r15, qword [rsp + 120]
+	QUAD $0x043e2244c40f4266                   // pinsrw    xmm0, word [rdx + r12 + 62], 4
+	QUAD $0x053e2a44c40f4266                   // pinsrw    xmm0, word [rdx + r13 + 62], 5
+	LONG $0x44c40f66; WORD $0x3e1a; BYTE $0x06 // pinsrw    xmm0, word [rdx + rbx + 62], 6
+	QUAD $0x073e0a44c40f4266                   // pinsrw    xmm0, word [rdx + r9 + 62], 7
+	LONG $0x650f4166; BYTE $0xc3               // pcmpgtw    xmm0, xmm11
+	LONG $0xc0630f66                           // packsswb    xmm0, xmm0
+	LONG $0xeb0f4466; BYTE $0xd6               // por    xmm10, xmm6
+	LONG $0x380f4566; WORD $0xf710             // pblendvb    xmm14, xmm15, xmm0
+	LONG $0xeb0f4566; BYTE $0xf2               // por    xmm14, xmm10
+	LONG $0x6f0f4166; BYTE $0xc4               // movdqa    xmm0, xmm12
+	LONG $0x6c0f4166; BYTE $0xc5               // punpcklqdq    xmm0, xmm13
+	LONG $0x6f0f4166; BYTE $0xd0               // movdqa    xmm2, xmm8
+	LONG $0x6c0f4166; BYTE $0xd6               // punpcklqdq    xmm2, xmm14
+	QUAD $0x000000f09d6f0f66                   // movdqa    xmm3, oword 240[rbp] /* [rip + .LCPI11_15] */
+	LONG $0x00380f66; BYTE $0xd3               // pshufb    xmm2, xmm3
+	LONG $0x00380f66; BYTE $0xc3               // pshufb    xmm0, xmm3
+	LONG $0xc2610f66                           // punpcklwd    xmm0, xmm2
+	LONG $0x600f4566; BYTE $0xc6               // punpcklbw    xmm8, xmm14
+	LONG $0x600f4566; BYTE $0xe5               // punpcklbw    xmm12, xmm13
+	LONG $0x610f4566; BYTE $0xe0               // punpcklwd    xmm12, xmm8
+	LONG $0x244c8b48; BYTE $0x10               // mov    rcx, qword [rsp + 16]
+	LONG $0x7f0f45f3; WORD $0x8f24             // movdqu    oword [r15 + 4*rcx], xmm12
+	LONG $0x7f0f41f3; WORD $0x8f44; BYTE $0x10 // movdqu    oword [r15 + 4*rcx + 16], xmm0
+	LONG $0x08c18348                           // add    rcx, 8
+	WORD $0x8949; BYTE $0xce                   // mov    r14, rcx
+	LONG $0x244c3b48; BYTE $0x20               // cmp    rcx, qword [rsp + 32]
+	JNE  LBB11_125
+	QUAD $0x0000010024948b4c                   // mov    r10, qword [rsp + 256]
+	LONG $0x24543b4c; BYTE $0x20               // cmp    r10, qword [rsp + 32]
+	QUAD $0x00000088249c8b4c                   // mov    r11, qword [rsp + 136]
+	LONG $0x24348b44                           // mov    r14d, dword [rsp]
+	LONG $0x24648b4c; BYTE $0x38               // mov    r12, qword [rsp + 56]
+	LONG $0x24448b48; BYTE $0x30               // mov    rax, qword [rsp + 48]
+	JNE  LBB11_127
+	JMP  LBB11_130
+
+LBB11_182:
+	WORD $0x894d; BYTE $0xd0                   // mov    r8, r10
+	LONG $0xfce08349                           // and    r8, -4
+	WORD $0x894c; BYTE $0xc3                   // mov    rbx, r8
+	LONG $0x07e3c148                           // shl    rbx, 7
+	WORD $0x0148; BYTE $0xd3                   // add    rbx, rdx
+	LONG $0x87348d4f                           // lea    r14, [r15 + 4*r8]
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x00c8c60f                           // shufps    xmm1, xmm0, 0
+	LONG $0xfcc28148; WORD $0x0001; BYTE $0x00 // add    rdx, 508
+	WORD $0xc931                               // xor    ecx, ecx
+	LONG $0x6f0f4466; WORD $0x007d             // movdqa    xmm15, oword 0[rbp] /* [rip + .LCPI11_0] */
+	LONG $0x6f0f4466; WORD $0x1045             // movdqa    xmm8, oword 16[rbp] /* [rip + .LCPI11_1] */
+	LONG $0x6f0f4466; WORD $0x2055             // movdqa    xmm10, oword 32[rbp] /* [rip + .LCPI11_2] */
+	LONG $0x6f0f4466; WORD $0x305d             // movdqa    xmm11, oword 48[rbp] /* [rip + .LCPI11_3] */
+	LONG $0x6f0f4466; WORD $0x4065             // movdqa    xmm12, oword 64[rbp] /* [rip + .LCPI11_4] */
+	LONG $0x6f0f4466; WORD $0x506d             // movdqa    xmm13, oword 80[rbp] /* [rip + .LCPI11_5] */
+	LONG $0x6f0f4466; WORD $0x6075             // movdqa    xmm14, oword 96[rbp] /* [rip + .LCPI11_6] */
+	LONG $0x6f0f4466; WORD $0x704d             // movdqa    xmm9, oword 112[rbp] /* [rip + .LCPI11_7] */
+
+LBB11_183:
+	QUAD $0xfffffe04b2100ff3                   // movss    xmm6, dword [rdx - 508]
+	QUAD $0xfffffe08ba100ff3                   // movss    xmm7, dword [rdx - 504]
+	QUAD $0xfffffe0caa100ff3                   // movss    xmm5, dword [rdx - 500]
+	QUAD $0xfffffe10a2100ff3                   // movss    xmm4, dword [rdx - 496]
+	QUAD $0xfffe84b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 380], 16
+	QUAD $0xffff04b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 252], 32
+	LONG $0x213a0f66; WORD $0x8472; BYTE $0x30 // insertps    xmm6, dword [rdx - 124], 48
+	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	QUAD $0xfffe88ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 376], 16
+	QUAD $0xffff08ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 248], 32
+	LONG $0x213a0f66; WORD $0x887a; BYTE $0x30 // insertps    xmm7, dword [rdx - 120], 48
+	QUAD $0xfffe8caa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 372], 16
+	QUAD $0xffff0caa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 244], 32
+	LONG $0x213a0f66; WORD $0x8c6a; BYTE $0x30 // insertps    xmm5, dword [rdx - 116], 48
+	QUAD $0xfffe90a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 368], 16
+	QUAD $0xffff10a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 240], 32
+	LONG $0x213a0f66; WORD $0x9062; BYTE $0x30 // insertps    xmm4, dword [rdx - 112], 48
+	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xd76f0f66                           // movdqa    xmm2, xmm7
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xd7f80f66                           // psubb    xmm2, xmm7
+	QUAD $0xfffffe14ba100ff3                   // movss    xmm7, dword [rdx - 492]
+	QUAD $0xfffe94ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 364], 16
+	QUAD $0xffff14ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 236], 32
+	LONG $0x213a0f66; WORD $0x947a; BYTE $0x30 // insertps    xmm7, dword [rdx - 108], 48
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0xfffffe18b2100ff3                   // movss    xmm6, dword [rdx - 488]
+	QUAD $0xfffe98b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 360], 16
+	QUAD $0xffff18b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 232], 32
+	LONG $0x213a0f66; WORD $0x9872; BYTE $0x30 // insertps    xmm6, dword [rdx - 104], 48
+	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x02               // psllw    xmm5, 2
+	LONG $0xdb0f4166; BYTE $0xe8               // pand    xmm5, xmm8
+	LONG $0xeaeb0f66                           // por    xmm5, xmm2
+	QUAD $0xfffffe1c9a100ff3                   // movss    xmm3, dword [rdx - 484]
+	QUAD $0xfffe9c9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 356], 16
+	QUAD $0xffff1c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 228], 32
+	LONG $0x213a0f66; WORD $0x9c5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 100], 48
+	LONG $0x02e1c20f                           // cmpleps    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xdb0f4166; BYTE $0xe7               // pand    xmm4, xmm15
+	LONG $0xf4710f66; BYTE $0x03               // psllw    xmm4, 3
+	LONG $0xdb0f4166; BYTE $0xe2               // pand    xmm4, xmm10
+	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x04               // psllw    xmm7, 4
+	LONG $0xdb0f4166; BYTE $0xfb               // pand    xmm7, xmm11
+	LONG $0xfceb0f66                           // por    xmm7, xmm4
+	QUAD $0xfffffe20a2100ff3                   // movss    xmm4, dword [rdx - 480]
+	QUAD $0xfffea0a2213a0f66; WORD $0x10ff     // insertps    xmm4, dword [rdx - 352], 16
+	QUAD $0xffff20a2213a0f66; WORD $0x20ff     // insertps    xmm4, dword [rdx - 224], 32
+	LONG $0x213a0f66; WORD $0xa062; BYTE $0x30 // insertps    xmm4, dword [rdx - 96], 48
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	QUAD $0xfffffe24aa100ff3                   // movss    xmm5, dword [rdx - 476]
+	QUAD $0xfffea4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 348], 16
+	QUAD $0xffff24aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 220], 32
+	LONG $0x213a0f66; WORD $0xa46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 92], 48
+	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x06               // psllw    xmm3, 6
+	LONG $0xdb0f4166; BYTE $0xdd               // pand    xmm3, xmm13
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe2892100ff3                   // movss    xmm2, dword [rdx - 472]
+	QUAD $0xfffea892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 344], 16
+	QUAD $0xffff2892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 216], 32
+	LONG $0x213a0f66; WORD $0xa852; BYTE $0x30 // insertps    xmm2, dword [rdx - 88], 48
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0x02e1c20f                           // cmpleps    xmm4, xmm1
+	LONG $0xe46b0f66                           // packssdw    xmm4, xmm4
+	LONG $0xe4630f66                           // packsswb    xmm4, xmm4
+	LONG $0xf4710f66; BYTE $0x07               // psllw    xmm4, 7
+	LONG $0xdb0f4166; BYTE $0xe6               // pand    xmm4, xmm14
+	LONG $0xe3eb0f66                           // por    xmm4, xmm3
+	QUAD $0xfffffe2c9a100ff3                   // movss    xmm3, dword [rdx - 468]
+	QUAD $0xfffeac9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 340], 16
+	QUAD $0xffff2c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 212], 32
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0x213a0f66; WORD $0xac5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 84], 48
+	LONG $0xe7eb0f66                           // por    xmm4, xmm7
+	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
+	QUAD $0xfffffe30ba100ff3                   // movss    xmm7, dword [rdx - 464]
+	QUAD $0xfffeb0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 336], 16
+	QUAD $0xffff30ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 208], 32
+	LONG $0x213a0f66; WORD $0xb07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 80], 48
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	QUAD $0xfffffe34aa100ff3                   // movss    xmm5, dword [rdx - 460]
+	QUAD $0xfffeb4aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 332], 16
+	QUAD $0xffff34aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 204], 32
+	LONG $0x213a0f66; WORD $0xb46a; BYTE $0x30 // insertps    xmm5, dword [rdx - 76], 48
+	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe38b2100ff3                   // movss    xmm6, dword [rdx - 456]
+	QUAD $0xfffeb8b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 328], 16
+	QUAD $0xffff38b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 200], 32
+	LONG $0x213a0f66; WORD $0xb872; BYTE $0x30 // insertps    xmm6, dword [rdx - 72], 48
+	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x03               // psllw    xmm7, 3
+	LONG $0xdb0f4166; BYTE $0xfa               // pand    xmm7, xmm10
+	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x04               // psllw    xmm5, 4
+	LONG $0xdb0f4166; BYTE $0xeb               // pand    xmm5, xmm11
+	LONG $0xefeb0f66                           // por    xmm5, xmm7
+	QUAD $0xfffffe3c92100ff3                   // movss    xmm2, dword [rdx - 452]
+	QUAD $0xfffebc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 324], 16
+	QUAD $0xffff3c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 196], 32
+	LONG $0x213a0f66; WORD $0xbc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 68], 48
+	LONG $0xebeb0f66                           // por    xmm5, xmm3
+	QUAD $0xfffffe40ba100ff3                   // movss    xmm7, dword [rdx - 448]
+	QUAD $0xfffec0ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 320], 16
+	QUAD $0xffff40ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 192], 32
+	LONG $0x213a0f66; WORD $0xc07a; BYTE $0x30 // insertps    xmm7, dword [rdx - 64], 48
+	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x05               // psllw    xmm6, 5
+	LONG $0xdb0f4166; BYTE $0xf4               // pand    xmm6, xmm12
+	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd6eb0f66                           // por    xmm2, xmm6
+	QUAD $0xfffffe44b2100ff3                   // movss    xmm6, dword [rdx - 444]
+	QUAD $0xfffec4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 316], 16
+	QUAD $0xffff44b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 188], 32
+	LONG $0x213a0f66; WORD $0xc472; BYTE $0x30 // insertps    xmm6, dword [rdx - 60], 48
+	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xf7710f66; BYTE $0x07               // psllw    xmm7, 7
+	LONG $0xdb0f4166; BYTE $0xfe               // pand    xmm7, xmm14
+	LONG $0xfaeb0f66                           // por    xmm7, xmm2
+	QUAD $0xfffffe4892100ff3                   // movss    xmm2, dword [rdx - 440]
+	QUAD $0xfffec892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 312], 16
+	QUAD $0xffff4892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 184], 32
+	LONG $0x213a0f66; WORD $0xc852; BYTE $0x30 // insertps    xmm2, dword [rdx - 56], 48
+	LONG $0xfdeb0f66                           // por    xmm7, xmm5
+	QUAD $0xfffffe4c9a100ff3                   // movss    xmm3, dword [rdx - 436]
+	QUAD $0xfffecc9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 308], 16
+	QUAD $0xffff4c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 180], 32
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0x213a0f66; WORD $0xcc5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 52], 48
+	LONG $0xe7620f66                           // punpckldq    xmm4, xmm7
+	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xfa6f0f66                           // movdqa    xmm7, xmm2
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xfaf80f66                           // psubb    xmm7, xmm2
+	QUAD $0xfffffe50aa100ff3                   // movss    xmm5, dword [rdx - 432]
+	QUAD $0xfffed0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 304], 16
+	QUAD $0xffff50aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 176], 32
+	LONG $0x213a0f66; WORD $0xd06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 48], 48
+	LONG $0xfeeb0f66                           // por    xmm7, xmm6
+	QUAD $0xfffffe54b2100ff3                   // movss    xmm6, dword [rdx - 428]
+	QUAD $0xfffed4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 300], 16
+	QUAD $0xffff54b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 172], 32
+	LONG $0x213a0f66; WORD $0xd472; BYTE $0x30 // insertps    xmm6, dword [rdx - 44], 48
+	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdfeb0f66                           // por    xmm3, xmm7
+	QUAD $0xfffffe58ba100ff3                   // movss    xmm7, dword [rdx - 424]
+	QUAD $0xfffed8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 296], 16
+	QUAD $0xffff58ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 168], 32
+	LONG $0x213a0f66; WORD $0xd87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 40], 48
+	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xdb0f4166; BYTE $0xef               // pand    xmm5, xmm15
+	LONG $0xf5710f66; BYTE $0x03               // psllw    xmm5, 3
+	LONG $0xdb0f4166; BYTE $0xea               // pand    xmm5, xmm10
+	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
+	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
+	LONG $0xf5eb0f66                           // por    xmm6, xmm5
+	QUAD $0xfffffe5c92100ff3                   // movss    xmm2, dword [rdx - 420]
+	QUAD $0xfffedc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 292], 16
+	QUAD $0xffff5c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 164], 32
+	LONG $0x213a0f66; WORD $0xdc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 36], 48
+	LONG $0xf3eb0f66                           // por    xmm6, xmm3
+	QUAD $0xfffffe60aa100ff3                   // movss    xmm5, dword [rdx - 416]
+	QUAD $0xfffee0aa213a0f66; WORD $0x10ff     // insertps    xmm5, dword [rdx - 288], 16
+	QUAD $0xffff60aa213a0f66; WORD $0x20ff     // insertps    xmm5, dword [rdx - 160], 32
+	LONG $0x213a0f66; WORD $0xe06a; BYTE $0x30 // insertps    xmm5, dword [rdx - 32], 48
+	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
+	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
+	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	QUAD $0xfffffe64ba100ff3                   // movss    xmm7, dword [rdx - 412]
+	QUAD $0xfffee4ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 284], 16
+	QUAD $0xffff64ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 156], 32
+	LONG $0x213a0f66; WORD $0xe47a; BYTE $0x30 // insertps    xmm7, dword [rdx - 28], 48
+	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0x02e9c20f                           // cmpleps    xmm5, xmm1
+	LONG $0xed6b0f66                           // packssdw    xmm5, xmm5
+	LONG $0xed630f66                           // packsswb    xmm5, xmm5
+	LONG $0xf5710f66; BYTE $0x07               // psllw    xmm5, 7
+	LONG $0xdb0f4166; BYTE $0xee               // pand    xmm5, xmm14
+	LONG $0xeaeb0f66                           // por    xmm5, xmm2
+	QUAD $0xfffffe6892100ff3                   // movss    xmm2, dword [rdx - 408]
+	QUAD $0xfffee892213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 280], 16
+	QUAD $0xffff6892213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 152], 32
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0x213a0f66; WORD $0xe852; BYTE $0x30 // insertps    xmm2, dword [rdx - 24], 48
+	LONG $0xeeeb0f66                           // por    xmm5, xmm6
+	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xf26f0f66                           // movdqa    xmm6, xmm2
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf2f80f66                           // psubb    xmm6, xmm2
+	QUAD $0xfffffe6c9a100ff3                   // movss    xmm3, dword [rdx - 404]
+	QUAD $0xfffeec9a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 276], 16
+	QUAD $0xffff6c9a213a0f66; WORD $0x20ff     // insertps    xmm3, dword [rdx - 148], 32
+	LONG $0x213a0f66; WORD $0xec5a; BYTE $0x30 // insertps    xmm3, dword [rdx - 20], 48
+	LONG $0xf7eb0f66                           // por    xmm6, xmm7
+	QUAD $0xfffffe7092100ff3                   // movss    xmm2, dword [rdx - 400]
+	QUAD $0xfffef092213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 272], 16
+	QUAD $0xffff7092213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 144], 32
+	LONG $0x213a0f66; WORD $0xf052; BYTE $0x30 // insertps    xmm2, dword [rdx - 16], 48
+	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xdb0f4166; BYTE $0xdf               // pand    xmm3, xmm15
+	LONG $0xf3710f66; BYTE $0x02               // psllw    xmm3, 2
+	LONG $0xdb0f4166; BYTE $0xd8               // pand    xmm3, xmm8
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	QUAD $0xfffffe74b2100ff3                   // movss    xmm6, dword [rdx - 396]
+	QUAD $0xfffef4b2213a0f66; WORD $0x10ff     // insertps    xmm6, dword [rdx - 268], 16
+	QUAD $0xffff74b2213a0f66; WORD $0x20ff     // insertps    xmm6, dword [rdx - 140], 32
+	LONG $0x213a0f66; WORD $0xf472; BYTE $0x30 // insertps    xmm6, dword [rdx - 12], 48
+	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x03               // psllw    xmm2, 3
+	LONG $0xdb0f4166; BYTE $0xd2               // pand    xmm2, xmm10
+	LONG $0x02f1c20f                           // cmpleps    xmm6, xmm1
+	LONG $0xf66b0f66                           // packssdw    xmm6, xmm6
+	LONG $0xf6630f66                           // packsswb    xmm6, xmm6
+	LONG $0xdb0f4166; BYTE $0xf7               // pand    xmm6, xmm15
+	LONG $0xf6710f66; BYTE $0x04               // psllw    xmm6, 4
+	LONG $0xdb0f4166; BYTE $0xf3               // pand    xmm6, xmm11
+	LONG $0xf2eb0f66                           // por    xmm6, xmm2
+	QUAD $0xfffffe78ba100ff3                   // movss    xmm7, dword [rdx - 392]
+	QUAD $0xfffef8ba213a0f66; WORD $0x10ff     // insertps    xmm7, dword [rdx - 264], 16
+	QUAD $0xffff78ba213a0f66; WORD $0x20ff     // insertps    xmm7, dword [rdx - 136], 32
+	LONG $0x213a0f66; WORD $0xf87a; BYTE $0x30 // insertps    xmm7, dword [rdx - 8], 48
+	LONG $0xf3eb0f66                           // por    xmm6, xmm3
+	QUAD $0xfffffe7c92100ff3                   // movss    xmm2, dword [rdx - 388]
+	QUAD $0xfffefc92213a0f66; WORD $0x10ff     // insertps    xmm2, dword [rdx - 260], 16
+	QUAD $0xffff7c92213a0f66; WORD $0x20ff     // insertps    xmm2, dword [rdx - 132], 32
+	LONG $0x213a0f66; WORD $0xfc52; BYTE $0x30 // insertps    xmm2, dword [rdx - 4], 48
+	LONG $0x02f9c20f                           // cmpleps    xmm7, xmm1
+	LONG $0xff6b0f66                           // packssdw    xmm7, xmm7
+	LONG $0xff630f66                           // packsswb    xmm7, xmm7
+	LONG $0xdb0f4166; BYTE $0xff               // pand    xmm7, xmm15
+	LONG $0xf7710f66; BYTE $0x05               // psllw    xmm7, 5
+	LONG $0xdb0f4166; BYTE $0xfc               // pand    xmm7, xmm12
+	LONG $0x02d1c20f                           // cmpleps    xmm2, xmm1
+	LONG $0xd26b0f66                           // packssdw    xmm2, xmm2
+	LONG $0xd2630f66                           // packsswb    xmm2, xmm2
+	LONG $0xdb0f4166; BYTE $0xd7               // pand    xmm2, xmm15
+	LONG $0xf2710f66; BYTE $0x06               // psllw    xmm2, 6
+	LONG $0xdb0f4166; BYTE $0xd5               // pand    xmm2, xmm13
+	LONG $0xd7eb0f66                           // por    xmm2, xmm7
+	QUAD $0xfffffe809a100ff3                   // movss    xmm3, dword [rdx - 384]
+	QUAD $0xffff009a213a0f66; WORD $0x10ff     // insertps    xmm3, dword [rdx - 256], 16
+	LONG $0x213a0f66; WORD $0x805a; BYTE $0x20 // insertps    xmm3, dword [rdx - 128], 32
+	LONG $0x213a0f66; WORD $0x301a             // insertps    xmm3, dword [rdx], 48
+	LONG $0x02d9c20f                           // cmpleps    xmm3, xmm1
+	LONG $0xdb6b0f66                           // packssdw    xmm3, xmm3
+	LONG $0xdb630f66                           // packsswb    xmm3, xmm3
+	LONG $0xf3710f66; BYTE $0x07               // psllw    xmm3, 7
+	LONG $0xdb0f4166; BYTE $0xde               // pand    xmm3, xmm14
+	LONG $0xdaeb0f66                           // por    xmm3, xmm2
+	LONG $0xdeeb0f66                           // por    xmm3, xmm6
+	LONG $0xeb620f66                           // punpckldq    xmm5, xmm3
+	LONG $0xe5600f66                           // punpcklbw    xmm4, xmm5
+	LONG $0x380f4166; WORD $0xe100             // pshufb    xmm4, xmm9
+	LONG $0x7f0f41f3; WORD $0x8f24             // movdqu    oword [r15 + 4*rcx], xmm4
+	LONG $0x04c18348                           // add    rcx, 4
+	LONG $0x00c28148; WORD $0x0002; BYTE $0x00 // add    rdx, 512
+	WORD $0x3949; BYTE $0xc8                   // cmp    r8, rcx
+	JNE  LBB11_183
+	WORD $0x394d; BYTE $0xc2                   // cmp    r10, r8
+	JNE  LBB11_185
+	JMP  LBB11_188
diff --git a/go/arrow/compute/internal/kernels/scalar_comparisons.go b/go/arrow/compute/internal/kernels/scalar_comparisons.go
new file mode 100644
index 00000000000..8d27d5d21af
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/scalar_comparisons.go
@@ -0,0 +1,701 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"bytes"
+	"fmt"
+	"unsafe"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+)
+
+type binaryKernel func(left, right, out []byte, offset int)
+
+type cmpFn[LeftT, RightT exec.FixedWidthTypes] func([]LeftT, []RightT, []uint32)
+type cmpScalarLeft[LeftT, RightT exec.FixedWidthTypes] func(LeftT, []RightT, []uint32)
+type cmpScalarRight[LeftT, RightT exec.FixedWidthTypes] func([]LeftT, RightT, []uint32)
+
+type cmpOp[T exec.FixedWidthTypes] struct {
+	arrArr    cmpFn[T, T]
+	arrScalar cmpScalarRight[T, T]
+	scalarArr cmpScalarLeft[T, T]
+}
+
+func comparePrimitiveArrayArray[T exec.FixedWidthTypes](op cmpFn[T, T]) binaryKernel {
+	return func(leftBytes, rightBytes, out []byte, offset int) {
+		const batchSize = 32
+		var (
+			left      = exec.GetData[T](leftBytes)
+			right     = exec.GetData[T](rightBytes)
+			nvals     = len(left)
+			nbatches  = nvals / batchSize
+			tmpOutput [batchSize]uint32
+		)
+
+		tmpOutSlice := tmpOutput[:]
+		if prefix := offset % 8; prefix != 0 {
+			vals := 8 - prefix
+			op(left[:vals], right[:vals], tmpOutSlice[:vals])
+			left, right = left[vals:], right[vals:]
+
+			for i, v := range tmpOutSlice[:vals] {
+				bitutil.SetBitTo(out, prefix+i, v != 0)
+			}
+			out = out[1:]
+		}
+
+		for j := 0; j < nbatches; j++ {
+			op(left, right, tmpOutSlice)
+			left, right = left[batchSize:], right[batchSize:]
+			packBits(tmpOutput, out)
+			out = out[batchSize/8:]
+		}
+
+		remaining := nvals - (batchSize * nbatches)
+		op(left, right, tmpOutput[:remaining])
+		for bitIndex, v := range tmpOutput[:remaining] {
+			bitutil.SetBitTo(out, bitIndex, v != 0)
+		}
+	}
+}
+
+func comparePrimitiveArrayScalar[T exec.FixedWidthTypes](op cmpScalarRight[T, T]) binaryKernel {
+	return func(leftBytes, rightBytes, out []byte, offset int) {
+		const batchSize = 32
+		var (
+			left      = exec.GetData[T](leftBytes)
+			rightVal  = *(*T)(unsafe.Pointer(&rightBytes[0]))
+			nvals     = len(left)
+			nbatches  = nvals / batchSize
+			tmpOutput [batchSize]uint32
+		)
+
+		tmpOutSlice := tmpOutput[:]
+		if prefix := offset % 8; prefix != 0 {
+			vals := 8 - prefix
+			op(left[:vals], rightVal, tmpOutSlice[:vals])
+			left = left[vals:]
+
+			for i, v := range tmpOutSlice[:vals] {
+				bitutil.SetBitTo(out, prefix+i, v != 0)
+			}
+			out = out[1:]
+		}
+
+		for j := 0; j < nbatches; j++ {
+			op(left, rightVal, tmpOutSlice)
+			left = left[batchSize:]
+			packBits(tmpOutput, out)
+			out = out[batchSize/8:]
+		}
+
+		remaining := nvals - (batchSize * nbatches)
+		op(left, rightVal, tmpOutput[:remaining])
+		for bitIndex, v := range tmpOutput[:remaining] {
+			bitutil.SetBitTo(out, bitIndex, v != 0)
+		}
+	}
+}
+
+func comparePrimitiveScalarArray[T exec.FixedWidthTypes](op cmpScalarLeft[T, T]) binaryKernel {
+	return func(leftBytes, rightBytes, out []byte, offset int) {
+		const batchSize = 32
+		var (
+			leftVal = *(*T)(unsafe.Pointer(&leftBytes[0]))
+			right   = exec.GetData[T](rightBytes)
+
+			nvals     = len(right)
+			nbatches  = nvals / batchSize
+			tmpOutput [batchSize]uint32
+		)
+
+		tmpOutSlice := tmpOutput[:]
+		if prefix := offset % 8; prefix != 0 {
+			vals := 8 - prefix
+			op(leftVal, right[:vals], tmpOutSlice[:vals])
+			right = right[vals:]
+
+			for i, v := range tmpOutSlice[:vals] {
+				bitutil.SetBitTo(out, prefix+i, v != 0)
+			}
+			out = out[1:]
+		}
+
+		for j := 0; j < nbatches; j++ {
+			op(leftVal, right, tmpOutSlice)
+			right = right[batchSize:]
+			packBits(tmpOutput, out)
+			out = out[batchSize/8:]
+		}
+
+		remaining := nvals - (batchSize * nbatches)
+		op(leftVal, right, tmpOutput[:remaining])
+		for bitIndex, v := range tmpOutput[:remaining] {
+			bitutil.SetBitTo(out, bitIndex, v != 0)
+		}
+	}
+}
+
+type CompareData struct {
+	funcAA, funcSA, funcAS binaryKernel
+}
+
+func (c *CompareData) Funcs() *CompareData { return c }
+
+type CompareFuncData interface {
+	Funcs() *CompareData
+}
+
+func getOffsetSpanBytes(span *exec.ArraySpan) []byte {
+	if len(span.Buffers[1].Buf) == 0 {
+		return nil
+	}
+
+	buf := span.Buffers[1].Buf
+	byteWidth := int64(span.Type.(arrow.FixedWidthDataType).Bytes())
+	start := span.Offset * byteWidth
+	return buf[start : start+(span.Len*byteWidth)]
+}
+
+func compareKernel[T exec.FixedWidthTypes](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	kn := ctx.Kernel.(*exec.ScalarKernel)
+	knData := kn.Data.(CompareFuncData).Funcs()
+
+	outPrefix := int(out.Offset % 8)
+	outBuf := out.Buffers[1].Buf[out.Offset/8:]
+
+	if batch.Values[0].IsArray() && batch.Values[1].IsArray() {
+		knData.funcAA(getOffsetSpanBytes(&batch.Values[0].Array),
+			getOffsetSpanBytes(&batch.Values[1].Array), outBuf, outPrefix)
+	} else if batch.Values[1].IsScalar() {
+		knData.funcAS(getOffsetSpanBytes(&batch.Values[0].Array),
+			batch.Values[1].Scalar.(scalar.PrimitiveScalar).Data(), outBuf, outPrefix)
+	} else {
+		knData.funcSA(batch.Values[0].Scalar.(scalar.PrimitiveScalar).Data(),
+			getOffsetSpanBytes(&batch.Values[1].Array), outBuf, outPrefix)
+	}
+
+	return nil
+}
+
+func genGoCompareKernel[T exec.FixedWidthTypes](op *cmpOp[T]) *CompareData {
+	return &CompareData{
+		funcAA: comparePrimitiveArrayArray(op.arrArr),
+		funcAS: comparePrimitiveArrayScalar(op.arrScalar),
+		funcSA: comparePrimitiveScalarArray(op.scalarArr),
+	}
+}
+
+type decCmp[T decimal128.Num | decimal256.Num] struct {
+	Gt func(T, T) bool
+	Ge func(T, T) bool
+}
+
+var dec128Cmp = decCmp[decimal128.Num]{
+	Gt: func(a, b decimal128.Num) bool { return a.Greater(b) },
+	Ge: func(a, b decimal128.Num) bool { return a.GreaterEqual(b) },
+}
+
+var dec256Cmp = decCmp[decimal256.Num]{
+	Gt: func(a, b decimal256.Num) bool { return a.Greater(b) },
+	Ge: func(a, b decimal256.Num) bool { return a.GreaterEqual(b) },
+}
+
+func getCmpDec[T decimal128.Num | decimal256.Num](op CompareOperator, fns decCmp[T]) *cmpOp[T] {
+	switch op {
+	case CmpEQ:
+		return &cmpOp[T]{
+			arrArr: func(lt, rt []T, u []uint32) {
+				for i := range lt {
+					if lt[i] == rt[i] {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			arrScalar: func(lt []T, rt T, u []uint32) {
+				for i := range lt {
+					if lt[i] == rt {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			scalarArr: func(lt T, rt []T, u []uint32) {
+				for i := range rt {
+					if lt == rt[i] {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+		}
+	case CmpNE:
+		return &cmpOp[T]{
+			arrArr: func(lt, rt []T, u []uint32) {
+				for i := range lt {
+					if lt[i] != rt[i] {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			arrScalar: func(lt []T, rt T, u []uint32) {
+				for i := range lt {
+					if lt[i] != rt {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			scalarArr: func(lt T, rt []T, u []uint32) {
+				for i := range rt {
+					if lt != rt[i] {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+		}
+	case CmpGT:
+		return &cmpOp[T]{
+			arrArr: func(lt, rt []T, u []uint32) {
+				for i := range lt {
+					if fns.Gt(lt[i], rt[i]) {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			arrScalar: func(lt []T, rt T, u []uint32) {
+				for i := range lt {
+					if fns.Gt(lt[i], rt) {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			scalarArr: func(lt T, rt []T, u []uint32) {
+				for i := range rt {
+					if fns.Gt(lt, rt[i]) {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+		}
+	case CmpGE:
+		return &cmpOp[T]{
+			arrArr: func(lt, rt []T, u []uint32) {
+				for i := range lt {
+					if fns.Ge(lt[i], rt[i]) {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			arrScalar: func(lt []T, rt T, u []uint32) {
+				for i := range lt {
+					if fns.Ge(lt[i], rt) {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			scalarArr: func(lt T, rt []T, u []uint32) {
+				for i := range rt {
+					if fns.Ge(lt, rt[i]) {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+		}
+	}
+	debug.Assert(false, "")
+	return nil
+}
+
+func genDecimalCompareKernel[T decimal128.Num | decimal256.Num](op CompareOperator) (ex exec.ArrayKernelExec, data exec.KernelState) {
+	ex = compareKernel[T]
+
+	var def T
+	switch any(def).(type) {
+	case decimal128.Num:
+		cmp := getCmpDec(op, dec128Cmp)
+		data = &CompareData{
+			funcAA: comparePrimitiveArrayArray(cmp.arrArr),
+			funcAS: comparePrimitiveArrayScalar(cmp.arrScalar),
+			funcSA: comparePrimitiveScalarArray(cmp.scalarArr),
+		}
+	case decimal256.Num:
+		cmp := getCmpDec(op, dec256Cmp)
+		data = &CompareData{
+			funcAA: comparePrimitiveArrayArray(cmp.arrArr),
+			funcAS: comparePrimitiveArrayScalar(cmp.arrScalar),
+			funcSA: comparePrimitiveScalarArray(cmp.scalarArr),
+		}
+	}
+
+	return
+}
+
+func getCmpOp[T exec.NumericTypes](op CompareOperator) *cmpOp[T] {
+	switch op {
+	case CmpEQ:
+		return &cmpOp[T]{
+			arrArr: func(lt, rt []T, u []uint32) {
+				for i := range u {
+					if lt[i] == rt[i] {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			arrScalar: func(lt []T, rt T, u []uint32) {
+				for i := range u {
+					if lt[i] == rt {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			scalarArr: func(lt T, rt []T, u []uint32) {
+				for i := range u {
+					if lt == rt[i] {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+		}
+	case CmpNE:
+		return &cmpOp[T]{
+			arrArr: func(lt, rt []T, u []uint32) {
+				for i := range u {
+					if lt[i] != rt[i] {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			arrScalar: func(lt []T, rt T, u []uint32) {
+				for i := range u {
+					if lt[i] != rt {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			scalarArr: func(lt T, rt []T, u []uint32) {
+				for i := range u {
+					if lt != rt[i] {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+		}
+	case CmpGT:
+		return &cmpOp[T]{
+			arrArr: func(lt, rt []T, u []uint32) {
+				for i := range u {
+					if lt[i] > rt[i] {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			arrScalar: func(lt []T, rt T, u []uint32) {
+				for i := range u {
+					if lt[i] > rt {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			scalarArr: func(lt T, rt []T, u []uint32) {
+				for i := range u {
+					if lt > rt[i] {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+		}
+	case CmpGE:
+		return &cmpOp[T]{
+			arrArr: func(lt, rt []T, u []uint32) {
+				for i := range u {
+					if lt[i] >= rt[i] {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			arrScalar: func(lt []T, rt T, u []uint32) {
+				for i := range u {
+					if lt[i] >= rt {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+			scalarArr: func(lt T, rt []T, u []uint32) {
+				for i := range u {
+					if lt >= rt[i] {
+						u[i] = 1
+					} else {
+						u[i] = 0
+					}
+				}
+			},
+		}
+	}
+	return nil
+}
+
+func getBinaryCmp(op CompareOperator) binaryBinOp[bool] {
+	switch op {
+	case CmpEQ:
+		return func(_ *exec.KernelCtx, arg0, arg1 []byte) bool {
+			return bytes.Equal(arg0, arg1)
+		}
+	case CmpNE:
+		return func(_ *exec.KernelCtx, arg0, arg1 []byte) bool {
+			return !bytes.Equal(arg0, arg1)
+		}
+	case CmpGT:
+		return func(_ *exec.KernelCtx, arg0, arg1 []byte) bool {
+			return bytes.Compare(arg0, arg1) == 1
+		}
+	case CmpGE:
+		return func(_ *exec.KernelCtx, arg0, arg1 []byte) bool {
+			return bytes.Compare(arg0, arg1) != -1
+		}
+	}
+	return nil
+}
+
+func numericCompareKernel[T exec.NumericTypes](ty exec.InputType, op CompareOperator) (kn exec.ScalarKernel) {
+	ex := compareKernel[T]
+	kn = exec.NewScalarKernelWithSig(&exec.KernelSignature{
+		InputTypes: []exec.InputType{ty, ty},
+		OutType:    exec.NewOutputType(arrow.FixedWidthTypes.Boolean),
+	}, ex, nil)
+	kn.Data = genCompareKernel[T](op)
+	return
+}
+
+func decimalCompareKernel[T decimal128.Num | decimal256.Num](ty exec.InputType, op CompareOperator) (kn exec.ScalarKernel) {
+	ex, data := genDecimalCompareKernel[T](op)
+	kn = exec.NewScalarKernelWithSig(&exec.KernelSignature{
+		InputTypes: []exec.InputType{ty, ty},
+		OutType:    exec.NewOutputType(arrow.FixedWidthTypes.Boolean),
+	}, ex, nil)
+	kn.Data = data
+	return
+}
+
+func GetCompareKernel(ty exec.InputType, cmpType arrow.Type, op CompareOperator) exec.ScalarKernel {
+	switch cmpType {
+	case arrow.INT8:
+		return numericCompareKernel[int8](ty, op)
+	case arrow.INT16:
+		return numericCompareKernel[int16](ty, op)
+	case arrow.INT32, arrow.DATE32, arrow.TIME32:
+		return numericCompareKernel[int32](ty, op)
+	case arrow.INT64, arrow.DATE64, arrow.TIMESTAMP, arrow.TIME64, arrow.DURATION:
+		return numericCompareKernel[int64](ty, op)
+	case arrow.UINT8:
+		return numericCompareKernel[uint8](ty, op)
+	case arrow.UINT16:
+		return numericCompareKernel[uint16](ty, op)
+	case arrow.UINT32:
+		return numericCompareKernel[uint32](ty, op)
+	case arrow.UINT64:
+		return numericCompareKernel[uint64](ty, op)
+	case arrow.FLOAT32:
+		return numericCompareKernel[float32](ty, op)
+	case arrow.FLOAT64:
+		return numericCompareKernel[float64](ty, op)
+	}
+	debug.Assert(false, "")
+	return exec.ScalarKernel{}
+}
+
+func compareTimestampKernel(ty exec.InputType, op CompareOperator) exec.ScalarKernel {
+	kn := GetCompareKernel(ty, arrow.TIMESTAMP, op)
+	ex := kn.ExecFn
+	kn.ExecFn = func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		lhs, rhs := batch.Values[0].Type().(*arrow.TimestampType), batch.Values[1].Type().(*arrow.TimestampType)
+		if (len(lhs.TimeZone) == 0) != (len(rhs.TimeZone) == 0) {
+			return fmt.Errorf("%w: cannot compare timestamp with timezone to timestamp without timezone, got: %s and %s",
+				arrow.ErrInvalid, lhs, rhs)
+		}
+		return ex(ctx, batch, out)
+	}
+	return kn
+}
+
+var (
+	boolEQ = binaryBoolOps{
+		arrArr: func(_ *exec.KernelCtx, lhs, rhs, out bitutil.Bitmap) error {
+			bitutil.BitmapAnd(lhs.Data, rhs.Data, lhs.Offset, rhs.Offset, out.Data, out.Offset, out.Len)
+			return nil
+		},
+		arrScalar: func(_ *exec.KernelCtx, lhs bitutil.Bitmap, rhs bool, out bitutil.Bitmap) error {
+			rdr := bitutil.NewBitmapReader(lhs.Data, int(lhs.Offset), int(lhs.Len))
+			bitutils.GenerateBitsUnrolled(out.Data, out.Offset, out.Len, func() (out bool) {
+				out = rdr.Set() == rhs
+				rdr.Next()
+				return
+			})
+			return nil
+		},
+		scalarArr: func(_ *exec.KernelCtx, lhs bool, rhs, out bitutil.Bitmap) error {
+			rdr := bitutil.NewBitmapReader(rhs.Data, int(rhs.Offset), int(rhs.Len))
+			bitutils.GenerateBitsUnrolled(out.Data, out.Offset, out.Len, func() (out bool) {
+				out = lhs == rdr.Set()
+				rdr.Next()
+				return
+			})
+			return nil
+		},
+	}
+	boolNE = binaryBoolOps{
+		arrArr: func(_ *exec.KernelCtx, lhs, rhs, out bitutil.Bitmap) error {
+			bitutil.BitmapXor(lhs.Data, rhs.Data, lhs.Offset, rhs.Offset, out.Data, out.Offset, out.Len)
+			return nil
+		},
+		arrScalar: func(_ *exec.KernelCtx, lhs bitutil.Bitmap, rhs bool, out bitutil.Bitmap) error {
+			rdr := bitutil.NewBitmapReader(lhs.Data, int(lhs.Offset), int(lhs.Len))
+			bitutils.GenerateBitsUnrolled(out.Data, out.Offset, out.Len, func() (out bool) {
+				out = rdr.Set() != rhs
+				rdr.Next()
+				return
+			})
+			return nil
+		},
+		scalarArr: func(_ *exec.KernelCtx, lhs bool, rhs, out bitutil.Bitmap) error {
+			rdr := bitutil.NewBitmapReader(rhs.Data, int(rhs.Offset), int(rhs.Len))
+			bitutils.GenerateBitsUnrolled(out.Data, out.Offset, out.Len, func() (out bool) {
+				out = lhs != rdr.Set()
+				rdr.Next()
+				return
+			})
+			return nil
+		},
+	}
+)
+
+func CompareKernels(op CompareOperator) []exec.ScalarKernel {
+	kns := make([]exec.ScalarKernel, 0)
+
+	outType := exec.NewOutputType(arrow.FixedWidthTypes.Boolean)
+	switch op {
+	case CmpEQ:
+		in := exec.NewExactInput(arrow.FixedWidthTypes.Boolean)
+		kns = append(kns, exec.NewScalarKernel([]exec.InputType{in, in}, outType,
+			ScalarBinaryBools(&boolEQ), nil))
+	case CmpNE:
+		in := exec.NewExactInput(arrow.FixedWidthTypes.Boolean)
+		kns = append(kns, exec.NewScalarKernel([]exec.InputType{in, in}, outType,
+			ScalarBinaryBools(&boolNE), nil))
+	}
+
+	for _, ty := range numericTypes {
+		in := exec.NewExactInput(ty)
+		kns = append(kns, GetCompareKernel(in, ty.ID(), op))
+	}
+	kns = append(kns,
+		GetCompareKernel(exec.NewExactInput(arrow.FixedWidthTypes.Date32), arrow.DATE32, op),
+		GetCompareKernel(exec.NewExactInput(arrow.FixedWidthTypes.Date64), arrow.DATE64, op))
+
+	for _, unit := range arrow.TimeUnitValues {
+		in := exec.NewMatchedInput(exec.TimestampTypeUnit(unit))
+		kns = append(kns, compareTimestampKernel(in, op))
+
+		in = exec.NewMatchedInput(exec.DurationTypeUnit(unit))
+		kns = append(kns, GetCompareKernel(in, arrow.INT64, op))
+	}
+
+	for _, unit := range []arrow.TimeUnit{arrow.Second, arrow.Millisecond} {
+		in := exec.NewMatchedInput(exec.Time32TypeUnit(unit))
+		kns = append(kns, GetCompareKernel(in, arrow.INT32, op))
+	}
+	for _, unit := range []arrow.TimeUnit{arrow.Microsecond, arrow.Nanosecond} {
+		in := exec.NewMatchedInput(exec.Time64TypeUnit(unit))
+		kns = append(kns, GetCompareKernel(in, arrow.INT64, op))
+	}
+
+	for _, ty := range baseBinaryTypes {
+		var ex exec.ArrayKernelExec
+		switch ty.Layout().Buffers[1].ByteWidth {
+		case 4:
+			ex = ScalarBinaryBinaryArgsBoolOut(exec.NewVarBinaryIter[int32], getBinaryCmp(op))
+		default:
+			ex = ScalarBinaryBinaryArgsBoolOut(exec.NewVarBinaryIter[int64], getBinaryCmp(op))
+		}
+		in := exec.NewExactInput(ty)
+		kns = append(kns, exec.NewScalarKernel([]exec.InputType{in, in},
+			outType, ex, nil))
+	}
+
+	in128, in256 := exec.NewIDInput(arrow.DECIMAL128), exec.NewIDInput(arrow.DECIMAL256)
+	kns = append(kns, decimalCompareKernel[decimal128.Num](in128, op),
+		decimalCompareKernel[decimal256.Num](in256, op))
+
+	inFSB := exec.NewIDInput(arrow.FIXED_SIZE_BINARY)
+	kns = append(kns, exec.NewScalarKernel([]exec.InputType{inFSB, inFSB}, outType,
+		ScalarBinaryBinaryArgsBoolOut(exec.NewFSBIter, getBinaryCmp(op)), nil))
+
+	return kns
+}
diff --git a/go/arrow/compute/internal/kernels/string_casts.go b/go/arrow/compute/internal/kernels/string_casts.go
new file mode 100644
index 00000000000..92f0b6ef049
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/string_casts.go
@@ -0,0 +1,409 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"fmt"
+	"strconv"
+	"unicode/utf8"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/float16"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+)
+
+func validateUtf8Fsb(input *exec.ArraySpan) error {
+	var (
+		inputData = input.Buffers[1].Buf
+		width     = int64(input.Type.(*arrow.FixedSizeBinaryType).ByteWidth)
+		bitmap    = input.Buffers[0].Buf
+	)
+
+	return bitutils.VisitBitBlocksShort(bitmap, input.Offset, input.Len,
+		func(pos int64) error {
+			pos += input.Offset
+			beg := pos * width
+			end := (pos + 1) * width
+			if !utf8.Valid(inputData[beg:end]) {
+				return fmt.Errorf("%w: invalid UTF8 bytes: %x", arrow.ErrInvalid, inputData[beg:end])
+			}
+			return nil
+		}, func() error { return nil })
+}
+
+func validateUtf8[OffsetT int32 | int64](input *exec.ArraySpan) error {
+	var (
+		inputOffsets = exec.GetSpanOffsets[OffsetT](input, 1)
+		inputData    = input.Buffers[2].Buf
+		bitmap       = input.Buffers[0].Buf
+	)
+
+	return bitutils.VisitBitBlocksShort(bitmap, input.Offset, input.Len,
+		func(pos int64) error {
+			v := inputData[inputOffsets[pos]:inputOffsets[pos+1]]
+			if !utf8.Valid(v) {
+				return fmt.Errorf("%w: invalid UTF8 bytes: %x", arrow.ErrInvalid, v)
+			}
+			return nil
+		}, func() error { return nil })
+}
+
+func CastFsbToFsb(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	inputWidth := batch.Values[0].Array.Type.(*arrow.FixedSizeBinaryType).ByteWidth
+	outputWidth := ctx.State.(CastState).ToType.(*arrow.FixedSizeBinaryType).ByteWidth
+
+	if inputWidth != outputWidth {
+		return fmt.Errorf("%w: failed casting from %s to %s: widths must match",
+			arrow.ErrInvalid, batch.Values[0].Array.Type, out.Type)
+	}
+
+	return ZeroCopyCastExec(ctx, batch, out)
+}
+
+func CastBinaryToBinary[InOffsetsT, OutOffsetsT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	opts := ctx.State.(CastState)
+	input := &batch.Values[0].Array
+
+	if !input.Type.(arrow.BinaryDataType).IsUtf8() && out.Type.(arrow.BinaryDataType).IsUtf8() && !opts.AllowInvalidUtf8 {
+		if err := validateUtf8[InOffsetsT](input); err != nil {
+			return err
+		}
+	}
+
+	// start with a zero-copy cast, then change the indices to the
+	// expected size
+	if err := ZeroCopyCastExec(ctx, batch, out); err != nil {
+		return err
+	}
+
+	switch {
+	case SizeOf[InOffsetsT]() == SizeOf[OutOffsetsT]():
+		// offsets are the same width, nothing more to do
+		return nil
+	case SizeOf[InOffsetsT]() > SizeOf[OutOffsetsT]():
+		// downcast from int64 -> int32
+		inputOffsets := exec.GetSpanOffsets[InOffsetsT](input, 1)
+
+		// binary offsets are ascending, so it's enough to check
+		// the last one for overflow
+		if inputOffsets[input.Len] > InOffsetsT(MaxOf[OutOffsetsT]()) {
+			return fmt.Errorf("%w: failed casting from %s to %s: input array too large",
+				arrow.ErrInvalid, input.Type, out.Type)
+		}
+
+		buf := ctx.Allocate(out.Type.(arrow.OffsetsDataType).OffsetTypeTraits().BytesRequired(int(out.Len + out.Offset + 1)))
+		out.Buffers[1].WrapBuffer(buf)
+
+		outOffsets := exec.GetSpanOffsets[OutOffsetsT](out, 1)
+
+		castNumericUnsafe(arrow.INT64, arrow.INT32,
+			exec.GetBytes(inputOffsets), exec.GetBytes(outOffsets), len(inputOffsets))
+		return nil
+	default:
+		// upcast from int32 -> int64
+		buf := ctx.Allocate(out.Type.(arrow.OffsetsDataType).OffsetTypeTraits().BytesRequired(int(out.Len + out.Offset + 1)))
+		out.Buffers[1].WrapBuffer(buf)
+
+		inputOffsets := exec.GetSpanOffsets[InOffsetsT](input, 1)
+		outOffsets := exec.GetSpanOffsets[OutOffsetsT](out, 1)
+
+		castNumericUnsafe(arrow.INT32, arrow.INT64,
+			exec.GetBytes(inputOffsets), exec.GetBytes(outOffsets), len(inputOffsets))
+		return nil
+	}
+}
+
+func CastFsbToBinary[OffsetsT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	opts := ctx.State.(CastState)
+	input := &batch.Values[0].Array
+
+	if out.Type.(arrow.BinaryDataType).IsUtf8() && !opts.AllowInvalidUtf8 {
+		if err := validateUtf8Fsb(input); err != nil {
+			return err
+		}
+	}
+
+	// check for overflow
+	maxOffset := int64(MaxOf[OffsetsT]())
+	width := OffsetsT(input.Type.(*arrow.FixedSizeBinaryType).ByteWidth)
+	if (int64(width) * input.Len) > maxOffset {
+		return fmt.Errorf("%w: failed casting from %s to %s: input array too large",
+			arrow.ErrInvalid, input.Type, out.Type)
+	}
+
+	out.Len = input.Len
+	out.Nulls = input.Nulls
+	if input.Offset == out.Offset {
+		out.Buffers[0].SetBuffer(input.GetBuffer(0))
+	} else {
+		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(input.Len))
+		bitutil.CopyBitmap(input.Buffers[0].Buf, int(input.Offset), int(input.Len), out.Buffers[0].Buf, int(out.Offset))
+	}
+
+	// this buffer is preallocated
+	offsets := exec.GetSpanOffsets[OffsetsT](out, 1)
+	offsets[0] = OffsetsT(input.Offset) * width
+	for i := 0; i < int(input.Len); i++ {
+		offsets[i+1] = offsets[i] + width
+	}
+
+	if len(input.Buffers[1].Buf) > 0 {
+		out.Buffers[2] = input.Buffers[1]
+	}
+
+	return nil
+}
+
+func addBinaryToBinaryCast[InOffsetT, OutOffsetT int32 | int64](inType arrow.Type, outType exec.OutputType) exec.ScalarKernel {
+	return exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(inType)},
+		outType, CastBinaryToBinary[InOffsetT, OutOffsetT], nil)
+}
+
+func addToBinaryKernels[OffsetsT int32 | int64](outType exec.OutputType, kernels []exec.ScalarKernel) []exec.ScalarKernel {
+	return append(kernels,
+		addBinaryToBinaryCast[int32, OffsetsT](arrow.STRING, outType),
+		addBinaryToBinaryCast[int32, OffsetsT](arrow.BINARY, outType),
+		addBinaryToBinaryCast[int64, OffsetsT](arrow.LARGE_STRING, outType),
+		addBinaryToBinaryCast[int64, OffsetsT](arrow.LARGE_BINARY, outType),
+		exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(arrow.FIXED_SIZE_BINARY)},
+			outType, CastFsbToBinary[OffsetsT], nil),
+	)
+}
+
+func GetFsbCastKernels() []exec.ScalarKernel {
+	outputType := exec.NewComputedOutputType(resolveOutputFromOptions)
+	out := GetCommonCastKernels(arrow.FIXED_SIZE_BINARY, outputType)
+	kernel := exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(arrow.FIXED_SIZE_BINARY)},
+		OutputFirstType, CastFsbToFsb, nil)
+	kernel.NullHandling = exec.NullComputedNoPrealloc
+	return append(out, kernel)
+}
+
+func float16Formatter(v float16.Num) string                 { return v.String() }
+func date32Formatter(v arrow.Date32) string                 { return v.FormattedString() }
+func date64Formatter(v arrow.Date64) string                 { return v.FormattedString() }
+func numericFormatterSigned[T exec.IntTypes](v T) string    { return strconv.FormatInt(int64(v), 10) }
+func numericFormatterUnsigned[T exec.UintTypes](v T) string { return strconv.FormatUint(uint64(v), 10) }
+func float32Formatter(v float32) string                     { return strconv.FormatFloat(float64(v), 'g', -1, 32) }
+func float64Formatter(v float64) string                     { return strconv.FormatFloat(v, 'g', -1, 64) }
+
+func boolToStringCastExec(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		input = &batch.Values[0].Array
+		bldr  = array.NewBuilder(exec.GetAllocator(ctx.Ctx), out.Type).(array.StringLikeBuilder)
+	)
+	defer bldr.Release()
+
+	bitutils.VisitBitBlocks(input.Buffers[0].Buf, input.Offset, input.Len,
+		func(pos int64) {
+			bldr.Append(strconv.FormatBool(bitutil.BitIsSet(input.Buffers[1].Buf, int(pos))))
+		}, func() { bldr.AppendNull() })
+
+	arr := bldr.NewArray()
+	out.TakeOwnership(arr.Data())
+	return nil
+}
+
+type timeIntrinsic interface {
+	arrow.Time32 | arrow.Time64
+	FormattedString(arrow.TimeUnit) string
+}
+
+func timeToStringCastExec[T timeIntrinsic](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		input     = &batch.Values[0].Array
+		inputData = exec.GetSpanValues[T](input, 1)
+		bldr      = array.NewBuilder(exec.GetAllocator(ctx.Ctx), out.Type).(array.StringLikeBuilder)
+		inputType = input.Type.(arrow.TemporalWithUnit)
+	)
+	defer bldr.Release()
+
+	bitutils.VisitBitBlocks(input.Buffers[0].Buf, input.Offset, input.Len,
+		func(pos int64) {
+			bldr.Append(inputData[pos].FormattedString(inputType.TimeUnit()))
+		}, func() { bldr.AppendNull() })
+
+	arr := bldr.NewArray()
+	out.TakeOwnership(arr.Data())
+	return nil
+}
+
+func numericToStringCastExec[T exec.IntTypes | exec.UintTypes | exec.FloatTypes](formatter func(T) string) exec.ArrayKernelExec {
+	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		var (
+			input     = &batch.Values[0].Array
+			inputData = exec.GetSpanValues[T](input, 1)
+			bldr      = array.NewBuilder(exec.GetAllocator(ctx.Ctx), out.Type).(array.StringLikeBuilder)
+		)
+		defer bldr.Release()
+
+		bitutils.VisitBitBlocks(input.Buffers[0].Buf, input.Offset, input.Len,
+			func(pos int64) {
+				bldr.Append(formatter(inputData[pos]))
+			}, func() { bldr.AppendNull() })
+
+		arr := bldr.NewArray()
+		out.TakeOwnership(arr.Data())
+		return nil
+	}
+}
+
+func castTimestampToString(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		input     = &batch.Values[0].Array
+		inputData = exec.GetSpanValues[arrow.Timestamp](input, 1)
+		inputType = input.Type.(*arrow.TimestampType)
+		bldr      = array.NewBuilder(exec.GetAllocator(ctx.Ctx), out.Type).(array.StringLikeBuilder)
+	)
+	defer bldr.Release()
+
+	toTime, err := inputType.GetToTimeFunc()
+	if err != nil {
+		return err
+	}
+
+	// prealloc
+	fmtstring := "2006-01-02 15:04:05"
+	switch inputType.Unit {
+	case arrow.Millisecond:
+		fmtstring += ".000"
+	case arrow.Microsecond:
+		fmtstring += ".000000"
+	case arrow.Nanosecond:
+		fmtstring += ".000000000"
+	}
+
+	switch inputType.TimeZone {
+	case "UTC":
+		fmtstring += "Z"
+	case "":
+	default:
+		fmtstring += "-0700"
+	}
+
+	strlen := len(fmtstring)
+	bldr.Reserve(int(input.Len))
+	bldr.ReserveData(int(input.Len-input.Nulls) * strlen)
+
+	bitutils.VisitBitBlocks(input.Buffers[0].Buf, input.Offset, input.Len,
+		func(pos int64) {
+			bldr.Append(toTime(inputData[pos]).Format(fmtstring))
+		},
+		func() { bldr.AppendNull() })
+
+	arr := bldr.NewArray()
+	out.TakeOwnership(arr.Data())
+	return nil
+}
+
+func getNumericToStringCastExec(inType arrow.Type) exec.ArrayKernelExec {
+	switch inType {
+	case arrow.INT8:
+		return numericToStringCastExec(numericFormatterSigned[int8])
+	case arrow.UINT8:
+		return numericToStringCastExec(numericFormatterUnsigned[uint8])
+	case arrow.INT16:
+		return numericToStringCastExec(numericFormatterSigned[int16])
+	case arrow.UINT16:
+		return numericToStringCastExec(numericFormatterUnsigned[uint16])
+	case arrow.INT32:
+		return numericToStringCastExec(numericFormatterSigned[int32])
+	case arrow.UINT32:
+		return numericToStringCastExec(numericFormatterUnsigned[uint32])
+	case arrow.INT64:
+		return numericToStringCastExec(numericFormatterSigned[int64])
+	case arrow.UINT64:
+		return numericToStringCastExec(numericFormatterUnsigned[uint64])
+	case arrow.FLOAT16:
+		return numericToStringCastExec(float16Formatter)
+	case arrow.FLOAT32:
+		return numericToStringCastExec(float32Formatter)
+	case arrow.FLOAT64:
+		return numericToStringCastExec(float64Formatter)
+	case arrow.BOOL:
+		return boolToStringCastExec
+	case arrow.DATE32:
+		return numericToStringCastExec(date32Formatter)
+	case arrow.DATE64:
+		return numericToStringCastExec(date64Formatter)
+	case arrow.TIME32:
+		return timeToStringCastExec[arrow.Time32]
+	case arrow.TIME64:
+		return timeToStringCastExec[arrow.Time64]
+	case arrow.TIMESTAMP:
+		return castTimestampToString
+	}
+	panic("unimplemented cast: " + inType.String())
+}
+
+func addNumericAndTemporalToStringCasts(outType exec.OutputType, out []exec.ScalarKernel) []exec.ScalarKernel {
+	k := exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(arrow.FixedWidthTypes.Boolean)}, outType,
+		getNumericToStringCastExec(arrow.BOOL), nil)
+	k.NullHandling = exec.NullComputedNoPrealloc
+	out = append(out, k)
+
+	for _, dt := range numericTypes {
+		k = exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(dt)}, outType,
+			getNumericToStringCastExec(dt.ID()), nil)
+		k.NullHandling = exec.NullComputedNoPrealloc
+		out = append(out, k)
+	}
+
+	for _, dt := range []arrow.DataType{arrow.FixedWidthTypes.Date32, arrow.FixedWidthTypes.Date64} {
+		k = exec.NewScalarKernel([]exec.InputType{exec.NewExactInput(dt)}, outType,
+			getNumericToStringCastExec(dt.ID()), nil)
+		k.NullHandling = exec.NullComputedNoPrealloc
+		out = append(out, k)
+	}
+
+	for _, id := range []arrow.Type{arrow.TIME32, arrow.TIME64, arrow.TIMESTAMP} {
+		k = exec.NewScalarKernel([]exec.InputType{exec.NewIDInput(id)}, outType,
+			getNumericToStringCastExec(id), nil)
+		k.NullHandling = exec.NullComputedNoPrealloc
+		out = append(out, k)
+	}
+
+	return out
+}
+
+func GetToBinaryKernels(outType arrow.DataType) []exec.ScalarKernel {
+	if outType.ID() == arrow.FIXED_SIZE_BINARY {
+		return nil
+	}
+
+	outputType := exec.NewOutputType(outType)
+	out := GetCommonCastKernels(outType.ID(), outputType)
+
+	switch outType.ID() {
+	case arrow.BINARY:
+		return addToBinaryKernels[int32](outputType, out)
+	case arrow.LARGE_BINARY:
+		return addToBinaryKernels[int64](outputType, out)
+	case arrow.STRING:
+		out = addToBinaryKernels[int32](outputType, out)
+		return addNumericAndTemporalToStringCasts(outputType, out)
+	case arrow.LARGE_STRING:
+		out = addToBinaryKernels[int64](outputType, out)
+		return addNumericAndTemporalToStringCasts(outputType, out)
+	}
+	return nil
+}
diff --git a/go/arrow/compute/internal/kernels/types.go b/go/arrow/compute/internal/kernels/types.go
new file mode 100644
index 00000000000..772c605d580
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/types.go
@@ -0,0 +1,106 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"fmt"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+)
+
+var (
+	unsignedIntTypes = []arrow.DataType{
+		arrow.PrimitiveTypes.Uint8,
+		arrow.PrimitiveTypes.Uint16,
+		arrow.PrimitiveTypes.Uint32,
+		arrow.PrimitiveTypes.Uint64,
+	}
+	signedIntTypes = []arrow.DataType{
+		arrow.PrimitiveTypes.Int8,
+		arrow.PrimitiveTypes.Int16,
+		arrow.PrimitiveTypes.Int32,
+		arrow.PrimitiveTypes.Int64,
+	}
+	intTypes      = append(unsignedIntTypes, signedIntTypes...)
+	floatingTypes = []arrow.DataType{
+		arrow.PrimitiveTypes.Float32,
+		arrow.PrimitiveTypes.Float64,
+	}
+	numericTypes = append(intTypes, floatingTypes...)
+	// binary types without fixedsize binary
+	baseBinaryTypes = []arrow.DataType{
+		arrow.BinaryTypes.Binary,
+		arrow.BinaryTypes.LargeBinary,
+		arrow.BinaryTypes.String,
+		arrow.BinaryTypes.LargeString}
+)
+
+//go:generate stringer -type=CompareOperator -linecomment
+
+type CompareOperator int8
+
+const (
+	CmpEQ CompareOperator = iota // equal
+	CmpNE                        // not_equal
+	CmpGT                        // greater
+	CmpGE                        // greater_equal
+	CmpLT                        // less
+	CmpLE                        // less_equal
+)
+
+type simpleBinaryKernel interface {
+	Call(*exec.KernelCtx, *exec.ArraySpan, *exec.ArraySpan, *exec.ExecResult) error
+	CallScalarLeft(*exec.KernelCtx, scalar.Scalar, *exec.ArraySpan, *exec.ExecResult) error
+}
+
+type commutativeBinaryKernel[T simpleBinaryKernel] struct{}
+
+func (commutativeBinaryKernel[T]) CallScalarRight(ctx *exec.KernelCtx, left *exec.ArraySpan, right scalar.Scalar, out *exec.ExecResult) error {
+	var t T
+	return t.CallScalarLeft(ctx, right, left, out)
+}
+
+type SimpleBinaryKernel interface {
+	simpleBinaryKernel
+	CallScalarRight(*exec.KernelCtx, *exec.ArraySpan, scalar.Scalar, *exec.ExecResult) error
+}
+
+func SimpleBinary[K SimpleBinaryKernel](ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	if batch.Len == 0 {
+		return nil
+	}
+
+	var k K
+	if batch.Values[0].IsArray() {
+		if batch.Values[1].IsArray() {
+			return k.Call(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
+		}
+		return k.CallScalarRight(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
+	}
+
+	if batch.Values[1].IsArray() {
+		return k.CallScalarLeft(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
+	}
+
+	debug.Assert(false, "should be unreachable")
+	return fmt.Errorf("%w: should be unreachable", arrow.ErrInvalid)
+}
diff --git a/go/arrow/compute/internal/kernels/vector_selection.go b/go/arrow/compute/internal/kernels/vector_selection.go
new file mode 100644
index 00000000000..2676d5576e7
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/vector_selection.go
@@ -0,0 +1,1789 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package kernels
+
+import (
+	"fmt"
+	"math"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+)
+
+type NullSelectionBehavior int8
+
+const (
+	DropNulls NullSelectionBehavior = iota
+	EmitNulls
+)
+
+type FilterOptions struct {
+	NullSelection NullSelectionBehavior `compute:"null_selection_behavior"`
+}
+
+func (FilterOptions) TypeName() string { return "FilterOptions" }
+
+type FilterState = FilterOptions
+
+type TakeOptions struct {
+	BoundsCheck bool
+}
+
+func (TakeOptions) TypeName() string { return "TakeOptions" }
+
+type TakeState = TakeOptions
+
+func getFilterOutputSize(filter *exec.ArraySpan, nullSelection NullSelectionBehavior) (size int64) {
+	if filter.MayHaveNulls() {
+		counter := bitutils.NewBinaryBitBlockCounter(filter.Buffers[1].Buf,
+			filter.Buffers[0].Buf, filter.Offset, filter.Offset, filter.Len)
+
+		pos := int64(0)
+		if nullSelection == EmitNulls {
+			for pos < filter.Len {
+				block := counter.NextOrNotWord()
+				size += int64(block.Popcnt)
+				pos += int64(block.Len)
+			}
+		} else {
+			for pos < filter.Len {
+				block := counter.NextAndWord()
+				size += int64(block.Popcnt)
+				pos += int64(block.Len)
+			}
+		}
+		return
+	}
+
+	// filter has no nulls, so we can just use CountSetBits
+	return int64(bitutil.CountSetBits(filter.Buffers[1].Buf, int(filter.Offset), int(filter.Len)))
+}
+
+func preallocateData(ctx *exec.KernelCtx, length int64, bitWidth int, allocateValidity bool, out *exec.ExecResult) {
+	out.Len = length
+	if allocateValidity {
+		out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(length))
+	}
+	if bitWidth == 1 {
+		out.Buffers[1].WrapBuffer(ctx.AllocateBitmap(length))
+	} else {
+		out.Buffers[1].WrapBuffer(ctx.Allocate(int(length) * (bitWidth / 8)))
+	}
+}
+
+type builder[T any] interface {
+	array.Builder
+	Append(T)
+	UnsafeAppend(T)
+	UnsafeAppendBoolToBitmap(bool)
+}
+
+func getTakeIndices[T exec.IntTypes | exec.UintTypes](mem memory.Allocator, filter *exec.ArraySpan, nullSelect NullSelectionBehavior) arrow.ArrayData {
+	var (
+		filterData      = filter.Buffers[1].Buf
+		haveFilterNulls = filter.MayHaveNulls()
+		filterIsValid   = filter.Buffers[0].Buf
+		idxType         = exec.GetDataType[T]()
+	)
+
+	if haveFilterNulls && nullSelect == EmitNulls {
+		// Most complex case: the filter may have nulls and we don't drop them.
+		// The logic is ternary:
+		// - filter is null: emit null
+		// - filter is valid and true: emit index
+		// - filter is valid and false: don't emit anything
+
+		bldr := array.NewBuilder(mem, idxType).(builder[T])
+		defer bldr.Release()
+
+		// position relative to start of filter
+		var pos T
+		// current position taking the filter offset into account
+		posWithOffset := filter.Offset
+
+		// to count blocks where filterData[i] || !filterIsValid[i]
+		filterCounter := bitutils.NewBinaryBitBlockCounter(filterData, filterIsValid, filter.Offset, filter.Offset, filter.Len)
+		isValidCounter := bitutils.NewBitBlockCounter(filterIsValid, filter.Offset, filter.Len)
+		for int64(pos) < filter.Len {
+			// true OR NOT valid
+			selectedOrNullBlock := filterCounter.NextOrNotWord()
+			if selectedOrNullBlock.NoneSet() {
+				pos += T(selectedOrNullBlock.Len)
+				posWithOffset += int64(selectedOrNullBlock.Len)
+				continue
+			}
+			bldr.Reserve(int(selectedOrNullBlock.Popcnt))
+
+			// if the values are all valid and the selectedOrNullBlock
+			// is full, then we can infer that all the values are true
+			// and skip the bit checking
+			isValidBlock := isValidCounter.NextWord()
+			if selectedOrNullBlock.AllSet() && isValidBlock.AllSet() {
+				// all the values are selected and non-null
+				for i := 0; i < int(selectedOrNullBlock.Len); i++ {
+					bldr.UnsafeAppend(pos)
+					pos++
+				}
+				posWithOffset += int64(selectedOrNullBlock.Len)
+			} else {
+				// some of the values are false or null
+				for i := 0; i < int(selectedOrNullBlock.Len); i++ {
+					if bitutil.BitIsSet(filterIsValid, int(posWithOffset)) {
+						if bitutil.BitIsSet(filterData, int(posWithOffset)) {
+							bldr.UnsafeAppend(pos)
+						}
+					} else {
+						// null slot, append null
+						bldr.UnsafeAppendBoolToBitmap(false)
+					}
+					pos++
+					posWithOffset++
+				}
+			}
+		}
+
+		result := bldr.NewArray()
+		defer result.Release()
+		result.Data().Retain()
+		return result.Data()
+	}
+
+	bldr := newBufferBuilder[T](mem)
+	if haveFilterNulls {
+		// the filter may have nulls, so we scan the validity bitmap
+		// and the filter data bitmap together
+		debug.Assert(nullSelect == DropNulls, "incorrect nullselect logic")
+
+		// position relative to start of the filter
+		var pos T
+		// current position taking the filter offset into account
+		posWithOffset := filter.Offset
+
+		filterCounter := bitutils.NewBinaryBitBlockCounter(filterData, filterIsValid, filter.Offset, filter.Offset, filter.Len)
+		for int64(pos) < filter.Len {
+			andBlock := filterCounter.NextAndWord()
+			bldr.reserve(int(andBlock.Popcnt))
+			if andBlock.AllSet() {
+				// all the values are selected and non-null
+				for i := 0; i < int(andBlock.Len); i++ {
+					bldr.unsafeAppend(pos)
+					pos++
+				}
+				posWithOffset += int64(andBlock.Len)
+			} else if !andBlock.NoneSet() {
+				// some values are false or null
+				for i := 0; i < int(andBlock.Len); i++ {
+					if bitutil.BitIsSet(filterIsValid, int(posWithOffset)) && bitutil.BitIsSet(filterData, int(posWithOffset)) {
+						bldr.unsafeAppend(pos)
+					}
+					pos++
+					posWithOffset++
+				}
+			} else {
+				pos += T(andBlock.Len)
+				posWithOffset += int64(andBlock.Len)
+			}
+		}
+	} else {
+		// filter has no nulls, so we only need to look for true values
+		bitutils.VisitSetBitRuns(filterData, filter.Offset, filter.Len,
+			func(pos, length int64) error {
+				// append consecutive run of indices
+				bldr.reserve(int(length))
+				for i := int64(0); i < length; i++ {
+					bldr.unsafeAppend(T(pos + i))
+				}
+				return nil
+			})
+	}
+
+	length := bldr.len()
+	outBuf := bldr.finish()
+	defer outBuf.Release()
+	return array.NewData(idxType, length, []*memory.Buffer{nil, outBuf}, nil, 0, 0)
+}
+
+func GetTakeIndices(mem memory.Allocator, filter *exec.ArraySpan, nullSelect NullSelectionBehavior) (arrow.ArrayData, error) {
+	debug.Assert(filter.Type.ID() == arrow.BOOL, "filter should be a boolean array")
+	if filter.Len < math.MaxUint16 {
+		return getTakeIndices[uint16](mem, filter, nullSelect), nil
+	} else if filter.Len < math.MaxUint32 {
+		return getTakeIndices[uint32](mem, filter, nullSelect), nil
+	}
+	return nil, fmt.Errorf("%w: filter length exceeds UINT32_MAX, consider a different strategy for selecting elements",
+		arrow.ErrNotImplemented)
+}
+
+type writeFiltered interface {
+	OutPos() int
+	WriteValue(int64)
+	WriteValueSegment(int64, int64)
+	WriteNull()
+}
+
+type dropNullCounter struct {
+	dataCounter         bitutils.BitBlockCounter
+	dataValidityCounter bitutils.BinaryBitBlockCounter
+	hasValidity         bool
+}
+
+func newDropNullCounter(validity []byte, data []byte, offset int64, length int64) *dropNullCounter {
+	return &dropNullCounter{
+		dataCounter:         *bitutils.NewBitBlockCounter(data, offset, length),
+		dataValidityCounter: *bitutils.NewBinaryBitBlockCounter(data, validity, offset, offset, length),
+		hasValidity:         len(validity) > 0,
+	}
+}
+
+func (n *dropNullCounter) NextBlock() bitutils.BitBlockCount {
+	if n.hasValidity {
+		// filter is true AND not null
+		return n.dataValidityCounter.NextAndWord()
+	}
+	return n.dataCounter.NextWord()
+}
+
+func primitiveFilterImpl(wr writeFiltered, values *exec.ArraySpan, filter *exec.ArraySpan, nullSelection NullSelectionBehavior, out *exec.ExecResult) {
+	var (
+		valuesIsValid = values.Buffers[0].Buf
+		filterIsValid = filter.Buffers[0].Buf
+		filterData    = filter.Buffers[1].Buf
+		outIsValid    = out.Buffers[0].Buf
+	)
+
+	if filter.Nulls == 0 && values.Nulls == 0 {
+		// fast filter path when values and filters have no nulls
+		bitutils.VisitSetBitRuns(filterData, filter.Offset, values.Len,
+			func(pos, length int64) error {
+				wr.WriteValueSegment(pos, length)
+				return nil
+			})
+		return
+	}
+
+	var (
+		dropNulls          = newDropNullCounter(filterIsValid, filterData, filter.Offset, values.Len)
+		dataCounter        = bitutils.NewOptionalBitBlockCounter(valuesIsValid, values.Offset, values.Len)
+		filterValidCounter = bitutils.NewOptionalBitBlockCounter(filterIsValid, filter.Offset, values.Len)
+		writeNotNull       = func(idx int64) {
+			bitutil.SetBit(outIsValid, int(out.Offset)+wr.OutPos())
+			wr.WriteValue(idx)
+		}
+		writeMaybeNull = func(idx int64) {
+			bitutil.SetBitTo(outIsValid, int(out.Offset)+wr.OutPos(),
+				bitutil.BitIsSet(valuesIsValid, int(values.Offset+idx)))
+			wr.WriteValue(idx)
+		}
+		inPos int64
+	)
+
+	for inPos < values.Len {
+		filterBlock := dropNulls.NextBlock()
+		filterValidBlock := filterValidCounter.NextWord()
+		dataBlock := dataCounter.NextWord()
+
+		switch {
+		case filterBlock.AllSet() && dataBlock.AllSet():
+			// faster path: all values in block are included and not null
+			bitutil.SetBitsTo(outIsValid, out.Offset+int64(wr.OutPos()), int64(filterBlock.Len), true)
+			wr.WriteValueSegment(inPos, int64(filterBlock.Len))
+			inPos += int64(filterBlock.Len)
+		case filterBlock.AllSet():
+			// faster: all values are selected, but some are null
+			// batch copy bits from values validity bitmap to output validity bitmap
+			bitutil.CopyBitmap(valuesIsValid, int(values.Offset+inPos), int(filterBlock.Len),
+				outIsValid, int(out.Offset)+wr.OutPos())
+			wr.WriteValueSegment(inPos, int64(filterBlock.Len))
+			inPos += int64(filterBlock.Len)
+		case filterBlock.NoneSet() && nullSelection == DropNulls:
+			// for this exceedingly common case in low-selectivity filters
+			// we can skip further analysis of the data and move onto the next block
+			inPos += int64(filterBlock.Len)
+		default:
+			// some filter values are false or null
+			if dataBlock.AllSet() {
+				// no values are null
+				if filterValidBlock.AllSet() {
+					// filter is non-null but some values are false
+					for i := 0; i < int(filterBlock.Len); i++ {
+						if bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
+							writeNotNull(inPos)
+						}
+						inPos++
+					}
+				} else if nullSelection == DropNulls {
+					// if any values are selected, they ARE NOT  null
+					for i := 0; i < int(filterBlock.Len); i++ {
+						if bitutil.BitIsSet(filterIsValid, int(filter.Offset+inPos)) &&
+							bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
+							writeNotNull(inPos)
+						}
+						inPos++
+					}
+				} else { // nullselect == EmitNulls
+					// data values in this block are not null
+					for i := 0; i < int(filterBlock.Len); i++ {
+						isValid := bitutil.BitIsSet(filterIsValid, int(filter.Offset+inPos))
+						if isValid && bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
+							// filter slot is non-null and set
+							writeNotNull(inPos)
+						} else if !isValid {
+							// filter slot is null, so we have a null in the output
+							bitutil.ClearBit(outIsValid, int(out.Offset)+wr.OutPos())
+							wr.WriteNull()
+						}
+						inPos++
+					}
+				}
+			} else { // !dataBlock.AllSet()
+				// some values are null
+				if filterValidBlock.AllSet() {
+					// filter is non-null but some values are false
+					for i := 0; i < int(filterBlock.Len); i++ {
+						if bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
+							writeMaybeNull(inPos)
+						}
+						inPos++
+					}
+				} else if nullSelection == DropNulls {
+					// if any values are selected they ARE NOT null
+					for i := 0; i < int(filterBlock.Len); i++ {
+						if bitutil.BitIsSet(filterIsValid, int(filter.Offset+inPos)) && bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
+							writeMaybeNull(inPos)
+						}
+						inPos++
+					}
+				} else { // nullselect == emitnulls
+					// Data values in this block are not null
+					for i := 0; i < int(filterBlock.Len); i++ {
+						isValid := bitutil.BitIsSet(filterIsValid, int(filter.Offset+inPos))
+						if isValid && bitutil.BitIsSet(filterData, int(filter.Offset+inPos)) {
+							// filter slot is non-null and set
+							writeMaybeNull(inPos)
+						} else if !isValid {
+							// filter slot is null, so we have a null in the output
+							bitutil.ClearBit(outIsValid, int(out.Offset)+wr.OutPos())
+							wr.WriteNull()
+						}
+						inPos++
+					}
+				}
+			}
+		}
+	}
+}
+
+type filterWriter[T exec.UintTypes] struct {
+	outPosition  int
+	outOffset    int
+	valuesOffset int
+	valuesData   []T
+	outData      []T
+}
+
+func (f *filterWriter[T]) OutPos() int { return f.outPosition }
+
+func (f *filterWriter[T]) WriteValue(inPos int64) {
+	f.outData[f.outPosition] = f.valuesData[inPos]
+	f.outPosition++
+}
+
+func (f *filterWriter[T]) WriteValueSegment(inStart, length int64) {
+	copy(f.outData[f.outPosition:], f.valuesData[inStart:inStart+length])
+	f.outPosition += int(length)
+}
+
+func (f *filterWriter[T]) WriteNull() {
+	var z T
+	f.outData[f.outPosition] = z
+	f.outPosition++
+}
+
+type boolFilterWriter struct {
+	outPosition  int
+	outOffset    int
+	valuesOffset int
+	valuesData   []byte
+	outData      []byte
+}
+
+func (b *boolFilterWriter) OutPos() int { return b.outPosition }
+
+func (b *boolFilterWriter) WriteValue(inPos int64) {
+	bitutil.SetBitTo(b.outData, b.outOffset+b.outPosition,
+		bitutil.BitIsSet(b.valuesData, b.valuesOffset+int(inPos)))
+}
+
+func (b *boolFilterWriter) WriteValueSegment(inStart, length int64) {
+	bitutil.CopyBitmap(b.valuesData, b.valuesOffset+int(inStart), int(length),
+		b.outData, b.outOffset+b.outPosition)
+	b.outPosition += int(length)
+}
+
+func (b *boolFilterWriter) WriteNull() {
+	bitutil.ClearBit(b.outData, b.outOffset+b.outPosition)
+	b.outPosition++
+}
+
+func PrimitiveFilter(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		values        = &batch.Values[0].Array
+		filter        = &batch.Values[1].Array
+		nullSelection = ctx.State.(FilterState).NullSelection
+	)
+
+	values.UpdateNullCount()
+	filter.UpdateNullCount()
+
+	outputLength := getFilterOutputSize(filter, nullSelection)
+
+	// the output precomputed null count is unknown except in the narrow
+	// condition that all the values are non-null and the filter will not
+	// cause any new nulls to be created
+	if values.Nulls == 0 && (nullSelection == DropNulls || filter.Nulls == 0) {
+		out.Nulls = 0
+	} else {
+		out.Nulls = array.UnknownNullCount
+	}
+
+	// when neither the values nor filter is known to have any nulls,
+	// we will elect the optimized ExecNonNull path where there is no
+	// need to populate a validity bitmap.
+	allocateValidity := values.Nulls != 0 || filter.Nulls != 0
+	bitWidth := values.Type.(arrow.FixedWidthDataType).BitWidth()
+	preallocateData(ctx, outputLength, bitWidth, allocateValidity, out)
+
+	var wr writeFiltered
+	switch bitWidth {
+	case 1:
+		wr = &boolFilterWriter{
+			outOffset:    int(out.Offset),
+			valuesOffset: int(values.Offset),
+			outData:      out.Buffers[1].Buf,
+			valuesData:   values.Buffers[1].Buf,
+		}
+	case 8:
+		wr = &filterWriter[uint8]{
+			outOffset:    int(out.Offset),
+			valuesOffset: int(values.Offset),
+			outData:      exec.GetSpanValues[uint8](out, 1),
+			valuesData:   exec.GetSpanValues[uint8](values, 1),
+		}
+	case 16:
+		wr = &filterWriter[uint16]{
+			outOffset:    int(out.Offset),
+			valuesOffset: int(values.Offset),
+			outData:      exec.GetSpanValues[uint16](out, 1),
+			valuesData:   exec.GetSpanValues[uint16](values, 1),
+		}
+	case 32:
+		wr = &filterWriter[uint32]{
+			outOffset:    int(out.Offset),
+			valuesOffset: int(values.Offset),
+			outData:      exec.GetSpanValues[uint32](out, 1),
+			valuesData:   exec.GetSpanValues[uint32](values, 1),
+		}
+	case 64:
+		wr = &filterWriter[uint64]{
+			outOffset:    int(out.Offset),
+			valuesOffset: int(values.Offset),
+			outData:      exec.GetSpanValues[uint64](out, 1),
+			valuesData:   exec.GetSpanValues[uint64](values, 1),
+		}
+	default:
+		return fmt.Errorf("%w: invalid values bit width", arrow.ErrType)
+	}
+
+	primitiveFilterImpl(wr, values, filter, nullSelection, out)
+	return nil
+}
+
+type primitiveGetter[T exec.IntTypes | bool] interface {
+	IsValid(int64) bool
+	GetValue(int64) T
+	NullCount() int64
+	Len() int64
+}
+
+type boolGetter struct {
+	inner  *exec.ArraySpan
+	values []byte
+}
+
+func (b *boolGetter) IsValid(i int64) bool {
+	return bitutil.BitIsSet(b.inner.Buffers[0].Buf, int(b.inner.Offset+i))
+}
+
+func (b *boolGetter) GetValue(i int64) bool {
+	return bitutil.BitIsSet(b.values, int(b.inner.Offset+i))
+}
+
+func (b *boolGetter) NullCount() int64 { return b.inner.Nulls }
+func (b *boolGetter) Len() int64       { return b.inner.Len }
+
+type primitiveGetterImpl[T exec.IntTypes] struct {
+	inner  *exec.ArraySpan
+	values []T
+}
+
+func (p *primitiveGetterImpl[T]) IsValid(i int64) bool {
+	return bitutil.BitIsSet(p.inner.Buffers[0].Buf, int(p.inner.Offset+i))
+}
+func (p *primitiveGetterImpl[T]) GetValue(i int64) T { return p.values[i] }
+func (p *primitiveGetterImpl[T]) NullCount() int64   { return p.inner.Nulls }
+func (p *primitiveGetterImpl[T]) Len() int64         { return p.inner.Len }
+
+type chunkedBoolGetter struct {
+	inner         *arrow.Chunked
+	resolver      *exec.ChunkResolver
+	nulls         int64
+	len           int64
+	chunkLengths  []int64
+	valuesData    [][]byte
+	valuesIsValid [][]byte
+	valuesOffset  []int64
+}
+
+func newChunkedBoolGetter(arr *arrow.Chunked) *chunkedBoolGetter {
+	nchunks := len(arr.Chunks())
+	lengths := make([]int64, nchunks)
+	valuesData := make([][]byte, nchunks)
+	valuesIsValid := make([][]byte, nchunks)
+	valuesOffset := make([]int64, nchunks)
+
+	for i, c := range arr.Chunks() {
+		lengths[i] = int64(c.Len())
+		valuesOffset[i] = int64(c.Data().Offset())
+		valuesIsValid[i] = c.NullBitmapBytes()
+		valuesData[i] = c.Data().Buffers()[1].Bytes()
+	}
+
+	return &chunkedBoolGetter{
+		inner:         arr,
+		resolver:      exec.NewChunkResolver(arr.Chunks()),
+		nulls:         int64(arr.NullN()),
+		len:           int64(arr.Len()),
+		chunkLengths:  lengths,
+		valuesData:    valuesData,
+		valuesIsValid: valuesIsValid,
+		valuesOffset:  valuesOffset,
+	}
+}
+
+func (c *chunkedBoolGetter) IsValid(i int64) bool {
+	chunk, chunkidx := c.resolver.Resolve(i)
+	bm := c.valuesIsValid[chunk]
+	if bm == nil {
+		return true
+	}
+	return bitutil.BitIsSet(bm, int(c.valuesOffset[chunk]+chunkidx))
+}
+
+func (c *chunkedBoolGetter) GetValue(i int64) bool {
+	chunk, idx := c.resolver.Resolve(i)
+	return bitutil.BitIsSet(c.valuesData[chunk], int(c.valuesOffset[chunk]+idx))
+}
+
+func (c *chunkedBoolGetter) NullCount() int64 { return c.nulls }
+func (c *chunkedBoolGetter) Len() int64       { return c.len }
+
+type chunkedPrimitiveGetter[T exec.IntTypes] struct {
+	inner         *arrow.Chunked
+	resolver      *exec.ChunkResolver
+	nulls         int64
+	len           int64
+	chunkLengths  []int64
+	valuesData    [][]T
+	valuesIsValid [][]byte
+	valuesOffset  []int64
+}
+
+func newChunkedPrimitiveGetter[T exec.IntTypes](arr *arrow.Chunked) *chunkedPrimitiveGetter[T] {
+	nchunks := len(arr.Chunks())
+	lengths := make([]int64, nchunks)
+	valuesData := make([][]T, nchunks)
+	valuesIsValid := make([][]byte, nchunks)
+	valuesOffset := make([]int64, nchunks)
+
+	for i, c := range arr.Chunks() {
+		lengths[i] = int64(c.Len())
+		valuesOffset[i] = int64(c.Data().Offset())
+		valuesIsValid[i] = c.NullBitmapBytes()
+		valuesData[i] = exec.GetValues[T](c.Data(), 1)
+	}
+
+	return &chunkedPrimitiveGetter[T]{
+		inner:         arr,
+		resolver:      exec.NewChunkResolver(arr.Chunks()),
+		nulls:         int64(arr.NullN()),
+		len:           int64(arr.Len()),
+		chunkLengths:  lengths,
+		valuesData:    valuesData,
+		valuesIsValid: valuesIsValid,
+		valuesOffset:  valuesOffset,
+	}
+}
+
+func (c *chunkedPrimitiveGetter[T]) IsValid(i int64) bool {
+	chunk, chunkidx := c.resolver.Resolve(i)
+	bm := c.valuesIsValid[chunk]
+	if bm == nil {
+		return true
+	}
+	return bitutil.BitIsSet(bm, int(c.valuesOffset[chunk]+chunkidx))
+}
+
+func (c *chunkedPrimitiveGetter[T]) GetValue(i int64) T {
+	chunk, idx := c.resolver.Resolve(i)
+	return c.valuesData[chunk][idx]
+}
+
+func (c *chunkedPrimitiveGetter[T]) NullCount() int64 { return c.nulls }
+func (c *chunkedPrimitiveGetter[T]) Len() int64       { return c.len }
+
+func primitiveTakeImpl[IdxT exec.UintTypes, ValT exec.IntTypes](values primitiveGetter[ValT], indices *exec.ArraySpan, out *exec.ExecResult) {
+	var (
+		indicesData    = exec.GetSpanValues[IdxT](indices, 1)
+		indicesIsValid = indices.Buffers[0].Buf
+		indicesOffset  = indices.Offset
+
+		outData    = exec.GetSpanValues[ValT](out, 1)
+		outIsValid = out.Buffers[0].Buf
+		outOffset  = out.Offset
+	)
+
+	pos, validCount := int64(0), int64(0)
+	if values.NullCount() == 0 && indices.Nulls == 0 {
+		// values and indices are both never null
+		// this means we didn't allocate the validity bitmap
+		// and can simplify everything
+		for i, idx := range indicesData {
+			outData[i] = values.GetValue(int64(idx))
+		}
+		out.Nulls = 0
+		return
+	}
+
+	indicesBitCounter := bitutils.NewOptionalBitBlockCounter(indicesIsValid, indicesOffset, indices.Len)
+	for pos < indices.Len {
+		block := indicesBitCounter.NextBlock()
+		if values.NullCount() == 0 {
+			// values are never null, so things are easier
+			validCount += int64(block.Popcnt)
+			if block.AllSet() {
+				// fastest path: neither values nor index nulls
+				bitutil.SetBitsTo(outIsValid, outOffset+pos, int64(block.Len), true)
+				for i := 0; i < int(block.Len); i++ {
+					outData[pos] = values.GetValue(int64(indicesData[pos]))
+					pos++
+				}
+			} else if block.Popcnt > 0 {
+				// slow path: some indices but not all are null
+				for i := 0; i < int(block.Len); i++ {
+					if bitutil.BitIsSet(indicesIsValid, int(indicesOffset+pos)) {
+						// index is not null
+						bitutil.SetBit(outIsValid, int(outOffset+pos))
+						outData[pos] = values.GetValue(int64(indicesData[pos]))
+					}
+					pos++
+				}
+			} else {
+				pos += int64(block.Len)
+			}
+		} else {
+			// values have nulls, so we must do random access into the values bitmap
+			if block.AllSet() {
+				// faster path: indices are not null but values may be
+				for i := 0; i < int(block.Len); i++ {
+					if values.IsValid(int64(indicesData[pos])) {
+						// value is not null
+						outData[pos] = values.GetValue(int64(indicesData[pos]))
+						bitutil.SetBit(outIsValid, int(outOffset+pos))
+						validCount++
+					}
+					pos++
+				}
+			} else if block.Popcnt > 0 {
+				// slow path: some but not all indices are null. since we
+				// are doing random access in general we have to check the
+				// value nullness one by one
+				for i := 0; i < int(block.Len); i++ {
+					if bitutil.BitIsSet(indicesIsValid, int(indicesOffset+pos)) &&
+						values.IsValid(int64(indicesData[pos])) {
+						// index is not null && value is not null
+						outData[pos] = values.GetValue(int64(indicesData[pos]))
+						bitutil.SetBit(outIsValid, int(outOffset+pos))
+						validCount++
+					}
+					pos++
+				}
+			} else {
+				pos += int64(block.Len)
+			}
+		}
+	}
+
+	out.Nulls = out.Len - validCount
+}
+
+func booleanTakeImpl[IdxT exec.UintTypes](values primitiveGetter[bool], indices *exec.ArraySpan, out *exec.ExecResult) {
+	var (
+		indicesData    = exec.GetSpanValues[IdxT](indices, 1)
+		indicesIsValid = indices.Buffers[0].Buf
+		indicesOffset  = indices.Offset
+
+		outData    = out.Buffers[1].Buf
+		outIsValid = out.Buffers[0].Buf
+		outOffset  = out.Offset
+	)
+
+	placeDataBit := func(loc int64, index IdxT) {
+		bitutil.SetBitTo(outData, int(outOffset+loc), values.GetValue(int64(index)))
+	}
+
+	pos, validCount := int64(0), int64(0)
+	if values.NullCount() == 0 && indices.Nulls == 0 {
+		// values and indices are both never null
+		// this means we didn't allocate the validity bitmap
+		// and can simplify everything
+		for i, idx := range indicesData {
+			placeDataBit(int64(i), idx)
+		}
+		out.Nulls = 0
+		return
+	}
+
+	indicesBitCounter := bitutils.NewOptionalBitBlockCounter(indicesIsValid, indicesOffset, indices.Len)
+	for pos < indices.Len {
+		block := indicesBitCounter.NextBlock()
+		if values.NullCount() == 0 {
+			// values are never null so things are easier
+			validCount += int64(block.Popcnt)
+			if block.AllSet() {
+				// fastest path: neither values nor index nulls
+				bitutil.SetBitsTo(outIsValid, outOffset+pos, int64(block.Len), true)
+				for i := 0; i < int(block.Len); i++ {
+					placeDataBit(pos, indicesData[pos])
+					pos++
+				}
+			} else if block.Popcnt > 0 {
+				// slow path: some but not all indices are null
+				for i := 0; i < int(block.Len); i++ {
+					if bitutil.BitIsSet(indicesIsValid, int(indicesOffset+pos)) {
+						// index is not null
+						bitutil.SetBit(outIsValid, int(outOffset+pos))
+						placeDataBit(pos, indicesData[pos])
+					}
+					pos++
+				}
+			} else {
+				pos += int64(block.Len)
+			}
+		} else {
+			// values have nulls so we must do random access into the values bitmap
+			if block.AllSet() {
+				// faster path: indices are not null but values may be
+				for i := 0; i < int(block.Len); i++ {
+					if values.IsValid(int64(indicesData[pos])) {
+						// value is not null
+						bitutil.SetBit(outIsValid, int(outOffset+pos))
+						placeDataBit(pos, indicesData[pos])
+						validCount++
+					}
+					pos++
+				}
+			} else if block.Popcnt > 0 {
+				// slow path: some but not all indices are null.
+				// we have to check the values one by one
+				for i := 0; i < int(block.Len); i++ {
+					if bitutil.BitIsSet(indicesIsValid, int(indicesOffset+pos)) &&
+						values.IsValid(int64(indicesData[pos])) {
+						placeDataBit(pos, indicesData[pos])
+						bitutil.SetBit(outIsValid, int(outOffset+pos))
+						validCount++
+					}
+					pos++
+				}
+			} else {
+				pos += int64(block.Len)
+			}
+		}
+	}
+	out.Nulls = out.Len - validCount
+}
+
+func booleanTakeDispatchChunked(values, indices *arrow.Chunked, out []*exec.ExecResult) error {
+	getter := newChunkedBoolGetter(values)
+	var fn func(primitiveGetter[bool], *exec.ArraySpan, *exec.ExecResult)
+
+	switch indices.DataType().(arrow.FixedWidthDataType).Bytes() {
+	case 1:
+		fn = booleanTakeImpl[uint8]
+	case 2:
+		fn = booleanTakeImpl[uint16]
+	case 4:
+		fn = booleanTakeImpl[uint32]
+	case 8:
+		fn = booleanTakeImpl[uint64]
+	default:
+		return fmt.Errorf("%w: invalid indices byte width", arrow.ErrIndex)
+	}
+
+	var indexSpan exec.ArraySpan
+	for i, c := range indices.Chunks() {
+		indexSpan.SetMembers(c.Data())
+		fn(getter, &indexSpan, out[i])
+	}
+	return nil
+}
+
+func booleanTakeDispatch(values, indices *exec.ArraySpan, out *exec.ExecResult) error {
+	getter := &boolGetter{inner: values, values: values.Buffers[1].Buf}
+
+	switch indices.Type.(arrow.FixedWidthDataType).Bytes() {
+	case 1:
+		booleanTakeImpl[uint8](getter, indices, out)
+	case 2:
+		booleanTakeImpl[uint16](getter, indices, out)
+	case 4:
+		booleanTakeImpl[uint32](getter, indices, out)
+	case 8:
+		booleanTakeImpl[uint64](getter, indices, out)
+	default:
+		return fmt.Errorf("%w: invalid indices byte width", arrow.ErrIndex)
+	}
+	return nil
+}
+
+func takeIdxChunkedDispatch[ValT exec.IntTypes](values, indices *arrow.Chunked, out []*exec.ExecResult) error {
+	getter := newChunkedPrimitiveGetter[ValT](values)
+	var fn func(primitiveGetter[ValT], *exec.ArraySpan, *exec.ExecResult)
+
+	switch indices.DataType().(arrow.FixedWidthDataType).Bytes() {
+	case 1:
+		fn = primitiveTakeImpl[uint8, ValT]
+	case 2:
+		fn = primitiveTakeImpl[uint16, ValT]
+	case 4:
+		fn = primitiveTakeImpl[uint32, ValT]
+	case 8:
+		fn = primitiveTakeImpl[uint64, ValT]
+	default:
+		return fmt.Errorf("%w: invalid byte width for indices", arrow.ErrIndex)
+	}
+
+	var indexSpan exec.ArraySpan
+	for i, c := range indices.Chunks() {
+		indexSpan.SetMembers(c.Data())
+		fn(getter, &indexSpan, out[i])
+	}
+	return nil
+}
+
+func takeIdxDispatch[ValT exec.IntTypes](values, indices *exec.ArraySpan, out *exec.ExecResult) error {
+	getter := &primitiveGetterImpl[ValT]{inner: values, values: exec.GetSpanValues[ValT](values, 1)}
+
+	switch indices.Type.(arrow.FixedWidthDataType).Bytes() {
+	case 1:
+		primitiveTakeImpl[uint8, ValT](getter, indices, out)
+	case 2:
+		primitiveTakeImpl[uint16, ValT](getter, indices, out)
+	case 4:
+		primitiveTakeImpl[uint32, ValT](getter, indices, out)
+	case 8:
+		primitiveTakeImpl[uint64, ValT](getter, indices, out)
+	default:
+		return fmt.Errorf("%w: invalid indices byte width", arrow.ErrIndex)
+	}
+	return nil
+}
+
+func PrimitiveTake(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		values  = &batch.Values[0].Array
+		indices = &batch.Values[1].Array
+	)
+
+	if ctx.State.(TakeState).BoundsCheck {
+		if err := checkIndexBounds(indices, uint64(values.Len)); err != nil {
+			return err
+		}
+	}
+
+	bitWidth := values.Type.(arrow.FixedWidthDataType).BitWidth()
+	allocateValidity := values.Nulls != 0 || indices.Nulls != 0
+	preallocateData(ctx, indices.Len, bitWidth, allocateValidity, out)
+
+	switch bitWidth {
+	case 1:
+		return booleanTakeDispatch(values, indices, out)
+	case 8:
+		return takeIdxDispatch[int8](values, indices, out)
+	case 16:
+		return takeIdxDispatch[int16](values, indices, out)
+	case 32:
+		return takeIdxDispatch[int32](values, indices, out)
+	case 64:
+		return takeIdxDispatch[int64](values, indices, out)
+	default:
+		return fmt.Errorf("%w: invalid values byte width for take", arrow.ErrInvalid)
+	}
+}
+
+func ChunkedPrimitiveTake(ctx *exec.KernelCtx, batch []*arrow.Chunked, out *exec.ExecResult) ([]*exec.ExecResult, error) {
+	var (
+		values  = batch[0]
+		indices = batch[1]
+	)
+
+	if ctx.State.(TakeState).BoundsCheck {
+		if err := checkIndexBoundsChunked(indices, uint64(values.Len())); err != nil {
+			return nil, err
+		}
+	}
+
+	bitWidth := values.DataType().(arrow.FixedWidthDataType).BitWidth()
+	allocValidity := values.NullN() != 0 || indices.NullN() != 0
+	outData := make([]*exec.ExecResult, len(indices.Chunks()))
+	for i, chunk := range indices.Chunks() {
+		outData[i] = &exec.ExecResult{Type: out.Type}
+		preallocateData(ctx, int64(chunk.Len()), bitWidth, allocValidity, outData[i])
+	}
+
+	switch bitWidth {
+	case 1:
+		return outData, booleanTakeDispatchChunked(values, indices, outData)
+	case 8:
+		return outData, takeIdxChunkedDispatch[int8](values, indices, outData)
+	case 16:
+		return outData, takeIdxChunkedDispatch[int16](values, indices, outData)
+	case 32:
+		return outData, takeIdxChunkedDispatch[int32](values, indices, outData)
+	case 64:
+		return outData, takeIdxChunkedDispatch[int64](values, indices, outData)
+	default:
+		return nil, fmt.Errorf("%w: invalid values byte width for take", arrow.ErrInvalid)
+	}
+}
+
+func NullTake(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	if ctx.State.(TakeState).BoundsCheck {
+		if err := checkIndexBounds(&batch.Values[1].Array, uint64(batch.Values[0].Array.Len)); err != nil {
+			return err
+		}
+	}
+
+	// batch.length doesn't take into account the take indices
+	out.Len = batch.Values[1].Array.Len
+	out.Type = arrow.Null
+	return nil
+}
+
+func NullFilter(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	outputLength := getFilterOutputSize(&batch.Values[1].Array, ctx.State.(FilterState).NullSelection)
+	out.Len = outputLength
+	out.Type = arrow.Null
+	return nil
+}
+
+func filterExec(ctx *exec.KernelCtx, outputLen int64, values, selection *exec.ArraySpan, out *exec.ExecResult, visitValid func(idx int64) error, visitNull func() error) error {
+	var (
+		nullSelection = ctx.State.(FilterState).NullSelection
+		filterData    = selection.Buffers[1].Buf
+		filterIsValid = selection.Buffers[0].Buf
+		filterOffset  = selection.Offset
+
+		// we use 3 block counters for fast scanning
+		//
+		// values valid counter: for values null/not-null
+		// filter valid counter: for filter null/not-null
+		// filter counter: for filter true/false
+		valuesIsValid      = bitutil.OptionalBitIndexer{Bitmap: values.Buffers[0].Buf, Offset: int(values.Offset)}
+		valuesValidCounter = bitutils.NewOptionalBitBlockCounter(values.Buffers[0].Buf, values.Offset, values.Len)
+		filterValidCounter = bitutils.NewOptionalBitBlockCounter(filterIsValid, filterOffset, selection.Len)
+		filterCounter      = bitutils.NewBitBlockCounter(filterData, filterOffset, selection.Len)
+		inPos              int64
+
+		validityBuilder = validityBuilder{mem: exec.GetAllocator(ctx.Ctx)}
+	)
+
+	validityBuilder.Reserve(outputLen)
+
+	appendNotNull := func(idx int64) error {
+		validityBuilder.UnsafeAppend(true)
+		return visitValid(idx)
+	}
+
+	appendNull := func() error {
+		validityBuilder.UnsafeAppend(false)
+		return visitNull()
+	}
+
+	appendMaybeNull := func(idx int64) error {
+		if valuesIsValid.GetBit(int(idx)) {
+			return appendNotNull(idx)
+		}
+		return appendNull()
+	}
+
+	for inPos < selection.Len {
+		filterValidBlock := filterValidCounter.NextWord()
+		valuesValidBlock := valuesValidCounter.NextWord()
+		filterBlock := filterCounter.NextWord()
+
+		switch {
+		case filterBlock.NoneSet() && nullSelection == DropNulls:
+			// for this exceedingly common case in low-selectivity filters
+			// we can skip further analysis of the data and move onto the next block
+			inPos += int64(filterBlock.Len)
+		case filterValidBlock.AllSet():
+			// simpler path: no filter values are null
+			if filterBlock.AllSet() {
+				// fastest path, filter values are all true and not null
+				if valuesValidBlock.AllSet() {
+					// values aren't null either
+					validityBuilder.UnsafeAppendN(int64(filterBlock.Len), true)
+					for i := 0; i < int(filterBlock.Len); i++ {
+						if err := visitValid(inPos); err != nil {
+							return err
+						}
+						inPos++
+					}
+				} else {
+					// some values are null in this block
+					for i := 0; i < int(filterBlock.Len); i++ {
+						if err := appendMaybeNull(inPos); err != nil {
+							return err
+						}
+						inPos++
+					}
+				}
+			} else { // !filterBlock.AllSet()
+				// some filter values are false, but all not null
+				if valuesValidBlock.AllSet() {
+					// all the values are not-null, so we can skip null checking for them
+					for i := 0; i < int(filterBlock.Len); i++ {
+						if bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
+							if err := appendNotNull(inPos); err != nil {
+								return err
+							}
+						}
+						inPos++
+					}
+				} else {
+					// some of the values in the block are null
+					// gotta check each one :(
+					for i := 0; i < int(filterBlock.Len); i++ {
+						if bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
+							if err := appendMaybeNull(inPos); err != nil {
+								return err
+							}
+						}
+						inPos++
+					}
+				}
+			}
+		default:
+			// !filterValidBlock.AllSet()
+			// some filter values are null, so we have to handle drop
+			// versus emit null
+			if nullSelection == DropNulls {
+				// filter null values are treated as false
+				for i := 0; i < int(filterBlock.Len); i++ {
+					if bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos)) &&
+						bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
+						if err := appendMaybeNull(inPos); err != nil {
+							return err
+						}
+					}
+					inPos++
+				}
+			} else {
+				// filter null values are appended to output as null
+				// whether the value in the corresponding slot is valid
+				// or not
+				var err error
+				for i := 0; i < int(filterBlock.Len); i++ {
+					filterNotNull := bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos))
+					if filterNotNull && bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
+						err = appendMaybeNull(inPos)
+					} else if !filterNotNull {
+						// emit null case
+						err = appendNull()
+					}
+					if err != nil {
+						return err
+					}
+					inPos++
+				}
+			}
+		}
+	}
+
+	out.Len = int64(validityBuilder.bitLength)
+	out.Nulls = int64(validityBuilder.falseCount)
+	out.Buffers[0].WrapBuffer(validityBuilder.Finish())
+	return nil
+}
+
+func binaryFilterNonNull[OffsetT int32 | int64](ctx *exec.KernelCtx, values, filter *exec.ArraySpan, outputLen int64, nullSelection NullSelectionBehavior, out *exec.ExecResult) error {
+	var (
+		offsetBuilder = newBufferBuilder[OffsetT](exec.GetAllocator(ctx.Ctx))
+		dataBuilder   = newBufferBuilder[uint8](exec.GetAllocator(ctx.Ctx))
+		rawOffsets    = exec.GetSpanOffsets[OffsetT](values, 1)
+		rawData       = values.Buffers[2].Buf
+	)
+
+	offsetBuilder.reserve(int(outputLen) + 1)
+	// get a rough estimate and pre-size the data builder
+	if values.Len > 0 {
+		meanValueLength := float64(rawOffsets[values.Len]-rawOffsets[0]) / float64(values.Len)
+		dataBuilder.reserve(int(meanValueLength * float64(outputLen)))
+	}
+
+	spaceAvail := dataBuilder.cap()
+	var offset OffsetT
+	filterData := filter.Buffers[1].Buf
+
+	err := bitutils.VisitSetBitRuns(filterData, filter.Offset, filter.Len,
+		func(pos, length int64) error {
+			start, end := rawOffsets[pos], rawOffsets[pos+length]
+			// bulk-append raw data
+			runDataBytes := (end - start)
+			if runDataBytes > OffsetT(spaceAvail) {
+				dataBuilder.reserve(int(runDataBytes))
+				spaceAvail = dataBuilder.cap() - dataBuilder.len()
+			}
+			dataBuilder.unsafeAppendSlice(rawData[start:end])
+			spaceAvail -= int(runDataBytes)
+			curOffset := start
+			for i := int64(0); i < length; i++ {
+				offsetBuilder.unsafeAppend(offset)
+				offset += rawOffsets[i+pos+1] - curOffset
+				curOffset = rawOffsets[i+pos+1]
+			}
+			return nil
+		})
+
+	if err != nil {
+		return err
+	}
+
+	offsetBuilder.unsafeAppend(offset)
+	out.Len = outputLen
+	out.Buffers[1].WrapBuffer(offsetBuilder.finish())
+	out.Buffers[2].WrapBuffer(dataBuilder.finish())
+	return nil
+}
+
+func binaryFilterImpl[OffsetT int32 | int64](ctx *exec.KernelCtx, values, filter *exec.ArraySpan, outputLen int64, nullSelection NullSelectionBehavior, out *exec.ExecResult) error {
+	var (
+		filterData    = filter.Buffers[1].Buf
+		filterIsValid = filter.Buffers[0].Buf
+		filterOffset  = filter.Offset
+
+		valuesIsValid = values.Buffers[0].Buf
+		valuesOffset  = values.Offset
+		// output bitmap should already be zero'd out so we just
+		// have to set valid bits to true
+		outIsValid = out.Buffers[0].Buf
+
+		rawOffsets    = exec.GetSpanOffsets[OffsetT](values, 1)
+		rawData       = values.Buffers[2].Buf
+		offsetBuilder = newBufferBuilder[OffsetT](exec.GetAllocator(ctx.Ctx))
+		dataBuilder   = newBufferBuilder[uint8](exec.GetAllocator(ctx.Ctx))
+	)
+
+	offsetBuilder.reserve(int(outputLen) + 1)
+	if values.Len > 0 {
+		meanValueLength := float64(rawOffsets[values.Len]-rawOffsets[0]) / float64(values.Len)
+		dataBuilder.reserve(int(meanValueLength * float64(outputLen)))
+	}
+
+	spaceAvail := dataBuilder.cap()
+	var offset OffsetT
+
+	// we use 3 block counters for fast scanning of the filter
+	//
+	// * valuesValidCounter: for values null/not-null
+	// * filterValidCounter: for filter null/not-null
+	// * filterCounter: for filter true/false
+	valuesValidCounter := bitutils.NewOptionalBitBlockCounter(values.Buffers[0].Buf, values.Offset, values.Len)
+	filterValidCounter := bitutils.NewOptionalBitBlockCounter(filterIsValid, filterOffset, filter.Len)
+	filterCounter := bitutils.NewBitBlockCounter(filterData, filterOffset, filter.Len)
+
+	inPos, outPos := int64(0), int64(0)
+
+	appendRaw := func(data []byte) {
+		if len(data) > spaceAvail {
+			dataBuilder.reserve(len(data))
+			spaceAvail = dataBuilder.cap() - dataBuilder.len()
+		}
+		dataBuilder.unsafeAppendSlice(data)
+		spaceAvail -= len(data)
+	}
+
+	appendSingle := func() {
+		data := rawData[rawOffsets[inPos]:rawOffsets[inPos+1]]
+		appendRaw(data)
+		offset += OffsetT(len(data))
+	}
+
+	for inPos < filter.Len {
+		filterValidBlock, valuesValidBlock := filterValidCounter.NextWord(), valuesValidCounter.NextWord()
+		filterBlock := filterCounter.NextWord()
+		switch {
+		case filterBlock.NoneSet() && nullSelection == DropNulls:
+			// for this exceedingly common case in low-selectivity filters
+			// we can skip further analysis of the data and move on to the
+			// next block
+			inPos += int64(filterBlock.Len)
+		case filterValidBlock.AllSet():
+			// simpler path: no filter values are null
+			if filterBlock.AllSet() {
+				// fastest path: filter values are all true and not null
+				if valuesValidBlock.AllSet() {
+					// the values aren't null either
+					bitutil.SetBitsTo(outIsValid, outPos, int64(filterBlock.Len), true)
+
+					// bulk-append raw data
+					start, end := rawOffsets[inPos], rawOffsets[inPos+int64(filterBlock.Len)]
+					appendRaw(rawData[start:end])
+					// append offsets
+					for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
+						offsetBuilder.unsafeAppend(offset)
+						offset += rawOffsets[inPos+1] - rawOffsets[inPos]
+					}
+					outPos += int64(filterBlock.Len)
+				} else {
+					// some of the values in this block are null
+					for i := 0; i < int(filterBlock.Len); i, inPos, outPos = i+1, inPos+1, outPos+1 {
+						offsetBuilder.unsafeAppend(offset)
+						if bitutil.BitIsSet(valuesIsValid, int(valuesOffset+inPos)) {
+							bitutil.SetBit(outIsValid, int(outPos))
+							appendSingle()
+						}
+					}
+				}
+				continue
+			}
+			// !filterBlock.AllSet()
+			// some of the filter values are false, but all not null
+			if valuesValidBlock.AllSet() {
+				// all the values are non-null, so we can skip null checking
+				for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
+					if bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
+						offsetBuilder.unsafeAppend(offset)
+						bitutil.SetBit(outIsValid, int(outPos))
+						outPos++
+						appendSingle()
+					}
+				}
+			} else {
+				// some of the values in the block are null, so we have to check
+				for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
+					if bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
+						offsetBuilder.unsafeAppend(offset)
+						if bitutil.BitIsSet(valuesIsValid, int(valuesOffset+inPos)) {
+							bitutil.SetBit(outIsValid, int(outPos))
+							appendSingle()
+						}
+						outPos++
+					}
+				}
+			}
+		default:
+			// !filterValidBlock.AllSet()
+			// some of the filter values are null, so we have to handle
+			// the DROP vs EMIT_NULL null selection behavior
+			if nullSelection == DropNulls {
+				// filter null values are treated as false
+				if valuesValidBlock.AllSet() {
+					for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
+						if bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos)) &&
+							bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
+							offsetBuilder.unsafeAppend(offset)
+							bitutil.SetBit(outIsValid, int(outPos))
+							outPos++
+							appendSingle()
+						}
+					}
+				} else {
+					for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
+						if bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos)) &&
+							bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
+							offsetBuilder.unsafeAppend(offset)
+							if bitutil.BitIsSet(valuesIsValid, int(valuesOffset+inPos)) {
+								bitutil.SetBit(outIsValid, int(outPos))
+								appendSingle()
+							}
+							outPos++
+						}
+					}
+				}
+			} else {
+				for i := 0; i < int(filterBlock.Len); i, inPos = i+1, inPos+1 {
+					filterNotNull := bitutil.BitIsSet(filterIsValid, int(filterOffset+inPos))
+					if filterNotNull && bitutil.BitIsSet(filterData, int(filterOffset+inPos)) {
+						offsetBuilder.unsafeAppend(offset)
+						if bitutil.BitIsSet(valuesIsValid, int(valuesOffset+inPos)) {
+							bitutil.SetBit(outIsValid, int(outPos))
+							appendSingle()
+						}
+						outPos++
+					} else if !filterNotNull {
+						offsetBuilder.unsafeAppend(offset)
+						outPos++
+					}
+				}
+			}
+		}
+	}
+
+	offsetBuilder.unsafeAppend(offset)
+	out.Len = outputLen
+	out.Buffers[1].WrapBuffer(offsetBuilder.finish())
+	out.Buffers[2].WrapBuffer(dataBuilder.finish())
+	return nil
+}
+
+func takeExecImpl[T exec.UintTypes](ctx *exec.KernelCtx, outputLen int64, values, indices *exec.ArraySpan, out *exec.ExecResult, visitValid func(int64) error, visitNull func() error) error {
+	var (
+		validityBuilder = validityBuilder{mem: exec.GetAllocator(ctx.Ctx)}
+		indicesValues   = exec.GetSpanValues[T](indices, 1)
+		isValid         = indices.Buffers[0].Buf
+		valuesHaveNulls = values.MayHaveNulls()
+
+		indicesIsValid = bitutil.OptionalBitIndexer{Bitmap: isValid, Offset: int(indices.Offset)}
+		valuesIsValid  = bitutil.OptionalBitIndexer{Bitmap: values.Buffers[0].Buf, Offset: int(values.Offset)}
+		bitCounter     = bitutils.NewOptionalBitBlockCounter(isValid, indices.Offset, indices.Len)
+		pos            int64
+	)
+
+	validityBuilder.Reserve(outputLen)
+	for pos < indices.Len {
+		block := bitCounter.NextBlock()
+		indicesHaveNulls := block.Popcnt < block.Len
+		if !indicesHaveNulls && !valuesHaveNulls {
+			// fastest path, neither indices nor values have nulls
+			validityBuilder.UnsafeAppendN(int64(block.Len), true)
+			for i := 0; i < int(block.Len); i++ {
+				if err := visitValid(int64(indicesValues[pos])); err != nil {
+					return err
+				}
+				pos++
+			}
+		} else if block.Popcnt > 0 {
+			// since we have to branch on whether indices are null or not,
+			// we combine the "non-null indices block but some values null"
+			// and "some null indices block but values non-null" into single loop
+			for i := 0; i < int(block.Len); i++ {
+				if (!indicesHaveNulls || indicesIsValid.GetBit(int(pos))) && valuesIsValid.GetBit(int(indicesValues[pos])) {
+					validityBuilder.UnsafeAppend(true)
+					if err := visitValid(int64(indicesValues[pos])); err != nil {
+						return err
+					}
+				} else {
+					validityBuilder.UnsafeAppend(false)
+					if err := visitNull(); err != nil {
+						return err
+					}
+				}
+				pos++
+			}
+		} else {
+			// the whole block is null
+			validityBuilder.UnsafeAppendN(int64(block.Len), false)
+			for i := 0; i < int(block.Len); i++ {
+				if err := visitNull(); err != nil {
+					return err
+				}
+			}
+			pos += int64(block.Len)
+		}
+	}
+
+	out.Len = int64(validityBuilder.bitLength)
+	out.Nulls = int64(validityBuilder.falseCount)
+	out.Buffers[0].WrapBuffer(validityBuilder.Finish())
+	return nil
+}
+
+func takeExec(ctx *exec.KernelCtx, outputLen int64, values, indices *exec.ArraySpan, out *exec.ExecResult, visitValid func(int64) error, visitNull func() error) error {
+	indexWidth := indices.Type.(arrow.FixedWidthDataType).Bytes()
+
+	switch indexWidth {
+	case 1:
+		return takeExecImpl[uint8](ctx, outputLen, values, indices, out, visitValid, visitNull)
+	case 2:
+		return takeExecImpl[uint16](ctx, outputLen, values, indices, out, visitValid, visitNull)
+	case 4:
+		return takeExecImpl[uint32](ctx, outputLen, values, indices, out, visitValid, visitNull)
+	case 8:
+		return takeExecImpl[uint64](ctx, outputLen, values, indices, out, visitValid, visitNull)
+	default:
+		return fmt.Errorf("%w: invalid index width", arrow.ErrInvalid)
+	}
+}
+
+type selectionOutputFn func(*exec.KernelCtx, int64, *exec.ArraySpan, *exec.ArraySpan, *exec.ExecResult, func(int64) error, func() error) error
+type selectionImplFn func(*exec.KernelCtx, *exec.ExecSpan, int64, *exec.ExecResult, selectionOutputFn) error
+
+func FilterExec(impl selectionImplFn) exec.ArrayKernelExec {
+	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		var (
+			selection    = &batch.Values[1].Array
+			outputLength = getFilterOutputSize(selection, ctx.State.(FilterState).NullSelection)
+		)
+		return impl(ctx, batch, outputLength, out, filterExec)
+	}
+}
+
+func TakeExec(impl selectionImplFn) exec.ArrayKernelExec {
+	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		if ctx.State.(TakeState).BoundsCheck {
+			if err := checkIndexBounds(&batch.Values[1].Array, uint64(batch.Values[0].Array.Len)); err != nil {
+				return err
+			}
+		}
+
+		return impl(ctx, batch, batch.Values[1].Array.Len, out, takeExec)
+	}
+}
+
+func VarBinaryImpl[OffsetT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
+	var (
+		values        = &batch.Values[0].Array
+		selection     = &batch.Values[1].Array
+		rawOffsets    = exec.GetSpanOffsets[OffsetT](values, 1)
+		rawData       = values.Buffers[2].Buf
+		offsetBuilder = newBufferBuilder[OffsetT](exec.GetAllocator(ctx.Ctx))
+		dataBuilder   = newBufferBuilder[uint8](exec.GetAllocator(ctx.Ctx))
+	)
+
+	// presize the data builder with a rough estimate of the required data size
+	if values.Len > 0 {
+		dataLength := rawOffsets[values.Len] - rawOffsets[0]
+		meanValueLen := float64(dataLength) / float64(values.Len)
+		dataBuilder.reserve(int(meanValueLen))
+	}
+
+	offsetBuilder.reserve(int(outputLength) + 1)
+	spaceAvail := dataBuilder.cap()
+	var offset OffsetT
+	err := fn(ctx, outputLength, values, selection, out,
+		func(idx int64) error {
+			offsetBuilder.unsafeAppend(offset)
+			valOffset := rawOffsets[idx]
+			valSize := rawOffsets[idx+1] - valOffset
+
+			if valSize == 0 {
+				return nil
+			}
+			offset += valSize
+			if valSize > OffsetT(spaceAvail) {
+				dataBuilder.reserve(int(valSize))
+				spaceAvail = dataBuilder.cap() - dataBuilder.len()
+			}
+			dataBuilder.unsafeAppendSlice(rawData[valOffset : valOffset+valSize])
+			spaceAvail -= int(valSize)
+			return nil
+		}, func() error {
+			offsetBuilder.unsafeAppend(offset)
+			return nil
+		})
+
+	if err != nil {
+		return err
+	}
+
+	offsetBuilder.unsafeAppend(offset)
+	out.Buffers[1].WrapBuffer(offsetBuilder.finish())
+	out.Buffers[2].WrapBuffer(dataBuilder.finish())
+	return nil
+}
+
+func FSBImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
+	var (
+		values    = &batch.Values[0].Array
+		selection = &batch.Values[1].Array
+		valueSize = int64(values.Type.(arrow.FixedWidthDataType).Bytes())
+		valueData = values.Buffers[1].Buf[values.Offset*valueSize:]
+	)
+
+	out.Buffers[1].WrapBuffer(ctx.Allocate(int(valueSize * outputLength)))
+	buf := out.Buffers[1].Buf
+
+	err := fn(ctx, outputLength, values, selection, out,
+		func(idx int64) error {
+			start := idx * int64(valueSize)
+			copy(buf, valueData[start:start+valueSize])
+			buf = buf[valueSize:]
+			return nil
+		},
+		func() error {
+			buf = buf[valueSize:]
+			return nil
+		})
+
+	if err != nil {
+		out.Buffers[1].Buf = nil
+		out.Buffers[1].Owner.Release()
+		out.Buffers[1].Owner = nil
+		return err
+	}
+
+	return nil
+}
+
+func ListImpl[OffsetT int32 | int64](ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
+	var (
+		values    = &batch.Values[0].Array
+		selection = &batch.Values[1].Array
+
+		rawOffsets      = exec.GetSpanOffsets[OffsetT](values, 1)
+		mem             = exec.GetAllocator(ctx.Ctx)
+		offsetBuilder   = newBufferBuilder[OffsetT](mem)
+		childIdxBuilder = newBufferBuilder[OffsetT](mem)
+	)
+
+	if values.Len > 0 {
+		dataLength := rawOffsets[values.Len] - rawOffsets[0]
+		meanListLen := float64(dataLength) / float64(values.Len)
+		childIdxBuilder.reserve(int(meanListLen))
+	}
+
+	offsetBuilder.reserve(int(outputLength) + 1)
+	var offset OffsetT
+	err := fn(ctx, outputLength, values, selection, out,
+		func(idx int64) error {
+			offsetBuilder.unsafeAppend(offset)
+			valueOffset := rawOffsets[idx]
+			valueLength := rawOffsets[idx+1] - valueOffset
+			offset += valueLength
+			childIdxBuilder.reserve(int(valueLength))
+			for j := valueOffset; j < valueOffset+valueLength; j++ {
+				childIdxBuilder.unsafeAppend(j)
+			}
+			return nil
+		}, func() error {
+			offsetBuilder.unsafeAppend(offset)
+			return nil
+		})
+
+	if err != nil {
+		return err
+	}
+
+	offsetBuilder.unsafeAppend(offset)
+	out.Buffers[1].WrapBuffer(offsetBuilder.finish())
+
+	out.Children = make([]exec.ArraySpan, 1)
+	out.Children[0].Type = exec.GetDataType[OffsetT]()
+	out.Children[0].Len = int64(childIdxBuilder.len())
+	out.Children[0].Buffers[1].WrapBuffer(childIdxBuilder.finish())
+
+	return nil
+}
+
+func FSLImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
+	var (
+		values    = &batch.Values[0].Array
+		selection = &batch.Values[1].Array
+
+		listSize   = values.Type.(*arrow.FixedSizeListType).Len()
+		baseOffset = values.Offset
+
+		childIdxBuilder = array.NewInt64Builder(exec.GetAllocator(ctx.Ctx))
+	)
+
+	// we need to take listSize elements even for null elements of indices
+	childIdxBuilder.Reserve(int(outputLength) * int(listSize))
+	err := fn(ctx, outputLength, values, selection, out,
+		func(idx int64) error {
+			offset := (baseOffset + idx) * int64(listSize)
+			for j := offset; j < (offset + int64(listSize)); j++ {
+				childIdxBuilder.UnsafeAppend(j)
+			}
+			return nil
+		}, func() error {
+			for n := int32(0); n < listSize; n++ {
+				childIdxBuilder.AppendNull()
+			}
+			return nil
+		})
+
+	if err != nil {
+		return err
+	}
+
+	arr := childIdxBuilder.NewArray()
+	defer arr.Release()
+	out.Children = make([]exec.ArraySpan, 1)
+	out.Children[0].TakeOwnership(arr.Data())
+	return nil
+}
+
+func DenseUnionImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
+	var (
+		values    = &batch.Values[0].Array
+		selection = &batch.Values[1].Array
+
+		mem               = exec.GetAllocator(ctx.Ctx)
+		valueOffsetBldr   = newBufferBuilder[int32](mem)
+		childIdBldr       = newBufferBuilder[int8](mem)
+		typeCodes         = values.Type.(arrow.UnionType).TypeCodes()
+		childIndicesBldrs = make([]*array.Int32Builder, len(typeCodes))
+	)
+
+	for i := range childIndicesBldrs {
+		childIndicesBldrs[i] = array.NewInt32Builder(mem)
+	}
+
+	childIdBldr.reserve(int(outputLength))
+	valueOffsetBldr.reserve(int(outputLength))
+
+	typedValues := values.MakeArray().(*array.DenseUnion)
+	defer typedValues.Release()
+
+	err := fn(ctx, outputLength, values, selection, out,
+		func(idx int64) error {
+			childID := typedValues.ChildID(int(idx))
+			childIdBldr.unsafeAppend(typeCodes[childID])
+			valueOffset := typedValues.ValueOffset(int(idx))
+			valueOffsetBldr.unsafeAppend(int32(childIndicesBldrs[childID].Len()))
+			childIndicesBldrs[childID].Append(valueOffset)
+			return nil
+		}, func() error {
+			childID := 0
+			childIdBldr.unsafeAppend(typeCodes[childID])
+			valueOffsetBldr.unsafeAppend(int32(childIndicesBldrs[childID].Len()))
+			childIndicesBldrs[childID].AppendNull()
+			return nil
+		})
+	if err != nil {
+		return err
+	}
+
+	out.Type = typedValues.DataType()
+	out.Buffers[1].WrapBuffer(childIdBldr.finish())
+	out.Buffers[2].WrapBuffer(valueOffsetBldr.finish())
+
+	out.Children = make([]exec.ArraySpan, len(childIndicesBldrs))
+	for i, b := range childIndicesBldrs {
+		arr := b.NewArray()
+		out.Children[i].TakeOwnership(arr.Data())
+		arr.Release()
+		b.Release()
+	}
+	return nil
+}
+
+func FilterBinary(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	var (
+		nullSelect = ctx.State.(FilterState).NullSelection
+		values     = &batch.Values[0].Array
+		filter     = &batch.Values[1].Array
+		outputLen  = getFilterOutputSize(filter, nullSelect)
+	)
+
+	// the output precomputed null count is unknown except in the
+	// narrow condition that all the values are non-null and the filter
+	// will not cause any new nulls to be created
+	if values.Nulls == 0 && (nullSelect == DropNulls || filter.Nulls == 0) {
+		out.Nulls = 0
+	} else {
+		out.Nulls = array.UnknownNullCount
+	}
+
+	typeID := values.Type.ID()
+	if values.Nulls == 0 && filter.Nulls == 0 {
+		// faster no nulls case
+		switch {
+		case arrow.IsBinaryLike(typeID):
+			return binaryFilterNonNull[int32](ctx, values, filter, outputLen, nullSelect, out)
+		case arrow.IsLargeBinaryLike(typeID):
+			return binaryFilterNonNull[int64](ctx, values, filter, outputLen, nullSelect, out)
+		default:
+			return fmt.Errorf("%w: invalid type for binary filter", arrow.ErrInvalid)
+		}
+	}
+
+	// output may have nulls
+	out.Buffers[0].WrapBuffer(ctx.AllocateBitmap(outputLen))
+	switch {
+	case arrow.IsBinaryLike(typeID):
+		return binaryFilterImpl[int32](ctx, values, filter, outputLen, nullSelect, out)
+	case arrow.IsLargeBinaryLike(typeID):
+		return binaryFilterImpl[int64](ctx, values, filter, outputLen, nullSelect, out)
+	}
+
+	return fmt.Errorf("%w: invalid type for binary filter", arrow.ErrInvalid)
+}
+
+func visitNoop() error         { return nil }
+func visitIdxNoop(int64) error { return nil }
+
+func StructImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, outputLength int64, out *exec.ExecResult, fn selectionOutputFn) error {
+	var (
+		values    = &batch.Values[0].Array
+		selection = &batch.Values[1].Array
+	)
+
+	// nothing we need to do other than generate the validity bitmap
+	return fn(ctx, outputLength, values, selection, out, visitIdxNoop, visitNoop)
+}
+
+type SelectionKernelData struct {
+	In      exec.InputType
+	Exec    exec.ArrayKernelExec
+	Chunked exec.ChunkedExec
+}
+
+func ChunkedTakeSupported(dt arrow.DataType) bool {
+	return arrow.IsPrimitive(dt.ID())
+}
+
+func GetVectorSelectionKernels() (filterkernels, takeKernels []SelectionKernelData) {
+	filterkernels = []SelectionKernelData{
+		{In: exec.NewMatchedInput(exec.Primitive()), Exec: PrimitiveFilter},
+		{In: exec.NewExactInput(arrow.Null), Exec: NullFilter},
+		{In: exec.NewIDInput(arrow.DECIMAL128), Exec: FilterExec(FSBImpl)},
+		{In: exec.NewIDInput(arrow.DECIMAL256), Exec: FilterExec(FSBImpl)},
+		{In: exec.NewIDInput(arrow.FIXED_SIZE_BINARY), Exec: FilterExec(FSBImpl)},
+		{In: exec.NewMatchedInput(exec.BinaryLike()), Exec: FilterBinary},
+		{In: exec.NewMatchedInput(exec.LargeBinaryLike()), Exec: FilterBinary},
+	}
+
+	takeKernels = []SelectionKernelData{
+		{In: exec.NewExactInput(arrow.Null), Exec: NullTake},
+		{In: exec.NewMatchedInput(exec.Primitive()), Exec: PrimitiveTake, Chunked: ChunkedPrimitiveTake},
+		{In: exec.NewIDInput(arrow.DECIMAL128), Exec: TakeExec(FSBImpl)},
+		{In: exec.NewIDInput(arrow.DECIMAL256), Exec: TakeExec(FSBImpl)},
+		{In: exec.NewIDInput(arrow.FIXED_SIZE_BINARY), Exec: TakeExec(FSBImpl)},
+		{In: exec.NewMatchedInput(exec.BinaryLike()), Exec: TakeExec(VarBinaryImpl[int32])},
+		{In: exec.NewMatchedInput(exec.LargeBinaryLike()), Exec: TakeExec(VarBinaryImpl[int64])},
+	}
+	return
+}
diff --git a/go/arrow/compute/no_exec.go b/go/arrow/compute/no_exec.go
deleted file mode 100644
index 0237fe7a693..00000000000
--- a/go/arrow/compute/no_exec.go
+++ /dev/null
@@ -1,45 +0,0 @@
-// Licensed to the Apache Software Foundation (ASF) under one
-// or more contributor license agreements.  See the NOTICE file
-// distributed with this work for additional information
-// regarding copyright ownership.  The ASF licenses this file
-// to you under the Apache License, Version 2.0 (the
-// "License"); you may not use this file except in compliance
-// with the License.  You may obtain a copy of the License at
-//
-//   http://www.apache.org/licenses/LICENSE-2.0
-//
-// Unless required by applicable law or agreed to in writing,
-// software distributed under the License is distributed on an
-// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-// KIND, either express or implied.  See the License for the
-// specific language governing permissions and limitations
-// under the License.
-
-// this file is used to provide dummy implementations for exec
-// functions that are called elsewhere in the compute package by
-// the expression handlers so that the logic can stay where it should
-// belong.
-
-package compute
-
-import (
-	"context"
-
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-)
-
-// dummy function which always returns false when not loading the C++ lib
-func isFuncScalar(funcName string) bool {
-	return false
-}
-
-type boundRef uintptr
-
-func (boundRef) release() {}
-
-// when compiled without the c++ library (the build tags control whether it looks for it)
-// then we do not have pure go implementation of the expression binding currently.
-func bindExprSchema(context.Context, memory.Allocator, Expression, *arrow.Schema) (boundRef, ValueDescr, int, Expression, error) {
-	panic("arrow/compute: bind expression not implemented")
-}
diff --git a/go/arrow/compute/registry.go b/go/arrow/compute/registry.go
new file mode 100644
index 00000000000..b3724d25425
--- /dev/null
+++ b/go/arrow/compute/registry.go
@@ -0,0 +1,207 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute
+
+import (
+	"sync"
+
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"golang.org/x/exp/maps"
+	"golang.org/x/exp/slices"
+)
+
+type FunctionRegistry interface {
+	CanAddFunction(fn Function, allowOverwrite bool) bool
+	AddFunction(fn Function, allowOverwrite bool) bool
+	CanAddAlias(target, source string) bool
+	AddAlias(target, source string) bool
+	GetFunction(name string) (Function, bool)
+	GetFunctionNames() []string
+	NumFunctions() int
+
+	canAddFuncName(string, bool) bool
+}
+
+var (
+	registry FunctionRegistry
+	once     sync.Once
+)
+
+func GetFunctionRegistry() FunctionRegistry {
+	once.Do(func() {
+		registry = NewRegistry()
+		RegisterScalarCast(registry)
+		RegisterVectorSelection(registry)
+		RegisterScalarBoolean(registry)
+		RegisterScalarArithmetic(registry)
+		RegisterScalarComparisons(registry)
+	})
+	return registry
+}
+
+func NewRegistry() FunctionRegistry {
+	return &funcRegistry{
+		nameToFunction: make(map[string]Function)}
+}
+
+func NewChildRegistry(parent FunctionRegistry) FunctionRegistry {
+	return &funcRegistry{
+		parent:         parent.(*funcRegistry),
+		nameToFunction: make(map[string]Function)}
+}
+
+type funcRegistry struct {
+	parent *funcRegistry
+
+	mx             sync.RWMutex
+	nameToFunction map[string]Function
+}
+
+func (reg *funcRegistry) getLocker(add bool) sync.Locker {
+	if add {
+		return &reg.mx
+	}
+	return reg.mx.RLocker()
+}
+
+func (reg *funcRegistry) CanAddFunction(fn Function, allowOverwrite bool) bool {
+	if reg.parent != nil && !reg.parent.CanAddFunction(fn, allowOverwrite) {
+		return false
+	}
+
+	return reg.doAddFunction(fn, allowOverwrite, false)
+}
+
+func (reg *funcRegistry) AddFunction(fn Function, allowOverwrite bool) bool {
+	if reg.parent != nil && !reg.parent.CanAddFunction(fn, allowOverwrite) {
+		return false
+	}
+
+	return reg.doAddFunction(fn, allowOverwrite, true)
+}
+
+func (reg *funcRegistry) CanAddAlias(target, source string) bool {
+	if reg.parent != nil && !reg.parent.canAddFuncName(target, false) {
+		return false
+	}
+	return reg.doAddAlias(target, source, false)
+}
+
+func (reg *funcRegistry) AddAlias(target, source string) bool {
+	if reg.parent != nil && !reg.parent.canAddFuncName(target, false) {
+		return false
+	}
+
+	return reg.doAddAlias(target, source, true)
+}
+
+func (reg *funcRegistry) GetFunction(name string) (Function, bool) {
+	reg.mx.RLock()
+	defer reg.mx.RUnlock()
+
+	if fn, ok := reg.nameToFunction[name]; ok {
+		return fn, ok
+	}
+
+	if reg.parent != nil {
+		return reg.parent.GetFunction(name)
+	}
+
+	return nil, false
+}
+
+func (reg *funcRegistry) GetFunctionNames() (out []string) {
+	if reg.parent != nil {
+		out = reg.parent.GetFunctionNames()
+	} else {
+		out = make([]string, 0, len(reg.nameToFunction))
+	}
+	reg.mx.RLock()
+	defer reg.mx.RUnlock()
+
+	out = append(out, maps.Keys(reg.nameToFunction)...)
+	slices.Sort(out)
+	return
+}
+
+func (reg *funcRegistry) NumFunctions() (n int) {
+	if reg.parent != nil {
+		n = reg.parent.NumFunctions()
+	}
+	reg.mx.RLock()
+	defer reg.mx.RUnlock()
+	return n + len(reg.nameToFunction)
+}
+
+func (reg *funcRegistry) canAddFuncName(name string, allowOverwrite bool) bool {
+	if reg.parent != nil {
+		reg.parent.mx.RLock()
+		defer reg.parent.mx.RUnlock()
+
+		if !reg.parent.canAddFuncName(name, allowOverwrite) {
+			return false
+		}
+	}
+	if !allowOverwrite {
+		_, ok := reg.nameToFunction[name]
+		return !ok
+	}
+	return true
+}
+
+func (reg *funcRegistry) doAddFunction(fn Function, allowOverwrite bool, add bool) bool {
+	debug.Assert(fn.Validate() == nil, "invalid function")
+
+	lk := reg.getLocker(add)
+	lk.Lock()
+	defer lk.Unlock()
+
+	name := fn.Name()
+	if !reg.canAddFuncName(name, allowOverwrite) {
+		return false
+	}
+
+	if add {
+		reg.nameToFunction[name] = fn
+	}
+	return true
+}
+
+func (reg *funcRegistry) doAddAlias(target, source string, add bool) bool {
+	// source name must exist in the registry or the parent
+	// check outside the mutex, in case GetFunction has a mutex
+	// acquisition
+	fn, ok := reg.GetFunction(source)
+	if !ok {
+		return false
+	}
+
+	lk := reg.getLocker(add)
+	lk.Lock()
+	defer lk.Unlock()
+
+	if !reg.canAddFuncName(target, false) {
+		return false
+	}
+
+	if add {
+		reg.nameToFunction[target] = fn
+	}
+	return true
+}
diff --git a/go/arrow/compute/registry_test.go b/go/arrow/compute/registry_test.go
new file mode 100644
index 00000000000..4160dbbd6f3
--- /dev/null
+++ b/go/arrow/compute/registry_test.go
@@ -0,0 +1,182 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute_test
+
+import (
+	"context"
+	"errors"
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/compute"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/stretchr/testify/assert"
+	"golang.org/x/exp/slices"
+)
+
+var registry compute.FunctionRegistry
+
+func init() {
+	// make tests fail if there's a problem initializing the global
+	// function registry
+	registry = compute.GetFunctionRegistry()
+}
+
+type mockFn struct {
+	name string
+}
+
+func (m *mockFn) Name() string           { return m.name }
+func (*mockFn) Kind() compute.FuncKind   { return compute.FuncScalar }
+func (*mockFn) Arity() compute.Arity     { return compute.Unary() }
+func (*mockFn) Doc() compute.FunctionDoc { return compute.EmptyFuncDoc }
+func (*mockFn) NumKernels() int          { return 0 }
+func (*mockFn) Execute(context.Context, compute.FunctionOptions, ...compute.Datum) (compute.Datum, error) {
+	return nil, errors.New("not implemented")
+}
+func (*mockFn) DefaultOptions() compute.FunctionOptions              { return nil }
+func (*mockFn) Validate() error                                      { return nil }
+func (*mockFn) DispatchExact(...arrow.DataType) (exec.Kernel, error) { return nil, nil }
+func (*mockFn) DispatchBest(...arrow.DataType) (exec.Kernel, error)  { return nil, nil }
+
+func TestRegistryBasics(t *testing.T) {
+	tests := []struct {
+		name          string
+		factory       func() compute.FunctionRegistry
+		nfuncs        int
+		expectedNames []string
+	}{
+		{"default", compute.NewRegistry, 0, []string{}},
+		{"nested", func() compute.FunctionRegistry {
+			return compute.NewChildRegistry(registry)
+		}, registry.NumFunctions(), registry.GetFunctionNames()},
+	}
+
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			registry := tt.factory()
+			assert.Equal(t, tt.nfuncs, registry.NumFunctions())
+
+			fn := &mockFn{name: "f1"}
+			assert.True(t, registry.AddFunction(fn, false))
+			assert.Equal(t, tt.nfuncs+1, registry.NumFunctions())
+
+			f1, ok := registry.GetFunction("f1")
+			assert.True(t, ok)
+			assert.Same(t, fn, f1)
+
+			// non-existent
+			_, ok = registry.GetFunction("f2")
+			assert.False(t, ok)
+
+			// name collision
+			f2 := &mockFn{name: "f1"}
+			assert.False(t, registry.AddFunction(f2, false))
+
+			// allow overwriting
+			assert.True(t, registry.AddFunction(f2, true))
+			f1, ok = registry.GetFunction("f1")
+			assert.True(t, ok)
+			assert.Same(t, f2, f1)
+
+			expected := append(tt.expectedNames, "f1")
+			slices.Sort(expected)
+			assert.Equal(t, expected, registry.GetFunctionNames())
+
+			// aliases
+			assert.False(t, registry.AddAlias("f33", "f3")) // doesn't exist
+			assert.True(t, registry.AddAlias("f11", "f1"))
+			f1, ok = registry.GetFunction("f11")
+			assert.True(t, ok)
+			assert.Same(t, f2, f1)
+		})
+	}
+}
+
+func TestRegistry(t *testing.T) {
+	defaultRegistry := registry
+	t.Run("RegisterTempFunctions", func(t *testing.T) {
+		const rounds = 3
+		for i := 0; i < rounds; i++ {
+			registry := compute.NewChildRegistry(registry)
+			for _, v := range []string{"f1", "f2"} {
+				fn := &mockFn{name: v}
+				assert.True(t, registry.CanAddFunction(fn, false))
+				assert.True(t, registry.AddFunction(fn, false))
+				assert.False(t, registry.CanAddFunction(fn, false))
+				assert.False(t, registry.AddFunction(fn, false))
+				assert.True(t, defaultRegistry.CanAddFunction(fn, false))
+			}
+		}
+	})
+
+	t.Run("RegisterTempAliases", func(t *testing.T) {
+		funcNames := defaultRegistry.GetFunctionNames()
+		const rounds = 3
+		for i := 0; i < rounds; i++ {
+			registry := compute.NewChildRegistry(registry)
+			for _, funcName := range funcNames {
+				alias := "alias_of_" + funcName
+				_, ok := registry.GetFunction(alias)
+				assert.False(t, ok)
+				assert.True(t, registry.CanAddAlias(alias, funcName))
+				assert.True(t, registry.AddAlias(alias, funcName))
+				_, ok = registry.GetFunction(alias)
+				assert.True(t, ok)
+				_, ok = defaultRegistry.GetFunction(funcName)
+				assert.True(t, ok)
+				_, ok = defaultRegistry.GetFunction(alias)
+				assert.False(t, ok)
+			}
+		}
+	})
+}
+
+func TestRegistryRegisterNestedFunction(t *testing.T) {
+	defaultRegistry := registry
+	func1 := &mockFn{name: "f1"}
+	func2 := &mockFn{name: "f2"}
+
+	const rounds = 3
+	for i := 0; i < rounds; i++ {
+		registry1 := compute.NewChildRegistry(defaultRegistry)
+
+		assert.True(t, registry1.CanAddFunction(func1, false))
+		assert.True(t, registry1.AddFunction(func1, false))
+		for j := 0; j < rounds; j++ {
+			registry2 := compute.NewChildRegistry(registry1)
+			assert.False(t, registry2.CanAddFunction(func1, false))
+			assert.False(t, registry2.AddFunction(func1, false))
+
+			assert.True(t, registry2.CanAddFunction(func2, false))
+			assert.True(t, registry2.AddFunction(func2, false))
+			assert.False(t, registry2.CanAddFunction(func2, false))
+			assert.False(t, registry2.AddFunction(func2, false))
+			assert.True(t, defaultRegistry.CanAddFunction(func2, false))
+
+			assert.False(t, registry2.CanAddAlias("f1", "f2"))
+			assert.False(t, registry2.AddAlias("f1", "f2"))
+			assert.False(t, registry2.AddAlias("f1", "f1"))
+		}
+		assert.False(t, registry1.CanAddFunction(func1, false))
+		assert.False(t, registry1.AddFunction(func1, false))
+		assert.True(t, registry1.CanAddAlias("f2", "f1"))
+		assert.True(t, defaultRegistry.CanAddFunction(func1, false))
+	}
+}
diff --git a/go/arrow/compute/scalar_bool.go b/go/arrow/compute/scalar_bool.go
new file mode 100644
index 00000000000..f72116bfc09
--- /dev/null
+++ b/go/arrow/compute/scalar_bool.go
@@ -0,0 +1,133 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute
+
+import (
+	"fmt"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/kernels"
+)
+
+var (
+	andDoc = FunctionDoc{
+		Summary:     "Logical 'and' boolean values",
+		Description: "When a null is encountered in either input, a null is output.\nFor a different null behavior, see function 'and_kleene'",
+		ArgNames:    []string{"x", "y"},
+	}
+	andNotDoc = FunctionDoc{
+		Summary:     "Logical 'and not' boolean values",
+		Description: "When a null is encountered in either input, a null is output.\nFor a different null behavior, see function 'and_not_kleene'",
+		ArgNames:    []string{"x", "y"},
+	}
+	orDoc = FunctionDoc{
+		Summary:     "Logical 'or' boolean values",
+		Description: "When a null is encountered in either input, a null is output.\nFor a different null behavior, see function 'or_kleene'",
+		ArgNames:    []string{"x", "y"},
+	}
+	xorDoc = FunctionDoc{
+		Summary:     "Logical 'xor' boolean values",
+		Description: "When a null is encountered in either input, a null is output.",
+		ArgNames:    []string{"x", "y"},
+	}
+	andKleeneDoc = FunctionDoc{
+		Summary: "Logical 'and' boolean values (Kleene logic)",
+		Description: `This function behaves as follows with nulls:
+		
+		- true and null = null
+		- null and true = null
+		- false and null = false
+		- null and false = false
+		- null and null = null
+		
+		In other words, in this context, a null value really means "unknown"
+		and an unknown value "and" false is always false.
+		For a different null behavior, see function "and".`,
+		ArgNames: []string{"x", "y"},
+	}
+	andNotKleeneDoc = FunctionDoc{
+		Summary: "Logical 'and_not' boolean values (Kleene logic)",
+		Description: `This function behaves as follows with nulls:
+		
+		- true and not null = null
+		- null and not false = null
+		- false and not null = false
+		- null and not true = false
+		- null and not null = null
+		
+		In other words, in this context, a null value really means "unknown"
+		and an unknown value "and not" true is always false, as is false
+		"and not" an unknown value.
+		For a different null behavior, see function "and_not".`,
+		ArgNames: []string{"x", "y"},
+	}
+	orKleeneDoc = FunctionDoc{
+		Summary: "Logical 'or' boolean values (Kleene logic)",
+		Description: `This function behaves as follows with nulls:
+		
+		- true or null = true
+		- null or true = true
+		- false or null = null
+		- null or false = null
+		- null or null = null
+		
+		In other words, in this context, a null value really means "unknown"
+		and an unknown value "or" true is always true.
+		For a different null behavior, see function "and".`,
+		ArgNames: []string{"x", "y"},
+	}
+)
+
+func makeFunction(reg FunctionRegistry, name string, arity int, ex exec.ArrayKernelExec, doc FunctionDoc, nulls exec.NullHandling) {
+	fn := NewScalarFunction(name, Arity{NArgs: arity}, doc)
+
+	inTypes := make([]exec.InputType, arity)
+	for i := range inTypes {
+		inTypes[i] = exec.NewExactInput(arrow.FixedWidthTypes.Boolean)
+	}
+
+	k := exec.NewScalarKernel(inTypes, exec.NewOutputType(arrow.FixedWidthTypes.Boolean), ex, nil)
+	k.NullHandling = nulls
+
+	if err := fn.AddKernel(k); err != nil {
+		panic(err)
+	}
+
+	if !reg.AddFunction(fn, false) {
+		panic(fmt.Errorf("function '%s' already exists", name))
+	}
+}
+
+func RegisterScalarBoolean(reg FunctionRegistry) {
+	makeFunction(reg, "and", 2, kernels.SimpleBinary[kernels.AndOpKernel],
+		andDoc, exec.NullIntersection)
+	makeFunction(reg, "and_not", 2, kernels.SimpleBinary[kernels.AndNotOpKernel],
+		andNotDoc, exec.NullIntersection)
+	makeFunction(reg, "or", 2, kernels.SimpleBinary[kernels.OrOpKernel],
+		orDoc, exec.NullIntersection)
+	makeFunction(reg, "xor", 2, kernels.SimpleBinary[kernels.XorOpKernel],
+		xorDoc, exec.NullIntersection)
+	makeFunction(reg, "and_kleene", 2, kernels.SimpleBinary[kernels.KleeneAndOpKernel],
+		andKleeneDoc, exec.NullComputedPrealloc)
+	makeFunction(reg, "and_not_kleene", 2, kernels.SimpleBinary[kernels.KleeneAndNotOpKernel],
+		andNotKleeneDoc, exec.NullComputedPrealloc)
+	makeFunction(reg, "or_kleene", 2, kernels.SimpleBinary[kernels.KleeneOrOpKernel],
+		orKleeneDoc, exec.NullComputedPrealloc)
+}
diff --git a/go/arrow/compute/scalar_bool_test.go b/go/arrow/compute/scalar_bool_test.go
new file mode 100644
index 00000000000..3aaf1d6ecc2
--- /dev/null
+++ b/go/arrow/compute/scalar_bool_test.go
@@ -0,0 +1,154 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute_test
+
+import (
+	"context"
+	"strings"
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/compute"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"github.com/stretchr/testify/require"
+)
+
+func checkScalarBinary(t *testing.T, fn string, left, right, expected compute.Datum, opts compute.FunctionOptions) {
+	checkScalar(t, fn, []compute.Datum{left, right}, expected, opts)
+}
+
+func checkBooleanScalarArrayBinary(t *testing.T, ctx context.Context, funcName string, array compute.Datum) {
+	mem := compute.GetAllocator(ctx)
+	for _, sc := range []scalar.Scalar{scalar.MakeNullScalar(arrow.FixedWidthTypes.Boolean), scalar.NewBooleanScalar(true), scalar.NewBooleanScalar(false)} {
+		constantArr, err := scalar.MakeArrayFromScalar(sc, int(array.Len()), mem)
+		defer constantArr.Release()
+
+		require.NoError(t, err)
+		expected, err := compute.CallFunction(ctx, funcName, nil, &compute.ArrayDatum{Value: constantArr.Data()}, array)
+		require.NoError(t, err)
+		defer expected.Release()
+
+		checkScalar(t, funcName, []compute.Datum{compute.NewDatum(sc), array}, expected, nil)
+
+		expected, err = compute.CallFunction(ctx, funcName, nil, array, &compute.ArrayDatum{Value: constantArr.Data()})
+		require.NoError(t, err)
+		defer expected.Release()
+		checkScalar(t, funcName, []compute.Datum{array, compute.NewDatum(sc)}, expected, nil)
+	}
+}
+
+func TestBooleanKernels(t *testing.T) {
+	tests := []struct {
+		fn           string
+		expectedJSON string
+		commutative  bool
+	}{
+		{"and", `[true, false, null, false, null, null]`, true},
+		{"or", `[true, true, null, false, null, null]`, true},
+		{"xor", `[false, true, null, false, null, null]`, true},
+		{"and_not", `[false, true, null, false, false, null, null, null, null]`, false},
+	}
+
+	for _, tt := range tests {
+		t.Run(tt.fn, func(t *testing.T) {
+			mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+			defer mem.AssertSize(t, 0)
+
+			var (
+				leftJSON  = `[true, true, true, false, false, null]`
+				rightJSON = `[true, false, null, false, null, null]`
+			)
+
+			if !tt.commutative {
+				leftJSON = `[true, true, true, false, false, false, null, null, null]`
+				rightJSON = `[true, false, null, true, false, null, true, false, null]`
+			}
+
+			left, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
+				strings.NewReader(leftJSON))
+			defer left.Release()
+			right, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
+				strings.NewReader(rightJSON))
+			defer right.Release()
+			exp, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(tt.expectedJSON))
+			defer exp.Release()
+
+			checkScalarBinary(t, tt.fn, &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()}, &compute.ArrayDatum{Value: exp.Data()}, nil)
+			ctx := compute.WithAllocator(context.Background(), mem)
+			checkBooleanScalarArrayBinary(t, ctx, tt.fn, &compute.ArrayDatum{Value: left.Data()})
+		})
+	}
+}
+
+func TestBooleanKleeneKernels(t *testing.T) {
+	tests := []struct {
+		fn           string
+		expectedJSON []string
+		commutative  bool
+	}{
+		{"and_kleene", []string{`[true, false, null, false, false, null]`, `[true, false, false, null, false]`, `[true, false, false, false]`}, true},
+		{"or_kleene", []string{`[true, true, true, false, null, null]`, `[true, true, false, true, null]`, `[true, true, false, true]`}, true},
+		{"and_not_kleene", []string{`[false, true, null, false, false, false, false, null, null]`, `[false, true, false, false]`}, false},
+	}
+
+	for _, tt := range tests {
+		t.Run(tt.fn, func(t *testing.T) {
+			var (
+				leftJSON  = make([]string, len(tt.expectedJSON))
+				rightJSON = make([]string, len(tt.expectedJSON))
+			)
+
+			if tt.commutative {
+				leftJSON[0] = `[true, true, true, false, false, null]`
+				rightJSON[0] = `[true, false, null, false, null, null]`
+				leftJSON[1] = `[true, true, false, null, null]`
+				rightJSON[1] = `[true, false, false, true, false]`
+				leftJSON[2] = `[true, true, false, true]`
+				rightJSON[2] = `[true, false, false, false]`
+			} else {
+				leftJSON[0] = `[true, true, true, false, false, false, null, null, null]`
+				rightJSON[0] = `[true, false, null, true, false, null, true, false, null]`
+				leftJSON[1] = `[true, true, false, false]`
+				rightJSON[1] = `[true, false, true, false]`
+			}
+
+			for i := range tt.expectedJSON {
+				func() {
+					mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+					defer mem.AssertSize(t, 0)
+
+					left, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
+						strings.NewReader(leftJSON[i]))
+					defer left.Release()
+					right, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
+						strings.NewReader(rightJSON[i]))
+					defer right.Release()
+					exp, _, _ := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(tt.expectedJSON[i]))
+					defer exp.Release()
+
+					checkScalarBinary(t, tt.fn, &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()}, &compute.ArrayDatum{Value: exp.Data()}, nil)
+					ctx := compute.WithAllocator(context.Background(), mem)
+					checkBooleanScalarArrayBinary(t, ctx, tt.fn, &compute.ArrayDatum{Value: left.Data()})
+				}()
+			}
+		})
+	}
+}
diff --git a/go/arrow/compute/scalar_compare.go b/go/arrow/compute/scalar_compare.go
new file mode 100644
index 00000000000..fec52ab7662
--- /dev/null
+++ b/go/arrow/compute/scalar_compare.go
@@ -0,0 +1,137 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute
+
+import (
+	"context"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/kernels"
+)
+
+type compareFunction struct {
+	ScalarFunction
+}
+
+func (fn *compareFunction) Execute(ctx context.Context, opt FunctionOptions, args ...Datum) (Datum, error) {
+	return execInternal(ctx, fn, opt, -1, args...)
+}
+
+func (fn *compareFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
+	if err := fn.checkArity(len(vals)); err != nil {
+		return nil, err
+	}
+
+	if hasDecimal(vals...) {
+		if err := castBinaryDecimalArgs(decPromoteAdd, vals...); err != nil {
+			return nil, err
+		}
+	}
+
+	if kn, err := fn.DispatchExact(vals...); err == nil {
+		return kn, nil
+	}
+
+	ensureDictionaryDecoded(vals...)
+	replaceNullWithOtherType(vals...)
+
+	if dt := commonNumeric(vals...); dt != nil {
+		replaceTypes(dt, vals...)
+	} else if dt := commonTemporal(vals...); dt != nil {
+		replaceTypes(dt, vals...)
+	} else if dt := commonBinary(vals...); dt != nil {
+		replaceTypes(dt, vals...)
+	}
+
+	return fn.DispatchExact(vals...)
+}
+
+type flippedData struct {
+	*kernels.CompareData
+
+	unflippedExec exec.ArrayKernelExec
+}
+
+func flippedCompare(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	kn := ctx.Kernel.(*exec.ScalarKernel)
+	knData := kn.Data.(*flippedData)
+
+	flippedBatch := exec.ExecSpan{
+		Len:    batch.Len,
+		Values: []exec.ExecValue{batch.Values[1], batch.Values[0]},
+	}
+	return knData.unflippedExec(ctx, &flippedBatch, out)
+}
+
+func makeFlippedCompare(name string, fn *compareFunction, doc FunctionDoc) *compareFunction {
+	flipped := &compareFunction{*NewScalarFunction(name, Binary(), doc)}
+	for _, k := range fn.kernels {
+		flippedKernel := k
+		if k.Data != nil {
+			cmpData := k.Data.(*kernels.CompareData)
+			flippedKernel.Data = &flippedData{CompareData: cmpData,
+				unflippedExec: k.ExecFn}
+		} else {
+			flippedKernel.Data = &flippedData{unflippedExec: k.ExecFn}
+		}
+		flippedKernel.ExecFn = flippedCompare
+		flipped.AddKernel(flippedKernel)
+	}
+	return flipped
+}
+
+func RegisterScalarComparisons(reg FunctionRegistry) {
+	eqFn := &compareFunction{*NewScalarFunction("equal", Binary(), EmptyFuncDoc)}
+	for _, k := range kernels.CompareKernels(kernels.CmpEQ) {
+		if err := eqFn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+	reg.AddFunction(eqFn, false)
+
+	neqFn := &compareFunction{*NewScalarFunction("not_equal", Binary(), EmptyFuncDoc)}
+	for _, k := range kernels.CompareKernels(kernels.CmpNE) {
+		if err := neqFn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+	reg.AddFunction(neqFn, false)
+
+	gtFn := &compareFunction{*NewScalarFunction("greater", Binary(), EmptyFuncDoc)}
+	for _, k := range kernels.CompareKernels(kernels.CmpGT) {
+		if err := gtFn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+	reg.AddFunction(gtFn, false)
+
+	gteFn := &compareFunction{*NewScalarFunction("greater_equal", Binary(), EmptyFuncDoc)}
+	for _, k := range kernels.CompareKernels(kernels.CmpGE) {
+		if err := gteFn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+	reg.AddFunction(gteFn, false)
+
+	ltFn := makeFlippedCompare("less", gtFn, EmptyFuncDoc)
+	reg.AddFunction(ltFn, false)
+	lteFn := makeFlippedCompare("less_equal", gteFn, EmptyFuncDoc)
+	reg.AddFunction(lteFn, false)
+}
diff --git a/go/arrow/compute/scalar_compare_test.go b/go/arrow/compute/scalar_compare_test.go
new file mode 100644
index 00000000000..7763c726edb
--- /dev/null
+++ b/go/arrow/compute/scalar_compare_test.go
@@ -0,0 +1,1489 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute_test
+
+import (
+	"context"
+	"fmt"
+	"strings"
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/kernels"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/gen"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
+	"github.com/stretchr/testify/suite"
+)
+
+type CompareSuite struct {
+	BinaryFuncTestSuite
+}
+
+func (c *CompareSuite) validateCompareDatum(op kernels.CompareOperator, lhs, rhs, expected compute.Datum) {
+	result, err := compute.CallFunction(c.ctx, op.String(), nil, lhs, rhs)
+	c.Require().NoError(err)
+	defer result.Release()
+
+	assertDatumsEqual(c.T(), expected, result, nil, nil)
+}
+
+func (c *CompareSuite) validateCompare(op kernels.CompareOperator, dt arrow.DataType, lhsStr, rhsStr, expStr string) {
+	lhs, _, err := array.FromJSON(c.mem, dt, strings.NewReader(lhsStr), array.WithUseNumber())
+	c.Require().NoError(err)
+	rhs, _, err := array.FromJSON(c.mem, dt, strings.NewReader(rhsStr), array.WithUseNumber())
+	c.Require().NoError(err)
+	exp, _, err := array.FromJSON(c.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(expStr), array.WithUseNumber())
+	c.Require().NoError(err)
+	defer func() {
+		lhs.Release()
+		rhs.Release()
+		exp.Release()
+	}()
+	c.validateCompareDatum(op, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()}, &compute.ArrayDatum{exp.Data()})
+}
+
+func (c *CompareSuite) validateCompareArrScalar(op kernels.CompareOperator, dt arrow.DataType, lhsStr string, rhs compute.Datum, expStr string) {
+	lhs, _, err := array.FromJSON(c.mem, dt, strings.NewReader(lhsStr), array.WithUseNumber())
+	c.Require().NoError(err)
+	exp, _, err := array.FromJSON(c.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(expStr), array.WithUseNumber())
+	c.Require().NoError(err)
+	defer func() {
+		lhs.Release()
+		exp.Release()
+	}()
+	c.validateCompareDatum(op, &compute.ArrayDatum{lhs.Data()}, rhs, &compute.ArrayDatum{exp.Data()})
+}
+
+func (c *CompareSuite) validateCompareScalarArr(op kernels.CompareOperator, dt arrow.DataType, lhs compute.Datum, rhsStr string, expStr string) {
+	rhs, _, err := array.FromJSON(c.mem, dt, strings.NewReader(rhsStr), array.WithUseNumber())
+	c.Require().NoError(err)
+	exp, _, err := array.FromJSON(c.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(expStr), array.WithUseNumber())
+	c.Require().NoError(err)
+	defer func() {
+		rhs.Release()
+		exp.Release()
+	}()
+	c.validateCompareDatum(op, lhs, &compute.ArrayDatum{rhs.Data()}, &compute.ArrayDatum{exp.Data()})
+}
+
+func slowCompare[T exec.NumericTypes | string](op kernels.CompareOperator, lhs, rhs T) bool {
+	switch op {
+	case kernels.CmpEQ:
+		return lhs == rhs
+	case kernels.CmpNE:
+		return lhs != rhs
+	case kernels.CmpLT:
+		return lhs < rhs
+	case kernels.CmpLE:
+		return lhs <= rhs
+	case kernels.CmpGT:
+		return lhs > rhs
+	case kernels.CmpGE:
+		return lhs >= rhs
+	default:
+		return false
+	}
+}
+
+// func simpleScalarArrayCompare[T exec.NumericTypes](mem memory.Allocator, op kernels.CompareOperator, lhs, rhs compute.Datum) compute.Datum {
+// 	var (
+// 		swap  = lhs.Kind() == compute.KindArray
+// 		span  exec.ArraySpan
+// 		itr   exec.ArrayIter[T]
+// 		value T
+// 	)
+
+// 	if swap {
+// 		span.SetMembers(lhs.(*compute.ArrayDatum).Value)
+// 		itr = exec.NewPrimitiveIter[T](&span)
+// 		value = kernels.UnboxScalar[T](rhs.(*compute.ScalarDatum).Value.(scalar.PrimitiveScalar))
+// 	} else {
+// 		span.SetMembers(rhs.(*compute.ArrayDatum).Value)
+// 		itr = exec.NewPrimitiveIter[T](&span)
+// 		value = kernels.UnboxScalar[T](lhs.(*compute.ScalarDatum).Value.(scalar.PrimitiveScalar))
+// 	}
+
+// 	bitmap := make([]bool, span.Len)
+// 	for i := 0; i < int(span.Len); i++ {
+// 		if swap {
+// 			bitmap[i] = slowCompare(op, itr.Next(), value)
+// 		} else {
+// 			bitmap[i] = slowCompare(op, value, itr.Next())
+// 		}
+// 	}
+
+// 	var result arrow.Array
+// 	if span.Nulls == 0 {
+// 		result = exec.ArrayFromSlice(mem, bitmap)
+// 	} else {
+// 		nullBitmap := make([]bool, span.Len)
+// 		rdr := bitutil.NewBitmapReader(span.Buffers[0].Buf, int(span.Offset), int(span.Len))
+// 		for i := 0; i < int(span.Len); i++ {
+// 			nullBitmap[i] = rdr.Set()
+// 			rdr.Next()
+// 		}
+// 		bldr := array.NewBooleanBuilder(mem)
+// 		defer bldr.Release()
+
+// 		bldr.AppendValues(bitmap, nullBitmap)
+// 		result = bldr.NewArray()
+// 	}
+
+// 	defer result.Release()
+// 	return compute.NewDatum(result)
+// }
+
+func simpleScalarArrayCompareString(mem memory.Allocator, op kernels.CompareOperator, lhs, rhs compute.Datum) compute.Datum {
+	var (
+		swap  = lhs.Kind() == compute.KindArray
+		value string
+		arr   *array.String
+	)
+
+	if swap {
+		arr = lhs.(*compute.ArrayDatum).MakeArray().(*array.String)
+		defer arr.Release()
+		value = string(rhs.(*compute.ScalarDatum).Value.(*scalar.String).Data())
+	} else {
+		arr = rhs.(*compute.ArrayDatum).MakeArray().(*array.String)
+		defer arr.Release()
+		value = string(lhs.(*compute.ScalarDatum).Value.(*scalar.String).Data())
+	}
+
+	bitmap := make([]bool, arr.Len())
+	for i := 0; i < arr.Len(); i++ {
+		if swap {
+			bitmap[i] = slowCompare(op, arr.Value(i), value)
+		} else {
+			bitmap[i] = slowCompare(op, value, arr.Value(i))
+		}
+	}
+
+	var result arrow.Array
+	if arr.NullN() == 0 {
+		result = exec.ArrayFromSlice(mem, bitmap)
+	} else {
+		nullBitmap := make([]bool, arr.Len())
+		rdr := bitutil.NewBitmapReader(arr.NullBitmapBytes(), arr.Offset(), arr.Len())
+		for i := 0; i < arr.Len(); i++ {
+			nullBitmap[i] = rdr.Set()
+			rdr.Next()
+		}
+		bldr := array.NewBooleanBuilder(mem)
+		defer bldr.Release()
+
+		bldr.AppendValues(bitmap, nullBitmap)
+		result = bldr.NewArray()
+	}
+
+	defer result.Release()
+	return compute.NewDatum(result)
+}
+
+func nullBitmapFromArrays(lhs, rhs arrow.Array) []bool {
+	nullBitmap := make([]bool, lhs.Len())
+
+	left := func(i int) bool {
+		if lhs.NullN() == 0 {
+			return true
+		}
+		return lhs.IsValid(i)
+	}
+
+	right := func(i int) bool {
+		if rhs.NullN() == 0 {
+			return true
+		}
+		return rhs.IsValid(i)
+	}
+
+	for i := 0; i < lhs.Len(); i++ {
+		nullBitmap[i] = left(i) && right(i)
+	}
+	return nullBitmap
+}
+
+type valuer[T any] interface {
+	Value(int) T
+}
+
+func simpleArrArrCompare[T exec.NumericTypes | string](mem memory.Allocator, op kernels.CompareOperator, lhs, rhs compute.Datum) compute.Datum {
+	var (
+		lArr   = lhs.(*compute.ArrayDatum).MakeArray()
+		rArr   = rhs.(*compute.ArrayDatum).MakeArray()
+		length = lArr.Len()
+		bitmap = make([]bool, length)
+
+		lvals = lArr.(valuer[T])
+		rvals = rArr.(valuer[T])
+	)
+	defer lArr.Release()
+	defer rArr.Release()
+
+	for i := 0; i < length; i++ {
+		bitmap[i] = slowCompare(op, lvals.Value(i), rvals.Value(i))
+	}
+
+	var result arrow.Array
+	if lArr.NullN() == 0 && rArr.NullN() == 0 {
+		result = exec.ArrayFromSlice(mem, bitmap)
+	} else {
+		nullBitmap := nullBitmapFromArrays(lArr, rArr)
+		bldr := array.NewBooleanBuilder(mem)
+		defer bldr.Release()
+
+		bldr.AppendValues(bitmap, nullBitmap)
+		result = bldr.NewArray()
+	}
+
+	defer result.Release()
+	return compute.NewDatum(result)
+}
+
+type NumericCompareSuite[T exec.NumericTypes] struct {
+	CompareSuite
+}
+
+// func (n *NumericCompareSuite[T]) validateCompareComputed(op kernels.CompareOperator, lhs, rhs compute.Datum) {
+// 	var expected compute.Datum
+
+// 	hasScalar := lhs.Kind() == compute.KindScalar || rhs.Kind() == compute.KindScalar
+// 	if hasScalar {
+// 		expected = simpleScalarArrayCompare[T](n.mem, op, lhs, rhs)
+// 	} else {
+// 		expected = simpleArrArrCompare[T](n.mem, op, lhs, rhs)
+// 	}
+
+// 	defer expected.Release()
+// 	n.CompareSuite.validateCompareDatum(op, lhs, rhs, expected)
+// }
+
+func (n *NumericCompareSuite[T]) TestSimpleCompareArrayScalar() {
+	dt := exec.GetDataType[T]()
+	one := compute.NewDatum(scalar.MakeScalar(T(1)))
+
+	n.Run(dt.String(), func() {
+		op := kernels.CmpEQ
+		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
+		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
+		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
+			`[false, false, true, true, false, false]`)
+		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
+			`[false, true, false, false, false, false]`)
+		n.validateCompareArrScalar(op, dt, `[5, 4, 3, 2, 1, 0]`, one,
+			`[false, false, false, false, true, false]`)
+		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
+			`[null, false, true, true]`)
+
+		op = kernels.CmpNE
+		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
+		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
+		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
+			`[true, true, false, false, true, true]`)
+		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
+			`[true, false, true, true, true, true]`)
+		n.validateCompareArrScalar(op, dt, `[5, 4, 3, 2, 1, 0]`, one,
+			`[true, true, true, true, false, true]`)
+		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
+			`[null, true, false, false]`)
+
+		op = kernels.CmpGT
+		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
+		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
+		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
+			`[false, false, false, false, true, true]`)
+		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
+			`[false, false, true, true, true, true]`)
+		n.validateCompareArrScalar(op, dt, `[4, 5, 6, 7, 8, 9]`, one,
+			`[true, true, true, true, true, true]`)
+		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
+			`[null, false, false, false]`)
+
+		op = kernels.CmpGE
+		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
+		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
+		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
+			`[false, false, true, true, true, true]`)
+		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
+			`[false, true, true, true, true, true]`)
+		n.validateCompareArrScalar(op, dt, `[4, 5, 6, 7, 8, 9]`, one,
+			`[true, true, true, true, true, true]`)
+		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
+			`[null, false, true, true]`)
+
+		op = kernels.CmpLT
+		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
+		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
+		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
+			`[true, true, false, false, false, false]`)
+		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
+			`[true, false, false, false, false, false]`)
+		n.validateCompareArrScalar(op, dt, `[4, 5, 6, 7, 8, 9]`, one,
+			`[false, false, false, false, false, false]`)
+		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
+			`[null, true, false, false]`)
+
+		op = kernels.CmpLE
+		n.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
+		n.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
+		n.validateCompareArrScalar(op, dt, `[0, 0, 1, 1, 2, 2]`, one,
+			`[true, true, true, true, false, false]`)
+		n.validateCompareArrScalar(op, dt, `[0, 1, 2, 3, 4, 5]`, one,
+			`[true, true, false, false, false, false]`)
+		n.validateCompareArrScalar(op, dt, `[4, 5, 6, 7, 8, 9]`, one,
+			`[false, false, false, false, false, false]`)
+		n.validateCompareArrScalar(op, dt, `[null, 0, 1, 1]`, one,
+			`[null, true, true, true]`)
+	})
+}
+
+func (n *NumericCompareSuite[T]) TestSimpleCompareScalarArray() {
+	dt := exec.GetDataType[T]()
+	one := compute.NewDatum(scalar.MakeScalar(T(1)))
+
+	n.Run(dt.String(), func() {
+		op := kernels.CmpEQ
+		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
+		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
+		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
+			`[false, false, true, true, false, false]`)
+		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
+			`[false, true, false, false, false, false]`)
+		n.validateCompareScalarArr(op, dt, one, `[5, 4, 3, 2, 1, 0]`,
+			`[false, false, false, false, true, false]`)
+		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
+			`[null, false, true, true]`)
+
+		op = kernels.CmpNE
+		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
+		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
+		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
+			`[true, true, false, false, true, true]`)
+		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
+			`[true, false, true, true, true, true]`)
+		n.validateCompareScalarArr(op, dt, one, `[5, 4, 3, 2, 1, 0]`,
+			`[true, true, true, true, false, true]`)
+		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
+			`[null, true, false, false]`)
+
+		op = kernels.CmpGT
+		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
+		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
+		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
+			`[true, true, false, false, false, false]`)
+		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
+			`[true, false, false, false, false, false]`)
+		n.validateCompareScalarArr(op, dt, one, `[4, 5, 6, 7, 8, 9]`,
+			`[false, false, false, false, false, false]`)
+		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
+			`[null, true, false, false]`)
+
+		op = kernels.CmpGE
+		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
+		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
+		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
+			`[true, true, true, true, false, false]`)
+		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
+			`[true, true, false, false, false, false]`)
+		n.validateCompareScalarArr(op, dt, one, `[4, 5, 6, 7, 8, 9]`,
+			`[false, false, false, false, false, false]`)
+		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
+			`[null, true, true, true]`)
+
+		op = kernels.CmpLT
+		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
+		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
+		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
+			`[false, false, false, false, true, true]`)
+		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
+			`[false, false, true, true, true, true]`)
+		n.validateCompareScalarArr(op, dt, one, `[4, 5, 6, 7, 8, 9]`,
+			`[true, true, true, true, true, true]`)
+		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
+			`[null, false, false, false]`)
+
+		op = kernels.CmpLE
+		n.validateCompareScalarArr(op, dt, one, `[]`, `[]`)
+		n.validateCompareScalarArr(op, dt, one, `[null]`, `[null]`)
+		n.validateCompareScalarArr(op, dt, one, `[0, 0, 1, 1, 2, 2]`,
+			`[false, false, true, true, true, true]`)
+		n.validateCompareScalarArr(op, dt, one, `[0, 1, 2, 3, 4, 5]`,
+			`[false, true, true, true, true, true]`)
+		n.validateCompareScalarArr(op, dt, one, `[4, 5, 6, 7, 8, 9]`,
+			`[true, true, true, true, true, true]`)
+		n.validateCompareScalarArr(op, dt, one, `[null, 0, 1, 1]`,
+			`[null, false, true, true]`)
+	})
+}
+
+func (n *NumericCompareSuite[T]) TestNullScalar() {
+	dt := exec.GetDataType[T]()
+	null := compute.NewDatum(scalar.MakeNullScalar(dt))
+
+	n.Run(dt.String(), func() {
+		n.validateCompareArrScalar(kernels.CmpEQ, dt, `[]`, null, `[]`)
+		n.validateCompareScalarArr(kernels.CmpEQ, dt, null, `[]`, `[]`)
+		n.validateCompareArrScalar(kernels.CmpEQ, dt, `[null]`, null, `[null]`)
+		n.validateCompareScalarArr(kernels.CmpEQ, dt, null, `[null]`, `[null]`)
+		n.validateCompareScalarArr(kernels.CmpEQ, dt, null, `[1, 2, 3]`, `[null, null, null]`)
+	})
+}
+
+func (n *NumericCompareSuite[T]) TestSimpleCompareArrArr() {
+	dt := exec.GetDataType[T]()
+
+	n.Run(dt.String(), func() {
+		n.validateCompare(kernels.CmpEQ, dt, `[]`, `[]`, `[]`)
+		n.validateCompare(kernels.CmpEQ, dt, `[null]`, `[null]`, `[null]`)
+		n.validateCompare(kernels.CmpEQ, dt, `[1]`, `[1]`, `[true]`)
+		n.validateCompare(kernels.CmpEQ, dt, `[1]`, `[2]`, `[false]`)
+		n.validateCompare(kernels.CmpEQ, dt, `[null]`, `[1]`, `[null]`)
+		n.validateCompare(kernels.CmpEQ, dt, `[1]`, `[null]`, `[null]`)
+
+		n.validateCompare(kernels.CmpLE, dt, `[1, 2, 3, 4, 5]`, `[2, 3, 4, 5, 6]`, `[true, true, true, true, true]`)
+	})
+}
+
+type CompareTimestampSuite struct {
+	CompareSuite
+}
+
+func (c *CompareTimestampSuite) TestBasics() {
+	var (
+		example1JSON = `["1970-01-01", "2000-02-29", "1900-02-28"]`
+		example2JSON = `["1970-01-02", "2000-02-01", "1900-02-28"]`
+	)
+
+	checkCase := func(dt arrow.DataType, op kernels.CompareOperator, expected string) {
+		c.validateCompare(op, dt, example1JSON, example2JSON, expected)
+	}
+
+	seconds := arrow.FixedWidthTypes.Timestamp_s
+	millis := arrow.FixedWidthTypes.Timestamp_ms
+	micro := arrow.FixedWidthTypes.Timestamp_us
+	nano := arrow.FixedWidthTypes.Timestamp_ns
+
+	checkCase(seconds, kernels.CmpEQ, `[false, false, true]`)
+	checkCase(millis, kernels.CmpEQ, `[false, false, true]`)
+	checkCase(micro, kernels.CmpEQ, `[false, false, true]`)
+	checkCase(nano, kernels.CmpEQ, `[false, false, true]`)
+
+	checkCase(seconds, kernels.CmpNE, `[true, true, false]`)
+	checkCase(millis, kernels.CmpNE, `[true, true, false]`)
+	checkCase(micro, kernels.CmpNE, `[true, true, false]`)
+	checkCase(nano, kernels.CmpNE, `[true, true, false]`)
+
+	checkCase(seconds, kernels.CmpLT, `[true, false, false]`)
+	checkCase(seconds, kernels.CmpLE, `[true, false, true]`)
+	checkCase(seconds, kernels.CmpGT, `[false, true, false]`)
+	checkCase(seconds, kernels.CmpGE, `[false, true, true]`)
+
+	secondsUTC := &arrow.TimestampType{Unit: arrow.Second, TimeZone: "utc"}
+	checkCase(secondsUTC, kernels.CmpEQ, `[false, false, true]`)
+}
+
+func (c *CompareTimestampSuite) TestDiffParams() {
+	cases := []struct {
+		fn  string
+		exp string
+	}{
+		{"equal", `[false, false, true]`},
+		{"not_equal", `[true, true, false]`},
+		{"less", `[true, false, false]`},
+		{"less_equal", `[true, false, true]`},
+		{"greater", `[false, true, false]`},
+		{"greater_equal", `[false, true, true]`},
+	}
+
+	const lhsJSON = `["1970-01-01", "2000-02-29", "1900-02-28"]`
+	const rhsJSON = `["1970-01-02", "2000-02-01", "1900-02-28"]`
+
+	for _, op := range cases {
+		c.Run(op.fn, func() {
+			exp := c.getArr(arrow.FixedWidthTypes.Boolean, op.exp)
+			defer exp.Release()
+
+			expected := &compute.ArrayDatum{exp.Data()}
+			c.Run("diff units", func() {
+				lhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second}, lhsJSON)
+				defer lhs.Release()
+				rhs := c.getArr(&arrow.TimestampType{Unit: arrow.Millisecond}, rhsJSON)
+				defer rhs.Release()
+
+				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()}, expected, nil)
+			})
+			c.Run("diff time zones", func() {
+				lhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/New_York"}, lhsJSON)
+				defer lhs.Release()
+				rhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}, rhsJSON)
+				defer rhs.Release()
+
+				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()}, expected, nil)
+			})
+			c.Run("native to zoned", func() {
+				lhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second}, lhsJSON)
+				defer lhs.Release()
+				rhs := c.getArr(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/Phoenix"}, rhsJSON)
+				defer rhs.Release()
+
+				_, err := compute.CallFunction(c.ctx, op.fn, nil, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()})
+				c.ErrorIs(err, arrow.ErrInvalid)
+				c.ErrorContains(err, "cannot compare timestamp with timezone to timestamp without timezone")
+
+				lhs = c.getArr(&arrow.TimestampType{Unit: arrow.Second, TimeZone: "America/New_York"}, lhsJSON)
+				defer lhs.Release()
+				rhs = c.getArr(&arrow.TimestampType{Unit: arrow.Second}, rhsJSON)
+				defer rhs.Release()
+
+				_, err = compute.CallFunction(c.ctx, op.fn, nil, &compute.ArrayDatum{lhs.Data()}, &compute.ArrayDatum{rhs.Data()})
+				c.ErrorIs(err, arrow.ErrInvalid)
+				c.ErrorContains(err, "cannot compare timestamp with timezone to timestamp without timezone")
+			})
+		})
+	}
+}
+
+func (c *CompareTimestampSuite) TestScalarArray() {
+	const scalarStr = "1970-01-02"
+	const arrayJSON = `["1970-01-02", "2000-02-01", null, "1900-02-28"]`
+
+	checkArrCase := func(scType, arrayType arrow.DataType, op kernels.CompareOperator, expectedJSON, flipExpectedJSON string) {
+		scalarSide, err := scalar.MakeScalarParam(scalarStr, scType)
+		c.Require().NoError(err)
+		arraySide := c.getArr(arrayType, arrayJSON)
+		defer arraySide.Release()
+
+		expected := c.getArr(arrow.FixedWidthTypes.Boolean, expectedJSON)
+		defer expected.Release()
+		flipExpected := c.getArr(arrow.FixedWidthTypes.Boolean, flipExpectedJSON)
+		defer flipExpected.Release()
+
+		cases := []struct{ side1, side2, expected compute.Datum }{
+			{compute.NewDatum(scalarSide), &compute.ArrayDatum{arraySide.Data()}, &compute.ArrayDatum{expected.Data()}},
+			{&compute.ArrayDatum{arraySide.Data()}, compute.NewDatum(scalarSide), &compute.ArrayDatum{flipExpected.Data()}},
+		}
+
+		for _, arrCase := range cases {
+			lhs, rhs := arrCase.side1, arrCase.side2
+			if arrow.TypeEqual(scType, arrayType) {
+				c.validateCompareDatum(op, lhs, rhs, arrCase.expected)
+			} else {
+				_, err := compute.CallFunction(c.ctx, op.String(), nil, lhs, rhs)
+				c.ErrorIs(err, arrow.ErrInvalid)
+				c.ErrorContains(err, "cannot compare timestamp with timezone to timestamp without timezone")
+			}
+		}
+	}
+
+	for _, unit := range arrow.TimeUnitValues {
+		c.Run(unit.String(), func() {
+			tests := []struct{ t0, t1 arrow.DataType }{
+				{&arrow.TimestampType{Unit: unit}, &arrow.TimestampType{Unit: unit}},
+				{&arrow.TimestampType{Unit: unit}, &arrow.TimestampType{Unit: unit, TimeZone: "utc"}},
+				{&arrow.TimestampType{Unit: unit, TimeZone: "utc"}, &arrow.TimestampType{Unit: unit}},
+				{&arrow.TimestampType{Unit: unit, TimeZone: "utc"}, &arrow.TimestampType{Unit: unit, TimeZone: "utc"}},
+			}
+			for _, tt := range tests {
+				checkArrCase(tt.t0, tt.t1, kernels.CmpEQ, `[true, false, null, false]`, `[true, false, null, false]`)
+				checkArrCase(tt.t0, tt.t1, kernels.CmpNE, `[false, true, null, true]`, `[false, true, null, true]`)
+				checkArrCase(tt.t0, tt.t1, kernels.CmpLT, `[false, true, null, false]`, `[false, false, null, true]`)
+				checkArrCase(tt.t0, tt.t1, kernels.CmpLE, `[true, true, null, false]`, `[true, false, null, true]`)
+				checkArrCase(tt.t0, tt.t1, kernels.CmpGT, `[false, false, null, true]`, `[false, true, null, false]`)
+				checkArrCase(tt.t0, tt.t1, kernels.CmpGE, `[true, false, null, true]`, `[true, true, null, false]`)
+			}
+		})
+	}
+}
+
+type CompareDecimalSuite struct {
+	CompareSuite
+}
+
+func (c *CompareDecimalSuite) TestArrayScalar() {
+	cases := []struct{ fn, exp string }{
+		{"equal", `[true, false, false, null]`},
+		{"not_equal", `[false, true, true, null]`},
+		{"less", `[false, false, true, null]`},
+		{"less_equal", `[true, false, true, null]`},
+		{"greater", `[false, true, false, null]`},
+		{"greater_equal", `[true, true, false, null]`},
+	}
+
+	for _, id := range []arrow.Type{arrow.DECIMAL128, arrow.DECIMAL256} {
+		c.Run(id.String(), func() {
+			ty, _ := arrow.NewDecimalType(id, 3, 2)
+
+			lhsArr := c.getArr(ty, `["1.23", "2.34", "-1.23", null]`)
+			lhsFloatArr := c.getArr(arrow.PrimitiveTypes.Float64, `[1.23, 2.34, -1.23, null]`)
+			lhsIntLikeArr := c.getArr(ty, `["1.00", "2.00", "-1.00", null]`)
+			defer func() {
+				lhsArr.Release()
+				lhsFloatArr.Release()
+				lhsIntLikeArr.Release()
+			}()
+
+			lhs := &compute.ArrayDatum{lhsArr.Data()}
+			lhsFloat := &compute.ArrayDatum{lhsFloatArr.Data()}
+			lhsIntLike := &compute.ArrayDatum{lhsIntLikeArr.Data()}
+
+			rhs, _ := scalar.MakeScalarParam("1.23", ty)
+			rhsFloat := scalar.MakeScalar(float64(1.23))
+			rhsInt := scalar.MakeScalar(int64(1))
+			for _, tc := range cases {
+				c.Run(tc.fn, func() {
+					exp := c.getArr(arrow.FixedWidthTypes.Boolean, tc.exp)
+					defer exp.Release()
+					expected := &compute.ArrayDatum{exp.Data()}
+
+					checkScalarBinary(c.T(), tc.fn, lhs, compute.NewDatum(rhs), expected, nil)
+					checkScalarBinary(c.T(), tc.fn, lhsFloat, compute.NewDatum(rhs), expected, nil)
+					checkScalarBinary(c.T(), tc.fn, lhs, compute.NewDatum(rhsFloat), expected, nil)
+					checkScalarBinary(c.T(), tc.fn, lhsIntLike, compute.NewDatum(rhsInt), expected, nil)
+				})
+			}
+		})
+	}
+}
+
+func (c *CompareDecimalSuite) TestScalarArray() {
+	cases := []struct{ fn, exp string }{
+		{"equal", `[true, false, false, null]`},
+		{"not_equal", `[false, true, true, null]`},
+		{"less", `[false, true, false, null]`},
+		{"less_equal", `[true, true, false, null]`},
+		{"greater", `[false, false, true, null]`},
+		{"greater_equal", `[true, false, true, null]`},
+	}
+
+	for _, id := range []arrow.Type{arrow.DECIMAL128, arrow.DECIMAL256} {
+		c.Run(id.String(), func() {
+			ty, _ := arrow.NewDecimalType(id, 3, 2)
+
+			rhsArr := c.getArr(ty, `["1.23", "2.34", "-1.23", null]`)
+			rhsFloatArr := c.getArr(arrow.PrimitiveTypes.Float64, `[1.23, 2.34, -1.23, null]`)
+			rhsIntLikeArr := c.getArr(ty, `["1.00", "2.00", "-1.00", null]`)
+			defer func() {
+				rhsArr.Release()
+				rhsFloatArr.Release()
+				rhsIntLikeArr.Release()
+			}()
+
+			rhs := &compute.ArrayDatum{rhsArr.Data()}
+			rhsFloat := &compute.ArrayDatum{rhsFloatArr.Data()}
+			rhsIntLike := &compute.ArrayDatum{rhsIntLikeArr.Data()}
+
+			lhs, _ := scalar.MakeScalarParam("1.23", ty)
+			lhsFloat := scalar.MakeScalar(float64(1.23))
+			lhsInt := scalar.MakeScalar(int64(1))
+			for _, tc := range cases {
+				c.Run(tc.fn, func() {
+					exp := c.getArr(arrow.FixedWidthTypes.Boolean, tc.exp)
+					defer exp.Release()
+					expected := &compute.ArrayDatum{exp.Data()}
+
+					checkScalarBinary(c.T(), tc.fn, compute.NewDatum(lhs), rhs, expected, nil)
+					checkScalarBinary(c.T(), tc.fn, compute.NewDatum(lhs), rhsFloat, expected, nil)
+					checkScalarBinary(c.T(), tc.fn, compute.NewDatum(lhsFloat), rhs, expected, nil)
+					checkScalarBinary(c.T(), tc.fn, compute.NewDatum(lhsInt), rhsIntLike, expected, nil)
+				})
+			}
+		})
+	}
+}
+
+func (c *CompareDecimalSuite) TestArrayArray() {
+	cases := []struct{ fn, exp string }{
+		{"equal", `[true, false, false, true, false, false, null, null]`},
+		{"not_equal", `[false, true, true, false, true, true, null, null]`},
+		{"less", `[false, true, false, false, true, false, null, null]`},
+		{"less_equal", `[true, true, false, true, true, false, null, null]`},
+		{"greater", `[false, false, true, false, false, true, null, null]`},
+		{"greater_equal", `[true, false, true, true, false, true, null, null]`},
+	}
+
+	for _, id := range []arrow.Type{arrow.DECIMAL128, arrow.DECIMAL256} {
+		c.Run(id.String(), func() {
+			ty, _ := arrow.NewDecimalType(id, 3, 2)
+
+			lhsArr := c.getArr(ty, `["1.23", "1.23", "2.34", "-1.23", "-1.23", "1.23", "1.23", null]`)
+			lhsFloatArr := c.getArr(arrow.PrimitiveTypes.Float64, `[1.23, 1.23, 2.34, -1.23, -1.23, 1.23, 1.23, null]`)
+			lhsIntLikeArr := c.getArr(ty, `["1.00", "1.00", "2.00", "-1.00", "-1.00", "1.00", "1.00", null]`)
+			defer func() {
+				lhsArr.Release()
+				lhsFloatArr.Release()
+				lhsIntLikeArr.Release()
+			}()
+
+			lhs := &compute.ArrayDatum{lhsArr.Data()}
+			lhsFloat := &compute.ArrayDatum{lhsFloatArr.Data()}
+			lhsIntLike := &compute.ArrayDatum{lhsIntLikeArr.Data()}
+
+			rhsArr := c.getArr(ty, `["1.23", "2.34", "1.23", "-1.23", "1.23", "-1.23", null, "1.23"]`)
+			rhsFloatArr := c.getArr(arrow.PrimitiveTypes.Float64, `[1.23, 2.34, 1.23, -1.23, 1.23, -1.23, null, 1.23]`)
+			rhsIntArr := c.getArr(arrow.PrimitiveTypes.Int64, `[1, 2, 1, -1, 1, -1, null, 1]`)
+			defer func() {
+				rhsArr.Release()
+				rhsFloatArr.Release()
+				rhsIntArr.Release()
+			}()
+
+			rhs := &compute.ArrayDatum{rhsArr.Data()}
+			rhsFloat := &compute.ArrayDatum{rhsFloatArr.Data()}
+			rhsInt := &compute.ArrayDatum{rhsIntArr.Data()}
+
+			empty := c.getArr(ty, `[]`)
+			emptyExp := c.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
+			null := c.getArr(ty, `[null]`)
+			nullExp := c.getArr(arrow.FixedWidthTypes.Boolean, `[null]`)
+			defer func() {
+				empty.Release()
+				emptyExp.Release()
+				null.Release()
+				nullExp.Release()
+			}()
+
+			for _, tc := range cases {
+				c.Run(tc.fn, func() {
+					exp := c.getArr(arrow.FixedWidthTypes.Boolean, tc.exp)
+					defer exp.Release()
+					expected := &compute.ArrayDatum{exp.Data()}
+
+					checkScalarBinary(c.T(), tc.fn, &compute.ArrayDatum{empty.Data()},
+						&compute.ArrayDatum{empty.Data()}, &compute.ArrayDatum{emptyExp.Data()}, nil)
+					checkScalarBinary(c.T(), tc.fn, &compute.ArrayDatum{null.Data()},
+						&compute.ArrayDatum{null.Data()}, &compute.ArrayDatum{nullExp.Data()}, nil)
+					checkScalarBinary(c.T(), tc.fn, lhs, rhs, expected, nil)
+					checkScalarBinary(c.T(), tc.fn, lhsFloat, rhs, expected, nil)
+					checkScalarBinary(c.T(), tc.fn, lhs, rhsFloat, expected, nil)
+					checkScalarBinary(c.T(), tc.fn, lhsIntLike, rhsInt, expected, nil)
+				})
+			}
+		})
+	}
+}
+
+func (c *CompareDecimalSuite) TestDiffParams() {
+	cases := []struct{ fn, exp string }{
+		{"equal", `[true, false, false, true, false, false]`},
+		{"not_equal", `[false, true, true, false, true, true]`},
+		{"less", `[false, true, false, false, true, false]`},
+		{"less_equal", `[true, true, false, true, true, false]`},
+		{"greater", `[false, false, true, false, false, true]`},
+		{"greater_equal", `[true, false, true, true, false, true]`},
+	}
+
+	for _, id := range []arrow.Type{arrow.DECIMAL128, arrow.DECIMAL256} {
+		c.Run(id.String(), func() {
+			ty1, _ := arrow.NewDecimalType(id, 3, 2)
+			ty2, _ := arrow.NewDecimalType(id, 4, 3)
+
+			lhsArr := c.getArr(ty1, `["1.23", "1.23", "2.34", "-1.23", "-1.23", "1.23"]`)
+			rhsArr := c.getArr(ty2, `["1.230", "2.340", "1.230", "-1.230", "1.230", "-1.230"]`)
+			defer func() {
+				lhsArr.Release()
+				rhsArr.Release()
+			}()
+
+			lhs := &compute.ArrayDatum{lhsArr.Data()}
+			rhs := &compute.ArrayDatum{rhsArr.Data()}
+
+			for _, tc := range cases {
+				c.Run(tc.fn, func() {
+					exp := c.getArr(arrow.FixedWidthTypes.Boolean, tc.exp)
+					defer exp.Release()
+					expected := &compute.ArrayDatum{exp.Data()}
+
+					checkScalarBinary(c.T(), tc.fn, lhs, rhs, expected, nil)
+				})
+			}
+		})
+	}
+}
+
+type CompareFixedSizeBinary struct {
+	CompareSuite
+}
+
+type fsbCompareCase struct {
+	lhsType, rhsType arrow.DataType
+	lhs, rhs         string
+	// index into cases[...].exp
+	resultIdx int
+}
+
+func (c *CompareFixedSizeBinary) TestArrayScalar() {
+	ty1 := &arrow.FixedSizeBinaryType{ByteWidth: 3}
+	ty2 := &arrow.FixedSizeBinaryType{ByteWidth: 1}
+
+	cases := []struct {
+		fn  string
+		exp []string
+	}{
+		{"equal", []string{
+			`[false, true, false, null]`,
+			`[false, false, false, null]`,
+			`[false, false, false, null]`}},
+		{"not_equal", []string{
+			`[true, false, true, null]`,
+			`[true, true, true, null]`,
+			`[true, true, true, null]`}},
+		{"less", []string{
+			`[true, false, false, null]`,
+			`[true, true, true, null]`,
+			`[true, false, false, null]`}},
+		{"less_equal", []string{
+			`[true, true, false, null]`,
+			`[true, true, true, null]`,
+			`[true, false, false, null]`}},
+		{"greater", []string{
+			`[false, false, true, null]`,
+			`[false, false, false, null]`,
+			`[false, true, true, null]`}},
+		{"greater_equal", []string{
+			`[false, true, true, null]`,
+			`[false, false, false, null]`,
+			`[false, true, true, null]`}},
+	}
+
+	// base64 encoding
+	const (
+		valAba = `YWJh`
+		valAbc = `YWJj`
+		valAbd = `YWJk`
+		valA   = `YQ`
+		valB   = `Yg`
+		valC   = `Yw`
+	)
+
+	const (
+		lhs1bin = `["` + valAba + `","` + valAbc + `","` + valAbd + `", null]`
+		lhs1    = `["aba", "abc", "abd", null]`
+		rhs1    = "abc"
+		lhs2bin = `["` + valA + `","` + valB + `","` + valC + `", null]`
+		lhs2    = `["a", "b", "c", null]`
+		rhs2    = "b"
+	)
+
+	types := []fsbCompareCase{
+		{ty1, ty1, lhs1bin, rhs1, 0},
+		{ty2, ty2, lhs2bin, rhs2, 0},
+		{ty1, ty2, lhs1bin, rhs2, 1},
+		{ty2, ty1, lhs2bin, rhs1, 2},
+		{ty1, arrow.BinaryTypes.Binary, lhs1bin, rhs1, 0},
+		{arrow.BinaryTypes.Binary, ty1, lhs1bin, rhs1, 0},
+		{ty1, arrow.BinaryTypes.LargeBinary, lhs1bin, rhs1, 0},
+		{arrow.BinaryTypes.LargeBinary, ty1, lhs1bin, rhs1, 0},
+		{ty1, arrow.BinaryTypes.String, lhs1bin, rhs1, 0},
+		{arrow.BinaryTypes.String, ty1, lhs1, rhs1, 0},
+		{ty1, arrow.BinaryTypes.LargeString, lhs1bin, rhs1, 0},
+		{arrow.BinaryTypes.LargeString, ty1, lhs1, rhs1, 0},
+	}
+
+	expNull := c.getArr(arrow.FixedWidthTypes.Boolean, `[null]`)
+	defer expNull.Release()
+
+	for _, op := range cases {
+		c.Run(op.fn, func() {
+			for _, tc := range types {
+				lhs := c.getArr(tc.lhsType, tc.lhs)
+				defer lhs.Release()
+				rhs, _ := scalar.MakeScalarParam(tc.rhs, tc.rhsType)
+				exp := c.getArr(arrow.FixedWidthTypes.Boolean, op.exp[tc.resultIdx])
+				defer exp.Release()
+
+				expected := &compute.ArrayDatum{exp.Data()}
+
+				null := c.getArr(tc.lhsType, `[null]`)
+				defer null.Release()
+				scNull := scalar.MakeNullScalar(tc.rhsType)
+
+				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{null.Data()}, compute.NewDatum(scNull),
+					&compute.ArrayDatum{expNull.Data()}, nil)
+				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhs.Data()},
+					compute.NewDatum(rhs), expected, nil)
+			}
+		})
+	}
+}
+
+func (c *CompareFixedSizeBinary) TestScalarArray() {
+	ty1 := &arrow.FixedSizeBinaryType{ByteWidth: 3}
+	ty2 := &arrow.FixedSizeBinaryType{ByteWidth: 1}
+
+	cases := []struct {
+		fn  string
+		exp []string
+	}{
+		{"equal", []string{
+			`[false, true, false, null]`,
+			`[false, false, false, null]`,
+			`[false, false, false, null]`}},
+		{"not_equal", []string{
+			`[true, false, true, null]`,
+			`[true, true, true, null]`,
+			`[true, true, true, null]`}},
+		{"less", []string{
+			`[false, false, true, null]`,
+			`[false, true, true, null]`,
+			`[false, false, false, null]`}},
+		{"less_equal", []string{
+			`[false, true, true, null]`,
+			`[false, true, true, null]`,
+			`[false, false, false, null]`}},
+		{"greater", []string{
+			`[true, false, false, null]`,
+			`[true, false, false, null]`,
+			`[true, true, true, null]`}},
+		{"greater_equal", []string{
+			`[true, true, false, null]`,
+			`[true, false, false, null]`,
+			`[true, true, true, null]`}},
+	}
+
+	// base64 encoding
+	const (
+		valAba = `YWJh`
+		valAbc = `YWJj`
+		valAbd = `YWJk`
+		valA   = `YQ`
+		valB   = `Yg`
+		valC   = `Yw`
+	)
+
+	const (
+		lhs1    = "abc"
+		rhs1bin = `["` + valAba + `","` + valAbc + `","` + valAbd + `", null]`
+		rhs1    = `["aba", "abc", "abd", null]`
+		lhs2    = "b"
+		rhs2bin = `["` + valA + `","` + valB + `","` + valC + `", null]`
+		rhs2    = `["a", "b", "c", null]`
+	)
+
+	types := []fsbCompareCase{
+		{ty1, ty1, lhs1, rhs1bin, 0},
+		{ty2, ty2, lhs2, rhs2bin, 0},
+		{ty1, ty2, lhs1, rhs2bin, 1},
+		{ty2, ty1, lhs2, rhs1bin, 2},
+		{ty1, arrow.BinaryTypes.Binary, lhs1, rhs1bin, 0},
+		{arrow.BinaryTypes.Binary, ty1, lhs1, rhs1bin, 0},
+		{ty1, arrow.BinaryTypes.LargeBinary, lhs1, rhs1bin, 0},
+		{arrow.BinaryTypes.LargeBinary, ty1, lhs1, rhs1bin, 0},
+		{ty1, arrow.BinaryTypes.String, lhs1, rhs1, 0},
+		{arrow.BinaryTypes.String, ty1, lhs1, rhs1bin, 0},
+		{ty1, arrow.BinaryTypes.LargeString, lhs1, rhs1, 0},
+		{arrow.BinaryTypes.LargeString, ty1, lhs1, rhs1bin, 0},
+	}
+
+	expNull := c.getArr(arrow.FixedWidthTypes.Boolean, `[null]`)
+	defer expNull.Release()
+
+	for _, op := range cases {
+		c.Run(op.fn, func() {
+			for _, tc := range types {
+				lhs, _ := scalar.MakeScalarParam(tc.lhs, tc.lhsType)
+				rhs := c.getArr(tc.rhsType, tc.rhs)
+				defer rhs.Release()
+				exp := c.getArr(arrow.FixedWidthTypes.Boolean, op.exp[tc.resultIdx])
+				defer exp.Release()
+
+				expected := &compute.ArrayDatum{exp.Data()}
+
+				null := c.getArr(tc.rhsType, `[null]`)
+				defer null.Release()
+				scNull := scalar.MakeNullScalar(tc.lhsType)
+
+				checkScalarBinary(c.T(), op.fn, compute.NewDatum(scNull), &compute.ArrayDatum{null.Data()},
+					&compute.ArrayDatum{expNull.Data()}, nil)
+				checkScalarBinary(c.T(), op.fn, compute.NewDatum(lhs),
+					&compute.ArrayDatum{rhs.Data()}, expected, nil)
+			}
+		})
+	}
+}
+
+func (c *CompareFixedSizeBinary) TestArrayArray() {
+	ty1 := &arrow.FixedSizeBinaryType{ByteWidth: 3}
+	ty2 := &arrow.FixedSizeBinaryType{ByteWidth: 1}
+
+	cases := []struct {
+		fn  string
+		exp []string
+	}{
+		{"equal", []string{
+			`[true, false, false, null, null]`,
+			`[true, false, false, null, null]`,
+			`[true, false, false, null, null]`,
+			`[true, false, false, null, null]`,
+			`[false, false, false, null, null]`,
+			`[false, false, false, null, null]`}},
+		{"not_equal", []string{
+			`[false, true, true, null, null]`,
+			`[false, true, true, null, null]`,
+			`[false, true, true, null, null]`,
+			`[false, true, true, null, null]`,
+			`[true, true, true, null, null]`,
+			`[true, true, true, null, null]`}},
+		{"less", []string{
+			`[false, true, false, null, null]`,
+			`[false, false, true, null, null]`,
+			`[false, true, false, null, null]`,
+			`[false, false, true, null, null]`,
+			`[false, true, true, null, null]`,
+			`[true, true, false, null, null]`}},
+		{"less_equal", []string{
+			`[true, true, false, null, null]`,
+			`[true, false, true, null, null]`,
+			`[true, true, false, null, null]`,
+			`[true, false, true, null, null]`,
+			`[false, true, true, null, null]`,
+			`[true, true, false, null, null]`}},
+		{"greater", []string{
+			`[false, false, true, null, null]`,
+			`[false, true, false, null, null]`,
+			`[false, false, true, null, null]`,
+			`[false, true, false, null, null]`,
+			`[true, false, false, null, null]`,
+			`[false, false, true, null, null]`}},
+		{"greater_equal", []string{
+			`[true, false, true, null, null]`,
+			`[true, true, false, null, null]`,
+			`[true, false, true, null, null]`,
+			`[true, true, false, null, null]`,
+			`[true, false, false, null, null]`,
+			`[false, false, true, null, null]`}},
+	}
+
+	// base64 encoding
+	const (
+		valAba = `YWJh`
+		valAbc = `YWJj`
+		valAbd = `YWJk`
+		valA   = `YQ`
+		valB   = `Yg`
+		valC   = `Yw`
+		valD   = `ZA`
+	)
+
+	const (
+		lhs1bin = `["` + valAbc + `","` + valAbc + `","` + valAbd + `", null, "` + valAbc + `"]`
+		rhs1bin = `["` + valAbc + `","` + valAbd + `","` + valAbc + `","` + valAbc + `", null]`
+		lhs1    = `["abc", "abc", "abd", null, "abc"]`
+		rhs1    = `["abc", "abd", "abc", "abc", null]`
+		lhs2    = `["a", "a", "d", null, "a"]`
+		rhs2    = `["a", "d", "c", "a", null]`
+		lhs2bin = `["` + valA + `","` + valA + `","` + valD + `", null, "` + valA + `"]`
+		rhs2bin = `["` + valA + `","` + valD + `","` + valC + `","` + valA + `", null]`
+	)
+
+	types := []fsbCompareCase{
+		{ty1, ty1, lhs1bin, rhs1bin, 0},
+		{ty1, ty1, rhs1bin, lhs1bin, 1},
+		{ty2, ty2, lhs2bin, rhs2bin, 2},
+		{ty2, ty2, rhs2bin, lhs2bin, 3},
+		{ty1, ty2, lhs1bin, rhs2bin, 4},
+		{ty2, ty1, lhs2bin, rhs1bin, 5},
+		{ty1, arrow.BinaryTypes.Binary, lhs1bin, rhs1bin, 0},
+		{arrow.BinaryTypes.Binary, ty1, lhs1bin, rhs1bin, 0},
+		{ty1, arrow.BinaryTypes.LargeBinary, lhs1bin, rhs1bin, 0},
+		{arrow.BinaryTypes.LargeBinary, ty1, lhs1bin, rhs1bin, 0},
+		{ty1, arrow.BinaryTypes.String, lhs1bin, rhs1, 0},
+		{arrow.BinaryTypes.String, ty1, lhs1, rhs1bin, 0},
+		{ty1, arrow.BinaryTypes.LargeString, lhs1bin, rhs1, 0},
+		{arrow.BinaryTypes.LargeString, ty1, lhs1, rhs1bin, 0},
+	}
+
+	expEmpty := c.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
+	defer expEmpty.Release()
+	expNull := c.getArr(arrow.FixedWidthTypes.Boolean, `[null]`)
+	defer expNull.Release()
+
+	for _, op := range cases {
+		c.Run(op.fn, func() {
+			for _, tc := range types {
+				lhs := c.getArr(tc.lhsType, tc.lhs)
+				defer lhs.Release()
+				rhs := c.getArr(tc.rhsType, tc.rhs)
+				defer rhs.Release()
+				exp := c.getArr(arrow.FixedWidthTypes.Boolean, op.exp[tc.resultIdx])
+				defer exp.Release()
+
+				expected := &compute.ArrayDatum{exp.Data()}
+
+				lhsEmpty := c.getArr(tc.lhsType, `[]`)
+				defer lhsEmpty.Release()
+				rhsEmpty := c.getArr(tc.rhsType, `[]`)
+				defer rhsEmpty.Release()
+				lhsNull := c.getArr(tc.lhsType, `[null]`)
+				defer lhsNull.Release()
+				rhsNull := c.getArr(tc.rhsType, `[null]`)
+				defer rhsNull.Release()
+
+				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhsEmpty.Data()}, &compute.ArrayDatum{rhsEmpty.Data()},
+					&compute.ArrayDatum{expEmpty.Data()}, nil)
+				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhsNull.Data()}, &compute.ArrayDatum{rhsNull.Data()},
+					&compute.ArrayDatum{expNull.Data()}, nil)
+				checkScalarBinary(c.T(), op.fn, &compute.ArrayDatum{lhs.Data()},
+					&compute.ArrayDatum{rhs.Data()}, expected, nil)
+			}
+		})
+	}
+}
+
+type CompareStringSuite struct {
+	CompareSuite
+}
+
+func (c *CompareStringSuite) TestSimpleCompareArrayScalar() {
+	one := compute.NewDatum(scalar.MakeScalar("one"))
+
+	dt := arrow.BinaryTypes.String
+
+	op := kernels.CmpEQ
+	c.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
+	c.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
+	c.validateCompareArrScalar(op, dt, `["zero", "zero", "one", "one", "two", "two"]`, one,
+		`[false, false, true, true, false, false]`)
+	c.validateCompareArrScalar(op, dt, `["zero", "one", "two", "three", "four", "five"]`, one,
+		`[false, true, false, false, false, false]`)
+	c.validateCompareArrScalar(op, dt, `["five", "four", "three", "two", "one", "zero"]`, one,
+		`[false, false, false, false, true, false]`)
+	c.validateCompareArrScalar(op, dt, `[null, "zero", "one", "one"]`, one, `[null, false, true, true]`)
+
+	na := compute.NewDatum(scalar.MakeNullScalar(dt))
+	c.validateCompareArrScalar(op, dt, `[null, "zero", "one", "one"]`, na, `[null, null, null, null]`)
+	c.validateCompareScalarArr(op, dt, na, `[null, "zero", "one", "one"]`, `[null, null, null, null]`)
+
+	op = kernels.CmpNE
+	c.validateCompareArrScalar(op, dt, `[]`, one, `[]`)
+	c.validateCompareArrScalar(op, dt, `[null]`, one, `[null]`)
+	c.validateCompareArrScalar(op, dt, `["zero", "zero", "one", "one", "two", "two"]`, one,
+		`[true, true, false, false, true, true]`)
+	c.validateCompareArrScalar(op, dt, `["zero", "one", "two", "three", "four", "five"]`, one,
+		`[true, false, true, true, true, true]`)
+	c.validateCompareArrScalar(op, dt, `["five", "four", "three", "two", "one", "zero"]`, one,
+		`[true, true, true, true, false, true]`)
+	c.validateCompareArrScalar(op, dt, `[null, "zero", "one", "one"]`, one, `[null, true, false, false]`)
+}
+
+func (c *CompareStringSuite) validateCompareComputed(op kernels.CompareOperator, lhs, rhs compute.Datum) {
+	var expected compute.Datum
+
+	hasScalar := lhs.Kind() == compute.KindScalar || rhs.Kind() == compute.KindScalar
+	if hasScalar {
+		expected = simpleScalarArrayCompareString(c.mem, op, lhs, rhs)
+	} else {
+		expected = simpleArrArrCompare[string](c.mem, op, lhs, rhs)
+	}
+
+	defer expected.Release()
+	c.CompareSuite.validateCompareDatum(op, lhs, rhs, expected)
+}
+
+func (c *CompareStringSuite) TestRandomCompareArrayArray() {
+	rng := gen.NewRandomArrayGenerator(0x5416447, c.mem)
+	for i := 3; i < 5; i++ {
+		c.Run(fmt.Sprintf("len=%d", 1<<i), func() {
+			for _, nullProb := range []float64{0.0, 0.01, 0.1, 0.25, 0.5, 1.0} {
+				c.Run(fmt.Sprintf("nullprob=%0.2f", nullProb), func() {
+					for _, op := range []kernels.CompareOperator{kernels.CmpEQ, kernels.CmpNE} {
+						c.Run(op.String(), func() {
+							length := int64(1 << i)
+							lhs := rng.String(length<<i, 0, 16, nullProb)
+							defer lhs.Release()
+							rhs := rng.String(length<<i, 0, 16, nullProb)
+							defer rhs.Release()
+
+							c.validateCompareComputed(op,
+								&compute.ArrayDatum{lhs.Data()},
+								&compute.ArrayDatum{rhs.Data()})
+						})
+					}
+				})
+			}
+		})
+	}
+}
+
+func TestComparisons(t *testing.T) {
+	suite.Run(t, new(NumericCompareSuite[int8]))
+	suite.Run(t, new(NumericCompareSuite[int16]))
+	suite.Run(t, new(NumericCompareSuite[int32]))
+	suite.Run(t, new(NumericCompareSuite[int64]))
+	suite.Run(t, new(NumericCompareSuite[uint8]))
+	suite.Run(t, new(NumericCompareSuite[uint16]))
+	suite.Run(t, new(NumericCompareSuite[uint32]))
+	suite.Run(t, new(NumericCompareSuite[uint64]))
+	suite.Run(t, new(NumericCompareSuite[float32]))
+	suite.Run(t, new(NumericCompareSuite[float64]))
+	suite.Run(t, new(CompareTimestampSuite))
+	suite.Run(t, new(CompareDecimalSuite))
+	suite.Run(t, new(CompareFixedSizeBinary))
+	suite.Run(t, new(CompareStringSuite))
+}
+
+func TestCompareKernelsDispatchBest(t *testing.T) {
+	tests := []struct {
+		origLeft, origRight     arrow.DataType
+		expectLeft, expectRight arrow.DataType
+	}{
+		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
+		{arrow.PrimitiveTypes.Int32, arrow.Null, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
+		{arrow.Null, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
+
+		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
+		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
+		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64},
+
+		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
+		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
+		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64},
+		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint64, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64},
+
+		{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8},
+		{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Uint16},
+
+		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32},
+		{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32},
+		{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
+
+		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64}, arrow.PrimitiveTypes.Float64,
+			arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
+		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64}, arrow.PrimitiveTypes.Int16,
+			arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
+
+		{arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Date64, arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Timestamp_us},
+		{arrow.FixedWidthTypes.Timestamp_ms, arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Timestamp_us, arrow.FixedWidthTypes.Timestamp_us},
+
+		{arrow.BinaryTypes.String, arrow.BinaryTypes.Binary, arrow.BinaryTypes.Binary, arrow.BinaryTypes.Binary},
+		{arrow.BinaryTypes.LargeString, arrow.BinaryTypes.Binary, arrow.BinaryTypes.LargeBinary, arrow.BinaryTypes.LargeBinary},
+		{arrow.BinaryTypes.LargeString, &arrow.FixedSizeBinaryType{ByteWidth: 2}, arrow.BinaryTypes.LargeBinary, arrow.BinaryTypes.LargeBinary},
+		{arrow.BinaryTypes.Binary, &arrow.FixedSizeBinaryType{ByteWidth: 2}, arrow.BinaryTypes.Binary, arrow.BinaryTypes.Binary},
+		{&arrow.FixedSizeBinaryType{ByteWidth: 4}, &arrow.FixedSizeBinaryType{ByteWidth: 2},
+			&arrow.FixedSizeBinaryType{ByteWidth: 4}, &arrow.FixedSizeBinaryType{ByteWidth: 2}},
+
+		{&arrow.Decimal128Type{Precision: 3, Scale: 2}, &arrow.Decimal128Type{Precision: 6, Scale: 3},
+			&arrow.Decimal128Type{Precision: 4, Scale: 3}, &arrow.Decimal128Type{Precision: 6, Scale: 3}},
+		{&arrow.Decimal128Type{Precision: 3, Scale: 2}, &arrow.Decimal256Type{Precision: 3, Scale: 2},
+			&arrow.Decimal256Type{Precision: 3, Scale: 2}, &arrow.Decimal256Type{Precision: 3, Scale: 2}},
+		{&arrow.Decimal128Type{Precision: 3, Scale: 2}, arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
+		{arrow.PrimitiveTypes.Float64, &arrow.Decimal128Type{Precision: 3, Scale: 2}, arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
+		{&arrow.Decimal128Type{Precision: 3, Scale: 2}, arrow.PrimitiveTypes.Int64,
+			&arrow.Decimal128Type{Precision: 3, Scale: 2}, &arrow.Decimal128Type{Precision: 21, Scale: 2}},
+		{arrow.PrimitiveTypes.Int64, &arrow.Decimal128Type{Precision: 3, Scale: 2},
+			&arrow.Decimal128Type{Precision: 21, Scale: 2}, &arrow.Decimal128Type{Precision: 3, Scale: 2}},
+	}
+
+	for _, name := range []string{"equal", "not_equal", "less", "less_equal", "greater", "greater_equal"} {
+		t.Run(name, func(t *testing.T) {
+			for _, tt := range tests {
+				CheckDispatchBest(t, name, []arrow.DataType{tt.origLeft, tt.origRight},
+					[]arrow.DataType{tt.expectLeft, tt.expectRight})
+			}
+		})
+	}
+}
+
+func TestCompareGreaterWithImplicitCasts(t *testing.T) {
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(t, 0)
+
+	getArr := func(ty arrow.DataType, str string) arrow.Array {
+		arr, _, err := array.FromJSON(mem, ty, strings.NewReader(str), array.WithUseNumber())
+		require.NoError(t, err)
+		return arr
+	}
+
+	check := func(ty1 arrow.DataType, str1 string, ty2 arrow.DataType, str2 string, exp string) {
+		arr1, arr2 := getArr(ty1, str1), getArr(ty2, str2)
+		arrExp := getArr(arrow.FixedWidthTypes.Boolean, exp)
+
+		checkScalarBinary(t, "greater", compute.NewDatumWithoutOwning(arr1),
+			compute.NewDatumWithoutOwning(arr2),
+			compute.NewDatumWithoutOwning(arrExp), nil)
+
+		arr1.Release()
+		arr2.Release()
+		arrExp.Release()
+	}
+
+	tests := []struct {
+		ty1, ty2   arrow.DataType
+		str1, str2 string
+		exp        string
+	}{
+		{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float64,
+			`[0, 1, 2, null]`, `[0.5, 1.0, 1.5, 2.0]`, `[false, false, true, null]`},
+		{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint32,
+			`[-16, 0, 16, null]`, `[3, 4, 5, 7]`, `[false, false, true, null]`},
+		{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint8,
+			`[-16, 0, 16, null]`, `[255, 254, 1, 0]`, `[false, false, true, null]`},
+		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.PrimitiveTypes.Int32},
+			arrow.PrimitiveTypes.Uint32, `[0, 1, 2, null]`, `[3, 4, 5, 7]`, `[false, false, false, null]`},
+		{&arrow.TimestampType{Unit: arrow.Second}, arrow.FixedWidthTypes.Date64,
+			`["1970-01-01", "2000-02-29", "1900-02-28"]`, `[86400000, 0, 86400000]`,
+			`[false, true, false]`},
+		{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int32, ValueType: arrow.PrimitiveTypes.Int8},
+			arrow.PrimitiveTypes.Uint32, `[3, -3, -28, null]`, `[3, 4, 5, 7]`,
+			`[false, false, false, null]`},
+	}
+
+	for _, tt := range tests {
+		check(tt.ty1, tt.str1, tt.ty2, tt.str2, tt.exp)
+	}
+}
+
+func TestCompareGreaterWithImplicitCastUint64EdgeCase(t *testing.T) {
+	// int64 is as wide as we can promote
+	CheckDispatchBest(t, "greater",
+		[]arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint64},
+		[]arrow.DataType{arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64})
+
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(t, 0)
+
+	getArr := func(ty arrow.DataType, str string) arrow.Array {
+		arr, _, err := array.FromJSON(mem, ty, strings.NewReader(str), array.WithUseNumber())
+		require.NoError(t, err)
+		return arr
+	}
+
+	// this works sometimes
+	neg := getArr(arrow.PrimitiveTypes.Int8, `[-1]`)
+	defer neg.Release()
+	zero := getArr(arrow.PrimitiveTypes.Uint64, `[0]`)
+	defer zero.Release()
+	res := getArr(arrow.FixedWidthTypes.Boolean, `[false]`)
+	defer res.Release()
+
+	checkScalarBinary(t, "greater", compute.NewDatumWithoutOwning(neg),
+		compute.NewDatumWithoutOwning(zero), compute.NewDatumWithoutOwning(res), nil)
+
+	// ... but it can result in impossible implicit casts in the presence of uint64
+	// since some uint64 values cannot be cast to int64
+	neg = getArr(arrow.PrimitiveTypes.Int64, `[-1]`)
+	defer neg.Release()
+	big := getArr(arrow.PrimitiveTypes.Uint64, `[18446744073709551615]`)
+	defer big.Release()
+
+	_, err := compute.CallFunction(context.TODO(), "greater", nil, compute.NewDatumWithoutOwning(neg), compute.NewDatumWithoutOwning(big))
+	assert.ErrorIs(t, err, arrow.ErrInvalid)
+}
+
+const benchSeed = 0x94378165
+
+func benchArrayScalar(b *testing.B, sz int, nullprob float64, op string, dt arrow.DataType) {
+	b.Run(dt.String(), func(b *testing.B) {
+		rng := gen.NewRandomArrayGenerator(benchSeed, memory.DefaultAllocator)
+		arr := rng.ArrayOf(dt.ID(), int64(sz), nullprob)
+		defer arr.Release()
+		s := rng.ArrayOf(dt.ID(), 1, 0)
+		defer s.Release()
+		sc, _ := scalar.GetScalar(s, 0)
+
+		lhs := compute.NewDatumWithoutOwning(arr)
+		rhs := compute.NewDatumWithoutOwning(sc)
+
+		var nbytes int64
+		switch dt.ID() {
+		case arrow.STRING:
+			nbytes = int64(len(arr.(*array.String).ValueBytes()) + sc.(*scalar.String).Value.Len())
+		default:
+			nbytes = int64(arr.Data().Buffers()[1].Len() + len(sc.(scalar.PrimitiveScalar).Data()))
+		}
+		ctx := context.Background()
+		b.ResetTimer()
+		b.SetBytes(nbytes)
+		for n := 0; n < b.N; n++ {
+			result, err := compute.CallFunction(ctx, op, nil, lhs, rhs)
+			if err != nil {
+				b.Fatal(err)
+			}
+			result.Release()
+		}
+	})
+}
+
+func benchArrayArray(b *testing.B, sz int, nullprob float64, op string, dt arrow.DataType) {
+	b.Run(dt.String(), func(b *testing.B) {
+		rng := gen.NewRandomArrayGenerator(benchSeed, memory.DefaultAllocator)
+		lhsArr := rng.ArrayOf(dt.ID(), int64(sz), nullprob)
+		defer lhsArr.Release()
+		rhsArr := rng.ArrayOf(dt.ID(), int64(sz), nullprob)
+		defer rhsArr.Release()
+
+		lhs, rhs := compute.NewDatumWithoutOwning(lhsArr), compute.NewDatumWithoutOwning(rhsArr)
+		var nbytes int64
+		switch dt.ID() {
+		case arrow.STRING:
+			nbytes = int64(len(lhsArr.(*array.String).ValueBytes()) + len(rhsArr.(*array.String).ValueBytes()))
+		default:
+			nbytes = int64(lhsArr.Data().Buffers()[1].Len() + rhsArr.Data().Buffers()[1].Len())
+		}
+		ctx := context.Background()
+		b.ResetTimer()
+		b.SetBytes(nbytes)
+		for n := 0; n < b.N; n++ {
+			result, err := compute.CallFunction(ctx, op, nil, lhs, rhs)
+			if err != nil {
+				b.Fatal(err)
+			}
+			result.Release()
+		}
+	})
+}
+
+func BenchmarkCompare(b *testing.B) {
+	var (
+		sizes    = []int{CpuCacheSizes[0]}
+		nullProb = []float64{0.0001, 0.01, 0.1, 0.5, 1, 0}
+	)
+
+	b.Run("GreaterArrayScalar", func(b *testing.B) {
+		for _, sz := range sizes {
+			b.Run(fmt.Sprintf("size=%d", sz), func(b *testing.B) {
+				for _, np := range nullProb {
+					b.Run(fmt.Sprintf("nullprob=%f", np), func(b *testing.B) {
+						benchArrayScalar(b, sz, np, kernels.CmpGT.String(), arrow.PrimitiveTypes.Int64)
+						benchArrayScalar(b, sz, np, kernels.CmpGT.String(), arrow.BinaryTypes.String)
+					})
+				}
+			})
+		}
+	})
+
+	b.Run("GreaterArrayArray", func(b *testing.B) {
+		for _, sz := range sizes {
+			b.Run(fmt.Sprintf("size=%d", sz), func(b *testing.B) {
+				for _, np := range nullProb {
+					b.Run(fmt.Sprintf("nullprob=%f", np), func(b *testing.B) {
+						benchArrayArray(b, sz, np, kernels.CmpGT.String(), arrow.PrimitiveTypes.Int64)
+						benchArrayArray(b, sz, np, kernels.CmpGT.String(), arrow.BinaryTypes.String)
+					})
+				}
+			})
+		}
+	})
+}
diff --git a/go/arrow/compute/selection.go b/go/arrow/compute/selection.go
new file mode 100644
index 00000000000..45beaa9ae39
--- /dev/null
+++ b/go/arrow/compute/selection.go
@@ -0,0 +1,729 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute
+
+import (
+	"context"
+	"fmt"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/kernels"
+	"golang.org/x/sync/errgroup"
+)
+
+var (
+	filterDoc = FunctionDoc{
+		Summary: "Filter with a boolean selection filter",
+		Description: `The output is populated with values from the input at positions
+where the selection filter is non-zero. Nulls in the selection filter
+are handled based on FilterOptions.`,
+		ArgNames:    []string{"input", "selection_filter"},
+		OptionsType: "FilterOptions",
+	}
+	filterMetaFunc = NewMetaFunction("filter", Binary(), filterDoc,
+		func(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
+			if args[1].(ArrayLikeDatum).Type().ID() != arrow.BOOL {
+				return nil, fmt.Errorf("%w: filter argument must be boolean type",
+					arrow.ErrNotImplemented)
+			}
+
+			switch args[0].Kind() {
+			case KindRecord:
+				filtOpts, ok := opts.(*FilterOptions)
+				if !ok {
+					return nil, fmt.Errorf("%w: invalid options type", arrow.ErrInvalid)
+				}
+
+				if filter, ok := args[1].(*ArrayDatum); ok {
+					filterArr := filter.MakeArray()
+					defer filterArr.Release()
+					rec, err := FilterRecordBatch(ctx, args[0].(*RecordDatum).Value, filterArr, filtOpts)
+					if err != nil {
+						return nil, err
+					}
+					return &RecordDatum{Value: rec}, nil
+				}
+				return nil, fmt.Errorf("%w: record batch filtering only implemented for Array filter", arrow.ErrNotImplemented)
+			case KindTable:
+				filtOpts, ok := opts.(*FilterOptions)
+				if !ok {
+					return nil, fmt.Errorf("%w: invalid options type", arrow.ErrInvalid)
+				}
+
+				tbl, err := FilterTable(ctx, args[0].(*TableDatum).Value, args[1], filtOpts)
+				if err != nil {
+					return nil, err
+				}
+				return &TableDatum{Value: tbl}, nil
+
+			default:
+				return CallFunction(ctx, "array_filter", opts, args...)
+			}
+		})
+	takeDoc = FunctionDoc{
+		Summary: "Select values from an input based on indices from another array",
+		Description: `The output is populated with values from the input at positions
+given by "indices". Nulls in "indices" emit null in the output`,
+		ArgNames:    []string{"input", "indices"},
+		OptionsType: "TakeOptions",
+	}
+	takeMetaFunc = NewMetaFunction("take", Binary(), takeDoc,
+		func(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
+			indexKind := args[1].Kind()
+			if indexKind != KindArray && indexKind != KindChunked {
+				return nil, fmt.Errorf("%w: unsupported types for take operation: values=%s, indices=%s",
+					arrow.ErrNotImplemented, args[0], args[1])
+			}
+
+			switch args[0].Kind() {
+			case KindArray:
+				return takeArrayImpl(ctx, opts, args...)
+			case KindChunked:
+				return takeChunkedImpl(ctx, opts, args...)
+			case KindRecord:
+				return takeRecordImpl(ctx, opts, args...)
+			case KindTable:
+				return takeTableImpl(ctx, opts, args...)
+			}
+
+			return nil, fmt.Errorf("%w: unsupported types for take operation: values=%s, indices=%s",
+				arrow.ErrNotImplemented, args[0], args[1])
+		})
+)
+
+func takeTableImpl(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
+	tbl := args[0].(*TableDatum).Value
+	ncols := int(tbl.NumCols())
+	cols := make([]arrow.Column, ncols)
+	defer func() {
+		for _, c := range cols {
+			c.Release()
+		}
+	}()
+
+	eg, cctx := errgroup.WithContext(ctx)
+	eg.SetLimit(GetExecCtx(ctx).NumParallel)
+	for i := 0; i < ncols; i++ {
+		i := i
+		eg.Go(func() error {
+			inCol := tbl.Column(i)
+			result, err := CallFunction(cctx, "take", opts,
+				&ChunkedDatum{Value: inCol.Data()},
+				args[1])
+			if err != nil {
+				return err
+			}
+			defer result.Release()
+			out := result.(ArrayLikeDatum)
+			chunks := out.Chunks()
+			if out.Kind() == KindArray {
+				defer chunks[0].Release()
+			}
+			chk := arrow.NewChunked(out.Type(), chunks)
+			defer chk.Release()
+			cols[i] = *arrow.NewColumn(inCol.Field(), chk)
+			return nil
+		})
+	}
+
+	if err := eg.Wait(); err != nil {
+		return nil, err
+	}
+
+	final := array.NewTable(tbl.Schema(), cols, -1)
+	return &TableDatum{Value: final}, nil
+}
+
+func takeRecordImpl(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
+	indices := args[1]
+	if indices.Kind() == KindChunked {
+		newIndices, err := array.Concatenate(indices.(*ChunkedDatum).Chunks(), exec.GetAllocator(ctx))
+		if err != nil {
+			return nil, err
+		}
+		defer newIndices.Release()
+		indices = &ArrayDatum{Value: newIndices.Data()}
+	}
+
+	rb := args[0].(*RecordDatum).Value
+	ncols := rb.NumCols()
+	nrows := args[1].(ArrayLikeDatum).Len()
+	cols := make([]arrow.Array, ncols)
+	defer func() {
+		for _, c := range cols {
+			if c != nil {
+				c.Release()
+			}
+		}
+	}()
+
+	eg, cctx := errgroup.WithContext(ctx)
+	eg.SetLimit(GetExecCtx(ctx).NumParallel)
+	for i := range rb.Columns() {
+		i := i
+		eg.Go(func() error {
+			out, err := CallFunction(cctx, "array_take", opts, &ArrayDatum{Value: rb.Column(i).Data()}, indices)
+			if err != nil {
+				return err
+			}
+			defer out.Release()
+			cols[i] = out.(*ArrayDatum).MakeArray()
+			return nil
+		})
+	}
+
+	if err := eg.Wait(); err != nil {
+		return nil, err
+	}
+
+	outRec := array.NewRecord(rb.Schema(), cols, nrows)
+	return &RecordDatum{Value: outRec}, nil
+}
+
+func takeArrayImpl(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
+	switch args[1].Kind() {
+	case KindArray:
+		return CallFunction(ctx, "array_take", opts, args...)
+	case KindChunked:
+		chunks := args[1].(*ChunkedDatum).Chunks()
+		out := make([]arrow.Array, len(chunks))
+		defer func() {
+			for _, a := range out {
+				if a != nil {
+					a.Release()
+				}
+			}
+		}()
+
+		eg, cctx := errgroup.WithContext(ctx)
+		eg.SetLimit(GetExecCtx(ctx).NumParallel)
+		for i := range chunks {
+			i := i
+			eg.Go(func() error {
+				result, err := CallFunction(cctx, "array_take", opts, args[0], &ArrayDatum{Value: chunks[i].Data()})
+				if err != nil {
+					return err
+				}
+				defer result.Release()
+				out[i] = result.(*ArrayDatum).MakeArray()
+				return nil
+			})
+		}
+		if err := eg.Wait(); err != nil {
+			return nil, err
+		}
+		return &ChunkedDatum{
+			Value: arrow.NewChunked(args[0].(*ArrayDatum).Type(), out)}, nil
+	}
+
+	return nil, fmt.Errorf("%w: unsupported types for take operation: values=%s, indices=%s",
+		arrow.ErrNotImplemented, args[0], args[1])
+}
+
+func takeChunkedImpl(ctx context.Context, opts FunctionOptions, args ...Datum) (Datum, error) {
+	chunked := args[0].(*ChunkedDatum).Value
+	var chnkArg *arrow.Chunked
+	if arg, ok := args[1].(*ArrayDatum); ok {
+		switch {
+		case len(chunked.Chunks()) <= 1:
+			var curChunk arrow.Array
+			if len(chunked.Chunks()) == 1 {
+				curChunk = chunked.Chunk(0)
+			} else {
+				// no chunks, create an empty one!
+				curChunk = array.MakeArrayOfNull(exec.GetAllocator(ctx), chunked.DataType(), 0)
+				defer curChunk.Release()
+			}
+			newChunk, err := CallFunction(ctx, "array_take", opts, &ArrayDatum{Value: curChunk.Data()}, arg)
+			if err != nil {
+				return nil, err
+			}
+			defer newChunk.Release()
+			outChunks := newChunk.(*ArrayDatum).Chunks()
+			defer outChunks[0].Release()
+			return &ChunkedDatum{Value: arrow.NewChunked(outChunks[0].DataType(), outChunks)}, nil
+		case kernels.ChunkedTakeSupported(chunked.DataType()):
+			indices := arg.Chunks()
+			defer indices[0].Release()
+			chnkArg = arrow.NewChunked(arg.Type(), indices)
+			defer chnkArg.Release()
+		default:
+			values, err := array.Concatenate(chunked.Chunks(), GetAllocator(ctx))
+			if err != nil {
+				return nil, err
+			}
+			defer values.Release()
+			newChunk, err := CallFunction(ctx, "array_take", opts, &ArrayDatum{Value: values.Data()}, arg)
+			if err != nil {
+				return nil, err
+			}
+			defer newChunk.Release()
+			outChunks := newChunk.(*ArrayDatum).Chunks()
+			defer outChunks[0].Release()
+			return &ChunkedDatum{Value: arrow.NewChunked(outChunks[0].DataType(), outChunks)}, nil
+		}
+	} else {
+		chnkArg = args[1].(*ChunkedDatum).Value
+	}
+
+	if kernels.ChunkedTakeSupported(chunked.DataType()) {
+		return CallFunction(ctx, "array_take", opts, args[0], &ChunkedDatum{Value: chnkArg})
+	}
+
+	values, err := array.Concatenate(chunked.Chunks(), GetAllocator(ctx))
+	if err != nil {
+		return nil, err
+	}
+	defer values.Release()
+	return CallFunction(ctx, "take", opts, &ArrayDatum{Value: values.Data()}, &ChunkedDatum{Value: chnkArg})
+}
+
+func Take(ctx context.Context, opts TakeOptions, values, indices Datum) (Datum, error) {
+	return CallFunction(ctx, "take", &opts, values, indices)
+}
+
+func TakeArray(ctx context.Context, values, indices arrow.Array) (arrow.Array, error) {
+	v := NewDatum(values)
+	idx := NewDatum(indices)
+	defer v.Release()
+	defer idx.Release()
+
+	out, err := CallFunction(ctx, "array_take", nil, v, idx)
+	if err != nil {
+		return nil, err
+	}
+	defer out.Release()
+
+	return out.(*ArrayDatum).MakeArray(), nil
+}
+
+func TakeArrayOpts(ctx context.Context, values, indices arrow.Array, opts TakeOptions) (arrow.Array, error) {
+	v := NewDatum(values)
+	idx := NewDatum(indices)
+	defer v.Release()
+	defer idx.Release()
+
+	out, err := CallFunction(ctx, "array_take", &opts, v, idx)
+	if err != nil {
+		return nil, err
+	}
+	defer out.Release()
+
+	return out.(*ArrayDatum).MakeArray(), nil
+}
+
+type listArr interface {
+	arrow.Array
+	ListValues() arrow.Array
+}
+
+func selectListImpl(fn exec.ArrayKernelExec) exec.ArrayKernelExec {
+	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		if err := fn(ctx, batch, out); err != nil {
+			return err
+		}
+
+		// out.Children[0] contains the child indexes of values that we
+		// want to take after processing.
+		values := batch.Values[0].Array.MakeArray().(listArr)
+		defer values.Release()
+
+		childIndices := out.Children[0].MakeArray()
+		defer childIndices.Release()
+
+		takenChild, err := TakeArrayOpts(ctx.Ctx, values.ListValues(), childIndices, kernels.TakeOptions{BoundsCheck: false})
+		if err != nil {
+			return err
+		}
+		defer takenChild.Release()
+
+		out.Children[0].TakeOwnership(takenChild.Data())
+		return nil
+	}
+}
+
+func denseUnionImpl(fn exec.ArrayKernelExec) exec.ArrayKernelExec {
+	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		if err := fn(ctx, batch, out); err != nil {
+			return err
+		}
+
+		typedValues := batch.Values[0].Array.MakeArray().(*array.DenseUnion)
+		defer typedValues.Release()
+
+		eg, cctx := errgroup.WithContext(ctx.Ctx)
+		eg.SetLimit(GetExecCtx(ctx.Ctx).NumParallel)
+
+		for i := 0; i < typedValues.NumFields(); i++ {
+			i := i
+			eg.Go(func() error {
+				arr := typedValues.Field(i)
+				childIndices := out.Children[i].MakeArray()
+				defer childIndices.Release()
+				taken, err := TakeArrayOpts(cctx, arr, childIndices, kernels.TakeOptions{})
+				if err != nil {
+					return err
+				}
+				defer taken.Release()
+				out.Children[i].TakeOwnership(taken.Data())
+				return nil
+			})
+		}
+
+		return eg.Wait()
+	}
+}
+
+func extensionFilterImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	extArray := batch.Values[0].Array.MakeArray().(array.ExtensionArray)
+	defer extArray.Release()
+
+	selection := batch.Values[1].Array.MakeArray()
+	defer selection.Release()
+	result, err := FilterArray(ctx.Ctx, extArray.Storage(), selection, FilterOptions(ctx.State.(kernels.FilterState)))
+	if err != nil {
+		return err
+	}
+	defer result.Release()
+
+	out.TakeOwnership(result.Data())
+	out.Type = extArray.DataType()
+	return nil
+}
+
+func extensionTakeImpl(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	extArray := batch.Values[0].Array.MakeArray().(array.ExtensionArray)
+	defer extArray.Release()
+
+	selection := batch.Values[1].Array.MakeArray()
+	defer selection.Release()
+	result, err := TakeArrayOpts(ctx.Ctx, extArray.Storage(), selection, TakeOptions(ctx.State.(kernels.TakeState)))
+	if err != nil {
+		return err
+	}
+	defer result.Release()
+
+	out.TakeOwnership(result.Data())
+	out.Type = extArray.DataType()
+	return nil
+}
+
+func structFilter(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	// transform filter to selection indices and use take
+	indices, err := kernels.GetTakeIndices(exec.GetAllocator(ctx.Ctx),
+		&batch.Values[1].Array, ctx.State.(kernels.FilterState).NullSelection)
+	if err != nil {
+		return err
+	}
+	defer indices.Release()
+
+	filter := NewDatum(indices)
+	defer filter.Release()
+
+	valData := batch.Values[0].Array.MakeData()
+	defer valData.Release()
+
+	vals := NewDatum(valData)
+	defer vals.Release()
+
+	result, err := Take(ctx.Ctx, kernels.TakeOptions{BoundsCheck: false}, vals, filter)
+	if err != nil {
+		return err
+	}
+	defer result.Release()
+
+	out.TakeOwnership(result.(*ArrayDatum).Value)
+	return nil
+}
+
+func structTake(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+	// generate top level validity bitmap
+	if err := kernels.TakeExec(kernels.StructImpl)(ctx, batch, out); err != nil {
+		return err
+	}
+
+	values := batch.Values[0].Array.MakeArray().(*array.Struct)
+	defer values.Release()
+
+	// select from children without bounds checking
+	out.Children = make([]exec.ArraySpan, values.NumField())
+	eg, cctx := errgroup.WithContext(ctx.Ctx)
+	eg.SetLimit(GetExecCtx(ctx.Ctx).NumParallel)
+
+	selection := batch.Values[1].Array.MakeArray()
+	defer selection.Release()
+
+	for i := range out.Children {
+		i := i
+		eg.Go(func() error {
+			taken, err := TakeArrayOpts(cctx, values.Field(i), selection, kernels.TakeOptions{BoundsCheck: false})
+			if err != nil {
+				return err
+			}
+			defer taken.Release()
+
+			out.Children[i].TakeOwnership(taken.Data())
+			return nil
+		})
+	}
+
+	return eg.Wait()
+}
+
+// RegisterVectorSelection registers functions that select specific
+// values from arrays such as Take and Filter
+func RegisterVectorSelection(reg FunctionRegistry) {
+	filterMetaFunc.defaultOpts = DefaultFilterOptions()
+	takeMetaFunc.defaultOpts = DefaultTakeOptions()
+	reg.AddFunction(filterMetaFunc, false)
+	reg.AddFunction(takeMetaFunc, false)
+	filterKernels, takeKernels := kernels.GetVectorSelectionKernels()
+
+	filterKernels = append(filterKernels, []kernels.SelectionKernelData{
+		{In: exec.NewIDInput(arrow.LIST), Exec: selectListImpl(kernels.FilterExec(kernels.ListImpl[int32]))},
+		{In: exec.NewIDInput(arrow.LARGE_LIST), Exec: selectListImpl(kernels.FilterExec(kernels.ListImpl[int64]))},
+		{In: exec.NewIDInput(arrow.FIXED_SIZE_LIST), Exec: selectListImpl(kernels.FilterExec(kernels.FSLImpl))},
+		{In: exec.NewIDInput(arrow.DENSE_UNION), Exec: denseUnionImpl(kernels.FilterExec(kernels.DenseUnionImpl))},
+		{In: exec.NewIDInput(arrow.EXTENSION), Exec: extensionFilterImpl},
+		{In: exec.NewIDInput(arrow.STRUCT), Exec: structFilter},
+	}...)
+
+	takeKernels = append(takeKernels, []kernels.SelectionKernelData{
+		{In: exec.NewIDInput(arrow.LIST), Exec: selectListImpl(kernels.TakeExec(kernels.ListImpl[int32]))},
+		{In: exec.NewIDInput(arrow.LARGE_LIST), Exec: selectListImpl(kernels.TakeExec(kernels.ListImpl[int64]))},
+		{In: exec.NewIDInput(arrow.FIXED_SIZE_LIST), Exec: selectListImpl(kernels.TakeExec(kernels.FSLImpl))},
+		{In: exec.NewIDInput(arrow.DENSE_UNION), Exec: denseUnionImpl(kernels.TakeExec(kernels.DenseUnionImpl))},
+		{In: exec.NewIDInput(arrow.EXTENSION), Exec: extensionTakeImpl},
+		{In: exec.NewIDInput(arrow.STRUCT), Exec: structTake},
+	}...)
+
+	vfunc := NewVectorFunction("array_filter", Binary(), EmptyFuncDoc)
+	vfunc.defaultOpts = &kernels.FilterOptions{}
+
+	selectionType := exec.NewExactInput(arrow.FixedWidthTypes.Boolean)
+	basekernel := exec.NewVectorKernelWithSig(nil, nil, exec.OptionsInit[kernels.FilterState])
+	for _, kd := range filterKernels {
+		basekernel.Signature = &exec.KernelSignature{
+			InputTypes: []exec.InputType{kd.In, selectionType},
+			OutType:    kernels.OutputFirstType,
+		}
+		basekernel.ExecFn = kd.Exec
+		basekernel.ExecChunked = kd.Chunked
+		vfunc.AddKernel(basekernel)
+	}
+	reg.AddFunction(vfunc, false)
+
+	vfunc = NewVectorFunction("array_take", Binary(), EmptyFuncDoc)
+	vfunc.defaultOpts = DefaultTakeOptions()
+
+	selectionType = exec.NewMatchedInput(exec.Integer())
+	basekernel = exec.NewVectorKernelWithSig(nil, nil, exec.OptionsInit[kernels.TakeState])
+	basekernel.CanExecuteChunkWise = false
+	for _, kd := range takeKernels {
+		basekernel.Signature = &exec.KernelSignature{
+			InputTypes: []exec.InputType{kd.In, selectionType},
+			OutType:    kernels.OutputFirstType,
+		}
+
+		basekernel.ExecFn = kd.Exec
+		basekernel.ExecChunked = kd.Chunked
+		vfunc.AddKernel(basekernel)
+	}
+	reg.AddFunction(vfunc, false)
+}
+
+// Filter is a wrapper convenience that is equivalent to calling
+// CallFunction(ctx, "filter", &options, values, filter) for filtering
+// an input array (values) by a boolean array (filter). The two inputs
+// must be the same length.
+func Filter(ctx context.Context, values, filter Datum, options FilterOptions) (Datum, error) {
+	return CallFunction(ctx, "filter", &options, values, filter)
+}
+
+// FilterArray is a convenience method for calling Filter without having
+// to manually construct the intervening Datum objects (they will be
+// created for you internally here).
+func FilterArray(ctx context.Context, values, filter arrow.Array, options FilterOptions) (arrow.Array, error) {
+	valDatum := NewDatum(values)
+	filterDatum := NewDatum(filter)
+	defer valDatum.Release()
+	defer filterDatum.Release()
+
+	outDatum, err := Filter(ctx, valDatum, filterDatum, options)
+	if err != nil {
+		return nil, err
+	}
+
+	defer outDatum.Release()
+	return outDatum.(*ArrayDatum).MakeArray(), nil
+}
+
+func FilterRecordBatch(ctx context.Context, batch arrow.Record, filter arrow.Array, opts *FilterOptions) (arrow.Record, error) {
+	if batch.NumRows() != int64(filter.Len()) {
+		return nil, fmt.Errorf("%w: filter inputs must all be the same length", arrow.ErrInvalid)
+	}
+
+	var filterSpan exec.ArraySpan
+	filterSpan.SetMembers(filter.Data())
+
+	indices, err := kernels.GetTakeIndices(exec.GetAllocator(ctx), &filterSpan, opts.NullSelection)
+	if err != nil {
+		return nil, err
+	}
+	defer indices.Release()
+
+	indicesArr := array.MakeFromData(indices)
+	defer indicesArr.Release()
+
+	cols := make([]arrow.Array, batch.NumCols())
+	defer func() {
+		for _, c := range cols {
+			if c != nil {
+				c.Release()
+			}
+		}
+	}()
+	eg, cctx := errgroup.WithContext(ctx)
+	eg.SetLimit(GetExecCtx(ctx).NumParallel)
+	for i, col := range batch.Columns() {
+		i, col := i, col
+		eg.Go(func() error {
+			out, err := TakeArrayOpts(cctx, col, indicesArr, kernels.TakeOptions{BoundsCheck: false})
+			if err != nil {
+				return err
+			}
+			cols[i] = out
+			return nil
+		})
+	}
+
+	if err := eg.Wait(); err != nil {
+		return nil, err
+	}
+
+	return array.NewRecord(batch.Schema(), cols, int64(indicesArr.Len())), nil
+}
+
+func FilterTable(ctx context.Context, tbl arrow.Table, filter Datum, opts *FilterOptions) (arrow.Table, error) {
+	if tbl.NumRows() != filter.Len() {
+		return nil, fmt.Errorf("%w: filter inputs must all be the same length", arrow.ErrInvalid)
+	}
+
+	if tbl.NumRows() == 0 {
+		cols := make([]arrow.Column, tbl.NumCols())
+		for i := 0; i < int(tbl.NumCols()); i++ {
+			cols[i] = *tbl.Column(i)
+		}
+		return array.NewTable(tbl.Schema(), cols, 0), nil
+	}
+
+	// last input element will be the filter array
+	nCols := tbl.NumCols()
+	inputs := make([][]arrow.Array, nCols+1)
+	for i := int64(0); i < nCols; i++ {
+		inputs[i] = tbl.Column(int(i)).Data().Chunks()
+	}
+
+	switch ft := filter.(type) {
+	case *ArrayDatum:
+		inputs[nCols] = ft.Chunks()
+		defer inputs[nCols][0].Release()
+	case *ChunkedDatum:
+		inputs[nCols] = ft.Chunks()
+	default:
+		return nil, fmt.Errorf("%w: filter should be array-like", arrow.ErrNotImplemented)
+	}
+
+	// rechunk inputs to allow consistent iteration over the respective chunks
+	inputs = exec.RechunkArraysConsistently(inputs)
+
+	// instead of filtering each column with the boolean filter
+	// (which would be slow if the table has a large number of columns)
+	// convert each filter chunk to indices and take() the column
+	mem := GetAllocator(ctx)
+	outCols := make([][]arrow.Array, nCols)
+	// pre-size the output
+	nChunks := len(inputs[nCols])
+	for i := range outCols {
+		outCols[i] = make([]arrow.Array, nChunks)
+	}
+	var outNumRows int64
+	var cancel context.CancelFunc
+	ctx, cancel = context.WithCancel(ctx)
+	defer cancel()
+
+	eg, cctx := errgroup.WithContext(ctx)
+	eg.SetLimit(GetExecCtx(cctx).NumParallel)
+
+	var filterSpan exec.ArraySpan
+	for i, filterChunk := range inputs[nCols] {
+		filterSpan.SetMembers(filterChunk.Data())
+		indices, err := kernels.GetTakeIndices(mem, &filterSpan, opts.NullSelection)
+		if err != nil {
+			return nil, err
+		}
+		defer indices.Release()
+		filterChunk.Release()
+		if indices.Len() == 0 {
+			for col := int64(0); col < nCols; col++ {
+				inputs[col][i].Release()
+			}
+			continue
+		}
+
+		// take from all input columns
+		outNumRows += int64(indices.Len())
+		indicesDatum := NewDatum(indices)
+		defer indicesDatum.Release()
+
+		for col := int64(0); col < nCols; col++ {
+			columnChunk := inputs[col][i]
+			defer columnChunk.Release()
+			i := i
+			col := col
+			eg.Go(func() error {
+				columnDatum := NewDatum(columnChunk)
+				defer columnDatum.Release()
+				out, err := Take(cctx, kernels.TakeOptions{BoundsCheck: false}, columnDatum, indicesDatum)
+				if err != nil {
+					return err
+				}
+				defer out.Release()
+				outCols[col][i] = out.(*ArrayDatum).MakeArray()
+				return nil
+			})
+		}
+	}
+
+	if err := eg.Wait(); err != nil {
+		return nil, err
+	}
+
+	outChunks := make([]arrow.Column, nCols)
+	for i, chunks := range outCols {
+		chk := arrow.NewChunked(tbl.Column(i).DataType(), chunks)
+		outChunks[i] = *arrow.NewColumn(tbl.Schema().Field(i), chk)
+		defer outChunks[i].Release()
+		chk.Release()
+	}
+
+	return array.NewTable(tbl.Schema(), outChunks, outNumRows), nil
+}
diff --git a/go/arrow/compute/utils.go b/go/arrow/compute/utils.go
index 32ad97b586d..00cb3767e75 100644
--- a/go/arrow/compute/utils.go
+++ b/go/arrow/compute/utils.go
@@ -14,14 +14,22 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
+//go:build go1.18
+
 package compute
 
 import (
+	"fmt"
 	"io"
 	"math"
+	"time"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/kernels"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"golang.org/x/xerrors"
 )
 
@@ -81,3 +89,312 @@ func (b *bufferWriteSeeker) Seek(offset int64, whence int) (int64, error) {
 	b.pos = newpos
 	return int64(newpos), nil
 }
+
+// ensureDictionaryDecoded is used by DispatchBest to determine
+// the proper types for promotion. Casting is then performed by
+// the executor before continuing execution: see the implementation
+// of execInternal in exec.go after calling DispatchBest.
+//
+// That casting is where actual decoding would be performed for
+// the dictionary
+func ensureDictionaryDecoded(vals ...arrow.DataType) {
+	for i, v := range vals {
+		if v.ID() == arrow.DICTIONARY {
+			vals[i] = v.(*arrow.DictionaryType).ValueType
+		}
+	}
+}
+
+func replaceNullWithOtherType(vals ...arrow.DataType) {
+	debug.Assert(len(vals) == 2, "should be length 2")
+
+	if vals[0].ID() == arrow.NULL {
+		vals[0] = vals[1]
+		return
+	}
+
+	if vals[1].ID() == arrow.NULL {
+		vals[1] = vals[0]
+		return
+	}
+}
+
+func commonTemporalResolution(vals ...arrow.DataType) (arrow.TimeUnit, bool) {
+	isTimeUnit := false
+	finestUnit := arrow.Second
+	for _, v := range vals {
+		switch dt := v.(type) {
+		case *arrow.Date32Type:
+			isTimeUnit = true
+			continue
+		case *arrow.Date64Type:
+			finestUnit = exec.Max(finestUnit, arrow.Millisecond)
+			isTimeUnit = true
+		case arrow.TemporalWithUnit:
+			finestUnit = exec.Max(finestUnit, dt.TimeUnit())
+			isTimeUnit = true
+		default:
+			continue
+		}
+	}
+	return finestUnit, isTimeUnit
+}
+
+func replaceTemporalTypes(unit arrow.TimeUnit, vals ...arrow.DataType) {
+	for i, v := range vals {
+		switch dt := v.(type) {
+		case *arrow.TimestampType:
+			dt.Unit = unit
+			vals[i] = dt
+		case *arrow.Time32Type, *arrow.Time64Type:
+			if unit > arrow.Millisecond {
+				vals[i] = &arrow.Time64Type{Unit: unit}
+			} else {
+				vals[i] = &arrow.Time32Type{Unit: unit}
+			}
+		case *arrow.DurationType:
+			dt.Unit = unit
+			vals[i] = dt
+		case *arrow.Date32Type, *arrow.Date64Type:
+			vals[i] = &arrow.TimestampType{Unit: unit}
+		}
+	}
+}
+
+func replaceTypes(replacement arrow.DataType, vals ...arrow.DataType) {
+	for i := range vals {
+		vals[i] = replacement
+	}
+}
+
+func commonNumeric(vals ...arrow.DataType) arrow.DataType {
+	for _, v := range vals {
+		if !arrow.IsFloating(v.ID()) && !arrow.IsInteger(v.ID()) {
+			// a common numeric type is only possible if all are numeric
+			return nil
+		}
+		if v.ID() == arrow.FLOAT16 {
+			// float16 arithmetic is not currently supported
+			return nil
+		}
+	}
+
+	for _, v := range vals {
+		if v.ID() == arrow.FLOAT64 {
+			return arrow.PrimitiveTypes.Float64
+		}
+	}
+
+	for _, v := range vals {
+		if v.ID() == arrow.FLOAT32 {
+			return arrow.PrimitiveTypes.Float32
+		}
+	}
+
+	maxWidthSigned, maxWidthUnsigned := 0, 0
+	for _, v := range vals {
+		if arrow.IsUnsignedInteger(v.ID()) {
+			maxWidthUnsigned = exec.Max(v.(arrow.FixedWidthDataType).BitWidth(), maxWidthUnsigned)
+		} else {
+			maxWidthSigned = exec.Max(v.(arrow.FixedWidthDataType).BitWidth(), maxWidthSigned)
+		}
+	}
+
+	if maxWidthSigned == 0 {
+		switch {
+		case maxWidthUnsigned >= 64:
+			return arrow.PrimitiveTypes.Uint64
+		case maxWidthUnsigned == 32:
+			return arrow.PrimitiveTypes.Uint32
+		case maxWidthUnsigned == 16:
+			return arrow.PrimitiveTypes.Uint16
+		default:
+			debug.Assert(maxWidthUnsigned == 8, "bad maxWidthUnsigned")
+			return arrow.PrimitiveTypes.Uint8
+		}
+	}
+
+	if maxWidthSigned <= maxWidthUnsigned {
+		maxWidthSigned = bitutil.NextPowerOf2(maxWidthUnsigned + 1)
+	}
+
+	switch {
+	case maxWidthSigned >= 64:
+		return arrow.PrimitiveTypes.Int64
+	case maxWidthSigned == 32:
+		return arrow.PrimitiveTypes.Int32
+	case maxWidthSigned == 16:
+		return arrow.PrimitiveTypes.Int16
+	default:
+		debug.Assert(maxWidthSigned == 8, "bad maxWidthSigned")
+		return arrow.PrimitiveTypes.Int8
+	}
+}
+
+func hasDecimal(vals ...arrow.DataType) bool {
+	for _, v := range vals {
+		if arrow.IsDecimal(v.ID()) {
+			return true
+		}
+	}
+
+	return false
+}
+
+type decimalPromotion uint8
+
+const (
+	decPromoteNone decimalPromotion = iota
+	decPromoteAdd
+	decPromoteMultiply
+	decPromoteDivide
+)
+
+func castBinaryDecimalArgs(promote decimalPromotion, vals ...arrow.DataType) error {
+	left, right := vals[0], vals[1]
+	debug.Assert(arrow.IsDecimal(left.ID()) || arrow.IsDecimal(right.ID()), "at least one of the types should be decimal")
+
+	// decimal + float = float
+	if arrow.IsFloating(left.ID()) {
+		vals[1] = vals[0]
+		return nil
+	} else if arrow.IsFloating(right.ID()) {
+		vals[0] = vals[1]
+		return nil
+	}
+
+	var prec1, scale1, prec2, scale2 int32
+	var err error
+	// decimal + integer = decimal
+	if arrow.IsDecimal(left.ID()) {
+		dec := left.(arrow.DecimalType)
+		prec1, scale1 = dec.GetPrecision(), dec.GetScale()
+	} else {
+		debug.Assert(arrow.IsInteger(left.ID()), "floats were already handled, this should be an int")
+		if prec1, err = kernels.MaxDecimalDigitsForInt(left.ID()); err != nil {
+			return err
+		}
+	}
+	if arrow.IsDecimal(right.ID()) {
+		dec := right.(arrow.DecimalType)
+		prec2, scale2 = dec.GetPrecision(), dec.GetScale()
+	} else {
+		debug.Assert(arrow.IsInteger(right.ID()), "float already handled, should be ints")
+		if prec2, err = kernels.MaxDecimalDigitsForInt(right.ID()); err != nil {
+			return err
+		}
+	}
+
+	if scale1 < 0 || scale2 < 0 {
+		return fmt.Errorf("%w: decimals with negative scales not supported", arrow.ErrNotImplemented)
+	}
+
+	// decimal128 + decimal256 = decimal256
+	castedID := arrow.DECIMAL128
+	if left.ID() == arrow.DECIMAL256 || right.ID() == arrow.DECIMAL256 {
+		castedID = arrow.DECIMAL256
+	}
+
+	// decimal promotion rules compatible with amazon redshift
+	// https://docs.aws.amazon.com/redshift/latest/dg/r_numeric_computations201.html
+	var leftScaleup, rightScaleup int32
+
+	switch promote {
+	case decPromoteAdd:
+		leftScaleup = exec.Max(scale1, scale2) - scale1
+		rightScaleup = exec.Max(scale1, scale2) - scale2
+	case decPromoteMultiply:
+	case decPromoteDivide:
+		leftScaleup = exec.Max(4, scale1+prec2-scale2+1) + scale2 - scale1
+	default:
+		debug.Assert(false, fmt.Sprintf("invalid DecimalPromotion value %d", promote))
+	}
+
+	vals[0], err = arrow.NewDecimalType(castedID, prec1+leftScaleup, scale1+leftScaleup)
+	if err != nil {
+		return err
+	}
+	vals[1], err = arrow.NewDecimalType(castedID, prec2+rightScaleup, scale2+rightScaleup)
+	return err
+}
+
+func commonTemporal(vals ...arrow.DataType) arrow.DataType {
+	var (
+		finestUnit           = arrow.Second
+		zone                 *string
+		loc                  *time.Location
+		sawDate32, sawDate64 bool
+	)
+
+	for _, ty := range vals {
+		switch ty.ID() {
+		case arrow.DATE32:
+			// date32's unit is days, but the coarsest we have is seconds
+			sawDate32 = true
+		case arrow.DATE64:
+			finestUnit = exec.Max(finestUnit, arrow.Millisecond)
+			sawDate64 = true
+		case arrow.TIMESTAMP:
+			ts := ty.(*arrow.TimestampType)
+			if ts.TimeZone != "" {
+				tz, _ := ts.GetZone()
+				if loc != nil && loc != tz {
+					return nil
+				}
+				loc = tz
+			}
+			zone = &ts.TimeZone
+			finestUnit = exec.Max(finestUnit, ts.Unit)
+		default:
+			return nil
+		}
+	}
+
+	switch {
+	case zone != nil:
+		// at least one timestamp seen
+		return &arrow.TimestampType{Unit: finestUnit, TimeZone: *zone}
+	case sawDate64:
+		return arrow.FixedWidthTypes.Date64
+	case sawDate32:
+		return arrow.FixedWidthTypes.Date32
+	}
+	return nil
+}
+
+func commonBinary(vals ...arrow.DataType) arrow.DataType {
+	var (
+		allUTF8, allOffset32, allFixedWidth = true, true, true
+	)
+
+	for _, ty := range vals {
+		switch ty.ID() {
+		case arrow.STRING:
+			allFixedWidth = false
+		case arrow.BINARY:
+			allFixedWidth, allUTF8 = false, false
+		case arrow.FIXED_SIZE_BINARY:
+			allUTF8 = false
+		case arrow.LARGE_BINARY:
+			allOffset32, allFixedWidth, allUTF8 = false, false, false
+		case arrow.LARGE_STRING:
+			allOffset32, allFixedWidth = false, false
+		default:
+			return nil
+		}
+	}
+
+	switch {
+	case allFixedWidth:
+		// at least for the purposes of comparison, no need to cast
+		return nil
+	case allUTF8:
+		if allOffset32 {
+			return arrow.BinaryTypes.String
+		}
+		return arrow.BinaryTypes.LargeString
+	case allOffset32:
+		return arrow.BinaryTypes.Binary
+	}
+	return arrow.BinaryTypes.LargeBinary
+}
diff --git a/go/arrow/compute/valueshape_string.go b/go/arrow/compute/valueshape_string.go
deleted file mode 100644
index 1381d2ed393..00000000000
--- a/go/arrow/compute/valueshape_string.go
+++ /dev/null
@@ -1,25 +0,0 @@
-// Code generated by "stringer -type=ValueShape -linecomment"; DO NOT EDIT.
-
-package compute
-
-import "strconv"
-
-func _() {
-	// An "invalid array index" compiler error signifies that the constant values have changed.
-	// Re-run the stringer command to generate them again.
-	var x [1]struct{}
-	_ = x[ShapeAny-0]
-	_ = x[ShapeArray-1]
-	_ = x[ShapeScalar-2]
-}
-
-const _ValueShape_name = "anyarrayscalar"
-
-var _ValueShape_index = [...]uint8{0, 3, 8, 14}
-
-func (i ValueShape) String() string {
-	if i < 0 || i >= ValueShape(len(_ValueShape_index)-1) {
-		return "ValueShape(" + strconv.FormatInt(int64(i), 10) + ")"
-	}
-	return _ValueShape_name[_ValueShape_index[i]:_ValueShape_index[i+1]]
-}
diff --git a/go/arrow/compute/vector_selection_test.go b/go/arrow/compute/vector_selection_test.go
new file mode 100644
index 00000000000..a2ce0677714
--- /dev/null
+++ b/go/arrow/compute/vector_selection_test.go
@@ -0,0 +1,1652 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package compute_test
+
+import (
+	"context"
+	"fmt"
+	"strings"
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/compute"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v11/arrow/compute/internal/kernels"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/gen"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/types"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
+	"github.com/stretchr/testify/suite"
+)
+
+const randomSeed = 0x0ff1ce
+
+type FilterKernelTestSuite struct {
+	suite.Suite
+
+	mem                 *memory.CheckedAllocator
+	dropOpts, emitNulls compute.FilterOptions
+}
+
+func (f *FilterKernelTestSuite) SetupSuite() {
+	f.dropOpts.NullSelection = compute.SelectionDropNulls
+	f.emitNulls.NullSelection = compute.SelectionEmitNulls
+}
+
+func (f *FilterKernelTestSuite) SetupTest() {
+	f.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
+}
+
+func (f *FilterKernelTestSuite) TearDownTest() {
+	f.mem.AssertSize(f.T(), 0)
+}
+
+func (f *FilterKernelTestSuite) getArr(dt arrow.DataType, str string) arrow.Array {
+	arr, _, err := array.FromJSON(f.mem, dt, strings.NewReader(str), array.WithUseNumber())
+	f.Require().NoError(err)
+	return arr
+}
+
+func (f *FilterKernelTestSuite) doAssertFilter(values, filter, expected arrow.Array) {
+	ctx := compute.WithAllocator(context.TODO(), f.mem)
+	valDatum := compute.NewDatum(values)
+	defer valDatum.Release()
+	filterDatum := compute.NewDatum(filter)
+	defer filterDatum.Release()
+
+	f.Run("emit_null", func() {
+		out, err := compute.Filter(ctx, valDatum, filterDatum, f.emitNulls)
+		f.Require().NoError(err)
+		defer out.Release()
+		actual := out.(*compute.ArrayDatum).MakeArray()
+		defer actual.Release()
+		f.Truef(array.Equal(expected, actual), "expected: %s\ngot: %s", expected, actual)
+	})
+
+	// f.Run("drop", func() {
+	// 	out, err := compute.Filter(ctx, valDatum, filterDatum, f.dropOpts)
+	// 	f.NoError(err)
+	// 	defer out.Release()
+	// 	actual := out.(*compute.ArrayDatum).MakeArray()
+	// 	defer actual.Release()
+	// 	f.Truef(array.Equal(expected, actual), "expected: %s\ngot: %s", expected, actual)
+	// })
+}
+
+func (f *FilterKernelTestSuite) assertFilter(values, filter, expected arrow.Array) {
+	f.doAssertFilter(values, filter, expected)
+
+	if values.DataType().ID() == arrow.DENSE_UNION {
+		// concatenation of dense union not supported
+		return
+	}
+
+	// check slicing: add(M=3) dummy values at the start and end of values
+	// add N(=2) dummy values at the start and end of filter
+	f.Run("sliced values and filter", func() {
+		valuesFiller := array.MakeArrayOfNull(f.mem, values.DataType(), 3)
+		defer valuesFiller.Release()
+		filterFiller, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(`[true, false]`))
+		defer filterFiller.Release()
+
+		valuesSliced, err := array.Concatenate([]arrow.Array{valuesFiller, values, valuesFiller}, f.mem)
+		f.Require().NoError(err)
+		defer valuesSliced.Release()
+
+		filterSliced, err := array.Concatenate([]arrow.Array{filterFiller, filter, filterFiller}, f.mem)
+		f.Require().NoError(err)
+		defer filterSliced.Release()
+
+		valuesSliced = array.NewSlice(valuesSliced, 3, int64(3+values.Len()))
+		filterSliced = array.NewSlice(filterSliced, 2, int64(2+filter.Len()))
+		defer valuesSliced.Release()
+		defer filterSliced.Release()
+
+		f.doAssertFilter(valuesSliced, filterSliced, expected)
+	})
+}
+
+func (f *FilterKernelTestSuite) assertFilterJSON(dt arrow.DataType, values, filter, expected string) {
+	valuesArr, _, _ := array.FromJSON(f.mem, dt, strings.NewReader(values), array.WithUseNumber())
+	defer valuesArr.Release()
+	filterArr, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(filter))
+	defer filterArr.Release()
+	expectedArr, _, _ := array.FromJSON(f.mem, dt, strings.NewReader(expected), array.WithUseNumber())
+	defer expectedArr.Release()
+
+	f.assertFilter(valuesArr, filterArr, expectedArr)
+}
+
+func (f *FilterKernelTestSuite) TestNoValidityBitmapButUnknownNullCount() {
+	values := f.getArr(arrow.PrimitiveTypes.Int32, `[1, 2, 3, 4]`)
+	defer values.Release()
+	filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[true, true, false, true]`)
+	defer filter.Release()
+
+	expected, err := compute.FilterArray(context.TODO(), values, filter, *compute.DefaultFilterOptions())
+	f.Require().NoError(err)
+	defer expected.Release()
+
+	filter.Data().(*array.Data).SetNullN(array.UnknownNullCount)
+	result, err := compute.FilterArray(context.TODO(), values, filter, *compute.DefaultFilterOptions())
+	f.Require().NoError(err)
+	defer result.Release()
+
+	assertArraysEqual(f.T(), expected, result)
+}
+
+type TakeKernelTestSuite struct {
+	suite.Suite
+
+	mem *memory.CheckedAllocator
+	ctx context.Context
+}
+
+func (tk *TakeKernelTestSuite) SetupTest() {
+	tk.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
+	tk.ctx = compute.WithAllocator(context.TODO(), tk.mem)
+}
+
+func (tk *TakeKernelTestSuite) TearDownTest() {
+	tk.mem.AssertSize(tk.T(), 0)
+}
+
+func (tk *TakeKernelTestSuite) assertTakeArrays(values, indices, expected arrow.Array) {
+	actual, err := compute.TakeArray(tk.ctx, values, indices)
+	tk.Require().NoError(err)
+	defer actual.Release()
+	assertArraysEqual(tk.T(), expected, actual)
+}
+
+func (tk *TakeKernelTestSuite) takeJSON(dt arrow.DataType, values string, idxType arrow.DataType, indices string) (arrow.Array, error) {
+	valArr, _, _ := array.FromJSON(tk.mem, dt, strings.NewReader(values), array.WithUseNumber())
+	defer valArr.Release()
+	indArr, _, _ := array.FromJSON(tk.mem, idxType, strings.NewReader(indices))
+	defer indArr.Release()
+
+	return compute.TakeArray(tk.ctx, valArr, indArr)
+}
+
+func (tk *TakeKernelTestSuite) checkTake(dt arrow.DataType, valuesJSON, indicesJSON, expJSON string) {
+	values, _, _ := array.FromJSON(tk.mem, dt, strings.NewReader(valuesJSON), array.WithUseNumber())
+	defer values.Release()
+	expected, _, _ := array.FromJSON(tk.mem, dt, strings.NewReader(expJSON), array.WithUseNumber())
+	defer expected.Release()
+
+	for _, idxType := range []arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint32} {
+		tk.Run(fmt.Sprintf("idxtype %s", idxType), func() {
+			indices, _, _ := array.FromJSON(tk.mem, idxType, strings.NewReader(indicesJSON))
+			defer indices.Release()
+
+			tk.assertTakeArrays(values, indices, expected)
+
+			if dt.ID() != arrow.DENSE_UNION {
+				tk.Run("sliced values", func() {
+					valuesFiller := array.MakeArrayOfNull(tk.mem, dt, 2)
+					defer valuesFiller.Release()
+
+					valuesSliced, _ := array.Concatenate([]arrow.Array{valuesFiller, values, valuesFiller}, tk.mem)
+					defer valuesSliced.Release()
+					valuesSliced = array.NewSlice(valuesSliced, 2, 2+int64(values.Len()))
+					defer valuesSliced.Release()
+
+					tk.assertTakeArrays(valuesSliced, indices, expected)
+				})
+			}
+
+			tk.Run("sliced indices", func() {
+				zero, _ := scalar.MakeScalarParam(0, idxType)
+				indicesFiller, _ := scalar.MakeArrayFromScalar(zero, 3, tk.mem)
+				defer indicesFiller.Release()
+				indicesSliced, _ := array.Concatenate([]arrow.Array{indicesFiller, indices, indicesFiller}, tk.mem)
+				defer indicesSliced.Release()
+				indicesSliced = array.NewSlice(indicesSliced, 3, int64(indices.Len()+3))
+				defer indicesSliced.Release()
+
+				tk.assertTakeArrays(values, indicesSliced, expected)
+			})
+		})
+	}
+}
+
+func (tk *TakeKernelTestSuite) assertTakeNull(values, indices, expected string) {
+	tk.checkTake(arrow.Null, values, indices, expected)
+}
+
+func (tk *TakeKernelTestSuite) assertTakeBool(values, indices, expected string) {
+	tk.checkTake(arrow.FixedWidthTypes.Boolean, values, indices, expected)
+}
+
+func (tk *TakeKernelTestSuite) assertNoValidityBitmapButUnknownNullCount(values, indices arrow.Array) {
+	tk.Zero(values.NullN())
+	tk.Zero(indices.NullN())
+	exp, err := compute.TakeArray(tk.ctx, values, indices)
+	tk.Require().NoError(err)
+	defer exp.Release()
+
+	newValuesData := values.Data().(*array.Data).Copy()
+	newValuesData.SetNullN(array.UnknownNullCount)
+	newValuesData.Buffers()[0].Release()
+	newValuesData.Buffers()[0] = nil
+	defer newValuesData.Release()
+	newValues := array.MakeFromData(newValuesData)
+
+	newIndicesData := indices.Data().(*array.Data).Copy()
+	newIndicesData.SetNullN(array.UnknownNullCount)
+	newIndicesData.Buffers()[0].Release()
+	newIndicesData.Buffers()[0] = nil
+	defer newIndicesData.Release()
+	newIndices := array.MakeFromData(newIndicesData)
+
+	defer newValues.Release()
+	defer newIndices.Release()
+
+	result, err := compute.TakeArray(tk.ctx, newValues, newIndices)
+	tk.Require().NoError(err)
+	defer result.Release()
+
+	assertArraysEqual(tk.T(), exp, result)
+}
+
+func (tk *TakeKernelTestSuite) assertNoValidityBitmapUnknownNullCountJSON(dt arrow.DataType, values, indices string) {
+	vals, _, _ := array.FromJSON(tk.mem, dt, strings.NewReader(values), array.WithUseNumber())
+	defer vals.Release()
+	inds, _, _ := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int16, strings.NewReader(indices))
+	defer inds.Release()
+	tk.assertNoValidityBitmapButUnknownNullCount(vals, inds)
+}
+
+type TakeKernelTest struct {
+	TakeKernelTestSuite
+}
+
+func (tk *TakeKernelTest) TestTakeNull() {
+	tk.assertTakeNull(`[null, null, null]`, `[0, 1, 0]`, `[null, null, null]`)
+	tk.assertTakeNull(`[null, null, null]`, `[0, 2]`, `[null, null]`)
+
+	_, err := tk.takeJSON(arrow.Null, `[null, null, null]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
+	tk.ErrorIs(err, arrow.ErrIndex)
+	_, err = tk.takeJSON(arrow.Null, `[null, null, null]`, arrow.PrimitiveTypes.Int8, `[0, -1, 0]`)
+	tk.ErrorIs(err, arrow.ErrIndex)
+}
+
+func (tk *TakeKernelTest) TestInvalidIndexType() {
+	_, err := tk.takeJSON(arrow.Null, `[null, null, null]`, arrow.PrimitiveTypes.Float32, `[0.0, 1.0, 0.1]`)
+	tk.ErrorIs(err, arrow.ErrNotImplemented)
+}
+
+func (tk *TakeKernelTest) TestDefaultOptions() {
+	indArr, _, _ := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[null, 2, 0, 3]`))
+	defer indArr.Release()
+	valArr, _, _ := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[7, 8, 9, null]`))
+	defer valArr.Release()
+
+	indices, values := compute.NewDatum(indArr), compute.NewDatum(valArr)
+	defer indices.Release()
+	defer values.Release()
+
+	noOptions, err := compute.CallFunction(tk.ctx, "take", nil, values, indices)
+	tk.Require().NoError(err)
+	defer noOptions.Release()
+
+	explicitDefaults, err := compute.CallFunction(tk.ctx, "take", compute.DefaultTakeOptions(), values, indices)
+	tk.Require().NoError(err)
+	defer explicitDefaults.Release()
+
+	assertDatumsEqual(tk.T(), explicitDefaults, noOptions, nil, nil)
+}
+
+func (tk *TakeKernelTest) TestTakeBoolean() {
+	tk.assertTakeBool(`[true, true, true]`, `[]`, `[]`)
+	tk.assertTakeBool(`[true, false, true]`, `[0, 1, 0]`, `[true, false, true]`)
+	tk.assertTakeBool(`[null, false, true]`, `[0, 1, 0]`, `[null, false, null]`)
+	tk.assertTakeBool(`[true, false, true]`, `[null, 1, 0]`, `[null, false, true]`)
+
+	tk.assertNoValidityBitmapUnknownNullCountJSON(arrow.FixedWidthTypes.Boolean, `[true, false, true]`, `[1, 0, 0]`)
+	_, err := tk.takeJSON(arrow.FixedWidthTypes.Boolean, `[true, false, true]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
+	tk.ErrorIs(err, arrow.ErrIndex)
+	_, err = tk.takeJSON(arrow.FixedWidthTypes.Boolean, `[true, false, true]`, arrow.PrimitiveTypes.Int8, `[0, -1, 0]`)
+	tk.ErrorIs(err, arrow.ErrIndex)
+}
+
+type FilterKernelWithNull struct {
+	FilterKernelTestSuite
+}
+
+func (f *FilterKernelWithNull) TestFilterNull() {
+	f.assertFilterJSON(arrow.Null, `[]`, `[]`, `[]`)
+	f.assertFilterJSON(arrow.Null, `[null, null, null]`, `[false, true, false]`, `[null]`)
+	f.assertFilterJSON(arrow.Null, `[null, null, null]`, `[true, true, false]`, `[null, null]`)
+}
+
+type FilterKernelWithBoolean struct {
+	FilterKernelTestSuite
+}
+
+func (f *FilterKernelWithBoolean) TestFilterBoolean() {
+	f.assertFilterJSON(arrow.FixedWidthTypes.Boolean, `[]`, `[]`, `[]`)
+	f.assertFilterJSON(arrow.FixedWidthTypes.Boolean,
+		`[true, false, true]`, `[false, true, false]`, `[false]`)
+	f.assertFilterJSON(arrow.FixedWidthTypes.Boolean,
+		`[null, false, true]`, `[false, true, false]`, `[false]`)
+	f.assertFilterJSON(arrow.FixedWidthTypes.Boolean,
+		`[true, false, true]`, `[null, true, false]`, `[null, false]`)
+}
+
+func (f *FilterKernelWithBoolean) TestDefaultOptions() {
+	values := f.getArr(arrow.PrimitiveTypes.Int8, `[7, 8, null, 9]`)
+	valDatum := compute.NewDatum(values)
+	values.Release()
+	defer valDatum.Release()
+	filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[true, true, false, null]`)
+	filterDatum := compute.NewDatum(filter)
+	filter.Release()
+	defer filterDatum.Release()
+
+	noOpts, err := compute.CallFunction(context.TODO(), "filter", nil, valDatum, filterDatum)
+	f.Require().NoError(err)
+	defer noOpts.Release()
+
+	defOpts, err := compute.CallFunction(context.TODO(), "filter", compute.DefaultFilterOptions(), valDatum, filterDatum)
+	f.Require().NoError(err)
+	defer defOpts.Release()
+
+	assertDatumsEqual(f.T(), defOpts, noOpts, nil, nil)
+}
+
+type FilterKernelExtension struct {
+	FilterKernelTestSuite
+}
+
+func (f *FilterKernelExtension) TestExtension() {
+	dt := types.NewSmallintType()
+	arrow.RegisterExtensionType(dt)
+	defer arrow.UnregisterExtensionType(dt.ExtensionName())
+
+	f.assertFilterJSON(dt, `[]`, `[]`, `[]`)
+	f.assertFilterJSON(dt, `[9]`, `[false]`, `[]`)
+	f.assertFilterJSON(dt, `[9]`, `[true]`, `[9]`)
+	f.assertFilterJSON(dt, `[9]`, `[null]`, `[null]`)
+	f.assertFilterJSON(dt, `[null]`, `[false]`, `[]`)
+	f.assertFilterJSON(dt, `[null]`, `[true]`, `[null]`)
+	f.assertFilterJSON(dt, `[null]`, `[null]`, `[null]`)
+
+	f.assertFilterJSON(dt, `[7, 8, 9]`, `[false, true, false]`, `[8]`)
+	f.assertFilterJSON(dt, `[7, 8, 9]`, `[true, false, true]`, `[7, 9]`)
+	f.assertFilterJSON(dt, `[null, 8, 9]`, `[false, true, false]`, `[8]`)
+	f.assertFilterJSON(dt, `[7, 8, 9]`, `[null, true, false]`, `[null, 8]`)
+	f.assertFilterJSON(dt, `[7, 8, 9]`, `[true, null, true]`, `[7, null, 9]`)
+
+	val := f.getArr(dt, `[7, 8, 9]`)
+	defer val.Release()
+	filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[false, true, true, true, false, true]`)
+	defer filter.Release()
+	filter = array.NewSlice(filter, 3, 6)
+	defer filter.Release()
+	exp := f.getArr(dt, `[7, 9]`)
+	defer exp.Release()
+
+	f.assertFilter(val, filter, exp)
+
+	invalidFilter := f.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
+	defer invalidFilter.Release()
+
+	_, err := compute.FilterArray(context.TODO(), val, invalidFilter, f.emitNulls)
+	f.ErrorIs(err, arrow.ErrInvalid)
+	_, err = compute.FilterArray(context.TODO(), val, invalidFilter, f.dropOpts)
+	f.ErrorIs(err, arrow.ErrInvalid)
+}
+
+type FilterKernelNumeric struct {
+	FilterKernelTestSuite
+
+	dt arrow.DataType
+}
+
+func (f *FilterKernelNumeric) TestFilterNumeric() {
+	f.Run(f.dt.String(), func() {
+		f.assertFilterJSON(f.dt, `[]`, `[]`, `[]`)
+		f.assertFilterJSON(f.dt, `[9]`, `[false]`, `[]`)
+		f.assertFilterJSON(f.dt, `[9]`, `[true]`, `[9]`)
+		f.assertFilterJSON(f.dt, `[9]`, `[null]`, `[null]`)
+		f.assertFilterJSON(f.dt, `[null]`, `[false]`, `[]`)
+		f.assertFilterJSON(f.dt, `[null]`, `[true]`, `[null]`)
+		f.assertFilterJSON(f.dt, `[null]`, `[null]`, `[null]`)
+
+		f.assertFilterJSON(f.dt, `[7, 8, 9]`, `[false, true, false]`, `[8]`)
+		f.assertFilterJSON(f.dt, `[7, 8, 9]`, `[true, false, true]`, `[7, 9]`)
+		f.assertFilterJSON(f.dt, `[null, 8, 9]`, `[false, true, false]`, `[8]`)
+		f.assertFilterJSON(f.dt, `[7, 8, 9]`, `[null, true, false]`, `[null, 8]`)
+		f.assertFilterJSON(f.dt, `[7, 8, 9]`, `[true, null, true]`, `[7, null, 9]`)
+
+		val := f.getArr(f.dt, `[7, 8, 9]`)
+		defer val.Release()
+		filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[false, true, true, true, false, true]`)
+		defer filter.Release()
+		filter = array.NewSlice(filter, 3, 6)
+		defer filter.Release()
+		exp := f.getArr(f.dt, `[7, 9]`)
+		defer exp.Release()
+
+		f.assertFilter(val, filter, exp)
+
+		invalidFilter := f.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
+		defer invalidFilter.Release()
+
+		_, err := compute.FilterArray(context.TODO(), val, invalidFilter, f.emitNulls)
+		f.ErrorIs(err, arrow.ErrInvalid)
+		_, err = compute.FilterArray(context.TODO(), val, invalidFilter, f.dropOpts)
+		f.ErrorIs(err, arrow.ErrInvalid)
+	})
+}
+
+type comparator[T exec.NumericTypes] func(a, b T) bool
+
+func getComparator[T exec.NumericTypes](op kernels.CompareOperator) comparator[T] {
+	return []comparator[T]{
+		// EQUAL
+		func(a, b T) bool { return a == b },
+		// NOT EQUAL
+		func(a, b T) bool { return a != b },
+		// GREATER
+		func(a, b T) bool { return a > b },
+		// GREATER_EQUAL
+		func(a, b T) bool { return a >= b },
+		// LESS
+		func(a, b T) bool { return a < b },
+		// LESS_EQUAL
+		func(a, b T) bool { return a <= b },
+	}[int8(op)]
+}
+
+func compareAndFilterImpl[T exec.NumericTypes](mem memory.Allocator, data []T, fn func(T) bool) arrow.Array {
+	filtered := make([]T, 0, len(data))
+	for _, v := range data {
+		if fn(v) {
+			filtered = append(filtered, v)
+		}
+	}
+	return exec.ArrayFromSlice(mem, filtered)
+}
+
+func compareAndFilterValue[T exec.NumericTypes](mem memory.Allocator, data []T, val T, op kernels.CompareOperator) arrow.Array {
+	cmp := getComparator[T](op)
+	return compareAndFilterImpl(mem, data, func(e T) bool { return cmp(e, val) })
+}
+
+func compareAndFilterSlice[T exec.NumericTypes](mem memory.Allocator, data, other []T, op kernels.CompareOperator) arrow.Array {
+	cmp := getComparator[T](op)
+	i := 0
+	return compareAndFilterImpl(mem, data, func(e T) bool {
+		ret := cmp(e, other[i])
+		i++
+		return ret
+	})
+}
+
+func createFilterImpl[T exec.NumericTypes](mem memory.Allocator, data []T, fn func(T) bool) arrow.Array {
+	bldr := array.NewBooleanBuilder(mem)
+	defer bldr.Release()
+	for _, v := range data {
+		bldr.Append(fn(v))
+	}
+	return bldr.NewArray()
+}
+
+func createFilterValue[T exec.NumericTypes](mem memory.Allocator, data []T, val T, op kernels.CompareOperator) arrow.Array {
+	cmp := getComparator[T](op)
+	return createFilterImpl(mem, data, func(e T) bool { return cmp(e, val) })
+}
+
+func createFilterSlice[T exec.NumericTypes](mem memory.Allocator, data, other []T, op kernels.CompareOperator) arrow.Array {
+	cmp := getComparator[T](op)
+	i := 0
+	return createFilterImpl(mem, data, func(e T) bool {
+		ret := cmp(e, other[i])
+		i++
+		return ret
+	})
+}
+
+func compareScalarAndFilterRandomNumeric[T exec.NumericTypes](t *testing.T, mem memory.Allocator) {
+	dt := exec.GetDataType[T]()
+
+	rng := gen.NewRandomArrayGenerator(randomSeed, mem)
+	t.Run("compare scalar and filter", func(t *testing.T) {
+		for i := 3; i < 10; i++ {
+			length := int64(1 << i)
+			t.Run(fmt.Sprintf("random %d", length), func(t *testing.T) {
+				arr := rng.Numeric(dt.ID(), length, 0, 100, 0)
+				defer arr.Release()
+				data := exec.GetData[T](arr.Data().Buffers()[1].Bytes())
+				for _, op := range []kernels.CompareOperator{kernels.CmpEQ, kernels.CmpNE, kernels.CmpGT, kernels.CmpLE} {
+					selection := createFilterValue(mem, data, 50, op)
+					defer selection.Release()
+
+					filtered, err := compute.FilterArray(context.TODO(), arr, selection, *compute.DefaultFilterOptions())
+					assert.NoError(t, err)
+					defer filtered.Release()
+
+					expected := compareAndFilterValue(mem, data, 50, op)
+					defer expected.Release()
+
+					assertArraysEqual(t, expected, filtered)
+				}
+			})
+		}
+	})
+}
+
+func compareArrayAndFilterRandomNumeric[T exec.NumericTypes](t *testing.T, mem memory.Allocator) {
+	dt := exec.GetDataType[T]()
+	rng := gen.NewRandomArrayGenerator(randomSeed, mem)
+	t.Run("compare array and filter", func(t *testing.T) {
+		for i := 3; i < 10; i++ {
+			length := int64(1 << i)
+			t.Run(fmt.Sprintf("length %d", length), func(t *testing.T) {
+				lhs := rng.Numeric(dt.ID(), length, 0, 100, 0)
+				defer lhs.Release()
+				rhs := rng.Numeric(dt.ID(), length, 0, 100, 0)
+				defer rhs.Release()
+
+				data := exec.GetData[T](lhs.Data().Buffers()[1].Bytes())
+				other := exec.GetData[T](rhs.Data().Buffers()[1].Bytes())
+				for _, op := range []kernels.CompareOperator{kernels.CmpEQ, kernels.CmpNE, kernels.CmpGT, kernels.CmpLE} {
+					selection := createFilterSlice(mem, data, other, op)
+					defer selection.Release()
+
+					filtered, err := compute.FilterArray(context.TODO(), lhs, selection, *compute.DefaultFilterOptions())
+					require.NoError(t, err)
+					defer filtered.Release()
+
+					expected := compareAndFilterSlice(mem, data, other, op)
+					defer expected.Release()
+
+					assertArraysEqual(t, expected, filtered)
+				}
+			})
+		}
+	})
+}
+
+func (f *FilterKernelNumeric) TestCompareScalarAndFilterRandom() {
+	switch f.dt.ID() {
+	case arrow.INT8:
+		compareScalarAndFilterRandomNumeric[int8](f.T(), f.mem)
+		compareArrayAndFilterRandomNumeric[int8](f.T(), f.mem)
+	case arrow.UINT8:
+		compareScalarAndFilterRandomNumeric[uint8](f.T(), f.mem)
+		compareArrayAndFilterRandomNumeric[uint8](f.T(), f.mem)
+	case arrow.INT16:
+		compareScalarAndFilterRandomNumeric[int16](f.T(), f.mem)
+		compareArrayAndFilterRandomNumeric[int16](f.T(), f.mem)
+	case arrow.UINT16:
+		compareScalarAndFilterRandomNumeric[uint16](f.T(), f.mem)
+		compareArrayAndFilterRandomNumeric[uint16](f.T(), f.mem)
+	case arrow.INT32:
+		compareScalarAndFilterRandomNumeric[int32](f.T(), f.mem)
+		compareArrayAndFilterRandomNumeric[int32](f.T(), f.mem)
+	case arrow.UINT32:
+		compareScalarAndFilterRandomNumeric[uint32](f.T(), f.mem)
+		compareArrayAndFilterRandomNumeric[uint32](f.T(), f.mem)
+	case arrow.INT64:
+		compareScalarAndFilterRandomNumeric[int64](f.T(), f.mem)
+		compareArrayAndFilterRandomNumeric[int64](f.T(), f.mem)
+	case arrow.UINT64:
+		compareScalarAndFilterRandomNumeric[uint64](f.T(), f.mem)
+		compareArrayAndFilterRandomNumeric[uint64](f.T(), f.mem)
+	case arrow.FLOAT32:
+		compareScalarAndFilterRandomNumeric[float32](f.T(), f.mem)
+		compareArrayAndFilterRandomNumeric[float32](f.T(), f.mem)
+	case arrow.FLOAT64:
+		compareScalarAndFilterRandomNumeric[float64](f.T(), f.mem)
+		compareArrayAndFilterRandomNumeric[float64](f.T(), f.mem)
+	}
+}
+
+type FilterKernelWithDecimal struct {
+	FilterKernelTestSuite
+
+	dt arrow.DataType
+}
+
+func (f *FilterKernelWithDecimal) TestFilterDecimalNumeric() {
+	f.assertFilterJSON(f.dt, `[]`, `[]`, `[]`)
+
+	f.assertFilterJSON(f.dt, `["9.00"]`, `[false]`, `[]`)
+	f.assertFilterJSON(f.dt, `["9.00"]`, `[true]`, `["9.00"]`)
+	f.assertFilterJSON(f.dt, `["9.00"]`, `[null]`, `[null]`)
+	f.assertFilterJSON(f.dt, `[null]`, `[false]`, `[]`)
+	f.assertFilterJSON(f.dt, `[null]`, `[true]`, `[null]`)
+	f.assertFilterJSON(f.dt, `[null]`, `[null]`, `[null]`)
+
+	f.assertFilterJSON(f.dt, `["7.12", "8.00", "9.87"]`, `[false, true, false]`, `["8.00"]`)
+	f.assertFilterJSON(f.dt, `["7.12", "8.00", "9.87"]`, `[true, false, true]`, `["7.12", "9.87"]`)
+	f.assertFilterJSON(f.dt, `[null, "8.00", "9.87"]`, `[false, true, false]`, `["8.00"]`)
+	f.assertFilterJSON(f.dt, `["7.12", "8.00", "9.87"]`, `[null, true, false]`, `[null, "8.00"]`)
+	f.assertFilterJSON(f.dt, `["7.12", "8.00", "9.87"]`, `[true, null, true]`, `["7.12", null, "9.87"]`)
+
+	val := f.getArr(f.dt, `["7.12", "8.00", "9.87"]`)
+	defer val.Release()
+	filter := f.getArr(arrow.FixedWidthTypes.Boolean, `[false, true, true, true, false, true]`)
+	defer filter.Release()
+	filter = array.NewSlice(filter, 3, 6)
+	defer filter.Release()
+	exp := f.getArr(f.dt, `["7.12", "9.87"]`)
+	defer exp.Release()
+
+	f.assertFilter(val, filter, exp)
+
+	invalidFilter := f.getArr(arrow.FixedWidthTypes.Boolean, `[]`)
+	defer invalidFilter.Release()
+
+	_, err := compute.FilterArray(context.TODO(), val, invalidFilter, f.emitNulls)
+	f.ErrorIs(err, arrow.ErrInvalid)
+	_, err = compute.FilterArray(context.TODO(), val, invalidFilter, f.dropOpts)
+	f.ErrorIs(err, arrow.ErrInvalid)
+}
+
+type FilterKernelWithString struct {
+	FilterKernelTestSuite
+
+	dt arrow.DataType
+}
+
+func (f *FilterKernelWithString) TestFilterString() {
+	f.Run(f.dt.String(), func() {
+		f.assertFilterJSON(f.dt, `["YQ==", "Yg==", "Yw=="]`, `[false, true, false]`, `["Yg=="]`)
+		f.assertFilterJSON(f.dt, `[null, "Yg==", "Yw=="]`, `[false, true, false]`, `["Yg=="]`)
+		f.assertFilterJSON(f.dt, `["YQ==", "Yg==", "Yw=="]`, `[null, true, false]`, `[null, "Yg=="]`)
+	})
+}
+
+type FilterKernelWithList struct {
+	FilterKernelTestSuite
+}
+
+func (f *FilterKernelWithList) TestListInt32() {
+	dt := arrow.ListOf(arrow.PrimitiveTypes.Int32)
+	listJSON := `[[], [1, 2], null, [3]]`
+	f.assertFilterJSON(dt, listJSON, `[false, false, false, false]`, `[]`)
+	f.assertFilterJSON(dt, listJSON, `[false, true, true, null]`, `[[1, 2], null, null]`)
+	f.assertFilterJSON(dt, listJSON, `[false, false, true, null]`, `[null, null]`)
+	f.assertFilterJSON(dt, listJSON, `[true, false, false, true]`, `[[], [3]]`)
+	f.assertFilterJSON(dt, listJSON, `[true, true, true, true]`, listJSON)
+	f.assertFilterJSON(dt, listJSON, `[false, true, false, true]`, `[[1, 2], [3]]`)
+}
+
+func (f *FilterKernelWithList) TestListListInt32() {
+	dt := arrow.ListOf(arrow.ListOf(arrow.PrimitiveTypes.Int32))
+	listJSON := `[
+		[],
+		[[1], [2, null, 2], []],
+		null,
+		[[3, null], null]
+	]`
+
+	f.assertFilterJSON(dt, listJSON, `[false, false, false, false]`, `[]`)
+	f.assertFilterJSON(dt, listJSON, `[false, true, true, null]`, `[
+		[[1], [2, null, 2], []],
+		null,
+		null
+	]`)
+	f.assertFilterJSON(dt, listJSON, `[false, false, true, null]`, `[null, null]`)
+	f.assertFilterJSON(dt, listJSON, `[true, false, false, true]`, `[
+		[],
+		[[3, null], null]
+	]`)
+	f.assertFilterJSON(dt, listJSON, `[true, true, true, true]`, listJSON)
+	f.assertFilterJSON(dt, listJSON, `[false, true, false, true]`, `[
+		[[1], [2, null, 2], []],
+		[[3, null], null]
+	]`)
+}
+
+func (f *FilterKernelWithList) TestLargeListInt32() {
+	dt := arrow.LargeListOf(arrow.PrimitiveTypes.Int32)
+	listJSON := `[[], [1, 2], null, [3]]`
+	f.assertFilterJSON(dt, listJSON, `[false, false, false, false]`, `[]`)
+	f.assertFilterJSON(dt, listJSON, `[false, true, true, null]`, `[[1, 2], null, null]`)
+}
+
+func (f *FilterKernelWithList) TestFixedSizeListInt32() {
+	dt := arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int32)
+	listJSON := `[null, [1, null, 3], [4, 5, 6], [7, 8, null]]`
+	f.assertFilterJSON(dt, listJSON, `[false, false, false, false]`, `[]`)
+	f.assertFilterJSON(dt, listJSON, `[false, true, true, null]`, `[[1, null, 3], [4, 5, 6], null]`)
+	f.assertFilterJSON(dt, listJSON, `[false, false, true, null]`, `[[4, 5, 6], null]`)
+	f.assertFilterJSON(dt, listJSON, `[true, true, true, true]`, listJSON)
+	f.assertFilterJSON(dt, listJSON, `[false, true, false, true]`, `[[1, null, 3], [7, 8, null]]`)
+}
+
+type FilterKernelWithUnion struct {
+	FilterKernelTestSuite
+}
+
+func (f *FilterKernelWithUnion) TestDenseUnion() {
+	dt := arrow.DenseUnionOf([]arrow.Field{
+		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
+	}, []arrow.UnionTypeCode{2, 5})
+
+	unionJSON := `[
+		[2, null],
+		[2, 222],
+		[5, "hello"],
+		[5, "eh"],
+		[2, null],
+		[2, 111],
+		[5, null]
+	]`
+
+	f.assertFilterJSON(dt, unionJSON, `[false, false, false, false, false, false, false]`, `[]`)
+	f.assertFilterJSON(dt, unionJSON, `[false, true, true, null, false, true, true]`, `[
+		[2, 222],
+		[5, "hello"],
+		[2, null],
+		[2, 111],
+		[5, null]
+	]`)
+	f.assertFilterJSON(dt, unionJSON, `[true, false, true, false, true, false, false]`, `[
+		[2, null],
+		[5, "hello"],
+		[2, null]
+	]`)
+	f.assertFilterJSON(dt, unionJSON, `[true, true, true, true, true, true, true]`, unionJSON)
+
+	// sliced
+	// (check this manually as concat of dense unions isn't supported)
+	unionArr, _, _ := array.FromJSON(f.mem, dt, strings.NewReader(unionJSON))
+	defer unionArr.Release()
+
+	filterArr, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(`[false, true, true, null, false, true, true]`))
+	defer filterArr.Release()
+
+	expected, _, _ := array.FromJSON(f.mem, dt, strings.NewReader(`[[5, "hello"], [2, null], [2, 111]]`))
+	defer expected.Release()
+
+	values := array.NewSlice(unionArr, 2, 6)
+	defer values.Release()
+	filter := array.NewSlice(filterArr, 2, 6)
+	defer filter.Release()
+	f.assertFilter(values, filter, expected)
+}
+
+type FilterKernelWithStruct struct {
+	FilterKernelTestSuite
+}
+
+func (f *FilterKernelWithStruct) TestStruct() {
+	dt := arrow.StructOf(arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		arrow.Field{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true})
+
+	structJSON := `[
+		null,
+		{"a": 1, "b": ""},
+		{"a": 2, "b": "hello"},
+		{"a": 4, "b": "eh"}
+	]`
+
+	f.assertFilterJSON(dt, structJSON, `[false, false, false, false]`, `[]`)
+	f.assertFilterJSON(dt, structJSON, `[false, true, true, null]`, `[
+		{"a": 1, "b": ""},
+		{"a": 2, "b": "hello"},
+		null
+	]`)
+	f.assertFilterJSON(dt, structJSON, `[true, true, true, true]`, structJSON)
+	f.assertFilterJSON(dt, structJSON, `[true, false, true, false]`, `[null, {"a": 2, "b": "hello"}]`)
+}
+
+type FilterKernelWithRecordBatch struct {
+	FilterKernelTestSuite
+}
+
+func (f *FilterKernelWithRecordBatch) doFilter(sc *arrow.Schema, batchJSON, selection string, opts compute.FilterOptions) (arrow.Record, error) {
+	rec, _, err := array.RecordFromJSON(f.mem, sc, strings.NewReader(batchJSON), array.WithUseNumber())
+	if err != nil {
+		return nil, err
+	}
+	defer rec.Release()
+
+	batch := compute.NewDatum(rec)
+	defer batch.Release()
+
+	filter, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(selection))
+	defer filter.Release()
+	filterDatum := compute.NewDatum(filter)
+	defer filterDatum.Release()
+
+	outDatum, err := compute.Filter(context.TODO(), batch, filterDatum, opts)
+	if err != nil {
+		return nil, err
+	}
+
+	return outDatum.(*compute.RecordDatum).Value, nil
+}
+
+func (f *FilterKernelWithRecordBatch) assertFilter(sc *arrow.Schema, batchJSON, selection string, opts compute.FilterOptions, expectedBatch string) {
+	actual, err := f.doFilter(sc, batchJSON, selection, opts)
+	f.Require().NoError(err)
+	defer actual.Release()
+
+	expected, _, err := array.RecordFromJSON(f.mem, sc, strings.NewReader(expectedBatch), array.WithUseNumber())
+	f.Require().NoError(err)
+	defer expected.Release()
+
+	f.Truef(array.RecordEqual(expected, actual), "expected: %s\ngot: %s", expected, actual)
+}
+
+func (f *FilterKernelWithRecordBatch) TestFilterRecord() {
+	fields := []arrow.Field{
+		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
+	}
+	sc := arrow.NewSchema(fields, nil)
+
+	batchJSON := `[
+		{"a": null, "b": "yo"},
+		{"a": 1, "b": ""},
+		{"a": 2, "b": "hello"},
+		{"a": 4, "b": "eh"}
+	]`
+
+	for _, opts := range []compute.FilterOptions{f.emitNulls, f.dropOpts} {
+		f.assertFilter(sc, batchJSON, `[false, false, false, false]`, opts, `[]`)
+		f.assertFilter(sc, batchJSON, `[true, true, true, true]`, opts, batchJSON)
+		f.assertFilter(sc, batchJSON, `[true, false, true, false]`, opts, `[
+			{"a": null, "b": "yo"},
+			{"a": 2, "b": "hello"}
+		]`)
+	}
+
+	f.assertFilter(sc, batchJSON, `[false, true, true, null]`, f.dropOpts, `[
+		{"a": 1, "b": ""},
+		{"a": 2, "b": "hello"}
+	]`)
+
+	f.assertFilter(sc, batchJSON, `[false, true, true, null]`, f.emitNulls, `[
+		{"a": 1, "b": ""},
+		{"a": 2, "b": "hello"},
+		{"a": null, "b": null}
+	]`)
+}
+
+type FilterKernelWithChunked struct {
+	FilterKernelTestSuite
+}
+
+func (f *FilterKernelWithChunked) filterWithArray(dt arrow.DataType, values []string, filterStr string) (*arrow.Chunked, error) {
+	chk, err := array.ChunkedFromJSON(f.mem, dt, values)
+	f.Require().NoError(err)
+	defer chk.Release()
+
+	input := compute.NewDatum(chk)
+	defer input.Release()
+
+	filter, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(filterStr))
+	defer filter.Release()
+
+	filterDatum := compute.NewDatum(filter)
+	defer filterDatum.Release()
+
+	out, err := compute.Filter(context.TODO(), input, filterDatum, *compute.DefaultFilterOptions())
+	if err != nil {
+		return nil, err
+	}
+	return out.(*compute.ChunkedDatum).Value, nil
+}
+
+func (f *FilterKernelWithChunked) filterWithChunked(dt arrow.DataType, values, filter []string) (*arrow.Chunked, error) {
+	chk, err := array.ChunkedFromJSON(f.mem, dt, values)
+	f.Require().NoError(err)
+	defer chk.Release()
+
+	input := compute.NewDatum(chk)
+	defer input.Release()
+
+	filtChk, err := array.ChunkedFromJSON(f.mem, arrow.FixedWidthTypes.Boolean, filter)
+	f.Require().NoError(err)
+	defer filtChk.Release()
+
+	filtDatum := compute.NewDatum(filtChk)
+	defer filtDatum.Release()
+
+	out, err := compute.Filter(context.TODO(), input, filtDatum, *compute.DefaultFilterOptions())
+	if err != nil {
+		return nil, err
+	}
+	return out.(*compute.ChunkedDatum).Value, nil
+}
+
+func (f *FilterKernelWithChunked) assertFilter(dt arrow.DataType, values []string, filter string, expected []string) {
+	actual, err := f.filterWithArray(dt, values, filter)
+	f.Require().NoError(err)
+	defer actual.Release()
+
+	expectedResult, _ := array.ChunkedFromJSON(f.mem, dt, expected)
+	defer expectedResult.Release()
+	if !f.True(array.ChunkedEqual(expectedResult, actual)) {
+		var s strings.Builder
+		s.WriteString("expected: \n")
+		for _, c := range expectedResult.Chunks() {
+			fmt.Fprintf(&s, "%s\n", c)
+		}
+		s.WriteString("actual: \n")
+		for _, c := range actual.Chunks() {
+			fmt.Fprintf(&s, "%s\n", c)
+		}
+		f.T().Log(s.String())
+	}
+}
+
+func (f *FilterKernelWithChunked) assertChunkedFilter(dt arrow.DataType, values, filter, expected []string) {
+	actual, err := f.filterWithChunked(dt, values, filter)
+	f.Require().NoError(err)
+	defer actual.Release()
+
+	expectedResult, _ := array.ChunkedFromJSON(f.mem, dt, expected)
+	defer expectedResult.Release()
+	if !f.True(array.ChunkedEqual(expectedResult, actual)) {
+		var s strings.Builder
+		s.WriteString("expected: \n")
+		for _, c := range expectedResult.Chunks() {
+			fmt.Fprintf(&s, "%s\n", c)
+		}
+		s.WriteString("actual: \n")
+		for _, c := range actual.Chunks() {
+			fmt.Fprintf(&s, "%s\n", c)
+		}
+		f.T().Log(s.String())
+	}
+}
+
+func (f *FilterKernelWithChunked) TestFilterChunked() {
+	f.assertFilter(arrow.PrimitiveTypes.Int8, []string{`[]`}, `[]`, []string{})
+	f.assertChunkedFilter(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{`[]`}, []string{})
+
+	f.assertFilter(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[false, true, false]`, []string{`[8]`})
+	f.assertChunkedFilter(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[false]`, `[true, false]`}, []string{`[8]`})
+	f.assertChunkedFilter(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[false, true]`, `[false]`}, []string{`[8]`})
+
+	_, err := f.filterWithArray(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[false, true, false, true, true]`)
+	f.ErrorIs(err, arrow.ErrInvalid)
+	_, err = f.filterWithChunked(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[ false, true, false]`, `[true, true]`})
+	f.ErrorIs(err, arrow.ErrInvalid)
+}
+
+type FilterKernelWithTable struct {
+	FilterKernelTestSuite
+}
+
+func (f *FilterKernelWithTable) filterWithArray(sc *arrow.Schema, values []string, filter string, opts compute.FilterOptions) (arrow.Table, error) {
+	tbl, err := array.TableFromJSON(f.mem, sc, values)
+	if err != nil {
+		return nil, err
+	}
+	defer tbl.Release()
+
+	filterArr, _, _ := array.FromJSON(f.mem, arrow.FixedWidthTypes.Boolean, strings.NewReader(filter))
+	defer filterArr.Release()
+
+	out, err := compute.Filter(context.TODO(), &compute.TableDatum{Value: tbl}, &compute.ArrayDatum{Value: filterArr.Data()}, opts)
+	if err != nil {
+		return nil, err
+	}
+	return out.(*compute.TableDatum).Value, nil
+}
+
+func (f *FilterKernelWithTable) filterWithChunked(sc *arrow.Schema, values, filter []string, opts compute.FilterOptions) (arrow.Table, error) {
+	tbl, err := array.TableFromJSON(f.mem, sc, values)
+	if err != nil {
+		return nil, err
+	}
+	defer tbl.Release()
+
+	filtChk, err := array.ChunkedFromJSON(f.mem, arrow.FixedWidthTypes.Boolean, filter)
+	f.Require().NoError(err)
+	defer filtChk.Release()
+
+	out, err := compute.Filter(context.TODO(), &compute.TableDatum{Value: tbl}, &compute.ChunkedDatum{Value: filtChk}, opts)
+	if err != nil {
+		return nil, err
+	}
+	return out.(*compute.TableDatum).Value, nil
+}
+
+func (f *FilterKernelWithTable) assertChunkedFilter(sc *arrow.Schema, tableJSON, filter []string, opts compute.FilterOptions, expTable []string) {
+	actual, err := f.filterWithChunked(sc, tableJSON, filter, opts)
+	f.Require().NoError(err)
+	defer actual.Release()
+
+	expected, err := array.TableFromJSON(f.mem, sc, expTable)
+	f.Require().NoError(err)
+	defer expected.Release()
+
+	f.Truef(array.TableEqual(expected, actual), "expected: %s\ngot: %s", expected, actual)
+}
+
+func (f *FilterKernelWithTable) assertFilter(sc *arrow.Schema, tableJSON []string, filter string, opts compute.FilterOptions, expectedTable []string) {
+	actual, err := f.filterWithArray(sc, tableJSON, filter, opts)
+	f.Require().NoError(err)
+	defer actual.Release()
+
+	expected, err := array.TableFromJSON(f.mem, sc, expectedTable)
+	f.Require().NoError(err)
+	defer expected.Release()
+
+	f.Truef(array.TableEqual(expected, actual), "expected: %s\ngot: %s", expected, actual)
+}
+
+func (f *FilterKernelWithTable) TestFilterTable() {
+	fields := []arrow.Field{
+		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
+	}
+	sc := arrow.NewSchema(fields, nil)
+	tableJSON := []string{`[
+		{"a": null, "b": "yo"},
+		{"a": 1, "b": ""}
+	]`, `[
+		{"a": 2, "b": "hello"},
+		{"a": 4, "b": "eh"}
+	]`}
+
+	for _, opt := range []compute.FilterOptions{f.emitNulls, f.dropOpts} {
+		f.assertFilter(sc, tableJSON, `[false, false, false, false]`, opt, []string{})
+		f.assertChunkedFilter(sc, tableJSON, []string{`[false]`, `[false, false, false]`}, opt, []string{})
+		f.assertFilter(sc, tableJSON, `[true, true, true, true]`, opt, tableJSON)
+		f.assertChunkedFilter(sc, tableJSON, []string{`[true]`, `[true, true, true]`}, opt, tableJSON)
+	}
+
+	expectedEmitNull := []string{`[{"a": 1, "b": ""}]`, `[{"a": 2, "b": "hello"},{"a": null, "b": null}]`}
+	f.assertFilter(sc, tableJSON, `[false, true, true, null]`, f.emitNulls, expectedEmitNull)
+	f.assertChunkedFilter(sc, tableJSON, []string{`[false, true, true]`, `[null]`}, f.emitNulls, expectedEmitNull)
+
+	expectedDrop := []string{`[{"a": 1, "b": ""}]`, `[{"a": 2, "b": "hello"}]`}
+	f.assertFilter(sc, tableJSON, `[false, true, true, null]`, f.dropOpts, expectedDrop)
+	f.assertChunkedFilter(sc, tableJSON, []string{`[false, true, true]`, `[null]`}, f.dropOpts, expectedDrop)
+}
+
+type TakeKernelTestTyped struct {
+	TakeKernelTestSuite
+
+	dt arrow.DataType
+}
+
+func (tk *TakeKernelTestTyped) assertTake(values, indices, expected string) {
+	tk.checkTake(tk.dt, values, indices, expected)
+}
+
+type TakeKernelTestNumeric struct {
+	TakeKernelTestTyped
+}
+
+func (tk *TakeKernelTestNumeric) TestTakeNumeric() {
+	tk.Run(tk.dt.String(), func() {
+		tk.assertTake(`[7, 8, 9]`, `[]`, `[]`)
+		tk.assertTake(`[7, 8, 9]`, `[0, 1, 0]`, `[7, 8, 7]`)
+		tk.assertTake(`[null, 8, 9]`, `[0, 1, 0]`, `[null, 8, null]`)
+		tk.assertTake(`[7, 8, 9]`, `[null, 1, 0]`, `[null, 8, 7]`)
+		tk.assertTake(`[null, 8, 9]`, `[]`, `[]`)
+		tk.assertTake(`[7, 8, 9]`, `[0, 0, 0, 0, 0, 0, 2]`, `[7, 7, 7, 7, 7, 7, 9]`)
+
+		_, err := tk.takeJSON(tk.dt, `[7, 8, 9]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
+		tk.ErrorIs(err, arrow.ErrIndex)
+		_, err = tk.takeJSON(tk.dt, `[7, 8, 9]`, arrow.PrimitiveTypes.Int8, `[0, -1, 0]`)
+		tk.ErrorIs(err, arrow.ErrIndex)
+	})
+}
+
+type TakeKernelTestExtension struct {
+	TakeKernelTestTyped
+}
+
+func (tk *TakeKernelTestExtension) TestTakeExtension() {
+	tk.dt = types.NewSmallintType()
+	arrow.RegisterExtensionType(tk.dt.(arrow.ExtensionType))
+	defer arrow.UnregisterExtensionType("smallint")
+
+	tk.assertTake(`[7, 8, 9]`, `[]`, `[]`)
+	tk.assertTake(`[7, 8, 9]`, `[0, 1, 0]`, `[7, 8, 7]`)
+	tk.assertTake(`[null, 8, 9]`, `[0, 1, 0]`, `[null, 8, null]`)
+	tk.assertTake(`[7, 8, 9]`, `[null, 1, 0]`, `[null, 8, 7]`)
+	tk.assertTake(`[null, 8, 9]`, `[]`, `[]`)
+	tk.assertTake(`[7, 8, 9]`, `[0, 0, 0, 0, 0, 0, 2]`, `[7, 7, 7, 7, 7, 7, 9]`)
+
+	_, err := tk.takeJSON(tk.dt, `[7, 8, 9]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
+	tk.ErrorIs(err, arrow.ErrIndex)
+	_, err = tk.takeJSON(tk.dt, `[7, 8, 9]`, arrow.PrimitiveTypes.Int8, `[0, -1, 0]`)
+	tk.ErrorIs(err, arrow.ErrIndex)
+}
+
+type TakeKernelTestFSB struct {
+	TakeKernelTestTyped
+}
+
+func (tk *TakeKernelTestFSB) SetupSuite() {
+	tk.dt = &arrow.FixedSizeBinaryType{ByteWidth: 3}
+}
+
+func (tk *TakeKernelTestFSB) TestFixedSizeBinary() {
+	// YWFh == base64("aaa")
+	// YmJi == base64("bbb")
+	// Y2Nj == base64("ccc")
+	tk.assertTake(`["YWFh", "YmJi", "Y2Nj"]`, `[0, 1, 0]`, `["YWFh", "YmJi", "YWFh"]`)
+	tk.assertTake(`[null, "YmJi", "Y2Nj"]`, `[0, 1, 0]`, `[null, "YmJi", null]`)
+	tk.assertTake(`["YWFh", "YmJi", "Y2Nj"]`, `[null, 1, 0]`, `[null, "YmJi", "YWFh"]`)
+
+	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `["YWFh", "YmJi", "Y2Nj"]`, `[0, 1, 0]`)
+
+	_, err := tk.takeJSON(tk.dt, `["YWFh", "YmJi", "Y2Nj"]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
+	tk.ErrorIs(err, arrow.ErrIndex)
+	_, err = tk.takeJSON(tk.dt, `["YWFh", "YmJi", "Y2Nj"]`, arrow.PrimitiveTypes.Int64, `[2, 5]`)
+	tk.ErrorIs(err, arrow.ErrIndex)
+}
+
+type TakeKernelTestString struct {
+	TakeKernelTestTyped
+}
+
+func (tk *TakeKernelTestString) TestTakeString() {
+	tk.Run(tk.dt.String(), func() {
+		// base64 encoded so the binary non-utf8 arrays work
+		// YQ== -> "a"
+		// Yg== -> "b"
+		// Yw== -> "c"
+		tk.assertTake(`["YQ==", "Yg==", "Yw=="]`, `[0, 1, 0]`, `["YQ==", "Yg==", "YQ=="]`)
+		tk.assertTake(`[null, "Yg==", "Yw=="]`, `[0, 1, 0]`, `[null, "Yg==", null]`)
+		tk.assertTake(`["YQ==", "Yg==", "Yw=="]`, `[null, 1, 0]`, `[null, "Yg==", "YQ=="]`)
+
+		tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `["YQ==", "Yg==", "Yw=="]`, `[0, 1, 0]`)
+
+		_, err := tk.takeJSON(tk.dt, `["YQ==", "Yg==", "Yw=="]`, arrow.PrimitiveTypes.Int8, `[0, 9, 0]`)
+		tk.ErrorIs(err, arrow.ErrIndex)
+		_, err = tk.takeJSON(tk.dt, `["YQ==", "Yg==", "Yw=="]`, arrow.PrimitiveTypes.Int64, `[2, 5]`)
+		tk.ErrorIs(err, arrow.ErrIndex)
+	})
+}
+
+type TakeKernelLists struct {
+	TakeKernelTestTyped
+}
+
+func (tk *TakeKernelLists) TestListInt32() {
+	tk.dt = arrow.ListOf(arrow.PrimitiveTypes.Int32)
+
+	listJSON := `[[], [1, 2], null, [3]]`
+	tk.checkTake(tk.dt, listJSON, `[]`, `[]`)
+	tk.checkTake(tk.dt, listJSON, `[3, 2, 1]`, `[[3], null, [1,2]]`)
+	tk.checkTake(tk.dt, listJSON, `[null, 3, 0]`, `[null, [3], []]`)
+	tk.checkTake(tk.dt, listJSON, `[null, null]`, `[null, null]`)
+	tk.checkTake(tk.dt, listJSON, `[3, 0, 0, 3]`, `[[3], [], [], [3]]`)
+	tk.checkTake(tk.dt, listJSON, `[0, 1, 2, 3]`, listJSON)
+	tk.checkTake(tk.dt, listJSON, `[0, 0, 0, 0, 0, 0, 1]`, `[[], [], [], [], [], [], [1, 2]]`)
+
+	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `[[], [1, 2], [3]]`, `[0, 1, 0]`)
+}
+
+func (tk *TakeKernelLists) TestListListInt32() {
+	tk.dt = arrow.ListOf(arrow.ListOf(arrow.PrimitiveTypes.Int32))
+
+	listJSON := `[
+		[],
+		[[1], [2, null, 2], []],
+		null,
+		[[3, null], null]
+	]`
+	tk.checkTake(tk.dt, listJSON, `[]`, `[]`)
+	tk.checkTake(tk.dt, listJSON, `[3, 2, 1]`, `[
+		[[3, null], null],
+		null,
+		[[1], [2, null, 2], []]
+	]`)
+	tk.checkTake(tk.dt, listJSON, `[null, 3, 0]`, `[
+		null,
+		[[3, null], null],
+		[]
+	]`)
+	tk.checkTake(tk.dt, listJSON, `[null, null]`, `[null, null]`)
+	tk.checkTake(tk.dt, listJSON, `[3, 0, 0, 3]`, `[[[3, null], null], [], [], [[3, null], null]]`)
+	tk.checkTake(tk.dt, listJSON, `[0, 1, 2, 3]`, listJSON)
+	tk.checkTake(tk.dt, listJSON, `[0, 0, 0, 0, 0, 0, 1]`,
+		`[[], [], [], [], [], [], [[1], [2, null, 2], []]]`)
+
+	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `[[[1], [2, null, 2], []], [[3, null]]]`, `[0, 1, 0]`)
+}
+
+func (tk *TakeKernelLists) TestLargeListInt32() {
+	tk.dt = arrow.LargeListOf(arrow.PrimitiveTypes.Int32)
+	listJSON := `[[], [1, 2], null, [3]]`
+	tk.checkTake(tk.dt, listJSON, `[]`, `[]`)
+	tk.checkTake(tk.dt, listJSON, `[null, 1, 2, 0]`, `[null, [1, 2], null, []]`)
+}
+
+func (tk *TakeKernelLists) TestFixedSizeListInt32() {
+	tk.dt = arrow.FixedSizeListOf(3, arrow.PrimitiveTypes.Int32)
+	listJSON := `[null, [1, null, 3], [4, 5, 6], [7, 8, null]]`
+	tk.checkTake(tk.dt, listJSON, `[]`, `[]`)
+	tk.checkTake(tk.dt, listJSON, `[3, 2, 1]`, `[[7, 8, null], [4, 5, 6], [1, null, 3]]`)
+	tk.checkTake(tk.dt, listJSON, `[null, 2, 0]`, `[null, [4, 5, 6], null]`)
+	tk.checkTake(tk.dt, listJSON, `[null, null]`, `[null, null]`)
+	tk.checkTake(tk.dt, listJSON, `[3, 0, 0, 3]`, `[[7, 8, null], null, null, [7, 8, null]]`)
+	tk.checkTake(tk.dt, listJSON, `[0, 1, 2, 3]`, listJSON)
+	tk.checkTake(tk.dt, listJSON, `[2, 2, 2, 2, 2, 2, 1]`,
+		`[[4, 5, 6], [4, 5, 6], [4, 5, 6], [4, 5, 6], [4, 5, 6], [4, 5, 6], [1, null, 3]]`)
+
+	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `[[1, null, 3], [4, 5, 6], [7, 8, null]]`, `[0, 1, 0]`)
+}
+
+type TakeKernelDenseUnion struct {
+	TakeKernelTestTyped
+}
+
+func (tk *TakeKernelDenseUnion) TestTakeUnion() {
+	tk.dt = arrow.DenseUnionOf([]arrow.Field{
+		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
+	}, []arrow.UnionTypeCode{2, 5})
+
+	unionJSON := `[
+		[2, null],
+		[2, 222],
+		[5, "hello"],
+		[5, "eh"],
+		[2, null],
+		[2, 111],
+		[5, null]
+	]`
+	tk.checkTake(tk.dt, unionJSON, `[]`, `[]`)
+	tk.checkTake(tk.dt, unionJSON, `[3, 1, 3, 1, 3]`, `[
+		[5, "eh"],
+		[2, 222],
+		[5, "eh"],
+		[2, 222],
+		[5, "eh"]
+	]`)
+	tk.checkTake(tk.dt, unionJSON, `[4, 2, 1, 6]`, `[
+		[2, null],
+		[5, "hello"],
+		[2, 222],
+		[5, null]
+	]`)
+	tk.checkTake(tk.dt, unionJSON, `[0, 1, 2, 3, 4, 5, 6]`, unionJSON)
+	tk.checkTake(tk.dt, unionJSON, `[0, 2, 2, 2, 2, 2, 2]`, `[
+		[2, null],
+		[5, "hello"],
+		[5, "hello"],
+		[5, "hello"],
+		[5, "hello"],
+		[5, "hello"],
+		[5, "hello"]
+	]`)
+}
+
+type TakeKernelStruct struct {
+	TakeKernelTestTyped
+}
+
+func (tk *TakeKernelStruct) TestStruct() {
+	tk.dt = arrow.StructOf(arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		arrow.Field{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true})
+
+	structJSON := `[
+		null,
+		{"a": 1, "b": ""},
+		{"a": 2, "b": "hello"},
+		{"a": 4, "b": "eh"}
+	]`
+
+	tk.checkTake(tk.dt, structJSON, `[]`, `[]`)
+	tk.checkTake(tk.dt, structJSON, `[3, 1, 3, 1, 3]`, `[
+		{"a": 4, "b": "eh"},
+		{"a": 1, "b": ""},
+		{"a": 4, "b": "eh"},
+		{"a": 1, "b": ""},
+		{"a": 4, "b": "eh"}
+	]`)
+	tk.checkTake(tk.dt, structJSON, `[3, 1, 0]`, `[
+		{"a": 4, "b": "eh"},
+		{"a": 1, "b": ""},
+		null
+	]`)
+	tk.checkTake(tk.dt, structJSON, `[0, 1, 2, 3]`, structJSON)
+	tk.checkTake(tk.dt, structJSON, `[0, 2, 2, 2, 2, 2, 2]`, `[
+		null,
+		{"a": 2, "b": "hello"},
+		{"a": 2, "b": "hello"},
+		{"a": 2, "b": "hello"},
+		{"a": 2, "b": "hello"},
+		{"a": 2, "b": "hello"},
+		{"a": 2, "b": "hello"}
+	]`)
+
+	tk.assertNoValidityBitmapUnknownNullCountJSON(tk.dt, `[{"a": 1}, {"a": 2, "b": "hello"}]`, `[0, 1, 0]`)
+}
+
+type TakeKernelTestChunked struct {
+	TakeKernelTestTyped
+}
+
+func (tk *TakeKernelTestChunked) assertTake(dt arrow.DataType, values []string, indices string, expected []string) {
+	actual, err := tk.takeWithArray(dt, values, indices)
+	tk.Require().NoError(err)
+	defer actual.Release()
+
+	exp, err := array.ChunkedFromJSON(tk.mem, dt, expected)
+	tk.Require().NoError(err)
+	defer exp.Release()
+
+	if !tk.True(array.ChunkedEqual(exp, actual)) {
+		var s strings.Builder
+		s.WriteString("expected: \n")
+		for _, c := range exp.Chunks() {
+			fmt.Fprintf(&s, "%s\n", c)
+		}
+		s.WriteString("actual: \n")
+		for _, c := range actual.Chunks() {
+			fmt.Fprintf(&s, "%s\n", c)
+		}
+		tk.T().Log(s.String())
+	}
+}
+
+func (tk *TakeKernelTestChunked) assertChunkedTake(dt arrow.DataType, values, indices, expected []string) {
+	actual, err := tk.takeWithChunked(dt, values, indices)
+	tk.Require().NoError(err)
+	defer actual.Release()
+
+	exp, err := array.ChunkedFromJSON(tk.mem, dt, expected)
+	tk.Require().NoError(err)
+	defer exp.Release()
+
+	if !tk.True(array.ChunkedEqual(exp, actual)) {
+		var s strings.Builder
+		s.WriteString("expected: \n")
+		for _, c := range exp.Chunks() {
+			fmt.Fprintf(&s, "%s\n", c)
+		}
+		s.WriteString("actual: \n")
+		for _, c := range actual.Chunks() {
+			fmt.Fprintf(&s, "%s\n", c)
+		}
+		tk.T().Log(s.String())
+	}
+}
+
+func (tk *TakeKernelTestChunked) takeWithArray(dt arrow.DataType, values []string, indices string) (*arrow.Chunked, error) {
+	chunked, err := array.ChunkedFromJSON(tk.mem, dt, values)
+	tk.Require().NoError(err)
+	defer chunked.Release()
+
+	indicesArr, _, err := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(indices))
+	tk.Require().NoError(err)
+	defer indicesArr.Release()
+
+	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(), &compute.ChunkedDatum{chunked}, &compute.ArrayDatum{indicesArr.Data()})
+	if err != nil {
+		return nil, err
+	}
+	return result.(*compute.ChunkedDatum).Value, nil
+
+}
+
+func (tk *TakeKernelTestChunked) takeWithChunked(dt arrow.DataType, values, indices []string) (*arrow.Chunked, error) {
+	chunked, err := array.ChunkedFromJSON(tk.mem, dt, values)
+	tk.Require().NoError(err)
+	defer chunked.Release()
+
+	chunkedIndices, err := array.ChunkedFromJSON(tk.mem, arrow.PrimitiveTypes.Int8, indices)
+	tk.Require().NoError(err)
+	defer chunkedIndices.Release()
+
+	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(), &compute.ChunkedDatum{chunked}, &compute.ChunkedDatum{chunkedIndices})
+	if err != nil {
+		return nil, err
+	}
+	return result.(*compute.ChunkedDatum).Value, nil
+}
+
+func (tk *TakeKernelTestChunked) TestChunkedArray() {
+	tk.assertTake(arrow.PrimitiveTypes.Int8, []string{`[]`}, `[]`, []string{`[]`})
+	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{}, []string{}, []string{})
+	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{}, []string{`[]`}, []string{`[]`})
+	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{}, []string{`[null]`}, []string{`[null]`})
+	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{}, []string{})
+	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{`[]`}, []string{`[]`})
+	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{`[null]`}, []string{`[null]`})
+
+	tk.assertTake(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[0, 1, 0, 2]`, []string{`[7, 8, 7, 9]`})
+	tk.assertChunkedTake(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[0, 1, 0]`, `[]`, `[2]`}, []string{`[7, 8, 7]`, `[]`, `[9]`})
+	tk.assertTake(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[2, 1]`, []string{`[9, 8]`})
+
+	tk.assertChunkedTake(arrow.FixedWidthTypes.Boolean, []string{`[true]`, `[false, true]`}, []string{`[0, 1, 0]`, `[]`, `[2]`},
+		[]string{`[true, false, true]`, `[]`, `[true]`})
+
+	tk.assertChunkedTake(arrow.PrimitiveTypes.Int32,
+		[]string{`[7, null]`, `[8, 9, 10]`, `[21, null, 42]`}, []string{`[2, 1]`, `[7, 6, 6, 4]`},
+		[]string{`[8, null]`, `[42, null, null, 10]`})
+
+	tk.assertChunkedTake(arrow.BinaryTypes.String,
+		[]string{`["hello", "world", null]`, `["foo", "bar", "baz"]`},
+		[]string{`[3]`, `[null, 2]`, `[0, 1]`, `[4, 5]`},
+		[]string{`["foo"]`, `[null, null]`, `["hello", "world"]`, `["bar", "baz"]`})
+
+	_, err := tk.takeWithArray(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, `[0, 5]`)
+	tk.ErrorIs(err, arrow.ErrIndex)
+	_, err = tk.takeWithChunked(arrow.PrimitiveTypes.Int8, []string{`[7]`, `[8, 9]`}, []string{`[0, 1, 0]`, `[5, 1]`})
+	tk.ErrorIs(err, arrow.ErrIndex)
+	_, err = tk.takeWithChunked(arrow.PrimitiveTypes.Int8, []string{}, []string{`[0]`})
+	tk.ErrorIs(err, arrow.ErrIndex)
+	_, err = tk.takeWithChunked(arrow.PrimitiveTypes.Int8, []string{`[]`}, []string{`[0]`})
+	tk.ErrorIs(err, arrow.ErrIndex)
+}
+
+type TakeKernelTestRecord struct {
+	TakeKernelTestTyped
+}
+
+func (tk *TakeKernelTestRecord) takeJSON(schm *arrow.Schema, batchJSON string, indexType arrow.DataType, indices string) (arrow.Record, error) {
+	batch, _, err := array.RecordFromJSON(tk.mem, schm, strings.NewReader(batchJSON))
+	tk.Require().NoError(err)
+	defer batch.Release()
+	indexArr, _, err := array.FromJSON(tk.mem, indexType, strings.NewReader(indices))
+	tk.Require().NoError(err)
+	defer indexArr.Release()
+	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(),
+		&compute.RecordDatum{Value: batch}, &compute.ArrayDatum{Value: indexArr.Data()})
+	if err != nil {
+		return nil, err
+	}
+	return result.(*compute.RecordDatum).Value, nil
+}
+
+func (tk *TakeKernelTestRecord) assertTake(schm *arrow.Schema, batchJSON, indices, exp string) {
+	expected, _, err := array.RecordFromJSON(tk.mem, schm, strings.NewReader(exp))
+	tk.Require().NoError(err)
+	defer expected.Release()
+
+	for _, idxType := range []arrow.DataType{arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Uint32} {
+		result, err := tk.takeJSON(schm, batchJSON, idxType, indices)
+		tk.NoError(err)
+		defer result.Release()
+		tk.Truef(array.RecordEqual(expected, result), "expected: %s\ngot: %s", expected, result)
+	}
+}
+
+func (tk *TakeKernelTestRecord) TestTakeRecordBatch() {
+	fields := []arrow.Field{
+		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
+	}
+
+	schm := arrow.NewSchema(fields, nil)
+	batchJSON := `[
+		{"a": null, "b": "yo"},
+		{"a": 1, "b": ""},
+		{"a": 2, "b": "hello"},
+		{"a": 4, "b": "eh"}
+	]`
+
+	tk.assertTake(schm, batchJSON, `[]`, `[]`)
+	tk.assertTake(schm, batchJSON, `[3, 1, 3, 1, 3]`, `[
+		{"a": 4, "b": "eh"},
+		{"a": 1, "b": ""},
+		{"a": 4, "b": "eh"},
+		{"a": 1, "b": ""},
+		{"a": 4, "b": "eh"}
+	]`)
+	tk.assertTake(schm, batchJSON, `[3, 1, 0]`, `[
+		{"a": 4, "b": "eh"},
+		{"a": 1, "b": ""},
+		{"a": null, "b": "yo"}
+	]`)
+	tk.assertTake(schm, batchJSON, `[0, 1, 2, 3]`, batchJSON)
+	tk.assertTake(schm, batchJSON, `[0, 2, 2, 2, 2, 2, 2]`, `[
+		{"a": null, "b": "yo"},
+		{"a": 2, "b": "hello"},
+		{"a": 2, "b": "hello"},
+		{"a": 2, "b": "hello"},
+		{"a": 2, "b": "hello"},
+		{"a": 2, "b": "hello"},
+		{"a": 2, "b": "hello"}
+	]`)
+}
+
+type TakeKernelTestTable struct {
+	TakeKernelTestTyped
+}
+
+func (tk *TakeKernelTestTable) assertTake(schm *arrow.Schema, tableJSON []string, filter string, exptable []string) {
+	tbl, err := tk.takeWithArray(schm, tableJSON, filter)
+	tk.Require().NoError(err)
+	defer tbl.Release()
+
+	exptbl, err := array.TableFromJSON(tk.mem, schm, exptable)
+	tk.Require().NoError(err)
+	defer exptbl.Release()
+
+	tk.Truef(array.TableEqual(exptbl, tbl), "expected: %s\ngot: %s", exptbl, tbl)
+}
+
+func (tk *TakeKernelTestTable) assertChunkedTake(schm *arrow.Schema, tableJSON, filter, expTable []string) {
+	tbl, err := tk.takeWithChunked(schm, tableJSON, filter)
+	tk.Require().NoError(err)
+	defer tbl.Release()
+
+	exptbl, err := array.TableFromJSON(tk.mem, schm, expTable)
+	tk.Require().NoError(err)
+	defer exptbl.Release()
+
+	tk.Truef(array.TableEqual(exptbl, tbl), "expected: %s\ngot: %s", exptbl, tbl)
+}
+
+func (tk *TakeKernelTestTable) takeWithArray(schm *arrow.Schema, values []string, indices string) (arrow.Table, error) {
+	tbl, err := array.TableFromJSON(tk.mem, schm, values)
+	tk.NoError(err)
+	defer tbl.Release()
+
+	indicesArr, _, err := array.FromJSON(tk.mem, arrow.PrimitiveTypes.Int8, strings.NewReader(indices))
+	tk.NoError(err)
+	defer indicesArr.Release()
+
+	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(), &compute.TableDatum{Value: tbl},
+		&compute.ArrayDatum{Value: indicesArr.Data()})
+	if err != nil {
+		return nil, err
+	}
+	return result.(*compute.TableDatum).Value, nil
+}
+
+func (tk *TakeKernelTestTable) takeWithChunked(schm *arrow.Schema, values, indices []string) (arrow.Table, error) {
+	tbl, err := array.TableFromJSON(tk.mem, schm, values)
+	tk.NoError(err)
+	defer tbl.Release()
+
+	chunkedIndices, err := array.ChunkedFromJSON(tk.mem, arrow.PrimitiveTypes.Int8, indices)
+	tk.NoError(err)
+	defer chunkedIndices.Release()
+
+	result, err := compute.Take(context.TODO(), *compute.DefaultTakeOptions(), &compute.TableDatum{Value: tbl},
+		&compute.ChunkedDatum{Value: chunkedIndices})
+	if err != nil {
+		return nil, err
+	}
+	return result.(*compute.TableDatum).Value, nil
+}
+
+func (tk *TakeKernelTestTable) TestTakeTable() {
+	fields := []arrow.Field{
+		{Name: "a", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		{Name: "b", Type: arrow.BinaryTypes.String, Nullable: true},
+	}
+	schm := arrow.NewSchema(fields, nil)
+
+	tblJSON := []string{
+		`[{"a": null, "b": "yo"}, {"a": 1, "b": ""}]`,
+		`[{"a": 2, "b": "hello"}, {"a": 4, "b": "eh"}]`}
+
+	tk.assertTake(schm, tblJSON, `[]`, []string{`[]`})
+	expected310 := []string{
+		`[{"a": 4, "b": "eh"}, {"a": 1, "b": ""}, {"a": null, "b": "yo"}]`}
+
+	tk.assertTake(schm, tblJSON, `[3, 1, 0]`, expected310)
+	tk.assertChunkedTake(schm, tblJSON, []string{`[0, 1]`, `[2, 3]`}, tblJSON)
+}
+
+func TestTakeKernels(t *testing.T) {
+	suite.Run(t, new(TakeKernelTest))
+	for _, dt := range numericTypes {
+		suite.Run(t, &TakeKernelTestNumeric{TakeKernelTestTyped: TakeKernelTestTyped{dt: dt}})
+	}
+	suite.Run(t, new(TakeKernelTestFSB))
+	for _, dt := range baseBinaryTypes {
+		suite.Run(t, &TakeKernelTestString{TakeKernelTestTyped: TakeKernelTestTyped{dt: dt}})
+	}
+	suite.Run(t, new(TakeKernelLists))
+	suite.Run(t, new(TakeKernelDenseUnion))
+	suite.Run(t, new(TakeKernelTestExtension))
+	suite.Run(t, new(TakeKernelStruct))
+	suite.Run(t, new(TakeKernelTestRecord))
+	suite.Run(t, new(TakeKernelTestChunked))
+	suite.Run(t, new(TakeKernelTestTable))
+}
+
+func TestFilterKernels(t *testing.T) {
+	suite.Run(t, new(FilterKernelWithNull))
+	suite.Run(t, new(FilterKernelWithBoolean))
+	for _, dt := range numericTypes {
+		suite.Run(t, &FilterKernelNumeric{dt: dt})
+	}
+	for _, dt := range []arrow.DataType{&arrow.Decimal128Type{Precision: 3, Scale: 2}, &arrow.Decimal256Type{Precision: 3, Scale: 2}} {
+		suite.Run(t, &FilterKernelWithDecimal{dt: dt})
+	}
+	for _, dt := range baseBinaryTypes {
+		suite.Run(t, &FilterKernelWithString{dt: dt})
+	}
+	suite.Run(t, new(FilterKernelWithList))
+	suite.Run(t, new(FilterKernelWithUnion))
+	suite.Run(t, new(FilterKernelExtension))
+	suite.Run(t, new(FilterKernelWithStruct))
+	suite.Run(t, new(FilterKernelWithRecordBatch))
+	suite.Run(t, new(FilterKernelWithChunked))
+	suite.Run(t, new(FilterKernelWithTable))
+}
diff --git a/go/arrow/csv/common.go b/go/arrow/csv/common.go
index 326c7c6f019..d7ce9e675e7 100644
--- a/go/arrow/csv/common.go
+++ b/go/arrow/csv/common.go
@@ -22,8 +22,8 @@ import (
 	"errors"
 	"fmt"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 var (
@@ -159,8 +159,8 @@ func WithNullWriter(null string) Option {
 	}
 }
 
-// WithBoolWriter override the default bool formatter with a fucntion that returns
-//  a string representaton of bool states. i.e. True, False, 1, 0
+// WithBoolWriter override the default bool formatter with a function that returns
+// a string representaton of bool states. i.e. True, False, 1, 0
 func WithBoolWriter(fmtr func(bool) string) Option {
 	return func(cfg config) {
 		switch cfg := cfg.(type) {
@@ -174,6 +174,43 @@ func WithBoolWriter(fmtr func(bool) string) Option {
 	}
 }
 
+// WithColumnTypes allows specifying optional per-column types (disabling
+// type inference on those columns).
+//
+// Will panic if used in conjunction with an explicit schema.
+func WithColumnTypes(types map[string]arrow.DataType) Option {
+	return func(cfg config) {
+		switch cfg := cfg.(type) {
+		case *Reader:
+			if cfg.schema != nil {
+				panic(fmt.Errorf("%w: cannot use WithColumnTypes with explicit schema", arrow.ErrInvalid))
+			}
+			cfg.columnTypes = types
+		default:
+			panic(fmt.Errorf("%w: WithColumnTypes only allowed for csv reader", arrow.ErrInvalid))
+		}
+	}
+}
+
+// WithIncludeColumns indicates the names of the columns from the CSV file
+// that should actually be read and converted (in the slice's order).
+// If set and non-empty, columns not in this slice will be ignored.
+//
+// Will panic if used in conjunction with an explicit schema.
+func WithIncludeColumns(cols []string) Option {
+	return func(cfg config) {
+		switch cfg := cfg.(type) {
+		case *Reader:
+			if cfg.schema != nil {
+				panic(fmt.Errorf("%w: cannot use WithIncludeColumns with explicit schema", arrow.ErrInvalid))
+			}
+			cfg.columnFilter = cols
+		default:
+			panic(fmt.Errorf("%w: WithIncludeColumns only allowed on csv Reader", arrow.ErrInvalid))
+		}
+	}
+}
+
 func validate(schema *arrow.Schema) {
 	for i, f := range schema.Fields() {
 		switch ft := f.Type.(type) {
@@ -184,6 +221,7 @@ func validate(schema *arrow.Schema) {
 		case *arrow.StringType:
 		case *arrow.TimestampType:
 		case *arrow.Date32Type, *arrow.Date64Type:
+		case *arrow.Decimal128Type, *arrow.Decimal256Type:
 		default:
 			panic(fmt.Errorf("arrow/csv: field %d (%s) has invalid data type %T", i, f.Name, ft))
 		}
diff --git a/go/arrow/csv/reader.go b/go/arrow/csv/reader.go
index 091aa85e960..f75249089c3 100644
--- a/go/arrow/csv/reader.go
+++ b/go/arrow/csv/reader.go
@@ -17,6 +17,7 @@
 package csv
 
 import (
+	"encoding/base64"
 	"encoding/csv"
 	"errors"
 	"fmt"
@@ -24,11 +25,15 @@ import (
 	"strconv"
 	"sync"
 	"sync/atomic"
-
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"time"
+	"unicode/utf8"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 // Reader wraps encoding/csv.Reader and creates array.Records from a schema.
@@ -50,12 +55,48 @@ type Reader struct {
 	header bool
 	once   sync.Once
 
-	fieldConverter []func(field array.Builder, val string)
+	fieldConverter []func(val string)
+	columnFilter   []string
+	columnTypes    map[string]arrow.DataType
+	conversions    []conversionColumn
 
 	stringsCanBeNull bool
 	nulls            []string
 }
 
+// NewInferringReader creates a CSV reader that attempts to infer the types
+// and column names from the data in the first row of the CSV file.
+//
+// This can be further customized using the WithColumnTypes and
+// WithIncludeColumns options.
+func NewInferringReader(r io.Reader, opts ...Option) *Reader {
+	rr := &Reader{
+		r:                csv.NewReader(r),
+		refs:             1,
+		chunk:            1,
+		stringsCanBeNull: false,
+	}
+	rr.r.ReuseRecord = true
+	for _, opt := range opts {
+		opt(rr)
+	}
+
+	if rr.mem == nil {
+		rr.mem = memory.DefaultAllocator
+	}
+
+	switch {
+	case rr.chunk < 0:
+		rr.next = rr.nextall
+	case rr.chunk > 1:
+		rr.next = rr.nextn
+	default:
+		rr.next = rr.next1
+	}
+
+	return rr
+}
+
 // NewReader returns a reader that reads from the CSV file and creates
 // arrow.Records from the given schema.
 //
@@ -91,36 +132,85 @@ func NewReader(r io.Reader, schema *arrow.Schema, opts ...Option) *Reader {
 		rr.next = rr.next1
 	}
 
-	// Create a table of functions that will parse columns. This optimization
-	// allows us to specialize the implementation of each column's decoding
-	// and hoist type-based branches outside the inner loop.
-	rr.fieldConverter = make([]func(array.Builder, string), len(schema.Fields()))
-	for idx, field := range schema.Fields() {
-		rr.fieldConverter[idx] = rr.initFieldConverter(&field)
-	}
-
 	return rr
 }
 
 func (r *Reader) readHeader() error {
+	// if we have an explicit schema and we want to skip the header
+	// then just return and do everything normally
+	if r.schema != nil && !r.header {
+		return nil
+	}
+
+	// either we need this first line for the header line
+	// or we are going to need this line to infer types
 	records, err := r.r.Read()
 	if err != nil {
 		return fmt.Errorf("arrow/csv: could not read header from file: %w", err)
 	}
 
-	if len(records) != len(r.schema.Fields()) {
-		return ErrMismatchFields
-	}
+	// if we have an explicit schema, then r.header must be true otherwise
+	// we would have skipped this via the first line of this func
+	if r.schema != nil {
+		if len(records) != len(r.schema.Fields()) {
+			return ErrMismatchFields
+		}
+
+		fields := make([]arrow.Field, len(records))
+		for idx, name := range records {
+			fields[idx] = r.schema.Field(idx)
+			fields[idx].Name = name
+		}
 
-	fields := make([]arrow.Field, len(records))
-	for idx, name := range records {
-		fields[idx] = r.schema.Field(idx)
-		fields[idx].Name = name
+		meta := r.schema.Metadata()
+		r.schema = arrow.NewSchema(fields, &meta)
+		r.bld = array.NewRecordBuilder(r.mem, r.schema)
+		return nil
 	}
 
-	meta := r.schema.Metadata()
-	r.schema = arrow.NewSchema(fields, &meta)
-	r.bld = array.NewRecordBuilder(r.mem, r.schema)
+	// we're going to need to infer some column types
+	r.conversions = make([]conversionColumn, 0, len(records))
+	if len(r.columnFilter) == 0 {
+		for i, rec := range records {
+			// if we are skipping the header, autogenerate field names
+			// using "f<n>" e.g. f0, f1, ....
+			if !r.header {
+				rec = fmt.Sprintf("f%d", i)
+			}
+			var dt arrow.DataType
+			if len(r.columnTypes) > 0 {
+				dt = r.columnTypes[rec]
+			}
+			r.conversions = append(r.conversions, conversionColumn{name: rec, index: i, typ: dt})
+		}
+	} else {
+		// include columns from columnFilter (in that order)
+		// compute the indices of columns in the csv file
+		colIndices := make(map[string]int)
+		for i, n := range records {
+			// if we are skipping the header, autogenerate field names
+			// using "f<n>" e.g. f0, f1, ....
+			if !r.header {
+				n = fmt.Sprintf("f%d", i)
+			}
+			colIndices[n] = i
+		}
+
+		for _, n := range r.columnFilter {
+			idx, ok := colIndices[n]
+			if !ok {
+				return fmt.Errorf("%w: column '%s' in included columns, but doesn't exist in CSV file",
+					ErrMismatchFields, n)
+			}
+			var dt arrow.DataType
+			if len(r.columnTypes) > 0 {
+				dt = r.columnTypes[n]
+			}
+			r.conversions = append(r.conversions, conversionColumn{name: n, index: idx, typ: dt})
+		}
+		r.columnFilter = nil
+	}
+	r.columnTypes = nil
 	return nil
 }
 
@@ -143,11 +233,18 @@ func (r *Reader) Record() arrow.Record { return r.cur }
 // Subsequent calls to Next will return false - The user should check Err() after
 // each call to Next to check if an error took place.
 func (r *Reader) Next() bool {
-	if r.header {
-		r.once.Do(func() {
-			r.err = r.readHeader()
-		})
-	}
+	r.once.Do(func() {
+		r.err = r.readHeader()
+		if r.err == nil && r.schema != nil {
+			// Create a table of functions that will parse columns. This optimization
+			// allows us to specialize the implementation of each column's decoding
+			// and hoist type-based branches outside the inner loop.
+			r.fieldConverter = make([]func(string), len(r.schema.Fields()))
+			for idx := range r.schema.Fields() {
+				r.fieldConverter[idx] = r.initFieldConverter(r.bld.Field(idx))
+			}
+		}
+	})
 
 	if r.cur != nil {
 		r.cur.Release()
@@ -243,7 +340,29 @@ func (r *Reader) validate(recs []string) {
 		return
 	}
 
-	if len(recs) != len(r.schema.Fields()) {
+	if r.bld == nil {
+		// initialize the record builder in the case where we're inferring a schema
+		r.fieldConverter = make([]func(val string), len(recs))
+		fieldList := make([]arrow.Field, len(r.conversions))
+		for idx, cc := range r.conversions {
+			fieldList[idx].Name = cc.name
+			fieldList[idx].Nullable = true
+			fieldList[idx].Type = cc.inferType(recs[cc.index])
+		}
+
+		r.schema = arrow.NewSchema(fieldList, nil)
+		r.bld = array.NewRecordBuilder(r.mem, r.schema)
+		for idx, cc := range r.conversions {
+			r.fieldConverter[cc.index] = r.initFieldConverter(r.bld.Field(idx))
+		}
+		for idx, fc := range r.fieldConverter {
+			if fc == nil {
+				r.fieldConverter[idx] = func(string) {}
+			}
+		}
+	}
+
+	if len(recs) != len(r.fieldConverter) {
 		r.err = ErrMismatchFields
 		return
 	}
@@ -260,78 +379,93 @@ func (r *Reader) isNull(val string) bool {
 
 func (r *Reader) read(recs []string) {
 	for i, str := range recs {
-		r.fieldConverter[i](r.bld.Field(i), str)
+		r.fieldConverter[i](str)
 	}
 }
 
-func (r *Reader) initFieldConverter(field *arrow.Field) func(array.Builder, string) {
-	switch dt := field.Type.(type) {
+func (r *Reader) initFieldConverter(bldr array.Builder) func(string) {
+	switch dt := bldr.Type().(type) {
 	case *arrow.BooleanType:
-		return func(field array.Builder, str string) {
-			r.parseBool(field, str)
+		return func(str string) {
+			r.parseBool(bldr, str)
 		}
 	case *arrow.Int8Type:
-		return func(field array.Builder, str string) {
-			r.parseInt8(field, str)
+		return func(str string) {
+			r.parseInt8(bldr, str)
 		}
 	case *arrow.Int16Type:
-		return func(field array.Builder, str string) {
-			r.parseInt16(field, str)
+		return func(str string) {
+			r.parseInt16(bldr, str)
 		}
 	case *arrow.Int32Type:
-		return func(field array.Builder, str string) {
-			r.parseInt32(field, str)
+		return func(str string) {
+			r.parseInt32(bldr, str)
 		}
 	case *arrow.Int64Type:
-		return func(field array.Builder, str string) {
-			r.parseInt64(field, str)
+		return func(str string) {
+			r.parseInt64(bldr, str)
 		}
 	case *arrow.Uint8Type:
-		return func(field array.Builder, str string) {
-			r.parseUint8(field, str)
+		return func(str string) {
+			r.parseUint8(bldr, str)
 		}
 	case *arrow.Uint16Type:
-		return func(field array.Builder, str string) {
-			r.parseUint16(field, str)
+		return func(str string) {
+			r.parseUint16(bldr, str)
 		}
 	case *arrow.Uint32Type:
-		return func(field array.Builder, str string) {
-			r.parseUint32(field, str)
+		return func(str string) {
+			r.parseUint32(bldr, str)
 		}
 	case *arrow.Uint64Type:
-		return func(field array.Builder, str string) {
-			r.parseUint64(field, str)
+		return func(str string) {
+			r.parseUint64(bldr, str)
 		}
 	case *arrow.Float32Type:
-		return func(field array.Builder, str string) {
-			r.parseFloat32(field, str)
+		return func(str string) {
+			r.parseFloat32(bldr, str)
 		}
 	case *arrow.Float64Type:
-		return func(field array.Builder, str string) {
-			r.parseFloat64(field, str)
+		return func(str string) {
+			r.parseFloat64(bldr, str)
 		}
 	case *arrow.StringType:
 		// specialize the implementation when we know we cannot have nulls
 		if r.stringsCanBeNull {
-			return func(field array.Builder, str string) {
+			return func(str string) {
 				if r.isNull(str) {
-					field.AppendNull()
+					bldr.AppendNull()
 				} else {
-					field.(*array.StringBuilder).Append(str)
+					bldr.(*array.StringBuilder).Append(str)
 				}
 			}
 		} else {
-			return func(field array.Builder, str string) {
-				field.(*array.StringBuilder).Append(str)
+			return func(str string) {
+				bldr.(*array.StringBuilder).Append(str)
 			}
 		}
 	case *arrow.TimestampType:
-		return func(field array.Builder, str string) {
-			r.parseTimestamp(field, str, dt.Unit)
+		return func(str string) {
+			r.parseTimestamp(bldr, str, dt.Unit)
+		}
+	case *arrow.Date32Type:
+		return func(str string) {
+			r.parseDate32(bldr, str)
+		}
+	case *arrow.Time32Type:
+		return func(str string) {
+			r.parseTime32(bldr, str, dt.Unit)
+		}
+	case *arrow.Decimal128Type:
+		return func(str string) {
+			r.parseDecimal128(bldr, str, dt.Precision, dt.Scale)
+		}
+	case *arrow.Decimal256Type:
+		return func(str string) {
+			r.parseDecimal256(bldr, str, dt.Precision, dt.Scale)
 		}
-
 	default:
-		panic(fmt.Errorf("arrow/csv: unhandled field type %T", field.Type))
+		panic(fmt.Errorf("arrow/csv: unhandled field type %T", bldr.Type()))
 	}
 }
 
@@ -341,14 +475,9 @@ func (r *Reader) parseBool(field array.Builder, str string) {
 		return
 	}
 
-	var v bool
-	switch str {
-	case "false", "False", "0":
-		v = false
-	case "true", "True", "1":
-		v = true
-	default:
-		r.err = fmt.Errorf("unrecognized boolean: %s", str)
+	v, err := strconv.ParseBool(str)
+	if err != nil {
+		r.err = fmt.Errorf("%w: unrecognized boolean: %s", err, str)
 		field.AppendNull()
 		return
 	}
@@ -532,6 +661,66 @@ func (r *Reader) parseTimestamp(field array.Builder, str string, unit arrow.Time
 	field.(*array.TimestampBuilder).Append(v)
 }
 
+func (r *Reader) parseDate32(field array.Builder, str string) {
+	if r.isNull(str) {
+		field.AppendNull()
+		return
+	}
+
+	tm, err := time.Parse("2006-01-02", str)
+	if err != nil && r.err == nil {
+		r.err = err
+		field.AppendNull()
+		return
+	}
+	field.(*array.Date32Builder).Append(arrow.Date32FromTime(tm))
+}
+
+func (r *Reader) parseTime32(field array.Builder, str string, unit arrow.TimeUnit) {
+	if r.isNull(str) {
+		field.AppendNull()
+		return
+	}
+
+	val, err := arrow.Time32FromString(str, unit)
+	if err != nil && r.err == nil {
+		r.err = err
+		field.AppendNull()
+		return
+	}
+	field.(*array.Time32Builder).Append(val)
+}
+
+func (r *Reader) parseDecimal128(field array.Builder, str string, prec, scale int32) {
+	if r.isNull(str) {
+		field.AppendNull()
+		return
+	}
+
+	val, err := decimal128.FromString(str, prec, scale)
+	if err != nil && r.err == nil {
+		r.err = err
+		field.AppendNull()
+		return
+	}
+	field.(*array.Decimal128Builder).Append(val)
+}
+
+func (r *Reader) parseDecimal256(field array.Builder, str string, prec, scale int32) {
+	if r.isNull(str) {
+		field.AppendNull()
+		return
+	}
+
+	val, err := decimal256.FromString(str, prec, scale)
+	if err != nil && r.err == nil {
+		r.err = err
+		field.AppendNull()
+		return
+	}
+	field.(*array.Decimal256Builder).Append(val)
+}
+
 // Retain increases the reference count by 1.
 // Retain may be called simultaneously from multiple goroutines.
 func (r *Reader) Retain() {
@@ -551,6 +740,89 @@ func (r *Reader) Release() {
 	}
 }
 
+type conversionColumn struct {
+	name  string
+	index int
+	typ   arrow.DataType
+}
+
+func (c conversionColumn) inferType(v string) arrow.DataType {
+	if c.typ != nil {
+		return c.typ
+	}
+
+	var err error
+	c.typ = arrow.PrimitiveTypes.Int64
+	for {
+		// attempt to parse
+		if err = tryParse(v, c.typ); err == nil {
+			return c.typ
+		}
+
+		switch dt := c.typ.(type) {
+		case *arrow.Int64Type:
+			c.typ = arrow.FixedWidthTypes.Boolean
+		case *arrow.BooleanType:
+			c.typ = arrow.FixedWidthTypes.Date32
+		case *arrow.Date32Type:
+			c.typ = arrow.FixedWidthTypes.Time32s
+		case *arrow.Time32Type:
+			c.typ = &arrow.TimestampType{Unit: arrow.Second}
+		case *arrow.TimestampType:
+			if dt.TimeZone == "" {
+				if dt.Unit == arrow.Second {
+					c.typ = &arrow.TimestampType{Unit: arrow.Nanosecond}
+				} else {
+					c.typ = &arrow.TimestampType{Unit: arrow.Second, TimeZone: "UTC"}
+				}
+			} else {
+				if dt.Unit == arrow.Second {
+					c.typ = &arrow.TimestampType{Unit: arrow.Nanosecond, TimeZone: "UTC"}
+				} else {
+					c.typ = arrow.PrimitiveTypes.Float64
+				}
+			}
+		case *arrow.Float64Type:
+			c.typ = arrow.BinaryTypes.String
+		case *arrow.StringType:
+			// binary is the fallback type
+			return arrow.BinaryTypes.Binary
+		}
+	}
+}
+
+func tryParse(val string, dt arrow.DataType) error {
+	switch dt := dt.(type) {
+	case *arrow.Int64Type:
+		_, err := strconv.ParseInt(val, 10, 64)
+		return err
+	case *arrow.BooleanType:
+		_, err := strconv.ParseBool(val)
+		return err
+	case *arrow.Date32Type:
+		_, err := time.Parse("2006-01-02", val)
+		return err
+	case *arrow.Time32Type:
+		_, err := arrow.Time32FromString(val, dt.Unit)
+		return err
+	case *arrow.TimestampType:
+		_, err := arrow.TimestampFromString(val, dt.Unit)
+		return err
+	case *arrow.Float64Type:
+		_, err := strconv.ParseFloat(val, 64)
+		return err
+	case *arrow.StringType:
+		if !utf8.ValidString(val) {
+			return arrow.ErrInvalid
+		}
+		return nil
+	case *arrow.BinaryType:
+		_, err := base64.RawStdEncoding.DecodeString(val)
+		return err
+	}
+	panic("shouldn't end up here")
+}
+
 var (
 	_ array.RecordReader = (*Reader)(nil)
 )
diff --git a/go/arrow/csv/reader_test.go b/go/arrow/csv/reader_test.go
index 9b735ba6ddc..2d0799a464a 100644
--- a/go/arrow/csv/reader_test.go
+++ b/go/arrow/csv/reader_test.go
@@ -18,14 +18,22 @@ package csv_test
 
 import (
 	"bytes"
+	stdcsv "encoding/csv"
 	"fmt"
 	"io/ioutil"
 	"log"
+	"os"
+	"strings"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/csv"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/csv"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
 )
 
 func Example() {
@@ -257,19 +265,19 @@ func testCSVReader(t *testing.T, filepath string, withHeader bool) {
 
 	schema := arrow.NewSchema(
 		[]arrow.Field{
-			arrow.Field{Name: "bool", Type: arrow.FixedWidthTypes.Boolean},
-			arrow.Field{Name: "i8", Type: arrow.PrimitiveTypes.Int8},
-			arrow.Field{Name: "i16", Type: arrow.PrimitiveTypes.Int16},
-			arrow.Field{Name: "i32", Type: arrow.PrimitiveTypes.Int32},
-			arrow.Field{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			arrow.Field{Name: "u8", Type: arrow.PrimitiveTypes.Uint8},
-			arrow.Field{Name: "u16", Type: arrow.PrimitiveTypes.Uint16},
-			arrow.Field{Name: "u32", Type: arrow.PrimitiveTypes.Uint32},
-			arrow.Field{Name: "u64", Type: arrow.PrimitiveTypes.Uint64},
-			arrow.Field{Name: "f32", Type: arrow.PrimitiveTypes.Float32},
-			arrow.Field{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			arrow.Field{Name: "str", Type: arrow.BinaryTypes.String},
-			arrow.Field{Name: "ts", Type: arrow.FixedWidthTypes.Timestamp_ms},
+			{Name: "bool", Type: arrow.FixedWidthTypes.Boolean},
+			{Name: "i8", Type: arrow.PrimitiveTypes.Int8},
+			{Name: "i16", Type: arrow.PrimitiveTypes.Int16},
+			{Name: "i32", Type: arrow.PrimitiveTypes.Int32},
+			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
+			{Name: "u8", Type: arrow.PrimitiveTypes.Uint8},
+			{Name: "u16", Type: arrow.PrimitiveTypes.Uint16},
+			{Name: "u32", Type: arrow.PrimitiveTypes.Uint32},
+			{Name: "u64", Type: arrow.PrimitiveTypes.Uint64},
+			{Name: "f32", Type: arrow.PrimitiveTypes.Float32},
+			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
+			{Name: "str", Type: arrow.BinaryTypes.String},
+			{Name: "ts", Type: arrow.FixedWidthTypes.Timestamp_ms},
 		},
 		nil,
 	)
@@ -379,9 +387,9 @@ func TestCSVReaderWithChunk(t *testing.T) {
 
 	schema := arrow.NewSchema(
 		[]arrow.Field{
-			arrow.Field{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
-			arrow.Field{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
-			arrow.Field{Name: "str", Type: arrow.BinaryTypes.String},
+			{Name: "i64", Type: arrow.PrimitiveTypes.Int64},
+			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
+			{Name: "str", Type: arrow.BinaryTypes.String},
 		},
 		nil,
 	)
@@ -617,6 +625,48 @@ rec[0]["str"]: ["str-0" "str-1" "str-2" "str-3" "str-4" "str-5" "str-6" "str-7"
 	}
 }
 
+func TestReadCSVDecimalCols(t *testing.T) {
+	data := `dec128,dec256
+12.3,0.00123
+1.23e-8,-1.23e-3
+-1.23E+3,1.23e+5
+`
+
+	r := csv.NewReader(strings.NewReader(data), arrow.NewSchema([]arrow.Field{
+		{Name: "dec128", Type: &arrow.Decimal128Type{Precision: 14, Scale: 10}, Nullable: true},
+		{Name: "dec256", Type: &arrow.Decimal256Type{Precision: 11, Scale: 5}, Nullable: true},
+	}, nil), csv.WithChunk(-1), csv.WithHeader(true), csv.WithComma(','), csv.WithNullReader(true, "null", "#NA"))
+	defer r.Release()
+
+	assert.True(t, r.Next())
+	rec := r.Record()
+	rec.Retain()
+	assert.False(t, r.Next())
+	defer rec.Release()
+
+	if r.Err() != nil {
+		log.Fatal(r.Err())
+	}
+
+	bldr := array.NewRecordBuilder(memory.DefaultAllocator, r.Schema())
+	defer bldr.Release()
+
+	dec128Bldr := bldr.Field(0).(*array.Decimal128Builder)
+	dec128Bldr.Append(decimal128.New(0, 123000000000))
+	dec128Bldr.Append(decimal128.New(0, 123))
+	dec128Bldr.Append(decimal128.FromI64(-12300000000000))
+
+	dec256Bldr := bldr.Field(1).(*array.Decimal256Builder)
+	dec256Bldr.Append(decimal256.FromU64(123))
+	dec256Bldr.Append(decimal256.FromI64(-123))
+	dec256Bldr.Append(decimal256.FromU64(12300000000))
+
+	exRec := bldr.NewRecord()
+	defer exRec.Release()
+
+	assert.Truef(t, array.RecordEqual(exRec, rec), "expected: %s\nactual: %s", exRec, rec)
+}
+
 func BenchmarkRead(b *testing.B) {
 	gen := func(rows, cols int) []byte {
 		buf := new(bytes.Buffer)
@@ -632,7 +682,7 @@ func BenchmarkRead(b *testing.B) {
 		return buf.Bytes()
 	}
 
-	for _, rows := range []int{10, 1e2, 1e3, 1e4, 1e5} {
+	for _, rows := range []int{10, 1e2, 1e3, 1e4} {
 		for _, cols := range []int{1, 10, 100, 1000} {
 			raw := gen(rows, cols)
 			for _, chunks := range []int{-1, 0, 10, 100, 1000} {
@@ -651,9 +701,9 @@ func benchRead(b *testing.B, raw []byte, rows, cols, chunks int) {
 	var fields []arrow.Field
 	for i := 0; i < cols; i++ {
 		fields = append(fields, []arrow.Field{
-			arrow.Field{Name: fmt.Sprintf("i64-%d", i), Type: arrow.PrimitiveTypes.Int64},
-			arrow.Field{Name: fmt.Sprintf("f64-%d", i), Type: arrow.PrimitiveTypes.Float64},
-			arrow.Field{Name: fmt.Sprintf("str-%d", i), Type: arrow.BinaryTypes.String},
+			{Name: fmt.Sprintf("i64-%d", i), Type: arrow.PrimitiveTypes.Int64},
+			{Name: fmt.Sprintf("f64-%d", i), Type: arrow.PrimitiveTypes.Float64},
+			{Name: fmt.Sprintf("str-%d", i), Type: arrow.BinaryTypes.String},
 		}...)
 	}
 
@@ -682,3 +732,105 @@ func benchRead(b *testing.B, raw []byte, rows, cols, chunks int) {
 		}
 	}
 }
+
+func TestInferringSchema(t *testing.T) {
+	var b bytes.Buffer
+	wr := stdcsv.NewWriter(&b)
+	wr.WriteAll([][]string{
+		{"i64", "f64", "str", "ts", "bool"},
+		{"123", "1.23", "foobar", "2022-05-09T00:01:01", "false"},
+		{"456", "45.6", "baz", "2022-05-09T23:59:59", "true"},
+		{"null", "NULL", "null", "N/A", "null"},
+		{"-78", "-1.25", "", "2021-01-01T10:11:12", "TRUE"},
+	})
+	wr.Flush()
+
+	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
+	defer mem.AssertSize(t, 0)
+
+	r := csv.NewInferringReader(&b, csv.WithAllocator(mem), csv.WithHeader(true), csv.WithNullReader(true, defaultNullValues...))
+	defer r.Release()
+
+	assert.Nil(t, r.Schema())
+	assert.True(t, r.Next())
+	assert.NoError(t, r.Err())
+
+	expSchema := arrow.NewSchema([]arrow.Field{
+		{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
+		{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
+		{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "ts", Type: &arrow.TimestampType{Unit: arrow.Second}, Nullable: true},
+		{Name: "bool", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
+	}, nil)
+
+	exp, _, _ := array.RecordFromJSON(mem, expSchema, strings.NewReader(`[
+		{"i64": 123, "f64": 1.23, "str": "foobar", "ts": "2022-05-09T00:01:01", "bool": false},
+		{"i64": 456, "f64": 45.6, "str": "baz", "ts": "2022-05-09T23:59:59", "bool": true},
+		{"i64": null, "f64": null, "str": null, "ts": null, "bool": null},
+		{"i64": -78, "f64": -1.25, "str": null, "ts": "2021-01-01T10:11:12", "bool": true}
+	]`))
+	defer exp.Release()
+
+	assertRowEqual := func(expected, actual arrow.Record, row int) {
+		ex := expected.NewSlice(int64(row), int64(row+1))
+		defer ex.Release()
+		assert.Truef(t, array.RecordEqual(ex, actual), "expected: %s\ngot: %s", ex, actual)
+	}
+
+	assert.True(t, expSchema.Equal(r.Schema()), expSchema.String(), r.Schema().String())
+	// verify first row:
+	assertRowEqual(exp, r.Record(), 0)
+	assert.True(t, r.Next())
+	assertRowEqual(exp, r.Record(), 1)
+	assert.True(t, r.Next())
+	assertRowEqual(exp, r.Record(), 2)
+	assert.True(t, r.Next())
+	assertRowEqual(exp, r.Record(), 3)
+	assert.False(t, r.Next())
+}
+
+func TestInferCSVOptions(t *testing.T) {
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(t, 0)
+
+	f, err := os.Open("testdata/header.csv")
+	require.NoError(t, err)
+	defer f.Close()
+
+	r := csv.NewInferringReader(f, csv.WithAllocator(mem),
+		csv.WithComma(';'), csv.WithComment('#'), csv.WithHeader(true),
+		csv.WithNullReader(true, defaultNullValues...),
+		csv.WithIncludeColumns([]string{"f64", "i32", "bool", "str", "i64", "u64", "i8"}),
+		csv.WithColumnTypes(map[string]arrow.DataType{
+			"i32": arrow.PrimitiveTypes.Int32,
+			"i8":  arrow.PrimitiveTypes.Int8,
+			"i16": arrow.PrimitiveTypes.Int16,
+			"u64": arrow.PrimitiveTypes.Uint64,
+		}), csv.WithChunk(-1))
+	defer r.Release()
+
+	assert.True(t, r.Next())
+	rec := r.Record()
+	rec.Retain()
+	defer rec.Release()
+	assert.False(t, r.Next())
+
+	expSchema := arrow.NewSchema([]arrow.Field{
+		{Name: "f64", Type: arrow.PrimitiveTypes.Float64, Nullable: true},
+		{Name: "i32", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		{Name: "bool", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
+		{Name: "str", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "i64", Type: arrow.PrimitiveTypes.Int64, Nullable: true},
+		{Name: "u64", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
+		{Name: "i8", Type: arrow.PrimitiveTypes.Int8, Nullable: true},
+	}, nil)
+	expRec, _, _ := array.RecordFromJSON(mem, expSchema, strings.NewReader(`[
+		{"f64": 1.1, "i32": -1, "bool": true, "str": "str-1", "i64": -1, "u64": 1, "i8": -1},
+		{"f64": 2.2, "i32": -2, "bool": false, "str": "str-2", "i64": -2, "u64": 2, "i8": -2},
+		{"f64": null, "i32": null, "bool": null, "str": null, "i64": null, "u64": null, "i8": null}
+	]`))
+	defer expRec.Release()
+
+	assert.True(t, expSchema.Equal(r.Schema()), expSchema.String(), r.Schema().String())
+	assert.Truef(t, array.RecordEqual(expRec, rec), "expected: %s\ngot: %s", expRec, rec)
+}
diff --git a/go/arrow/csv/writer.go b/go/arrow/csv/writer.go
index 82973b9b26a..d0dac816055 100644
--- a/go/arrow/csv/writer.go
+++ b/go/arrow/csv/writer.go
@@ -19,11 +19,13 @@ package csv
 import (
 	"encoding/csv"
 	"io"
+	"math"
+	"math/big"
 	"strconv"
 	"sync"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 // Writer wraps encoding/csv.Writer and writes arrow.Record based on a schema.
@@ -219,6 +221,34 @@ func (w *Writer) Write(record arrow.Record) error {
 					recs[i][j] = w.nullValue
 				}
 			}
+		case *arrow.Decimal128Type:
+			fieldType := w.schema.Field(j).Type.(*arrow.Decimal128Type)
+			scale := fieldType.Scale
+			precision := fieldType.Precision
+			arr := col.(*array.Decimal128)
+			for i := 0; i < arr.Len(); i++ {
+				if arr.IsValid(i) {
+					f := (&big.Float{}).SetInt(arr.Value(i).BigInt())
+					f.Quo(f, big.NewFloat(math.Pow10(int(scale))))
+					recs[i][j] = f.Text('g', int(precision))
+				} else {
+					recs[i][j] = w.nullValue
+				}
+			}
+		case *arrow.Decimal256Type:
+			fieldType := w.schema.Field(j).Type.(*arrow.Decimal256Type)
+			scale := fieldType.Scale
+			precision := fieldType.Precision
+			arr := col.(*array.Decimal256)
+			for i := 0; i < arr.Len(); i++ {
+				if arr.IsValid(i) {
+					f := (&big.Float{}).SetInt(arr.Value(i).BigInt())
+					f.Quo(f, big.NewFloat(math.Pow10(int(scale))))
+					recs[i][j] = f.Text('g', int(precision))
+				} else {
+					recs[i][j] = w.nullValue
+				}
+			}
 		}
 	}
 
diff --git a/go/arrow/csv/writer_test.go b/go/arrow/csv/writer_test.go
index f358e9fa236..b720e1cb486 100644
--- a/go/arrow/csv/writer_test.go
+++ b/go/arrow/csv/writer_test.go
@@ -25,10 +25,12 @@ import (
 	"log"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/csv"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/csv"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 const (
@@ -129,18 +131,18 @@ func Example_writer() {
 
 var (
 	fullData = [][]string{
-		{"bool", "i8", "i16", "i32", "i64", "u8", "u16", "u32", "u64", "f32", "f64", "str", "ts_s", "d32", "d64"},
-		{"true", "-1", "-1", "-1", "-1", "0", "0", "0", "0", "0", "0", "str-0", "2014-07-28 15:04:05", "2017-05-18", "2028-04-26"},
-		{"false", "0", "0", "0", "0", "1", "1", "1", "1", "0.1", "0.1", "str-1", "2016-09-08 15:04:05", "2022-11-08", "2031-06-28"},
-		{"true", "1", "1", "1", "1", "2", "2", "2", "2", "0.2", "0.2", "str-2", "2021-09-18 15:04:05", "2025-08-04", "2034-08-28"},
-		{nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal},
+		{"bool", "i8", "i16", "i32", "i64", "u8", "u16", "u32", "u64", "f32", "f64", "str", "ts_s", "d32", "d64", "dec128", "dec256"},
+		{"true", "-1", "-1", "-1", "-1", "0", "0", "0", "0", "0", "0", "str-0", "2014-07-28 15:04:05", "2017-05-18", "2028-04-26", "-123.45", "-123.45"},
+		{"false", "0", "0", "0", "0", "1", "1", "1", "1", "0.1", "0.1", "str-1", "2016-09-08 15:04:05", "2022-11-08", "2031-06-28", "0", "0"},
+		{"true", "1", "1", "1", "1", "2", "2", "2", "2", "0.2", "0.2", "str-2", "2021-09-18 15:04:05", "2025-08-04", "2034-08-28", "123.45", "123.45"},
+		{nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal},
 	}
 	bananaData = [][]string{
-		{"bool", "i8", "i16", "i32", "i64", "u8", "u16", "u32", "u64", "f32", "f64", "str", "ts_s", "d32", "d64"},
-		{"BANANA", "-1", "-1", "-1", "-1", "0", "0", "0", "0", "0", "0", "str-0", "2014-07-28 15:04:05", "2017-05-18", "2028-04-26"},
-		{"MANGO", "0", "0", "0", "0", "1", "1", "1", "1", "0.1", "0.1", "str-1", "2016-09-08 15:04:05", "2022-11-08", "2031-06-28"},
-		{"BANANA", "1", "1", "1", "1", "2", "2", "2", "2", "0.2", "0.2", "str-2", "2021-09-18 15:04:05", "2025-08-04", "2034-08-28"},
-		{nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal},
+		{"bool", "i8", "i16", "i32", "i64", "u8", "u16", "u32", "u64", "f32", "f64", "str", "ts_s", "d32", "d64", "dec128", "dec256"},
+		{"BANANA", "-1", "-1", "-1", "-1", "0", "0", "0", "0", "0", "0", "str-0", "2014-07-28 15:04:05", "2017-05-18", "2028-04-26", "-123.45", "-123.45"},
+		{"MANGO", "0", "0", "0", "0", "1", "1", "1", "1", "0.1", "0.1", "str-1", "2016-09-08 15:04:05", "2022-11-08", "2031-06-28", "0", "0"},
+		{"BANANA", "1", "1", "1", "1", "2", "2", "2", "2", "0.2", "0.2", "str-2", "2021-09-18 15:04:05", "2025-08-04", "2034-08-28", "123.45", "123.45"},
+		{nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal, nullVal},
 	}
 )
 
@@ -213,6 +215,8 @@ func testCSVWriter(t *testing.T, data [][]string, writeHeader bool, fmtr func(bo
 			{Name: "ts_s", Type: arrow.FixedWidthTypes.Timestamp_s},
 			{Name: "d32", Type: arrow.FixedWidthTypes.Date32},
 			{Name: "d64", Type: arrow.FixedWidthTypes.Date64},
+			{Name: "dec128", Type: &arrow.Decimal128Type{Precision: 5, Scale: 2}},
+			{Name: "dec256", Type: &arrow.Decimal256Type{Precision: 5, Scale: 2}},
 		},
 		nil,
 	)
@@ -235,6 +239,8 @@ func testCSVWriter(t *testing.T, data [][]string, writeHeader bool, fmtr func(bo
 	b.Field(12).(*array.TimestampBuilder).AppendValues(genTimestamps(arrow.Second), nil)
 	b.Field(13).(*array.Date32Builder).AppendValues([]arrow.Date32{17304, 19304, 20304}, nil)
 	b.Field(14).(*array.Date64Builder).AppendValues([]arrow.Date64{1840400000000, 1940400000000, 2040400000000}, nil)
+	b.Field(15).(*array.Decimal128Builder).AppendValues([]decimal128.Num{decimal128.FromI64(-12345), decimal128.FromI64(0), decimal128.FromI64(12345)}, nil)
+	b.Field(16).(*array.Decimal256Builder).AppendValues([]decimal256.Num{decimal256.FromI64(-12345), decimal256.FromI64(0), decimal256.FromI64(12345)}, nil)
 
 	for _, field := range b.Fields() {
 		field.AppendNull()
@@ -327,6 +333,8 @@ func BenchmarkWrite(b *testing.B) {
 			{Name: "f32", Type: arrow.PrimitiveTypes.Float32},
 			{Name: "f64", Type: arrow.PrimitiveTypes.Float64},
 			{Name: "str", Type: arrow.BinaryTypes.String},
+			{Name: "dec128", Type: &arrow.Decimal128Type{Precision: 4, Scale: 3}},
+			{Name: "dec128", Type: &arrow.Decimal256Type{Precision: 4, Scale: 3}},
 		},
 		nil,
 	)
@@ -348,6 +356,8 @@ func BenchmarkWrite(b *testing.B) {
 		bldr.Field(9).(*array.Float32Builder).Append(float32(i))
 		bldr.Field(10).(*array.Float64Builder).Append(float64(i))
 		bldr.Field(11).(*array.StringBuilder).Append(fmt.Sprintf("str-%d", i))
+		bldr.Field(12).(*array.Decimal128Builder).Append(decimal128.FromI64(int64(i)))
+		bldr.Field(13).(*array.Decimal256Builder).Append(decimal256.FromI64(int64(i)))
 	}
 
 	rec := bldr.NewRecord()
diff --git a/go/arrow/datatype.go b/go/arrow/datatype.go
index 7bbf480872c..94a07d73ef9 100644
--- a/go/arrow/datatype.go
+++ b/go/arrow/datatype.go
@@ -19,8 +19,9 @@ package arrow
 import (
 	"fmt"
 	"hash/maphash"
+	"strings"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
 )
 
 // Type is a logical type. They can be expressed as
@@ -170,16 +171,34 @@ type DataType interface {
 	Layout() DataTypeLayout
 }
 
+// TypesToString is a convenience function to create a list of types
+// which are comma delimited as a string
+func TypesToString(types []DataType) string {
+	var b strings.Builder
+	b.WriteByte('(')
+	for i, t := range types {
+		if i != 0 {
+			b.WriteString(", ")
+		}
+		b.WriteString(t.String())
+	}
+	b.WriteByte(')')
+	return b.String()
+}
+
 // FixedWidthDataType is the representation of an Arrow type that
 // requires a fixed number of bits in memory for each element.
 type FixedWidthDataType interface {
 	DataType
 	// BitWidth returns the number of bits required to store a single element of this data type in memory.
 	BitWidth() int
+	// Bytes returns the number of bytes required to store a single element of this data type in memory.
+	Bytes() int
 }
 
 type BinaryDataType interface {
 	DataType
+	IsUtf8() bool
 	binary()
 }
 
@@ -272,6 +291,16 @@ func IsUnsignedInteger(t Type) bool {
 	return false
 }
 
+// IsFloating is a helper that returns true if the type ID provided is
+// one of Float16, Float32, or Float64
+func IsFloating(t Type) bool {
+	switch t {
+	case FLOAT16, FLOAT32, FLOAT64:
+		return true
+	}
+	return false
+}
+
 // IsPrimitive returns true if the provided type ID represents a fixed width
 // primitive type.
 func IsPrimitive(t Type) bool {
@@ -293,6 +322,24 @@ func IsBaseBinary(t Type) bool {
 	return false
 }
 
+// IsBinaryLike returns true for only BINARY and STRING
+func IsBinaryLike(t Type) bool {
+	switch t {
+	case BINARY, STRING:
+		return true
+	}
+	return false
+}
+
+// IsLargeBinaryLike returns true for only LARGE_BINARY and LARGE_STRING
+func IsLargeBinaryLike(t Type) bool {
+	switch t {
+	case LARGE_BINARY, LARGE_STRING:
+		return true
+	}
+	return false
+}
+
 // IsFixedSizeBinary returns true for Decimal128/256 and FixedSizeBinary
 func IsFixedSizeBinary(t Type) bool {
 	switch t {
@@ -301,3 +348,39 @@ func IsFixedSizeBinary(t Type) bool {
 	}
 	return false
 }
+
+// IsDecimal returns true for Decimal128 and Decimal256
+func IsDecimal(t Type) bool {
+	switch t {
+	case DECIMAL128, DECIMAL256:
+		return true
+	}
+	return false
+}
+
+// IsUnion returns true for Sparse and Dense Unions
+func IsUnion(t Type) bool {
+	switch t {
+	case DENSE_UNION, SPARSE_UNION:
+		return true
+	}
+	return false
+}
+
+// IsListLike returns true for List, LargeList, FixedSizeList, and Map
+func IsListLike(t Type) bool {
+	switch t {
+	case LIST, LARGE_LIST, FIXED_SIZE_LIST, MAP:
+		return true
+	}
+	return false
+}
+
+// IsNested returns true for List, LargeList, FixedSizeList, Map, Struct, and Unions
+func IsNested(t Type) bool {
+	switch t {
+	case LIST, LARGE_LIST, FIXED_SIZE_LIST, MAP, STRUCT, SPARSE_UNION, DENSE_UNION:
+		return true
+	}
+	return false
+}
diff --git a/go/arrow/datatype_binary.go b/go/arrow/datatype_binary.go
index fa6513693f8..a3a85686450 100644
--- a/go/arrow/datatype_binary.go
+++ b/go/arrow/datatype_binary.go
@@ -39,6 +39,7 @@ func (t *BinaryType) Layout() DataTypeLayout {
 		SpecFixedWidth(Int32SizeBytes), SpecVariableWidth()}}
 }
 func (t *BinaryType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
+func (BinaryType) IsUtf8() bool                      { return false }
 
 type StringType struct{}
 
@@ -52,6 +53,7 @@ func (t *StringType) Layout() DataTypeLayout {
 		SpecFixedWidth(Int32SizeBytes), SpecVariableWidth()}}
 }
 func (t *StringType) OffsetTypeTraits() OffsetTraits { return Int32Traits }
+func (StringType) IsUtf8() bool                      { return true }
 
 type LargeBinaryType struct{}
 
@@ -65,6 +67,7 @@ func (t *LargeBinaryType) Layout() DataTypeLayout {
 		SpecFixedWidth(Int64SizeBytes), SpecVariableWidth()}}
 }
 func (t *LargeBinaryType) OffsetTypeTraits() OffsetTraits { return Int64Traits }
+func (LargeBinaryType) IsUtf8() bool                      { return false }
 
 type LargeStringType struct{}
 
@@ -78,6 +81,7 @@ func (t *LargeStringType) Layout() DataTypeLayout {
 		SpecFixedWidth(Int64SizeBytes), SpecVariableWidth()}}
 }
 func (t *LargeStringType) OffsetTypeTraits() OffsetTraits { return Int64Traits }
+func (LargeStringType) IsUtf8() bool                      { return true }
 
 var (
 	BinaryTypes = struct {
diff --git a/go/arrow/datatype_binary_test.go b/go/arrow/datatype_binary_test.go
index fd486f11dc5..ecaecc8abde 100644
--- a/go/arrow/datatype_binary_test.go
+++ b/go/arrow/datatype_binary_test.go
@@ -19,7 +19,7 @@ package arrow_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v11/arrow"
 )
 
 func TestBinaryType(t *testing.T) {
diff --git a/go/arrow/datatype_extension_test.go b/go/arrow/datatype_extension_test.go
index 0352ad758a6..415a95e5747 100644
--- a/go/arrow/datatype_extension_test.go
+++ b/go/arrow/datatype_extension_test.go
@@ -20,8 +20,8 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/types"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/types"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/suite"
 )
diff --git a/go/arrow/datatype_fixedwidth.go b/go/arrow/datatype_fixedwidth.go
index 5589ad637a2..2a2bbc77a85 100644
--- a/go/arrow/datatype_fixedwidth.go
+++ b/go/arrow/datatype_fixedwidth.go
@@ -31,6 +31,7 @@ func (t *BooleanType) ID() Type            { return BOOL }
 func (t *BooleanType) Name() string        { return "bool" }
 func (t *BooleanType) String() string      { return "bool" }
 func (t *BooleanType) Fingerprint() string { return typeFingerprint(t) }
+func (BooleanType) Bytes() int             { return 1 }
 
 // BitWidth returns the number of bits required to store a single element of this data type in memory.
 func (t *BooleanType) BitWidth() int { return 1 }
@@ -46,6 +47,7 @@ type FixedSizeBinaryType struct {
 func (*FixedSizeBinaryType) ID() Type              { return FIXED_SIZE_BINARY }
 func (*FixedSizeBinaryType) Name() string          { return "fixed_size_binary" }
 func (t *FixedSizeBinaryType) BitWidth() int       { return 8 * t.ByteWidth }
+func (t *FixedSizeBinaryType) Bytes() int          { return t.ByteWidth }
 func (t *FixedSizeBinaryType) Fingerprint() string { return typeFingerprint(t) }
 func (t *FixedSizeBinaryType) String() string {
 	return "fixed_size_binary[" + strconv.Itoa(t.ByteWidth) + "]"
@@ -105,9 +107,9 @@ func (d Date64) FormattedString() string {
 
 // TimestampFromStringInLocation is like TimestampFromString, but treats the time instant
 // as if it were in the passed timezone before converting to UTC for internal representation.
-func TimestampFromStringInLocation(val string, unit TimeUnit, loc *time.Location) (Timestamp, error) {
+func TimestampFromStringInLocation(val string, unit TimeUnit, loc *time.Location) (Timestamp, bool, error) {
 	if len(val) < 10 {
-		return 0, fmt.Errorf("invalid timestamp string")
+		return 0, false, fmt.Errorf("%w: invalid timestamp string", ErrInvalid)
 	}
 
 	var (
@@ -147,17 +149,17 @@ func TimestampFromStringInLocation(val string, unit TimeUnit, loc *time.Location
 	// more than nanosecond precision is provided
 	switch {
 	case unit == Second && lenWithoutZone > 19:
-		return 0, xerrors.New("provided more than second precision for timestamp[s]")
+		return 0, zoneFmt != "", xerrors.New("provided more than second precision for timestamp[s]")
 	case unit == Millisecond && lenWithoutZone > 23:
-		return 0, xerrors.New("provided more than millisecond precision for timestamp[ms]")
+		return 0, zoneFmt != "", xerrors.New("provided more than millisecond precision for timestamp[ms]")
 	case unit == Microsecond && lenWithoutZone > 26:
-		return 0, xerrors.New("provided more than microsecond precision for timestamp[us]")
+		return 0, zoneFmt != "", xerrors.New("provided more than microsecond precision for timestamp[us]")
 	}
 
 	format += zoneFmt
 	out, err := time.Parse(format, val)
 	if err != nil {
-		return 0, err
+		return 0, zoneFmt != "", fmt.Errorf("%w: %s", ErrInvalid, err)
 	}
 	if loc != time.UTC {
 		// convert to UTC by putting the same time instant in the desired location
@@ -167,15 +169,15 @@ func TimestampFromStringInLocation(val string, unit TimeUnit, loc *time.Location
 
 	switch unit {
 	case Second:
-		return Timestamp(out.Unix()), nil
+		return Timestamp(out.Unix()), zoneFmt != "", nil
 	case Millisecond:
-		return Timestamp(out.Unix()*1e3 + int64(out.Nanosecond())/1e6), nil
+		return Timestamp(out.Unix()*1e3 + int64(out.Nanosecond())/1e6), zoneFmt != "", nil
 	case Microsecond:
-		return Timestamp(out.Unix()*1e6 + int64(out.Nanosecond())/1e3), nil
+		return Timestamp(out.Unix()*1e6 + int64(out.Nanosecond())/1e3), zoneFmt != "", nil
 	case Nanosecond:
-		return Timestamp(out.UnixNano()), nil
+		return Timestamp(out.UnixNano()), zoneFmt != "", nil
 	}
-	return 0, fmt.Errorf("unexpected timestamp unit: %s", unit)
+	return 0, zoneFmt != "", fmt.Errorf("%w: unexpected timestamp unit: %s", ErrInvalid, unit)
 }
 
 // TimestampFromString parses a string and returns a timestamp for the given unit
@@ -193,7 +195,8 @@ func TimestampFromStringInLocation(val string, unit TimeUnit, loc *time.Location
 // You can also optionally have an ending Z to indicate UTC or indicate a specific
 // timezone using ±HH, ±HHMM or ±HH:MM at the end of the string.
 func TimestampFromString(val string, unit TimeUnit) (Timestamp, error) {
-	return TimestampFromStringInLocation(val, unit, time.UTC)
+	tm, _, err := TimestampFromStringInLocation(val, unit, time.UTC)
+	return tm, err
 }
 
 func (t Timestamp) ToTime(unit TimeUnit) time.Time {
@@ -314,6 +317,8 @@ const (
 	Nanosecond
 )
 
+var TimeUnitValues = []TimeUnit{Second, Millisecond, Microsecond, Nanosecond}
+
 func (u TimeUnit) Multiplier() time.Duration {
 	return [...]time.Duration{time.Second, time.Millisecond, time.Microsecond, time.Nanosecond}[uint(u)&3]
 }
@@ -353,6 +358,8 @@ func (t *TimestampType) Fingerprint() string {
 // BitWidth returns the number of bits required to store a single element of this data type in memory.
 func (*TimestampType) BitWidth() int { return 64 }
 
+func (TimestampType) Bytes() int { return Int64SizeBytes }
+
 func (TimestampType) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(TimestampSizeBytes)}}
 }
@@ -444,6 +451,7 @@ type Time32Type struct {
 func (*Time32Type) ID() Type         { return TIME32 }
 func (*Time32Type) Name() string     { return "time32" }
 func (*Time32Type) BitWidth() int    { return 32 }
+func (*Time32Type) Bytes() int       { return Int32SizeBytes }
 func (t *Time32Type) String() string { return "time32[" + t.Unit.String() + "]" }
 func (t *Time32Type) Fingerprint() string {
 	return typeFingerprint(t) + string(timeUnitFingerprint(t.Unit))
@@ -463,6 +471,7 @@ type Time64Type struct {
 func (*Time64Type) ID() Type         { return TIME64 }
 func (*Time64Type) Name() string     { return "time64" }
 func (*Time64Type) BitWidth() int    { return 64 }
+func (*Time64Type) Bytes() int       { return Int64SizeBytes }
 func (t *Time64Type) String() string { return "time64[" + t.Unit.String() + "]" }
 func (t *Time64Type) Fingerprint() string {
 	return typeFingerprint(t) + string(timeUnitFingerprint(t.Unit))
@@ -483,6 +492,7 @@ type DurationType struct {
 func (*DurationType) ID() Type         { return DURATION }
 func (*DurationType) Name() string     { return "duration" }
 func (*DurationType) BitWidth() int    { return 64 }
+func (*DurationType) Bytes() int       { return Int64SizeBytes }
 func (t *DurationType) String() string { return "duration[" + t.Unit.String() + "]" }
 func (t *DurationType) Fingerprint() string {
 	return typeFingerprint(t) + string(timeUnitFingerprint(t.Unit))
@@ -505,10 +515,29 @@ func (t *Float16Type) Fingerprint() string { return typeFingerprint(t) }
 // BitWidth returns the number of bits required to store a single element of this data type in memory.
 func (t *Float16Type) BitWidth() int { return 16 }
 
+func (Float16Type) Bytes() int { return Float16SizeBytes }
+
 func (Float16Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Float16SizeBytes)}}
 }
 
+type DecimalType interface {
+	DataType
+	GetPrecision() int32
+	GetScale() int32
+}
+
+func NewDecimalType(id Type, prec, scale int32) (DecimalType, error) {
+	switch id {
+	case DECIMAL128:
+		return &Decimal128Type{Precision: prec, Scale: scale}, nil
+	case DECIMAL256:
+		return &Decimal256Type{Precision: prec, Scale: scale}, nil
+	default:
+		return nil, fmt.Errorf("%w: must use DECIMAL128 or DECIMAL256 to create a DecimalType", ErrInvalid)
+	}
+}
+
 // Decimal128Type represents a fixed-size 128-bit decimal type.
 type Decimal128Type struct {
 	Precision int32
@@ -518,12 +547,15 @@ type Decimal128Type struct {
 func (*Decimal128Type) ID() Type      { return DECIMAL128 }
 func (*Decimal128Type) Name() string  { return "decimal" }
 func (*Decimal128Type) BitWidth() int { return 128 }
+func (*Decimal128Type) Bytes() int    { return Decimal128SizeBytes }
 func (t *Decimal128Type) String() string {
 	return fmt.Sprintf("%s(%d, %d)", t.Name(), t.Precision, t.Scale)
 }
 func (t *Decimal128Type) Fingerprint() string {
 	return fmt.Sprintf("%s[%d,%d,%d]", typeFingerprint(t), t.BitWidth(), t.Precision, t.Scale)
 }
+func (t *Decimal128Type) GetPrecision() int32 { return t.Precision }
+func (t *Decimal128Type) GetScale() int32     { return t.Scale }
 
 func (Decimal128Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Decimal128SizeBytes)}}
@@ -538,12 +570,15 @@ type Decimal256Type struct {
 func (*Decimal256Type) ID() Type      { return DECIMAL256 }
 func (*Decimal256Type) Name() string  { return "decimal256" }
 func (*Decimal256Type) BitWidth() int { return 256 }
+func (*Decimal256Type) Bytes() int    { return Decimal256SizeBytes }
 func (t *Decimal256Type) String() string {
 	return fmt.Sprintf("%s(%d, %d)", t.Name(), t.Precision, t.Scale)
 }
 func (t *Decimal256Type) Fingerprint() string {
 	return fmt.Sprintf("%s[%d,%d,%d]", typeFingerprint(t), t.BitWidth(), t.Precision, t.Scale)
 }
+func (t *Decimal256Type) GetPrecision() int32 { return t.Precision }
+func (t *Decimal256Type) GetScale() int32     { return t.Scale }
 
 func (Decimal256Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(Decimal256SizeBytes)}}
@@ -582,6 +617,7 @@ func (*MonthIntervalType) Fingerprint() string { return typeIDFingerprint(INTERV
 // BitWidth returns the number of bits required to store a single element of this data type in memory.
 func (t *MonthIntervalType) BitWidth() int { return 32 }
 
+func (MonthIntervalType) Bytes() int { return Int32SizeBytes }
 func (MonthIntervalType) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(MonthIntervalSizeBytes)}}
 }
@@ -604,6 +640,7 @@ func (*DayTimeIntervalType) Fingerprint() string { return typeIDFingerprint(INTE
 // BitWidth returns the number of bits required to store a single element of this data type in memory.
 func (t *DayTimeIntervalType) BitWidth() int { return 64 }
 
+func (DayTimeIntervalType) Bytes() int { return DayTimeIntervalSizeBytes }
 func (DayTimeIntervalType) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(DayTimeIntervalSizeBytes)}}
 }
@@ -629,54 +666,59 @@ func (*MonthDayNanoIntervalType) Fingerprint() string {
 
 // BitWidth returns the number of bits required to store a single element of this data type in memory.
 func (*MonthDayNanoIntervalType) BitWidth() int { return 128 }
-
+func (*MonthDayNanoIntervalType) Bytes() int    { return MonthDayNanoIntervalSizeBytes }
 func (MonthDayNanoIntervalType) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{SpecBitmap(), SpecFixedWidth(MonthDayNanoIntervalSizeBytes)}}
 }
 
-type op int8
+type TimestampConvertOp int8
 
 const (
-	convDIVIDE = iota
-	convMULTIPLY
+	ConvDIVIDE = iota
+	ConvMULTIPLY
 )
 
 var timestampConversion = [...][4]struct {
-	op     op
+	op     TimestampConvertOp
 	factor int64
 }{
 	Nanosecond: {
-		Nanosecond:  {convMULTIPLY, int64(time.Nanosecond)},
-		Microsecond: {convDIVIDE, int64(time.Microsecond)},
-		Millisecond: {convDIVIDE, int64(time.Millisecond)},
-		Second:      {convDIVIDE, int64(time.Second)},
+		Nanosecond:  {ConvMULTIPLY, int64(time.Nanosecond)},
+		Microsecond: {ConvDIVIDE, int64(time.Microsecond)},
+		Millisecond: {ConvDIVIDE, int64(time.Millisecond)},
+		Second:      {ConvDIVIDE, int64(time.Second)},
 	},
 	Microsecond: {
-		Nanosecond:  {convMULTIPLY, int64(time.Microsecond)},
-		Microsecond: {convMULTIPLY, 1},
-		Millisecond: {convDIVIDE, int64(time.Millisecond / time.Microsecond)},
-		Second:      {convDIVIDE, int64(time.Second / time.Microsecond)},
+		Nanosecond:  {ConvMULTIPLY, int64(time.Microsecond)},
+		Microsecond: {ConvMULTIPLY, 1},
+		Millisecond: {ConvDIVIDE, int64(time.Millisecond / time.Microsecond)},
+		Second:      {ConvDIVIDE, int64(time.Second / time.Microsecond)},
 	},
 	Millisecond: {
-		Nanosecond:  {convMULTIPLY, int64(time.Millisecond)},
-		Microsecond: {convMULTIPLY, int64(time.Millisecond / time.Microsecond)},
-		Millisecond: {convMULTIPLY, 1},
-		Second:      {convDIVIDE, int64(time.Second / time.Millisecond)},
+		Nanosecond:  {ConvMULTIPLY, int64(time.Millisecond)},
+		Microsecond: {ConvMULTIPLY, int64(time.Millisecond / time.Microsecond)},
+		Millisecond: {ConvMULTIPLY, 1},
+		Second:      {ConvDIVIDE, int64(time.Second / time.Millisecond)},
 	},
 	Second: {
-		Nanosecond:  {convMULTIPLY, int64(time.Second)},
-		Microsecond: {convMULTIPLY, int64(time.Second / time.Microsecond)},
-		Millisecond: {convMULTIPLY, int64(time.Second / time.Millisecond)},
-		Second:      {convMULTIPLY, 1},
+		Nanosecond:  {ConvMULTIPLY, int64(time.Second)},
+		Microsecond: {ConvMULTIPLY, int64(time.Second / time.Microsecond)},
+		Millisecond: {ConvMULTIPLY, int64(time.Second / time.Millisecond)},
+		Second:      {ConvMULTIPLY, 1},
 	},
 }
 
+func GetTimestampConvert(in, out TimeUnit) (op TimestampConvertOp, factor int64) {
+	conv := timestampConversion[int(in)][int(out)]
+	return conv.op, conv.factor
+}
+
 func ConvertTimestampValue(in, out TimeUnit, value int64) int64 {
 	conv := timestampConversion[int(in)][int(out)]
 	switch conv.op {
-	case convMULTIPLY:
+	case ConvMULTIPLY:
 		return value * conv.factor
-	case convDIVIDE:
+	case ConvDIVIDE:
 		return value / conv.factor
 	}
 
@@ -695,6 +737,7 @@ type DictionaryType struct {
 func (*DictionaryType) ID() Type        { return DICTIONARY }
 func (*DictionaryType) Name() string    { return "dictionary" }
 func (d *DictionaryType) BitWidth() int { return d.IndexType.(FixedWidthDataType).BitWidth() }
+func (d *DictionaryType) Bytes() int    { return d.IndexType.(FixedWidthDataType).Bytes() }
 func (d *DictionaryType) String() string {
 	return fmt.Sprintf("%s<values=%s, indices=%s, ordered=%t>",
 		d.Name(), d.ValueType, d.IndexType, d.Ordered)
diff --git a/go/arrow/datatype_fixedwidth_test.go b/go/arrow/datatype_fixedwidth_test.go
index dcd44540ee4..1a007ae6603 100644
--- a/go/arrow/datatype_fixedwidth_test.go
+++ b/go/arrow/datatype_fixedwidth_test.go
@@ -20,7 +20,7 @@ import (
 	"testing"
 	"time"
 
-	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v11/arrow"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/datatype_nested.go b/go/arrow/datatype_nested.go
index 94f422d0507..2fd9779cf5c 100644
--- a/go/arrow/datatype_nested.go
+++ b/go/arrow/datatype_nested.go
@@ -22,7 +22,7 @@ import (
 	"strconv"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
 )
 
 type NestedType interface {
diff --git a/go/arrow/datatype_null.go b/go/arrow/datatype_null.go
index 61412f3a9d8..2d2454c6525 100644
--- a/go/arrow/datatype_null.go
+++ b/go/arrow/datatype_null.go
@@ -23,7 +23,7 @@ func (*NullType) ID() Type            { return NULL }
 func (*NullType) Name() string        { return "null" }
 func (*NullType) String() string      { return "null" }
 func (*NullType) Fingerprint() string { return typeIDFingerprint(NULL) }
-func (NullType) Layout() DataTypeLayout {
+func (*NullType) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{SpecAlwaysNull()}}
 }
 
diff --git a/go/arrow/datatype_null_test.go b/go/arrow/datatype_null_test.go
index 5b07d50b6c4..ae7fa143092 100644
--- a/go/arrow/datatype_null_test.go
+++ b/go/arrow/datatype_null_test.go
@@ -19,7 +19,7 @@ package arrow_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v11/arrow"
 )
 
 func TestNullType(t *testing.T) {
diff --git a/go/arrow/datatype_numeric.gen.go b/go/arrow/datatype_numeric.gen.go
index dfcdab5924f..62cbd90016f 100644
--- a/go/arrow/datatype_numeric.gen.go
+++ b/go/arrow/datatype_numeric.gen.go
@@ -24,6 +24,7 @@ func (t *Int8Type) ID() Type            { return INT8 }
 func (t *Int8Type) Name() string        { return "int8" }
 func (t *Int8Type) String() string      { return "int8" }
 func (t *Int8Type) BitWidth() int       { return 8 }
+func (t *Int8Type) Bytes() int          { return Int8SizeBytes }
 func (t *Int8Type) Fingerprint() string { return typeFingerprint(t) }
 func (t *Int8Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{
@@ -36,6 +37,7 @@ func (t *Int16Type) ID() Type            { return INT16 }
 func (t *Int16Type) Name() string        { return "int16" }
 func (t *Int16Type) String() string      { return "int16" }
 func (t *Int16Type) BitWidth() int       { return 16 }
+func (t *Int16Type) Bytes() int          { return Int16SizeBytes }
 func (t *Int16Type) Fingerprint() string { return typeFingerprint(t) }
 func (t *Int16Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{
@@ -48,6 +50,7 @@ func (t *Int32Type) ID() Type            { return INT32 }
 func (t *Int32Type) Name() string        { return "int32" }
 func (t *Int32Type) String() string      { return "int32" }
 func (t *Int32Type) BitWidth() int       { return 32 }
+func (t *Int32Type) Bytes() int          { return Int32SizeBytes }
 func (t *Int32Type) Fingerprint() string { return typeFingerprint(t) }
 func (t *Int32Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{
@@ -60,6 +63,7 @@ func (t *Int64Type) ID() Type            { return INT64 }
 func (t *Int64Type) Name() string        { return "int64" }
 func (t *Int64Type) String() string      { return "int64" }
 func (t *Int64Type) BitWidth() int       { return 64 }
+func (t *Int64Type) Bytes() int          { return Int64SizeBytes }
 func (t *Int64Type) Fingerprint() string { return typeFingerprint(t) }
 func (t *Int64Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{
@@ -72,6 +76,7 @@ func (t *Uint8Type) ID() Type            { return UINT8 }
 func (t *Uint8Type) Name() string        { return "uint8" }
 func (t *Uint8Type) String() string      { return "uint8" }
 func (t *Uint8Type) BitWidth() int       { return 8 }
+func (t *Uint8Type) Bytes() int          { return Uint8SizeBytes }
 func (t *Uint8Type) Fingerprint() string { return typeFingerprint(t) }
 func (t *Uint8Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{
@@ -84,6 +89,7 @@ func (t *Uint16Type) ID() Type            { return UINT16 }
 func (t *Uint16Type) Name() string        { return "uint16" }
 func (t *Uint16Type) String() string      { return "uint16" }
 func (t *Uint16Type) BitWidth() int       { return 16 }
+func (t *Uint16Type) Bytes() int          { return Uint16SizeBytes }
 func (t *Uint16Type) Fingerprint() string { return typeFingerprint(t) }
 func (t *Uint16Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{
@@ -96,6 +102,7 @@ func (t *Uint32Type) ID() Type            { return UINT32 }
 func (t *Uint32Type) Name() string        { return "uint32" }
 func (t *Uint32Type) String() string      { return "uint32" }
 func (t *Uint32Type) BitWidth() int       { return 32 }
+func (t *Uint32Type) Bytes() int          { return Uint32SizeBytes }
 func (t *Uint32Type) Fingerprint() string { return typeFingerprint(t) }
 func (t *Uint32Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{
@@ -108,6 +115,7 @@ func (t *Uint64Type) ID() Type            { return UINT64 }
 func (t *Uint64Type) Name() string        { return "uint64" }
 func (t *Uint64Type) String() string      { return "uint64" }
 func (t *Uint64Type) BitWidth() int       { return 64 }
+func (t *Uint64Type) Bytes() int          { return Uint64SizeBytes }
 func (t *Uint64Type) Fingerprint() string { return typeFingerprint(t) }
 func (t *Uint64Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{
@@ -120,6 +128,7 @@ func (t *Float32Type) ID() Type            { return FLOAT32 }
 func (t *Float32Type) Name() string        { return "float32" }
 func (t *Float32Type) String() string      { return "float32" }
 func (t *Float32Type) BitWidth() int       { return 32 }
+func (t *Float32Type) Bytes() int          { return Float32SizeBytes }
 func (t *Float32Type) Fingerprint() string { return typeFingerprint(t) }
 func (t *Float32Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{
@@ -132,6 +141,7 @@ func (t *Float64Type) ID() Type            { return FLOAT64 }
 func (t *Float64Type) Name() string        { return "float64" }
 func (t *Float64Type) String() string      { return "float64" }
 func (t *Float64Type) BitWidth() int       { return 64 }
+func (t *Float64Type) Bytes() int          { return Float64SizeBytes }
 func (t *Float64Type) Fingerprint() string { return typeFingerprint(t) }
 func (t *Float64Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{
@@ -144,6 +154,7 @@ func (t *Date32Type) ID() Type            { return DATE32 }
 func (t *Date32Type) Name() string        { return "date32" }
 func (t *Date32Type) String() string      { return "date32" }
 func (t *Date32Type) BitWidth() int       { return 32 }
+func (t *Date32Type) Bytes() int          { return Date32SizeBytes }
 func (t *Date32Type) Fingerprint() string { return typeFingerprint(t) }
 func (t *Date32Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{
@@ -156,6 +167,7 @@ func (t *Date64Type) ID() Type            { return DATE64 }
 func (t *Date64Type) Name() string        { return "date64" }
 func (t *Date64Type) String() string      { return "date64" }
 func (t *Date64Type) BitWidth() int       { return 64 }
+func (t *Date64Type) Bytes() int          { return Date64SizeBytes }
 func (t *Date64Type) Fingerprint() string { return typeFingerprint(t) }
 func (t *Date64Type) Layout() DataTypeLayout {
 	return DataTypeLayout{Buffers: []BufferSpec{
diff --git a/go/arrow/datatype_numeric.gen.go.tmpl b/go/arrow/datatype_numeric.gen.go.tmpl
index a784619bd15..611046afc42 100644
--- a/go/arrow/datatype_numeric.gen.go.tmpl
+++ b/go/arrow/datatype_numeric.gen.go.tmpl
@@ -23,6 +23,7 @@ func (t *{{.Name}}Type) ID() Type            { return {{.Name|upper}} }
 func (t *{{.Name}}Type) Name() string        { return "{{.Name|lower}}" }
 func (t *{{.Name}}Type) String() string      { return "{{.Name|lower}}" }
 func (t *{{.Name}}Type) BitWidth() int       { return {{.Size}} }
+func (t *{{.Name}}Type) Bytes() int      { return {{.Name}}SizeBytes }
 func (t *{{.Name}}Type) Fingerprint() string { return typeFingerprint(t) }
 func (t *{{.Name}}Type) Layout() DataTypeLayout { 
         return DataTypeLayout{Buffers: []BufferSpec{
diff --git a/go/arrow/decimal128/decimal128.go b/go/arrow/decimal128/decimal128.go
index fa044f46ec5..9495463437b 100644
--- a/go/arrow/decimal128/decimal128.go
+++ b/go/arrow/decimal128/decimal128.go
@@ -21,14 +21,19 @@ import (
 	"fmt"
 	"math"
 	"math/big"
+	"math/bits"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
 )
 
 var (
 	MaxDecimal128 = New(542101086242752217, 687399551400673280-1)
 )
 
+func GetMaxValue(prec int32) Num {
+	return scaleMultipliers[prec].Sub(FromU64(1))
+}
+
 // Num represents a signed 128-bit integer in two's complement.
 // Calculations wrap around and overflow is ignored.
 //
@@ -101,7 +106,35 @@ func (n Num) Negate() Num {
 	return n
 }
 
-func fromPositiveFloat64(v float64, prec, scale int32) (Num, error) {
+func (n Num) Add(rhs Num) Num {
+	n.hi += rhs.hi
+	var carry uint64
+	n.lo, carry = bits.Add64(n.lo, rhs.lo, 0)
+	n.hi += int64(carry)
+	return n
+}
+
+func (n Num) Sub(rhs Num) Num {
+	n.hi -= rhs.hi
+	var borrow uint64
+	n.lo, borrow = bits.Sub64(n.lo, rhs.lo, 0)
+	n.hi -= int64(borrow)
+	return n
+}
+
+func (n Num) Mul(rhs Num) Num {
+	hi, lo := bits.Mul64(n.lo, rhs.lo)
+	hi += (uint64(n.hi) * rhs.lo) + (n.lo * uint64(rhs.hi))
+	return Num{hi: int64(hi), lo: lo}
+}
+
+func (n Num) Div(rhs Num) (res, rem Num) {
+	b := n.BigInt()
+	out, remainder := b.QuoRem(b, rhs.BigInt(), &big.Int{})
+	return FromBigInt(out), FromBigInt(remainder)
+}
+
+func scalePositiveFloat64(v float64, prec, scale int32) (float64, error) {
 	var pscale float64
 	if scale >= -38 && scale <= 38 {
 		pscale = float64PowersOfTen[scale+38]
@@ -113,19 +146,59 @@ func fromPositiveFloat64(v float64, prec, scale int32) (Num, error) {
 	v = math.RoundToEven(v)
 	maxabs := float64PowersOfTen[prec+38]
 	if v <= -maxabs || v >= maxabs {
-		return Num{}, fmt.Errorf("cannot convert %f to decimal128(precision=%d, scale=%d): overflow", v, prec, scale)
+		return 0, fmt.Errorf("cannot convert %f to decimal128(precision=%d, scale=%d): overflow", v, prec, scale)
+	}
+	return v, nil
+}
+
+func fromPositiveFloat64(v float64, prec, scale int32) (Num, error) {
+	v, err := scalePositiveFloat64(v, prec, scale)
+	if err != nil {
+		return Num{}, err
 	}
 
-	hi := math.Floor(math.Ldexp(float64(v), -64))
+	hi := math.Floor(math.Ldexp(v, -64))
 	low := v - math.Ldexp(hi, 64)
 	return Num{hi: int64(hi), lo: uint64(low)}, nil
 }
 
+// this has to exist despite sharing some code with fromPositiveFloat64
+// because if we don't do the casts back to float32 in between each
+// step, we end up with a significantly different answer!
+// Aren't floating point values so much fun?
+//
+// example value to use:
+//    v := float32(1.8446746e+15)
+//
+// You'll end up with a different values if you do:
+// 	  FromFloat64(float64(v), 20, 4)
+// vs
+//    FromFloat32(v, 20, 4)
+//
+// because float64(v) == 1844674629206016 rather than 1844674600000000
+func fromPositiveFloat32(v float32, prec, scale int32) (Num, error) {
+	val, err := scalePositiveFloat64(float64(v), prec, scale)
+	if err != nil {
+		return Num{}, err
+	}
+
+	hi := float32(math.Floor(math.Ldexp(float64(float32(val)), -64)))
+	low := float32(val) - float32(math.Ldexp(float64(hi), 64))
+	return Num{hi: int64(hi), lo: uint64(low)}, nil
+}
+
 // FromFloat32 returns a new decimal128.Num constructed from the given float32
 // value using the provided precision and scale. Will return an error if the
 // value cannot be accurately represented with the desired precision and scale.
 func FromFloat32(v float32, prec, scale int32) (Num, error) {
-	return FromFloat64(float64(v), prec, scale)
+	if v < 0 {
+		dec, err := fromPositiveFloat32(-v, prec, scale)
+		if err != nil {
+			return dec, err
+		}
+		return dec.Negate(), nil
+	}
+	return fromPositiveFloat32(v, prec, scale)
 }
 
 // FromFloat64 returns a new decimal128.Num constructed from the given float64
@@ -142,6 +215,53 @@ func FromFloat64(v float64, prec, scale int32) (Num, error) {
 	return fromPositiveFloat64(v, prec, scale)
 }
 
+func FromString(v string, prec, scale int32) (n Num, err error) {
+	// time for some math!
+	// Our input precision means "number of digits of precision" but the
+	// math/big library refers to precision in floating point terms
+	// where it refers to the "number of bits of precision in the mantissa".
+	// So we need to figure out how many bits we should use for precision,
+	// based on the input precision. Too much precision and we're not rounding
+	// when we should. Too little precision and we round when we shouldn't.
+	//
+	// In general, the number of decimal digits you get from a given number
+	// of bits will be:
+	//
+	//	digits = log[base 10](2^nbits)
+	//
+	// it thus follows that:
+	//
+	//	digits = nbits * log[base 10](2)
+	//  nbits = digits / log[base 10](2)
+	//
+	// So we need to account for our scale since we're going to be multiplying
+	// by 10^scale in order to get the integral value we're actually going to use
+	// So to get our number of bits we do:
+	//
+	// 	(prec + scale + 1) / log[base10](2)
+	//
+	// Finally, we still have a sign bit, so we -1 to account for the sign bit.
+	// Aren't floating point numbers fun?
+	var precInBits = uint(math.Round(float64(prec+scale+1)/math.Log10(2))) + 1
+
+	var out *big.Float
+	out, _, err = big.ParseFloat(v, 10, 127, big.ToNearestEven)
+	if err != nil {
+		return
+	}
+
+	var tmp big.Int
+	val, _ := out.Mul(out, big.NewFloat(math.Pow10(int(scale)))).SetPrec(precInBits).Int(&tmp)
+	if val.BitLen() > 127 {
+		return Num{}, errors.New("bitlen too large for decimal128")
+	}
+	n = FromBigInt(val)
+	if !n.FitsInPrecision(prec) {
+		err = fmt.Errorf("val %v doesn't fit in precision %d", n, prec)
+	}
+	return
+}
+
 // ToFloat32 returns a float32 value representative of this decimal128.Num,
 // but with the given scale.
 func (n Num) ToFloat32(scale int32) float32 {
@@ -201,6 +321,14 @@ func (n Num) BigInt() *big.Int {
 	return toBigIntPositive(n)
 }
 
+func (n Num) Greater(other Num) bool {
+	return other.Less(n)
+}
+
+func (n Num) GreaterEqual(other Num) bool {
+	return !n.Less(other)
+}
+
 // Less returns true if the value represented by n is < other
 func (n Num) Less(other Num) bool {
 	return n.hi < other.hi || (n.hi == other.hi && n.lo < other.lo)
@@ -302,6 +430,16 @@ func (n Num) FitsInPrecision(prec int32) bool {
 	return n.Abs().Less(scaleMultipliers[prec])
 }
 
+func (n Num) ToString(scale int32) string {
+	f := (&big.Float{}).SetInt(n.BigInt())
+	f.Quo(f, (&big.Float{}).SetInt(scaleMultipliers[scale].BigInt()))
+	return f.Text('f', int(scale))
+}
+
+func GetScaleMultiplier(pow int) Num { return scaleMultipliers[pow] }
+
+func GetHalfScaleMultiplier(pow int) Num { return scaleMultipliersHalf[pow] }
+
 var (
 	scaleMultipliers = [...]Num{
 		FromU64(1),
@@ -323,7 +461,6 @@ var (
 		FromU64(10000000000000000),
 		FromU64(100000000000000000),
 		FromU64(1000000000000000000),
-		FromU64(10000000000000000000),
 		New(0, 10000000000000000000),
 		New(5, 7766279631452241920),
 		New(54, 3875820019684212736),
diff --git a/go/arrow/decimal128/decimal128_test.go b/go/arrow/decimal128/decimal128_test.go
index ed2a180715e..96993f52b7a 100644
--- a/go/arrow/decimal128/decimal128_test.go
+++ b/go/arrow/decimal128/decimal128_test.go
@@ -22,7 +22,7 @@ import (
 	"math/big"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
 	"github.com/stretchr/testify/assert"
 )
 
@@ -392,3 +392,52 @@ func TestDecimalFromFloat(t *testing.T) {
 		})
 	})
 }
+
+func TestFromString(t *testing.T) {
+	tests := []struct {
+		s             string
+		expected      int64
+		expectedScale int32
+	}{
+		{"12.3", 123, 1},
+		{"0.00123", 123, 5},
+		{"1.23e-8", 123, 10},
+		{"-1.23E-8", -123, 10},
+		{"1.23e+3", 1230, 0},
+		{"-1.23E+3", -1230, 0},
+		{"1.23e+5", 123000, 0},
+		{"1.2345E+7", 12345000, 0},
+		{"1.23e-8", 123, 10},
+		{"-1.23E-8", -123, 10},
+		{"1.23E+3", 1230, 0},
+		{"-1.23e+3", -1230, 0},
+		{"1.23e+5", 123000, 0},
+		{"1.2345e+7", 12345000, 0},
+		{"0000000", 0, 0},
+		{"000.0000", 0, 4},
+		{".00000", 0, 5},
+		{"1e1", 10, 0},
+		{"+234.567", 234567, 3},
+		{"1e-37", 1, 37},
+	}
+
+	for _, tt := range tests {
+		t.Run(fmt.Sprintf("%s_%d", tt.s, tt.expectedScale), func(t *testing.T) {
+			n, err := decimal128.FromString(tt.s, 8, tt.expectedScale)
+			assert.NoError(t, err)
+
+			ex := decimal128.FromI64(tt.expected)
+			assert.Equal(t, ex, n)
+		})
+	}
+}
+
+func TestInvalidNonNegScaleFromString(t *testing.T) {
+	tests := []string{"1e39", "-1e39", "9e39", "-9e39", "9.9e40", "-9.9e40"}
+	for _, tt := range tests {
+		t.Run(tt, func(t *testing.T) {
+			_, err := decimal128.FromString(tt, 38, 0)
+			assert.Error(t, err)
+		})
+	}
+}
diff --git a/go/arrow/decimal256/decimal256.go b/go/arrow/decimal256/decimal256.go
index 3dbaa56024f..9ae08275cd5 100644
--- a/go/arrow/decimal256/decimal256.go
+++ b/go/arrow/decimal256/decimal256.go
@@ -21,9 +21,10 @@ import (
 	"fmt"
 	"math"
 	"math/big"
+	"math/bits"
 
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
 )
 
 const (
@@ -31,6 +32,10 @@ const (
 	MaxScale     = 76
 )
 
+func GetMaxValue(prec int32) Num {
+	return scaleMultipliers[prec].Sub(FromU64(1))
+}
+
 type Num struct {
 	// arr[0] is the lowest bits, arr[3] is the highest bits
 	arr [4]uint64
@@ -84,8 +89,104 @@ func (n Num) Negate() Num {
 	return n
 }
 
+func (n Num) Add(rhs Num) Num {
+	var carry uint64
+	for i, v := range n.arr {
+		n.arr[i], carry = bits.Add64(v, rhs.arr[i], carry)
+	}
+	return n
+}
+
+func (n Num) Sub(rhs Num) Num {
+	return n.Add(rhs.Negate())
+}
+
+func (n Num) Mul(rhs Num) Num {
+	b := n.BigInt()
+	return FromBigInt(b.Mul(b, rhs.BigInt()))
+}
+
+func (n Num) Div(rhs Num) (res, rem Num) {
+	b := n.BigInt()
+	out, remainder := b.QuoRem(b, rhs.BigInt(), &big.Int{})
+	return FromBigInt(out), FromBigInt(remainder)
+}
+
+var pt5 = big.NewFloat(0.5)
+
+func FromString(v string, prec, scale int32) (n Num, err error) {
+	// time for some math!
+	// Our input precision means "number of digits of precision" but the
+	// math/big library refers to precision in floating point terms
+	// where it refers to the "number of bits of precision in the mantissa".
+	// So we need to figure out how many bits we should use for precision,
+	// based on the input precision. Too much precision and we're not rounding
+	// when we should. Too little precision and we round when we shouldn't.
+	//
+	// In general, the number of decimal digits you get from a given number
+	// of bits will be:
+	//
+	//	digits = log[base 10](2^nbits)
+	//
+	// it thus follows that:
+	//
+	//	digits = nbits * log[base 10](2)
+	//  nbits = digits / log[base 10](2)
+	//
+	// So we need to account for our scale since we're going to be multiplying
+	// by 10^scale in order to get the integral value we're actually going to use
+	// So to get our number of bits we do:
+	//
+	// 	(prec + scale + 1) / log[base10](2)
+	//
+	// Finally, we still have a sign bit, so we -1 to account for the sign bit.
+	// Aren't floating point numbers fun?
+	var precInBits = uint(math.Round(float64(prec+scale+1)/math.Log10(2))) + 1
+
+	var out *big.Float
+	out, _, err = big.ParseFloat(v, 10, 255, big.ToNearestEven)
+	if err != nil {
+		return
+	}
+
+	out.Mul(out, big.NewFloat(math.Pow10(int(scale)))).SetPrec(precInBits)
+	// Since we're going to truncate this to get an integer, we need to round
+	// the value instead because of edge cases so that we match how other implementations
+	// (e.g. C++) handles Decimal values. So if we're negative we'll subtract 0.5 and if
+	// we're positive we'll add 0.5.
+	if out.Signbit() {
+		out.Sub(out, pt5)
+	} else {
+		out.Add(out, pt5)
+	}
+
+	var tmp big.Int
+	val, _ := out.Int(&tmp)
+	if val.BitLen() > 255 {
+		return Num{}, errors.New("bitlen too large for decimal256")
+	}
+	n = FromBigInt(val)
+	if !n.FitsInPrecision(prec) {
+		err = fmt.Errorf("value %v doesn't fit in precision %d", n, prec)
+	}
+	return
+}
+
 func FromFloat32(v float32, prec, scale int32) (Num, error) {
-	return FromFloat64(float64(v), prec, scale)
+	debug.Assert(prec > 0 && prec <= 76, "invalid precision for converting to decimal256")
+
+	if math.IsInf(float64(v), 0) {
+		return Num{}, fmt.Errorf("cannot convert %f to decimal256", v)
+	}
+
+	if v < 0 {
+		dec, err := fromPositiveFloat32(-v, prec, scale)
+		if err != nil {
+			return dec, err
+		}
+		return dec.Negate(), nil
+	}
+	return fromPositiveFloat32(v, prec, scale)
 }
 
 func FromFloat64(v float64, prec, scale int32) (Num, error) {
@@ -105,7 +206,48 @@ func FromFloat64(v float64, prec, scale int32) (Num, error) {
 	return fromPositiveFloat64(v, prec, scale)
 }
 
-func fromPositiveFloat64(v float64, prec, scale int32) (Num, error) {
+// this has to exist despite sharing some code with fromPositiveFloat64
+// because if we don't do the casts back to float32 in between each
+// step, we end up with a significantly different answer!
+// Aren't floating point values so much fun?
+//
+// example value to use:
+//    v := float32(1.8446746e+15)
+//
+// You'll end up with a different values if you do:
+// 	  FromFloat64(float64(v), 20, 4)
+// vs
+//    FromFloat32(v, 20, 4)
+//
+// because float64(v) == 1844674629206016 rather than 1844674600000000
+func fromPositiveFloat32(v float32, prec, scale int32) (Num, error) {
+	val, err := scalePositiveFloat64(float64(v), prec, scale)
+	if err != nil {
+		return Num{}, err
+	}
+
+	v = float32(val)
+	var arr [4]float32
+	arr[3] = float32(math.Floor(math.Ldexp(float64(v), -192)))
+	v -= float32(math.Ldexp(float64(arr[3]), 192))
+	arr[2] = float32(math.Floor(math.Ldexp(float64(v), -128)))
+	v -= float32(math.Ldexp(float64(arr[2]), 128))
+	arr[1] = float32(math.Floor(math.Ldexp(float64(v), -64)))
+	v -= float32(math.Ldexp(float64(arr[1]), 64))
+	arr[0] = v
+
+	debug.Assert(arr[3] >= 0, "bad conversion float64 to decimal256")
+	debug.Assert(arr[3] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
+	debug.Assert(arr[2] >= 0, "bad conversion float64 to decimal256")
+	debug.Assert(arr[2] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
+	debug.Assert(arr[1] >= 0, "bad conversion float64 to decimal256")
+	debug.Assert(arr[1] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
+	debug.Assert(arr[0] >= 0, "bad conversion float64 to decimal256")
+	debug.Assert(arr[0] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
+	return Num{[4]uint64{uint64(arr[0]), uint64(arr[1]), uint64(arr[2]), uint64(arr[3])}}, nil
+}
+
+func scalePositiveFloat64(v float64, prec, scale int32) (float64, error) {
 	var pscale float64
 	if scale >= -76 && scale <= 76 {
 		pscale = float64PowersOfTen[scale+76]
@@ -117,18 +259,26 @@ func fromPositiveFloat64(v float64, prec, scale int32) (Num, error) {
 	v = math.RoundToEven(v)
 	maxabs := float64PowersOfTen[prec+76]
 	if v <= -maxabs || v >= maxabs {
-		return Num{}, fmt.Errorf("cannot convert %f to decimal256(precision=%d, scale=%d): overflow",
+		return 0, fmt.Errorf("cannot convert %f to decimal256(precision=%d, scale=%d): overflow",
 			v, prec, scale)
 	}
+	return v, nil
+}
+
+func fromPositiveFloat64(v float64, prec, scale int32) (Num, error) {
+	val, err := scalePositiveFloat64(v, prec, scale)
+	if err != nil {
+		return Num{}, err
+	}
 
 	var arr [4]float64
-	arr[3] = math.Floor(math.Ldexp(v, -192))
-	v -= math.Ldexp(arr[3], 192)
-	arr[2] = math.Floor(math.Ldexp(v, -128))
-	v -= math.Ldexp(arr[2], 128)
-	arr[1] = math.Floor(math.Ldexp(v, -64))
-	v -= math.Ldexp(arr[1], 64)
-	arr[0] = v
+	arr[3] = math.Floor(math.Ldexp(val, -192))
+	val -= math.Ldexp(arr[3], 192)
+	arr[2] = math.Floor(math.Ldexp(val, -128))
+	val -= math.Ldexp(arr[2], 128)
+	arr[1] = math.Floor(math.Ldexp(val, -64))
+	val -= math.Ldexp(arr[1], 64)
+	arr[0] = val
 
 	debug.Assert(arr[3] >= 0, "bad conversion float64 to decimal256")
 	debug.Assert(arr[3] < 1.8446744073709552e+19, "bad conversion float64 to decimal256") // 2**64
@@ -206,10 +356,18 @@ func (n Num) BigInt() *big.Int {
 	return toBigIntPositive(n)
 }
 
+func (n Num) Greater(other Num) bool {
+	return other.Less(n)
+}
+
+func (n Num) GreaterEqual(other Num) bool {
+	return !n.Less(other)
+}
+
 func (n Num) Less(other Num) bool {
 	switch {
 	case n.arr[3] != other.arr[3]:
-		return n.arr[3] < other.arr[3]
+		return int64(n.arr[3]) < int64(other.arr[3])
 	case n.arr[2] != other.arr[2]:
 		return n.arr[2] < other.arr[2]
 	case n.arr[1] != other.arr[1]:
@@ -246,22 +404,17 @@ func (n Num) ReduceScaleBy(reduce int32, round bool) Num {
 }
 
 func (n Num) rescaleWouldCauseDataLoss(deltaScale int32, multiplier Num) (out Num, loss bool) {
-	var (
-		value, result, remainder *big.Int
-	)
-	value = n.BigInt()
 	if deltaScale < 0 {
-		result, remainder = new(big.Int).QuoRem(value, multiplier.BigInt(), new(big.Int))
-		return FromBigInt(result), remainder.Cmp(big.NewInt(0)) != 0
+		var remainder Num
+		out, remainder = n.Div(multiplier)
+		return out, remainder != Num{}
 	}
 
-	result = (&big.Int{}).Mul(value, multiplier.BigInt())
-	out = FromBigInt(result)
-	cmp := result.Cmp(value)
+	out = n.Mul(multiplier)
 	if n.Sign() < 0 {
-		loss = cmp == 1
+		loss = n.Less(out)
 	} else {
-		loss = cmp == -1
+		loss = out.Less(n)
 	}
 	return
 }
@@ -297,6 +450,16 @@ func (n Num) FitsInPrecision(prec int32) bool {
 	return n.Abs().Less(scaleMultipliers[prec])
 }
 
+func (n Num) ToString(scale int32) string {
+	f := (&big.Float{}).SetInt(n.BigInt())
+	f.Quo(f, (&big.Float{}).SetInt(scaleMultipliers[scale].BigInt()))
+	return f.Text('f', int(scale))
+}
+
+func GetScaleMultiplier(pow int) Num { return scaleMultipliers[pow] }
+
+func GetHalfScaleMultiplier(pow int) Num { return scaleMultipliersHalf[pow] }
+
 var (
 	scaleMultipliers = [...]Num{
 		FromU64(1),
diff --git a/go/arrow/decimal256/decimal256_test.go b/go/arrow/decimal256/decimal256_test.go
index 719fb13e4eb..74dbef442dc 100644
--- a/go/arrow/decimal256/decimal256_test.go
+++ b/go/arrow/decimal256/decimal256_test.go
@@ -22,7 +22,7 @@ import (
 	"math/big"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
 	"github.com/stretchr/testify/assert"
 )
 
@@ -223,3 +223,42 @@ func TestDecimalFromFloat(t *testing.T) {
 		})
 	})
 }
+
+func TestFromString(t *testing.T) {
+	tests := []struct {
+		s             string
+		expected      int64
+		expectedScale int32
+	}{
+		{"12.3", 123, 1},
+		{"0.00123", 123, 5},
+		{"1.23e-8", 123, 10},
+		{"-1.23E-8", -123, 10},
+		{"1.23e+3", 1230, 0},
+		{"-1.23E+3", -1230, 0},
+		{"1.23e+5", 123000, 0},
+		{"1.2345E+7", 12345000, 0},
+		{"1.23e-8", 123, 10},
+		{"-1.23E-8", -123, 10},
+		{"1.23E+3", 1230, 0},
+		{"-1.23e+3", -1230, 0},
+		{"1.23e+5", 123000, 0},
+		{"1.2345e+7", 12345000, 0},
+		{"0000000", 0, 0},
+		{"000.0000", 0, 4},
+		{".00000", 0, 5},
+		{"1e1", 10, 0},
+		{"+234.567", 234567, 3},
+		{"1e-37", 1, 37},
+	}
+
+	for _, tt := range tests {
+		t.Run(fmt.Sprintf("%s_%d", tt.s, tt.expectedScale), func(t *testing.T) {
+			n, err := decimal256.FromString(tt.s, 8, tt.expectedScale)
+			assert.NoError(t, err)
+
+			ex := decimal256.FromI64(tt.expected)
+			assert.Equal(t, ex, n)
+		})
+	}
+}
diff --git a/go/arrow/doc.go b/go/arrow/doc.go
index 0af5cd163ab..f80f1757fbe 100644
--- a/go/arrow/doc.go
+++ b/go/arrow/doc.go
@@ -28,9 +28,15 @@ The fundamental data structure in Arrow is an Array, which holds a sequence of v
 consists of memory holding the data and an additional validity bitmap that indicates if the corresponding entry in the
 array is valid (not null). If the array has no null entries, it is possible to omit this bitmap.
 
+Requirements
+
+Despite the go.mod stating go1.18, everything except for the compute package
+is able to be built with go1.17 (and most is also compatible with go1.16).
 */
 package arrow
 
+const PkgVersion = "11.0.0"
+
 //go:generate go run _tools/tmpl/main.go -i -data=numeric.tmpldata type_traits_numeric.gen.go.tmpl type_traits_numeric.gen_test.go.tmpl array/numeric.gen.go.tmpl array/numericbuilder.gen.go.tmpl array/bufferbuilder_numeric.gen.go.tmpl
 //go:generate go run _tools/tmpl/main.go -i -data=datatype_numeric.gen.go.tmpldata datatype_numeric.gen.go.tmpl tensor/numeric.gen.go.tmpl tensor/numeric.gen_test.go.tmpl
 //go:generate go run _tools/tmpl/main.go -i -data=scalar/numeric.gen.go.tmpldata scalar/numeric.gen.go.tmpl scalar/numeric.gen_test.go.tmpl
diff --git a/go/arrow/endian/endian.go b/go/arrow/endian/endian.go
index 37ee3b16725..aa05b72a34f 100644
--- a/go/arrow/endian/endian.go
+++ b/go/arrow/endian/endian.go
@@ -17,8 +17,8 @@
 package endian
 
 import (
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
 )
 
 type Endianness flatbuf.Endianness
diff --git a/go/arrow/errors.go b/go/arrow/errors.go
new file mode 100644
index 00000000000..b4a11b952c0
--- /dev/null
+++ b/go/arrow/errors.go
@@ -0,0 +1,27 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package arrow
+
+import "errors"
+
+var (
+	ErrInvalid        = errors.New("invalid")
+	ErrNotImplemented = errors.New("not implemented")
+	ErrType           = errors.New("type error")
+	ErrKey            = errors.New("key error")
+	ErrIndex          = errors.New("index error")
+)
diff --git a/go/arrow/example_test.go b/go/arrow/example_test.go
index f95076738a7..f25cdfcba08 100644
--- a/go/arrow/example_test.go
+++ b/go/arrow/example_test.go
@@ -20,10 +20,10 @@ import (
 	"fmt"
 	"log"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/arrow/tensor"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/tensor"
 )
 
 // This example demonstrates how to build an array of int64 values using a builder and Append.
diff --git a/go/arrow/flight/basic_auth_flight_test.go b/go/arrow/flight/basic_auth_flight_test.go
index 78587799736..837d11ed312 100755
--- a/go/arrow/flight/basic_auth_flight_test.go
+++ b/go/arrow/flight/basic_auth_flight_test.go
@@ -22,7 +22,7 @@ import (
 	"io"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/flight"
+	"github.com/apache/arrow/go/v11/arrow/flight"
 	"google.golang.org/grpc"
 	"google.golang.org/grpc/codes"
 	"google.golang.org/grpc/credentials/insecure"
diff --git a/go/arrow/flight/client.go b/go/arrow/flight/client.go
index 1039f6d3e25..e7f69997714 100644
--- a/go/arrow/flight/client.go
+++ b/go/arrow/flight/client.go
@@ -26,7 +26,7 @@ import (
 	"strings"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow/flight/internal/flight"
+	"github.com/apache/arrow/go/v11/arrow/flight/internal/flight"
 	"google.golang.org/grpc"
 	"google.golang.org/grpc/codes"
 	"google.golang.org/grpc/metadata"
@@ -234,7 +234,7 @@ type ClientMiddleware struct {
 }
 
 type client struct {
-	conn        *grpc.ClientConn
+	conn        grpc.ClientConnInterface
 	authHandler ClientAuthHandler
 
 	FlightServiceClient
@@ -296,6 +296,11 @@ func NewClientWithMiddleware(addr string, auth ClientAuthHandler, middleware []C
 	return &client{conn: conn, FlightServiceClient: flight.NewFlightServiceClient(conn), authHandler: auth}, nil
 }
 
+func NewClientFromConn(cc grpc.ClientConnInterface, auth ClientAuthHandler) Client {
+	return &client{conn: cc,
+		FlightServiceClient: flight.NewFlightServiceClient(cc), authHandler: auth}
+}
+
 func (c *client) AuthenticateBasicToken(ctx context.Context, username, password string, opts ...grpc.CallOption) (context.Context, error) {
 	authCtx := metadata.AppendToOutgoingContext(ctx, "Authorization", "Basic "+base64.RawStdEncoding.EncodeToString([]byte(strings.Join([]string{username, password}, ":"))))
 
@@ -345,5 +350,8 @@ func (c *client) Authenticate(ctx context.Context, opts ...grpc.CallOption) erro
 
 func (c *client) Close() error {
 	c.FlightServiceClient = nil
-	return c.conn.Close()
+	if cl, ok := c.conn.(io.Closer); ok {
+		return cl.Close()
+	}
+	return nil
 }
diff --git a/go/arrow/flight/doc.go b/go/arrow/flight/doc.go
new file mode 100644
index 00000000000..68d1ca3458f
--- /dev/null
+++ b/go/arrow/flight/doc.go
@@ -0,0 +1,78 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// Package flight contains server and client implementations for the Arrow Flight RPC
+//
+// Here we list best practices and common pitfalls for Arrow Flight usage.
+//
+// GRPC
+//
+// When using gRPC for transport all client methods take an optional list
+// of gRPC CallOptions: https://pkg.go.dev/google.golang.org/grpc#CallOption.
+// Additional headers can be used or read via
+// https://pkg.go.dev/google.golang.org/grpc@v1.48.0/metadata with the context.
+// Also see available gRPC keys
+// (https://grpc.github.io/grpc/cpp/group__grpc__arg__keys.html) and a list of
+// best gRPC practices (https://grpc.io/docs/guides/performance/#general).
+//
+// Re-use clients whenever possible
+//
+// Closing clients causes gRPC to close and clean up connections which can take
+// several seconds per connection. This will stall server and client threads if
+// done too frequently. Client reuse will avoid this issue.
+//
+// Don’t round-robin load balance
+//
+// Round robin balancing can cause every client to have an open connection to
+// every server causing an unexpected number of open connections and a depletion
+// of resources.
+//
+// Debugging
+//
+// Use netstat to see the number of open connections.
+// For debug use env GODEBUG=http2debug=1 or GODEBUG=http2debug=2 for verbose
+// http2 logs (using 2 is more verbose with frame dumps). This will print the
+// initial headers (on both sides) so you can see if grpc established the
+// connection or not. It will also print when a message is sent, so you can tell
+// if the connection is open or not.
+//
+// Note: "connect" isn't really a connect and we’ve observed that gRPC does not
+// give you the actual error until you first try to make a call. This can cause
+// error being reported at unexpected times.
+//
+// Excessive traffic
+//
+// There are basically two ways to handle excessive traffic:
+// * unbounded goroutines -> everyone gets serviced, but it might take forever.
+// This is what you are seeing now. Default behaviour.
+// * bounded thread pool -> Reject connections / requests when under load, and have
+// clients retry with backoff. This also gives an opportunity to retry with a
+// different node. Not everyone gets serviced but quality of service stays consistent.
+// Can be set with https://pkg.go.dev/google.golang.org/grpc#NumStreamWorkers
+//
+// Closing unresponsive connections
+//
+// * Connection timeout (https://pkg.go.dev/context#WithTimeout) or
+// (https://pkg.go.dev/context#WithCancel) can be set via context.Context.
+// * There is a long standing ticket for a per-write/per-read timeout instead of a per
+// call timeout (https://issues.apache.org/jira/browse/ARROW-6062), but this is not
+// (easily) possible to implement with the blocking gRPC API. For now one can also do
+// something like set up a background thread that calls cancel() on a timer and have
+// the main thread reset the timer every time a write operation completes successfully
+// (that means one needs to use to_batches() + write_batch and not write_table).
+
+
+package flight
diff --git a/go/arrow/flight/example_flight_server_test.go b/go/arrow/flight/example_flight_server_test.go
index a37fbd700b3..dd137530196 100755
--- a/go/arrow/flight/example_flight_server_test.go
+++ b/go/arrow/flight/example_flight_server_test.go
@@ -23,7 +23,7 @@ import (
 	"io"
 	"log"
 
-	"github.com/apache/arrow/go/v10/arrow/flight"
+	"github.com/apache/arrow/go/v11/arrow/flight"
 	"google.golang.org/grpc"
 	"google.golang.org/grpc/codes"
 	"google.golang.org/grpc/credentials/insecure"
diff --git a/go/arrow/flight/flight_middleware_test.go b/go/arrow/flight/flight_middleware_test.go
index b515528b2b5..8ef275f1289 100755
--- a/go/arrow/flight/flight_middleware_test.go
+++ b/go/arrow/flight/flight_middleware_test.go
@@ -23,8 +23,8 @@ import (
 	sync "sync"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/flight"
-	"github.com/apache/arrow/go/v10/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 	"google.golang.org/grpc"
diff --git a/go/arrow/flight/flight_test.go b/go/arrow/flight/flight_test.go
index ccef0892308..6724dd830a7 100755
--- a/go/arrow/flight/flight_test.go
+++ b/go/arrow/flight/flight_test.go
@@ -23,14 +23,17 @@ import (
 	"io"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/flight"
-	"github.com/apache/arrow/go/v10/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"google.golang.org/grpc"
 	"google.golang.org/grpc/codes"
 	"google.golang.org/grpc/credentials/insecure"
+	"google.golang.org/grpc/health"
+	"google.golang.org/grpc/health/grpc_health_v1"
+	"google.golang.org/grpc/reflection"
 	"google.golang.org/grpc/status"
 )
 
@@ -308,6 +311,44 @@ func TestServer(t *testing.T) {
 	}
 }
 
+func TestServerWithAdditionalServices(t *testing.T) {
+	f := &flightServer{}
+	f.SetAuthHandler(&servAuth{})
+
+	s := flight.NewFlightServer()
+	s.Init("localhost:0")
+	s.RegisterFlightService(f)
+
+	// Enable health check.
+	grpc_health_v1.RegisterHealthServer(s, health.NewServer())
+
+	// Enable reflection for grpcurl.
+	reflection.Register(s)
+
+	go s.Serve()
+	defer s.Shutdown()
+
+	// Flight client should not be affected by the additional services.
+	flightClient, err := flight.NewFlightClient(s.Addr().String(), &clientAuth{}, grpc.WithTransportCredentials(insecure.NewCredentials()))
+	if err != nil {
+		t.Error(err)
+	}
+	defer flightClient.Close()
+
+	// Make sure health check is working.
+	conn, err := grpc.Dial(s.Addr().String(), grpc.WithTransportCredentials(insecure.NewCredentials()))
+	if err != nil {
+		t.Error(err)
+	}
+	defer conn.Close()
+
+	healthClient := grpc_health_v1.NewHealthClient(conn)
+	_, err = healthClient.Check(context.Background(), &grpc_health_v1.HealthCheckRequest{})
+	if err != nil {
+		t.Error(err)
+	}
+}
+
 type flightMetadataWriterServer struct {
 	flight.BaseFlightServer
 }
diff --git a/go/arrow/flight/flightsql/client.go b/go/arrow/flight/flightsql/client.go
new file mode 100644
index 00000000000..fd93b07379c
--- /dev/null
+++ b/go/arrow/flight/flightsql/client.go
@@ -0,0 +1,574 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package flightsql
+
+import (
+	"context"
+	"errors"
+	"io"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	pb "github.com/apache/arrow/go/v11/arrow/flight/internal/flight"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"google.golang.org/grpc"
+	"google.golang.org/protobuf/proto"
+	"google.golang.org/protobuf/types/known/anypb"
+)
+
+// NewClient is a convenience function to automatically construct
+// a flight.Client and return a flightsql.Client containing it rather
+// than having to manually construct both yourself. It just delegates
+// its arguments to flight.NewClientWithMiddleware to create the
+// underlying Flight Client.
+func NewClient(addr string, auth flight.ClientAuthHandler, middleware []flight.ClientMiddleware, opts ...grpc.DialOption) (*Client, error) {
+	cl, err := flight.NewClientWithMiddleware(addr, auth, middleware, opts...)
+	if err != nil {
+		return nil, err
+	}
+	return &Client{cl, memory.DefaultAllocator}, nil
+}
+
+// Client wraps a regular Flight RPC Client to provide the FlightSQL
+// interface functions and methods.
+type Client struct {
+	Client flight.Client
+
+	Alloc memory.Allocator
+}
+
+func descForCommand(cmd proto.Message) (*flight.FlightDescriptor, error) {
+	var any anypb.Any
+	if err := any.MarshalFrom(cmd); err != nil {
+		return nil, err
+	}
+
+	data, err := proto.Marshal(&any)
+	if err != nil {
+		return nil, err
+	}
+	return &flight.FlightDescriptor{
+		Type: flight.DescriptorCMD,
+		Cmd:  data,
+	}, nil
+}
+
+func flightInfoForCommand(ctx context.Context, cl *Client, cmd proto.Message, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	desc, err := descForCommand(cmd)
+	if err != nil {
+		return nil, err
+	}
+	return cl.getFlightInfo(ctx, desc, opts...)
+}
+
+func schemaForCommand(ctx context.Context, cl *Client, cmd proto.Message, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	desc, err := descForCommand(cmd)
+	if err != nil {
+		return nil, err
+	}
+	return cl.getSchema(ctx, desc, opts...)
+}
+
+// Execute executes the desired query on the server and returns a FlightInfo
+// object describing where to retrieve the results.
+func (c *Client) Execute(ctx context.Context, query string, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	cmd := pb.CommandStatementQuery{Query: query}
+	return flightInfoForCommand(ctx, c, &cmd, opts...)
+}
+
+// GetExecuteSchema gets the schema of the result set of a query without
+// executing the query itself.
+func (c *Client) GetExecuteSchema(ctx context.Context, query string, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	cmd := pb.CommandStatementQuery{Query: query}
+	return schemaForCommand(ctx, c, &cmd, opts...)
+}
+
+// ExecuteUpdate is for executing an update query and only returns the number of affected rows.
+func (c *Client) ExecuteUpdate(ctx context.Context, query string, opts ...grpc.CallOption) (n int64, err error) {
+	var (
+		cmd          pb.CommandStatementUpdate
+		desc         *flight.FlightDescriptor
+		stream       pb.FlightService_DoPutClient
+		res          *pb.PutResult
+		updateResult pb.DoPutUpdateResult
+	)
+
+	cmd.Query = query
+	if desc, err = descForCommand(&cmd); err != nil {
+		return
+	}
+
+	if stream, err = c.Client.DoPut(ctx, opts...); err != nil {
+		return
+	}
+
+	if err = stream.Send(&flight.FlightData{FlightDescriptor: desc}); err != nil {
+		return
+	}
+
+	if err = stream.CloseSend(); err != nil {
+		return
+	}
+
+	if res, err = stream.Recv(); err != nil {
+		return
+	}
+
+	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
+		return
+	}
+
+	return updateResult.GetRecordCount(), nil
+}
+
+// GetCatalogs requests the list of catalogs from the server and
+// returns a flightInfo object where the response can be retrieved
+func (c *Client) GetCatalogs(ctx context.Context, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	return flightInfoForCommand(ctx, c, &pb.CommandGetCatalogs{}, opts...)
+}
+
+// GetCatalogsSchema requests the schema of GetCatalogs from the server
+func (c *Client) GetCatalogsSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	return schemaForCommand(ctx, c, &pb.CommandGetCatalogs{}, opts...)
+}
+
+// GetDBSchemas requests the list of schemas from the database and
+// returns a FlightInfo object where the response can be retrieved
+func (c *Client) GetDBSchemas(ctx context.Context, cmdOpts *GetDBSchemasOpts, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	return flightInfoForCommand(ctx, c, (*pb.CommandGetDbSchemas)(cmdOpts), opts...)
+}
+
+// GetDBSchemasSchema requests the schema of GetDBSchemas from the server
+func (c *Client) GetDBSchemasSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	return schemaForCommand(ctx, c, &pb.CommandGetDbSchemas{}, opts...)
+}
+
+// DoGet uses the provided flight ticket to request the stream of data.
+// It returns a recordbatch reader to stream the results. Release
+// should be called on the reader when done.
+func (c *Client) DoGet(ctx context.Context, in *flight.Ticket, opts ...grpc.CallOption) (*flight.Reader, error) {
+	stream, err := c.Client.DoGet(ctx, in, opts...)
+	if err != nil {
+		return nil, err
+	}
+
+	return flight.NewRecordReader(stream, ipc.WithAllocator(c.Alloc))
+}
+
+// GetTables requests a list of tables from the server, with the provided
+// options describing how to make the request (filter patterns, if the schema
+// should be returned, etc.). Returns a FlightInfo object where the response
+// can be retrieved.
+func (c *Client) GetTables(ctx context.Context, reqOptions *GetTablesOpts, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	return flightInfoForCommand(ctx, c, (*pb.CommandGetTables)(reqOptions), opts...)
+}
+
+// GetTablesSchema requests the schema of GetTables from the server.
+func (c *Client) GetTablesSchema(ctx context.Context, reqOptions *GetTablesOpts, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	return schemaForCommand(ctx, c, (*pb.CommandGetTables)(reqOptions), opts...)
+}
+
+// GetPrimaryKeys requests the primary keys for a specific table from the
+// server, specified using a TableRef. Returns a FlightInfo object where
+// the response can be retrieved.
+func (c *Client) GetPrimaryKeys(ctx context.Context, ref TableRef, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	cmd := pb.CommandGetPrimaryKeys{
+		Catalog:  ref.Catalog,
+		DbSchema: ref.DBSchema,
+		Table:    ref.Table,
+	}
+	return flightInfoForCommand(ctx, c, &cmd, opts...)
+}
+
+// GetPrimaryKeysSchema requests the schema of GetPrimaryKeys from the server.
+func (c *Client) GetPrimaryKeysSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	return schemaForCommand(ctx, c, &pb.CommandGetPrimaryKeys{}, opts...)
+}
+
+// GetExportedKeys retrieves a description about the foreign key columns
+// that reference the primary key columns of the specified table. Returns
+// a FlightInfo object where the response can be retrieved.
+func (c *Client) GetExportedKeys(ctx context.Context, ref TableRef, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	cmd := pb.CommandGetExportedKeys{
+		Catalog:  ref.Catalog,
+		DbSchema: ref.DBSchema,
+		Table:    ref.Table,
+	}
+	return flightInfoForCommand(ctx, c, &cmd, opts...)
+}
+
+// GetExportedKeysSchema requests the schema of GetExportedKeys from the server.
+func (c *Client) GetExportedKeysSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	return schemaForCommand(ctx, c, &pb.CommandGetExportedKeys{}, opts...)
+}
+
+// GetImportedKeys returns the foreign key columns for the specified table.
+// Returns a FlightInfo object indicating where the response can be retrieved.
+func (c *Client) GetImportedKeys(ctx context.Context, ref TableRef, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	cmd := pb.CommandGetImportedKeys{
+		Catalog:  ref.Catalog,
+		DbSchema: ref.DBSchema,
+		Table:    ref.Table,
+	}
+	return flightInfoForCommand(ctx, c, &cmd, opts...)
+}
+
+// GetImportedKeysSchema requests the schema of GetImportedKeys from the server.
+func (c *Client) GetImportedKeysSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	return schemaForCommand(ctx, c, &pb.CommandGetImportedKeys{}, opts...)
+}
+
+// GetCrossReference retrieves a description of the foreign key columns
+// in the specified ForeignKey table that reference the primary key or
+// columns representing a restraint of the parent table (could be the same
+// or a different table). Returns a FlightInfo object indicating where
+// the response can be retrieved with DoGet.
+func (c *Client) GetCrossReference(ctx context.Context, pkTable, fkTable TableRef, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	cmd := pb.CommandGetCrossReference{
+		PkCatalog:  pkTable.Catalog,
+		PkDbSchema: pkTable.DBSchema,
+		PkTable:    pkTable.Table,
+		FkCatalog:  fkTable.Catalog,
+		FkDbSchema: fkTable.DBSchema,
+		FkTable:    fkTable.Table,
+	}
+	return flightInfoForCommand(ctx, c, &cmd, opts...)
+}
+
+// GetCrossReferenceSchema requests the schema of GetCrossReference from the server.
+func (c *Client) GetCrossReferenceSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	return schemaForCommand(ctx, c, &pb.CommandGetCrossReference{}, opts...)
+}
+
+// GetTableTypes requests a list of the types of tables available on this
+// server. Returns a FlightInfo object indicating where the response can
+// be retrieved.
+func (c *Client) GetTableTypes(ctx context.Context, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	return flightInfoForCommand(ctx, c, &pb.CommandGetTableTypes{}, opts...)
+}
+
+// GetTableTypesSchema requests the schema of GetTableTypes from the server.
+func (c *Client) GetTableTypesSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	return schemaForCommand(ctx, c, &pb.CommandGetTableTypes{}, opts...)
+}
+
+// GetXdbcTypeInfo requests the information about all the data types supported
+// (dataType == nil) or a specific data type. Returns a FlightInfo object
+// indicating where the response can be retrieved.
+func (c *Client) GetXdbcTypeInfo(ctx context.Context, dataType *int32, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	return flightInfoForCommand(ctx, c, &pb.CommandGetXdbcTypeInfo{DataType: dataType}, opts...)
+}
+
+// GetXdbcTypeInfoSchema requests the schema of GetXdbcTypeInfo from the server.
+func (c *Client) GetXdbcTypeInfoSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	return schemaForCommand(ctx, c, &pb.CommandGetXdbcTypeInfo{}, opts...)
+}
+
+// GetSqlInfo returns a list of the requested SQL information corresponding
+// to the values in the info slice. Returns a FlightInfo object indicating
+// where the response can be retrieved.
+func (c *Client) GetSqlInfo(ctx context.Context, info []SqlInfo, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	cmd := &pb.CommandGetSqlInfo{Info: make([]uint32, len(info))}
+
+	for i, v := range info {
+		cmd.Info[i] = uint32(v)
+	}
+	return flightInfoForCommand(ctx, c, cmd, opts...)
+}
+
+// GetSqlInfoSchema requests the schema of  GetSqlInfo from the server.
+func (c *Client) GetSqlInfoSchema(ctx context.Context, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	return schemaForCommand(ctx, c, &pb.CommandGetSqlInfo{}, opts...)
+}
+
+// Prepare creates a PreparedStatement object for the specified query.
+// The resulting PreparedStatement object should be Closed when no longer
+// needed. It will maintain a reference to this Client for use to execute
+// and use the specified allocator for any allocations it needs to perform.
+func (c *Client) Prepare(ctx context.Context, mem memory.Allocator, query string, opts ...grpc.CallOption) (prep *PreparedStatement, err error) {
+	const actionType = CreatePreparedStatementActionType
+
+	var (
+		cmd, cmdResult        anypb.Any
+		res                   *pb.Result
+		request               pb.ActionCreatePreparedStatementRequest
+		result                pb.ActionCreatePreparedStatementResult
+		action                pb.Action
+		stream                pb.FlightService_DoActionClient
+		dsSchema, paramSchema *arrow.Schema
+	)
+
+	request.Query = query
+	if err = cmd.MarshalFrom(&request); err != nil {
+		return
+	}
+
+	action.Type = actionType
+	if action.Body, err = proto.Marshal(&cmd); err != nil {
+		return
+	}
+
+	if stream, err = c.Client.DoAction(ctx, &action, opts...); err != nil {
+		return
+	}
+
+	if res, err = stream.Recv(); err != nil {
+		return
+	}
+
+	if err = proto.Unmarshal(res.Body, &cmdResult); err != nil {
+		return
+	}
+
+	if err = cmdResult.UnmarshalTo(&result); err != nil {
+		return
+	}
+
+	if result.DatasetSchema != nil {
+		dsSchema, err = flight.DeserializeSchema(result.DatasetSchema, mem)
+		if err != nil {
+			return
+		}
+	}
+	if result.ParameterSchema != nil {
+		paramSchema, err = flight.DeserializeSchema(result.ParameterSchema, mem)
+		if err != nil {
+			return
+		}
+	}
+
+	prep = &PreparedStatement{
+		client:        c,
+		opts:          opts,
+		handle:        result.PreparedStatementHandle,
+		datasetSchema: dsSchema,
+		paramSchema:   paramSchema,
+	}
+	return
+}
+
+func (c *Client) getFlightInfo(ctx context.Context, desc *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	return c.Client.GetFlightInfo(ctx, desc, opts...)
+}
+
+func (c *Client) getSchema(ctx context.Context, desc *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	return c.Client.GetSchema(ctx, desc, opts...)
+}
+
+// Close will close the underlying flight Client in use by this flightsql.Client
+func (c *Client) Close() error { return c.Client.Close() }
+
+// PreparedStatement represents a constructed PreparedStatement on the server
+// and maintains a reference to the Client that created it along with the
+// prepared statement handle.
+//
+// If the server returned the Dataset Schema or Parameter Binding schemas
+// at creation, they will also be accessible from this object. Close
+// should be called when no longer needed.
+type PreparedStatement struct {
+	client        *Client
+	opts          []grpc.CallOption
+	handle        []byte
+	datasetSchema *arrow.Schema
+	paramSchema   *arrow.Schema
+	paramBinding  arrow.Record
+	closed        bool
+}
+
+// Execute executes the prepared statement on the server and returns a FlightInfo
+// indicating where to retrieve the response. If SetParameters has been called
+// then the parameter bindings will be sent before execution.
+//
+// Will error if already closed.
+func (p *PreparedStatement) Execute(ctx context.Context) (*flight.FlightInfo, error) {
+	if p.closed {
+		return nil, errors.New("arrow/flightsql: prepared statement already closed")
+	}
+
+	cmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: p.handle}
+
+	desc, err := descForCommand(cmd)
+	if err != nil {
+		return nil, err
+	}
+
+	if p.paramBinding != nil && p.paramBinding.NumRows() > 0 {
+		pstream, err := p.client.Client.DoPut(ctx, p.opts...)
+		if err != nil {
+			return nil, err
+		}
+
+		wr := flight.NewRecordWriter(pstream, ipc.WithSchema(p.paramBinding.Schema()))
+		wr.SetFlightDescriptor(desc)
+		if err = wr.Write(p.paramBinding); err != nil {
+			return nil, err
+		}
+		if err = wr.Close(); err != nil {
+			return nil, err
+		}
+		pstream.CloseSend()
+
+		// wait for the server to ack the result
+		if _, err = pstream.Recv(); err != nil && err != io.EOF {
+			return nil, err
+		}
+	}
+
+	return p.client.getFlightInfo(ctx, desc, p.opts...)
+}
+
+// ExecuteUpdate executes the prepared statement update query on the server
+// and returns the number of rows affected. If SetParameters was called,
+// the parameter bindings will be sent with the request to execute.
+func (p *PreparedStatement) ExecuteUpdate(ctx context.Context) (nrecords int64, err error) {
+	if p.closed {
+		return 0, errors.New("arrow/flightsql: prepared statement already closed")
+	}
+
+	var (
+		execCmd      = &pb.CommandPreparedStatementUpdate{PreparedStatementHandle: p.handle}
+		desc         *flight.FlightDescriptor
+		pstream      pb.FlightService_DoPutClient
+		wr           *flight.Writer
+		res          *pb.PutResult
+		updateResult pb.DoPutUpdateResult
+	)
+
+	desc, err = descForCommand(execCmd)
+	if err != nil {
+		return
+	}
+
+	if pstream, err = p.client.Client.DoPut(ctx, p.opts...); err != nil {
+		return
+	}
+	if p.paramBinding != nil && p.paramBinding.NumRows() > 0 {
+		wr = flight.NewRecordWriter(pstream, ipc.WithSchema(p.paramBinding.Schema()))
+		wr.SetFlightDescriptor(desc)
+		if err = wr.Write(p.paramBinding); err != nil {
+			return
+		}
+	} else {
+		schema := arrow.NewSchema([]arrow.Field{}, nil)
+		wr = flight.NewRecordWriter(pstream, ipc.WithSchema(schema))
+		wr.SetFlightDescriptor(desc)
+		rec := array.NewRecord(schema, []arrow.Array{}, 0)
+		if err = wr.Write(rec); err != nil {
+			return
+		}
+	}
+
+	if err = wr.Close(); err != nil {
+		return
+	}
+	if err = pstream.CloseSend(); err != nil {
+		return
+	}
+	if res, err = pstream.Recv(); err != nil {
+		return
+	}
+
+	if err = proto.Unmarshal(res.GetAppMetadata(), &updateResult); err != nil {
+		return
+	}
+
+	return updateResult.GetRecordCount(), nil
+}
+
+// DatasetSchema may be nil if the server did not return it when creating the
+// Prepared Statement.
+func (p *PreparedStatement) DatasetSchema() *arrow.Schema { return p.datasetSchema }
+
+// ParameterSchema may be nil if the server did not return it when creating
+// the prepared statement.
+func (p *PreparedStatement) ParameterSchema() *arrow.Schema { return p.paramSchema }
+
+// GetSchema re-requests the schema of the result set of the prepared
+// statement from the server. It should otherwise be identical to DatasetSchema.
+//
+// Will error if already closed.
+func (p *PreparedStatement) GetSchema(ctx context.Context) (*flight.SchemaResult, error) {
+	if p.closed {
+		return nil, errors.New("arrow/flightsql: prepared statement already closed")
+	}
+
+	cmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: p.handle}
+
+	desc, err := descForCommand(cmd)
+	if err != nil {
+		return nil, err
+	}
+
+	return p.client.getSchema(ctx, desc, p.opts...)
+}
+
+// SetParameters takes a record batch to send as the parameter bindings when
+// executing. It should match the schema from ParameterSchema.
+//
+// This will call Retain on the record to ensure it doesn't get released
+// out from under the statement. Release will be called on a previous
+// binding record if it existed, and will be called upon calling Close
+// on the PreparedStatement.
+func (p *PreparedStatement) SetParameters(binding arrow.Record) {
+	if p.paramBinding != nil {
+		p.paramBinding.Release()
+		p.paramBinding = nil
+	}
+	p.paramBinding = binding
+	p.paramBinding.Retain()
+}
+
+// Close calls release on any parameter binding record and sends
+// a ClosePreparedStatement action to the server. After calling
+// Close, the PreparedStatement should not be used again.
+func (p *PreparedStatement) Close(ctx context.Context) error {
+	if p.closed {
+		return errors.New("arrow/flightsql: already closed")
+	}
+
+	if p.paramBinding != nil {
+		p.paramBinding.Release()
+		p.paramBinding = nil
+	}
+
+	const actionType = ClosePreparedStatementActionType
+	var (
+		cmd     anypb.Any
+		request pb.ActionClosePreparedStatementRequest
+	)
+
+	request.PreparedStatementHandle = p.handle
+	if err := cmd.MarshalFrom(&request); err != nil {
+		return err
+	}
+
+	body, err := proto.Marshal(&cmd)
+	if err != nil {
+		return err
+	}
+
+	action := &flight.Action{Type: actionType, Body: body}
+	_, err = p.client.Client.DoAction(ctx, action, p.opts...)
+	if err != nil {
+		return err
+	}
+
+	p.closed = true
+	return nil
+}
diff --git a/go/arrow/flight/flightsql/client_test.go b/go/arrow/flight/flightsql/client_test.go
new file mode 100644
index 00000000000..60a88437e49
--- /dev/null
+++ b/go/arrow/flight/flightsql/client_test.go
@@ -0,0 +1,469 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package flightsql_test
+
+import (
+	"context"
+	"strings"
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql"
+	pb "github.com/apache/arrow/go/v11/arrow/flight/internal/flight"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/stretchr/testify/mock"
+	"github.com/stretchr/testify/suite"
+	"google.golang.org/grpc"
+	"google.golang.org/grpc/metadata"
+	"google.golang.org/protobuf/proto"
+	"google.golang.org/protobuf/types/known/anypb"
+)
+
+type mockGrpcClientStream struct {
+	mock.Mock
+}
+
+func (m *mockGrpcClientStream) Header() (metadata.MD, error)  { panic("unimplemented") }
+func (m *mockGrpcClientStream) Trailer() metadata.MD          { panic("unimplemented") }
+func (m *mockGrpcClientStream) CloseSend() error              { return m.Called().Error(0) }
+func (m *mockGrpcClientStream) Context() context.Context      { return context.TODO() }
+func (m *mockGrpcClientStream) SendMsg(msg interface{}) error { return m.Called(msg).Error(0) }
+func (m *mockGrpcClientStream) RecvMsg(msg interface{}) error { return m.Called(msg).Error(0) }
+
+type FlightServiceClientMock struct {
+	mock.Mock
+}
+
+func (m *FlightServiceClientMock) Authenticate(_ context.Context, opts ...grpc.CallOption) error {
+	return m.Called(opts).Error(0)
+}
+
+func (m *FlightServiceClientMock) AuthenticateBasicToken(_ context.Context, user, pass string, opts ...grpc.CallOption) (context.Context, error) {
+	args := m.Called(user, pass, opts)
+	return args.Get(0).(context.Context), args.Error(1)
+}
+
+func (m *FlightServiceClientMock) Close() error {
+	return m.Called().Error(0)
+}
+
+func (m *FlightServiceClientMock) Handshake(ctx context.Context, opts ...grpc.CallOption) (flight.FlightService_HandshakeClient, error) {
+	panic("not implemented") // TODO: Implement
+}
+
+func (m *FlightServiceClientMock) ListFlights(ctx context.Context, in *flight.Criteria, opts ...grpc.CallOption) (flight.FlightService_ListFlightsClient, error) {
+	panic("not implemented") // TODO: Implement
+}
+
+func (m *FlightServiceClientMock) GetFlightInfo(ctx context.Context, in *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.FlightInfo, error) {
+	args := m.Called(in.Type, in.Cmd, opts)
+	return args.Get(0).(*flight.FlightInfo), args.Error(1)
+}
+
+func (m *FlightServiceClientMock) GetSchema(ctx context.Context, in *flight.FlightDescriptor, opts ...grpc.CallOption) (*flight.SchemaResult, error) {
+	panic("not implemented") // TODO: Implement
+}
+
+func (m *FlightServiceClientMock) DoGet(ctx context.Context, in *flight.Ticket, opts ...grpc.CallOption) (flight.FlightService_DoGetClient, error) {
+	panic("not implemented") // TODO: Implement
+}
+
+func (m *FlightServiceClientMock) DoPut(ctx context.Context, opts ...grpc.CallOption) (flight.FlightService_DoPutClient, error) {
+	args := m.Called(opts)
+	return args.Get(0).(flight.FlightService_DoPutClient), args.Error(1)
+}
+
+func (m *FlightServiceClientMock) DoExchange(ctx context.Context, opts ...grpc.CallOption) (flight.FlightService_DoExchangeClient, error) {
+	panic("not implemented") // TODO: Implement
+}
+
+func (m *FlightServiceClientMock) DoAction(ctx context.Context, in *flight.Action, opts ...grpc.CallOption) (flight.FlightService_DoActionClient, error) {
+	args := m.Called(in.Type, in.Body, opts)
+	return args.Get(0).(flight.FlightService_DoActionClient), args.Error(1)
+}
+
+func (m *FlightServiceClientMock) ListActions(ctx context.Context, in *flight.Empty, opts ...grpc.CallOption) (flight.FlightService_ListActionsClient, error) {
+	panic("not implemented") // TODO: Implement
+}
+
+type FlightSqlClientSuite struct {
+	suite.Suite
+
+	mockClient FlightServiceClientMock
+	callOpts   []grpc.CallOption
+	sqlClient  flightsql.Client
+}
+
+func getDesc(cmd proto.Message) *flight.FlightDescriptor {
+	var anycmd anypb.Any
+	anycmd.MarshalFrom(cmd)
+
+	data, _ := proto.Marshal(&anycmd)
+	return &flight.FlightDescriptor{
+		Type: flight.DescriptorCMD,
+		Cmd:  data,
+	}
+}
+
+func getAction(cmd proto.Message) *flight.Action {
+	var anycmd anypb.Any
+	anycmd.MarshalFrom(cmd)
+
+	data, _ := proto.Marshal(&anycmd)
+	return &flight.Action{Body: data}
+}
+
+func (s *FlightSqlClientSuite) SetupTest() {
+	s.mockClient = FlightServiceClientMock{}
+	s.sqlClient.Client = &s.mockClient
+}
+
+func (s *FlightSqlClientSuite) TearDownTest() {
+	s.mockClient.AssertExpectations(s.T())
+}
+
+var emptyFlightInfo flight.FlightInfo
+
+func (s *FlightSqlClientSuite) TestGetCatalogs() {
+	var cmd pb.CommandGetCatalogs
+	desc := getDesc(&cmd)
+
+	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
+	info, err := s.sqlClient.GetCatalogs(context.Background(), s.callOpts...)
+	s.NoError(err)
+	s.Equal(&emptyFlightInfo, info)
+}
+
+func (s *FlightSqlClientSuite) TestGetDBSchemas() {
+	var (
+		schemaFilterPattern = "schema_filter_pattern"
+		catalog             = "catalog"
+	)
+
+	cmd := &pb.CommandGetDbSchemas{
+		Catalog:               &catalog,
+		DbSchemaFilterPattern: &schemaFilterPattern,
+	}
+	desc := getDesc(cmd)
+
+	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
+	info, err := s.sqlClient.GetDBSchemas(context.Background(), (*flightsql.GetDBSchemasOpts)(cmd), s.callOpts...)
+	s.NoError(err)
+	s.Equal(&emptyFlightInfo, info)
+}
+
+func (s *FlightSqlClientSuite) TestGetTables() {
+	var (
+		catalog                = "catalog"
+		schemaFilterPattern    = "schema_filter_pattern"
+		tableNameFilterPattern = "table_name_filter_pattern"
+		includeSchema          = true
+		tableTypes             = []string{"type1", "type2"}
+	)
+
+	cmd := &pb.CommandGetTables{
+		Catalog:                &catalog,
+		DbSchemaFilterPattern:  &schemaFilterPattern,
+		TableNameFilterPattern: &tableNameFilterPattern,
+		IncludeSchema:          includeSchema,
+		TableTypes:             tableTypes,
+	}
+	desc := getDesc(cmd)
+	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
+	info, err := s.sqlClient.GetTables(context.Background(), (*flightsql.GetTablesOpts)(cmd), s.callOpts...)
+	s.NoError(err)
+	s.Equal(&emptyFlightInfo, info)
+}
+
+func (s *FlightSqlClientSuite) TestGetTableTypes() {
+	var cmd pb.CommandGetTableTypes
+	desc := getDesc(&cmd)
+
+	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
+	info, err := s.sqlClient.GetTableTypes(context.Background(), s.callOpts...)
+	s.NoError(err)
+	s.Equal(&emptyFlightInfo, info)
+}
+
+func (s *FlightSqlClientSuite) TestGetTypeInfo() {
+	var cmd pb.CommandGetXdbcTypeInfo
+	desc := getDesc(&cmd)
+
+	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
+	info, err := s.sqlClient.GetXdbcTypeInfo(context.Background(), nil, s.callOpts...)
+	s.NoError(err)
+	s.Equal(&emptyFlightInfo, info)
+}
+
+func (s *FlightSqlClientSuite) TestGetExported() {
+	var (
+		catalog = "catalog"
+		schema  = "schema"
+		table   = "table"
+	)
+
+	cmd := &pb.CommandGetExportedKeys{
+		Catalog:  &catalog,
+		DbSchema: &schema,
+		Table:    table,
+	}
+	desc := getDesc(cmd)
+
+	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
+	info, err := s.sqlClient.GetExportedKeys(context.Background(), flightsql.TableRef{&catalog, &schema, table}, s.callOpts...)
+	s.NoError(err)
+	s.Equal(&emptyFlightInfo, info)
+}
+
+func (s *FlightSqlClientSuite) TestGetImported() {
+	var (
+		schema = "schema"
+		table  = "table"
+	)
+
+	cmd := &pb.CommandGetImportedKeys{
+		DbSchema: &schema,
+		Table:    table,
+	}
+	desc := getDesc(cmd)
+
+	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
+	info, err := s.sqlClient.GetImportedKeys(context.Background(), flightsql.TableRef{nil, &schema, table}, s.callOpts...)
+	s.NoError(err)
+	s.Equal(&emptyFlightInfo, info)
+}
+
+func (s *FlightSqlClientSuite) TestGetPrimary() {
+	var (
+		catalog = "catalog"
+		table   = "table"
+	)
+
+	cmd := &pb.CommandGetPrimaryKeys{
+		Catalog: &catalog,
+		Table:   table,
+	}
+	desc := getDesc(cmd)
+
+	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
+	info, err := s.sqlClient.GetPrimaryKeys(context.Background(), flightsql.TableRef{&catalog, nil, table}, s.callOpts...)
+	s.NoError(err)
+	s.Equal(&emptyFlightInfo, info)
+}
+
+func (s *FlightSqlClientSuite) TestGetCrossReference() {
+	var (
+		pkCatalog = "pk_catalog"
+		pkSchema  = "pk_schema"
+		pkTable   = "pk_table"
+		fkCatalog = "fk_catalog"
+		fkSchema  = "fk_schema"
+		fkTable   = "fk_table"
+	)
+
+	cmd := &pb.CommandGetCrossReference{
+		PkCatalog:  &pkCatalog,
+		PkDbSchema: &pkSchema,
+		PkTable:    pkTable,
+		FkCatalog:  &fkCatalog,
+		FkDbSchema: &fkSchema,
+		FkTable:    fkTable,
+	}
+	desc := getDesc(cmd)
+
+	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
+	info, err := s.sqlClient.GetCrossReference(context.Background(),
+		flightsql.TableRef{&pkCatalog, &pkSchema, pkTable},
+		flightsql.TableRef{&fkCatalog, &fkSchema, fkTable}, s.callOpts...)
+	s.NoError(err)
+	s.Equal(&emptyFlightInfo, info)
+}
+
+func (s *FlightSqlClientSuite) TestExecute() {
+	var query = "query"
+
+	cmd := &pb.CommandStatementQuery{Query: query}
+	desc := getDesc(cmd)
+
+	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
+	info, err := s.sqlClient.Execute(context.Background(), query, s.callOpts...)
+	s.NoError(err)
+	s.Equal(&emptyFlightInfo, info)
+}
+
+type mockDoActionClient struct {
+	mockGrpcClientStream
+}
+
+func (m *mockDoActionClient) Recv() (*pb.Result, error) {
+	args := m.Called()
+	return args.Get(0).(*pb.Result), args.Error(1)
+}
+
+type mockDoPutClient struct {
+	mockGrpcClientStream
+}
+
+func (m *mockDoPutClient) Send(fd *flight.FlightData) error {
+	return m.Called(fd).Error(0)
+}
+
+func (m *mockDoPutClient) Recv() (*pb.PutResult, error) {
+	args := m.Called()
+	return args.Get(0).(*pb.PutResult), args.Error(1)
+}
+
+func (s *FlightSqlClientSuite) TestPreparedStatementExecute() {
+	const query = "query"
+
+	cmd := &pb.ActionCreatePreparedStatementRequest{Query: query}
+	action := getAction(cmd)
+	action.Type = flightsql.CreatePreparedStatementActionType
+	closeAct := getAction(&pb.ActionClosePreparedStatementRequest{PreparedStatementHandle: []byte(query)})
+	closeAct.Type = flightsql.ClosePreparedStatementActionType
+
+	rsp := &mockDoActionClient{}
+	defer rsp.AssertExpectations(s.T())
+
+	result := &pb.ActionCreatePreparedStatementResult{PreparedStatementHandle: []byte(query)}
+	var out anypb.Any
+	out.MarshalFrom(result)
+	data, _ := proto.Marshal(&out)
+	rsp.On("Recv").Return(&pb.Result{Body: data}, nil)
+
+	s.mockClient.On("DoAction", flightsql.CreatePreparedStatementActionType, action.Body, s.callOpts).
+		Return(rsp, nil)
+	s.mockClient.On("DoAction", flightsql.ClosePreparedStatementActionType, closeAct.Body, s.callOpts).
+		Return(rsp, nil)
+
+	infoCmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: []byte(query)}
+	desc := getDesc(infoCmd)
+	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
+
+	prepared, err := s.sqlClient.Prepare(context.TODO(), memory.DefaultAllocator, query, s.callOpts...)
+	s.NoError(err)
+	defer prepared.Close(context.TODO())
+
+	info, err := prepared.Execute(context.TODO())
+	s.NoError(err)
+	s.Equal(&emptyFlightInfo, info)
+}
+
+func (s *FlightSqlClientSuite) TestPreparedStatementExecuteParamBinding() {
+	const query = "query"
+
+	// create and close actions
+	cmd := &pb.ActionCreatePreparedStatementRequest{Query: query}
+	action := getAction(cmd)
+	action.Type = flightsql.CreatePreparedStatementActionType
+	closeAct := getAction(&pb.ActionClosePreparedStatementRequest{PreparedStatementHandle: []byte(query)})
+	closeAct.Type = flightsql.ClosePreparedStatementActionType
+
+	// results from createprepared statement
+	result := &pb.ActionCreatePreparedStatementResult{
+		PreparedStatementHandle: []byte(query),
+	}
+	schema := arrow.NewSchema([]arrow.Field{{Name: "id", Type: arrow.PrimitiveTypes.Int64, Nullable: true}}, nil)
+	result.ParameterSchema = flight.SerializeSchema(schema, memory.DefaultAllocator)
+
+	// mocked client stream
+	var out anypb.Any
+	out.MarshalFrom(result)
+	data, _ := proto.Marshal(&out)
+	rsp := &mockDoActionClient{}
+	defer rsp.AssertExpectations(s.T())
+	rsp.On("Recv").Return(&pb.Result{Body: data}, nil)
+
+	// expect two actions: one to create and one to close the prepared statement
+	s.mockClient.On("DoAction", flightsql.CreatePreparedStatementActionType, action.Body, s.callOpts).Return(rsp, nil)
+	s.mockClient.On("DoAction", flightsql.ClosePreparedStatementActionType, closeAct.Body, s.callOpts).Return(rsp, nil)
+
+	expectedDesc := getDesc(&pb.CommandPreparedStatementQuery{PreparedStatementHandle: []byte(query)})
+
+	// mocked client stream for DoPut
+	mockedPut := &mockDoPutClient{}
+	s.mockClient.On("DoPut", s.callOpts).Return(mockedPut, nil)
+	mockedPut.On("Send", mock.MatchedBy(func(fd *flight.FlightData) bool {
+		return proto.Equal(expectedDesc, fd.FlightDescriptor)
+	})).Return(nil).Twice() // first sends schema message, second sends data
+	mockedPut.On("CloseSend").Return(nil)
+	mockedPut.On("Recv").Return((*pb.PutResult)(nil), nil)
+
+	infoCmd := &pb.CommandPreparedStatementQuery{PreparedStatementHandle: []byte(query)}
+	desc := getDesc(infoCmd)
+	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
+
+	prepared, err := s.sqlClient.Prepare(context.TODO(), memory.DefaultAllocator, query, s.callOpts...)
+	s.NoError(err)
+	defer prepared.Close(context.TODO())
+
+	paramSchema := prepared.ParameterSchema()
+	rec, _, err := array.RecordFromJSON(memory.DefaultAllocator, paramSchema, strings.NewReader(`[{"id": 1}]`))
+	s.NoError(err)
+	defer rec.Release()
+
+	prepared.SetParameters(rec)
+	info, err := prepared.Execute(context.TODO())
+	s.NoError(err)
+	s.Equal(&emptyFlightInfo, info)
+}
+
+func (s *FlightSqlClientSuite) TestExecuteUpdate() {
+	const query = "query"
+
+	cmd := &pb.CommandStatementUpdate{Query: query}
+	desc := getDesc(cmd)
+	result := &pb.DoPutUpdateResult{RecordCount: 100}
+	resdata, _ := proto.Marshal(result)
+
+	mockedPut := &mockDoPutClient{}
+	mockedPut.On("Send", mock.MatchedBy(func(fd *flight.FlightData) bool {
+		return proto.Equal(desc, fd.FlightDescriptor)
+	})).Return(nil)
+	mockedPut.On("CloseSend").Return(nil)
+	mockedPut.On("Recv").Return(&pb.PutResult{AppMetadata: resdata}, nil)
+	s.mockClient.On("DoPut", s.callOpts).Return(mockedPut, nil)
+
+	num, err := s.sqlClient.ExecuteUpdate(context.TODO(), query, s.callOpts...)
+	s.NoError(err)
+	s.EqualValues(100, num)
+}
+
+func (s *FlightSqlClientSuite) TestGetSqlInfo() {
+	sqlInfo := []flightsql.SqlInfo{
+		flightsql.SqlInfoFlightSqlServerName,
+		flightsql.SqlInfoFlightSqlServerVersion,
+		flightsql.SqlInfoFlightSqlServerArrowVersion,
+	}
+
+	cmd := &pb.CommandGetSqlInfo{Info: make([]uint32, len(sqlInfo))}
+	for i, info := range sqlInfo {
+		cmd.Info[i] = uint32(info)
+	}
+	desc := getDesc(cmd)
+
+	s.mockClient.On("GetFlightInfo", desc.Type, desc.Cmd, s.callOpts).Return(&emptyFlightInfo, nil)
+	info, err := s.sqlClient.GetSqlInfo(context.TODO(), sqlInfo, s.callOpts...)
+	s.NoError(err)
+	s.Equal(&emptyFlightInfo, info)
+}
+
+func TestFlightSqlClient(t *testing.T) {
+	suite.Run(t, new(FlightSqlClientSuite))
+}
diff --git a/go/arrow/flight/flightsql/column_metadata.go b/go/arrow/flight/flightsql/column_metadata.go
new file mode 100644
index 00000000000..03f50500574
--- /dev/null
+++ b/go/arrow/flight/flightsql/column_metadata.go
@@ -0,0 +1,217 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package flightsql
+
+import (
+	"strconv"
+
+	"github.com/apache/arrow/go/v11/arrow"
+)
+
+const (
+	boolTrueStr  = "1"
+	boolFalseStr = "0"
+)
+
+func boolToStr(v bool) string {
+	if v {
+		return boolTrueStr
+	}
+	return boolFalseStr
+}
+
+func strToBool(v string) bool {
+	return v == boolTrueStr
+}
+
+// Metadata Key Constants
+const (
+	CatalogNameKey     = "ARROW:FLIGHT:SQL:CATALOG_NAME"
+	SchemaNameKey      = "ARROW:FLIGHT:SQL:SCHEMA_NAME"
+	TableNameKey       = "ARROW:FLIGHT:SQL:TABLE_NAME"
+	TypeNameKey        = "ARROW:FLIGHT:SQL:TYPE_NAME"
+	PrecisionKey       = "ARROW:FLIGHT:SQL:PRECISION"
+	ScaleKey           = "ARROW:FLIGHT:SQL:SCALE"
+	IsAutoIncrementKey = "ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT"
+	IsCaseSensitiveKey = "ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE"
+	IsReadOnlyKey      = "ARROW:FLIGHT:SQL:IS_READ_ONLY"
+	IsSearchableKey    = "ARROW:FLIGHT:SQL:IS_SEARCHABLE"
+)
+
+// ColumnMetadata is a helper object for managing and querying the
+// standard SQL Column metadata using the expected Metadata Keys.
+// It can be created by just Wrapping an existing *arrow.Metadata.
+//
+// Each of the methods return a value and a boolean indicating if it
+// was set in the metadata or not.
+type ColumnMetadata struct {
+	Data *arrow.Metadata
+}
+
+func (c *ColumnMetadata) findStrVal(key string) (string, bool) {
+	idx := c.Data.FindKey(CatalogNameKey)
+	if idx == -1 {
+		return "", false
+	}
+	return c.Data.Values()[idx], true
+}
+
+func (c *ColumnMetadata) findBoolVal(key string) (bool, bool) {
+	idx := c.Data.FindKey(CatalogNameKey)
+	if idx == -1 {
+		return false, false
+	}
+	return strToBool(c.Data.Values()[idx]), true
+}
+
+func (c *ColumnMetadata) findInt32Val(key string) (int32, bool) {
+	idx := c.Data.FindKey(CatalogNameKey)
+	if idx == -1 {
+		return 0, false
+	}
+	v, err := strconv.ParseInt(c.Data.Values()[idx], 10, 32)
+	if err != nil {
+		return 0, false
+	}
+	return int32(v), true
+}
+
+func (c *ColumnMetadata) CatalogName() (string, bool) {
+	return c.findStrVal(CatalogNameKey)
+}
+
+func (c *ColumnMetadata) SchemaName() (string, bool) {
+	return c.findStrVal(SchemaNameKey)
+}
+
+func (c *ColumnMetadata) TableName() (string, bool) {
+	return c.findStrVal(TableNameKey)
+}
+
+func (c *ColumnMetadata) TypeName() (string, bool) {
+	return c.findStrVal(TypeNameKey)
+}
+
+func (c *ColumnMetadata) Precision() (int32, bool) {
+	return c.findInt32Val(PrecisionKey)
+}
+
+func (c *ColumnMetadata) Scale() (int32, bool) {
+	return c.findInt32Val(ScaleKey)
+}
+
+func (c *ColumnMetadata) IsAutoIncrement() (bool, bool) {
+	return c.findBoolVal(IsAutoIncrementKey)
+}
+
+func (c *ColumnMetadata) IsCaseSensitive() (bool, bool) {
+	return c.findBoolVal(IsCaseSensitiveKey)
+}
+
+func (c *ColumnMetadata) IsReadOnly() (bool, bool) {
+	return c.findBoolVal(IsReadOnlyKey)
+}
+
+func (c *ColumnMetadata) IsSearchable() (bool, bool) {
+	return c.findBoolVal(IsSearchableKey)
+}
+
+// ColumnMetadataBuilder is a convenience builder for constructing
+// sql column metadata using the expected standard metadata keys.
+// All methods return the builder itself so it can be chained
+// to easily construct a final metadata object.
+type ColumnMetadataBuilder struct {
+	keys, vals []string
+}
+
+func NewColumnMetadataBuilder() *ColumnMetadataBuilder {
+	return &ColumnMetadataBuilder{make([]string, 0), make([]string, 0)}
+}
+
+func (c *ColumnMetadataBuilder) Clear() {
+	c.keys = c.keys[:0]
+	c.vals = c.vals[:0]
+}
+
+func (c *ColumnMetadataBuilder) Build() ColumnMetadata {
+	md := c.Metadata()
+	return ColumnMetadata{&md}
+}
+
+func (c *ColumnMetadataBuilder) Metadata() arrow.Metadata {
+	return arrow.NewMetadata(c.keys, c.vals)
+}
+
+func (c *ColumnMetadataBuilder) CatalogName(name string) *ColumnMetadataBuilder {
+	c.keys = append(c.keys, CatalogNameKey)
+	c.vals = append(c.vals, name)
+	return c
+}
+
+func (c *ColumnMetadataBuilder) SchemaName(name string) *ColumnMetadataBuilder {
+	c.keys = append(c.keys, SchemaNameKey)
+	c.vals = append(c.vals, name)
+	return c
+}
+
+func (c *ColumnMetadataBuilder) TableName(name string) *ColumnMetadataBuilder {
+	c.keys = append(c.keys, TableNameKey)
+	c.vals = append(c.vals, name)
+	return c
+}
+
+func (c *ColumnMetadataBuilder) TypeName(name string) *ColumnMetadataBuilder {
+	c.keys = append(c.keys, TypeNameKey)
+	c.vals = append(c.vals, name)
+	return c
+}
+
+func (c *ColumnMetadataBuilder) Precision(prec int32) *ColumnMetadataBuilder {
+	c.keys = append(c.keys, PrecisionKey)
+	c.vals = append(c.vals, strconv.Itoa(int(prec)))
+	return c
+}
+
+func (c *ColumnMetadataBuilder) Scale(prec int32) *ColumnMetadataBuilder {
+	c.keys = append(c.keys, ScaleKey)
+	c.vals = append(c.vals, strconv.Itoa(int(prec)))
+	return c
+}
+
+func (c *ColumnMetadataBuilder) IsAutoIncrement(v bool) *ColumnMetadataBuilder {
+	c.keys = append(c.keys, IsAutoIncrementKey)
+	c.vals = append(c.vals, boolToStr(v))
+	return c
+}
+
+func (c *ColumnMetadataBuilder) IsCaseSensitive(v bool) *ColumnMetadataBuilder {
+	c.keys = append(c.keys, IsCaseSensitiveKey)
+	c.vals = append(c.vals, boolToStr(v))
+	return c
+}
+
+func (c *ColumnMetadataBuilder) IsReadOnly(v bool) *ColumnMetadataBuilder {
+	c.keys = append(c.keys, IsReadOnlyKey)
+	c.vals = append(c.vals, boolToStr(v))
+	return c
+}
+
+func (c *ColumnMetadataBuilder) IsSearchable(v bool) *ColumnMetadataBuilder {
+	c.keys = append(c.keys, IsSearchableKey)
+	c.vals = append(c.vals, boolToStr(v))
+	return c
+}
diff --git a/go/arrow/flight/flightsql/example/sql_batch_reader.go b/go/arrow/flight/flightsql/example/sql_batch_reader.go
new file mode 100644
index 00000000000..cc4249a83b0
--- /dev/null
+++ b/go/arrow/flight/flightsql/example/sql_batch_reader.go
@@ -0,0 +1,285 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+// +build go1.18
+
+package example
+
+import (
+	"database/sql"
+	"reflect"
+	"strings"
+	"sync/atomic"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+)
+
+func getArrowTypeFromString(dbtype string) arrow.DataType {
+	dbtype = strings.ToLower(dbtype)
+	if strings.HasPrefix(dbtype, "varchar") {
+		return arrow.BinaryTypes.String
+	}
+
+	switch dbtype {
+	case "int", "integer":
+		return arrow.PrimitiveTypes.Int64
+	case "real":
+		return arrow.PrimitiveTypes.Float64
+	case "blob":
+		return arrow.BinaryTypes.Binary
+	case "text", "date", "char":
+		return arrow.BinaryTypes.String
+	default:
+		panic("invalid sqlite type: " + dbtype)
+	}
+}
+
+func getArrowType(c *sql.ColumnType) arrow.DataType {
+	dbtype := strings.ToLower(c.DatabaseTypeName())
+	if dbtype == "" {
+		switch c.ScanType().Kind() {
+		case reflect.Int, reflect.Int64, reflect.Uint64:
+			return arrow.PrimitiveTypes.Int64
+		case reflect.Float32, reflect.Float64:
+			return arrow.PrimitiveTypes.Float64
+		}
+	}
+	return getArrowTypeFromString(dbtype)
+}
+
+const maxBatchSize = 1024
+
+type SqlBatchReader struct {
+	refCount int64
+
+	schema *arrow.Schema
+	rows   *sql.Rows
+	record arrow.Record
+	bldr   *array.RecordBuilder
+	err    error
+
+	rowdest []interface{}
+}
+
+func NewSqlBatchReaderWithSchema(mem memory.Allocator, schema *arrow.Schema, rows *sql.Rows) (*SqlBatchReader, error) {
+	rowdest := make([]interface{}, len(schema.Fields()))
+	for i, f := range schema.Fields() {
+		switch f.Type.ID() {
+		case arrow.UINT8:
+			if f.Nullable {
+				rowdest[i] = &sql.NullInt32{}
+			} else {
+				rowdest[i] = new(uint8)
+			}
+		case arrow.INT32:
+			if f.Nullable {
+				rowdest[i] = &sql.NullInt32{}
+			} else {
+				rowdest[i] = new(int32)
+			}
+		case arrow.INT64:
+			if f.Nullable {
+				rowdest[i] = &sql.NullInt64{}
+			} else {
+				rowdest[i] = new(int64)
+			}
+		case arrow.FLOAT64:
+			if f.Nullable {
+				rowdest[i] = &sql.NullFloat64{}
+			} else {
+				rowdest[i] = new(float64)
+			}
+		case arrow.BINARY:
+			var b []byte
+			rowdest[i] = &b
+		case arrow.STRING:
+			if f.Nullable {
+				rowdest[i] = &sql.NullString{}
+			} else {
+				rowdest[i] = new(string)
+			}
+		}
+	}
+
+	return &SqlBatchReader{
+		refCount: 1,
+		bldr:     array.NewRecordBuilder(mem, schema),
+		schema:   schema,
+		rowdest:  rowdest,
+		rows:     rows}, nil
+}
+
+func NewSqlBatchReader(mem memory.Allocator, rows *sql.Rows) (*SqlBatchReader, error) {
+	bldr := flightsql.NewColumnMetadataBuilder()
+
+	cols, err := rows.ColumnTypes()
+	if err != nil {
+		rows.Close()
+		return nil, err
+	}
+
+	rowdest := make([]interface{}, len(cols))
+	fields := make([]arrow.Field, len(cols))
+	for i, c := range cols {
+		fields[i].Name = c.Name()
+		fields[i].Nullable, _ = c.Nullable()
+		fields[i].Type = getArrowType(c)
+		fields[i].Metadata = getColumnMetadata(bldr, getSqlTypeFromTypeName(c.DatabaseTypeName()), "")
+		switch fields[i].Type.ID() {
+		case arrow.UINT8:
+			if fields[i].Nullable {
+				rowdest[i] = &sql.NullInt32{}
+			} else {
+				rowdest[i] = new(uint8)
+			}
+		case arrow.INT32:
+			if fields[i].Nullable {
+				rowdest[i] = &sql.NullInt32{}
+			} else {
+				rowdest[i] = new(int32)
+			}
+		case arrow.INT64:
+			if fields[i].Nullable {
+				rowdest[i] = &sql.NullInt64{}
+			} else {
+				rowdest[i] = new(int64)
+			}
+		case arrow.FLOAT64:
+			if fields[i].Nullable {
+				rowdest[i] = &sql.NullFloat64{}
+			} else {
+				rowdest[i] = new(float64)
+			}
+		case arrow.BINARY:
+			var b []byte
+			rowdest[i] = &b
+		case arrow.STRING:
+			if fields[i].Nullable {
+				rowdest[i] = &sql.NullString{}
+			} else {
+				rowdest[i] = new(string)
+			}
+		}
+	}
+
+	schema := arrow.NewSchema(fields, nil)
+	return &SqlBatchReader{
+		refCount: 1,
+		bldr:     array.NewRecordBuilder(mem, schema),
+		schema:   schema,
+		rowdest:  rowdest,
+		rows:     rows}, nil
+}
+
+func (r *SqlBatchReader) Retain() {
+	atomic.AddInt64(&r.refCount, 1)
+}
+
+func (r *SqlBatchReader) Release() {
+	debug.Assert(atomic.LoadInt64(&r.refCount) > 0, "too many releases")
+
+	if atomic.AddInt64(&r.refCount, -1) == 0 {
+		r.rows.Close()
+		r.rows, r.schema, r.rowdest = nil, nil, nil
+		r.bldr.Release()
+		r.bldr = nil
+		if r.record != nil {
+			r.record.Release()
+			r.record = nil
+		}
+	}
+}
+func (r *SqlBatchReader) Schema() *arrow.Schema { return r.schema }
+
+func (r *SqlBatchReader) Record() arrow.Record { return r.record }
+
+func (r *SqlBatchReader) Err() error { return r.err }
+
+func (r *SqlBatchReader) Next() bool {
+	if r.record != nil {
+		r.record.Release()
+		r.record = nil
+	}
+
+	rows := 0
+	for rows < maxBatchSize && r.rows.Next() {
+		if err := r.rows.Scan(r.rowdest...); err != nil {
+			r.err = err
+			return false
+		}
+
+		for i, v := range r.rowdest {
+			fb := r.bldr.Field(i)
+			switch v := v.(type) {
+			case *uint8:
+				fb.(*array.Uint8Builder).Append(*v)
+			case *int64:
+				fb.(*array.Int64Builder).Append(*v)
+			case *sql.NullInt64:
+				if !v.Valid {
+					fb.AppendNull()
+				} else {
+					fb.(*array.Int64Builder).Append(v.Int64)
+				}
+			case *int32:
+				fb.(*array.Int32Builder).Append(*v)
+			case *sql.NullInt32:
+				if !v.Valid {
+					fb.AppendNull()
+				} else {
+					switch b := fb.(type) {
+					case *array.Int32Builder:
+						b.Append(v.Int32)
+					case *array.Uint8Builder:
+						b.Append(uint8(v.Int32))
+					}
+				}
+			case *float64:
+				fb.(*array.Float64Builder).Append(*v)
+			case *sql.NullFloat64:
+				if !v.Valid {
+					fb.AppendNull()
+				} else {
+					fb.(*array.Float64Builder).Append(v.Float64)
+				}
+			case *[]byte:
+				if v == nil {
+					fb.AppendNull()
+				} else {
+					fb.(*array.BinaryBuilder).Append(*v)
+				}
+			case *string:
+				fb.(*array.StringBuilder).Append(*v)
+			case *sql.NullString:
+				if !v.Valid {
+					fb.AppendNull()
+				} else {
+					fb.(*array.StringBuilder).Append(v.String)
+				}
+			}
+		}
+
+		rows++
+	}
+
+	r.record = r.bldr.NewRecord()
+	return rows > 0
+}
diff --git a/go/arrow/flight/flightsql/example/sqlite_info.go b/go/arrow/flight/flightsql/example/sqlite_info.go
new file mode 100644
index 00000000000..15f7d7fa07e
--- /dev/null
+++ b/go/arrow/flight/flightsql/example/sqlite_info.go
@@ -0,0 +1,199 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+// +build go1.18
+
+package example
+
+import (
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql"
+)
+
+func SqlInfoResultMap() flightsql.SqlInfoResultMap {
+	return flightsql.SqlInfoResultMap{
+		uint32(flightsql.SqlInfoFlightSqlServerName):         "db_name",
+		uint32(flightsql.SqlInfoFlightSqlServerVersion):      "sqlite 3",
+		uint32(flightsql.SqlInfoFlightSqlServerArrowVersion): arrow.PkgVersion,
+		uint32(flightsql.SqlInfoFlightSqlServerReadOnly):     false,
+		uint32(flightsql.SqlInfoDDLCatalog):                  false,
+		uint32(flightsql.SqlInfoDDLSchema):                   false,
+		uint32(flightsql.SqlInfoDDLTable):                    true,
+		uint32(flightsql.SqlInfoIdentifierCase):              int64(flightsql.SqlCaseSensitivityCaseInsensitive),
+		uint32(flightsql.SqlInfoIdentifierQuoteChar):         `"`,
+		uint32(flightsql.SqlInfoQuotedIdentifierCase):        int64(flightsql.SqlCaseSensitivityCaseInsensitive),
+		uint32(flightsql.SqlInfoAllTablesAreASelectable):     true,
+		uint32(flightsql.SqlInfoNullOrdering):                int64(flightsql.SqlNullOrderingSortAtStart),
+		uint32(flightsql.SqlInfoKeywords): []string{"ABORT",
+			"ACTION",
+			"ADD",
+			"AFTER",
+			"ALL",
+			"ALTER",
+			"ALWAYS",
+			"ANALYZE",
+			"AND",
+			"AS",
+			"ASC",
+			"ATTACH",
+			"AUTOINCREMENT",
+			"BEFORE",
+			"BEGIN",
+			"BETWEEN",
+			"BY",
+			"CASCADE",
+			"CASE",
+			"CAST",
+			"CHECK",
+			"COLLATE",
+			"COLUMN",
+			"COMMIT",
+			"CONFLICT",
+			"CONSTRAINT",
+			"CREATE",
+			"CROSS",
+			"CURRENT",
+			"CURRENT_DATE",
+			"CURRENT_TIME",
+			"CURRENT_TIMESTAMP",
+			"DATABASE",
+			"DEFAULT",
+			"DEFERRABLE",
+			"DEFERRED",
+			"DELETE",
+			"DESC",
+			"DETACH",
+			"DISTINCT",
+			"DO",
+			"DROP",
+			"EACH",
+			"ELSE",
+			"END",
+			"ESCAPE",
+			"EXCEPT",
+			"EXCLUDE",
+			"EXCLUSIVE",
+			"EXISTS",
+			"EXPLAIN",
+			"FAIL",
+			"FILTER",
+			"FIRST",
+			"FOLLOWING",
+			"FOR",
+			"FOREIGN",
+			"FROM",
+			"FULL",
+			"GENERATED",
+			"GLOB",
+			"GROUP",
+			"GROUPS",
+			"HAVING",
+			"IF",
+			"IGNORE",
+			"IMMEDIATE",
+			"IN",
+			"INDEX",
+			"INDEXED",
+			"INITIALLY",
+			"INNER",
+			"INSERT",
+			"INSTEAD",
+			"INTERSECT",
+			"INTO",
+			"IS",
+			"ISNULL",
+			"JOIN",
+			"KEY",
+			"LAST",
+			"LEFT",
+			"LIKE",
+			"LIMIT",
+			"MATCH",
+			"MATERIALIZED",
+			"NATURAL",
+			"NO",
+			"NOT",
+			"NOTHING",
+			"NOTNULL",
+			"NULL",
+			"NULLS",
+			"OF",
+			"OFFSET",
+			"ON",
+			"OR",
+			"ORDER",
+			"OTHERS",
+			"OUTER",
+			"OVER",
+			"PARTITION",
+			"PLAN",
+			"PRAGMA",
+			"PRECEDING",
+			"PRIMARY",
+			"QUERY",
+			"RAISE",
+			"RANGE",
+			"RECURSIVE",
+			"REFERENCES",
+			"REGEXP",
+			"REINDEX",
+			"RELEASE",
+			"RENAME",
+			"REPLACE",
+			"RESTRICT",
+			"RETURNING",
+			"RIGHT",
+			"ROLLBACK",
+			"ROW",
+			"ROWS",
+			"SAVEPOINT",
+			"SELECT",
+			"SET",
+			"TABLE",
+			"TEMP",
+			"TEMPORARY",
+			"THEN",
+			"TIES",
+			"TO",
+			"TRANSACTION",
+			"TRIGGER",
+			"UNBOUNDED",
+			"UNION",
+			"UNIQUE",
+			"UPDATE",
+			"USING",
+			"VACUUM",
+			"VALUES",
+			"VIEW",
+			"VIRTUAL",
+			"WHEN",
+			"WHERE",
+			"WINDOW",
+			"WITH",
+			"WITHOUT"},
+		uint32(flightsql.SqlInfoNumericFunctions): []string{
+			"ACOS", "ACOSH", "ASIN", "ASINH", "ATAN", "ATAN2", "ATANH", "CEIL",
+			"CEILING", "COS", "COSH", "DEGREES", "EXP", "FLOOR", "LN", "LOG",
+			"LOG10", "LOG2", "MOD", "PI", "POW", "POWER", "RADIANS",
+			"SIN", "SINH", "SQRT", "TAN", "TANH", "TRUNC"},
+		uint32(flightsql.SqlInfoStringFunctions): []string{"SUBSTR", "TRIM", "LTRIM", "RTRIM", "LENGTH",
+			"REPLACE", "UPPER", "LOWER", "INSTR"},
+		uint32(flightsql.SqlInfoSupportsConvert): map[int32][]int32{
+			int32(flightsql.SqlConvertBigInt): {int32(flightsql.SqlConvertInteger)},
+		},
+	}
+}
diff --git a/go/arrow/flight/flightsql/example/sqlite_server.go b/go/arrow/flight/flightsql/example/sqlite_server.go
new file mode 100644
index 00000000000..1b1707aa79c
--- /dev/null
+++ b/go/arrow/flight/flightsql/example/sqlite_server.go
@@ -0,0 +1,570 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+// +build go1.18
+
+// Package example contains a FlightSQL Server implementation using
+// sqlite as the backing engine.
+//
+// In order to ensure portability we'll use modernc.org/sqlite instead
+// of github.com/mattn/go-sqlite3 because modernc is a translation of the
+// SQLite source into Go, such that it doesn't require CGO to run and
+// doesn't need to link against the actual libsqlite3 libraries. This way
+// we don't require CGO or libsqlite3 to run this example or the tests.
+//
+// That said, since both implement in terms of Go's standard database/sql
+// package, it's easy to swap them out if desired as the modernc.org/sqlite
+// package is slower than go-sqlite3.
+//
+// One other important note is that modernc.org/sqlite only works
+// correctly (specifically pragma_table_info) in go 1.18+ so this
+// entire package is given the build constraint to only build when
+// using go1.18 or higher
+package example
+
+import (
+	"context"
+	"database/sql"
+	"fmt"
+	"math/rand"
+	"strings"
+	"sync"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql/schema_ref"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"google.golang.org/grpc/codes"
+	"google.golang.org/grpc/status"
+	_ "modernc.org/sqlite"
+)
+
+func genRandomString() []byte {
+	const length = 16
+	max := int('z')
+	min := int('0')
+
+	out := make([]byte, length)
+	for i := range out {
+		out[i] = byte(rand.Intn(max-min+1) + min)
+	}
+	return out
+}
+
+func prepareQueryForGetTables(cmd flightsql.GetTables) string {
+	var b strings.Builder
+	b.WriteString(`SELECT null AS catalog_name, null AS schema_name, 
+		name AS table_name, type AS table_type FROM sqlite_master WHERE 1=1`)
+
+	if cmd.GetCatalog() != nil {
+		b.WriteString(" and catalog_name = '")
+		b.WriteString(*cmd.GetCatalog())
+		b.WriteByte('\'')
+	}
+
+	if cmd.GetDBSchemaFilterPattern() != nil {
+		b.WriteString(" and schema_name LIKE '")
+		b.WriteString(*cmd.GetDBSchemaFilterPattern())
+		b.WriteByte('\'')
+	}
+
+	if cmd.GetTableNameFilterPattern() != nil {
+		b.WriteString(" and table_name LIKE '")
+		b.WriteString(*cmd.GetTableNameFilterPattern())
+		b.WriteByte('\'')
+	}
+
+	if len(cmd.GetTableTypes()) > 0 {
+		b.WriteString(" and table_type IN (")
+		for i, t := range cmd.GetTableTypes() {
+			if i != 0 {
+				b.WriteByte(',')
+			}
+			fmt.Fprintf(&b, "'%s'", t)
+		}
+		b.WriteByte(')')
+	}
+
+	b.WriteString(" order by table_name")
+	return b.String()
+}
+
+func prepareQueryForGetKeys(filter string) string {
+	return `SELECT * FROM (
+		SELECT 
+			NULL AS pk_catalog_name,
+			NULL AS pk_schema_name,
+			p."table" AS pk_table_name,
+			p."to" AS pk_column_name,
+			NULL AS fk_catalog_name,
+			NULL AS fk_schema_name,
+			m.name AS fk_table_name,
+			p."from" AS fk_column_name,
+			p.seq AS key_sequence,
+			NULL AS pk_key_name,
+			NULL AS fk_key_name,
+			CASE
+				WHEN p.on_update = 'CASCADE' THEN 0
+				WHEN p.on_update = 'RESTRICT' THEN 1
+				WHEN p.on_update = 'SET NULL' THEN 2
+				WHEN p.on_update = 'NO ACTION' THEN 3
+				WHEN p.on_update = 'SET DEFAULT' THEN 4
+			END AS update_rule,
+			CASE
+				WHEN p.on_delete = 'CASCADE' THEN 0
+				WHEN p.on_delete = 'RESTRICT' THEN 1
+				WHEN p.on_delete = 'SET NULL' THEN 2
+				WHEN p.on_delete = 'NO ACTION' THEN 3
+				WHEN p.on_delete = 'SET DEFAULT' THEN 4
+			END AS delete_rule
+		FROM sqlite_master m
+		JOIN pragma_foreign_key_list(m.name) p ON m.name != p."table"
+		WHERE m.type = 'table') WHERE ` + filter +
+		` ORDER BY pk_catalog_name, pk_schema_name, pk_table_name, pk_key_name, key_sequence`
+}
+
+type Statement struct {
+	stmt   *sql.Stmt
+	params []interface{}
+}
+
+type SQLiteFlightSQLServer struct {
+	flightsql.BaseServer
+	db *sql.DB
+
+	prepared sync.Map
+}
+
+func NewSQLiteFlightSQLServer() (*SQLiteFlightSQLServer, error) {
+	db, err := sql.Open("sqlite", ":memory:")
+	if err != nil {
+		return nil, err
+	}
+
+	_, err = db.Exec(`
+	CREATE TABLE foreignTable (
+		id INTEGER PRIMARY KEY AUTOINCREMENT,
+		foreignName varchar(100),
+		value int);	
+
+	CREATE TABLE intTable (
+		id INTEGER PRIMARY KEY AUTOINCREMENT,
+		keyName varchar(100),
+		value int,
+		foreignId int references foreignTable(id));
+
+	INSERT INTO foreignTable (foreignName, value) VALUES ('keyOne', 1);
+	INSERT INTO foreignTable (foreignName, value) VALUES ('keyTwo', 0);
+	INSERT INTO foreignTable (foreignName, value) VALUES ('keyThree', -1);
+	INSERT INTO intTable (keyName, value, foreignId) VALUES ('one', 1, 1);
+	INSERT INTO intTable (keyName, value, foreignId) VALUES ('zero', 0, 1);
+	INSERT INTO intTable (keyName, value, foreignId) VALUES ('negative one', -1, 1);
+	INSERT INTO intTable (keyName, value, foreignId) VALUES (NULL, NULL, NULL);
+	`)
+
+	if err != nil {
+		return nil, err
+	}
+	ret := &SQLiteFlightSQLServer{db: db}
+	for k, v := range SqlInfoResultMap() {
+		ret.RegisterSqlInfo(flightsql.SqlInfo(k), v)
+	}
+	return ret, nil
+}
+
+func (s *SQLiteFlightSQLServer) flightInfoForCommand(desc *flight.FlightDescriptor, schema *arrow.Schema) *flight.FlightInfo {
+	return &flight.FlightInfo{
+		Endpoint:         []*flight.FlightEndpoint{{Ticket: &flight.Ticket{Ticket: desc.Cmd}}},
+		FlightDescriptor: desc,
+		Schema:           flight.SerializeSchema(schema, s.Alloc),
+		TotalRecords:     -1,
+		TotalBytes:       -1,
+	}
+}
+
+func (s *SQLiteFlightSQLServer) GetFlightInfoStatement(ctx context.Context, cmd flightsql.StatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	query := cmd.GetQuery()
+	tkt, err := flightsql.CreateStatementQueryTicket([]byte(query))
+	if err != nil {
+		return nil, err
+	}
+
+	return &flight.FlightInfo{
+		Endpoint:         []*flight.FlightEndpoint{{Ticket: &flight.Ticket{Ticket: tkt}}},
+		FlightDescriptor: desc,
+		TotalRecords:     -1,
+		TotalBytes:       -1,
+	}, nil
+}
+
+func (s *SQLiteFlightSQLServer) DoGetStatement(ctx context.Context, cmd flightsql.StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return doGetQuery(ctx, s.Alloc, s.db, string(cmd.GetStatementHandle()), nil)
+}
+
+func (s *SQLiteFlightSQLServer) GetFlightInfoCatalogs(_ context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return s.flightInfoForCommand(desc, schema_ref.Catalogs), nil
+}
+
+func (s *SQLiteFlightSQLServer) DoGetCatalogs(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	// sqlite doesn't support catalogs, this returns an empty record batch
+	schema := schema_ref.Catalogs
+
+	ch := make(chan flight.StreamChunk)
+	close(ch)
+
+	return schema, ch, nil
+}
+
+func (s *SQLiteFlightSQLServer) GetFlightInfoSchemas(_ context.Context, cmd flightsql.GetDBSchemas, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return s.flightInfoForCommand(desc, schema_ref.DBSchemas), nil
+}
+
+func (s *SQLiteFlightSQLServer) DoGetDBSchemas(context.Context, flightsql.GetDBSchemas) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	// sqlite doesn't support schemas, this returns an empty record batch
+	schema := schema_ref.DBSchemas
+
+	ch := make(chan flight.StreamChunk)
+	close(ch)
+
+	return schema, ch, nil
+}
+
+func (s *SQLiteFlightSQLServer) GetFlightInfoTables(_ context.Context, cmd flightsql.GetTables, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	schema := schema_ref.Tables
+	if cmd.GetIncludeSchema() {
+		schema = schema_ref.TablesWithIncludedSchema
+	}
+	return s.flightInfoForCommand(desc, schema), nil
+}
+
+func (s *SQLiteFlightSQLServer) DoGetTables(ctx context.Context, cmd flightsql.GetTables) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	query := prepareQueryForGetTables(cmd)
+
+	rows, err := s.db.QueryContext(ctx, query)
+	if err != nil {
+		return nil, nil, err
+	}
+
+	var rdr array.RecordReader
+
+	rdr, err = NewSqlBatchReaderWithSchema(s.Alloc, schema_ref.Tables, rows)
+	if err != nil {
+		return nil, nil, err
+	}
+
+	ch := make(chan flight.StreamChunk, 2)
+	if cmd.GetIncludeSchema() {
+		rdr, err = NewSqliteTablesSchemaBatchReader(ctx, s.Alloc, rdr, s.db, query)
+		if err != nil {
+			return nil, nil, err
+		}
+	}
+
+	schema := rdr.Schema()
+	go flight.StreamChunksFromReader(rdr, ch)
+	return schema, ch, nil
+}
+
+func (s *SQLiteFlightSQLServer) GetFlightInfoXdbcTypeInfo(_ context.Context, _ flightsql.GetXdbcTypeInfo, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return s.flightInfoForCommand(desc, schema_ref.XdbcTypeInfo), nil
+}
+
+func (s *SQLiteFlightSQLServer) DoGetXdbcTypeInfo(_ context.Context, cmd flightsql.GetXdbcTypeInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	var batch arrow.Record
+	if cmd.GetDataType() == nil {
+		batch = GetTypeInfoResult(s.Alloc)
+	} else {
+		batch = GetFilteredTypeInfoResult(s.Alloc, *cmd.GetDataType())
+	}
+
+	ch := make(chan flight.StreamChunk, 1)
+	ch <- flight.StreamChunk{Data: batch}
+	close(ch)
+	return batch.Schema(), ch, nil
+}
+
+func (s *SQLiteFlightSQLServer) GetFlightInfoTableTypes(_ context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return s.flightInfoForCommand(desc, schema_ref.TableTypes), nil
+}
+
+func (s *SQLiteFlightSQLServer) DoGetTableTypes(ctx context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	query := "SELECT DISTINCT type AS table_type FROM sqlite_master"
+	return doGetQuery(ctx, s.Alloc, s.db, query, schema_ref.TableTypes)
+}
+
+func (s *SQLiteFlightSQLServer) DoPutCommandStatementUpdate(ctx context.Context, cmd flightsql.StatementUpdate) (int64, error) {
+	res, err := s.db.ExecContext(ctx, cmd.GetQuery())
+	if err != nil {
+		return 0, err
+	}
+	return res.RowsAffected()
+}
+
+func (s *SQLiteFlightSQLServer) CreatePreparedStatement(ctx context.Context, req flightsql.ActionCreatePreparedStatementRequest) (result flightsql.ActionCreatePreparedStatementResult, err error) {
+	stmt, err := s.db.PrepareContext(ctx, req.GetQuery())
+	if err != nil {
+		return result, err
+	}
+
+	handle := genRandomString()
+	s.prepared.Store(string(handle), Statement{stmt: stmt})
+
+	result.Handle = handle
+	// no way to get the dataset or parameter schemas from sql.DB
+	return
+}
+
+func (s *SQLiteFlightSQLServer) ClosePreparedStatement(ctx context.Context, request flightsql.ActionClosePreparedStatementRequest) error {
+	handle := request.GetPreparedStatementHandle()
+	if val, loaded := s.prepared.LoadAndDelete(string(handle)); loaded {
+		stmt := val.(Statement)
+		return stmt.stmt.Close()
+	}
+
+	return status.Error(codes.InvalidArgument, "prepared statement not found")
+}
+
+func (s *SQLiteFlightSQLServer) GetFlightInfoPreparedStatement(_ context.Context, cmd flightsql.PreparedStatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	_, ok := s.prepared.Load(string(cmd.GetPreparedStatementHandle()))
+	if !ok {
+		return nil, status.Error(codes.InvalidArgument, "prepared statement not found")
+	}
+
+	return &flight.FlightInfo{
+		Endpoint:         []*flight.FlightEndpoint{{Ticket: &flight.Ticket{Ticket: desc.Cmd}}},
+		FlightDescriptor: desc,
+		TotalRecords:     -1,
+		TotalBytes:       -1,
+	}, nil
+}
+
+func doGetQuery(ctx context.Context, mem memory.Allocator, db *sql.DB, query string, schema *arrow.Schema, args ...interface{}) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	rows, err := db.QueryContext(ctx, query, args...)
+	if err != nil {
+		return nil, nil, err
+	}
+
+	var rdr *SqlBatchReader
+	if schema != nil {
+		rdr, err = NewSqlBatchReaderWithSchema(mem, schema, rows)
+	} else {
+		rdr, err = NewSqlBatchReader(mem, rows)
+		if err == nil {
+			schema = rdr.schema
+		}
+	}
+
+	if err != nil {
+		return nil, nil, err
+	}
+
+	ch := make(chan flight.StreamChunk)
+	go flight.StreamChunksFromReader(rdr, ch)
+	return schema, ch, nil
+}
+
+func (s *SQLiteFlightSQLServer) DoGetPreparedStatement(ctx context.Context, cmd flightsql.PreparedStatementQuery) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	val, ok := s.prepared.Load(string(cmd.GetPreparedStatementHandle()))
+	if !ok {
+		return nil, nil, status.Error(codes.InvalidArgument, "prepared statement not found")
+	}
+
+	stmt := val.(Statement)
+	rows, err := stmt.stmt.QueryContext(ctx, stmt.params...)
+	if err != nil {
+		return nil, nil, err
+	}
+
+	rdr, err := NewSqlBatchReader(s.Alloc, rows)
+	if err != nil {
+		return nil, nil, err
+	}
+
+	schema := rdr.schema
+	ch := make(chan flight.StreamChunk)
+	go flight.StreamChunksFromReader(rdr, ch)
+	return schema, ch, nil
+}
+
+func getParamsForStatement(rdr flight.MessageReader) (params []interface{}, err error) {
+	for rdr.Next() {
+		rec := rdr.Record()
+
+		nrows := int(rec.NumRows())
+		ncols := int(rec.NumCols())
+
+		if len(params) < int(ncols) {
+			params = make([]interface{}, ncols)
+		}
+
+		for i := 0; i < nrows; i++ {
+			for c := 0; c < ncols; c++ {
+				col := rec.Column(c)
+				sc, err := scalar.GetScalar(col, i)
+				if err != nil {
+					return nil, err
+				}
+				if r, ok := sc.(scalar.Releasable); ok {
+					r.Release()
+				}
+
+				switch v := sc.(*scalar.DenseUnion).Value.(type) {
+				case *scalar.Int64:
+					params[c] = v.Value
+				case *scalar.Float32:
+					params[c] = v.Value
+				case *scalar.Float64:
+					params[c] = v.Value
+				case *scalar.String:
+					params[c] = string(v.Value.Bytes())
+				case *scalar.Binary:
+					params[c] = v.Value.Bytes()
+				default:
+					return nil, fmt.Errorf("unsupported type: %s", v)
+				}
+			}
+		}
+	}
+
+	return params, rdr.Err()
+}
+
+func (s *SQLiteFlightSQLServer) DoPutPreparedStatementQuery(_ context.Context, cmd flightsql.PreparedStatementQuery, rdr flight.MessageReader, _ flight.MetadataWriter) error {
+	val, ok := s.prepared.Load(string(cmd.GetPreparedStatementHandle()))
+	if !ok {
+		return status.Error(codes.InvalidArgument, "prepared statement not found")
+	}
+
+	stmt := val.(Statement)
+	args, err := getParamsForStatement(rdr)
+	if err != nil {
+		return status.Errorf(codes.Internal, "error gathering parameters for prepared statement query: %s", err.Error())
+	}
+
+	stmt.params = args
+	s.prepared.Store(string(cmd.GetPreparedStatementHandle()), stmt)
+	return nil
+}
+
+func (s *SQLiteFlightSQLServer) DoPutPreparedStatementUpdate(ctx context.Context, cmd flightsql.PreparedStatementUpdate, rdr flight.MessageReader) (int64, error) {
+	val, ok := s.prepared.Load(string(cmd.GetPreparedStatementHandle()))
+	if !ok {
+		return 0, status.Error(codes.InvalidArgument, "prepared statement not found")
+	}
+
+	stmt := val.(Statement)
+	args, err := getParamsForStatement(rdr)
+	if err != nil {
+		return 0, status.Errorf(codes.Internal, "error gathering parameters for prepared statement: %s", err.Error())
+	}
+
+	stmt.params = args
+	result, err := stmt.stmt.ExecContext(ctx, args...)
+	if err != nil {
+		return 0, err
+	}
+
+	return result.RowsAffected()
+}
+
+func (s *SQLiteFlightSQLServer) GetFlightInfoPrimaryKeys(_ context.Context, cmd flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return s.flightInfoForCommand(desc, schema_ref.PrimaryKeys), nil
+}
+
+func (s *SQLiteFlightSQLServer) DoGetPrimaryKeys(ctx context.Context, cmd flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	// the field key_name can not be recovered by sqlite so it is
+	// being set to null following the same pattern for catalog name and schema_name
+	var b strings.Builder
+
+	b.WriteString(`
+	SELECT null AS catalog_name, null AS schema_name, table_name, name AS column_name, pk AS key_sequence, null as key_name
+	FROM pragma_table_info(table_name)
+		JOIN (SELECT null AS catalog_name, null AS schema_name, name AS table_name, type AS table_type
+			FROM sqlite_master) where 1=1 AND pk !=0`)
+
+	if cmd.Catalog != nil {
+		fmt.Fprintf(&b, " and catalog_name LIKE '%s'", *cmd.Catalog)
+	}
+	if cmd.DBSchema != nil {
+		fmt.Fprintf(&b, " and schema_name LIKE '%s'", *cmd.DBSchema)
+	}
+
+	fmt.Fprintf(&b, " and table_name LIKE '%s'", cmd.Table)
+
+	return doGetQuery(ctx, s.Alloc, s.db, b.String(), schema_ref.PrimaryKeys)
+}
+
+func (s *SQLiteFlightSQLServer) GetFlightInfoImportedKeys(_ context.Context, _ flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return s.flightInfoForCommand(desc, schema_ref.ImportedKeys), nil
+}
+
+func (s *SQLiteFlightSQLServer) DoGetImportedKeys(ctx context.Context, ref flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	filter := "fk_table_name = '" + ref.Table + "'"
+	if ref.Catalog != nil {
+		filter += " AND fk_catalog_name = '" + *ref.Catalog + "'"
+	}
+	if ref.DBSchema != nil {
+		filter += " AND fk_schema_name = '" + *ref.DBSchema + "'"
+	}
+	query := prepareQueryForGetKeys(filter)
+	return doGetQuery(ctx, s.Alloc, s.db, query, schema_ref.ImportedKeys)
+}
+
+func (s *SQLiteFlightSQLServer) GetFlightInfoExportedKeys(_ context.Context, _ flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return s.flightInfoForCommand(desc, schema_ref.ExportedKeys), nil
+}
+
+func (s *SQLiteFlightSQLServer) DoGetExportedKeys(ctx context.Context, ref flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	filter := "pk_table_name = '" + ref.Table + "'"
+	if ref.Catalog != nil {
+		filter += " AND pk_catalog_name = '" + *ref.Catalog + "'"
+	}
+	if ref.DBSchema != nil {
+		filter += " AND pk_schema_name = '" + *ref.DBSchema + "'"
+	}
+	query := prepareQueryForGetKeys(filter)
+	return doGetQuery(ctx, s.Alloc, s.db, query, schema_ref.ExportedKeys)
+}
+
+func (s *SQLiteFlightSQLServer) GetFlightInfoCrossReference(_ context.Context, _ flightsql.CrossTableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return s.flightInfoForCommand(desc, schema_ref.CrossReference), nil
+}
+
+func (s *SQLiteFlightSQLServer) DoGetCrossReference(ctx context.Context, cmd flightsql.CrossTableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	pkref := cmd.PKRef
+	filter := "pk_table_name = '" + pkref.Table + "'"
+	if pkref.Catalog != nil {
+		filter += " AND pk_catalog_name = '" + *pkref.Catalog + "'"
+	}
+	if pkref.DBSchema != nil {
+		filter += " AND pk_schema_name = '" + *pkref.DBSchema + "'"
+	}
+
+	fkref := cmd.FKRef
+	filter += " AND fk_table_name = '" + fkref.Table + "'"
+	if fkref.Catalog != nil {
+		filter += " AND fk_catalog_name = '" + *fkref.Catalog + "'"
+	}
+	if fkref.DBSchema != nil {
+		filter += " AND fk_schema_name = '" + *fkref.DBSchema + "'"
+	}
+	query := prepareQueryForGetKeys(filter)
+	return doGetQuery(ctx, s.Alloc, s.db, query, schema_ref.ExportedKeys)
+}
diff --git a/go/arrow/flight/flightsql/example/sqlite_tables_schema_batch_reader.go b/go/arrow/flight/flightsql/example/sqlite_tables_schema_batch_reader.go
new file mode 100644
index 00000000000..44431af483a
--- /dev/null
+++ b/go/arrow/flight/flightsql/example/sqlite_tables_schema_batch_reader.go
@@ -0,0 +1,203 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+// +build go1.18
+
+package example
+
+import (
+	"context"
+	"database/sql"
+	"strings"
+	"sync/atomic"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	sqlite3 "modernc.org/sqlite/lib"
+)
+
+type SqliteTablesSchemaBatchReader struct {
+	refCount int64
+
+	mem        memory.Allocator
+	ctx        context.Context
+	rdr        array.RecordReader
+	stmt       *sql.Stmt
+	schemaBldr *array.BinaryBuilder
+	record     arrow.Record
+	err        error
+}
+
+func NewSqliteTablesSchemaBatchReader(ctx context.Context, mem memory.Allocator, rdr array.RecordReader, db *sql.DB, mainQuery string) (*SqliteTablesSchemaBatchReader, error) {
+	schemaQuery := `SELECT table_name, name, type, [notnull] 
+					FROM pragma_table_info(table_name)
+					JOIN (` + mainQuery + `) WHERE table_name = ?`
+
+	stmt, err := db.PrepareContext(ctx, schemaQuery)
+	if err != nil {
+		rdr.Release()
+		return nil, err
+	}
+
+	return &SqliteTablesSchemaBatchReader{
+		refCount:   1,
+		ctx:        ctx,
+		rdr:        rdr,
+		stmt:       stmt,
+		mem:        mem,
+		schemaBldr: array.NewBinaryBuilder(mem, arrow.BinaryTypes.Binary),
+	}, nil
+}
+
+func (s *SqliteTablesSchemaBatchReader) Err() error { return s.err }
+
+func (s *SqliteTablesSchemaBatchReader) Retain() { atomic.AddInt64(&s.refCount, 1) }
+
+func (s *SqliteTablesSchemaBatchReader) Release() {
+	debug.Assert(atomic.LoadInt64(&s.refCount) > 0, "too many releases")
+
+	if atomic.AddInt64(&s.refCount, -1) == 0 {
+		s.rdr.Release()
+		s.stmt.Close()
+		s.schemaBldr.Release()
+		if s.record != nil {
+			s.record.Release()
+			s.record = nil
+		}
+	}
+}
+
+func (s *SqliteTablesSchemaBatchReader) Schema() *arrow.Schema {
+	fields := append(s.rdr.Schema().Fields(),
+		arrow.Field{Name: "table_schema", Type: arrow.BinaryTypes.Binary})
+	return arrow.NewSchema(fields, nil)
+}
+
+func (s *SqliteTablesSchemaBatchReader) Record() arrow.Record { return s.record }
+
+func getSqlTypeFromTypeName(sqltype string) int {
+	if sqltype == "" {
+		return sqlite3.SQLITE_NULL
+	}
+
+	sqltype = strings.ToLower(sqltype)
+
+	if strings.HasPrefix(sqltype, "varchar") || strings.HasPrefix(sqltype, "char") {
+		return sqlite3.SQLITE_TEXT
+	}
+
+	switch sqltype {
+	case "int", "integer":
+		return sqlite3.SQLITE_INTEGER
+	case "real":
+		return sqlite3.SQLITE_FLOAT
+	case "blob":
+		return sqlite3.SQLITE_BLOB
+	case "text", "date":
+		return sqlite3.SQLITE_TEXT
+	default:
+		return sqlite3.SQLITE_NULL
+	}
+}
+
+func getPrecisionFromCol(sqltype int) int {
+	switch sqltype {
+	case sqlite3.SQLITE_INTEGER:
+		return 10
+	case sqlite3.SQLITE_FLOAT:
+		return 15
+	}
+	return 0
+}
+
+func getColumnMetadata(bldr *flightsql.ColumnMetadataBuilder, sqltype int, table string) arrow.Metadata {
+	defer bldr.Clear()
+
+	bldr.Scale(15).IsReadOnly(false).IsAutoIncrement(false)
+	if table != "" {
+		bldr.TableName(table)
+	}
+	switch sqltype {
+	case sqlite3.SQLITE_TEXT, sqlite3.SQLITE_BLOB:
+	default:
+		bldr.Precision(int32(getPrecisionFromCol(sqltype)))
+	}
+
+	return bldr.Metadata()
+}
+
+func (s *SqliteTablesSchemaBatchReader) Next() bool {
+	if s.record != nil {
+		s.record.Release()
+		s.record = nil
+	}
+
+	if !s.rdr.Next() {
+		return false
+	}
+
+	rec := s.rdr.Record()
+	tableNameArr := rec.Column(rec.Schema().FieldIndices("table_name")[0]).(*array.String)
+
+	bldr := flightsql.NewColumnMetadataBuilder()
+	columnFields := make([]arrow.Field, 0)
+	for i := 0; i < tableNameArr.Len(); i++ {
+		table := tableNameArr.Value(i)
+		rows, err := s.stmt.QueryContext(s.ctx, table)
+		if err != nil {
+			s.err = err
+			return false
+		}
+
+		var tableName, name, typ string
+		var nn int
+		for rows.Next() {
+			if err := rows.Scan(&tableName, &name, &typ, &nn); err != nil {
+				rows.Close()
+				s.err = err
+				return false
+			}
+
+			columnFields = append(columnFields, arrow.Field{
+				Name:     name,
+				Type:     getArrowTypeFromString(typ),
+				Nullable: nn == 1,
+				Metadata: getColumnMetadata(bldr, getSqlTypeFromTypeName(typ), tableName),
+			})
+		}
+
+		rows.Close()
+		if rows.Err() != nil {
+			s.err = rows.Err()
+			return false
+		}
+		val := flight.SerializeSchema(arrow.NewSchema(columnFields, nil), s.mem)
+		s.schemaBldr.Append(val)
+
+		columnFields = columnFields[:0]
+	}
+
+	schemaCol := s.schemaBldr.NewArray()
+	defer schemaCol.Release()
+
+	s.record = array.NewRecord(s.Schema(), append(rec.Columns(), schemaCol), rec.NumRows())
+	return true
+}
diff --git a/go/arrow/flight/flightsql/example/type_info.go b/go/arrow/flight/flightsql/example/type_info.go
new file mode 100644
index 00000000000..de6e01c382b
--- /dev/null
+++ b/go/arrow/flight/flightsql/example/type_info.go
@@ -0,0 +1,118 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+// +build go1.18
+
+package example
+
+import (
+	"strings"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql/schema_ref"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+)
+
+func GetTypeInfoResult(mem memory.Allocator) arrow.Record {
+	typeNames, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String,
+		strings.NewReader(`["bit", "tinyint", "bigint", "longvarbinary",
+						    "varbinary", "text", "longvarchar", "char",
+							"integer", "smallint", "float", "double",
+							"numeric", "varchar", "date", "time", "timestamp"]`))
+	defer typeNames.Release()
+
+	dataType, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
+		strings.NewReader(`[-7, -6, -5, -4, -3, -1, -1, 1, 4, 5, 6, 8, 8, 12, 91, 92, 93]`))
+	defer dataType.Release()
+
+	columnSize, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
+		strings.NewReader(`[1, 3, 19, 65536, 255, 65536, 65536, 255, 9, 5, 7, 15, 15, 255, 10, 8, 32]`))
+	defer columnSize.Release()
+
+	literalPrefix, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String,
+		strings.NewReader(`[null, null, null, null, null, "'", "'", "'", null, null, null, null, null, "'" ,"'", "'", "'"]`))
+	defer literalPrefix.Release()
+
+	literalSuffix, _, _ := array.FromJSON(mem, arrow.BinaryTypes.String,
+		strings.NewReader(`[null, null, null, null, null, "'", "'", "'", null, null, null, null, null, "'" ,"'", "'", "'"]`))
+	defer literalSuffix.Release()
+
+	createParams, _, _ := array.FromJSON(mem, arrow.ListOfField(arrow.Field{Name: "item", Type: arrow.BinaryTypes.String, Nullable: false}),
+		strings.NewReader(`[[], [], [], [], [], ["length"], ["length"], ["length"], [], [], [], [], [], ["length"], [], [], []]`))
+	defer createParams.Release()
+
+	nullable, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
+		strings.NewReader(`[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]`))
+	defer nullable.Release()
+
+	// reference for creating a boolean() array with only zeros
+	zeroBoolArray, _, err := array.FromJSON(mem, arrow.FixedWidthTypes.Boolean,
+		strings.NewReader(`[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]`), array.WithUseNumber())
+	if err != nil {
+		panic(err)
+	}
+	defer zeroBoolArray.Release()
+	caseSensitive := zeroBoolArray
+
+	searchable, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
+		strings.NewReader(`[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]`))
+	defer searchable.Release()
+
+	unsignedAttribute := zeroBoolArray
+	fixedPrecScale := zeroBoolArray
+	autoUniqueVal := zeroBoolArray
+
+	localTypeName := typeNames
+
+	zeroIntArray, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32,
+		strings.NewReader(`[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]`))
+	defer zeroIntArray.Release()
+
+	minimalScale := zeroIntArray
+	maximumScale := zeroIntArray
+	sqlDataType := dataType
+	sqlDateTimeSub := zeroIntArray
+	numPrecRadix := zeroIntArray
+	intervalPrecision := zeroIntArray
+
+	return array.NewRecord(schema_ref.XdbcTypeInfo, []arrow.Array{
+		typeNames, dataType, columnSize, literalPrefix, literalSuffix,
+		createParams, nullable, caseSensitive, searchable, unsignedAttribute,
+		fixedPrecScale, autoUniqueVal, localTypeName, minimalScale, maximumScale,
+		sqlDataType, sqlDateTimeSub, numPrecRadix, intervalPrecision}, 17)
+}
+
+func GetFilteredTypeInfoResult(mem memory.Allocator, filter int32) arrow.Record {
+	batch := GetTypeInfoResult(mem)
+	defer batch.Release()
+
+	dataTypeVector := []int32{-7, -6, -5, -4, -3, -1, -1, 1, 4, 5, 6, 8, 8, 12, 91, 92, 93}
+	start, end := -1, -1
+	for i, v := range dataTypeVector {
+		if filter == v {
+			if start == -1 {
+				start = i
+			}
+		} else if start != -1 && end == -1 {
+			end = i
+			break
+		}
+	}
+
+	return batch.NewSlice(int64(start), int64(end))
+}
diff --git a/go/arrow/flight/flightsql/schema_ref/reference_schemas.go b/go/arrow/flight/flightsql/schema_ref/reference_schemas.go
new file mode 100644
index 00000000000..1ea29e85d5c
--- /dev/null
+++ b/go/arrow/flight/flightsql/schema_ref/reference_schemas.go
@@ -0,0 +1,106 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// Package schema_ref contains the expected reference Schemas to be used
+// by FlightSQL servers and clients.
+package schema_ref
+
+import "github.com/apache/arrow/go/v11/arrow"
+
+var (
+	Catalogs = arrow.NewSchema(
+		[]arrow.Field{{Name: "catalog_name", Type: arrow.BinaryTypes.String}}, nil)
+	DBSchemas = arrow.NewSchema([]arrow.Field{
+		{Name: "catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "db_schema_name", Type: arrow.BinaryTypes.String},
+	}, nil)
+	Tables = arrow.NewSchema([]arrow.Field{
+		{Name: "catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "table_name", Type: arrow.BinaryTypes.String},
+		{Name: "table_type", Type: arrow.BinaryTypes.String},
+	}, nil)
+	TablesWithIncludedSchema = arrow.NewSchema([]arrow.Field{
+		{Name: "catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "table_name", Type: arrow.BinaryTypes.String},
+		{Name: "table_type", Type: arrow.BinaryTypes.String},
+		{Name: "table_schema", Type: arrow.BinaryTypes.Binary},
+	}, nil)
+	TableTypes = arrow.NewSchema([]arrow.Field{
+		{Name: "table_type", Type: arrow.BinaryTypes.String},
+	}, nil)
+	PrimaryKeys = arrow.NewSchema([]arrow.Field{
+		{Name: "catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "table_name", Type: arrow.BinaryTypes.String},
+		{Name: "column_name", Type: arrow.BinaryTypes.String},
+		{Name: "key_sequence", Type: arrow.PrimitiveTypes.Int32},
+		{Name: "key_name", Type: arrow.BinaryTypes.String, Nullable: true},
+	}, nil)
+	ImportedExportedKeysAndCrossReference = arrow.NewSchema([]arrow.Field{
+		{Name: "pk_catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "pk_db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "pk_table_name", Type: arrow.BinaryTypes.String, Nullable: false},
+		{Name: "pk_column_name", Type: arrow.BinaryTypes.String, Nullable: false},
+		{Name: "fk_catalog_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "fk_db_schema_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "fk_table_name", Type: arrow.BinaryTypes.String, Nullable: false},
+		{Name: "fk_column_name", Type: arrow.BinaryTypes.String, Nullable: false},
+		{Name: "key_sequence", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
+		{Name: "fk_key_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "pk_key_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "update_rule", Type: arrow.PrimitiveTypes.Uint8, Nullable: false},
+		{Name: "delete_rule", Type: arrow.PrimitiveTypes.Uint8, Nullable: false},
+	}, nil)
+	ImportedKeys   = ImportedExportedKeysAndCrossReference
+	ExportedKeys   = ImportedExportedKeysAndCrossReference
+	CrossReference = ImportedExportedKeysAndCrossReference
+	SqlInfo        = arrow.NewSchema([]arrow.Field{
+		{Name: "info_name", Type: arrow.PrimitiveTypes.Uint32},
+		{Name: "value", Type: arrow.DenseUnionOf([]arrow.Field{
+			{Name: "string_value", Type: arrow.BinaryTypes.String},
+			{Name: "bool_value", Type: arrow.FixedWidthTypes.Boolean},
+			{Name: "bigint_value", Type: arrow.PrimitiveTypes.Int64},
+			{Name: "int32_bitmask", Type: arrow.PrimitiveTypes.Int32},
+			{Name: "string_list", Type: arrow.ListOf(arrow.BinaryTypes.String)},
+			{Name: "int32_to_int32_list_map",
+				Type: arrow.MapOf(arrow.PrimitiveTypes.Int32,
+					arrow.ListOf(arrow.PrimitiveTypes.Int32))},
+		}, []arrow.UnionTypeCode{0, 1, 2, 3, 4, 5})},
+	}, nil)
+	XdbcTypeInfo = arrow.NewSchema([]arrow.Field{
+		{Name: "type_name", Type: arrow.BinaryTypes.String, Nullable: false},
+		{Name: "data_type", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
+		{Name: "column_size", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		{Name: "literal_prefix", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "literal_suffix", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "create_params", Type: arrow.ListOfField(arrow.Field{Name: "item", Type: arrow.BinaryTypes.String, Nullable: false}), Nullable: true},
+		{Name: "nullable", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
+		{Name: "case_sensitive", Type: arrow.FixedWidthTypes.Boolean, Nullable: false},
+		{Name: "searchable", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
+		{Name: "unsigned_attribute", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
+		{Name: "fixed_prec_scale", Type: arrow.FixedWidthTypes.Boolean, Nullable: false},
+		{Name: "auto_increment", Type: arrow.FixedWidthTypes.Boolean, Nullable: true},
+		{Name: "local_type_name", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "minimum_scale", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		{Name: "maximum_scale", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		{Name: "sql_data_type", Type: arrow.PrimitiveTypes.Int32, Nullable: false},
+		{Name: "datetime_subcode", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		{Name: "num_prec_radix", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+		{Name: "interval_precision", Type: arrow.PrimitiveTypes.Int32, Nullable: true},
+	}, nil)
+)
diff --git a/go/arrow/flight/flightsql/server.go b/go/arrow/flight/flightsql/server.go
new file mode 100644
index 00000000000..c6938073d56
--- /dev/null
+++ b/go/arrow/flight/flightsql/server.go
@@ -0,0 +1,782 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package flightsql
+
+import (
+	"context"
+	"fmt"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql/schema_ref"
+	pb "github.com/apache/arrow/go/v11/arrow/flight/internal/flight"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"google.golang.org/grpc/codes"
+	"google.golang.org/grpc/status"
+	"google.golang.org/protobuf/proto"
+	"google.golang.org/protobuf/types/known/anypb"
+)
+
+// the following interfaces wrap the Protobuf commands to avoid
+// exposing the Protobuf types themselves in the API.
+
+// StatementQuery represents a Sql Query
+type StatementQuery interface {
+	GetQuery() string
+}
+
+// StatementUpdate represents a SQL update query
+type StatementUpdate interface {
+	GetQuery() string
+}
+
+// StatementQueryTicket represents a request to execute a query
+type StatementQueryTicket interface {
+	// GetStatementHandle returns the server-generated opaque
+	// identifier for the query
+	GetStatementHandle() []byte
+}
+
+// PreparedStatementQuery represents a prepared query statement
+type PreparedStatementQuery interface {
+	// GetPreparedStatementHandle returns the server-generated opaque
+	// identifier for the statement
+	GetPreparedStatementHandle() []byte
+}
+
+// PreparedStatementUpdate represents a prepared update statement
+type PreparedStatementUpdate interface {
+	// GetPreparedStatementHandle returns the server-generated opaque
+	// identifier for the statement
+	GetPreparedStatementHandle() []byte
+}
+
+// ActionClosePreparedStatementRequest represents a request to close
+// a prepared statement
+type ActionClosePreparedStatementRequest interface {
+	// GetPreparedStatementHandle returns the server-generated opaque
+	// identifier for the statement
+	GetPreparedStatementHandle() []byte
+}
+
+// ActionCreatePreparedStatementRequest represents a request to construct
+// a new prepared statement
+type ActionCreatePreparedStatementRequest interface {
+	GetQuery() string
+}
+
+// ActionCreatePreparedStatementResult is the result of creating a new
+// prepared statement, optionally including the dataset and parameter
+// schemas.
+type ActionCreatePreparedStatementResult struct {
+	Handle          []byte
+	DatasetSchema   *arrow.Schema
+	ParameterSchema *arrow.Schema
+}
+
+type getXdbcTypeInfo struct {
+	*pb.CommandGetXdbcTypeInfo
+}
+
+func (c *getXdbcTypeInfo) GetDataType() *int32 { return c.DataType }
+
+// GetXdbcTypeInfo represents a request for SQL Data Type information
+type GetXdbcTypeInfo interface {
+	// GetDataType returns either nil (get for all types)
+	// or a specific SQL type ID to fetch information about.
+	GetDataType() *int32
+}
+
+// GetSqlInfo represents a request for SQL Information
+type GetSqlInfo interface {
+	// GetInfo returns a slice of SqlInfo ids to return information about
+	GetInfo() []uint32
+}
+
+type getDBSchemas struct {
+	*pb.CommandGetDbSchemas
+}
+
+func (c *getDBSchemas) GetCatalog() *string               { return c.Catalog }
+func (c *getDBSchemas) GetDBSchemaFilterPattern() *string { return c.DbSchemaFilterPattern }
+
+// GetDBSchemas represents a request for list of database schemas
+type GetDBSchemas interface {
+	GetCatalog() *string
+	GetDBSchemaFilterPattern() *string
+}
+
+type getTables struct {
+	*pb.CommandGetTables
+}
+
+func (c *getTables) GetCatalog() *string                { return c.Catalog }
+func (c *getTables) GetDBSchemaFilterPattern() *string  { return c.DbSchemaFilterPattern }
+func (c *getTables) GetTableNameFilterPattern() *string { return c.TableNameFilterPattern }
+
+// GetTables represents a request to list the database's tables
+type GetTables interface {
+	GetCatalog() *string
+	GetDBSchemaFilterPattern() *string
+	GetTableNameFilterPattern() *string
+	GetTableTypes() []string
+	GetIncludeSchema() bool
+}
+
+// BaseServer must be embedded into any FlightSQL Server implementation
+// and provides default implementations of all methods returning an
+// unimplemented error if called. This allows consumers to gradually
+// implement methods as they want instead of requiring all consumers to
+// boilerplate the same "unimplemented" methods.
+//
+// The base implementation also contains handling for registering sql info
+// and serving it up in response to GetSqlInfo requests.
+type BaseServer struct {
+	sqlInfoToResult SqlInfoResultMap
+	// Alloc allows specifying a particular allocator to use for any
+	// allocations done by the base implementation.
+	// Will use memory.DefaultAlloctor if nil
+	Alloc memory.Allocator
+}
+
+func (BaseServer) mustEmbedBaseServer() {}
+
+// RegisterSqlInfo registers a specific result to return for a given sqlinfo
+// id. The result must be one of the following types: string, bool, int64,
+// int32, []string, or map[int32][]int32.
+//
+// Once registered, this value will be returned for any SqlInfo requests.
+func (b *BaseServer) RegisterSqlInfo(id SqlInfo, result interface{}) error {
+	if b.sqlInfoToResult == nil {
+		b.sqlInfoToResult = make(SqlInfoResultMap)
+	}
+
+	switch result.(type) {
+	case string, bool, int64, int32, []string, map[int32][]int32:
+		b.sqlInfoToResult[uint32(id)] = result
+	default:
+		return fmt.Errorf("invalid sql info type '%T' registered for id: %d", result, id)
+	}
+	return nil
+}
+
+func (BaseServer) GetFlightInfoStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoStatement not implemented")
+}
+
+func (BaseServer) GetSchemaStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.SchemaResult, error) {
+	return nil, status.Errorf(codes.Unimplemented, "GetSchemaStatement not implemented")
+}
+
+func (BaseServer) DoGetStatement(context.Context, StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetStatement not implemented")
+}
+
+func (BaseServer) GetFlightInfoPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoPreparedStatement not implemented")
+}
+
+func (BaseServer) GetSchemaPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.SchemaResult, error) {
+	return nil, status.Errorf(codes.Unimplemented, "GetSchemaPreparedStatement not implemented")
+}
+
+func (BaseServer) DoGetPreparedStatement(context.Context, PreparedStatementQuery) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetPreparedStatement not implemented")
+}
+
+func (BaseServer) GetFlightInfoCatalogs(context.Context, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoCatalogs not implemented")
+}
+
+func (BaseServer) DoGetCatalogs(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetCatalogs not implemented")
+}
+
+func (BaseServer) GetFlightInfoXdbcTypeInfo(context.Context, GetXdbcTypeInfo, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoXdbcTypeInfo not implemented")
+}
+
+func (BaseServer) DoGetXdbcTypeInfo(context.Context, GetXdbcTypeInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetXdbcTypeInfo not implemented")
+}
+
+// GetFlightInfoSqlInfo is a base implementation of GetSqlInfo by using any
+// registered sqlinfo (by calling RegisterSqlInfo). Will return an error
+// if there is no sql info registered, otherwise a FlightInfo for retrieving
+// the Sql info.
+func (b *BaseServer) GetFlightInfoSqlInfo(_ context.Context, _ GetSqlInfo, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	if len(b.sqlInfoToResult) == 0 {
+		return nil, status.Error(codes.NotFound, "no sql information available")
+	}
+
+	if b.Alloc == nil {
+		b.Alloc = memory.DefaultAllocator
+	}
+
+	return &flight.FlightInfo{
+		Endpoint:         []*flight.FlightEndpoint{{Ticket: &flight.Ticket{Ticket: desc.Cmd}}},
+		FlightDescriptor: desc,
+		TotalRecords:     -1,
+		TotalBytes:       -1,
+		Schema:           flight.SerializeSchema(schema_ref.SqlInfo, b.Alloc),
+	}, nil
+}
+
+// DoGetSqlInfo returns a flight stream containing the list of sqlinfo results
+func (b *BaseServer) DoGetSqlInfo(_ context.Context, cmd GetSqlInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	if b.Alloc == nil {
+		b.Alloc = memory.DefaultAllocator
+	}
+
+	bldr := array.NewRecordBuilder(b.Alloc, schema_ref.SqlInfo)
+	defer bldr.Release()
+
+	nameFieldBldr := bldr.Field(0).(*array.Uint32Builder)
+	valFieldBldr := bldr.Field(1).(*array.DenseUnionBuilder)
+
+	// doesn't take ownership, no calls to retain. so we don't need
+	// extra releases.
+	sqlInfoResultBldr := newSqlInfoResultBuilder(valFieldBldr)
+
+	// populate both the nameFieldBldr and the values for each
+	// element on command.info.
+	// valueFieldBldr is populated depending on the data type
+	// since it's a dense union. The population for each
+	// data type is handled by the sqlInfoResultBuilder.
+	for _, info := range cmd.GetInfo() {
+		val, ok := b.sqlInfoToResult[info]
+		if !ok {
+			return nil, nil, status.Errorf(codes.NotFound, "no information for sql info number %d", info)
+		}
+		nameFieldBldr.Append(info)
+		sqlInfoResultBldr.Append(val)
+	}
+
+	batch := bldr.NewRecord()
+	defer batch.Release()
+	debug.Assert(int(batch.NumRows()) == len(cmd.GetInfo()), "too many rows added to SqlInfo result")
+
+	ch := make(chan flight.StreamChunk)
+	rdr, err := array.NewRecordReader(schema_ref.SqlInfo, []arrow.Record{batch})
+	if err != nil {
+		return nil, nil, status.Errorf(codes.Internal, "error producing record response: %s", err.Error())
+	}
+
+	// StreamChunksFromReader will call release on the reader when done
+	go flight.StreamChunksFromReader(rdr, ch)
+	return schema_ref.SqlInfo, ch, nil
+}
+
+func (BaseServer) GetFlightInfoSchemas(context.Context, GetDBSchemas, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoSchemas not implemented")
+}
+
+func (BaseServer) DoGetDBSchemas(context.Context, GetDBSchemas) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetDBSchemas not implemented")
+}
+
+func (BaseServer) GetFlightInfoTables(context.Context, GetTables, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoTables not implemented")
+}
+
+func (BaseServer) DoGetTables(context.Context, GetTables) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetTables not implemented")
+}
+
+func (BaseServer) GetFlightInfoTableTypes(context.Context, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return nil, status.Errorf(codes.Unimplemented, "GetFlightInfoTableTypes not implemented")
+}
+
+func (BaseServer) DoGetTableTypes(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetTableTypes not implemented")
+}
+
+func (BaseServer) GetFlightInfoPrimaryKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return nil, status.Error(codes.Unimplemented, "GetFlightInfoPrimaryKeys not implemented")
+}
+
+func (BaseServer) DoGetPrimaryKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetPrimaryKeys not implemented")
+}
+
+func (BaseServer) GetFlightInfoExportedKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return nil, status.Error(codes.Unimplemented, "GetFlightInfoExportedKeys not implemented")
+}
+
+func (BaseServer) DoGetExportedKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetExportedKeys not implemented")
+}
+
+func (BaseServer) GetFlightInfoImportedKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return nil, status.Error(codes.Unimplemented, "GetFlightInfoImportedKeys not implemented")
+}
+
+func (BaseServer) DoGetImportedKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetImportedKeys not implemented")
+}
+
+func (BaseServer) GetFlightInfoCrossReference(context.Context, CrossTableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return nil, status.Error(codes.Unimplemented, "GetFlightInfoCrossReference not implemented")
+}
+
+func (BaseServer) DoGetCrossReference(context.Context, CrossTableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return nil, nil, status.Errorf(codes.Unimplemented, "DoGetCrossReference not implemented")
+}
+
+func (BaseServer) CreatePreparedStatement(context.Context, ActionCreatePreparedStatementRequest) (res ActionCreatePreparedStatementResult, err error) {
+	return res, status.Error(codes.Unimplemented, "CreatePreparedStatement not implemented")
+}
+
+func (BaseServer) ClosePreparedStatement(context.Context, ActionClosePreparedStatementRequest) error {
+	return status.Error(codes.Unimplemented, "ClosePreparedStatement not implemented")
+}
+
+func (BaseServer) DoPutCommandStatementUpdate(context.Context, StatementUpdate) (int64, error) {
+	return 0, status.Error(codes.Unimplemented, "DoPutCommandStatementUpdate not implemented")
+}
+func (BaseServer) DoPutPreparedStatementQuery(context.Context, PreparedStatementQuery, flight.MessageReader, flight.MetadataWriter) error {
+	return status.Error(codes.Unimplemented, "DoPutPreparedStatementQuery not implemented")
+}
+
+func (BaseServer) DoPutPreparedStatementUpdate(context.Context, PreparedStatementUpdate, flight.MessageReader) (int64, error) {
+	return 0, status.Error(codes.Unimplemented, "DoPutPreparedStatementUpdate not implemented")
+}
+
+// Server is the required interface for a FlightSQL server. It is implemented by
+// BaseServer which must be embedded in any implementation. The default
+// implementation by BaseServer for each of these (except GetSqlInfo)
+//
+// GetFlightInfo* methods should return the FlightInfo object representing where
+// to retrieve the results for a given request.
+//
+// DoGet* methods should return the Schema of the resulting stream along with
+// a channel to retrieve stream chunks (each chunk is a record batch and optionally
+// a descriptor and app metadata). The channel will be read from until it
+// closes, sending each chunk on the stream. Since the channel is returned
+// from the method, it should be populated within a goroutine to ensure
+// there are no deadlocks.
+type Server interface {
+	// GetFlightInfoStatement returns a FlightInfo for executing the requested sql query
+	GetFlightInfoStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.FlightInfo, error)
+	// GetFlightInfoStatement returns the schema of the result set of the requested sql query
+	GetSchemaStatement(context.Context, StatementQuery, *flight.FlightDescriptor) (*flight.SchemaResult, error)
+	// DoGetStatement returns a stream containing the query results for the
+	// requested statement handle that was populated by GetFlightInfoStatement
+	DoGetStatement(context.Context, StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error)
+	// GetFlightInfoPreparedStatement returns a FlightInfo for executing an already
+	// prepared statement with the provided statement handle.
+	GetFlightInfoPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.FlightInfo, error)
+	// GetSchemaPreparedStatement returns the schema of the result set of executing an already
+	// prepared statement with the provided statement handle.
+	GetSchemaPreparedStatement(context.Context, PreparedStatementQuery, *flight.FlightDescriptor) (*flight.SchemaResult, error)
+	// DoGetPreparedStatement returns a stream containing the results from executing
+	// a prepared statement query with the provided statement handle.
+	DoGetPreparedStatement(context.Context, PreparedStatementQuery) (*arrow.Schema, <-chan flight.StreamChunk, error)
+	// GetFlightInfoCatalogs returns a FlightInfo for the listing of all catalogs
+	GetFlightInfoCatalogs(context.Context, *flight.FlightDescriptor) (*flight.FlightInfo, error)
+	// DoGetCatalogs returns the stream containing the list of catalogs
+	DoGetCatalogs(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error)
+	// GetFlightInfoXdbcTypeInfo returns a FlightInfo for retrieving data type info
+	GetFlightInfoXdbcTypeInfo(context.Context, GetXdbcTypeInfo, *flight.FlightDescriptor) (*flight.FlightInfo, error)
+	// DoGetXdbcTypeInfo returns a stream containing the information about the
+	// requested supported datatypes
+	DoGetXdbcTypeInfo(context.Context, GetXdbcTypeInfo) (*arrow.Schema, <-chan flight.StreamChunk, error)
+	// GetFlightInfoSqlInfo returns a FlightInfo for retrieving SqlInfo from the server
+	GetFlightInfoSqlInfo(context.Context, GetSqlInfo, *flight.FlightDescriptor) (*flight.FlightInfo, error)
+	// DoGetSqlInfo returns a stream containing the list of SqlInfo results
+	DoGetSqlInfo(context.Context, GetSqlInfo) (*arrow.Schema, <-chan flight.StreamChunk, error)
+	// GetFlightInfoSchemas returns a FlightInfo for requesting a list of schemas
+	GetFlightInfoSchemas(context.Context, GetDBSchemas, *flight.FlightDescriptor) (*flight.FlightInfo, error)
+	// DoGetDBSchemas returns a stream containing the list of schemas
+	DoGetDBSchemas(context.Context, GetDBSchemas) (*arrow.Schema, <-chan flight.StreamChunk, error)
+	// GetFlightInfoTables returns a FlightInfo for listing the tables available
+	GetFlightInfoTables(context.Context, GetTables, *flight.FlightDescriptor) (*flight.FlightInfo, error)
+	// DoGetTables returns a stream containing the list of tables
+	DoGetTables(context.Context, GetTables) (*arrow.Schema, <-chan flight.StreamChunk, error)
+	// GetFlightInfoTableTypes returns a FlightInfo for retrieving a list
+	// of table types supported
+	GetFlightInfoTableTypes(context.Context, *flight.FlightDescriptor) (*flight.FlightInfo, error)
+	// DoGetTableTypes returns a stream containing the data related to the table types
+	DoGetTableTypes(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error)
+	// GetFlightInfoPrimaryKeys returns a FlightInfo for extracting information about primary keys
+	GetFlightInfoPrimaryKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error)
+	// DoGetPrimaryKeys returns a stream containing the data related to primary keys
+	DoGetPrimaryKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error)
+	// GetFlightInfoExportedKeys returns a FlightInfo for extracting information about foreign keys
+	GetFlightInfoExportedKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error)
+	// DoGetExportedKeys returns a stream containing the data related to foreign keys
+	DoGetExportedKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error)
+	// GetFlightInfoImportedKeys returns a FlightInfo for extracting information about imported keys
+	GetFlightInfoImportedKeys(context.Context, TableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error)
+	// DoGetImportedKeys returns a stream containing the data related to imported keys
+	DoGetImportedKeys(context.Context, TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error)
+	// GetFlightInfoCrossReference returns a FlightInfo for extracting data related
+	// to primary and foreign keys
+	GetFlightInfoCrossReference(context.Context, CrossTableRef, *flight.FlightDescriptor) (*flight.FlightInfo, error)
+	// DoGetCrossReference returns a stream of data related to foreign and primary keys
+	DoGetCrossReference(context.Context, CrossTableRef) (*arrow.Schema, <-chan flight.StreamChunk, error)
+	// DoPutCommandStatementUpdate executes a sql update statement and returns
+	// the number of affected rows
+	DoPutCommandStatementUpdate(context.Context, StatementUpdate) (int64, error)
+	// CreatePreparedStatement constructs a prepared statement from a sql query
+	// and returns an opaque statement handle for use.
+	CreatePreparedStatement(context.Context, ActionCreatePreparedStatementRequest) (ActionCreatePreparedStatementResult, error)
+	// ClosePreparedStatement closes the prepared statement identified by the requested
+	// opaque statement handle.
+	ClosePreparedStatement(context.Context, ActionClosePreparedStatementRequest) error
+	// DoPutPreparedStatementQuery binds parameters to a given prepared statement
+	// identified by the provided statement handle.
+	//
+	// The provided MessageReader is a stream of record batches with optional
+	// app metadata and flight descriptors to represent the values to bind
+	// to the parameters.
+	//
+	// Currently anything written to the writer will be ignored. It is in the
+	// interface for potential future enhancements to avoid having to change
+	// the interface in the future.
+	DoPutPreparedStatementQuery(context.Context, PreparedStatementQuery, flight.MessageReader, flight.MetadataWriter) error
+	// DoPutPreparedStatementUpdate executes an update SQL Prepared statement
+	// for the specified statement handle. The reader allows providing a sequence
+	// of uploaded record batches to bind the parameters to. Returns the number
+	// of affected records.
+	DoPutPreparedStatementUpdate(context.Context, PreparedStatementUpdate, flight.MessageReader) (int64, error)
+
+	mustEmbedBaseServer()
+}
+
+// NewFlightServer constructs a FlightRPC server from the provided
+// FlightSQL Server so that it can be passed to RegisterFlightService.
+func NewFlightServer(srv Server) flight.FlightServer {
+	return &flightSqlServer{srv: srv, mem: memory.DefaultAllocator}
+}
+
+// NewFlightServerWithAllocator constructs a FlightRPC server from
+// the provided FlightSQL Server so that it can be passed to
+// RegisterFlightService, setting the provided allocator into the server
+// for use with any allocations necessary by the routing.
+//
+// Will default to memory.DefaultAllocator if mem is nil
+func NewFlightServerWithAllocator(srv Server, mem memory.Allocator) flight.FlightServer {
+	if mem == nil {
+		mem = memory.DefaultAllocator
+	}
+	return &flightSqlServer{srv: srv, mem: mem}
+}
+
+// flightSqlServer is a wrapper around a FlightSQL server interface to
+// perform routing from FlightRPC to FlightSQL.
+type flightSqlServer struct {
+	flight.BaseFlightServer
+	mem memory.Allocator
+	srv Server
+}
+
+func (f *flightSqlServer) GetFlightInfo(ctx context.Context, request *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	var (
+		anycmd anypb.Any
+		cmd    proto.Message
+		err    error
+	)
+	if err = proto.Unmarshal(request.Cmd, &anycmd); err != nil {
+		return nil, status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
+	}
+
+	if cmd, err = anycmd.UnmarshalNew(); err != nil {
+		return nil, status.Errorf(codes.InvalidArgument, "could not unmarshal Any to a command type: %s", err.Error())
+	}
+
+	switch cmd := cmd.(type) {
+	case *pb.CommandStatementQuery:
+		return f.srv.GetFlightInfoStatement(ctx, cmd, request)
+	case *pb.CommandPreparedStatementQuery:
+		return f.srv.GetFlightInfoPreparedStatement(ctx, cmd, request)
+	case *pb.CommandGetCatalogs:
+		return f.srv.GetFlightInfoCatalogs(ctx, request)
+	case *pb.CommandGetDbSchemas:
+		return f.srv.GetFlightInfoSchemas(ctx, &getDBSchemas{cmd}, request)
+	case *pb.CommandGetTables:
+		return f.srv.GetFlightInfoTables(ctx, &getTables{cmd}, request)
+	case *pb.CommandGetTableTypes:
+		return f.srv.GetFlightInfoTableTypes(ctx, request)
+	case *pb.CommandGetXdbcTypeInfo:
+		return f.srv.GetFlightInfoXdbcTypeInfo(ctx, &getXdbcTypeInfo{cmd}, request)
+	case *pb.CommandGetSqlInfo:
+		return f.srv.GetFlightInfoSqlInfo(ctx, cmd, request)
+	case *pb.CommandGetPrimaryKeys:
+		return f.srv.GetFlightInfoPrimaryKeys(ctx, pkToTableRef(cmd), request)
+	case *pb.CommandGetExportedKeys:
+		return f.srv.GetFlightInfoExportedKeys(ctx, exkToTableRef(cmd), request)
+	case *pb.CommandGetImportedKeys:
+		return f.srv.GetFlightInfoImportedKeys(ctx, impkToTableRef(cmd), request)
+	case *pb.CommandGetCrossReference:
+		return f.srv.GetFlightInfoCrossReference(ctx, toCrossTableRef(cmd), request)
+	}
+
+	return nil, status.Error(codes.InvalidArgument, "requested command is invalid")
+}
+
+func (f *flightSqlServer) GetSchema(ctx context.Context, request *flight.FlightDescriptor) (*flight.SchemaResult, error) {
+	var (
+		anycmd anypb.Any
+		cmd    proto.Message
+		err    error
+	)
+	if err = proto.Unmarshal(request.Cmd, &anycmd); err != nil {
+		return nil, status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
+	}
+
+	if cmd, err = anycmd.UnmarshalNew(); err != nil {
+		return nil, status.Errorf(codes.InvalidArgument, "could not unmarshal Any to a command type: %s", err.Error())
+	}
+
+	switch cmd := cmd.(type) {
+	case *pb.CommandStatementQuery:
+		return f.srv.GetSchemaStatement(ctx, cmd, request)
+	case *pb.CommandPreparedStatementQuery:
+		return f.srv.GetSchemaPreparedStatement(ctx, cmd, request)
+	case *pb.CommandGetCatalogs:
+		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.Catalogs, f.mem)}, nil
+	case *pb.CommandGetDbSchemas:
+		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.DBSchemas, f.mem)}, nil
+	case *pb.CommandGetTables:
+		if cmd.GetIncludeSchema() {
+			return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.TablesWithIncludedSchema, f.mem)}, nil
+		}
+		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.Tables, f.mem)}, nil
+	case *pb.CommandGetTableTypes:
+		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.TableTypes, f.mem)}, nil
+	case *pb.CommandGetXdbcTypeInfo:
+		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.XdbcTypeInfo, f.mem)}, nil
+	case *pb.CommandGetSqlInfo:
+		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.SqlInfo, f.mem)}, nil
+	case *pb.CommandGetPrimaryKeys:
+		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.PrimaryKeys, f.mem)}, nil
+	case *pb.CommandGetExportedKeys:
+		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.ExportedKeys, f.mem)}, nil
+	case *pb.CommandGetImportedKeys:
+		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.ImportedKeys, f.mem)}, nil
+	case *pb.CommandGetCrossReference:
+		return &flight.SchemaResult{Schema: flight.SerializeSchema(schema_ref.CrossReference, f.mem)}, nil
+	}
+
+	return nil, status.Errorf(codes.InvalidArgument, "requested command is invalid: %s", anycmd.GetTypeUrl())
+}
+
+func (f *flightSqlServer) DoGet(request *flight.Ticket, stream flight.FlightService_DoGetServer) (err error) {
+	var (
+		anycmd anypb.Any
+		cmd    proto.Message
+		cc     <-chan flight.StreamChunk
+		sc     *arrow.Schema
+	)
+	if err = proto.Unmarshal(request.Ticket, &anycmd); err != nil {
+		return status.Errorf(codes.InvalidArgument, "unable to parse ticket: %s", err.Error())
+	}
+
+	if cmd, err = anycmd.UnmarshalNew(); err != nil {
+		return status.Errorf(codes.InvalidArgument, "unable to unmarshal proto.Any: %s", err.Error())
+	}
+
+	switch cmd := cmd.(type) {
+	case *pb.TicketStatementQuery:
+		sc, cc, err = f.srv.DoGetStatement(stream.Context(), cmd)
+	case *pb.CommandPreparedStatementQuery:
+		sc, cc, err = f.srv.DoGetPreparedStatement(stream.Context(), cmd)
+	case *pb.CommandGetCatalogs:
+		sc, cc, err = f.srv.DoGetCatalogs(stream.Context())
+	case *pb.CommandGetDbSchemas:
+		sc, cc, err = f.srv.DoGetDBSchemas(stream.Context(), &getDBSchemas{cmd})
+	case *pb.CommandGetTables:
+		sc, cc, err = f.srv.DoGetTables(stream.Context(), &getTables{cmd})
+	case *pb.CommandGetTableTypes:
+		sc, cc, err = f.srv.DoGetTableTypes(stream.Context())
+	case *pb.CommandGetXdbcTypeInfo:
+		sc, cc, err = f.srv.DoGetXdbcTypeInfo(stream.Context(), &getXdbcTypeInfo{cmd})
+	case *pb.CommandGetSqlInfo:
+		sc, cc, err = f.srv.DoGetSqlInfo(stream.Context(), cmd)
+	case *pb.CommandGetPrimaryKeys:
+		sc, cc, err = f.srv.DoGetPrimaryKeys(stream.Context(), pkToTableRef(cmd))
+	case *pb.CommandGetExportedKeys:
+		sc, cc, err = f.srv.DoGetExportedKeys(stream.Context(), exkToTableRef(cmd))
+	case *pb.CommandGetImportedKeys:
+		sc, cc, err = f.srv.DoGetImportedKeys(stream.Context(), impkToTableRef(cmd))
+	case *pb.CommandGetCrossReference:
+		sc, cc, err = f.srv.DoGetCrossReference(stream.Context(), toCrossTableRef(cmd))
+	default:
+		return status.Error(codes.InvalidArgument, "requested command is invalid")
+	}
+
+	if err != nil {
+		return err
+	}
+
+	wr := flight.NewRecordWriter(stream, ipc.WithSchema(sc))
+	defer wr.Close()
+
+	for chunk := range cc {
+		if chunk.Err != nil {
+			return err
+		}
+
+		wr.SetFlightDescriptor(chunk.Desc)
+		if err = wr.WriteWithAppMetadata(chunk.Data, chunk.AppMetadata); err != nil {
+			return err
+		}
+		chunk.Data.Release()
+	}
+
+	return err
+}
+
+type putMetadataWriter struct {
+	stream flight.FlightService_DoPutServer
+}
+
+func (p *putMetadataWriter) WriteMetadata(appMetadata []byte) error {
+	return p.stream.Send(&flight.PutResult{AppMetadata: appMetadata})
+}
+
+func (f *flightSqlServer) DoPut(stream flight.FlightService_DoPutServer) error {
+	rdr, err := flight.NewRecordReader(stream, ipc.WithAllocator(f.mem), ipc.WithDelayReadSchema(true))
+	if err != nil {
+		return status.Errorf(codes.InvalidArgument, "failed to read input stream: %s", err.Error())
+	}
+	defer rdr.Release()
+
+	// flight descriptor should have come with the schema message
+	request := rdr.LatestFlightDescriptor()
+
+	var (
+		anycmd anypb.Any
+		cmd    proto.Message
+	)
+	if err = proto.Unmarshal(request.Cmd, &anycmd); err != nil {
+		return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
+	}
+
+	if cmd, err = anycmd.UnmarshalNew(); err != nil {
+		return status.Errorf(codes.InvalidArgument, "could not unmarshal google.protobuf.Any: %s", err.Error())
+	}
+
+	switch cmd := cmd.(type) {
+	case *pb.CommandStatementUpdate:
+		recordCount, err := f.srv.DoPutCommandStatementUpdate(stream.Context(), cmd)
+		if err != nil {
+			return err
+		}
+
+		result := pb.DoPutUpdateResult{RecordCount: recordCount}
+		out := &flight.PutResult{}
+		if out.AppMetadata, err = proto.Marshal(&result); err != nil {
+			return status.Errorf(codes.Internal, "failed to marshal PutResult: %s", err.Error())
+		}
+		return stream.Send(out)
+	case *pb.CommandPreparedStatementQuery:
+		return f.srv.DoPutPreparedStatementQuery(stream.Context(), cmd, rdr, &putMetadataWriter{stream})
+	case *pb.CommandPreparedStatementUpdate:
+		recordCount, err := f.srv.DoPutPreparedStatementUpdate(stream.Context(), cmd, rdr)
+		if err != nil {
+			return err
+		}
+
+		result := pb.DoPutUpdateResult{RecordCount: recordCount}
+		out := &flight.PutResult{}
+		if out.AppMetadata, err = proto.Marshal(&result); err != nil {
+			return status.Errorf(codes.Internal, "failed to marshal PutResult: %s", err.Error())
+		}
+		return stream.Send(out)
+	default:
+		return status.Error(codes.InvalidArgument, "the defined request is invalid")
+	}
+}
+
+func (f *flightSqlServer) ListActions(_ *flight.Empty, stream flight.FlightService_ListActionsServer) error {
+	actions := []string{CreatePreparedStatementActionType, ClosePreparedStatementActionType}
+
+	for _, a := range actions {
+		if err := stream.Send(&flight.ActionType{Type: a}); err != nil {
+			return err
+		}
+	}
+	return nil
+}
+
+func (f *flightSqlServer) DoAction(cmd *flight.Action, stream flight.FlightService_DoActionServer) error {
+	var anycmd anypb.Any
+
+	switch cmd.Type {
+	case CreatePreparedStatementActionType:
+		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
+			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
+		}
+
+		var (
+			request pb.ActionCreatePreparedStatementRequest
+			result  pb.ActionCreatePreparedStatementResult
+			ret     pb.Result
+		)
+		if err := anycmd.UnmarshalTo(&request); err != nil {
+			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
+		}
+
+		output, err := f.srv.CreatePreparedStatement(stream.Context(), &request)
+		if err != nil {
+			return err
+		}
+
+		result.PreparedStatementHandle = output.Handle
+		if output.DatasetSchema != nil {
+			result.DatasetSchema = flight.SerializeSchema(output.DatasetSchema, f.mem)
+		}
+		if output.ParameterSchema != nil {
+			result.ParameterSchema = flight.SerializeSchema(output.ParameterSchema, f.mem)
+		}
+
+		if err := anycmd.MarshalFrom(&result); err != nil {
+			return status.Errorf(codes.Internal, "unable to marshal final response: %s", err.Error())
+		}
+
+		if ret.Body, err = proto.Marshal(&anycmd); err != nil {
+			return status.Errorf(codes.Internal, "unable to marshal result: %s", err.Error())
+		}
+		return stream.Send(&ret)
+	case ClosePreparedStatementActionType:
+		if err := proto.Unmarshal(cmd.Body, &anycmd); err != nil {
+			return status.Errorf(codes.InvalidArgument, "unable to parse command: %s", err.Error())
+		}
+
+		var request pb.ActionClosePreparedStatementRequest
+		if err := anycmd.UnmarshalTo(&request); err != nil {
+			return status.Errorf(codes.InvalidArgument, "unable to unmarshal google.protobuf.Any: %s", err.Error())
+		}
+
+		if err := f.srv.ClosePreparedStatement(stream.Context(), &request); err != nil {
+			return err
+		}
+
+		return stream.Send(&pb.Result{})
+	default:
+		return status.Error(codes.InvalidArgument, "the defined request is invalid.")
+	}
+}
+
+var (
+	_ Server = (*BaseServer)(nil)
+)
diff --git a/go/arrow/flight/flightsql/server_test.go b/go/arrow/flight/flightsql/server_test.go
new file mode 100644
index 00000000000..41420c1dcb3
--- /dev/null
+++ b/go/arrow/flight/flightsql/server_test.go
@@ -0,0 +1,212 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package flightsql_test
+
+import (
+	"context"
+	"strings"
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql"
+	pb "github.com/apache/arrow/go/v11/arrow/flight/internal/flight"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/stretchr/testify/suite"
+	"google.golang.org/grpc"
+	"google.golang.org/grpc/codes"
+	"google.golang.org/grpc/credentials/insecure"
+	"google.golang.org/grpc/status"
+	"google.golang.org/protobuf/proto"
+	"google.golang.org/protobuf/types/known/anypb"
+)
+
+var dialOpts = []grpc.DialOption{grpc.WithTransportCredentials(insecure.NewCredentials())}
+
+type UnimplementedFlightSqlServerSuite struct {
+	suite.Suite
+
+	s  flight.Server
+	cl *flightsql.Client
+}
+
+func (s *UnimplementedFlightSqlServerSuite) SetupSuite() {
+	s.s = flight.NewServerWithMiddleware(nil)
+	srv := flightsql.NewFlightServer(&flightsql.BaseServer{})
+	s.s.RegisterFlightService(srv)
+	s.s.Init("localhost:0")
+
+	go s.s.Serve()
+}
+
+func (s *UnimplementedFlightSqlServerSuite) SetupTest() {
+	cl, err := flightsql.NewClient(s.s.Addr().String(), nil, nil, dialOpts...)
+	s.Require().NoError(err)
+	s.cl = cl
+}
+
+func (s *UnimplementedFlightSqlServerSuite) TearDownTest() {
+	s.Require().NoError(s.cl.Close())
+	s.cl = nil
+}
+
+func (s *UnimplementedFlightSqlServerSuite) TearDownSuite() {
+	s.s.Shutdown()
+}
+
+// the following test functions verify that the default base server will
+// correctly route requests to the appropriate interface methods based on
+// the descriptor types for DoPut/DoGet/DoAction
+
+func (s *UnimplementedFlightSqlServerSuite) TestExecute() {
+	info, err := s.cl.Execute(context.TODO(), "SELECT * FROM IRRELEVANT")
+	st, ok := status.FromError(err)
+	s.True(ok)
+	s.Equal(codes.Unimplemented, st.Code())
+	s.Equal(st.Message(), "GetFlightInfoStatement not implemented")
+	s.Nil(info)
+}
+
+func (s *UnimplementedFlightSqlServerSuite) TestGetTables() {
+	info, err := s.cl.GetTables(context.TODO(), &flightsql.GetTablesOpts{})
+	st, ok := status.FromError(err)
+	s.True(ok)
+	s.Equal(codes.Unimplemented, st.Code())
+	s.Equal(st.Message(), "GetFlightInfoTables not implemented")
+	s.Nil(info)
+}
+
+func (s *UnimplementedFlightSqlServerSuite) TestGetTableTypes() {
+	info, err := s.cl.GetTableTypes(context.TODO())
+	st, ok := status.FromError(err)
+	s.True(ok)
+	s.Equal(codes.Unimplemented, st.Code())
+	s.Equal(st.Message(), "GetFlightInfoTableTypes not implemented")
+	s.Nil(info)
+}
+
+func (s *UnimplementedFlightSqlServerSuite) TestGetPrimaryKeys() {
+	info, err := s.cl.GetPrimaryKeys(context.TODO(), flightsql.TableRef{})
+	st, ok := status.FromError(err)
+	s.True(ok)
+	s.Equal(codes.Unimplemented, st.Code())
+	s.Equal(st.Message(), "GetFlightInfoPrimaryKeys not implemented")
+	s.Nil(info)
+}
+
+func (s *UnimplementedFlightSqlServerSuite) TestGetExportedKeys() {
+	info, err := s.cl.GetExportedKeys(context.TODO(), flightsql.TableRef{})
+	st, ok := status.FromError(err)
+	s.True(ok)
+	s.Equal(codes.Unimplemented, st.Code())
+	s.Equal(st.Message(), "GetFlightInfoExportedKeys not implemented")
+	s.Nil(info)
+}
+
+func (s *UnimplementedFlightSqlServerSuite) TestGetImportedKeys() {
+	info, err := s.cl.GetImportedKeys(context.TODO(), flightsql.TableRef{})
+	st, ok := status.FromError(err)
+	s.True(ok)
+	s.Equal(codes.Unimplemented, st.Code())
+	s.Equal(st.Message(), "GetFlightInfoImportedKeys not implemented")
+	s.Nil(info)
+}
+
+func (s *UnimplementedFlightSqlServerSuite) TestGetCrossReference() {
+	info, err := s.cl.GetCrossReference(context.TODO(), flightsql.TableRef{}, flightsql.TableRef{})
+	st, ok := status.FromError(err)
+	s.True(ok)
+	s.Equal(codes.Unimplemented, st.Code())
+	s.Equal(st.Message(), "GetFlightInfoCrossReference not implemented")
+	s.Nil(info)
+}
+
+func (s *UnimplementedFlightSqlServerSuite) TestGetCatalogs() {
+	info, err := s.cl.GetCatalogs(context.TODO())
+	st, ok := status.FromError(err)
+	s.True(ok)
+	s.Equal(codes.Unimplemented, st.Code())
+	s.Equal(st.Message(), "GetFlightInfoCatalogs not implemented")
+	s.Nil(info)
+}
+
+func (s *UnimplementedFlightSqlServerSuite) TestGetDBSchemas() {
+	info, err := s.cl.GetDBSchemas(context.TODO(), &flightsql.GetDBSchemasOpts{})
+	st, ok := status.FromError(err)
+	s.True(ok)
+	s.Equal(codes.Unimplemented, st.Code())
+	s.Equal(st.Message(), "GetFlightInfoSchemas not implemented")
+	s.Nil(info)
+}
+
+func (s *UnimplementedFlightSqlServerSuite) TestGetTypeInfo() {
+	info, err := s.cl.GetXdbcTypeInfo(context.TODO(), nil)
+	st, ok := status.FromError(err)
+	s.True(ok)
+	s.Equal(codes.Unimplemented, st.Code())
+	s.Equal(st.Message(), "GetFlightInfoXdbcTypeInfo not implemented")
+	s.Nil(info)
+}
+
+func getTicket(cmd proto.Message) *flight.Ticket {
+	var anycmd anypb.Any
+	anycmd.MarshalFrom(cmd)
+
+	data, _ := proto.Marshal(&anycmd)
+	return &flight.Ticket{
+		Ticket: data,
+	}
+}
+
+func (s *UnimplementedFlightSqlServerSuite) TestDoGet() {
+	tests := []struct {
+		name   string
+		ticket proto.Message
+	}{
+		{"DoGetStatement", &pb.TicketStatementQuery{}},
+		{"DoGetPreparedStatement", &pb.CommandPreparedStatementQuery{}},
+		{"DoGetCatalogs", &pb.CommandGetCatalogs{}},
+		{"DoGetDBSchemas", &pb.CommandGetDbSchemas{}},
+		{"DoGetTables", &pb.CommandGetTables{}},
+		{"DoGetTableTypes", &pb.CommandGetTableTypes{}},
+		{"DoGetXdbcTypeInfo", &pb.CommandGetXdbcTypeInfo{}},
+		{"DoGetPrimaryKeys", &pb.CommandGetPrimaryKeys{}},
+		{"DoGetExportedKeys", &pb.CommandGetExportedKeys{}},
+		{"DoGetImportedKeys", &pb.CommandGetImportedKeys{}},
+		{"DoGetCrossReference", &pb.CommandGetCrossReference{}},
+	}
+
+	for _, tt := range tests {
+		s.Run(tt.name, func() {
+			rdr, err := s.cl.DoGet(context.TODO(), getTicket(tt.ticket))
+			s.Nil(rdr)
+			s.True(strings.HasSuffix(err.Error(), tt.name+" not implemented"), err.Error())
+		})
+	}
+}
+
+func (s *UnimplementedFlightSqlServerSuite) TestDoAction() {
+	prep, err := s.cl.Prepare(context.TODO(), memory.DefaultAllocator, "IRRELEVANT")
+	s.Nil(prep)
+	st, ok := status.FromError(err)
+	s.True(ok)
+	s.Equal(codes.Unimplemented, st.Code())
+	s.Equal(st.Message(), "CreatePreparedStatement not implemented")
+}
+
+func TestBaseServer(t *testing.T) {
+	suite.Run(t, new(UnimplementedFlightSqlServerSuite))
+}
diff --git a/go/arrow/flight/flightsql/sql_info.go b/go/arrow/flight/flightsql/sql_info.go
new file mode 100644
index 00000000000..6bb52ce1ef6
--- /dev/null
+++ b/go/arrow/flight/flightsql/sql_info.go
@@ -0,0 +1,93 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package flightsql
+
+import (
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+)
+
+const (
+	strValIdx arrow.UnionTypeCode = iota
+	boolValIdx
+	bigintValIdx
+	int32BitMaskIdx
+	strListIdx
+	int32ToInt32ListIdx
+)
+
+// sqlInfoResultBldr is a helper for building up the dense union response
+// of a SqlInfo request.
+type sqlInfoResultBldr struct {
+	valueBldr *array.DenseUnionBuilder
+
+	strBldr              *array.StringBuilder
+	boolBldr             *array.BooleanBuilder
+	bigintBldr           *array.Int64Builder
+	int32BitmaskBldr     *array.Int32Builder
+	strListBldr          *array.ListBuilder
+	int32Toint32ListBldr *array.MapBuilder
+}
+
+func newSqlInfoResultBuilder(valueBldr *array.DenseUnionBuilder) *sqlInfoResultBldr {
+	return &sqlInfoResultBldr{
+		valueBldr:            valueBldr,
+		strBldr:              valueBldr.Child(int(strValIdx)).(*array.StringBuilder),
+		boolBldr:             valueBldr.Child(int(boolValIdx)).(*array.BooleanBuilder),
+		bigintBldr:           valueBldr.Child(int(bigintValIdx)).(*array.Int64Builder),
+		int32BitmaskBldr:     valueBldr.Child(int(int32BitMaskIdx)).(*array.Int32Builder),
+		strListBldr:          valueBldr.Child(int(strListIdx)).(*array.ListBuilder),
+		int32Toint32ListBldr: valueBldr.Child(int(int32ToInt32ListIdx)).(*array.MapBuilder),
+	}
+}
+
+func (s *sqlInfoResultBldr) Append(v interface{}) {
+	switch v := v.(type) {
+	case string:
+		s.valueBldr.Append(strValIdx)
+		s.strBldr.Append(v)
+	case bool:
+		s.valueBldr.Append(boolValIdx)
+		s.boolBldr.Append(v)
+	case int64:
+		s.valueBldr.Append(bigintValIdx)
+		s.bigintBldr.Append(v)
+	case int32:
+		s.valueBldr.Append(int32BitMaskIdx)
+		s.int32BitmaskBldr.Append(v)
+	case []string:
+		s.valueBldr.Append(strListIdx)
+		s.strListBldr.Append(true)
+		chld := s.strListBldr.ValueBuilder().(*array.StringBuilder)
+		chld.AppendValues(v, nil)
+	case map[int32][]int32:
+		s.valueBldr.Append(int32ToInt32ListIdx)
+		s.int32Toint32ListBldr.Append(true)
+
+		kb := s.int32Toint32ListBldr.KeyBuilder().(*array.Int32Builder)
+		ib := s.int32Toint32ListBldr.ItemBuilder().(*array.ListBuilder)
+		ch := ib.ValueBuilder().(*array.Int32Builder)
+
+		for key, val := range v {
+			kb.Append(key)
+			ib.Append(true)
+			for _, c := range val {
+				ch.Append(c)
+			}
+		}
+	}
+}
diff --git a/go/arrow/flight/flightsql/sqlite_server_test.go b/go/arrow/flight/flightsql/sqlite_server_test.go
new file mode 100644
index 00000000000..1c22e6bf929
--- /dev/null
+++ b/go/arrow/flight/flightsql/sqlite_server_test.go
@@ -0,0 +1,783 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+// +build go1.18
+
+package flightsql_test
+
+import (
+	"context"
+	"os"
+	"strings"
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql/example"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql/schema_ref"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/suite"
+	"google.golang.org/protobuf/proto"
+	sqlite3 "modernc.org/sqlite/lib"
+)
+
+type FlightSqliteServerSuite struct {
+	suite.Suite
+
+	srv *example.SQLiteFlightSQLServer
+	s   flight.Server
+	cl  *flightsql.Client
+
+	mem *memory.CheckedAllocator
+}
+
+func (s *FlightSqliteServerSuite) getColMetadata(colType int, table string) arrow.Metadata {
+	bldr := flightsql.NewColumnMetadataBuilder()
+	bldr.Scale(15).IsReadOnly(false).IsAutoIncrement(false)
+	if table != "" {
+		bldr.TableName(table)
+	}
+	switch colType {
+	case sqlite3.SQLITE_TEXT, sqlite3.SQLITE_BLOB:
+	case sqlite3.SQLITE_INTEGER:
+		bldr.Precision(10)
+	case sqlite3.SQLITE_FLOAT:
+		bldr.Precision(15)
+	default:
+		bldr.Precision(0)
+	}
+	return bldr.Metadata()
+}
+
+func (s *FlightSqliteServerSuite) SetupTest() {
+	var err error
+	s.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
+	s.s = flight.NewServerWithMiddleware(nil)
+	s.srv, err = example.NewSQLiteFlightSQLServer()
+	s.Require().NoError(err)
+	s.srv.Alloc = s.mem
+
+	s.s.RegisterFlightService(flightsql.NewFlightServer(s.srv))
+	s.s.Init("localhost:0")
+	s.s.SetShutdownOnSignals(os.Interrupt, os.Kill)
+	go s.s.Serve()
+	s.cl, err = flightsql.NewClient(s.s.Addr().String(), nil, nil, dialOpts...)
+	s.Require().NoError(err)
+	s.Require().NotNil(s.cl)
+	s.cl.Alloc = s.mem
+}
+
+func (s *FlightSqliteServerSuite) TearDownTest() {
+	s.Require().NoError(s.cl.Close())
+	s.s.Shutdown()
+	s.srv = nil
+	s.mem.AssertSize(s.T(), 0)
+}
+
+func (s *FlightSqliteServerSuite) fromJSON(dt arrow.DataType, json string) arrow.Array {
+	arr, _, _ := array.FromJSON(s.mem, dt, strings.NewReader(json))
+	return arr
+}
+
+func (s *FlightSqliteServerSuite) execCountQuery(query string) int64 {
+	info, err := s.cl.Execute(context.Background(), query)
+	s.NoError(err)
+
+	rdr, err := s.cl.DoGet(context.Background(), info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	rec, err := rdr.Read()
+	s.NoError(err)
+	return rec.Column(0).(*array.Int64).Value(0)
+}
+
+func (s *FlightSqliteServerSuite) TestCommandStatementQuery() {
+	ctx := context.Background()
+	info, err := s.cl.Execute(ctx, "SELECT * FROM intTable")
+	s.NoError(err)
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.NotNil(rec)
+
+	expectedSchema := arrow.NewSchema([]arrow.Field{
+		{Name: "id", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
+		{Name: "keyName", Type: arrow.BinaryTypes.String, Metadata: s.getColMetadata(sqlite3.SQLITE_TEXT, ""), Nullable: true},
+		{Name: "value", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
+		{Name: "foreignId", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
+	}, nil)
+
+	s.Truef(expectedSchema.Equal(rec.Schema()), "expected: %s\ngot: %s", expectedSchema, rec.Schema())
+
+	idarr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 2, 3, 4]`)
+	defer idarr.Release()
+	keyarr := s.fromJSON(arrow.BinaryTypes.String, `["one", "zero", "negative one", null]`)
+	defer keyarr.Release()
+	valarr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 0, -1, null]`)
+	defer valarr.Release()
+	foreignarr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 1, 1, null]`)
+	defer foreignarr.Release()
+
+	expectedRec := array.NewRecord(expectedSchema, []arrow.Array{idarr, keyarr, valarr, foreignarr}, 4)
+	defer expectedRec.Release()
+
+	s.Truef(array.RecordEqual(expectedRec, rec), "expected: %s\ngot: %s", expectedRec, rec)
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetTables() {
+	ctx := context.Background()
+	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{})
+	s.NoError(err)
+	s.NotNil(info)
+
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	catalogName := array.MakeArrayOfNull(s.mem, arrow.BinaryTypes.String, 3)
+	defer catalogName.Release()
+	schemaName := array.MakeArrayOfNull(s.mem, arrow.BinaryTypes.String, 3)
+	defer schemaName.Release()
+
+	tableName := s.fromJSON(arrow.BinaryTypes.String, `["foreignTable", "intTable", "sqlite_sequence"]`)
+	defer tableName.Release()
+
+	tableType := s.fromJSON(arrow.BinaryTypes.String, `["table", "table", "table"]`)
+	defer tableType.Release()
+
+	expectedRec := array.NewRecord(schema_ref.Tables, []arrow.Array{catalogName, schemaName, tableName, tableType}, 3)
+	defer expectedRec.Release()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.NotNil(rec)
+	rec.Retain()
+	defer rec.Release()
+	s.False(rdr.Next())
+
+	s.Truef(array.RecordEqual(expectedRec, rec), "expected: %s\ngot: %s", expectedRec, rec)
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetTablesWithTableFilter() {
+	ctx := context.Background()
+	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
+		TableNameFilterPattern: proto.String("int%"),
+	})
+	s.NoError(err)
+	s.NotNil(info)
+
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	catalog := s.fromJSON(arrow.BinaryTypes.String, `[null]`)
+	schema := s.fromJSON(arrow.BinaryTypes.String, `[null]`)
+	table := s.fromJSON(arrow.BinaryTypes.String, `["intTable"]`)
+	tabletype := s.fromJSON(arrow.BinaryTypes.String, `["table"]`)
+	expected := array.NewRecord(schema_ref.Tables, []arrow.Array{catalog, schema, table, tabletype}, 1)
+	defer func() {
+		catalog.Release()
+		schema.Release()
+		table.Release()
+		tabletype.Release()
+		expected.Release()
+	}()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.NotNil(rec)
+	rec.Retain()
+	defer rec.Release()
+	s.False(rdr.Next())
+	s.NoError(rdr.Err())
+
+	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetTablesWithTableTypesFilter() {
+	ctx := context.Background()
+	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
+		TableTypes: []string{"index"},
+	})
+	s.NoError(err)
+
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	s.True(schema_ref.Tables.Equal(rdr.Schema()), rdr.Schema().String())
+	s.False(rdr.Next())
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetTablesWithExistingTableTypeFilter() {
+	ctx := context.Background()
+	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
+		TableTypes: []string{"table"},
+	})
+	s.NoError(err)
+	s.NotNil(info)
+
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	catalogName := array.MakeArrayOfNull(s.mem, arrow.BinaryTypes.String, 3)
+	defer catalogName.Release()
+	schemaName := array.MakeArrayOfNull(s.mem, arrow.BinaryTypes.String, 3)
+	defer schemaName.Release()
+
+	tableName := s.fromJSON(arrow.BinaryTypes.String, `["foreignTable", "intTable", "sqlite_sequence"]`)
+	defer tableName.Release()
+
+	tableType := s.fromJSON(arrow.BinaryTypes.String, `["table", "table", "table"]`)
+	defer tableType.Release()
+
+	expectedRec := array.NewRecord(schema_ref.Tables, []arrow.Array{catalogName, schemaName, tableName, tableType}, 3)
+	defer expectedRec.Release()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.NotNil(rec)
+	rec.Retain()
+	defer rec.Release()
+	s.False(rdr.Next())
+
+	s.Truef(array.RecordEqual(expectedRec, rec), "expected: %s\ngot: %s", expectedRec, rec)
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetTablesWithIncludedSchemas() {
+	ctx := context.Background()
+	info, err := s.cl.GetTables(ctx, &flightsql.GetTablesOpts{
+		TableNameFilterPattern: proto.String("int%"),
+		IncludeSchema:          true,
+	})
+	s.NoError(err)
+	s.NotNil(info)
+
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	catalog := s.fromJSON(arrow.BinaryTypes.String, `[null]`)
+	schema := s.fromJSON(arrow.BinaryTypes.String, `[null]`)
+	table := s.fromJSON(arrow.BinaryTypes.String, `["intTable"]`)
+	tabletype := s.fromJSON(arrow.BinaryTypes.String, `["table"]`)
+
+	dbTableName := "intTable"
+
+	tableSchema := arrow.NewSchema([]arrow.Field{
+		{Name: "id", Type: arrow.PrimitiveTypes.Int64,
+			Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, dbTableName)},
+		{Name: "keyName", Type: arrow.BinaryTypes.String,
+			Metadata: s.getColMetadata(sqlite3.SQLITE_TEXT, dbTableName)},
+		{Name: "value", Type: arrow.PrimitiveTypes.Int64,
+			Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, dbTableName)},
+		{Name: "foreignId", Type: arrow.PrimitiveTypes.Int64,
+			Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, dbTableName)},
+	}, nil)
+	schemaBuf := flight.SerializeSchema(tableSchema, s.mem)
+	binaryBldr := array.NewBinaryBuilder(s.mem, arrow.BinaryTypes.Binary)
+	binaryBldr.Append(schemaBuf)
+	schemaCol := binaryBldr.NewArray()
+
+	expected := array.NewRecord(schema_ref.TablesWithIncludedSchema, []arrow.Array{catalog, schema, table, tabletype, schemaCol}, 1)
+	defer func() {
+		catalog.Release()
+		schema.Release()
+		table.Release()
+		tabletype.Release()
+		binaryBldr.Release()
+		schemaCol.Release()
+		expected.Release()
+	}()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.NotNil(rec)
+	rec.Retain()
+	defer rec.Release()
+	s.False(rdr.Next())
+	s.NoError(rdr.Err())
+
+	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetTypeInfo() {
+	ctx := context.Background()
+	info, err := s.cl.GetXdbcTypeInfo(ctx, nil)
+	s.NoError(err)
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	expected := example.GetTypeInfoResult(s.mem)
+	defer expected.Release()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
+	s.False(rdr.Next())
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetTypeInfoFiltered() {
+	ctx := context.Background()
+	info, err := s.cl.GetXdbcTypeInfo(ctx, proto.Int32(-4))
+	s.NoError(err)
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	expected := example.GetFilteredTypeInfoResult(s.mem, -4)
+	defer expected.Release()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
+	s.False(rdr.Next())
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetCatalogs() {
+	ctx := context.Background()
+	info, err := s.cl.GetCatalogs(ctx)
+	s.NoError(err)
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	s.True(rdr.Schema().Equal(schema_ref.Catalogs), rdr.Schema().String())
+	s.False(rdr.Next())
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetDbSchemas() {
+	ctx := context.Background()
+	info, err := s.cl.GetDBSchemas(ctx, &flightsql.GetDBSchemasOpts{})
+	s.NoError(err)
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	s.True(rdr.Schema().Equal(schema_ref.DBSchemas), rdr.Schema().String())
+	s.False(rdr.Next())
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetTableTypes() {
+	ctx := context.Background()
+	info, err := s.cl.GetTableTypes(ctx)
+	s.NoError(err)
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	expected := s.fromJSON(arrow.BinaryTypes.String, `["table"]`)
+	defer expected.Release()
+	expectedRec := array.NewRecord(schema_ref.TableTypes, []arrow.Array{expected}, 1)
+	defer expectedRec.Release()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.Truef(array.RecordEqual(expectedRec, rec), "expected: %s\ngot: %s", expected, rec)
+	s.False(rdr.Next())
+}
+
+func (s *FlightSqliteServerSuite) TestCommandStatementUpdate() {
+	ctx := context.Background()
+	result, err := s.cl.ExecuteUpdate(ctx, `INSERT INTO intTable (keyName, value) VALUES 
+							('KEYNAME1', 1001), ('KEYNAME2', 1002), ('KEYNAME3', 1003)`)
+	s.NoError(err)
+	s.EqualValues(3, result)
+
+	result, err = s.cl.ExecuteUpdate(ctx, `UPDATE intTable SET keyName = 'KEYNAME1'
+										  WHERE keyName = 'KEYNAME2' OR keyName = 'KEYNAME3'`)
+	s.NoError(err)
+	s.EqualValues(2, result)
+
+	result, err = s.cl.ExecuteUpdate(ctx, `DELETE FROM intTable WHERE keyName = 'KEYNAME1'`)
+	s.NoError(err)
+	s.EqualValues(3, result)
+}
+
+func (s *FlightSqliteServerSuite) TestCommandPreparedStatementQuery() {
+	ctx := context.Background()
+	prep, err := s.cl.Prepare(ctx, s.mem, "SELECT * FROM intTable")
+	s.NoError(err)
+	defer prep.Close(ctx)
+
+	info, err := prep.Execute(ctx)
+	s.NoError(err)
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+
+	expectedSchema := arrow.NewSchema([]arrow.Field{
+		{Name: "id", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
+		{Name: "keyName", Type: arrow.BinaryTypes.String, Metadata: s.getColMetadata(sqlite3.SQLITE_TEXT, ""), Nullable: true},
+		{Name: "value", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
+		{Name: "foreignId", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true}}, nil)
+
+	idArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 2, 3, 4]`)
+	defer idArr.Release()
+	keyNameArr := s.fromJSON(arrow.BinaryTypes.String, `["one", "zero", "negative one", null]`)
+	defer keyNameArr.Release()
+	valueArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 0, -1, null]`)
+	defer valueArr.Release()
+	foreignIdArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 1, 1, null]`)
+	defer foreignIdArr.Release()
+
+	expected := array.NewRecord(expectedSchema, []arrow.Array{idArr, keyNameArr, valueArr, foreignIdArr}, 4)
+	defer expected.Release()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
+	s.False(rdr.Next())
+}
+
+func (s *FlightSqliteServerSuite) TestCommandPreparedStatementQueryWithParams() {
+	ctx := context.Background()
+	stmt, err := s.cl.Prepare(ctx, s.mem, "SELECT * FROM intTable WHERE keyName LIKE ?")
+	s.NoError(err)
+	defer stmt.Close(ctx)
+
+	typeIDs := s.fromJSON(arrow.PrimitiveTypes.Int8, "[0]")
+	offsets := s.fromJSON(arrow.PrimitiveTypes.Int32, "[0]")
+	strArray := s.fromJSON(arrow.BinaryTypes.String, `["%one"]`)
+	bytesArr := s.fromJSON(arrow.BinaryTypes.Binary, "[]")
+	bigintArr := s.fromJSON(arrow.PrimitiveTypes.Int64, "[]")
+	dblArr := s.fromJSON(arrow.PrimitiveTypes.Float64, "[]")
+	paramArr, _ := array.NewDenseUnionFromArraysWithFields(typeIDs,
+		offsets, []arrow.Array{strArray, bytesArr, bigintArr, dblArr},
+		[]string{"string", "bytes", "bigint", "double"})
+	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{
+		{Name: "parameter_1", Type: paramArr.DataType()}}, nil),
+		[]arrow.Array{paramArr}, 1)
+	defer func() {
+		typeIDs.Release()
+		offsets.Release()
+		strArray.Release()
+		bytesArr.Release()
+		bigintArr.Release()
+		dblArr.Release()
+		paramArr.Release()
+		batch.Release()
+	}()
+
+	stmt.SetParameters(batch)
+	info, err := stmt.Execute(ctx)
+	s.NoError(err)
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+
+	expectedSchema := arrow.NewSchema([]arrow.Field{
+		{Name: "id", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
+		{Name: "keyName", Type: arrow.BinaryTypes.String, Metadata: s.getColMetadata(sqlite3.SQLITE_TEXT, ""), Nullable: true},
+		{Name: "value", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true},
+		{Name: "foreignId", Type: arrow.PrimitiveTypes.Int64, Metadata: s.getColMetadata(sqlite3.SQLITE_INTEGER, ""), Nullable: true}}, nil)
+
+	idArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 3]`)
+	defer idArr.Release()
+	keyNameArr := s.fromJSON(arrow.BinaryTypes.String, `["one", "negative one"]`)
+	defer keyNameArr.Release()
+	valueArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, -1]`)
+	defer valueArr.Release()
+	foreignIdArr := s.fromJSON(arrow.PrimitiveTypes.Int64, `[1, 1]`)
+	defer foreignIdArr.Release()
+
+	expected := array.NewRecord(expectedSchema, []arrow.Array{idArr, keyNameArr, valueArr, foreignIdArr}, 2)
+	defer expected.Release()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
+	s.False(rdr.Next())
+}
+
+func (s *FlightSqliteServerSuite) TestCommandPreparedStatementUpdateWithParams() {
+	ctx := context.Background()
+	stmt, err := s.cl.Prepare(ctx, s.mem, "INSERT INTO intTable (keyName, value) VALUES ('new_value', ?)")
+	s.NoError(err)
+	defer stmt.Close(ctx)
+
+	typeIDs := s.fromJSON(arrow.PrimitiveTypes.Int8, "[2]")
+	offsets := s.fromJSON(arrow.PrimitiveTypes.Int32, "[0]")
+	strArray := s.fromJSON(arrow.BinaryTypes.String, "[]")
+	bytesArr := s.fromJSON(arrow.BinaryTypes.Binary, "[]")
+	bigintArr := s.fromJSON(arrow.PrimitiveTypes.Int64, "[999]")
+	dblArr := s.fromJSON(arrow.PrimitiveTypes.Float64, "[]")
+	paramArr, err := array.NewDenseUnionFromArraysWithFields(typeIDs,
+		offsets, []arrow.Array{strArray, bytesArr, bigintArr, dblArr},
+		[]string{"string", "bytes", "bigint", "double"})
+	s.NoError(err)
+	batch := array.NewRecord(arrow.NewSchema([]arrow.Field{
+		{Name: "parameter_1", Type: paramArr.DataType()}}, nil),
+		[]arrow.Array{paramArr}, 1)
+	defer func() {
+		typeIDs.Release()
+		offsets.Release()
+		strArray.Release()
+		bytesArr.Release()
+		bigintArr.Release()
+		dblArr.Release()
+		paramArr.Release()
+		batch.Release()
+	}()
+
+	stmt.SetParameters(batch)
+	s.EqualValues(4, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
+	n, err := stmt.ExecuteUpdate(context.Background())
+	s.NoError(err)
+	s.EqualValues(1, n)
+	s.EqualValues(5, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
+	n, err = s.cl.ExecuteUpdate(context.Background(), "DELETE FROM intTable WHERE keyName = 'new_value'")
+	s.NoError(err)
+	s.EqualValues(1, n)
+	s.EqualValues(4, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
+}
+
+func (s *FlightSqliteServerSuite) TestCommandPreparedStatementUpdate() {
+	ctx := context.Background()
+	stmt, err := s.cl.Prepare(ctx, s.mem, "INSERT INTO intTable (keyName, value) VALUES ('new_value', 999)")
+	s.NoError(err)
+	defer stmt.Close(ctx)
+
+	s.EqualValues(4, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
+	result, err := stmt.ExecuteUpdate(ctx)
+	s.NoError(err)
+	s.EqualValues(1, result)
+	s.EqualValues(5, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
+	result, err = s.cl.ExecuteUpdate(ctx, "DELETE FROM intTable WHERE keyName = 'new_value'")
+	s.NoError(err)
+	s.EqualValues(1, result)
+	s.EqualValues(4, s.execCountQuery("SELECT COUNT(*) FROM intTable"))
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetPrimaryKeys() {
+	ctx := context.Background()
+	info, err := s.cl.GetPrimaryKeys(ctx, flightsql.TableRef{Table: "int%"})
+	s.NoError(err)
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	bldr := array.NewRecordBuilder(s.mem, schema_ref.PrimaryKeys)
+	defer bldr.Release()
+	bldr.Field(0).AppendNull()
+	bldr.Field(1).AppendNull()
+	bldr.Field(2).(*array.StringBuilder).Append("intTable")
+	bldr.Field(3).(*array.StringBuilder).Append("id")
+	bldr.Field(4).(*array.Int32Builder).Append(1)
+	bldr.Field(5).AppendNull()
+	expected := bldr.NewRecord()
+	defer expected.Release()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
+	s.False(rdr.Next())
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetImportedKeys() {
+	ctx := context.Background()
+	info, err := s.cl.GetImportedKeys(ctx, flightsql.TableRef{Table: "intTable"})
+	s.NoError(err)
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	bldr := array.NewRecordBuilder(s.mem, schema_ref.ImportedKeys)
+	defer bldr.Release()
+	bldr.Field(0).AppendNull()
+	bldr.Field(1).AppendNull()
+	bldr.Field(2).(*array.StringBuilder).Append("foreignTable")
+	bldr.Field(3).(*array.StringBuilder).Append("id")
+	bldr.Field(4).AppendNull()
+	bldr.Field(5).AppendNull()
+	bldr.Field(6).(*array.StringBuilder).Append("intTable")
+	bldr.Field(7).(*array.StringBuilder).Append("foreignId")
+	bldr.Field(8).(*array.Int32Builder).Append(0)
+	bldr.Field(9).AppendNull()
+	bldr.Field(10).AppendNull()
+	bldr.Field(11).(*array.Uint8Builder).Append(3)
+	bldr.Field(12).(*array.Uint8Builder).Append(3)
+	expected := bldr.NewRecord()
+	defer expected.Release()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
+	s.False(rdr.Next())
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetExportedKeys() {
+	ctx := context.Background()
+	info, err := s.cl.GetExportedKeys(ctx, flightsql.TableRef{Table: "foreignTable"})
+	s.NoError(err)
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	bldr := array.NewRecordBuilder(s.mem, schema_ref.ImportedKeys)
+	defer bldr.Release()
+	bldr.Field(0).AppendNull()
+	bldr.Field(1).AppendNull()
+	bldr.Field(2).(*array.StringBuilder).Append("foreignTable")
+	bldr.Field(3).(*array.StringBuilder).Append("id")
+	bldr.Field(4).AppendNull()
+	bldr.Field(5).AppendNull()
+	bldr.Field(6).(*array.StringBuilder).Append("intTable")
+	bldr.Field(7).(*array.StringBuilder).Append("foreignId")
+	bldr.Field(8).(*array.Int32Builder).Append(0)
+	bldr.Field(9).AppendNull()
+	bldr.Field(10).AppendNull()
+	bldr.Field(11).(*array.Uint8Builder).Append(3)
+	bldr.Field(12).(*array.Uint8Builder).Append(3)
+	expected := bldr.NewRecord()
+	defer expected.Release()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
+	s.False(rdr.Next())
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetCrossRef() {
+	ctx := context.Background()
+	info, err := s.cl.GetCrossReference(ctx,
+		flightsql.TableRef{Table: "foreignTable"},
+		flightsql.TableRef{Table: "intTable"})
+	s.NoError(err)
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	bldr := array.NewRecordBuilder(s.mem, schema_ref.ImportedKeys)
+	defer bldr.Release()
+	bldr.Field(0).AppendNull()
+	bldr.Field(1).AppendNull()
+	bldr.Field(2).(*array.StringBuilder).Append("foreignTable")
+	bldr.Field(3).(*array.StringBuilder).Append("id")
+	bldr.Field(4).AppendNull()
+	bldr.Field(5).AppendNull()
+	bldr.Field(6).(*array.StringBuilder).Append("intTable")
+	bldr.Field(7).(*array.StringBuilder).Append("foreignId")
+	bldr.Field(8).(*array.Int32Builder).Append(0)
+	bldr.Field(9).AppendNull()
+	bldr.Field(10).AppendNull()
+	bldr.Field(11).(*array.Uint8Builder).Append(3)
+	bldr.Field(12).(*array.Uint8Builder).Append(3)
+	expected := bldr.NewRecord()
+	defer expected.Release()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	s.Truef(array.RecordEqual(expected, rec), "expected: %s\ngot: %s", expected, rec)
+	s.False(rdr.Next())
+}
+
+func validateSqlInfo(t *testing.T, expected interface{}, sc scalar.Scalar) bool {
+	switch ex := expected.(type) {
+	case string:
+		return assert.Equal(t, ex, sc.String())
+	case bool:
+		return assert.Equal(t, ex, sc.(*scalar.Boolean).Value)
+	case int64:
+		return assert.Equal(t, ex, sc.(*scalar.Int64).Value)
+	case int32:
+		return assert.Equal(t, ex, sc.(*scalar.Int32).Value)
+	case []string:
+		arr := sc.(*scalar.List).Value.(*array.String)
+		assert.EqualValues(t, len(ex), arr.Len())
+		for i, v := range ex {
+			assert.Equal(t, v, arr.Value(i))
+		}
+	case map[int32][]int32:
+		// map is a list of structs with key and values
+		structArr := sc.(*scalar.Map).Value.(*array.Struct)
+		keys := structArr.Field(0).(*array.Int32)
+		values := structArr.Field(1).(*array.List)
+		// assert that the map has the right size
+		assert.EqualValues(t, len(ex), keys.Len())
+
+		// for each element, match the argument
+		for i := 0; i < keys.Len(); i++ {
+			keyScalar, _ := scalar.GetScalar(keys, i)
+			infoID := keyScalar.(*scalar.Int32).Value
+
+			// assert the key exists
+			list, ok := ex[infoID]
+			assert.True(t, ok)
+
+			// assert the int32list is the right size
+			start, end := values.ValueOffsets(i)
+			assert.EqualValues(t, len(list), end-start)
+
+			// for each element make sure it matches
+			for j, v := range list {
+				listItem, err := scalar.GetScalar(values.ListValues(), int(start)+j)
+				assert.NoError(t, err)
+				assert.Equal(t, v, listItem.(*scalar.Int32).Value)
+			}
+		}
+	}
+	return true
+}
+
+func (s *FlightSqliteServerSuite) TestCommandGetSqlInfo() {
+	expectedResults := example.SqlInfoResultMap()
+	infoIDs := make([]flightsql.SqlInfo, 0, len(expectedResults))
+	for k := range expectedResults {
+		infoIDs = append(infoIDs, flightsql.SqlInfo(k))
+	}
+
+	ctx := context.Background()
+	info, err := s.cl.GetSqlInfo(ctx, infoIDs)
+	s.NoError(err)
+	rdr, err := s.cl.DoGet(ctx, info.Endpoint[0].Ticket)
+	s.NoError(err)
+	defer rdr.Release()
+
+	s.True(rdr.Next())
+	rec := rdr.Record()
+	rec.Retain()
+	defer rec.Release()
+	s.False(rdr.Next())
+
+	s.EqualValues(2, rec.NumCols())
+	s.EqualValues(len(expectedResults), rec.NumRows())
+
+	colName := rec.Column(0).(*array.Uint32)
+	colValue := rec.Column(1)
+	for i := 0; i < int(rec.NumRows()); i++ {
+		expected := expectedResults[colName.Value(i)]
+		sc, err := scalar.GetScalar(colValue, i)
+		s.NoError(err)
+
+		s.True(validateSqlInfo(s.T(), expected, sc.(*scalar.DenseUnion).ChildValue()))
+
+		sc.(*scalar.DenseUnion).Release()
+	}
+}
+
+func TestSqliteServer(t *testing.T) {
+	suite.Run(t, new(FlightSqliteServerSuite))
+}
diff --git a/go/arrow/flight/flightsql/types.go b/go/arrow/flight/flightsql/types.go
new file mode 100644
index 00000000000..5dc2413c42d
--- /dev/null
+++ b/go/arrow/flight/flightsql/types.go
@@ -0,0 +1,745 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package flightsql
+
+import (
+	pb "github.com/apache/arrow/go/v11/arrow/flight/internal/flight"
+	"google.golang.org/protobuf/proto"
+	"google.golang.org/protobuf/types/known/anypb"
+)
+
+// Constants for Action types
+const (
+	CreatePreparedStatementActionType = "CreatePreparedStatement"
+	ClosePreparedStatementActionType  = "ClosePreparedStatement"
+)
+
+func toCrossTableRef(cmd *pb.CommandGetCrossReference) CrossTableRef {
+	return CrossTableRef{
+		PKRef: TableRef{
+			Catalog:  cmd.PkCatalog,
+			DBSchema: cmd.PkDbSchema,
+			Table:    cmd.PkTable,
+		},
+		FKRef: TableRef{
+			Catalog:  cmd.FkCatalog,
+			DBSchema: cmd.FkDbSchema,
+			Table:    cmd.FkTable,
+		},
+	}
+}
+
+func pkToTableRef(cmd *pb.CommandGetPrimaryKeys) TableRef {
+	return TableRef{
+		Catalog:  cmd.Catalog,
+		DBSchema: cmd.DbSchema,
+		Table:    cmd.Table,
+	}
+}
+
+func exkToTableRef(cmd *pb.CommandGetExportedKeys) TableRef {
+	return TableRef{
+		Catalog:  cmd.Catalog,
+		DBSchema: cmd.DbSchema,
+		Table:    cmd.Table,
+	}
+}
+
+func impkToTableRef(cmd *pb.CommandGetImportedKeys) TableRef {
+	return TableRef{
+		Catalog:  cmd.Catalog,
+		DBSchema: cmd.DbSchema,
+		Table:    cmd.Table,
+	}
+}
+
+// CreateStatementQueryTicket is a helper that constructs a properly
+// serialized TicketStatementQuery containing a given opaque binary handle
+// for use with constructing a ticket to return from GetFlightInfoStatement.
+func CreateStatementQueryTicket(handle []byte) ([]byte, error) {
+	query := &pb.TicketStatementQuery{StatementHandle: handle}
+	var ticket anypb.Any
+	ticket.MarshalFrom(query)
+
+	return proto.Marshal(&ticket)
+}
+
+type (
+	// GetDBSchemasOpts contains the options to request Database Schemas:
+	// an optional Catalog and a Schema Name filter pattern.
+	GetDBSchemasOpts pb.CommandGetDbSchemas
+	// GetTablesOpts contains the options for retrieving a list of tables:
+	// optional Catalog, Schema filter pattern, Table name filter pattern,
+	// a filter of table types, and whether or not to include the schema
+	// in the response.
+	GetTablesOpts pb.CommandGetTables
+
+	// SqlInfoResultMap is a mapping of SqlInfo ids to the desired response.
+	// This is part of a Server and used for registering responses to a
+	// SqlInfo request.
+	SqlInfoResultMap map[uint32]interface{}
+
+	// TableRef is a helpful struct for referencing a specific Table
+	// by its catalog, schema, and table name.
+	TableRef struct {
+		// Catalog specifies the catalog this table belongs to.
+		// An empty string refers to tables without a catalog.
+		// If nil, can reference a table in any catalog.
+		Catalog *string
+		// DBSchema specifies the database schema the table belongs to.
+		// An empty string refers to a table which does not belong to
+		// a database schema.
+		// If nil, can reference a table in any database schema.
+		DBSchema *string
+		// Table is the name of the table that is being referenced.
+		Table string
+	}
+
+	// CrossTableRef contains a reference to a Primary Key table
+	// and a Foreign Key table.
+	CrossTableRef struct {
+		PKRef TableRef
+		FKRef TableRef
+	}
+
+	// since we are hiding the Protobuf internals in an internal
+	// package, we need to provide enum values for the SqlInfo enum here
+	SqlInfo uint32
+)
+
+// SqlInfo enum values
+const (
+	// Server Information
+	// Values [0-500): Provide information about the Flight SQL Server itself
+
+	// Retrieves a UTF-8 string with the name of the Flight SQL Server.
+	SqlInfoFlightSqlServerName = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_NAME)
+	// Retrieves a UTF-8 string with the native version of the Flight SQL Server.
+	SqlInfoFlightSqlServerVersion = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_VERSION)
+	// Retrieves a UTF-8 string with the Arrow format version of the Flight SQL Server.
+	SqlInfoFlightSqlServerArrowVersion = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_ARROW_VERSION)
+
+	// Retrieves a boolean value indicating whether the Flight SQL Server is read only.
+	//
+	// Returns:
+	// - false: if read-write
+	// - true: if read only
+	SqlInfoFlightSqlServerReadOnly = SqlInfo(pb.SqlInfo_FLIGHT_SQL_SERVER_READ_ONLY)
+
+	// SQL Syntax Information
+	// Values [500-1000): provide information about the supported SQL Syntax
+
+	// Retrieves a boolean value indicating whether the Flight SQL Server supports CREATE and DROP of catalogs.
+	//
+	// Returns:
+	// - false: if it doesn't support CREATE and DROP of catalogs.
+	// - true: if it supports CREATE and DROP of catalogs.
+	SqlInfoDDLCatalog = SqlInfo(pb.SqlInfo_SQL_DDL_CATALOG)
+
+	// Retrieves a boolean value indicating whether the Flight SQL Server supports CREATE and DROP of schemas.
+	//
+	// Returns:
+	// - false: if it doesn't support CREATE and DROP of schemas.
+	// - true: if it supports CREATE and DROP of schemas.
+	SqlInfoDDLSchema = SqlInfo(pb.SqlInfo_SQL_DDL_SCHEMA)
+
+	// Indicates whether the Flight SQL Server supports CREATE and DROP of tables.
+	//
+	// Returns:
+	// - false: if it doesn't support CREATE and DROP of tables.
+	// - true: if it supports CREATE and DROP of tables.
+	SqlInfoDDLTable = SqlInfo(pb.SqlInfo_SQL_DDL_TABLE)
+
+	// Retrieves a int32 ordinal representing the case sensitivity of catalog, table, schema and table names.
+	//
+	// The possible values are listed in `arrow.flight.protocol.sql.SqlSupportedCaseSensitivity`.
+	SqlInfoIdentifierCase = SqlInfo(pb.SqlInfo_SQL_IDENTIFIER_CASE)
+	// Retrieves a UTF-8 string with the supported character(s) used to surround a delimited identifier.
+	SqlInfoIdentifierQuoteChar = SqlInfo(pb.SqlInfo_SQL_IDENTIFIER_QUOTE_CHAR)
+
+	// Retrieves a int32 describing the case sensitivity of quoted identifiers.
+	//
+	// The possible values are listed in `arrow.flight.protocol.sql.SqlSupportedCaseSensitivity`.
+	SqlInfoQuotedIdentifierCase = SqlInfo(pb.SqlInfo_SQL_QUOTED_IDENTIFIER_CASE)
+
+	// Retrieves a boolean value indicating whether all tables are selectable.
+	//
+	// Returns:
+	// - false: if not all tables are selectable or if none are;
+	// - true: if all tables are selectable.
+	SqlInfoAllTablesAreASelectable = SqlInfo(pb.SqlInfo_SQL_ALL_TABLES_ARE_SELECTABLE)
+
+	// Retrieves the null ordering.
+	//
+	// Returns a int32 ordinal for the null ordering being used, as described in
+	// `arrow.flight.protocol.sql.SqlNullOrdering`.
+	SqlInfoNullOrdering = SqlInfo(pb.SqlInfo_SQL_NULL_ORDERING)
+	// Retrieves a UTF-8 string list with values of the supported keywords.
+	SqlInfoKeywords = SqlInfo(pb.SqlInfo_SQL_KEYWORDS)
+	// Retrieves a UTF-8 string list with values of the supported numeric functions.
+	SqlInfoNumericFunctions = SqlInfo(pb.SqlInfo_SQL_NUMERIC_FUNCTIONS)
+	// Retrieves a UTF-8 string list with values of the supported string functions.
+	SqlInfoStringFunctions = SqlInfo(pb.SqlInfo_SQL_STRING_FUNCTIONS)
+	// Retrieves a UTF-8 string list with values of the supported system functions.
+	SqlInfoSystemFunctions = SqlInfo(pb.SqlInfo_SQL_SYSTEM_FUNCTIONS)
+	// Retrieves a UTF-8 string list with values of the supported datetime functions.
+	SqlInfoDateTimeFunctions = SqlInfo(pb.SqlInfo_SQL_DATETIME_FUNCTIONS)
+
+	// Retrieves the UTF-8 string that can be used to escape wildcard characters.
+	// This is the string that can be used to escape '_' or '%' in the catalog search parameters that are a pattern
+	// (and therefore use one of the wildcard characters).
+	// The '_' character represents any single character; the '%' character represents any sequence of zero or more
+	// characters.
+	SqlInfoSearchStringEscape = SqlInfo(pb.SqlInfo_SQL_SEARCH_STRING_ESCAPE)
+
+	// Retrieves a UTF-8 string with all the "extra" characters that can be used in unquoted identifier names
+	// (those beyond a-z, A-Z, 0-9 and _).
+	SqlInfoExtraNameChars = SqlInfo(pb.SqlInfo_SQL_EXTRA_NAME_CHARACTERS)
+
+	// Retrieves a boolean value indicating whether column aliasing is supported.
+	// If so, the SQL AS clause can be used to provide names for computed columns or to provide alias names for columns
+	// as required.
+	//
+	// Returns:
+	// - false: if column aliasing is unsupported;
+	// - true: if column aliasing is supported.
+	SqlInfoSupportsColumnAliasing = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_COLUMN_ALIASING)
+
+	// Retrieves a boolean value indicating whether concatenations between null and non-null values being
+	// null are supported.
+	//
+	// - Returns:
+	// - false: if concatenations between null and non-null values being null are unsupported;
+	// - true: if concatenations between null and non-null values being null are supported.
+	SqlInfoNullPlusNullIsNull = SqlInfo(pb.SqlInfo_SQL_NULL_PLUS_NULL_IS_NULL)
+
+	// Retrieves a map where the key is the type to convert from and the value is a list with the types to convert to,
+	// indicating the supported conversions. Each key and each item on the list value is a value to a predefined type on
+	// SqlSupportsConvert enum.
+	// The returned map will be:  map<int32, list<int32>>
+	SqlInfoSupportsConvert = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_CONVERT)
+
+	// Retrieves a boolean value indicating whether, when table correlation names are supported,
+	// they are restricted to being different from the names of the tables.
+	//
+	// Returns:
+	// - false: if table correlation names are unsupported;
+	// - true: if table correlation names are supported.
+	SqlInfoSupportsTableCorrelationNames = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_TABLE_CORRELATION_NAMES)
+
+	// Retrieves a boolean value indicating whether, when table correlation names are supported,
+	// they are restricted to being different from the names of the tables.
+	//
+	// Returns:
+	// - false: if different table correlation names are unsupported;
+	// - true: if different table correlation names are supported
+	SqlInfoSupportsDifferentTableCorrelationNames = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES)
+
+	// Retrieves a boolean value indicating whether expressions in ORDER BY lists are supported.
+	//
+	// Returns:
+	// - false: if expressions in ORDER BY are unsupported;
+	// - true: if expressions in ORDER BY are supported;
+	SqlInfoSupportsExpressionsInOrderBy = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_EXPRESSIONS_IN_ORDER_BY)
+
+	// Retrieves a boolean value indicating whether using a column that is not in the SELECT statement in a GROUP BY
+	// clause is supported.
+	//
+	// Returns:
+	// - false: if using a column that is not in the SELECT statement in a GROUP BY clause is unsupported;
+	// - true: if using a column that is not in the SELECT statement in a GROUP BY clause is supported.
+	SqlInfoSupportsOrderByUnrelated = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_ORDER_BY_UNRELATED)
+
+	// Retrieves the supported GROUP BY commands;
+	//
+	// Returns an int32 bitmask value representing the supported commands.
+	// The returned bitmask should be parsed in order to retrieve the supported commands.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (GROUP BY is unsupported);
+	// - return 1 (\b1)   => [SQL_GROUP_BY_UNRELATED];
+	// - return 2 (\b10)  => [SQL_GROUP_BY_BEYOND_SELECT];
+	// - return 3 (\b11)  => [SQL_GROUP_BY_UNRELATED, SQL_GROUP_BY_BEYOND_SELECT].
+	// Valid GROUP BY types are described under `arrow.flight.protocol.sql.SqlSupportedGroupBy`.
+	SqlInfoSupportedGroupBy = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_GROUP_BY)
+
+	// Retrieves a boolean value indicating whether specifying a LIKE escape clause is supported.
+	//
+	// Returns:
+	// - false: if specifying a LIKE escape clause is unsupported;
+	// - true: if specifying a LIKE escape clause is supported.
+	SqlInfoSupportsLikeEscapeClause = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_LIKE_ESCAPE_CLAUSE)
+
+	// Retrieves a boolean value indicating whether columns may be defined as non-nullable.
+	//
+	// Returns:
+	// - false: if columns cannot be defined as non-nullable;
+	// - true: if columns may be defined as non-nullable.
+	SqlInfoSupportsNonNullableColumns = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_NON_NULLABLE_COLUMNS)
+
+	// Retrieves the supported SQL grammar level as per the ODBC specification.
+	//
+	// Returns an int32 bitmask value representing the supported SQL grammar level.
+	// The returned bitmask should be parsed in order to retrieve the supported grammar levels.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (SQL grammar is unsupported);
+	// - return 1 (\b1)   => [SQL_MINIMUM_GRAMMAR];
+	// - return 2 (\b10)  => [SQL_CORE_GRAMMAR];
+	// - return 3 (\b11)  => [SQL_MINIMUM_GRAMMAR, SQL_CORE_GRAMMAR];
+	// - return 4 (\b100) => [SQL_EXTENDED_GRAMMAR];
+	// - return 5 (\b101) => [SQL_MINIMUM_GRAMMAR, SQL_EXTENDED_GRAMMAR];
+	// - return 6 (\b110) => [SQL_CORE_GRAMMAR, SQL_EXTENDED_GRAMMAR];
+	// - return 7 (\b111) => [SQL_MINIMUM_GRAMMAR, SQL_CORE_GRAMMAR, SQL_EXTENDED_GRAMMAR].
+	// Valid SQL grammar levels are described under `arrow.flight.protocol.sql.SupportedSqlGrammar`.
+	SqlInfoSupportedGrammar = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_GRAMMAR)
+
+	// Retrieves the supported ANSI92 SQL grammar level.
+	//
+	// Returns an int32 bitmask value representing the supported ANSI92 SQL grammar level.
+	// The returned bitmask should be parsed in order to retrieve the supported commands.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (ANSI92 SQL grammar is unsupported);
+	// - return 1 (\b1)   => [ANSI92_ENTRY_SQL];
+	// - return 2 (\b10)  => [ANSI92_INTERMEDIATE_SQL];
+	// - return 3 (\b11)  => [ANSI92_ENTRY_SQL, ANSI92_INTERMEDIATE_SQL];
+	// - return 4 (\b100) => [ANSI92_FULL_SQL];
+	// - return 5 (\b101) => [ANSI92_ENTRY_SQL, ANSI92_FULL_SQL];
+	// - return 6 (\b110) => [ANSI92_INTERMEDIATE_SQL, ANSI92_FULL_SQL];
+	// - return 7 (\b111) => [ANSI92_ENTRY_SQL, ANSI92_INTERMEDIATE_SQL, ANSI92_FULL_SQL].
+	// Valid ANSI92 SQL grammar levels are described under `arrow.flight.protocol.sql.SupportedAnsi92SqlGrammarLevel`.
+	SqlInfoANSI92SupportedLevel = SqlInfo(pb.SqlInfo_SQL_ANSI92_SUPPORTED_LEVEL)
+
+	// Retrieves a boolean value indicating whether the SQL Integrity Enhancement Facility is supported.
+	//
+	// Returns:
+	// - false: if the SQL Integrity Enhancement Facility is supported;
+	// - true: if the SQL Integrity Enhancement Facility is supported.
+	SqlInfoSupportsIntegrityEnhancementFacility = SqlInfo(pb.SqlInfo_SQL_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY)
+
+	// Retrieves the support level for SQL OUTER JOINs.
+	//
+	// Returns a int32 ordinal for the SQL ordering being used, as described in
+	// `arrow.flight.protocol.sql.SqlOuterJoinsSupportLevel`.
+	SqlInfoOuterJoinsSupportLevel = SqlInfo(pb.SqlInfo_SQL_OUTER_JOINS_SUPPORT_LEVEL)
+
+	// Retrieves a UTF-8 string with the preferred term for "schema".
+	SqlInfoSchemaTerm = SqlInfo(pb.SqlInfo_SQL_SCHEMA_TERM)
+	// Retrieves a UTF-8 string with the preferred term for "procedure".
+	SqlInfoProcedureTerm = SqlInfo(pb.SqlInfo_SQL_PROCEDURE_TERM)
+
+	// Retrieves a UTF-8 string with the preferred term for "catalog".
+	// If a empty string is returned its assumed that the server does NOT supports catalogs.
+	SqlInfoCatalogTerm = SqlInfo(pb.SqlInfo_SQL_CATALOG_TERM)
+
+	// Retrieves a boolean value indicating whether a catalog appears at the start of a fully qualified table name.
+	//
+	// - false: if a catalog does not appear at the start of a fully qualified table name;
+	// - true: if a catalog appears at the start of a fully qualified table name.
+	SqlInfoCatalogAtStart = SqlInfo(pb.SqlInfo_SQL_CATALOG_AT_START)
+
+	// Retrieves the supported actions for a SQL schema.
+	//
+	// Returns an int32 bitmask value representing the supported actions for a SQL schema.
+	// The returned bitmask should be parsed in order to retrieve the supported actions for a SQL schema.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported actions for SQL schema);
+	// - return 1 (\b1)   => [SQL_ELEMENT_IN_PROCEDURE_CALLS];
+	// - return 2 (\b10)  => [SQL_ELEMENT_IN_INDEX_DEFINITIONS];
+	// - return 3 (\b11)  => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS];
+	// - return 4 (\b100) => [SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
+	// - return 5 (\b101) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
+	// - return 6 (\b110) => [SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
+	// - return 7 (\b111) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS].
+	// Valid actions for a SQL schema described under `arrow.flight.protocol.sql.SqlSupportedElementActions`.
+	SqlInfoSchemasSupportedActions = SqlInfo(pb.SqlInfo_SQL_SCHEMAS_SUPPORTED_ACTIONS)
+
+	// Retrieves the supported actions for a SQL schema.
+	//
+	// Returns an int32 bitmask value representing the supported actions for a SQL catalog.
+	// The returned bitmask should be parsed in order to retrieve the supported actions for a SQL catalog.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported actions for SQL catalog);
+	// - return 1 (\b1)   => [SQL_ELEMENT_IN_PROCEDURE_CALLS];
+	// - return 2 (\b10)  => [SQL_ELEMENT_IN_INDEX_DEFINITIONS];
+	// - return 3 (\b11)  => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS];
+	// - return 4 (\b100) => [SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
+	// - return 5 (\b101) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
+	// - return 6 (\b110) => [SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
+	// - return 7 (\b111) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS].
+	// Valid actions for a SQL catalog are described under `arrow.flight.protocol.sql.SqlSupportedElementActions`.
+	SqlInfoCatalogsSupportedActions = SqlInfo(pb.SqlInfo_SQL_CATALOGS_SUPPORTED_ACTIONS)
+
+	// Retrieves the supported SQL positioned commands.
+	//
+	// Returns an int32 bitmask value representing the supported SQL positioned commands.
+	// The returned bitmask should be parsed in order to retrieve the supported SQL positioned commands.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported SQL positioned commands);
+	// - return 1 (\b1)   => [SQL_POSITIONED_DELETE];
+	// - return 2 (\b10)  => [SQL_POSITIONED_UPDATE];
+	// - return 3 (\b11)  => [SQL_POSITIONED_DELETE, SQL_POSITIONED_UPDATE].
+	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlSupportedPositionedCommands`.
+	SqlInfoSupportedPositionedCommands = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_POSITIONED_COMMANDS)
+
+	// Retrieves a boolean value indicating whether SELECT FOR UPDATE statements are supported.
+	//
+	// Returns:
+	// - false: if SELECT FOR UPDATE statements are unsupported;
+	// - true: if SELECT FOR UPDATE statements are supported.
+	SqlInfoSelectForUpdateSupported = SqlInfo(pb.SqlInfo_SQL_SELECT_FOR_UPDATE_SUPPORTED)
+
+	// Retrieves a boolean value indicating whether stored procedure calls that use the stored procedure escape syntax
+	// are supported.
+	//
+	// Returns:
+	// - false: if stored procedure calls that use the stored procedure escape syntax are unsupported;
+	// - true: if stored procedure calls that use the stored procedure escape syntax are supported.
+	SqlInfoStoredProceduresSupported = SqlInfo(pb.SqlInfo_SQL_STORED_PROCEDURES_SUPPORTED)
+
+	// Retrieves the supported SQL subqueries.
+	//
+	// Returns an int32 bitmask value representing the supported SQL subqueries.
+	// The returned bitmask should be parsed in order to retrieve the supported SQL subqueries.
+	//
+	// For instance:
+	// - return 0   (\b0)     => [] (no supported SQL subqueries);
+	// - return 1   (\b1)     => [SQL_SUBQUERIES_IN_COMPARISONS];
+	// - return 2   (\b10)    => [SQL_SUBQUERIES_IN_EXISTS];
+	// - return 3   (\b11)    => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS];
+	// - return 4   (\b100)   => [SQL_SUBQUERIES_IN_INS];
+	// - return 5   (\b101)   => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_INS];
+	// - return 6   (\b110)   => [SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_EXISTS];
+	// - return 7   (\b111)   => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS];
+	// - return 8   (\b1000)  => [SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 9   (\b1001)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 10  (\b1010)  => [SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 11  (\b1011)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 12  (\b1100)  => [SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 13  (\b1101)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 14  (\b1110)  => [SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 15  (\b1111)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - ...
+	// Valid SQL subqueries are described under `arrow.flight.protocol.sql.SqlSupportedSubqueries`.
+	SqlInfoSupportedSubqueries = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_SUBQUERIES)
+
+	// Retrieves a boolean value indicating whether correlated subqueries are supported.
+	//
+	// Returns:
+	// - false: if correlated subqueries are unsupported;
+	// - true: if correlated subqueries are supported.
+	SqlInfoCorrelatedSubqueriesSupported = SqlInfo(pb.SqlInfo_SQL_CORRELATED_SUBQUERIES_SUPPORTED)
+
+	// Retrieves the supported SQL UNIONs.
+	//
+	// Returns an int32 bitmask value representing the supported SQL UNIONs.
+	// The returned bitmask should be parsed in order to retrieve the supported SQL UNIONs.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported SQL positioned commands);
+	// - return 1 (\b1)   => [SQL_UNION];
+	// - return 2 (\b10)  => [SQL_UNION_ALL];
+	// - return 3 (\b11)  => [SQL_UNION, SQL_UNION_ALL].
+	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlSupportedUnions`.
+	SqlInfoSupportedUnions = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_UNIONS)
+
+	// Retrieves a int64 value representing the maximum number of hex characters allowed in an inline binary literal.
+	SqlInfoMaxBinaryLiteralLen = SqlInfo(pb.SqlInfo_SQL_MAX_BINARY_LITERAL_LENGTH)
+	// Retrieves a int64 value representing the maximum number of characters allowed for a character literal.
+	SqlInfoMaxCharLiteralLen = SqlInfo(pb.SqlInfo_SQL_MAX_CHAR_LITERAL_LENGTH)
+	// Retrieves a int64 value representing the maximum number of characters allowed for a column name.
+	SqlInfoMaxColumnNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMN_NAME_LENGTH)
+	// Retrieves a int64 value representing the the maximum number of columns allowed in a GROUP BY clause.
+	SqlInfoMaxColumnsInGroupBy = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_GROUP_BY)
+	// Retrieves a int64 value representing the maximum number of columns allowed in an index.
+	SqlInfoMaxColumnsInIndex = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_INDEX)
+	// Retrieves a int64 value representing the maximum number of columns allowed in an ORDER BY clause.
+	SqlInfoMaxColumnsInOrderBy = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_ORDER_BY)
+	// Retrieves a int64 value representing the maximum number of columns allowed in a SELECT list.
+	SqlInfoMaxColumnsInSelect = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_SELECT)
+	// Retrieves a int64 value representing the maximum number of columns allowed in a table.
+	SqlInfoMaxColumnsInTable = SqlInfo(pb.SqlInfo_SQL_MAX_COLUMNS_IN_TABLE)
+	// Retrieves a int64 value representing the maximum number of concurrent connections possible.
+	SqlInfoMaxConnections = SqlInfo(pb.SqlInfo_SQL_MAX_CONNECTIONS)
+	// Retrieves a int64 value the maximum number of characters allowed in a cursor name.
+	SqlInfoMaxCursorNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_CURSOR_NAME_LENGTH)
+
+	// Retrieves a int64 value representing the maximum number of bytes allowed for an index,
+	// including all of the parts of the index.
+	SqlInfoMaxIndexLen = SqlInfo(pb.SqlInfo_SQL_MAX_INDEX_LENGTH)
+	// Retrieves a int64 value representing the maximum number of characters allowed in a schema name.
+	SqlInfoDBSchemaNameLen = SqlInfo(pb.SqlInfo_SQL_DB_SCHEMA_NAME_LENGTH)
+	// Retrieves a int64 value representing the maximum number of characters allowed in a procedure name.
+	SqlInfoMaxProcedureNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_PROCEDURE_NAME_LENGTH)
+	// Retrieves a int64 value representing the maximum number of characters allowed in a catalog name.
+	SqlInfoMaxCatalogNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_CATALOG_NAME_LENGTH)
+	// Retrieves a int64 value representing the maximum number of bytes allowed in a single row.
+	SqlInfoMaxRowSize = SqlInfo(pb.SqlInfo_SQL_MAX_ROW_SIZE)
+
+	// Retrieves a boolean indicating whether the return value for the JDBC method getMaxRowSize includes the SQL
+	// data types LONGVARCHAR and LONGVARBINARY.
+	//
+	// Returns:
+	// - false: if return value for the JDBC method getMaxRowSize does
+	//          not include the SQL data types LONGVARCHAR and LONGVARBINARY;
+	// - true: if return value for the JDBC method getMaxRowSize includes
+	//         the SQL data types LONGVARCHAR and LONGVARBINARY.
+	SqlInfoMaxRowSizeIncludesBlobs = SqlInfo(pb.SqlInfo_SQL_MAX_ROW_SIZE_INCLUDES_BLOBS)
+
+	// Retrieves a int64 value representing the maximum number of characters allowed for an SQL statement;
+	// a result of 0 (zero) means that there is no limit or the limit is not known.
+	SqlInfoMaxStatementLen = SqlInfo(pb.SqlInfo_SQL_MAX_STATEMENT_LENGTH)
+	// Retrieves a int64 value representing the maximum number of active statements that can be open at the same time.
+	SqlInfoMaxStatements = SqlInfo(pb.SqlInfo_SQL_MAX_STATEMENTS)
+	// Retrieves a int64 value representing the maximum number of characters allowed in a table name.
+	SqlInfoMaxTableNameLen = SqlInfo(pb.SqlInfo_SQL_MAX_TABLE_NAME_LENGTH)
+	// Retrieves a int64 value representing the maximum number of tables allowed in a SELECT statement.
+	SqlInfoMaxTablesInSelect = SqlInfo(pb.SqlInfo_SQL_MAX_TABLES_IN_SELECT)
+	// Retrieves a int64 value representing the maximum number of characters allowed in a user name.
+	SqlInfoMaxUsernameLen = SqlInfo(pb.SqlInfo_SQL_MAX_USERNAME_LENGTH)
+
+	// Retrieves this database's default transaction isolation level as described in
+	// `arrow.flight.protocol.sql.SqlTransactionIsolationLevel`.
+	//
+	// Returns a int32 ordinal for the SQL transaction isolation level.
+	SqlInfoDefaultTransactionIsolation = SqlInfo(pb.SqlInfo_SQL_DEFAULT_TRANSACTION_ISOLATION)
+
+	// Retrieves a boolean value indicating whether transactions are supported. If not, invoking the method commit is a
+	// noop, and the isolation level is `arrow.flight.protocol.sql.SqlTransactionIsolationLevel.TRANSACTION_NONE`.
+	//
+	// Returns:
+	// - false: if transactions are unsupported;
+	// - true: if transactions are supported.
+	SqlInfoTransactionsSupported = SqlInfo(pb.SqlInfo_SQL_TRANSACTIONS_SUPPORTED)
+
+	// Retrieves the supported transactions isolation levels.
+	//
+	// Returns an int32 bitmask value representing the supported transactions isolation levels.
+	// The returned bitmask should be parsed in order to retrieve the supported transactions isolation levels.
+	//
+	// For instance:
+	// - return 0   (\b0)     => [] (no supported SQL transactions isolation levels);
+	// - return 1   (\b1)     => [SQL_TRANSACTION_NONE];
+	// - return 2   (\b10)    => [SQL_TRANSACTION_READ_UNCOMMITTED];
+	// - return 3   (\b11)    => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED];
+	// - return 4   (\b100)   => [SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 5   (\b101)   => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 6   (\b110)   => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 7   (\b111)   => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 8   (\b1000)  => [SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 9   (\b1001)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 10  (\b1010)  => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 11  (\b1011)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 12  (\b1100)  => [SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 13  (\b1101)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 14  (\b1110)  => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 15  (\b1111)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 16  (\b10000) => [SQL_TRANSACTION_SERIALIZABLE];
+	// - ...
+	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlTransactionIsolationLevel`.
+	SqlInfoSupportedTransactionsIsolationlevels = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_TRANSACTIONS_ISOLATION_LEVELS)
+
+	// Retrieves a boolean value indicating whether a data definition statement within a transaction forces
+	// the transaction to commit.
+	//
+	// Returns:
+	// - false: if a data definition statement within a transaction does not force the transaction to commit;
+	// - true: if a data definition statement within a transaction forces the transaction to commit.
+	SqlInfoDataDefinitionCausesTransactionCommit = SqlInfo(pb.SqlInfo_SQL_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT)
+
+	// Retrieves a boolean value indicating whether a data definition statement within a transaction is ignored.
+	//
+	// Returns:
+	// - false: if a data definition statement within a transaction is taken into account;
+	// - true: a data definition statement within a transaction is ignored.
+	SqlInfoDataDefinitionsInTransactionsIgnored = SqlInfo(pb.SqlInfo_SQL_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED)
+
+	// Retrieves an int32 bitmask value representing the supported result set types.
+	// The returned bitmask should be parsed in order to retrieve the supported result set types.
+	//
+	// For instance:
+	// - return 0   (\b0)     => [] (no supported result set types);
+	// - return 1   (\b1)     => [SQL_RESULT_SET_TYPE_UNSPECIFIED];
+	// - return 2   (\b10)    => [SQL_RESULT_SET_TYPE_FORWARD_ONLY];
+	// - return 3   (\b11)    => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_FORWARD_ONLY];
+	// - return 4   (\b100)   => [SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
+	// - return 5   (\b101)   => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
+	// - return 6   (\b110)   => [SQL_RESULT_SET_TYPE_FORWARD_ONLY, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
+	// - return 7   (\b111)   => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_FORWARD_ONLY, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
+	// - return 8   (\b1000)  => [SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE];
+	// - ...
+	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetType`.
+	SqlInfoSupportedResultSetTypes = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_RESULT_SET_TYPES)
+
+	// Returns an int32 bitmask value concurrency types supported for
+	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_UNSPECIFIED`.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
+	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
+	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
+	SqlInfoSupportedConcurrenciesForResultSetUnspecified = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_UNSPECIFIED)
+
+	// Returns an int32 bitmask value concurrency types supported for
+	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_FORWARD_ONLY`.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
+	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
+	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
+	SqlInfoSupportedConcurrenciesForResultSetForwardOnly = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_FORWARD_ONLY)
+
+	// Returns an int32 bitmask value concurrency types supported for
+	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE`.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
+	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
+	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
+	SqlInfoSupportedConcurrenciesForResultSetScrollSensitive = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_SENSITIVE)
+
+	// Returns an int32 bitmask value concurrency types supported for
+	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE`.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
+	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
+	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
+	SqlInfoSupportedConcurrenciesForResultSetScrollInensitive = SqlInfo(pb.SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_INSENSITIVE)
+
+	// Retrieves a boolean value indicating whether this database supports batch updates.
+	//
+	// - false: if this database does not support batch updates;
+	// - true: if this database supports batch updates.
+	SqlInfoBatchUpdatesSupported = SqlInfo(pb.SqlInfo_SQL_BATCH_UPDATES_SUPPORTED)
+
+	// Retrieves a boolean value indicating whether this database supports savepoints.
+	//
+	// Returns:
+	// - false: if this database does not support savepoints;
+	// - true: if this database supports savepoints.
+	SqlInfoSavePointsSupported = SqlInfo(pb.SqlInfo_SQL_SAVEPOINTS_SUPPORTED)
+
+	// Retrieves a boolean value indicating whether named parameters are supported in callable statements.
+	//
+	// Returns:
+	// - false: if named parameters in callable statements are unsupported;
+	// - true: if named parameters in callable statements are supported.
+	SqlInfoNamedParametersSupported = SqlInfo(pb.SqlInfo_SQL_NAMED_PARAMETERS_SUPPORTED)
+
+	// Retrieves a boolean value indicating whether updates made to a LOB are made on a copy or directly to the LOB.
+	//
+	// Returns:
+	// - false: if updates made to a LOB are made directly to the LOB;
+	// - true: if updates made to a LOB are made on a copy.
+	SqlInfoLocatorsUpdateCopy = SqlInfo(pb.SqlInfo_SQL_LOCATORS_UPDATE_COPY)
+
+	// Retrieves a boolean value indicating whether invoking user-defined or vendor functions
+	// using the stored procedure escape syntax is supported.
+	//
+	// Returns:
+	// - false: if invoking user-defined or vendor functions using the stored procedure escape syntax is unsupported;
+	// - true: if invoking user-defined or vendor functions using the stored procedure escape syntax is supported.
+	SqlInfoStoredFunctionsUsingCallSyntaxSupported = SqlInfo(pb.SqlInfo_SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED)
+)
+
+func (s SqlInfo) String() string { return pb.SqlInfo(int32(s)).String() }
+
+// SqlSupportedCaseSensitivity indicates whether something
+// (e.g. an identifier) is case-sensitive
+//
+// duplicated from protobuf to avoid relying directly on the protobuf
+// generated code, also making them shorter and easier to use
+type SqlSupportedCaseSensitivity = pb.SqlSupportedCaseSensitivity
+
+const (
+	SqlCaseSensitivityUnknown         = pb.SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_UNKNOWN
+	SqlCaseSensitivityCaseInsensitive = pb.SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_CASE_INSENSITIVE
+	SqlCaseSensitivityUpperCase       = pb.SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_UPPERCASE
+	SqlCaseSensitivityLowerCase       = pb.SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_LOWERCASE
+)
+
+// SqlNullOrdering indicates how nulls are sorted
+//
+// duplicated from protobuf to avoid relying directly on the protobuf
+// generated code, also making them shorter and easier to use
+type SqlNullOrdering = pb.SqlNullOrdering
+
+const (
+	SqlNullOrderingSortHigh    = pb.SqlNullOrdering_SQL_NULLS_SORTED_HIGH
+	SqlNullOrderingSortLow     = pb.SqlNullOrdering_SQL_NULLS_SORTED_LOW
+	SqlNullOrderingSortAtStart = pb.SqlNullOrdering_SQL_NULLS_SORTED_AT_START
+	SqlNullOrderingSortAtEnd   = pb.SqlNullOrdering_SQL_NULLS_SORTED_AT_END
+)
+
+// SqlSupportsConvert indicates support for converting between different
+// types.
+//
+// duplicated from protobuf to avoid relying directly on the protobuf
+// generated code, also making them shorter and easier to use
+type SqlSupportsConvert = pb.SqlSupportsConvert
+
+const (
+	SqlConvertBigInt            = pb.SqlSupportsConvert_SQL_CONVERT_BIGINT
+	SqlConvertBinary            = pb.SqlSupportsConvert_SQL_CONVERT_BINARY
+	SqlConvertBit               = pb.SqlSupportsConvert_SQL_CONVERT_BIT
+	SqlConvertChar              = pb.SqlSupportsConvert_SQL_CONVERT_CHAR
+	SqlConvertDate              = pb.SqlSupportsConvert_SQL_CONVERT_DATE
+	SqlConvertDecimal           = pb.SqlSupportsConvert_SQL_CONVERT_DECIMAL
+	SqlConvertFloat             = pb.SqlSupportsConvert_SQL_CONVERT_FLOAT
+	SqlConvertInteger           = pb.SqlSupportsConvert_SQL_CONVERT_INTEGER
+	SqlConvertIntervalDayTime   = pb.SqlSupportsConvert_SQL_CONVERT_INTERVAL_DAY_TIME
+	SqlConvertIntervalYearMonth = pb.SqlSupportsConvert_SQL_CONVERT_INTERVAL_YEAR_MONTH
+	SqlConvertLongVarbinary     = pb.SqlSupportsConvert_SQL_CONVERT_LONGVARBINARY
+	SqlConvertLongVarchar       = pb.SqlSupportsConvert_SQL_CONVERT_LONGVARCHAR
+	SqlConvertNumeric           = pb.SqlSupportsConvert_SQL_CONVERT_NUMERIC
+	SqlConvertReal              = pb.SqlSupportsConvert_SQL_CONVERT_REAL
+	SqlConvertSmallInt          = pb.SqlSupportsConvert_SQL_CONVERT_SMALLINT
+	SqlConvertTime              = pb.SqlSupportsConvert_SQL_CONVERT_TIME
+	SqlConvertTimestamp         = pb.SqlSupportsConvert_SQL_CONVERT_TIMESTAMP
+	SqlConvertTinyInt           = pb.SqlSupportsConvert_SQL_CONVERT_TINYINT
+	SqlConvertVarbinary         = pb.SqlSupportsConvert_SQL_CONVERT_VARBINARY
+	SqlConvertVarchar           = pb.SqlSupportsConvert_SQL_CONVERT_VARCHAR
+)
diff --git a/go/arrow/flight/gen.go b/go/arrow/flight/gen.go
index be55119c7fd..4109059af8e 100644
--- a/go/arrow/flight/gen.go
+++ b/go/arrow/flight/gen.go
@@ -17,3 +17,4 @@
 package flight
 
 //go:generate protoc -I../../../format --go_out=./internal/flight --go-grpc_out=./internal/flight --go_opt=paths=source_relative --go-grpc_opt=paths=source_relative Flight.proto
+//go:generate protoc --experimental_allow_proto3_optional -I../../../format --go_out=./internal/flight --go-grpc_out=./internal/flight --go_opt=paths=source_relative --go-grpc_opt=paths=source_relative FlightSql.proto
diff --git a/go/arrow/flight/internal/flight/Flight.pb.go b/go/arrow/flight/internal/flight/Flight.pb.go
index 18ba75bb66e..b7be492acd4 100644
--- a/go/arrow/flight/internal/flight/Flight.pb.go
+++ b/go/arrow/flight/internal/flight/Flight.pb.go
@@ -17,7 +17,7 @@
 
 // Code generated by protoc-gen-go. DO NOT EDIT.
 // versions:
-// 	protoc-gen-go v1.27.1
+// 	protoc-gen-go v1.28.1
 // 	protoc        v3.12.4
 // source: Flight.proto
 
@@ -666,8 +666,15 @@ type FlightInfo struct {
 	// The descriptor associated with this info.
 	FlightDescriptor *FlightDescriptor `protobuf:"bytes,2,opt,name=flight_descriptor,json=flightDescriptor,proto3" json:"flight_descriptor,omitempty"`
 	//
-	// A list of endpoints associated with the flight. To consume the whole
-	// flight, all endpoints must be consumed.
+	// A list of endpoints associated with the flight. To consume the
+	// whole flight, all endpoints (and hence all Tickets) must be
+	// consumed. Endpoints can be consumed in any order.
+	//
+	// In other words, an application can use multiple endpoints to
+	// represent partitioned data.
+	//
+	// There is no ordering defined on endpoints. Hence, if the returned
+	// data has an ordering, it should be returned in a single endpoint.
 	Endpoint []*FlightEndpoint `protobuf:"bytes,3,rep,name=endpoint,proto3" json:"endpoint,omitempty"`
 	// Set these to -1 if unknown.
 	TotalRecords int64 `protobuf:"varint,4,opt,name=total_records,json=totalRecords,proto3" json:"total_records,omitempty"`
@@ -752,9 +759,20 @@ type FlightEndpoint struct {
 	// Token used to retrieve this stream.
 	Ticket *Ticket `protobuf:"bytes,1,opt,name=ticket,proto3" json:"ticket,omitempty"`
 	//
-	// A list of URIs where this ticket can be redeemed. If the list is
-	// empty, the expectation is that the ticket can only be redeemed on the
-	// current service where the ticket was generated.
+	// A list of URIs where this ticket can be redeemed via DoGet().
+	//
+	// If the list is empty, the expectation is that the ticket can only
+	// be redeemed on the current service where the ticket was
+	// generated.
+	//
+	// If the list is not empty, the expectation is that the ticket can
+	// be redeemed at any of the locations, and that the data returned
+	// will be equivalent. In this case, the ticket may only be redeemed
+	// at one of the given locations, and not (necessarily) on the
+	// current service.
+	//
+	// In other words, an application can use multiple locations to
+	// represent redundant and/or load balanced services.
 	Location []*Location `protobuf:"bytes,2,rep,name=location,proto3" json:"location,omitempty"`
 }
 
@@ -857,6 +875,9 @@ func (x *Location) GetUri() string {
 //
 // An opaque identifier that the service can use to retrieve a particular
 // portion of a stream.
+//
+// Tickets are meant to be single use. It is an error/application-defined
+// behavior to reuse a ticket.
 type Ticket struct {
 	state         protoimpl.MessageState
 	sizeCache     protoimpl.SizeCache
@@ -1180,14 +1201,15 @@ var file_Flight_proto_rawDesc = []byte{
 	0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x45, 0x6d, 0x70, 0x74, 0x79, 0x1a, 0x21,
 	0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x70, 0x72,
 	0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x54, 0x79, 0x70,
-	0x65, 0x22, 0x00, 0x30, 0x01, 0x42, 0x67, 0x0a, 0x1c, 0x6f, 0x72, 0x67, 0x2e, 0x61, 0x70, 0x61,
+	0x65, 0x22, 0x00, 0x30, 0x01, 0x42, 0x76, 0x0a, 0x1c, 0x6f, 0x72, 0x67, 0x2e, 0x61, 0x70, 0x61,
 	0x63, 0x68, 0x65, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74,
-	0x2e, 0x69, 0x6d, 0x70, 0x6c, 0x5a, 0x28, 0x67, 0x69, 0x74, 0x68, 0x75, 0x62, 0x2e, 0x63, 0x6f,
+	0x2e, 0x69, 0x6d, 0x70, 0x6c, 0x5a, 0x37, 0x67, 0x69, 0x74, 0x68, 0x75, 0x62, 0x2e, 0x63, 0x6f,
 	0x6d, 0x2f, 0x61, 0x70, 0x61, 0x63, 0x68, 0x65, 0x2f, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2f, 0x67,
-	0x6f, 0x2f, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x3b, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0xaa,
-	0x02, 0x1c, 0x41, 0x70, 0x61, 0x63, 0x68, 0x65, 0x2e, 0x41, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x46,
-	0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e, 0x50, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x62, 0x06,
-	0x70, 0x72, 0x6f, 0x74, 0x6f, 0x33,
+	0x6f, 0x2f, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2f, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2f, 0x69,
+	0x6e, 0x74, 0x65, 0x72, 0x6e, 0x61, 0x6c, 0x2f, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0xaa, 0x02,
+	0x1c, 0x41, 0x70, 0x61, 0x63, 0x68, 0x65, 0x2e, 0x41, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x46, 0x6c,
+	0x69, 0x67, 0x68, 0x74, 0x2e, 0x50, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x62, 0x06, 0x70,
+	0x72, 0x6f, 0x74, 0x6f, 0x33,
 }
 
 var (
diff --git a/go/arrow/flight/internal/flight/FlightSql.pb.go b/go/arrow/flight/internal/flight/FlightSql.pb.go
new file mode 100644
index 00000000000..126d8539cf4
--- /dev/null
+++ b/go/arrow/flight/internal/flight/FlightSql.pb.go
@@ -0,0 +1,4395 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// Code generated by protoc-gen-go. DO NOT EDIT.
+// versions:
+// 	protoc-gen-go v1.28.1
+// 	protoc        v3.12.4
+// source: FlightSql.proto
+
+package flight
+
+import (
+	descriptor "google.golang.org/protobuf/types/descriptorpb"
+	protoreflect "google.golang.org/protobuf/reflect/protoreflect"
+	protoimpl "google.golang.org/protobuf/runtime/protoimpl"
+	reflect "reflect"
+	sync "sync"
+)
+
+const (
+	// Verify that this generated code is sufficiently up-to-date.
+	_ = protoimpl.EnforceVersion(20 - protoimpl.MinVersion)
+	// Verify that runtime/protoimpl is sufficiently up-to-date.
+	_ = protoimpl.EnforceVersion(protoimpl.MaxVersion - 20)
+)
+
+// Options for CommandGetSqlInfo.
+type SqlInfo int32
+
+const (
+	// Retrieves a UTF-8 string with the name of the Flight SQL Server.
+	SqlInfo_FLIGHT_SQL_SERVER_NAME SqlInfo = 0
+	// Retrieves a UTF-8 string with the native version of the Flight SQL Server.
+	SqlInfo_FLIGHT_SQL_SERVER_VERSION SqlInfo = 1
+	// Retrieves a UTF-8 string with the Arrow format version of the Flight SQL Server.
+	SqlInfo_FLIGHT_SQL_SERVER_ARROW_VERSION SqlInfo = 2
+	//
+	// Retrieves a boolean value indicating whether the Flight SQL Server is read only.
+	//
+	// Returns:
+	// - false: if read-write
+	// - true: if read only
+	SqlInfo_FLIGHT_SQL_SERVER_READ_ONLY SqlInfo = 3
+	//
+	// Retrieves a boolean value indicating whether the Flight SQL Server supports CREATE and DROP of catalogs.
+	//
+	// Returns:
+	// - false: if it doesn't support CREATE and DROP of catalogs.
+	// - true: if it supports CREATE and DROP of catalogs.
+	SqlInfo_SQL_DDL_CATALOG SqlInfo = 500
+	//
+	// Retrieves a boolean value indicating whether the Flight SQL Server supports CREATE and DROP of schemas.
+	//
+	// Returns:
+	// - false: if it doesn't support CREATE and DROP of schemas.
+	// - true: if it supports CREATE and DROP of schemas.
+	SqlInfo_SQL_DDL_SCHEMA SqlInfo = 501
+	//
+	// Indicates whether the Flight SQL Server supports CREATE and DROP of tables.
+	//
+	// Returns:
+	// - false: if it doesn't support CREATE and DROP of tables.
+	// - true: if it supports CREATE and DROP of tables.
+	SqlInfo_SQL_DDL_TABLE SqlInfo = 502
+	//
+	// Retrieves a int32 ordinal representing the case sensitivity of catalog, table, schema and table names.
+	//
+	// The possible values are listed in `arrow.flight.protocol.sql.SqlSupportedCaseSensitivity`.
+	SqlInfo_SQL_IDENTIFIER_CASE SqlInfo = 503
+	// Retrieves a UTF-8 string with the supported character(s) used to surround a delimited identifier.
+	SqlInfo_SQL_IDENTIFIER_QUOTE_CHAR SqlInfo = 504
+	//
+	// Retrieves a int32 describing the case sensitivity of quoted identifiers.
+	//
+	// The possible values are listed in `arrow.flight.protocol.sql.SqlSupportedCaseSensitivity`.
+	SqlInfo_SQL_QUOTED_IDENTIFIER_CASE SqlInfo = 505
+	//
+	// Retrieves a boolean value indicating whether all tables are selectable.
+	//
+	// Returns:
+	// - false: if not all tables are selectable or if none are;
+	// - true: if all tables are selectable.
+	SqlInfo_SQL_ALL_TABLES_ARE_SELECTABLE SqlInfo = 506
+	//
+	// Retrieves the null ordering.
+	//
+	// Returns a int32 ordinal for the null ordering being used, as described in
+	// `arrow.flight.protocol.sql.SqlNullOrdering`.
+	SqlInfo_SQL_NULL_ORDERING SqlInfo = 507
+	// Retrieves a UTF-8 string list with values of the supported keywords.
+	SqlInfo_SQL_KEYWORDS SqlInfo = 508
+	// Retrieves a UTF-8 string list with values of the supported numeric functions.
+	SqlInfo_SQL_NUMERIC_FUNCTIONS SqlInfo = 509
+	// Retrieves a UTF-8 string list with values of the supported string functions.
+	SqlInfo_SQL_STRING_FUNCTIONS SqlInfo = 510
+	// Retrieves a UTF-8 string list with values of the supported system functions.
+	SqlInfo_SQL_SYSTEM_FUNCTIONS SqlInfo = 511
+	// Retrieves a UTF-8 string list with values of the supported datetime functions.
+	SqlInfo_SQL_DATETIME_FUNCTIONS SqlInfo = 512
+	//
+	// Retrieves the UTF-8 string that can be used to escape wildcard characters.
+	// This is the string that can be used to escape '_' or '%' in the catalog search parameters that are a pattern
+	// (and therefore use one of the wildcard characters).
+	// The '_' character represents any single character; the '%' character represents any sequence of zero or more
+	// characters.
+	SqlInfo_SQL_SEARCH_STRING_ESCAPE SqlInfo = 513
+	//
+	// Retrieves a UTF-8 string with all the "extra" characters that can be used in unquoted identifier names
+	// (those beyond a-z, A-Z, 0-9 and _).
+	SqlInfo_SQL_EXTRA_NAME_CHARACTERS SqlInfo = 514
+	//
+	// Retrieves a boolean value indicating whether column aliasing is supported.
+	// If so, the SQL AS clause can be used to provide names for computed columns or to provide alias names for columns
+	// as required.
+	//
+	// Returns:
+	// - false: if column aliasing is unsupported;
+	// - true: if column aliasing is supported.
+	SqlInfo_SQL_SUPPORTS_COLUMN_ALIASING SqlInfo = 515
+	//
+	// Retrieves a boolean value indicating whether concatenations between null and non-null values being
+	// null are supported.
+	//
+	// - Returns:
+	// - false: if concatenations between null and non-null values being null are unsupported;
+	// - true: if concatenations between null and non-null values being null are supported.
+	SqlInfo_SQL_NULL_PLUS_NULL_IS_NULL SqlInfo = 516
+	//
+	// Retrieves a map where the key is the type to convert from and the value is a list with the types to convert to,
+	// indicating the supported conversions. Each key and each item on the list value is a value to a predefined type on
+	// SqlSupportsConvert enum.
+	// The returned map will be:  map<int32, list<int32>>
+	SqlInfo_SQL_SUPPORTS_CONVERT SqlInfo = 517
+	//
+	// Retrieves a boolean value indicating whether, when table correlation names are supported,
+	// they are restricted to being different from the names of the tables.
+	//
+	// Returns:
+	// - false: if table correlation names are unsupported;
+	// - true: if table correlation names are supported.
+	SqlInfo_SQL_SUPPORTS_TABLE_CORRELATION_NAMES SqlInfo = 518
+	//
+	// Retrieves a boolean value indicating whether, when table correlation names are supported,
+	// they are restricted to being different from the names of the tables.
+	//
+	// Returns:
+	// - false: if different table correlation names are unsupported;
+	// - true: if different table correlation names are supported
+	SqlInfo_SQL_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES SqlInfo = 519
+	//
+	// Retrieves a boolean value indicating whether expressions in ORDER BY lists are supported.
+	//
+	// Returns:
+	// - false: if expressions in ORDER BY are unsupported;
+	// - true: if expressions in ORDER BY are supported;
+	SqlInfo_SQL_SUPPORTS_EXPRESSIONS_IN_ORDER_BY SqlInfo = 520
+	//
+	// Retrieves a boolean value indicating whether using a column that is not in the SELECT statement in a GROUP BY
+	// clause is supported.
+	//
+	// Returns:
+	// - false: if using a column that is not in the SELECT statement in a GROUP BY clause is unsupported;
+	// - true: if using a column that is not in the SELECT statement in a GROUP BY clause is supported.
+	SqlInfo_SQL_SUPPORTS_ORDER_BY_UNRELATED SqlInfo = 521
+	//
+	// Retrieves the supported GROUP BY commands;
+	//
+	// Returns an int32 bitmask value representing the supported commands.
+	// The returned bitmask should be parsed in order to retrieve the supported commands.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (GROUP BY is unsupported);
+	// - return 1 (\b1)   => [SQL_GROUP_BY_UNRELATED];
+	// - return 2 (\b10)  => [SQL_GROUP_BY_BEYOND_SELECT];
+	// - return 3 (\b11)  => [SQL_GROUP_BY_UNRELATED, SQL_GROUP_BY_BEYOND_SELECT].
+	// Valid GROUP BY types are described under `arrow.flight.protocol.sql.SqlSupportedGroupBy`.
+	SqlInfo_SQL_SUPPORTED_GROUP_BY SqlInfo = 522
+	//
+	// Retrieves a boolean value indicating whether specifying a LIKE escape clause is supported.
+	//
+	// Returns:
+	// - false: if specifying a LIKE escape clause is unsupported;
+	// - true: if specifying a LIKE escape clause is supported.
+	SqlInfo_SQL_SUPPORTS_LIKE_ESCAPE_CLAUSE SqlInfo = 523
+	//
+	// Retrieves a boolean value indicating whether columns may be defined as non-nullable.
+	//
+	// Returns:
+	// - false: if columns cannot be defined as non-nullable;
+	// - true: if columns may be defined as non-nullable.
+	SqlInfo_SQL_SUPPORTS_NON_NULLABLE_COLUMNS SqlInfo = 524
+	//
+	// Retrieves the supported SQL grammar level as per the ODBC specification.
+	//
+	// Returns an int32 bitmask value representing the supported SQL grammar level.
+	// The returned bitmask should be parsed in order to retrieve the supported grammar levels.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (SQL grammar is unsupported);
+	// - return 1 (\b1)   => [SQL_MINIMUM_GRAMMAR];
+	// - return 2 (\b10)  => [SQL_CORE_GRAMMAR];
+	// - return 3 (\b11)  => [SQL_MINIMUM_GRAMMAR, SQL_CORE_GRAMMAR];
+	// - return 4 (\b100) => [SQL_EXTENDED_GRAMMAR];
+	// - return 5 (\b101) => [SQL_MINIMUM_GRAMMAR, SQL_EXTENDED_GRAMMAR];
+	// - return 6 (\b110) => [SQL_CORE_GRAMMAR, SQL_EXTENDED_GRAMMAR];
+	// - return 7 (\b111) => [SQL_MINIMUM_GRAMMAR, SQL_CORE_GRAMMAR, SQL_EXTENDED_GRAMMAR].
+	// Valid SQL grammar levels are described under `arrow.flight.protocol.sql.SupportedSqlGrammar`.
+	SqlInfo_SQL_SUPPORTED_GRAMMAR SqlInfo = 525
+	//
+	// Retrieves the supported ANSI92 SQL grammar level.
+	//
+	// Returns an int32 bitmask value representing the supported ANSI92 SQL grammar level.
+	// The returned bitmask should be parsed in order to retrieve the supported commands.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (ANSI92 SQL grammar is unsupported);
+	// - return 1 (\b1)   => [ANSI92_ENTRY_SQL];
+	// - return 2 (\b10)  => [ANSI92_INTERMEDIATE_SQL];
+	// - return 3 (\b11)  => [ANSI92_ENTRY_SQL, ANSI92_INTERMEDIATE_SQL];
+	// - return 4 (\b100) => [ANSI92_FULL_SQL];
+	// - return 5 (\b101) => [ANSI92_ENTRY_SQL, ANSI92_FULL_SQL];
+	// - return 6 (\b110) => [ANSI92_INTERMEDIATE_SQL, ANSI92_FULL_SQL];
+	// - return 7 (\b111) => [ANSI92_ENTRY_SQL, ANSI92_INTERMEDIATE_SQL, ANSI92_FULL_SQL].
+	// Valid ANSI92 SQL grammar levels are described under `arrow.flight.protocol.sql.SupportedAnsi92SqlGrammarLevel`.
+	SqlInfo_SQL_ANSI92_SUPPORTED_LEVEL SqlInfo = 526
+	//
+	// Retrieves a boolean value indicating whether the SQL Integrity Enhancement Facility is supported.
+	//
+	// Returns:
+	// - false: if the SQL Integrity Enhancement Facility is supported;
+	// - true: if the SQL Integrity Enhancement Facility is supported.
+	SqlInfo_SQL_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY SqlInfo = 527
+	//
+	// Retrieves the support level for SQL OUTER JOINs.
+	//
+	// Returns a int32 ordinal for the SQL ordering being used, as described in
+	// `arrow.flight.protocol.sql.SqlOuterJoinsSupportLevel`.
+	SqlInfo_SQL_OUTER_JOINS_SUPPORT_LEVEL SqlInfo = 528
+	// Retrieves a UTF-8 string with the preferred term for "schema".
+	SqlInfo_SQL_SCHEMA_TERM SqlInfo = 529
+	// Retrieves a UTF-8 string with the preferred term for "procedure".
+	SqlInfo_SQL_PROCEDURE_TERM SqlInfo = 530
+	//
+	// Retrieves a UTF-8 string with the preferred term for "catalog".
+	// If a empty string is returned its assumed that the server does NOT supports catalogs.
+	SqlInfo_SQL_CATALOG_TERM SqlInfo = 531
+	//
+	// Retrieves a boolean value indicating whether a catalog appears at the start of a fully qualified table name.
+	//
+	// - false: if a catalog does not appear at the start of a fully qualified table name;
+	// - true: if a catalog appears at the start of a fully qualified table name.
+	SqlInfo_SQL_CATALOG_AT_START SqlInfo = 532
+	//
+	// Retrieves the supported actions for a SQL schema.
+	//
+	// Returns an int32 bitmask value representing the supported actions for a SQL schema.
+	// The returned bitmask should be parsed in order to retrieve the supported actions for a SQL schema.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported actions for SQL schema);
+	// - return 1 (\b1)   => [SQL_ELEMENT_IN_PROCEDURE_CALLS];
+	// - return 2 (\b10)  => [SQL_ELEMENT_IN_INDEX_DEFINITIONS];
+	// - return 3 (\b11)  => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS];
+	// - return 4 (\b100) => [SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
+	// - return 5 (\b101) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
+	// - return 6 (\b110) => [SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
+	// - return 7 (\b111) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS].
+	// Valid actions for a SQL schema described under `arrow.flight.protocol.sql.SqlSupportedElementActions`.
+	SqlInfo_SQL_SCHEMAS_SUPPORTED_ACTIONS SqlInfo = 533
+	//
+	// Retrieves the supported actions for a SQL schema.
+	//
+	// Returns an int32 bitmask value representing the supported actions for a SQL catalog.
+	// The returned bitmask should be parsed in order to retrieve the supported actions for a SQL catalog.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported actions for SQL catalog);
+	// - return 1 (\b1)   => [SQL_ELEMENT_IN_PROCEDURE_CALLS];
+	// - return 2 (\b10)  => [SQL_ELEMENT_IN_INDEX_DEFINITIONS];
+	// - return 3 (\b11)  => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS];
+	// - return 4 (\b100) => [SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
+	// - return 5 (\b101) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
+	// - return 6 (\b110) => [SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS];
+	// - return 7 (\b111) => [SQL_ELEMENT_IN_PROCEDURE_CALLS, SQL_ELEMENT_IN_INDEX_DEFINITIONS, SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS].
+	// Valid actions for a SQL catalog are described under `arrow.flight.protocol.sql.SqlSupportedElementActions`.
+	SqlInfo_SQL_CATALOGS_SUPPORTED_ACTIONS SqlInfo = 534
+	//
+	// Retrieves the supported SQL positioned commands.
+	//
+	// Returns an int32 bitmask value representing the supported SQL positioned commands.
+	// The returned bitmask should be parsed in order to retrieve the supported SQL positioned commands.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported SQL positioned commands);
+	// - return 1 (\b1)   => [SQL_POSITIONED_DELETE];
+	// - return 2 (\b10)  => [SQL_POSITIONED_UPDATE];
+	// - return 3 (\b11)  => [SQL_POSITIONED_DELETE, SQL_POSITIONED_UPDATE].
+	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlSupportedPositionedCommands`.
+	SqlInfo_SQL_SUPPORTED_POSITIONED_COMMANDS SqlInfo = 535
+	//
+	// Retrieves a boolean value indicating whether SELECT FOR UPDATE statements are supported.
+	//
+	// Returns:
+	// - false: if SELECT FOR UPDATE statements are unsupported;
+	// - true: if SELECT FOR UPDATE statements are supported.
+	SqlInfo_SQL_SELECT_FOR_UPDATE_SUPPORTED SqlInfo = 536
+	//
+	// Retrieves a boolean value indicating whether stored procedure calls that use the stored procedure escape syntax
+	// are supported.
+	//
+	// Returns:
+	// - false: if stored procedure calls that use the stored procedure escape syntax are unsupported;
+	// - true: if stored procedure calls that use the stored procedure escape syntax are supported.
+	SqlInfo_SQL_STORED_PROCEDURES_SUPPORTED SqlInfo = 537
+	//
+	// Retrieves the supported SQL subqueries.
+	//
+	// Returns an int32 bitmask value representing the supported SQL subqueries.
+	// The returned bitmask should be parsed in order to retrieve the supported SQL subqueries.
+	//
+	// For instance:
+	// - return 0   (\b0)     => [] (no supported SQL subqueries);
+	// - return 1   (\b1)     => [SQL_SUBQUERIES_IN_COMPARISONS];
+	// - return 2   (\b10)    => [SQL_SUBQUERIES_IN_EXISTS];
+	// - return 3   (\b11)    => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS];
+	// - return 4   (\b100)   => [SQL_SUBQUERIES_IN_INS];
+	// - return 5   (\b101)   => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_INS];
+	// - return 6   (\b110)   => [SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_EXISTS];
+	// - return 7   (\b111)   => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS];
+	// - return 8   (\b1000)  => [SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 9   (\b1001)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 10  (\b1010)  => [SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 11  (\b1011)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 12  (\b1100)  => [SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 13  (\b1101)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 14  (\b1110)  => [SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - return 15  (\b1111)  => [SQL_SUBQUERIES_IN_COMPARISONS, SQL_SUBQUERIES_IN_EXISTS, SQL_SUBQUERIES_IN_INS, SQL_SUBQUERIES_IN_QUANTIFIEDS];
+	// - ...
+	// Valid SQL subqueries are described under `arrow.flight.protocol.sql.SqlSupportedSubqueries`.
+	SqlInfo_SQL_SUPPORTED_SUBQUERIES SqlInfo = 538
+	//
+	// Retrieves a boolean value indicating whether correlated subqueries are supported.
+	//
+	// Returns:
+	// - false: if correlated subqueries are unsupported;
+	// - true: if correlated subqueries are supported.
+	SqlInfo_SQL_CORRELATED_SUBQUERIES_SUPPORTED SqlInfo = 539
+	//
+	// Retrieves the supported SQL UNIONs.
+	//
+	// Returns an int32 bitmask value representing the supported SQL UNIONs.
+	// The returned bitmask should be parsed in order to retrieve the supported SQL UNIONs.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported SQL positioned commands);
+	// - return 1 (\b1)   => [SQL_UNION];
+	// - return 2 (\b10)  => [SQL_UNION_ALL];
+	// - return 3 (\b11)  => [SQL_UNION, SQL_UNION_ALL].
+	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlSupportedUnions`.
+	SqlInfo_SQL_SUPPORTED_UNIONS SqlInfo = 540
+	// Retrieves a int64 value representing the maximum number of hex characters allowed in an inline binary literal.
+	SqlInfo_SQL_MAX_BINARY_LITERAL_LENGTH SqlInfo = 541
+	// Retrieves a int64 value representing the maximum number of characters allowed for a character literal.
+	SqlInfo_SQL_MAX_CHAR_LITERAL_LENGTH SqlInfo = 542
+	// Retrieves a int64 value representing the maximum number of characters allowed for a column name.
+	SqlInfo_SQL_MAX_COLUMN_NAME_LENGTH SqlInfo = 543
+	// Retrieves a int64 value representing the the maximum number of columns allowed in a GROUP BY clause.
+	SqlInfo_SQL_MAX_COLUMNS_IN_GROUP_BY SqlInfo = 544
+	// Retrieves a int64 value representing the maximum number of columns allowed in an index.
+	SqlInfo_SQL_MAX_COLUMNS_IN_INDEX SqlInfo = 545
+	// Retrieves a int64 value representing the maximum number of columns allowed in an ORDER BY clause.
+	SqlInfo_SQL_MAX_COLUMNS_IN_ORDER_BY SqlInfo = 546
+	// Retrieves a int64 value representing the maximum number of columns allowed in a SELECT list.
+	SqlInfo_SQL_MAX_COLUMNS_IN_SELECT SqlInfo = 547
+	// Retrieves a int64 value representing the maximum number of columns allowed in a table.
+	SqlInfo_SQL_MAX_COLUMNS_IN_TABLE SqlInfo = 548
+	// Retrieves a int64 value representing the maximum number of concurrent connections possible.
+	SqlInfo_SQL_MAX_CONNECTIONS SqlInfo = 549
+	// Retrieves a int64 value the maximum number of characters allowed in a cursor name.
+	SqlInfo_SQL_MAX_CURSOR_NAME_LENGTH SqlInfo = 550
+	//
+	// Retrieves a int64 value representing the maximum number of bytes allowed for an index,
+	// including all of the parts of the index.
+	SqlInfo_SQL_MAX_INDEX_LENGTH SqlInfo = 551
+	// Retrieves a int64 value representing the maximum number of characters allowed in a schema name.
+	SqlInfo_SQL_DB_SCHEMA_NAME_LENGTH SqlInfo = 552
+	// Retrieves a int64 value representing the maximum number of characters allowed in a procedure name.
+	SqlInfo_SQL_MAX_PROCEDURE_NAME_LENGTH SqlInfo = 553
+	// Retrieves a int64 value representing the maximum number of characters allowed in a catalog name.
+	SqlInfo_SQL_MAX_CATALOG_NAME_LENGTH SqlInfo = 554
+	// Retrieves a int64 value representing the maximum number of bytes allowed in a single row.
+	SqlInfo_SQL_MAX_ROW_SIZE SqlInfo = 555
+	//
+	// Retrieves a boolean indicating whether the return value for the JDBC method getMaxRowSize includes the SQL
+	// data types LONGVARCHAR and LONGVARBINARY.
+	//
+	// Returns:
+	// - false: if return value for the JDBC method getMaxRowSize does
+	//          not include the SQL data types LONGVARCHAR and LONGVARBINARY;
+	// - true: if return value for the JDBC method getMaxRowSize includes
+	//         the SQL data types LONGVARCHAR and LONGVARBINARY.
+	SqlInfo_SQL_MAX_ROW_SIZE_INCLUDES_BLOBS SqlInfo = 556
+	//
+	// Retrieves a int64 value representing the maximum number of characters allowed for an SQL statement;
+	// a result of 0 (zero) means that there is no limit or the limit is not known.
+	SqlInfo_SQL_MAX_STATEMENT_LENGTH SqlInfo = 557
+	// Retrieves a int64 value representing the maximum number of active statements that can be open at the same time.
+	SqlInfo_SQL_MAX_STATEMENTS SqlInfo = 558
+	// Retrieves a int64 value representing the maximum number of characters allowed in a table name.
+	SqlInfo_SQL_MAX_TABLE_NAME_LENGTH SqlInfo = 559
+	// Retrieves a int64 value representing the maximum number of tables allowed in a SELECT statement.
+	SqlInfo_SQL_MAX_TABLES_IN_SELECT SqlInfo = 560
+	// Retrieves a int64 value representing the maximum number of characters allowed in a user name.
+	SqlInfo_SQL_MAX_USERNAME_LENGTH SqlInfo = 561
+	//
+	// Retrieves this database's default transaction isolation level as described in
+	// `arrow.flight.protocol.sql.SqlTransactionIsolationLevel`.
+	//
+	// Returns a int32 ordinal for the SQL transaction isolation level.
+	SqlInfo_SQL_DEFAULT_TRANSACTION_ISOLATION SqlInfo = 562
+	//
+	// Retrieves a boolean value indicating whether transactions are supported. If not, invoking the method commit is a
+	// noop, and the isolation level is `arrow.flight.protocol.sql.SqlTransactionIsolationLevel.TRANSACTION_NONE`.
+	//
+	// Returns:
+	// - false: if transactions are unsupported;
+	// - true: if transactions are supported.
+	SqlInfo_SQL_TRANSACTIONS_SUPPORTED SqlInfo = 563
+	//
+	// Retrieves the supported transactions isolation levels.
+	//
+	// Returns an int32 bitmask value representing the supported transactions isolation levels.
+	// The returned bitmask should be parsed in order to retrieve the supported transactions isolation levels.
+	//
+	// For instance:
+	// - return 0   (\b0)     => [] (no supported SQL transactions isolation levels);
+	// - return 1   (\b1)     => [SQL_TRANSACTION_NONE];
+	// - return 2   (\b10)    => [SQL_TRANSACTION_READ_UNCOMMITTED];
+	// - return 3   (\b11)    => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED];
+	// - return 4   (\b100)   => [SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 5   (\b101)   => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 6   (\b110)   => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 7   (\b111)   => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 8   (\b1000)  => [SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 9   (\b1001)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 10  (\b1010)  => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 11  (\b1011)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 12  (\b1100)  => [SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 13  (\b1101)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 14  (\b1110)  => [SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 15  (\b1111)  => [SQL_TRANSACTION_NONE, SQL_TRANSACTION_READ_UNCOMMITTED, SQL_TRANSACTION_REPEATABLE_READ, SQL_TRANSACTION_REPEATABLE_READ];
+	// - return 16  (\b10000) => [SQL_TRANSACTION_SERIALIZABLE];
+	// - ...
+	// Valid SQL positioned commands are described under `arrow.flight.protocol.sql.SqlTransactionIsolationLevel`.
+	SqlInfo_SQL_SUPPORTED_TRANSACTIONS_ISOLATION_LEVELS SqlInfo = 564
+	//
+	// Retrieves a boolean value indicating whether a data definition statement within a transaction forces
+	// the transaction to commit.
+	//
+	// Returns:
+	// - false: if a data definition statement within a transaction does not force the transaction to commit;
+	// - true: if a data definition statement within a transaction forces the transaction to commit.
+	SqlInfo_SQL_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT SqlInfo = 565
+	//
+	// Retrieves a boolean value indicating whether a data definition statement within a transaction is ignored.
+	//
+	// Returns:
+	// - false: if a data definition statement within a transaction is taken into account;
+	// - true: a data definition statement within a transaction is ignored.
+	SqlInfo_SQL_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED SqlInfo = 566
+	//
+	// Retrieves an int32 bitmask value representing the supported result set types.
+	// The returned bitmask should be parsed in order to retrieve the supported result set types.
+	//
+	// For instance:
+	// - return 0   (\b0)     => [] (no supported result set types);
+	// - return 1   (\b1)     => [SQL_RESULT_SET_TYPE_UNSPECIFIED];
+	// - return 2   (\b10)    => [SQL_RESULT_SET_TYPE_FORWARD_ONLY];
+	// - return 3   (\b11)    => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_FORWARD_ONLY];
+	// - return 4   (\b100)   => [SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
+	// - return 5   (\b101)   => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
+	// - return 6   (\b110)   => [SQL_RESULT_SET_TYPE_FORWARD_ONLY, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
+	// - return 7   (\b111)   => [SQL_RESULT_SET_TYPE_UNSPECIFIED, SQL_RESULT_SET_TYPE_FORWARD_ONLY, SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE];
+	// - return 8   (\b1000)  => [SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE];
+	// - ...
+	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetType`.
+	SqlInfo_SQL_SUPPORTED_RESULT_SET_TYPES SqlInfo = 567
+	//
+	// Returns an int32 bitmask value concurrency types supported for
+	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_UNSPECIFIED`.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
+	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
+	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
+	SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_UNSPECIFIED SqlInfo = 568
+	//
+	// Returns an int32 bitmask value concurrency types supported for
+	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_FORWARD_ONLY`.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
+	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
+	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
+	SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_FORWARD_ONLY SqlInfo = 569
+	//
+	// Returns an int32 bitmask value concurrency types supported for
+	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE`.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
+	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
+	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
+	SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_SENSITIVE SqlInfo = 570
+	//
+	// Returns an int32 bitmask value concurrency types supported for
+	// `arrow.flight.protocol.sql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE`.
+	//
+	// For instance:
+	// - return 0 (\b0)   => [] (no supported concurrency types for this result set type)
+	// - return 1 (\b1)   => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED]
+	// - return 2 (\b10)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 3 (\b11)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY]
+	// - return 4 (\b100) => [SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 5 (\b101) => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 6 (\b110)  => [SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// - return 7 (\b111)  => [SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED, SQL_RESULT_SET_CONCURRENCY_READ_ONLY, SQL_RESULT_SET_CONCURRENCY_UPDATABLE]
+	// Valid result set types are described under `arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency`.
+	SqlInfo_SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_INSENSITIVE SqlInfo = 571
+	//
+	// Retrieves a boolean value indicating whether this database supports batch updates.
+	//
+	// - false: if this database does not support batch updates;
+	// - true: if this database supports batch updates.
+	SqlInfo_SQL_BATCH_UPDATES_SUPPORTED SqlInfo = 572
+	//
+	// Retrieves a boolean value indicating whether this database supports savepoints.
+	//
+	// Returns:
+	// - false: if this database does not support savepoints;
+	// - true: if this database supports savepoints.
+	SqlInfo_SQL_SAVEPOINTS_SUPPORTED SqlInfo = 573
+	//
+	// Retrieves a boolean value indicating whether named parameters are supported in callable statements.
+	//
+	// Returns:
+	// - false: if named parameters in callable statements are unsupported;
+	// - true: if named parameters in callable statements are supported.
+	SqlInfo_SQL_NAMED_PARAMETERS_SUPPORTED SqlInfo = 574
+	//
+	// Retrieves a boolean value indicating whether updates made to a LOB are made on a copy or directly to the LOB.
+	//
+	// Returns:
+	// - false: if updates made to a LOB are made directly to the LOB;
+	// - true: if updates made to a LOB are made on a copy.
+	SqlInfo_SQL_LOCATORS_UPDATE_COPY SqlInfo = 575
+	//
+	// Retrieves a boolean value indicating whether invoking user-defined or vendor functions
+	// using the stored procedure escape syntax is supported.
+	//
+	// Returns:
+	// - false: if invoking user-defined or vendor functions using the stored procedure escape syntax is unsupported;
+	// - true: if invoking user-defined or vendor functions using the stored procedure escape syntax is supported.
+	SqlInfo_SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED SqlInfo = 576
+)
+
+// Enum value maps for SqlInfo.
+var (
+	SqlInfo_name = map[int32]string{
+		0:   "FLIGHT_SQL_SERVER_NAME",
+		1:   "FLIGHT_SQL_SERVER_VERSION",
+		2:   "FLIGHT_SQL_SERVER_ARROW_VERSION",
+		3:   "FLIGHT_SQL_SERVER_READ_ONLY",
+		500: "SQL_DDL_CATALOG",
+		501: "SQL_DDL_SCHEMA",
+		502: "SQL_DDL_TABLE",
+		503: "SQL_IDENTIFIER_CASE",
+		504: "SQL_IDENTIFIER_QUOTE_CHAR",
+		505: "SQL_QUOTED_IDENTIFIER_CASE",
+		506: "SQL_ALL_TABLES_ARE_SELECTABLE",
+		507: "SQL_NULL_ORDERING",
+		508: "SQL_KEYWORDS",
+		509: "SQL_NUMERIC_FUNCTIONS",
+		510: "SQL_STRING_FUNCTIONS",
+		511: "SQL_SYSTEM_FUNCTIONS",
+		512: "SQL_DATETIME_FUNCTIONS",
+		513: "SQL_SEARCH_STRING_ESCAPE",
+		514: "SQL_EXTRA_NAME_CHARACTERS",
+		515: "SQL_SUPPORTS_COLUMN_ALIASING",
+		516: "SQL_NULL_PLUS_NULL_IS_NULL",
+		517: "SQL_SUPPORTS_CONVERT",
+		518: "SQL_SUPPORTS_TABLE_CORRELATION_NAMES",
+		519: "SQL_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES",
+		520: "SQL_SUPPORTS_EXPRESSIONS_IN_ORDER_BY",
+		521: "SQL_SUPPORTS_ORDER_BY_UNRELATED",
+		522: "SQL_SUPPORTED_GROUP_BY",
+		523: "SQL_SUPPORTS_LIKE_ESCAPE_CLAUSE",
+		524: "SQL_SUPPORTS_NON_NULLABLE_COLUMNS",
+		525: "SQL_SUPPORTED_GRAMMAR",
+		526: "SQL_ANSI92_SUPPORTED_LEVEL",
+		527: "SQL_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY",
+		528: "SQL_OUTER_JOINS_SUPPORT_LEVEL",
+		529: "SQL_SCHEMA_TERM",
+		530: "SQL_PROCEDURE_TERM",
+		531: "SQL_CATALOG_TERM",
+		532: "SQL_CATALOG_AT_START",
+		533: "SQL_SCHEMAS_SUPPORTED_ACTIONS",
+		534: "SQL_CATALOGS_SUPPORTED_ACTIONS",
+		535: "SQL_SUPPORTED_POSITIONED_COMMANDS",
+		536: "SQL_SELECT_FOR_UPDATE_SUPPORTED",
+		537: "SQL_STORED_PROCEDURES_SUPPORTED",
+		538: "SQL_SUPPORTED_SUBQUERIES",
+		539: "SQL_CORRELATED_SUBQUERIES_SUPPORTED",
+		540: "SQL_SUPPORTED_UNIONS",
+		541: "SQL_MAX_BINARY_LITERAL_LENGTH",
+		542: "SQL_MAX_CHAR_LITERAL_LENGTH",
+		543: "SQL_MAX_COLUMN_NAME_LENGTH",
+		544: "SQL_MAX_COLUMNS_IN_GROUP_BY",
+		545: "SQL_MAX_COLUMNS_IN_INDEX",
+		546: "SQL_MAX_COLUMNS_IN_ORDER_BY",
+		547: "SQL_MAX_COLUMNS_IN_SELECT",
+		548: "SQL_MAX_COLUMNS_IN_TABLE",
+		549: "SQL_MAX_CONNECTIONS",
+		550: "SQL_MAX_CURSOR_NAME_LENGTH",
+		551: "SQL_MAX_INDEX_LENGTH",
+		552: "SQL_DB_SCHEMA_NAME_LENGTH",
+		553: "SQL_MAX_PROCEDURE_NAME_LENGTH",
+		554: "SQL_MAX_CATALOG_NAME_LENGTH",
+		555: "SQL_MAX_ROW_SIZE",
+		556: "SQL_MAX_ROW_SIZE_INCLUDES_BLOBS",
+		557: "SQL_MAX_STATEMENT_LENGTH",
+		558: "SQL_MAX_STATEMENTS",
+		559: "SQL_MAX_TABLE_NAME_LENGTH",
+		560: "SQL_MAX_TABLES_IN_SELECT",
+		561: "SQL_MAX_USERNAME_LENGTH",
+		562: "SQL_DEFAULT_TRANSACTION_ISOLATION",
+		563: "SQL_TRANSACTIONS_SUPPORTED",
+		564: "SQL_SUPPORTED_TRANSACTIONS_ISOLATION_LEVELS",
+		565: "SQL_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT",
+		566: "SQL_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED",
+		567: "SQL_SUPPORTED_RESULT_SET_TYPES",
+		568: "SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_UNSPECIFIED",
+		569: "SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_FORWARD_ONLY",
+		570: "SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_SENSITIVE",
+		571: "SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_INSENSITIVE",
+		572: "SQL_BATCH_UPDATES_SUPPORTED",
+		573: "SQL_SAVEPOINTS_SUPPORTED",
+		574: "SQL_NAMED_PARAMETERS_SUPPORTED",
+		575: "SQL_LOCATORS_UPDATE_COPY",
+		576: "SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED",
+	}
+	SqlInfo_value = map[string]int32{
+		"FLIGHT_SQL_SERVER_NAME":                                        0,
+		"FLIGHT_SQL_SERVER_VERSION":                                     1,
+		"FLIGHT_SQL_SERVER_ARROW_VERSION":                               2,
+		"FLIGHT_SQL_SERVER_READ_ONLY":                                   3,
+		"SQL_DDL_CATALOG":                                               500,
+		"SQL_DDL_SCHEMA":                                                501,
+		"SQL_DDL_TABLE":                                                 502,
+		"SQL_IDENTIFIER_CASE":                                           503,
+		"SQL_IDENTIFIER_QUOTE_CHAR":                                     504,
+		"SQL_QUOTED_IDENTIFIER_CASE":                                    505,
+		"SQL_ALL_TABLES_ARE_SELECTABLE":                                 506,
+		"SQL_NULL_ORDERING":                                             507,
+		"SQL_KEYWORDS":                                                  508,
+		"SQL_NUMERIC_FUNCTIONS":                                         509,
+		"SQL_STRING_FUNCTIONS":                                          510,
+		"SQL_SYSTEM_FUNCTIONS":                                          511,
+		"SQL_DATETIME_FUNCTIONS":                                        512,
+		"SQL_SEARCH_STRING_ESCAPE":                                      513,
+		"SQL_EXTRA_NAME_CHARACTERS":                                     514,
+		"SQL_SUPPORTS_COLUMN_ALIASING":                                  515,
+		"SQL_NULL_PLUS_NULL_IS_NULL":                                    516,
+		"SQL_SUPPORTS_CONVERT":                                          517,
+		"SQL_SUPPORTS_TABLE_CORRELATION_NAMES":                          518,
+		"SQL_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES":                519,
+		"SQL_SUPPORTS_EXPRESSIONS_IN_ORDER_BY":                          520,
+		"SQL_SUPPORTS_ORDER_BY_UNRELATED":                               521,
+		"SQL_SUPPORTED_GROUP_BY":                                        522,
+		"SQL_SUPPORTS_LIKE_ESCAPE_CLAUSE":                               523,
+		"SQL_SUPPORTS_NON_NULLABLE_COLUMNS":                             524,
+		"SQL_SUPPORTED_GRAMMAR":                                         525,
+		"SQL_ANSI92_SUPPORTED_LEVEL":                                    526,
+		"SQL_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY":                   527,
+		"SQL_OUTER_JOINS_SUPPORT_LEVEL":                                 528,
+		"SQL_SCHEMA_TERM":                                               529,
+		"SQL_PROCEDURE_TERM":                                            530,
+		"SQL_CATALOG_TERM":                                              531,
+		"SQL_CATALOG_AT_START":                                          532,
+		"SQL_SCHEMAS_SUPPORTED_ACTIONS":                                 533,
+		"SQL_CATALOGS_SUPPORTED_ACTIONS":                                534,
+		"SQL_SUPPORTED_POSITIONED_COMMANDS":                             535,
+		"SQL_SELECT_FOR_UPDATE_SUPPORTED":                               536,
+		"SQL_STORED_PROCEDURES_SUPPORTED":                               537,
+		"SQL_SUPPORTED_SUBQUERIES":                                      538,
+		"SQL_CORRELATED_SUBQUERIES_SUPPORTED":                           539,
+		"SQL_SUPPORTED_UNIONS":                                          540,
+		"SQL_MAX_BINARY_LITERAL_LENGTH":                                 541,
+		"SQL_MAX_CHAR_LITERAL_LENGTH":                                   542,
+		"SQL_MAX_COLUMN_NAME_LENGTH":                                    543,
+		"SQL_MAX_COLUMNS_IN_GROUP_BY":                                   544,
+		"SQL_MAX_COLUMNS_IN_INDEX":                                      545,
+		"SQL_MAX_COLUMNS_IN_ORDER_BY":                                   546,
+		"SQL_MAX_COLUMNS_IN_SELECT":                                     547,
+		"SQL_MAX_COLUMNS_IN_TABLE":                                      548,
+		"SQL_MAX_CONNECTIONS":                                           549,
+		"SQL_MAX_CURSOR_NAME_LENGTH":                                    550,
+		"SQL_MAX_INDEX_LENGTH":                                          551,
+		"SQL_DB_SCHEMA_NAME_LENGTH":                                     552,
+		"SQL_MAX_PROCEDURE_NAME_LENGTH":                                 553,
+		"SQL_MAX_CATALOG_NAME_LENGTH":                                   554,
+		"SQL_MAX_ROW_SIZE":                                              555,
+		"SQL_MAX_ROW_SIZE_INCLUDES_BLOBS":                               556,
+		"SQL_MAX_STATEMENT_LENGTH":                                      557,
+		"SQL_MAX_STATEMENTS":                                            558,
+		"SQL_MAX_TABLE_NAME_LENGTH":                                     559,
+		"SQL_MAX_TABLES_IN_SELECT":                                      560,
+		"SQL_MAX_USERNAME_LENGTH":                                       561,
+		"SQL_DEFAULT_TRANSACTION_ISOLATION":                             562,
+		"SQL_TRANSACTIONS_SUPPORTED":                                    563,
+		"SQL_SUPPORTED_TRANSACTIONS_ISOLATION_LEVELS":                   564,
+		"SQL_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT":                 565,
+		"SQL_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED":                  566,
+		"SQL_SUPPORTED_RESULT_SET_TYPES":                                567,
+		"SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_UNSPECIFIED":        568,
+		"SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_FORWARD_ONLY":       569,
+		"SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_SENSITIVE":   570,
+		"SQL_SUPPORTED_CONCURRENCIES_FOR_RESULT_SET_SCROLL_INSENSITIVE": 571,
+		"SQL_BATCH_UPDATES_SUPPORTED":                                   572,
+		"SQL_SAVEPOINTS_SUPPORTED":                                      573,
+		"SQL_NAMED_PARAMETERS_SUPPORTED":                                574,
+		"SQL_LOCATORS_UPDATE_COPY":                                      575,
+		"SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED":              576,
+	}
+)
+
+func (x SqlInfo) Enum() *SqlInfo {
+	p := new(SqlInfo)
+	*p = x
+	return p
+}
+
+func (x SqlInfo) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlInfo) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[0].Descriptor()
+}
+
+func (SqlInfo) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[0]
+}
+
+func (x SqlInfo) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlInfo.Descriptor instead.
+func (SqlInfo) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{0}
+}
+
+type SqlSupportedCaseSensitivity int32
+
+const (
+	SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_UNKNOWN          SqlSupportedCaseSensitivity = 0
+	SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_CASE_INSENSITIVE SqlSupportedCaseSensitivity = 1
+	SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_UPPERCASE        SqlSupportedCaseSensitivity = 2
+	SqlSupportedCaseSensitivity_SQL_CASE_SENSITIVITY_LOWERCASE        SqlSupportedCaseSensitivity = 3
+)
+
+// Enum value maps for SqlSupportedCaseSensitivity.
+var (
+	SqlSupportedCaseSensitivity_name = map[int32]string{
+		0: "SQL_CASE_SENSITIVITY_UNKNOWN",
+		1: "SQL_CASE_SENSITIVITY_CASE_INSENSITIVE",
+		2: "SQL_CASE_SENSITIVITY_UPPERCASE",
+		3: "SQL_CASE_SENSITIVITY_LOWERCASE",
+	}
+	SqlSupportedCaseSensitivity_value = map[string]int32{
+		"SQL_CASE_SENSITIVITY_UNKNOWN":          0,
+		"SQL_CASE_SENSITIVITY_CASE_INSENSITIVE": 1,
+		"SQL_CASE_SENSITIVITY_UPPERCASE":        2,
+		"SQL_CASE_SENSITIVITY_LOWERCASE":        3,
+	}
+)
+
+func (x SqlSupportedCaseSensitivity) Enum() *SqlSupportedCaseSensitivity {
+	p := new(SqlSupportedCaseSensitivity)
+	*p = x
+	return p
+}
+
+func (x SqlSupportedCaseSensitivity) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlSupportedCaseSensitivity) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[1].Descriptor()
+}
+
+func (SqlSupportedCaseSensitivity) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[1]
+}
+
+func (x SqlSupportedCaseSensitivity) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlSupportedCaseSensitivity.Descriptor instead.
+func (SqlSupportedCaseSensitivity) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{1}
+}
+
+type SqlNullOrdering int32
+
+const (
+	SqlNullOrdering_SQL_NULLS_SORTED_HIGH     SqlNullOrdering = 0
+	SqlNullOrdering_SQL_NULLS_SORTED_LOW      SqlNullOrdering = 1
+	SqlNullOrdering_SQL_NULLS_SORTED_AT_START SqlNullOrdering = 2
+	SqlNullOrdering_SQL_NULLS_SORTED_AT_END   SqlNullOrdering = 3
+)
+
+// Enum value maps for SqlNullOrdering.
+var (
+	SqlNullOrdering_name = map[int32]string{
+		0: "SQL_NULLS_SORTED_HIGH",
+		1: "SQL_NULLS_SORTED_LOW",
+		2: "SQL_NULLS_SORTED_AT_START",
+		3: "SQL_NULLS_SORTED_AT_END",
+	}
+	SqlNullOrdering_value = map[string]int32{
+		"SQL_NULLS_SORTED_HIGH":     0,
+		"SQL_NULLS_SORTED_LOW":      1,
+		"SQL_NULLS_SORTED_AT_START": 2,
+		"SQL_NULLS_SORTED_AT_END":   3,
+	}
+)
+
+func (x SqlNullOrdering) Enum() *SqlNullOrdering {
+	p := new(SqlNullOrdering)
+	*p = x
+	return p
+}
+
+func (x SqlNullOrdering) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlNullOrdering) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[2].Descriptor()
+}
+
+func (SqlNullOrdering) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[2]
+}
+
+func (x SqlNullOrdering) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlNullOrdering.Descriptor instead.
+func (SqlNullOrdering) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{2}
+}
+
+type SupportedSqlGrammar int32
+
+const (
+	SupportedSqlGrammar_SQL_MINIMUM_GRAMMAR  SupportedSqlGrammar = 0
+	SupportedSqlGrammar_SQL_CORE_GRAMMAR     SupportedSqlGrammar = 1
+	SupportedSqlGrammar_SQL_EXTENDED_GRAMMAR SupportedSqlGrammar = 2
+)
+
+// Enum value maps for SupportedSqlGrammar.
+var (
+	SupportedSqlGrammar_name = map[int32]string{
+		0: "SQL_MINIMUM_GRAMMAR",
+		1: "SQL_CORE_GRAMMAR",
+		2: "SQL_EXTENDED_GRAMMAR",
+	}
+	SupportedSqlGrammar_value = map[string]int32{
+		"SQL_MINIMUM_GRAMMAR":  0,
+		"SQL_CORE_GRAMMAR":     1,
+		"SQL_EXTENDED_GRAMMAR": 2,
+	}
+)
+
+func (x SupportedSqlGrammar) Enum() *SupportedSqlGrammar {
+	p := new(SupportedSqlGrammar)
+	*p = x
+	return p
+}
+
+func (x SupportedSqlGrammar) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SupportedSqlGrammar) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[3].Descriptor()
+}
+
+func (SupportedSqlGrammar) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[3]
+}
+
+func (x SupportedSqlGrammar) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SupportedSqlGrammar.Descriptor instead.
+func (SupportedSqlGrammar) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{3}
+}
+
+type SupportedAnsi92SqlGrammarLevel int32
+
+const (
+	SupportedAnsi92SqlGrammarLevel_ANSI92_ENTRY_SQL        SupportedAnsi92SqlGrammarLevel = 0
+	SupportedAnsi92SqlGrammarLevel_ANSI92_INTERMEDIATE_SQL SupportedAnsi92SqlGrammarLevel = 1
+	SupportedAnsi92SqlGrammarLevel_ANSI92_FULL_SQL         SupportedAnsi92SqlGrammarLevel = 2
+)
+
+// Enum value maps for SupportedAnsi92SqlGrammarLevel.
+var (
+	SupportedAnsi92SqlGrammarLevel_name = map[int32]string{
+		0: "ANSI92_ENTRY_SQL",
+		1: "ANSI92_INTERMEDIATE_SQL",
+		2: "ANSI92_FULL_SQL",
+	}
+	SupportedAnsi92SqlGrammarLevel_value = map[string]int32{
+		"ANSI92_ENTRY_SQL":        0,
+		"ANSI92_INTERMEDIATE_SQL": 1,
+		"ANSI92_FULL_SQL":         2,
+	}
+)
+
+func (x SupportedAnsi92SqlGrammarLevel) Enum() *SupportedAnsi92SqlGrammarLevel {
+	p := new(SupportedAnsi92SqlGrammarLevel)
+	*p = x
+	return p
+}
+
+func (x SupportedAnsi92SqlGrammarLevel) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SupportedAnsi92SqlGrammarLevel) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[4].Descriptor()
+}
+
+func (SupportedAnsi92SqlGrammarLevel) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[4]
+}
+
+func (x SupportedAnsi92SqlGrammarLevel) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SupportedAnsi92SqlGrammarLevel.Descriptor instead.
+func (SupportedAnsi92SqlGrammarLevel) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{4}
+}
+
+type SqlOuterJoinsSupportLevel int32
+
+const (
+	SqlOuterJoinsSupportLevel_SQL_JOINS_UNSUPPORTED   SqlOuterJoinsSupportLevel = 0
+	SqlOuterJoinsSupportLevel_SQL_LIMITED_OUTER_JOINS SqlOuterJoinsSupportLevel = 1
+	SqlOuterJoinsSupportLevel_SQL_FULL_OUTER_JOINS    SqlOuterJoinsSupportLevel = 2
+)
+
+// Enum value maps for SqlOuterJoinsSupportLevel.
+var (
+	SqlOuterJoinsSupportLevel_name = map[int32]string{
+		0: "SQL_JOINS_UNSUPPORTED",
+		1: "SQL_LIMITED_OUTER_JOINS",
+		2: "SQL_FULL_OUTER_JOINS",
+	}
+	SqlOuterJoinsSupportLevel_value = map[string]int32{
+		"SQL_JOINS_UNSUPPORTED":   0,
+		"SQL_LIMITED_OUTER_JOINS": 1,
+		"SQL_FULL_OUTER_JOINS":    2,
+	}
+)
+
+func (x SqlOuterJoinsSupportLevel) Enum() *SqlOuterJoinsSupportLevel {
+	p := new(SqlOuterJoinsSupportLevel)
+	*p = x
+	return p
+}
+
+func (x SqlOuterJoinsSupportLevel) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlOuterJoinsSupportLevel) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[5].Descriptor()
+}
+
+func (SqlOuterJoinsSupportLevel) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[5]
+}
+
+func (x SqlOuterJoinsSupportLevel) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlOuterJoinsSupportLevel.Descriptor instead.
+func (SqlOuterJoinsSupportLevel) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{5}
+}
+
+type SqlSupportedGroupBy int32
+
+const (
+	SqlSupportedGroupBy_SQL_GROUP_BY_UNRELATED     SqlSupportedGroupBy = 0
+	SqlSupportedGroupBy_SQL_GROUP_BY_BEYOND_SELECT SqlSupportedGroupBy = 1
+)
+
+// Enum value maps for SqlSupportedGroupBy.
+var (
+	SqlSupportedGroupBy_name = map[int32]string{
+		0: "SQL_GROUP_BY_UNRELATED",
+		1: "SQL_GROUP_BY_BEYOND_SELECT",
+	}
+	SqlSupportedGroupBy_value = map[string]int32{
+		"SQL_GROUP_BY_UNRELATED":     0,
+		"SQL_GROUP_BY_BEYOND_SELECT": 1,
+	}
+)
+
+func (x SqlSupportedGroupBy) Enum() *SqlSupportedGroupBy {
+	p := new(SqlSupportedGroupBy)
+	*p = x
+	return p
+}
+
+func (x SqlSupportedGroupBy) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlSupportedGroupBy) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[6].Descriptor()
+}
+
+func (SqlSupportedGroupBy) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[6]
+}
+
+func (x SqlSupportedGroupBy) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlSupportedGroupBy.Descriptor instead.
+func (SqlSupportedGroupBy) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{6}
+}
+
+type SqlSupportedElementActions int32
+
+const (
+	SqlSupportedElementActions_SQL_ELEMENT_IN_PROCEDURE_CALLS       SqlSupportedElementActions = 0
+	SqlSupportedElementActions_SQL_ELEMENT_IN_INDEX_DEFINITIONS     SqlSupportedElementActions = 1
+	SqlSupportedElementActions_SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS SqlSupportedElementActions = 2
+)
+
+// Enum value maps for SqlSupportedElementActions.
+var (
+	SqlSupportedElementActions_name = map[int32]string{
+		0: "SQL_ELEMENT_IN_PROCEDURE_CALLS",
+		1: "SQL_ELEMENT_IN_INDEX_DEFINITIONS",
+		2: "SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS",
+	}
+	SqlSupportedElementActions_value = map[string]int32{
+		"SQL_ELEMENT_IN_PROCEDURE_CALLS":       0,
+		"SQL_ELEMENT_IN_INDEX_DEFINITIONS":     1,
+		"SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS": 2,
+	}
+)
+
+func (x SqlSupportedElementActions) Enum() *SqlSupportedElementActions {
+	p := new(SqlSupportedElementActions)
+	*p = x
+	return p
+}
+
+func (x SqlSupportedElementActions) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlSupportedElementActions) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[7].Descriptor()
+}
+
+func (SqlSupportedElementActions) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[7]
+}
+
+func (x SqlSupportedElementActions) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlSupportedElementActions.Descriptor instead.
+func (SqlSupportedElementActions) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{7}
+}
+
+type SqlSupportedPositionedCommands int32
+
+const (
+	SqlSupportedPositionedCommands_SQL_POSITIONED_DELETE SqlSupportedPositionedCommands = 0
+	SqlSupportedPositionedCommands_SQL_POSITIONED_UPDATE SqlSupportedPositionedCommands = 1
+)
+
+// Enum value maps for SqlSupportedPositionedCommands.
+var (
+	SqlSupportedPositionedCommands_name = map[int32]string{
+		0: "SQL_POSITIONED_DELETE",
+		1: "SQL_POSITIONED_UPDATE",
+	}
+	SqlSupportedPositionedCommands_value = map[string]int32{
+		"SQL_POSITIONED_DELETE": 0,
+		"SQL_POSITIONED_UPDATE": 1,
+	}
+)
+
+func (x SqlSupportedPositionedCommands) Enum() *SqlSupportedPositionedCommands {
+	p := new(SqlSupportedPositionedCommands)
+	*p = x
+	return p
+}
+
+func (x SqlSupportedPositionedCommands) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlSupportedPositionedCommands) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[8].Descriptor()
+}
+
+func (SqlSupportedPositionedCommands) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[8]
+}
+
+func (x SqlSupportedPositionedCommands) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlSupportedPositionedCommands.Descriptor instead.
+func (SqlSupportedPositionedCommands) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{8}
+}
+
+type SqlSupportedSubqueries int32
+
+const (
+	SqlSupportedSubqueries_SQL_SUBQUERIES_IN_COMPARISONS SqlSupportedSubqueries = 0
+	SqlSupportedSubqueries_SQL_SUBQUERIES_IN_EXISTS      SqlSupportedSubqueries = 1
+	SqlSupportedSubqueries_SQL_SUBQUERIES_IN_INS         SqlSupportedSubqueries = 2
+	SqlSupportedSubqueries_SQL_SUBQUERIES_IN_QUANTIFIEDS SqlSupportedSubqueries = 3
+)
+
+// Enum value maps for SqlSupportedSubqueries.
+var (
+	SqlSupportedSubqueries_name = map[int32]string{
+		0: "SQL_SUBQUERIES_IN_COMPARISONS",
+		1: "SQL_SUBQUERIES_IN_EXISTS",
+		2: "SQL_SUBQUERIES_IN_INS",
+		3: "SQL_SUBQUERIES_IN_QUANTIFIEDS",
+	}
+	SqlSupportedSubqueries_value = map[string]int32{
+		"SQL_SUBQUERIES_IN_COMPARISONS": 0,
+		"SQL_SUBQUERIES_IN_EXISTS":      1,
+		"SQL_SUBQUERIES_IN_INS":         2,
+		"SQL_SUBQUERIES_IN_QUANTIFIEDS": 3,
+	}
+)
+
+func (x SqlSupportedSubqueries) Enum() *SqlSupportedSubqueries {
+	p := new(SqlSupportedSubqueries)
+	*p = x
+	return p
+}
+
+func (x SqlSupportedSubqueries) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlSupportedSubqueries) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[9].Descriptor()
+}
+
+func (SqlSupportedSubqueries) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[9]
+}
+
+func (x SqlSupportedSubqueries) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlSupportedSubqueries.Descriptor instead.
+func (SqlSupportedSubqueries) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{9}
+}
+
+type SqlSupportedUnions int32
+
+const (
+	SqlSupportedUnions_SQL_UNION     SqlSupportedUnions = 0
+	SqlSupportedUnions_SQL_UNION_ALL SqlSupportedUnions = 1
+)
+
+// Enum value maps for SqlSupportedUnions.
+var (
+	SqlSupportedUnions_name = map[int32]string{
+		0: "SQL_UNION",
+		1: "SQL_UNION_ALL",
+	}
+	SqlSupportedUnions_value = map[string]int32{
+		"SQL_UNION":     0,
+		"SQL_UNION_ALL": 1,
+	}
+)
+
+func (x SqlSupportedUnions) Enum() *SqlSupportedUnions {
+	p := new(SqlSupportedUnions)
+	*p = x
+	return p
+}
+
+func (x SqlSupportedUnions) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlSupportedUnions) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[10].Descriptor()
+}
+
+func (SqlSupportedUnions) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[10]
+}
+
+func (x SqlSupportedUnions) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlSupportedUnions.Descriptor instead.
+func (SqlSupportedUnions) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{10}
+}
+
+type SqlTransactionIsolationLevel int32
+
+const (
+	SqlTransactionIsolationLevel_SQL_TRANSACTION_NONE             SqlTransactionIsolationLevel = 0
+	SqlTransactionIsolationLevel_SQL_TRANSACTION_READ_UNCOMMITTED SqlTransactionIsolationLevel = 1
+	SqlTransactionIsolationLevel_SQL_TRANSACTION_READ_COMMITTED   SqlTransactionIsolationLevel = 2
+	SqlTransactionIsolationLevel_SQL_TRANSACTION_REPEATABLE_READ  SqlTransactionIsolationLevel = 3
+	SqlTransactionIsolationLevel_SQL_TRANSACTION_SERIALIZABLE     SqlTransactionIsolationLevel = 4
+)
+
+// Enum value maps for SqlTransactionIsolationLevel.
+var (
+	SqlTransactionIsolationLevel_name = map[int32]string{
+		0: "SQL_TRANSACTION_NONE",
+		1: "SQL_TRANSACTION_READ_UNCOMMITTED",
+		2: "SQL_TRANSACTION_READ_COMMITTED",
+		3: "SQL_TRANSACTION_REPEATABLE_READ",
+		4: "SQL_TRANSACTION_SERIALIZABLE",
+	}
+	SqlTransactionIsolationLevel_value = map[string]int32{
+		"SQL_TRANSACTION_NONE":             0,
+		"SQL_TRANSACTION_READ_UNCOMMITTED": 1,
+		"SQL_TRANSACTION_READ_COMMITTED":   2,
+		"SQL_TRANSACTION_REPEATABLE_READ":  3,
+		"SQL_TRANSACTION_SERIALIZABLE":     4,
+	}
+)
+
+func (x SqlTransactionIsolationLevel) Enum() *SqlTransactionIsolationLevel {
+	p := new(SqlTransactionIsolationLevel)
+	*p = x
+	return p
+}
+
+func (x SqlTransactionIsolationLevel) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlTransactionIsolationLevel) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[11].Descriptor()
+}
+
+func (SqlTransactionIsolationLevel) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[11]
+}
+
+func (x SqlTransactionIsolationLevel) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlTransactionIsolationLevel.Descriptor instead.
+func (SqlTransactionIsolationLevel) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{11}
+}
+
+type SqlSupportedTransactions int32
+
+const (
+	SqlSupportedTransactions_SQL_TRANSACTION_UNSPECIFIED        SqlSupportedTransactions = 0
+	SqlSupportedTransactions_SQL_DATA_DEFINITION_TRANSACTIONS   SqlSupportedTransactions = 1
+	SqlSupportedTransactions_SQL_DATA_MANIPULATION_TRANSACTIONS SqlSupportedTransactions = 2
+)
+
+// Enum value maps for SqlSupportedTransactions.
+var (
+	SqlSupportedTransactions_name = map[int32]string{
+		0: "SQL_TRANSACTION_UNSPECIFIED",
+		1: "SQL_DATA_DEFINITION_TRANSACTIONS",
+		2: "SQL_DATA_MANIPULATION_TRANSACTIONS",
+	}
+	SqlSupportedTransactions_value = map[string]int32{
+		"SQL_TRANSACTION_UNSPECIFIED":        0,
+		"SQL_DATA_DEFINITION_TRANSACTIONS":   1,
+		"SQL_DATA_MANIPULATION_TRANSACTIONS": 2,
+	}
+)
+
+func (x SqlSupportedTransactions) Enum() *SqlSupportedTransactions {
+	p := new(SqlSupportedTransactions)
+	*p = x
+	return p
+}
+
+func (x SqlSupportedTransactions) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlSupportedTransactions) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[12].Descriptor()
+}
+
+func (SqlSupportedTransactions) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[12]
+}
+
+func (x SqlSupportedTransactions) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlSupportedTransactions.Descriptor instead.
+func (SqlSupportedTransactions) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{12}
+}
+
+type SqlSupportedResultSetType int32
+
+const (
+	SqlSupportedResultSetType_SQL_RESULT_SET_TYPE_UNSPECIFIED        SqlSupportedResultSetType = 0
+	SqlSupportedResultSetType_SQL_RESULT_SET_TYPE_FORWARD_ONLY       SqlSupportedResultSetType = 1
+	SqlSupportedResultSetType_SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE SqlSupportedResultSetType = 2
+	SqlSupportedResultSetType_SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE   SqlSupportedResultSetType = 3
+)
+
+// Enum value maps for SqlSupportedResultSetType.
+var (
+	SqlSupportedResultSetType_name = map[int32]string{
+		0: "SQL_RESULT_SET_TYPE_UNSPECIFIED",
+		1: "SQL_RESULT_SET_TYPE_FORWARD_ONLY",
+		2: "SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE",
+		3: "SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE",
+	}
+	SqlSupportedResultSetType_value = map[string]int32{
+		"SQL_RESULT_SET_TYPE_UNSPECIFIED":        0,
+		"SQL_RESULT_SET_TYPE_FORWARD_ONLY":       1,
+		"SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE": 2,
+		"SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE":   3,
+	}
+)
+
+func (x SqlSupportedResultSetType) Enum() *SqlSupportedResultSetType {
+	p := new(SqlSupportedResultSetType)
+	*p = x
+	return p
+}
+
+func (x SqlSupportedResultSetType) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlSupportedResultSetType) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[13].Descriptor()
+}
+
+func (SqlSupportedResultSetType) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[13]
+}
+
+func (x SqlSupportedResultSetType) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlSupportedResultSetType.Descriptor instead.
+func (SqlSupportedResultSetType) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{13}
+}
+
+type SqlSupportedResultSetConcurrency int32
+
+const (
+	SqlSupportedResultSetConcurrency_SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED SqlSupportedResultSetConcurrency = 0
+	SqlSupportedResultSetConcurrency_SQL_RESULT_SET_CONCURRENCY_READ_ONLY   SqlSupportedResultSetConcurrency = 1
+	SqlSupportedResultSetConcurrency_SQL_RESULT_SET_CONCURRENCY_UPDATABLE   SqlSupportedResultSetConcurrency = 2
+)
+
+// Enum value maps for SqlSupportedResultSetConcurrency.
+var (
+	SqlSupportedResultSetConcurrency_name = map[int32]string{
+		0: "SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED",
+		1: "SQL_RESULT_SET_CONCURRENCY_READ_ONLY",
+		2: "SQL_RESULT_SET_CONCURRENCY_UPDATABLE",
+	}
+	SqlSupportedResultSetConcurrency_value = map[string]int32{
+		"SQL_RESULT_SET_CONCURRENCY_UNSPECIFIED": 0,
+		"SQL_RESULT_SET_CONCURRENCY_READ_ONLY":   1,
+		"SQL_RESULT_SET_CONCURRENCY_UPDATABLE":   2,
+	}
+)
+
+func (x SqlSupportedResultSetConcurrency) Enum() *SqlSupportedResultSetConcurrency {
+	p := new(SqlSupportedResultSetConcurrency)
+	*p = x
+	return p
+}
+
+func (x SqlSupportedResultSetConcurrency) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlSupportedResultSetConcurrency) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[14].Descriptor()
+}
+
+func (SqlSupportedResultSetConcurrency) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[14]
+}
+
+func (x SqlSupportedResultSetConcurrency) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlSupportedResultSetConcurrency.Descriptor instead.
+func (SqlSupportedResultSetConcurrency) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{14}
+}
+
+type SqlSupportsConvert int32
+
+const (
+	SqlSupportsConvert_SQL_CONVERT_BIGINT              SqlSupportsConvert = 0
+	SqlSupportsConvert_SQL_CONVERT_BINARY              SqlSupportsConvert = 1
+	SqlSupportsConvert_SQL_CONVERT_BIT                 SqlSupportsConvert = 2
+	SqlSupportsConvert_SQL_CONVERT_CHAR                SqlSupportsConvert = 3
+	SqlSupportsConvert_SQL_CONVERT_DATE                SqlSupportsConvert = 4
+	SqlSupportsConvert_SQL_CONVERT_DECIMAL             SqlSupportsConvert = 5
+	SqlSupportsConvert_SQL_CONVERT_FLOAT               SqlSupportsConvert = 6
+	SqlSupportsConvert_SQL_CONVERT_INTEGER             SqlSupportsConvert = 7
+	SqlSupportsConvert_SQL_CONVERT_INTERVAL_DAY_TIME   SqlSupportsConvert = 8
+	SqlSupportsConvert_SQL_CONVERT_INTERVAL_YEAR_MONTH SqlSupportsConvert = 9
+	SqlSupportsConvert_SQL_CONVERT_LONGVARBINARY       SqlSupportsConvert = 10
+	SqlSupportsConvert_SQL_CONVERT_LONGVARCHAR         SqlSupportsConvert = 11
+	SqlSupportsConvert_SQL_CONVERT_NUMERIC             SqlSupportsConvert = 12
+	SqlSupportsConvert_SQL_CONVERT_REAL                SqlSupportsConvert = 13
+	SqlSupportsConvert_SQL_CONVERT_SMALLINT            SqlSupportsConvert = 14
+	SqlSupportsConvert_SQL_CONVERT_TIME                SqlSupportsConvert = 15
+	SqlSupportsConvert_SQL_CONVERT_TIMESTAMP           SqlSupportsConvert = 16
+	SqlSupportsConvert_SQL_CONVERT_TINYINT             SqlSupportsConvert = 17
+	SqlSupportsConvert_SQL_CONVERT_VARBINARY           SqlSupportsConvert = 18
+	SqlSupportsConvert_SQL_CONVERT_VARCHAR             SqlSupportsConvert = 19
+)
+
+// Enum value maps for SqlSupportsConvert.
+var (
+	SqlSupportsConvert_name = map[int32]string{
+		0:  "SQL_CONVERT_BIGINT",
+		1:  "SQL_CONVERT_BINARY",
+		2:  "SQL_CONVERT_BIT",
+		3:  "SQL_CONVERT_CHAR",
+		4:  "SQL_CONVERT_DATE",
+		5:  "SQL_CONVERT_DECIMAL",
+		6:  "SQL_CONVERT_FLOAT",
+		7:  "SQL_CONVERT_INTEGER",
+		8:  "SQL_CONVERT_INTERVAL_DAY_TIME",
+		9:  "SQL_CONVERT_INTERVAL_YEAR_MONTH",
+		10: "SQL_CONVERT_LONGVARBINARY",
+		11: "SQL_CONVERT_LONGVARCHAR",
+		12: "SQL_CONVERT_NUMERIC",
+		13: "SQL_CONVERT_REAL",
+		14: "SQL_CONVERT_SMALLINT",
+		15: "SQL_CONVERT_TIME",
+		16: "SQL_CONVERT_TIMESTAMP",
+		17: "SQL_CONVERT_TINYINT",
+		18: "SQL_CONVERT_VARBINARY",
+		19: "SQL_CONVERT_VARCHAR",
+	}
+	SqlSupportsConvert_value = map[string]int32{
+		"SQL_CONVERT_BIGINT":              0,
+		"SQL_CONVERT_BINARY":              1,
+		"SQL_CONVERT_BIT":                 2,
+		"SQL_CONVERT_CHAR":                3,
+		"SQL_CONVERT_DATE":                4,
+		"SQL_CONVERT_DECIMAL":             5,
+		"SQL_CONVERT_FLOAT":               6,
+		"SQL_CONVERT_INTEGER":             7,
+		"SQL_CONVERT_INTERVAL_DAY_TIME":   8,
+		"SQL_CONVERT_INTERVAL_YEAR_MONTH": 9,
+		"SQL_CONVERT_LONGVARBINARY":       10,
+		"SQL_CONVERT_LONGVARCHAR":         11,
+		"SQL_CONVERT_NUMERIC":             12,
+		"SQL_CONVERT_REAL":                13,
+		"SQL_CONVERT_SMALLINT":            14,
+		"SQL_CONVERT_TIME":                15,
+		"SQL_CONVERT_TIMESTAMP":           16,
+		"SQL_CONVERT_TINYINT":             17,
+		"SQL_CONVERT_VARBINARY":           18,
+		"SQL_CONVERT_VARCHAR":             19,
+	}
+)
+
+func (x SqlSupportsConvert) Enum() *SqlSupportsConvert {
+	p := new(SqlSupportsConvert)
+	*p = x
+	return p
+}
+
+func (x SqlSupportsConvert) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (SqlSupportsConvert) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[15].Descriptor()
+}
+
+func (SqlSupportsConvert) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[15]
+}
+
+func (x SqlSupportsConvert) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use SqlSupportsConvert.Descriptor instead.
+func (SqlSupportsConvert) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{15}
+}
+
+//*
+// The JDBC/ODBC-defined type of any object.
+// All the values here are the sames as in the JDBC and ODBC specs.
+type XdbcDataType int32
+
+const (
+	XdbcDataType_XDBC_UNKNOWN_TYPE  XdbcDataType = 0
+	XdbcDataType_XDBC_CHAR          XdbcDataType = 1
+	XdbcDataType_XDBC_NUMERIC       XdbcDataType = 2
+	XdbcDataType_XDBC_DECIMAL       XdbcDataType = 3
+	XdbcDataType_XDBC_INTEGER       XdbcDataType = 4
+	XdbcDataType_XDBC_SMALLINT      XdbcDataType = 5
+	XdbcDataType_XDBC_FLOAT         XdbcDataType = 6
+	XdbcDataType_XDBC_REAL          XdbcDataType = 7
+	XdbcDataType_XDBC_DOUBLE        XdbcDataType = 8
+	XdbcDataType_XDBC_DATETIME      XdbcDataType = 9
+	XdbcDataType_XDBC_INTERVAL      XdbcDataType = 10
+	XdbcDataType_XDBC_VARCHAR       XdbcDataType = 12
+	XdbcDataType_XDBC_DATE          XdbcDataType = 91
+	XdbcDataType_XDBC_TIME          XdbcDataType = 92
+	XdbcDataType_XDBC_TIMESTAMP     XdbcDataType = 93
+	XdbcDataType_XDBC_LONGVARCHAR   XdbcDataType = -1
+	XdbcDataType_XDBC_BINARY        XdbcDataType = -2
+	XdbcDataType_XDBC_VARBINARY     XdbcDataType = -3
+	XdbcDataType_XDBC_LONGVARBINARY XdbcDataType = -4
+	XdbcDataType_XDBC_BIGINT        XdbcDataType = -5
+	XdbcDataType_XDBC_TINYINT       XdbcDataType = -6
+	XdbcDataType_XDBC_BIT           XdbcDataType = -7
+	XdbcDataType_XDBC_WCHAR         XdbcDataType = -8
+	XdbcDataType_XDBC_WVARCHAR      XdbcDataType = -9
+)
+
+// Enum value maps for XdbcDataType.
+var (
+	XdbcDataType_name = map[int32]string{
+		0:  "XDBC_UNKNOWN_TYPE",
+		1:  "XDBC_CHAR",
+		2:  "XDBC_NUMERIC",
+		3:  "XDBC_DECIMAL",
+		4:  "XDBC_INTEGER",
+		5:  "XDBC_SMALLINT",
+		6:  "XDBC_FLOAT",
+		7:  "XDBC_REAL",
+		8:  "XDBC_DOUBLE",
+		9:  "XDBC_DATETIME",
+		10: "XDBC_INTERVAL",
+		12: "XDBC_VARCHAR",
+		91: "XDBC_DATE",
+		92: "XDBC_TIME",
+		93: "XDBC_TIMESTAMP",
+		-1: "XDBC_LONGVARCHAR",
+		-2: "XDBC_BINARY",
+		-3: "XDBC_VARBINARY",
+		-4: "XDBC_LONGVARBINARY",
+		-5: "XDBC_BIGINT",
+		-6: "XDBC_TINYINT",
+		-7: "XDBC_BIT",
+		-8: "XDBC_WCHAR",
+		-9: "XDBC_WVARCHAR",
+	}
+	XdbcDataType_value = map[string]int32{
+		"XDBC_UNKNOWN_TYPE":  0,
+		"XDBC_CHAR":          1,
+		"XDBC_NUMERIC":       2,
+		"XDBC_DECIMAL":       3,
+		"XDBC_INTEGER":       4,
+		"XDBC_SMALLINT":      5,
+		"XDBC_FLOAT":         6,
+		"XDBC_REAL":          7,
+		"XDBC_DOUBLE":        8,
+		"XDBC_DATETIME":      9,
+		"XDBC_INTERVAL":      10,
+		"XDBC_VARCHAR":       12,
+		"XDBC_DATE":          91,
+		"XDBC_TIME":          92,
+		"XDBC_TIMESTAMP":     93,
+		"XDBC_LONGVARCHAR":   -1,
+		"XDBC_BINARY":        -2,
+		"XDBC_VARBINARY":     -3,
+		"XDBC_LONGVARBINARY": -4,
+		"XDBC_BIGINT":        -5,
+		"XDBC_TINYINT":       -6,
+		"XDBC_BIT":           -7,
+		"XDBC_WCHAR":         -8,
+		"XDBC_WVARCHAR":      -9,
+	}
+)
+
+func (x XdbcDataType) Enum() *XdbcDataType {
+	p := new(XdbcDataType)
+	*p = x
+	return p
+}
+
+func (x XdbcDataType) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (XdbcDataType) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[16].Descriptor()
+}
+
+func (XdbcDataType) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[16]
+}
+
+func (x XdbcDataType) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use XdbcDataType.Descriptor instead.
+func (XdbcDataType) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{16}
+}
+
+//*
+// Detailed subtype information for XDBC_TYPE_DATETIME and XDBC_TYPE_INTERVAL.
+type XdbcDatetimeSubcode int32
+
+const (
+	XdbcDatetimeSubcode_XDBC_SUBCODE_UNKNOWN                   XdbcDatetimeSubcode = 0
+	XdbcDatetimeSubcode_XDBC_SUBCODE_YEAR                      XdbcDatetimeSubcode = 1
+	XdbcDatetimeSubcode_XDBC_SUBCODE_DATE                      XdbcDatetimeSubcode = 1
+	XdbcDatetimeSubcode_XDBC_SUBCODE_TIME                      XdbcDatetimeSubcode = 2
+	XdbcDatetimeSubcode_XDBC_SUBCODE_MONTH                     XdbcDatetimeSubcode = 2
+	XdbcDatetimeSubcode_XDBC_SUBCODE_TIMESTAMP                 XdbcDatetimeSubcode = 3
+	XdbcDatetimeSubcode_XDBC_SUBCODE_DAY                       XdbcDatetimeSubcode = 3
+	XdbcDatetimeSubcode_XDBC_SUBCODE_TIME_WITH_TIMEZONE        XdbcDatetimeSubcode = 4
+	XdbcDatetimeSubcode_XDBC_SUBCODE_HOUR                      XdbcDatetimeSubcode = 4
+	XdbcDatetimeSubcode_XDBC_SUBCODE_TIMESTAMP_WITH_TIMEZONE   XdbcDatetimeSubcode = 5
+	XdbcDatetimeSubcode_XDBC_SUBCODE_MINUTE                    XdbcDatetimeSubcode = 5
+	XdbcDatetimeSubcode_XDBC_SUBCODE_SECOND                    XdbcDatetimeSubcode = 6
+	XdbcDatetimeSubcode_XDBC_SUBCODE_YEAR_TO_MONTH             XdbcDatetimeSubcode = 7
+	XdbcDatetimeSubcode_XDBC_SUBCODE_DAY_TO_HOUR               XdbcDatetimeSubcode = 8
+	XdbcDatetimeSubcode_XDBC_SUBCODE_DAY_TO_MINUTE             XdbcDatetimeSubcode = 9
+	XdbcDatetimeSubcode_XDBC_SUBCODE_DAY_TO_SECOND             XdbcDatetimeSubcode = 10
+	XdbcDatetimeSubcode_XDBC_SUBCODE_HOUR_TO_MINUTE            XdbcDatetimeSubcode = 11
+	XdbcDatetimeSubcode_XDBC_SUBCODE_HOUR_TO_SECOND            XdbcDatetimeSubcode = 12
+	XdbcDatetimeSubcode_XDBC_SUBCODE_MINUTE_TO_SECOND          XdbcDatetimeSubcode = 13
+	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_YEAR             XdbcDatetimeSubcode = 101
+	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_MONTH            XdbcDatetimeSubcode = 102
+	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_DAY              XdbcDatetimeSubcode = 103
+	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_HOUR             XdbcDatetimeSubcode = 104
+	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_MINUTE           XdbcDatetimeSubcode = 105
+	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_SECOND           XdbcDatetimeSubcode = 106
+	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_YEAR_TO_MONTH    XdbcDatetimeSubcode = 107
+	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_DAY_TO_HOUR      XdbcDatetimeSubcode = 108
+	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_DAY_TO_MINUTE    XdbcDatetimeSubcode = 109
+	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_DAY_TO_SECOND    XdbcDatetimeSubcode = 110
+	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_HOUR_TO_MINUTE   XdbcDatetimeSubcode = 111
+	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_HOUR_TO_SECOND   XdbcDatetimeSubcode = 112
+	XdbcDatetimeSubcode_XDBC_SUBCODE_INTERVAL_MINUTE_TO_SECOND XdbcDatetimeSubcode = 113
+)
+
+// Enum value maps for XdbcDatetimeSubcode.
+var (
+	XdbcDatetimeSubcode_name = map[int32]string{
+		0: "XDBC_SUBCODE_UNKNOWN",
+		1: "XDBC_SUBCODE_YEAR",
+		// Duplicate value: 1: "XDBC_SUBCODE_DATE",
+		2: "XDBC_SUBCODE_TIME",
+		// Duplicate value: 2: "XDBC_SUBCODE_MONTH",
+		3: "XDBC_SUBCODE_TIMESTAMP",
+		// Duplicate value: 3: "XDBC_SUBCODE_DAY",
+		4: "XDBC_SUBCODE_TIME_WITH_TIMEZONE",
+		// Duplicate value: 4: "XDBC_SUBCODE_HOUR",
+		5: "XDBC_SUBCODE_TIMESTAMP_WITH_TIMEZONE",
+		// Duplicate value: 5: "XDBC_SUBCODE_MINUTE",
+		6:   "XDBC_SUBCODE_SECOND",
+		7:   "XDBC_SUBCODE_YEAR_TO_MONTH",
+		8:   "XDBC_SUBCODE_DAY_TO_HOUR",
+		9:   "XDBC_SUBCODE_DAY_TO_MINUTE",
+		10:  "XDBC_SUBCODE_DAY_TO_SECOND",
+		11:  "XDBC_SUBCODE_HOUR_TO_MINUTE",
+		12:  "XDBC_SUBCODE_HOUR_TO_SECOND",
+		13:  "XDBC_SUBCODE_MINUTE_TO_SECOND",
+		101: "XDBC_SUBCODE_INTERVAL_YEAR",
+		102: "XDBC_SUBCODE_INTERVAL_MONTH",
+		103: "XDBC_SUBCODE_INTERVAL_DAY",
+		104: "XDBC_SUBCODE_INTERVAL_HOUR",
+		105: "XDBC_SUBCODE_INTERVAL_MINUTE",
+		106: "XDBC_SUBCODE_INTERVAL_SECOND",
+		107: "XDBC_SUBCODE_INTERVAL_YEAR_TO_MONTH",
+		108: "XDBC_SUBCODE_INTERVAL_DAY_TO_HOUR",
+		109: "XDBC_SUBCODE_INTERVAL_DAY_TO_MINUTE",
+		110: "XDBC_SUBCODE_INTERVAL_DAY_TO_SECOND",
+		111: "XDBC_SUBCODE_INTERVAL_HOUR_TO_MINUTE",
+		112: "XDBC_SUBCODE_INTERVAL_HOUR_TO_SECOND",
+		113: "XDBC_SUBCODE_INTERVAL_MINUTE_TO_SECOND",
+	}
+	XdbcDatetimeSubcode_value = map[string]int32{
+		"XDBC_SUBCODE_UNKNOWN":                   0,
+		"XDBC_SUBCODE_YEAR":                      1,
+		"XDBC_SUBCODE_DATE":                      1,
+		"XDBC_SUBCODE_TIME":                      2,
+		"XDBC_SUBCODE_MONTH":                     2,
+		"XDBC_SUBCODE_TIMESTAMP":                 3,
+		"XDBC_SUBCODE_DAY":                       3,
+		"XDBC_SUBCODE_TIME_WITH_TIMEZONE":        4,
+		"XDBC_SUBCODE_HOUR":                      4,
+		"XDBC_SUBCODE_TIMESTAMP_WITH_TIMEZONE":   5,
+		"XDBC_SUBCODE_MINUTE":                    5,
+		"XDBC_SUBCODE_SECOND":                    6,
+		"XDBC_SUBCODE_YEAR_TO_MONTH":             7,
+		"XDBC_SUBCODE_DAY_TO_HOUR":               8,
+		"XDBC_SUBCODE_DAY_TO_MINUTE":             9,
+		"XDBC_SUBCODE_DAY_TO_SECOND":             10,
+		"XDBC_SUBCODE_HOUR_TO_MINUTE":            11,
+		"XDBC_SUBCODE_HOUR_TO_SECOND":            12,
+		"XDBC_SUBCODE_MINUTE_TO_SECOND":          13,
+		"XDBC_SUBCODE_INTERVAL_YEAR":             101,
+		"XDBC_SUBCODE_INTERVAL_MONTH":            102,
+		"XDBC_SUBCODE_INTERVAL_DAY":              103,
+		"XDBC_SUBCODE_INTERVAL_HOUR":             104,
+		"XDBC_SUBCODE_INTERVAL_MINUTE":           105,
+		"XDBC_SUBCODE_INTERVAL_SECOND":           106,
+		"XDBC_SUBCODE_INTERVAL_YEAR_TO_MONTH":    107,
+		"XDBC_SUBCODE_INTERVAL_DAY_TO_HOUR":      108,
+		"XDBC_SUBCODE_INTERVAL_DAY_TO_MINUTE":    109,
+		"XDBC_SUBCODE_INTERVAL_DAY_TO_SECOND":    110,
+		"XDBC_SUBCODE_INTERVAL_HOUR_TO_MINUTE":   111,
+		"XDBC_SUBCODE_INTERVAL_HOUR_TO_SECOND":   112,
+		"XDBC_SUBCODE_INTERVAL_MINUTE_TO_SECOND": 113,
+	}
+)
+
+func (x XdbcDatetimeSubcode) Enum() *XdbcDatetimeSubcode {
+	p := new(XdbcDatetimeSubcode)
+	*p = x
+	return p
+}
+
+func (x XdbcDatetimeSubcode) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (XdbcDatetimeSubcode) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[17].Descriptor()
+}
+
+func (XdbcDatetimeSubcode) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[17]
+}
+
+func (x XdbcDatetimeSubcode) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use XdbcDatetimeSubcode.Descriptor instead.
+func (XdbcDatetimeSubcode) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{17}
+}
+
+type Nullable int32
+
+const (
+	//*
+	// Indicates that the fields does not allow the use of null values.
+	Nullable_NULLABILITY_NO_NULLS Nullable = 0
+	//*
+	// Indicates that the fields allow the use of null values.
+	Nullable_NULLABILITY_NULLABLE Nullable = 1
+	//*
+	// Indicates that nullability of the fields can not be determined.
+	Nullable_NULLABILITY_UNKNOWN Nullable = 2
+)
+
+// Enum value maps for Nullable.
+var (
+	Nullable_name = map[int32]string{
+		0: "NULLABILITY_NO_NULLS",
+		1: "NULLABILITY_NULLABLE",
+		2: "NULLABILITY_UNKNOWN",
+	}
+	Nullable_value = map[string]int32{
+		"NULLABILITY_NO_NULLS": 0,
+		"NULLABILITY_NULLABLE": 1,
+		"NULLABILITY_UNKNOWN":  2,
+	}
+)
+
+func (x Nullable) Enum() *Nullable {
+	p := new(Nullable)
+	*p = x
+	return p
+}
+
+func (x Nullable) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (Nullable) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[18].Descriptor()
+}
+
+func (Nullable) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[18]
+}
+
+func (x Nullable) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use Nullable.Descriptor instead.
+func (Nullable) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{18}
+}
+
+type Searchable int32
+
+const (
+	//*
+	// Indicates that column can not be used in a WHERE clause.
+	Searchable_SEARCHABLE_NONE Searchable = 0
+	//*
+	// Indicates that the column can be used in a WHERE clause if it is using a
+	// LIKE operator.
+	Searchable_SEARCHABLE_CHAR Searchable = 1
+	//*
+	// Indicates that the column can be used In a WHERE clause with any
+	// operator other than LIKE.
+	//
+	// - Allowed operators: comparison, quantified comparison, BETWEEN,
+	//                      DISTINCT, IN, MATCH, and UNIQUE.
+	Searchable_SEARCHABLE_BASIC Searchable = 2
+	//*
+	// Indicates that the column can be used in a WHERE clause using any operator.
+	Searchable_SEARCHABLE_FULL Searchable = 3
+)
+
+// Enum value maps for Searchable.
+var (
+	Searchable_name = map[int32]string{
+		0: "SEARCHABLE_NONE",
+		1: "SEARCHABLE_CHAR",
+		2: "SEARCHABLE_BASIC",
+		3: "SEARCHABLE_FULL",
+	}
+	Searchable_value = map[string]int32{
+		"SEARCHABLE_NONE":  0,
+		"SEARCHABLE_CHAR":  1,
+		"SEARCHABLE_BASIC": 2,
+		"SEARCHABLE_FULL":  3,
+	}
+)
+
+func (x Searchable) Enum() *Searchable {
+	p := new(Searchable)
+	*p = x
+	return p
+}
+
+func (x Searchable) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (Searchable) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[19].Descriptor()
+}
+
+func (Searchable) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[19]
+}
+
+func (x Searchable) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use Searchable.Descriptor instead.
+func (Searchable) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{19}
+}
+
+type UpdateDeleteRules int32
+
+const (
+	UpdateDeleteRules_CASCADE     UpdateDeleteRules = 0
+	UpdateDeleteRules_RESTRICT    UpdateDeleteRules = 1
+	UpdateDeleteRules_SET_NULL    UpdateDeleteRules = 2
+	UpdateDeleteRules_NO_ACTION   UpdateDeleteRules = 3
+	UpdateDeleteRules_SET_DEFAULT UpdateDeleteRules = 4
+)
+
+// Enum value maps for UpdateDeleteRules.
+var (
+	UpdateDeleteRules_name = map[int32]string{
+		0: "CASCADE",
+		1: "RESTRICT",
+		2: "SET_NULL",
+		3: "NO_ACTION",
+		4: "SET_DEFAULT",
+	}
+	UpdateDeleteRules_value = map[string]int32{
+		"CASCADE":     0,
+		"RESTRICT":    1,
+		"SET_NULL":    2,
+		"NO_ACTION":   3,
+		"SET_DEFAULT": 4,
+	}
+)
+
+func (x UpdateDeleteRules) Enum() *UpdateDeleteRules {
+	p := new(UpdateDeleteRules)
+	*p = x
+	return p
+}
+
+func (x UpdateDeleteRules) String() string {
+	return protoimpl.X.EnumStringOf(x.Descriptor(), protoreflect.EnumNumber(x))
+}
+
+func (UpdateDeleteRules) Descriptor() protoreflect.EnumDescriptor {
+	return file_FlightSql_proto_enumTypes[20].Descriptor()
+}
+
+func (UpdateDeleteRules) Type() protoreflect.EnumType {
+	return &file_FlightSql_proto_enumTypes[20]
+}
+
+func (x UpdateDeleteRules) Number() protoreflect.EnumNumber {
+	return protoreflect.EnumNumber(x)
+}
+
+// Deprecated: Use UpdateDeleteRules.Descriptor instead.
+func (UpdateDeleteRules) EnumDescriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{20}
+}
+
+//
+// Represents a metadata request. Used in the command member of FlightDescriptor
+// for the following RPC calls:
+//  - GetSchema: return the Arrow schema of the query.
+//  - GetFlightInfo: execute the metadata request.
+//
+// The returned Arrow schema will be:
+// <
+//  info_name: uint32 not null,
+//  value: dense_union<
+//              string_value: utf8,
+//              bool_value: bool,
+//              bigint_value: int64,
+//              int32_bitmask: int32,
+//              string_list: list<string_data: utf8>
+//              int32_to_int32_list_map: map<key: int32, value: list<$data$: int32>>
+// >
+// where there is one row per requested piece of metadata information.
+type CommandGetSqlInfo struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	//
+	// Values are modelled after ODBC's SQLGetInfo() function. This information is intended to provide
+	// Flight SQL clients with basic, SQL syntax and SQL functions related information.
+	// More information types can be added in future releases.
+	// E.g. more SQL syntax support types, scalar functions support, type conversion support etc.
+	//
+	// Note that the set of metadata may expand.
+	//
+	// Initially, Flight SQL will support the following information types:
+	// - Server Information - Range [0-500)
+	// - Syntax Information - Range [500-1000)
+	// Range [0-10,000) is reserved for defaults (see SqlInfo enum for default options).
+	// Custom options should start at 10,000.
+	//
+	// If omitted, then all metadata will be retrieved.
+	// Flight SQL Servers may choose to include additional metadata above and beyond the specified set, however they must
+	// at least return the specified set. IDs ranging from 0 to 10,000 (exclusive) are reserved for future use.
+	// If additional metadata is included, the metadata IDs should start from 10,000.
+	Info []uint32 `protobuf:"varint,1,rep,packed,name=info,proto3" json:"info,omitempty"`
+}
+
+func (x *CommandGetSqlInfo) Reset() {
+	*x = CommandGetSqlInfo{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[0]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandGetSqlInfo) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandGetSqlInfo) ProtoMessage() {}
+
+func (x *CommandGetSqlInfo) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[0]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandGetSqlInfo.ProtoReflect.Descriptor instead.
+func (*CommandGetSqlInfo) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{0}
+}
+
+func (x *CommandGetSqlInfo) GetInfo() []uint32 {
+	if x != nil {
+		return x.Info
+	}
+	return nil
+}
+
+//
+// Represents a request to retrieve information about data type supported on a Flight SQL enabled backend.
+// Used in the command member of FlightDescriptor for the following RPC calls:
+//  - GetSchema: return the schema of the query.
+//  - GetFlightInfo: execute the catalog metadata request.
+//
+// The returned schema will be:
+// <
+//   type_name: utf8 not null (The name of the data type, for example: VARCHAR, INTEGER, etc),
+//   data_type: int not null (The SQL data type),
+//   column_size: int (The maximum size supported by that column.
+//                     In case of exact numeric types, this represents the maximum precision.
+//                     In case of string types, this represents the character length.
+//                     In case of datetime data types, this represents the length in characters of the string representation.
+//                     NULL is returned for data types where column size is not applicable.),
+//   literal_prefix: utf8 (Character or characters used to prefix a literal, NULL is returned for
+//                         data types where a literal prefix is not applicable.),
+//   literal_suffix: utf8 (Character or characters used to terminate a literal,
+//                         NULL is returned for data types where a literal suffix is not applicable.),
+//   create_params: list<utf8 not null>
+//                        (A list of keywords corresponding to which parameters can be used when creating
+//                         a column for that specific type.
+//                         NULL is returned if there are no parameters for the data type definition.),
+//   nullable: int not null (Shows if the data type accepts a NULL value. The possible values can be seen in the
+//                           Nullable enum.),
+//   case_sensitive: bool not null (Shows if a character data type is case-sensitive in collations and comparisons),
+//   searchable: int not null (Shows how the data type is used in a WHERE clause. The possible values can be seen in the
+//                             Searchable enum.),
+//   unsigned_attribute: bool (Shows if the data type is unsigned. NULL is returned if the attribute is
+//                             not applicable to the data type or the data type is not numeric.),
+//   fixed_prec_scale: bool not null (Shows if the data type has predefined fixed precision and scale.),
+//   auto_increment: bool (Shows if the data type is auto incremental. NULL is returned if the attribute
+//                         is not applicable to the data type or the data type is not numeric.),
+//   local_type_name: utf8 (Localized version of the data source-dependent name of the data type. NULL
+//                          is returned if a localized name is not supported by the data source),
+//   minimum_scale: int (The minimum scale of the data type on the data source.
+//                       If a data type has a fixed scale, the MINIMUM_SCALE and MAXIMUM_SCALE
+//                       columns both contain this value. NULL is returned if scale is not applicable.),
+//   maximum_scale: int (The maximum scale of the data type on the data source.
+//                       NULL is returned if scale is not applicable.),
+//   sql_data_type: int not null (The value of the SQL DATA TYPE which has the same values
+//                                as data_type value. Except for interval and datetime, which
+//                                uses generic values. More info about those types can be
+//                                obtained through datetime_subcode. The possible values can be seen
+//                                in the XdbcDataType enum.),
+//   datetime_subcode: int (Only used when the SQL DATA TYPE is interval or datetime. It contains
+//                          its sub types. For type different from interval and datetime, this value
+//                          is NULL. The possible values can be seen in the XdbcDatetimeSubcode enum.),
+//   num_prec_radix: int (If the data type is an approximate numeric type, this column contains
+//                        the value 2 to indicate that COLUMN_SIZE specifies a number of bits. For
+//                        exact numeric types, this column contains the value 10 to indicate that
+//                        column size specifies a number of decimal digits. Otherwise, this column is NULL.),
+//   interval_precision: int (If the data type is an interval data type, then this column contains the value
+//                            of the interval leading precision. Otherwise, this column is NULL. This fields
+//                            is only relevant to be used by ODBC).
+// >
+// The returned data should be ordered by data_type and then by type_name.
+type CommandGetXdbcTypeInfo struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	//
+	// Specifies the data type to search for the info.
+	DataType *int32 `protobuf:"varint,1,opt,name=data_type,json=dataType,proto3,oneof" json:"data_type,omitempty"`
+}
+
+func (x *CommandGetXdbcTypeInfo) Reset() {
+	*x = CommandGetXdbcTypeInfo{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[1]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandGetXdbcTypeInfo) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandGetXdbcTypeInfo) ProtoMessage() {}
+
+func (x *CommandGetXdbcTypeInfo) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[1]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandGetXdbcTypeInfo.ProtoReflect.Descriptor instead.
+func (*CommandGetXdbcTypeInfo) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{1}
+}
+
+func (x *CommandGetXdbcTypeInfo) GetDataType() int32 {
+	if x != nil && x.DataType != nil {
+		return *x.DataType
+	}
+	return 0
+}
+
+//
+// Represents a request to retrieve the list of catalogs on a Flight SQL enabled backend.
+// The definition of a catalog depends on vendor/implementation. It is usually the database itself
+// Used in the command member of FlightDescriptor for the following RPC calls:
+//  - GetSchema: return the Arrow schema of the query.
+//  - GetFlightInfo: execute the catalog metadata request.
+//
+// The returned Arrow schema will be:
+// <
+//  catalog_name: utf8 not null
+// >
+// The returned data should be ordered by catalog_name.
+type CommandGetCatalogs struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+}
+
+func (x *CommandGetCatalogs) Reset() {
+	*x = CommandGetCatalogs{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[2]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandGetCatalogs) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandGetCatalogs) ProtoMessage() {}
+
+func (x *CommandGetCatalogs) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[2]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandGetCatalogs.ProtoReflect.Descriptor instead.
+func (*CommandGetCatalogs) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{2}
+}
+
+//
+// Represents a request to retrieve the list of database schemas on a Flight SQL enabled backend.
+// The definition of a database schema depends on vendor/implementation. It is usually a collection of tables.
+// Used in the command member of FlightDescriptor for the following RPC calls:
+//  - GetSchema: return the Arrow schema of the query.
+//  - GetFlightInfo: execute the catalog metadata request.
+//
+// The returned Arrow schema will be:
+// <
+//  catalog_name: utf8,
+//  db_schema_name: utf8 not null
+// >
+// The returned data should be ordered by catalog_name, then db_schema_name.
+type CommandGetDbSchemas struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	//
+	// Specifies the Catalog to search for the tables.
+	// An empty string retrieves those without a catalog.
+	// If omitted the catalog name should not be used to narrow the search.
+	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
+	//
+	// Specifies a filter pattern for schemas to search for.
+	// When no db_schema_filter_pattern is provided, the pattern will not be used to narrow the search.
+	// In the pattern string, two special characters can be used to denote matching rules:
+	//    - "%" means to match any substring with 0 or more characters.
+	//    - "_" means to match any one character.
+	DbSchemaFilterPattern *string `protobuf:"bytes,2,opt,name=db_schema_filter_pattern,json=dbSchemaFilterPattern,proto3,oneof" json:"db_schema_filter_pattern,omitempty"`
+}
+
+func (x *CommandGetDbSchemas) Reset() {
+	*x = CommandGetDbSchemas{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[3]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandGetDbSchemas) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandGetDbSchemas) ProtoMessage() {}
+
+func (x *CommandGetDbSchemas) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[3]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandGetDbSchemas.ProtoReflect.Descriptor instead.
+func (*CommandGetDbSchemas) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{3}
+}
+
+func (x *CommandGetDbSchemas) GetCatalog() string {
+	if x != nil && x.Catalog != nil {
+		return *x.Catalog
+	}
+	return ""
+}
+
+func (x *CommandGetDbSchemas) GetDbSchemaFilterPattern() string {
+	if x != nil && x.DbSchemaFilterPattern != nil {
+		return *x.DbSchemaFilterPattern
+	}
+	return ""
+}
+
+//
+// Represents a request to retrieve the list of tables, and optionally their schemas, on a Flight SQL enabled backend.
+// Used in the command member of FlightDescriptor for the following RPC calls:
+//  - GetSchema: return the Arrow schema of the query.
+//  - GetFlightInfo: execute the catalog metadata request.
+//
+// The returned Arrow schema will be:
+// <
+//  catalog_name: utf8,
+//  db_schema_name: utf8,
+//  table_name: utf8 not null,
+//  table_type: utf8 not null,
+//  [optional] table_schema: bytes not null (schema of the table as described in Schema.fbs::Schema,
+//                                           it is serialized as an IPC message.)
+// >
+// Fields on table_schema may contain the following metadata:
+//  - ARROW:FLIGHT:SQL:CATALOG_NAME      - Table's catalog name
+//  - ARROW:FLIGHT:SQL:DB_SCHEMA_NAME    - Database schema name
+//  - ARROW:FLIGHT:SQL:TABLE_NAME        - Table name
+//  - ARROW:FLIGHT:SQL:TYPE_NAME         - The data source-specific name for the data type of the column.
+//  - ARROW:FLIGHT:SQL:PRECISION         - Column precision/size
+//  - ARROW:FLIGHT:SQL:SCALE             - Column scale/decimal digits if applicable
+//  - ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT - "1" indicates if the column is auto incremented, "0" otherwise.
+//  - ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE - "1" indicates if the column is case sensitive, "0" otherwise.
+//  - ARROW:FLIGHT:SQL:IS_READ_ONLY      - "1" indicates if the column is read only, "0" otherwise.
+//  - ARROW:FLIGHT:SQL:IS_SEARCHABLE     - "1" indicates if the column is searchable via WHERE clause, "0" otherwise.
+// The returned data should be ordered by catalog_name, db_schema_name, table_name, then table_type, followed by table_schema if requested.
+type CommandGetTables struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	//
+	// Specifies the Catalog to search for the tables.
+	// An empty string retrieves those without a catalog.
+	// If omitted the catalog name should not be used to narrow the search.
+	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
+	//
+	// Specifies a filter pattern for schemas to search for.
+	// When no db_schema_filter_pattern is provided, all schemas matching other filters are searched.
+	// In the pattern string, two special characters can be used to denote matching rules:
+	//    - "%" means to match any substring with 0 or more characters.
+	//    - "_" means to match any one character.
+	DbSchemaFilterPattern *string `protobuf:"bytes,2,opt,name=db_schema_filter_pattern,json=dbSchemaFilterPattern,proto3,oneof" json:"db_schema_filter_pattern,omitempty"`
+	//
+	// Specifies a filter pattern for tables to search for.
+	// When no table_name_filter_pattern is provided, all tables matching other filters are searched.
+	// In the pattern string, two special characters can be used to denote matching rules:
+	//    - "%" means to match any substring with 0 or more characters.
+	//    - "_" means to match any one character.
+	TableNameFilterPattern *string `protobuf:"bytes,3,opt,name=table_name_filter_pattern,json=tableNameFilterPattern,proto3,oneof" json:"table_name_filter_pattern,omitempty"`
+	//
+	// Specifies a filter of table types which must match.
+	// The table types depend on vendor/implementation. It is usually used to separate tables from views or system tables.
+	// TABLE, VIEW, and SYSTEM TABLE are commonly supported.
+	TableTypes []string `protobuf:"bytes,4,rep,name=table_types,json=tableTypes,proto3" json:"table_types,omitempty"`
+	// Specifies if the Arrow schema should be returned for found tables.
+	IncludeSchema bool `protobuf:"varint,5,opt,name=include_schema,json=includeSchema,proto3" json:"include_schema,omitempty"`
+}
+
+func (x *CommandGetTables) Reset() {
+	*x = CommandGetTables{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[4]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandGetTables) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandGetTables) ProtoMessage() {}
+
+func (x *CommandGetTables) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[4]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandGetTables.ProtoReflect.Descriptor instead.
+func (*CommandGetTables) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{4}
+}
+
+func (x *CommandGetTables) GetCatalog() string {
+	if x != nil && x.Catalog != nil {
+		return *x.Catalog
+	}
+	return ""
+}
+
+func (x *CommandGetTables) GetDbSchemaFilterPattern() string {
+	if x != nil && x.DbSchemaFilterPattern != nil {
+		return *x.DbSchemaFilterPattern
+	}
+	return ""
+}
+
+func (x *CommandGetTables) GetTableNameFilterPattern() string {
+	if x != nil && x.TableNameFilterPattern != nil {
+		return *x.TableNameFilterPattern
+	}
+	return ""
+}
+
+func (x *CommandGetTables) GetTableTypes() []string {
+	if x != nil {
+		return x.TableTypes
+	}
+	return nil
+}
+
+func (x *CommandGetTables) GetIncludeSchema() bool {
+	if x != nil {
+		return x.IncludeSchema
+	}
+	return false
+}
+
+//
+// Represents a request to retrieve the list of table types on a Flight SQL enabled backend.
+// The table types depend on vendor/implementation. It is usually used to separate tables from views or system tables.
+// TABLE, VIEW, and SYSTEM TABLE are commonly supported.
+// Used in the command member of FlightDescriptor for the following RPC calls:
+//  - GetSchema: return the Arrow schema of the query.
+//  - GetFlightInfo: execute the catalog metadata request.
+//
+// The returned Arrow schema will be:
+// <
+//  table_type: utf8 not null
+// >
+// The returned data should be ordered by table_type.
+type CommandGetTableTypes struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+}
+
+func (x *CommandGetTableTypes) Reset() {
+	*x = CommandGetTableTypes{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[5]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandGetTableTypes) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandGetTableTypes) ProtoMessage() {}
+
+func (x *CommandGetTableTypes) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[5]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandGetTableTypes.ProtoReflect.Descriptor instead.
+func (*CommandGetTableTypes) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{5}
+}
+
+//
+// Represents a request to retrieve the primary keys of a table on a Flight SQL enabled backend.
+// Used in the command member of FlightDescriptor for the following RPC calls:
+//  - GetSchema: return the Arrow schema of the query.
+//  - GetFlightInfo: execute the catalog metadata request.
+//
+// The returned Arrow schema will be:
+// <
+//  catalog_name: utf8,
+//  db_schema_name: utf8,
+//  table_name: utf8 not null,
+//  column_name: utf8 not null,
+//  key_name: utf8,
+//  key_sequence: int not null
+// >
+// The returned data should be ordered by catalog_name, db_schema_name, table_name, key_name, then key_sequence.
+type CommandGetPrimaryKeys struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	//
+	// Specifies the catalog to search for the table.
+	// An empty string retrieves those without a catalog.
+	// If omitted the catalog name should not be used to narrow the search.
+	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
+	//
+	// Specifies the schema to search for the table.
+	// An empty string retrieves those without a schema.
+	// If omitted the schema name should not be used to narrow the search.
+	DbSchema *string `protobuf:"bytes,2,opt,name=db_schema,json=dbSchema,proto3,oneof" json:"db_schema,omitempty"`
+	// Specifies the table to get the primary keys for.
+	Table string `protobuf:"bytes,3,opt,name=table,proto3" json:"table,omitempty"`
+}
+
+func (x *CommandGetPrimaryKeys) Reset() {
+	*x = CommandGetPrimaryKeys{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[6]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandGetPrimaryKeys) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandGetPrimaryKeys) ProtoMessage() {}
+
+func (x *CommandGetPrimaryKeys) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[6]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandGetPrimaryKeys.ProtoReflect.Descriptor instead.
+func (*CommandGetPrimaryKeys) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{6}
+}
+
+func (x *CommandGetPrimaryKeys) GetCatalog() string {
+	if x != nil && x.Catalog != nil {
+		return *x.Catalog
+	}
+	return ""
+}
+
+func (x *CommandGetPrimaryKeys) GetDbSchema() string {
+	if x != nil && x.DbSchema != nil {
+		return *x.DbSchema
+	}
+	return ""
+}
+
+func (x *CommandGetPrimaryKeys) GetTable() string {
+	if x != nil {
+		return x.Table
+	}
+	return ""
+}
+
+//
+// Represents a request to retrieve a description of the foreign key columns that reference the given table's
+// primary key columns (the foreign keys exported by a table) of a table on a Flight SQL enabled backend.
+// Used in the command member of FlightDescriptor for the following RPC calls:
+//  - GetSchema: return the Arrow schema of the query.
+//  - GetFlightInfo: execute the catalog metadata request.
+//
+// The returned Arrow schema will be:
+// <
+//  pk_catalog_name: utf8,
+//  pk_db_schema_name: utf8,
+//  pk_table_name: utf8 not null,
+//  pk_column_name: utf8 not null,
+//  fk_catalog_name: utf8,
+//  fk_db_schema_name: utf8,
+//  fk_table_name: utf8 not null,
+//  fk_column_name: utf8 not null,
+//  key_sequence: int not null,
+//  fk_key_name: utf8,
+//  pk_key_name: utf8,
+//  update_rule: uint1 not null,
+//  delete_rule: uint1 not null
+// >
+// The returned data should be ordered by fk_catalog_name, fk_db_schema_name, fk_table_name, fk_key_name, then key_sequence.
+// update_rule and delete_rule returns a byte that is equivalent to actions declared on UpdateDeleteRules enum.
+type CommandGetExportedKeys struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	//
+	// Specifies the catalog to search for the foreign key table.
+	// An empty string retrieves those without a catalog.
+	// If omitted the catalog name should not be used to narrow the search.
+	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
+	//
+	// Specifies the schema to search for the foreign key table.
+	// An empty string retrieves those without a schema.
+	// If omitted the schema name should not be used to narrow the search.
+	DbSchema *string `protobuf:"bytes,2,opt,name=db_schema,json=dbSchema,proto3,oneof" json:"db_schema,omitempty"`
+	// Specifies the foreign key table to get the foreign keys for.
+	Table string `protobuf:"bytes,3,opt,name=table,proto3" json:"table,omitempty"`
+}
+
+func (x *CommandGetExportedKeys) Reset() {
+	*x = CommandGetExportedKeys{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[7]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandGetExportedKeys) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandGetExportedKeys) ProtoMessage() {}
+
+func (x *CommandGetExportedKeys) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[7]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandGetExportedKeys.ProtoReflect.Descriptor instead.
+func (*CommandGetExportedKeys) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{7}
+}
+
+func (x *CommandGetExportedKeys) GetCatalog() string {
+	if x != nil && x.Catalog != nil {
+		return *x.Catalog
+	}
+	return ""
+}
+
+func (x *CommandGetExportedKeys) GetDbSchema() string {
+	if x != nil && x.DbSchema != nil {
+		return *x.DbSchema
+	}
+	return ""
+}
+
+func (x *CommandGetExportedKeys) GetTable() string {
+	if x != nil {
+		return x.Table
+	}
+	return ""
+}
+
+//
+// Represents a request to retrieve the foreign keys of a table on a Flight SQL enabled backend.
+// Used in the command member of FlightDescriptor for the following RPC calls:
+//  - GetSchema: return the Arrow schema of the query.
+//  - GetFlightInfo: execute the catalog metadata request.
+//
+// The returned Arrow schema will be:
+// <
+//  pk_catalog_name: utf8,
+//  pk_db_schema_name: utf8,
+//  pk_table_name: utf8 not null,
+//  pk_column_name: utf8 not null,
+//  fk_catalog_name: utf8,
+//  fk_db_schema_name: utf8,
+//  fk_table_name: utf8 not null,
+//  fk_column_name: utf8 not null,
+//  key_sequence: int not null,
+//  fk_key_name: utf8,
+//  pk_key_name: utf8,
+//  update_rule: uint1 not null,
+//  delete_rule: uint1 not null
+// >
+// The returned data should be ordered by pk_catalog_name, pk_db_schema_name, pk_table_name, pk_key_name, then key_sequence.
+// update_rule and delete_rule returns a byte that is equivalent to actions:
+//    - 0 = CASCADE
+//    - 1 = RESTRICT
+//    - 2 = SET NULL
+//    - 3 = NO ACTION
+//    - 4 = SET DEFAULT
+type CommandGetImportedKeys struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	//
+	// Specifies the catalog to search for the primary key table.
+	// An empty string retrieves those without a catalog.
+	// If omitted the catalog name should not be used to narrow the search.
+	Catalog *string `protobuf:"bytes,1,opt,name=catalog,proto3,oneof" json:"catalog,omitempty"`
+	//
+	// Specifies the schema to search for the primary key table.
+	// An empty string retrieves those without a schema.
+	// If omitted the schema name should not be used to narrow the search.
+	DbSchema *string `protobuf:"bytes,2,opt,name=db_schema,json=dbSchema,proto3,oneof" json:"db_schema,omitempty"`
+	// Specifies the primary key table to get the foreign keys for.
+	Table string `protobuf:"bytes,3,opt,name=table,proto3" json:"table,omitempty"`
+}
+
+func (x *CommandGetImportedKeys) Reset() {
+	*x = CommandGetImportedKeys{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[8]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandGetImportedKeys) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandGetImportedKeys) ProtoMessage() {}
+
+func (x *CommandGetImportedKeys) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[8]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandGetImportedKeys.ProtoReflect.Descriptor instead.
+func (*CommandGetImportedKeys) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{8}
+}
+
+func (x *CommandGetImportedKeys) GetCatalog() string {
+	if x != nil && x.Catalog != nil {
+		return *x.Catalog
+	}
+	return ""
+}
+
+func (x *CommandGetImportedKeys) GetDbSchema() string {
+	if x != nil && x.DbSchema != nil {
+		return *x.DbSchema
+	}
+	return ""
+}
+
+func (x *CommandGetImportedKeys) GetTable() string {
+	if x != nil {
+		return x.Table
+	}
+	return ""
+}
+
+//
+// Represents a request to retrieve a description of the foreign key columns in the given foreign key table that
+// reference the primary key or the columns representing a unique constraint of the parent table (could be the same
+// or a different table) on a Flight SQL enabled backend.
+// Used in the command member of FlightDescriptor for the following RPC calls:
+//  - GetSchema: return the Arrow schema of the query.
+//  - GetFlightInfo: execute the catalog metadata request.
+//
+// The returned Arrow schema will be:
+// <
+//  pk_catalog_name: utf8,
+//  pk_db_schema_name: utf8,
+//  pk_table_name: utf8 not null,
+//  pk_column_name: utf8 not null,
+//  fk_catalog_name: utf8,
+//  fk_db_schema_name: utf8,
+//  fk_table_name: utf8 not null,
+//  fk_column_name: utf8 not null,
+//  key_sequence: int not null,
+//  fk_key_name: utf8,
+//  pk_key_name: utf8,
+//  update_rule: uint1 not null,
+//  delete_rule: uint1 not null
+// >
+// The returned data should be ordered by pk_catalog_name, pk_db_schema_name, pk_table_name, pk_key_name, then key_sequence.
+// update_rule and delete_rule returns a byte that is equivalent to actions:
+//    - 0 = CASCADE
+//    - 1 = RESTRICT
+//    - 2 = SET NULL
+//    - 3 = NO ACTION
+//    - 4 = SET DEFAULT
+type CommandGetCrossReference struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	//*
+	// The catalog name where the parent table is.
+	// An empty string retrieves those without a catalog.
+	// If omitted the catalog name should not be used to narrow the search.
+	PkCatalog *string `protobuf:"bytes,1,opt,name=pk_catalog,json=pkCatalog,proto3,oneof" json:"pk_catalog,omitempty"`
+	//*
+	// The Schema name where the parent table is.
+	// An empty string retrieves those without a schema.
+	// If omitted the schema name should not be used to narrow the search.
+	PkDbSchema *string `protobuf:"bytes,2,opt,name=pk_db_schema,json=pkDbSchema,proto3,oneof" json:"pk_db_schema,omitempty"`
+	//*
+	// The parent table name. It cannot be null.
+	PkTable string `protobuf:"bytes,3,opt,name=pk_table,json=pkTable,proto3" json:"pk_table,omitempty"`
+	//*
+	// The catalog name where the foreign table is.
+	// An empty string retrieves those without a catalog.
+	// If omitted the catalog name should not be used to narrow the search.
+	FkCatalog *string `protobuf:"bytes,4,opt,name=fk_catalog,json=fkCatalog,proto3,oneof" json:"fk_catalog,omitempty"`
+	//*
+	// The schema name where the foreign table is.
+	// An empty string retrieves those without a schema.
+	// If omitted the schema name should not be used to narrow the search.
+	FkDbSchema *string `protobuf:"bytes,5,opt,name=fk_db_schema,json=fkDbSchema,proto3,oneof" json:"fk_db_schema,omitempty"`
+	//*
+	// The foreign table name. It cannot be null.
+	FkTable string `protobuf:"bytes,6,opt,name=fk_table,json=fkTable,proto3" json:"fk_table,omitempty"`
+}
+
+func (x *CommandGetCrossReference) Reset() {
+	*x = CommandGetCrossReference{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[9]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandGetCrossReference) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandGetCrossReference) ProtoMessage() {}
+
+func (x *CommandGetCrossReference) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[9]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandGetCrossReference.ProtoReflect.Descriptor instead.
+func (*CommandGetCrossReference) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{9}
+}
+
+func (x *CommandGetCrossReference) GetPkCatalog() string {
+	if x != nil && x.PkCatalog != nil {
+		return *x.PkCatalog
+	}
+	return ""
+}
+
+func (x *CommandGetCrossReference) GetPkDbSchema() string {
+	if x != nil && x.PkDbSchema != nil {
+		return *x.PkDbSchema
+	}
+	return ""
+}
+
+func (x *CommandGetCrossReference) GetPkTable() string {
+	if x != nil {
+		return x.PkTable
+	}
+	return ""
+}
+
+func (x *CommandGetCrossReference) GetFkCatalog() string {
+	if x != nil && x.FkCatalog != nil {
+		return *x.FkCatalog
+	}
+	return ""
+}
+
+func (x *CommandGetCrossReference) GetFkDbSchema() string {
+	if x != nil && x.FkDbSchema != nil {
+		return *x.FkDbSchema
+	}
+	return ""
+}
+
+func (x *CommandGetCrossReference) GetFkTable() string {
+	if x != nil {
+		return x.FkTable
+	}
+	return ""
+}
+
+//
+// Request message for the "CreatePreparedStatement" action on a Flight SQL enabled backend.
+type ActionCreatePreparedStatementRequest struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	// The valid SQL string to create a prepared statement for.
+	Query string `protobuf:"bytes,1,opt,name=query,proto3" json:"query,omitempty"`
+}
+
+func (x *ActionCreatePreparedStatementRequest) Reset() {
+	*x = ActionCreatePreparedStatementRequest{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[10]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *ActionCreatePreparedStatementRequest) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*ActionCreatePreparedStatementRequest) ProtoMessage() {}
+
+func (x *ActionCreatePreparedStatementRequest) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[10]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use ActionCreatePreparedStatementRequest.ProtoReflect.Descriptor instead.
+func (*ActionCreatePreparedStatementRequest) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{10}
+}
+
+func (x *ActionCreatePreparedStatementRequest) GetQuery() string {
+	if x != nil {
+		return x.Query
+	}
+	return ""
+}
+
+//
+// Wrap the result of a "GetPreparedStatement" action.
+//
+// The resultant PreparedStatement can be closed either:
+// - Manually, through the "ClosePreparedStatement" action;
+// - Automatically, by a server timeout.
+type ActionCreatePreparedStatementResult struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	// Opaque handle for the prepared statement on the server.
+	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3" json:"prepared_statement_handle,omitempty"`
+	// If a result set generating query was provided, dataset_schema contains the
+	// schema of the dataset as described in Schema.fbs::Schema, it is serialized as an IPC message.
+	DatasetSchema []byte `protobuf:"bytes,2,opt,name=dataset_schema,json=datasetSchema,proto3" json:"dataset_schema,omitempty"`
+	// If the query provided contained parameters, parameter_schema contains the
+	// schema of the expected parameters as described in Schema.fbs::Schema, it is serialized as an IPC message.
+	ParameterSchema []byte `protobuf:"bytes,3,opt,name=parameter_schema,json=parameterSchema,proto3" json:"parameter_schema,omitempty"`
+}
+
+func (x *ActionCreatePreparedStatementResult) Reset() {
+	*x = ActionCreatePreparedStatementResult{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[11]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *ActionCreatePreparedStatementResult) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*ActionCreatePreparedStatementResult) ProtoMessage() {}
+
+func (x *ActionCreatePreparedStatementResult) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[11]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use ActionCreatePreparedStatementResult.ProtoReflect.Descriptor instead.
+func (*ActionCreatePreparedStatementResult) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{11}
+}
+
+func (x *ActionCreatePreparedStatementResult) GetPreparedStatementHandle() []byte {
+	if x != nil {
+		return x.PreparedStatementHandle
+	}
+	return nil
+}
+
+func (x *ActionCreatePreparedStatementResult) GetDatasetSchema() []byte {
+	if x != nil {
+		return x.DatasetSchema
+	}
+	return nil
+}
+
+func (x *ActionCreatePreparedStatementResult) GetParameterSchema() []byte {
+	if x != nil {
+		return x.ParameterSchema
+	}
+	return nil
+}
+
+//
+// Request message for the "ClosePreparedStatement" action on a Flight SQL enabled backend.
+// Closes server resources associated with the prepared statement handle.
+type ActionClosePreparedStatementRequest struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	// Opaque handle for the prepared statement on the server.
+	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3" json:"prepared_statement_handle,omitempty"`
+}
+
+func (x *ActionClosePreparedStatementRequest) Reset() {
+	*x = ActionClosePreparedStatementRequest{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[12]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *ActionClosePreparedStatementRequest) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*ActionClosePreparedStatementRequest) ProtoMessage() {}
+
+func (x *ActionClosePreparedStatementRequest) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[12]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use ActionClosePreparedStatementRequest.ProtoReflect.Descriptor instead.
+func (*ActionClosePreparedStatementRequest) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{12}
+}
+
+func (x *ActionClosePreparedStatementRequest) GetPreparedStatementHandle() []byte {
+	if x != nil {
+		return x.PreparedStatementHandle
+	}
+	return nil
+}
+
+//
+// Represents a SQL query. Used in the command member of FlightDescriptor
+// for the following RPC calls:
+//  - GetSchema: return the Arrow schema of the query.
+//    Fields on this schema may contain the following metadata:
+//    - ARROW:FLIGHT:SQL:CATALOG_NAME      - Table's catalog name
+//    - ARROW:FLIGHT:SQL:DB_SCHEMA_NAME    - Database schema name
+//    - ARROW:FLIGHT:SQL:TABLE_NAME        - Table name
+//    - ARROW:FLIGHT:SQL:TYPE_NAME         - The data source-specific name for the data type of the column.
+//    - ARROW:FLIGHT:SQL:PRECISION         - Column precision/size
+//    - ARROW:FLIGHT:SQL:SCALE             - Column scale/decimal digits if applicable
+//    - ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT - "1" indicates if the column is auto incremented, "0" otherwise.
+//    - ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE - "1" indicates if the column is case sensitive, "0" otherwise.
+//    - ARROW:FLIGHT:SQL:IS_READ_ONLY      - "1" indicates if the column is read only, "0" otherwise.
+//    - ARROW:FLIGHT:SQL:IS_SEARCHABLE     - "1" indicates if the column is searchable via WHERE clause, "0" otherwise.
+//  - GetFlightInfo: execute the query.
+type CommandStatementQuery struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	// The SQL syntax.
+	Query string `protobuf:"bytes,1,opt,name=query,proto3" json:"query,omitempty"`
+}
+
+func (x *CommandStatementQuery) Reset() {
+	*x = CommandStatementQuery{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[13]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandStatementQuery) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandStatementQuery) ProtoMessage() {}
+
+func (x *CommandStatementQuery) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[13]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandStatementQuery.ProtoReflect.Descriptor instead.
+func (*CommandStatementQuery) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{13}
+}
+
+func (x *CommandStatementQuery) GetQuery() string {
+	if x != nil {
+		return x.Query
+	}
+	return ""
+}
+
+//*
+// Represents a ticket resulting from GetFlightInfo with a CommandStatementQuery.
+// This should be used only once and treated as an opaque value, that is, clients should not attempt to parse this.
+type TicketStatementQuery struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	// Unique identifier for the instance of the statement to execute.
+	StatementHandle []byte `protobuf:"bytes,1,opt,name=statement_handle,json=statementHandle,proto3" json:"statement_handle,omitempty"`
+}
+
+func (x *TicketStatementQuery) Reset() {
+	*x = TicketStatementQuery{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[14]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *TicketStatementQuery) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*TicketStatementQuery) ProtoMessage() {}
+
+func (x *TicketStatementQuery) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[14]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use TicketStatementQuery.ProtoReflect.Descriptor instead.
+func (*TicketStatementQuery) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{14}
+}
+
+func (x *TicketStatementQuery) GetStatementHandle() []byte {
+	if x != nil {
+		return x.StatementHandle
+	}
+	return nil
+}
+
+//
+// Represents an instance of executing a prepared statement. Used in the command member of FlightDescriptor for
+// the following RPC calls:
+//  - GetSchema: return the Arrow schema of the query.
+//    Fields on this schema may contain the following metadata:
+//    - ARROW:FLIGHT:SQL:CATALOG_NAME      - Table's catalog name
+//    - ARROW:FLIGHT:SQL:DB_SCHEMA_NAME    - Database schema name
+//    - ARROW:FLIGHT:SQL:TABLE_NAME        - Table name
+//    - ARROW:FLIGHT:SQL:TYPE_NAME         - The data source-specific name for the data type of the column.
+//    - ARROW:FLIGHT:SQL:PRECISION         - Column precision/size
+//    - ARROW:FLIGHT:SQL:SCALE             - Column scale/decimal digits if applicable
+//    - ARROW:FLIGHT:SQL:IS_AUTO_INCREMENT - "1" indicates if the column is auto incremented, "0" otherwise.
+//    - ARROW:FLIGHT:SQL:IS_CASE_SENSITIVE - "1" indicates if the column is case sensitive, "0" otherwise.
+//    - ARROW:FLIGHT:SQL:IS_READ_ONLY      - "1" indicates if the column is read only, "0" otherwise.
+//    - ARROW:FLIGHT:SQL:IS_SEARCHABLE     - "1" indicates if the column is searchable via WHERE clause, "0" otherwise.
+//  - DoPut: bind parameter values. All of the bound parameter sets will be executed as a single atomic execution.
+//  - GetFlightInfo: execute the prepared statement instance.
+type CommandPreparedStatementQuery struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	// Opaque handle for the prepared statement on the server.
+	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3" json:"prepared_statement_handle,omitempty"`
+}
+
+func (x *CommandPreparedStatementQuery) Reset() {
+	*x = CommandPreparedStatementQuery{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[15]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandPreparedStatementQuery) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandPreparedStatementQuery) ProtoMessage() {}
+
+func (x *CommandPreparedStatementQuery) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[15]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandPreparedStatementQuery.ProtoReflect.Descriptor instead.
+func (*CommandPreparedStatementQuery) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{15}
+}
+
+func (x *CommandPreparedStatementQuery) GetPreparedStatementHandle() []byte {
+	if x != nil {
+		return x.PreparedStatementHandle
+	}
+	return nil
+}
+
+//
+// Represents a SQL update query. Used in the command member of FlightDescriptor
+// for the the RPC call DoPut to cause the server to execute the included SQL update.
+type CommandStatementUpdate struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	// The SQL syntax.
+	Query string `protobuf:"bytes,1,opt,name=query,proto3" json:"query,omitempty"`
+}
+
+func (x *CommandStatementUpdate) Reset() {
+	*x = CommandStatementUpdate{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[16]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandStatementUpdate) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandStatementUpdate) ProtoMessage() {}
+
+func (x *CommandStatementUpdate) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[16]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandStatementUpdate.ProtoReflect.Descriptor instead.
+func (*CommandStatementUpdate) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{16}
+}
+
+func (x *CommandStatementUpdate) GetQuery() string {
+	if x != nil {
+		return x.Query
+	}
+	return ""
+}
+
+//
+// Represents a SQL update query. Used in the command member of FlightDescriptor
+// for the the RPC call DoPut to cause the server to execute the included
+// prepared statement handle as an update.
+type CommandPreparedStatementUpdate struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	// Opaque handle for the prepared statement on the server.
+	PreparedStatementHandle []byte `protobuf:"bytes,1,opt,name=prepared_statement_handle,json=preparedStatementHandle,proto3" json:"prepared_statement_handle,omitempty"`
+}
+
+func (x *CommandPreparedStatementUpdate) Reset() {
+	*x = CommandPreparedStatementUpdate{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[17]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *CommandPreparedStatementUpdate) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*CommandPreparedStatementUpdate) ProtoMessage() {}
+
+func (x *CommandPreparedStatementUpdate) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[17]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use CommandPreparedStatementUpdate.ProtoReflect.Descriptor instead.
+func (*CommandPreparedStatementUpdate) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{17}
+}
+
+func (x *CommandPreparedStatementUpdate) GetPreparedStatementHandle() []byte {
+	if x != nil {
+		return x.PreparedStatementHandle
+	}
+	return nil
+}
+
+//
+// Returned from the RPC call DoPut when a CommandStatementUpdate
+// CommandPreparedStatementUpdate was in the request, containing
+// results from the update.
+type DoPutUpdateResult struct {
+	state         protoimpl.MessageState
+	sizeCache     protoimpl.SizeCache
+	unknownFields protoimpl.UnknownFields
+
+	// The number of records updated. A return value of -1 represents
+	// an unknown updated record count.
+	RecordCount int64 `protobuf:"varint,1,opt,name=record_count,json=recordCount,proto3" json:"record_count,omitempty"`
+}
+
+func (x *DoPutUpdateResult) Reset() {
+	*x = DoPutUpdateResult{}
+	if protoimpl.UnsafeEnabled {
+		mi := &file_FlightSql_proto_msgTypes[18]
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		ms.StoreMessageInfo(mi)
+	}
+}
+
+func (x *DoPutUpdateResult) String() string {
+	return protoimpl.X.MessageStringOf(x)
+}
+
+func (*DoPutUpdateResult) ProtoMessage() {}
+
+func (x *DoPutUpdateResult) ProtoReflect() protoreflect.Message {
+	mi := &file_FlightSql_proto_msgTypes[18]
+	if protoimpl.UnsafeEnabled && x != nil {
+		ms := protoimpl.X.MessageStateOf(protoimpl.Pointer(x))
+		if ms.LoadMessageInfo() == nil {
+			ms.StoreMessageInfo(mi)
+		}
+		return ms
+	}
+	return mi.MessageOf(x)
+}
+
+// Deprecated: Use DoPutUpdateResult.ProtoReflect.Descriptor instead.
+func (*DoPutUpdateResult) Descriptor() ([]byte, []int) {
+	return file_FlightSql_proto_rawDescGZIP(), []int{18}
+}
+
+func (x *DoPutUpdateResult) GetRecordCount() int64 {
+	if x != nil {
+		return x.RecordCount
+	}
+	return 0
+}
+
+var file_FlightSql_proto_extTypes = []protoimpl.ExtensionInfo{
+	{
+		ExtendedType:  (*descriptor.MessageOptions)(nil),
+		ExtensionType: (*bool)(nil),
+		Field:         1000,
+		Name:          "arrow.flight.protocol.sql.experimental",
+		Tag:           "varint,1000,opt,name=experimental",
+		Filename:      "FlightSql.proto",
+	},
+}
+
+// Extension fields to descriptor.MessageOptions.
+var (
+	// optional bool experimental = 1000;
+	E_Experimental = &file_FlightSql_proto_extTypes[0]
+)
+
+var File_FlightSql_proto protoreflect.FileDescriptor
+
+var file_FlightSql_proto_rawDesc = []byte{
+	0x0a, 0x0f, 0x46, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x53, 0x71, 0x6c, 0x2e, 0x70, 0x72, 0x6f, 0x74,
+	0x6f, 0x12, 0x19, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67, 0x68, 0x74, 0x2e,
+	0x70, 0x72, 0x6f, 0x74, 0x6f, 0x63, 0x6f, 0x6c, 0x2e, 0x73, 0x71, 0x6c, 0x1a, 0x20, 0x67, 0x6f,
+	0x6f, 0x67, 0x6c, 0x65, 0x2f, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x62, 0x75, 0x66, 0x2f, 0x64, 0x65,
+	0x73, 0x63, 0x72, 0x69, 0x70, 0x74, 0x6f, 0x72, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x22, 0x2c,
+	0x0a, 0x11, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x53, 0x71, 0x6c, 0x49,
+	0x6e, 0x66, 0x6f, 0x12, 0x12, 0x0a, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x18, 0x01, 0x20, 0x03, 0x28,
+	0x0d, 0x52, 0x04, 0x69, 0x6e, 0x66, 0x6f, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x4d, 0x0a, 0x16,
+	0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x58, 0x64, 0x62, 0x63, 0x54, 0x79,
+	0x70, 0x65, 0x49, 0x6e, 0x66, 0x6f, 0x12, 0x20, 0x0a, 0x09, 0x64, 0x61, 0x74, 0x61, 0x5f, 0x74,
+	0x79, 0x70, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x05, 0x48, 0x00, 0x52, 0x08, 0x64, 0x61, 0x74,
+	0x61, 0x54, 0x79, 0x70, 0x65, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x0c, 0x0a,
+	0x0a, 0x5f, 0x64, 0x61, 0x74, 0x61, 0x5f, 0x74, 0x79, 0x70, 0x65, 0x22, 0x19, 0x0a, 0x12, 0x43,
+	0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x43, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67,
+	0x73, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0xa0, 0x01, 0x0a, 0x13, 0x43, 0x6f, 0x6d, 0x6d, 0x61,
+	0x6e, 0x64, 0x47, 0x65, 0x74, 0x44, 0x62, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x73, 0x12, 0x1d,
+	0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48,
+	0x00, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x3c, 0x0a,
+	0x18, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65,
+	0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48,
+	0x01, 0x52, 0x15, 0x64, 0x62, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x46, 0x69, 0x6c, 0x74, 0x65,
+	0x72, 0x50, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x88, 0x01, 0x01, 0x3a, 0x03, 0xc0, 0x3e, 0x01,
+	0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42, 0x1b, 0x0a, 0x19,
+	0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65,
+	0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x22, 0xc3, 0x02, 0x0a, 0x10, 0x43, 0x6f,
+	0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x73, 0x12, 0x1d,
+	0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48,
+	0x00, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x3c, 0x0a,
+	0x18, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65,
+	0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48,
+	0x01, 0x52, 0x15, 0x64, 0x62, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x46, 0x69, 0x6c, 0x74, 0x65,
+	0x72, 0x50, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x88, 0x01, 0x01, 0x12, 0x3e, 0x0a, 0x19, 0x74,
+	0x61, 0x62, 0x6c, 0x65, 0x5f, 0x6e, 0x61, 0x6d, 0x65, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65, 0x72,
+	0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x48, 0x02,
+	0x52, 0x16, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x4e, 0x61, 0x6d, 0x65, 0x46, 0x69, 0x6c, 0x74, 0x65,
+	0x72, 0x50, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x88, 0x01, 0x01, 0x12, 0x1f, 0x0a, 0x0b, 0x74,
+	0x61, 0x62, 0x6c, 0x65, 0x5f, 0x74, 0x79, 0x70, 0x65, 0x73, 0x18, 0x04, 0x20, 0x03, 0x28, 0x09,
+	0x52, 0x0a, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x12, 0x25, 0x0a, 0x0e,
+	0x69, 0x6e, 0x63, 0x6c, 0x75, 0x64, 0x65, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x05,
+	0x20, 0x01, 0x28, 0x08, 0x52, 0x0d, 0x69, 0x6e, 0x63, 0x6c, 0x75, 0x64, 0x65, 0x53, 0x63, 0x68,
+	0x65, 0x6d, 0x61, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74,
+	0x61, 0x6c, 0x6f, 0x67, 0x42, 0x1b, 0x0a, 0x19, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65,
+	0x6d, 0x61, 0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65, 0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72,
+	0x6e, 0x42, 0x1c, 0x0a, 0x1a, 0x5f, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x5f, 0x6e, 0x61, 0x6d, 0x65,
+	0x5f, 0x66, 0x69, 0x6c, 0x74, 0x65, 0x72, 0x5f, 0x70, 0x61, 0x74, 0x74, 0x65, 0x72, 0x6e, 0x22,
+	0x1b, 0x0a, 0x14, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x54, 0x61, 0x62,
+	0x6c, 0x65, 0x54, 0x79, 0x70, 0x65, 0x73, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x8d, 0x01, 0x0a,
+	0x15, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x50, 0x72, 0x69, 0x6d, 0x61,
+	0x72, 0x79, 0x4b, 0x65, 0x79, 0x73, 0x12, 0x1d, 0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f,
+	0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c,
+	0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x20, 0x0a, 0x09, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65,
+	0x6d, 0x61, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x08, 0x64, 0x62, 0x53, 0x63,
+	0x68, 0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x14, 0x0a, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65,
+	0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x3a, 0x03, 0xc0,
+	0x3e, 0x01, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42, 0x0c,
+	0x0a, 0x0a, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0x8e, 0x01, 0x0a,
+	0x16, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x45, 0x78, 0x70, 0x6f, 0x72,
+	0x74, 0x65, 0x64, 0x4b, 0x65, 0x79, 0x73, 0x12, 0x1d, 0x0a, 0x07, 0x63, 0x61, 0x74, 0x61, 0x6c,
+	0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x07, 0x63, 0x61, 0x74, 0x61,
+	0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x20, 0x0a, 0x09, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68,
+	0x65, 0x6d, 0x61, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x08, 0x64, 0x62, 0x53,
+	0x63, 0x68, 0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x14, 0x0a, 0x05, 0x74, 0x61, 0x62, 0x6c,
+	0x65, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x3a, 0x03,
+	0xc0, 0x3e, 0x01, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42,
+	0x0c, 0x0a, 0x0a, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0x8e, 0x01,
+	0x0a, 0x16, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x49, 0x6d, 0x70, 0x6f,
+	0x72, 0x74, 0x65, 0x64, 0x4b, 0x65, 0x79, 0x73, 0x12, 0x1d, 0x0a, 0x07, 0x63, 0x61, 0x74, 0x61,
+	0x6c, 0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48, 0x00, 0x52, 0x07, 0x63, 0x61, 0x74,
+	0x61, 0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x20, 0x0a, 0x09, 0x64, 0x62, 0x5f, 0x73, 0x63,
+	0x68, 0x65, 0x6d, 0x61, 0x18, 0x02, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x08, 0x64, 0x62,
+	0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x14, 0x0a, 0x05, 0x74, 0x61, 0x62,
+	0x6c, 0x65, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x3a,
+	0x03, 0xc0, 0x3e, 0x01, 0x42, 0x0a, 0x0a, 0x08, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67,
+	0x42, 0x0c, 0x0a, 0x0a, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0xab,
+	0x02, 0x0a, 0x18, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x47, 0x65, 0x74, 0x43, 0x72, 0x6f,
+	0x73, 0x73, 0x52, 0x65, 0x66, 0x65, 0x72, 0x65, 0x6e, 0x63, 0x65, 0x12, 0x22, 0x0a, 0x0a, 0x70,
+	0x6b, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x48,
+	0x00, 0x52, 0x09, 0x70, 0x6b, 0x43, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x88, 0x01, 0x01, 0x12,
+	0x25, 0x0a, 0x0c, 0x70, 0x6b, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x18,
+	0x02, 0x20, 0x01, 0x28, 0x09, 0x48, 0x01, 0x52, 0x0a, 0x70, 0x6b, 0x44, 0x62, 0x53, 0x63, 0x68,
+	0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x19, 0x0a, 0x08, 0x70, 0x6b, 0x5f, 0x74, 0x61, 0x62,
+	0x6c, 0x65, 0x18, 0x03, 0x20, 0x01, 0x28, 0x09, 0x52, 0x07, 0x70, 0x6b, 0x54, 0x61, 0x62, 0x6c,
+	0x65, 0x12, 0x22, 0x0a, 0x0a, 0x66, 0x6b, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x18,
+	0x04, 0x20, 0x01, 0x28, 0x09, 0x48, 0x02, 0x52, 0x09, 0x66, 0x6b, 0x43, 0x61, 0x74, 0x61, 0x6c,
+	0x6f, 0x67, 0x88, 0x01, 0x01, 0x12, 0x25, 0x0a, 0x0c, 0x66, 0x6b, 0x5f, 0x64, 0x62, 0x5f, 0x73,
+	0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x05, 0x20, 0x01, 0x28, 0x09, 0x48, 0x03, 0x52, 0x0a, 0x66,
+	0x6b, 0x44, 0x62, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x88, 0x01, 0x01, 0x12, 0x19, 0x0a, 0x08,
+	0x66, 0x6b, 0x5f, 0x74, 0x61, 0x62, 0x6c, 0x65, 0x18, 0x06, 0x20, 0x01, 0x28, 0x09, 0x52, 0x07,
+	0x66, 0x6b, 0x54, 0x61, 0x62, 0x6c, 0x65, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x42, 0x0d, 0x0a, 0x0b,
+	0x5f, 0x70, 0x6b, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42, 0x0f, 0x0a, 0x0d, 0x5f,
+	0x70, 0x6b, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x42, 0x0d, 0x0a, 0x0b,
+	0x5f, 0x66, 0x6b, 0x5f, 0x63, 0x61, 0x74, 0x61, 0x6c, 0x6f, 0x67, 0x42, 0x0f, 0x0a, 0x0d, 0x5f,
+	0x66, 0x6b, 0x5f, 0x64, 0x62, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x22, 0x41, 0x0a, 0x24,
+	0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43, 0x72, 0x65, 0x61, 0x74, 0x65, 0x50, 0x72, 0x65, 0x70,
+	0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x52, 0x65, 0x71,
+	0x75, 0x65, 0x73, 0x74, 0x12, 0x14, 0x0a, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x18, 0x01, 0x20,
+	0x01, 0x28, 0x09, 0x52, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22,
+	0xb8, 0x01, 0x0a, 0x23, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x43, 0x72, 0x65, 0x61, 0x74, 0x65,
+	0x50, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e,
+	0x74, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x3a, 0x0a, 0x19, 0x70, 0x72, 0x65, 0x70, 0x61,
+	0x72, 0x65, 0x64, 0x5f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x5f, 0x68, 0x61,
+	0x6e, 0x64, 0x6c, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x17, 0x70, 0x72, 0x65, 0x70,
+	0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x48, 0x61, 0x6e,
+	0x64, 0x6c, 0x65, 0x12, 0x25, 0x0a, 0x0e, 0x64, 0x61, 0x74, 0x61, 0x73, 0x65, 0x74, 0x5f, 0x73,
+	0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x02, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0d, 0x64, 0x61, 0x74,
+	0x61, 0x73, 0x65, 0x74, 0x53, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x12, 0x29, 0x0a, 0x10, 0x70, 0x61,
+	0x72, 0x61, 0x6d, 0x65, 0x74, 0x65, 0x72, 0x5f, 0x73, 0x63, 0x68, 0x65, 0x6d, 0x61, 0x18, 0x03,
+	0x20, 0x01, 0x28, 0x0c, 0x52, 0x0f, 0x70, 0x61, 0x72, 0x61, 0x6d, 0x65, 0x74, 0x65, 0x72, 0x53,
+	0x63, 0x68, 0x65, 0x6d, 0x61, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x66, 0x0a, 0x23, 0x41, 0x63,
+	0x74, 0x69, 0x6f, 0x6e, 0x43, 0x6c, 0x6f, 0x73, 0x65, 0x50, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65,
+	0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x52, 0x65, 0x71, 0x75, 0x65, 0x73,
+	0x74, 0x12, 0x3a, 0x0a, 0x19, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x5f, 0x73, 0x74,
+	0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x18, 0x01,
+	0x20, 0x01, 0x28, 0x0c, 0x52, 0x17, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74,
+	0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x48, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x3a, 0x03, 0xc0,
+	0x3e, 0x01, 0x22, 0x32, 0x0a, 0x15, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61,
+	0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x51, 0x75, 0x65, 0x72, 0x79, 0x12, 0x14, 0x0a, 0x05, 0x71,
+	0x75, 0x65, 0x72, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x71, 0x75, 0x65, 0x72,
+	0x79, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x46, 0x0a, 0x14, 0x54, 0x69, 0x63, 0x6b, 0x65, 0x74,
+	0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x51, 0x75, 0x65, 0x72, 0x79, 0x12, 0x29,
+	0x0a, 0x10, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64,
+	0x6c, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x0f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d,
+	0x65, 0x6e, 0x74, 0x48, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x60,
+	0x0a, 0x1d, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x50, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65,
+	0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x51, 0x75, 0x65, 0x72, 0x79, 0x12,
+	0x3a, 0x0a, 0x19, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x5f, 0x73, 0x74, 0x61, 0x74,
+	0x65, 0x6d, 0x65, 0x6e, 0x74, 0x5f, 0x68, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x18, 0x01, 0x20, 0x01,
+	0x28, 0x0c, 0x52, 0x17, 0x70, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74,
+	0x65, 0x6d, 0x65, 0x6e, 0x74, 0x48, 0x61, 0x6e, 0x64, 0x6c, 0x65, 0x3a, 0x03, 0xc0, 0x3e, 0x01,
+	0x22, 0x33, 0x0a, 0x16, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65,
+	0x6d, 0x65, 0x6e, 0x74, 0x55, 0x70, 0x64, 0x61, 0x74, 0x65, 0x12, 0x14, 0x0a, 0x05, 0x71, 0x75,
+	0x65, 0x72, 0x79, 0x18, 0x01, 0x20, 0x01, 0x28, 0x09, 0x52, 0x05, 0x71, 0x75, 0x65, 0x72, 0x79,
+	0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x61, 0x0a, 0x1e, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64,
+	0x50, 0x72, 0x65, 0x70, 0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e,
+	0x74, 0x55, 0x70, 0x64, 0x61, 0x74, 0x65, 0x12, 0x3a, 0x0a, 0x19, 0x70, 0x72, 0x65, 0x70, 0x61,
+	0x72, 0x65, 0x64, 0x5f, 0x73, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x5f, 0x68, 0x61,
+	0x6e, 0x64, 0x6c, 0x65, 0x18, 0x01, 0x20, 0x01, 0x28, 0x0c, 0x52, 0x17, 0x70, 0x72, 0x65, 0x70,
+	0x61, 0x72, 0x65, 0x64, 0x53, 0x74, 0x61, 0x74, 0x65, 0x6d, 0x65, 0x6e, 0x74, 0x48, 0x61, 0x6e,
+	0x64, 0x6c, 0x65, 0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x22, 0x3b, 0x0a, 0x11, 0x44, 0x6f, 0x50, 0x75,
+	0x74, 0x55, 0x70, 0x64, 0x61, 0x74, 0x65, 0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x12, 0x21, 0x0a,
+	0x0c, 0x72, 0x65, 0x63, 0x6f, 0x72, 0x64, 0x5f, 0x63, 0x6f, 0x75, 0x6e, 0x74, 0x18, 0x01, 0x20,
+	0x01, 0x28, 0x03, 0x52, 0x0b, 0x72, 0x65, 0x63, 0x6f, 0x72, 0x64, 0x43, 0x6f, 0x75, 0x6e, 0x74,
+	0x3a, 0x03, 0xc0, 0x3e, 0x01, 0x2a, 0x8c, 0x16, 0x0a, 0x07, 0x53, 0x71, 0x6c, 0x49, 0x6e, 0x66,
+	0x6f, 0x12, 0x1a, 0x0a, 0x16, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f,
+	0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x10, 0x00, 0x12, 0x1d, 0x0a,
+	0x19, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56,
+	0x45, 0x52, 0x5f, 0x56, 0x45, 0x52, 0x53, 0x49, 0x4f, 0x4e, 0x10, 0x01, 0x12, 0x23, 0x0a, 0x1f,
+	0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x45, 0x52, 0x56, 0x45,
+	0x52, 0x5f, 0x41, 0x52, 0x52, 0x4f, 0x57, 0x5f, 0x56, 0x45, 0x52, 0x53, 0x49, 0x4f, 0x4e, 0x10,
+	0x02, 0x12, 0x1f, 0x0a, 0x1b, 0x46, 0x4c, 0x49, 0x47, 0x48, 0x54, 0x5f, 0x53, 0x51, 0x4c, 0x5f,
+	0x53, 0x45, 0x52, 0x56, 0x45, 0x52, 0x5f, 0x52, 0x45, 0x41, 0x44, 0x5f, 0x4f, 0x4e, 0x4c, 0x59,
+	0x10, 0x03, 0x12, 0x14, 0x0a, 0x0f, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x44, 0x4c, 0x5f, 0x43, 0x41,
+	0x54, 0x41, 0x4c, 0x4f, 0x47, 0x10, 0xf4, 0x03, 0x12, 0x13, 0x0a, 0x0e, 0x53, 0x51, 0x4c, 0x5f,
+	0x44, 0x44, 0x4c, 0x5f, 0x53, 0x43, 0x48, 0x45, 0x4d, 0x41, 0x10, 0xf5, 0x03, 0x12, 0x12, 0x0a,
+	0x0d, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x44, 0x4c, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x10, 0xf6,
+	0x03, 0x12, 0x18, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f, 0x49, 0x44, 0x45, 0x4e, 0x54, 0x49, 0x46,
+	0x49, 0x45, 0x52, 0x5f, 0x43, 0x41, 0x53, 0x45, 0x10, 0xf7, 0x03, 0x12, 0x1e, 0x0a, 0x19, 0x53,
+	0x51, 0x4c, 0x5f, 0x49, 0x44, 0x45, 0x4e, 0x54, 0x49, 0x46, 0x49, 0x45, 0x52, 0x5f, 0x51, 0x55,
+	0x4f, 0x54, 0x45, 0x5f, 0x43, 0x48, 0x41, 0x52, 0x10, 0xf8, 0x03, 0x12, 0x1f, 0x0a, 0x1a, 0x53,
+	0x51, 0x4c, 0x5f, 0x51, 0x55, 0x4f, 0x54, 0x45, 0x44, 0x5f, 0x49, 0x44, 0x45, 0x4e, 0x54, 0x49,
+	0x46, 0x49, 0x45, 0x52, 0x5f, 0x43, 0x41, 0x53, 0x45, 0x10, 0xf9, 0x03, 0x12, 0x22, 0x0a, 0x1d,
+	0x53, 0x51, 0x4c, 0x5f, 0x41, 0x4c, 0x4c, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x53, 0x5f, 0x41,
+	0x52, 0x45, 0x5f, 0x53, 0x45, 0x4c, 0x45, 0x43, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x10, 0xfa, 0x03,
+	0x12, 0x16, 0x0a, 0x11, 0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x5f, 0x4f, 0x52, 0x44,
+	0x45, 0x52, 0x49, 0x4e, 0x47, 0x10, 0xfb, 0x03, 0x12, 0x11, 0x0a, 0x0c, 0x53, 0x51, 0x4c, 0x5f,
+	0x4b, 0x45, 0x59, 0x57, 0x4f, 0x52, 0x44, 0x53, 0x10, 0xfc, 0x03, 0x12, 0x1a, 0x0a, 0x15, 0x53,
+	0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4d, 0x45, 0x52, 0x49, 0x43, 0x5f, 0x46, 0x55, 0x4e, 0x43, 0x54,
+	0x49, 0x4f, 0x4e, 0x53, 0x10, 0xfd, 0x03, 0x12, 0x19, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x53,
+	0x54, 0x52, 0x49, 0x4e, 0x47, 0x5f, 0x46, 0x55, 0x4e, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10,
+	0xfe, 0x03, 0x12, 0x19, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x59, 0x53, 0x54, 0x45, 0x4d,
+	0x5f, 0x46, 0x55, 0x4e, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0xff, 0x03, 0x12, 0x1b, 0x0a,
+	0x16, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x41, 0x54, 0x45, 0x54, 0x49, 0x4d, 0x45, 0x5f, 0x46, 0x55,
+	0x4e, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0x80, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51,
+	0x4c, 0x5f, 0x53, 0x45, 0x41, 0x52, 0x43, 0x48, 0x5f, 0x53, 0x54, 0x52, 0x49, 0x4e, 0x47, 0x5f,
+	0x45, 0x53, 0x43, 0x41, 0x50, 0x45, 0x10, 0x81, 0x04, 0x12, 0x1e, 0x0a, 0x19, 0x53, 0x51, 0x4c,
+	0x5f, 0x45, 0x58, 0x54, 0x52, 0x41, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x43, 0x48, 0x41, 0x52,
+	0x41, 0x43, 0x54, 0x45, 0x52, 0x53, 0x10, 0x82, 0x04, 0x12, 0x21, 0x0a, 0x1c, 0x53, 0x51, 0x4c,
+	0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e,
+	0x5f, 0x41, 0x4c, 0x49, 0x41, 0x53, 0x49, 0x4e, 0x47, 0x10, 0x83, 0x04, 0x12, 0x1f, 0x0a, 0x1a,
+	0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x5f, 0x50, 0x4c, 0x55, 0x53, 0x5f, 0x4e, 0x55,
+	0x4c, 0x4c, 0x5f, 0x49, 0x53, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x10, 0x84, 0x04, 0x12, 0x19, 0x0a,
+	0x14, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x43, 0x4f,
+	0x4e, 0x56, 0x45, 0x52, 0x54, 0x10, 0x85, 0x04, 0x12, 0x29, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f,
+	0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x43,
+	0x4f, 0x52, 0x52, 0x45, 0x4c, 0x41, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x53,
+	0x10, 0x86, 0x04, 0x12, 0x33, 0x0a, 0x2e, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f,
+	0x52, 0x54, 0x53, 0x5f, 0x44, 0x49, 0x46, 0x46, 0x45, 0x52, 0x45, 0x4e, 0x54, 0x5f, 0x54, 0x41,
+	0x42, 0x4c, 0x45, 0x5f, 0x43, 0x4f, 0x52, 0x52, 0x45, 0x4c, 0x41, 0x54, 0x49, 0x4f, 0x4e, 0x5f,
+	0x4e, 0x41, 0x4d, 0x45, 0x53, 0x10, 0x87, 0x04, 0x12, 0x29, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f,
+	0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x45, 0x58, 0x50, 0x52, 0x45, 0x53, 0x53,
+	0x49, 0x4f, 0x4e, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x4f, 0x52, 0x44, 0x45, 0x52, 0x5f, 0x42, 0x59,
+	0x10, 0x88, 0x04, 0x12, 0x24, 0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f,
+	0x52, 0x54, 0x53, 0x5f, 0x4f, 0x52, 0x44, 0x45, 0x52, 0x5f, 0x42, 0x59, 0x5f, 0x55, 0x4e, 0x52,
+	0x45, 0x4c, 0x41, 0x54, 0x45, 0x44, 0x10, 0x89, 0x04, 0x12, 0x1b, 0x0a, 0x16, 0x53, 0x51, 0x4c,
+	0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x47, 0x52, 0x4f, 0x55, 0x50,
+	0x5f, 0x42, 0x59, 0x10, 0x8a, 0x04, 0x12, 0x24, 0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55,
+	0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x4c, 0x49, 0x4b, 0x45, 0x5f, 0x45, 0x53, 0x43, 0x41,
+	0x50, 0x45, 0x5f, 0x43, 0x4c, 0x41, 0x55, 0x53, 0x45, 0x10, 0x8b, 0x04, 0x12, 0x26, 0x0a, 0x21,
+	0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x53, 0x5f, 0x4e, 0x4f, 0x4e,
+	0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d, 0x4e,
+	0x53, 0x10, 0x8c, 0x04, 0x12, 0x1a, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50,
+	0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x47, 0x52, 0x41, 0x4d, 0x4d, 0x41, 0x52, 0x10, 0x8d, 0x04,
+	0x12, 0x1f, 0x0a, 0x1a, 0x53, 0x51, 0x4c, 0x5f, 0x41, 0x4e, 0x53, 0x49, 0x39, 0x32, 0x5f, 0x53,
+	0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x4c, 0x45, 0x56, 0x45, 0x4c, 0x10, 0x8e,
+	0x04, 0x12, 0x30, 0x0a, 0x2b, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54,
+	0x53, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x47, 0x52, 0x49, 0x54, 0x59, 0x5f, 0x45, 0x4e, 0x48, 0x41,
+	0x4e, 0x43, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x5f, 0x46, 0x41, 0x43, 0x49, 0x4c, 0x49, 0x54, 0x59,
+	0x10, 0x8f, 0x04, 0x12, 0x22, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x4f, 0x55, 0x54, 0x45, 0x52,
+	0x5f, 0x4a, 0x4f, 0x49, 0x4e, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x5f, 0x4c,
+	0x45, 0x56, 0x45, 0x4c, 0x10, 0x90, 0x04, 0x12, 0x14, 0x0a, 0x0f, 0x53, 0x51, 0x4c, 0x5f, 0x53,
+	0x43, 0x48, 0x45, 0x4d, 0x41, 0x5f, 0x54, 0x45, 0x52, 0x4d, 0x10, 0x91, 0x04, 0x12, 0x17, 0x0a,
+	0x12, 0x53, 0x51, 0x4c, 0x5f, 0x50, 0x52, 0x4f, 0x43, 0x45, 0x44, 0x55, 0x52, 0x45, 0x5f, 0x54,
+	0x45, 0x52, 0x4d, 0x10, 0x92, 0x04, 0x12, 0x15, 0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41,
+	0x54, 0x41, 0x4c, 0x4f, 0x47, 0x5f, 0x54, 0x45, 0x52, 0x4d, 0x10, 0x93, 0x04, 0x12, 0x19, 0x0a,
+	0x14, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x54, 0x41, 0x4c, 0x4f, 0x47, 0x5f, 0x41, 0x54, 0x5f,
+	0x53, 0x54, 0x41, 0x52, 0x54, 0x10, 0x94, 0x04, 0x12, 0x22, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f,
+	0x53, 0x43, 0x48, 0x45, 0x4d, 0x41, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45,
+	0x44, 0x5f, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0x95, 0x04, 0x12, 0x23, 0x0a, 0x1e,
+	0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x54, 0x41, 0x4c, 0x4f, 0x47, 0x53, 0x5f, 0x53, 0x55, 0x50,
+	0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0x96,
+	0x04, 0x12, 0x26, 0x0a, 0x21, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54,
+	0x45, 0x44, 0x5f, 0x50, 0x4f, 0x53, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x45, 0x44, 0x5f, 0x43, 0x4f,
+	0x4d, 0x4d, 0x41, 0x4e, 0x44, 0x53, 0x10, 0x97, 0x04, 0x12, 0x24, 0x0a, 0x1f, 0x53, 0x51, 0x4c,
+	0x5f, 0x53, 0x45, 0x4c, 0x45, 0x43, 0x54, 0x5f, 0x46, 0x4f, 0x52, 0x5f, 0x55, 0x50, 0x44, 0x41,
+	0x54, 0x45, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0x98, 0x04, 0x12,
+	0x24, 0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x54, 0x4f, 0x52, 0x45, 0x44, 0x5f, 0x50, 0x52,
+	0x4f, 0x43, 0x45, 0x44, 0x55, 0x52, 0x45, 0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54,
+	0x45, 0x44, 0x10, 0x99, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50,
+	0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49, 0x45,
+	0x53, 0x10, 0x9a, 0x04, 0x12, 0x28, 0x0a, 0x23, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x52, 0x52,
+	0x45, 0x4c, 0x41, 0x54, 0x45, 0x44, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49, 0x45,
+	0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0x9b, 0x04, 0x12, 0x19,
+	0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f,
+	0x55, 0x4e, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0x9c, 0x04, 0x12, 0x22, 0x0a, 0x1d, 0x53, 0x51, 0x4c,
+	0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x42, 0x49, 0x4e, 0x41, 0x52, 0x59, 0x5f, 0x4c, 0x49, 0x54, 0x45,
+	0x52, 0x41, 0x4c, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0x9d, 0x04, 0x12, 0x20, 0x0a,
+	0x1b, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x48, 0x41, 0x52, 0x5f, 0x4c, 0x49,
+	0x54, 0x45, 0x52, 0x41, 0x4c, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0x9e, 0x04, 0x12,
+	0x1f, 0x0a, 0x1a, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55, 0x4d,
+	0x4e, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0x9f, 0x04,
+	0x12, 0x20, 0x0a, 0x1b, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c, 0x55,
+	0x4d, 0x4e, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x47, 0x52, 0x4f, 0x55, 0x50, 0x5f, 0x42, 0x59, 0x10,
+	0xa0, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f,
+	0x4c, 0x55, 0x4d, 0x4e, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x49, 0x4e, 0x44, 0x45, 0x58, 0x10, 0xa1,
+	0x04, 0x12, 0x20, 0x0a, 0x1b, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f, 0x4c,
+	0x55, 0x4d, 0x4e, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x4f, 0x52, 0x44, 0x45, 0x52, 0x5f, 0x42, 0x59,
+	0x10, 0xa2, 0x04, 0x12, 0x1e, 0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43,
+	0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x53, 0x45, 0x4c, 0x45, 0x43, 0x54,
+	0x10, 0xa3, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43,
+	0x4f, 0x4c, 0x55, 0x4d, 0x4e, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x10,
+	0xa4, 0x04, 0x12, 0x18, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x4f,
+	0x4e, 0x4e, 0x45, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0xa5, 0x04, 0x12, 0x1f, 0x0a, 0x1a,
+	0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x55, 0x52, 0x53, 0x4f, 0x52, 0x5f, 0x4e,
+	0x41, 0x4d, 0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xa6, 0x04, 0x12, 0x19, 0x0a,
+	0x14, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x49, 0x4e, 0x44, 0x45, 0x58, 0x5f, 0x4c,
+	0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xa7, 0x04, 0x12, 0x1e, 0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f,
+	0x44, 0x42, 0x5f, 0x53, 0x43, 0x48, 0x45, 0x4d, 0x41, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x4c,
+	0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xa8, 0x04, 0x12, 0x22, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f,
+	0x4d, 0x41, 0x58, 0x5f, 0x50, 0x52, 0x4f, 0x43, 0x45, 0x44, 0x55, 0x52, 0x45, 0x5f, 0x4e, 0x41,
+	0x4d, 0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xa9, 0x04, 0x12, 0x20, 0x0a, 0x1b,
+	0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x43, 0x41, 0x54, 0x41, 0x4c, 0x4f, 0x47, 0x5f,
+	0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xaa, 0x04, 0x12, 0x15,
+	0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x52, 0x4f, 0x57, 0x5f, 0x53, 0x49,
+	0x5a, 0x45, 0x10, 0xab, 0x04, 0x12, 0x24, 0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58,
+	0x5f, 0x52, 0x4f, 0x57, 0x5f, 0x53, 0x49, 0x5a, 0x45, 0x5f, 0x49, 0x4e, 0x43, 0x4c, 0x55, 0x44,
+	0x45, 0x53, 0x5f, 0x42, 0x4c, 0x4f, 0x42, 0x53, 0x10, 0xac, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53,
+	0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x53, 0x54, 0x41, 0x54, 0x45, 0x4d, 0x45, 0x4e, 0x54,
+	0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xad, 0x04, 0x12, 0x17, 0x0a, 0x12, 0x53, 0x51,
+	0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x53, 0x54, 0x41, 0x54, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x53,
+	0x10, 0xae, 0x04, 0x12, 0x1e, 0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x54,
+	0x41, 0x42, 0x4c, 0x45, 0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48,
+	0x10, 0xaf, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x54,
+	0x41, 0x42, 0x4c, 0x45, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x53, 0x45, 0x4c, 0x45, 0x43, 0x54, 0x10,
+	0xb0, 0x04, 0x12, 0x1c, 0x0a, 0x17, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x41, 0x58, 0x5f, 0x55, 0x53,
+	0x45, 0x52, 0x4e, 0x41, 0x4d, 0x45, 0x5f, 0x4c, 0x45, 0x4e, 0x47, 0x54, 0x48, 0x10, 0xb1, 0x04,
+	0x12, 0x26, 0x0a, 0x21, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x45, 0x46, 0x41, 0x55, 0x4c, 0x54, 0x5f,
+	0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x49, 0x53, 0x4f, 0x4c,
+	0x41, 0x54, 0x49, 0x4f, 0x4e, 0x10, 0xb2, 0x04, 0x12, 0x1f, 0x0a, 0x1a, 0x53, 0x51, 0x4c, 0x5f,
+	0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x5f, 0x53, 0x55, 0x50,
+	0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0xb3, 0x04, 0x12, 0x30, 0x0a, 0x2b, 0x53, 0x51, 0x4c,
+	0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53,
+	0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x5f, 0x49, 0x53, 0x4f, 0x4c, 0x41, 0x54, 0x49, 0x4f,
+	0x4e, 0x5f, 0x4c, 0x45, 0x56, 0x45, 0x4c, 0x53, 0x10, 0xb4, 0x04, 0x12, 0x32, 0x0a, 0x2d, 0x53,
+	0x51, 0x4c, 0x5f, 0x44, 0x41, 0x54, 0x41, 0x5f, 0x44, 0x45, 0x46, 0x49, 0x4e, 0x49, 0x54, 0x49,
+	0x4f, 0x4e, 0x5f, 0x43, 0x41, 0x55, 0x53, 0x45, 0x53, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41,
+	0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x43, 0x4f, 0x4d, 0x4d, 0x49, 0x54, 0x10, 0xb5, 0x04, 0x12,
+	0x31, 0x0a, 0x2c, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x41, 0x54, 0x41, 0x5f, 0x44, 0x45, 0x46, 0x49,
+	0x4e, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53,
+	0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x5f, 0x49, 0x47, 0x4e, 0x4f, 0x52, 0x45, 0x44, 0x10,
+	0xb6, 0x04, 0x12, 0x23, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52,
+	0x54, 0x45, 0x44, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x54,
+	0x59, 0x50, 0x45, 0x53, 0x10, 0xb7, 0x04, 0x12, 0x3b, 0x0a, 0x36, 0x53, 0x51, 0x4c, 0x5f, 0x53,
+	0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52,
+	0x45, 0x4e, 0x43, 0x49, 0x45, 0x53, 0x5f, 0x46, 0x4f, 0x52, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c,
+	0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45,
+	0x44, 0x10, 0xb8, 0x04, 0x12, 0x3c, 0x0a, 0x37, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50,
+	0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43,
+	0x49, 0x45, 0x53, 0x5f, 0x46, 0x4f, 0x52, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53,
+	0x45, 0x54, 0x5f, 0x46, 0x4f, 0x52, 0x57, 0x41, 0x52, 0x44, 0x5f, 0x4f, 0x4e, 0x4c, 0x59, 0x10,
+	0xb9, 0x04, 0x12, 0x40, 0x0a, 0x3b, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52,
+	0x54, 0x45, 0x44, 0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x49, 0x45,
+	0x53, 0x5f, 0x46, 0x4f, 0x52, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54,
+	0x5f, 0x53, 0x43, 0x52, 0x4f, 0x4c, 0x4c, 0x5f, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56,
+	0x45, 0x10, 0xba, 0x04, 0x12, 0x42, 0x0a, 0x3d, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x50, 0x50,
+	0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43,
+	0x49, 0x45, 0x53, 0x5f, 0x46, 0x4f, 0x52, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53,
+	0x45, 0x54, 0x5f, 0x53, 0x43, 0x52, 0x4f, 0x4c, 0x4c, 0x5f, 0x49, 0x4e, 0x53, 0x45, 0x4e, 0x53,
+	0x49, 0x54, 0x49, 0x56, 0x45, 0x10, 0xbb, 0x04, 0x12, 0x20, 0x0a, 0x1b, 0x53, 0x51, 0x4c, 0x5f,
+	0x42, 0x41, 0x54, 0x43, 0x48, 0x5f, 0x55, 0x50, 0x44, 0x41, 0x54, 0x45, 0x53, 0x5f, 0x53, 0x55,
+	0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0xbc, 0x04, 0x12, 0x1d, 0x0a, 0x18, 0x53, 0x51,
+	0x4c, 0x5f, 0x53, 0x41, 0x56, 0x45, 0x50, 0x4f, 0x49, 0x4e, 0x54, 0x53, 0x5f, 0x53, 0x55, 0x50,
+	0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0xbd, 0x04, 0x12, 0x23, 0x0a, 0x1e, 0x53, 0x51, 0x4c,
+	0x5f, 0x4e, 0x41, 0x4d, 0x45, 0x44, 0x5f, 0x50, 0x41, 0x52, 0x41, 0x4d, 0x45, 0x54, 0x45, 0x52,
+	0x53, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0xbe, 0x04, 0x12, 0x1d,
+	0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x4c, 0x4f, 0x43, 0x41, 0x54, 0x4f, 0x52, 0x53, 0x5f, 0x55,
+	0x50, 0x44, 0x41, 0x54, 0x45, 0x5f, 0x43, 0x4f, 0x50, 0x59, 0x10, 0xbf, 0x04, 0x12, 0x35, 0x0a,
+	0x30, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x54, 0x4f, 0x52, 0x45, 0x44, 0x5f, 0x46, 0x55, 0x4e, 0x43,
+	0x54, 0x49, 0x4f, 0x4e, 0x53, 0x5f, 0x55, 0x53, 0x49, 0x4e, 0x47, 0x5f, 0x43, 0x41, 0x4c, 0x4c,
+	0x5f, 0x53, 0x59, 0x4e, 0x54, 0x41, 0x58, 0x5f, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45,
+	0x44, 0x10, 0xc0, 0x04, 0x2a, 0xb2, 0x01, 0x0a, 0x1b, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70,
+	0x6f, 0x72, 0x74, 0x65, 0x64, 0x43, 0x61, 0x73, 0x65, 0x53, 0x65, 0x6e, 0x73, 0x69, 0x74, 0x69,
+	0x76, 0x69, 0x74, 0x79, 0x12, 0x20, 0x0a, 0x1c, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x53, 0x45,
+	0x5f, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x49, 0x54, 0x59, 0x5f, 0x55, 0x4e, 0x4b,
+	0x4e, 0x4f, 0x57, 0x4e, 0x10, 0x00, 0x12, 0x29, 0x0a, 0x25, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41,
+	0x53, 0x45, 0x5f, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x49, 0x54, 0x59, 0x5f, 0x43,
+	0x41, 0x53, 0x45, 0x5f, 0x49, 0x4e, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x45, 0x10,
+	0x01, 0x12, 0x22, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x53, 0x45, 0x5f, 0x53, 0x45,
+	0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x49, 0x54, 0x59, 0x5f, 0x55, 0x50, 0x50, 0x45, 0x52, 0x43,
+	0x41, 0x53, 0x45, 0x10, 0x02, 0x12, 0x22, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x41, 0x53,
+	0x45, 0x5f, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x49, 0x54, 0x59, 0x5f, 0x4c, 0x4f,
+	0x57, 0x45, 0x52, 0x43, 0x41, 0x53, 0x45, 0x10, 0x03, 0x2a, 0x82, 0x01, 0x0a, 0x0f, 0x53, 0x71,
+	0x6c, 0x4e, 0x75, 0x6c, 0x6c, 0x4f, 0x72, 0x64, 0x65, 0x72, 0x69, 0x6e, 0x67, 0x12, 0x19, 0x0a,
+	0x15, 0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x53, 0x5f, 0x53, 0x4f, 0x52, 0x54, 0x45,
+	0x44, 0x5f, 0x48, 0x49, 0x47, 0x48, 0x10, 0x00, 0x12, 0x18, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f,
+	0x4e, 0x55, 0x4c, 0x4c, 0x53, 0x5f, 0x53, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x4c, 0x4f, 0x57,
+	0x10, 0x01, 0x12, 0x1d, 0x0a, 0x19, 0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x53, 0x5f,
+	0x53, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x41, 0x54, 0x5f, 0x53, 0x54, 0x41, 0x52, 0x54, 0x10,
+	0x02, 0x12, 0x1b, 0x0a, 0x17, 0x53, 0x51, 0x4c, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x53, 0x5f, 0x53,
+	0x4f, 0x52, 0x54, 0x45, 0x44, 0x5f, 0x41, 0x54, 0x5f, 0x45, 0x4e, 0x44, 0x10, 0x03, 0x2a, 0x5e,
+	0x0a, 0x13, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x53, 0x71, 0x6c, 0x47, 0x72,
+	0x61, 0x6d, 0x6d, 0x61, 0x72, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f, 0x4d, 0x49, 0x4e,
+	0x49, 0x4d, 0x55, 0x4d, 0x5f, 0x47, 0x52, 0x41, 0x4d, 0x4d, 0x41, 0x52, 0x10, 0x00, 0x12, 0x14,
+	0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x52, 0x45, 0x5f, 0x47, 0x52, 0x41, 0x4d, 0x4d,
+	0x41, 0x52, 0x10, 0x01, 0x12, 0x18, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x45, 0x58, 0x54, 0x45,
+	0x4e, 0x44, 0x45, 0x44, 0x5f, 0x47, 0x52, 0x41, 0x4d, 0x4d, 0x41, 0x52, 0x10, 0x02, 0x2a, 0x68,
+	0x0a, 0x1e, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x41, 0x6e, 0x73, 0x69, 0x39,
+	0x32, 0x53, 0x71, 0x6c, 0x47, 0x72, 0x61, 0x6d, 0x6d, 0x61, 0x72, 0x4c, 0x65, 0x76, 0x65, 0x6c,
+	0x12, 0x14, 0x0a, 0x10, 0x41, 0x4e, 0x53, 0x49, 0x39, 0x32, 0x5f, 0x45, 0x4e, 0x54, 0x52, 0x59,
+	0x5f, 0x53, 0x51, 0x4c, 0x10, 0x00, 0x12, 0x1b, 0x0a, 0x17, 0x41, 0x4e, 0x53, 0x49, 0x39, 0x32,
+	0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x4d, 0x45, 0x44, 0x49, 0x41, 0x54, 0x45, 0x5f, 0x53, 0x51,
+	0x4c, 0x10, 0x01, 0x12, 0x13, 0x0a, 0x0f, 0x41, 0x4e, 0x53, 0x49, 0x39, 0x32, 0x5f, 0x46, 0x55,
+	0x4c, 0x4c, 0x5f, 0x53, 0x51, 0x4c, 0x10, 0x02, 0x2a, 0x6d, 0x0a, 0x19, 0x53, 0x71, 0x6c, 0x4f,
+	0x75, 0x74, 0x65, 0x72, 0x4a, 0x6f, 0x69, 0x6e, 0x73, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74,
+	0x4c, 0x65, 0x76, 0x65, 0x6c, 0x12, 0x19, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x4a, 0x4f, 0x49,
+	0x4e, 0x53, 0x5f, 0x55, 0x4e, 0x53, 0x55, 0x50, 0x50, 0x4f, 0x52, 0x54, 0x45, 0x44, 0x10, 0x00,
+	0x12, 0x1b, 0x0a, 0x17, 0x53, 0x51, 0x4c, 0x5f, 0x4c, 0x49, 0x4d, 0x49, 0x54, 0x45, 0x44, 0x5f,
+	0x4f, 0x55, 0x54, 0x45, 0x52, 0x5f, 0x4a, 0x4f, 0x49, 0x4e, 0x53, 0x10, 0x01, 0x12, 0x18, 0x0a,
+	0x14, 0x53, 0x51, 0x4c, 0x5f, 0x46, 0x55, 0x4c, 0x4c, 0x5f, 0x4f, 0x55, 0x54, 0x45, 0x52, 0x5f,
+	0x4a, 0x4f, 0x49, 0x4e, 0x53, 0x10, 0x02, 0x2a, 0x51, 0x0a, 0x13, 0x53, 0x71, 0x6c, 0x53, 0x75,
+	0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x47, 0x72, 0x6f, 0x75, 0x70, 0x42, 0x79, 0x12, 0x1a,
+	0x0a, 0x16, 0x53, 0x51, 0x4c, 0x5f, 0x47, 0x52, 0x4f, 0x55, 0x50, 0x5f, 0x42, 0x59, 0x5f, 0x55,
+	0x4e, 0x52, 0x45, 0x4c, 0x41, 0x54, 0x45, 0x44, 0x10, 0x00, 0x12, 0x1e, 0x0a, 0x1a, 0x53, 0x51,
+	0x4c, 0x5f, 0x47, 0x52, 0x4f, 0x55, 0x50, 0x5f, 0x42, 0x59, 0x5f, 0x42, 0x45, 0x59, 0x4f, 0x4e,
+	0x44, 0x5f, 0x53, 0x45, 0x4c, 0x45, 0x43, 0x54, 0x10, 0x01, 0x2a, 0x90, 0x01, 0x0a, 0x1a, 0x53,
+	0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x45, 0x6c, 0x65, 0x6d, 0x65,
+	0x6e, 0x74, 0x41, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x73, 0x12, 0x22, 0x0a, 0x1e, 0x53, 0x51, 0x4c,
+	0x5f, 0x45, 0x4c, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x5f, 0x49, 0x4e, 0x5f, 0x50, 0x52, 0x4f, 0x43,
+	0x45, 0x44, 0x55, 0x52, 0x45, 0x5f, 0x43, 0x41, 0x4c, 0x4c, 0x53, 0x10, 0x00, 0x12, 0x24, 0x0a,
+	0x20, 0x53, 0x51, 0x4c, 0x5f, 0x45, 0x4c, 0x45, 0x4d, 0x45, 0x4e, 0x54, 0x5f, 0x49, 0x4e, 0x5f,
+	0x49, 0x4e, 0x44, 0x45, 0x58, 0x5f, 0x44, 0x45, 0x46, 0x49, 0x4e, 0x49, 0x54, 0x49, 0x4f, 0x4e,
+	0x53, 0x10, 0x01, 0x12, 0x28, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f, 0x45, 0x4c, 0x45, 0x4d, 0x45,
+	0x4e, 0x54, 0x5f, 0x49, 0x4e, 0x5f, 0x50, 0x52, 0x49, 0x56, 0x49, 0x4c, 0x45, 0x47, 0x45, 0x5f,
+	0x44, 0x45, 0x46, 0x49, 0x4e, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0x02, 0x2a, 0x56, 0x0a,
+	0x1e, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x50, 0x6f, 0x73,
+	0x69, 0x74, 0x69, 0x6f, 0x6e, 0x65, 0x64, 0x43, 0x6f, 0x6d, 0x6d, 0x61, 0x6e, 0x64, 0x73, 0x12,
+	0x19, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x50, 0x4f, 0x53, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x45,
+	0x44, 0x5f, 0x44, 0x45, 0x4c, 0x45, 0x54, 0x45, 0x10, 0x00, 0x12, 0x19, 0x0a, 0x15, 0x53, 0x51,
+	0x4c, 0x5f, 0x50, 0x4f, 0x53, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x45, 0x44, 0x5f, 0x55, 0x50, 0x44,
+	0x41, 0x54, 0x45, 0x10, 0x01, 0x2a, 0x97, 0x01, 0x0a, 0x16, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70,
+	0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x53, 0x75, 0x62, 0x71, 0x75, 0x65, 0x72, 0x69, 0x65, 0x73,
+	0x12, 0x21, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49,
+	0x45, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x43, 0x4f, 0x4d, 0x50, 0x41, 0x52, 0x49, 0x53, 0x4f, 0x4e,
+	0x53, 0x10, 0x00, 0x12, 0x1c, 0x0a, 0x18, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55,
+	0x45, 0x52, 0x49, 0x45, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x45, 0x58, 0x49, 0x53, 0x54, 0x53, 0x10,
+	0x01, 0x12, 0x19, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52,
+	0x49, 0x45, 0x53, 0x5f, 0x49, 0x4e, 0x5f, 0x49, 0x4e, 0x53, 0x10, 0x02, 0x12, 0x21, 0x0a, 0x1d,
+	0x53, 0x51, 0x4c, 0x5f, 0x53, 0x55, 0x42, 0x51, 0x55, 0x45, 0x52, 0x49, 0x45, 0x53, 0x5f, 0x49,
+	0x4e, 0x5f, 0x51, 0x55, 0x41, 0x4e, 0x54, 0x49, 0x46, 0x49, 0x45, 0x44, 0x53, 0x10, 0x03, 0x2a,
+	0x36, 0x0a, 0x12, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x55,
+	0x6e, 0x69, 0x6f, 0x6e, 0x73, 0x12, 0x0d, 0x0a, 0x09, 0x53, 0x51, 0x4c, 0x5f, 0x55, 0x4e, 0x49,
+	0x4f, 0x4e, 0x10, 0x00, 0x12, 0x11, 0x0a, 0x0d, 0x53, 0x51, 0x4c, 0x5f, 0x55, 0x4e, 0x49, 0x4f,
+	0x4e, 0x5f, 0x41, 0x4c, 0x4c, 0x10, 0x01, 0x2a, 0xc9, 0x01, 0x0a, 0x1c, 0x53, 0x71, 0x6c, 0x54,
+	0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x49, 0x73, 0x6f, 0x6c, 0x61, 0x74,
+	0x69, 0x6f, 0x6e, 0x4c, 0x65, 0x76, 0x65, 0x6c, 0x12, 0x18, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f,
+	0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x4e, 0x4f, 0x4e, 0x45,
+	0x10, 0x00, 0x12, 0x24, 0x0a, 0x20, 0x53, 0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41,
+	0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x52, 0x45, 0x41, 0x44, 0x5f, 0x55, 0x4e, 0x43, 0x4f, 0x4d,
+	0x4d, 0x49, 0x54, 0x54, 0x45, 0x44, 0x10, 0x01, 0x12, 0x22, 0x0a, 0x1e, 0x53, 0x51, 0x4c, 0x5f,
+	0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x52, 0x45, 0x41, 0x44,
+	0x5f, 0x43, 0x4f, 0x4d, 0x4d, 0x49, 0x54, 0x54, 0x45, 0x44, 0x10, 0x02, 0x12, 0x23, 0x0a, 0x1f,
+	0x53, 0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x5f,
+	0x52, 0x45, 0x50, 0x45, 0x41, 0x54, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x52, 0x45, 0x41, 0x44, 0x10,
+	0x03, 0x12, 0x20, 0x0a, 0x1c, 0x53, 0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43,
+	0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x53, 0x45, 0x52, 0x49, 0x41, 0x4c, 0x49, 0x5a, 0x41, 0x42, 0x4c,
+	0x45, 0x10, 0x04, 0x2a, 0x89, 0x01, 0x0a, 0x18, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f,
+	0x72, 0x74, 0x65, 0x64, 0x54, 0x72, 0x61, 0x6e, 0x73, 0x61, 0x63, 0x74, 0x69, 0x6f, 0x6e, 0x73,
+	0x12, 0x1f, 0x0a, 0x1b, 0x53, 0x51, 0x4c, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54,
+	0x49, 0x4f, 0x4e, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10,
+	0x00, 0x12, 0x24, 0x0a, 0x20, 0x53, 0x51, 0x4c, 0x5f, 0x44, 0x41, 0x54, 0x41, 0x5f, 0x44, 0x45,
+	0x46, 0x49, 0x4e, 0x49, 0x54, 0x49, 0x4f, 0x4e, 0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43,
+	0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0x01, 0x12, 0x26, 0x0a, 0x22, 0x53, 0x51, 0x4c, 0x5f, 0x44,
+	0x41, 0x54, 0x41, 0x5f, 0x4d, 0x41, 0x4e, 0x49, 0x50, 0x55, 0x4c, 0x41, 0x54, 0x49, 0x4f, 0x4e,
+	0x5f, 0x54, 0x52, 0x41, 0x4e, 0x53, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x53, 0x10, 0x02, 0x2a,
+	0xbc, 0x01, 0x0a, 0x19, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64,
+	0x52, 0x65, 0x73, 0x75, 0x6c, 0x74, 0x53, 0x65, 0x74, 0x54, 0x79, 0x70, 0x65, 0x12, 0x23, 0x0a,
+	0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f,
+	0x54, 0x59, 0x50, 0x45, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44,
+	0x10, 0x00, 0x12, 0x24, 0x0a, 0x20, 0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54,
+	0x5f, 0x53, 0x45, 0x54, 0x5f, 0x54, 0x59, 0x50, 0x45, 0x5f, 0x46, 0x4f, 0x52, 0x57, 0x41, 0x52,
+	0x44, 0x5f, 0x4f, 0x4e, 0x4c, 0x59, 0x10, 0x01, 0x12, 0x2a, 0x0a, 0x26, 0x53, 0x51, 0x4c, 0x5f,
+	0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x54, 0x59, 0x50, 0x45, 0x5f,
+	0x53, 0x43, 0x52, 0x4f, 0x4c, 0x4c, 0x5f, 0x49, 0x4e, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49,
+	0x56, 0x45, 0x10, 0x02, 0x12, 0x28, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55,
+	0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x54, 0x59, 0x50, 0x45, 0x5f, 0x53, 0x43, 0x52, 0x4f,
+	0x4c, 0x4c, 0x5f, 0x53, 0x45, 0x4e, 0x53, 0x49, 0x54, 0x49, 0x56, 0x45, 0x10, 0x03, 0x2a, 0xa2,
+	0x01, 0x0a, 0x20, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f, 0x72, 0x74, 0x65, 0x64, 0x52,
+	0x65, 0x73, 0x75, 0x6c, 0x74, 0x53, 0x65, 0x74, 0x43, 0x6f, 0x6e, 0x63, 0x75, 0x72, 0x72, 0x65,
+	0x6e, 0x63, 0x79, 0x12, 0x2a, 0x0a, 0x26, 0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c,
+	0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43,
+	0x59, 0x5f, 0x55, 0x4e, 0x53, 0x50, 0x45, 0x43, 0x49, 0x46, 0x49, 0x45, 0x44, 0x10, 0x00, 0x12,
+	0x28, 0x0a, 0x24, 0x53, 0x51, 0x4c, 0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45,
+	0x54, 0x5f, 0x43, 0x4f, 0x4e, 0x43, 0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x59, 0x5f, 0x52, 0x45,
+	0x41, 0x44, 0x5f, 0x4f, 0x4e, 0x4c, 0x59, 0x10, 0x01, 0x12, 0x28, 0x0a, 0x24, 0x53, 0x51, 0x4c,
+	0x5f, 0x52, 0x45, 0x53, 0x55, 0x4c, 0x54, 0x5f, 0x53, 0x45, 0x54, 0x5f, 0x43, 0x4f, 0x4e, 0x43,
+	0x55, 0x52, 0x52, 0x45, 0x4e, 0x43, 0x59, 0x5f, 0x55, 0x50, 0x44, 0x41, 0x54, 0x41, 0x42, 0x4c,
+	0x45, 0x10, 0x02, 0x2a, 0x99, 0x04, 0x0a, 0x12, 0x53, 0x71, 0x6c, 0x53, 0x75, 0x70, 0x70, 0x6f,
+	0x72, 0x74, 0x73, 0x43, 0x6f, 0x6e, 0x76, 0x65, 0x72, 0x74, 0x12, 0x16, 0x0a, 0x12, 0x53, 0x51,
+	0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x42, 0x49, 0x47, 0x49, 0x4e, 0x54,
+	0x10, 0x00, 0x12, 0x16, 0x0a, 0x12, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52,
+	0x54, 0x5f, 0x42, 0x49, 0x4e, 0x41, 0x52, 0x59, 0x10, 0x01, 0x12, 0x13, 0x0a, 0x0f, 0x53, 0x51,
+	0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x42, 0x49, 0x54, 0x10, 0x02, 0x12,
+	0x14, 0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x43,
+	0x48, 0x41, 0x52, 0x10, 0x03, 0x12, 0x14, 0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e,
+	0x56, 0x45, 0x52, 0x54, 0x5f, 0x44, 0x41, 0x54, 0x45, 0x10, 0x04, 0x12, 0x17, 0x0a, 0x13, 0x53,
+	0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x44, 0x45, 0x43, 0x49, 0x4d,
+	0x41, 0x4c, 0x10, 0x05, 0x12, 0x15, 0x0a, 0x11, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56,
+	0x45, 0x52, 0x54, 0x5f, 0x46, 0x4c, 0x4f, 0x41, 0x54, 0x10, 0x06, 0x12, 0x17, 0x0a, 0x13, 0x53,
+	0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x47,
+	0x45, 0x52, 0x10, 0x07, 0x12, 0x21, 0x0a, 0x1d, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56,
+	0x45, 0x52, 0x54, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59,
+	0x5f, 0x54, 0x49, 0x4d, 0x45, 0x10, 0x08, 0x12, 0x23, 0x0a, 0x1f, 0x53, 0x51, 0x4c, 0x5f, 0x43,
+	0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f,
+	0x59, 0x45, 0x41, 0x52, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x09, 0x12, 0x1d, 0x0a, 0x19,
+	0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x4c, 0x4f, 0x4e, 0x47,
+	0x56, 0x41, 0x52, 0x42, 0x49, 0x4e, 0x41, 0x52, 0x59, 0x10, 0x0a, 0x12, 0x1b, 0x0a, 0x17, 0x53,
+	0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x4c, 0x4f, 0x4e, 0x47, 0x56,
+	0x41, 0x52, 0x43, 0x48, 0x41, 0x52, 0x10, 0x0b, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f,
+	0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x4e, 0x55, 0x4d, 0x45, 0x52, 0x49, 0x43, 0x10,
+	0x0c, 0x12, 0x14, 0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54,
+	0x5f, 0x52, 0x45, 0x41, 0x4c, 0x10, 0x0d, 0x12, 0x18, 0x0a, 0x14, 0x53, 0x51, 0x4c, 0x5f, 0x43,
+	0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x53, 0x4d, 0x41, 0x4c, 0x4c, 0x49, 0x4e, 0x54, 0x10,
+	0x0e, 0x12, 0x14, 0x0a, 0x10, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54,
+	0x5f, 0x54, 0x49, 0x4d, 0x45, 0x10, 0x0f, 0x12, 0x19, 0x0a, 0x15, 0x53, 0x51, 0x4c, 0x5f, 0x43,
+	0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x54, 0x49, 0x4d, 0x45, 0x53, 0x54, 0x41, 0x4d, 0x50,
+	0x10, 0x10, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52,
+	0x54, 0x5f, 0x54, 0x49, 0x4e, 0x59, 0x49, 0x4e, 0x54, 0x10, 0x11, 0x12, 0x19, 0x0a, 0x15, 0x53,
+	0x51, 0x4c, 0x5f, 0x43, 0x4f, 0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x56, 0x41, 0x52, 0x42, 0x49,
+	0x4e, 0x41, 0x52, 0x59, 0x10, 0x12, 0x12, 0x17, 0x0a, 0x13, 0x53, 0x51, 0x4c, 0x5f, 0x43, 0x4f,
+	0x4e, 0x56, 0x45, 0x52, 0x54, 0x5f, 0x56, 0x41, 0x52, 0x43, 0x48, 0x41, 0x52, 0x10, 0x13, 0x2a,
+	0x8f, 0x04, 0x0a, 0x0c, 0x58, 0x64, 0x62, 0x63, 0x44, 0x61, 0x74, 0x61, 0x54, 0x79, 0x70, 0x65,
+	0x12, 0x15, 0x0a, 0x11, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x55, 0x4e, 0x4b, 0x4e, 0x4f, 0x57, 0x4e,
+	0x5f, 0x54, 0x59, 0x50, 0x45, 0x10, 0x00, 0x12, 0x0d, 0x0a, 0x09, 0x58, 0x44, 0x42, 0x43, 0x5f,
+	0x43, 0x48, 0x41, 0x52, 0x10, 0x01, 0x12, 0x10, 0x0a, 0x0c, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x4e,
+	0x55, 0x4d, 0x45, 0x52, 0x49, 0x43, 0x10, 0x02, 0x12, 0x10, 0x0a, 0x0c, 0x58, 0x44, 0x42, 0x43,
+	0x5f, 0x44, 0x45, 0x43, 0x49, 0x4d, 0x41, 0x4c, 0x10, 0x03, 0x12, 0x10, 0x0a, 0x0c, 0x58, 0x44,
+	0x42, 0x43, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x47, 0x45, 0x52, 0x10, 0x04, 0x12, 0x11, 0x0a, 0x0d,
+	0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x4d, 0x41, 0x4c, 0x4c, 0x49, 0x4e, 0x54, 0x10, 0x05, 0x12,
+	0x0e, 0x0a, 0x0a, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x46, 0x4c, 0x4f, 0x41, 0x54, 0x10, 0x06, 0x12,
+	0x0d, 0x0a, 0x09, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x52, 0x45, 0x41, 0x4c, 0x10, 0x07, 0x12, 0x0f,
+	0x0a, 0x0b, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x44, 0x4f, 0x55, 0x42, 0x4c, 0x45, 0x10, 0x08, 0x12,
+	0x11, 0x0a, 0x0d, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x44, 0x41, 0x54, 0x45, 0x54, 0x49, 0x4d, 0x45,
+	0x10, 0x09, 0x12, 0x11, 0x0a, 0x0d, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52,
+	0x56, 0x41, 0x4c, 0x10, 0x0a, 0x12, 0x10, 0x0a, 0x0c, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x56, 0x41,
+	0x52, 0x43, 0x48, 0x41, 0x52, 0x10, 0x0c, 0x12, 0x0d, 0x0a, 0x09, 0x58, 0x44, 0x42, 0x43, 0x5f,
+	0x44, 0x41, 0x54, 0x45, 0x10, 0x5b, 0x12, 0x0d, 0x0a, 0x09, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x54,
+	0x49, 0x4d, 0x45, 0x10, 0x5c, 0x12, 0x12, 0x0a, 0x0e, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x54, 0x49,
+	0x4d, 0x45, 0x53, 0x54, 0x41, 0x4d, 0x50, 0x10, 0x5d, 0x12, 0x1d, 0x0a, 0x10, 0x58, 0x44, 0x42,
+	0x43, 0x5f, 0x4c, 0x4f, 0x4e, 0x47, 0x56, 0x41, 0x52, 0x43, 0x48, 0x41, 0x52, 0x10, 0xff, 0xff,
+	0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12, 0x18, 0x0a, 0x0b, 0x58, 0x44, 0x42, 0x43,
+	0x5f, 0x42, 0x49, 0x4e, 0x41, 0x52, 0x59, 0x10, 0xfe, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+	0xff, 0x01, 0x12, 0x1b, 0x0a, 0x0e, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x56, 0x41, 0x52, 0x42, 0x49,
+	0x4e, 0x41, 0x52, 0x59, 0x10, 0xfd, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12,
+	0x1f, 0x0a, 0x12, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x4c, 0x4f, 0x4e, 0x47, 0x56, 0x41, 0x52, 0x42,
+	0x49, 0x4e, 0x41, 0x52, 0x59, 0x10, 0xfc, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01,
+	0x12, 0x18, 0x0a, 0x0b, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x42, 0x49, 0x47, 0x49, 0x4e, 0x54, 0x10,
+	0xfb, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12, 0x19, 0x0a, 0x0c, 0x58, 0x44,
+	0x42, 0x43, 0x5f, 0x54, 0x49, 0x4e, 0x59, 0x49, 0x4e, 0x54, 0x10, 0xfa, 0xff, 0xff, 0xff, 0xff,
+	0xff, 0xff, 0xff, 0xff, 0x01, 0x12, 0x15, 0x0a, 0x08, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x42, 0x49,
+	0x54, 0x10, 0xf9, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0x01, 0x12, 0x17, 0x0a, 0x0a,
+	0x58, 0x44, 0x42, 0x43, 0x5f, 0x57, 0x43, 0x48, 0x41, 0x52, 0x10, 0xf8, 0xff, 0xff, 0xff, 0xff,
+	0xff, 0xff, 0xff, 0xff, 0x01, 0x12, 0x1a, 0x0a, 0x0d, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x57, 0x56,
+	0x41, 0x52, 0x43, 0x48, 0x41, 0x52, 0x10, 0xf7, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff, 0xff,
+	0x01, 0x2a, 0xa3, 0x08, 0x0a, 0x13, 0x58, 0x64, 0x62, 0x63, 0x44, 0x61, 0x74, 0x65, 0x74, 0x69,
+	0x6d, 0x65, 0x53, 0x75, 0x62, 0x63, 0x6f, 0x64, 0x65, 0x12, 0x18, 0x0a, 0x14, 0x58, 0x44, 0x42,
+	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x55, 0x4e, 0x4b, 0x4e, 0x4f, 0x57,
+	0x4e, 0x10, 0x00, 0x12, 0x15, 0x0a, 0x11, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43,
+	0x4f, 0x44, 0x45, 0x5f, 0x59, 0x45, 0x41, 0x52, 0x10, 0x01, 0x12, 0x15, 0x0a, 0x11, 0x58, 0x44,
+	0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x54, 0x45, 0x10,
+	0x01, 0x12, 0x15, 0x0a, 0x11, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44,
+	0x45, 0x5f, 0x54, 0x49, 0x4d, 0x45, 0x10, 0x02, 0x12, 0x16, 0x0a, 0x12, 0x58, 0x44, 0x42, 0x43,
+	0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x02,
+	0x12, 0x1a, 0x0a, 0x16, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45,
+	0x5f, 0x54, 0x49, 0x4d, 0x45, 0x53, 0x54, 0x41, 0x4d, 0x50, 0x10, 0x03, 0x12, 0x14, 0x0a, 0x10,
+	0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x59,
+	0x10, 0x03, 0x12, 0x23, 0x0a, 0x1f, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f,
+	0x44, 0x45, 0x5f, 0x54, 0x49, 0x4d, 0x45, 0x5f, 0x57, 0x49, 0x54, 0x48, 0x5f, 0x54, 0x49, 0x4d,
+	0x45, 0x5a, 0x4f, 0x4e, 0x45, 0x10, 0x04, 0x12, 0x15, 0x0a, 0x11, 0x58, 0x44, 0x42, 0x43, 0x5f,
+	0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x10, 0x04, 0x12, 0x28,
+	0x0a, 0x24, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x54,
+	0x49, 0x4d, 0x45, 0x53, 0x54, 0x41, 0x4d, 0x50, 0x5f, 0x57, 0x49, 0x54, 0x48, 0x5f, 0x54, 0x49,
+	0x4d, 0x45, 0x5a, 0x4f, 0x4e, 0x45, 0x10, 0x05, 0x12, 0x17, 0x0a, 0x13, 0x58, 0x44, 0x42, 0x43,
+	0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10,
+	0x05, 0x12, 0x17, 0x0a, 0x13, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44,
+	0x45, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x06, 0x12, 0x1e, 0x0a, 0x1a, 0x58, 0x44,
+	0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x59, 0x45, 0x41, 0x52, 0x5f,
+	0x54, 0x4f, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x07, 0x12, 0x1c, 0x0a, 0x18, 0x58, 0x44,
+	0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54,
+	0x4f, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x10, 0x08, 0x12, 0x1e, 0x0a, 0x1a, 0x58, 0x44, 0x42, 0x43,
+	0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f, 0x5f,
+	0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x09, 0x12, 0x1e, 0x0a, 0x1a, 0x58, 0x44, 0x42, 0x43,
+	0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f, 0x5f,
+	0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x0a, 0x12, 0x1f, 0x0a, 0x1b, 0x58, 0x44, 0x42, 0x43,
+	0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x5f, 0x54, 0x4f,
+	0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x0b, 0x12, 0x1f, 0x0a, 0x1b, 0x58, 0x44, 0x42,
+	0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x5f, 0x54,
+	0x4f, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x0c, 0x12, 0x21, 0x0a, 0x1d, 0x58, 0x44,
+	0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54,
+	0x45, 0x5f, 0x54, 0x4f, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x0d, 0x12, 0x1e, 0x0a,
+	0x1a, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e,
+	0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x59, 0x45, 0x41, 0x52, 0x10, 0x65, 0x12, 0x1f, 0x0a,
+	0x1b, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e,
+	0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x66, 0x12, 0x1d,
+	0x0a, 0x19, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49,
+	0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x10, 0x67, 0x12, 0x1e, 0x0a,
+	0x1a, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e,
+	0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x10, 0x68, 0x12, 0x20, 0x0a,
+	0x1c, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e,
+	0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x69, 0x12,
+	0x20, 0x0a, 0x1c, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f,
+	0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10,
+	0x6a, 0x12, 0x27, 0x0a, 0x23, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44,
+	0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x59, 0x45, 0x41, 0x52, 0x5f,
+	0x54, 0x4f, 0x5f, 0x4d, 0x4f, 0x4e, 0x54, 0x48, 0x10, 0x6b, 0x12, 0x25, 0x0a, 0x21, 0x58, 0x44,
+	0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52,
+	0x56, 0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x10,
+	0x6c, 0x12, 0x27, 0x0a, 0x23, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44,
+	0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54,
+	0x4f, 0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x6d, 0x12, 0x27, 0x0a, 0x23, 0x58, 0x44,
+	0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52,
+	0x56, 0x41, 0x4c, 0x5f, 0x44, 0x41, 0x59, 0x5f, 0x54, 0x4f, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e,
+	0x44, 0x10, 0x6e, 0x12, 0x28, 0x0a, 0x24, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43,
+	0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x48, 0x4f, 0x55,
+	0x52, 0x5f, 0x54, 0x4f, 0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x10, 0x6f, 0x12, 0x28, 0x0a,
+	0x24, 0x58, 0x44, 0x42, 0x43, 0x5f, 0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e,
+	0x54, 0x45, 0x52, 0x56, 0x41, 0x4c, 0x5f, 0x48, 0x4f, 0x55, 0x52, 0x5f, 0x54, 0x4f, 0x5f, 0x53,
+	0x45, 0x43, 0x4f, 0x4e, 0x44, 0x10, 0x70, 0x12, 0x2a, 0x0a, 0x26, 0x58, 0x44, 0x42, 0x43, 0x5f,
+	0x53, 0x55, 0x42, 0x43, 0x4f, 0x44, 0x45, 0x5f, 0x49, 0x4e, 0x54, 0x45, 0x52, 0x56, 0x41, 0x4c,
+	0x5f, 0x4d, 0x49, 0x4e, 0x55, 0x54, 0x45, 0x5f, 0x54, 0x4f, 0x5f, 0x53, 0x45, 0x43, 0x4f, 0x4e,
+	0x44, 0x10, 0x71, 0x1a, 0x02, 0x10, 0x01, 0x2a, 0x57, 0x0a, 0x08, 0x4e, 0x75, 0x6c, 0x6c, 0x61,
+	0x62, 0x6c, 0x65, 0x12, 0x18, 0x0a, 0x14, 0x4e, 0x55, 0x4c, 0x4c, 0x41, 0x42, 0x49, 0x4c, 0x49,
+	0x54, 0x59, 0x5f, 0x4e, 0x4f, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x53, 0x10, 0x00, 0x12, 0x18, 0x0a,
+	0x14, 0x4e, 0x55, 0x4c, 0x4c, 0x41, 0x42, 0x49, 0x4c, 0x49, 0x54, 0x59, 0x5f, 0x4e, 0x55, 0x4c,
+	0x4c, 0x41, 0x42, 0x4c, 0x45, 0x10, 0x01, 0x12, 0x17, 0x0a, 0x13, 0x4e, 0x55, 0x4c, 0x4c, 0x41,
+	0x42, 0x49, 0x4c, 0x49, 0x54, 0x59, 0x5f, 0x55, 0x4e, 0x4b, 0x4e, 0x4f, 0x57, 0x4e, 0x10, 0x02,
+	0x2a, 0x61, 0x0a, 0x0a, 0x53, 0x65, 0x61, 0x72, 0x63, 0x68, 0x61, 0x62, 0x6c, 0x65, 0x12, 0x13,
+	0x0a, 0x0f, 0x53, 0x45, 0x41, 0x52, 0x43, 0x48, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x4e, 0x4f, 0x4e,
+	0x45, 0x10, 0x00, 0x12, 0x13, 0x0a, 0x0f, 0x53, 0x45, 0x41, 0x52, 0x43, 0x48, 0x41, 0x42, 0x4c,
+	0x45, 0x5f, 0x43, 0x48, 0x41, 0x52, 0x10, 0x01, 0x12, 0x14, 0x0a, 0x10, 0x53, 0x45, 0x41, 0x52,
+	0x43, 0x48, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x42, 0x41, 0x53, 0x49, 0x43, 0x10, 0x02, 0x12, 0x13,
+	0x0a, 0x0f, 0x53, 0x45, 0x41, 0x52, 0x43, 0x48, 0x41, 0x42, 0x4c, 0x45, 0x5f, 0x46, 0x55, 0x4c,
+	0x4c, 0x10, 0x03, 0x2a, 0x5c, 0x0a, 0x11, 0x55, 0x70, 0x64, 0x61, 0x74, 0x65, 0x44, 0x65, 0x6c,
+	0x65, 0x74, 0x65, 0x52, 0x75, 0x6c, 0x65, 0x73, 0x12, 0x0b, 0x0a, 0x07, 0x43, 0x41, 0x53, 0x43,
+	0x41, 0x44, 0x45, 0x10, 0x00, 0x12, 0x0c, 0x0a, 0x08, 0x52, 0x45, 0x53, 0x54, 0x52, 0x49, 0x43,
+	0x54, 0x10, 0x01, 0x12, 0x0c, 0x0a, 0x08, 0x53, 0x45, 0x54, 0x5f, 0x4e, 0x55, 0x4c, 0x4c, 0x10,
+	0x02, 0x12, 0x0d, 0x0a, 0x09, 0x4e, 0x4f, 0x5f, 0x41, 0x43, 0x54, 0x49, 0x4f, 0x4e, 0x10, 0x03,
+	0x12, 0x0f, 0x0a, 0x0b, 0x53, 0x45, 0x54, 0x5f, 0x44, 0x45, 0x46, 0x41, 0x55, 0x4c, 0x54, 0x10,
+	0x04, 0x3a, 0x44, 0x0a, 0x0c, 0x65, 0x78, 0x70, 0x65, 0x72, 0x69, 0x6d, 0x65, 0x6e, 0x74, 0x61,
+	0x6c, 0x12, 0x1f, 0x2e, 0x67, 0x6f, 0x6f, 0x67, 0x6c, 0x65, 0x2e, 0x70, 0x72, 0x6f, 0x74, 0x6f,
+	0x62, 0x75, 0x66, 0x2e, 0x4d, 0x65, 0x73, 0x73, 0x61, 0x67, 0x65, 0x4f, 0x70, 0x74, 0x69, 0x6f,
+	0x6e, 0x73, 0x18, 0xe8, 0x07, 0x20, 0x01, 0x28, 0x08, 0x52, 0x0c, 0x65, 0x78, 0x70, 0x65, 0x72,
+	0x69, 0x6d, 0x65, 0x6e, 0x74, 0x61, 0x6c, 0x42, 0x5b, 0x0a, 0x20, 0x6f, 0x72, 0x67, 0x2e, 0x61,
+	0x70, 0x61, 0x63, 0x68, 0x65, 0x2e, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2e, 0x66, 0x6c, 0x69, 0x67,
+	0x68, 0x74, 0x2e, 0x73, 0x71, 0x6c, 0x2e, 0x69, 0x6d, 0x70, 0x6c, 0x5a, 0x37, 0x67, 0x69, 0x74,
+	0x68, 0x75, 0x62, 0x2e, 0x63, 0x6f, 0x6d, 0x2f, 0x61, 0x70, 0x61, 0x63, 0x68, 0x65, 0x2f, 0x61,
+	0x72, 0x72, 0x6f, 0x77, 0x2f, 0x67, 0x6f, 0x2f, 0x61, 0x72, 0x72, 0x6f, 0x77, 0x2f, 0x66, 0x6c,
+	0x69, 0x67, 0x68, 0x74, 0x2f, 0x69, 0x6e, 0x74, 0x65, 0x72, 0x6e, 0x61, 0x6c, 0x2f, 0x66, 0x6c,
+	0x69, 0x67, 0x68, 0x74, 0x62, 0x06, 0x70, 0x72, 0x6f, 0x74, 0x6f, 0x33,
+}
+
+var (
+	file_FlightSql_proto_rawDescOnce sync.Once
+	file_FlightSql_proto_rawDescData = file_FlightSql_proto_rawDesc
+)
+
+func file_FlightSql_proto_rawDescGZIP() []byte {
+	file_FlightSql_proto_rawDescOnce.Do(func() {
+		file_FlightSql_proto_rawDescData = protoimpl.X.CompressGZIP(file_FlightSql_proto_rawDescData)
+	})
+	return file_FlightSql_proto_rawDescData
+}
+
+var file_FlightSql_proto_enumTypes = make([]protoimpl.EnumInfo, 21)
+var file_FlightSql_proto_msgTypes = make([]protoimpl.MessageInfo, 19)
+var file_FlightSql_proto_goTypes = []interface{}{
+	(SqlInfo)(0),                                 // 0: arrow.flight.protocol.sql.SqlInfo
+	(SqlSupportedCaseSensitivity)(0),             // 1: arrow.flight.protocol.sql.SqlSupportedCaseSensitivity
+	(SqlNullOrdering)(0),                         // 2: arrow.flight.protocol.sql.SqlNullOrdering
+	(SupportedSqlGrammar)(0),                     // 3: arrow.flight.protocol.sql.SupportedSqlGrammar
+	(SupportedAnsi92SqlGrammarLevel)(0),          // 4: arrow.flight.protocol.sql.SupportedAnsi92SqlGrammarLevel
+	(SqlOuterJoinsSupportLevel)(0),               // 5: arrow.flight.protocol.sql.SqlOuterJoinsSupportLevel
+	(SqlSupportedGroupBy)(0),                     // 6: arrow.flight.protocol.sql.SqlSupportedGroupBy
+	(SqlSupportedElementActions)(0),              // 7: arrow.flight.protocol.sql.SqlSupportedElementActions
+	(SqlSupportedPositionedCommands)(0),          // 8: arrow.flight.protocol.sql.SqlSupportedPositionedCommands
+	(SqlSupportedSubqueries)(0),                  // 9: arrow.flight.protocol.sql.SqlSupportedSubqueries
+	(SqlSupportedUnions)(0),                      // 10: arrow.flight.protocol.sql.SqlSupportedUnions
+	(SqlTransactionIsolationLevel)(0),            // 11: arrow.flight.protocol.sql.SqlTransactionIsolationLevel
+	(SqlSupportedTransactions)(0),                // 12: arrow.flight.protocol.sql.SqlSupportedTransactions
+	(SqlSupportedResultSetType)(0),               // 13: arrow.flight.protocol.sql.SqlSupportedResultSetType
+	(SqlSupportedResultSetConcurrency)(0),        // 14: arrow.flight.protocol.sql.SqlSupportedResultSetConcurrency
+	(SqlSupportsConvert)(0),                      // 15: arrow.flight.protocol.sql.SqlSupportsConvert
+	(XdbcDataType)(0),                            // 16: arrow.flight.protocol.sql.XdbcDataType
+	(XdbcDatetimeSubcode)(0),                     // 17: arrow.flight.protocol.sql.XdbcDatetimeSubcode
+	(Nullable)(0),                                // 18: arrow.flight.protocol.sql.Nullable
+	(Searchable)(0),                              // 19: arrow.flight.protocol.sql.Searchable
+	(UpdateDeleteRules)(0),                       // 20: arrow.flight.protocol.sql.UpdateDeleteRules
+	(*CommandGetSqlInfo)(nil),                    // 21: arrow.flight.protocol.sql.CommandGetSqlInfo
+	(*CommandGetXdbcTypeInfo)(nil),               // 22: arrow.flight.protocol.sql.CommandGetXdbcTypeInfo
+	(*CommandGetCatalogs)(nil),                   // 23: arrow.flight.protocol.sql.CommandGetCatalogs
+	(*CommandGetDbSchemas)(nil),                  // 24: arrow.flight.protocol.sql.CommandGetDbSchemas
+	(*CommandGetTables)(nil),                     // 25: arrow.flight.protocol.sql.CommandGetTables
+	(*CommandGetTableTypes)(nil),                 // 26: arrow.flight.protocol.sql.CommandGetTableTypes
+	(*CommandGetPrimaryKeys)(nil),                // 27: arrow.flight.protocol.sql.CommandGetPrimaryKeys
+	(*CommandGetExportedKeys)(nil),               // 28: arrow.flight.protocol.sql.CommandGetExportedKeys
+	(*CommandGetImportedKeys)(nil),               // 29: arrow.flight.protocol.sql.CommandGetImportedKeys
+	(*CommandGetCrossReference)(nil),             // 30: arrow.flight.protocol.sql.CommandGetCrossReference
+	(*ActionCreatePreparedStatementRequest)(nil), // 31: arrow.flight.protocol.sql.ActionCreatePreparedStatementRequest
+	(*ActionCreatePreparedStatementResult)(nil),  // 32: arrow.flight.protocol.sql.ActionCreatePreparedStatementResult
+	(*ActionClosePreparedStatementRequest)(nil),  // 33: arrow.flight.protocol.sql.ActionClosePreparedStatementRequest
+	(*CommandStatementQuery)(nil),                // 34: arrow.flight.protocol.sql.CommandStatementQuery
+	(*TicketStatementQuery)(nil),                 // 35: arrow.flight.protocol.sql.TicketStatementQuery
+	(*CommandPreparedStatementQuery)(nil),        // 36: arrow.flight.protocol.sql.CommandPreparedStatementQuery
+	(*CommandStatementUpdate)(nil),               // 37: arrow.flight.protocol.sql.CommandStatementUpdate
+	(*CommandPreparedStatementUpdate)(nil),       // 38: arrow.flight.protocol.sql.CommandPreparedStatementUpdate
+	(*DoPutUpdateResult)(nil),                    // 39: arrow.flight.protocol.sql.DoPutUpdateResult
+	(*descriptor.MessageOptions)(nil),            // 40: google.protobuf.MessageOptions
+}
+var file_FlightSql_proto_depIdxs = []int32{
+	40, // 0: arrow.flight.protocol.sql.experimental:extendee -> google.protobuf.MessageOptions
+	1,  // [1:1] is the sub-list for method output_type
+	1,  // [1:1] is the sub-list for method input_type
+	1,  // [1:1] is the sub-list for extension type_name
+	0,  // [0:1] is the sub-list for extension extendee
+	0,  // [0:0] is the sub-list for field type_name
+}
+
+func init() { file_FlightSql_proto_init() }
+func file_FlightSql_proto_init() {
+	if File_FlightSql_proto != nil {
+		return
+	}
+	if !protoimpl.UnsafeEnabled {
+		file_FlightSql_proto_msgTypes[0].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandGetSqlInfo); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[1].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandGetXdbcTypeInfo); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[2].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandGetCatalogs); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[3].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandGetDbSchemas); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[4].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandGetTables); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[5].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandGetTableTypes); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[6].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandGetPrimaryKeys); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[7].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandGetExportedKeys); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[8].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandGetImportedKeys); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[9].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandGetCrossReference); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[10].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*ActionCreatePreparedStatementRequest); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[11].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*ActionCreatePreparedStatementResult); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[12].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*ActionClosePreparedStatementRequest); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[13].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandStatementQuery); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[14].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*TicketStatementQuery); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[15].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandPreparedStatementQuery); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[16].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandStatementUpdate); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[17].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*CommandPreparedStatementUpdate); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+		file_FlightSql_proto_msgTypes[18].Exporter = func(v interface{}, i int) interface{} {
+			switch v := v.(*DoPutUpdateResult); i {
+			case 0:
+				return &v.state
+			case 1:
+				return &v.sizeCache
+			case 2:
+				return &v.unknownFields
+			default:
+				return nil
+			}
+		}
+	}
+	file_FlightSql_proto_msgTypes[1].OneofWrappers = []interface{}{}
+	file_FlightSql_proto_msgTypes[3].OneofWrappers = []interface{}{}
+	file_FlightSql_proto_msgTypes[4].OneofWrappers = []interface{}{}
+	file_FlightSql_proto_msgTypes[6].OneofWrappers = []interface{}{}
+	file_FlightSql_proto_msgTypes[7].OneofWrappers = []interface{}{}
+	file_FlightSql_proto_msgTypes[8].OneofWrappers = []interface{}{}
+	file_FlightSql_proto_msgTypes[9].OneofWrappers = []interface{}{}
+	type x struct{}
+	out := protoimpl.TypeBuilder{
+		File: protoimpl.DescBuilder{
+			GoPackagePath: reflect.TypeOf(x{}).PkgPath(),
+			RawDescriptor: file_FlightSql_proto_rawDesc,
+			NumEnums:      21,
+			NumMessages:   19,
+			NumExtensions: 1,
+			NumServices:   0,
+		},
+		GoTypes:           file_FlightSql_proto_goTypes,
+		DependencyIndexes: file_FlightSql_proto_depIdxs,
+		EnumInfos:         file_FlightSql_proto_enumTypes,
+		MessageInfos:      file_FlightSql_proto_msgTypes,
+		ExtensionInfos:    file_FlightSql_proto_extTypes,
+	}.Build()
+	File_FlightSql_proto = out.File
+	file_FlightSql_proto_rawDesc = nil
+	file_FlightSql_proto_goTypes = nil
+	file_FlightSql_proto_depIdxs = nil
+}
diff --git a/go/arrow/flight/record_batch_reader.go b/go/arrow/flight/record_batch_reader.go
index dd2c29f0bf5..277f1eb4cc1 100644
--- a/go/arrow/flight/record_batch_reader.go
+++ b/go/arrow/flight/record_batch_reader.go
@@ -21,10 +21,12 @@ import (
 	"fmt"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/arrio"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 // DataStreamReader is an interface for receiving flight data messages on a stream
@@ -36,6 +38,7 @@ type DataStreamReader interface {
 type dataMessageReader struct {
 	rdr DataStreamReader
 
+	peeked   *FlightData
 	refCount int64
 	msg      *ipc.Message
 
@@ -44,7 +47,18 @@ type dataMessageReader struct {
 }
 
 func (d *dataMessageReader) Message() (*ipc.Message, error) {
-	fd, err := d.rdr.Recv()
+	var (
+		fd  *FlightData
+		err error
+	)
+
+	if d.peeked != nil {
+		fd = d.peeked
+		d.peeked = nil
+	} else {
+		fd, err = d.rdr.Recv()
+	}
+
 	if err != nil {
 		if d.msg != nil {
 			// clear the previous message in the error case
@@ -117,12 +131,35 @@ func (r *Reader) LatestFlightDescriptor() *FlightDescriptor {
 	return r.dmr.descr
 }
 
+// Chunk is a convenience function to return a chunk of the flight stream
+// returning the RecordBatch along with the FlightDescriptor and any AppMetadata.
+// Each of these can be retrieved separately with their respective functions,
+// this is just a convenience to retrieve all three with one function call.
+func (r *Reader) Chunk() StreamChunk {
+	return StreamChunk{
+		Data:        r.Record(),
+		Desc:        r.dmr.descr,
+		AppMetadata: r.dmr.lastAppMetadata,
+	}
+}
+
 // NewRecordReader constructs an ipc reader using the flight data stream reader
 // as the source of the ipc messages, opts passed will be passed to the underlying
 // ipc.Reader such as ipc.WithSchema and ipc.WithAllocator
 func NewRecordReader(r DataStreamReader, opts ...ipc.Option) (*Reader, error) {
-	rdr := &Reader{dmr: &dataMessageReader{rdr: r}}
-	var err error
+	// peek the first message for a descriptor
+	data, err := r.Recv()
+	if err != nil {
+		return nil, err
+	}
+
+	rdr := &Reader{dmr: &dataMessageReader{rdr: r, refCount: 1}}
+	rdr.dmr.descr = data.FlightDescriptor
+	if len(data.DataHeader) > 0 {
+		rdr.dmr.peeked = data
+	}
+
+	rdr.dmr.Retain()
 	if rdr.Reader, err = ipc.NewReaderFromMessageReader(rdr.dmr, opts...); err != nil {
 		return nil, fmt.Errorf("arrow/flight: could not create flight reader: %w", err)
 	}
@@ -144,3 +181,56 @@ func DeserializeSchema(info []byte, mem memory.Allocator) (*arrow.Schema, error)
 	defer rdr.Release()
 	return rdr.Schema(), nil
 }
+
+// StreamChunk represents a single chunk of a FlightData stream
+type StreamChunk struct {
+	Data        arrow.Record
+	Desc        *FlightDescriptor
+	AppMetadata []byte
+	Err         error
+}
+
+// MessageReader is an interface representing a RecordReader
+// that also provides StreamChunks and/or the ability to retrieve
+// FlightDescriptors and AppMetadata from the flight stream
+type MessageReader interface {
+	array.RecordReader
+	arrio.Reader
+	Err() error
+	Chunk() StreamChunk
+	LatestFlightDescriptor() *FlightDescriptor
+	LatestAppMetadata() []byte
+}
+
+type haserr interface {
+	Err() error
+}
+
+// StreamChunksFromReader is a convenience function to populate a channel
+// from a record reader. It is intended to be run using a separate goroutine
+// by calling `go flight.StreamChunksFromReader(rdr, ch)`.
+//
+// If the record reader panics, an error chunk will get sent on the channel.
+//
+// This will close the channel and release the reader when it completes.
+func StreamChunksFromReader(rdr array.RecordReader, ch chan<- StreamChunk) {
+	defer close(ch)
+	defer func() {
+		if err := recover(); err != nil {
+			ch <- StreamChunk{Err: fmt.Errorf("panic while reading: %s", err)}
+		}
+	}()
+
+	defer rdr.Release()
+	for rdr.Next() {
+		rec := rdr.Record()
+		rec.Retain()
+		ch <- StreamChunk{Data: rec}
+	}
+
+	if e, ok := rdr.(haserr); ok {
+		if e.Err() != nil {
+			ch <- StreamChunk{Err: e.Err()}
+		}
+	}
+}
diff --git a/go/arrow/flight/record_batch_writer.go b/go/arrow/flight/record_batch_writer.go
index ba907db2201..8a135d44fa1 100644
--- a/go/arrow/flight/record_batch_writer.go
+++ b/go/arrow/flight/record_batch_writer.go
@@ -19,9 +19,9 @@ package flight
 import (
 	"bytes"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 // DataStreamWriter is an interface that represents an Arrow Flight stream
@@ -60,6 +60,12 @@ type Writer struct {
 	pw *flightPayloadWriter
 }
 
+// WriteMetadata writes a payload message to the stream containing only
+// the specified app metadata.
+func (w *Writer) WriteMetadata(appMetadata []byte) error {
+	return w.pw.w.Send(&FlightData{AppMetadata: appMetadata})
+}
+
 // SetFlightDescriptor sets the flight descriptor into the next payload that will
 // be written by the flight writer. It will only be put into the very next payload
 // and afterwards the writer will no longer keep it's pointer to the descriptor.
@@ -107,3 +113,7 @@ func SerializeSchema(rec *arrow.Schema, mem memory.Allocator) []byte {
 	w.Close()
 	return buf.Bytes()
 }
+
+type MetadataWriter interface {
+	WriteMetadata([]byte) error
+}
diff --git a/go/arrow/flight/server.go b/go/arrow/flight/server.go
index f10165ddbbe..f8902c5b363 100644
--- a/go/arrow/flight/server.go
+++ b/go/arrow/flight/server.go
@@ -17,13 +17,14 @@
 package flight
 
 import (
-	context "context"
+	"context"
 	"net"
 	"os"
 	"os/signal"
 
-	"github.com/apache/arrow/go/v10/arrow/flight/internal/flight"
+	"github.com/apache/arrow/go/v11/arrow/flight/internal/flight"
 	"google.golang.org/grpc"
+	"google.golang.org/grpc/reflection"
 )
 
 type (
@@ -52,6 +53,17 @@ type (
 	Empty                           = flight.Empty
 )
 
+// FlightService_ServiceDesc is the grpc.ServiceDesc for the FlightService
+// server. It should only be used for direct call of grpc.RegisterService,
+// and not introspected or modified (even as a copy).
+var FlightService_ServiceDesc = flight.FlightService_ServiceDesc
+
+// RegisterFlightServiceServer registers an existing flight server onto an
+// existing grpc server, or anything that is a grpc service registrar.
+func RegisterFlightServiceServer(s grpc.ServiceRegistrar, srv FlightServer) {
+	flight.RegisterFlightServiceServer(s, srv)
+}
+
 // Server is an interface for hiding some of the grpc specifics to make
 // it slightly easier to manage a flight service, slightly modeled after
 // the C++ implementation
@@ -79,6 +91,12 @@ type Server interface {
 	// RegisterFlightService sets up the handler for the Flight Endpoints as per
 	// normal Grpc setups
 	RegisterFlightService(FlightServer)
+	// ServiceRegistrar wraps a single method that supports service registration.
+	// For example, it may be used to register health check provided by grpc-go.
+	grpc.ServiceRegistrar
+	// ServiceInfoProvider is an interface used to retrieve metadata about the services to expose.
+	// If reflection is enabled on the server, all the endpoints can be invoked using grpcurl.
+	reflection.ServiceInfoProvider
 }
 
 // BaseFlightServer is the base flight server implementation and must be
@@ -250,3 +268,11 @@ func (s *server) RegisterFlightService(svc FlightServer) {
 func (s *server) Shutdown() {
 	s.server.GracefulStop()
 }
+
+func (s *server) RegisterService(sd *grpc.ServiceDesc, ss interface{}) {
+	s.server.RegisterService(sd, ss)
+}
+
+func (s *server) GetServiceInfo() map[string]grpc.ServiceInfo {
+	return s.server.GetServiceInfo()
+}
diff --git a/go/arrow/flight/server_example_test.go b/go/arrow/flight/server_example_test.go
new file mode 100644
index 00000000000..cd4b611e050
--- /dev/null
+++ b/go/arrow/flight/server_example_test.go
@@ -0,0 +1,80 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package flight_test
+
+import (
+	"context"
+	"fmt"
+	"net"
+
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	"google.golang.org/grpc"
+	"google.golang.org/grpc/credentials/insecure"
+	"google.golang.org/grpc/health"
+	healthgrpc "google.golang.org/grpc/health/grpc_health_v1"
+)
+
+func ExampleRegisterFlightServiceServer() {
+	s := grpc.NewServer()
+	healthSrv := health.NewServer()
+	healthgrpc.RegisterHealthServer(s, healthSrv)
+
+	// add methods to this to override the desired methods
+	// like DoGet, DoPut, etc.
+	server := struct {
+		flight.BaseFlightServer
+	}{}
+
+	flight.RegisterFlightServiceServer(s, &server)
+	healthSrv.SetServingStatus("test", healthgrpc.HealthCheckResponse_SERVING)
+
+	lis, err := net.Listen("tcp", "localhost:0")
+	if err != nil {
+		panic(err)
+	}
+	go s.Serve(lis)
+	defer s.Stop()
+
+	conn, err := grpc.DialContext(context.Background(), lis.Addr().String(),
+		grpc.WithTransportCredentials(insecure.NewCredentials()))
+	if err != nil {
+		panic(err)
+	}
+	defer conn.Close()
+
+	hc := healthgrpc.NewHealthClient(conn)
+	rsp, err := hc.Check(context.Background(), &healthgrpc.HealthCheckRequest{Service: "test"})
+	if err != nil {
+		panic(err)
+	}
+
+	fmt.Println(rsp.Status)
+	fc := flight.NewClientFromConn(conn, nil)
+	if err != nil {
+		panic(err)
+	}
+
+	// we didn't implement GetFlightInfo so we should get an Unimplemented
+	// error, proving it did call into the base flight server. If we didn't
+	// register the service, we'd get an error that says "unknown service arrow.flight.protocol.FlightService"
+	_, err = fc.GetFlightInfo(context.Background(), &flight.FlightDescriptor{})
+	fmt.Println(err)
+
+	// Output:
+	// SERVING
+	// rpc error: code = Unimplemented desc = method GetFlightInfo not implemented
+}
diff --git a/go/arrow/internal/arrdata/arrdata.go b/go/arrow/internal/arrdata/arrdata.go
index 5b6fd83082f..5e8e89d3e14 100644
--- a/go/arrow/internal/arrdata/arrdata.go
+++ b/go/arrow/internal/arrdata/arrdata.go
@@ -21,13 +21,13 @@ import (
 	"fmt"
 	"sort"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/float16"
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/types"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/float16"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/types"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 var (
@@ -1398,7 +1398,7 @@ func mapOf(mem memory.Allocator, sortedKeys bool, values []arrow.Array, valids [
 		valid = func(i int) bool { return true }
 	}
 
-	vb := bldr.ValueBuilder()
+	vb := bldr.ValueBuilder().(*array.StructBuilder)
 	for i, value := range values {
 		bldr.Append(valid(i))
 		buildArray(vb.FieldBuilder(0), value.(*array.Struct).Field(0))
diff --git a/go/arrow/internal/arrdata/ioutil.go b/go/arrow/internal/arrdata/ioutil.go
index 04a8634ada2..45cc8d9f70f 100644
--- a/go/arrow/internal/arrdata/ioutil.go
+++ b/go/arrow/internal/arrdata/ioutil.go
@@ -23,11 +23,11 @@ import (
 	"sync"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 // CheckArrowFile checks whether a given ARROW file contains the expected list of records.
diff --git a/go/arrow/internal/arrjson/arrjson.go b/go/arrow/internal/arrjson/arrjson.go
index e779bfb6b38..eb77c47ea01 100644
--- a/go/arrow/internal/arrjson/arrjson.go
+++ b/go/arrow/internal/arrjson/arrjson.go
@@ -27,15 +27,15 @@ import (
 	"strconv"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/decimal256"
-	"github.com/apache/arrow/go/v10/arrow/float16"
-	"github.com/apache/arrow/go/v10/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/float16"
+	"github.com/apache/arrow/go/v11/arrow/internal/dictutils"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 type Schema struct {
diff --git a/go/arrow/internal/arrjson/arrjson_test.go b/go/arrow/internal/arrjson/arrjson_test.go
index 15bc3d4547c..2c0b08c3445 100644
--- a/go/arrow/internal/arrjson/arrjson_test.go
+++ b/go/arrow/internal/arrjson/arrjson_test.go
@@ -22,9 +22,9 @@ import (
 	"io/ioutil"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/internal/arrjson/option.go b/go/arrow/internal/arrjson/option.go
index 865a264fe45..5b7a23330a0 100644
--- a/go/arrow/internal/arrjson/option.go
+++ b/go/arrow/internal/arrjson/option.go
@@ -17,8 +17,8 @@
 package arrjson
 
 import (
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 type config struct {
diff --git a/go/arrow/internal/arrjson/reader.go b/go/arrow/internal/arrjson/reader.go
index 82a1c7f5bc0..a367a3c562f 100644
--- a/go/arrow/internal/arrjson/reader.go
+++ b/go/arrow/internal/arrjson/reader.go
@@ -21,10 +21,10 @@ import (
 	"io"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/arrio"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/internal/dictutils"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/arrio"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/internal/dictutils"
 )
 
 type Reader struct {
diff --git a/go/arrow/internal/arrjson/writer.go b/go/arrow/internal/arrjson/writer.go
index e7a356f9288..59ce980f8dc 100644
--- a/go/arrow/internal/arrjson/writer.go
+++ b/go/arrow/internal/arrjson/writer.go
@@ -21,10 +21,10 @@ import (
 	"fmt"
 	"io"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/arrio"
-	"github.com/apache/arrow/go/v10/arrow/internal/dictutils"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/arrio"
+	"github.com/apache/arrow/go/v11/arrow/internal/dictutils"
 )
 
 const (
diff --git a/go/arrow/internal/dictutils/dict.go b/go/arrow/internal/dictutils/dict.go
index 9dd17c6540e..c1d5afb928c 100644
--- a/go/arrow/internal/dictutils/dict.go
+++ b/go/arrow/internal/dictutils/dict.go
@@ -21,9 +21,9 @@ import (
 	"fmt"
 	"hash/maphash"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 type Kind int8
@@ -344,10 +344,18 @@ func (memo *Memo) AddDelta(id int64, v arrow.ArrayData) {
 	memo.id2dict[id] = append(d, v)
 }
 
+// AddOrReplace puts the provided dictionary into the memo table. If it
+// already exists, then the new data will replace it. Otherwise it is added
+// to the memo table.
 func (memo *Memo) AddOrReplace(id int64, v arrow.ArrayData) bool {
 	d, ok := memo.id2dict[id]
 	if ok {
-		d = append(d, v)
+		// replace the dictionary and release any existing ones
+		for _, dict := range d {
+			dict.Release()
+		}
+		d[0] = v
+		d = d[:1]
 	} else {
 		d = []arrow.ArrayData{v}
 	}
diff --git a/go/arrow/internal/dictutils/dict_test.go b/go/arrow/internal/dictutils/dict_test.go
index 3413c5bcb07..ce0cacecf6f 100644
--- a/go/arrow/internal/dictutils/dict_test.go
+++ b/go/arrow/internal/dictutils/dict_test.go
@@ -20,10 +20,10 @@ import (
 	"fmt"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/internal/dictutils"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestDictMemo(t *testing.T) {
diff --git a/go/arrow/internal/flatbuf/RunEndEncoded.go b/go/arrow/internal/flatbuf/RunEndEncoded.go
new file mode 100644
index 00000000000..fa414c1bf0e
--- /dev/null
+++ b/go/arrow/internal/flatbuf/RunEndEncoded.go
@@ -0,0 +1,55 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// Code generated by the FlatBuffers compiler. DO NOT EDIT.
+
+package flatbuf
+
+import (
+	flatbuffers "github.com/google/flatbuffers/go"
+)
+
+/// Contains two child arrays, run_ends and values.
+/// The run_ends child array must be a 16/32/64-bit integer array
+/// which encodes the indices at which the run with the value in 
+/// each corresponding index in the values child array ends.
+/// Like list/struct types, the value array can be of any type.
+type RunEndEncoded struct {
+	_tab flatbuffers.Table
+}
+
+func GetRootAsRunEndEncoded(buf []byte, offset flatbuffers.UOffsetT) *RunEndEncoded {
+	n := flatbuffers.GetUOffsetT(buf[offset:])
+	x := &RunEndEncoded{}
+	x.Init(buf, n+offset)
+	return x
+}
+
+func (rcv *RunEndEncoded) Init(buf []byte, i flatbuffers.UOffsetT) {
+	rcv._tab.Bytes = buf
+	rcv._tab.Pos = i
+}
+
+func (rcv *RunEndEncoded) Table() flatbuffers.Table {
+	return rcv._tab
+}
+
+func RunEndEncodedStart(builder *flatbuffers.Builder) {
+	builder.StartObject(0)
+}
+func RunEndEncodedEnd(builder *flatbuffers.Builder) flatbuffers.UOffsetT {
+	return builder.EndObject()
+}
diff --git a/go/arrow/internal/flatbuf/Type.go b/go/arrow/internal/flatbuf/Type.go
index 319c6c6a4a5..707444b8e1e 100644
--- a/go/arrow/internal/flatbuf/Type.go
+++ b/go/arrow/internal/flatbuf/Type.go
@@ -48,6 +48,7 @@ const (
 	TypeLargeBinary     Type = 19
 	TypeLargeUtf8       Type = 20
 	TypeLargeList       Type = 21
+	TypeRunEndEncoded   Type = 22
 )
 
 var EnumNamesType = map[Type]string{
@@ -73,6 +74,7 @@ var EnumNamesType = map[Type]string{
 	TypeLargeBinary:     "LargeBinary",
 	TypeLargeUtf8:       "LargeUtf8",
 	TypeLargeList:       "LargeList",
+	TypeRunEndEncoded:   "RunEndEncoded",
 }
 
 var EnumValuesType = map[string]Type{
@@ -98,6 +100,7 @@ var EnumValuesType = map[string]Type{
 	"LargeBinary":     TypeLargeBinary,
 	"LargeUtf8":       TypeLargeUtf8,
 	"LargeList":       TypeLargeList,
+	"RunEndEncoded":   TypeRunEndEncoded,
 }
 
 func (v Type) String() string {
diff --git a/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-client/main.go b/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-client/main.go
index da3bd564bd2..8c913724d0f 100755
--- a/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-client/main.go
+++ b/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-client/main.go
@@ -22,7 +22,7 @@ import (
 	"fmt"
 	"time"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/flight_integration"
+	"github.com/apache/arrow/go/v11/arrow/internal/flight_integration"
 	"google.golang.org/grpc"
 	"google.golang.org/grpc/credentials/insecure"
 )
diff --git a/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-server/main.go b/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-server/main.go
index 5ed219099be..5ad823e52b0 100644
--- a/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-server/main.go
+++ b/go/arrow/internal/flight_integration/cmd/arrow-flight-integration-server/main.go
@@ -23,7 +23,7 @@ import (
 	"os"
 	"syscall"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/flight_integration"
+	"github.com/apache/arrow/go/v11/arrow/internal/flight_integration"
 )
 
 var (
diff --git a/go/arrow/internal/flight_integration/scenario.go b/go/arrow/internal/flight_integration/scenario.go
index 7dfd2d58d61..a76371d0903 100644
--- a/go/arrow/internal/flight_integration/scenario.go
+++ b/go/arrow/internal/flight_integration/scenario.go
@@ -24,15 +24,19 @@ import (
 	"io"
 	"net"
 	"os"
+	"reflect"
 	"strconv"
-
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/flight"
-	"github.com/apache/arrow/go/v10/arrow/internal/arrjson"
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/types"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"strings"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql"
+	"github.com/apache/arrow/go/v11/arrow/flight/flightsql/schema_ref"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrjson"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/types"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"golang.org/x/xerrors"
 	"google.golang.org/grpc"
 	"google.golang.org/grpc/codes"
@@ -51,6 +55,8 @@ func GetScenario(name string, args ...string) Scenario {
 		return &authBasicProtoTester{}
 	case "middleware":
 		return &middlewareScenarioTester{}
+	case "flight_sql":
+		return &flightSqlScenarioTester{}
 	case "":
 		if len(args) > 0 {
 			return &defaultIntegrationTester{path: args[0]}
@@ -517,3 +523,640 @@ func (m *middlewareScenarioTester) GetFlightInfo(ctx context.Context, desc *flig
 		TotalBytes:   -1,
 	}, nil
 }
+
+var (
+	// Schema to be returned for mocking the statement/prepared statement
+	// results. Must be the same across all languages
+	QuerySchema = arrow.NewSchema([]arrow.Field{{
+		Name: "id", Type: arrow.PrimitiveTypes.Int64, Nullable: true,
+		Metadata: flightsql.NewColumnMetadataBuilder().
+			TableName("test").IsAutoIncrement(true).IsCaseSensitive(false).
+			TypeName("type_test").SchemaName("schema_test").IsSearchable(true).
+			CatalogName("catalog_test").Precision(100).Metadata(),
+	}}, nil)
+)
+
+const (
+	updateStatementExpectedRows         int64 = 10000
+	updatePreparedStatementExpectedRows int64 = 20000
+)
+
+type flightSqlScenarioTester struct {
+	flightsql.BaseServer
+}
+
+func (m *flightSqlScenarioTester) flightInfoForCommand(desc *flight.FlightDescriptor, schema *arrow.Schema) *flight.FlightInfo {
+	return &flight.FlightInfo{
+		Endpoint: []*flight.FlightEndpoint{
+			{Ticket: &flight.Ticket{Ticket: desc.Cmd}},
+		},
+		Schema:           flight.SerializeSchema(schema, memory.DefaultAllocator),
+		FlightDescriptor: desc,
+		TotalRecords:     -1,
+		TotalBytes:       -1,
+	}
+}
+
+func (m *flightSqlScenarioTester) MakeServer(port int) flight.Server {
+	srv := flight.NewServerWithMiddleware(nil)
+	srv.RegisterFlightService(flightsql.NewFlightServer(m))
+	initServer(port, srv)
+	return srv
+}
+
+func assertEq(expected, actual interface{}) error {
+	v := reflect.Indirect(reflect.ValueOf(actual))
+	if !reflect.DeepEqual(expected, v.Interface()) {
+		return fmt.Errorf("expected: '%s', got: '%s'", expected, actual)
+	}
+	return nil
+}
+
+func (m *flightSqlScenarioTester) RunClient(addr string, opts ...grpc.DialOption) error {
+	client, err := flightsql.NewClient(addr, nil, nil, opts...)
+	if err != nil {
+		return err
+	}
+	defer client.Close()
+
+	if err := m.ValidateMetadataRetrieval(client); err != nil {
+		return err
+	}
+
+	if err := m.ValidateStatementExecution(client); err != nil {
+		return err
+	}
+
+	return m.ValidatePreparedStatementExecution(client)
+}
+
+func (m *flightSqlScenarioTester) validate(expected *arrow.Schema, result *flight.FlightInfo, client *flightsql.Client) error {
+	rdr, err := client.DoGet(context.Background(), result.Endpoint[0].Ticket)
+	if err != nil {
+		return err
+	}
+
+	if !expected.Equal(rdr.Schema()) {
+		return fmt.Errorf("expected: %s, got: %s", expected, rdr.Schema())
+	}
+	for {
+		_, err := rdr.Read()
+		if err == io.EOF { break }
+		if err != nil { return err }
+	}
+	return nil
+}
+
+func (m *flightSqlScenarioTester) validateSchema(expected *arrow.Schema, result *flight.SchemaResult) error {
+	schema, err := flight.DeserializeSchema(result.GetSchema(), memory.DefaultAllocator)
+	if err != nil {
+		return err
+	}
+	if !expected.Equal(schema) {
+		return fmt.Errorf("expected: %s, got: %s", expected, schema)
+	}
+	return nil
+}
+
+func (m *flightSqlScenarioTester) ValidateMetadataRetrieval(client *flightsql.Client) error {
+	var (
+		catalog               = "catalog"
+		dbSchemaFilterPattern = "db_schema_filter_pattern"
+		tableFilterPattern    = "table_filter_pattern"
+		table                 = "table"
+		dbSchema              = "db_schema"
+		tableTypes            = []string{"table", "view"}
+
+		ref   = flightsql.TableRef{Catalog: &catalog, DBSchema: &dbSchema, Table: table}
+		pkRef = flightsql.TableRef{Catalog: proto.String("pk_catalog"), DBSchema: proto.String("pk_db_schema"), Table: "pk_table"}
+		fkRef = flightsql.TableRef{Catalog: proto.String("fk_catalog"), DBSchema: proto.String("fk_db_schema"), Table: "fk_table"}
+
+		ctx = context.Background()
+	)
+
+	info, err := client.GetCatalogs(ctx)
+	if err != nil {
+		return err
+	}
+	if err := m.validate(schema_ref.Catalogs, info, client); err != nil {
+		return err
+	}
+
+	schema, err := client.GetCatalogsSchema(ctx)
+	if err != nil {
+		return err
+	}
+	if err := m.validateSchema(schema_ref.Catalogs, schema); err != nil {
+		return err
+	}
+
+	info, err = client.GetDBSchemas(ctx, &flightsql.GetDBSchemasOpts{Catalog: &catalog, DbSchemaFilterPattern: &dbSchemaFilterPattern})
+	if err != nil {
+		return err
+	}
+	if err = m.validate(schema_ref.DBSchemas, info, client); err != nil {
+		return err
+	}
+
+	schema, err = client.GetDBSchemasSchema(ctx)
+	if err != nil {
+		return err
+	}
+	if err = m.validateSchema(schema_ref.DBSchemas, schema); err != nil {
+		return err
+	}
+
+	info, err = client.GetTables(ctx, &flightsql.GetTablesOpts{Catalog: &catalog, DbSchemaFilterPattern: &dbSchemaFilterPattern, TableNameFilterPattern: &tableFilterPattern, IncludeSchema: true, TableTypes: tableTypes})
+	if err != nil {
+		return err
+	}
+	if err = m.validate(schema_ref.TablesWithIncludedSchema, info, client); err != nil {
+		return err
+	}
+
+	schema, err = client.GetTablesSchema(ctx, &flightsql.GetTablesOpts{IncludeSchema: true})
+	if err != nil {
+		return err
+	}
+	if err = m.validateSchema(schema_ref.TablesWithIncludedSchema, schema); err != nil {
+		return err
+	}
+
+	schema, err = client.GetTablesSchema(ctx, &flightsql.GetTablesOpts{IncludeSchema: false})
+	if err != nil {
+		return err
+	}
+	if err = m.validateSchema(schema_ref.Tables, schema); err != nil {
+		return err
+	}
+
+	info, err = client.GetTableTypes(ctx)
+	if err != nil {
+		return err
+	}
+	if err = m.validate(schema_ref.TableTypes, info, client); err != nil {
+		return err
+	}
+
+	schema, err = client.GetTableTypesSchema(ctx)
+	if err != nil {
+		return err
+	}
+	if err = m.validateSchema(schema_ref.TableTypes, schema); err != nil {
+		return err
+	}
+
+	info, err = client.GetPrimaryKeys(ctx, ref)
+	if err != nil {
+		return err
+	}
+	if err = m.validate(schema_ref.PrimaryKeys, info, client); err != nil {
+		return err
+	}
+
+	schema, err = client.GetPrimaryKeysSchema(ctx)
+	if err != nil {
+		return err
+	}
+	if err = m.validateSchema(schema_ref.PrimaryKeys, schema); err != nil {
+		return err
+	}
+
+	info, err = client.GetExportedKeys(ctx, ref)
+	if err != nil {
+		return err
+	}
+	if err = m.validate(schema_ref.ExportedKeys, info, client); err != nil {
+		return err
+	}
+
+	schema, err = client.GetExportedKeysSchema(ctx)
+	if err != nil {
+		return err
+	}
+	if err = m.validateSchema(schema_ref.ExportedKeys, schema); err != nil {
+		return err
+	}
+
+	info, err = client.GetImportedKeys(ctx, ref)
+	if err != nil {
+		return err
+	}
+	if err = m.validate(schema_ref.ImportedKeys, info, client); err != nil {
+		return err
+	}
+
+	schema, err = client.GetImportedKeysSchema(ctx)
+	if err != nil {
+		return err
+	}
+	if err = m.validateSchema(schema_ref.ImportedKeys, schema); err != nil {
+		return err
+	}
+
+	info, err = client.GetCrossReference(ctx, pkRef, fkRef)
+	if err != nil {
+		return err
+	}
+	if err = m.validate(schema_ref.CrossReference, info, client); err != nil {
+		return err
+	}
+
+	schema, err = client.GetCrossReferenceSchema(ctx)
+	if err != nil {
+		return err
+	}
+	if err = m.validateSchema(schema_ref.CrossReference, schema); err != nil {
+		return err
+	}
+
+	info, err = client.GetXdbcTypeInfo(ctx, nil)
+	if err != nil {
+		return err
+	}
+	if err = m.validate(schema_ref.XdbcTypeInfo, info, client); err != nil {
+		return err
+	}
+
+	schema, err = client.GetXdbcTypeInfoSchema(ctx)
+	if err != nil {
+		return err
+	}
+	if err = m.validateSchema(schema_ref.XdbcTypeInfo, schema); err != nil {
+		return err
+	}
+
+	info, err = client.GetSqlInfo(ctx, []flightsql.SqlInfo{flightsql.SqlInfoFlightSqlServerName, flightsql.SqlInfoFlightSqlServerReadOnly})
+	if err != nil {
+		return err
+	}
+	if err = m.validate(schema_ref.SqlInfo, info, client); err != nil {
+		return err
+	}
+
+	schema, err = client.GetSqlInfoSchema(ctx)
+	if err != nil {
+		return err
+	}
+	if err = m.validateSchema(schema_ref.SqlInfo, schema); err != nil {
+		return err
+	}
+
+	return nil
+}
+
+func (m *flightSqlScenarioTester) ValidateStatementExecution(client *flightsql.Client) error {
+	ctx := context.Background()
+	info, err := client.Execute(ctx, "SELECT STATEMENT")
+	if err != nil {
+		return err
+	}
+	if err = m.validate(QuerySchema, info, client); err != nil {
+		return err
+	}
+
+	schema, err := client.GetExecuteSchema(ctx, "SELECT STATEMENT")
+	if err != nil {
+		return err
+	}
+	if err = m.validateSchema(QuerySchema, schema); err != nil {
+		return err
+	}
+
+	updateResult, err := client.ExecuteUpdate(ctx, "UPDATE STATEMENT")
+	if err != nil {
+		return err
+	}
+	if updateResult != updateStatementExpectedRows {
+		return fmt.Errorf("expected 'UPDATE STATEMENT' return %d got %d", updateStatementExpectedRows, updateResult)
+	}
+	return nil
+}
+
+func (m *flightSqlScenarioTester) ValidatePreparedStatementExecution(client *flightsql.Client) error {
+	ctx := context.Background()
+	prepared, err := client.Prepare(ctx, memory.DefaultAllocator, "SELECT PREPARED STATEMENT")
+	if err != nil {
+		return err
+	}
+
+	arr, _, _ := array.FromJSON(memory.DefaultAllocator, arrow.PrimitiveTypes.Int64, strings.NewReader("[1]"))
+	defer arr.Release()
+	params := array.NewRecord(QuerySchema, []arrow.Array{arr}, 1)
+	prepared.SetParameters(params)
+
+	info, err := prepared.Execute(ctx)
+	if err != nil {
+		return err
+	}
+	if err = m.validate(QuerySchema, info, client); err != nil {
+		return err
+	}
+	schema, err := prepared.GetSchema(ctx)
+	if err != nil {
+		return err
+	}
+	if err = m.validateSchema(QuerySchema, schema); err != nil {
+		return err
+	}
+
+	if err = prepared.Close(ctx); err != nil {
+		return err
+	}
+
+	updatePrepared, err := client.Prepare(ctx, memory.DefaultAllocator, "UPDATE PREPARED STATEMENT")
+	if err != nil {
+		return err
+	}
+	updateResult, err := updatePrepared.ExecuteUpdate(ctx)
+	if err != nil {
+		return err
+	}
+
+	if updateResult != updatePreparedStatementExpectedRows {
+		return fmt.Errorf("expected 'UPDATE STATEMENT' return %d got %d", updatePreparedStatementExpectedRows, updateResult)
+	}
+	return updatePrepared.Close(ctx)
+}
+
+func (m *flightSqlScenarioTester) doGetForTestCase(schema *arrow.Schema) chan flight.StreamChunk {
+	ch := make(chan flight.StreamChunk)
+	close(ch)
+	return ch
+}
+
+func (m *flightSqlScenarioTester) GetFlightInfoStatement(ctx context.Context, cmd flightsql.StatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	if err := assertEq("SELECT STATEMENT", cmd.GetQuery()); err != nil {
+		return nil, err
+	}
+
+	handle, err := flightsql.CreateStatementQueryTicket([]byte("SELECT STATEMENT HANDLE"))
+	if err != nil {
+		return nil, err
+	}
+
+	return &flight.FlightInfo{
+		Endpoint: []*flight.FlightEndpoint{
+			{Ticket: &flight.Ticket{Ticket: handle}},
+		},
+		Schema:           flight.SerializeSchema(QuerySchema, memory.DefaultAllocator),
+		FlightDescriptor: desc,
+		TotalRecords:     -1,
+		TotalBytes:       -1,
+	}, nil
+}
+
+func (m *flightSqlScenarioTester) GetSchemaStatement(ctx context.Context, cmd flightsql.StatementQuery, desc *flight.FlightDescriptor) (*flight.SchemaResult, error) {
+	return &flight.SchemaResult{Schema: flight.SerializeSchema(QuerySchema, memory.DefaultAllocator)}, nil
+}
+
+func (m *flightSqlScenarioTester) DoGetStatement(ctx context.Context, cmd flightsql.StatementQueryTicket) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return QuerySchema, m.doGetForTestCase(QuerySchema), nil
+}
+
+func (m *flightSqlScenarioTester) GetFlightInfoPreparedStatement(_ context.Context, cmd flightsql.PreparedStatementQuery, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	err := assertEq([]byte("SELECT PREPARED STATEMENT HANDLE"), cmd.GetPreparedStatementHandle())
+	if err != nil {
+		return nil, err
+	}
+	return m.flightInfoForCommand(desc, QuerySchema), nil
+}
+
+func (m *flightSqlScenarioTester) GetSchemaPreparedStatement(ctx context.Context, cmd flightsql.PreparedStatementQuery, desc *flight.FlightDescriptor) (*flight.SchemaResult, error) {
+	return &flight.SchemaResult{Schema: flight.SerializeSchema(QuerySchema, memory.DefaultAllocator)}, nil
+}
+
+func (m *flightSqlScenarioTester) DoGetPreparedStatement(_ context.Context, cmd flightsql.PreparedStatementQuery) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return QuerySchema, m.doGetForTestCase(QuerySchema), nil
+}
+
+func (m *flightSqlScenarioTester) GetFlightInfoCatalogs(_ context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return m.flightInfoForCommand(desc, schema_ref.Catalogs), nil
+}
+
+func (m *flightSqlScenarioTester) DoGetCatalogs(_ context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return schema_ref.Catalogs, m.doGetForTestCase(schema_ref.Catalogs), nil
+}
+
+func (m *flightSqlScenarioTester) GetFlightInfoXdbcTypeInfo(_ context.Context, cmd flightsql.GetXdbcTypeInfo, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return m.flightInfoForCommand(desc, schema_ref.XdbcTypeInfo), nil
+}
+
+func (m *flightSqlScenarioTester) DoGetXdbcTypeInfo(context.Context, flightsql.GetXdbcTypeInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return schema_ref.XdbcTypeInfo, m.doGetForTestCase(schema_ref.XdbcTypeInfo), nil
+}
+
+func (m *flightSqlScenarioTester) GetFlightInfoSqlInfo(_ context.Context, cmd flightsql.GetSqlInfo, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	if err := assertEq(int(2), len(cmd.GetInfo())); err != nil {
+		return nil, err
+	}
+	if err := assertEq(flightsql.SqlInfoFlightSqlServerName, flightsql.SqlInfo(cmd.GetInfo()[0])); err != nil {
+		return nil, err
+	}
+	if err := assertEq(flightsql.SqlInfoFlightSqlServerReadOnly, flightsql.SqlInfo(cmd.GetInfo()[1])); err != nil {
+		return nil, err
+	}
+
+	return m.flightInfoForCommand(desc, schema_ref.SqlInfo), nil
+}
+
+func (m *flightSqlScenarioTester) DoGetSqlInfo(context.Context, flightsql.GetSqlInfo) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return schema_ref.SqlInfo, m.doGetForTestCase(schema_ref.SqlInfo), nil
+}
+
+func (m *flightSqlScenarioTester) GetFlightInfoSchemas(_ context.Context, cmd flightsql.GetDBSchemas, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	if err := assertEq("catalog", cmd.GetCatalog()); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("db_schema_filter_pattern", cmd.GetDBSchemaFilterPattern()); err != nil {
+		return nil, err
+	}
+
+	return m.flightInfoForCommand(desc, schema_ref.DBSchemas), nil
+}
+
+func (m *flightSqlScenarioTester) DoGetDBSchemas(context.Context, flightsql.GetDBSchemas) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return schema_ref.DBSchemas, m.doGetForTestCase(schema_ref.DBSchemas), nil
+}
+
+func (m *flightSqlScenarioTester) GetFlightInfoTables(_ context.Context, cmd flightsql.GetTables, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	if err := assertEq("catalog", cmd.GetCatalog()); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("db_schema_filter_pattern", cmd.GetDBSchemaFilterPattern()); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("table_filter_pattern", cmd.GetTableNameFilterPattern()); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq(int(2), len(cmd.GetTableTypes())); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("table", cmd.GetTableTypes()[0]); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("view", cmd.GetTableTypes()[1]); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq(true, cmd.GetIncludeSchema()); err != nil {
+		return nil, err
+	}
+
+	return m.flightInfoForCommand(desc, schema_ref.TablesWithIncludedSchema), nil
+}
+
+func (m *flightSqlScenarioTester) DoGetTables(context.Context, flightsql.GetTables) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return schema_ref.TablesWithIncludedSchema, m.doGetForTestCase(schema_ref.TablesWithIncludedSchema), nil
+}
+
+func (m *flightSqlScenarioTester) GetFlightInfoTableTypes(_ context.Context, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	return m.flightInfoForCommand(desc, schema_ref.TableTypes), nil
+}
+
+func (m *flightSqlScenarioTester) DoGetTableTypes(context.Context) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return schema_ref.TableTypes, m.doGetForTestCase(schema_ref.TableTypes), nil
+}
+
+func (m *flightSqlScenarioTester) GetFlightInfoPrimaryKeys(_ context.Context, cmd flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	if err := assertEq("catalog", cmd.Catalog); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("db_schema", cmd.DBSchema); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("table", cmd.Table); err != nil {
+		return nil, err
+	}
+
+	return m.flightInfoForCommand(desc, schema_ref.PrimaryKeys), nil
+}
+
+func (m *flightSqlScenarioTester) DoGetPrimaryKeys(context.Context, flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return schema_ref.PrimaryKeys, m.doGetForTestCase(schema_ref.PrimaryKeys), nil
+}
+
+func (m *flightSqlScenarioTester) GetFlightInfoExportedKeys(_ context.Context, cmd flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	if err := assertEq("catalog", cmd.Catalog); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("db_schema", cmd.DBSchema); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("table", cmd.Table); err != nil {
+		return nil, err
+	}
+
+	return m.flightInfoForCommand(desc, schema_ref.ExportedKeys), nil
+}
+
+func (m *flightSqlScenarioTester) DoGetExportedKeys(context.Context, flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return schema_ref.ExportedKeys, m.doGetForTestCase(schema_ref.ExportedKeys), nil
+}
+
+func (m *flightSqlScenarioTester) GetFlightInfoImportedKeys(_ context.Context, cmd flightsql.TableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	if err := assertEq("catalog", cmd.Catalog); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("db_schema", cmd.DBSchema); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("table", cmd.Table); err != nil {
+		return nil, err
+	}
+
+	return m.flightInfoForCommand(desc, schema_ref.ImportedKeys), nil
+}
+
+func (m *flightSqlScenarioTester) DoGetImportedKeys(context.Context, flightsql.TableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return schema_ref.ImportedKeys, m.doGetForTestCase(schema_ref.ImportedKeys), nil
+}
+
+func (m *flightSqlScenarioTester) GetFlightInfoCrossReference(_ context.Context, cmd flightsql.CrossTableRef, desc *flight.FlightDescriptor) (*flight.FlightInfo, error) {
+	if err := assertEq("pk_catalog", cmd.PKRef.Catalog); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("pk_db_schema", cmd.PKRef.DBSchema); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("pk_table", cmd.PKRef.Table); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("fk_catalog", cmd.FKRef.Catalog); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("fk_db_schema", cmd.FKRef.DBSchema); err != nil {
+		return nil, err
+	}
+
+	if err := assertEq("fk_table", cmd.FKRef.Table); err != nil {
+		return nil, err
+	}
+
+	return m.flightInfoForCommand(desc, schema_ref.TableTypes), nil
+}
+
+func (m *flightSqlScenarioTester) DoGetCrossReference(context.Context, flightsql.CrossTableRef) (*arrow.Schema, <-chan flight.StreamChunk, error) {
+	return schema_ref.CrossReference, m.doGetForTestCase(schema_ref.CrossReference), nil
+}
+
+func (m *flightSqlScenarioTester) DoPutCommandStatementUpdate(_ context.Context, cmd flightsql.StatementUpdate) (int64, error) {
+	if err := assertEq("UPDATE STATEMENT", cmd.GetQuery()); err != nil {
+		return 0, err
+	}
+
+	return updateStatementExpectedRows, nil
+}
+
+func (m *flightSqlScenarioTester) CreatePreparedStatement(_ context.Context, request flightsql.ActionCreatePreparedStatementRequest) (res flightsql.ActionCreatePreparedStatementResult, err error) {
+	err = assertEq(true, request.GetQuery() == "SELECT PREPARED STATEMENT" || request.GetQuery() == "UPDATE PREPARED STATEMENT")
+	if err != nil {
+		return
+	}
+
+	res.Handle = []byte(request.GetQuery() + " HANDLE")
+	return
+}
+
+func (m *flightSqlScenarioTester) ClosePreparedStatement(context.Context, flightsql.ActionClosePreparedStatementRequest) error {
+	return nil
+}
+
+func (m *flightSqlScenarioTester) DoPutPreparedStatementQuery(_ context.Context, cmd flightsql.PreparedStatementQuery, rdr flight.MessageReader, _ flight.MetadataWriter) error {
+	err := assertEq([]byte("SELECT PREPARED STATEMENT HANDLE"), cmd.GetPreparedStatementHandle())
+	if err != nil {
+		return err
+	}
+
+	actualSchema := rdr.Schema()
+	if err = assertEq(true, actualSchema.Equal(QuerySchema)); err != nil {
+		return err
+	}
+
+	return nil
+}
+
+func (m *flightSqlScenarioTester) DoPutPreparedStatementUpdate(_ context.Context, cmd flightsql.PreparedStatementUpdate, _ flight.MessageReader) (int64, error) {
+	err := assertEq([]byte("UPDATE PREPARED STATEMENT HANDLE"), cmd.GetPreparedStatementHandle())
+	if err != nil {
+		return 0, err
+	}
+
+	return updatePreparedStatementExpectedRows, nil
+}
diff --git a/go/arrow/internal/testing/gen/random_array_gen.go b/go/arrow/internal/testing/gen/random_array_gen.go
index b99b52534c1..b087e1b6e36 100644
--- a/go/arrow/internal/testing/gen/random_array_gen.go
+++ b/go/arrow/internal/testing/gen/random_array_gen.go
@@ -17,10 +17,12 @@
 package gen
 
 import (
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"math"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"golang.org/x/exp/rand"
 	"gonum.org/v1/gonum/stat/distuv"
 )
@@ -213,8 +215,14 @@ func (r *RandomArrayGenerator) Int64(size int64, min, max int64, prob float64) a
 	r.extra++
 	dist := rand.New(rand.NewSource(r.seed + r.extra))
 	out := arrow.Int64Traits.CastFromBytes(buffers[1].Bytes())
-	for i := int64(0); i < size; i++ {
-		out[i] = dist.Int63n(max-min+1) + min
+	if max == math.MaxInt64 && min == math.MinInt64 {
+		for i := int64(0); i < size; i++ {
+			out[i] = int64(dist.Uint64())
+		}
+	} else {
+		for i := int64(0); i < size; i++ {
+			out[i] = dist.Int63n(max-min+1) + min
+		}
 	}
 
 	data := array.NewData(arrow.PrimitiveTypes.Int64, int(size), buffers, nil, int(nullcount), 0)
@@ -335,3 +343,59 @@ func (r *RandomArrayGenerator) LargeString(size int64, minLength, maxLength int6
 
 	return bldr.NewArray()
 }
+
+func (r *RandomArrayGenerator) Numeric(dt arrow.Type, size int64, min, max int64, nullprob float64) arrow.Array {
+	switch dt {
+	case arrow.INT8:
+		return r.Int8(size, int8(min), int8(max), nullprob)
+	case arrow.UINT8:
+		return r.Uint8(size, uint8(min), uint8(max), nullprob)
+	case arrow.INT16:
+		return r.Int16(size, int16(min), int16(max), nullprob)
+	case arrow.UINT16:
+		return r.Uint16(size, uint16(min), uint16(max), nullprob)
+	case arrow.INT32:
+		return r.Int32(size, int32(min), int32(max), nullprob)
+	case arrow.UINT32:
+		return r.Uint32(size, uint32(min), uint32(max), nullprob)
+	case arrow.INT64:
+		return r.Int64(size, int64(min), int64(max), nullprob)
+	case arrow.UINT64:
+		return r.Uint64(size, uint64(min), uint64(max), nullprob)
+	case arrow.FLOAT32:
+		return r.Float32(size, float32(min), float32(max), nullprob)
+	case arrow.FLOAT64:
+		return r.Float64(size, float64(min), float64(max), nullprob)
+	}
+	panic("invalid type for random numeric array")
+}
+
+func (r *RandomArrayGenerator) ArrayOf(dt arrow.Type, size int64, nullprob float64) arrow.Array {
+	switch dt {
+	case arrow.STRING:
+		return r.String(size, 0, 20, nullprob)
+	case arrow.LARGE_STRING:
+		return r.LargeString(size, 0, 20, nullprob)
+	case arrow.INT8:
+		return r.Int8(size, math.MinInt8, math.MaxInt8, nullprob)
+	case arrow.UINT8:
+		return r.Uint8(size, 0, math.MaxUint8, nullprob)
+	case arrow.INT16:
+		return r.Int16(size, math.MinInt16, math.MaxInt16, nullprob)
+	case arrow.UINT16:
+		return r.Uint16(size, 0, math.MaxUint16, nullprob)
+	case arrow.INT32:
+		return r.Int32(size, math.MinInt32, math.MaxInt32, nullprob)
+	case arrow.UINT32:
+		return r.Uint32(size, 0, math.MaxUint32, nullprob)
+	case arrow.INT64:
+		return r.Int64(size, math.MinInt64, math.MaxInt64, nullprob)
+	case arrow.UINT64:
+		return r.Uint64(size, 0, math.MaxUint64, nullprob)
+	case arrow.FLOAT32:
+		return r.Float32(size, -math.MaxFloat32, math.MaxFloat32, nullprob)
+	case arrow.FLOAT64:
+		return r.Float64(size, -math.MaxFloat64, math.MaxFloat64, nullprob)
+	}
+	panic("unimplemented ArrayOf type")
+}
diff --git a/go/arrow/internal/testing/tools/bits_test.go b/go/arrow/internal/testing/tools/bits_test.go
index fac20b043d0..45f9f3ab8a8 100644
--- a/go/arrow/internal/testing/tools/bits_test.go
+++ b/go/arrow/internal/testing/tools/bits_test.go
@@ -20,7 +20,7 @@ import (
 	"fmt"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/tools"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/tools"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/internal/testing/tools/data_types.go b/go/arrow/internal/testing/tools/data_types.go
new file mode 100644
index 00000000000..bcf5b4443c0
--- /dev/null
+++ b/go/arrow/internal/testing/tools/data_types.go
@@ -0,0 +1,52 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package tools
+
+import (
+	"reflect"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/float16"
+	"golang.org/x/exp/constraints"
+)
+
+var typMap = map[reflect.Type]arrow.DataType{
+	reflect.TypeOf(false):           arrow.FixedWidthTypes.Boolean,
+	reflect.TypeOf(int8(0)):         arrow.PrimitiveTypes.Int8,
+	reflect.TypeOf(int16(0)):        arrow.PrimitiveTypes.Int16,
+	reflect.TypeOf(int32(0)):        arrow.PrimitiveTypes.Int32,
+	reflect.TypeOf(int64(0)):        arrow.PrimitiveTypes.Int64,
+	reflect.TypeOf(uint8(0)):        arrow.PrimitiveTypes.Uint8,
+	reflect.TypeOf(uint16(0)):       arrow.PrimitiveTypes.Uint16,
+	reflect.TypeOf(uint32(0)):       arrow.PrimitiveTypes.Uint32,
+	reflect.TypeOf(uint64(0)):       arrow.PrimitiveTypes.Uint64,
+	reflect.TypeOf(float32(0)):      arrow.PrimitiveTypes.Float32,
+	reflect.TypeOf(float64(0)):      arrow.PrimitiveTypes.Float64,
+	reflect.TypeOf(string("")):      arrow.BinaryTypes.String,
+	reflect.TypeOf(arrow.Date32(0)): arrow.FixedWidthTypes.Date32,
+	reflect.TypeOf(arrow.Date64(0)): arrow.FixedWidthTypes.Date64,
+	reflect.TypeOf(true):            arrow.FixedWidthTypes.Boolean,
+	reflect.TypeOf(float16.Num{}):   arrow.FixedWidthTypes.Float16,
+	reflect.TypeOf([]byte{}):        arrow.BinaryTypes.Binary,
+}
+
+func GetDataType[T constraints.Integer | constraints.Float | bool | string | []byte | float16.Num]() arrow.DataType {
+	var z T
+	return typMap[reflect.TypeOf(z)]
+}
diff --git a/go/arrow/internal/testing/types/extension_types.go b/go/arrow/internal/testing/types/extension_types.go
index 0e758066341..4527188befd 100644
--- a/go/arrow/internal/testing/types/extension_types.go
+++ b/go/arrow/internal/testing/types/extension_types.go
@@ -22,8 +22,8 @@ import (
 	"fmt"
 	"reflect"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/arrow/internal/utils.go b/go/arrow/internal/utils.go
new file mode 100644
index 00000000000..d2a9c35e5c9
--- /dev/null
+++ b/go/arrow/internal/utils.go
@@ -0,0 +1,47 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package internal
+
+import (
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
+)
+
+const CurMetadataVersion = flatbuf.MetadataVersionV5
+
+// DefaultHasValidityBitmap is a convenience function equivalent to
+// calling HasValidityBitmap with CurMetadataVersion.
+func DefaultHasValidityBitmap(id arrow.Type) bool { return HasValidityBitmap(id, CurMetadataVersion) }
+
+// HasValidityBitmap returns whether the given type at the provided version is
+// expected to have a validity bitmap in it's representation.
+//
+// Typically this is necessary because of the change between V4 and V5
+// where union types no longer have validity bitmaps.
+func HasValidityBitmap(id arrow.Type, version flatbuf.MetadataVersion) bool {
+	// in <=V4 Null types had no validity bitmap
+	// in >=V5 Null and Union types have no validity bitmap
+	if version < flatbuf.MetadataVersionV5 {
+		return id != arrow.NULL
+	}
+
+	switch id {
+	case arrow.NULL, arrow.DENSE_UNION, arrow.SPARSE_UNION:
+		return false
+	}
+	return true
+}
diff --git a/go/arrow/ipc/cmd/arrow-cat/main.go b/go/arrow/ipc/cmd/arrow-cat/main.go
index aa3818be658..411c83f472c 100644
--- a/go/arrow/ipc/cmd/arrow-cat/main.go
+++ b/go/arrow/ipc/cmd/arrow-cat/main.go
@@ -63,8 +63,8 @@ import (
 	"log"
 	"os"
 
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func main() {
@@ -91,7 +91,7 @@ func processStream(w io.Writer, rin io.Reader) error {
 		r, err := ipc.NewReader(rin, ipc.WithAllocator(mem))
 		if err != nil {
 			if errors.Is(err, io.EOF) {
-				return nil
+				break
 			}
 			return err
 		}
diff --git a/go/arrow/ipc/cmd/arrow-cat/main_test.go b/go/arrow/ipc/cmd/arrow-cat/main_test.go
index e9cc59c5dcf..0cee6449635 100644
--- a/go/arrow/ipc/cmd/arrow-cat/main_test.go
+++ b/go/arrow/ipc/cmd/arrow-cat/main_test.go
@@ -24,10 +24,10 @@ import (
 	"os"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestCatStream(t *testing.T) {
diff --git a/go/arrow/ipc/cmd/arrow-file-to-stream/main.go b/go/arrow/ipc/cmd/arrow-file-to-stream/main.go
index 4559d6faff6..dae7f0e20b5 100644
--- a/go/arrow/ipc/cmd/arrow-file-to-stream/main.go
+++ b/go/arrow/ipc/cmd/arrow-file-to-stream/main.go
@@ -24,9 +24,9 @@ import (
 	"log"
 	"os"
 
-	"github.com/apache/arrow/go/v10/arrow/arrio"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/arrio"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func main() {
diff --git a/go/arrow/ipc/cmd/arrow-file-to-stream/main_test.go b/go/arrow/ipc/cmd/arrow-file-to-stream/main_test.go
index 57f0bc5d990..86b68b2afbb 100644
--- a/go/arrow/ipc/cmd/arrow-file-to-stream/main_test.go
+++ b/go/arrow/ipc/cmd/arrow-file-to-stream/main_test.go
@@ -21,8 +21,8 @@ import (
 	"io/ioutil"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestFileToStream(t *testing.T) {
diff --git a/go/arrow/ipc/cmd/arrow-json-integration-test/main.go b/go/arrow/ipc/cmd/arrow-json-integration-test/main.go
index e68acb6c462..9197a032fac 100644
--- a/go/arrow/ipc/cmd/arrow-json-integration-test/main.go
+++ b/go/arrow/ipc/cmd/arrow-json-integration-test/main.go
@@ -22,12 +22,12 @@ import (
 	"log"
 	"os"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/arrio"
-	"github.com/apache/arrow/go/v10/arrow/internal/arrjson"
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/types"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/arrio"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrjson"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/types"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
 )
 
 func main() {
diff --git a/go/arrow/ipc/cmd/arrow-json-integration-test/main_test.go b/go/arrow/ipc/cmd/arrow-json-integration-test/main_test.go
index 2cf1356b123..ca0061eab77 100644
--- a/go/arrow/ipc/cmd/arrow-json-integration-test/main_test.go
+++ b/go/arrow/ipc/cmd/arrow-json-integration-test/main_test.go
@@ -21,8 +21,8 @@ import (
 	"os"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestIntegration(t *testing.T) {
diff --git a/go/arrow/ipc/cmd/arrow-ls/main.go b/go/arrow/ipc/cmd/arrow-ls/main.go
index 27f8ad5eae1..cd16ef9a978 100644
--- a/go/arrow/ipc/cmd/arrow-ls/main.go
+++ b/go/arrow/ipc/cmd/arrow-ls/main.go
@@ -61,8 +61,8 @@ import (
 	"log"
 	"os"
 
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func main() {
diff --git a/go/arrow/ipc/cmd/arrow-ls/main_test.go b/go/arrow/ipc/cmd/arrow-ls/main_test.go
index 6fb53b8463b..f81a51f35f0 100644
--- a/go/arrow/ipc/cmd/arrow-ls/main_test.go
+++ b/go/arrow/ipc/cmd/arrow-ls/main_test.go
@@ -24,10 +24,10 @@ import (
 	"os"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestLsStream(t *testing.T) {
diff --git a/go/arrow/ipc/cmd/arrow-stream-to-file/main.go b/go/arrow/ipc/cmd/arrow-stream-to-file/main.go
index 1a3d98f819c..e01703d7038 100644
--- a/go/arrow/ipc/cmd/arrow-stream-to-file/main.go
+++ b/go/arrow/ipc/cmd/arrow-stream-to-file/main.go
@@ -24,9 +24,9 @@ import (
 	"log"
 	"os"
 
-	"github.com/apache/arrow/go/v10/arrow/arrio"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/arrio"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func main() {
diff --git a/go/arrow/ipc/cmd/arrow-stream-to-file/main_test.go b/go/arrow/ipc/cmd/arrow-stream-to-file/main_test.go
index 667d193153c..5c5f9a0f15e 100644
--- a/go/arrow/ipc/cmd/arrow-stream-to-file/main_test.go
+++ b/go/arrow/ipc/cmd/arrow-stream-to-file/main_test.go
@@ -21,8 +21,8 @@ import (
 	"io/ioutil"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestStreamToFile(t *testing.T) {
diff --git a/go/arrow/ipc/compression.go b/go/arrow/ipc/compression.go
index a8c2b619671..462b1bad23e 100644
--- a/go/arrow/ipc/compression.go
+++ b/go/arrow/ipc/compression.go
@@ -19,8 +19,9 @@ package ipc
 import (
 	"io"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/klauspost/compress/zstd"
 	"github.com/pierrec/lz4/v4"
 )
@@ -118,3 +119,17 @@ func getDecompressor(codec flatbuf.CompressionType) decompressor {
 	}
 	return nil
 }
+
+type bufferWriter struct {
+	buf *memory.Buffer
+	pos int
+}
+
+func (bw *bufferWriter) Write(p []byte) (n int, err error) {
+	if bw.pos+len(p) >= bw.buf.Cap() {
+		bw.buf.Reserve(bw.pos + len(p))
+	}
+	n = copy(bw.buf.Buf()[bw.pos:], p)
+	bw.pos += n
+	return
+}
diff --git a/go/arrow/ipc/endian_swap.go b/go/arrow/ipc/endian_swap.go
index a61b6535576..387c6693145 100644
--- a/go/arrow/ipc/endian_swap.go
+++ b/go/arrow/ipc/endian_swap.go
@@ -20,9 +20,9 @@ import (
 	"errors"
 	"math/bits"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 // swap the endianness of the array's buffers as needed in-place to save
diff --git a/go/arrow/ipc/endian_swap_test.go b/go/arrow/ipc/endian_swap_test.go
index 2eef6183a2c..43501b87188 100644
--- a/go/arrow/ipc/endian_swap_test.go
+++ b/go/arrow/ipc/endian_swap_test.go
@@ -20,11 +20,11 @@ import (
 	"strings"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/endian"
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/types"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/types"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 )
diff --git a/go/arrow/ipc/file_reader.go b/go/arrow/ipc/file_reader.go
index c8fc82eca19..4c1202d97d9 100644
--- a/go/arrow/ipc/file_reader.go
+++ b/go/arrow/ipc/file_reader.go
@@ -23,13 +23,14 @@ import (
 	"fmt"
 	"io"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/endian"
-	"github.com/apache/arrow/go/v10/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v10/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/internal"
+	"github.com/apache/arrow/go/v11/arrow/internal/dictutils"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 // FileReader is an Arrow file reader.
@@ -512,7 +513,7 @@ func (ctx *arrayLoaderContext) loadCommon(typ arrow.Type, nbufs int) (*flatbuf.F
 
 	var buf *memory.Buffer
 
-	if hasValidityBitmap(typ, ctx.version) {
+	if internal.HasValidityBitmap(typ, flatbuf.MetadataVersion(ctx.version)) {
 		switch field.NullCount() {
 		case 0:
 			ctx.ibuffer++
diff --git a/go/arrow/ipc/file_test.go b/go/arrow/ipc/file_test.go
index a8fa1be91f3..8a5f30d58c0 100644
--- a/go/arrow/ipc/file_test.go
+++ b/go/arrow/ipc/file_test.go
@@ -21,9 +21,9 @@ import (
 	"io/ioutil"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v10/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestFile(t *testing.T) {
diff --git a/go/arrow/ipc/file_writer.go b/go/arrow/ipc/file_writer.go
index 2d91ea4c67b..372c1f40dd6 100644
--- a/go/arrow/ipc/file_writer.go
+++ b/go/arrow/ipc/file_writer.go
@@ -21,11 +21,11 @@ import (
 	"fmt"
 	"io"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v10/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal/dictutils"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 // PayloadWriter is an interface for injecting a different payloadwriter
diff --git a/go/arrow/ipc/ipc.go b/go/arrow/ipc/ipc.go
index de1010b8d11..8b3df3af09f 100644
--- a/go/arrow/ipc/ipc.go
+++ b/go/arrow/ipc/ipc.go
@@ -19,10 +19,10 @@ package ipc
 import (
 	"io"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/arrio"
-	"github.com/apache/arrow/go/v10/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/arrio"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 const (
@@ -69,6 +69,8 @@ type config struct {
 	codec              flatbuf.CompressionType
 	compressNP         int
 	ensureNativeEndian bool
+	noAutoSchema       bool
+	emitDictDeltas     bool
 }
 
 func newConfig(opts ...Option) *config {
@@ -150,6 +152,22 @@ func WithEnsureNativeEndian(v bool) Option {
 	}
 }
 
+// WithDelayedReadSchema alters the ipc.Reader behavior to delay attempting
+// to read the schema from the stream until the first call to Next instead
+// of immediately attempting to read a schema from the stream when created.
+func WithDelayReadSchema(v bool) Option {
+	return func(cfg *config) {
+		cfg.noAutoSchema = v
+	}
+}
+
+// WithDictionaryDeltas specifies whether or not to emit dictionary deltas.
+func WithDictionaryDeltas(v bool) Option {
+	return func(cfg *config) {
+		cfg.emitDictDeltas = v
+	}
+}
+
 var (
 	_ arrio.Reader = (*Reader)(nil)
 	_ arrio.Writer = (*Writer)(nil)
diff --git a/go/arrow/ipc/ipc_test.go b/go/arrow/ipc/ipc_test.go
index 2f0816c0d02..553ed2d9f34 100644
--- a/go/arrow/ipc/ipc_test.go
+++ b/go/arrow/ipc/ipc_test.go
@@ -19,17 +19,20 @@ package ipc_test
 import (
 	"bytes"
 	"errors"
+	"fmt"
 	"io"
 	"math/rand"
 	"strconv"
+	"strings"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/ipc"
-	"github.com/apache/arrow/go/v10/arrow/memory"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/ipc"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestArrow12072(t *testing.T) {
@@ -330,3 +333,290 @@ func TestIPCTable(t *testing.T) {
 		n++
 	}
 }
+
+// ARROW-18317
+func TestDictionary(t *testing.T) {
+	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
+	defer pool.AssertSize(t, 0)
+
+	// A schema with a single dictionary field
+	schema := arrow.NewSchema([]arrow.Field{{Name: "field", Type: &arrow.DictionaryType{
+		IndexType: arrow.PrimitiveTypes.Uint16,
+		ValueType: arrow.BinaryTypes.String,
+		Ordered:   false,
+	}}}, nil)
+
+	// IPC writer and reader
+	var bufWriter bytes.Buffer
+	ipcWriter := ipc.NewWriter(&bufWriter, ipc.WithSchema(schema), ipc.WithAllocator(pool), ipc.WithDictionaryDeltas(false))
+	defer ipcWriter.Close()
+
+	bufReader := bytes.NewReader([]byte{})
+	var ipcReader *ipc.Reader
+
+	bldr := array.NewBuilder(pool, schema.Field(0).Type)
+	defer bldr.Release()
+	require.NoError(t, bldr.UnmarshalJSON([]byte(`["value_0"]`)))
+
+	arr := bldr.NewArray()
+	defer arr.Release()
+	// Create a first record with field = "value_0"
+	record := array.NewRecord(schema, []arrow.Array{arr}, 1)
+	defer record.Release()
+
+	expectedJson, err := record.MarshalJSON()
+	require.NoError(t, err)
+	// Serialize and deserialize the record via an IPC stream
+	json, ipcReader, err := encodeDecodeIpcStream(t, record, &bufWriter, ipcWriter, bufReader, ipcReader)
+	require.NoError(t, err)
+	// Compare the expected JSON with the actual JSON
+	require.JSONEq(t, string(expectedJson), string(json))
+
+	// Create a second record with field = "value_1"
+	require.NoError(t, bldr.UnmarshalJSON([]byte(`["value_1"]`)))
+	arr = bldr.NewArray()
+	defer arr.Release()
+	record = array.NewRecord(schema, []arrow.Array{arr}, 1)
+
+	// record, _, err = array.RecordFromJSON(pool, schema, strings.NewReader(`[{"field": ["value_1"]}]`))
+	// require.NoError(t, err)
+	defer record.Release()
+
+	expectedJson, err = record.MarshalJSON()
+	require.NoError(t, err)
+	// Serialize and deserialize the record via an IPC stream
+	json, ipcReader, err = encodeDecodeIpcStream(t, record, &bufWriter, ipcWriter, bufReader, ipcReader)
+	require.NoError(t, err)
+	// Compare the expected JSON with the actual JSON
+	// field = "value_0" but should be "value_1"
+	require.JSONEq(t, string(expectedJson), string(json))
+	require.NoError(t, ipcReader.Err())
+	ipcReader.Release()
+}
+
+// ARROW-18326
+func TestDictionaryDeltas(t *testing.T) {
+	pool := memory.NewCheckedAllocator(memory.NewGoAllocator())
+	defer pool.AssertSize(t, 0)
+
+	// A schema with a single dictionary field
+	schema := arrow.NewSchema([]arrow.Field{{Name: "field", Type: &arrow.DictionaryType{
+		IndexType: arrow.PrimitiveTypes.Uint16,
+		ValueType: arrow.BinaryTypes.String,
+		Ordered:   false,
+	}}}, nil)
+
+	// IPC writer and reader
+	var bufWriter bytes.Buffer
+	ipcWriter := ipc.NewWriter(&bufWriter, ipc.WithSchema(schema), ipc.WithAllocator(pool), ipc.WithDictionaryDeltas(true))
+	defer ipcWriter.Close()
+
+	bufReader := bytes.NewReader([]byte{})
+	var ipcReader *ipc.Reader
+
+	bldr := array.NewBuilder(pool, schema.Field(0).Type)
+	defer bldr.Release()
+	require.NoError(t, bldr.UnmarshalJSON([]byte(`["value_0"]`)))
+
+	arr := bldr.NewArray()
+	defer arr.Release()
+	// Create a first record with field = "value_0"
+	record := array.NewRecord(schema, []arrow.Array{arr}, 1)
+	defer record.Release()
+
+	expectedJson, err := record.MarshalJSON()
+	require.NoError(t, err)
+	// Serialize and deserialize the record via an IPC stream
+	json, ipcReader, err := encodeDecodeIpcStream(t, record, &bufWriter, ipcWriter, bufReader, ipcReader)
+	require.NoError(t, err)
+	// Compare the expected JSON with the actual JSON
+	require.JSONEq(t, string(expectedJson), string(json))
+
+	// Create a second record with field = "value_1"
+	require.NoError(t, bldr.UnmarshalJSON([]byte(`["value_1"]`)))
+	arr = bldr.NewArray()
+	defer arr.Release()
+	record = array.NewRecord(schema, []arrow.Array{arr}, 1)
+	defer record.Release()
+
+	expectedJson, err = record.MarshalJSON()
+	require.NoError(t, err)
+	// Serialize and deserialize the record via an IPC stream
+	json, ipcReader, err = encodeDecodeIpcStream(t, record, &bufWriter, ipcWriter, bufReader, ipcReader)
+	require.NoError(t, err)
+	// Compare the expected JSON with the actual JSON
+	// field = "value_0" but should be "value_1"
+	require.JSONEq(t, string(expectedJson), string(json))
+	require.NoError(t, ipcReader.Err())
+	ipcReader.Release()
+}
+
+// Encode and decode a record over a tuple of IPC writer and reader.
+// IPC writer and reader are the same from one call to another.
+func encodeDecodeIpcStream(t *testing.T,
+	record arrow.Record,
+	bufWriter *bytes.Buffer, ipcWriter *ipc.Writer,
+	bufReader *bytes.Reader, ipcReader *ipc.Reader) ([]byte, *ipc.Reader, error) {
+
+	// Serialize the record via an ipc writer
+	if err := ipcWriter.Write(record); err != nil {
+		return nil, ipcReader, err
+	}
+	serializedRecord := bufWriter.Bytes()
+	bufWriter.Reset()
+
+	// Deserialize the record via an ipc reader
+	bufReader.Reset(serializedRecord)
+	if ipcReader == nil {
+		newIpcReader, err := ipc.NewReader(bufReader)
+		if err != nil {
+			return nil, newIpcReader, err
+		}
+		ipcReader = newIpcReader
+	}
+	ipcReader.Next()
+	record = ipcReader.Record()
+
+	// Return the decoded record as a json string
+	json, err := record.MarshalJSON()
+	if err != nil {
+		return nil, ipcReader, err
+	}
+	return json, ipcReader, nil
+}
+
+func Example_mapSlice() {
+	mem := memory.DefaultAllocator
+	dt := arrow.MapOf(arrow.BinaryTypes.String, arrow.BinaryTypes.String)
+	schema := arrow.NewSchema([]arrow.Field{{
+		Name: "map",
+		Type: dt,
+	}}, nil)
+
+	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(`[
+		[{"key": "index1", "value": "main2"}],
+		[{"key": "index3", "value": "main4"}, {"key": "tag_int", "value": ""}],
+		[{"key":"index5","value":"main6"},{"key":"tag_int","value":""}],
+		[{"key":"index6","value":"main7"},{"key":"tag_int","value":""}],
+		[{"key":"index7","value":"main8"},{"key":"tag_int","value":""}],
+		[{"key":"index8","value":"main9"}]
+	]`))
+	if err != nil {
+		panic(err)
+	}
+	defer arr.Release()
+
+	rec := array.NewRecord(schema, []arrow.Array{arr}, int64(arr.Len()))
+	defer rec.Release()
+	rec2 := rec.NewSlice(1, 2)
+	defer rec2.Release()
+
+	var buf bytes.Buffer
+	w := ipc.NewWriter(&buf, ipc.WithSchema(rec.Schema()))
+	if err := w.Write(rec2); err != nil {
+		panic(err)
+	}
+	if err := w.Close(); err != nil {
+		panic(err)
+	}
+
+	r, err := ipc.NewReader(&buf)
+	if err != nil {
+		panic(err)
+	}
+	defer r.Release()
+
+	r.Next()
+	fmt.Println(r.Record())
+
+	// Output:
+	// record:
+	//   schema:
+	//   fields: 1
+	//     - map: type=map<utf8, utf8>
+	//   rows: 1
+	//   col[0][map]: [{["index3" "tag_int"] ["main4" ""]}]
+}
+
+func Example_listSlice() {
+	mem := memory.DefaultAllocator
+	dt := arrow.ListOf(arrow.BinaryTypes.String)
+	schema := arrow.NewSchema([]arrow.Field{{
+		Name: "list",
+		Type: dt,
+	}}, nil)
+
+	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(`[
+		["index1"], 
+		["index3", "tag_int"], ["index5", "tag_int"],
+		["index6", "tag_int"], ["index7", "tag_int"], 
+		["index7", "tag_int"],
+		["index8"]
+	]`))
+	if err != nil {
+		panic(err)
+	}
+	defer arr.Release()
+
+	rec := array.NewRecord(schema, []arrow.Array{arr}, int64(arr.Len()))
+	defer rec.Release()
+	rec2 := rec.NewSlice(1, 2)
+	defer rec2.Release()
+
+	var buf bytes.Buffer
+	w := ipc.NewWriter(&buf, ipc.WithSchema(rec.Schema()))
+	if err := w.Write(rec2); err != nil {
+		panic(err)
+	}
+	if err := w.Close(); err != nil {
+		panic(err)
+	}
+
+	r, err := ipc.NewReader(&buf)
+	if err != nil {
+		panic(err)
+	}
+	defer r.Release()
+
+	r.Next()
+	fmt.Println(r.Record())
+
+	// Output:
+	// record:
+	//   schema:
+	//   fields: 1
+	//     - list: type=list<item: utf8, nullable>
+	//   rows: 1
+	//   col[0][list]: [["index3" "tag_int"]]
+}
+
+func TestIpcEmptyMap(t *testing.T) {
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(t, 0)
+
+	dt := arrow.MapOf(arrow.BinaryTypes.String, arrow.BinaryTypes.String)
+	schema := arrow.NewSchema([]arrow.Field{{
+		Name: "map",
+		Type: dt,
+	}}, nil)
+
+	arr, _, err := array.FromJSON(mem, dt, strings.NewReader(`[]`))
+	require.NoError(t, err)
+	defer arr.Release()
+
+	rec := array.NewRecord(schema, []arrow.Array{arr}, int64(arr.Len()))
+	defer rec.Release()
+
+	var buf bytes.Buffer
+	w := ipc.NewWriter(&buf, ipc.WithSchema(rec.Schema()))
+	require.NoError(t, w.Write(rec))
+	assert.NoError(t, w.Close())
+
+	r, err := ipc.NewReader(&buf)
+	require.NoError(t, err)
+	defer r.Release()
+
+	assert.True(t, r.Next())
+	assert.Zero(t, r.Record().NumRows())
+	assert.True(t, arrow.TypeEqual(dt, r.Record().Column(0).DataType()))
+}
diff --git a/go/arrow/ipc/message.go b/go/arrow/ipc/message.go
index db9f61426aa..04ea047128b 100644
--- a/go/arrow/ipc/message.go
+++ b/go/arrow/ipc/message.go
@@ -22,9 +22,9 @@ import (
 	"io"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 // MetadataVersion represents the Arrow metadata version.
diff --git a/go/arrow/ipc/message_test.go b/go/arrow/ipc/message_test.go
index 1d3b7caa59d..3f9809ad7b9 100644
--- a/go/arrow/ipc/message_test.go
+++ b/go/arrow/ipc/message_test.go
@@ -22,9 +22,9 @@ import (
 	"io"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestMessageReaderBodyInAllocator(t *testing.T) {
diff --git a/go/arrow/ipc/metadata.go b/go/arrow/ipc/metadata.go
index 3a756225365..b10adaa1b5f 100644
--- a/go/arrow/ipc/metadata.go
+++ b/go/arrow/ipc/metadata.go
@@ -23,11 +23,11 @@ import (
 	"io"
 	"sort"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/endian"
-	"github.com/apache/arrow/go/v10/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v10/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/internal/dictutils"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	flatbuffers "github.com/google/flatbuffers/go"
 )
 
@@ -49,20 +49,6 @@ const (
 	kMaxNestingDepth = 64
 )
 
-func hasValidityBitmap(id arrow.Type, version MetadataVersion) bool {
-	// in <=V4 Null types had no validity bitmap
-	// in >=V5 Null and Union types have no validity bitmap
-	if version < MetadataV5 {
-		return id != arrow.NULL
-	}
-
-	switch id {
-	case arrow.NULL, arrow.DENSE_UNION, arrow.SPARSE_UNION:
-		return false
-	}
-	return true
-}
-
 type startVecFunc func(b *flatbuffers.Builder, n int) flatbuffers.UOffsetT
 
 type fieldMetadata struct {
diff --git a/go/arrow/ipc/metadata_test.go b/go/arrow/ipc/metadata_test.go
index 951db3d989f..f004c9ea807 100644
--- a/go/arrow/ipc/metadata_test.go
+++ b/go/arrow/ipc/metadata_test.go
@@ -21,12 +21,12 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v10/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v10/arrow/internal/testing/types"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/internal/dictutils"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/types"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	flatbuffers "github.com/google/flatbuffers/go"
 	"github.com/stretchr/testify/assert"
 )
diff --git a/go/arrow/ipc/reader.go b/go/arrow/ipc/reader.go
index 101e84b444b..db0a21487cf 100644
--- a/go/arrow/ipc/reader.go
+++ b/go/arrow/ipc/reader.go
@@ -23,13 +23,13 @@ import (
 	"io"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/endian"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v10/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/internal/dictutils"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 // Reader reads records from an io.Reader.
@@ -44,10 +44,12 @@ type Reader struct {
 	err      error
 
 	// types dictTypeMap
-	memo             dictutils.Memo
-	readInitialDicts bool
-	done             bool
-	swapEndianness   bool
+	memo               dictutils.Memo
+	readInitialDicts   bool
+	done               bool
+	swapEndianness     bool
+	ensureNativeEndian bool
+	expectedSchema     *arrow.Schema
 
 	mem memory.Allocator
 }
@@ -70,18 +72,16 @@ func NewReaderFromMessageReader(r MessageReader, opts ...Option) (reader *Reader
 		r:        r,
 		refCount: 1,
 		// types:    make(dictTypeMap),
-		memo: dictutils.NewMemo(),
-		mem:  cfg.alloc,
+		memo:               dictutils.NewMemo(),
+		mem:                cfg.alloc,
+		ensureNativeEndian: cfg.ensureNativeEndian,
+		expectedSchema:     cfg.schema,
 	}
 
-	err = rr.readSchema(cfg.schema)
-	if err != nil {
-		return nil, fmt.Errorf("arrow/ipc: could not read schema from stream: %w", err)
-	}
-
-	if cfg.ensureNativeEndian && !rr.schema.IsNativeEndian() {
-		rr.swapEndianness = true
-		rr.schema = rr.schema.WithEndianness(endian.NativeEndian)
+	if !cfg.noAutoSchema {
+		if err := rr.readSchema(cfg.schema); err != nil {
+			return nil, err
+		}
 	}
 
 	return rr, nil
@@ -96,7 +96,15 @@ func NewReader(r io.Reader, opts ...Option) (*Reader, error) {
 // underlying stream.
 func (r *Reader) Err() error { return r.err }
 
-func (r *Reader) Schema() *arrow.Schema { return r.schema }
+func (r *Reader) Schema() *arrow.Schema {
+	if r.schema == nil {
+		if err := r.readSchema(r.expectedSchema); err != nil {
+			r.err = fmt.Errorf("arrow/ipc: could not read schema from stream: %w", err)
+			r.done = true
+		}
+	}
+	return r.schema
+}
 
 func (r *Reader) readSchema(schema *arrow.Schema) error {
 	msg, err := r.r.Message()
@@ -122,6 +130,11 @@ func (r *Reader) readSchema(schema *arrow.Schema) error {
 		return errInconsistentSchema
 	}
 
+	if r.ensureNativeEndian && !r.schema.IsNativeEndian() {
+		r.swapEndianness = true
+		r.schema = r.schema.WithEndianness(endian.NativeEndian)
+	}
+
 	return nil
 }
 
@@ -202,6 +215,13 @@ func (r *Reader) next() bool {
 			r.err = fmt.Errorf("arrow/ipc: unknown error while reading: %v", pErr)
 		}
 	}()
+	if r.schema == nil {
+		if err := r.readSchema(r.expectedSchema); err != nil {
+			r.err = fmt.Errorf("arrow/ipc: could not read schema from stream: %w", err)
+			r.done = true
+			return false
+		}
+	}
 
 	if !r.readInitialDicts && !r.getInitialDicts() {
 		return false
diff --git a/go/arrow/ipc/reader_test.go b/go/arrow/ipc/reader_test.go
index 503b788dcca..0a1e2b1ee8c 100644
--- a/go/arrow/ipc/reader_test.go
+++ b/go/arrow/ipc/reader_test.go
@@ -20,9 +20,9 @@ import (
 	"bytes"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 )
diff --git a/go/arrow/ipc/stream_test.go b/go/arrow/ipc/stream_test.go
index 3fb86c2afc5..a6b2a9aec01 100644
--- a/go/arrow/ipc/stream_test.go
+++ b/go/arrow/ipc/stream_test.go
@@ -22,9 +22,9 @@ import (
 	"strconv"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/arrdata"
-	"github.com/apache/arrow/go/v10/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/internal/arrdata"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 func TestStream(t *testing.T) {
diff --git a/go/arrow/ipc/writer.go b/go/arrow/ipc/writer.go
index 0cfa9e7ee2b..4f462575f33 100644
--- a/go/arrow/ipc/writer.go
+++ b/go/arrow/ipc/writer.go
@@ -17,7 +17,6 @@
 package ipc
 
 import (
-	"bytes"
 	"context"
 	"encoding/binary"
 	"errors"
@@ -27,13 +26,14 @@ import (
 	"sync"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/internal/dictutils"
-	"github.com/apache/arrow/go/v10/arrow/internal/flatbuf"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/internal"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/internal/dictutils"
+	"github.com/apache/arrow/go/v11/arrow/internal/flatbuf"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 type swriter struct {
@@ -98,11 +98,12 @@ type Writer struct {
 func NewWriterWithPayloadWriter(pw PayloadWriter, opts ...Option) *Writer {
 	cfg := newConfig(opts...)
 	return &Writer{
-		mem:        cfg.alloc,
-		pw:         pw,
-		schema:     cfg.schema,
-		codec:      cfg.codec,
-		compressNP: cfg.compressNP,
+		mem:            cfg.alloc,
+		pw:             pw,
+		schema:         cfg.schema,
+		codec:          cfg.codec,
+		compressNP:     cfg.compressNP,
+		emitDictDeltas: cfg.emitDictDeltas,
 	}
 }
 
@@ -110,11 +111,12 @@ func NewWriterWithPayloadWriter(pw PayloadWriter, opts ...Option) *Writer {
 func NewWriter(w io.Writer, opts ...Option) *Writer {
 	cfg := newConfig(opts...)
 	return &Writer{
-		w:      w,
-		mem:    cfg.alloc,
-		pw:     &swriter{w: w},
-		schema: cfg.schema,
-		codec:  cfg.codec,
+		w:              w,
+		mem:            cfg.alloc,
+		pw:             &swriter{w: w},
+		schema:         cfg.schema,
+		codec:          cfg.codec,
+		emitDictDeltas: cfg.emitDictDeltas,
 	}
 }
 
@@ -327,19 +329,23 @@ func (w *recordEncoder) compressBodyBuffers(p *Payload) error {
 		if p.body[idx] == nil || p.body[idx].Len() == 0 {
 			return nil
 		}
-		var buf bytes.Buffer
-		buf.Grow(codec.MaxCompressedLen(p.body[idx].Len()) + arrow.Int64SizeBytes)
-		if err := binary.Write(&buf, binary.LittleEndian, uint64(p.body[idx].Len())); err != nil {
-			return err
-		}
-		codec.Reset(&buf)
+
+		buf := memory.NewResizableBuffer(w.mem)
+		buf.Reserve(codec.MaxCompressedLen(p.body[idx].Len()) + arrow.Int64SizeBytes)
+
+		binary.LittleEndian.PutUint64(buf.Buf(), uint64(p.body[idx].Len()))
+		bw := &bufferWriter{buf: buf, pos: arrow.Int64SizeBytes}
+		codec.Reset(bw)
 		if _, err := codec.Write(p.body[idx].Bytes()); err != nil {
 			return err
 		}
 		if err := codec.Close(); err != nil {
 			return err
 		}
-		p.body[idx] = memory.NewBufferBytes(buf.Bytes())
+
+		buf.Resize(bw.pos)
+		p.body[idx].Release()
+		p.body[idx] = buf
 		return nil
 	}
 
@@ -479,7 +485,7 @@ func (w *recordEncoder) visit(p *Payload, arr arrow.Array) error {
 		return nil
 	}
 
-	if hasValidityBitmap(arr.DataType().ID(), currentMetadataVersion) {
+	if internal.HasValidityBitmap(arr.DataType().ID(), flatbuf.MetadataVersion(currentMetadataVersion)) {
 		switch arr.NullN() {
 		case 0:
 			// there are no null values, drop the null bitmap
@@ -646,44 +652,7 @@ func (w *recordEncoder) visit(p *Payload, arr arrow.Array) error {
 			}
 		}
 		w.depth++
-	case *arrow.MapType:
-		arr := arr.(*array.Map)
-		voffsets, err := w.getZeroBasedValueOffsets(arr)
-		if err != nil {
-			return fmt.Errorf("could not retrieve zero-based value offsets for array %T: %w", arr, err)
-		}
-		p.body = append(p.body, voffsets)
-
-		w.depth--
-		var (
-			values        = arr.ListValues()
-			mustRelease   = false
-			values_offset int64
-			values_length int64
-		)
-		defer func() {
-			if mustRelease {
-				values.Release()
-			}
-		}()
-
-		if voffsets != nil {
-			values_offset = int64(arr.Offsets()[0])
-			values_length = int64(arr.Offsets()[arr.Len()]) - values_offset
-		}
-
-		if len(arr.Offsets()) != 0 || values_length < int64(values.Len()) {
-			// must also slice the values
-			values = array.NewSlice(values, values_offset, values_length)
-			mustRelease = true
-		}
-		err = w.visit(p, values)
-
-		if err != nil {
-			return fmt.Errorf("could not visit list element for array %T: %w", arr, err)
-		}
-		w.depth++
-	case *arrow.ListType, *arrow.LargeListType:
+	case *arrow.MapType, *arrow.ListType, *arrow.LargeListType:
 		arr := arr.(array.ListLike)
 		voffsets, err := w.getZeroBasedValueOffsets(arr)
 		if err != nil {
@@ -696,7 +665,7 @@ func (w *recordEncoder) visit(p *Payload, arr arrow.Array) error {
 			values        = arr.ListValues()
 			mustRelease   = false
 			values_offset int64
-			values_length int64
+			values_end    int64
 		)
 		defer func() {
 			if mustRelease {
@@ -706,13 +675,12 @@ func (w *recordEncoder) visit(p *Payload, arr arrow.Array) error {
 
 		if arr.Len() > 0 && voffsets != nil {
 			values_offset, _ = arr.ValueOffsets(0)
-			_, values_length = arr.ValueOffsets(arr.Len() - 1)
-			values_length -= values_offset
+			_, values_end = arr.ValueOffsets(arr.Len() - 1)
 		}
 
-		if arr.Len() != 0 || values_length < int64(values.Len()) {
+		if arr.Len() != 0 || values_end < int64(values.Len()) {
 			// must also slice the values
-			values = array.NewSlice(values, values_offset, values_length)
+			values = array.NewSlice(values, values_offset, values_end)
 			mustRelease = true
 		}
 		err = w.visit(p, values)
diff --git a/go/arrow/ipc/writer_test.go b/go/arrow/ipc/writer_test.go
index c9e661f144e..9ebdf267353 100644
--- a/go/arrow/ipc/writer_test.go
+++ b/go/arrow/ipc/writer_test.go
@@ -21,10 +21,10 @@ import (
 	"fmt"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 )
@@ -144,3 +144,25 @@ func TestWriterCatchPanic(t *testing.T) {
 	writer := NewWriter(buf, WithSchema(schema))
 	assert.EqualError(t, writer.Write(rec), "arrow/ipc: unknown error while writing: runtime error: slice bounds out of range [-1:]")
 }
+
+func TestWriterMemCompression(t *testing.T) {
+	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
+	defer mem.AssertSize(t, 0)
+
+	schema := arrow.NewSchema([]arrow.Field{
+		{Name: "s", Type: arrow.BinaryTypes.String},
+	}, nil)
+
+	b := array.NewRecordBuilder(mem, schema)
+	defer b.Release()
+
+	b.Field(0).(*array.StringBuilder).AppendValues([]string{"foo", "bar", "baz"}, nil)
+	rec := b.NewRecord()
+	defer rec.Release()
+
+	var buf bytes.Buffer
+	w := NewWriter(&buf, WithAllocator(mem), WithSchema(schema), WithZstd())
+	defer w.Close()
+
+	require.NoError(t, w.Write(rec))
+}
diff --git a/go/arrow/math/Makefile b/go/arrow/math/Makefile
index 15255950d71..3cc392071cd 100644
--- a/go/arrow/math/Makefile
+++ b/go/arrow/math/Makefile
@@ -50,15 +50,15 @@ INTEL_SOURCES := \
 assembly: $(INTEL_SOURCES)
 
 generate: ../bin/tmpl
-	../bin/tmpl -i -data=float64.tmpldata type.go.tmpl=float64.go type_amd64.go.tmpl=float64_amd64.go type_arm64.go.tmpl=float64_arm64.go type_s390x.go.tmpl=float64_s390x.go type_noasm.go.tmpl=float64_noasm.go type_test.go.tmpl=float64_test.go
+	../bin/tmpl -i -data=float64.tmpldata type.go.tmpl=float64.go type_amd64.go.tmpl=float64_amd64.go type_arm64.go.tmpl=float64_arm64.go type_ppc64le.go.tmpl=float64_ppc64le.go type_s390x.go.tmpl=float64_s390x.go type_noasm.go.tmpl=float64_noasm.go type_test.go.tmpl=float64_test.go
 	../bin/tmpl -i -data=float64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=float64_avx2_amd64.go
 	../bin/tmpl -i -data=float64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=float64_sse4_amd64.go
 	../bin/tmpl -i -data=float64.tmpldata -d arch=neon type_simd_arm64.go.tmpl=float64_neon_arm64.go
-	../bin/tmpl -i -data=int64.tmpldata type.go.tmpl=int64.go type_amd64.go.tmpl=int64_amd64.go type_arm64.go.tmpl=int64_arm64.go type_s390x.go.tmpl=int64_s390x.go type_noasm.go.tmpl=int64_noasm.go type_test.go.tmpl=int64_test.go
+	../bin/tmpl -i -data=int64.tmpldata type.go.tmpl=int64.go type_amd64.go.tmpl=int64_amd64.go type_arm64.go.tmpl=int64_arm64.go type_ppc64le.go.tmpl=int64_ppc64le.go type_s390x.go.tmpl=int64_s390x.go type_noasm.go.tmpl=int64_noasm.go type_test.go.tmpl=int64_test.go
 	../bin/tmpl -i -data=int64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=int64_avx2_amd64.go
 	../bin/tmpl -i -data=int64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=int64_sse4_amd64.go
 	../bin/tmpl -i -data=int64.tmpldata -d arch=neon type_simd_arm64.go.tmpl=int64_neon_arm64.go
-	../bin/tmpl -i -data=uint64.tmpldata type.go.tmpl=uint64.go type_amd64.go.tmpl=uint64_amd64.go type_arm64.go.tmpl=uint64_arm64.go type_s390x.go.tmpl=uint64_s390x.go type_noasm.go.tmpl=uint64_noasm.go type_test.go.tmpl=uint64_test.go
+	../bin/tmpl -i -data=uint64.tmpldata type.go.tmpl=uint64.go type_amd64.go.tmpl=uint64_amd64.go type_arm64.go.tmpl=uint64_arm64.go type_ppc64le.go.tmpl=uint64_ppc64le.go type_s390x.go.tmpl=uint64_s390x.go type_noasm.go.tmpl=uint64_noasm.go type_test.go.tmpl=uint64_test.go
 	../bin/tmpl -i -data=uint64.tmpldata -d arch=avx2 type_simd_amd64.go.tmpl=uint64_avx2_amd64.go
 	../bin/tmpl -i -data=uint64.tmpldata -d arch=sse4 type_simd_amd64.go.tmpl=uint64_sse4_amd64.go
 	../bin/tmpl -i -data=uint64.tmpldata -d arch=neon type_simd_arm64.go.tmpl=uint64_neon_arm64.go
diff --git a/go/arrow/math/float64.go b/go/arrow/math/float64.go
index 61199989682..0cbde2ab900 100644
--- a/go/arrow/math/float64.go
+++ b/go/arrow/math/float64.go
@@ -19,7 +19,7 @@
 package math
 
 import (
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 type Float64Funcs struct {
diff --git a/go/arrow/math/float64_amd64.go b/go/arrow/math/float64_amd64.go
index 87227d5fa82..ef40cf613a3 100644
--- a/go/arrow/math/float64_amd64.go
+++ b/go/arrow/math/float64_amd64.go
@@ -16,6 +16,7 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
+//go:build !noasm
 // +build !noasm
 
 package math
diff --git a/go/arrow/math/float64_avx2_amd64.go b/go/arrow/math/float64_avx2_amd64.go
index a6cdd04be7c..30a7c814319 100644
--- a/go/arrow/math/float64_avx2_amd64.go
+++ b/go/arrow/math/float64_avx2_amd64.go
@@ -16,6 +16,7 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
+//go:build !noasm
 // +build !noasm
 
 package math
@@ -23,7 +24,7 @@ package math
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 //go:noescape
diff --git a/go/arrow/math/float64_neon_arm64.go b/go/arrow/math/float64_neon_arm64.go
index 676c2ca439f..bc42b4719b1 100755
--- a/go/arrow/math/float64_neon_arm64.go
+++ b/go/arrow/math/float64_neon_arm64.go
@@ -23,7 +23,7 @@ package math
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 //go:noescape
diff --git a/go/arrow/math/float64_ppc64le.go b/go/arrow/math/float64_ppc64le.go
new file mode 100644
index 00000000000..f60be90721d
--- /dev/null
+++ b/go/arrow/math/float64_ppc64le.go
@@ -0,0 +1,25 @@
+// Code generated by type_s390x.go.tmpl. DO NOT EDIT.
+
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// +build !noasm
+
+package math
+
+func initFloat64Go() {
+	Float64.sum = sum_float64_go
+}
diff --git a/go/arrow/math/float64_sse4_amd64.go b/go/arrow/math/float64_sse4_amd64.go
index 469248ce157..0a2114f5198 100644
--- a/go/arrow/math/float64_sse4_amd64.go
+++ b/go/arrow/math/float64_sse4_amd64.go
@@ -16,6 +16,7 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
+//go:build !noasm
 // +build !noasm
 
 package math
@@ -23,7 +24,7 @@ package math
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 //go:noescape
diff --git a/go/arrow/math/float64_test.go b/go/arrow/math/float64_test.go
index 906ecfad424..43adf2eb6a0 100644
--- a/go/arrow/math/float64_test.go
+++ b/go/arrow/math/float64_test.go
@@ -21,9 +21,9 @@ package math_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/math"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/math"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/math/int64.go b/go/arrow/math/int64.go
index 8c2edf0f5a0..bb4a9d9c3f8 100644
--- a/go/arrow/math/int64.go
+++ b/go/arrow/math/int64.go
@@ -19,7 +19,7 @@
 package math
 
 import (
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 type Int64Funcs struct {
diff --git a/go/arrow/math/int64_amd64.go b/go/arrow/math/int64_amd64.go
index 2703bebd00a..ed616e84264 100644
--- a/go/arrow/math/int64_amd64.go
+++ b/go/arrow/math/int64_amd64.go
@@ -16,6 +16,7 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
+//go:build !noasm
 // +build !noasm
 
 package math
diff --git a/go/arrow/math/int64_avx2_amd64.go b/go/arrow/math/int64_avx2_amd64.go
index a0ddaa7658a..73fe8032218 100644
--- a/go/arrow/math/int64_avx2_amd64.go
+++ b/go/arrow/math/int64_avx2_amd64.go
@@ -16,6 +16,7 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
+//go:build !noasm
 // +build !noasm
 
 package math
@@ -23,7 +24,7 @@ package math
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 //go:noescape
diff --git a/go/arrow/math/int64_neon_arm64.go b/go/arrow/math/int64_neon_arm64.go
index a8edaaa64df..f07433aef63 100755
--- a/go/arrow/math/int64_neon_arm64.go
+++ b/go/arrow/math/int64_neon_arm64.go
@@ -23,7 +23,7 @@ package math
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 //go:noescape
diff --git a/go/arrow/math/int64_ppc64le.go b/go/arrow/math/int64_ppc64le.go
new file mode 100644
index 00000000000..1a615a9b27d
--- /dev/null
+++ b/go/arrow/math/int64_ppc64le.go
@@ -0,0 +1,25 @@
+// Code generated by type_s390x.go.tmpl. DO NOT EDIT.
+
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// +build !noasm
+
+package math
+
+func initInt64Go() {
+	Int64.sum = sum_int64_go
+}
diff --git a/go/arrow/math/int64_sse4_amd64.go b/go/arrow/math/int64_sse4_amd64.go
index 16019080d63..e22cb297747 100644
--- a/go/arrow/math/int64_sse4_amd64.go
+++ b/go/arrow/math/int64_sse4_amd64.go
@@ -16,6 +16,7 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
+//go:build !noasm
 // +build !noasm
 
 package math
@@ -23,7 +24,7 @@ package math
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 //go:noescape
diff --git a/go/arrow/math/int64_test.go b/go/arrow/math/int64_test.go
index b491a8893c4..0ec9c008289 100644
--- a/go/arrow/math/int64_test.go
+++ b/go/arrow/math/int64_test.go
@@ -21,9 +21,9 @@ package math_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/math"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/math"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/math/math_ppc64le.go b/go/arrow/math/math_ppc64le.go
new file mode 100644
index 00000000000..3daeac7efaf
--- /dev/null
+++ b/go/arrow/math/math_ppc64le.go
@@ -0,0 +1,29 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// +build !noasm
+
+package math
+
+func init() {
+	initGo()
+}
+
+func initGo() {
+	initFloat64Go()
+	initInt64Go()
+	initUint64Go()
+}
diff --git a/go/arrow/math/type.go.tmpl b/go/arrow/math/type.go.tmpl
index 22c0701663d..8dba89c0691 100644
--- a/go/arrow/math/type.go.tmpl
+++ b/go/arrow/math/type.go.tmpl
@@ -17,7 +17,7 @@
 package math
 
 import (
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 {{$def := .D}}
diff --git a/go/arrow/math/type_ppc64le.go.tmpl b/go/arrow/math/type_ppc64le.go.tmpl
new file mode 100644
index 00000000000..49a7fc634fd
--- /dev/null
+++ b/go/arrow/math/type_ppc64le.go.tmpl
@@ -0,0 +1,25 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// +build !noasm
+
+package math
+
+{{with .In}}
+func init{{.Name}}Go() {
+	{{.Name}}.sum = sum_{{.Type}}_go
+}
+{{end}}
diff --git a/go/arrow/math/type_simd_amd64.go.tmpl b/go/arrow/math/type_simd_amd64.go.tmpl
index 2a2954ac3b4..ec1209c5854 100644
--- a/go/arrow/math/type_simd_amd64.go.tmpl
+++ b/go/arrow/math/type_simd_amd64.go.tmpl
@@ -21,7 +21,7 @@ package math
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 {{$name := printf "%s_%s" .In.Type .D.arch}}
diff --git a/go/arrow/math/type_simd_arm64.go.tmpl b/go/arrow/math/type_simd_arm64.go.tmpl
index 2a2954ac3b4..ec1209c5854 100755
--- a/go/arrow/math/type_simd_arm64.go.tmpl
+++ b/go/arrow/math/type_simd_arm64.go.tmpl
@@ -21,7 +21,7 @@ package math
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 {{$name := printf "%s_%s" .In.Type .D.arch}}
diff --git a/go/arrow/math/type_test.go.tmpl b/go/arrow/math/type_test.go.tmpl
index 15f44b3848e..5b5741c234f 100644
--- a/go/arrow/math/type_test.go.tmpl
+++ b/go/arrow/math/type_test.go.tmpl
@@ -19,9 +19,9 @@ package math_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/math"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/math"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/math/uint64.go b/go/arrow/math/uint64.go
index ae24e61cf98..b5fcb9cae85 100644
--- a/go/arrow/math/uint64.go
+++ b/go/arrow/math/uint64.go
@@ -19,7 +19,7 @@
 package math
 
 import (
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 type Uint64Funcs struct {
diff --git a/go/arrow/math/uint64_amd64.go b/go/arrow/math/uint64_amd64.go
index c6bc29c4e3e..726d3425614 100644
--- a/go/arrow/math/uint64_amd64.go
+++ b/go/arrow/math/uint64_amd64.go
@@ -16,6 +16,7 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
+//go:build !noasm
 // +build !noasm
 
 package math
diff --git a/go/arrow/math/uint64_avx2_amd64.go b/go/arrow/math/uint64_avx2_amd64.go
index 88b8bc55e14..df49515fc09 100644
--- a/go/arrow/math/uint64_avx2_amd64.go
+++ b/go/arrow/math/uint64_avx2_amd64.go
@@ -16,6 +16,7 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
+//go:build !noasm
 // +build !noasm
 
 package math
@@ -23,7 +24,7 @@ package math
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 //go:noescape
diff --git a/go/arrow/math/uint64_neon_arm64.go b/go/arrow/math/uint64_neon_arm64.go
index ea500b4f299..b8bbe4401fa 100755
--- a/go/arrow/math/uint64_neon_arm64.go
+++ b/go/arrow/math/uint64_neon_arm64.go
@@ -23,7 +23,7 @@ package math
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 //go:noescape
diff --git a/go/arrow/math/uint64_ppc64le.go b/go/arrow/math/uint64_ppc64le.go
new file mode 100644
index 00000000000..8f7419fd484
--- /dev/null
+++ b/go/arrow/math/uint64_ppc64le.go
@@ -0,0 +1,25 @@
+// Code generated by type_s390x.go.tmpl. DO NOT EDIT.
+
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// +build !noasm
+
+package math
+
+func initUint64Go() {
+	Uint64.sum = sum_uint64_go
+}
diff --git a/go/arrow/math/uint64_sse4_amd64.go b/go/arrow/math/uint64_sse4_amd64.go
index d8047f277fc..a256e27c4f4 100644
--- a/go/arrow/math/uint64_sse4_amd64.go
+++ b/go/arrow/math/uint64_sse4_amd64.go
@@ -16,6 +16,7 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
+//go:build !noasm
 // +build !noasm
 
 package math
@@ -23,7 +24,7 @@ package math
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 //go:noescape
diff --git a/go/arrow/math/uint64_test.go b/go/arrow/math/uint64_test.go
index 7fd862bb92b..54b8c3ec7f8 100644
--- a/go/arrow/math/uint64_test.go
+++ b/go/arrow/math/uint64_test.go
@@ -21,9 +21,9 @@ package math_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/math"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/math"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/memory/buffer.go b/go/arrow/memory/buffer.go
index 87efddeebd3..cfb26119007 100644
--- a/go/arrow/memory/buffer.go
+++ b/go/arrow/memory/buffer.go
@@ -19,7 +19,7 @@ package memory
 import (
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
 )
 
 // Buffer is a wrapper type for a buffer of bytes.
@@ -48,6 +48,10 @@ func SliceBuffer(buf *Buffer, offset, length int) *Buffer {
 	return &Buffer{refCount: 1, parent: buf, buf: buf.Bytes()[offset : offset+length], length: length}
 }
 
+// Parent returns either nil or a pointer to the parent buffer if this buffer
+// was sliced from another.
+func (b *Buffer) Parent() *Buffer { return b.parent }
+
 // Retain increases the reference count by 1.
 func (b *Buffer) Retain() {
 	if b.mem != nil || b.parent != nil {
diff --git a/go/arrow/memory/buffer_test.go b/go/arrow/memory/buffer_test.go
index 7d1d435fdc9..c370211a72b 100644
--- a/go/arrow/memory/buffer_test.go
+++ b/go/arrow/memory/buffer_test.go
@@ -19,7 +19,7 @@ package memory_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/memory/cgo_allocator.go b/go/arrow/memory/cgo_allocator.go
index 0eb7145fd67..cebf761a502 100644
--- a/go/arrow/memory/cgo_allocator.go
+++ b/go/arrow/memory/cgo_allocator.go
@@ -22,7 +22,7 @@ package memory
 import (
 	"runtime"
 
-	cga "github.com/apache/arrow/go/v10/arrow/memory/internal/cgoalloc"
+	cga "github.com/apache/arrow/go/v11/arrow/memory/internal/cgoalloc"
 )
 
 // CgoArrowAllocator is an allocator which exposes the C++ memory pool class
diff --git a/go/arrow/memory/memory_test.go b/go/arrow/memory/memory_test.go
index b34cf5e8600..c3dee24b90b 100644
--- a/go/arrow/memory/memory_test.go
+++ b/go/arrow/memory/memory_test.go
@@ -19,7 +19,7 @@ package memory_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/scalar/append.go b/go/arrow/scalar/append.go
new file mode 100644
index 00000000000..1ef743ae8d8
--- /dev/null
+++ b/go/arrow/scalar/append.go
@@ -0,0 +1,263 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package scalar
+
+import (
+	"fmt"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/float16"
+	"golang.org/x/exp/constraints"
+)
+
+type primitives interface {
+	bool | float16.Num | decimal128.Num |
+		decimal256.Num | constraints.Integer | constraints.Float |
+		arrow.DayTimeInterval | arrow.MonthInterval | arrow.MonthDayNanoInterval
+}
+
+type builder[T primitives | []byte] interface {
+	AppendNull()
+	UnsafeAppend(T)
+	UnsafeAppendBoolToBitmap(bool)
+}
+
+type binaryBuilder interface {
+	builder[[]byte]
+	ReserveData(int)
+}
+
+func appendPrimitive[T primitives, B builder[T]](bldr B, scalars []Scalar) {
+	for _, sc := range scalars {
+		if sc.IsValid() {
+			bldr.UnsafeAppend(sc.value().(T))
+		} else {
+			bldr.UnsafeAppendBoolToBitmap(false)
+		}
+	}
+}
+
+func appendBinary(bldr binaryBuilder, scalars []Scalar) {
+	var dataSize int
+	for _, s := range scalars {
+		s := s.(BinaryScalar)
+		if s.IsValid() {
+			dataSize += len(s.Data())
+		}
+	}
+
+	bldr.ReserveData(dataSize)
+	for _, sc := range scalars {
+		s := sc.(BinaryScalar)
+		if s.IsValid() {
+			bldr.UnsafeAppend(s.Data())
+		} else {
+			bldr.AppendNull()
+		}
+	}
+}
+
+// Append requires the passed in builder and scalar to have the same datatype
+// otherwise it will return an error. Will return arrow.ErrNotImplemented if
+// the type hasn't been implemented for this.
+//
+// NOTE only available in go1.18+
+func Append(bldr array.Builder, s Scalar) error {
+	return AppendSlice(bldr, []Scalar{s})
+}
+
+// AppendSlice requires the passed in builder and all scalars in the slice
+// to have the same datatype otherwise it will return an error. Will return
+// arrow.ErrNotImplemented if the type hasn't been implemented for this.
+//
+// NOTE only available in go1.18+
+func AppendSlice(bldr array.Builder, scalars []Scalar) error {
+	if len(scalars) == 0 {
+		return nil
+	}
+
+	ty := bldr.Type()
+	for _, sc := range scalars {
+		if !arrow.TypeEqual(ty, sc.DataType()) {
+			return fmt.Errorf("%w: cannot append scalar of type %s to builder for type %s",
+				arrow.ErrInvalid, scalars[0].DataType(), bldr.Type())
+		}
+	}
+
+	bldr.Reserve(len(scalars))
+	switch bldr := bldr.(type) {
+	case *array.BooleanBuilder:
+		appendPrimitive[bool](bldr, scalars)
+	case *array.Decimal128Builder:
+		appendPrimitive[decimal128.Num](bldr, scalars)
+	case *array.Decimal256Builder:
+		appendPrimitive[decimal256.Num](bldr, scalars)
+	case *array.FixedSizeBinaryBuilder:
+		for _, sc := range scalars {
+			s := sc.(*FixedSizeBinary)
+			if s.Valid {
+				bldr.UnsafeAppend(s.Value.Bytes())
+			} else {
+				bldr.UnsafeAppendBoolToBitmap(false)
+			}
+		}
+	case *array.Int8Builder:
+		appendPrimitive[int8](bldr, scalars)
+	case *array.Uint8Builder:
+		appendPrimitive[uint8](bldr, scalars)
+	case *array.Int16Builder:
+		appendPrimitive[int16](bldr, scalars)
+	case *array.Uint16Builder:
+		appendPrimitive[uint16](bldr, scalars)
+	case *array.Int32Builder:
+		appendPrimitive[int32](bldr, scalars)
+	case *array.Uint32Builder:
+		appendPrimitive[uint32](bldr, scalars)
+	case *array.Int64Builder:
+		appendPrimitive[int64](bldr, scalars)
+	case *array.Uint64Builder:
+		appendPrimitive[uint64](bldr, scalars)
+	case *array.Float16Builder:
+		appendPrimitive[float16.Num](bldr, scalars)
+	case *array.Float32Builder:
+		appendPrimitive[float32](bldr, scalars)
+	case *array.Float64Builder:
+		appendPrimitive[float64](bldr, scalars)
+	case *array.Date32Builder:
+		appendPrimitive[arrow.Date32](bldr, scalars)
+	case *array.Date64Builder:
+		appendPrimitive[arrow.Date64](bldr, scalars)
+	case *array.Time32Builder:
+		appendPrimitive[arrow.Time32](bldr, scalars)
+	case *array.Time64Builder:
+		appendPrimitive[arrow.Time64](bldr, scalars)
+	case *array.DayTimeIntervalBuilder:
+		appendPrimitive[arrow.DayTimeInterval](bldr, scalars)
+	case *array.MonthIntervalBuilder:
+		appendPrimitive[arrow.MonthInterval](bldr, scalars)
+	case *array.MonthDayNanoIntervalBuilder:
+		appendPrimitive[arrow.MonthDayNanoInterval](bldr, scalars)
+	case *array.DurationBuilder:
+		appendPrimitive[arrow.Duration](bldr, scalars)
+	case *array.TimestampBuilder:
+		appendPrimitive[arrow.Timestamp](bldr, scalars)
+	case array.StringLikeBuilder:
+		appendBinary(bldr, scalars)
+	case *array.BinaryBuilder:
+		appendBinary(bldr, scalars)
+	case array.ListLikeBuilder:
+		var numChildren int
+		for _, s := range scalars {
+			if !s.IsValid() {
+				continue
+			}
+			numChildren += s.(ListScalar).GetList().Len()
+		}
+		bldr.ValueBuilder().Reserve(numChildren)
+
+		for _, s := range scalars {
+			bldr.Append(s.IsValid())
+			if s.IsValid() {
+				list := s.(ListScalar).GetList()
+				for i := 0; i < list.Len(); i++ {
+					sc, err := GetScalar(list, i)
+					if err != nil {
+						return err
+					}
+					if err := Append(bldr.ValueBuilder(), sc); err != nil {
+						return err
+					}
+				}
+			}
+		}
+	case *array.StructBuilder:
+		for _, sc := range scalars {
+			s := sc.(*Struct)
+			for i := 0; i < bldr.NumField(); i++ {
+				if !s.Valid || s.Value[i] == nil {
+					bldr.FieldBuilder(i).UnsafeAppendBoolToBitmap(false)
+				} else {
+					if err := Append(bldr.FieldBuilder(i), s.Value[i]); err != nil {
+						return err
+					}
+				}
+			}
+			bldr.UnsafeAppendBoolToBitmap(s.Valid)
+		}
+	case *array.SparseUnionBuilder:
+		ty := ty.(*arrow.SparseUnionType)
+		for i := 0; i < bldr.NumChildren(); i++ {
+			bldr.Child(i).Reserve(len(scalars))
+		}
+
+		for _, s := range scalars {
+			// for each scalar
+			// 1. append the type code
+			// 2. append the value to the corresponding child
+			// 3. append null to the other children
+			s := s.(*SparseUnion)
+			bldr.Append(s.TypeCode)
+			for i := range ty.Fields() {
+				child := bldr.Child(i)
+				if s.ChildID == i {
+					if s.Valid {
+						if err := Append(child, s.Value[i]); err != nil {
+							return err
+						}
+					} else {
+						child.UnsafeAppendBoolToBitmap(false)
+					}
+				} else {
+					child.UnsafeAppendBoolToBitmap(false)
+				}
+			}
+		}
+	case *array.DenseUnionBuilder:
+		ty := ty.(*arrow.DenseUnionType)
+		for i := 0; i < bldr.NumChildren(); i++ {
+			bldr.Child(i).Reserve(len(scalars))
+		}
+
+		for _, s := range scalars {
+			s := s.(*DenseUnion)
+			fieldIndex := ty.ChildIDs()[s.TypeCode]
+			bldr.Append(s.TypeCode)
+
+			for i := range ty.Fields() {
+				child := bldr.Child(i)
+				if i == fieldIndex {
+					if s.Valid {
+						if err := Append(child, s.Value); err != nil {
+							return err
+						}
+					} else {
+						child.UnsafeAppendBoolToBitmap(false)
+					}
+				}
+			}
+		}
+	default:
+		return fmt.Errorf("%w: append scalar for type %s", arrow.ErrNotImplemented, ty)
+	}
+
+	return nil
+}
diff --git a/go/arrow/scalar/append_test.go b/go/arrow/scalar/append_test.go
new file mode 100644
index 00000000000..e0a4419dd7e
--- /dev/null
+++ b/go/arrow/scalar/append_test.go
@@ -0,0 +1,244 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build go1.18
+
+package scalar_test
+
+import (
+	"math"
+	"strings"
+	"testing"
+
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/internal/testing/tools"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
+	"github.com/stretchr/testify/suite"
+	"golang.org/x/exp/constraints"
+	"golang.org/x/exp/rand"
+	"gonum.org/v1/gonum/stat/distuv"
+)
+
+type primitiveTypes interface {
+	constraints.Integer | constraints.Float
+}
+
+func draw[T constraints.Integer](n int64, min, max T) []T {
+	const seed = 1337
+	gen := rand.New(rand.NewSource(seed))
+
+	normalizedMin := uint64(math.Abs(float64(min)))
+	normalizedMax := uint64(max) + normalizedMin
+
+	out := make([]T, n)
+	for i := range out {
+		out[i] = T(gen.Uint64n(normalizedMax) - normalizedMin)
+	}
+	return out
+}
+
+func drawFloat[T float32 | float64](n int64) []T {
+	const seed = 0xdeadbeef
+	d := distuv.Uniform{
+		Min: -1000.0, Max: 1000.0,
+		Src: rand.NewSource(seed),
+	}
+
+	out := make([]T, n)
+	for i := range out {
+		out[i] = T(d.Rand())
+	}
+	return out
+}
+
+func drawBytes[T string | []byte](n int64, minLen, maxLen int) []T {
+	const seed = 1337
+	gen := rand.New(rand.NewSource(seed))
+
+	out := make([]T, n)
+	for i := range out {
+		l := gen.Intn(maxLen-minLen+1) + minLen
+		buf := make([]byte, l)
+		for j := range buf {
+			buf[j] = uint8(gen.Intn(int('z')-int('A')+1) + int('A'))
+		}
+		out[i] = T(buf)
+	}
+	return out
+}
+
+func randomBools(n int64, pctFalse float64) []bool {
+	const seed = 0
+	d := distuv.Uniform{
+		Min: 0.0, Max: 1.0,
+		Src: rand.NewSource(seed),
+	}
+
+	out := make([]bool, n)
+	for i := range out {
+		out[i] = d.Rand() > pctFalse
+	}
+	return out
+}
+
+type builder[T primitiveTypes | string | []byte] interface {
+	array.Builder
+	Append(T)
+}
+
+type PrimitiveAppendTestSuite[T primitiveTypes | string | []byte] struct {
+	suite.Suite
+
+	mem     *memory.CheckedAllocator
+	dt      arrow.DataType
+	bldr    builder[T]
+	bldrNN  builder[T]
+	scalars []scalar.Scalar
+
+	getRand func(n int64) []T
+
+	draws      []T
+	validBytes []bool
+}
+
+func (pt *PrimitiveAppendTestSuite[T]) SetupTest() {
+	pt.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
+	pt.dt = tools.GetDataType[T]()
+	pt.bldr = array.NewBuilder(pt.mem, pt.dt).(builder[T])
+	pt.bldrNN = array.NewBuilder(pt.mem, pt.dt).(builder[T])
+}
+
+func (pt *PrimitiveAppendTestSuite[T]) TearDownTest() {
+	pt.bldr.Release()
+	pt.bldrNN.Release()
+
+	pt.mem.AssertSize(pt.T(), 0)
+}
+
+func (pt *PrimitiveAppendTestSuite[T]) randomData(n int64, pctNull float64) {
+	pt.draws = pt.getRand(n)
+	pt.validBytes = randomBools(n, pctNull)
+}
+
+func (pt *PrimitiveAppendTestSuite[T]) TestAppendScalar() {
+	const size int = 1000
+
+	pt.randomData(int64(size), 0.1)
+
+	pt.bldr.Reserve(size)
+	pt.scalars = make([]scalar.Scalar, size)
+
+	var nullCount int
+	for i := 0; i < 1000; i++ {
+		if pt.validBytes[i] {
+			pt.bldr.Append(pt.draws[i])
+			pt.scalars[i] = scalar.MakeScalar(pt.draws[i])
+		} else {
+			pt.bldr.AppendNull()
+			nullCount++
+			pt.scalars[i] = scalar.MakeNullScalar(pt.dt)
+		}
+	}
+
+	pt.Require().NoError(scalar.AppendSlice(pt.bldrNN, pt.scalars))
+
+	pt.Equal(nullCount, pt.bldr.NullN())
+	pt.Equal(nullCount, pt.bldrNN.NullN())
+	pt.Equal(1000, pt.bldr.Len())
+	pt.Equal(1024, pt.bldr.Cap())
+	pt.Equal(1000, pt.bldrNN.Len())
+	pt.Equal(1024, pt.bldrNN.Cap())
+
+	expected := pt.bldr.NewArray()
+	defer expected.Release()
+	out := pt.bldrNN.NewArray()
+	defer out.Release()
+	pt.Truef(array.Equal(expected, out), "expected: %s, got: %s", expected, out)
+}
+
+type PrimitiveIntegralAppendTestSuite[T constraints.Integer] struct {
+	PrimitiveAppendTestSuite[T]
+	min, max T
+}
+
+func (pt *PrimitiveIntegralAppendTestSuite[T]) SetupSuite() {
+	pt.getRand = func(n int64) []T {
+		return draw(n, pt.min, pt.max)
+	}
+}
+
+type PrimitiveFloatingAppendTestSuite[T float32 | float64] struct {
+	PrimitiveAppendTestSuite[T]
+}
+
+func (pt *PrimitiveFloatingAppendTestSuite[T]) SetupSuite() {
+	pt.getRand = drawFloat[T]
+}
+
+type PrimitiveStringAppendTestSuite[T string | []byte] struct {
+	PrimitiveAppendTestSuite[T]
+}
+
+func (pt *PrimitiveStringAppendTestSuite[T]) SetupSuite() {
+	pt.getRand = func(n int64) []T {
+		return drawBytes[T](n, 3, 9)
+	}
+}
+
+func TestPrimitiveAppendScalar(t *testing.T) {
+	suite.Run(t, &PrimitiveIntegralAppendTestSuite[int8]{min: math.MinInt8, max: math.MaxInt8})
+	suite.Run(t, &PrimitiveIntegralAppendTestSuite[int16]{min: math.MinInt16, max: math.MaxInt16})
+	suite.Run(t, &PrimitiveIntegralAppendTestSuite[int32]{min: math.MinInt32, max: math.MaxInt32})
+	suite.Run(t, &PrimitiveIntegralAppendTestSuite[arrow.Date32]{min: math.MinInt32, max: math.MaxInt32})
+	suite.Run(t, &PrimitiveIntegralAppendTestSuite[arrow.Date64]{min: math.MinInt64, max: math.MaxInt64})
+	suite.Run(t, &PrimitiveIntegralAppendTestSuite[int64]{min: math.MinInt64, max: math.MaxInt64})
+	suite.Run(t, &PrimitiveIntegralAppendTestSuite[uint8]{min: 0, max: math.MaxUint8})
+	suite.Run(t, &PrimitiveIntegralAppendTestSuite[uint16]{min: 0, max: math.MaxUint16})
+	suite.Run(t, &PrimitiveIntegralAppendTestSuite[uint32]{min: 0, max: math.MaxUint32})
+	suite.Run(t, &PrimitiveIntegralAppendTestSuite[uint64]{min: 0, max: math.MaxUint64})
+	suite.Run(t, new(PrimitiveFloatingAppendTestSuite[float32]))
+	suite.Run(t, new(PrimitiveFloatingAppendTestSuite[float64]))
+	suite.Run(t, new(PrimitiveStringAppendTestSuite[string]))
+	suite.Run(t, new(PrimitiveStringAppendTestSuite[[]byte]))
+}
+
+func TestAppendMapScalar(t *testing.T) {
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(t, 0)
+
+	expected, _, err := array.FromJSON(mem, arrow.MapOf(arrow.BinaryTypes.String, arrow.PrimitiveTypes.Int8),
+		strings.NewReader(`[[{"key": "a", "value": 1}, {"key": "b", "value": 2}]]`))
+	require.NoError(t, err)
+	defer expected.Release()
+
+	mapScalar, err := scalar.GetScalar(expected, 0)
+	require.NoError(t, err)
+	defer mapScalar.(scalar.Releasable).Release()
+
+	bldr := array.NewBuilder(mem, mapScalar.DataType())
+	defer bldr.Release()
+
+	require.NoError(t, scalar.Append(bldr, mapScalar))
+
+	result := bldr.NewArray()
+	defer result.Release()
+
+	assert.Truef(t, array.Equal(expected, result), "expected: %s, got: %s", expected, result)
+}
diff --git a/go/arrow/scalar/binary.go b/go/arrow/scalar/binary.go
index aedee064d9e..35c5131985b 100644
--- a/go/arrow/scalar/binary.go
+++ b/go/arrow/scalar/binary.go
@@ -21,8 +21,8 @@ import (
 	"fmt"
 	"unicode/utf8"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 type BinaryScalar interface {
@@ -30,6 +30,7 @@ type BinaryScalar interface {
 
 	Retain()
 	Release()
+	Buffer() *memory.Buffer
 	Data() []byte
 }
 
@@ -39,13 +40,24 @@ type Binary struct {
 	Value *memory.Buffer
 }
 
-func (b *Binary) Retain()            { b.Value.Retain() }
-func (b *Binary) Release()           { b.Value.Release() }
+func (b *Binary) Retain() {
+	if b.Value != nil {
+		b.Value.Retain()
+	}
+}
+
+func (b *Binary) Release() {
+	if b.Value != nil {
+		b.Value.Release()
+	}
+}
+
 func (b *Binary) value() interface{} { return b.Value }
 func (b *Binary) Data() []byte       { return b.Value.Bytes() }
 func (b *Binary) equals(rhs Scalar) bool {
 	return bytes.Equal(b.Value.Bytes(), rhs.(BinaryScalar).Data())
 }
+func (b *Binary) Buffer() *memory.Buffer { return b.Value }
 func (b *Binary) String() string {
 	if !b.Valid {
 		return "null"
diff --git a/go/arrow/scalar/compare.go b/go/arrow/scalar/compare.go
index d3d5aa1041a..3fdd69b4e19 100644
--- a/go/arrow/scalar/compare.go
+++ b/go/arrow/scalar/compare.go
@@ -16,10 +16,7 @@
 
 package scalar
 
-import "github.com/apache/arrow/go/v10/arrow"
-
-//TODO(zeroshade): approxequals
-// tracked in https://issues.apache.org/jira/browse/ARROW-13980
+import "github.com/apache/arrow/go/v11/arrow"
 
 // Equals returns true if two scalars are equal, which means they have the same
 // datatype, validity and value.
@@ -42,3 +39,59 @@ func Equals(left, right Scalar) bool {
 
 	return left.equals(right)
 }
+
+type equalOption struct {
+	atol   float64 // absolute tolerance
+	nansEq bool    // whether NaNs are considered equal
+}
+
+// EqualOption is a functional option type used to configure how Records and Arrays are compared.
+type EqualOption func(*equalOption)
+
+// WithNaNsEqual configures the comparison functions so that NaNs are considered equal.
+func WithNaNsEqual(val bool) EqualOption {
+	return func(eo *equalOption) {
+		eo.nansEq = val
+	}
+}
+
+// WithAbsTolerance configures the comparison functions so that 2 floating point values
+// v1 and v2 are considered equal if |v1-v2| <= atol.
+func WithAbsTolerance(atol float64) EqualOption {
+	return func(eo *equalOption) {
+		eo.atol = atol
+	}
+}
+
+const defaultAbsoluteTolerance = 1e-5
+
+type approxEqualScalar interface {
+	approxEquals(Scalar, equalOption) bool
+}
+
+func ApproxEquals(left, right Scalar, opts ...EqualOption) bool {
+	eq := equalOption{
+		atol:   defaultAbsoluteTolerance,
+		nansEq: false,
+	}
+	for _, opt := range opts {
+		opt(&eq)
+	}
+
+	switch {
+	case left == right:
+		return true
+	case !arrow.TypeEqual(left.DataType(), right.DataType()):
+		return false
+	case left.IsValid() != right.IsValid():
+		return false
+	case !left.IsValid():
+		return true
+	}
+
+	if approx, ok := left.(approxEqualScalar); ok {
+		return approx.approxEquals(right, eq)
+	}
+
+	return left.equals(right)
+}
diff --git a/go/arrow/scalar/nested.go b/go/arrow/scalar/nested.go
index 756e383f5a7..7c4f9e36876 100644
--- a/go/arrow/scalar/nested.go
+++ b/go/arrow/scalar/nested.go
@@ -21,10 +21,10 @@ import (
 	"errors"
 	"fmt"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"golang.org/x/xerrors"
 )
 
@@ -40,8 +40,18 @@ type List struct {
 	Value arrow.Array
 }
 
-func (l *List) Release()             { l.Value.Release() }
-func (l *List) Retain()              { l.Value.Retain() }
+func (l *List) Release() {
+	if l.Value != nil {
+		l.Value.Release()
+	}
+}
+
+func (l *List) Retain() {
+	if l.Value != nil {
+		l.Value.Retain()
+	}
+}
+
 func (l *List) value() interface{}   { return l.Value }
 func (l *List) GetList() arrow.Array { return l.Value }
 func (l *List) equals(rhs Scalar) bool {
@@ -258,8 +268,11 @@ func (s *Struct) Validate() (err error) {
 	}
 
 	if !s.Valid {
-		if len(s.Value) != 0 {
-			err = fmt.Errorf("%s scalar is marked null but has child values", s.Type)
+		for _, v := range s.Value {
+			if v.IsValid() {
+				err = fmt.Errorf("%s scalar is marked null but has child values", s.Type)
+				return
+			}
 		}
 		return
 	}
@@ -293,8 +306,11 @@ func (s *Struct) ValidateFull() (err error) {
 	}
 
 	if !s.Valid {
-		if len(s.Value) != 0 {
-			err = fmt.Errorf("%s scalar is marked null but has child values", s.Type)
+		for _, v := range s.Value {
+			if v.IsValid() {
+				err = fmt.Errorf("%s scalar is marked null but has child values", s.Type)
+				return
+			}
 		}
 		return
 	}
@@ -362,6 +378,8 @@ func NewDictScalar(index Scalar, dict arrow.Array) *Dictionary {
 	return ret
 }
 
+func (s *Dictionary) Data() []byte { return s.Value.Index.(PrimitiveScalar).Data() }
+
 func (s *Dictionary) Retain() {
 	if r, ok := s.Value.Index.(Releasable); ok {
 		r.Retain()
@@ -520,3 +538,209 @@ func (s *Dictionary) GetEncodedValue() (Scalar, error) {
 func (s *Dictionary) value() interface{} {
 	return s.Value.Index.value()
 }
+
+type Union interface {
+	Scalar
+	ChildValue() Scalar
+	Release()
+}
+
+type SparseUnion struct {
+	scalar
+
+	TypeCode arrow.UnionTypeCode
+	Value    []Scalar
+	ChildID  int
+}
+
+func (s *SparseUnion) equals(rhs Scalar) bool {
+	right := rhs.(*SparseUnion)
+	return Equals(s.ChildValue(), right.ChildValue())
+}
+
+func (s *SparseUnion) value() interface{} { return s.ChildValue() }
+
+func (s *SparseUnion) String() string {
+	dt := s.Type.(*arrow.SparseUnionType)
+	val := s.ChildValue()
+	return "union{" + dt.Fields()[dt.ChildIDs()[s.TypeCode]].String() + " = " + val.String() + "}"
+}
+
+func (s *SparseUnion) Retain() {
+	for _, v := range s.Value {
+		if v, ok := v.(Releasable); ok {
+			v.Retain()
+		}
+	}
+}
+
+func (s *SparseUnion) Release() {
+	for _, v := range s.Value {
+		if v, ok := v.(Releasable); ok {
+			v.Release()
+		}
+	}
+}
+
+func (s *SparseUnion) Validate() (err error) {
+	dt := s.Type.(*arrow.SparseUnionType)
+	if len(dt.Fields()) != len(s.Value) {
+		return fmt.Errorf("sparse union scalar value had %d fields but type has %d fields", len(dt.Fields()), len(s.Value))
+	}
+
+	if s.TypeCode < 0 || int(s.TypeCode) >= len(dt.ChildIDs()) || dt.ChildIDs()[s.TypeCode] == arrow.InvalidUnionChildID {
+		return fmt.Errorf("%s scalar has invalid type code %d", dt, s.TypeCode)
+	}
+
+	for i, f := range dt.Fields() {
+		v := s.Value[i]
+		if !arrow.TypeEqual(f.Type, v.DataType()) {
+			return fmt.Errorf("%s value for field %s had incorrect type of %s", dt, f, v.DataType())
+		}
+		if err = v.Validate(); err != nil {
+			return err
+		}
+	}
+	return
+}
+
+func (s *SparseUnion) ValidateFull() (err error) {
+	dt := s.Type.(*arrow.SparseUnionType)
+	if len(dt.Fields()) != len(s.Value) {
+		return fmt.Errorf("sparse union scalar value had %d fields but type has %d fields", len(dt.Fields()), len(s.Value))
+	}
+
+	if s.TypeCode < 0 || int(s.TypeCode) >= len(dt.ChildIDs()) || dt.ChildIDs()[s.TypeCode] == arrow.InvalidUnionChildID {
+		return fmt.Errorf("%s scalar has invalid type code %d", dt, s.TypeCode)
+	}
+
+	for i, f := range dt.Fields() {
+		v := s.Value[i]
+		if !arrow.TypeEqual(f.Type, v.DataType()) {
+			return fmt.Errorf("%s value for field %s had incorrect type of %s", dt, f, v.DataType())
+		}
+		if err = v.ValidateFull(); err != nil {
+			return err
+		}
+	}
+	return
+}
+
+func (s *SparseUnion) CastTo(to arrow.DataType) (Scalar, error) {
+	if !s.Valid {
+		return MakeNullScalar(to), nil
+	}
+
+	switch to.ID() {
+	case arrow.STRING:
+		return NewStringScalar(s.String()), nil
+	case arrow.LARGE_STRING:
+		return NewLargeStringScalar(s.String()), nil
+	}
+
+	return nil, fmt.Errorf("cannot cast non-nil union to type other than string")
+}
+
+func (s *SparseUnion) ChildValue() Scalar { return s.Value[s.ChildID] }
+
+func NewSparseUnionScalar(val []Scalar, code arrow.UnionTypeCode, dt *arrow.SparseUnionType) *SparseUnion {
+	ret := &SparseUnion{
+		scalar:   scalar{dt, true},
+		TypeCode: code,
+		Value:    val,
+		ChildID:  dt.ChildIDs()[code],
+	}
+	ret.Valid = ret.Value[ret.ChildID].IsValid()
+	return ret
+}
+
+func NewSparseUnionScalarFromValue(val Scalar, idx int, dt *arrow.SparseUnionType) *SparseUnion {
+	code := dt.TypeCodes()[idx]
+	values := make([]Scalar, len(dt.Fields()))
+	for i, f := range dt.Fields() {
+		if i == idx {
+			values[i] = val
+		} else {
+			values[i] = MakeNullScalar(f.Type)
+		}
+	}
+	return NewSparseUnionScalar(values, code, dt)
+}
+
+type DenseUnion struct {
+	scalar
+
+	TypeCode arrow.UnionTypeCode
+	Value    Scalar
+}
+
+func (s *DenseUnion) equals(rhs Scalar) bool {
+	right := rhs.(*DenseUnion)
+	return Equals(s.Value, right.Value)
+}
+
+func (s *DenseUnion) value() interface{} { return s.ChildValue() }
+
+func (s *DenseUnion) String() string {
+	dt := s.Type.(*arrow.DenseUnionType)
+	return "union{" + dt.Fields()[dt.ChildIDs()[s.TypeCode]].String() + " = " + s.Value.String() + "}"
+}
+
+func (s *DenseUnion) Retain() {
+	if v, ok := s.Value.(Releasable); ok {
+		v.Retain()
+	}
+}
+
+func (s *DenseUnion) Release() {
+	if v, ok := s.Value.(Releasable); ok {
+		v.Release()
+	}
+}
+
+func (s *DenseUnion) Validate() (err error) {
+	dt := s.Type.(*arrow.DenseUnionType)
+	if s.TypeCode < 0 || int(s.TypeCode) >= len(dt.ChildIDs()) || dt.ChildIDs()[s.TypeCode] == arrow.InvalidUnionChildID {
+		return fmt.Errorf("%s scalar has invalid type code %d", dt, s.TypeCode)
+	}
+	fieldType := dt.Fields()[dt.ChildIDs()[s.TypeCode]].Type
+	if !arrow.TypeEqual(fieldType, s.Value.DataType()) {
+		return fmt.Errorf("%s scalar with type code %d should have an underlying value of type %s, got %s",
+			s.Type, s.TypeCode, fieldType, s.Value.DataType())
+	}
+	return s.Value.Validate()
+}
+
+func (s *DenseUnion) ValidateFull() error {
+	dt := s.Type.(*arrow.DenseUnionType)
+	if s.TypeCode < 0 || int(s.TypeCode) >= len(dt.ChildIDs()) || dt.ChildIDs()[s.TypeCode] == arrow.InvalidUnionChildID {
+		return fmt.Errorf("%s scalar has invalid type code %d", dt, s.TypeCode)
+	}
+	fieldType := dt.Fields()[dt.ChildIDs()[s.TypeCode]].Type
+	if !arrow.TypeEqual(fieldType, s.Value.DataType()) {
+		return fmt.Errorf("%s scalar with type code %d should have an underlying value of type %s, got %s",
+			s.Type, s.TypeCode, fieldType, s.Value.DataType())
+	}
+	return s.Value.ValidateFull()
+}
+
+func (s *DenseUnion) CastTo(to arrow.DataType) (Scalar, error) {
+	if !s.Valid {
+		return MakeNullScalar(to), nil
+	}
+
+	switch to.ID() {
+	case arrow.STRING:
+		return NewStringScalar(s.String()), nil
+	case arrow.LARGE_STRING:
+		return NewLargeStringScalar(s.String()), nil
+	}
+
+	return nil, fmt.Errorf("cannot cast non-nil union to type other than string")
+}
+
+func (s *DenseUnion) ChildValue() Scalar { return s.Value }
+
+func NewDenseUnionScalar(v Scalar, code arrow.UnionTypeCode, dt *arrow.DenseUnionType) *DenseUnion {
+	return &DenseUnion{scalar: scalar{dt, v.IsValid()}, TypeCode: code, Value: v}
+}
diff --git a/go/arrow/scalar/numeric.gen.go b/go/arrow/scalar/numeric.gen.go
index 0dd0aca3d42..c19a1e1a0cc 100644
--- a/go/arrow/scalar/numeric.gen.go
+++ b/go/arrow/scalar/numeric.gen.go
@@ -20,10 +20,13 @@ package scalar
 
 import (
 	"fmt"
+	"math"
 	"reflect"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"	
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
 )
 
 type Int8 struct {
@@ -83,6 +86,10 @@ func (s *Int8) CastTo(dt arrow.DataType) (Scalar, error) {
 		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
 	case *arrow.LargeStringType:
 		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
+	case *arrow.Decimal128Type:
+		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
+	case *arrow.Decimal256Type:
+		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
 	}
 
 	return nil, fmt.Errorf("invalid scalar cast from type int8 to type %s", dt)
@@ -149,6 +156,10 @@ func (s *Int16) CastTo(dt arrow.DataType) (Scalar, error) {
 		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
 	case *arrow.LargeStringType:
 		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
+	case *arrow.Decimal128Type:
+		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
+	case *arrow.Decimal256Type:
+		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
 	}
 
 	return nil, fmt.Errorf("invalid scalar cast from type int16 to type %s", dt)
@@ -215,6 +226,10 @@ func (s *Int32) CastTo(dt arrow.DataType) (Scalar, error) {
 		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
 	case *arrow.LargeStringType:
 		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
+	case *arrow.Decimal128Type:
+		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
+	case *arrow.Decimal256Type:
+		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
 	}
 
 	return nil, fmt.Errorf("invalid scalar cast from type int32 to type %s", dt)
@@ -281,6 +296,10 @@ func (s *Int64) CastTo(dt arrow.DataType) (Scalar, error) {
 		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
 	case *arrow.LargeStringType:
 		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
+	case *arrow.Decimal128Type:
+		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
+	case *arrow.Decimal256Type:
+		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
 	}
 
 	return nil, fmt.Errorf("invalid scalar cast from type int64 to type %s", dt)
@@ -347,6 +366,10 @@ func (s *Uint8) CastTo(dt arrow.DataType) (Scalar, error) {
 		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
 	case *arrow.LargeStringType:
 		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
+	case *arrow.Decimal128Type:
+		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
+	case *arrow.Decimal256Type:
+		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
 	}
 
 	return nil, fmt.Errorf("invalid scalar cast from type uint8 to type %s", dt)
@@ -413,6 +436,10 @@ func (s *Uint16) CastTo(dt arrow.DataType) (Scalar, error) {
 		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
 	case *arrow.LargeStringType:
 		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
+	case *arrow.Decimal128Type:
+		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
+	case *arrow.Decimal256Type:
+		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
 	}
 
 	return nil, fmt.Errorf("invalid scalar cast from type uint16 to type %s", dt)
@@ -479,6 +506,10 @@ func (s *Uint32) CastTo(dt arrow.DataType) (Scalar, error) {
 		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
 	case *arrow.LargeStringType:
 		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
+	case *arrow.Decimal128Type:
+		return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
+	case *arrow.Decimal256Type:
+		return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
 	}
 
 	return nil, fmt.Errorf("invalid scalar cast from type uint32 to type %s", dt)
@@ -545,6 +576,10 @@ func (s *Uint64) CastTo(dt arrow.DataType) (Scalar, error) {
 		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
 	case *arrow.LargeStringType:
 		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
+	case *arrow.Decimal128Type:
+		return NewDecimal128Scalar(decimal128.FromU64(s.Value), dt), nil
+	case *arrow.Decimal256Type:
+		return NewDecimal256Scalar(decimal256.FromU64(s.Value), dt), nil
 	}
 
 	return nil, fmt.Errorf("invalid scalar cast from type uint64 to type %s", dt)
@@ -567,6 +602,17 @@ func (s *Float32) equals(rhs Scalar) bool {
 	return s.Value == rhs.(*Float32).Value
 }
 
+func (s *Float32) approxEquals(rhs Scalar, eq equalOption) bool {
+	v1 := float64(s.Value)
+	v2 := float64(rhs.(*Float32).Value)
+	switch {
+	case eq.nansEq:
+		return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
+	default:
+		return v1 == v2 || math.Abs(v1-v2) <= eq.atol
+	}
+}
+
 func (s *Float32) value() interface{} {
 	return s.Value
 }
@@ -611,6 +657,18 @@ func (s *Float32) CastTo(dt arrow.DataType) (Scalar, error) {
 		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
 	case *arrow.LargeStringType:
 		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
+	case *arrow.Decimal128Type:
+		v, err := decimal128.FromFloat32(s.Value, dt.Precision, dt.Scale)
+		if err != nil {
+			return nil, err
+		}
+		return NewDecimal128Scalar(v, dt), nil
+	case *arrow.Decimal256Type:
+		v, err := decimal256.FromFloat32(s.Value, dt.Precision, dt.Scale)
+		if err != nil {
+			return nil, err
+		}
+		return NewDecimal256Scalar(v, dt), nil
 	}
 
 	return nil, fmt.Errorf("invalid scalar cast from type float32 to type %s", dt)
@@ -633,6 +691,17 @@ func (s *Float64) equals(rhs Scalar) bool {
 	return s.Value == rhs.(*Float64).Value
 }
 
+func (s *Float64) approxEquals(rhs Scalar, eq equalOption) bool {
+	v1 := float64(s.Value)
+	v2 := float64(rhs.(*Float64).Value)
+	switch {
+	case eq.nansEq:
+		return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
+	default:
+		return v1 == v2 || math.Abs(v1-v2) <= eq.atol
+	}
+}
+
 func (s *Float64) value() interface{} {
 	return s.Value
 }
@@ -677,6 +746,18 @@ func (s *Float64) CastTo(dt arrow.DataType) (Scalar, error) {
 		return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
 	case *arrow.LargeStringType:
 		return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
+	case *arrow.Decimal128Type:
+		v, err := decimal128.FromFloat64(s.Value, dt.Precision, dt.Scale)
+		if err != nil {
+			return nil, err
+		}
+		return NewDecimal128Scalar(v, dt), nil
+	case *arrow.Decimal256Type:
+		v, err := decimal256.FromFloat64(s.Value, dt.Precision, dt.Scale)
+		if err != nil {
+			return nil, err
+		}
+		return NewDecimal256Scalar(v, dt), nil
 	}
 
 	return nil, fmt.Errorf("invalid scalar cast from type float64 to type %s", dt)
diff --git a/go/arrow/scalar/numeric.gen.go.tmpl b/go/arrow/scalar/numeric.gen.go.tmpl
index 07df9fc1d4b..c0733d6e515 100644
--- a/go/arrow/scalar/numeric.gen.go.tmpl
+++ b/go/arrow/scalar/numeric.gen.go.tmpl
@@ -30,6 +30,19 @@ func (s *{{.Name}}) equals(rhs Scalar) bool {
     return s.Value == rhs.(*{{.Name}}).Value
 }
 
+{{if or (eq .Name "Float32") (eq .Name "Float64") }}
+func (s *{{.Name}}) approxEquals(rhs Scalar, eq equalOption) bool {
+    v1 := float64(s.Value)
+    v2 := float64(rhs.(*{{.Name}}).Value)
+    switch {
+    case eq.nansEq:
+        return v1 == v2 || math.Abs(v1-v2) <= eq.atol || (math.IsNaN(v1) && math.IsNaN(v2))
+    default:
+        return v1 == v2 || math.Abs(v1-v2) <= eq.atol
+    }
+}
+{{end}}
+
 func (s *{{.Name}}) value() interface{} {
     return s.Value
 }
@@ -74,6 +87,42 @@ func (s *{{.Name}}) CastTo(dt arrow.DataType) (Scalar, error) {
         return NewStringScalar(fmt.Sprintf("%v", s.Value)), nil
     case *arrow.LargeStringType:
         return NewLargeStringScalar(fmt.Sprintf("%v", s.Value)), nil
+    case *arrow.Decimal128Type:
+{{if eq .Name "Float32" -}}
+        v, err := decimal128.FromFloat32(s.Value, dt.Precision, dt.Scale)
+        if err != nil {
+            return nil, err
+        }
+        return NewDecimal128Scalar(v, dt), nil
+{{else if eq .Name "Float64" -}}
+        v, err := decimal128.FromFloat64(s.Value, dt.Precision, dt.Scale)
+        if err != nil {
+            return nil, err
+        }
+        return NewDecimal128Scalar(v, dt), nil
+{{else if eq .Name "Uint64" -}}
+        return NewDecimal128Scalar(decimal128.FromU64(s.Value), dt), nil
+{{else -}}
+        return NewDecimal128Scalar(decimal128.FromI64(int64(s.Value)), dt), nil
+{{end -}}
+    case *arrow.Decimal256Type:
+{{if eq .Name "Float32" -}}
+        v, err := decimal256.FromFloat32(s.Value, dt.Precision, dt.Scale)
+        if err != nil {
+            return nil, err
+        }
+        return NewDecimal256Scalar(v, dt), nil
+{{else if eq .Name "Float64" -}}
+        v, err := decimal256.FromFloat64(s.Value, dt.Precision, dt.Scale)
+        if err != nil {
+            return nil, err
+        }
+        return NewDecimal256Scalar(v, dt), nil
+{{else if eq .Name "Uint64" -}}
+        return NewDecimal256Scalar(decimal256.FromU64(s.Value), dt), nil
+{{else -}}
+        return NewDecimal256Scalar(decimal256.FromI64(int64(s.Value)), dt), nil
+{{end -}}
 	}
 
 	return nil, fmt.Errorf("invalid scalar cast from type {{.Type}} to type %s", dt)
diff --git a/go/arrow/scalar/numeric.gen_test.go b/go/arrow/scalar/numeric.gen_test.go
index 67e4f6b4306..25151eca768 100644
--- a/go/arrow/scalar/numeric.gen_test.go
+++ b/go/arrow/scalar/numeric.gen_test.go
@@ -21,8 +21,8 @@ package scalar_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/scalar"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/scalar/numeric.gen_test.go.tmpl b/go/arrow/scalar/numeric.gen_test.go.tmpl
index b62eec4ee3b..a258d5bcdbb 100644
--- a/go/arrow/scalar/numeric.gen_test.go.tmpl
+++ b/go/arrow/scalar/numeric.gen_test.go.tmpl
@@ -19,8 +19,8 @@ package scalar_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/scalar"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/arrow/scalar/parse.go b/go/arrow/scalar/parse.go
index d22647435b1..dd837519bb1 100644
--- a/go/arrow/scalar/parse.go
+++ b/go/arrow/scalar/parse.go
@@ -22,12 +22,15 @@ import (
 	"math/bits"
 	"reflect"
 	"strconv"
+	"strings"
 	"time"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/float16"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/float16"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 )
 
 type TypeToScalar interface {
@@ -403,6 +406,88 @@ func MakeScalarParam(val interface{}, dt arrow.DataType) (Scalar, error) {
 			}
 			return nil, fmt.Errorf("invalid scalar value of len %d for type %s", v.Len(), dt)
 		}
+	case string:
+		switch {
+		case arrow.IsBaseBinary(dt.ID()):
+			buf := memory.NewBufferBytes([]byte(v))
+			defer buf.Release()
+
+			switch dt.ID() {
+			case arrow.BINARY:
+				return NewBinaryScalar(buf, dt), nil
+			case arrow.LARGE_BINARY:
+				return NewLargeBinaryScalar(buf), nil
+			case arrow.STRING:
+				return NewStringScalar(v), nil
+			case arrow.LARGE_STRING:
+				return NewLargeStringScalar(v), nil
+			}
+		case arrow.IsInteger(dt.ID()):
+			bits := dt.(arrow.FixedWidthDataType).BitWidth()
+			if arrow.IsUnsignedInteger(dt.ID()) {
+				val, err := strconv.ParseUint(v, 0, bits)
+				if err != nil {
+					return nil, err
+				}
+				return MakeUnsignedIntegerScalar(val, bits)
+			}
+			val, err := strconv.ParseInt(v, 0, bits)
+			if err != nil {
+				return nil, err
+			}
+			return MakeIntegerScalar(val, bits)
+		case arrow.IsFixedSizeBinary(dt.ID()):
+			switch dt.ID() {
+			case arrow.FIXED_SIZE_BINARY:
+				ty := dt.(*arrow.FixedSizeBinaryType)
+				if len(v) != ty.ByteWidth {
+					return nil, fmt.Errorf("%w: invalid length for fixed size binary scalar", arrow.ErrInvalid)
+				}
+				return NewFixedSizeBinaryScalar(memory.NewBufferBytes([]byte(v)), ty), nil
+			case arrow.DECIMAL128:
+				ty := dt.(*arrow.Decimal128Type)
+				n, err := decimal128.FromString(v, ty.Precision, ty.Scale)
+				if err != nil {
+					return nil, err
+				}
+				return NewDecimal128Scalar(n, ty), nil
+			case arrow.DECIMAL256:
+				ty := dt.(*arrow.Decimal256Type)
+				n, err := decimal256.FromString(v, ty.Precision, ty.Scale)
+				if err != nil {
+					return nil, err
+				}
+				return NewDecimal256Scalar(n, ty), nil
+			}
+		case arrow.IsFloating(dt.ID()):
+			bits := dt.(arrow.FixedWidthDataType).BitWidth()
+			val, err := strconv.ParseFloat(v, bits)
+			if err != nil {
+				return nil, err
+			}
+			if bits == 32 {
+				return NewFloat32Scalar(float32(val)), nil
+			}
+			return NewFloat64Scalar(val), nil
+		case dt.ID() == arrow.TIMESTAMP:
+			ty := dt.(*arrow.TimestampType)
+			if ty.TimeZone == "" || strings.ToLower(ty.TimeZone) == "utc" {
+				ts, err := arrow.TimestampFromString(v, ty.Unit)
+				if err != nil {
+					return nil, err
+				}
+				return NewTimestampScalar(ts, dt), nil
+			}
+			loc, err := time.LoadLocation(ty.TimeZone)
+			if err != nil {
+				return nil, err
+			}
+			ts, _, err := arrow.TimestampFromStringInLocation(v, ty.Unit, loc)
+			if err != nil {
+				return nil, err
+			}
+			return NewTimestampScalar(ts, ty), nil
+		}
 	case arrow.Time32:
 		return NewTime32Scalar(v, dt), nil
 	case arrow.Time64:
@@ -432,6 +517,19 @@ func MakeScalarParam(val interface{}, dt arrow.DataType) (Scalar, error) {
 			}
 			return NewMapScalar(v), nil
 		}
+	case decimal128.Num:
+		if _, ok := dt.(*arrow.Decimal128Type); !ok {
+			return nil, fmt.Errorf("mismatch cannot create decimal128 scalar with incorrect data type")
+		}
+
+		return NewDecimal128Scalar(v, dt), nil
+	case decimal256.Num:
+		if _, ok := dt.(*arrow.Decimal256Type); !ok {
+			return nil, fmt.Errorf("mismatch cannot create decimal256 scalar with incorrect data type")
+		}
+
+		return NewDecimal256Scalar(v, dt), nil
+
 	}
 
 	if arrow.IsInteger(dt.ID()) {
@@ -659,6 +757,20 @@ func ParseScalar(dt arrow.DataType, val string) (Scalar, error) {
 		return NewTime64Scalar(tm, dt), nil
 	case arrow.DICTIONARY:
 		return ParseScalar(dt.(*arrow.DictionaryType).ValueType, val)
+	case arrow.DECIMAL128:
+		typ := dt.(*arrow.Decimal128Type)
+		n, err := decimal128.FromString(val, typ.Precision, typ.Scale)
+		if err != nil {
+			return nil, err
+		}
+		return NewDecimal128Scalar(n, typ), nil
+	case arrow.DECIMAL256:
+		typ := dt.(*arrow.Decimal256Type)
+		n, err := decimal256.FromString(val, typ.Precision, typ.Scale)
+		if err != nil {
+			return nil, err
+		}
+		return NewDecimal256Scalar(n, typ), nil
 	}
 
 	return nil, fmt.Errorf("parsing of scalar for type %s not implemented", dt)
diff --git a/go/arrow/scalar/scalar.go b/go/arrow/scalar/scalar.go
index 5edc98584b5..c03f3806997 100644
--- a/go/arrow/scalar/scalar.go
+++ b/go/arrow/scalar/scalar.go
@@ -26,15 +26,15 @@ import (
 	"strconv"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/decimal256"
-	"github.com/apache/arrow/go/v10/arrow/endian"
-	"github.com/apache/arrow/go/v10/arrow/float16"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/float16"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"golang.org/x/xerrors"
 )
 
@@ -61,7 +61,6 @@ type Scalar interface {
 	// internal only functions for delegation
 	value() interface{}
 	equals(Scalar) bool
-	//TODO(zeroshade): approxEquals
 }
 
 type Releasable interface {
@@ -273,6 +272,10 @@ type Decimal128 struct {
 	Value decimal128.Num
 }
 
+func (s *Decimal128) Data() []byte {
+	return (*[arrow.Decimal128SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
+}
+
 func (s *Decimal128) value() interface{} { return s.Value }
 
 func (s *Decimal128) String() string {
@@ -337,6 +340,10 @@ type Decimal256 struct {
 	Value decimal256.Num
 }
 
+func (s *Decimal256) Data() []byte {
+	return (*[arrow.Decimal256SizeBytes]byte)(unsafe.Pointer(&s.Value))[:]
+}
+
 func (s *Decimal256) value() interface{} { return s.Value }
 
 func (s *Decimal256) String() string {
@@ -466,10 +473,6 @@ func MakeNullScalar(dt arrow.DataType) Scalar {
 	return makeNullFn[byte(dt.ID()&0x3f)](dt)
 }
 
-func unsupportedScalarType(dt arrow.DataType) Scalar {
-	panic("unsupported scalar data type: " + dt.ID().String())
-}
-
 func invalidScalarType(dt arrow.DataType) Scalar {
 	panic("invalid scalar type: " + dt.ID().String())
 }
@@ -515,18 +518,43 @@ func init() {
 		arrow.INTERVAL_MONTH_DAY_NANO: func(dt arrow.DataType) Scalar { return &MonthDayNanoInterval{scalar: scalar{dt, false}} },
 		arrow.DECIMAL128:              func(dt arrow.DataType) Scalar { return &Decimal128{scalar: scalar{dt, false}} },
 		arrow.LIST:                    func(dt arrow.DataType) Scalar { return &List{scalar: scalar{dt, false}} },
-		arrow.STRUCT:                  func(dt arrow.DataType) Scalar { return &Struct{scalar: scalar{dt, false}} },
-		arrow.SPARSE_UNION:            unsupportedScalarType,
-		arrow.DENSE_UNION:             unsupportedScalarType,
-		arrow.DICTIONARY:              func(dt arrow.DataType) Scalar { return NewNullDictScalar(dt) },
-		arrow.LARGE_STRING:            func(dt arrow.DataType) Scalar { return &LargeString{&String{&Binary{scalar: scalar{dt, false}}}} },
-		arrow.LARGE_BINARY:            func(dt arrow.DataType) Scalar { return &LargeBinary{&Binary{scalar: scalar{dt, false}}} },
-		arrow.LARGE_LIST:              func(dt arrow.DataType) Scalar { return &LargeList{&List{scalar: scalar{dt, false}}} },
-		arrow.DECIMAL256:              func(dt arrow.DataType) Scalar { return &Decimal256{scalar: scalar{dt, false}} },
-		arrow.MAP:                     func(dt arrow.DataType) Scalar { return &Map{&List{scalar: scalar{dt, false}}} },
-		arrow.EXTENSION:               func(dt arrow.DataType) Scalar { return &Extension{scalar: scalar{dt, false}} },
-		arrow.FIXED_SIZE_LIST:         func(dt arrow.DataType) Scalar { return &FixedSizeList{&List{scalar: scalar{dt, false}}} },
-		arrow.DURATION:                func(dt arrow.DataType) Scalar { return &Duration{scalar: scalar{dt, false}} },
+		arrow.STRUCT: func(dt arrow.DataType) Scalar {
+			typ := dt.(*arrow.StructType)
+			values := make([]Scalar, len(typ.Fields()))
+			for i, f := range typ.Fields() {
+				values[i] = MakeNullScalar(f.Type)
+			}
+			return &Struct{scalar: scalar{dt, false}, Value: values}
+		},
+		arrow.SPARSE_UNION: func(dt arrow.DataType) Scalar {
+			typ := dt.(*arrow.SparseUnionType)
+			if len(typ.Fields()) == 0 {
+				panic("cannot make scalar of empty union type")
+			}
+			values := make([]Scalar, len(typ.Fields()))
+			for i, f := range typ.Fields() {
+				values[i] = MakeNullScalar(f.Type)
+			}
+			return NewSparseUnionScalar(values, typ.TypeCodes()[0], typ)
+		},
+		arrow.DENSE_UNION: func(dt arrow.DataType) Scalar {
+			typ := dt.(*arrow.DenseUnionType)
+			if len(typ.Fields()) == 0 {
+				panic("cannot make scalar of empty union type")
+			}
+			return NewDenseUnionScalar(MakeNullScalar(typ.Fields()[0].Type), typ.TypeCodes()[0], typ)
+		},
+		arrow.DICTIONARY:   func(dt arrow.DataType) Scalar { return NewNullDictScalar(dt) },
+		arrow.LARGE_STRING: func(dt arrow.DataType) Scalar { return &LargeString{&String{&Binary{scalar: scalar{dt, false}}}} },
+		arrow.LARGE_BINARY: func(dt arrow.DataType) Scalar { return &LargeBinary{&Binary{scalar: scalar{dt, false}}} },
+		arrow.LARGE_LIST:   func(dt arrow.DataType) Scalar { return &LargeList{&List{scalar: scalar{dt, false}}} },
+		arrow.DECIMAL256:   func(dt arrow.DataType) Scalar { return &Decimal256{scalar: scalar{dt, false}} },
+		arrow.MAP:          func(dt arrow.DataType) Scalar { return &Map{&List{scalar: scalar{dt, false}}} },
+		arrow.EXTENSION: func(dt arrow.DataType) Scalar {
+			return &Extension{scalar: scalar{dt, false}, Value: MakeNullScalar(dt.(arrow.ExtensionType).StorageType())}
+		},
+		arrow.FIXED_SIZE_LIST: func(dt arrow.DataType) Scalar { return &FixedSizeList{&List{scalar: scalar{dt, false}}} },
+		arrow.DURATION:        func(dt arrow.DataType) Scalar { return &Duration{scalar: scalar{dt, false}} },
 		// invalid data types to fill out array size 2^6 - 1
 		63: invalidScalarType,
 	}
@@ -540,7 +568,7 @@ func init() {
 // GetScalar creates a scalar object from the value at a given index in the
 // passed in array, returns an error if unable to do so.
 func GetScalar(arr arrow.Array, idx int) (Scalar, error) {
-	if arr.IsNull(idx) {
+	if arr.DataType().ID() != arrow.DICTIONARY && arr.IsNull(idx) {
 		return MakeNullScalar(arr.DataType()), nil
 	}
 
@@ -549,6 +577,10 @@ func GetScalar(arr arrow.Array, idx int) (Scalar, error) {
 		buf := memory.NewBufferBytes(arr.Value(idx))
 		defer buf.Release()
 		return NewBinaryScalar(buf, arr.DataType()), nil
+	case *array.LargeBinary:
+		buf := memory.NewBufferBytes(arr.Value(idx))
+		defer buf.Release()
+		return NewLargeBinaryScalar(buf), nil
 	case *array.Boolean:
 		return NewBooleanScalar(arr.Value(idx)), nil
 	case *array.Date32:
@@ -605,6 +637,11 @@ func GetScalar(arr arrow.Array, idx int) (Scalar, error) {
 		slice := array.NewSlice(arr.ListValues(), int64(offsets[idx]), int64(offsets[idx+1]))
 		defer slice.Release()
 		return NewListScalar(slice), nil
+	case *array.LargeList:
+		offsets := arr.Offsets()
+		slice := array.NewSlice(arr.ListValues(), int64(offsets[idx]), int64(offsets[idx+1]))
+		defer slice.Release()
+		return NewLargeListScalar(slice), nil
 	case *array.Map:
 		offsets := arr.Offsets()
 		slice := array.NewSlice(arr.ListValues(), int64(offsets[idx]), int64(offsets[idx+1]))
@@ -618,6 +655,8 @@ func GetScalar(arr arrow.Array, idx int) (Scalar, error) {
 		return ScalarNull, nil
 	case *array.String:
 		return NewStringScalar(arr.Value(idx)), nil
+	case *array.LargeString:
+		return NewLargeStringScalar(arr.Value(idx)), nil
 	case *array.Struct:
 		children := make(Vector, arr.NumField())
 		for i := range children {
@@ -636,22 +675,63 @@ func GetScalar(arr arrow.Array, idx int) (Scalar, error) {
 		return NewTimestampScalar(arr.Value(idx), arr.DataType()), nil
 	case *array.Dictionary:
 		ty := arr.DataType().(*arrow.DictionaryType)
-		index, err := MakeScalarParam(arr.GetValueIndex(idx), ty.IndexType)
-		if err != nil {
-			return nil, err
+		valid := arr.IsValid(idx)
+		scalar := &Dictionary{scalar: scalar{ty, valid}}
+		if valid {
+			index, err := MakeScalarParam(arr.GetValueIndex(idx), ty.IndexType)
+			if err != nil {
+				return nil, err
+			}
+
+			scalar.Value.Index = index
+		} else {
+			scalar.Value.Index = MakeNullScalar(ty.IndexType)
 		}
 
-		scalar := &Dictionary{scalar: scalar{ty, arr.IsValid(idx)}}
-		scalar.Value.Index = index
 		scalar.Value.Dict = arr.Dictionary()
 		scalar.Value.Dict.Retain()
 		return scalar, nil
+	case *array.SparseUnion:
+		var err error
+		typeCode := arr.TypeCode(idx)
+		children := make([]Scalar, arr.NumFields())
+		defer func() {
+			if err != nil {
+				for _, c := range children {
+					if c == nil {
+						break
+					}
+
+					if v, ok := c.(Releasable); ok {
+						v.Release()
+					}
+				}
+			}
+		}()
+
+		for i := range arr.UnionType().Fields() {
+			if children[i], err = GetScalar(arr.Field(i), idx); err != nil {
+				return nil, err
+			}
+		}
+		return NewSparseUnionScalar(children, typeCode, arr.UnionType().(*arrow.SparseUnionType)), nil
+	case *array.DenseUnion:
+		typeCode := arr.TypeCode(idx)
+		child := arr.Field(arr.ChildID(idx))
+		offset := arr.ValueOffset(idx)
+		value, err := GetScalar(child, int(offset))
+		if err != nil {
+			return nil, err
+		}
+		return NewDenseUnionScalar(value, typeCode, arr.UnionType().(*arrow.DenseUnionType)), nil
 	}
 
 	return nil, fmt.Errorf("cannot create scalar from array of type %s", arr.DataType())
 }
 
 // MakeArrayOfNull creates an array of size length which is all null of the given data type.
+//
+// Deprecated: Use array.MakeArrayOfNull
 func MakeArrayOfNull(dt arrow.DataType, length int, mem memory.Allocator) arrow.Array {
 	var (
 		buffers  = []*memory.Buffer{nil}
@@ -749,14 +829,18 @@ func MakeArrayFromScalar(sc Scalar, length int, mem memory.Allocator) (arrow.Arr
 			data.Release()
 		}()
 		return array.MakeFromData(data), nil
-	case PrimitiveScalar:
-		data := finishFixedWidth(s.Data())
-		defer data.Release()
-		return array.MakeFromData(data), nil
 	case *Decimal128:
 		data := finishFixedWidth(arrow.Decimal128Traits.CastToBytes([]decimal128.Num{s.Value}))
 		defer data.Release()
 		return array.MakeFromData(data), nil
+	case *Decimal256:
+		data := finishFixedWidth(arrow.Decimal256Traits.CastToBytes([]decimal256.Num{s.Value}))
+		defer data.Release()
+		return array.MakeFromData(data), nil
+	case PrimitiveScalar:
+		data := finishFixedWidth(s.Data())
+		defer data.Release()
+		return array.MakeFromData(data), nil
 	case *List:
 		values := make([]arrow.Array, length)
 		for i := range values {
@@ -902,6 +986,16 @@ func Hash(seed maphash.Seed, s Scalar) uint64 {
 		return valueHash(s.Value.Days) & valueHash(s.Value.Milliseconds)
 	case *MonthDayNanoInterval:
 		return valueHash(s.Value.Months) & valueHash(s.Value.Days) & valueHash(s.Value.Nanoseconds)
+	case *SparseUnion:
+		// typecode is ignored when comparing for equality, so don't hash it either
+		out ^= Hash(seed, s.Value[s.ChildID])
+	case *DenseUnion:
+		// typecode is ignored when comparing equality, so don't hash it either
+		out ^= Hash(seed, s.Value)
+	case *Dictionary:
+		if s.Value.Index.IsValid() {
+			out ^= Hash(seed, s.Value.Index)
+		}
 	case PrimitiveScalar:
 		h.Write(s.Data())
 		hash()
@@ -916,10 +1010,6 @@ func Hash(seed maphash.Seed, s Scalar) uint64 {
 				out ^= Hash(seed, c)
 			}
 		}
-	case *Dictionary:
-		if s.Value.Index.IsValid() {
-			out ^= Hash(seed, s.Value.Index)
-		}
 	}
 
 	return out
diff --git a/go/arrow/scalar/scalar_test.go b/go/arrow/scalar/scalar_test.go
index 22f3bee20cb..1d18af59726 100644
--- a/go/arrow/scalar/scalar_test.go
+++ b/go/arrow/scalar/scalar_test.go
@@ -25,11 +25,11 @@ import (
 	"testing"
 	"time"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/arrow/scalar"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/scalar"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/suite"
 )
@@ -1143,3 +1143,276 @@ func TestDictionaryScalarValidateErrors(t *testing.T) {
 		assert.Error(t, invalid.ValidateFull())
 	}
 }
+
+func checkGetValidUnionScalar(t *testing.T, arr arrow.Array, idx int, expected, expectedValue scalar.Scalar) {
+	s, err := scalar.GetScalar(arr, idx)
+	assert.NoError(t, err)
+	assert.NoError(t, s.ValidateFull())
+	assert.True(t, scalar.Equals(expected, s))
+
+	assert.True(t, s.IsValid())
+	assert.True(t, scalar.Equals(s.(scalar.Union).ChildValue(), expectedValue), s, expectedValue)
+}
+
+func checkGetNullUnionScalar(t *testing.T, arr arrow.Array, idx int) {
+	s, err := scalar.GetScalar(arr, idx)
+	assert.NoError(t, err)
+	assert.True(t, scalar.Equals(scalar.MakeNullScalar(arr.DataType()), s))
+	assert.False(t, s.IsValid())
+	assert.False(t, s.(scalar.Union).ChildValue().IsValid())
+}
+
+func makeSparseUnionScalar(ty *arrow.SparseUnionType, val scalar.Scalar, idx int) scalar.Scalar {
+	return scalar.NewSparseUnionScalarFromValue(val, idx, ty)
+}
+
+func makeDenseUnionScalar(ty *arrow.DenseUnionType, val scalar.Scalar, idx int) scalar.Scalar {
+	return scalar.NewDenseUnionScalar(val, ty.TypeCodes()[idx], ty)
+}
+
+func makeSpecificNullScalar(dt arrow.UnionType, idx int) scalar.Scalar {
+	switch dt.Mode() {
+	case arrow.SparseMode:
+		values := make([]scalar.Scalar, len(dt.Fields()))
+		for i, f := range dt.Fields() {
+			values[i] = scalar.MakeNullScalar(f.Type)
+		}
+		return scalar.NewSparseUnionScalar(values, dt.TypeCodes()[idx], dt.(*arrow.SparseUnionType))
+	case arrow.DenseMode:
+		code := dt.TypeCodes()[idx]
+		value := scalar.MakeNullScalar(dt.Fields()[idx].Type)
+		return scalar.NewDenseUnionScalar(value, code, dt.(*arrow.DenseUnionType))
+	}
+	return nil
+}
+
+type UnionScalarSuite struct {
+	suite.Suite
+
+	mode                                            arrow.UnionMode
+	dt                                              arrow.DataType
+	unionType                                       arrow.UnionType
+	alpha, beta, two, three                         scalar.Scalar
+	unionAlpha, unionBeta, unionTwo, unionThree     scalar.Scalar
+	unionOtherTwo, unionStringNull, unionNumberNull scalar.Scalar
+}
+
+func (s *UnionScalarSuite) scalarFromValue(idx int, val scalar.Scalar) scalar.Scalar {
+	switch s.mode {
+	case arrow.SparseMode:
+		return makeSparseUnionScalar(s.dt.(*arrow.SparseUnionType), val, idx)
+	case arrow.DenseMode:
+		return makeDenseUnionScalar(s.dt.(*arrow.DenseUnionType), val, idx)
+	}
+	return nil
+}
+
+func (s *UnionScalarSuite) specificNull(idx int) scalar.Scalar {
+	return makeSpecificNullScalar(s.unionType, idx)
+}
+
+func (s *UnionScalarSuite) SetupTest() {
+	s.dt = arrow.UnionOf(s.mode, []arrow.Field{
+		{Name: "string", Type: arrow.BinaryTypes.String, Nullable: true},
+		{Name: "number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
+		{Name: "other_number", Type: arrow.PrimitiveTypes.Uint64, Nullable: true},
+	}, []arrow.UnionTypeCode{3, 42, 43})
+
+	s.unionType = s.dt.(arrow.UnionType)
+
+	s.alpha = scalar.MakeScalar("alpha")
+	s.beta = scalar.MakeScalar("beta")
+	s.two = scalar.MakeScalar(uint64(2))
+	s.three = scalar.MakeScalar(uint64(3))
+
+	s.unionAlpha = s.scalarFromValue(0, s.alpha)
+	s.unionBeta = s.scalarFromValue(0, s.beta)
+	s.unionTwo = s.scalarFromValue(1, s.two)
+	s.unionOtherTwo = s.scalarFromValue(2, s.two)
+	s.unionThree = s.scalarFromValue(1, s.three)
+	s.unionStringNull = s.specificNull(0)
+	s.unionNumberNull = s.specificNull(1)
+}
+
+func (s *UnionScalarSuite) TestValidate() {
+	s.NoError(s.unionAlpha.ValidateFull())
+	s.NoError(s.unionAlpha.Validate())
+	s.NoError(s.unionBeta.ValidateFull())
+	s.NoError(s.unionBeta.Validate())
+	s.NoError(s.unionTwo.ValidateFull())
+	s.NoError(s.unionTwo.Validate())
+	s.NoError(s.unionOtherTwo.ValidateFull())
+	s.NoError(s.unionOtherTwo.Validate())
+	s.NoError(s.unionThree.ValidateFull())
+	s.NoError(s.unionThree.Validate())
+	s.NoError(s.unionStringNull.ValidateFull())
+	s.NoError(s.unionStringNull.Validate())
+	s.NoError(s.unionNumberNull.ValidateFull())
+	s.NoError(s.unionNumberNull.Validate())
+}
+
+func (s *UnionScalarSuite) setTypeCode(sc scalar.Scalar, c arrow.UnionTypeCode) {
+	switch sc := sc.(type) {
+	case *scalar.SparseUnion:
+		sc.TypeCode = c
+	case *scalar.DenseUnion:
+		sc.TypeCode = c
+	}
+}
+
+func (s *UnionScalarSuite) setIsValid(sc scalar.Scalar, v bool) {
+	switch sc := sc.(type) {
+	case *scalar.SparseUnion:
+		sc.Valid = v
+	case *scalar.DenseUnion:
+		sc.Valid = v
+	}
+}
+
+func (s *UnionScalarSuite) TestValidateErrors() {
+	// type code doesn't exist
+	sc := s.scalarFromValue(0, s.alpha)
+
+	// invalid type code
+	s.setTypeCode(sc, 0)
+	s.Error(sc.Validate())
+	s.Error(sc.ValidateFull())
+
+	s.setIsValid(sc, false)
+	s.Error(sc.Validate())
+	s.Error(sc.ValidateFull())
+
+	s.setTypeCode(sc, -42)
+	s.setIsValid(sc, true)
+	s.Error(sc.Validate())
+	s.Error(sc.ValidateFull())
+
+	s.setIsValid(sc, false)
+	s.Error(sc.Validate())
+	s.Error(sc.ValidateFull())
+
+	// type code doesn't correspond to child type
+	if sc, ok := sc.(*scalar.DenseUnion); ok {
+		sc.TypeCode = 42
+		sc.Valid = true
+		s.Error(sc.Validate())
+		s.Error(sc.ValidateFull())
+
+		sc = s.scalarFromValue(2, s.two).(*scalar.DenseUnion)
+		sc.TypeCode = 3
+		s.Error(sc.Validate())
+		s.Error(sc.ValidateFull())
+	}
+
+	// underlying value has invalid utf8
+	sc = s.scalarFromValue(0, scalar.NewStringScalar("\xff"))
+	s.NoError(sc.Validate())
+	s.Error(sc.ValidateFull())
+}
+
+func (s *UnionScalarSuite) TestEquals() {
+	// differing values
+	s.False(scalar.Equals(s.unionAlpha, s.unionBeta))
+	s.False(scalar.Equals(s.unionTwo, s.unionThree))
+	// differing validities
+	s.False(scalar.Equals(s.unionAlpha, s.unionStringNull))
+	// differing types
+	s.False(scalar.Equals(s.unionAlpha, s.unionTwo))
+	s.False(scalar.Equals(s.unionAlpha, s.unionOtherTwo))
+	// type codes don't count when comparing union scalars: the underlying
+	// values are identical even though their provenance is different
+	s.True(scalar.Equals(s.unionTwo, s.unionOtherTwo))
+	s.True(scalar.Equals(s.unionStringNull, s.unionNumberNull))
+}
+
+func (s *UnionScalarSuite) TestMakeNullScalar() {
+	sc := scalar.MakeNullScalar(s.dt)
+	s.True(arrow.TypeEqual(s.dt, sc.DataType()))
+	s.False(sc.IsValid())
+
+	// the first child field is chosen arbitrarily for the purposes of
+	// making a null scalar
+	switch s.mode {
+	case arrow.DenseMode:
+		asDense := sc.(*scalar.DenseUnion)
+		s.EqualValues(3, asDense.TypeCode)
+		s.False(asDense.Value.IsValid())
+	case arrow.SparseMode:
+		asSparse := sc.(*scalar.SparseUnion)
+		s.EqualValues(3, asSparse.TypeCode)
+		s.False(asSparse.Value[asSparse.ChildID].IsValid())
+	}
+}
+
+type SparseUnionSuite struct {
+	UnionScalarSuite
+}
+
+func (s *SparseUnionSuite) SetupSuite() {
+	s.mode = arrow.SparseMode
+}
+
+func (s *SparseUnionSuite) TestGetScalar() {
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(s.T(), 0)
+
+	children := make([]arrow.Array, 3)
+	children[0], _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["alpha", "", "beta", null, "gamma"]`))
+	defer children[0].Release()
+	children[1], _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Uint64, strings.NewReader(`[1, 2, 11, 22, null]`))
+	defer children[1].Release()
+	children[2], _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Uint64, strings.NewReader(`[100, 101, 102, 103, 104]`))
+	defer children[2].Release()
+
+	typeIDs, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[3, 42, 3, 3, 42]`))
+	defer typeIDs.Release()
+
+	arr := array.NewSparseUnion(s.dt.(*arrow.SparseUnionType), 5, children, typeIDs.Data().Buffers()[1], 0)
+	defer arr.Release()
+
+	checkGetValidUnionScalar(s.T(), arr, 0, s.unionAlpha, s.alpha)
+	checkGetValidUnionScalar(s.T(), arr, 1, s.unionTwo, s.two)
+	checkGetValidUnionScalar(s.T(), arr, 2, s.unionBeta, s.beta)
+	checkGetNullUnionScalar(s.T(), arr, 3)
+	checkGetNullUnionScalar(s.T(), arr, 4)
+}
+
+type DenseUnionSuite struct {
+	UnionScalarSuite
+}
+
+func (s *DenseUnionSuite) SetupSuite() {
+	s.mode = arrow.DenseMode
+}
+
+func (s *DenseUnionSuite) TestGetScalar() {
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(s.T(), 0)
+
+	children := make([]arrow.Array, 3)
+	children[0], _, _ = array.FromJSON(mem, arrow.BinaryTypes.String, strings.NewReader(`["alpha", "beta", null]`))
+	defer children[0].Release()
+	children[1], _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Uint64, strings.NewReader(`[2, 3]`))
+	defer children[1].Release()
+	children[2], _, _ = array.FromJSON(mem, arrow.PrimitiveTypes.Uint64, strings.NewReader(`[]`))
+	defer children[2].Release()
+
+	typeIDs, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int8, strings.NewReader(`[3, 42, 3, 3, 42]`))
+	defer typeIDs.Release()
+	offsets, _, _ := array.FromJSON(mem, arrow.PrimitiveTypes.Int32, strings.NewReader(`[0, 0, 1, 2, 1]`))
+	defer offsets.Release()
+
+	arr := array.NewDenseUnion(s.dt.(*arrow.DenseUnionType), 5, children, typeIDs.Data().Buffers()[1], offsets.Data().Buffers()[1], 0)
+	defer arr.Release()
+
+	checkGetValidUnionScalar(s.T(), arr, 0, s.unionAlpha, s.alpha)
+	checkGetValidUnionScalar(s.T(), arr, 1, s.unionTwo, s.two)
+	checkGetValidUnionScalar(s.T(), arr, 2, s.unionBeta, s.beta)
+	checkGetNullUnionScalar(s.T(), arr, 3)
+	checkGetValidUnionScalar(s.T(), arr, 4, s.unionThree, s.three)
+}
+
+func TestUnionScalars(t *testing.T) {
+	suite.Run(t, new(SparseUnionSuite))
+	suite.Run(t, new(DenseUnionSuite))
+}
diff --git a/go/arrow/scalar/temporal.go b/go/arrow/scalar/temporal.go
index 38a3dd98e49..a19cd49e3c1 100644
--- a/go/arrow/scalar/temporal.go
+++ b/go/arrow/scalar/temporal.go
@@ -22,7 +22,7 @@ import (
 	"time"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v11/arrow"
 )
 
 func temporalToString(s TemporalScalar) string {
diff --git a/go/arrow/schema.go b/go/arrow/schema.go
index bd44c248b91..f81ee8412ae 100644
--- a/go/arrow/schema.go
+++ b/go/arrow/schema.go
@@ -21,7 +21,7 @@ import (
 	"sort"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/endian"
 )
 
 type Metadata struct {
diff --git a/go/arrow/schema_test.go b/go/arrow/schema_test.go
index 80d935e5263..c0596a2e9af 100644
--- a/go/arrow/schema_test.go
+++ b/go/arrow/schema_test.go
@@ -21,7 +21,7 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/endian"
 )
 
 func TestMetadata(t *testing.T) {
diff --git a/go/arrow/table.go b/go/arrow/table.go
index c4a6351cce2..e59ae1fb31a 100644
--- a/go/arrow/table.go
+++ b/go/arrow/table.go
@@ -19,7 +19,7 @@ package arrow
 import (
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
 )
 
 // Table represents a logical sequence of chunked arrays of equal length. It is
@@ -140,16 +140,20 @@ type Chunked struct {
 // NewChunked panics if the chunks do not have the same data type.
 func NewChunked(dtype DataType, chunks []Array) *Chunked {
 	arr := &Chunked{
-		chunks:   make([]Array, len(chunks)),
+		chunks:   make([]Array, 0, len(chunks)),
 		refCount: 1,
 		dtype:    dtype,
 	}
-	for i, chunk := range chunks {
+	for _, chunk := range chunks {
+		if chunk == nil {
+			continue
+		}
+		
 		if !TypeEqual(chunk.DataType(), dtype) {
 			panic("arrow/array: mismatch data type")
 		}
 		chunk.Retain()
-		arr.chunks[i] = chunk
+		arr.chunks = append(arr.chunks, chunk)
 		arr.length += chunk.Len()
 		arr.nulls += chunk.NullN()
 	}
diff --git a/go/arrow/tensor/numeric.gen.go b/go/arrow/tensor/numeric.gen.go
index 0f9ff941b84..75fa512e42e 100644
--- a/go/arrow/tensor/numeric.gen.go
+++ b/go/arrow/tensor/numeric.gen.go
@@ -19,7 +19,7 @@
 package tensor
 
 import (
-	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v11/arrow"
 )
 
 // Int8 is an n-dim array of int8s.
diff --git a/go/arrow/tensor/numeric.gen.go.tmpl b/go/arrow/tensor/numeric.gen.go.tmpl
index 43393c77edb..c21a5b0fb49 100644
--- a/go/arrow/tensor/numeric.gen.go.tmpl
+++ b/go/arrow/tensor/numeric.gen.go.tmpl
@@ -17,8 +17,8 @@
 package tensor
 
 import (
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
 )
 
 {{range .In}}
diff --git a/go/arrow/tensor/numeric.gen_test.go b/go/arrow/tensor/numeric.gen_test.go
index 0921e127b9c..fb096e02617 100644
--- a/go/arrow/tensor/numeric.gen_test.go
+++ b/go/arrow/tensor/numeric.gen_test.go
@@ -23,10 +23,10 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/arrow/tensor"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/tensor"
 )
 
 func TestTensorInt8(t *testing.T) {
diff --git a/go/arrow/tensor/numeric.gen_test.go.tmpl b/go/arrow/tensor/numeric.gen_test.go.tmpl
index 30907813fb9..f8a95594acb 100644
--- a/go/arrow/tensor/numeric.gen_test.go.tmpl
+++ b/go/arrow/tensor/numeric.gen_test.go.tmpl
@@ -21,10 +21,10 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/arrow/tensor"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/tensor"
 )
 
 {{range .In}}
diff --git a/go/arrow/tensor/tensor.go b/go/arrow/tensor/tensor.go
index 743c81f3fbd..7dc762ce364 100644
--- a/go/arrow/tensor/tensor.go
+++ b/go/arrow/tensor/tensor.go
@@ -21,8 +21,8 @@ import (
 	"fmt"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
 )
 
 // Interface represents an n-dimensional array of numerical data.
diff --git a/go/arrow/tensor/tensor_test.go b/go/arrow/tensor/tensor_test.go
index a9dea8428b4..97571c69eff 100644
--- a/go/arrow/tensor/tensor_test.go
+++ b/go/arrow/tensor/tensor_test.go
@@ -21,10 +21,10 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/arrow/tensor"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow/tensor"
 )
 
 func TestTensor(t *testing.T) {
diff --git a/go/arrow/type_traits_boolean.go b/go/arrow/type_traits_boolean.go
index 343ec5ff8cc..c2538a7c088 100644
--- a/go/arrow/type_traits_boolean.go
+++ b/go/arrow/type_traits_boolean.go
@@ -17,7 +17,7 @@
 package arrow
 
 import (
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
 )
 
 type booleanTraits struct{}
diff --git a/go/arrow/type_traits_decimal128.go b/go/arrow/type_traits_decimal128.go
index 23e75381832..daac45cf8a1 100644
--- a/go/arrow/type_traits_decimal128.go
+++ b/go/arrow/type_traits_decimal128.go
@@ -20,8 +20,8 @@ import (
 	"reflect"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/endian"
 )
 
 // Decimal128 traits
diff --git a/go/arrow/type_traits_decimal256.go b/go/arrow/type_traits_decimal256.go
index 15e69e96799..1d39121f952 100644
--- a/go/arrow/type_traits_decimal256.go
+++ b/go/arrow/type_traits_decimal256.go
@@ -20,8 +20,8 @@ import (
 	"reflect"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/decimal256"
-	"github.com/apache/arrow/go/v10/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/decimal256"
+	"github.com/apache/arrow/go/v11/arrow/endian"
 )
 
 // Decimal256 traits
diff --git a/go/arrow/type_traits_float16.go b/go/arrow/type_traits_float16.go
index 4408135095e..d5d75655a4e 100644
--- a/go/arrow/type_traits_float16.go
+++ b/go/arrow/type_traits_float16.go
@@ -20,8 +20,8 @@ import (
 	"reflect"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/float16"
-	"github.com/apache/arrow/go/v10/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/float16"
+	"github.com/apache/arrow/go/v11/arrow/endian"
 )
 
 // Float16 traits
diff --git a/go/arrow/type_traits_interval.go b/go/arrow/type_traits_interval.go
index 1253c501aa2..0a1791e35fd 100644
--- a/go/arrow/type_traits_interval.go
+++ b/go/arrow/type_traits_interval.go
@@ -20,8 +20,8 @@ import (
 	"reflect"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/endian"
-	"github.com/apache/arrow/go/v10/arrow/internal/debug"
+	"github.com/apache/arrow/go/v11/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/internal/debug"
 )
 
 var (
diff --git a/go/arrow/type_traits_numeric.gen.go b/go/arrow/type_traits_numeric.gen.go
index a96f537306c..8a6396cca45 100644
--- a/go/arrow/type_traits_numeric.gen.go
+++ b/go/arrow/type_traits_numeric.gen.go
@@ -23,7 +23,7 @@ import (
 	"reflect"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/endian"
 )
 
 var (
diff --git a/go/arrow/type_traits_numeric.gen.go.tmpl b/go/arrow/type_traits_numeric.gen.go.tmpl
index 290d7f33b0a..20ac54f6829 100644
--- a/go/arrow/type_traits_numeric.gen.go.tmpl
+++ b/go/arrow/type_traits_numeric.gen.go.tmpl
@@ -21,7 +21,7 @@ import (
 	"reflect"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/endian"
 )
 
 var (
diff --git a/go/arrow/type_traits_numeric.gen_test.go b/go/arrow/type_traits_numeric.gen_test.go
index 8b561b2dd7d..00a9c701e93 100644
--- a/go/arrow/type_traits_numeric.gen_test.go
+++ b/go/arrow/type_traits_numeric.gen_test.go
@@ -22,7 +22,7 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v11/arrow"
 )
 
 func TestInt64Traits(t *testing.T) {
diff --git a/go/arrow/type_traits_numeric.gen_test.go.tmpl b/go/arrow/type_traits_numeric.gen_test.go.tmpl
index aa8c0388ed7..b1d7666cd33 100644
--- a/go/arrow/type_traits_numeric.gen_test.go.tmpl
+++ b/go/arrow/type_traits_numeric.gen_test.go.tmpl
@@ -20,7 +20,7 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v11/arrow"
 )
 
 {{- range .In}}
diff --git a/go/arrow/type_traits_test.go b/go/arrow/type_traits_test.go
index 7fc5fe658f7..4dae0e251b9 100644
--- a/go/arrow/type_traits_test.go
+++ b/go/arrow/type_traits_test.go
@@ -21,9 +21,9 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/float16"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/float16"
 )
 
 func TestBooleanTraits(t *testing.T) {
diff --git a/go/go.mod b/go/go.mod
index 95a5538d0a5..e2ff7749b49 100644
--- a/go/go.mod
+++ b/go/go.mod
@@ -14,33 +14,61 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
-module github.com/apache/arrow/go/v10
+module github.com/apache/arrow/go/v11
 
-go 1.16
+go 1.18
 
 require (
 	github.com/JohnCGriffin/overflow v0.0.0-20211019200055-46fa312c352c
 	github.com/andybalholm/brotli v1.0.4
 	github.com/apache/thrift v0.16.0
 	github.com/docopt/docopt-go v0.0.0-20180111231733-ee0de3bc6815
-	github.com/goccy/go-json v0.9.10
+	github.com/goccy/go-json v0.9.11
 	github.com/golang/snappy v0.0.4
-	github.com/google/flatbuffers v2.0.6+incompatible
+	github.com/google/flatbuffers v2.0.8+incompatible
 	github.com/klauspost/asmfmt v1.3.2
 	github.com/klauspost/compress v1.15.9
-	github.com/kr/pretty v0.1.0 // indirect
 	github.com/minio/asm2plan9s v0.0.0-20200509001527-cdd76441f9d8
 	github.com/minio/c2goasm v0.0.0-20190812172519-36a3d3bbc4f3
 	github.com/pierrec/lz4/v4 v4.1.15
 	github.com/stretchr/testify v1.8.0
 	github.com/zeebo/xxh3 v1.0.2
-	golang.org/x/exp v0.0.0-20220722155223-a9213eeb770e
-	golang.org/x/sync v0.0.0-20220722155255-886fb9371eb4
-	golang.org/x/sys v0.0.0-20220804214406-8e32c043e418
+	golang.org/x/exp v0.0.0-20220827204233-334a2380cb91
+	golang.org/x/sync v0.0.0-20220819030929-7fc1605a5dde
+	golang.org/x/sys v0.0.0-20220829200755-d48e67d00261
 	golang.org/x/tools v0.1.12
 	golang.org/x/xerrors v0.0.0-20220609144429-65e65417b02f
 	gonum.org/v1/gonum v0.11.0
-	google.golang.org/grpc v1.48.0
+	google.golang.org/grpc v1.49.0
 	google.golang.org/protobuf v1.28.1
-	gopkg.in/check.v1 v1.0.0-20180628173108-788fd7840127 // indirect
+	modernc.org/sqlite v1.18.1
+)
+
+require (
+	github.com/davecgh/go-spew v1.1.1 // indirect
+	github.com/golang/protobuf v1.5.2 // indirect
+	github.com/google/uuid v1.3.0 // indirect
+	github.com/kballard/go-shellquote v0.0.0-20180428030007-95032a82bc51 // indirect
+	github.com/klauspost/cpuid/v2 v2.0.9 // indirect
+	github.com/kr/pretty v0.3.0 // indirect
+	github.com/mattn/go-isatty v0.0.16 // indirect
+	github.com/pmezard/go-difflib v1.0.0 // indirect
+	github.com/remyoudompheng/bigfft v0.0.0-20200410134404-eec4a21b6bb0 // indirect
+	github.com/rogpeppe/go-internal v1.9.0 // indirect
+	github.com/stretchr/objx v0.4.0 // indirect
+	golang.org/x/mod v0.6.0-dev.0.20220419223038-86c51ed26bb4 // indirect
+	golang.org/x/net v0.0.0-20220722155237-a158d28d115b // indirect
+	golang.org/x/text v0.3.7 // indirect
+	google.golang.org/genproto v0.0.0-20200526211855-cb27e3aa2013 // indirect
+	gopkg.in/check.v1 v1.0.0-20201130134442-10cb98267c6c // indirect
+	gopkg.in/yaml.v3 v3.0.1 // indirect
+	lukechampine.com/uint128 v1.2.0 // indirect
+	modernc.org/cc/v3 v3.36.3 // indirect
+	modernc.org/ccgo/v3 v3.16.9 // indirect
+	modernc.org/libc v1.17.1 // indirect
+	modernc.org/mathutil v1.5.0 // indirect
+	modernc.org/memory v1.2.1 // indirect
+	modernc.org/opt v0.1.3 // indirect
+	modernc.org/strutil v1.1.3 // indirect
+	modernc.org/token v1.0.0 // indirect
 )
diff --git a/go/go.sum b/go/go.sum
index 7653c2cc1b9..81db210a168 100644
--- a/go/go.sum
+++ b/go/go.sum
@@ -1,235 +1,144 @@
 cloud.google.com/go v0.26.0/go.mod h1:aQUYkXzVsufM+DwF1aE+0xfcU+56JwCaLick0ClmMTw=
-cloud.google.com/go v0.34.0/go.mod h1:aQUYkXzVsufM+DwF1aE+0xfcU+56JwCaLick0ClmMTw=
-dmitri.shuralyov.com/gpu/mtl v0.0.0-20190408044501-666a987793e9/go.mod h1:H6x//7gZCb22OMCxBHrMx7a5I7Hp++hsVxbQ4BYO7hU=
-gioui.org v0.0.0-20210308172011-57750fc8a0a6/go.mod h1:RSH6KIUZ0p2xy5zHDxgAM4zumjgTw83q2ge/PI+yyw8=
-git.sr.ht/~sbinet/gg v0.3.1/go.mod h1:KGYtlADtqsqANL9ueOFkWymvzUvLMQllU5Ixo+8v3pc=
 github.com/BurntSushi/toml v0.3.1/go.mod h1:xHWCNGjB5oqiDr8zfno3MHue2Ht5sIBksp03qcyfWMU=
-github.com/BurntSushi/xgb v0.0.0-20160522181843-27f122750802/go.mod h1:IVnqGOEym/WlBOVXweHU+Q+/VP0lqqI8lqeDx9IjBqo=
 github.com/JohnCGriffin/overflow v0.0.0-20211019200055-46fa312c352c h1:RGWPOewvKIROun94nF7v2cua9qP+thov/7M50KEoeSU=
 github.com/JohnCGriffin/overflow v0.0.0-20211019200055-46fa312c352c/go.mod h1:X0CRv0ky0k6m906ixxpzmDRLvX58TFUKS2eePweuyxk=
-github.com/ajstarks/deck v0.0.0-20200831202436-30c9fc6549a9/go.mod h1:JynElWSGnm/4RlzPXRlREEwqTHAN3T56Bv2ITsFT3gY=
-github.com/ajstarks/deck/generate v0.0.0-20210309230005-c3f852c02e19/go.mod h1:T13YZdzov6OU0A1+RfKZiZN9ca6VeKdBdyDV+BY97Tk=
-github.com/ajstarks/svgo v0.0.0-20180226025133-644b8db467af/go.mod h1:K08gAheRH3/J6wwsYMMT4xOr94bZjxIelGM0+d/wbFw=
-github.com/ajstarks/svgo v0.0.0-20211024235047-1546f124cd8b/go.mod h1:1KcenG0jGWcpt8ov532z81sp/kMMUG485J2InIOyADM=
 github.com/andybalholm/brotli v1.0.4 h1:V7DdXeJtZscaqfNuAdSRuRFzuiKlHSC/Zh3zl9qY3JY=
 github.com/andybalholm/brotli v1.0.4/go.mod h1:fO7iG3H7G2nSZ7m0zPUDn85XEX2GTukHGRSepvi9Eig=
-github.com/antihax/optional v1.0.0/go.mod h1:uupD/76wgC+ih3iEmQUL+0Ugr19nfwCT1kdvxnR2qWY=
 github.com/apache/thrift v0.16.0 h1:qEy6UW60iVOlUy+b9ZR0d5WzUWYGOo4HfopoyBaNmoY=
 github.com/apache/thrift v0.16.0/go.mod h1:PHK3hniurgQaNMZYaCLEqXKsYK8upmhPbmdP2FXSqgU=
-github.com/boombuler/barcode v1.0.0/go.mod h1:paBWMcWSl3LHKBqUq+rly7CNSldXjb2rDl3JlRe0mD8=
-github.com/boombuler/barcode v1.0.1/go.mod h1:paBWMcWSl3LHKBqUq+rly7CNSldXjb2rDl3JlRe0mD8=
 github.com/census-instrumentation/opencensus-proto v0.2.1/go.mod h1:f6KPmirojxKA12rnyqOA5BBL4O983OfeGPqjHWSTneU=
-github.com/cespare/xxhash/v2 v2.1.1/go.mod h1:VGX0DQ3Q6kWi7AoAeZDth3/j3BFtOZR5XLFGgcrjCOs=
 github.com/client9/misspell v0.3.4/go.mod h1:qj6jICC3Q7zFZvVWo7KLAzC3yx5G7kyvSDkc90ppPyw=
-github.com/cncf/udpa/go v0.0.0-20191209042840-269d4d468f6f/go.mod h1:M8M6+tZqaGXZJjfX53e64911xZQV5JYwmTeXPW+k8Sc=
-github.com/cncf/udpa/go v0.0.0-20201120205902-5459f2c99403/go.mod h1:WmhPx2Nbnhtbo57+VJT5O0JRkEi1Wbu0z5j0R8u5Hbk=
-github.com/cncf/udpa/go v0.0.0-20210930031921-04548b0d99d4/go.mod h1:6pvJx4me5XPnfI9Z40ddWsdw2W/uZgQLFXToKeRcDiI=
-github.com/cncf/xds/go v0.0.0-20210922020428-25de7278fc84/go.mod h1:eXthEFrGJvWHgFFCl3hGmgk+/aYT6PnTQLykKQRLhEs=
-github.com/cncf/xds/go v0.0.0-20211001041855-01bcc9b48dfe/go.mod h1:eXthEFrGJvWHgFFCl3hGmgk+/aYT6PnTQLykKQRLhEs=
-github.com/cncf/xds/go v0.0.0-20211011173535-cb28da3451f1/go.mod h1:eXthEFrGJvWHgFFCl3hGmgk+/aYT6PnTQLykKQRLhEs=
+github.com/creack/pty v1.1.9/go.mod h1:oKZEueFk5CKHvIhNR5MUki03XCEU+Q6VDXinZuGJ33E=
 github.com/davecgh/go-spew v1.1.0/go.mod h1:J7Y8YcW2NihsgmVo/mv3lAwl/skON4iLHjSsI+c5H38=
 github.com/davecgh/go-spew v1.1.1 h1:vj9j/u1bqnvCEfJOwUhtlOARqs3+rkHYY13jYWTU97c=
 github.com/davecgh/go-spew v1.1.1/go.mod h1:J7Y8YcW2NihsgmVo/mv3lAwl/skON4iLHjSsI+c5H38=
 github.com/docopt/docopt-go v0.0.0-20180111231733-ee0de3bc6815 h1:bWDMxwH3px2JBh6AyO7hdCn/PkvCZXii8TGj7sbtEbQ=
 github.com/docopt/docopt-go v0.0.0-20180111231733-ee0de3bc6815/go.mod h1:WwZ+bS3ebgob9U8Nd0kOddGdZWjyMGR8Wziv+TBNwSE=
-github.com/envoyproxy/go-control-plane v0.9.0/go.mod h1:YTl/9mNaCwkRvm6d1a2C3ymFceY/DCBVvsKhRF0iEA4=
+github.com/dustin/go-humanize v1.0.0 h1:VSnTsYCnlFHaM2/igO1h6X3HA71jcobQuxemgkq4zYo=
+github.com/dustin/go-humanize v1.0.0/go.mod h1:HtrtbFcZ19U5GC7JDqmcUSB87Iq5E25KnS6fMYU6eOk=
 github.com/envoyproxy/go-control-plane v0.9.1-0.20191026205805-5f8ba28d4473/go.mod h1:YTl/9mNaCwkRvm6d1a2C3ymFceY/DCBVvsKhRF0iEA4=
-github.com/envoyproxy/go-control-plane v0.9.4/go.mod h1:6rpuAdCZL397s3pYoYcLgu1mIlRU8Am5FuJP05cCM98=
-github.com/envoyproxy/go-control-plane v0.9.9-0.20201210154907-fd9021fe5dad/go.mod h1:cXg6YxExXjJnVBQHBLXeUAgxn2UodCpnH306RInaBQk=
-github.com/envoyproxy/go-control-plane v0.10.2-0.20220325020618-49ff273808a1/go.mod h1:KJwIaB5Mv44NWtYuAOFCVOjcI94vtpEz2JU/D2v6IjE=
 github.com/envoyproxy/protoc-gen-validate v0.1.0/go.mod h1:iSmxcyjqTsJpI2R4NaDN7+kN2VEUnK/pcBlmesArF7c=
-github.com/fogleman/gg v1.2.1-0.20190220221249-0403632d5b90/go.mod h1:R/bRT+9gY/C5z7JzPU0zXsXHKM4/ayA+zqcVNZzPa1k=
-github.com/fogleman/gg v1.3.0/go.mod h1:R/bRT+9gY/C5z7JzPU0zXsXHKM4/ayA+zqcVNZzPa1k=
-github.com/ghodss/yaml v1.0.0/go.mod h1:4dBDuWmgqj2HViK6kFavaiC9ZROes6MMH2rRYeMEF04=
-github.com/go-fonts/dejavu v0.1.0/go.mod h1:4Wt4I4OU2Nq9asgDCteaAaWZOV24E+0/Pwo0gppep4g=
-github.com/go-fonts/latin-modern v0.2.0/go.mod h1:rQVLdDMK+mK1xscDwsqM5J8U2jrRa3T0ecnM9pNujks=
-github.com/go-fonts/liberation v0.1.1/go.mod h1:K6qoJYypsmfVjWg8KOVDQhLc8UDgIK2HYqyqAO9z7GY=
-github.com/go-fonts/liberation v0.2.0/go.mod h1:K6qoJYypsmfVjWg8KOVDQhLc8UDgIK2HYqyqAO9z7GY=
-github.com/go-fonts/stix v0.1.0/go.mod h1:w/c1f0ldAUlJmLBvlbkvVXLAD+tAMqobIIQpmnUIzUY=
-github.com/go-gl/glfw v0.0.0-20190409004039-e6da0acd62b1/go.mod h1:vR7hzQXu2zJy9AVAgeJqvqgH9Q5CA+iKCZ2gyEVpxRU=
-github.com/go-latex/latex v0.0.0-20210118124228-b3d85cf34e07/go.mod h1:CO1AlKB2CSIqUrmQPqA0gdRIlnLEY0gK5JGjh37zN5U=
-github.com/go-latex/latex v0.0.0-20210823091927-c0d11ff05a81/go.mod h1:SX0U8uGpxhq9o2S/CELCSUxEWWAuoCUcVCQWv7G2OCk=
-github.com/go-pdf/fpdf v0.5.0/go.mod h1:HzcnA+A23uwogo0tp9yU+l3V+KXhiESpt1PMayhOh5M=
-github.com/go-pdf/fpdf v0.6.0/go.mod h1:HzcnA+A23uwogo0tp9yU+l3V+KXhiESpt1PMayhOh5M=
-github.com/goccy/go-json v0.9.10 h1:hCeNmprSNLB8B8vQKWl6DpuH0t60oEs+TAk9a7CScKc=
-github.com/goccy/go-json v0.9.10/go.mod h1:6MelG93GURQebXPDq3khkgXZkazVtN9CRI+MGFi0w8I=
-github.com/golang/freetype v0.0.0-20170609003504-e2365dfdc4a0/go.mod h1:E/TSTwGwJL78qG/PmXZO1EjYhfJinVAhrmmHX6Z8B9k=
+github.com/goccy/go-json v0.9.11 h1:/pAaQDLHEoCq/5FFmSKBswWmK6H0e8g4159Kc/X/nqk=
+github.com/goccy/go-json v0.9.11/go.mod h1:6MelG93GURQebXPDq3khkgXZkazVtN9CRI+MGFi0w8I=
 github.com/golang/glog v0.0.0-20160126235308-23def4e6c14b/go.mod h1:SBH7ygxi8pfUlaOkMMuAQtPIUF8ecWP5IEl/CR7VP2Q=
 github.com/golang/mock v1.1.1/go.mod h1:oTYuIxOrZwtPieC+H1uAHpcLFnEyAGVDL/k47Jfbm0A=
 github.com/golang/mock v1.5.0/go.mod h1:CWnOUgYIOo4TcNZ0wHX3YZCqsaM1I1Jvs6v3mP3KVu8=
 github.com/golang/protobuf v1.2.0/go.mod h1:6lQm79b+lXiMfvg/cZm0SGofjICqVBUtrP5yJMmIC1U=
 github.com/golang/protobuf v1.3.2/go.mod h1:6lQm79b+lXiMfvg/cZm0SGofjICqVBUtrP5yJMmIC1U=
-github.com/golang/protobuf v1.3.3/go.mod h1:vzj43D7+SQXF/4pzW/hwtAqwc6iTitCiVSaWz5lYuqw=
 github.com/golang/protobuf v1.4.0-rc.1/go.mod h1:ceaxUfeHdC40wWswd/P6IGgMaK3YpKi5j83Wpe3EHw8=
 github.com/golang/protobuf v1.4.0-rc.1.0.20200221234624-67d41d38c208/go.mod h1:xKAWHe0F5eneWXFV3EuXVDTCmh+JuBKY0li0aMyXATA=
 github.com/golang/protobuf v1.4.0-rc.2/go.mod h1:LlEzMj4AhA7rCAGe4KMBDvJI+AwstrUpVNzEA03Pprs=
 github.com/golang/protobuf v1.4.0-rc.4.0.20200313231945-b860323f09d0/go.mod h1:WU3c8KckQ9AFe+yFwt9sWVRKCVIyN9cPHBJSNnbL67w=
 github.com/golang/protobuf v1.4.0/go.mod h1:jodUvKwWbYaEsadDk5Fwe5c77LiNKVO9IDvqG2KuDX0=
 github.com/golang/protobuf v1.4.1/go.mod h1:U8fpvMrcmy5pZrNK1lt4xCsGvpyWQ/VVv6QDs8UjoX8=
-github.com/golang/protobuf v1.4.2/go.mod h1:oDoupMAO8OvCJWAcko0GGGIgR6R6ocIYbsSw735rRwI=
-github.com/golang/protobuf v1.4.3/go.mod h1:oDoupMAO8OvCJWAcko0GGGIgR6R6ocIYbsSw735rRwI=
 github.com/golang/protobuf v1.5.0/go.mod h1:FsONVRAS9T7sI+LIUmWTfcYkHO4aIWwzhcaSAoJOfIk=
 github.com/golang/protobuf v1.5.2 h1:ROPKBNFfQgOUMifHyP+KYbvpjbdoFNs+aK7DXlji0Tw=
 github.com/golang/protobuf v1.5.2/go.mod h1:XVQd3VNwM+JqD3oG2Ue2ip4fOMUkwXdXDdiuN0vRsmY=
 github.com/golang/snappy v0.0.4 h1:yAGX7huGHXlcLOEtBnF4w7FQwA26wojNCwOYAEhLjQM=
 github.com/golang/snappy v0.0.4/go.mod h1:/XxbfmMg8lxefKM7IXC3fBNl/7bRcc72aCRzEWrmP2Q=
-github.com/google/flatbuffers v2.0.6+incompatible h1:XHFReMv7nFFusa+CEokzWbzaYocKXI6C7hdU5Kgh9Lw=
-github.com/google/flatbuffers v2.0.6+incompatible/go.mod h1:1AeVuKshWv4vARoZatz6mlQ0JxURH0Kv5+zNeJKJCa8=
+github.com/google/flatbuffers v2.0.8+incompatible h1:ivUb1cGomAB101ZM1T0nOiWz9pSrTMoa9+EiY7igmkM=
+github.com/google/flatbuffers v2.0.8+incompatible/go.mod h1:1AeVuKshWv4vARoZatz6mlQ0JxURH0Kv5+zNeJKJCa8=
 github.com/google/go-cmp v0.2.0/go.mod h1:oXzfMopK8JAjlY9xF4vHSVASa0yLyX7SntLO5aqRK0M=
 github.com/google/go-cmp v0.3.0/go.mod h1:8QqcDgzrUqlUb/G2PQTWiueGozuR1884gddMywk6iLU=
 github.com/google/go-cmp v0.3.1/go.mod h1:8QqcDgzrUqlUb/G2PQTWiueGozuR1884gddMywk6iLU=
 github.com/google/go-cmp v0.4.0/go.mod h1:v8dTdLbMG2kIc/vJvl+f65V22dbkXbowE6jgT/gNBxE=
-github.com/google/go-cmp v0.5.0/go.mod h1:v8dTdLbMG2kIc/vJvl+f65V22dbkXbowE6jgT/gNBxE=
+github.com/google/go-cmp v0.5.3/go.mod h1:v8dTdLbMG2kIc/vJvl+f65V22dbkXbowE6jgT/gNBxE=
 github.com/google/go-cmp v0.5.5/go.mod h1:v8dTdLbMG2kIc/vJvl+f65V22dbkXbowE6jgT/gNBxE=
-github.com/google/go-cmp v0.5.6/go.mod h1:v8dTdLbMG2kIc/vJvl+f65V22dbkXbowE6jgT/gNBxE=
-github.com/google/go-cmp v0.5.7/go.mod h1:n+brtR0CgQNWTVd5ZUFpTBC8YFBDLK/h/bpaJ8/DtOE=
 github.com/google/go-cmp v0.5.8 h1:e6P7q2lk1O+qJJb4BtCQXlK8vWEO8V1ZeuEdJNOqZyg=
-github.com/google/go-cmp v0.5.8/go.mod h1:17dUlkBOakJ0+DkrSSNjCkIjxS6bF9zb3elmeNGIjoY=
-github.com/google/uuid v1.1.2/go.mod h1:TIyPZe4MgqvfeYDBFedMoGGpEw/LqOeaOT+nhxU+yHo=
-github.com/grpc-ecosystem/grpc-gateway v1.16.0/go.mod h1:BDjrQk3hbvj6Nolgz8mAMFbcEtjT1g+wF4CSlocrBnw=
-github.com/jung-kurt/gofpdf v1.0.0/go.mod h1:7Id9E/uU8ce6rXgefFLlgrJj/GYY22cpxn+r32jIOes=
-github.com/jung-kurt/gofpdf v1.0.3-0.20190309125859-24315acbbda5/go.mod h1:7Id9E/uU8ce6rXgefFLlgrJj/GYY22cpxn+r32jIOes=
-github.com/kisielk/gotool v1.0.0/go.mod h1:XhKaO+MFFWcvkIS/tQcRk01m1F5IRFswLeQ+oQHNcck=
+github.com/google/uuid v1.3.0 h1:t6JiXgmwXMjEs8VusXIJk2BXHsn+wx8BZdTaoZ5fu7I=
+github.com/google/uuid v1.3.0/go.mod h1:TIyPZe4MgqvfeYDBFedMoGGpEw/LqOeaOT+nhxU+yHo=
+github.com/kballard/go-shellquote v0.0.0-20180428030007-95032a82bc51 h1:Z9n2FFNUXsshfwJMBgNA0RU6/i7WVaAegv3PtuIHPMs=
+github.com/kballard/go-shellquote v0.0.0-20180428030007-95032a82bc51/go.mod h1:CzGEWj7cYgsdH8dAjBGEr58BoE7ScuLd+fwFZ44+/x8=
 github.com/klauspost/asmfmt v1.3.2 h1:4Ri7ox3EwapiOjCki+hw14RyKk201CN4rzyCJRFLpK4=
 github.com/klauspost/asmfmt v1.3.2/go.mod h1:AG8TuvYojzulgDAMCnYn50l/5QV3Bs/tp6j0HLHbNSE=
 github.com/klauspost/compress v1.15.9 h1:wKRjX6JRtDdrE9qwa4b/Cip7ACOshUI4smpCQanqjSY=
 github.com/klauspost/compress v1.15.9/go.mod h1:PhcZ0MbTNciWF3rruxRgKxI5NkcHHrHUDtV4Yw2GlzU=
 github.com/klauspost/cpuid/v2 v2.0.9 h1:lgaqFMSdTdQYdZ04uHyN2d/eKdOMyi2YLSvlQIBFYa4=
 github.com/klauspost/cpuid/v2 v2.0.9/go.mod h1:FInQzS24/EEf25PyTYn52gqo7WaD8xa0213Md/qVLRg=
-github.com/kr/pretty v0.1.0 h1:L/CwN0zerZDmRFUapSPitk6f+Q3+0za1rQkzVuMiMFI=
 github.com/kr/pretty v0.1.0/go.mod h1:dAy3ld7l9f0ibDNOQOHHMYYIIbhfbHSm3C4ZsoJORNo=
+github.com/kr/pretty v0.2.1/go.mod h1:ipq/a2n7PKx3OHsz4KJII5eveXtPO4qwEXGdVfWzfnI=
+github.com/kr/pretty v0.3.0 h1:WgNl7dwNpEZ6jJ9k1snq4pZsg7DOEN8hP9Xw0Tsjwk0=
+github.com/kr/pretty v0.3.0/go.mod h1:640gp4NfQd8pI5XOwp5fnNeVWj67G7CFk/SaSQn7NBk=
 github.com/kr/pty v1.1.1/go.mod h1:pFQYn66WHrOpPYNljwOMqo10TkYh1fy3cYio2l3bCsQ=
-github.com/kr/text v0.1.0 h1:45sCR5RtlFHMR4UwH9sdQ5TC8v0qDQCHnXt+kaKSTVE=
 github.com/kr/text v0.1.0/go.mod h1:4Jbv+DJW3UT/LiOwJeYQe1efqtUx/iVham/4vfdArNI=
+github.com/kr/text v0.2.0 h1:5Nx0Ya0ZqY2ygV366QzturHI13Jq95ApcVaJBhpS+AY=
+github.com/kr/text v0.2.0/go.mod h1:eLer722TekiGuMkidMxC/pM04lWEeraHUUmBw8l2grE=
+github.com/mattn/go-isatty v0.0.12/go.mod h1:cbi8OIDigv2wuxKPP5vlRcQ1OAZbq2CE4Kysco4FUpU=
+github.com/mattn/go-isatty v0.0.16 h1:bq3VjFmv/sOjHtdEhmkEV4x1AJtvUvOJ2PFAZ5+peKQ=
+github.com/mattn/go-isatty v0.0.16/go.mod h1:kYGgaQfpe5nmfYZH+SKPsOc2e4SrIfOl2e/yFXSvRLM=
+github.com/mattn/go-sqlite3 v1.14.14 h1:qZgc/Rwetq+MtyE18WhzjokPD93dNqLGNT3QJuLvBGw=
 github.com/minio/asm2plan9s v0.0.0-20200509001527-cdd76441f9d8 h1:AMFGa4R4MiIpspGNG7Z948v4n35fFGB3RR3G/ry4FWs=
 github.com/minio/asm2plan9s v0.0.0-20200509001527-cdd76441f9d8/go.mod h1:mC1jAcsrzbxHt8iiaC+zU4b1ylILSosueou12R++wfY=
 github.com/minio/c2goasm v0.0.0-20190812172519-36a3d3bbc4f3 h1:+n/aFZefKZp7spd8DFdX7uMikMLXX4oubIzJF4kv/wI=
 github.com/minio/c2goasm v0.0.0-20190812172519-36a3d3bbc4f3/go.mod h1:RagcQ7I8IeTMnF8JTXieKnO4Z6JCsikNEzj0DwauVzE=
-github.com/phpdave11/gofpdf v1.4.2/go.mod h1:zpO6xFn9yxo3YLyMvW8HcKWVdbNqgIfOOp2dXMnm1mY=
-github.com/phpdave11/gofpdi v1.0.12/go.mod h1:vBmVV0Do6hSBHC8uKUQ71JGW+ZGQq74llk/7bXwjDoI=
-github.com/phpdave11/gofpdi v1.0.13/go.mod h1:vBmVV0Do6hSBHC8uKUQ71JGW+ZGQq74llk/7bXwjDoI=
 github.com/pierrec/lz4/v4 v4.1.15 h1:MO0/ucJhngq7299dKLwIMtgTfbkoSPF6AoMYDd8Q4q0=
 github.com/pierrec/lz4/v4 v4.1.15/go.mod h1:gZWDp/Ze/IJXGXf23ltt2EXimqmTUXEy0GFuRQyBid4=
-github.com/pkg/errors v0.8.1/go.mod h1:bwawxfHBFNV+L2hUp1rHADufV3IMtnDRdf1r5NINEl0=
-github.com/pkg/errors v0.9.1/go.mod h1:bwawxfHBFNV+L2hUp1rHADufV3IMtnDRdf1r5NINEl0=
 github.com/pmezard/go-difflib v1.0.0 h1:4DBwDE0NGyQoBHbLQYPwSUPoCMWR5BEzIk/f1lZbAQM=
 github.com/pmezard/go-difflib v1.0.0/go.mod h1:iKH77koFhYxTK1pcRnkKkqfTogsbg7gZNVY4sRDYZ/4=
 github.com/prometheus/client_model v0.0.0-20190812154241-14fe0d1b01d4/go.mod h1:xMI15A0UPsDsEKsMN9yxemIoYk6Tm2C1GtYGdfGttqA=
-github.com/rogpeppe/fastuuid v1.2.0/go.mod h1:jVj6XXZzXRy/MSR5jhDC/2q6DgLz+nrA6LYCDYWNEvQ=
-github.com/ruudk/golang-pdf417 v0.0.0-20181029194003-1af4ab5afa58/go.mod h1:6lfFZQK844Gfx8o5WFuvpxWRwnSoipWe/p622j1v06w=
-github.com/ruudk/golang-pdf417 v0.0.0-20201230142125-a7e3863a1245/go.mod h1:pQAZKsJ8yyVxGRWYNEm9oFB8ieLgKFnamEyDmSA0BRk=
+github.com/remyoudompheng/bigfft v0.0.0-20200410134404-eec4a21b6bb0 h1:OdAsTTz6OkFY5QxjkYwrChwuRruF69c169dPK26NUlk=
+github.com/remyoudompheng/bigfft v0.0.0-20200410134404-eec4a21b6bb0/go.mod h1:qqbHyh8v60DhA7CoWK5oRCqLrMHRGoxYCSS9EjAz6Eo=
+github.com/rogpeppe/go-internal v1.6.1/go.mod h1:xXDCJY+GAPziupqXw64V24skbSoqbTEfhy4qGm1nDQc=
+github.com/rogpeppe/go-internal v1.9.0 h1:73kH8U+JUqXU8lRuOHeVHaa/SZPifC7BkcraZVejAe8=
+github.com/rogpeppe/go-internal v1.9.0/go.mod h1:WtVeX8xhTBvf0smdhujwtBcq4Qrzq/fJaraNFVN+nFs=
 github.com/stretchr/objx v0.1.0/go.mod h1:HFkY916IF+rwdDfMAkV7OtwuqBVzrE8GR6GFx+wExME=
 github.com/stretchr/objx v0.4.0 h1:M2gUjqZET1qApGOWNSnZ49BAIMX4F/1plDv3+l31EJ4=
 github.com/stretchr/objx v0.4.0/go.mod h1:YvHI0jy2hoMjB+UWwv71VJQ9isScKT/TqJzVSSt89Yw=
-github.com/stretchr/testify v1.2.2/go.mod h1:a8OnRcib4nhh0OaRAV+Yts87kKdq0PP7pXfy6kDkUVs=
-github.com/stretchr/testify v1.5.1/go.mod h1:5W2xD1RspED5o8YsWQXVCued0rvSQ+mT+I5cxcmMvtA=
-github.com/stretchr/testify v1.7.0/go.mod h1:6Fq8oRcR53rry900zMqJjRRixrwX3KX962/h/Wwjteg=
 github.com/stretchr/testify v1.7.1/go.mod h1:6Fq8oRcR53rry900zMqJjRRixrwX3KX962/h/Wwjteg=
 github.com/stretchr/testify v1.8.0 h1:pSgiaMZlXftHpm5L7V1+rVB+AZJydKsMxsQBIJw4PKk=
 github.com/stretchr/testify v1.8.0/go.mod h1:yNjHg4UonilssWZ8iaSj1OCr/vHnekPRkoO+kdMU+MU=
 github.com/yuin/goldmark v1.2.1/go.mod h1:3hX8gzYuyVAZsxl0MRgGTJEmQBFcNTphYh9decYSb74=
-github.com/yuin/goldmark v1.4.1/go.mod h1:mwnBkeHKe2W/ZEtQ+71ViKU8L12m81fl3OWwC1Zlc8k=
-github.com/yuin/goldmark v1.4.13/go.mod h1:6yULJ656Px+3vBD8DxQVa3kxgyrAnzto9xy5taEt/CY=
 github.com/zeebo/assert v1.3.0 h1:g7C04CbJuIDKNPFHmsk4hwZDO5O+kntRxzaUoNXj+IQ=
-github.com/zeebo/assert v1.3.0/go.mod h1:Pq9JiuJQpG8JLJdtkwrJESF0Foym2/D9XMU5ciN/wJ0=
 github.com/zeebo/xxh3 v1.0.2 h1:xZmwmqxHZA8AI603jOQ0tMqmBr9lPeFwGg6d+xy9DC0=
 github.com/zeebo/xxh3 v1.0.2/go.mod h1:5NWz9Sef7zIDm2JHfFlcQvNekmcEl9ekUZQQKCYaDcA=
-go.opentelemetry.io/proto/otlp v0.7.0/go.mod h1:PqfVotwruBrMGOCsRd/89rSnXhoiJIqeYNgFYFoEGnI=
 golang.org/x/crypto v0.0.0-20190308221718-c2843e01d9a2/go.mod h1:djNgcEr1/C05ACkg1iLfiJU5Ep61QUkGW8qpdssI0+w=
-golang.org/x/crypto v0.0.0-20190510104115-cbcb75029529/go.mod h1:yigFU9vqHzYiE8UmvKecakEJjdnWj3jj499lnFckfCI=
 golang.org/x/crypto v0.0.0-20191011191535-87dc89f01550/go.mod h1:yigFU9vqHzYiE8UmvKecakEJjdnWj3jj499lnFckfCI=
 golang.org/x/crypto v0.0.0-20200622213623-75b288015ac9/go.mod h1:LzIPMQfyMNhhGPhUkYOs5KpL4U8rLKemX1yGLhDgUto=
-golang.org/x/crypto v0.0.0-20210921155107-089bfa567519/go.mod h1:GvvjBRRGRdwPK5ydBHafDWAxML/pGHZbMvKqRZ5+Abc=
-golang.org/x/exp v0.0.0-20180321215751-8460e604b9de/go.mod h1:CJ0aWSM057203Lf6IL+f9T1iT9GByDxfZKAQTCR3kQA=
-golang.org/x/exp v0.0.0-20180807140117-3d87b88a115f/go.mod h1:CJ0aWSM057203Lf6IL+f9T1iT9GByDxfZKAQTCR3kQA=
 golang.org/x/exp v0.0.0-20190121172915-509febef88a4/go.mod h1:CJ0aWSM057203Lf6IL+f9T1iT9GByDxfZKAQTCR3kQA=
-golang.org/x/exp v0.0.0-20190125153040-c74c464bbbf2/go.mod h1:CJ0aWSM057203Lf6IL+f9T1iT9GByDxfZKAQTCR3kQA=
-golang.org/x/exp v0.0.0-20190306152737-a1d7652674e8/go.mod h1:CJ0aWSM057203Lf6IL+f9T1iT9GByDxfZKAQTCR3kQA=
-golang.org/x/exp v0.0.0-20191002040644-a1355ae1e2c3/go.mod h1:NOZ3BPKG0ec/BKJQgnvsSFpcKLM5xXVWnvZS97DWHgE=
-golang.org/x/exp v0.0.0-20220722155223-a9213eeb770e h1:+WEEuIdZHnUeJJmEUjyYC2gfUMj69yZXw17EnHg/otA=
-golang.org/x/exp v0.0.0-20220722155223-a9213eeb770e/go.mod h1:Kr81I6Kryrl9sr8s2FK3vxD90NdsKWRuOIl2O4CvYbA=
-golang.org/x/image v0.0.0-20180708004352-c73c2afc3b81/go.mod h1:ux5Hcp/YLpHSI86hEcLt0YII63i6oz57MZXIpbrjZUs=
-golang.org/x/image v0.0.0-20190227222117-0694c2d4d067/go.mod h1:kZ7UVZpmo3dzQBMxlp+ypCbDeSB+sBbTgSJuh5dn5js=
-golang.org/x/image v0.0.0-20190802002840-cff245a6509b/go.mod h1:FeLwcggjj3mMvU+oOTbSwawSJRM1uh48EjtB4UJZlP0=
-golang.org/x/image v0.0.0-20190910094157-69e4b8554b2a/go.mod h1:FeLwcggjj3mMvU+oOTbSwawSJRM1uh48EjtB4UJZlP0=
-golang.org/x/image v0.0.0-20200119044424-58c23975cae1/go.mod h1:FeLwcggjj3mMvU+oOTbSwawSJRM1uh48EjtB4UJZlP0=
-golang.org/x/image v0.0.0-20200430140353-33d19683fad8/go.mod h1:FeLwcggjj3mMvU+oOTbSwawSJRM1uh48EjtB4UJZlP0=
-golang.org/x/image v0.0.0-20200618115811-c13761719519/go.mod h1:FeLwcggjj3mMvU+oOTbSwawSJRM1uh48EjtB4UJZlP0=
-golang.org/x/image v0.0.0-20201208152932-35266b937fa6/go.mod h1:FeLwcggjj3mMvU+oOTbSwawSJRM1uh48EjtB4UJZlP0=
-golang.org/x/image v0.0.0-20210216034530-4410531fe030/go.mod h1:FeLwcggjj3mMvU+oOTbSwawSJRM1uh48EjtB4UJZlP0=
-golang.org/x/image v0.0.0-20210607152325-775e3b0c77b9/go.mod h1:023OzeP/+EPmXeapQh35lcL3II3LrY8Ic+EFFKVhULM=
-golang.org/x/image v0.0.0-20210628002857-a66eb6448b8d/go.mod h1:023OzeP/+EPmXeapQh35lcL3II3LrY8Ic+EFFKVhULM=
-golang.org/x/image v0.0.0-20211028202545-6944b10bf410/go.mod h1:023OzeP/+EPmXeapQh35lcL3II3LrY8Ic+EFFKVhULM=
-golang.org/x/image v0.0.0-20220302094943-723b81ca9867/go.mod h1:023OzeP/+EPmXeapQh35lcL3II3LrY8Ic+EFFKVhULM=
+golang.org/x/exp v0.0.0-20220827204233-334a2380cb91 h1:tnebWN09GYg9OLPss1KXj8txwZc6X6uMr6VFdcGNbHw=
+golang.org/x/exp v0.0.0-20220827204233-334a2380cb91/go.mod h1:cyybsKvd6eL0RnXn6p/Grxp8F5bW7iYuBgsNCOHpMYE=
 golang.org/x/lint v0.0.0-20181026193005-c67002cb31c3/go.mod h1:UVdnD1Gm6xHRNCYTkRU2/jEulfH38KcIWyp/GAMgvoE=
 golang.org/x/lint v0.0.0-20190227174305-5b3e6a55c961/go.mod h1:wehouNa3lNwaWXcvxsM5YxQ5yQlVC4a0KAMCusXpPoU=
 golang.org/x/lint v0.0.0-20190313153728-d0100b6bd8b3/go.mod h1:6SW0HCj/g11FgYtHlgUYUwCkIfeOF89ocIRzGO/8vkc=
-golang.org/x/mobile v0.0.0-20190719004257-d2bd2a29d028/go.mod h1:E/iHnbuqvinMTCcRqshq8CkpyQDoeVncDDYHnLhea+o=
-golang.org/x/mod v0.1.0/go.mod h1:0QHyrYULN0/3qlju5TqG8bIK38QM8yzMo5ekMj3DlcY=
 golang.org/x/mod v0.3.0/go.mod h1:s0Qsj1ACt9ePp/hMypM3fl4fZqREWJwdYDEqhRiZZUA=
-golang.org/x/mod v0.5.1/go.mod h1:5OXOZSfqPIIbmVBIIKWRFfZjPR0E5r58TLhUjH0a2Ro=
-golang.org/x/mod v0.6.0-dev.0.20220106191415-9b9b3d81d5e3/go.mod h1:3p9vT2HGsQu2K1YbXdKPJLVgG5VJdoTa1poYQBtP1AY=
 golang.org/x/mod v0.6.0-dev.0.20220419223038-86c51ed26bb4 h1:6zppjxzCulZykYSLyVDYbneBfbaBIQPYMevg0bEwv2s=
 golang.org/x/mod v0.6.0-dev.0.20220419223038-86c51ed26bb4/go.mod h1:jJ57K6gSWd91VN4djpZkiMVwK6gcyfeH4XE8wZrZaV4=
 golang.org/x/net v0.0.0-20180724234803-3673e40ba225/go.mod h1:mL1N/T3taQHkDXs73rZJwtUhF3w3ftmwwsq0BUmARs4=
 golang.org/x/net v0.0.0-20180826012351-8a410e7b638d/go.mod h1:mL1N/T3taQHkDXs73rZJwtUhF3w3ftmwwsq0BUmARs4=
-golang.org/x/net v0.0.0-20190108225652-1e06a53dbb7e/go.mod h1:mL1N/T3taQHkDXs73rZJwtUhF3w3ftmwwsq0BUmARs4=
 golang.org/x/net v0.0.0-20190213061140-3a22650c66bd/go.mod h1:mL1N/T3taQHkDXs73rZJwtUhF3w3ftmwwsq0BUmARs4=
 golang.org/x/net v0.0.0-20190311183353-d8887717615a/go.mod h1:t9HGtf8HONx5eT2rtn7q6eTqICYqUVnKs3thJo3Qplg=
 golang.org/x/net v0.0.0-20190404232315-eb5bcb51f2a3/go.mod h1:t9HGtf8HONx5eT2rtn7q6eTqICYqUVnKs3thJo3Qplg=
 golang.org/x/net v0.0.0-20190620200207-3b0461eec859/go.mod h1:z5CRVTTTmAJ677TzLLGU+0bjPO0LkuOLi4/5GtJWs/s=
-golang.org/x/net v0.0.0-20200822124328-c89045814202/go.mod h1:/O7V0waA8r7cgGh81Ro3o1hOxt32SMVPicZroKQ2sZA=
 golang.org/x/net v0.0.0-20201021035429-f5854403a974/go.mod h1:sp8m0HH+o8qH0wwXwYZr8TS3Oi6o0r6Gce1SSxlDquU=
-golang.org/x/net v0.0.0-20210226172049-e18ecbb05110/go.mod h1:m0MpNAwzfU5UDzcl9v0D8zg8gWTRqZa9RBIspLL5mdg=
-golang.org/x/net v0.0.0-20211015210444-4f30a5c0130f/go.mod h1:9nx3DQGgdP8bBQD5qxJ1jj9UTztislL4KSBs9R2vV5Y=
 golang.org/x/net v0.0.0-20220722155237-a158d28d115b h1:PxfKdU9lEEDYjdIzOtC4qFWgkU2rGHdKlKowJSMN9h0=
 golang.org/x/net v0.0.0-20220722155237-a158d28d115b/go.mod h1:XRhObCWvk6IyKnWLug+ECip1KBveYUHfp+8e9klMJ9c=
 golang.org/x/oauth2 v0.0.0-20180821212333-d2e6202438be/go.mod h1:N/0e6XlmueqKjAGxoOufVs8QHGRruUQn6yWY3a++T0U=
-golang.org/x/oauth2 v0.0.0-20200107190931-bf48bf16ab8d/go.mod h1:gOpvHmFTYa4IltrdGE7lF6nIHvwfUNPOp7c8zoXwtLw=
 golang.org/x/sync v0.0.0-20180314180146-1d60e4601c6f/go.mod h1:RxMgew5VJxzue5/jJTE5uejpjVlOe/izrB70Jof72aM=
 golang.org/x/sync v0.0.0-20181108010431-42b317875d0f/go.mod h1:RxMgew5VJxzue5/jJTE5uejpjVlOe/izrB70Jof72aM=
-golang.org/x/sync v0.0.0-20181221193216-37e7f081c4d4/go.mod h1:RxMgew5VJxzue5/jJTE5uejpjVlOe/izrB70Jof72aM=
 golang.org/x/sync v0.0.0-20190423024810-112230192c58/go.mod h1:RxMgew5VJxzue5/jJTE5uejpjVlOe/izrB70Jof72aM=
 golang.org/x/sync v0.0.0-20201020160332-67f06af15bc9/go.mod h1:RxMgew5VJxzue5/jJTE5uejpjVlOe/izrB70Jof72aM=
-golang.org/x/sync v0.0.0-20210220032951-036812b2e83c/go.mod h1:RxMgew5VJxzue5/jJTE5uejpjVlOe/izrB70Jof72aM=
-golang.org/x/sync v0.0.0-20220722155255-886fb9371eb4 h1:uVc8UZUe6tr40fFVnUP5Oj+veunVezqYl9z7DYw9xzw=
-golang.org/x/sync v0.0.0-20220722155255-886fb9371eb4/go.mod h1:RxMgew5VJxzue5/jJTE5uejpjVlOe/izrB70Jof72aM=
+golang.org/x/sync v0.0.0-20220819030929-7fc1605a5dde h1:ejfdSekXMDxDLbRrJMwUk6KnSLZ2McaUCVcIKM+N6jc=
+golang.org/x/sync v0.0.0-20220819030929-7fc1605a5dde/go.mod h1:RxMgew5VJxzue5/jJTE5uejpjVlOe/izrB70Jof72aM=
 golang.org/x/sys v0.0.0-20180830151530-49385e6e1522/go.mod h1:STP8DvDyc/dI5b8T5hshtkjS+E42TnysNCUPdjciGhY=
 golang.org/x/sys v0.0.0-20190215142949-d0b11bdaac8a/go.mod h1:STP8DvDyc/dI5b8T5hshtkjS+E42TnysNCUPdjciGhY=
-golang.org/x/sys v0.0.0-20190312061237-fead79001313/go.mod h1:h1NjWce9XRLGQEsW7wpKNCjG9DtNlClVuFLEZdDNbEs=
 golang.org/x/sys v0.0.0-20190412213103-97732733099d/go.mod h1:h1NjWce9XRLGQEsW7wpKNCjG9DtNlClVuFLEZdDNbEs=
-golang.org/x/sys v0.0.0-20200323222414-85ca7c5b95cd/go.mod h1:h1NjWce9XRLGQEsW7wpKNCjG9DtNlClVuFLEZdDNbEs=
+golang.org/x/sys v0.0.0-20200116001909-b77594299b42/go.mod h1:h1NjWce9XRLGQEsW7wpKNCjG9DtNlClVuFLEZdDNbEs=
 golang.org/x/sys v0.0.0-20200930185726-fdedc70b468f/go.mod h1:h1NjWce9XRLGQEsW7wpKNCjG9DtNlClVuFLEZdDNbEs=
-golang.org/x/sys v0.0.0-20201119102817-f84b799fce68/go.mod h1:h1NjWce9XRLGQEsW7wpKNCjG9DtNlClVuFLEZdDNbEs=
-golang.org/x/sys v0.0.0-20210119212857-b64e53b001e4/go.mod h1:h1NjWce9XRLGQEsW7wpKNCjG9DtNlClVuFLEZdDNbEs=
-golang.org/x/sys v0.0.0-20210304124612-50617c2ba197/go.mod h1:h1NjWce9XRLGQEsW7wpKNCjG9DtNlClVuFLEZdDNbEs=
-golang.org/x/sys v0.0.0-20210423082822-04245dca01da/go.mod h1:h1NjWce9XRLGQEsW7wpKNCjG9DtNlClVuFLEZdDNbEs=
-golang.org/x/sys v0.0.0-20210615035016-665e8c7367d1/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
-golang.org/x/sys v0.0.0-20211019181941-9d821ace8654/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
-golang.org/x/sys v0.0.0-20220520151302-bc2c85ada10a/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
-golang.org/x/sys v0.0.0-20220722155257-8c9f86f7a55f/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
-golang.org/x/sys v0.0.0-20220804214406-8e32c043e418 h1:9vYwv7OjYaky/tlAeD7C4oC9EsPTlaFl1H2jS++V+ME=
-golang.org/x/sys v0.0.0-20220804214406-8e32c043e418/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
-golang.org/x/term v0.0.0-20201126162022-7de9c90e9dd1/go.mod h1:bj7SfCRtBDWHUb9snDiAeCFNEtKQo2Wmx5Cou7ajbmo=
-golang.org/x/term v0.0.0-20210927222741-03fcf44c2211/go.mod h1:jbD1KX2456YbFQfuXm/mYQcufACuNUgVhRMnK/tPxf8=
+golang.org/x/sys v0.0.0-20211007075335-d3039528d8ac/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
+golang.org/x/sys v0.0.0-20220811171246-fbc7d0a398ab/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
+golang.org/x/sys v0.0.0-20220829200755-d48e67d00261 h1:v6hYoSR9T5oet+pMXwUWkbiVqx/63mlHjefrHmxwfeY=
+golang.org/x/sys v0.0.0-20220829200755-d48e67d00261/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
 golang.org/x/text v0.3.0/go.mod h1:NqM8EUOU14njkJ3fqMW+pc6Ldnwhi/IjpwHt7yyuwOQ=
 golang.org/x/text v0.3.3/go.mod h1:5Zoc/QRtKVWzQhOtBMvqHzDpF6irO9z98xDceosuGiQ=
-golang.org/x/text v0.3.5/go.mod h1:5Zoc/QRtKVWzQhOtBMvqHzDpF6irO9z98xDceosuGiQ=
-golang.org/x/text v0.3.6/go.mod h1:5Zoc/QRtKVWzQhOtBMvqHzDpF6irO9z98xDceosuGiQ=
 golang.org/x/text v0.3.7 h1:olpwvP2KacW1ZWvsR7uQhoyTYvKAupfQrRGBFM352Gk=
 golang.org/x/text v0.3.7/go.mod h1:u+2+/6zg+i71rQMx5EYifcz6MCKuco9NR6JIITiCfzQ=
-golang.org/x/tools v0.0.0-20180525024113-a5b4c53f6e8b/go.mod h1:n7NCudcB/nEzxVGmLbDWY5pfWTLqBcC2KZ6jyYvM4mQ=
 golang.org/x/tools v0.0.0-20180917221912-90fa682c2a6e/go.mod h1:n7NCudcB/nEzxVGmLbDWY5pfWTLqBcC2KZ6jyYvM4mQ=
 golang.org/x/tools v0.0.0-20190114222345-bf090417da8b/go.mod h1:n7NCudcB/nEzxVGmLbDWY5pfWTLqBcC2KZ6jyYvM4mQ=
-golang.org/x/tools v0.0.0-20190206041539-40960b6deb8e/go.mod h1:n7NCudcB/nEzxVGmLbDWY5pfWTLqBcC2KZ6jyYvM4mQ=
 golang.org/x/tools v0.0.0-20190226205152-f727befe758c/go.mod h1:9Yl7xja0Znq3iFh3HoIrodX9oNMXvdceNzlUR8zjMvY=
 golang.org/x/tools v0.0.0-20190311212946-11955173bddd/go.mod h1:LCzVGOaR6xXOjkQ3onu1FJEFr0SW1gC7cKk1uF8kGRs=
 golang.org/x/tools v0.0.0-20190524140312-2c0ae7006135/go.mod h1:RgjU9mgBXZiqYHBnxXauZ1Gv1EHHAz9KjViQ78xBX0Q=
-golang.org/x/tools v0.0.0-20190927191325-030b2cf1153e/go.mod h1:b+2E5dAYhXwXZwtnZ6UAqBI28+e2cm9otk0dWdXHAEo=
 golang.org/x/tools v0.0.0-20191119224855-298f0cb1881e/go.mod h1:b+2E5dAYhXwXZwtnZ6UAqBI28+e2cm9otk0dWdXHAEo=
-golang.org/x/tools v0.1.0/go.mod h1:xkSsbof2nBLbhDlRMhhhyNLN/zl3eTqcnHD5viDpcZ0=
-golang.org/x/tools v0.1.9/go.mod h1:nABZi5QlRsZVlzPpHl034qft6wpY4eDcsTt5AaioBiU=
-golang.org/x/tools v0.1.10/go.mod h1:Uh6Zz+xoGYZom868N8YTex3t7RhtHDBrE8Gzo9bV56E=
+golang.org/x/tools v0.0.0-20201124115921-2c860bdd6e78/go.mod h1:emZCQorbCU4vsT4fOWvOPXz4eW1wZW4PmDk9uLelYpA=
 golang.org/x/tools v0.1.12 h1:VveCTK38A2rkS8ZqFY25HIDFscX5X9OoEhJd3quQmXU=
 golang.org/x/tools v0.1.12/go.mod h1:hNGJHUnrk76NpqgfD5Aqm5Crs+Hm0VOH/i9J2+nxYbc=
 golang.org/x/xerrors v0.0.0-20190717185122-a985d3407aa7/go.mod h1:I/5z698sn9Ka8TeJc9MKroUUfqBBauWjQqLJ2OPfmY0=
@@ -238,53 +147,71 @@ golang.org/x/xerrors v0.0.0-20191204190536-9bdfabe68543/go.mod h1:I/5z698sn9Ka8T
 golang.org/x/xerrors v0.0.0-20200804184101-5ec99f83aff1/go.mod h1:I/5z698sn9Ka8TeJc9MKroUUfqBBauWjQqLJ2OPfmY0=
 golang.org/x/xerrors v0.0.0-20220609144429-65e65417b02f h1:uF6paiQQebLeSXkrTqHqz0MXhXXS1KgF41eUdBNvxK0=
 golang.org/x/xerrors v0.0.0-20220609144429-65e65417b02f/go.mod h1:K8+ghG5WaK9qNqU5K3HdILfMLy1f3aNYFI/wnl100a8=
-gonum.org/v1/gonum v0.0.0-20180816165407-929014505bf4/go.mod h1:Y+Yx5eoAFn32cQvJDxZx5Dpnq+c3wtXuadVZAcxbbBo=
-gonum.org/v1/gonum v0.8.2/go.mod h1:oe/vMfY3deqTw+1EZJhuvEW2iwGF1bW9wwu7XCu0+v0=
-gonum.org/v1/gonum v0.9.3/go.mod h1:TZumC3NeyVQskjXqmyWt4S3bINhy7B4eYwW69EbyX+0=
 gonum.org/v1/gonum v0.11.0 h1:f1IJhK4Km5tBJmaiJXtk/PkL4cdVX6J+tGiM187uT5E=
 gonum.org/v1/gonum v0.11.0/go.mod h1:fSG4YDCxxUZQJ7rKsQrj0gMOg00Il0Z96/qMA4bVQhA=
-gonum.org/v1/netlib v0.0.0-20190313105609-8cb42192e0e0/go.mod h1:wa6Ws7BG/ESfp6dHfk7C6KdzKA7wR7u/rKwOGE66zvw=
-gonum.org/v1/plot v0.0.0-20190515093506-e2840ee46a6b/go.mod h1:Wt8AAjI+ypCyYX3nZBvf6cAIx93T+c/OS2HFAYskSZc=
-gonum.org/v1/plot v0.9.0/go.mod h1:3Pcqqmp6RHvJI72kgb8fThyUnav364FOsdDo2aGW5lY=
-gonum.org/v1/plot v0.10.1/go.mod h1:VZW5OlhkL1mysU9vaqNHnsy86inf6Ot+jB3r+BczCEo=
 google.golang.org/appengine v1.1.0/go.mod h1:EbEs0AVv82hx2wNQdGPgUI5lhzA/G0D9YwlJXL52JkM=
 google.golang.org/appengine v1.4.0/go.mod h1:xpcJRLb0r/rnEns0DIKYYv+WjYCduHsrkT7/EB5XEv4=
 google.golang.org/genproto v0.0.0-20180817151627-c66870c02cf8/go.mod h1:JiN7NxoALGmiZfu7CAH4rXhgtRTLTxftemlI0sWmxmc=
 google.golang.org/genproto v0.0.0-20190819201941-24fa4b261c55/go.mod h1:DMBHOl98Agz4BDEuKkezgsaosCRResVns1a3J2ZsMNc=
-google.golang.org/genproto v0.0.0-20200513103714-09dca8ec2884/go.mod h1:55QSHmfGQM9UVYDPBsyGGes0y52j32PQ3BqQfXhyH3c=
 google.golang.org/genproto v0.0.0-20200526211855-cb27e3aa2013 h1:+kGHl1aib/qcwaRi1CbqBZ1rk19r85MNUf8HaBghugY=
 google.golang.org/genproto v0.0.0-20200526211855-cb27e3aa2013/go.mod h1:NbSheEEYHJ7i3ixzK3sjbqSGDJWnxyFXZblF3eUsNvo=
 google.golang.org/grpc v1.19.0/go.mod h1:mqu4LbDTu4XGKhr4mRzUsmM4RtVoemTSY81AxZiDr8c=
 google.golang.org/grpc v1.23.0/go.mod h1:Y5yQAOtifL1yxbo5wqy6BxZv8vAUGQwXBOALyacEbxg=
-google.golang.org/grpc v1.25.1/go.mod h1:c3i+UQWmh7LiEpx4sFZnkU36qjEYZ0imhYfXVyQciAY=
 google.golang.org/grpc v1.27.0/go.mod h1:qbnxyOmOxrQa7FizSgH+ReBfzJrCY1pSN7KXBS8abTk=
-google.golang.org/grpc v1.33.1/go.mod h1:fr5YgcSWrqhRRxogOsw7RzIpsmvOZ6IcH4kBYTpR3n0=
-google.golang.org/grpc v1.36.0/go.mod h1:qjiiYl8FncCW8feJPdyg3v6XW24KsRHe+dy9BAGRRjU=
-google.golang.org/grpc v1.48.0 h1:rQOsyJ/8+ufEDJd/Gdsz7HG220Mh9HAhFHRGnIjda0w=
-google.golang.org/grpc v1.48.0/go.mod h1:vN9eftEi1UMyUsIF80+uQXhHjbXYbm0uXoFCACuMGWk=
+google.golang.org/grpc v1.49.0 h1:WTLtQzmQori5FUH25Pq4WT22oCsv8USpQ+F6rqtsmxw=
+google.golang.org/grpc v1.49.0/go.mod h1:ZgQEeidpAuNRZ8iRrlBKXZQP1ghovWIVhdJRyCDK+GI=
 google.golang.org/protobuf v0.0.0-20200109180630-ec00e32a8dfd/go.mod h1:DFci5gLYBciE7Vtevhsrf46CRTquxDuWsQurQQe4oz8=
 google.golang.org/protobuf v0.0.0-20200221191635-4d8936d0db64/go.mod h1:kwYJMbMJ01Woi6D6+Kah6886xMZcty6N08ah7+eCXa0=
 google.golang.org/protobuf v0.0.0-20200228230310-ab0ca4ff8a60/go.mod h1:cfTl7dwQJ+fmap5saPgwCLgHXTUD7jkjRqWcaiX5VyM=
 google.golang.org/protobuf v1.20.1-0.20200309200217-e05f789c0967/go.mod h1:A+miEFZTKqfCUM6K7xSMQL9OKL/b6hQv+e19PK+JZNE=
 google.golang.org/protobuf v1.21.0/go.mod h1:47Nbq4nVaFHyn7ilMalzfO3qCViNmqZ2kzikPIcrTAo=
 google.golang.org/protobuf v1.22.0/go.mod h1:EGpADcykh3NcUnDUJcl1+ZksZNG86OlYog2l/sGQquU=
-google.golang.org/protobuf v1.23.0/go.mod h1:EGpADcykh3NcUnDUJcl1+ZksZNG86OlYog2l/sGQquU=
 google.golang.org/protobuf v1.23.1-0.20200526195155-81db48ad09cc/go.mod h1:EGpADcykh3NcUnDUJcl1+ZksZNG86OlYog2l/sGQquU=
-google.golang.org/protobuf v1.25.0/go.mod h1:9JNX74DMeImyA3h4bdi1ymwjUzf21/xIlbajtzgsN7c=
 google.golang.org/protobuf v1.26.0-rc.1/go.mod h1:jlhhOSvTdKEhbULTjvd4ARK9grFBp09yW+WbY/TyQbw=
 google.golang.org/protobuf v1.26.0/go.mod h1:9q0QmTI4eRPtz6boOQmLYwt+qCgq0jsYwAQnmE0givc=
-google.golang.org/protobuf v1.27.1/go.mod h1:9q0QmTI4eRPtz6boOQmLYwt+qCgq0jsYwAQnmE0givc=
 google.golang.org/protobuf v1.28.1 h1:d0NfwRgPtno5B1Wa6L2DAG+KivqkdutMf1UhdNx175w=
 google.golang.org/protobuf v1.28.1/go.mod h1:HV8QOd/L58Z+nl8r43ehVNZIU/HEI6OcFqwMG9pJV4I=
 gopkg.in/check.v1 v0.0.0-20161208181325-20d25e280405/go.mod h1:Co6ibVJAznAaIkqp8huTwlJQCZ016jof/cbN4VW5Yz0=
-gopkg.in/check.v1 v1.0.0-20180628173108-788fd7840127 h1:qIbj1fsPNlZgppZ+VLlY7N33q108Sa+fhmuc+sWQYwY=
 gopkg.in/check.v1 v1.0.0-20180628173108-788fd7840127/go.mod h1:Co6ibVJAznAaIkqp8huTwlJQCZ016jof/cbN4VW5Yz0=
-gopkg.in/yaml.v2 v2.2.2/go.mod h1:hI93XBmqTisBFMUTm0b8Fm+jr3Dg1NNxqwp+5A1VGuI=
-gopkg.in/yaml.v2 v2.2.3/go.mod h1:hI93XBmqTisBFMUTm0b8Fm+jr3Dg1NNxqwp+5A1VGuI=
+gopkg.in/check.v1 v1.0.0-20201130134442-10cb98267c6c h1:Hei/4ADfdWqJk1ZMxUNpqntNwaWcugrBjAiHlqqRiVk=
+gopkg.in/check.v1 v1.0.0-20201130134442-10cb98267c6c/go.mod h1:JHkPIbrfpd72SG/EVd6muEfDQjcINNoR0C8j2r3qZ4Q=
+gopkg.in/errgo.v2 v2.1.0/go.mod h1:hNsd1EY+bozCKY1Ytp96fpM3vjJbqLJn88ws8XvfDNI=
 gopkg.in/yaml.v3 v3.0.0-20200313102051-9f266ea9e77c/go.mod h1:K4uyk7z7BCEPqu6E+C64Yfv1cQ7kz7rIZviUmN+EgEM=
 gopkg.in/yaml.v3 v3.0.1 h1:fxVm/GzAzEWqLHuvctI91KS9hhNmmWOoWu0XTYJS7CA=
 gopkg.in/yaml.v3 v3.0.1/go.mod h1:K4uyk7z7BCEPqu6E+C64Yfv1cQ7kz7rIZviUmN+EgEM=
 honnef.co/go/tools v0.0.0-20190102054323-c2f93a96b099/go.mod h1:rf3lG4BRIbNafJWhAfAdb/ePZxsR/4RtNHQocxwk9r4=
 honnef.co/go/tools v0.0.0-20190523083050-ea95bdfd59fc/go.mod h1:rf3lG4BRIbNafJWhAfAdb/ePZxsR/4RtNHQocxwk9r4=
-honnef.co/go/tools v0.1.3/go.mod h1:NgwopIslSNH47DimFoV78dnkksY2EFtX0ajyb3K/las=
-rsc.io/pdf v0.1.1/go.mod h1:n8OzWcQ6Sp37PL01nO98y4iUCRdTGarVfzxY20ICaU4=
+lukechampine.com/uint128 v1.1.1/go.mod h1:c4eWIwlEGaxC/+H1VguhU4PHXNWDCDMUlWdIWl2j1gk=
+lukechampine.com/uint128 v1.2.0 h1:mBi/5l91vocEN8otkC5bDLhi2KdCticRiwbdB0O+rjI=
+lukechampine.com/uint128 v1.2.0/go.mod h1:c4eWIwlEGaxC/+H1VguhU4PHXNWDCDMUlWdIWl2j1gk=
+modernc.org/cc/v3 v3.36.2/go.mod h1:NFUHyPn4ekoC/JHeZFfZurN6ixxawE1BnVonP/oahEI=
+modernc.org/cc/v3 v3.36.3 h1:uISP3F66UlixxWEcKuIWERa4TwrZENHSL8tWxZz8bHg=
+modernc.org/cc/v3 v3.36.3/go.mod h1:NFUHyPn4ekoC/JHeZFfZurN6ixxawE1BnVonP/oahEI=
+modernc.org/ccgo/v3 v3.16.9 h1:AXquSwg7GuMk11pIdw7fmO1Y/ybgazVkMhsZWCV0mHM=
+modernc.org/ccgo/v3 v3.16.9/go.mod h1:zNMzC9A9xeNUepy6KuZBbugn3c0Mc9TeiJO4lgvkJDo=
+modernc.org/ccorpus v1.11.6 h1:J16RXiiqiCgua6+ZvQot4yUuUy8zxgqbqEEUuGPlISk=
+modernc.org/ccorpus v1.11.6/go.mod h1:2gEUTrWqdpH2pXsmTM1ZkjeSrUWDpjMu2T6m29L/ErQ=
+modernc.org/httpfs v1.0.6 h1:AAgIpFZRXuYnkjftxTAZwMIiwEqAfk8aVB2/oA6nAeM=
+modernc.org/httpfs v1.0.6/go.mod h1:7dosgurJGp0sPaRanU53W4xZYKh14wfzX420oZADeHM=
+modernc.org/libc v1.17.0/go.mod h1:XsgLldpP4aWlPlsjqKRdHPqCxCjISdHfM/yeWC5GyW0=
+modernc.org/libc v1.17.1 h1:Q8/Cpi36V/QBfuQaFVeisEBs3WqoGAJprZzmf7TfEYI=
+modernc.org/libc v1.17.1/go.mod h1:FZ23b+8LjxZs7XtFMbSzL/EhPxNbfZbErxEHc7cbD9s=
+modernc.org/mathutil v1.2.2/go.mod h1:mZW8CKdRPY1v87qxC/wUdX5O1qDzXMP5TH3wjfpga6E=
+modernc.org/mathutil v1.4.1/go.mod h1:mZW8CKdRPY1v87qxC/wUdX5O1qDzXMP5TH3wjfpga6E=
+modernc.org/mathutil v1.5.0 h1:rV0Ko/6SfM+8G+yKiyI830l3Wuz1zRutdslNoQ0kfiQ=
+modernc.org/mathutil v1.5.0/go.mod h1:mZW8CKdRPY1v87qxC/wUdX5O1qDzXMP5TH3wjfpga6E=
+modernc.org/memory v1.2.0/go.mod h1:/0wo5ibyrQiaoUoH7f9D8dnglAmILJ5/cxZlRECf+Nw=
+modernc.org/memory v1.2.1 h1:dkRh86wgmq/bJu2cAS2oqBCz/KsMZU7TUM4CibQ7eBs=
+modernc.org/memory v1.2.1/go.mod h1:PkUhL0Mugw21sHPeskwZW4D6VscE/GQJOnIpCnW6pSU=
+modernc.org/opt v0.1.1/go.mod h1:WdSiB5evDcignE70guQKxYUl14mgWtbClRi5wmkkTX0=
+modernc.org/opt v0.1.3 h1:3XOZf2yznlhC+ibLltsDGzABUGVx8J6pnFMS3E4dcq4=
+modernc.org/opt v0.1.3/go.mod h1:WdSiB5evDcignE70guQKxYUl14mgWtbClRi5wmkkTX0=
+modernc.org/sqlite v1.18.1 h1:ko32eKt3jf7eqIkCgPAeHMBXw3riNSLhl2f3loEF7o8=
+modernc.org/sqlite v1.18.1/go.mod h1:6ho+Gow7oX5V+OiOQ6Tr4xeqbx13UZ6t+Fw9IRUG4d4=
+modernc.org/strutil v1.1.1/go.mod h1:DE+MQQ/hjKBZS2zNInV5hhcipt5rLPWkmpbGeW5mmdw=
+modernc.org/strutil v1.1.3 h1:fNMm+oJklMGYfU9Ylcywl0CO5O6nTfaowNsh2wpPjzY=
+modernc.org/strutil v1.1.3/go.mod h1:MEHNA7PdEnEwLvspRMtWTNnp2nnyvMfkimT1NKNAGbw=
+modernc.org/tcl v1.13.1 h1:npxzTwFTZYM8ghWicVIX1cRWzj7Nd8i6AqqX2p+IYao=
+modernc.org/token v1.0.0 h1:a0jaWiNMDhDUtqOj09wvjWWAqd3q7WpBulmL9H2egsk=
+modernc.org/token v1.0.0/go.mod h1:UGzOrNV1mAFSEB63lOFHIpNRUVMvYTc6yu1SMY/XTDM=
+modernc.org/z v1.5.1 h1:RTNHdsrOpeoSeOF4FbzTo8gBYByaJ5xT7NgZ9ZqRiJM=
diff --git a/go/internal/bitutils/bit_block_counter.go b/go/internal/bitutils/bit_block_counter.go
index 4c3bf3037d3..29a562b5044 100644
--- a/go/internal/bitutils/bit_block_counter.go
+++ b/go/internal/bitutils/bit_block_counter.go
@@ -21,8 +21,8 @@ import (
 	"math/bits"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/internal/utils"
 )
 
 func loadWord(byt []byte) uint64 {
@@ -290,3 +290,163 @@ func VisitBitBlocksShort(bitmap []byte, offset, length int64, visitValid func(po
 	}
 	return nil
 }
+
+func VisitTwoBitBlocks(leftBitmap, rightBitmap []byte, leftOffset, rightOffset int64, len int64, visitValid func(pos int64), visitNull func()) {
+	if leftBitmap == nil || rightBitmap == nil {
+		// at most one is present
+		if leftBitmap == nil {
+			VisitBitBlocks(rightBitmap, rightOffset, len, visitValid, visitNull)
+		} else {
+			VisitBitBlocks(leftBitmap, leftOffset, len, visitValid, visitNull)
+		}
+		return
+	}
+
+	bitCounter := NewBinaryBitBlockCounter(leftBitmap, rightBitmap, leftOffset, rightOffset, len)
+	var pos int64
+	for pos < len {
+		block := bitCounter.NextAndWord()
+		if block.AllSet() {
+			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
+				visitValid(pos)
+			}
+		} else if block.NoneSet() {
+			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
+				visitNull()
+			}
+		} else {
+			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
+				if bitutil.BitIsSet(leftBitmap, int(leftOffset+pos)) && bitutil.BitIsSet(rightBitmap, int(rightOffset+pos)) {
+					visitValid(pos)
+				} else {
+					visitNull()
+				}
+			}
+		}
+	}
+}
+
+type bitOp struct {
+	bit  func(bool, bool) bool
+	word func(uint64, uint64) uint64
+}
+
+var (
+	bitBlockAnd = bitOp{
+		bit:  func(a, b bool) bool { return a && b },
+		word: func(a, b uint64) uint64 { return a & b },
+	}
+	bitBlockAndNot = bitOp{
+		bit:  func(a, b bool) bool { return a && !b },
+		word: func(a, b uint64) uint64 { return a &^ b },
+	}
+	bitBlockOr = bitOp{
+		bit:  func(a, b bool) bool { return a || b },
+		word: func(a, b uint64) uint64 { return a | b },
+	}
+	bitBlockOrNot = bitOp{
+		bit:  func(a, b bool) bool { return a || !b },
+		word: func(a, b uint64) uint64 { return a | ^b },
+	}
+)
+
+// BinaryBitBlockCounter computes popcounts on the result of bitwise
+// operations between two bitmaps, 64 bits at a time. A 64-bit word
+// is loaded from each bitmap, then the popcount is computed on
+// e.g. the bitwise-and of the two words
+type BinaryBitBlockCounter struct {
+	left                    []byte
+	right                   []byte
+	bitsRemaining           int64
+	leftOffset, rightOffset int64
+
+	bitsRequiredForWords int64
+}
+
+// NewBinaryBitBlockCounter constructs a binary bit block counter for
+// computing the popcounts on the results of operations between
+// the passed in bitmaps, with their respective offsets.
+func NewBinaryBitBlockCounter(left, right []byte, leftOffset, rightOffset int64, length int64) *BinaryBitBlockCounter {
+	ret := &BinaryBitBlockCounter{
+		left:          left[leftOffset/8:],
+		right:         right[rightOffset/8:],
+		leftOffset:    leftOffset % 8,
+		rightOffset:   rightOffset % 8,
+		bitsRemaining: length,
+	}
+
+	leftBitsReq := int64(64)
+	if ret.leftOffset != 0 {
+		leftBitsReq = 64 + (64 - ret.leftOffset)
+	}
+	rightBitsReq := int64(64)
+	if ret.rightOffset != 0 {
+		rightBitsReq = 64 + (64 - ret.rightOffset)
+	}
+
+	if leftBitsReq > rightBitsReq {
+		ret.bitsRequiredForWords = leftBitsReq
+	} else {
+		ret.bitsRequiredForWords = rightBitsReq
+	}
+
+	return ret
+}
+
+// NextAndWord returns the popcount of the bitwise-and of the next run
+// of available bits, up to 64. The returned pair contains the size of
+// the run and the number of true values. the last block will have a
+// length less than 64 if the bitmap length is not a multiple of 64,
+// and will return 0-length blocks in subsequent invocations
+func (b *BinaryBitBlockCounter) NextAndWord() BitBlockCount { return b.nextWord(bitBlockAnd) }
+
+// NextAndNotWord is like NextAndWord but performs x &^ y on each run
+func (b *BinaryBitBlockCounter) NextAndNotWord() BitBlockCount { return b.nextWord(bitBlockAndNot) }
+
+// NextOrWord is like NextAndWord but performs x | y on each run
+func (b *BinaryBitBlockCounter) NextOrWord() BitBlockCount { return b.nextWord(bitBlockOr) }
+
+// NextOrWord is like NextAndWord but performs x | ^y on each run
+func (b *BinaryBitBlockCounter) NextOrNotWord() BitBlockCount { return b.nextWord(bitBlockOrNot) }
+
+func (b *BinaryBitBlockCounter) nextWord(op bitOp) BitBlockCount {
+	if b.bitsRemaining == 0 {
+		return BitBlockCount{}
+	}
+
+	// when offset is >0, we need there to be a word beyond the last
+	// aligned word in the bitmap for the bit shifting logic
+	if b.bitsRemaining < b.bitsRequiredForWords {
+		runLength := int16(b.bitsRemaining)
+		if runLength > int16(wordBits) {
+			runLength = int16(wordBits)
+		}
+
+		var popcount int16
+		for i := int16(0); i < runLength; i++ {
+			if op.bit(bitutil.BitIsSet(b.left, int(b.leftOffset)+int(i)),
+				bitutil.BitIsSet(b.right, int(b.rightOffset)+int(i))) {
+				popcount++
+			}
+		}
+		// this code path should trigger _at most_ 2 times. in the "two times"
+		// case, the first time the run length will be a multiple of 8.
+		b.left = b.left[runLength/8:]
+		b.right = b.right[runLength/8:]
+		b.bitsRemaining -= int64(runLength)
+		return BitBlockCount{Len: runLength, Popcnt: popcount}
+	}
+
+	var popcount int
+	if b.leftOffset == 0 && b.rightOffset == 0 {
+		popcount = bits.OnesCount64(op.word(loadWord(b.left), loadWord(b.right)))
+	} else {
+		leftWord := shiftWord(loadWord(b.left), loadWord(b.left[8:]), b.leftOffset)
+		rightWord := shiftWord(loadWord(b.right), loadWord(b.right[8:]), b.rightOffset)
+		popcount = bits.OnesCount64(op.word(leftWord, rightWord))
+	}
+	b.left = b.left[wordBits/8:]
+	b.right = b.right[wordBits/8:]
+	b.bitsRemaining -= wordBits
+	return BitBlockCount{Len: int16(wordBits), Popcnt: int16(popcount)}
+}
diff --git a/go/internal/bitutils/bit_block_counter_test.go b/go/internal/bitutils/bit_block_counter_test.go
index d7f68db70b1..a27a0193d8d 100644
--- a/go/internal/bitutils/bit_block_counter_test.go
+++ b/go/internal/bitutils/bit_block_counter_test.go
@@ -19,9 +19,9 @@ package bitutils_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
 	"github.com/stretchr/testify/assert"
 	"golang.org/x/exp/rand"
 )
diff --git a/go/internal/bitutils/bit_run_reader.go b/go/internal/bitutils/bit_run_reader.go
index 9c6412ffb40..401c6a499e3 100644
--- a/go/internal/bitutils/bit_run_reader.go
+++ b/go/internal/bitutils/bit_run_reader.go
@@ -22,9 +22,9 @@ import (
 	"math/bits"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/internal/utils"
 )
 
 // BitRun represents a run of bits with the same value of length Len
diff --git a/go/internal/bitutils/bit_run_reader_test.go b/go/internal/bitutils/bit_run_reader_test.go
index f5b9b7858d8..41b6b253ffc 100644
--- a/go/internal/bitutils/bit_run_reader_test.go
+++ b/go/internal/bitutils/bit_run_reader_test.go
@@ -21,9 +21,9 @@ import (
 	"testing"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/endian"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/endian"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/internal/bitutils/bit_set_run_reader.go b/go/internal/bitutils/bit_set_run_reader.go
index 2dae0f989c7..f1d7b4278fb 100644
--- a/go/internal/bitutils/bit_set_run_reader.go
+++ b/go/internal/bitutils/bit_set_run_reader.go
@@ -20,8 +20,8 @@ import (
 	"encoding/binary"
 	"math/bits"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/internal/utils"
 )
 
 // IsMultipleOf64 returns whether v is a multiple of 64.
diff --git a/go/internal/bitutils/bit_set_run_reader_test.go b/go/internal/bitutils/bit_set_run_reader_test.go
index 55f658b3514..74fad48ef82 100644
--- a/go/internal/bitutils/bit_set_run_reader_test.go
+++ b/go/internal/bitutils/bit_set_run_reader_test.go
@@ -20,9 +20,9 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	"github.com/apache/arrow/go/v10/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"github.com/apache/arrow/go/v11/internal/utils"
 	"github.com/stretchr/testify/suite"
 )
 
diff --git a/go/internal/bitutils/bitmap_generate.go b/go/internal/bitutils/bitmap_generate.go
index 25b17bfb797..54820a08877 100644
--- a/go/internal/bitutils/bitmap_generate.go
+++ b/go/internal/bitutils/bitmap_generate.go
@@ -16,7 +16,7 @@
 
 package bitutils
 
-import "github.com/apache/arrow/go/v10/arrow/bitutil"
+import "github.com/apache/arrow/go/v11/arrow/bitutil"
 
 // GenerateBits writes sequential bits to a bitmap. Bits preceding the
 // initial start offset are preserved, bits following the bitmap may
@@ -84,6 +84,8 @@ func GenerateBitsUnrolled(bitmap []byte, start, length int64, g func() bool) {
 		for i := 0; i < 8; i++ {
 			if g() {
 				outResults[i] = 1
+			} else {
+				outResults[i] = 0
 			}
 		}
 		cur[0] = (outResults[0] | outResults[1]<<1 | outResults[2]<<2 |
diff --git a/go/internal/bitutils/bitmap_generate_test.go b/go/internal/bitutils/bitmap_generate_test.go
index 07700449774..c32d833f09f 100644
--- a/go/internal/bitutils/bitmap_generate_test.go
+++ b/go/internal/bitutils/bitmap_generate_test.go
@@ -19,7 +19,7 @@ package bitutils_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/internal/bitutils"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
 	"golang.org/x/exp/rand"
 )
 
diff --git a/go/internal/hashing/xxh3_memo_table.gen.go b/go/internal/hashing/xxh3_memo_table.gen.go
index 57d57d970b4..6fc3249e281 100644
--- a/go/internal/hashing/xxh3_memo_table.gen.go
+++ b/go/internal/hashing/xxh3_memo_table.gen.go
@@ -21,9 +21,9 @@ package hashing
 import (
 	"math"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/internal/utils"
 )
 
 type payloadInt8 struct {
diff --git a/go/internal/hashing/xxh3_memo_table.gen.go.tmpl b/go/internal/hashing/xxh3_memo_table.gen.go.tmpl
index ac6d3d14687..c7abfb794e4 100644
--- a/go/internal/hashing/xxh3_memo_table.gen.go.tmpl
+++ b/go/internal/hashing/xxh3_memo_table.gen.go.tmpl
@@ -17,8 +17,8 @@
 package hashing
 
 import (
-  "github.com/apache/arrow/go/v10/arrow/bitutil"  
-  "github.com/apache/arrow/go/v10/internal/utils"  
+  "github.com/apache/arrow/go/v11/arrow/bitutil"  
+  "github.com/apache/arrow/go/v11/internal/utils"  
 )
 
 {{range .In}}
diff --git a/go/internal/hashing/xxh3_memo_table.go b/go/internal/hashing/xxh3_memo_table.go
index 1a33420f436..82c32d822bf 100644
--- a/go/internal/hashing/xxh3_memo_table.go
+++ b/go/internal/hashing/xxh3_memo_table.go
@@ -26,7 +26,7 @@ import (
 	"reflect"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/parquet"
 
 	"github.com/zeebo/xxh3"
 )
diff --git a/go/internal/utils/min_max_ppc64le.go b/go/internal/utils/min_max_ppc64le.go
new file mode 100644
index 00000000000..ed1b0e69343
--- /dev/null
+++ b/go/internal/utils/min_max_ppc64le.go
@@ -0,0 +1,31 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build !noasm
+// +build !noasm
+
+package utils
+
+func init() {
+	minmaxFuncs.i8 = int8MinMax
+	minmaxFuncs.ui8 = uint8MinMax
+	minmaxFuncs.i16 = int16MinMax
+	minmaxFuncs.ui16 = uint16MinMax
+	minmaxFuncs.i32 = int32MinMax
+	minmaxFuncs.ui32 = uint32MinMax
+	minmaxFuncs.i64 = int64MinMax
+	minmaxFuncs.ui64 = uint64MinMax
+}
diff --git a/go/internal/utils/transpose_ints_def.go b/go/internal/utils/transpose_ints_def.go
index 7d7bff71352..fbfe390ec50 100644
--- a/go/internal/utils/transpose_ints_def.go
+++ b/go/internal/utils/transpose_ints_def.go
@@ -19,7 +19,7 @@ package utils
 import (
 	"errors"
 
-	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v11/arrow"
 )
 
 //go:generate go run ../../arrow/_tools/tmpl -i -data=transpose_ints.tmpldata -d arch=avx2 transpose_ints_simd.go.tmpl=transpose_ints_avx2_amd64.go
diff --git a/go/internal/utils/transpose_ints_ppc64le.go b/go/internal/utils/transpose_ints_ppc64le.go
new file mode 100644
index 00000000000..2650cebe759
--- /dev/null
+++ b/go/internal/utils/transpose_ints_ppc64le.go
@@ -0,0 +1,97 @@
+// Code generated by transpose_ints_s390x.go.tmpl. DO NOT EDIT.
+
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build !noasm
+// +build !noasm
+
+package utils
+
+// if building with the 'noasm' tag, then point to the pure go implementations
+var (
+	TransposeInt8Int8   = transposeInt8Int8
+	TransposeInt8Uint8  = transposeInt8Uint8
+	TransposeInt8Int16  = transposeInt8Int16
+	TransposeInt8Uint16 = transposeInt8Uint16
+	TransposeInt8Int32  = transposeInt8Int32
+	TransposeInt8Uint32 = transposeInt8Uint32
+	TransposeInt8Int64  = transposeInt8Int64
+	TransposeInt8Uint64 = transposeInt8Uint64
+
+	TransposeUint8Int8   = transposeUint8Int8
+	TransposeUint8Uint8  = transposeUint8Uint8
+	TransposeUint8Int16  = transposeUint8Int16
+	TransposeUint8Uint16 = transposeUint8Uint16
+	TransposeUint8Int32  = transposeUint8Int32
+	TransposeUint8Uint32 = transposeUint8Uint32
+	TransposeUint8Int64  = transposeUint8Int64
+	TransposeUint8Uint64 = transposeUint8Uint64
+
+	TransposeInt16Int8   = transposeInt16Int8
+	TransposeInt16Uint8  = transposeInt16Uint8
+	TransposeInt16Int16  = transposeInt16Int16
+	TransposeInt16Uint16 = transposeInt16Uint16
+	TransposeInt16Int32  = transposeInt16Int32
+	TransposeInt16Uint32 = transposeInt16Uint32
+	TransposeInt16Int64  = transposeInt16Int64
+	TransposeInt16Uint64 = transposeInt16Uint64
+
+	TransposeUint16Int8   = transposeUint16Int8
+	TransposeUint16Uint8  = transposeUint16Uint8
+	TransposeUint16Int16  = transposeUint16Int16
+	TransposeUint16Uint16 = transposeUint16Uint16
+	TransposeUint16Int32  = transposeUint16Int32
+	TransposeUint16Uint32 = transposeUint16Uint32
+	TransposeUint16Int64  = transposeUint16Int64
+	TransposeUint16Uint64 = transposeUint16Uint64
+
+	TransposeInt32Int8   = transposeInt32Int8
+	TransposeInt32Uint8  = transposeInt32Uint8
+	TransposeInt32Int16  = transposeInt32Int16
+	TransposeInt32Uint16 = transposeInt32Uint16
+	TransposeInt32Int32  = transposeInt32Int32
+	TransposeInt32Uint32 = transposeInt32Uint32
+	TransposeInt32Int64  = transposeInt32Int64
+	TransposeInt32Uint64 = transposeInt32Uint64
+
+	TransposeUint32Int8   = transposeUint32Int8
+	TransposeUint32Uint8  = transposeUint32Uint8
+	TransposeUint32Int16  = transposeUint32Int16
+	TransposeUint32Uint16 = transposeUint32Uint16
+	TransposeUint32Int32  = transposeUint32Int32
+	TransposeUint32Uint32 = transposeUint32Uint32
+	TransposeUint32Int64  = transposeUint32Int64
+	TransposeUint32Uint64 = transposeUint32Uint64
+
+	TransposeInt64Int8   = transposeInt64Int8
+	TransposeInt64Uint8  = transposeInt64Uint8
+	TransposeInt64Int16  = transposeInt64Int16
+	TransposeInt64Uint16 = transposeInt64Uint16
+	TransposeInt64Int32  = transposeInt64Int32
+	TransposeInt64Uint32 = transposeInt64Uint32
+	TransposeInt64Int64  = transposeInt64Int64
+	TransposeInt64Uint64 = transposeInt64Uint64
+
+	TransposeUint64Int8   = transposeUint64Int8
+	TransposeUint64Uint8  = transposeUint64Uint8
+	TransposeUint64Int16  = transposeUint64Int16
+	TransposeUint64Uint16 = transposeUint64Uint16
+	TransposeUint64Int32  = transposeUint64Int32
+	TransposeUint64Uint32 = transposeUint64Uint32
+	TransposeUint64Int64  = transposeUint64Int64
+	TransposeUint64Uint64 = transposeUint64Uint64
+)
diff --git a/go/internal/utils/transpose_ints_test.go b/go/internal/utils/transpose_ints_test.go
index 4c69dd1c3af..8ba7245ac91 100644
--- a/go/internal/utils/transpose_ints_test.go
+++ b/go/internal/utils/transpose_ints_test.go
@@ -23,7 +23,7 @@ import (
 	"math/rand"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/internal/utils"
+	"github.com/apache/arrow/go/v11/internal/utils"
 )
 
 var (
diff --git a/go/parquet/cmd/parquet_reader/dumper.go b/go/parquet/cmd/parquet_reader/dumper.go
index c58a696b2b8..5c721f7866a 100644
--- a/go/parquet/cmd/parquet_reader/dumper.go
+++ b/go/parquet/cmd/parquet_reader/dumper.go
@@ -22,9 +22,9 @@ import (
 	"reflect"
 	"time"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 )
 
 const defaultBatchSize = 128
diff --git a/go/parquet/cmd/parquet_reader/main.go b/go/parquet/cmd/parquet_reader/main.go
index dfca6fbf148..12db354a0c8 100644
--- a/go/parquet/cmd/parquet_reader/main.go
+++ b/go/parquet/cmd/parquet_reader/main.go
@@ -26,10 +26,10 @@ import (
 	"strconv"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/docopt/docopt-go"
 )
 
diff --git a/go/parquet/cmd/parquet_schema/main.go b/go/parquet/cmd/parquet_schema/main.go
index 73f1ecddefd..4bfc660d41e 100644
--- a/go/parquet/cmd/parquet_schema/main.go
+++ b/go/parquet/cmd/parquet_schema/main.go
@@ -20,8 +20,8 @@ import (
 	"fmt"
 	"os"
 
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/docopt/docopt-go"
 )
 
diff --git a/go/parquet/compress/brotli.go b/go/parquet/compress/brotli.go
index 5494cba6064..dcace039f31 100644
--- a/go/parquet/compress/brotli.go
+++ b/go/parquet/compress/brotli.go
@@ -22,7 +22,7 @@ import (
 	"io/ioutil"
 
 	"github.com/andybalholm/brotli"
-	"github.com/apache/arrow/go/v10/parquet/internal/debug"
+	"github.com/apache/arrow/go/v11/parquet/internal/debug"
 )
 
 type brotliCodec struct{}
diff --git a/go/parquet/compress/compress.go b/go/parquet/compress/compress.go
index c81b8c4b129..aaaa4999b3b 100644
--- a/go/parquet/compress/compress.go
+++ b/go/parquet/compress/compress.go
@@ -24,7 +24,7 @@ import (
 	"io"
 	"io/ioutil"
 
-	"github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
 )
 
 // Compression is an alias to the thrift compression codec enum type for easy use
diff --git a/go/parquet/compress/compress_test.go b/go/parquet/compress/compress_test.go
index 181f9cf7b68..6f67ad6acc3 100644
--- a/go/parquet/compress/compress_test.go
+++ b/go/parquet/compress/compress_test.go
@@ -22,7 +22,7 @@ import (
 	"math/rand"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/parquet/compress"
+	"github.com/apache/arrow/go/v11/parquet/compress"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/parquet/compress/zstd.go b/go/parquet/compress/zstd.go
index 1640a0b3cc7..7f3b9328ec2 100644
--- a/go/parquet/compress/zstd.go
+++ b/go/parquet/compress/zstd.go
@@ -20,7 +20,7 @@ import (
 	"io"
 	"sync"
 
-	"github.com/apache/arrow/go/v10/parquet/internal/debug"
+	"github.com/apache/arrow/go/v11/parquet/internal/debug"
 	"github.com/klauspost/compress/zstd"
 )
 
diff --git a/go/parquet/doc.go b/go/parquet/doc.go
index 7c97dd5c950..391927794bd 100644
--- a/go/parquet/doc.go
+++ b/go/parquet/doc.go
@@ -17,18 +17,21 @@
 // Package parquet provides an implementation of Apache Parquet for Go.
 //
 // Apache Parquet is an open-source columnar data storage format using the record
-// shredding and assembly algorithm to accomodate complex data structures which
+// shredding and assembly algorithm to accommodate complex data structures which
 // can then be used to efficiently store the data.
 //
+// While the go.mod states go1.18, everything here should be compatible
+// with go versions 1.17 and 1.16.
+//
 // This implementation is a native go implementation for reading and writing the
 // parquet file format.
 //
 // Install
 //
 // You can download the library and cli utilities via:
-//   go get -u github.com/apache/arrow/go/v10/parquet
-//   go install github.com/apache/arrow/go/v10/parquet/cmd/parquet_reader@latest
-//   go install github.com/apache/arrow/go/v10/parquet/cmd/parquet_schema@latest
+//   go get -u github.com/apache/arrow/go/v11/parquet
+//   go install github.com/apache/arrow/go/v11/parquet/cmd/parquet_reader@latest
+//   go install github.com/apache/arrow/go/v11/parquet/cmd/parquet_schema@latest
 //
 // Modules
 //
diff --git a/go/parquet/encryption_properties.go b/go/parquet/encryption_properties.go
index e589ddc0f5e..3952f28d8a4 100644
--- a/go/parquet/encryption_properties.go
+++ b/go/parquet/encryption_properties.go
@@ -20,7 +20,7 @@ import (
 	"crypto/rand"
 	"unicode/utf8"
 
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
 )
 
 // Constants that will be used as the default values with encryption/decryption
diff --git a/go/parquet/encryption_properties_test.go b/go/parquet/encryption_properties_test.go
index dee3ec15c18..e5eaee76439 100644
--- a/go/parquet/encryption_properties_test.go
+++ b/go/parquet/encryption_properties_test.go
@@ -19,8 +19,8 @@ package parquet_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/parquet/encryption_read_config_test.go b/go/parquet/encryption_read_config_test.go
index fd18be5007f..560c1d9ca64 100644
--- a/go/parquet/encryption_read_config_test.go
+++ b/go/parquet/encryption_read_config_test.go
@@ -23,10 +23,10 @@ import (
 	"path"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
 	"github.com/stretchr/testify/suite"
 )
 
@@ -99,6 +99,7 @@ type TestDecryptionSuite struct {
 	colEncryptionKey1   string
 	colEncryptionKey2   string
 	fileName            string
+	rowsPerRG           int
 }
 
 func (d *TestDecryptionSuite) TearDownSuite() {
@@ -117,6 +118,7 @@ func (d *TestDecryptionSuite) SetupSuite() {
 	d.colEncryptionKey1 = ColumnEncryptionKey1
 	d.colEncryptionKey2 = ColumnEncryptionKey2
 	d.fileName = FileName
+	d.rowsPerRG = 50 // same as write encryption test
 
 	d.createDecryptionConfigs()
 }
@@ -180,6 +182,7 @@ func (d *TestDecryptionSuite) decryptFile(filename string, decryptConfigNum int)
 
 		// get rowgroup meta
 		rgMeta := fileMetadata.RowGroup(r)
+		d.EqualValues(d.rowsPerRG, rgMeta.NumRows())
 
 		valuesRead := 0
 		rowsRead := int64(0)
@@ -193,6 +196,7 @@ func (d *TestDecryptionSuite) decryptFile(filename string, decryptConfigNum int)
 
 		// get column chunk metadata for boolean column
 		boolMd, _ := rgMeta.ColumnChunk(0)
+		d.EqualValues(d.rowsPerRG, boolMd.NumValues())
 
 		// Read all rows in column
 		i := 0
@@ -220,6 +224,7 @@ func (d *TestDecryptionSuite) decryptFile(filename string, decryptConfigNum int)
 		int32reader := colReader.(*file.Int32ColumnChunkReader)
 
 		int32md, _ := rgMeta.ColumnChunk(1)
+		d.EqualValues(d.rowsPerRG, int32md.NumValues())
 		// Read all rows in column
 		i = 0
 		for int32reader.HasNext() {
@@ -245,6 +250,8 @@ func (d *TestDecryptionSuite) decryptFile(filename string, decryptConfigNum int)
 		int64reader := colReader.(*file.Int64ColumnChunkReader)
 
 		int64md, _ := rgMeta.ColumnChunk(2)
+		// repeated column, we should have 2*d.rowsPerRG values
+		d.EqualValues(2*d.rowsPerRG, int64md.NumValues())
 		// Read all rows in column
 		i = 0
 		for int64reader.HasNext() {
diff --git a/go/parquet/encryption_write_config_test.go b/go/parquet/encryption_write_config_test.go
index 66cabaf9f85..9a044fbb71e 100644
--- a/go/parquet/encryption_write_config_test.go
+++ b/go/parquet/encryption_write_config_test.go
@@ -24,10 +24,10 @@ import (
 	"path/filepath"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/compress"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/compress"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/suite"
 )
 
@@ -118,13 +118,17 @@ func (en *EncryptionConfigTestSuite) encryptFile(configs *parquet.FileEncryption
 		boolWriter := nextColumn().(*file.BooleanColumnChunkWriter)
 		for i := 0; i < en.rowsPerRG; i++ {
 			value := (i % 2) == 0
-			boolWriter.WriteBatch([]bool{value}, nil, nil)
+			n, err := boolWriter.WriteBatch([]bool{value}, nil, nil)
+			en.EqualValues(1, n)
+			en.Require().NoError(err)
 		}
 
 		// write the int32 col
 		int32Writer := nextColumn().(*file.Int32ColumnChunkWriter)
 		for i := int32(0); i < int32(en.rowsPerRG); i++ {
-			int32Writer.WriteBatch([]int32{i}, nil, nil)
+			n, err := int32Writer.WriteBatch([]int32{i}, nil, nil)
+			en.EqualValues(1, n)
+			en.Require().NoError(err)
 		}
 
 		// write the int64 column, each row repeats twice
@@ -139,7 +143,9 @@ func (en *EncryptionConfigTestSuite) encryptFile(configs *parquet.FileEncryption
 				repLevel[0] = 1
 			}
 
-			int64Writer.WriteBatch([]int64{value}, defLevel[:], repLevel[:])
+			n, err := int64Writer.WriteBatch([]int64{value}, defLevel[:], repLevel[:])
+			en.EqualValues(1, n)
+			en.Require().NoError(err)
 		}
 
 		// write the int96 col
@@ -149,37 +155,49 @@ func (en *EncryptionConfigTestSuite) encryptFile(configs *parquet.FileEncryption
 			binary.LittleEndian.PutUint32(val[:], uint32(i))
 			binary.LittleEndian.PutUint32(val[4:], uint32(i+1))
 			binary.LittleEndian.PutUint32(val[8:], uint32(i+2))
-			int96Writer.WriteBatch([]parquet.Int96{val}, nil, nil)
+			n, err := int96Writer.WriteBatch([]parquet.Int96{val}, nil, nil)
+			en.EqualValues(1, n)
+			en.Require().NoError(err)
 		}
 
 		// write the float column
 		floatWriter := nextColumn().(*file.Float32ColumnChunkWriter)
 		for i := 0; i < en.rowsPerRG; i++ {
 			val := float32(i) * 1.1
-			floatWriter.WriteBatch([]float32{val}, nil, nil)
+			n, err := floatWriter.WriteBatch([]float32{val}, nil, nil)
+			en.EqualValues(1, n)
+			en.Require().NoError(err)
 		}
 
 		// write the double column
 		doubleWriter := nextColumn().(*file.Float64ColumnChunkWriter)
 		for i := 0; i < en.rowsPerRG; i++ {
 			value := float64(i) * 1.1111111
-			doubleWriter.WriteBatch([]float64{value}, nil, nil)
+			n, err := doubleWriter.WriteBatch([]float64{value}, nil, nil)
+			en.EqualValues(1, n)
+			en.Require().NoError(err)
 		}
 
 		// write the bytearray column. make every alternate value NULL
 		baWriter := nextColumn().(*file.ByteArrayColumnChunkWriter)
 		for i := 0; i < en.rowsPerRG; i++ {
 			var (
+				n     int64
+				err   error
 				hello = []byte{'p', 'a', 'r', 'q', 'u', 'e', 't', 0, 0, 0}
 			)
 			hello[7] = byte(int('0') + i/100)
 			hello[8] = byte(int('0') + (i/10)%10)
 			hello[9] = byte(int('0') + i%10)
 			if i%2 == 0 {
-				baWriter.WriteBatch([]parquet.ByteArray{hello}, []int16{1}, nil)
+				n, err = baWriter.WriteBatch([]parquet.ByteArray{hello}, []int16{1}, nil)
+				en.EqualValues(1, n)
 			} else {
-				baWriter.WriteBatch([]parquet.ByteArray{nil}, []int16{0}, nil)
+				n, err = baWriter.WriteBatch([]parquet.ByteArray{nil}, []int16{0}, nil)
+				en.Zero(n)
 			}
+
+			en.Require().NoError(err)
 		}
 
 		// write fixedlength byte array column
@@ -187,7 +205,9 @@ func (en *EncryptionConfigTestSuite) encryptFile(configs *parquet.FileEncryption
 		for i := 0; i < en.rowsPerRG; i++ {
 			v := byte(i)
 			value := parquet.FixedLenByteArray{v, v, v, v, v, v, v, v, v, v}
-			flbaWriter.WriteBatch([]parquet.FixedLenByteArray{value}, nil, nil)
+			n, err := flbaWriter.WriteBatch([]parquet.FixedLenByteArray{value}, nil, nil)
+			en.EqualValues(1, n)
+			en.Require().NoError(err)
 		}
 	}
 }
diff --git a/go/parquet/file/column_reader.go b/go/parquet/file/column_reader.go
index 32fa21adeae..f77ae408b86 100644
--- a/go/parquet/file/column_reader.go
+++ b/go/parquet/file/column_reader.go
@@ -18,14 +18,15 @@ package file
 
 import (
 	"fmt"
-
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"sync"
+
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"golang.org/x/xerrors"
 )
 
@@ -125,6 +126,7 @@ type columnChunkReader struct {
 	// the number of values we've decoded so far
 	numDecoded int64
 	mem        memory.Allocator
+	bufferPool *sync.Pool
 
 	decoders      map[format.Encoding]encoding.TypedDecoder
 	decoderTraits encoding.DecoderTraits
@@ -136,8 +138,12 @@ type columnChunkReader struct {
 
 // NewColumnReader returns a column reader for the provided column initialized with the given pagereader that will
 // provide the pages of data for this column. The type is determined from the column passed in.
-func NewColumnReader(descr *schema.Column, pageReader PageReader, mem memory.Allocator) ColumnChunkReader {
-	base := columnChunkReader{descr: descr, rdr: pageReader, mem: mem, decoders: make(map[format.Encoding]encoding.TypedDecoder)}
+//
+// In addition to the page reader and allocator, a pointer to a shared sync.Pool is expected to provide buffers for temporary
+// usage to minimize allocations. The bufferPool should provide *memory.Buffer objects that can be resized as necessary, buffers
+// should have `ResizeNoShrink(0)` called on them before being put back into the pool.
+func NewColumnReader(descr *schema.Column, pageReader PageReader, mem memory.Allocator, bufferPool *sync.Pool) ColumnChunkReader {
+	base := columnChunkReader{descr: descr, rdr: pageReader, mem: mem, decoders: make(map[format.Encoding]encoding.TypedDecoder), bufferPool: bufferPool}
 	switch descr.PhysicalType() {
 	case parquet.Types.FixedLenByteArray:
 		base.decoderTraits = &encoding.FixedLenByteArrayDecoderTraits
@@ -273,8 +279,12 @@ func (c *columnChunkReader) initLevelDecodersV2(page *DataPageV2) (int64, error)
 
 	if c.descr.MaxRepetitionLevel() > 0 {
 		c.repetitionDecoder.SetDataV2(page.repLvlByteLen, c.descr.MaxRepetitionLevel(), int(c.numBuffered), buf)
-		buf = buf[page.repLvlByteLen:]
 	}
+	// ARROW-17453: Some writers will write repetition levels even when
+	// the max repetition level is 0, so we should respect the value
+	// in the page header regardless of whether MaxRepetitionLevel is 0
+	// or not.
+	buf = buf[page.repLvlByteLen:]
 
 	if c.descr.MaxDefinitionLevel() > 0 {
 		c.definitionDecoder.SetDataV2(page.defLvlByteLen, c.descr.MaxDefinitionLevel(), int(c.numBuffered), buf)
@@ -435,15 +445,17 @@ func (c *columnChunkReader) skipValues(nvalues int64, readFn func(batch int64, b
 				valsRead  int64 = 0
 			)
 
-			// TODO(ARROW-16790): ideally we should re-use a shared pool of buffers to avoid unnecessary memory allocation for skips
-			scratch := memory.NewResizableBuffer(c.mem)
+			scratch := c.bufferPool.Get().(*memory.Buffer)
+			defer func() {
+				scratch.ResizeNoShrink(0)
+				c.bufferPool.Put(scratch)
+			}()
 			bufMult := 1
 			if c.descr.PhysicalType() == parquet.Types.Boolean {
 				// for bools, BytesRequired returns 1 byte per 8 bool, but casting []byte to []bool requires 1 byte per 1 bool
 				bufMult = 8
 			}
 			scratch.Reserve(c.decoderTraits.BytesRequired(int(batchSize) * bufMult))
-			defer scratch.Release()
 
 			for {
 				batchSize = utils.Min(batchSize, toskip)
diff --git a/go/parquet/file/column_reader_test.go b/go/parquet/file/column_reader_test.go
index eb3409942f6..3c53ccdc448 100755
--- a/go/parquet/file/column_reader_test.go
+++ b/go/parquet/file/column_reader_test.go
@@ -20,14 +20,16 @@ import (
 	"math"
 	"math/rand"
 	"reflect"
+	"runtime"
+	"sync"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/internal/testutils"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/suite"
 )
@@ -173,10 +175,25 @@ type PrimitiveReaderSuite struct {
 	nvalues         int
 	maxDefLvl       int16
 	maxRepLvl       int16
+
+	bufferPool sync.Pool
+}
+
+func (p *PrimitiveReaderSuite) SetupTest() {
+	p.bufferPool = sync.Pool{
+		New: func() interface{} {
+			buf := memory.NewResizableBuffer(mem)
+			runtime.SetFinalizer(buf, func(obj *memory.Buffer) {
+				obj.Release()
+			})
+			return buf
+		},
+	}
 }
 
 func (p *PrimitiveReaderSuite) TearDownTest() {
 	p.clear()
+	p.bufferPool = sync.Pool{}
 }
 
 func (p *PrimitiveReaderSuite) initReader(d *schema.Column) {
@@ -185,7 +202,7 @@ func (p *PrimitiveReaderSuite) initReader(d *schema.Column) {
 	m.TestData().Set("pages", p.pages)
 	m.On("Err").Return((error)(nil))
 	p.pager = m
-	p.reader = file.NewColumnReader(d, m, mem)
+	p.reader = file.NewColumnReader(d, m, mem, &p.bufferPool)
 }
 
 func (p *PrimitiveReaderSuite) checkResults(typ reflect.Type) {
@@ -514,6 +531,40 @@ func (p *PrimitiveReaderSuite) TestInt32FlatRequiredSkip() {
 	})
 }
 
+func (p *PrimitiveReaderSuite) TestRepetitionLvlBytesWithMaxRepZero() {
+	const batchSize = 4
+	p.maxDefLvl = 1
+	p.maxRepLvl = 0
+	typ := schema.NewInt32Node("a", parquet.Repetitions.Optional, -1)
+	descr := schema.NewColumn(typ, p.maxDefLvl, p.maxRepLvl)
+	// Bytes here came from the example parquet file in ARROW-17453's int32
+	// column which was delta bit-packed. The key part is the first three
+	// bytes: the page header reports 1 byte for repetition levels even
+	// though the max rep level is 0. If that byte isn't skipped then
+	// we get def levels of [1, 1, 0, 0] instead of the correct [1, 1, 1, 0].
+	pageData := [...]byte{0x3, 0x3, 0x7, 0x80, 0x1, 0x4, 0x3,
+		0x18, 0x1, 0x2, 0x0, 0x0, 0x0, 0xc,
+		0x0, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0}
+
+	p.pages = append(p.pages, file.NewDataPageV2(memory.NewBufferBytes(pageData[:]), batchSize, 1, batchSize,
+		parquet.Encodings.DeltaBinaryPacked, 2, 1, int32(len(pageData)), false))
+
+	p.initReader(descr)
+	p.NotPanics(func() { p.reader.HasNext() })
+
+	var (
+		values  [4]int32
+		defLvls [4]int16
+	)
+	i32Rdr := p.reader.(*file.Int32ColumnChunkReader)
+	total, read, err := i32Rdr.ReadBatch(batchSize, values[:], defLvls[:], nil)
+	p.NoError(err)
+	p.EqualValues(batchSize, total)
+	p.EqualValues(3, read)
+	p.Equal([]int16{1, 1, 1, 0}, defLvls[:])
+	p.Equal([]int32{12, 11, 13, 0}, values[:])
+}
+
 func (p *PrimitiveReaderSuite) TestDictionaryEncodedPages() {
 	p.maxDefLvl = 0
 	p.maxRepLvl = 0
diff --git a/go/parquet/file/column_reader_types.gen.go b/go/parquet/file/column_reader_types.gen.go
index 43b60037af2..ce684de817e 100644
--- a/go/parquet/file/column_reader_types.gen.go
+++ b/go/parquet/file/column_reader_types.gen.go
@@ -21,9 +21,9 @@ package file
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
 )
 
 // Int32ColumnChunkReader is the Typed Column chunk reader instance for reading
diff --git a/go/parquet/file/column_reader_types.gen.go.tmpl b/go/parquet/file/column_reader_types.gen.go.tmpl
index 783bc6c4145..5963ce824aa 100644
--- a/go/parquet/file/column_reader_types.gen.go.tmpl
+++ b/go/parquet/file/column_reader_types.gen.go.tmpl
@@ -17,8 +17,8 @@
 package file
 
 import (
-    "github.com/apache/arrow/go/v10/parquet"
-    "github.com/apache/arrow/go/v10/parquet/internal/encoding"
+    "github.com/apache/arrow/go/v11/parquet"
+    "github.com/apache/arrow/go/v11/parquet/internal/encoding"
 )
 
 {{range .In}}
diff --git a/go/parquet/file/column_writer.go b/go/parquet/file/column_writer.go
index bb4975a5d48..5ee94817000 100755
--- a/go/parquet/file/column_writer.go
+++ b/go/parquet/file/column_writer.go
@@ -21,14 +21,14 @@ import (
 	"encoding/binary"
 	"io"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 )
 
 //go:generate go run ../../arrow/_tools/tmpl/main.go -i -data=../internal/encoding/physical_types.tmpldata column_writer_types.gen.go.tmpl
@@ -55,6 +55,7 @@ type ColumnChunkWriter interface {
 
 	LevelInfo() LevelInfo
 	SetBitsBuffer(*memory.Buffer)
+	HasBitsBuffer() bool
 }
 
 func computeLevelInfo(descr *schema.Column) (info LevelInfo) {
@@ -154,6 +155,7 @@ func newColumnWriterBase(metaData *metadata.ColumnChunkMetaDataBuilder, pager Pa
 	return ret
 }
 
+func (w *columnWriter) HasBitsBuffer() bool              { return w.bitsBuffer != nil }
 func (w *columnWriter) SetBitsBuffer(buf *memory.Buffer) { w.bitsBuffer = buf }
 
 func (w *columnWriter) LevelInfo() LevelInfo { return w.levelInfo }
@@ -270,15 +272,15 @@ func (w *columnWriter) FlushCurrentPage() error {
 
 	uncompressed := defLevelsRLESize + repLevelsRLESize + int32(values.Len())
 	if isV1DataPage {
-		w.buildDataPageV1(defLevelsRLESize, repLevelsRLESize, uncompressed, values.Bytes())
+		err = w.buildDataPageV1(defLevelsRLESize, repLevelsRLESize, uncompressed, values.Bytes())
 	} else {
-		w.buildDataPageV2(defLevelsRLESize, repLevelsRLESize, uncompressed, values.Bytes())
+		err = w.buildDataPageV2(defLevelsRLESize, repLevelsRLESize, uncompressed, values.Bytes())
 	}
 
 	w.reset()
 	w.rowsWritten += w.numBufferedRows
 	w.numBufferedValues, w.numDataValues, w.numBufferedRows = 0, 0, 0
-	return nil
+	return err
 }
 
 func (w *columnWriter) buildDataPageV1(defLevelsRLESize, repLevelsRLESize, uncompressed int32, values []byte) error {
@@ -313,7 +315,7 @@ func (w *columnWriter) buildDataPageV1(defLevelsRLESize, repLevelsRLESize, uncom
 		w.totalCompressedBytes += int64(len(data))
 		dp := NewDataPageV1WithStats(memory.NewBufferBytes(data), int32(w.numBufferedValues), w.encoding, parquet.Encodings.RLE, parquet.Encodings.RLE, uncompressed, pageStats)
 		defer dp.Release()
-		w.WriteDataPage(dp)
+		return w.WriteDataPage(dp)
 	}
 	return nil
 }
@@ -354,22 +356,27 @@ func (w *columnWriter) buildDataPageV2(defLevelsRLESize, repLevelsRLESize, uncom
 	} else {
 		w.totalCompressedBytes += int64(combined.Len())
 		defer page.Release()
-		w.WriteDataPage(page)
+		return w.WriteDataPage(page)
 	}
 	return nil
 }
 
-func (w *columnWriter) FlushBufferedDataPages() {
+func (w *columnWriter) FlushBufferedDataPages() (err error) {
 	if w.numBufferedValues > 0 {
-		w.FlushCurrentPage()
+		if err = w.FlushCurrentPage(); err != nil {
+			return err
+		}
 	}
 
 	for _, p := range w.pages {
 		defer p.Release()
-		w.WriteDataPage(p)
+		if err = w.WriteDataPage(p); err != nil {
+			return err
+		}
 	}
 	w.pages = w.pages[:0]
 	w.totalCompressedBytes = 0
+	return
 }
 
 func (w *columnWriter) writeLevels(numValues int64, defLevels, repLevels []int16) int64 {
@@ -516,7 +523,23 @@ func (w *columnWriter) Close() (err error) {
 			w.WriteDictionaryPage()
 		}
 
-		w.FlushBufferedDataPages()
+		if err = w.FlushBufferedDataPages(); err != nil {
+			return err
+		}
+
+		// ensure we release and reset everything even if we
+		// error out from the chunk statistics handling
+		defer func() {
+			w.defLevelSink.Reset(0)
+			w.repLevelSink.Reset(0)
+			if w.bitsBuffer != nil {
+				w.bitsBuffer.Release()
+				w.bitsBuffer = nil
+			}
+
+			w.currentEncoder.Release()
+			w.currentEncoder = nil
+		}()
 
 		var chunkStats metadata.EncodedStatistics
 		chunkStats, err = w.getChunkStatistics()
@@ -531,9 +554,6 @@ func (w *columnWriter) Close() (err error) {
 			w.metaData.SetStats(chunkStats)
 		}
 		err = w.pager.Close(w.hasDict, w.fallbackToNonDict)
-
-		w.defLevelSink.Reset(0)
-		w.repLevelSink.Reset(0)
 	}
 	return err
 }
diff --git a/go/parquet/file/column_writer_test.go b/go/parquet/file/column_writer_test.go
index dc141ba1d3d..0dc9a198ae7 100755
--- a/go/parquet/file/column_writer_test.go
+++ b/go/parquet/file/column_writer_test.go
@@ -20,21 +20,23 @@ import (
 	"bytes"
 	"math"
 	"reflect"
+	"runtime"
+	"sync"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	arrutils "github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/compress"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	arrutils "github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/compress"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/testutils"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/mock"
 	"github.com/stretchr/testify/suite"
@@ -223,6 +225,8 @@ type PrimitiveWriterTestSuite struct {
 	metadata   *metadata.ColumnChunkMetaDataBuilder
 	sink       *encoding.BufferWriter
 	readbuffer *memory.Buffer
+
+	bufferPool sync.Pool
 }
 
 func (p *PrimitiveWriterTestSuite) SetupTest() {
@@ -230,12 +234,26 @@ func (p *PrimitiveWriterTestSuite) SetupTest() {
 	p.props = parquet.NewWriterProperties()
 	p.SetupSchema(parquet.Repetitions.Required, 1)
 	p.descr = p.Schema.Column(0)
+
+	p.bufferPool = sync.Pool{
+		New: func() interface{} {
+			buf := memory.NewResizableBuffer(mem)
+			runtime.SetFinalizer(buf, func(obj *memory.Buffer) {
+				obj.Release()
+			})
+			return buf
+		},
+	}
+}
+
+func (p *PrimitiveWriterTestSuite) TearDownTest() {
+	p.bufferPool = sync.Pool{}
 }
 
 func (p *PrimitiveWriterTestSuite) buildReader(nrows int64, compression compress.Compression) file.ColumnChunkReader {
 	p.readbuffer = p.sink.Finish()
 	pagereader, _ := file.NewPageReader(arrutils.NewBufferedReader(bytes.NewReader(p.readbuffer.Bytes()), p.readbuffer.Len()), nrows, compression, mem, nil)
-	return file.NewColumnReader(p.descr, pagereader, mem)
+	return file.NewColumnReader(p.descr, pagereader, mem, &p.bufferPool)
 }
 
 func (p *PrimitiveWriterTestSuite) buildWriter(_ int64, columnProps parquet.ColumnProperties, version parquet.Version) file.ColumnChunkWriter {
diff --git a/go/parquet/file/column_writer_types.gen.go b/go/parquet/file/column_writer_types.gen.go
index 6b4a740c88f..20c272e98d2 100644
--- a/go/parquet/file/column_writer_types.gen.go
+++ b/go/parquet/file/column_writer_types.gen.go
@@ -21,10 +21,10 @@ package file
 import (
 	"fmt"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/file/column_writer_types.gen.go.tmpl b/go/parquet/file/column_writer_types.gen.go.tmpl
index 4304484edec..4e3c0fa685c 100644
--- a/go/parquet/file/column_writer_types.gen.go.tmpl
+++ b/go/parquet/file/column_writer_types.gen.go.tmpl
@@ -19,10 +19,10 @@ package file
 import (
     "fmt"
     
-    "github.com/apache/arrow/go/v10/parquet"
-    "github.com/apache/arrow/go/v10/parquet/metadata"
-    "github.com/apache/arrow/go/v10/parquet/internal/encoding"
-    format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
+    "github.com/apache/arrow/go/v11/parquet"
+    "github.com/apache/arrow/go/v11/parquet/metadata"
+    "github.com/apache/arrow/go/v11/parquet/internal/encoding"
+    format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
 )
 
 {{range .In}}
diff --git a/go/parquet/file/file_reader.go b/go/parquet/file/file_reader.go
index a7e6525ace3..9c394828336 100644
--- a/go/parquet/file/file_reader.go
+++ b/go/parquet/file/file_reader.go
@@ -22,11 +22,13 @@ import (
 	"fmt"
 	"io"
 	"os"
+	"runtime"
+	"sync"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
 	"golang.org/x/xerrors"
 )
 
@@ -47,6 +49,8 @@ type Reader struct {
 	metadata      *metadata.FileMetaData
 	footerOffset  int64
 	fileDecryptor encryption.FileDecryptor
+
+	bufferPool sync.Pool
 }
 
 type ReadOption func(*Reader)
@@ -113,6 +117,16 @@ func NewParquetReader(r parquet.ReaderAtSeeker, opts ...ReadOption) (*Reader, er
 		f.props = parquet.NewReaderProperties(memory.NewGoAllocator())
 	}
 
+	f.bufferPool = sync.Pool{
+		New: func() interface{} {
+			buf := memory.NewResizableBuffer(f.props.Allocator())
+			runtime.SetFinalizer(buf, func(obj *memory.Buffer) {
+				obj.Release()
+			})
+			return buf
+		},
+	}
+
 	if f.metadata == nil {
 		return f, f.parseMetaData()
 	}
@@ -120,6 +134,14 @@ func NewParquetReader(r parquet.ReaderAtSeeker, opts ...ReadOption) (*Reader, er
 	return f, nil
 }
 
+// BufferPool returns the internal buffer pool being utilized by this reader.
+// This is primarily for use by the pqarrow.FileReader or anything that builds
+// on top of the Reader and constructs their own ColumnReaders (like the
+// RecordReader)
+func (f *Reader) BufferPool() *sync.Pool {
+	return &f.bufferPool
+}
+
 // Close will close the current reader, and if the underlying reader being used
 // is an `io.Closer` then Close will be called on it too.
 func (f *Reader) Close() error {
@@ -290,5 +312,6 @@ func (f *Reader) RowGroup(i int) *RowGroupReader {
 		r:             f.r,
 		sourceSz:      f.footerOffset,
 		fileDecryptor: f.fileDecryptor,
+		bufferPool:    &f.bufferPool,
 	}
 }
diff --git a/go/parquet/file/file_reader_mmap.go b/go/parquet/file/file_reader_mmap.go
index 0890ba5eb06..d84491c9433 100644
--- a/go/parquet/file/file_reader_mmap.go
+++ b/go/parquet/file/file_reader_mmap.go
@@ -22,7 +22,7 @@ package file
 import (
 	"io"
 
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/parquet"
 	"golang.org/x/exp/mmap"
 	"golang.org/x/xerrors"
 )
diff --git a/go/parquet/file/file_reader_mmap_windows.go b/go/parquet/file/file_reader_mmap_windows.go
index b0d6162afbb..874b6d18c83 100644
--- a/go/parquet/file/file_reader_mmap_windows.go
+++ b/go/parquet/file/file_reader_mmap_windows.go
@@ -22,7 +22,7 @@ package file
 import (
 	"errors"
 
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/parquet"
 )
 
 func mmapOpen(filename string) (parquet.ReaderAtSeeker, error) {
diff --git a/go/parquet/file/file_reader_test.go b/go/parquet/file/file_reader_test.go
index d1706e56084..22b3e3a1628 100644
--- a/go/parquet/file/file_reader_test.go
+++ b/go/parquet/file/file_reader_test.go
@@ -23,14 +23,14 @@ import (
 	"math/rand"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet/compress"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet/compress"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/thrift"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
 	libthrift "github.com/apache/thrift/lib/go/thrift"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/suite"
diff --git a/go/parquet/file/file_writer.go b/go/parquet/file/file_writer.go
index 5f2f1d30074..5254bfd4e73 100644
--- a/go/parquet/file/file_writer.go
+++ b/go/parquet/file/file_writer.go
@@ -20,11 +20,11 @@ import (
 	"encoding/binary"
 	"io"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 )
 
 // Writer is the primary interface for writing a parquet file
diff --git a/go/parquet/file/file_writer_test.go b/go/parquet/file/file_writer_test.go
index 477c35ffb10..486c05f1a29 100644
--- a/go/parquet/file/file_writer_test.go
+++ b/go/parquet/file/file_writer_test.go
@@ -21,13 +21,13 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/compress"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v10/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/compress"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/parquet/internal/testutils"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/suite"
 )
diff --git a/go/parquet/file/level_conversion.go b/go/parquet/file/level_conversion.go
index af2029f4a30..48575bcf0e2 100755
--- a/go/parquet/file/level_conversion.go
+++ b/go/parquet/file/level_conversion.go
@@ -22,11 +22,11 @@ import (
 	"math/bits"
 	"unsafe"
 
-	shared_utils "github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/bmi"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	shared_utils "github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/bmi"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/file/level_conversion_test.go b/go/parquet/file/level_conversion_test.go
index 58298228074..3bd636efc08 100644
--- a/go/parquet/file/level_conversion_test.go
+++ b/go/parquet/file/level_conversion_test.go
@@ -20,9 +20,9 @@ import (
 	"strings"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/parquet/internal/bmi"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/parquet/internal/bmi"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/parquet/file/page_reader.go b/go/parquet/file/page_reader.go
index 324e5969cc7..94c0f66893f 100644
--- a/go/parquet/file/page_reader.go
+++ b/go/parquet/file/page_reader.go
@@ -23,13 +23,13 @@ import (
 	"sync"
 
 	"github.com/JohnCGriffin/overflow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/compress"
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/compress"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/thrift"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
 	"golang.org/x/xerrors"
 )
 
@@ -573,30 +573,27 @@ func (p *serializedPageReader) Next() bool {
 				return false
 			}
 
-			var pagebuf *memory.Buffer
 			if compressed {
 				if levelsBytelen > 0 {
 					io.ReadFull(p.r, buf.Bytes()[:levelsBytelen])
 				}
-				var data []byte
-				if data, p.err = p.decompress(lenCompressed-levelsBytelen, buf.Bytes()[levelsBytelen:]); p.err != nil {
+				if _, p.err = p.decompress(lenCompressed-levelsBytelen, buf.Bytes()[levelsBytelen:]); p.err != nil {
 					return false
 				}
-				pagebuf = memory.NewBufferBytes(data)
 			} else {
 				io.ReadFull(p.r, buf.Bytes())
-				pagebuf = buf
-				pagebuf.Retain()
 			}
-			if pagebuf.Len() != lenUncompressed {
-				p.err = fmt.Errorf("parquet: metadata said %d bytes uncompressed data page, got %d bytes", lenUncompressed, pagebuf.Len())
+			buf.Retain()
+
+			if buf.Len() != lenUncompressed {
+				p.err = fmt.Errorf("parquet: metadata said %d bytes uncompressed data page, got %d bytes", lenUncompressed, buf.Len())
 				return false
 			}
 
 			// make datapage v2
 			p.curPage = &DataPageV2{
 				page: page{
-					buf:      pagebuf,
+					buf:      buf,
 					typ:      p.curPageHdr.Type,
 					nvals:    dataHeader.GetNumValues(),
 					encoding: dataHeader.GetEncoding(),
diff --git a/go/parquet/file/page_writer.go b/go/parquet/file/page_writer.go
index 916e0eac55a..80ec6508f8a 100644
--- a/go/parquet/file/page_writer.go
+++ b/go/parquet/file/page_writer.go
@@ -20,15 +20,15 @@ import (
 	"bytes"
 	"sync"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/compress"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/compress"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/thrift"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
 	libthrift "github.com/apache/thrift/lib/go/thrift"
 	"golang.org/x/xerrors"
 )
@@ -182,8 +182,10 @@ func (pw *serializedPageWriter) updateEncryption(moduleType int8) error {
 		pw.metaEncryptor.UpdateAad(encryption.CreateModuleAad(pw.metaEncryptor.FileAad(), moduleType, pw.rgOrdinal, pw.columnOrdinal, -1))
 	case encryption.DictPageModule:
 		pw.dataEncryptor.UpdateAad(encryption.CreateModuleAad(pw.dataEncryptor.FileAad(), moduleType, pw.rgOrdinal, pw.columnOrdinal, -1))
+	default:
+		return xerrors.New("unknown module type in updateencryption")
 	}
-	return xerrors.New("unknown module type in updateencryption")
+	return nil
 }
 
 func (pw *serializedPageWriter) Close(hasDict, fallback bool) error {
diff --git a/go/parquet/file/record_reader.go b/go/parquet/file/record_reader.go
index 7daefac457b..bb4ad2f5d48 100755
--- a/go/parquet/file/record_reader.go
+++ b/go/parquet/file/record_reader.go
@@ -18,18 +18,19 @@ package file
 
 import (
 	"fmt"
+	"sync"
 	"sync/atomic"
 	"unsafe"
 
 	"github.com/JohnCGriffin/overflow"
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"golang.org/x/xerrors"
 )
 
@@ -127,9 +128,9 @@ type primitiveRecordReader struct {
 	useValues bool
 }
 
-func createPrimitiveRecordReader(descr *schema.Column, mem memory.Allocator) primitiveRecordReader {
+func createPrimitiveRecordReader(descr *schema.Column, mem memory.Allocator, bufferPool *sync.Pool) primitiveRecordReader {
 	return primitiveRecordReader{
-		ColumnChunkReader: NewColumnReader(descr, nil, mem),
+		ColumnChunkReader: NewColumnReader(descr, nil, mem, bufferPool),
 		values:            memory.NewResizableBuffer(mem),
 		validBits:         memory.NewResizableBuffer(mem),
 		mem:               mem,
@@ -326,12 +327,12 @@ func (b *binaryRecordReader) GetBuilderChunks() []arrow.Array {
 	return b.recordReaderImpl.(binaryRecordReaderImpl).GetBuilderChunks()
 }
 
-func newRecordReader(descr *schema.Column, info LevelInfo, mem memory.Allocator) RecordReader {
+func newRecordReader(descr *schema.Column, info LevelInfo, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
 	if mem == nil {
 		mem = memory.DefaultAllocator
 	}
 
-	pr := createPrimitiveRecordReader(descr, mem)
+	pr := createPrimitiveRecordReader(descr, mem, bufferPool)
 	return &recordReader{
 		refCount:         1,
 		recordReaderImpl: &pr,
@@ -722,7 +723,7 @@ func (fr *flbaRecordReader) GetBuilderChunks() []arrow.Array {
 	return []arrow.Array{fr.bldr.NewArray()}
 }
 
-func newFLBARecordReader(descr *schema.Column, info LevelInfo, mem memory.Allocator) RecordReader {
+func newFLBARecordReader(descr *schema.Column, info LevelInfo, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
 	if mem == nil {
 		mem = memory.DefaultAllocator
 	}
@@ -731,7 +732,7 @@ func newFLBARecordReader(descr *schema.Column, info LevelInfo, mem memory.Alloca
 
 	return &binaryRecordReader{&recordReader{
 		recordReaderImpl: &flbaRecordReader{
-			createPrimitiveRecordReader(descr, mem),
+			createPrimitiveRecordReader(descr, mem, bufferPool),
 			array.NewFixedSizeBinaryBuilder(mem, &arrow.FixedSizeBinaryType{ByteWidth: byteWidth}),
 			nil,
 		},
@@ -750,7 +751,7 @@ type byteArrayRecordReader struct {
 	valueBuf []parquet.ByteArray
 }
 
-func newByteArrayRecordReader(descr *schema.Column, info LevelInfo, mem memory.Allocator) RecordReader {
+func newByteArrayRecordReader(descr *schema.Column, info LevelInfo, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
 	if mem == nil {
 		mem = memory.DefaultAllocator
 	}
@@ -762,7 +763,7 @@ func newByteArrayRecordReader(descr *schema.Column, info LevelInfo, mem memory.A
 
 	return &binaryRecordReader{&recordReader{
 		recordReaderImpl: &byteArrayRecordReader{
-			createPrimitiveRecordReader(descr, mem),
+			createPrimitiveRecordReader(descr, mem, bufferPool),
 			array.NewBinaryBuilder(mem, dt),
 			nil,
 		},
@@ -840,13 +841,13 @@ func (br *byteArrayRecordReader) GetBuilderChunks() []arrow.Array {
 
 // TODO(mtopol): create optimized readers for dictionary types after ARROW-7286 is done
 
-func NewRecordReader(descr *schema.Column, info LevelInfo, readDict bool, mem memory.Allocator) RecordReader {
+func NewRecordReader(descr *schema.Column, info LevelInfo, readDict bool, mem memory.Allocator, bufferPool *sync.Pool) RecordReader {
 	switch descr.PhysicalType() {
 	case parquet.Types.ByteArray:
-		return newByteArrayRecordReader(descr, info, mem)
+		return newByteArrayRecordReader(descr, info, mem, bufferPool)
 	case parquet.Types.FixedLenByteArray:
-		return newFLBARecordReader(descr, info, mem)
+		return newFLBARecordReader(descr, info, mem, bufferPool)
 	default:
-		return newRecordReader(descr, info, mem)
+		return newRecordReader(descr, info, mem, bufferPool)
 	}
 }
diff --git a/go/parquet/file/row_group_reader.go b/go/parquet/file/row_group_reader.go
index 71c71ec38ef..5bb6f75a161 100644
--- a/go/parquet/file/row_group_reader.go
+++ b/go/parquet/file/row_group_reader.go
@@ -18,11 +18,12 @@ package file
 
 import (
 	"fmt"
+	"sync"
 
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
 	"golang.org/x/xerrors"
 )
 
@@ -38,6 +39,8 @@ type RowGroupReader struct {
 	rgMetadata    *metadata.RowGroupMetaData
 	props         *parquet.ReaderProperties
 	fileDecryptor encryption.FileDecryptor
+
+	bufferPool *sync.Pool
 }
 
 // MetaData returns the metadata of the current Row Group
@@ -65,7 +68,7 @@ func (r *RowGroupReader) Column(i int) (ColumnChunkReader, error) {
 	if err != nil {
 		return nil, fmt.Errorf("parquet: unable to initialize page reader: %w", err)
 	}
-	return NewColumnReader(descr, pageRdr, r.props.Allocator()), nil
+	return NewColumnReader(descr, pageRdr, r.props.Allocator(), r.bufferPool), nil
 }
 
 func (r *RowGroupReader) GetColumnPageReader(i int) (PageReader, error) {
diff --git a/go/parquet/file/row_group_writer.go b/go/parquet/file/row_group_writer.go
index 043ffa85f7f..173acb5c582 100644
--- a/go/parquet/file/row_group_writer.go
+++ b/go/parquet/file/row_group_writer.go
@@ -17,10 +17,10 @@
 package file
 
 import (
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/file/row_group_writer_test.go b/go/parquet/file/row_group_writer_test.go
index b0b223e23b3..9b1ec6473fe 100644
--- a/go/parquet/file/row_group_writer_test.go
+++ b/go/parquet/file/row_group_writer_test.go
@@ -20,10 +20,10 @@ import (
 	"bytes"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/apache/thrift/lib/go/thrift"
 	"github.com/stretchr/testify/assert"
 )
diff --git a/go/parquet/internal/bmi/bitmap_bmi2_ppc64le.go b/go/parquet/internal/bmi/bitmap_bmi2_ppc64le.go
new file mode 100644
index 00000000000..498d5452e17
--- /dev/null
+++ b/go/parquet/internal/bmi/bitmap_bmi2_ppc64le.go
@@ -0,0 +1,24 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// +build !noasm
+
+package bmi
+
+func init() {
+	funclist.extractBits = extractBitsGo
+	funclist.gtbitmap = greaterThanBitmapGo
+}
diff --git a/go/parquet/internal/encoding/boolean_decoder.go b/go/parquet/internal/encoding/boolean_decoder.go
index 21b1e2dfcb8..3ccd7106e65 100644
--- a/go/parquet/internal/encoding/boolean_decoder.go
+++ b/go/parquet/internal/encoding/boolean_decoder.go
@@ -17,10 +17,10 @@
 package encoding
 
 import (
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	shared_utils "github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	shared_utils "github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/internal/encoding/boolean_encoder.go b/go/parquet/internal/encoding/boolean_encoder.go
index 02bfbb2e6ac..f207fb1074e 100644
--- a/go/parquet/internal/encoding/boolean_encoder.go
+++ b/go/parquet/internal/encoding/boolean_encoder.go
@@ -17,9 +17,9 @@
 package encoding
 
 import (
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
 )
 
 const (
diff --git a/go/parquet/internal/encoding/byte_array_decoder.go b/go/parquet/internal/encoding/byte_array_decoder.go
index 228de704557..9cbd9ed8706 100644
--- a/go/parquet/internal/encoding/byte_array_decoder.go
+++ b/go/parquet/internal/encoding/byte_array_decoder.go
@@ -19,8 +19,8 @@ package encoding
 import (
 	"encoding/binary"
 
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/internal/encoding/byte_array_encoder.go b/go/parquet/internal/encoding/byte_array_encoder.go
index 777d927c76e..09188ea5d20 100644
--- a/go/parquet/internal/encoding/byte_array_encoder.go
+++ b/go/parquet/internal/encoding/byte_array_encoder.go
@@ -20,10 +20,10 @@ import (
 	"encoding/binary"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
 )
 
 // PlainByteArrayEncoder encodes byte arrays according to the spec for Plain encoding
diff --git a/go/parquet/internal/encoding/decoder.go b/go/parquet/internal/encoding/decoder.go
index 11ab21807c5..fc137c02d71 100644
--- a/go/parquet/internal/encoding/decoder.go
+++ b/go/parquet/internal/encoding/decoder.go
@@ -20,13 +20,13 @@ import (
 	"bytes"
 	"reflect"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/debug"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/debug"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/internal/encoding/delta_bit_packing.go b/go/parquet/internal/encoding/delta_bit_packing.go
index edb9d560777..d2d8825bcb1 100644
--- a/go/parquet/internal/encoding/delta_bit_packing.go
+++ b/go/parquet/internal/encoding/delta_bit_packing.go
@@ -22,11 +22,11 @@ import (
 	"math/bits"
 	"reflect"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	shared_utils "github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	shared_utils "github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
 	"golang.org/x/xerrors"
 )
 
@@ -50,7 +50,8 @@ type deltaBitPackDecoder struct {
 	deltaBitWidths *memory.Buffer
 	deltaBitWidth  byte
 
-	lastVal int64
+	totalValues uint64
+	lastVal     int64
 }
 
 // returns the number of bytes read so far
@@ -85,15 +86,10 @@ func (d *deltaBitPackDecoder) SetData(nvalues int, data []byte) error {
 		return xerrors.New("parquet: eof exception")
 	}
 
-	var totalValues uint64
-	if totalValues, ok = d.bitdecoder.GetVlqInt(); !ok {
+	if d.totalValues, ok = d.bitdecoder.GetVlqInt(); !ok {
 		return xerrors.New("parquet: eof exception")
 	}
 
-	if int(totalValues) != d.nvals {
-		return xerrors.New("parquet: mismatch between number of values and count in data header")
-	}
-
 	if d.lastVal, ok = d.bitdecoder.GetZigZagVlqInt(); !ok {
 		return xerrors.New("parquet: eof exception")
 	}
@@ -186,14 +182,13 @@ func (d *DeltaBitPackInt32Decoder) Decode(out []int32) (int, error) {
 
 		// copy as many values from our mini block as we can into out
 		start := int(d.valsPerMini - d.currentMiniBlockVals)
-		end := shared_utils.MinInt(int(d.valsPerMini), len(out))
-		copy(out, d.miniBlockValues[start:end])
+		numCopied := copy(out, d.miniBlockValues[start:])
 
-		numCopied := end - start
 		out = out[numCopied:]
 		d.currentBlockVals -= uint32(numCopied)
 		d.currentMiniBlockVals -= uint32(numCopied)
 	}
+	d.nvals -= max
 	return max, nil
 }
 
@@ -275,14 +270,13 @@ func (d *DeltaBitPackInt64Decoder) Decode(out []int64) (int, error) {
 		}
 
 		start := int(d.valsPerMini - d.currentMiniBlockVals)
-		end := shared_utils.MinInt(int(d.valsPerMini), len(out))
-		copy(out, d.miniBlockValues[start:end])
+		numCopied := copy(out, d.miniBlockValues[start:])
 
-		numCopied := end - start
 		out = out[numCopied:]
 		d.currentBlockVals -= uint32(numCopied)
 		d.currentMiniBlockVals -= uint32(numCopied)
 	}
+	d.nvals -= max
 	return max, nil
 }
 
diff --git a/go/parquet/internal/encoding/delta_byte_array.go b/go/parquet/internal/encoding/delta_byte_array.go
index 4a250a90ba9..ac74b6a564e 100644
--- a/go/parquet/internal/encoding/delta_byte_array.go
+++ b/go/parquet/internal/encoding/delta_byte_array.go
@@ -17,9 +17,9 @@
 package encoding
 
 import (
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/internal/encoding/delta_length_byte_array.go b/go/parquet/internal/encoding/delta_length_byte_array.go
index 01566fcfc83..1b7a40b32f5 100644
--- a/go/parquet/internal/encoding/delta_length_byte_array.go
+++ b/go/parquet/internal/encoding/delta_length_byte_array.go
@@ -17,9 +17,9 @@
 package encoding
 
 import (
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/internal/encoding/encoder.go b/go/parquet/internal/encoding/encoder.go
index 88fbd204b0f..e3f316575ce 100644
--- a/go/parquet/internal/encoding/encoder.go
+++ b/go/parquet/internal/encoding/encoder.go
@@ -20,14 +20,14 @@ import (
 	"math/bits"
 	"reflect"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	"github.com/apache/arrow/go/v10/parquet"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"github.com/apache/arrow/go/v11/parquet"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 )
 
 //go:generate go run ../../../arrow/_tools/tmpl/main.go -i -data=physical_types.tmpldata plain_encoder_types.gen.go.tmpl typed_encoder.gen.go.tmpl
@@ -79,6 +79,14 @@ func newEncoderBase(e format.Encoding, descr *schema.Column, mem memory.Allocato
 	}
 }
 
+func (e *encoder) Release() {
+	poolbuf := e.sink.buf
+	memory.Set(poolbuf.Buf(), 0)
+	poolbuf.ResizeNoShrink(0)
+	bufferPool.Put(poolbuf)
+	e.sink = nil
+}
+
 // ReserveForWrite allocates n bytes so that the next n bytes written do not require new allocations.
 func (e *encoder) ReserveForWrite(n int)           { e.sink.Reserve(n) }
 func (e *encoder) EstimatedDataEncodedSize() int64 { return int64(e.sink.Len()) }
@@ -126,6 +134,16 @@ func (d *dictEncoder) Reset() {
 	d.memo.Reset()
 }
 
+func (d *dictEncoder) Release() {
+	d.encoder.Release()
+	d.idxBuffer.Release()
+	if m, ok := d.memo.(BinaryMemoTable); ok {
+		m.Release()
+	} else {
+		d.memo.Reset()
+	}
+}
+
 // append the passed index to the indexbuffer
 func (d *dictEncoder) addIndex(idx int) {
 	if len(d.idxValues) == cap(d.idxValues) {
diff --git a/go/parquet/internal/encoding/encoding_benchmarks_test.go b/go/parquet/internal/encoding/encoding_benchmarks_test.go
index fd1285b4d99..6a6ea88ea67 100644
--- a/go/parquet/internal/encoding/encoding_benchmarks_test.go
+++ b/go/parquet/internal/encoding/encoding_benchmarks_test.go
@@ -21,14 +21,14 @@ import (
 	"math"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/hashing"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v10/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/hashing"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/parquet/internal/testutils"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 )
 
 const (
diff --git a/go/parquet/internal/encoding/encoding_test.go b/go/parquet/internal/encoding/encoding_test.go
index eb95a2da5b9..9bdfe98eb55 100644
--- a/go/parquet/internal/encoding/encoding_test.go
+++ b/go/parquet/internal/encoding/encoding_test.go
@@ -17,19 +17,24 @@
 package encoding_test
 
 import (
+	"bufio"
 	"fmt"
+	"os"
+	"path"
 	"reflect"
+	"strconv"
 	"testing"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v10/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/parquet/internal/testutils"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
 	"github.com/stretchr/testify/suite"
 )
 
@@ -682,3 +687,59 @@ func TestDeltaByteArrayEncoding(t *testing.T) {
 	assert.Equal(t, len(test), decoded)
 	assert.Equal(t, test, out)
 }
+
+func TestDeltaBitPacking(t *testing.T) {
+	datadir := os.Getenv("ARROW_TEST_DATA")
+	if datadir == "" {
+		return
+	}
+
+	fname := path.Join(datadir, "parquet/timestamp.data")
+	require.FileExists(t, fname)
+	f, err := os.Open(fname)
+	if err != nil {
+		t.Fatal(err)
+	}
+	defer f.Close()
+
+	values := make([]int64, 0)
+
+	scanner := bufio.NewScanner(f)
+	for scanner.Scan() {
+		v, err := strconv.ParseInt(scanner.Text(), 10, 64)
+		if err != nil {
+			t.Fatal(err)
+		}
+		values = append(values, v)
+	}
+
+	if err := scanner.Err(); err != nil {
+		t.Fatal(err)
+	}
+
+	col := schema.NewColumn(schema.MustPrimitive(schema.NewPrimitiveNode("foo", parquet.Repetitions.Required,
+		parquet.Types.Int64, -1, -1)), 0, 0)
+	enc := encoding.NewEncoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, false, col, memory.DefaultAllocator).(encoding.Int64Encoder)
+
+	enc.Put(values)
+	buf, err := enc.FlushValues()
+	if err != nil {
+		t.Fatal(err)
+	}
+	defer buf.Release()
+
+	dec := encoding.NewDecoder(parquet.Types.Int64, parquet.Encodings.DeltaBinaryPacked, col, memory.DefaultAllocator).(encoding.Int64Decoder)
+	dec.SetData(len(values), buf.Bytes())
+
+	ll := len(values)
+	for i := 0; i < ll; i += 1024 {
+		out := make([]int64, 1024)
+		n, err := dec.Decode(out)
+		if err != nil {
+			t.Fatal(err)
+		}
+		assert.Equal(t, values[:n], out[:n])
+		values = values[n:]
+	}
+	assert.Equal(t, dec.ValuesLeft(), 0)
+}
diff --git a/go/parquet/internal/encoding/fixed_len_byte_array_decoder.go b/go/parquet/internal/encoding/fixed_len_byte_array_decoder.go
index 425756d044b..eaf0541613a 100644
--- a/go/parquet/internal/encoding/fixed_len_byte_array_decoder.go
+++ b/go/parquet/internal/encoding/fixed_len_byte_array_decoder.go
@@ -19,8 +19,8 @@ package encoding
 import (
 	"math"
 
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/internal/encoding/fixed_len_byte_array_encoder.go b/go/parquet/internal/encoding/fixed_len_byte_array_encoder.go
index 84aabf546d9..2ae9e8e15b1 100644
--- a/go/parquet/internal/encoding/fixed_len_byte_array_encoder.go
+++ b/go/parquet/internal/encoding/fixed_len_byte_array_encoder.go
@@ -17,8 +17,8 @@
 package encoding
 
 import (
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"github.com/apache/arrow/go/v11/parquet"
 )
 
 // PlainFixedLenByteArrayEncoder writes the raw bytes of the byte array
diff --git a/go/parquet/internal/encoding/levels.go b/go/parquet/internal/encoding/levels.go
index cf5a2829168..e608795dd2d 100644
--- a/go/parquet/internal/encoding/levels.go
+++ b/go/parquet/internal/encoding/levels.go
@@ -24,11 +24,11 @@ import (
 	"math/bits"
 
 	"github.com/JohnCGriffin/overflow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	shared_utils "github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	shared_utils "github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/internal/encoding/levels_test.go b/go/parquet/internal/encoding/levels_test.go
index 0260bbe6765..a470fd199d7 100644
--- a/go/parquet/internal/encoding/levels_test.go
+++ b/go/parquet/internal/encoding/levels_test.go
@@ -21,11 +21,11 @@ import (
 	"strconv"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/parquet/internal/encoding/memo_table.go b/go/parquet/internal/encoding/memo_table.go
index 6848d2a38bb..66cd8df22ce 100644
--- a/go/parquet/internal/encoding/memo_table.go
+++ b/go/parquet/internal/encoding/memo_table.go
@@ -20,11 +20,11 @@ import (
 	"math"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/hashing"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/hashing"
+	"github.com/apache/arrow/go/v11/parquet"
 )
 
 //go:generate go run ../../../arrow/_tools/tmpl/main.go -i -data=physical_types.tmpldata memo_table_types.gen.go.tmpl
diff --git a/go/parquet/internal/encoding/memo_table_test.go b/go/parquet/internal/encoding/memo_table_test.go
index 1f213eba77c..4a0408f14a6 100644
--- a/go/parquet/internal/encoding/memo_table_test.go
+++ b/go/parquet/internal/encoding/memo_table_test.go
@@ -20,11 +20,11 @@ import (
 	"math"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/hashing"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/hashing"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
 	"github.com/stretchr/testify/suite"
 )
 
diff --git a/go/parquet/internal/encoding/memo_table_types.gen.go b/go/parquet/internal/encoding/memo_table_types.gen.go
index 6f4ceec51d9..7a4a54d9c61 100644
--- a/go/parquet/internal/encoding/memo_table_types.gen.go
+++ b/go/parquet/internal/encoding/memo_table_types.gen.go
@@ -19,8 +19,8 @@
 package encoding
 
 import (
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
 )
 
 // standard map based implementation of memo tables which can be more efficient
diff --git a/go/parquet/internal/encoding/memo_table_types.gen.go.tmpl b/go/parquet/internal/encoding/memo_table_types.gen.go.tmpl
index 47cc6d2780f..59a7de23b08 100644
--- a/go/parquet/internal/encoding/memo_table_types.gen.go.tmpl
+++ b/go/parquet/internal/encoding/memo_table_types.gen.go.tmpl
@@ -17,7 +17,7 @@
 package encoding
 
 import (
-  "github.com/apache/arrow/go/v10/parquet"
+  "github.com/apache/arrow/go/v11/parquet"
 )
 
 // standard map based implementation of memo tables which can be more efficient
diff --git a/go/parquet/internal/encoding/plain_encoder_types.gen.go b/go/parquet/internal/encoding/plain_encoder_types.gen.go
index a82fffb02ba..98d7a3c58ff 100644
--- a/go/parquet/internal/encoding/plain_encoder_types.gen.go
+++ b/go/parquet/internal/encoding/plain_encoder_types.gen.go
@@ -24,11 +24,11 @@ import (
 	"fmt"
 	"math"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/endian"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/endian"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/internal/encoding/plain_encoder_types.gen.go.tmpl b/go/parquet/internal/encoding/plain_encoder_types.gen.go.tmpl
index 4fbb685816c..838a355b471 100644
--- a/go/parquet/internal/encoding/plain_encoder_types.gen.go.tmpl
+++ b/go/parquet/internal/encoding/plain_encoder_types.gen.go.tmpl
@@ -20,10 +20,10 @@ import (
   "encoding/binary"
   "fmt"
 
-  "github.com/apache/arrow/go/v10/arrow"
-  "github.com/apache/arrow/go/v10/parquet"
-  "github.com/apache/arrow/go/v10/internal/utils"
-  "github.com/apache/arrow/go/v10/internal/bitutils"
+  "github.com/apache/arrow/go/v11/arrow"
+  "github.com/apache/arrow/go/v11/parquet"
+  "github.com/apache/arrow/go/v11/internal/utils"
+  "github.com/apache/arrow/go/v11/internal/bitutils"
 )
 
 var (
diff --git a/go/parquet/internal/encoding/typed_encoder.gen.go b/go/parquet/internal/encoding/typed_encoder.gen.go
index 92d738ac412..a58f61dfc97 100644
--- a/go/parquet/internal/encoding/typed_encoder.gen.go
+++ b/go/parquet/internal/encoding/typed_encoder.gen.go
@@ -21,14 +21,14 @@ package encoding
 import (
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	shared_utils "github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	shared_utils "github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/internal/encoding/typed_encoder.gen.go.tmpl b/go/parquet/internal/encoding/typed_encoder.gen.go.tmpl
index c73dfe55301..6133ec8fc95 100644
--- a/go/parquet/internal/encoding/typed_encoder.gen.go.tmpl
+++ b/go/parquet/internal/encoding/typed_encoder.gen.go.tmpl
@@ -17,13 +17,13 @@
 package encoding
 
 import (
-  "github.com/apache/arrow/go/v10/parquet"
-  "github.com/apache/arrow/go/v10/parquet/schema"
-  format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-  "github.com/apache/arrow/go/v10/arrow"
-  "github.com/apache/arrow/go/v10/parquet/internal/utils"
-  shared_utils "github.com/apache/arrow/go/v10/internal/utils"
-  "github.com/apache/arrow/go/v10/internal/bitutils"
+  "github.com/apache/arrow/go/v11/parquet"
+  "github.com/apache/arrow/go/v11/parquet/schema"
+  format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+  "github.com/apache/arrow/go/v11/arrow"
+  "github.com/apache/arrow/go/v11/parquet/internal/utils"
+  shared_utils "github.com/apache/arrow/go/v11/internal/utils"
+  "github.com/apache/arrow/go/v11/internal/bitutils"
 )
 
 // fully typed encoder interfaces to enable writing against encoder/decoders
diff --git a/go/parquet/internal/encoding/types.go b/go/parquet/internal/encoding/types.go
index 1536f7e7c6f..e85c0bdb8ea 100644
--- a/go/parquet/internal/encoding/types.go
+++ b/go/parquet/internal/encoding/types.go
@@ -20,10 +20,10 @@ import (
 	"io"
 	"sync"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
 	"golang.org/x/xerrors"
 )
 
@@ -71,6 +71,7 @@ type TypedEncoder interface {
 	Allocator() memory.Allocator
 	// Type returns the underlying physical type this encodes.
 	Type() parquet.Type
+	Release()
 }
 
 // DictEncoder is a special kind of TypedEncoder which implements Dictionary
diff --git a/go/parquet/internal/encryption/aes.go b/go/parquet/internal/encryption/aes.go
index 8806ef8cb46..2ddc4ffd910 100644
--- a/go/parquet/internal/encryption/aes.go
+++ b/go/parquet/internal/encryption/aes.go
@@ -29,7 +29,7 @@ import (
 	"fmt"
 	"io"
 
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/parquet"
 )
 
 // important constants for handling the aes encryption
diff --git a/go/parquet/internal/encryption/decryptor.go b/go/parquet/internal/encryption/decryptor.go
index 31e49efa9d0..3090005feb4 100644
--- a/go/parquet/internal/encryption/decryptor.go
+++ b/go/parquet/internal/encryption/decryptor.go
@@ -19,8 +19,8 @@ package encryption
 import (
 	"io"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
 )
 
 // FileDecryptor is an interface used by the filereader for decrypting an
diff --git a/go/parquet/internal/encryption/encryptor.go b/go/parquet/internal/encryption/encryptor.go
index fa2f9e843d5..0f6980ebef8 100644
--- a/go/parquet/internal/encryption/encryptor.go
+++ b/go/parquet/internal/encryption/encryptor.go
@@ -19,8 +19,8 @@ package encryption
 import (
 	"io"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
 )
 
 // FileEncryptor is the interface for constructing encryptors for the different
diff --git a/go/parquet/internal/testutils/pagebuilder.go b/go/parquet/internal/testutils/pagebuilder.go
index 79e75c1c34a..9ac5e475038 100644
--- a/go/parquet/internal/testutils/pagebuilder.go
+++ b/go/parquet/internal/testutils/pagebuilder.go
@@ -22,13 +22,13 @@ import (
 	"io"
 	"reflect"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/compress"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/compress"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/mock"
 )
 
diff --git a/go/parquet/internal/testutils/primitive_typed.go b/go/parquet/internal/testutils/primitive_typed.go
index 9c97d82a050..7c11f2009e4 100644
--- a/go/parquet/internal/testutils/primitive_typed.go
+++ b/go/parquet/internal/testutils/primitive_typed.go
@@ -20,11 +20,11 @@ import (
 	"fmt"
 	"reflect"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 )
 
 type PrimitiveTypedTest struct {
diff --git a/go/parquet/internal/testutils/random.go b/go/parquet/internal/testutils/random.go
index 2028c7f2962..e10a4e693b4 100644
--- a/go/parquet/internal/testutils/random.go
+++ b/go/parquet/internal/testutils/random.go
@@ -24,13 +24,13 @@ import (
 	"time"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/endian"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/pqarrow"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/endian"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/pqarrow"
 
 	"golang.org/x/exp/rand"
 	"gonum.org/v1/gonum/stat/distuv"
diff --git a/go/parquet/internal/testutils/random_arrow.go b/go/parquet/internal/testutils/random_arrow.go
index 0213e9c975b..d681ed888e6 100644
--- a/go/parquet/internal/testutils/random_arrow.go
+++ b/go/parquet/internal/testutils/random_arrow.go
@@ -17,9 +17,9 @@
 package testutils
 
 import (
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"golang.org/x/exp/rand"
 )
 
diff --git a/go/parquet/internal/testutils/utils.go b/go/parquet/internal/testutils/utils.go
index 8d214cf7c24..6cb8a19a7ae 100644
--- a/go/parquet/internal/testutils/utils.go
+++ b/go/parquet/internal/testutils/utils.go
@@ -19,7 +19,7 @@ package testutils
 import (
 	"reflect"
 
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/parquet"
 )
 
 var typeToParquetTypeMap = map[reflect.Type]parquet.Type{
diff --git a/go/parquet/internal/thrift/helpers.go b/go/parquet/internal/thrift/helpers.go
index 5298bc2af11..5a97f8053b3 100644
--- a/go/parquet/internal/thrift/helpers.go
+++ b/go/parquet/internal/thrift/helpers.go
@@ -23,7 +23,7 @@ import (
 	"context"
 	"io"
 
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
 	"github.com/apache/thrift/lib/go/thrift"
 )
 
diff --git a/go/parquet/internal/utils/bit_benchmark_test.go b/go/parquet/internal/utils/bit_benchmark_test.go
index a1547f2fb4d..8a3adec907c 100644
--- a/go/parquet/internal/utils/bit_benchmark_test.go
+++ b/go/parquet/internal/utils/bit_benchmark_test.go
@@ -20,9 +20,9 @@ import (
 	"strconv"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	"github.com/apache/arrow/go/v10/parquet/internal/testutils"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"github.com/apache/arrow/go/v11/parquet/internal/testutils"
 )
 
 type linearBitRunReader struct {
diff --git a/go/parquet/internal/utils/bit_packing_ppc64le.go b/go/parquet/internal/utils/bit_packing_ppc64le.go
new file mode 100644
index 00000000000..58f869c3f5d
--- /dev/null
+++ b/go/parquet/internal/utils/bit_packing_ppc64le.go
@@ -0,0 +1,23 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// +build !noasm
+
+package utils
+
+import "io"
+
+var unpack32 func(io.Reader, []uint32, int) int = unpack32Default
diff --git a/go/parquet/internal/utils/bit_reader.go b/go/parquet/internal/utils/bit_reader.go
index 07056bdafff..39c3d9d0362 100644
--- a/go/parquet/internal/utils/bit_reader.go
+++ b/go/parquet/internal/utils/bit_reader.go
@@ -24,10 +24,10 @@ import (
 	"reflect"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
 )
 
 // masks for grabbing the trailing bits based on the number of trailing bits desired
diff --git a/go/parquet/internal/utils/bit_reader_test.go b/go/parquet/internal/utils/bit_reader_test.go
index 4cb2cb56564..fef1fea8e53 100644
--- a/go/parquet/internal/utils/bit_reader_test.go
+++ b/go/parquet/internal/utils/bit_reader_test.go
@@ -25,11 +25,11 @@ import (
 	"strconv"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/suite"
 	"golang.org/x/exp/rand"
diff --git a/go/parquet/internal/utils/bit_writer.go b/go/parquet/internal/utils/bit_writer.go
index 298f8c58756..f2063cdda2a 100644
--- a/go/parquet/internal/utils/bit_writer.go
+++ b/go/parquet/internal/utils/bit_writer.go
@@ -21,7 +21,7 @@ import (
 	"io"
 	"log"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
 )
 
 // WriterAtBuffer is a convenience struct for providing a WriteAt function
diff --git a/go/parquet/internal/utils/bitmap_writer.go b/go/parquet/internal/utils/bitmap_writer.go
index 4aafa48d4e2..2e892156c67 100644
--- a/go/parquet/internal/utils/bitmap_writer.go
+++ b/go/parquet/internal/utils/bitmap_writer.go
@@ -20,7 +20,7 @@ import (
 	"encoding/binary"
 	"math/bits"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
 )
 
 // BitmapWriter is an interface for bitmap writers so that we can use multiple
diff --git a/go/parquet/internal/utils/bitmap_writer_test.go b/go/parquet/internal/utils/bitmap_writer_test.go
index 968c7aefbfa..bf2ecbc4f80 100644
--- a/go/parquet/internal/utils/bitmap_writer_test.go
+++ b/go/parquet/internal/utils/bitmap_writer_test.go
@@ -22,8 +22,8 @@ import (
 	"strings"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/parquet/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/parquet/internal/utils"
 	"github.com/stretchr/testify/suite"
 )
 
diff --git a/go/parquet/internal/utils/rle.go b/go/parquet/internal/utils/rle.go
index 1415474e148..e34459b8685 100644
--- a/go/parquet/internal/utils/rle.go
+++ b/go/parquet/internal/utils/rle.go
@@ -25,10 +25,10 @@ import (
 	"io"
 	"math"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/internal/utils/typed_rle_dict.gen.go b/go/parquet/internal/utils/typed_rle_dict.gen.go
index 4629b18df2b..1ef86d49ea7 100644
--- a/go/parquet/internal/utils/typed_rle_dict.gen.go
+++ b/go/parquet/internal/utils/typed_rle_dict.gen.go
@@ -19,9 +19,9 @@
 package utils
 
 import (
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/internal/utils/typed_rle_dict.gen.go.tmpl b/go/parquet/internal/utils/typed_rle_dict.gen.go.tmpl
index 79e411fafd6..80e7e3bebef 100644
--- a/go/parquet/internal/utils/typed_rle_dict.gen.go.tmpl
+++ b/go/parquet/internal/utils/typed_rle_dict.gen.go.tmpl
@@ -17,9 +17,9 @@
 package utils
 
 import (
-  "github.com/apache/arrow/go/v10/parquet"
-  "github.com/apache/arrow/go/v10/internal/bitutils"
-  "github.com/apache/arrow/go/v10/internal/utils"
+  "github.com/apache/arrow/go/v11/parquet"
+  "github.com/apache/arrow/go/v11/internal/bitutils"
+  "github.com/apache/arrow/go/v11/internal/utils"
 )
 
 {{range .In}}
diff --git a/go/parquet/internal/utils/unpack_bool_ppc64le.go b/go/parquet/internal/utils/unpack_bool_ppc64le.go
new file mode 100644
index 00000000000..d833c2b9d62
--- /dev/null
+++ b/go/parquet/internal/utils/unpack_bool_ppc64le.go
@@ -0,0 +1,25 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// +build !noasm
+
+package utils
+
+// BytesToBools when built with the noasm tag will direct to the pure go implementation
+// for converting a bitmap to a slice of bools
+func BytesToBools(in []byte, out []bool) {
+	bytesToBoolsGo(in, out)
+}
diff --git a/go/parquet/metadata/app_version.go b/go/parquet/metadata/app_version.go
index b6938617ee6..3eea92d6f73 100644
--- a/go/parquet/metadata/app_version.go
+++ b/go/parquet/metadata/app_version.go
@@ -21,8 +21,8 @@ import (
 	"strconv"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 )
 
 var (
diff --git a/go/parquet/metadata/column_chunk.go b/go/parquet/metadata/column_chunk.go
index 98b1a4fb6b7..359763ab83b 100644
--- a/go/parquet/metadata/column_chunk.go
+++ b/go/parquet/metadata/column_chunk.go
@@ -22,13 +22,13 @@ import (
 	"io"
 	"reflect"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/compress"
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/compress"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/thrift"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/metadata/file.go b/go/parquet/metadata/file.go
index f5b50409418..2f981bba2be 100644
--- a/go/parquet/metadata/file.go
+++ b/go/parquet/metadata/file.go
@@ -24,12 +24,12 @@ import (
 	"reflect"
 	"unicode/utf8"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/compress"
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/thrift"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/compress"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/thrift"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/metadata/metadata_test.go b/go/parquet/metadata/metadata_test.go
index 6c64de749c7..3b290a63ee2 100644
--- a/go/parquet/metadata/metadata_test.go
+++ b/go/parquet/metadata/metadata_test.go
@@ -21,9 +21,9 @@ import (
 	"testing"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 )
diff --git a/go/parquet/metadata/row_group.go b/go/parquet/metadata/row_group.go
index fb9a8cc9035..3e05d83278e 100644
--- a/go/parquet/metadata/row_group.go
+++ b/go/parquet/metadata/row_group.go
@@ -20,10 +20,10 @@ import (
 	"fmt"
 	"reflect"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encryption"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encryption"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 )
 
 // RowGroupMetaData is a proxy around the thrift RowGroup meta data object
diff --git a/go/parquet/metadata/stat_compare_test.go b/go/parquet/metadata/stat_compare_test.go
index 81095babb64..34b65cd8bb6 100644
--- a/go/parquet/metadata/stat_compare_test.go
+++ b/go/parquet/metadata/stat_compare_test.go
@@ -20,8 +20,8 @@ import (
 	"encoding/binary"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 )
diff --git a/go/parquet/metadata/statistics.go b/go/parquet/metadata/statistics.go
index 7a87494c706..747b20ef73d 100644
--- a/go/parquet/metadata/statistics.go
+++ b/go/parquet/metadata/statistics.go
@@ -22,14 +22,14 @@ import (
 	"math"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/debug"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/debug"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 )
 
 //go:generate go run ../../arrow/_tools/tmpl/main.go -i -data=../internal/encoding/physical_types.tmpldata statistics_types.gen.go.tmpl
diff --git a/go/parquet/metadata/statistics_test.go b/go/parquet/metadata/statistics_test.go
index d0c52c9b326..ef9161d55bd 100644
--- a/go/parquet/metadata/statistics_test.go
+++ b/go/parquet/metadata/statistics_test.go
@@ -21,11 +21,11 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/parquet/metadata/statistics_types.gen.go b/go/parquet/metadata/statistics_types.gen.go
index 53779db50cc..98735f2d3a3 100644
--- a/go/parquet/metadata/statistics_types.gen.go
+++ b/go/parquet/metadata/statistics_types.gen.go
@@ -22,13 +22,13 @@ import (
 	"fmt"
 	"math"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	shared_utils "github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	shared_utils "github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"golang.org/x/xerrors"
 )
 
@@ -1755,7 +1755,9 @@ func NewByteArrayStatisticsFromEncoded(descr *schema.Column, mem memory.Allocato
 }
 
 func (s *ByteArrayStatistics) plainEncode(src parquet.ByteArray) []byte {
-	return src
+	out := make([]byte, len(src))
+	copy(out, src)
+	return out
 }
 
 func (s *ByteArrayStatistics) plainDecode(src []byte) parquet.ByteArray {
diff --git a/go/parquet/metadata/statistics_types.gen.go.tmpl b/go/parquet/metadata/statistics_types.gen.go.tmpl
index 78064a6988d..1bef782bb88 100644
--- a/go/parquet/metadata/statistics_types.gen.go.tmpl
+++ b/go/parquet/metadata/statistics_types.gen.go.tmpl
@@ -19,12 +19,12 @@ package metadata
 import (
   "fmt"
   
-  "github.com/apache/arrow/go/v10/parquet"
-  "github.com/apache/arrow/go/v10/parquet/schema"
-  "github.com/apache/arrow/go/v10/parquet/internal/utils"
-  shared_utils "github.com/apache/arrow/go/v10/internal/utils"
-  "github.com/apache/arrow/go/v10/parquet/internal/encoding"
-  "github.com/apache/arrow/go/v10/internal/bitutils"
+  "github.com/apache/arrow/go/v11/parquet"
+  "github.com/apache/arrow/go/v11/parquet/schema"
+  "github.com/apache/arrow/go/v11/parquet/internal/utils"
+  shared_utils "github.com/apache/arrow/go/v11/internal/utils"
+  "github.com/apache/arrow/go/v11/parquet/internal/encoding"
+  "github.com/apache/arrow/go/v11/internal/bitutils"
 )
 
 {{range .In}}
@@ -91,7 +91,9 @@ func New{{.Name}}StatisticsFromEncoded(descr *schema.Column, mem memory.Allocato
 
 func (s *{{.Name}}Statistics) plainEncode(src {{.name}}) []byte {
 {{- if eq .Name "ByteArray"}}
-  return src
+  out := make([]byte, len(src))
+  copy(out, src)
+  return out
 {{- else}}
   s.encoder.(encoding.{{.Name}}Encoder).Put([]{{.name}}{src})
   buf, err := s.encoder.FlushValues()
diff --git a/go/parquet/pqarrow/column_readers.go b/go/parquet/pqarrow/column_readers.go
index b298e2b4c9f..176c40b8cd9 100644
--- a/go/parquet/pqarrow/column_readers.go
+++ b/go/parquet/pqarrow/column_readers.go
@@ -20,19 +20,20 @@ import (
 	"encoding/binary"
 	"fmt"
 	"reflect"
+	"sync"
 	"sync/atomic"
 	"time"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"golang.org/x/sync/errgroup"
 	"golang.org/x/xerrors"
 )
@@ -50,13 +51,13 @@ type leafReader struct {
 	refCount int64
 }
 
-func newLeafReader(rctx *readerCtx, field *arrow.Field, input *columnIterator, leafInfo file.LevelInfo, props ArrowReadProperties) (*ColumnReader, error) {
+func newLeafReader(rctx *readerCtx, field *arrow.Field, input *columnIterator, leafInfo file.LevelInfo, props ArrowReadProperties, bufferPool *sync.Pool) (*ColumnReader, error) {
 	ret := &leafReader{
 		rctx:      rctx,
 		field:     field,
 		input:     input,
 		descr:     input.Descr(),
-		recordRdr: file.NewRecordReader(input.Descr(), leafInfo, field.Type.ID() == arrow.DICTIONARY, rctx.mem),
+		recordRdr: file.NewRecordReader(input.Descr(), leafInfo, field.Type.ID() == arrow.DICTIONARY, rctx.mem, bufferPool),
 		props:     props,
 		refCount:  1,
 	}
@@ -387,7 +388,12 @@ func (lr *listReader) BuildArray(lenBound int64) (*arrow.Chunked, error) {
 		return nil, err
 	}
 
-	arr, err := lr.itemRdr.BuildArray(int64(offsetData[int(validityIO.Read)]))
+	// if the parent (itemRdr) has nulls and is a nested type like list
+	// then we need BuildArray to account for that with the number of
+	// definition levels when building out the bitmap. So the upper bound
+	// to make sure we have the space for is the worst case scenario,
+	// the upper bound is the value of the last offset + the nullcount
+	arr, err := lr.itemRdr.BuildArray(int64(offsetData[int(validityIO.Read)]) + validityIO.NullCount)
 	if err != nil {
 		return nil, err
 	}
diff --git a/go/parquet/pqarrow/encode_arrow.go b/go/parquet/pqarrow/encode_arrow.go
index ba20a3318f1..a73fc08d784 100644
--- a/go/parquet/pqarrow/encode_arrow.go
+++ b/go/parquet/pqarrow/encode_arrow.go
@@ -24,14 +24,14 @@ import (
 	"time"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/file"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/file"
 	"golang.org/x/xerrors"
 )
 
@@ -214,7 +214,7 @@ func WriteArrowToColumn(ctx context.Context, cw file.ColumnChunkWriter, leafArr
 	singleNullable := (colLevelInfo.DefLevel == colLevelInfo.RepeatedAncestorDefLevel+1) && leafFieldNullable
 	maybeParentNulls := colLevelInfo.HasNullableValues() && !singleNullable
 
-	if maybeParentNulls {
+	if maybeParentNulls && !cw.HasBitsBuffer() {
 		buf := memory.NewResizableBuffer(cw.Properties().Allocator())
 		buf.Resize(int(bitutil.BytesForBits(cw.Properties().WriteBatchSize())))
 		cw.SetBitsBuffer(buf)
diff --git a/go/parquet/pqarrow/encode_arrow_test.go b/go/parquet/pqarrow/encode_arrow_test.go
index c9aeb19c4a2..a9e770c0239 100644
--- a/go/parquet/pqarrow/encode_arrow_test.go
+++ b/go/parquet/pqarrow/encode_arrow_test.go
@@ -26,20 +26,20 @@ import (
 	"strings"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/bitutil"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/compress"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
-	"github.com/apache/arrow/go/v10/parquet/internal/testutils"
-	"github.com/apache/arrow/go/v10/parquet/pqarrow"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/bitutil"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/compress"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/parquet/internal/testutils"
+	"github.com/apache/arrow/go/v11/parquet/pqarrow"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 	"github.com/stretchr/testify/suite"
@@ -877,17 +877,23 @@ func (ps *ParquetIOTestSuite) TestSingleColumnRequiredWrite() {
 }
 
 func (ps *ParquetIOTestSuite) roundTripTable(expected arrow.Table, storeSchema bool) {
+	mem := memory.NewCheckedAllocator(memory.NewGoAllocator())
+	defer mem.AssertSize(ps.T(), 0)
+
 	var buf bytes.Buffer
 	var props pqarrow.ArrowWriterProperties
 	if storeSchema {
-		props = pqarrow.NewArrowWriterProperties(pqarrow.WithStoreSchema())
+		props = pqarrow.NewArrowWriterProperties(pqarrow.WithStoreSchema(), pqarrow.WithAllocator(mem))
 	} else {
-		props = pqarrow.DefaultWriterProps()
+		props = pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem))
 	}
 
-	ps.Require().NoError(pqarrow.WriteTable(expected, &buf, expected.NumRows(), nil, props))
+	writeProps := parquet.NewWriterProperties(parquet.WithAllocator(mem))
+	ps.Require().NoError(pqarrow.WriteTable(expected, &buf, expected.NumRows(), writeProps, props))
 
 	reader := ps.createReader(buf.Bytes())
+	defer reader.ParquetReader().Close()
+
 	tbl := ps.readTable(reader)
 	defer tbl.Release()
 
@@ -1288,6 +1294,42 @@ func (ps *ParquetIOTestSuite) TestNull() {
 	ps.roundTripTable(expected, true)
 }
 
+// ARROW-17169
+func (ps *ParquetIOTestSuite) TestNullableListOfStruct() {
+	bldr := array.NewListBuilder(memory.DefaultAllocator, arrow.StructOf(
+		arrow.Field{Name: "a", Type: arrow.PrimitiveTypes.Int32},
+		arrow.Field{Name: "b", Type: arrow.BinaryTypes.String},
+	))
+	defer bldr.Release()
+
+	stBldr := bldr.ValueBuilder().(*array.StructBuilder)
+	aBldr := stBldr.FieldBuilder(0).(*array.Int32Builder)
+	bBldr := stBldr.FieldBuilder(1).(*array.StringBuilder)
+
+	for i := 0; i < 320; i++ {
+		if i%5 == 0 {
+			bldr.AppendNull()
+			continue
+		}
+		bldr.Append(true)
+		for j := 0; j < 4; j++ {
+			stBldr.Append(true)
+			aBldr.Append(int32(i + j))
+			bBldr.Append(strconv.Itoa(i + j))
+		}
+	}
+
+	arr := bldr.NewArray()
+	defer arr.Release()
+
+	field := arrow.Field{Name: "x", Type: arr.DataType(), Nullable: true}
+	expected := array.NewTable(arrow.NewSchema([]arrow.Field{field}, nil),
+		[]arrow.Column{*arrow.NewColumn(field, arrow.NewChunked(field.Type, []arrow.Array{arr}))}, -1)
+	defer expected.Release()
+
+	ps.roundTripTable(expected, false)
+}
+
 func TestParquetArrowIO(t *testing.T) {
 	suite.Run(t, new(ParquetIOTestSuite))
 }
diff --git a/go/parquet/pqarrow/file_reader.go b/go/parquet/pqarrow/file_reader.go
index 7d345d6187f..6e7b2aa4a13 100755
--- a/go/parquet/pqarrow/file_reader.go
+++ b/go/parquet/pqarrow/file_reader.go
@@ -23,13 +23,13 @@ import (
 	"sync"
 	"sync/atomic"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/arrio"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/arrio"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"golang.org/x/sync/errgroup"
 	"golang.org/x/xerrors"
 )
@@ -210,7 +210,7 @@ func (fr *FileReader) GetFieldReaders(ctx context.Context, colIndices, rowGroups
 	// greatly improves performance.
 	// GetFieldReader causes read operations, when issued serially on large numbers of columns,
 	// this is super time consuming. Get field readers concurrently.
-	g,gctx := errgroup.WithContext(ctx)
+	g, gctx := errgroup.WithContext(ctx)
 	if !fr.Props.Parallel {
 		g.SetLimit(1)
 	}
@@ -482,7 +482,7 @@ func (fr *FileReader) getReader(ctx context.Context, field *SchemaField, arrowFi
 			return nil, nil
 		}
 
-		out, err = newLeafReader(&rctx, field.Field, rctx.colFactory(field.ColIndex, rctx.rdr), field.LevelInfo, fr.Props)
+		out, err = newLeafReader(&rctx, field.Field, rctx.colFactory(field.ColIndex, rctx.rdr), field.LevelInfo, fr.Props, fr.rdr.BufferPool())
 		return
 	}
 
@@ -499,7 +499,7 @@ func (fr *FileReader) getReader(ctx context.Context, field *SchemaField, arrowFi
 		// When reading structs with large numbers of columns, the serial load is very slow.
 		// This is especially true when reading Cloud Storage. Loading concurrently
 		// greatly improves performance.
-		g,gctx := errgroup.WithContext(ctx)
+		g, gctx := errgroup.WithContext(ctx)
 		if !fr.Props.Parallel {
 			g.SetLimit(1)
 		}
diff --git a/go/parquet/pqarrow/file_reader_test.go b/go/parquet/pqarrow/file_reader_test.go
index 416bf8169b0..dfef14b65ae 100644
--- a/go/parquet/pqarrow/file_reader_test.go
+++ b/go/parquet/pqarrow/file_reader_test.go
@@ -24,13 +24,13 @@ import (
 	"path/filepath"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/decimal128"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/pqarrow"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/decimal128"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/pqarrow"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 )
@@ -191,3 +191,28 @@ func TestRecordReaderSerial(t *testing.T) {
 	assert.Same(t, io.EOF, err)
 	assert.Nil(t, rec)
 }
+
+func TestFileReaderWriterMetadata(t *testing.T) {
+	mem := memory.NewCheckedAllocator(memory.DefaultAllocator)
+	defer mem.AssertSize(t, 0)
+
+	tbl := makeDateTimeTypesTable(mem, true, true)
+	defer tbl.Release()
+
+	meta := arrow.NewMetadata([]string{"foo", "bar"}, []string{"bar", "baz"})
+	sc := arrow.NewSchema(tbl.Schema().Fields(), &meta)
+
+	var buf bytes.Buffer
+	writer, err := pqarrow.NewFileWriter(sc, &buf, nil, pqarrow.NewArrowWriterProperties(pqarrow.WithAllocator(mem)))
+	require.NoError(t, err)
+	require.NoError(t, writer.WriteTable(tbl, tbl.NumRows()))
+	require.NoError(t, writer.Close())
+
+	pf, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()), file.WithReadProps(parquet.NewReaderProperties(mem)))
+	require.NoError(t, err)
+	defer pf.Close()
+
+	kvMeta := pf.MetaData().KeyValueMetadata()
+	assert.Equal(t, []string{"foo", "bar"}, kvMeta.Keys())
+	assert.Equal(t, []string{"bar", "baz"}, kvMeta.Values())
+}
diff --git a/go/parquet/pqarrow/file_writer.go b/go/parquet/pqarrow/file_writer.go
index 9a44b7f08f7..deb05f775be 100644
--- a/go/parquet/pqarrow/file_writer.go
+++ b/go/parquet/pqarrow/file_writer.go
@@ -22,12 +22,12 @@ import (
 	"fmt"
 	"io"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/flight"
-	"github.com/apache/arrow/go/v10/internal/utils"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	"github.com/apache/arrow/go/v11/internal/utils"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
 	"golang.org/x/xerrors"
 )
 
@@ -73,11 +73,11 @@ func NewFileWriter(arrschema *arrow.Schema, w io.Writer, props *parquet.WriterPr
 	}
 
 	meta := make(metadata.KeyValueMetadata, 0)
-	if arrprops.storeSchema {
-		for i := 0; i < arrschema.Metadata().Len(); i++ {
-			meta.Append(arrschema.Metadata().Keys()[i], arrschema.Metadata().Values()[i])
-		}
+	for i := 0; i < arrschema.Metadata().Len(); i++ {
+		meta.Append(arrschema.Metadata().Keys()[i], arrschema.Metadata().Values()[i])
+	}
 
+	if arrprops.storeSchema {
 		serializedSchema := flight.SerializeSchema(arrschema, props.Allocator())
 		meta.Append("ARROW:schema", base64.StdEncoding.EncodeToString(serializedSchema))
 	}
@@ -263,6 +263,10 @@ func (fw *FileWriter) Close() error {
 				return err
 			}
 		}
+
+		writeCtx := arrowCtxFromContext(fw.ctx)
+		writeCtx.dataBuffer.Release()
+
 		return fw.wr.Close()
 	}
 	return nil
diff --git a/go/parquet/pqarrow/path_builder.go b/go/parquet/pqarrow/path_builder.go
index 692834736d5..1322c20eb27 100644
--- a/go/parquet/pqarrow/path_builder.go
+++ b/go/parquet/pqarrow/path_builder.go
@@ -20,11 +20,11 @@ import (
 	"sync/atomic"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/bitutils"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/bitutils"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/pqarrow/path_builder_test.go b/go/parquet/pqarrow/path_builder_test.go
index 3be692845aa..35999e0fbc5 100644
--- a/go/parquet/pqarrow/path_builder_test.go
+++ b/go/parquet/pqarrow/path_builder_test.go
@@ -20,9 +20,9 @@ import (
 	"context"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 )
diff --git a/go/parquet/pqarrow/properties.go b/go/parquet/pqarrow/properties.go
index a994bf7d265..722662badd8 100755
--- a/go/parquet/pqarrow/properties.go
+++ b/go/parquet/pqarrow/properties.go
@@ -19,9 +19,9 @@ package pqarrow
 import (
 	"context"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet/internal/encoding"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet/internal/encoding"
 )
 
 // ArrowWriterProperties are used to determine how to manipulate the arrow data
diff --git a/go/parquet/pqarrow/reader_writer_test.go b/go/parquet/pqarrow/reader_writer_test.go
index 91dd6b6b7ec..6fcb2350b23 100644
--- a/go/parquet/pqarrow/reader_writer_test.go
+++ b/go/parquet/pqarrow/reader_writer_test.go
@@ -22,12 +22,12 @@ import (
 	"testing"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/array"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/pqarrow"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/array"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/pqarrow"
 	"golang.org/x/exp/rand"
 	"gonum.org/v1/gonum/stat/distuv"
 )
@@ -177,7 +177,7 @@ func benchReadTable(b *testing.B, name string, tbl arrow.Table, nbytes int64) {
 		b.SetBytes(nbytes)
 
 		for i := 0; i < b.N; i++ {
-			pf, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()), nil, nil)
+			pf, err := file.NewParquetReader(bytes.NewReader(buf.Bytes()))
 			if err != nil {
 				b.Error(err)
 			}
diff --git a/go/parquet/pqarrow/schema.go b/go/parquet/pqarrow/schema.go
index d5ad304b2d9..5ae85580cb3 100644
--- a/go/parquet/pqarrow/schema.go
+++ b/go/parquet/pqarrow/schema.go
@@ -23,13 +23,13 @@ import (
 	"strconv"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/flight"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/file"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/file"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/pqarrow/schema_test.go b/go/parquet/pqarrow/schema_test.go
index c05d2792d8c..617012d7200 100644
--- a/go/parquet/pqarrow/schema_test.go
+++ b/go/parquet/pqarrow/schema_test.go
@@ -20,13 +20,13 @@ import (
 	"encoding/base64"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	"github.com/apache/arrow/go/v10/arrow/flight"
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/metadata"
-	"github.com/apache/arrow/go/v10/parquet/pqarrow"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/arrow"
+	"github.com/apache/arrow/go/v11/arrow/flight"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/metadata"
+	"github.com/apache/arrow/go/v11/parquet/pqarrow"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 )
diff --git a/go/parquet/reader_properties.go b/go/parquet/reader_properties.go
index 0e80118b932..ea242ed6855 100644
--- a/go/parquet/reader_properties.go
+++ b/go/parquet/reader_properties.go
@@ -21,8 +21,8 @@ import (
 	"fmt"
 	"io"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/internal/utils"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/internal/utils"
 )
 
 // ReaderProperties are used to define how the file reader will handle buffering and allocating buffers
diff --git a/go/parquet/reader_writer_properties_test.go b/go/parquet/reader_writer_properties_test.go
index d666c248f26..2aa29113479 100644
--- a/go/parquet/reader_writer_properties_test.go
+++ b/go/parquet/reader_writer_properties_test.go
@@ -20,9 +20,9 @@ import (
 	"bytes"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/compress"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/compress"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/parquet/schema/column.go b/go/parquet/schema/column.go
index 14a3bfd3318..31b18c40c9e 100644
--- a/go/parquet/schema/column.go
+++ b/go/parquet/schema/column.go
@@ -20,8 +20,8 @@ import (
 	"fmt"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
 )
 
 // Column encapsulates the information necessary to interpret primitive
diff --git a/go/parquet/schema/converted_types.go b/go/parquet/schema/converted_types.go
index 27f5e3fb8f8..8816f2d0401 100644
--- a/go/parquet/schema/converted_types.go
+++ b/go/parquet/schema/converted_types.go
@@ -17,7 +17,7 @@
 package schema
 
 import (
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
 )
 
 // ConvertedType corresponds to the ConvertedType in the parquet.Thrift,
diff --git a/go/parquet/schema/converted_types_test.go b/go/parquet/schema/converted_types_test.go
index 6eb0238bf19..52d6c217f58 100644
--- a/go/parquet/schema/converted_types_test.go
+++ b/go/parquet/schema/converted_types_test.go
@@ -19,7 +19,7 @@ package schema_test
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/parquet/schema/helpers.go b/go/parquet/schema/helpers.go
index 656825e7fc5..51fbd004766 100644
--- a/go/parquet/schema/helpers.go
+++ b/go/parquet/schema/helpers.go
@@ -17,7 +17,7 @@
 package schema
 
 import (
-	"github.com/apache/arrow/go/v10/parquet"
+	"github.com/apache/arrow/go/v11/parquet"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/schema/helpers_test.go b/go/parquet/schema/helpers_test.go
index ea5c7323506..06530ee93c8 100644
--- a/go/parquet/schema/helpers_test.go
+++ b/go/parquet/schema/helpers_test.go
@@ -21,8 +21,8 @@ import (
 	"strings"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/parquet/schema/logical_types.go b/go/parquet/schema/logical_types.go
index b9ebd5f13a2..dd2080bb0f9 100644
--- a/go/parquet/schema/logical_types.go
+++ b/go/parquet/schema/logical_types.go
@@ -21,9 +21,9 @@ import (
 	"fmt"
 	"math"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/internal/debug"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/internal/debug"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
 )
 
 // DecimalMetadata is a struct for managing scale and precision information between
diff --git a/go/parquet/schema/logical_types_test.go b/go/parquet/schema/logical_types_test.go
index 8f80d202530..7ea74e3d8a5 100644
--- a/go/parquet/schema/logical_types_test.go
+++ b/go/parquet/schema/logical_types_test.go
@@ -20,8 +20,8 @@ import (
 	"encoding/json"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/parquet/schema/node.go b/go/parquet/schema/node.go
index 6e2feae8596..1b388443808 100644
--- a/go/parquet/schema/node.go
+++ b/go/parquet/schema/node.go
@@ -19,8 +19,8 @@ package schema
 import (
 	"fmt"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
 	"github.com/apache/thrift/lib/go/thrift"
 	"golang.org/x/xerrors"
 )
diff --git a/go/parquet/schema/reflection.go b/go/parquet/schema/reflection.go
index f6495c72f03..be62370cf3e 100644
--- a/go/parquet/schema/reflection.go
+++ b/go/parquet/schema/reflection.go
@@ -22,8 +22,8 @@ import (
 	"strconv"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/schema/reflection_test.go b/go/parquet/schema/reflection_test.go
index 1fbec030cf7..bdfa1788e39 100644
--- a/go/parquet/schema/reflection_test.go
+++ b/go/parquet/schema/reflection_test.go
@@ -22,8 +22,8 @@ import (
 	"reflect"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/stretchr/testify/assert"
 )
 
diff --git a/go/parquet/schema/schema.go b/go/parquet/schema/schema.go
index 210c16cebd1..c05d080d92f 100644
--- a/go/parquet/schema/schema.go
+++ b/go/parquet/schema/schema.go
@@ -35,8 +35,8 @@ import (
 	"io"
 	"strings"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
 	"golang.org/x/xerrors"
 )
 
diff --git a/go/parquet/schema/schema_element_test.go b/go/parquet/schema/schema_element_test.go
index bf48ad924c5..a5a5d153d1b 100644
--- a/go/parquet/schema/schema_element_test.go
+++ b/go/parquet/schema/schema_element_test.go
@@ -19,8 +19,8 @@ package schema
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/suite"
 )
diff --git a/go/parquet/schema/schema_flatten_test.go b/go/parquet/schema/schema_flatten_test.go
index 1dda48147db..f5ed469ed82 100644
--- a/go/parquet/schema/schema_flatten_test.go
+++ b/go/parquet/schema/schema_flatten_test.go
@@ -19,8 +19,8 @@ package schema
 import (
 	"testing"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/suite"
 )
diff --git a/go/parquet/schema/schema_test.go b/go/parquet/schema/schema_test.go
index 1dec79c4dcf..d200aa305d8 100644
--- a/go/parquet/schema/schema_test.go
+++ b/go/parquet/schema/schema_test.go
@@ -20,9 +20,9 @@ import (
 	"os"
 	"testing"
 
-	"github.com/apache/arrow/go/v10/parquet"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
-	"github.com/apache/arrow/go/v10/parquet/schema"
+	"github.com/apache/arrow/go/v11/parquet"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/parquet/schema"
 	"github.com/apache/thrift/lib/go/thrift"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/suite"
diff --git a/go/parquet/types.go b/go/parquet/types.go
index cbdcf162f7d..38877954584 100644
--- a/go/parquet/types.go
+++ b/go/parquet/types.go
@@ -24,8 +24,8 @@ import (
 	"time"
 	"unsafe"
 
-	"github.com/apache/arrow/go/v10/arrow"
-	format "github.com/apache/arrow/go/v10/parquet/internal/gen-go/parquet"
+	"github.com/apache/arrow/go/v11/arrow"
+	format "github.com/apache/arrow/go/v11/parquet/internal/gen-go/parquet"
 )
 
 const (
diff --git a/go/parquet/writer_properties.go b/go/parquet/writer_properties.go
index 0534746d70f..e54992c4752 100644
--- a/go/parquet/writer_properties.go
+++ b/go/parquet/writer_properties.go
@@ -17,8 +17,8 @@
 package parquet
 
 import (
-	"github.com/apache/arrow/go/v10/arrow/memory"
-	"github.com/apache/arrow/go/v10/parquet/compress"
+	"github.com/apache/arrow/go/v11/arrow/memory"
+	"github.com/apache/arrow/go/v11/parquet/compress"
 )
 
 // Constants for default property values used for the default reader, writer and column props.
@@ -46,7 +46,7 @@ const (
 	DefaultStatsEnabled = true
 	// If the stats are larger than 4K the writer will skip writing them out anyways.
 	DefaultMaxStatsSize int64 = 4096
-	DefaultCreatedBy          = "parquet-go version 10.0.0-SNAPSHOT"
+	DefaultCreatedBy          = "parquet-go version 11.0.0"
 	DefaultRootName           = "schema"
 )
 
diff --git a/java/.gitignore b/java/.gitignore
index 376e06946d7..07e84864a34 100644
--- a/java/.gitignore
+++ b/java/.gitignore
@@ -21,5 +21,6 @@ arrow-git.properties
 cmake_install.cmake
 install_manifest.txt
 target/
-?/
-!/c/
+
+# Generated properties file
+flight/flight-sql-jdbc-driver/src/main/resources/properties/flight.properties
diff --git a/java/Brewfile b/java/Brewfile
new file mode 100644
index 00000000000..af6bd65615d
--- /dev/null
+++ b/java/Brewfile
@@ -0,0 +1,19 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+brew "openjdk@11"
+brew "sccache"
diff --git a/java/CMakeLists.txt b/java/CMakeLists.txt
index 43818e7a9f3..371f3e60758 100644
--- a/java/CMakeLists.txt
+++ b/java/CMakeLists.txt
@@ -18,16 +18,28 @@
 cmake_minimum_required(VERSION 3.11)
 message(STATUS "Building using CMake version: ${CMAKE_VERSION}")
 
+# find_package() uses <PackageName>_ROOT variables.
+# https://cmake.org/cmake/help/latest/policy/CMP0074.html
+if(POLICY CMP0074)
+  cmake_policy(SET CMP0074 NEW)
+endif()
+
 project(arrow-java-jni)
 
 if("${CMAKE_CXX_STANDARD}" STREQUAL "")
-  set(CMAKE_CXX_STANDARD 11)
+  set(CMAKE_CXX_STANDARD 17)
 endif()
 set(CMAKE_CXX_STANDARD_REQUIRED ON)
 
 # Components
 option(ARROW_JAVA_JNI_ENABLE_DEFAULT "Whether enable components by default or not" ON)
 option(ARROW_JAVA_JNI_ENABLE_C "Enable C data interface" ${ARROW_JAVA_JNI_ENABLE_DEFAULT})
+option(ARROW_JAVA_JNI_ENABLE_DATASET "Enable dataset" ${ARROW_JAVA_JNI_ENABLE_DEFAULT})
+option(ARROW_JAVA_JNI_ENABLE_GANDIVA "Enable Gandiva" ${ARROW_JAVA_JNI_ENABLE_DEFAULT})
+option(ARROW_JAVA_JNI_ENABLE_ORC "Enable ORC" ${ARROW_JAVA_JNI_ENABLE_DEFAULT})
+option(ARROW_JAVA_JNI_ENABLE_PLASMA "Enable Plasma" ${ARROW_JAVA_JNI_ENABLE_DEFAULT})
+
+include(GNUInstallDirs)
 
 # ccache
 option(ARROW_JAVA_JNI_USE_CCACHE "Use ccache when compiling (if available)" ON)
@@ -54,6 +66,27 @@ include(UseJava)
 add_library(jni INTERFACE IMPORTED)
 set_target_properties(jni PROPERTIES INTERFACE_INCLUDE_DIRECTORIES "${JNI_INCLUDE_DIRS}")
 
+include(CTest)
+if(BUILD_TESTING)
+  find_package(ArrowTesting REQUIRED)
+  find_package(GTest REQUIRED)
+  add_library(arrow_java_test INTERFACE IMPORTED)
+  target_link_libraries(arrow_java_test INTERFACE ArrowTesting::arrow_testing_static
+                                                  GTest::gtest_main)
+endif()
+
 if(ARROW_JAVA_JNI_ENABLE_C)
   add_subdirectory(c)
 endif()
+if(ARROW_JAVA_JNI_ENABLE_DATASET)
+  add_subdirectory(dataset)
+endif()
+if(ARROW_JAVA_JNI_ENABLE_GANDIVA)
+  add_subdirectory(gandiva)
+endif()
+if(ARROW_JAVA_JNI_ENABLE_ORC)
+  add_subdirectory(adapter/orc)
+endif()
+if(ARROW_JAVA_JNI_ENABLE_PLASMA)
+  add_subdirectory(plasma)
+endif()
diff --git a/java/adapter/avro/pom.xml b/java/adapter/avro/pom.xml
index 9ca5d044c8e..4413e3fc8eb 100644
--- a/java/adapter/avro/pom.xml
+++ b/java/adapter/avro/pom.xml
@@ -16,7 +16,7 @@
   <parent>
     <groupId>org.apache.arrow</groupId>
     <artifactId>arrow-java-root</artifactId>
-    <version>10.0.0-SNAPSHOT</version>
+    <version>11.0.0</version>
     <relativePath>../../pom.xml</relativePath>
   </parent>
 
diff --git a/java/adapter/avro/src/test/java/org/apache/arrow/AvroTestBase.java b/java/adapter/avro/src/test/java/org/apache/arrow/AvroTestBase.java
index a00cd7704d4..16d8e52722c 100644
--- a/java/adapter/avro/src/test/java/org/apache/arrow/AvroTestBase.java
+++ b/java/adapter/avro/src/test/java/org/apache/arrow/AvroTestBase.java
@@ -63,8 +63,9 @@ public void init() {
   }
 
   protected Schema getSchema(String schemaName) throws Exception {
-    Path schemaPath = Paths.get(TestWriteReadAvroRecord.class.getResource("/").getPath(),
+    Path schemaPath = Paths.get(Paths.get(TestWriteReadAvroRecord.class.getResource("/").toURI()).toString(),
         "schema", schemaName);
+
     return new Schema.Parser().parse(schemaPath.toFile());
   }
 
diff --git a/java/adapter/avro/src/test/java/org/apache/arrow/TestWriteReadAvroRecord.java b/java/adapter/avro/src/test/java/org/apache/arrow/TestWriteReadAvroRecord.java
index bf695d193e4..0a153a28cbc 100644
--- a/java/adapter/avro/src/test/java/org/apache/arrow/TestWriteReadAvroRecord.java
+++ b/java/adapter/avro/src/test/java/org/apache/arrow/TestWriteReadAvroRecord.java
@@ -48,7 +48,9 @@ public class TestWriteReadAvroRecord {
   public void testWriteAndRead() throws Exception {
 
     File dataFile = TMP.newFile();
-    Path schemaPath = Paths.get(TestWriteReadAvroRecord.class.getResource("/").getPath(), "schema", "test.avsc");
+    Path schemaPath = Paths.get(
+            Paths.get(TestWriteReadAvroRecord.class.getResource("/").toURI()).toString(),
+            "schema", "test.avsc");
     Schema schema = new Schema.Parser().parse(schemaPath.toFile());
 
     //write data to disk
diff --git a/java/adapter/jdbc/pom.xml b/java/adapter/jdbc/pom.xml
index aaadda0375f..c41c7f4b59d 100644
--- a/java/adapter/jdbc/pom.xml
+++ b/java/adapter/jdbc/pom.xml
@@ -16,7 +16,7 @@
     <parent>
         <groupId>org.apache.arrow</groupId>
         <artifactId>arrow-java-root</artifactId>
-        <version>10.0.0-SNAPSHOT</version>
+        <version>11.0.0</version>
         <relativePath>../../pom.xml</relativePath>
     </parent>
 
@@ -67,13 +67,11 @@
         <dependency>
             <groupId>com.fasterxml.jackson.core</groupId>
             <artifactId>jackson-databind</artifactId>
-            <scope>test</scope>
         </dependency>
 
         <dependency>
             <groupId>com.fasterxml.jackson.core</groupId>
             <artifactId>jackson-core</artifactId>
-            <scope>test</scope>
         </dependency>
 
         <dependency>
diff --git a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/ArrowVectorIterator.java b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/ArrowVectorIterator.java
index 3ce921d8594..6c3e9cf43e7 100644
--- a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/ArrowVectorIterator.java
+++ b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/ArrowVectorIterator.java
@@ -183,13 +183,14 @@ public VectorSchemaRoot next() {
   }
 
   /**
-   * Clean up resources.
+   * Clean up resources ONLY WHEN THE {@link VectorSchemaRoot} HOLDING EACH BATCH IS REUSED. If a new VectorSchemaRoot
+   * is created for each batch, each root must be closed manually by the client code.
    */
   @Override
   public void close() {
     if (config.isReuseVectorSchemaRoot()) {
       nextBatch.close();
+      compositeConsumer.close();
     }
-    compositeConsumer.close();
   }
 }
diff --git a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/Constants.java b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/Constants.java
index aaadacb5436..5b01077b179 100644
--- a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/Constants.java
+++ b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/Constants.java
@@ -24,6 +24,7 @@ public class Constants {
   private Constants() {}
 
   public static final String SQL_CATALOG_NAME_KEY = "SQL_CATALOG_NAME";
+  public static final String SQL_SCHEMA_NAME_KEY = "SQL_SCHEMA_NAME";
   public static final String SQL_TABLE_NAME_KEY = "SQL_TABLE_NAME";
   public static final String SQL_COLUMN_NAME_KEY = "SQL_COLUMN_NAME";
   public static final String SQL_TYPE_KEY = "SQL_TYPE";
diff --git a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcFieldInfo.java b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcFieldInfo.java
index 3443a1e44c1..3237c9bf97b 100644
--- a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcFieldInfo.java
+++ b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcFieldInfo.java
@@ -35,6 +35,7 @@
  * </ul>
  */
 public class JdbcFieldInfo {
+  private final int column;
   private final int jdbcType;
   private final int nullability;
   private final int precision;
@@ -53,6 +54,7 @@ public JdbcFieldInfo(int jdbcType) {
         (jdbcType != Types.DECIMAL && jdbcType != Types.NUMERIC),
         "DECIMAL and NUMERIC types require a precision and scale; please use another constructor.");
 
+    this.column = 0;
     this.jdbcType = jdbcType;
     this.nullability = ResultSetMetaData.columnNullableUnknown;
     this.precision = 0;
@@ -68,6 +70,7 @@ public JdbcFieldInfo(int jdbcType) {
    * @param scale The field's numeric scale.
    */
   public JdbcFieldInfo(int jdbcType, int precision, int scale) {
+    this.column = 0;
     this.jdbcType = jdbcType;
     this.nullability = ResultSetMetaData.columnNullableUnknown;
     this.precision = precision;
@@ -84,6 +87,7 @@ public JdbcFieldInfo(int jdbcType, int precision, int scale) {
    * @param scale The field's numeric scale.
    */
   public JdbcFieldInfo(int jdbcType, int nullability, int precision, int scale) {
+    this.column = 0;
     this.jdbcType = jdbcType;
     this.nullability = nullability;
     this.precision = precision;
@@ -106,6 +110,7 @@ public JdbcFieldInfo(ResultSetMetaData rsmd, int column) throws SQLException {
         column <= rsmd.getColumnCount(),
         "The index must be within the number of columns (1 to %s, inclusive)", rsmd.getColumnCount());
 
+    this.column = column;
     this.jdbcType = rsmd.getColumnType(column);
     this.nullability = rsmd.isNullable(column);
     this.precision = rsmd.getPrecision(column);
@@ -139,4 +144,11 @@ public int getPrecision() {
   public int getScale() {
     return scale;
   }
+
+  /**
+   * The column index for query column.
+   */
+  public int getColumn() {
+    return column;
+  }
 }
diff --git a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcToArrowConfig.java b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcToArrowConfig.java
index b475ee046b9..012cd95c0b2 100644
--- a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcToArrowConfig.java
+++ b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcToArrowConfig.java
@@ -60,6 +60,8 @@ public final class JdbcToArrowConfig {
   private final Map<String, JdbcFieldInfo> arraySubTypesByColumnName;
   private final Map<Integer, JdbcFieldInfo> explicitTypesByColumnIndex;
   private final Map<String, JdbcFieldInfo> explicitTypesByColumnName;
+  private final Map<String, String> schemaMetadata;
+  private final Map<Integer, Map<String, String>> columnMetadataByColumnIndex;
   private final RoundingMode bigDecimalRoundingMode;
   /**
    * The maximum rowCount to read each time when partially convert data.
@@ -174,6 +176,8 @@ public final class JdbcToArrowConfig {
         jdbcToArrowTypeConverter,
         null,
         null,
+        null,
+        null,
         bigDecimalRoundingMode);
   }
 
@@ -188,6 +192,8 @@ public final class JdbcToArrowConfig {
       Function<JdbcFieldInfo, ArrowType> jdbcToArrowTypeConverter,
       Map<Integer, JdbcFieldInfo> explicitTypesByColumnIndex,
       Map<String, JdbcFieldInfo> explicitTypesByColumnName,
+      Map<String, String> schemaMetadata,
+      Map<Integer, Map<String, String>> columnMetadataByColumnIndex,
       RoundingMode bigDecimalRoundingMode) {
     Preconditions.checkNotNull(allocator, "Memory allocator cannot be null");
     this.allocator = allocator;
@@ -199,11 +205,13 @@ public final class JdbcToArrowConfig {
     this.targetBatchSize = targetBatchSize;
     this.explicitTypesByColumnIndex = explicitTypesByColumnIndex;
     this.explicitTypesByColumnName = explicitTypesByColumnName;
+    this.schemaMetadata = schemaMetadata;
+    this.columnMetadataByColumnIndex = columnMetadataByColumnIndex;
     this.bigDecimalRoundingMode = bigDecimalRoundingMode;
 
     // set up type converter
     this.jdbcToArrowTypeConverter = jdbcToArrowTypeConverter != null ? jdbcToArrowTypeConverter :
-        jdbcFieldInfo -> JdbcToArrowUtils.getArrowTypeFromJdbcType(jdbcFieldInfo, calendar);
+        (jdbcFieldInfo) -> JdbcToArrowUtils.getArrowTypeFromJdbcType(jdbcFieldInfo, calendar);
   }
 
   /**
@@ -312,6 +320,21 @@ public JdbcFieldInfo getExplicitTypeByColumnName(String name) {
     }
   }
 
+  /**
+   * Return schema level metadata or null if not provided.
+   */
+  public Map<String, String> getSchemaMetadata() {
+    return schemaMetadata;
+  }
+
+  /**
+   * Return metadata from columnIndex->meta map on per field basis
+   * or null if not provided.
+   */
+  public Map<Integer, Map<String, String>> getColumnMetadataByColumnIndex() {
+    return columnMetadataByColumnIndex;
+  }
+
   public RoundingMode getBigDecimalRoundingMode() {
     return bigDecimalRoundingMode;
   }
diff --git a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcToArrowConfigBuilder.java b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcToArrowConfigBuilder.java
index 5618087669e..2fe0492deb7 100644
--- a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcToArrowConfigBuilder.java
+++ b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcToArrowConfigBuilder.java
@@ -40,6 +40,8 @@ public class JdbcToArrowConfigBuilder {
   private Map<String, JdbcFieldInfo> arraySubTypesByColumnName;
   private Map<Integer, JdbcFieldInfo> explicitTypesByColumnIndex;
   private Map<String, JdbcFieldInfo> explicitTypesByColumnName;
+  private Map<String, String> schemaMetadata;
+  private Map<Integer, Map<String, String>> columnMetadataByColumnIndex;
   private int targetBatchSize;
   private Function<JdbcFieldInfo, ArrowType> jdbcToArrowTypeConverter;
   private RoundingMode bigDecimalRoundingMode;
@@ -58,6 +60,8 @@ public JdbcToArrowConfigBuilder() {
     this.arraySubTypesByColumnName = null;
     this.explicitTypesByColumnIndex = null;
     this.explicitTypesByColumnName = null;
+    this.schemaMetadata = null;
+    this.columnMetadataByColumnIndex = null;
     this.bigDecimalRoundingMode = null;
   }
 
@@ -226,6 +230,23 @@ public JdbcToArrowConfigBuilder setReuseVectorSchemaRoot(boolean reuseVectorSche
     return this;
   }
 
+  /**
+   * Set metadata for schema.
+   */
+  public JdbcToArrowConfigBuilder setSchemaMetadata(Map<String, String> schemaMetadata) {
+    this.schemaMetadata = schemaMetadata;
+    return this;
+  }
+
+  /**
+   * Set metadata from columnIndex->meta map on per field basis.
+   */
+  public JdbcToArrowConfigBuilder setColumnMetadataByColumnIndex(
+          Map<Integer, Map<String, String>> columnMetadataByColumnIndex) {
+    this.columnMetadataByColumnIndex = columnMetadataByColumnIndex;
+    return this;
+  }
+
   /**
    * Set the rounding mode used when the scale of the actual value does not match the declared scale.
    * <p>
@@ -255,6 +276,8 @@ public JdbcToArrowConfig build() {
         jdbcToArrowTypeConverter,
         explicitTypesByColumnIndex,
         explicitTypesByColumnName,
+        schemaMetadata,
+        columnMetadataByColumnIndex,
         bigDecimalRoundingMode);
   }
 }
diff --git a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcToArrowUtils.java b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcToArrowUtils.java
index 43fed849a22..dc79f6efff3 100644
--- a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcToArrowUtils.java
+++ b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/JdbcToArrowUtils.java
@@ -31,6 +31,7 @@
 import java.sql.Timestamp;
 import java.sql.Types;
 import java.util.ArrayList;
+import java.util.Arrays;
 import java.util.Calendar;
 import java.util.HashMap;
 import java.util.List;
@@ -49,6 +50,7 @@
 import org.apache.arrow.adapter.jdbc.consumer.FloatConsumer;
 import org.apache.arrow.adapter.jdbc.consumer.IntConsumer;
 import org.apache.arrow.adapter.jdbc.consumer.JdbcConsumer;
+import org.apache.arrow.adapter.jdbc.consumer.MapConsumer;
 import org.apache.arrow.adapter.jdbc.consumer.NullConsumer;
 import org.apache.arrow.adapter.jdbc.consumer.SmallIntConsumer;
 import org.apache.arrow.adapter.jdbc.consumer.TimeConsumer;
@@ -76,6 +78,7 @@
 import org.apache.arrow.vector.VarCharVector;
 import org.apache.arrow.vector.VectorSchemaRoot;
 import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.MapVector;
 import org.apache.arrow.vector.types.DateUnit;
 import org.apache.arrow.vector.types.TimeUnit;
 import org.apache.arrow.vector.types.pojo.ArrowType;
@@ -244,16 +247,25 @@ public static Schema jdbcToArrowSchema(ResultSetMetaData rsmd, JdbcToArrowConfig
     for (int i = 1; i <= columnCount; i++) {
       final String columnName = rsmd.getColumnLabel(i);
 
+      final Map<String, String> columnMetadata = config.getColumnMetadataByColumnIndex() != null ?
+              config.getColumnMetadataByColumnIndex().get(i) : null;
       final Map<String, String> metadata;
       if (config.shouldIncludeMetadata()) {
         metadata = new HashMap<>();
         metadata.put(Constants.SQL_CATALOG_NAME_KEY, rsmd.getCatalogName(i));
+        metadata.put(Constants.SQL_SCHEMA_NAME_KEY, rsmd.getSchemaName(i));
         metadata.put(Constants.SQL_TABLE_NAME_KEY, rsmd.getTableName(i));
         metadata.put(Constants.SQL_COLUMN_NAME_KEY, columnName);
         metadata.put(Constants.SQL_TYPE_KEY, rsmd.getColumnTypeName(i));
-
+        if (columnMetadata != null && !columnMetadata.isEmpty()) {
+          metadata.putAll(columnMetadata);
+        }
       } else {
-        metadata = null;
+        if (columnMetadata != null && !columnMetadata.isEmpty()) {
+          metadata = columnMetadata;
+        } else {
+          metadata = null;
+        }
       }
 
       final JdbcFieldInfo columnFieldInfo = getJdbcFieldInfoForColumn(rsmd, i, config);
@@ -271,13 +283,20 @@ public static Schema jdbcToArrowSchema(ResultSetMetaData rsmd, JdbcToArrowConfig
           children = new ArrayList<Field>();
           final ArrowType childType = config.getJdbcToArrowTypeConverter().apply(arrayFieldInfo);
           children.add(new Field("child", FieldType.nullable(childType), null));
+        } else if (arrowType.getTypeID() == ArrowType.ArrowTypeID.Map) {
+          FieldType mapType = new FieldType(false, ArrowType.Struct.INSTANCE, null, null);
+          FieldType keyType = new FieldType(false, new ArrowType.Utf8(), null, null);
+          FieldType valueType = new FieldType(false, new ArrowType.Utf8(), null, null);
+          children = new ArrayList<>();
+          children.add(new Field("child", mapType,
+                  Arrays.asList(new Field(MapVector.KEY_NAME, keyType, null),
+                          new Field(MapVector.VALUE_NAME, valueType, null))));
         }
 
         fields.add(new Field(columnName, fieldType, children));
       }
     }
-
-    return new Schema(fields, null);
+    return new Schema(fields, config.getSchemaMetadata());
   }
 
   static JdbcFieldInfo getJdbcFieldInfoForColumn(
@@ -464,6 +483,8 @@ static JdbcConsumer getConsumer(ArrowType arrowType, int columnIndex, boolean nu
         JdbcConsumer delegate = getConsumer(childVector.getField().getType(), JDBC_ARRAY_VALUE_COLUMN,
             childVector.getField().isNullable(), childVector, config);
         return ArrayConsumer.createConsumer((ListVector) vector, delegate, columnIndex, nullable);
+      case Map:
+        return MapConsumer.createConsumer((MapVector) vector, columnIndex, nullable);
       case Null:
         return new NullConsumer((NullVector) vector);
       default:
diff --git a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/binder/ColumnBinderArrowTypeVisitor.java b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/binder/ColumnBinderArrowTypeVisitor.java
index 6496ca5a311..dc708724043 100644
--- a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/binder/ColumnBinderArrowTypeVisitor.java
+++ b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/binder/ColumnBinderArrowTypeVisitor.java
@@ -44,6 +44,8 @@
 import org.apache.arrow.vector.TinyIntVector;
 import org.apache.arrow.vector.VarBinaryVector;
 import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.MapVector;
 import org.apache.arrow.vector.types.pojo.ArrowType;
 
 /**
@@ -78,7 +80,7 @@ public ColumnBinder visit(ArrowType.Struct type) {
 
   @Override
   public ColumnBinder visit(ArrowType.List type) {
-    throw new UnsupportedOperationException("No column binder implemented for type " + type);
+    return new ListBinder((ListVector) vector);
   }
 
   @Override
@@ -98,7 +100,7 @@ public ColumnBinder visit(ArrowType.Union type) {
 
   @Override
   public ColumnBinder visit(ArrowType.Map type) {
-    throw new UnsupportedOperationException("No column binder implemented for type " + type);
+    return new MapBinder((MapVector) vector);
   }
 
   @Override
diff --git a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/binder/ListBinder.java b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/binder/ListBinder.java
new file mode 100644
index 00000000000..b8aa61234f4
--- /dev/null
+++ b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/binder/ListBinder.java
@@ -0,0 +1,76 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.adapter.jdbc.binder;
+
+import java.lang.reflect.Array;
+import java.util.ArrayList;
+import java.util.Arrays;
+
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.impl.UnionListReader;
+import org.apache.arrow.vector.util.Text;
+
+/**
+ * A column binder for list of primitive values.
+ */
+public class ListBinder extends BaseColumnBinder<ListVector> {
+
+  private final UnionListReader listReader;
+  private final Class<?> arrayElementClass;
+  private final boolean isTextColumn;
+
+  public ListBinder(ListVector vector) {
+    this(vector, java.sql.Types.ARRAY);
+  }
+
+  /**
+   * Init ListBinder and determine type of data vector.
+   *
+   * @param vector corresponding data vector from arrow buffer for binding
+   * @param jdbcType parameter jdbc type
+   */
+  public ListBinder(ListVector vector, int jdbcType) {
+    super(vector, jdbcType);
+    listReader = vector.getReader();
+    Class<? extends FieldVector> dataVectorClass = vector.getDataVector().getClass();
+    try {
+      arrayElementClass = dataVectorClass.getMethod("getObject", Integer.TYPE).getReturnType();
+    } catch (NoSuchMethodException e) {
+      final String message = String.format("Issue to determine type for getObject method of data vector class %s ",
+              dataVectorClass.getName());
+      throw new RuntimeException(message);
+    }
+    isTextColumn = arrayElementClass.isAssignableFrom(Text.class);
+  }
+
+  @Override
+  public void bind(java.sql.PreparedStatement statement, int parameterIndex, int rowIndex)throws java.sql.SQLException {
+    listReader.setPosition(rowIndex);
+    ArrayList<?> sourceArray = (ArrayList<?>) listReader.readObject();
+    Object array;
+    if (!isTextColumn) {
+      array = Array.newInstance(arrayElementClass, sourceArray.size());
+      Arrays.setAll((Object[]) array, sourceArray::get);
+    } else {
+      array = new String[sourceArray.size()];
+      Arrays.setAll((Object[]) array, idx -> sourceArray.get(idx) != null ? sourceArray.get(idx).toString() : null);
+    }
+    statement.setObject(parameterIndex, array);
+  }
+}
diff --git a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/binder/MapBinder.java b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/binder/MapBinder.java
new file mode 100644
index 00000000000..07391eb7cbf
--- /dev/null
+++ b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/binder/MapBinder.java
@@ -0,0 +1,90 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.adapter.jdbc.binder;
+
+import java.sql.PreparedStatement;
+import java.sql.SQLException;
+import java.sql.Types;
+import java.util.LinkedHashMap;
+import java.util.List;
+import java.util.Objects;
+
+import org.apache.arrow.vector.complex.MapVector;
+import org.apache.arrow.vector.complex.impl.UnionMapReader;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.util.JsonStringHashMap;
+
+/**
+ * A column binder for map of primitive values.
+ */
+public class MapBinder extends BaseColumnBinder<MapVector> {
+
+  private UnionMapReader reader;
+  private final boolean isTextKey;
+  private final boolean isTextValue;
+
+  public MapBinder(MapVector vector) {
+    this(vector, Types.VARCHAR);
+  }
+
+  /**
+   * Init MapBinder and determine type of data vector.
+   *
+   * @param vector corresponding data vector from arrow buffer for binding
+   * @param jdbcType parameter jdbc type
+   */
+  public MapBinder(MapVector vector, int jdbcType) {
+    super(vector, jdbcType);
+    reader = vector.getReader();
+    List<Field> structField = Objects.requireNonNull(vector.getField()).getChildren();
+    if (structField.size() != 1) {
+      throw new IllegalArgumentException("Expected Struct field metadata inside Map field");
+    }
+    List<Field> keyValueFields = Objects.requireNonNull(structField.get(0)).getChildren();
+    if (keyValueFields.size() != 2) {
+      throw new IllegalArgumentException("Expected two children fields " +
+                                         "inside nested Struct field in Map");
+    }
+    ArrowType keyType = Objects.requireNonNull(keyValueFields.get(0)).getType();
+    ArrowType valueType = Objects.requireNonNull(keyValueFields.get(1)).getType();
+    isTextKey = ArrowType.Utf8.INSTANCE.equals(keyType);
+    isTextValue = ArrowType.Utf8.INSTANCE.equals(valueType);
+  }
+
+  @Override
+  public void bind(PreparedStatement statement,
+                   int parameterIndex, int rowIndex) throws SQLException {
+    reader.setPosition(rowIndex);
+    LinkedHashMap<Object, Object> tags = new JsonStringHashMap<>();
+    while (reader.next()) {
+      Object key = reader.key().readObject();
+      Object value = reader.value().readObject();
+      tags.put(isTextKey && key != null ? key.toString() : key,
+               isTextValue && value != null ? value.toString() : value);
+    }
+    switch (jdbcType) {
+      case Types.VARCHAR:
+        statement.setString(parameterIndex, tags.toString());
+        break;
+      case Types.OTHER:
+      default:
+        statement.setObject(parameterIndex, tags);
+    }
+  }
+}
diff --git a/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/consumer/MapConsumer.java b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/consumer/MapConsumer.java
new file mode 100644
index 00000000000..07a071bfc09
--- /dev/null
+++ b/java/adapter/jdbc/src/main/java/org/apache/arrow/adapter/jdbc/consumer/MapConsumer.java
@@ -0,0 +1,104 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.adapter.jdbc.consumer;
+
+import java.io.IOException;
+import java.nio.charset.StandardCharsets;
+import java.sql.ResultSet;
+import java.sql.SQLException;
+import java.util.Map;
+
+import org.apache.arrow.memory.ArrowBuf;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.vector.complex.MapVector;
+import org.apache.arrow.vector.complex.impl.UnionMapWriter;
+import org.apache.arrow.vector.util.ObjectMapperFactory;
+
+import com.fasterxml.jackson.core.type.TypeReference;
+import com.fasterxml.jackson.databind.ObjectMapper;
+
+/**
+ * Consumer which consume map type values from {@link ResultSet}.
+ * Write the data into {@link org.apache.arrow.vector.complex.MapVector}.
+ */
+public class MapConsumer extends BaseConsumer<MapVector> {
+
+
+  private final UnionMapWriter writer;
+  private final ObjectMapper objectMapper = ObjectMapperFactory.newObjectMapper();
+  private final TypeReference<Map<String, String>> typeReference = new TypeReference<Map<String, String>>() {};
+  private int currentRow;
+
+  /**
+   * Creates a consumer for {@link MapVector}.
+   */
+  public static MapConsumer createConsumer(MapVector mapVector, int index, boolean nullable) {
+    return new MapConsumer(mapVector, index);
+  }
+
+  /**
+   * Instantiate a MapConsumer.
+   */
+  public MapConsumer(MapVector vector, int index) {
+    super(vector, index);
+    writer = vector.getWriter();
+  }
+
+  @Override
+  public void consume(ResultSet resultSet) throws SQLException, IOException {
+    Object map = resultSet.getObject(columnIndexInResultSet);
+    writer.setPosition(currentRow++);
+    if (map != null) {
+      if (map instanceof String) {
+        writeJavaMapIntoVector(objectMapper.readValue((String) map, typeReference));
+      } else if (map instanceof Map) {
+        writeJavaMapIntoVector((Map<String, String>) map);
+      } else {
+        throw new IllegalArgumentException("Unknown type of map type column from JDBC " + map.getClass().getName());
+      }
+    } else {
+      writer.writeNull();
+    }
+  }
+
+  private void writeJavaMapIntoVector(Map<String, String> map) {
+    BufferAllocator allocator = vector.getAllocator();
+    writer.startMap();
+    map.forEach((key, value) -> {
+      byte[] keyBytes = key.getBytes(StandardCharsets.UTF_8);
+      byte[] valueBytes = value != null ? value.getBytes(StandardCharsets.UTF_8) : null;
+      try (
+              ArrowBuf keyBuf = allocator.buffer(keyBytes.length);
+              ArrowBuf valueBuf = valueBytes != null ? allocator.buffer(valueBytes.length) : null;
+      ) {
+        writer.startEntry();
+        keyBuf.writeBytes(keyBytes);
+        writer.key().varChar().writeVarChar(0, keyBytes.length, keyBuf);
+        if (valueBytes != null) {
+          valueBuf.writeBytes(valueBytes);
+          writer.value().varChar().writeVarChar(0, valueBytes.length, valueBuf);
+        } else {
+          writer.value().varChar().writeNull();
+        }
+        writer.endEntry();
+      }
+    });
+    writer.endMap();
+  }
+}
+
diff --git a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/AbstractJdbcToArrowTest.java b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/AbstractJdbcToArrowTest.java
index 15c56d11cee..dc36ef9f827 100644
--- a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/AbstractJdbcToArrowTest.java
+++ b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/AbstractJdbcToArrowTest.java
@@ -21,17 +21,21 @@
 import java.sql.Connection;
 import java.sql.DriverManager;
 import java.sql.ResultSet;
+import java.sql.ResultSetMetaData;
 import java.sql.SQLException;
 import java.sql.Statement;
 import java.sql.Types;
 import java.util.Calendar;
 import java.util.HashMap;
 import java.util.Map;
+import java.util.TimeZone;
+import java.util.function.Function;
 
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.RootAllocator;
 import org.apache.arrow.util.Preconditions;
 import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.types.pojo.ArrowType;
 import org.apache.arrow.vector.util.ValueVectorUtility;
 import org.junit.After;
 import org.junit.Before;
@@ -57,6 +61,7 @@ public abstract class AbstractJdbcToArrowTest {
   protected static final String DOUBLE = "DOUBLE_FIELD7";
   protected static final String INT = "INT_FIELD1";
   protected static final String LIST = "LIST_FIELD19";
+  protected static final String MAP = "MAP_FIELD20";
   protected static final String REAL = "REAL_FIELD8";
   protected static final String SMALLINT = "SMALLINT_FIELD4";
   protected static final String TIME = "TIME_FIELD9";
@@ -95,6 +100,7 @@ protected static Table getTable(String ymlFilePath, @SuppressWarnings("rawtypes"
    */
   @Before
   public void setUp() throws SQLException, ClassNotFoundException {
+    TimeZone.setDefault(TimeZone.getTimeZone("UTC"));
     String url = "jdbc:h2:mem:JdbcToArrowTest";
     String driver = "org.h2.Driver";
     Class.forName(driver);
@@ -153,8 +159,10 @@ public static Object[][] prepareTestData(String[] testFiles, @SuppressWarnings("
    * Abstract method to implement logic to assert test various datatype values.
    *
    * @param root VectorSchemaRoot for test
+   * @param isIncludeMapVector is this dataset checks includes map column.
+   *          Jdbc type to 'map' mapping declared in configuration only manually
    */
-  public abstract void testDataSets(VectorSchemaRoot root);
+  public abstract void testDataSets(VectorSchemaRoot root, boolean isIncludeMapVector);
 
   /**
    * For the given SQL query, execute and fetch the data from Relational DB and convert it to Arrow objects.
@@ -340,4 +348,34 @@ public static VectorSchemaRoot sqlToArrow(ResultSet resultSet, JdbcToArrowConfig
     return root;
   }
 
+  /**
+   * Register MAP_FIELD20 as ArrowType.Map
+   * @param calendar  Calendar instance to use for Date, Time and Timestamp datasets, or <code>null</code> if none.
+   * @param rsmd ResultSetMetaData to lookup column name from result set metadata
+   * @return typeConverter instance with mapping column to Map type
+   */
+  protected Function<JdbcFieldInfo, ArrowType> jdbcToArrowTypeConverter(
+          Calendar calendar, ResultSetMetaData rsmd) {
+    return (jdbcFieldInfo) -> {
+      String columnLabel = null;
+      try {
+        int columnIndex = jdbcFieldInfo.getColumn();
+        if (columnIndex != 0) {
+          columnLabel = rsmd.getColumnLabel(columnIndex);
+        }
+      } catch (SQLException e) {
+        throw new RuntimeException(e);
+      }
+      if (MAP.equals(columnLabel)) {
+        return new ArrowType.Map(false);
+      } else {
+        return JdbcToArrowUtils.getArrowTypeFromJdbcType(jdbcFieldInfo, calendar);
+      }
+    };
+  }
+
+  protected ResultSetMetaData getQueryMetaData(String query) throws SQLException {
+    return conn.createStatement().executeQuery(query).getMetaData();
+  }
+
 }
diff --git a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/JdbcParameterBinderTest.java b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/JdbcParameterBinderTest.java
index c8c043f2f0b..15b9ab03861 100644
--- a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/JdbcParameterBinderTest.java
+++ b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/JdbcParameterBinderTest.java
@@ -30,9 +30,11 @@
 import java.util.Arrays;
 import java.util.Collections;
 import java.util.List;
+import java.util.Map;
 import java.util.function.BiConsumer;
 
 import org.apache.arrow.adapter.jdbc.binder.ColumnBinder;
+import org.apache.arrow.memory.ArrowBuf;
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.RootAllocator;
 import org.apache.arrow.vector.BaseLargeVariableWidthVector;
@@ -67,12 +69,16 @@
 import org.apache.arrow.vector.VarBinaryVector;
 import org.apache.arrow.vector.VarCharVector;
 import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.MapVector;
 import org.apache.arrow.vector.types.DateUnit;
 import org.apache.arrow.vector.types.FloatingPointPrecision;
 import org.apache.arrow.vector.types.TimeUnit;
 import org.apache.arrow.vector.types.pojo.ArrowType;
 import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.FieldType;
 import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.arrow.vector.util.JsonStringHashMap;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
@@ -385,6 +391,166 @@ void decimal256() throws SQLException {
         Arrays.asList(new BigDecimal("120.429"), new BigDecimal("-10590.123"), new BigDecimal("0.000")));
   }
 
+  @Test
+  void listOfDouble() throws SQLException {
+    TriConsumer<ListVector, Integer, Double[]> setValue = (listVector, index, values) -> {
+      org.apache.arrow.vector.complex.impl.UnionListWriter writer = listVector.getWriter();
+      writer.setPosition(index);
+      writer.startList();
+      Arrays.stream(values).forEach(doubleValue -> writer.float8().writeFloat8(doubleValue));
+      writer.endList();
+      listVector.setLastSet(index);
+    };
+    List<Double[]> values = Arrays.asList(new Double[]{0.0, Math.PI}, new Double[]{1.1, -352346.2, 2355.6},
+                                          new Double[]{-1024.3}, new Double[]{});
+    testListType(new ArrowType.FloatingPoint(FloatingPointPrecision.DOUBLE), setValue, ListVector::setNull, values);
+  }
+
+  @Test
+  void listOfInt64() throws SQLException {
+    TriConsumer<ListVector, Integer, Long[]> setValue = (listVector, index, values) -> {
+      org.apache.arrow.vector.complex.impl.UnionListWriter writer = listVector.getWriter();
+      writer.setPosition(index);
+      writer.startList();
+      Arrays.stream(values).forEach(longValue -> writer.bigInt().writeBigInt(longValue));
+      writer.endList();
+      listVector.setLastSet(index);
+    };
+    List<Long[]> values = Arrays.asList(new Long[]{1L, 2L, 3L}, new Long[]{4L, 5L},
+            new Long[]{512L, 1024L, 2048L, 4096L}, new Long[]{});
+    testListType((ArrowType) new ArrowType.Int(64, true), setValue, ListVector::setNull, values);
+  }
+
+  @Test
+  void listOfInt32() throws SQLException {
+    TriConsumer<ListVector, Integer, Integer[]> setValue = (listVector, index, values) -> {
+      org.apache.arrow.vector.complex.impl.UnionListWriter writer = listVector.getWriter();
+      writer.setPosition(index);
+      writer.startList();
+      Arrays.stream(values).forEach(integerValue -> writer.integer().writeInt(integerValue));
+      writer.endList();
+      listVector.setLastSet(index);
+    };
+    List<Integer[]> values = Arrays.asList(new Integer[]{1, 2, 3}, new Integer[]{4, 5},
+            new Integer[]{512, 1024, 2048, 4096}, new Integer[]{});
+    testListType((ArrowType) new ArrowType.Int(32, true), setValue, ListVector::setNull, values);
+  }
+
+  @Test
+  void listOfBoolean() throws SQLException {
+    TriConsumer<ListVector, Integer, Boolean[]> setValue = (listVector, index, values) -> {
+      org.apache.arrow.vector.complex.impl.UnionListWriter writer = listVector.getWriter();
+      writer.setPosition(index);
+      writer.startList();
+      Arrays.stream(values).forEach(booleanValue -> writer.bit().writeBit(booleanValue ? 1 : 0));
+      writer.endList();
+      listVector.setLastSet(index);
+    };
+    List<Boolean[]> values = Arrays.asList(new Boolean[]{true, false},
+            new Boolean[]{false, false}, new Boolean[]{true, true, false, true}, new Boolean[]{});
+    testListType((ArrowType) new ArrowType.Bool(), setValue, ListVector::setNull, values);
+  }
+
+  @Test
+  void listOfString() throws SQLException {
+    TriConsumer<ListVector, Integer, String[]> setValue = (listVector, index, values) -> {
+      org.apache.arrow.vector.complex.impl.UnionListWriter writer = listVector.getWriter();
+      writer.setPosition(index);
+      writer.startList();
+      Arrays.stream(values).forEach(stringValue -> {
+        if (stringValue != null) {
+          byte[] stringValueBytes = stringValue.getBytes(StandardCharsets.UTF_8);
+          try (ArrowBuf stringBuffer = allocator.buffer(stringValueBytes.length)) {
+            stringBuffer.writeBytes(stringValueBytes);
+            writer.varChar().writeVarChar(0, stringValueBytes.length, stringBuffer);
+          }
+        } else {
+          writer.varChar().writeNull();
+        }
+      });
+      writer.endList();
+      listVector.setLastSet(index);
+    };
+    List<String[]> values = Arrays.asList(new String[]{"aaaa", "b1"},
+            new String[]{"c", null, "d"}, new String[]{"e", "f", "g", "h"}, new String[]{});
+    testListType((ArrowType) new ArrowType.Utf8(), setValue, ListVector::setNull, values);
+  }
+
+  @Test
+  void mapOfString() throws SQLException {
+    TriConsumer<MapVector, Integer, Map<String, String>> setValue = (mapVector, index, values) -> {
+      org.apache.arrow.vector.complex.impl.UnionMapWriter mapWriter = mapVector.getWriter();
+      mapWriter.setPosition(index);
+      mapWriter.startMap();
+      values.entrySet().forEach(mapValue -> {
+        if (mapValue != null) {
+          byte[] keyBytes = mapValue.getKey().getBytes(StandardCharsets.UTF_8);
+          byte[] valueBytes = mapValue.getValue().getBytes(StandardCharsets.UTF_8);
+          try (
+              ArrowBuf keyBuf = allocator.buffer(keyBytes.length);
+              ArrowBuf valueBuf = allocator.buffer(valueBytes.length);
+          ) {
+            mapWriter.startEntry();
+            keyBuf.writeBytes(keyBytes);
+            valueBuf.writeBytes(valueBytes);
+            mapWriter.key().varChar().writeVarChar(0, keyBytes.length, keyBuf);
+            mapWriter.value().varChar().writeVarChar(0, valueBytes.length, valueBuf);
+            mapWriter.endEntry();
+          }
+        } else {
+          mapWriter.writeNull();
+        }
+      });
+      mapWriter.endMap();
+    };
+
+    JsonStringHashMap<String, String> value1 = new JsonStringHashMap<String, String>();
+    value1.put("a", "b");
+    value1.put("c", "d");
+    JsonStringHashMap<String, String> value2 = new JsonStringHashMap<String, String>();
+    value2.put("d", "e");
+    value2.put("f", "g");
+    value2.put("k", "l");
+    JsonStringHashMap<String, String> value3 = new JsonStringHashMap<String, String>();
+    value3.put("y", "z");
+    value3.put("arrow", "cool");
+    List<Map<String, String>> values = Arrays.asList(value1, value2, value3, Collections.emptyMap());
+    testMapType(new ArrowType.Map(true), setValue, MapVector::setNull, values, new ArrowType.Utf8());
+  }
+
+  @Test
+  void mapOfInteger() throws SQLException {
+    TriConsumer<MapVector, Integer, Map<Integer, Integer>> setValue = (mapVector, index, values) -> {
+      org.apache.arrow.vector.complex.impl.UnionMapWriter mapWriter = mapVector.getWriter();
+      mapWriter.setPosition(index);
+      mapWriter.startMap();
+      values.entrySet().forEach(mapValue -> {
+        if (mapValue != null) {
+          mapWriter.startEntry();
+          mapWriter.key().integer().writeInt(mapValue.getKey());
+          mapWriter.value().integer().writeInt(mapValue.getValue());
+          mapWriter.endEntry();
+        } else {
+          mapWriter.writeNull();
+        }
+      });
+      mapWriter.endMap();
+    };
+
+    JsonStringHashMap<Integer, Integer> value1 = new JsonStringHashMap<Integer, Integer>();
+    value1.put(1, 2);
+    value1.put(3, 4);
+    JsonStringHashMap<Integer, Integer> value2 = new JsonStringHashMap<Integer, Integer>();
+    value2.put(5, 6);
+    value2.put(7, 8);
+    value2.put(9, 1024);
+    JsonStringHashMap<Integer, Integer> value3 = new JsonStringHashMap<Integer, Integer>();
+    value3.put(Integer.MIN_VALUE, Integer.MAX_VALUE);
+    value3.put(0, 4096);
+    List<Map<Integer, Integer>> values = Arrays.asList(value1, value2, value3, Collections.emptyMap());
+    testMapType(new ArrowType.Map(true), setValue, MapVector::setNull, values, new ArrowType.Int(32, true));
+  }
+
   @FunctionalInterface
   interface TriConsumer<T, U, V> {
     void accept(T value1, U value2, V value3);
@@ -483,4 +649,211 @@ <T, V extends FieldVector> void testSimpleType(ArrowType arrowType, int jdbcType
       assertThat(binder.next()).isFalse();
     }
   }
+
+  <T, V extends FieldVector> void testListType(ArrowType arrowType, TriConsumer<V, Integer, T> setValue,
+                          BiConsumer<V, Integer> setNull, List<T> values) throws SQLException {
+    int jdbcType = Types.ARRAY;
+    Schema schema = new Schema(Collections.singletonList(new Field("field", FieldType.nullable(
+            new ArrowType.List()), Collections.singletonList(
+            new Field("element", FieldType.notNullable(arrowType), null)
+    ))));
+    try (final MockPreparedStatement statement = new MockPreparedStatement();
+         final VectorSchemaRoot root = VectorSchemaRoot.create(schema, allocator)) {
+      final JdbcParameterBinder binder =
+          JdbcParameterBinder.builder(statement, root).bindAll().build();
+      assertThat(binder.next()).isFalse();
+
+      @SuppressWarnings("unchecked")
+      final V vector = (V) root.getVector(0);
+      final ColumnBinder columnBinder = ColumnBinder.forVector(vector);
+      assertThat(columnBinder.getJdbcType()).isEqualTo(jdbcType);
+
+      setValue.accept(vector, 0, values.get(0));
+      setValue.accept(vector, 1, values.get(1));
+      setNull.accept(vector, 2);
+      root.setRowCount(3);
+
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(0));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(1));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isNull();
+      assertThat(statement.getParamType(1)).isEqualTo(jdbcType);
+      assertThat(binder.next()).isFalse();
+
+      binder.reset();
+
+      setNull.accept(vector, 0);
+      setValue.accept(vector, 1, values.get(3));
+      setValue.accept(vector, 2, values.get(0));
+      setValue.accept(vector, 3, values.get(2));
+      setValue.accept(vector, 4, values.get(1));
+      root.setRowCount(5);
+
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isNull();
+      assertThat(statement.getParamType(1)).isEqualTo(jdbcType);
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(3));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(0));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(2));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(1));
+      assertThat(binder.next()).isFalse();
+    }
+
+    // Non-nullable (since some types have a specialized binder)
+    schema = new Schema(Collections.singletonList(new Field("field", FieldType.notNullable(
+            new ArrowType.List()), Collections.singletonList(
+            new Field("element", FieldType.notNullable(arrowType), null)
+    ))));
+    try (final MockPreparedStatement statement = new MockPreparedStatement();
+         final VectorSchemaRoot root = VectorSchemaRoot.create(schema, allocator)) {
+      final JdbcParameterBinder binder =
+          JdbcParameterBinder.builder(statement, root).bindAll().build();
+      assertThat(binder.next()).isFalse();
+
+      @SuppressWarnings("unchecked")
+      final V vector = (V) root.getVector(0);
+      setValue.accept(vector, 0, values.get(0));
+      setValue.accept(vector, 1, values.get(1));
+      root.setRowCount(2);
+
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(0));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(1));
+      assertThat(binder.next()).isFalse();
+
+      binder.reset();
+
+      setValue.accept(vector, 0, values.get(0));
+      setValue.accept(vector, 1, values.get(2));
+      setValue.accept(vector, 2, values.get(0));
+      setValue.accept(vector, 3, values.get(2));
+      setValue.accept(vector, 4, values.get(1));
+      root.setRowCount(5);
+
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(0));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(2));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(0));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(2));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(1));
+      assertThat(binder.next()).isFalse();
+    }
+  }
+
+  <T, V extends FieldVector> void testMapType(ArrowType arrowType, TriConsumer<V, Integer, T> setValue,
+                                              BiConsumer<V, Integer> setNull, List<T> values,
+                                              ArrowType elementType) throws SQLException {
+    int jdbcType = Types.VARCHAR;
+    FieldType keyType = new FieldType(false, elementType, null, null);
+    FieldType mapType = new FieldType(false, ArrowType.Struct.INSTANCE, null, null);
+    Schema schema = new Schema(Collections.singletonList(new Field("field", FieldType.nullable(arrowType),
+            Collections.singletonList(new Field(MapVector.KEY_NAME, mapType,
+                    Arrays.asList(new Field(MapVector.KEY_NAME, keyType, null),
+                            new Field(MapVector.VALUE_NAME, keyType, null)))))));
+    try (final MockPreparedStatement statement = new MockPreparedStatement();
+         final VectorSchemaRoot root = VectorSchemaRoot.create(schema, allocator)) {
+      final JdbcParameterBinder binder =
+          JdbcParameterBinder.builder(statement, root).bindAll().build();
+      assertThat(binder.next()).isFalse();
+
+      @SuppressWarnings("unchecked")
+      final V vector = (V) root.getVector(0);
+      final ColumnBinder columnBinder = ColumnBinder.forVector(vector);
+      assertThat(columnBinder.getJdbcType()).isEqualTo(jdbcType);
+
+      setValue.accept(vector, 0, values.get(0));
+      setValue.accept(vector, 1, values.get(1));
+      setNull.accept(vector, 2);
+      root.setRowCount(3);
+
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(0).toString());
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(1).toString());
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isNull();
+      assertThat(statement.getParamType(1)).isEqualTo(jdbcType);
+      assertThat(binder.next()).isFalse();
+
+      binder.reset();
+
+      setNull.accept(vector, 0);
+      setValue.accept(vector, 1, values.get(3));
+      setValue.accept(vector, 2, values.get(0));
+      setValue.accept(vector, 3, values.get(2));
+      setValue.accept(vector, 4, values.get(1));
+      root.setRowCount(5);
+
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isNull();
+      assertThat(statement.getParamType(1)).isEqualTo(jdbcType);
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(3).toString());
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(0).toString());
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(2).toString());
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(1).toString());
+      assertThat(binder.next()).isFalse();
+    }
+
+    // Non-nullable (since some types have a specialized binder)
+    schema = new Schema(Collections.singletonList(new Field("field", FieldType.notNullable(arrowType),
+            Collections.singletonList(new Field(MapVector.KEY_NAME, mapType,
+                    Arrays.asList(new Field(MapVector.KEY_NAME, keyType, null),
+                            new Field(MapVector.VALUE_NAME, keyType, null)))))));
+    try (final MockPreparedStatement statement = new MockPreparedStatement();
+         final VectorSchemaRoot root = VectorSchemaRoot.create(schema, allocator)) {
+      @SuppressWarnings("unchecked")
+      final V vector = (V) root.getVector(0);
+
+      final JdbcParameterBinder binder =
+          JdbcParameterBinder.builder(statement, root).bind(1,
+                  new org.apache.arrow.adapter.jdbc.binder.MapBinder((MapVector) vector, Types.OTHER)).build();
+      assertThat(binder.next()).isFalse();
+
+      setValue.accept(vector, 0, values.get(0));
+      setValue.accept(vector, 1, values.get(1));
+      root.setRowCount(2);
+
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(0));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(1));
+      assertThat(binder.next()).isFalse();
+
+      binder.reset();
+
+      setValue.accept(vector, 0, values.get(0));
+      setValue.accept(vector, 1, values.get(2));
+      setValue.accept(vector, 2, values.get(0));
+      setValue.accept(vector, 3, values.get(2));
+      setValue.accept(vector, 4, values.get(1));
+      root.setRowCount(5);
+
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(0));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(2));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(0));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(2));
+      assertThat(binder.next()).isTrue();
+      assertThat(statement.getParamValue(1)).isEqualTo(values.get(1));
+      assertThat(binder.next()).isFalse();
+    }
+  }
 }
diff --git a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/JdbcToArrowCommentMetadataTest.java b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/JdbcToArrowCommentMetadataTest.java
new file mode 100644
index 00000000000..8d3e5995548
--- /dev/null
+++ b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/JdbcToArrowCommentMetadataTest.java
@@ -0,0 +1,176 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.adapter.jdbc;
+
+import static org.assertj.core.api.Assertions.assertThat;
+
+import java.nio.charset.StandardCharsets;
+import java.nio.file.Files;
+import java.nio.file.Paths;
+import java.sql.Connection;
+import java.sql.DatabaseMetaData;
+import java.sql.DriverManager;
+import java.sql.ResultSet;
+import java.sql.ResultSetMetaData;
+import java.sql.SQLException;
+import java.sql.Statement;
+import java.util.Collections;
+import java.util.HashMap;
+import java.util.HashSet;
+import java.util.Map;
+import java.util.Objects;
+import java.util.Set;
+
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.arrow.vector.util.ObjectMapperFactory;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.Test;
+
+import com.fasterxml.jackson.databind.ObjectWriter;
+
+public class JdbcToArrowCommentMetadataTest {
+
+  private static final String COMMENT = "comment"; //use this metadata key for interoperability with Spark StructType
+  private final ObjectWriter schemaSerializer = ObjectMapperFactory.newObjectMapper().writerWithDefaultPrettyPrinter();
+  private Connection conn = null;
+
+  /**
+   * This method creates Connection object and DB table and also populate data into table for test.
+   *
+   * @throws SQLException on error
+   * @throws ClassNotFoundException on error
+   */
+  @Before
+  public void setUp() throws SQLException, ClassNotFoundException {
+    String url = "jdbc:h2:mem:JdbcToArrowTest?characterEncoding=UTF-8;INIT=runscript from 'classpath:/h2/comment.sql'";
+    String driver = "org.h2.Driver";
+    Class.forName(driver);
+    conn = DriverManager.getConnection(url);
+  }
+
+  @After
+  public void tearDown() throws SQLException {
+    if (conn != null) {
+      conn.close();
+      conn = null;
+    }
+  }
+
+  @Test
+  public void schemaComment() throws Exception {
+    boolean includeMetadata = false;
+    String schemaJson = schemaSerializer.writeValueAsString(getSchemaWithCommentFromQuery(includeMetadata));
+    String expectedSchema = getExpectedSchema("/h2/expectedSchemaWithComments.json");
+    assertThat(schemaJson).isEqualTo(expectedSchema);
+  }
+
+  @Test
+  public void schemaCommentWithDatabaseMetadata() throws Exception {
+    boolean includeMetadata = true;
+    String schemaJson = schemaSerializer.writeValueAsString(getSchemaWithCommentFromQuery(includeMetadata));
+    String expectedSchema = getExpectedSchema("/h2/expectedSchemaWithCommentsAndJdbcMeta.json");
+    /* corresponding Apache Spark DDL after conversion:
+        ID BIGINT NOT NULL COMMENT 'Record identifier',
+        NAME STRING COMMENT 'Name of record',
+        COLUMN1 BOOLEAN,
+        COLUMNN INT COMMENT 'Informative description of columnN'
+     */
+    assertThat(schemaJson).isEqualTo(expectedSchema);
+  }
+
+  private Schema getSchemaWithCommentFromQuery(boolean includeMetadata) throws SQLException {
+    DatabaseMetaData metaData = conn.getMetaData();
+    try (Statement statement = conn.createStatement()) {
+      try (ResultSet resultSet = statement.executeQuery("select * from table1")) {
+        ResultSetMetaData resultSetMetaData = resultSet.getMetaData();
+        Map<Integer, Map<String, String>> columnCommentByColumnIndex = getColumnComments(metaData, resultSetMetaData);
+
+        String tableName = getTableNameFromResultSetMetaData(resultSetMetaData);
+        String tableComment = getTableComment(metaData, tableName);
+        JdbcToArrowConfig config = new JdbcToArrowConfigBuilder()
+                .setAllocator(new RootAllocator()).setSchemaMetadata(Collections.singletonMap(COMMENT, tableComment))
+                .setColumnMetadataByColumnIndex(columnCommentByColumnIndex).setIncludeMetadata(includeMetadata).build();
+        return JdbcToArrowUtils.jdbcToArrowSchema(resultSetMetaData, config);
+      }
+    }
+  }
+
+  private String getTableNameFromResultSetMetaData(ResultSetMetaData resultSetMetaData) throws SQLException {
+    Set<String> tablesFromQuery = new HashSet<>();
+    for (int idx = 1, columnCount = resultSetMetaData.getColumnCount(); idx <= columnCount; idx++) {
+      String tableName = resultSetMetaData.getTableName(idx);
+      if (tableName != null && !tableName.isEmpty()) {
+        tablesFromQuery.add(tableName);
+      }
+    }
+    if (tablesFromQuery.size() == 1) {
+      return tablesFromQuery.iterator().next();
+    }
+    throw new RuntimeException("Table metadata is absent or ambiguous");
+  }
+
+  private Map<Integer, Map<String, String>> getColumnComments(DatabaseMetaData metaData,
+                                                 ResultSetMetaData resultSetMetaData) throws SQLException {
+    Map<Integer, Map<String, String>> columnCommentByColumnIndex = new HashMap<>();
+    for (int columnIdx = 1, columnCount = resultSetMetaData.getColumnCount(); columnIdx <= columnCount; columnIdx++) {
+      String columnComment = getColumnComment(metaData, resultSetMetaData.getTableName(columnIdx),
+              resultSetMetaData.getColumnName(columnIdx));
+      if (columnComment != null && !columnComment.isEmpty()) {
+        columnCommentByColumnIndex.put(columnIdx, Collections.singletonMap(COMMENT, columnComment));
+      }
+    }
+    return columnCommentByColumnIndex;
+  }
+
+  private String getTableComment(DatabaseMetaData metaData, String tableName) throws SQLException {
+    if (tableName == null || tableName.isEmpty()) {
+      return null;
+    }
+    String comment = null;
+    int rowCount = 0;
+    try (ResultSet tableMetadata = metaData.getTables("%", "%", tableName, null)) {
+      if (tableMetadata.next()) {
+        comment = tableMetadata.getString("REMARKS");
+        rowCount++;
+      }
+    }
+    if (rowCount == 1) {
+      return comment;
+    }
+    if (rowCount > 1) {
+      throw new RuntimeException("Multiple tables found for table name");
+    }
+    throw new RuntimeException("Table comment not found");
+  }
+
+  private String getColumnComment(DatabaseMetaData metaData, String tableName, String columnName) throws SQLException {
+    try (ResultSet tableMetadata = metaData.getColumns("%", "%", tableName, columnName)) {
+      if (tableMetadata.next()) {
+        return tableMetadata.getString("REMARKS");
+      }
+    }
+    return null;
+  }
+
+  private String getExpectedSchema(String expectedResource) throws java.io.IOException, java.net.URISyntaxException {
+    return new String(Files.readAllBytes(Paths.get(Objects.requireNonNull(
+            JdbcToArrowCommentMetadataTest.class.getResource(expectedResource)).toURI())), StandardCharsets.UTF_8);
+  }
+}
diff --git a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/JdbcToArrowTestHelper.java b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/JdbcToArrowTestHelper.java
index e7b7fe0455b..d5f896ba7df 100644
--- a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/JdbcToArrowTestHelper.java
+++ b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/JdbcToArrowTestHelper.java
@@ -26,7 +26,9 @@
 import java.nio.charset.Charset;
 import java.sql.ResultSetMetaData;
 import java.sql.SQLException;
+import java.util.AbstractMap;
 import java.util.Arrays;
+import java.util.HashMap;
 import java.util.List;
 import java.util.Map;
 
@@ -47,8 +49,17 @@
 import org.apache.arrow.vector.VarCharVector;
 import org.apache.arrow.vector.VectorSchemaRoot;
 import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.MapVector;
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.arrow.vector.util.JsonStringArrayList;
+import org.apache.arrow.vector.util.JsonStringHashMap;
+import org.apache.arrow.vector.util.ObjectMapperFactory;
+import org.apache.arrow.vector.util.Text;
+
+import com.fasterxml.jackson.core.JsonProcessingException;
+import com.fasterxml.jackson.core.type.TypeReference;
+import com.fasterxml.jackson.databind.ObjectMapper;
 
 /**
  * This is a Helper class which has functionalities to read and assert the values from the given FieldVector object.
@@ -240,6 +251,45 @@ public static void assertListVectorValues(ListVector listVector, int rowCount, I
     }
   }
 
+  public static void assertMapVectorValues(MapVector mapVector, int rowCount, Map<String, String>[] values) {
+    assertEquals(rowCount, mapVector.getValueCount());
+
+    for (int j = 0; j < mapVector.getValueCount(); j++) {
+      if (values[j] == null) {
+        assertTrue(mapVector.isNull(j));
+      } else {
+        JsonStringArrayList<JsonStringHashMap<String, Text>> actualSource =
+            (JsonStringArrayList<JsonStringHashMap<String, Text>>) mapVector.getObject(j);
+        Map<String, String> actualMap = null;
+        if (actualSource != null && !actualSource.isEmpty()) {
+          actualMap = actualSource.stream().map(entry ->
+            new AbstractMap.SimpleEntry<>(entry.get("key").toString(),
+                    entry.get("value") != null ? entry.get("value").toString() : null))
+          .collect(HashMap::new, (collector, val) -> collector.put(val.getKey(), val.getValue()), HashMap::putAll);
+        }
+        assertEquals(values[j], actualMap);
+      }
+    }
+  }
+
+  public static Map<String, String>[] getMapValues(String[] values, String dataType) {
+    String[] dataArr = getValues(values, dataType);
+    Map<String, String>[] maps = new Map[dataArr.length];
+    ObjectMapper objectMapper = ObjectMapperFactory.newObjectMapper();
+    TypeReference<Map<String, String>> typeReference = new TypeReference<Map<String, String>>() {};
+    for (int idx = 0; idx < dataArr.length; idx++) {
+      String jsonString = dataArr[idx].replace("|", ",");
+      if (!jsonString.isEmpty()) {
+        try {
+          maps[idx] = objectMapper.readValue(jsonString, typeReference);
+        } catch (JsonProcessingException e) {
+          throw new RuntimeException(e);
+        }
+      }
+    }
+    return maps;
+  }
+
   public static void assertNullValues(BaseValueVector vector, int rowCount) {
     assertEquals(rowCount, vector.getValueCount());
 
@@ -274,9 +324,10 @@ public static void assertFieldMetadataMatchesResultSetMetadata(ResultSetMetaData
       Map<String, String> metadata = fields.get(i - 1).getMetadata();
 
       assertNotNull(metadata);
-      assertEquals(4, metadata.size());
+      assertEquals(5, metadata.size());
 
       assertEquals(rsmd.getCatalogName(i), metadata.get(Constants.SQL_CATALOG_NAME_KEY));
+      assertEquals(rsmd.getSchemaName(i), metadata.get(Constants.SQL_SCHEMA_NAME_KEY));
       assertEquals(rsmd.getTableName(i), metadata.get(Constants.SQL_TABLE_NAME_KEY));
       assertEquals(rsmd.getColumnLabel(i), metadata.get(Constants.SQL_COLUMN_NAME_KEY));
       assertEquals(rsmd.getColumnTypeName(i), metadata.get(Constants.SQL_TYPE_KEY));
diff --git a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/UnreliableMetaDataTest.java b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/UnreliableMetaDataTest.java
index 1e004e950c4..90554578d1f 100644
--- a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/UnreliableMetaDataTest.java
+++ b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/UnreliableMetaDataTest.java
@@ -113,7 +113,8 @@ public void testUnreliableMetaDataPrecisionAndScale() throws Exception {
 
     try (ArrowVectorIterator iter = JdbcToArrow.sqlToArrowVectorIterator(rs, config)) {
       while (iter.hasNext()) {
-        iter.next();
+        VectorSchemaRoot root = iter.next();
+        root.close();
       }
     }
   }
@@ -159,7 +160,8 @@ public void testInconsistentPrecisionAndScale() throws Exception {
         .build();
     try (ArrowVectorIterator iter = JdbcToArrow.sqlToArrowVectorIterator(rs, config)) {
       while (iter.hasNext()) {
-        iter.next();
+        VectorSchemaRoot root = iter.next();
+        root.close();
       }
     }
   }
@@ -200,6 +202,7 @@ public void testIncorrectNullability() throws Exception {
         assertEquals(1024, ints.get(0));
         assertFalse(ints.isNull(1));
         assertFalse(iter.hasNext());
+        root.close();
       }
 
       rs.beforeFirst();
@@ -223,6 +226,7 @@ public void testIncorrectNullability() throws Exception {
         assertEquals(1024, ints.get(0));
         assertTrue(ints.isNull(1));
         assertFalse(iter.hasNext());
+        root.close();
       }
 
       rs.beforeFirst();
@@ -245,6 +249,7 @@ public void testIncorrectNullability() throws Exception {
         assertEquals(1024, ints.get(0));
         assertFalse(ints.isNull(1));
         assertFalse(iter.hasNext());
+        root.close();
       }
     }
   }
diff --git a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowCharSetTest.java b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowCharSetTest.java
index b548c9169af..422b55070aa 100644
--- a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowCharSetTest.java
+++ b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowCharSetTest.java
@@ -109,22 +109,22 @@ public static Collection<Object[]> getTestData() throws SQLException, ClassNotFo
   @Test
   public void testJdbcToArrowValues() throws SQLException, IOException {
     testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE),
-        Calendar.getInstance()));
-    testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE)));
+        Calendar.getInstance()), false);
+    testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE)), false);
     testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()),
-        new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance()));
-    testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery())));
+        new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance()), false);
+    testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery())), false);
     testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()),
-        new RootAllocator(Integer.MAX_VALUE)));
+        new RootAllocator(Integer.MAX_VALUE)), false);
     testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()),
-        Calendar.getInstance()));
+        Calendar.getInstance()), false);
     testDataSets(sqlToArrow(
         conn.createStatement().executeQuery(table.getQuery()),
-        new JdbcToArrowConfigBuilder(new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance()).build()));
+        new JdbcToArrowConfigBuilder(new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance()).build()), false);
     testDataSets(sqlToArrow(
         conn,
         table.getQuery(),
-        new JdbcToArrowConfigBuilder(new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance()).build()));
+        new JdbcToArrowConfigBuilder(new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance()).build()), false);
   }
 
   @Test
@@ -139,8 +139,10 @@ public void testJdbcSchemaMetadata() throws SQLException {
    * This method calls the assert methods for various DataSets.
    *
    * @param root VectorSchemaRoot for test
+   * @param isIncludeMapVector is this dataset checks includes map column.
+   *          Jdbc type to 'map' mapping declared in configuration only manually
    */
-  public void testDataSets(VectorSchemaRoot root) {
+  public void testDataSets(VectorSchemaRoot root, boolean isIncludeMapVector) {
     JdbcToArrowTestHelper.assertFieldMetadataIsEmpty(root);
 
     assertVarcharVectorValues((VarCharVector) root.getVector(CLOB), table.getRowCount(),
diff --git a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowDataTypesTest.java b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowDataTypesTest.java
index 9810cd2e796..ae4fffd0f94 100644
--- a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowDataTypesTest.java
+++ b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowDataTypesTest.java
@@ -147,25 +147,25 @@ public static Collection<Object[]> getTestData() throws SQLException, ClassNotFo
   @Test
   public void testJdbcToArrowValues() throws SQLException, IOException {
     testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE),
-        Calendar.getInstance()));
-    testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE)));
+        Calendar.getInstance()), false);
+    testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE)), false);
     testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()),
-        new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance()));
-    testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery())));
+        new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance()), false);
+    testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery())), false);
     testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()),
-        new RootAllocator(Integer.MAX_VALUE)));
-    testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()), Calendar.getInstance()));
+        new RootAllocator(Integer.MAX_VALUE)), false);
+    testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()), Calendar.getInstance()), false);
     testDataSets(sqlToArrow(
         conn.createStatement().executeQuery(table.getQuery()),
         new JdbcToArrowConfigBuilder(new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance())
             .setArraySubTypeByColumnNameMap(ARRAY_SUB_TYPE_BY_COLUMN_NAME_MAP)
-            .build()));
+            .build()), false);
     testDataSets(sqlToArrow(
         conn,
         table.getQuery(),
         new JdbcToArrowConfigBuilder(new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance())
             .setArraySubTypeByColumnNameMap(ARRAY_SUB_TYPE_BY_COLUMN_NAME_MAP)
-            .build()));
+            .build()), false);
   }
 
   @Test
@@ -182,8 +182,10 @@ public void testJdbcSchemaMetadata() throws SQLException {
    * This method calls the assert methods for various DataSets.
    *
    * @param root VectorSchemaRoot for test
+   * @param isIncludeMapVector is this dataset checks includes map column.
+   *          Jdbc type to 'map' mapping declared in configuration only manually
    */
-  public void testDataSets(VectorSchemaRoot root) {
+  public void testDataSets(VectorSchemaRoot root, boolean isIncludeMapVector) {
     JdbcToArrowTestHelper.assertFieldMetadataIsEmpty(root);
 
     switch (table.getType()) {
diff --git a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowMapDataTypeTest.java b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowMapDataTypeTest.java
new file mode 100644
index 00000000000..43862a93c39
--- /dev/null
+++ b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowMapDataTypeTest.java
@@ -0,0 +1,75 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.adapter.jdbc.h2;
+
+import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertMapVectorValues;
+import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getMapValues;
+
+import java.io.IOException;
+import java.sql.ResultSetMetaData;
+import java.sql.SQLException;
+import java.util.Calendar;
+
+import org.apache.arrow.adapter.jdbc.AbstractJdbcToArrowTest;
+import org.apache.arrow.adapter.jdbc.JdbcToArrowConfigBuilder;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.complex.MapVector;
+import org.junit.Test;
+
+/**
+ * Test MapConsumer with OTHER jdbc type.
+ */
+public class JdbcToArrowMapDataTypeTest extends AbstractJdbcToArrowTest {
+
+  public JdbcToArrowMapDataTypeTest() throws IOException {
+    this.table = getTable("h2/test1_map_h2.yml", JdbcToArrowMapDataTypeTest.class);
+  }
+
+  /**
+   * Test Method to test JdbcToArrow Functionality for Map form Types.OTHER column
+   */
+  @Test
+  public void testJdbcToArrowValues() throws SQLException, IOException {
+    Calendar calendar = Calendar.getInstance();
+    ResultSetMetaData rsmd = getQueryMetaData(table.getQuery());
+    testDataSets(sqlToArrow(
+            conn.createStatement().executeQuery(table.getQuery()),
+            new JdbcToArrowConfigBuilder(new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance())
+                    .setJdbcToArrowTypeConverter(jdbcToArrowTypeConverter(calendar, rsmd))
+                    .build()), true);
+    testDataSets(sqlToArrow(
+            conn,
+            table.getQuery(),
+            new JdbcToArrowConfigBuilder(new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance())
+                    .setJdbcToArrowTypeConverter(jdbcToArrowTypeConverter(calendar, rsmd))
+                    .build()), true);
+  }
+
+  /**
+   * This method calls the assert methods for various DataSets.
+   *
+   * @param root VectorSchemaRoot for test
+   * @param isIncludeMapVector is this dataset checks includes map column.
+   *          Jdbc type to 'map' mapping declared in configuration only manually
+   */
+  public void testDataSets(VectorSchemaRoot root, boolean isIncludeMapVector) {
+    assertMapVectorValues((MapVector) root.getVector(MAP), table.getRowCount(),
+            getMapValues(table.getValues(), MAP));
+  }
+}
diff --git a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowNullTest.java b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowNullTest.java
index e021b276fbe..5731f27c5b3 100644
--- a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowNullTest.java
+++ b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowNullTest.java
@@ -26,6 +26,7 @@
 import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertFloat8VectorValues;
 import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertIntVectorValues;
 import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertListVectorValues;
+import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertMapVectorValues;
 import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertNullValues;
 import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertSmallIntVectorValues;
 import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertTimeStampVectorValues;
@@ -42,6 +43,7 @@
 import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getIntValues;
 import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getListValues;
 import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getLongValues;
+import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getMapValues;
 
 import java.io.IOException;
 import java.sql.ResultSetMetaData;
@@ -72,6 +74,7 @@
 import org.apache.arrow.vector.VarCharVector;
 import org.apache.arrow.vector.VectorSchemaRoot;
 import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.MapVector;
 import org.apache.arrow.vector.types.pojo.Schema;
 import org.junit.Test;
 import org.junit.runner.RunWith;
@@ -123,25 +126,29 @@ public static Collection<Object[]> getTestData() throws SQLException, ClassNotFo
   @Test
   public void testJdbcToArrowValues() throws SQLException, IOException {
     testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE),
-        Calendar.getInstance()));
-    testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE)));
+        Calendar.getInstance()), false);
+    testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE)), false);
     testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()),
-        new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance()));
-    testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery())));
+        new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance()), false);
+    testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery())), false);
     testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()),
-        new RootAllocator(Integer.MAX_VALUE)));
-    testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()), Calendar.getInstance()));
+        new RootAllocator(Integer.MAX_VALUE)), false);
+    testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()), Calendar.getInstance()), false);
+    Calendar calendar = Calendar.getInstance();
+    ResultSetMetaData rsmd = getQueryMetaData(table.getQuery());
     testDataSets(sqlToArrow(
         conn.createStatement().executeQuery(table.getQuery()),
         new JdbcToArrowConfigBuilder(new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance())
             .setArraySubTypeByColumnNameMap(ARRAY_SUB_TYPE_BY_COLUMN_NAME_MAP)
-            .build()));
+            .setJdbcToArrowTypeConverter(jdbcToArrowTypeConverter(calendar, rsmd))
+            .build()), true);
     testDataSets(sqlToArrow(
         conn,
         table.getQuery(),
         new JdbcToArrowConfigBuilder(new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance())
             .setArraySubTypeByColumnNameMap(ARRAY_SUB_TYPE_BY_COLUMN_NAME_MAP)
-            .build()));
+            .setJdbcToArrowTypeConverter(jdbcToArrowTypeConverter(calendar, rsmd))
+            .build()), true);
   }
 
   @Test
@@ -158,8 +165,10 @@ public void testJdbcSchemaMetadata() throws SQLException {
    * This method calls the assert methods for various DataSets.
    *
    * @param root VectorSchemaRoot for test
+   * @param isIncludeMapVector is this dataset checks includes map column.
+   *          Jdbc type to 'map' mapping declared in configuration only manually
    */
-  public void testDataSets(VectorSchemaRoot root) {
+  public void testDataSets(VectorSchemaRoot root, boolean isIncludeMapVector) {
     JdbcToArrowTestHelper.assertFieldMetadataIsEmpty(root);
 
     switch (table.getType()) {
@@ -167,10 +176,10 @@ public void testDataSets(VectorSchemaRoot root) {
         sqlToArrowTestNullValues(table.getVectors(), root, table.getRowCount());
         break;
       case SELECTED_NULL_COLUMN:
-        sqlToArrowTestSelectedNullColumnsValues(table.getVectors(), root, table.getRowCount());
+        sqlToArrowTestSelectedNullColumnsValues(table.getVectors(), root, table.getRowCount(), isIncludeMapVector);
         break;
       case SELECTED_NULL_ROW:
-        testAllVectorValues(root);
+        testAllVectorValues(root, isIncludeMapVector);
         break;
       default:
         // do nothing
@@ -178,7 +187,7 @@ public void testDataSets(VectorSchemaRoot root) {
     }
   }
 
-  private void testAllVectorValues(VectorSchemaRoot root) {
+  private void testAllVectorValues(VectorSchemaRoot root, boolean isIncludeMapVector) {
     JdbcToArrowTestHelper.assertFieldMetadataIsEmpty(root);
 
     assertBigIntVectorValues((BigIntVector) root.getVector(BIGINT), table.getRowCount(),
@@ -234,6 +243,10 @@ private void testAllVectorValues(VectorSchemaRoot root) {
 
     assertListVectorValues((ListVector) root.getVector(LIST), table.getRowCount(),
         getListValues(table.getValues(), LIST));
+    if (isIncludeMapVector) {
+      assertMapVectorValues((MapVector) root.getVector(MAP), table.getRowCount(),
+              getMapValues(table.getValues(), MAP));
+    }
   }
 
   /**
@@ -270,8 +283,11 @@ public void sqlToArrowTestNullValues(String[] vectors, VectorSchemaRoot root, in
    * @param vectors Vectors to test
    * @param root VectorSchemaRoot for test
    * @param rowCount number of rows
+   * @param isIncludeMapVector is this dataset checks includes map column.
+   *          Jdbc type to 'map' mapping declared in configuration only manually
    */
-  public void sqlToArrowTestSelectedNullColumnsValues(String[] vectors, VectorSchemaRoot root, int rowCount) {
+  public void sqlToArrowTestSelectedNullColumnsValues(String[] vectors, VectorSchemaRoot root, int rowCount,
+                                                      boolean isIncludeMapVector) {
     assertNullValues((BigIntVector) root.getVector(vectors[0]), rowCount);
     assertNullValues((DecimalVector) root.getVector(vectors[1]), rowCount);
     assertNullValues((Float8Vector) root.getVector(vectors[2]), rowCount);
@@ -286,6 +302,9 @@ public void sqlToArrowTestSelectedNullColumnsValues(String[] vectors, VectorSche
     assertNullValues((VarCharVector) root.getVector(vectors[11]), rowCount);
     assertNullValues((BitVector) root.getVector(vectors[12]), rowCount);
     assertNullValues((ListVector) root.getVector(vectors[13]), rowCount);
+    if (isIncludeMapVector) {
+      assertNullValues((MapVector) root.getVector(vectors[14]), rowCount);
+    }
   }
 
 }
diff --git a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowOptionalColumnsTest.java b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowOptionalColumnsTest.java
index 84960dc8880..eebcbe64c0e 100644
--- a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowOptionalColumnsTest.java
+++ b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowOptionalColumnsTest.java
@@ -71,7 +71,7 @@ public static Collection<Object[]> getTestData() throws SQLException, ClassNotFo
    */
   @Test
   public void testJdbcToArrowValues() throws SQLException, IOException {
-    testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE)));
+    testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE)), false);
   }
 
   /**
@@ -79,8 +79,10 @@ public void testJdbcToArrowValues() throws SQLException, IOException {
    * nullable in the VectorSchemaRoot, and that a SQL `NOT NULL` column becomes non-nullable.
    *
    * @param root VectorSchemaRoot for test
+   * @param isIncludeMapVector is this dataset checks includes map column.
+   *          Jdbc type to 'map' mapping declared in configuration only manually
    */
-  public void testDataSets(VectorSchemaRoot root) {
+  public void testDataSets(VectorSchemaRoot root, boolean isIncludeMapVector) {
     JdbcToArrowTestHelper.assertFieldMetadataIsEmpty(root);
 
     assertTrue(root.getSchema().getFields().get(0).isNullable());
diff --git a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowTest.java b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowTest.java
index f9cf72d5dd1..7641fa7f165 100644
--- a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowTest.java
+++ b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowTest.java
@@ -17,31 +17,7 @@
 
 package org.apache.arrow.adapter.jdbc.h2;
 
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertBigIntVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertBitVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertBooleanVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertDateVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertDecimalVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertFloat4VectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertFloat8VectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertIntVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertListVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertNullVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertSmallIntVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertTimeStampVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertTimeVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertTinyIntVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertVarBinaryVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.assertVarcharVectorValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getBinaryValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getBooleanValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getCharArray;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getDecimalValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getDoubleValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getFloatValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getIntValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getListValues;
-import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.getLongValues;
+import static org.apache.arrow.adapter.jdbc.JdbcToArrowTestHelper.*;
 import static org.junit.Assert.assertEquals;
 
 import java.io.IOException;
@@ -81,6 +57,7 @@
 import org.apache.arrow.vector.VarCharVector;
 import org.apache.arrow.vector.VectorSchemaRoot;
 import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.MapVector;
 import org.apache.arrow.vector.types.pojo.Schema;
 import org.junit.Test;
 import org.junit.runner.RunWith;
@@ -126,35 +103,41 @@ public static Collection<Object[]> getTestData() throws SQLException, ClassNotFo
   @Test
   public void testJdbcToArrowValues() throws SQLException, IOException {
     testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE),
-        Calendar.getInstance()));
-    testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE)));
+        Calendar.getInstance()), false);
+    testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE)), false);
     testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()),
-        new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance()));
-    testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery())));
+        new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance()), false);
+    testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery())), false);
     testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()),
-        new RootAllocator(Integer.MAX_VALUE)));
+        new RootAllocator(Integer.MAX_VALUE)), false);
     testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()),
-        Calendar.getInstance()));
+        Calendar.getInstance()), false);
+    Calendar calendar = Calendar.getInstance();
+    ResultSetMetaData rsmd = getQueryMetaData(table.getQuery());
     testDataSets(sqlToArrow(
         conn.createStatement().executeQuery(table.getQuery()),
         new JdbcToArrowConfigBuilder(new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance())
             .setArraySubTypeByColumnNameMap(ARRAY_SUB_TYPE_BY_COLUMN_NAME_MAP)
-            .build()));
+            .setJdbcToArrowTypeConverter(jdbcToArrowTypeConverter(calendar, rsmd))
+            .build()), true);
     testDataSets(sqlToArrow(
         conn,
         table.getQuery(),
-        new JdbcToArrowConfigBuilder(new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance())
+        new JdbcToArrowConfigBuilder(new RootAllocator(Integer.MAX_VALUE), calendar)
             .setArraySubTypeByColumnNameMap(ARRAY_SUB_TYPE_BY_COLUMN_NAME_MAP)
-            .build()));
+            .setJdbcToArrowTypeConverter(jdbcToArrowTypeConverter(calendar, rsmd))
+            .build()), true);
   }
 
   @Test
   public void testJdbcSchemaMetadata() throws SQLException {
-    JdbcToArrowConfig config = new JdbcToArrowConfigBuilder(new RootAllocator(0), Calendar.getInstance(), true)
+    Calendar calendar = Calendar.getInstance();
+    ResultSetMetaData rsmd = getQueryMetaData(table.getQuery());
+    JdbcToArrowConfig config = new JdbcToArrowConfigBuilder(new RootAllocator(0), calendar, true)
         .setReuseVectorSchemaRoot(reuseVectorSchemaRoot)
+        .setJdbcToArrowTypeConverter(jdbcToArrowTypeConverter(calendar, rsmd))
         .setArraySubTypeByColumnNameMap(ARRAY_SUB_TYPE_BY_COLUMN_NAME_MAP)
         .build();
-    ResultSetMetaData rsmd = conn.createStatement().executeQuery(table.getQuery()).getMetaData();
     Schema schema = JdbcToArrowUtils.jdbcToArrowSchema(rsmd, config);
     JdbcToArrowTestHelper.assertFieldMetadataMatchesResultSetMetadata(rsmd, schema);
   }
@@ -163,10 +146,11 @@ public void testJdbcSchemaMetadata() throws SQLException {
    * This method calls the assert methods for various DataSets.
    *
    * @param root VectorSchemaRoot for test
+   * @param isIncludeMapVector is this dataset checks includes map column.
+   *          Jdbc type to 'map' mapping declared in configuration only manually
    */
-  public void testDataSets(VectorSchemaRoot root) {
+  public void testDataSets(VectorSchemaRoot root, boolean isIncludeMapVector) {
     JdbcToArrowTestHelper.assertFieldMetadataIsEmpty(root);
-
     assertBigIntVectorValues((BigIntVector) root.getVector(BIGINT), table.getRowCount(),
         getLongValues(table.getValues(), BIGINT));
 
@@ -222,6 +206,11 @@ public void testDataSets(VectorSchemaRoot root) {
 
     assertListVectorValues((ListVector) root.getVector(LIST), table.getRowCount(),
         getListValues(table.getValues(), LIST));
+
+    if (isIncludeMapVector) {
+      assertMapVectorValues((MapVector) root.getVector(MAP), table.getRowCount(),
+              getMapValues(table.getValues(), MAP));
+    }
   }
 
   @Test
diff --git a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowTimeZoneTest.java b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowTimeZoneTest.java
index f5ddbdb9bf0..462a75da514 100644
--- a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowTimeZoneTest.java
+++ b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowTimeZoneTest.java
@@ -105,22 +105,22 @@ public static Collection<Object[]> getTestData() throws SQLException, ClassNotFo
   @Test
   public void testJdbcToArrowValues() throws SQLException, IOException {
     testDataSets(sqlToArrow(conn, table.getQuery(), new RootAllocator(Integer.MAX_VALUE),
-        Calendar.getInstance(TimeZone.getTimeZone(table.getTimezone()))));
+        Calendar.getInstance(TimeZone.getTimeZone(table.getTimezone()))), false);
     testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()),
-        new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance(TimeZone.getTimeZone(table.getTimezone()))));
+        new RootAllocator(Integer.MAX_VALUE), Calendar.getInstance(TimeZone.getTimeZone(table.getTimezone()))), false);
     testDataSets(sqlToArrow(conn.createStatement().executeQuery(table.getQuery()),
-        Calendar.getInstance(TimeZone.getTimeZone(table.getTimezone()))));
+        Calendar.getInstance(TimeZone.getTimeZone(table.getTimezone()))), false);
     testDataSets(sqlToArrow(
         conn.createStatement().executeQuery(table.getQuery()),
         new JdbcToArrowConfigBuilder(
             new RootAllocator(Integer.MAX_VALUE),
-            Calendar.getInstance(TimeZone.getTimeZone(table.getTimezone()))).build()));
+            Calendar.getInstance(TimeZone.getTimeZone(table.getTimezone()))).build()), false);
     testDataSets(sqlToArrow(
         conn,
         table.getQuery(),
         new JdbcToArrowConfigBuilder(
             new RootAllocator(Integer.MAX_VALUE),
-            Calendar.getInstance(TimeZone.getTimeZone(table.getTimezone()))).build()));
+            Calendar.getInstance(TimeZone.getTimeZone(table.getTimezone()))).build()), false);
   }
 
   @Test
@@ -136,8 +136,10 @@ public void testJdbcSchemaMetadata() throws SQLException {
    * This method calls the assert methods for various DataSets.
    *
    * @param root VectorSchemaRoot for test
+   * @param isIncludeMapVector is this dataset checks includes map column.
+   *          Jdbc type to 'map' mapping declared in configuration only manually
    */
-  public void testDataSets(VectorSchemaRoot root) {
+  public void testDataSets(VectorSchemaRoot root, boolean isIncludeMapVector) {
     JdbcToArrowTestHelper.assertFieldMetadataIsEmpty(root);
 
     switch (table.getType()) {
diff --git a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowVectorIteratorTest.java b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowVectorIteratorTest.java
index 84ec3a45620..1d7e2760f84 100644
--- a/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowVectorIteratorTest.java
+++ b/java/adapter/jdbc/src/test/java/org/apache/arrow/adapter/jdbc/h2/JdbcToArrowVectorIteratorTest.java
@@ -29,6 +29,7 @@
 import static org.junit.Assert.assertArrayEquals;
 import static org.junit.Assert.assertEquals;
 import static org.junit.Assert.assertFalse;
+import static org.junit.Assert.assertNotEquals;
 import static org.junit.Assert.assertNotNull;
 import static org.junit.jupiter.api.Assertions.assertNull;
 import static org.junit.jupiter.api.Assertions.assertTrue;
@@ -129,8 +130,9 @@ public void testVectorSchemaRootReuse() throws SQLException, IOException {
 
     int batchCount = 0;
     VectorSchemaRoot prev = null;
+    VectorSchemaRoot cur = null;
     while (iterator.hasNext()) {
-      VectorSchemaRoot cur = iterator.next();
+      cur = iterator.next();
       assertNotNull(cur);
 
       // verify the first column, with may contain nulls.
@@ -152,7 +154,9 @@ public void testVectorSchemaRootReuse() throws SQLException, IOException {
         } else {
           // when reuse is enabled, a new vector schema root is created in each iteration.
           assertFalse(prev == cur);
-          cur.close();
+          if (batchCount < 3) {
+            cur.close();
+          }
         }
       }
 
@@ -160,6 +164,13 @@ public void testVectorSchemaRootReuse() throws SQLException, IOException {
       batchCount += 1;
     }
 
+    iterator.close();
+    if (!reuseVectorSchemaRoot) {
+      assertNotNull(cur);
+      // test that closing the iterator does not close the vectors held by the consumers
+      assertNotEquals(cur.getVector(0).getValueCount(), 0);
+      cur.close();
+    }
     // make sure we have at least two batches, so the above test paths are actually covered
     assertTrue(batchCount > 1);
   }
@@ -516,7 +527,7 @@ public void testJdbcToArrowCustomTypeConversion() throws SQLException, IOExcepti
     }
 
     // second experiment, using customized type converter
-    builder.setJdbcToArrowTypeConverter(fieldInfo -> {
+    builder.setJdbcToArrowTypeConverter((fieldInfo) -> {
       switch (fieldInfo.getJdbcType()) {
         case Types.REAL:
           // this is different from the default type converter
diff --git a/java/adapter/jdbc/src/test/resources/h2/comment.sql b/java/adapter/jdbc/src/test/resources/h2/comment.sql
new file mode 100644
index 00000000000..db8964fe1d4
--- /dev/null
+++ b/java/adapter/jdbc/src/test/resources/h2/comment.sql
@@ -0,0 +1,21 @@
+--Licensed to the Apache Software Foundation (ASF) under one or more contributor
+--license agreements. See the NOTICE file distributed with this work for additional
+--information regarding copyright ownership. The ASF licenses this file to
+--You under the Apache License, Version 2.0 (the "License"); you may not use
+--this file except in compliance with the License. You may obtain a copy of
+--the License at http://www.apache.org/licenses/LICENSE-2.0 Unless required
+--by applicable law or agreed to in writing, software distributed under the
+--License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS
+--OF ANY KIND, either express or implied. See the License for the specific
+--language governing permissions and limitations under the License.
+create table table1(
+  id bigint primary key,
+  name varchar(255),
+  column1 boolean,
+  columnN int
+  );
+
+COMMENT ON TABLE table1 IS 'This is super special table with valuable data';
+COMMENT ON COLUMN table1.id IS 'Record identifier';
+COMMENT ON COLUMN table1.name IS 'Name of record';
+COMMENT ON COLUMN table1.columnN IS 'Informative description of columnN';
\ No newline at end of file
diff --git a/java/adapter/jdbc/src/test/resources/h2/expectedSchemaWithComments.json b/java/adapter/jdbc/src/test/resources/h2/expectedSchemaWithComments.json
new file mode 100644
index 00000000000..cfdd00fdff4
--- /dev/null
+++ b/java/adapter/jdbc/src/test/resources/h2/expectedSchemaWithComments.json
@@ -0,0 +1,51 @@
+{
+  "fields" : [ {
+    "name" : "ID",
+    "nullable" : false,
+    "type" : {
+      "name" : "int",
+      "bitWidth" : 64,
+      "isSigned" : true
+    },
+    "children" : [ ],
+    "metadata" : [ {
+      "value" : "Record identifier",
+      "key" : "comment"
+    } ]
+  }, {
+    "name" : "NAME",
+    "nullable" : true,
+    "type" : {
+      "name" : "utf8"
+    },
+    "children" : [ ],
+    "metadata" : [ {
+      "value" : "Name of record",
+      "key" : "comment"
+    } ]
+  }, {
+    "name" : "COLUMN1",
+    "nullable" : true,
+    "type" : {
+      "name" : "bool"
+    },
+    "children" : [ ]
+  }, {
+    "name" : "COLUMNN",
+    "nullable" : true,
+    "type" : {
+      "name" : "int",
+      "bitWidth" : 32,
+      "isSigned" : true
+    },
+    "children" : [ ],
+    "metadata" : [ {
+      "value" : "Informative description of columnN",
+      "key" : "comment"
+    } ]
+  } ],
+  "metadata" : [ {
+    "value" : "This is super special table with valuable data",
+    "key" : "comment"
+  } ]
+}
\ No newline at end of file
diff --git a/java/adapter/jdbc/src/test/resources/h2/expectedSchemaWithCommentsAndJdbcMeta.json b/java/adapter/jdbc/src/test/resources/h2/expectedSchemaWithCommentsAndJdbcMeta.json
new file mode 100644
index 00000000000..9b25d635d4b
--- /dev/null
+++ b/java/adapter/jdbc/src/test/resources/h2/expectedSchemaWithCommentsAndJdbcMeta.json
@@ -0,0 +1,112 @@
+{
+  "fields" : [ {
+    "name" : "ID",
+    "nullable" : false,
+    "type" : {
+      "name" : "int",
+      "bitWidth" : 64,
+      "isSigned" : true
+    },
+    "children" : [ ],
+    "metadata" : [ {
+      "value" : "PUBLIC",
+      "key" : "SQL_SCHEMA_NAME"
+    }, {
+      "value" : "JDBCTOARROWTEST?CHARACTERENCODING=UTF-8",
+      "key" : "SQL_CATALOG_NAME"
+    }, {
+      "value" : "ID",
+      "key" : "SQL_COLUMN_NAME"
+    }, {
+      "value" : "BIGINT",
+      "key" : "SQL_TYPE"
+    }, {
+      "value" : "Record identifier",
+      "key" : "comment"
+    }, {
+      "value" : "TABLE1",
+      "key" : "SQL_TABLE_NAME"
+    } ]
+  }, {
+    "name" : "NAME",
+    "nullable" : true,
+    "type" : {
+      "name" : "utf8"
+    },
+    "children" : [ ],
+    "metadata" : [ {
+      "value" : "PUBLIC",
+      "key" : "SQL_SCHEMA_NAME"
+    }, {
+      "value" : "JDBCTOARROWTEST?CHARACTERENCODING=UTF-8",
+      "key" : "SQL_CATALOG_NAME"
+    }, {
+      "value" : "NAME",
+      "key" : "SQL_COLUMN_NAME"
+    }, {
+      "value" : "VARCHAR",
+      "key" : "SQL_TYPE"
+    }, {
+      "value" : "Name of record",
+      "key" : "comment"
+    }, {
+      "value" : "TABLE1",
+      "key" : "SQL_TABLE_NAME"
+    } ]
+  }, {
+    "name" : "COLUMN1",
+    "nullable" : true,
+    "type" : {
+      "name" : "bool"
+    },
+    "children" : [ ],
+    "metadata" : [ {
+      "value" : "PUBLIC",
+      "key" : "SQL_SCHEMA_NAME"
+    }, {
+      "value" : "TABLE1",
+      "key" : "SQL_TABLE_NAME"
+    }, {
+      "value" : "JDBCTOARROWTEST?CHARACTERENCODING=UTF-8",
+      "key" : "SQL_CATALOG_NAME"
+    }, {
+      "value" : "COLUMN1",
+      "key" : "SQL_COLUMN_NAME"
+    }, {
+      "value" : "BOOLEAN",
+      "key" : "SQL_TYPE"
+    } ]
+  }, {
+    "name" : "COLUMNN",
+    "nullable" : true,
+    "type" : {
+      "name" : "int",
+      "bitWidth" : 32,
+      "isSigned" : true
+    },
+    "children" : [ ],
+    "metadata" : [ {
+      "value" : "PUBLIC",
+      "key" : "SQL_SCHEMA_NAME"
+    }, {
+      "value" : "JDBCTOARROWTEST?CHARACTERENCODING=UTF-8",
+      "key" : "SQL_CATALOG_NAME"
+    }, {
+      "value" : "COLUMNN",
+      "key" : "SQL_COLUMN_NAME"
+    }, {
+      "value" : "INTEGER",
+      "key" : "SQL_TYPE"
+    }, {
+      "value" : "Informative description of columnN",
+      "key" : "comment"
+    }, {
+      "value" : "TABLE1",
+      "key" : "SQL_TABLE_NAME"
+    } ]
+  } ],
+  "metadata" : [ {
+    "value" : "This is super special table with valuable data",
+    "key" : "comment"
+  } ]
+}
\ No newline at end of file
diff --git a/java/adapter/jdbc/src/test/resources/h2/test1_all_datatypes_h2.yml b/java/adapter/jdbc/src/test/resources/h2/test1_all_datatypes_h2.yml
index 45b8c9c7713..ff76acf8d7c 100644
--- a/java/adapter/jdbc/src/test/resources/h2/test1_all_datatypes_h2.yml
+++ b/java/adapter/jdbc/src/test/resources/h2/test1_all_datatypes_h2.yml
@@ -14,61 +14,61 @@ name: 'test1_all_datatypes_h2'
 create: 'CREATE TABLE table1 (int_field1 INT, bool_field2 BOOLEAN, tinyint_field3 TINYINT, smallint_field4 SMALLINT, bigint_field5 BIGINT,
     decimal_field6 DECIMAL(20,2), double_field7 DOUBLE, real_field8 REAL, time_field9 TIME, date_field10 DATE, timestamp_field11 TIMESTAMP,
     binary_field12 BINARY(100), varchar_field13 VARCHAR(256), blob_field14 BLOB, clob_field15 CLOB, char_field16 CHAR(16), bit_field17 BIT,
-    null_field18 NULL, list_field19 ARRAY);'
+    null_field18 NULL, list_field19 ARRAY, map_field20 VARCHAR(256));'
 
 data:
   - 'INSERT INTO table1 VALUES (101, 1, 45, 12000, 92233720, 17345667789.23, 56478356785.345, 56478356785.345, PARSEDATETIME(''12:45:35 GMT'', ''HH:mm:ss z''),
   PARSEDATETIME(''2018-02-12 GMT'', ''yyyy-MM-dd z''), PARSEDATETIME(''2018-02-12 12:45:35 GMT'', ''yyyy-MM-dd HH:mm:ss z''),
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to varchar'',
-  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (1, 2, 3));'
+  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (1, 2, 3), ''{"a":"b","key":"12345"}'');'
 
   - 'INSERT INTO table1 VALUES (102, 1, 45, 12000, 92233720, 17345667789.23, 56478356785.345, 56478356785.345, PARSEDATETIME(''12:45:35 GMT'', ''HH:mm:ss z''),
   PARSEDATETIME(''2018-02-12 GMT'', ''yyyy-MM-dd z''), PARSEDATETIME(''2018-02-12 12:45:35 GMT'', ''yyyy-MM-dd HH:mm:ss z''),
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to varchar'',
-  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (1, 2));'
+  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (1, 2),''{"c":"d"}'');'
 
   - 'INSERT INTO table1 VALUES (103, 1, 45, 12000, 92233720, 17345667789.23, 56478356785.345, 56478356785.345, PARSEDATETIME(''12:45:35 GMT'', ''HH:mm:ss z''),
   PARSEDATETIME(''2018-02-12 GMT'', ''yyyy-MM-dd z''), PARSEDATETIME(''2018-02-12 12:45:35 GMT'', ''yyyy-MM-dd HH:mm:ss z''),
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to varchar'',
-  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (1));'
+  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (1),''{"e":"f"}'');'
 
   - 'INSERT INTO table1 VALUES (104, 1, 45, 12000, 92233720, 17345667789.23, 56478356785.345, 56478356785.345, PARSEDATETIME(''12:45:35 GMT'', ''HH:mm:ss z''),
   PARSEDATETIME(''2018-02-12 GMT'', ''yyyy-MM-dd z''), PARSEDATETIME(''2018-02-12 12:45:35 GMT'', ''yyyy-MM-dd HH:mm:ss z''),
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to varchar'',
-  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (2, 3, 4));'
+  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (2, 3, 4),''{"g":"h"}'');'
 
   - 'INSERT INTO table1 VALUES (null, 1, 45, 12000, 92233720, 17345667789.23, 56478356785.345, 56478356785.345, PARSEDATETIME(''12:45:35 GMT'', ''HH:mm:ss z''),
   PARSEDATETIME(''2018-02-12 GMT'', ''yyyy-MM-dd z''), PARSEDATETIME(''2018-02-12 12:45:35 GMT'', ''yyyy-MM-dd HH:mm:ss z''),
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to varchar'',
-  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (2, 3));'
+  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (2, 3),''{"i":"j"}'');'
 
   - 'INSERT INTO table1 VALUES (null, 1, 45, 12000, 92233720, 17345667789.23, 56478356785.345, 56478356785.345, PARSEDATETIME(''12:45:35 GMT'', ''HH:mm:ss z''),
   PARSEDATETIME(''2018-02-12 GMT'', ''yyyy-MM-dd z''), PARSEDATETIME(''2018-02-12 12:45:35 GMT'', ''yyyy-MM-dd HH:mm:ss z''),
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to varchar'',
-  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (2));'
+  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (2),''{"k":"l"}'');'
 
   - 'INSERT INTO table1 VALUES (107, 1, 45, 12000, 92233720, 17345667789.23, 56478356785.345, 56478356785.345, PARSEDATETIME(''12:45:35 GMT'', ''HH:mm:ss z''),
   PARSEDATETIME(''2018-02-12 GMT'', ''yyyy-MM-dd z''), PARSEDATETIME(''2018-02-12 12:45:35 GMT'', ''yyyy-MM-dd HH:mm:ss z''),
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to varchar'',
-  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (3, 4, 5));'
+  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (3, 4, 5),''{"m":"n"}'');'
 
   - 'INSERT INTO table1 VALUES (108, 1, 45, 12000, 92233720, 17345667789.23, 56478356785.345, 56478356785.345, PARSEDATETIME(''12:45:35 GMT'', ''HH:mm:ss z''),
   PARSEDATETIME(''2018-02-12 GMT'', ''yyyy-MM-dd z''), PARSEDATETIME(''2018-02-12 12:45:35 GMT'', ''yyyy-MM-dd HH:mm:ss z''),
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to varchar'',
-  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (3, 4));'
+  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (3, 4),''{"o":"p"}'');'
 
   - 'INSERT INTO table1 VALUES (109, 1, 45, 12000, 92233720, 17345667789.23, 56478356785.345, 56478356785.345, PARSEDATETIME(''12:45:35 GMT'', ''HH:mm:ss z''),
   PARSEDATETIME(''2018-02-12 GMT'', ''yyyy-MM-dd z''), PARSEDATETIME(''2018-02-12 12:45:35 GMT'', ''yyyy-MM-dd HH:mm:ss z''),
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to varchar'',
-  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (3));'
+  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (3),''{"q":"r"}'');'
 
   - 'INSERT INTO table1 VALUES (110, 1, 45, 12000, 92233720, 17345667789.23, 56478356785.345, 56478356785.345, PARSEDATETIME(''12:45:35 GMT'', ''HH:mm:ss z''),
   PARSEDATETIME(''2018-02-12 GMT'', ''yyyy-MM-dd z''), PARSEDATETIME(''2018-02-12 12:45:35 GMT'', ''yyyy-MM-dd HH:mm:ss z''),
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to varchar'',
-  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, ());'
+  ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'', 1, null, (),''{"s":"t"}'');'
  
 query: 'select int_field1, bool_field2, tinyint_field3, smallint_field4, bigint_field5, decimal_field6, double_field7, real_field8,
-        time_field9, date_field10, timestamp_field11, binary_field12, varchar_field13, blob_field14, clob_field15, char_field16, bit_field17, null_field18, list_field19 from table1'
+        time_field9, date_field10, timestamp_field11, binary_field12, varchar_field13, blob_field14, clob_field15, char_field16, bit_field17, null_field18, list_field19, map_field20 from table1'
 
 drop: 'DROP table table1;'
 
@@ -119,4 +119,5 @@ values:
  		 some text that needs to be converted to clob,some text that needs to be converted to clob,
  		 some text that needs to be converted to clob,some text that needs to be converted to clob,
  		 some text that needs to be converted to clob,some text that needs to be converted to clob'
- - 'LIST_FIELD19=(1;2;3),(1;2),(1),(2;3;4),(2;3),(2),(3;4;5),(3;4),(3),()'
\ No newline at end of file
+ - 'LIST_FIELD19=(1;2;3),(1;2),(1),(2;3;4),(2;3),(2),(3;4;5),(3;4),(3),()'
+ - 'MAP_FIELD20={"a":"b"|"key":"12345"},{"c":"d"},{"e":"f"},{"g":"h"},{"i":"j"},{"k":"l"},{"m":"n"},{"o":"p"},{"q":"r"},{"s":"t"}'
\ No newline at end of file
diff --git a/java/adapter/jdbc/src/test/resources/h2/test1_all_datatypes_null_h2.yml b/java/adapter/jdbc/src/test/resources/h2/test1_all_datatypes_null_h2.yml
index 1edcc556334..e1b1a1adcbb 100644
--- a/java/adapter/jdbc/src/test/resources/h2/test1_all_datatypes_null_h2.yml
+++ b/java/adapter/jdbc/src/test/resources/h2/test1_all_datatypes_null_h2.yml
@@ -32,20 +32,21 @@ vectors:
  - 'CHAR_FIELD16'
  - 'BIT_FIELD17'
  - 'LIST_FIELD19'
+ - 'MAP_FIELD20'
 
 rowCount: '5'
 
 create: 'CREATE TABLE table1 (int_field1 INT, bool_field2 BOOLEAN, tinyint_field3 TINYINT, smallint_field4 SMALLINT, bigint_field5 BIGINT,
     decimal_field6 DECIMAL(20,2), double_field7 DOUBLE, real_field8 REAL, time_field9 TIME, date_field10 DATE, timestamp_field11 TIMESTAMP,
     binary_field12 BINARY(100), varchar_field13 VARCHAR(256), blob_field14 BLOB, clob_field15 CLOB, char_field16 CHAR(16), bit_field17 BIT,
-    list_field19 ARRAY);'
+    list_field19 ARRAY,map_field20 VARCHAR(256));'
 
 data:
-  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
-  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
-  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
-  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
-  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
+  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
+  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
+  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
+  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
+  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
 
 query: 'select int_field1, bool_field2, tinyint_field3, smallint_field4, bigint_field5, decimal_field6, double_field7, real_field8,
         time_field9, date_field10, timestamp_field11, binary_field12, varchar_field13, blob_field14, clob_field15, char_field16, bit_field17,
diff --git a/java/adapter/jdbc/src/test/resources/h2/test1_all_datatypes_selected_null_rows_h2.yml b/java/adapter/jdbc/src/test/resources/h2/test1_all_datatypes_selected_null_rows_h2.yml
index c07ab7d4c0f..0521ce2f9c3 100644
--- a/java/adapter/jdbc/src/test/resources/h2/test1_all_datatypes_selected_null_rows_h2.yml
+++ b/java/adapter/jdbc/src/test/resources/h2/test1_all_datatypes_selected_null_rows_h2.yml
@@ -32,34 +32,35 @@ vectors:
  - 'CHAR_FIELD16'
  - 'BIT_FIELD17'
  - 'LIST_FIELD19'
+ - 'MAP_FIELD20'
 
 create: 'CREATE TABLE table1 (int_field1 INT, bool_field2 BOOLEAN, tinyint_field3 TINYINT, smallint_field4 SMALLINT, bigint_field5 BIGINT,
     decimal_field6 DECIMAL(20,2), double_field7 DOUBLE, real_field8 REAL, time_field9 TIME, date_field10 DATE, timestamp_field11 TIMESTAMP,
     binary_field12 BINARY(100), varchar_field13 VARCHAR(256), blob_field14 BLOB, clob_field15 CLOB, char_field16 CHAR(16), bit_field17 BIT,
-    list_field19 ARRAY);'
+    list_field19 ARRAY, map_field20 VARCHAR(256));'
 
 data:
-  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
+  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
 
   - 'INSERT INTO table1 VALUES (101, 1, 45, 12000, 92233720, 17345667789.23, 56478356785.345, 56478356785.345, PARSEDATETIME(''12:45:35 GMT'', ''HH:mm:ss z''),
   PARSEDATETIME(''2018-02-12 GMT'', ''yyyy-MM-dd z''), PARSEDATETIME(''2018-02-12 12:45:35 GMT'', ''yyyy-MM-dd HH:mm:ss z''),
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to varchar'',
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'',
-  1, (1, 2, 3));'
+  1, (1, 2, 3),''{"a":"b"}'');'
 
-  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
+  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
 
   - 'INSERT INTO table1 VALUES (101, 1, 45, 12000, 92233720, 17345667789.23, 56478356785.345, 56478356785.345, PARSEDATETIME(''12:45:35 GMT'', ''HH:mm:ss z''),
   PARSEDATETIME(''2018-02-12 GMT'', ''yyyy-MM-dd z''), PARSEDATETIME(''2018-02-12 12:45:35 GMT'', ''yyyy-MM-dd HH:mm:ss z''),
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to varchar'',
   ''736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279'', ''some text that needs to be converted to clob'', ''some char text'',
-  1, (1, 2, 3));'
+  1, (1, 2, 3),''{"c":"d"}'');'
 
-  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
+  - 'INSERT INTO table1 VALUES (null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null, null);'
 
 query: 'select int_field1, bool_field2, tinyint_field3, smallint_field4, bigint_field5, decimal_field6, double_field7, real_field8,
         time_field9, date_field10, timestamp_field11, binary_field12, varchar_field13, blob_field14, clob_field15, char_field16, bit_field17,
-        list_field19 from table1'
+        list_field19, map_field20 from table1'
 
 drop: 'DROP table table1;'
 
@@ -87,3 +88,4 @@ values:
        		null,736f6d6520746578742074686174206e6565647320746f20626520636f6e76657274656420746f2062696e617279,null'
  - 'CLOB_FIELD15=null,some text that needs to be converted to clob,null,some text that needs to be converted to clob,null'
  - 'LIST_FIELD19=null,(1;2;3),null,(1;2;3),null'
+ - 'MAP_FIELD20=null,{"a":"b"},null,{"c":"d"},null'
diff --git a/java/adapter/jdbc/src/test/resources/h2/test1_map_h2.yml b/java/adapter/jdbc/src/test/resources/h2/test1_map_h2.yml
new file mode 100644
index 00000000000..a1800d20af6
--- /dev/null
+++ b/java/adapter/jdbc/src/test/resources/h2/test1_map_h2.yml
@@ -0,0 +1,33 @@
+#Licensed to the Apache Software Foundation (ASF) under one or more contributor
+#license agreements. See the NOTICE file distributed with this work for additional
+#information regarding copyright ownership. The ASF licenses this file to
+#You under the Apache License, Version 2.0 (the "License"); you may not use
+#this file except in compliance with the License. You may obtain a copy of
+#the License at http://www.apache.org/licenses/LICENSE-2.0 Unless required
+#by applicable law or agreed to in writing, software distributed under the
+#License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS
+#OF ANY KIND, either express or implied. See the License for the specific
+#language governing permissions and limitations under the License.
+
+name: 'test1_map_h2'
+
+type: 'map'
+
+vector: 'MAP_FIELD20'
+
+create: 'CREATE TABLE table1 (map_field20 OTHER);'
+
+rowCount: '4'
+
+data:
+  - 'INSERT INTO table1 VALUES (X''aced00057372002e6f72672e6170616368652e6172726f772e766563746f722e7574696c2e4a736f6e537472696e67486173684d61709819d7169e7a2ecf020000787200176a6176612e7574696c2e4c696e6b6564486173684d617034c04e5c106cc0fb0200015a000b6163636573734f72646572787200116a6176612e7574696c2e486173684d61700507dac1c31660d103000246000a6c6f6164466163746f724900097468726573686f6c6478703f4000000000000c7708000000100000000374000161740001627400033132337400067177657274797400057a78637662740001217800'');'
+  - 'INSERT INTO table1 VALUES (X''aced00057372002e6f72672e6170616368652e6172726f772e766563746f722e7574696c2e4a736f6e537472696e67486173684d61709819d7169e7a2ecf020000787200176a6176612e7574696c2e4c696e6b6564486173684d617034c04e5c106cc0fb0200015a000b6163636573734f72646572787200116a6176612e7574696c2e486173684d61700507dac1c31660d103000246000a6c6f6164466163746f724900097468726573686f6c6478703f4000000000000c77080000001000000003740001617400016274000163740001647400033132337400067177657274797800'');'
+  - 'INSERT INTO table1 VALUES (X''aced00057372002e6f72672e6170616368652e6172726f772e766563746f722e7574696c2e4a736f6e537472696e67486173684d61709819d7169e7a2ecf020000787200176a6176612e7574696c2e4c696e6b6564486173684d617034c04e5c106cc0fb0200015a000b6163636573734f72646572787200116a6176612e7574696c2e486173684d61700507dac1c31660d103000246000a6c6f6164466163746f724900097468726573686f6c6478703f4000000000000c7708000000100000000174000074000576616c75657800'');'
+  - 'INSERT INTO table1 VALUES (X''aced00057372002e6f72672e6170616368652e6172726f772e766563746f722e7574696c2e4a736f6e537472696e67486173684d61709819d7169e7a2ecf020000787200176a6176612e7574696c2e4c696e6b6564486173684d617034c04e5c106cc0fb0200015a000b6163636573734f72646572787200116a6176612e7574696c2e486173684d61700507dac1c31660d103000246000a6c6f6164466163746f724900097468726573686f6c6478703f4000000000000c7708000000100000000274000b6e6f6e456d7074794b65797074000c736f6d654f746865724b65797400007800'');'
+
+query: 'select map_field20 from table1;'
+
+drop: 'DROP table table1;'
+
+values:
+  - 'MAP_FIELD20={"a":"b"|"123":"qwerty"|"zxcvb":"!"},{"a":"b"|"123":"qwerty"|"c":"d"},{"":"value"},{"nonEmptyKey":null|"someOtherKey":""}'
\ No newline at end of file
diff --git a/java/adapter/jdbc/src/test/resources/h2/test1_selected_datatypes_null_h2.yml b/java/adapter/jdbc/src/test/resources/h2/test1_selected_datatypes_null_h2.yml
index 16324de12a0..e8d1d5de02c 100644
--- a/java/adapter/jdbc/src/test/resources/h2/test1_selected_datatypes_null_h2.yml
+++ b/java/adapter/jdbc/src/test/resources/h2/test1_selected_datatypes_null_h2.yml
@@ -28,13 +28,14 @@ vectors:
  - 'CHAR_FIELD16'
  - 'BIT_FIELD17'
  - 'LIST_FIELD19'
+ - 'MAP_FIELD20'
 
 rowCount: '5'
 
 create: 'CREATE TABLE table1 (int_field1 INT, bool_field2 BOOLEAN, tinyint_field3 TINYINT, smallint_field4 SMALLINT, bigint_field5 BIGINT,
     decimal_field6 DECIMAL(20,2), double_field7 DOUBLE, real_field8 REAL, time_field9 TIME, date_field10 DATE, timestamp_field11 TIMESTAMP,
     binary_field12 BINARY(100), varchar_field13 VARCHAR(256), blob_field14 BLOB, clob_field15 CLOB, char_field16 CHAR(16), bit_field17 BIT,
-    list_field19 ARRAY);'
+    list_field19 ARRAY, map_field20 VARCHAR(256));'
 
 data:
   - 'INSERT INTO table1 (int_field1, bool_field2, tinyint_field3, smallint_field4) VALUES (102, 0, 46, 12001);'
@@ -43,6 +44,6 @@ data:
   - 'INSERT INTO table1 (int_field1, bool_field2, tinyint_field3, smallint_field4) VALUES (102, 0, 46, 12001);'
   - 'INSERT INTO table1 (int_field1, bool_field2, tinyint_field3, smallint_field4) VALUES (102, 0, 46, 12001);'
 
-query: 'select bigint_field5, decimal_field6, double_field7, real_field8, time_field9, date_field10, timestamp_field11, binary_field12, varchar_field13, blob_field14, clob_field15, char_field16, bit_field17, list_field19 from table1'
+query: 'select bigint_field5, decimal_field6, double_field7, real_field8, time_field9, date_field10, timestamp_field11, binary_field12, varchar_field13, blob_field14, clob_field15, char_field16, bit_field17, list_field19, map_field20 from table1'
 
 drop: 'DROP table table1;'
\ No newline at end of file
diff --git a/java/adapter/orc/CMakeLists.txt b/java/adapter/orc/CMakeLists.txt
index e2d4655d79e..a9b3a480279 100644
--- a/java/adapter/orc/CMakeLists.txt
+++ b/java/adapter/orc/CMakeLists.txt
@@ -15,22 +15,12 @@
 # specific language governing permissions and limitations
 # under the License.
 
-#
-# arrow_orc_java
-#
-
-# Headers: top level
-
-project(arrow_orc_java)
+find_package(Arrow REQUIRED)
 
-# Find java/jni
-include(FindJava)
-include(UseJava)
-include(FindJNI)
+include_directories(${CMAKE_CURRENT_BINARY_DIR} ${CMAKE_CURRENT_SOURCE_DIR}
+                    ${JNI_INCLUDE_DIRS} ${JNI_HEADERS_DIR})
 
-message("generating headers to ${JNI_HEADERS_DIR}")
-
-add_jar(arrow_orc_java
+add_jar(arrow_java_jni_orc_jar
         src/main/java/org/apache/arrow/adapter/orc/OrcReaderJniWrapper.java
         src/main/java/org/apache/arrow/adapter/orc/OrcStripeReaderJniWrapper.java
         src/main/java/org/apache/arrow/adapter/orc/OrcMemoryJniWrapper.java
@@ -38,6 +28,15 @@ add_jar(arrow_orc_java
         src/main/java/org/apache/arrow/adapter/orc/OrcRecordBatch.java
         src/main/java/org/apache/arrow/adapter/orc/OrcFieldNode.java
         GENERATE_NATIVE_HEADERS
-        arrow_orc_java-native
+        arrow_java_jni_orc_headers
         DESTINATION
         ${JNI_HEADERS_DIR})
+
+add_library(arrow_java_jni_orc SHARED src/main/cpp/jni_wrapper.cpp)
+set_property(TARGET arrow_java_jni_orc PROPERTY OUTPUT_NAME "arrow_orc_jni")
+target_link_libraries(arrow_java_jni_orc arrow_java_jni_orc_headers jni
+                      Arrow::arrow_static)
+
+install(TARGETS arrow_java_jni_orc
+        LIBRARY DESTINATION ${CMAKE_INSTALL_LIBDIR}
+        RUNTIME DESTINATION ${CMAKE_INSTALL_BINDIR})
diff --git a/java/adapter/orc/pom.xml b/java/adapter/orc/pom.xml
index 18cda5164c5..25bab08e80c 100644
--- a/java/adapter/orc/pom.xml
+++ b/java/adapter/orc/pom.xml
@@ -32,10 +32,10 @@
             <scope>compile</scope>
             <classifier>${arrow.vector.classifier}</classifier>
         </dependency>
-	<dependency>
+        <dependency>
             <groupId>org.apache.orc</groupId>
             <artifactId>orc-core</artifactId>
-            <version>1.7.5</version>
+            <version>1.8.1</version>
             <scope>test</scope>
             <exclusions>
                 <exclusion>
@@ -104,7 +104,7 @@
     <parent>
         <groupId>org.apache.arrow</groupId>
         <artifactId>arrow-java-root</artifactId>
-        <version>10.0.0-SNAPSHOT</version>
+        <version>11.0.0</version>
         <relativePath>../../pom.xml</relativePath>
     </parent>
 
@@ -122,7 +122,7 @@
             <resource>
                 <directory>${arrow.cpp.build.dir}</directory>
                 <includes>
-                    <include>**/libarrow_orc_jni.*</include>
+                    <include>**/*arrow_orc_jni.*</include>
                 </includes>
             </resource>
         </resources>
diff --git a/java/adapter/orc/src/main/cpp/CMakeLists.txt b/java/adapter/orc/src/main/cpp/CMakeLists.txt
deleted file mode 100644
index 96d5748729e..00000000000
--- a/java/adapter/orc/src/main/cpp/CMakeLists.txt
+++ /dev/null
@@ -1,53 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitations
-# under the License.
-
-#
-# arrow_orc_jni
-#
-
-project(arrow_orc_jni)
-
-cmake_minimum_required(VERSION 3.11)
-
-find_package(JNI REQUIRED)
-
-add_custom_target(arrow_orc_jni)
-
-set(JNI_HEADERS_DIR "${CMAKE_CURRENT_BINARY_DIR}/generated")
-
-add_subdirectory(../../../../orc ./java)
-
-add_arrow_lib(arrow_orc_jni
-              BUILD_SHARED
-              ON
-              BUILD_STATIC
-              OFF
-              SOURCES
-              jni_wrapper.cpp
-              OUTPUTS
-              ARROW_ORC_JNI_LIBRARIES
-              SHARED_PRIVATE_LINK_LIBS
-              arrow_static
-              EXTRA_INCLUDES
-              ${JNI_HEADERS_DIR}
-              PRIVATE_INCLUDES
-              ${JNI_INCLUDE_DIRS}
-              DEPENDENCIES
-              arrow_static
-              arrow_orc_java)
-
-add_dependencies(arrow_orc_jni ${ARROW_ORC_JNI_LIBRARIES})
diff --git a/java/adapter/orc/src/main/java/org/apache/arrow/adapter/orc/OrcJniUtils.java b/java/adapter/orc/src/main/java/org/apache/arrow/adapter/orc/OrcJniUtils.java
index 600569be7c7..f7b839ece06 100644
--- a/java/adapter/orc/src/main/java/org/apache/arrow/adapter/orc/OrcJniUtils.java
+++ b/java/adapter/orc/src/main/java/org/apache/arrow/adapter/orc/OrcJniUtils.java
@@ -23,6 +23,7 @@
 import java.io.InputStream;
 import java.nio.file.Files;
 import java.nio.file.StandardCopyOption;
+import java.util.Locale;
 
 /**
  * Helper class for JNI related operations.
@@ -37,18 +38,34 @@ static void loadOrcAdapterLibraryFromJar()
           throws IOException, IllegalAccessException {
     synchronized (OrcJniUtils.class) {
       if (!isLoaded) {
-        final String libraryToLoad = System.mapLibraryName(LIBRARY_NAME);
-        final File libraryFile = moveFileFromJarToTemp(
-                System.getProperty("java.io.tmpdir"), libraryToLoad);
+        final String libraryToLoad =
+            getNormalizedArch() + File.separator + System.mapLibraryName(LIBRARY_NAME);
+        final File libraryFile =
+            moveFileFromJarToTemp(System.getProperty("java.io.tmpdir"), libraryToLoad, LIBRARY_NAME);
         System.load(libraryFile.getAbsolutePath());
         isLoaded = true;
       }
     }
   }
 
-  private static File moveFileFromJarToTemp(final String tmpDir, String libraryToLoad)
+  private static String getNormalizedArch() {
+    String arch = System.getProperty("os.arch").toLowerCase(Locale.US);
+    switch (arch) {
+      case "amd64":
+        arch = "x86_64";
+        break;
+      case "aarch64":
+        arch = "aarch_64";
+        break;
+      default:
+        break;
+    }
+    return arch;
+  }
+
+  private static File moveFileFromJarToTemp(final String tmpDir, String libraryToLoad, String libraryName)
           throws IOException {
-    final File temp = File.createTempFile(tmpDir, libraryToLoad);
+    final File temp = File.createTempFile(tmpDir, libraryName);
     try (final InputStream is = OrcReaderJniWrapper.class.getClassLoader()
             .getResourceAsStream(libraryToLoad)) {
       if (is == null) {
diff --git a/java/algorithm/pom.xml b/java/algorithm/pom.xml
index 8d75820dfe7..82b208df243 100644
--- a/java/algorithm/pom.xml
+++ b/java/algorithm/pom.xml
@@ -14,7 +14,7 @@
   <parent>
     <groupId>org.apache.arrow</groupId>
     <artifactId>arrow-java-root</artifactId>
-    <version>10.0.0-SNAPSHOT</version>
+    <version>11.0.0</version>
   </parent>
   <artifactId>arrow-algorithm</artifactId>
   <name>Arrow Algorithms</name>
diff --git a/java/algorithm/src/main/java/org/apache/arrow/algorithm/sort/VectorValueComparator.java b/java/algorithm/src/main/java/org/apache/arrow/algorithm/sort/VectorValueComparator.java
index ed32e16ca26..d2c772ca8a8 100644
--- a/java/algorithm/src/main/java/org/apache/arrow/algorithm/sort/VectorValueComparator.java
+++ b/java/algorithm/src/main/java/org/apache/arrow/algorithm/sort/VectorValueComparator.java
@@ -41,6 +41,18 @@ public abstract class VectorValueComparator<V extends ValueVector> {
    */
   protected int valueWidth;
 
+
+  private boolean checkNullsOnCompare = true;
+
+  /**
+   * This value is true by default and re-computed when vectors are attached to the comparator. If both vectors cannot
+   * contain nulls then this value is {@code false} and calls to {@code compare(i1, i2)} are short-circuited
+   * to {@code compareNotNull(i1, i2)} thereby speeding up comparisons resulting in faster sorts etc.
+   */
+  public boolean checkNullsOnCompare() {
+    return this.checkNullsOnCompare;
+  }
+
   /**
    * Constructor for variable-width vectors.
    */
@@ -76,6 +88,21 @@ public void attachVector(V vector) {
   public void attachVectors(V vector1, V vector2) {
     this.vector1 = vector1;
     this.vector2 = vector2;
+
+    final boolean v1MayHaveNulls = mayHaveNulls(vector1);
+    final boolean v2MayHaveNulls = mayHaveNulls(vector2);
+
+    this.checkNullsOnCompare = v1MayHaveNulls || v2MayHaveNulls;
+  }
+
+  private boolean mayHaveNulls(V v) {
+    if (v.getValueCount() == 0) {
+      return true;
+    }
+    if (! v.getField().isNullable()) {
+      return false;
+    }
+    return v.getNullCount() > 0;
   }
 
   /**
@@ -87,17 +114,19 @@ public void attachVectors(V vector1, V vector2) {
    *     values are equal.
    */
   public int compare(int index1, int index2) {
-    boolean isNull1 = vector1.isNull(index1);
-    boolean isNull2 = vector2.isNull(index2);
-
-    if (isNull1 || isNull2) {
-      if (isNull1 && isNull2) {
-        return 0;
-      } else if (isNull1) {
-        // null is smaller
-        return -1;
-      } else {
-        return 1;
+    if (checkNullsOnCompare) {
+      boolean isNull1 = vector1.isNull(index1);
+      boolean isNull2 = vector2.isNull(index2);
+
+      if (isNull1 || isNull2) {
+        if (isNull1 && isNull2) {
+          return 0;
+        } else if (isNull1) {
+          // null is smaller
+          return -1;
+        } else {
+          return 1;
+        }
       }
     }
     return compareNotNull(index1, index2);
diff --git a/java/algorithm/src/test/java/org/apache/arrow/algorithm/sort/TestDefaultVectorComparator.java b/java/algorithm/src/test/java/org/apache/arrow/algorithm/sort/TestDefaultVectorComparator.java
index 2fbf598bf33..818bb60d116 100644
--- a/java/algorithm/src/test/java/org/apache/arrow/algorithm/sort/TestDefaultVectorComparator.java
+++ b/java/algorithm/src/test/java/org/apache/arrow/algorithm/sort/TestDefaultVectorComparator.java
@@ -19,6 +19,7 @@
 
 import static org.apache.arrow.vector.complex.BaseRepeatedValueVector.OFFSET_WIDTH;
 import static org.junit.Assert.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertFalse;
 import static org.junit.jupiter.api.Assertions.assertTrue;
 
 import org.apache.arrow.memory.BufferAllocator;
@@ -34,6 +35,7 @@
 import org.apache.arrow.vector.complex.ListVector;
 import org.apache.arrow.vector.testing.ValueVectorDataPopulator;
 import org.apache.arrow.vector.types.Types;
+import org.apache.arrow.vector.types.pojo.ArrowType;
 import org.apache.arrow.vector.types.pojo.FieldType;
 import org.junit.After;
 import org.junit.Before;
@@ -390,4 +392,76 @@ public void testCompareByte() {
       assertTrue(comparator.compare(7, 7) == 0);
     }
   }
+
+  @Test
+  public void testCheckNullsOnCompareIsFalseForNonNullableVector() {
+    try (IntVector vec = new IntVector("not nullable",
+            FieldType.notNullable(new ArrowType.Int(32, false)), allocator)) {
+
+      ValueVectorDataPopulator.setVector(vec, 1, 2, 3, 4);
+
+      final VectorValueComparator<IntVector> comparator = DefaultVectorComparators.createDefaultComparator(vec);
+      comparator.attachVector(vec);
+
+      assertFalse(comparator.checkNullsOnCompare());
+    }
+  }
+
+  @Test
+  public void testCheckNullsOnCompareIsTrueForNullableVector() {
+    try (IntVector vec = new IntVector("nullable", FieldType.nullable(
+            new ArrowType.Int(32, false)), allocator);
+         IntVector vec2 = new IntVector("not-nullable", FieldType.notNullable(
+                 new ArrowType.Int(32, false)), allocator)
+    ) {
+
+      ValueVectorDataPopulator.setVector(vec, 1, null, 3, 4);
+      ValueVectorDataPopulator.setVector(vec2, 1, 2, 3, 4);
+
+      final VectorValueComparator<IntVector> comparator = DefaultVectorComparators.createDefaultComparator(vec);
+      comparator.attachVector(vec);
+      assertTrue(comparator.checkNullsOnCompare());
+
+      comparator.attachVectors(vec, vec2);
+      assertTrue(comparator.checkNullsOnCompare());
+    }
+  }
+
+  @Test
+  public void testCheckNullsOnCompareIsFalseWithNoNulls() {
+    try (IntVector vec = new IntVector("nullable", FieldType.nullable(
+            new ArrowType.Int(32, false)), allocator);
+         IntVector vec2 = new IntVector("also-nullable", FieldType.nullable(
+                 new ArrowType.Int(32, false)), allocator)
+    ) {
+
+      // no null values
+      ValueVectorDataPopulator.setVector(vec, 1, 2, 3, 4);
+      ValueVectorDataPopulator.setVector(vec2, 1, 2, 3, 4);
+
+      final VectorValueComparator<IntVector> comparator = DefaultVectorComparators.createDefaultComparator(vec);
+      comparator.attachVector(vec);
+      assertFalse(comparator.checkNullsOnCompare());
+
+      comparator.attachVectors(vec, vec2);
+      assertFalse(comparator.checkNullsOnCompare());
+    }
+  }
+
+  @Test
+  public void testCheckNullsOnCompareIsTrueWithEmptyVectors() {
+    try (IntVector vec = new IntVector("nullable", FieldType.nullable(
+            new ArrowType.Int(32, false)), allocator);
+         IntVector vec2 = new IntVector("also-nullable", FieldType.nullable(
+                 new ArrowType.Int(32, false)), allocator)
+    ) {
+
+      final VectorValueComparator<IntVector> comparator = DefaultVectorComparators.createDefaultComparator(vec);
+      comparator.attachVector(vec2);
+      assertTrue(comparator.checkNullsOnCompare());
+
+      comparator.attachVectors(vec, vec2);
+      assertTrue(comparator.checkNullsOnCompare());
+    }
+  }
 }
diff --git a/java/c/CMakeLists.txt b/java/c/CMakeLists.txt
index f3b3117eacf..8ff208aaeb0 100644
--- a/java/c/CMakeLists.txt
+++ b/java/c/CMakeLists.txt
@@ -18,16 +18,18 @@
 include_directories(${CMAKE_CURRENT_BINARY_DIR} ${CMAKE_CURRENT_SOURCE_DIR}
                     ${JNI_INCLUDE_DIRS} ${JNI_HEADERS_DIR})
 
-add_jar(arrow_cdata_jar
+add_jar(arrow_java_jni_cdata_jar
         src/main/java/org/apache/arrow/c/jni/CDataJniException.java
         src/main/java/org/apache/arrow/c/jni/JniLoader.java
         src/main/java/org/apache/arrow/c/jni/JniWrapper.java
         src/main/java/org/apache/arrow/c/jni/PrivateData.java
         GENERATE_NATIVE_HEADERS
-        arrow_cdata_jni_headers)
+        arrow_java_jni_cdata_headers)
 
-set(ARROW_CDATA_JNI_SOURCES src/main/cpp/jni_wrapper.cc)
-add_library(arrow_cdata_jni SHARED ${ARROW_CDATA_JNI_SOURCES})
-target_link_libraries(arrow_cdata_jni arrow_cdata_jni_headers jni)
+add_library(arrow_java_jni_cdata SHARED src/main/cpp/jni_wrapper.cc)
+set_property(TARGET arrow_java_jni_cdata PROPERTY OUTPUT_NAME "arrow_cdata_jni")
+target_link_libraries(arrow_java_jni_cdata arrow_java_jni_cdata_headers jni)
 
-install(TARGETS arrow_cdata_jni DESTINATION ${CMAKE_INSTALL_PREFIX})
+install(TARGETS arrow_java_jni_cdata
+        LIBRARY DESTINATION ${CMAKE_INSTALL_LIBDIR}
+        RUNTIME DESTINATION ${CMAKE_INSTALL_BINDIR})
diff --git a/java/c/README.md b/java/c/README.md
index ce73f531c1b..db2a2403b37 100644
--- a/java/c/README.md
+++ b/java/c/README.md
@@ -24,7 +24,7 @@
 install:
  - Java 8 or later
  - Maven 3.3 or later
- - A C++11-enabled compiler
+ - A C++17-enabled compiler
  - CMake 3.11 or later
  - Make or ninja build utilities
 
diff --git a/java/c/pom.xml b/java/c/pom.xml
index 28d2c94058b..47b060e391b 100644
--- a/java/c/pom.xml
+++ b/java/c/pom.xml
@@ -13,7 +13,7 @@
     <parent>
         <artifactId>arrow-java-root</artifactId>
         <groupId>org.apache.arrow</groupId>
-        <version>10.0.0-SNAPSHOT</version>
+        <version>11.0.0</version>
     </parent>
     <modelVersion>4.0.0</modelVersion>
 
@@ -59,7 +59,6 @@
         <dependency>
             <groupId>com.google.guava</groupId>
             <artifactId>guava</artifactId>
-            <version>${dep.guava.version}</version>
             <scope>test</scope>
         </dependency>
         <dependency>
diff --git a/java/c/src/main/java/org/apache/arrow/c/ArrayImporter.java b/java/c/src/main/java/org/apache/arrow/c/ArrayImporter.java
index e82cef6a8a6..7132887ddee 100644
--- a/java/c/src/main/java/org/apache/arrow/c/ArrayImporter.java
+++ b/java/c/src/main/java/org/apache/arrow/c/ArrayImporter.java
@@ -22,13 +22,13 @@
 import static org.apache.arrow.util.Preconditions.checkNotNull;
 import static org.apache.arrow.util.Preconditions.checkState;
 
-import java.util.ArrayList;
+import java.util.Collections;
 import java.util.List;
 
 import org.apache.arrow.memory.ArrowBuf;
 import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.util.Preconditions;
 import org.apache.arrow.vector.FieldVector;
-import org.apache.arrow.vector.TypeLayout;
 import org.apache.arrow.vector.dictionary.Dictionary;
 import org.apache.arrow.vector.dictionary.DictionaryProvider;
 import org.apache.arrow.vector.ipc.message.ArrowFieldNode;
@@ -44,12 +44,12 @@ final class ArrayImporter {
   private final FieldVector vector;
   private final DictionaryProvider dictionaryProvider;
 
-  private CDataReferenceManager referenceManager;
+  private ReferenceCountedArrowArray underlyingAllocation;
   private int recursionLevel;
 
   ArrayImporter(BufferAllocator allocator, FieldVector vector, DictionaryProvider dictionaryProvider) {
-    this.allocator = allocator;
-    this.vector = vector;
+    this.allocator = Preconditions.checkNotNull(allocator);
+    this.vector = Preconditions.checkNotNull(vector);
     this.dictionaryProvider = dictionaryProvider;
   }
 
@@ -66,12 +66,11 @@ void importArray(ArrowArray src) {
     recursionLevel = 0;
 
     // This keeps the array alive as long as there are any buffers that need it
-    referenceManager = new CDataReferenceManager(ownedArray);
+    underlyingAllocation = new ReferenceCountedArrowArray(ownedArray);
     try {
-      referenceManager.increment();
       doImport(snapshot);
     } finally {
-      referenceManager.release();
+      underlyingAllocation.release();
     }
   }
 
@@ -81,9 +80,7 @@ private void importChild(ArrayImporter parent, ArrowArray src) {
     recursionLevel = parent.recursionLevel + 1;
     checkState(recursionLevel <= MAX_IMPORT_RECURSION_LEVEL, "Recursion level in ArrowArray struct exceeded");
     // Child buffers will keep the entire parent import alive.
-    // Perhaps we can move the child structs on import,
-    // but that is another level of complication.
-    referenceManager = parent.referenceManager;
+    underlyingAllocation = parent.underlyingAllocation;
     doImport(snapshot);
   }
 
@@ -118,35 +115,20 @@ private void doImport(ArrowArray.Snapshot snapshot) {
 
     // Import main data
     ArrowFieldNode fieldNode = new ArrowFieldNode(snapshot.length, snapshot.null_count);
-    List<ArrowBuf> buffers = importBuffers(snapshot);
-    try {
+    long[] bufferPointers = NativeUtil.toJavaArray(snapshot.buffers, checkedCastToInt(snapshot.n_buffers));
+
+    try (final BufferImportTypeVisitor visitor = new BufferImportTypeVisitor(
+        allocator, underlyingAllocation, fieldNode, bufferPointers)) {
+      final List<ArrowBuf> buffers;
+      if (bufferPointers == null || bufferPointers.length == 0) {
+        buffers = Collections.emptyList();
+      } else {
+        buffers = vector.getField().getType().accept(visitor);
+      }
       vector.loadFieldBuffers(fieldNode, buffers);
-    } catch (RuntimeException e) {
+    } catch (Exception e) {
       throw new IllegalArgumentException(
           "Could not load buffers for field " + vector.getField() + ". error message: " + e.getMessage(), e);
     }
   }
-
-  private List<ArrowBuf> importBuffers(ArrowArray.Snapshot snapshot) {
-    long[] buffers = NativeUtil.toJavaArray(snapshot.buffers, checkedCastToInt(snapshot.n_buffers));
-    if (buffers == null || buffers.length == 0) {
-      return new ArrayList<>();
-    }
-
-    int buffersCount = TypeLayout.getTypeBufferCount(vector.getField().getType());
-    checkState(buffers.length == buffersCount, "Expected %s buffers for imported type %s, ArrowArray struct has %s",
-        buffersCount, vector.getField().getType().getTypeID(), buffers.length);
-
-    List<ArrowBuf> result = new ArrayList<>(buffersCount);
-    for (long bufferPtr : buffers) {
-      ArrowBuf buffer = null;
-      if (bufferPtr != NULL) {
-        // TODO(roee88): an API for getting the size for each buffer is not yet
-        // available
-        buffer = new ArrowBuf(referenceManager, null, Integer.MAX_VALUE, bufferPtr);
-      }
-      result.add(buffer);
-    }
-    return result;
-  }
 }
diff --git a/java/c/src/main/java/org/apache/arrow/c/ArrowArray.java b/java/c/src/main/java/org/apache/arrow/c/ArrowArray.java
index 99fe0432c14..a538852f47c 100644
--- a/java/c/src/main/java/org/apache/arrow/c/ArrowArray.java
+++ b/java/c/src/main/java/org/apache/arrow/c/ArrowArray.java
@@ -28,6 +28,7 @@
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.ReferenceManager;
 import org.apache.arrow.memory.util.MemoryUtil;
+import org.apache.arrow.util.VisibleForTesting;
 
 /**
  * C Data Interface ArrowArray.
@@ -149,6 +150,11 @@ public void close() {
     }
   }
 
+  @VisibleForTesting
+  boolean isClosed() {
+    return data == null;
+  }
+
   private ByteBuffer directBuffer() {
     return MemoryUtil.directBuffer(memoryAddress(), ArrowArray.SIZE_OF).order(ByteOrder.nativeOrder());
   }
diff --git a/java/c/src/main/java/org/apache/arrow/c/BufferImportTypeVisitor.java b/java/c/src/main/java/org/apache/arrow/c/BufferImportTypeVisitor.java
new file mode 100644
index 00000000000..c8b6d070862
--- /dev/null
+++ b/java/c/src/main/java/org/apache/arrow/c/BufferImportTypeVisitor.java
@@ -0,0 +1,322 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.c;
+
+import static org.apache.arrow.c.NativeUtil.NULL;
+import static org.apache.arrow.util.Preconditions.checkState;
+
+import java.util.ArrayList;
+import java.util.Arrays;
+import java.util.Collections;
+import java.util.List;
+
+import org.apache.arrow.memory.ArrowBuf;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.util.VisibleForTesting;
+import org.apache.arrow.vector.DateDayVector;
+import org.apache.arrow.vector.DateMilliVector;
+import org.apache.arrow.vector.DurationVector;
+import org.apache.arrow.vector.Float4Vector;
+import org.apache.arrow.vector.Float8Vector;
+import org.apache.arrow.vector.IntervalDayVector;
+import org.apache.arrow.vector.IntervalMonthDayNanoVector;
+import org.apache.arrow.vector.IntervalYearVector;
+import org.apache.arrow.vector.LargeVarBinaryVector;
+import org.apache.arrow.vector.LargeVarCharVector;
+import org.apache.arrow.vector.TimeMicroVector;
+import org.apache.arrow.vector.TimeMilliVector;
+import org.apache.arrow.vector.TimeNanoVector;
+import org.apache.arrow.vector.TimeSecVector;
+import org.apache.arrow.vector.TimeStampVector;
+import org.apache.arrow.vector.VarBinaryVector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.complex.DenseUnionVector;
+import org.apache.arrow.vector.complex.LargeListVector;
+import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.MapVector;
+import org.apache.arrow.vector.complex.UnionVector;
+import org.apache.arrow.vector.ipc.message.ArrowFieldNode;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.util.DataSizeRoundingUtil;
+
+/**
+ * Import buffers from a C Data Interface struct.
+ */
+class BufferImportTypeVisitor implements ArrowType.ArrowTypeVisitor<List<ArrowBuf>>, AutoCloseable {
+  private final BufferAllocator allocator;
+  private final ReferenceCountedArrowArray underlyingAllocation;
+  private final ArrowFieldNode fieldNode;
+  private final long[] buffers;
+  private final List<ArrowBuf> imported;
+
+  BufferImportTypeVisitor(BufferAllocator allocator, ReferenceCountedArrowArray underlyingAllocation,
+                          ArrowFieldNode fieldNode, long[] buffers) {
+    this.allocator = allocator;
+    this.underlyingAllocation = underlyingAllocation;
+    this.fieldNode = fieldNode;
+    this.buffers = buffers;
+    this.imported = new ArrayList<>();
+  }
+
+  @Override
+  public void close() throws Exception {
+    AutoCloseables.close(imported);
+  }
+
+  @VisibleForTesting
+  long getBufferPtr(ArrowType type, int index) {
+    checkState(
+        buffers.length > index,
+        "Expected at least %s buffers for type %s, but found %s", index + 1, type, buffers.length);
+    if (buffers[index] == NULL) {
+      throw new IllegalStateException(String.format("Buffer %s for type %s cannot be null", index, type));
+    }
+    return buffers[index];
+  }
+
+  private ArrowBuf importFixedBits(ArrowType type, int index, long bitsPerSlot) {
+    final long bufferPtr = getBufferPtr(type, index);
+    final long capacity = DataSizeRoundingUtil.divideBy8Ceil(bitsPerSlot * fieldNode.getLength());
+    ArrowBuf buf = underlyingAllocation.unsafeAssociateAllocation(allocator, capacity, bufferPtr);
+    this.imported.add(buf);
+    return buf;
+  }
+
+  private ArrowBuf importFixedBytes(ArrowType type, int index, long bytesPerSlot) {
+    final long bufferPtr = getBufferPtr(type, index);
+    final long capacity = bytesPerSlot * fieldNode.getLength();
+    ArrowBuf buf = underlyingAllocation.unsafeAssociateAllocation(allocator, capacity, bufferPtr);
+    this.imported.add(buf);
+    return buf;
+  }
+
+  private ArrowBuf importOffsets(ArrowType type, long bytesPerSlot) {
+    final long bufferPtr = getBufferPtr(type, 1);
+    final long capacity = bytesPerSlot * (fieldNode.getLength() + 1);
+    ArrowBuf buf = underlyingAllocation.unsafeAssociateAllocation(allocator, capacity, bufferPtr);
+    this.imported.add(buf);
+    return buf;
+  }
+
+  private ArrowBuf importData(ArrowType type, long capacity) {
+    final long bufferPtr = getBufferPtr(type, 2);
+    ArrowBuf buf = underlyingAllocation.unsafeAssociateAllocation(allocator, capacity, bufferPtr);
+    this.imported.add(buf);
+    return buf;
+  }
+
+  private ArrowBuf maybeImportBitmap(ArrowType type) {
+    checkState(
+        buffers.length > 0,
+        "Expected at least %s buffers for type %s, but found %s", 1, type, buffers.length);
+    if (buffers[0] == NULL) {
+      return null;
+    }
+    return importFixedBits(type, 0, /*bitsPerSlot=*/1);
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Null type) {
+    checkState(
+        buffers.length == 0,
+        "Expected %s buffers for type %s, but found %s", 0, type, buffers.length);
+    return Collections.emptyList();
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Struct type) {
+    return Collections.singletonList(maybeImportBitmap(type));
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.List type) {
+    return Arrays.asList(maybeImportBitmap(type), importOffsets(type, ListVector.OFFSET_WIDTH));
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.LargeList type) {
+    return Arrays.asList(maybeImportBitmap(type), importOffsets(type, LargeListVector.OFFSET_WIDTH));
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.FixedSizeList type) {
+    return Collections.singletonList(maybeImportBitmap(type));
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Union type) {
+    switch (type.getMode()) {
+      case Sparse:
+        return Collections.singletonList(importFixedBytes(type, 0, UnionVector.TYPE_WIDTH));
+      case Dense:
+        return Arrays.asList(importFixedBytes(type, 0, DenseUnionVector.TYPE_WIDTH),
+            importFixedBytes(type, 0, DenseUnionVector.OFFSET_WIDTH));
+      default:
+        throw new UnsupportedOperationException("Importing buffers for type: " + type);
+    }
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Map type) {
+    return Arrays.asList(maybeImportBitmap(type), importOffsets(type, MapVector.OFFSET_WIDTH));
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Int type) {
+    return Arrays.asList(maybeImportBitmap(type), importFixedBits(type, 1, type.getBitWidth()));
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.FloatingPoint type) {
+    switch (type.getPrecision()) {
+      case HALF:
+        return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, /*bytesPerSlot=*/2));
+      case SINGLE:
+        return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, Float4Vector.TYPE_WIDTH));
+      case DOUBLE:
+        return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, Float8Vector.TYPE_WIDTH));
+      default:
+        throw new UnsupportedOperationException("Importing buffers for type: " + type);
+    }
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Utf8 type) {
+    try (ArrowBuf offsets = importOffsets(type, VarCharVector.OFFSET_WIDTH)) {
+      final int start = offsets.getInt(0);
+      final int end = offsets.getInt(fieldNode.getLength() * (long) VarCharVector.OFFSET_WIDTH);
+      checkState(
+          end >= start,
+          "Offset buffer for type %s is malformed: start: %s, end: %s", type, start, end);
+      final int len = end - start;
+      offsets.getReferenceManager().retain();
+      return Arrays.asList(maybeImportBitmap(type), offsets, importData(type, len));
+    }
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.LargeUtf8 type) {
+    try (ArrowBuf offsets = importOffsets(type, LargeVarCharVector.OFFSET_WIDTH)) {
+      final long start = offsets.getLong(0);
+      final long end = offsets.getLong(fieldNode.getLength() * (long) LargeVarCharVector.OFFSET_WIDTH);
+      checkState(
+          end >= start,
+          "Offset buffer for type %s is malformed: start: %s, end: %s", type, start, end);
+      final long len = end - start;
+      offsets.getReferenceManager().retain();
+      return Arrays.asList(maybeImportBitmap(type), offsets, importData(type, len));
+    }
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Binary type) {
+    try (ArrowBuf offsets = importOffsets(type, VarBinaryVector.OFFSET_WIDTH)) {
+      final int start = offsets.getInt(0);
+      final int end = offsets.getInt(fieldNode.getLength() * (long) VarBinaryVector.OFFSET_WIDTH);
+      checkState(
+          end >= start,
+          "Offset buffer for type %s is malformed: start: %s, end: %s", type, start, end);
+      final int len = end - start;
+      offsets.getReferenceManager().retain();
+      return Arrays.asList(maybeImportBitmap(type), offsets, importData(type, len));
+    }
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.LargeBinary type) {
+    try (ArrowBuf offsets = importOffsets(type, LargeVarBinaryVector.OFFSET_WIDTH)) {
+      final long start = offsets.getLong(0);
+      // TODO: need better tests to cover the failure when I forget to multiply by offset width
+      final long end = offsets.getLong(fieldNode.getLength() * (long) LargeVarBinaryVector.OFFSET_WIDTH);
+      checkState(
+          end >= start,
+          "Offset buffer for type %s is malformed: start: %s, end: %s", type, start, end);
+      final long len = end - start;
+      offsets.getReferenceManager().retain();
+      return Arrays.asList(maybeImportBitmap(type), offsets, importData(type, len));
+    }
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.FixedSizeBinary type) {
+    return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, type.getByteWidth()));
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Bool type) {
+    return Arrays.asList(maybeImportBitmap(type), importFixedBits(type, 1, /*bitsPerSlot=*/1));
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Decimal type) {
+    return Arrays.asList(maybeImportBitmap(type), importFixedBits(type, 1, type.getBitWidth()));
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Date type) {
+    switch (type.getUnit()) {
+      case DAY:
+        return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, DateDayVector.TYPE_WIDTH));
+      case MILLISECOND:
+        return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, DateMilliVector.TYPE_WIDTH));
+      default:
+        throw new UnsupportedOperationException("Importing buffers for type: " + type);
+    }
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Time type) {
+    switch (type.getUnit()) {
+      case SECOND:
+        return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, TimeSecVector.TYPE_WIDTH));
+      case MILLISECOND:
+        return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, TimeMilliVector.TYPE_WIDTH));
+      case MICROSECOND:
+        return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, TimeMicroVector.TYPE_WIDTH));
+      case NANOSECOND:
+        return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, TimeNanoVector.TYPE_WIDTH));
+      default:
+        throw new UnsupportedOperationException("Importing buffers for type: " + type);
+    }
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Timestamp type) {
+    return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, TimeStampVector.TYPE_WIDTH));
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Interval type) {
+    switch (type.getUnit()) {
+      case YEAR_MONTH:
+        return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, IntervalYearVector.TYPE_WIDTH));
+      case DAY_TIME:
+        return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, IntervalDayVector.TYPE_WIDTH));
+      case MONTH_DAY_NANO:
+        return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, IntervalMonthDayNanoVector.TYPE_WIDTH));
+      default:
+        throw new UnsupportedOperationException("Importing buffers for type: " + type);
+    }
+  }
+
+  @Override
+  public List<ArrowBuf> visit(ArrowType.Duration type) {
+    return Arrays.asList(maybeImportBitmap(type), importFixedBytes(type, 1, DurationVector.TYPE_WIDTH));
+  }
+}
diff --git a/java/c/src/main/java/org/apache/arrow/c/CDataReferenceManager.java b/java/c/src/main/java/org/apache/arrow/c/CDataReferenceManager.java
deleted file mode 100644
index c5c2f977900..00000000000
--- a/java/c/src/main/java/org/apache/arrow/c/CDataReferenceManager.java
+++ /dev/null
@@ -1,124 +0,0 @@
-/*
- * Licensed to the Apache Software Foundation (ASF) under one or more
- * contributor license agreements.  See the NOTICE file distributed with
- * this work for additional information regarding copyright ownership.
- * The ASF licenses this file to You under the Apache License, Version 2.0
- * (the "License"); you may not use this file except in compliance with
- * the License.  You may obtain a copy of the License at
- *
- *    http://www.apache.org/licenses/LICENSE-2.0
- *
- * Unless required by applicable law or agreed to in writing, software
- * distributed under the License is distributed on an "AS IS" BASIS,
- * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
- * See the License for the specific language governing permissions and
- * limitations under the License.
- */
-
-package org.apache.arrow.c;
-
-import java.util.concurrent.atomic.AtomicInteger;
-
-import org.apache.arrow.memory.ArrowBuf;
-import org.apache.arrow.memory.BufferAllocator;
-import org.apache.arrow.memory.OwnershipTransferResult;
-import org.apache.arrow.memory.ReferenceManager;
-import org.apache.arrow.util.Preconditions;
-
-/**
- * A ReferenceManager implementation that holds a
- * {@link org.apache.arrow.c.BaseStruct}.
- * <p>
- * A reference count is maintained and once it reaches zero the struct is
- * released (as per the C data interface specification) and closed.
- */
-final class CDataReferenceManager implements ReferenceManager {
-  private final AtomicInteger bufRefCnt = new AtomicInteger(0);
-
-  private final BaseStruct struct;
-
-  CDataReferenceManager(BaseStruct struct) {
-    this.struct = struct;
-  }
-
-  @Override
-  public int getRefCount() {
-    return bufRefCnt.get();
-  }
-
-  @Override
-  public boolean release() {
-    return release(1);
-  }
-
-  /**
-   * Increment the reference count without any safety checks.
-   */
-  void increment() {
-    bufRefCnt.incrementAndGet();
-  }
-
-  @Override
-  public boolean release(int decrement) {
-    Preconditions.checkState(decrement >= 1, "ref count decrement should be greater than or equal to 1");
-    // decrement the ref count
-    final int refCnt = bufRefCnt.addAndGet(-decrement);
-    // the new ref count should be >= 0
-    Preconditions.checkState(refCnt >= 0, "ref count has gone negative");
-    if (refCnt == 0) {
-      // refcount of this reference manager has dropped to 0
-      // release the underlying memory
-      struct.release();
-      struct.close();
-    }
-    return refCnt == 0;
-  }
-
-  @Override
-  public void retain() {
-    retain(1);
-  }
-
-  @Override
-  public void retain(int increment) {
-    Preconditions.checkArgument(increment > 0, "retain(%s) argument is not positive", increment);
-    final int originalReferenceCount = bufRefCnt.getAndAdd(increment);
-    Preconditions.checkState(originalReferenceCount > 0, "retain called but memory was already released");
-  }
-
-  @Override
-  public ArrowBuf retain(ArrowBuf srcBuffer, BufferAllocator targetAllocator) {
-    retain();
-
-    ArrowBuf targetArrowBuf = this.deriveBuffer(srcBuffer, 0, srcBuffer.capacity());
-    targetArrowBuf.readerIndex(srcBuffer.readerIndex());
-    targetArrowBuf.writerIndex(srcBuffer.writerIndex());
-    return targetArrowBuf;
-  }
-
-  @Override
-  public ArrowBuf deriveBuffer(ArrowBuf sourceBuffer, long index, long length) {
-    final long derivedBufferAddress = sourceBuffer.memoryAddress() + index;
-    return new ArrowBuf(this, null, length, derivedBufferAddress);
-  }
-
-  @Override
-  public OwnershipTransferResult transferOwnership(ArrowBuf sourceBuffer, BufferAllocator targetAllocator) {
-    throw new UnsupportedOperationException();
-  }
-
-  @Override
-  public BufferAllocator getAllocator() {
-    return null;
-  }
-
-  @Override
-  public long getSize() {
-    return 0L;
-  }
-
-  @Override
-  public long getAccountedSize() {
-    return 0L;
-  }
-}
diff --git a/java/c/src/main/java/org/apache/arrow/c/Data.java b/java/c/src/main/java/org/apache/arrow/c/Data.java
index 9ee5a6c757c..6cb0c0ac40a 100644
--- a/java/c/src/main/java/org/apache/arrow/c/Data.java
+++ b/java/c/src/main/java/org/apache/arrow/c/Data.java
@@ -28,6 +28,7 @@
 import org.apache.arrow.vector.dictionary.DictionaryProvider;
 import org.apache.arrow.vector.ipc.ArrowReader;
 import org.apache.arrow.vector.ipc.message.ArrowRecordBatch;
+import org.apache.arrow.vector.table.Table;
 import org.apache.arrow.vector.types.pojo.ArrowType;
 import org.apache.arrow.vector.types.pojo.ArrowType.ArrowTypeID;
 import org.apache.arrow.vector.types.pojo.Field;
@@ -114,6 +115,62 @@ public static void exportVector(BufferAllocator allocator, FieldVector vector, D
     exporter.export(out, vector, provider);
   }
 
+  /**
+   * Export the current contents of a Java Table using the C data
+   * interface format.
+   * <p>
+   * The table is exported as if it were a struct array. The
+   * resulting ArrowArray struct keeps the record batch data and buffers alive
+   * until its release callback is called by the consumer.
+   *
+   * @param allocator Buffer allocator for allocating C data interface fields
+   * @param table     Table to export
+   * @param out       C struct where to export the record batch
+   */
+  public static void exportTable(BufferAllocator allocator, Table table, ArrowArray out) {
+    exportTable(allocator, table, table.getDictionaryProvider(), out, null);
+  }
+
+  /**
+   * Export the current contents of a Java Table using the C data
+   * interface format.
+   * <p>
+   * The table is exported as if it were a struct array. The
+   * resulting ArrowArray struct keeps the record batch data and buffers alive
+   * until its release callback is called by the consumer.
+   *
+   * @param allocator Buffer allocator for allocating C data interface fields
+   * @param table     Table to export
+   * @param provider  Dictionary provider for dictionary encoded vectors
+   *                  (optional)
+   * @param out       C struct where to export the record batch
+   */
+  public static void exportTable(BufferAllocator allocator, Table table,
+      DictionaryProvider provider, ArrowArray out) {
+    exportTable(allocator, table, provider, out, null);
+  }
+
+  /**
+   * Export the current contents of a Java Table using the C data interface format.
+   * <p>
+   * The table is exported as if it were a struct array. The
+   * resulting ArrowArray struct keeps the record batch data and buffers alive
+   * until its release callback is called by the consumer.
+   *
+   * @param allocator Buffer allocator for allocating C data interface fields
+   * @param table     Table to export
+   * @param provider  Dictionary provider for dictionary encoded vectors
+   *                  (optional)
+   * @param out       C struct where to export the record batch
+   * @param outSchema C struct where to export the record batch schema (optional)
+   */
+  public static void exportTable(BufferAllocator allocator, Table table,
+                                 DictionaryProvider provider, ArrowArray out, ArrowSchema outSchema) {
+    try (VectorSchemaRoot root = table.toVectorSchemaRoot()) {
+      exportVectorSchemaRoot(allocator, root, provider, out, outSchema);
+    }
+  }
+
   /**
    * Export the current contents of a Java VectorSchemaRoot using the C data
    * interface format.
@@ -121,7 +178,7 @@ public static void exportVector(BufferAllocator allocator, FieldVector vector, D
    * The vector schema root is exported as if it were a struct array. The
    * resulting ArrowArray struct keeps the record batch data and buffers alive
    * until its release callback is called by the consumer.
-   * 
+   *
    * @param allocator Buffer allocator for allocating C data interface fields
    * @param vsr       Vector schema root to export
    * @param provider  Dictionary provider for dictionary encoded vectors
@@ -129,7 +186,7 @@ public static void exportVector(BufferAllocator allocator, FieldVector vector, D
    * @param out       C struct where to export the record batch
    */
   public static void exportVectorSchemaRoot(BufferAllocator allocator, VectorSchemaRoot vsr,
-      DictionaryProvider provider, ArrowArray out) {
+                                            DictionaryProvider provider, ArrowArray out) {
     exportVectorSchemaRoot(allocator, vsr, provider, out, null);
   }
 
diff --git a/java/c/src/main/java/org/apache/arrow/c/ReferenceCountedArrowArray.java b/java/c/src/main/java/org/apache/arrow/c/ReferenceCountedArrowArray.java
new file mode 100644
index 00000000000..f09f14817b6
--- /dev/null
+++ b/java/c/src/main/java/org/apache/arrow/c/ReferenceCountedArrowArray.java
@@ -0,0 +1,74 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.c;
+
+import java.util.concurrent.atomic.AtomicInteger;
+
+import org.apache.arrow.memory.ArrowBuf;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.ForeignAllocation;
+
+/**
+ * The owner of an imported C Data Interface array.
+ *
+ * <p>There is a fundamental mismatch here between memory allocation schemes: AllocationManager represents a single
+ * allocation (= a single address and length). But an ArrowArray combines multiple allocations behind a single
+ * deallocation callback. This class bridges the two by tracking a reference count, so that the single callback
+ * can be managed by multiple {@link ForeignAllocation} instances.
+ */
+final class ReferenceCountedArrowArray {
+  private final ArrowArray array;
+  private final AtomicInteger refCnt;
+
+  ReferenceCountedArrowArray(ArrowArray array) {
+    this.array = array;
+    this.refCnt = new AtomicInteger(1);
+  }
+
+  void retain() {
+    if (refCnt.addAndGet(1) - 1 <= 0) {
+      throw new IllegalStateException("Tried to retain a released ArrowArray");
+    }
+  }
+
+  void release() {
+    int refcnt = refCnt.addAndGet(-1);
+    if (refcnt == 0) {
+      array.release();
+      array.close();
+    } else if (refcnt < 0) {
+      throw new IllegalStateException("Reference count went negative for imported ArrowArray");
+    }
+  }
+
+  /**
+   * Create an ArrowBuf wrapping a buffer from this ArrowArray associated with the given BufferAllocator.
+   *
+   * <p>This method is "unsafe" because there is no validation of the given capacity or address. If the returned
+   * buffer is not freed, a memory leak will occur.
+   */
+  ArrowBuf unsafeAssociateAllocation(BufferAllocator trackingAllocator, long capacity, long memoryAddress) {
+    retain();
+    return trackingAllocator.wrapForeignAllocation(new ForeignAllocation(capacity, memoryAddress) {
+      @Override
+      protected void release0() {
+        ReferenceCountedArrowArray.this.release();
+      }
+    });
+  }
+}
diff --git a/java/c/src/main/java/org/apache/arrow/c/jni/JniLoader.java b/java/c/src/main/java/org/apache/arrow/c/jni/JniLoader.java
index bd2008f054a..ed71b6db284 100644
--- a/java/c/src/main/java/org/apache/arrow/c/jni/JniLoader.java
+++ b/java/c/src/main/java/org/apache/arrow/c/jni/JniLoader.java
@@ -27,6 +27,7 @@
 import java.util.Collections;
 import java.util.HashSet;
 import java.util.List;
+import java.util.Locale;
 import java.util.Set;
 
 /**
@@ -78,9 +79,11 @@ private synchronized void loadRemaining() {
   }
 
   private void load(String name) {
-    final String libraryToLoad = System.mapLibraryName(name);
+    final String libraryToLoad =
+        getNormalizedArch() + File.separator + System.mapLibraryName(name);
     try {
       File temp = File.createTempFile("jnilib-", ".tmp", new File(System.getProperty("java.io.tmpdir")));
+      temp.deleteOnExit();
       try (final InputStream is = JniWrapper.class.getClassLoader().getResourceAsStream(libraryToLoad)) {
         if (is == null) {
           throw new FileNotFoundException(libraryToLoad);
@@ -92,4 +95,19 @@ private void load(String name) {
       throw new IllegalStateException("error loading native libraries: " + e);
     }
   }
+
+  private String getNormalizedArch() {
+    String arch = System.getProperty("os.arch").toLowerCase(Locale.US);
+    switch (arch) {
+      case "amd64":
+        arch = "x86_64";
+        break;
+      case "aarch64":
+        arch = "aarch_64";
+        break;
+      default:
+        break;
+    }
+    return arch;
+  }
 }
diff --git a/java/c/src/test/java/org/apache/arrow/c/ArrowArrayUtilityTest.java b/java/c/src/test/java/org/apache/arrow/c/ArrowArrayUtilityTest.java
new file mode 100644
index 00000000000..2d31089ca70
--- /dev/null
+++ b/java/c/src/test/java/org/apache/arrow/c/ArrowArrayUtilityTest.java
@@ -0,0 +1,147 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.c;
+
+import static org.assertj.core.api.Assertions.assertThat;
+import static org.junit.jupiter.api.Assertions.assertThrows;
+
+import java.util.List;
+
+import org.apache.arrow.memory.ArrowBuf;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.ReferenceManager;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.memory.util.MemoryUtil;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.ipc.message.ArrowFieldNode;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+class ArrowArrayUtilityTest {
+  BufferAllocator allocator;
+  ArrowArray arrowArray;
+  ReferenceCountedArrowArray dummyHandle;
+
+  @BeforeEach
+  void beforeEach() {
+    allocator = new RootAllocator();
+    arrowArray = ArrowArray.allocateNew(allocator);
+    dummyHandle = new ReferenceCountedArrowArray(arrowArray);
+  }
+
+  @AfterEach
+  void afterEach() {
+    dummyHandle.release();
+    allocator.close();
+  }
+
+  // ------------------------------------------------------------
+  // BufferImportTypeVisitor
+
+  @Test
+  void getBufferPtr() throws Exception {
+    // Note values are all dummy values here
+    try (BufferImportTypeVisitor visitor =
+        new BufferImportTypeVisitor(allocator, dummyHandle, new ArrowFieldNode(0, 0), new long[]{0})) {
+
+      // Too few buffers
+      assertThrows(IllegalStateException.class, () -> visitor.getBufferPtr(new ArrowType.Bool(), 1));
+
+      // Null where one isn't expected
+      assertThrows(IllegalStateException.class, () -> visitor.getBufferPtr(new ArrowType.Bool(), 0));
+    }
+  }
+
+  @Test
+  void cleanupAfterFailure() throws Exception {
+    // Note values are all dummy values here
+    long address = MemoryUtil.UNSAFE.allocateMemory(16);
+    try (BufferImportTypeVisitor visitor =
+             new BufferImportTypeVisitor(allocator, dummyHandle, new ArrowFieldNode(0, 0), new long[] {address})) {
+      // This fails, but only after we've already imported a buffer.
+      assertThrows(IllegalStateException.class, () -> visitor.visit(new ArrowType.Int(32, true)));
+    } finally {
+      MemoryUtil.UNSAFE.freeMemory(address);
+    }
+  }
+
+  @Test
+  void bufferAssociatedWithAllocator() throws Exception {
+    // Note values are all dummy values here
+    final long bufferSize = 16;
+    final long fieldLength = bufferSize / IntVector.TYPE_WIDTH;
+    long address = MemoryUtil.UNSAFE.allocateMemory(bufferSize);
+    long baseline = allocator.getAllocatedMemory();
+    ArrowFieldNode fieldNode = new ArrowFieldNode(fieldLength, 0);
+    try (BufferImportTypeVisitor visitor =
+             new BufferImportTypeVisitor(allocator, dummyHandle, fieldNode, new long[] {0, address})) {
+      List<ArrowBuf> buffers = visitor.visit(new ArrowType.Int(32, true));
+      assertThat(buffers).hasSize(2);
+      assertThat(buffers.get(0)).isNull();
+      assertThat(buffers.get(1))
+          .isNotNull()
+          .extracting(ArrowBuf::getReferenceManager)
+          .extracting(ReferenceManager::getAllocator)
+          .isEqualTo(allocator);
+      assertThat(allocator.getAllocatedMemory()).isEqualTo(baseline + bufferSize);
+    } finally {
+      MemoryUtil.UNSAFE.freeMemory(address);
+    }
+    assertThat(allocator.getAllocatedMemory()).isEqualTo(baseline);
+  }
+
+  // ------------------------------------------------------------
+  // ReferenceCountedArrowArray
+
+  @Test
+  void releaseRetain() {
+    ArrowArray array = ArrowArray.allocateNew(allocator);
+    ReferenceCountedArrowArray handle = new ReferenceCountedArrowArray(array);
+    assertThat(array.isClosed()).isFalse();
+    handle.retain();
+    assertThat(array.isClosed()).isFalse();
+    handle.release();
+    assertThat(array.isClosed()).isFalse();
+    handle.release();
+    assertThat(array.isClosed()).isTrue();
+
+    assertThrows(IllegalStateException.class, handle::release);
+    assertThrows(IllegalStateException.class, handle::retain);
+  }
+
+  @Test
+  void associate() {
+    final long bufferSize = 16;
+    final long address = MemoryUtil.UNSAFE.allocateMemory(bufferSize);
+    try {
+      ArrowArray array = ArrowArray.allocateNew(allocator);
+      ReferenceCountedArrowArray handle = new ReferenceCountedArrowArray(array);
+      assertThat(array.isClosed()).isFalse();
+      ArrowBuf buf = handle.unsafeAssociateAllocation(allocator, bufferSize, address);
+      assertThat(array.isClosed()).isFalse();
+      buf.close();
+      assertThat(array.isClosed()).isFalse();
+      handle.release();
+      assertThat(array.isClosed()).isTrue();
+    } finally {
+      MemoryUtil.UNSAFE.freeMemory(address);
+    }
+  }
+}
diff --git a/java/c/src/test/java/org/apache/arrow/c/RoundtripTest.java b/java/c/src/test/java/org/apache/arrow/c/RoundtripTest.java
index 6a2b476b0c3..fc73df449bd 100644
--- a/java/c/src/test/java/org/apache/arrow/c/RoundtripTest.java
+++ b/java/c/src/test/java/org/apache/arrow/c/RoundtripTest.java
@@ -23,6 +23,7 @@
 import static org.junit.jupiter.api.Assertions.assertTrue;
 
 import java.nio.ByteBuffer;
+import java.nio.ByteOrder;
 import java.nio.charset.StandardCharsets;
 import java.util.ArrayList;
 import java.util.Arrays;
@@ -89,6 +90,7 @@
 import org.apache.arrow.vector.holders.IntervalDayHolder;
 import org.apache.arrow.vector.holders.NullableLargeVarBinaryHolder;
 import org.apache.arrow.vector.holders.NullableUInt4Holder;
+import org.apache.arrow.vector.table.Table;
 import org.apache.arrow.vector.types.TimeUnit;
 import org.apache.arrow.vector.types.Types.MinorType;
 import org.apache.arrow.vector.types.pojo.ArrowType;
@@ -97,6 +99,7 @@
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.FieldType;
 import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.arrow.vector.util.TransferPair;
 import org.junit.jupiter.api.AfterEach;
 import org.junit.jupiter.api.BeforeEach;
 import org.junit.jupiter.api.Test;
@@ -104,14 +107,17 @@
 public class RoundtripTest {
   private static final String EMPTY_SCHEMA_PATH = "";
   private RootAllocator allocator = null;
+  private BufferAllocator childAllocator = null;
 
   @BeforeEach
   public void setUp() {
     allocator = new RootAllocator(Long.MAX_VALUE);
+    childAllocator = allocator.newChildAllocator("child", 0, Long.MAX_VALUE);
   }
 
   @AfterEach
   public void tearDown() {
+    childAllocator.close();
     allocator.close();
   }
 
@@ -128,7 +134,15 @@ FieldVector vectorRoundtrip(FieldVector vector) {
       }
 
       // Consumer imports vector
-      return Data.importVector(allocator, consumerArrowArray, consumerArrowSchema, null);
+      FieldVector imported = Data.importVector(childAllocator, consumerArrowArray, consumerArrowSchema, null);
+      if (!(imported instanceof NullVector)) {
+        assertEquals(childAllocator, imported.getAllocator());
+      }
+
+      // Check that transfers work
+      TransferPair pair = imported.getTransferPair(allocator);
+      pair.transfer();
+      return (FieldVector) pair.getTo();
     }
   }
 
@@ -656,6 +670,38 @@ public void testVectorSchemaRoot() {
     imported.close();
   }
 
+  /**
+   * Tests exporting Table and importing back to VSR. Importing back to Table is not supported at present.
+   */
+  @Test
+  public void testTable() {
+    VectorSchemaRoot imported;
+
+    // Consumer allocates empty structures
+    try (ArrowSchema consumerArrowSchema = ArrowSchema.allocateNew(allocator);
+        ArrowArray consumerArrowArray = ArrowArray.allocateNew(allocator)) {
+      try (
+          VectorSchemaRoot vsr = createTestVSR();
+          Table table = new Table(vsr)) {
+        // Producer creates structures from existing memory pointers
+        try (ArrowSchema arrowSchema = ArrowSchema.wrap(consumerArrowSchema.memoryAddress());
+            ArrowArray arrowArray = ArrowArray.wrap(consumerArrowArray.memoryAddress())) {
+          // Producer exports vector into the C Data Interface structures
+          Data.exportTable(allocator, table, null, arrowArray, arrowSchema);
+        }
+      }
+      // Consumer imports vector
+      imported = Data.importVectorSchemaRoot(allocator, consumerArrowArray, consumerArrowSchema, null);
+    }
+
+    // Ensure that imported VectorSchemaRoot is valid even after C Data Interface
+    // structures are closed
+    try (VectorSchemaRoot original = createTestVSR()) {
+      assertTrue(imported.equals(original));
+    }
+    imported.close();
+  }
+
   @Test
   public void testVectorSchemaRootWithDuplicatedFieldNames() {
     VectorSchemaRoot imported;
@@ -715,6 +761,22 @@ public void testSchema() {
     }
   }
 
+  @Test
+  public void testImportedBufferAsNioBuffer() {
+    IntVector imported;
+    try (final IntVector vector = new IntVector("v", allocator)) {
+      setVector(vector, 1, 2, 3, null);
+      imported = (IntVector) vectorRoundtrip(vector);
+    }
+    ArrowBuf dataBuffer = imported.getDataBuffer();
+    ByteBuffer nioBuffer = dataBuffer.nioBuffer().asReadOnlyBuffer();
+    nioBuffer.order(ByteOrder.nativeOrder());
+    assertEquals(1, nioBuffer.getInt(0));
+    assertEquals(2, nioBuffer.getInt(1 << 2));
+    assertEquals(3, nioBuffer.getInt(2 << 2));
+    imported.close();
+  }
+
   @Test
   public void testImportReleasedArray() {
     // Consumer allocates empty structures
diff --git a/java/c/src/test/python/integration_tests.py b/java/c/src/test/python/integration_tests.py
index 33ff1cf4a9a..c23b4b9b441 100644
--- a/java/c/src/test/python/integration_tests.py
+++ b/java/c/src/test/python/integration_tests.py
@@ -142,7 +142,7 @@ def round_trip_field(self, field_generator):
         expected = field_generator()
         self.assertEqual(expected, new_field)
 
-    def round_trip_array(self, array_generator, expected_diff=None):
+    def round_trip_array(self, array_generator, check_metadata=True):
         original_arr = array_generator()
         with self.bridge.java_c.CDataDictionaryProvider() as dictionary_provider, \
                 self.bridge.python_to_java_array(original_arr, dictionary_provider) as vector:
@@ -150,9 +150,10 @@ def round_trip_array(self, array_generator, expected_diff=None):
             new_array = self.bridge.java_to_python_array(vector, dictionary_provider)
 
         expected = array_generator()
-        if expected_diff:
-            self.assertEqual(expected, new_array.view(expected.type))
-        self.assertEqual(expected.diff(new_array), expected_diff or '')
+
+        self.assertEqual(expected, new_array)
+        if check_metadata:
+            self.assertTrue(new_array.type.equals(expected.type, check_metadata=True))
 
     def round_trip_record_batch(self, rb_generator):
         original_rb = rb_generator()
@@ -191,7 +192,10 @@ def test_int_array(self):
     def test_list_array(self):
         self.round_trip_array(lambda: pa.array(
             [[], [0], [1, 2], [4, 5, 6]], pa.list_(pa.int64())
-        ), "# Array types differed: list<item: int64> vs list<$data$: int64>\n")
+            # disabled check_metadata since the list internal field name ("item")
+            # is not preserved during round trips (it becomes "$data$").
+        ), check_metadata=False)
+        
 
     def test_struct_array(self):
         fields = [
diff --git a/java/compression/pom.xml b/java/compression/pom.xml
index 29c8c3ba74a..3507f0fd5b4 100644
--- a/java/compression/pom.xml
+++ b/java/compression/pom.xml
@@ -14,7 +14,7 @@
   <parent>
     <groupId>org.apache.arrow</groupId>
     <artifactId>arrow-java-root</artifactId>
-    <version>10.0.0-SNAPSHOT</version>
+    <version>11.0.0</version>
   </parent>
   <artifactId>arrow-compression</artifactId>
   <name>Arrow Compression</name>
diff --git a/java/dataset/CMakeLists.txt b/java/dataset/CMakeLists.txt
index 5b6e4a9ce24..315163a537c 100644
--- a/java/dataset/CMakeLists.txt
+++ b/java/dataset/CMakeLists.txt
@@ -15,28 +15,33 @@
 # specific language governing permissions and limitations
 # under the License.
 
-#
-# arrow_dataset_java
-#
-
-# Headers: top level
-
-project(arrow_dataset_java)
+find_package(ArrowDataset REQUIRED)
 
-# Find java/jni
-include(FindJava)
-include(UseJava)
-include(FindJNI)
+include_directories(${CMAKE_CURRENT_BINARY_DIR} ${CMAKE_CURRENT_SOURCE_DIR}
+                    ${JNI_INCLUDE_DIRS} ${JNI_HEADERS_DIR})
 
-message("generating headers to ${JNI_HEADERS_DIR}")
-
-add_jar(arrow_dataset_java
+add_jar(arrow_java_jni_dataset_jar
         src/main/java/org/apache/arrow/dataset/jni/JniLoader.java
         src/main/java/org/apache/arrow/dataset/jni/JniWrapper.java
         src/main/java/org/apache/arrow/dataset/file/JniWrapper.java
         src/main/java/org/apache/arrow/dataset/jni/NativeMemoryPool.java
         src/main/java/org/apache/arrow/dataset/jni/ReservationListener.java
         GENERATE_NATIVE_HEADERS
-        arrow_dataset_java-native
-        DESTINATION
-        ${JNI_HEADERS_DIR})
+        arrow_java_jni_dataset_headers)
+
+add_library(arrow_java_jni_dataset SHARED src/main/cpp/jni_wrapper.cc
+                                          src/main/cpp/jni_util.cc)
+set_property(TARGET arrow_java_jni_dataset PROPERTY OUTPUT_NAME "arrow_dataset_jni")
+target_link_libraries(arrow_java_jni_dataset arrow_java_jni_dataset_headers jni
+                      ArrowDataset::arrow_dataset_static)
+
+if(BUILD_TESTING)
+  add_executable(arrow-java-jni-dataset-test src/main/cpp/jni_util_test.cc
+                                             src/main/cpp/jni_util.cc)
+  target_link_libraries(arrow-java-jni-dataset-test arrow_java_test)
+  add_test(NAME arrow-java-jni-dataset-test COMMAND arrow-java-jni-dataset-test)
+endif()
+
+install(TARGETS arrow_java_jni_dataset
+        LIBRARY DESTINATION ${CMAKE_INSTALL_LIBDIR}
+        RUNTIME DESTINATION ${CMAKE_INSTALL_BINDIR})
diff --git a/java/dataset/pom.xml b/java/dataset/pom.xml
index 9eadf896888..b90c6d2b8c1 100644
--- a/java/dataset/pom.xml
+++ b/java/dataset/pom.xml
@@ -15,7 +15,7 @@
     <parent>
         <artifactId>arrow-java-root</artifactId>
         <groupId>org.apache.arrow</groupId>
-        <version>10.0.0-SNAPSHOT</version>
+        <version>11.0.0</version>
     </parent>
     <modelVersion>4.0.0</modelVersion>
 
@@ -101,7 +101,6 @@
         <dependency>
             <groupId>com.google.guava</groupId>
             <artifactId>guava</artifactId>
-            <version>${dep.guava.version}</version>
             <scope>test</scope>
         </dependency>
         <dependency>
@@ -109,13 +108,51 @@
             <artifactId>jackson-databind</artifactId>
             <scope>test</scope>
         </dependency>
+        <dependency>
+            <groupId>org.apache.arrow.orc</groupId>
+            <artifactId>arrow-orc</artifactId>
+            <version>${project.version}</version>
+            <scope>test</scope>
+        </dependency>
+        <dependency>
+            <groupId>org.apache.orc</groupId>
+            <artifactId>orc-core</artifactId>
+            <version>1.7.6</version>
+            <scope>test</scope>
+            <exclusions>
+                <exclusion>
+                    <groupId>log4j</groupId>
+                    <artifactId>log4j</artifactId>
+                </exclusion>
+                <exclusion>
+                    <groupId>org.slf4j</groupId>
+                    <artifactId>slf4j-log4j12</artifactId>
+                </exclusion>
+                <exclusion>
+                    <groupId>commons-logging</groupId>
+                    <artifactId>commons-logging</artifactId>
+                </exclusion>
+            </exclusions>
+        </dependency>
+        <dependency>
+            <groupId>org.apache.hive</groupId>
+            <artifactId>hive-storage-api</artifactId>
+            <version>2.8.1</version>
+            <scope>test</scope>
+        </dependency>
+	<dependency>
+            <groupId>commons-io</groupId>
+            <artifactId>commons-io</artifactId>
+	    <version>2.7</version>
+            <scope>test</scope>
+        </dependency>
     </dependencies>
     <build>
         <resources>
             <resource>
                 <directory>${arrow.cpp.build.dir}</directory>
                 <includes>
-                    <include>**/libarrow_dataset_jni.*</include>
+                    <include>**/*arrow_dataset_jni.*</include>
                 </includes>
             </resource>
         </resources>
diff --git a/java/dataset/src/main/cpp/CMakeLists.txt b/java/dataset/src/main/cpp/CMakeLists.txt
deleted file mode 100644
index 6a0be9b7f58..00000000000
--- a/java/dataset/src/main/cpp/CMakeLists.txt
+++ /dev/null
@@ -1,65 +0,0 @@
-# Licensed to the Apache Software Foundation (ASF) under one
-# or more contributor license agreements.  See the NOTICE file
-# distributed with this work for additional information
-# regarding copyright ownership.  The ASF licenses this file
-# to you under the Apache License, Version 2.0 (the
-# "License"); you may not use this file except in compliance
-# with the License.  You may obtain a copy of the License at
-#
-#   http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing,
-# software distributed under the License is distributed on an
-# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
-# KIND, either express or implied.  See the License for the
-# specific language governing permissions and limitationsn
-# under the License.
-
-#
-# arrow_dataset_jni
-#
-
-project(arrow_dataset_jni)
-
-cmake_minimum_required(VERSION 3.11)
-
-find_package(JNI REQUIRED)
-
-add_custom_target(arrow_dataset_jni)
-
-set(JNI_HEADERS_DIR "${CMAKE_CURRENT_BINARY_DIR}/generated")
-
-add_subdirectory(../../../../dataset ./java)
-
-set(ARROW_BUILD_STATIC OFF)
-
-set(ARROW_DATASET_JNI_LIBS arrow_dataset_static)
-
-set(ARROW_DATASET_JNI_SOURCES jni_wrapper.cc jni_util.cc)
-
-add_arrow_lib(arrow_dataset_jni
-              BUILD_SHARED
-              SOURCES
-              ${ARROW_DATASET_JNI_SOURCES}
-              OUTPUTS
-              ARROW_DATASET_JNI_LIBRARIES
-              SHARED_PRIVATE_LINK_LIBS
-              ${ARROW_DATASET_JNI_LIBS}
-              STATIC_LINK_LIBS
-              ${ARROW_DATASET_JNI_LIBS}
-              EXTRA_INCLUDES
-              ${JNI_HEADERS_DIR}
-              PRIVATE_INCLUDES
-              ${JNI_INCLUDE_DIRS}
-              DEPENDENCIES
-              arrow_static
-              arrow_dataset_java)
-
-add_dependencies(arrow_dataset_jni ${ARROW_DATASET_JNI_LIBRARIES})
-
-add_arrow_test(dataset_jni_test
-               SOURCES
-               jni_util_test.cc
-               jni_util.cc
-               EXTRA_INCLUDES
-               ${JNI_INCLUDE_DIRS})
diff --git a/java/dataset/src/main/cpp/jni_util.cc b/java/dataset/src/main/cpp/jni_util.cc
index a48224db804..0aba2e5121f 100644
--- a/java/dataset/src/main/cpp/jni_util.cc
+++ b/java/dataset/src/main/cpp/jni_util.cc
@@ -36,9 +36,9 @@ class ReservationListenableMemoryPool::Impl {
                 int64_t block_size)
       : pool_(pool), listener_(listener), block_size_(block_size), blocks_reserved_(0) {}
 
-  arrow::Status Allocate(int64_t size, uint8_t** out) {
+  arrow::Status Allocate(int64_t size, int64_t alignment, uint8_t** out) {
     RETURN_NOT_OK(UpdateReservation(size));
-    arrow::Status error = pool_->Allocate(size, out);
+    arrow::Status error = pool_->Allocate(size, alignment, out);
     if (!error.ok()) {
       RETURN_NOT_OK(UpdateReservation(-size));
       return error;
@@ -46,7 +46,8 @@ class ReservationListenableMemoryPool::Impl {
     return arrow::Status::OK();
   }
 
-  arrow::Status Reallocate(int64_t old_size, int64_t new_size, uint8_t** ptr) {
+  arrow::Status Reallocate(int64_t old_size, int64_t new_size, int64_t alignment,
+                           uint8_t** ptr) {
     bool reserved = false;
     int64_t diff = new_size - old_size;
     if (new_size >= old_size) {
@@ -55,7 +56,7 @@ class ReservationListenableMemoryPool::Impl {
       RETURN_NOT_OK(UpdateReservation(diff));
       reserved = true;
     }
-    arrow::Status error = pool_->Reallocate(old_size, new_size, ptr);
+    arrow::Status error = pool_->Reallocate(old_size, new_size, alignment, ptr);
     if (!error.ok()) {
       if (reserved) {
         // roll back reservations on error
@@ -70,8 +71,8 @@ class ReservationListenableMemoryPool::Impl {
     return arrow::Status::OK();
   }
 
-  void Free(uint8_t* buffer, int64_t size) {
-    pool_->Free(buffer, size);
+  void Free(uint8_t* buffer, int64_t size, int64_t alignment) {
+    pool_->Free(buffer, size, alignment);
     // FIXME: See ARROW-11143, currently method ::Free doesn't allow Status return
     arrow::Status s = UpdateReservation(-size);
     if (!s.ok()) {
@@ -132,18 +133,21 @@ ReservationListenableMemoryPool::ReservationListenableMemoryPool(
   impl_.reset(new Impl(pool, listener, block_size));
 }
 
-arrow::Status ReservationListenableMemoryPool::Allocate(int64_t size, uint8_t** out) {
-  return impl_->Allocate(size, out);
+arrow::Status ReservationListenableMemoryPool::Allocate(int64_t size, int64_t alignment,
+                                                        uint8_t** out) {
+  return impl_->Allocate(size, alignment, out);
 }
 
 arrow::Status ReservationListenableMemoryPool::Reallocate(int64_t old_size,
                                                           int64_t new_size,
+                                                          int64_t alignment,
                                                           uint8_t** ptr) {
-  return impl_->Reallocate(old_size, new_size, ptr);
+  return impl_->Reallocate(old_size, new_size, alignment, ptr);
 }
 
-void ReservationListenableMemoryPool::Free(uint8_t* buffer, int64_t size) {
-  return impl_->Free(buffer, size);
+void ReservationListenableMemoryPool::Free(uint8_t* buffer, int64_t size,
+                                           int64_t alignment) {
+  return impl_->Free(buffer, size, alignment);
 }
 
 int64_t ReservationListenableMemoryPool::bytes_allocated() const {
diff --git a/java/dataset/src/main/cpp/jni_util.h b/java/dataset/src/main/cpp/jni_util.h
index 76cb72d8878..5697a82c8d6 100644
--- a/java/dataset/src/main/cpp/jni_util.h
+++ b/java/dataset/src/main/cpp/jni_util.h
@@ -143,11 +143,16 @@ class ReservationListenableMemoryPool : public arrow::MemoryPool {
 
   ~ReservationListenableMemoryPool();
 
-  arrow::Status Allocate(int64_t size, uint8_t** out) override;
+  using MemoryPool::Allocate;
+  using MemoryPool::Free;
+  using MemoryPool::Reallocate;
 
-  arrow::Status Reallocate(int64_t old_size, int64_t new_size, uint8_t** ptr) override;
+  arrow::Status Allocate(int64_t size, int64_t alignment, uint8_t** out) override;
 
-  void Free(uint8_t* buffer, int64_t size) override;
+  arrow::Status Reallocate(int64_t old_size, int64_t new_size, int64_t alignment,
+                           uint8_t** ptr) override;
+
+  void Free(uint8_t* buffer, int64_t size, int64_t alignment) override;
 
   int64_t bytes_allocated() const override;
 
diff --git a/java/dataset/src/main/cpp/jni_wrapper.cc b/java/dataset/src/main/cpp/jni_wrapper.cc
index d0881639034..b3b5fe18c79 100644
--- a/java/dataset/src/main/cpp/jni_wrapper.cc
+++ b/java/dataset/src/main/cpp/jni_wrapper.cc
@@ -19,6 +19,8 @@
 
 #include "arrow/array.h"
 #include "arrow/array/concatenate.h"
+#include "arrow/c/bridge.h"
+#include "arrow/c/helpers.h"
 #include "arrow/dataset/api.h"
 #include "arrow/dataset/file_base.h"
 #include "arrow/filesystem/localfs.h"
@@ -91,6 +93,14 @@ arrow::Result<std::shared_ptr<arrow::dataset::FileFormat>> GetFileFormat(
       return std::make_shared<arrow::dataset::ParquetFileFormat>();
     case 1:
       return std::make_shared<arrow::dataset::IpcFileFormat>();
+#ifdef ARROW_ORC
+    case 2:
+      return std::make_shared<arrow::dataset::OrcFileFormat>();
+#endif
+#ifdef ARROW_CSV
+    case 3:
+      return std::make_shared<arrow::dataset::CsvFileFormat>();
+#endif
     default:
       std::string error_message =
           "illegal file format id: " + std::to_string(file_format_id);
@@ -168,6 +178,21 @@ class DisposableScannerAdaptor {
   }
 };
 
+arrow::Result<std::shared_ptr<arrow::Schema>> SchemaFromColumnNames(
+    const std::shared_ptr<arrow::Schema>& input,
+    const std::vector<std::string>& column_names) {
+  std::vector<std::shared_ptr<arrow::Field>> columns;
+  for (arrow::FieldRef ref : column_names) {
+    auto maybe_field = ref.GetOne(*input);
+    if (maybe_field.ok()) {
+      columns.push_back(std::move(maybe_field).ValueOrDie());
+    } else {
+      return arrow::Status::Invalid("Partition column '", ref.ToString(), "' is not in dataset schema");
+    }
+  }
+
+  return schema(std::move(columns))->WithMetadata(input->metadata());
+}
 }  // namespace
 
 using arrow::dataset::jni::CreateGlobalClassReference;
@@ -221,7 +246,6 @@ jint JNI_OnLoad(JavaVM* vm, void* reserved) {
       GetMethodID(env, java_reservation_listener_class, "unreserve", "(J)V"));
 
   default_memory_pool_id = reinterpret_cast<jlong>(arrow::default_memory_pool());
-
   return JNI_VERSION;
   JNI_METHOD_END(JNI_ERR)
 }
@@ -508,3 +532,49 @@ Java_org_apache_arrow_dataset_file_JniWrapper_makeFileSystemDatasetFactory(
   return CreateNativeRef(d);
   JNI_METHOD_END(-1L)
 }
+
+/*
+ * Class:     org_apache_arrow_dataset_file_JniWrapper
+ * Method:    writeFromScannerToFile
+ * Signature:
+ * (JJJLjava/lang/String;[Ljava/lang/String;ILjava/lang/String;)V
+ */
+JNIEXPORT void JNICALL
+Java_org_apache_arrow_dataset_file_JniWrapper_writeFromScannerToFile(
+    JNIEnv* env, jobject, jlong c_arrow_array_stream_address,
+    jlong file_format_id, jstring uri, jobjectArray partition_columns,
+    jint max_partitions, jstring base_name_template) {
+  JNI_METHOD_START
+  JavaVM* vm;
+  if (env->GetJavaVM(&vm) != JNI_OK) {
+    JniThrow("Unable to get JavaVM instance");
+  }
+
+  auto* arrow_stream = reinterpret_cast<ArrowArrayStream*>(c_arrow_array_stream_address);
+  std::shared_ptr<arrow::RecordBatchReader> reader =
+      JniGetOrThrow(arrow::ImportRecordBatchReader(arrow_stream));
+  std::shared_ptr<arrow::dataset::ScannerBuilder> scanner_builder =
+      arrow::dataset::ScannerBuilder::FromRecordBatchReader(reader);
+  JniAssertOkOrThrow(scanner_builder->Pool(arrow::default_memory_pool()));
+  auto scanner = JniGetOrThrow(scanner_builder->Finish());
+
+  std::shared_ptr<arrow::Schema> schema = reader->schema();
+
+  std::shared_ptr<arrow::dataset::FileFormat> file_format =
+      JniGetOrThrow(GetFileFormat(file_format_id));
+  arrow::dataset::FileSystemDatasetWriteOptions options;
+  std::string output_path;
+  auto filesystem = JniGetOrThrow(
+      arrow::fs::FileSystemFromUri(JStringToCString(env, uri), &output_path));
+  std::vector<std::string> partition_column_vector =
+      ToStringVector(env, partition_columns);
+  options.file_write_options = file_format->DefaultWriteOptions();
+  options.filesystem = filesystem;
+  options.base_dir = output_path;
+  options.basename_template = JStringToCString(env, base_name_template);
+  options.partitioning = std::make_shared<arrow::dataset::HivePartitioning>(
+      SchemaFromColumnNames(schema, partition_column_vector).ValueOrDie());
+  options.max_partitions = max_partitions;
+  JniAssertOkOrThrow(arrow::dataset::FileSystemDataset::Write(options, scanner));
+  JNI_METHOD_END()
+}
diff --git a/java/dataset/src/main/java/org/apache/arrow/dataset/file/DatasetFileWriter.java b/java/dataset/src/main/java/org/apache/arrow/dataset/file/DatasetFileWriter.java
new file mode 100644
index 00000000000..b2369b853ad
--- /dev/null
+++ b/java/dataset/src/main/java/org/apache/arrow/dataset/file/DatasetFileWriter.java
@@ -0,0 +1,61 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.dataset.file;
+
+import org.apache.arrow.c.ArrowArrayStream;
+import org.apache.arrow.c.Data;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.vector.ipc.ArrowReader;
+
+/**
+ * JNI-based utility to write datasets into files. It internally depends on C++ static method
+ * FileSystemDataset::Write.
+ */
+public class DatasetFileWriter {
+
+  /**
+   * Write the contents of an ArrowReader as a dataset.
+   *
+   * @param reader the datasource for writing
+   * @param format target file format
+   * @param uri target file uri
+   * @param maxPartitions maximum partitions to be included in written files
+   * @param partitionColumns columns used to partition output files. Empty to disable partitioning
+   * @param baseNameTemplate file name template used to make partitions. E.g. "dat_{i}", i is current partition
+   *                         ID around all written files.
+   */
+  public static void write(BufferAllocator allocator, ArrowReader reader, FileFormat format, String uri,
+                           String[] partitionColumns, int maxPartitions, String baseNameTemplate) {
+    try (final ArrowArrayStream stream = ArrowArrayStream.allocateNew(allocator)) {
+      Data.exportArrayStream(allocator, reader, stream);
+      JniWrapper.get().writeFromScannerToFile(stream.memoryAddress(),
+          format.id(), uri, partitionColumns, maxPartitions, baseNameTemplate);
+    }
+  }
+
+  /**
+   * Write the contents of an ArrowReader as a dataset, with default partitioning settings.
+   *
+   * @param reader the datasource for writing
+   * @param format target file format
+   * @param uri target file uri
+   */
+  public static void write(BufferAllocator allocator, ArrowReader reader, FileFormat format, String uri) {
+    write(allocator, reader, format, uri, new String[0], 1024, "data_{i}");
+  }
+}
diff --git a/java/dataset/src/main/java/org/apache/arrow/dataset/file/FileFormat.java b/java/dataset/src/main/java/org/apache/arrow/dataset/file/FileFormat.java
index 343e458ce23..aad4fa5f2af 100644
--- a/java/dataset/src/main/java/org/apache/arrow/dataset/file/FileFormat.java
+++ b/java/dataset/src/main/java/org/apache/arrow/dataset/file/FileFormat.java
@@ -23,6 +23,8 @@
 public enum FileFormat {
   PARQUET(0),
   ARROW_IPC(1),
+  ORC(2),
+  CSV(3),
   NONE(-1);
 
   private final int id;
diff --git a/java/dataset/src/main/java/org/apache/arrow/dataset/file/JniWrapper.java b/java/dataset/src/main/java/org/apache/arrow/dataset/file/JniWrapper.java
index 6e65803a333..18560a46a5c 100644
--- a/java/dataset/src/main/java/org/apache/arrow/dataset/file/JniWrapper.java
+++ b/java/dataset/src/main/java/org/apache/arrow/dataset/file/JniWrapper.java
@@ -45,4 +45,23 @@ private JniWrapper() {
    */
   public native long makeFileSystemDatasetFactory(String uri, int fileFormat);
 
+  /**
+   * Write the content in a {@link org.apache.arrow.c.ArrowArrayStream} into files. This internally
+   * depends on C++ write API: FileSystemDataset::Write.
+   *
+   * @param streamAddress the ArrowArrayStream address
+   * @param fileFormat target file format (ID)
+   * @param uri target file uri
+   * @param partitionColumns columns used to partition output files
+   * @param maxPartitions maximum partitions to be included in written files
+   * @param baseNameTemplate file name template used to make partitions. E.g. "dat_{i}", i is current partition
+   *                         ID around all written files.
+   */
+  public native void writeFromScannerToFile(long streamAddress,
+                                            long fileFormat,
+                                            String uri,
+                                            String[] partitionColumns,
+                                            int maxPartitions,
+                                            String baseNameTemplate);
+
 }
diff --git a/java/dataset/src/main/java/org/apache/arrow/dataset/jni/JniLoader.java b/java/dataset/src/main/java/org/apache/arrow/dataset/jni/JniLoader.java
index 15ce5448b86..ffdd5e5273e 100644
--- a/java/dataset/src/main/java/org/apache/arrow/dataset/jni/JniLoader.java
+++ b/java/dataset/src/main/java/org/apache/arrow/dataset/jni/JniLoader.java
@@ -27,6 +27,7 @@
 import java.util.Collections;
 import java.util.HashSet;
 import java.util.List;
+import java.util.Locale;
 import java.util.Set;
 
 /**
@@ -76,9 +77,11 @@ private synchronized void loadRemaining() {
   }
 
   private void load(String name) {
-    final String libraryToLoad = System.mapLibraryName(name);
+    final String libraryToLoad =
+        getNormalizedArch() + File.separator + System.mapLibraryName(name);
     try {
       File temp = File.createTempFile("jnilib-", ".tmp", new File(System.getProperty("java.io.tmpdir")));
+      temp.deleteOnExit();
       try (final InputStream is
                = JniWrapper.class.getClassLoader().getResourceAsStream(libraryToLoad)) {
         if (is == null) {
@@ -91,4 +94,19 @@ private void load(String name) {
       throw new IllegalStateException("error loading native libraries: " + e);
     }
   }
+
+  private String getNormalizedArch() {
+    String arch = System.getProperty("os.arch").toLowerCase(Locale.US);
+    switch (arch) {
+      case "amd64":
+        arch = "x86_64";
+        break;
+      case "aarch64":
+        arch = "aarch_64";
+        break;
+      default:
+        break;
+    }
+    return arch;
+  }
 }
diff --git a/java/dataset/src/main/java/org/apache/arrow/dataset/jni/NativeScanTask.java b/java/dataset/src/main/java/org/apache/arrow/dataset/jni/NativeScanTask.java
index e4764236dad..7747dd60340 100644
--- a/java/dataset/src/main/java/org/apache/arrow/dataset/jni/NativeScanTask.java
+++ b/java/dataset/src/main/java/org/apache/arrow/dataset/jni/NativeScanTask.java
@@ -25,6 +25,7 @@
  * id via {@link JniWrapper}, thus we allow only one-time execution of method {@link #execute()}. If a re-scan
  * operation is expected, call {@link NativeDataset#newScan} to create a new scanner instance.
  */
+@Deprecated
 public class NativeScanTask implements ScanTask {
   private final NativeScanner scanner;
 
diff --git a/java/dataset/src/main/java/org/apache/arrow/dataset/jni/NativeScanner.java b/java/dataset/src/main/java/org/apache/arrow/dataset/jni/NativeScanner.java
index de18f9e5e0b..8ca8e5cf50e 100644
--- a/java/dataset/src/main/java/org/apache/arrow/dataset/jni/NativeScanner.java
+++ b/java/dataset/src/main/java/org/apache/arrow/dataset/jni/NativeScanner.java
@@ -68,6 +68,19 @@ ArrowReader execute() {
   }
 
   @Override
+  public ArrowReader scanBatches() {
+    if (closed) {
+      throw new NativeInstanceReleasedException();
+    }
+    if (!executed.compareAndSet(false, true)) {
+      throw new UnsupportedOperationException("NativeScanner can only be executed once. Create a " +
+              "new scanner instead");
+    }
+    return new NativeReader(context.getAllocator());
+  }
+
+  @Override
+  @Deprecated
   public Iterable<? extends NativeScanTask> scan() {
     if (closed) {
       throw new NativeInstanceReleasedException();
diff --git a/java/dataset/src/main/java/org/apache/arrow/dataset/scanner/ArrowScannerReader.java b/java/dataset/src/main/java/org/apache/arrow/dataset/scanner/ArrowScannerReader.java
new file mode 100644
index 00000000000..417ba837a3b
--- /dev/null
+++ b/java/dataset/src/main/java/org/apache/arrow/dataset/scanner/ArrowScannerReader.java
@@ -0,0 +1,124 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.dataset.scanner;
+
+import java.io.IOException;
+import java.util.Iterator;
+
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.vector.VectorLoader;
+import org.apache.arrow.vector.VectorUnloader;
+import org.apache.arrow.vector.ipc.ArrowReader;
+import org.apache.arrow.vector.ipc.message.ArrowDictionaryBatch;
+import org.apache.arrow.vector.ipc.message.ArrowRecordBatch;
+import org.apache.arrow.vector.types.pojo.Schema;
+
+/**
+ * An implementation of {@link ArrowReader} that reads
+ * the dataset from {@link Scanner}.
+ */
+public class ArrowScannerReader extends ArrowReader {
+  private final Scanner scanner;
+
+  private Iterator<? extends ScanTask> taskIterator;
+
+  private ScanTask currentTask = null;
+  private ArrowReader currentReader = null;
+
+  /**
+   * Constructs a scanner reader using a Scanner.
+   *
+   * @param scanner scanning data over dataset
+   * @param allocator to allocate new buffers
+   */
+  public ArrowScannerReader(Scanner scanner, BufferAllocator allocator) {
+    super(allocator);
+    this.scanner = scanner;
+    this.taskIterator = scanner.scan().iterator();
+    if (taskIterator.hasNext()) {
+      currentTask = taskIterator.next();
+      currentReader = currentTask.execute();
+    }
+  }
+
+  @Override
+  protected void loadRecordBatch(ArrowRecordBatch batch) {
+    throw new UnsupportedOperationException();
+  }
+
+  @Override
+  protected void loadDictionary(ArrowDictionaryBatch dictionaryBatch) {
+    throw new UnsupportedOperationException();
+  }
+
+  @Override
+  public boolean loadNextBatch() throws IOException {
+    if (currentReader == null) {
+      return false;
+    }
+    boolean result = currentReader.loadNextBatch();
+
+    if (!result) {
+      try {
+        currentTask.close();
+        currentReader.close();
+      } catch (Exception e) {
+        throw new IOException(e);
+      }
+
+      while (!result) {
+        if (!taskIterator.hasNext()) {
+          return false;
+        } else {
+          currentTask = taskIterator.next();
+          currentReader = currentTask.execute();
+          result = currentReader.loadNextBatch();
+        }
+      }
+    }
+
+    VectorLoader loader = new VectorLoader(this.getVectorSchemaRoot());
+    VectorUnloader unloader =
+        new VectorUnloader(currentReader.getVectorSchemaRoot());
+    try (ArrowRecordBatch recordBatch = unloader.getRecordBatch()) {
+      loader.load(recordBatch);
+    }
+    return true;
+  }
+
+  @Override
+  public long bytesRead() {
+    return 0L;
+  }
+
+  @Override
+  protected void closeReadSource() throws IOException {
+    try {
+      currentTask.close();
+      currentReader.close();
+      scanner.close();
+    } catch (Exception e) {
+      throw new IOException(e);
+    }
+  }
+
+  @Override
+  protected Schema readSchema() throws IOException {
+    return scanner.schema();
+  }
+}
diff --git a/java/dataset/src/main/java/org/apache/arrow/dataset/scanner/ScanTask.java b/java/dataset/src/main/java/org/apache/arrow/dataset/scanner/ScanTask.java
index 434f5c9a6fa..16b8aeefb61 100644
--- a/java/dataset/src/main/java/org/apache/arrow/dataset/scanner/ScanTask.java
+++ b/java/dataset/src/main/java/org/apache/arrow/dataset/scanner/ScanTask.java
@@ -26,6 +26,7 @@
  * ScanTask is meant to be a unit of work to be dispatched. The implementation
  * must be thread and concurrent safe.
  */
+@Deprecated
 public interface ScanTask extends AutoCloseable {
 
   /**
diff --git a/java/dataset/src/main/java/org/apache/arrow/dataset/scanner/Scanner.java b/java/dataset/src/main/java/org/apache/arrow/dataset/scanner/Scanner.java
index 93a1b08f366..43749b7db8e 100644
--- a/java/dataset/src/main/java/org/apache/arrow/dataset/scanner/Scanner.java
+++ b/java/dataset/src/main/java/org/apache/arrow/dataset/scanner/Scanner.java
@@ -17,6 +17,7 @@
 
 package org.apache.arrow.dataset.scanner;
 
+import org.apache.arrow.vector.ipc.ArrowReader;
 import org.apache.arrow.vector.types.pojo.Schema;
 
 /**
@@ -24,12 +25,21 @@
  */
 public interface Scanner extends AutoCloseable {
 
+  /**
+   * Read the dataset as a stream of record batches.
+   *
+   * @return a {@link ArrowReader}.
+   */
+  ArrowReader scanBatches();
+
   /**
    * Perform the scan operation.
    *
    * @return a iterable set of {@link ScanTask}s. Each task is considered independent and it is allowed
    *     to execute the tasks concurrently to gain better performance.
+   * @deprecated use {@link #scanBatches()} instead.
    */
+  @Deprecated
   Iterable<? extends ScanTask> scan();
 
   /**
diff --git a/java/dataset/src/test/java/org/apache/arrow/dataset/CsvWriteSupport.java b/java/dataset/src/test/java/org/apache/arrow/dataset/CsvWriteSupport.java
new file mode 100644
index 00000000000..954408ce25e
--- /dev/null
+++ b/java/dataset/src/test/java/org/apache/arrow/dataset/CsvWriteSupport.java
@@ -0,0 +1,49 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.dataset;
+
+import java.io.File;
+import java.io.FileWriter;
+import java.io.IOException;
+import java.net.URI;
+import java.net.URISyntaxException;
+import java.util.Random;
+
+public class CsvWriteSupport {
+  private final URI uri;
+  private final Random random = new Random();
+
+  public CsvWriteSupport(File outputFolder) throws URISyntaxException {
+    uri = new URI("file", outputFolder.getPath() + File.separator + "generated-" + random.nextLong() + ".csv", null);
+  }
+
+  public static CsvWriteSupport writeTempFile(File outputFolder, String... values)
+      throws URISyntaxException, IOException {
+    CsvWriteSupport writer = new CsvWriteSupport(outputFolder);
+    try (FileWriter addValues = new FileWriter(new File(writer.uri), true)) {
+      for (Object value : values) {
+        addValues.write(value + "\n");
+      }
+    }
+    return writer;
+  }
+
+  public String getOutputURI() {
+    return uri.toString();
+  }
+}
diff --git a/java/dataset/src/test/java/org/apache/arrow/dataset/OrcWriteSupport.java b/java/dataset/src/test/java/org/apache/arrow/dataset/OrcWriteSupport.java
new file mode 100644
index 00000000000..c49612995ee
--- /dev/null
+++ b/java/dataset/src/test/java/org/apache/arrow/dataset/OrcWriteSupport.java
@@ -0,0 +1,42 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.dataset;
+
+import java.io.IOException;
+
+import org.apache.hadoop.conf.Configuration;
+import org.apache.hadoop.fs.Path;
+import org.apache.hadoop.hive.ql.exec.vector.LongColumnVector;
+import org.apache.hadoop.hive.ql.exec.vector.VectorizedRowBatch;
+import org.apache.orc.OrcFile;
+import org.apache.orc.TypeDescription;
+import org.apache.orc.Writer;
+
+public class OrcWriteSupport {
+  public static void writeTempFile(TypeDescription orcSchema, Path path, Integer[] values) throws IOException {
+    Writer writer = OrcFile.createWriter(path, OrcFile.writerOptions(new Configuration()).setSchema(orcSchema));
+    VectorizedRowBatch batch = orcSchema.createRowBatch();
+    LongColumnVector longColumnVector = (LongColumnVector) batch.cols[0];
+    for (int idx = 0; idx < values.length; idx++) {
+      longColumnVector.vector[idx] = values[idx];
+    }
+    batch.size = values.length;
+    writer.addRowBatch(batch);
+    writer.close();
+  }
+}
diff --git a/java/dataset/src/test/java/org/apache/arrow/dataset/TestDataset.java b/java/dataset/src/test/java/org/apache/arrow/dataset/TestDataset.java
index 15224534d28..2516c409593 100644
--- a/java/dataset/src/test/java/org/apache/arrow/dataset/TestDataset.java
+++ b/java/dataset/src/test/java/org/apache/arrow/dataset/TestDataset.java
@@ -28,7 +28,6 @@
 import java.util.stream.StreamSupport;
 
 import org.apache.arrow.dataset.scanner.ScanOptions;
-import org.apache.arrow.dataset.scanner.ScanTask;
 import org.apache.arrow.dataset.scanner.Scanner;
 import org.apache.arrow.dataset.source.Dataset;
 import org.apache.arrow.dataset.source.DatasetFactory;
@@ -63,9 +62,7 @@ protected List<ArrowRecordBatch> collectResultFromFactory(DatasetFactory factory
     final Dataset dataset = factory.finish();
     final Scanner scanner = dataset.newScan(options);
     try {
-      final List<ArrowRecordBatch> ret = stream(scanner.scan())
-          .flatMap(t -> stream(collectTaskData(t)))
-          .collect(Collectors.toList());
+      final List<ArrowRecordBatch> ret = collectTaskData(scanner);
       AutoCloseables.close(scanner, dataset);
       return ret;
     } catch (RuntimeException e) {
@@ -75,8 +72,8 @@ protected List<ArrowRecordBatch> collectResultFromFactory(DatasetFactory factory
     }
   }
 
-  protected List<ArrowRecordBatch> collectTaskData(ScanTask scanTask) {
-    try (ArrowReader reader = scanTask.execute()) {
+  protected List<ArrowRecordBatch> collectTaskData(Scanner scan) {
+    try (ArrowReader reader = scan.scanBatches()) {
       List<ArrowRecordBatch> batches = new ArrayList<>();
       while (reader.loadNextBatch()) {
         VectorSchemaRoot root = reader.getVectorSchemaRoot();
diff --git a/java/dataset/src/test/java/org/apache/arrow/dataset/file/TestDatasetFileWriter.java b/java/dataset/src/test/java/org/apache/arrow/dataset/file/TestDatasetFileWriter.java
new file mode 100644
index 00000000000..10c06be2cca
--- /dev/null
+++ b/java/dataset/src/test/java/org/apache/arrow/dataset/file/TestDatasetFileWriter.java
@@ -0,0 +1,137 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.dataset.file;
+
+import java.io.File;
+import java.util.Arrays;
+import java.util.HashSet;
+import java.util.List;
+import java.util.Objects;
+import java.util.Set;
+import java.util.stream.Collectors;
+
+import org.apache.arrow.dataset.ParquetWriteSupport;
+import org.apache.arrow.dataset.TestDataset;
+import org.apache.arrow.dataset.jni.NativeMemoryPool;
+import org.apache.arrow.dataset.scanner.ArrowScannerReader;
+import org.apache.arrow.dataset.scanner.ScanOptions;
+import org.apache.arrow.dataset.scanner.Scanner;
+import org.apache.arrow.dataset.source.Dataset;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.VectorLoader;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.compare.VectorEqualsVisitor;
+import org.apache.arrow.vector.ipc.message.ArrowRecordBatch;
+import org.apache.commons.io.FileUtils;
+import org.junit.Assert;
+import org.junit.ClassRule;
+import org.junit.Test;
+import org.junit.rules.TemporaryFolder;
+
+public class TestDatasetFileWriter extends TestDataset {
+
+  @ClassRule
+  public static final TemporaryFolder TMP = new TemporaryFolder();
+
+  public static final String AVRO_SCHEMA_USER = "user.avsc";
+
+  @Test
+  public void testParquetWriteSimple() throws Exception {
+    ParquetWriteSupport writeSupport = ParquetWriteSupport.writeTempFile(AVRO_SCHEMA_USER, TMP.newFolder(),
+        1, "a", 2, "b", 3, "c", 2, "d");
+    String sampleParquet = writeSupport.getOutputURI();
+    ScanOptions options = new ScanOptions(new String[0], 100);
+    final File writtenFolder = TMP.newFolder();
+    final String writtenParquet = writtenFolder.toURI().toString();
+    try (FileSystemDatasetFactory factory = new FileSystemDatasetFactory(rootAllocator(), NativeMemoryPool.getDefault(),
+        FileFormat.PARQUET, sampleParquet);
+         final Dataset dataset = factory.finish();
+         final Scanner scanner = dataset.newScan(options);
+         final ArrowScannerReader reader = new ArrowScannerReader(scanner, rootAllocator());
+    ) {
+      DatasetFileWriter.write(rootAllocator(), reader, FileFormat.PARQUET, writtenParquet);
+      assertParquetFileEquals(sampleParquet, Objects.requireNonNull(writtenFolder.listFiles())[0].toURI().toString());
+    }
+  }
+
+  @Test
+  public void testParquetWriteWithPartitions() throws Exception {
+    ParquetWriteSupport writeSupport = ParquetWriteSupport.writeTempFile(AVRO_SCHEMA_USER, TMP.newFolder(),
+        1, "a", 2, "b", 3, "c", 2, "d");
+    String sampleParquet = writeSupport.getOutputURI();
+    ScanOptions options = new ScanOptions(new String[0], 100);
+    final File writtenFolder = TMP.newFolder();
+    final String writtenParquet = writtenFolder.toURI().toString();
+
+    try (FileSystemDatasetFactory factory = new FileSystemDatasetFactory(rootAllocator(), NativeMemoryPool.getDefault(),
+        FileFormat.PARQUET, sampleParquet);
+         final Dataset dataset = factory.finish();
+         final Scanner scanner = dataset.newScan(options);
+         final ArrowScannerReader reader = new ArrowScannerReader(scanner, rootAllocator());
+    ) {
+      DatasetFileWriter.write(rootAllocator(), reader,
+          FileFormat.PARQUET, writtenParquet, new String[]{"id", "name"},
+          100, "data_{i}");
+      final Set<String> expectedOutputFiles = new HashSet<>(
+          Arrays.asList("id=1/name=a/data_0", "id=2/name=b/data_0", "id=3/name=c/data_0", "id=2/name=d/data_0"));
+      final Set<String> outputFiles = FileUtils.listFiles(writtenFolder, null, true)
+          .stream()
+          .map(file -> {
+            return writtenFolder.toURI().relativize(file.toURI()).toString();
+          })
+          .collect(Collectors.toSet());
+      Assert.assertEquals(expectedOutputFiles, outputFiles);
+    }
+  }
+
+  private void assertParquetFileEquals(String expectedURI, String actualURI) throws Exception {
+    final FileSystemDatasetFactory expectedFactory = new FileSystemDatasetFactory(
+        rootAllocator(), NativeMemoryPool.getDefault(), FileFormat.PARQUET, expectedURI);
+    final FileSystemDatasetFactory actualFactory = new FileSystemDatasetFactory(
+        rootAllocator(), NativeMemoryPool.getDefault(), FileFormat.PARQUET, actualURI);
+    List<ArrowRecordBatch> expectedBatches = collectResultFromFactory(expectedFactory,
+        new ScanOptions(new String[0], 100));
+    List<ArrowRecordBatch> actualBatches = collectResultFromFactory(actualFactory,
+        new ScanOptions(new String[0], 100));
+    try (
+        VectorSchemaRoot expectVsr = VectorSchemaRoot.create(expectedFactory.inspect(), rootAllocator());
+        VectorSchemaRoot actualVsr = VectorSchemaRoot.create(actualFactory.inspect(), rootAllocator())) {
+
+      // fast-fail by comparing metadata
+      Assert.assertEquals(expectedBatches.toString(), actualBatches.toString());
+      // compare ArrowRecordBatches
+      Assert.assertEquals(expectedBatches.size(), actualBatches.size());
+      VectorLoader expectLoader = new VectorLoader(expectVsr);
+      VectorLoader actualLoader = new VectorLoader(actualVsr);
+      for (int i = 0; i < expectedBatches.size(); i++) {
+        expectLoader.load(expectedBatches.get(i));
+        actualLoader.load(actualBatches.get(i));
+        for (int j = 0; j < expectVsr.getFieldVectors().size(); j++) {
+          FieldVector vector = expectVsr.getFieldVectors().get(i);
+          FieldVector otherVector = actualVsr.getFieldVectors().get(i);
+          // TODO: ARROW-18140 Use VectorSchemaRoot#equals() method to compare
+          Assert.assertTrue(VectorEqualsVisitor.vectorEquals(vector, otherVector));
+        }
+      }
+    } finally {
+      AutoCloseables.close(expectedBatches, actualBatches);
+    }
+  }
+}
+
diff --git a/java/dataset/src/test/java/org/apache/arrow/dataset/file/TestFileSystemDataset.java b/java/dataset/src/test/java/org/apache/arrow/dataset/file/TestFileSystemDataset.java
index 2fd8a19bac1..b8a13937a8a 100644
--- a/java/dataset/src/test/java/org/apache/arrow/dataset/file/TestFileSystemDataset.java
+++ b/java/dataset/src/test/java/org/apache/arrow/dataset/file/TestFileSystemDataset.java
@@ -37,11 +37,12 @@
 import java.util.concurrent.Executors;
 import java.util.stream.Collectors;
 
+import org.apache.arrow.dataset.CsvWriteSupport;
+import org.apache.arrow.dataset.OrcWriteSupport;
 import org.apache.arrow.dataset.ParquetWriteSupport;
 import org.apache.arrow.dataset.jni.NativeDataset;
 import org.apache.arrow.dataset.jni.NativeInstanceReleasedException;
 import org.apache.arrow.dataset.jni.NativeMemoryPool;
-import org.apache.arrow.dataset.jni.NativeScanTask;
 import org.apache.arrow.dataset.jni.NativeScanner;
 import org.apache.arrow.dataset.jni.TestNativeDataset;
 import org.apache.arrow.dataset.scanner.ScanOptions;
@@ -59,6 +60,8 @@
 import org.apache.arrow.vector.types.pojo.Schema;
 import org.apache.avro.generic.GenericRecord;
 import org.apache.avro.generic.GenericRecordBuilder;
+import org.apache.hadoop.fs.Path;
+import org.apache.orc.TypeDescription;
 import org.junit.Assert;
 import org.junit.ClassRule;
 import org.junit.Test;
@@ -85,7 +88,7 @@ public void testBaseParquetRead() throws Exception {
     Schema schema = inferResultSchemaFromFactory(factory, options);
     List<ArrowRecordBatch> datum = collectResultFromFactory(factory, options);
 
-    assertSingleTaskProduced(factory, options);
+    assertScanBatchesProduced(factory, options);
     assertEquals(1, datum.size());
     assertEquals(2, schema.getFields().size());
     assertEquals("id", schema.getFields().get(0).getName());
@@ -109,7 +112,7 @@ public void testParquetProjectSingleColumn() throws Exception {
     List<ArrowRecordBatch> datum = collectResultFromFactory(factory, options);
     org.apache.avro.Schema expectedSchema = truncateAvroSchema(writeSupport.getAvroSchema(), 0, 1);
 
-    assertSingleTaskProduced(factory, options);
+    assertScanBatchesProduced(factory, options);
     assertEquals(1, schema.getFields().size());
     assertEquals("id", schema.getFields().get(0).getName());
     assertEquals(Types.MinorType.INT.getType(), schema.getFields().get(0).getType());
@@ -136,7 +139,7 @@ public void testParquetBatchSize() throws Exception {
     Schema schema = inferResultSchemaFromFactory(factory, options);
     List<ArrowRecordBatch> datum = collectResultFromFactory(factory, options);
 
-    assertSingleTaskProduced(factory, options);
+    assertScanBatchesProduced(factory, options);
     assertEquals(3, datum.size());
     datum.forEach(batch -> assertEquals(1, batch.getLength()));
     checkParquetReadResult(schema, writeSupport.getWrittenRecords(), datum);
@@ -160,7 +163,7 @@ public void testParquetDirectoryRead() throws Exception {
     Schema schema = inferResultSchemaFromFactory(factory, options);
     List<ArrowRecordBatch> datum = collectResultFromFactory(factory, options);
 
-    assertSingleTaskProduced(factory, options);
+    assertScanBatchesProduced(factory, options);
     assertEquals(7, datum.size());
     datum.forEach(batch -> assertEquals(1, batch.getLength()));
     checkParquetReadResult(schema, expectedJsonUnordered, datum);
@@ -179,7 +182,7 @@ public void testEmptyProjectSelectsZeroColumns() throws Exception {
     List<ArrowRecordBatch> datum = collectResultFromFactory(factory, options);
     org.apache.avro.Schema expectedSchema = org.apache.avro.Schema.createRecord(Collections.emptyList());
 
-    assertSingleTaskProduced(factory, options);
+    assertScanBatchesProduced(factory, options);
     assertEquals(0, schema.getFields().size());
     assertEquals(1, datum.size());
     checkParquetReadResult(schema,
@@ -201,7 +204,7 @@ public void testNullProjectSelectsAllColumns() throws Exception {
     Schema schema = inferResultSchemaFromFactory(factory, options);
     List<ArrowRecordBatch> datum = collectResultFromFactory(factory, options);
 
-    assertSingleTaskProduced(factory, options);
+    assertScanBatchesProduced(factory, options);
     assertEquals(1, datum.size());
     assertEquals(2, schema.getFields().size());
     assertEquals("id", schema.getFields().get(0).getName());
@@ -230,7 +233,7 @@ public void testNoErrorWhenCloseAgain() throws Exception {
   }
 
   @Test
-  public void testErrorThrownWhenScanAgain() throws Exception {
+  public void testErrorThrownWhenScanBatchesAgain() throws Exception {
     ParquetWriteSupport writeSupport = ParquetWriteSupport.writeTempFile(AVRO_SCHEMA_USER, TMP.newFolder(), 1, "a");
 
     FileSystemDatasetFactory factory = new FileSystemDatasetFactory(rootAllocator(), NativeMemoryPool.getDefault(),
@@ -238,25 +241,18 @@ public void testErrorThrownWhenScanAgain() throws Exception {
     NativeDataset dataset = factory.finish();
     ScanOptions options = new ScanOptions(100);
     NativeScanner scanner = dataset.newScan(options);
-    List<? extends NativeScanTask> taskList1 = collect(scanner.scan());
-    List<? extends NativeScanTask> taskList2 = collect(scanner.scan());
-    NativeScanTask task1 = taskList1.get(0);
-    NativeScanTask task2 = taskList2.get(0);
-    List<ArrowRecordBatch> datum = collectTaskData(task1);
-
+    List<ArrowRecordBatch> datum = collectTaskData(scanner);
     AutoCloseables.close(datum);
-
-    UnsupportedOperationException uoe = assertThrows(UnsupportedOperationException.class, task2::execute);
-    Assertions.assertEquals("NativeScanner cannot be executed more than once. Consider creating new scanner instead",
+    UnsupportedOperationException uoe = assertThrows(UnsupportedOperationException.class,
+            scanner::scanBatches);
+    Assertions.assertEquals("NativeScanner can only be executed once. Create a new scanner instead",
         uoe.getMessage());
 
-    AutoCloseables.close(taskList1);
-    AutoCloseables.close(taskList2);
     AutoCloseables.close(scanner, dataset, factory);
   }
 
   @Test
-  public void testScanInOtherThread() throws Exception {
+  public void testScanBatchesInOtherThread() throws Exception {
     ExecutorService executor = Executors.newSingleThreadExecutor();
     ParquetWriteSupport writeSupport = ParquetWriteSupport.writeTempFile(AVRO_SCHEMA_USER, TMP.newFolder(), 1, "a");
 
@@ -265,17 +261,14 @@ public void testScanInOtherThread() throws Exception {
     NativeDataset dataset = factory.finish();
     ScanOptions options = new ScanOptions(100);
     NativeScanner scanner = dataset.newScan(options);
-    List<? extends NativeScanTask> taskList = collect(scanner.scan());
-    NativeScanTask task = taskList.get(0);
-    List<ArrowRecordBatch> datum = executor.submit(() -> collectTaskData(task)).get();
+    List<ArrowRecordBatch> datum = executor.submit(() -> collectTaskData(scanner)).get();
 
     AutoCloseables.close(datum);
-    AutoCloseables.close(taskList);
     AutoCloseables.close(scanner, dataset, factory);
   }
 
   @Test
-  public void testErrorThrownWhenScanAfterScannerClose() throws Exception {
+  public void testErrorThrownWhenScanBatchesAfterScannerClose() throws Exception {
     ParquetWriteSupport writeSupport = ParquetWriteSupport.writeTempFile(AVRO_SCHEMA_USER, TMP.newFolder(), 1, "a");
 
     FileSystemDatasetFactory factory = new FileSystemDatasetFactory(rootAllocator(), NativeMemoryPool.getDefault(),
@@ -284,28 +277,13 @@ public void testErrorThrownWhenScanAfterScannerClose() throws Exception {
     ScanOptions options = new ScanOptions(100);
     NativeScanner scanner = dataset.newScan(options);
     scanner.close();
-    assertThrows(NativeInstanceReleasedException.class, scanner::scan);
-    AutoCloseables.close(factory);
-  }
-
-  @Test
-  public void testErrorThrownWhenExecuteTaskAfterTaskClose() throws Exception {
-    ParquetWriteSupport writeSupport = ParquetWriteSupport.writeTempFile(AVRO_SCHEMA_USER, TMP.newFolder(), 1, "a");
+    assertThrows(NativeInstanceReleasedException.class, scanner::scanBatches);
 
-    FileSystemDatasetFactory factory = new FileSystemDatasetFactory(rootAllocator(), NativeMemoryPool.getDefault(),
-        FileFormat.PARQUET, writeSupport.getOutputURI());
-    NativeDataset dataset = factory.finish();
-    ScanOptions options = new ScanOptions(100);
-    NativeScanner scanner = dataset.newScan(options);
-    List<? extends NativeScanTask> tasks = collect(scanner.scan());
-    NativeScanTask task = tasks.get(0);
-    task.close();
-    assertThrows(NativeInstanceReleasedException.class, task::execute);
     AutoCloseables.close(factory);
   }
 
   @Test
-  public void testErrorThrownWhenIterateOnIteratorAfterTaskClose() throws Exception {
+  public void testErrorThrownWhenReadAfterNativeReaderClose() throws Exception {
     ParquetWriteSupport writeSupport = ParquetWriteSupport.writeTempFile(AVRO_SCHEMA_USER, TMP.newFolder(), 1, "a");
 
     FileSystemDatasetFactory factory = new FileSystemDatasetFactory(rootAllocator(), NativeMemoryPool.getDefault(),
@@ -313,11 +291,10 @@ public void testErrorThrownWhenIterateOnIteratorAfterTaskClose() throws Exceptio
     NativeDataset dataset = factory.finish();
     ScanOptions options = new ScanOptions(100);
     NativeScanner scanner = dataset.newScan(options);
-    List<? extends NativeScanTask> tasks = collect(scanner.scan());
-    NativeScanTask task = tasks.get(0);
-    ArrowReader reader = task.execute();
-    task.close();
+    ArrowReader reader = scanner.scanBatches();
+    scanner.close();
     assertThrows(NativeInstanceReleasedException.class, reader::loadNextBatch);
+
     AutoCloseables.close(factory);
   }
 
@@ -345,7 +322,7 @@ public void testBaseArrowIpcRead() throws Exception {
     Schema schema = inferResultSchemaFromFactory(factory, options);
     List<ArrowRecordBatch> datum = collectResultFromFactory(factory, options);
 
-    assertSingleTaskProduced(factory, options);
+    assertScanBatchesProduced(factory, options);
     assertEquals(1, datum.size());
     assertEquals(1, schema.getFields().size());
     assertEquals("ints", schema.getFields().get(0).getName());
@@ -357,6 +334,58 @@ public void testBaseArrowIpcRead() throws Exception {
     AutoCloseables.close(factory);
   }
 
+  @Test
+  public void testBaseOrcRead() throws Exception {
+    String dataName = "test-orc";
+    String basePath = TMP.getRoot().getAbsolutePath();
+
+    TypeDescription orcSchema = TypeDescription.fromString("struct<ints:int>");
+    Path path = new Path(basePath, dataName);
+    OrcWriteSupport.writeTempFile(orcSchema, path, new Integer[]{Integer.MIN_VALUE, Integer.MAX_VALUE});
+
+    String orcDatasetUri = new File(basePath, dataName).toURI().toString();
+    FileSystemDatasetFactory factory = new FileSystemDatasetFactory(rootAllocator(), NativeMemoryPool.getDefault(),
+            FileFormat.ORC, orcDatasetUri);
+    ScanOptions options = new ScanOptions(100);
+    Schema schema = inferResultSchemaFromFactory(factory, options);
+    List<ArrowRecordBatch> datum = collectResultFromFactory(factory, options);
+
+    assertScanBatchesProduced(factory, options);
+    assertEquals(1, datum.size());
+    assertEquals(1, schema.getFields().size());
+    assertEquals("ints", schema.getFields().get(0).getName());
+
+    String expectedJsonUnordered = "[[2147483647], [-2147483648]]";
+    checkParquetReadResult(schema, expectedJsonUnordered, datum);
+
+    AutoCloseables.close(datum);
+    AutoCloseables.close(factory);
+  }
+
+  @Test
+  public void testBaseCsvRead() throws Exception {
+    CsvWriteSupport writeSupport = CsvWriteSupport.writeTempFile(
+            TMP.newFolder(), "Name,Language", "Juno,Java", "Peter,Python", "Celin,C++");
+    String expectedJsonUnordered = "[[\"Juno\", \"Java\"], [\"Peter\", \"Python\"], [\"Celin\", \"C++\"]]";
+    ScanOptions options = new ScanOptions(100);
+    try (
+        FileSystemDatasetFactory factory = new FileSystemDatasetFactory(rootAllocator(), NativeMemoryPool.getDefault(),
+            FileFormat.CSV, writeSupport.getOutputURI())
+    ) {
+      List<ArrowRecordBatch> datum = collectResultFromFactory(factory, options);
+      Schema schema = inferResultSchemaFromFactory(factory, options);
+
+      assertScanBatchesProduced(factory, options);
+      assertEquals(1, datum.size());
+      assertEquals(2, schema.getFields().size());
+      assertEquals("Name", schema.getFields().get(0).getName());
+
+      checkParquetReadResult(schema, expectedJsonUnordered, datum);
+
+      AutoCloseables.close(datum);
+    }
+  }
+
   private void checkParquetReadResult(Schema schema, String expectedJson, List<ArrowRecordBatch> actual)
       throws IOException {
     final ObjectMapper json = new ObjectMapper();
diff --git a/java/dataset/src/test/java/org/apache/arrow/dataset/jni/TestNativeDataset.java b/java/dataset/src/test/java/org/apache/arrow/dataset/jni/TestNativeDataset.java
index 2a86a256883..d0f91769096 100644
--- a/java/dataset/src/test/java/org/apache/arrow/dataset/jni/TestNativeDataset.java
+++ b/java/dataset/src/test/java/org/apache/arrow/dataset/jni/TestNativeDataset.java
@@ -25,9 +25,9 @@
 import org.junit.Assert;
 
 public abstract class TestNativeDataset extends TestDataset {
-  protected void assertSingleTaskProduced(DatasetFactory factory, ScanOptions options) {
+  protected void assertScanBatchesProduced(DatasetFactory factory, ScanOptions options) {
     final Dataset dataset = factory.finish();
     final Scanner scanner = dataset.newScan(options);
-    Assert.assertEquals(1L, stream(scanner.scan()).count());
+    Assert.assertNotNull(scanner.scanBatches());
   }
 }
diff --git a/java/dev/checkstyle/suppressions.xml b/java/dev/checkstyle/suppressions.xml
index c3f61f46c92..585985bf32d 100644
--- a/java/dev/checkstyle/suppressions.xml
+++ b/java/dev/checkstyle/suppressions.xml
@@ -39,4 +39,6 @@
   <!-- Suppress certain checks requiring many code changes, that add little benefit -->
   <suppress checks="NoFinalizer|OverloadMethodsDeclarationOrder|VariableDeclarationUsageDistance" files=".*" />
 
+  <!-- No license header in generated file -->
+  <suppress checks="header" files="flight.properties"/>
 </suppressions>
diff --git a/java/flight/flight-core/pom.xml b/java/flight/flight-core/pom.xml
index a7d600b62ec..3205cb222db 100644
--- a/java/flight/flight-core/pom.xml
+++ b/java/flight/flight-core/pom.xml
@@ -14,7 +14,7 @@
   <parent>
     <artifactId>arrow-flight</artifactId>
     <groupId>org.apache.arrow</groupId>
-    <version>10.0.0-SNAPSHOT</version>
+    <version>11.0.0</version>
     <relativePath>../pom.xml</relativePath>
   </parent>
 
diff --git a/java/flight/flight-core/src/main/java/org/apache/arrow/flight/FlightClient.java b/java/flight/flight-core/src/main/java/org/apache/arrow/flight/FlightClient.java
index 762b37859b9..1f50f50a293 100644
--- a/java/flight/flight-core/src/main/java/org/apache/arrow/flight/FlightClient.java
+++ b/java/flight/flight-core/src/main/java/org/apache/arrow/flight/FlightClient.java
@@ -292,7 +292,12 @@ public FlightInfo getInfo(FlightDescriptor descriptor, CallOption... options) {
    * @param options RPC-layer hints for this call.
    */
   public SchemaResult getSchema(FlightDescriptor descriptor, CallOption... options) {
-    return SchemaResult.fromProtocol(CallOptions.wrapStub(blockingStub, options).getSchema(descriptor.toProtocol()));
+    try {
+      return SchemaResult.fromProtocol(CallOptions.wrapStub(blockingStub, options)
+          .getSchema(descriptor.toProtocol()));
+    } catch (StatusRuntimeException sre) {
+      throw StatusUtils.fromGrpcRuntimeException(sre);
+    }
   }
 
   /**
diff --git a/java/flight/flight-core/src/main/java/org/apache/arrow/flight/FlightService.java b/java/flight/flight-core/src/main/java/org/apache/arrow/flight/FlightService.java
index 4fb0dea2cba..29a4f2bbd19 100644
--- a/java/flight/flight-core/src/main/java/org/apache/arrow/flight/FlightService.java
+++ b/java/flight/flight-core/src/main/java/org/apache/arrow/flight/FlightService.java
@@ -231,7 +231,7 @@ public StreamObserver<ArrowMessage> doPutCustom(final StreamObserver<Flight.PutR
     executors.submit(() -> {
       try {
         producer.acceptPut(makeContext(responseObserver), fs, ackStream).run();
-      } catch (Exception ex) {
+      } catch (Throwable ex) {
         ackStream.onError(ex);
       } finally {
         // ARROW-6136: Close the stream if and only if acceptPut hasn't closed it itself
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/FlightTestUtil.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/FlightTestUtil.java
index cd043b639b0..a0eb80daca6 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/FlightTestUtil.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/FlightTestUtil.java
@@ -28,7 +28,7 @@
 import java.util.Random;
 import java.util.function.Function;
 
-import org.junit.Assert;
+import org.junit.jupiter.api.Assertions;
 import org.junit.jupiter.api.Assertions;
 import org.junit.jupiter.api.function.Executable;
 
@@ -130,7 +130,7 @@ static boolean isNativeTransportAvailable() {
    */
   public static CallStatus assertCode(FlightStatusCode code, Executable r) {
     final FlightRuntimeException ex = Assertions.assertThrows(FlightRuntimeException.class, r);
-    Assert.assertEquals(code, ex.status().code());
+    Assertions.assertEquals(code, ex.status().code());
     return ex.status();
   }
 
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestApplicationMetadata.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestApplicationMetadata.java
index c7b3321af01..fb0345b134e 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestApplicationMetadata.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestApplicationMetadata.java
@@ -32,9 +32,9 @@
 import org.apache.arrow.vector.types.pojo.ArrowType;
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.Schema;
-import org.junit.Assert;
-import org.junit.Ignore;
-import org.junit.Test;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Disabled;
+import org.junit.jupiter.api.Test;
 
 /**
  * Tests for application-specific metadata support in Flight.
@@ -51,16 +51,16 @@ public class TestApplicationMetadata {
    */
   @Test
   // This test is consistently flaky on CI, unfortunately.
-  @Ignore
+  @Disabled
   public void retrieveMetadata() {
     test((allocator, client) -> {
       try (final FlightStream stream = client.getStream(new Ticket(new byte[0]))) {
         byte i = 0;
         while (stream.next()) {
           final IntVector vector = (IntVector) stream.getRoot().getVector("a");
-          Assert.assertEquals(1, vector.getValueCount());
-          Assert.assertEquals(10, vector.get(0));
-          Assert.assertEquals(i, stream.getLatestMetadata().getByte(0));
+          Assertions.assertEquals(1, vector.getValueCount());
+          Assertions.assertEquals(10, vector.get(0));
+          Assertions.assertEquals(i, stream.getLatestMetadata().getByte(0));
           i++;
         }
       } catch (Exception e) {
@@ -81,7 +81,7 @@ public void arrow6136() {
         final FlightClient.ClientStreamListener writer = client.startPut(descriptor, root, listener);
         // Must attempt to retrieve the result to get any server-side errors.
         final CallStatus status = FlightTestUtil.assertCode(FlightStatusCode.INTERNAL, writer::getResult);
-        Assert.assertEquals(MESSAGE_ARROW_6136, status.description());
+        Assertions.assertEquals(MESSAGE_ARROW_6136, status.description());
       } catch (Exception e) {
         throw new RuntimeException(e);
       }
@@ -92,7 +92,7 @@ public void arrow6136() {
    * Ensure that a client can send metadata to the server.
    */
   @Test
-  @Ignore
+  @Disabled
   public void uploadMetadataAsync() {
     final Schema schema = new Schema(Collections.singletonList(Field.nullable("a", new ArrowType.Int(32, true))));
     test((allocator, client) -> {
@@ -104,8 +104,8 @@ public void uploadMetadataAsync() {
 
           @Override
           public void onNext(PutResult val) {
-            Assert.assertNotNull(val);
-            Assert.assertEquals(counter, val.getApplicationMetadata().getByte(0));
+            Assertions.assertNotNull(val);
+            Assertions.assertEquals(counter, val.getApplicationMetadata().getByte(0));
             counter++;
           }
         };
@@ -134,7 +134,7 @@ public void onNext(PutResult val) {
    * Ensure that a client can send metadata to the server. Uses the synchronous API.
    */
   @Test
-  @Ignore
+  @Disabled
   public void uploadMetadataSync() {
     final Schema schema = new Schema(Collections.singletonList(Field.nullable("a", new ArrowType.Int(32, true))));
     test((allocator, client) -> {
@@ -153,8 +153,8 @@ public void uploadMetadataSync() {
           root.setRowCount(1);
           writer.putNext(metadata);
           try (final PutResult message = listener.poll(5000, TimeUnit.SECONDS)) {
-            Assert.assertNotNull(message);
-            Assert.assertEquals(i, message.getApplicationMetadata().getByte(0));
+            Assertions.assertNotNull(message);
+            Assertions.assertEquals(i, message.getApplicationMetadata().getByte(0));
           } catch (InterruptedException | ExecutionException e) {
             throw new RuntimeException(e);
           }
@@ -170,7 +170,7 @@ public void uploadMetadataSync() {
    * Make sure that a {@link SyncPutListener} properly reclaims memory if ignored.
    */
   @Test
-  @Ignore
+  @Disabled
   public void syncMemoryReclaimed() {
     final Schema schema = new Schema(Collections.singletonList(Field.nullable("a", new ArrowType.Int(32, true))));
     test((allocator, client) -> {
@@ -216,10 +216,10 @@ public void testMetadataEndianness() throws Exception {
         final FlightClient.ClientStreamListener writer = client.startPut(descriptor, root, reader);
         writer.completed();
         try (final PutResult metadata = reader.read()) {
-          Assert.assertEquals(16, metadata.getApplicationMetadata().readableBytes());
+          Assertions.assertEquals(16, metadata.getApplicationMetadata().readableBytes());
           byte[] bytes = new byte[16];
           metadata.getApplicationMetadata().readBytes(bytes);
-          Assert.assertArrayEquals(EndianFlightProducer.EXPECTED_BYTES, bytes);
+          Assertions.assertArrayEquals(EndianFlightProducer.EXPECTED_BYTES, bytes);
         }
         writer.getResult();
       }
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestAuth.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestAuth.java
index 6f0ec9f0255..0da49c906fc 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestAuth.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestAuth.java
@@ -24,56 +24,61 @@
 import org.apache.arrow.flight.auth.ServerAuthHandler;
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.RootAllocator;
-import org.junit.Test;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Test;
 
 public class TestAuth {
 
   /** An auth handler that does not send messages should not block the server forever. */
-  @Test(expected = RuntimeException.class)
+  @Test
   public void noMessages() throws Exception {
-    try (final BufferAllocator allocator = new RootAllocator(Integer.MAX_VALUE);
-        final FlightServer s = FlightTestUtil
-            .getStartedServer(
-                location -> FlightServer.builder(allocator, location, new NoOpFlightProducer()).authHandler(
-                    new OneshotAuthHandler()).build());
-        final FlightClient client = FlightClient.builder(allocator, s.getLocation()).build()) {
-      client.authenticate(new ClientAuthHandler() {
-        @Override
-        public void authenticate(ClientAuthSender outgoing, Iterator<byte[]> incoming) {
-        }
+    Assertions.assertThrows(RuntimeException.class, () -> {
+      try (final BufferAllocator allocator = new RootAllocator(Integer.MAX_VALUE);
+           final FlightServer s = FlightTestUtil
+               .getStartedServer(
+                   location -> FlightServer.builder(allocator, location, new NoOpFlightProducer()).authHandler(
+                       new OneshotAuthHandler()).build());
+           final FlightClient client = FlightClient.builder(allocator, s.getLocation()).build()) {
+        client.authenticate(new ClientAuthHandler() {
+          @Override
+          public void authenticate(ClientAuthSender outgoing, Iterator<byte[]> incoming) {
+          }
 
-        @Override
-        public byte[] getCallToken() {
-          return new byte[0];
-        }
-      });
-    }
+          @Override
+          public byte[] getCallToken() {
+            return new byte[0];
+          }
+        });
+      }
+    });
   }
 
   /** An auth handler that sends an error should not block the server forever. */
-  @Test(expected = RuntimeException.class)
+  @Test
   public void clientError() throws Exception {
-    try (final BufferAllocator allocator = new RootAllocator(Integer.MAX_VALUE);
-        final FlightServer s = FlightTestUtil
-            .getStartedServer(
-                location -> FlightServer.builder(allocator, location, new NoOpFlightProducer()).authHandler(
-                    new OneshotAuthHandler()).build());
-        final FlightClient client = FlightClient.builder(allocator, s.getLocation()).build()) {
-      client.authenticate(new ClientAuthHandler() {
-        @Override
-        public void authenticate(ClientAuthSender outgoing, Iterator<byte[]> incoming) {
-          outgoing.send(new byte[0]);
-          // Ensure the server-side runs
-          incoming.next();
-          outgoing.onError(new RuntimeException("test"));
-        }
+    Assertions.assertThrows(RuntimeException.class, () -> {
+      try (final BufferAllocator allocator = new RootAllocator(Integer.MAX_VALUE);
+           final FlightServer s = FlightTestUtil
+               .getStartedServer(
+                   location -> FlightServer.builder(allocator, location, new NoOpFlightProducer()).authHandler(
+                       new OneshotAuthHandler()).build());
+           final FlightClient client = FlightClient.builder(allocator, s.getLocation()).build()) {
+        client.authenticate(new ClientAuthHandler() {
+          @Override
+          public void authenticate(ClientAuthSender outgoing, Iterator<byte[]> incoming) {
+            outgoing.send(new byte[0]);
+            // Ensure the server-side runs
+            incoming.next();
+            outgoing.onError(new RuntimeException("test"));
+          }
 
-        @Override
-        public byte[] getCallToken() {
-          return new byte[0];
-        }
-      });
-    }
+          @Override
+          public byte[] getCallToken() {
+            return new byte[0];
+          }
+        });
+      }
+    });
   }
 
   private static class OneshotAuthHandler implements ServerAuthHandler {
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestBackPressure.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestBackPressure.java
index 1a71c363e17..ae691f3ef90 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestBackPressure.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestBackPressure.java
@@ -30,9 +30,9 @@
 import org.apache.arrow.vector.types.Types.MinorType;
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.Schema;
-import org.junit.Assert;
-import org.junit.Ignore;
-import org.junit.Test;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Disabled;
+import org.junit.jupiter.api.Test;
 
 import com.google.common.collect.ImmutableList;
 
@@ -43,7 +43,7 @@ public class TestBackPressure {
   /**
    * Make sure that failing to consume one stream doesn't block other streams.
    */
-  @Ignore
+  @Disabled
   @Test
   public void ensureIndependentSteams() throws Exception {
     ensureIndependentSteams((b) -> (location -> new PerformanceTestServer(b, location)));
@@ -52,7 +52,7 @@ public void ensureIndependentSteams() throws Exception {
   /**
    * Make sure that failing to consume one stream doesn't block other streams.
    */
-  @Ignore
+  @Disabled
   @Test
   public void ensureIndependentSteamsWithCallbacks() throws Exception {
     ensureIndependentSteams((b) -> (location -> new PerformanceTestServer(b, location,
@@ -62,7 +62,7 @@ public void ensureIndependentSteamsWithCallbacks() throws Exception {
   /**
    * Test to make sure stream doesn't go faster than the consumer is consuming.
    */
-  @Ignore
+  @Disabled
   @Test
   public void ensureWaitUntilProceed() throws Exception {
     ensureWaitUntilProceed(new PollingBackpressureStrategy(), false);
@@ -72,7 +72,7 @@ public void ensureWaitUntilProceed() throws Exception {
    * Test to make sure stream doesn't go faster than the consumer is consuming using a callback-based
    * backpressure strategy.
    */
-  @Ignore
+  @Disabled
   @Test
   public void ensureWaitUntilProceedWithCallbacks() throws Exception {
     ensureWaitUntilProceed(new RecordingCallbackBackpressureStrategy(), true);
@@ -177,9 +177,14 @@ public void getStream(CallContext context, Ticket ticket, ServerStreamListener l
           root.clear();
         }
         long expected = wait - epsilon;
-        Assert.assertTrue(
-            String.format("Expected a sleep of at least %dms but only slept for %d", expected,
-                bpStrategy.getSleepTime()), bpStrategy.getSleepTime() > expected);
+        Assertions.assertTrue(
+            bpStrategy.getSleepTime() > expected,
+            String.format(
+                "Expected a sleep of at least %dms but only slept for %d",
+                expected,
+                bpStrategy.getSleepTime()
+            )
+        );
 
       }
     }
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestBasicOperation.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestBasicOperation.java
index e29cd07ced5..0a1d7f8a3f8 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestBasicOperation.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestBasicOperation.java
@@ -50,8 +50,8 @@
 import org.apache.arrow.vector.types.pojo.ArrowType;
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.Schema;
-import org.junit.Assert;
-import org.junit.Test;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Test;
 
 import com.google.common.base.Charsets;
 import com.google.protobuf.ByteString;
@@ -65,8 +65,8 @@ public class TestBasicOperation {
 
   @Test
   public void fastPathDefaults() {
-    Assert.assertTrue(ArrowMessage.ENABLE_ZERO_COPY_READ);
-    Assert.assertFalse(ArrowMessage.ENABLE_ZERO_COPY_WRITE);
+    Assertions.assertTrue(ArrowMessage.ENABLE_ZERO_COPY_READ);
+    Assertions.assertFalse(ArrowMessage.ENABLE_ZERO_COPY_WRITE);
   }
 
   /**
@@ -75,7 +75,7 @@ public void fastPathDefaults() {
   @Test
   public void unknownScheme() throws URISyntaxException {
     final Location location = new Location("s3://unknown");
-    Assert.assertEquals("s3", location.getUri().getScheme());
+    Assertions.assertEquals("s3", location.getUri().getScheme());
   }
 
   @Test
@@ -83,7 +83,7 @@ public void unknownSchemeRemote() throws Exception {
     test(c -> {
       try {
         final FlightInfo info = c.getInfo(FlightDescriptor.path("test"));
-        Assert.assertEquals(new URI("https://example.com"), info.getEndpoints().get(0).getLocations().get(0).getUri());
+        Assertions.assertEquals(new URI("https://example.com"), info.getEndpoints().get(0).getLocations().get(0).getUri());
       } catch (URISyntaxException e) {
         throw new RuntimeException(e);
       }
@@ -93,7 +93,7 @@ public void unknownSchemeRemote() throws Exception {
   @Test
   public void roundTripTicket() throws Exception {
     final Ticket ticket = new Ticket(new byte[]{0, 1, 2, 3, 4, 5});
-    Assert.assertEquals(ticket, Ticket.deserialize(ticket.serialize()));
+    Assertions.assertEquals(ticket, Ticket.deserialize(ticket.serialize()));
   }
 
   @Test
@@ -116,17 +116,17 @@ public void roundTripInfo() throws Exception {
                 Location.forGrpcInsecure("localhost", 50051))
         ), 200, 500);
 
-    Assert.assertEquals(info1, FlightInfo.deserialize(info1.serialize()));
-    Assert.assertEquals(info2, FlightInfo.deserialize(info2.serialize()));
-    Assert.assertEquals(info3, FlightInfo.deserialize(info3.serialize()));
+    Assertions.assertEquals(info1, FlightInfo.deserialize(info1.serialize()));
+    Assertions.assertEquals(info2, FlightInfo.deserialize(info2.serialize()));
+    Assertions.assertEquals(info3, FlightInfo.deserialize(info3.serialize()));
   }
 
   @Test
   public void roundTripDescriptor() throws Exception {
     final FlightDescriptor cmd = FlightDescriptor.command("test command".getBytes(StandardCharsets.UTF_8));
-    Assert.assertEquals(cmd, FlightDescriptor.deserialize(cmd.serialize()));
+    Assertions.assertEquals(cmd, FlightDescriptor.deserialize(cmd.serialize()));
     final FlightDescriptor path = FlightDescriptor.path("foo", "bar", "test.arrow");
-    Assert.assertEquals(path, FlightDescriptor.deserialize(path.serialize()));
+    Assertions.assertEquals(path, FlightDescriptor.deserialize(path.serialize()));
   }
 
   @Test
@@ -136,7 +136,7 @@ public void getDescriptors() throws Exception {
       for (FlightInfo i : c.listFlights(Criteria.ALL)) {
         count += 1;
       }
-      Assert.assertEquals(1, count);
+      Assertions.assertEquals(1, count);
     });
   }
 
@@ -147,7 +147,7 @@ public void getDescriptorsWithCriteria() throws Exception {
       for (FlightInfo i : c.listFlights(new Criteria(new byte[]{1}))) {
         count += 1;
       }
-      Assert.assertEquals(0, count);
+      Assertions.assertEquals(0, count);
     });
   }
 
@@ -180,21 +180,21 @@ public void doAction() throws Exception {
     test(c -> {
       Iterator<Result> stream = c.doAction(new Action("hello"));
 
-      Assert.assertTrue(stream.hasNext());
+      Assertions.assertTrue(stream.hasNext());
       Result r = stream.next();
-      Assert.assertArrayEquals("world".getBytes(Charsets.UTF_8), r.getBody());
+      Assertions.assertArrayEquals("world".getBytes(Charsets.UTF_8), r.getBody());
     });
     test(c -> {
       Iterator<Result> stream = c.doAction(new Action("hellooo"));
 
-      Assert.assertTrue(stream.hasNext());
+      Assertions.assertTrue(stream.hasNext());
       Result r = stream.next();
-      Assert.assertArrayEquals("world".getBytes(Charsets.UTF_8), r.getBody());
+      Assertions.assertArrayEquals("world".getBytes(Charsets.UTF_8), r.getBody());
 
-      Assert.assertTrue(stream.hasNext());
+      Assertions.assertTrue(stream.hasNext());
       r = stream.next();
-      Assert.assertArrayEquals("!".getBytes(Charsets.UTF_8), r.getBody());
-      Assert.assertFalse(stream.hasNext());
+      Assertions.assertArrayEquals("!".getBytes(Charsets.UTF_8), r.getBody());
+      Assertions.assertFalse(stream.hasNext());
     });
   }
 
@@ -240,7 +240,7 @@ public void putStream() throws Exception {
   public void propagateErrors() throws Exception {
     test(client -> {
       FlightTestUtil.assertCode(FlightStatusCode.UNIMPLEMENTED, () -> {
-        client.doAction(new Action("invalid-action")).forEachRemaining(action -> Assert.fail());
+        client.doAction(new Action("invalid-action")).forEachRemaining(action -> Assertions.fail());
       });
     });
   }
@@ -254,7 +254,7 @@ public void getStream() throws Exception {
         int value = 0;
         while (stream.next()) {
           for (int i = 0; i < root.getRowCount(); i++) {
-            Assert.assertEquals(value, iv.get(i));
+            Assertions.assertEquals(value, iv.get(i));
             value++;
           }
         }
@@ -269,12 +269,12 @@ public void getStream() throws Exception {
   public void getStreamLargeBatch() throws Exception {
     test(c -> {
       try (final FlightStream stream = c.getStream(new Ticket(Producer.TICKET_LARGE_BATCH))) {
-        Assert.assertEquals(128, stream.getRoot().getFieldVectors().size());
-        Assert.assertTrue(stream.next());
-        Assert.assertEquals(65536, stream.getRoot().getRowCount());
-        Assert.assertTrue(stream.next());
-        Assert.assertEquals(65536, stream.getRoot().getRowCount());
-        Assert.assertFalse(stream.next());
+        Assertions.assertEquals(128, stream.getRoot().getFieldVectors().size());
+        Assertions.assertTrue(stream.next());
+        Assertions.assertEquals(65536, stream.getRoot().getRowCount());
+        Assertions.assertTrue(stream.next());
+        Assertions.assertEquals(65536, stream.getRoot().getRowCount());
+        Assertions.assertFalse(stream.next());
       } catch (Exception e) {
         throw new RuntimeException(e);
       }
@@ -362,28 +362,28 @@ public void testProtobufRecordBatchCompatibility() throws Exception {
       final MethodDescriptor.Marshaller<ArrowMessage> marshaller = ArrowMessage.createMarshaller(allocator);
       try (final ArrowMessage message = new ArrowMessage(
               unloader.getRecordBatch(), /* appMetadata */ null, /* tryZeroCopy */ false, IpcOption.DEFAULT)) {
-        Assert.assertEquals(ArrowMessage.HeaderType.RECORD_BATCH, message.getMessageType());
+        Assertions.assertEquals(ArrowMessage.HeaderType.RECORD_BATCH, message.getMessageType());
         // Should have at least one empty body buffer (there may be multiple for e.g. data and validity)
         Iterator<ArrowBuf> iterator = message.getBufs().iterator();
-        Assert.assertTrue(iterator.hasNext());
+        Assertions.assertTrue(iterator.hasNext());
         while (iterator.hasNext()) {
-          Assert.assertEquals(0, iterator.next().capacity());
+          Assertions.assertEquals(0, iterator.next().capacity());
         }
         final Flight.FlightData protobufData = arrowMessageToProtobuf(marshaller, message)
             .toBuilder()
             .clearDataBody()
             .build();
-        Assert.assertEquals(0, protobufData.getDataBody().size());
+        Assertions.assertEquals(0, protobufData.getDataBody().size());
         ArrowMessage parsedMessage = marshaller.parse(new ByteArrayInputStream(protobufData.toByteArray()));
         // Should have an empty body buffer
         Iterator<ArrowBuf> parsedIterator = parsedMessage.getBufs().iterator();
-        Assert.assertTrue(parsedIterator.hasNext());
-        Assert.assertEquals(0, parsedIterator.next().capacity());
+        Assertions.assertTrue(parsedIterator.hasNext());
+        Assertions.assertEquals(0, parsedIterator.next().capacity());
         // Should have only one (the parser synthesizes exactly one); in the case of empty buffers, this is equivalent
-        Assert.assertFalse(parsedIterator.hasNext());
+        Assertions.assertFalse(parsedIterator.hasNext());
         // Should not throw
         final ArrowRecordBatch rb = parsedMessage.asRecordBatch();
-        Assert.assertEquals(rb.computeBodyLength(), 0);
+        Assertions.assertEquals(rb.computeBodyLength(), 0);
       }
     }
   }
@@ -396,17 +396,17 @@ public void testProtobufSchemaCompatibility() throws Exception {
       final MethodDescriptor.Marshaller<ArrowMessage> marshaller = ArrowMessage.createMarshaller(allocator);
       Flight.FlightDescriptor descriptor = FlightDescriptor.command(new byte[0]).toProtocol();
       try (final ArrowMessage message = new ArrowMessage(descriptor, schema, IpcOption.DEFAULT)) {
-        Assert.assertEquals(ArrowMessage.HeaderType.SCHEMA, message.getMessageType());
+        Assertions.assertEquals(ArrowMessage.HeaderType.SCHEMA, message.getMessageType());
         // Should have no body buffers
-        Assert.assertFalse(message.getBufs().iterator().hasNext());
+        Assertions.assertFalse(message.getBufs().iterator().hasNext());
         final Flight.FlightData protobufData = arrowMessageToProtobuf(marshaller, message)
             .toBuilder()
             .setDataBody(ByteString.EMPTY)
             .build();
-        Assert.assertEquals(0, protobufData.getDataBody().size());
+        Assertions.assertEquals(0, protobufData.getDataBody().size());
         final ArrowMessage parsedMessage = marshaller.parse(new ByteArrayInputStream(protobufData.toByteArray()));
         // Should have no body buffers
-        Assert.assertFalse(parsedMessage.getBufs().iterator().hasNext());
+        Assertions.assertFalse(parsedMessage.getBufs().iterator().hasNext());
         // Should not throw
         parsedMessage.asSchema();
       }
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestCallOptions.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestCallOptions.java
index d739189e080..adfa44ef9c8 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestCallOptions.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestCallOptions.java
@@ -26,16 +26,16 @@
 
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.RootAllocator;
-import org.junit.Assert;
-import org.junit.Ignore;
-import org.junit.Test;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Disabled;
+import org.junit.jupiter.api.Test;
 
 import io.grpc.Metadata;
 
 public class TestCallOptions {
 
   @Test
-  @Ignore
+  @Disabled
   public void timeoutFires() {
     // Ignored due to CI flakiness
     test((client) -> {
@@ -43,26 +43,26 @@ public void timeoutFires() {
       Iterator<Result> results = client.doAction(new Action("hang"), CallOptions.timeout(1, TimeUnit.SECONDS));
       try {
         results.next();
-        Assert.fail("Call should have failed");
+        Assertions.fail("Call should have failed");
       } catch (RuntimeException e) {
-        Assert.assertTrue(e.getMessage(), e.getMessage().contains("deadline exceeded"));
+        Assertions.assertTrue(e.getMessage().contains("deadline exceeded"), e.getMessage());
       }
       Instant end = Instant.now();
-      Assert.assertTrue("Call took over 1500 ms despite timeout", Duration.between(start, end).toMillis() < 1500);
+      Assertions.assertTrue(Duration.between(start, end).toMillis() < 1500, "Call took over 1500 ms despite timeout");
     });
   }
 
   @Test
-  @Ignore
+  @Disabled
   public void underTimeout() {
     // Ignored due to CI flakiness
     test((client) -> {
       Instant start = Instant.now();
       // This shouldn't fail and it should complete within the timeout
       Iterator<Result> results = client.doAction(new Action("fast"), CallOptions.timeout(2, TimeUnit.SECONDS));
-      Assert.assertArrayEquals(new byte[]{42, 42}, results.next().getBody());
+      Assertions.assertArrayEquals(new byte[]{42, 42}, results.next().getBody());
       Instant end = Instant.now();
-      Assert.assertTrue("Call took over 2500 ms despite timeout", Duration.between(start, end).toMillis() < 2500);
+      Assertions.assertTrue(Duration.between(start, end).toMillis() < 2500, "Call took over 2500 ms despite timeout");
     });
   }
 
@@ -104,13 +104,13 @@ private void testHeaders(CallHeaders headers) {
         FlightServer s =
             FlightTestUtil.getStartedServer((location) -> FlightServer.builder(a, location, producer).build());
         FlightClient client = FlightClient.builder(a, s.getLocation()).build()) {
-      Assert.assertFalse(client.doAction(new Action(""), new HeaderCallOption(headers)).hasNext());
+      Assertions.assertFalse(client.doAction(new Action(""), new HeaderCallOption(headers)).hasNext());
       final CallHeaders incomingHeaders = producer.headers();
       for (String key : headers.keys()) {
         if (key.endsWith(Metadata.BINARY_HEADER_SUFFIX)) {
-          Assert.assertArrayEquals(headers.getByte(key), incomingHeaders.getByte(key));
+          Assertions.assertArrayEquals(headers.getByte(key), incomingHeaders.getByte(key));
         } else {
-          Assert.assertEquals(headers.get(key), incomingHeaders.get(key));
+          Assertions.assertEquals(headers.get(key), incomingHeaders.get(key));
         }
       }
     } catch (InterruptedException | IOException e) {
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestClientMiddleware.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestClientMiddleware.java
index f150a294aa4..a191a597f41 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestClientMiddleware.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestClientMiddleware.java
@@ -28,15 +28,12 @@
 
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.RootAllocator;
-import org.junit.Assert;
-import org.junit.Test;
-import org.junit.runner.RunWith;
-import org.junit.runners.JUnit4;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Test;
 
 /**
  * A basic test of client middleware using a simplified OpenTracing-like example.
  */
-@RunWith(JUnit4.class)
 public class TestClientMiddleware {
 
   /**
@@ -65,9 +62,9 @@ public void middleware_propagateHeader() {
           FlightTestUtil.assertCode(FlightStatusCode.UNIMPLEMENTED, () -> client.listActions().forEach(actionType -> {
           }));
         });
-    Assert.assertEquals(context.outgoingSpanId, context.incomingSpanId);
-    Assert.assertNotNull(context.finalStatus);
-    Assert.assertEquals(FlightStatusCode.UNIMPLEMENTED, context.finalStatus.code());
+    Assertions.assertEquals(context.outgoingSpanId, context.incomingSpanId);
+    Assertions.assertNotNull(context.finalStatus);
+    Assertions.assertEquals(FlightStatusCode.UNIMPLEMENTED, context.finalStatus.code());
   }
 
   /** Ensure both server and client can send and receive multi-valued headers (both binary and text values). */
@@ -87,18 +84,20 @@ public void testMultiValuedHeaders() {
     for (final Map.Entry<String, List<byte[]>> entry : EXPECTED_BINARY_HEADERS.entrySet()) {
       // Compare header values entry-by-entry because byte arrays don't compare via equals
       final List<byte[]> receivedValues = clientFactory.lastBinaryHeaders.get(entry.getKey());
-      Assert.assertNotNull("Missing for header: " + entry.getKey(), receivedValues);
-      Assert.assertEquals(
-          "Missing or wrong value for header: " + entry.getKey(),
-          entry.getValue().size(), receivedValues.size());
+      Assertions.assertNotNull(receivedValues, "Missing for header: " + entry.getKey());
+      Assertions.assertEquals(
+          entry.getValue().size(),
+          receivedValues.size(), "Missing or wrong value for header: " + entry.getKey());
       for (int i = 0; i < entry.getValue().size(); i++) {
-        Assert.assertArrayEquals(entry.getValue().get(i), receivedValues.get(i));
+        Assertions.assertArrayEquals(entry.getValue().get(i), receivedValues.get(i));
       }
     }
     for (final Map.Entry<String, List<String>> entry : EXPECTED_TEXT_HEADERS.entrySet()) {
-      Assert.assertEquals(
-          "Missing or wrong value for header: " + entry.getKey(),
-          entry.getValue(), clientFactory.lastTextHeaders.get(entry.getKey()));
+      Assertions.assertEquals(
+          entry.getValue(),
+          clientFactory.lastTextHeaders.get(entry.getKey()),
+          "Missing or wrong value for header: " + entry.getKey()
+      );
     }
   }
 
@@ -329,11 +328,11 @@ public MultiHeaderClientMiddleware(MultiHeaderClientMiddlewareFactory factory) {
     public void onBeforeSendingHeaders(CallHeaders outgoingHeaders) {
       for (final Map.Entry<String, List<byte[]>> entry : EXPECTED_BINARY_HEADERS.entrySet()) {
         entry.getValue().forEach((value) -> outgoingHeaders.insert(entry.getKey(), value));
-        Assert.assertTrue(outgoingHeaders.containsKey(entry.getKey()));
+        Assertions.assertTrue(outgoingHeaders.containsKey(entry.getKey()));
       }
       for (final Map.Entry<String, List<String>> entry : EXPECTED_TEXT_HEADERS.entrySet()) {
         entry.getValue().forEach((value) -> outgoingHeaders.insert(entry.getKey(), value));
-        Assert.assertTrue(outgoingHeaders.containsKey(entry.getKey()));
+        Assertions.assertTrue(outgoingHeaders.containsKey(entry.getKey()));
       }
     }
 
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestDictionaryUtils.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestDictionaryUtils.java
index b5bf117c628..b3a716ab3ce 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestDictionaryUtils.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestDictionaryUtils.java
@@ -32,7 +32,7 @@
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.FieldType;
 import org.apache.arrow.vector.types.pojo.Schema;
-import org.junit.Test;
+import org.junit.jupiter.api.Test;
 
 import com.google.common.collect.ImmutableList;
 
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestDoExchange.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestDoExchange.java
index 6c9b560342b..c2f8e755969 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestDoExchange.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestDoExchange.java
@@ -17,12 +17,12 @@
 
 package org.apache.arrow.flight;
 
-import static org.junit.Assert.assertEquals;
-import static org.junit.Assert.assertFalse;
-import static org.junit.Assert.assertNotNull;
-import static org.junit.Assert.assertNull;
-import static org.junit.Assert.assertTrue;
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertFalse;
+import static org.junit.jupiter.api.Assertions.assertNotNull;
+import static org.junit.jupiter.api.Assertions.assertNull;
 import static org.junit.jupiter.api.Assertions.assertThrows;
+import static org.junit.jupiter.api.Assertions.assertTrue;
 
 import java.nio.charset.StandardCharsets;
 import java.util.Arrays;
@@ -43,10 +43,10 @@
 import org.apache.arrow.vector.types.pojo.ArrowType;
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.Schema;
-import org.junit.After;
-import org.junit.Before;
-import org.junit.Ignore;
-import org.junit.Test;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Disabled;
+import org.junit.jupiter.api.Test;
 
 public class TestDoExchange {
   static byte[] EXCHANGE_DO_GET = "do-get".getBytes(StandardCharsets.UTF_8);
@@ -60,7 +60,7 @@ public class TestDoExchange {
   private FlightServer server;
   private FlightClient client;
 
-  @Before
+  @BeforeEach
   public void setUp() throws Exception {
     allocator = new RootAllocator(Integer.MAX_VALUE);
     final Location serverLocation = Location.forGrpcInsecure(FlightTestUtil.LOCALHOST, 0);
@@ -70,7 +70,7 @@ public void setUp() throws Exception {
     client = FlightClient.builder(allocator, clientLocation).build();
   }
 
-  @After
+  @AfterEach
   public void tearDown() throws Exception {
     AutoCloseables.close(client, server, allocator);
   }
@@ -115,7 +115,7 @@ public void testDoExchangeDoGet() throws Exception {
       int value = 0;
       while (reader.next()) {
         for (int i = 0; i < root.getRowCount(); i++) {
-          assertFalse(String.format("Row %d should not be null", value), iv.isNull(i));
+          assertFalse(iv.isNull(i), String.format("Row %d should not be null", value));
           assertEquals(value, iv.get(i));
           value++;
         }
@@ -200,7 +200,7 @@ public void testDoExchangeEcho() throws Exception {
       stream.getWriter().completed();
       // The server will end its side of the call, so this shouldn't block or indicate that
       // there is more data.
-      assertFalse("We should not be waiting for any messages", reader.next());
+      assertFalse(reader.next(), "We should not be waiting for any messages");
     }
   }
 
@@ -233,7 +233,7 @@ public void testTransform() throws Exception {
       assertEquals(schema, reader.getSchema());
       final VectorSchemaRoot root = reader.getRoot();
       for (int batchIndex = 0; batchIndex < 10; batchIndex++) {
-        assertTrue("Didn't receive batch #" + batchIndex, reader.next());
+        assertTrue(reader.next(), "Didn't receive batch #" + batchIndex);
         assertEquals(batchIndex, root.getRowCount());
         for (final FieldVector rawVec : root.getFieldVectors()) {
           final IntVector vec = (IntVector) rawVec;
@@ -244,9 +244,9 @@ public void testTransform() throws Exception {
       }
 
       // The server also sends back a metadata-only message containing the message count
-      assertTrue("There should be one extra message", reader.next());
+      assertTrue(reader.next(), "There should be one extra message");
       assertEquals(10, reader.getLatestMetadata().getInt(0));
-      assertFalse("There should be no more data", reader.next());
+      assertFalse(reader.next(), "There should be no more data");
     }
   }
 
@@ -289,7 +289,7 @@ public void testTransformZeroCopy() throws Exception {
       assertEquals(schema, reader.getSchema());
       final VectorSchemaRoot root = reader.getRoot();
       for (int batchIndex = 0; batchIndex < 100; batchIndex++) {
-        assertTrue("Didn't receive batch #" + batchIndex, reader.next());
+        assertTrue(reader.next(), "Didn't receive batch #" + batchIndex);
         assertEquals(rowsPerBatch, root.getRowCount());
         for (final FieldVector rawVec : root.getFieldVectors()) {
           final IntVector vec = (IntVector) rawVec;
@@ -300,9 +300,9 @@ public void testTransformZeroCopy() throws Exception {
       }
 
       // The server also sends back a metadata-only message containing the message count
-      assertTrue("There should be one extra message", reader.next());
+      assertTrue(reader.next(), "There should be one extra message");
       assertEquals(100, reader.getLatestMetadata().getInt(0));
-      assertFalse("There should be no more data", reader.next());
+      assertFalse(reader.next(), "There should be no more data");
     }
   }
 
@@ -354,7 +354,7 @@ public void testServerCancelLeak() throws Exception {
 
   /** Have the client cancel without reading; ensure memory is not leaked. */
   @Test
-  @Ignore
+  @Disabled
   public void testClientCancel() throws Exception {
     try (final FlightClient.ExchangeReaderWriter stream =
              client.doExchange(FlightDescriptor.command(EXCHANGE_DO_GET))) {
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestErrorMetadata.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestErrorMetadata.java
index 2c62bc7fa68..1f1bbbe50fb 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestErrorMetadata.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestErrorMetadata.java
@@ -20,8 +20,8 @@
 import org.apache.arrow.flight.perf.impl.PerfOuterClass;
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.RootAllocator;
-import org.junit.Assert;
-import org.junit.Test;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Test;
 
 import com.google.protobuf.Any;
 import com.google.protobuf.InvalidProtocolBufferException;
@@ -58,21 +58,21 @@ public void testGrpcMetadata() throws Exception {
       });
       PerfOuterClass.Perf newPerf = null;
       ErrorFlightMetadata metadata = flightStatus.metadata();
-      Assert.assertNotNull(metadata);
-      Assert.assertEquals(2, metadata.keys().size());
-      Assert.assertTrue(metadata.containsKey("grpc-status-details-bin"));
+      Assertions.assertNotNull(metadata);
+      Assertions.assertEquals(2, metadata.keys().size());
+      Assertions.assertTrue(metadata.containsKey("grpc-status-details-bin"));
       Status status = marshaller.parseBytes(metadata.getByte("grpc-status-details-bin"));
       for (Any details : status.getDetailsList()) {
         if (details.is(PerfOuterClass.Perf.class)) {
           try {
             newPerf = details.unpack(PerfOuterClass.Perf.class);
           } catch (InvalidProtocolBufferException e) {
-            Assert.fail();
+            Assertions.fail();
           }
         }
       }
-      Assert.assertNotNull(newPerf);
-      Assert.assertEquals(perf, newPerf);
+      Assertions.assertNotNull(newPerf);
+      Assertions.assertEquals(perf, newPerf);
     }
   }
 
@@ -89,17 +89,17 @@ public void testFlightMetadata() throws Exception {
         stream.next();
       });
       ErrorFlightMetadata metadata = flightStatus.metadata();
-      Assert.assertNotNull(metadata);
-      Assert.assertEquals("foo", metadata.get("x-foo"));
-      Assert.assertArrayEquals(new byte[]{1}, metadata.getByte("x-bar-bin"));
+      Assertions.assertNotNull(metadata);
+      Assertions.assertEquals("foo", metadata.get("x-foo"));
+      Assertions.assertArrayEquals(new byte[]{1}, metadata.getByte("x-bar-bin"));
 
       flightStatus = FlightTestUtil.assertCode(FlightStatusCode.INVALID_ARGUMENT, () -> {
         client.getInfo(FlightDescriptor.command(new byte[0]));
       });
       metadata = flightStatus.metadata();
-      Assert.assertNotNull(metadata);
-      Assert.assertEquals("foo", metadata.get("x-foo"));
-      Assert.assertArrayEquals(new byte[]{1}, metadata.getByte("x-bar-bin"));
+      Assertions.assertNotNull(metadata);
+      Assertions.assertEquals("foo", metadata.get("x-foo"));
+      Assertions.assertArrayEquals(new byte[]{1}, metadata.getByte("x-bar-bin"));
     }
   }
 
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestFlightClient.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestFlightClient.java
index 30e351e941a..d6cc175b99d 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestFlightClient.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestFlightClient.java
@@ -40,10 +40,9 @@
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.FieldType;
 import org.apache.arrow.vector.types.pojo.Schema;
-import org.junit.Assert;
-import org.junit.Ignore;
-import org.junit.Test;
 import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Disabled;
+import org.junit.jupiter.api.Test;
 
 public class TestFlightClient {
   /**
@@ -63,7 +62,7 @@ public void independentShutdown() throws Exception {
         final ClientStreamListener listener = client1.startPut(FlightDescriptor.path("test"), root,
             new AsyncPutListener());
         try (final FlightClient client2 = FlightClient.builder(allocator, location).build()) {
-          client2.listActions().forEach(actionType -> Assert.assertNotNull(actionType.getType()));
+          client2.listActions().forEach(actionType -> Assertions.assertNotNull(actionType.getType()));
         }
         listener.completed();
         listener.getResult();
@@ -74,7 +73,7 @@ public void independentShutdown() throws Exception {
   /**
    * ARROW-5978: make sure that we can properly close a client/stream after requesting dictionaries.
    */
-  @Ignore // Unfortunately this test is flaky in CI.
+  @Disabled // Unfortunately this test is flaky in CI.
   @Test
   public void freeDictionaries() throws Exception {
     final Schema expectedSchema = new Schema(Collections
@@ -88,18 +87,18 @@ public void freeDictionaries() throws Exception {
       final Location location = Location.forGrpcInsecure(FlightTestUtil.LOCALHOST, server.getPort());
       try (final FlightClient client = FlightClient.builder(allocator, location).build()) {
         try (final FlightStream stream = client.getStream(new Ticket(new byte[0]))) {
-          Assert.assertTrue(stream.next());
-          Assert.assertNotNull(stream.getDictionaryProvider().lookup(1));
+          Assertions.assertTrue(stream.next());
+          Assertions.assertNotNull(stream.getDictionaryProvider().lookup(1));
           final VectorSchemaRoot root = stream.getRoot();
-          Assert.assertEquals(expectedSchema, root.getSchema());
-          Assert.assertEquals(6, root.getVector("encoded").getValueCount());
+          Assertions.assertEquals(expectedSchema, root.getSchema());
+          Assertions.assertEquals(6, root.getVector("encoded").getValueCount());
           try (final ValueVector decoded = DictionaryEncoder
               .decode(root.getVector("encoded"), stream.getDictionaryProvider().lookup(1))) {
-            Assert.assertFalse(decoded.isNull(1));
-            Assert.assertTrue(decoded instanceof VarCharVector);
-            Assert.assertArrayEquals("one".getBytes(StandardCharsets.UTF_8), ((VarCharVector) decoded).get(1));
+            Assertions.assertFalse(decoded.isNull(1));
+            Assertions.assertTrue(decoded instanceof VarCharVector);
+            Assertions.assertArrayEquals("one".getBytes(StandardCharsets.UTF_8), ((VarCharVector) decoded).get(1));
           }
-          Assert.assertFalse(stream.next());
+          Assertions.assertFalse(stream.next());
         }
         // Closing stream fails if it doesn't free dictionaries; closing dictionaries fails (refcount goes negative)
         // if reference isn't retained in ArrowMessage
@@ -110,7 +109,7 @@ public void freeDictionaries() throws Exception {
   /**
    * ARROW-5978: make sure that dictionary ownership can't be claimed twice.
    */
-  @Ignore // Unfortunately this test is flaky in CI.
+  @Disabled // Unfortunately this test is flaky in CI.
   @Test
   public void ownDictionaries() throws Exception {
     try (final BufferAllocator allocator = new RootAllocator(Integer.MAX_VALUE);
@@ -121,8 +120,8 @@ public void ownDictionaries() throws Exception {
       final Location location = Location.forGrpcInsecure(FlightTestUtil.LOCALHOST, server.getPort());
       try (final FlightClient client = FlightClient.builder(allocator, location).build()) {
         try (final FlightStream stream = client.getStream(new Ticket(new byte[0]))) {
-          Assert.assertTrue(stream.next());
-          Assert.assertFalse(stream.next());
+          Assertions.assertTrue(stream.next());
+          Assertions.assertFalse(stream.next());
           final DictionaryProvider provider = stream.takeDictionaryOwnership();
           Assertions.assertThrows(IllegalStateException.class, stream::takeDictionaryOwnership);
           Assertions.assertThrows(IllegalStateException.class, stream::getDictionaryProvider);
@@ -135,7 +134,7 @@ public void ownDictionaries() throws Exception {
   /**
    * ARROW-5978: make sure that dictionaries can be used after closing the stream.
    */
-  @Ignore // Unfortunately this test is flaky in CI.
+  @Disabled // Unfortunately this test is flaky in CI.
   @Test
   public void useDictionariesAfterClose() throws Exception {
     try (final BufferAllocator allocator = new RootAllocator(Integer.MAX_VALUE);
@@ -160,9 +159,9 @@ public void useDictionariesAfterClose() throws Exception {
         }
         try (final ValueVector decoded = DictionaryEncoder
             .decode(root.getVector("encoded"), provider.lookup(1))) {
-          Assert.assertFalse(decoded.isNull(1));
-          Assert.assertTrue(decoded instanceof VarCharVector);
-          Assert.assertArrayEquals("one".getBytes(StandardCharsets.UTF_8), ((VarCharVector) decoded).get(1));
+          Assertions.assertFalse(decoded.isNull(1));
+          Assertions.assertTrue(decoded instanceof VarCharVector);
+          Assertions.assertArrayEquals("one".getBytes(StandardCharsets.UTF_8), ((VarCharVector) decoded).get(1));
         }
         root.close();
         DictionaryUtils.closeDictionaries(root.getSchema(), provider);
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestFlightService.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestFlightService.java
index 65ef12a8acf..fb47a84164b 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestFlightService.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestFlightService.java
@@ -23,9 +23,9 @@
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.RootAllocator;
 import org.apache.arrow.util.AutoCloseables;
-import org.junit.After;
-import org.junit.Before;
-import org.junit.Test;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
 
 import io.grpc.stub.ServerCallStreamObserver;
 
@@ -33,12 +33,12 @@ public class TestFlightService {
 
   private BufferAllocator allocator;
 
-  @Before
+  @BeforeEach
   public void setup() {
     allocator = new RootAllocator(Long.MAX_VALUE);
   }
 
-  @After
+  @AfterEach
   public void cleanup() throws Exception {
     AutoCloseables.close(allocator);
   }
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestLargeMessage.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestLargeMessage.java
index 629b6f5ebd8..7c7011a8cd2 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestLargeMessage.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestLargeMessage.java
@@ -29,8 +29,8 @@
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.FieldType;
 import org.apache.arrow.vector.types.pojo.Schema;
-import org.junit.Assert;
-import org.junit.Test;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Test;
 
 public class TestLargeMessage {
   /**
@@ -51,7 +51,7 @@ public void getLargeMessage() throws Exception {
               int value = 0;
               final IntVector iv = (IntVector) root.getVector(field.getName());
               for (int i = 0; i < root.getRowCount(); i++) {
-                Assert.assertEquals(value, iv.get(i));
+                Assertions.assertEquals(value, iv.get(i));
                 value++;
               }
             }
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestLeak.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestLeak.java
index 6e28704997f..9c9da1249a3 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestLeak.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestLeak.java
@@ -29,7 +29,7 @@
 import org.apache.arrow.vector.types.pojo.ArrowType;
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.Schema;
-import org.junit.Test;
+import org.junit.jupiter.api.Test;
 
 /**
  * Tests for scenarios where Flight could leak memory.
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestMetadataVersion.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestMetadataVersion.java
index 83a694bf34e..d6efa4ff800 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestMetadataVersion.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestMetadataVersion.java
@@ -17,10 +17,10 @@
 
 package org.apache.arrow.flight;
 
-import static org.junit.Assert.assertEquals;
-import static org.junit.Assert.assertFalse;
-import static org.junit.Assert.assertTrue;
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertFalse;
 import static org.junit.jupiter.api.Assertions.assertThrows;
+import static org.junit.jupiter.api.Assertions.assertTrue;
 
 import java.nio.charset.StandardCharsets;
 import java.util.Arrays;
@@ -36,9 +36,9 @@
 import org.apache.arrow.vector.types.pojo.ArrowType;
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.Schema;
-import org.junit.AfterClass;
-import org.junit.BeforeClass;
-import org.junit.Test;
+import org.junit.jupiter.api.AfterAll;
+import org.junit.jupiter.api.BeforeAll;
+import org.junit.jupiter.api.Test;
 
 /**
  * Test clients/servers with different metadata versions.
@@ -50,7 +50,7 @@ public class TestMetadataVersion {
   private static IpcOption optionV5;
   private static Schema unionSchema;
 
-  @BeforeClass
+  @BeforeAll
   public static void setUpClass() {
     allocator = new RootAllocator(Integer.MAX_VALUE);
     schema = new Schema(Collections.singletonList(Field.nullable("foo", new ArrowType.Int(32, true))));
@@ -62,7 +62,7 @@ public static void setUpClass() {
     optionV5 = IpcOption.DEFAULT;
   }
 
-  @AfterClass
+  @AfterAll
   public static void tearDownClass() {
     allocator.close();
   }
@@ -94,7 +94,7 @@ public void testUnionCheck() throws Exception {
          final FlightClient client = connect(server);
          final FlightStream stream = client.getStream(new Ticket("union".getBytes(StandardCharsets.UTF_8)))) {
       final FlightRuntimeException err = assertThrows(FlightRuntimeException.class, stream::next);
-      assertTrue(err.getMessage(), err.getMessage().contains("Cannot write union with V4 metadata"));
+      assertTrue(err.getMessage().contains("Cannot write union with V4 metadata"), err.getMessage());
     }
 
     try (final FlightServer server = startServer(optionV4);
@@ -105,7 +105,7 @@ public void testUnionCheck() throws Exception {
       final FlightClient.ClientStreamListener listener = client.startPut(descriptor, reader);
       final IllegalArgumentException err = assertThrows(IllegalArgumentException.class,
           () -> listener.start(root, null, optionV4));
-      assertTrue(err.getMessage(), err.getMessage().contains("Cannot write union with V4 metadata"));
+      assertTrue(err.getMessage().contains("Cannot write union with V4 metadata"), err.getMessage());
     }
   }
 
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestServerMiddleware.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestServerMiddleware.java
index 1f3e35ca38d..79c5811c490 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestServerMiddleware.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestServerMiddleware.java
@@ -30,12 +30,9 @@
 import org.apache.arrow.memory.RootAllocator;
 import org.apache.arrow.vector.VectorSchemaRoot;
 import org.apache.arrow.vector.types.pojo.Schema;
-import org.junit.Assert;
-import org.junit.Test;
-import org.junit.runner.RunWith;
-import org.junit.runners.JUnit4;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Test;
 
-@RunWith(JUnit4.class)
 public class TestServerMiddleware {
 
   private static final RuntimeException EXPECTED_EXCEPTION = new RuntimeException("test");
@@ -56,9 +53,9 @@ public void doPutErrors() {
           }
         }, (recorder) -> {
           final CallStatus status = recorder.statusFuture.get();
-          Assert.assertNotNull(status);
-          Assert.assertNotNull(status.cause());
-          Assert.assertEquals(FlightStatusCode.INTERNAL, status.code());
+          Assertions.assertNotNull(status);
+          Assertions.assertNotNull(status.cause());
+          Assertions.assertEquals(FlightStatusCode.INTERNAL, status.code());
         });
     // Check the status after server shutdown (to make sure gRPC finishes pending calls on the server side)
   }
@@ -79,10 +76,10 @@ public void doPutCustomCode() {
           }
         }, (recorder) -> {
           final CallStatus status = recorder.statusFuture.get();
-          Assert.assertNotNull(status);
-          Assert.assertNull(status.cause());
-          Assert.assertEquals(FlightStatusCode.UNAVAILABLE, status.code());
-          Assert.assertEquals("description", status.description());
+          Assertions.assertNotNull(status);
+          Assertions.assertNull(status.cause());
+          Assertions.assertEquals(FlightStatusCode.UNAVAILABLE, status.code());
+          Assertions.assertEquals("description", status.description());
         });
   }
 
@@ -102,11 +99,11 @@ public void doPutUncaught() {
         }, (recorder) -> {
           final CallStatus status = recorder.statusFuture.get();
           final Throwable err = recorder.errFuture.get();
-          Assert.assertNotNull(status);
-          Assert.assertEquals(FlightStatusCode.OK, status.code());
-          Assert.assertNull(status.cause());
-          Assert.assertNotNull(err);
-          Assert.assertEquals(EXPECTED_EXCEPTION.getMessage(), err.getMessage());
+          Assertions.assertNotNull(status);
+          Assertions.assertEquals(FlightStatusCode.OK, status.code());
+          Assertions.assertNull(status.cause());
+          Assertions.assertNotNull(err);
+          Assertions.assertEquals(EXPECTED_EXCEPTION.getMessage(), err.getMessage());
         });
   }
 
@@ -117,11 +114,11 @@ public void listFlightsUncaught() {
         }), (recorder) -> {
           final CallStatus status = recorder.statusFuture.get();
           final Throwable err = recorder.errFuture.get();
-          Assert.assertNotNull(status);
-          Assert.assertEquals(FlightStatusCode.OK, status.code());
-          Assert.assertNull(status.cause());
-          Assert.assertNotNull(err);
-          Assert.assertEquals(EXPECTED_EXCEPTION.getMessage(), err.getMessage());
+          Assertions.assertNotNull(status);
+          Assertions.assertEquals(FlightStatusCode.OK, status.code());
+          Assertions.assertNull(status.cause());
+          Assertions.assertNotNull(err);
+          Assertions.assertEquals(EXPECTED_EXCEPTION.getMessage(), err.getMessage());
         });
   }
 
@@ -132,11 +129,11 @@ public void doActionUncaught() {
         }), (recorder) -> {
           final CallStatus status = recorder.statusFuture.get();
           final Throwable err = recorder.errFuture.get();
-          Assert.assertNotNull(status);
-          Assert.assertEquals(FlightStatusCode.OK, status.code());
-          Assert.assertNull(status.cause());
-          Assert.assertNotNull(err);
-          Assert.assertEquals(EXPECTED_EXCEPTION.getMessage(), err.getMessage());
+          Assertions.assertNotNull(status);
+          Assertions.assertEquals(FlightStatusCode.OK, status.code());
+          Assertions.assertNull(status.cause());
+          Assertions.assertNotNull(err);
+          Assertions.assertEquals(EXPECTED_EXCEPTION.getMessage(), err.getMessage());
         });
   }
 
@@ -147,11 +144,11 @@ public void listActionsUncaught() {
         }), (recorder) -> {
           final CallStatus status = recorder.statusFuture.get();
           final Throwable err = recorder.errFuture.get();
-          Assert.assertNotNull(status);
-          Assert.assertEquals(FlightStatusCode.OK, status.code());
-          Assert.assertNull(status.cause());
-          Assert.assertNotNull(err);
-          Assert.assertEquals(EXPECTED_EXCEPTION.getMessage(), err.getMessage());
+          Assertions.assertNotNull(status);
+          Assertions.assertEquals(FlightStatusCode.OK, status.code());
+          Assertions.assertNull(status.cause());
+          Assertions.assertNotNull(err);
+          Assertions.assertEquals(EXPECTED_EXCEPTION.getMessage(), err.getMessage());
         });
   }
 
@@ -162,10 +159,10 @@ public void getFlightInfoUncaught() {
           FlightTestUtil.assertCode(FlightStatusCode.INTERNAL, () -> client.getInfo(FlightDescriptor.path("test")));
         }, (recorder) -> {
           final CallStatus status = recorder.statusFuture.get();
-          Assert.assertNotNull(status);
-          Assert.assertEquals(FlightStatusCode.INTERNAL, status.code());
-          Assert.assertNotNull(status.cause());
-          Assert.assertEquals(EXPECTED_EXCEPTION.getMessage(), status.cause().getMessage());
+          Assertions.assertNotNull(status);
+          Assertions.assertEquals(FlightStatusCode.INTERNAL, status.code());
+          Assertions.assertNotNull(status.cause());
+          Assertions.assertEquals(EXPECTED_EXCEPTION.getMessage(), status.cause().getMessage());
         });
   }
 
@@ -177,16 +174,16 @@ public void doGetUncaught() {
             while (stream.next()) {
             }
           } catch (Exception e) {
-            Assert.fail(e.toString());
+            Assertions.fail(e.toString());
           }
         }, (recorder) -> {
           final CallStatus status = recorder.statusFuture.get();
           final Throwable err = recorder.errFuture.get();
-          Assert.assertNotNull(status);
-          Assert.assertEquals(FlightStatusCode.OK, status.code());
-          Assert.assertNull(status.cause());
-          Assert.assertNotNull(err);
-          Assert.assertEquals(EXPECTED_EXCEPTION.getMessage(), err.getMessage());
+          Assertions.assertNotNull(status);
+          Assertions.assertEquals(FlightStatusCode.OK, status.code());
+          Assertions.assertNull(status.cause());
+          Assertions.assertNotNull(err);
+          Assertions.assertEquals(EXPECTED_EXCEPTION.getMessage(), err.getMessage());
         });
   }
 
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestServerOptions.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestServerOptions.java
index 363ad443e48..03f11cec10f 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestServerOptions.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestServerOptions.java
@@ -17,8 +17,8 @@
 
 package org.apache.arrow.flight;
 
-import static org.junit.Assert.assertEquals;
-import static org.junit.Assert.assertNotNull;
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertNotNull;
 
 import java.io.File;
 import java.util.HashMap;
@@ -35,17 +35,14 @@
 import org.apache.arrow.memory.RootAllocator;
 import org.apache.arrow.vector.IntVector;
 import org.apache.arrow.vector.VectorSchemaRoot;
-import org.junit.Assert;
-import org.junit.Assume;
-import org.junit.Test;
-import org.junit.runner.RunWith;
-import org.junit.runners.JUnit4;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Assumptions;
+import org.junit.jupiter.api.Test;
 
 import io.grpc.MethodDescriptor;
 import io.grpc.ServerServiceDefinition;
 import io.grpc.netty.NettyServerBuilder;
 
-@RunWith(JUnit4.class)
 public class TestServerOptions {
 
   @Test
@@ -61,7 +58,7 @@ public void builderConsumer() throws Exception {
                 (location) -> FlightServer.builder(a, location, producer)
                     .transportHint("grpc.builderConsumer", consumer).build()
             )) {
-      Assert.assertTrue(consumerCalled.get());
+      Assertions.assertTrue(consumerCalled.get());
     }
   }
 
@@ -81,7 +78,7 @@ public void defaultExecutorClosed() throws Exception {
       assertNotNull(server.grpcExecutor);
       executor = server.grpcExecutor;
     }
-    Assert.assertTrue(executor.isShutdown());
+    Assertions.assertTrue(executor.isShutdown());
   }
 
   /**
@@ -99,9 +96,9 @@ public void suppliedExecutorNotClosed() throws Exception {
                       .executor(executor)
                       .build()
               )) {
-        Assert.assertNull(server.grpcExecutor);
+        Assertions.assertNull(server.grpcExecutor);
       }
-      Assert.assertFalse(executor.isShutdown());
+      Assertions.assertFalse(executor.isShutdown());
     } finally {
       executor.shutdown();
     }
@@ -109,12 +106,12 @@ public void suppliedExecutorNotClosed() throws Exception {
 
   @Test
   public void domainSocket() throws Exception {
-    Assume.assumeTrue("We have a native transport available", FlightTestUtil.isNativeTransportAvailable());
+    Assumptions.assumeTrue(FlightTestUtil.isNativeTransportAvailable(), "We have a native transport available");
     final File domainSocket = File.createTempFile("flight-unit-test-", ".sock");
-    Assert.assertTrue(domainSocket.delete());
+    Assertions.assertTrue(domainSocket.delete());
     // Domain socket paths have a platform-dependent limit. Set a conservative limit and skip the test if the temporary
     // file name is too long. (We do not assume a particular platform-dependent temporary directory path.)
-    Assume.assumeTrue("The domain socket path is not too long", domainSocket.getAbsolutePath().length() < 100);
+    Assumptions.assumeTrue(domainSocket.getAbsolutePath().length() < 100, "The domain socket path is not too long");
     final Location location = Location.forGrpcDomainSocket(domainSocket.getAbsolutePath());
     try (
         BufferAllocator a = new RootAllocator(Long.MAX_VALUE);
@@ -130,7 +127,7 @@ public void domainSocket() throws Exception {
           int value = 0;
           while (stream.next()) {
             for (int i = 0; i < root.getRowCount(); i++) {
-              Assert.assertEquals(value, iv.get(i));
+              Assertions.assertEquals(value, iv.get(i));
               value++;
             }
           }
@@ -161,10 +158,10 @@ public void checkReflectionMetadata() {
 
       for (final MethodDescriptor<?, ?> descriptor : FlightServiceGrpc.getServiceDescriptor().getMethods()) {
         final String methodName = descriptor.getFullMethodName();
-        Assert.assertTrue("Method is missing from ServerServiceDefinition: " + methodName,
-            definedMethods.containsKey(methodName));
-        Assert.assertTrue("Method is missing from ServiceDescriptor: " + methodName,
-            definedMethods.containsKey(methodName));
+        Assertions.assertTrue(definedMethods.containsKey(methodName),
+            "Method is missing from ServerServiceDefinition: " + methodName);
+        Assertions.assertTrue(definedMethods.containsKey(methodName),
+            "Method is missing from ServiceDescriptor: " + methodName);
 
         assertEquals(descriptor.getSchemaDescriptor(), definedMethods.get(methodName).getSchemaDescriptor());
         assertEquals(descriptor.getSchemaDescriptor(), serviceMethods.get(methodName).getSchemaDescriptor());
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestTls.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestTls.java
index c5cd871e2be..a552f635b9c 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestTls.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/TestTls.java
@@ -27,8 +27,8 @@
 import org.apache.arrow.flight.FlightClient.Builder;
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.RootAllocator;
-import org.junit.Assert;
-import org.junit.Test;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Test;
 
 /**
  * Tests for TLS in Flight.
@@ -45,8 +45,8 @@ public void connectTls() {
           final FlightClient client = builder.trustedCertificates(roots).build()) {
         final Iterator<Result> responses = client.doAction(new Action("hello-world"));
         final byte[] response = responses.next().getBody();
-        Assert.assertEquals("Hello, world!", new String(response, StandardCharsets.UTF_8));
-        Assert.assertFalse(responses.hasNext());
+        Assertions.assertEquals("Hello, world!", new String(response, StandardCharsets.UTF_8));
+        Assertions.assertFalse(responses.hasNext());
       } catch (InterruptedException | IOException e) {
         throw new RuntimeException(e);
       }
@@ -94,8 +94,8 @@ public void connectTlsDisableServerVerification() {
       try (final FlightClient client = builder.verifyServer(false).build()) {
         final Iterator<Result> responses = client.doAction(new Action("hello-world"));
         final byte[] response = responses.next().getBody();
-        Assert.assertEquals("Hello, world!", new String(response, StandardCharsets.UTF_8));
-        Assert.assertFalse(responses.hasNext());
+        Assertions.assertEquals("Hello, world!", new String(response, StandardCharsets.UTF_8));
+        Assertions.assertFalse(responses.hasNext());
       } catch (InterruptedException e) {
         throw new RuntimeException(e);
       }
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/auth/TestBasicAuth.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/auth/TestBasicAuth.java
index c18f5709b54..6ec507b5906 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/auth/TestBasicAuth.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/auth/TestBasicAuth.java
@@ -38,11 +38,11 @@
 import org.apache.arrow.vector.types.Types;
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.Schema;
-import org.junit.After;
-import org.junit.Assert;
-import org.junit.Before;
-import org.junit.Ignore;
-import org.junit.Test;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Disabled;
+import org.junit.jupiter.api.Test;
 
 import com.google.common.collect.ImmutableList;
 
@@ -59,18 +59,18 @@ public class TestBasicAuth {
   @Test
   public void validAuth() {
     client.authenticateBasic(USERNAME, PASSWORD);
-    Assert.assertTrue(ImmutableList.copyOf(client.listFlights(Criteria.ALL)).size() == 0);
+    Assertions.assertTrue(ImmutableList.copyOf(client.listFlights(Criteria.ALL)).size() == 0);
   }
 
   // ARROW-7722: this test occasionally leaks memory
-  @Ignore
+  @Disabled
   @Test
   public void asyncCall() throws Exception {
     client.authenticateBasic(USERNAME, PASSWORD);
     client.listFlights(Criteria.ALL);
     try (final FlightStream s = client.getStream(new Ticket(new byte[1]))) {
       while (s.next()) {
-        Assert.assertEquals(4095, s.getRoot().getRowCount());
+        Assertions.assertEquals(4095, s.getRoot().getRowCount());
       }
     }
   }
@@ -82,18 +82,18 @@ public void invalidAuth() {
     });
 
     FlightTestUtil.assertCode(FlightStatusCode.UNAUTHENTICATED, () -> {
-      client.listFlights(Criteria.ALL).forEach(action -> Assert.fail());
+      client.listFlights(Criteria.ALL).forEach(action -> Assertions.fail());
     });
   }
 
   @Test
   public void didntAuth() {
     FlightTestUtil.assertCode(FlightStatusCode.UNAUTHENTICATED, () -> {
-      client.listFlights(Criteria.ALL).forEach(action -> Assert.fail());
+      client.listFlights(Criteria.ALL).forEach(action -> Assertions.fail());
     });
   }
 
-  @Before
+  @BeforeEach
   public void setup() throws IOException {
     allocator = new RootAllocator(Long.MAX_VALUE);
     final BasicServerAuthHandler.BasicAuthValidator validator = new BasicServerAuthHandler.BasicAuthValidator() {
@@ -150,7 +150,7 @@ public void getStream(CallContext context, Ticket ticket, ServerStreamListener l
     client = FlightClient.builder(allocator, server.getLocation()).build();
   }
 
-  @After
+  @AfterEach
   public void shutdown() throws Exception {
     AutoCloseables.close(client, server, allocator);
   }
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/auth2/TestBasicAuth2.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/auth2/TestBasicAuth2.java
index 9bec32f1b72..310971ba958 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/auth2/TestBasicAuth2.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/auth2/TestBasicAuth2.java
@@ -38,11 +38,11 @@
 import org.apache.arrow.vector.types.Types;
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.Schema;
-import org.junit.After;
-import org.junit.Assert;
-import org.junit.Before;
-import org.junit.Ignore;
-import org.junit.Test;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Disabled;
+import org.junit.jupiter.api.Test;
 
 import com.google.common.base.Strings;
 import com.google.common.collect.ImmutableList;
@@ -59,7 +59,7 @@ public class TestBasicAuth2 {
   private FlightClient client;
   private FlightClient client2;
 
-  @Before
+  @BeforeEach
   public void setup() throws Exception {
     allocator = new RootAllocator(Long.MAX_VALUE);
     startServerAndClient();
@@ -108,7 +108,7 @@ private void startServerAndClient() throws IOException {
         .build();
   }
 
-  @After
+  @AfterEach
   public void shutdown() throws Exception {
     AutoCloseables.close(client, client2, server, allocator);
     client = null;
@@ -155,7 +155,7 @@ public void validAuthWithMultipleClientsWithDifferentCredentialsWithBearerAuthSe
   }
 
   // ARROW-7722: this test occasionally leaks memory
-  @Ignore
+  @Disabled
   @Test
   public void asyncCall() throws Exception {
     final CredentialCallOption bearerToken = client
@@ -163,7 +163,7 @@ public void asyncCall() throws Exception {
     client.listFlights(Criteria.ALL, bearerToken);
     try (final FlightStream s = client.getStream(new Ticket(new byte[1]))) {
       while (s.next()) {
-        Assert.assertEquals(4095, s.getRoot().getRowCount());
+        Assertions.assertEquals(4095, s.getRoot().getRowCount());
       }
     }
   }
@@ -181,7 +181,7 @@ public void didntAuthWithBearerAuthServer() throws IOException {
   private void testValidAuth(FlightClient client) {
     final CredentialCallOption bearerToken = client
             .authenticateBasicToken(USERNAME_1, PASSWORD_1).get();
-    Assert.assertTrue(ImmutableList.copyOf(client
+    Assertions.assertTrue(ImmutableList.copyOf(client
             .listFlights(Criteria.ALL, bearerToken))
             .isEmpty());
   }
@@ -192,10 +192,10 @@ private void testValidAuthWithMultipleClientsWithSameCredentials(
             .authenticateBasicToken(USERNAME_1, PASSWORD_1).get();
     final CredentialCallOption bearerToken2 = client2
             .authenticateBasicToken(USERNAME_1, PASSWORD_1).get();
-    Assert.assertTrue(ImmutableList.copyOf(client1
+    Assertions.assertTrue(ImmutableList.copyOf(client1
             .listFlights(Criteria.ALL, bearerToken1))
             .isEmpty());
-    Assert.assertTrue(ImmutableList.copyOf(client2
+    Assertions.assertTrue(ImmutableList.copyOf(client2
             .listFlights(Criteria.ALL, bearerToken2))
             .isEmpty());
   }
@@ -206,10 +206,10 @@ private void testValidAuthWithMultipleClientsWithDifferentCredentials(
             .authenticateBasicToken(USERNAME_1, PASSWORD_1).get();
     final CredentialCallOption bearerToken2 = client2
             .authenticateBasicToken(USERNAME_2, PASSWORD_2).get();
-    Assert.assertTrue(ImmutableList.copyOf(client1
+    Assertions.assertTrue(ImmutableList.copyOf(client1
             .listFlights(Criteria.ALL, bearerToken1))
             .isEmpty());
-    Assert.assertTrue(ImmutableList.copyOf(client2
+    Assertions.assertTrue(ImmutableList.copyOf(client2
             .listFlights(Criteria.ALL, bearerToken2))
             .isEmpty());
   }
@@ -222,11 +222,11 @@ private void testInvalidAuth(FlightClient client) {
             client.authenticateBasicToken(NO_USERNAME, PASSWORD_1));
 
     FlightTestUtil.assertCode(FlightStatusCode.UNAUTHENTICATED, () ->
-            client.listFlights(Criteria.ALL).forEach(action -> Assert.fail()));
+            client.listFlights(Criteria.ALL).forEach(action -> Assertions.fail()));
   }
 
   private void didntAuth(FlightClient client) {
     FlightTestUtil.assertCode(FlightStatusCode.UNAUTHENTICATED, () ->
-            client.listFlights(Criteria.ALL).forEach(action -> Assert.fail()));
+            client.listFlights(Criteria.ALL).forEach(action -> Assertions.fail()));
   }
 }
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/client/TestCookieHandling.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/client/TestCookieHandling.java
index f205f9a3b63..235bcbadb3b 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/client/TestCookieHandling.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/client/TestCookieHandling.java
@@ -36,11 +36,11 @@
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.RootAllocator;
 import org.apache.arrow.util.AutoCloseables;
-import org.junit.After;
-import org.junit.Assert;
-import org.junit.Before;
-import org.junit.Ignore;
-import org.junit.Test;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Disabled;
+import org.junit.jupiter.api.Test;
 
 /**
  * Tests for correct handling of cookies from the FlightClient using {@link ClientCookieMiddleware}.
@@ -55,13 +55,13 @@ public class TestCookieHandling {
   private ClientCookieMiddlewareTestFactory testFactory = new ClientCookieMiddlewareTestFactory();
   private ClientCookieMiddleware cookieMiddleware = new ClientCookieMiddleware(testFactory);
 
-  @Before
+  @BeforeEach
   public void setup() throws Exception {
     allocator = new RootAllocator(Long.MAX_VALUE);
     startServerAndClient();
   }
 
-  @After
+  @AfterEach
   public void cleanup() throws Exception {
     testFactory = new ClientCookieMiddlewareTestFactory();
     cookieMiddleware = testFactory.onCallStarted(new CallInfo(FlightMethod.DO_ACTION));
@@ -77,7 +77,7 @@ public void basicCookie() {
     headersToSend.insert(SET_COOKIE_HEADER, "k=v");
     cookieMiddleware = testFactory.onCallStarted(new CallInfo(FlightMethod.DO_ACTION));
     cookieMiddleware.onHeadersReceived(headersToSend);
-    Assert.assertEquals("k=v", cookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("k=v", cookieMiddleware.getValidCookiesAsString());
   }
 
   @Test
@@ -86,20 +86,20 @@ public void cookieStaysAfterMultipleRequests() {
     headersToSend.insert(SET_COOKIE_HEADER, "k=v");
     cookieMiddleware = testFactory.onCallStarted(new CallInfo(FlightMethod.DO_ACTION));
     cookieMiddleware.onHeadersReceived(headersToSend);
-    Assert.assertEquals("k=v", cookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("k=v", cookieMiddleware.getValidCookiesAsString());
 
     headersToSend = new ErrorFlightMetadata();
     cookieMiddleware = testFactory.onCallStarted(new CallInfo(FlightMethod.DO_ACTION));
     cookieMiddleware.onHeadersReceived(headersToSend);
-    Assert.assertEquals("k=v", cookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("k=v", cookieMiddleware.getValidCookiesAsString());
 
     headersToSend = new ErrorFlightMetadata();
     cookieMiddleware = testFactory.onCallStarted(new CallInfo(FlightMethod.DO_ACTION));
     cookieMiddleware.onHeadersReceived(headersToSend);
-    Assert.assertEquals("k=v", cookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("k=v", cookieMiddleware.getValidCookiesAsString());
   }
 
-  @Ignore
+  @Disabled
   @Test
   public void cookieAutoExpires() {
     CallHeaders headersToSend = new ErrorFlightMetadata();
@@ -107,12 +107,12 @@ public void cookieAutoExpires() {
     cookieMiddleware = testFactory.onCallStarted(new CallInfo(FlightMethod.DO_ACTION));
     cookieMiddleware.onHeadersReceived(headersToSend);
     // Note: using max-age changes cookie version from 0->1, which quotes values.
-    Assert.assertEquals("k=\"v\"", cookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("k=\"v\"", cookieMiddleware.getValidCookiesAsString());
 
     headersToSend = new ErrorFlightMetadata();
     cookieMiddleware = testFactory.onCallStarted(new CallInfo(FlightMethod.DO_ACTION));
     cookieMiddleware.onHeadersReceived(headersToSend);
-    Assert.assertEquals("k=\"v\"", cookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("k=\"v\"", cookieMiddleware.getValidCookiesAsString());
 
     try {
       Thread.sleep(5000);
@@ -120,7 +120,7 @@ public void cookieAutoExpires() {
     }
 
     // Verify that the k cookie was discarded because it expired.
-    Assert.assertTrue(cookieMiddleware.getValidCookiesAsString().isEmpty());
+    Assertions.assertTrue(cookieMiddleware.getValidCookiesAsString().isEmpty());
   }
 
   @Test
@@ -130,7 +130,7 @@ public void cookieExplicitlyExpires() {
     cookieMiddleware = testFactory.onCallStarted(new CallInfo(FlightMethod.DO_ACTION));
     cookieMiddleware.onHeadersReceived(headersToSend);
     // Note: using max-age changes cookie version from 0->1, which quotes values.
-    Assert.assertEquals("k=\"v\"", cookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("k=\"v\"", cookieMiddleware.getValidCookiesAsString());
 
     // Note: The JDK treats Max-Age < 0 as not expired and treats 0 as expired.
     // This violates the RFC, which states that less than zero and zero should both be expired.
@@ -140,10 +140,10 @@ public void cookieExplicitlyExpires() {
     cookieMiddleware.onHeadersReceived(headersToSend);
 
     // Verify that the k cookie was discarded because the server told the client it is expired.
-    Assert.assertTrue(cookieMiddleware.getValidCookiesAsString().isEmpty());
+    Assertions.assertTrue(cookieMiddleware.getValidCookiesAsString().isEmpty());
   }
 
-  @Ignore
+  @Disabled
   @Test
   public void cookieExplicitlyExpiresWithMaxAgeMinusOne() {
     CallHeaders headersToSend = new ErrorFlightMetadata();
@@ -151,7 +151,7 @@ public void cookieExplicitlyExpiresWithMaxAgeMinusOne() {
     cookieMiddleware = testFactory.onCallStarted(new CallInfo(FlightMethod.DO_ACTION));
     cookieMiddleware.onHeadersReceived(headersToSend);
     // Note: using max-age changes cookie version from 0->1, which quotes values.
-    Assert.assertEquals("k=\"v\"", cookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("k=\"v\"", cookieMiddleware.getValidCookiesAsString());
 
     headersToSend = new ErrorFlightMetadata();
 
@@ -162,7 +162,7 @@ public void cookieExplicitlyExpiresWithMaxAgeMinusOne() {
     cookieMiddleware.onHeadersReceived(headersToSend);
 
     // Verify that the k cookie was discarded because the server told the client it is expired.
-    Assert.assertTrue(cookieMiddleware.getValidCookiesAsString().isEmpty());
+    Assertions.assertTrue(cookieMiddleware.getValidCookiesAsString().isEmpty());
   }
 
   @Test
@@ -170,12 +170,12 @@ public void changeCookieValue() {
     CallHeaders headersToSend = new ErrorFlightMetadata();
     headersToSend.insert(SET_COOKIE_HEADER, "k=v");
     cookieMiddleware.onHeadersReceived(headersToSend);
-    Assert.assertEquals("k=v", cookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("k=v", cookieMiddleware.getValidCookiesAsString());
 
     headersToSend = new ErrorFlightMetadata();
     headersToSend.insert(SET_COOKIE_HEADER, "k=v2");
     cookieMiddleware.onHeadersReceived(headersToSend);
-    Assert.assertEquals("k=v2", cookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("k=v2", cookieMiddleware.getValidCookiesAsString());
   }
 
   @Test
@@ -184,17 +184,17 @@ public void multipleCookiesWithSetCookie() {
     headersToSend.insert(SET_COOKIE_HEADER, "firstKey=firstVal");
     headersToSend.insert(SET_COOKIE_HEADER, "secondKey=secondVal");
     cookieMiddleware.onHeadersReceived(headersToSend);
-    Assert.assertEquals("firstKey=firstVal; secondKey=secondVal", cookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("firstKey=firstVal; secondKey=secondVal", cookieMiddleware.getValidCookiesAsString());
   }
 
   @Test
   public void cookieStaysAfterMultipleRequestsEndToEnd() {
     client.handshake();
-    Assert.assertEquals("k=v", testFactory.clientCookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("k=v", testFactory.clientCookieMiddleware.getValidCookiesAsString());
     client.handshake();
-    Assert.assertEquals("k=v", testFactory.clientCookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("k=v", testFactory.clientCookieMiddleware.getValidCookiesAsString());
     client.listFlights(Criteria.ALL);
-    Assert.assertEquals("k=v", testFactory.clientCookieMiddleware.getValidCookiesAsString());
+    Assertions.assertEquals("k=v", testFactory.clientCookieMiddleware.getValidCookiesAsString());
   }
 
   /**
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/grpc/TestStatusUtils.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/grpc/TestStatusUtils.java
index 5d76e8ae144..9912a26ea34 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/grpc/TestStatusUtils.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/grpc/TestStatusUtils.java
@@ -19,8 +19,8 @@
 
 import org.apache.arrow.flight.CallStatus;
 import org.apache.arrow.flight.FlightStatusCode;
-import org.junit.Assert;
-import org.junit.Test;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.Test;
 
 import io.grpc.Metadata;
 import io.grpc.Status;
@@ -40,12 +40,12 @@ public void testParseTrailers() {
 
     CallStatus callStatus = StatusUtils.fromGrpcStatusAndTrailers(status, trailers);
 
-    Assert.assertEquals(FlightStatusCode.CANCELLED, callStatus.code());
-    Assert.assertTrue(callStatus.metadata().containsKey(":status"));
-    Assert.assertEquals("502", callStatus.metadata().get(":status"));
-    Assert.assertTrue(callStatus.metadata().containsKey("date"));
-    Assert.assertEquals("Fri, 13 Sep 2015 11:23:58 GMT", callStatus.metadata().get("date"));
-    Assert.assertTrue(callStatus.metadata().containsKey("content-type"));
-    Assert.assertEquals("text/html", callStatus.metadata().get("content-type"));
+    Assertions.assertEquals(FlightStatusCode.CANCELLED, callStatus.code());
+    Assertions.assertTrue(callStatus.metadata().containsKey(":status"));
+    Assertions.assertEquals("502", callStatus.metadata().get(":status"));
+    Assertions.assertTrue(callStatus.metadata().containsKey("date"));
+    Assertions.assertEquals("Fri, 13 Sep 2015 11:23:58 GMT", callStatus.metadata().get("date"));
+    Assertions.assertTrue(callStatus.metadata().containsKey("content-type"));
+    Assertions.assertEquals("text/html", callStatus.metadata().get("content-type"));
   }
 }
diff --git a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/perf/TestPerf.java b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/perf/TestPerf.java
index 9e2d7cc544f..bc9f9cba305 100644
--- a/java/flight/flight-core/src/test/java/org/apache/arrow/flight/perf/TestPerf.java
+++ b/java/flight/flight-core/src/test/java/org/apache/arrow/flight/perf/TestPerf.java
@@ -38,7 +38,8 @@
 import org.apache.arrow.vector.types.Types.MinorType;
 import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.Schema;
-import org.junit.Test;
+import org.junit.jupiter.api.Disabled;
+import org.junit.jupiter.api.Test;
 
 import com.google.common.base.MoreObjects;
 import com.google.common.base.Stopwatch;
@@ -49,7 +50,7 @@
 import com.google.common.util.concurrent.MoreExecutors;
 import com.google.protobuf.ByteString;
 
-@org.junit.Ignore
+@Disabled
 public class TestPerf {
 
   public static final boolean VALIDATE = false;
diff --git a/java/flight/flight-grpc/pom.xml b/java/flight/flight-grpc/pom.xml
index 07b258f1b76..092aac644dc 100644
--- a/java/flight/flight-grpc/pom.xml
+++ b/java/flight/flight-grpc/pom.xml
@@ -13,7 +13,7 @@
   <parent>
     <artifactId>arrow-flight</artifactId>
     <groupId>org.apache.arrow</groupId>
-    <version>10.0.0-SNAPSHOT</version>
+    <version>11.0.0</version>
     <relativePath>../pom.xml</relativePath>
   </parent>
   <modelVersion>4.0.0</modelVersion>
diff --git a/java/flight/flight-grpc/src/test/java/org/apache/arrow/flight/TestFlightGrpcUtils.java b/java/flight/flight-grpc/src/test/java/org/apache/arrow/flight/TestFlightGrpcUtils.java
index 142a0f93734..9010f2d4a98 100644
--- a/java/flight/flight-grpc/src/test/java/org/apache/arrow/flight/TestFlightGrpcUtils.java
+++ b/java/flight/flight-grpc/src/test/java/org/apache/arrow/flight/TestFlightGrpcUtils.java
@@ -26,10 +26,10 @@
 import org.apache.arrow.flight.auth.ServerAuthHandler;
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.RootAllocator;
-import org.junit.After;
-import org.junit.Assert;
-import org.junit.Before;
-import org.junit.Test;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
 
 import com.google.protobuf.Empty;
 
@@ -49,7 +49,7 @@ public class TestFlightGrpcUtils {
   private BufferAllocator allocator;
   private String serverName;
 
-  @Before
+  @BeforeEach
   public void setup() throws IOException {
     //Defines flight service
     allocator = new RootAllocator(Integer.MAX_VALUE);
@@ -69,7 +69,7 @@ public void setup() throws IOException {
     server.start();
   }
 
-  @After
+  @AfterEach
   public void cleanup() {
     server.shutdownNow();
   }
@@ -95,7 +95,7 @@ public void testMultipleGrpcServices() throws IOException {
 
     //Define Test client as a blocking stub and call test method which correctly returns an empty protobuf object
     final TestServiceGrpc.TestServiceBlockingStub blockingStub = TestServiceGrpc.newBlockingStub(managedChannel);
-    Assert.assertEquals(Empty.newBuilder().build(), blockingStub.test(Empty.newBuilder().build()));
+    Assertions.assertEquals(Empty.newBuilder().build(), blockingStub.test(Empty.newBuilder().build()));
   }
 
   @Test
@@ -111,9 +111,9 @@ public void testShutdown() throws IOException, InterruptedException {
 
     // Should be a no-op.
     flightClient.close();
-    Assert.assertFalse(managedChannel.isShutdown());
-    Assert.assertFalse(managedChannel.isTerminated());
-    Assert.assertEquals(ConnectivityState.IDLE, managedChannel.getState(false));
+    Assertions.assertFalse(managedChannel.isShutdown());
+    Assertions.assertFalse(managedChannel.isTerminated());
+    Assertions.assertEquals(ConnectivityState.IDLE, managedChannel.getState(false));
     managedChannel.shutdownNow();
   }
 
@@ -126,22 +126,22 @@ public void testProxyChannel() throws IOException, InterruptedException {
 
     final FlightGrpcUtils.NonClosingProxyManagedChannel proxyChannel =
         new FlightGrpcUtils.NonClosingProxyManagedChannel(managedChannel);
-    Assert.assertFalse(proxyChannel.isShutdown());
-    Assert.assertFalse(proxyChannel.isTerminated());
+    Assertions.assertFalse(proxyChannel.isShutdown());
+    Assertions.assertFalse(proxyChannel.isTerminated());
     proxyChannel.shutdown();
-    Assert.assertTrue(proxyChannel.isShutdown());
-    Assert.assertTrue(proxyChannel.isTerminated());
-    Assert.assertEquals(ConnectivityState.SHUTDOWN, proxyChannel.getState(false));
+    Assertions.assertTrue(proxyChannel.isShutdown());
+    Assertions.assertTrue(proxyChannel.isTerminated());
+    Assertions.assertEquals(ConnectivityState.SHUTDOWN, proxyChannel.getState(false));
     try {
       proxyChannel.newCall(null, null);
-      Assert.fail();
+      Assertions.fail();
     } catch (IllegalStateException e) {
       // This is expected, since the proxy channel is shut down.
     }
 
-    Assert.assertFalse(managedChannel.isShutdown());
-    Assert.assertFalse(managedChannel.isTerminated());
-    Assert.assertEquals(ConnectivityState.IDLE, managedChannel.getState(false));
+    Assertions.assertFalse(managedChannel.isShutdown());
+    Assertions.assertFalse(managedChannel.isTerminated());
+    Assertions.assertEquals(ConnectivityState.IDLE, managedChannel.getState(false));
 
     managedChannel.shutdownNow();
   }
@@ -155,22 +155,22 @@ public void testProxyChannelWithClosedChannel() throws IOException, InterruptedE
 
     final FlightGrpcUtils.NonClosingProxyManagedChannel proxyChannel =
         new FlightGrpcUtils.NonClosingProxyManagedChannel(managedChannel);
-    Assert.assertFalse(proxyChannel.isShutdown());
-    Assert.assertFalse(proxyChannel.isTerminated());
+    Assertions.assertFalse(proxyChannel.isShutdown());
+    Assertions.assertFalse(proxyChannel.isTerminated());
     managedChannel.shutdownNow();
-    Assert.assertTrue(proxyChannel.isShutdown());
-    Assert.assertTrue(proxyChannel.isTerminated());
-    Assert.assertEquals(ConnectivityState.SHUTDOWN, proxyChannel.getState(false));
+    Assertions.assertTrue(proxyChannel.isShutdown());
+    Assertions.assertTrue(proxyChannel.isTerminated());
+    Assertions.assertEquals(ConnectivityState.SHUTDOWN, proxyChannel.getState(false));
     try {
       proxyChannel.newCall(null, null);
-      Assert.fail();
+      Assertions.fail();
     } catch (IllegalStateException e) {
       // This is expected, since the proxy channel is shut down.
     }
 
-    Assert.assertTrue(managedChannel.isShutdown());
-    Assert.assertTrue(managedChannel.isTerminated());
-    Assert.assertEquals(ConnectivityState.SHUTDOWN, managedChannel.getState(false));
+    Assertions.assertTrue(managedChannel.isShutdown());
+    Assertions.assertTrue(managedChannel.isTerminated());
+    Assertions.assertEquals(ConnectivityState.SHUTDOWN, managedChannel.getState(false));
   }
 
   /**
diff --git a/java/flight/flight-integration-tests/pom.xml b/java/flight/flight-integration-tests/pom.xml
index eeba6672366..4d7fd98500b 100644
--- a/java/flight/flight-integration-tests/pom.xml
+++ b/java/flight/flight-integration-tests/pom.xml
@@ -15,7 +15,7 @@
     <parent>
         <artifactId>arrow-flight</artifactId>
         <groupId>org.apache.arrow</groupId>
-        <version>10.0.0-SNAPSHOT</version>
+        <version>11.0.0</version>
         <relativePath>../pom.xml</relativePath>
     </parent>
 
diff --git a/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/FlightSqlExtensionScenario.java b/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/FlightSqlExtensionScenario.java
new file mode 100644
index 00000000000..cd20ae4f46f
--- /dev/null
+++ b/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/FlightSqlExtensionScenario.java
@@ -0,0 +1,217 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.flight.integration.tests;
+
+import java.util.HashMap;
+import java.util.Map;
+
+import org.apache.arrow.flight.FlightClient;
+import org.apache.arrow.flight.FlightInfo;
+import org.apache.arrow.flight.FlightStream;
+import org.apache.arrow.flight.Location;
+import org.apache.arrow.flight.SchemaResult;
+import org.apache.arrow.flight.Ticket;
+import org.apache.arrow.flight.sql.CancelResult;
+import org.apache.arrow.flight.sql.FlightSqlClient;
+import org.apache.arrow.flight.sql.FlightSqlProducer;
+import org.apache.arrow.flight.sql.impl.FlightSql;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.util.Preconditions;
+import org.apache.arrow.vector.UInt4Vector;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.complex.DenseUnionVector;
+import org.apache.arrow.vector.types.pojo.Schema;
+
+/**
+ * Integration test scenario for validating Flight SQL specs across multiple implementations.
+ * This should ensure that RPC objects are being built and parsed correctly for multiple languages
+ * and that the Arrow schemas are returned as expected.
+ */
+public class FlightSqlExtensionScenario extends FlightSqlScenario {
+  @Override
+  public void client(BufferAllocator allocator, Location location, FlightClient client)
+      throws Exception {
+    try (final FlightSqlClient sqlClient = new FlightSqlClient(client)) {
+      validateMetadataRetrieval(sqlClient);
+      validateStatementExecution(sqlClient);
+      validatePreparedStatementExecution(allocator, sqlClient);
+      validateTransactions(allocator, sqlClient);
+    }
+  }
+
+  private void validateMetadataRetrieval(FlightSqlClient sqlClient) throws Exception {
+    FlightInfo info = sqlClient.getSqlInfo();
+    Ticket ticket = info.getEndpoints().get(0).getTicket();
+
+    Map<Integer, Object> infoValues = new HashMap<>();
+    try (FlightStream stream = sqlClient.getStream(ticket)) {
+      Schema actualSchema = stream.getSchema();
+      IntegrationAssertions.assertEquals(FlightSqlProducer.Schemas.GET_SQL_INFO_SCHEMA, actualSchema);
+
+      while (stream.next()) {
+        UInt4Vector infoName = (UInt4Vector) stream.getRoot().getVector(0);
+        DenseUnionVector value = (DenseUnionVector) stream.getRoot().getVector(1);
+
+        for (int i = 0; i < stream.getRoot().getRowCount(); i++) {
+          final int code = infoName.get(i);
+          if (infoValues.containsKey(code)) {
+            throw new AssertionError("Duplicate SqlInfo value: " + code);
+          }
+          Object object;
+          byte typeId = value.getTypeId(i);
+          switch (typeId) {
+            case 0: // string
+              object = Preconditions.checkNotNull(value.getVarCharVector(typeId)
+                  .getObject(value.getOffset(i)))
+                  .toString();
+              break;
+            case 1: // bool
+              object = value.getBitVector(typeId).getObject(value.getOffset(i));
+              break;
+            case 2: // int64
+              object = value.getBigIntVector(typeId).getObject(value.getOffset(i));
+              break;
+            case 3: // int32
+              object = value.getIntVector(typeId).getObject(value.getOffset(i));
+              break;
+            default:
+              throw new AssertionError("Decoding SqlInfo of type code " + typeId);
+          }
+          infoValues.put(code, object);
+        }
+      }
+    }
+
+    IntegrationAssertions.assertEquals(Boolean.FALSE,
+        infoValues.get(FlightSql.SqlInfo.FLIGHT_SQL_SERVER_SQL_VALUE));
+    IntegrationAssertions.assertEquals(Boolean.TRUE,
+        infoValues.get(FlightSql.SqlInfo.FLIGHT_SQL_SERVER_SUBSTRAIT_VALUE));
+    IntegrationAssertions.assertEquals("min_version",
+        infoValues.get(FlightSql.SqlInfo.FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION_VALUE));
+    IntegrationAssertions.assertEquals("max_version",
+        infoValues.get(FlightSql.SqlInfo.FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION_VALUE));
+    IntegrationAssertions.assertEquals(FlightSql.SqlSupportedTransaction.SQL_SUPPORTED_TRANSACTION_SAVEPOINT_VALUE,
+        infoValues.get(FlightSql.SqlInfo.FLIGHT_SQL_SERVER_TRANSACTION_VALUE));
+    IntegrationAssertions.assertEquals(Boolean.TRUE,
+        infoValues.get(FlightSql.SqlInfo.FLIGHT_SQL_SERVER_CANCEL_VALUE));
+    IntegrationAssertions.assertEquals(42,
+        infoValues.get(FlightSql.SqlInfo.FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT_VALUE));
+    IntegrationAssertions.assertEquals(7,
+        infoValues.get(FlightSql.SqlInfo.FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT_VALUE));
+  }
+
+  private void validateStatementExecution(FlightSqlClient sqlClient) throws Exception {
+    FlightInfo info = sqlClient.executeSubstrait(SUBSTRAIT_PLAN);
+    validate(FlightSqlScenarioProducer.getQuerySchema(), info, sqlClient);
+
+    SchemaResult result = sqlClient.getExecuteSubstraitSchema(SUBSTRAIT_PLAN);
+    validateSchema(FlightSqlScenarioProducer.getQuerySchema(), result);
+
+    IntegrationAssertions.assertEquals(CancelResult.CANCELLED, sqlClient.cancelQuery(info));
+
+    IntegrationAssertions.assertEquals(sqlClient.executeSubstraitUpdate(SUBSTRAIT_PLAN),
+        UPDATE_STATEMENT_EXPECTED_ROWS);
+  }
+
+  private void validatePreparedStatementExecution(BufferAllocator allocator,
+                                                  FlightSqlClient sqlClient) throws Exception {
+    try (FlightSqlClient.PreparedStatement preparedStatement = sqlClient.prepare(SUBSTRAIT_PLAN);
+         VectorSchemaRoot parameters = VectorSchemaRoot.create(
+             FlightSqlScenarioProducer.getQuerySchema(), allocator)) {
+      parameters.setRowCount(1);
+      preparedStatement.setParameters(parameters);
+      validate(FlightSqlScenarioProducer.getQuerySchema(), preparedStatement.execute(), sqlClient);
+      validateSchema(FlightSqlScenarioProducer.getQuerySchema(), preparedStatement.fetchSchema());
+    }
+
+    try (FlightSqlClient.PreparedStatement preparedStatement = sqlClient.prepare(SUBSTRAIT_PLAN)) {
+      IntegrationAssertions.assertEquals(preparedStatement.executeUpdate(),
+          UPDATE_PREPARED_STATEMENT_EXPECTED_ROWS);
+    }
+  }
+
+  private void validateTransactions(BufferAllocator allocator, FlightSqlClient sqlClient) throws Exception {
+    final FlightSqlClient.Transaction transaction = sqlClient.beginTransaction();
+    IntegrationAssertions.assertEquals(TRANSACTION_ID, transaction.getTransactionId());
+
+    final FlightSqlClient.Savepoint savepoint = sqlClient.beginSavepoint(transaction, SAVEPOINT_NAME);
+    IntegrationAssertions.assertEquals(SAVEPOINT_ID, savepoint.getSavepointId());
+
+    FlightInfo info = sqlClient.execute("SELECT STATEMENT", transaction);
+    validate(FlightSqlScenarioProducer.getQueryWithTransactionSchema(), info, sqlClient);
+
+    info = sqlClient.executeSubstrait(SUBSTRAIT_PLAN, transaction);
+    validate(FlightSqlScenarioProducer.getQueryWithTransactionSchema(), info, sqlClient);
+
+    SchemaResult schema = sqlClient.getExecuteSchema("SELECT STATEMENT", transaction);
+    validateSchema(FlightSqlScenarioProducer.getQueryWithTransactionSchema(), schema);
+
+    schema = sqlClient.getExecuteSubstraitSchema(SUBSTRAIT_PLAN, transaction);
+    validateSchema(FlightSqlScenarioProducer.getQueryWithTransactionSchema(), schema);
+
+    IntegrationAssertions.assertEquals(sqlClient.executeUpdate("UPDATE STATEMENT", transaction),
+        UPDATE_STATEMENT_WITH_TRANSACTION_EXPECTED_ROWS);
+    IntegrationAssertions.assertEquals(sqlClient.executeSubstraitUpdate(SUBSTRAIT_PLAN, transaction),
+        UPDATE_STATEMENT_WITH_TRANSACTION_EXPECTED_ROWS);
+
+    try (FlightSqlClient.PreparedStatement preparedStatement = sqlClient.prepare(
+        "SELECT PREPARED STATEMENT", transaction);
+         VectorSchemaRoot parameters = VectorSchemaRoot.create(
+             FlightSqlScenarioProducer.getQuerySchema(), allocator)) {
+      parameters.setRowCount(1);
+      preparedStatement.setParameters(parameters);
+      validate(FlightSqlScenarioProducer.getQueryWithTransactionSchema(), preparedStatement.execute(), sqlClient);
+      schema = preparedStatement.fetchSchema();
+      validateSchema(FlightSqlScenarioProducer.getQueryWithTransactionSchema(), schema);
+    }
+
+    try (FlightSqlClient.PreparedStatement preparedStatement = sqlClient.prepare(SUBSTRAIT_PLAN, transaction);
+         VectorSchemaRoot parameters = VectorSchemaRoot.create(
+             FlightSqlScenarioProducer.getQuerySchema(), allocator)) {
+      parameters.setRowCount(1);
+      preparedStatement.setParameters(parameters);
+      validate(FlightSqlScenarioProducer.getQueryWithTransactionSchema(), preparedStatement.execute(), sqlClient);
+      schema = preparedStatement.fetchSchema();
+      validateSchema(FlightSqlScenarioProducer.getQueryWithTransactionSchema(), schema);
+    }
+
+    try (FlightSqlClient.PreparedStatement preparedStatement =
+             sqlClient.prepare("UPDATE PREPARED STATEMENT", transaction)) {
+      IntegrationAssertions.assertEquals(preparedStatement.executeUpdate(),
+          UPDATE_PREPARED_STATEMENT_WITH_TRANSACTION_EXPECTED_ROWS);
+    }
+
+    try (FlightSqlClient.PreparedStatement preparedStatement =
+             sqlClient.prepare(SUBSTRAIT_PLAN, transaction)) {
+      IntegrationAssertions.assertEquals(preparedStatement.executeUpdate(),
+          UPDATE_PREPARED_STATEMENT_WITH_TRANSACTION_EXPECTED_ROWS);
+    }
+
+    sqlClient.rollback(savepoint);
+
+    final FlightSqlClient.Savepoint savepoint2 = sqlClient.beginSavepoint(transaction, SAVEPOINT_NAME);
+    IntegrationAssertions.assertEquals(SAVEPOINT_ID, savepoint2.getSavepointId());
+    sqlClient.release(savepoint);
+
+    sqlClient.commit(transaction);
+
+    final FlightSqlClient.Transaction transaction2 = sqlClient.beginTransaction();
+    IntegrationAssertions.assertEquals(TRANSACTION_ID, transaction2.getTransactionId());
+    sqlClient.rollback(transaction);
+  }
+}
diff --git a/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/FlightSqlScenario.java b/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/FlightSqlScenario.java
index cf17349064c..71f1f741d58 100644
--- a/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/FlightSqlScenario.java
+++ b/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/FlightSqlScenario.java
@@ -17,6 +17,7 @@
 
 package org.apache.arrow.flight.integration.tests;
 
+import java.nio.charset.StandardCharsets;
 import java.util.Arrays;
 
 import org.apache.arrow.flight.CallOption;
@@ -26,6 +27,7 @@
 import org.apache.arrow.flight.FlightServer;
 import org.apache.arrow.flight.FlightStream;
 import org.apache.arrow.flight.Location;
+import org.apache.arrow.flight.SchemaResult;
 import org.apache.arrow.flight.Ticket;
 import org.apache.arrow.flight.sql.FlightSqlClient;
 import org.apache.arrow.flight.sql.FlightSqlProducer;
@@ -41,9 +43,17 @@
  * and that the Arrow schemas are returned as expected.
  */
 public class FlightSqlScenario implements Scenario {
-
   public static final long UPDATE_STATEMENT_EXPECTED_ROWS = 10000L;
+  public static final long UPDATE_STATEMENT_WITH_TRANSACTION_EXPECTED_ROWS = 15000L;
   public static final long UPDATE_PREPARED_STATEMENT_EXPECTED_ROWS = 20000L;
+  public static final long UPDATE_PREPARED_STATEMENT_WITH_TRANSACTION_EXPECTED_ROWS = 25000L;
+  public static final byte[] SAVEPOINT_ID = "savepoint_id".getBytes(StandardCharsets.UTF_8);
+  public static final String SAVEPOINT_NAME = "savepoint_name";
+  public static final byte[] SUBSTRAIT_PLAN_TEXT = "plan".getBytes(StandardCharsets.UTF_8);
+  public static final String SUBSTRAIT_VERSION = "version";
+  public static final FlightSqlClient.SubstraitPlan SUBSTRAIT_PLAN =
+      new FlightSqlClient.SubstraitPlan(SUBSTRAIT_PLAN_TEXT, SUBSTRAIT_VERSION);
+  public static final byte[] TRANSACTION_ID = "transaction_id".getBytes(StandardCharsets.UTF_8);
 
   @Override
   public FlightProducer producer(BufferAllocator allocator, Location location) throws Exception {
@@ -58,13 +68,11 @@ public void buildServer(FlightServer.Builder builder) throws Exception {
   @Override
   public void client(BufferAllocator allocator, Location location, FlightClient client)
       throws Exception {
-    final FlightSqlClient sqlClient = new FlightSqlClient(client);
-
-    validateMetadataRetrieval(sqlClient);
-
-    validateStatementExecution(sqlClient);
-
-    validatePreparedStatementExecution(sqlClient, allocator);
+    try (final FlightSqlClient sqlClient = new FlightSqlClient(client)) {
+      validateMetadataRetrieval(sqlClient);
+      validateStatementExecution(sqlClient);
+      validatePreparedStatementExecution(allocator, sqlClient);
+    }
   }
 
   private void validateMetadataRetrieval(FlightSqlClient sqlClient) throws Exception {
@@ -72,66 +80,84 @@ private void validateMetadataRetrieval(FlightSqlClient sqlClient) throws Excepti
 
     validate(FlightSqlProducer.Schemas.GET_CATALOGS_SCHEMA, sqlClient.getCatalogs(options),
         sqlClient);
+    validateSchema(FlightSqlProducer.Schemas.GET_CATALOGS_SCHEMA, sqlClient.getCatalogsSchema(options));
+
     validate(FlightSqlProducer.Schemas.GET_SCHEMAS_SCHEMA,
         sqlClient.getSchemas("catalog", "db_schema_filter_pattern", options),
         sqlClient);
+    validateSchema(FlightSqlProducer.Schemas.GET_SCHEMAS_SCHEMA, sqlClient.getSchemasSchema());
+
     validate(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA,
         sqlClient.getTables("catalog", "db_schema_filter_pattern", "table_filter_pattern",
             Arrays.asList("table", "view"), true, options), sqlClient);
-    validate(FlightSqlProducer.Schemas.GET_TABLE_TYPES_SCHEMA, sqlClient.getTableTypes(options),
-        sqlClient);
+    validateSchema(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA,
+        sqlClient.getTablesSchema(/*includeSchema*/true, options));
+    validateSchema(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA_NO_SCHEMA,
+        sqlClient.getTablesSchema(/*includeSchema*/false, options));
+
+    validate(FlightSqlProducer.Schemas.GET_TABLE_TYPES_SCHEMA, sqlClient.getTableTypes(options), sqlClient);
+    validateSchema(FlightSqlProducer.Schemas.GET_TABLE_TYPES_SCHEMA, sqlClient.getTableTypesSchema(options));
+
     validate(FlightSqlProducer.Schemas.GET_PRIMARY_KEYS_SCHEMA,
         sqlClient.getPrimaryKeys(TableRef.of("catalog", "db_schema", "table"), options),
         sqlClient);
+    validateSchema(FlightSqlProducer.Schemas.GET_PRIMARY_KEYS_SCHEMA, sqlClient.getPrimaryKeysSchema(options));
+
     validate(FlightSqlProducer.Schemas.GET_EXPORTED_KEYS_SCHEMA,
         sqlClient.getExportedKeys(TableRef.of("catalog", "db_schema", "table"), options),
         sqlClient);
+    validateSchema(FlightSqlProducer.Schemas.GET_EXPORTED_KEYS_SCHEMA, sqlClient.getExportedKeysSchema(options));
+
     validate(FlightSqlProducer.Schemas.GET_IMPORTED_KEYS_SCHEMA,
         sqlClient.getImportedKeys(TableRef.of("catalog", "db_schema", "table"), options),
         sqlClient);
+    validateSchema(FlightSqlProducer.Schemas.GET_IMPORTED_KEYS_SCHEMA, sqlClient.getImportedKeysSchema(options));
+
     validate(FlightSqlProducer.Schemas.GET_CROSS_REFERENCE_SCHEMA,
         sqlClient.getCrossReference(TableRef.of("pk_catalog", "pk_db_schema", "pk_table"),
             TableRef.of("fk_catalog", "fk_db_schema", "fk_table"), options),
         sqlClient);
-    validate(FlightSqlProducer.Schemas.GET_TYPE_INFO_SCHEMA,
-        sqlClient.getXdbcTypeInfo(options), sqlClient);
+    validateSchema(FlightSqlProducer.Schemas.GET_CROSS_REFERENCE_SCHEMA, sqlClient.getCrossReferenceSchema(options));
+
+    validate(FlightSqlProducer.Schemas.GET_TYPE_INFO_SCHEMA, sqlClient.getXdbcTypeInfo(options), sqlClient);
+    validateSchema(FlightSqlProducer.Schemas.GET_TYPE_INFO_SCHEMA, sqlClient.getXdbcTypeInfoSchema(options));
+
     validate(FlightSqlProducer.Schemas.GET_SQL_INFO_SCHEMA,
         sqlClient.getSqlInfo(new FlightSql.SqlInfo[] {FlightSql.SqlInfo.FLIGHT_SQL_SERVER_NAME,
             FlightSql.SqlInfo.FLIGHT_SQL_SERVER_READ_ONLY}, options), sqlClient);
+    validateSchema(FlightSqlProducer.Schemas.GET_SQL_INFO_SCHEMA, sqlClient.getSqlInfoSchema(options));
   }
 
   private void validateStatementExecution(FlightSqlClient sqlClient) throws Exception {
-    final CallOption[] options = new CallOption[0];
-
-    validate(FlightSqlScenarioProducer.getQuerySchema(),
-        sqlClient.execute("SELECT STATEMENT", options), sqlClient);
+    FlightInfo info = sqlClient.execute("SELECT STATEMENT");
+    validate(FlightSqlScenarioProducer.getQuerySchema(), info, sqlClient);
+    validateSchema(FlightSqlScenarioProducer.getQuerySchema(),
+        sqlClient.getExecuteSchema("SELECT STATEMENT"));
 
-    IntegrationAssertions.assertEquals(sqlClient.executeUpdate("UPDATE STATEMENT", options),
+    IntegrationAssertions.assertEquals(sqlClient.executeUpdate("UPDATE STATEMENT"),
         UPDATE_STATEMENT_EXPECTED_ROWS);
   }
 
-  private void validatePreparedStatementExecution(FlightSqlClient sqlClient,
-                                                  BufferAllocator allocator) throws Exception {
-    final CallOption[] options = new CallOption[0];
+  private void validatePreparedStatementExecution(BufferAllocator allocator,
+                                                  FlightSqlClient sqlClient) throws Exception {
     try (FlightSqlClient.PreparedStatement preparedStatement = sqlClient.prepare(
         "SELECT PREPARED STATEMENT");
          VectorSchemaRoot parameters = VectorSchemaRoot.create(
              FlightSqlScenarioProducer.getQuerySchema(), allocator)) {
       parameters.setRowCount(1);
       preparedStatement.setParameters(parameters);
-
-      validate(FlightSqlScenarioProducer.getQuerySchema(), preparedStatement.execute(options),
-          sqlClient);
+      validate(FlightSqlScenarioProducer.getQuerySchema(), preparedStatement.execute(), sqlClient);
+      validateSchema(FlightSqlScenarioProducer.getQuerySchema(), preparedStatement.fetchSchema());
     }
 
-    try (FlightSqlClient.PreparedStatement preparedStatement = sqlClient.prepare(
-        "UPDATE PREPARED STATEMENT")) {
-      IntegrationAssertions.assertEquals(preparedStatement.executeUpdate(options),
+    try (FlightSqlClient.PreparedStatement preparedStatement =
+             sqlClient.prepare("UPDATE PREPARED STATEMENT")) {
+      IntegrationAssertions.assertEquals(preparedStatement.executeUpdate(),
           UPDATE_PREPARED_STATEMENT_EXPECTED_ROWS);
     }
   }
 
-  private void validate(Schema expectedSchema, FlightInfo flightInfo,
+  protected void validate(Schema expectedSchema, FlightInfo flightInfo,
                         FlightSqlClient sqlClient) throws Exception {
     Ticket ticket = flightInfo.getEndpoints().get(0).getTicket();
     try (FlightStream stream = sqlClient.getStream(ticket)) {
@@ -139,4 +165,8 @@ private void validate(Schema expectedSchema, FlightInfo flightInfo,
       IntegrationAssertions.assertEquals(expectedSchema, actualSchema);
     }
   }
+
+  protected void validateSchema(Schema expected, SchemaResult actual) {
+    IntegrationAssertions.assertEquals(expected, actual.getSchema());
+  }
 }
diff --git a/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/FlightSqlScenarioProducer.java b/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/FlightSqlScenarioProducer.java
index 7db99187c46..4ed9a3df0fc 100644
--- a/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/FlightSqlScenarioProducer.java
+++ b/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/FlightSqlScenarioProducer.java
@@ -17,11 +17,11 @@
 
 package org.apache.arrow.flight.integration.tests;
 
-import static com.google.protobuf.Any.pack;
-import static java.util.Collections.singletonList;
-
+import java.util.Arrays;
+import java.util.Collections;
 import java.util.List;
 
+import org.apache.arrow.flight.CallStatus;
 import org.apache.arrow.flight.Criteria;
 import org.apache.arrow.flight.FlightDescriptor;
 import org.apache.arrow.flight.FlightEndpoint;
@@ -31,8 +31,10 @@
 import org.apache.arrow.flight.Result;
 import org.apache.arrow.flight.SchemaResult;
 import org.apache.arrow.flight.Ticket;
+import org.apache.arrow.flight.sql.CancelResult;
 import org.apache.arrow.flight.sql.FlightSqlColumnMetadata;
 import org.apache.arrow.flight.sql.FlightSqlProducer;
+import org.apache.arrow.flight.sql.SqlInfoBuilder;
 import org.apache.arrow.flight.sql.impl.FlightSql;
 import org.apache.arrow.memory.ArrowBuf;
 import org.apache.arrow.memory.BufferAllocator;
@@ -42,7 +44,9 @@
 import org.apache.arrow.vector.types.pojo.FieldType;
 import org.apache.arrow.vector.types.pojo.Schema;
 
+import com.google.protobuf.Any;
 import com.google.protobuf.ByteString;
+import com.google.protobuf.InvalidProtocolBufferException;
 import com.google.protobuf.Message;
 
 /**
@@ -61,7 +65,7 @@ public FlightSqlScenarioProducer(BufferAllocator allocator) {
    */
   static Schema getQuerySchema() {
     return new Schema(
-        singletonList(
+        Collections.singletonList(
             new Field("id", new FieldType(true, new ArrowType.Int(64, true),
                 null, new FlightSqlColumnMetadata.Builder()
                 .tableName("test")
@@ -77,6 +81,94 @@ static Schema getQuerySchema() {
     );
   }
 
+  /**
+   * The expected schema for queries with transactions.
+   * <p>
+   * Must be the same across all languages.
+   */
+  static Schema getQueryWithTransactionSchema() {
+    return new Schema(
+        Collections.singletonList(
+            new Field("pkey", new FieldType(true, new ArrowType.Int(32, true),
+                null, new FlightSqlColumnMetadata.Builder()
+                .tableName("test")
+                .isAutoIncrement(true)
+                .isCaseSensitive(false)
+                .typeName("type_test")
+                .schemaName("schema_test")
+                .isSearchable(true)
+                .catalogName("catalog_test")
+                .precision(100)
+                .build().getMetadataMap()), null)
+        )
+    );
+  }
+
+  @Override
+  public void beginSavepoint(FlightSql.ActionBeginSavepointRequest request, CallContext context,
+                             StreamListener<FlightSql.ActionBeginSavepointResult> listener) {
+    if (!request.getName().equals(FlightSqlScenario.SAVEPOINT_NAME)) {
+      listener.onError(CallStatus.INVALID_ARGUMENT
+          .withDescription(String.format("Expected name '%s', not '%s'",
+              FlightSqlScenario.SAVEPOINT_NAME, request.getName()))
+          .toRuntimeException());
+      return;
+    }
+    if (!Arrays.equals(request.getTransactionId().toByteArray(), FlightSqlScenario.TRANSACTION_ID)) {
+      listener.onError(CallStatus.INVALID_ARGUMENT
+          .withDescription(String.format("Expected transaction ID '%s', not '%s'",
+              Arrays.toString(FlightSqlScenario.TRANSACTION_ID),
+              Arrays.toString(request.getTransactionId().toByteArray())))
+          .toRuntimeException());
+      return;
+    }
+    listener.onNext(FlightSql.ActionBeginSavepointResult.newBuilder()
+        .setSavepointId(ByteString.copyFrom(FlightSqlScenario.SAVEPOINT_ID))
+        .build());
+    listener.onCompleted();
+  }
+
+  @Override
+  public void beginTransaction(FlightSql.ActionBeginTransactionRequest request, CallContext context,
+                               StreamListener<FlightSql.ActionBeginTransactionResult> listener) {
+    listener.onNext(FlightSql.ActionBeginTransactionResult.newBuilder()
+        .setTransactionId(ByteString.copyFrom(FlightSqlScenario.TRANSACTION_ID))
+        .build());
+    listener.onCompleted();
+  }
+
+  @Override
+  public void cancelQuery(FlightInfo info, CallContext context, StreamListener<CancelResult> listener) {
+    final String expectedTicket = "PLAN HANDLE";
+    if (info.getEndpoints().size() != 1) {
+      listener.onError(CallStatus.INVALID_ARGUMENT
+          .withDescription(String.format("Expected 1 endpoint, got %d", info.getEndpoints().size()))
+          .toRuntimeException());
+    }
+    final FlightEndpoint endpoint = info.getEndpoints().get(0);
+    try {
+      final Any any = Any.parseFrom(endpoint.getTicket().getBytes());
+      if (!any.is(FlightSql.TicketStatementQuery.class)) {
+        listener.onError(CallStatus.INVALID_ARGUMENT
+            .withDescription(String.format("Expected TicketStatementQuery, found '%s'", any.getTypeUrl()))
+            .toRuntimeException());
+      }
+      final FlightSql.TicketStatementQuery ticket = any.unpack(FlightSql.TicketStatementQuery.class);
+      if (!ticket.getStatementHandle().toStringUtf8().equals(expectedTicket)) {
+        listener.onError(CallStatus.INVALID_ARGUMENT
+            .withDescription(String.format("Expected ticket '%s'", expectedTicket))
+            .toRuntimeException());
+      }
+      listener.onNext(CancelResult.CANCELLED);
+      listener.onCompleted();
+    } catch (InvalidProtocolBufferException e) {
+      listener.onError(CallStatus.INVALID_ARGUMENT
+          .withDescription("Invalid Protobuf:" + e)
+          .withCause(e)
+          .toRuntimeException());
+    }
+  }
+
   @Override
   public void createPreparedStatement(FlightSql.ActionCreatePreparedStatementRequest request,
                                       CallContext context, StreamListener<Result> listener) {
@@ -84,21 +176,106 @@ public void createPreparedStatement(FlightSql.ActionCreatePreparedStatementReque
         request.getQuery().equals("SELECT PREPARED STATEMENT") ||
             request.getQuery().equals("UPDATE PREPARED STATEMENT"));
 
+    String text = request.getQuery();
+    if (!request.getTransactionId().isEmpty()) {
+      text += " WITH TXN";
+    }
+    text += " HANDLE";
     final FlightSql.ActionCreatePreparedStatementResult
         result = FlightSql.ActionCreatePreparedStatementResult.newBuilder()
-        .setPreparedStatementHandle(ByteString.copyFromUtf8(request.getQuery() + " HANDLE"))
+        .setPreparedStatementHandle(ByteString.copyFromUtf8(text))
         .build();
-    listener.onNext(new Result(pack(result).toByteArray()));
+    listener.onNext(new Result(Any.pack(result).toByteArray()));
+    listener.onCompleted();
+  }
+
+  @Override
+  public void createPreparedSubstraitPlan(FlightSql.ActionCreatePreparedSubstraitPlanRequest request,
+                                          CallContext context,
+                                          StreamListener<FlightSql.ActionCreatePreparedStatementResult> listener) {
+    if (!Arrays.equals(request.getPlan().getPlan().toByteArray(), FlightSqlScenario.SUBSTRAIT_PLAN_TEXT)) {
+      listener.onError(CallStatus.INVALID_ARGUMENT
+          .withDescription(String.format("Expected plan '%s', not '%s'",
+              Arrays.toString(FlightSqlScenario.SUBSTRAIT_PLAN_TEXT),
+              Arrays.toString(request.getPlan().getPlan().toByteArray())))
+          .toRuntimeException());
+      return;
+    }
+    if (!FlightSqlScenario.SUBSTRAIT_VERSION.equals(request.getPlan().getVersion())) {
+      listener.onError(CallStatus.INVALID_ARGUMENT
+          .withDescription(String.format("Expected version '%s', not '%s'",
+              FlightSqlScenario.SUBSTRAIT_VERSION,
+              request.getPlan().getVersion()))
+          .toRuntimeException());
+      return;
+    }
+    final String handle = request.getTransactionId().isEmpty() ?
+        "PREPARED PLAN HANDLE" : "PREPARED PLAN WITH TXN HANDLE";
+    final FlightSql.ActionCreatePreparedStatementResult result =
+        FlightSql.ActionCreatePreparedStatementResult.newBuilder()
+            .setPreparedStatementHandle(ByteString.copyFromUtf8(handle))
+            .build();
+    listener.onNext(result);
     listener.onCompleted();
   }
 
   @Override
   public void closePreparedStatement(FlightSql.ActionClosePreparedStatementRequest request,
                                      CallContext context, StreamListener<Result> listener) {
-    IntegrationAssertions.assertTrue("Expect to be one of the two queries used on tests",
-        request.getPreparedStatementHandle().toStringUtf8().equals("SELECT PREPARED STATEMENT HANDLE") ||
-            request.getPreparedStatementHandle().toStringUtf8().equals("UPDATE PREPARED STATEMENT HANDLE"));
+    final String handle = request.getPreparedStatementHandle().toStringUtf8();
+    IntegrationAssertions.assertTrue("Expect to be one of the queries used on tests",
+        handle.equals("SELECT PREPARED STATEMENT HANDLE") ||
+            handle.equals("SELECT PREPARED STATEMENT WITH TXN HANDLE") ||
+            handle.equals("UPDATE PREPARED STATEMENT HANDLE") ||
+            handle.equals("UPDATE PREPARED STATEMENT WITH TXN HANDLE") ||
+            handle.equals("PREPARED PLAN HANDLE") ||
+            handle.equals("PREPARED PLAN WITH TXN HANDLE"));
+    listener.onCompleted();
+  }
 
+  @Override
+  public void endSavepoint(FlightSql.ActionEndSavepointRequest request, CallContext context,
+                           StreamListener<Result> listener) {
+    switch (request.getAction()) {
+      case END_SAVEPOINT_RELEASE:
+      case END_SAVEPOINT_ROLLBACK:
+        if (!Arrays.equals(request.getSavepointId().toByteArray(), FlightSqlScenario.SAVEPOINT_ID)) {
+          listener.onError(CallStatus.INVALID_ARGUMENT
+              .withDescription("Unexpected ID: " + Arrays.toString(request.getSavepointId().toByteArray()))
+              .toRuntimeException());
+        }
+        break;
+      case UNRECOGNIZED:
+      default: {
+        listener.onError(CallStatus.INVALID_ARGUMENT
+            .withDescription("Unknown action: " + request.getAction())
+            .toRuntimeException());
+        return;
+      }
+    }
+    listener.onCompleted();
+  }
+
+  @Override
+  public void endTransaction(FlightSql.ActionEndTransactionRequest request, CallContext context,
+                             StreamListener<Result> listener) {
+    switch (request.getAction()) {
+      case END_TRANSACTION_COMMIT:
+      case END_TRANSACTION_ROLLBACK:
+        if (!Arrays.equals(request.getTransactionId().toByteArray(), FlightSqlScenario.TRANSACTION_ID)) {
+          listener.onError(CallStatus.INVALID_ARGUMENT
+              .withDescription("Unexpected ID: " + Arrays.toString(request.getTransactionId().toByteArray()))
+              .toRuntimeException());
+        }
+        break;
+      case UNRECOGNIZED:
+      default: {
+        listener.onError(CallStatus.INVALID_ARGUMENT
+            .withDescription("Unknown action: " + request.getAction())
+            .toRuntimeException());
+        return;
+      }
+    }
     listener.onCompleted();
   }
 
@@ -106,11 +283,31 @@ public void closePreparedStatement(FlightSql.ActionClosePreparedStatementRequest
   public FlightInfo getFlightInfoStatement(FlightSql.CommandStatementQuery command,
                                            CallContext context, FlightDescriptor descriptor) {
     IntegrationAssertions.assertEquals(command.getQuery(), "SELECT STATEMENT");
+    if (command.getTransactionId().isEmpty()) {
+      String handle = "SELECT STATEMENT HANDLE";
+      FlightSql.TicketStatementQuery ticket = FlightSql.TicketStatementQuery.newBuilder()
+          .setStatementHandle(ByteString.copyFromUtf8(handle))
+          .build();
+      return getFlightInfoForSchema(ticket, descriptor, getQuerySchema());
+    } else {
+      String handle = "SELECT STATEMENT WITH TXN HANDLE";
+      FlightSql.TicketStatementQuery ticket = FlightSql.TicketStatementQuery.newBuilder()
+          .setStatementHandle(ByteString.copyFromUtf8(handle))
+          .build();
+      return getFlightInfoForSchema(ticket, descriptor, getQueryWithTransactionSchema());
+    }
+  }
 
-    ByteString handle = ByteString.copyFromUtf8("SELECT STATEMENT HANDLE");
-
+  @Override
+  public FlightInfo getFlightInfoSubstraitPlan(FlightSql.CommandStatementSubstraitPlan command, CallContext context,
+                                               FlightDescriptor descriptor) {
+    IntegrationAssertions.assertEquals(command.getPlan().getPlan().toByteArray(),
+        FlightSqlScenario.SUBSTRAIT_PLAN_TEXT);
+    IntegrationAssertions.assertEquals(command.getPlan().getVersion(), FlightSqlScenario.SUBSTRAIT_VERSION);
+    String handle = command.getTransactionId().isEmpty() ?
+        "PLAN HANDLE" : "PLAN WITH TXN HANDLE";
     FlightSql.TicketStatementQuery ticket = FlightSql.TicketStatementQuery.newBuilder()
-        .setStatementHandle(handle)
+        .setStatementHandle(ByteString.copyFromUtf8(handle))
         .build();
     return getFlightInfoForSchema(ticket, descriptor, getQuerySchema());
   }
@@ -119,28 +316,91 @@ public FlightInfo getFlightInfoStatement(FlightSql.CommandStatementQuery command
   public FlightInfo getFlightInfoPreparedStatement(FlightSql.CommandPreparedStatementQuery command,
                                                    CallContext context,
                                                    FlightDescriptor descriptor) {
-    IntegrationAssertions.assertEquals(command.getPreparedStatementHandle().toStringUtf8(),
-        "SELECT PREPARED STATEMENT HANDLE");
-
-    return getFlightInfoForSchema(command, descriptor, getQuerySchema());
+    String handle = command.getPreparedStatementHandle().toStringUtf8();
+    if (handle.equals("SELECT PREPARED STATEMENT HANDLE") ||
+        handle.equals("PREPARED PLAN HANDLE")) {
+      return getFlightInfoForSchema(command, descriptor, getQuerySchema());
+    } else if (handle.equals("SELECT PREPARED STATEMENT WITH TXN HANDLE") ||
+        handle.equals("PREPARED PLAN WITH TXN HANDLE")) {
+      return getFlightInfoForSchema(command, descriptor, getQueryWithTransactionSchema());
+    }
+    throw CallStatus.INVALID_ARGUMENT.withDescription("Unknown handle: " + handle).toRuntimeException();
   }
 
   @Override
   public SchemaResult getSchemaStatement(FlightSql.CommandStatementQuery command,
                                          CallContext context, FlightDescriptor descriptor) {
-    return new SchemaResult(getQuerySchema());
+    IntegrationAssertions.assertEquals(command.getQuery(), "SELECT STATEMENT");
+    if (command.getTransactionId().isEmpty()) {
+      return new SchemaResult(getQuerySchema());
+    }
+    return new SchemaResult(getQueryWithTransactionSchema());
+  }
+
+  @Override
+  public SchemaResult getSchemaPreparedStatement(FlightSql.CommandPreparedStatementQuery command, CallContext context,
+                                                 FlightDescriptor descriptor) {
+    String handle = command.getPreparedStatementHandle().toStringUtf8();
+    if (handle.equals("SELECT PREPARED STATEMENT HANDLE") ||
+        handle.equals("PREPARED PLAN HANDLE")) {
+      return new SchemaResult(getQuerySchema());
+    } else if (handle.equals("SELECT PREPARED STATEMENT WITH TXN HANDLE") ||
+        handle.equals("PREPARED PLAN WITH TXN HANDLE")) {
+      return new SchemaResult(getQueryWithTransactionSchema());
+    }
+    throw CallStatus.INVALID_ARGUMENT.withDescription("Unknown handle: " + handle).toRuntimeException();
+  }
+
+  @Override
+  public SchemaResult getSchemaSubstraitPlan(FlightSql.CommandStatementSubstraitPlan command, CallContext context,
+                                             FlightDescriptor descriptor) {
+    if (!Arrays.equals(command.getPlan().getPlan().toByteArray(), FlightSqlScenario.SUBSTRAIT_PLAN_TEXT)) {
+      throw CallStatus.INVALID_ARGUMENT
+          .withDescription(String.format("Expected plan '%s', not '%s'",
+              Arrays.toString(FlightSqlScenario.SUBSTRAIT_PLAN_TEXT),
+              Arrays.toString(command.getPlan().getPlan().toByteArray())))
+          .toRuntimeException();
+    }
+    if (!FlightSqlScenario.SUBSTRAIT_VERSION.equals(command.getPlan().getVersion())) {
+      throw CallStatus.INVALID_ARGUMENT
+          .withDescription(String.format("Expected version '%s', not '%s'",
+              FlightSqlScenario.SUBSTRAIT_VERSION,
+              command.getPlan().getVersion()))
+          .toRuntimeException();
+    }
+    if (command.getTransactionId().isEmpty()) {
+      return new SchemaResult(getQuerySchema());
+    }
+    return new SchemaResult(getQueryWithTransactionSchema());
   }
 
   @Override
   public void getStreamStatement(FlightSql.TicketStatementQuery ticket, CallContext context,
                                  ServerStreamListener listener) {
-    putEmptyBatchToStreamListener(listener, getQuerySchema());
+    final String handle = ticket.getStatementHandle().toStringUtf8();
+    if (handle.equals("SELECT STATEMENT HANDLE") || handle.equals("PLAN HANDLE")) {
+      putEmptyBatchToStreamListener(listener, getQuerySchema());
+    } else if (handle.equals("SELECT STATEMENT WITH TXN HANDLE") || handle.equals("PLAN WITH TXN HANDLE")) {
+      putEmptyBatchToStreamListener(listener, getQueryWithTransactionSchema());
+    } else {
+      listener.error(CallStatus.INVALID_ARGUMENT.withDescription("Unknown handle: " + handle).toRuntimeException());
+    }
   }
 
   @Override
   public void getStreamPreparedStatement(FlightSql.CommandPreparedStatementQuery command,
                                          CallContext context, ServerStreamListener listener) {
-    putEmptyBatchToStreamListener(listener, getQuerySchema());
+    String handle = command.getPreparedStatementHandle().toStringUtf8();
+    if (handle.equals("SELECT PREPARED STATEMENT HANDLE") || handle.equals("PREPARED PLAN HANDLE")) {
+      putEmptyBatchToStreamListener(listener, getQuerySchema());
+    } else if (handle.equals("SELECT PREPARED STATEMENT WITH TXN HANDLE") ||
+        handle.equals("PREPARED PLAN WITH TXN HANDLE")) {
+      putEmptyBatchToStreamListener(listener, getQueryWithTransactionSchema());
+    } else {
+      listener.error(CallStatus.INVALID_ARGUMENT
+          .withDescription("Unknown handle: " + handle)
+          .toRuntimeException());
+    }
   }
 
   private Runnable acceptPutReturnConstant(StreamListener<PutResult> ackStream, long value) {
@@ -161,48 +421,92 @@ public Runnable acceptPutStatement(FlightSql.CommandStatementUpdate command, Cal
                                      FlightStream flightStream,
                                      StreamListener<PutResult> ackStream) {
     IntegrationAssertions.assertEquals(command.getQuery(), "UPDATE STATEMENT");
+    return acceptPutReturnConstant(ackStream,
+        command.getTransactionId().isEmpty() ? FlightSqlScenario.UPDATE_STATEMENT_EXPECTED_ROWS :
+            FlightSqlScenario.UPDATE_STATEMENT_WITH_TRANSACTION_EXPECTED_ROWS);
+  }
 
-    return acceptPutReturnConstant(ackStream, FlightSqlScenario.UPDATE_STATEMENT_EXPECTED_ROWS);
+  @Override
+  public Runnable acceptPutSubstraitPlan(FlightSql.CommandStatementSubstraitPlan command, CallContext context,
+                                         FlightStream flightStream, StreamListener<PutResult> ackStream) {
+    IntegrationAssertions.assertEquals(command.getPlan().getPlan().toByteArray(),
+        FlightSqlScenario.SUBSTRAIT_PLAN_TEXT);
+    IntegrationAssertions.assertEquals(command.getPlan().getVersion(), FlightSqlScenario.SUBSTRAIT_VERSION);
+    return acceptPutReturnConstant(ackStream,
+        command.getTransactionId().isEmpty() ? FlightSqlScenario.UPDATE_STATEMENT_EXPECTED_ROWS :
+            FlightSqlScenario.UPDATE_STATEMENT_WITH_TRANSACTION_EXPECTED_ROWS);
   }
 
   @Override
   public Runnable acceptPutPreparedStatementUpdate(FlightSql.CommandPreparedStatementUpdate command,
                                                    CallContext context, FlightStream flightStream,
                                                    StreamListener<PutResult> ackStream) {
-    IntegrationAssertions.assertEquals(command.getPreparedStatementHandle().toStringUtf8(),
-        "UPDATE PREPARED STATEMENT HANDLE");
-
-    return acceptPutReturnConstant(ackStream, FlightSqlScenario.UPDATE_PREPARED_STATEMENT_EXPECTED_ROWS);
+    final String handle = command.getPreparedStatementHandle().toStringUtf8();
+    if (handle.equals("UPDATE PREPARED STATEMENT HANDLE") ||
+        handle.equals("PREPARED PLAN HANDLE")) {
+      return acceptPutReturnConstant(ackStream, FlightSqlScenario.UPDATE_PREPARED_STATEMENT_EXPECTED_ROWS);
+    } else if (handle.equals("UPDATE PREPARED STATEMENT WITH TXN HANDLE") ||
+        handle.equals("PREPARED PLAN WITH TXN HANDLE")) {
+      return acceptPutReturnConstant(
+          ackStream, FlightSqlScenario.UPDATE_PREPARED_STATEMENT_WITH_TRANSACTION_EXPECTED_ROWS);
+    }
+    return () -> {
+      ackStream.onError(CallStatus.INVALID_ARGUMENT
+          .withDescription("Unknown handle: " + handle)
+          .toRuntimeException());
+    };
   }
 
   @Override
   public Runnable acceptPutPreparedStatementQuery(FlightSql.CommandPreparedStatementQuery command,
                                                   CallContext context, FlightStream flightStream,
                                                   StreamListener<PutResult> ackStream) {
-    IntegrationAssertions.assertEquals(command.getPreparedStatementHandle().toStringUtf8(),
-        "SELECT PREPARED STATEMENT HANDLE");
-
-    IntegrationAssertions.assertEquals(getQuerySchema(), flightStream.getSchema());
-
-    return ackStream::onCompleted;
+    final String handle = command.getPreparedStatementHandle().toStringUtf8();
+    if (handle.equals("SELECT PREPARED STATEMENT HANDLE") ||
+        handle.equals("SELECT PREPARED STATEMENT WITH TXN HANDLE") ||
+        handle.equals("PREPARED PLAN HANDLE") ||
+        handle.equals("PREPARED PLAN WITH TXN HANDLE")) {
+      IntegrationAssertions.assertEquals(getQuerySchema(), flightStream.getSchema());
+      return ackStream::onCompleted;
+    }
+    return () -> {
+      ackStream.onError(CallStatus.INVALID_ARGUMENT
+          .withDescription("Unknown handle: " + handle)
+          .toRuntimeException());
+    };
   }
 
   @Override
   public FlightInfo getFlightInfoSqlInfo(FlightSql.CommandGetSqlInfo request, CallContext context,
                                          FlightDescriptor descriptor) {
-    IntegrationAssertions.assertEquals(request.getInfoCount(), 2);
-    IntegrationAssertions.assertEquals(request.getInfo(0),
-        FlightSql.SqlInfo.FLIGHT_SQL_SERVER_NAME_VALUE);
-    IntegrationAssertions.assertEquals(request.getInfo(1),
-        FlightSql.SqlInfo.FLIGHT_SQL_SERVER_READ_ONLY_VALUE);
-
+    if (request.getInfoCount() == 2) {
+      // Integration test for the protocol messages
+      IntegrationAssertions.assertEquals(request.getInfo(0),
+          FlightSql.SqlInfo.FLIGHT_SQL_SERVER_NAME_VALUE);
+      IntegrationAssertions.assertEquals(request.getInfo(1),
+          FlightSql.SqlInfo.FLIGHT_SQL_SERVER_READ_ONLY_VALUE);
+    }
     return getFlightInfoForSchema(request, descriptor, Schemas.GET_SQL_INFO_SCHEMA);
   }
 
   @Override
   public void getStreamSqlInfo(FlightSql.CommandGetSqlInfo command, CallContext context,
                                ServerStreamListener listener) {
-    putEmptyBatchToStreamListener(listener, Schemas.GET_SQL_INFO_SCHEMA);
+    if (command.getInfoCount() == 2) {
+      // Integration test for the protocol messages
+      putEmptyBatchToStreamListener(listener, Schemas.GET_SQL_INFO_SCHEMA);
+      return;
+    }
+    SqlInfoBuilder sqlInfoBuilder = new SqlInfoBuilder()
+        .withFlightSqlServerSql(false)
+        .withFlightSqlServerSubstrait(true)
+        .withFlightSqlServerSubstraitMinVersion("min_version")
+        .withFlightSqlServerSubstraitMaxVersion("max_version")
+        .withFlightSqlServerTransaction(FlightSql.SqlSupportedTransaction.SQL_SUPPORTED_TRANSACTION_SAVEPOINT)
+        .withFlightSqlServerCancel(true)
+        .withFlightSqlServerStatementTimeout(42)
+        .withFlightSqlServerTransactionTimeout(7);
+    sqlInfoBuilder.send(command.getInfoList(), listener);
   }
 
   @Override
@@ -364,8 +668,8 @@ public void listFlights(CallContext context, Criteria criteria,
   private <T extends Message> FlightInfo getFlightInfoForSchema(final T request,
                                                                 final FlightDescriptor descriptor,
                                                                 final Schema schema) {
-    final Ticket ticket = new Ticket(pack(request).toByteArray());
-    final List<FlightEndpoint> endpoints = singletonList(new FlightEndpoint(ticket));
+    final Ticket ticket = new Ticket(Any.pack(request).toByteArray());
+    final List<FlightEndpoint> endpoints = Collections.singletonList(new FlightEndpoint(ticket));
 
     return new FlightInfo(schema, descriptor, endpoints, -1, -1);
   }
diff --git a/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/IntegrationAssertions.java b/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/IntegrationAssertions.java
index 76f846a8b73..a60efcbb78d 100644
--- a/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/IntegrationAssertions.java
+++ b/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/IntegrationAssertions.java
@@ -19,6 +19,7 @@
 
 import java.io.PrintWriter;
 import java.io.StringWriter;
+import java.util.Arrays;
 import java.util.Objects;
 
 import org.apache.arrow.flight.CallStatus;
@@ -59,6 +60,16 @@ static void assertEquals(Object expected, Object actual) {
     }
   }
 
+  /**
+   * Assert that the two arrays are equal.
+   */
+  static void assertEquals(byte[] expected, byte[] actual) {
+    if (!Arrays.equals(expected, actual)) {
+      throw new AssertionError(
+          String.format("Expected:\n%s\nbut got:\n%s", Arrays.toString(expected), Arrays.toString(actual)));
+    }
+  }
+
   /**
    * Assert that the value is false, using the given message as an error otherwise.
    */
diff --git a/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/Scenarios.java b/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/Scenarios.java
index 16cc856daf5..77f7ab0006d 100644
--- a/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/Scenarios.java
+++ b/java/flight/flight-integration-tests/src/main/java/org/apache/arrow/flight/integration/tests/Scenarios.java
@@ -42,6 +42,7 @@ private Scenarios() {
     scenarios.put("auth:basic_proto", AuthBasicProtoScenario::new);
     scenarios.put("middleware", MiddlewareScenario::new);
     scenarios.put("flight_sql", FlightSqlScenario::new);
+    scenarios.put("flight_sql:extension", FlightSqlExtensionScenario::new);
   }
 
   private static Scenarios getInstance() {
diff --git a/java/flight/flight-integration-tests/src/main/test/java/org/apache/arrow/flight/integration/tests/IntegrationTest.java b/java/flight/flight-integration-tests/src/main/test/java/org/apache/arrow/flight/integration/tests/IntegrationTest.java
new file mode 100644
index 00000000000..dfb9a810857
--- /dev/null
+++ b/java/flight/flight-integration-tests/src/main/test/java/org/apache/arrow/flight/integration/tests/IntegrationTest.java
@@ -0,0 +1,65 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.flight.integration.tests;
+
+import org.apache.arrow.flight.FlightClient;
+import org.apache.arrow.flight.FlightServer;
+import org.apache.arrow.flight.Location;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.junit.jupiter.api.Test;
+
+/**
+ * Run the integration test scenarios in-process.
+ */
+class IntegrationTest {
+  @Test
+  void authBasicProto() throws Exception {
+    testScenario("auth:basic_proto");
+  }
+
+  @Test
+  void middleware() throws Exception {
+    testScenario("middleware");
+  }
+
+  @Test
+  void flightSql() throws Exception {
+    testScenario("flight_sql");
+  }
+
+  void testScenario(String scenarioName) throws Exception {
+    try (final BufferAllocator allocator = new RootAllocator()) {
+      final FlightServer.Builder builder = FlightServer.builder()
+          .allocator(allocator)
+          .location(Location.forGrpcInsecure("0.0.0.0", 0));
+      final Scenario scenario = Scenarios.getScenario(scenarioName);
+      scenario.buildServer(builder);
+      builder.producer(scenario.producer(allocator, Location.forGrpcInsecure("0.0.0.0", 0)));
+
+      try (final FlightServer server = builder.build()) {
+        server.start();
+
+        final Location location = Location.forGrpcInsecure("localhost", server.getPort());
+        try (final FlightClient client = FlightClient.builder(allocator, location).build()) {
+          scenario.client(allocator, location, client);
+        }
+      }
+    }
+  }
+}
diff --git a/java/flight/flight-integration-tests/src/test/java/org/apache/arrow/flight/integration/tests/IntegrationTest.java b/java/flight/flight-integration-tests/src/test/java/org/apache/arrow/flight/integration/tests/IntegrationTest.java
new file mode 100644
index 00000000000..0751e1d7a89
--- /dev/null
+++ b/java/flight/flight-integration-tests/src/test/java/org/apache/arrow/flight/integration/tests/IntegrationTest.java
@@ -0,0 +1,70 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.flight.integration.tests;
+
+import org.apache.arrow.flight.FlightClient;
+import org.apache.arrow.flight.FlightServer;
+import org.apache.arrow.flight.Location;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.junit.jupiter.api.Test;
+
+/**
+ * Run the integration test scenarios in-process.
+ */
+class IntegrationTest {
+  @Test
+  void authBasicProto() throws Exception {
+    testScenario("auth:basic_proto");
+  }
+
+  @Test
+  void middleware() throws Exception {
+    testScenario("middleware");
+  }
+
+  @Test
+  void flightSql() throws Exception {
+    testScenario("flight_sql");
+  }
+
+  @Test
+  void flightSqlExtension() throws Exception {
+    testScenario("flight_sql:extension");
+  }
+
+  void testScenario(String scenarioName) throws Exception {
+    try (final BufferAllocator allocator = new RootAllocator()) {
+      final FlightServer.Builder builder = FlightServer.builder()
+          .allocator(allocator)
+          .location(Location.forGrpcInsecure("0.0.0.0", 0));
+      final Scenario scenario = Scenarios.getScenario(scenarioName);
+      scenario.buildServer(builder);
+      builder.producer(scenario.producer(allocator, Location.forGrpcInsecure("0.0.0.0", 0)));
+
+      try (final FlightServer server = builder.build()) {
+        server.start();
+
+        final Location location = Location.forGrpcInsecure("localhost", server.getPort());
+        try (final FlightClient client = FlightClient.builder(allocator, location).build()) {
+          scenario.client(allocator, location, client);
+        }
+      }
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/jdbc-spotbugs-exclude.xml b/java/flight/flight-sql-jdbc-driver/jdbc-spotbugs-exclude.xml
new file mode 100644
index 00000000000..af75d70425c
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/jdbc-spotbugs-exclude.xml
@@ -0,0 +1,40 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor
+    license agreements. See the NOTICE file distributed with this work for additional
+    information regarding copyright ownership. The ASF licenses this file to
+    You under the Apache License, Version 2.0 (the "License"); you may not use
+    this file except in compliance with the License. You may obtain a copy of
+    the License at http://www.apache.org/licenses/LICENSE-2.0 Unless required
+    by applicable law or agreed to in writing, software distributed under the
+    License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS
+    OF ANY KIND, either express or implied. See the License for the specific
+    language governing permissions and limitations under the License. -->
+
+<FindBugsFilter>
+    <!--  These elements are supposed to be mutable  -->
+    <Match>
+        <Package name="~org\.apache\.arrow\.driver\.jdbc\.accessor\.impl.*"/>
+        <Bug pattern="EI_EXPOSE_REP2"/>
+    </Match>
+    <Match>
+        <Class name="org.apache.arrow.driver.jdbc.client.ArrowFlightSqlClientHandler"/>
+        <Bug pattern="EI_EXPOSE_REP2"/>
+    </Match>
+    <Match>
+        <Class name="org.apache.arrow.driver.jdbc.utils.ConnectionWrapper"/>
+        <Bug pattern="EI_EXPOSE_REP2"/>
+    </Match>
+    <Match>
+        <Class name="org.apache.arrow.driver.jdbc.ArrowFlightJdbcDataSource"/>
+        <Bug pattern="EI_EXPOSE_REP2"/>
+    </Match>
+    <Match>
+        <Class name="org.apache.arrow.driver.jdbc.ArrowFlightJdbcCursor"/>
+        <Bug pattern="EI_EXPOSE_REP2"/>
+    </Match>
+
+    <Match>
+        <Class name="org.apache.arrow.driver.jdbc.ArrowFlightJdbcDataSource"/>
+        <Bug pattern="EI_EXPOSE_REP"/>
+    </Match>
+</FindBugsFilter>
diff --git a/java/flight/flight-sql-jdbc-driver/pom.xml b/java/flight/flight-sql-jdbc-driver/pom.xml
new file mode 100644
index 00000000000..4ececec8cb7
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/pom.xml
@@ -0,0 +1,263 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor
+    license agreements. See the NOTICE file distributed with this work for additional
+    information regarding copyright ownership. The ASF licenses this file to
+    You under the Apache License, Version 2.0 (the "License"); you may not use
+    this file except in compliance with the License. You may obtain a copy of
+    the License at http://www.apache.org/licenses/LICENSE-2.0 Unless required
+    by applicable law or agreed to in writing, software distributed under the
+    License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS
+    OF ANY KIND, either express or implied. See the License for the specific
+    language governing permissions and limitations under the License. -->
+
+<project xmlns="http://maven.apache.org/POM/4.0.0"
+    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
+    xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
+    <parent>
+        <artifactId>arrow-flight</artifactId>
+        <groupId>org.apache.arrow</groupId>
+        <version>11.0.0</version>
+        <relativePath>../pom.xml</relativePath>
+    </parent>
+    <modelVersion>4.0.0</modelVersion>
+
+    <artifactId>flight-sql-jdbc-driver</artifactId>
+    <name>Arrow Flight SQL JDBC Driver</name>
+    <description>(Contrib/Experimental) A JDBC driver based on Arrow Flight SQL.</description>
+    <packaging>jar</packaging>
+    <url>https://arrow.apache.org</url>
+
+    <properties>
+        <org.apache.arrow.flight.name>${project.parent.groupId}:${project.parent.artifactId}</org.apache.arrow.flight.name>
+        <org.apache.arrow.flight.version>${project.parent.version}</org.apache.arrow.flight.version>
+        <org.apache.arrow.flight.jdbc-driver.name>${project.name}</org.apache.arrow.flight.jdbc-driver.name>
+        <org.apache.arrow.flight.jdbc-driver.version>${project.version}</org.apache.arrow.flight.jdbc-driver.version>
+    </properties>
+
+    <dependencies>
+        <dependency>
+            <groupId>org.apache.arrow</groupId>
+            <artifactId>flight-core</artifactId>
+            <version>${project.version}</version>
+            <exclusions>
+                <exclusion>
+                    <groupId>io.netty</groupId>
+                    <artifactId>netty-transport-native-kqueue</artifactId>
+                </exclusion>
+                <exclusion>
+                    <groupId>io.netty</groupId>
+                    <artifactId>netty-transport-native-epoll</artifactId>
+                </exclusion>
+            </exclusions>
+        </dependency>
+
+        <!-- https://mvnrepository.com/artifact/org.apache.arrow/arrow-memory-core -->
+        <dependency>
+        <groupId>org.apache.arrow</groupId>
+            <artifactId>arrow-memory-core</artifactId>
+            <version>${project.version}</version>
+        </dependency>
+
+        <!-- https://mvnrepository.com/artifact/org.apache.arrow/arrow-memory-netty -->
+        <dependency>
+            <groupId>org.apache.arrow</groupId>
+            <artifactId>arrow-memory-netty</artifactId>
+            <version>${project.version}</version>
+            <scope>runtime</scope>
+        </dependency>
+
+        <!-- https://mvnrepository.com/artifact/org.apache.arrow/arrow-vector -->
+        <dependency>
+            <groupId>org.apache.arrow</groupId>
+            <artifactId>arrow-vector</artifactId>
+            <version>${project.version}</version>
+            <classifier>${arrow.vector.classifier}</classifier>
+            </dependency>
+
+        <dependency>
+            <groupId>com.google.guava</groupId>
+            <artifactId>guava</artifactId>
+        </dependency>
+
+        <dependency>
+            <groupId>org.slf4j</groupId>
+            <artifactId>slf4j-api</artifactId>
+            <scope>runtime</scope>
+        </dependency>
+
+        <dependency>
+            <groupId>com.google.protobuf</groupId>
+            <artifactId>protobuf-java</artifactId>
+        </dependency>
+        <dependency>
+            <groupId>org.hamcrest</groupId>
+            <artifactId>hamcrest-core</artifactId>
+            <version>1.3</version>
+            <scope>test</scope>
+        </dependency>
+
+        <dependency>
+            <groupId>commons-io</groupId>
+            <artifactId>commons-io</artifactId>
+            <version>2.7</version>
+            <scope>test</scope>
+        </dependency>
+
+        <dependency>
+            <groupId>org.mockito</groupId>
+            <artifactId>mockito-core</artifactId>
+            <version>3.12.4</version>
+            <scope>test</scope>
+        </dependency>
+
+        <dependency>
+            <groupId>org.mockito</groupId>
+            <artifactId>mockito-inline</artifactId>
+            <version>3.12.4</version>
+            <scope>test</scope>
+        </dependency>
+
+        <dependency>
+            <groupId>io.netty</groupId>
+            <artifactId>netty-common</artifactId>
+        </dependency>
+
+        <dependency>
+            <groupId>org.apache.arrow</groupId>
+            <artifactId>flight-sql</artifactId>
+            <version>${project.version}</version>
+        </dependency>
+
+        <dependency>
+            <groupId>org.apache.calcite.avatica</groupId>
+            <artifactId>avatica</artifactId>
+            <version>1.18.0</version>
+        </dependency>
+        <dependency>
+            <groupId>org.bouncycastle</groupId>
+            <artifactId>bcpkix-jdk15on</artifactId>
+            <version>1.61</version>
+        </dependency>
+
+        <dependency>
+            <groupId>joda-time</groupId>
+            <artifactId>joda-time</artifactId>
+            <version>2.10.14</version>
+        </dependency>
+    </dependencies>
+
+    <build>
+        <resources>
+            <resource>
+                <directory>src/main/resources</directory>
+            </resource>
+        </resources>
+        <plugins>
+            <plugin>
+                <artifactId>maven-surefire-plugin</artifactId>
+                <configuration>
+                    <enableAssertions>false</enableAssertions>
+                    <systemPropertyVariables>
+                        <arrow.test.dataRoot>${project.basedir}/../../../testing/data</arrow.test.dataRoot>
+                    </systemPropertyVariables>
+                </configuration>
+            </plugin>
+            <plugin>
+                <groupId>org.apache.maven.plugins</groupId>
+                <artifactId>maven-shade-plugin</artifactId>
+                <version>3.2.4</version>
+                <executions>
+                    <execution>
+                        <phase>package</phase>
+                        <goals>
+                            <goal>shade</goal>
+                        </goals>
+                        <configuration>
+                            <shadedArtifactAttached>false</shadedArtifactAttached>
+                            <createDependencyReducedPom>false</createDependencyReducedPom>
+                            <minimizeJar>false</minimizeJar>
+                            <artifactSet>
+                                <includes>
+                                    <include>*:*</include>
+                                </includes>
+                            </artifactSet>
+                            <relocations>
+                                <relocation>
+                                    <pattern>com.</pattern>
+                                    <shadedPattern>cfjd.com.</shadedPattern>
+                                    <excludes>
+                                        <exclude>com.sun.**</exclude>
+                                    </excludes>
+                                </relocation>
+                                <relocation>
+                                    <pattern>org.</pattern>
+                                    <shadedPattern>cfjd.org.</shadedPattern>
+                                    <excludes>
+                                        <exclude>org.apache.arrow.driver.jdbc.**</exclude>
+                                        <exclude>org.slf4j.**</exclude>
+                                        <!-- Avoid shading Flight JDBC Properties -->
+                                        <exclude>org.apache.arrow.flight.name</exclude>
+                                        <exclude>org.apache.arrow.flight.version</exclude>
+                                        <exclude>org.apache.arrow.flight.jdbc-driver.name</exclude>
+                                        <exclude>org.apache.arrow.flight.jdbc-driver.version</exclude>
+                                    </excludes>
+                                </relocation>
+                                <relocation>
+                                    <pattern>io.</pattern>
+                                    <shadedPattern>cfjd.io.</shadedPattern>
+                                </relocation>
+                                <!-- Entries to relocate netty native libraries  -->
+                                <relocation>
+                                    <pattern>META-INF.native.libnetty_</pattern>
+                                    <shadedPattern>META-INF.native.libcfjd_netty_</shadedPattern>
+                                </relocation>
+                                <relocation>
+                                    <pattern>META-INF.native.netty_</pattern>
+                                    <shadedPattern>META-INF.native.cfjd_netty_</shadedPattern>
+                                </relocation>
+                            </relocations>
+                            <transformers>
+                                <transformer implementation="org.apache.maven.plugins.shade.resource.ServicesResourceTransformer"/>
+                            </transformers>
+                            <filters>
+                                <filter>
+                                    <artifact>org.apache.calcite.avatica:*</artifact>
+                                    <excludes>
+                                        <exclude>META-INF/services/java.sql.Driver</exclude>
+                                    </excludes>
+                                </filter>
+                                <filter>
+                                    <artifact>*:*</artifact>
+                                    <excludes>
+                                        <exclude>**/*.SF</exclude>
+                                        <exclude>**/*.RSA</exclude>
+                                        <exclude>**/*.DSA</exclude>
+                                        <exclude>META-INF/native/libio_grpc_netty*</exclude>
+                                        <exclude>META-INF/native/io_grpc_netty_shaded*</exclude>
+                                    </excludes>
+                                </filter>
+                            </filters>
+                        </configuration>
+                    </execution>
+                </executions>
+            </plugin>
+            <plugin>
+                <groupId>org.codehaus.mojo</groupId>
+                <artifactId>properties-maven-plugin</artifactId>
+                <version>1.1.0</version>
+                <executions>
+                    <execution>
+                        <id>write-project-properties-to-file</id>
+                        <phase>generate-resources</phase>
+                        <goals>
+                            <goal>write-project-properties</goal>
+                        </goals>
+                        <configuration>
+                            <outputFile>src/main/resources/properties/flight.properties</outputFile>
+                        </configuration>
+                    </execution>
+                </executions>
+            </plugin>
+        </plugins>
+    </build>
+</project>
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowDatabaseMetadata.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowDatabaseMetadata.java
new file mode 100644
index 00000000000..da2b0b00eda
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowDatabaseMetadata.java
@@ -0,0 +1,1218 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static java.sql.Types.BIGINT;
+import static java.sql.Types.BINARY;
+import static java.sql.Types.BIT;
+import static java.sql.Types.CHAR;
+import static java.sql.Types.DATE;
+import static java.sql.Types.DECIMAL;
+import static java.sql.Types.FLOAT;
+import static java.sql.Types.INTEGER;
+import static java.sql.Types.LONGNVARCHAR;
+import static java.sql.Types.LONGVARBINARY;
+import static java.sql.Types.NUMERIC;
+import static java.sql.Types.REAL;
+import static java.sql.Types.SMALLINT;
+import static java.sql.Types.TIMESTAMP;
+import static java.sql.Types.TINYINT;
+import static java.sql.Types.VARCHAR;
+import static org.apache.arrow.flight.sql.util.SqlInfoOptionsUtils.doesBitmaskTranslateToEnum;
+
+import java.io.ByteArrayInputStream;
+import java.io.IOException;
+import java.nio.channels.Channels;
+import java.nio.charset.Charset;
+import java.nio.charset.StandardCharsets;
+import java.sql.Connection;
+import java.sql.DatabaseMetaData;
+import java.sql.ResultSet;
+import java.sql.SQLException;
+import java.util.Arrays;
+import java.util.Collections;
+import java.util.EnumMap;
+import java.util.HashMap;
+import java.util.List;
+import java.util.Map;
+import java.util.regex.Pattern;
+import java.util.stream.Collectors;
+
+import org.apache.arrow.driver.jdbc.utils.SqlTypes;
+import org.apache.arrow.driver.jdbc.utils.VectorSchemaRootTransformer;
+import org.apache.arrow.flight.FlightInfo;
+import org.apache.arrow.flight.sql.FlightSqlColumnMetadata;
+import org.apache.arrow.flight.sql.FlightSqlProducer.Schemas;
+import org.apache.arrow.flight.sql.impl.FlightSql.SqlInfo;
+import org.apache.arrow.flight.sql.impl.FlightSql.SqlOuterJoinsSupportLevel;
+import org.apache.arrow.flight.sql.impl.FlightSql.SqlSupportedElementActions;
+import org.apache.arrow.flight.sql.impl.FlightSql.SqlSupportedGroupBy;
+import org.apache.arrow.flight.sql.impl.FlightSql.SqlSupportedPositionedCommands;
+import org.apache.arrow.flight.sql.impl.FlightSql.SqlSupportedResultSetType;
+import org.apache.arrow.flight.sql.impl.FlightSql.SqlSupportedSubqueries;
+import org.apache.arrow.flight.sql.impl.FlightSql.SqlSupportedUnions;
+import org.apache.arrow.flight.sql.impl.FlightSql.SqlSupportsConvert;
+import org.apache.arrow.flight.sql.impl.FlightSql.SqlTransactionIsolationLevel;
+import org.apache.arrow.flight.sql.impl.FlightSql.SupportedAnsi92SqlGrammarLevel;
+import org.apache.arrow.flight.sql.impl.FlightSql.SupportedSqlGrammar;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.VarBinaryVector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.ipc.ReadChannel;
+import org.apache.arrow.vector.ipc.message.MessageSerializer;
+import org.apache.arrow.vector.types.Types;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.arrow.vector.util.Text;
+import org.apache.calcite.avatica.AvaticaConnection;
+import org.apache.calcite.avatica.AvaticaDatabaseMetaData;
+
+import com.google.protobuf.ProtocolMessageEnum;
+
+/**
+ * Arrow Flight JDBC's implementation of {@link DatabaseMetaData}.
+ */
+public class ArrowDatabaseMetadata extends AvaticaDatabaseMetaData {
+  private static final String JAVA_REGEX_SPECIALS = "[]()|^-+*?{}$\\.";
+  private static final Charset CHARSET = StandardCharsets.UTF_8;
+  private static final byte[] EMPTY_BYTE_ARRAY = new byte[0];
+  static final int NO_DECIMAL_DIGITS = 0;
+  private static final int BASE10_RADIX = 10;
+  static final int COLUMN_SIZE_BYTE = (int) Math.ceil((Byte.SIZE - 1) * Math.log(2) / Math.log(10));
+  static final int COLUMN_SIZE_SHORT =
+      (int) Math.ceil((Short.SIZE - 1) * Math.log(2) / Math.log(10));
+  static final int COLUMN_SIZE_INT =
+      (int) Math.ceil((Integer.SIZE - 1) * Math.log(2) / Math.log(10));
+  static final int COLUMN_SIZE_LONG = (int) Math.ceil((Long.SIZE - 1) * Math.log(2) / Math.log(10));
+  static final int COLUMN_SIZE_VARCHAR_AND_BINARY = 65536;
+  static final int COLUMN_SIZE_DATE = "YYYY-MM-DD".length();
+  static final int COLUMN_SIZE_TIME = "HH:MM:ss".length();
+  static final int COLUMN_SIZE_TIME_MILLISECONDS = "HH:MM:ss.SSS".length();
+  static final int COLUMN_SIZE_TIME_MICROSECONDS = "HH:MM:ss.SSSSSS".length();
+  static final int COLUMN_SIZE_TIME_NANOSECONDS = "HH:MM:ss.SSSSSSSSS".length();
+  static final int COLUMN_SIZE_TIMESTAMP_SECONDS = COLUMN_SIZE_DATE + 1 + COLUMN_SIZE_TIME;
+  static final int COLUMN_SIZE_TIMESTAMP_MILLISECONDS =
+      COLUMN_SIZE_DATE + 1 + COLUMN_SIZE_TIME_MILLISECONDS;
+  static final int COLUMN_SIZE_TIMESTAMP_MICROSECONDS =
+      COLUMN_SIZE_DATE + 1 + COLUMN_SIZE_TIME_MICROSECONDS;
+  static final int COLUMN_SIZE_TIMESTAMP_NANOSECONDS =
+      COLUMN_SIZE_DATE + 1 + COLUMN_SIZE_TIME_NANOSECONDS;
+  static final int DECIMAL_DIGITS_TIME_MILLISECONDS = 3;
+  static final int DECIMAL_DIGITS_TIME_MICROSECONDS = 6;
+  static final int DECIMAL_DIGITS_TIME_NANOSECONDS = 9;
+  private static final Schema GET_COLUMNS_SCHEMA = new Schema(
+      Arrays.asList(
+          Field.nullable("TABLE_CAT", Types.MinorType.VARCHAR.getType()),
+          Field.nullable("TABLE_SCHEM", Types.MinorType.VARCHAR.getType()),
+          Field.notNullable("TABLE_NAME", Types.MinorType.VARCHAR.getType()),
+          Field.notNullable("COLUMN_NAME", Types.MinorType.VARCHAR.getType()),
+          Field.nullable("DATA_TYPE", Types.MinorType.INT.getType()),
+          Field.nullable("TYPE_NAME", Types.MinorType.VARCHAR.getType()),
+          Field.nullable("COLUMN_SIZE", Types.MinorType.INT.getType()),
+          Field.nullable("BUFFER_LENGTH", Types.MinorType.INT.getType()),
+          Field.nullable("DECIMAL_DIGITS", Types.MinorType.INT.getType()),
+          Field.nullable("NUM_PREC_RADIX", Types.MinorType.INT.getType()),
+          Field.notNullable("NULLABLE", Types.MinorType.INT.getType()),
+          Field.nullable("REMARKS", Types.MinorType.VARCHAR.getType()),
+          Field.nullable("COLUMN_DEF", Types.MinorType.VARCHAR.getType()),
+          Field.nullable("SQL_DATA_TYPE", Types.MinorType.INT.getType()),
+          Field.nullable("SQL_DATETIME_SUB", Types.MinorType.INT.getType()),
+          Field.notNullable("CHAR_OCTET_LENGTH", Types.MinorType.INT.getType()),
+          Field.notNullable("ORDINAL_POSITION", Types.MinorType.INT.getType()),
+          Field.notNullable("IS_NULLABLE", Types.MinorType.VARCHAR.getType()),
+          Field.nullable("SCOPE_CATALOG", Types.MinorType.VARCHAR.getType()),
+          Field.nullable("SCOPE_SCHEMA", Types.MinorType.VARCHAR.getType()),
+          Field.nullable("SCOPE_TABLE", Types.MinorType.VARCHAR.getType()),
+          Field.nullable("SOURCE_DATA_TYPE", Types.MinorType.SMALLINT.getType()),
+          Field.notNullable("IS_AUTOINCREMENT", Types.MinorType.VARCHAR.getType()),
+          Field.notNullable("IS_GENERATEDCOLUMN", Types.MinorType.VARCHAR.getType())
+      ));
+  private final Map<SqlInfo, Object> cachedSqlInfo =
+      Collections.synchronizedMap(new EnumMap<>(SqlInfo.class));
+  private static final Map<Integer, Integer> sqlTypesToFlightEnumConvertTypes = new HashMap<>();
+
+  static {
+    sqlTypesToFlightEnumConvertTypes.put(BIT, SqlSupportsConvert.SQL_CONVERT_BIT_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(INTEGER, SqlSupportsConvert.SQL_CONVERT_INTEGER_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(NUMERIC, SqlSupportsConvert.SQL_CONVERT_NUMERIC_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(SMALLINT, SqlSupportsConvert.SQL_CONVERT_SMALLINT_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(TINYINT, SqlSupportsConvert.SQL_CONVERT_TINYINT_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(FLOAT, SqlSupportsConvert.SQL_CONVERT_FLOAT_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(BIGINT, SqlSupportsConvert.SQL_CONVERT_BIGINT_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(REAL, SqlSupportsConvert.SQL_CONVERT_REAL_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(DECIMAL, SqlSupportsConvert.SQL_CONVERT_DECIMAL_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(BINARY, SqlSupportsConvert.SQL_CONVERT_BINARY_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(LONGVARBINARY,
+        SqlSupportsConvert.SQL_CONVERT_LONGVARBINARY_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(CHAR, SqlSupportsConvert.SQL_CONVERT_CHAR_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(VARCHAR, SqlSupportsConvert.SQL_CONVERT_VARCHAR_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(LONGNVARCHAR,
+        SqlSupportsConvert.SQL_CONVERT_LONGVARCHAR_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(DATE, SqlSupportsConvert.SQL_CONVERT_DATE_VALUE);
+    sqlTypesToFlightEnumConvertTypes.put(TIMESTAMP, SqlSupportsConvert.SQL_CONVERT_TIMESTAMP_VALUE);
+  }
+
+  ArrowDatabaseMetadata(final AvaticaConnection connection) {
+    super(connection);
+  }
+
+  @Override
+  public String getDatabaseProductName() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.FLIGHT_SQL_SERVER_NAME, String.class);
+  }
+
+  @Override
+  public String getDatabaseProductVersion() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.FLIGHT_SQL_SERVER_VERSION, String.class);
+  }
+
+  @Override
+  public String getIdentifierQuoteString() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_IDENTIFIER_QUOTE_CHAR, String.class);
+  }
+
+  @Override
+  public boolean isReadOnly() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.FLIGHT_SQL_SERVER_READ_ONLY, Boolean.class);
+  }
+
+  @Override
+  public String getSQLKeywords() throws SQLException {
+    return convertListSqlInfoToString(
+        getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_KEYWORDS, List.class));
+  }
+
+  @Override
+  public String getNumericFunctions() throws SQLException {
+    return convertListSqlInfoToString(
+        getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_NUMERIC_FUNCTIONS, List.class));
+  }
+
+  @Override
+  public String getStringFunctions() throws SQLException {
+    return convertListSqlInfoToString(
+        getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_STRING_FUNCTIONS, List.class));
+  }
+
+  @Override
+  public String getSystemFunctions() throws SQLException {
+    return convertListSqlInfoToString(
+        getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SYSTEM_FUNCTIONS, List.class));
+  }
+
+  @Override
+  public String getTimeDateFunctions() throws SQLException {
+    return convertListSqlInfoToString(
+        getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_DATETIME_FUNCTIONS, List.class));
+  }
+
+  @Override
+  public String getSearchStringEscape() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SEARCH_STRING_ESCAPE, String.class);
+  }
+
+  @Override
+  public String getExtraNameCharacters() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_EXTRA_NAME_CHARACTERS, String.class);
+  }
+
+  @Override
+  public boolean supportsColumnAliasing() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTS_COLUMN_ALIASING, Boolean.class);
+  }
+
+  @Override
+  public boolean nullPlusNonNullIsNull() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_NULL_PLUS_NULL_IS_NULL, Boolean.class);
+  }
+
+  @Override
+  public boolean supportsConvert() throws SQLException {
+    return !getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTS_CONVERT, Map.class).isEmpty();
+  }
+
+  @Override
+  public boolean supportsConvert(final int fromType, final int toType) throws SQLException {
+    final Map<Integer, List<Integer>> sqlSupportsConvert =
+        getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTS_CONVERT, Map.class);
+
+    if (!sqlTypesToFlightEnumConvertTypes.containsKey(fromType)) {
+      return false;
+    }
+
+    final List<Integer> list =
+        sqlSupportsConvert.get(sqlTypesToFlightEnumConvertTypes.get(fromType));
+
+    return list != null && list.contains(sqlTypesToFlightEnumConvertTypes.get(toType));
+  }
+
+  @Override
+  public boolean supportsTableCorrelationNames() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTS_TABLE_CORRELATION_NAMES,
+        Boolean.class);
+  }
+
+  @Override
+  public boolean supportsDifferentTableCorrelationNames() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES,
+        Boolean.class);
+  }
+
+  @Override
+  public boolean supportsExpressionsInOrderBy() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTS_EXPRESSIONS_IN_ORDER_BY,
+        Boolean.class);
+  }
+
+  @Override
+  public boolean supportsOrderByUnrelated() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTS_ORDER_BY_UNRELATED, Boolean.class);
+  }
+
+  @Override
+  public boolean supportsGroupBy() throws SQLException {
+    final int bitmask =
+        getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_GROUP_BY, Integer.class);
+    return bitmask != 0;
+  }
+
+  @Override
+  public boolean supportsGroupByUnrelated() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_GROUP_BY,
+        SqlSupportedGroupBy.SQL_GROUP_BY_UNRELATED);
+  }
+
+  @Override
+  public boolean supportsLikeEscapeClause() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTS_LIKE_ESCAPE_CLAUSE, Boolean.class);
+  }
+
+  @Override
+  public boolean supportsNonNullableColumns() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTS_NON_NULLABLE_COLUMNS,
+        Boolean.class);
+  }
+
+  @Override
+  public boolean supportsMinimumSQLGrammar() throws SQLException {
+    return checkEnumLevel(
+        Arrays.asList(getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_GRAMMAR,
+                SupportedSqlGrammar.SQL_EXTENDED_GRAMMAR),
+            getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_GRAMMAR,
+                SupportedSqlGrammar.SQL_CORE_GRAMMAR),
+            getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_GRAMMAR,
+                SupportedSqlGrammar.SQL_MINIMUM_GRAMMAR)));
+  }
+
+  @Override
+  public boolean supportsCoreSQLGrammar() throws SQLException {
+    return checkEnumLevel(
+        Arrays.asList(getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_GRAMMAR,
+                SupportedSqlGrammar.SQL_EXTENDED_GRAMMAR),
+            getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_GRAMMAR,
+                SupportedSqlGrammar.SQL_CORE_GRAMMAR)));
+  }
+
+  @Override
+  public boolean supportsExtendedSQLGrammar() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_GRAMMAR,
+        SupportedSqlGrammar.SQL_EXTENDED_GRAMMAR);
+  }
+
+  @Override
+  public boolean supportsANSI92EntryLevelSQL() throws SQLException {
+    return checkEnumLevel(
+        Arrays.asList(getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_ANSI92_SUPPORTED_LEVEL,
+                SupportedAnsi92SqlGrammarLevel.ANSI92_ENTRY_SQL),
+            getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_ANSI92_SUPPORTED_LEVEL,
+                SupportedAnsi92SqlGrammarLevel.ANSI92_INTERMEDIATE_SQL),
+            getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_ANSI92_SUPPORTED_LEVEL,
+                SupportedAnsi92SqlGrammarLevel.ANSI92_FULL_SQL)));
+  }
+
+  @Override
+  public boolean supportsANSI92IntermediateSQL() throws SQLException {
+    return checkEnumLevel(
+        Arrays.asList(getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_ANSI92_SUPPORTED_LEVEL,
+                SupportedAnsi92SqlGrammarLevel.ANSI92_ENTRY_SQL),
+            getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_ANSI92_SUPPORTED_LEVEL,
+                SupportedAnsi92SqlGrammarLevel.ANSI92_INTERMEDIATE_SQL)));
+  }
+
+  @Override
+  public boolean supportsANSI92FullSQL() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_ANSI92_SUPPORTED_LEVEL,
+        SupportedAnsi92SqlGrammarLevel.ANSI92_FULL_SQL);
+  }
+
+  @Override
+  public boolean supportsIntegrityEnhancementFacility() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY,
+        Boolean.class);
+  }
+
+  @Override
+  public boolean supportsOuterJoins() throws SQLException {
+    final int bitmask =
+        getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_OUTER_JOINS_SUPPORT_LEVEL, Integer.class);
+    return bitmask != 0;
+  }
+
+  @Override
+  public boolean supportsFullOuterJoins() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_OUTER_JOINS_SUPPORT_LEVEL,
+        SqlOuterJoinsSupportLevel.SQL_FULL_OUTER_JOINS);
+  }
+
+  @Override
+  public boolean supportsLimitedOuterJoins() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_OUTER_JOINS_SUPPORT_LEVEL,
+        SqlOuterJoinsSupportLevel.SQL_LIMITED_OUTER_JOINS);
+  }
+
+  @Override
+  public String getSchemaTerm() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SCHEMA_TERM, String.class);
+  }
+
+  @Override
+  public String getProcedureTerm() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_PROCEDURE_TERM, String.class);
+  }
+
+  @Override
+  public String getCatalogTerm() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_CATALOG_TERM, String.class);
+  }
+
+  @Override
+  public boolean isCatalogAtStart() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_CATALOG_AT_START, Boolean.class);
+  }
+
+  @Override
+  public boolean supportsSchemasInProcedureCalls() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SCHEMAS_SUPPORTED_ACTIONS,
+        SqlSupportedElementActions.SQL_ELEMENT_IN_PROCEDURE_CALLS);
+  }
+
+  @Override
+  public boolean supportsSchemasInIndexDefinitions() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SCHEMAS_SUPPORTED_ACTIONS,
+        SqlSupportedElementActions.SQL_ELEMENT_IN_INDEX_DEFINITIONS);
+  }
+
+  @Override
+  public boolean supportsSchemasInPrivilegeDefinitions() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SCHEMAS_SUPPORTED_ACTIONS,
+        SqlSupportedElementActions.SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS);
+  }
+
+  @Override
+  public boolean supportsCatalogsInIndexDefinitions() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_CATALOGS_SUPPORTED_ACTIONS,
+        SqlSupportedElementActions.SQL_ELEMENT_IN_INDEX_DEFINITIONS);
+  }
+
+  @Override
+  public boolean supportsCatalogsInPrivilegeDefinitions() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_CATALOGS_SUPPORTED_ACTIONS,
+        SqlSupportedElementActions.SQL_ELEMENT_IN_PRIVILEGE_DEFINITIONS);
+  }
+
+  @Override
+  public boolean supportsPositionedDelete() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_POSITIONED_COMMANDS,
+        SqlSupportedPositionedCommands.SQL_POSITIONED_DELETE);
+  }
+
+  @Override
+  public boolean supportsPositionedUpdate() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_POSITIONED_COMMANDS,
+        SqlSupportedPositionedCommands.SQL_POSITIONED_UPDATE);
+  }
+
+  @Override
+  public boolean supportsResultSetType(final int type) throws SQLException {
+    final int bitmask =
+        getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_RESULT_SET_TYPES, Integer.class);
+
+    switch (type) {
+      case ResultSet.TYPE_FORWARD_ONLY:
+        return doesBitmaskTranslateToEnum(SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_FORWARD_ONLY,
+            bitmask);
+      case ResultSet.TYPE_SCROLL_INSENSITIVE:
+        return doesBitmaskTranslateToEnum(SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE,
+            bitmask);
+      case ResultSet.TYPE_SCROLL_SENSITIVE:
+        return doesBitmaskTranslateToEnum(SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_SENSITIVE,
+            bitmask);
+      default:
+        throw new SQLException(
+            "Invalid result set type argument. The informed type is not defined in java.sql.ResultSet.");
+    }
+  }
+
+  @Override
+  public boolean supportsSelectForUpdate() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SELECT_FOR_UPDATE_SUPPORTED, Boolean.class);
+  }
+
+  @Override
+  public boolean supportsStoredProcedures() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_STORED_PROCEDURES_SUPPORTED, Boolean.class);
+  }
+
+  @Override
+  public boolean supportsSubqueriesInComparisons() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_SUBQUERIES,
+        SqlSupportedSubqueries.SQL_SUBQUERIES_IN_COMPARISONS);
+  }
+
+  @Override
+  public boolean supportsSubqueriesInExists() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_SUBQUERIES,
+        SqlSupportedSubqueries.SQL_SUBQUERIES_IN_EXISTS);
+  }
+
+  @Override
+  public boolean supportsSubqueriesInIns() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_SUBQUERIES,
+        SqlSupportedSubqueries.SQL_SUBQUERIES_IN_INS);
+  }
+
+  @Override
+  public boolean supportsSubqueriesInQuantifieds() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_SUBQUERIES,
+        SqlSupportedSubqueries.SQL_SUBQUERIES_IN_QUANTIFIEDS);
+  }
+
+  @Override
+  public boolean supportsCorrelatedSubqueries() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_CORRELATED_SUBQUERIES_SUPPORTED,
+        Boolean.class);
+  }
+
+  @Override
+  public boolean supportsUnion() throws SQLException {
+    final int bitmask =
+        getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_UNIONS, Integer.class);
+    return bitmask != 0;
+  }
+
+  @Override
+  public boolean supportsUnionAll() throws SQLException {
+    return getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_UNIONS,
+        SqlSupportedUnions.SQL_UNION_ALL);
+  }
+
+  @Override
+  public int getMaxBinaryLiteralLength() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_BINARY_LITERAL_LENGTH,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxCharLiteralLength() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_CHAR_LITERAL_LENGTH,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxColumnNameLength() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_COLUMN_NAME_LENGTH,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxColumnsInGroupBy() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_COLUMNS_IN_GROUP_BY,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxColumnsInIndex() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_COLUMNS_IN_INDEX,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxColumnsInOrderBy() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_COLUMNS_IN_ORDER_BY,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxColumnsInSelect() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_COLUMNS_IN_SELECT,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxColumnsInTable() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_COLUMNS_IN_TABLE,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxConnections() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_CONNECTIONS, Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxCursorNameLength() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_CURSOR_NAME_LENGTH,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxIndexLength() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_INDEX_LENGTH, Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxSchemaNameLength() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_DB_SCHEMA_NAME_LENGTH,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxProcedureNameLength() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_PROCEDURE_NAME_LENGTH,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxCatalogNameLength() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_CATALOG_NAME_LENGTH,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxRowSize() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_ROW_SIZE, Long.class).intValue();
+  }
+
+  @Override
+  public boolean doesMaxRowSizeIncludeBlobs() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_ROW_SIZE_INCLUDES_BLOBS, Boolean.class);
+  }
+
+  @Override
+  public int getMaxStatementLength() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_STATEMENT_LENGTH,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxStatements() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_STATEMENTS, Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxTableNameLength() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_TABLE_NAME_LENGTH,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxTablesInSelect() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_TABLES_IN_SELECT,
+        Long.class).intValue();
+  }
+
+  @Override
+  public int getMaxUserNameLength() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_MAX_USERNAME_LENGTH, Long.class).intValue();
+  }
+
+  @Override
+  public int getDefaultTransactionIsolation() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_DEFAULT_TRANSACTION_ISOLATION,
+        Long.class).intValue();
+  }
+
+  @Override
+  public boolean supportsTransactions() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_TRANSACTIONS_SUPPORTED, Boolean.class);
+  }
+
+  @Override
+  public boolean supportsTransactionIsolationLevel(final int level) throws SQLException {
+    final int bitmask =
+        getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SUPPORTED_TRANSACTIONS_ISOLATION_LEVELS,
+            Integer.class);
+
+    switch (level) {
+      case Connection.TRANSACTION_NONE:
+        return doesBitmaskTranslateToEnum(SqlTransactionIsolationLevel.SQL_TRANSACTION_NONE, bitmask);
+      case Connection.TRANSACTION_READ_COMMITTED:
+        return doesBitmaskTranslateToEnum(SqlTransactionIsolationLevel.SQL_TRANSACTION_READ_COMMITTED,
+            bitmask);
+      case Connection.TRANSACTION_READ_UNCOMMITTED:
+        return doesBitmaskTranslateToEnum(SqlTransactionIsolationLevel.SQL_TRANSACTION_READ_UNCOMMITTED,
+            bitmask);
+      case Connection.TRANSACTION_REPEATABLE_READ:
+        return doesBitmaskTranslateToEnum(SqlTransactionIsolationLevel.SQL_TRANSACTION_REPEATABLE_READ,
+            bitmask);
+      case Connection.TRANSACTION_SERIALIZABLE:
+        return doesBitmaskTranslateToEnum(SqlTransactionIsolationLevel.SQL_TRANSACTION_SERIALIZABLE,
+            bitmask);
+      default:
+        throw new SQLException(
+            "Invalid transaction isolation level argument. The informed level is not defined in java.sql.Connection.");
+    }
+  }
+
+  @Override
+  public boolean dataDefinitionCausesTransactionCommit() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT,
+        Boolean.class);
+  }
+
+  @Override
+  public boolean dataDefinitionIgnoredInTransactions() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED,
+        Boolean.class);
+  }
+
+  @Override
+  public boolean supportsBatchUpdates() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_BATCH_UPDATES_SUPPORTED, Boolean.class);
+  }
+
+  @Override
+  public boolean supportsSavepoints() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_SAVEPOINTS_SUPPORTED, Boolean.class);
+  }
+
+  @Override
+  public boolean supportsNamedParameters() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_NAMED_PARAMETERS_SUPPORTED, Boolean.class);
+  }
+
+  @Override
+  public boolean locatorsUpdateCopy() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(SqlInfo.SQL_LOCATORS_UPDATE_COPY, Boolean.class);
+  }
+
+  @Override
+  public boolean supportsStoredFunctionsUsingCallSyntax() throws SQLException {
+    return getSqlInfoAndCacheIfCacheIsEmpty(
+        SqlInfo.SQL_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED, Boolean.class);
+  }
+
+  @Override
+  public ArrowFlightConnection getConnection() throws SQLException {
+    return (ArrowFlightConnection) super.getConnection();
+  }
+
+  private <T> T getSqlInfoAndCacheIfCacheIsEmpty(final SqlInfo sqlInfoCommand,
+                                                 final Class<T> desiredType)
+      throws SQLException {
+    final ArrowFlightConnection connection = getConnection();
+    if (cachedSqlInfo.isEmpty()) {
+      final FlightInfo sqlInfo = connection.getClientHandler().getSqlInfo();
+      synchronized (cachedSqlInfo) {
+        if (cachedSqlInfo.isEmpty()) {
+          try (final ResultSet resultSet =
+                   ArrowFlightJdbcFlightStreamResultSet.fromFlightInfo(
+                       connection, sqlInfo, null)) {
+            while (resultSet.next()) {
+              cachedSqlInfo.put(SqlInfo.forNumber((Integer) resultSet.getObject("info_name")),
+                  resultSet.getObject("value"));
+            }
+          }
+        }
+      }
+    }
+    return desiredType.cast(cachedSqlInfo.get(sqlInfoCommand));
+  }
+
+  private String convertListSqlInfoToString(final List<?> sqlInfoList) {
+    return sqlInfoList.stream().map(Object::toString).collect(Collectors.joining(", "));
+  }
+
+  private boolean getSqlInfoEnumOptionAndCacheIfCacheIsEmpty(
+      final SqlInfo sqlInfoCommand,
+      final ProtocolMessageEnum enumInstance
+  ) throws SQLException {
+    final int bitmask = getSqlInfoAndCacheIfCacheIsEmpty(sqlInfoCommand, Integer.class);
+    return doesBitmaskTranslateToEnum(enumInstance, bitmask);
+  }
+
+  private boolean checkEnumLevel(final List<Boolean> toCheck) {
+    return toCheck.stream().anyMatch(e -> e);
+  }
+
+  @Override
+  public ResultSet getCatalogs() throws SQLException {
+    final ArrowFlightConnection connection = getConnection();
+    final FlightInfo flightInfoCatalogs = connection.getClientHandler().getCatalogs();
+
+    final BufferAllocator allocator = connection.getBufferAllocator();
+    final VectorSchemaRootTransformer transformer =
+        new VectorSchemaRootTransformer.Builder(Schemas.GET_CATALOGS_SCHEMA, allocator)
+            .renameFieldVector("catalog_name", "TABLE_CAT")
+            .build();
+    return ArrowFlightJdbcFlightStreamResultSet.fromFlightInfo(connection, flightInfoCatalogs,
+        transformer);
+  }
+
+  @Override
+  public ResultSet getImportedKeys(final String catalog, final String schema, final String table)
+      throws SQLException {
+    final ArrowFlightConnection connection = getConnection();
+    final FlightInfo flightInfoImportedKeys =
+        connection.getClientHandler().getImportedKeys(catalog, schema, table);
+
+    final BufferAllocator allocator = connection.getBufferAllocator();
+    final VectorSchemaRootTransformer transformer = getForeignKeysTransformer(allocator);
+    return ArrowFlightJdbcFlightStreamResultSet.fromFlightInfo(connection, flightInfoImportedKeys,
+        transformer);
+  }
+
+  @Override
+  public ResultSet getExportedKeys(final String catalog, final String schema, final String table)
+      throws SQLException {
+    final ArrowFlightConnection connection = getConnection();
+    final FlightInfo flightInfoExportedKeys =
+        connection.getClientHandler().getExportedKeys(catalog, schema, table);
+
+    final BufferAllocator allocator = connection.getBufferAllocator();
+    final VectorSchemaRootTransformer transformer = getForeignKeysTransformer(allocator);
+    return ArrowFlightJdbcFlightStreamResultSet.fromFlightInfo(connection, flightInfoExportedKeys,
+        transformer);
+  }
+
+  @Override
+  public ResultSet getCrossReference(final String parentCatalog, final String parentSchema,
+                                     final String parentTable,
+                                     final String foreignCatalog, final String foreignSchema,
+                                     final String foreignTable)
+      throws SQLException {
+    final ArrowFlightConnection connection = getConnection();
+    final FlightInfo flightInfoCrossReference = connection.getClientHandler().getCrossReference(
+        parentCatalog, parentSchema, parentTable, foreignCatalog, foreignSchema, foreignTable);
+
+    final BufferAllocator allocator = connection.getBufferAllocator();
+    final VectorSchemaRootTransformer transformer = getForeignKeysTransformer(allocator);
+    return ArrowFlightJdbcFlightStreamResultSet.fromFlightInfo(connection, flightInfoCrossReference,
+        transformer);
+  }
+
+  /**
+   * Transformer used on getImportedKeys, getExportedKeys and getCrossReference methods, since
+   * all three share the same schema.
+   */
+  private VectorSchemaRootTransformer getForeignKeysTransformer(final BufferAllocator allocator) {
+    return new VectorSchemaRootTransformer.Builder(Schemas.GET_IMPORTED_KEYS_SCHEMA,
+        allocator)
+        .renameFieldVector("pk_catalog_name", "PKTABLE_CAT")
+        .renameFieldVector("pk_db_schema_name", "PKTABLE_SCHEM")
+        .renameFieldVector("pk_table_name", "PKTABLE_NAME")
+        .renameFieldVector("pk_column_name", "PKCOLUMN_NAME")
+        .renameFieldVector("fk_catalog_name", "FKTABLE_CAT")
+        .renameFieldVector("fk_db_schema_name", "FKTABLE_SCHEM")
+        .renameFieldVector("fk_table_name", "FKTABLE_NAME")
+        .renameFieldVector("fk_column_name", "FKCOLUMN_NAME")
+        .renameFieldVector("key_sequence", "KEY_SEQ")
+        .renameFieldVector("fk_key_name", "FK_NAME")
+        .renameFieldVector("pk_key_name", "PK_NAME")
+        .renameFieldVector("update_rule", "UPDATE_RULE")
+        .renameFieldVector("delete_rule", "DELETE_RULE")
+        .addEmptyField("DEFERRABILITY", new ArrowType.Int(Byte.SIZE, false))
+        .build();
+  }
+
+  @Override
+  public ResultSet getSchemas(final String catalog, final String schemaPattern)
+      throws SQLException {
+    final ArrowFlightConnection connection = getConnection();
+    final FlightInfo flightInfoSchemas =
+        connection.getClientHandler().getSchemas(catalog, schemaPattern);
+
+    final BufferAllocator allocator = connection.getBufferAllocator();
+    final VectorSchemaRootTransformer transformer =
+        new VectorSchemaRootTransformer.Builder(Schemas.GET_SCHEMAS_SCHEMA, allocator)
+            .renameFieldVector("db_schema_name", "TABLE_SCHEM")
+            .renameFieldVector("catalog_name", "TABLE_CATALOG")
+            .build();
+    return ArrowFlightJdbcFlightStreamResultSet.fromFlightInfo(connection, flightInfoSchemas,
+        transformer);
+  }
+
+  @Override
+  public ResultSet getTableTypes() throws SQLException {
+    final ArrowFlightConnection connection = getConnection();
+    final FlightInfo flightInfoTableTypes = connection.getClientHandler().getTableTypes();
+
+    final BufferAllocator allocator = connection.getBufferAllocator();
+    final VectorSchemaRootTransformer transformer =
+        new VectorSchemaRootTransformer.Builder(Schemas.GET_TABLE_TYPES_SCHEMA, allocator)
+            .renameFieldVector("table_type", "TABLE_TYPE")
+            .build();
+    return ArrowFlightJdbcFlightStreamResultSet.fromFlightInfo(connection, flightInfoTableTypes,
+        transformer);
+  }
+
+  @Override
+  public ResultSet getTables(final String catalog, final String schemaPattern,
+                             final String tableNamePattern,
+                             final String[] types)
+      throws SQLException {
+    final ArrowFlightConnection connection = getConnection();
+    final List<String> typesList = types == null ? null : Arrays.asList(types);
+    final FlightInfo flightInfoTables =
+        connection.getClientHandler()
+            .getTables(catalog, schemaPattern, tableNamePattern, typesList, false);
+
+    final BufferAllocator allocator = connection.getBufferAllocator();
+    final VectorSchemaRootTransformer transformer =
+        new VectorSchemaRootTransformer.Builder(Schemas.GET_TABLES_SCHEMA_NO_SCHEMA, allocator)
+            .renameFieldVector("catalog_name", "TABLE_CAT")
+            .renameFieldVector("db_schema_name", "TABLE_SCHEM")
+            .renameFieldVector("table_name", "TABLE_NAME")
+            .renameFieldVector("table_type", "TABLE_TYPE")
+            .addEmptyField("REMARKS", Types.MinorType.VARBINARY)
+            .addEmptyField("TYPE_CAT", Types.MinorType.VARBINARY)
+            .addEmptyField("TYPE_SCHEM", Types.MinorType.VARBINARY)
+            .addEmptyField("TYPE_NAME", Types.MinorType.VARBINARY)
+            .addEmptyField("SELF_REFERENCING_COL_NAME", Types.MinorType.VARBINARY)
+            .addEmptyField("REF_GENERATION", Types.MinorType.VARBINARY)
+            .build();
+    return ArrowFlightJdbcFlightStreamResultSet.fromFlightInfo(connection, flightInfoTables,
+        transformer);
+  }
+
+  @Override
+  public ResultSet getPrimaryKeys(final String catalog, final String schema, final String table)
+      throws SQLException {
+    final ArrowFlightConnection connection = getConnection();
+    final FlightInfo flightInfoPrimaryKeys =
+        connection.getClientHandler().getPrimaryKeys(catalog, schema, table);
+
+    final BufferAllocator allocator = connection.getBufferAllocator();
+    final VectorSchemaRootTransformer transformer =
+        new VectorSchemaRootTransformer.Builder(Schemas.GET_PRIMARY_KEYS_SCHEMA, allocator)
+            .renameFieldVector("catalog_name", "TABLE_CAT")
+            .renameFieldVector("db_schema_name", "TABLE_SCHEM")
+            .renameFieldVector("table_name", "TABLE_NAME")
+            .renameFieldVector("column_name", "COLUMN_NAME")
+            .renameFieldVector("key_sequence", "KEY_SEQ")
+            .renameFieldVector("key_name", "PK_NAME")
+            .build();
+    return ArrowFlightJdbcFlightStreamResultSet.fromFlightInfo(connection, flightInfoPrimaryKeys,
+        transformer);
+  }
+
+  @Override
+  public ResultSet getColumns(final String catalog, final String schemaPattern,
+                              final String tableNamePattern,
+                              final String columnNamePattern)
+      throws SQLException {
+    final ArrowFlightConnection connection = getConnection();
+    final FlightInfo flightInfoTables =
+        connection.getClientHandler()
+            .getTables(catalog, schemaPattern, tableNamePattern, null, true);
+
+    final BufferAllocator allocator = connection.getBufferAllocator();
+
+    final Pattern columnNamePat =
+        columnNamePattern != null ? Pattern.compile(sqlToRegexLike(columnNamePattern)) : null;
+
+    return ArrowFlightJdbcFlightStreamResultSet.fromFlightInfo(connection, flightInfoTables,
+        (originalRoot, transformedRoot) -> {
+          int columnCounter = 0;
+          if (transformedRoot == null) {
+            transformedRoot = VectorSchemaRoot.create(GET_COLUMNS_SCHEMA, allocator);
+          }
+
+          final int originalRootRowCount = originalRoot.getRowCount();
+
+          final VarCharVector catalogNameVector =
+              (VarCharVector) originalRoot.getVector("catalog_name");
+          final VarCharVector tableNameVector =
+              (VarCharVector) originalRoot.getVector("table_name");
+          final VarCharVector schemaNameVector =
+              (VarCharVector) originalRoot.getVector("db_schema_name");
+
+          final VarBinaryVector schemaVector =
+              (VarBinaryVector) originalRoot.getVector("table_schema");
+
+          for (int i = 0; i < originalRootRowCount; i++) {
+            final Text catalogName = catalogNameVector.getObject(i);
+            final Text tableName = tableNameVector.getObject(i);
+            final Text schemaName = schemaNameVector.getObject(i);
+
+            final Schema currentSchema;
+            try {
+              currentSchema = MessageSerializer.deserializeSchema(
+                  new ReadChannel(Channels.newChannel(
+                      new ByteArrayInputStream(schemaVector.get(i)))));
+            } catch (final IOException e) {
+              throw new IOException(
+                  String.format("Failed to deserialize schema for table %s", tableName), e);
+            }
+            final List<Field> tableColumns = currentSchema.getFields();
+
+            columnCounter = setGetColumnsVectorSchemaRootFromFields(transformedRoot, columnCounter,
+                tableColumns,
+                catalogName, tableName, schemaName, columnNamePat);
+          }
+
+          transformedRoot.setRowCount(columnCounter);
+
+          originalRoot.clear();
+          return transformedRoot;
+        });
+  }
+
+  private int setGetColumnsVectorSchemaRootFromFields(final VectorSchemaRoot currentRoot,
+                                                      int insertIndex,
+                                                      final List<Field> tableColumns,
+                                                      final Text catalogName,
+                                                      final Text tableName, final Text schemaName,
+                                                      final Pattern columnNamePattern) {
+    int ordinalIndex = 1;
+    final int tableColumnsSize = tableColumns.size();
+
+    final VarCharVector tableCatVector = (VarCharVector) currentRoot.getVector("TABLE_CAT");
+    final VarCharVector tableSchemVector = (VarCharVector) currentRoot.getVector("TABLE_SCHEM");
+    final VarCharVector tableNameVector = (VarCharVector) currentRoot.getVector("TABLE_NAME");
+    final VarCharVector columnNameVector = (VarCharVector) currentRoot.getVector("COLUMN_NAME");
+    final IntVector dataTypeVector = (IntVector) currentRoot.getVector("DATA_TYPE");
+    final VarCharVector typeNameVector = (VarCharVector) currentRoot.getVector("TYPE_NAME");
+    final IntVector columnSizeVector = (IntVector) currentRoot.getVector("COLUMN_SIZE");
+    final IntVector decimalDigitsVector = (IntVector) currentRoot.getVector("DECIMAL_DIGITS");
+    final IntVector numPrecRadixVector = (IntVector) currentRoot.getVector("NUM_PREC_RADIX");
+    final IntVector nullableVector = (IntVector) currentRoot.getVector("NULLABLE");
+    final IntVector ordinalPositionVector = (IntVector) currentRoot.getVector("ORDINAL_POSITION");
+    final VarCharVector isNullableVector = (VarCharVector) currentRoot.getVector("IS_NULLABLE");
+    final VarCharVector isAutoincrementVector = (VarCharVector) currentRoot.getVector("IS_AUTOINCREMENT");
+    final VarCharVector isGeneratedColumnVector = (VarCharVector) currentRoot.getVector("IS_GENERATEDCOLUMN");
+
+    for (int i = 0; i < tableColumnsSize; i++, ordinalIndex++) {
+      final Field field = tableColumns.get(i);
+      final FlightSqlColumnMetadata columnMetadata = new FlightSqlColumnMetadata(field.getMetadata());
+      final String columnName = field.getName();
+
+      if (columnNamePattern != null && !columnNamePattern.matcher(columnName).matches()) {
+        continue;
+      }
+      final ArrowType fieldType = field.getType();
+
+      if (catalogName != null) {
+        tableCatVector.setSafe(insertIndex, catalogName);
+      }
+
+      if (schemaName != null) {
+        tableSchemVector.setSafe(insertIndex, schemaName);
+      }
+
+      if (tableName != null) {
+        tableNameVector.setSafe(insertIndex, tableName);
+      }
+
+      if (columnName != null) {
+        columnNameVector.setSafe(insertIndex, columnName.getBytes(CHARSET));
+      }
+
+      dataTypeVector.setSafe(insertIndex, SqlTypes.getSqlTypeIdFromArrowType(fieldType));
+      byte[] typeName = columnMetadata.getTypeName() != null ?
+          columnMetadata.getTypeName().getBytes(CHARSET) :
+          SqlTypes.getSqlTypeNameFromArrowType(fieldType).getBytes(CHARSET);
+      typeNameVector.setSafe(insertIndex, typeName);
+
+      // We're not setting COLUMN_SIZE for ROWID SQL Types, as there's no such Arrow type.
+      // We're not setting COLUMN_SIZE nor DECIMAL_DIGITS for Float/Double as their precision and scale are variable.
+      if (fieldType instanceof ArrowType.Decimal) {
+        numPrecRadixVector.setSafe(insertIndex, BASE10_RADIX);
+      } else if (fieldType instanceof ArrowType.Int) {
+        numPrecRadixVector.setSafe(insertIndex, BASE10_RADIX);
+      } else if (fieldType instanceof ArrowType.FloatingPoint) {
+        numPrecRadixVector.setSafe(insertIndex, BASE10_RADIX);
+      }
+
+      Integer decimalDigits = columnMetadata.getScale();
+      if (decimalDigits == null) {
+        decimalDigits = getDecimalDigits(fieldType);
+      }
+      if (decimalDigits != null) {
+        decimalDigitsVector.setSafe(insertIndex, decimalDigits);
+      }
+
+      Integer columnSize = columnMetadata.getPrecision();
+      if (columnSize == null) {
+        columnSize = getColumnSize(fieldType);
+      }
+      if (columnSize != null) {
+        columnSizeVector.setSafe(insertIndex, columnSize);
+      }
+
+      nullableVector.setSafe(insertIndex, field.isNullable() ? 1 : 0);
+
+      isNullableVector.setSafe(insertIndex, booleanToYesOrNo(field.isNullable()));
+
+      Boolean autoIncrement = columnMetadata.isAutoIncrement();
+      if (autoIncrement != null) {
+        isAutoincrementVector.setSafe(insertIndex, booleanToYesOrNo(autoIncrement));
+      } else {
+        isAutoincrementVector.setSafe(insertIndex, EMPTY_BYTE_ARRAY);
+      }
+
+      // Fields also don't hold information about IS_AUTOINCREMENT and IS_GENERATEDCOLUMN,
+      // so we're setting an empty string (as bytes), which means it couldn't be determined.
+      isGeneratedColumnVector.setSafe(insertIndex, EMPTY_BYTE_ARRAY);
+
+      ordinalPositionVector.setSafe(insertIndex, ordinalIndex);
+
+      insertIndex++;
+    }
+    return insertIndex;
+  }
+
+  private static byte[] booleanToYesOrNo(boolean autoIncrement) {
+    return autoIncrement ? "YES".getBytes(CHARSET) : "NO".getBytes(CHARSET);
+  }
+
+  static Integer getDecimalDigits(final ArrowType fieldType) {
+    // We're not setting  DECIMAL_DIGITS for Float/Double as their precision and scale are variable.
+    if (fieldType instanceof ArrowType.Decimal) {
+      final ArrowType.Decimal thisDecimal = (ArrowType.Decimal) fieldType;
+      return thisDecimal.getScale();
+    } else if (fieldType instanceof ArrowType.Int) {
+      return NO_DECIMAL_DIGITS;
+    } else if (fieldType instanceof ArrowType.Timestamp) {
+      switch (((ArrowType.Timestamp) fieldType).getUnit()) {
+        case SECOND:
+          return NO_DECIMAL_DIGITS;
+        case MILLISECOND:
+          return DECIMAL_DIGITS_TIME_MILLISECONDS;
+        case MICROSECOND:
+          return DECIMAL_DIGITS_TIME_MICROSECONDS;
+        case NANOSECOND:
+          return DECIMAL_DIGITS_TIME_NANOSECONDS;
+        default:
+          break;
+      }
+    } else if (fieldType instanceof ArrowType.Time) {
+      switch (((ArrowType.Time) fieldType).getUnit()) {
+        case SECOND:
+          return NO_DECIMAL_DIGITS;
+        case MILLISECOND:
+          return DECIMAL_DIGITS_TIME_MILLISECONDS;
+        case MICROSECOND:
+          return DECIMAL_DIGITS_TIME_MICROSECONDS;
+        case NANOSECOND:
+          return DECIMAL_DIGITS_TIME_NANOSECONDS;
+        default:
+          break;
+      }
+    } else if (fieldType instanceof ArrowType.Date) {
+      return NO_DECIMAL_DIGITS;
+    }
+
+    return null;
+  }
+
+  static Integer getColumnSize(final ArrowType fieldType) {
+    // We're not setting COLUMN_SIZE for ROWID SQL Types, as there's no such Arrow type.
+    // We're not setting COLUMN_SIZE nor DECIMAL_DIGITS for Float/Double as their precision and scale are variable.
+    if (fieldType instanceof ArrowType.Decimal) {
+      final ArrowType.Decimal thisDecimal = (ArrowType.Decimal) fieldType;
+      return thisDecimal.getPrecision();
+    } else if (fieldType instanceof ArrowType.Int) {
+      final ArrowType.Int thisInt = (ArrowType.Int) fieldType;
+      switch (thisInt.getBitWidth()) {
+        case Byte.SIZE:
+          return COLUMN_SIZE_BYTE;
+        case Short.SIZE:
+          return COLUMN_SIZE_SHORT;
+        case Integer.SIZE:
+          return COLUMN_SIZE_INT;
+        case Long.SIZE:
+          return COLUMN_SIZE_LONG;
+        default:
+          break;
+      }
+    } else if (fieldType instanceof ArrowType.Utf8 || fieldType instanceof ArrowType.Binary) {
+      return COLUMN_SIZE_VARCHAR_AND_BINARY;
+    } else if (fieldType instanceof ArrowType.Timestamp) {
+      switch (((ArrowType.Timestamp) fieldType).getUnit()) {
+        case SECOND:
+          return COLUMN_SIZE_TIMESTAMP_SECONDS;
+        case MILLISECOND:
+          return COLUMN_SIZE_TIMESTAMP_MILLISECONDS;
+        case MICROSECOND:
+          return COLUMN_SIZE_TIMESTAMP_MICROSECONDS;
+        case NANOSECOND:
+          return COLUMN_SIZE_TIMESTAMP_NANOSECONDS;
+        default:
+          break;
+      }
+    } else if (fieldType instanceof ArrowType.Time) {
+      switch (((ArrowType.Time) fieldType).getUnit()) {
+        case SECOND:
+          return COLUMN_SIZE_TIME;
+        case MILLISECOND:
+          return COLUMN_SIZE_TIME_MILLISECONDS;
+        case MICROSECOND:
+          return COLUMN_SIZE_TIME_MICROSECONDS;
+        case NANOSECOND:
+          return COLUMN_SIZE_TIME_NANOSECONDS;
+        default:
+          break;
+      }
+    } else if (fieldType instanceof ArrowType.Date) {
+      return COLUMN_SIZE_DATE;
+    }
+
+    return null;
+  }
+
+  static String sqlToRegexLike(final String sqlPattern) {
+    final int len = sqlPattern.length();
+    final StringBuilder javaPattern = new StringBuilder(len + len);
+
+    for (int i = 0; i < len; i++) {
+      final char currentChar = sqlPattern.charAt(i);
+
+      if (JAVA_REGEX_SPECIALS.indexOf(currentChar) >= 0) {
+        javaPattern.append('\\');
+      }
+
+      switch (currentChar) {
+        case '_':
+          javaPattern.append('.');
+          break;
+        case '%':
+          javaPattern.append(".");
+          javaPattern.append('*');
+          break;
+        default:
+          javaPattern.append(currentChar);
+          break;
+      }
+    }
+    return javaPattern.toString();
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightConnection.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightConnection.java
new file mode 100644
index 00000000000..79bc04d27fe
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightConnection.java
@@ -0,0 +1,189 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty.replaceSemiColons;
+
+import java.sql.SQLException;
+import java.util.Properties;
+import java.util.concurrent.ExecutorService;
+import java.util.concurrent.Executors;
+
+import org.apache.arrow.driver.jdbc.client.ArrowFlightSqlClientHandler;
+import org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl;
+import org.apache.arrow.flight.FlightClient;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.util.Preconditions;
+import org.apache.calcite.avatica.AvaticaConnection;
+import org.apache.calcite.avatica.AvaticaFactory;
+
+import io.netty.util.concurrent.DefaultThreadFactory;
+
+/**
+ * Connection to the Arrow Flight server.
+ */
+public final class ArrowFlightConnection extends AvaticaConnection {
+
+  private final BufferAllocator allocator;
+  private final ArrowFlightSqlClientHandler clientHandler;
+  private final ArrowFlightConnectionConfigImpl config;
+  private ExecutorService executorService;
+
+  /**
+   * Creates a new {@link ArrowFlightConnection}.
+   *
+   * @param driver        the {@link ArrowFlightJdbcDriver} to use.
+   * @param factory       the {@link AvaticaFactory} to use.
+   * @param url           the URL to use.
+   * @param properties    the {@link Properties} to use.
+   * @param config        the {@link ArrowFlightConnectionConfigImpl} to use.
+   * @param allocator     the {@link BufferAllocator} to use.
+   * @param clientHandler the {@link ArrowFlightSqlClientHandler} to use.
+   */
+  private ArrowFlightConnection(final ArrowFlightJdbcDriver driver, final AvaticaFactory factory,
+                                final String url, final Properties properties,
+                                final ArrowFlightConnectionConfigImpl config,
+                                final BufferAllocator allocator,
+                                final ArrowFlightSqlClientHandler clientHandler) {
+    super(driver, factory, url, properties);
+    this.config = Preconditions.checkNotNull(config, "Config cannot be null.");
+    this.allocator = Preconditions.checkNotNull(allocator, "Allocator cannot be null.");
+    this.clientHandler = Preconditions.checkNotNull(clientHandler, "Handler cannot be null.");
+  }
+
+  /**
+   * Creates a new {@link ArrowFlightConnection} to a {@link FlightClient}.
+   *
+   * @param driver     the {@link ArrowFlightJdbcDriver} to use.
+   * @param factory    the {@link AvaticaFactory} to use.
+   * @param url        the URL to establish the connection to.
+   * @param properties the {@link Properties} to use for this session.
+   * @param allocator  the {@link BufferAllocator} to use.
+   * @return a new {@link ArrowFlightConnection}.
+   * @throws SQLException on error.
+   */
+  static ArrowFlightConnection createNewConnection(final ArrowFlightJdbcDriver driver,
+                                                   final AvaticaFactory factory,
+                                                   String url, final Properties properties,
+                                                   final BufferAllocator allocator)
+      throws SQLException {
+    url = replaceSemiColons(url);
+    final ArrowFlightConnectionConfigImpl config = new ArrowFlightConnectionConfigImpl(properties);
+    final ArrowFlightSqlClientHandler clientHandler = createNewClientHandler(config, allocator);
+    return new ArrowFlightConnection(driver, factory, url, properties, config, allocator, clientHandler);
+  }
+
+  private static ArrowFlightSqlClientHandler createNewClientHandler(
+      final ArrowFlightConnectionConfigImpl config,
+      final BufferAllocator allocator) throws SQLException {
+    try {
+      return new ArrowFlightSqlClientHandler.Builder()
+          .withHost(config.getHost())
+          .withPort(config.getPort())
+          .withUsername(config.getUser())
+          .withPassword(config.getPassword())
+          .withTrustStorePath(config.getTrustStorePath())
+          .withTrustStorePassword(config.getTrustStorePassword())
+          .withSystemTrustStore(config.useSystemTrustStore())
+          .withBufferAllocator(allocator)
+          .withEncryption(config.useEncryption())
+          .withDisableCertificateVerification(config.getDisableCertificateVerification())
+          .withToken(config.getToken())
+          .withCallOptions(config.toCallOption())
+          .build();
+    } catch (final SQLException e) {
+      try {
+        allocator.close();
+      } catch (final Exception allocatorCloseEx) {
+        e.addSuppressed(allocatorCloseEx);
+      }
+      throw e;
+    }
+  }
+
+  void reset() throws SQLException {
+    // Clean up any open Statements
+    try {
+      AutoCloseables.close(statementMap.values());
+    } catch (final Exception e) {
+      throw AvaticaConnection.HELPER.createException(e.getMessage(), e);
+    }
+
+    statementMap.clear();
+
+    // Reset Holdability
+    this.setHoldability(this.metaData.getResultSetHoldability());
+
+    // Reset Meta
+    ((ArrowFlightMetaImpl) this.meta).setDefaultConnectionProperties();
+  }
+
+  /**
+   * Gets the client {@link #clientHandler} backing this connection.
+   *
+   * @return the handler.
+   */
+  ArrowFlightSqlClientHandler getClientHandler() {
+    return clientHandler;
+  }
+
+  /**
+   * Gets the {@link ExecutorService} of this connection.
+   *
+   * @return the {@link #executorService}.
+   */
+  synchronized ExecutorService getExecutorService() {
+    return executorService = executorService == null ?
+        Executors.newFixedThreadPool(config.threadPoolSize(),
+            new DefaultThreadFactory(getClass().getSimpleName())) :
+        executorService;
+  }
+
+  @Override
+  public Properties getClientInfo() {
+    final Properties copy = new Properties();
+    copy.putAll(info);
+    return copy;
+  }
+
+  @Override
+  public void close() throws SQLException {
+    if (executorService != null) {
+      executorService.shutdown();
+    }
+
+    try {
+      AutoCloseables.close(clientHandler);
+      allocator.getChildAllocators().forEach(AutoCloseables::closeNoChecked);
+      AutoCloseables.close(allocator);
+
+      super.close();
+    } catch (final Exception e) {
+      throw AvaticaConnection.HELPER.createException(e.getMessage(), e);
+    }
+  }
+
+  BufferAllocator getBufferAllocator() {
+    return allocator;
+  }
+
+  public ArrowFlightMetaImpl getMeta() {
+    return (ArrowFlightMetaImpl) this.meta;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightInfoStatement.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightInfoStatement.java
new file mode 100644
index 00000000000..8365c7bb57a
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightInfoStatement.java
@@ -0,0 +1,40 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import java.sql.SQLException;
+import java.sql.Statement;
+
+import org.apache.arrow.flight.FlightInfo;
+
+/**
+ * A {@link Statement} that deals with {@link FlightInfo}.
+ */
+public interface ArrowFlightInfoStatement extends Statement {
+
+  @Override
+  ArrowFlightConnection getConnection() throws SQLException;
+
+  /**
+   * Executes the query this {@link Statement} is holding.
+   *
+   * @return the {@link FlightInfo} for the results.
+   * @throws SQLException on error.
+   */
+  FlightInfo executeFlightInfoQuery() throws SQLException;
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcArray.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcArray.java
new file mode 100644
index 00000000000..ed67c97cf69
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcArray.java
@@ -0,0 +1,178 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import java.sql.Array;
+import java.sql.ResultSet;
+import java.sql.SQLException;
+import java.sql.SQLFeatureNotSupportedException;
+import java.util.Arrays;
+import java.util.Map;
+
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.AbstractArrowFlightJdbcListVectorAccessor;
+import org.apache.arrow.driver.jdbc.utils.SqlTypes;
+import org.apache.arrow.memory.util.LargeMemoryUtil;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.ValueVector;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.util.JsonStringArrayList;
+import org.apache.arrow.vector.util.TransferPair;
+
+/**
+ * Implementation of {@link Array} using an underlying {@link FieldVector}.
+ *
+ * @see AbstractArrowFlightJdbcListVectorAccessor
+ */
+public class ArrowFlightJdbcArray implements Array {
+
+  private final FieldVector dataVector;
+  private final long startOffset;
+  private final long valuesCount;
+
+  /**
+   * Instantiate an {@link Array} backed up by given {@link FieldVector}, limited by a start offset and values count.
+   *
+   * @param dataVector  underlying FieldVector, containing the Array items.
+   * @param startOffset offset from FieldVector pointing to this Array's first value.
+   * @param valuesCount how many items this Array contains.
+   */
+  public ArrowFlightJdbcArray(FieldVector dataVector, long startOffset, long valuesCount) {
+    this.dataVector = dataVector;
+    this.startOffset = startOffset;
+    this.valuesCount = valuesCount;
+  }
+
+  @Override
+  public String getBaseTypeName() {
+    final ArrowType arrowType = this.dataVector.getField().getType();
+    return SqlTypes.getSqlTypeNameFromArrowType(arrowType);
+  }
+
+  @Override
+  public int getBaseType() {
+    final ArrowType arrowType = this.dataVector.getField().getType();
+    return SqlTypes.getSqlTypeIdFromArrowType(arrowType);
+  }
+
+  @Override
+  public Object getArray() throws SQLException {
+    return getArray(null);
+  }
+
+  @Override
+  public Object getArray(Map<String, Class<?>> map) throws SQLException {
+    if (map != null) {
+      throw new SQLFeatureNotSupportedException();
+    }
+
+    return getArrayNoBoundCheck(this.dataVector, this.startOffset, this.valuesCount);
+  }
+
+  @Override
+  public Object getArray(long index, int count) throws SQLException {
+    return getArray(index, count, null);
+  }
+
+  private void checkBoundaries(long index, int count) {
+    if (index < 0 || index + count > this.startOffset + this.valuesCount) {
+      throw new ArrayIndexOutOfBoundsException();
+    }
+  }
+
+  private static Object getArrayNoBoundCheck(ValueVector dataVector, long start, long count) {
+    Object[] result = new Object[LargeMemoryUtil.checkedCastToInt(count)];
+    for (int i = 0; i < count; i++) {
+      result[i] = dataVector.getObject(LargeMemoryUtil.checkedCastToInt(start + i));
+    }
+
+    return result;
+  }
+
+  @Override
+  public Object getArray(long index, int count, Map<String, Class<?>> map) throws SQLException {
+    if (map != null) {
+      throw new SQLFeatureNotSupportedException();
+    }
+
+    checkBoundaries(index, count);
+    return getArrayNoBoundCheck(this.dataVector,
+        LargeMemoryUtil.checkedCastToInt(this.startOffset + index), count);
+  }
+
+  @Override
+  public ResultSet getResultSet() throws SQLException {
+    return this.getResultSet(null);
+  }
+
+  @Override
+  public ResultSet getResultSet(Map<String, Class<?>> map) throws SQLException {
+    if (map != null) {
+      throw new SQLFeatureNotSupportedException();
+    }
+
+    return getResultSetNoBoundariesCheck(this.dataVector, this.startOffset, this.valuesCount);
+  }
+
+  @Override
+  public ResultSet getResultSet(long index, int count) throws SQLException {
+    return getResultSet(index, count, null);
+  }
+
+  private static ResultSet getResultSetNoBoundariesCheck(ValueVector dataVector, long start,
+                                                         long count)
+      throws SQLException {
+    TransferPair transferPair = dataVector.getTransferPair(dataVector.getAllocator());
+    transferPair.splitAndTransfer(LargeMemoryUtil.checkedCastToInt(start),
+        LargeMemoryUtil.checkedCastToInt(count));
+    FieldVector vectorSlice = (FieldVector) transferPair.getTo();
+
+    VectorSchemaRoot vectorSchemaRoot = VectorSchemaRoot.of(vectorSlice);
+    return ArrowFlightJdbcVectorSchemaRootResultSet.fromVectorSchemaRoot(vectorSchemaRoot);
+  }
+
+  @Override
+  public ResultSet getResultSet(long index, int count, Map<String, Class<?>> map)
+      throws SQLException {
+    if (map != null) {
+      throw new SQLFeatureNotSupportedException();
+    }
+
+    checkBoundaries(index, count);
+    return getResultSetNoBoundariesCheck(this.dataVector,
+        LargeMemoryUtil.checkedCastToInt(this.startOffset + index), count);
+  }
+
+  @Override
+  public void free() {
+
+  }
+
+  @Override
+  public String toString() {
+    JsonStringArrayList<Object> array = new JsonStringArrayList<>((int) this.valuesCount);
+
+    try {
+      array.addAll(Arrays.asList((Object[]) getArray()));
+    } catch (SQLException e) {
+      throw new RuntimeException(e);
+    }
+
+    return array.toString();
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcConnectionPoolDataSource.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcConnectionPoolDataSource.java
new file mode 100644
index 00000000000..46a1d3ff87c
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcConnectionPoolDataSource.java
@@ -0,0 +1,127 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import java.sql.SQLException;
+import java.util.Map;
+import java.util.Properties;
+import java.util.Queue;
+import java.util.concurrent.ConcurrentHashMap;
+import java.util.concurrent.ConcurrentLinkedQueue;
+
+import javax.sql.ConnectionEvent;
+import javax.sql.ConnectionEventListener;
+import javax.sql.ConnectionPoolDataSource;
+import javax.sql.PooledConnection;
+
+import org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl;
+
+/**
+ * {@link ConnectionPoolDataSource} implementation for Arrow Flight JDBC Driver.
+ */
+public class ArrowFlightJdbcConnectionPoolDataSource extends ArrowFlightJdbcDataSource
+    implements ConnectionPoolDataSource, ConnectionEventListener, AutoCloseable {
+  private final Map<Properties, Queue<ArrowFlightJdbcPooledConnection>> pool =
+      new ConcurrentHashMap<>();
+
+  /**
+   * Instantiates a new DataSource.
+   *
+   * @param properties the properties
+   * @param config     the config.
+   */
+  protected ArrowFlightJdbcConnectionPoolDataSource(final Properties properties,
+                                                    final ArrowFlightConnectionConfigImpl config) {
+    super(properties, config);
+  }
+
+  /**
+   * Creates a new {@link ArrowFlightJdbcConnectionPoolDataSource}.
+   *
+   * @param properties the properties.
+   * @return a new data source.
+   */
+  public static ArrowFlightJdbcConnectionPoolDataSource createNewDataSource(
+      final Properties properties) {
+    return new ArrowFlightJdbcConnectionPoolDataSource(properties,
+        new ArrowFlightConnectionConfigImpl(properties));
+  }
+
+  @Override
+  public PooledConnection getPooledConnection() throws SQLException {
+    final ArrowFlightConnectionConfigImpl config = getConfig();
+    return this.getPooledConnection(config.getUser(), config.getPassword());
+  }
+
+  @Override
+  public PooledConnection getPooledConnection(final String username, final String password)
+      throws SQLException {
+    final Properties properties = getProperties(username, password);
+    Queue<ArrowFlightJdbcPooledConnection> objectPool =
+        pool.computeIfAbsent(properties, s -> new ConcurrentLinkedQueue<>());
+    ArrowFlightJdbcPooledConnection pooledConnection = objectPool.poll();
+    if (pooledConnection == null) {
+      pooledConnection = createPooledConnection(new ArrowFlightConnectionConfigImpl(properties));
+    } else {
+      pooledConnection.reset();
+    }
+    return pooledConnection;
+  }
+
+  private ArrowFlightJdbcPooledConnection createPooledConnection(
+      final ArrowFlightConnectionConfigImpl config)
+      throws SQLException {
+    ArrowFlightJdbcPooledConnection pooledConnection =
+        new ArrowFlightJdbcPooledConnection(getConnection(config.getUser(), config.getPassword()));
+    pooledConnection.addConnectionEventListener(this);
+    return pooledConnection;
+  }
+
+  @Override
+  public void connectionClosed(ConnectionEvent connectionEvent) {
+    final ArrowFlightJdbcPooledConnection pooledConnection =
+        (ArrowFlightJdbcPooledConnection) connectionEvent.getSource();
+    Queue<ArrowFlightJdbcPooledConnection> connectionQueue =
+        pool.get(pooledConnection.getProperties());
+    connectionQueue.add(pooledConnection);
+  }
+
+  @Override
+  public void connectionErrorOccurred(ConnectionEvent connectionEvent) {
+
+  }
+
+  @Override
+  public void close() throws Exception {
+    SQLException lastException = null;
+    for (Queue<ArrowFlightJdbcPooledConnection> connections : this.pool.values()) {
+      while (!connections.isEmpty()) {
+        PooledConnection pooledConnection = connections.poll();
+        try {
+          pooledConnection.close();
+        } catch (SQLException e) {
+          lastException = e;
+        }
+      }
+    }
+
+    if (lastException != null) {
+      throw lastException;
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcCursor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcCursor.java
new file mode 100644
index 00000000000..45c23e4d529
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcCursor.java
@@ -0,0 +1,102 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+
+import java.util.ArrayList;
+import java.util.Calendar;
+import java.util.List;
+import java.util.stream.Collectors;
+import java.util.stream.IntStream;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.calcite.avatica.ColumnMetaData;
+import org.apache.calcite.avatica.util.AbstractCursor;
+import org.apache.calcite.avatica.util.ArrayImpl;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+/**
+ * Arrow Flight Jdbc's Cursor class.
+ */
+public class ArrowFlightJdbcCursor extends AbstractCursor {
+
+  private static final Logger LOGGER;
+  private final VectorSchemaRoot root;
+  private final int rowCount;
+  private int currentRow = -1;
+
+  static {
+    LOGGER = LoggerFactory.getLogger(ArrowFlightJdbcCursor.class);
+  }
+
+  public ArrowFlightJdbcCursor(VectorSchemaRoot root) {
+    this.root = root;
+    rowCount = root.getRowCount();
+  }
+
+  @Override
+  public List<Accessor> createAccessors(List<ColumnMetaData> columns,
+                                        Calendar localCalendar,
+                                        ArrayImpl.Factory factory) {
+    final List<FieldVector> fieldVectors = root.getFieldVectors();
+
+    return IntStream.range(0, fieldVectors.size()).mapToObj(root::getVector)
+        .map(this::createAccessor)
+        .collect(Collectors.toCollection(() -> new ArrayList<>(fieldVectors.size())));
+  }
+
+  private Accessor createAccessor(FieldVector vector) {
+    return ArrowFlightJdbcAccessorFactory.createAccessor(vector, this::getCurrentRow,
+        (boolean wasNull) -> {
+          // AbstractCursor creates a boolean array of length 1 to hold the wasNull value
+          this.wasNull[0] = wasNull;
+        });
+  }
+
+  /**
+   * ArrowFlightJdbcAccessors do not use {@link AbstractCursor.Getter}, as it would box primitive types and cause
+   * performance issues. Each Accessor implementation works directly on Arrow Vectors.
+   */
+  @Override
+  protected Getter createGetter(int column) {
+    throw new UnsupportedOperationException("Not allowed.");
+  }
+
+  @Override
+  public boolean next() {
+    currentRow++;
+    return currentRow < rowCount;
+  }
+
+  @Override
+  public void close() {
+    try {
+      AutoCloseables.close(root);
+    } catch (Exception e) {
+      LOGGER.error(e.getMessage(), e);
+    }
+  }
+
+  private int getCurrentRow() {
+    return currentRow;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcDataSource.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcDataSource.java
new file mode 100644
index 00000000000..a57eeaa8304
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcDataSource.java
@@ -0,0 +1,134 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty;
+
+import java.io.PrintWriter;
+import java.sql.SQLException;
+import java.sql.SQLFeatureNotSupportedException;
+import java.util.Properties;
+import java.util.logging.Logger;
+
+import javax.sql.DataSource;
+
+import org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl;
+import org.apache.arrow.util.Preconditions;
+
+/**
+ * {@link DataSource} implementation for Arrow Flight JDBC Driver.
+ */
+public class ArrowFlightJdbcDataSource implements DataSource {
+  private final Properties properties;
+  private final ArrowFlightConnectionConfigImpl config;
+  private PrintWriter logWriter;
+
+  /**
+   * Instantiates a new DataSource.
+   */
+  protected ArrowFlightJdbcDataSource(final Properties properties,
+                                      final ArrowFlightConnectionConfigImpl config) {
+    this.properties = Preconditions.checkNotNull(properties);
+    this.config = Preconditions.checkNotNull(config);
+  }
+
+  /**
+   * Gets the {@link #config} for this {@link ArrowFlightJdbcDataSource}.
+   *
+   * @return the {@link ArrowFlightConnectionConfigImpl}.
+   */
+  protected final ArrowFlightConnectionConfigImpl getConfig() {
+    return config;
+  }
+
+  /**
+   * Gets a copy of the {@link #properties} for this {@link ArrowFlightJdbcDataSource} with
+   * the provided {@code username} and {@code password}.
+   *
+   * @return the {@link Properties} for this data source.
+   */
+  protected final Properties getProperties(final String username, final String password) {
+    final Properties newProperties = new Properties();
+    newProperties.putAll(this.properties);
+    if (username != null) {
+      newProperties.replace(ArrowFlightConnectionProperty.USER.camelName(), username);
+    }
+    if (password != null) {
+      newProperties.replace(ArrowFlightConnectionProperty.PASSWORD.camelName(), password);
+    }
+    return ArrowFlightJdbcDriver.lowerCasePropertyKeys(newProperties);
+  }
+
+  /**
+   * Creates a new {@link ArrowFlightJdbcDataSource}.
+   *
+   * @param properties the properties.
+   * @return a new data source.
+   */
+  public static ArrowFlightJdbcDataSource createNewDataSource(final Properties properties) {
+    return new ArrowFlightJdbcDataSource(properties,
+        new ArrowFlightConnectionConfigImpl(properties));
+  }
+
+  @Override
+  public ArrowFlightConnection getConnection() throws SQLException {
+    return getConnection(config.getUser(), config.getPassword());
+  }
+
+  @Override
+  public ArrowFlightConnection getConnection(final String username, final String password)
+      throws SQLException {
+    final Properties properties = getProperties(username, password);
+    return new ArrowFlightJdbcDriver().connect(config.url(), properties);
+  }
+
+  @Override
+  public <T> T unwrap(Class<T> aClass) throws SQLException {
+    throw new SQLException("ArrowFlightJdbcDataSource is not a wrapper.");
+  }
+
+  @Override
+  public boolean isWrapperFor(Class<?> aClass) {
+    return false;
+  }
+
+  @Override
+  public PrintWriter getLogWriter() {
+    return this.logWriter;
+  }
+
+  @Override
+  public void setLogWriter(PrintWriter logWriter) {
+    this.logWriter = logWriter;
+  }
+
+  @Override
+  public void setLoginTimeout(int timeout) throws SQLException {
+    throw new SQLFeatureNotSupportedException("Setting Login timeout is not supported.");
+  }
+
+  @Override
+  public int getLoginTimeout() {
+    return 0;
+  }
+
+  @Override
+  public Logger getParentLogger() {
+    return Logger.getLogger("ArrowFlightJdbc");
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcDriver.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcDriver.java
new file mode 100644
index 00000000000..aa1b460fc13
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcDriver.java
@@ -0,0 +1,273 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty.replaceSemiColons;
+
+import java.io.BufferedReader;
+import java.io.IOException;
+import java.io.InputStream;
+import java.io.InputStreamReader;
+import java.io.Reader;
+import java.net.URI;
+import java.nio.charset.StandardCharsets;
+import java.sql.SQLException;
+import java.util.Map;
+import java.util.Objects;
+import java.util.Optional;
+import java.util.Properties;
+
+import org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty;
+import org.apache.arrow.driver.jdbc.utils.UrlParser;
+import org.apache.arrow.flight.FlightRuntimeException;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.util.Preconditions;
+import org.apache.arrow.util.VisibleForTesting;
+import org.apache.calcite.avatica.AvaticaConnection;
+import org.apache.calcite.avatica.DriverVersion;
+import org.apache.calcite.avatica.Meta;
+import org.apache.calcite.avatica.UnregisteredDriver;
+
+/**
+ * JDBC driver for querying data from an Apache Arrow Flight server.
+ */
+public class ArrowFlightJdbcDriver extends UnregisteredDriver {
+  private static final String CONNECT_STRING_PREFIX = "jdbc:arrow-flight-sql://";
+  private static final String CONNECT_STRING_PREFIX_DEPRECATED = "jdbc:arrow-flight://";
+  private static final String CONNECTION_STRING_EXPECTED = "jdbc:arrow-flight-sql://[host][:port][?param1=value&...]";
+  private static DriverVersion version;
+
+  static {
+    // Special code for supporting Java9 and higher.
+    // Netty requires some extra properties to unlock some native memory management api
+    // Setting this property if not already set externally
+    // This has to be done before any netty class is being loaded
+    final String key = "cfjd.io.netty.tryReflectionSetAccessible";
+    final String tryReflectionSetAccessible = System.getProperty(key);
+    if (tryReflectionSetAccessible == null) {
+      System.setProperty(key, Boolean.TRUE.toString());
+    }
+
+    new ArrowFlightJdbcDriver().register();
+  }
+
+  @Override
+  public ArrowFlightConnection connect(final String url, final Properties info)
+      throws SQLException {
+    final Properties properties = new Properties(info);
+    properties.putAll(info);
+
+    if (url != null) {
+      final Optional<Map<Object, Object>> maybeProperties = getUrlsArgs(url);
+      if (!maybeProperties.isPresent()) {
+        return null;
+      }
+      final Map<Object, Object> propertiesFromUrl = maybeProperties.get();
+      properties.putAll(propertiesFromUrl);
+    }
+
+    try {
+      return ArrowFlightConnection.createNewConnection(
+          this,
+          factory,
+          url,
+          lowerCasePropertyKeys(properties),
+          new RootAllocator(Long.MAX_VALUE));
+    } catch (final FlightRuntimeException e) {
+      throw new SQLException("Failed to connect.", e);
+    }
+  }
+
+  @Override
+  protected String getFactoryClassName(final JdbcVersion jdbcVersion) {
+    return ArrowFlightJdbcFactory.class.getName();
+  }
+
+  @Override
+  protected DriverVersion createDriverVersion() {
+    if (version == null) {
+      final InputStream flightProperties = this.getClass().getResourceAsStream("/properties/flight.properties");
+      if (flightProperties == null) {
+        throw new RuntimeException("Flight Properties not found. Ensure the JAR was built properly.");
+      }
+      try (final Reader reader = new BufferedReader(new InputStreamReader(flightProperties, StandardCharsets.UTF_8))) {
+        final Properties properties = new Properties();
+        properties.load(reader);
+
+        final String parentName = properties.getProperty("org.apache.arrow.flight.name");
+        final String parentVersion = properties.getProperty("org.apache.arrow.flight.version");
+        final String[] pVersion = parentVersion.split("\\.");
+
+        final int parentMajorVersion = Integer.parseInt(pVersion[0]);
+        final int parentMinorVersion = Integer.parseInt(pVersion[1]);
+
+        final String childName = properties.getProperty("org.apache.arrow.flight.jdbc-driver.name");
+        final String childVersion = properties.getProperty("org.apache.arrow.flight.jdbc-driver.version");
+        final String[] cVersion = childVersion.split("\\.");
+
+        final int childMajorVersion = Integer.parseInt(cVersion[0]);
+        final int childMinorVersion = Integer.parseInt(cVersion[1]);
+
+        version = new DriverVersion(
+            childName,
+            childVersion,
+            parentName,
+            parentVersion,
+            true,
+            childMajorVersion,
+            childMinorVersion,
+            parentMajorVersion,
+            parentMinorVersion);
+      } catch (final IOException e) {
+        throw new RuntimeException("Failed to load driver version.", e);
+      }
+    }
+
+    return version;
+  }
+
+  @Override
+  public Meta createMeta(final AvaticaConnection connection) {
+    return new ArrowFlightMetaImpl(connection);
+  }
+
+  @Override
+  protected String getConnectStringPrefix() {
+    return CONNECT_STRING_PREFIX;
+  }
+
+  @Override
+  public boolean acceptsURL(final String url) {
+    Preconditions.checkNotNull(url);
+    return url.startsWith(CONNECT_STRING_PREFIX) || url.startsWith(CONNECT_STRING_PREFIX_DEPRECATED);
+  }
+
+  /**
+   * Parses the provided url based on the format this driver accepts, retrieving
+   * arguments after the {@link #CONNECT_STRING_PREFIX}.
+   * <p>
+   * This method gets the args if the provided URL follows this pattern:
+   * {@code jdbc:arrow-flight-sql://<host>:<port>[/?key1=val1&key2=val2&(...)]}
+   *
+   * <table border="1">
+   *    <tr>
+   *        <td>Group</td>
+   *        <td>Definition</td>
+   *        <td>Value</td>
+   *    </tr>
+   *    <tr>
+   *        <td>? — inaccessible</td>
+   *        <td>{@link #getConnectStringPrefix}</td>
+   *        <td>
+   *            the URL prefix accepted by this driver, i.e.,
+   *            {@code "jdbc:arrow-flight-sql://"}
+   *        </td>
+   *    </tr>
+   *    <tr>
+   *        <td>1</td>
+   *        <td>IPv4 host name</td>
+   *        <td>
+   *            first word after previous group and before "{@code :}"
+   *        </td>
+   *    </tr>
+   *    <tr>
+   *        <td>2</td>
+   *        <td>IPv4 port number</td>
+   *        <td>
+   *            first number after previous group and before "{@code /?}"
+   *        </td>
+   *    </tr>
+   *    <tr>
+   *        <td>3</td>
+   *        <td>custom call parameters</td>
+   *        <td>
+   *            all parameters provided after "{@code /?}" — must follow the
+   *            pattern: "{@code key=value}" with "{@code &}" separating a
+   *            parameter from another
+   *        </td>
+   *    </tr>
+   * </table>
+   *
+   * @param url The url to parse.
+   * @return the parsed arguments, or an empty optional if the driver does not handle this URL.
+   * @throws SQLException If an error occurs while trying to parse the URL.
+   */
+  @VisibleForTesting // ArrowFlightJdbcDriverTest
+  Optional<Map<Object, Object>> getUrlsArgs(String url)
+      throws SQLException {
+
+    /*
+     *
+     * Perhaps this logic should be inside a utility class, separated from this
+     * one, so as to better delegate responsibilities and concerns throughout
+     * the code and increase maintainability.
+     *
+     * =====
+     *
+     * Keep in mind that the URL must ALWAYS follow the pattern:
+     * "jdbc:arrow-flight-sql://<host>:<port>[/?param1=value1&param2=value2&(...)]."
+     *
+     */
+
+    final Properties resultMap = new Properties();
+    url = replaceSemiColons(url);
+
+    if (!url.startsWith("jdbc:")) {
+      throw new SQLException("Connection string must start with 'jdbc:'. Expected format: " +
+          CONNECTION_STRING_EXPECTED);
+    }
+
+    // It's necessary to use a string without "jdbc:" at the beginning to be parsed as a valid URL.
+    url = url.substring(5);
+
+    final URI uri;
+
+    try {
+      uri = URI.create(url);
+    } catch (final IllegalArgumentException e) {
+      throw new SQLException("Malformed/invalid URL!", e);
+    }
+
+    if (!Objects.equals(uri.getScheme(), "arrow-flight") &&
+        !Objects.equals(uri.getScheme(), "arrow-flight-sql")) {
+      return Optional.empty();
+    }
+
+    if (uri.getHost() == null) {
+      throw new SQLException("URL must have a host. Expected format: " + CONNECTION_STRING_EXPECTED);
+    } else if (uri.getPort() < 0) {
+      throw new SQLException("URL must have a port. Expected format: " + CONNECTION_STRING_EXPECTED);
+    }
+    resultMap.put(ArrowFlightConnectionProperty.HOST.camelName(), uri.getHost()); // host
+    resultMap.put(ArrowFlightConnectionProperty.PORT.camelName(), uri.getPort()); // port
+
+    final String extraParams = uri.getRawQuery(); // optional params
+    if (extraParams != null) {
+      final Map<String, String> keyValuePairs = UrlParser.parse(extraParams, "&");
+      resultMap.putAll(keyValuePairs);
+    }
+
+    return Optional.of(resultMap);
+  }
+
+  static Properties lowerCasePropertyKeys(final Properties properties) {
+    final Properties resultProperty = new Properties();
+    properties.forEach((k, v) -> resultProperty.put(k.toString().toLowerCase(), v));
+    return resultProperty;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcFactory.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcFactory.java
new file mode 100644
index 00000000000..a54fbb9511b
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcFactory.java
@@ -0,0 +1,124 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import java.sql.ResultSetMetaData;
+import java.sql.SQLException;
+import java.util.Properties;
+import java.util.TimeZone;
+
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.calcite.avatica.AvaticaConnection;
+import org.apache.calcite.avatica.AvaticaFactory;
+import org.apache.calcite.avatica.AvaticaResultSetMetaData;
+import org.apache.calcite.avatica.AvaticaSpecificDatabaseMetaData;
+import org.apache.calcite.avatica.AvaticaStatement;
+import org.apache.calcite.avatica.Meta;
+import org.apache.calcite.avatica.QueryState;
+import org.apache.calcite.avatica.UnregisteredDriver;
+
+/**
+ * Factory for the Arrow Flight JDBC Driver.
+ */
+public class ArrowFlightJdbcFactory implements AvaticaFactory {
+  private final int major;
+  private final int minor;
+
+  // This need to be public so Avatica can call this constructor
+  public ArrowFlightJdbcFactory() {
+    this(4, 1);
+  }
+
+  private ArrowFlightJdbcFactory(final int major, final int minor) {
+    this.major = major;
+    this.minor = minor;
+  }
+
+  @Override
+  public AvaticaConnection newConnection(final UnregisteredDriver driver,
+                                         final AvaticaFactory factory,
+                                         final String url,
+                                         final Properties info) throws SQLException {
+    return ArrowFlightConnection.createNewConnection(
+        (ArrowFlightJdbcDriver) driver,
+        factory,
+        url,
+        info,
+        new RootAllocator(Long.MAX_VALUE));
+  }
+
+  @Override
+  public AvaticaStatement newStatement(
+      final AvaticaConnection connection,
+      final Meta.StatementHandle handle,
+      final int resultType,
+      final int resultSetConcurrency,
+      final int resultSetHoldability) {
+    return new ArrowFlightStatement((ArrowFlightConnection) connection,
+        handle, resultType, resultSetConcurrency, resultSetHoldability);
+  }
+
+  @Override
+  public ArrowFlightPreparedStatement newPreparedStatement(
+      final AvaticaConnection connection,
+      final Meta.StatementHandle statementHandle,
+      final Meta.Signature signature,
+      final int resultType,
+      final int resultSetConcurrency,
+      final int resultSetHoldability) throws SQLException {
+    return ArrowFlightPreparedStatement.createNewPreparedStatement(
+        (ArrowFlightConnection) connection, statementHandle, signature,
+        resultType, resultSetConcurrency, resultSetHoldability);
+  }
+
+  @Override
+  public ArrowFlightJdbcVectorSchemaRootResultSet newResultSet(final AvaticaStatement statement,
+                                                               final QueryState state,
+                                                               final Meta.Signature signature,
+                                                               final TimeZone timeZone,
+                                                               final Meta.Frame frame)
+      throws SQLException {
+    final ResultSetMetaData metaData = newResultSetMetaData(statement, signature);
+
+    return new ArrowFlightJdbcFlightStreamResultSet(statement, state, signature, metaData, timeZone,
+        frame);
+  }
+
+  @Override
+  public AvaticaSpecificDatabaseMetaData newDatabaseMetaData(final AvaticaConnection connection) {
+    return new ArrowDatabaseMetadata(connection);
+  }
+
+  @Override
+  public ResultSetMetaData newResultSetMetaData(
+      final AvaticaStatement avaticaStatement,
+      final Meta.Signature signature) {
+    return new AvaticaResultSetMetaData(avaticaStatement,
+        null, signature);
+  }
+
+  @Override
+  public int getJdbcMajorVersion() {
+    return major;
+  }
+
+  @Override
+  public int getJdbcMinorVersion() {
+    return minor;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcFlightStreamResultSet.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcFlightStreamResultSet.java
new file mode 100644
index 00000000000..4c01cb6e581
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcFlightStreamResultSet.java
@@ -0,0 +1,250 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.apache.arrow.driver.jdbc.utils.FlightStreamQueue.createNewQueue;
+
+import java.sql.ResultSet;
+import java.sql.ResultSetMetaData;
+import java.sql.SQLException;
+import java.util.Optional;
+import java.util.TimeZone;
+import java.util.concurrent.TimeUnit;
+
+import org.apache.arrow.driver.jdbc.utils.FlightStreamQueue;
+import org.apache.arrow.driver.jdbc.utils.VectorSchemaRootTransformer;
+import org.apache.arrow.flight.FlightInfo;
+import org.apache.arrow.flight.FlightStream;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.calcite.avatica.AvaticaResultSet;
+import org.apache.calcite.avatica.AvaticaResultSetMetaData;
+import org.apache.calcite.avatica.AvaticaStatement;
+import org.apache.calcite.avatica.Meta;
+import org.apache.calcite.avatica.QueryState;
+
+/**
+ * {@link ResultSet} implementation for Arrow Flight used to access the results of multiple {@link FlightStream}
+ * objects.
+ */
+public final class ArrowFlightJdbcFlightStreamResultSet
+    extends ArrowFlightJdbcVectorSchemaRootResultSet {
+
+  private final ArrowFlightConnection connection;
+  private FlightStream currentFlightStream;
+  private FlightStreamQueue flightStreamQueue;
+
+  private VectorSchemaRootTransformer transformer;
+  private VectorSchemaRoot currentVectorSchemaRoot;
+
+  private Schema schema;
+
+  ArrowFlightJdbcFlightStreamResultSet(final AvaticaStatement statement,
+                                       final QueryState state,
+                                       final Meta.Signature signature,
+                                       final ResultSetMetaData resultSetMetaData,
+                                       final TimeZone timeZone,
+                                       final Meta.Frame firstFrame) throws SQLException {
+    super(statement, state, signature, resultSetMetaData, timeZone, firstFrame);
+    this.connection = (ArrowFlightConnection) statement.connection;
+  }
+
+  ArrowFlightJdbcFlightStreamResultSet(final ArrowFlightConnection connection,
+                                       final QueryState state,
+                                       final Meta.Signature signature,
+                                       final ResultSetMetaData resultSetMetaData,
+                                       final TimeZone timeZone,
+                                       final Meta.Frame firstFrame) throws SQLException {
+    super(null, state, signature, resultSetMetaData, timeZone, firstFrame);
+    this.connection = connection;
+  }
+
+  /**
+   * Create a {@link ResultSet} which pulls data from given {@link FlightInfo}.
+   *
+   * @param connection  The connection linked to the returned ResultSet.
+   * @param flightInfo  The FlightInfo from which data will be iterated by the returned ResultSet.
+   * @param transformer Optional transformer for processing VectorSchemaRoot before access from ResultSet
+   * @return A ResultSet which pulls data from given FlightInfo.
+   */
+  static ArrowFlightJdbcFlightStreamResultSet fromFlightInfo(
+      final ArrowFlightConnection connection,
+      final FlightInfo flightInfo,
+      final VectorSchemaRootTransformer transformer) throws SQLException {
+    // Similar to how org.apache.calcite.avatica.util.ArrayFactoryImpl does
+
+    final TimeZone timeZone = TimeZone.getDefault();
+    final QueryState state = new QueryState();
+
+    final Meta.Signature signature = ArrowFlightMetaImpl.newSignature(null);
+
+    final AvaticaResultSetMetaData resultSetMetaData =
+        new AvaticaResultSetMetaData(null, null, signature);
+    final ArrowFlightJdbcFlightStreamResultSet resultSet =
+        new ArrowFlightJdbcFlightStreamResultSet(connection, state, signature, resultSetMetaData,
+            timeZone, null);
+
+    resultSet.transformer = transformer;
+
+    resultSet.execute(flightInfo);
+    return resultSet;
+  }
+
+  private void loadNewQueue() {
+    Optional.ofNullable(flightStreamQueue).ifPresent(AutoCloseables::closeNoChecked);
+    flightStreamQueue = createNewQueue(connection.getExecutorService());
+  }
+
+  private void loadNewFlightStream() throws SQLException {
+    if (currentFlightStream != null) {
+      AutoCloseables.closeNoChecked(currentFlightStream);
+    }
+    this.currentFlightStream = getNextFlightStream(true);
+  }
+
+  @Override
+  protected AvaticaResultSet execute() throws SQLException {
+    final FlightInfo flightInfo = ((ArrowFlightInfoStatement) statement).executeFlightInfoQuery();
+
+    if (flightInfo != null) {
+      schema = flightInfo.getSchema();
+      execute(flightInfo);
+    }
+    return this;
+  }
+
+  private void execute(final FlightInfo flightInfo) throws SQLException {
+    loadNewQueue();
+    flightStreamQueue.enqueue(connection.getClientHandler().getStreams(flightInfo));
+    loadNewFlightStream();
+
+    // Ownership of the root will be passed onto the cursor.
+    if (currentFlightStream != null) {
+      executeForCurrentFlightStream();
+    }
+  }
+
+  private void executeForCurrentFlightStream() throws SQLException {
+    final VectorSchemaRoot originalRoot = currentFlightStream.getRoot();
+
+    if (transformer != null) {
+      try {
+        currentVectorSchemaRoot = transformer.transform(originalRoot, currentVectorSchemaRoot);
+      } catch (final Exception e) {
+        throw new SQLException("Failed to transform VectorSchemaRoot.", e);
+      }
+    } else {
+      currentVectorSchemaRoot = originalRoot;
+    }
+
+    if (schema != null) {
+      execute(currentVectorSchemaRoot, schema);
+    } else {
+      execute(currentVectorSchemaRoot);
+    }
+  }
+
+  @Override
+  public boolean next() throws SQLException {
+    if (currentVectorSchemaRoot == null) {
+      return false;
+    }
+    while (true) {
+      final boolean hasNext = super.next();
+      final int maxRows = statement != null ? statement.getMaxRows() : 0;
+      if (maxRows != 0 && this.getRow() > maxRows) {
+        if (statement.isCloseOnCompletion()) {
+          statement.close();
+        }
+        return false;
+      }
+
+      if (hasNext) {
+        return true;
+      }
+
+      if (currentFlightStream != null) {
+        currentFlightStream.getRoot().clear();
+        if (currentFlightStream.next()) {
+          executeForCurrentFlightStream();
+          continue;
+        }
+
+        flightStreamQueue.enqueue(currentFlightStream);
+      }
+
+      currentFlightStream = getNextFlightStream(false);
+
+      if (currentFlightStream != null) {
+        executeForCurrentFlightStream();
+        continue;
+      }
+
+      if (statement != null && statement.isCloseOnCompletion()) {
+        statement.close();
+      }
+
+      return false;
+    }
+  }
+
+  @Override
+  protected void cancel() {
+    super.cancel();
+    final FlightStream currentFlightStream = this.currentFlightStream;
+    if (currentFlightStream != null) {
+      currentFlightStream.cancel("Cancel", null);
+    }
+
+    if (flightStreamQueue != null) {
+      try {
+        flightStreamQueue.close();
+      } catch (final Exception e) {
+        throw new RuntimeException(e);
+      }
+    }
+  }
+
+  @Override
+  public synchronized void close() {
+    try {
+      if (flightStreamQueue != null) {
+        // flightStreamQueue should close currentFlightStream internally
+        flightStreamQueue.close();
+      } else if (currentFlightStream != null) {
+        // close is only called for currentFlightStream if there's no queue
+        currentFlightStream.close();
+      }
+    } catch (final Exception e) {
+      throw new RuntimeException(e);
+    } finally {
+      super.close();
+    }
+  }
+
+  private FlightStream getNextFlightStream(final boolean isExecution) throws SQLException {
+    if (isExecution) {
+      final int statementTimeout = statement != null ? statement.getQueryTimeout() : 0;
+      return statementTimeout != 0 ?
+          flightStreamQueue.next(statementTimeout, TimeUnit.SECONDS) : flightStreamQueue.next();
+    } else {
+      return flightStreamQueue.next();
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcPooledConnection.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcPooledConnection.java
new file mode 100644
index 00000000000..96a2d9dda1d
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcPooledConnection.java
@@ -0,0 +1,112 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import java.sql.Connection;
+import java.sql.SQLException;
+import java.util.Collections;
+import java.util.HashSet;
+import java.util.Properties;
+import java.util.Set;
+
+import javax.sql.ConnectionEvent;
+import javax.sql.ConnectionEventListener;
+import javax.sql.PooledConnection;
+import javax.sql.StatementEventListener;
+
+import org.apache.arrow.driver.jdbc.utils.ConnectionWrapper;
+
+/**
+ * {@link PooledConnection} implementation for Arrow Flight JDBC Driver.
+ */
+public class ArrowFlightJdbcPooledConnection implements PooledConnection {
+
+  private final ArrowFlightConnection connection;
+  private final Set<ConnectionEventListener> eventListeners;
+  private final Set<StatementEventListener> statementEventListeners;
+
+  private final class ConnectionHandle extends ConnectionWrapper {
+    private boolean closed = false;
+
+    public ConnectionHandle() {
+      super(connection);
+    }
+
+    @Override
+    public void close() throws SQLException {
+      if (!closed) {
+        closed = true;
+        onConnectionClosed();
+      }
+    }
+
+    @Override
+    public boolean isClosed() throws SQLException {
+      return this.closed || super.isClosed();
+    }
+  }
+
+  ArrowFlightJdbcPooledConnection(ArrowFlightConnection connection) {
+    this.connection = connection;
+    this.eventListeners = Collections.synchronizedSet(new HashSet<>());
+    this.statementEventListeners = Collections.synchronizedSet(new HashSet<>());
+  }
+
+  public Properties getProperties() {
+    return connection.getClientInfo();
+  }
+
+  @Override
+  public Connection getConnection() throws SQLException {
+    return new ConnectionHandle();
+  }
+
+  @Override
+  public void close() throws SQLException {
+    this.connection.close();
+  }
+
+  void reset() throws SQLException {
+    this.connection.reset();
+  }
+
+  @Override
+  public void addConnectionEventListener(ConnectionEventListener listener) {
+    eventListeners.add(listener);
+  }
+
+  @Override
+  public void removeConnectionEventListener(ConnectionEventListener listener) {
+    this.eventListeners.remove(listener);
+  }
+
+  @Override
+  public void addStatementEventListener(StatementEventListener listener) {
+    statementEventListeners.add(listener);
+  }
+
+  @Override
+  public void removeStatementEventListener(StatementEventListener listener) {
+    this.statementEventListeners.remove(listener);
+  }
+
+  private void onConnectionClosed() {
+    ConnectionEvent connectionEvent = new ConnectionEvent(this);
+    eventListeners.forEach(listener -> listener.connectionClosed(connectionEvent));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcTime.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcTime.java
new file mode 100644
index 00000000000..109048bc05c
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcTime.java
@@ -0,0 +1,106 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.apache.calcite.avatica.util.DateTimeUtils.MILLIS_PER_DAY;
+
+import java.sql.Time;
+import java.time.LocalTime;
+import java.time.temporal.ChronoField;
+import java.util.List;
+import java.util.Objects;
+import java.util.concurrent.TimeUnit;
+
+import org.apache.arrow.util.VisibleForTesting;
+
+import com.google.common.collect.ImmutableList;
+
+/**
+ * Wrapper class for Time objects to include the milliseconds part in ISO 8601 format in this#toString.
+ */
+public class ArrowFlightJdbcTime extends Time {
+  private static final List<String> LEADING_ZEROES = ImmutableList.of("", "0", "00");
+
+  // Desired length of the millisecond portion should be 3
+  private static final int DESIRED_MILLIS_LENGTH = 3;
+
+  // Millis of the date time object.
+  private final int millisReprValue;
+
+  /**
+   * Constructs this object based on epoch millis.
+   *
+   * @param milliseconds milliseconds representing Time.
+   */
+  public ArrowFlightJdbcTime(final long milliseconds) {
+    super(milliseconds);
+    millisReprValue = getMillisReprValue(milliseconds);
+  }
+
+  @VisibleForTesting
+  ArrowFlightJdbcTime(final LocalTime time) {
+    // Although the constructor is deprecated, this is the exact same code as Time#valueOf(LocalTime)
+    super(time.getHour(), time.getMinute(), time.getSecond());
+    millisReprValue = time.get(ChronoField.MILLI_OF_SECOND);
+  }
+
+  private int getMillisReprValue(long milliseconds) {
+    // Extract the millisecond part from epoch nano day
+    if (milliseconds >= MILLIS_PER_DAY) {
+      // Convert to Epoch Day
+      milliseconds %= MILLIS_PER_DAY;
+    } else if (milliseconds < 0) {
+      // LocalTime#ofNanoDay only accepts positive values
+      milliseconds -= ((milliseconds / MILLIS_PER_DAY) - 1) * MILLIS_PER_DAY;
+    }
+    return LocalTime.ofNanoOfDay(TimeUnit.MILLISECONDS.toNanos(milliseconds))
+        .get(ChronoField.MILLI_OF_SECOND);
+  }
+
+  @Override
+  public String toString() {
+    final StringBuilder time = new StringBuilder().append(super.toString());
+
+    if (millisReprValue > 0) {
+      final String millisString = Integer.toString(millisReprValue);
+
+      // dot to separate the fractional seconds
+      time.append(".");
+
+      final int millisLength = millisString.length();
+      if (millisLength < DESIRED_MILLIS_LENGTH) {
+        // add necessary leading zeroes
+        time.append(LEADING_ZEROES.get(DESIRED_MILLIS_LENGTH - millisLength));
+      }
+      time.append(millisString);
+    }
+
+    return time.toString();
+  }
+
+  // Spotbugs requires these methods to be overridden
+  @Override
+  public boolean equals(Object obj) {
+    return super.equals(obj);
+  }
+
+  @Override
+  public int hashCode() {
+    return Objects.hash(super.hashCode(), this.millisReprValue);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcVectorSchemaRootResultSet.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcVectorSchemaRootResultSet.java
new file mode 100644
index 00000000000..9e377e51dec
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcVectorSchemaRootResultSet.java
@@ -0,0 +1,153 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static java.util.Objects.isNull;
+
+import java.sql.ResultSet;
+import java.sql.ResultSetMetaData;
+import java.sql.SQLException;
+import java.util.HashSet;
+import java.util.List;
+import java.util.Set;
+import java.util.TimeZone;
+
+import org.apache.arrow.driver.jdbc.utils.ConvertUtils;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.calcite.avatica.AvaticaResultSet;
+import org.apache.calcite.avatica.AvaticaResultSetMetaData;
+import org.apache.calcite.avatica.AvaticaStatement;
+import org.apache.calcite.avatica.ColumnMetaData;
+import org.apache.calcite.avatica.Meta;
+import org.apache.calcite.avatica.Meta.Frame;
+import org.apache.calcite.avatica.Meta.Signature;
+import org.apache.calcite.avatica.QueryState;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+/**
+ * {@link ResultSet} implementation used to access a {@link VectorSchemaRoot}.
+ */
+public class ArrowFlightJdbcVectorSchemaRootResultSet extends AvaticaResultSet {
+
+  private static final Logger LOGGER =
+      LoggerFactory.getLogger(ArrowFlightJdbcVectorSchemaRootResultSet.class);
+  VectorSchemaRoot vectorSchemaRoot;
+
+  ArrowFlightJdbcVectorSchemaRootResultSet(final AvaticaStatement statement, final QueryState state,
+                                           final Signature signature,
+                                           final ResultSetMetaData resultSetMetaData,
+                                           final TimeZone timeZone, final Frame firstFrame)
+      throws SQLException {
+    super(statement, state, signature, resultSetMetaData, timeZone, firstFrame);
+  }
+
+  /**
+   * Instantiate a ResultSet backed up by given VectorSchemaRoot.
+   *
+   * @param vectorSchemaRoot root from which the ResultSet will access.
+   * @return a ResultSet which accesses the given VectorSchemaRoot
+   */
+  public static ArrowFlightJdbcVectorSchemaRootResultSet fromVectorSchemaRoot(
+      final VectorSchemaRoot vectorSchemaRoot)
+      throws SQLException {
+    // Similar to how org.apache.calcite.avatica.util.ArrayFactoryImpl does
+
+    final TimeZone timeZone = TimeZone.getDefault();
+    final QueryState state = new QueryState();
+
+    final Meta.Signature signature = ArrowFlightMetaImpl.newSignature(null);
+
+    final AvaticaResultSetMetaData resultSetMetaData =
+        new AvaticaResultSetMetaData(null, null, signature);
+    final ArrowFlightJdbcVectorSchemaRootResultSet
+        resultSet =
+        new ArrowFlightJdbcVectorSchemaRootResultSet(null, state, signature, resultSetMetaData,
+            timeZone, null);
+
+    resultSet.execute(vectorSchemaRoot);
+    return resultSet;
+  }
+
+  @Override
+  protected AvaticaResultSet execute() throws SQLException {
+    throw new RuntimeException("Can only execute with execute(VectorSchemaRoot)");
+  }
+
+  void execute(final VectorSchemaRoot vectorSchemaRoot) {
+    final List<Field> fields = vectorSchemaRoot.getSchema().getFields();
+    final List<ColumnMetaData> columns = ConvertUtils.convertArrowFieldsToColumnMetaDataList(fields);
+    signature.columns.clear();
+    signature.columns.addAll(columns);
+
+    this.vectorSchemaRoot = vectorSchemaRoot;
+    execute2(new ArrowFlightJdbcCursor(vectorSchemaRoot), this.signature.columns);
+  }
+
+  void execute(final VectorSchemaRoot vectorSchemaRoot, final Schema schema) {
+    final List<ColumnMetaData> columns = ConvertUtils.convertArrowFieldsToColumnMetaDataList(schema.getFields());
+    signature.columns.clear();
+    signature.columns.addAll(columns);
+
+    this.vectorSchemaRoot = vectorSchemaRoot;
+    execute2(new ArrowFlightJdbcCursor(vectorSchemaRoot), this.signature.columns);
+  }
+
+  @Override
+  protected void cancel() {
+    signature.columns.clear();
+    super.cancel();
+    try {
+      AutoCloseables.close(vectorSchemaRoot);
+    } catch (final Exception e) {
+      throw new RuntimeException(e);
+    }
+  }
+
+  @Override
+  public void close() {
+    final Set<Exception> exceptions = new HashSet<>();
+    try {
+      if (isClosed()) {
+        return;
+      }
+    } catch (final SQLException e) {
+      exceptions.add(e);
+    }
+    try {
+      AutoCloseables.close(vectorSchemaRoot);
+    } catch (final Exception e) {
+      exceptions.add(e);
+    }
+    if (!isNull(statement)) {
+      try {
+        super.close();
+      } catch (final Exception e) {
+        exceptions.add(e);
+      }
+    }
+    exceptions.parallelStream().forEach(e -> LOGGER.error(e.getMessage(), e));
+    exceptions.stream().findAny().ifPresent(e -> {
+      throw new RuntimeException(e);
+    });
+  }
+
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightMetaImpl.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightMetaImpl.java
new file mode 100644
index 00000000000..f825e7d13ce
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightMetaImpl.java
@@ -0,0 +1,258 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static java.lang.String.format;
+
+import java.sql.Connection;
+import java.sql.SQLException;
+import java.sql.SQLTimeoutException;
+import java.util.ArrayList;
+import java.util.Collections;
+import java.util.List;
+import java.util.Map;
+import java.util.concurrent.ConcurrentHashMap;
+
+import org.apache.arrow.driver.jdbc.client.ArrowFlightSqlClientHandler.PreparedStatement;
+import org.apache.arrow.util.Preconditions;
+import org.apache.calcite.avatica.AvaticaConnection;
+import org.apache.calcite.avatica.AvaticaParameter;
+import org.apache.calcite.avatica.ColumnMetaData;
+import org.apache.calcite.avatica.MetaImpl;
+import org.apache.calcite.avatica.NoSuchStatementException;
+import org.apache.calcite.avatica.QueryState;
+import org.apache.calcite.avatica.remote.TypedValue;
+
+/**
+ * Metadata handler for Arrow Flight.
+ */
+public class ArrowFlightMetaImpl extends MetaImpl {
+  private final Map<StatementHandleKey, PreparedStatement> statementHandlePreparedStatementMap;
+
+  /**
+   * Constructs a {@link MetaImpl} object specific for Arrow Flight.
+   * @param connection A {@link AvaticaConnection}.
+   */
+  public ArrowFlightMetaImpl(final AvaticaConnection connection) {
+    super(connection);
+    this.statementHandlePreparedStatementMap = new ConcurrentHashMap<>();
+    setDefaultConnectionProperties();
+  }
+
+  static Signature newSignature(final String sql) {
+    return new Signature(
+        new ArrayList<ColumnMetaData>(),
+        sql,
+        Collections.<AvaticaParameter>emptyList(),
+        Collections.<String, Object>emptyMap(),
+        null, // unnecessary, as SQL requests use ArrowFlightJdbcCursor
+        StatementType.SELECT
+    );
+  }
+
+  @Override
+  public void closeStatement(final StatementHandle statementHandle) {
+    PreparedStatement preparedStatement =
+        statementHandlePreparedStatementMap.remove(new StatementHandleKey(statementHandle));
+    // Testing if the prepared statement was created because the statement can be not created until this moment
+    if (preparedStatement != null) {
+      preparedStatement.close();
+    }
+  }
+
+  @Override
+  public void commit(final ConnectionHandle connectionHandle) {
+    // TODO Fill this stub.
+  }
+
+  @Override
+  public ExecuteResult execute(final StatementHandle statementHandle,
+                               final List<TypedValue> typedValues, final long maxRowCount) {
+    Preconditions.checkArgument(connection.id.equals(statementHandle.connectionId),
+        "Connection IDs are not consistent");
+    if (statementHandle.signature == null) {
+      // Update query
+      final StatementHandleKey key = new StatementHandleKey(statementHandle);
+      PreparedStatement preparedStatement = statementHandlePreparedStatementMap.get(key);
+      if (preparedStatement == null) {
+        throw new IllegalStateException("Prepared statement not found: " + statementHandle);
+      }
+      long updatedCount = preparedStatement.executeUpdate();
+      return new ExecuteResult(Collections.singletonList(MetaResultSet.count(statementHandle.connectionId,
+          statementHandle.id, updatedCount)));
+    } else {
+      // TODO Why is maxRowCount ignored?
+      return new ExecuteResult(
+          Collections.singletonList(MetaResultSet.create(
+              statementHandle.connectionId, statementHandle.id,
+              true, statementHandle.signature, null)));
+    }
+  }
+
+  @Override
+  public ExecuteResult execute(final StatementHandle statementHandle,
+                               final List<TypedValue> typedValues, final int maxRowsInFirstFrame) {
+    return execute(statementHandle, typedValues, (long) maxRowsInFirstFrame);
+  }
+
+  @Override
+  public ExecuteBatchResult executeBatch(final StatementHandle statementHandle,
+                                         final List<List<TypedValue>> parameterValuesList)
+      throws IllegalStateException {
+    throw new IllegalStateException("executeBatch not implemented.");
+  }
+
+  @Override
+  public Frame fetch(final StatementHandle statementHandle, final long offset,
+                     final int fetchMaxRowCount) {
+    /*
+     * ArrowFlightMetaImpl does not use frames.
+     * Instead, we have accessors that contain a VectorSchemaRoot with
+     * the results.
+     */
+    throw AvaticaConnection.HELPER.wrap(
+        format("%s does not use frames.", this),
+        AvaticaConnection.HELPER.unsupported());
+  }
+
+  @Override
+  public StatementHandle prepare(final ConnectionHandle connectionHandle,
+                                 final String query, final long maxRowCount) {
+    final StatementHandle handle = super.createStatement(connectionHandle);
+    handle.signature = newSignature(query);
+    final PreparedStatement preparedStatement =
+        ((ArrowFlightConnection) connection).getClientHandler().prepare(query);
+    statementHandlePreparedStatementMap.put(new StatementHandleKey(handle), preparedStatement);
+    return handle;
+  }
+
+  @Override
+  public ExecuteResult prepareAndExecute(final StatementHandle statementHandle,
+                                         final String query, final long maxRowCount,
+                                         final PrepareCallback prepareCallback)
+      throws NoSuchStatementException {
+    return prepareAndExecute(
+        statementHandle, query, maxRowCount, -1 /* Not used */, prepareCallback);
+  }
+
+  @Override
+  public ExecuteResult prepareAndExecute(final StatementHandle handle,
+                                         final String query, final long maxRowCount,
+                                         final int maxRowsInFirstFrame,
+                                         final PrepareCallback callback)
+      throws NoSuchStatementException {
+    try {
+      final PreparedStatement preparedStatement =
+          ((ArrowFlightConnection) connection).getClientHandler().prepare(query);
+      final StatementType statementType = preparedStatement.getType();
+      statementHandlePreparedStatementMap.put(new StatementHandleKey(handle), preparedStatement);
+      final Signature signature = newSignature(query);
+      final long updateCount =
+          statementType.equals(StatementType.UPDATE) ? preparedStatement.executeUpdate() : -1;
+      synchronized (callback.getMonitor()) {
+        callback.clear();
+        callback.assign(signature, null, updateCount);
+      }
+      callback.execute();
+      final MetaResultSet metaResultSet = MetaResultSet.create(handle.connectionId, handle.id,
+          false, signature, null);
+      return new ExecuteResult(Collections.singletonList(metaResultSet));
+    } catch (SQLTimeoutException e) {
+      // So far AvaticaStatement(executeInternal) only handles NoSuchStatement and Runtime Exceptions.
+      throw new RuntimeException(e);
+    } catch (SQLException e) {
+      throw new NoSuchStatementException(handle);
+    }
+  }
+
+  @Override
+  public ExecuteBatchResult prepareAndExecuteBatch(
+      final StatementHandle statementHandle, final List<String> queries)
+      throws NoSuchStatementException {
+    // TODO Fill this stub.
+    return null;
+  }
+
+  @Override
+  public void rollback(final ConnectionHandle connectionHandle) {
+    // TODO Fill this stub.
+  }
+
+  @Override
+  public boolean syncResults(final StatementHandle statementHandle,
+                             final QueryState queryState, final long offset)
+      throws NoSuchStatementException {
+    // TODO Fill this stub.
+    return false;
+  }
+
+  void setDefaultConnectionProperties() {
+    // TODO Double-check this.
+    connProps.setDirty(false)
+        .setAutoCommit(true)
+        .setReadOnly(true)
+        .setCatalog(null)
+        .setSchema(null)
+        .setTransactionIsolation(Connection.TRANSACTION_NONE);
+  }
+
+  PreparedStatement getPreparedStatement(StatementHandle statementHandle) {
+    return statementHandlePreparedStatementMap.get(new StatementHandleKey(statementHandle));
+  }
+
+  // Helper used to look up prepared statement instances later. Avatica doesn't give us the signature in
+  // an UPDATE code path so we can't directly use StatementHandle as a map key.
+  private static final class StatementHandleKey {
+    public final String connectionId;
+    public final int id;
+
+    StatementHandleKey(String connectionId, int id) {
+      this.connectionId = connectionId;
+      this.id = id;
+    }
+
+    StatementHandleKey(StatementHandle statementHandle) {
+      this.connectionId = statementHandle.connectionId;
+      this.id = statementHandle.id;
+    }
+
+    @Override
+    public boolean equals(Object o) {
+      if (this == o) {
+        return true;
+      }
+      if (o == null || getClass() != o.getClass()) {
+        return false;
+      }
+
+      StatementHandleKey that = (StatementHandleKey) o;
+
+      if (id != that.id) {
+        return false;
+      }
+      return connectionId.equals(that.connectionId);
+    }
+
+    @Override
+    public int hashCode() {
+      int result = connectionId.hashCode();
+      result = 31 * result + id;
+      return result;
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightPreparedStatement.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightPreparedStatement.java
new file mode 100644
index 00000000000..80029f38f09
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightPreparedStatement.java
@@ -0,0 +1,98 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import java.sql.Connection;
+import java.sql.PreparedStatement;
+import java.sql.SQLException;
+
+import org.apache.arrow.driver.jdbc.client.ArrowFlightSqlClientHandler;
+import org.apache.arrow.driver.jdbc.utils.ConvertUtils;
+import org.apache.arrow.flight.FlightInfo;
+import org.apache.arrow.util.Preconditions;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.calcite.avatica.AvaticaPreparedStatement;
+import org.apache.calcite.avatica.Meta.Signature;
+import org.apache.calcite.avatica.Meta.StatementHandle;
+
+
+/**
+ * Arrow Flight JBCS's implementation {@link PreparedStatement}.
+ */
+public class ArrowFlightPreparedStatement extends AvaticaPreparedStatement
+    implements ArrowFlightInfoStatement {
+
+  private final ArrowFlightSqlClientHandler.PreparedStatement preparedStatement;
+
+  private ArrowFlightPreparedStatement(final ArrowFlightConnection connection,
+                                       final ArrowFlightSqlClientHandler.PreparedStatement preparedStatement,
+                                       final StatementHandle handle,
+                                       final Signature signature, final int resultSetType,
+                                       final int resultSetConcurrency,
+                                       final int resultSetHoldability)
+      throws SQLException {
+    super(connection, handle, signature, resultSetType, resultSetConcurrency, resultSetHoldability);
+    this.preparedStatement = Preconditions.checkNotNull(preparedStatement);
+  }
+
+  /**
+   * Creates a new {@link ArrowFlightPreparedStatement} from the provided information.
+   *
+   * @param connection           the {@link Connection} to use.
+   * @param statementHandle      the {@link StatementHandle} to use.
+   * @param signature            the {@link Signature} to use.
+   * @param resultSetType        the ResultSet type.
+   * @param resultSetConcurrency the ResultSet concurrency.
+   * @param resultSetHoldability the ResultSet holdability.
+   * @return a new {@link PreparedStatement}.
+   * @throws SQLException on error.
+   */
+  static ArrowFlightPreparedStatement createNewPreparedStatement(
+      final ArrowFlightConnection connection,
+      final StatementHandle statementHandle,
+      final Signature signature,
+      final int resultSetType,
+      final int resultSetConcurrency,
+      final int resultSetHoldability) throws SQLException {
+
+    final ArrowFlightSqlClientHandler.PreparedStatement prepare = connection.getClientHandler().prepare(signature.sql);
+    final Schema resultSetSchema = prepare.getDataSetSchema();
+
+    signature.columns.addAll(ConvertUtils.convertArrowFieldsToColumnMetaDataList(resultSetSchema.getFields()));
+
+    return new ArrowFlightPreparedStatement(
+        connection, prepare, statementHandle,
+        signature, resultSetType, resultSetConcurrency, resultSetHoldability);
+  }
+
+  @Override
+  public ArrowFlightConnection getConnection() throws SQLException {
+    return (ArrowFlightConnection) super.getConnection();
+  }
+
+  @Override
+  public synchronized void close() throws SQLException {
+    this.preparedStatement.close();
+    super.close();
+  }
+
+  @Override
+  public FlightInfo executeFlightInfoQuery() throws SQLException {
+    return preparedStatement.executeQuery();
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightStatement.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightStatement.java
new file mode 100644
index 00000000000..5bc7c2ab9b4
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/ArrowFlightStatement.java
@@ -0,0 +1,60 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import java.sql.SQLException;
+
+import org.apache.arrow.driver.jdbc.client.ArrowFlightSqlClientHandler.PreparedStatement;
+import org.apache.arrow.driver.jdbc.utils.ConvertUtils;
+import org.apache.arrow.flight.FlightInfo;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.calcite.avatica.AvaticaStatement;
+import org.apache.calcite.avatica.Meta;
+import org.apache.calcite.avatica.Meta.StatementHandle;
+
+/**
+ * A SQL statement for querying data from an Arrow Flight server.
+ */
+public class ArrowFlightStatement extends AvaticaStatement implements ArrowFlightInfoStatement {
+
+  ArrowFlightStatement(final ArrowFlightConnection connection,
+                       final StatementHandle handle, final int resultSetType,
+                       final int resultSetConcurrency, final int resultSetHoldability) {
+    super(connection, handle, resultSetType, resultSetConcurrency, resultSetHoldability);
+  }
+
+  @Override
+  public ArrowFlightConnection getConnection() throws SQLException {
+    return (ArrowFlightConnection) super.getConnection();
+  }
+
+  @Override
+  public FlightInfo executeFlightInfoQuery() throws SQLException {
+    final PreparedStatement preparedStatement = getConnection().getMeta().getPreparedStatement(handle);
+    final Meta.Signature signature = getSignature();
+    if (signature == null) {
+      return null;
+    }
+
+    final Schema resultSetSchema = preparedStatement.getDataSetSchema();
+    signature.columns.addAll(ConvertUtils.convertArrowFieldsToColumnMetaDataList(resultSetSchema.getFields()));
+    setSignature(signature);
+
+    return preparedStatement.executeQuery();
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/ArrowFlightJdbcAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/ArrowFlightJdbcAccessor.java
new file mode 100644
index 00000000000..3821ee1dc87
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/ArrowFlightJdbcAccessor.java
@@ -0,0 +1,256 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor;
+
+import static org.apache.calcite.avatica.util.Cursor.Accessor;
+
+import java.io.InputStream;
+import java.io.Reader;
+import java.math.BigDecimal;
+import java.net.URL;
+import java.sql.Array;
+import java.sql.Blob;
+import java.sql.Clob;
+import java.sql.Date;
+import java.sql.NClob;
+import java.sql.Ref;
+import java.sql.SQLException;
+import java.sql.SQLXML;
+import java.sql.Struct;
+import java.sql.Time;
+import java.sql.Timestamp;
+import java.util.Calendar;
+import java.util.Map;
+import java.util.function.IntSupplier;
+
+/**
+ * Base Jdbc Accessor.
+ */
+public abstract class ArrowFlightJdbcAccessor implements Accessor {
+  private final IntSupplier currentRowSupplier;
+
+  // All the derived accessor classes should alter this as they encounter null Values
+  protected boolean wasNull;
+  protected ArrowFlightJdbcAccessorFactory.WasNullConsumer wasNullConsumer;
+
+  protected ArrowFlightJdbcAccessor(final IntSupplier currentRowSupplier,
+                                    ArrowFlightJdbcAccessorFactory.WasNullConsumer wasNullConsumer) {
+    this.currentRowSupplier = currentRowSupplier;
+    this.wasNullConsumer = wasNullConsumer;
+  }
+
+  protected int getCurrentRow() {
+    return currentRowSupplier.getAsInt();
+  }
+
+  // It needs to be public so this method can be accessed when creating the complex types.
+  public abstract Class<?> getObjectClass();
+
+  @Override
+  public boolean wasNull() {
+    return wasNull;
+  }
+
+  @Override
+  public String getString() throws SQLException {
+    final Object object = getObject();
+    if (object == null) {
+      return null;
+    }
+
+    return object.toString();
+  }
+
+  @Override
+  public boolean getBoolean() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public byte getByte() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public short getShort() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public int getInt() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public long getLong() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public float getFloat() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public double getDouble() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public BigDecimal getBigDecimal() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public BigDecimal getBigDecimal(final int i) throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public byte[] getBytes() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public InputStream getAsciiStream() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public InputStream getUnicodeStream() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public InputStream getBinaryStream() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public Object getObject() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public Reader getCharacterStream() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public Object getObject(final Map<String, Class<?>> map) throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public Ref getRef() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public Blob getBlob() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public Clob getClob() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public Array getArray() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public Struct getStruct() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public Date getDate(final Calendar calendar) throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public Time getTime(final Calendar calendar) throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public Timestamp getTimestamp(final Calendar calendar) throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public URL getURL() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public NClob getNClob() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public SQLXML getSQLXML() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public String getNString() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public Reader getNCharacterStream() throws SQLException {
+    throw getOperationNotSupported(this.getClass());
+  }
+
+  @Override
+  public <T> T getObject(final Class<T> type) throws SQLException {
+    final Object value;
+    if (type == Byte.class) {
+      value = getByte();
+    } else if (type == Short.class) {
+      value = getShort();
+    } else if (type == Integer.class) {
+      value = getInt();
+    } else if (type == Long.class) {
+      value = getLong();
+    } else if (type == Float.class) {
+      value = getFloat();
+    } else if (type == Double.class) {
+      value = getDouble();
+    } else if (type == Boolean.class) {
+      value = getBoolean();
+    } else if (type == BigDecimal.class) {
+      value = getBigDecimal();
+    } else if (type == String.class) {
+      value = getString();
+    } else if (type == byte[].class) {
+      value = getBytes();
+    } else {
+      value = getObject();
+    }
+    return !type.isPrimitive() && wasNull ? null : type.cast(value);
+  }
+
+  private static SQLException getOperationNotSupported(final Class<?> type) {
+    return new SQLException(String.format("Operation not supported for type: %s.", type.getName()));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/ArrowFlightJdbcAccessorFactory.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/ArrowFlightJdbcAccessorFactory.java
new file mode 100644
index 00000000000..813b40a8070
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/ArrowFlightJdbcAccessorFactory.java
@@ -0,0 +1,214 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor;
+
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.impl.ArrowFlightJdbcNullVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.binary.ArrowFlightJdbcBinaryVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcDateVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcDurationVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcIntervalVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeStampVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcDenseUnionVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcFixedSizeListVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcLargeListVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcListVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcMapVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcStructVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcUnionVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.numeric.ArrowFlightJdbcBaseIntVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.numeric.ArrowFlightJdbcBitVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.numeric.ArrowFlightJdbcDecimalVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.numeric.ArrowFlightJdbcFloat4VectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.numeric.ArrowFlightJdbcFloat8VectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.text.ArrowFlightJdbcVarCharVectorAccessor;
+import org.apache.arrow.vector.BigIntVector;
+import org.apache.arrow.vector.BitVector;
+import org.apache.arrow.vector.DateDayVector;
+import org.apache.arrow.vector.DateMilliVector;
+import org.apache.arrow.vector.Decimal256Vector;
+import org.apache.arrow.vector.DecimalVector;
+import org.apache.arrow.vector.DurationVector;
+import org.apache.arrow.vector.FixedSizeBinaryVector;
+import org.apache.arrow.vector.Float4Vector;
+import org.apache.arrow.vector.Float8Vector;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.IntervalDayVector;
+import org.apache.arrow.vector.IntervalYearVector;
+import org.apache.arrow.vector.LargeVarBinaryVector;
+import org.apache.arrow.vector.LargeVarCharVector;
+import org.apache.arrow.vector.NullVector;
+import org.apache.arrow.vector.SmallIntVector;
+import org.apache.arrow.vector.TimeMicroVector;
+import org.apache.arrow.vector.TimeMilliVector;
+import org.apache.arrow.vector.TimeNanoVector;
+import org.apache.arrow.vector.TimeSecVector;
+import org.apache.arrow.vector.TimeStampVector;
+import org.apache.arrow.vector.TinyIntVector;
+import org.apache.arrow.vector.UInt1Vector;
+import org.apache.arrow.vector.UInt2Vector;
+import org.apache.arrow.vector.UInt4Vector;
+import org.apache.arrow.vector.UInt8Vector;
+import org.apache.arrow.vector.ValueVector;
+import org.apache.arrow.vector.VarBinaryVector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.complex.DenseUnionVector;
+import org.apache.arrow.vector.complex.FixedSizeListVector;
+import org.apache.arrow.vector.complex.LargeListVector;
+import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.MapVector;
+import org.apache.arrow.vector.complex.StructVector;
+import org.apache.arrow.vector.complex.UnionVector;
+
+/**
+ * Factory to instantiate the accessors.
+ */
+public class ArrowFlightJdbcAccessorFactory {
+
+  /**
+   * Create an accessor according to its type.
+   *
+   * @param vector        an instance of an arrow vector.
+   * @param getCurrentRow a supplier to check which row is being accessed.
+   * @return an instance of one of the accessors.
+   */
+  public static ArrowFlightJdbcAccessor createAccessor(ValueVector vector,
+                                                       IntSupplier getCurrentRow,
+                                                       WasNullConsumer setCursorWasNull) {
+    if (vector instanceof UInt1Vector) {
+      return new ArrowFlightJdbcBaseIntVectorAccessor((UInt1Vector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof UInt2Vector) {
+      return new ArrowFlightJdbcBaseIntVectorAccessor((UInt2Vector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof UInt4Vector) {
+      return new ArrowFlightJdbcBaseIntVectorAccessor((UInt4Vector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof UInt8Vector) {
+      return new ArrowFlightJdbcBaseIntVectorAccessor((UInt8Vector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof TinyIntVector) {
+      return new ArrowFlightJdbcBaseIntVectorAccessor((TinyIntVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof SmallIntVector) {
+      return new ArrowFlightJdbcBaseIntVectorAccessor((SmallIntVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof IntVector) {
+      return new ArrowFlightJdbcBaseIntVectorAccessor((IntVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof BigIntVector) {
+      return new ArrowFlightJdbcBaseIntVectorAccessor((BigIntVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof Float4Vector) {
+      return new ArrowFlightJdbcFloat4VectorAccessor((Float4Vector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof Float8Vector) {
+      return new ArrowFlightJdbcFloat8VectorAccessor((Float8Vector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof BitVector) {
+      return new ArrowFlightJdbcBitVectorAccessor((BitVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof DecimalVector) {
+      return new ArrowFlightJdbcDecimalVectorAccessor((DecimalVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof Decimal256Vector) {
+      return new ArrowFlightJdbcDecimalVectorAccessor((Decimal256Vector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof VarBinaryVector) {
+      return new ArrowFlightJdbcBinaryVectorAccessor((VarBinaryVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof LargeVarBinaryVector) {
+      return new ArrowFlightJdbcBinaryVectorAccessor((LargeVarBinaryVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof FixedSizeBinaryVector) {
+      return new ArrowFlightJdbcBinaryVectorAccessor((FixedSizeBinaryVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof TimeStampVector) {
+      return new ArrowFlightJdbcTimeStampVectorAccessor((TimeStampVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof TimeNanoVector) {
+      return new ArrowFlightJdbcTimeVectorAccessor((TimeNanoVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof TimeMicroVector) {
+      return new ArrowFlightJdbcTimeVectorAccessor((TimeMicroVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof TimeMilliVector) {
+      return new ArrowFlightJdbcTimeVectorAccessor((TimeMilliVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof TimeSecVector) {
+      return new ArrowFlightJdbcTimeVectorAccessor((TimeSecVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof DateDayVector) {
+      return new ArrowFlightJdbcDateVectorAccessor(((DateDayVector) vector), getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof DateMilliVector) {
+      return new ArrowFlightJdbcDateVectorAccessor(((DateMilliVector) vector), getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof VarCharVector) {
+      return new ArrowFlightJdbcVarCharVectorAccessor((VarCharVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof LargeVarCharVector) {
+      return new ArrowFlightJdbcVarCharVectorAccessor((LargeVarCharVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof DurationVector) {
+      return new ArrowFlightJdbcDurationVectorAccessor((DurationVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof IntervalDayVector) {
+      return new ArrowFlightJdbcIntervalVectorAccessor(((IntervalDayVector) vector), getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof IntervalYearVector) {
+      return new ArrowFlightJdbcIntervalVectorAccessor(((IntervalYearVector) vector), getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof StructVector) {
+      return new ArrowFlightJdbcStructVectorAccessor((StructVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof MapVector) {
+      return new ArrowFlightJdbcMapVectorAccessor((MapVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof ListVector) {
+      return new ArrowFlightJdbcListVectorAccessor((ListVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof LargeListVector) {
+      return new ArrowFlightJdbcLargeListVectorAccessor((LargeListVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof FixedSizeListVector) {
+      return new ArrowFlightJdbcFixedSizeListVectorAccessor((FixedSizeListVector) vector,
+          getCurrentRow, setCursorWasNull);
+    } else if (vector instanceof UnionVector) {
+      return new ArrowFlightJdbcUnionVectorAccessor((UnionVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof DenseUnionVector) {
+      return new ArrowFlightJdbcDenseUnionVectorAccessor((DenseUnionVector) vector, getCurrentRow,
+          setCursorWasNull);
+    } else if (vector instanceof NullVector || vector == null) {
+      return new ArrowFlightJdbcNullVectorAccessor(setCursorWasNull);
+    }
+
+    throw new UnsupportedOperationException("Unsupported vector type: " + vector.getClass().getName());
+  }
+
+  /**
+   * Functional interface used to propagate that the value accessed was null or not.
+   */
+  @FunctionalInterface
+  public interface WasNullConsumer {
+    void setWasNull(boolean wasNull);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/ArrowFlightJdbcNullVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/ArrowFlightJdbcNullVectorAccessor.java
new file mode 100644
index 00000000000..f40a5797293
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/ArrowFlightJdbcNullVectorAccessor.java
@@ -0,0 +1,48 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.NullVector;
+
+/**
+ * Accessor for the Arrow type {@link NullVector}.
+ */
+public class ArrowFlightJdbcNullVectorAccessor extends ArrowFlightJdbcAccessor {
+  public ArrowFlightJdbcNullVectorAccessor(
+      ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(null, setCursorWasNull);
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return Object.class;
+  }
+
+  @Override
+  public boolean wasNull() {
+    return true;
+  }
+
+  @Override
+  public Object getObject() {
+    this.wasNullConsumer.setWasNull(true);
+    return null;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/binary/ArrowFlightJdbcBinaryVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/binary/ArrowFlightJdbcBinaryVectorAccessor.java
new file mode 100644
index 00000000000..c50d7349721
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/binary/ArrowFlightJdbcBinaryVectorAccessor.java
@@ -0,0 +1,137 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.binary;
+
+import java.io.ByteArrayInputStream;
+import java.io.CharArrayReader;
+import java.io.InputStream;
+import java.io.Reader;
+import java.nio.charset.StandardCharsets;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.FixedSizeBinaryVector;
+import org.apache.arrow.vector.LargeVarBinaryVector;
+import org.apache.arrow.vector.VarBinaryVector;
+
+/**
+ * Accessor for the Arrow types: {@link FixedSizeBinaryVector}, {@link VarBinaryVector}
+ * and {@link LargeVarBinaryVector}.
+ */
+public class ArrowFlightJdbcBinaryVectorAccessor extends ArrowFlightJdbcAccessor {
+
+  private interface ByteArrayGetter {
+    byte[] get(int index);
+  }
+
+  private final ByteArrayGetter getter;
+
+  public ArrowFlightJdbcBinaryVectorAccessor(FixedSizeBinaryVector vector,
+                                             IntSupplier currentRowSupplier,
+                                             ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    this(vector::get, currentRowSupplier, setCursorWasNull);
+  }
+
+  public ArrowFlightJdbcBinaryVectorAccessor(VarBinaryVector vector, IntSupplier currentRowSupplier,
+                                             ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    this(vector::get, currentRowSupplier, setCursorWasNull);
+  }
+
+  public ArrowFlightJdbcBinaryVectorAccessor(LargeVarBinaryVector vector,
+                                             IntSupplier currentRowSupplier,
+                                             ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    this(vector::get, currentRowSupplier, setCursorWasNull);
+  }
+
+  private ArrowFlightJdbcBinaryVectorAccessor(ByteArrayGetter getter,
+                                              IntSupplier currentRowSupplier,
+                                              ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.getter = getter;
+  }
+
+  @Override
+  public byte[] getBytes() {
+    byte[] bytes = getter.get(getCurrentRow());
+    this.wasNull = bytes == null;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+
+    return bytes;
+  }
+
+  @Override
+  public Object getObject() {
+    return this.getBytes();
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return byte[].class;
+  }
+
+  @Override
+  public String getString() {
+    byte[] bytes = this.getBytes();
+    if (bytes == null) {
+      return null;
+    }
+
+    return new String(bytes, StandardCharsets.UTF_8);
+  }
+
+  @Override
+  public InputStream getAsciiStream() {
+    byte[] bytes = getBytes();
+    if (bytes == null) {
+      return null;
+    }
+
+    return new ByteArrayInputStream(bytes);
+  }
+
+  @Override
+  public InputStream getUnicodeStream() {
+    byte[] bytes = getBytes();
+    if (bytes == null) {
+      return null;
+    }
+
+    return new ByteArrayInputStream(bytes);
+  }
+
+  @Override
+  public InputStream getBinaryStream() {
+    byte[] bytes = getBytes();
+    if (bytes == null) {
+      return null;
+    }
+
+    return new ByteArrayInputStream(bytes);
+  }
+
+  @Override
+  public Reader getCharacterStream() {
+    String string = getString();
+    if (string == null) {
+      return null;
+    }
+
+    return new CharArrayReader(string.toCharArray());
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDateVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDateVectorAccessor.java
new file mode 100644
index 00000000000..f6c14a47f52
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDateVectorAccessor.java
@@ -0,0 +1,137 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.calendar;
+
+import static org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcDateVectorGetter.Getter;
+import static org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcDateVectorGetter.Holder;
+import static org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcDateVectorGetter.createGetter;
+import static org.apache.arrow.driver.jdbc.utils.DateTimeUtils.getTimestampValue;
+import static org.apache.calcite.avatica.util.DateTimeUtils.MILLIS_PER_DAY;
+import static org.apache.calcite.avatica.util.DateTimeUtils.unixDateToString;
+
+import java.sql.Date;
+import java.sql.Timestamp;
+import java.util.Calendar;
+import java.util.concurrent.TimeUnit;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.driver.jdbc.utils.DateTimeUtils;
+import org.apache.arrow.vector.DateDayVector;
+import org.apache.arrow.vector.DateMilliVector;
+import org.apache.arrow.vector.ValueVector;
+
+/**
+ * Accessor for the Arrow types: {@link DateDayVector} and {@link DateMilliVector}.
+ */
+public class ArrowFlightJdbcDateVectorAccessor extends ArrowFlightJdbcAccessor {
+
+  private final Getter getter;
+  private final TimeUnit timeUnit;
+  private final Holder holder;
+
+  /**
+   * Instantiate an accessor for a {@link DateDayVector}.
+   *
+   * @param vector             an instance of a DateDayVector.
+   * @param currentRowSupplier the supplier to track the lines.
+   * @param setCursorWasNull   the consumer to set if value was null.
+   */
+  public ArrowFlightJdbcDateVectorAccessor(DateDayVector vector, IntSupplier currentRowSupplier,
+                                           ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.holder = new Holder();
+    this.getter = createGetter(vector);
+    this.timeUnit = getTimeUnitForVector(vector);
+  }
+
+  /**
+   * Instantiate an accessor for a {@link DateMilliVector}.
+   *
+   * @param vector             an instance of a DateMilliVector.
+   * @param currentRowSupplier the supplier to track the lines.
+   */
+  public ArrowFlightJdbcDateVectorAccessor(DateMilliVector vector, IntSupplier currentRowSupplier,
+                                           ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.holder = new Holder();
+    this.getter = createGetter(vector);
+    this.timeUnit = getTimeUnitForVector(vector);
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return Date.class;
+  }
+
+  @Override
+  public Object getObject() {
+    return this.getDate(null);
+  }
+
+  @Override
+  public Date getDate(Calendar calendar) {
+    fillHolder();
+    if (this.wasNull) {
+      return null;
+    }
+
+    long value = holder.value;
+    long milliseconds = this.timeUnit.toMillis(value);
+
+    long millisWithCalendar = DateTimeUtils.applyCalendarOffset(milliseconds, calendar);
+
+    return new Date(getTimestampValue(millisWithCalendar).getTime());
+  }
+
+  private void fillHolder() {
+    getter.get(getCurrentRow(), holder);
+    this.wasNull = holder.isSet == 0;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+  }
+
+  @Override
+  public Timestamp getTimestamp(Calendar calendar) {
+    Date date = getDate(calendar);
+    if (date == null) {
+      return null;
+    }
+    return new Timestamp(date.getTime());
+  }
+
+  @Override
+  public String getString() {
+    fillHolder();
+    if (wasNull) {
+      return null;
+    }
+    long milliseconds = timeUnit.toMillis(holder.value);
+    return unixDateToString((int) (milliseconds / MILLIS_PER_DAY));
+  }
+
+  protected static TimeUnit getTimeUnitForVector(ValueVector vector) {
+    if (vector instanceof DateDayVector) {
+      return TimeUnit.DAYS;
+    } else if (vector instanceof DateMilliVector) {
+      return TimeUnit.MILLISECONDS;
+    }
+
+    throw new IllegalArgumentException("Invalid Arrow vector");
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDateVectorGetter.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDateVectorGetter.java
new file mode 100644
index 00000000000..ea545851a3a
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDateVectorGetter.java
@@ -0,0 +1,67 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.calendar;
+
+import org.apache.arrow.vector.DateDayVector;
+import org.apache.arrow.vector.DateMilliVector;
+import org.apache.arrow.vector.holders.NullableDateDayHolder;
+import org.apache.arrow.vector.holders.NullableDateMilliHolder;
+
+/**
+ * Auxiliary class used to unify data access on TimeStampVectors.
+ */
+final class ArrowFlightJdbcDateVectorGetter {
+
+  private ArrowFlightJdbcDateVectorGetter() {
+    // Prevent instantiation.
+  }
+
+  /**
+   * Auxiliary class meant to unify Date*Vector#get implementations with different classes of ValueHolders.
+   */
+  static class Holder {
+    int isSet; // Tells if value is set; 0 = not set, 1 = set
+    long value; // Holds actual value in its respective timeunit
+  }
+
+  /**
+   * Functional interface used to unify Date*Vector#get implementations.
+   */
+  @FunctionalInterface
+  interface Getter {
+    void get(int index, Holder holder);
+  }
+
+  static Getter createGetter(DateDayVector vector) {
+    NullableDateDayHolder auxHolder = new NullableDateDayHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+
+  static Getter createGetter(DateMilliVector vector) {
+    NullableDateMilliHolder auxHolder = new NullableDateMilliHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDurationVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDurationVectorAccessor.java
new file mode 100644
index 00000000000..22a0e6f8923
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDurationVectorAccessor.java
@@ -0,0 +1,54 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.calendar;
+
+import java.time.Duration;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.DurationVector;
+
+/**
+ * Accessor for the Arrow type {@link DurationVector}.
+ */
+public class ArrowFlightJdbcDurationVectorAccessor extends ArrowFlightJdbcAccessor {
+
+  private final DurationVector vector;
+
+  public ArrowFlightJdbcDurationVectorAccessor(DurationVector vector,
+                                               IntSupplier currentRowSupplier,
+                                               ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.vector = vector;
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return Duration.class;
+  }
+
+  @Override
+  public Object getObject() {
+    Duration duration = vector.getObject(getCurrentRow());
+    this.wasNull = duration == null;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+
+    return duration;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcIntervalVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcIntervalVectorAccessor.java
new file mode 100644
index 00000000000..283dc9160a9
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcIntervalVectorAccessor.java
@@ -0,0 +1,126 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.calendar;
+
+import static org.apache.arrow.driver.jdbc.utils.IntervalStringUtils.formatIntervalDay;
+import static org.apache.arrow.driver.jdbc.utils.IntervalStringUtils.formatIntervalYear;
+import static org.apache.arrow.vector.util.DateUtility.yearsToMonths;
+
+import java.sql.SQLException;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.BaseFixedWidthVector;
+import org.apache.arrow.vector.IntervalDayVector;
+import org.apache.arrow.vector.IntervalYearVector;
+import org.apache.arrow.vector.holders.NullableIntervalDayHolder;
+import org.apache.arrow.vector.holders.NullableIntervalYearHolder;
+import org.joda.time.Period;
+
+/**
+ * Accessor for the Arrow type {@link IntervalDayVector}.
+ */
+public class ArrowFlightJdbcIntervalVectorAccessor extends ArrowFlightJdbcAccessor {
+
+  private final BaseFixedWidthVector vector;
+  private final StringGetter stringGetter;
+  private final Class<?> objectClass;
+
+  /**
+   * Instantiate an accessor for a {@link IntervalDayVector}.
+   *
+   * @param vector             an instance of a IntervalDayVector.
+   * @param currentRowSupplier the supplier to track the rows.
+   * @param setCursorWasNull   the consumer to set if value was null.
+   */
+  public ArrowFlightJdbcIntervalVectorAccessor(IntervalDayVector vector,
+                                               IntSupplier currentRowSupplier,
+                                               ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.vector = vector;
+    stringGetter = (index) -> {
+      final NullableIntervalDayHolder holder = new NullableIntervalDayHolder();
+      vector.get(index, holder);
+      if (holder.isSet == 0) {
+        return null;
+      } else {
+        final int days = holder.days;
+        final int millis = holder.milliseconds;
+        return formatIntervalDay(new Period().plusDays(days).plusMillis(millis));
+      }
+    };
+    objectClass = java.time.Duration.class;
+  }
+
+  /**
+   * Instantiate an accessor for a {@link IntervalYearVector}.
+   *
+   * @param vector             an instance of a IntervalYearVector.
+   * @param currentRowSupplier the supplier to track the rows.
+   * @param setCursorWasNull   the consumer to set if value was null.
+   */
+  public ArrowFlightJdbcIntervalVectorAccessor(IntervalYearVector vector,
+                                               IntSupplier currentRowSupplier,
+                                               ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.vector = vector;
+    stringGetter = (index) -> {
+      final NullableIntervalYearHolder holder = new NullableIntervalYearHolder();
+      vector.get(index, holder);
+      if (holder.isSet == 0) {
+        return null;
+      } else {
+        final int interval = holder.value;
+        final int years = (interval / yearsToMonths);
+        final int months = (interval % yearsToMonths);
+        return formatIntervalYear(new Period().plusYears(years).plusMonths(months));
+      }
+    };
+    objectClass = java.time.Period.class;
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return objectClass;
+  }
+
+  @Override
+  public String getString() throws SQLException {
+    String result = stringGetter.get(getCurrentRow());
+    wasNull = result == null;
+    wasNullConsumer.setWasNull(wasNull);
+    return result;
+  }
+
+  @Override
+  public Object getObject() {
+    Object object = vector.getObject(getCurrentRow());
+    wasNull = object == null;
+    wasNullConsumer.setWasNull(wasNull);
+    return object;
+  }
+
+  /**
+   * Functional interface used to unify Interval*Vector#getAsStringBuilder implementations.
+   */
+  @FunctionalInterface
+  interface StringGetter {
+    String get(int index);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeStampVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeStampVectorAccessor.java
new file mode 100644
index 00000000000..a23883baf1e
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeStampVectorAccessor.java
@@ -0,0 +1,185 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.calendar;
+
+import static org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeStampVectorGetter.Getter;
+import static org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeStampVectorGetter.Holder;
+import static org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeStampVectorGetter.createGetter;
+
+import java.sql.Date;
+import java.sql.Time;
+import java.sql.Timestamp;
+import java.time.LocalDateTime;
+import java.time.temporal.ChronoUnit;
+import java.util.Calendar;
+import java.util.TimeZone;
+import java.util.concurrent.TimeUnit;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.TimeStampVector;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.util.DateUtility;
+
+/**
+ * Accessor for the Arrow types extending from {@link TimeStampVector}.
+ */
+public class ArrowFlightJdbcTimeStampVectorAccessor extends ArrowFlightJdbcAccessor {
+
+  private final TimeZone timeZone;
+  private final Getter getter;
+  private final TimeUnit timeUnit;
+  private final LongToLocalDateTime longToLocalDateTime;
+  private final Holder holder;
+
+  /**
+   * Functional interface used to convert a number (in any time resolution) to LocalDateTime.
+   */
+  interface LongToLocalDateTime {
+    LocalDateTime fromLong(long value);
+  }
+
+  /**
+   * Instantiate a ArrowFlightJdbcTimeStampVectorAccessor for given vector.
+   */
+  public ArrowFlightJdbcTimeStampVectorAccessor(TimeStampVector vector,
+                                                IntSupplier currentRowSupplier,
+                                                ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.holder = new Holder();
+    this.getter = createGetter(vector);
+
+    this.timeZone = getTimeZoneForVector(vector);
+    this.timeUnit = getTimeUnitForVector(vector);
+    this.longToLocalDateTime = getLongToLocalDateTimeForVector(vector, this.timeZone);
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return Timestamp.class;
+  }
+
+  @Override
+  public Object getObject() {
+    return this.getTimestamp(null);
+  }
+
+  private LocalDateTime getLocalDateTime(Calendar calendar) {
+    getter.get(getCurrentRow(), holder);
+    this.wasNull = holder.isSet == 0;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+    if (this.wasNull) {
+      return null;
+    }
+
+    long value = holder.value;
+
+    LocalDateTime localDateTime = this.longToLocalDateTime.fromLong(value);
+
+    if (calendar != null) {
+      TimeZone timeZone = calendar.getTimeZone();
+      long millis = this.timeUnit.toMillis(value);
+      localDateTime = localDateTime
+          .minus(timeZone.getOffset(millis) - this.timeZone.getOffset(millis), ChronoUnit.MILLIS);
+    }
+    return localDateTime;
+  }
+
+  @Override
+  public Date getDate(Calendar calendar) {
+    LocalDateTime localDateTime = getLocalDateTime(calendar);
+    if (localDateTime == null) {
+      return null;
+    }
+
+    return new Date(Timestamp.valueOf(localDateTime).getTime());
+  }
+
+  @Override
+  public Time getTime(Calendar calendar) {
+    LocalDateTime localDateTime = getLocalDateTime(calendar);
+    if (localDateTime == null) {
+      return null;
+    }
+
+    return new Time(Timestamp.valueOf(localDateTime).getTime());
+  }
+
+  @Override
+  public Timestamp getTimestamp(Calendar calendar) {
+    LocalDateTime localDateTime = getLocalDateTime(calendar);
+    if (localDateTime == null) {
+      return null;
+    }
+
+    return Timestamp.valueOf(localDateTime);
+  }
+
+  protected static TimeUnit getTimeUnitForVector(TimeStampVector vector) {
+    ArrowType.Timestamp arrowType =
+        (ArrowType.Timestamp) vector.getField().getFieldType().getType();
+
+    switch (arrowType.getUnit()) {
+      case NANOSECOND:
+        return TimeUnit.NANOSECONDS;
+      case MICROSECOND:
+        return TimeUnit.MICROSECONDS;
+      case MILLISECOND:
+        return TimeUnit.MILLISECONDS;
+      case SECOND:
+        return TimeUnit.SECONDS;
+      default:
+        throw new UnsupportedOperationException("Invalid Arrow time unit");
+    }
+  }
+
+  protected static LongToLocalDateTime getLongToLocalDateTimeForVector(TimeStampVector vector,
+                                                                       TimeZone timeZone) {
+    String timeZoneID = timeZone.getID();
+
+    ArrowType.Timestamp arrowType =
+        (ArrowType.Timestamp) vector.getField().getFieldType().getType();
+
+    switch (arrowType.getUnit()) {
+      case NANOSECOND:
+        return nanoseconds -> DateUtility.getLocalDateTimeFromEpochNano(nanoseconds, timeZoneID);
+      case MICROSECOND:
+        return microseconds -> DateUtility.getLocalDateTimeFromEpochMicro(microseconds, timeZoneID);
+      case MILLISECOND:
+        return milliseconds -> DateUtility.getLocalDateTimeFromEpochMilli(milliseconds, timeZoneID);
+      case SECOND:
+        return seconds -> DateUtility.getLocalDateTimeFromEpochMilli(
+            TimeUnit.SECONDS.toMillis(seconds), timeZoneID);
+      default:
+        throw new UnsupportedOperationException("Invalid Arrow time unit");
+    }
+  }
+
+  protected static TimeZone getTimeZoneForVector(TimeStampVector vector) {
+    ArrowType.Timestamp arrowType =
+        (ArrowType.Timestamp) vector.getField().getFieldType().getType();
+
+    String timezoneName = arrowType.getTimezone();
+    if (timezoneName == null) {
+      return TimeZone.getTimeZone("UTC");
+    }
+
+    return TimeZone.getTimeZone(timezoneName);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeStampVectorGetter.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeStampVectorGetter.java
new file mode 100644
index 00000000000..03fb35face7
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeStampVectorGetter.java
@@ -0,0 +1,156 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.calendar;
+
+import org.apache.arrow.vector.TimeStampMicroTZVector;
+import org.apache.arrow.vector.TimeStampMicroVector;
+import org.apache.arrow.vector.TimeStampMilliTZVector;
+import org.apache.arrow.vector.TimeStampMilliVector;
+import org.apache.arrow.vector.TimeStampNanoTZVector;
+import org.apache.arrow.vector.TimeStampNanoVector;
+import org.apache.arrow.vector.TimeStampSecTZVector;
+import org.apache.arrow.vector.TimeStampSecVector;
+import org.apache.arrow.vector.TimeStampVector;
+import org.apache.arrow.vector.holders.NullableTimeStampMicroHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampMicroTZHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampMilliHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampMilliTZHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampNanoHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampNanoTZHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampSecHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampSecTZHolder;
+
+/**
+ * Auxiliary class used to unify data access on TimeStampVectors.
+ */
+final class ArrowFlightJdbcTimeStampVectorGetter {
+
+  private ArrowFlightJdbcTimeStampVectorGetter() {
+    // Prevent instantiation.
+  }
+
+  /**
+   * Auxiliary class meant to unify TimeStamp*Vector#get implementations with different classes of ValueHolders.
+   */
+  static class Holder {
+    int isSet; // Tells if value is set; 0 = not set, 1 = set
+    long value; // Holds actual value in its respective timeunit
+  }
+
+  /**
+   * Functional interface used to unify TimeStamp*Vector#get implementations.
+   */
+  @FunctionalInterface
+  interface Getter {
+    void get(int index, Holder holder);
+  }
+
+  static Getter createGetter(TimeStampVector vector) {
+    if (vector instanceof TimeStampNanoVector) {
+      return createGetter((TimeStampNanoVector) vector);
+    } else if (vector instanceof TimeStampNanoTZVector) {
+      return createGetter((TimeStampNanoTZVector) vector);
+    } else if (vector instanceof TimeStampMicroVector) {
+      return createGetter((TimeStampMicroVector) vector);
+    } else if (vector instanceof TimeStampMicroTZVector) {
+      return createGetter((TimeStampMicroTZVector) vector);
+    } else if (vector instanceof TimeStampMilliVector) {
+      return createGetter((TimeStampMilliVector) vector);
+    } else if (vector instanceof TimeStampMilliTZVector) {
+      return createGetter((TimeStampMilliTZVector) vector);
+    } else if (vector instanceof TimeStampSecVector) {
+      return createGetter((TimeStampSecVector) vector);
+    } else if (vector instanceof TimeStampSecTZVector) {
+      return createGetter((TimeStampSecTZVector) vector);
+    }
+
+    throw new UnsupportedOperationException("Unsupported Timestamp vector type");
+  }
+
+  private static Getter createGetter(TimeStampNanoVector vector) {
+    NullableTimeStampNanoHolder auxHolder = new NullableTimeStampNanoHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+
+  private static Getter createGetter(TimeStampNanoTZVector vector) {
+    NullableTimeStampNanoTZHolder auxHolder = new NullableTimeStampNanoTZHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+
+  private static Getter createGetter(TimeStampMicroVector vector) {
+    NullableTimeStampMicroHolder auxHolder = new NullableTimeStampMicroHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+
+  private static Getter createGetter(TimeStampMicroTZVector vector) {
+    NullableTimeStampMicroTZHolder auxHolder = new NullableTimeStampMicroTZHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+
+  private static Getter createGetter(TimeStampMilliVector vector) {
+    NullableTimeStampMilliHolder auxHolder = new NullableTimeStampMilliHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+
+  private static Getter createGetter(TimeStampMilliTZVector vector) {
+    NullableTimeStampMilliTZHolder auxHolder = new NullableTimeStampMilliTZHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+
+  private static Getter createGetter(TimeStampSecVector vector) {
+    NullableTimeStampSecHolder auxHolder = new NullableTimeStampSecHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+
+  private static Getter createGetter(TimeStampSecTZVector vector) {
+    NullableTimeStampSecTZHolder auxHolder = new NullableTimeStampSecTZHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeVectorAccessor.java
new file mode 100644
index 00000000000..6c2173d5e56
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeVectorAccessor.java
@@ -0,0 +1,159 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.calendar;
+
+import static org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeVectorGetter.Getter;
+import static org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeVectorGetter.Holder;
+import static org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeVectorGetter.createGetter;
+
+import java.sql.Time;
+import java.sql.Timestamp;
+import java.util.Calendar;
+import java.util.concurrent.TimeUnit;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.ArrowFlightJdbcTime;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.driver.jdbc.utils.DateTimeUtils;
+import org.apache.arrow.vector.TimeMicroVector;
+import org.apache.arrow.vector.TimeMilliVector;
+import org.apache.arrow.vector.TimeNanoVector;
+import org.apache.arrow.vector.TimeSecVector;
+import org.apache.arrow.vector.ValueVector;
+
+/**
+ * Accessor for the Arrow types: {@link TimeNanoVector}, {@link TimeMicroVector}, {@link TimeMilliVector}
+ * and {@link TimeSecVector}.
+ */
+public class ArrowFlightJdbcTimeVectorAccessor extends ArrowFlightJdbcAccessor {
+
+  private final Getter getter;
+  private final TimeUnit timeUnit;
+  private final Holder holder;
+
+  /**
+   * Instantiate an accessor for a {@link TimeNanoVector}.
+   *
+   * @param vector             an instance of a TimeNanoVector.
+   * @param currentRowSupplier the supplier to track the lines.
+   * @param setCursorWasNull   the consumer to set if value was null.
+   */
+  public ArrowFlightJdbcTimeVectorAccessor(TimeNanoVector vector, IntSupplier currentRowSupplier,
+                                           ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.holder = new Holder();
+    this.getter = createGetter(vector);
+    this.timeUnit = getTimeUnitForVector(vector);
+  }
+
+  /**
+   * Instantiate an accessor for a {@link TimeMicroVector}.
+   *
+   * @param vector             an instance of a TimeMicroVector.
+   * @param currentRowSupplier the supplier to track the lines.
+   * @param setCursorWasNull   the consumer to set if value was null.
+   */
+  public ArrowFlightJdbcTimeVectorAccessor(TimeMicroVector vector, IntSupplier currentRowSupplier,
+                                           ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.holder = new Holder();
+    this.getter = createGetter(vector);
+    this.timeUnit = getTimeUnitForVector(vector);
+  }
+
+  /**
+   * Instantiate an accessor for a {@link TimeMilliVector}.
+   *
+   * @param vector             an instance of a TimeMilliVector.
+   * @param currentRowSupplier the supplier to track the lines.
+   */
+  public ArrowFlightJdbcTimeVectorAccessor(TimeMilliVector vector, IntSupplier currentRowSupplier,
+                                           ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.holder = new Holder();
+    this.getter = createGetter(vector);
+    this.timeUnit = getTimeUnitForVector(vector);
+  }
+
+  /**
+   * Instantiate an accessor for a {@link TimeSecVector}.
+   *
+   * @param vector             an instance of a TimeSecVector.
+   * @param currentRowSupplier the supplier to track the lines.
+   */
+  public ArrowFlightJdbcTimeVectorAccessor(TimeSecVector vector, IntSupplier currentRowSupplier,
+                                           ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.holder = new Holder();
+    this.getter = createGetter(vector);
+    this.timeUnit = getTimeUnitForVector(vector);
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return Time.class;
+  }
+
+  @Override
+  public Object getObject() {
+    return this.getTime(null);
+  }
+
+  @Override
+  public Time getTime(Calendar calendar) {
+    fillHolder();
+    if (this.wasNull) {
+      return null;
+    }
+
+    long value = holder.value;
+    long milliseconds = this.timeUnit.toMillis(value);
+
+    return new ArrowFlightJdbcTime(DateTimeUtils.applyCalendarOffset(milliseconds, calendar));
+  }
+
+  private void fillHolder() {
+    getter.get(getCurrentRow(), holder);
+    this.wasNull = holder.isSet == 0;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+  }
+
+  @Override
+  public Timestamp getTimestamp(Calendar calendar) {
+    Time time = getTime(calendar);
+    if (time == null) {
+      return null;
+    }
+    return new Timestamp(time.getTime());
+  }
+
+  protected static TimeUnit getTimeUnitForVector(ValueVector vector) {
+    if (vector instanceof TimeNanoVector) {
+      return TimeUnit.NANOSECONDS;
+    } else if (vector instanceof TimeMicroVector) {
+      return TimeUnit.MICROSECONDS;
+    } else if (vector instanceof TimeMilliVector) {
+      return TimeUnit.MILLISECONDS;
+    } else if (vector instanceof TimeSecVector) {
+      return TimeUnit.SECONDS;
+    }
+
+    throw new IllegalArgumentException("Invalid Arrow vector");
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeVectorGetter.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeVectorGetter.java
new file mode 100644
index 00000000000..fb254c69401
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeVectorGetter.java
@@ -0,0 +1,89 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.calendar;
+
+import org.apache.arrow.vector.TimeMicroVector;
+import org.apache.arrow.vector.TimeMilliVector;
+import org.apache.arrow.vector.TimeNanoVector;
+import org.apache.arrow.vector.TimeSecVector;
+import org.apache.arrow.vector.holders.NullableTimeMicroHolder;
+import org.apache.arrow.vector.holders.NullableTimeMilliHolder;
+import org.apache.arrow.vector.holders.NullableTimeNanoHolder;
+import org.apache.arrow.vector.holders.NullableTimeSecHolder;
+
+/**
+ * Auxiliary class used to unify data access on Time*Vectors.
+ */
+final class ArrowFlightJdbcTimeVectorGetter {
+
+  private ArrowFlightJdbcTimeVectorGetter() {
+    // Prevent instantiation.
+  }
+
+  /**
+   * Auxiliary class meant to unify TimeStamp*Vector#get implementations with different classes of ValueHolders.
+   */
+  static class Holder {
+    int isSet; // Tells if value is set; 0 = not set, 1 = set
+    long value; // Holds actual value in its respective timeunit
+  }
+
+  /**
+   * Functional interface used to unify TimeStamp*Vector#get implementations.
+   */
+  @FunctionalInterface
+  interface Getter {
+    void get(int index, Holder holder);
+  }
+
+  static Getter createGetter(TimeNanoVector vector) {
+    NullableTimeNanoHolder auxHolder = new NullableTimeNanoHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+
+  static Getter createGetter(TimeMicroVector vector) {
+    NullableTimeMicroHolder auxHolder = new NullableTimeMicroHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+
+  static Getter createGetter(TimeMilliVector vector) {
+    NullableTimeMilliHolder auxHolder = new NullableTimeMilliHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+
+  static Getter createGetter(TimeSecVector vector) {
+    NullableTimeSecHolder auxHolder = new NullableTimeSecHolder();
+    return (index, holder) -> {
+      vector.get(index, auxHolder);
+      holder.isSet = auxHolder.isSet;
+      holder.value = auxHolder.value;
+    };
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/AbstractArrowFlightJdbcListVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/AbstractArrowFlightJdbcListVectorAccessor.java
new file mode 100644
index 00000000000..d3338608f83
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/AbstractArrowFlightJdbcListVectorAccessor.java
@@ -0,0 +1,73 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import java.sql.Array;
+import java.util.List;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.ArrowFlightJdbcArray;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.complex.FixedSizeListVector;
+import org.apache.arrow.vector.complex.LargeListVector;
+import org.apache.arrow.vector.complex.ListVector;
+
+/**
+ * Base Accessor for the Arrow types {@link ListVector}, {@link LargeListVector} and {@link FixedSizeListVector}.
+ */
+public abstract class AbstractArrowFlightJdbcListVectorAccessor extends ArrowFlightJdbcAccessor {
+
+  protected AbstractArrowFlightJdbcListVectorAccessor(IntSupplier currentRowSupplier,
+                                                      ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return List.class;
+  }
+
+  protected abstract long getStartOffset(int index);
+
+  protected abstract long getEndOffset(int index);
+
+  protected abstract FieldVector getDataVector();
+
+  protected abstract boolean isNull(int index);
+
+  @Override
+  public final Array getArray() {
+    int index = getCurrentRow();
+    FieldVector dataVector = getDataVector();
+
+    this.wasNull = isNull(index);
+    this.wasNullConsumer.setWasNull(this.wasNull);
+    if (this.wasNull) {
+      return null;
+    }
+
+    long startOffset = getStartOffset(index);
+    long endOffset = getEndOffset(index);
+
+    long valuesCount = endOffset - startOffset;
+    return new ArrowFlightJdbcArray(dataVector, startOffset, valuesCount);
+  }
+}
+
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/AbstractArrowFlightJdbcUnionVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/AbstractArrowFlightJdbcUnionVectorAccessor.java
new file mode 100644
index 00000000000..0465765f183
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/AbstractArrowFlightJdbcUnionVectorAccessor.java
@@ -0,0 +1,259 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import java.io.InputStream;
+import java.io.Reader;
+import java.math.BigDecimal;
+import java.net.URL;
+import java.sql.Array;
+import java.sql.Blob;
+import java.sql.Clob;
+import java.sql.Date;
+import java.sql.NClob;
+import java.sql.Ref;
+import java.sql.SQLException;
+import java.sql.SQLXML;
+import java.sql.Struct;
+import java.sql.Time;
+import java.sql.Timestamp;
+import java.util.Calendar;
+import java.util.Map;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.driver.jdbc.accessor.impl.ArrowFlightJdbcNullVectorAccessor;
+import org.apache.arrow.vector.ValueVector;
+import org.apache.arrow.vector.complex.DenseUnionVector;
+import org.apache.arrow.vector.complex.UnionVector;
+
+/**
+ * Base accessor for {@link UnionVector} and {@link DenseUnionVector}.
+ */
+public abstract class AbstractArrowFlightJdbcUnionVectorAccessor extends ArrowFlightJdbcAccessor {
+
+  /**
+   * Array of accessors for each type contained in UnionVector.
+   * Index corresponds to UnionVector and DenseUnionVector typeIds which are both limited to 128.
+   */
+  private final ArrowFlightJdbcAccessor[] accessors = new ArrowFlightJdbcAccessor[128];
+
+  private final ArrowFlightJdbcNullVectorAccessor nullAccessor =
+      new ArrowFlightJdbcNullVectorAccessor((boolean wasNull) -> {
+      });
+
+  protected AbstractArrowFlightJdbcUnionVectorAccessor(IntSupplier currentRowSupplier,
+      ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+  }
+
+  protected abstract ArrowFlightJdbcAccessor createAccessorForVector(ValueVector vector);
+
+  protected abstract byte getCurrentTypeId();
+
+  protected abstract ValueVector getVectorByTypeId(byte typeId);
+
+  /**
+   * Returns an accessor for UnionVector child vector on current row.
+   *
+   * @return ArrowFlightJdbcAccessor for child vector on current row.
+   */
+  protected ArrowFlightJdbcAccessor getAccessor() {
+    // Get the typeId and child vector for the current row being accessed.
+    byte typeId = this.getCurrentTypeId();
+    ValueVector vector = this.getVectorByTypeId(typeId);
+
+    if (typeId < 0) {
+      // typeId may be negative if the current row has no type defined.
+      return this.nullAccessor;
+    }
+
+    // Ensure there is an accessor for given typeId
+    if (this.accessors[typeId] == null) {
+      this.accessors[typeId] = this.createAccessorForVector(vector);
+    }
+
+    return this.accessors[typeId];
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return getAccessor().getObjectClass();
+  }
+
+  @Override
+  public boolean wasNull() {
+    return getAccessor().wasNull();
+  }
+
+  @Override
+  public String getString() throws SQLException {
+    return getAccessor().getString();
+  }
+
+  @Override
+  public boolean getBoolean() throws SQLException {
+    return getAccessor().getBoolean();
+  }
+
+  @Override
+  public byte getByte() throws SQLException {
+    return getAccessor().getByte();
+  }
+
+  @Override
+  public short getShort() throws SQLException {
+    return getAccessor().getShort();
+  }
+
+  @Override
+  public int getInt() throws SQLException {
+    return getAccessor().getInt();
+  }
+
+  @Override
+  public long getLong() throws SQLException {
+    return getAccessor().getLong();
+  }
+
+  @Override
+  public float getFloat() throws SQLException {
+    return getAccessor().getFloat();
+  }
+
+  @Override
+  public double getDouble() throws SQLException {
+    return getAccessor().getDouble();
+  }
+
+  @Override
+  public BigDecimal getBigDecimal() throws SQLException {
+    return getAccessor().getBigDecimal();
+  }
+
+  @Override
+  public BigDecimal getBigDecimal(int i) throws SQLException {
+    return getAccessor().getBigDecimal(i);
+  }
+
+  @Override
+  public byte[] getBytes() throws SQLException {
+    return getAccessor().getBytes();
+  }
+
+  @Override
+  public InputStream getAsciiStream() throws SQLException {
+    return getAccessor().getAsciiStream();
+  }
+
+  @Override
+  public InputStream getUnicodeStream() throws SQLException {
+    return getAccessor().getUnicodeStream();
+  }
+
+  @Override
+  public InputStream getBinaryStream() throws SQLException {
+    return getAccessor().getBinaryStream();
+  }
+
+  @Override
+  public Object getObject() throws SQLException {
+    return getAccessor().getObject();
+  }
+
+  @Override
+  public Reader getCharacterStream() throws SQLException {
+    return getAccessor().getCharacterStream();
+  }
+
+  @Override
+  public Object getObject(Map<String, Class<?>> map) throws SQLException {
+    return getAccessor().getObject(map);
+  }
+
+  @Override
+  public Ref getRef() throws SQLException {
+    return getAccessor().getRef();
+  }
+
+  @Override
+  public Blob getBlob() throws SQLException {
+    return getAccessor().getBlob();
+  }
+
+  @Override
+  public Clob getClob() throws SQLException {
+    return getAccessor().getClob();
+  }
+
+  @Override
+  public Array getArray() throws SQLException {
+    return getAccessor().getArray();
+  }
+
+  @Override
+  public Struct getStruct() throws SQLException {
+    return getAccessor().getStruct();
+  }
+
+  @Override
+  public Date getDate(Calendar calendar) throws SQLException {
+    return getAccessor().getDate(calendar);
+  }
+
+  @Override
+  public Time getTime(Calendar calendar) throws SQLException {
+    return getAccessor().getTime(calendar);
+  }
+
+  @Override
+  public Timestamp getTimestamp(Calendar calendar) throws SQLException {
+    return getAccessor().getTimestamp(calendar);
+  }
+
+  @Override
+  public URL getURL() throws SQLException {
+    return getAccessor().getURL();
+  }
+
+  @Override
+  public NClob getNClob() throws SQLException {
+    return getAccessor().getNClob();
+  }
+
+  @Override
+  public SQLXML getSQLXML() throws SQLException {
+    return getAccessor().getSQLXML();
+  }
+
+  @Override
+  public String getNString() throws SQLException {
+    return getAccessor().getNString();
+  }
+
+  @Override
+  public Reader getNCharacterStream() throws SQLException {
+    return getAccessor().getNCharacterStream();
+  }
+
+  @Override
+  public <T> T getObject(Class<T> type) throws SQLException {
+    return getAccessor().getObject(type);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcDenseUnionVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcDenseUnionVectorAccessor.java
new file mode 100644
index 00000000000..ba5b83ade63
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcDenseUnionVectorAccessor.java
@@ -0,0 +1,66 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.ValueVector;
+import org.apache.arrow.vector.complex.DenseUnionVector;
+
+/**
+ * Accessor for the Arrow type {@link DenseUnionVector}.
+ */
+public class ArrowFlightJdbcDenseUnionVectorAccessor
+    extends AbstractArrowFlightJdbcUnionVectorAccessor {
+
+  private final DenseUnionVector vector;
+
+  /**
+   * Instantiate an accessor for a {@link DenseUnionVector}.
+   *
+   * @param vector             an instance of a DenseUnionVector.
+   * @param currentRowSupplier the supplier to track the rows.
+   * @param setCursorWasNull   the consumer to set if value was null.
+   */
+  public ArrowFlightJdbcDenseUnionVectorAccessor(DenseUnionVector vector,
+                                                 IntSupplier currentRowSupplier,
+                                                 ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.vector = vector;
+  }
+
+  @Override
+  protected ArrowFlightJdbcAccessor createAccessorForVector(ValueVector vector) {
+    return ArrowFlightJdbcAccessorFactory.createAccessor(vector,
+        () -> this.vector.getOffset(this.getCurrentRow()), (boolean wasNull) -> {
+        });
+  }
+
+  @Override
+  protected byte getCurrentTypeId() {
+    int index = getCurrentRow();
+    return this.vector.getTypeId(index);
+  }
+
+  @Override
+  protected ValueVector getVectorByTypeId(byte typeId) {
+    return this.vector.getVectorByType(typeId);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcFixedSizeListVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcFixedSizeListVectorAccessor.java
new file mode 100644
index 00000000000..7bdd3abfd0c
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcFixedSizeListVectorAccessor.java
@@ -0,0 +1,70 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import java.util.List;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.complex.FixedSizeListVector;
+
+/**
+ * Accessor for the Arrow type {@link FixedSizeListVector}.
+ */
+public class ArrowFlightJdbcFixedSizeListVectorAccessor
+    extends AbstractArrowFlightJdbcListVectorAccessor {
+
+  private final FixedSizeListVector vector;
+
+  public ArrowFlightJdbcFixedSizeListVectorAccessor(FixedSizeListVector vector,
+                                                    IntSupplier currentRowSupplier,
+                                                    ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.vector = vector;
+  }
+
+  @Override
+  protected long getStartOffset(int index) {
+    return (long) vector.getListSize() * index;
+  }
+
+  @Override
+  protected long getEndOffset(int index) {
+    return (long) vector.getListSize() * (index + 1);
+  }
+
+  @Override
+  protected FieldVector getDataVector() {
+    return vector.getDataVector();
+  }
+
+  @Override
+  protected boolean isNull(int index) {
+    return vector.isNull(index);
+  }
+
+  @Override
+  public Object getObject() {
+    List<?> object = vector.getObject(getCurrentRow());
+    this.wasNull = object == null;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+
+    return object;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcLargeListVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcLargeListVectorAccessor.java
new file mode 100644
index 00000000000..f7608bb06e5
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcLargeListVectorAccessor.java
@@ -0,0 +1,70 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import java.util.List;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.complex.LargeListVector;
+
+/**
+ * Accessor for the Arrow type {@link LargeListVector}.
+ */
+public class ArrowFlightJdbcLargeListVectorAccessor
+    extends AbstractArrowFlightJdbcListVectorAccessor {
+
+  private final LargeListVector vector;
+
+  public ArrowFlightJdbcLargeListVectorAccessor(LargeListVector vector,
+                                                IntSupplier currentRowSupplier,
+                                                ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.vector = vector;
+  }
+
+  @Override
+  protected long getStartOffset(int index) {
+    return vector.getOffsetBuffer().getLong((long) index * LargeListVector.OFFSET_WIDTH);
+  }
+
+  @Override
+  protected long getEndOffset(int index) {
+    return vector.getOffsetBuffer().getLong((long) (index + 1) * LargeListVector.OFFSET_WIDTH);
+  }
+
+  @Override
+  protected FieldVector getDataVector() {
+    return vector.getDataVector();
+  }
+
+  @Override
+  protected boolean isNull(int index) {
+    return vector.isNull(index);
+  }
+
+  @Override
+  public Object getObject() {
+    List<?> object = vector.getObject(getCurrentRow());
+    this.wasNull = object == null;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+
+    return object;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcListVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcListVectorAccessor.java
new file mode 100644
index 00000000000..a329a344073
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcListVectorAccessor.java
@@ -0,0 +1,70 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import java.util.List;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.complex.BaseRepeatedValueVector;
+import org.apache.arrow.vector.complex.ListVector;
+
+/**
+ * Accessor for the Arrow type {@link ListVector}.
+ */
+public class ArrowFlightJdbcListVectorAccessor extends AbstractArrowFlightJdbcListVectorAccessor {
+
+  private final ListVector vector;
+
+  public ArrowFlightJdbcListVectorAccessor(ListVector vector, IntSupplier currentRowSupplier,
+                                           ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.vector = vector;
+  }
+
+  @Override
+  protected long getStartOffset(int index) {
+    return vector.getOffsetBuffer().getInt((long) index * BaseRepeatedValueVector.OFFSET_WIDTH);
+  }
+
+  @Override
+  protected long getEndOffset(int index) {
+    return vector.getOffsetBuffer()
+        .getInt((long) (index + 1) * BaseRepeatedValueVector.OFFSET_WIDTH);
+  }
+
+  @Override
+  protected FieldVector getDataVector() {
+    return vector.getDataVector();
+  }
+
+  @Override
+  protected boolean isNull(int index) {
+    return vector.isNull(index);
+  }
+
+  @Override
+  public Object getObject() {
+    List<?> object = vector.getObject(getCurrentRow());
+    this.wasNull = object == null;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+
+    return object;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcMapVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcMapVectorAccessor.java
new file mode 100644
index 00000000000..bf1225b33de
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcMapVectorAccessor.java
@@ -0,0 +1,92 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import java.util.Map;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.complex.BaseRepeatedValueVector;
+import org.apache.arrow.vector.complex.MapVector;
+import org.apache.arrow.vector.complex.impl.UnionMapReader;
+import org.apache.arrow.vector.util.JsonStringHashMap;
+
+/**
+ * Accessor for the Arrow type {@link MapVector}.
+ */
+public class ArrowFlightJdbcMapVectorAccessor extends AbstractArrowFlightJdbcListVectorAccessor {
+
+  private final MapVector vector;
+
+  public ArrowFlightJdbcMapVectorAccessor(MapVector vector, IntSupplier currentRowSupplier,
+                                          ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.vector = vector;
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return Map.class;
+  }
+
+  @Override
+  public Object getObject() {
+    int index = getCurrentRow();
+
+    this.wasNull = vector.isNull(index);
+    this.wasNullConsumer.setWasNull(this.wasNull);
+    if (this.wasNull) {
+      return null;
+    }
+
+    Map<Object, Object> result = new JsonStringHashMap<>();
+    UnionMapReader reader = vector.getReader();
+
+    reader.setPosition(index);
+    while (reader.next()) {
+      Object key = reader.key().readObject();
+      Object value = reader.value().readObject();
+
+      result.put(key, value);
+    }
+
+    return result;
+  }
+
+  @Override
+  protected long getStartOffset(int index) {
+    return vector.getOffsetBuffer().getInt((long) index * BaseRepeatedValueVector.OFFSET_WIDTH);
+  }
+
+  @Override
+  protected long getEndOffset(int index) {
+    return vector.getOffsetBuffer()
+        .getInt((long) (index + 1) * BaseRepeatedValueVector.OFFSET_WIDTH);
+  }
+
+  @Override
+  protected boolean isNull(int index) {
+    return vector.isNull(index);
+  }
+
+  @Override
+  protected FieldVector getDataVector() {
+    return vector.getDataVector();
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcStructVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcStructVectorAccessor.java
new file mode 100644
index 00000000000..8a7ac117113
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcStructVectorAccessor.java
@@ -0,0 +1,75 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import java.sql.Struct;
+import java.util.List;
+import java.util.Map;
+import java.util.function.IntSupplier;
+import java.util.stream.Collectors;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.complex.StructVector;
+import org.apache.calcite.avatica.util.StructImpl;
+
+/**
+ * Accessor for the Arrow type {@link StructVector}.
+ */
+public class ArrowFlightJdbcStructVectorAccessor extends ArrowFlightJdbcAccessor {
+
+  private final StructVector vector;
+
+  public ArrowFlightJdbcStructVectorAccessor(StructVector vector, IntSupplier currentRowSupplier,
+                                             ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.vector = vector;
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return Map.class;
+  }
+
+  @Override
+  public Object getObject() {
+    Map<String, ?> object = vector.getObject(getCurrentRow());
+    this.wasNull = object == null;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+
+    return object;
+  }
+
+  @Override
+  public Struct getStruct() {
+    int currentRow = getCurrentRow();
+
+    this.wasNull = vector.isNull(currentRow);
+    this.wasNullConsumer.setWasNull(this.wasNull);
+    if (this.wasNull) {
+      return null;
+    }
+
+    List<Object> attributes = vector.getChildrenFromFields()
+        .stream()
+        .map(vector -> vector.getObject(currentRow))
+        .collect(Collectors.toList());
+
+    return new StructImpl(attributes);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcUnionVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcUnionVectorAccessor.java
new file mode 100644
index 00000000000..5b5a0a472d5
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcUnionVectorAccessor.java
@@ -0,0 +1,64 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.ValueVector;
+import org.apache.arrow.vector.complex.UnionVector;
+
+/**
+ * Accessor for the Arrow type {@link UnionVector}.
+ */
+public class ArrowFlightJdbcUnionVectorAccessor extends AbstractArrowFlightJdbcUnionVectorAccessor {
+
+  private final UnionVector vector;
+
+  /**
+   * Instantiate an accessor for a {@link UnionVector}.
+   *
+   * @param vector             an instance of a UnionVector.
+   * @param currentRowSupplier the supplier to track the rows.
+   * @param setCursorWasNull   the consumer to set if value was null.
+   */
+  public ArrowFlightJdbcUnionVectorAccessor(UnionVector vector, IntSupplier currentRowSupplier,
+                                            ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.vector = vector;
+  }
+
+  @Override
+  protected ArrowFlightJdbcAccessor createAccessorForVector(ValueVector vector) {
+    return ArrowFlightJdbcAccessorFactory.createAccessor(vector, this::getCurrentRow,
+        (boolean wasNull) -> {
+        });
+  }
+
+  @Override
+  protected byte getCurrentTypeId() {
+    int index = getCurrentRow();
+    return (byte) this.vector.getTypeValue(index);
+  }
+
+  @Override
+  protected ValueVector getVectorByTypeId(byte typeId) {
+    return this.vector.getVectorByType(typeId);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBaseIntVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBaseIntVectorAccessor.java
new file mode 100644
index 00000000000..aea9b75fa6c
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBaseIntVectorAccessor.java
@@ -0,0 +1,203 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.numeric;
+
+import static org.apache.arrow.driver.jdbc.accessor.impl.numeric.ArrowFlightJdbcNumericGetter.Getter;
+import static org.apache.arrow.driver.jdbc.accessor.impl.numeric.ArrowFlightJdbcNumericGetter.createGetter;
+
+import java.math.BigDecimal;
+import java.math.RoundingMode;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.driver.jdbc.accessor.impl.numeric.ArrowFlightJdbcNumericGetter.NumericHolder;
+import org.apache.arrow.vector.BaseIntVector;
+import org.apache.arrow.vector.BigIntVector;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.SmallIntVector;
+import org.apache.arrow.vector.TinyIntVector;
+import org.apache.arrow.vector.UInt1Vector;
+import org.apache.arrow.vector.UInt2Vector;
+import org.apache.arrow.vector.UInt4Vector;
+import org.apache.arrow.vector.UInt8Vector;
+import org.apache.arrow.vector.types.Types.MinorType;
+
+/**
+ * Accessor for the arrow types: TinyIntVector, SmallIntVector, IntVector, BigIntVector,
+ * UInt1Vector, UInt2Vector, UInt4Vector and UInt8Vector.
+ */
+public class ArrowFlightJdbcBaseIntVectorAccessor extends ArrowFlightJdbcAccessor {
+
+  private final MinorType type;
+  private final boolean isUnsigned;
+  private final int bytesToAllocate;
+  private final Getter getter;
+  private final NumericHolder holder;
+
+  public ArrowFlightJdbcBaseIntVectorAccessor(UInt1Vector vector, IntSupplier currentRowSupplier,
+                                              ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    this(vector, currentRowSupplier, true, UInt1Vector.TYPE_WIDTH, setCursorWasNull);
+  }
+
+  public ArrowFlightJdbcBaseIntVectorAccessor(UInt2Vector vector, IntSupplier currentRowSupplier,
+                                              ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    this(vector, currentRowSupplier, true, UInt2Vector.TYPE_WIDTH, setCursorWasNull);
+  }
+
+  public ArrowFlightJdbcBaseIntVectorAccessor(UInt4Vector vector, IntSupplier currentRowSupplier,
+                                              ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    this(vector, currentRowSupplier, true, UInt4Vector.TYPE_WIDTH, setCursorWasNull);
+  }
+
+  public ArrowFlightJdbcBaseIntVectorAccessor(UInt8Vector vector, IntSupplier currentRowSupplier,
+                                              ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    this(vector, currentRowSupplier, true, UInt8Vector.TYPE_WIDTH, setCursorWasNull);
+  }
+
+  public ArrowFlightJdbcBaseIntVectorAccessor(TinyIntVector vector, IntSupplier currentRowSupplier,
+                                              ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    this(vector, currentRowSupplier, false, TinyIntVector.TYPE_WIDTH, setCursorWasNull);
+  }
+
+  public ArrowFlightJdbcBaseIntVectorAccessor(SmallIntVector vector, IntSupplier currentRowSupplier,
+                                              ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    this(vector, currentRowSupplier, false, SmallIntVector.TYPE_WIDTH, setCursorWasNull);
+  }
+
+  public ArrowFlightJdbcBaseIntVectorAccessor(IntVector vector, IntSupplier currentRowSupplier,
+                                              ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    this(vector, currentRowSupplier, false, IntVector.TYPE_WIDTH, setCursorWasNull);
+  }
+
+  public ArrowFlightJdbcBaseIntVectorAccessor(BigIntVector vector, IntSupplier currentRowSupplier,
+                                              ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    this(vector, currentRowSupplier, false, BigIntVector.TYPE_WIDTH, setCursorWasNull);
+  }
+
+  private ArrowFlightJdbcBaseIntVectorAccessor(BaseIntVector vector, IntSupplier currentRowSupplier,
+                                               boolean isUnsigned, int bytesToAllocate,
+                                               ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.type = vector.getMinorType();
+    this.holder = new NumericHolder();
+    this.getter = createGetter(vector);
+    this.isUnsigned = isUnsigned;
+    this.bytesToAllocate = bytesToAllocate;
+  }
+
+  @Override
+  public long getLong() {
+    getter.get(getCurrentRow(), holder);
+
+    this.wasNull = holder.isSet == 0;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+    if (this.wasNull) {
+      return 0;
+    }
+
+    return holder.value;
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return Long.class;
+  }
+
+  @Override
+  public String getString() {
+    final long number = getLong();
+
+    if (this.wasNull) {
+      return null;
+    } else {
+      return isUnsigned ? Long.toUnsignedString(number) : Long.toString(number);
+    }
+  }
+
+  @Override
+  public byte getByte() {
+    return (byte) getLong();
+  }
+
+  @Override
+  public short getShort() {
+    return (short) getLong();
+  }
+
+  @Override
+  public int getInt() {
+    return (int) getLong();
+  }
+
+  @Override
+  public float getFloat() {
+    return (float) getLong();
+  }
+
+  @Override
+  public double getDouble() {
+    return (double) getLong();
+  }
+
+  @Override
+  public BigDecimal getBigDecimal() {
+    final BigDecimal value = BigDecimal.valueOf(getLong());
+    return this.wasNull ? null : value;
+  }
+
+  @Override
+  public BigDecimal getBigDecimal(int scale) {
+    final BigDecimal value =
+        BigDecimal.valueOf(this.getDouble()).setScale(scale, RoundingMode.HALF_UP);
+    return this.wasNull ? null : value;
+  }
+
+  @Override
+  public Number getObject() {
+    final Number number;
+    switch (type) {
+      case TINYINT:
+      case UINT1:
+        number = getByte();
+        break;
+      case SMALLINT:
+      case UINT2:
+        number = getShort();
+        break;
+      case INT:
+      case UINT4:
+        number = getInt();
+        break;
+      case BIGINT:
+      case UINT8:
+        number = getLong();
+        break;
+      default:
+        throw new IllegalStateException("No valid MinorType was provided.");
+    }
+    return wasNull ? null : number;
+  }
+
+  @Override
+  public boolean getBoolean() {
+    final long value = getLong();
+
+    return value != 0;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBitVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBitVectorAccessor.java
new file mode 100644
index 00000000000..f55fd12f9a5
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBitVectorAccessor.java
@@ -0,0 +1,117 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.numeric;
+
+import java.math.BigDecimal;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.BitVector;
+import org.apache.arrow.vector.holders.NullableBitHolder;
+
+/**
+ * Accessor for the arrow {@link BitVector}.
+ */
+public class ArrowFlightJdbcBitVectorAccessor extends ArrowFlightJdbcAccessor {
+
+  private final BitVector vector;
+  private final NullableBitHolder holder;
+  private static final int BYTES_T0_ALLOCATE = 1;
+
+  /**
+   * Constructor for the BitVectorAccessor.
+   *
+   * @param vector             an instance of a {@link BitVector}.
+   * @param currentRowSupplier a supplier to check which row is being accessed.
+   * @param setCursorWasNull   the consumer to set if value was null.
+   */
+  public ArrowFlightJdbcBitVectorAccessor(BitVector vector, IntSupplier currentRowSupplier,
+                                          ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.vector = vector;
+    this.holder = new NullableBitHolder();
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return Boolean.class;
+  }
+
+  @Override
+  public String getString() {
+    final boolean value = getBoolean();
+    return wasNull ? null : Boolean.toString(value);
+  }
+
+  @Override
+  public boolean getBoolean() {
+    return this.getLong() != 0;
+  }
+
+  @Override
+  public byte getByte() {
+    return (byte) this.getLong();
+  }
+
+  @Override
+  public short getShort() {
+    return (short) this.getLong();
+  }
+
+  @Override
+  public int getInt() {
+    return (int) this.getLong();
+  }
+
+  @Override
+  public long getLong() {
+    vector.get(getCurrentRow(), holder);
+
+    this.wasNull = holder.isSet == 0;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+    if (this.wasNull) {
+      return 0;
+    }
+
+    return holder.value;
+  }
+
+  @Override
+  public float getFloat() {
+    return this.getLong();
+  }
+
+  @Override
+  public double getDouble() {
+    return this.getLong();
+  }
+
+  @Override
+  public BigDecimal getBigDecimal() {
+    final long value = this.getLong();
+
+    return this.wasNull ? null : BigDecimal.valueOf(value);
+  }
+
+  @Override
+  public Object getObject() {
+    final boolean value = this.getBoolean();
+    return this.wasNull ? null : value;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcDecimalVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcDecimalVectorAccessor.java
new file mode 100644
index 00000000000..0f7d618a609
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcDecimalVectorAccessor.java
@@ -0,0 +1,136 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.numeric;
+
+import java.math.BigDecimal;
+import java.math.RoundingMode;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.Decimal256Vector;
+import org.apache.arrow.vector.DecimalVector;
+
+/**
+ * Accessor for {@link DecimalVector} and {@link Decimal256Vector}.
+ */
+public class ArrowFlightJdbcDecimalVectorAccessor extends ArrowFlightJdbcAccessor {
+
+  private final Getter getter;
+
+  /**
+   * Functional interface used to unify Decimal*Vector#getObject implementations.
+   */
+  @FunctionalInterface
+  interface Getter {
+    BigDecimal getObject(int index);
+  }
+
+  public ArrowFlightJdbcDecimalVectorAccessor(DecimalVector vector, IntSupplier currentRowSupplier,
+                                              ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.getter = vector::getObject;
+  }
+
+  public ArrowFlightJdbcDecimalVectorAccessor(Decimal256Vector vector,
+                                              IntSupplier currentRowSupplier,
+                                              ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.getter = vector::getObject;
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return BigDecimal.class;
+  }
+
+  @Override
+  public BigDecimal getBigDecimal() {
+    final BigDecimal value = getter.getObject(getCurrentRow());
+    this.wasNull = value == null;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+    return value;
+  }
+
+  @Override
+  public String getString() {
+    final BigDecimal value = this.getBigDecimal();
+    return this.wasNull ? null : value.toString();
+  }
+
+  @Override
+  public boolean getBoolean() {
+    final BigDecimal value = this.getBigDecimal();
+
+    return !this.wasNull && !value.equals(BigDecimal.ZERO);
+  }
+
+  @Override
+  public byte getByte() {
+    final BigDecimal value = this.getBigDecimal();
+
+    return this.wasNull ? 0 : value.byteValue();
+  }
+
+  @Override
+  public short getShort() {
+    final BigDecimal value = this.getBigDecimal();
+
+    return this.wasNull ? 0 : value.shortValue();
+  }
+
+  @Override
+  public int getInt() {
+    final BigDecimal value = this.getBigDecimal();
+
+    return this.wasNull ? 0 : value.intValue();
+  }
+
+  @Override
+  public long getLong() {
+    final BigDecimal value = this.getBigDecimal();
+
+    return this.wasNull ? 0 : value.longValue();
+  }
+
+  @Override
+  public float getFloat() {
+    final BigDecimal value = this.getBigDecimal();
+
+    return this.wasNull ? 0 : value.floatValue();
+  }
+
+  @Override
+  public double getDouble() {
+    final BigDecimal value = this.getBigDecimal();
+
+    return this.wasNull ? 0 : value.doubleValue();
+  }
+
+  @Override
+  public BigDecimal getBigDecimal(int scale) {
+    final BigDecimal value = this.getBigDecimal();
+
+    return this.wasNull ? null : value.setScale(scale, RoundingMode.HALF_UP);
+  }
+
+  @Override
+  public Object getObject() {
+    return this.getBigDecimal();
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcFloat4VectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcFloat4VectorAccessor.java
new file mode 100644
index 00000000000..cbf2d36ff80
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcFloat4VectorAccessor.java
@@ -0,0 +1,133 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.numeric;
+
+import java.math.BigDecimal;
+import java.math.RoundingMode;
+import java.sql.SQLException;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.Float4Vector;
+import org.apache.arrow.vector.holders.NullableFloat4Holder;
+
+/**
+ * Accessor for the Float4Vector.
+ */
+public class ArrowFlightJdbcFloat4VectorAccessor extends ArrowFlightJdbcAccessor {
+
+  private final Float4Vector vector;
+  private final NullableFloat4Holder holder;
+
+  /**
+   * Instantiate a accessor for the {@link Float4Vector}.
+   *
+   * @param vector             an instance of a Float4Vector.
+   * @param currentRowSupplier the supplier to track the lines.
+   * @param setCursorWasNull   the consumer to set if value was null.
+   */
+  public ArrowFlightJdbcFloat4VectorAccessor(Float4Vector vector,
+                                             IntSupplier currentRowSupplier,
+                                             ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.holder = new NullableFloat4Holder();
+    this.vector = vector;
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return Float.class;
+  }
+
+  @Override
+  public String getString() {
+    final float value = this.getFloat();
+
+    return this.wasNull ? null : Float.toString(value);
+  }
+
+  @Override
+  public boolean getBoolean() {
+    return this.getFloat() != 0.0;
+  }
+
+  @Override
+  public byte getByte() {
+    return (byte) this.getFloat();
+  }
+
+  @Override
+  public short getShort() {
+    return (short) this.getFloat();
+  }
+
+  @Override
+  public int getInt() {
+    return (int) this.getFloat();
+  }
+
+  @Override
+  public long getLong() {
+    return (long) this.getFloat();
+  }
+
+  @Override
+  public float getFloat() {
+    vector.get(getCurrentRow(), holder);
+
+    this.wasNull = holder.isSet == 0;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+    if (this.wasNull) {
+      return 0;
+    }
+
+    return holder.value;
+  }
+
+  @Override
+  public double getDouble() {
+    return this.getFloat();
+  }
+
+  @Override
+  public BigDecimal getBigDecimal() throws SQLException {
+    final float value = this.getFloat();
+
+    if (Float.isInfinite(value) || Float.isNaN(value)) {
+      throw new SQLException("BigDecimal doesn't support Infinite/NaN.");
+    }
+
+    return this.wasNull ? null : BigDecimal.valueOf(value);
+  }
+
+  @Override
+  public BigDecimal getBigDecimal(int scale) throws SQLException {
+    final float value = this.getFloat();
+    if (Float.isInfinite(value) || Float.isNaN(value)) {
+      throw new SQLException("BigDecimal doesn't support Infinite/NaN.");
+    }
+    return this.wasNull ? null : BigDecimal.valueOf(value).setScale(scale, RoundingMode.HALF_UP);
+  }
+
+  @Override
+  public Object getObject() {
+    final float value = this.getFloat();
+    return this.wasNull ? null : value;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcFloat8VectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcFloat8VectorAccessor.java
new file mode 100644
index 00000000000..dc5542ffc58
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcFloat8VectorAccessor.java
@@ -0,0 +1,131 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.numeric;
+
+import java.math.BigDecimal;
+import java.math.RoundingMode;
+import java.sql.SQLException;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.vector.Float8Vector;
+import org.apache.arrow.vector.holders.NullableFloat8Holder;
+
+/**
+ * Accessor for the Float8Vector.
+ */
+public class ArrowFlightJdbcFloat8VectorAccessor extends ArrowFlightJdbcAccessor {
+
+  private final Float8Vector vector;
+  private final NullableFloat8Holder holder;
+
+  /**
+   * Instantiate a accessor for the {@link Float8Vector}.
+   *
+   * @param vector             an instance of a Float8Vector.
+   * @param currentRowSupplier the supplier to track the lines.
+   * @param setCursorWasNull   the consumer to set if value was null.
+   */
+  public ArrowFlightJdbcFloat8VectorAccessor(Float8Vector vector,
+                                             IntSupplier currentRowSupplier,
+                                             ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.holder = new NullableFloat8Holder();
+    this.vector = vector;
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return Double.class;
+  }
+
+  @Override
+  public double getDouble() {
+    vector.get(getCurrentRow(), holder);
+
+    this.wasNull = holder.isSet == 0;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+    if (this.wasNull) {
+      return 0;
+    }
+
+    return holder.value;
+  }
+
+  @Override
+  public Object getObject() {
+    final double value = this.getDouble();
+
+    return this.wasNull ? null : value;
+  }
+
+  @Override
+  public String getString() {
+    final double value = this.getDouble();
+    return this.wasNull ? null : Double.toString(value);
+  }
+
+  @Override
+  public boolean getBoolean() {
+    return this.getDouble() != 0.0;
+  }
+
+  @Override
+  public byte getByte() {
+    return (byte) this.getDouble();
+  }
+
+  @Override
+  public short getShort() {
+    return (short) this.getDouble();
+  }
+
+  @Override
+  public int getInt() {
+    return (int) this.getDouble();
+  }
+
+  @Override
+  public long getLong() {
+    return (long) this.getDouble();
+  }
+
+  @Override
+  public float getFloat() {
+    return (float) this.getDouble();
+  }
+
+  @Override
+  public BigDecimal getBigDecimal() throws SQLException {
+    final double value = this.getDouble();
+    if (Double.isInfinite(value) || Double.isNaN(value)) {
+      throw new SQLException("BigDecimal doesn't support Infinite/NaN.");
+    }
+    return this.wasNull ? null : BigDecimal.valueOf(value);
+  }
+
+  @Override
+  public BigDecimal getBigDecimal(int scale) throws SQLException {
+    final double value = this.getDouble();
+    if (Double.isInfinite(value) || Double.isNaN(value)) {
+      throw new SQLException("BigDecimal doesn't support Infinite/NaN.");
+    }
+    return this.wasNull ? null : BigDecimal.valueOf(value).setScale(scale, RoundingMode.HALF_UP);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcNumericGetter.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcNumericGetter.java
new file mode 100644
index 00000000000..cc802a0089d
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcNumericGetter.java
@@ -0,0 +1,216 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+
+package org.apache.arrow.driver.jdbc.accessor.impl.numeric;
+
+import org.apache.arrow.vector.BaseIntVector;
+import org.apache.arrow.vector.BigIntVector;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.SmallIntVector;
+import org.apache.arrow.vector.TinyIntVector;
+import org.apache.arrow.vector.UInt1Vector;
+import org.apache.arrow.vector.UInt2Vector;
+import org.apache.arrow.vector.UInt4Vector;
+import org.apache.arrow.vector.UInt8Vector;
+import org.apache.arrow.vector.holders.NullableBigIntHolder;
+import org.apache.arrow.vector.holders.NullableIntHolder;
+import org.apache.arrow.vector.holders.NullableSmallIntHolder;
+import org.apache.arrow.vector.holders.NullableTinyIntHolder;
+import org.apache.arrow.vector.holders.NullableUInt1Holder;
+import org.apache.arrow.vector.holders.NullableUInt2Holder;
+import org.apache.arrow.vector.holders.NullableUInt4Holder;
+import org.apache.arrow.vector.holders.NullableUInt8Holder;
+
+/**
+ * A custom getter for values from the {@link BaseIntVector}.
+ */
+class ArrowFlightJdbcNumericGetter {
+  /**
+   * A holder for values from the {@link BaseIntVector}.
+   */
+  static class NumericHolder {
+    int isSet; // Tells if value is set; 0 = not set, 1 = set
+    long value; // Holds actual value
+  }
+
+  /**
+   * Functional interface for a getter to baseInt values.
+   */
+  @FunctionalInterface
+  interface Getter {
+    void get(int index, NumericHolder holder);
+  }
+
+  /**
+   * Main class that will check the type of the vector to create
+   * a specific getter.
+   *
+   * @param vector an instance of the {@link BaseIntVector}
+   * @return a getter.
+   */
+  static Getter createGetter(BaseIntVector vector) {
+    if (vector instanceof UInt1Vector) {
+      return createGetter((UInt1Vector) vector);
+    } else if (vector instanceof UInt2Vector) {
+      return createGetter((UInt2Vector) vector);
+    } else if (vector instanceof UInt4Vector) {
+      return createGetter((UInt4Vector) vector);
+    } else if (vector instanceof UInt8Vector) {
+      return createGetter((UInt8Vector) vector);
+    } else if (vector instanceof TinyIntVector) {
+      return createGetter((TinyIntVector) vector);
+    } else if (vector instanceof SmallIntVector) {
+      return createGetter((SmallIntVector) vector);
+    } else if (vector instanceof IntVector) {
+      return createGetter((IntVector) vector);
+    } else if (vector instanceof BigIntVector) {
+      return createGetter((BigIntVector) vector);
+    }
+
+    throw new UnsupportedOperationException("No valid IntVector was provided.");
+  }
+
+  /**
+   * Create a specific getter for {@link UInt1Vector}.
+   *
+   * @param vector an instance of the {@link UInt1Vector}
+   * @return a getter.
+   */
+  private static Getter createGetter(UInt1Vector vector) {
+    NullableUInt1Holder nullableUInt1Holder = new NullableUInt1Holder();
+
+    return (index, holder) -> {
+      vector.get(index, nullableUInt1Holder);
+
+      holder.isSet = nullableUInt1Holder.isSet;
+      holder.value = nullableUInt1Holder.value;
+    };
+  }
+
+  /**
+   * Create a specific getter for {@link UInt2Vector}.
+   *
+   * @param vector an instance of the {@link UInt2Vector}
+   * @return a getter.
+   */
+  private static Getter createGetter(UInt2Vector vector) {
+    NullableUInt2Holder nullableUInt2Holder = new NullableUInt2Holder();
+    return (index, holder) -> {
+      vector.get(index, nullableUInt2Holder);
+
+      holder.isSet = nullableUInt2Holder.isSet;
+      holder.value = nullableUInt2Holder.value;
+    };
+  }
+
+  /**
+   * Create a specific getter for {@link UInt4Vector}.
+   *
+   * @param vector an instance of the {@link UInt4Vector}
+   * @return a getter.
+   */
+  private static Getter createGetter(UInt4Vector vector) {
+    NullableUInt4Holder nullableUInt4Holder = new NullableUInt4Holder();
+    return (index, holder) -> {
+      vector.get(index, nullableUInt4Holder);
+
+      holder.isSet = nullableUInt4Holder.isSet;
+      holder.value = nullableUInt4Holder.value;
+    };
+  }
+
+  /**
+   * Create a specific getter for {@link UInt8Vector}.
+   *
+   * @param vector an instance of the {@link UInt8Vector}
+   * @return a getter.
+   */
+  private static Getter createGetter(UInt8Vector vector) {
+    NullableUInt8Holder nullableUInt8Holder = new NullableUInt8Holder();
+    return (index, holder) -> {
+      vector.get(index, nullableUInt8Holder);
+
+      holder.isSet = nullableUInt8Holder.isSet;
+      holder.value = nullableUInt8Holder.value;
+    };
+  }
+
+  /**
+   * Create a specific getter for {@link TinyIntVector}.
+   *
+   * @param vector an instance of the {@link TinyIntVector}
+   * @return a getter.
+   */
+  private static Getter createGetter(TinyIntVector vector) {
+    NullableTinyIntHolder nullableTinyIntHolder = new NullableTinyIntHolder();
+    return (index, holder) -> {
+      vector.get(index, nullableTinyIntHolder);
+
+      holder.isSet = nullableTinyIntHolder.isSet;
+      holder.value = nullableTinyIntHolder.value;
+    };
+  }
+
+  /**
+   * Create a specific getter for {@link SmallIntVector}.
+   *
+   * @param vector an instance of the {@link SmallIntVector}
+   * @return a getter.
+   */
+  private static Getter createGetter(SmallIntVector vector) {
+    NullableSmallIntHolder nullableSmallIntHolder = new NullableSmallIntHolder();
+    return (index, holder) -> {
+      vector.get(index, nullableSmallIntHolder);
+
+      holder.isSet = nullableSmallIntHolder.isSet;
+      holder.value = nullableSmallIntHolder.value;
+    };
+  }
+
+  /**
+   * Create a specific getter for {@link IntVector}.
+   *
+   * @param vector an instance of the {@link IntVector}
+   * @return a getter.
+   */
+  private static Getter createGetter(IntVector vector) {
+    NullableIntHolder nullableIntHolder = new NullableIntHolder();
+    return (index, holder) -> {
+      vector.get(index, nullableIntHolder);
+
+      holder.isSet = nullableIntHolder.isSet;
+      holder.value = nullableIntHolder.value;
+    };
+  }
+
+  /**
+   * Create a specific getter for {@link BigIntVector}.
+   *
+   * @param vector an instance of the {@link BigIntVector}
+   * @return a getter.
+   */
+  private static Getter createGetter(BigIntVector vector) {
+    NullableBigIntHolder nullableBigIntHolder = new NullableBigIntHolder();
+    return (index, holder) -> {
+      vector.get(index, nullableBigIntHolder);
+
+      holder.isSet = nullableBigIntHolder.isSet;
+      holder.value = nullableBigIntHolder.value;
+    };
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/text/ArrowFlightJdbcVarCharVectorAccessor.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/text/ArrowFlightJdbcVarCharVectorAccessor.java
new file mode 100644
index 00000000000..aad8d9094c9
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/accessor/impl/text/ArrowFlightJdbcVarCharVectorAccessor.java
@@ -0,0 +1,258 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.text;
+
+import static java.nio.charset.StandardCharsets.US_ASCII;
+import static java.nio.charset.StandardCharsets.UTF_8;
+
+import java.io.ByteArrayInputStream;
+import java.io.CharArrayReader;
+import java.io.InputStream;
+import java.io.Reader;
+import java.math.BigDecimal;
+import java.sql.Date;
+import java.sql.SQLException;
+import java.sql.Time;
+import java.sql.Timestamp;
+import java.util.Calendar;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.driver.jdbc.utils.DateTimeUtils;
+import org.apache.arrow.vector.LargeVarCharVector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.util.Text;
+
+/**
+ * Accessor for the Arrow types: {@link VarCharVector} and {@link LargeVarCharVector}.
+ */
+public class ArrowFlightJdbcVarCharVectorAccessor extends ArrowFlightJdbcAccessor {
+
+  /**
+   * Functional interface to help integrating VarCharVector and LargeVarCharVector.
+   */
+  @FunctionalInterface
+  interface Getter {
+    byte[] get(int index);
+  }
+
+  private final Getter getter;
+
+  public ArrowFlightJdbcVarCharVectorAccessor(VarCharVector vector,
+                                              IntSupplier currentRowSupplier,
+                                              ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    this(vector::get, currentRowSupplier, setCursorWasNull);
+  }
+
+  public ArrowFlightJdbcVarCharVectorAccessor(LargeVarCharVector vector,
+                                              IntSupplier currentRowSupplier,
+                                              ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    this(vector::get, currentRowSupplier, setCursorWasNull);
+  }
+
+  ArrowFlightJdbcVarCharVectorAccessor(Getter getter,
+                                       IntSupplier currentRowSupplier,
+                                       ArrowFlightJdbcAccessorFactory.WasNullConsumer setCursorWasNull) {
+    super(currentRowSupplier, setCursorWasNull);
+    this.getter = getter;
+  }
+
+  @Override
+  public Class<?> getObjectClass() {
+    return String.class;
+  }
+
+  @Override
+  public String getObject() {
+    final byte[] bytes = getBytes();
+    return bytes == null ? null : new String(bytes, UTF_8);
+  }
+
+  @Override
+  public String getString() {
+    return getObject();
+  }
+
+  @Override
+  public byte[] getBytes() {
+    final byte[] bytes = this.getter.get(getCurrentRow());
+    this.wasNull = bytes == null;
+    this.wasNullConsumer.setWasNull(this.wasNull);
+    return bytes;
+  }
+
+  @Override
+  public boolean getBoolean() throws SQLException {
+    String value = getString();
+    if (value == null || value.equalsIgnoreCase("false") || value.equals("0")) {
+      return false;
+    } else if (value.equalsIgnoreCase("true") || value.equals("1")) {
+      return true;
+    } else {
+      throw new SQLException("It is not possible to convert this value to boolean: " + value);
+    }
+  }
+
+  @Override
+  public byte getByte() throws SQLException {
+    try {
+      return Byte.parseByte(this.getString());
+    } catch (Exception e) {
+      throw new SQLException(e);
+    }
+  }
+
+  @Override
+  public short getShort() throws SQLException {
+    try {
+      return Short.parseShort(this.getString());
+    } catch (Exception e) {
+      throw new SQLException(e);
+    }
+  }
+
+  @Override
+  public int getInt() throws SQLException {
+    try {
+      return Integer.parseInt(this.getString());
+    } catch (Exception e) {
+      throw new SQLException(e);
+    }
+  }
+
+  @Override
+  public long getLong() throws SQLException {
+    try {
+      return Long.parseLong(this.getString());
+    } catch (Exception e) {
+      throw new SQLException(e);
+    }
+  }
+
+  @Override
+  public float getFloat() throws SQLException {
+    try {
+      return Float.parseFloat(this.getString());
+    } catch (Exception e) {
+      throw new SQLException(e);
+    }
+  }
+
+  @Override
+  public double getDouble() throws SQLException {
+    try {
+      return Double.parseDouble(this.getString());
+    } catch (Exception e) {
+      throw new SQLException(e);
+    }
+  }
+
+  @Override
+  public BigDecimal getBigDecimal() throws SQLException {
+    try {
+      return new BigDecimal(this.getString());
+    } catch (Exception e) {
+      throw new SQLException(e);
+    }
+  }
+
+  @Override
+  public BigDecimal getBigDecimal(int i) throws SQLException {
+    try {
+      return BigDecimal.valueOf(this.getLong(), i);
+    } catch (Exception e) {
+      throw new SQLException(e);
+    }
+  }
+
+  @Override
+  public InputStream getAsciiStream() {
+    final String textValue = getString();
+    if (textValue == null) {
+      return null;
+    }
+    // Already in UTF-8
+    return new ByteArrayInputStream(textValue.getBytes(US_ASCII));
+  }
+
+  @Override
+  public InputStream getUnicodeStream() {
+    final byte[] value = getBytes();
+    if (value == null) {
+      return null;
+    }
+
+    // Already in UTF-8
+    final Text textValue = new Text(value);
+    return new ByteArrayInputStream(textValue.getBytes(), 0, textValue.getLength());
+  }
+
+  @Override
+  public Reader getCharacterStream() {
+    return new CharArrayReader(getString().toCharArray());
+  }
+
+  @Override
+  public Date getDate(Calendar calendar) throws SQLException {
+    try {
+      Date date = Date.valueOf(getString());
+      if (calendar == null) {
+        return date;
+      }
+
+      // Use Calendar to apply time zone's offset
+      long milliseconds = date.getTime();
+      return new Date(DateTimeUtils.applyCalendarOffset(milliseconds, calendar));
+    } catch (Exception e) {
+      throw new SQLException(e);
+    }
+  }
+
+  @Override
+  public Time getTime(Calendar calendar) throws SQLException {
+    try {
+      Time time = Time.valueOf(getString());
+      if (calendar == null) {
+        return time;
+      }
+
+      // Use Calendar to apply time zone's offset
+      long milliseconds = time.getTime();
+      return new Time(DateTimeUtils.applyCalendarOffset(milliseconds, calendar));
+    } catch (Exception e) {
+      throw new SQLException(e);
+    }
+  }
+
+  @Override
+  public Timestamp getTimestamp(Calendar calendar) throws SQLException {
+    try {
+      Timestamp timestamp = Timestamp.valueOf(getString());
+      if (calendar == null) {
+        return timestamp;
+      }
+
+      // Use Calendar to apply time zone's offset
+      long milliseconds = timestamp.getTime();
+      return new Timestamp(DateTimeUtils.applyCalendarOffset(milliseconds, calendar));
+    } catch (Exception e) {
+      throw new SQLException(e);
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/client/ArrowFlightSqlClientHandler.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/client/ArrowFlightSqlClientHandler.java
new file mode 100644
index 00000000000..7b059ab02f8
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/client/ArrowFlightSqlClientHandler.java
@@ -0,0 +1,596 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.client;
+
+import java.io.IOException;
+import java.security.GeneralSecurityException;
+import java.sql.SQLException;
+import java.util.Arrays;
+import java.util.Collection;
+import java.util.HashSet;
+import java.util.List;
+import java.util.Set;
+import java.util.stream.Collectors;
+
+import org.apache.arrow.driver.jdbc.client.utils.ClientAuthenticationUtils;
+import org.apache.arrow.flight.CallOption;
+import org.apache.arrow.flight.FlightClient;
+import org.apache.arrow.flight.FlightClientMiddleware;
+import org.apache.arrow.flight.FlightEndpoint;
+import org.apache.arrow.flight.FlightInfo;
+import org.apache.arrow.flight.FlightRuntimeException;
+import org.apache.arrow.flight.FlightStatusCode;
+import org.apache.arrow.flight.FlightStream;
+import org.apache.arrow.flight.Location;
+import org.apache.arrow.flight.auth2.BearerCredentialWriter;
+import org.apache.arrow.flight.auth2.ClientBearerHeaderHandler;
+import org.apache.arrow.flight.auth2.ClientIncomingAuthHeaderMiddleware;
+import org.apache.arrow.flight.client.ClientCookieMiddleware;
+import org.apache.arrow.flight.grpc.CredentialCallOption;
+import org.apache.arrow.flight.sql.FlightSqlClient;
+import org.apache.arrow.flight.sql.impl.FlightSql.SqlInfo;
+import org.apache.arrow.flight.sql.util.TableRef;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.util.Preconditions;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.calcite.avatica.Meta.StatementType;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+/**
+ * A {@link FlightSqlClient} handler.
+ */
+public final class ArrowFlightSqlClientHandler implements AutoCloseable {
+  private static final Logger LOGGER = LoggerFactory.getLogger(ArrowFlightSqlClientHandler.class);
+  private final FlightSqlClient sqlClient;
+  private final Set<CallOption> options = new HashSet<>();
+
+  ArrowFlightSqlClientHandler(final FlightSqlClient sqlClient,
+                              final Collection<CallOption> options) {
+    this.options.addAll(options);
+    this.sqlClient = Preconditions.checkNotNull(sqlClient);
+  }
+
+  /**
+   * Creates a new {@link ArrowFlightSqlClientHandler} from the provided {@code client} and {@code options}.
+   *
+   * @param client  the {@link FlightClient} to manage under a {@link FlightSqlClient} wrapper.
+   * @param options the {@link CallOption}s to persist in between subsequent client calls.
+   * @return a new {@link ArrowFlightSqlClientHandler}.
+   */
+  public static ArrowFlightSqlClientHandler createNewHandler(final FlightClient client,
+                                                             final Collection<CallOption> options) {
+    return new ArrowFlightSqlClientHandler(new FlightSqlClient(client), options);
+  }
+
+  /**
+   * Gets the {@link #options} for the subsequent calls from this handler.
+   *
+   * @return the {@link CallOption}s.
+   */
+  private CallOption[] getOptions() {
+    return options.toArray(new CallOption[0]);
+  }
+
+  /**
+   * Makes an RPC "getStream" request based on the provided {@link FlightInfo}
+   * object. Retrieves the result of the query previously prepared with "getInfo."
+   *
+   * @param flightInfo The {@link FlightInfo} instance from which to fetch results.
+   * @return a {@code FlightStream} of results.
+   */
+  public List<FlightStream> getStreams(final FlightInfo flightInfo) {
+    return flightInfo.getEndpoints().stream()
+        .map(FlightEndpoint::getTicket)
+        .map(ticket -> sqlClient.getStream(ticket, getOptions()))
+        .collect(Collectors.toList());
+  }
+
+  /**
+   * Makes an RPC "getInfo" request based on the provided {@code query}
+   * object.
+   *
+   * @param query The query.
+   * @return a {@code FlightStream} of results.
+   */
+  public FlightInfo getInfo(final String query) {
+    return sqlClient.execute(query, getOptions());
+  }
+
+  @Override
+  public void close() throws SQLException {
+    try {
+      AutoCloseables.close(sqlClient);
+    } catch (final Exception e) {
+      throw new SQLException("Failed to clean up client resources.", e);
+    }
+  }
+
+  /**
+   * A prepared statement handler.
+   */
+  public interface PreparedStatement extends AutoCloseable {
+    /**
+     * Executes this {@link PreparedStatement}.
+     *
+     * @return the {@link FlightInfo} representing the outcome of this query execution.
+     * @throws SQLException on error.
+     */
+    FlightInfo executeQuery() throws SQLException;
+
+    /**
+     * Executes a {@link StatementType#UPDATE} query.
+     *
+     * @return the number of rows affected.
+     */
+    long executeUpdate();
+
+    /**
+     * Gets the {@link StatementType} of this {@link PreparedStatement}.
+     *
+     * @return the Statement Type.
+     */
+    StatementType getType();
+
+    /**
+     * Gets the {@link Schema} of this {@link PreparedStatement}.
+     *
+     * @return {@link Schema}.
+     */
+    Schema getDataSetSchema();
+
+    @Override
+    void close();
+  }
+
+  /**
+   * Creates a new {@link PreparedStatement} for the given {@code query}.
+   *
+   * @param query the SQL query.
+   * @return a new prepared statement.
+   */
+  public PreparedStatement prepare(final String query) {
+    final FlightSqlClient.PreparedStatement preparedStatement =
+        sqlClient.prepare(query, getOptions());
+    return new PreparedStatement() {
+      @Override
+      public FlightInfo executeQuery() throws SQLException {
+        return preparedStatement.execute(getOptions());
+      }
+
+      @Override
+      public long executeUpdate() {
+        return preparedStatement.executeUpdate(getOptions());
+      }
+
+      @Override
+      public StatementType getType() {
+        final Schema schema = preparedStatement.getResultSetSchema();
+        return schema.getFields().isEmpty() ? StatementType.UPDATE : StatementType.SELECT;
+      }
+
+      @Override
+      public Schema getDataSetSchema() {
+        return preparedStatement.getResultSetSchema();
+      }
+
+      @Override
+      public void close() {
+        try {
+          preparedStatement.close(getOptions());
+        } catch (FlightRuntimeException fre) {
+          // ARROW-17785: suppress exceptions caused by flaky gRPC layer
+          if (fre.status().code().equals(FlightStatusCode.UNAVAILABLE) ||
+              (fre.status().code().equals(FlightStatusCode.INTERNAL) &&
+                  fre.getMessage().contains("Connection closed after GOAWAY"))) {
+            LOGGER.warn("Supressed error closing PreparedStatement", fre);
+            return;
+          }
+          throw fre;
+        }
+      }
+    };
+  }
+
+  /**
+   * Makes an RPC "getCatalogs" request.
+   *
+   * @return a {@code FlightStream} of results.
+   */
+  public FlightInfo getCatalogs() {
+    return sqlClient.getCatalogs(getOptions());
+  }
+
+  /**
+   * Makes an RPC "getImportedKeys" request based on the provided info.
+   *
+   * @param catalog The catalog name. Must match the catalog name as it is stored in the database.
+   *                Retrieves those without a catalog. Null means that the catalog name should not be used to
+   *                narrow the search.
+   * @param schema  The schema name. Must match the schema name as it is stored in the database.
+   *                "" retrieves those without a schema. Null means that the schema name should not be used to narrow
+   *                the search.
+   * @param table   The table name. Must match the table name as it is stored in the database.
+   * @return a {@code FlightStream} of results.
+   */
+  public FlightInfo getImportedKeys(final String catalog, final String schema, final String table) {
+    return sqlClient.getImportedKeys(TableRef.of(catalog, schema, table), getOptions());
+  }
+
+  /**
+   * Makes an RPC "getExportedKeys" request based on the provided info.
+   *
+   * @param catalog The catalog name. Must match the catalog name as it is stored in the database.
+   *                Retrieves those without a catalog. Null means that the catalog name should not be used to
+   *                narrow the search.
+   * @param schema  The schema name. Must match the schema name as it is stored in the database.
+   *                "" retrieves those without a schema. Null means that the schema name should not be used to narrow
+   *                the search.
+   * @param table   The table name. Must match the table name as it is stored in the database.
+   * @return a {@code FlightStream} of results.
+   */
+  public FlightInfo getExportedKeys(final String catalog, final String schema, final String table) {
+    return sqlClient.getExportedKeys(TableRef.of(catalog, schema, table), getOptions());
+  }
+
+  /**
+   * Makes an RPC "getSchemas" request based on the provided info.
+   *
+   * @param catalog       The catalog name. Must match the catalog name as it is stored in the database.
+   *                      Retrieves those without a catalog. Null means that the catalog name should not be used to
+   *                      narrow the search.
+   * @param schemaPattern The schema name pattern. Must match the schema name as it is stored in the database.
+   *                      Null means that schema name should not be used to narrow down the search.
+   * @return a {@code FlightStream} of results.
+   */
+  public FlightInfo getSchemas(final String catalog, final String schemaPattern) {
+    return sqlClient.getSchemas(catalog, schemaPattern, getOptions());
+  }
+
+  /**
+   * Makes an RPC "getTableTypes" request.
+   *
+   * @return a {@code FlightStream} of results.
+   */
+  public FlightInfo getTableTypes() {
+    return sqlClient.getTableTypes(getOptions());
+  }
+
+  /**
+   * Makes an RPC "getTables" request based on the provided info.
+   *
+   * @param catalog          The catalog name. Must match the catalog name as it is stored in the database.
+   *                         Retrieves those without a catalog. Null means that the catalog name should not be used to
+   *                         narrow the search.
+   * @param schemaPattern    The schema name pattern. Must match the schema name as it is stored in the database.
+   *                         "" retrieves those without a schema. Null means that the schema name should not be used to
+   *                         narrow the search.
+   * @param tableNamePattern The table name pattern. Must match the table name as it is stored in the database.
+   * @param types            The list of table types, which must be from the list of table types to include.
+   *                         Null returns all types.
+   * @param includeSchema    Whether to include schema.
+   * @return a {@code FlightStream} of results.
+   */
+  public FlightInfo getTables(final String catalog, final String schemaPattern,
+                              final String tableNamePattern,
+                              final List<String> types, final boolean includeSchema) {
+
+    return sqlClient.getTables(catalog, schemaPattern, tableNamePattern, types, includeSchema,
+        getOptions());
+  }
+
+  /**
+   * Gets SQL info.
+   *
+   * @return the SQL info.
+   */
+  public FlightInfo getSqlInfo(SqlInfo... info) {
+    return sqlClient.getSqlInfo(info, getOptions());
+  }
+
+  /**
+   * Makes an RPC "getPrimaryKeys" request based on the provided info.
+   *
+   * @param catalog The catalog name; must match the catalog name as it is stored in the database.
+   *                "" retrieves those without a catalog.
+   *                Null means that the catalog name should not be used to narrow the search.
+   * @param schema  The schema name; must match the schema name as it is stored in the database.
+   *                "" retrieves those without a schema. Null means that the schema name should not be used to narrow
+   *                the search.
+   * @param table   The table name. Must match the table name as it is stored in the database.
+   * @return a {@code FlightStream} of results.
+   */
+  public FlightInfo getPrimaryKeys(final String catalog, final String schema, final String table) {
+    return sqlClient.getPrimaryKeys(TableRef.of(catalog, schema, table), getOptions());
+  }
+
+  /**
+   * Makes an RPC "getCrossReference" request based on the provided info.
+   *
+   * @param pkCatalog The catalog name. Must match the catalog name as it is stored in the database.
+   *                  Retrieves those without a catalog. Null means that the catalog name should not be used to
+   *                  narrow the search.
+   * @param pkSchema  The schema name. Must match the schema name as it is stored in the database.
+   *                  "" retrieves those without a schema. Null means that the schema name should not be used to narrow
+   *                  the search.
+   * @param pkTable   The table name. Must match the table name as it is stored in the database.
+   * @param fkCatalog The catalog name. Must match the catalog name as it is stored in the database.
+   *                  Retrieves those without a catalog. Null means that the catalog name should not be used to
+   *                  narrow the search.
+   * @param fkSchema  The schema name. Must match the schema name as it is stored in the database.
+   *                  "" retrieves those without a schema. Null means that the schema name should not be used to narrow
+   *                  the search.
+   * @param fkTable   The table name. Must match the table name as it is stored in the database.
+   * @return a {@code FlightStream} of results.
+   */
+  public FlightInfo getCrossReference(String pkCatalog, String pkSchema, String pkTable,
+                                      String fkCatalog, String fkSchema, String fkTable) {
+    return sqlClient.getCrossReference(TableRef.of(pkCatalog, pkSchema, pkTable),
+        TableRef.of(fkCatalog, fkSchema, fkTable),
+        getOptions());
+  }
+
+  /**
+   * Builder for {@link ArrowFlightSqlClientHandler}.
+   */
+  public static final class Builder {
+    private final Set<FlightClientMiddleware.Factory> middlewareFactories = new HashSet<>();
+    private final Set<CallOption> options = new HashSet<>();
+    private String host;
+    private int port;
+    private String username;
+    private String password;
+    private String trustStorePath;
+    private String trustStorePassword;
+    private String token;
+    private boolean useEncryption;
+    private boolean disableCertificateVerification;
+    private boolean useSystemTrustStore;
+    private BufferAllocator allocator;
+
+    /**
+     * Sets the host for this handler.
+     *
+     * @param host the host.
+     * @return this instance.
+     */
+    public Builder withHost(final String host) {
+      this.host = host;
+      return this;
+    }
+
+    /**
+     * Sets the port for this handler.
+     *
+     * @param port the port.
+     * @return this instance.
+     */
+    public Builder withPort(final int port) {
+      this.port = port;
+      return this;
+    }
+
+    /**
+     * Sets the username for this handler.
+     *
+     * @param username the username.
+     * @return this instance.
+     */
+    public Builder withUsername(final String username) {
+      this.username = username;
+      return this;
+    }
+
+    /**
+     * Sets the password for this handler.
+     *
+     * @param password the password.
+     * @return this instance.
+     */
+    public Builder withPassword(final String password) {
+      this.password = password;
+      return this;
+    }
+
+    /**
+     * Sets the KeyStore path for this handler.
+     *
+     * @param trustStorePath the KeyStore path.
+     * @return this instance.
+     */
+    public Builder withTrustStorePath(final String trustStorePath) {
+      this.trustStorePath = trustStorePath;
+      return this;
+    }
+
+    /**
+     * Sets the KeyStore password for this handler.
+     *
+     * @param trustStorePassword the KeyStore password.
+     * @return this instance.
+     */
+    public Builder withTrustStorePassword(final String trustStorePassword) {
+      this.trustStorePassword = trustStorePassword;
+      return this;
+    }
+
+    /**
+     * Sets whether to use TLS encryption in this handler.
+     *
+     * @param useEncryption whether to use TLS encryption.
+     * @return this instance.
+     */
+    public Builder withEncryption(final boolean useEncryption) {
+      this.useEncryption = useEncryption;
+      return this;
+    }
+
+    /**
+     * Sets whether to disable the certificate verification in this handler.
+     *
+     * @param disableCertificateVerification whether to disable certificate verification.
+     * @return this instance.
+     */
+    public Builder withDisableCertificateVerification(final boolean disableCertificateVerification) {
+      this.disableCertificateVerification = disableCertificateVerification;
+      return this;
+    }
+
+    /**
+     * Sets whether to use the certificates from the operating system.
+     *
+     * @param useSystemTrustStore whether to use the system operating certificates.
+     * @return this instance.
+     */
+    public Builder withSystemTrustStore(final boolean useSystemTrustStore) {
+      this.useSystemTrustStore = useSystemTrustStore;
+      return this;
+    }
+
+    /**
+     * Sets the token used in the token authetication.
+     * @param token the token value.
+     * @return      this builder instance.
+     */
+    public Builder withToken(final String token) {
+      this.token = token;
+      return this;
+    }
+
+    /**
+     * Sets the {@link BufferAllocator} to use in this handler.
+     *
+     * @param allocator the allocator.
+     * @return this instance.
+     */
+    public Builder withBufferAllocator(final BufferAllocator allocator) {
+      this.allocator = allocator
+          .newChildAllocator("ArrowFlightSqlClientHandler", 0, allocator.getLimit());
+      return this;
+    }
+
+    /**
+     * Adds the provided {@code factories} to the list of {@link #middlewareFactories} of this handler.
+     *
+     * @param factories the factories to add.
+     * @return this instance.
+     */
+    public Builder withMiddlewareFactories(final FlightClientMiddleware.Factory... factories) {
+      return withMiddlewareFactories(Arrays.asList(factories));
+    }
+
+    /**
+     * Adds the provided {@code factories} to the list of {@link #middlewareFactories} of this handler.
+     *
+     * @param factories the factories to add.
+     * @return this instance.
+     */
+    public Builder withMiddlewareFactories(
+        final Collection<FlightClientMiddleware.Factory> factories) {
+      this.middlewareFactories.addAll(factories);
+      return this;
+    }
+
+    /**
+     * Adds the provided {@link CallOption}s to this handler.
+     *
+     * @param options the options
+     * @return this instance.
+     */
+    public Builder withCallOptions(final CallOption... options) {
+      return withCallOptions(Arrays.asList(options));
+    }
+
+    /**
+     * Adds the provided {@link CallOption}s to this handler.
+     *
+     * @param options the options
+     * @return this instance.
+     */
+    public Builder withCallOptions(final Collection<CallOption> options) {
+      this.options.addAll(options);
+      return this;
+    }
+
+    /**
+     * Builds a new {@link ArrowFlightSqlClientHandler} from the provided fields.
+     *
+     * @return a new client handler.
+     * @throws SQLException on error.
+     */
+    public ArrowFlightSqlClientHandler build() throws SQLException {
+      FlightClient client = null;
+      try {
+        ClientIncomingAuthHeaderMiddleware.Factory authFactory = null;
+        if (username != null) {
+          authFactory =
+              new ClientIncomingAuthHeaderMiddleware.Factory(new ClientBearerHeaderHandler());
+          withMiddlewareFactories(authFactory);
+        }
+        final FlightClient.Builder clientBuilder = FlightClient.builder().allocator(allocator);
+        withMiddlewareFactories(new ClientCookieMiddleware.Factory());
+        middlewareFactories.forEach(clientBuilder::intercept);
+        Location location;
+        if (useEncryption) {
+          location = Location.forGrpcTls(host, port);
+          clientBuilder.useTls();
+        } else {
+          location = Location.forGrpcInsecure(host, port);
+        }
+        clientBuilder.location(location);
+
+        if (useEncryption) {
+          if (disableCertificateVerification) {
+            clientBuilder.verifyServer(false);
+          } else {
+            if (useSystemTrustStore) {
+              clientBuilder.trustedCertificates(
+                  ClientAuthenticationUtils.getCertificateInputStreamFromSystem(trustStorePassword));
+            } else if (trustStorePath != null) {
+              clientBuilder.trustedCertificates(
+                  ClientAuthenticationUtils.getCertificateStream(trustStorePath, trustStorePassword));
+            }
+          }
+        }
+
+        client = clientBuilder.build();
+        if (authFactory != null) {
+          options.add(
+              ClientAuthenticationUtils.getAuthenticate(client, username, password, authFactory));
+        } else if (token != null) {
+          options.add(
+              ClientAuthenticationUtils.getAuthenticate(
+                  client, new CredentialCallOption(new BearerCredentialWriter(token))));
+        }
+        return ArrowFlightSqlClientHandler.createNewHandler(client, options);
+
+      } catch (final IllegalArgumentException | GeneralSecurityException | IOException | FlightRuntimeException e) {
+        final SQLException originalException = new SQLException(e);
+        if (client != null) {
+          try {
+            client.close();
+          } catch (final InterruptedException interruptedException) {
+            originalException.addSuppressed(interruptedException);
+          }
+        }
+        throw originalException;
+      }
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/client/utils/ClientAuthenticationUtils.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/client/utils/ClientAuthenticationUtils.java
new file mode 100644
index 00000000000..6d9880bd270
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/client/utils/ClientAuthenticationUtils.java
@@ -0,0 +1,264 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.client.utils;
+
+import java.io.ByteArrayInputStream;
+import java.io.IOException;
+import java.io.InputStream;
+import java.io.StringWriter;
+import java.nio.charset.StandardCharsets;
+import java.nio.file.Files;
+import java.nio.file.Path;
+import java.nio.file.Paths;
+import java.security.GeneralSecurityException;
+import java.security.KeyStore;
+import java.security.KeyStoreException;
+import java.security.NoSuchAlgorithmException;
+import java.security.cert.Certificate;
+import java.security.cert.CertificateException;
+import java.util.ArrayList;
+import java.util.Arrays;
+import java.util.Collection;
+import java.util.Enumeration;
+import java.util.List;
+
+import org.apache.arrow.flight.CallOption;
+import org.apache.arrow.flight.FlightClient;
+import org.apache.arrow.flight.auth2.BasicAuthCredentialWriter;
+import org.apache.arrow.flight.auth2.ClientIncomingAuthHeaderMiddleware;
+import org.apache.arrow.flight.grpc.CredentialCallOption;
+import org.apache.arrow.util.Preconditions;
+import org.apache.arrow.util.VisibleForTesting;
+import org.bouncycastle.openssl.jcajce.JcaPEMWriter;
+
+/**
+ * Utils for {@link FlightClientHandler} authentication.
+ */
+public final class ClientAuthenticationUtils {
+
+  private ClientAuthenticationUtils() {
+    // Prevent instantiation.
+  }
+
+  /**
+   * Gets the {@link CredentialCallOption} for the provided authentication info.
+   *
+   * @param client      the client.
+   * @param credential  the credential as CallOptions.
+   * @param options     the {@link CallOption}s to use.
+   * @return the credential call option.
+   */
+  public static CredentialCallOption getAuthenticate(final FlightClient client,
+                                                     final CredentialCallOption credential,
+                                                     final CallOption... options) {
+
+    final List<CallOption> theseOptions = new ArrayList<>();
+    theseOptions.add(credential);
+    theseOptions.addAll(Arrays.asList(options));
+    client.handshake(theseOptions.toArray(new CallOption[0]));
+
+    return (CredentialCallOption) theseOptions.get(0);
+  }
+
+  /**
+   * Gets the {@link CredentialCallOption} for the provided authentication info.
+   *
+   * @param client   the client.
+   * @param username the username.
+   * @param password the password.
+   * @param factory  the {@link ClientIncomingAuthHeaderMiddleware.Factory} to use.
+   * @param options  the {@link CallOption}s to use.
+   * @return the credential call option.
+   */
+  public static CredentialCallOption getAuthenticate(final FlightClient client,
+                                                     final String username, final String password,
+                                                     final ClientIncomingAuthHeaderMiddleware.Factory factory,
+                                                     final CallOption... options) {
+
+    return getAuthenticate(client,
+        new CredentialCallOption(new BasicAuthCredentialWriter(username, password)),
+        factory, options);
+  }
+
+  private static CredentialCallOption getAuthenticate(final FlightClient client,
+                                                      final CredentialCallOption token,
+                                                      final ClientIncomingAuthHeaderMiddleware.Factory factory,
+                                                      final CallOption... options) {
+    final List<CallOption> theseOptions = new ArrayList<>();
+    theseOptions.add(token);
+    theseOptions.addAll(Arrays.asList(options));
+    client.handshake(theseOptions.toArray(new CallOption[0]));
+    return factory.getCredentialCallOption();
+  }
+
+  @VisibleForTesting
+  static KeyStore getKeyStoreInstance(String instance)
+      throws KeyStoreException, CertificateException, IOException, NoSuchAlgorithmException {
+    KeyStore keyStore = KeyStore.getInstance(instance);
+    keyStore.load(null, null);
+
+    return keyStore;
+  }
+
+  static String getOperatingSystem() {
+    return System.getProperty("os.name");
+  }
+
+  /**
+   * Check if the operating system running the software is Windows.
+   *
+   * @return whether is the windows system.
+   */
+  public static boolean isWindows() {
+    return getOperatingSystem().contains("Windows");
+  }
+
+  /**
+   * Check if the operating system running the software is Mac.
+   *
+   * @return whether is the mac system.
+   */
+  public static boolean isMac() {
+    return getOperatingSystem().contains("Mac");
+  }
+
+  /**
+   * It gets the trusted certificate based on the operating system and loads all the certificate into a
+   * {@link InputStream}.
+   *
+   * @return An input stream with all the certificates.
+   *
+   * @throws KeyStoreException        if a key store could not be loaded.
+   * @throws CertificateException     if a certificate could not be found.
+   * @throws IOException              if it fails reading the file.
+   */
+  public static InputStream getCertificateInputStreamFromSystem(String password) throws KeyStoreException,
+      CertificateException, IOException, NoSuchAlgorithmException {
+
+    List<KeyStore> keyStoreList = new ArrayList<>();
+    if (isWindows()) {
+      keyStoreList.add(getKeyStoreInstance("Windows-ROOT"));
+      keyStoreList.add(getKeyStoreInstance("Windows-MY"));
+    } else if (isMac()) {
+      keyStoreList.add(getKeyStoreInstance("KeychainStore"));
+    } else {
+      try (InputStream fileInputStream = getKeystoreInputStream()) {
+        KeyStore keyStore = KeyStore.getInstance(KeyStore.getDefaultType());
+        if (password == null) {
+          keyStore.load(fileInputStream, null);
+        } else {
+          keyStore.load(fileInputStream, password.toCharArray());
+        }
+        keyStoreList.add(keyStore);
+      }
+    }
+
+    return getCertificatesInputStream(keyStoreList);
+  }
+
+  @VisibleForTesting
+  static InputStream getKeystoreInputStream() throws IOException {
+    Path path = Paths.get(System.getProperty("java.home"), "lib", "security", "cacerts");
+    if (Files.notExists(path)) {
+      // for JDK8
+      path = Paths.get(System.getProperty("java.home"), "jre", "lib", "security", "cacerts");
+    }
+    return Files.newInputStream(path);
+  }
+
+  @VisibleForTesting
+  static void getCertificatesInputStream(KeyStore keyStore, JcaPEMWriter pemWriter)
+      throws IOException, KeyStoreException {
+    Enumeration<String> aliases = keyStore.aliases();
+    while (aliases.hasMoreElements()) {
+      String alias = aliases.nextElement();
+      if (keyStore.isCertificateEntry(alias)) {
+        pemWriter.writeObject(keyStore.getCertificate(alias));
+      }
+    }
+    pemWriter.flush();
+  }
+
+  @VisibleForTesting
+  static InputStream getCertificatesInputStream(Collection<KeyStore> keyStores)
+      throws IOException, KeyStoreException {
+    try (final StringWriter writer = new StringWriter();
+         final JcaPEMWriter pemWriter = new JcaPEMWriter(writer)) {
+
+      for (KeyStore keyStore : keyStores) {
+        getCertificatesInputStream(keyStore, pemWriter);
+      }
+
+      return new ByteArrayInputStream(
+        writer.toString().getBytes(StandardCharsets.UTF_8));
+    }
+  }
+
+  /**
+   * Generates an {@link InputStream} that contains certificates for a private
+   * key.
+   *
+   * @param keyStorePath The path of the KeyStore.
+   * @param keyStorePass The password of the KeyStore.
+   * @return a new {code InputStream} containing the certificates.
+   * @throws GeneralSecurityException on error.
+   * @throws IOException              on error.
+   */
+  public static InputStream getCertificateStream(final String keyStorePath,
+                                                 final String keyStorePass)
+      throws GeneralSecurityException, IOException {
+    Preconditions.checkNotNull(keyStorePath, "KeyStore path cannot be null!");
+    Preconditions.checkNotNull(keyStorePass, "KeyStorePass cannot be null!");
+    final KeyStore keyStore = KeyStore.getInstance(KeyStore.getDefaultType());
+
+    try (final InputStream keyStoreStream = Files
+        .newInputStream(Paths.get(Preconditions.checkNotNull(keyStorePath)))) {
+      keyStore.load(keyStoreStream,
+          Preconditions.checkNotNull(keyStorePass).toCharArray());
+    }
+
+    return getSingleCertificateInputStream(keyStore);
+  }
+
+  private static InputStream getSingleCertificateInputStream(KeyStore keyStore)
+      throws KeyStoreException, IOException, CertificateException {
+    final Enumeration<String> aliases = keyStore.aliases();
+
+    while (aliases.hasMoreElements()) {
+      final String alias = aliases.nextElement();
+      if (keyStore.isCertificateEntry(alias)) {
+        return toInputStream(keyStore.getCertificate(alias));
+      }
+    }
+
+    throw new CertificateException("Keystore did not have a certificate.");
+  }
+
+  private static InputStream toInputStream(final Certificate certificate)
+      throws IOException {
+
+    try (final StringWriter writer = new StringWriter();
+         final JcaPEMWriter pemWriter = new JcaPEMWriter(writer)) {
+
+      pemWriter.writeObject(certificate);
+      pemWriter.flush();
+      return new ByteArrayInputStream(
+          writer.toString().getBytes(StandardCharsets.UTF_8));
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/ArrowFlightConnectionConfigImpl.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/ArrowFlightConnectionConfigImpl.java
new file mode 100644
index 00000000000..ac338a85d62
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/ArrowFlightConnectionConfigImpl.java
@@ -0,0 +1,292 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import java.util.Arrays;
+import java.util.HashMap;
+import java.util.Map;
+import java.util.Objects;
+import java.util.Properties;
+
+import org.apache.arrow.driver.jdbc.ArrowFlightConnection;
+import org.apache.arrow.flight.CallHeaders;
+import org.apache.arrow.flight.CallOption;
+import org.apache.arrow.flight.FlightCallHeaders;
+import org.apache.arrow.flight.HeaderCallOption;
+import org.apache.arrow.util.Preconditions;
+import org.apache.calcite.avatica.ConnectionConfig;
+import org.apache.calcite.avatica.ConnectionConfigImpl;
+import org.apache.calcite.avatica.ConnectionProperty;
+
+/**
+ * A {@link ConnectionConfig} for the {@link ArrowFlightConnection}.
+ */
+public final class ArrowFlightConnectionConfigImpl extends ConnectionConfigImpl {
+  public ArrowFlightConnectionConfigImpl(final Properties properties) {
+    super(properties);
+  }
+
+  /**
+   * Gets the host.
+   *
+   * @return the host.
+   */
+  public String getHost() {
+    return ArrowFlightConnectionProperty.HOST.getString(properties);
+  }
+
+  /**
+   * Gets the port.
+   *
+   * @return the port.
+   */
+  public int getPort() {
+    return ArrowFlightConnectionProperty.PORT.getInteger(properties);
+  }
+
+  /**
+   * Gets the host.
+   *
+   * @return the host.
+   */
+  public String getUser() {
+    return ArrowFlightConnectionProperty.USER.getString(properties);
+  }
+
+  /**
+   * Gets the host.
+   *
+   * @return the host.
+   */
+  public String getPassword() {
+    return ArrowFlightConnectionProperty.PASSWORD.getString(properties);
+  }
+
+
+  public String getToken() {
+    return ArrowFlightConnectionProperty.TOKEN.getString(properties);
+  }
+
+  /**
+   * Gets the KeyStore path.
+   *
+   * @return the path.
+   */
+  public String getTrustStorePath() {
+    return ArrowFlightConnectionProperty.TRUST_STORE.getString(properties);
+  }
+
+  /**
+   * Gets the KeyStore password.
+   *
+   * @return the password.
+   */
+  public String getTrustStorePassword() {
+    return ArrowFlightConnectionProperty.TRUST_STORE_PASSWORD.getString(properties);
+  }
+
+  /**
+   * Check if the JDBC should use the trusted store files from the operating system.
+   *
+   * @return whether to use system trusted store certificates.
+   */
+  public boolean useSystemTrustStore() {
+    return ArrowFlightConnectionProperty.USE_SYSTEM_TRUST_STORE.getBoolean(properties);
+  }
+
+  /**
+   * Whether to use TLS encryption.
+   *
+   * @return whether to use TLS encryption.
+   */
+  public boolean useEncryption() {
+    return ArrowFlightConnectionProperty.USE_ENCRYPTION.getBoolean(properties);
+  }
+
+  public boolean getDisableCertificateVerification() {
+    return ArrowFlightConnectionProperty.CERTIFICATE_VERIFICATION.getBoolean(properties);
+  }
+
+  /**
+   * Gets the thread pool size.
+   *
+   * @return the thread pool size.
+   */
+  public int threadPoolSize() {
+    return ArrowFlightConnectionProperty.THREAD_POOL_SIZE.getInteger(properties);
+  }
+
+  /**
+   * Gets the {@link CallOption}s from this {@link ConnectionConfig}.
+   *
+   * @return the call options.
+   */
+  public CallOption toCallOption() {
+    final CallHeaders headers = new FlightCallHeaders();
+    Map<String, String> headerAttributes = getHeaderAttributes();
+    headerAttributes.forEach(headers::insert);
+    return new HeaderCallOption(headers);
+  }
+
+  /**
+   * Gets which properties should be added as headers.
+   *
+   * @return {@link Map}
+   */
+  public Map<String, String> getHeaderAttributes() {
+    Map<String, String> headers = new HashMap<>();
+    ArrowFlightConnectionProperty[] builtInProperties = ArrowFlightConnectionProperty.values();
+    properties.forEach(
+        (key, val) -> {
+          // For built-in properties before adding new headers
+          if (Arrays.stream(builtInProperties)
+              .noneMatch(builtInProperty -> builtInProperty.camelName.equalsIgnoreCase(key.toString()))) {
+            headers.put(key.toString(), val.toString());
+          }
+        });
+    return headers;
+  }
+
+  /**
+   * Custom {@link ConnectionProperty} for the {@link ArrowFlightConnectionConfigImpl}.
+   */
+  public enum ArrowFlightConnectionProperty implements ConnectionProperty {
+    HOST("host", null, Type.STRING, true),
+    PORT("port", null, Type.NUMBER, true),
+    USER("user", null, Type.STRING, false),
+    PASSWORD("password", null, Type.STRING, false),
+    USE_ENCRYPTION("useEncryption", true, Type.BOOLEAN, false),
+    CERTIFICATE_VERIFICATION("disableCertificateVerification", false, Type.BOOLEAN, false),
+    TRUST_STORE("trustStore", null, Type.STRING, false),
+    TRUST_STORE_PASSWORD("trustStorePassword", null, Type.STRING, false),
+    USE_SYSTEM_TRUST_STORE("useSystemTrustStore", true, Type.BOOLEAN, false),
+    THREAD_POOL_SIZE("threadPoolSize", 1, Type.NUMBER, false),
+    TOKEN("token", null, Type.STRING, false);
+
+    private final String camelName;
+    private final Object defaultValue;
+    private final Type type;
+    private final boolean required;
+
+    ArrowFlightConnectionProperty(final String camelName, final Object defaultValue,
+                                  final Type type, final boolean required) {
+      this.camelName = Preconditions.checkNotNull(camelName);
+      this.defaultValue = defaultValue;
+      this.type = Preconditions.checkNotNull(type);
+      this.required = required;
+    }
+
+    /**
+     * Gets the property.
+     *
+     * @param properties the properties from which to fetch this property.
+     * @return the property.
+     */
+    public Object get(final Properties properties) {
+      Preconditions.checkNotNull(properties, "Properties cannot be null.");
+      Object value = properties.get(camelName);
+      if (value == null) {
+        value = properties.get(camelName.toLowerCase());
+      }
+      if (required) {
+        if (value == null) {
+          throw new IllegalStateException(String.format("Required property not provided: <%s>.", this));
+        }
+        return value;
+      } else {
+        return value != null ? value : defaultValue;
+      }
+    }
+
+    /**
+     * Gets the property as Boolean.
+     *
+     * @param properties the properties from which to fetch this property.
+     * @return the property.
+     */
+    public Boolean getBoolean(final Properties properties) {
+      final String valueFromProperties = String.valueOf(get(properties));
+      return valueFromProperties.equals("1") || valueFromProperties.equals("true");
+    }
+
+    /**
+     * Gets the property as Integer.
+     *
+     * @param properties the properties from which to fetch this property.
+     * @return the property.
+     */
+    public Integer getInteger(final Properties properties) {
+      final String valueFromProperties = String.valueOf(get(properties));
+      return valueFromProperties.equals("null") ? null : Integer.parseInt(valueFromProperties);
+    }
+
+    /**
+     * Gets the property as String.
+     *
+     * @param properties the properties from which to fetch this property.
+     * @return the property.
+     */
+    public String getString(final Properties properties) {
+      return Objects.toString(get(properties), null);
+    }
+
+    @Override
+    public String camelName() {
+      return camelName;
+    }
+
+    @Override
+    public Object defaultValue() {
+      return defaultValue;
+    }
+
+    @Override
+    public Type type() {
+      return type;
+    }
+
+    @Override
+    public PropEnv wrap(final Properties properties) {
+      throw new UnsupportedOperationException("Operation unsupported.");
+    }
+
+    @Override
+    public boolean required() {
+      return required;
+    }
+
+    @Override
+    public Class<?> valueClass() {
+      return type.defaultValueClass();
+    }
+
+    /**
+     * Replaces the semicolons in the URL to the proper format.
+     *
+     * @param url the current connection string
+     * @return the formatted url
+     */
+    public static String replaceSemiColons(String url) {
+      if (url != null) {
+        url = url.replaceFirst(";", "?");
+        url = url.replaceAll(";", "&");
+      }
+      return url;
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/ConnectionWrapper.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/ConnectionWrapper.java
new file mode 100644
index 00000000000..5ee43ce012e
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/ConnectionWrapper.java
@@ -0,0 +1,344 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static com.google.common.base.Preconditions.checkNotNull;
+
+import java.sql.Array;
+import java.sql.Blob;
+import java.sql.CallableStatement;
+import java.sql.Clob;
+import java.sql.Connection;
+import java.sql.DatabaseMetaData;
+import java.sql.NClob;
+import java.sql.PreparedStatement;
+import java.sql.SQLClientInfoException;
+import java.sql.SQLException;
+import java.sql.SQLWarning;
+import java.sql.SQLXML;
+import java.sql.Savepoint;
+import java.sql.Statement;
+import java.sql.Struct;
+import java.util.Map;
+import java.util.Properties;
+import java.util.concurrent.Executor;
+
+import org.apache.arrow.driver.jdbc.ArrowFlightJdbcPooledConnection;
+
+/**
+ * Auxiliary wrapper class for {@link Connection}, used on {@link ArrowFlightJdbcPooledConnection}.
+ */
+public class ConnectionWrapper implements Connection {
+  private final Connection realConnection;
+
+  public ConnectionWrapper(final Connection connection) {
+    realConnection = checkNotNull(connection);
+  }
+
+  @Override
+  public <T> T unwrap(final Class<T> type) {
+    return type.cast(realConnection);
+  }
+
+  @Override
+  public boolean isWrapperFor(final Class<?> type) {
+    return realConnection.getClass().isAssignableFrom(type);
+  }
+
+  @Override
+  public Statement createStatement() throws SQLException {
+    return realConnection.createStatement();
+  }
+
+  @Override
+  public PreparedStatement prepareStatement(final String sqlQuery) throws SQLException {
+    return realConnection.prepareStatement(sqlQuery);
+  }
+
+  @Override
+  public CallableStatement prepareCall(final String sqlQuery) throws SQLException {
+    return realConnection.prepareCall(sqlQuery);
+  }
+
+  @Override
+  public String nativeSQL(final String sqlStatement) throws SQLException {
+    return realConnection.nativeSQL(sqlStatement);
+  }
+
+  @Override
+  public void setAutoCommit(boolean autoCommit) throws SQLException {
+    realConnection.setAutoCommit(autoCommit);
+  }
+
+  @Override
+  public boolean getAutoCommit() throws SQLException {
+    return realConnection.getAutoCommit();
+  }
+
+  @Override
+  public void commit() throws SQLException {
+    realConnection.commit();
+  }
+
+  @Override
+  public void rollback() throws SQLException {
+    realConnection.rollback();
+  }
+
+  @Override
+  public void close() throws SQLException {
+    realConnection.close();
+  }
+
+  @Override
+  public boolean isClosed() throws SQLException {
+    return realConnection.isClosed();
+  }
+
+  @Override
+  public DatabaseMetaData getMetaData() throws SQLException {
+    return realConnection.getMetaData();
+  }
+
+  @Override
+  public void setReadOnly(final boolean readOnly) throws SQLException {
+    realConnection.setReadOnly(readOnly);
+  }
+
+  @Override
+  public boolean isReadOnly() throws SQLException {
+    return realConnection.isReadOnly();
+  }
+
+  @Override
+  public void setCatalog(final String catalogName) throws SQLException {
+    realConnection.setCatalog(catalogName);
+  }
+
+  @Override
+  public String getCatalog() throws SQLException {
+    return realConnection.getCatalog();
+  }
+
+  @Override
+  public void setTransactionIsolation(final int transactionIsolationId) throws SQLException {
+    realConnection.setTransactionIsolation(transactionIsolationId);
+  }
+
+  @Override
+  public int getTransactionIsolation() throws SQLException {
+    return realConnection.getTransactionIsolation();
+  }
+
+  @Override
+  public SQLWarning getWarnings() throws SQLException {
+    return realConnection.getWarnings();
+  }
+
+  @Override
+  public void clearWarnings() throws SQLException {
+    realConnection.clearWarnings();
+  }
+
+  @Override
+  public Statement createStatement(final int resultSetTypeId, final int resultSetConcurrencyId)
+      throws SQLException {
+    return realConnection.createStatement(resultSetTypeId, resultSetConcurrencyId);
+  }
+
+  @Override
+  public PreparedStatement prepareStatement(final String sqlQuery, final int resultSetTypeId,
+                                            final int resultSetConcurrencyId)
+      throws SQLException {
+    return realConnection.prepareStatement(sqlQuery, resultSetTypeId, resultSetConcurrencyId);
+  }
+
+  @Override
+  public CallableStatement prepareCall(final String query, final int resultSetTypeId,
+                                       final int resultSetConcurrencyId)
+      throws SQLException {
+    return realConnection.prepareCall(query, resultSetTypeId, resultSetConcurrencyId);
+  }
+
+  @Override
+  public Map<String, Class<?>> getTypeMap() throws SQLException {
+    return realConnection.getTypeMap();
+  }
+
+  @Override
+  public void setTypeMap(final Map<String, Class<?>> typeNameToClass) throws SQLException {
+    realConnection.setTypeMap(typeNameToClass);
+  }
+
+  @Override
+  public void setHoldability(final int holdabilityId) throws SQLException {
+    realConnection.setHoldability(holdabilityId);
+  }
+
+  @Override
+  public int getHoldability() throws SQLException {
+    return realConnection.getHoldability();
+  }
+
+  @Override
+  public Savepoint setSavepoint() throws SQLException {
+    return realConnection.setSavepoint();
+  }
+
+  @Override
+  public Savepoint setSavepoint(final String savepointName) throws SQLException {
+    return realConnection.setSavepoint(savepointName);
+  }
+
+  @Override
+  public void rollback(final Savepoint savepoint) throws SQLException {
+    realConnection.rollback(savepoint);
+  }
+
+  @Override
+  public void releaseSavepoint(final Savepoint savepoint) throws SQLException {
+    realConnection.releaseSavepoint(savepoint);
+  }
+
+  @Override
+  public Statement createStatement(final int resultSetType,
+                                   final int resultSetConcurrency,
+                                   final int resultSetHoldability) throws SQLException {
+    return realConnection.createStatement(resultSetType, resultSetConcurrency,
+        resultSetHoldability);
+  }
+
+  @Override
+  public PreparedStatement prepareStatement(final String sqlQuery,
+                                            final int resultSetType,
+                                            final int resultSetConcurrency,
+                                            final int resultSetHoldability) throws SQLException {
+    return realConnection.prepareStatement(sqlQuery, resultSetType, resultSetConcurrency,
+        resultSetHoldability);
+  }
+
+  @Override
+  public CallableStatement prepareCall(final String sqlQuery,
+                                       final int resultSetType,
+                                       final int resultSetConcurrency,
+                                       final int resultSetHoldability) throws SQLException {
+    return realConnection.prepareCall(sqlQuery, resultSetType, resultSetConcurrency,
+        resultSetHoldability);
+  }
+
+  @Override
+  public PreparedStatement prepareStatement(final String sqlQuery, final int autoGeneratedKeysId)
+      throws SQLException {
+    return realConnection.prepareStatement(sqlQuery, autoGeneratedKeysId);
+  }
+
+  @Override
+  public PreparedStatement prepareStatement(final String sqlQuery, final int... columnIndices)
+      throws SQLException {
+    return realConnection.prepareStatement(sqlQuery, columnIndices);
+  }
+
+  @Override
+  public PreparedStatement prepareStatement(final String sqlQuery, final String... columnNames)
+      throws SQLException {
+    return realConnection.prepareStatement(sqlQuery, columnNames);
+  }
+
+  @Override
+  public Clob createClob() throws SQLException {
+    return realConnection.createClob();
+  }
+
+  @Override
+  public Blob createBlob() throws SQLException {
+    return realConnection.createBlob();
+  }
+
+  @Override
+  public NClob createNClob() throws SQLException {
+    return realConnection.createNClob();
+  }
+
+  @Override
+  public SQLXML createSQLXML() throws SQLException {
+    return realConnection.createSQLXML();
+  }
+
+  @Override
+  public boolean isValid(final int timeout) throws SQLException {
+    return realConnection.isValid(timeout);
+  }
+
+  @Override
+  public void setClientInfo(final String propertyName, final String propertyValue)
+      throws SQLClientInfoException {
+    realConnection.setClientInfo(propertyName, propertyValue);
+  }
+
+  @Override
+  public void setClientInfo(final Properties properties) throws SQLClientInfoException {
+    realConnection.setClientInfo(properties);
+  }
+
+  @Override
+  public String getClientInfo(final String propertyName) throws SQLException {
+    return realConnection.getClientInfo(propertyName);
+  }
+
+  @Override
+  public Properties getClientInfo() throws SQLException {
+    return realConnection.getClientInfo();
+  }
+
+  @Override
+  public Array createArrayOf(final String typeName, final Object... elements) throws SQLException {
+    return realConnection.createArrayOf(typeName, elements);
+  }
+
+  @Override
+  public Struct createStruct(final String typeName, final Object... attributes)
+      throws SQLException {
+    return realConnection.createStruct(typeName, attributes);
+  }
+
+  @Override
+  public void setSchema(final String schemaName) throws SQLException {
+    realConnection.setSchema(schemaName);
+  }
+
+  @Override
+  public String getSchema() throws SQLException {
+    return realConnection.getSchema();
+  }
+
+  @Override
+  public void abort(final Executor executor) throws SQLException {
+    realConnection.abort(executor);
+  }
+
+  @Override
+  public void setNetworkTimeout(final Executor executor, final int timeoutInMillis)
+      throws SQLException {
+    realConnection.setNetworkTimeout(executor, timeoutInMillis);
+  }
+
+  @Override
+  public int getNetworkTimeout() throws SQLException {
+    return realConnection.getNetworkTimeout();
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/ConvertUtils.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/ConvertUtils.java
new file mode 100644
index 00000000000..324f991ef09
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/ConvertUtils.java
@@ -0,0 +1,116 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import java.util.List;
+import java.util.Map;
+import java.util.stream.Collectors;
+import java.util.stream.Stream;
+
+import org.apache.arrow.flight.sql.FlightSqlColumnMetadata;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.calcite.avatica.ColumnMetaData;
+import org.apache.calcite.avatica.proto.Common;
+import org.apache.calcite.avatica.proto.Common.ColumnMetaData.Builder;
+
+/**
+ * Convert Fields To Column MetaData List functions.
+ */
+public final class ConvertUtils {
+
+  private ConvertUtils() {
+  }
+
+  /**
+   * Convert Fields To Column MetaData List functions.
+   *
+   * @param fields list of {@link Field}.
+   * @return list of {@link ColumnMetaData}.
+   */
+  public static List<ColumnMetaData> convertArrowFieldsToColumnMetaDataList(final List<Field> fields) {
+    return Stream.iterate(0, Math::incrementExact).limit(fields.size())
+        .map(index -> {
+          final Field field = fields.get(index);
+          final ArrowType fieldType = field.getType();
+
+          final Builder builder = Common.ColumnMetaData.newBuilder()
+              .setOrdinal(index)
+              .setColumnName(field.getName())
+              .setLabel(field.getName());
+
+          setOnColumnMetaDataBuilder(builder, field.getMetadata());
+
+          builder.setType(Common.AvaticaType.newBuilder()
+              .setId(SqlTypes.getSqlTypeIdFromArrowType(fieldType))
+              .setName(SqlTypes.getSqlTypeNameFromArrowType(fieldType))
+              .build());
+
+          return ColumnMetaData.fromProto(builder.build());
+        }).collect(Collectors.toList());
+  }
+
+  /**
+   * Set on Column MetaData Builder.
+   *
+   * @param builder     {@link Builder}
+   * @param metadataMap {@link Map}
+   */
+  public static void setOnColumnMetaDataBuilder(final Builder builder,
+                                                final Map<String, String> metadataMap) {
+    final FlightSqlColumnMetadata columnMetadata = new FlightSqlColumnMetadata(metadataMap);
+    final String catalogName = columnMetadata.getCatalogName();
+    if (catalogName != null) {
+      builder.setCatalogName(catalogName);
+    }
+    final String schemaName = columnMetadata.getSchemaName();
+    if (schemaName != null) {
+      builder.setSchemaName(schemaName);
+    }
+    final String tableName = columnMetadata.getTableName();
+    if (tableName != null) {
+      builder.setTableName(tableName);
+    }
+
+    final Integer precision = columnMetadata.getPrecision();
+    if (precision != null) {
+      builder.setPrecision(precision);
+    }
+    final Integer scale = columnMetadata.getScale();
+    if (scale != null) {
+      builder.setScale(scale);
+    }
+
+    final Boolean isAutoIncrement = columnMetadata.isAutoIncrement();
+    if (isAutoIncrement != null) {
+      builder.setAutoIncrement(isAutoIncrement);
+    }
+    final Boolean caseSensitive = columnMetadata.isCaseSensitive();
+    if (caseSensitive != null) {
+      builder.setCaseSensitive(caseSensitive);
+    }
+    final Boolean readOnly = columnMetadata.isReadOnly();
+    if (readOnly != null) {
+      builder.setReadOnly(readOnly);
+    }
+    final Boolean searchable = columnMetadata.isSearchable();
+    if (searchable != null) {
+      builder.setSearchable(searchable);
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/DateTimeUtils.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/DateTimeUtils.java
new file mode 100644
index 00000000000..dd94a09256d
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/DateTimeUtils.java
@@ -0,0 +1,76 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static org.apache.calcite.avatica.util.DateTimeUtils.MILLIS_PER_DAY;
+
+import java.sql.Timestamp;
+import java.time.LocalDate;
+import java.time.LocalDateTime;
+import java.time.LocalTime;
+import java.util.Calendar;
+import java.util.TimeZone;
+import java.util.concurrent.TimeUnit;
+
+/**
+ * Datetime utility functions.
+ */
+public class DateTimeUtils {
+  private DateTimeUtils() {
+    // Prevent instantiation.
+  }
+
+  /**
+   * Subtracts given Calendar's TimeZone offset from epoch milliseconds.
+   */
+  public static long applyCalendarOffset(long milliseconds, Calendar calendar) {
+    if (calendar == null) {
+      calendar = Calendar.getInstance();
+    }
+
+    final TimeZone tz = calendar.getTimeZone();
+    final TimeZone defaultTz = TimeZone.getDefault();
+
+    if (tz != defaultTz) {
+      milliseconds -= tz.getOffset(milliseconds) - defaultTz.getOffset(milliseconds);
+    }
+
+    return milliseconds;
+  }
+
+
+  /**
+   * Converts Epoch millis to a {@link Timestamp} object.
+   *
+   * @param millisWithCalendar the Timestamp in Epoch millis
+   * @return a {@link Timestamp} object representing the given Epoch millis
+   */
+  public static Timestamp getTimestampValue(long millisWithCalendar) {
+    long milliseconds = millisWithCalendar;
+    if (milliseconds < 0) {
+      // LocalTime#ofNanoDay only accepts positive values
+      milliseconds -= ((milliseconds / MILLIS_PER_DAY) - 1) * MILLIS_PER_DAY;
+    }
+
+    return Timestamp.valueOf(
+        LocalDateTime.of(
+            LocalDate.ofEpochDay(millisWithCalendar / MILLIS_PER_DAY),
+            LocalTime.ofNanoOfDay(TimeUnit.MILLISECONDS.toNanos(milliseconds % MILLIS_PER_DAY)))
+    );
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/FlightStreamQueue.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/FlightStreamQueue.java
new file mode 100644
index 00000000000..e1d770800e4
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/FlightStreamQueue.java
@@ -0,0 +1,237 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static java.lang.String.format;
+import static java.util.Collections.synchronizedSet;
+import static org.apache.arrow.util.Preconditions.checkNotNull;
+import static org.apache.arrow.util.Preconditions.checkState;
+
+import java.sql.SQLException;
+import java.sql.SQLTimeoutException;
+import java.util.Collection;
+import java.util.HashSet;
+import java.util.Set;
+import java.util.concurrent.CancellationException;
+import java.util.concurrent.CompletionService;
+import java.util.concurrent.ExecutionException;
+import java.util.concurrent.ExecutorCompletionService;
+import java.util.concurrent.ExecutorService;
+import java.util.concurrent.Future;
+import java.util.concurrent.TimeUnit;
+import java.util.concurrent.atomic.AtomicBoolean;
+
+import org.apache.arrow.flight.CallStatus;
+import org.apache.arrow.flight.FlightRuntimeException;
+import org.apache.arrow.flight.FlightStream;
+import org.apache.calcite.avatica.AvaticaConnection;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+/**
+ * Auxiliary class used to handle consuming of multiple {@link FlightStream}.
+ * <p>
+ * The usage follows this routine:
+ * <ol>
+ *   <li>Create a <code>FlightStreamQueue</code>;</li>
+ *   <li>Call <code>enqueue(FlightStream)</code> for all streams to be consumed;</li>
+ *   <li>Call <code>next()</code> to get a FlightStream that is ready to consume</li>
+ *   <li>Consume the given FlightStream and add it back to the queue - call <code>enqueue(FlightStream)</code></li>
+ *   <li>Repeat from (3) until <code>next()</code> returns null.</li>
+ * </ol>
+ */
+public class FlightStreamQueue implements AutoCloseable {
+  private static final Logger LOGGER = LoggerFactory.getLogger(FlightStreamQueue.class);
+  private final CompletionService<FlightStream> completionService;
+  private final Set<Future<FlightStream>> futures = synchronizedSet(new HashSet<>());
+  private final Set<FlightStream> allStreams = synchronizedSet(new HashSet<>());
+  private final AtomicBoolean closed = new AtomicBoolean();
+
+  /**
+   * Instantiate a new FlightStreamQueue.
+   */
+  protected FlightStreamQueue(final CompletionService<FlightStream> executorService) {
+    completionService = checkNotNull(executorService);
+  }
+
+  /**
+   * Creates a new {@link FlightStreamQueue} from the provided {@link ExecutorService}.
+   *
+   * @param service the service from which to create a new queue.
+   * @return a new queue.
+   */
+  public static FlightStreamQueue createNewQueue(final ExecutorService service) {
+    return new FlightStreamQueue(new ExecutorCompletionService<>(service));
+  }
+
+  /**
+   * Gets whether this queue is closed.
+   *
+   * @return a boolean indicating whether this resource is closed.
+   */
+  public boolean isClosed() {
+    return closed.get();
+  }
+
+  /**
+   * Auxiliary functional interface for getting ready-to-consume FlightStreams.
+   */
+  @FunctionalInterface
+  interface FlightStreamSupplier {
+    Future<FlightStream> get() throws SQLException;
+  }
+
+  private FlightStream next(final FlightStreamSupplier flightStreamSupplier) throws SQLException {
+    checkOpen();
+    while (!futures.isEmpty()) {
+      final Future<FlightStream> future = flightStreamSupplier.get();
+      futures.remove(future);
+      try {
+        final FlightStream stream = future.get();
+        if (stream.getRoot().getRowCount() > 0) {
+          return stream;
+        }
+      } catch (final ExecutionException | InterruptedException | CancellationException e) {
+        throw AvaticaConnection.HELPER.wrap(e.getMessage(), e);
+      }
+    }
+    return null;
+  }
+
+  /**
+   * Blocking request with timeout to get the next ready FlightStream in queue.
+   *
+   * @param timeoutValue the amount of time to be waited
+   * @param timeoutUnit  the timeoutValue time unit
+   * @return a FlightStream that is ready to consume or null if all FlightStreams are ended.
+   */
+  public FlightStream next(final long timeoutValue, final TimeUnit timeoutUnit)
+      throws SQLException {
+    return next(() -> {
+      try {
+        final Future<FlightStream> future = completionService.poll(timeoutValue, timeoutUnit);
+        if (future != null) {
+          return future;
+        }
+      } catch (final InterruptedException e) {
+        throw new SQLTimeoutException("Query was interrupted", e);
+      }
+
+      throw new SQLTimeoutException(
+          String.format("Query timed out after %d %s", timeoutValue, timeoutUnit));
+    });
+  }
+
+  /**
+   * Blocking request to get the next ready FlightStream in queue.
+   *
+   * @return a FlightStream that is ready to consume or null if all FlightStreams are ended.
+   */
+  public FlightStream next() throws SQLException {
+    return next(() -> {
+      try {
+        return completionService.take();
+      } catch (final InterruptedException e) {
+        throw AvaticaConnection.HELPER.wrap(e.getMessage(), e);
+      }
+    });
+  }
+
+  /**
+   * Checks if this queue is open.
+   */
+  public synchronized void checkOpen() {
+    checkState(!isClosed(), format("%s closed", this.getClass().getSimpleName()));
+  }
+
+  /**
+   * Readily adds given {@link FlightStream}s to the queue.
+   */
+  public void enqueue(final Collection<FlightStream> flightStreams) {
+    flightStreams.forEach(this::enqueue);
+  }
+
+  /**
+   * Adds given {@link FlightStream} to the queue.
+   */
+  public synchronized void enqueue(final FlightStream flightStream) {
+    checkNotNull(flightStream);
+    checkOpen();
+    allStreams.add(flightStream);
+    futures.add(completionService.submit(() -> {
+      // `FlightStream#next` will block until new data can be read or stream is over.
+      flightStream.next();
+      return flightStream;
+    }));
+  }
+
+  private static boolean isCallStatusCancelled(final Exception e) {
+    return e.getCause() instanceof FlightRuntimeException &&
+        ((FlightRuntimeException) e.getCause()).status().code() == CallStatus.CANCELLED.code();
+  }
+
+  @Override
+  public synchronized void close() throws SQLException {
+    final Set<SQLException> exceptions = new HashSet<>();
+    if (isClosed()) {
+      return;
+    }
+    try {
+      for (final FlightStream flightStream : allStreams) {
+        try {
+          flightStream.cancel("Cancelling this FlightStream.", null);
+        } catch (final Exception e) {
+          final String errorMsg = "Failed to cancel a FlightStream.";
+          LOGGER.error(errorMsg, e);
+          exceptions.add(new SQLException(errorMsg, e));
+        }
+      }
+      futures.forEach(future -> {
+        try {
+          // TODO: Consider adding a hardcoded timeout?
+          future.get();
+        } catch (final InterruptedException | ExecutionException e) {
+          // Ignore if future is already cancelled
+          if (!isCallStatusCancelled(e)) {
+            final String errorMsg = "Failed consuming a future during close.";
+            LOGGER.error(errorMsg, e);
+            exceptions.add(new SQLException(errorMsg, e));
+          }
+        }
+      });
+      for (final FlightStream flightStream : allStreams) {
+        try {
+          flightStream.close();
+        } catch (final Exception e) {
+          final String errorMsg = "Failed to close a FlightStream.";
+          LOGGER.error(errorMsg, e);
+          exceptions.add(new SQLException(errorMsg, e));
+        }
+      }
+    } finally {
+      allStreams.clear();
+      futures.clear();
+      closed.set(true);
+    }
+    if (!exceptions.isEmpty()) {
+      final SQLException sqlException = new SQLException("Failed to close streams.");
+      exceptions.forEach(sqlException::setNextException);
+      throw sqlException;
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/IntervalStringUtils.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/IntervalStringUtils.java
new file mode 100644
index 00000000000..05643274ac3
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/IntervalStringUtils.java
@@ -0,0 +1,84 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import org.apache.arrow.vector.util.DateUtility;
+import org.joda.time.Period;
+
+/**
+ * Utility class to format periods similar to Oracle's representation
+ * of "INTERVAL * to *" data type.
+ */
+public final class IntervalStringUtils {
+
+  /**
+   * Constructor Method of class.
+   */
+  private IntervalStringUtils( ) {}
+
+  /**
+   * Formats a period similar to Oracle INTERVAL YEAR TO MONTH data type<br>.
+   * For example, the string "+21-02" defines an interval of 21 years and 2 months.
+   */
+  public static String formatIntervalYear(final Period p) {
+    long months = p.getYears() * (long) DateUtility.yearsToMonths + p.getMonths();
+    boolean neg = false;
+    if (months < 0) {
+      months = -months;
+      neg = true;
+    }
+    final int years = (int) (months / DateUtility.yearsToMonths);
+    months = months % DateUtility.yearsToMonths;
+
+    return String.format("%c%03d-%02d", neg ? '-' : '+', years, months);
+  }
+
+  /**
+   * Formats a period similar to Oracle INTERVAL DAY TO SECOND data type.<br>.
+   * For example, the string "-001 18:25:16.766" defines an interval of
+   * - 1 day 18 hours 25 minutes 16 seconds and 766 milliseconds.
+   */
+  public static String formatIntervalDay(final Period p) {
+    long millis = p.getDays() * (long) DateUtility.daysToStandardMillis + millisFromPeriod(p);
+
+    boolean neg = false;
+    if (millis < 0) {
+      millis = -millis;
+      neg = true;
+    }
+
+    final int days = (int) (millis / DateUtility.daysToStandardMillis);
+    millis = millis % DateUtility.daysToStandardMillis;
+
+    final int hours = (int) (millis / DateUtility.hoursToMillis);
+    millis = millis % DateUtility.hoursToMillis;
+
+    final int minutes = (int) (millis / DateUtility.minutesToMillis);
+    millis = millis % DateUtility.minutesToMillis;
+
+    final int seconds = (int) (millis / DateUtility.secondsToMillis);
+    millis = millis % DateUtility.secondsToMillis;
+
+    return String.format("%c%03d %02d:%02d:%02d.%03d", neg ? '-' : '+', days, hours, minutes, seconds, millis);
+  }
+
+  public static int millisFromPeriod(Period period) {
+    return period.getHours() * DateUtility.hoursToMillis + period.getMinutes() * DateUtility.minutesToMillis +
+        period.getSeconds() * DateUtility.secondsToMillis + period.getMillis();
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/SqlTypes.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/SqlTypes.java
new file mode 100644
index 00000000000..85c3964303c
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/SqlTypes.java
@@ -0,0 +1,164 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import java.sql.Types;
+import java.util.HashMap;
+import java.util.Map;
+
+import org.apache.arrow.vector.types.FloatingPointPrecision;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+
+/**
+ * SQL Types utility functions.
+ */
+public class SqlTypes {
+  private static final Map<Integer, String> typeIdToName = new HashMap<>();
+
+  static {
+    typeIdToName.put(Types.BIT, "BIT");
+    typeIdToName.put(Types.TINYINT, "TINYINT");
+    typeIdToName.put(Types.SMALLINT, "SMALLINT");
+    typeIdToName.put(Types.INTEGER, "INTEGER");
+    typeIdToName.put(Types.BIGINT, "BIGINT");
+    typeIdToName.put(Types.FLOAT, "FLOAT");
+    typeIdToName.put(Types.REAL, "REAL");
+    typeIdToName.put(Types.DOUBLE, "DOUBLE");
+    typeIdToName.put(Types.NUMERIC, "NUMERIC");
+    typeIdToName.put(Types.DECIMAL, "DECIMAL");
+    typeIdToName.put(Types.CHAR, "CHAR");
+    typeIdToName.put(Types.VARCHAR, "VARCHAR");
+    typeIdToName.put(Types.LONGVARCHAR, "LONGVARCHAR");
+    typeIdToName.put(Types.DATE, "DATE");
+    typeIdToName.put(Types.TIME, "TIME");
+    typeIdToName.put(Types.TIMESTAMP, "TIMESTAMP");
+    typeIdToName.put(Types.BINARY, "BINARY");
+    typeIdToName.put(Types.VARBINARY, "VARBINARY");
+    typeIdToName.put(Types.LONGVARBINARY, "LONGVARBINARY");
+    typeIdToName.put(Types.NULL, "NULL");
+    typeIdToName.put(Types.OTHER, "OTHER");
+    typeIdToName.put(Types.JAVA_OBJECT, "JAVA_OBJECT");
+    typeIdToName.put(Types.DISTINCT, "DISTINCT");
+    typeIdToName.put(Types.STRUCT, "STRUCT");
+    typeIdToName.put(Types.ARRAY, "ARRAY");
+    typeIdToName.put(Types.BLOB, "BLOB");
+    typeIdToName.put(Types.CLOB, "CLOB");
+    typeIdToName.put(Types.REF, "REF");
+    typeIdToName.put(Types.DATALINK, "DATALINK");
+    typeIdToName.put(Types.BOOLEAN, "BOOLEAN");
+    typeIdToName.put(Types.ROWID, "ROWID");
+    typeIdToName.put(Types.NCHAR, "NCHAR");
+    typeIdToName.put(Types.NVARCHAR, "NVARCHAR");
+    typeIdToName.put(Types.LONGNVARCHAR, "LONGNVARCHAR");
+    typeIdToName.put(Types.NCLOB, "NCLOB");
+    typeIdToName.put(Types.SQLXML, "SQLXML");
+    typeIdToName.put(Types.REF_CURSOR, "REF_CURSOR");
+    typeIdToName.put(Types.TIME_WITH_TIMEZONE, "TIME_WITH_TIMEZONE");
+    typeIdToName.put(Types.TIMESTAMP_WITH_TIMEZONE, "TIMESTAMP_WITH_TIMEZONE");
+  }
+
+  /**
+   * Convert given {@link ArrowType} to its corresponding SQL type name.
+   *
+   * @param arrowType type to convert from
+   * @return corresponding SQL type name.
+   * @see java.sql.Types
+   */
+  public static String getSqlTypeNameFromArrowType(ArrowType arrowType) {
+    final int typeId = getSqlTypeIdFromArrowType(arrowType);
+    return typeIdToName.get(typeId);
+  }
+
+
+  /**
+   * Convert given {@link ArrowType} to its corresponding SQL type ID.
+   *
+   * @param arrowType type to convert from
+   * @return corresponding SQL type ID.
+   * @see java.sql.Types
+   */
+  public static int getSqlTypeIdFromArrowType(ArrowType arrowType) {
+    final ArrowType.ArrowTypeID typeID = arrowType.getTypeID();
+    switch (typeID) {
+      case Int:
+        final int bitWidth = ((ArrowType.Int) arrowType).getBitWidth();
+        switch (bitWidth) {
+          case 8:
+            return Types.TINYINT;
+          case 16:
+            return Types.SMALLINT;
+          case 32:
+            return Types.INTEGER;
+          case 64:
+            return Types.BIGINT;
+          default:
+            break;
+        }
+        break;
+      case Binary:
+        return Types.VARBINARY;
+      case FixedSizeBinary:
+        return Types.BINARY;
+      case LargeBinary:
+        return Types.LONGVARBINARY;
+      case Utf8:
+        return Types.VARCHAR;
+      case LargeUtf8:
+        return Types.LONGVARCHAR;
+      case Date:
+        return Types.DATE;
+      case Time:
+        return Types.TIME;
+      case Timestamp:
+        return Types.TIMESTAMP;
+      case Bool:
+        return Types.BOOLEAN;
+      case Decimal:
+        return Types.DECIMAL;
+      case FloatingPoint:
+        final FloatingPointPrecision floatingPointPrecision =
+            ((ArrowType.FloatingPoint) arrowType).getPrecision();
+        switch (floatingPointPrecision) {
+          case DOUBLE:
+            return Types.DOUBLE;
+          case SINGLE:
+            return Types.FLOAT;
+          default:
+            break;
+        }
+        break;
+      case List:
+      case FixedSizeList:
+      case LargeList:
+        return Types.ARRAY;
+      case Struct:
+      case Duration:
+      case Interval:
+      case Map:
+      case Union:
+        return Types.JAVA_OBJECT;
+      case NONE:
+      case Null:
+        return Types.NULL;
+      default:
+        break;
+    }
+
+    throw new IllegalArgumentException("Unsupported ArrowType " + arrowType);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/UrlParser.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/UrlParser.java
new file mode 100644
index 00000000000..e52251f5391
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/UrlParser.java
@@ -0,0 +1,65 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import java.io.UnsupportedEncodingException;
+import java.net.URLDecoder;
+import java.util.HashMap;
+import java.util.Map;
+
+/**
+ * URL Parser for extracting key values from a connection string.
+ */
+public final class UrlParser {
+  private UrlParser() {
+  }
+
+  /**
+   * Parse URL key value parameters.
+   *
+   * <p>URL-decodes keys and values.
+   *
+   * @param url {@link String}
+   * @return {@link Map}
+   */
+  public static Map<String, String> parse(String url, String separator) {
+    Map<String, String> resultMap = new HashMap<>();
+    if (url != null) {
+      String[] keyValues = url.split(separator);
+
+      for (String keyValue : keyValues) {
+        try {
+          int separatorKey = keyValue.indexOf("="); // Find the first equal sign to split key and value.
+          if (separatorKey != -1) { // Avoid crashes when not finding an equal sign in the property value.
+            String key = keyValue.substring(0, separatorKey);
+            key = URLDecoder.decode(key, "UTF-8");
+            String value = "";
+            if (!keyValue.endsWith("=")) { // Avoid crashes for empty values.
+              value = keyValue.substring(separatorKey + 1);
+            }
+            value = URLDecoder.decode(value, "UTF-8");
+            resultMap.put(key, value);
+          }
+        } catch (UnsupportedEncodingException e) {
+          throw new RuntimeException(e);
+        }
+      }
+    }
+    return resultMap;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/VectorSchemaRootTransformer.java b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/VectorSchemaRootTransformer.java
new file mode 100644
index 00000000000..3bab918c83a
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/java/org/apache/arrow/driver/jdbc/utils/VectorSchemaRootTransformer.java
@@ -0,0 +1,154 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import java.util.ArrayList;
+import java.util.Collection;
+import java.util.List;
+
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.vector.BaseFixedWidthVector;
+import org.apache.arrow.vector.BaseVariableWidthVector;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.types.Types;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.FieldType;
+import org.apache.arrow.vector.types.pojo.Schema;
+
+/**
+ * Converts Arrow's {@link VectorSchemaRoot} format to one JDBC would expect.
+ */
+@FunctionalInterface
+public interface VectorSchemaRootTransformer {
+  VectorSchemaRoot transform(VectorSchemaRoot originalRoot, VectorSchemaRoot transformedRoot)
+      throws Exception;
+
+  /**
+   * Transformer's helper class; builds a new {@link VectorSchemaRoot}.
+   */
+  class Builder {
+
+    private final Schema schema;
+    private final BufferAllocator bufferAllocator;
+    private final List<Field> newFields = new ArrayList<>();
+    private final Collection<Task> tasks = new ArrayList<>();
+
+    public Builder(final Schema schema, final BufferAllocator bufferAllocator) {
+      this.schema = schema;
+      this.bufferAllocator = bufferAllocator
+          .newChildAllocator("VectorSchemaRootTransformer", 0, bufferAllocator.getLimit());
+    }
+
+    /**
+     * Add task to transform a vector to a new vector renaming it.
+     * This also adds transformedVectorName to the transformed {@link VectorSchemaRoot} schema.
+     *
+     * @param originalVectorName    Name of the original vector to be transformed.
+     * @param transformedVectorName Name of the vector that is the result of the transformation.
+     * @return a VectorSchemaRoot instance with a task to rename a field vector.
+     */
+    public Builder renameFieldVector(final String originalVectorName,
+                                     final String transformedVectorName) {
+      tasks.add((originalRoot, transformedRoot) -> {
+        final FieldVector originalVector = originalRoot.getVector(originalVectorName);
+        final FieldVector transformedVector = transformedRoot.getVector(transformedVectorName);
+
+        final ArrowType originalType = originalVector.getField().getType();
+        final ArrowType transformedType = transformedVector.getField().getType();
+        if (!originalType.equals(transformedType)) {
+          throw new IllegalArgumentException(String.format(
+              "Can not transfer vector with field type %s to %s", originalType, transformedType));
+        }
+
+        if (originalVector instanceof BaseVariableWidthVector) {
+          ((BaseVariableWidthVector) originalVector).transferTo(
+              ((BaseVariableWidthVector) transformedVector));
+        } else if (originalVector instanceof BaseFixedWidthVector) {
+          ((BaseFixedWidthVector) originalVector).transferTo(
+              ((BaseFixedWidthVector) transformedVector));
+        } else {
+          throw new IllegalStateException(String.format(
+              "Can not transfer vector of type %s", originalVector.getClass()));
+        }
+      });
+
+      final Field originalField = schema.findField(originalVectorName);
+      newFields.add(new Field(
+          transformedVectorName,
+          new FieldType(originalField.isNullable(), originalField.getType(),
+              originalField.getDictionary(), originalField.getMetadata()),
+          originalField.getChildren())
+      );
+
+      return this;
+    }
+
+    /**
+     * Adds an empty field to the transformed {@link VectorSchemaRoot} schema.
+     *
+     * @param fieldName Name of the field to be added.
+     * @param fieldType Type of the field to be added.
+     * @return a VectorSchemaRoot instance with the current tasks.
+     */
+    public Builder addEmptyField(final String fieldName, final Types.MinorType fieldType) {
+      newFields.add(Field.nullable(fieldName, fieldType.getType()));
+
+      return this;
+    }
+
+    /**
+     * Adds an empty field to the transformed {@link VectorSchemaRoot} schema.
+     *
+     * @param fieldName Name of the field to be added.
+     * @param fieldType Type of the field to be added.
+     * @return a VectorSchemaRoot instance with the current tasks.
+     */
+    public Builder addEmptyField(final String fieldName, final ArrowType fieldType) {
+      newFields.add(Field.nullable(fieldName, fieldType));
+
+      return this;
+    }
+
+    public VectorSchemaRootTransformer build() {
+      return (originalRoot, transformedRoot) -> {
+        if (transformedRoot == null) {
+          transformedRoot = VectorSchemaRoot.create(new Schema(newFields), bufferAllocator);
+        }
+
+        for (final Task task : tasks) {
+          task.run(originalRoot, transformedRoot);
+        }
+
+        transformedRoot.setRowCount(originalRoot.getRowCount());
+
+        originalRoot.clear();
+        return transformedRoot;
+      };
+    }
+
+    /**
+     * Functional interface used to a task to transform a VectorSchemaRoot into a new VectorSchemaRoot.
+     */
+    @FunctionalInterface
+    interface Task {
+      void run(VectorSchemaRoot originalRoot, VectorSchemaRoot transformedRoot);
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/main/resources/META-INF/services/java.sql.Driver b/java/flight/flight-sql-jdbc-driver/src/main/resources/META-INF/services/java.sql.Driver
new file mode 100644
index 00000000000..83cfb23427f
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/main/resources/META-INF/services/java.sql.Driver
@@ -0,0 +1,15 @@
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements.  See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License.  You may obtain a copy of the License at
+#
+#    http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+org.apache.arrow.driver.jdbc.ArrowFlightJdbcDriver
\ No newline at end of file
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowDatabaseMetadataTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowDatabaseMetadataTest.java
new file mode 100644
index 00000000000..0d930f4c44e
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowDatabaseMetadataTest.java
@@ -0,0 +1,1423 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static com.google.protobuf.ByteString.copyFrom;
+import static java.lang.String.format;
+import static java.sql.Types.BIGINT;
+import static java.sql.Types.BIT;
+import static java.sql.Types.INTEGER;
+import static java.sql.Types.JAVA_OBJECT;
+import static java.util.Collections.singletonList;
+import static java.util.stream.Collectors.toList;
+import static java.util.stream.IntStream.range;
+import static org.apache.arrow.driver.jdbc.utils.MockFlightSqlProducer.serializeSchema;
+import static org.apache.arrow.flight.sql.impl.FlightSql.CommandGetCrossReference;
+import static org.apache.arrow.flight.sql.impl.FlightSql.SqlSupportsConvert.SQL_CONVERT_BIGINT_VALUE;
+import static org.apache.arrow.flight.sql.impl.FlightSql.SqlSupportsConvert.SQL_CONVERT_BIT_VALUE;
+import static org.apache.arrow.flight.sql.impl.FlightSql.SqlSupportsConvert.SQL_CONVERT_INTEGER_VALUE;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.sql.Connection;
+import java.sql.DatabaseMetaData;
+import java.sql.ResultSet;
+import java.sql.ResultSetMetaData;
+import java.sql.SQLException;
+import java.util.Arrays;
+import java.util.Collections;
+import java.util.HashMap;
+import java.util.List;
+import java.util.Map;
+import java.util.Objects;
+import java.util.function.Consumer;
+
+import org.apache.arrow.driver.jdbc.utils.MockFlightSqlProducer;
+import org.apache.arrow.driver.jdbc.utils.ResultSetTestUtils;
+import org.apache.arrow.driver.jdbc.utils.ThrowableAssertionUtils;
+import org.apache.arrow.flight.FlightProducer.ServerStreamListener;
+import org.apache.arrow.flight.sql.FlightSqlProducer.Schemas;
+import org.apache.arrow.flight.sql.impl.FlightSql;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetCatalogs;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetDbSchemas;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetExportedKeys;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetImportedKeys;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetPrimaryKeys;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetTableTypes;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetTables;
+import org.apache.arrow.flight.sql.impl.FlightSql.SqlSupportedSubqueries;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.UInt1Vector;
+import org.apache.arrow.vector.VarBinaryVector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.types.DateUnit;
+import org.apache.arrow.vector.types.FloatingPointPrecision;
+import org.apache.arrow.vector.types.TimeUnit;
+import org.apache.arrow.vector.types.Types;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.arrow.vector.util.Text;
+import org.junit.AfterClass;
+import org.junit.Assert;
+import org.junit.BeforeClass;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+import com.google.common.collect.ImmutableList;
+import com.google.common.collect.ImmutableMap;
+import com.google.protobuf.Message;
+
+/**
+ * Class containing the tests from the {@link ArrowDatabaseMetadata}.
+ */
+@SuppressWarnings("DoubleBraceInitialization")
+public class ArrowDatabaseMetadataTest {
+  public static final boolean EXPECTED_MAX_ROW_SIZE_INCLUDES_BLOBS = false;
+  private static final MockFlightSqlProducer FLIGHT_SQL_PRODUCER = new MockFlightSqlProducer();
+  @ClassRule
+  public static final FlightServerTestRule FLIGHT_SERVER_TEST_RULE = FlightServerTestRule
+      .createStandardTestRule(FLIGHT_SQL_PRODUCER);
+  private static final int ROW_COUNT = 10;
+  private static final List<List<Object>> EXPECTED_GET_CATALOGS_RESULTS =
+      range(0, ROW_COUNT)
+          .mapToObj(i -> format("catalog #%d", i))
+          .map(Object.class::cast)
+          .map(Collections::singletonList)
+          .collect(toList());
+  private static final List<List<Object>> EXPECTED_GET_TABLE_TYPES_RESULTS =
+      range(0, ROW_COUNT)
+          .mapToObj(i -> format("table_type #%d", i))
+          .map(Object.class::cast)
+          .map(Collections::singletonList)
+          .collect(toList());
+  private static final List<List<Object>> EXPECTED_GET_TABLES_RESULTS =
+      range(0, ROW_COUNT)
+          .mapToObj(i -> new Object[] {
+              format("catalog_name #%d", i),
+              format("db_schema_name #%d", i),
+              format("table_name #%d", i),
+              format("table_type #%d", i),
+              // TODO Add these fields to FlightSQL, as it's currently not possible to fetch them.
+              null, null, null, null, null, null})
+          .map(Arrays::asList)
+          .collect(toList());
+  private static final List<List<Object>> EXPECTED_GET_SCHEMAS_RESULTS =
+      range(0, ROW_COUNT)
+          .mapToObj(i -> new Object[] {
+              format("db_schema_name #%d", i),
+              format("catalog_name #%d", i)})
+          .map(Arrays::asList)
+          .collect(toList());
+  private static final List<List<Object>> EXPECTED_GET_EXPORTED_AND_IMPORTED_KEYS_RESULTS =
+      range(0, ROW_COUNT)
+          .mapToObj(i -> new Object[] {
+              format("pk_catalog_name #%d", i),
+              format("pk_db_schema_name #%d", i),
+              format("pk_table_name #%d", i),
+              format("pk_column_name #%d", i),
+              format("fk_catalog_name #%d", i),
+              format("fk_db_schema_name #%d", i),
+              format("fk_table_name #%d", i),
+              format("fk_column_name #%d", i),
+              i,
+              format("fk_key_name #%d", i),
+              format("pk_key_name #%d", i),
+              (byte) i,
+              (byte) i,
+              // TODO Add this field to FlightSQL, as it's currently not possible to fetch it.
+              null})
+          .map(Arrays::asList)
+          .collect(toList());
+  private static final List<List<Object>> EXPECTED_CROSS_REFERENCE_RESULTS =
+      EXPECTED_GET_EXPORTED_AND_IMPORTED_KEYS_RESULTS;
+  private static final List<List<Object>> EXPECTED_PRIMARY_KEYS_RESULTS =
+      range(0, ROW_COUNT)
+          .mapToObj(i -> new Object[] {
+              format("catalog_name #%d", i),
+              format("db_schema_name #%d", i),
+              format("table_name #%d", i),
+              format("column_name #%d", i),
+              i,
+              format("key_name #%d", i)})
+          .map(Arrays::asList)
+          .collect(toList());
+  private static final List<String> FIELDS_GET_IMPORTED_EXPORTED_KEYS = ImmutableList.of(
+      "PKTABLE_CAT", "PKTABLE_SCHEM", "PKTABLE_NAME",
+      "PKCOLUMN_NAME", "FKTABLE_CAT", "FKTABLE_SCHEM",
+      "FKTABLE_NAME", "FKCOLUMN_NAME", "KEY_SEQ",
+      "FK_NAME", "PK_NAME", "UPDATE_RULE", "DELETE_RULE",
+      "DEFERRABILITY");
+  private static final List<String> FIELDS_GET_CROSS_REFERENCE = FIELDS_GET_IMPORTED_EXPORTED_KEYS;
+  private static final String TARGET_TABLE = "TARGET_TABLE";
+  private static final String TARGET_FOREIGN_TABLE = "FOREIGN_TABLE";
+  private static final String EXPECTED_DATABASE_PRODUCT_NAME = "Test Server Name";
+  private static final String EXPECTED_DATABASE_PRODUCT_VERSION = "v0.0.1-alpha";
+  private static final String EXPECTED_IDENTIFIER_QUOTE_STRING = "\"";
+  private static final boolean EXPECTED_IS_READ_ONLY = true;
+  private static final String EXPECTED_SQL_KEYWORDS =
+      "ADD, ADD CONSTRAINT, ALTER, ALTER TABLE, ANY, USER, TABLE";
+  private static final String EXPECTED_NUMERIC_FUNCTIONS =
+      "ABS(), ACOS(), ASIN(), ATAN(), CEIL(), CEILING(), COT()";
+  private static final String EXPECTED_STRING_FUNCTIONS =
+      "ASCII, CHAR, CHARINDEX, CONCAT, CONCAT_WS, FORMAT, LEFT";
+  private static final String EXPECTED_SYSTEM_FUNCTIONS =
+      "CAST, CONVERT, CHOOSE, ISNULL, IS_NUMERIC, IIF, TRY_CAST";
+  private static final String EXPECTED_TIME_DATE_FUNCTIONS =
+      "GETDATE(), DATEPART(), DATEADD(), DATEDIFF()";
+  private static final String EXPECTED_SEARCH_STRING_ESCAPE = "\\";
+  private static final String EXPECTED_EXTRA_NAME_CHARACTERS = "";
+  private static final boolean EXPECTED_SUPPORTS_COLUMN_ALIASING = true;
+  private static final boolean EXPECTED_NULL_PLUS_NULL_IS_NULL = true;
+  private static final boolean EXPECTED_SQL_SUPPORTS_CONVERT = true;
+  private static final boolean EXPECTED_INVALID_SQL_SUPPORTS_CONVERT = false;
+  private static final boolean EXPECTED_SUPPORTS_TABLE_CORRELATION_NAMES = true;
+  private static final boolean EXPECTED_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES = false;
+  private static final boolean EXPECTED_EXPRESSIONS_IN_ORDER_BY = true;
+  private static final boolean EXPECTED_SUPPORTS_ORDER_BY_UNRELATED = true;
+  private static final boolean EXPECTED_SUPPORTS_GROUP_BY = true;
+  private static final boolean EXPECTED_SUPPORTS_GROUP_BY_UNRELATED = true;
+  private static final boolean EXPECTED_SUPPORTS_LIKE_ESCAPE_CLAUSE = true;
+  private static final boolean EXPECTED_NON_NULLABLE_COLUMNS = true;
+  private static final boolean EXPECTED_MINIMUM_SQL_GRAMMAR = true;
+  private static final boolean EXPECTED_CORE_SQL_GRAMMAR = true;
+  private static final boolean EXPECTED_EXTEND_SQL_GRAMMAR = false;
+  private static final boolean EXPECTED_ANSI92_ENTRY_LEVEL_SQL = true;
+  private static final boolean EXPECTED_ANSI92_INTERMEDIATE_SQL = true;
+  private static final boolean EXPECTED_ANSI92_FULL_SQL = false;
+  private static final String EXPECTED_SCHEMA_TERM = "schema";
+  private static final String EXPECTED_PROCEDURE_TERM = "procedure";
+  private static final String EXPECTED_CATALOG_TERM = "catalog";
+  private static final boolean EXPECTED_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY = true;
+  private static final boolean EXPECTED_SUPPORTS_OUTER_JOINS = true;
+  private static final boolean EXPECTED_SUPPORTS_FULL_OUTER_JOINS = true;
+  private static final boolean EXPECTED_SUPPORTS_LIMITED_JOINS = false;
+  private static final boolean EXPECTED_CATALOG_AT_START = true;
+  private static final boolean EXPECTED_SCHEMAS_IN_PROCEDURE_CALLS = true;
+  private static final boolean EXPECTED_SCHEMAS_IN_INDEX_DEFINITIONS = true;
+  private static final boolean EXPECTED_SCHEMAS_IN_PRIVILEGE_DEFINITIONS = false;
+  private static final boolean EXPECTED_CATALOGS_IN_INDEX_DEFINITIONS = true;
+  private static final boolean EXPECTED_CATALOGS_IN_PRIVILEGE_DEFINITIONS = false;
+  private static final boolean EXPECTED_POSITIONED_DELETE = true;
+  private static final boolean EXPECTED_POSITIONED_UPDATE = false;
+  private static final boolean EXPECTED_TYPE_FORWARD_ONLY = true;
+  private static final boolean EXPECTED_TYPE_SCROLL_INSENSITIVE = true;
+  private static final boolean EXPECTED_TYPE_SCROLL_SENSITIVE = false;
+  private static final boolean EXPECTED_SELECT_FOR_UPDATE_SUPPORTED = false;
+  private static final boolean EXPECTED_STORED_PROCEDURES_SUPPORTED = false;
+  private static final boolean EXPECTED_SUBQUERIES_IN_COMPARISON = true;
+  private static final boolean EXPECTED_SUBQUERIES_IN_EXISTS = false;
+  private static final boolean EXPECTED_SUBQUERIES_IN_INS = false;
+  private static final boolean EXPECTED_SUBQUERIES_IN_QUANTIFIEDS = false;
+  private static final SqlSupportedSubqueries[] EXPECTED_SUPPORTED_SUBQUERIES = new SqlSupportedSubqueries[]
+      {SqlSupportedSubqueries.SQL_SUBQUERIES_IN_COMPARISONS};
+  private static final boolean EXPECTED_CORRELATED_SUBQUERIES_SUPPORTED = true;
+  private static final boolean EXPECTED_SUPPORTS_UNION = true;
+  private static final boolean EXPECTED_SUPPORTS_UNION_ALL = true;
+  private static final int EXPECTED_MAX_BINARY_LITERAL_LENGTH = 0;
+  private static final int EXPECTED_MAX_CHAR_LITERAL_LENGTH = 0;
+  private static final int EXPECTED_MAX_COLUMN_NAME_LENGTH = 1024;
+  private static final int EXPECTED_MAX_COLUMNS_IN_GROUP_BY = 0;
+  private static final int EXPECTED_MAX_COLUMNS_IN_INDEX = 0;
+  private static final int EXPECTED_MAX_COLUMNS_IN_ORDER_BY = 0;
+  private static final int EXPECTED_MAX_COLUMNS_IN_SELECT = 0;
+  private static final int EXPECTED_MAX_CONNECTIONS = 0;
+  private static final int EXPECTED_MAX_CURSOR_NAME_LENGTH = 1024;
+  private static final int EXPECTED_MAX_INDEX_LENGTH = 0;
+  private static final int EXPECTED_SCHEMA_NAME_LENGTH = 1024;
+  private static final int EXPECTED_MAX_PROCEDURE_NAME_LENGTH = 0;
+  private static final int EXPECTED_MAX_CATALOG_NAME_LENGTH = 1024;
+  private static final int EXPECTED_MAX_ROW_SIZE = 0;
+  private static final int EXPECTED_MAX_STATEMENT_LENGTH = 0;
+  private static final int EXPECTED_MAX_STATEMENTS = 0;
+  private static final int EXPECTED_MAX_TABLE_NAME_LENGTH = 1024;
+  private static final int EXPECTED_MAX_TABLES_IN_SELECT = 0;
+  private static final int EXPECTED_MAX_USERNAME_LENGTH = 1024;
+  private static final int EXPECTED_DEFAULT_TRANSACTION_ISOLATION = 0;
+  private static final boolean EXPECTED_TRANSACTIONS_SUPPORTED = false;
+  private static final boolean EXPECTED_TRANSACTION_NONE = false;
+  private static final boolean EXPECTED_TRANSACTION_READ_UNCOMMITTED = false;
+  private static final boolean EXPECTED_TRANSACTION_READ_COMMITTED = true;
+  private static final boolean EXPECTED_TRANSACTION_REPEATABLE_READ = false;
+  private static final boolean EXPECTED_TRANSACTION_SERIALIZABLE = true;
+  private static final boolean EXPECTED_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT = true;
+  private static final boolean EXPECTED_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED = false;
+  private static final boolean EXPECTED_BATCH_UPDATES_SUPPORTED = true;
+  private static final boolean EXPECTED_SAVEPOINTS_SUPPORTED = false;
+  private static final boolean EXPECTED_NAMED_PARAMETERS_SUPPORTED = false;
+  private static final boolean EXPECTED_LOCATORS_UPDATE_COPY = true;
+  private static final boolean EXPECTED_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED = false;
+  private static final List<List<Object>> EXPECTED_GET_COLUMNS_RESULTS;
+  private static Connection connection;
+
+  static {
+    List<Integer> expectedGetColumnsDataTypes = Arrays.asList(3, 93, 4);
+    List<String> expectedGetColumnsTypeName = Arrays.asList("DECIMAL", "TIMESTAMP", "INTEGER");
+    List<Integer> expectedGetColumnsRadix = Arrays.asList(10, null, 10);
+    List<Integer> expectedGetColumnsColumnSize = Arrays.asList(5, 29, 10);
+    List<Integer> expectedGetColumnsDecimalDigits = Arrays.asList(2, 9, 0);
+    List<String> expectedGetColumnsIsNullable = Arrays.asList("YES", "YES", "NO");
+    EXPECTED_GET_COLUMNS_RESULTS = range(0, ROW_COUNT * 3)
+        .mapToObj(i -> new Object[] {
+            format("catalog_name #%d", i / 3),
+            format("db_schema_name #%d", i / 3),
+            format("table_name%d", i / 3),
+            format("column_%d", (i % 3) + 1),
+            expectedGetColumnsDataTypes.get(i % 3),
+            expectedGetColumnsTypeName.get(i % 3),
+            expectedGetColumnsColumnSize.get(i % 3),
+            null,
+            expectedGetColumnsDecimalDigits.get(i % 3),
+            expectedGetColumnsRadix.get(i % 3),
+            !Objects.equals(expectedGetColumnsIsNullable.get(i % 3), "NO") ? 1 : 0,
+            null, null, null, null, null,
+            (i % 3) + 1,
+            expectedGetColumnsIsNullable.get(i % 3),
+            null, null, null, null,
+            "", ""})
+        .map(Arrays::asList)
+        .collect(toList());
+  }
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+  public final ResultSetTestUtils resultSetTestUtils = new ResultSetTestUtils(collector);
+
+  @BeforeClass
+  public static void setUpBeforeClass() throws SQLException {
+    connection = FLIGHT_SERVER_TEST_RULE.getConnection(false);
+
+    final Message commandGetCatalogs = CommandGetCatalogs.getDefaultInstance();
+    final Consumer<ServerStreamListener> commandGetCatalogsResultProducer = listener -> {
+      try (final BufferAllocator allocator = new RootAllocator();
+           final VectorSchemaRoot root = VectorSchemaRoot.create(Schemas.GET_CATALOGS_SCHEMA,
+               allocator)) {
+        final VarCharVector catalogName = (VarCharVector) root.getVector("catalog_name");
+        range(0, ROW_COUNT).forEach(
+            i -> catalogName.setSafe(i, new Text(format("catalog #%d", i))));
+        root.setRowCount(ROW_COUNT);
+        listener.start(root);
+        listener.putNext();
+      } catch (final Throwable throwable) {
+        listener.error(throwable);
+      } finally {
+        listener.completed();
+      }
+    };
+    FLIGHT_SQL_PRODUCER.addCatalogQuery(commandGetCatalogs, commandGetCatalogsResultProducer);
+
+    final Message commandGetTableTypes = CommandGetTableTypes.getDefaultInstance();
+    final Consumer<ServerStreamListener> commandGetTableTypesResultProducer = listener -> {
+      try (final BufferAllocator allocator = new RootAllocator();
+           final VectorSchemaRoot root = VectorSchemaRoot.create(Schemas.GET_TABLE_TYPES_SCHEMA,
+               allocator)) {
+        final VarCharVector tableType = (VarCharVector) root.getVector("table_type");
+        range(0, ROW_COUNT).forEach(
+            i -> tableType.setSafe(i, new Text(format("table_type #%d", i))));
+        root.setRowCount(ROW_COUNT);
+        listener.start(root);
+        listener.putNext();
+      } catch (final Throwable throwable) {
+        listener.error(throwable);
+      } finally {
+        listener.completed();
+      }
+    };
+    FLIGHT_SQL_PRODUCER.addCatalogQuery(commandGetTableTypes, commandGetTableTypesResultProducer);
+
+    final Message commandGetTables = CommandGetTables.getDefaultInstance();
+    final Consumer<ServerStreamListener> commandGetTablesResultProducer = listener -> {
+      try (final BufferAllocator allocator = new RootAllocator();
+           final VectorSchemaRoot root = VectorSchemaRoot.create(
+               Schemas.GET_TABLES_SCHEMA_NO_SCHEMA, allocator)) {
+        final VarCharVector catalogName = (VarCharVector) root.getVector("catalog_name");
+        final VarCharVector schemaName = (VarCharVector) root.getVector("db_schema_name");
+        final VarCharVector tableName = (VarCharVector) root.getVector("table_name");
+        final VarCharVector tableType = (VarCharVector) root.getVector("table_type");
+        range(0, ROW_COUNT)
+            .peek(i -> catalogName.setSafe(i, new Text(format("catalog_name #%d", i))))
+            .peek(i -> schemaName.setSafe(i, new Text(format("db_schema_name #%d", i))))
+            .peek(i -> tableName.setSafe(i, new Text(format("table_name #%d", i))))
+            .forEach(i -> tableType.setSafe(i, new Text(format("table_type #%d", i))));
+        root.setRowCount(ROW_COUNT);
+        listener.start(root);
+        listener.putNext();
+      } catch (final Throwable throwable) {
+        listener.error(throwable);
+      } finally {
+        listener.completed();
+      }
+    };
+    FLIGHT_SQL_PRODUCER.addCatalogQuery(commandGetTables, commandGetTablesResultProducer);
+
+    final Message commandGetTablesWithSchema = CommandGetTables.newBuilder()
+        .setIncludeSchema(true)
+        .build();
+    final Consumer<ServerStreamListener> commandGetTablesWithSchemaResultProducer = listener -> {
+      try (final BufferAllocator allocator = new RootAllocator();
+           final VectorSchemaRoot root = VectorSchemaRoot.create(Schemas.GET_TABLES_SCHEMA,
+               allocator)) {
+        final byte[] filledTableSchemaBytes =
+            copyFrom(
+                serializeSchema(new Schema(Arrays.asList(
+                    Field.nullable("column_1", ArrowType.Decimal.createDecimal(5, 2, 128)),
+                    Field.nullable("column_2", new ArrowType.Timestamp(TimeUnit.NANOSECOND, "UTC")),
+                    Field.notNullable("column_3", Types.MinorType.INT.getType())))))
+                .toByteArray();
+        final VarCharVector catalogName = (VarCharVector) root.getVector("catalog_name");
+        final VarCharVector schemaName = (VarCharVector) root.getVector("db_schema_name");
+        final VarCharVector tableName = (VarCharVector) root.getVector("table_name");
+        final VarCharVector tableType = (VarCharVector) root.getVector("table_type");
+        final VarBinaryVector tableSchema = (VarBinaryVector) root.getVector("table_schema");
+        range(0, ROW_COUNT)
+            .peek(i -> catalogName.setSafe(i, new Text(format("catalog_name #%d", i))))
+            .peek(i -> schemaName.setSafe(i, new Text(format("db_schema_name #%d", i))))
+            .peek(i -> tableName.setSafe(i, new Text(format("table_name%d", i))))
+            .peek(i -> tableType.setSafe(i, new Text(format("table_type #%d", i))))
+            .forEach(i -> tableSchema.setSafe(i, filledTableSchemaBytes));
+        root.setRowCount(ROW_COUNT);
+        listener.start(root);
+        listener.putNext();
+      } catch (final Throwable throwable) {
+        listener.error(throwable);
+      } finally {
+        listener.completed();
+      }
+    };
+    FLIGHT_SQL_PRODUCER.addCatalogQuery(commandGetTablesWithSchema,
+        commandGetTablesWithSchemaResultProducer);
+
+    final Message commandGetDbSchemas = CommandGetDbSchemas.getDefaultInstance();
+    final Consumer<ServerStreamListener> commandGetSchemasResultProducer = listener -> {
+      try (final BufferAllocator allocator = new RootAllocator();
+           final VectorSchemaRoot root = VectorSchemaRoot.create(Schemas.GET_SCHEMAS_SCHEMA,
+               allocator)) {
+        final VarCharVector catalogName = (VarCharVector) root.getVector("catalog_name");
+        final VarCharVector schemaName = (VarCharVector) root.getVector("db_schema_name");
+        range(0, ROW_COUNT)
+            .peek(i -> catalogName.setSafe(i, new Text(format("catalog_name #%d", i))))
+            .forEach(i -> schemaName.setSafe(i, new Text(format("db_schema_name #%d", i))));
+        root.setRowCount(ROW_COUNT);
+        listener.start(root);
+        listener.putNext();
+      } catch (final Throwable throwable) {
+        listener.error(throwable);
+      } finally {
+        listener.completed();
+      }
+    };
+    FLIGHT_SQL_PRODUCER.addCatalogQuery(commandGetDbSchemas, commandGetSchemasResultProducer);
+
+    final Message commandGetExportedKeys =
+        CommandGetExportedKeys.newBuilder().setTable(TARGET_TABLE).build();
+    final Message commandGetImportedKeys =
+        CommandGetImportedKeys.newBuilder().setTable(TARGET_TABLE).build();
+    final Message commandGetCrossReference = CommandGetCrossReference.newBuilder()
+        .setPkTable(TARGET_TABLE)
+        .setFkTable(TARGET_FOREIGN_TABLE)
+        .build();
+    final Consumer<ServerStreamListener> commandGetExportedAndImportedKeysResultProducer =
+        listener -> {
+          try (final BufferAllocator allocator = new RootAllocator();
+               final VectorSchemaRoot root = VectorSchemaRoot.create(
+                   Schemas.GET_IMPORTED_KEYS_SCHEMA,
+                   allocator)) {
+            final VarCharVector pkCatalogName = (VarCharVector) root.getVector("pk_catalog_name");
+            final VarCharVector pkSchemaName = (VarCharVector) root.getVector("pk_db_schema_name");
+            final VarCharVector pkTableName = (VarCharVector) root.getVector("pk_table_name");
+            final VarCharVector pkColumnName = (VarCharVector) root.getVector("pk_column_name");
+            final VarCharVector fkCatalogName = (VarCharVector) root.getVector("fk_catalog_name");
+            final VarCharVector fkSchemaName = (VarCharVector) root.getVector("fk_db_schema_name");
+            final VarCharVector fkTableName = (VarCharVector) root.getVector("fk_table_name");
+            final VarCharVector fkColumnName = (VarCharVector) root.getVector("fk_column_name");
+            final IntVector keySequence = (IntVector) root.getVector("key_sequence");
+            final VarCharVector fkKeyName = (VarCharVector) root.getVector("fk_key_name");
+            final VarCharVector pkKeyName = (VarCharVector) root.getVector("pk_key_name");
+            final UInt1Vector updateRule = (UInt1Vector) root.getVector("update_rule");
+            final UInt1Vector deleteRule = (UInt1Vector) root.getVector("delete_rule");
+            range(0, ROW_COUNT)
+                .peek(i -> pkCatalogName.setSafe(i, new Text(format("pk_catalog_name #%d", i))))
+                .peek(i -> pkSchemaName.setSafe(i, new Text(format("pk_db_schema_name #%d", i))))
+                .peek(i -> pkTableName.setSafe(i, new Text(format("pk_table_name #%d", i))))
+                .peek(i -> pkColumnName.setSafe(i, new Text(format("pk_column_name #%d", i))))
+                .peek(i -> fkCatalogName.setSafe(i, new Text(format("fk_catalog_name #%d", i))))
+                .peek(i -> fkSchemaName.setSafe(i, new Text(format("fk_db_schema_name #%d", i))))
+                .peek(i -> fkTableName.setSafe(i, new Text(format("fk_table_name #%d", i))))
+                .peek(i -> fkColumnName.setSafe(i, new Text(format("fk_column_name #%d", i))))
+                .peek(i -> keySequence.setSafe(i, i))
+                .peek(i -> fkKeyName.setSafe(i, new Text(format("fk_key_name #%d", i))))
+                .peek(i -> pkKeyName.setSafe(i, new Text(format("pk_key_name #%d", i))))
+                .peek(i -> updateRule.setSafe(i, i))
+                .forEach(i -> deleteRule.setSafe(i, i));
+            root.setRowCount(ROW_COUNT);
+            listener.start(root);
+            listener.putNext();
+          } catch (final Throwable throwable) {
+            listener.error(throwable);
+          } finally {
+            listener.completed();
+          }
+        };
+    FLIGHT_SQL_PRODUCER.addCatalogQuery(commandGetExportedKeys,
+        commandGetExportedAndImportedKeysResultProducer);
+    FLIGHT_SQL_PRODUCER.addCatalogQuery(commandGetImportedKeys,
+        commandGetExportedAndImportedKeysResultProducer);
+    FLIGHT_SQL_PRODUCER.addCatalogQuery(commandGetCrossReference,
+        commandGetExportedAndImportedKeysResultProducer);
+
+    final Message commandGetPrimaryKeys =
+        CommandGetPrimaryKeys.newBuilder().setTable(TARGET_TABLE).build();
+    final Consumer<ServerStreamListener> commandGetPrimaryKeysResultProducer = listener -> {
+      try (final BufferAllocator allocator = new RootAllocator();
+           final VectorSchemaRoot root = VectorSchemaRoot.create(Schemas.GET_PRIMARY_KEYS_SCHEMA,
+               allocator)) {
+        final VarCharVector catalogName = (VarCharVector) root.getVector("catalog_name");
+        final VarCharVector schemaName = (VarCharVector) root.getVector("db_schema_name");
+        final VarCharVector tableName = (VarCharVector) root.getVector("table_name");
+        final VarCharVector columnName = (VarCharVector) root.getVector("column_name");
+        final IntVector keySequence = (IntVector) root.getVector("key_sequence");
+        final VarCharVector keyName = (VarCharVector) root.getVector("key_name");
+        range(0, ROW_COUNT)
+            .peek(i -> catalogName.setSafe(i, new Text(format("catalog_name #%d", i))))
+            .peek(i -> schemaName.setSafe(i, new Text(format("db_schema_name #%d", i))))
+            .peek(i -> tableName.setSafe(i, new Text(format("table_name #%d", i))))
+            .peek(i -> columnName.setSafe(i, new Text(format("column_name #%d", i))))
+            .peek(i -> keySequence.setSafe(i, i))
+            .forEach(i -> keyName.setSafe(i, new Text(format("key_name #%d", i))));
+        root.setRowCount(ROW_COUNT);
+        listener.start(root);
+        listener.putNext();
+      } catch (final Throwable throwable) {
+        listener.error(throwable);
+      } finally {
+        listener.completed();
+      }
+    };
+    FLIGHT_SQL_PRODUCER.addCatalogQuery(commandGetPrimaryKeys, commandGetPrimaryKeysResultProducer);
+
+    FLIGHT_SQL_PRODUCER.getSqlInfoBuilder()
+        .withSqlOuterJoinSupportLevel(FlightSql.SqlOuterJoinsSupportLevel.SQL_FULL_OUTER_JOINS)
+        .withFlightSqlServerName(EXPECTED_DATABASE_PRODUCT_NAME)
+        .withFlightSqlServerVersion(EXPECTED_DATABASE_PRODUCT_VERSION)
+        .withSqlIdentifierQuoteChar(EXPECTED_IDENTIFIER_QUOTE_STRING)
+        .withFlightSqlServerReadOnly(EXPECTED_IS_READ_ONLY)
+        .withSqlKeywords(EXPECTED_SQL_KEYWORDS.split("\\s*,\\s*"))
+        .withSqlNumericFunctions(EXPECTED_NUMERIC_FUNCTIONS.split("\\s*,\\s*"))
+        .withSqlStringFunctions(EXPECTED_STRING_FUNCTIONS.split("\\s*,\\s*"))
+        .withSqlSystemFunctions(EXPECTED_SYSTEM_FUNCTIONS.split("\\s*,\\s*"))
+        .withSqlDatetimeFunctions(EXPECTED_TIME_DATE_FUNCTIONS.split("\\s*,\\s*"))
+        .withSqlSearchStringEscape(EXPECTED_SEARCH_STRING_ESCAPE)
+        .withSqlExtraNameCharacters(EXPECTED_EXTRA_NAME_CHARACTERS)
+        .withSqlSupportsColumnAliasing(EXPECTED_SUPPORTS_COLUMN_ALIASING)
+        .withSqlNullPlusNullIsNull(EXPECTED_NULL_PLUS_NULL_IS_NULL)
+        .withSqlSupportsConvert(ImmutableMap.of(SQL_CONVERT_BIT_VALUE,
+            Arrays.asList(SQL_CONVERT_INTEGER_VALUE, SQL_CONVERT_BIGINT_VALUE)))
+        .withSqlSupportsTableCorrelationNames(EXPECTED_SUPPORTS_TABLE_CORRELATION_NAMES)
+        .withSqlSupportsDifferentTableCorrelationNames(
+            EXPECTED_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES)
+        .withSqlSupportsExpressionsInOrderBy(EXPECTED_EXPRESSIONS_IN_ORDER_BY)
+        .withSqlSupportsOrderByUnrelated(EXPECTED_SUPPORTS_ORDER_BY_UNRELATED)
+        .withSqlSupportedGroupBy(FlightSql.SqlSupportedGroupBy.SQL_GROUP_BY_UNRELATED)
+        .withSqlSupportsLikeEscapeClause(EXPECTED_SUPPORTS_LIKE_ESCAPE_CLAUSE)
+        .withSqlSupportsNonNullableColumns(EXPECTED_NON_NULLABLE_COLUMNS)
+        .withSqlSupportedGrammar(FlightSql.SupportedSqlGrammar.SQL_CORE_GRAMMAR,
+            FlightSql.SupportedSqlGrammar.SQL_MINIMUM_GRAMMAR)
+        .withSqlAnsi92SupportedLevel(FlightSql.SupportedAnsi92SqlGrammarLevel.ANSI92_ENTRY_SQL,
+            FlightSql.SupportedAnsi92SqlGrammarLevel.ANSI92_INTERMEDIATE_SQL)
+        .withSqlSupportsIntegrityEnhancementFacility(
+            EXPECTED_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY)
+        .withSqlSchemaTerm(EXPECTED_SCHEMA_TERM)
+        .withSqlCatalogTerm(EXPECTED_CATALOG_TERM)
+        .withSqlProcedureTerm(EXPECTED_PROCEDURE_TERM)
+        .withSqlCatalogAtStart(EXPECTED_CATALOG_AT_START)
+        .withSqlSchemasSupportedActions(
+            FlightSql.SqlSupportedElementActions.SQL_ELEMENT_IN_PROCEDURE_CALLS,
+            FlightSql.SqlSupportedElementActions.SQL_ELEMENT_IN_INDEX_DEFINITIONS)
+        .withSqlCatalogsSupportedActions(
+            FlightSql.SqlSupportedElementActions.SQL_ELEMENT_IN_INDEX_DEFINITIONS)
+        .withSqlSupportedPositionedCommands(
+            FlightSql.SqlSupportedPositionedCommands.SQL_POSITIONED_DELETE)
+        .withSqlSelectForUpdateSupported(EXPECTED_SELECT_FOR_UPDATE_SUPPORTED)
+        .withSqlStoredProceduresSupported(EXPECTED_STORED_PROCEDURES_SUPPORTED)
+        .withSqlSubQueriesSupported(EXPECTED_SUPPORTED_SUBQUERIES)
+        .withSqlCorrelatedSubqueriesSupported(EXPECTED_CORRELATED_SUBQUERIES_SUPPORTED)
+        .withSqlSupportedUnions(FlightSql.SqlSupportedUnions.SQL_UNION_ALL)
+        .withSqlMaxBinaryLiteralLength(EXPECTED_MAX_BINARY_LITERAL_LENGTH)
+        .withSqlMaxCharLiteralLength(EXPECTED_MAX_CHAR_LITERAL_LENGTH)
+        .withSqlMaxColumnNameLength(EXPECTED_MAX_COLUMN_NAME_LENGTH)
+        .withSqlMaxColumnsInGroupBy(EXPECTED_MAX_COLUMNS_IN_GROUP_BY)
+        .withSqlMaxColumnsInIndex(EXPECTED_MAX_COLUMNS_IN_INDEX)
+        .withSqlMaxColumnsInOrderBy(EXPECTED_MAX_COLUMNS_IN_ORDER_BY)
+        .withSqlMaxColumnsInSelect(EXPECTED_MAX_COLUMNS_IN_SELECT)
+        .withSqlMaxConnections(EXPECTED_MAX_CONNECTIONS)
+        .withSqlMaxCursorNameLength(EXPECTED_MAX_CURSOR_NAME_LENGTH)
+        .withSqlMaxIndexLength(EXPECTED_MAX_INDEX_LENGTH)
+        .withSqlDbSchemaNameLength(EXPECTED_SCHEMA_NAME_LENGTH)
+        .withSqlMaxProcedureNameLength(EXPECTED_MAX_PROCEDURE_NAME_LENGTH)
+        .withSqlMaxCatalogNameLength(EXPECTED_MAX_CATALOG_NAME_LENGTH)
+        .withSqlMaxRowSize(EXPECTED_MAX_ROW_SIZE)
+        .withSqlMaxRowSizeIncludesBlobs(EXPECTED_MAX_ROW_SIZE_INCLUDES_BLOBS)
+        .withSqlMaxStatementLength(EXPECTED_MAX_STATEMENT_LENGTH)
+        .withSqlMaxStatements(EXPECTED_MAX_STATEMENTS)
+        .withSqlMaxTableNameLength(EXPECTED_MAX_TABLE_NAME_LENGTH)
+        .withSqlMaxTablesInSelect(EXPECTED_MAX_TABLES_IN_SELECT)
+        .withSqlMaxUsernameLength(EXPECTED_MAX_USERNAME_LENGTH)
+        .withSqlDefaultTransactionIsolation(EXPECTED_DEFAULT_TRANSACTION_ISOLATION)
+        .withSqlTransactionsSupported(EXPECTED_TRANSACTIONS_SUPPORTED)
+        .withSqlSupportedTransactionsIsolationLevels(
+            FlightSql.SqlTransactionIsolationLevel.SQL_TRANSACTION_SERIALIZABLE,
+            FlightSql.SqlTransactionIsolationLevel.SQL_TRANSACTION_READ_COMMITTED)
+        .withSqlDataDefinitionCausesTransactionCommit(
+            EXPECTED_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT)
+        .withSqlDataDefinitionsInTransactionsIgnored(
+            EXPECTED_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED)
+        .withSqlSupportedResultSetTypes(
+            FlightSql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_FORWARD_ONLY,
+            FlightSql.SqlSupportedResultSetType.SQL_RESULT_SET_TYPE_SCROLL_INSENSITIVE)
+        .withSqlBatchUpdatesSupported(EXPECTED_BATCH_UPDATES_SUPPORTED)
+        .withSqlSavepointsSupported(EXPECTED_SAVEPOINTS_SUPPORTED)
+        .withSqlNamedParametersSupported(EXPECTED_NAMED_PARAMETERS_SUPPORTED)
+        .withSqlLocatorsUpdateCopy(EXPECTED_LOCATORS_UPDATE_COPY)
+        .withSqlStoredFunctionsUsingCallSyntaxSupported(
+            EXPECTED_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED);
+  }
+
+  @AfterClass
+  public static void tearDown() throws Exception {
+    AutoCloseables.close(connection, FLIGHT_SQL_PRODUCER);
+  }
+
+
+  @Test
+  public void testGetCatalogsCanBeAccessedByIndices() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData().getCatalogs()) {
+      resultSetTestUtils.testData(resultSet, EXPECTED_GET_CATALOGS_RESULTS);
+    }
+  }
+
+  @Test
+  public void testGetCatalogsCanBeAccessedByNames() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData().getCatalogs()) {
+      resultSetTestUtils.testData(resultSet, singletonList("TABLE_CAT"),
+          EXPECTED_GET_CATALOGS_RESULTS);
+    }
+  }
+
+  @Test
+  public void testTableTypesCanBeAccessedByIndices() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData().getTableTypes()) {
+      resultSetTestUtils.testData(resultSet, EXPECTED_GET_TABLE_TYPES_RESULTS);
+    }
+  }
+
+  @Test
+  public void testTableTypesCanBeAccessedByNames() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData().getTableTypes()) {
+      resultSetTestUtils.testData(resultSet, singletonList("TABLE_TYPE"),
+          EXPECTED_GET_TABLE_TYPES_RESULTS);
+    }
+  }
+
+  @Test
+  public void testGetTablesCanBeAccessedByIndices() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData().getTables(null, null, null, null)) {
+      resultSetTestUtils.testData(resultSet, EXPECTED_GET_TABLES_RESULTS);
+    }
+  }
+
+  @Test
+  public void testGetTablesCanBeAccessedByNames() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData().getTables(null, null, null, null)) {
+      resultSetTestUtils.testData(
+          resultSet,
+          ImmutableList.of(
+              "TABLE_CAT",
+              "TABLE_SCHEM",
+              "TABLE_NAME",
+              "TABLE_TYPE",
+              "REMARKS",
+              "TYPE_CAT",
+              "TYPE_SCHEM",
+              "TYPE_NAME",
+              "SELF_REFERENCING_COL_NAME",
+              "REF_GENERATION"),
+          EXPECTED_GET_TABLES_RESULTS
+      );
+    }
+  }
+
+  @Test
+  public void testGetSchemasCanBeAccessedByIndices() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData().getSchemas()) {
+      resultSetTestUtils.testData(resultSet, EXPECTED_GET_SCHEMAS_RESULTS);
+    }
+  }
+
+  @Test
+  public void testGetSchemasCanBeAccessedByNames() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData().getSchemas()) {
+      resultSetTestUtils.testData(resultSet, ImmutableList.of("TABLE_SCHEM", "TABLE_CATALOG"),
+          EXPECTED_GET_SCHEMAS_RESULTS);
+    }
+  }
+
+  @Test
+  public void testGetExportedKeysCanBeAccessedByIndices() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData()
+        .getExportedKeys(null, null, TARGET_TABLE)) {
+      resultSetTestUtils.testData(resultSet, EXPECTED_GET_EXPORTED_AND_IMPORTED_KEYS_RESULTS);
+    }
+  }
+
+  @Test
+  public void testGetExportedKeysCanBeAccessedByNames() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData()
+        .getExportedKeys(null, null, TARGET_TABLE)) {
+      resultSetTestUtils.testData(
+          resultSet, FIELDS_GET_IMPORTED_EXPORTED_KEYS,
+          EXPECTED_GET_EXPORTED_AND_IMPORTED_KEYS_RESULTS);
+    }
+  }
+
+  @Test
+  public void testGetImportedKeysCanBeAccessedByIndices() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData()
+        .getImportedKeys(null, null, TARGET_TABLE)) {
+      resultSetTestUtils.testData(resultSet, EXPECTED_GET_EXPORTED_AND_IMPORTED_KEYS_RESULTS);
+    }
+  }
+
+  @Test
+  public void testGetImportedKeysCanBeAccessedByNames() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData()
+        .getImportedKeys(null, null, TARGET_TABLE)) {
+      resultSetTestUtils.testData(
+          resultSet, FIELDS_GET_IMPORTED_EXPORTED_KEYS,
+          EXPECTED_GET_EXPORTED_AND_IMPORTED_KEYS_RESULTS);
+    }
+  }
+
+  @Test
+  public void testGetCrossReferenceCanBeAccessedByIndices() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData().getCrossReference(null, null,
+        TARGET_TABLE, null, null, TARGET_FOREIGN_TABLE)) {
+      resultSetTestUtils.testData(resultSet, EXPECTED_CROSS_REFERENCE_RESULTS);
+    }
+  }
+
+  @Test
+  public void testGetGetCrossReferenceCanBeAccessedByNames() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData().getCrossReference(null, null,
+        TARGET_TABLE, null, null, TARGET_FOREIGN_TABLE)) {
+      resultSetTestUtils.testData(
+          resultSet, FIELDS_GET_CROSS_REFERENCE, EXPECTED_CROSS_REFERENCE_RESULTS);
+    }
+  }
+
+  @Test
+  public void testPrimaryKeysCanBeAccessedByIndices() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData()
+        .getPrimaryKeys(null, null, TARGET_TABLE)) {
+      resultSetTestUtils.testData(resultSet, EXPECTED_PRIMARY_KEYS_RESULTS);
+    }
+  }
+
+  @Test
+  public void testPrimaryKeysCanBeAccessedByNames() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData()
+        .getPrimaryKeys(null, null, TARGET_TABLE)) {
+      resultSetTestUtils.testData(
+          resultSet,
+          ImmutableList.of(
+              "TABLE_CAT",
+              "TABLE_SCHEM",
+              "TABLE_NAME",
+              "COLUMN_NAME",
+              "KEY_SEQ",
+              "PK_NAME"),
+          EXPECTED_PRIMARY_KEYS_RESULTS
+      );
+    }
+  }
+
+  @Test
+  public void testGetColumnsCanBeAccessedByIndices() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData().getColumns(null, null, null, null)) {
+      resultSetTestUtils.testData(resultSet, EXPECTED_GET_COLUMNS_RESULTS);
+    }
+  }
+
+  @Test
+  public void testGetColumnsCanByIndicesFilteringColumnNames() throws SQLException {
+    try (
+        final ResultSet resultSet = connection.getMetaData()
+            .getColumns(null, null, null, "column_1")) {
+      resultSetTestUtils.testData(resultSet, EXPECTED_GET_COLUMNS_RESULTS
+          .stream()
+          .filter(insideList -> Objects.equals(insideList.get(3), "column_1"))
+          .collect(toList())
+      );
+    }
+  }
+
+  @Test
+  public void testGetSqlInfo() throws SQLException {
+    final DatabaseMetaData metaData = connection.getMetaData();
+    collector.checkThat(metaData.getDatabaseProductName(), is(EXPECTED_DATABASE_PRODUCT_NAME));
+    collector.checkThat(metaData.getDatabaseProductVersion(),
+        is(EXPECTED_DATABASE_PRODUCT_VERSION));
+    collector.checkThat(metaData.getIdentifierQuoteString(), is(EXPECTED_IDENTIFIER_QUOTE_STRING));
+    collector.checkThat(metaData.isReadOnly(), is(EXPECTED_IS_READ_ONLY));
+    collector.checkThat(metaData.getSQLKeywords(), is(EXPECTED_SQL_KEYWORDS));
+    collector.checkThat(metaData.getNumericFunctions(), is(EXPECTED_NUMERIC_FUNCTIONS));
+    collector.checkThat(metaData.getStringFunctions(), is(EXPECTED_STRING_FUNCTIONS));
+    collector.checkThat(metaData.getSystemFunctions(), is(EXPECTED_SYSTEM_FUNCTIONS));
+    collector.checkThat(metaData.getTimeDateFunctions(), is(EXPECTED_TIME_DATE_FUNCTIONS));
+    collector.checkThat(metaData.getSearchStringEscape(), is(EXPECTED_SEARCH_STRING_ESCAPE));
+    collector.checkThat(metaData.getExtraNameCharacters(), is(EXPECTED_EXTRA_NAME_CHARACTERS));
+    collector.checkThat(metaData.supportsConvert(), is(EXPECTED_SQL_SUPPORTS_CONVERT));
+    collector.checkThat(metaData.supportsConvert(BIT, INTEGER), is(EXPECTED_SQL_SUPPORTS_CONVERT));
+    collector.checkThat(metaData.supportsConvert(BIT, BIGINT), is(EXPECTED_SQL_SUPPORTS_CONVERT));
+    collector.checkThat(metaData.supportsConvert(BIGINT, INTEGER),
+        is(EXPECTED_INVALID_SQL_SUPPORTS_CONVERT));
+    collector.checkThat(metaData.supportsConvert(JAVA_OBJECT, INTEGER),
+        is(EXPECTED_INVALID_SQL_SUPPORTS_CONVERT));
+    collector.checkThat(metaData.supportsTableCorrelationNames(),
+        is(EXPECTED_SUPPORTS_TABLE_CORRELATION_NAMES));
+    collector.checkThat(metaData.supportsExpressionsInOrderBy(),
+        is(EXPECTED_EXPRESSIONS_IN_ORDER_BY));
+    collector.checkThat(metaData.supportsOrderByUnrelated(),
+        is(EXPECTED_SUPPORTS_ORDER_BY_UNRELATED));
+    collector.checkThat(metaData.supportsGroupBy(), is(EXPECTED_SUPPORTS_GROUP_BY));
+    collector.checkThat(metaData.supportsGroupByUnrelated(),
+        is(EXPECTED_SUPPORTS_GROUP_BY_UNRELATED));
+    collector.checkThat(metaData.supportsLikeEscapeClause(),
+        is(EXPECTED_SUPPORTS_LIKE_ESCAPE_CLAUSE));
+    collector.checkThat(metaData.supportsNonNullableColumns(), is(EXPECTED_NON_NULLABLE_COLUMNS));
+    collector.checkThat(metaData.supportsMinimumSQLGrammar(), is(EXPECTED_MINIMUM_SQL_GRAMMAR));
+    collector.checkThat(metaData.supportsCoreSQLGrammar(), is(EXPECTED_CORE_SQL_GRAMMAR));
+    collector.checkThat(metaData.supportsExtendedSQLGrammar(), is(EXPECTED_EXTEND_SQL_GRAMMAR));
+    collector.checkThat(metaData.supportsANSI92EntryLevelSQL(),
+        is(EXPECTED_ANSI92_ENTRY_LEVEL_SQL));
+    collector.checkThat(metaData.supportsANSI92IntermediateSQL(),
+        is(EXPECTED_ANSI92_INTERMEDIATE_SQL));
+    collector.checkThat(metaData.supportsANSI92FullSQL(), is(EXPECTED_ANSI92_FULL_SQL));
+    collector.checkThat(metaData.supportsOuterJoins(), is(EXPECTED_SUPPORTS_OUTER_JOINS));
+    collector.checkThat(metaData.supportsFullOuterJoins(), is(EXPECTED_SUPPORTS_FULL_OUTER_JOINS));
+    collector.checkThat(metaData.supportsLimitedOuterJoins(), is(EXPECTED_SUPPORTS_LIMITED_JOINS));
+    collector.checkThat(metaData.getSchemaTerm(), is(EXPECTED_SCHEMA_TERM));
+    collector.checkThat(metaData.getProcedureTerm(), is(EXPECTED_PROCEDURE_TERM));
+    collector.checkThat(metaData.getCatalogTerm(), is(EXPECTED_CATALOG_TERM));
+    collector.checkThat(metaData.isCatalogAtStart(), is(EXPECTED_CATALOG_AT_START));
+    collector.checkThat(metaData.supportsSchemasInProcedureCalls(),
+        is(EXPECTED_SCHEMAS_IN_PROCEDURE_CALLS));
+    collector.checkThat(metaData.supportsSchemasInIndexDefinitions(),
+        is(EXPECTED_SCHEMAS_IN_INDEX_DEFINITIONS));
+    collector.checkThat(metaData.supportsCatalogsInIndexDefinitions(),
+        is(EXPECTED_CATALOGS_IN_INDEX_DEFINITIONS));
+    collector.checkThat(metaData.supportsPositionedDelete(), is(EXPECTED_POSITIONED_DELETE));
+    collector.checkThat(metaData.supportsPositionedUpdate(), is(EXPECTED_POSITIONED_UPDATE));
+    collector.checkThat(metaData.supportsResultSetType(ResultSet.TYPE_FORWARD_ONLY),
+        is(EXPECTED_TYPE_FORWARD_ONLY));
+    collector.checkThat(metaData.supportsSelectForUpdate(),
+        is(EXPECTED_SELECT_FOR_UPDATE_SUPPORTED));
+    collector.checkThat(metaData.supportsStoredProcedures(),
+        is(EXPECTED_STORED_PROCEDURES_SUPPORTED));
+    collector.checkThat(metaData.supportsSubqueriesInComparisons(),
+        is(EXPECTED_SUBQUERIES_IN_COMPARISON));
+    collector.checkThat(metaData.supportsSubqueriesInExists(), is(EXPECTED_SUBQUERIES_IN_EXISTS));
+    collector.checkThat(metaData.supportsSubqueriesInIns(), is(EXPECTED_SUBQUERIES_IN_INS));
+    collector.checkThat(metaData.supportsSubqueriesInQuantifieds(),
+        is(EXPECTED_SUBQUERIES_IN_QUANTIFIEDS));
+    collector.checkThat(metaData.supportsCorrelatedSubqueries(),
+        is(EXPECTED_CORRELATED_SUBQUERIES_SUPPORTED));
+    collector.checkThat(metaData.supportsUnion(), is(EXPECTED_SUPPORTS_UNION));
+    collector.checkThat(metaData.supportsUnionAll(), is(EXPECTED_SUPPORTS_UNION_ALL));
+    collector.checkThat(metaData.getMaxBinaryLiteralLength(),
+        is(EXPECTED_MAX_BINARY_LITERAL_LENGTH));
+    collector.checkThat(metaData.getMaxCharLiteralLength(), is(EXPECTED_MAX_CHAR_LITERAL_LENGTH));
+    collector.checkThat(metaData.getMaxColumnsInGroupBy(), is(EXPECTED_MAX_COLUMNS_IN_GROUP_BY));
+    collector.checkThat(metaData.getMaxColumnsInIndex(), is(EXPECTED_MAX_COLUMNS_IN_INDEX));
+    collector.checkThat(metaData.getMaxColumnsInOrderBy(), is(EXPECTED_MAX_COLUMNS_IN_ORDER_BY));
+    collector.checkThat(metaData.getMaxColumnsInSelect(), is(EXPECTED_MAX_COLUMNS_IN_SELECT));
+    collector.checkThat(metaData.getMaxConnections(), is(EXPECTED_MAX_CONNECTIONS));
+    collector.checkThat(metaData.getMaxCursorNameLength(), is(EXPECTED_MAX_CURSOR_NAME_LENGTH));
+    collector.checkThat(metaData.getMaxIndexLength(), is(EXPECTED_MAX_INDEX_LENGTH));
+    collector.checkThat(metaData.getMaxSchemaNameLength(), is(EXPECTED_SCHEMA_NAME_LENGTH));
+    collector.checkThat(metaData.getMaxProcedureNameLength(),
+        is(EXPECTED_MAX_PROCEDURE_NAME_LENGTH));
+    collector.checkThat(metaData.getMaxCatalogNameLength(), is(EXPECTED_MAX_CATALOG_NAME_LENGTH));
+    collector.checkThat(metaData.getMaxRowSize(), is(EXPECTED_MAX_ROW_SIZE));
+    collector.checkThat(metaData.doesMaxRowSizeIncludeBlobs(),
+        is(EXPECTED_MAX_ROW_SIZE_INCLUDES_BLOBS));
+    collector.checkThat(metaData.getMaxStatementLength(), is(EXPECTED_MAX_STATEMENT_LENGTH));
+    collector.checkThat(metaData.getMaxStatements(), is(EXPECTED_MAX_STATEMENTS));
+    collector.checkThat(metaData.getMaxTableNameLength(), is(EXPECTED_MAX_TABLE_NAME_LENGTH));
+    collector.checkThat(metaData.getMaxTablesInSelect(), is(EXPECTED_MAX_TABLES_IN_SELECT));
+    collector.checkThat(metaData.getMaxUserNameLength(), is(EXPECTED_MAX_USERNAME_LENGTH));
+    collector.checkThat(metaData.getDefaultTransactionIsolation(),
+        is(EXPECTED_DEFAULT_TRANSACTION_ISOLATION));
+    collector.checkThat(metaData.supportsTransactions(), is(EXPECTED_TRANSACTIONS_SUPPORTED));
+    collector.checkThat(metaData.supportsBatchUpdates(), is(EXPECTED_BATCH_UPDATES_SUPPORTED));
+    collector.checkThat(metaData.supportsSavepoints(), is(EXPECTED_SAVEPOINTS_SUPPORTED));
+    collector.checkThat(metaData.supportsNamedParameters(),
+        is(EXPECTED_NAMED_PARAMETERS_SUPPORTED));
+    collector.checkThat(metaData.locatorsUpdateCopy(), is(EXPECTED_LOCATORS_UPDATE_COPY));
+
+    collector.checkThat(metaData.supportsResultSetType(ResultSet.TYPE_SCROLL_INSENSITIVE),
+        is(EXPECTED_TYPE_SCROLL_INSENSITIVE));
+    collector.checkThat(metaData.supportsResultSetType(ResultSet.TYPE_SCROLL_SENSITIVE),
+        is(EXPECTED_TYPE_SCROLL_SENSITIVE));
+    collector.checkThat(metaData.supportsSchemasInPrivilegeDefinitions(),
+        is(EXPECTED_SCHEMAS_IN_PRIVILEGE_DEFINITIONS));
+    collector.checkThat(metaData.supportsCatalogsInPrivilegeDefinitions(),
+        is(EXPECTED_CATALOGS_IN_PRIVILEGE_DEFINITIONS));
+    collector.checkThat(metaData.supportsTransactionIsolationLevel(Connection.TRANSACTION_NONE),
+        is(EXPECTED_TRANSACTION_NONE));
+    collector.checkThat(
+        metaData.supportsTransactionIsolationLevel(Connection.TRANSACTION_READ_COMMITTED),
+        is(EXPECTED_TRANSACTION_READ_COMMITTED));
+    collector.checkThat(
+        metaData.supportsTransactionIsolationLevel(Connection.TRANSACTION_READ_UNCOMMITTED),
+        is(EXPECTED_TRANSACTION_READ_UNCOMMITTED));
+    collector.checkThat(
+        metaData.supportsTransactionIsolationLevel(Connection.TRANSACTION_REPEATABLE_READ),
+        is(EXPECTED_TRANSACTION_REPEATABLE_READ));
+    collector.checkThat(
+        metaData.supportsTransactionIsolationLevel(Connection.TRANSACTION_SERIALIZABLE),
+        is(EXPECTED_TRANSACTION_SERIALIZABLE));
+    collector.checkThat(metaData.dataDefinitionCausesTransactionCommit(),
+        is(EXPECTED_DATA_DEFINITION_CAUSES_TRANSACTION_COMMIT));
+    collector.checkThat(metaData.dataDefinitionIgnoredInTransactions(),
+        is(EXPECTED_DATA_DEFINITIONS_IN_TRANSACTIONS_IGNORED));
+    collector.checkThat(metaData.supportsStoredFunctionsUsingCallSyntax(),
+        is(EXPECTED_STORED_FUNCTIONS_USING_CALL_SYNTAX_SUPPORTED));
+    collector.checkThat(metaData.supportsIntegrityEnhancementFacility(),
+        is(EXPECTED_SUPPORTS_INTEGRITY_ENHANCEMENT_FACILITY));
+    collector.checkThat(metaData.supportsDifferentTableCorrelationNames(),
+        is(EXPECTED_SUPPORTS_DIFFERENT_TABLE_CORRELATION_NAMES));
+
+    ThrowableAssertionUtils.simpleAssertThrowableClass(SQLException.class,
+        () -> metaData.supportsTransactionIsolationLevel(Connection.TRANSACTION_SERIALIZABLE + 1));
+    ThrowableAssertionUtils.simpleAssertThrowableClass(SQLException.class,
+        () -> metaData.supportsResultSetType(ResultSet.HOLD_CURSORS_OVER_COMMIT));
+  }
+
+  @Test
+  public void testGetColumnsCanBeAccessedByNames() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData().getColumns(null, null, null, null)) {
+      resultSetTestUtils.testData(resultSet,
+          ImmutableList.of(
+              "TABLE_CAT",
+              "TABLE_SCHEM",
+              "TABLE_NAME",
+              "COLUMN_NAME",
+              "DATA_TYPE",
+              "TYPE_NAME",
+              "COLUMN_SIZE",
+              "BUFFER_LENGTH",
+              "DECIMAL_DIGITS",
+              "NUM_PREC_RADIX",
+              "NULLABLE",
+              "REMARKS",
+              "COLUMN_DEF",
+              "SQL_DATA_TYPE",
+              "SQL_DATETIME_SUB",
+              "CHAR_OCTET_LENGTH",
+              "ORDINAL_POSITION",
+              "IS_NULLABLE",
+              "SCOPE_CATALOG",
+              "SCOPE_SCHEMA",
+              "SCOPE_TABLE",
+              "SOURCE_DATA_TYPE",
+              "IS_AUTOINCREMENT",
+              "IS_GENERATEDCOLUMN"),
+          EXPECTED_GET_COLUMNS_RESULTS
+      );
+    }
+  }
+
+  @Test
+  public void testGetProcedures() throws SQLException {
+    try (final ResultSet resultSet = connection.getMetaData().getProcedures(null, null, null)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetProceduresSchema = new HashMap<Integer, String>() {
+        {
+          put(1, "PROCEDURE_CAT");
+          put(2, "PROCEDURE_SCHEM");
+          put(3, "PROCEDURE_NAME");
+          put(4, "FUTURE_USE1");
+          put(5, "FUTURE_USE2");
+          put(6, "FUTURE_USE3");
+          put(7, "REMARKS");
+          put(8, "PROCEDURE_TYPE");
+          put(9, "SPECIFIC_NAME");
+        }
+      };
+      testEmptyResultSet(resultSet, expectedGetProceduresSchema);
+    }
+  }
+
+  @Test
+  public void testGetProcedureColumns() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData()
+        .getProcedureColumns(null, null, null, null)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetProcedureColumnsSchema =
+          new HashMap<Integer, String>() {
+            {
+              put(1, "PROCEDURE_CAT");
+              put(2, "PROCEDURE_SCHEM");
+              put(3, "PROCEDURE_NAME");
+              put(4, "COLUMN_NAME");
+              put(5, "COLUMN_TYPE");
+              put(6, "DATA_TYPE");
+              put(7, "TYPE_NAME");
+              put(8, "PRECISION");
+              put(9, "LENGTH");
+              put(10, "SCALE");
+              put(11, "RADIX");
+              put(12, "NULLABLE");
+              put(13, "REMARKS");
+              put(14, "COLUMN_DEF");
+              put(15, "SQL_DATA_TYPE");
+              put(16, "SQL_DATETIME_SUB");
+              put(17, "CHAR_OCTET_LENGTH");
+              put(18, "ORDINAL_POSITION");
+              put(19, "IS_NULLABLE");
+              put(20, "SPECIFIC_NAME");
+            }
+          };
+      testEmptyResultSet(resultSet, expectedGetProcedureColumnsSchema);
+    }
+  }
+
+  @Test
+  public void testGetColumnPrivileges() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData()
+        .getColumnPrivileges(null, null, null, null)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetColumnPrivilegesSchema =
+          new HashMap<Integer, String>() {
+            {
+              put(1, "TABLE_CAT");
+              put(2, "TABLE_SCHEM");
+              put(3, "TABLE_NAME");
+              put(4, "COLUMN_NAME");
+              put(5, "GRANTOR");
+              put(6, "GRANTEE");
+              put(7, "PRIVILEGE");
+              put(8, "IS_GRANTABLE");
+            }
+          };
+      testEmptyResultSet(resultSet, expectedGetColumnPrivilegesSchema);
+    }
+  }
+
+  @Test
+  public void testGetTablePrivileges() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData().getTablePrivileges(null, null, null)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetTablePrivilegesSchema = new HashMap<Integer, String>() {
+        {
+          put(1, "TABLE_CAT");
+          put(2, "TABLE_SCHEM");
+          put(3, "TABLE_NAME");
+          put(4, "GRANTOR");
+          put(5, "GRANTEE");
+          put(6, "PRIVILEGE");
+          put(7, "IS_GRANTABLE");
+        }
+      };
+      testEmptyResultSet(resultSet, expectedGetTablePrivilegesSchema);
+    }
+  }
+
+  @Test
+  public void testGetBestRowIdentifier() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData()
+        .getBestRowIdentifier(null, null, null, 0, true)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetBestRowIdentifierSchema =
+          new HashMap<Integer, String>() {
+            {
+              put(1, "SCOPE");
+              put(2, "COLUMN_NAME");
+              put(3, "DATA_TYPE");
+              put(4, "TYPE_NAME");
+              put(5, "COLUMN_SIZE");
+              put(6, "BUFFER_LENGTH");
+              put(7, "DECIMAL_DIGITS");
+              put(8, "PSEUDO_COLUMN");
+            }
+          };
+      testEmptyResultSet(resultSet, expectedGetBestRowIdentifierSchema);
+    }
+  }
+
+  @Test
+  public void testGetVersionColumns() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData().getVersionColumns(null, null, null)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetVersionColumnsSchema = new HashMap<Integer, String>() {
+        {
+          put(1, "SCOPE");
+          put(2, "COLUMN_NAME");
+          put(3, "DATA_TYPE");
+          put(4, "TYPE_NAME");
+          put(5, "COLUMN_SIZE");
+          put(6, "BUFFER_LENGTH");
+          put(7, "DECIMAL_DIGITS");
+          put(8, "PSEUDO_COLUMN");
+        }
+      };
+      testEmptyResultSet(resultSet, expectedGetVersionColumnsSchema);
+    }
+  }
+
+  @Test
+  public void testGetTypeInfo() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData().getTypeInfo()) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetTypeInfoSchema = new HashMap<Integer, String>() {
+        {
+          put(1, "TYPE_NAME");
+          put(2, "DATA_TYPE");
+          put(3, "PRECISION");
+          put(4, "LITERAL_PREFIX");
+          put(5, "LITERAL_SUFFIX");
+          put(6, "CREATE_PARAMS");
+          put(7, "NULLABLE");
+          put(8, "CASE_SENSITIVE");
+          put(9, "SEARCHABLE");
+          put(10, "UNSIGNED_ATTRIBUTE");
+          put(11, "FIXED_PREC_SCALE");
+          put(12, "AUTO_INCREMENT");
+          put(13, "LOCAL_TYPE_NAME");
+          put(14, "MINIMUM_SCALE");
+          put(15, "MAXIMUM_SCALE");
+          put(16, "SQL_DATA_TYPE");
+          put(17, "SQL_DATETIME_SUB");
+          put(18, "NUM_PREC_RADIX");
+        }
+      };
+      testEmptyResultSet(resultSet, expectedGetTypeInfoSchema);
+    }
+  }
+
+  @Test
+  public void testGetIndexInfo() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData()
+        .getIndexInfo(null, null, null, false, true)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetIndexInfoSchema = new HashMap<Integer, String>() {
+        {
+          put(1, "TABLE_CAT");
+          put(2, "TABLE_SCHEM");
+          put(3, "TABLE_NAME");
+          put(4, "NON_UNIQUE");
+          put(5, "INDEX_QUALIFIER");
+          put(6, "INDEX_NAME");
+          put(7, "TYPE");
+          put(8, "ORDINAL_POSITION");
+          put(9, "COLUMN_NAME");
+          put(10, "ASC_OR_DESC");
+          put(11, "CARDINALITY");
+          put(12, "PAGES");
+          put(13, "FILTER_CONDITION");
+        }
+      };
+      testEmptyResultSet(resultSet, expectedGetIndexInfoSchema);
+    }
+  }
+
+  @Test
+  public void testGetUDTs() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData().getUDTs(null, null, null, null)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetUDTsSchema = new HashMap<Integer, String>() {
+        {
+          put(1, "TYPE_CAT");
+          put(2, "TYPE_SCHEM");
+          put(3, "TYPE_NAME");
+          put(4, "CLASS_NAME");
+          put(5, "DATA_TYPE");
+          put(6, "REMARKS");
+          put(7, "BASE_TYPE");
+        }
+      };
+      testEmptyResultSet(resultSet, expectedGetUDTsSchema);
+    }
+  }
+
+  @Test
+  public void testGetSuperTypes() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData().getSuperTypes(null, null, null)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetSuperTypesSchema = new HashMap<Integer, String>() {
+        {
+          put(1, "TYPE_CAT");
+          put(2, "TYPE_SCHEM");
+          put(3, "TYPE_NAME");
+          put(4, "SUPERTYPE_CAT");
+          put(5, "SUPERTYPE_SCHEM");
+          put(6, "SUPERTYPE_NAME");
+        }
+      };
+      testEmptyResultSet(resultSet, expectedGetSuperTypesSchema);
+    }
+  }
+
+  @Test
+  public void testGetSuperTables() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData().getSuperTables(null, null, null)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetSuperTablesSchema = new HashMap<Integer, String>() {
+        {
+          put(1, "TABLE_CAT");
+          put(2, "TABLE_SCHEM");
+          put(3, "TABLE_NAME");
+          put(4, "SUPERTABLE_NAME");
+        }
+      };
+      testEmptyResultSet(resultSet, expectedGetSuperTablesSchema);
+    }
+  }
+
+  @Test
+  public void testGetAttributes() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData().getAttributes(null, null, null, null)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetAttributesSchema = new HashMap<Integer, String>() {
+        {
+          put(1, "TYPE_CAT");
+          put(2, "TYPE_SCHEM");
+          put(3, "TYPE_NAME");
+          put(4, "ATTR_NAME");
+          put(5, "DATA_TYPE");
+          put(6, "ATTR_TYPE_NAME");
+          put(7, "ATTR_SIZE");
+          put(8, "DECIMAL_DIGITS");
+          put(9, "NUM_PREC_RADIX");
+          put(10, "NULLABLE");
+          put(11, "REMARKS");
+          put(12, "ATTR_DEF");
+          put(13, "SQL_DATA_TYPE");
+          put(14, "SQL_DATETIME_SUB");
+          put(15, "CHAR_OCTET_LENGTH");
+          put(16, "ORDINAL_POSITION");
+          put(17, "IS_NULLABLE");
+          put(18, "SCOPE_CATALOG");
+          put(19, "SCOPE_SCHEMA");
+          put(20, "SCOPE_TABLE");
+          put(21, "SOURCE_DATA_TYPE");
+        }
+      };
+      testEmptyResultSet(resultSet, expectedGetAttributesSchema);
+    }
+  }
+
+  @Test
+  public void testGetClientInfoProperties() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData().getClientInfoProperties()) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetClientInfoPropertiesSchema =
+          new HashMap<Integer, String>() {
+            {
+              put(1, "NAME");
+              put(2, "MAX_LEN");
+              put(3, "DEFAULT_VALUE");
+              put(4, "DESCRIPTION");
+            }
+          };
+      testEmptyResultSet(resultSet, expectedGetClientInfoPropertiesSchema);
+    }
+  }
+
+  @Test
+  public void testGetFunctions() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData().getFunctions(null, null, null)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetFunctionsSchema = new HashMap<Integer, String>() {
+        {
+          put(1, "FUNCTION_CAT");
+          put(2, "FUNCTION_SCHEM");
+          put(3, "FUNCTION_NAME");
+          put(4, "REMARKS");
+          put(5, "FUNCTION_TYPE");
+          put(6, "SPECIFIC_NAME");
+        }
+      };
+      testEmptyResultSet(resultSet, expectedGetFunctionsSchema);
+    }
+  }
+
+  @Test
+  public void testGetFunctionColumns() throws SQLException {
+    try (
+        ResultSet resultSet = connection.getMetaData().getFunctionColumns(null, null, null, null)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetFunctionColumnsSchema = new HashMap<Integer, String>() {
+        {
+          put(1, "FUNCTION_CAT");
+          put(2, "FUNCTION_SCHEM");
+          put(3, "FUNCTION_NAME");
+          put(4, "COLUMN_NAME");
+          put(5, "COLUMN_TYPE");
+          put(6, "DATA_TYPE");
+          put(7, "TYPE_NAME");
+          put(8, "PRECISION");
+          put(9, "LENGTH");
+          put(10, "SCALE");
+          put(11, "RADIX");
+          put(12, "NULLABLE");
+          put(13, "REMARKS");
+          put(14, "CHAR_OCTET_LENGTH");
+          put(15, "ORDINAL_POSITION");
+          put(16, "IS_NULLABLE");
+          put(17, "SPECIFIC_NAME");
+        }
+      };
+      testEmptyResultSet(resultSet, expectedGetFunctionColumnsSchema);
+    }
+  }
+
+  @Test
+  public void testGetPseudoColumns() throws SQLException {
+    try (ResultSet resultSet = connection.getMetaData().getPseudoColumns(null, null, null, null)) {
+      // Maps ordinal index to column name according to JDBC documentation
+      final Map<Integer, String> expectedGetPseudoColumnsSchema = new HashMap<Integer, String>() {
+        {
+          put(1, "TABLE_CAT");
+          put(2, "TABLE_SCHEM");
+          put(3, "TABLE_NAME");
+          put(4, "COLUMN_NAME");
+          put(5, "DATA_TYPE");
+          put(6, "COLUMN_SIZE");
+          put(7, "DECIMAL_DIGITS");
+          put(8, "NUM_PREC_RADIX");
+          put(9, "COLUMN_USAGE");
+          put(10, "REMARKS");
+          put(11, "CHAR_OCTET_LENGTH");
+          put(12, "IS_NULLABLE");
+        }
+      };
+      testEmptyResultSet(resultSet, expectedGetPseudoColumnsSchema);
+    }
+  }
+
+  private void testEmptyResultSet(final ResultSet resultSet,
+                                  final Map<Integer, String> expectedResultSetSchema)
+      throws SQLException {
+    Assert.assertFalse(resultSet.next());
+    final ResultSetMetaData resultSetMetaData = resultSet.getMetaData();
+    for (final Map.Entry<Integer, String> entry : expectedResultSetSchema.entrySet()) {
+      Assert.assertEquals(entry.getValue(), resultSetMetaData.getColumnLabel(entry.getKey()));
+    }
+  }
+
+  @Test
+  public void testGetColumnSize() {
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_BYTE),
+        ArrowDatabaseMetadata.getColumnSize(new ArrowType.Int(Byte.SIZE, true)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_SHORT),
+        ArrowDatabaseMetadata.getColumnSize(new ArrowType.Int(Short.SIZE, true)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_INT),
+        ArrowDatabaseMetadata.getColumnSize(new ArrowType.Int(Integer.SIZE, true)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_LONG),
+        ArrowDatabaseMetadata.getColumnSize(new ArrowType.Int(Long.SIZE, true)));
+
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_VARCHAR_AND_BINARY),
+        ArrowDatabaseMetadata.getColumnSize(new ArrowType.Utf8()));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_VARCHAR_AND_BINARY),
+        ArrowDatabaseMetadata.getColumnSize(new ArrowType.Binary()));
+
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_TIMESTAMP_SECONDS),
+        ArrowDatabaseMetadata.getColumnSize(new ArrowType.Timestamp(TimeUnit.SECOND, null)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_TIMESTAMP_MILLISECONDS),
+        ArrowDatabaseMetadata.getColumnSize(new ArrowType.Timestamp(TimeUnit.MILLISECOND, null)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_TIMESTAMP_MICROSECONDS),
+        ArrowDatabaseMetadata.getColumnSize(new ArrowType.Timestamp(TimeUnit.MICROSECOND, null)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_TIMESTAMP_NANOSECONDS),
+        ArrowDatabaseMetadata.getColumnSize(new ArrowType.Timestamp(TimeUnit.NANOSECOND, null)));
+
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_TIME),
+        ArrowDatabaseMetadata.getColumnSize(new ArrowType.Time(TimeUnit.SECOND, Integer.SIZE)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_TIME_MILLISECONDS),
+        ArrowDatabaseMetadata.getColumnSize(
+            new ArrowType.Time(TimeUnit.MILLISECOND, Integer.SIZE)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_TIME_MICROSECONDS),
+        ArrowDatabaseMetadata.getColumnSize(
+            new ArrowType.Time(TimeUnit.MICROSECOND, Integer.SIZE)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_TIME_NANOSECONDS),
+        ArrowDatabaseMetadata.getColumnSize(new ArrowType.Time(TimeUnit.NANOSECOND, Integer.SIZE)));
+
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.COLUMN_SIZE_DATE),
+        ArrowDatabaseMetadata.getColumnSize(new ArrowType.Date(DateUnit.DAY)));
+
+    Assert.assertNull(ArrowDatabaseMetadata.getColumnSize(new ArrowType.FloatingPoint(
+        FloatingPointPrecision.DOUBLE)));
+  }
+
+  @Test
+  public void testGetDecimalDigits() {
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.NO_DECIMAL_DIGITS),
+        ArrowDatabaseMetadata.getDecimalDigits(new ArrowType.Int(Byte.SIZE, true)));
+
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.NO_DECIMAL_DIGITS),
+        ArrowDatabaseMetadata.getDecimalDigits(new ArrowType.Timestamp(TimeUnit.SECOND, null)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.DECIMAL_DIGITS_TIME_MILLISECONDS),
+        ArrowDatabaseMetadata.getDecimalDigits(
+            new ArrowType.Timestamp(TimeUnit.MILLISECOND, null)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.DECIMAL_DIGITS_TIME_MICROSECONDS),
+        ArrowDatabaseMetadata.getDecimalDigits(
+            new ArrowType.Timestamp(TimeUnit.MICROSECOND, null)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.DECIMAL_DIGITS_TIME_NANOSECONDS),
+        ArrowDatabaseMetadata.getDecimalDigits(new ArrowType.Timestamp(TimeUnit.NANOSECOND, null)));
+
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.NO_DECIMAL_DIGITS),
+        ArrowDatabaseMetadata.getDecimalDigits(new ArrowType.Time(TimeUnit.SECOND, Integer.SIZE)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.DECIMAL_DIGITS_TIME_MILLISECONDS),
+        ArrowDatabaseMetadata.getDecimalDigits(
+            new ArrowType.Time(TimeUnit.MILLISECOND, Integer.SIZE)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.DECIMAL_DIGITS_TIME_MICROSECONDS),
+        ArrowDatabaseMetadata.getDecimalDigits(
+            new ArrowType.Time(TimeUnit.MICROSECOND, Integer.SIZE)));
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.DECIMAL_DIGITS_TIME_NANOSECONDS),
+        ArrowDatabaseMetadata.getDecimalDigits(
+            new ArrowType.Time(TimeUnit.NANOSECOND, Integer.SIZE)));
+
+    Assert.assertEquals(Integer.valueOf(ArrowDatabaseMetadata.NO_DECIMAL_DIGITS),
+        ArrowDatabaseMetadata.getDecimalDigits(new ArrowType.Date(DateUnit.DAY)));
+
+    Assert.assertNull(ArrowDatabaseMetadata.getDecimalDigits(new ArrowType.Utf8()));
+  }
+
+  @Test
+  public void testSqlToRegexLike() {
+    Assert.assertEquals(".*", ArrowDatabaseMetadata.sqlToRegexLike("%"));
+    Assert.assertEquals(".", ArrowDatabaseMetadata.sqlToRegexLike("_"));
+    Assert.assertEquals("\\*", ArrowDatabaseMetadata.sqlToRegexLike("*"));
+    Assert.assertEquals("T\\*E.S.*T", ArrowDatabaseMetadata.sqlToRegexLike("T*E_S%T"));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcArrayTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcArrayTest.java
new file mode 100644
index 00000000000..90c926612f1
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcArrayTest.java
@@ -0,0 +1,173 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import java.sql.ResultSet;
+import java.sql.SQLException;
+import java.sql.SQLFeatureNotSupportedException;
+import java.sql.Types;
+import java.util.Arrays;
+import java.util.HashMap;
+
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.util.JsonStringArrayList;
+import org.junit.After;
+import org.junit.Assert;
+import org.junit.Before;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.runner.RunWith;
+import org.mockito.junit.MockitoJUnitRunner;
+
+@RunWith(MockitoJUnitRunner.class)
+public class ArrowFlightJdbcArrayTest {
+
+  @Rule
+  public RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  IntVector dataVector;
+
+  @Before
+  public void setup() {
+    dataVector = rootAllocatorTestRule.createIntVector();
+  }
+
+  @After
+  public void tearDown() {
+    this.dataVector.close();
+  }
+
+  @Test
+  public void testShouldGetBaseTypeNameReturnCorrectTypeName() {
+    ArrowFlightJdbcArray arrowFlightJdbcArray =
+        new ArrowFlightJdbcArray(dataVector, 0, dataVector.getValueCount());
+    Assert.assertEquals("INTEGER", arrowFlightJdbcArray.getBaseTypeName());
+  }
+
+  @Test
+  public void testShouldGetBaseTypeReturnCorrectType() {
+    ArrowFlightJdbcArray arrowFlightJdbcArray =
+        new ArrowFlightJdbcArray(dataVector, 0, dataVector.getValueCount());
+    Assert.assertEquals(Types.INTEGER, arrowFlightJdbcArray.getBaseType());
+  }
+
+  @Test
+  public void testShouldGetArrayReturnValidArray() throws SQLException {
+    ArrowFlightJdbcArray arrowFlightJdbcArray =
+        new ArrowFlightJdbcArray(dataVector, 0, dataVector.getValueCount());
+    Object[] array = (Object[]) arrowFlightJdbcArray.getArray();
+
+    Object[] expected = new Object[dataVector.getValueCount()];
+    for (int i = 0; i < expected.length; i++) {
+      expected[i] = dataVector.getObject(i);
+    }
+    Assert.assertArrayEquals(array, expected);
+  }
+
+  @Test
+  public void testShouldGetArrayReturnValidArrayWithOffsets() throws SQLException {
+    ArrowFlightJdbcArray arrowFlightJdbcArray =
+        new ArrowFlightJdbcArray(dataVector, 0, dataVector.getValueCount());
+    Object[] array = (Object[]) arrowFlightJdbcArray.getArray(1, 5);
+
+    Object[] expected = new Object[5];
+    for (int i = 0; i < expected.length; i++) {
+      expected[i] = dataVector.getObject(i + 1);
+    }
+    Assert.assertArrayEquals(array, expected);
+  }
+
+  @Test(expected = ArrayIndexOutOfBoundsException.class)
+  public void testShouldGetArrayWithOffsetsThrowArrayIndexOutOfBoundsException()
+      throws SQLException {
+    ArrowFlightJdbcArray arrowFlightJdbcArray =
+        new ArrowFlightJdbcArray(dataVector, 0, dataVector.getValueCount());
+    arrowFlightJdbcArray.getArray(0, dataVector.getValueCount() + 1);
+  }
+
+  @Test(expected = SQLFeatureNotSupportedException.class)
+  public void testShouldGetArrayWithMapNotBeSupported() throws SQLException {
+    ArrowFlightJdbcArray arrowFlightJdbcArray =
+        new ArrowFlightJdbcArray(dataVector, 0, dataVector.getValueCount());
+    HashMap<String, Class<?>> map = new HashMap<>();
+    arrowFlightJdbcArray.getArray(map);
+  }
+
+  @Test(expected = SQLFeatureNotSupportedException.class)
+  public void testShouldGetArrayWithOffsetsAndMapNotBeSupported() throws SQLException {
+    ArrowFlightJdbcArray arrowFlightJdbcArray =
+        new ArrowFlightJdbcArray(dataVector, 0, dataVector.getValueCount());
+    HashMap<String, Class<?>> map = new HashMap<>();
+    arrowFlightJdbcArray.getArray(0, 5, map);
+  }
+
+  @Test
+  public void testShouldGetResultSetReturnValidResultSet() throws SQLException {
+    ArrowFlightJdbcArray arrowFlightJdbcArray =
+        new ArrowFlightJdbcArray(dataVector, 0, dataVector.getValueCount());
+    try (ResultSet resultSet = arrowFlightJdbcArray.getResultSet()) {
+      int count = 0;
+      while (resultSet.next()) {
+        Assert.assertEquals((Object) resultSet.getInt(1), dataVector.getObject(count));
+        count++;
+      }
+    }
+  }
+
+  @Test
+  public void testShouldGetResultSetReturnValidResultSetWithOffsets() throws SQLException {
+    ArrowFlightJdbcArray arrowFlightJdbcArray =
+        new ArrowFlightJdbcArray(dataVector, 0, dataVector.getValueCount());
+    try (ResultSet resultSet = arrowFlightJdbcArray.getResultSet(3, 5)) {
+      int count = 0;
+      while (resultSet.next()) {
+        Assert.assertEquals((Object) resultSet.getInt(1), dataVector.getObject(count + 3));
+        count++;
+      }
+      Assert.assertEquals(count, 5);
+    }
+  }
+
+  @Test
+  public void testToString() throws SQLException {
+    ArrowFlightJdbcArray arrowFlightJdbcArray =
+        new ArrowFlightJdbcArray(dataVector, 0, dataVector.getValueCount());
+
+    JsonStringArrayList<Object> array = new JsonStringArrayList<>();
+    array.addAll(Arrays.asList((Object[]) arrowFlightJdbcArray.getArray()));
+
+    Assert.assertEquals(array.toString(), arrowFlightJdbcArray.toString());
+  }
+
+  @Test(expected = SQLFeatureNotSupportedException.class)
+  public void testShouldGetResultSetWithMapNotBeSupported() throws SQLException {
+    ArrowFlightJdbcArray arrowFlightJdbcArray =
+        new ArrowFlightJdbcArray(dataVector, 0, dataVector.getValueCount());
+    HashMap<String, Class<?>> map = new HashMap<>();
+    arrowFlightJdbcArray.getResultSet(map);
+  }
+
+  @Test(expected = SQLFeatureNotSupportedException.class)
+  public void testShouldGetResultSetWithOffsetsAndMapNotBeSupported() throws SQLException {
+    ArrowFlightJdbcArray arrowFlightJdbcArray =
+        new ArrowFlightJdbcArray(dataVector, 0, dataVector.getValueCount());
+    HashMap<String, Class<?>> map = new HashMap<>();
+    arrowFlightJdbcArray.getResultSet(0, 5, map);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcConnectionCookieTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcConnectionCookieTest.java
new file mode 100644
index 00000000000..c7268e0594e
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcConnectionCookieTest.java
@@ -0,0 +1,54 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import java.sql.Connection;
+import java.sql.SQLException;
+import java.sql.Statement;
+
+import org.apache.arrow.driver.jdbc.utils.CoreMockedSqlProducers;
+import org.junit.Assert;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+public class ArrowFlightJdbcConnectionCookieTest {
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  @ClassRule
+  public static final FlightServerTestRule FLIGHT_SERVER_TEST_RULE =
+      FlightServerTestRule.createStandardTestRule(CoreMockedSqlProducers.getLegacyProducer());
+
+  @Test
+  public void testCookies() throws SQLException {
+    try (Connection connection = FLIGHT_SERVER_TEST_RULE.getConnection(false);
+         Statement statement = connection.createStatement()) {
+
+      // Expect client didn't receive cookies before any operation
+      Assert.assertNull(FLIGHT_SERVER_TEST_RULE.getMiddlewareCookieFactory().getCookie());
+
+      // Run another action for check if the cookies was sent by the server.
+      statement.execute(CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD);
+      Assert.assertEquals("k=v", FLIGHT_SERVER_TEST_RULE.getMiddlewareCookieFactory().getCookie());
+    }
+  }
+}
+
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcConnectionPoolDataSourceTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcConnectionPoolDataSourceTest.java
new file mode 100644
index 00000000000..bdf2826c41e
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcConnectionPoolDataSourceTest.java
@@ -0,0 +1,135 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import java.sql.Connection;
+
+import javax.sql.PooledConnection;
+
+import org.apache.arrow.driver.jdbc.authentication.UserPasswordAuthentication;
+import org.apache.arrow.driver.jdbc.utils.ConnectionWrapper;
+import org.apache.arrow.driver.jdbc.utils.MockFlightSqlProducer;
+import org.junit.After;
+import org.junit.Assert;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Test;
+
+public class ArrowFlightJdbcConnectionPoolDataSourceTest {
+  @ClassRule
+  public static final FlightServerTestRule FLIGHT_SERVER_TEST_RULE;
+
+  private static final MockFlightSqlProducer PRODUCER = new MockFlightSqlProducer();
+
+  static {
+    UserPasswordAuthentication authentication =
+        new UserPasswordAuthentication.Builder()
+            .user("user1", "pass1")
+            .user("user2", "pass2")
+            .build();
+
+    FLIGHT_SERVER_TEST_RULE = new FlightServerTestRule.Builder()
+        .authentication(authentication)
+        .producer(PRODUCER)
+        .build();
+  }
+
+  private ArrowFlightJdbcConnectionPoolDataSource dataSource;
+
+  @Before
+  public void setUp() {
+    dataSource = FLIGHT_SERVER_TEST_RULE.createConnectionPoolDataSource(false);
+  }
+
+  @After
+  public void tearDown() throws Exception {
+    dataSource.close();
+  }
+
+  @Test
+  public void testShouldInnerConnectionIsClosedReturnCorrectly() throws Exception {
+    PooledConnection pooledConnection = dataSource.getPooledConnection();
+    Connection connection = pooledConnection.getConnection();
+    Assert.assertFalse(connection.isClosed());
+    connection.close();
+    Assert.assertTrue(connection.isClosed());
+  }
+
+  @Test
+  public void testShouldInnerConnectionShouldIgnoreDoubleClose() throws Exception {
+    PooledConnection pooledConnection = dataSource.getPooledConnection();
+    Connection connection = pooledConnection.getConnection();
+    Assert.assertFalse(connection.isClosed());
+    connection.close();
+    Assert.assertTrue(connection.isClosed());
+  }
+
+  @Test
+  public void testShouldInnerConnectionIsClosedReturnTrueIfPooledConnectionCloses()
+      throws Exception {
+    PooledConnection pooledConnection = dataSource.getPooledConnection();
+    Connection connection = pooledConnection.getConnection();
+    Assert.assertFalse(connection.isClosed());
+    pooledConnection.close();
+    Assert.assertTrue(connection.isClosed());
+  }
+
+  @Test
+  public void testShouldReuseConnectionsOnPool() throws Exception {
+    PooledConnection pooledConnection = dataSource.getPooledConnection("user1", "pass1");
+    ConnectionWrapper connection = ((ConnectionWrapper) pooledConnection.getConnection());
+    Assert.assertFalse(connection.isClosed());
+    connection.close();
+    Assert.assertTrue(connection.isClosed());
+    Assert.assertFalse(connection.unwrap(ArrowFlightConnection.class).isClosed());
+
+    PooledConnection pooledConnection2 = dataSource.getPooledConnection("user1", "pass1");
+    ConnectionWrapper connection2 = ((ConnectionWrapper) pooledConnection2.getConnection());
+    Assert.assertFalse(connection2.isClosed());
+    connection2.close();
+    Assert.assertTrue(connection2.isClosed());
+    Assert.assertFalse(connection2.unwrap(ArrowFlightConnection.class).isClosed());
+
+    Assert.assertSame(pooledConnection, pooledConnection2);
+    Assert.assertNotSame(connection, connection2);
+    Assert.assertSame(connection.unwrap(ArrowFlightConnection.class),
+        connection2.unwrap(ArrowFlightConnection.class));
+  }
+
+  @Test
+  public void testShouldNotMixConnectionsForDifferentUsers() throws Exception {
+    PooledConnection pooledConnection = dataSource.getPooledConnection("user1", "pass1");
+    ConnectionWrapper connection = ((ConnectionWrapper) pooledConnection.getConnection());
+    Assert.assertFalse(connection.isClosed());
+    connection.close();
+    Assert.assertTrue(connection.isClosed());
+    Assert.assertFalse(connection.unwrap(ArrowFlightConnection.class).isClosed());
+
+    PooledConnection pooledConnection2 = dataSource.getPooledConnection("user2", "pass2");
+    ConnectionWrapper connection2 = ((ConnectionWrapper) pooledConnection2.getConnection());
+    Assert.assertFalse(connection2.isClosed());
+    connection2.close();
+    Assert.assertTrue(connection2.isClosed());
+    Assert.assertFalse(connection2.unwrap(ArrowFlightConnection.class).isClosed());
+
+    Assert.assertNotSame(pooledConnection, pooledConnection2);
+    Assert.assertNotSame(connection, connection2);
+    Assert.assertNotSame(connection.unwrap(ArrowFlightConnection.class),
+        connection2.unwrap(ArrowFlightConnection.class));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcCursorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcCursorTest.java
new file mode 100644
index 00000000000..b818f7115b7
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcCursorTest.java
@@ -0,0 +1,251 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.junit.Assert.assertTrue;
+
+import java.sql.SQLException;
+import java.util.ArrayList;
+import java.util.List;
+
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.vector.BitVector;
+import org.apache.arrow.vector.DateDayVector;
+import org.apache.arrow.vector.DecimalVector;
+import org.apache.arrow.vector.DurationVector;
+import org.apache.arrow.vector.Float4Vector;
+import org.apache.arrow.vector.Float8Vector;
+import org.apache.arrow.vector.IntervalDayVector;
+import org.apache.arrow.vector.TimeMilliVector;
+import org.apache.arrow.vector.TimeStampMilliVector;
+import org.apache.arrow.vector.UInt4Vector;
+import org.apache.arrow.vector.VarBinaryVector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.complex.FixedSizeListVector;
+import org.apache.arrow.vector.complex.LargeListVector;
+import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.MapVector;
+import org.apache.arrow.vector.complex.StructVector;
+import org.apache.arrow.vector.types.DateUnit;
+import org.apache.arrow.vector.types.FloatingPointPrecision;
+import org.apache.arrow.vector.types.IntervalUnit;
+import org.apache.arrow.vector.types.TimeUnit;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.FieldType;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.calcite.avatica.util.Cursor;
+import org.junit.After;
+import org.junit.Test;
+
+import com.google.common.collect.ImmutableList;
+
+/**
+ * Tests for {@link ArrowFlightJdbcCursor}.
+ */
+public class ArrowFlightJdbcCursorTest {
+
+  ArrowFlightJdbcCursor cursor;
+  BufferAllocator allocator;
+
+  @After
+  public void cleanUp() {
+    allocator.close();
+    cursor.close();
+  }
+
+  @Test
+  public void testBinaryVectorNullTrue() throws SQLException {
+    final VectorSchemaRoot root = getVectorSchemaRoot("Binary", new ArrowType.Binary(), null);
+    ((VarBinaryVector) root.getVector("Binary")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testDateVectorNullTrue() throws SQLException {
+    final VectorSchemaRoot root =
+        getVectorSchemaRoot("Date", new ArrowType.Date(DateUnit.DAY), null);
+    ((DateDayVector) root.getVector("Date")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testDurationVectorNullTrue() throws SQLException {
+    final VectorSchemaRoot root = getVectorSchemaRoot("Duration",
+        new ArrowType.Duration(TimeUnit.MILLISECOND), null);
+    ((DurationVector) root.getVector("Duration")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testDateInternalNullTrue() throws SQLException {
+    final VectorSchemaRoot root = getVectorSchemaRoot("Interval",
+        new ArrowType.Interval(IntervalUnit.DAY_TIME), null);
+    ((IntervalDayVector) root.getVector("Interval")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testTimeStampVectorNullTrue() throws SQLException {
+    final VectorSchemaRoot root = getVectorSchemaRoot("TimeStamp",
+        new ArrowType.Timestamp(TimeUnit.MILLISECOND, null), null);
+    ((TimeStampMilliVector) root.getVector("TimeStamp")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testTimeVectorNullTrue() throws SQLException {
+    final VectorSchemaRoot root = getVectorSchemaRoot("Time",
+        new ArrowType.Time(TimeUnit.MILLISECOND, 32), null);
+    ((TimeMilliVector) root.getVector("Time")).setNull(0);
+    testCursorWasNull(root);
+
+  }
+
+  @Test
+  public void testFixedSizeListVectorNullTrue() throws SQLException {
+    List<Field> fieldList = new ArrayList<>();
+    fieldList.add(new Field("Null", new FieldType(true, new ArrowType.Null(), null),
+        null));
+    final VectorSchemaRoot root = getVectorSchemaRoot("FixedSizeList",
+        new ArrowType.FixedSizeList(10), fieldList);
+    ((FixedSizeListVector) root.getVector("FixedSizeList")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testLargeListVectorNullTrue() throws SQLException {
+    List<Field> fieldList = new ArrayList<>();
+    fieldList.add(new Field("Null", new FieldType(true, new ArrowType.Null(), null),
+        null));
+    final VectorSchemaRoot root =
+        getVectorSchemaRoot("LargeList", new ArrowType.LargeList(), fieldList);
+    ((LargeListVector) root.getVector("LargeList")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testListVectorNullTrue() throws SQLException {
+    List<Field> fieldList = new ArrayList<>();
+    fieldList.add(new Field("Null", new FieldType(true, new ArrowType.Null(), null),
+        null));
+    final VectorSchemaRoot root = getVectorSchemaRoot("List", new ArrowType.List(), fieldList);
+    ((ListVector) root.getVector("List")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testMapVectorNullTrue() throws SQLException {
+    List<Field> structChildren = new ArrayList<>();
+    structChildren.add(new Field("Key", new FieldType(false, new ArrowType.Utf8(), null),
+        null));
+    structChildren.add(new Field("Value", new FieldType(false, new ArrowType.Utf8(), null),
+        null));
+    List<Field> fieldList = new ArrayList<>();
+    fieldList.add(new Field("Struct", new FieldType(false, new ArrowType.Struct(), null),
+        structChildren));
+    final VectorSchemaRoot root = getVectorSchemaRoot("Map", new ArrowType.Map(false), fieldList);
+    ((MapVector) root.getVector("Map")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testStructVectorNullTrue() throws SQLException {
+    final VectorSchemaRoot root = getVectorSchemaRoot("Struct", new ArrowType.Struct(), null);
+    ((StructVector) root.getVector("Struct")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testBaseIntVectorNullTrue() throws SQLException {
+    final VectorSchemaRoot root = getVectorSchemaRoot("BaseInt",
+        new ArrowType.Int(32, false), null);
+    ((UInt4Vector) root.getVector("BaseInt")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testBitVectorNullTrue() throws SQLException {
+    final VectorSchemaRoot root = getVectorSchemaRoot("Bit", new ArrowType.Bool(), null);
+    ((BitVector) root.getVector("Bit")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testDecimalVectorNullTrue() throws SQLException {
+    final VectorSchemaRoot root = getVectorSchemaRoot("Decimal",
+        new ArrowType.Decimal(2, 2, 128), null);
+    ((DecimalVector) root.getVector("Decimal")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testFloat4VectorNullTrue() throws SQLException {
+    final VectorSchemaRoot root = getVectorSchemaRoot("Float4",
+        new ArrowType.FloatingPoint(FloatingPointPrecision.SINGLE), null);
+    ((Float4Vector) root.getVector("Float4")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testFloat8VectorNullTrue() throws SQLException {
+    final VectorSchemaRoot root = getVectorSchemaRoot("Float8",
+        new ArrowType.FloatingPoint(FloatingPointPrecision.DOUBLE), null);
+    ((Float8Vector) root.getVector("Float8")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testVarCharVectorNullTrue() throws SQLException {
+    final VectorSchemaRoot root = getVectorSchemaRoot("VarChar", new ArrowType.Utf8(), null);
+    ((VarCharVector) root.getVector("VarChar")).setNull(0);
+    testCursorWasNull(root);
+  }
+
+  @Test
+  public void testNullVectorNullTrue() throws SQLException {
+    final VectorSchemaRoot root = getVectorSchemaRoot("Null", new ArrowType.Null(), null);
+    testCursorWasNull(root);
+  }
+
+  private VectorSchemaRoot getVectorSchemaRoot(String name, ArrowType arrowType,
+                                               List<Field> children) {
+    final Schema schema = new Schema(ImmutableList.of(
+        new Field(
+            name,
+            new FieldType(true, arrowType,
+                null),
+            children)));
+    allocator = new RootAllocator(Long.MAX_VALUE);
+    final VectorSchemaRoot root = VectorSchemaRoot.create(schema, allocator);
+    root.allocateNew();
+    return root;
+  }
+
+  private void testCursorWasNull(VectorSchemaRoot root) throws SQLException {
+    root.setRowCount(1);
+    cursor = new ArrowFlightJdbcCursor(root);
+    cursor.next();
+    List<Cursor.Accessor> accessorList = cursor.createAccessors(null, null, null);
+    accessorList.get(0).getObject();
+    assertTrue(cursor.wasNull());
+    root.close();
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcDriverTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcDriverTest.java
new file mode 100644
index 00000000000..9b8fa96d232
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcDriverTest.java
@@ -0,0 +1,382 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertFalse;
+import static org.junit.jupiter.api.Assertions.assertNull;
+import static org.junit.jupiter.api.Assertions.assertThrows;
+import static org.junit.jupiter.api.Assertions.assertTrue;
+
+import java.sql.Connection;
+import java.sql.Driver;
+import java.sql.DriverManager;
+import java.sql.SQLException;
+import java.util.Collection;
+import java.util.Map;
+import java.util.Properties;
+
+import org.apache.arrow.driver.jdbc.authentication.UserPasswordAuthentication;
+import org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty;
+import org.apache.arrow.driver.jdbc.utils.MockFlightSqlProducer;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.util.AutoCloseables;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Test;
+
+/**
+ * Tests for {@link ArrowFlightJdbcDriver}.
+ */
+public class ArrowFlightJdbcDriverTest {
+
+  @ClassRule
+  public static final FlightServerTestRule FLIGHT_SERVER_TEST_RULE;
+  private static final MockFlightSqlProducer PRODUCER = new MockFlightSqlProducer();
+
+  static {
+    UserPasswordAuthentication authentication =
+        new UserPasswordAuthentication.Builder().user("user1", "pass1").user("user2", "pass2")
+            .build();
+
+    FLIGHT_SERVER_TEST_RULE = new FlightServerTestRule.Builder()
+        .authentication(authentication)
+        .producer(PRODUCER)
+        .build();
+  }
+
+  private BufferAllocator allocator;
+  private ArrowFlightJdbcConnectionPoolDataSource dataSource;
+
+  @Before
+  public void setUp() throws Exception {
+    allocator = new RootAllocator(Long.MAX_VALUE);
+    dataSource = FLIGHT_SERVER_TEST_RULE.createConnectionPoolDataSource();
+  }
+
+  @After
+  public void tearDown() throws Exception {
+    Collection<BufferAllocator> childAllocators = allocator.getChildAllocators();
+    AutoCloseables.close(childAllocators.toArray(new AutoCloseable[0]));
+    AutoCloseables.close(dataSource, allocator);
+  }
+
+  /**
+   * Tests whether the {@link ArrowFlightJdbcDriver} is registered in the
+   * {@link DriverManager}.
+   *
+   * @throws SQLException If an error occurs. (This is not supposed to happen.)
+   */
+  @Test
+  public void testDriverIsRegisteredInDriverManager() throws Exception {
+    assertTrue(DriverManager.getDriver("jdbc:arrow-flight://localhost:32010") instanceof
+        ArrowFlightJdbcDriver);
+    assertTrue(DriverManager.getDriver("jdbc:arrow-flight-sql://localhost:32010") instanceof
+        ArrowFlightJdbcDriver);
+  }
+
+  /**
+   * Tests whether the {@link ArrowFlightJdbcDriver} returns null when provided with an
+   * unsupported URL prefix.
+   */
+  @Test
+  public void testShouldDeclineUrlWithUnsupportedPrefix() throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+
+    assertNull(driver.connect("jdbc:mysql://localhost:32010",
+        dataSource.getProperties("flight", "flight123")));
+  }
+
+  /**
+   * Tests whether the {@link ArrowFlightJdbcDriver} can establish a successful
+   * connection to the Arrow Flight client.
+   *
+   * @throws Exception If the connection fails to be established.
+   */
+  @Test
+  public void testShouldConnectWhenProvidedWithValidUrl() throws Exception {
+    // Get the Arrow Flight JDBC driver by providing a URL with a valid prefix.
+    final Driver driver = new ArrowFlightJdbcDriver();
+
+    try (Connection connection =
+             driver.connect("jdbc:arrow-flight://" +
+                     dataSource.getConfig().getHost() + ":" +
+                     dataSource.getConfig().getPort() + "?" +
+                     "useEncryption=false",
+                 dataSource.getProperties(dataSource.getConfig().getUser(), dataSource.getConfig().getPassword()))) {
+      assertTrue(connection.isValid(300));
+    }
+    try (Connection connection =
+             driver.connect("jdbc:arrow-flight-sql://" +
+                     dataSource.getConfig().getHost() + ":" +
+                     dataSource.getConfig().getPort() + "?" +
+                     "useEncryption=false",
+                 dataSource.getProperties(dataSource.getConfig().getUser(), dataSource.getConfig().getPassword()))) {
+      assertTrue(connection.isValid(300));
+    }
+  }
+
+  @Test
+  public void testConnectWithInsensitiveCasePropertyKeys() throws Exception {
+    // Get the Arrow Flight JDBC driver by providing a URL with insensitive case property keys.
+    final Driver driver = new ArrowFlightJdbcDriver();
+
+    try (Connection connection =
+             driver.connect("jdbc:arrow-flight://" +
+                     dataSource.getConfig().getHost() + ":" +
+                     dataSource.getConfig().getPort() + "?" +
+                     "UseEncryptiOn=false",
+                 dataSource.getProperties(dataSource.getConfig().getUser(), dataSource.getConfig().getPassword()))) {
+      assertTrue(connection.isValid(300));
+    }
+    try (Connection connection =
+             driver.connect("jdbc:arrow-flight-sql://" +
+                     dataSource.getConfig().getHost() + ":" +
+                     dataSource.getConfig().getPort() + "?" +
+                     "UseEncryptiOn=false",
+                 dataSource.getProperties(dataSource.getConfig().getUser(), dataSource.getConfig().getPassword()))) {
+      assertTrue(connection.isValid(300));
+    }
+  }
+
+  @Test
+  public void testConnectWithInsensitiveCasePropertyKeys2() throws Exception {
+    // Get the Arrow Flight JDBC driver by providing a property object with insensitive case keys.
+    final Driver driver = new ArrowFlightJdbcDriver();
+    Properties properties =
+        dataSource.getProperties(dataSource.getConfig().getUser(), dataSource.getConfig().getPassword());
+    properties.put("UseEncryptiOn", "false");
+
+    try (Connection connection =
+             driver.connect("jdbc:arrow-flight://" +
+                 dataSource.getConfig().getHost() + ":" +
+                 dataSource.getConfig().getPort(), properties)) {
+      assertTrue(connection.isValid(300));
+    }
+    try (Connection connection =
+             driver.connect("jdbc:arrow-flight-sql://" +
+                 dataSource.getConfig().getHost() + ":" +
+                 dataSource.getConfig().getPort(), properties)) {
+      assertTrue(connection.isValid(300));
+    }
+  }
+
+  /**
+   * Tests whether an exception is thrown upon attempting to connect to a
+   * malformed URI.
+   */
+  @Test(expected = SQLException.class)
+  public void testShouldThrowExceptionWhenAttemptingToConnectToMalformedUrl() throws SQLException {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    final String malformedUri = "yes:??/chainsaw.i=T333";
+
+    driver.connect(malformedUri, dataSource.getProperties("flight", "flight123"));
+  }
+
+  /**
+   * Tests whether an exception is thrown upon attempting to connect to a
+   * malformed URI.
+   *
+   * @throws Exception If an error occurs.
+   */
+  @Test(expected = SQLException.class)
+  public void testShouldThrowExceptionWhenAttemptingToConnectToUrlNoPrefix() throws SQLException {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    final String malformedUri = "localhost:32010";
+
+    driver.connect(malformedUri, dataSource.getProperties(dataSource.getConfig().getUser(),
+        dataSource.getConfig().getPassword()));
+  }
+
+  /**
+   * Tests whether an exception is thrown upon attempting to connect to a
+   * malformed URI.
+   */
+  @Test
+  public void testShouldThrowExceptionWhenAttemptingToConnectToUrlNoPort() {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    SQLException e = assertThrows(SQLException.class, () -> {
+      Properties properties = dataSource.getProperties(dataSource.getConfig().getUser(),
+          dataSource.getConfig().getPassword());
+      Connection conn = driver.connect("jdbc:arrow-flight://localhost", properties);
+      conn.close();
+    });
+    assertTrue(e.getMessage().contains("URL must have a port"));
+    e = assertThrows(SQLException.class, () -> {
+      Properties properties = dataSource.getProperties(dataSource.getConfig().getUser(),
+          dataSource.getConfig().getPassword());
+      Connection conn = driver.connect("jdbc:arrow-flight-sql://localhost", properties);
+      conn.close();
+    });
+    assertTrue(e.getMessage().contains("URL must have a port"));
+  }
+
+  /**
+   * Tests whether an exception is thrown upon attempting to connect to a
+   * malformed URI.
+   */
+  @Test
+  public void testShouldThrowExceptionWhenAttemptingToConnectToUrlNoHost() {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    SQLException e = assertThrows(SQLException.class, () -> {
+      Properties properties = dataSource.getProperties(dataSource.getConfig().getUser(),
+          dataSource.getConfig().getPassword());
+      Connection conn = driver.connect("jdbc:arrow-flight://32010:localhost", properties);
+      conn.close();
+    });
+    assertTrue(e.getMessage().contains("URL must have a host"));
+
+    e = assertThrows(SQLException.class, () -> {
+      Properties properties = dataSource.getProperties(dataSource.getConfig().getUser(),
+          dataSource.getConfig().getPassword());
+      Connection conn = driver.connect("jdbc:arrow-flight-sql://32010:localhost", properties);
+      conn.close();
+    });
+    assertTrue(e.getMessage().contains("URL must have a host"));
+  }
+
+  /**
+   * Tests whether {@link ArrowFlightJdbcDriver#getUrlsArgs} returns the
+   * correct URL parameters.
+   *
+   * @throws Exception If an error occurs.
+   */
+  @Test
+  public void testDriverUrlParsingMechanismShouldReturnTheDesiredArgsFromUrl() throws Exception {
+    final ArrowFlightJdbcDriver driver = new ArrowFlightJdbcDriver();
+
+    final Map<Object, Object> parsedArgs = driver.getUrlsArgs(
+        "jdbc:arrow-flight-sql://localhost:2222/?key1=value1&key2=value2&a=b")
+        .orElseThrow(() -> new RuntimeException("URL was rejected"));
+
+    // Check size == the amount of args provided (scheme not included)
+    assertEquals(5, parsedArgs.size());
+
+    // Check host == the provided host
+    assertEquals(parsedArgs.get(ArrowFlightConnectionProperty.HOST.camelName()), "localhost");
+
+    // Check port == the provided port
+    assertEquals(parsedArgs.get(ArrowFlightConnectionProperty.PORT.camelName()), 2222);
+
+    // Check all other non-default arguments
+    assertEquals(parsedArgs.get("key1"), "value1");
+    assertEquals(parsedArgs.get("key2"), "value2");
+    assertEquals(parsedArgs.get("a"), "b");
+  }
+
+  @Test
+  public void testDriverUrlParsingMechanismShouldReturnTheDesiredArgsFromUrlWithSemicolon() throws Exception {
+    final ArrowFlightJdbcDriver driver = new ArrowFlightJdbcDriver();
+    final Map<Object, Object> parsedArgs = driver.getUrlsArgs(
+        "jdbc:arrow-flight-sql://localhost:2222/;key1=value1;key2=value2;a=b")
+        .orElseThrow(() -> new RuntimeException("URL was rejected"));
+
+    // Check size == the amount of args provided (scheme not included)
+    assertEquals(5, parsedArgs.size());
+
+    // Check host == the provided host
+    assertEquals(parsedArgs.get(ArrowFlightConnectionProperty.HOST.camelName()), "localhost");
+
+    // Check port == the provided port
+    assertEquals(parsedArgs.get(ArrowFlightConnectionProperty.PORT.camelName()), 2222);
+
+    // Check all other non-default arguments
+    assertEquals(parsedArgs.get("key1"), "value1");
+    assertEquals(parsedArgs.get("key2"), "value2");
+    assertEquals(parsedArgs.get("a"), "b");
+  }
+
+  @Test
+  public void testDriverUrlParsingMechanismShouldReturnTheDesiredArgsFromUrlWithOneSemicolon() throws Exception {
+    final ArrowFlightJdbcDriver driver = new ArrowFlightJdbcDriver();
+    final Map<Object, Object> parsedArgs = driver.getUrlsArgs(
+        "jdbc:arrow-flight-sql://localhost:2222/;key1=value1")
+        .orElseThrow(() -> new RuntimeException("URL was rejected"));
+
+    // Check size == the amount of args provided (scheme not included)
+    assertEquals(3, parsedArgs.size());
+
+    // Check host == the provided host
+    assertEquals(parsedArgs.get(ArrowFlightConnectionProperty.HOST.camelName()), "localhost");
+
+    // Check port == the provided port
+    assertEquals(parsedArgs.get(ArrowFlightConnectionProperty.PORT.camelName()), 2222);
+
+    // Check all other non-default arguments
+    assertEquals(parsedArgs.get("key1"), "value1");
+  }
+
+  @Test
+  public void testDriverUrlParsingMechanismShouldReturnEmptyOptionalForUnknownScheme() throws SQLException {
+    final ArrowFlightJdbcDriver driver = new ArrowFlightJdbcDriver();
+    assertFalse(driver.getUrlsArgs("jdbc:malformed-url-flight://localhost:2222").isPresent());
+  }
+
+  /**
+   * Tests whether {@code ArrowFlightJdbcDriverTest#getUrlsArgs} returns the
+   * correct URL parameters when the host is an IP Address.
+   *
+   * @throws Exception If an error occurs.
+   */
+  @Test
+  public void testDriverUrlParsingMechanismShouldWorkWithIPAddress() throws Exception {
+    final ArrowFlightJdbcDriver driver = new ArrowFlightJdbcDriver();
+    final Map<Object, Object> parsedArgs = driver.getUrlsArgs("jdbc:arrow-flight-sql://0.0.0.0:2222")
+        .orElseThrow(() -> new RuntimeException("URL was rejected"));
+
+    // Check size == the amount of args provided (scheme not included)
+    assertEquals(2, parsedArgs.size());
+
+    // Check host == the provided host
+    assertEquals(parsedArgs.get(ArrowFlightConnectionProperty.HOST.camelName()), "0.0.0.0");
+
+    // Check port == the provided port
+    assertEquals(parsedArgs.get(ArrowFlightConnectionProperty.PORT.camelName()), 2222);
+  }
+
+  /**
+   * Tests whether {@code ArrowFlightJdbcDriverTest#getUrlsArgs} escape especial characters and returns the
+   * correct URL parameters when the especial character '&' is embedded in the query parameters values.
+   *
+   * @throws Exception If an error occurs.
+   */
+  @Test
+  public void testDriverUrlParsingMechanismShouldWorkWithEmbeddedEspecialCharacter()
+      throws Exception {
+    final ArrowFlightJdbcDriver driver = new ArrowFlightJdbcDriver();
+    final Map<Object, Object> parsedArgs = driver.getUrlsArgs(
+        "jdbc:arrow-flight-sql://0.0.0.0:2222?test1=test1value&test2%26continue=test2value&test3=test3value")
+        .orElseThrow(() -> new RuntimeException("URL was rejected"));
+
+    // Check size == the amount of args provided (scheme not included)
+    assertEquals(5, parsedArgs.size());
+
+    // Check host == the provided host
+    assertEquals(parsedArgs.get(ArrowFlightConnectionProperty.HOST.camelName()), "0.0.0.0");
+
+    // Check port == the provided port
+    assertEquals(parsedArgs.get(ArrowFlightConnectionProperty.PORT.camelName()), 2222);
+
+    // Check all other non-default arguments
+    assertEquals(parsedArgs.get("test1"), "test1value");
+    assertEquals(parsedArgs.get("test2&continue"), "test2value");
+    assertEquals(parsedArgs.get("test3"), "test3value");
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcFactoryTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcFactoryTest.java
new file mode 100644
index 00000000000..a355e7156f7
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcFactoryTest.java
@@ -0,0 +1,90 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import java.lang.reflect.Constructor;
+import java.sql.Connection;
+import java.util.Properties;
+
+import org.apache.arrow.driver.jdbc.authentication.UserPasswordAuthentication;
+import org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty;
+import org.apache.arrow.driver.jdbc.utils.MockFlightSqlProducer;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.calcite.avatica.UnregisteredDriver;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Test;
+
+import com.google.common.collect.ImmutableMap;
+
+/**
+ * Tests for {@link ArrowFlightJdbcDriver}.
+ */
+public class ArrowFlightJdbcFactoryTest {
+
+  @ClassRule
+  public static final FlightServerTestRule FLIGHT_SERVER_TEST_RULE;
+  private static final MockFlightSqlProducer PRODUCER = new MockFlightSqlProducer();
+
+  static {
+    UserPasswordAuthentication authentication =
+        new UserPasswordAuthentication.Builder().user("user1", "pass1").user("user2", "pass2")
+            .build();
+
+    FLIGHT_SERVER_TEST_RULE = new FlightServerTestRule.Builder()
+        .authentication(authentication)
+        .producer(PRODUCER)
+        .build();
+  }
+
+  private BufferAllocator allocator;
+  private ArrowFlightJdbcConnectionPoolDataSource dataSource;
+
+  @Before
+  public void setUp() throws Exception {
+    allocator = new RootAllocator(Long.MAX_VALUE);
+    dataSource = FLIGHT_SERVER_TEST_RULE.createConnectionPoolDataSource();
+  }
+
+  @After
+  public void tearDown() throws Exception {
+    AutoCloseables.close(dataSource, allocator);
+  }
+
+  @Test
+  public void testShouldBeAbleToEstablishAConnectionSuccessfully() throws Exception {
+    UnregisteredDriver driver = new ArrowFlightJdbcDriver();
+    Constructor<ArrowFlightJdbcFactory> constructor = ArrowFlightJdbcFactory.class.getConstructor();
+    constructor.setAccessible(true);
+    ArrowFlightJdbcFactory factory = constructor.newInstance();
+
+    final Properties properties = new Properties();
+    properties.putAll(ImmutableMap.of(
+        ArrowFlightConnectionProperty.HOST.camelName(), "localhost",
+        ArrowFlightConnectionProperty.PORT.camelName(), 32010,
+        ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(), false));
+
+    try (Connection connection = factory.newConnection(driver, constructor.newInstance(),
+        "jdbc:arrow-flight-sql://localhost:32010", properties)) {
+      assert connection.isValid(300);
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcTimeTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcTimeTest.java
new file mode 100644
index 00000000000..104794b3ad1
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightJdbcTimeTest.java
@@ -0,0 +1,80 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.hamcrest.CoreMatchers.endsWith;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.time.LocalTime;
+import java.util.concurrent.TimeUnit;
+
+import org.junit.ClassRule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+public class ArrowFlightJdbcTimeTest {
+
+  @ClassRule
+  public static final ErrorCollector collector = new ErrorCollector();
+  final int hour = 5;
+  final int minute = 6;
+  final int second = 7;
+
+  @Test
+  public void testPrintingMillisNoLeadingZeroes() {
+    // testing the regular case where the precision of the millisecond is 3
+    LocalTime dateTime = LocalTime.of(hour, minute, second, (int) TimeUnit.MILLISECONDS.toNanos(999));
+    ArrowFlightJdbcTime time = new ArrowFlightJdbcTime(dateTime);
+    collector.checkThat(time.toString(), endsWith(".999"));
+    collector.checkThat(time.getHours(), is(hour));
+    collector.checkThat(time.getMinutes(), is(minute));
+    collector.checkThat(time.getSeconds(), is(second));
+  }
+
+  @Test
+  public void testPrintingMillisOneLeadingZeroes() {
+    // test case where one leading zero needs to be added
+    LocalTime dateTime = LocalTime.of(hour, minute, second, (int) TimeUnit.MILLISECONDS.toNanos(99));
+    ArrowFlightJdbcTime time = new ArrowFlightJdbcTime(dateTime);
+    collector.checkThat(time.toString(), endsWith(".099"));
+    collector.checkThat(time.getHours(), is(hour));
+    collector.checkThat(time.getMinutes(), is(minute));
+    collector.checkThat(time.getSeconds(), is(second));
+  }
+
+  @Test
+  public void testPrintingMillisTwoLeadingZeroes() {
+    // test case where two leading zeroes needs to be added
+    LocalTime dateTime = LocalTime.of(hour, minute, second, (int) TimeUnit.MILLISECONDS.toNanos(1));
+    ArrowFlightJdbcTime time = new ArrowFlightJdbcTime(dateTime);
+    collector.checkThat(time.toString(), endsWith(".001"));
+    collector.checkThat(time.getHours(), is(hour));
+    collector.checkThat(time.getMinutes(), is(minute));
+    collector.checkThat(time.getSeconds(), is(second));
+  }
+
+  @Test
+  public void testEquality() {
+    // tests #equals and #hashCode for coverage checks
+    LocalTime dateTime = LocalTime.of(hour, minute, second, (int) TimeUnit.MILLISECONDS.toNanos(1));
+    ArrowFlightJdbcTime time1 = new ArrowFlightJdbcTime(dateTime);
+    ArrowFlightJdbcTime time2 = new ArrowFlightJdbcTime(dateTime);
+    collector.checkThat(time1, is(time2));
+    collector.checkThat(time1.hashCode(), is(time2.hashCode()));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightPreparedStatementTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightPreparedStatementTest.java
new file mode 100644
index 00000000000..8af529296fa
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightPreparedStatementTest.java
@@ -0,0 +1,91 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.junit.jupiter.api.Assertions.assertEquals;
+
+import java.sql.Connection;
+import java.sql.PreparedStatement;
+import java.sql.ResultSet;
+import java.sql.SQLException;
+
+import org.apache.arrow.driver.jdbc.utils.CoreMockedSqlProducers;
+import org.apache.arrow.driver.jdbc.utils.MockFlightSqlProducer;
+import org.junit.AfterClass;
+import org.junit.BeforeClass;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+public class ArrowFlightPreparedStatementTest {
+
+  public static final MockFlightSqlProducer PRODUCER = CoreMockedSqlProducers.getLegacyProducer();
+  @ClassRule
+  public static final FlightServerTestRule FLIGHT_SERVER_TEST_RULE = FlightServerTestRule
+      .createStandardTestRule(PRODUCER);
+
+  private static Connection connection;
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  @BeforeClass
+  public static void setup() throws SQLException {
+    connection = FLIGHT_SERVER_TEST_RULE.getConnection(false);
+  }
+
+  @AfterClass
+  public static void tearDown() throws SQLException {
+    connection.close();
+  }
+
+  @Test
+  public void testSimpleQueryNoParameterBinding() throws SQLException {
+    final String query = CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD;
+    try (final PreparedStatement preparedStatement = connection.prepareStatement(query);
+         final ResultSet resultSet = preparedStatement.executeQuery()) {
+      CoreMockedSqlProducers.assertLegacyRegularSqlResultSet(resultSet, collector);
+    }
+  }
+
+  @Test
+  public void testReturnColumnCount() throws SQLException {
+    final String query = CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD;
+    try (final PreparedStatement psmt = connection.prepareStatement(query)) {
+      collector.checkThat("ID", equalTo(psmt.getMetaData().getColumnName(1)));
+      collector.checkThat("Name", equalTo(psmt.getMetaData().getColumnName(2)));
+      collector.checkThat("Age", equalTo(psmt.getMetaData().getColumnName(3)));
+      collector.checkThat("Salary", equalTo(psmt.getMetaData().getColumnName(4)));
+      collector.checkThat("Hire Date", equalTo(psmt.getMetaData().getColumnName(5)));
+      collector.checkThat("Last Sale", equalTo(psmt.getMetaData().getColumnName(6)));
+      collector.checkThat(6, equalTo(psmt.getMetaData().getColumnCount()));
+    }
+  }
+
+  @Test
+  public void testUpdateQuery() throws SQLException {
+    String query = "Fake update";
+    PRODUCER.addUpdateQuery(query, /*updatedRows*/42);
+    try (final PreparedStatement stmt = connection.prepareStatement(query)) {
+      int updated = stmt.executeUpdate();
+      assertEquals(42, updated);
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightStatementExecuteTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightStatementExecuteTest.java
new file mode 100644
index 00000000000..155fcc50827
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightStatementExecuteTest.java
@@ -0,0 +1,173 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.hamcrest.CoreMatchers.allOf;
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+import static org.hamcrest.CoreMatchers.not;
+import static org.hamcrest.CoreMatchers.nullValue;
+
+import java.sql.Connection;
+import java.sql.ResultSet;
+import java.sql.SQLException;
+import java.sql.Statement;
+import java.util.Collections;
+import java.util.HashSet;
+import java.util.Set;
+import java.util.stream.Collectors;
+import java.util.stream.IntStream;
+
+import org.apache.arrow.driver.jdbc.utils.MockFlightSqlProducer;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.vector.UInt1Vector;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.types.Types.MinorType;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.calcite.avatica.AvaticaUtils;
+import org.junit.After;
+import org.junit.AfterClass;
+import org.junit.Before;
+import org.junit.BeforeClass;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+/**
+ * Tests for {@link ArrowFlightStatement#execute}.
+ */
+public class ArrowFlightStatementExecuteTest {
+  private static final String SAMPLE_QUERY_CMD = "SELECT * FROM this_test";
+  private static final int SAMPLE_QUERY_ROWS = Byte.MAX_VALUE;
+  private static final String VECTOR_NAME = "Unsigned Byte";
+  private static final Schema SAMPLE_QUERY_SCHEMA =
+      new Schema(Collections.singletonList(Field.nullable(VECTOR_NAME, MinorType.UINT1.getType())));
+  private static final String SAMPLE_UPDATE_QUERY =
+      "UPDATE this_table SET this_field = that_field FROM this_test WHERE this_condition";
+  private static final long SAMPLE_UPDATE_COUNT = 100L;
+  private static final String SAMPLE_LARGE_UPDATE_QUERY =
+      "UPDATE this_large_table SET this_large_field = that_large_field FROM this_large_test WHERE this_large_condition";
+  private static final long SAMPLE_LARGE_UPDATE_COUNT = Long.MAX_VALUE;
+  private static final MockFlightSqlProducer PRODUCER = new MockFlightSqlProducer();
+  @ClassRule
+  public static final FlightServerTestRule SERVER_TEST_RULE = FlightServerTestRule.createStandardTestRule(PRODUCER);
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+  private Connection connection;
+  private Statement statement;
+
+  @BeforeClass
+  public static void setUpBeforeClass() {
+    PRODUCER.addSelectQuery(
+        SAMPLE_QUERY_CMD,
+        SAMPLE_QUERY_SCHEMA,
+        Collections.singletonList(listener -> {
+          try (final BufferAllocator allocator = new RootAllocator(Long.MAX_VALUE);
+               final VectorSchemaRoot root = VectorSchemaRoot.create(SAMPLE_QUERY_SCHEMA,
+                   allocator)) {
+            final UInt1Vector vector = (UInt1Vector) root.getVector(VECTOR_NAME);
+            IntStream.range(0, SAMPLE_QUERY_ROWS).forEach(index -> vector.setSafe(index, index));
+            vector.setValueCount(SAMPLE_QUERY_ROWS);
+            root.setRowCount(SAMPLE_QUERY_ROWS);
+            listener.start(root);
+            listener.putNext();
+          } catch (final Throwable throwable) {
+            listener.error(throwable);
+          } finally {
+            listener.completed();
+          }
+        }));
+    PRODUCER.addUpdateQuery(SAMPLE_UPDATE_QUERY, SAMPLE_UPDATE_COUNT);
+    PRODUCER.addUpdateQuery(SAMPLE_LARGE_UPDATE_QUERY, SAMPLE_LARGE_UPDATE_COUNT);
+  }
+
+  @Before
+  public void setUp() throws SQLException {
+    connection = SERVER_TEST_RULE.getConnection(false);
+    statement = connection.createStatement();
+  }
+
+  @After
+  public void tearDown() throws Exception {
+    AutoCloseables.close(statement, connection);
+  }
+
+  @AfterClass
+  public static void tearDownAfterClass() throws Exception {
+    AutoCloseables.close(PRODUCER);
+  }
+
+  @Test
+  public void testExecuteShouldRunSelectQuery() throws SQLException {
+    collector.checkThat(statement.execute(SAMPLE_QUERY_CMD),
+        is(true)); // Means this is a SELECT query.
+    final Set<Byte> numbers =
+        IntStream.range(0, SAMPLE_QUERY_ROWS).boxed()
+            .map(Integer::byteValue)
+            .collect(Collectors.toCollection(HashSet::new));
+    try (final ResultSet resultSet = statement.getResultSet()) {
+      final int columnCount = resultSet.getMetaData().getColumnCount();
+      collector.checkThat(columnCount, is(1));
+      int rowCount = 0;
+      for (; resultSet.next(); rowCount++) {
+        collector.checkThat(numbers.remove(resultSet.getByte(1)), is(true));
+      }
+      collector.checkThat(rowCount, is(equalTo(SAMPLE_QUERY_ROWS)));
+    }
+    collector.checkThat(numbers, is(Collections.emptySet()));
+    collector.checkThat(
+        (long) statement.getUpdateCount(),
+        is(allOf(equalTo(statement.getLargeUpdateCount()), equalTo(-1L))));
+  }
+
+  @Test
+  public void testExecuteShouldRunUpdateQueryForSmallUpdate() throws SQLException {
+    collector.checkThat(statement.execute(SAMPLE_UPDATE_QUERY),
+        is(false)); // Means this is an UPDATE query.
+    collector.checkThat(
+        (long) statement.getUpdateCount(),
+        is(allOf(equalTo(statement.getLargeUpdateCount()), equalTo(SAMPLE_UPDATE_COUNT))));
+    collector.checkThat(statement.getResultSet(), is(nullValue()));
+  }
+
+  @Test
+  public void testExecuteShouldRunUpdateQueryForLargeUpdate() throws SQLException {
+    collector.checkThat(statement.execute(SAMPLE_LARGE_UPDATE_QUERY), is(false)); // UPDATE query.
+    final long updateCountSmall = statement.getUpdateCount();
+    final long updateCountLarge = statement.getLargeUpdateCount();
+    collector.checkThat(updateCountLarge, is(equalTo(SAMPLE_LARGE_UPDATE_COUNT)));
+    collector.checkThat(
+        updateCountSmall,
+        is(allOf(equalTo((long) AvaticaUtils.toSaturatedInt(updateCountLarge)),
+            not(equalTo(updateCountLarge)))));
+    collector.checkThat(statement.getResultSet(), is(nullValue()));
+  }
+
+  @Test
+  public void testUpdateCountShouldStartOnZero() throws SQLException {
+    collector.checkThat(
+        (long) statement.getUpdateCount(),
+        is(allOf(equalTo(statement.getLargeUpdateCount()), equalTo(0L))));
+    collector.checkThat(statement.getResultSet(), is(nullValue()));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightStatementExecuteUpdateTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightStatementExecuteUpdateTest.java
new file mode 100644
index 00000000000..43209d8913e
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ArrowFlightStatementExecuteUpdateTest.java
@@ -0,0 +1,216 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static java.lang.String.format;
+import static org.hamcrest.CoreMatchers.allOf;
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.instanceOf;
+import static org.hamcrest.CoreMatchers.is;
+import static org.hamcrest.CoreMatchers.not;
+
+import java.sql.Connection;
+import java.sql.SQLException;
+import java.sql.SQLFeatureNotSupportedException;
+import java.sql.Statement;
+import java.util.Collections;
+
+import org.apache.arrow.driver.jdbc.utils.MockFlightSqlProducer;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.types.Types.MinorType;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.calcite.avatica.AvaticaUtils;
+import org.junit.After;
+import org.junit.AfterClass;
+import org.junit.Before;
+import org.junit.BeforeClass;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+/**
+ * Tests for {@link ArrowFlightStatement#executeUpdate}.
+ */
+public class ArrowFlightStatementExecuteUpdateTest {
+  private static final String UPDATE_SAMPLE_QUERY =
+      "UPDATE sample_table SET sample_col = sample_val WHERE sample_condition";
+  private static final int UPDATE_SAMPLE_QUERY_AFFECTED_COLS = 10;
+  private static final String LARGE_UPDATE_SAMPLE_QUERY =
+      "UPDATE large_sample_table SET large_sample_col = large_sample_val WHERE large_sample_condition";
+  private static final long LARGE_UPDATE_SAMPLE_QUERY_AFFECTED_COLS = (long) Integer.MAX_VALUE + 1;
+  private static final String REGULAR_QUERY_SAMPLE = "SELECT * FROM NOT_UPDATE_QUERY";
+  private static final Schema REGULAR_QUERY_SCHEMA =
+      new Schema(
+          Collections.singletonList(Field.nullable("placeholder", MinorType.VARCHAR.getType())));
+  private static final MockFlightSqlProducer PRODUCER = new MockFlightSqlProducer();
+  @ClassRule
+  public static final FlightServerTestRule SERVER_TEST_RULE = FlightServerTestRule.createStandardTestRule(PRODUCER);
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+  public Connection connection;
+  public Statement statement;
+
+  @BeforeClass
+  public static void setUpBeforeClass() {
+    PRODUCER.addUpdateQuery(UPDATE_SAMPLE_QUERY, UPDATE_SAMPLE_QUERY_AFFECTED_COLS);
+    PRODUCER.addUpdateQuery(LARGE_UPDATE_SAMPLE_QUERY, LARGE_UPDATE_SAMPLE_QUERY_AFFECTED_COLS);
+    PRODUCER.addSelectQuery(
+        REGULAR_QUERY_SAMPLE,
+        REGULAR_QUERY_SCHEMA,
+        Collections.singletonList(listener -> {
+          try (final BufferAllocator allocator = new RootAllocator(Long.MAX_VALUE);
+               final VectorSchemaRoot root = VectorSchemaRoot.create(REGULAR_QUERY_SCHEMA,
+                   allocator)) {
+            listener.start(root);
+            listener.putNext();
+          } catch (final Throwable throwable) {
+            listener.error(throwable);
+          } finally {
+            listener.completed();
+          }
+        }));
+  }
+
+  @Before
+  public void setUp() throws SQLException {
+    connection = SERVER_TEST_RULE.getConnection(false);
+    statement = connection.createStatement();
+  }
+
+  @After
+  public void tearDown() throws Exception {
+    AutoCloseables.close(statement, connection);
+  }
+
+  @AfterClass
+  public static void tearDownAfterClass() throws Exception {
+    AutoCloseables.close(PRODUCER);
+  }
+
+  @Test
+  public void testExecuteUpdateShouldReturnNumColsAffectedForNumRowsFittingInt()
+      throws SQLException {
+    collector.checkThat(statement.executeUpdate(UPDATE_SAMPLE_QUERY),
+        is(UPDATE_SAMPLE_QUERY_AFFECTED_COLS));
+  }
+
+  @Test
+  public void testExecuteUpdateShouldReturnSaturatedNumColsAffectedIfDoesNotFitInInt()
+      throws SQLException {
+    final long result = statement.executeUpdate(LARGE_UPDATE_SAMPLE_QUERY);
+    final long expectedRowCountRaw = LARGE_UPDATE_SAMPLE_QUERY_AFFECTED_COLS;
+    collector.checkThat(
+        result,
+        is(allOf(
+            not(equalTo(expectedRowCountRaw)),
+            equalTo((long) AvaticaUtils.toSaturatedInt(
+                expectedRowCountRaw))))); // Because of long-to-integer overflow.
+  }
+
+  @Test
+  public void testExecuteLargeUpdateShouldReturnNumColsAffected() throws SQLException {
+    collector.checkThat(
+        statement.executeLargeUpdate(LARGE_UPDATE_SAMPLE_QUERY),
+        is(LARGE_UPDATE_SAMPLE_QUERY_AFFECTED_COLS));
+  }
+
+  @Test(expected = SQLFeatureNotSupportedException.class)
+  // TODO Implement `Statement#executeUpdate(String, int)`
+  public void testExecuteUpdateUnsupportedWithDriverFlag() throws SQLException {
+    collector.checkThat(
+        statement.executeUpdate(UPDATE_SAMPLE_QUERY, Statement.RETURN_GENERATED_KEYS),
+        is(UPDATE_SAMPLE_QUERY_AFFECTED_COLS));
+  }
+
+  @Test(expected = SQLFeatureNotSupportedException.class)
+  // TODO Implement `Statement#executeUpdate(String, int[])`
+  public void testExecuteUpdateUnsupportedWithArrayOfInts() throws SQLException {
+    collector.checkThat(
+        statement.executeUpdate(UPDATE_SAMPLE_QUERY, new int[0]),
+        is(UPDATE_SAMPLE_QUERY_AFFECTED_COLS));
+  }
+
+  @Test(expected = SQLFeatureNotSupportedException.class)
+  // TODO Implement `Statement#executeUpdate(String, String[])`
+  public void testExecuteUpdateUnsupportedWithArraysOfStrings() throws SQLException {
+    collector.checkThat(
+        statement.executeUpdate(UPDATE_SAMPLE_QUERY, new String[0]),
+        is(UPDATE_SAMPLE_QUERY_AFFECTED_COLS));
+  }
+
+  @Test
+  public void testExecuteShouldExecuteUpdateQueryAutomatically() throws SQLException {
+    collector.checkThat(statement.execute(UPDATE_SAMPLE_QUERY),
+        is(false)); // Meaning there was an update query.
+    collector.checkThat(statement.execute(REGULAR_QUERY_SAMPLE),
+        is(true)); // Meaning there was a select query.
+  }
+
+  @Test
+  public void testShouldFailToPrepareStatementForNullQuery() {
+    int count = 0;
+    try {
+      collector.checkThat(statement.execute(null), is(false));
+    } catch (final SQLException e) {
+      count++;
+      collector.checkThat(e.getCause(), is(instanceOf(NullPointerException.class)));
+    }
+    collector.checkThat(count, is(1));
+  }
+
+  @Test
+  public void testShouldFailToPrepareStatementForClosedStatement() throws SQLException {
+    statement.close();
+    collector.checkThat(statement.isClosed(), is(true));
+    int count = 0;
+    try {
+      statement.execute(UPDATE_SAMPLE_QUERY);
+    } catch (final SQLException e) {
+      count++;
+      collector.checkThat(e.getMessage(), is("Statement closed"));
+    }
+    collector.checkThat(count, is(1));
+  }
+
+  @Test
+  public void testShouldFailToPrepareStatementForBadStatement() {
+    final String badQuery = "BAD INVALID STATEMENT";
+    int count = 0;
+    try {
+      statement.execute(badQuery);
+    } catch (final SQLException e) {
+      count++;
+      /*
+       * The error message is up to whatever implementation of `FlightSqlProducer`
+       * the driver is communicating with. However, for the purpose of this test,
+       * we simply throw an `IllegalArgumentException` for queries not registered
+       * in our `MockFlightSqlProducer`.
+       */
+      collector.checkThat(
+          e.getMessage(),
+          is(format("Error while executing SQL \"%s\": Query not found", badQuery)));
+    }
+    collector.checkThat(count, is(1));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ConnectionTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ConnectionTest.java
new file mode 100644
index 00000000000..2472ab8fc58
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ConnectionTest.java
@@ -0,0 +1,554 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.junit.Assert.assertNotNull;
+
+import java.net.URISyntaxException;
+import java.sql.Connection;
+import java.sql.Driver;
+import java.sql.DriverManager;
+import java.sql.SQLException;
+import java.util.Properties;
+
+import org.apache.arrow.driver.jdbc.authentication.UserPasswordAuthentication;
+import org.apache.arrow.driver.jdbc.client.ArrowFlightSqlClientHandler;
+import org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty;
+import org.apache.arrow.driver.jdbc.utils.MockFlightSqlProducer;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.util.AutoCloseables;
+import org.junit.After;
+import org.junit.Assert;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Test;
+
+/**
+ * Tests for {@link Connection}.
+ */
+public class ConnectionTest {
+
+  @ClassRule
+  public static final FlightServerTestRule FLIGHT_SERVER_TEST_RULE;
+  private static final MockFlightSqlProducer PRODUCER = new MockFlightSqlProducer();
+  private static final String userTest = "user1";
+  private static final String passTest = "pass1";
+
+  static {
+    UserPasswordAuthentication authentication =
+        new UserPasswordAuthentication.Builder()
+            .user(userTest, passTest)
+            .build();
+
+    FLIGHT_SERVER_TEST_RULE = new FlightServerTestRule.Builder()
+        .authentication(authentication)
+        .producer(PRODUCER)
+        .build();
+  }
+
+  private BufferAllocator allocator;
+
+  @Before
+  public void setUp() throws Exception {
+    allocator = new RootAllocator(Long.MAX_VALUE);
+  }
+
+  @After
+  public void tearDown() throws Exception {
+    allocator.getChildAllocators().forEach(BufferAllocator::close);
+    AutoCloseables.close(allocator);
+  }
+
+  /**
+   * Checks if an unencrypted connection can be established successfully when
+   * the provided valid credentials.
+   *
+   * @throws SQLException on error.
+   */
+  @Test
+  public void testUnencryptedConnectionShouldOpenSuccessfullyWhenProvidedValidCredentials()
+      throws Exception {
+    final Properties properties = new Properties();
+
+    properties.put(ArrowFlightConnectionProperty.HOST.camelName(), "localhost");
+    properties.put(ArrowFlightConnectionProperty.PORT.camelName(),
+        FLIGHT_SERVER_TEST_RULE.getPort());
+    properties.put(ArrowFlightConnectionProperty.USER.camelName(),
+        userTest);
+    properties.put(ArrowFlightConnectionProperty.PASSWORD.camelName(),
+        passTest);
+    properties.put("useEncryption", false);
+
+    try (Connection connection = DriverManager.getConnection(
+        "jdbc:arrow-flight-sql://" + FLIGHT_SERVER_TEST_RULE.getHost() + ":" +
+            FLIGHT_SERVER_TEST_RULE.getPort(), properties)) {
+      assert connection.isValid(300);
+    }
+  }
+
+  /**
+   * Checks if the exception SQLException is thrown when trying to establish a connection without a host.
+   *
+   * @throws SQLException on error.
+   */
+  @Test(expected = SQLException.class)
+  public void testUnencryptedConnectionWithEmptyHost()
+      throws Exception {
+    final Properties properties = new Properties();
+
+    properties.put("user", userTest);
+    properties.put("password", passTest);
+    final String invalidUrl = "jdbc:arrow-flight-sql://";
+
+    DriverManager.getConnection(invalidUrl, properties);
+  }
+
+  /**
+   * Try to instantiate a basic FlightClient.
+   *
+   * @throws URISyntaxException on error.
+   */
+  @Test
+  public void testGetBasicClientAuthenticatedShouldOpenConnection()
+      throws Exception {
+
+    try (ArrowFlightSqlClientHandler client =
+             new ArrowFlightSqlClientHandler.Builder()
+                 .withHost(FLIGHT_SERVER_TEST_RULE.getHost())
+                 .withPort(FLIGHT_SERVER_TEST_RULE.getPort())
+                 .withUsername(userTest)
+                 .withPassword(passTest)
+                 .withBufferAllocator(allocator)
+                 .build()) {
+      assertNotNull(client);
+    }
+  }
+
+  /**
+   * Checks if the exception IllegalArgumentException is thrown when trying to establish an  unencrypted
+   * connection providing with an invalid port.
+   *
+   * @throws SQLException on error.
+   */
+  @Test(expected = SQLException.class)
+  public void testUnencryptedConnectionProvidingInvalidPort()
+      throws Exception {
+    final Properties properties = new Properties();
+
+    properties.put(ArrowFlightConnectionProperty.HOST.camelName(), "localhost");
+    properties.put(ArrowFlightConnectionProperty.USER.camelName(),
+        userTest);
+    properties.put(ArrowFlightConnectionProperty.PASSWORD.camelName(),
+        passTest);
+    properties.put(ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(),
+        false);
+    final String invalidUrl = "jdbc:arrow-flight-sql://" + FLIGHT_SERVER_TEST_RULE.getHost() +
+        ":" + 65537;
+
+    DriverManager.getConnection(invalidUrl, properties);
+  }
+
+  /**
+   * Try to instantiate a basic FlightClient.
+   *
+   * @throws URISyntaxException on error.
+   */
+  @Test
+  public void testGetBasicClientNoAuthShouldOpenConnection() throws Exception {
+
+    try (ArrowFlightSqlClientHandler client =
+             new ArrowFlightSqlClientHandler.Builder()
+                 .withHost(FLIGHT_SERVER_TEST_RULE.getHost())
+                 .withBufferAllocator(allocator)
+                 .build()) {
+      assertNotNull(client);
+    }
+  }
+
+  /**
+   * Checks if an unencrypted connection can be established successfully when
+   * not providing credentials.
+   *
+   * @throws SQLException on error.
+   */
+  @Test
+  public void testUnencryptedConnectionShouldOpenSuccessfullyWithoutAuthentication()
+      throws Exception {
+    final Properties properties = new Properties();
+    properties.put(ArrowFlightConnectionProperty.HOST.camelName(), "localhost");
+    properties.put(ArrowFlightConnectionProperty.PORT.camelName(),
+        FLIGHT_SERVER_TEST_RULE.getPort());
+    properties.put(ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(),
+        false);
+    try (Connection connection = DriverManager
+        .getConnection("jdbc:arrow-flight-sql://localhost:32010", properties)) {
+      assert connection.isValid(300);
+    }
+  }
+
+  /**
+   * Check if an unencrypted connection throws an exception when provided with
+   * invalid credentials.
+   *
+   * @throws SQLException The exception expected to be thrown.
+   */
+  @Test(expected = SQLException.class)
+  public void testUnencryptedConnectionShouldThrowExceptionWhenProvidedWithInvalidCredentials()
+      throws Exception {
+
+    final Properties properties = new Properties();
+
+    properties.put(ArrowFlightConnectionProperty.HOST.camelName(), "localhost");
+    properties.put(ArrowFlightConnectionProperty.USER.camelName(),
+        "invalidUser");
+    properties.put(ArrowFlightConnectionProperty.PORT.camelName(),
+        FLIGHT_SERVER_TEST_RULE.getPort());
+    properties.put(ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(),
+        false);
+    properties.put(ArrowFlightConnectionProperty.PASSWORD.camelName(),
+        "invalidPassword");
+
+    try (Connection ignored = DriverManager.getConnection("jdbc:arrow-flight-sql://localhost:32010",
+        properties)) {
+      Assert.fail();
+    }
+  }
+
+  /**
+   * Check if an non-encrypted connection can be established successfully when connecting through
+   * the DriverManager using just a connection url.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testTLSConnectionPropertyFalseCorrectCastUrlWithDriverManager() throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s?user=%s&password=%s&useEncryption=false",
+            FLIGHT_SERVER_TEST_RULE.getPort(),
+            userTest,
+            passTest));
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an non-encrypted connection can be established successfully when connecting through
+   * the DriverManager using a connection url and properties with String K-V pairs.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testTLSConnectionPropertyFalseCorrectCastUrlAndPropertiesUsingSetPropertyWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    Properties properties = new Properties();
+
+    properties.setProperty(ArrowFlightConnectionProperty.USER.camelName(),
+        userTest);
+    properties.setProperty(ArrowFlightConnectionProperty.PASSWORD.camelName(),
+        passTest);
+    properties.setProperty(ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(), "false");
+
+    Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s",
+            FLIGHT_SERVER_TEST_RULE.getPort()),
+        properties);
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an non-encrypted connection can be established successfully when connecting through
+   * the DriverManager using a connection url and properties with Object K-V pairs.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testTLSConnectionPropertyFalseCorrectCastUrlAndPropertiesUsingPutWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    Properties properties = new Properties();
+    properties.put(ArrowFlightConnectionProperty.USER.camelName(),
+        userTest);
+    properties.put(ArrowFlightConnectionProperty.PASSWORD.camelName(),
+        passTest);
+    properties.put(ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(), false);
+
+    Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s",
+            FLIGHT_SERVER_TEST_RULE.getPort()),
+        properties);
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an non-encrypted connection can be established successfully when connecting through
+   * the DriverManager using just a connection url and using 0 and 1 as ssl values.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testTLSConnectionPropertyFalseIntegerCorrectCastUrlWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s?user=%s&password=%s&useEncryption=0",
+            FLIGHT_SERVER_TEST_RULE.getPort(),
+            userTest,
+            passTest));
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an non-encrypted connection can be established successfully when connecting through
+   * the DriverManager using a connection url and properties with String K-V pairs and using
+   * 0 and 1 as ssl values.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testTLSConnectionPropertyFalseIntegerCorrectCastUrlAndPropertiesUsingSetPropertyWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+    Properties properties = new Properties();
+
+    properties.setProperty(ArrowFlightConnectionProperty.USER.camelName(),
+        userTest);
+    properties.setProperty(ArrowFlightConnectionProperty.PASSWORD.camelName(),
+        passTest);
+    properties.setProperty(ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(), "0");
+
+    Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s",
+            FLIGHT_SERVER_TEST_RULE.getPort()),
+        properties);
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an non-encrypted connection can be established successfully when connecting through
+   * the DriverManager using a connection url and properties with Object K-V pairs and using
+   * 0 and 1 as ssl values.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testTLSConnectionPropertyFalseIntegerCorrectCastUrlAndPropertiesUsingPutWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    Properties properties = new Properties();
+    properties.put(ArrowFlightConnectionProperty.USER.camelName(),
+        userTest);
+    properties.put(ArrowFlightConnectionProperty.PASSWORD.camelName(),
+        passTest);
+    properties.put(ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(), 0);
+
+    Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s",
+            FLIGHT_SERVER_TEST_RULE.getPort()),
+        properties);
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an non-encrypted connection can be established successfully when connecting through
+   * the DriverManager using just a connection url.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testThreadPoolSizeConnectionPropertyCorrectCastUrlWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s?user=%s&password=%s&threadPoolSize=1&useEncryption=%s",
+            FLIGHT_SERVER_TEST_RULE.getPort(),
+            userTest,
+            passTest,
+            false));
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an non-encrypted connection can be established successfully when connecting through
+   * the DriverManager using a connection url and properties with String K-V pairs and using
+   * 0 and 1 as ssl values.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testThreadPoolSizeConnectionPropertyCorrectCastUrlAndPropertiesUsingSetPropertyWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+    Properties properties = new Properties();
+
+    properties.setProperty(ArrowFlightConnectionProperty.USER.camelName(),
+        userTest);
+    properties.setProperty(ArrowFlightConnectionProperty.PASSWORD.camelName(),
+        passTest);
+    properties.setProperty(ArrowFlightConnectionProperty.THREAD_POOL_SIZE.camelName(), "1");
+    properties.put("useEncryption", false);
+
+    Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s",
+            FLIGHT_SERVER_TEST_RULE.getPort()),
+        properties);
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an non-encrypted connection can be established successfully when connecting through
+   * the DriverManager using a connection url and properties with Object K-V pairs and using
+   * 0 and 1 as ssl values.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testThreadPoolSizeConnectionPropertyCorrectCastUrlAndPropertiesUsingPutWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    Properties properties = new Properties();
+    properties.put(ArrowFlightConnectionProperty.USER.camelName(),
+        userTest);
+    properties.put(ArrowFlightConnectionProperty.PASSWORD.camelName(),
+        passTest);
+    properties.put(ArrowFlightConnectionProperty.THREAD_POOL_SIZE.camelName(), 1);
+    properties.put("useEncryption", false);
+
+    Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s",
+            FLIGHT_SERVER_TEST_RULE.getPort()),
+        properties);
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an non-encrypted connection can be established successfully when connecting through
+   * the DriverManager using just a connection url.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testPasswordConnectionPropertyIntegerCorrectCastUrlWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s?user=%s&password=%s&useEncryption=%s",
+            FLIGHT_SERVER_TEST_RULE.getPort(),
+            userTest,
+            passTest,
+            false));
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an non-encrypted connection can be established successfully when connecting through
+   * the DriverManager using a connection url and properties with String K-V pairs and using
+   * 0 and 1 as ssl values.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testPasswordConnectionPropertyIntegerCorrectCastUrlAndPropertiesUsingSetPropertyWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+    Properties properties = new Properties();
+
+    properties.setProperty(ArrowFlightConnectionProperty.USER.camelName(),
+        userTest);
+    properties.setProperty(ArrowFlightConnectionProperty.PASSWORD.camelName(),
+        passTest);
+    properties.put("useEncryption", false);
+
+    Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s",
+            FLIGHT_SERVER_TEST_RULE.getPort()),
+        properties);
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an non-encrypted connection can be established successfully when connecting through
+   * the DriverManager using a connection url and properties with Object K-V pairs and using
+   * 0 and 1 as ssl values.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testPasswordConnectionPropertyIntegerCorrectCastUrlAndPropertiesUsingPutWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    Properties properties = new Properties();
+    properties.put(ArrowFlightConnectionProperty.USER.camelName(),
+        userTest);
+    properties.put(ArrowFlightConnectionProperty.PASSWORD.camelName(),
+        passTest);
+    properties.put("useEncryption", false);
+
+    Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s",
+            FLIGHT_SERVER_TEST_RULE.getPort()),
+        properties);
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ConnectionTlsTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ConnectionTlsTest.java
new file mode 100644
index 00000000000..95d591766a8
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ConnectionTlsTest.java
@@ -0,0 +1,452 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.junit.Assert.assertNotNull;
+
+import java.net.URLEncoder;
+import java.nio.file.Paths;
+import java.sql.Connection;
+import java.sql.Driver;
+import java.sql.DriverManager;
+import java.sql.SQLException;
+import java.util.Properties;
+
+import org.apache.arrow.driver.jdbc.authentication.UserPasswordAuthentication;
+import org.apache.arrow.driver.jdbc.client.ArrowFlightSqlClientHandler;
+import org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty;
+import org.apache.arrow.driver.jdbc.utils.FlightSqlTestCertificates;
+import org.apache.arrow.driver.jdbc.utils.MockFlightSqlProducer;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.util.Preconditions;
+import org.apache.calcite.avatica.org.apache.http.auth.UsernamePasswordCredentials;
+import org.junit.After;
+import org.junit.Assert;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Test;
+
+/**
+ * Tests encrypted connections.
+ */
+public class ConnectionTlsTest {
+
+  @ClassRule
+  public static final FlightServerTestRule FLIGHT_SERVER_TEST_RULE;
+  private static final MockFlightSqlProducer PRODUCER = new MockFlightSqlProducer();
+  private static final String userTest = "user1";
+  private static final String passTest = "pass1";
+
+  static {
+    final FlightSqlTestCertificates.CertKeyPair
+        certKey = FlightSqlTestCertificates.exampleTlsCerts().get(0);
+
+    UserPasswordAuthentication authentication = new UserPasswordAuthentication.Builder()
+            .user(userTest, passTest)
+            .build();
+
+    FLIGHT_SERVER_TEST_RULE = new FlightServerTestRule.Builder()
+        .authentication(authentication)
+        .useEncryption(certKey.cert, certKey.key)
+        .producer(PRODUCER)
+        .build();
+  }
+
+  private String trustStorePath;
+  private String noCertificateKeyStorePath;
+  private final String trustStorePass = "flight";
+  private BufferAllocator allocator;
+
+  @Before
+  public void setUp() throws Exception {
+    trustStorePath = Paths.get(
+        Preconditions.checkNotNull(getClass().getResource("/keys/keyStore.jks")).toURI()).toString();
+    noCertificateKeyStorePath = Paths.get(
+        Preconditions.checkNotNull(getClass().getResource("/keys/noCertificate.jks")).toURI()).toString();
+    allocator = new RootAllocator(Long.MAX_VALUE);
+  }
+
+  @After
+  public void tearDown() throws Exception {
+    allocator.getChildAllocators().forEach(BufferAllocator::close);
+    AutoCloseables.close(allocator);
+  }
+
+  /**
+   * Try to instantiate an encrypted FlightClient.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testGetEncryptedClientAuthenticatedWithDisableCertVerification() throws Exception {
+    final UsernamePasswordCredentials credentials = new UsernamePasswordCredentials(
+        userTest, passTest);
+
+    try (ArrowFlightSqlClientHandler client =
+             new ArrowFlightSqlClientHandler.Builder()
+                 .withHost(FLIGHT_SERVER_TEST_RULE.getHost())
+                 .withPort(FLIGHT_SERVER_TEST_RULE.getPort())
+                 .withUsername(credentials.getUserName())
+                 .withPassword(credentials.getPassword())
+                 .withDisableCertificateVerification(true)
+                 .withBufferAllocator(allocator)
+                 .withEncryption(true)
+                 .build()) {
+      assertNotNull(client);
+    }
+  }
+
+  /**
+   * Try to instantiate an encrypted FlightClient.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testGetEncryptedClientAuthenticated() throws Exception {
+    final UsernamePasswordCredentials credentials = new UsernamePasswordCredentials(
+        userTest, passTest);
+
+    try (ArrowFlightSqlClientHandler client =
+             new ArrowFlightSqlClientHandler.Builder()
+                 .withHost(FLIGHT_SERVER_TEST_RULE.getHost())
+                 .withPort(FLIGHT_SERVER_TEST_RULE.getPort())
+                 .withUsername(credentials.getUserName())
+                 .withPassword(credentials.getPassword())
+                 .withTrustStorePath(trustStorePath)
+                 .withTrustStorePassword(trustStorePass)
+                 .withBufferAllocator(allocator)
+                 .withEncryption(true)
+                 .build()) {
+      assertNotNull(client);
+    }
+  }
+
+  /**
+   * Try to instantiate an encrypted FlightClient providing a keystore without certificate. It's expected to
+   * receive the SQLException.
+   *
+   * @throws Exception on error.
+   */
+  @Test(expected = SQLException.class)
+  public void testGetEncryptedClientWithNoCertificateOnKeyStore() throws Exception {
+    final String noCertificateKeyStorePassword = "flight1";
+
+    try (ArrowFlightSqlClientHandler ignored =
+             new ArrowFlightSqlClientHandler.Builder()
+                 .withHost(FLIGHT_SERVER_TEST_RULE.getHost())
+                 .withTrustStorePath(noCertificateKeyStorePath)
+                 .withTrustStorePassword(noCertificateKeyStorePassword)
+                 .withBufferAllocator(allocator)
+                 .withEncryption(true)
+                 .build()) {
+      Assert.fail();
+    }
+  }
+
+  /**
+   * Try to instantiate an encrypted FlightClient without credentials.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testGetNonAuthenticatedEncryptedClientNoAuth() throws Exception {
+    try (ArrowFlightSqlClientHandler client =
+             new ArrowFlightSqlClientHandler.Builder()
+                 .withHost(FLIGHT_SERVER_TEST_RULE.getHost())
+                 .withTrustStorePath(trustStorePath)
+                 .withTrustStorePassword(trustStorePass)
+                 .withBufferAllocator(allocator)
+                 .withEncryption(true)
+                 .build()) {
+      assertNotNull(client);
+    }
+  }
+
+  /**
+   * Try to instantiate an encrypted FlightClient with an invalid password to the keystore file.
+   * It's expected to receive the SQLException.
+   *
+   * @throws Exception on error.
+   */
+  @Test(expected = SQLException.class)
+  public void testGetEncryptedClientWithKeyStoreBadPasswordAndNoAuth() throws Exception {
+    String keyStoreBadPassword = "badPassword";
+
+    try (ArrowFlightSqlClientHandler ignored =
+             new ArrowFlightSqlClientHandler.Builder()
+                 .withHost(FLIGHT_SERVER_TEST_RULE.getHost())
+                 .withTrustStorePath(trustStorePath)
+                 .withTrustStorePassword(keyStoreBadPassword)
+                 .withBufferAllocator(allocator)
+                 .withEncryption(true)
+                 .build()) {
+      Assert.fail();
+    }
+  }
+
+  /**
+   * Check if an encrypted connection can be established successfully when the
+   * provided valid credentials and a valid Keystore.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testGetEncryptedConnectionWithValidCredentialsAndKeyStore() throws Exception {
+    final Properties properties = new Properties();
+
+    properties.put(ArrowFlightConnectionProperty.HOST.camelName(), "localhost");
+    properties.put(ArrowFlightConnectionProperty.PORT.camelName(),
+        FLIGHT_SERVER_TEST_RULE.getPort());
+    properties.put(ArrowFlightConnectionProperty.USER.camelName(),
+        userTest);
+    properties.put(ArrowFlightConnectionProperty.PASSWORD.camelName(),
+        passTest);
+    properties.put(ArrowFlightConnectionProperty.TRUST_STORE.camelName(), trustStorePath);
+    properties.put(ArrowFlightConnectionProperty.USE_SYSTEM_TRUST_STORE.camelName(), false);
+    properties.put(ArrowFlightConnectionProperty.TRUST_STORE_PASSWORD.camelName(), trustStorePass);
+
+    final ArrowFlightJdbcDataSource dataSource =
+        ArrowFlightJdbcDataSource.createNewDataSource(properties);
+    try (final Connection connection = dataSource.getConnection()) {
+      assert connection.isValid(300);
+    }
+  }
+
+  /**
+   * Check if the SQLException is thrown when trying to establish an encrypted connection
+   * providing valid credentials but invalid password to the Keystore.
+   *
+   * @throws SQLException on error.
+   */
+  @Test(expected = SQLException.class)
+  public void testGetAuthenticatedEncryptedConnectionWithKeyStoreBadPassword() throws Exception {
+    final Properties properties = new Properties();
+
+    properties.put(ArrowFlightConnectionProperty.HOST.camelName(),
+        FLIGHT_SERVER_TEST_RULE.getHost());
+    properties.put(ArrowFlightConnectionProperty.PORT.camelName(),
+        FLIGHT_SERVER_TEST_RULE.getPort());
+    properties.put(ArrowFlightConnectionProperty.USER.camelName(),
+        userTest);
+    properties.put(ArrowFlightConnectionProperty.PASSWORD.camelName(),
+        passTest);
+    properties.put(ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(), true);
+    properties.put(ArrowFlightConnectionProperty.TRUST_STORE.camelName(), trustStorePath);
+    properties.put(ArrowFlightConnectionProperty.TRUST_STORE_PASSWORD.camelName(), "badpassword");
+
+    final ArrowFlightJdbcDataSource dataSource =
+        ArrowFlightJdbcDataSource.createNewDataSource(properties);
+    try (final Connection ignored = dataSource.getConnection()) {
+      Assert.fail();
+    }
+  }
+
+  /**
+   * Check if an encrypted connection can be established successfully when not providing authentication.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testGetNonAuthenticatedEncryptedConnection() throws Exception {
+    final Properties properties = new Properties();
+
+    properties.put(ArrowFlightConnectionProperty.HOST.camelName(), FLIGHT_SERVER_TEST_RULE.getHost());
+    properties.put(ArrowFlightConnectionProperty.PORT.camelName(), FLIGHT_SERVER_TEST_RULE.getPort());
+    properties.put(ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(), true);
+    properties.put(ArrowFlightConnectionProperty.USE_SYSTEM_TRUST_STORE.camelName(), false);
+    properties.put(ArrowFlightConnectionProperty.TRUST_STORE.camelName(), trustStorePath);
+    properties.put(ArrowFlightConnectionProperty.TRUST_STORE_PASSWORD.camelName(), trustStorePass);
+
+    final ArrowFlightJdbcDataSource dataSource = ArrowFlightJdbcDataSource.createNewDataSource(properties);
+    try (final Connection connection = dataSource.getConnection()) {
+      assert connection.isValid(300);
+    }
+  }
+
+  /**
+   * Check if an encrypted connection can be established successfully when connecting through the DriverManager using
+   * just a connection url.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testTLSConnectionPropertyTrueCorrectCastUrlWithDriverManager() throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    final Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s?user=%s&password=%s" +
+                "&useEncryption=true&useSystemTrustStore=false&%s=%s&%s=%s",
+            FLIGHT_SERVER_TEST_RULE.getPort(),
+            userTest,
+            passTest,
+            ArrowFlightConnectionProperty.TRUST_STORE.camelName(),
+            URLEncoder.encode(trustStorePath, "UTF-8"),
+            ArrowFlightConnectionProperty.TRUST_STORE_PASSWORD.camelName(),
+            URLEncoder.encode(trustStorePass, "UTF-8")));
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an encrypted connection can be established successfully when connecting through the DriverManager using
+   * a connection url and properties with String K-V pairs.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testTLSConnectionPropertyTrueCorrectCastUrlAndPropertiesUsingSetPropertyWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    Properties properties = new Properties();
+
+    properties.setProperty(ArrowFlightConnectionProperty.USER.camelName(), userTest);
+    properties.setProperty(ArrowFlightConnectionProperty.PASSWORD.camelName(), passTest);
+    properties.setProperty(ArrowFlightConnectionProperty.TRUST_STORE.camelName(), trustStorePath);
+    properties.setProperty(ArrowFlightConnectionProperty.TRUST_STORE_PASSWORD.camelName(), trustStorePass);
+    properties.setProperty(ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(), "true");
+    properties.setProperty(ArrowFlightConnectionProperty.USE_SYSTEM_TRUST_STORE.camelName(), "false");
+
+    final Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s",
+            FLIGHT_SERVER_TEST_RULE.getPort()),
+        properties);
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an encrypted connection can be established successfully when connecting through the DriverManager using
+   * a connection url and properties with Object K-V pairs.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testTLSConnectionPropertyTrueCorrectCastUrlAndPropertiesUsingPutWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    Properties properties = new Properties();
+
+    properties.put(ArrowFlightConnectionProperty.USER.camelName(), userTest);
+    properties.put(ArrowFlightConnectionProperty.PASSWORD.camelName(), passTest);
+    properties.put(ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(), true);
+    properties.put(ArrowFlightConnectionProperty.USE_SYSTEM_TRUST_STORE.camelName(), false);
+    properties.put(ArrowFlightConnectionProperty.TRUST_STORE.camelName(), trustStorePath);
+    properties.put(ArrowFlightConnectionProperty.TRUST_STORE_PASSWORD.camelName(), trustStorePass);
+
+    final Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s",
+            FLIGHT_SERVER_TEST_RULE.getPort()),
+        properties);
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an encrypted connection can be established successfully when connecting through the DriverManager using
+   * just a connection url and using 0 and 1 as ssl values.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testTLSConnectionPropertyTrueIntegerCorrectCastUrlWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    final Connection connection = DriverManager.getConnection(
+        String.format(
+            "jdbc:arrow-flight-sql://localhost:%s?user=%s&password=%s" +
+                "&useEncryption=1&useSystemTrustStore=0&%s=%s&%s=%s",
+            FLIGHT_SERVER_TEST_RULE.getPort(),
+            userTest,
+            passTest,
+            ArrowFlightConnectionProperty.TRUST_STORE.camelName(),
+            URLEncoder.encode(trustStorePath, "UTF-8"),
+            ArrowFlightConnectionProperty.TRUST_STORE_PASSWORD.camelName(),
+            URLEncoder.encode(trustStorePass, "UTF-8")));
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an encrypted connection can be established successfully when connecting through the DriverManager using
+   * a connection url and properties with String K-V pairs and using 0 and 1 as ssl values.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testTLSConnectionPropertyTrueIntegerCorrectCastUrlAndPropertiesUsingSetPropertyWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    Properties properties = new Properties();
+
+    properties.setProperty(ArrowFlightConnectionProperty.USER.camelName(), userTest);
+    properties.setProperty(ArrowFlightConnectionProperty.PASSWORD.camelName(), passTest);
+    properties.setProperty(ArrowFlightConnectionProperty.TRUST_STORE.camelName(), trustStorePath);
+    properties.setProperty(ArrowFlightConnectionProperty.TRUST_STORE_PASSWORD.camelName(), trustStorePass);
+    properties.setProperty(ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(), "1");
+    properties.setProperty(ArrowFlightConnectionProperty.USE_SYSTEM_TRUST_STORE.camelName(), "0");
+
+    final Connection connection = DriverManager.getConnection(
+        String.format("jdbc:arrow-flight-sql://localhost:%s", FLIGHT_SERVER_TEST_RULE.getPort()),
+        properties);
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+
+  /**
+   * Check if an encrypted connection can be established successfully when connecting through the DriverManager using
+   * a connection url and properties with Object K-V pairs and using 0 and 1 as ssl values.
+   *
+   * @throws Exception on error.
+   */
+  @Test
+  public void testTLSConnectionPropertyTrueIntegerCorrectCastUrlAndPropertiesUsingPutWithDriverManager()
+      throws Exception {
+    final Driver driver = new ArrowFlightJdbcDriver();
+    DriverManager.registerDriver(driver);
+
+    Properties properties = new Properties();
+
+    properties.put(ArrowFlightConnectionProperty.USER.camelName(), userTest);
+    properties.put(ArrowFlightConnectionProperty.PASSWORD.camelName(), passTest);
+    properties.put(ArrowFlightConnectionProperty.USE_ENCRYPTION.camelName(), 1);
+    properties.put(ArrowFlightConnectionProperty.USE_SYSTEM_TRUST_STORE.camelName(), 0);
+    properties.put(ArrowFlightConnectionProperty.TRUST_STORE.camelName(), trustStorePath);
+    properties.put(ArrowFlightConnectionProperty.TRUST_STORE_PASSWORD.camelName(), trustStorePass);
+
+    final Connection connection = DriverManager.getConnection(
+        String.format("jdbc:arrow-flight-sql://localhost:%s",
+            FLIGHT_SERVER_TEST_RULE.getPort()),
+        properties);
+    Assert.assertTrue(connection.isValid(0));
+    connection.close();
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/FlightServerTestRule.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/FlightServerTestRule.java
new file mode 100644
index 00000000000..733145892ec
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/FlightServerTestRule.java
@@ -0,0 +1,320 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.apache.arrow.driver.jdbc.utils.FlightSqlTestCertificates.CertKeyPair;
+
+import java.io.File;
+import java.io.IOException;
+import java.lang.reflect.Method;
+import java.sql.Connection;
+import java.sql.SQLException;
+import java.util.ArrayDeque;
+import java.util.Deque;
+import java.util.Properties;
+
+import org.apache.arrow.driver.jdbc.authentication.Authentication;
+import org.apache.arrow.driver.jdbc.authentication.TokenAuthentication;
+import org.apache.arrow.driver.jdbc.authentication.UserPasswordAuthentication;
+import org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl;
+import org.apache.arrow.flight.CallHeaders;
+import org.apache.arrow.flight.CallInfo;
+import org.apache.arrow.flight.CallStatus;
+import org.apache.arrow.flight.FlightServer;
+import org.apache.arrow.flight.FlightServerMiddleware;
+import org.apache.arrow.flight.Location;
+import org.apache.arrow.flight.RequestContext;
+import org.apache.arrow.flight.sql.FlightSqlProducer;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.util.Preconditions;
+import org.junit.rules.TestRule;
+import org.junit.runner.Description;
+import org.junit.runners.model.Statement;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+/**
+ * Utility class for unit tests that need to instantiate a {@link FlightServer}
+ * and interact with it.
+ */
+public class FlightServerTestRule implements TestRule, AutoCloseable {
+  private static final Logger LOGGER = LoggerFactory.getLogger(FlightServerTestRule.class);
+
+  private final Properties properties;
+  private final ArrowFlightConnectionConfigImpl config;
+  private final BufferAllocator allocator;
+  private final FlightSqlProducer producer;
+  private final Authentication authentication;
+  private final CertKeyPair certKeyPair;
+
+  private final MiddlewareCookie.Factory middlewareCookieFactory = new MiddlewareCookie.Factory();
+
+  private FlightServerTestRule(final Properties properties,
+                               final ArrowFlightConnectionConfigImpl config,
+                               final BufferAllocator allocator,
+                               final FlightSqlProducer producer,
+                               final Authentication authentication,
+                               final CertKeyPair certKeyPair) {
+    this.properties = Preconditions.checkNotNull(properties);
+    this.config = Preconditions.checkNotNull(config);
+    this.allocator = Preconditions.checkNotNull(allocator);
+    this.producer = Preconditions.checkNotNull(producer);
+    this.authentication = authentication;
+    this.certKeyPair = certKeyPair;
+  }
+
+  /**
+   * Create a {@link FlightServerTestRule} with standard values such as: user, password, localhost.
+   *
+   * @param producer the producer used to create the FlightServerTestRule.
+   * @return the FlightServerTestRule.
+   */
+  public static FlightServerTestRule createStandardTestRule(final FlightSqlProducer producer) {
+    UserPasswordAuthentication authentication =
+        new UserPasswordAuthentication.Builder()
+            .user("flight-test-user", "flight-test-password")
+            .build();
+
+    return new Builder()
+        .authentication(authentication)
+        .producer(producer)
+        .build();
+  }
+
+  ArrowFlightJdbcDataSource createDataSource() {
+    return ArrowFlightJdbcDataSource.createNewDataSource(properties);
+  }
+
+  public ArrowFlightJdbcConnectionPoolDataSource createConnectionPoolDataSource() {
+    return ArrowFlightJdbcConnectionPoolDataSource.createNewDataSource(properties);
+  }
+
+  public ArrowFlightJdbcConnectionPoolDataSource createConnectionPoolDataSource(boolean useEncryption) {
+    setUseEncryption(useEncryption);
+    return ArrowFlightJdbcConnectionPoolDataSource.createNewDataSource(properties);
+  }
+
+  public Connection getConnection(boolean useEncryption, String token) throws SQLException {
+    properties.put("token", token);
+
+    return getConnection(useEncryption);
+  }
+
+  public Connection getConnection(boolean useEncryption) throws SQLException {
+    setUseEncryption(useEncryption);
+    return this.createDataSource().getConnection();
+  }
+
+  private void setUseEncryption(boolean useEncryption) {
+    properties.put("useEncryption", useEncryption);
+  }
+
+  public MiddlewareCookie.Factory getMiddlewareCookieFactory() {
+    return middlewareCookieFactory;
+  }
+
+  @FunctionalInterface
+  public interface CheckedFunction<T, R> {
+    R apply(T t) throws IOException;
+  }
+
+  private FlightServer initiateServer(Location location) throws IOException {
+    FlightServer.Builder builder = FlightServer.builder(allocator, location, producer)
+        .headerAuthenticator(authentication.authenticate())
+        .middleware(FlightServerMiddleware.Key.of("KEY"), middlewareCookieFactory);
+    if (certKeyPair != null) {
+      builder.useTls(certKeyPair.cert, certKeyPair.key);
+    }
+    return builder.build();
+  }
+
+  @Override
+  public Statement apply(Statement base, Description description) {
+    return new Statement() {
+      @Override
+      public void evaluate() throws Throwable {
+        try (FlightServer flightServer = getStartServer(location -> initiateServer(location), 3)) {
+          properties.put("port", flightServer.getPort());
+          LOGGER.info("Started " + FlightServer.class.getName() + " as " + flightServer);
+          base.evaluate();
+        } finally {
+          close();
+        }
+      }
+    };
+  }
+
+  private FlightServer getStartServer(CheckedFunction<Location, FlightServer> newServerFromLocation,
+                                      int retries)
+      throws IOException {
+    final Deque<ReflectiveOperationException> exceptions = new ArrayDeque<>();
+    for (; retries > 0; retries--) {
+      final FlightServer server = newServerFromLocation.apply(Location.forGrpcInsecure("localhost", 0));
+      try {
+        Method start = server.getClass().getMethod("start");
+        start.setAccessible(true);
+        start.invoke(server);
+        return server;
+      } catch (ReflectiveOperationException e) {
+        exceptions.add(e);
+      }
+    }
+    exceptions.forEach(e -> LOGGER.error("Failed to start FlightServer", e));
+    throw new IOException(exceptions.pop().getCause());
+  }
+
+  /**
+   * Sets a port to be used.
+   *
+   * @return the port value.
+   */
+  public int getPort() {
+    return config.getPort();
+  }
+
+  /**
+   * Sets a host to be used.
+   *
+   * @return the host value.
+   */
+  public String getHost() {
+    return config.getHost();
+  }
+
+  @Override
+  public void close() throws Exception {
+    allocator.getChildAllocators().forEach(BufferAllocator::close);
+    AutoCloseables.close(allocator);
+  }
+
+  /**
+   * Builder for {@link FlightServerTestRule}.
+   */
+  public static final class Builder {
+    private final Properties properties;
+    private FlightSqlProducer producer;
+    private Authentication authentication;
+    private CertKeyPair certKeyPair;
+
+    public Builder() {
+      this.properties = new Properties();
+      this.properties.put("host", "localhost");
+    }
+
+    /**
+     * Sets the producer that will be used in the server rule.
+     *
+     * @param producer the flight sql producer.
+     * @return the Builder.
+     */
+    public Builder producer(final FlightSqlProducer producer) {
+      this.producer = producer;
+      return this;
+    }
+
+    /**
+     * Sets the type of the authentication that will be used in the server rules.
+     * There are two types of authentication: {@link UserPasswordAuthentication} and
+     * {@link TokenAuthentication}.
+     *
+     * @param authentication the type of authentication.
+     * @return the Builder.
+     */
+    public Builder authentication(final Authentication authentication) {
+      this.authentication = authentication;
+      return this;
+    }
+
+    /**
+     * Enable TLS on the server.
+     *
+     * @param certChain The certificate chain to use.
+     * @param key       The private key to use.
+     * @return the Builder.
+     */
+    public Builder useEncryption(final File certChain, final File key) {
+      certKeyPair = new CertKeyPair(certChain, key);
+      return this;
+    }
+
+    /**
+     * Builds the {@link FlightServerTestRule} using the provided values.
+     *
+     * @return a {@link FlightServerTestRule}.
+     */
+    public FlightServerTestRule build() {
+      authentication.populateProperties(properties);
+      return new FlightServerTestRule(properties, new ArrowFlightConnectionConfigImpl(properties),
+          new RootAllocator(Long.MAX_VALUE), producer, authentication, certKeyPair);
+    }
+  }
+
+  /**
+   * A middleware to handle with the cookies in the server. It is used to test if cookies are
+   * being sent properly.
+   */
+  static class MiddlewareCookie implements FlightServerMiddleware {
+
+    private final Factory factory;
+
+    public MiddlewareCookie(Factory factory) {
+      this.factory = factory;
+    }
+
+    @Override
+    public void onBeforeSendingHeaders(CallHeaders callHeaders) {
+      if (!factory.receivedCookieHeader) {
+        callHeaders.insert("Set-Cookie", "k=v");
+      }
+    }
+
+    @Override
+    public void onCallCompleted(CallStatus callStatus) {
+
+    }
+
+    @Override
+    public void onCallErrored(Throwable throwable) {
+
+    }
+
+    /**
+     * A factory for the MiddlewareCookie.
+     */
+    static class Factory implements FlightServerMiddleware.Factory<MiddlewareCookie> {
+
+      private boolean receivedCookieHeader = false;
+      private String cookie;
+
+      @Override
+      public MiddlewareCookie onCallStarted(CallInfo callInfo, CallHeaders callHeaders,
+                                            RequestContext requestContext) {
+        cookie = callHeaders.get("Cookie");
+        receivedCookieHeader = null != cookie;
+        return new MiddlewareCookie(this);
+      }
+
+      public String getCookie() {
+        return cookie;
+      }
+    }
+  }
+
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ResultSetMetadataTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ResultSetMetadataTest.java
new file mode 100644
index 00000000000..64ec7f7d9e1
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ResultSetMetadataTest.java
@@ -0,0 +1,236 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.notNullValue;
+
+import java.sql.Connection;
+import java.sql.ResultSet;
+import java.sql.ResultSetMetaData;
+import java.sql.SQLException;
+import java.sql.Statement;
+import java.sql.Types;
+
+import org.apache.arrow.driver.jdbc.utils.CoreMockedSqlProducers;
+import org.hamcrest.CoreMatchers;
+import org.junit.AfterClass;
+import org.junit.Assert;
+import org.junit.BeforeClass;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+public class ResultSetMetadataTest {
+  private static ResultSetMetaData metadata;
+
+  private static Connection connection;
+
+  @Rule
+  public ErrorCollector collector = new ErrorCollector();
+
+  @ClassRule
+  public static final FlightServerTestRule SERVER_TEST_RULE = FlightServerTestRule
+      .createStandardTestRule(CoreMockedSqlProducers.getLegacyProducer());
+
+  @BeforeClass
+  public static void setup() throws SQLException {
+    connection = SERVER_TEST_RULE.getConnection(false);
+
+    try (Statement statement = connection.createStatement();
+         ResultSet resultSet = statement.executeQuery(
+             CoreMockedSqlProducers.LEGACY_METADATA_SQL_CMD)) {
+      metadata = resultSet.getMetaData();
+    }
+  }
+
+  @AfterClass
+  public static void teardown() throws SQLException {
+    connection.close();
+  }
+
+  /**
+   * Test if {@link ResultSetMetaData} object is not null.
+   */
+  @Test
+  public void testShouldGetResultSetMetadata() {
+    collector.checkThat(metadata, CoreMatchers.is(notNullValue()));
+  }
+
+  /**
+   * Test if {@link ResultSetMetaData#getColumnCount()} returns the correct values.
+   *
+   * @throws SQLException in case of error.
+   */
+  @Test
+  public void testShouldGetColumnCount() throws SQLException {
+    final int columnCount = metadata.getColumnCount();
+
+    assert columnCount == 3;
+  }
+
+  /**
+   * Test if {@link ResultSetMetaData#getColumnTypeName(int)}  returns the correct type name for each
+   * column.
+   *
+   * @throws SQLException in case of error.
+   */
+  @Test
+  public void testShouldGetColumnTypesName() throws SQLException {
+    final String firstColumn = metadata.getColumnTypeName(1);
+    final String secondColumn = metadata.getColumnTypeName(2);
+    final String thirdColumn = metadata.getColumnTypeName(3);
+
+    collector.checkThat(firstColumn, equalTo("BIGINT"));
+    collector.checkThat(secondColumn, equalTo("VARCHAR"));
+    collector.checkThat(thirdColumn, equalTo("FLOAT"));
+  }
+
+  /**
+   * Test if {@link ResultSetMetaData#getColumnTypeName(int)} passing an column index that does not exist.
+   *
+   * @throws SQLException in case of error.
+   */
+  @Test(expected = IndexOutOfBoundsException.class)
+  public void testShouldGetColumnTypesNameFromOutOfBoundIndex() throws SQLException {
+    metadata.getColumnTypeName(4);
+
+    Assert.fail();
+  }
+
+  /**
+   * Test if {@link ResultSetMetaData#getColumnName(int)} returns the correct name for each column.
+   *
+   * @throws SQLException in case of error.
+   */
+  @Test
+  public void testShouldGetColumnNames() throws SQLException {
+    final String firstColumn = metadata.getColumnName(1);
+    final String secondColumn = metadata.getColumnName(2);
+    final String thirdColumn = metadata.getColumnName(3);
+
+    collector.checkThat(firstColumn, equalTo("integer0"));
+    collector.checkThat(secondColumn, equalTo("string1"));
+    collector.checkThat(thirdColumn, equalTo("float2"));
+  }
+
+
+  /**
+   * Test {@link ResultSetMetaData#getColumnTypeName(int)} passing an column index that does not exist.
+   *
+   * @throws SQLException in case of error.
+   */
+  @Test(expected = IndexOutOfBoundsException.class)
+  public void testShouldGetColumnNameFromOutOfBoundIndex() throws SQLException {
+    metadata.getColumnName(4);
+
+    Assert.fail();
+  }
+
+  /**
+   * Test if {@link ResultSetMetaData#getColumnType(int)}returns the correct values.
+   *
+   * @throws SQLException in case of error.
+   */
+  @Test
+  public void testShouldGetColumnType() throws SQLException {
+    final int firstColumn = metadata.getColumnType(1);
+    final int secondColumn = metadata.getColumnType(2);
+    final int thirdColumn = metadata.getColumnType(3);
+
+    collector.checkThat(firstColumn, equalTo(Types.BIGINT));
+    collector.checkThat(secondColumn, equalTo(Types.VARCHAR));
+    collector.checkThat(thirdColumn, equalTo(Types.FLOAT));
+  }
+
+  @Test
+  public void testShouldGetPrecision() throws SQLException {
+    collector.checkThat(metadata.getPrecision(1), equalTo(10));
+    collector.checkThat(metadata.getPrecision(2), equalTo(65535));
+    collector.checkThat(metadata.getPrecision(3), equalTo(15));
+  }
+
+  @Test
+  public void testShouldGetScale() throws SQLException {
+    collector.checkThat(metadata.getScale(1), equalTo(0));
+    collector.checkThat(metadata.getScale(2), equalTo(0));
+    collector.checkThat(metadata.getScale(3), equalTo(20));
+  }
+
+  @Test
+  public void testShouldGetCatalogName() throws SQLException {
+    collector.checkThat(metadata.getCatalogName(1), equalTo("CATALOG_NAME_1"));
+    collector.checkThat(metadata.getCatalogName(2), equalTo("CATALOG_NAME_2"));
+    collector.checkThat(metadata.getCatalogName(3), equalTo("CATALOG_NAME_3"));
+  }
+
+  @Test
+  public void testShouldGetSchemaName() throws SQLException {
+    collector.checkThat(metadata.getSchemaName(1), equalTo("SCHEMA_NAME_1"));
+    collector.checkThat(metadata.getSchemaName(2), equalTo("SCHEMA_NAME_2"));
+    collector.checkThat(metadata.getSchemaName(3), equalTo("SCHEMA_NAME_3"));
+  }
+
+  @Test
+  public void testShouldGetTableName() throws SQLException {
+    collector.checkThat(metadata.getTableName(1), equalTo("TABLE_NAME_1"));
+    collector.checkThat(metadata.getTableName(2), equalTo("TABLE_NAME_2"));
+    collector.checkThat(metadata.getTableName(3), equalTo("TABLE_NAME_3"));
+  }
+
+  @Test
+  public void testShouldIsAutoIncrement() throws SQLException {
+    collector.checkThat(metadata.isAutoIncrement(1), equalTo(true));
+    collector.checkThat(metadata.isAutoIncrement(2), equalTo(false));
+    collector.checkThat(metadata.isAutoIncrement(3), equalTo(false));
+  }
+
+  @Test
+  public void testShouldIsCaseSensitive() throws SQLException {
+    collector.checkThat(metadata.isCaseSensitive(1), equalTo(false));
+    collector.checkThat(metadata.isCaseSensitive(2), equalTo(true));
+    collector.checkThat(metadata.isCaseSensitive(3), equalTo(false));
+  }
+
+  @Test
+  public void testShouldIsReadonly() throws SQLException {
+    collector.checkThat(metadata.isReadOnly(1), equalTo(true));
+    collector.checkThat(metadata.isReadOnly(2), equalTo(false));
+    collector.checkThat(metadata.isReadOnly(3), equalTo(false));
+  }
+
+  @Test
+  public void testShouldIsSearchable() throws SQLException {
+    collector.checkThat(metadata.isSearchable(1), equalTo(true));
+    collector.checkThat(metadata.isSearchable(2), equalTo(true));
+    collector.checkThat(metadata.isSearchable(3), equalTo(true));
+  }
+
+  /**
+   * Test if {@link ResultSetMetaData#getColumnTypeName(int)} passing an column index that does not exist.
+   *
+   * @throws SQLException in case of error.
+   */
+  @Test(expected = IndexOutOfBoundsException.class)
+  public void testShouldGetColumnTypesFromOutOfBoundIndex() throws SQLException {
+    metadata.getColumnType(4);
+
+    Assert.fail();
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ResultSetTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ResultSetTest.java
new file mode 100644
index 00000000000..b3002ec5841
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/ResultSetTest.java
@@ -0,0 +1,376 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import static java.lang.String.format;
+import static java.util.Collections.synchronizedSet;
+import static org.hamcrest.CoreMatchers.allOf;
+import static org.hamcrest.CoreMatchers.anyOf;
+import static org.hamcrest.CoreMatchers.containsString;
+import static org.hamcrest.CoreMatchers.instanceOf;
+import static org.hamcrest.CoreMatchers.is;
+import static org.junit.Assert.assertEquals;
+import static org.junit.Assert.assertTrue;
+import static org.junit.Assert.fail;
+
+import java.sql.Connection;
+import java.sql.ResultSet;
+import java.sql.SQLException;
+import java.sql.SQLTimeoutException;
+import java.sql.Statement;
+import java.util.HashSet;
+import java.util.Random;
+import java.util.Set;
+import java.util.concurrent.CountDownLatch;
+
+import org.apache.arrow.driver.jdbc.utils.CoreMockedSqlProducers;
+import org.junit.AfterClass;
+import org.junit.BeforeClass;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+import com.google.common.collect.ImmutableSet;
+
+public class ResultSetTest {
+  private static final Random RANDOM = new Random(10);
+  @ClassRule
+  public static final FlightServerTestRule SERVER_TEST_RULE = FlightServerTestRule
+      .createStandardTestRule(CoreMockedSqlProducers.getLegacyProducer());
+  private static Connection connection;
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  @BeforeClass
+  public static void setup() throws SQLException {
+    connection = SERVER_TEST_RULE.getConnection(false);
+  }
+
+  @AfterClass
+  public static void tearDown() throws SQLException {
+    connection.close();
+  }
+
+  private static void resultSetNextUntilDone(ResultSet resultSet) throws SQLException {
+    while (resultSet.next()) {
+      // TODO: implement resultSet.last()
+      // Pass to the next until resultSet is done
+    }
+  }
+
+  private static void setMaxRowsLimit(int maxRowsLimit, Statement statement) throws SQLException {
+    statement.setLargeMaxRows(maxRowsLimit);
+  }
+
+  /**
+   * Tests whether the {@link ArrowFlightJdbcDriver} can run a query successfully.
+   *
+   * @throws Exception If the connection fails to be established.
+   */
+  @Test
+  public void testShouldRunSelectQuery() throws Exception {
+    try (Statement statement = connection.createStatement();
+         ResultSet resultSet = statement.executeQuery(
+             CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD)) {
+      CoreMockedSqlProducers.assertLegacyRegularSqlResultSet(resultSet, collector);
+    }
+  }
+
+  @Test
+  public void testShouldExecuteQueryNotBlockIfClosedBeforeEnd() throws Exception {
+    try (Statement statement = connection.createStatement();
+         ResultSet resultSet = statement.executeQuery(
+             CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD)) {
+
+      for (int i = 0; i < 7500; i++) {
+        assertTrue(resultSet.next());
+      }
+    }
+  }
+
+  /**
+   * Tests whether the {@link ArrowFlightJdbcDriver} query only returns only the
+   * amount of value set by {@link org.apache.calcite.avatica.AvaticaStatement#setMaxRows(int)}.
+   *
+   * @throws Exception If the connection fails to be established.
+   */
+  @Test
+  public void testShouldRunSelectQuerySettingMaxRowLimit() throws Exception {
+    try (Statement statement = connection.createStatement();
+         ResultSet resultSet = statement.executeQuery(
+             CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD)) {
+
+      final int maxRowsLimit = 3;
+      statement.setMaxRows(maxRowsLimit);
+
+      collector.checkThat(statement.getMaxRows(), is(maxRowsLimit));
+
+      int count = 0;
+      int columns = 6;
+      for (; resultSet.next(); count++) {
+        for (int column = 1; column <= columns; column++) {
+          resultSet.getObject(column);
+        }
+        collector.checkThat("Test Name #" + count, is(resultSet.getString(2)));
+      }
+
+      collector.checkThat(maxRowsLimit, is(count));
+    }
+  }
+
+  /**
+   * Tests whether the {@link ArrowFlightJdbcDriver} fails upon attempting
+   * to run an invalid query.
+   *
+   * @throws Exception If the connection fails to be established.
+   */
+  @Test(expected = SQLException.class)
+  public void testShouldThrowExceptionUponAttemptingToExecuteAnInvalidSelectQuery()
+      throws Exception {
+    Statement statement = connection.createStatement();
+    statement.executeQuery("SELECT * FROM SHOULD-FAIL");
+    fail();
+  }
+
+  /**
+   * Tests whether the {@link ArrowFlightJdbcDriver} query only returns only the
+   * amount of value set by {@link org.apache.calcite.avatica.AvaticaStatement#setLargeMaxRows(long)} (int)}.
+   *
+   * @throws Exception If the connection fails to be established.
+   */
+  @Test
+  public void testShouldRunSelectQuerySettingLargeMaxRowLimit() throws Exception {
+    try (Statement statement = connection.createStatement();
+         ResultSet resultSet = statement.executeQuery(
+             CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD)) {
+      final long maxRowsLimit = 3;
+      statement.setLargeMaxRows(maxRowsLimit);
+
+      collector.checkThat(statement.getLargeMaxRows(), is(maxRowsLimit));
+
+      int count = 0;
+      int columns = resultSet.getMetaData().getColumnCount();
+      for (; resultSet.next(); count++) {
+        for (int column = 1; column <= columns; column++) {
+          resultSet.getObject(column);
+        }
+        assertEquals("Test Name #" + count, resultSet.getString(2));
+      }
+
+      assertEquals(maxRowsLimit, count);
+    }
+  }
+
+  @Test
+  public void testColumnCountShouldRemainConsistentForResultSetThroughoutEntireDuration()
+      throws SQLException {
+    final Set<Integer> counts = new HashSet<>();
+    try (final Statement statement = connection.createStatement();
+         final ResultSet resultSet = statement.executeQuery(
+             CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD)) {
+      while (resultSet.next()) {
+        counts.add(resultSet.getMetaData().getColumnCount());
+      }
+    }
+    collector.checkThat(counts, is(ImmutableSet.of(6)));
+  }
+
+  /**
+   * Tests whether the {@link ArrowFlightJdbcDriver} close the statement after complete ResultSet
+   * when call {@link org.apache.calcite.avatica.AvaticaStatement#closeOnCompletion()}.
+   *
+   * @throws Exception If the connection fails to be established.
+   */
+  @Test
+  public void testShouldCloseStatementWhenIsCloseOnCompletion() throws Exception {
+    Statement statement = connection.createStatement();
+    ResultSet resultSet = statement.executeQuery(CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD);
+
+    statement.closeOnCompletion();
+
+    resultSetNextUntilDone(resultSet);
+
+    collector.checkThat(statement.isClosed(), is(true));
+  }
+
+  /**
+   * Tests whether the {@link ArrowFlightJdbcDriver} close the statement after complete ResultSet with max rows limit
+   * when call {@link org.apache.calcite.avatica.AvaticaStatement#closeOnCompletion()}.
+   *
+   * @throws Exception If the connection fails to be established.
+   */
+  @Test
+  public void testShouldCloseStatementWhenIsCloseOnCompletionWithMaxRowsLimit() throws Exception {
+    Statement statement = connection.createStatement();
+    ResultSet resultSet = statement.executeQuery(CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD);
+
+    final long maxRowsLimit = 3;
+    statement.setLargeMaxRows(maxRowsLimit);
+    statement.closeOnCompletion();
+
+    resultSetNextUntilDone(resultSet);
+
+    collector.checkThat(statement.isClosed(), is(true));
+  }
+
+  /**
+   * Tests whether the {@link ArrowFlightJdbcDriver} not close the statement after complete ResultSet with max rows
+   * limit when call {@link org.apache.calcite.avatica.AvaticaStatement#closeOnCompletion()}.
+   *
+   * @throws Exception If the connection fails to be established.
+   */
+  @Test
+  public void testShouldNotCloseStatementWhenIsNotCloseOnCompletionWithMaxRowsLimit()
+      throws Exception {
+    try (Statement statement = connection.createStatement();
+         ResultSet resultSet = statement.executeQuery(
+             CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD)) {
+
+      final long maxRowsLimit = 3;
+      statement.setLargeMaxRows(maxRowsLimit);
+
+      collector.checkThat(statement.isClosed(), is(false));
+      resultSetNextUntilDone(resultSet);
+      collector.checkThat(resultSet.isClosed(), is(false));
+      collector.checkThat(resultSet, is(instanceOf(ArrowFlightJdbcFlightStreamResultSet.class)));
+    }
+  }
+
+  @Test
+  public void testShouldCancelQueryUponCancelAfterQueryingResultSet() throws SQLException {
+    try (final Statement statement = connection.createStatement();
+         final ResultSet resultSet = statement.executeQuery(
+             CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD)) {
+      final int column = RANDOM.nextInt(resultSet.getMetaData().getColumnCount()) + 1;
+      collector.checkThat(resultSet.isClosed(), is(false));
+      collector.checkThat(resultSet.next(), is(true));
+      collector.checkSucceeds(() -> resultSet.getObject(column));
+      statement.cancel();
+      // Should reset `ResultSet`; keep both `ResultSet` and `Connection` open.
+      collector.checkThat(statement.isClosed(), is(false));
+      collector.checkThat(resultSet.isClosed(), is(false));
+      collector.checkThat(resultSet.getMetaData().getColumnCount(), is(0));
+    }
+  }
+
+  @Test
+  public void testShouldInterruptFlightStreamsIfQueryIsCancelledMidQuerying()
+      throws SQLException, InterruptedException {
+    try (final Statement statement = connection.createStatement()) {
+      final CountDownLatch latch = new CountDownLatch(1);
+      final Set<Exception> exceptions = synchronizedSet(new HashSet<>(1));
+      final Thread thread = new Thread(() -> {
+        try (final ResultSet resultSet = statement.executeQuery(
+            CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD)) {
+          final int cachedColumnCount = resultSet.getMetaData().getColumnCount();
+          Thread.sleep(300);
+          while (resultSet.next()) {
+            resultSet.getObject(RANDOM.nextInt(cachedColumnCount) + 1);
+          }
+        } catch (final SQLException | InterruptedException e) {
+          exceptions.add(e);
+        } finally {
+          latch.countDown();
+        }
+      });
+      thread.setName("Test Case: interrupt query execution before first retrieval");
+      thread.start();
+      statement.cancel();
+      thread.join();
+      collector.checkThat(
+          exceptions.stream()
+              .map(Exception::getMessage)
+              .map(StringBuilder::new)
+              .reduce(StringBuilder::append)
+              .orElseThrow(IllegalArgumentException::new)
+              .toString(),
+          is("Statement canceled"));
+    }
+  }
+
+  @Test
+  public void testShouldInterruptFlightStreamsIfQueryIsCancelledMidProcessingForTimeConsumingQueries()
+      throws SQLException, InterruptedException {
+    final String query = CoreMockedSqlProducers.LEGACY_CANCELLATION_SQL_CMD;
+    try (final Statement statement = connection.createStatement()) {
+      final Set<Exception> exceptions = synchronizedSet(new HashSet<>(1));
+      final Thread thread = new Thread(() -> {
+        try (final ResultSet ignored = statement.executeQuery(query)) {
+          fail();
+        } catch (final SQLException e) {
+          exceptions.add(e);
+        }
+      });
+      thread.setName("Test Case: interrupt query execution mid-process");
+      thread.setPriority(Thread.MAX_PRIORITY);
+      thread.start();
+      Thread.sleep(5000); // Let the other thread attempt to retrieve results.
+      statement.cancel();
+      thread.join();
+      collector.checkThat(
+          exceptions.stream()
+              .map(Exception::getMessage)
+              .map(StringBuilder::new)
+              .reduce(StringBuilder::append)
+              .orElseThrow(IllegalStateException::new)
+              .toString(),
+          anyOf(is(format("Error while executing SQL \"%s\": Query canceled", query)),
+              allOf(containsString(format("Error while executing SQL \"%s\"", query)),
+                  containsString("CANCELLED"))));
+    }
+  }
+
+  @Test
+  public void testShouldInterruptFlightStreamsIfQueryTimeoutIsOver() throws SQLException {
+    final String query = CoreMockedSqlProducers.LEGACY_CANCELLATION_SQL_CMD;
+    final int timeoutValue = 2;
+    final String timeoutUnit = "SECONDS";
+    try (final Statement statement = connection.createStatement()) {
+      statement.setQueryTimeout(timeoutValue);
+      final Set<Exception> exceptions = new HashSet<>(1);
+      try {
+        statement.executeQuery(query);
+      } catch (final Exception e) {
+        exceptions.add(e);
+      }
+      final Throwable comparisonCause = exceptions.stream()
+          .findFirst()
+          .orElseThrow(RuntimeException::new)
+          .getCause()
+          .getCause();
+      collector.checkThat(comparisonCause,
+          is(instanceOf(SQLTimeoutException.class)));
+      collector.checkThat(comparisonCause.getMessage(),
+          is(format("Query timed out after %d %s", timeoutValue, timeoutUnit)));
+    }
+  }
+
+  @Test
+  public void testFlightStreamsQueryShouldNotTimeout() throws SQLException {
+    final String query = CoreMockedSqlProducers.LEGACY_REGULAR_SQL_CMD;
+    final int timeoutValue = 5;
+    try (Statement statement = connection.createStatement()) {
+      statement.setQueryTimeout(timeoutValue);
+      ResultSet resultSet = statement.executeQuery(query);
+      CoreMockedSqlProducers.assertLegacyRegularSqlResultSet(resultSet, collector);
+      resultSet.close();
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/TokenAuthenticationTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/TokenAuthenticationTest.java
new file mode 100644
index 00000000000..9fe506231ec
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/TokenAuthenticationTest.java
@@ -0,0 +1,64 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc;
+
+import java.sql.Connection;
+import java.sql.SQLException;
+
+import org.apache.arrow.driver.jdbc.authentication.TokenAuthentication;
+import org.apache.arrow.driver.jdbc.utils.MockFlightSqlProducer;
+import org.apache.arrow.util.AutoCloseables;
+import org.junit.AfterClass;
+import org.junit.Assert;
+import org.junit.ClassRule;
+import org.junit.Test;
+
+public class TokenAuthenticationTest {
+  private static final MockFlightSqlProducer FLIGHT_SQL_PRODUCER = new MockFlightSqlProducer();
+
+  @ClassRule
+  public static FlightServerTestRule FLIGHT_SERVER_TEST_RULE;
+
+  static {
+    FLIGHT_SERVER_TEST_RULE = new FlightServerTestRule.Builder()
+        .authentication(new TokenAuthentication.Builder()
+            .token("1234")
+            .build())
+        .producer(FLIGHT_SQL_PRODUCER)
+        .build();
+  }
+
+  @AfterClass
+  public static void tearDownAfterClass() {
+    AutoCloseables.closeNoChecked(FLIGHT_SQL_PRODUCER);
+  }
+
+  @Test(expected = SQLException.class)
+  public void connectUsingTokenAuthenticationShouldFail() throws SQLException {
+    try (Connection ignored = FLIGHT_SERVER_TEST_RULE.getConnection(false, "invalid")) {
+      Assert.fail();
+    }
+  }
+
+  @Test
+  public void connectUsingTokenAuthenticationShouldSuccess() throws SQLException {
+    try (Connection connection = FLIGHT_SERVER_TEST_RULE.getConnection(false, "1234")) {
+      Assert.assertFalse(connection.isClosed());
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/ArrowFlightJdbcAccessorFactoryTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/ArrowFlightJdbcAccessorFactoryTest.java
new file mode 100644
index 00000000000..4b3744372c0
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/ArrowFlightJdbcAccessorFactoryTest.java
@@ -0,0 +1,496 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor;
+
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.impl.binary.ArrowFlightJdbcBinaryVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcDateVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcDurationVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcIntervalVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeStampVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcDenseUnionVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcFixedSizeListVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcLargeListVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcListVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcMapVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcStructVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.complex.ArrowFlightJdbcUnionVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.numeric.ArrowFlightJdbcBaseIntVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.numeric.ArrowFlightJdbcBitVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.numeric.ArrowFlightJdbcDecimalVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.numeric.ArrowFlightJdbcFloat4VectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.numeric.ArrowFlightJdbcFloat8VectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.text.ArrowFlightJdbcVarCharVectorAccessor;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.DurationVector;
+import org.apache.arrow.vector.IntervalDayVector;
+import org.apache.arrow.vector.IntervalYearVector;
+import org.apache.arrow.vector.LargeVarCharVector;
+import org.apache.arrow.vector.ValueVector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.complex.DenseUnionVector;
+import org.apache.arrow.vector.complex.MapVector;
+import org.apache.arrow.vector.complex.StructVector;
+import org.apache.arrow.vector.complex.UnionVector;
+import org.apache.arrow.vector.types.TimeUnit;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.FieldType;
+import org.junit.Assert;
+import org.junit.ClassRule;
+import org.junit.Test;
+
+public class ArrowFlightJdbcAccessorFactoryTest {
+  public static final IntSupplier GET_CURRENT_ROW = () -> 0;
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Test
+  public void createAccessorForUInt1Vector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createUInt1Vector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcBaseIntVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForUInt2Vector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createUInt2Vector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcBaseIntVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForUInt4Vector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createUInt4Vector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcBaseIntVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForUInt8Vector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createUInt8Vector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcBaseIntVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForTinyIntVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createTinyIntVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcBaseIntVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForSmallIntVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createSmallIntVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcBaseIntVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForIntVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createIntVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcBaseIntVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForBigIntVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createBigIntVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcBaseIntVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForFloat4Vector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createFloat4Vector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcFloat4VectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForFloat8Vector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createFloat8Vector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcFloat8VectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForBitVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createBitVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcBitVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForDecimalVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createDecimalVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcDecimalVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForDecimal256Vector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createDecimal256Vector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcDecimalVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForVarBinaryVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createVarBinaryVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcBinaryVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForLargeVarBinaryVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createLargeVarBinaryVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcBinaryVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForFixedSizeBinaryVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createFixedSizeBinaryVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcBinaryVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForTimeStampVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createTimeStampMilliVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcTimeStampVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForTimeNanoVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createTimeNanoVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcTimeVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForTimeMicroVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createTimeMicroVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcTimeVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForTimeMilliVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createTimeMilliVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcTimeVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForTimeSecVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createTimeSecVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcTimeVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForDateDayVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createDateDayVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcDateVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForDateMilliVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createDateMilliVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcDateVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForVarCharVector() {
+    try (
+        ValueVector valueVector = new VarCharVector("", rootAllocatorTestRule.getRootAllocator())) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcVarCharVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForLargeVarCharVector() {
+    try (ValueVector valueVector = new LargeVarCharVector("",
+        rootAllocatorTestRule.getRootAllocator())) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcVarCharVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForDurationVector() {
+    try (ValueVector valueVector =
+             new DurationVector("",
+                 new FieldType(true, new ArrowType.Duration(TimeUnit.MILLISECOND), null),
+                 rootAllocatorTestRule.getRootAllocator())) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcDurationVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForIntervalDayVector() {
+    try (ValueVector valueVector = new IntervalDayVector("",
+        rootAllocatorTestRule.getRootAllocator())) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcIntervalVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForIntervalYearVector() {
+    try (ValueVector valueVector = new IntervalYearVector("",
+        rootAllocatorTestRule.getRootAllocator())) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcIntervalVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForUnionVector() {
+    try (ValueVector valueVector = new UnionVector("", rootAllocatorTestRule.getRootAllocator(),
+        null, null)) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcUnionVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForDenseUnionVector() {
+    try (
+        ValueVector valueVector = new DenseUnionVector("", rootAllocatorTestRule.getRootAllocator(),
+            null, null)) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcDenseUnionVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForStructVector() {
+    try (ValueVector valueVector = StructVector.empty("",
+        rootAllocatorTestRule.getRootAllocator())) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcStructVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForListVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createListVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcListVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForLargeListVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createLargeListVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcLargeListVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForFixedSizeListVector() {
+    try (ValueVector valueVector = rootAllocatorTestRule.createFixedSizeListVector()) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcFixedSizeListVectorAccessor);
+    }
+  }
+
+  @Test
+  public void createAccessorForMapVector() {
+    try (ValueVector valueVector = MapVector.empty("", rootAllocatorTestRule.getRootAllocator(),
+        true)) {
+      ArrowFlightJdbcAccessor accessor =
+          ArrowFlightJdbcAccessorFactory.createAccessor(valueVector, GET_CURRENT_ROW,
+              (boolean wasNull) -> {
+              });
+
+      Assert.assertTrue(accessor instanceof ArrowFlightJdbcMapVectorAccessor);
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/ArrowFlightJdbcAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/ArrowFlightJdbcAccessorTest.java
new file mode 100644
index 00000000000..099b0122179
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/ArrowFlightJdbcAccessorTest.java
@@ -0,0 +1,358 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor;
+
+import static org.mockito.Mockito.verify;
+import static org.mockito.Mockito.when;
+
+import java.math.BigDecimal;
+import java.nio.charset.StandardCharsets;
+import java.sql.SQLException;
+import java.util.HashMap;
+import java.util.Map;
+
+import org.junit.Assert;
+import org.junit.Test;
+import org.junit.runner.RunWith;
+import org.mockito.Mock;
+import org.mockito.junit.MockitoJUnitRunner;
+
+@RunWith(MockitoJUnitRunner.class)
+public class ArrowFlightJdbcAccessorTest {
+
+  static class MockedArrowFlightJdbcAccessor extends ArrowFlightJdbcAccessor {
+
+    protected MockedArrowFlightJdbcAccessor() {
+      super(() -> 0, (boolean wasNull) -> {
+      });
+    }
+
+    @Override
+    public Class<?> getObjectClass() {
+      return Long.class;
+    }
+  }
+
+  @Mock
+  MockedArrowFlightJdbcAccessor accessor;
+
+  @Test
+  public void testShouldGetObjectWithByteClassReturnGetByte() throws SQLException {
+    byte expected = Byte.MAX_VALUE;
+    when(accessor.getByte()).thenReturn(expected);
+
+    when(accessor.getObject(Byte.class)).thenCallRealMethod();
+
+    Assert.assertEquals(accessor.getObject(Byte.class), (Object) expected);
+    verify(accessor).getByte();
+  }
+
+  @Test
+  public void testShouldGetObjectWithShortClassReturnGetShort() throws SQLException {
+    short expected = Short.MAX_VALUE;
+    when(accessor.getShort()).thenReturn(expected);
+
+    when(accessor.getObject(Short.class)).thenCallRealMethod();
+
+    Assert.assertEquals(accessor.getObject(Short.class), (Object) expected);
+    verify(accessor).getShort();
+  }
+
+  @Test
+  public void testShouldGetObjectWithIntegerClassReturnGetInt() throws SQLException {
+    int expected = Integer.MAX_VALUE;
+    when(accessor.getInt()).thenReturn(expected);
+
+    when(accessor.getObject(Integer.class)).thenCallRealMethod();
+
+    Assert.assertEquals(accessor.getObject(Integer.class), (Object) expected);
+    verify(accessor).getInt();
+  }
+
+  @Test
+  public void testShouldGetObjectWithLongClassReturnGetLong() throws SQLException {
+    long expected = Long.MAX_VALUE;
+    when(accessor.getLong()).thenReturn(expected);
+
+    when(accessor.getObject(Long.class)).thenCallRealMethod();
+
+    Assert.assertEquals(accessor.getObject(Long.class), (Object) expected);
+    verify(accessor).getLong();
+  }
+
+  @Test
+  public void testShouldGetObjectWithFloatClassReturnGetFloat() throws SQLException {
+    float expected = Float.MAX_VALUE;
+    when(accessor.getFloat()).thenReturn(expected);
+
+    when(accessor.getObject(Float.class)).thenCallRealMethod();
+
+    Assert.assertEquals(accessor.getObject(Float.class), (Object) expected);
+    verify(accessor).getFloat();
+  }
+
+  @Test
+  public void testShouldGetObjectWithDoubleClassReturnGetDouble() throws SQLException {
+    double expected = Double.MAX_VALUE;
+    when(accessor.getDouble()).thenReturn(expected);
+
+    when(accessor.getObject(Double.class)).thenCallRealMethod();
+
+    Assert.assertEquals(accessor.getObject(Double.class), (Object) expected);
+    verify(accessor).getDouble();
+  }
+
+  @Test
+  public void testShouldGetObjectWithBooleanClassReturnGetBoolean() throws SQLException {
+    when(accessor.getBoolean()).thenReturn(true);
+
+    when(accessor.getObject(Boolean.class)).thenCallRealMethod();
+
+    Assert.assertEquals(accessor.getObject(Boolean.class), true);
+    verify(accessor).getBoolean();
+  }
+
+  @Test
+  public void testShouldGetObjectWithBigDecimalClassReturnGetBigDecimal() throws SQLException {
+    BigDecimal expected = BigDecimal.TEN;
+    when(accessor.getBigDecimal()).thenReturn(expected);
+
+    when(accessor.getObject(BigDecimal.class)).thenCallRealMethod();
+
+    Assert.assertEquals(accessor.getObject(BigDecimal.class), expected);
+    verify(accessor).getBigDecimal();
+  }
+
+  @Test
+  public void testShouldGetObjectWithStringClassReturnGetString() throws SQLException {
+    String expected = "STRING_VALUE";
+    when(accessor.getString()).thenReturn(expected);
+
+    when(accessor.getObject(String.class)).thenCallRealMethod();
+
+    Assert.assertEquals(accessor.getObject(String.class), expected);
+    verify(accessor).getString();
+  }
+
+  @Test
+  public void testShouldGetObjectWithByteArrayClassReturnGetBytes() throws SQLException {
+    byte[] expected = "STRING_VALUE".getBytes(StandardCharsets.UTF_8);
+    when(accessor.getBytes()).thenReturn(expected);
+
+    when(accessor.getObject(byte[].class)).thenCallRealMethod();
+
+    Assert.assertArrayEquals(accessor.getObject(byte[].class), expected);
+    verify(accessor).getBytes();
+  }
+
+  @Test
+  public void testShouldGetObjectWithObjectClassReturnGetObject() throws SQLException {
+    Object expected = new Object();
+    when(accessor.getObject()).thenReturn(expected);
+
+    when(accessor.getObject(Object.class)).thenCallRealMethod();
+
+    Assert.assertEquals(accessor.getObject(Object.class), expected);
+    verify(accessor).getObject();
+  }
+
+  @Test
+  public void testShouldGetObjectWithAccessorsObjectClassReturnGetObject() throws SQLException {
+    Class<Long> objectClass = Long.class;
+
+    when(accessor.getObject(objectClass)).thenCallRealMethod();
+
+    accessor.getObject(objectClass);
+    verify(accessor).getObject(objectClass);
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetBoolean() throws SQLException {
+    when(accessor.getBoolean()).thenCallRealMethod();
+    accessor.getBoolean();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetByte() throws SQLException {
+    when(accessor.getByte()).thenCallRealMethod();
+    accessor.getByte();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetShort() throws SQLException {
+    when(accessor.getShort()).thenCallRealMethod();
+    accessor.getShort();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetInt() throws SQLException {
+    when(accessor.getInt()).thenCallRealMethod();
+    accessor.getInt();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetLong() throws SQLException {
+    when(accessor.getLong()).thenCallRealMethod();
+    accessor.getLong();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetFloat() throws SQLException {
+    when(accessor.getFloat()).thenCallRealMethod();
+    accessor.getFloat();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetDouble() throws SQLException {
+    when(accessor.getDouble()).thenCallRealMethod();
+    accessor.getDouble();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetBigDecimal() throws SQLException {
+    when(accessor.getBigDecimal()).thenCallRealMethod();
+    accessor.getBigDecimal();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetBytes() throws SQLException {
+    when(accessor.getBytes()).thenCallRealMethod();
+    accessor.getBytes();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetAsciiStream() throws SQLException {
+    when(accessor.getAsciiStream()).thenCallRealMethod();
+    accessor.getAsciiStream();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetUnicodeStream() throws SQLException {
+    when(accessor.getUnicodeStream()).thenCallRealMethod();
+    accessor.getUnicodeStream();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetBinaryStream() throws SQLException {
+    when(accessor.getBinaryStream()).thenCallRealMethod();
+    accessor.getBinaryStream();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetObject() throws SQLException {
+    when(accessor.getObject()).thenCallRealMethod();
+    accessor.getObject();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetObjectMap() throws SQLException {
+    Map<String, Class<?>> map = new HashMap<>();
+    when(accessor.getObject(map)).thenCallRealMethod();
+    accessor.getObject(map);
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetCharacterStream() throws SQLException {
+    when(accessor.getCharacterStream()).thenCallRealMethod();
+    accessor.getCharacterStream();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetRef() throws SQLException {
+    when(accessor.getRef()).thenCallRealMethod();
+    accessor.getRef();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetBlob() throws SQLException {
+    when(accessor.getBlob()).thenCallRealMethod();
+    accessor.getBlob();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetClob() throws SQLException {
+    when(accessor.getClob()).thenCallRealMethod();
+    accessor.getClob();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetArray() throws SQLException {
+    when(accessor.getArray()).thenCallRealMethod();
+    accessor.getArray();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetStruct() throws SQLException {
+    when(accessor.getStruct()).thenCallRealMethod();
+    accessor.getStruct();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetURL() throws SQLException {
+    when(accessor.getURL()).thenCallRealMethod();
+    accessor.getURL();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetNClob() throws SQLException {
+    when(accessor.getNClob()).thenCallRealMethod();
+    accessor.getNClob();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetSQLXML() throws SQLException {
+    when(accessor.getSQLXML()).thenCallRealMethod();
+    accessor.getSQLXML();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetNString() throws SQLException {
+    when(accessor.getNString()).thenCallRealMethod();
+    accessor.getNString();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetNCharacterStream() throws SQLException {
+    when(accessor.getNCharacterStream()).thenCallRealMethod();
+    accessor.getNCharacterStream();
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetDate() throws SQLException {
+    when(accessor.getDate(null)).thenCallRealMethod();
+    accessor.getDate(null);
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetTime() throws SQLException {
+    when(accessor.getTime(null)).thenCallRealMethod();
+    accessor.getTime(null);
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetTimestamp() throws SQLException {
+    when(accessor.getTimestamp(null)).thenCallRealMethod();
+    accessor.getTimestamp(null);
+  }
+
+  @Test(expected = SQLException.class)
+  public void testShouldFailToGetBigDecimalWithValue() throws SQLException {
+    when(accessor.getBigDecimal(0)).thenCallRealMethod();
+    accessor.getBigDecimal(0);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/ArrowFlightJdbcNullVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/ArrowFlightJdbcNullVectorAccessorTest.java
new file mode 100644
index 00000000000..57e7ecfe025
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/ArrowFlightJdbcNullVectorAccessorTest.java
@@ -0,0 +1,38 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl;
+
+import org.junit.Assert;
+import org.junit.Test;
+
+public class ArrowFlightJdbcNullVectorAccessorTest {
+
+  ArrowFlightJdbcNullVectorAccessor accessor =
+      new ArrowFlightJdbcNullVectorAccessor((boolean wasNull) -> {
+      });
+
+  @Test
+  public void testShouldWasNullReturnTrue() {
+    Assert.assertTrue(accessor.wasNull());
+  }
+
+  @Test
+  public void testShouldGetObjectReturnNull() {
+    Assert.assertNull(accessor.getObject());
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/binary/ArrowFlightJdbcBinaryVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/binary/ArrowFlightJdbcBinaryVectorAccessorTest.java
new file mode 100644
index 00000000000..f4d256c4cf8
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/binary/ArrowFlightJdbcBinaryVectorAccessorTest.java
@@ -0,0 +1,244 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.binary;
+
+import static java.nio.charset.StandardCharsets.US_ASCII;
+import static java.nio.charset.StandardCharsets.UTF_8;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.io.InputStream;
+import java.io.Reader;
+import java.util.Arrays;
+import java.util.Collection;
+import java.util.function.Supplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.FixedSizeBinaryVector;
+import org.apache.arrow.vector.LargeVarBinaryVector;
+import org.apache.arrow.vector.ValueVector;
+import org.apache.arrow.vector.VarBinaryVector;
+import org.apache.commons.io.IOUtils;
+import org.hamcrest.CoreMatchers;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.runner.RunWith;
+import org.junit.runners.Parameterized;
+
+@RunWith(Parameterized.class)
+public class ArrowFlightJdbcBinaryVectorAccessorTest {
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  private ValueVector vector;
+  private final Supplier<ValueVector> vectorSupplier;
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcBinaryVectorAccessor>
+      accessorSupplier = (vector, getCurrentRow) -> {
+        ArrowFlightJdbcAccessorFactory.WasNullConsumer noOpWasNullConsumer = (boolean wasNull) -> {
+        };
+        if (vector instanceof VarBinaryVector) {
+          return new ArrowFlightJdbcBinaryVectorAccessor(((VarBinaryVector) vector), getCurrentRow,
+              noOpWasNullConsumer);
+        } else if (vector instanceof LargeVarBinaryVector) {
+          return new ArrowFlightJdbcBinaryVectorAccessor(((LargeVarBinaryVector) vector),
+              getCurrentRow, noOpWasNullConsumer);
+        } else if (vector instanceof FixedSizeBinaryVector) {
+          return new ArrowFlightJdbcBinaryVectorAccessor(((FixedSizeBinaryVector) vector),
+              getCurrentRow, noOpWasNullConsumer);
+        }
+        return null;
+      };
+
+  private final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcBinaryVectorAccessor>
+      accessorIterator =
+      new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Parameterized.Parameters(name = "{1}")
+  public static Collection<Object[]> data() {
+    return Arrays.asList(new Object[][] {
+        {(Supplier<ValueVector>) () -> rootAllocatorTestRule.createVarBinaryVector(),
+            "VarBinaryVector"},
+        {(Supplier<ValueVector>) () -> rootAllocatorTestRule.createLargeVarBinaryVector(),
+            "LargeVarBinaryVector"},
+        {(Supplier<ValueVector>) () -> rootAllocatorTestRule.createFixedSizeBinaryVector(),
+            "FixedSizeBinaryVector"},
+    });
+  }
+
+  public ArrowFlightJdbcBinaryVectorAccessorTest(Supplier<ValueVector> vectorSupplier,
+                                                 String vectorType) {
+    this.vectorSupplier = vectorSupplier;
+  }
+
+  @Before
+  public void setup() {
+    this.vector = vectorSupplier.get();
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+  }
+
+  @Test
+  public void testShouldGetStringReturnExpectedString() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcBinaryVectorAccessor::getString,
+        (accessor) -> is(new String(accessor.getBytes(), UTF_8)));
+  }
+
+  @Test
+  public void testShouldGetStringReturnNull() throws Exception {
+    vector.reset();
+    vector.setValueCount(5);
+
+    accessorIterator
+        .assertAccessorGetter(vector, ArrowFlightJdbcBinaryVectorAccessor::getString,
+            CoreMatchers.nullValue());
+  }
+
+  @Test
+  public void testShouldGetBytesReturnExpectedByteArray() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcBinaryVectorAccessor::getBytes,
+        (accessor, currentRow) -> {
+          if (vector instanceof VarBinaryVector) {
+            return is(((VarBinaryVector) vector).get(currentRow));
+          } else if (vector instanceof LargeVarBinaryVector) {
+            return is(((LargeVarBinaryVector) vector).get(currentRow));
+          } else if (vector instanceof FixedSizeBinaryVector) {
+            return is(((FixedSizeBinaryVector) vector).get(currentRow));
+          }
+          return null;
+        });
+  }
+
+  @Test
+  public void testShouldGetBytesReturnNull() throws Exception {
+    vector.reset();
+    vector.setValueCount(5);
+
+    ArrowFlightJdbcBinaryVectorAccessor accessor = accessorSupplier.supply(vector, () -> 0);
+    collector.checkThat(accessor.getBytes(), CoreMatchers.equalTo(null));
+    collector.checkThat(accessor.wasNull(), is(true));
+  }
+
+  @Test
+  public void testShouldGetObjectReturnAsGetBytes() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcBinaryVectorAccessor::getObject,
+        (accessor) -> is(accessor.getBytes()));
+  }
+
+  @Test
+  public void testShouldGetObjectReturnNull() {
+    vector.reset();
+    vector.setValueCount(5);
+
+    ArrowFlightJdbcBinaryVectorAccessor accessor = accessorSupplier.supply(vector, () -> 0);
+    collector.checkThat(accessor.getObject(), CoreMatchers.equalTo(null));
+    collector.checkThat(accessor.wasNull(), is(true));
+  }
+
+  @Test
+  public void testShouldGetUnicodeStreamReturnCorrectInputStream() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      InputStream inputStream = accessor.getUnicodeStream();
+      String actualString = IOUtils.toString(inputStream, UTF_8);
+      collector.checkThat(accessor.wasNull(), is(false));
+      collector.checkThat(actualString, is(accessor.getString()));
+    });
+  }
+
+  @Test
+  public void testShouldGetUnicodeStreamReturnNull() throws Exception {
+    vector.reset();
+    vector.setValueCount(5);
+
+    ArrowFlightJdbcBinaryVectorAccessor accessor = accessorSupplier.supply(vector, () -> 0);
+    collector.checkThat(accessor.getUnicodeStream(), CoreMatchers.equalTo(null));
+    collector.checkThat(accessor.wasNull(), is(true));
+  }
+
+  @Test
+  public void testShouldGetAsciiStreamReturnCorrectInputStream() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      InputStream inputStream = accessor.getAsciiStream();
+      String actualString = IOUtils.toString(inputStream, US_ASCII);
+      collector.checkThat(accessor.wasNull(), is(false));
+      collector.checkThat(actualString, is(accessor.getString()));
+    });
+  }
+
+  @Test
+  public void testShouldGetAsciiStreamReturnNull() throws Exception {
+    vector.reset();
+    vector.setValueCount(5);
+
+    ArrowFlightJdbcBinaryVectorAccessor accessor = accessorSupplier.supply(vector, () -> 0);
+    collector.checkThat(accessor.getAsciiStream(), CoreMatchers.equalTo(null));
+    collector.checkThat(accessor.wasNull(), is(true));
+  }
+
+  @Test
+  public void testShouldGetBinaryStreamReturnCurrentInputStream() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      InputStream inputStream = accessor.getBinaryStream();
+      String actualString = IOUtils.toString(inputStream, UTF_8);
+      collector.checkThat(accessor.wasNull(), is(false));
+      collector.checkThat(actualString, is(accessor.getString()));
+    });
+  }
+
+  @Test
+  public void testShouldGetBinaryStreamReturnNull() throws Exception {
+    vector.reset();
+    vector.setValueCount(5);
+
+    ArrowFlightJdbcBinaryVectorAccessor accessor = accessorSupplier.supply(vector, () -> 0);
+    collector.checkThat(accessor.getBinaryStream(), CoreMatchers.equalTo(null));
+    collector.checkThat(accessor.wasNull(), is(true));
+  }
+
+  @Test
+  public void testShouldGetCharacterStreamReturnCorrectReader() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      Reader characterStream = accessor.getCharacterStream();
+      String actualString = IOUtils.toString(characterStream);
+      collector.checkThat(accessor.wasNull(), is(false));
+      collector.checkThat(actualString, is(accessor.getString()));
+    });
+  }
+
+  @Test
+  public void testShouldGetCharacterStreamReturnNull() throws Exception {
+    vector.reset();
+    vector.setValueCount(5);
+
+    ArrowFlightJdbcBinaryVectorAccessor accessor = accessorSupplier.supply(vector, () -> 0);
+    collector.checkThat(accessor.getCharacterStream(), CoreMatchers.equalTo(null));
+    collector.checkThat(accessor.wasNull(), is(true));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDateVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDateVectorAccessorTest.java
new file mode 100644
index 00000000000..36af5134626
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDateVectorAccessorTest.java
@@ -0,0 +1,254 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.calendar;
+
+import static org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcDateVectorAccessor.getTimeUnitForVector;
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+import static org.hamcrest.CoreMatchers.not;
+
+import java.sql.Date;
+import java.sql.Timestamp;
+import java.time.LocalDateTime;
+import java.util.Arrays;
+import java.util.Calendar;
+import java.util.Collection;
+import java.util.TimeZone;
+import java.util.concurrent.TimeUnit;
+import java.util.function.Supplier;
+
+import org.apache.arrow.driver.jdbc.accessor.impl.text.ArrowFlightJdbcVarCharVectorAccessor;
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.BaseFixedWidthVector;
+import org.apache.arrow.vector.DateDayVector;
+import org.apache.arrow.vector.DateMilliVector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.util.Text;
+import org.hamcrest.CoreMatchers;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.runner.RunWith;
+import org.junit.runners.Parameterized;
+
+@RunWith(Parameterized.class)
+public class ArrowFlightJdbcDateVectorAccessorTest {
+
+  public static final String AMERICA_VANCOUVER = "America/Vancouver";
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  private BaseFixedWidthVector vector;
+  private final Supplier<BaseFixedWidthVector> vectorSupplier;
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcDateVectorAccessor>
+      accessorSupplier = (vector, getCurrentRow) -> {
+        if (vector instanceof DateDayVector) {
+          return new ArrowFlightJdbcDateVectorAccessor((DateDayVector) vector, getCurrentRow,
+              (boolean wasNull) -> {
+              });
+        } else if (vector instanceof DateMilliVector) {
+          return new ArrowFlightJdbcDateVectorAccessor((DateMilliVector) vector, getCurrentRow,
+              (boolean wasNull) -> {
+              });
+        }
+        return null;
+      };
+
+  private final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcDateVectorAccessor>
+      accessorIterator =
+      new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Parameterized.Parameters(name = "{1}")
+  public static Collection<Object[]> data() {
+    return Arrays.asList(new Object[][] {
+        {(Supplier<DateDayVector>) () -> rootAllocatorTestRule.createDateDayVector(),
+            "DateDayVector"},
+        {(Supplier<DateMilliVector>) () -> rootAllocatorTestRule.createDateMilliVector(),
+            "DateMilliVector"},
+    });
+  }
+
+  public ArrowFlightJdbcDateVectorAccessorTest(Supplier<BaseFixedWidthVector> vectorSupplier,
+                                               String vectorType) {
+    this.vectorSupplier = vectorSupplier;
+  }
+
+  @Before
+  public void setup() {
+    this.vector = vectorSupplier.get();
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+  }
+
+  @Test
+  public void testShouldGetTimestampReturnValidTimestampWithoutCalendar() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, accessor -> accessor.getTimestamp(null),
+        (accessor, currentRow) -> is(getTimestampForVector(currentRow)));
+  }
+
+  @Test
+  public void testShouldGetObjectWithDateClassReturnValidDateWithoutCalendar() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, accessor -> accessor.getObject(Date.class),
+        (accessor, currentRow) -> is(new Date(getTimestampForVector(currentRow).getTime())));
+  }
+
+  @Test
+  public void testShouldGetTimestampReturnValidTimestampWithCalendar() throws Exception {
+    TimeZone timeZone = TimeZone.getTimeZone(AMERICA_VANCOUVER);
+    Calendar calendar = Calendar.getInstance(timeZone);
+
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      final Timestamp resultWithoutCalendar = accessor.getTimestamp(null);
+      final Timestamp result = accessor.getTimestamp(calendar);
+
+      long offset = timeZone.getOffset(resultWithoutCalendar.getTime());
+
+      collector.checkThat(resultWithoutCalendar.getTime() - result.getTime(), is(offset));
+      collector.checkThat(accessor.wasNull(), is(false));
+    });
+  }
+
+  @Test
+  public void testShouldGetTimestampReturnNull() {
+    vector.setNull(0);
+    ArrowFlightJdbcDateVectorAccessor accessor = accessorSupplier.supply(vector, () -> 0);
+    collector.checkThat(accessor.getTimestamp(null), CoreMatchers.equalTo(null));
+    collector.checkThat(accessor.wasNull(), is(true));
+  }
+
+  @Test
+  public void testShouldGetDateReturnValidDateWithoutCalendar() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, accessor -> accessor.getDate(null),
+        (accessor, currentRow) -> is(new Date(getTimestampForVector(currentRow).getTime())));
+  }
+
+  @Test
+  public void testShouldGetDateReturnValidDateWithCalendar() throws Exception {
+    TimeZone timeZone = TimeZone.getTimeZone(AMERICA_VANCOUVER);
+    Calendar calendar = Calendar.getInstance(timeZone);
+
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      final Date resultWithoutCalendar = accessor.getDate(null);
+      final Date result = accessor.getDate(calendar);
+
+      long offset = timeZone.getOffset(resultWithoutCalendar.getTime());
+
+      collector.checkThat(resultWithoutCalendar.getTime() - result.getTime(), is(offset));
+      collector.checkThat(accessor.wasNull(), is(false));
+    });
+  }
+
+  @Test
+  public void testShouldGetDateReturnNull() {
+    vector.setNull(0);
+    ArrowFlightJdbcDateVectorAccessor accessor = accessorSupplier.supply(vector, () -> 0);
+    collector.checkThat(accessor.getDate(null), CoreMatchers.equalTo(null));
+    collector.checkThat(accessor.wasNull(), is(true));
+  }
+
+  private Timestamp getTimestampForVector(int currentRow) {
+    Object object = vector.getObject(currentRow);
+
+    Timestamp expectedTimestamp = null;
+    if (object instanceof LocalDateTime) {
+      expectedTimestamp = Timestamp.valueOf((LocalDateTime) object);
+    } else if (object instanceof Number) {
+      long value = ((Number) object).longValue();
+      TimeUnit timeUnit = getTimeUnitForVector(vector);
+      long millis = timeUnit.toMillis(value);
+      expectedTimestamp = new Timestamp(millis);
+    }
+    return expectedTimestamp;
+  }
+
+  @Test
+  public void testShouldGetObjectClass() throws Exception {
+    accessorIterator
+        .assertAccessorGetter(vector, ArrowFlightJdbcDateVectorAccessor::getObjectClass,
+            equalTo(Date.class));
+  }
+
+  @Test
+  public void testShouldGetStringBeConsistentWithVarCharAccessorWithoutCalendar() throws Exception {
+    assertGetStringIsConsistentWithVarCharAccessor(null);
+  }
+
+  @Test
+  public void testShouldGetStringBeConsistentWithVarCharAccessorWithCalendar() throws Exception {
+    Calendar calendar = Calendar.getInstance(TimeZone.getTimeZone(AMERICA_VANCOUVER));
+    assertGetStringIsConsistentWithVarCharAccessor(calendar);
+  }
+
+  @Test
+  public void testValidateGetStringTimeZoneConsistency() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      final TimeZone defaultTz = TimeZone.getDefault();
+      try {
+        final String string = accessor.getString(); // Should always be UTC as no calendar is provided
+
+        // Validate with UTC
+        Date date = accessor.getDate(null);
+        TimeZone.setDefault(TimeZone.getTimeZone("UTC"));
+        collector.checkThat(date.toString(), is(string));
+
+        // Validate with different TZ
+        TimeZone.setDefault(TimeZone.getTimeZone(AMERICA_VANCOUVER));
+        collector.checkThat(date.toString(), not(string));
+
+        collector.checkThat(accessor.wasNull(), is(false));
+      } finally {
+        // Set default Tz back
+        TimeZone.setDefault(defaultTz);
+      }
+    });
+  }
+
+  private void assertGetStringIsConsistentWithVarCharAccessor(Calendar calendar) throws Exception {
+    try (VarCharVector varCharVector = new VarCharVector("",
+        rootAllocatorTestRule.getRootAllocator())) {
+      varCharVector.allocateNew(1);
+      ArrowFlightJdbcVarCharVectorAccessor varCharVectorAccessor =
+          new ArrowFlightJdbcVarCharVectorAccessor(varCharVector, () -> 0, (boolean wasNull) -> {
+          });
+
+      accessorIterator.iterate(vector, (accessor, currentRow) -> {
+        final String string = accessor.getString();
+        varCharVector.set(0, new Text(string));
+        varCharVector.setValueCount(1);
+
+        Date dateFromVarChar = varCharVectorAccessor.getDate(calendar);
+        Date date = accessor.getDate(calendar);
+
+        collector.checkThat(date, is(dateFromVarChar));
+        collector.checkThat(accessor.wasNull(), is(false));
+      });
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDurationVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDurationVectorAccessorTest.java
new file mode 100644
index 00000000000..64ddb573f1b
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcDurationVectorAccessorTest.java
@@ -0,0 +1,115 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.calendar;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.time.Duration;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.DurationVector;
+import org.apache.arrow.vector.types.TimeUnit;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.FieldType;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+public class ArrowFlightJdbcDurationVectorAccessorTest {
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  private DurationVector vector;
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcDurationVectorAccessor>
+      accessorSupplier =
+          (vector, getCurrentRow) -> new ArrowFlightJdbcDurationVectorAccessor((DurationVector) vector,
+              getCurrentRow, (boolean wasNull) -> {
+          });
+
+  private final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcDurationVectorAccessor>
+      accessorIterator =
+      new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Before
+  public void setup() {
+    FieldType fieldType = new FieldType(true, new ArrowType.Duration(TimeUnit.MILLISECOND), null);
+    this.vector = new DurationVector("", fieldType, rootAllocatorTestRule.getRootAllocator());
+
+    int valueCount = 10;
+    this.vector.setValueCount(valueCount);
+    for (int i = 0; i < valueCount; i++) {
+      this.vector.set(i, java.util.concurrent.TimeUnit.DAYS.toMillis(i + 1));
+    }
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+  }
+
+  @Test
+  public void getObject() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcDurationVectorAccessor::getObject,
+        (accessor, currentRow) -> is(Duration.ofDays(currentRow + 1)));
+  }
+
+  @Test
+  public void getObjectForNull() throws Exception {
+    int valueCount = vector.getValueCount();
+    for (int i = 0; i < valueCount; i++) {
+      vector.setNull(i);
+    }
+
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcDurationVectorAccessor::getObject,
+        (accessor, currentRow) -> equalTo(null));
+  }
+
+  @Test
+  public void getString() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcAccessor::getString,
+        (accessor, currentRow) -> is(Duration.ofDays(currentRow + 1).toString()));
+  }
+
+  @Test
+  public void getStringForNull() throws Exception {
+    int valueCount = vector.getValueCount();
+    for (int i = 0; i < valueCount; i++) {
+      vector.setNull(i);
+    }
+
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcAccessor::getString,
+        (accessor, currentRow) -> equalTo(null));
+  }
+
+  @Test
+  public void testShouldGetObjectClass() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcAccessor::getObjectClass,
+        (accessor, currentRow) -> equalTo(Duration.class));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcIntervalVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcIntervalVectorAccessorTest.java
new file mode 100644
index 00000000000..ea228692202
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcIntervalVectorAccessorTest.java
@@ -0,0 +1,249 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.calendar;
+
+import static org.apache.arrow.driver.jdbc.utils.IntervalStringUtils.formatIntervalDay;
+import static org.apache.arrow.driver.jdbc.utils.IntervalStringUtils.formatIntervalYear;
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+import static org.joda.time.Period.parse;
+
+import java.time.Duration;
+import java.time.Period;
+import java.util.Arrays;
+import java.util.Collection;
+import java.util.function.Supplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.IntervalDayVector;
+import org.apache.arrow.vector.IntervalYearVector;
+import org.apache.arrow.vector.ValueVector;
+import org.junit.After;
+import org.junit.Assert;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.runner.RunWith;
+import org.junit.runners.Parameterized;
+
+@RunWith(Parameterized.class)
+public class ArrowFlightJdbcIntervalVectorAccessorTest {
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  private final Supplier<ValueVector> vectorSupplier;
+  private ValueVector vector;
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcIntervalVectorAccessor>
+      accessorSupplier = (vector, getCurrentRow) -> {
+        ArrowFlightJdbcAccessorFactory.WasNullConsumer noOpWasNullConsumer = (boolean wasNull) -> {
+        };
+        if (vector instanceof IntervalDayVector) {
+          return new ArrowFlightJdbcIntervalVectorAccessor((IntervalDayVector) vector,
+              getCurrentRow, noOpWasNullConsumer);
+        } else if (vector instanceof IntervalYearVector) {
+          return new ArrowFlightJdbcIntervalVectorAccessor((IntervalYearVector) vector,
+              getCurrentRow, noOpWasNullConsumer);
+        }
+        return null;
+      };
+
+  final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcIntervalVectorAccessor> accessorIterator =
+      new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Parameterized.Parameters(name = "{1}")
+  public static Collection<Object[]> data() {
+    return Arrays.asList(new Object[][] {
+        {(Supplier<ValueVector>) () -> {
+          IntervalDayVector vector =
+              new IntervalDayVector("", rootAllocatorTestRule.getRootAllocator());
+
+          int valueCount = 10;
+          vector.setValueCount(valueCount);
+          for (int i = 0; i < valueCount; i++) {
+            vector.set(i, i + 1, (i + 1) * 1000);
+          }
+          return vector;
+        }, "IntervalDayVector"},
+        {(Supplier<ValueVector>) () -> {
+          IntervalYearVector vector =
+              new IntervalYearVector("", rootAllocatorTestRule.getRootAllocator());
+
+          int valueCount = 10;
+          vector.setValueCount(valueCount);
+          for (int i = 0; i < valueCount; i++) {
+            vector.set(i, i + 1);
+          }
+          return vector;
+        }, "IntervalYearVector"},
+    });
+  }
+
+  public ArrowFlightJdbcIntervalVectorAccessorTest(Supplier<ValueVector> vectorSupplier,
+                                                   String vectorType) {
+    this.vectorSupplier = vectorSupplier;
+  }
+
+  @Before
+  public void setup() {
+    this.vector = vectorSupplier.get();
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+  }
+
+  @Test
+  public void testShouldGetObjectReturnValidObject() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcIntervalVectorAccessor::getObject,
+        (accessor, currentRow) -> is(getExpectedObject(vector, currentRow)));
+  }
+
+  @Test
+  public void testShouldGetObjectPassingObjectClassAsParameterReturnValidObject() throws Exception {
+    Class<?> objectClass = getExpectedObjectClassForVector(vector);
+    accessorIterator.assertAccessorGetter(vector, accessor -> accessor.getObject(objectClass),
+        (accessor, currentRow) -> is(getExpectedObject(vector, currentRow)));
+  }
+
+  @Test
+  public void testShouldGetObjectReturnNull() throws Exception {
+    setAllNullOnVector(vector);
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcIntervalVectorAccessor::getObject,
+        (accessor, currentRow) -> equalTo(null));
+  }
+
+  private String getStringOnVector(ValueVector vector, int index) {
+    String object = getExpectedObject(vector, index).toString();
+    if (object == null) {
+      return null;
+    } else if (vector instanceof IntervalDayVector) {
+      return formatIntervalDay(parse(object));
+    } else if (vector instanceof IntervalYearVector) {
+      return formatIntervalYear(parse(object));
+    }
+    return null;
+  }
+
+  @Test
+  public void testShouldGetIntervalYear( ) {
+    Assert.assertEquals("-002-00", formatIntervalYear(parse("P-2Y")));
+    Assert.assertEquals("-001-01", formatIntervalYear(parse("P-1Y-1M")));
+    Assert.assertEquals("-001-02", formatIntervalYear(parse("P-1Y-2M")));
+    Assert.assertEquals("-002-03", formatIntervalYear(parse("P-2Y-3M")));
+    Assert.assertEquals("-002-04", formatIntervalYear(parse("P-2Y-4M")));
+    Assert.assertEquals("-011-01", formatIntervalYear(parse("P-11Y-1M")));
+    Assert.assertEquals("+002-00", formatIntervalYear(parse("P+2Y")));
+    Assert.assertEquals("+001-01", formatIntervalYear(parse("P+1Y1M")));
+    Assert.assertEquals("+001-02", formatIntervalYear(parse("P+1Y2M")));
+    Assert.assertEquals("+002-03", formatIntervalYear(parse("P+2Y3M")));
+    Assert.assertEquals("+002-04", formatIntervalYear(parse("P+2Y4M")));
+    Assert.assertEquals("+011-01", formatIntervalYear(parse("P+11Y1M")));
+  }
+
+  @Test
+  public void testShouldGetIntervalDay( ) {
+    Assert.assertEquals("-001 00:00:00.000", formatIntervalDay(parse("PT-24H")));
+    Assert.assertEquals("+001 00:00:00.000", formatIntervalDay(parse("PT+24H")));
+    Assert.assertEquals("-000 01:00:00.000", formatIntervalDay(parse("PT-1H")));
+    Assert.assertEquals("-000 01:00:00.001", formatIntervalDay(parse("PT-1H-0M-00.001S")));
+    Assert.assertEquals("-000 01:01:01.000", formatIntervalDay(parse("PT-1H-1M-1S")));
+    Assert.assertEquals("-000 02:02:02.002", formatIntervalDay(parse("PT-2H-2M-02.002S")));
+    Assert.assertEquals("-000 23:59:59.999", formatIntervalDay(parse("PT-23H-59M-59.999S")));
+    Assert.assertEquals("-000 11:59:00.100", formatIntervalDay(parse("PT-11H-59M-00.100S")));
+    Assert.assertEquals("-000 05:02:03.000", formatIntervalDay(parse("PT-5H-2M-3S")));
+    Assert.assertEquals("-000 22:22:22.222", formatIntervalDay(parse("PT-22H-22M-22.222S")));
+    Assert.assertEquals("+000 01:00:00.000", formatIntervalDay(parse("PT+1H")));
+    Assert.assertEquals("+000 01:00:00.001", formatIntervalDay(parse("PT+1H0M00.001S")));
+    Assert.assertEquals("+000 01:01:01.000", formatIntervalDay(parse("PT+1H1M1S")));
+    Assert.assertEquals("+000 02:02:02.002", formatIntervalDay(parse("PT+2H2M02.002S")));
+    Assert.assertEquals("+000 23:59:59.999", formatIntervalDay(parse("PT+23H59M59.999S")));
+    Assert.assertEquals("+000 11:59:00.100", formatIntervalDay(parse("PT+11H59M00.100S")));
+    Assert.assertEquals("+000 05:02:03.000", formatIntervalDay(parse("PT+5H2M3S")));
+    Assert.assertEquals("+000 22:22:22.222", formatIntervalDay(parse("PT+22H22M22.222S")));
+  }
+
+  @Test
+  public void testIntervalDayWithJodaPeriodObject() {
+    Assert.assertEquals("+1567 00:00:00.000",
+        formatIntervalDay(new org.joda.time.Period().plusDays(1567)));
+    Assert.assertEquals("-1567 00:00:00.000",
+        formatIntervalDay(new org.joda.time.Period().minusDays(1567)));
+  }
+
+  @Test
+  public void testShouldGetStringReturnCorrectString() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcIntervalVectorAccessor::getString,
+        (accessor, currentRow) -> is(getStringOnVector(vector, currentRow)));
+  }
+
+  @Test
+  public void testShouldGetStringReturnNull() throws Exception {
+    setAllNullOnVector(vector);
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcIntervalVectorAccessor::getString,
+        (accessor, currentRow) -> equalTo(null));
+  }
+
+  @Test
+  public void testShouldGetObjectClassReturnCorrectClass() throws Exception {
+    Class<?> expectedObjectClass = getExpectedObjectClassForVector(vector);
+    accessorIterator.assertAccessorGetter(vector,
+        ArrowFlightJdbcIntervalVectorAccessor::getObjectClass,
+        (accessor, currentRow) -> equalTo(expectedObjectClass));
+  }
+
+  private Class<?> getExpectedObjectClassForVector(ValueVector vector) {
+    if (vector instanceof IntervalDayVector) {
+      return Duration.class;
+    } else if (vector instanceof IntervalYearVector) {
+      return Period.class;
+    }
+    return null;
+  }
+
+  private void setAllNullOnVector(ValueVector vector) {
+    int valueCount = vector.getValueCount();
+    if (vector instanceof IntervalDayVector) {
+      for (int i = 0; i < valueCount; i++) {
+        ((IntervalDayVector) vector).setNull(i);
+      }
+    } else if (vector instanceof IntervalYearVector) {
+      for (int i = 0; i < valueCount; i++) {
+        ((IntervalYearVector) vector).setNull(i);
+      }
+    }
+  }
+
+  private Object getExpectedObject(ValueVector vector, int currentRow) {
+    if (vector instanceof IntervalDayVector) {
+      return Duration.ofDays(currentRow + 1).plusMillis((currentRow + 1) * 1000L);
+    } else if (vector instanceof IntervalYearVector) {
+      return Period.ofMonths(currentRow + 1);
+    }
+    return null;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeStampVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeStampVectorAccessorTest.java
new file mode 100644
index 00000000000..38d842724b9
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeStampVectorAccessorTest.java
@@ -0,0 +1,322 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.calendar;
+
+import static org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeStampVectorAccessor.getTimeUnitForVector;
+import static org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeStampVectorAccessor.getTimeZoneForVector;
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.sql.Date;
+import java.sql.Time;
+import java.sql.Timestamp;
+import java.time.LocalDateTime;
+import java.util.Arrays;
+import java.util.Calendar;
+import java.util.Collection;
+import java.util.TimeZone;
+import java.util.concurrent.TimeUnit;
+import java.util.function.Supplier;
+
+import org.apache.arrow.driver.jdbc.accessor.impl.text.ArrowFlightJdbcVarCharVectorAccessor;
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.TimeStampMicroVector;
+import org.apache.arrow.vector.TimeStampMilliVector;
+import org.apache.arrow.vector.TimeStampNanoVector;
+import org.apache.arrow.vector.TimeStampSecVector;
+import org.apache.arrow.vector.TimeStampVector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.util.Text;
+import org.hamcrest.CoreMatchers;
+import org.junit.After;
+import org.junit.Assume;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.runner.RunWith;
+import org.junit.runners.Parameterized;
+
+@RunWith(Parameterized.class)
+public class ArrowFlightJdbcTimeStampVectorAccessorTest {
+
+  public static final String AMERICA_VANCOUVER = "America/Vancouver";
+  public static final String ASIA_BANGKOK = "Asia/Bangkok";
+  public static final String AMERICA_SAO_PAULO = "America/Sao_Paulo";
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+  private final String timeZone;
+
+  private TimeStampVector vector;
+  private final Supplier<TimeStampVector> vectorSupplier;
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcTimeStampVectorAccessor>
+      accessorSupplier =
+          (vector, getCurrentRow) -> new ArrowFlightJdbcTimeStampVectorAccessor(
+              (TimeStampVector) vector, getCurrentRow, (boolean wasNull) -> {
+          });
+
+  private final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcTimeStampVectorAccessor>
+      accessorIterator =
+      new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Parameterized.Parameters(name = "{1} - TimeZone: {2}")
+  public static Collection<Object[]> data() {
+    return Arrays.asList(new Object[][] {
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampNanoVector(),
+            "TimeStampNanoVector",
+            null},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampNanoTZVector("UTC"),
+            "TimeStampNanoTZVector",
+            "UTC"},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampNanoTZVector(
+            AMERICA_VANCOUVER),
+            "TimeStampNanoTZVector",
+            AMERICA_VANCOUVER},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampNanoTZVector(
+            ASIA_BANGKOK),
+            "TimeStampNanoTZVector",
+            ASIA_BANGKOK},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampMicroVector(),
+            "TimeStampMicroVector",
+            null},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampMicroTZVector(
+            "UTC"),
+            "TimeStampMicroTZVector",
+            "UTC"},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampMicroTZVector(
+            AMERICA_VANCOUVER),
+            "TimeStampMicroTZVector",
+            AMERICA_VANCOUVER},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampMicroTZVector(
+            ASIA_BANGKOK),
+            "TimeStampMicroTZVector",
+            ASIA_BANGKOK},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampMilliVector(),
+            "TimeStampMilliVector",
+            null},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampMilliTZVector(
+            "UTC"),
+            "TimeStampMilliTZVector",
+            "UTC"},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampMilliTZVector(
+            AMERICA_VANCOUVER),
+            "TimeStampMilliTZVector",
+            AMERICA_VANCOUVER},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampMilliTZVector(
+            ASIA_BANGKOK),
+            "TimeStampMilliTZVector",
+            ASIA_BANGKOK},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampSecVector(),
+            "TimeStampSecVector",
+            null},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampSecTZVector("UTC"),
+            "TimeStampSecTZVector",
+            "UTC"},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampSecTZVector(
+            AMERICA_VANCOUVER),
+            "TimeStampSecTZVector",
+            AMERICA_VANCOUVER},
+        {(Supplier<TimeStampVector>) () -> rootAllocatorTestRule.createTimeStampSecTZVector(
+            ASIA_BANGKOK),
+            "TimeStampSecTZVector",
+            ASIA_BANGKOK}
+    });
+  }
+
+  public ArrowFlightJdbcTimeStampVectorAccessorTest(Supplier<TimeStampVector> vectorSupplier,
+                                                    String vectorType,
+                                                    String timeZone) {
+    this.vectorSupplier = vectorSupplier;
+    this.timeZone = timeZone;
+  }
+
+  @Before
+  public void setup() {
+    this.vector = vectorSupplier.get();
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+  }
+
+  @Test
+  public void testShouldGetTimestampReturnValidTimestampWithoutCalendar() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, accessor -> accessor.getTimestamp(null),
+        (accessor, currentRow) -> is(getTimestampForVector(currentRow)));
+  }
+
+  @Test
+  public void testShouldGetTimestampReturnValidTimestampWithCalendar() throws Exception {
+    TimeZone timeZone = TimeZone.getTimeZone(AMERICA_SAO_PAULO);
+    Calendar calendar = Calendar.getInstance(timeZone);
+
+    TimeZone timeZoneForVector = getTimeZoneForVector(vector);
+
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      final Timestamp resultWithoutCalendar = accessor.getTimestamp(null);
+      final Timestamp result = accessor.getTimestamp(calendar);
+
+      long offset = timeZone.getOffset(resultWithoutCalendar.getTime()) -
+          timeZoneForVector.getOffset(resultWithoutCalendar.getTime());
+
+      collector.checkThat(resultWithoutCalendar.getTime() - result.getTime(), is(offset));
+      collector.checkThat(accessor.wasNull(), is(false));
+    });
+  }
+
+  @Test
+  public void testShouldGetTimestampReturnNull() {
+    vector.setNull(0);
+    ArrowFlightJdbcTimeStampVectorAccessor accessor = accessorSupplier.supply(vector, () -> 0);
+    collector.checkThat(accessor.getTimestamp(null), CoreMatchers.equalTo(null));
+    collector.checkThat(accessor.wasNull(), is(true));
+  }
+
+  @Test
+  public void testShouldGetDateReturnValidDateWithoutCalendar() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, accessor -> accessor.getDate(null),
+        (accessor, currentRow) -> is(new Date(getTimestampForVector(currentRow).getTime())));
+  }
+
+  @Test
+  public void testShouldGetDateReturnValidDateWithCalendar() throws Exception {
+    TimeZone timeZone = TimeZone.getTimeZone(AMERICA_SAO_PAULO);
+    Calendar calendar = Calendar.getInstance(timeZone);
+
+    TimeZone timeZoneForVector = getTimeZoneForVector(vector);
+
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      final Date resultWithoutCalendar = accessor.getDate(null);
+      final Date result = accessor.getDate(calendar);
+
+      long offset = timeZone.getOffset(resultWithoutCalendar.getTime()) -
+          timeZoneForVector.getOffset(resultWithoutCalendar.getTime());
+
+      collector.checkThat(resultWithoutCalendar.getTime() - result.getTime(), is(offset));
+      collector.checkThat(accessor.wasNull(), is(false));
+    });
+  }
+
+  @Test
+  public void testShouldGetDateReturnNull() {
+    vector.setNull(0);
+    ArrowFlightJdbcTimeStampVectorAccessor accessor = accessorSupplier.supply(vector, () -> 0);
+    collector.checkThat(accessor.getDate(null), CoreMatchers.equalTo(null));
+    collector.checkThat(accessor.wasNull(), is(true));
+  }
+
+  @Test
+  public void testShouldGetTimeReturnValidTimeWithoutCalendar() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, accessor -> accessor.getTime(null),
+        (accessor, currentRow) -> is(new Time(getTimestampForVector(currentRow).getTime())));
+  }
+
+  @Test
+  public void testShouldGetTimeReturnValidTimeWithCalendar() throws Exception {
+    TimeZone timeZone = TimeZone.getTimeZone(AMERICA_SAO_PAULO);
+    Calendar calendar = Calendar.getInstance(timeZone);
+
+    TimeZone timeZoneForVector = getTimeZoneForVector(vector);
+
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      final Time resultWithoutCalendar = accessor.getTime(null);
+      final Time result = accessor.getTime(calendar);
+
+      long offset = timeZone.getOffset(resultWithoutCalendar.getTime()) -
+          timeZoneForVector.getOffset(resultWithoutCalendar.getTime());
+
+      collector.checkThat(resultWithoutCalendar.getTime() - result.getTime(), is(offset));
+      collector.checkThat(accessor.wasNull(), is(false));
+    });
+  }
+
+  @Test
+  public void testShouldGetTimeReturnNull() {
+    vector.setNull(0);
+    ArrowFlightJdbcTimeStampVectorAccessor accessor = accessorSupplier.supply(vector, () -> 0);
+    collector.checkThat(accessor.getTime(null), CoreMatchers.equalTo(null));
+    collector.checkThat(accessor.wasNull(), is(true));
+  }
+
+  private Timestamp getTimestampForVector(int currentRow) {
+    Object object = vector.getObject(currentRow);
+
+    Timestamp expectedTimestamp = null;
+    if (object instanceof LocalDateTime) {
+      expectedTimestamp = Timestamp.valueOf((LocalDateTime) object);
+    } else if (object instanceof Long) {
+      TimeUnit timeUnit = getTimeUnitForVector(vector);
+      long millis = timeUnit.toMillis((Long) object);
+      long offset = TimeZone.getTimeZone(timeZone).getOffset(millis);
+      expectedTimestamp = new Timestamp(millis + offset);
+    }
+    return expectedTimestamp;
+  }
+
+  @Test
+  public void testShouldGetObjectClass() throws Exception {
+    accessorIterator.assertAccessorGetter(vector,
+        ArrowFlightJdbcTimeStampVectorAccessor::getObjectClass,
+        equalTo(Timestamp.class));
+  }
+
+  @Test
+  public void testShouldGetStringBeConsistentWithVarCharAccessorWithoutCalendar() throws Exception {
+    assertGetStringIsConsistentWithVarCharAccessor(null);
+  }
+
+  @Test
+  public void testShouldGetStringBeConsistentWithVarCharAccessorWithCalendar() throws Exception {
+    // Ignore for TimeStamp vectors with TZ, as VarChar accessor won't consider their TZ
+    Assume.assumeTrue(
+        vector instanceof TimeStampNanoVector || vector instanceof TimeStampMicroVector ||
+            vector instanceof TimeStampMilliVector || vector instanceof TimeStampSecVector);
+    Calendar calendar = Calendar.getInstance(TimeZone.getTimeZone(AMERICA_VANCOUVER));
+    assertGetStringIsConsistentWithVarCharAccessor(calendar);
+  }
+
+  private void assertGetStringIsConsistentWithVarCharAccessor(Calendar calendar) throws Exception {
+    try (VarCharVector varCharVector = new VarCharVector("",
+        rootAllocatorTestRule.getRootAllocator())) {
+      varCharVector.allocateNew(1);
+      ArrowFlightJdbcVarCharVectorAccessor varCharVectorAccessor =
+          new ArrowFlightJdbcVarCharVectorAccessor(varCharVector, () -> 0, (boolean wasNull) -> {
+          });
+
+      accessorIterator.iterate(vector, (accessor, currentRow) -> {
+        final String string = accessor.getString();
+        varCharVector.set(0, new Text(string));
+        varCharVector.setValueCount(1);
+
+        Timestamp timestampFromVarChar = varCharVectorAccessor.getTimestamp(calendar);
+        Timestamp timestamp = accessor.getTimestamp(calendar);
+
+        collector.checkThat(timestamp, is(timestampFromVarChar));
+        collector.checkThat(accessor.wasNull(), is(false));
+      });
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeVectorAccessorTest.java
new file mode 100644
index 00000000000..d2f7eb336af
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/calendar/ArrowFlightJdbcTimeVectorAccessorTest.java
@@ -0,0 +1,263 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.calendar;
+
+import static org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeVectorAccessor.getTimeUnitForVector;
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+import static org.hamcrest.CoreMatchers.not;
+
+import java.sql.Time;
+import java.sql.Timestamp;
+import java.time.LocalDateTime;
+import java.util.Arrays;
+import java.util.Calendar;
+import java.util.Collection;
+import java.util.TimeZone;
+import java.util.concurrent.TimeUnit;
+import java.util.function.Supplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.driver.jdbc.accessor.impl.text.ArrowFlightJdbcVarCharVectorAccessor;
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.BaseFixedWidthVector;
+import org.apache.arrow.vector.TimeMicroVector;
+import org.apache.arrow.vector.TimeMilliVector;
+import org.apache.arrow.vector.TimeNanoVector;
+import org.apache.arrow.vector.TimeSecVector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.util.Text;
+import org.hamcrest.CoreMatchers;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.runner.RunWith;
+import org.junit.runners.Parameterized;
+
+@RunWith(Parameterized.class)
+public class ArrowFlightJdbcTimeVectorAccessorTest {
+
+  public static final String AMERICA_VANCOUVER = "America/Vancouver";
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  private BaseFixedWidthVector vector;
+  private final Supplier<BaseFixedWidthVector> vectorSupplier;
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcTimeVectorAccessor>
+      accessorSupplier = (vector, getCurrentRow) -> {
+        ArrowFlightJdbcAccessorFactory.WasNullConsumer noOpWasNullConsumer = (boolean wasNull) -> {
+        };
+        if (vector instanceof TimeNanoVector) {
+          return new ArrowFlightJdbcTimeVectorAccessor((TimeNanoVector) vector, getCurrentRow,
+              noOpWasNullConsumer);
+        } else if (vector instanceof TimeMicroVector) {
+          return new ArrowFlightJdbcTimeVectorAccessor((TimeMicroVector) vector, getCurrentRow,
+              noOpWasNullConsumer);
+        } else if (vector instanceof TimeMilliVector) {
+          return new ArrowFlightJdbcTimeVectorAccessor((TimeMilliVector) vector, getCurrentRow,
+              noOpWasNullConsumer);
+        } else if (vector instanceof TimeSecVector) {
+          return new ArrowFlightJdbcTimeVectorAccessor((TimeSecVector) vector, getCurrentRow,
+              noOpWasNullConsumer);
+        }
+        return null;
+      };
+
+  private final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcTimeVectorAccessor>
+      accessorIterator =
+      new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Parameterized.Parameters(name = "{1}")
+  public static Collection<Object[]> data() {
+    return Arrays.asList(new Object[][] {
+        {(Supplier<TimeNanoVector>) () -> rootAllocatorTestRule.createTimeNanoVector(),
+            "TimeNanoVector"},
+        {(Supplier<TimeMicroVector>) () -> rootAllocatorTestRule.createTimeMicroVector(),
+            "TimeMicroVector"},
+        {(Supplier<TimeMilliVector>) () -> rootAllocatorTestRule.createTimeMilliVector(),
+            "TimeMilliVector"},
+        {(Supplier<TimeSecVector>) () -> rootAllocatorTestRule.createTimeSecVector(),
+            "TimeSecVector"}
+    });
+  }
+
+  public ArrowFlightJdbcTimeVectorAccessorTest(Supplier<BaseFixedWidthVector> vectorSupplier,
+                                               String vectorType) {
+    this.vectorSupplier = vectorSupplier;
+  }
+
+  @Before
+  public void setup() {
+    this.vector = vectorSupplier.get();
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+  }
+
+  @Test
+  public void testShouldGetTimestampReturnValidTimestampWithoutCalendar() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, accessor -> accessor.getTimestamp(null),
+        (accessor, currentRow) -> is(getTimestampForVector(currentRow)));
+  }
+
+  @Test
+  public void testShouldGetTimestampReturnValidTimestampWithCalendar() throws Exception {
+    TimeZone timeZone = TimeZone.getTimeZone(AMERICA_VANCOUVER);
+    Calendar calendar = Calendar.getInstance(timeZone);
+
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      final Timestamp resultWithoutCalendar = accessor.getTimestamp(null);
+      final Timestamp result = accessor.getTimestamp(calendar);
+
+      long offset = timeZone.getOffset(resultWithoutCalendar.getTime());
+
+      collector.checkThat(resultWithoutCalendar.getTime() - result.getTime(), is(offset));
+      collector.checkThat(accessor.wasNull(), is(false));
+    });
+  }
+
+  @Test
+  public void testShouldGetTimestampReturnNull() {
+    vector.setNull(0);
+    ArrowFlightJdbcTimeVectorAccessor accessor = accessorSupplier.supply(vector, () -> 0);
+    collector.checkThat(accessor.getTimestamp(null), CoreMatchers.equalTo(null));
+    collector.checkThat(accessor.wasNull(), is(true));
+  }
+
+  @Test
+  public void testShouldGetTimeReturnValidTimeWithoutCalendar() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, accessor -> accessor.getTime(null),
+        (accessor, currentRow) -> {
+          Timestamp expectedTimestamp = getTimestampForVector(currentRow);
+          return is(new Time(expectedTimestamp.getTime()));
+        });
+  }
+
+  @Test
+  public void testShouldGetTimeReturnValidTimeWithCalendar() throws Exception {
+    TimeZone timeZone = TimeZone.getTimeZone(AMERICA_VANCOUVER);
+    Calendar calendar = Calendar.getInstance(timeZone);
+
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      final Time resultWithoutCalendar = accessor.getTime(null);
+      final Time result = accessor.getTime(calendar);
+
+      long offset = timeZone.getOffset(resultWithoutCalendar.getTime());
+
+      collector.checkThat(resultWithoutCalendar.getTime() - result.getTime(), is(offset));
+      collector.checkThat(accessor.wasNull(), is(false));
+    });
+  }
+
+  @Test
+  public void testShouldGetTimeReturnNull() {
+    vector.setNull(0);
+    ArrowFlightJdbcTimeVectorAccessor accessor = accessorSupplier.supply(vector, () -> 0);
+    collector.checkThat(accessor.getTime(null), CoreMatchers.equalTo(null));
+    collector.checkThat(accessor.wasNull(), is(true));
+  }
+
+  private Timestamp getTimestampForVector(int currentRow) {
+    Object object = vector.getObject(currentRow);
+
+    Timestamp expectedTimestamp = null;
+    if (object instanceof LocalDateTime) {
+      expectedTimestamp = Timestamp.valueOf((LocalDateTime) object);
+    } else if (object instanceof Number) {
+      long value = ((Number) object).longValue();
+      TimeUnit timeUnit = getTimeUnitForVector(vector);
+      long millis = timeUnit.toMillis(value);
+      expectedTimestamp = new Timestamp(millis);
+    }
+    return expectedTimestamp;
+  }
+
+  @Test
+  public void testShouldGetObjectClass() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcTimeVectorAccessor::getObjectClass,
+        equalTo(Time.class));
+  }
+
+  @Test
+  public void testShouldGetStringBeConsistentWithVarCharAccessorWithoutCalendar() throws Exception {
+    assertGetStringIsConsistentWithVarCharAccessor(null);
+  }
+
+  @Test
+  public void testShouldGetStringBeConsistentWithVarCharAccessorWithCalendar() throws Exception {
+    Calendar calendar = Calendar.getInstance(TimeZone.getTimeZone(AMERICA_VANCOUVER));
+    assertGetStringIsConsistentWithVarCharAccessor(calendar);
+  }
+
+  @Test
+  public void testValidateGetStringTimeZoneConsistency() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      final TimeZone defaultTz = TimeZone.getDefault();
+      try {
+        final String string = accessor.getString(); // Should always be UTC as no calendar is provided
+
+        // Validate with UTC
+        Time time = accessor.getTime(null);
+        TimeZone.setDefault(TimeZone.getTimeZone("UTC"));
+        collector.checkThat(time.toString(), is(string));
+
+        // Validate with different TZ
+        TimeZone.setDefault(TimeZone.getTimeZone(AMERICA_VANCOUVER));
+        collector.checkThat(time.toString(), not(string));
+
+        collector.checkThat(accessor.wasNull(), is(false));
+      } finally {
+        // Set default Tz back
+        TimeZone.setDefault(defaultTz);
+      }
+    });
+  }
+
+  private void assertGetStringIsConsistentWithVarCharAccessor(Calendar calendar) throws Exception {
+    try (VarCharVector varCharVector = new VarCharVector("",
+        rootAllocatorTestRule.getRootAllocator())) {
+      varCharVector.allocateNew(1);
+      ArrowFlightJdbcVarCharVectorAccessor varCharVectorAccessor =
+          new ArrowFlightJdbcVarCharVectorAccessor(varCharVector, () -> 0, (boolean wasNull) -> {
+          });
+
+      accessorIterator.iterate(vector, (accessor, currentRow) -> {
+        final String string = accessor.getString();
+        varCharVector.set(0, new Text(string));
+        varCharVector.setValueCount(1);
+
+        Time timeFromVarChar = varCharVectorAccessor.getTime(calendar);
+        Time time = accessor.getTime(calendar);
+
+        collector.checkThat(time, is(timeFromVarChar));
+        collector.checkThat(accessor.wasNull(), is(false));
+      });
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/AbstractArrowFlightJdbcListAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/AbstractArrowFlightJdbcListAccessorTest.java
new file mode 100644
index 00000000000..b2eb8f1dbee
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/AbstractArrowFlightJdbcListAccessorTest.java
@@ -0,0 +1,185 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+
+import java.sql.Array;
+import java.sql.ResultSet;
+import java.util.Arrays;
+import java.util.Collection;
+import java.util.List;
+import java.util.function.Supplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.ValueVector;
+import org.apache.arrow.vector.complex.FixedSizeListVector;
+import org.apache.arrow.vector.complex.LargeListVector;
+import org.apache.arrow.vector.complex.ListVector;
+import org.hamcrest.CoreMatchers;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.runner.RunWith;
+import org.junit.runners.Parameterized;
+
+@RunWith(Parameterized.class)
+public class AbstractArrowFlightJdbcListAccessorTest {
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  private final Supplier<ValueVector> vectorSupplier;
+  private ValueVector vector;
+
+  private final AccessorTestUtils.AccessorSupplier<AbstractArrowFlightJdbcListVectorAccessor>
+      accessorSupplier = (vector, getCurrentRow) -> {
+        ArrowFlightJdbcAccessorFactory.WasNullConsumer noOpWasNullConsumer = (boolean wasNull) -> {
+        };
+        if (vector instanceof ListVector) {
+          return new ArrowFlightJdbcListVectorAccessor((ListVector) vector, getCurrentRow,
+              noOpWasNullConsumer);
+        } else if (vector instanceof LargeListVector) {
+          return new ArrowFlightJdbcLargeListVectorAccessor((LargeListVector) vector, getCurrentRow,
+              noOpWasNullConsumer);
+        } else if (vector instanceof FixedSizeListVector) {
+          return new ArrowFlightJdbcFixedSizeListVectorAccessor((FixedSizeListVector) vector,
+              getCurrentRow, noOpWasNullConsumer);
+        }
+        return null;
+      };
+
+  final AccessorTestUtils.AccessorIterator<AbstractArrowFlightJdbcListVectorAccessor>
+      accessorIterator =
+      new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Parameterized.Parameters(name = "{1}")
+  public static Collection<Object[]> data() {
+    return Arrays.asList(new Object[][] {
+        {(Supplier<ValueVector>) () -> rootAllocatorTestRule.createListVector(), "ListVector"},
+        {(Supplier<ValueVector>) () -> rootAllocatorTestRule.createLargeListVector(),
+            "LargeListVector"},
+        {(Supplier<ValueVector>) () -> rootAllocatorTestRule.createFixedSizeListVector(),
+            "FixedSizeListVector"},
+    });
+  }
+
+  public AbstractArrowFlightJdbcListAccessorTest(Supplier<ValueVector> vectorSupplier,
+                                                 String vectorType) {
+    this.vectorSupplier = vectorSupplier;
+  }
+
+  @Before
+  public void setup() {
+    this.vector = this.vectorSupplier.get();
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+  }
+
+  @Test
+  public void testShouldGetObjectClassReturnCorrectClass() throws Exception {
+    accessorIterator.assertAccessorGetter(vector,
+        AbstractArrowFlightJdbcListVectorAccessor::getObjectClass,
+        (accessor, currentRow) -> equalTo(List.class));
+  }
+
+  @Test
+  public void testShouldGetObjectReturnValidList() throws Exception {
+    accessorIterator.assertAccessorGetter(vector,
+        AbstractArrowFlightJdbcListVectorAccessor::getObject,
+        (accessor, currentRow) -> equalTo(
+            Arrays.asList(0, (currentRow), (currentRow) * 2, (currentRow) * 3, (currentRow) * 4)));
+  }
+
+  @Test
+  public void testShouldGetObjectReturnNull() throws Exception {
+    vector.clear();
+    vector.allocateNewSafe();
+    vector.setValueCount(5);
+
+    accessorIterator.assertAccessorGetter(vector,
+        AbstractArrowFlightJdbcListVectorAccessor::getObject,
+        (accessor, currentRow) -> CoreMatchers.nullValue());
+  }
+
+  @Test
+  public void testShouldGetArrayReturnValidArray() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      Array array = accessor.getArray();
+      assert array != null;
+
+      Object[] arrayObject = (Object[]) array.getArray();
+
+      collector.checkThat(arrayObject, equalTo(
+          new Object[] {0, currentRow, (currentRow) * 2, (currentRow) * 3, (currentRow) * 4}));
+    });
+  }
+
+  @Test
+  public void testShouldGetArrayReturnNull() throws Exception {
+    vector.clear();
+    vector.allocateNewSafe();
+    vector.setValueCount(5);
+
+    accessorIterator.assertAccessorGetter(vector,
+        AbstractArrowFlightJdbcListVectorAccessor::getArray,
+        CoreMatchers.nullValue());
+  }
+
+  @Test
+  public void testShouldGetArrayReturnValidArrayPassingOffsets() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      Array array = accessor.getArray();
+      assert array != null;
+
+      Object[] arrayObject = (Object[]) array.getArray(1, 3);
+
+      collector.checkThat(arrayObject, equalTo(
+          new Object[] {currentRow, (currentRow) * 2, (currentRow) * 3}));
+    });
+  }
+
+  @Test
+  public void testShouldGetArrayGetResultSetReturnValidResultSet() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      Array array = accessor.getArray();
+      assert array != null;
+
+      try (ResultSet rs = array.getResultSet()) {
+        int count = 0;
+        while (rs.next()) {
+          final int value = rs.getInt(1);
+          collector.checkThat(value, equalTo(currentRow * count));
+          count++;
+        }
+        collector.checkThat(count, equalTo(5));
+      }
+    });
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/AbstractArrowFlightJdbcUnionVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/AbstractArrowFlightJdbcUnionVectorAccessorTest.java
new file mode 100644
index 00000000000..2b53b27dc9e
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/AbstractArrowFlightJdbcUnionVectorAccessorTest.java
@@ -0,0 +1,265 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import static org.mockito.Mockito.mock;
+import static org.mockito.Mockito.verify;
+import static org.mockito.Mockito.when;
+
+import java.sql.SQLException;
+import java.util.Calendar;
+import java.util.Map;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.ArrowFlightJdbcNullVectorAccessor;
+import org.apache.arrow.vector.NullVector;
+import org.apache.arrow.vector.ValueVector;
+import org.junit.Before;
+import org.junit.Test;
+import org.junit.runner.RunWith;
+import org.mockito.Mock;
+import org.mockito.Spy;
+import org.mockito.junit.MockitoJUnitRunner;
+
+@RunWith(MockitoJUnitRunner.class)
+public class AbstractArrowFlightJdbcUnionVectorAccessorTest {
+
+  @Mock
+  ArrowFlightJdbcAccessor innerAccessor;
+  @Spy
+  AbstractArrowFlightJdbcUnionVectorAccessorMock accessor;
+
+  @Before
+  public void setup() {
+    when(accessor.getAccessor()).thenReturn(innerAccessor);
+  }
+
+  @Test
+  public void testGetNCharacterStreamUsesSpecificAccessor() throws SQLException {
+    accessor.getNCharacterStream();
+    verify(innerAccessor).getNCharacterStream();
+  }
+
+  @Test
+  public void testGetNStringUsesSpecificAccessor() throws SQLException {
+    accessor.getNString();
+    verify(innerAccessor).getNString();
+  }
+
+  @Test
+  public void testGetSQLXMLUsesSpecificAccessor() throws SQLException {
+    accessor.getSQLXML();
+    verify(innerAccessor).getSQLXML();
+  }
+
+  @Test
+  public void testGetNClobUsesSpecificAccessor() throws SQLException {
+    accessor.getNClob();
+    verify(innerAccessor).getNClob();
+  }
+
+  @Test
+  public void testGetURLUsesSpecificAccessor() throws SQLException {
+    accessor.getURL();
+    verify(innerAccessor).getURL();
+  }
+
+  @Test
+  public void testGetStructUsesSpecificAccessor() throws SQLException {
+    accessor.getStruct();
+    verify(innerAccessor).getStruct();
+  }
+
+  @Test
+  public void testGetArrayUsesSpecificAccessor() throws SQLException {
+    accessor.getArray();
+    verify(innerAccessor).getArray();
+  }
+
+  @Test
+  public void testGetClobUsesSpecificAccessor() throws SQLException {
+    accessor.getClob();
+    verify(innerAccessor).getClob();
+  }
+
+  @Test
+  public void testGetBlobUsesSpecificAccessor() throws SQLException {
+    accessor.getBlob();
+    verify(innerAccessor).getBlob();
+  }
+
+  @Test
+  public void testGetRefUsesSpecificAccessor() throws SQLException {
+    accessor.getRef();
+    verify(innerAccessor).getRef();
+  }
+
+  @Test
+  public void testGetCharacterStreamUsesSpecificAccessor() throws SQLException {
+    accessor.getCharacterStream();
+    verify(innerAccessor).getCharacterStream();
+  }
+
+  @Test
+  public void testGetBinaryStreamUsesSpecificAccessor() throws SQLException {
+    accessor.getBinaryStream();
+    verify(innerAccessor).getBinaryStream();
+  }
+
+  @Test
+  public void testGetUnicodeStreamUsesSpecificAccessor() throws SQLException {
+    accessor.getUnicodeStream();
+    verify(innerAccessor).getUnicodeStream();
+  }
+
+  @Test
+  public void testGetAsciiStreamUsesSpecificAccessor() throws SQLException {
+    accessor.getAsciiStream();
+    verify(innerAccessor).getAsciiStream();
+  }
+
+  @Test
+  public void testGetBytesUsesSpecificAccessor() throws SQLException {
+    accessor.getBytes();
+    verify(innerAccessor).getBytes();
+  }
+
+  @Test
+  public void testGetBigDecimalUsesSpecificAccessor() throws SQLException {
+    accessor.getBigDecimal();
+    verify(innerAccessor).getBigDecimal();
+  }
+
+  @Test
+  public void testGetDoubleUsesSpecificAccessor() throws SQLException {
+    accessor.getDouble();
+    verify(innerAccessor).getDouble();
+  }
+
+  @Test
+  public void testGetFloatUsesSpecificAccessor() throws SQLException {
+    accessor.getFloat();
+    verify(innerAccessor).getFloat();
+  }
+
+  @Test
+  public void testGetLongUsesSpecificAccessor() throws SQLException {
+    accessor.getLong();
+    verify(innerAccessor).getLong();
+  }
+
+  @Test
+  public void testGetIntUsesSpecificAccessor() throws SQLException {
+    accessor.getInt();
+    verify(innerAccessor).getInt();
+  }
+
+  @Test
+  public void testGetShortUsesSpecificAccessor() throws SQLException {
+    accessor.getShort();
+    verify(innerAccessor).getShort();
+  }
+
+  @Test
+  public void testGetByteUsesSpecificAccessor() throws SQLException {
+    accessor.getByte();
+    verify(innerAccessor).getByte();
+  }
+
+  @Test
+  public void testGetBooleanUsesSpecificAccessor() throws SQLException {
+    accessor.getBoolean();
+    verify(innerAccessor).getBoolean();
+  }
+
+  @Test
+  public void testGetStringUsesSpecificAccessor() throws SQLException {
+    accessor.getString();
+    verify(innerAccessor).getString();
+  }
+
+  @Test
+  public void testGetObjectClassUsesSpecificAccessor() {
+    accessor.getObjectClass();
+    verify(innerAccessor).getObjectClass();
+  }
+
+  @Test
+  public void testGetObjectWithClassUsesSpecificAccessor() throws SQLException {
+    accessor.getObject(Object.class);
+    verify(innerAccessor).getObject(Object.class);
+  }
+
+  @Test
+  public void testGetTimestampUsesSpecificAccessor() throws SQLException {
+    Calendar calendar = Calendar.getInstance();
+    accessor.getTimestamp(calendar);
+    verify(innerAccessor).getTimestamp(calendar);
+  }
+
+  @Test
+  public void testGetTimeUsesSpecificAccessor() throws SQLException {
+    Calendar calendar = Calendar.getInstance();
+    accessor.getTime(calendar);
+    verify(innerAccessor).getTime(calendar);
+  }
+
+  @Test
+  public void testGetDateUsesSpecificAccessor() throws SQLException {
+    Calendar calendar = Calendar.getInstance();
+    accessor.getDate(calendar);
+    verify(innerAccessor).getDate(calendar);
+  }
+
+  @Test
+  public void testGetObjectUsesSpecificAccessor() throws SQLException {
+    Map<String, Class<?>> map = mock(Map.class);
+    accessor.getObject(map);
+    verify(innerAccessor).getObject(map);
+  }
+
+  @Test
+  public void testGetBigDecimalWithScaleUsesSpecificAccessor() throws SQLException {
+    accessor.getBigDecimal(2);
+    verify(innerAccessor).getBigDecimal(2);
+  }
+
+  private static class AbstractArrowFlightJdbcUnionVectorAccessorMock
+      extends AbstractArrowFlightJdbcUnionVectorAccessor {
+    protected AbstractArrowFlightJdbcUnionVectorAccessorMock() {
+      super(() -> 0, (boolean wasNull) -> {
+      });
+    }
+
+    @Override
+    protected ArrowFlightJdbcAccessor createAccessorForVector(ValueVector vector) {
+      return new ArrowFlightJdbcNullVectorAccessor((boolean wasNull) -> {
+      });
+    }
+
+    @Override
+    protected byte getCurrentTypeId() {
+      return 0;
+    }
+
+    @Override
+    protected ValueVector getVectorByTypeId(byte typeId) {
+      return new NullVector();
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcDenseUnionVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcDenseUnionVectorAccessorTest.java
new file mode 100644
index 00000000000..41d5eb97e85
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcDenseUnionVectorAccessorTest.java
@@ -0,0 +1,126 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.sql.Timestamp;
+import java.util.Arrays;
+import java.util.List;
+
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.complex.DenseUnionVector;
+import org.apache.arrow.vector.holders.NullableBigIntHolder;
+import org.apache.arrow.vector.holders.NullableFloat8Holder;
+import org.apache.arrow.vector.holders.NullableTimeStampMilliHolder;
+import org.apache.arrow.vector.types.Types;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+public class ArrowFlightJdbcDenseUnionVectorAccessorTest {
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  private DenseUnionVector vector;
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcDenseUnionVectorAccessor>
+      accessorSupplier =
+          (vector, getCurrentRow) -> new ArrowFlightJdbcDenseUnionVectorAccessor(
+              (DenseUnionVector) vector, getCurrentRow, (boolean wasNull) -> {
+            //No Operation
+          });
+
+  private final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcDenseUnionVectorAccessor>
+      accessorIterator =
+      new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Before
+  public void setup() throws Exception {
+    this.vector = DenseUnionVector.empty("", rootAllocatorTestRule.getRootAllocator());
+    this.vector.allocateNew();
+
+    // write some data
+    byte bigIntTypeId =
+        this.vector.registerNewTypeId(Field.nullable("", Types.MinorType.BIGINT.getType()));
+    byte float8TypeId =
+        this.vector.registerNewTypeId(Field.nullable("", Types.MinorType.FLOAT8.getType()));
+    byte timestampMilliTypeId =
+        this.vector.registerNewTypeId(Field.nullable("", Types.MinorType.TIMESTAMPMILLI.getType()));
+
+    NullableBigIntHolder nullableBigIntHolder = new NullableBigIntHolder();
+    nullableBigIntHolder.isSet = 1;
+    nullableBigIntHolder.value = Long.MAX_VALUE;
+    this.vector.setTypeId(0, bigIntTypeId);
+    this.vector.setSafe(0, nullableBigIntHolder);
+
+    NullableFloat8Holder nullableFloat4Holder = new NullableFloat8Holder();
+    nullableFloat4Holder.isSet = 1;
+    nullableFloat4Holder.value = Math.PI;
+    this.vector.setTypeId(1, float8TypeId);
+    this.vector.setSafe(1, nullableFloat4Holder);
+
+    NullableTimeStampMilliHolder nullableTimeStampMilliHolder = new NullableTimeStampMilliHolder();
+    nullableTimeStampMilliHolder.isSet = 1;
+    nullableTimeStampMilliHolder.value = 1625702400000L;
+    this.vector.setTypeId(2, timestampMilliTypeId);
+    this.vector.setSafe(2, nullableTimeStampMilliHolder);
+
+    nullableBigIntHolder.isSet = 0;
+    this.vector.setTypeId(3, bigIntTypeId);
+    this.vector.setSafe(3, nullableBigIntHolder);
+
+    this.vector.setValueCount(5);
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+  }
+
+  @Test
+  public void getObject() throws Exception {
+    List<Object> result = accessorIterator.toList(vector);
+    List<Object> expected = Arrays.asList(
+        Long.MAX_VALUE,
+        Math.PI,
+        new Timestamp(1625702400000L),
+        null,
+        null);
+
+    collector.checkThat(result, is(expected));
+  }
+
+  @Test
+  public void getObjectForNull() throws Exception {
+    vector.reset();
+    vector.setValueCount(5);
+    accessorIterator.assertAccessorGetter(vector,
+        AbstractArrowFlightJdbcUnionVectorAccessor::getObject, equalTo(null));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcMapVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcMapVectorAccessorTest.java
new file mode 100644
index 00000000000..7a81da4240b
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcMapVectorAccessorTest.java
@@ -0,0 +1,221 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import java.sql.Array;
+import java.sql.ResultSet;
+import java.sql.SQLException;
+import java.util.Map;
+
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.complex.MapVector;
+import org.apache.arrow.vector.complex.StructVector;
+import org.apache.arrow.vector.complex.impl.UnionMapWriter;
+import org.apache.arrow.vector.util.JsonStringHashMap;
+import org.junit.After;
+import org.junit.Assert;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+public class ArrowFlightJdbcMapVectorAccessorTest {
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  private MapVector vector;
+
+  @Before
+  public void setup() {
+    vector = MapVector.empty("", rootAllocatorTestRule.getRootAllocator(), false);
+    UnionMapWriter writer = vector.getWriter();
+    writer.allocate();
+    writer.setPosition(0); // optional
+    writer.startMap();
+    writer.startEntry();
+    writer.key().integer().writeInt(1);
+    writer.value().integer().writeInt(11);
+    writer.endEntry();
+    writer.startEntry();
+    writer.key().integer().writeInt(2);
+    writer.value().integer().writeInt(22);
+    writer.endEntry();
+    writer.startEntry();
+    writer.key().integer().writeInt(3);
+    writer.value().integer().writeInt(33);
+    writer.endEntry();
+    writer.endMap();
+
+    writer.setPosition(1);
+    writer.startMap();
+    writer.startEntry();
+    writer.key().integer().writeInt(2);
+    writer.endEntry();
+    writer.endMap();
+
+    writer.setPosition(2);
+    writer.startMap();
+    writer.startEntry();
+    writer.key().integer().writeInt(0);
+    writer.value().integer().writeInt(2000);
+    writer.endEntry();
+    writer.startEntry();
+    writer.key().integer().writeInt(1);
+    writer.value().integer().writeInt(2001);
+    writer.endEntry();
+    writer.startEntry();
+    writer.key().integer().writeInt(2);
+    writer.value().integer().writeInt(2002);
+    writer.endEntry();
+    writer.startEntry();
+    writer.key().integer().writeInt(3);
+    writer.value().integer().writeInt(2003);
+    writer.endEntry();
+    writer.endMap();
+
+    writer.setValueCount(3);
+  }
+
+  @After
+  public void tearDown() {
+    vector.close();
+  }
+
+  @Test
+  public void testShouldGetObjectReturnValidMap() {
+    AccessorTestUtils.Cursor cursor = new AccessorTestUtils.Cursor(vector.getValueCount());
+    ArrowFlightJdbcMapVectorAccessor accessor =
+        new ArrowFlightJdbcMapVectorAccessor(vector, cursor::getCurrentRow, (boolean wasNull) -> {
+        });
+
+    Map<Object, Object> expected = new JsonStringHashMap<>();
+    expected.put(1, 11);
+    expected.put(2, 22);
+    expected.put(3, 33);
+    Assert.assertEquals(expected, accessor.getObject());
+    Assert.assertFalse(accessor.wasNull());
+
+    cursor.next();
+    expected = new JsonStringHashMap<>();
+    expected.put(2, null);
+    Assert.assertEquals(expected, accessor.getObject());
+    Assert.assertFalse(accessor.wasNull());
+
+    cursor.next();
+    expected = new JsonStringHashMap<>();
+    expected.put(0, 2000);
+    expected.put(1, 2001);
+    expected.put(2, 2002);
+    expected.put(3, 2003);
+    Assert.assertEquals(expected, accessor.getObject());
+    Assert.assertFalse(accessor.wasNull());
+  }
+
+  @Test
+  public void testShouldGetObjectReturnNull() {
+    vector.setNull(0);
+    ArrowFlightJdbcMapVectorAccessor accessor =
+        new ArrowFlightJdbcMapVectorAccessor(vector, () -> 0, (boolean wasNull) -> {
+        });
+
+    Assert.assertNull(accessor.getObject());
+    Assert.assertTrue(accessor.wasNull());
+  }
+
+  @Test
+  public void testShouldGetArrayReturnValidArray() throws SQLException {
+    AccessorTestUtils.Cursor cursor = new AccessorTestUtils.Cursor(vector.getValueCount());
+    ArrowFlightJdbcMapVectorAccessor accessor =
+        new ArrowFlightJdbcMapVectorAccessor(vector, cursor::getCurrentRow, (boolean wasNull) -> {
+        });
+
+    Array array = accessor.getArray();
+    Assert.assertNotNull(array);
+    Assert.assertFalse(accessor.wasNull());
+
+    try (ResultSet resultSet = array.getResultSet()) {
+      Assert.assertTrue(resultSet.next());
+      Map<?, ?> entry = resultSet.getObject(1, Map.class);
+      Assert.assertEquals(1, entry.get("key"));
+      Assert.assertEquals(11, entry.get("value"));
+      Assert.assertTrue(resultSet.next());
+      entry = resultSet.getObject(1, Map.class);
+      Assert.assertEquals(2, entry.get("key"));
+      Assert.assertEquals(22, entry.get("value"));
+      Assert.assertTrue(resultSet.next());
+      entry = resultSet.getObject(1, Map.class);
+      Assert.assertEquals(3, entry.get("key"));
+      Assert.assertEquals(33, entry.get("value"));
+      Assert.assertFalse(resultSet.next());
+    }
+
+    cursor.next();
+    array = accessor.getArray();
+    Assert.assertNotNull(array);
+    Assert.assertFalse(accessor.wasNull());
+    try (ResultSet resultSet = array.getResultSet()) {
+      Assert.assertTrue(resultSet.next());
+      Map<?, ?> entry = resultSet.getObject(1, Map.class);
+      Assert.assertEquals(2, entry.get("key"));
+      Assert.assertNull(entry.get("value"));
+      Assert.assertFalse(resultSet.next());
+    }
+
+    cursor.next();
+    array = accessor.getArray();
+    Assert.assertNotNull(array);
+    Assert.assertFalse(accessor.wasNull());
+    try (ResultSet resultSet = array.getResultSet()) {
+      Assert.assertTrue(resultSet.next());
+      Map<?, ?> entry = resultSet.getObject(1, Map.class);
+      Assert.assertEquals(0, entry.get("key"));
+      Assert.assertEquals(2000, entry.get("value"));
+      Assert.assertTrue(resultSet.next());
+      entry = resultSet.getObject(1, Map.class);
+      Assert.assertEquals(1, entry.get("key"));
+      Assert.assertEquals(2001, entry.get("value"));
+      Assert.assertTrue(resultSet.next());
+      entry = resultSet.getObject(1, Map.class);
+      Assert.assertEquals(2, entry.get("key"));
+      Assert.assertEquals(2002, entry.get("value"));
+      Assert.assertTrue(resultSet.next());
+      entry = resultSet.getObject(1, Map.class);
+      Assert.assertEquals(3, entry.get("key"));
+      Assert.assertEquals(2003, entry.get("value"));
+      Assert.assertFalse(resultSet.next());
+    }
+  }
+
+  @Test
+  public void testShouldGetArrayReturnNull() {
+    vector.setNull(0);
+    ((StructVector) vector.getDataVector()).setNull(0);
+
+    ArrowFlightJdbcMapVectorAccessor accessor =
+        new ArrowFlightJdbcMapVectorAccessor(vector, () -> 0, (boolean wasNull) -> {
+        });
+
+    Assert.assertNull(accessor.getArray());
+    Assert.assertTrue(accessor.wasNull());
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcStructVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcStructVectorAccessorTest.java
new file mode 100644
index 00000000000..b3c85fc0ab1
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcStructVectorAccessorTest.java
@@ -0,0 +1,209 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.nullValue;
+
+import java.sql.SQLException;
+import java.sql.Struct;
+import java.util.HashMap;
+import java.util.Map;
+
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.Float8Vector;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.StructVector;
+import org.apache.arrow.vector.complex.UnionVector;
+import org.apache.arrow.vector.complex.impl.UnionListWriter;
+import org.apache.arrow.vector.holders.NullableBitHolder;
+import org.apache.arrow.vector.types.Types;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.FieldType;
+import org.apache.arrow.vector.util.JsonStringArrayList;
+import org.apache.arrow.vector.util.JsonStringHashMap;
+import org.junit.After;
+import org.junit.Assert;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+public class ArrowFlightJdbcStructVectorAccessorTest {
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  private StructVector vector;
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcStructVectorAccessor>
+      accessorSupplier =
+          (vector, getCurrentRow) -> new ArrowFlightJdbcStructVectorAccessor((StructVector) vector,
+              getCurrentRow, (boolean wasNull) -> {
+          });
+
+  private final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcStructVectorAccessor>
+      accessorIterator =
+      new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Before
+  public void setUp() throws Exception {
+    Map<String, String> metadata = new HashMap<>();
+    metadata.put("k1", "v1");
+    FieldType type = new FieldType(true, ArrowType.Struct.INSTANCE, null, metadata);
+    vector = new StructVector("", rootAllocatorTestRule.getRootAllocator(), type, null);
+    vector.allocateNew();
+
+    IntVector intVector =
+        vector.addOrGet("int", FieldType.nullable(Types.MinorType.INT.getType()), IntVector.class);
+    Float8Vector float8Vector =
+        vector.addOrGet("float8", FieldType.nullable(Types.MinorType.FLOAT8.getType()),
+            Float8Vector.class);
+
+    intVector.setSafe(0, 100);
+    float8Vector.setSafe(0, 100.05);
+    vector.setIndexDefined(0);
+    intVector.setSafe(1, 200);
+    float8Vector.setSafe(1, 200.1);
+    vector.setIndexDefined(1);
+
+    vector.setValueCount(2);
+  }
+
+  @After
+  public void tearDown() throws Exception {
+    vector.close();
+  }
+
+  @Test
+  public void testShouldGetObjectClassReturnMapClass() throws Exception {
+    accessorIterator.assertAccessorGetter(vector,
+        ArrowFlightJdbcStructVectorAccessor::getObjectClass,
+        (accessor, currentRow) -> equalTo(Map.class));
+  }
+
+  @Test
+  public void testShouldGetObjectReturnValidMap() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcStructVectorAccessor::getObject,
+        (accessor, currentRow) -> {
+          Map<String, Object> expected = new HashMap<>();
+          expected.put("int", 100 * (currentRow + 1));
+          expected.put("float8", 100.05 * (currentRow + 1));
+
+          return equalTo(expected);
+        });
+  }
+
+  @Test
+  public void testShouldGetObjectReturnNull() throws Exception {
+    vector.setNull(0);
+    vector.setNull(1);
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcStructVectorAccessor::getObject,
+        (accessor, currentRow) -> nullValue());
+  }
+
+  @Test
+  public void testShouldGetStructReturnValidStruct() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      Struct struct = accessor.getStruct();
+      assert struct != null;
+
+      Object[] expected = new Object[] {
+          100 * (currentRow + 1),
+          100.05 * (currentRow + 1)
+      };
+
+      collector.checkThat(struct.getAttributes(), equalTo(expected));
+    });
+  }
+
+  @Test
+  public void testShouldGetStructReturnNull() throws Exception {
+    vector.setNull(0);
+    vector.setNull(1);
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcStructVectorAccessor::getStruct,
+        (accessor, currentRow) -> nullValue());
+  }
+
+  @Test
+  public void testShouldGetObjectWorkWithNestedComplexData() throws SQLException {
+    try (StructVector rootVector = StructVector.empty("",
+        rootAllocatorTestRule.getRootAllocator())) {
+      StructVector structVector = rootVector.addOrGetStruct("struct");
+
+      FieldType intFieldType = FieldType.nullable(Types.MinorType.INT.getType());
+      IntVector intVector = structVector.addOrGet("int", intFieldType, IntVector.class);
+      FieldType float8FieldType = FieldType.nullable(Types.MinorType.FLOAT8.getType());
+      Float8Vector float8Vector =
+          structVector.addOrGet("float8", float8FieldType, Float8Vector.class);
+
+      ListVector listVector = rootVector.addOrGetList("list");
+      UnionListWriter listWriter = listVector.getWriter();
+      listWriter.allocate();
+
+      UnionVector unionVector = rootVector.addOrGetUnion("union");
+
+      intVector.setSafe(0, 100);
+      intVector.setValueCount(1);
+      float8Vector.setSafe(0, 100.05);
+      float8Vector.setValueCount(1);
+      structVector.setIndexDefined(0);
+
+      listWriter.setPosition(0);
+      listWriter.startList();
+      listWriter.bigInt().writeBigInt(Long.MAX_VALUE);
+      listWriter.bigInt().writeBigInt(Long.MIN_VALUE);
+      listWriter.endList();
+      listVector.setValueCount(1);
+
+      unionVector.setType(0, Types.MinorType.BIT);
+      NullableBitHolder holder = new NullableBitHolder();
+      holder.isSet = 1;
+      holder.value = 1;
+      unionVector.setSafe(0, holder);
+      unionVector.setValueCount(1);
+
+      rootVector.setIndexDefined(0);
+      rootVector.setValueCount(1);
+
+      Map<String, Object> expected = new JsonStringHashMap<>();
+      Map<String, Object> nestedStruct = new JsonStringHashMap<>();
+      nestedStruct.put("int", 100);
+      nestedStruct.put("float8", 100.05);
+      expected.put("struct", nestedStruct);
+      JsonStringArrayList<Object> nestedList = new JsonStringArrayList<>();
+      nestedList.add(Long.MAX_VALUE);
+      nestedList.add(Long.MIN_VALUE);
+      expected.put("list", nestedList);
+      expected.put("union", true);
+
+      ArrowFlightJdbcStructVectorAccessor accessor =
+          new ArrowFlightJdbcStructVectorAccessor(rootVector, () -> 0, (boolean wasNull) -> {
+          });
+
+      Assert.assertEquals(accessor.getObject(), expected);
+      Assert.assertEquals(accessor.getString(), expected.toString());
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcUnionVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcUnionVectorAccessorTest.java
new file mode 100644
index 00000000000..9ec9388ff87
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/complex/ArrowFlightJdbcUnionVectorAccessorTest.java
@@ -0,0 +1,118 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.complex;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.sql.Timestamp;
+import java.util.Arrays;
+import java.util.List;
+
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.complex.UnionVector;
+import org.apache.arrow.vector.holders.NullableBigIntHolder;
+import org.apache.arrow.vector.holders.NullableFloat8Holder;
+import org.apache.arrow.vector.holders.NullableTimeStampMilliHolder;
+import org.apache.arrow.vector.types.Types;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+public class ArrowFlightJdbcUnionVectorAccessorTest {
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  private UnionVector vector;
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcUnionVectorAccessor>
+      accessorSupplier =
+          (vector, getCurrentRow) -> new ArrowFlightJdbcUnionVectorAccessor((UnionVector) vector,
+              getCurrentRow, (boolean wasNull) -> {
+          });
+
+  private final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcUnionVectorAccessor>
+      accessorIterator =
+      new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Before
+  public void setup() {
+    this.vector = UnionVector.empty("", rootAllocatorTestRule.getRootAllocator());
+    this.vector.allocateNew();
+
+    NullableBigIntHolder nullableBigIntHolder = new NullableBigIntHolder();
+    nullableBigIntHolder.isSet = 1;
+    nullableBigIntHolder.value = Long.MAX_VALUE;
+    this.vector.setType(0, Types.MinorType.BIGINT);
+    this.vector.setSafe(0, nullableBigIntHolder);
+
+    NullableFloat8Holder nullableFloat4Holder = new NullableFloat8Holder();
+    nullableFloat4Holder.isSet = 1;
+    nullableFloat4Holder.value = Math.PI;
+    this.vector.setType(1, Types.MinorType.FLOAT8);
+    this.vector.setSafe(1, nullableFloat4Holder);
+
+    NullableTimeStampMilliHolder nullableTimeStampMilliHolder = new NullableTimeStampMilliHolder();
+    nullableTimeStampMilliHolder.isSet = 1;
+    nullableTimeStampMilliHolder.value = 1625702400000L;
+    this.vector.setType(2, Types.MinorType.TIMESTAMPMILLI);
+    this.vector.setSafe(2, nullableTimeStampMilliHolder);
+
+    nullableBigIntHolder.isSet = 0;
+    this.vector.setType(3, Types.MinorType.BIGINT);
+    this.vector.setSafe(3, nullableBigIntHolder);
+
+    this.vector.setValueCount(5);
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+  }
+
+  @Test
+  public void getObject() throws Exception {
+    List<Object> result = accessorIterator.toList(vector);
+    List<Object> expected = Arrays.asList(
+        Long.MAX_VALUE,
+        Math.PI,
+        new Timestamp(1625702400000L),
+        null,
+        null);
+
+    collector.checkThat(result, is(expected));
+  }
+
+  @Test
+  public void getObjectForNull() throws Exception {
+    vector.reset();
+    vector.setValueCount(5);
+
+    accessorIterator.assertAccessorGetter(vector,
+        AbstractArrowFlightJdbcUnionVectorAccessor::getObject,
+        equalTo(null));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBaseIntVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBaseIntVectorAccessorTest.java
new file mode 100644
index 00000000000..5e54b545a85
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBaseIntVectorAccessorTest.java
@@ -0,0 +1,171 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.numeric;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+
+import java.util.Arrays;
+import java.util.Collection;
+import java.util.function.Supplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.BaseIntVector;
+import org.apache.arrow.vector.BigIntVector;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.SmallIntVector;
+import org.apache.arrow.vector.TinyIntVector;
+import org.apache.arrow.vector.UInt1Vector;
+import org.apache.arrow.vector.UInt2Vector;
+import org.apache.arrow.vector.UInt4Vector;
+import org.apache.arrow.vector.UInt8Vector;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.runner.RunWith;
+import org.junit.runners.Parameterized;
+
+
+@RunWith(Parameterized.class)
+public class ArrowFlightJdbcBaseIntVectorAccessorTest {
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  private BaseIntVector vector;
+  private final Supplier<BaseIntVector> vectorSupplier;
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcBaseIntVectorAccessor>
+      accessorSupplier = (vector, getCurrentRow) -> {
+        ArrowFlightJdbcAccessorFactory.WasNullConsumer noOpWasNullConsumer = (boolean wasNull) -> {
+        };
+        if (vector instanceof UInt1Vector) {
+          return new ArrowFlightJdbcBaseIntVectorAccessor((UInt1Vector) vector, getCurrentRow,
+              noOpWasNullConsumer);
+        } else if (vector instanceof UInt2Vector) {
+          return new ArrowFlightJdbcBaseIntVectorAccessor((UInt2Vector) vector, getCurrentRow,
+              noOpWasNullConsumer);
+        } else {
+          if (vector instanceof UInt4Vector) {
+            return new ArrowFlightJdbcBaseIntVectorAccessor((UInt4Vector) vector, getCurrentRow,
+                noOpWasNullConsumer);
+          } else if (vector instanceof UInt8Vector) {
+            return new ArrowFlightJdbcBaseIntVectorAccessor((UInt8Vector) vector, getCurrentRow,
+                noOpWasNullConsumer);
+          } else if (vector instanceof TinyIntVector) {
+            return new ArrowFlightJdbcBaseIntVectorAccessor((TinyIntVector) vector, getCurrentRow,
+                noOpWasNullConsumer);
+          } else if (vector instanceof SmallIntVector) {
+            return new ArrowFlightJdbcBaseIntVectorAccessor((SmallIntVector) vector, getCurrentRow,
+                noOpWasNullConsumer);
+          } else if (vector instanceof IntVector) {
+            return new ArrowFlightJdbcBaseIntVectorAccessor((IntVector) vector, getCurrentRow,
+                noOpWasNullConsumer);
+          } else if (vector instanceof BigIntVector) {
+            return new ArrowFlightJdbcBaseIntVectorAccessor((BigIntVector) vector, getCurrentRow,
+                noOpWasNullConsumer);
+          }
+        }
+        throw new UnsupportedOperationException();
+      };
+
+  private final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcBaseIntVectorAccessor>
+      accessorIterator = new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Parameterized.Parameters(name = "{1}")
+  public static Collection<Object[]> data() {
+    return Arrays.asList(new Object[][] {
+        {(Supplier<BaseIntVector>) () -> rootAllocatorTestRule.createIntVector(), "IntVector"},
+        {(Supplier<BaseIntVector>) () -> rootAllocatorTestRule.createSmallIntVector(),
+            "SmallIntVector"},
+        {(Supplier<BaseIntVector>) () -> rootAllocatorTestRule.createTinyIntVector(),
+            "TinyIntVector"},
+        {(Supplier<BaseIntVector>) () -> rootAllocatorTestRule.createBigIntVector(),
+            "BigIntVector"},
+        {(Supplier<BaseIntVector>) () -> rootAllocatorTestRule.createUInt1Vector(), "UInt1Vector"},
+        {(Supplier<BaseIntVector>) () -> rootAllocatorTestRule.createUInt2Vector(), "UInt2Vector"},
+        {(Supplier<BaseIntVector>) () -> rootAllocatorTestRule.createUInt4Vector(), "UInt4Vector"},
+        {(Supplier<BaseIntVector>) () -> rootAllocatorTestRule.createUInt8Vector(), "UInt8Vector"}
+    });
+  }
+
+  public ArrowFlightJdbcBaseIntVectorAccessorTest(Supplier<BaseIntVector> vectorSupplier,
+                                                  String vectorType) {
+    this.vectorSupplier = vectorSupplier;
+  }
+
+  @Before
+  public void setup() {
+    this.vector = vectorSupplier.get();
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+  }
+
+  @Test
+  public void testShouldConvertToByteMethodFromBaseIntVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcBaseIntVectorAccessor::getByte,
+        (accessor, currentRow) -> equalTo((byte) accessor.getLong()));
+  }
+
+  @Test
+  public void testShouldConvertToShortMethodFromBaseIntVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcBaseIntVectorAccessor::getShort,
+        (accessor, currentRow) -> equalTo((short) accessor.getLong()));
+  }
+
+  @Test
+  public void testShouldConvertToIntegerMethodFromBaseIntVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcBaseIntVectorAccessor::getInt,
+        (accessor, currentRow) -> equalTo((int) accessor.getLong()));
+  }
+
+  @Test
+  public void testShouldConvertToFloatMethodFromBaseIntVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcBaseIntVectorAccessor::getFloat,
+        (accessor, currentRow) -> equalTo((float) accessor.getLong()));
+  }
+
+  @Test
+  public void testShouldConvertToDoubleMethodFromBaseIntVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcBaseIntVectorAccessor::getDouble,
+        (accessor, currentRow) -> equalTo((double) accessor.getLong()));
+  }
+
+  @Test
+  public void testShouldConvertToBooleanMethodFromBaseIntVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcBaseIntVectorAccessor::getBoolean,
+        (accessor, currentRow) -> equalTo(accessor.getLong() != 0L));
+  }
+
+  @Test
+  public void testShouldGetObjectClass() throws Exception {
+    accessorIterator.assertAccessorGetter(vector,
+        ArrowFlightJdbcBaseIntVectorAccessor::getObjectClass,
+        equalTo(Long.class));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBaseIntVectorAccessorUnitTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBaseIntVectorAccessorUnitTest.java
new file mode 100644
index 00000000000..2e64b6fb402
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBaseIntVectorAccessorUnitTest.java
@@ -0,0 +1,213 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.numeric;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.vector.BigIntVector;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.SmallIntVector;
+import org.apache.arrow.vector.TinyIntVector;
+import org.apache.arrow.vector.UInt1Vector;
+import org.apache.arrow.vector.UInt2Vector;
+import org.apache.arrow.vector.UInt4Vector;
+import org.apache.arrow.vector.UInt8Vector;
+import org.hamcrest.CoreMatchers;
+import org.junit.AfterClass;
+import org.junit.BeforeClass;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.runner.RunWith;
+import org.mockito.junit.MockitoJUnitRunner;
+
+@RunWith(MockitoJUnitRunner.class)
+public class ArrowFlightJdbcBaseIntVectorAccessorUnitTest {
+
+  @ClassRule
+  public static RootAllocatorTestRule rule = new RootAllocatorTestRule();
+  private static UInt4Vector int4Vector;
+  private static UInt8Vector int8Vector;
+  private static IntVector intVectorWithNull;
+  private static TinyIntVector tinyIntVector;
+  private static SmallIntVector smallIntVector;
+  private static IntVector intVector;
+  private static BigIntVector bigIntVector;
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcBaseIntVectorAccessor>
+      accessorSupplier = (vector, getCurrentRow) -> {
+        ArrowFlightJdbcAccessorFactory.WasNullConsumer noOpWasNullConsumer = (boolean wasNull) -> {
+        };
+        if (vector instanceof UInt1Vector) {
+          return new ArrowFlightJdbcBaseIntVectorAccessor((UInt1Vector) vector, getCurrentRow,
+            noOpWasNullConsumer);
+        } else if (vector instanceof UInt2Vector) {
+          return new ArrowFlightJdbcBaseIntVectorAccessor((UInt2Vector) vector, getCurrentRow,
+            noOpWasNullConsumer);
+        } else if (vector instanceof UInt4Vector) {
+          return new ArrowFlightJdbcBaseIntVectorAccessor((UInt4Vector) vector, getCurrentRow,
+            noOpWasNullConsumer);
+        } else if (vector instanceof UInt8Vector) {
+          return new ArrowFlightJdbcBaseIntVectorAccessor((UInt8Vector) vector, getCurrentRow,
+            noOpWasNullConsumer);
+        } else if (vector instanceof TinyIntVector) {
+          return new ArrowFlightJdbcBaseIntVectorAccessor((TinyIntVector) vector, getCurrentRow,
+            noOpWasNullConsumer);
+        } else if (vector instanceof SmallIntVector) {
+          return new ArrowFlightJdbcBaseIntVectorAccessor((SmallIntVector) vector, getCurrentRow,
+            noOpWasNullConsumer);
+        } else if (vector instanceof IntVector) {
+          return new ArrowFlightJdbcBaseIntVectorAccessor((IntVector) vector, getCurrentRow,
+            noOpWasNullConsumer);
+        } else if (vector instanceof BigIntVector) {
+          return new ArrowFlightJdbcBaseIntVectorAccessor((BigIntVector) vector, getCurrentRow,
+            noOpWasNullConsumer);
+        }
+        return null;
+      };
+
+  private final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcBaseIntVectorAccessor>
+      accessorIterator = new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @BeforeClass
+  public static void setup() {
+    int4Vector = new UInt4Vector("ID", rule.getRootAllocator());
+    int4Vector.setSafe(0, 0x80000001);
+    int4Vector.setValueCount(1);
+
+    int8Vector = new UInt8Vector("ID", rule.getRootAllocator());
+    int8Vector.setSafe(0, 0xFFFFFFFFFFFFFFFFL);
+    int8Vector.setValueCount(1);
+
+    intVectorWithNull = new IntVector("ID", rule.getRootAllocator());
+    intVectorWithNull.setNull(0);
+    intVectorWithNull.setValueCount(1);
+
+    tinyIntVector = new TinyIntVector("ID", rule.getRootAllocator());
+    tinyIntVector.setSafe(0, 0xAA);
+    tinyIntVector.setValueCount(1);
+
+    smallIntVector = new SmallIntVector("ID", rule.getRootAllocator());
+    smallIntVector.setSafe(0, 0xAABB);
+    smallIntVector.setValueCount(1);
+
+    intVector = new IntVector("ID", rule.getRootAllocator());
+    intVector.setSafe(0, 0xAABBCCDD);
+    intVector.setValueCount(1);
+
+    bigIntVector = new BigIntVector("ID", rule.getRootAllocator());
+    bigIntVector.setSafe(0, 0xAABBCCDDEEFFAABBL);
+    bigIntVector.setValueCount(1);
+  }
+
+  @AfterClass
+  public static void tearDown() throws Exception {
+    AutoCloseables.close(bigIntVector, intVector, smallIntVector, tinyIntVector, int4Vector,
+        int8Vector, intVectorWithNull, rule);
+  }
+
+  @Test
+  public void testShouldGetStringFromUnsignedValue() throws Exception {
+    accessorIterator.assertAccessorGetter(int8Vector,
+        ArrowFlightJdbcBaseIntVectorAccessor::getString, equalTo("18446744073709551615"));
+  }
+
+  @Test
+  public void testShouldGetBytesFromIntVectorThrowsSqlException() throws Exception {
+    accessorIterator.assertAccessorGetterThrowingException(intVector, ArrowFlightJdbcBaseIntVectorAccessor::getBytes);
+  }
+
+  @Test
+  public void testShouldGetStringFromIntVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(intVectorWithNull,
+        ArrowFlightJdbcBaseIntVectorAccessor::getString, CoreMatchers.nullValue());
+  }
+
+  @Test
+  public void testShouldGetObjectFromInt() throws Exception {
+    accessorIterator.assertAccessorGetter(intVector,
+        ArrowFlightJdbcBaseIntVectorAccessor::getObject, equalTo(0xAABBCCDD));
+  }
+
+  @Test
+  public void testShouldGetObjectFromTinyInt() throws Exception {
+    accessorIterator.assertAccessorGetter(tinyIntVector,
+        ArrowFlightJdbcBaseIntVectorAccessor::getObject, equalTo((byte) 0xAA));
+  }
+
+  @Test
+  public void testShouldGetObjectFromSmallInt() throws Exception {
+    accessorIterator.assertAccessorGetter(smallIntVector,
+        ArrowFlightJdbcBaseIntVectorAccessor::getObject, equalTo((short) 0xAABB));
+  }
+
+  @Test
+  public void testShouldGetObjectFromBigInt() throws Exception {
+    accessorIterator.assertAccessorGetter(bigIntVector,
+        ArrowFlightJdbcBaseIntVectorAccessor::getObject, equalTo(0xAABBCCDDEEFFAABBL));
+  }
+
+  @Test
+  public void testShouldGetObjectFromUnsignedInt() throws Exception {
+    accessorIterator.assertAccessorGetter(int4Vector,
+        ArrowFlightJdbcBaseIntVectorAccessor::getObject, equalTo(0x80000001));
+  }
+
+  @Test
+  public void testShouldGetObjectFromIntVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(intVectorWithNull,
+        ArrowFlightJdbcBaseIntVectorAccessor::getObject, CoreMatchers.nullValue());
+  }
+
+  @Test
+  public void testShouldGetBigDecimalFromIntVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(intVectorWithNull,
+        ArrowFlightJdbcBaseIntVectorAccessor::getBigDecimal, CoreMatchers.nullValue());
+  }
+
+  @Test
+  public void testShouldGetBigDecimalWithScaleFromIntVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(intVectorWithNull, accessor -> accessor.getBigDecimal(2),
+        CoreMatchers.nullValue());
+  }
+
+  @Test
+  public void testShouldGetBytesFromSmallVectorThrowsSqlException() throws Exception {
+    accessorIterator.assertAccessorGetterThrowingException(smallIntVector,
+        ArrowFlightJdbcBaseIntVectorAccessor::getBytes);
+  }
+
+  @Test
+  public void testShouldGetBytesFromTinyIntVectorThrowsSqlException() throws Exception {
+    accessorIterator.assertAccessorGetterThrowingException(tinyIntVector,
+        ArrowFlightJdbcBaseIntVectorAccessor::getBytes);
+  }
+
+  @Test
+  public void testShouldGetBytesFromBigIntVectorThrowsSqlException() throws Exception {
+    accessorIterator.assertAccessorGetterThrowingException(bigIntVector,
+        ArrowFlightJdbcBaseIntVectorAccessor::getBytes);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBitVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBitVectorAccessorTest.java
new file mode 100644
index 00000000000..809d6e8d353
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcBitVectorAccessorTest.java
@@ -0,0 +1,155 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.numeric;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.math.BigDecimal;
+
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils.AccessorIterator;
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils.CheckedFunction;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.BitVector;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+public class ArrowFlightJdbcBitVectorAccessorTest {
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcBitVectorAccessor>
+      accessorSupplier = (vector, getCurrentRow) -> new ArrowFlightJdbcBitVectorAccessor((BitVector) vector,
+          getCurrentRow, (boolean wasNull) -> {
+      });
+  private final AccessorIterator<ArrowFlightJdbcBitVectorAccessor>
+      accessorIterator =
+      new AccessorIterator<>(collector, accessorSupplier);
+  private BitVector vector;
+  private BitVector vectorWithNull;
+  private boolean[] arrayToAssert;
+
+  @Before
+  public void setup() {
+    this.arrayToAssert = new boolean[] {false, true};
+    this.vector = rootAllocatorTestRule.createBitVector();
+    this.vectorWithNull = rootAllocatorTestRule.createBitVectorForNullTests();
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+    this.vectorWithNull.close();
+  }
+
+  private <T> void iterate(final CheckedFunction<ArrowFlightJdbcBitVectorAccessor, T> function,
+                           final T result,
+                           final T resultIfFalse, final BitVector vector) throws Exception {
+    accessorIterator.assertAccessorGetter(vector, function,
+        ((accessor, currentRow) -> is(arrayToAssert[currentRow] ? result : resultIfFalse))
+    );
+  }
+
+  @Test
+  public void testShouldGetBooleanMethodFromBitVector() throws Exception {
+    iterate(ArrowFlightJdbcBitVectorAccessor::getBoolean, true, false, vector);
+  }
+
+  @Test
+  public void testShouldGetByteMethodFromBitVector() throws Exception {
+    iterate(ArrowFlightJdbcBitVectorAccessor::getByte, (byte) 1, (byte) 0, vector);
+  }
+
+  @Test
+  public void testShouldGetShortMethodFromBitVector() throws Exception {
+    iterate(ArrowFlightJdbcBitVectorAccessor::getShort, (short) 1, (short) 0, vector);
+  }
+
+  @Test
+  public void testShouldGetIntMethodFromBitVector() throws Exception {
+    iterate(ArrowFlightJdbcBitVectorAccessor::getInt, 1, 0, vector);
+
+  }
+
+  @Test
+  public void testShouldGetLongMethodFromBitVector() throws Exception {
+    iterate(ArrowFlightJdbcBitVectorAccessor::getLong, (long) 1, (long) 0, vector);
+
+  }
+
+  @Test
+  public void testShouldGetFloatMethodFromBitVector() throws Exception {
+    iterate(ArrowFlightJdbcBitVectorAccessor::getFloat, (float) 1, (float) 0, vector);
+
+  }
+
+  @Test
+  public void testShouldGetDoubleMethodFromBitVector() throws Exception {
+    iterate(ArrowFlightJdbcBitVectorAccessor::getDouble, (double) 1, (double) 0, vector);
+
+  }
+
+  @Test
+  public void testShouldGetBigDecimalMethodFromBitVector() throws Exception {
+    iterate(ArrowFlightJdbcBitVectorAccessor::getBigDecimal, BigDecimal.ONE, BigDecimal.ZERO,
+        vector);
+  }
+
+  @Test
+  public void testShouldGetBigDecimalMethodFromBitVectorFromNull() throws Exception {
+    iterate(ArrowFlightJdbcBitVectorAccessor::getBigDecimal, null, null, vectorWithNull);
+
+  }
+
+  @Test
+  public void testShouldGetObjectMethodFromBitVector() throws Exception {
+    iterate(ArrowFlightJdbcBitVectorAccessor::getObject, true, false, vector);
+
+  }
+
+  @Test
+  public void testShouldGetObjectMethodFromBitVectorFromNull() throws Exception {
+    iterate(ArrowFlightJdbcBitVectorAccessor::getObject, null, null, vectorWithNull);
+
+  }
+
+  @Test
+  public void testShouldGetStringMethodFromBitVector() throws Exception {
+    iterate(ArrowFlightJdbcBitVectorAccessor::getString, "true", "false", vector);
+
+  }
+
+  @Test
+  public void testShouldGetStringMethodFromBitVectorFromNull() throws Exception {
+    iterate(ArrowFlightJdbcBitVectorAccessor::getString, null, null, vectorWithNull);
+
+  }
+
+  @Test
+  public void testShouldGetObjectClass() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcBitVectorAccessor::getObjectClass,
+        equalTo(Boolean.class));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcDecimalVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcDecimalVectorAccessorTest.java
new file mode 100644
index 00000000000..b7bd7c40fef
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcDecimalVectorAccessorTest.java
@@ -0,0 +1,248 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.numeric;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.math.BigDecimal;
+import java.util.Arrays;
+import java.util.Collection;
+import java.util.function.Supplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessorFactory;
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.Decimal256Vector;
+import org.apache.arrow.vector.DecimalVector;
+import org.apache.arrow.vector.ValueVector;
+import org.hamcrest.CoreMatchers;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.runner.RunWith;
+import org.junit.runners.Parameterized;
+
+@RunWith(Parameterized.class)
+public class ArrowFlightJdbcDecimalVectorAccessorTest {
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  private final Supplier<ValueVector> vectorSupplier;
+  private ValueVector vector;
+  private ValueVector vectorWithNull;
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcDecimalVectorAccessor>
+      accessorSupplier = (vector, getCurrentRow) -> {
+        ArrowFlightJdbcAccessorFactory.WasNullConsumer noOpWasNullConsumer = (boolean wasNull) -> {
+        };
+        if (vector instanceof DecimalVector) {
+          return new ArrowFlightJdbcDecimalVectorAccessor((DecimalVector) vector, getCurrentRow,
+              noOpWasNullConsumer);
+        } else if (vector instanceof Decimal256Vector) {
+          return new ArrowFlightJdbcDecimalVectorAccessor((Decimal256Vector) vector, getCurrentRow,
+              noOpWasNullConsumer);
+        }
+        return null;
+      };
+
+  private final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcDecimalVectorAccessor>
+      accessorIterator =
+      new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Parameterized.Parameters(name = "{1}")
+  public static Collection<Object[]> data() {
+    return Arrays.asList(new Object[][] {
+        {(Supplier<ValueVector>) () -> rootAllocatorTestRule.createDecimalVector(),
+            "DecimalVector"},
+        {(Supplier<ValueVector>) () -> rootAllocatorTestRule.createDecimal256Vector(),
+            "Decimal256Vector"},
+    });
+  }
+
+  public ArrowFlightJdbcDecimalVectorAccessorTest(Supplier<ValueVector> vectorSupplier,
+                                                  String vectorType) {
+    this.vectorSupplier = vectorSupplier;
+  }
+
+  @Before
+  public void setup() {
+    this.vector = vectorSupplier.get();
+
+    this.vectorWithNull = vectorSupplier.get();
+    this.vectorWithNull.clear();
+    this.vectorWithNull.setValueCount(5);
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+    this.vectorWithNull.close();
+  }
+
+  @Test
+  public void testShouldGetBigDecimalFromDecimalVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector,
+        ArrowFlightJdbcDecimalVectorAccessor::getBigDecimal,
+        (accessor, currentRow) -> CoreMatchers.notNullValue());
+  }
+
+  @Test
+  public void testShouldGetDoubleMethodFromDecimalVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcDecimalVectorAccessor::getDouble,
+        (accessor, currentRow) -> equalTo(accessor.getBigDecimal().doubleValue()));
+  }
+
+  @Test
+  public void testShouldGetFloatMethodFromDecimalVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcDecimalVectorAccessor::getFloat,
+        (accessor, currentRow) -> equalTo(accessor.getBigDecimal().floatValue()));
+  }
+
+  @Test
+  public void testShouldGetLongMethodFromDecimalVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcDecimalVectorAccessor::getLong,
+        (accessor, currentRow) -> equalTo(accessor.getBigDecimal().longValue()));
+  }
+
+  @Test
+  public void testShouldGetIntMethodFromDecimalVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcDecimalVectorAccessor::getInt,
+        (accessor, currentRow) -> equalTo(accessor.getBigDecimal().intValue()));
+  }
+
+  @Test
+  public void testShouldGetShortMethodFromDecimalVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcDecimalVectorAccessor::getShort,
+        (accessor, currentRow) -> equalTo(accessor.getBigDecimal().shortValue()));
+  }
+
+  @Test
+  public void testShouldGetByteMethodFromDecimalVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcDecimalVectorAccessor::getByte,
+        (accessor, currentRow) -> equalTo(accessor.getBigDecimal().byteValue()));
+  }
+
+  @Test
+  public void testShouldGetStringMethodFromDecimalVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcDecimalVectorAccessor::getString,
+        (accessor, currentRow) -> equalTo(accessor.getBigDecimal().toString()));
+  }
+
+  @Test
+  public void testShouldGetBooleanMethodFromDecimalVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcDecimalVectorAccessor::getBoolean,
+        (accessor, currentRow) -> equalTo(!accessor.getBigDecimal().equals(BigDecimal.ZERO)));
+  }
+
+  @Test
+  public void testShouldGetObjectMethodFromDecimalVector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcDecimalVectorAccessor::getObject,
+        (accessor, currentRow) -> equalTo(accessor.getBigDecimal()));
+  }
+
+  @Test
+  public void testShouldGetObjectClass() throws Exception {
+    accessorIterator.assertAccessorGetter(vector,
+        ArrowFlightJdbcDecimalVectorAccessor::getObjectClass,
+        (accessor, currentRow) -> equalTo(BigDecimal.class));
+  }
+
+  @Test
+  public void testShouldGetBigDecimalMethodFromDecimalVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(vectorWithNull,
+        ArrowFlightJdbcDecimalVectorAccessor::getBigDecimal,
+        (accessor, currentRow) -> CoreMatchers.nullValue());
+  }
+
+  @Test
+  public void testShouldGetObjectMethodFromDecimalVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(vectorWithNull,
+        ArrowFlightJdbcDecimalVectorAccessor::getObject,
+        (accessor, currentRow) -> CoreMatchers.nullValue());
+  }
+
+  @Test
+  public void testShouldGetStringMethodFromDecimalVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(vectorWithNull,
+        ArrowFlightJdbcDecimalVectorAccessor::getString,
+        (accessor, currentRow) -> CoreMatchers.nullValue());
+  }
+
+  @Test
+  public void testShouldGetByteMethodFromDecimalVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(vectorWithNull,
+        ArrowFlightJdbcDecimalVectorAccessor::getByte,
+        (accessor, currentRow) -> is((byte) 0));
+  }
+
+  @Test
+  public void testShouldGetShortMethodFromDecimalVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(vectorWithNull,
+        ArrowFlightJdbcDecimalVectorAccessor::getShort,
+        (accessor, currentRow) -> is((short) 0));
+  }
+
+  @Test
+  public void testShouldGetIntMethodFromDecimalVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(vectorWithNull,
+        ArrowFlightJdbcDecimalVectorAccessor::getInt,
+        (accessor, currentRow) -> is(0));
+  }
+
+  @Test
+  public void testShouldGetLongMethodFromDecimalVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(vectorWithNull,
+        ArrowFlightJdbcDecimalVectorAccessor::getLong,
+        (accessor, currentRow) -> is((long) 0));
+  }
+
+  @Test
+  public void testShouldGetFloatMethodFromDecimalVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(vectorWithNull,
+        ArrowFlightJdbcDecimalVectorAccessor::getFloat,
+        (accessor, currentRow) -> is(0.0f));
+  }
+
+  @Test
+  public void testShouldGetDoubleMethodFromDecimalVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(vectorWithNull,
+        ArrowFlightJdbcDecimalVectorAccessor::getDouble,
+        (accessor, currentRow) -> is(0.0D));
+  }
+
+  @Test
+  public void testShouldGetBooleanMethodFromDecimalVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(vectorWithNull,
+        ArrowFlightJdbcDecimalVectorAccessor::getBoolean,
+        (accessor, currentRow) -> is(false));
+  }
+
+  @Test
+  public void testShouldGetBigDecimalWithScaleMethodFromDecimalVectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(vectorWithNull, accessor -> accessor.getBigDecimal(2),
+        (accessor, currentRow) -> CoreMatchers.nullValue());
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcFloat4VectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcFloat4VectorAccessorTest.java
new file mode 100644
index 00000000000..74a65715ec0
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcFloat4VectorAccessorTest.java
@@ -0,0 +1,206 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.numeric;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.math.BigDecimal;
+import java.math.RoundingMode;
+import java.sql.SQLException;
+
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.Float4Vector;
+import org.hamcrest.CoreMatchers;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.rules.ExpectedException;
+
+public class ArrowFlightJdbcFloat4VectorAccessorTest {
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  @Rule
+  public ExpectedException exceptionCollector = ExpectedException.none();
+
+  private Float4Vector vector;
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcFloat4VectorAccessor>
+      accessorSupplier =
+          (vector, getCurrentRow) -> new ArrowFlightJdbcFloat4VectorAccessor((Float4Vector) vector,
+              getCurrentRow, (boolean wasNull) -> {
+          });
+
+  private final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcFloat4VectorAccessor>
+      accessorIterator =
+      new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Before
+  public void setup() {
+    this.vector = rootAllocatorTestRule.createFloat4Vector();
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+  }
+
+  @Test
+  public void testShouldGetFloatMethodFromFloat4Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat4VectorAccessor::getFloat,
+        (accessor, currentRow) -> is(vector.get(currentRow)));
+  }
+
+  @Test
+  public void testShouldGetObjectMethodFromFloat4Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat4VectorAccessor::getObject,
+        (accessor) -> is(accessor.getFloat()));
+  }
+
+  @Test
+  public void testShouldGetStringMethodFromFloat4Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat4VectorAccessor::getString,
+        accessor -> is(Float.toString(accessor.getFloat())));
+  }
+
+  @Test
+  public void testShouldGetStringMethodFromFloat4VectorWithNull() throws Exception {
+    try (final Float4Vector float4Vector = new Float4Vector("ID",
+        rootAllocatorTestRule.getRootAllocator())) {
+      float4Vector.setNull(0);
+      float4Vector.setValueCount(1);
+
+      accessorIterator.assertAccessorGetter(float4Vector,
+          ArrowFlightJdbcFloat4VectorAccessor::getString,
+          CoreMatchers.nullValue());
+    }
+  }
+
+  @Test
+  public void testShouldGetFloatMethodFromFloat4VectorWithNull() throws Exception {
+    try (final Float4Vector float4Vector = new Float4Vector("ID",
+        rootAllocatorTestRule.getRootAllocator())) {
+      float4Vector.setNull(0);
+      float4Vector.setValueCount(1);
+
+      accessorIterator.assertAccessorGetter(float4Vector,
+          ArrowFlightJdbcFloat4VectorAccessor::getFloat, is(0.0f));
+    }
+  }
+
+  @Test
+  public void testShouldGetBigDecimalMethodFromFloat4VectorWithNull() throws Exception {
+    try (final Float4Vector float4Vector = new Float4Vector("ID",
+        rootAllocatorTestRule.getRootAllocator())) {
+      float4Vector.setNull(0);
+      float4Vector.setValueCount(1);
+
+      accessorIterator.assertAccessorGetter(float4Vector,
+          ArrowFlightJdbcFloat4VectorAccessor::getBigDecimal,
+          CoreMatchers.nullValue());
+    }
+  }
+
+  @Test
+  public void testShouldGetObjectMethodFromFloat4VectorWithNull() throws Exception {
+    try (final Float4Vector float4Vector = new Float4Vector("ID",
+        rootAllocatorTestRule.getRootAllocator())) {
+      float4Vector.setNull(0);
+      float4Vector.setValueCount(1);
+
+      accessorIterator.assertAccessorGetter(float4Vector,
+          ArrowFlightJdbcFloat4VectorAccessor::getObject,
+          CoreMatchers.nullValue());
+    }
+  }
+
+  @Test
+  public void testShouldGetBooleanMethodFromFloat4Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat4VectorAccessor::getBoolean,
+        accessor -> is(accessor.getFloat() != 0.0f));
+  }
+
+  @Test
+  public void testShouldGetByteMethodFromFloat4Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat4VectorAccessor::getByte,
+        accessor -> is((byte) accessor.getFloat()));
+  }
+
+  @Test
+  public void testShouldGetShortMethodFromFloat4Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat4VectorAccessor::getShort,
+        accessor -> is((short) accessor.getFloat()));
+  }
+
+  @Test
+  public void testShouldGetIntMethodFromFloat4Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat4VectorAccessor::getInt,
+        accessor -> is((int) accessor.getFloat()));
+  }
+
+  @Test
+  public void testShouldGetLongMethodFromFloat4Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat4VectorAccessor::getLong,
+        accessor -> is((long) accessor.getFloat()));
+  }
+
+  @Test
+  public void testShouldGetDoubleMethodFromFloat4Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat4VectorAccessor::getDouble,
+        accessor -> is((double) accessor.getFloat()));
+  }
+
+  @Test
+  public void testShouldGetBigDecimalMethodFromFloat4Vector() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      float value = accessor.getFloat();
+      if (Float.isInfinite(value) || Float.isNaN(value)) {
+        exceptionCollector.expect(SQLException.class);
+      }
+      collector.checkThat(accessor.getBigDecimal(), is(BigDecimal.valueOf(value)));
+    });
+  }
+
+  @Test
+  public void testShouldGetBigDecimalWithScaleMethodFromFloat4Vector() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      float value = accessor.getFloat();
+      if (Float.isInfinite(value) || Float.isNaN(value)) {
+        exceptionCollector.expect(SQLException.class);
+      }
+      collector.checkThat(accessor.getBigDecimal(9),
+          is(BigDecimal.valueOf(value).setScale(9, RoundingMode.HALF_UP)));
+    });
+  }
+
+  @Test
+  public void testShouldGetObjectClass() throws Exception {
+    accessorIterator.assertAccessorGetter(vector,
+        ArrowFlightJdbcFloat4VectorAccessor::getObjectClass,
+        accessor -> equalTo(Float.class));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcFloat8VectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcFloat8VectorAccessorTest.java
new file mode 100644
index 00000000000..26758287a96
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/numeric/ArrowFlightJdbcFloat8VectorAccessorTest.java
@@ -0,0 +1,187 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.numeric;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.math.BigDecimal;
+import java.math.RoundingMode;
+import java.sql.SQLException;
+
+import org.apache.arrow.driver.jdbc.utils.AccessorTestUtils;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.vector.Float8Vector;
+import org.hamcrest.CoreMatchers;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.rules.ExpectedException;
+
+public class ArrowFlightJdbcFloat8VectorAccessorTest {
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  @Rule
+  public ExpectedException exceptionCollector = ExpectedException.none();
+
+
+  private Float8Vector vector;
+  private Float8Vector vectorWithNull;
+
+  private final AccessorTestUtils.AccessorSupplier<ArrowFlightJdbcFloat8VectorAccessor>
+      accessorSupplier =
+          (vector, getCurrentRow) -> new ArrowFlightJdbcFloat8VectorAccessor((Float8Vector) vector,
+              getCurrentRow, (boolean wasNull) -> {
+          });
+
+  private final AccessorTestUtils.AccessorIterator<ArrowFlightJdbcFloat8VectorAccessor>
+      accessorIterator =
+      new AccessorTestUtils.AccessorIterator<>(collector, accessorSupplier);
+
+  @Before
+  public void setup() {
+    this.vector = rootAllocatorTestRule.createFloat8Vector();
+    this.vectorWithNull = rootAllocatorTestRule.createFloat8VectorForNullTests();
+  }
+
+  @After
+  public void tearDown() {
+    this.vector.close();
+    this.vectorWithNull.close();
+  }
+
+  @Test
+  public void testShouldGetDoubleMethodFromFloat8Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat8VectorAccessor::getDouble,
+        (accessor, currentRow) -> is(vector.getValueAsDouble(currentRow)));
+  }
+
+  @Test
+  public void testShouldGetObjectMethodFromFloat8Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat8VectorAccessor::getObject,
+        (accessor) -> is(accessor.getDouble()));
+  }
+
+  @Test
+  public void testShouldGetStringMethodFromFloat8Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat8VectorAccessor::getString,
+        (accessor) -> is(Double.toString(accessor.getDouble())));
+  }
+
+  @Test
+  public void testShouldGetBooleanMethodFromFloat8Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat8VectorAccessor::getBoolean,
+        (accessor) -> is(accessor.getDouble() != 0.0));
+  }
+
+  @Test
+  public void testShouldGetByteMethodFromFloat8Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat8VectorAccessor::getByte,
+        (accessor) -> is((byte) accessor.getDouble()));
+  }
+
+  @Test
+  public void testShouldGetShortMethodFromFloat8Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat8VectorAccessor::getShort,
+        (accessor) -> is((short) accessor.getDouble()));
+  }
+
+  @Test
+  public void testShouldGetIntMethodFromFloat8Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat8VectorAccessor::getInt,
+        (accessor) -> is((int) accessor.getDouble()));
+  }
+
+  @Test
+  public void testShouldGetLongMethodFromFloat8Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat8VectorAccessor::getLong,
+        (accessor) -> is((long) accessor.getDouble()));
+  }
+
+  @Test
+  public void testShouldGetFloatMethodFromFloat8Vector() throws Exception {
+    accessorIterator.assertAccessorGetter(vector, ArrowFlightJdbcFloat8VectorAccessor::getFloat,
+        (accessor) -> is((float) accessor.getDouble()));
+  }
+
+  @Test
+  public void testShouldGetBigDecimalMethodFromFloat8Vector() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      double value = accessor.getDouble();
+      if (Double.isInfinite(value) || Double.isNaN(value)) {
+        exceptionCollector.expect(SQLException.class);
+      }
+      collector.checkThat(accessor.getBigDecimal(), is(BigDecimal.valueOf(value)));
+    });
+  }
+
+  @Test
+  public void testShouldGetObjectClass() throws Exception {
+    accessorIterator
+        .assertAccessorGetter(vector, ArrowFlightJdbcFloat8VectorAccessor::getObjectClass,
+            equalTo(Double.class));
+  }
+
+  @Test
+  public void testShouldGetStringMethodFromFloat8VectorWithNull() throws Exception {
+    accessorIterator
+        .assertAccessorGetter(vectorWithNull, ArrowFlightJdbcFloat8VectorAccessor::getString,
+            CoreMatchers.nullValue());
+  }
+
+  @Test
+  public void testShouldGetFloatMethodFromFloat8VectorWithNull() throws Exception {
+    accessorIterator
+        .assertAccessorGetter(vectorWithNull, ArrowFlightJdbcFloat8VectorAccessor::getFloat,
+            is(0.0f));
+  }
+
+  @Test
+  public void testShouldGetBigDecimalMethodFromFloat8VectorWithNull() throws Exception {
+    accessorIterator.assertAccessorGetter(vectorWithNull,
+        ArrowFlightJdbcFloat8VectorAccessor::getBigDecimal,
+        CoreMatchers.nullValue());
+  }
+
+  @Test
+  public void testShouldGetBigDecimalWithScaleMethodFromFloat4Vector() throws Exception {
+    accessorIterator.iterate(vector, (accessor, currentRow) -> {
+      double value = accessor.getDouble();
+      if (Double.isInfinite(value) || Double.isNaN(value)) {
+        exceptionCollector.expect(SQLException.class);
+      }
+      collector.checkThat(accessor.getBigDecimal(9),
+          is(BigDecimal.valueOf(value).setScale(9, RoundingMode.HALF_UP)));
+    });
+  }
+
+  @Test
+  public void testShouldGetObjectMethodFromFloat8VectorWithNull() throws Exception {
+    accessorIterator
+        .assertAccessorGetter(vectorWithNull, ArrowFlightJdbcFloat8VectorAccessor::getObject,
+            CoreMatchers.nullValue());
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/text/ArrowFlightJdbcVarCharVectorAccessorTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/text/ArrowFlightJdbcVarCharVectorAccessorTest.java
new file mode 100644
index 00000000000..799c517dd56
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/accessor/impl/text/ArrowFlightJdbcVarCharVectorAccessorTest.java
@@ -0,0 +1,733 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.accessor.impl.text;
+
+import static java.nio.charset.StandardCharsets.US_ASCII;
+import static java.nio.charset.StandardCharsets.UTF_8;
+import static org.apache.commons.io.IOUtils.toByteArray;
+import static org.apache.commons.io.IOUtils.toCharArray;
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.instanceOf;
+import static org.mockito.Mockito.when;
+
+import java.io.InputStream;
+import java.io.Reader;
+import java.math.BigDecimal;
+import java.sql.Date;
+import java.sql.SQLException;
+import java.sql.Time;
+import java.sql.Timestamp;
+import java.text.SimpleDateFormat;
+import java.util.Calendar;
+import java.util.TimeZone;
+import java.util.function.IntSupplier;
+
+import org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcDateVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeStampVectorAccessor;
+import org.apache.arrow.driver.jdbc.accessor.impl.calendar.ArrowFlightJdbcTimeVectorAccessor;
+import org.apache.arrow.driver.jdbc.utils.RootAllocatorTestRule;
+import org.apache.arrow.driver.jdbc.utils.ThrowableAssertionUtils;
+import org.apache.arrow.vector.DateMilliVector;
+import org.apache.arrow.vector.TimeMilliVector;
+import org.apache.arrow.vector.TimeStampVector;
+import org.apache.arrow.vector.util.Text;
+import org.junit.Assert;
+import org.junit.Before;
+import org.junit.ClassRule;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.rules.ExpectedException;
+import org.junit.runner.RunWith;
+import org.mockito.Mock;
+import org.mockito.junit.MockitoJUnitRunner;
+
+
+@RunWith(MockitoJUnitRunner.class)
+public class ArrowFlightJdbcVarCharVectorAccessorTest {
+
+  private ArrowFlightJdbcVarCharVectorAccessor accessor;
+  private final SimpleDateFormat dateTimeFormat =
+      new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss.SSSXXX");
+  private final SimpleDateFormat timeFormat = new SimpleDateFormat("HH:mm:ss.SSSXXX");
+
+  @ClassRule
+  public static RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+
+  @Mock
+  private ArrowFlightJdbcVarCharVectorAccessor.Getter getter;
+
+  @Rule
+  public ErrorCollector collector = new ErrorCollector();
+
+  @Rule
+  public ExpectedException thrown = ExpectedException.none();
+
+  @Before
+  public void setUp() {
+    IntSupplier currentRowSupplier = () -> 0;
+    accessor =
+        new ArrowFlightJdbcVarCharVectorAccessor(getter, currentRowSupplier, (boolean wasNull) -> {
+        });
+  }
+
+  @Test
+  public void testShouldGetStringFromNullReturnNull() {
+    when(getter.get(0)).thenReturn(null);
+    final String result = accessor.getString();
+
+    collector.checkThat(result, equalTo(null));
+  }
+
+  @Test
+  public void testShouldGetStringReturnValidString() {
+    Text value = new Text("Value for Test.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    final String result = accessor.getString();
+
+    collector.checkThat(result, instanceOf(String.class));
+    collector.checkThat(result, equalTo(value.toString()));
+  }
+
+  @Test
+  public void testShouldGetObjectReturnValidString() {
+    Text value = new Text("Value for Test.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    final String result = accessor.getObject();
+
+    collector.checkThat(result, instanceOf(String.class));
+    collector.checkThat(result, equalTo(value.toString()));
+  }
+
+  @Test
+  public void testShouldGetByteThrowsExceptionForNonNumericValue() throws Exception {
+    Text value = new Text("Invalid value for byte.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getByte();
+  }
+
+  @Test
+  public void testShouldGetByteThrowsExceptionForOutOfRangePositiveValue() throws Exception {
+    Text value = new Text("128");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getByte();
+  }
+
+  @Test
+  public void testShouldGetByteThrowsExceptionForOutOfRangeNegativeValue() throws Exception {
+    Text value = new Text("-129");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getByte();
+  }
+
+  @Test
+  public void testShouldGetByteReturnValidPositiveByte() throws Exception {
+    Text value = new Text("127");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    byte result = accessor.getByte();
+
+    collector.checkThat(result, instanceOf(Byte.class));
+    collector.checkThat(result, equalTo((byte) 127));
+  }
+
+  @Test
+  public void testShouldGetByteReturnValidNegativeByte() throws Exception {
+    Text value = new Text("-128");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    byte result = accessor.getByte();
+
+    collector.checkThat(result, instanceOf(Byte.class));
+    collector.checkThat(result, equalTo((byte) -128));
+  }
+
+  @Test
+  public void testShouldGetShortThrowsExceptionForNonNumericValue() throws Exception {
+    Text value = new Text("Invalid value for short.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getShort();
+  }
+
+  @Test
+  public void testShouldGetShortThrowsExceptionForOutOfRangePositiveValue() throws Exception {
+    Text value = new Text("32768");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getShort();
+  }
+
+  @Test
+  public void testShouldGetShortThrowsExceptionForOutOfRangeNegativeValue() throws Exception {
+    Text value = new Text("-32769");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getShort();
+  }
+
+  @Test
+  public void testShouldGetShortReturnValidPositiveShort() throws Exception {
+    Text value = new Text("32767");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    short result = accessor.getShort();
+
+    collector.checkThat(result, instanceOf(Short.class));
+    collector.checkThat(result, equalTo((short) 32767));
+  }
+
+  @Test
+  public void testShouldGetShortReturnValidNegativeShort() throws Exception {
+    Text value = new Text("-32768");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    short result = accessor.getShort();
+
+    collector.checkThat(result, instanceOf(Short.class));
+    collector.checkThat(result, equalTo((short) -32768));
+  }
+
+  @Test
+  public void testShouldGetIntThrowsExceptionForNonNumericValue() throws Exception {
+    Text value = new Text("Invalid value for int.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getInt();
+  }
+
+  @Test
+  public void testShouldGetIntThrowsExceptionForOutOfRangePositiveValue() throws Exception {
+    Text value = new Text("2147483648");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getInt();
+  }
+
+  @Test
+  public void testShouldGetIntThrowsExceptionForOutOfRangeNegativeValue() throws Exception {
+    Text value = new Text("-2147483649");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getInt();
+  }
+
+  @Test
+  public void testShouldGetIntReturnValidPositiveInteger() throws Exception {
+    Text value = new Text("2147483647");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    int result = accessor.getInt();
+
+    collector.checkThat(result, instanceOf(Integer.class));
+    collector.checkThat(result, equalTo(2147483647));
+  }
+
+  @Test
+  public void testShouldGetIntReturnValidNegativeInteger() throws Exception {
+    Text value = new Text("-2147483648");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    int result = accessor.getInt();
+
+    collector.checkThat(result, instanceOf(Integer.class));
+    collector.checkThat(result, equalTo(-2147483648));
+  }
+
+  @Test
+  public void testShouldGetLongThrowsExceptionForNonNumericValue() throws Exception {
+    Text value = new Text("Invalid value for long.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getLong();
+  }
+
+  @Test
+  public void testShouldGetLongThrowsExceptionForOutOfRangePositiveValue() throws Exception {
+    Text value = new Text("9223372036854775808");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getLong();
+  }
+
+  @Test
+  public void testShouldGetLongThrowsExceptionForOutOfRangeNegativeValue() throws Exception {
+    Text value = new Text("-9223372036854775809");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getLong();
+  }
+
+  @Test
+  public void testShouldGetLongReturnValidPositiveLong() throws Exception {
+    Text value = new Text("9223372036854775807");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    long result = accessor.getLong();
+
+    collector.checkThat(result, instanceOf(Long.class));
+    collector.checkThat(result, equalTo(9223372036854775807L));
+  }
+
+  @Test
+  public void testShouldGetLongReturnValidNegativeLong() throws Exception {
+    Text value = new Text("-9223372036854775808");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    long result = accessor.getLong();
+
+    collector.checkThat(result, instanceOf(Long.class));
+    collector.checkThat(result, equalTo(-9223372036854775808L));
+  }
+
+  @Test
+  public void testShouldBigDecimalWithParametersThrowsExceptionForNonNumericValue() throws Exception {
+    Text value = new Text("Invalid value for BigDecimal.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getBigDecimal(1);
+  }
+
+  @Test
+  public void testShouldGetBigDecimalThrowsExceptionForNonNumericValue() throws Exception {
+    Text value = new Text("Invalid value for BigDecimal.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getBigDecimal();
+  }
+
+  @Test
+  public void testShouldGetBigDecimalReturnValidPositiveBigDecimal() throws Exception {
+    Text value = new Text("9223372036854775807000.999");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    BigDecimal result = accessor.getBigDecimal();
+
+    collector.checkThat(result, instanceOf(BigDecimal.class));
+    collector.checkThat(result, equalTo(new BigDecimal("9223372036854775807000.999")));
+  }
+
+  @Test
+  public void testShouldGetBigDecimalReturnValidNegativeBigDecimal() throws Exception {
+    Text value = new Text("-9223372036854775807000.999");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    BigDecimal result = accessor.getBigDecimal();
+
+    collector.checkThat(result, instanceOf(BigDecimal.class));
+    collector.checkThat(result, equalTo(new BigDecimal("-9223372036854775807000.999")));
+  }
+
+  @Test
+  public void testShouldGetDoubleThrowsExceptionForNonNumericValue() throws Exception {
+    Text value = new Text("Invalid value for double.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getDouble();
+  }
+
+  @Test
+  public void testShouldGetDoubleReturnValidPositiveDouble() throws Exception {
+    Text value = new Text("1.7976931348623157E308D");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    double result = accessor.getDouble();
+
+    collector.checkThat(result, instanceOf(Double.class));
+    collector.checkThat(result, equalTo(1.7976931348623157E308D));
+  }
+
+  @Test
+  public void testShouldGetDoubleReturnValidNegativeDouble() throws Exception {
+    Text value = new Text("-1.7976931348623157E308D");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    double result = accessor.getDouble();
+
+    collector.checkThat(result, instanceOf(Double.class));
+    collector.checkThat(result, equalTo(-1.7976931348623157E308D));
+  }
+
+  @Test
+  public void testShouldGetDoubleWorkWithPositiveInfinity() throws Exception {
+    Text value = new Text("Infinity");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    double result = accessor.getDouble();
+
+    collector.checkThat(result, instanceOf(Double.class));
+    collector.checkThat(result, equalTo(Double.POSITIVE_INFINITY));
+  }
+
+  @Test
+  public void testShouldGetDoubleWorkWithNegativeInfinity() throws Exception {
+    Text value = new Text("-Infinity");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    double result = accessor.getDouble();
+
+    collector.checkThat(result, instanceOf(Double.class));
+    collector.checkThat(result, equalTo(Double.NEGATIVE_INFINITY));
+  }
+
+  @Test
+  public void testShouldGetDoubleWorkWithNaN() throws Exception {
+    Text value = new Text("NaN");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    double result = accessor.getDouble();
+
+    collector.checkThat(result, instanceOf(Double.class));
+    collector.checkThat(result, equalTo(Double.NaN));
+  }
+
+  @Test
+  public void testShouldGetFloatThrowsExceptionForNonNumericValue() throws Exception {
+    Text value = new Text("Invalid value for float.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getFloat();
+  }
+
+  @Test
+  public void testShouldGetFloatReturnValidPositiveFloat() throws Exception {
+    Text value = new Text("3.4028235E38F");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    float result = accessor.getFloat();
+
+    collector.checkThat(result, instanceOf(Float.class));
+    collector.checkThat(result, equalTo(3.4028235E38F));
+  }
+
+  @Test
+  public void testShouldGetFloatReturnValidNegativeFloat() throws Exception {
+    Text value = new Text("-3.4028235E38F");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    float result = accessor.getFloat();
+
+    collector.checkThat(result, instanceOf(Float.class));
+    collector.checkThat(result, equalTo(-3.4028235E38F));
+  }
+
+  @Test
+  public void testShouldGetFloatWorkWithPositiveInfinity() throws Exception {
+    Text value = new Text("Infinity");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    float result = accessor.getFloat();
+
+    collector.checkThat(result, instanceOf(Float.class));
+    collector.checkThat(result, equalTo(Float.POSITIVE_INFINITY));
+  }
+
+  @Test
+  public void testShouldGetFloatWorkWithNegativeInfinity() throws Exception {
+    Text value = new Text("-Infinity");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    float result = accessor.getFloat();
+
+    collector.checkThat(result, instanceOf(Float.class));
+    collector.checkThat(result, equalTo(Float.NEGATIVE_INFINITY));
+  }
+
+  @Test
+  public void testShouldGetFloatWorkWithNaN() throws Exception {
+    Text value = new Text("NaN");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    float result = accessor.getFloat();
+
+    collector.checkThat(result, instanceOf(Float.class));
+    collector.checkThat(result, equalTo(Float.NaN));
+  }
+
+  @Test
+  public void testShouldGetDateThrowsExceptionForNonDateValue() throws Exception {
+    Text value = new Text("Invalid value for date.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getDate(null);
+  }
+
+  @Test
+  public void testShouldGetDateReturnValidDateWithoutCalendar() throws Exception {
+    Text value = new Text("2021-07-02");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    Date result = accessor.getDate(null);
+
+    collector.checkThat(result, instanceOf(Date.class));
+
+    Calendar calendar = Calendar.getInstance();
+    calendar.setTime(result);
+
+    collector.checkThat(dateTimeFormat.format(calendar.getTime()),
+        equalTo("2021-07-02T00:00:00.000Z"));
+  }
+
+  @Test
+  public void testShouldGetDateReturnValidDateWithCalendar() throws Exception {
+    Text value = new Text("2021-07-02");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    Calendar calendar = Calendar.getInstance(TimeZone.getTimeZone("America/Sao_Paulo"));
+    Date result = accessor.getDate(calendar);
+
+    calendar = Calendar.getInstance(TimeZone.getTimeZone("Etc/UTC"));
+    calendar.setTime(result);
+
+    collector.checkThat(dateTimeFormat.format(calendar.getTime()),
+        equalTo("2021-07-02T03:00:00.000Z"));
+  }
+
+  @Test
+  public void testShouldGetTimeThrowsExceptionForNonTimeValue() throws Exception {
+    Text value = new Text("Invalid value for time.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getTime(null);
+  }
+
+  @Test
+  public void testShouldGetTimeReturnValidDateWithoutCalendar() throws Exception {
+    Text value = new Text("02:30:00");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    Time result = accessor.getTime(null);
+
+    Calendar calendar = Calendar.getInstance();
+    calendar.setTime(result);
+
+    collector.checkThat(timeFormat.format(calendar.getTime()), equalTo("02:30:00.000Z"));
+  }
+
+  @Test
+  public void testShouldGetTimeReturnValidDateWithCalendar() throws Exception {
+    Text value = new Text("02:30:00");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    Calendar calendar = Calendar.getInstance(TimeZone.getTimeZone("America/Sao_Paulo"));
+    Time result = accessor.getTime(calendar);
+
+    calendar = Calendar.getInstance(TimeZone.getTimeZone("Etc/UTC"));
+    calendar.setTime(result);
+
+    collector.checkThat(timeFormat.format(calendar.getTime()), equalTo("05:30:00.000Z"));
+  }
+
+  @Test
+  public void testShouldGetTimestampThrowsExceptionForNonTimeValue() throws Exception {
+    Text value = new Text("Invalid value for timestamp.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    thrown.expect(SQLException.class);
+    accessor.getTimestamp(null);
+  }
+
+  @Test
+  public void testShouldGetTimestampReturnValidDateWithoutCalendar() throws Exception {
+    Text value = new Text("2021-07-02 02:30:00.000");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    Timestamp result = accessor.getTimestamp(null);
+
+    Calendar calendar = Calendar.getInstance();
+    calendar.setTime(result);
+
+    collector.checkThat(dateTimeFormat.format(calendar.getTime()),
+        equalTo("2021-07-02T02:30:00.000Z"));
+  }
+
+  @Test
+  public void testShouldGetTimestampReturnValidDateWithCalendar() throws Exception {
+    Text value = new Text("2021-07-02 02:30:00.000");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    Calendar calendar = Calendar.getInstance(TimeZone.getTimeZone("America/Sao_Paulo"));
+    Timestamp result = accessor.getTimestamp(calendar);
+
+    calendar = Calendar.getInstance(TimeZone.getTimeZone("Etc/UTC"));
+    calendar.setTime(result);
+
+    collector.checkThat(dateTimeFormat.format(calendar.getTime()),
+        equalTo("2021-07-02T05:30:00.000Z"));
+  }
+
+  private void assertGetBoolean(Text value, boolean expectedResult) throws SQLException {
+    when(getter.get(0)).thenReturn(value == null ? null : value.copyBytes());
+    boolean result = accessor.getBoolean();
+    collector.checkThat(result, equalTo(expectedResult));
+  }
+
+  private void assertGetBooleanForSQLException(Text value) {
+    when(getter.get(0)).thenReturn(value == null ? null : value.copyBytes());
+    ThrowableAssertionUtils.simpleAssertThrowableClass(SQLException.class, () -> accessor.getBoolean());
+  }
+
+  @Test
+  public void testShouldGetBooleanThrowsSQLExceptionForInvalidValue() {
+    assertGetBooleanForSQLException(new Text("anything"));
+  }
+
+  @Test
+  public void testShouldGetBooleanThrowsSQLExceptionForEmpty() {
+    assertGetBooleanForSQLException(new Text(""));
+  }
+
+  @Test
+  public void testShouldGetBooleanReturnFalseFor0() throws Exception {
+    assertGetBoolean(new Text("0"), false);
+  }
+
+  @Test
+  public void testShouldGetBooleanReturnFalseForFalseString() throws Exception {
+    assertGetBoolean(new Text("false"), false);
+  }
+
+  @Test
+  public void testShouldGetBooleanReturnFalseForNull() throws Exception {
+    assertGetBoolean(null, false);
+  }
+
+  @Test
+  public void testShouldGetBytesReturnValidByteArray() {
+    Text value = new Text("Value for Test.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    final byte[] result = accessor.getBytes();
+
+    collector.checkThat(result, instanceOf(byte[].class));
+    collector.checkThat(result, equalTo(value.toString().getBytes(UTF_8)));
+  }
+
+  @Test
+  public void testShouldGetUnicodeStreamReturnValidInputStream() throws Exception {
+    Text value = new Text("Value for Test.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    try (final InputStream result = accessor.getUnicodeStream()) {
+      byte[] resultBytes = toByteArray(result);
+
+      collector.checkThat(new String(resultBytes, UTF_8),
+          equalTo(value.toString()));
+    }
+  }
+
+  @Test
+  public void testShouldGetAsciiStreamReturnValidInputStream() throws Exception {
+    Text valueText = new Text("Value for Test.");
+    byte[] valueAscii = valueText.toString().getBytes(US_ASCII);
+    when(getter.get(0)).thenReturn(valueText.copyBytes());
+
+    try (final InputStream result = accessor.getAsciiStream()) {
+      byte[] resultBytes = toByteArray(result);
+
+      Assert.assertArrayEquals(valueAscii, resultBytes);
+    }
+  }
+
+  @Test
+  public void testShouldGetCharacterStreamReturnValidReader() throws Exception {
+    Text value = new Text("Value for Test.");
+    when(getter.get(0)).thenReturn(value.copyBytes());
+
+    try (Reader result = accessor.getCharacterStream()) {
+      char[] resultChars = toCharArray(result);
+
+      collector.checkThat(new String(resultChars), equalTo(value.toString()));
+    }
+  }
+
+  @Test
+  public void testShouldGetTimeStampBeConsistentWithTimeStampAccessor() throws Exception {
+    try (TimeStampVector timeStampVector = rootAllocatorTestRule.createTimeStampMilliVector()) {
+      ArrowFlightJdbcTimeStampVectorAccessor timeStampVectorAccessor =
+          new ArrowFlightJdbcTimeStampVectorAccessor(timeStampVector, () -> 0,
+              (boolean wasNull) -> {
+              });
+
+      Text value = new Text(timeStampVectorAccessor.getString());
+      when(getter.get(0)).thenReturn(value.copyBytes());
+
+      Timestamp timestamp = accessor.getTimestamp(null);
+      collector.checkThat(timestamp, equalTo(timeStampVectorAccessor.getTimestamp(null)));
+    }
+  }
+
+  @Test
+  public void testShouldGetTimeBeConsistentWithTimeAccessor() throws Exception {
+    try (TimeMilliVector timeVector = rootAllocatorTestRule.createTimeMilliVector()) {
+      ArrowFlightJdbcTimeVectorAccessor timeVectorAccessor =
+          new ArrowFlightJdbcTimeVectorAccessor(timeVector, () -> 0, (boolean wasNull) -> {
+          });
+
+      Text value = new Text(timeVectorAccessor.getString());
+      when(getter.get(0)).thenReturn(value.copyBytes());
+
+      Time time = accessor.getTime(null);
+      collector.checkThat(time, equalTo(timeVectorAccessor.getTime(null)));
+    }
+  }
+
+  @Test
+  public void testShouldGetDateBeConsistentWithDateAccessor() throws Exception {
+    try (DateMilliVector dateVector = rootAllocatorTestRule.createDateMilliVector()) {
+      ArrowFlightJdbcDateVectorAccessor dateVectorAccessor =
+          new ArrowFlightJdbcDateVectorAccessor(dateVector, () -> 0, (boolean wasNull) -> {
+          });
+
+      Text value = new Text(dateVectorAccessor.getString());
+      when(getter.get(0)).thenReturn(value.copyBytes());
+
+      Date date = accessor.getDate(null);
+      collector.checkThat(date, equalTo(dateVectorAccessor.getDate(null)));
+    }
+  }
+
+  @Test
+  public void testShouldGetObjectClassReturnString() {
+    final Class<?> clazz = accessor.getObjectClass();
+    collector.checkThat(clazz, equalTo(String.class));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/authentication/Authentication.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/authentication/Authentication.java
new file mode 100644
index 00000000000..5fe2b0dc057
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/authentication/Authentication.java
@@ -0,0 +1,37 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.authentication;
+
+import java.util.Properties;
+
+import org.apache.arrow.flight.auth2.CallHeaderAuthenticator;
+
+public interface Authentication {
+  /**
+   * Create a {@link CallHeaderAuthenticator} which is used to authenticate the connection.
+   *
+   * @return a CallHeaderAuthenticator.
+   */
+  CallHeaderAuthenticator authenticate();
+
+  /**
+   * Uses the validCredentials variable and populate the Properties object.
+   * @param properties the Properties object that will be populated.
+   */
+  void populateProperties(Properties properties);
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/authentication/TokenAuthentication.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/authentication/TokenAuthentication.java
new file mode 100644
index 00000000000..605705d1ca9
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/authentication/TokenAuthentication.java
@@ -0,0 +1,73 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.authentication;
+
+import java.util.ArrayList;
+import java.util.List;
+import java.util.Properties;
+
+import org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl;
+import org.apache.arrow.flight.CallHeaders;
+import org.apache.arrow.flight.CallStatus;
+import org.apache.arrow.flight.auth2.CallHeaderAuthenticator;
+
+public class TokenAuthentication implements Authentication {
+  private final List<String> validCredentials;
+
+  public TokenAuthentication(List<String> validCredentials) {
+    this.validCredentials = validCredentials;
+  }
+
+  @Override
+  public CallHeaderAuthenticator authenticate() {
+    return new CallHeaderAuthenticator() {
+      @Override
+      public AuthResult authenticate(CallHeaders incomingHeaders) {
+        String authorization = incomingHeaders.get("authorization");
+        if (!validCredentials.contains(authorization)) {
+          throw CallStatus.UNAUTHENTICATED.withDescription("Invalid credentials.").toRuntimeException();
+        }
+        return new AuthResult() {
+          @Override
+          public String getPeerIdentity() {
+            return authorization;
+          }
+        };
+      }
+    };
+  }
+
+  @Override
+  public void populateProperties(Properties properties) {
+    this.validCredentials.forEach(value -> properties.put(
+        ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty.TOKEN.camelName(), value));
+  }
+
+  public static final class Builder {
+    private final List<String> tokenList = new ArrayList<>();
+
+    public TokenAuthentication.Builder token(String token) {
+      tokenList.add("Bearer " + token);
+      return this;
+    }
+
+    public TokenAuthentication build() {
+      return new TokenAuthentication(tokenList);
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/authentication/UserPasswordAuthentication.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/authentication/UserPasswordAuthentication.java
new file mode 100644
index 00000000000..5dc97c858f3
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/authentication/UserPasswordAuthentication.java
@@ -0,0 +1,73 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.authentication;
+
+import java.util.HashMap;
+import java.util.Map;
+import java.util.Properties;
+
+import org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl;
+import org.apache.arrow.flight.CallStatus;
+import org.apache.arrow.flight.auth2.BasicCallHeaderAuthenticator;
+import org.apache.arrow.flight.auth2.CallHeaderAuthenticator;
+import org.apache.arrow.flight.auth2.GeneratedBearerTokenAuthenticator;
+
+public class UserPasswordAuthentication implements Authentication {
+
+  private final Map<String, String> validCredentials;
+
+  public UserPasswordAuthentication(Map<String, String> validCredentials) {
+    this.validCredentials = validCredentials;
+  }
+
+  private String getCredentials(String key) {
+    return validCredentials.getOrDefault(key, null);
+  }
+
+  @Override
+  public CallHeaderAuthenticator authenticate() {
+    return new GeneratedBearerTokenAuthenticator(
+        new BasicCallHeaderAuthenticator((username, password) -> {
+          if (validCredentials.containsKey(username) && getCredentials(username).equals(password)) {
+            return () -> username;
+          }
+          throw CallStatus.UNAUTHENTICATED.withDescription("Invalid credentials.").toRuntimeException();
+        }));
+  }
+
+  @Override
+  public void populateProperties(Properties properties) {
+    validCredentials.forEach((key, value) -> {
+      properties.put(ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty.USER.camelName(), key);
+      properties.put(ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty.PASSWORD.camelName(), value);
+    });
+  }
+
+  public static class Builder {
+    Map<String, String> credentials = new HashMap<>();
+
+    public Builder user(String username, String password) {
+      credentials.put(username, password);
+      return this;
+    }
+
+    public UserPasswordAuthentication build() {
+      return new UserPasswordAuthentication(credentials);
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/client/utils/ClientAuthenticationUtilsTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/client/utils/ClientAuthenticationUtilsTest.java
new file mode 100644
index 00000000000..f073ab660ec
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/client/utils/ClientAuthenticationUtilsTest.java
@@ -0,0 +1,181 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.client.utils;
+
+import static org.mockito.Mockito.mock;
+
+import java.io.IOException;
+import java.io.InputStream;
+import java.lang.reflect.Method;
+import java.security.KeyStore;
+import java.security.KeyStoreException;
+import java.security.NoSuchAlgorithmException;
+import java.security.cert.Certificate;
+import java.security.cert.CertificateException;
+import java.util.Arrays;
+import java.util.Collections;
+import java.util.Enumeration;
+
+import org.bouncycastle.openssl.jcajce.JcaPEMWriter;
+import org.junit.Assert;
+import org.junit.Test;
+import org.junit.runner.RunWith;
+import org.mockito.Mock;
+import org.mockito.MockedStatic;
+import org.mockito.Mockito;
+import org.mockito.junit.MockitoJUnitRunner;
+
+@RunWith(MockitoJUnitRunner.class)
+public class ClientAuthenticationUtilsTest {
+  @Mock
+  KeyStore keyStoreMock;
+
+  @Test
+  public void testGetCertificatesInputStream() throws IOException, KeyStoreException {
+    JcaPEMWriter pemWriterMock = mock(JcaPEMWriter.class);
+    Certificate certificateMock = mock(Certificate.class);
+    Enumeration<String> alias = Collections.enumeration(Arrays.asList("test1", "test2"));
+
+    Mockito.when(keyStoreMock.aliases()).thenReturn(alias);
+    Mockito.when(keyStoreMock.isCertificateEntry("test1")).thenReturn(true);
+    Mockito.when(keyStoreMock.getCertificate("test1")).thenReturn(certificateMock);
+
+    ClientAuthenticationUtils.getCertificatesInputStream(keyStoreMock, pemWriterMock);
+    Mockito.verify(pemWriterMock).writeObject(certificateMock);
+    Mockito.verify(pemWriterMock).flush();
+  }
+
+  @Test
+  public void testGetKeyStoreInstance() throws IOException,
+      KeyStoreException, CertificateException, NoSuchAlgorithmException {
+    try (MockedStatic<KeyStore> keyStoreMockedStatic = Mockito.mockStatic(KeyStore.class)) {
+      keyStoreMockedStatic
+          .when(() -> ClientAuthenticationUtils.getKeyStoreInstance(Mockito.any()))
+          .thenReturn(keyStoreMock);
+
+      KeyStore receiveKeyStore = ClientAuthenticationUtils.getKeyStoreInstance("test1");
+      Mockito
+          .verify(keyStoreMock)
+          .load(null, null);
+
+      Assert.assertEquals(receiveKeyStore, keyStoreMock);
+    }
+  }
+
+  @Test
+  public void testGetCertificateInputStreamFromMacSystem() throws IOException,
+      KeyStoreException, CertificateException, NoSuchAlgorithmException {
+    InputStream mock = mock(InputStream.class);
+
+    try (MockedStatic<KeyStore> keyStoreMockedStatic = createKeyStoreStaticMock();
+         MockedStatic<ClientAuthenticationUtils>
+             clientAuthenticationUtilsMockedStatic = createClientAuthenticationUtilsStaticMock()) {
+
+      setOperatingSystemMock(clientAuthenticationUtilsMockedStatic, false, true);
+      keyStoreMockedStatic.when(() -> ClientAuthenticationUtils
+          .getKeyStoreInstance("KeychainStore"))
+          .thenReturn(keyStoreMock);
+      keyStoreMockedStatic.when(() -> ClientAuthenticationUtils
+          .getCertificatesInputStream(Mockito.any()))
+          .thenReturn(mock);
+
+      InputStream inputStream = ClientAuthenticationUtils.getCertificateInputStreamFromSystem("test");
+      Assert.assertEquals(inputStream, mock);
+    }
+  }
+
+  @Test
+  public void testGetCertificateInputStreamFromWindowsSystem() throws IOException,
+      KeyStoreException, CertificateException, NoSuchAlgorithmException {
+    InputStream mock = mock(InputStream.class);
+
+    try (MockedStatic<KeyStore> keyStoreMockedStatic = createKeyStoreStaticMock();
+        MockedStatic<ClientAuthenticationUtils>
+            clientAuthenticationUtilsMockedStatic = createClientAuthenticationUtilsStaticMock()) {
+
+      setOperatingSystemMock(clientAuthenticationUtilsMockedStatic, true, false);
+      keyStoreMockedStatic
+          .when(() -> ClientAuthenticationUtils.getKeyStoreInstance("Windows-ROOT"))
+          .thenReturn(keyStoreMock);
+      keyStoreMockedStatic
+          .when(() -> ClientAuthenticationUtils.getKeyStoreInstance("Windows-MY"))
+          .thenReturn(keyStoreMock);
+      keyStoreMockedStatic
+          .when(() -> ClientAuthenticationUtils.getCertificatesInputStream(Mockito.any()))
+          .thenReturn(mock);
+
+      InputStream inputStream = ClientAuthenticationUtils.getCertificateInputStreamFromSystem("test");
+      Assert.assertEquals(inputStream, mock);
+    }
+  }
+
+  @Test
+  public void testGetCertificateInputStreamFromLinuxSystem() throws IOException,
+      KeyStoreException, CertificateException, NoSuchAlgorithmException {
+    InputStream mock = mock(InputStream.class);
+
+    try (
+        MockedStatic<KeyStore> keyStoreMockedStatic = createKeyStoreStaticMock();
+        MockedStatic<ClientAuthenticationUtils>
+            clientAuthenticationUtilsMockedStatic = createClientAuthenticationUtilsStaticMock()) {
+
+      setOperatingSystemMock(clientAuthenticationUtilsMockedStatic, false, false);
+      keyStoreMockedStatic.when(() -> ClientAuthenticationUtils
+              .getCertificatesInputStream(Mockito.any()))
+          .thenReturn(mock);
+
+      clientAuthenticationUtilsMockedStatic
+          .when(ClientAuthenticationUtils::getKeystoreInputStream)
+          .thenCallRealMethod();
+      keyStoreMockedStatic.when(KeyStore::getDefaultType).thenCallRealMethod();
+
+      InputStream inputStream = ClientAuthenticationUtils.getCertificateInputStreamFromSystem("changeit");
+      Assert.assertEquals(inputStream, mock);
+      inputStream = ClientAuthenticationUtils.getCertificateInputStreamFromSystem(null);
+      Assert.assertEquals(inputStream, mock);
+    }
+  }
+
+
+  private MockedStatic<KeyStore> createKeyStoreStaticMock() {
+    return Mockito.mockStatic(KeyStore.class, invocationOnMock -> {
+          Method method = invocationOnMock.getMethod();
+          if (method.getName().equals("getInstance")) {
+            return invocationOnMock.callRealMethod();
+          }
+          return invocationOnMock.getMock();
+        }
+    );
+  }
+
+  private MockedStatic<ClientAuthenticationUtils> createClientAuthenticationUtilsStaticMock() {
+    return Mockito.mockStatic(ClientAuthenticationUtils.class , invocationOnMock -> {
+      Method method = invocationOnMock.getMethod();
+      if (method.getName().equals("getCertificateInputStreamFromSystem")) {
+        return invocationOnMock.callRealMethod();
+      }
+      return invocationOnMock.getMock();
+    });
+  }
+
+  private void setOperatingSystemMock(MockedStatic<ClientAuthenticationUtils> clientAuthenticationUtilsMockedStatic,
+                                      boolean isWindows, boolean isMac) {
+    clientAuthenticationUtilsMockedStatic.when(ClientAuthenticationUtils::isMac).thenReturn(isMac);
+    clientAuthenticationUtilsMockedStatic.when(ClientAuthenticationUtils::isWindows).thenReturn(isWindows);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/AccessorTestUtils.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/AccessorTestUtils.java
new file mode 100644
index 00000000000..bc1e8a04203
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/AccessorTestUtils.java
@@ -0,0 +1,141 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static org.hamcrest.CoreMatchers.is;
+
+import java.sql.SQLException;
+import java.util.ArrayList;
+import java.util.List;
+import java.util.function.Consumer;
+import java.util.function.Function;
+import java.util.function.IntSupplier;
+import java.util.function.Supplier;
+
+import org.apache.arrow.driver.jdbc.accessor.ArrowFlightJdbcAccessor;
+import org.apache.arrow.vector.ValueVector;
+import org.hamcrest.Matcher;
+import org.junit.rules.ErrorCollector;
+
+public class AccessorTestUtils {
+  @FunctionalInterface
+  public interface CheckedFunction<T, R> {
+    R apply(T t) throws SQLException;
+  }
+
+  public interface AccessorSupplier<T extends ArrowFlightJdbcAccessor> {
+    T supply(ValueVector vector, IntSupplier getCurrentRow);
+  }
+
+  public interface AccessorConsumer<T extends ArrowFlightJdbcAccessor> {
+    void accept(T accessor, int currentRow) throws Exception;
+  }
+
+  public interface MatcherGetter<T extends ArrowFlightJdbcAccessor, R> {
+    Matcher<R> get(T accessor, int currentRow);
+  }
+
+  public static class Cursor {
+    int currentRow = 0;
+    int limit;
+
+    public Cursor(int limit) {
+      this.limit = limit;
+    }
+
+    public void next() {
+      currentRow++;
+    }
+
+    boolean hasNext() {
+      return currentRow < limit;
+    }
+
+    public int getCurrentRow() {
+      return currentRow;
+    }
+  }
+
+  public static class AccessorIterator<T extends ArrowFlightJdbcAccessor> {
+    private final ErrorCollector collector;
+    private final AccessorSupplier<T> accessorSupplier;
+
+    public AccessorIterator(ErrorCollector collector, AccessorSupplier<T> accessorSupplier) {
+      this.collector = collector;
+      this.accessorSupplier = accessorSupplier;
+    }
+
+    public void iterate(ValueVector vector, AccessorConsumer<T> accessorConsumer) throws Exception {
+      int valueCount = vector.getValueCount();
+      if (valueCount == 0) {
+        throw new IllegalArgumentException("Vector is empty");
+      }
+
+      Cursor cursor = new Cursor(valueCount);
+      T accessor = accessorSupplier.supply(vector, cursor::getCurrentRow);
+
+      while (cursor.hasNext()) {
+        accessorConsumer.accept(accessor, cursor.getCurrentRow());
+        cursor.next();
+      }
+    }
+
+    public void iterate(ValueVector vector, Consumer<T> accessorConsumer) throws Exception {
+      iterate(vector, (accessor, currentRow) -> accessorConsumer.accept(accessor));
+    }
+
+    public List<Object> toList(ValueVector vector) throws Exception {
+      List<Object> result = new ArrayList<>();
+      iterate(vector, (accessor, currentRow) -> result.add(accessor.getObject()));
+
+      return result;
+    }
+
+    public <R> void assertAccessorGetter(ValueVector vector, CheckedFunction<T, R> getter,
+                                         MatcherGetter<T, R> matcherGetter) throws Exception {
+      iterate(vector, (accessor, currentRow) -> {
+        R object = getter.apply(accessor);
+        boolean wasNull = accessor.wasNull();
+
+        collector.checkThat(object, matcherGetter.get(accessor, currentRow));
+        collector.checkThat(wasNull, is(accessor.getObject() == null));
+      });
+    }
+
+    public <R> void assertAccessorGetterThrowingException(ValueVector vector, CheckedFunction<T, R> getter)
+        throws Exception {
+      iterate(vector, (accessor, currentRow) ->
+          ThrowableAssertionUtils.simpleAssertThrowableClass(SQLException.class, () -> getter.apply(accessor)));
+    }
+
+    public <R> void assertAccessorGetter(ValueVector vector, CheckedFunction<T, R> getter,
+                                         Function<T, Matcher<R>> matcherGetter) throws Exception {
+      assertAccessorGetter(vector, getter, (accessor, currentRow) -> matcherGetter.apply(accessor));
+    }
+
+    public <R> void assertAccessorGetter(ValueVector vector, CheckedFunction<T, R> getter,
+                                         Supplier<Matcher<R>> matcherGetter) throws Exception {
+      assertAccessorGetter(vector, getter, (accessor, currentRow) -> matcherGetter.get());
+    }
+
+    public <R> void assertAccessorGetter(ValueVector vector, CheckedFunction<T, R> getter,
+                                         Matcher<R> matcher) throws Exception {
+      assertAccessorGetter(vector, getter, (accessor, currentRow) -> matcher);
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ArrowFlightConnectionConfigImplTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ArrowFlightConnectionConfigImplTest.java
new file mode 100644
index 00000000000..4fb07428af4
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ArrowFlightConnectionConfigImplTest.java
@@ -0,0 +1,96 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static java.lang.Runtime.getRuntime;
+import static java.util.Arrays.asList;
+import static org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty.HOST;
+import static org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty.PASSWORD;
+import static org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty.PORT;
+import static org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty.THREAD_POOL_SIZE;
+import static org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty.USER;
+import static org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty.USE_ENCRYPTION;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.util.List;
+import java.util.Properties;
+import java.util.Random;
+import java.util.function.Function;
+
+import org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty;
+import org.junit.Before;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.runner.RunWith;
+import org.junit.runners.Parameterized;
+import org.junit.runners.Parameterized.Parameter;
+import org.junit.runners.Parameterized.Parameters;
+
+@RunWith(Parameterized.class)
+public final class ArrowFlightConnectionConfigImplTest {
+
+  private static final Random RANDOM = new Random(12L);
+
+  private final Properties properties = new Properties();
+  private ArrowFlightConnectionConfigImpl arrowFlightConnectionConfig;
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  @Parameter
+  public ArrowFlightConnectionProperty property;
+
+  @Parameter(value = 1)
+  public Object value;
+
+  @Parameter(value = 2)
+  public Function<ArrowFlightConnectionConfigImpl, ?> arrowFlightConnectionConfigFunction;
+
+  @Before
+  public void setUp() {
+    arrowFlightConnectionConfig = new ArrowFlightConnectionConfigImpl(properties);
+    properties.put(property.camelName(), value);
+  }
+
+  @Test
+  public void testGetProperty() {
+    collector.checkThat(arrowFlightConnectionConfigFunction.apply(arrowFlightConnectionConfig),
+        is(value));
+  }
+
+  @Parameters(name = "<{0}> as <{1}>")
+  public static List<Object[]> provideParameters() {
+    return asList(new Object[][] {
+        {HOST, "host",
+            (Function<ArrowFlightConnectionConfigImpl, ?>) ArrowFlightConnectionConfigImpl::getHost},
+        {PORT,
+            RANDOM.nextInt(Short.toUnsignedInt(Short.MAX_VALUE)),
+            (Function<ArrowFlightConnectionConfigImpl, ?>) ArrowFlightConnectionConfigImpl::getPort},
+        {USER, "user",
+            (Function<ArrowFlightConnectionConfigImpl, ?>) ArrowFlightConnectionConfigImpl::getUser},
+        {PASSWORD, "password",
+            (Function<ArrowFlightConnectionConfigImpl, ?>) ArrowFlightConnectionConfigImpl::getPassword},
+        {USE_ENCRYPTION, RANDOM.nextBoolean(),
+            (Function<ArrowFlightConnectionConfigImpl, ?>) ArrowFlightConnectionConfigImpl::useEncryption},
+        {THREAD_POOL_SIZE,
+            RANDOM.nextInt(getRuntime().availableProcessors()),
+            (Function<ArrowFlightConnectionConfigImpl, ?>) ArrowFlightConnectionConfigImpl::threadPoolSize},
+    });
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ArrowFlightConnectionPropertyTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ArrowFlightConnectionPropertyTest.java
new file mode 100644
index 00000000000..25a48612cbd
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ArrowFlightConnectionPropertyTest.java
@@ -0,0 +1,90 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static org.apache.arrow.util.AutoCloseables.close;
+import static org.mockito.MockitoAnnotations.openMocks;
+
+import java.util.ArrayList;
+import java.util.List;
+import java.util.Properties;
+
+import org.apache.arrow.driver.jdbc.utils.ArrowFlightConnectionConfigImpl.ArrowFlightConnectionProperty;
+import org.junit.After;
+import org.junit.Assert;
+import org.junit.Assume;
+import org.junit.Before;
+import org.junit.Test;
+import org.junit.runner.RunWith;
+import org.junit.runners.Parameterized;
+import org.junit.runners.Parameterized.Parameter;
+import org.junit.runners.Parameterized.Parameters;
+import org.mockito.Mock;
+
+@RunWith(Parameterized.class)
+public final class ArrowFlightConnectionPropertyTest {
+
+  @Mock
+  public Properties properties;
+
+  private AutoCloseable mockitoResource;
+
+  @Parameter
+  public ArrowFlightConnectionProperty arrowFlightConnectionProperty;
+
+  @Before
+  public void setUp() {
+    mockitoResource = openMocks(this);
+  }
+
+  @After
+  public void tearDown() throws Exception {
+    close(mockitoResource);
+  }
+
+  @Test
+  public void testWrapIsUnsupported() {
+    ThrowableAssertionUtils.simpleAssertThrowableClass(UnsupportedOperationException.class,
+        () -> arrowFlightConnectionProperty.wrap(properties));
+  }
+
+  @Test
+  public void testRequiredPropertyThrows() {
+    Assume.assumeTrue(arrowFlightConnectionProperty.required());
+    ThrowableAssertionUtils.simpleAssertThrowableClass(IllegalStateException.class,
+        () -> arrowFlightConnectionProperty.get(new Properties()));
+  }
+
+  @Test
+  public void testOptionalPropertyReturnsDefault() {
+    Assume.assumeTrue(!arrowFlightConnectionProperty.required());
+    Assert.assertEquals(arrowFlightConnectionProperty.defaultValue(),
+        arrowFlightConnectionProperty.get(new Properties()));
+  }
+
+  @Parameters
+  public static List<Object[]> provideParameters() {
+    final ArrowFlightConnectionProperty[] arrowFlightConnectionProperties =
+        ArrowFlightConnectionProperty.values();
+    final List<Object[]> parameters = new ArrayList<>(arrowFlightConnectionProperties.length);
+    for (final ArrowFlightConnectionProperty arrowFlightConnectionProperty : arrowFlightConnectionProperties) {
+      parameters.add(new Object[] {arrowFlightConnectionProperty});
+    }
+    return parameters;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ConnectionWrapperTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ConnectionWrapperTest.java
new file mode 100644
index 00000000000..6044f3a363c
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ConnectionWrapperTest.java
@@ -0,0 +1,443 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static java.lang.String.format;
+import static java.util.stream.IntStream.range;
+import static org.hamcrest.CoreMatchers.allOf;
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+import static org.hamcrest.CoreMatchers.nullValue;
+import static org.hamcrest.CoreMatchers.sameInstance;
+import static org.mockito.Mockito.times;
+import static org.mockito.Mockito.verify;
+import static org.mockito.Mockito.when;
+
+import java.sql.Connection;
+import java.sql.ResultSet;
+import java.sql.SQLClientInfoException;
+import java.sql.SQLException;
+import java.sql.Statement;
+import java.util.Arrays;
+import java.util.Random;
+
+import org.apache.arrow.driver.jdbc.ArrowFlightConnection;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.calcite.avatica.AvaticaConnection;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.runner.RunWith;
+import org.mockito.Mock;
+import org.mockito.junit.MockitoJUnitRunner;
+
+@RunWith(MockitoJUnitRunner.class)
+public final class ConnectionWrapperTest {
+
+  private static final String SCHEMA_NAME = "SCHEMA";
+  private static final String PLACEHOLDER_QUERY = "SELECT * FROM DOES_NOT_MATTER";
+  private static final int[] COLUMN_INDICES = range(0, 10).toArray();
+  private static final String[] COLUMN_NAMES =
+      Arrays.stream(COLUMN_INDICES).mapToObj(i -> format("col%d", i)).toArray(String[]::new);
+  private static final String TYPE_NAME = "TYPE_NAME";
+  private static final String SAVEPOINT_NAME = "SAVEPOINT";
+  private static final String CLIENT_INFO = "CLIENT_INFO";
+  private static final int RESULT_SET_TYPE = ResultSet.TYPE_FORWARD_ONLY;
+  private static final int RESULT_SET_CONCURRENCY = ResultSet.CONCUR_READ_ONLY;
+  private static final int RESULT_SET_HOLDABILITY = ResultSet.HOLD_CURSORS_OVER_COMMIT;
+  private static final int GENERATED_KEYS = Statement.NO_GENERATED_KEYS;
+  private static final Random RANDOM = new Random(Long.MAX_VALUE);
+  private static final int TIMEOUT = RANDOM.nextInt(Integer.MAX_VALUE);
+
+  @Mock
+  public AvaticaConnection underlyingConnection;
+  private ConnectionWrapper connectionWrapper;
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+
+  @Before
+  public void setUp() {
+    connectionWrapper = new ConnectionWrapper(underlyingConnection);
+  }
+
+  @After
+  public void tearDown() throws Exception {
+    AutoCloseables.close(connectionWrapper, underlyingConnection);
+  }
+
+  @Test
+  public void testUnwrappingUnderlyingConnectionShouldReturnUnderlyingConnection() {
+    collector.checkThat(
+        collector.checkSucceeds(() -> connectionWrapper.unwrap(Object.class)),
+        is(sameInstance(underlyingConnection)));
+    collector.checkThat(
+        collector.checkSucceeds(() -> connectionWrapper.unwrap(Connection.class)),
+        is(sameInstance(underlyingConnection)));
+    collector.checkThat(
+        collector.checkSucceeds(() -> connectionWrapper.unwrap(AvaticaConnection.class)),
+        is(sameInstance(underlyingConnection)));
+    ThrowableAssertionUtils.simpleAssertThrowableClass(ClassCastException.class,
+        () -> connectionWrapper.unwrap(ArrowFlightConnection.class));
+    ThrowableAssertionUtils.simpleAssertThrowableClass(ClassCastException.class,
+        () -> connectionWrapper.unwrap(ConnectionWrapper.class));
+  }
+
+  @Test
+  public void testCreateStatementShouldCreateStatementFromUnderlyingConnection()
+      throws SQLException {
+    collector.checkThat(
+        connectionWrapper.createStatement(),
+        is(sameInstance(verify(underlyingConnection, times(1)).createStatement())));
+    collector.checkThat(
+        connectionWrapper.createStatement(RESULT_SET_TYPE, RESULT_SET_CONCURRENCY,
+            RESULT_SET_HOLDABILITY),
+        is(verify(underlyingConnection, times(1))
+            .createStatement(RESULT_SET_TYPE, RESULT_SET_CONCURRENCY, RESULT_SET_HOLDABILITY)));
+    collector.checkThat(
+        connectionWrapper.createStatement(RESULT_SET_TYPE, RESULT_SET_CONCURRENCY),
+        is(verify(underlyingConnection, times(1))
+            .createStatement(RESULT_SET_TYPE, RESULT_SET_CONCURRENCY)));
+  }
+
+  @Test
+  public void testPrepareStatementShouldPrepareStatementFromUnderlyingConnection()
+      throws SQLException {
+    collector.checkThat(
+        connectionWrapper.prepareStatement(PLACEHOLDER_QUERY),
+        is(sameInstance(
+            verify(underlyingConnection, times(1)).prepareStatement(PLACEHOLDER_QUERY))));
+    collector.checkThat(
+        connectionWrapper.prepareStatement(PLACEHOLDER_QUERY, COLUMN_INDICES),
+        is(allOf(sameInstance(verify(underlyingConnection, times(1))
+                .prepareStatement(PLACEHOLDER_QUERY, COLUMN_INDICES)),
+            nullValue())));
+    collector.checkThat(
+        connectionWrapper.prepareStatement(PLACEHOLDER_QUERY, COLUMN_NAMES),
+        is(allOf(sameInstance(verify(underlyingConnection, times(1))
+                .prepareStatement(PLACEHOLDER_QUERY, COLUMN_NAMES)),
+            nullValue())));
+    collector.checkThat(
+        connectionWrapper.prepareStatement(PLACEHOLDER_QUERY, RESULT_SET_TYPE,
+            RESULT_SET_CONCURRENCY),
+        is(allOf(sameInstance(verify(underlyingConnection, times(1))
+                .prepareStatement(PLACEHOLDER_QUERY, RESULT_SET_TYPE, RESULT_SET_CONCURRENCY)),
+            nullValue())));
+    collector.checkThat(
+        connectionWrapper.prepareStatement(PLACEHOLDER_QUERY, GENERATED_KEYS),
+        is(allOf(sameInstance(verify(underlyingConnection, times(1))
+                .prepareStatement(PLACEHOLDER_QUERY, GENERATED_KEYS)),
+            nullValue())));
+  }
+
+  @Test
+  public void testPrepareCallShouldPrepareCallFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.prepareCall(PLACEHOLDER_QUERY),
+        is(sameInstance(
+            verify(underlyingConnection, times(1)).prepareCall(PLACEHOLDER_QUERY))));
+    collector.checkThat(
+        connectionWrapper.prepareCall(PLACEHOLDER_QUERY, RESULT_SET_TYPE, RESULT_SET_CONCURRENCY),
+        is(verify(underlyingConnection, times(1))
+            .prepareCall(PLACEHOLDER_QUERY, RESULT_SET_TYPE, RESULT_SET_CONCURRENCY)));
+  }
+
+  @Test
+  public void testNativeSqlShouldGetNativeSqlFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.nativeSQL(PLACEHOLDER_QUERY),
+        is(sameInstance(
+            verify(underlyingConnection, times(1)).nativeSQL(PLACEHOLDER_QUERY))));
+  }
+
+  @Test
+  public void testSetAutoCommitShouldSetAutoCommitInUnderlyingConnection() throws SQLException {
+    connectionWrapper.setAutoCommit(true);
+    verify(underlyingConnection, times(1)).setAutoCommit(true);
+    connectionWrapper.setAutoCommit(false);
+    verify(underlyingConnection, times(1)).setAutoCommit(false);
+  }
+
+  @Test
+  public void testGetAutoCommitShouldGetAutoCommitFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.getAutoCommit(),
+        is(verify(underlyingConnection, times(1)).getAutoCommit()));
+  }
+
+  @Test
+  public void testCommitShouldCommitToUnderlyingConnection() throws SQLException {
+    connectionWrapper.commit();
+    verify(underlyingConnection, times(1)).commit();
+  }
+
+  @Test
+  public void testRollbackShouldRollbackFromUnderlyingConnection() throws SQLException {
+    connectionWrapper.rollback();
+    verify(underlyingConnection, times(1)).rollback();
+  }
+
+  @Test
+  public void testCloseShouldCloseUnderlyingConnection() throws SQLException {
+    connectionWrapper.close();
+    verify(underlyingConnection, times(1)).close();
+  }
+
+  @Test
+  public void testIsClosedShouldGetStatusFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.isClosed(), is(verify(underlyingConnection, times(1)).isClosed()));
+  }
+
+  @Test
+  public void testGetMetadataShouldGetMetadataFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.getMetaData(), is(verify(underlyingConnection, times(1)).getMetaData()));
+  }
+
+  @Test
+  public void testSetReadOnlyShouldSetUnderlyingConnectionAsReadOnly() throws SQLException {
+    connectionWrapper.setReadOnly(false);
+    verify(underlyingConnection, times(1)).setReadOnly(false);
+    connectionWrapper.setReadOnly(true);
+    verify(underlyingConnection, times(1)).setReadOnly(true);
+  }
+
+  @Test
+  public void testSetIsReadOnlyShouldGetStatusFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(connectionWrapper.isReadOnly(),
+        is(verify(underlyingConnection).isReadOnly()));
+  }
+
+  @Test
+  public void testSetCatalogShouldSetCatalogInUnderlyingConnection() throws SQLException {
+    final String catalog = "CATALOG";
+    connectionWrapper.setCatalog(catalog);
+    verify(underlyingConnection, times(1)).setCatalog(catalog);
+  }
+
+  @Test
+  public void testGetCatalogShouldGetCatalogFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.getCatalog(),
+        is(allOf(sameInstance(verify(underlyingConnection, times(1)).getCatalog()), nullValue())));
+  }
+
+  @Test
+  public void setTransactionIsolationShouldSetUnderlyingTransactionIsolation() throws SQLException {
+    final int transactionIsolation = Connection.TRANSACTION_NONE;
+    connectionWrapper.setTransactionIsolation(Connection.TRANSACTION_NONE);
+    verify(underlyingConnection, times(1)).setTransactionIsolation(transactionIsolation);
+  }
+
+  @Test
+  public void getTransactionIsolationShouldGetUnderlyingConnectionIsolation() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.getTransactionIsolation(),
+        is(equalTo(verify(underlyingConnection, times(1)).getTransactionIsolation())));
+  }
+
+  @Test
+  public void getWarningShouldGetWarningsFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.getWarnings(),
+        is(allOf(
+            sameInstance(verify(underlyingConnection, times(1)).getWarnings()),
+            nullValue())));
+  }
+
+  @Test
+  public void testClearWarningShouldClearWarningsFromUnderlyingConnection() throws SQLException {
+    connectionWrapper.clearWarnings();
+    verify(underlyingConnection, times(1)).clearWarnings();
+  }
+
+  @Test
+  public void getTypeMapShouldGetTypeMapFromUnderlyingConnection() throws SQLException {
+    when(underlyingConnection.getTypeMap()).thenReturn(null);
+    collector.checkThat(
+        connectionWrapper.getTypeMap(),
+        is(verify(underlyingConnection, times(1)).getTypeMap()));
+  }
+
+  @Test
+  public void testSetTypeMapShouldSetTypeMapFromUnderlyingConnection() throws SQLException {
+    connectionWrapper.setTypeMap(null);
+    verify(underlyingConnection, times(1)).setTypeMap(null);
+  }
+
+  @Test
+  public void testSetHoldabilityShouldSetUnderlyingConnection() throws SQLException {
+    connectionWrapper.setHoldability(RESULT_SET_HOLDABILITY);
+    verify(underlyingConnection, times(1)).setHoldability(RESULT_SET_HOLDABILITY);
+  }
+
+  @Test
+  public void testGetHoldabilityShouldGetHoldabilityFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.getHoldability(),
+        is(equalTo(verify(underlyingConnection, times(1)).getHoldability())));
+  }
+
+  @Test
+  public void testSetSavepointShouldSetSavepointInUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.setSavepoint(),
+        is(allOf(
+            sameInstance(verify(underlyingConnection, times(1)).setSavepoint()),
+            nullValue())));
+    collector.checkThat(
+        connectionWrapper.setSavepoint(SAVEPOINT_NAME),
+        is(sameInstance(
+            verify(underlyingConnection, times(1)).setSavepoint(SAVEPOINT_NAME))));
+  }
+
+  @Test
+  public void testRollbackShouldRollbackInUnderlyingConnection() throws SQLException {
+    connectionWrapper.rollback(null);
+    verify(underlyingConnection, times(1)).rollback(null);
+  }
+
+  @Test
+  public void testReleaseSavepointShouldReleaseSavepointFromUnderlyingConnection()
+      throws SQLException {
+    connectionWrapper.releaseSavepoint(null);
+    verify(underlyingConnection, times(1)).releaseSavepoint(null);
+  }
+
+  @Test
+  public void testCreateClobShouldCreateClobFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.createClob(),
+        is(allOf(sameInstance(
+            verify(underlyingConnection, times(1)).createClob()), nullValue())));
+  }
+
+  @Test
+  public void testCreateBlobShouldCreateBlobFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.createBlob(),
+        is(allOf(sameInstance(
+            verify(underlyingConnection, times(1)).createBlob()), nullValue())));
+  }
+
+  @Test
+  public void testCreateNClobShouldCreateNClobFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.createNClob(),
+        is(allOf(sameInstance(
+            verify(underlyingConnection, times(1)).createNClob()), nullValue())));
+  }
+
+  @Test
+  public void testCreateSQLXMLShouldCreateSQLXMLFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.createSQLXML(),
+        is(allOf(sameInstance(
+            verify(underlyingConnection, times(1)).createSQLXML()), nullValue())));
+  }
+
+  @Test
+  public void testIsValidShouldReturnWhetherUnderlyingConnectionIsValid() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.isValid(TIMEOUT),
+        is(verify(underlyingConnection, times(1)).isValid(TIMEOUT)));
+  }
+
+  @Test
+  public void testSetClientInfoShouldSetClientInfoInUnderlyingConnection()
+      throws SQLClientInfoException {
+    connectionWrapper.setClientInfo(null);
+    verify(underlyingConnection, times(1)).setClientInfo(null);
+  }
+
+  @Test
+  public void testGetClientInfoShouldGetClientInfoFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.getClientInfo(CLIENT_INFO),
+        is(allOf(
+            sameInstance(
+                verify(underlyingConnection, times(1)).getClientInfo(CLIENT_INFO)),
+            nullValue())));
+    collector.checkThat(
+        connectionWrapper.getClientInfo(),
+        is(allOf(
+            sameInstance(
+                verify(underlyingConnection, times(1)).getClientInfo()),
+            nullValue())));
+  }
+
+  @Test
+  public void testCreateArrayOfShouldCreateArrayFromUnderlyingConnection() throws SQLException {
+    final Object[] elements = range(0, 100).boxed().toArray();
+    collector.checkThat(
+        connectionWrapper.createArrayOf(TYPE_NAME, elements),
+        is(allOf(
+            sameInstance(
+                verify(underlyingConnection, times(1)).createArrayOf(TYPE_NAME, elements)),
+            nullValue())));
+  }
+
+  @Test
+  public void testCreateStructShouldCreateStructFromUnderlyingConnection() throws SQLException {
+    final Object[] attributes = range(0, 120).boxed().toArray();
+    collector.checkThat(
+        connectionWrapper.createStruct(TYPE_NAME, attributes),
+        is(allOf(
+            sameInstance(
+                verify(underlyingConnection, times(1)).createStruct(TYPE_NAME, attributes)),
+            nullValue())));
+  }
+
+  @Test
+  public void testSetSchemaShouldSetSchemaInUnderlyingConnection() throws SQLException {
+    connectionWrapper.setSchema(SCHEMA_NAME);
+    verify(underlyingConnection, times(1)).setSchema(SCHEMA_NAME);
+  }
+
+  @Test
+  public void testGetSchemaShouldGetSchemaFromUnderlyingConnection() throws SQLException {
+    collector.checkThat(
+        connectionWrapper.getSchema(),
+        is(allOf(
+            sameInstance(verify(underlyingConnection, times(1)).getSchema()),
+            nullValue())));
+  }
+
+  @Test
+  public void testAbortShouldAbortUnderlyingConnection() throws SQLException {
+    connectionWrapper.abort(null);
+    verify(underlyingConnection, times(1)).abort(null);
+  }
+
+  @Test
+  public void testSetNetworkTimeoutShouldSetNetworkTimeoutInUnderlyingConnection()
+      throws SQLException {
+    connectionWrapper.setNetworkTimeout(null, TIMEOUT);
+    verify(underlyingConnection, times(1)).setNetworkTimeout(null, TIMEOUT);
+  }
+
+  @Test
+  public void testGetNetworkTimeoutShouldGetNetworkTimeoutFromUnderlyingConnection()
+      throws SQLException {
+    collector.checkThat(
+        connectionWrapper.getNetworkTimeout(),
+        is(equalTo(verify(underlyingConnection, times(1)).getNetworkTimeout())));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ConvertUtilsTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ConvertUtilsTest.java
new file mode 100644
index 00000000000..5cea3749283
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ConvertUtilsTest.java
@@ -0,0 +1,119 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static org.hamcrest.CoreMatchers.equalTo;
+
+import java.util.List;
+
+import org.apache.arrow.flight.sql.FlightSqlColumnMetadata;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.FieldType;
+import org.apache.calcite.avatica.ColumnMetaData;
+import org.apache.calcite.avatica.proto.Common;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+import com.google.common.collect.ImmutableList;
+
+public class ConvertUtilsTest {
+
+  @Rule
+  public ErrorCollector collector = new ErrorCollector();
+
+  @Test
+  public void testShouldSetOnColumnMetaDataBuilder() {
+
+    final Common.ColumnMetaData.Builder builder = Common.ColumnMetaData.newBuilder();
+    final FlightSqlColumnMetadata expectedColumnMetaData = new FlightSqlColumnMetadata.Builder()
+        .catalogName("catalog1")
+        .schemaName("schema1")
+        .tableName("table1")
+        .isAutoIncrement(true)
+        .isCaseSensitive(true)
+        .isReadOnly(true)
+        .isSearchable(true)
+        .precision(20)
+        .scale(10)
+        .build();
+    ConvertUtils.setOnColumnMetaDataBuilder(builder, expectedColumnMetaData.getMetadataMap());
+    assertBuilder(builder, expectedColumnMetaData);
+  }
+
+  @Test
+  public void testShouldConvertArrowFieldsToColumnMetaDataList() {
+
+    final List<Field> listField = ImmutableList.of(
+        new Field("col1",
+            new FieldType(true, ArrowType.Utf8.INSTANCE, null,
+                new FlightSqlColumnMetadata.Builder()
+                    .catalogName("catalog1")
+                    .schemaName("schema1")
+                    .tableName("table1")
+                    .build().getMetadataMap()
+            ), null));
+
+    final List<ColumnMetaData> expectedColumnMetaData = ImmutableList.of(
+        ColumnMetaData.fromProto(
+            Common.ColumnMetaData.newBuilder()
+                .setCatalogName("catalog1")
+                .setSchemaName("schema1")
+                .setTableName("table1")
+                .build()));
+
+    final List<ColumnMetaData> actualColumnMetaData = ConvertUtils.convertArrowFieldsToColumnMetaDataList(listField);
+    assertColumnMetaData(expectedColumnMetaData, actualColumnMetaData);
+  }
+
+  private void assertColumnMetaData(final List<ColumnMetaData> expected, final List<ColumnMetaData> actual) {
+    collector.checkThat(expected.size(), equalTo(actual.size()));
+    int size = expected.size();
+    for (int i = 0; i < size; i++) {
+      final ColumnMetaData expectedColumnMetaData = expected.get(i);
+      final ColumnMetaData actualColumnMetaData = actual.get(i);
+      collector.checkThat(expectedColumnMetaData.catalogName, equalTo(actualColumnMetaData.catalogName));
+      collector.checkThat(expectedColumnMetaData.schemaName, equalTo(actualColumnMetaData.schemaName));
+      collector.checkThat(expectedColumnMetaData.tableName, equalTo(actualColumnMetaData.tableName));
+      collector.checkThat(expectedColumnMetaData.readOnly, equalTo(actualColumnMetaData.readOnly));
+      collector.checkThat(expectedColumnMetaData.autoIncrement, equalTo(actualColumnMetaData.autoIncrement));
+      collector.checkThat(expectedColumnMetaData.precision, equalTo(actualColumnMetaData.precision));
+      collector.checkThat(expectedColumnMetaData.scale, equalTo(actualColumnMetaData.scale));
+      collector.checkThat(expectedColumnMetaData.caseSensitive, equalTo(actualColumnMetaData.caseSensitive));
+      collector.checkThat(expectedColumnMetaData.searchable, equalTo(actualColumnMetaData.searchable));
+    }
+  }
+
+  private void assertBuilder(final Common.ColumnMetaData.Builder builder,
+                             final FlightSqlColumnMetadata flightSqlColumnMetaData) {
+
+    final Integer precision = flightSqlColumnMetaData.getPrecision();
+    final Integer scale = flightSqlColumnMetaData.getScale();
+
+    collector.checkThat(flightSqlColumnMetaData.getCatalogName(), equalTo(builder.getCatalogName()));
+    collector.checkThat(flightSqlColumnMetaData.getSchemaName(), equalTo(builder.getSchemaName()));
+    collector.checkThat(flightSqlColumnMetaData.getTableName(), equalTo(builder.getTableName()));
+    collector.checkThat(flightSqlColumnMetaData.isAutoIncrement(), equalTo(builder.getAutoIncrement()));
+    collector.checkThat(flightSqlColumnMetaData.isCaseSensitive(), equalTo(builder.getCaseSensitive()));
+    collector.checkThat(flightSqlColumnMetaData.isSearchable(), equalTo(builder.getSearchable()));
+    collector.checkThat(flightSqlColumnMetaData.isReadOnly(), equalTo(builder.getReadOnly()));
+    collector.checkThat(precision == null ? 0 : precision, equalTo(builder.getPrecision()));
+    collector.checkThat(scale == null ? 0 : scale, equalTo(builder.getScale()));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/CoreMockedSqlProducers.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/CoreMockedSqlProducers.java
new file mode 100644
index 00000000000..cf359849a71
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/CoreMockedSqlProducers.java
@@ -0,0 +1,298 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static java.lang.String.format;
+import static org.hamcrest.CoreMatchers.equalTo;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.sql.Date;
+import java.sql.ResultSet;
+import java.sql.SQLException;
+import java.sql.Timestamp;
+import java.util.ArrayList;
+import java.util.Collections;
+import java.util.List;
+import java.util.function.Consumer;
+import java.util.stream.IntStream;
+
+import org.apache.arrow.flight.FlightProducer.ServerStreamListener;
+import org.apache.arrow.flight.sql.FlightSqlColumnMetadata;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.vector.BigIntVector;
+import org.apache.arrow.vector.DateDayVector;
+import org.apache.arrow.vector.Float4Vector;
+import org.apache.arrow.vector.Float8Vector;
+import org.apache.arrow.vector.TimeStampMilliVector;
+import org.apache.arrow.vector.UInt4Vector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.types.DateUnit;
+import org.apache.arrow.vector.types.FloatingPointPrecision;
+import org.apache.arrow.vector.types.TimeUnit;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.FieldType;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.arrow.vector.util.Text;
+import org.junit.rules.ErrorCollector;
+
+import com.google.common.collect.ImmutableList;
+
+/**
+ * Standard {@link MockFlightSqlProducer} instances for tests.
+ */
+// TODO Remove this once all tests are refactor to use only the queries they need.
+public final class CoreMockedSqlProducers {
+
+  public static final String LEGACY_REGULAR_SQL_CMD = "SELECT * FROM TEST";
+  public static final String LEGACY_METADATA_SQL_CMD = "SELECT * FROM METADATA";
+  public static final String LEGACY_CANCELLATION_SQL_CMD = "SELECT * FROM TAKES_FOREVER";
+
+  private CoreMockedSqlProducers() {
+    // Prevent instantiation.
+  }
+
+  /**
+   * Gets the {@link MockFlightSqlProducer} for legacy tests and backward compatibility.
+   *
+   * @return a new producer.
+   */
+  public static MockFlightSqlProducer getLegacyProducer() {
+
+    final MockFlightSqlProducer producer = new MockFlightSqlProducer();
+    addLegacyRegularSqlCmdSupport(producer);
+    addLegacyMetadataSqlCmdSupport(producer);
+    addLegacyCancellationSqlCmdSupport(producer);
+    return producer;
+  }
+
+  private static void addLegacyRegularSqlCmdSupport(final MockFlightSqlProducer producer) {
+    final Schema querySchema = new Schema(ImmutableList.of(
+        new Field(
+            "ID",
+            new FieldType(true, new ArrowType.Int(64, true),
+                null),
+            null),
+        new Field(
+            "Name",
+            new FieldType(true, new ArrowType.Utf8(), null),
+            null),
+        new Field(
+            "Age",
+            new FieldType(true, new ArrowType.Int(32, false),
+                null),
+            null),
+        new Field(
+            "Salary",
+            new FieldType(true, new ArrowType.FloatingPoint(FloatingPointPrecision.DOUBLE),
+                null),
+            null),
+        new Field(
+            "Hire Date",
+            new FieldType(true, new ArrowType.Date(DateUnit.DAY), null),
+            null),
+        new Field(
+            "Last Sale",
+            new FieldType(true, new ArrowType.Timestamp(TimeUnit.MILLISECOND, null),
+                null),
+            null)
+    ));
+    final List<Consumer<ServerStreamListener>> resultProducers = new ArrayList<>();
+    IntStream.range(0, 10).forEach(page -> {
+      resultProducers.add(listener -> {
+        final int rowsPerPage = 5000;
+        try (final BufferAllocator allocator = new RootAllocator(Long.MAX_VALUE);
+             final VectorSchemaRoot root = VectorSchemaRoot.create(querySchema, allocator)) {
+          root.allocateNew();
+          listener.start(root);
+          int batchSize = 500;
+          int indexOnBatch = 0;
+          int resultsOffset = page * rowsPerPage;
+          for (int i = 0; i < rowsPerPage; i++) {
+            ((BigIntVector) root.getVector("ID"))
+                .setSafe(indexOnBatch, (long) Integer.MAX_VALUE + 1 + i + resultsOffset);
+            ((VarCharVector) root.getVector("Name"))
+                .setSafe(indexOnBatch, new Text("Test Name #" + (resultsOffset + i)));
+            ((UInt4Vector) root.getVector("Age"))
+                .setSafe(indexOnBatch, (int) Short.MAX_VALUE + 1 + i + resultsOffset);
+            ((Float8Vector) root.getVector("Salary"))
+                .setSafe(indexOnBatch,
+                    Math.scalb((double) (i + resultsOffset) / 2, i + resultsOffset));
+            ((DateDayVector) root.getVector("Hire Date"))
+                .setSafe(indexOnBatch, i + resultsOffset);
+            ((TimeStampMilliVector) root.getVector("Last Sale"))
+                .setSafe(indexOnBatch, Long.MAX_VALUE - i - resultsOffset);
+            indexOnBatch++;
+            if (indexOnBatch == batchSize) {
+              root.setRowCount(indexOnBatch);
+              if (listener.isCancelled()) {
+                return;
+              }
+              listener.putNext();
+              root.allocateNew();
+              indexOnBatch = 0;
+            }
+          }
+          if (listener.isCancelled()) {
+            return;
+          }
+          root.setRowCount(indexOnBatch);
+          listener.putNext();
+        } finally {
+          listener.completed();
+        }
+      });
+    });
+    producer.addSelectQuery(LEGACY_REGULAR_SQL_CMD, querySchema, resultProducers);
+  }
+
+  private static void addLegacyMetadataSqlCmdSupport(final MockFlightSqlProducer producer) {
+    final Schema metadataSchema = new Schema(ImmutableList.of(
+        new Field(
+            "integer0",
+            new FieldType(true, new ArrowType.Int(64, true),
+                null, new FlightSqlColumnMetadata.Builder()
+                .catalogName("CATALOG_NAME_1")
+                .schemaName("SCHEMA_NAME_1")
+                .tableName("TABLE_NAME_1")
+                .typeName("TYPE_NAME_1")
+                .precision(10)
+                .scale(0)
+                .isAutoIncrement(true)
+                .isCaseSensitive(false)
+                .isReadOnly(true)
+                .isSearchable(true)
+                .build().getMetadataMap()),
+            null),
+        new Field(
+            "string1",
+            new FieldType(true, new ArrowType.Utf8(),
+                null, new FlightSqlColumnMetadata.Builder()
+                .catalogName("CATALOG_NAME_2")
+                .schemaName("SCHEMA_NAME_2")
+                .tableName("TABLE_NAME_2")
+                .typeName("TYPE_NAME_2")
+                .precision(65535)
+                .scale(0)
+                .isAutoIncrement(false)
+                .isCaseSensitive(true)
+                .isReadOnly(false)
+                .isSearchable(true)
+                .build().getMetadataMap()),
+            null),
+        new Field(
+            "float2",
+            new FieldType(true, new ArrowType.FloatingPoint(FloatingPointPrecision.SINGLE),
+                null, new FlightSqlColumnMetadata.Builder()
+                .catalogName("CATALOG_NAME_3")
+                .schemaName("SCHEMA_NAME_3")
+                .tableName("TABLE_NAME_3")
+                .typeName("TYPE_NAME_3")
+                .precision(15)
+                .scale(20)
+                .isAutoIncrement(false)
+                .isCaseSensitive(false)
+                .isReadOnly(false)
+                .isSearchable(true)
+                .build().getMetadataMap()),
+            null)));
+    final Consumer<ServerStreamListener> formula = listener -> {
+      try (final BufferAllocator allocator = new RootAllocator(Long.MAX_VALUE);
+           final VectorSchemaRoot root = VectorSchemaRoot.create(metadataSchema, allocator)) {
+        root.allocateNew();
+        ((BigIntVector) root.getVector("integer0")).setSafe(0, 1);
+        ((VarCharVector) root.getVector("string1")).setSafe(0, new Text("teste"));
+        ((Float4Vector) root.getVector("float2")).setSafe(0, (float) 4.1);
+        root.setRowCount(1);
+        listener.start(root);
+        listener.putNext();
+      } finally {
+        listener.completed();
+      }
+    };
+    producer.addSelectQuery(LEGACY_METADATA_SQL_CMD, metadataSchema,
+        Collections.singletonList(formula));
+  }
+
+  private static void addLegacyCancellationSqlCmdSupport(final MockFlightSqlProducer producer) {
+    producer.addSelectQuery(
+        LEGACY_CANCELLATION_SQL_CMD,
+        new Schema(Collections.singletonList(new Field(
+            "integer0",
+            new FieldType(true, new ArrowType.Int(64, true), null),
+            null))),
+        Collections.singletonList(listener -> {
+          // Should keep hanging until canceled.
+        }));
+  }
+
+  /**
+   * Asserts that the values in the provided {@link ResultSet} are expected for the
+   * legacy {@link MockFlightSqlProducer}.
+   *
+   * @param resultSet the result set.
+   * @param collector the {@link ErrorCollector} to use.
+   * @throws SQLException on error.
+   */
+  public static void assertLegacyRegularSqlResultSet(final ResultSet resultSet,
+                                                     final ErrorCollector collector)
+      throws SQLException {
+    final int expectedRowCount = 50_000;
+
+    final long[] expectedIds = new long[expectedRowCount];
+    final List<String> expectedNames = new ArrayList<>(expectedRowCount);
+    final int[] expectedAges = new int[expectedRowCount];
+    final double[] expectedSalaries = new double[expectedRowCount];
+    final List<Date> expectedHireDates = new ArrayList<>(expectedRowCount);
+    final List<Timestamp> expectedLastSales = new ArrayList<>(expectedRowCount);
+
+    final long[] actualIds = new long[expectedRowCount];
+    final List<String> actualNames = new ArrayList<>(expectedRowCount);
+    final int[] actualAges = new int[expectedRowCount];
+    final double[] actualSalaries = new double[expectedRowCount];
+    final List<Date> actualHireDates = new ArrayList<>(expectedRowCount);
+    final List<Timestamp> actualLastSales = new ArrayList<>(expectedRowCount);
+
+    int actualRowCount = 0;
+
+    for (; resultSet.next(); actualRowCount++) {
+      expectedIds[actualRowCount] = (long) Integer.MAX_VALUE + 1 + actualRowCount;
+      expectedNames.add(format("Test Name #%d", actualRowCount));
+      expectedAges[actualRowCount] = (int) Short.MAX_VALUE + 1 + actualRowCount;
+      expectedSalaries[actualRowCount] = Math.scalb((double) actualRowCount / 2, actualRowCount);
+      expectedHireDates.add(new Date(86_400_000L * actualRowCount));
+      expectedLastSales.add(new Timestamp(Long.MAX_VALUE - actualRowCount));
+
+      actualIds[actualRowCount] = (long) resultSet.getObject(1);
+      actualNames.add((String) resultSet.getObject(2));
+      actualAges[actualRowCount] = (int) resultSet.getObject(3);
+      actualSalaries[actualRowCount] = (double) resultSet.getObject(4);
+      actualHireDates.add((Date) resultSet.getObject(5));
+      actualLastSales.add((Timestamp) resultSet.getObject(6));
+    }
+    collector.checkThat(actualRowCount, is(equalTo(expectedRowCount)));
+    collector.checkThat(actualIds, is(expectedIds));
+    collector.checkThat(actualNames, is(expectedNames));
+    collector.checkThat(actualAges, is(expectedAges));
+    collector.checkThat(actualSalaries, is(expectedSalaries));
+    collector.checkThat(actualHireDates, is(expectedHireDates));
+    collector.checkThat(actualLastSales, is(expectedLastSales));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/DateTimeUtilsTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/DateTimeUtilsTest.java
new file mode 100644
index 00000000000..adb892fcdc7
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/DateTimeUtilsTest.java
@@ -0,0 +1,102 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static org.hamcrest.CoreMatchers.is;
+
+import java.sql.Timestamp;
+import java.time.Instant;
+import java.util.Calendar;
+import java.util.TimeZone;
+
+import org.junit.ClassRule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+
+public class DateTimeUtilsTest {
+
+  @ClassRule
+  public static final ErrorCollector collector = new ErrorCollector();
+  private final TimeZone defaultTimezone = TimeZone.getTimeZone("UTC");
+  private final TimeZone alternateTimezone = TimeZone.getTimeZone("America/Vancouver");
+  private final long positiveEpochMilli = 959817600000L; // 2000-06-01 00:00:00 UTC
+  private final long negativeEpochMilli = -618105600000L; // 1950-06-01 00:00:00 UTC
+
+  @Test
+  public void testShouldGetOffsetWithSameTimeZone() {
+    final TimeZone currentTimezone = TimeZone.getDefault();
+
+    final long epochMillis = positiveEpochMilli;
+    final long offset = defaultTimezone.getOffset(epochMillis);
+
+    TimeZone.setDefault(defaultTimezone);
+
+    try { // Trying to guarantee timezone returns to its original value
+      final long expected = epochMillis + offset;
+      final long actual = DateTimeUtils.applyCalendarOffset(epochMillis, Calendar.getInstance(defaultTimezone));
+
+      collector.checkThat(actual, is(expected));
+    } finally {
+      // Reset Timezone
+      TimeZone.setDefault(currentTimezone);
+    }
+  }
+
+  @Test
+  public void testShouldGetOffsetWithDifferentTimeZone() {
+    final TimeZone currentTimezone = TimeZone.getDefault();
+
+    final long epochMillis = negativeEpochMilli;
+    final long offset = alternateTimezone.getOffset(epochMillis);
+
+    TimeZone.setDefault(alternateTimezone);
+
+    try { // Trying to guarantee timezone returns to its original value
+      final long expectedEpochMillis = epochMillis + offset;
+      final long actualEpochMillis = DateTimeUtils.applyCalendarOffset(epochMillis, Calendar.getInstance(
+          defaultTimezone));
+
+      collector.checkThat(actualEpochMillis, is(expectedEpochMillis));
+    } finally {
+      // Reset Timezone
+      TimeZone.setDefault(currentTimezone);
+    }
+  }
+
+  @Test
+  public void testShouldGetTimestampPositive() {
+    long epochMilli = positiveEpochMilli;
+    final Instant instant = Instant.ofEpochMilli(epochMilli);
+
+    final Timestamp expected = Timestamp.from(instant);
+    final Timestamp actual = DateTimeUtils.getTimestampValue(epochMilli);
+
+    collector.checkThat(expected, is(actual));
+  }
+
+  @Test
+  public void testShouldGetTimestampNegative() {
+    final long epochMilli = negativeEpochMilli;
+    final Instant instant = Instant.ofEpochMilli(epochMilli);
+
+    final Timestamp expected = Timestamp.from(instant);
+    final Timestamp actual = DateTimeUtils.getTimestampValue(epochMilli);
+
+    collector.checkThat(expected, is(actual));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/FlightSqlTestCertificates.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/FlightSqlTestCertificates.java
new file mode 100644
index 00000000000..a2b1864c026
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/FlightSqlTestCertificates.java
@@ -0,0 +1,77 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import java.io.File;
+import java.nio.file.Path;
+import java.nio.file.Paths;
+import java.util.Arrays;
+import java.util.List;
+import java.util.Objects;
+
+/**
+ * Utility class for unit tests that need to reference the certificate params.
+ */
+public class FlightSqlTestCertificates {
+
+  public static final String TEST_DATA_ENV_VAR = "ARROW_TEST_DATA";
+  public static final String TEST_DATA_PROPERTY = "arrow.test.dataRoot";
+
+  static Path getTestDataRoot() {
+    String path = System.getenv(TEST_DATA_ENV_VAR);
+    if (path == null) {
+      path = System.getProperty(TEST_DATA_PROPERTY);
+    }
+    return Paths.get(Objects.requireNonNull(path,
+        String.format("Could not find test data path. Set the environment variable %s or the JVM property %s.",
+            TEST_DATA_ENV_VAR, TEST_DATA_PROPERTY)));
+  }
+
+  /**
+   * Get the Path from the Files to be used in the encrypted test of Flight.
+   *
+   * @return the Path from the Files with certificates and keys.
+   */
+  static Path getFlightTestDataRoot() {
+    return getTestDataRoot().resolve("flight");
+  }
+
+  /**
+   * Create CertKeyPair object with the certificates and keys.
+   *
+   * @return A list with CertKeyPair.
+   */
+  public static List<CertKeyPair> exampleTlsCerts() {
+    final Path root = getFlightTestDataRoot();
+    return Arrays.asList(new CertKeyPair(root.resolve("cert0.pem")
+            .toFile(), root.resolve("cert0.pkcs1").toFile()),
+        new CertKeyPair(root.resolve("cert1.pem")
+            .toFile(), root.resolve("cert1.pkcs1").toFile()));
+  }
+
+  public static class CertKeyPair {
+
+    public final File cert;
+    public final File key;
+
+    public CertKeyPair(File cert, File key) {
+      this.cert = cert;
+      this.key = key;
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/FlightStreamQueueTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/FlightStreamQueueTest.java
new file mode 100644
index 00000000000..b474da55a7f
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/FlightStreamQueueTest.java
@@ -0,0 +1,86 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static org.hamcrest.CoreMatchers.is;
+import static org.hamcrest.CoreMatchers.nullValue;
+import static org.mockito.Mockito.mock;
+
+import java.util.concurrent.CompletionService;
+
+import org.apache.arrow.flight.FlightStream;
+import org.junit.Before;
+import org.junit.Rule;
+import org.junit.Test;
+import org.junit.rules.ErrorCollector;
+import org.junit.runner.RunWith;
+import org.mockito.Mock;
+import org.mockito.junit.MockitoJUnitRunner;
+
+/**
+ * Tests for {@link FlightStreamQueue}.
+ */
+@RunWith(MockitoJUnitRunner.class)
+public class FlightStreamQueueTest {
+
+  @Rule
+  public final ErrorCollector collector = new ErrorCollector();
+  @Mock
+  private CompletionService<FlightStream> mockedService;
+  private FlightStreamQueue queue;
+
+  @Before
+  public void setUp() {
+    queue = new FlightStreamQueue(mockedService);
+  }
+
+  @Test
+  public void testNextShouldRetrieveNullIfEmpty() throws Exception {
+    collector.checkThat(queue.next(), is(nullValue()));
+  }
+
+  @Test
+  public void testNextShouldThrowExceptionUponClose() throws Exception {
+    queue.close();
+    ThrowableAssertionUtils.simpleAssertThrowableClass(IllegalStateException.class, () -> queue.next());
+  }
+
+  @Test
+  public void testEnqueueShouldThrowExceptionUponClose() throws Exception {
+    queue.close();
+    ThrowableAssertionUtils.simpleAssertThrowableClass(IllegalStateException.class,
+        () -> queue.enqueue(mock(FlightStream.class)));
+  }
+
+  @Test
+  public void testCheckOpen() throws Exception {
+    collector.checkSucceeds(() -> {
+      queue.checkOpen();
+      return true;
+    });
+    queue.close();
+    ThrowableAssertionUtils.simpleAssertThrowableClass(IllegalStateException.class, () -> queue.checkOpen());
+  }
+
+  @Test
+  public void testShouldCloseQueue() throws Exception {
+    collector.checkThat(queue.isClosed(), is(false));
+    queue.close();
+    collector.checkThat(queue.isClosed(), is(true));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/MockFlightSqlProducer.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/MockFlightSqlProducer.java
new file mode 100644
index 00000000000..cc8fae9722f
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/MockFlightSqlProducer.java
@@ -0,0 +1,539 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static com.google.protobuf.Any.pack;
+import static com.google.protobuf.ByteString.copyFrom;
+import static java.lang.String.format;
+import static java.util.UUID.randomUUID;
+import static java.util.stream.Collectors.toList;
+
+import java.io.ByteArrayOutputStream;
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.channels.Channels;
+import java.nio.charset.StandardCharsets;
+import java.util.AbstractMap.SimpleImmutableEntry;
+import java.util.Collections;
+import java.util.HashMap;
+import java.util.List;
+import java.util.Map;
+import java.util.Map.Entry;
+import java.util.UUID;
+import java.util.function.BiConsumer;
+import java.util.function.Consumer;
+import java.util.stream.IntStream;
+
+import org.apache.arrow.flight.CallStatus;
+import org.apache.arrow.flight.Criteria;
+import org.apache.arrow.flight.FlightDescriptor;
+import org.apache.arrow.flight.FlightEndpoint;
+import org.apache.arrow.flight.FlightInfo;
+import org.apache.arrow.flight.FlightStream;
+import org.apache.arrow.flight.PutResult;
+import org.apache.arrow.flight.Result;
+import org.apache.arrow.flight.SchemaResult;
+import org.apache.arrow.flight.Ticket;
+import org.apache.arrow.flight.sql.FlightSqlProducer;
+import org.apache.arrow.flight.sql.SqlInfoBuilder;
+import org.apache.arrow.flight.sql.impl.FlightSql;
+import org.apache.arrow.flight.sql.impl.FlightSql.ActionClosePreparedStatementRequest;
+import org.apache.arrow.flight.sql.impl.FlightSql.ActionCreatePreparedStatementRequest;
+import org.apache.arrow.flight.sql.impl.FlightSql.ActionCreatePreparedStatementResult;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetCatalogs;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetCrossReference;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetDbSchemas;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetExportedKeys;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetImportedKeys;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetPrimaryKeys;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetSqlInfo;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetTableTypes;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandGetTables;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandPreparedStatementQuery;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandPreparedStatementUpdate;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandStatementQuery;
+import org.apache.arrow.flight.sql.impl.FlightSql.CommandStatementUpdate;
+import org.apache.arrow.flight.sql.impl.FlightSql.DoPutUpdateResult;
+import org.apache.arrow.flight.sql.impl.FlightSql.TicketStatementQuery;
+import org.apache.arrow.memory.ArrowBuf;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.util.Preconditions;
+import org.apache.arrow.vector.ipc.WriteChannel;
+import org.apache.arrow.vector.ipc.message.MessageSerializer;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.calcite.avatica.Meta.StatementType;
+
+import com.google.protobuf.Any;
+import com.google.protobuf.ByteString;
+import com.google.protobuf.Message;
+
+/**
+ * An ad-hoc {@link FlightSqlProducer} for tests.
+ */
+public final class MockFlightSqlProducer implements FlightSqlProducer {
+
+  private final Map<String, Entry<Schema, List<UUID>>> queryResults = new HashMap<>();
+  private final Map<UUID, Consumer<ServerStreamListener>> selectResultProviders = new HashMap<>();
+  private final Map<ByteString, String> preparedStatements = new HashMap<>();
+  private final Map<Message, Consumer<ServerStreamListener>> catalogQueriesResults =
+      new HashMap<>();
+  private final Map<String, BiConsumer<FlightStream, StreamListener<PutResult>>>
+      updateResultProviders =
+      new HashMap<>();
+  private SqlInfoBuilder sqlInfoBuilder = new SqlInfoBuilder();
+
+  private static FlightInfo getFightInfoExportedAndImportedKeys(final Message message,
+                                                                final FlightDescriptor descriptor) {
+    return getFlightInfo(message, Schemas.GET_IMPORTED_KEYS_SCHEMA, descriptor);
+  }
+
+  private static FlightInfo getFlightInfo(final Message message, final Schema schema,
+                                          final FlightDescriptor descriptor) {
+    return new FlightInfo(
+        schema,
+        descriptor,
+        Collections.singletonList(new FlightEndpoint(new Ticket(Any.pack(message).toByteArray()))),
+        -1, -1);
+  }
+
+  public static ByteBuffer serializeSchema(final Schema schema) {
+    final ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
+    try {
+      MessageSerializer.serialize(new WriteChannel(Channels.newChannel(outputStream)), schema);
+
+      return ByteBuffer.wrap(outputStream.toByteArray());
+    } catch (final IOException e) {
+      throw new RuntimeException("Failed to serialize schema", e);
+    }
+  }
+
+  /**
+   * Registers a new {@link StatementType#SELECT} SQL query.
+   *
+   * @param sqlCommand      the SQL command under which to register the new query.
+   * @param schema          the schema to use for the query result.
+   * @param resultProviders the result provider for this query.
+   */
+  public void addSelectQuery(final String sqlCommand, final Schema schema,
+                             final List<Consumer<ServerStreamListener>> resultProviders) {
+    final int providers = resultProviders.size();
+    final List<UUID> uuids =
+        IntStream.range(0, providers)
+            .mapToObj(index -> new UUID(sqlCommand.hashCode(), Integer.hashCode(index)))
+            .collect(toList());
+    queryResults.put(sqlCommand, new SimpleImmutableEntry<>(schema, uuids));
+    IntStream.range(0, providers)
+        .forEach(
+            index -> this.selectResultProviders.put(uuids.get(index), resultProviders.get(index)));
+  }
+
+  /**
+   * Registers a new {@link StatementType#UPDATE} SQL query.
+   *
+   * @param sqlCommand  the SQL command.
+   * @param updatedRows the number of rows affected.
+   */
+  public void addUpdateQuery(final String sqlCommand, final long updatedRows) {
+    addUpdateQuery(sqlCommand, ((flightStream, putResultStreamListener) -> {
+      final DoPutUpdateResult result =
+          DoPutUpdateResult.newBuilder().setRecordCount(updatedRows).build();
+      try (final BufferAllocator allocator = new RootAllocator(Long.MAX_VALUE);
+           final ArrowBuf buffer = allocator.buffer(result.getSerializedSize())) {
+        buffer.writeBytes(result.toByteArray());
+        putResultStreamListener.onNext(PutResult.metadata(buffer));
+      } catch (final Throwable throwable) {
+        putResultStreamListener.onError(throwable);
+      } finally {
+        putResultStreamListener.onCompleted();
+      }
+    }));
+  }
+
+  /**
+   * Adds a catalog query to the results.
+   *
+   * @param message         the {@link Message} corresponding to the catalog query request type to register.
+   * @param resultsProvider the results provider.
+   */
+  public void addCatalogQuery(final Message message,
+                              final Consumer<ServerStreamListener> resultsProvider) {
+    catalogQueriesResults.put(message, resultsProvider);
+  }
+
+  /**
+   * Registers a new {@link StatementType#UPDATE} SQL query.
+   *
+   * @param sqlCommand      the SQL command.
+   * @param resultsProvider consumer for producing update results.
+   */
+  void addUpdateQuery(final String sqlCommand,
+                      final BiConsumer<FlightStream, StreamListener<PutResult>> resultsProvider) {
+    Preconditions.checkState(
+        updateResultProviders.putIfAbsent(sqlCommand, resultsProvider) == null,
+        format("Attempted to overwrite pre-existing query: <%s>.", sqlCommand));
+  }
+
+  @Override
+  public void createPreparedStatement(final ActionCreatePreparedStatementRequest request,
+                                      final CallContext callContext,
+                                      final StreamListener<Result> listener) {
+    try {
+      final ByteString preparedStatementHandle =
+          copyFrom(randomUUID().toString().getBytes(StandardCharsets.UTF_8));
+      final String query = request.getQuery();
+
+      final ActionCreatePreparedStatementResult.Builder resultBuilder =
+          ActionCreatePreparedStatementResult.newBuilder()
+              .setPreparedStatementHandle(preparedStatementHandle);
+
+      final Entry<Schema, List<UUID>> entry = queryResults.get(query);
+      if (entry != null) {
+        preparedStatements.put(preparedStatementHandle, query);
+
+        final Schema datasetSchema = entry.getKey();
+        final ByteString datasetSchemaBytes =
+            ByteString.copyFrom(serializeSchema(datasetSchema));
+
+        resultBuilder.setDatasetSchema(datasetSchemaBytes);
+      } else if (updateResultProviders.containsKey(query)) {
+        preparedStatements.put(preparedStatementHandle, query);
+
+      } else {
+        listener.onError(
+            CallStatus.INVALID_ARGUMENT.withDescription("Query not found").toRuntimeException());
+        return;
+      }
+
+      listener.onNext(new Result(pack(resultBuilder.build()).toByteArray()));
+    } catch (final Throwable t) {
+      listener.onError(t);
+    } finally {
+      listener.onCompleted();
+    }
+  }
+
+  @Override
+  public void closePreparedStatement(
+      final ActionClosePreparedStatementRequest actionClosePreparedStatementRequest,
+      final CallContext callContext, final StreamListener<Result> streamListener) {
+    // TODO Implement this method.
+    streamListener.onCompleted();
+  }
+
+  @Override
+  public FlightInfo getFlightInfoStatement(final CommandStatementQuery commandStatementQuery,
+                                           final CallContext callContext,
+                                           final FlightDescriptor flightDescriptor) {
+    final String query = commandStatementQuery.getQuery();
+    final Entry<Schema, List<UUID>> queryInfo =
+        Preconditions.checkNotNull(queryResults.get(query),
+            format("Query not registered: <%s>.", query));
+    final List<FlightEndpoint> endpoints =
+        queryInfo.getValue().stream()
+            .map(TicketConversionUtils::getTicketBytesFromUuid)
+            .map(TicketConversionUtils::getTicketStatementQueryFromHandle)
+            .map(TicketConversionUtils::getEndpointFromMessage)
+            .collect(toList());
+    return new FlightInfo(queryInfo.getKey(), flightDescriptor, endpoints, -1, -1);
+  }
+
+  @Override
+  public FlightInfo getFlightInfoPreparedStatement(
+      final CommandPreparedStatementQuery commandPreparedStatementQuery,
+      final CallContext callContext,
+      final FlightDescriptor flightDescriptor) {
+    final ByteString preparedStatementHandle =
+        commandPreparedStatementQuery.getPreparedStatementHandle();
+
+    final String query = Preconditions.checkNotNull(
+        preparedStatements.get(preparedStatementHandle),
+        format("No query registered under handle: <%s>.", preparedStatementHandle));
+    final Entry<Schema, List<UUID>> queryInfo =
+        Preconditions.checkNotNull(queryResults.get(query),
+            format("Query not registered: <%s>.", query));
+    final List<FlightEndpoint> endpoints =
+        queryInfo.getValue().stream()
+            .map(TicketConversionUtils::getTicketBytesFromUuid)
+            .map(TicketConversionUtils::getCommandPreparedStatementQueryFromHandle)
+            .map(TicketConversionUtils::getEndpointFromMessage)
+            .collect(toList());
+    return new FlightInfo(queryInfo.getKey(), flightDescriptor, endpoints, -1, -1);
+  }
+
+  @Override
+  public SchemaResult getSchemaStatement(final CommandStatementQuery commandStatementQuery,
+                                         final CallContext callContext,
+                                         final FlightDescriptor flightDescriptor) {
+    final String query = commandStatementQuery.getQuery();
+    final Entry<Schema, List<UUID>> queryInfo =
+        Preconditions.checkNotNull(queryResults.get(query),
+            format("Query not registered: <%s>.", query));
+
+    return new SchemaResult(queryInfo.getKey());
+  }
+
+  @Override
+  public void getStreamStatement(final TicketStatementQuery ticketStatementQuery,
+                                 final CallContext callContext,
+                                 final ServerStreamListener serverStreamListener) {
+    final UUID uuid = UUID.fromString(ticketStatementQuery.getStatementHandle().toStringUtf8());
+    Preconditions.checkNotNull(
+            selectResultProviders.get(uuid),
+            "No consumer was registered for the specified UUID: <%s>.", uuid)
+        .accept(serverStreamListener);
+  }
+
+  @Override
+  public void getStreamPreparedStatement(
+      final CommandPreparedStatementQuery commandPreparedStatementQuery,
+      final CallContext callContext,
+      final ServerStreamListener serverStreamListener) {
+    final UUID uuid =
+        UUID.fromString(commandPreparedStatementQuery.getPreparedStatementHandle().toStringUtf8());
+    Preconditions.checkNotNull(
+            selectResultProviders.get(uuid),
+            "No consumer was registered for the specified UUID: <%s>.", uuid)
+        .accept(serverStreamListener);
+  }
+
+  @Override
+  public Runnable acceptPutStatement(final CommandStatementUpdate commandStatementUpdate,
+                                     final CallContext callContext,
+                                     final FlightStream flightStream,
+                                     final StreamListener<PutResult> streamListener) {
+    return () -> {
+      final String query = commandStatementUpdate.getQuery();
+      final BiConsumer<FlightStream, StreamListener<PutResult>> resultProvider =
+          Preconditions.checkNotNull(
+              updateResultProviders.get(query),
+              format("No consumer found for query: <%s>.", query));
+      resultProvider.accept(flightStream, streamListener);
+    };
+  }
+
+  @Override
+  public Runnable acceptPutPreparedStatementUpdate(
+      final CommandPreparedStatementUpdate commandPreparedStatementUpdate,
+      final CallContext callContext, final FlightStream flightStream,
+      final StreamListener<PutResult> streamListener) {
+    final ByteString handle = commandPreparedStatementUpdate.getPreparedStatementHandle();
+    final String query = Preconditions.checkNotNull(
+        preparedStatements.get(handle),
+        format("No query registered under handle: <%s>.", handle));
+    return acceptPutStatement(
+        CommandStatementUpdate.newBuilder().setQuery(query).build(), callContext, flightStream,
+        streamListener);
+  }
+
+  @Override
+  public Runnable acceptPutPreparedStatementQuery(
+      final CommandPreparedStatementQuery commandPreparedStatementQuery,
+      final CallContext callContext, final FlightStream flightStream,
+      final StreamListener<PutResult> streamListener) {
+    // TODO Implement this method.
+    throw CallStatus.UNIMPLEMENTED.toRuntimeException();
+  }
+
+  @Override
+  public FlightInfo getFlightInfoSqlInfo(final CommandGetSqlInfo commandGetSqlInfo,
+                                         final CallContext callContext,
+                                         final FlightDescriptor flightDescriptor) {
+    return getFlightInfo(commandGetSqlInfo, Schemas.GET_SQL_INFO_SCHEMA, flightDescriptor);
+  }
+
+  @Override
+  public void getStreamSqlInfo(final CommandGetSqlInfo commandGetSqlInfo,
+                               final CallContext callContext,
+                               final ServerStreamListener serverStreamListener) {
+    sqlInfoBuilder.send(commandGetSqlInfo.getInfoList(), serverStreamListener);
+  }
+
+  @Override
+  public FlightInfo getFlightInfoTypeInfo(FlightSql.CommandGetXdbcTypeInfo request, CallContext context,
+                                          FlightDescriptor descriptor) {
+    // TODO Implement this
+    return null;
+  }
+
+  @Override
+  public void getStreamTypeInfo(FlightSql.CommandGetXdbcTypeInfo request, CallContext context,
+                                ServerStreamListener listener) {
+    // TODO Implement this
+  }
+
+  @Override
+  public FlightInfo getFlightInfoCatalogs(final CommandGetCatalogs commandGetCatalogs,
+                                          final CallContext callContext,
+                                          final FlightDescriptor flightDescriptor) {
+    return getFlightInfo(commandGetCatalogs, Schemas.GET_CATALOGS_SCHEMA, flightDescriptor);
+  }
+
+  @Override
+  public void getStreamCatalogs(final CallContext callContext,
+                                final ServerStreamListener serverStreamListener) {
+    final CommandGetCatalogs command = CommandGetCatalogs.getDefaultInstance();
+    getStreamCatalogFunctions(command, serverStreamListener);
+  }
+
+  @Override
+  public FlightInfo getFlightInfoSchemas(final CommandGetDbSchemas commandGetSchemas,
+                                         final CallContext callContext,
+                                         final FlightDescriptor flightDescriptor) {
+    return getFlightInfo(commandGetSchemas, Schemas.GET_SCHEMAS_SCHEMA, flightDescriptor);
+  }
+
+  @Override
+  public void getStreamSchemas(final CommandGetDbSchemas commandGetSchemas,
+                               final CallContext callContext,
+                               final ServerStreamListener serverStreamListener) {
+    getStreamCatalogFunctions(commandGetSchemas, serverStreamListener);
+  }
+
+  @Override
+  public FlightInfo getFlightInfoTables(final CommandGetTables commandGetTables,
+                                        final CallContext callContext,
+                                        final FlightDescriptor flightDescriptor) {
+    return getFlightInfo(commandGetTables, Schemas.GET_TABLES_SCHEMA_NO_SCHEMA, flightDescriptor);
+  }
+
+  @Override
+  public void getStreamTables(final CommandGetTables commandGetTables,
+                              final CallContext callContext,
+                              final ServerStreamListener serverStreamListener) {
+    getStreamCatalogFunctions(commandGetTables, serverStreamListener);
+  }
+
+  @Override
+  public FlightInfo getFlightInfoTableTypes(final CommandGetTableTypes commandGetTableTypes,
+                                            final CallContext callContext,
+                                            final FlightDescriptor flightDescriptor) {
+    return getFlightInfo(commandGetTableTypes, Schemas.GET_TABLE_TYPES_SCHEMA, flightDescriptor);
+  }
+
+  @Override
+  public void getStreamTableTypes(final CallContext callContext,
+                                  final ServerStreamListener serverStreamListener) {
+    final CommandGetTableTypes command = CommandGetTableTypes.getDefaultInstance();
+    getStreamCatalogFunctions(command, serverStreamListener);
+  }
+
+  @Override
+  public FlightInfo getFlightInfoPrimaryKeys(final CommandGetPrimaryKeys commandGetPrimaryKeys,
+                                             final CallContext callContext,
+                                             final FlightDescriptor flightDescriptor) {
+    return getFlightInfo(commandGetPrimaryKeys, Schemas.GET_PRIMARY_KEYS_SCHEMA, flightDescriptor);
+  }
+
+  @Override
+  public void getStreamPrimaryKeys(final CommandGetPrimaryKeys commandGetPrimaryKeys,
+                                   final CallContext callContext,
+                                   final ServerStreamListener serverStreamListener) {
+    getStreamCatalogFunctions(commandGetPrimaryKeys, serverStreamListener);
+  }
+
+  @Override
+  public FlightInfo getFlightInfoExportedKeys(final CommandGetExportedKeys commandGetExportedKeys,
+                                              final CallContext callContext,
+                                              final FlightDescriptor flightDescriptor) {
+    return getFightInfoExportedAndImportedKeys(commandGetExportedKeys, flightDescriptor);
+  }
+
+  @Override
+  public FlightInfo getFlightInfoImportedKeys(final CommandGetImportedKeys commandGetImportedKeys,
+                                              final CallContext callContext,
+                                              final FlightDescriptor flightDescriptor) {
+    return getFightInfoExportedAndImportedKeys(commandGetImportedKeys, flightDescriptor);
+  }
+
+  @Override
+  public FlightInfo getFlightInfoCrossReference(
+      final CommandGetCrossReference commandGetCrossReference,
+      final CallContext callContext,
+      final FlightDescriptor flightDescriptor) {
+    return getFightInfoExportedAndImportedKeys(commandGetCrossReference, flightDescriptor);
+  }
+
+  @Override
+  public void getStreamExportedKeys(final CommandGetExportedKeys commandGetExportedKeys,
+                                    final CallContext callContext,
+                                    final ServerStreamListener serverStreamListener) {
+    getStreamCatalogFunctions(commandGetExportedKeys, serverStreamListener);
+  }
+
+  @Override
+  public void getStreamImportedKeys(final CommandGetImportedKeys commandGetImportedKeys,
+                                    final CallContext callContext,
+                                    final ServerStreamListener serverStreamListener) {
+    getStreamCatalogFunctions(commandGetImportedKeys, serverStreamListener);
+  }
+
+  @Override
+  public void getStreamCrossReference(final CommandGetCrossReference commandGetCrossReference,
+                                      final CallContext callContext,
+                                      final ServerStreamListener serverStreamListener) {
+    getStreamCatalogFunctions(commandGetCrossReference, serverStreamListener);
+  }
+
+  @Override
+  public void close() {
+    // TODO No-op.
+  }
+
+  @Override
+  public void listFlights(final CallContext callContext, final Criteria criteria,
+                          final StreamListener<FlightInfo> streamListener) {
+    // TODO Implement this method.
+    throw CallStatus.UNIMPLEMENTED.toRuntimeException();
+  }
+
+  private void getStreamCatalogFunctions(final Message ticket,
+                                         final ServerStreamListener serverStreamListener) {
+    Preconditions.checkNotNull(
+            catalogQueriesResults.get(ticket),
+            format("Query not registered for ticket: <%s>", ticket))
+        .accept(serverStreamListener);
+  }
+
+  public SqlInfoBuilder getSqlInfoBuilder() {
+    return sqlInfoBuilder;
+  }
+
+  private static final class TicketConversionUtils {
+    private TicketConversionUtils() {
+      // Prevent instantiation.
+    }
+
+    private static ByteString getTicketBytesFromUuid(final UUID uuid) {
+      return ByteString.copyFromUtf8(uuid.toString());
+    }
+
+    private static TicketStatementQuery getTicketStatementQueryFromHandle(final ByteString handle) {
+      return TicketStatementQuery.newBuilder().setStatementHandle(handle).build();
+    }
+
+    private static CommandPreparedStatementQuery getCommandPreparedStatementQueryFromHandle(
+        final ByteString handle) {
+      return CommandPreparedStatementQuery.newBuilder().setPreparedStatementHandle(handle).build();
+    }
+
+    private static FlightEndpoint getEndpointFromMessage(final Message message) {
+      return new FlightEndpoint(new Ticket(Any.pack(message).toByteArray()));
+    }
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ResultSetTestUtils.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ResultSetTestUtils.java
new file mode 100644
index 00000000000..d5ce7fb8fb3
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ResultSetTestUtils.java
@@ -0,0 +1,213 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static java.util.stream.IntStream.range;
+import static org.hamcrest.CoreMatchers.is;
+
+import java.sql.ResultSet;
+import java.sql.SQLException;
+import java.util.ArrayList;
+import java.util.List;
+import java.util.function.Function;
+
+import org.apache.arrow.util.Preconditions;
+import org.junit.rules.ErrorCollector;
+
+/**
+ * Utility class for testing that require asserting that the values in a {@link ResultSet} are expected.
+ */
+public final class ResultSetTestUtils {
+  private final ErrorCollector collector;
+
+  public ResultSetTestUtils(final ErrorCollector collector) {
+    this.collector =
+        Preconditions.checkNotNull(collector, "Error collector cannot be null.");
+  }
+
+  /**
+   * Checks that the values (rows and columns) in the provided {@link ResultSet} are expected.
+   *
+   * @param resultSet       the {@code ResultSet} to assert.
+   * @param expectedResults the rows and columns representing the only values the {@code resultSet}
+   *                        is expected to have.
+   * @param collector       the {@link ErrorCollector} to use for asserting that the {@code resultSet}
+   *                        has the expected values.
+   * @param <T>             the type to be found in the expected results for the {@code resultSet}.
+   * @throws SQLException if querying the {@code ResultSet} fails at some point unexpectedly.
+   */
+  public static <T> void testData(final ResultSet resultSet, final List<List<T>> expectedResults,
+                                  final ErrorCollector collector)
+      throws SQLException {
+    testData(
+        resultSet,
+        range(1, resultSet.getMetaData().getColumnCount() + 1).toArray(),
+        expectedResults,
+        collector);
+  }
+
+  /**
+   * Checks that the values (rows and columns) in the provided {@link ResultSet} are expected.
+   *
+   * @param resultSet       the {@code ResultSet} to assert.
+   * @param columnNames     the column names to fetch in the {@code ResultSet} for comparison.
+   * @param expectedResults the rows and columns representing the only values the {@code resultSet}
+   *                        is expected to have.
+   * @param collector       the {@link ErrorCollector} to use for asserting that the {@code resultSet}
+   *                        has the expected values.
+   * @param <T>             the type to be found in the expected results for the {@code resultSet}.
+   * @throws SQLException if querying the {@code ResultSet} fails at some point unexpectedly.
+   */
+  @SuppressWarnings("unchecked")
+  public static <T> void testData(final ResultSet resultSet, final List<String> columnNames,
+                                  final List<List<T>> expectedResults,
+                                  final ErrorCollector collector)
+      throws SQLException {
+    testData(
+        resultSet,
+        data -> {
+          final List<T> columns = new ArrayList<>();
+          for (final String columnName : columnNames) {
+            try {
+              columns.add((T) resultSet.getObject(columnName));
+            } catch (final SQLException e) {
+              collector.addError(e);
+            }
+          }
+          return columns;
+        },
+        expectedResults,
+        collector);
+  }
+
+  /**
+   * Checks that the values (rows and columns) in the provided {@link ResultSet} are expected.
+   *
+   * @param resultSet       the {@code ResultSet} to assert.
+   * @param columnIndices   the column indices to fetch in the {@code ResultSet} for comparison.
+   * @param expectedResults the rows and columns representing the only values the {@code resultSet}
+   *                        is expected to have.
+   * @param collector       the {@link ErrorCollector} to use for asserting that the {@code resultSet}
+   *                        has the expected values.
+   * @param <T>             the type to be found in the expected results for the {@code resultSet}.
+   * @throws SQLException if querying the {@code ResultSet} fails at some point unexpectedly.
+   */
+  @SuppressWarnings("unchecked")
+  public static <T> void testData(final ResultSet resultSet, final int[] columnIndices,
+                                  final List<List<T>> expectedResults,
+                                  final ErrorCollector collector)
+      throws SQLException {
+    testData(
+        resultSet,
+        data -> {
+          final List<T> columns = new ArrayList<>();
+          for (final int columnIndex : columnIndices) {
+            try {
+              columns.add((T) resultSet.getObject(columnIndex));
+            } catch (final SQLException e) {
+              collector.addError(e);
+            }
+          }
+          return columns;
+        },
+        expectedResults,
+        collector);
+  }
+
+  /**
+   * Checks that the values (rows and columns) in the provided {@link ResultSet} are expected.
+   *
+   * @param resultSet       the {@code ResultSet} to assert.
+   * @param dataConsumer    the column indices to fetch in the {@code ResultSet} for comparison.
+   * @param expectedResults the rows and columns representing the only values the {@code resultSet}
+   *                        is expected to have.
+   * @param collector       the {@link ErrorCollector} to use for asserting that the {@code resultSet}
+   *                        has the expected values.
+   * @param <T>             the type to be found in the expected results for the {@code resultSet}.
+   * @throws SQLException if querying the {@code ResultSet} fails at some point unexpectedly.
+   */
+  public static <T> void testData(final ResultSet resultSet,
+                                  final Function<ResultSet, List<T>> dataConsumer,
+                                  final List<List<T>> expectedResults,
+                                  final ErrorCollector collector)
+      throws SQLException {
+    final List<List<T>> actualResults = new ArrayList<>();
+    while (resultSet.next()) {
+      actualResults.add(dataConsumer.apply(resultSet));
+    }
+    collector.checkThat(actualResults, is(expectedResults));
+  }
+
+  /**
+   * Checks that the values (rows and columns) in the provided {@link ResultSet} are expected.
+   *
+   * @param resultSet       the {@code ResultSet} to assert.
+   * @param expectedResults the rows and columns representing the only values the {@code resultSet} is expected to have.
+   * @param <T>             the type to be found in the expected results for the {@code resultSet}.
+   * @throws SQLException if querying the {@code ResultSet} fails at some point unexpectedly.
+   */
+  public <T> void testData(final ResultSet resultSet, final List<List<T>> expectedResults)
+      throws SQLException {
+    testData(resultSet, expectedResults, collector);
+  }
+
+  /**
+   * Checks that the values (rows and columns) in the provided {@link ResultSet} are expected.
+   *
+   * @param resultSet       the {@code ResultSet} to assert.
+   * @param columnNames     the column names to fetch in the {@code ResultSet} for comparison.
+   * @param expectedResults the rows and columns representing the only values the {@code resultSet} is expected to have.
+   * @param <T>             the type to be found in the expected results for the {@code resultSet}.
+   * @throws SQLException if querying the {@code ResultSet} fails at some point unexpectedly.
+   */
+  @SuppressWarnings("unchecked")
+  public <T> void testData(final ResultSet resultSet, final List<String> columnNames,
+                           final List<List<T>> expectedResults) throws SQLException {
+    testData(resultSet, columnNames, expectedResults, collector);
+  }
+
+  /**
+   * Checks that the values (rows and columns) in the provided {@link ResultSet} are expected.
+   *
+   * @param resultSet       the {@code ResultSet} to assert.
+   * @param columnIndices   the column indices to fetch in the {@code ResultSet} for comparison.
+   * @param expectedResults the rows and columns representing the only values the {@code resultSet} is expected to have.
+   * @param <T>             the type to be found in the expected results for the {@code resultSet}.
+   * @throws SQLException if querying the {@code ResultSet} fails at some point unexpectedly.
+   */
+  @SuppressWarnings("unchecked")
+  public <T> void testData(final ResultSet resultSet, final int[] columnIndices,
+                           final List<List<T>> expectedResults) throws SQLException {
+    testData(resultSet, columnIndices, expectedResults, collector);
+  }
+
+  /**
+   * Checks that the values (rows and columns) in the provided {@link ResultSet} are expected.
+   *
+   * @param resultSet       the {@code ResultSet} to assert.
+   * @param dataConsumer    the column indices to fetch in the {@code ResultSet} for comparison.
+   * @param expectedResults the rows and columns representing the only values the {@code resultSet} is expected to have.
+   * @param <T>             the type to be found in the expected results for the {@code resultSet}.
+   * @throws SQLException if querying the {@code ResultSet} fails at some point unexpectedly.
+   */
+  public <T> void testData(final ResultSet resultSet,
+                           final Function<ResultSet, List<T>> dataConsumer,
+                           final List<List<T>> expectedResults) throws SQLException {
+    testData(resultSet, dataConsumer, expectedResults, collector);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/RootAllocatorTestRule.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/RootAllocatorTestRule.java
new file mode 100644
index 00000000000..a200fc8d39c
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/RootAllocatorTestRule.java
@@ -0,0 +1,820 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import java.math.BigDecimal;
+import java.util.Random;
+import java.util.concurrent.TimeUnit;
+import java.util.stream.IntStream;
+
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.vector.BigIntVector;
+import org.apache.arrow.vector.BitVector;
+import org.apache.arrow.vector.DateDayVector;
+import org.apache.arrow.vector.DateMilliVector;
+import org.apache.arrow.vector.Decimal256Vector;
+import org.apache.arrow.vector.DecimalVector;
+import org.apache.arrow.vector.FixedSizeBinaryVector;
+import org.apache.arrow.vector.Float4Vector;
+import org.apache.arrow.vector.Float8Vector;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.LargeVarBinaryVector;
+import org.apache.arrow.vector.SmallIntVector;
+import org.apache.arrow.vector.TimeMicroVector;
+import org.apache.arrow.vector.TimeMilliVector;
+import org.apache.arrow.vector.TimeNanoVector;
+import org.apache.arrow.vector.TimeSecVector;
+import org.apache.arrow.vector.TimeStampMicroTZVector;
+import org.apache.arrow.vector.TimeStampMicroVector;
+import org.apache.arrow.vector.TimeStampMilliTZVector;
+import org.apache.arrow.vector.TimeStampMilliVector;
+import org.apache.arrow.vector.TimeStampNanoTZVector;
+import org.apache.arrow.vector.TimeStampNanoVector;
+import org.apache.arrow.vector.TimeStampSecTZVector;
+import org.apache.arrow.vector.TimeStampSecVector;
+import org.apache.arrow.vector.TinyIntVector;
+import org.apache.arrow.vector.UInt1Vector;
+import org.apache.arrow.vector.UInt2Vector;
+import org.apache.arrow.vector.UInt4Vector;
+import org.apache.arrow.vector.UInt8Vector;
+import org.apache.arrow.vector.VarBinaryVector;
+import org.apache.arrow.vector.complex.FixedSizeListVector;
+import org.apache.arrow.vector.complex.LargeListVector;
+import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.impl.UnionFixedSizeListWriter;
+import org.apache.arrow.vector.complex.impl.UnionLargeListWriter;
+import org.apache.arrow.vector.complex.impl.UnionListWriter;
+import org.junit.rules.TestRule;
+import org.junit.runner.Description;
+import org.junit.runners.model.Statement;
+
+public class RootAllocatorTestRule implements TestRule, AutoCloseable {
+
+  public static final byte MAX_VALUE = Byte.MAX_VALUE;
+  private final BufferAllocator rootAllocator = new RootAllocator();
+
+  private final Random random = new Random(10);
+
+  @Override
+  public Statement apply(Statement base, Description description) {
+    return new Statement() {
+      @Override
+      public void evaluate() throws Throwable {
+        try {
+          base.evaluate();
+        } finally {
+          close();
+        }
+      }
+    };
+  }
+
+  public BufferAllocator getRootAllocator() {
+    return rootAllocator;
+  }
+
+  @Override
+  public void close() throws Exception {
+    this.rootAllocator.getChildAllocators().forEach(BufferAllocator::close);
+    AutoCloseables.close(this.rootAllocator);
+  }
+
+  /**
+   * Create a Float8Vector to be used in the accessor tests.
+   *
+   * @return Float8Vector
+   */
+  public Float8Vector createFloat8Vector() {
+    double[] doubleVectorValues = new double[] {
+        0,
+        1,
+        -1,
+        Byte.MIN_VALUE,
+        Byte.MAX_VALUE,
+        Short.MIN_VALUE,
+        Short.MAX_VALUE,
+        Integer.MIN_VALUE,
+        Integer.MAX_VALUE,
+        Long.MIN_VALUE,
+        Long.MAX_VALUE,
+        Float.MAX_VALUE,
+        -Float.MAX_VALUE,
+        Float.NEGATIVE_INFINITY,
+        Float.POSITIVE_INFINITY,
+        Float.MIN_VALUE,
+        -Float.MIN_VALUE,
+        Double.MAX_VALUE,
+        -Double.MAX_VALUE,
+        Double.NEGATIVE_INFINITY,
+        Double.POSITIVE_INFINITY,
+        Double.MIN_VALUE,
+        -Double.MIN_VALUE,
+    };
+
+    Float8Vector result = new Float8Vector("", this.getRootAllocator());
+    result.setValueCount(MAX_VALUE);
+    for (int i = 0; i < MAX_VALUE; i++) {
+      if (i < doubleVectorValues.length) {
+        result.setSafe(i, doubleVectorValues[i]);
+      } else {
+        result.setSafe(i, random.nextDouble());
+      }
+    }
+
+    return result;
+  }
+
+  public Float8Vector createFloat8VectorForNullTests() {
+    final Float8Vector float8Vector = new Float8Vector("ID", this.getRootAllocator());
+    float8Vector.allocateNew(1);
+    float8Vector.setNull(0);
+    float8Vector.setValueCount(1);
+
+    return float8Vector;
+  }
+
+  /**
+   * Create a Float4Vector to be used in the accessor tests.
+   *
+   * @return Float4Vector
+   */
+  public Float4Vector createFloat4Vector() {
+
+    float[] floatVectorValues = new float[] {
+        0,
+        1,
+        -1,
+        Byte.MIN_VALUE,
+        Byte.MAX_VALUE,
+        Short.MIN_VALUE,
+        Short.MAX_VALUE,
+        Integer.MIN_VALUE,
+        Integer.MAX_VALUE,
+        Long.MIN_VALUE,
+        Long.MAX_VALUE,
+        Float.MAX_VALUE,
+        -Float.MAX_VALUE,
+        Float.NEGATIVE_INFINITY,
+        Float.POSITIVE_INFINITY,
+        Float.MIN_VALUE,
+        -Float.MIN_VALUE,
+    };
+
+    Float4Vector result = new Float4Vector("", this.getRootAllocator());
+    result.setValueCount(MAX_VALUE);
+    for (int i = 0; i < MAX_VALUE; i++) {
+      if (i < floatVectorValues.length) {
+        result.setSafe(i, floatVectorValues[i]);
+      } else {
+        result.setSafe(i, random.nextFloat());
+      }
+    }
+
+    return result;
+  }
+
+  /**
+   * Create a IntVector to be used in the accessor tests.
+   *
+   * @return IntVector
+   */
+  public IntVector createIntVector() {
+
+    int[] intVectorValues = new int[] {
+        0,
+        1,
+        -1,
+        Byte.MIN_VALUE,
+        Byte.MAX_VALUE,
+        Short.MIN_VALUE,
+        Short.MAX_VALUE,
+        Integer.MIN_VALUE,
+        Integer.MAX_VALUE,
+    };
+
+    IntVector result = new IntVector("", this.getRootAllocator());
+    result.setValueCount(MAX_VALUE);
+    for (int i = 0; i < MAX_VALUE; i++) {
+      if (i < intVectorValues.length) {
+        result.setSafe(i, intVectorValues[i]);
+      } else {
+        result.setSafe(i, random.nextInt());
+      }
+    }
+
+    return result;
+  }
+
+  /**
+   * Create a SmallIntVector to be used in the accessor tests.
+   *
+   * @return SmallIntVector
+   */
+  public SmallIntVector createSmallIntVector() {
+
+    short[] smallIntVectorValues = new short[] {
+        0,
+        1,
+        -1,
+        Byte.MIN_VALUE,
+        Byte.MAX_VALUE,
+        Short.MIN_VALUE,
+        Short.MAX_VALUE,
+    };
+
+    SmallIntVector result = new SmallIntVector("", this.getRootAllocator());
+    result.setValueCount(MAX_VALUE);
+    for (int i = 0; i < MAX_VALUE; i++) {
+      if (i < smallIntVectorValues.length) {
+        result.setSafe(i, smallIntVectorValues[i]);
+      } else {
+        result.setSafe(i, random.nextInt(Short.MAX_VALUE));
+      }
+    }
+
+    return result;
+  }
+
+  /**
+   * Create a TinyIntVector to be used in the accessor tests.
+   *
+   * @return TinyIntVector
+   */
+  public TinyIntVector createTinyIntVector() {
+
+    byte[] byteVectorValues = new byte[] {
+        0,
+        1,
+        -1,
+        Byte.MIN_VALUE,
+        Byte.MAX_VALUE,
+    };
+
+    TinyIntVector result = new TinyIntVector("", this.getRootAllocator());
+    result.setValueCount(MAX_VALUE);
+    for (int i = 0; i < MAX_VALUE; i++) {
+      if (i < byteVectorValues.length) {
+        result.setSafe(i, byteVectorValues[i]);
+      } else {
+        result.setSafe(i, random.nextInt(Byte.MAX_VALUE));
+      }
+    }
+
+    return result;
+  }
+
+  /**
+   * Create a BigIntVector to be used in the accessor tests.
+   *
+   * @return BigIntVector
+   */
+  public BigIntVector createBigIntVector() {
+
+    long[] longVectorValues = new long[] {
+        0,
+        1,
+        -1,
+        Byte.MIN_VALUE,
+        Byte.MAX_VALUE,
+        Short.MIN_VALUE,
+        Short.MAX_VALUE,
+        Integer.MIN_VALUE,
+        Integer.MAX_VALUE,
+        Long.MIN_VALUE,
+        Long.MAX_VALUE,
+    };
+
+    BigIntVector result = new BigIntVector("", this.getRootAllocator());
+    result.setValueCount(MAX_VALUE);
+    for (int i = 0; i < MAX_VALUE; i++) {
+      if (i < longVectorValues.length) {
+        result.setSafe(i, longVectorValues[i]);
+      } else {
+        result.setSafe(i, random.nextLong());
+      }
+    }
+
+    return result;
+  }
+
+  /**
+   * Create a UInt1Vector to be used in the accessor tests.
+   *
+   * @return UInt1Vector
+   */
+  public UInt1Vector createUInt1Vector() {
+
+    short[] uInt1VectorValues = new short[] {
+        0,
+        1,
+        -1,
+        Byte.MIN_VALUE,
+        Byte.MAX_VALUE,
+    };
+
+    UInt1Vector result = new UInt1Vector("", this.getRootAllocator());
+    result.setValueCount(MAX_VALUE);
+    for (int i = 0; i < MAX_VALUE; i++) {
+      if (i < uInt1VectorValues.length) {
+        result.setSafe(i, uInt1VectorValues[i]);
+      } else {
+        result.setSafe(i, random.nextInt(0x100));
+      }
+    }
+
+    return result;
+  }
+
+  /**
+   * Create a UInt2Vector to be used in the accessor tests.
+   *
+   * @return UInt2Vector
+   */
+  public UInt2Vector createUInt2Vector() {
+
+    int[] uInt2VectorValues = new int[] {
+        0,
+        1,
+        -1,
+        Byte.MIN_VALUE,
+        Byte.MAX_VALUE,
+        Short.MIN_VALUE,
+        Short.MAX_VALUE,
+    };
+
+    UInt2Vector result = new UInt2Vector("", this.getRootAllocator());
+    result.setValueCount(MAX_VALUE);
+    for (int i = 0; i < MAX_VALUE; i++) {
+      if (i < uInt2VectorValues.length) {
+        result.setSafe(i, uInt2VectorValues[i]);
+      } else {
+        result.setSafe(i, random.nextInt(0x10000));
+      }
+    }
+
+    return result;
+  }
+
+  /**
+   * Create a UInt4Vector to be used in the accessor tests.
+   *
+   * @return UInt4Vector
+   */
+  public UInt4Vector createUInt4Vector() {
+
+
+    int[] uInt4VectorValues = new int[] {
+        0,
+        1,
+        -1,
+        Byte.MIN_VALUE,
+        Byte.MAX_VALUE,
+        Short.MIN_VALUE,
+        Short.MAX_VALUE,
+        Integer.MIN_VALUE,
+        Integer.MAX_VALUE
+    };
+
+    UInt4Vector result = new UInt4Vector("", this.getRootAllocator());
+    result.setValueCount(MAX_VALUE);
+    for (int i = 0; i < MAX_VALUE; i++) {
+      if (i < uInt4VectorValues.length) {
+        result.setSafe(i, uInt4VectorValues[i]);
+      } else {
+        result.setSafe(i, random.nextInt(Integer.MAX_VALUE));
+      }
+    }
+
+    return result;
+  }
+
+  /**
+   * Create a UInt8Vector to be used in the accessor tests.
+   *
+   * @return UInt8Vector
+   */
+  public UInt8Vector createUInt8Vector() {
+
+    long[] uInt8VectorValues = new long[] {
+        0,
+        1,
+        -1,
+        Byte.MIN_VALUE,
+        Byte.MAX_VALUE,
+        Short.MIN_VALUE,
+        Short.MAX_VALUE,
+        Integer.MIN_VALUE,
+        Integer.MAX_VALUE,
+        Long.MIN_VALUE,
+        Long.MAX_VALUE
+    };
+
+    UInt8Vector result = new UInt8Vector("", this.getRootAllocator());
+    result.setValueCount(MAX_VALUE);
+    for (int i = 0; i < MAX_VALUE; i++) {
+      if (i < uInt8VectorValues.length) {
+        result.setSafe(i, uInt8VectorValues[i]);
+      } else {
+        result.setSafe(i, random.nextLong());
+      }
+    }
+
+    return result;
+  }
+
+  /**
+   * Create a VarBinaryVector to be used in the accessor tests.
+   *
+   * @return VarBinaryVector
+   */
+  public VarBinaryVector createVarBinaryVector() {
+    return createVarBinaryVector("");
+  }
+
+  /**
+   * Create a VarBinaryVector to be used in the accessor tests.
+   *
+   * @return VarBinaryVector
+   */
+  public VarBinaryVector createVarBinaryVector(final String fieldName) {
+    VarBinaryVector valueVector = new VarBinaryVector(fieldName, this.getRootAllocator());
+    valueVector.allocateNew(3);
+    valueVector.setSafe(0, (fieldName + "__BINARY_DATA_0001").getBytes());
+    valueVector.setSafe(1, (fieldName + "__BINARY_DATA_0002").getBytes());
+    valueVector.setSafe(2, (fieldName + "__BINARY_DATA_0003").getBytes());
+    valueVector.setValueCount(3);
+
+    return valueVector;
+  }
+
+  /**
+   * Create a LargeVarBinaryVector to be used in the accessor tests.
+   *
+   * @return LargeVarBinaryVector
+   */
+  public LargeVarBinaryVector createLargeVarBinaryVector() {
+    LargeVarBinaryVector valueVector = new LargeVarBinaryVector("", this.getRootAllocator());
+    valueVector.allocateNew(3);
+    valueVector.setSafe(0, "BINARY_DATA_0001".getBytes());
+    valueVector.setSafe(1, "BINARY_DATA_0002".getBytes());
+    valueVector.setSafe(2, "BINARY_DATA_0003".getBytes());
+    valueVector.setValueCount(3);
+
+    return valueVector;
+  }
+
+  /**
+   * Create a FixedSizeBinaryVector to be used in the accessor tests.
+   *
+   * @return FixedSizeBinaryVector
+   */
+  public FixedSizeBinaryVector createFixedSizeBinaryVector() {
+    FixedSizeBinaryVector valueVector = new FixedSizeBinaryVector("", this.getRootAllocator(), 16);
+    valueVector.allocateNew(3);
+    valueVector.setSafe(0, "BINARY_DATA_0001".getBytes());
+    valueVector.setSafe(1, "BINARY_DATA_0002".getBytes());
+    valueVector.setSafe(2, "BINARY_DATA_0003".getBytes());
+    valueVector.setValueCount(3);
+
+    return valueVector;
+  }
+
+  /**
+   * Create a UInt8Vector to be used in the accessor tests.
+   *
+   * @return UInt8Vector
+   */
+  public DecimalVector createDecimalVector() {
+
+    BigDecimal[] bigDecimalValues = new BigDecimal[] {
+        new BigDecimal(0),
+        new BigDecimal(1),
+        new BigDecimal(-1),
+        new BigDecimal(Byte.MIN_VALUE),
+        new BigDecimal(Byte.MAX_VALUE),
+        new BigDecimal(-Short.MAX_VALUE),
+        new BigDecimal(Short.MIN_VALUE),
+        new BigDecimal(Integer.MIN_VALUE),
+        new BigDecimal(Integer.MAX_VALUE),
+        new BigDecimal(Long.MIN_VALUE),
+        new BigDecimal(-Long.MAX_VALUE),
+        new BigDecimal("170141183460469231731687303715884105727")
+    };
+
+    DecimalVector result = new DecimalVector("ID", this.getRootAllocator(), 39, 0);
+    result.setValueCount(MAX_VALUE);
+    for (int i = 0; i < MAX_VALUE; i++) {
+      if (i < bigDecimalValues.length) {
+        result.setSafe(i, bigDecimalValues[i]);
+      } else {
+        result.setSafe(i, random.nextLong());
+      }
+    }
+
+    return result;
+  }
+
+  /**
+   * Create a UInt8Vector to be used in the accessor tests.
+   *
+   * @return UInt8Vector
+   */
+  public Decimal256Vector createDecimal256Vector() {
+
+    BigDecimal[] bigDecimalValues = new BigDecimal[] {
+        new BigDecimal(0),
+        new BigDecimal(1),
+        new BigDecimal(-1),
+        new BigDecimal(Byte.MIN_VALUE),
+        new BigDecimal(Byte.MAX_VALUE),
+        new BigDecimal(-Short.MAX_VALUE),
+        new BigDecimal(Short.MIN_VALUE),
+        new BigDecimal(Integer.MIN_VALUE),
+        new BigDecimal(Integer.MAX_VALUE),
+        new BigDecimal(Long.MIN_VALUE),
+        new BigDecimal(-Long.MAX_VALUE),
+        new BigDecimal("170141183460469231731687303715884105727"),
+        new BigDecimal("17014118346046923173168234157303715884105727"),
+        new BigDecimal("1701411834604692317316823415265417303715884105727"),
+        new BigDecimal("-17014118346046923173168234152654115451237303715884105727"),
+        new BigDecimal("-17014118346046923173168234152654115451231545157303715884105727"),
+        new BigDecimal("1701411834604692315815656534152654115451231545157303715884105727"),
+        new BigDecimal("30560141183460469231581565634152654115451231545157303715884105727"),
+        new BigDecimal(
+            "57896044618658097711785492504343953926634992332820282019728792003956564819967"),
+        new BigDecimal(
+            "-56896044618658097711785492504343953926634992332820282019728792003956564819967")
+    };
+
+    Decimal256Vector result = new Decimal256Vector("ID", this.getRootAllocator(), 77, 0);
+    result.setValueCount(MAX_VALUE);
+    for (int i = 0; i < MAX_VALUE; i++) {
+      if (i < bigDecimalValues.length) {
+        result.setSafe(i, bigDecimalValues[i]);
+      } else {
+        result.setSafe(i, random.nextLong());
+      }
+    }
+
+    return result;
+  }
+
+  public TimeStampNanoVector createTimeStampNanoVector() {
+    TimeStampNanoVector valueVector = new TimeStampNanoVector("", this.getRootAllocator());
+    valueVector.allocateNew(2);
+    valueVector.setSafe(0, TimeUnit.MILLISECONDS.toNanos(1625702400000L));
+    valueVector.setSafe(1, TimeUnit.MILLISECONDS.toNanos(1625788800000L));
+    valueVector.setValueCount(2);
+
+    return valueVector;
+  }
+
+  public TimeStampNanoTZVector createTimeStampNanoTZVector(String timeZone) {
+    TimeStampNanoTZVector valueVector =
+        new TimeStampNanoTZVector("", this.getRootAllocator(), timeZone);
+    valueVector.allocateNew(2);
+    valueVector.setSafe(0, TimeUnit.MILLISECONDS.toNanos(1625702400000L));
+    valueVector.setSafe(1, TimeUnit.MILLISECONDS.toNanos(1625788800000L));
+    valueVector.setValueCount(2);
+
+    return valueVector;
+  }
+
+  public TimeStampMicroVector createTimeStampMicroVector() {
+    TimeStampMicroVector valueVector = new TimeStampMicroVector("", this.getRootAllocator());
+    valueVector.allocateNew(2);
+    valueVector.setSafe(0, TimeUnit.MILLISECONDS.toMicros(1625702400000L));
+    valueVector.setSafe(1, TimeUnit.MILLISECONDS.toMicros(1625788800000L));
+    valueVector.setValueCount(2);
+
+    return valueVector;
+  }
+
+  public TimeStampMicroTZVector createTimeStampMicroTZVector(String timeZone) {
+    TimeStampMicroTZVector valueVector =
+        new TimeStampMicroTZVector("", this.getRootAllocator(), timeZone);
+    valueVector.allocateNew(2);
+    valueVector.setSafe(0, TimeUnit.MILLISECONDS.toMicros(1625702400000L));
+    valueVector.setSafe(1, TimeUnit.MILLISECONDS.toMicros(1625788800000L));
+    valueVector.setValueCount(2);
+
+    return valueVector;
+  }
+
+  public TimeStampMilliVector createTimeStampMilliVector() {
+    TimeStampMilliVector valueVector = new TimeStampMilliVector("", this.getRootAllocator());
+    valueVector.allocateNew(2);
+    valueVector.setSafe(0, 1625702400000L);
+    valueVector.setSafe(1, 1625788800000L);
+    valueVector.setValueCount(2);
+
+    return valueVector;
+  }
+
+  public TimeStampMilliTZVector createTimeStampMilliTZVector(String timeZone) {
+    TimeStampMilliTZVector valueVector =
+        new TimeStampMilliTZVector("", this.getRootAllocator(), timeZone);
+    valueVector.allocateNew(2);
+    valueVector.setSafe(0, 1625702400000L);
+    valueVector.setSafe(1, 1625788800000L);
+    valueVector.setValueCount(2);
+
+    return valueVector;
+  }
+
+  public TimeStampSecVector createTimeStampSecVector() {
+    TimeStampSecVector valueVector = new TimeStampSecVector("", this.getRootAllocator());
+    valueVector.allocateNew(2);
+    valueVector.setSafe(0, TimeUnit.MILLISECONDS.toSeconds(1625702400000L));
+    valueVector.setSafe(1, TimeUnit.MILLISECONDS.toSeconds(1625788800000L));
+    valueVector.setValueCount(2);
+
+    return valueVector;
+  }
+
+  public TimeStampSecTZVector createTimeStampSecTZVector(String timeZone) {
+    TimeStampSecTZVector valueVector =
+        new TimeStampSecTZVector("", this.getRootAllocator(), timeZone);
+    valueVector.allocateNew(2);
+    valueVector.setSafe(0, TimeUnit.MILLISECONDS.toSeconds(1625702400000L));
+    valueVector.setSafe(1, TimeUnit.MILLISECONDS.toSeconds(1625788800000L));
+    valueVector.setValueCount(2);
+
+    return valueVector;
+  }
+
+  public BitVector createBitVector() {
+    BitVector valueVector = new BitVector("Value", this.getRootAllocator());
+    valueVector.allocateNew(2);
+    valueVector.setSafe(0, 0);
+    valueVector.setSafe(1, 1);
+    valueVector.setValueCount(2);
+
+    return valueVector;
+  }
+
+  public BitVector createBitVectorForNullTests() {
+    final BitVector bitVector = new BitVector("ID", this.getRootAllocator());
+    bitVector.allocateNew(2);
+    bitVector.setNull(0);
+    bitVector.setValueCount(1);
+
+    return bitVector;
+  }
+
+  public TimeNanoVector createTimeNanoVector() {
+    TimeNanoVector valueVector = new TimeNanoVector("", this.getRootAllocator());
+    valueVector.allocateNew(5);
+    valueVector.setSafe(0, 0);
+    valueVector.setSafe(1, 1_000_000_000L); // 1 second
+    valueVector.setSafe(2, 60 * 1_000_000_000L); // 1 minute
+    valueVector.setSafe(3, 60 * 60 * 1_000_000_000L); // 1 hour
+    valueVector.setSafe(4, (24 * 60 * 60 - 1) * 1_000_000_000L); // 23:59:59
+    valueVector.setValueCount(5);
+
+    return valueVector;
+  }
+
+  public TimeMicroVector createTimeMicroVector() {
+    TimeMicroVector valueVector = new TimeMicroVector("", this.getRootAllocator());
+    valueVector.allocateNew(5);
+    valueVector.setSafe(0, 0);
+    valueVector.setSafe(1, 1_000_000L); // 1 second
+    valueVector.setSafe(2, 60 * 1_000_000L); // 1 minute
+    valueVector.setSafe(3, 60 * 60 * 1_000_000L); // 1 hour
+    valueVector.setSafe(4, (24 * 60 * 60 - 1) * 1_000_000L); // 23:59:59
+    valueVector.setValueCount(5);
+
+    return valueVector;
+  }
+
+  public TimeMilliVector createTimeMilliVector() {
+    TimeMilliVector valueVector = new TimeMilliVector("", this.getRootAllocator());
+    valueVector.allocateNew(5);
+    valueVector.setSafe(0, 0);
+    valueVector.setSafe(1, 1_000); // 1 second
+    valueVector.setSafe(2, 60 * 1_000); // 1 minute
+    valueVector.setSafe(3, 60 * 60 * 1_000); // 1 hour
+    valueVector.setSafe(4, (24 * 60 * 60 - 1) * 1_000); // 23:59:59
+    valueVector.setValueCount(5);
+
+    return valueVector;
+  }
+
+  public TimeSecVector createTimeSecVector() {
+    TimeSecVector valueVector = new TimeSecVector("", this.getRootAllocator());
+    valueVector.allocateNew(5);
+    valueVector.setSafe(0, 0);
+    valueVector.setSafe(1, 1); // 1 second
+    valueVector.setSafe(2, 60); // 1 minute
+    valueVector.setSafe(3, 60 * 60); // 1 hour
+    valueVector.setSafe(4, (24 * 60 * 60 - 1)); // 23:59:59
+    valueVector.setValueCount(5);
+
+    return valueVector;
+  }
+
+  public DateDayVector createDateDayVector() {
+    DateDayVector valueVector = new DateDayVector("", this.getRootAllocator());
+    valueVector.allocateNew(2);
+    valueVector.setSafe(0, (int) TimeUnit.MILLISECONDS.toDays(1625702400000L));
+    valueVector.setSafe(1, (int) TimeUnit.MILLISECONDS.toDays(1625788800000L));
+    valueVector.setValueCount(2);
+
+    return valueVector;
+  }
+
+  public DateMilliVector createDateMilliVector() {
+    DateMilliVector valueVector = new DateMilliVector("", this.getRootAllocator());
+    valueVector.allocateNew(2);
+    valueVector.setSafe(0, 1625702400000L);
+    valueVector.setSafe(1, 1625788800000L);
+    valueVector.setValueCount(2);
+
+    return valueVector;
+  }
+
+  public ListVector createListVector() {
+    return createListVector("");
+  }
+
+  public ListVector createListVector(String fieldName) {
+    ListVector valueVector = ListVector.empty(fieldName, this.getRootAllocator());
+    valueVector.setInitialCapacity(MAX_VALUE);
+
+    UnionListWriter writer = valueVector.getWriter();
+
+    IntStream range = IntStream.range(0, MAX_VALUE);
+
+    range.forEach(row -> {
+      writer.startList();
+      writer.setPosition(row);
+      IntStream.range(0, 5).map(j -> j * row).forEach(writer::writeInt);
+      writer.setValueCount(5);
+      writer.endList();
+    });
+
+    valueVector.setValueCount(MAX_VALUE);
+
+    return valueVector;
+  }
+
+  public LargeListVector createLargeListVector() {
+    LargeListVector valueVector = LargeListVector.empty("", this.getRootAllocator());
+    valueVector.setInitialCapacity(MAX_VALUE);
+
+    UnionLargeListWriter writer = valueVector.getWriter();
+
+    IntStream range = IntStream.range(0, MAX_VALUE);
+
+    range.forEach(row -> {
+      writer.startList();
+      writer.setPosition(row);
+      IntStream.range(0, 5).map(j -> j * row).forEach(writer::writeInt);
+      writer.setValueCount(5);
+      writer.endList();
+    });
+
+    valueVector.setValueCount(MAX_VALUE);
+
+    return valueVector;
+  }
+
+  public FixedSizeListVector createFixedSizeListVector() {
+    FixedSizeListVector valueVector = FixedSizeListVector.empty("", 5, this.getRootAllocator());
+    valueVector.setInitialCapacity(MAX_VALUE);
+
+    UnionFixedSizeListWriter writer = valueVector.getWriter();
+
+    IntStream range = IntStream.range(0, MAX_VALUE);
+
+    range.forEach(row -> {
+      writer.startList();
+      writer.setPosition(row);
+      IntStream.range(0, 5).map(j -> j * row).forEach(writer::writeInt);
+      writer.setValueCount(5);
+      writer.endList();
+    });
+
+    valueVector.setValueCount(MAX_VALUE);
+
+    return valueVector;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/SqlTypesTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/SqlTypesTest.java
new file mode 100644
index 00000000000..5c7c873e55c
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/SqlTypesTest.java
@@ -0,0 +1,123 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static org.apache.arrow.driver.jdbc.utils.SqlTypes.getSqlTypeIdFromArrowType;
+import static org.apache.arrow.driver.jdbc.utils.SqlTypes.getSqlTypeNameFromArrowType;
+import static org.junit.Assert.assertEquals;
+
+import java.sql.Types;
+
+import org.apache.arrow.vector.types.DateUnit;
+import org.apache.arrow.vector.types.FloatingPointPrecision;
+import org.apache.arrow.vector.types.IntervalUnit;
+import org.apache.arrow.vector.types.TimeUnit;
+import org.apache.arrow.vector.types.UnionMode;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.junit.Test;
+
+public class SqlTypesTest {
+
+  @Test
+  public void testGetSqlTypeIdFromArrowType() {
+    assertEquals(Types.TINYINT, getSqlTypeIdFromArrowType(new ArrowType.Int(8, true)));
+    assertEquals(Types.SMALLINT, getSqlTypeIdFromArrowType(new ArrowType.Int(16, true)));
+    assertEquals(Types.INTEGER, getSqlTypeIdFromArrowType(new ArrowType.Int(32, true)));
+    assertEquals(Types.BIGINT, getSqlTypeIdFromArrowType(new ArrowType.Int(64, true)));
+
+    assertEquals(Types.BINARY, getSqlTypeIdFromArrowType(new ArrowType.FixedSizeBinary(1024)));
+    assertEquals(Types.VARBINARY, getSqlTypeIdFromArrowType(new ArrowType.Binary()));
+    assertEquals(Types.LONGVARBINARY, getSqlTypeIdFromArrowType(new ArrowType.LargeBinary()));
+
+    assertEquals(Types.VARCHAR, getSqlTypeIdFromArrowType(new ArrowType.Utf8()));
+    assertEquals(Types.LONGVARCHAR, getSqlTypeIdFromArrowType(new ArrowType.LargeUtf8()));
+
+    assertEquals(Types.DATE, getSqlTypeIdFromArrowType(new ArrowType.Date(DateUnit.MILLISECOND)));
+    assertEquals(Types.TIME,
+        getSqlTypeIdFromArrowType(new ArrowType.Time(TimeUnit.MILLISECOND, 32)));
+    assertEquals(Types.TIMESTAMP,
+        getSqlTypeIdFromArrowType(new ArrowType.Timestamp(TimeUnit.MILLISECOND, "")));
+
+    assertEquals(Types.BOOLEAN, getSqlTypeIdFromArrowType(new ArrowType.Bool()));
+
+    assertEquals(Types.DECIMAL, getSqlTypeIdFromArrowType(new ArrowType.Decimal(0, 0, 64)));
+    assertEquals(Types.DOUBLE,
+        getSqlTypeIdFromArrowType(new ArrowType.FloatingPoint(FloatingPointPrecision.DOUBLE)));
+    assertEquals(Types.FLOAT,
+        getSqlTypeIdFromArrowType(new ArrowType.FloatingPoint(FloatingPointPrecision.SINGLE)));
+
+    assertEquals(Types.ARRAY, getSqlTypeIdFromArrowType(new ArrowType.List()));
+    assertEquals(Types.ARRAY, getSqlTypeIdFromArrowType(new ArrowType.LargeList()));
+    assertEquals(Types.ARRAY, getSqlTypeIdFromArrowType(new ArrowType.FixedSizeList(10)));
+
+    assertEquals(Types.JAVA_OBJECT, getSqlTypeIdFromArrowType(new ArrowType.Struct()));
+    assertEquals(Types.JAVA_OBJECT,
+        getSqlTypeIdFromArrowType(new ArrowType.Duration(TimeUnit.MILLISECOND)));
+    assertEquals(Types.JAVA_OBJECT,
+        getSqlTypeIdFromArrowType(new ArrowType.Interval(IntervalUnit.DAY_TIME)));
+    assertEquals(Types.JAVA_OBJECT,
+        getSqlTypeIdFromArrowType(new ArrowType.Union(UnionMode.Dense, null)));
+    assertEquals(Types.JAVA_OBJECT, getSqlTypeIdFromArrowType(new ArrowType.Map(true)));
+
+    assertEquals(Types.NULL, getSqlTypeIdFromArrowType(new ArrowType.Null()));
+  }
+
+  @Test
+  public void testGetSqlTypeNameFromArrowType() {
+    assertEquals("TINYINT", getSqlTypeNameFromArrowType(new ArrowType.Int(8, true)));
+    assertEquals("SMALLINT", getSqlTypeNameFromArrowType(new ArrowType.Int(16, true)));
+    assertEquals("INTEGER", getSqlTypeNameFromArrowType(new ArrowType.Int(32, true)));
+    assertEquals("BIGINT", getSqlTypeNameFromArrowType(new ArrowType.Int(64, true)));
+
+    assertEquals("BINARY", getSqlTypeNameFromArrowType(new ArrowType.FixedSizeBinary(1024)));
+    assertEquals("VARBINARY", getSqlTypeNameFromArrowType(new ArrowType.Binary()));
+    assertEquals("LONGVARBINARY", getSqlTypeNameFromArrowType(new ArrowType.LargeBinary()));
+
+    assertEquals("VARCHAR", getSqlTypeNameFromArrowType(new ArrowType.Utf8()));
+    assertEquals("LONGVARCHAR", getSqlTypeNameFromArrowType(new ArrowType.LargeUtf8()));
+
+    assertEquals("DATE", getSqlTypeNameFromArrowType(new ArrowType.Date(DateUnit.MILLISECOND)));
+    assertEquals("TIME", getSqlTypeNameFromArrowType(new ArrowType.Time(TimeUnit.MILLISECOND, 32)));
+    assertEquals("TIMESTAMP",
+        getSqlTypeNameFromArrowType(new ArrowType.Timestamp(TimeUnit.MILLISECOND, "")));
+
+    assertEquals("BOOLEAN", getSqlTypeNameFromArrowType(new ArrowType.Bool()));
+
+    assertEquals("DECIMAL", getSqlTypeNameFromArrowType(new ArrowType.Decimal(0, 0, 64)));
+    assertEquals("DOUBLE",
+        getSqlTypeNameFromArrowType(new ArrowType.FloatingPoint(FloatingPointPrecision.DOUBLE)));
+    assertEquals("FLOAT",
+        getSqlTypeNameFromArrowType(new ArrowType.FloatingPoint(FloatingPointPrecision.SINGLE)));
+
+    assertEquals("ARRAY", getSqlTypeNameFromArrowType(new ArrowType.List()));
+    assertEquals("ARRAY", getSqlTypeNameFromArrowType(new ArrowType.LargeList()));
+    assertEquals("ARRAY", getSqlTypeNameFromArrowType(new ArrowType.FixedSizeList(10)));
+
+    assertEquals("JAVA_OBJECT", getSqlTypeNameFromArrowType(new ArrowType.Struct()));
+
+    assertEquals("JAVA_OBJECT",
+        getSqlTypeNameFromArrowType(new ArrowType.Duration(TimeUnit.MILLISECOND)));
+    assertEquals("JAVA_OBJECT",
+        getSqlTypeNameFromArrowType(new ArrowType.Interval(IntervalUnit.DAY_TIME)));
+    assertEquals("JAVA_OBJECT",
+        getSqlTypeNameFromArrowType(new ArrowType.Union(UnionMode.Dense, null)));
+    assertEquals("JAVA_OBJECT", getSqlTypeNameFromArrowType(new ArrowType.Map(true)));
+
+    assertEquals("NULL", getSqlTypeNameFromArrowType(new ArrowType.Null()));
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ThrowableAssertionUtils.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ThrowableAssertionUtils.java
new file mode 100644
index 00000000000..f1bd44539ac
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/ThrowableAssertionUtils.java
@@ -0,0 +1,57 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+/**
+ * Utility class to avoid upgrading JUnit to version >= 4.13 and keep using code to assert a {@link Throwable}.
+ * This should be removed as soon as we can use the proper assertThrows/checkThrows.
+ */
+public class ThrowableAssertionUtils {
+  private ThrowableAssertionUtils() {
+  }
+
+  public static <T extends Throwable> void simpleAssertThrowableClass(
+      final Class<? extends Throwable> expectedThrowable, final ThrowingRunnable runnable) {
+    try {
+      runnable.run();
+    } catch (Throwable actualThrown) {
+      if (expectedThrowable.isInstance(actualThrown)) {
+        return;
+      } else {
+        final String mismatchMessage = String.format("unexpected exception type thrown;\nexpected: %s\nactual: %s",
+            formatClass(expectedThrowable),
+            formatClass(actualThrown.getClass()));
+
+        throw new AssertionError(mismatchMessage, actualThrown);
+      }
+    }
+    final String notThrownMessage = String.format("expected %s to be thrown, but nothing was thrown",
+        formatClass(expectedThrowable));
+    throw new AssertionError(notThrownMessage);
+  }
+
+  private static String formatClass(final Class<?> value) {
+    // Fallback for anonymous inner classes
+    final String className = value.getCanonicalName();
+    return className == null ? value.getName() : className;
+  }
+
+  public interface ThrowingRunnable {
+    void run() throws Throwable;
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/UrlParserTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/UrlParserTest.java
new file mode 100644
index 00000000000..4e764ab322c
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/UrlParserTest.java
@@ -0,0 +1,50 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertNull;
+
+import java.util.Map;
+
+import org.junit.jupiter.api.Test;
+
+class UrlParserTest {
+  @Test
+  void parse() {
+    final Map<String, String> parsed = UrlParser.parse("foo=bar&123=456", "&");
+    assertEquals(parsed.get("foo"), "bar");
+    assertEquals(parsed.get("123"), "456");
+  }
+
+  @Test
+  void parseEscaped() {
+    final Map<String, String> parsed = UrlParser.parse("foo=bar%26&%26123=456", "&");
+    assertEquals(parsed.get("foo"), "bar&");
+    assertEquals(parsed.get("&123"), "456");
+  }
+
+  @Test
+  void parseEmpty() {
+    final Map<String, String> parsed = UrlParser.parse("a=&b&foo=bar&123=456", "&");
+    assertEquals(parsed.get("a"), "");
+    assertNull(parsed.get("b"));
+    assertEquals(parsed.get("foo"), "bar");
+    assertEquals(parsed.get("123"), "456");
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/VectorSchemaRootTransformerTest.java b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/VectorSchemaRootTransformerTest.java
new file mode 100644
index 00000000000..1804b42cecb
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/java/org/apache/arrow/driver/jdbc/utils/VectorSchemaRootTransformerTest.java
@@ -0,0 +1,119 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.driver.jdbc.utils;
+
+import java.util.List;
+import java.util.stream.Collectors;
+
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.VarBinaryVector;
+import org.apache.arrow.vector.VectorLoader;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.VectorUnloader;
+import org.apache.arrow.vector.ipc.message.ArrowRecordBatch;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.junit.Assert;
+import org.junit.Rule;
+import org.junit.Test;
+
+import com.google.common.collect.ImmutableList;
+
+public class VectorSchemaRootTransformerTest {
+
+  @Rule
+  public RootAllocatorTestRule rootAllocatorTestRule = new RootAllocatorTestRule();
+  private final BufferAllocator rootAllocator = rootAllocatorTestRule.getRootAllocator();
+
+  @Test
+  public void testTransformerBuilderWorksCorrectly() throws Exception {
+    final VarBinaryVector field1 = rootAllocatorTestRule.createVarBinaryVector("FIELD_1");
+    final VarBinaryVector field2 = rootAllocatorTestRule.createVarBinaryVector("FIELD_2");
+    final VarBinaryVector field3 = rootAllocatorTestRule.createVarBinaryVector("FIELD_3");
+
+    try (final VectorSchemaRoot originalRoot = VectorSchemaRoot.of(field1, field2, field3);
+         final VectorSchemaRoot clonedRoot = cloneVectorSchemaRoot(originalRoot)) {
+
+      final VectorSchemaRootTransformer.Builder builder =
+          new VectorSchemaRootTransformer.Builder(originalRoot.getSchema(),
+              rootAllocator);
+
+      builder.renameFieldVector("FIELD_3", "FIELD_3_RENAMED");
+      builder.addEmptyField("EMPTY_FIELD", new ArrowType.Bool());
+      builder.renameFieldVector("FIELD_2", "FIELD_2_RENAMED");
+      builder.renameFieldVector("FIELD_1", "FIELD_1_RENAMED");
+
+      final VectorSchemaRootTransformer transformer = builder.build();
+
+      final Schema transformedSchema = new Schema(ImmutableList.of(
+          Field.nullable("FIELD_3_RENAMED", new ArrowType.Binary()),
+          Field.nullable("EMPTY_FIELD", new ArrowType.Bool()),
+          Field.nullable("FIELD_2_RENAMED", new ArrowType.Binary()),
+          Field.nullable("FIELD_1_RENAMED", new ArrowType.Binary())
+      ));
+      try (final VectorSchemaRoot transformedRoot = createVectorSchemaRoot(transformedSchema)) {
+        Assert.assertSame(transformedRoot, transformer.transform(clonedRoot, transformedRoot));
+        Assert.assertEquals(transformedSchema, transformedRoot.getSchema());
+
+        final int rowCount = originalRoot.getRowCount();
+        Assert.assertEquals(rowCount, transformedRoot.getRowCount());
+
+        final VarBinaryVector originalField1 =
+            (VarBinaryVector) originalRoot.getVector("FIELD_1");
+        final VarBinaryVector originalField2 =
+            (VarBinaryVector) originalRoot.getVector("FIELD_2");
+        final VarBinaryVector originalField3 =
+            (VarBinaryVector) originalRoot.getVector("FIELD_3");
+
+        final VarBinaryVector transformedField1 =
+            (VarBinaryVector) transformedRoot.getVector("FIELD_1_RENAMED");
+        final VarBinaryVector transformedField2 =
+            (VarBinaryVector) transformedRoot.getVector("FIELD_2_RENAMED");
+        final VarBinaryVector transformedField3 =
+            (VarBinaryVector) transformedRoot.getVector("FIELD_3_RENAMED");
+        final FieldVector emptyField = transformedRoot.getVector("EMPTY_FIELD");
+
+        for (int i = 0; i < rowCount; i++) {
+          Assert.assertArrayEquals(originalField1.getObject(i), transformedField1.getObject(i));
+          Assert.assertArrayEquals(originalField2.getObject(i), transformedField2.getObject(i));
+          Assert.assertArrayEquals(originalField3.getObject(i), transformedField3.getObject(i));
+          Assert.assertNull(emptyField.getObject(i));
+        }
+      }
+    }
+  }
+
+  private VectorSchemaRoot cloneVectorSchemaRoot(final VectorSchemaRoot originalRoot) {
+    final VectorUnloader vectorUnloader = new VectorUnloader(originalRoot);
+    try (final ArrowRecordBatch recordBatch = vectorUnloader.getRecordBatch()) {
+      final VectorSchemaRoot clonedRoot = createVectorSchemaRoot(originalRoot.getSchema());
+      final VectorLoader vectorLoader = new VectorLoader(clonedRoot);
+      vectorLoader.load(recordBatch);
+      return clonedRoot;
+    }
+  }
+
+  private VectorSchemaRoot createVectorSchemaRoot(final Schema schema) {
+    final List<FieldVector> fieldVectors = schema.getFields().stream()
+        .map(field -> field.createVector(rootAllocator))
+        .collect(Collectors.toList());
+    return new VectorSchemaRoot(fieldVectors);
+  }
+}
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/resources/keys/keyStore.jks b/java/flight/flight-sql-jdbc-driver/src/test/resources/keys/keyStore.jks
new file mode 100644
index 00000000000..32a9bedea50
Binary files /dev/null and b/java/flight/flight-sql-jdbc-driver/src/test/resources/keys/keyStore.jks differ
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/resources/keys/noCertificate.jks b/java/flight/flight-sql-jdbc-driver/src/test/resources/keys/noCertificate.jks
new file mode 100644
index 00000000000..071a1ebf97b
Binary files /dev/null and b/java/flight/flight-sql-jdbc-driver/src/test/resources/keys/noCertificate.jks differ
diff --git a/java/flight/flight-sql-jdbc-driver/src/test/resources/logback.xml b/java/flight/flight-sql-jdbc-driver/src/test/resources/logback.xml
new file mode 100644
index 00000000000..ce66f8d82ac
--- /dev/null
+++ b/java/flight/flight-sql-jdbc-driver/src/test/resources/logback.xml
@@ -0,0 +1,27 @@
+<?xml version="1.0" encoding="UTF-8" ?>
+<!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor
+  license agreements. See the NOTICE file distributed with this work for additional
+  information regarding copyright ownership. The ASF licenses this file to
+  You under the Apache License, Version 2.0 (the "License"); you may not use
+  this file except in compliance with the License. You may obtain a copy of
+  the License at http://www.apache.org/licenses/LICENSE-2.0 Unless required
+  by applicable law or agreed to in writing, software distributed under the
+  License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS
+  OF ANY KIND, either express or implied. See the License for the specific
+  language governing permissions and limitations under the License. -->
+
+<configuration debug="true">
+  <appender name="STDOUT" class="ch.qos.logback.core.ConsoleAppender">
+    <!-- encoders are assigned the type
+         ch.qos.logback.classic.encoder.PatternLayoutEncoder by default -->
+    <encoder>
+      <pattern>%d{HH:mm:ss.SSS} [%thread] %-5level %logger{36} - %msg%n</pattern>
+    </encoder>
+  </appender>
+
+  <statusListener class="ch.qos.logback.core.status.NopStatusListener"/>
+  <logger name="org.apache.arrow" additivity="false">
+    <level value="info" />
+    <appender-ref ref="STDOUT" />
+  </logger>
+</configuration>
diff --git a/java/flight/flight-sql/pom.xml b/java/flight/flight-sql/pom.xml
index 1ccbe223641..ee218a2f2aa 100644
--- a/java/flight/flight-sql/pom.xml
+++ b/java/flight/flight-sql/pom.xml
@@ -14,7 +14,7 @@
   <parent>
     <artifactId>arrow-flight</artifactId>
     <groupId>org.apache.arrow</groupId>
-    <version>10.0.0-SNAPSHOT</version>
+    <version>11.0.0</version>
     <relativePath>../pom.xml</relativePath>
   </parent>
 
diff --git a/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/CancelListener.java b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/CancelListener.java
new file mode 100644
index 00000000000..3438f788dcf
--- /dev/null
+++ b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/CancelListener.java
@@ -0,0 +1,51 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.flight.sql;
+
+import org.apache.arrow.flight.FlightProducer;
+import org.apache.arrow.flight.Result;
+import org.apache.arrow.flight.sql.impl.FlightSql;
+
+import com.google.protobuf.Any;
+
+/** Typed StreamListener for cancelQuery. */
+class CancelListener implements FlightProducer.StreamListener<CancelResult> {
+  private final FlightProducer.StreamListener<Result> listener;
+
+  CancelListener(FlightProducer.StreamListener<Result> listener) {
+    this.listener = listener;
+  }
+
+  @Override
+  public void onNext(CancelResult val) {
+    FlightSql.ActionCancelQueryResult result = FlightSql.ActionCancelQueryResult.newBuilder()
+        .setResult(val.toProtocol())
+        .build();
+    listener.onNext(new Result(Any.pack(result).toByteArray()));
+  }
+
+  @Override
+  public void onError(Throwable t) {
+    listener.onError(t);
+  }
+
+  @Override
+  public void onCompleted() {
+    listener.onCompleted();
+  }
+}
diff --git a/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/CancelResult.java b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/CancelResult.java
new file mode 100644
index 00000000000..d1ae4178310
--- /dev/null
+++ b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/CancelResult.java
@@ -0,0 +1,45 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.flight.sql;
+
+import org.apache.arrow.flight.sql.impl.FlightSql;
+
+/**
+ * The result of cancelling a query.
+ */
+public enum CancelResult {
+  UNSPECIFIED,
+  CANCELLED,
+  CANCELLING,
+  NOT_CANCELLABLE,
+  ;
+
+  FlightSql.ActionCancelQueryResult.CancelResult toProtocol() {
+    switch (this) {
+      default:
+      case UNSPECIFIED:
+        return FlightSql.ActionCancelQueryResult.CancelResult.CANCEL_RESULT_UNSPECIFIED;
+      case CANCELLED:
+        return FlightSql.ActionCancelQueryResult.CancelResult.CANCEL_RESULT_CANCELLED;
+      case CANCELLING:
+        return FlightSql.ActionCancelQueryResult.CancelResult.CANCEL_RESULT_CANCELLING;
+      case NOT_CANCELLABLE:
+        return FlightSql.ActionCancelQueryResult.CancelResult.CANCEL_RESULT_NOT_CANCELLABLE;
+    }
+  }
+}
diff --git a/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/FlightSqlClient.java b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/FlightSqlClient.java
index dd9480f4004..922495a18e0 100644
--- a/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/FlightSqlClient.java
+++ b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/FlightSqlClient.java
@@ -17,8 +17,17 @@
 
 package org.apache.arrow.flight.sql;
 
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionBeginSavepointRequest;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionBeginSavepointResult;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionBeginTransactionRequest;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionBeginTransactionResult;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionCancelQueryRequest;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionCancelQueryResult;
 import static org.apache.arrow.flight.sql.impl.FlightSql.ActionClosePreparedStatementRequest;
 import static org.apache.arrow.flight.sql.impl.FlightSql.ActionCreatePreparedStatementRequest;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionCreatePreparedSubstraitPlanRequest;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionEndSavepointRequest;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionEndTransactionRequest;
 import static org.apache.arrow.flight.sql.impl.FlightSql.CommandGetCatalogs;
 import static org.apache.arrow.flight.sql.impl.FlightSql.CommandGetCrossReference;
 import static org.apache.arrow.flight.sql.impl.FlightSql.CommandGetDbSchemas;
@@ -31,6 +40,7 @@
 import static org.apache.arrow.flight.sql.impl.FlightSql.CommandGetXdbcTypeInfo;
 import static org.apache.arrow.flight.sql.impl.FlightSql.CommandPreparedStatementUpdate;
 import static org.apache.arrow.flight.sql.impl.FlightSql.CommandStatementQuery;
+import static org.apache.arrow.flight.sql.impl.FlightSql.CommandStatementSubstraitPlan;
 import static org.apache.arrow.flight.sql.impl.FlightSql.CommandStatementUpdate;
 import static org.apache.arrow.flight.sql.impl.FlightSql.DoPutUpdateResult;
 import static org.apache.arrow.flight.sql.impl.FlightSql.SqlInfo;
@@ -91,10 +101,94 @@ public FlightSqlClient(final FlightClient client) {
    * @return a FlightInfo object representing the stream(s) to fetch.
    */
   public FlightInfo execute(final String query, final CallOption... options) {
+    return execute(query, /*transaction*/ null, options);
+  }
+
+  /**
+   * Execute a query on the server.
+   *
+   * @param query The query to execute.
+   * @param transaction The transaction that this query is part of.
+   * @param options RPC-layer hints for this call.
+   * @return a FlightInfo object representing the stream(s) to fetch.
+   */
+  public FlightInfo execute(final String query, Transaction transaction, final CallOption... options) {
+    final CommandStatementQuery.Builder builder = CommandStatementQuery.newBuilder().setQuery(query);
+    if (transaction != null) {
+      builder.setTransactionId(ByteString.copyFrom(transaction.getTransactionId()));
+    }
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(builder.build()).toByteArray());
+    return client.getInfo(descriptor, options);
+  }
+
+  /**
+   * Execute a Substrait plan on the server.
+   *
+   * @param plan The Substrait plan to execute.
+   * @param options RPC-layer hints for this call.
+   * @return a FlightInfo object representing the stream(s) to fetch.
+   */
+  public FlightInfo executeSubstrait(SubstraitPlan plan, CallOption... options) {
+    return executeSubstrait(plan, /*transaction*/ null, options);
+  }
+
+  /**
+   * Execute a Substrait plan on the server.
+   *
+   * @param plan The Substrait plan to execute.
+   * @param transaction The transaction that this query is part of.
+   * @param options RPC-layer hints for this call.
+   * @return a FlightInfo object representing the stream(s) to fetch.
+   */
+  public FlightInfo executeSubstrait(SubstraitPlan plan, Transaction transaction, CallOption... options) {
+    final CommandStatementSubstraitPlan.Builder builder = CommandStatementSubstraitPlan.newBuilder();
+    builder.getPlanBuilder().setPlan(ByteString.copyFrom(plan.getPlan())).setVersion(plan.getVersion());
+    if (transaction != null) {
+      builder.setTransactionId(ByteString.copyFrom(transaction.getTransactionId()));
+    }
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(builder.build()).toByteArray());
+    return client.getInfo(descriptor, options);
+  }
+
+  /**
+   * Get the schema of the result set of a query.
+   */
+  public SchemaResult getExecuteSchema(String query, Transaction transaction, CallOption... options) {
     final CommandStatementQuery.Builder builder = CommandStatementQuery.newBuilder();
     builder.setQuery(query);
+    if (transaction != null) {
+      builder.setTransactionId(ByteString.copyFrom(transaction.getTransactionId()));
+    }
     final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(builder.build()).toByteArray());
-    return client.getInfo(descriptor, options);
+    return client.getSchema(descriptor, options);
+  }
+
+  /**
+   * Get the schema of the result set of a query.
+   */
+  public SchemaResult getExecuteSchema(String query, CallOption... options) {
+    return getExecuteSchema(query, /*transaction*/null, options);
+  }
+
+  /**
+   * Get the schema of the result set of a Substrait plan.
+   */
+  public SchemaResult getExecuteSubstraitSchema(SubstraitPlan plan, Transaction transaction,
+                                                final CallOption... options) {
+    final CommandStatementSubstraitPlan.Builder builder = CommandStatementSubstraitPlan.newBuilder();
+    builder.getPlanBuilder().setPlan(ByteString.copyFrom(plan.getPlan())).setVersion(plan.getVersion());
+    if (transaction != null) {
+      builder.setTransactionId(ByteString.copyFrom(transaction.getTransactionId()));
+    }
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(builder.build()).toByteArray());
+    return client.getSchema(descriptor, options);
+  }
+
+  /**
+   * Get the schema of the result set of a Substrait plan.
+   */
+  public SchemaResult getExecuteSubstraitSchema(SubstraitPlan substraitPlan, final CallOption... options) {
+    return getExecuteSubstraitSchema(substraitPlan, /*transaction*/null, options);
   }
 
   /**
@@ -105,18 +199,77 @@ public FlightInfo execute(final String query, final CallOption... options) {
    * @return the number of rows affected.
    */
   public long executeUpdate(final String query, final CallOption... options) {
-    final CommandStatementUpdate.Builder builder = CommandStatementUpdate.newBuilder();
-    builder.setQuery(query);
+    return executeUpdate(query, /*transaction*/ null, options);
+  }
+
+  /**
+   * Execute an update query on the server.
+   *
+   * @param query   The query to execute.
+   * @param transaction The transaction that this query is part of.
+   * @param options RPC-layer hints for this call.
+   * @return the number of rows affected.
+   */
+  public long executeUpdate(final String query, Transaction transaction, final CallOption... options) {
+    final CommandStatementUpdate.Builder builder = CommandStatementUpdate.newBuilder().setQuery(query);
+    if (transaction != null) {
+      builder.setTransactionId(ByteString.copyFrom(transaction.getTransactionId()));
+    }
 
     final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(builder.build()).toByteArray());
-    final SyncPutListener putListener = new SyncPutListener();
-    client.startPut(descriptor, VectorSchemaRoot.of(), putListener, options);
+    try (final SyncPutListener putListener = new SyncPutListener()) {
+      final FlightClient.ClientStreamListener listener =
+          client.startPut(descriptor, VectorSchemaRoot.of(), putListener, options);
+      try (final PutResult result = putListener.read()) {
+        final DoPutUpdateResult doPutUpdateResult = DoPutUpdateResult.parseFrom(
+            result.getApplicationMetadata().nioBuffer());
+        return doPutUpdateResult.getRecordCount();
+      } finally {
+        listener.getResult();
+      }
+    } catch (final InterruptedException | ExecutionException e) {
+      throw CallStatus.CANCELLED.withCause(e).toRuntimeException();
+    } catch (final InvalidProtocolBufferException e) {
+      throw CallStatus.INTERNAL.withCause(e).toRuntimeException();
+    }
+  }
 
-    try {
-      final PutResult read = putListener.read();
-      try (final ArrowBuf metadata = read.getApplicationMetadata()) {
-        final DoPutUpdateResult doPutUpdateResult = DoPutUpdateResult.parseFrom(metadata.nioBuffer());
+  /**
+   * Execute an update query on the server.
+   *
+   * @param plan The Substrait plan to execute.
+   * @param options RPC-layer hints for this call.
+   * @return the number of rows affected.
+   */
+  public long executeSubstraitUpdate(SubstraitPlan plan, CallOption... options) {
+    return executeSubstraitUpdate(plan, /*transaction*/ null, options);
+  }
+
+  /**
+   * Execute an update query on the server.
+   *
+   * @param plan The Substrait plan to execute.
+   * @param transaction The transaction that this query is part of.
+   * @param options RPC-layer hints for this call.
+   * @return the number of rows affected.
+   */
+  public long executeSubstraitUpdate(SubstraitPlan plan, Transaction transaction, CallOption... options) {
+    final CommandStatementSubstraitPlan.Builder builder = CommandStatementSubstraitPlan.newBuilder();
+    builder.getPlanBuilder().setPlan(ByteString.copyFrom(plan.getPlan())).setVersion(plan.getVersion());
+    if (transaction != null) {
+      builder.setTransactionId(ByteString.copyFrom(transaction.getTransactionId()));
+    }
+
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(builder.build()).toByteArray());
+    try (final SyncPutListener putListener = new SyncPutListener()) {
+      final FlightClient.ClientStreamListener listener =
+          client.startPut(descriptor, VectorSchemaRoot.of(), putListener, options);
+      try (final PutResult result = putListener.read()) {
+        final DoPutUpdateResult doPutUpdateResult = DoPutUpdateResult.parseFrom(
+            result.getApplicationMetadata().nioBuffer());
         return doPutUpdateResult.getRecordCount();
+      } finally {
+        listener.getResult();
       }
     } catch (final InterruptedException | ExecutionException e) {
       throw CallStatus.CANCELLED.withCause(e).toRuntimeException();
@@ -137,6 +290,17 @@ public FlightInfo getCatalogs(final CallOption... options) {
     return client.getInfo(descriptor, options);
   }
 
+  /**
+   * Get the schema of {@link #getCatalogs(CallOption...)} from the server.
+   *
+   * <p>Should be identical to {@link FlightSqlProducer.Schemas#GET_CATALOGS_SCHEMA}.
+   */
+  public SchemaResult getCatalogsSchema(final CallOption... options) {
+    final CommandGetCatalogs command = CommandGetCatalogs.getDefaultInstance();
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(command).toByteArray());
+    return client.getSchema(descriptor, options);
+  }
+
   /**
    * Request a list of schemas.
    *
@@ -160,6 +324,17 @@ public FlightInfo getSchemas(final String catalog, final String dbSchemaFilterPa
     return client.getInfo(descriptor, options);
   }
 
+  /**
+   * Get the schema of {@link #getSchemas(String, String, CallOption...)} from the server.
+   *
+   * <p>Should be identical to {@link FlightSqlProducer.Schemas#GET_SCHEMAS_SCHEMA}.
+   */
+  public SchemaResult getSchemasSchema(final CallOption... options) {
+    final CommandGetDbSchemas command = CommandGetDbSchemas.getDefaultInstance();
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(command).toByteArray());
+    return client.getSchema(descriptor, options);
+  }
+
   /**
    * Get schema for a stream.
    *
@@ -231,6 +406,17 @@ public FlightInfo getSqlInfo(final Iterable<Integer> info, final CallOption... o
     return client.getInfo(descriptor, options);
   }
 
+  /**
+   * Get the schema of {@link #getSqlInfo(SqlInfo...)} from the server.
+   *
+   * <p>Should be identical to {@link FlightSqlProducer.Schemas#GET_SQL_INFO_SCHEMA}.
+   */
+  public SchemaResult getSqlInfoSchema(final CallOption... options) {
+    final CommandGetSqlInfo command = CommandGetSqlInfo.getDefaultInstance();
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(command).toByteArray());
+    return client.getSchema(descriptor, options);
+  }
+
   /**
    * Request the information about the data types supported related to
    * a filter data type.
@@ -261,6 +447,17 @@ public FlightInfo getXdbcTypeInfo(final CallOption... options) {
     return client.getInfo(descriptor, options);
   }
 
+  /**
+   * Get the schema of {@link #getXdbcTypeInfo(CallOption...)} from the server.
+   *
+   * <p>Should be identical to {@link FlightSqlProducer.Schemas#GET_TYPE_INFO_SCHEMA}.
+   */
+  public SchemaResult getXdbcTypeInfoSchema(final CallOption... options) {
+    final CommandGetXdbcTypeInfo command = CommandGetXdbcTypeInfo.getDefaultInstance();
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(command).toByteArray());
+    return client.getSchema(descriptor, options);
+  }
+
   /**
    * Request a list of tables.
    *
@@ -298,6 +495,18 @@ public FlightInfo getTables(final String catalog, final String dbSchemaFilterPat
     return client.getInfo(descriptor, options);
   }
 
+  /**
+   * Get the schema of {@link #getTables(String, String, String, List, boolean, CallOption...)} from the server.
+   *
+   * <p>Should be identical to {@link FlightSqlProducer.Schemas#GET_TABLES_SCHEMA} or
+   * {@link FlightSqlProducer.Schemas#GET_TABLES_SCHEMA_NO_SCHEMA}.
+   */
+  public SchemaResult getTablesSchema(boolean includeSchema, final CallOption... options) {
+    final CommandGetTables command = CommandGetTables.newBuilder().setIncludeSchema(includeSchema).build();
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(command).toByteArray());
+    return client.getSchema(descriptor, options);
+  }
+
   /**
    * Request the primary keys for a table.
    *
@@ -323,6 +532,17 @@ public FlightInfo getPrimaryKeys(final TableRef tableRef, final CallOption... op
     return client.getInfo(descriptor, options);
   }
 
+  /**
+   * Get the schema of {@link #getPrimaryKeys(TableRef, CallOption...)} from the server.
+   *
+   * <p>Should be identical to {@link FlightSqlProducer.Schemas#GET_PRIMARY_KEYS_SCHEMA}.
+   */
+  public SchemaResult getPrimaryKeysSchema(final CallOption... options) {
+    final CommandGetPrimaryKeys command = CommandGetPrimaryKeys.getDefaultInstance();
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(command).toByteArray());
+    return client.getSchema(descriptor, options);
+  }
+
   /**
    * Retrieves a description about the foreign key columns that reference the primary key columns of the given table.
    *
@@ -350,6 +570,17 @@ public FlightInfo getExportedKeys(final TableRef tableRef, final CallOption... o
     return client.getInfo(descriptor, options);
   }
 
+  /**
+   * Get the schema of {@link #getExportedKeys(TableRef, CallOption...)} from the server.
+   *
+   * <p>Should be identical to {@link FlightSqlProducer.Schemas#GET_EXPORTED_KEYS_SCHEMA}.
+   */
+  public SchemaResult getExportedKeysSchema(final CallOption... options) {
+    final CommandGetExportedKeys command = CommandGetExportedKeys.getDefaultInstance();
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(command).toByteArray());
+    return client.getSchema(descriptor, options);
+  }
+
   /**
    * Retrieves the foreign key columns for the given table.
    *
@@ -378,6 +609,17 @@ public FlightInfo getImportedKeys(final TableRef tableRef,
     return client.getInfo(descriptor, options);
   }
 
+  /**
+   * Get the schema of {@link #getImportedKeys(TableRef, CallOption...)} from the server.
+   *
+   * <p>Should be identical to {@link FlightSqlProducer.Schemas#GET_IMPORTED_KEYS_SCHEMA}.
+   */
+  public SchemaResult getImportedKeysSchema(final CallOption... options) {
+    final CommandGetImportedKeys command = CommandGetImportedKeys.getDefaultInstance();
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(command).toByteArray());
+    return client.getSchema(descriptor, options);
+  }
+
   /**
    * Retrieves a description of the foreign key columns that reference the given table's
    * primary key columns (the foreign keys exported by a table).
@@ -417,6 +659,17 @@ public FlightInfo getCrossReference(final TableRef pkTableRef,
     return client.getInfo(descriptor, options);
   }
 
+  /**
+   * Get the schema of {@link #getCrossReference(TableRef, TableRef, CallOption...)} from the server.
+   *
+   * <p>Should be identical to {@link FlightSqlProducer.Schemas#GET_CROSS_REFERENCE_SCHEMA}.
+   */
+  public SchemaResult getCrossReferenceSchema(final CallOption... options) {
+    final CommandGetCrossReference command = CommandGetCrossReference.getDefaultInstance();
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(command).toByteArray());
+    return client.getSchema(descriptor, options);
+  }
+
   /**
    * Request a list of table types.
    *
@@ -430,14 +683,209 @@ public FlightInfo getTableTypes(final CallOption... options) {
   }
 
   /**
-   * Create a prepared statement on the server.
+   * Get the schema of {@link #getTableTypes(CallOption...)} from the server.
+   *
+   * <p>Should be identical to {@link FlightSqlProducer.Schemas#GET_TABLE_TYPES_SCHEMA}.
+   */
+  public SchemaResult getTableTypesSchema(final CallOption... options) {
+    final CommandGetTableTypes command = CommandGetTableTypes.getDefaultInstance();
+    final FlightDescriptor descriptor = FlightDescriptor.command(Any.pack(command).toByteArray());
+    return client.getSchema(descriptor, options);
+  }
+
+  /**
+   * Create a prepared statement for a SQL query on the server.
    *
    * @param query   The query to prepare.
    * @param options RPC-layer hints for this call.
    * @return The representation of the prepared statement which exists on the server.
    */
-  public PreparedStatement prepare(final String query, final CallOption... options) {
-    return new PreparedStatement(client, query, options);
+  public PreparedStatement prepare(String query, CallOption... options) {
+    return prepare(query, /*transaction*/ null, options);
+  }
+
+  /**
+   * Create a prepared statement for a SQL query on the server.
+   *
+   * @param query The query to prepare.
+   * @param transaction The transaction that this query is part of.
+   * @param options RPC-layer hints for this call.
+   * @return The representation of the prepared statement which exists on the server.
+   */
+  public PreparedStatement prepare(String query, Transaction transaction, CallOption... options) {
+    ActionCreatePreparedStatementRequest.Builder builder =
+        ActionCreatePreparedStatementRequest.newBuilder().setQuery(query);
+    if (transaction != null) {
+      builder.setTransactionId(ByteString.copyFrom(transaction.getTransactionId()));
+    }
+    return new PreparedStatement(client,
+        new Action(
+            FlightSqlUtils.FLIGHT_SQL_CREATE_PREPARED_STATEMENT.getType(),
+            Any.pack(builder.build()).toByteArray()),
+        options);
+  }
+
+  /**
+   * Create a prepared statement for a Substrait plan on the server.
+   *
+   * @param plan    The query to prepare.
+   * @param options RPC-layer hints for this call.
+   * @return The representation of the prepared statement which exists on the server.
+   */
+  public PreparedStatement prepare(SubstraitPlan plan, CallOption... options) {
+    return prepare(plan, /*transaction*/ null, options);
+  }
+
+  /**
+   * Create a prepared statement for a Substrait plan on the server.
+   *
+   * @param plan The query to prepare.
+   * @param transaction The transaction that this query is part of.
+   * @param options RPC-layer hints for this call.
+   * @return The representation of the prepared statement which exists on the server.
+   */
+  public PreparedStatement prepare(SubstraitPlan plan, Transaction transaction, CallOption... options) {
+    ActionCreatePreparedSubstraitPlanRequest.Builder builder =
+        ActionCreatePreparedSubstraitPlanRequest.newBuilder();
+    builder.getPlanBuilder().setPlan(ByteString.copyFrom(plan.getPlan())).setVersion(plan.getVersion());
+    if (transaction != null) {
+      builder.setTransactionId(ByteString.copyFrom(transaction.getTransactionId()));
+    }
+    return new PreparedStatement(client,
+        new Action(
+            FlightSqlUtils.FLIGHT_SQL_CREATE_PREPARED_SUBSTRAIT_PLAN.getType(),
+            Any.pack(builder.build()).toByteArray()),
+        options);
+  }
+
+  /** Begin a transaction. */
+  public Transaction beginTransaction(CallOption... options) {
+    final Action action = new Action(
+        FlightSqlUtils.FLIGHT_SQL_BEGIN_TRANSACTION.getType(),
+        Any.pack(ActionBeginTransactionRequest.getDefaultInstance()).toByteArray());
+    final Iterator<Result> preparedStatementResults = client.doAction(action, options);
+    final ActionBeginTransactionResult result = FlightSqlUtils.unpackAndParseOrThrow(
+        preparedStatementResults.next().getBody(),
+        ActionBeginTransactionResult.class);
+    preparedStatementResults.forEachRemaining((ignored) -> { });
+    if (result.getTransactionId().isEmpty()) {
+      throw CallStatus.INTERNAL.withDescription("Server returned an empty transaction ID").toRuntimeException();
+    }
+    return new Transaction(result.getTransactionId().toByteArray());
+  }
+
+  /** Create a savepoint within a transaction. */
+  public Savepoint beginSavepoint(Transaction transaction, String name, CallOption... options) {
+    Preconditions.checkArgument(transaction.getTransactionId().length != 0, "Transaction must be initialized");
+    ActionBeginSavepointRequest request = ActionBeginSavepointRequest.newBuilder()
+        .setTransactionId(ByteString.copyFrom(transaction.getTransactionId()))
+        .setName(name)
+        .build();
+    final Action action = new Action(
+        FlightSqlUtils.FLIGHT_SQL_BEGIN_SAVEPOINT.getType(),
+        Any.pack(request).toByteArray());
+    final Iterator<Result> preparedStatementResults = client.doAction(action, options);
+    final ActionBeginSavepointResult result = FlightSqlUtils.unpackAndParseOrThrow(
+        preparedStatementResults.next().getBody(),
+        ActionBeginSavepointResult.class);
+    preparedStatementResults.forEachRemaining((ignored) -> { });
+    if (result.getSavepointId().isEmpty()) {
+      throw CallStatus.INTERNAL.withDescription("Server returned an empty transaction ID").toRuntimeException();
+    }
+    return new Savepoint(result.getSavepointId().toByteArray());
+  }
+
+  /** Commit a transaction. */
+  public void commit(Transaction transaction, CallOption... options) {
+    Preconditions.checkArgument(transaction.getTransactionId().length != 0, "Transaction must be initialized");
+    ActionEndTransactionRequest request = ActionEndTransactionRequest.newBuilder()
+        .setTransactionId(ByteString.copyFrom(transaction.getTransactionId()))
+        .setActionValue(ActionEndTransactionRequest.EndTransaction.END_TRANSACTION_COMMIT.getNumber())
+        .build();
+    final Action action = new Action(
+        FlightSqlUtils.FLIGHT_SQL_END_TRANSACTION.getType(),
+        Any.pack(request).toByteArray());
+    final Iterator<Result> preparedStatementResults = client.doAction(action, options);
+    preparedStatementResults.forEachRemaining((ignored) -> { });
+  }
+
+  /** Release a savepoint. */
+  public void release(Savepoint savepoint, CallOption... options) {
+    Preconditions.checkArgument(savepoint.getSavepointId().length != 0, "Savepoint must be initialized");
+    ActionEndSavepointRequest request = ActionEndSavepointRequest.newBuilder()
+        .setSavepointId(ByteString.copyFrom(savepoint.getSavepointId()))
+        .setActionValue(ActionEndSavepointRequest.EndSavepoint.END_SAVEPOINT_RELEASE.getNumber())
+        .build();
+    final Action action = new Action(
+        FlightSqlUtils.FLIGHT_SQL_END_SAVEPOINT.getType(),
+        Any.pack(request).toByteArray());
+    final Iterator<Result> preparedStatementResults = client.doAction(action, options);
+    preparedStatementResults.forEachRemaining((ignored) -> { });
+  }
+
+  /** Rollback a transaction. */
+  public void rollback(Transaction transaction, CallOption... options) {
+    Preconditions.checkArgument(transaction.getTransactionId().length != 0, "Transaction must be initialized");
+    ActionEndTransactionRequest request = ActionEndTransactionRequest.newBuilder()
+        .setTransactionId(ByteString.copyFrom(transaction.getTransactionId()))
+        .setActionValue(ActionEndTransactionRequest.EndTransaction.END_TRANSACTION_ROLLBACK.getNumber())
+        .build();
+    final Action action = new Action(
+        FlightSqlUtils.FLIGHT_SQL_END_TRANSACTION.getType(),
+        Any.pack(request).toByteArray());
+    final Iterator<Result> preparedStatementResults = client.doAction(action, options);
+    preparedStatementResults.forEachRemaining((ignored) -> { });
+  }
+
+  /** Rollback to a savepoint. */
+  public void rollback(Savepoint savepoint, CallOption... options) {
+    Preconditions.checkArgument(savepoint.getSavepointId().length != 0, "Savepoint must be initialized");
+    ActionEndSavepointRequest request = ActionEndSavepointRequest.newBuilder()
+        .setSavepointId(ByteString.copyFrom(savepoint.getSavepointId()))
+        .setActionValue(ActionEndSavepointRequest.EndSavepoint.END_SAVEPOINT_RELEASE.getNumber())
+        .build();
+    final Action action = new Action(
+        FlightSqlUtils.FLIGHT_SQL_END_SAVEPOINT.getType(),
+        Any.pack(request).toByteArray());
+    final Iterator<Result> preparedStatementResults = client.doAction(action, options);
+    preparedStatementResults.forEachRemaining((ignored) -> { });
+  }
+
+  /**
+   * Explicitly cancel a running query.
+   * <p>
+   * This lets a single client explicitly cancel work, no matter how many clients
+   * are involved/whether the query is distributed or not, given server support.
+   * The transaction/statement is not rolled back; it is the application's job to
+   * commit or rollback as appropriate. This only indicates the client no longer
+   * wishes to read the remainder of the query results or continue submitting
+   * data.
+   */
+  public CancelResult cancelQuery(FlightInfo info, CallOption... options) {
+    ActionCancelQueryRequest request = ActionCancelQueryRequest.newBuilder()
+        .setInfo(ByteString.copyFrom(info.serialize()))
+        .build();
+    final Action action = new Action(
+        FlightSqlUtils.FLIGHT_SQL_CANCEL_QUERY.getType(),
+        Any.pack(request).toByteArray());
+    final Iterator<Result> preparedStatementResults = client.doAction(action, options);
+    final ActionCancelQueryResult result = FlightSqlUtils.unpackAndParseOrThrow(
+        preparedStatementResults.next().getBody(),
+        ActionCancelQueryResult.class);
+    preparedStatementResults.forEachRemaining((ignored) -> { });
+    switch (result.getResult()) {
+      case CANCEL_RESULT_UNSPECIFIED:
+        return CancelResult.UNSPECIFIED;
+      case CANCEL_RESULT_CANCELLED:
+        return CancelResult.CANCELLED;
+      case CANCEL_RESULT_CANCELLING:
+        return CancelResult.CANCELLING;
+      case CANCEL_RESULT_NOT_CANCELLABLE:
+        return CancelResult.NOT_CANCELLABLE;
+      case UNRECOGNIZED:
+      default:
+        throw CallStatus.INTERNAL.withDescription("Unknown result: " + result.getResult()).toRuntimeException();
+    }
   }
 
   @Override
@@ -456,28 +904,13 @@ public static class PreparedStatement implements AutoCloseable {
     private Schema resultSetSchema;
     private Schema parameterSchema;
 
-    /**
-     * Constructor.
-     *
-     * @param client  The client. PreparedStatement does not maintain this resource.
-     * @param sql     The query.
-     * @param options RPC-layer hints for this call.
-     */
-    public PreparedStatement(final FlightClient client, final String sql, final CallOption... options) {
+    PreparedStatement(FlightClient client, Action action, CallOption... options) {
       this.client = client;
-      final Action action = new Action(
-          FlightSqlUtils.FLIGHT_SQL_CREATE_PREPARED_STATEMENT.getType(),
-          Any.pack(ActionCreatePreparedStatementRequest
-                  .newBuilder()
-                  .setQuery(sql)
-                  .build())
-              .toByteArray());
-      final Iterator<Result> preparedStatementResults = client.doAction(action, options);
 
+      final Iterator<Result> preparedStatementResults = client.doAction(action, options);
       preparedStatementResult = FlightSqlUtils.unpackAndParseOrThrow(
           preparedStatementResults.next().getBody(),
           ActionCreatePreparedStatementResult.class);
-
       isClosed = false;
     }
 
@@ -534,6 +967,20 @@ public Schema getParameterSchema() {
       return parameterSchema;
     }
 
+    /**
+     * Get the schema of the result set (should be identical to {@link #getResultSetSchema()}).
+     */
+    public SchemaResult fetchSchema(CallOption... options) {
+      checkOpen();
+
+      final FlightDescriptor descriptor = FlightDescriptor
+          .command(Any.pack(CommandPreparedStatementQuery.newBuilder()
+                  .setPreparedStatementHandle(preparedStatementResult.getPreparedStatementHandle())
+                  .build())
+              .toByteArray());
+      return client.getSchema(descriptor, options);
+    }
+
     private Schema deserializeSchema(final ByteString bytes) {
       try {
         return bytes.isEmpty() ?
@@ -655,4 +1102,81 @@ public boolean isClosed() {
       return isClosed;
     }
   }
+
+  /** A handle for an active savepoint. */
+  public static class Savepoint {
+    private final byte[] transactionId;
+
+    public Savepoint(byte[] transactionId) {
+      this.transactionId = transactionId;
+    }
+
+    public byte[] getSavepointId() {
+      return transactionId;
+    }
+  }
+
+  /** A handle for an active transaction. */
+  public static class Transaction {
+    private final byte[] transactionId;
+
+    public Transaction(byte[] transactionId) {
+      this.transactionId = transactionId;
+    }
+
+    public byte[] getTransactionId() {
+      return transactionId;
+    }
+  }
+
+  /** A wrapper around a Substrait plan and a Substrait version. */
+  public static final class SubstraitPlan {
+    private final byte[] plan;
+    private final String version;
+
+    public SubstraitPlan(byte[] plan, String version) {
+      this.plan = Preconditions.checkNotNull(plan);
+      this.version = Preconditions.checkNotNull(version);
+    }
+
+    public byte[] getPlan() {
+      return plan;
+    }
+
+    public String getVersion() {
+      return version;
+    }
+
+    @Override
+    public boolean equals(Object o) {
+      if (this == o) {
+        return true;
+      }
+      if (o == null || getClass() != o.getClass()) {
+        return false;
+      }
+
+      SubstraitPlan that = (SubstraitPlan) o;
+
+      if (!Arrays.equals(getPlan(), that.getPlan())) {
+        return false;
+      }
+      return getVersion().equals(that.getVersion());
+    }
+
+    @Override
+    public int hashCode() {
+      int result = Arrays.hashCode(getPlan());
+      result = 31 * result + getVersion().hashCode();
+      return result;
+    }
+
+    @Override
+    public String toString() {
+      return "SubstraitPlan{" +
+          "plan=" + Arrays.toString(plan) +
+          ", version='" + version + '\'' +
+          '}';
+    }
+  }
 }
diff --git a/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/FlightSqlProducer.java b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/FlightSqlProducer.java
index c617c6a03ee..00a83667990 100644
--- a/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/FlightSqlProducer.java
+++ b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/FlightSqlProducer.java
@@ -20,12 +20,21 @@
 import static java.util.Arrays.asList;
 import static java.util.Collections.singletonList;
 import static java.util.stream.IntStream.range;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionBeginSavepointRequest;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionBeginSavepointResult;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionBeginTransactionRequest;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionBeginTransactionResult;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionCancelQueryRequest;
 import static org.apache.arrow.flight.sql.impl.FlightSql.ActionCreatePreparedStatementResult;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionCreatePreparedSubstraitPlanRequest;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionEndSavepointRequest;
+import static org.apache.arrow.flight.sql.impl.FlightSql.ActionEndTransactionRequest;
 import static org.apache.arrow.flight.sql.impl.FlightSql.CommandGetCrossReference;
 import static org.apache.arrow.flight.sql.impl.FlightSql.CommandGetDbSchemas;
 import static org.apache.arrow.flight.sql.impl.FlightSql.CommandGetExportedKeys;
 import static org.apache.arrow.flight.sql.impl.FlightSql.CommandGetImportedKeys;
 import static org.apache.arrow.flight.sql.impl.FlightSql.CommandGetXdbcTypeInfo;
+import static org.apache.arrow.flight.sql.impl.FlightSql.CommandStatementSubstraitPlan;
 import static org.apache.arrow.vector.complex.MapVector.DATA_VECTOR_NAME;
 import static org.apache.arrow.vector.complex.MapVector.KEY_NAME;
 import static org.apache.arrow.vector.complex.MapVector.VALUE_NAME;
@@ -37,6 +46,8 @@
 import static org.apache.arrow.vector.types.Types.MinorType.UINT4;
 import static org.apache.arrow.vector.types.Types.MinorType.VARCHAR;
 
+import java.io.IOException;
+import java.net.URISyntaxException;
 import java.util.List;
 
 import org.apache.arrow.flight.Action;
@@ -95,6 +106,9 @@ default FlightInfo getFlightInfo(CallContext context, FlightDescriptor descripto
     if (command.is(CommandStatementQuery.class)) {
       return getFlightInfoStatement(
           FlightSqlUtils.unpackOrThrow(command, CommandStatementQuery.class), context, descriptor);
+    } else if (command.is(CommandStatementSubstraitPlan.class)) {
+      return getFlightInfoSubstraitPlan(
+          FlightSqlUtils.unpackOrThrow(command, CommandStatementSubstraitPlan.class), context, descriptor);
     } else if (command.is(CommandPreparedStatementQuery.class)) {
       return getFlightInfoPreparedStatement(
           FlightSqlUtils.unpackOrThrow(command, CommandPreparedStatementQuery.class), context, descriptor);
@@ -130,7 +144,9 @@ default FlightInfo getFlightInfo(CallContext context, FlightDescriptor descripto
           FlightSqlUtils.unpackOrThrow(command, CommandGetXdbcTypeInfo.class), context, descriptor);
     }
 
-    throw CallStatus.INVALID_ARGUMENT.withDescription("The defined request is invalid.").toRuntimeException();
+    throw CallStatus.INVALID_ARGUMENT
+        .withDescription("Unrecognized request: " + command.getTypeUrl())
+        .toRuntimeException();
   }
 
   /**
@@ -147,29 +163,40 @@ default SchemaResult getSchema(CallContext context, FlightDescriptor descriptor)
     if (command.is(CommandStatementQuery.class)) {
       return getSchemaStatement(
           FlightSqlUtils.unpackOrThrow(command, CommandStatementQuery.class), context, descriptor);
+    } else if (command.is(CommandPreparedStatementQuery.class)) {
+      return getSchemaPreparedStatement(
+          FlightSqlUtils.unpackOrThrow(command, CommandPreparedStatementQuery.class), context, descriptor);
+    } else if (command.is(CommandStatementSubstraitPlan.class)) {
+      return getSchemaSubstraitPlan(
+          FlightSqlUtils.unpackOrThrow(command, CommandStatementSubstraitPlan.class), context, descriptor);
     } else if (command.is(CommandGetCatalogs.class)) {
       return new SchemaResult(Schemas.GET_CATALOGS_SCHEMA);
+    } else if (command.is(CommandGetCrossReference.class)) {
+      return new SchemaResult(Schemas.GET_CROSS_REFERENCE_SCHEMA);
     } else if (command.is(CommandGetDbSchemas.class)) {
       return new SchemaResult(Schemas.GET_SCHEMAS_SCHEMA);
+    } else if (command.is(CommandGetExportedKeys.class)) {
+      return new SchemaResult(Schemas.GET_EXPORTED_KEYS_SCHEMA);
+    } else if (command.is(CommandGetImportedKeys.class)) {
+      return new SchemaResult(Schemas.GET_IMPORTED_KEYS_SCHEMA);
+    } else if (command.is(CommandGetPrimaryKeys.class)) {
+      return new SchemaResult(Schemas.GET_PRIMARY_KEYS_SCHEMA);
     } else if (command.is(CommandGetTables.class)) {
-      return new SchemaResult(Schemas.GET_TABLES_SCHEMA);
+      if (FlightSqlUtils.unpackOrThrow(command, CommandGetTables.class).getIncludeSchema()) {
+        return new SchemaResult(Schemas.GET_TABLES_SCHEMA);
+      }
+      return new SchemaResult(Schemas.GET_TABLES_SCHEMA_NO_SCHEMA);
     } else if (command.is(CommandGetTableTypes.class)) {
       return new SchemaResult(Schemas.GET_TABLE_TYPES_SCHEMA);
     } else if (command.is(CommandGetSqlInfo.class)) {
       return new SchemaResult(Schemas.GET_SQL_INFO_SCHEMA);
     } else if (command.is(CommandGetXdbcTypeInfo.class)) {
       return new SchemaResult(Schemas.GET_TYPE_INFO_SCHEMA);
-    } else if (command.is(CommandGetPrimaryKeys.class)) {
-      return new SchemaResult(Schemas.GET_PRIMARY_KEYS_SCHEMA);
-    } else if (command.is(CommandGetImportedKeys.class)) {
-      return new SchemaResult(Schemas.GET_IMPORTED_KEYS_SCHEMA);
-    } else if (command.is(CommandGetExportedKeys.class)) {
-      return new SchemaResult(Schemas.GET_EXPORTED_KEYS_SCHEMA);
-    } else if (command.is(CommandGetCrossReference.class)) {
-      return new SchemaResult(Schemas.GET_CROSS_REFERENCE_SCHEMA);
     }
 
-    throw CallStatus.INVALID_ARGUMENT.withDescription("Invalid command provided.").toRuntimeException();
+    throw CallStatus.INVALID_ARGUMENT
+        .withDescription("Unrecognized request: " + command.getTypeUrl())
+        .toRuntimeException();
   }
 
   /**
@@ -243,6 +270,10 @@ default Runnable acceptPut(CallContext context, FlightStream flightStream, Strea
       return acceptPutStatement(
           FlightSqlUtils.unpackOrThrow(command, CommandStatementUpdate.class),
           context, flightStream, ackStream);
+    } else if (command.is(CommandStatementSubstraitPlan.class)) {
+      return acceptPutSubstraitPlan(
+          FlightSqlUtils.unpackOrThrow(command, CommandStatementSubstraitPlan.class),
+          context, flightStream, ackStream);
     } else if (command.is(CommandPreparedStatementUpdate.class)) {
       return acceptPutPreparedStatementUpdate(
           FlightSqlUtils.unpackOrThrow(command, CommandPreparedStatementUpdate.class),
@@ -278,19 +309,91 @@ default void listActions(CallContext context, StreamListener<ActionType> listene
   @Override
   default void doAction(CallContext context, Action action, StreamListener<Result> listener) {
     final String actionType = action.getType();
-    if (actionType.equals(FlightSqlUtils.FLIGHT_SQL_CREATE_PREPARED_STATEMENT.getType())) {
+
+    if (actionType.equals(FlightSqlUtils.FLIGHT_SQL_BEGIN_SAVEPOINT.getType())) {
+      final ActionBeginSavepointRequest request =
+          FlightSqlUtils.unpackAndParseOrThrow(action.getBody(), ActionBeginSavepointRequest.class);
+      beginSavepoint(request, context, new ProtoListener<>(listener));
+    } else if (actionType.equals(FlightSqlUtils.FLIGHT_SQL_BEGIN_TRANSACTION.getType())) {
+      final ActionBeginTransactionRequest request =
+          FlightSqlUtils.unpackAndParseOrThrow(action.getBody(), ActionBeginTransactionRequest.class);
+      beginTransaction(request, context, new ProtoListener<>(listener));
+    } else if (actionType.equals(FlightSqlUtils.FLIGHT_SQL_CANCEL_QUERY.getType())) {
+      final ActionCancelQueryRequest request =
+          FlightSqlUtils.unpackAndParseOrThrow(action.getBody(), ActionCancelQueryRequest.class);
+      final FlightInfo info;
+      try {
+        info = FlightInfo.deserialize(request.getInfo().asReadOnlyByteBuffer());
+      } catch (IOException | URISyntaxException e) {
+        listener.onError(CallStatus.INTERNAL
+            .withDescription("Could not unpack FlightInfo: " + e)
+            .withCause(e)
+            .toRuntimeException());
+        return;
+      }
+      cancelQuery(info, context, new CancelListener(listener));
+    } else if (actionType.equals(FlightSqlUtils.FLIGHT_SQL_CREATE_PREPARED_STATEMENT.getType())) {
       final ActionCreatePreparedStatementRequest request = FlightSqlUtils.unpackAndParseOrThrow(action.getBody(),
           ActionCreatePreparedStatementRequest.class);
       createPreparedStatement(request, context, listener);
+    } else if (actionType.equals(FlightSqlUtils.FLIGHT_SQL_CREATE_PREPARED_SUBSTRAIT_PLAN.getType())) {
+      final ActionCreatePreparedSubstraitPlanRequest request =
+          FlightSqlUtils.unpackAndParseOrThrow(action.getBody(), ActionCreatePreparedSubstraitPlanRequest.class);
+      createPreparedSubstraitPlan(request, context, new ProtoListener<>(listener));
     } else if (actionType.equals(FlightSqlUtils.FLIGHT_SQL_CLOSE_PREPARED_STATEMENT.getType())) {
-      final ActionClosePreparedStatementRequest request = FlightSqlUtils.unpackAndParseOrThrow(action.getBody(),
-          ActionClosePreparedStatementRequest.class);
-      closePreparedStatement(request, context, listener);
+      final ActionClosePreparedStatementRequest request =
+          FlightSqlUtils.unpackAndParseOrThrow(action.getBody(), ActionClosePreparedStatementRequest.class);
+      closePreparedStatement(request, context, new NoResultListener(listener));
+    } else if (actionType.equals(FlightSqlUtils.FLIGHT_SQL_END_SAVEPOINT.getType())) {
+      ActionEndSavepointRequest request =
+          FlightSqlUtils.unpackAndParseOrThrow(action.getBody(), ActionEndSavepointRequest.class);
+      endSavepoint(request, context, new NoResultListener(listener));
+    } else if (actionType.equals(FlightSqlUtils.FLIGHT_SQL_END_TRANSACTION.getType())) {
+      ActionEndTransactionRequest request =
+          FlightSqlUtils.unpackAndParseOrThrow(action.getBody(), ActionEndTransactionRequest.class);
+      endTransaction(request, context, new NoResultListener(listener));
     } else {
-      throw CallStatus.INVALID_ARGUMENT.withDescription("Invalid action provided.").toRuntimeException();
+      throw CallStatus.INVALID_ARGUMENT
+          .withDescription("Unrecognized request: " + action.getType())
+          .toRuntimeException();
     }
   }
 
+  /**
+   * Create a savepoint within a transaction.
+   *
+   * @param request  The savepoint request.
+   * @param context  Per-call context.
+   * @param listener The newly created savepoint ID.
+   */
+  default void beginSavepoint(ActionBeginSavepointRequest request, CallContext context,
+                              StreamListener<ActionBeginSavepointResult> listener) {
+    listener.onError(CallStatus.UNIMPLEMENTED.toRuntimeException());
+  }
+
+  /**
+   * Begin a transaction.
+   *
+   * @param request  The transaction request.
+   * @param context  Per-call context.
+   * @param listener The newly created transaction ID.
+   */
+  default void beginTransaction(ActionBeginTransactionRequest request, CallContext context,
+                                StreamListener<ActionBeginTransactionResult> listener) {
+    listener.onError(CallStatus.UNIMPLEMENTED.toRuntimeException());
+  }
+
+  /**
+   * Explicitly cancel a query.
+   *
+   * @param info     The FlightInfo of the query to cancel.
+   * @param context  Per-call context.
+   * @param listener Whether cancellation succeeded.
+   */
+  default void cancelQuery(FlightInfo info, CallContext context, StreamListener<CancelResult> listener) {
+    listener.onError(CallStatus.UNIMPLEMENTED.toRuntimeException());
+  }
+
   /**
    * Creates a prepared statement on the server and returns a handle and metadata for in a
    * {@link ActionCreatePreparedStatementResult} object in a {@link Result}
@@ -303,6 +406,17 @@ default void doAction(CallContext context, Action action, StreamListener<Result>
   void createPreparedStatement(ActionCreatePreparedStatementRequest request, CallContext context,
                                StreamListener<Result> listener);
 
+  /**
+   * Pre-compile a Substrait plan.
+   * @param request  The plan.
+   * @param context  Per-call context.
+   * @param listener The resulting prepared statement.
+   */
+  default void createPreparedSubstraitPlan(ActionCreatePreparedSubstraitPlanRequest request, CallContext context,
+                                           StreamListener<ActionCreatePreparedStatementResult> listener) {
+    listener.onError(CallStatus.UNIMPLEMENTED.toRuntimeException());
+  }
+
   /**
    * Closes a prepared statement on the server. No result is expected.
    *
@@ -314,9 +428,35 @@ void closePreparedStatement(ActionClosePreparedStatementRequest request, CallCon
                               StreamListener<Result> listener);
 
   /**
-   * Gets information about a particular SQL query based data stream.
+   * Release or roll back to a savepoint.
+   *
+   * @param request  The savepoint, and whether to release/rollback.
+   * @param context  Per-call context.
+   * @param listener Call {@link StreamListener#onCompleted()} or
+   *                 {@link StreamListener#onError(Throwable)} when done; do not send a result.
+   */
+  default void endSavepoint(ActionEndSavepointRequest request, CallContext context,
+                            StreamListener<Result> listener) {
+    listener.onError(CallStatus.UNIMPLEMENTED.toRuntimeException());
+  }
+
+  /**
+   * Commit or roll back to a transaction.
+   *
+   * @param request  The transaction, and whether to release/rollback.
+   * @param context  Per-call context.
+   * @param listener Call {@link StreamListener#onCompleted()} or
+   *                 {@link StreamListener#onError(Throwable)} when done; do not send a result.
+   */
+  default void endTransaction(ActionEndTransactionRequest request, CallContext context,
+                              StreamListener<Result> listener) {
+    listener.onError(CallStatus.UNIMPLEMENTED.toRuntimeException());
+  }
+
+  /**
+   * Evaluate a SQL query.
    *
-   * @param command    The sql command to generate the data stream.
+   * @param command    The SQL query.
    * @param context    Per-call context.
    * @param descriptor The descriptor identifying the data stream.
    * @return Metadata about the stream.
@@ -324,6 +464,19 @@ void closePreparedStatement(ActionClosePreparedStatementRequest request, CallCon
   FlightInfo getFlightInfoStatement(CommandStatementQuery command, CallContext context,
                                     FlightDescriptor descriptor);
 
+  /**
+   * Evaluate a Substrait plan.
+   *
+   * @param command    The Substrait plan.
+   * @param context    Per-call context.
+   * @param descriptor The descriptor identifying the data stream.
+   * @return Metadata about the stream.
+   */
+  default FlightInfo getFlightInfoSubstraitPlan(CommandStatementSubstraitPlan command, CallContext context,
+                                                FlightDescriptor descriptor) {
+    throw CallStatus.UNIMPLEMENTED.toRuntimeException();
+  }
+
   /**
    * Gets information about a particular prepared statement data stream.
    *
@@ -336,16 +489,44 @@ FlightInfo getFlightInfoPreparedStatement(CommandPreparedStatementQuery command,
                                             CallContext context, FlightDescriptor descriptor);
 
   /**
-   * Gets schema about a particular SQL query based data stream.
+   * Get the result schema for a SQL query.
    *
-   * @param command    The sql command to generate the data stream.
+   * @param command    The SQL query.
    * @param context    Per-call context.
    * @param descriptor The descriptor identifying the data stream.
-   * @return Schema for the stream.
+   * @return the schema of the result set.
    */
   SchemaResult getSchemaStatement(CommandStatementQuery command, CallContext context,
                                   FlightDescriptor descriptor);
 
+  /**
+   * Get the schema of the result set of a prepared statement.
+   *
+   * @param command    The prepared statement handle.
+   * @param context    Per-call context.
+   * @param descriptor The descriptor identifying the data stream.
+   * @return the schema of the result set.
+   */
+  default SchemaResult getSchemaPreparedStatement(CommandPreparedStatementQuery command, CallContext context,
+                                  FlightDescriptor descriptor) {
+    throw CallStatus.UNIMPLEMENTED
+        .withDescription("GetSchema with CommandPreparedStatementQuery is not implemented")
+        .toRuntimeException();
+  }
+
+  /**
+   * Get the result schema for a Substrait plan.
+   *
+   * @param command    The Substrait plan.
+   * @param context    Per-call context.
+   * @param descriptor The descriptor identifying the data stream.
+   * @return Schema for the stream.
+   */
+  default SchemaResult getSchemaSubstraitPlan(CommandStatementSubstraitPlan command, CallContext context,
+                                              FlightDescriptor descriptor) {
+    throw CallStatus.UNIMPLEMENTED.toRuntimeException();
+  }
+
   /**
    * Returns data for a SQL query based data stream.
    * @param ticket   Ticket message containing the statement handle.
@@ -378,6 +559,22 @@ void getStreamPreparedStatement(CommandPreparedStatementQuery command, CallConte
   Runnable acceptPutStatement(CommandStatementUpdate command, CallContext context,
                               FlightStream flightStream, StreamListener<PutResult> ackStream);
 
+  /**
+   * Handle a Substrait plan with uploaded data.
+   *
+   * @param command      The Substrait plan to evaluate.
+   * @param context      Per-call context.
+   * @param flightStream The data stream being uploaded.
+   * @param ackStream    The result data stream.
+   * @return A runnable to process the stream.
+   */
+  default Runnable acceptPutSubstraitPlan(CommandStatementSubstraitPlan command, CallContext context,
+                                          FlightStream flightStream, StreamListener<PutResult> ackStream) {
+    return () -> {
+      ackStream.onError(CallStatus.UNIMPLEMENTED.toRuntimeException());
+    };
+  }
+
   /**
    * Accepts uploaded data for a particular prepared statement data stream.
    * <p>`PutResult`s must be in the form of a {@link DoPutUpdateResult}.
@@ -429,7 +626,7 @@ FlightInfo getFlightInfoSqlInfo(CommandGetSqlInfo request, CallContext context,
 
   /**
    * Returns a description of all the data types supported by source.
-   * 
+   *
    * @param request     request filter parameters.
    * @param descriptor  The descriptor identifying the data stream.
    * @return  Metadata about the stream.
diff --git a/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/FlightSqlUtils.java b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/FlightSqlUtils.java
index 25affa8f08a..532921a8ac6 100644
--- a/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/FlightSqlUtils.java
+++ b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/FlightSqlUtils.java
@@ -31,6 +31,18 @@
  * Utilities to work with Flight SQL semantics.
  */
 public final class FlightSqlUtils {
+
+  public static final ActionType FLIGHT_SQL_BEGIN_SAVEPOINT =
+      new ActionType("BeginSavepoint",
+          "Create a new savepoint.\n" +
+              "Request Message: ActionBeginSavepointRequest\n" +
+              "Response Message: ActionBeginSavepointResult");
+
+  public static final ActionType FLIGHT_SQL_BEGIN_TRANSACTION =
+      new ActionType("BeginTransaction",
+          "Start a new transaction.\n" +
+              "Request Message: ActionBeginTransactionRequest\n" +
+              "Response Message: ActionBeginTransactionResult");
   public static final ActionType FLIGHT_SQL_CREATE_PREPARED_STATEMENT = new ActionType("CreatePreparedStatement",
       "Creates a reusable prepared statement resource on the server. \n" +
           "Request Message: ActionCreatePreparedStatementRequest\n" +
@@ -41,6 +53,29 @@ public final class FlightSqlUtils {
           "Request Message: ActionClosePreparedStatementRequest\n" +
           "Response Message: N/A");
 
+  public static final ActionType FLIGHT_SQL_CREATE_PREPARED_SUBSTRAIT_PLAN =
+      new ActionType("CreatePreparedSubstraitPlan",
+          "Creates a reusable prepared statement resource on the server.\n" +
+              "Request Message: ActionCreatePreparedSubstraitPlanRequest\n" +
+              "Response Message: ActionCreatePreparedStatementResult");
+
+  public static final ActionType FLIGHT_SQL_CANCEL_QUERY =
+      new ActionType("CancelQuery",
+          "Explicitly cancel a running query.\n" +
+              "Request Message: ActionCancelQueryRequest\n" +
+              "Response Message: ActionCancelQueryResult");
+
+  public static final ActionType FLIGHT_SQL_END_SAVEPOINT =
+      new ActionType("EndSavepoint",
+          "End a savepoint.\n" +
+              "Request Message: ActionEndSavepointRequest\n" +
+              "Response Message: N/A");
+  public static final ActionType FLIGHT_SQL_END_TRANSACTION =
+      new ActionType("EndTransaction",
+          "End a transaction.\n" +
+              "Request Message: ActionEndTransactionRequest\n" +
+              "Response Message: N/A");
+
   public static final List<ActionType> FLIGHT_SQL_ACTIONS = ImmutableList.of(
       FLIGHT_SQL_CREATE_PREPARED_STATEMENT,
       FLIGHT_SQL_CLOSE_PREPARED_STATEMENT
@@ -76,7 +111,7 @@ public static <T extends Message> T unpackOrThrow(Any source, Class<T> as) {
       return source.unpack(as);
     } catch (final InvalidProtocolBufferException e) {
       throw CallStatus.INVALID_ARGUMENT
-          .withDescription("Provided message cannot be unpacked as desired type.")
+          .withDescription("Provided message cannot be unpacked as " + as.getName() + ": " + e)
           .withCause(e)
           .toRuntimeException();
     }
diff --git a/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/NoResultListener.java b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/NoResultListener.java
new file mode 100644
index 00000000000..2c80076a8f5
--- /dev/null
+++ b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/NoResultListener.java
@@ -0,0 +1,45 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.flight.sql;
+
+import org.apache.arrow.flight.FlightProducer;
+import org.apache.arrow.flight.Result;
+
+/** A StreamListener for actions that do not return results. */
+class NoResultListener implements FlightProducer.StreamListener<Result> {
+  private final FlightProducer.StreamListener<Result> listener;
+
+  NoResultListener(FlightProducer.StreamListener<Result> listener) {
+    this.listener = listener;
+  }
+
+  @Override
+  public void onNext(Result val) {
+    throw new UnsupportedOperationException("Do not call onNext on this listener.");
+  }
+
+  @Override
+  public void onError(Throwable t) {
+    listener.onError(t);
+  }
+
+  @Override
+  public void onCompleted() {
+    listener.onCompleted();
+  }
+}
diff --git a/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/ProtoListener.java b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/ProtoListener.java
new file mode 100644
index 00000000000..fd5fd048962
--- /dev/null
+++ b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/ProtoListener.java
@@ -0,0 +1,52 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.flight.sql;
+
+import org.apache.arrow.flight.FlightProducer;
+import org.apache.arrow.flight.Result;
+
+import com.google.protobuf.Any;
+import com.google.protobuf.Message;
+
+/**
+ * A StreamListener that accepts a particular type.
+ *
+ * @param <T> The message type to accept.
+ */
+class ProtoListener<T extends Message> implements FlightProducer.StreamListener<T> {
+  private final FlightProducer.StreamListener<Result> listener;
+
+  ProtoListener(FlightProducer.StreamListener<Result> listener) {
+    this.listener = listener;
+  }
+
+  @Override
+  public void onNext(T val) {
+    listener.onNext(new Result(Any.pack(val).toByteArray()));
+  }
+
+  @Override
+  public void onError(Throwable t) {
+    listener.onError(t);
+  }
+
+  @Override
+  public void onCompleted() {
+    listener.onCompleted();
+  }
+}
diff --git a/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/SqlInfoBuilder.java b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/SqlInfoBuilder.java
index 3866cb89b1f..18793f9b905 100644
--- a/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/SqlInfoBuilder.java
+++ b/java/flight/flight-sql/src/main/java/org/apache/arrow/flight/sql/SqlInfoBuilder.java
@@ -20,6 +20,7 @@
 import static java.nio.charset.StandardCharsets.UTF_8;
 import static java.util.stream.IntStream.range;
 import static org.apache.arrow.flight.FlightProducer.ServerStreamListener;
+import static org.apache.arrow.flight.sql.impl.FlightSql.SqlSupportedTransaction;
 import static org.apache.arrow.flight.sql.util.SqlInfoOptionsUtils.createBitmaskFromEnums;
 
 import java.nio.charset.StandardCharsets;
@@ -118,6 +119,46 @@ public SqlInfoBuilder withFlightSqlServerArrowVersion(final String value) {
     return withStringProvider(SqlInfo.FLIGHT_SQL_SERVER_ARROW_VERSION_VALUE, value);
   }
 
+  /** Set a value for SQL support. */
+  public SqlInfoBuilder withFlightSqlServerSql(boolean value) {
+    return withBooleanProvider(SqlInfo.FLIGHT_SQL_SERVER_SQL_VALUE, value);
+  }
+
+  /** Set a value for Substrait support. */
+  public SqlInfoBuilder withFlightSqlServerSubstrait(boolean value) {
+    return withBooleanProvider(SqlInfo.FLIGHT_SQL_SERVER_SUBSTRAIT_VALUE, value);
+  }
+
+  /** Set a value for Substrait minimum version support. */
+  public SqlInfoBuilder withFlightSqlServerSubstraitMinVersion(String value) {
+    return withStringProvider(SqlInfo.FLIGHT_SQL_SERVER_SUBSTRAIT_MIN_VERSION_VALUE, value);
+  }
+
+  /** Set a value for Substrait maximum version support. */
+  public SqlInfoBuilder withFlightSqlServerSubstraitMaxVersion(String value) {
+    return withStringProvider(SqlInfo.FLIGHT_SQL_SERVER_SUBSTRAIT_MAX_VERSION_VALUE, value);
+  }
+
+  /** Set a value for transaction support. */
+  public SqlInfoBuilder withFlightSqlServerTransaction(SqlSupportedTransaction value) {
+    return withIntProvider(SqlInfo.FLIGHT_SQL_SERVER_TRANSACTION_VALUE, value.getNumber());
+  }
+
+  /** Set a value for query cancellation support. */
+  public SqlInfoBuilder withFlightSqlServerCancel(boolean value) {
+    return withBooleanProvider(SqlInfo.FLIGHT_SQL_SERVER_CANCEL_VALUE, value);
+  }
+
+  /** Set a value for statement timeouts. */
+  public SqlInfoBuilder withFlightSqlServerStatementTimeout(int value) {
+    return withIntProvider(SqlInfo.FLIGHT_SQL_SERVER_STATEMENT_TIMEOUT_VALUE, value);
+  }
+
+  /** Set a value for transaction timeouts. */
+  public SqlInfoBuilder withFlightSqlServerTransactionTimeout(int value) {
+    return withIntProvider(SqlInfo.FLIGHT_SQL_SERVER_TRANSACTION_TIMEOUT_VALUE, value);
+  }
+
   /**
    * Sets a value for {@link SqlInfo#SQL_IDENTIFIER_QUOTE_CHAR} in the builder.
    *
diff --git a/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/TestFlightSql.java b/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/TestFlightSql.java
index 06b3c9dbe20..d2f73b63737 100644
--- a/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/TestFlightSql.java
+++ b/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/TestFlightSql.java
@@ -67,12 +67,12 @@
 import org.apache.arrow.vector.types.pojo.Schema;
 import org.apache.arrow.vector.util.Text;
 import org.hamcrest.Matcher;
-import org.junit.AfterClass;
-import org.junit.Assert;
-import org.junit.BeforeClass;
-import org.junit.Rule;
-import org.junit.Test;
-import org.junit.rules.ErrorCollector;
+import org.hamcrest.MatcherAssert;
+import org.junit.jupiter.api.AfterAll;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.api.BeforeAll;
+import org.junit.jupiter.api.Test;
+import org.junit.jupiter.api.function.Executable;
 
 import com.google.common.collect.ImmutableList;
 
@@ -95,10 +95,8 @@ public class TestFlightSql {
   private static BufferAllocator allocator;
   private static FlightServer server;
   private static FlightSqlClient sqlClient;
-  @Rule
-  public final ErrorCollector collector = new ErrorCollector();
 
-  @BeforeClass
+  @BeforeAll
   public static void setUp() throws Exception {
     allocator = new RootAllocator(Integer.MAX_VALUE);
 
@@ -136,7 +134,7 @@ public static void setUp() throws Exception {
             Integer.toString(SqlSupportedCaseSensitivity.SQL_CASE_SENSITIVITY_CASE_INSENSITIVE_VALUE));
   }
 
-  @AfterClass
+  @AfterAll
   public static void tearDown() throws Exception {
     close(sqlClient, server, allocator);
   }
@@ -177,13 +175,13 @@ private static List<List<String>> getNonConformingResultsForGetSqlInfo(
   @Test
   public void testGetTablesSchema() {
     final FlightInfo info = sqlClient.getTables(null, null, null, null, true);
-    collector.checkThat(info.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA));
+    MatcherAssert.assertThat(info.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA));
   }
 
   @Test
   public void testGetTablesSchemaExcludeSchema() {
     final FlightInfo info = sqlClient.getTables(null, null, null, null, false);
-    collector.checkThat(info.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA_NO_SCHEMA));
+    MatcherAssert.assertThat(info.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA_NO_SCHEMA));
   }
 
   @Test
@@ -192,36 +190,42 @@ public void testGetTablesResultNoSchema() throws Exception {
              sqlClient.getStream(
                  sqlClient.getTables(null, null, null, null, false)
                      .getEndpoints().get(0).getTicket())) {
-      collector.checkThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA_NO_SCHEMA));
-      final List<List<String>> results = getResults(stream);
-      final List<List<String>> expectedResults = ImmutableList.of(
-          // catalog_name | schema_name | table_name | table_type | table_schema
-          asList(null /* TODO No catalog yet */, "SYS", "SYSALIASES", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSCHECKS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSCOLPERMS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSCOLUMNS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSCONGLOMERATES", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSCONSTRAINTS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSDEPENDS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSFILES", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSFOREIGNKEYS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSKEYS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSPERMS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSROLES", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSROUTINEPERMS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSSCHEMAS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSSEQUENCES", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSSTATEMENTS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSSTATISTICS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSTABLEPERMS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSTABLES", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSTRIGGERS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSUSERS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYS", "SYSVIEWS", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "SYSIBM", "SYSDUMMY1", "SYSTEM TABLE"),
-          asList(null /* TODO No catalog yet */, "APP", "FOREIGNTABLE", "TABLE"),
-          asList(null /* TODO No catalog yet */, "APP", "INTTABLE", "TABLE"));
-      collector.checkThat(results, is(expectedResults));
+      Assertions.assertAll(
+          () -> {
+            MatcherAssert.assertThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA_NO_SCHEMA));
+          },
+          () -> {
+            final List<List<String>> results = getResults(stream);
+            final List<List<String>> expectedResults = ImmutableList.of(
+                // catalog_name | schema_name | table_name | table_type | table_schema
+                asList(null /* TODO No catalog yet */, "SYS", "SYSALIASES", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSCHECKS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSCOLPERMS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSCOLUMNS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSCONGLOMERATES", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSCONSTRAINTS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSDEPENDS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSFILES", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSFOREIGNKEYS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSKEYS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSPERMS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSROLES", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSROUTINEPERMS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSSCHEMAS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSSEQUENCES", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSSTATEMENTS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSSTATISTICS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSTABLEPERMS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSTABLES", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSTRIGGERS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSUSERS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYS", "SYSVIEWS", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "SYSIBM", "SYSDUMMY1", "SYSTEM TABLE"),
+                asList(null /* TODO No catalog yet */, "APP", "FOREIGNTABLE", "TABLE"),
+                asList(null /* TODO No catalog yet */, "APP", "INTTABLE", "TABLE"));
+            MatcherAssert.assertThat(results, is(expectedResults));
+          }
+      );
     }
   }
 
@@ -231,13 +235,18 @@ public void testGetTablesResultFilteredNoSchema() throws Exception {
              sqlClient.getStream(
                  sqlClient.getTables(null, null, null, singletonList("TABLE"), false)
                      .getEndpoints().get(0).getTicket())) {
-      collector.checkThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA_NO_SCHEMA));
-      final List<List<String>> results = getResults(stream);
-      final List<List<String>> expectedResults = ImmutableList.of(
-          // catalog_name | schema_name | table_name | table_type | table_schema
-          asList(null /* TODO No catalog yet */, "APP", "FOREIGNTABLE", "TABLE"),
-          asList(null /* TODO No catalog yet */, "APP", "INTTABLE", "TABLE"));
-      collector.checkThat(results, is(expectedResults));
+
+      Assertions.assertAll(
+          () -> MatcherAssert.assertThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA_NO_SCHEMA)),
+          () -> {
+            final List<List<String>> results = getResults(stream);
+            final List<List<String>> expectedResults = ImmutableList.of(
+                // catalog_name | schema_name | table_name | table_type | table_schema
+                asList(null /* TODO No catalog yet */, "APP", "FOREIGNTABLE", "TABLE"),
+                asList(null /* TODO No catalog yet */, "APP", "INTTABLE", "TABLE"));
+            MatcherAssert.assertThat(results, is(expectedResults));
+          }
+      );
     }
   }
 
@@ -247,97 +256,115 @@ public void testGetTablesResultFilteredWithSchema() throws Exception {
              sqlClient.getStream(
                  sqlClient.getTables(null, null, null, singletonList("TABLE"), true)
                      .getEndpoints().get(0).getTicket())) {
-      collector.checkThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA));
-      final List<List<String>> results = getResults(stream);
-      final List<List<String>> expectedResults = ImmutableList.of(
-          // catalog_name | schema_name | table_name | table_type | table_schema
-          asList(
-              null /* TODO No catalog yet */,
-              "APP",
-              "FOREIGNTABLE",
-              "TABLE",
-              new Schema(asList(
-                  new Field("ID", new FieldType(false, MinorType.INT.getType(), null,
-                      new FlightSqlColumnMetadata.Builder()
-                          .catalogName("")
-                          .schemaName("APP")
-                          .tableName("FOREIGNTABLE")
-                          .precision(10)
-                          .scale(0)
-                          .isAutoIncrement(true)
-                          .build().getMetadataMap()), null),
-                  new Field("FOREIGNNAME", new FieldType(true, MinorType.VARCHAR.getType(), null,
-                      new FlightSqlColumnMetadata.Builder()
-                          .catalogName("")
-                          .schemaName("APP")
-                          .tableName("FOREIGNTABLE")
-                          .precision(100)
-                          .scale(0)
-                          .isAutoIncrement(false)
-                          .build().getMetadataMap()), null),
-                  new Field("VALUE", new FieldType(true, MinorType.INT.getType(), null,
-                      new FlightSqlColumnMetadata.Builder()
-                          .catalogName("")
-                          .schemaName("APP")
-                          .tableName("FOREIGNTABLE")
-                          .precision(10)
-                          .scale(0)
-                          .isAutoIncrement(false)
-                          .build().getMetadataMap()), null))).toJson()),
-          asList(
-              null /* TODO No catalog yet */,
-              "APP",
-              "INTTABLE",
-              "TABLE",
-              new Schema(asList(
-                  new Field("ID", new FieldType(false, MinorType.INT.getType(), null,
-                      new FlightSqlColumnMetadata.Builder()
-                          .catalogName("")
-                          .schemaName("APP")
-                          .tableName("INTTABLE")
-                          .precision(10)
-                          .scale(0)
-                          .isAutoIncrement(true)
-                          .build().getMetadataMap()), null),
-                  new Field("KEYNAME", new FieldType(true, MinorType.VARCHAR.getType(), null,
-                      new FlightSqlColumnMetadata.Builder()
-                          .catalogName("")
-                          .schemaName("APP")
-                          .tableName("INTTABLE")
-                          .precision(100)
-                          .scale(0)
-                          .isAutoIncrement(false)
-                          .build().getMetadataMap()), null),
-                  new Field("VALUE", new FieldType(true, MinorType.INT.getType(), null,
-                      new FlightSqlColumnMetadata.Builder()
-                          .catalogName("")
-                          .schemaName("APP")
-                          .tableName("INTTABLE")
-                          .precision(10)
-                          .scale(0)
-                          .isAutoIncrement(false)
-                          .build().getMetadataMap()), null),
-                  new Field("FOREIGNID", new FieldType(true, MinorType.INT.getType(), null,
-                      new FlightSqlColumnMetadata.Builder()
-                          .catalogName("")
-                          .schemaName("APP")
-                          .tableName("INTTABLE")
-                          .precision(10)
-                          .scale(0)
-                          .isAutoIncrement(false)
-                          .build().getMetadataMap()), null))).toJson()));
-      collector.checkThat(results, is(expectedResults));
+      Assertions.assertAll(
+          () -> MatcherAssert.assertThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA)),
+          () -> {
+            MatcherAssert.assertThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLES_SCHEMA));
+            final List<List<String>> results = getResults(stream);
+            final List<List<String>> expectedResults = ImmutableList.of(
+                // catalog_name | schema_name | table_name | table_type | table_schema
+                asList(
+                    null /* TODO No catalog yet */,
+                    "APP",
+                    "FOREIGNTABLE",
+                    "TABLE",
+                    new Schema(asList(
+                        new Field("ID", new FieldType(false, MinorType.INT.getType(), null,
+                            new FlightSqlColumnMetadata.Builder()
+                                .catalogName("")
+                                .typeName("INTEGER")
+                                .schemaName("APP")
+                                .tableName("FOREIGNTABLE")
+                                .precision(10)
+                                .scale(0)
+                                .isAutoIncrement(true)
+                                .build().getMetadataMap()), null),
+                        new Field("FOREIGNNAME", new FieldType(true, MinorType.VARCHAR.getType(), null,
+                            new FlightSqlColumnMetadata.Builder()
+                                .catalogName("")
+                                .typeName("VARCHAR")
+                                .schemaName("APP")
+                                .tableName("FOREIGNTABLE")
+                                .precision(100)
+                                .scale(0)
+                                .isAutoIncrement(false)
+                                .build().getMetadataMap()), null),
+                        new Field("VALUE", new FieldType(true, MinorType.INT.getType(), null,
+                            new FlightSqlColumnMetadata.Builder()
+                                .catalogName("")
+                                .typeName("INTEGER")
+                                .schemaName("APP")
+                                .tableName("FOREIGNTABLE")
+                                .precision(10)
+                                .scale(0)
+                                .isAutoIncrement(false)
+                                .build().getMetadataMap()), null))).toJson()),
+                asList(
+                    null /* TODO No catalog yet */,
+                    "APP",
+                    "INTTABLE",
+                    "TABLE",
+                    new Schema(asList(
+                        new Field("ID", new FieldType(false, MinorType.INT.getType(), null,
+                            new FlightSqlColumnMetadata.Builder()
+                                .catalogName("")
+                                .typeName("INTEGER")
+                                .schemaName("APP")
+                                .tableName("INTTABLE")
+                                .precision(10)
+                                .scale(0)
+                                .isAutoIncrement(true)
+                                .build().getMetadataMap()), null),
+                        new Field("KEYNAME", new FieldType(true, MinorType.VARCHAR.getType(), null,
+                            new FlightSqlColumnMetadata.Builder()
+                                .catalogName("")
+                                .typeName("VARCHAR")
+                                .schemaName("APP")
+                                .tableName("INTTABLE")
+                                .precision(100)
+                                .scale(0)
+                                .isAutoIncrement(false)
+                                .build().getMetadataMap()), null),
+                        new Field("VALUE", new FieldType(true, MinorType.INT.getType(), null,
+                            new FlightSqlColumnMetadata.Builder()
+                                .catalogName("")
+                                .typeName("INTEGER")
+                                .schemaName("APP")
+                                .tableName("INTTABLE")
+                                .precision(10)
+                                .scale(0)
+                                .isAutoIncrement(false)
+                                .build().getMetadataMap()), null),
+                        new Field("FOREIGNID", new FieldType(true, MinorType.INT.getType(), null,
+                            new FlightSqlColumnMetadata.Builder()
+                                .catalogName("")
+                                .typeName("INTEGER")
+                                .schemaName("APP")
+                                .tableName("INTTABLE")
+                                .precision(10)
+                                .scale(0)
+                                .isAutoIncrement(false)
+                                .build().getMetadataMap()), null))).toJson()));
+            MatcherAssert.assertThat(results, is(expectedResults));
+          }
+      );
     }
   }
 
   @Test
   public void testSimplePreparedStatementSchema() throws Exception {
     try (final PreparedStatement preparedStatement = sqlClient.prepare("SELECT * FROM intTable")) {
-      final Schema actualSchema = preparedStatement.getResultSetSchema();
-      collector.checkThat(actualSchema, is(SCHEMA_INT_TABLE));
-
-      final FlightInfo info = preparedStatement.execute();
-      collector.checkThat(info.getSchema(), is(SCHEMA_INT_TABLE));
+      Assertions.assertAll(
+          () -> {
+            final Schema actualSchema = preparedStatement.getResultSetSchema();
+            MatcherAssert.assertThat(actualSchema, is(SCHEMA_INT_TABLE));
+
+          },
+          () -> {
+            final FlightInfo info = preparedStatement.execute();
+            MatcherAssert.assertThat(info.getSchema(), is(SCHEMA_INT_TABLE));
+          }
+      );
     }
   }
 
@@ -346,8 +373,10 @@ public void testSimplePreparedStatementResults() throws Exception {
     try (final PreparedStatement preparedStatement = sqlClient.prepare("SELECT * FROM intTable");
          final FlightStream stream = sqlClient.getStream(
              preparedStatement.execute().getEndpoints().get(0).getTicket())) {
-      collector.checkThat(stream.getSchema(), is(SCHEMA_INT_TABLE));
-      collector.checkThat(getResults(stream), is(EXPECTED_RESULTS_FOR_STAR_SELECT_QUERY));
+      Assertions.assertAll(
+          () -> MatcherAssert.assertThat(stream.getSchema(), is(SCHEMA_INT_TABLE)),
+          () -> MatcherAssert.assertThat(getResults(stream), is(EXPECTED_RESULTS_FOR_STAR_SELECT_QUERY))
+      );
     }
   }
 
@@ -369,8 +398,10 @@ public void testSimplePreparedStatementResultsWithParameterBinding() throws Exce
             .getEndpoints()
             .get(0).getTicket());
 
-        collector.checkThat(stream.getSchema(), is(SCHEMA_INT_TABLE));
-        collector.checkThat(getResults(stream), is(EXPECTED_RESULTS_FOR_PARAMETER_BINDING));
+        Assertions.assertAll(
+            () -> MatcherAssert.assertThat(stream.getSchema(), is(SCHEMA_INT_TABLE)),
+            () -> MatcherAssert.assertThat(getResults(stream), is(EXPECTED_RESULTS_FOR_PARAMETER_BINDING))
+        );
       }
     }
   }
@@ -403,9 +434,10 @@ public void testSimplePreparedStatementUpdateResults() throws SQLException {
           deletePrepare.setParameters(deleteRoot);
           deletedRows = deletePrepare.executeUpdate();
         }
-
-        collector.checkThat(updatedRows, is(10L));
-        collector.checkThat(deletedRows, is(10L));
+        Assertions.assertAll(
+            () -> MatcherAssert.assertThat(updatedRows, is(10L)),
+            () -> MatcherAssert.assertThat(deletedRows, is(10L))
+        );
       }
     }
   }
@@ -419,84 +451,108 @@ public void testSimplePreparedStatementUpdateResultsWithoutParameters() throws S
 
       final long deletedRows = deletePrepare.executeUpdate();
 
-      collector.checkThat(updatedRows, is(1L));
-      collector.checkThat(deletedRows, is(1L));
+      Assertions.assertAll(
+          () -> MatcherAssert.assertThat(updatedRows, is(1L)),
+          () -> MatcherAssert.assertThat(deletedRows, is(1L))
+      );
     }
   }
 
   @Test
   public void testSimplePreparedStatementClosesProperly() {
     final PreparedStatement preparedStatement = sqlClient.prepare("SELECT * FROM intTable");
-    collector.checkThat(preparedStatement.isClosed(), is(false));
-    preparedStatement.close();
-    collector.checkThat(preparedStatement.isClosed(), is(true));
+    Assertions.assertAll(
+        () -> {
+          MatcherAssert.assertThat(preparedStatement.isClosed(), is(false));
+        },
+        () -> {
+          preparedStatement.close();
+          MatcherAssert.assertThat(preparedStatement.isClosed(), is(true));
+        }
+    );
   }
 
   @Test
   public void testGetCatalogsSchema() {
     final FlightInfo info = sqlClient.getCatalogs();
-    collector.checkThat(info.getSchema(), is(FlightSqlProducer.Schemas.GET_CATALOGS_SCHEMA));
+    MatcherAssert.assertThat(info.getSchema(), is(FlightSqlProducer.Schemas.GET_CATALOGS_SCHEMA));
   }
 
   @Test
   public void testGetCatalogsResults() throws Exception {
     try (final FlightStream stream =
              sqlClient.getStream(sqlClient.getCatalogs().getEndpoints().get(0).getTicket())) {
-      collector.checkThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_CATALOGS_SCHEMA));
-      List<List<String>> catalogs = getResults(stream);
-      collector.checkThat(catalogs, is(emptyList()));
+      Assertions.assertAll(
+          () -> MatcherAssert.assertThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_CATALOGS_SCHEMA)),
+          () -> {
+            List<List<String>> catalogs = getResults(stream);
+            MatcherAssert.assertThat(catalogs, is(emptyList()));
+          }
+      );
     }
   }
 
   @Test
   public void testGetTableTypesSchema() {
     final FlightInfo info = sqlClient.getTableTypes();
-    collector.checkThat(info.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLE_TYPES_SCHEMA));
+    MatcherAssert.assertThat(info.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLE_TYPES_SCHEMA));
   }
 
   @Test
   public void testGetTableTypesResult() throws Exception {
     try (final FlightStream stream =
              sqlClient.getStream(sqlClient.getTableTypes().getEndpoints().get(0).getTicket())) {
-      collector.checkThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLE_TYPES_SCHEMA));
-      final List<List<String>> tableTypes = getResults(stream);
-      final List<List<String>> expectedTableTypes = ImmutableList.of(
-          // table_type
-          singletonList("SYNONYM"),
-          singletonList("SYSTEM TABLE"),
-          singletonList("TABLE"),
-          singletonList("VIEW")
+      Assertions.assertAll(
+          () -> {
+            MatcherAssert.assertThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_TABLE_TYPES_SCHEMA));
+          },
+          () -> {
+            final List<List<String>> tableTypes = getResults(stream);
+            final List<List<String>> expectedTableTypes = ImmutableList.of(
+                // table_type
+                singletonList("SYNONYM"),
+                singletonList("SYSTEM TABLE"),
+                singletonList("TABLE"),
+                singletonList("VIEW")
+            );
+            MatcherAssert.assertThat(tableTypes, is(expectedTableTypes));
+          }
       );
-      collector.checkThat(tableTypes, is(expectedTableTypes));
     }
   }
 
   @Test
   public void testGetSchemasSchema() {
     final FlightInfo info = sqlClient.getSchemas(null, null);
-    collector.checkThat(info.getSchema(), is(FlightSqlProducer.Schemas.GET_SCHEMAS_SCHEMA));
+    MatcherAssert.assertThat(info.getSchema(), is(FlightSqlProducer.Schemas.GET_SCHEMAS_SCHEMA));
   }
 
   @Test
   public void testGetSchemasResult() throws Exception {
     try (final FlightStream stream =
              sqlClient.getStream(sqlClient.getSchemas(null, null).getEndpoints().get(0).getTicket())) {
-      collector.checkThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_SCHEMAS_SCHEMA));
-      final List<List<String>> schemas = getResults(stream);
-      final List<List<String>> expectedSchemas = ImmutableList.of(
-          // catalog_name | schema_name
-          asList(null /* TODO Add catalog. */, "APP"),
-          asList(null /* TODO Add catalog. */, "NULLID"),
-          asList(null /* TODO Add catalog. */, "SQLJ"),
-          asList(null /* TODO Add catalog. */, "SYS"),
-          asList(null /* TODO Add catalog. */, "SYSCAT"),
-          asList(null /* TODO Add catalog. */, "SYSCS_DIAG"),
-          asList(null /* TODO Add catalog. */, "SYSCS_UTIL"),
-          asList(null /* TODO Add catalog. */, "SYSFUN"),
-          asList(null /* TODO Add catalog. */, "SYSIBM"),
-          asList(null /* TODO Add catalog. */, "SYSPROC"),
-          asList(null /* TODO Add catalog. */, "SYSSTAT"));
-      collector.checkThat(schemas, is(expectedSchemas));
+      Assertions.assertAll(
+          () -> {
+            MatcherAssert.assertThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_SCHEMAS_SCHEMA));
+          },
+          () -> {
+            final List<List<String>> schemas = getResults(stream);
+            final List<List<String>> expectedSchemas = ImmutableList.of(
+                // catalog_name | schema_name
+                asList(null /* TODO Add catalog. */, "APP"),
+                asList(null /* TODO Add catalog. */, "NULLID"),
+                asList(null /* TODO Add catalog. */, "SQLJ"),
+                asList(null /* TODO Add catalog. */, "SYS"),
+                asList(null /* TODO Add catalog. */, "SYSCAT"),
+                asList(null /* TODO Add catalog. */, "SYSCS_DIAG"),
+                asList(null /* TODO Add catalog. */, "SYSCS_UTIL"),
+                asList(null /* TODO Add catalog. */, "SYSFUN"),
+                asList(null /* TODO Add catalog. */, "SYSIBM"),
+                asList(null /* TODO Add catalog. */, "SYSPROC"),
+                asList(null /* TODO Add catalog. */, "SYSSTAT"));
+            MatcherAssert.assertThat(schemas, is(expectedSchemas));
+          }
+      );
     }
   }
 
@@ -506,30 +562,37 @@ public void testGetPrimaryKey() {
     final FlightStream stream = sqlClient.getStream(flightInfo.getEndpoints().get(0).getTicket());
 
     final List<List<String>> results = getResults(stream);
-    collector.checkThat(results.size(), is(1));
 
-    final List<String> result = results.get(0);
-
-    collector.checkThat(result.get(0), is(""));
-    collector.checkThat(result.get(1), is("APP"));
-    collector.checkThat(result.get(2), is("INTTABLE"));
-    collector.checkThat(result.get(3), is("ID"));
-    collector.checkThat(result.get(4), is("1"));
-    collector.checkThat(result.get(5), notNullValue());
+    Assertions.assertAll(
+        () -> MatcherAssert.assertThat(results.size(), is(1)),
+        () -> {
+          final List<String> result = results.get(0);
+          Assertions.assertAll(
+              () -> MatcherAssert.assertThat(result.get(0), is("")),
+              () -> MatcherAssert.assertThat(result.get(1), is("APP")),
+              () -> MatcherAssert.assertThat(result.get(2), is("INTTABLE")),
+              () -> MatcherAssert.assertThat(result.get(3), is("ID")),
+              () -> MatcherAssert.assertThat(result.get(4), is("1")),
+              () -> MatcherAssert.assertThat(result.get(5), notNullValue())
+          );
+        }
+    );
   }
 
   @Test
   public void testGetSqlInfoSchema() {
     final FlightInfo info = sqlClient.getSqlInfo();
-    collector.checkThat(info.getSchema(), is(FlightSqlProducer.Schemas.GET_SQL_INFO_SCHEMA));
+    MatcherAssert.assertThat(info.getSchema(), is(FlightSqlProducer.Schemas.GET_SQL_INFO_SCHEMA));
   }
 
   @Test
   public void testGetSqlInfoResults() throws Exception {
     final FlightInfo info = sqlClient.getSqlInfo();
     try (final FlightStream stream = sqlClient.getStream(info.getEndpoints().get(0).getTicket())) {
-      collector.checkThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_SQL_INFO_SCHEMA));
-      collector.checkThat(getNonConformingResultsForGetSqlInfo(getResults(stream)), is(emptyList()));
+      Assertions.assertAll(
+          () -> MatcherAssert.assertThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_SQL_INFO_SCHEMA)),
+          () -> MatcherAssert.assertThat(getNonConformingResultsForGetSqlInfo(getResults(stream)), is(emptyList()))
+      );
     }
   }
 
@@ -538,8 +601,10 @@ public void testGetSqlInfoResultsWithSingleArg() throws Exception {
     final FlightSql.SqlInfo arg = FlightSql.SqlInfo.FLIGHT_SQL_SERVER_NAME;
     final FlightInfo info = sqlClient.getSqlInfo(arg);
     try (final FlightStream stream = sqlClient.getStream(info.getEndpoints().get(0).getTicket())) {
-      collector.checkThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_SQL_INFO_SCHEMA));
-      collector.checkThat(getNonConformingResultsForGetSqlInfo(getResults(stream), arg), is(emptyList()));
+      Assertions.assertAll(
+          () -> MatcherAssert.assertThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_SQL_INFO_SCHEMA)),
+          () -> MatcherAssert.assertThat(getNonConformingResultsForGetSqlInfo(getResults(stream), arg), is(emptyList()))
+      );
     }
   }
 
@@ -550,8 +615,16 @@ public void testGetSqlInfoResultsWithTwoArgs() throws Exception {
         FlightSql.SqlInfo.FLIGHT_SQL_SERVER_VERSION};
     final FlightInfo info = sqlClient.getSqlInfo(args);
     try (final FlightStream stream = sqlClient.getStream(info.getEndpoints().get(0).getTicket())) {
-      collector.checkThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_SQL_INFO_SCHEMA));
-      collector.checkThat(getNonConformingResultsForGetSqlInfo(getResults(stream), args), is(emptyList()));
+      Assertions.assertAll(
+          () -> MatcherAssert.assertThat(
+              stream.getSchema(),
+              is(FlightSqlProducer.Schemas.GET_SQL_INFO_SCHEMA)
+          ),
+          () -> MatcherAssert.assertThat(
+              getNonConformingResultsForGetSqlInfo(getResults(stream), args),
+              is(emptyList())
+          )
+      );
     }
   }
 
@@ -563,8 +636,16 @@ public void testGetSqlInfoResultsWithThreeArgs() throws Exception {
         FlightSql.SqlInfo.SQL_IDENTIFIER_QUOTE_CHAR};
     final FlightInfo info = sqlClient.getSqlInfo(args);
     try (final FlightStream stream = sqlClient.getStream(info.getEndpoints().get(0).getTicket())) {
-      collector.checkThat(stream.getSchema(), is(FlightSqlProducer.Schemas.GET_SQL_INFO_SCHEMA));
-      collector.checkThat(getNonConformingResultsForGetSqlInfo(getResults(stream), args), is(emptyList()));
+      Assertions.assertAll(
+          () -> MatcherAssert.assertThat(
+              stream.getSchema(),
+              is(FlightSqlProducer.Schemas.GET_SQL_INFO_SCHEMA)
+          ),
+          () -> MatcherAssert.assertThat(
+              getNonConformingResultsForGetSqlInfo(getResults(stream), args),
+              is(emptyList())
+          )
+      );
     }
   }
 
@@ -592,10 +673,14 @@ public void testGetCommandExportedKeys() {
         is("3"), // update_rule
         is("3")); // delete_rule
 
-    Assert.assertEquals(1, results.size());
+    final List<Executable> assertions = new ArrayList<>();
+    Assertions.assertEquals(1, results.size());
     for (int i = 0; i < matchers.size(); i++) {
-      collector.checkThat(results.get(0).get(i), matchers.get(i));
+      final String actual = results.get(0).get(i);
+      final Matcher<String> expected = matchers.get(i);
+      assertions.add(() -> MatcherAssert.assertThat(actual, expected));
     }
+    Assertions.assertAll(assertions);
   }
 
   @Test
@@ -622,10 +707,14 @@ public void testGetCommandImportedKeys() {
         is("3"), // update_rule
         is("3")); // delete_rule
 
-    Assert.assertEquals(1, results.size());
+    Assertions.assertEquals(1, results.size());
+    final List<Executable> assertions = new ArrayList<>();
     for (int i = 0; i < matchers.size(); i++) {
-      collector.checkThat(results.get(0).get(i), matchers.get(i));
+      final String actual = results.get(0).get(i);
+      final Matcher<String> expected = matchers.get(i);
+      assertions.add(() -> MatcherAssert.assertThat(actual, expected));
     }
+    Assertions.assertAll(assertions);
   }
 
   @Test
@@ -703,7 +792,7 @@ public void testGetTypeInfo() {
         asList("XML", "2009", null, null, null, emptyList().toString(), "1", "true", "0", "false", "false", "false",
             "XML", null, null,
             null, null, null, null));
-    collector.checkThat(results, is(matchers));
+    MatcherAssert.assertThat(results, is(matchers));
   }
 
   @Test
@@ -718,7 +807,7 @@ public void testGetTypeInfoWithFiltering() {
         asList("BIGINT", "-5", "19", null, null, emptyList().toString(), "1", "false", "2", "false", "false", "true",
             "BIGINT", "0", "0",
             null, null, "10", null));
-    collector.checkThat(results, is(matchers));
+    MatcherAssert.assertThat(results, is(matchers));
   }
 
   @Test
@@ -744,16 +833,20 @@ public void testGetCommandCrossReference() {
         is("3"), // update_rule
         is("3")); // delete_rule
 
-    Assert.assertEquals(1, results.size());
+    Assertions.assertEquals(1, results.size());
+    final List<Executable> assertions = new ArrayList<>();
     for (int i = 0; i < matchers.size(); i++) {
-      collector.checkThat(results.get(0).get(i), matchers.get(i));
+      final String actual = results.get(0).get(i);
+      final Matcher<String> expected = matchers.get(i);
+      assertions.add(() -> MatcherAssert.assertThat(actual, expected));
     }
+    Assertions.assertAll(assertions);
   }
 
   @Test
   public void testCreateStatementSchema() throws Exception {
     final FlightInfo info = sqlClient.execute("SELECT * FROM intTable");
-    collector.checkThat(info.getSchema(), is(SCHEMA_INT_TABLE));
+    MatcherAssert.assertThat(info.getSchema(), is(SCHEMA_INT_TABLE));
 
     // Consume statement to close connection before cache eviction
     try (FlightStream stream = sqlClient.getStream(info.getEndpoints().get(0).getTicket())) {
@@ -767,8 +860,14 @@ public void testCreateStatementSchema() throws Exception {
   public void testCreateStatementResults() throws Exception {
     try (final FlightStream stream = sqlClient
         .getStream(sqlClient.execute("SELECT * FROM intTable").getEndpoints().get(0).getTicket())) {
-      collector.checkThat(stream.getSchema(), is(SCHEMA_INT_TABLE));
-      collector.checkThat(getResults(stream), is(EXPECTED_RESULTS_FOR_STAR_SELECT_QUERY));
+      Assertions.assertAll(
+          () -> {
+            MatcherAssert.assertThat(stream.getSchema(), is(SCHEMA_INT_TABLE));
+          },
+          () -> {
+            MatcherAssert.assertThat(getResults(stream), is(EXPECTED_RESULTS_FOR_STAR_SELECT_QUERY));
+          }
+      );
     }
   }
 
@@ -858,16 +957,24 @@ List<List<String>> getResults(FlightStream stream) {
 
   @Test
   public void testExecuteUpdate() {
-    long insertedCount = sqlClient.executeUpdate("INSERT INTO INTTABLE (keyName, value) VALUES " +
-        "('KEYNAME1', 1001), ('KEYNAME2', 1002), ('KEYNAME3', 1003)");
-    collector.checkThat(insertedCount, is(3L));
-
-    long updatedCount = sqlClient.executeUpdate("UPDATE INTTABLE SET keyName = 'KEYNAME1' " +
-        "WHERE keyName = 'KEYNAME2' OR keyName = 'KEYNAME3'");
-    collector.checkThat(updatedCount, is(2L));
-
-    long deletedCount = sqlClient.executeUpdate("DELETE FROM INTTABLE WHERE keyName = 'KEYNAME1'");
-    collector.checkThat(deletedCount, is(3L));
+    Assertions.assertAll(
+        () -> {
+          long insertedCount = sqlClient.executeUpdate("INSERT INTO INTTABLE (keyName, value) VALUES " +
+              "('KEYNAME1', 1001), ('KEYNAME2', 1002), ('KEYNAME3', 1003)");
+          MatcherAssert.assertThat(insertedCount, is(3L));
+
+        },
+        () -> {
+          long updatedCount = sqlClient.executeUpdate("UPDATE INTTABLE SET keyName = 'KEYNAME1' " +
+              "WHERE keyName = 'KEYNAME2' OR keyName = 'KEYNAME3'");
+          MatcherAssert.assertThat(updatedCount, is(2L));
+
+        },
+        () -> {
+          long deletedCount = sqlClient.executeUpdate("DELETE FROM INTTABLE WHERE keyName = 'KEYNAME1'");
+          MatcherAssert.assertThat(deletedCount, is(3L));
+        }
+    );
   }
 
   @Test
@@ -875,10 +982,13 @@ public void testQueryWithNoResultsShouldNotHang() throws Exception {
     try (final PreparedStatement preparedStatement = sqlClient.prepare("SELECT * FROM intTable WHERE 1 = 0");
          final FlightStream stream = sqlClient
              .getStream(preparedStatement.execute().getEndpoints().get(0).getTicket())) {
-      collector.checkThat(stream.getSchema(), is(SCHEMA_INT_TABLE));
-
-      final List<List<String>> result = getResults(stream);
-      collector.checkThat(result, is(emptyList()));
+      Assertions.assertAll(
+          () -> MatcherAssert.assertThat(stream.getSchema(), is(SCHEMA_INT_TABLE)),
+          () -> {
+            final List<List<String>> result = getResults(stream);
+            MatcherAssert.assertThat(result, is(emptyList()));
+          }
+      );
     }
   }
 }
diff --git a/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/sql/example/FlightSqlExample.java b/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/sql/example/FlightSqlExample.java
index baf162cb919..fe1e1445afc 100644
--- a/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/sql/example/FlightSqlExample.java
+++ b/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/sql/example/FlightSqlExample.java
@@ -217,6 +217,9 @@ public FlightSqlExample(final Location location) {
           .withFlightSqlServerVersion(metaData.getDatabaseProductVersion())
           .withFlightSqlServerArrowVersion(metaData.getDriverVersion())
           .withFlightSqlServerReadOnly(metaData.isReadOnly())
+          .withFlightSqlServerSql(true)
+          .withFlightSqlServerSubstrait(false)
+          .withFlightSqlServerTransaction(SqlSupportedTransaction.SQL_SUPPORTED_TRANSACTION_NONE)
           .withSqlIdentifierQuoteChar(metaData.getIdentifierQuoteString())
           .withSqlDdlCatalog(metaData.supportsCatalogsInDataManipulation())
           .withSqlDdlSchema( metaData.supportsSchemasInDataManipulation())
@@ -576,6 +579,7 @@ private static VectorSchemaRoot getTablesRoot(final DatabaseMetaData databaseMet
             final String catalogName = columnsData.getString("TABLE_CAT");
             final String schemaName = columnsData.getString("TABLE_SCHEM");
             final String tableName = columnsData.getString("TABLE_NAME");
+            final String typeName = columnsData.getString("TYPE_NAME");
             final String fieldName = columnsData.getString("COLUMN_NAME");
             final int dataType = columnsData.getInt("DATA_TYPE");
             final boolean isNullable = columnsData.getInt("NULLABLE") != DatabaseMetaData.columnNoNulls;
@@ -590,6 +594,7 @@ private static VectorSchemaRoot getTablesRoot(final DatabaseMetaData databaseMet
                 .catalogName(catalogName)
                 .schemaName(schemaName)
                 .tableName(tableName)
+                .typeName(typeName)
                 .precision(precision)
                 .scale(scale)
                 .isAutoIncrement(isAutoIncrement)
diff --git a/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/sql/util/SqlInfoOptionsUtilsBitmaskCreationTest.java b/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/sql/util/SqlInfoOptionsUtilsBitmaskCreationTest.java
index 6f2b66646bb..dfb1b9da3e2 100644
--- a/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/sql/util/SqlInfoOptionsUtilsBitmaskCreationTest.java
+++ b/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/sql/util/SqlInfoOptionsUtilsBitmaskCreationTest.java
@@ -22,29 +22,15 @@
 import static org.apache.arrow.flight.sql.util.AdhocTestOption.OPTION_B;
 import static org.apache.arrow.flight.sql.util.AdhocTestOption.OPTION_C;
 import static org.apache.arrow.flight.sql.util.SqlInfoOptionsUtils.createBitmaskFromEnums;
-import static org.hamcrest.CoreMatchers.is;
 
 import java.util.List;
 
-import org.junit.Rule;
-import org.junit.Test;
-import org.junit.rules.ErrorCollector;
-import org.junit.runner.RunWith;
-import org.junit.runners.Parameterized;
-import org.junit.runners.Parameterized.Parameter;
-import org.junit.runners.Parameterized.Parameters;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.params.ParameterizedTest;
+import org.junit.jupiter.params.provider.MethodSource;
 
-@RunWith(Parameterized.class)
 public final class SqlInfoOptionsUtilsBitmaskCreationTest {
 
-  @Parameter
-  public AdhocTestOption[] adhocTestOptions;
-  @Parameter(value = 1)
-  public long expectedBitmask;
-  @Rule
-  public final ErrorCollector collector = new ErrorCollector();
-
-  @Parameters
   public static List<Object[]> provideParameters() {
     return asList(
         new Object[][]{
@@ -59,8 +45,11 @@ public static List<Object[]> provideParameters() {
         });
   }
 
-  @Test
-  public void testShouldBuildBitmaskFromEnums() {
-    collector.checkThat(createBitmaskFromEnums(adhocTestOptions), is(expectedBitmask));
+  @ParameterizedTest
+  @MethodSource("provideParameters")
+  public void testShouldBuildBitmaskFromEnums(
+      AdhocTestOption[] adhocTestOptions, long expectedBitmask
+  ) {
+    Assertions.assertEquals(createBitmaskFromEnums(adhocTestOptions), expectedBitmask);
   }
 }
diff --git a/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/sql/util/SqlInfoOptionsUtilsBitmaskParsingTest.java b/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/sql/util/SqlInfoOptionsUtilsBitmaskParsingTest.java
index decee38ee0a..818326a582d 100644
--- a/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/sql/util/SqlInfoOptionsUtilsBitmaskParsingTest.java
+++ b/java/flight/flight-sql/src/test/java/org/apache/arrow/flight/sql/util/SqlInfoOptionsUtilsBitmaskParsingTest.java
@@ -24,31 +24,17 @@
 import static org.apache.arrow.flight.sql.util.AdhocTestOption.OPTION_B;
 import static org.apache.arrow.flight.sql.util.AdhocTestOption.OPTION_C;
 import static org.apache.arrow.flight.sql.util.SqlInfoOptionsUtils.doesBitmaskTranslateToEnum;
-import static org.hamcrest.CoreMatchers.is;
 
 import java.util.EnumSet;
 import java.util.List;
 import java.util.Set;
 
-import org.junit.Rule;
-import org.junit.Test;
-import org.junit.rules.ErrorCollector;
-import org.junit.runner.RunWith;
-import org.junit.runners.Parameterized;
-import org.junit.runners.Parameterized.Parameter;
-import org.junit.runners.Parameterized.Parameters;
+import org.junit.jupiter.api.Assertions;
+import org.junit.jupiter.params.ParameterizedTest;
+import org.junit.jupiter.params.provider.MethodSource;
 
-@RunWith(Parameterized.class)
 public final class SqlInfoOptionsUtilsBitmaskParsingTest {
 
-  @Parameter
-  public long bitmask;
-  @Parameter(value = 1)
-  public Set<AdhocTestOption> expectedOptions;
-  @Rule
-  public final ErrorCollector collector = new ErrorCollector();
-
-  @Parameters
   public static List<Object[]> provideParameters() {
     return asList(
         new Object[][]{
@@ -63,12 +49,13 @@ public static List<Object[]> provideParameters() {
         });
   }
 
-  @Test
-  public void testShouldFilterOutEnumsBasedOnBitmask() {
+  @ParameterizedTest
+  @MethodSource("provideParameters")
+  public void testShouldFilterOutEnumsBasedOnBitmask(long bitmask, Set<AdhocTestOption> expectedOptions) {
     final Set<AdhocTestOption> actualOptions =
         stream(AdhocTestOption.values())
             .filter(enumInstance -> doesBitmaskTranslateToEnum(enumInstance, bitmask))
             .collect(toCollection(() -> EnumSet.noneOf(AdhocTestOption.class)));
-    collector.checkThat(actualOptions, is(expectedOptions));
+    Assertions.assertEquals(actualOptions, expectedOptions);
   }
 }
diff --git a/java/flight/pom.xml b/java/flight/pom.xml
index dad0f05d7af..422c9f8bdcb 100644
--- a/java/flight/pom.xml
+++ b/java/flight/pom.xml
@@ -15,7 +15,7 @@
     <parent>
         <artifactId>arrow-java-root</artifactId>
         <groupId>org.apache.arrow</groupId>
-        <version>10.0.0-SNAPSHOT</version>
+        <version>11.0.0</version>
     </parent>
     <modelVersion>4.0.0</modelVersion>
 
@@ -28,6 +28,7 @@
         <module>flight-core</module>
         <module>flight-grpc</module>
         <module>flight-sql</module>
+        <module>flight-sql-jdbc-driver</module>
         <module>flight-integration-tests</module>
     </modules>
 
diff --git a/java/format/pom.xml b/java/format/pom.xml
index c5f74d57fc2..1125bc1aae0 100644
--- a/java/format/pom.xml
+++ b/java/format/pom.xml
@@ -15,7 +15,7 @@
 <parent>
   <artifactId>arrow-java-root</artifactId>
   <groupId>org.apache.arrow</groupId>
-  <version>10.0.0-SNAPSHOT</version>
+  <version>11.0.0</version>
 </parent>
 
 <artifactId>arrow-format</artifactId>
diff --git a/java/gandiva/CMakeLists.txt b/java/gandiva/CMakeLists.txt
index 5010daf7996..290ba9124ba 100644
--- a/java/gandiva/CMakeLists.txt
+++ b/java/gandiva/CMakeLists.txt
@@ -15,41 +15,78 @@
 # specific language governing permissions and limitations
 # under the License.
 
-project(gandiva_java)
-
-# Find java/jni
-include(FindJava)
-include(UseJava)
-include(FindJNI)
-
-message("generating headers to ${JNI_HEADERS_DIR}/jni")
-
-# generate_native_headers is available only from java8
-# centos5 does not have java8 images, so supporting java 7 too.
-# unfortunately create_javah does not work in java8 correctly.
-if(ARROW_GANDIVA_JAVA7)
-  add_jar(gandiva_java
-          src/main/java/org/apache/arrow/gandiva/evaluator/ConfigurationBuilder.java
-          src/main/java/org/apache/arrow/gandiva/evaluator/JniWrapper.java
-          src/main/java/org/apache/arrow/gandiva/evaluator/ExpressionRegistryJniHelper.java
-          src/main/java/org/apache/arrow/gandiva/exceptions/GandivaException.java)
-
-  create_javah(TARGET gandiva_jni_headers
-               CLASSES org.apache.arrow.gandiva.evaluator.ConfigurationBuilder
-                       org.apache.arrow.gandiva.evaluator.JniWrapper
-                       org.apache.arrow.gandiva.evaluator.ExpressionRegistryJniHelper
-                       org.apache.arrow.gandiva.exceptions.GandivaException
-               DEPENDS gandiva_java
-               CLASSPATH gandiva_java
-               OUTPUT_DIR ${JNI_HEADERS_DIR}/jni)
+find_package(Gandiva REQUIRED)
+
+include_directories(${CMAKE_CURRENT_BINARY_DIR} ${CMAKE_CURRENT_SOURCE_DIR}
+                    ${JNI_INCLUDE_DIRS} ${JNI_HEADERS_DIR})
+
+add_jar(arrow_java_jni_gandiva_jar
+        src/main/java/org/apache/arrow/gandiva/evaluator/ConfigurationBuilder.java
+        src/main/java/org/apache/arrow/gandiva/evaluator/JniWrapper.java
+        src/main/java/org/apache/arrow/gandiva/evaluator/ExpressionRegistryJniHelper.java
+        src/main/java/org/apache/arrow/gandiva/exceptions/GandivaException.java
+        GENERATE_NATIVE_HEADERS
+        arrow_java_jni_gandiva_headers)
+
+set(GANDIVA_PROTO_OUTPUT_DIR ${CMAKE_CURRENT_BINARY_DIR})
+set(GANDIVA_PROTO_OUTPUT_FILES "${GANDIVA_PROTO_OUTPUT_DIR}/Types.pb.cc"
+                               "${GANDIVA_PROTO_OUTPUT_DIR}/Types.pb.h")
+
+set_source_files_properties(${GANDIVA_PROTO_OUTPUT_FILES} PROPERTIES GENERATED TRUE)
+
+set(GANDIVA_PROTO_DIR ${CMAKE_CURRENT_SOURCE_DIR}/proto)
+get_filename_component(GANDIVA_PROTO_FILE_ABSOLUTE ${GANDIVA_PROTO_DIR}/Types.proto
+                       ABSOLUTE)
+
+find_package(Protobuf REQUIRED)
+if(MSVC)
+  add_definitions(-DPROTOBUF_USE_DLLS)
+endif()
+add_custom_command(OUTPUT ${GANDIVA_PROTO_OUTPUT_FILES}
+                   COMMAND protobuf::protoc --proto_path ${GANDIVA_PROTO_DIR} --cpp_out
+                           ${GANDIVA_PROTO_OUTPUT_DIR} ${GANDIVA_PROTO_FILE_ABSOLUTE}
+                   DEPENDS ${GANDIVA_PROTO_FILE_ABSOLUTE}
+                   COMMENT "Running Protobuf compiler on Types.proto"
+                   VERBATIM)
+
+add_custom_target(garrow_java_jni_gandiva_proto ALL DEPENDS ${GANDIVA_PROTO_OUTPUT_FILES})
+add_library(arrow_java_jni_gandiva SHARED
+            src/main/cpp/config_builder.cc
+            src/main/cpp/config_holder.cc
+            src/main/cpp/expression_registry_helper.cc
+            src/main/cpp/jni_common.cc
+            ${GANDIVA_PROTO_OUTPUT_FILES})
+set_property(TARGET arrow_java_jni_gandiva PROPERTY OUTPUT_NAME "gandiva_jni")
+target_link_libraries(arrow_java_jni_gandiva
+                      arrow_java_jni_gandiva_headers
+                      jni
+                      protobuf::libprotobuf
+                      Gandiva::gandiva_static)
+
+# Localize thirdparty symbols using a linker version script. This hides them
+# from the client application. The OS X linker does not support the
+# version-script option.
+if(CMAKE_VERSION VERSION_LESS 3.18)
+  if(APPLE OR WIN32)
+    set(CXX_LINKER_SUPPORTS_VERSION_SCRIPT FALSE)
+  else()
+    set(CXX_LINKER_SUPPORTS_VERSION_SCRIPT TRUE)
+  endif()
 else()
-  add_jar(gandiva_java
-          src/main/java/org/apache/arrow/gandiva/evaluator/ConfigurationBuilder.java
-          src/main/java/org/apache/arrow/gandiva/evaluator/JniWrapper.java
-          src/main/java/org/apache/arrow/gandiva/evaluator/ExpressionRegistryJniHelper.java
-          src/main/java/org/apache/arrow/gandiva/exceptions/GandivaException.java
-          GENERATE_NATIVE_HEADERS
-          gandiva_jni_headers
-          DESTINATION
-          ${JNI_HEADERS_DIR}/jni)
+  include(CheckLinkerFlag)
+  check_linker_flag(CXX
+                    "-Wl,--version-script=${CMAKE_CURRENT_SOURCE_DIR}/src/main/cpp/symbols.map"
+                    CXX_LINKER_SUPPORTS_VERSION_SCRIPT)
 endif()
+# filter out everything that is not needed for the jni bridge
+# statically linked stdc++ has conflicts with stdc++ loaded by other libraries.
+if(CXX_LINKER_SUPPORTS_VERSION_SCRIPT)
+  set_target_properties(arrow_java_jni_gandiva
+                        PROPERTIES LINK_FLAGS
+                                   "-Wl,--version-script=${CMAKE_CURRENT_SOURCE_DIR}/src/main/cpp/symbols.map"
+  )
+endif()
+
+install(TARGETS arrow_java_jni_gandiva
+        LIBRARY DESTINATION ${CMAKE_INSTALL_LIBDIR}
+        RUNTIME DESTINATION ${CMAKE_INSTALL_BINDIR})
diff --git a/java/gandiva/pom.xml b/java/gandiva/pom.xml
index 3c6ba7b12c5..424a965c3ea 100644
--- a/java/gandiva/pom.xml
+++ b/java/gandiva/pom.xml
@@ -14,7 +14,7 @@
     <parent>
       <groupId>org.apache.arrow</groupId>
       <artifactId>arrow-java-root</artifactId>
-      <version>10.0.0-SNAPSHOT</version>
+      <version>11.0.0</version>
     </parent>
 
     <groupId>org.apache.arrow.gandiva</groupId>
@@ -25,7 +25,7 @@
     <properties>
         <maven.compiler.source>1.8</maven.compiler.source>
         <maven.compiler.target>1.8</maven.compiler.target>
-        <protobuf.version>3.20.1</protobuf.version>
+        <protobuf.version>3.20.3</protobuf.version>
         <checkstyle.failOnViolation>true</checkstyle.failOnViolation>
         <arrow.cpp.build.dir>../../../cpp/release-build</arrow.cpp.build.dir>
     </properties>
@@ -115,8 +115,7 @@
             <resource>
                 <directory>${arrow.cpp.build.dir}</directory>
                 <includes>
-                    <include>**/gandiva_jni.*</include>
-                    <include>**/libgandiva_jni.*</include>
+                    <include>**/*gandiva_jni.*</include>
                 </includes>
             </resource>
         </resources>
@@ -136,7 +135,7 @@
                 <configuration>
                     <protocArtifact>com.google.protobuf:protoc:${protobuf.version}:exe:${os.detected.classifier}
                     </protocArtifact>
-                    <protoSourceRoot>../../cpp/src/gandiva/proto</protoSourceRoot>
+                    <protoSourceRoot>proto</protoSourceRoot>
                 </configuration>
                 <executions>
                     <execution>
diff --git a/cpp/src/gandiva/proto/Types.proto b/java/gandiva/proto/Types.proto
similarity index 100%
rename from cpp/src/gandiva/proto/Types.proto
rename to java/gandiva/proto/Types.proto
diff --git a/cpp/src/gandiva/jni/config_builder.cc b/java/gandiva/src/main/cpp/config_builder.cc
similarity index 90%
rename from cpp/src/gandiva/jni/config_builder.cc
rename to java/gandiva/src/main/cpp/config_builder.cc
index b115210cefe..85c661ee943 100644
--- a/cpp/src/gandiva/jni/config_builder.cc
+++ b/java/gandiva/src/main/cpp/config_builder.cc
@@ -17,10 +17,11 @@
 
 #include <string>
 
-#include "gandiva/configuration.h"
-#include "gandiva/jni/config_holder.h"
-#include "gandiva/jni/env_helper.h"
-#include "jni/org_apache_arrow_gandiva_evaluator_ConfigurationBuilder.h"
+#include <gandiva/configuration.h>
+
+#include "config_holder.h"
+#include "env_helper.h"
+#include "org_apache_arrow_gandiva_evaluator_ConfigurationBuilder.h"
 
 using gandiva::ConfigHolder;
 using gandiva::Configuration;
diff --git a/cpp/src/gandiva/jni/config_holder.cc b/java/gandiva/src/main/cpp/config_holder.cc
similarity index 96%
rename from cpp/src/gandiva/jni/config_holder.cc
rename to java/gandiva/src/main/cpp/config_holder.cc
index 11d305c819c..dfa6afce199 100644
--- a/cpp/src/gandiva/jni/config_holder.cc
+++ b/java/gandiva/src/main/cpp/config_holder.cc
@@ -15,10 +15,10 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include "gandiva/jni/config_holder.h"
-
 #include <cstdint>
 
+#include "config_holder.h"
+
 namespace gandiva {
 int64_t ConfigHolder::config_id_ = 1;
 
diff --git a/cpp/src/gandiva/jni/config_holder.h b/java/gandiva/src/main/cpp/config_holder.h
similarity index 98%
rename from cpp/src/gandiva/jni/config_holder.h
rename to java/gandiva/src/main/cpp/config_holder.h
index 3fdb7a01d55..ae031495ab2 100644
--- a/cpp/src/gandiva/jni/config_holder.h
+++ b/java/gandiva/src/main/cpp/config_holder.h
@@ -22,7 +22,7 @@
 #include <unordered_map>
 #include <utility>
 
-#include "gandiva/configuration.h"
+#include <gandiva/configuration.h>
 
 namespace gandiva {
 
diff --git a/cpp/src/gandiva/jni/env_helper.h b/java/gandiva/src/main/cpp/env_helper.h
similarity index 100%
rename from cpp/src/gandiva/jni/env_helper.h
rename to java/gandiva/src/main/cpp/env_helper.h
diff --git a/cpp/src/gandiva/jni/expression_registry_helper.cc b/java/gandiva/src/main/cpp/expression_registry_helper.cc
similarity index 97%
rename from cpp/src/gandiva/jni/expression_registry_helper.cc
rename to java/gandiva/src/main/cpp/expression_registry_helper.cc
index 338290618d8..6765df3b972 100644
--- a/cpp/src/gandiva/jni/expression_registry_helper.cc
+++ b/java/gandiva/src/main/cpp/expression_registry_helper.cc
@@ -15,14 +15,14 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include "jni/org_apache_arrow_gandiva_evaluator_ExpressionRegistryJniHelper.h"
-
 #include <memory>
 
+#include <arrow/util/logging.h>
+#include <gandiva/arrow.h>
+#include <gandiva/expression_registry.h>
+
 #include "Types.pb.h"
-#include "arrow/util/logging.h"
-#include "gandiva/arrow.h"
-#include "gandiva/expression_registry.h"
+#include "org_apache_arrow_gandiva_evaluator_ExpressionRegistryJniHelper.h"
 
 using gandiva::DataTypePtr;
 using gandiva::ExpressionRegistry;
diff --git a/cpp/src/gandiva/jni/id_to_module_map.h b/java/gandiva/src/main/cpp/id_to_module_map.h
similarity index 100%
rename from cpp/src/gandiva/jni/id_to_module_map.h
rename to java/gandiva/src/main/cpp/id_to_module_map.h
diff --git a/cpp/src/gandiva/jni/jni_common.cc b/java/gandiva/src/main/cpp/jni_common.cc
similarity index 97%
rename from cpp/src/gandiva/jni/jni_common.cc
rename to java/gandiva/src/main/cpp/jni_common.cc
index 29d93289760..9e75c7faedc 100644
--- a/cpp/src/gandiva/jni/jni_common.cc
+++ b/java/gandiva/src/main/cpp/jni_common.cc
@@ -27,9 +27,20 @@
 
 #include <arrow/builder.h>
 #include <arrow/record_batch.h>
+#include <arrow/status.h>
 #include <arrow/type.h>
+#include <gandiva/configuration.h>
+#include <gandiva/decimal_scalar.h>
+#include <gandiva/filter.h>
+#include <gandiva/projector.h>
+#include <gandiva/selection_vector.h>
+#include <gandiva/tree_expr_builder.h>
 
 #include "Types.pb.h"
+#include "config_holder.h"
+#include "env_helper.h"
+#include "id_to_module_map.h"
+#include "module_holder.h"
 #include "gandiva/configuration.h"
 #include "gandiva/decimal_scalar.h"
 #include "gandiva/filter.h"
@@ -41,7 +52,7 @@
 #include "gandiva/secondary_cache.h"
 #include "gandiva/selection_vector.h"
 #include "gandiva/tree_expr_builder.h"
-#include "jni/org_apache_arrow_gandiva_evaluator_JniWrapper.h"
+#include "org_apache_arrow_gandiva_evaluator_JniWrapper.h"
 
 using gandiva::ConditionPtr;
 using gandiva::DataTypePtr;
@@ -801,9 +812,7 @@ class JavaResizableBuffer : public arrow::ResizableBuffer {
 
   Status Resize(const int64_t new_size, bool shrink_to_fit) override;
 
-  Status Reserve(const int64_t new_capacity) override {
-    return Status::NotImplemented("reserve not implemented");
-  }
+  Status Reserve(const int64_t new_capacity) override;
 
  private:
   JNIEnv* env_;
@@ -811,20 +820,10 @@ class JavaResizableBuffer : public arrow::ResizableBuffer {
   int32_t vector_idx_;
 };
 
-Status JavaResizableBuffer::Resize(const int64_t new_size, bool shrink_to_fit) {
-  if (shrink_to_fit == true) {
-    return Status::NotImplemented("shrink not implemented");
-  }
-
-  if (ARROW_PREDICT_TRUE(new_size < capacity())) {
-    // no need to expand.
-    size_ = new_size;
-    return Status::OK();
-  }
-
+Status JavaResizableBuffer::Reserve(const int64_t new_capacity) {
   // callback into java to expand the buffer
-  jobject ret =
-      env_->CallObjectMethod(jexpander_, vector_expander_method_, vector_idx_, new_size);
+  jobject ret = env_->CallObjectMethod(jexpander_, vector_expander_method_, vector_idx_,
+                                       new_capacity);
   if (env_->ExceptionCheck()) {
     env_->ExceptionDescribe();
     env_->ExceptionClear();
@@ -833,14 +832,29 @@ Status JavaResizableBuffer::Resize(const int64_t new_size, bool shrink_to_fit) {
 
   jlong ret_address = env_->GetLongField(ret, vector_expander_ret_address_);
   jlong ret_capacity = env_->GetLongField(ret, vector_expander_ret_capacity_);
-  DCHECK_GE(ret_capacity, new_size);
 
   data_ = reinterpret_cast<uint8_t*>(ret_address);
-  size_ = new_size;
   capacity_ = ret_capacity;
   return Status::OK();
 }
 
+Status JavaResizableBuffer::Resize(const int64_t new_size, bool shrink_to_fit) {
+  if (shrink_to_fit == true) {
+    return Status::NotImplemented("shrink not implemented");
+  }
+
+  if (ARROW_PREDICT_TRUE(new_size <= capacity())) {
+    // no need to expand.
+    size_ = new_size;
+    return Status::OK();
+  }
+
+  RETURN_NOT_OK(Reserve(new_size));
+  DCHECK_GE(capacity_, new_size);
+  size_ = new_size;
+  return Status::OK();
+}
+
 #define CHECK_OUT_BUFFER_IDX_AND_BREAK(idx, len)                               \
   if (idx >= len) {                                                            \
     status = gandiva::Status::Invalid("insufficient number of out_buf_addrs"); \
diff --git a/cpp/src/gandiva/jni/module_holder.h b/java/gandiva/src/main/cpp/module_holder.h
similarity index 98%
rename from cpp/src/gandiva/jni/module_holder.h
rename to java/gandiva/src/main/cpp/module_holder.h
index 929c64231f2..74bad29e68c 100644
--- a/cpp/src/gandiva/jni/module_holder.h
+++ b/java/gandiva/src/main/cpp/module_holder.h
@@ -20,7 +20,7 @@
 #include <memory>
 #include <utility>
 
-#include "gandiva/arrow.h"
+#include <gandiva/arrow.h>
 
 namespace gandiva {
 
diff --git a/cpp/src/gandiva/jni/symbols.map b/java/gandiva/src/main/cpp/symbols.map
similarity index 100%
rename from cpp/src/gandiva/jni/symbols.map
rename to java/gandiva/src/main/cpp/symbols.map
diff --git a/java/gandiva/src/main/java/org/apache/arrow/gandiva/evaluator/JniLoader.java b/java/gandiva/src/main/java/org/apache/arrow/gandiva/evaluator/JniLoader.java
index 676956a34ae..01c068f2926 100644
--- a/java/gandiva/src/main/java/org/apache/arrow/gandiva/evaluator/JniLoader.java
+++ b/java/gandiva/src/main/java/org/apache/arrow/gandiva/evaluator/JniLoader.java
@@ -24,6 +24,7 @@
 import java.io.InputStream;
 import java.nio.file.Files;
 import java.nio.file.StandardCopyOption;
+import java.util.Locale;
 import java.util.concurrent.ConcurrentHashMap;
 import java.util.concurrent.ConcurrentMap;
 
@@ -69,15 +70,30 @@ private static JniLoader setupInstance() throws GandivaException {
 
   private static void loadGandivaLibraryFromJar(final String tmpDir)
           throws IOException, GandivaException {
-    final String libraryToLoad = System.mapLibraryName(LIBRARY_NAME);
-    final File libraryFile = moveFileFromJarToTemp(tmpDir, libraryToLoad);
+    final String libraryToLoad =
+        getNormalizedArch() + File.separator + System.mapLibraryName(LIBRARY_NAME);
+    final File libraryFile = moveFileFromJarToTemp(tmpDir, libraryToLoad, LIBRARY_NAME);
     System.load(libraryFile.getAbsolutePath());
   }
 
+  private static String getNormalizedArch() {
+    String arch = System.getProperty("os.arch").toLowerCase(Locale.US);
+    switch (arch) {
+      case "amd64":
+        arch = "x86_64";
+        break;
+      case "aarch64":
+        arch = "aarch_64";
+        break;
+      default:
+        break;
+    }
+    return arch;
+  }
 
-  private static File moveFileFromJarToTemp(final String tmpDir, String libraryToLoad)
+  private static File moveFileFromJarToTemp(final String tmpDir, String libraryToLoad, String libraryName)
           throws IOException, GandivaException {
-    final File temp = setupFile(tmpDir, libraryToLoad);
+    final File temp = setupFile(tmpDir, libraryName);
     try (final InputStream is = JniLoader.class.getClassLoader()
             .getResourceAsStream(libraryToLoad)) {
       if (is == null) {
diff --git a/java/memory/memory-core/pom.xml b/java/memory/memory-core/pom.xml
index 073a20470c2..c67ad2df4ce 100644
--- a/java/memory/memory-core/pom.xml
+++ b/java/memory/memory-core/pom.xml
@@ -13,7 +13,7 @@
   <parent>
     <artifactId>arrow-memory</artifactId>
     <groupId>org.apache.arrow</groupId>
-    <version>10.0.0-SNAPSHOT</version>
+    <version>11.0.0</version>
   </parent>
   <modelVersion>4.0.0</modelVersion>
 
@@ -37,4 +37,58 @@
     </dependency>
   </dependencies>
 
+  <build>
+    <plugins>
+      <plugin>
+        <groupId>org.apache.maven.plugins</groupId>
+        <artifactId>maven-surefire-plugin</artifactId>
+
+        <configuration>
+          <excludes>
+            <!-- Test is only useful when NOT running with add-opens -->
+            <exclude>**/TestOpens.java</exclude>
+          </excludes>
+        </configuration>
+      </plugin>
+    </plugins>
+  </build>
+
+  <profiles>
+    <profile>
+      <id>opens-tests</id>
+      <!-- Run tests WITHOUT add-opens to make sure we fail-fast -->
+      <activation>
+        <jdk>[16,]</jdk>
+      </activation>
+      <build>
+        <plugins>
+          <plugin>
+            <groupId>org.apache.maven.plugins</groupId>
+            <artifactId>maven-surefire-plugin</artifactId>
+
+            <executions>
+              <execution>
+                <id>opens-tests</id>
+                <phase>test</phase>
+                <goals>
+                  <goal>test</goal>
+                </goals>
+                <configuration>
+                  <!-- Dummy value to stop inheriting the default add-opens flag -->
+                  <argLine>-Dfoo=bar</argLine>
+                  <excludes>
+                    <!-- Need something (anything) here to make Maven not inherit the value above -->
+                    <exclude>**/TestArrowBuf.java</exclude>
+                  </excludes>
+                  <includes>
+                    <include>**/TestOpens.java</include>
+                  </includes>
+                </configuration>
+              </execution>
+            </executions>
+          </plugin>
+        </plugins>
+      </build>
+    </profile>
+  </profiles>
 </project>
diff --git a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/AllocationManager.java b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/AllocationManager.java
index 5f8ab12446a..3071c02f30a 100644
--- a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/AllocationManager.java
+++ b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/AllocationManager.java
@@ -17,48 +17,38 @@
 
 package org.apache.arrow.memory;
 
-import java.util.concurrent.atomic.AtomicLong;
-
 import org.apache.arrow.util.Preconditions;
 
 /**
- * The abstract base class of AllocationManager.
+ * An AllocationManager is the implementation of a physical memory allocation.
  *
- * <p>Manages the relationship between one or more allocators and a particular UDLE. Ensures that
- * one allocator owns the
- * memory that multiple allocators may be referencing. Manages a BufferLedger between each of its
- * associated allocators.
+ * <p>Manages the relationship between the allocators and a particular memory allocation. Ensures that
+ * one allocator owns the memory that multiple allocators may be referencing. Manages a BufferLedger between
+ * each of its associated allocators. It does not track the reference count; that is the role of {@link BufferLedger}
+ * (aka {@link ReferenceManager}).
  *
- * <p>The only reason that this isn't package private is we're forced to put ArrowBuf in Netty's
- * package which need access
- * to these objects or methods.
+ * <p>This is a public interface implemented by concrete allocator implementations (e.g. Netty or Unsafe).
  *
  * <p>Threading: AllocationManager manages thread-safety internally. Operations within the context
- * of a single BufferLedger
- * are lockless in nature and can be leveraged by multiple threads. Operations that cross the
- * context of two ledgers
- * will acquire a lock on the AllocationManager instance. Important note, there is one
- * AllocationManager per
- * UnsafeDirectLittleEndian buffer allocation. As such, there will be thousands of these in a
- * typical query. The
- * contention of acquiring a lock on AllocationManager should be very low.
+ * of a single BufferLedger are lockless in nature and can be leveraged by multiple threads. Operations that cross the
+ * context of two ledgers will acquire a lock on the AllocationManager instance. Important note, there is one
+ * AllocationManager per physical buffer allocation. As such, there will be thousands of these in a
+ * typical query. The contention of acquiring a lock on AllocationManager should be very low.
  */
 public abstract class AllocationManager {
-
-  private static final AtomicLong MANAGER_ID_GENERATOR = new AtomicLong(0);
-
+  // The RootAllocator we are associated with. An allocation can only ever be associated with a single RootAllocator.
   private final BufferAllocator root;
-  private final long allocatorManagerId = MANAGER_ID_GENERATOR.incrementAndGet();
-  // ARROW-1627 Trying to minimize memory overhead caused by previously used IdentityHashMap
-  // see JIRA for details
+  // An allocation can be tracked by multiple allocators. (This is because an allocator is more like a ledger.)
+  // All such allocators track reference counts individually, via BufferLedger instances. When an individual
+  // reference count reaches zero, the allocator will be dissociated from this allocation. If that was via the
+  // owningLedger, then no more allocators should be tracking this allocation, and the allocation will be freed.
+  // ARROW-1627: Trying to minimize memory overhead caused by previously used IdentityHashMap
   private final LowCostIdentityHashMap<BufferAllocator, BufferLedger> map = new LowCostIdentityHashMap<>();
-  private final long amCreationTime = System.nanoTime();
-
-  // The ReferenceManager created at the time of creation of this AllocationManager
-  // is treated as the owning reference manager for the underlying chunk of memory
-  // managed by this allocation manager
+  // The primary BufferLedger (i.e. reference count) tracking this allocation.
+  // This is mostly a semantic constraint on the API user: if the reference count reaches 0 in the owningLedger, then
+  // there are not supposed to be any references through other allocators. In practice, this doesn't do anything
+  // as the implementation just forces ownership to be transferred to one of the other extant references.
   private volatile BufferLedger owningLedger;
-  private volatile long amDestructionTime = 0;
 
   protected AllocationManager(BufferAllocator accountingAllocator) {
     Preconditions.checkNotNull(accountingAllocator);
@@ -81,7 +71,7 @@ void setOwningLedger(final BufferLedger ledger) {
 
   /**
    * Associate the existing underlying buffer with a new allocator. This will increase the
-   * reference count on the corresponding buffer ledger by 1
+   * reference count on the corresponding buffer ledger by 1.
    *
    * @param allocator The target allocator to associate this buffer with.
    * @return The reference manager (new or existing) that associates the underlying
@@ -99,6 +89,7 @@ private BufferLedger associate(final BufferAllocator allocator, final boolean re
     synchronized (this) {
       BufferLedger ledger = map.get(allocator);
       if (ledger != null) {
+        // We were already being tracked by the given allocator, just return it
         if (retain) {
           // bump the ref count for the ledger
           ledger.increment();
@@ -106,6 +97,7 @@ private BufferLedger associate(final BufferAllocator allocator, final boolean re
         return ledger;
       }
 
+      // We weren't previously being tracked by the given allocator; create a new ledger
       ledger = new BufferLedger(allocator, this);
 
       if (retain) {
@@ -161,7 +153,6 @@ void release(final BufferLedger ledger) {
         // free the memory chunk associated with the allocation manager
         release0();
         oldAllocator.getListener().onRelease(getSize());
-        amDestructionTime = System.nanoTime();
         owningLedger = null;
       } else {
         // since the refcount dropped to 0 for the owning reference manager and allocation
diff --git a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ArrowBuf.java b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ArrowBuf.java
index 7ff11e95d07..5b322b4ff56 100644
--- a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ArrowBuf.java
+++ b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ArrowBuf.java
@@ -74,23 +74,23 @@ public final class ArrowBuf implements AutoCloseable {
   private long writerIndex;
   private final HistoricalLog historicalLog = BaseAllocator.DEBUG ?
           new HistoricalLog(BaseAllocator.DEBUG_LOG_LENGTH, "ArrowBuf[%d]", id) : null;
-  private volatile long length;
+  private volatile long capacity;
 
   /**
    * Constructs a new ArrowBuf.
    *
    * @param referenceManager The memory manager to track memory usage and reference count of this buffer
-   * @param length The  byte length of this buffer
+   * @param capacity The capacity in bytes of this buffer
    */
   public ArrowBuf(
       final ReferenceManager referenceManager,
       final BufferManager bufferManager,
-      final long length,
+      final long capacity,
       final long memoryAddress) {
     this.referenceManager = referenceManager;
     this.bufferManager = bufferManager;
     this.addr = memoryAddress;
-    this.length = length;
+    this.capacity = capacity;
     this.readerIndex = 0;
     this.writerIndex = 0;
     if (BaseAllocator.DEBUG) {
@@ -136,7 +136,7 @@ public ReferenceManager getReferenceManager() {
   }
 
   public long capacity() {
-    return length;
+    return capacity;
   }
 
   /**
@@ -146,14 +146,14 @@ public long capacity() {
    */
   public synchronized ArrowBuf capacity(long newCapacity) {
 
-    if (newCapacity == length) {
+    if (newCapacity == capacity) {
       return this;
     }
 
     Preconditions.checkArgument(newCapacity >= 0);
 
-    if (newCapacity < length) {
-      length = newCapacity;
+    if (newCapacity < capacity) {
+      capacity = newCapacity;
       return this;
     }
 
@@ -195,8 +195,8 @@ public ArrowBuf slice() {
    */
   public ArrowBuf slice(long index, long length) {
 
-    Preconditions.checkPositionIndex(index, this.length);
-    Preconditions.checkPositionIndex(index + length, this.length);
+    Preconditions.checkPositionIndex(index, this.capacity);
+    Preconditions.checkPositionIndex(index + length, this.capacity);
 
     /*
      * Re the behavior of reference counting, see http://netty.io/wiki/reference-counted-objects
@@ -235,7 +235,7 @@ public long memoryAddress() {
 
   @Override
   public String toString() {
-    return String.format("ArrowBuf[%d], address:%d, length:%d", id, memoryAddress(), length);
+    return String.format("ArrowBuf[%d], address:%d, capacity:%d", id, memoryAddress(), capacity);
   }
 
   @Override
@@ -1183,7 +1183,9 @@ public ArrowBuf setZero(long index, long length) {
    *              this ArrowBuf has access to)
    * @param length length of bytes to set.
    * @return this ArrowBuf
+   * @deprecated use {@link ArrowBuf#setOne(long, long)} instead.
    */
+  @Deprecated
   public ArrowBuf setOne(int index, int length) {
     if (length != 0) {
       this.checkIndex(index, length);
@@ -1192,6 +1194,21 @@ public ArrowBuf setOne(int index, int length) {
     return this;
   }
 
+  /**
+   * Sets all bits to one in the specified range.
+   * @param index index index (0 based relative to the portion of memory
+   *              this ArrowBuf has access to)
+   * @param length length of bytes to set.
+   * @return this ArrowBuf
+   */
+  public ArrowBuf setOne(long index, long length) {
+    if (length != 0) {
+      this.checkIndex(index, length);
+      MemoryUtil.UNSAFE.setMemory(this.addr + index, length, (byte) 0xff);
+    }
+    return this;
+  }
+
   /**
    * Returns <code>this</code> if size is less then {@link #capacity()}, otherwise
    * delegates to {@link BufferManager#replace(ArrowBuf, long)} to get a new buffer.
diff --git a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/BufferAllocator.java b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/BufferAllocator.java
index e59349c6498..bb3816d9c41 100644
--- a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/BufferAllocator.java
+++ b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/BufferAllocator.java
@@ -235,4 +235,35 @@ BufferAllocator newChildAllocator(
   default RoundingPolicy getRoundingPolicy() {
     return DefaultRoundingPolicy.DEFAULT_ROUNDING_POLICY;
   }
+
+  /**
+   * EXPERIMENTAL: Wrap an allocation created outside this BufferAllocator.
+   *
+   * <p>This is useful to integrate allocations from native code into the same memory management framework as
+   * Java-allocated buffers, presenting users a consistent API. The created buffer will be tracked by this allocator
+   * and can be transferred like Java-allocated buffers.
+   *
+   * <p>The underlying allocation will be closed when all references to the buffer are released. If this method throws,
+   * the underlying allocation will also be closed.
+   *
+   * @param allocation The underlying allocation.
+   */
+  default ArrowBuf wrapForeignAllocation(ForeignAllocation allocation) {
+    try {
+      forceAllocate(allocation.getSize());
+      final AllocationManager manager = new ForeignAllocationManager(this, allocation);
+      final BufferLedger ledger = manager.associate(this);
+      final ArrowBuf buf =
+          new ArrowBuf(ledger, /*bufferManager=*/null, allocation.getSize(), allocation.memoryAddress());
+      buf.writerIndex(allocation.getSize());
+      return buf;
+    } catch (Throwable t) {
+      try {
+        allocation.release0();
+      } catch (Throwable e) {
+        t.addSuppressed(e);
+      }
+      throw t;
+    }
+  }
 }
diff --git a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ForeignAllocation.java b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ForeignAllocation.java
new file mode 100644
index 00000000000..c1b47382a38
--- /dev/null
+++ b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ForeignAllocation.java
@@ -0,0 +1,58 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.memory;
+
+/**
+ * EXPERIMENTAL: a memory allocation that does not come from a BufferAllocator, but rather an outside source (like JNI).
+ *
+ * <p>To use this, subclass this class and implement {@link #release0()} to free the allocation.
+ */
+public abstract class ForeignAllocation {
+  private final long memoryAddress;
+  private final long size;
+
+  /**
+   * Create a new AllocationManager representing an imported buffer.
+   *
+   * @param size The buffer size.
+   * @param memoryAddress The buffer address.
+   */
+  protected ForeignAllocation(long size, long memoryAddress) {
+    this.memoryAddress = memoryAddress;
+    this.size = size;
+  }
+
+  /**
+   * Get the size of this allocation.
+   */
+  public long getSize() {
+    return size;
+  }
+
+  /**
+   * Get the address of this allocation.
+   */
+  protected long memoryAddress() {
+    return memoryAddress;
+  }
+
+  /**
+   * Free this allocation. Will only be called once.
+   */
+  protected abstract void release0();
+}
diff --git a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ForeignAllocationManager.java b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ForeignAllocationManager.java
new file mode 100644
index 00000000000..741b866f819
--- /dev/null
+++ b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ForeignAllocationManager.java
@@ -0,0 +1,45 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.memory;
+
+/**
+ * An AllocationManager wrapping a ForeignAllocation.
+ */
+class ForeignAllocationManager extends AllocationManager {
+  private final ForeignAllocation allocation;
+
+  protected ForeignAllocationManager(BufferAllocator accountingAllocator, ForeignAllocation allocation) {
+    super(accountingAllocator);
+    this.allocation = allocation;
+  }
+
+  @Override
+  public long getSize() {
+    return allocation.getSize();
+  }
+
+  @Override
+  protected long memoryAddress() {
+    return allocation.memoryAddress();
+  }
+
+  @Override
+  protected void release0() {
+    allocation.release0();
+  }
+}
diff --git a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/README.md b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/README.md
deleted file mode 100644
index f5f924ce88c..00000000000
--- a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/README.md
+++ /dev/null
@@ -1,121 +0,0 @@
-<!--
- Licensed to the Apache Software Foundation (ASF) under one
- or more contributor license agreements.  See the NOTICE file
- distributed with this work for additional information
- regarding copyright ownership.  The ASF licenses this file
- to you under the Apache License, Version 2.0 (the
- "License"); you may not use this file except in compliance
- with the License.  You may obtain a copy of the License at
- 
- http://www.apache.org/licenses/LICENSE-2.0
- 
- Unless required by applicable law or agreed to in writing, software
- distributed under the License is distributed on an "AS IS" BASIS,
- WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
- See the License for the specific language governing permissions and
- limitations under the License.
--->
-# Memory: Allocation, Accounting and Management
- 
-The memory management package contains all the memory allocation related items that Arrow uses to manage memory.
-
-
-## Key Components
-Memory management can be broken into the following main components:
-
-- Memory chunk allocation and fragmentation management
-  - `PooledByteBufAllocatorL` - A LittleEndian clone of Netty's jemalloc implementation
-  - `UnsafeDirectLittleEndian` - A base level memory access interface
-  - `LargeBuffer` - A buffer backing implementation used when working with data larger than one Netty chunk (default to 16mb)
-- Memory limits & Accounting
-  - `Accountant` - A nestable class of lockfree memory accountors.
-- Application-level memory allocation
-  - `BufferAllocator` - The public interface application users should be leveraging
-  - `BaseAllocator` - The base implementation of memory allocation, contains the meat of our the Arrow allocator implementation
-  - `RootAllocator` - The root allocator. Typically only one created for a JVM
-  - `ChildAllocator` - A child allocator that derives from the root allocator
-- Buffer ownership and transfer capabilities
-  - `AllocationManager` - Responsible for managing the relationship between multiple allocators and a single chunk of memory
-  - `BufferLedger` - Responsible for allowing maintaining the relationship between an `AllocationManager`, a `BufferAllocator` and one or more individual `ArrowBuf`s 
-- Memory access
-  - `ArrowBuf` - The facade for interacting directly with a chunk of memory.
- 
-
-## Memory Management Overview
-Arrow's memory model is based on the following basic concepts:
-
- - Memory can be allocated up to some limit. That limit could be a real limit (OS/JVM) or a locally imposed limit.
- - Allocation operates in two phases: accounting then actual allocation. Allocation could fail at either point.
- - Allocation failure should be recoverable. In all cases, the Allocator infrastructure should expose memory allocation failures (OS or internal limit-based) as `OutOfMemoryException`s.
- - Any allocator can reserve memory when created. This memory shall be held such that this allocator will always be able to allocate that amount of memory.
- - A particular application component should work to use a local allocator to understand local memory usage and better debug memory leaks.
- - The same physical memory can be shared by multiple allocators and the allocator must provide an accounting paradigm for this purpose.
-
-## Allocator Trees
-
-Arrow provides a tree-based model for memory allocation. The RootAllocator is created first, then all allocators are created as children of that allocator. The RootAllocator is responsible for being the master bookkeeper for memory allocations. All other allocators are created as children of this tree. Each allocator can first determine whether it has enough local memory to satisfy a particular request. If not, the allocator can ask its parent for an additional memory allocation.
-
-## Reserving Memory
-
-Arrow provides two different ways to reserve memory:
-
-  - BufferAllocator accounting reservations: 
-      When a new allocator (other than the `RootAllocator`) is initialized, it can set aside memory that it will keep locally for its lifetime. This is memory that will never be released back to its parent allocator until the allocator is closed.
-  - `AllocationReservation` via BufferAllocator.newReservation(): Allows a short-term preallocation strategy so that a particular subsystem can ensure future memory is available to support a particular request.
-  
-## Memory Ownership, Reference Counts and Sharing
-Many BufferAllocators can reference the same piece of memory at the same time. The most common situation for this is in the case of a Broadcast Join: in this situation many downstream operators in the same Arrowbit will receive the same physical memory. Each of these operators will be operating within its own Allocator context. We therefore have multiple allocators all pointing at the same physical memory. It is the AllocationManager's responsibility to ensure that in this situation, that all memory is accurately accounted for from the Root's perspective and also to ensure that the memory is correctly released once all BufferAllocators have stopped using that memory.
-
-For simplicity of accounting, we treat that memory as being used by one of the BufferAllocators associated with the memory. When that allocator releases its claim on that memory, the memory ownership is then moved to another BufferLedger belonging to the same AllocationManager. Note that because a ArrowBuf.release() is what actually causes memory ownership transfer to occur, we always precede with ownership transfer (even if that violates an allocator limit). It is the responsibility of the application owning a particular allocator to frequently confirm whether the allocator is over its memory limit (BufferAllocator.isOverLimit()) and if so, attempt to aggressively release memory to ameliorate the situation.
-
-All ArrowBufs (direct or sliced) related to a single BufferLedger/BufferAllocator combination share the same reference count and either all will be valid or all will be invalid.
-
-## Object Hierarchy
-
-There are two main ways that someone can look at the object hierarchy for Arrow's memory management scheme. The first is a memory based perspective as below:
-
-### Memory Perspective
-<pre>
-+ AllocationManager
-|
-|-- UnsignedDirectLittleEndian (One per AllocationManager)
-|
-|-+ BufferLedger 1 ==> Allocator A (owning)
-| ` - ArrowBuf 1
-|-+ BufferLedger 2 ==> Allocator B (non-owning)
-| ` - ArrowBuf 2
-|-+ BufferLedger 3 ==> Allocator C (non-owning)
-  | - ArrowBuf 3
-  | - ArrowBuf 4
-  ` - ArrowBuf 5
-</pre>
-
-In this picture, a piece of memory is owned by an allocator manager. An allocator manager is responsible for that piece of memory no matter which allocator(s) it is working with. An allocator manager will have relationships with a piece of raw memory (via its reference to UnsignedDirectLittleEndian) as well as references to each BufferAllocator it has a relationship to. 
-
-### Allocator Perspective
-<pre>
-+ RootAllocator
-|-+ ChildAllocator 1
-| | - ChildAllocator 1.1
-| ` ...
-|
-|-+ ChildAllocator 2
-|-+ ChildAllocator 3
-| |
-| |-+ BufferLedger 1 ==> AllocationManager 1 (owning) ==> UDLE
-| | `- ArrowBuf 1
-| `-+ BufferLedger 2 ==> AllocationManager 2 (non-owning)==> UDLE
-| 	`- ArrowBuf 2
-|
-|-+ BufferLedger 3 ==> AllocationManager 1 (non-owning)==> UDLE
-| ` - ArrowBuf 3
-|-+ BufferLedger 4 ==> AllocationManager 2 (owning) ==> UDLE
-  | - ArrowBuf 4
-  | - ArrowBuf 5
-  ` - ArrowBuf 6
-</pre>
-
-In this picture, a RootAllocator owns three ChildAllocators. The first ChildAllocator (ChildAllocator 1) owns a subsequent ChildAllocator. ChildAllocator has two BufferLedgers/AllocationManager references. Coincidentally, each of these AllocationManager's is also associated with the RootAllocator. In this case, one of the these AllocationManagers is owned by ChildAllocator 3 (AllocationManager 1) while the other AllocationManager (AllocationManager 2) is owned/accounted for by the RootAllocator. Note that in this scenario, ArrowBuf 1 is sharing the underlying memory as ArrowBuf 3. However the subset of that memory (e.g. through slicing) might be different. Also note that ArrowBuf 2 and ArrowBuf 4, 5 and 6 are also sharing the same underlying memory. Also note that ArrowBuf 4, 5 and 6 all share the same reference count and fate.
-
-## Debugging Issues
-The Allocator object provides a useful set of tools to better understand the status of the allocator. If in `DEBUG` mode, the allocator and supporting classes will record additional debug tracking information to better track down memory leaks and issues. To enable DEBUG mode, either enable Java assertions with `-ea` or pass the following system property to the VM when starting `-Darrow.memory.debug.allocator=true`. The BufferAllocator also provides a `BufferAllocator.toVerboseString()` which can be used in DEBUG mode to get extensive stacktrace information and events associated with various Allocator behaviors.
diff --git a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ReferenceManager.java b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ReferenceManager.java
index 00ae274b744..7d4de18751b 100644
--- a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ReferenceManager.java
+++ b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/ReferenceManager.java
@@ -18,8 +18,10 @@
 package org.apache.arrow.memory;
 
 /**
- * Reference Manager manages one or more ArrowBufs that share the
- * reference count for the underlying memory chunk.
+ * ReferenceManager is the reference count for one or more allocations.
+ *
+ * <p>In order to integrate with the core {@link BufferAllocator} implementation, the allocation itself should
+ * be represented by an {@link AllocationManager}, though this is not required by the API.
  */
 public interface ReferenceManager {
 
@@ -70,6 +72,8 @@ public interface ReferenceManager {
    * the target allocator-reference manager combination + 1 in the case that the provided allocator
    * already had an association to this underlying memory.
    *
+   * <p>The underlying allocation ({@link AllocationManager}) will not be copied.
+   *
    * @param srcBuffer source ArrowBuf
    * @param targetAllocator The target allocator to create an association with.
    * @return A new ArrowBuf which shares the same underlying memory as this ArrowBuf.
@@ -89,9 +93,10 @@ public interface ReferenceManager {
   ArrowBuf deriveBuffer(ArrowBuf sourceBuffer, long index, long length);
 
   /**
-   * Transfer the memory accounting ownership of this ArrowBuf to another allocator.
-   * This will generate a new ArrowBuf that carries an association with the underlying memory
-   * for the given ArrowBuf
+   * Duplicate the memory accounting ownership of the backing allocation of the given ArrowBuf in another allocator.
+   * This will generate a new ArrowBuf that carries an association with the same underlying memory
+   * ({@link AllocationManager}s) as the given ArrowBuf.
+   *
    * @param sourceBuffer source ArrowBuf
    * @param targetAllocator The target allocator to create an association with
    * @return {@link OwnershipTransferResult} with info on transfer result and new buffer
diff --git a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/package-info.java b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/package-info.java
index 5aef955a314..c04df2e0c6f 100644
--- a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/package-info.java
+++ b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/package-info.java
@@ -16,10 +16,8 @@
  */
 
 /**
- *  Memory Allocation, Account and Management
- *
- *  See the README.md file in this directory for detailed information about Arrow's memory
- *  allocation subsystem.
+ *  Memory Allocation, Accounting and Management.
+ *  See the Arrow Java documentation for details: <a href="https://arrow.apache.org/docs/java/memory.html">Memory Management</a>
  *
  */
 
diff --git a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/util/MemoryUtil.java b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/util/MemoryUtil.java
index c48ee66c2cc..70e1a2586f2 100644
--- a/java/memory/memory-core/src/main/java/org/apache/arrow/memory/util/MemoryUtil.java
+++ b/java/memory/memory-core/src/main/java/org/apache/arrow/memory/util/MemoryUtil.java
@@ -135,7 +135,10 @@ public Object run() {
     } catch (Throwable e) {
       // This exception will get swallowed, but it's necessary for the static analysis that ensures
       // the static fields above get initialized
-      final RuntimeException failure = new RuntimeException("Failed to initialize MemoryUtil", e);
+      final RuntimeException failure = new RuntimeException(
+          "Failed to initialize MemoryUtil. Was Java started with " +
+              "`--add-opens=java.base/java.nio=ALL-UNNAMED`? " +
+              "(See https://arrow.apache.org/docs/java/install.html)", e);
       failure.printStackTrace();
       throw failure;
     }
diff --git a/java/memory/memory-core/src/test/java/org/apache/arrow/memory/TestOpens.java b/java/memory/memory-core/src/test/java/org/apache/arrow/memory/TestOpens.java
new file mode 100644
index 00000000000..7efc11a08ac
--- /dev/null
+++ b/java/memory/memory-core/src/test/java/org/apache/arrow/memory/TestOpens.java
@@ -0,0 +1,46 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.memory;
+
+import static org.junit.jupiter.api.Assertions.assertThrows;
+import static org.junit.jupiter.api.Assertions.assertTrue;
+
+import org.junit.Test;
+
+public class TestOpens {
+  /** Instantiating the RootAllocator should poke MemoryUtil and fail. */
+  @Test
+  public void testMemoryUtilFailsLoudly() {
+    // This test is configured by Maven to run WITHOUT add-opens. So this should fail on JDK16+
+    // (where JEP396 means that add-opens is required to access JDK internals).
+    // The test will likely fail in your IDE if it doesn't correctly pick this up.
+    Throwable e = assertThrows(Throwable.class, () -> {
+      BufferAllocator allocator = new RootAllocator();
+      allocator.close();
+    });
+    boolean found = false;
+    while (e != null) {
+      e = e.getCause();
+      if (e instanceof RuntimeException && e.getMessage().contains("Failed to initialize MemoryUtil")) {
+        found = true;
+        break;
+      }
+    }
+    assertTrue(found, "Expected exception as not thrown");
+  }
+}
diff --git a/java/memory/memory-netty/pom.xml b/java/memory/memory-netty/pom.xml
index 7f140e5caa5..b24c0540695 100644
--- a/java/memory/memory-netty/pom.xml
+++ b/java/memory/memory-netty/pom.xml
@@ -13,7 +13,7 @@
   <parent>
     <artifactId>arrow-memory</artifactId>
     <groupId>org.apache.arrow</groupId>
-    <version>10.0.0-SNAPSHOT</version>
+    <version>11.0.0</version>
   </parent>
   <modelVersion>4.0.0</modelVersion>
 
diff --git a/java/memory/memory-netty/src/test/java/org/apache/arrow/memory/TestForeignAllocation.java b/java/memory/memory-netty/src/test/java/org/apache/arrow/memory/TestForeignAllocation.java
new file mode 100644
index 00000000000..5e40645e06b
--- /dev/null
+++ b/java/memory/memory-netty/src/test/java/org/apache/arrow/memory/TestForeignAllocation.java
@@ -0,0 +1,72 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.memory;
+
+import static org.junit.Assert.assertEquals;
+import static org.junit.Assert.assertTrue;
+
+import org.apache.arrow.memory.util.MemoryUtil;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.Test;
+
+public class TestForeignAllocation {
+  BufferAllocator allocator;
+
+  @Before
+  public void before() {
+    allocator = new RootAllocator();
+  }
+
+  @After
+  public void after() {
+    allocator.close();
+  }
+
+  @Test
+  public void wrapForeignAllocation() {
+    final long bufferSize = 16;
+    UnsafeForeignAllocation allocation = new UnsafeForeignAllocation(bufferSize);
+    try {
+      assertEquals(0, allocator.getAllocatedMemory());
+      ArrowBuf buf = allocator.wrapForeignAllocation(allocation);
+      assertEquals(bufferSize, buf.capacity());
+      buf.close();
+      assertTrue(allocation.released);
+    } finally {
+      allocation.release0();
+    }
+    assertEquals(0, allocator.getAllocatedMemory());
+  }
+
+  private static class UnsafeForeignAllocation extends ForeignAllocation {
+    boolean released = false;
+
+    public UnsafeForeignAllocation(long bufferSize) {
+      super(bufferSize, MemoryUtil.UNSAFE.allocateMemory(bufferSize));
+    }
+
+    @Override
+    protected void release0() {
+      if (!released) {
+        MemoryUtil.UNSAFE.freeMemory(memoryAddress());
+        released = true;
+      }
+    }
+  }
+}
diff --git a/java/memory/memory-unsafe/pom.xml b/java/memory/memory-unsafe/pom.xml
index 3e1c14b93bf..bbf004535f7 100644
--- a/java/memory/memory-unsafe/pom.xml
+++ b/java/memory/memory-unsafe/pom.xml
@@ -13,7 +13,7 @@
   <parent>
     <artifactId>arrow-memory</artifactId>
     <groupId>org.apache.arrow</groupId>
-    <version>10.0.0-SNAPSHOT</version>
+    <version>11.0.0</version>
   </parent>
   <modelVersion>4.0.0</modelVersion>
 
diff --git a/java/memory/pom.xml b/java/memory/pom.xml
index cdbb3842f2b..7cef12fbd0e 100644
--- a/java/memory/pom.xml
+++ b/java/memory/pom.xml
@@ -14,7 +14,7 @@
   <parent>
     <groupId>org.apache.arrow</groupId>
     <artifactId>arrow-java-root</artifactId>
-    <version>10.0.0-SNAPSHOT</version>
+    <version>11.0.0</version>
   </parent>
   <artifactId>arrow-memory</artifactId>
   <name>Arrow Memory</name>
diff --git a/java/performance/pom.xml b/java/performance/pom.xml
index 479d5e5ab17..868023dd0bc 100644
--- a/java/performance/pom.xml
+++ b/java/performance/pom.xml
@@ -14,7 +14,7 @@
     <parent>
         <artifactId>arrow-java-root</artifactId>
         <groupId>org.apache.arrow</groupId>
-        <version>10.0.0-SNAPSHOT</version>
+        <version>11.0.0</version>
     </parent>
     <artifactId>arrow-performance</artifactId>
     <packaging>jar</packaging>
@@ -74,7 +74,7 @@
         <dependency>
             <groupId>org.apache.arrow</groupId>
             <artifactId>arrow-algorithm</artifactId>
-            <version>10.0.0-SNAPSHOT</version>
+            <version>11.0.0</version>
             <scope>test</scope>
         </dependency>
     </dependencies>
@@ -212,7 +212,7 @@
                 </plugin>
                 <plugin>
                     <artifactId>maven-surefire-plugin</artifactId>
-                    <version>3.0.0-M3</version>
+                    <version>3.0.0-M7</version>
                 </plugin>
             </plugins>
         </pluginManagement>
diff --git a/java/plasma/CMakeLists.txt b/java/plasma/CMakeLists.txt
new file mode 100644
index 00000000000..c42310dd561
--- /dev/null
+++ b/java/plasma/CMakeLists.txt
@@ -0,0 +1,43 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+find_package(Plasma REQUIRED)
+
+include_directories(${CMAKE_CURRENT_BINARY_DIR} ${CMAKE_CURRENT_SOURCE_DIR}
+                    ${JNI_INCLUDE_DIRS} ${JNI_HEADERS_DIR})
+
+add_jar(arrow_java_jni_plasma_jar
+        src/main/java/org/apache/arrow/plasma/PlasmaClientJNI.java
+        src/main/java/org/apache/arrow/plasma/exceptions/DuplicateObjectException.java
+        src/main/java/org/apache/arrow/plasma/exceptions/PlasmaClientException.java
+        src/main/java/org/apache/arrow/plasma/exceptions/PlasmaOutOfMemoryException.java
+        GENERATE_NATIVE_HEADERS
+        arrow_java_jni_plasma_headers)
+
+add_library(arrow_java_jni_plasma SHARED src/main/cpp/plasma_client.cc)
+set_property(TARGET arrow_java_jni_plasma PROPERTY OUTPUT_NAME "plasma_java")
+target_link_libraries(arrow_java_jni_plasma arrow_java_jni_plasma_headers jni
+                      Plasma::plasma_static)
+
+if(APPLE)
+  set_target_properties(arrow_java_jni_plasma PROPERTIES LINK_FLAGS
+                                                         "-undefined dynamic_lookup")
+endif()
+
+install(TARGETS arrow_java_jni_plasma
+        LIBRARY DESTINATION ${CMAKE_INSTALL_LIBDIR}
+        RUNTIME DESTINATION ${CMAKE_INSTALL_BINDIR})
diff --git a/java/plasma/README.md b/java/plasma/README.md
index 0dcb4e21f86..d3c936f6f2b 100644
--- a/java/plasma/README.md
+++ b/java/plasma/README.md
@@ -19,6 +19,8 @@
 
 # Java Plasma Client
 
+This is deprecated since 10.0.0. This will be removed from 12.0.0 or so.
+
 ## Setup Build Environment
 
 Install:
diff --git a/java/plasma/pom.xml b/java/plasma/pom.xml
index a9281d44e9a..559f7f179f5 100644
--- a/java/plasma/pom.xml
+++ b/java/plasma/pom.xml
@@ -14,12 +14,25 @@
     <parent>
         <groupId>org.apache.arrow</groupId>
         <artifactId>arrow-java-root</artifactId>
-        <version>10.0.0-SNAPSHOT</version>
+        <version>11.0.0</version>
     </parent>
     <artifactId>arrow-plasma</artifactId>
     <name>Arrow Plasma Client</name>
-    <description>(Experimental/Contrib) Java client for the Plasma object store.</description>
+    <description>(DEPRECATED) Java client for the Plasma object store.
+        This is deprecated since 10.0.0. This will be removed from 12.0.0 or so.</description>
+    <properties>
+        <arrow.cpp.build.dir>../../../cpp/release-build</arrow.cpp.build.dir>
+    </properties>
     <build>
+        <resources>
+            <resource>
+                <directory>${arrow.cpp.build.dir}</directory>
+                <includes>
+                    <include>**/*plasma_java.*</include>
+                </includes>
+            </resource>
+        </resources>
+
         <plugins>
             <plugin>
                 <groupId>org.apache.maven.plugins</groupId>
diff --git a/cpp/src/plasma/lib/java/org_apache_arrow_plasma_PlasmaClientJNI.cc b/java/plasma/src/main/cpp/plasma_client.cc
similarity index 98%
rename from cpp/src/plasma/lib/java/org_apache_arrow_plasma_PlasmaClientJNI.cc
rename to java/plasma/src/main/cpp/plasma_client.cc
index 10e0fcb371d..19267ba21e6 100644
--- a/cpp/src/plasma/lib/java/org_apache_arrow_plasma_PlasmaClientJNI.cc
+++ b/java/plasma/src/main/cpp/plasma_client.cc
@@ -15,9 +15,6 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include "plasma/lib/java/org_apache_arrow_plasma_PlasmaClientJNI.h"
-
-#include <pthread.h>
 #include <stdlib.h>
 #include <unistd.h>
 
@@ -28,9 +25,9 @@
 #include <string>
 #include <vector>
 
-#include "arrow/util/logging.h"
+#include <plasma/client.h>
 
-#include "plasma/client.h"
+#include "org_apache_arrow_plasma_PlasmaClientJNI.h"
 
 constexpr jsize OBJECT_ID_SIZE = sizeof(plasma::ObjectID) / sizeof(jbyte);
 
diff --git a/java/plasma/src/main/java/org/apache/arrow/plasma/ObjectStoreLink.java b/java/plasma/src/main/java/org/apache/arrow/plasma/ObjectStoreLink.java
index 93a2d483c48..76793ffee11 100644
--- a/java/plasma/src/main/java/org/apache/arrow/plasma/ObjectStoreLink.java
+++ b/java/plasma/src/main/java/org/apache/arrow/plasma/ObjectStoreLink.java
@@ -24,7 +24,10 @@
 
 /**
  * Object store interface, which provides the capabilities to put and get raw byte array, and serves.
+ *
+ * @deprecated Plasma is deprecated since 10.0.0. Plasma will not be released from Apache Arrow 12.0.0 or so.
  */
+@Deprecated
 public interface ObjectStoreLink {
 
   /**
diff --git a/java/plasma/src/main/java/org/apache/arrow/plasma/PlasmaClient.java b/java/plasma/src/main/java/org/apache/arrow/plasma/PlasmaClient.java
index fdd7114f175..6705e2f2fdc 100644
--- a/java/plasma/src/main/java/org/apache/arrow/plasma/PlasmaClient.java
+++ b/java/plasma/src/main/java/org/apache/arrow/plasma/PlasmaClient.java
@@ -30,7 +30,10 @@
  *
  * <p>The PlasmaClient can ask the PlasmaStore to allocate a new buffer, seal a buffer, and get a
  * buffer. Buffers are referred to by object IDs.
+ *
+ * @deprecated Plasma is deprecated since 10.0.0. Plasma will not be released from Apache Arrow 12.0.0 or so.
  */
+@Deprecated
 public class PlasmaClient implements ObjectStoreLink {
 
   private final long conn;
diff --git a/java/plasma/src/main/java/org/apache/arrow/plasma/PlasmaClientJNI.java b/java/plasma/src/main/java/org/apache/arrow/plasma/PlasmaClientJNI.java
index da5c17e6be0..8a45201c8e0 100644
--- a/java/plasma/src/main/java/org/apache/arrow/plasma/PlasmaClientJNI.java
+++ b/java/plasma/src/main/java/org/apache/arrow/plasma/PlasmaClientJNI.java
@@ -24,7 +24,10 @@
 
 /**
  * JNI static methods for PlasmaClient.
+ *
+ * @deprecated Plasma is deprecated since 10.0.0. Plasma will not be released from Apache Arrow 12.0.0 or so.
  */
+@Deprecated
 public class PlasmaClientJNI {
 
   public static native long connect(String storeSocketName, String managerSocketName, int releaseDelay);
diff --git a/java/plasma/src/main/java/org/apache/arrow/plasma/exceptions/DuplicateObjectException.java b/java/plasma/src/main/java/org/apache/arrow/plasma/exceptions/DuplicateObjectException.java
index cb735282cea..f0cfb1fff3c 100644
--- a/java/plasma/src/main/java/org/apache/arrow/plasma/exceptions/DuplicateObjectException.java
+++ b/java/plasma/src/main/java/org/apache/arrow/plasma/exceptions/DuplicateObjectException.java
@@ -19,7 +19,10 @@
 
 /**
  * Thrown when attempting to place an object into the store for an ID that already exists.
+ *
+ * @deprecated Plasma is deprecated since 10.0.0. Plasma will not be released from Apache Arrow 12.0.0 or so.
  */
+@Deprecated
 public class DuplicateObjectException extends RuntimeException {
 
   public DuplicateObjectException(String objectId) {
diff --git a/java/plasma/src/main/java/org/apache/arrow/plasma/exceptions/PlasmaClientException.java b/java/plasma/src/main/java/org/apache/arrow/plasma/exceptions/PlasmaClientException.java
index ff9d96b1724..cb97b6980fc 100644
--- a/java/plasma/src/main/java/org/apache/arrow/plasma/exceptions/PlasmaClientException.java
+++ b/java/plasma/src/main/java/org/apache/arrow/plasma/exceptions/PlasmaClientException.java
@@ -19,7 +19,10 @@
 
 /**
  * Generic exception thrown by the plasma client (for example on failure to connect).
+ *
+ * @deprecated Plasma is deprecated since 10.0.0. Plasma will not be released from Apache Arrow 12.0.0 or so.
  */
+@Deprecated
 public class PlasmaClientException extends RuntimeException {
 
   public PlasmaClientException(String message) {
diff --git a/java/plasma/src/main/java/org/apache/arrow/plasma/exceptions/PlasmaOutOfMemoryException.java b/java/plasma/src/main/java/org/apache/arrow/plasma/exceptions/PlasmaOutOfMemoryException.java
index ffc4177ebbe..6462cd5dff1 100644
--- a/java/plasma/src/main/java/org/apache/arrow/plasma/exceptions/PlasmaOutOfMemoryException.java
+++ b/java/plasma/src/main/java/org/apache/arrow/plasma/exceptions/PlasmaOutOfMemoryException.java
@@ -19,7 +19,10 @@
 
 /**
  * Indicates no more memory is available in Plasma.
+ *
+ * @deprecated Plasma is deprecated since 10.0.0. Plasma will not be released from Apache Arrow 12.0.0 or so.
  */
+@Deprecated
 public class PlasmaOutOfMemoryException extends RuntimeException {
 
   public PlasmaOutOfMemoryException(String message) {
diff --git a/java/plasma/src/test/java/org/apache/arrow/plasma/PlasmaClientTest.java b/java/plasma/src/test/java/org/apache/arrow/plasma/PlasmaClientTest.java
index e02ee51f9ed..f9bfac4c56c 100644
--- a/java/plasma/src/test/java/org/apache/arrow/plasma/PlasmaClientTest.java
+++ b/java/plasma/src/test/java/org/apache/arrow/plasma/PlasmaClientTest.java
@@ -29,6 +29,10 @@
 import org.apache.arrow.plasma.exceptions.PlasmaOutOfMemoryException;
 import org.junit.Assert;
 
+/*
+ * @Deprecated Plasma is deprecated since 10.0.0. Plasma will not be released from Apache Arrow 12.0.0 or so.
+ */
+@Deprecated
 public class PlasmaClientTest {
 
   private String storeSuffix = "/tmp/store";
diff --git a/java/pom.xml b/java/pom.xml
index 08bc54c140e..aa106910939 100644
--- a/java/pom.xml
+++ b/java/pom.xml
@@ -20,7 +20,7 @@
 
   <groupId>org.apache.arrow</groupId>
   <artifactId>arrow-java-root</artifactId>
-  <version>10.0.0-SNAPSHOT</version>
+  <version>11.0.0</version>
   <packaging>pom</packaging>
 
   <name>Apache Arrow Java Root POM</name>
@@ -29,14 +29,14 @@
 
   <properties>
     <target.gen.source.path>${project.build.directory}/generated-sources</target.gen.source.path>
-    <dep.junit.platform.version>1.4.0</dep.junit.platform.version>
-    <dep.junit.jupiter.version>5.4.0</dep.junit.jupiter.version>
+    <dep.junit.platform.version>1.9.0</dep.junit.platform.version>
+    <dep.junit.jupiter.version>5.9.0</dep.junit.jupiter.version>
     <dep.slf4j.version>1.7.25</dep.slf4j.version>
-    <dep.guava.version>30.1.1-jre</dep.guava.version>
-    <dep.netty-bom.version>4.1.78.Final</dep.netty-bom.version>
-    <dep.grpc-bom.version>1.47.0</dep.grpc-bom.version>
-    <dep.protobuf-bom.version>3.21.2</dep.protobuf-bom.version>
-    <dep.jackson-bom.version>2.13.2.20220328</dep.jackson-bom.version>
+    <dep.guava-bom.version>31.1-jre</dep.guava-bom.version>
+    <dep.netty-bom.version>4.1.82.Final</dep.netty-bom.version>
+    <dep.grpc-bom.version>1.49.1</dep.grpc-bom.version>
+    <dep.protobuf-bom.version>3.21.6</dep.protobuf-bom.version>
+    <dep.jackson-bom.version>2.13.4</dep.jackson-bom.version>
     <dep.hadoop.version>2.7.1</dep.hadoop.version>
     <dep.fbs.version>1.12.0</dep.fbs.version>
     <dep.avro.version>1.10.0</dep.avro.version>
@@ -44,7 +44,7 @@
     <forkCount>2</forkCount>
     <checkstyle.failOnViolation>true</checkstyle.failOnViolation>
     <errorprone.javac.version>9+181-r4173-1</errorprone.javac.version>
-    <error_prone_core.version>2.13.1</error_prone_core.version>
+    <error_prone_core.version>2.16</error_prone_core.version>
     <maven-compiler-plugin.version>3.10.1</maven-compiler-plugin.version>
   </properties>
 
@@ -150,6 +150,7 @@
             <exclude>**/client/build/**</exclude>
             <exclude>**/*.tbl</exclude>
             <exclude>**/*.iml</exclude>
+            <exclude>**/flight.properties</exclude>
           </excludes>
         </configuration>
       </plugin>
@@ -251,7 +252,7 @@
       <plugin>
         <groupId>pl.project13.maven</groupId>
         <artifactId>git-commit-id-plugin</artifactId>
-        <version>2.2.2</version>
+        <version>4.0.5</version>
         <executions>
           <execution>
             <id>for-jars</id>
@@ -302,14 +303,9 @@
             <version>8.19</version>
           </dependency>
           <dependency>
-            <groupId>com.google.guava</groupId>
-            <artifactId>guava</artifactId>
-            <version>${dep.guava.version}</version>
-          </dependency>
-          <dependency>
-              <groupId>org.slf4j</groupId>
-              <artifactId>jcl-over-slf4j</artifactId>
-              <version>1.7.5</version>
+            <groupId>org.slf4j</groupId>
+            <artifactId>jcl-over-slf4j</artifactId>
+            <version>1.7.5</version>
           </dependency>
         </dependencies>
         <executions>
@@ -353,11 +349,25 @@
               <ignoredDependencies>
                 <!-- source annotations (not kept in compiled code) -->
                 <ignoredDependency>javax.annotation:javax.annotation-api:*</ignoredDependency>
+                <ignoredDependency>org.apache.hadoop:hadoop-client-api</ignoredDependency>
               </ignoredDependencies>
             </configuration>
           </execution>
         </executions>
       </plugin>
+      <plugin>
+        <groupId>org.cyclonedx</groupId>
+        <artifactId>cyclonedx-maven-plugin</artifactId>
+        <version>2.7.3</version>
+        <executions>
+          <execution>
+            <phase>package</phase>
+            <goals>
+              <goal>makeBom</goal>
+            </goals>
+          </execution>
+        </executions>
+      </plugin>
     </plugins>
 
     <pluginManagement>
@@ -397,7 +407,19 @@
         </plugin>
         <plugin>
           <artifactId>maven-surefire-plugin</artifactId>
-          <version>3.0.0-M3</version>
+          <version>3.0.0-M7</version>
+          <dependencies>
+            <dependency>
+              <groupId>org.junit.jupiter</groupId>
+              <artifactId>junit-jupiter-engine</artifactId>
+              <version>${dep.junit.jupiter.version}</version>
+            </dependency>
+            <dependency>
+              <groupId>org.apache.maven.surefire</groupId>
+              <artifactId>surefire-junit-platform</artifactId>
+              <version>3.0.0-M7</version>
+            </dependency>
+          </dependencies>
           <configuration>
             <enableAssertions>true</enableAssertions>
             <childDelegation>true</childDelegation>
@@ -415,7 +437,7 @@
         </plugin>
         <plugin>
           <artifactId>maven-failsafe-plugin</artifactId>
-          <version>3.0.0-M3</version>
+          <version>3.0.0-M7</version>
           <configuration>
             <systemPropertyVariables>
               <java.io.tmpdir>${project.build.directory}</java.io.tmpdir>
@@ -521,11 +543,6 @@
         <artifactId>flatbuffers-java</artifactId>
         <version>${dep.fbs.version}</version>
       </dependency>
-      <dependency>
-        <groupId>com.google.guava</groupId>
-        <artifactId>guava</artifactId>
-        <version>${dep.guava.version}</version>
-      </dependency>
       <dependency>
         <groupId>com.google.code.findbugs</groupId>
         <artifactId>jsr305</artifactId>
@@ -565,6 +582,13 @@
         <type>pom</type>
         <scope>import</scope>
       </dependency>
+      <dependency>
+        <groupId>com.google.guava</groupId>
+        <artifactId>guava-bom</artifactId>
+        <version>${dep.guava-bom.version}</version>
+        <type>pom</type>
+        <scope>import</scope>
+      </dependency>
       <dependency>
         <groupId>io.netty</groupId>
         <artifactId>netty-bom</artifactId>
@@ -612,13 +636,6 @@
       <scope>test</scope>
     </dependency>
 
-
-    <dependency>
-      <groupId>org.junit.platform</groupId>
-      <artifactId>junit-platform-runner</artifactId>
-      <version>${dep.junit.platform.version}</version>
-      <scope>test</scope>
-    </dependency>
     <dependency>
       <groupId>org.junit.jupiter</groupId>
       <artifactId>junit-jupiter-engine</artifactId>
@@ -637,6 +654,12 @@
       <version>${dep.junit.jupiter.version}</version>
       <scope>test</scope>
     </dependency>
+    <dependency>
+      <groupId>org.junit.jupiter</groupId>
+      <artifactId>junit-jupiter-params</artifactId>
+      <version>${dep.junit.jupiter.version}</version>
+      <scope>test</scope>
+    </dependency>
     <!-- Use to keep older tests running -->
     <dependency>
       <groupId>junit</groupId>
@@ -675,7 +698,6 @@
           <reportSet><!-- by default, id = "default" -->
             <reports><!-- select non-aggregate reports -->
               <report>javadoc</report>
-              <report>test-javadoc</report>
             </reports>
           </reportSet>
           <reportSet><!-- aggregate reportSet, to define in poms having modules -->
@@ -740,7 +762,7 @@
       <!-- Use the version of arrow-vector that shades flatbuffers and packages format -->
       <id>shade-flatbuffers</id>
       <properties>
-       <arrow.vector.classifier>shade-format-flatbuffers</arrow.vector.classifier>
+        <arrow.vector.classifier>shade-format-flatbuffers</arrow.vector.classifier>
       </properties>
     </profile>
 
@@ -754,7 +776,7 @@
       <activation>
         <jdk>1.8</jdk>
         <property>
-           <name>!m2e.version</name>
+          <name>!m2e.version</name>
         </property>
       </activation>
       <build>
@@ -785,7 +807,7 @@
     <profile>
       <id>error-prone-jdk11+</id>
       <activation>
-        <jdk>[11,)</jdk>
+        <jdk>[11,]</jdk>
         <property>
           <name>!m2e.version</name>
         </property>
@@ -801,10 +823,7 @@
               <encoding>UTF-8</encoding>
               <compilerArgs combine.children="append">
                 <arg>-XDcompilePolicy=simple</arg>
-                <arg>
-                  -Xplugin:ErrorProne \
-                  -XepExcludedPaths:.*/(target/generated-sources)/.*
-                </arg>
+                <arg>-Xplugin:ErrorProne -XepExcludedPaths:.*/(target/generated-sources)/.*</arg>
                 <arg>-J--add-exports=jdk.compiler/com.sun.tools.javac.api=ALL-UNNAMED</arg>
                 <arg>-J--add-exports=jdk.compiler/com.sun.tools.javac.file=ALL-UNNAMED</arg>
                 <arg>-J--add-exports=jdk.compiler/com.sun.tools.javac.main=ALL-UNNAMED</arg>
@@ -887,6 +906,313 @@
       </reporting>
     </profile>
 
+    <profile>
+      <id>windows</id>
+      <activation>
+        <jdk>[17,]</jdk>
+        <os>
+          <family>windows</family>
+        </os>
+      </activation>
+      <build>
+        <plugins>
+          <plugin>
+            <artifactId>maven-surefire-plugin</artifactId>
+            <configuration>
+              <reuseForks>false</reuseForks>
+            </configuration>
+          </plugin>
+        </plugins>
+      </build>
+    </profile>
+
+    <profile>
+      <id>generate-libs-cdata-all-os</id>
+      <properties>
+        <arrow.c.jni.dist.dir>java-dist</arrow.c.jni.dist.dir>
+      </properties>
+      <build>
+        <plugins>
+          <plugin>
+            <groupId>org.codehaus.mojo</groupId>
+            <artifactId>exec-maven-plugin</artifactId>
+            <version>3.1.0</version>
+            <executions>
+              <execution>
+                <id>cdata-cmake</id>
+                <phase>generate-resources</phase>
+                <goals>
+                  <goal>exec</goal>
+                </goals>
+                <configuration>
+                  <executable>cmake</executable>
+                  <commandlineArgs>
+                    -S java
+                    -B java-jni
+                    -DARROW_JAVA_JNI_ENABLE_C=ON
+                    -DARROW_JAVA_JNI_ENABLE_DEFAULT=OFF
+                    -DBUILD_TESTING=OFF
+                    -DCMAKE_BUILD_TYPE=Release
+                    -DCMAKE_INSTALL_LIBDIR=lib/${os.detected.arch}
+                    -DCMAKE_INSTALL_PREFIX=${arrow.c.jni.dist.dir}
+                  </commandlineArgs>
+                  <workingDirectory>../</workingDirectory>
+                </configuration>
+              </execution>
+              <execution>
+                <id>cdata-build</id>
+                <phase>generate-resources</phase>
+                <goals>
+                  <goal>exec</goal>
+                </goals>
+                <configuration>
+                  <executable>cmake</executable>
+                  <commandlineArgs>
+                    --build java-jni --target install --config Release
+                  </commandlineArgs>
+                  <workingDirectory>../</workingDirectory>
+                </configuration>
+              </execution>
+            </executions>
+          </plugin>
+        </plugins>
+      </build>
+    </profile>
+
+    <profile>
+      <id>generate-libs-jni-macos-linux</id>
+      <properties>
+        <arrow.dataset.jni.dist.dir>java-dist</arrow.dataset.jni.dist.dir>
+        <cpp.dependencies.builded>false</cpp.dependencies.builded>
+        <ARROW_CSV>ON</ARROW_CSV>
+        <ARROW_ORC>ON</ARROW_ORC>
+        <ARROW_PARQUET>ON</ARROW_PARQUET>
+        <ARROW_PLASMA>OFF</ARROW_PLASMA>
+        <ARROW_GANDIVA>OFF</ARROW_GANDIVA>
+        <ARROW_JAVA_JNI_ENABLE_C>OFF</ARROW_JAVA_JNI_ENABLE_C>
+        <ARROW_JAVA_JNI_ENABLE_DATASET>ON</ARROW_JAVA_JNI_ENABLE_DATASET>
+        <ARROW_JAVA_JNI_ENABLE_GANDIVA>OFF</ARROW_JAVA_JNI_ENABLE_GANDIVA>
+        <ARROW_JAVA_JNI_ENABLE_ORC>ON</ARROW_JAVA_JNI_ENABLE_ORC>
+        <ARROW_JAVA_JNI_ENABLE_PLASMA>OFF</ARROW_JAVA_JNI_ENABLE_PLASMA>
+      </properties>
+      <build>
+        <plugins>
+          <plugin>
+            <groupId>org.codehaus.mojo</groupId>
+            <artifactId>exec-maven-plugin</artifactId>
+            <version>3.1.0</version>
+            <executions>
+              <execution>
+                <id>jni-cpp-cmake</id>
+                <phase>generate-resources</phase>
+                <goals>
+                  <goal>exec</goal>
+                </goals>
+                <configuration>
+                  <executable>cmake</executable>
+                  <commandlineArgs>
+                    -S cpp
+                    -B cpp-jni
+                    -DARROW_BUILD_SHARED=OFF
+                    -DARROW_CSV=${ARROW_CSV}
+                    -DARROW_DATASET=ON
+                    -DARROW_DEPENDENCY_SOURCE=BUNDLED
+                    -DARROW_DEPENDENCY_USE_SHARED=OFF
+                    -DARROW_FILESYSTEM=ON
+                    -DARROW_GANDIVA=${ARROW_GANDIVA}
+                    -DARROW_GANDIVA_STATIC_LIBSTDCPP=ON
+                    -DARROW_ORC=${ARROW_ORC}
+                    -DARROW_PARQUET=${ARROW_PARQUET}
+                    -DARROW_PLASMA=${ARROW_PLASMA}
+                    -DARROW_S3=ON
+                    -DARROW_USE_CCACHE=ON
+                    -DCMAKE_BUILD_TYPE=Release
+                    -DCMAKE_INSTALL_LIBDIR=lib/${os.detected.arch}
+                    -DCMAKE_INSTALL_PREFIX=java-dist
+                    -DCMAKE_UNITY_BUILD=ON
+                  </commandlineArgs>
+                  <workingDirectory>../</workingDirectory>
+                  <skip>${cpp.dependencies.builded}</skip>
+                </configuration>
+              </execution>
+              <execution>
+                <id>jni-cpp-build</id>
+                <phase>generate-resources</phase>
+                <goals>
+                  <goal>exec</goal>
+                </goals>
+                <configuration>
+                  <executable>cmake</executable>
+                  <commandlineArgs>
+                    --build cpp-jni --target install --config Release
+                  </commandlineArgs>
+                  <workingDirectory>../</workingDirectory>
+                  <skip>${cpp.dependencies.builded}</skip>
+                </configuration>
+              </execution>
+              <execution>
+                <id>jni-cmake</id>
+                <phase>generate-resources</phase>
+                <goals>
+                  <goal>exec</goal>
+                </goals>
+                <configuration>
+                  <executable>cmake</executable>
+                  <commandlineArgs>
+                    -S java
+                    -B java-jni
+                    -DARROW_JAVA_JNI_ENABLE_C=${ARROW_JAVA_JNI_ENABLE_C}
+                    -DARROW_JAVA_JNI_ENABLE_DATASET=${ARROW_JAVA_JNI_ENABLE_DATASET}
+                    -DARROW_JAVA_JNI_ENABLE_GANDIVA=${ARROW_JAVA_JNI_ENABLE_GANDIVA}
+                    -DARROW_JAVA_JNI_ENABLE_ORC=${ARROW_JAVA_JNI_ENABLE_ORC}
+                    -DARROW_JAVA_JNI_ENABLE_PLASMA=${ARROW_JAVA_JNI_ENABLE_PLASMA}
+                    -DARROW_JAVA_JNI_ENABLE_DEFAULT=ON
+                    -DBUILD_TESTING=OFF
+                    -DCMAKE_BUILD_TYPE=Release
+                    -DCMAKE_INSTALL_LIBDIR=lib/${os.detected.arch}
+                    -DCMAKE_INSTALL_PREFIX=${arrow.dataset.jni.dist.dir}
+                    -DCMAKE_PREFIX_PATH=${project.basedir}/../java-dist/lib/${os.detected.arch}/cmake
+                  </commandlineArgs>
+                  <workingDirectory>../</workingDirectory>
+                </configuration>
+              </execution>
+              <execution>
+                <id>jni-build</id>
+                <phase>generate-resources</phase>
+                <goals>
+                  <goal>exec</goal>
+                </goals>
+                <configuration>
+                  <executable>cmake</executable>
+                  <commandlineArgs>
+                    --build java-jni --target install --config Release
+                  </commandlineArgs>
+                  <workingDirectory>../</workingDirectory>
+                </configuration>
+              </execution>
+            </executions>
+          </plugin>
+        </plugins>
+      </build>
+    </profile>
+
+    <profile>
+      <id>generate-libs-jni-windows</id>
+      <properties>
+        <arrow.dataset.jni.dist.dir>java-dist</arrow.dataset.jni.dist.dir>
+        <cpp.dependencies.builded>false</cpp.dependencies.builded>
+        <ARROW_CSV>ON</ARROW_CSV>
+        <ARROW_ORC>OFF</ARROW_ORC>
+        <ARROW_PARQUET>ON</ARROW_PARQUET>
+        <ARROW_JAVA_JNI_ENABLE_C>OFF</ARROW_JAVA_JNI_ENABLE_C>
+        <ARROW_JAVA_JNI_ENABLE_DATASET>ON</ARROW_JAVA_JNI_ENABLE_DATASET>
+        <ARROW_JAVA_JNI_ENABLE_GANDIVA>OFF</ARROW_JAVA_JNI_ENABLE_GANDIVA>
+        <ARROW_JAVA_JNI_ENABLE_ORC>OFF</ARROW_JAVA_JNI_ENABLE_ORC>
+        <ARROW_JAVA_JNI_ENABLE_PLASMA>OFF</ARROW_JAVA_JNI_ENABLE_PLASMA>
+      </properties>
+      <build>
+        <plugins>
+          <plugin>
+            <groupId>org.codehaus.mojo</groupId>
+            <artifactId>exec-maven-plugin</artifactId>
+            <version>3.1.0</version>
+            <executions>
+              <execution>
+                <id>jni-cpp-cmake</id>
+                <phase>generate-resources</phase>
+                <goals>
+                  <goal>exec</goal>
+                </goals>
+                <configuration>
+                  <executable>cmake</executable>
+                  <commandlineArgs>
+                    -S cpp
+                    -B cpp-jni
+                    -DARROW_BUILD_SHARED=OFF
+                    -DARROW_CSV=${ARROW_CSV}
+                    -DARROW_DATASET=ON
+                    -DARROW_DEPENDENCY_USE_SHARED=OFF
+                    -DARROW_FILESYSTEM=ON
+                    -DARROW_ORC=${ARROW_ORC}
+                    -DARROW_PARQUET=${ARROW_PARQUET}
+                    -DARROW_S3=ON
+                    -DARROW_USE_CCACHE=ON
+                    -DARROW_WITH_BROTLI=ON
+                    -DARROW_WITH_LZ4=ON
+                    -DARROW_WITH_SNAPPY=ON
+                    -DARROW_WITH_ZLIB=ON
+                    -DARROW_WITH_ZSTD=ON
+                    -DCMAKE_BUILD_TYPE=Release
+                    -DCMAKE_INSTALL_LIBDIR=lib/${os.detected.arch}
+                    -DCMAKE_INSTALL_PREFIX=java-dist
+                    -DCMAKE_UNITY_BUILD=ON
+                    -GNinja
+                  </commandlineArgs>
+                  <workingDirectory>../</workingDirectory>
+                  <skip>${cpp.dependencies.builded}</skip>
+                </configuration>
+              </execution>
+              <execution>
+                <id>jni-cpp-build</id>
+                <phase>generate-resources</phase>
+                <goals>
+                  <goal>exec</goal>
+                </goals>
+                <configuration>
+                  <executable>ninja</executable>
+                  <commandlineArgs>
+                    install
+                  </commandlineArgs>
+                  <workingDirectory>../cpp-jni</workingDirectory>
+                  <skip>${cpp.dependencies.builded}</skip>
+                </configuration>
+              </execution>
+              <execution>
+                <id>jni-cmake</id>
+                <phase>generate-resources</phase>
+                <goals>
+                  <goal>exec</goal>
+                </goals>
+                <configuration>
+                  <executable>cmake</executable>
+                  <commandlineArgs>
+                    -S java
+                    -B java-jni
+                    -DARROW_JAVA_JNI_ENABLE_C=${ARROW_JAVA_JNI_ENABLE_C}
+                    -DARROW_JAVA_JNI_ENABLE_DATASET=${ARROW_JAVA_JNI_ENABLE_DATASET}
+                    -DARROW_JAVA_JNI_ENABLE_GANDIVA=${ARROW_JAVA_JNI_ENABLE_GANDIVA}
+                    -DARROW_JAVA_JNI_ENABLE_ORC=${ARROW_JAVA_JNI_ENABLE_ORC}
+                    -DARROW_JAVA_JNI_ENABLE_PLASMA=${ARROW_JAVA_JNI_ENABLE_PLASMA}
+                    -DARROW_JAVA_JNI_ENABLE_DEFAULT=ON
+                    -DBUILD_TESTING=OFF
+                    -DCMAKE_BUILD_TYPE=Release
+                    -DCMAKE_INSTALL_LIBDIR=lib/${os.detected.arch}
+                    -DCMAKE_INSTALL_PREFIX=${arrow.dataset.jni.dist.dir}
+                    -DCMAKE_PREFIX_PATH=${project.basedir}/../java-dist/lib/${os.detected.arch}/cmake
+                  </commandlineArgs>
+                  <workingDirectory>../</workingDirectory>
+                </configuration>
+              </execution>
+              <execution>
+                <id>jni-build</id>
+                <phase>generate-resources</phase>
+                <goals>
+                  <goal>exec</goal>
+                </goals>
+                <configuration>
+                  <executable>cmake</executable>
+                  <commandlineArgs>
+                    --build java-jni --target install --config Release
+                  </commandlineArgs>
+                  <workingDirectory>../</workingDirectory>
+                </configuration>
+              </execution>
+            </executions>
+          </plugin>
+        </plugins>
+      </build>
+    </profile>
+
   </profiles>
 
 </project>
diff --git a/java/tools/pom.xml b/java/tools/pom.xml
index 3925870538f..75b64129b0f 100644
--- a/java/tools/pom.xml
+++ b/java/tools/pom.xml
@@ -14,7 +14,7 @@
     <parent>
         <groupId>org.apache.arrow</groupId>
         <artifactId>arrow-java-root</artifactId>
-        <version>10.0.0-SNAPSHOT</version>
+        <version>11.0.0</version>
     </parent>
     <artifactId>arrow-tools</artifactId>
     <name>Arrow Tools</name>
diff --git a/java/vector/pom.xml b/java/vector/pom.xml
index dbb0a533ef9..897b62222bc 100644
--- a/java/vector/pom.xml
+++ b/java/vector/pom.xml
@@ -14,7 +14,7 @@
   <parent>
     <groupId>org.apache.arrow</groupId>
     <artifactId>arrow-java-root</artifactId>
-    <version>10.0.0-SNAPSHOT</version>
+    <version>11.0.0</version>
   </parent>
   <artifactId>arrow-vector</artifactId>
   <name>Arrow Vectors</name>
diff --git a/java/vector/src/main/codegen/templates/DenseUnionVector.java b/java/vector/src/main/codegen/templates/DenseUnionVector.java
index 63f4f587620..fba9302f342 100644
--- a/java/vector/src/main/codegen/templates/DenseUnionVector.java
+++ b/java/vector/src/main/codegen/templates/DenseUnionVector.java
@@ -940,4 +940,16 @@ public void setInitialCapacity(int valueCount, double density) {
       }
     }
   }
+
+  /**
+   * Set the element at the given index to null. For DenseUnionVector, it throws an UnsupportedOperationException
+   * as nulls are not supported at the top level and isNull() always returns false.
+   *
+   * @param index position of element
+   * @throws UnsupportedOperationException whenever invoked
+   */
+  @Override
+  public void setNull(int index) {
+    throw new UnsupportedOperationException("The method setNull() is not supported on DenseUnionVector.");
+  }
 }
diff --git a/java/vector/src/main/codegen/templates/UnionVector.java b/java/vector/src/main/codegen/templates/UnionVector.java
index 1468116c719..48fa5281ea1 100644
--- a/java/vector/src/main/codegen/templates/UnionVector.java
+++ b/java/vector/src/main/codegen/templates/UnionVector.java
@@ -851,4 +851,16 @@ public void setInitialCapacity(int valueCount, double density) {
         }
       }
     }
+
+  /**
+   * Set the element at the given index to null. For UnionVector, it throws an UnsupportedOperationException
+   * as nulls are not supported at the top level and isNull() always returns false.
+   *
+   * @param index position of element
+   * @throws UnsupportedOperationException whenever invoked
+   */
+  @Override
+  public void setNull(int index) {
+    throw new UnsupportedOperationException("The method setNull() is not supported on UnionVector.");
+  }
 }
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/BaseIntVector.java b/java/vector/src/main/java/org/apache/arrow/vector/BaseIntVector.java
index 556411c8652..c9048839d5f 100644
--- a/java/vector/src/main/java/org/apache/arrow/vector/BaseIntVector.java
+++ b/java/vector/src/main/java/org/apache/arrow/vector/BaseIntVector.java
@@ -23,14 +23,14 @@
 public interface BaseIntVector extends FieldVector {
 
   /**
-   * Sets the value at index, note this value may need to be need truncated.
-   * Note this is safe version (i.e. call setSafe method in vector)
+   * Sets the value at index, note this value may need to be truncated.
+   * Note this is safe version (i.e. call setSafe(int, ...) method in vector)
    */
   void setWithPossibleTruncate(int index, long value);
 
   /**
-   * Sets the value at index, note this value may need to be need truncated.
-   * Note this is unsafe version (i.e. call set method in vector)
+   * Sets the value at index, note this value may need to be truncated.
+   * Note this is unsafe version (i.e. call set(int, ...) method in vector)
    */
   void setUnsafeWithPossibleTruncate(int index, long value);
 
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/BaseVariableWidthVector.java b/java/vector/src/main/java/org/apache/arrow/vector/BaseVariableWidthVector.java
index 866dd9e218f..2a89590bf84 100644
--- a/java/vector/src/main/java/org/apache/arrow/vector/BaseVariableWidthVector.java
+++ b/java/vector/src/main/java/org/apache/arrow/vector/BaseVariableWidthVector.java
@@ -46,6 +46,7 @@ public abstract class BaseVariableWidthVector extends BaseValueVector
         implements VariableWidthVector, FieldVector, VectorDefinitionSetter {
   private static final int DEFAULT_RECORD_BYTE_COUNT = 8;
   private static final int INITIAL_BYTE_COUNT = INITIAL_VALUE_ALLOCATION * DEFAULT_RECORD_BYTE_COUNT;
+  private static final int MAX_BUFFER_SIZE = (int) Math.min(MAX_ALLOCATION_SIZE, Integer.MAX_VALUE);
   private int lastValueCapacity;
   private long lastValueAllocationSizeInBytes;
 
@@ -430,9 +431,10 @@ public void allocateNew(int valueCount) {
 
   /* Check if the data buffer size is within bounds. */
   private void checkDataBufferSize(long size) {
-    if (size > MAX_ALLOCATION_SIZE || size < 0) {
+    if (size > MAX_BUFFER_SIZE || size < 0) {
       throw new OversizedAllocationException("Memory required for vector " +
-          " is (" + size + "), which is more than max allowed (" + MAX_ALLOCATION_SIZE + ")");
+          "is (" + size + "), which is overflow or more than max allowed (" + MAX_BUFFER_SIZE + "). " +
+          "You could consider using LargeVarCharVector/LargeVarBinaryVector for large strings/large bytes types");
     }
   }
 
@@ -445,10 +447,10 @@ private long computeAndCheckOffsetsBufferSize(int valueCount) {
      * an additional slot in offset buffer.
      */
     final long size = computeCombinedBufferSize(valueCount + 1, OFFSET_WIDTH);
-    if (size > MAX_ALLOCATION_SIZE) {
+    if (size > MAX_BUFFER_SIZE) {
       throw new OversizedAllocationException("Memory required for vector capacity " +
           valueCount +
-          " is (" + size + "), which is more than max allowed (" + MAX_ALLOCATION_SIZE + ")");
+          " is (" + size + "), which is more than max allowed (" + MAX_BUFFER_SIZE + ")");
     }
     return size;
   }
@@ -514,13 +516,33 @@ public void reallocDataBuffer() {
         newAllocationSize = INITIAL_BYTE_COUNT * 2L;
       }
     }
-    newAllocationSize = CommonUtil.nextPowerOfTwo(newAllocationSize);
+
+    reallocDataBuffer(newAllocationSize);
+  }
+
+  /**
+   * Reallocate the data buffer to given size. Data Buffer stores the actual data for
+   * VARCHAR or VARBINARY elements in the vector. The actual allocate size may be larger
+   * than the request one because it will round up the provided value to the nearest
+   * power of two.
+   *
+   * @param desiredAllocSize the desired new allocation size
+   * @throws OversizedAllocationException if the desired new size is more than
+   *                                      max allowed
+   * @throws OutOfMemoryException if the internal memory allocation fails
+   */
+  public void reallocDataBuffer(long desiredAllocSize) {
+    if (desiredAllocSize == 0) {
+      return;
+    }
+
+    final long newAllocationSize = CommonUtil.nextPowerOfTwo(desiredAllocSize);
     assert newAllocationSize >= 1;
 
     checkDataBufferSize(newAllocationSize);
 
     final ArrowBuf newBuf = allocator.buffer(newAllocationSize);
-    newBuf.setBytes(0, valueBuffer, 0, currentBufferCapacity);
+    newBuf.setBytes(0, valueBuffer, 0, valueBuffer.capacity());
     valueBuffer.getReferenceManager().release();
     valueBuffer = newBuf;
     lastValueAllocationSizeInBytes = valueBuffer.capacity();
@@ -1250,9 +1272,10 @@ protected final void handleSafe(int index, int dataLength) {
     while (index >= getValueCapacity()) {
       reallocValidityAndOffsetBuffers();
     }
-    final int startOffset = lastSet < 0 ? 0 : getStartOffset(lastSet + 1);
-    while (valueBuffer.capacity() < (startOffset + dataLength)) {
-      reallocDataBuffer();
+    final long startOffset = lastSet < 0 ? 0 : getStartOffset(lastSet + 1);
+    final long targetCapacity = startOffset + dataLength;
+    if (valueBuffer.capacity() < targetCapacity) {
+      reallocDataBuffer(targetCapacity);
     }
   }
 
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/ExtensionTypeVector.java b/java/vector/src/main/java/org/apache/arrow/vector/ExtensionTypeVector.java
index 2041227fc8a..ee5b700f505 100644
--- a/java/vector/src/main/java/org/apache/arrow/vector/ExtensionTypeVector.java
+++ b/java/vector/src/main/java/org/apache/arrow/vector/ExtensionTypeVector.java
@@ -194,6 +194,11 @@ public boolean isNull(int index) {
     return underlyingVector.isNull(index);
   }
 
+  @Override
+  public void setNull(int index) {
+    underlyingVector.setNull(index);
+  }
+
   @Override
   public void initializeChildrenFromFields(List<Field> children) {
     underlyingVector.initializeChildrenFromFields(children);
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/FieldVector.java b/java/vector/src/main/java/org/apache/arrow/vector/FieldVector.java
index b00581a040e..299828f6d9d 100644
--- a/java/vector/src/main/java/org/apache/arrow/vector/FieldVector.java
+++ b/java/vector/src/main/java/org/apache/arrow/vector/FieldVector.java
@@ -90,4 +90,11 @@ public interface FieldVector extends ValueVector {
    * @return buffer address
    */
   long getOffsetBufferAddress();
+
+  /**
+   * Set the element at the given index to null.
+   *
+   * @param index the value to change
+   */
+  void setNull(int index);
 }
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/GenerateSampleData.java b/java/vector/src/main/java/org/apache/arrow/vector/GenerateSampleData.java
index 3da91554116..efebfd83543 100644
--- a/java/vector/src/main/java/org/apache/arrow/vector/GenerateSampleData.java
+++ b/java/vector/src/main/java/org/apache/arrow/vector/GenerateSampleData.java
@@ -83,6 +83,14 @@ public static void generateTestData(final ValueVector vector, final int valueCou
       writeTimeStampData((TimeStampMilliTZVector) vector, valueCount);
     } else if (vector instanceof TimeStampNanoTZVector) {
       writeTimeStampData((TimeStampNanoTZVector) vector, valueCount);
+    } else if (vector instanceof UInt1Vector) {
+      writeUInt1Data((UInt1Vector) vector, valueCount);
+    } else if (vector instanceof UInt2Vector) {
+      writeUInt2Data((UInt2Vector) vector, valueCount);
+    } else if (vector instanceof UInt4Vector) {
+      writeUInt4Data((UInt4Vector) vector, valueCount);
+    } else if (vector instanceof UInt8Vector) {
+      writeUInt8Data((UInt8Vector) vector, valueCount);
     }
   }
 
@@ -267,6 +275,58 @@ private static void writeTinyIntData(TinyIntVector vector, int valueCount) {
     vector.setValueCount(valueCount);
   }
 
+  private static void writeUInt1Data(UInt1Vector vector, int valueCount) {
+    final byte even = 1;
+    final byte odd = 2;
+    for (int i = 0; i < valueCount; i++) {
+      if (i % 2 == 0) {
+        vector.setSafe(i, even);
+      } else {
+        vector.setSafe(i, odd);
+      }
+    }
+    vector.setValueCount(valueCount);
+  }
+
+  private static void writeUInt2Data(UInt2Vector vector, int valueCount) {
+    final short even = 10;
+    final short odd = 20;
+    for (int i = 0; i < valueCount; i++) {
+      if (i % 2 == 0) {
+        vector.setSafe(i, even);
+      } else {
+        vector.setSafe(i, odd);
+      }
+    }
+    vector.setValueCount(valueCount);
+  }
+
+  private static void writeUInt4Data(UInt4Vector vector, int valueCount) {
+    final int even = 1000;
+    final int odd = 2000;
+    for (int i = 0; i < valueCount; i++) {
+      if (i % 2 == 0) {
+        vector.setSafe(i, even);
+      } else {
+        vector.setSafe(i, odd);
+      }
+    }
+    vector.setValueCount(valueCount);
+  }
+
+  private static void writeUInt8Data(UInt8Vector vector, int valueCount) {
+    final long even = 1000000000;
+    final long odd = 2000000000;
+    for (int i = 0; i < valueCount; i++) {
+      if (i % 2 == 0) {
+        vector.setSafe(i, even);
+      } else {
+        vector.setSafe(i, odd);
+      }
+    }
+    vector.setValueCount(valueCount);
+  }
+
   private static void writeBigIntData(BigIntVector vector, int valueCount) {
     final long even = 1000000000;
     final long odd = 2000000000;
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/NullVector.java b/java/vector/src/main/java/org/apache/arrow/vector/NullVector.java
index 1010d8d475f..0add8190167 100644
--- a/java/vector/src/main/java/org/apache/arrow/vector/NullVector.java
+++ b/java/vector/src/main/java/org/apache/arrow/vector/NullVector.java
@@ -262,6 +262,15 @@ public int getNullCount() {
     return this.valueCount;
   }
 
+
+  /**
+   * Set the element at the given index to null. In a NullVector, this is a no-op.
+   *
+   * @param index position of element
+   */
+  @Override
+  public void setNull(int index) {}
+
   @Override
   public boolean isNull(int index) {
     return true;
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/dictionary/DictionaryEncoder.java b/java/vector/src/main/java/org/apache/arrow/vector/dictionary/DictionaryEncoder.java
index babb0dbd30a..c44d106f536 100644
--- a/java/vector/src/main/java/org/apache/arrow/vector/dictionary/DictionaryEncoder.java
+++ b/java/vector/src/main/java/org/apache/arrow/vector/dictionary/DictionaryEncoder.java
@@ -20,6 +20,7 @@
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.util.hash.ArrowBufHasher;
 import org.apache.arrow.memory.util.hash.SimpleHasher;
+import org.apache.arrow.util.AutoCloseables;
 import org.apache.arrow.util.Preconditions;
 import org.apache.arrow.vector.BaseIntVector;
 import org.apache.arrow.vector.FieldVector;
@@ -76,8 +77,34 @@ public static ValueVector encode(ValueVector vector, Dictionary dictionary) {
    * @return vector with values restored from dictionary
    */
   public static ValueVector decode(ValueVector indices, Dictionary dictionary) {
-    DictionaryEncoder encoder = new DictionaryEncoder(dictionary, indices.getAllocator());
-    return encoder.decode(indices);
+    return decode(indices, dictionary, indices.getAllocator());
+  }
+
+  /**
+   * Decodes a dictionary encoded array using the provided dictionary.
+   *
+   * @param indices dictionary encoded values, must be int type
+   * @param dictionary dictionary used to decode the values
+   * @param allocator allocator the decoded values use
+   * @return vector with values restored from dictionary
+   */
+  public static ValueVector decode(ValueVector indices, Dictionary dictionary, BufferAllocator allocator) {
+    int count = indices.getValueCount();
+    ValueVector dictionaryVector = dictionary.getVector();
+    int dictionaryCount = dictionaryVector.getValueCount();
+    // copy the dictionary values into the decoded vector
+    TransferPair transfer = dictionaryVector.getTransferPair(allocator);
+    transfer.getTo().allocateNewSafe();
+    try {
+      BaseIntVector baseIntVector = (BaseIntVector) indices;
+      retrieveIndexVector(baseIntVector, transfer, dictionaryCount, 0, count);
+      ValueVector decoded = transfer.getTo();
+      decoded.setValueCount(count);
+      return decoded;
+    } catch (Exception e) {
+      AutoCloseables.close(e, transfer.getTo());
+      throw e;
+    }
   }
 
   /**
@@ -170,27 +197,23 @@ public ValueVector encode(ValueVector vector) {
 
     BaseIntVector indices = (BaseIntVector) createdVector;
     indices.allocateNew();
-
-    buildIndexVector(vector, indices, hashTable, 0, vector.getValueCount());
-    indices.setValueCount(vector.getValueCount());
-    return indices;
+    try {
+      buildIndexVector(vector, indices, hashTable, 0, vector.getValueCount());
+      indices.setValueCount(vector.getValueCount());
+      return indices;
+    } catch (Exception e) {
+      AutoCloseables.close(e, indices);
+      throw e;
+    }
   }
 
   /**
-   * Decodes a vector with the built hash table in this encoder.
+   * Decodes a vector with the dictionary in this encoder.
+   *
+   * {@link DictionaryEncoder#decode(ValueVector, Dictionary, BufferAllocator)} should be used instead if only decoding
+   * is required as it can avoid building the {@link DictionaryHashTable} which only makes sense when encoding.
    */
   public ValueVector decode(ValueVector indices) {
-    int count = indices.getValueCount();
-    ValueVector dictionaryVector = dictionary.getVector();
-    int dictionaryCount = dictionaryVector.getValueCount();
-    // copy the dictionary values into the decoded vector
-    TransferPair transfer = dictionaryVector.getTransferPair(allocator);
-    transfer.getTo().allocateNewSafe();
-
-    BaseIntVector baseIntVector = (BaseIntVector) indices;
-    retrieveIndexVector(baseIntVector, transfer, dictionaryCount, 0, count);
-    ValueVector decoded = transfer.getTo();
-    decoded.setValueCount(count);
-    return decoded;
+    return decode(indices, dictionary, allocator);
   }
 }
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/dictionary/ListSubfieldEncoder.java b/java/vector/src/main/java/org/apache/arrow/vector/dictionary/ListSubfieldEncoder.java
index dd2bb26e3af..7f3514798d9 100644
--- a/java/vector/src/main/java/org/apache/arrow/vector/dictionary/ListSubfieldEncoder.java
+++ b/java/vector/src/main/java/org/apache/arrow/vector/dictionary/ListSubfieldEncoder.java
@@ -22,6 +22,7 @@
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.util.hash.ArrowBufHasher;
 import org.apache.arrow.memory.util.hash.SimpleHasher;
+import org.apache.arrow.util.AutoCloseables;
 import org.apache.arrow.vector.BaseIntVector;
 import org.apache.arrow.vector.FieldVector;
 import org.apache.arrow.vector.ValueVector;
@@ -54,11 +55,11 @@ public ListSubfieldEncoder(Dictionary dictionary, BufferAllocator allocator, Arr
     hashTable = new DictionaryHashTable(getDataVector(dictVector), hasher);
   }
 
-  private FieldVector getDataVector(BaseListVector vector) {
+  private static FieldVector getDataVector(BaseListVector vector) {
     return vector.getChildrenFromFields().get(0);
   }
 
-  private BaseListVector cloneVector(BaseListVector vector) {
+  private static BaseListVector cloneVector(BaseListVector vector, BufferAllocator allocator) {
 
     final FieldType fieldType = vector.getField().getFieldType();
     BaseListVector cloned = (BaseListVector) fieldType.createNewSingleVector(vector.getField().getName(),
@@ -84,54 +85,82 @@ public BaseListVector encodeListSubField(BaseListVector vector) {
     Field valueField = new Field(vector.getField().getName(), indexFieldType, null);
 
     // clone list vector and initialize data vector
-    BaseListVector encoded = cloneVector(vector);
-    encoded.initializeChildrenFromFields(Collections.singletonList(valueField));
-    BaseIntVector indices = (BaseIntVector) getDataVector(encoded);
-
-    ValueVector dataVector = getDataVector(vector);
-    for (int i = 0; i < valueCount; i++) {
-      if (!vector.isNull(i)) {
-        int start = vector.getElementStartIndex(i);
-        int end = vector.getElementEndIndex(i);
-
-        DictionaryEncoder.buildIndexVector(dataVector, indices, hashTable, start, end);
+    BaseListVector encoded = cloneVector(vector, allocator);
+    try {
+      encoded.initializeChildrenFromFields(Collections.singletonList(valueField));
+      BaseIntVector indices = (BaseIntVector) getDataVector(encoded);
+
+      ValueVector dataVector = getDataVector(vector);
+      for (int i = 0; i < valueCount; i++) {
+        if (!vector.isNull(i)) {
+          int start = vector.getElementStartIndex(i);
+          int end = vector.getElementEndIndex(i);
+
+          DictionaryEncoder.buildIndexVector(dataVector, indices, hashTable, start, end);
+        }
       }
-    }
 
-    return encoded;
+      return encoded;
+    } catch (Exception e) {
+      AutoCloseables.close(e, encoded);
+      throw e;
+    }
   }
 
   /**
    * Decodes a dictionary subfields encoded vector using the provided dictionary.
+   *
+   * {@link ListSubfieldEncoder#decodeListSubField(BaseListVector, Dictionary, BufferAllocator)} should be used instead
+   * if only decoding is required as it can avoid building the {@link DictionaryHashTable} which only makes sense when
+   * encoding.
+   *
    * @param vector dictionary encoded vector, its data vector must be int type
    * @return vector with values restored from dictionary
    */
   public BaseListVector decodeListSubField(BaseListVector vector) {
+    return decodeListSubField(vector, dictionary, allocator);
+  }
 
+  /**
+   * Decodes a dictionary subfields encoded vector using the provided dictionary.
+   *
+   * @param vector dictionary encoded vector, its data vector must be int type
+   * @param dictionary dictionary used to decode the values
+   * @param allocator allocator the decoded values use
+   * @return vector with values restored from dictionary
+   */
+  public static BaseListVector decodeListSubField(BaseListVector vector,
+                                                  Dictionary dictionary,
+                                                  BufferAllocator allocator) {
     int valueCount = vector.getValueCount();
     BaseListVector dictionaryVector = (BaseListVector) dictionary.getVector();
     int dictionaryValueCount = getDataVector(dictionaryVector).getValueCount();
 
     // clone list vector and initialize data vector
-    BaseListVector decoded = cloneVector(vector);
-    Field dataVectorField = getDataVector(dictionaryVector).getField();
-    decoded.initializeChildrenFromFields(Collections.singletonList(dataVectorField));
+    BaseListVector decoded = cloneVector(vector, allocator);
+    try {
+      Field dataVectorField = getDataVector(dictionaryVector).getField();
+      decoded.initializeChildrenFromFields(Collections.singletonList(dataVectorField));
 
-    // get data vector
-    ValueVector dataVector = getDataVector(decoded);
+      // get data vector
+      ValueVector dataVector = getDataVector(decoded);
 
-    TransferPair transfer = getDataVector(dictionaryVector).makeTransferPair(dataVector);
-    BaseIntVector indices = (BaseIntVector) getDataVector(vector);
+      TransferPair transfer = getDataVector(dictionaryVector).makeTransferPair(dataVector);
+      BaseIntVector indices = (BaseIntVector) getDataVector(vector);
 
-    for (int i = 0; i < valueCount; i++) {
+      for (int i = 0; i < valueCount; i++) {
 
-      if (!vector.isNull(i)) {
-        int start = vector.getElementStartIndex(i);
-        int end = vector.getElementEndIndex(i);
+        if (!vector.isNull(i)) {
+          int start = vector.getElementStartIndex(i);
+          int end = vector.getElementEndIndex(i);
 
-        DictionaryEncoder.retrieveIndexVector(indices, transfer, dictionaryValueCount, start, end);
+          DictionaryEncoder.retrieveIndexVector(indices, transfer, dictionaryValueCount, start, end);
+        }
       }
+      return decoded;
+    } catch (Exception e) {
+      AutoCloseables.close(e, decoded);
+      throw e;
     }
-    return decoded;
   }
 }
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/dictionary/StructSubfieldEncoder.java b/java/vector/src/main/java/org/apache/arrow/vector/dictionary/StructSubfieldEncoder.java
index 6542b298d7d..8500528a62b 100644
--- a/java/vector/src/main/java/org/apache/arrow/vector/dictionary/StructSubfieldEncoder.java
+++ b/java/vector/src/main/java/org/apache/arrow/vector/dictionary/StructSubfieldEncoder.java
@@ -25,6 +25,7 @@
 import org.apache.arrow.memory.BufferAllocator;
 import org.apache.arrow.memory.util.hash.ArrowBufHasher;
 import org.apache.arrow.memory.util.hash.SimpleHasher;
+import org.apache.arrow.util.AutoCloseables;
 import org.apache.arrow.util.Preconditions;
 import org.apache.arrow.vector.BaseIntVector;
 import org.apache.arrow.vector.FieldVector;
@@ -70,11 +71,11 @@ public StructSubfieldEncoder(
         dictionaryIdToHashTable.put(id, new DictionaryHashTable(provider.lookup(id).getVector(), hasher)));
   }
 
-  private FieldVector getChildVector(StructVector vector, int index) {
+  private static FieldVector getChildVector(StructVector vector, int index) {
     return vector.getChildrenFromFields().get(index);
   }
 
-  private StructVector cloneVector(StructVector vector) {
+  private static StructVector cloneVector(StructVector vector, BufferAllocator allocator) {
 
     final FieldType fieldType = vector.getField().getFieldType();
     StructVector cloned = (StructVector) fieldType.createNewSingleVector(
@@ -117,74 +118,103 @@ public StructVector encode(StructVector vector, Map<Integer, Long> columnToDicti
     }
 
     // clone list vector and initialize data vector
-    StructVector encoded = cloneVector(vector);
-    encoded.initializeChildrenFromFields(childrenFields);
-    encoded.setValueCount(valueCount);
-
-    for (int index = 0; index < childCount; index++) {
-      FieldVector childVector = getChildVector(vector, index);
-      FieldVector encodedChildVector = getChildVector(encoded, index);
-      Long dictionaryId = columnToDictionaryId.get(index);
-      if (dictionaryId != null) {
-        BaseIntVector indices = (BaseIntVector) encodedChildVector;
-        DictionaryEncoder.buildIndexVector(childVector, indices, dictionaryIdToHashTable.get(dictionaryId),
-            0, valueCount);
-      } else {
-        childVector.makeTransferPair(encodedChildVector).splitAndTransfer(0, valueCount);
+    StructVector encoded = cloneVector(vector, allocator);
+    try {
+      encoded.initializeChildrenFromFields(childrenFields);
+      encoded.setValueCount(valueCount);
+
+      for (int index = 0; index < childCount; index++) {
+        FieldVector childVector = getChildVector(vector, index);
+        FieldVector encodedChildVector = getChildVector(encoded, index);
+        Long dictionaryId = columnToDictionaryId.get(index);
+        if (dictionaryId != null) {
+          BaseIntVector indices = (BaseIntVector) encodedChildVector;
+          DictionaryEncoder.buildIndexVector(childVector, indices, dictionaryIdToHashTable.get(dictionaryId),
+                  0, valueCount);
+        } else {
+          childVector.makeTransferPair(encodedChildVector).splitAndTransfer(0, valueCount);
+        }
       }
-    }
 
-    return encoded;
+      return encoded;
+    } catch (Exception e) {
+      AutoCloseables.close(e, encoded);
+      throw e;
+    }
   }
 
   /**
    * Decodes a dictionary subfields encoded vector using the provided dictionary.
+   *
+   * {@link StructSubfieldEncoder#decode(StructVector, DictionaryProvider.MapDictionaryProvider, BufferAllocator)}
+   * should be used instead if only decoding is required as it can avoid building the {@link DictionaryHashTable}
+   * which only makes sense when encoding.
+   *
    * @param vector dictionary encoded vector, its child vector must be int type
    * @return vector with values restored from dictionary
    */
   public StructVector decode(StructVector vector) {
+    return decode(vector, provider, allocator);
+  }
 
+  /**
+   * Decodes a dictionary subfields encoded vector using the provided dictionary.
+   *
+   * @param vector dictionary encoded vector, its data vector must be int type
+   * @param provider  dictionary provider used to decode the values
+   * @param allocator allocator the decoded values use
+   * @return vector with values restored from dictionary
+   */
+  public static StructVector decode(StructVector vector,
+                                    DictionaryProvider.MapDictionaryProvider provider,
+                                    BufferAllocator allocator) {
     final int valueCount = vector.getValueCount();
     final int childCount = vector.getChildrenFromFields().size();
 
     // clone list vector and initialize child vectors
-    StructVector decoded = cloneVector(vector);
-    List<Field> childFields = new ArrayList<>();
-    for (int i = 0; i < childCount; i++) {
-      FieldVector childVector = getChildVector(vector, i);
-      Dictionary dictionary = getChildVectorDictionary(childVector);
-      // childVector is not encoded.
-      if (dictionary == null) {
-        childFields.add(childVector.getField());
-      } else {
-        childFields.add(dictionary.getVector().getField());
+    StructVector decoded = cloneVector(vector, allocator);
+    try {
+      List<Field> childFields = new ArrayList<>();
+      for (int i = 0; i < childCount; i++) {
+        FieldVector childVector = getChildVector(vector, i);
+        Dictionary dictionary = getChildVectorDictionary(childVector, provider);
+        // childVector is not encoded.
+        if (dictionary == null) {
+          childFields.add(childVector.getField());
+        } else {
+          childFields.add(dictionary.getVector().getField());
+        }
       }
-    }
-    decoded.initializeChildrenFromFields(childFields);
-    decoded.setValueCount(valueCount);
-
-    for (int index = 0; index < childCount; index++) {
-      // get child vector
-      FieldVector childVector = getChildVector(vector, index);
-      FieldVector decodedChildVector = getChildVector(decoded, index);
-      Dictionary dictionary = getChildVectorDictionary(childVector);
-      if (dictionary == null) {
-        childVector.makeTransferPair(decodedChildVector).splitAndTransfer(0, valueCount);
-      } else {
-        TransferPair transfer = dictionary.getVector().makeTransferPair(decodedChildVector);
-        BaseIntVector indices = (BaseIntVector) childVector;
-
-        DictionaryEncoder.retrieveIndexVector(indices, transfer, valueCount, 0, valueCount);
+      decoded.initializeChildrenFromFields(childFields);
+      decoded.setValueCount(valueCount);
+
+      for (int index = 0; index < childCount; index++) {
+        // get child vector
+        FieldVector childVector = getChildVector(vector, index);
+        FieldVector decodedChildVector = getChildVector(decoded, index);
+        Dictionary dictionary = getChildVectorDictionary(childVector, provider);
+        if (dictionary == null) {
+          childVector.makeTransferPair(decodedChildVector).splitAndTransfer(0, valueCount);
+        } else {
+          TransferPair transfer = dictionary.getVector().makeTransferPair(decodedChildVector);
+          BaseIntVector indices = (BaseIntVector) childVector;
+
+          DictionaryEncoder.retrieveIndexVector(indices, transfer, valueCount, 0, valueCount);
+        }
       }
-    }
 
-    return decoded;
+      return decoded;
+    } catch (Exception e) {
+      AutoCloseables.close(e, decoded);
+      throw e;
+    }
   }
 
   /**
    * Get the child vector dictionary, return null if not dictionary encoded.
    */
-  private Dictionary getChildVectorDictionary(FieldVector childVector) {
+  private static Dictionary getChildVectorDictionary(FieldVector childVector,
+                                                     DictionaryProvider.MapDictionaryProvider provider) {
     DictionaryEncoding dictionaryEncoding = childVector.getField().getDictionary();
     if (dictionaryEncoding != null) {
       Dictionary dictionary = provider.lookup(dictionaryEncoding.getId());
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/ipc/message/ArrowRecordBatch.java b/java/vector/src/main/java/org/apache/arrow/vector/ipc/message/ArrowRecordBatch.java
index dbf2774fba8..307d32cb74d 100644
--- a/java/vector/src/main/java/org/apache/arrow/vector/ipc/message/ArrowRecordBatch.java
+++ b/java/vector/src/main/java/org/apache/arrow/vector/ipc/message/ArrowRecordBatch.java
@@ -34,7 +34,7 @@
 import com.google.flatbuffers.FlatBufferBuilder;
 
 /**
- * POJO representation of a RecordBatch IPC message (https://arrow.apache.org/docs/format/IPC.html).
+ * POJO representation of a RecordBatch IPC message (https://arrow.apache.org/docs/format/Columnar.html#recordbatch-message).
  */
 public class ArrowRecordBatch implements ArrowMessage {
 
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/table/BaseTable.java b/java/vector/src/main/java/org/apache/arrow/vector/table/BaseTable.java
new file mode 100644
index 00000000000..9f645b64bc5
--- /dev/null
+++ b/java/vector/src/main/java/org/apache/arrow/vector/table/BaseTable.java
@@ -0,0 +1,433 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.vector.table;
+
+import java.util.ArrayList;
+import java.util.LinkedHashMap;
+import java.util.List;
+import java.util.Map;
+import java.util.stream.Collectors;
+
+import org.apache.arrow.util.AutoCloseables;
+import org.apache.arrow.util.Preconditions;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.ValueVector;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.complex.reader.FieldReader;
+import org.apache.arrow.vector.dictionary.Dictionary;
+import org.apache.arrow.vector.dictionary.DictionaryEncoder;
+import org.apache.arrow.vector.dictionary.DictionaryProvider;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.apache.arrow.vector.util.TransferPair;
+
+/**
+ * Abstract base class for Table.
+ * <p>
+ * This API is EXPERIMENTAL.
+ */
+public abstract class BaseTable implements AutoCloseable {
+
+  /** The field vectors holding the data in this table. */
+  protected final List<FieldVector> fieldVectors;
+
+  /**
+   * An optional DictionaryProvider. One must be present if any vector in the table is dictionary
+   * encoded.
+   */
+  protected DictionaryProvider dictionaryProvider;
+
+  /** A map of Fields to FieldVectors used to select Fields. */
+  protected final Map<Field, FieldVector> fieldVectorsMap = new LinkedHashMap<>();
+
+  /** The schema for the table. */
+  protected Schema schema;
+
+  /** The number of rows of data in the table; not necessarily the same as the table row capacity. */
+  protected int rowCount;
+
+  /**
+   * Constructs new instance with the given rowCount, and containing the schema and each of the
+   * given vectors.
+   *
+   * @param fieldVectors the FieldVectors containing the table's data
+   * @param rowCount the number of rows in the table
+   * @param provider a dictionary provider, may be null if none of the vectors in the table are
+   *     encoded
+   */
+  public BaseTable(List<FieldVector> fieldVectors, int rowCount, DictionaryProvider provider) {
+
+    this.dictionaryProvider = provider;
+    this.rowCount = rowCount;
+    this.fieldVectors = new ArrayList<>();
+    List<Field> fields = new ArrayList<>();
+    for (FieldVector fv : fieldVectors) {
+      TransferPair transferPair = fv.getTransferPair(fv.getAllocator());
+      transferPair.transfer();
+      FieldVector newVector = (FieldVector) transferPair.getTo();
+      newVector.setValueCount(rowCount);
+
+      Field newField = newVector.getField();
+      this.fieldVectors.add(newVector);
+      fields.add(newField);
+      fieldVectorsMap.put(newField, newVector);
+    }
+    this.schema = new Schema(fields);
+  }
+
+  BaseTable() {
+    this.fieldVectors = new ArrayList<>();
+  }
+
+  /**
+   * Returns a FieldReader for the vector with the given name.
+   *
+   * @param name The name of a vector in this Table (case-sensitive)
+   * @return A FieldReader for the named FieldVector
+   */
+  public FieldReader getReader(String name) {
+    for (Map.Entry<Field, FieldVector> entry : fieldVectorsMap.entrySet()) {
+      if (entry.getKey().getName().equals(name)) {
+        return entry.getValue().getReader();
+      }
+    }
+    return null;
+  }
+
+  /**
+   * Returns a FieldReader for the given field.
+   *
+   * @param field The field to be read
+   * @return A FieldReader for the given field
+   */
+  public FieldReader getReader(Field field) {
+    return fieldVectorsMap.get(field).getReader();
+  }
+
+  /**
+   * Returns a FieldReader for the field at the given vector index.
+   *
+   * @param index The 0-based index of the field desired.
+   * @return  A FieldReader for the requested field
+   */
+  public FieldReader getReader(int index) {
+    Preconditions.checkArgument(index >= 0 && index < fieldVectors.size());
+    return fieldVectors.get(index).getReader();
+  }
+
+  /**
+   * Returns the schema for this Table.
+   */
+  public Schema getSchema() {
+    return schema;
+  }
+
+  /**
+   * Returns the Field with the given name if one exists in this table.
+   *
+   * @param fieldName the name of the field to return
+   * @return a field with the given name if one is present
+   * @throws IllegalArgumentException – if the field was not found
+   */
+  public Field getField(String fieldName) {
+    return getSchema().findField(fieldName);
+  }
+
+  /**
+   * Returns a list of Field created by adding the given vector to the vectors in this Table.
+   *
+   * @param index field index
+   * @param vector vector to be added.
+   * @return out List of FieldVectors with vector added
+   */
+  List<FieldVector> insertVector(int index, FieldVector vector) {
+    Preconditions.checkNotNull(vector);
+    Preconditions.checkArgument(index >= 0 && index <= fieldVectors.size());
+    List<FieldVector> newVectors = new ArrayList<>();
+    if (index == fieldVectors.size()) {
+      newVectors.addAll(fieldVectors);
+      newVectors.add(vector);
+    } else {
+      for (int i = 0; i < fieldVectors.size(); i++) {
+        if (i == index) {
+          newVectors.add(vector);
+        }
+        newVectors.add(fieldVectors.get(i));
+      }
+    }
+    return newVectors;
+  }
+
+  /**
+   * Returns a new List of FieldVectors created by removing the selected Vector from the list in
+   * this Table.
+   *
+   * @param index field index
+   * @return out List of FieldVectors like the list in this table, but with the argument removed
+   */
+  List<FieldVector> extractVector(int index) {
+    Preconditions.checkArgument(index >= 0 && index < fieldVectors.size());
+    List<FieldVector> newVectors = new ArrayList<>();
+    for (int i = 0; i < fieldVectors.size(); i++) {
+      if (i != index) {
+        newVectors.add(fieldVectors.get(i));
+      }
+    }
+    return newVectors;
+  }
+
+  /** Returns the number of vectors (columns) in this table. */
+  public int getVectorCount() {
+    return fieldVectors.size();
+  }
+
+  /**
+   * Closes all the vectors holding data for this table and sets the rowcount to 0, preventing
+   * enumeration.
+   */
+  void clear() {
+    close();
+    rowCount = 0;
+  }
+
+  /** Closes all the vectors holding data for this table. */
+  @Override
+  public void close() {
+    try {
+      AutoCloseables.close(fieldVectors);
+    } catch (RuntimeException ex) {
+      throw ex;
+    } catch (Exception ex) {
+      // should never happen since FieldVector.close() doesn't throw IOException
+      throw new RuntimeException(ex);
+    }
+  }
+
+  /** Returns the number of rows in this table. */
+  public long getRowCount() {
+    return rowCount;
+  }
+
+  /**
+   * Returns a new VectorSchemaRoot with the data and schema from this table. Data is transferred to
+   * the new VectorSchemaRoot, so this table is cleared and the rowCount is set to 0;
+   *
+   * @return a new VectorSchemaRoot
+   */
+  public VectorSchemaRoot toVectorSchemaRoot() {
+    VectorSchemaRoot vsr =
+        new VectorSchemaRoot(
+            fieldVectors.stream()
+                .map(
+                    v -> {
+                      TransferPair transferPair = v.getTransferPair(v.getAllocator());
+                      transferPair.transfer();
+                      return (FieldVector) transferPair.getTo();
+                    })
+                .collect(Collectors.toList()));
+    clear();
+    return vsr;
+  }
+
+  /**
+   * Returns the vector with the given name, or throws IllegalArgumentException if the name is not found. Names are
+   * case-sensitive.
+   *
+   * @param columnName The name of the vector
+   * @return the Vector with the given name, or null
+   * @throws IllegalArgumentException if the name is not the name of a vector in the table.
+   */
+  FieldVector getVector(String columnName) {
+    for (Map.Entry<Field, FieldVector> entry : fieldVectorsMap.entrySet()) {
+      if (entry.getKey().getName().equals(columnName)) {
+        return entry.getValue();
+      }
+    }
+    throw new IllegalArgumentException(String.format("No vector named '%s' is present in the table", columnName));
+  }
+
+  /**
+   * Returns the vector at the given position.
+   *
+   * @param columnIndex The 0-based position of the vector
+   */
+  FieldVector getVector(int columnIndex) {
+    return fieldVectors.get(columnIndex);
+  }
+
+
+  /**
+   * Returns a copy of the vector with the given name, or throws IllegalArgumentException if the name is not found.
+   * Names are case-sensitive.
+   *
+   * @param columnName The name of the vector to copy
+   * @return A copy of the Vector with the given name
+   * @throws IllegalArgumentException if the name is not the name of a vector in the table.
+   */
+  public FieldVector getVectorCopy(String columnName) {
+    FieldVector source;
+    for (Map.Entry<Field, FieldVector> entry : fieldVectorsMap.entrySet()) {
+      if (entry.getKey().getName().equals(columnName)) {
+        source = entry.getValue();
+        FieldVector copy = source.getField().createVector(source.getAllocator());
+        copy.allocateNew();
+        for (int i = 0; i < source.getValueCount(); i++) {
+          copy.copyFromSafe(i, i, source);
+        }
+        copy.setValueCount(source.getValueCount());
+        return copy;
+      }
+    }
+    throw new IllegalStateException(String.format("No vector named '%s' is present in the table", columnName));
+  }
+
+  /**
+   * Returns a copy of the vector at the given position.
+   *
+   * @param columnIndex The 0-based position of the vector to be copied
+   */
+  public FieldVector getVectorCopy(int columnIndex) {
+    FieldVector source = fieldVectors.get(columnIndex);
+    FieldVector copy = source.getField().createVector(source.getAllocator());
+    copy.allocateNew();
+    for (int i = 0; i < source.getValueCount(); i++) {
+      copy.copyFromSafe(i, i, source);
+    }
+    copy.setValueCount(source.getValueCount());
+    return copy;
+  }
+
+  /**
+   * Returns an immutable Row object holding a reference to this table. The default character
+   * encoding used by the cursor to decode Strings will be StandardCharsets.UTF_8 as this is the only charset
+   * supported in Arrow format.
+   */
+  public Row immutableRow() {
+    return new Row(this);
+  }
+
+  /**
+   * Returns a tab separated value of vectors (based on their java object representation).
+   */
+  public String contentToTSVString() {
+    StringBuilder sb = new StringBuilder();
+    List<Object> row = new ArrayList<>(schema.getFields().size());
+    for (Field field : schema.getFields()) {
+      row.add(field.getName());
+    }
+    printRow(sb, row);
+    for (int i = 0; i < rowCount; i++) {
+      row.clear();
+      for (FieldVector v : fieldVectors) {
+        row.add(v.getObject(i));
+      }
+      printRow(sb, row);
+    }
+    return sb.toString();
+  }
+
+  /**
+   * Prints a single row without a header to the given StringBuilder.
+   *
+   * @param sb the StringBuilder to write to
+   * @param row the row to write
+   */
+  private void printRow(StringBuilder sb, List<Object> row) {
+    boolean first = true;
+    for (Object v : row) {
+      if (first) {
+        first = false;
+      } else {
+        sb.append("\t");
+      }
+      sb.append(v);
+    }
+    sb.append("\n");
+  }
+
+  /**
+   * Returns true if the row at the given index has been deleted and false otherwise.
+   *
+   * <p>If the index is larger than the number of rows, the method returns true.
+   *
+   * @param rowNumber The 0-based index of the possibly deleted row
+   * @return true if the row at the index was deleted; false otherwise
+   */
+  public boolean isRowDeleted(int rowNumber) {
+    return false;
+  }
+
+  /** Returns the DictionaryProvider for this table. It can be used to decode an encoded values */
+  public DictionaryProvider getDictionaryProvider() {
+    return dictionaryProvider;
+  }
+
+  /**
+   * Returns a ValueVector containing the decoded version of the vector with the given name.
+   * @param vectorName    The name of the vector to decode
+   * @param dictionaryId  The identifier for the dictionary to use when decoding. Must match the id returned by the
+   *                      dictionary's getId() method.
+   * @return  A ValueVector
+   */
+  public ValueVector decode(String vectorName, long dictionaryId) {
+    Dictionary dictionary = getDictionary(dictionaryId);
+
+    FieldVector vector = getVector(vectorName);
+    if (vector == null) {
+      throw new IllegalArgumentException(
+          String.format("No vector with name '%s' is present in table", vectorName));
+    }
+
+    DictionaryEncoder decoder = new DictionaryEncoder(dictionary, vector.getAllocator());
+    return decoder.decode(vector);
+  }
+
+  /**
+   * Returns a ValueVector containing the encoded version of the vector with the given name.
+   * @param vectorName    The name of the vector to encode
+   * @param dictionaryId  The identifier for the dictionary to use when encoding. Must match the id returned by the
+   *                      dictionary's getId() method.
+   * @return  A ValueVector
+   */
+  public ValueVector encode(String vectorName, long dictionaryId) {
+    Dictionary dictionary = getDictionary(dictionaryId);
+    FieldVector vector = getVector(vectorName);
+    if (vector == null) {
+      throw new IllegalArgumentException(
+          String.format("No vector with name '%s' is present in table", vectorName));
+    }
+    DictionaryEncoder decoder = new DictionaryEncoder(dictionary, vector.getAllocator());
+    return decoder.encode(vector);
+  }
+
+  /**
+   * Returns the dictionary with given id.
+   * @param dictionaryId  A long integer that is the id returned by the dictionary's getId() method
+   */
+  private Dictionary getDictionary(long dictionaryId) {
+    if (dictionaryProvider == null) {
+      throw new IllegalStateException("No dictionary provider is present in table.");
+    }
+
+    Dictionary dictionary = dictionaryProvider.lookup(dictionaryId);
+    if (dictionary == null) {
+      throw new IllegalArgumentException("No dictionary with id '%n' exists in the table");
+    }
+    return dictionary;
+  }
+}
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/table/Row.java b/java/vector/src/main/java/org/apache/arrow/vector/table/Row.java
new file mode 100644
index 00000000000..dcc5a4dd5cc
--- /dev/null
+++ b/java/vector/src/main/java/org/apache/arrow/vector/table/Row.java
@@ -0,0 +1,1949 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.vector.table;
+
+import java.math.BigDecimal;
+import java.nio.charset.Charset;
+import java.nio.charset.StandardCharsets;
+import java.time.Duration;
+import java.time.LocalDateTime;
+import java.time.Period;
+import java.util.Iterator;
+import java.util.List;
+import java.util.NoSuchElementException;
+
+import org.apache.arrow.memory.ArrowBuf;
+import org.apache.arrow.vector.BigIntVector;
+import org.apache.arrow.vector.BitVector;
+import org.apache.arrow.vector.DateDayVector;
+import org.apache.arrow.vector.DateMilliVector;
+import org.apache.arrow.vector.DecimalVector;
+import org.apache.arrow.vector.DurationVector;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.FixedSizeBinaryVector;
+import org.apache.arrow.vector.Float4Vector;
+import org.apache.arrow.vector.Float8Vector;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.IntervalDayVector;
+import org.apache.arrow.vector.IntervalMonthDayNanoVector;
+import org.apache.arrow.vector.IntervalYearVector;
+import org.apache.arrow.vector.LargeVarBinaryVector;
+import org.apache.arrow.vector.LargeVarCharVector;
+import org.apache.arrow.vector.PeriodDuration;
+import org.apache.arrow.vector.SmallIntVector;
+import org.apache.arrow.vector.TimeMicroVector;
+import org.apache.arrow.vector.TimeMilliVector;
+import org.apache.arrow.vector.TimeNanoVector;
+import org.apache.arrow.vector.TimeSecVector;
+import org.apache.arrow.vector.TimeStampMicroTZVector;
+import org.apache.arrow.vector.TimeStampMicroVector;
+import org.apache.arrow.vector.TimeStampMilliTZVector;
+import org.apache.arrow.vector.TimeStampMilliVector;
+import org.apache.arrow.vector.TimeStampNanoTZVector;
+import org.apache.arrow.vector.TimeStampNanoVector;
+import org.apache.arrow.vector.TimeStampSecTZVector;
+import org.apache.arrow.vector.TimeStampSecVector;
+import org.apache.arrow.vector.TinyIntVector;
+import org.apache.arrow.vector.UInt1Vector;
+import org.apache.arrow.vector.UInt2Vector;
+import org.apache.arrow.vector.UInt4Vector;
+import org.apache.arrow.vector.UInt8Vector;
+import org.apache.arrow.vector.ValueVector;
+import org.apache.arrow.vector.VarBinaryVector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.complex.DenseUnionVector;
+import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.StructVector;
+import org.apache.arrow.vector.complex.UnionVector;
+import org.apache.arrow.vector.holders.NullableBigIntHolder;
+import org.apache.arrow.vector.holders.NullableBitHolder;
+import org.apache.arrow.vector.holders.NullableDateDayHolder;
+import org.apache.arrow.vector.holders.NullableDateMilliHolder;
+import org.apache.arrow.vector.holders.NullableDecimalHolder;
+import org.apache.arrow.vector.holders.NullableDurationHolder;
+import org.apache.arrow.vector.holders.NullableFloat4Holder;
+import org.apache.arrow.vector.holders.NullableFloat8Holder;
+import org.apache.arrow.vector.holders.NullableIntHolder;
+import org.apache.arrow.vector.holders.NullableIntervalDayHolder;
+import org.apache.arrow.vector.holders.NullableIntervalMonthDayNanoHolder;
+import org.apache.arrow.vector.holders.NullableIntervalYearHolder;
+import org.apache.arrow.vector.holders.NullableSmallIntHolder;
+import org.apache.arrow.vector.holders.NullableTimeMicroHolder;
+import org.apache.arrow.vector.holders.NullableTimeMilliHolder;
+import org.apache.arrow.vector.holders.NullableTimeNanoHolder;
+import org.apache.arrow.vector.holders.NullableTimeSecHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampMicroHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampMicroTZHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampMilliHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampMilliTZHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampNanoHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampNanoTZHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampSecHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampSecTZHolder;
+import org.apache.arrow.vector.holders.NullableTinyIntHolder;
+import org.apache.arrow.vector.holders.NullableUInt1Holder;
+import org.apache.arrow.vector.holders.NullableUInt2Holder;
+import org.apache.arrow.vector.holders.NullableUInt4Holder;
+import org.apache.arrow.vector.holders.NullableUInt8Holder;
+
+/**
+ * Row is a positionable, immutable cursor backed by a {@link Table}.
+ *
+ * <p>Getters are provided for most vector types. The exceptions being {@link org.apache.arrow.vector.NullVector},
+ * which only contains null values and has no getter, and {@link org.apache.arrow.vector.ZeroVector},
+ * which is a zero-length vector of any type
+ *
+ * <p>
+ * This API is EXPERIMENTAL.
+ */
+public class Row implements Iterator<Row> {
+
+  /**
+   * Returns the standard character set to use for decoding strings. The Arrow format only supports UTF-8.
+   */
+  private static final Charset DEFAULT_CHARACTER_SET = StandardCharsets.UTF_8;
+
+  /** The table we're enumerating. */
+  protected final BaseTable table;
+  /** the current row number. */
+  protected int rowNumber = -1;
+  /** Indicates whether the next non-deleted row has been determined yet. */
+  private boolean nextRowSet;
+
+  /**
+   * An iterator that returns every row in the table, deleted or not. The implemented next() and
+   * hasNext() methods in Row wrap it with a filter to get only the non-deleted ones.
+   */
+  private final Iterator<Integer> iterator = intIterator();
+
+  /**
+   * Constructs a new Row backed by the given table.
+   *
+   * @param table the table that this Row object represents
+   */
+  public Row(BaseTable table) {
+    this.table = table;
+  }
+
+  /**
+   * Resets the current row to -1 and returns this object.
+   */
+  public Row resetPosition() {
+    rowNumber = -1;
+    return this;
+  }
+
+  /**
+   * Moves this Row to the given 0-based row index.
+   *
+   * @return this Row for chaining
+   */
+  public Row setPosition(int rowNumber) {
+    this.rowNumber = rowNumber;
+    this.nextRowSet = false;
+    return this;
+  }
+
+  /**
+   * For vectors other than Union and DenseUnion, returns true if the value at columnName is null,
+   * and false otherwise.
+   *
+   * <p>UnionVector#isNull always returns false, but the underlying vector may hold null values.
+   */
+  public boolean isNull(String columnName) {
+    ValueVector vector = table.getVector(columnName);
+    return vector.isNull(rowNumber);
+  }
+
+  /**
+   * For vectors other than Union and DenseUnion, returns true if the value at columnIndex is null,
+   * and false otherwise.
+   *
+   * <p>UnionVector#isNull always returns false, but the underlying vector may hold null values.
+   */
+  public boolean isNull(int columnIndex) {
+    ValueVector vector = table.getVector(columnIndex);
+    return vector.isNull(rowNumber);
+  }
+
+  /**
+   * Returns an object representing the value in the ExtensionTypeVector at the currentRow and vectorIndex. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if the type is incorrect.
+   */
+  public Object getExtensionType(int vectorIndex) {
+    FieldVector vector = table.getVector(vectorIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns an object representing the value in the named ExtensionTypeVector at the currentRow. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if it has a different type.
+   *
+   * @param columnName The name of the vector providing the result
+   * @return The object in the named column at the current row
+   */
+  public Object getExtensionType(String columnName) {
+    FieldVector vector = table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a Map from the column of the given vectorIndex at the current row. An IllegalArgumentException is
+   * thrown if the column is not present in the Row and a ClassCastException is thrown if
+   * it has a different type.
+   */
+  public List<?> getMap(int vectorIndex) {
+    ListVector vector = (ListVector) table.getVector(vectorIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a Map from the column of the given name at the current row. An IllegalArgumentException is
+   * thrown if the column is not present in the Row and a ClassCastException is thrown if
+   * it has a different type
+   */
+  public List<?> getMap(String columnName) {
+    ListVector vector = (ListVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns an Object from the column at vectorIndex at the current row. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if it has a different type
+   */
+  public Object getStruct(int vectorIndex) {
+    StructVector vector = (StructVector) table.getVector(vectorIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns an Object from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if it has a different type
+   */
+  public Object getStruct(String columnName) {
+    StructVector vector = (StructVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns an Object from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if it has a different type
+   */
+  public Object getUnion(int vectorIndex) {
+    UnionVector vector = (UnionVector) table.getVector(vectorIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns an Object from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if it has a different type
+   */
+  public Object getUnion(String columnName) {
+    UnionVector vector = (UnionVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns an Object from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if it has a different type
+   */
+  public Object getDenseUnion(String columnName) {
+    DenseUnionVector vector = (DenseUnionVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns an Object from the column with the given vectorIndex at the current row. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if it has a different type
+   */
+  public Object getDenseUnion(int vectorIndex) {
+    DenseUnionVector vector = (DenseUnionVector) table.getVector(vectorIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a List from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present in the Row and a ClassCastException is thrown
+   * if it has a different type
+   */
+  public List<?> getList(String columnName) {
+    ListVector vector = (ListVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a List from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present and a ClassCastException is
+   * thrown if it has a different type
+   */
+  public List<?> getList(int columnIndex) {
+    ListVector vector = (ListVector) table.getVector(columnIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns an int from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present in the Row and a ClassCastException is thrown
+   * if it has a different type
+   */
+  public int getInt(String columnName) {
+    IntVector vector = (IntVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns an int from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present and a ClassCastException is
+   * thrown if it has a different type
+   */
+  public int getInt(int columnIndex) {
+    IntVector vector = (IntVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value in the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if it has a different type
+   */
+  public void getInt(String columnName, NullableIntHolder holder) {
+    IntVector vector = (IntVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present and a ClassCastException is
+   * thrown if it has a different type
+   */
+  public void getInt(int columnIndex, NullableIntHolder holder) {
+    IntVector vector = (IntVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns an int from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present in the Row and a ClassCastException is thrown
+   * if it has a different type
+   */
+  public int getUInt4(String columnName) {
+    UInt4Vector vector = (UInt4Vector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns an int from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present and a ClassCastException is
+   * thrown if it has a different type
+   */
+  public int getUInt4(int columnIndex) {
+    UInt4Vector vector = (UInt4Vector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value at the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if it has a different type
+   */
+  public void getUInt4(String columnName, NullableUInt4Holder holder) {
+    UInt4Vector vector = (UInt4Vector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value at the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present and a ClassCastException is
+   * thrown if it has a different type
+   */
+  public void getUInt4(int columnIndex, NullableUInt4Holder holder) {
+    UInt4Vector vector = (UInt4Vector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a short from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public short getSmallInt(String columnName) {
+    SmallIntVector vector = (SmallIntVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a short from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public short getSmallInt(int columnIndex) {
+    SmallIntVector vector = (SmallIntVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value in the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getSmallInt(String columnName, NullableSmallIntHolder holder) {
+    SmallIntVector vector = (SmallIntVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getSmallInt(int columnIndex, NullableSmallIntHolder holder) {
+    SmallIntVector vector = (SmallIntVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a char from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public char getUInt2(String columnName) {
+    UInt2Vector vector = (UInt2Vector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a char from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public char getUInt2(int columnIndex) {
+    UInt2Vector vector = (UInt2Vector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value in the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getUInt2(String columnName, NullableUInt2Holder holder) {
+    UInt2Vector vector = (UInt2Vector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getUInt2(int columnIndex, NullableUInt2Holder holder) {
+    UInt2Vector vector = (UInt2Vector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a byte from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public byte getTinyInt(String columnName) {
+    TinyIntVector vector = (TinyIntVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a byte from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public byte getTinyInt(int columnIndex) {
+    TinyIntVector vector = (TinyIntVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value in the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getTinyInt(String columnName, NullableTinyIntHolder holder) {
+    TinyIntVector vector = (TinyIntVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value in the column at the given index and current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getTinyInt(int columnIndex, NullableTinyIntHolder holder) {
+    TinyIntVector vector = (TinyIntVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a byte from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public byte getUInt1(String columnName) {
+    UInt1Vector vector = (UInt1Vector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a byte from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public byte getUInt1(int columnIndex) {
+    UInt1Vector vector = (UInt1Vector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value in the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getUInt1(String columnName, NullableUInt1Holder holder) {
+    UInt1Vector vector = (UInt1Vector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getUInt1(int columnIndex, NullableUInt1Holder holder) {
+    UInt1Vector vector = (UInt1Vector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a long from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public long getBigInt(String columnName) {
+    BigIntVector vector = (BigIntVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public long getBigInt(int columnIndex) {
+    BigIntVector vector = (BigIntVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value in the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getBigInt(String columnName, NullableBigIntHolder holder) {
+    BigIntVector vector = (BigIntVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getBigInt(int columnIndex, NullableBigIntHolder holder) {
+    BigIntVector vector = (BigIntVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a long from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public long getUInt8(String columnName) {
+    UInt8Vector vector = (UInt8Vector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public long getUInt8(int columnIndex) {
+    UInt8Vector vector = (UInt8Vector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value in the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getUInt8(String columnName, NullableUInt8Holder holder) {
+    UInt8Vector vector = (UInt8Vector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getUInt8(int columnIndex, NullableUInt8Holder holder) {
+    UInt8Vector vector = (UInt8Vector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a float from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public float getFloat4(String columnName) {
+    Float4Vector vector = (Float4Vector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a float from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public float getFloat4(int columnIndex) {
+    Float4Vector vector = (Float4Vector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value in the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getFloat4(String columnName, NullableFloat4Holder holder) {
+    Float4Vector vector = (Float4Vector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getFloat4(int columnIndex, NullableFloat4Holder holder) {
+    Float4Vector vector = (Float4Vector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a double from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public double getFloat8(String columnName) {
+    Float8Vector vector = (Float8Vector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a double from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public double getFloat8(int columnIndex) {
+    Float8Vector vector = (Float8Vector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given index at the current row.
+   * An IllegalArgumentException is thrown if the column is not present, and a ClassCastException is thrown
+   * if it is present but has a different type
+   */
+  public void getFloat8(String columnName, NullableFloat8Holder holder) {
+    Float8Vector vector = (Float8Vector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getFloat8(int columnIndex, NullableFloat8Holder holder) {
+    Float8Vector vector = (Float8Vector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns an int from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public int getBit(String columnName) {
+    BitVector vector = (BitVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns an int from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public int getBit(int columnIndex) {
+    BitVector vector = (BitVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value in the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getBit(String columnName, NullableBitHolder holder) {
+    BitVector vector = (BitVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getBit(int columnIndex, NullableBitHolder holder) {
+    BitVector vector = (BitVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a long from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type.
+   */
+  public long getDateMilli(String columnName) {
+    DateMilliVector vector = (DateMilliVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type.
+   */
+  public long getDateMilli(int columnIndex) {
+    DateMilliVector vector = (DateMilliVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value in the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getDateMilli(String columnName, NullableDateMilliHolder holder) {
+    DateMilliVector vector = (DateMilliVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getDateMilli(int columnIndex, NullableDateMilliHolder holder) {
+    DateMilliVector vector = (DateMilliVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns an int from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type.
+   */
+  public int getDateDay(String columnName) {
+    DateDayVector vector = (DateDayVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns an int from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type.
+   */
+  public int getDateDay(int columnIndex) {
+    DateDayVector vector = (DateDayVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+
+  /**
+   * Updates the holder with the value in the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getDateDay(String columnName, NullableDateDayHolder holder) {
+    DateDayVector vector = (DateDayVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getDateDay(int columnIndex, NullableDateDayHolder holder) {
+    DateDayVector vector = (DateDayVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a long from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public long getTimeNano(String columnName) {
+    TimeNanoVector vector = (TimeNanoVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public long getTimeNano(int columnIndex) {
+    TimeNanoVector vector = (TimeNanoVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given name at the current row.
+   * An IllegalArgumentException is thrown if the column is not present, and a ClassCastException is thrown
+   * if it is present but has a different type
+   */
+  public void getTimeNano(String columnName, NullableTimeNanoHolder holder) {
+    TimeNanoVector vector = (TimeNanoVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value in the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type.
+   */
+  public void getTimeNano(int columnIndex, NullableTimeNanoHolder holder) {
+    TimeNanoVector vector = (TimeNanoVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a long from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type.
+   */
+  public long getTimeMicro(String columnName) {
+    TimeMicroVector vector = (TimeMicroVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type.
+   */
+  public long getTimeMicro(int columnIndex) {
+    TimeMicroVector vector = (TimeMicroVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row.
+   * An IllegalArgumentException is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type.
+   */
+  public void getTimeMicro(String columnName, NullableTimeMicroHolder holder) {
+    TimeMicroVector vector = (TimeMicroVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type.
+   */
+  public void getTimeMicro(int columnIndex, NullableTimeMicroHolder holder) {
+    TimeMicroVector vector = (TimeMicroVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns an int from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type.
+   */
+  public int getTimeMilli(String columnName) {
+    TimeMilliVector vector = (TimeMilliVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns an int from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type.
+   */
+  public int getTimeMilli(int columnIndex) {
+    TimeMilliVector vector = (TimeMilliVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row.
+   * An IllegalArgumentException is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type.
+   */
+  public void getTimeMilli(String columnName, NullableTimeMilliHolder holder) {
+    TimeMilliVector vector = (TimeMilliVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type.
+   */
+  public void getTimeMilli(int columnIndex, NullableTimeMilliHolder holder) {
+    TimeMilliVector vector = (TimeMilliVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a LocalDateTime from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type.
+   */
+  public LocalDateTime getTimeMilliObj(String columnName) {
+    TimeMilliVector vector = (TimeMilliVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a LocalDateTime from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type.
+   */
+  public LocalDateTime getTimeMilliObj(int columnIndex) {
+    TimeMilliVector vector = (TimeMilliVector) table.getVector(columnIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns an int from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type.
+   */
+  public int getTimeSec(String columnName) {
+    TimeSecVector vector = (TimeSecVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns an int from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type.
+   */
+  public int getTimeSec(int columnIndex) {
+    TimeSecVector vector = (TimeSecVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row.
+   * An IllegalArgumentException is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type.
+   */
+  public void getTimeSec(String columnName, NullableTimeSecHolder holder) {
+    TimeSecVector vector = (TimeSecVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type.
+   */
+  public void getTimeSec(int columnIndex, NullableTimeSecHolder holder) {
+    TimeSecVector vector = (TimeSecVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a long from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type.
+   */
+  public long getTimeStampSec(String columnName) {
+    TimeStampSecVector vector = (TimeStampSecVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public long getTimeStampSec(int columnIndex) {
+    TimeStampSecVector vector = (TimeStampSecVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row.
+   * An IllegalArgumentException is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public void getTimeStampSec(String columnName, NullableTimeStampSecHolder holder) {
+    TimeStampSecVector vector = (TimeStampSecVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getTimeStampSec(int columnIndex, NullableTimeStampSecHolder holder) {
+    TimeStampSecVector vector = (TimeStampSecVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a LocalDateTime from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public LocalDateTime getTimeStampSecObj(String columnName) {
+    TimeStampSecVector vector = (TimeStampSecVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a LocalDateTime from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public LocalDateTime getTimeStampSecObj(int columnIndex) {
+    TimeStampSecVector vector = (TimeStampSecVector) table.getVector(columnIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row.
+   * An IllegalArgumentException is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public long getTimeStampSecTZ(String columnName) {
+    TimeStampSecTZVector vector = (TimeStampSecTZVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public long getTimeStampSecTZ(int columnIndex) {
+    TimeStampSecTZVector vector = (TimeStampSecTZVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row.
+   * An IllegalArgumentException is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public void getTimeStampSecTZ(String columnName, NullableTimeStampSecTZHolder holder) {
+    TimeStampSecTZVector vector = (TimeStampSecTZVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row.
+   * An IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getTimeStampSecTZ(int columnIndex, NullableTimeStampSecTZHolder holder) {
+    TimeStampSecTZVector vector = (TimeStampSecTZVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a long from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public long getTimeStampNano(String columnName) {
+    TimeStampNanoVector vector = (TimeStampNanoVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public long getTimeStampNano(int columnIndex) {
+    TimeStampNanoVector vector = (TimeStampNanoVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public void getTimeStampNano(String columnName, NullableTimeStampNanoHolder holder) {
+    TimeStampNanoVector vector = (TimeStampNanoVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getTimeStampNano(int columnIndex, NullableTimeStampNanoHolder holder) {
+    TimeStampNanoVector vector = (TimeStampNanoVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a LocalDateTime from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public LocalDateTime getTimeStampNanoObj(String columnName) {
+    TimeStampNanoVector vector = (TimeStampNanoVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a LocalDateTime from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public LocalDateTime getTimeStampNanoObj(int columnIndex) {
+    TimeStampNanoVector vector = (TimeStampNanoVector) table.getVector(columnIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public long getTimeStampNanoTZ(String columnName) {
+    TimeStampNanoTZVector vector = (TimeStampNanoTZVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public long getTimeStampNanoTZ(int columnIndex) {
+    TimeStampNanoTZVector vector = (TimeStampNanoTZVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public void getTimeStampNanoTZ(String columnName, NullableTimeStampNanoTZHolder holder) {
+    TimeStampNanoTZVector vector = (TimeStampNanoTZVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getTimeStampNanoTZ(int columnIndex, NullableTimeStampNanoTZHolder holder) {
+    TimeStampNanoTZVector vector = (TimeStampNanoTZVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a long from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public long getTimeStampMilli(String columnName) {
+    TimeStampMilliVector vector = (TimeStampMilliVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public long getTimeStampMilli(int columnIndex) {
+    TimeStampMilliVector vector = (TimeStampMilliVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public void getTimeStampMilli(String columnName, NullableTimeStampMilliHolder holder) {
+    TimeStampMilliVector vector = (TimeStampMilliVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getTimeStampMilli(int columnIndex, NullableTimeStampMilliHolder holder) {
+    TimeStampMilliVector vector = (TimeStampMilliVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a LocalDateTime from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public LocalDateTime getTimeStampMilliObj(String columnName) {
+    TimeStampMilliVector vector = (TimeStampMilliVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a LocalDateTime from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public LocalDateTime getTimeStampMilliObj(int columnIndex) {
+    TimeStampMilliVector vector = (TimeStampMilliVector) table.getVector(columnIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public long getTimeStampMilliTZ(String columnName) {
+    TimeStampMilliTZVector vector = (TimeStampMilliTZVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public long getTimeStampMilliTZ(int columnIndex) {
+    TimeStampMilliTZVector vector = (TimeStampMilliTZVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different types
+   */
+  public void getTimeStampMilliTZ(String columnName, NullableTimeStampMilliTZHolder holder) {
+    TimeStampMilliTZVector vector = (TimeStampMilliTZVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getTimeStampMilliTZ(int columnIndex, NullableTimeStampMilliTZHolder holder) {
+    TimeStampMilliTZVector vector = (TimeStampMilliTZVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a long from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public long getTimeStampMicro(String columnName) {
+    TimeStampMicroVector vector = (TimeStampMicroVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public long getTimeStampMicro(int columnIndex) {
+    TimeStampMicroVector vector = (TimeStampMicroVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public void getTimeStampMicro(String columnName, NullableTimeStampMicroHolder holder) {
+    TimeStampMicroVector vector = (TimeStampMicroVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getTimeStampMicro(int columnIndex, NullableTimeStampMicroHolder holder) {
+    TimeStampMicroVector vector = (TimeStampMicroVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a LocalDateTime from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public LocalDateTime getTimeStampMicroObj(String columnName) {
+    TimeStampMicroVector vector = (TimeStampMicroVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a LocalDateTime from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public LocalDateTime getTimeStampMicroObj(int columnIndex) {
+    TimeStampMicroVector vector = (TimeStampMicroVector) table.getVector(columnIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public long getTimeStampMicroTZ(String columnName) {
+    TimeStampMicroTZVector vector = (TimeStampMicroTZVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a long from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public long getTimeStampMicroTZ(int columnIndex) {
+    TimeStampMicroTZVector vector = (TimeStampMicroTZVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public void getTimeStampMicroTZ(String columnName, NullableTimeStampMicroTZHolder holder) {
+    TimeStampMicroTZVector vector = (TimeStampMicroTZVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getTimeStampMicroTZ(int columnIndex, NullableTimeStampMicroTZHolder holder) {
+    TimeStampMicroTZVector vector = (TimeStampMicroTZVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a Duration from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public Duration getDurationObj(String columnName) {
+    DurationVector vector = (DurationVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a Duration from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public Duration getDurationObj(int columnIndex) {
+    DurationVector vector = (DurationVector) table.getVector(columnIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns an ArrowBuf from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public ArrowBuf getDuration(String columnName) {
+    DurationVector vector = (DurationVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns an ArrowBuf from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public ArrowBuf getDuration(int columnIndex) {
+    DurationVector vector = (DurationVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getDuration(String columnName, NullableDurationHolder holder) {
+    DurationVector vector = (DurationVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getDuration(int columnIndex, NullableDurationHolder holder) {
+    DurationVector vector = (DurationVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a PeriodDuration from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public PeriodDuration getIntervalMonthDayNanoObj(String columnName) {
+    IntervalMonthDayNanoVector vector = (IntervalMonthDayNanoVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a PeriodDuration from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public PeriodDuration getIntervalMonthDayNanoObj(int columnIndex) {
+    IntervalMonthDayNanoVector vector = (IntervalMonthDayNanoVector) table.getVector(columnIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns an ArrowBuf from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public ArrowBuf getIntervalMonthDayNano(String columnName) {
+    IntervalMonthDayNanoVector vector = (IntervalMonthDayNanoVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns an ArrowBuf from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public ArrowBuf getIntervalMonthDayNano(int columnIndex) {
+    IntervalMonthDayNanoVector vector = (IntervalMonthDayNanoVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getIntervalMonthDayNano(
+      String columnName, NullableIntervalMonthDayNanoHolder holder) {
+    IntervalMonthDayNanoVector vector = (IntervalMonthDayNanoVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getIntervalMonthDayNano(int columnIndex, NullableIntervalMonthDayNanoHolder holder) {
+    IntervalMonthDayNanoVector vector = (IntervalMonthDayNanoVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns an ArrowBuf from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public ArrowBuf getIntervalDay(String columnName) {
+    IntervalDayVector vector = (IntervalDayVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns an ArrowBuf from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public ArrowBuf getIntervalDay(int columnIndex) {
+    IntervalDayVector vector = (IntervalDayVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getIntervalDay(String columnName, NullableIntervalDayHolder holder) {
+    IntervalDayVector vector = (IntervalDayVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getIntervalDay(int columnIndex, NullableIntervalDayHolder holder) {
+    IntervalDayVector vector = (IntervalDayVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a Duration from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public Duration getIntervalDayObj(int columnIndex) {
+    IntervalDayVector vector = (IntervalDayVector) table.getVector(columnIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a Duration from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public Duration getIntervalDayObj(String columnName) {
+    IntervalDayVector vector = (IntervalDayVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a Period from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   *
+   * @return a Period of n MONTHS, not YEARS
+   */
+  public Period getIntervalYearObj(String columnName) {
+    IntervalYearVector vector = (IntervalYearVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a Period from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   *
+   * @return a Period of n MONTHS, not YEARS
+   */
+  public Period getIntervalYearObj(int columnIndex) {
+    IntervalYearVector vector = (IntervalYearVector) table.getVector(columnIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns an int from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   *
+   * @return the number of MONTHS in the interval (not YEARS)
+   */
+  public int getIntervalYear(String columnName) {
+    IntervalYearVector vector = (IntervalYearVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns an int from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   *
+   * @return the number of MONTHS in the interval (not YEARS)
+   */
+  public int getIntervalYear(int columnIndex) {
+    IntervalYearVector vector = (IntervalYearVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Updates the holder with the value from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   *
+   * @param holder  a holder to store the interval. Note that the value of the holder represents MONTHS not years
+   */
+  public void getIntervalYear(String columnName, NullableIntervalYearHolder holder) {
+    IntervalYearVector vector = (IntervalYearVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the holder with the value from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   *
+   * @param holder  a holder to store the interval. Note that the value of the holder represents MONTHS not years
+   */
+  public void getIntervalYear(int columnIndex, NullableIntervalYearHolder holder) {
+    IntervalYearVector vector = (IntervalYearVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the value of the holder with data from vector at the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getDecimal(int columnIndex, NullableDecimalHolder holder) {
+    DecimalVector vector = (DecimalVector) table.getVector(columnIndex);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Updates the value of the holder with data from the vector with given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public void getDecimal(String columnName, NullableDecimalHolder holder) {
+    DecimalVector vector = (DecimalVector) table.getVector(columnName);
+    vector.get(rowNumber, holder);
+  }
+
+  /**
+   * Returns a BigDecimal from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public BigDecimal getDecimalObj(String columnName) {
+    DecimalVector vector = (DecimalVector) table.getVector(columnName);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns a BigDecimal from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public BigDecimal getDecimalObj(int columnIndex) {
+    DecimalVector vector = (DecimalVector) table.getVector(columnIndex);
+    return vector.getObject(rowNumber);
+  }
+
+  /**
+   * Returns an ArrowBuf from the column of the given name at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public ArrowBuf getDecimal(String columnName) {
+    DecimalVector vector = (DecimalVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns an ArrowBuf from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public ArrowBuf getDecimal(int columnIndex) {
+    DecimalVector vector = (DecimalVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a byte[] from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public byte[] getVarBinary(String columnName) {
+    VarBinaryVector vector = (VarBinaryVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a byte[] from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public byte[] getVarBinary(int columnIndex) {
+    VarBinaryVector vector = (VarBinaryVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a byte[] from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public byte[] getFixedSizeBinary(String columnName) {
+    FixedSizeBinaryVector vector = (FixedSizeBinaryVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a byte[] from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public byte[] getFixedSizeBinary(int columnIndex) {
+    FixedSizeBinaryVector vector = (FixedSizeBinaryVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a byte[] from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present, and a ClassCastException is thrown if it is
+   * present but has a different type
+   */
+  public byte[] getLargeVarBinary(String columnName) {
+    LargeVarBinaryVector vector = (LargeVarBinaryVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a byte[] from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present, and a ClassCastException
+   * is thrown if it is present but has a different type
+   */
+  public byte[] getLargeVarBinary(int columnIndex) {
+    LargeVarBinaryVector vector = (LargeVarBinaryVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a String from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present in the Row and a ClassCastException is thrown
+   * if it has a different type
+   *
+   * <p>StandardCharsets.UTF_8 is used as the charset
+   */
+  public String getVarCharObj(String columnName) {
+    VarCharVector vector = (VarCharVector) table.getVector(columnName);
+    return new String(vector.get(rowNumber), getDefaultCharacterSet());
+  }
+
+  /**
+   * Returns a String from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if it has a different type
+   *
+   * @param columnIndex the index of the FieldVector holding the value
+   */
+  public String getVarCharObj(int columnIndex) {
+    VarCharVector vector = (VarCharVector) table.getVector(columnIndex);
+    return new String(vector.get(rowNumber), getDefaultCharacterSet());
+  }
+
+  /**
+   * Returns a byte[] from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present in the Row and a ClassCastException is thrown
+   * if it has a different type
+   *
+   * <p>StandardCharsets.UTF_8 is used as the charset
+   */
+  public byte[] getVarChar(String columnName) {
+    VarCharVector vector = (VarCharVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a byte[] from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if it has a different type
+   *
+   * @param columnIndex the index of the FieldVector holding the value
+   */
+  public byte[] getVarChar(int columnIndex) {
+    VarCharVector vector = (VarCharVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a String from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present in the Row and a ClassCastException is thrown
+   * if it has a different type
+   *
+   * <p>StandardCharsets.UTF_8 is used as the charset, unless this cursor was created with a default
+   * Charset
+   */
+  public String getLargeVarCharObj(String columnName) {
+    LargeVarCharVector vector = (LargeVarCharVector) table.getVector(columnName);
+    return new String(vector.get(rowNumber), getDefaultCharacterSet());
+  }
+
+  /**
+   * Returns a String from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if it has a different type
+   */
+  public String getLargeVarCharObj(int columnIndex) {
+    LargeVarCharVector vector = (LargeVarCharVector) table.getVector(columnIndex);
+    return new String(vector.get(rowNumber), getDefaultCharacterSet());
+  }
+
+  /**
+   * Returns a byte[] from the column of the given name at the current row. An IllegalArgumentException
+   * is thrown if the column is not present in the Row and a ClassCastException is thrown
+   * if it has a different type
+   *
+   * <p>StandardCharsets.UTF_8 is used as the charset, unless this cursor was created with a default
+   * Charset
+   */
+  public byte[] getLargeVarChar(String columnName) {
+    LargeVarCharVector vector = (LargeVarCharVector) table.getVector(columnName);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns a byte[] from the column with the given index at the current row. An
+   * IllegalArgumentException is thrown if the column is not present in the Row and a
+   * ClassCastException is thrown if it has a different type
+   */
+  public byte[] getLargeVarChar(int columnIndex) {
+    LargeVarCharVector vector = (LargeVarCharVector) table.getVector(columnIndex);
+    return vector.get(rowNumber);
+  }
+
+  /**
+   * Returns true if there is at least one more non-deleted row in the table that has yet to be
+   * processed.
+   */
+  @Override
+  public boolean hasNext() {
+    return nextRowSet || setNextObject();
+  }
+
+  /**
+   * Returns the next non-deleted row in the table.
+   *
+   * @throws NoSuchElementException if there are no more rows
+   */
+  @Override
+  public Row next() {
+    if (!nextRowSet && !setNextObject()) {
+      throw new NoSuchElementException();
+    }
+    nextRowSet = false;
+    return this;
+  }
+
+  /**
+   * Set rowNumber to the next non-deleted row. If there are no more rows return false. Otherwise,
+   * return true.
+   */
+  private boolean setNextObject() {
+    while (iterator.hasNext()) {
+      final int row = iterator.next();
+      if (!rowIsDeleted(row)) {
+        rowNumber = row;
+        nextRowSet = true;
+        return true;
+      }
+    }
+    return false;
+  }
+
+  /**
+   * Returns new internal iterator that processes every row, deleted or not. Use the
+   * wrapping next() and hasNext() methods rather than using this iterator directly, unless you want
+   * to see any deleted rows.
+   */
+  private Iterator<Integer> intIterator() {
+    return new Iterator<Integer>() {
+
+      @Override
+      public boolean hasNext() {
+        return rowNumber < table.getRowCount() - 1;
+      }
+
+      @Override
+      public Integer next() {
+        rowNumber++;
+        return rowNumber;
+      }
+    };
+  }
+
+  public int getRowNumber() {
+    return rowNumber;
+  }
+
+  private boolean rowIsDeleted(int rowNumber) {
+    return table.isRowDeleted(rowNumber);
+  }
+
+  /**
+   * Returns the default character set for use with character vectors.
+   */
+  public Charset getDefaultCharacterSet() {
+    return DEFAULT_CHARACTER_SET;
+  }
+}
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/table/Table.java b/java/vector/src/main/java/org/apache/arrow/vector/table/Table.java
new file mode 100644
index 00000000000..5768bb0ec75
--- /dev/null
+++ b/java/vector/src/main/java/org/apache/arrow/vector/table/Table.java
@@ -0,0 +1,213 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.vector.table;
+
+import java.util.ArrayList;
+import java.util.Arrays;
+import java.util.Iterator;
+import java.util.List;
+import java.util.Set;
+import java.util.stream.Collectors;
+import java.util.stream.StreamSupport;
+
+import org.apache.arrow.util.Preconditions;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.dictionary.Dictionary;
+import org.apache.arrow.vector.dictionary.DictionaryProvider;
+import org.apache.arrow.vector.types.pojo.DictionaryEncoding;
+import org.apache.arrow.vector.util.TransferPair;
+
+/**
+ * Table is an immutable tabular data structure.
+ *
+ * <p>See {@link VectorSchemaRoot} for batch processing use cases
+ *
+ * <p>
+ * This API is EXPERIMENTAL.
+ */
+public class Table extends BaseTable implements Iterable<Row> {
+
+  /** Constructs new instance containing each of the given vectors. */
+  public Table(Iterable<FieldVector> vectors) {
+    this(StreamSupport.stream(vectors.spliterator(), false).collect(Collectors.toList()));
+  }
+
+  /** Constructs a new instance from vectors. */
+  public static Table of(FieldVector... vectors) {
+    return new Table(Arrays.stream(vectors).collect(Collectors.toList()));
+  }
+
+  /**
+   * Constructs a new instance with the number of rows set to the value count of the first
+   * FieldVector.
+   *
+   * <p>All vectors must have the same value count. Although this is not checked, inconsistent
+   * counts may lead to exceptions or other undefined behavior later.
+   *
+   * @param fieldVectors The data vectors (must be equal in size to <code>fields</code>.
+   */
+  public Table(List<FieldVector> fieldVectors) {
+    this(fieldVectors, fieldVectors.size() == 0 ? 0 : fieldVectors.get(0).getValueCount());
+  }
+
+  /**
+   * Constructs a new instance.
+   *
+   * @param fieldVectors The data vectors.
+   * @param rowCount The number of rows
+   */
+  public Table(List<FieldVector> fieldVectors, int rowCount) {
+    super(fieldVectors, rowCount, null);
+  }
+
+  /**
+   * Constructs a new instance.
+   *
+   * @param fieldVectors The data vectors.
+   * @param rowCount The number of rows
+   * @param provider A dictionary provider. May be null if none of the vectors is dictionary encoded
+   */
+  public Table(List<FieldVector> fieldVectors, int rowCount, DictionaryProvider provider) {
+    super(fieldVectors, rowCount, provider);
+  }
+
+  /**
+   * Constructs a new instance containing the data from the argument. Vectors are shared between the
+   * Table and VectorSchemaRoot. Direct modification of those vectors is unsafe and should be
+   * avoided.
+   *
+   * @param vsr The VectorSchemaRoot providing data for this Table
+   */
+  public Table(VectorSchemaRoot vsr) {
+    this(vsr.getFieldVectors(), vsr.getRowCount());
+    vsr.clear();
+  }
+
+  /**
+   * Returns a deep copy of this table.
+   */
+  public Table copy() {
+    List<FieldVector> vectorCopies = new ArrayList<>();
+    for (int i = 0; i < getVectorCount(); i++) {
+      vectorCopies.add(getVectorCopy(i));
+    }
+    DictionaryProvider providerCopy = null;
+    if (dictionaryProvider != null) {
+      Set<Long> ids = dictionaryProvider.getDictionaryIds();
+      Dictionary[] dictionaryCopies = new Dictionary[ids.size()];
+      int i = 0;
+      for (Long id : ids) {
+        Dictionary src = dictionaryProvider.lookup(id);
+        FieldVector srcVector = src.getVector();
+        FieldVector destVector = srcVector.getField().createVector(srcVector.getAllocator());
+        destVector.copyFromSafe(0, srcVector.getValueCount(), srcVector); // TODO: Remove safe copy for perf
+        DictionaryEncoding srcEncoding = src.getEncoding();
+        Dictionary dest = new Dictionary(destVector,
+            new DictionaryEncoding(srcEncoding.getId(), srcEncoding.isOrdered(), srcEncoding.getIndexType()));
+        dictionaryCopies[i] = dest;
+        i++;
+      }
+      providerCopy = new DictionaryProvider.MapDictionaryProvider(dictionaryCopies);
+    }
+    return new Table(vectorCopies, (int) getRowCount(), providerCopy);
+  }
+  
+  /**
+   * Returns a new Table created by adding the given vector to the vectors in this Table.
+   *
+   * @param index field index
+   * @param vector vector to be added.
+   * @return out a new Table with vector added
+   */
+  public Table addVector(int index, FieldVector vector) {
+    return new Table(insertVector(index, vector));
+  }
+
+  /**
+   * Returns a new Table created by removing the selected Vector from this Table.
+   *
+   * @param index field index
+   * @return out a new Table with vector removed
+   */
+  public Table removeVector(int index) {
+    return new Table(extractVector(index));
+  }
+
+  /**
+   * Slice this table from desired index. Memory is NOT transferred from the vectors in this table
+   * to new vectors in the target table. This table is unchanged.
+   *
+   * @param index start position of the slice
+   * @return the sliced table
+   */
+  public Table slice(int index) {
+    return slice(index, this.rowCount - index);
+  }
+
+  /**
+   * Slice this table at desired index and length. Memory is NOT transferred from the vectors in
+   * this table to new vectors in the target table. This table is unchanged.
+   *
+   * @param index start position of the slice
+   * @param length length of the slice
+   * @return the sliced table
+   */
+  public Table slice(int index, int length) {
+    Preconditions.checkArgument(index >= 0, "expecting non-negative index");
+    Preconditions.checkArgument(length >= 0, "expecting non-negative length");
+    Preconditions.checkArgument(index + length <= rowCount, "index + length should <= rowCount");
+
+    if (index == 0 && length == rowCount) {
+      return this;
+    }
+
+    List<FieldVector> sliceVectors =
+        fieldVectors.stream()
+            .map(
+                v -> {
+                  TransferPair transferPair = v.getTransferPair(v.getAllocator());
+                  transferPair.splitAndTransfer(index, length);
+                  return (FieldVector) transferPair.getTo();
+                })
+            .collect(Collectors.toList());
+
+    return new Table(sliceVectors);
+  }
+
+  /** Returns a Row iterator for this Table. */
+  @Override
+  public Iterator<Row> iterator() {
+
+    return new Iterator<Row>() {
+
+      private final Row row = new Row(Table.this);
+
+      @Override
+      public Row next() {
+        row.next();
+        return row;
+      }
+
+      @Override
+      public boolean hasNext() {
+        return row.hasNext();
+      }
+    };
+  }
+}
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/table/package-info.java b/java/vector/src/main/java/org/apache/arrow/vector/table/package-info.java
new file mode 100644
index 00000000000..cdd5093b9f5
--- /dev/null
+++ b/java/vector/src/main/java/org/apache/arrow/vector/table/package-info.java
@@ -0,0 +1,23 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.vector.table;
+
+/**
+ *  Support for Table, an immutable, columnar, tabular data structure based on FieldVectors.
+ *  See the Arrow Java documentation for details: <a href="https://arrow.apache.org/docs/java/table.html">Table</a>
+ */
diff --git a/java/vector/src/main/java/org/apache/arrow/vector/util/MapWithOrdinalImpl.java b/java/vector/src/main/java/org/apache/arrow/vector/util/MapWithOrdinalImpl.java
index 41ce1fc0d10..3612d677ed5 100644
--- a/java/vector/src/main/java/org/apache/arrow/vector/util/MapWithOrdinalImpl.java
+++ b/java/vector/src/main/java/org/apache/arrow/vector/util/MapWithOrdinalImpl.java
@@ -20,7 +20,7 @@
 import java.util.AbstractMap;
 import java.util.ArrayList;
 import java.util.Collection;
-import java.util.HashMap;
+import java.util.LinkedHashMap;
 import java.util.List;
 import java.util.Map;
 import java.util.Set;
@@ -54,7 +54,7 @@
 public class MapWithOrdinalImpl<K, V> implements MapWithOrdinal<K, V> {
   private static final Logger logger = LoggerFactory.getLogger(MapWithOrdinalImpl.class);
 
-  private final Map<K, Map.Entry<Integer, V>> primary = new HashMap<>();
+  private final Map<K, Map.Entry<Integer, V>> primary = new LinkedHashMap<>();
   private final IntObjectHashMap<V> secondary = new IntObjectHashMap<>();
 
   private final Map<K, V> delegate = new Map<K, V>() {
diff --git a/java/vector/src/test/java/org/apache/arrow/vector/TestDictionaryVector.java b/java/vector/src/test/java/org/apache/arrow/vector/TestDictionaryVector.java
index bc6cddf3674..501059733c6 100644
--- a/java/vector/src/test/java/org/apache/arrow/vector/TestDictionaryVector.java
+++ b/java/vector/src/test/java/org/apache/arrow/vector/TestDictionaryVector.java
@@ -17,13 +17,9 @@
 
 package org.apache.arrow.vector;
 
-import static org.apache.arrow.vector.TestUtils.newVarBinaryVector;
-import static org.apache.arrow.vector.TestUtils.newVarCharVector;
+import static org.apache.arrow.vector.TestUtils.*;
 import static org.apache.arrow.vector.testing.ValueVectorDataPopulator.setVector;
-import static org.junit.Assert.assertArrayEquals;
-import static org.junit.Assert.assertEquals;
-import static org.junit.Assert.assertFalse;
-import static org.junit.Assert.assertTrue;
+import static org.junit.Assert.*;
 
 import java.nio.charset.StandardCharsets;
 import java.util.Arrays;
@@ -881,6 +877,171 @@ public void testEncodeStructSubFieldWithCertainColumns() {
     }
   }
 
+  @Test
+  public void testNoMemoryLeak() {
+    // test no memory leak when encode
+    try (final VarCharVector vector = newVarCharVector("foo", allocator);
+         final VarCharVector dictionaryVector = newVarCharVector("dict", allocator)) {
+
+      setVector(vector, zero, one, two);
+      setVector(dictionaryVector, zero, one);
+
+      Dictionary dictionary =
+              new Dictionary(dictionaryVector, new DictionaryEncoding(1L, false, null));
+
+      try (final ValueVector encoded = DictionaryEncoder.encode(vector, dictionary)) {
+        fail("There should be an exception when encoding");
+      } catch (Exception e) {
+        assertEquals("Dictionary encoding not defined for value:" + new Text(two), e.getMessage());
+      }
+    }
+    assertEquals("encode memory leak", 0, allocator.getAllocatedMemory());
+
+    // test no memory leak when decode
+    try (final IntVector indices = newVector(IntVector.class, "", Types.MinorType.INT, allocator);
+         final VarCharVector dictionaryVector = newVarCharVector("dict", allocator)) {
+
+      setVector(indices, 3);
+      setVector(dictionaryVector, zero, one);
+
+      Dictionary dictionary =
+              new Dictionary(dictionaryVector, new DictionaryEncoding(1L, false, null));
+
+      try (final ValueVector decoded = DictionaryEncoder.decode(indices, dictionary, allocator)) {
+        fail("There should be an exception when decoding");
+      } catch (Exception e) {
+        assertEquals("Provided dictionary does not contain value for index 3", e.getMessage());
+      }
+    }
+    assertEquals("decode memory leak", 0, allocator.getAllocatedMemory());
+  }
+
+  @Test
+  public void testListNoMemoryLeak() {
+    // Create a new value vector
+    try (final ListVector vector = ListVector.empty("vector", allocator);
+         final ListVector dictionaryVector = ListVector.empty("dict", allocator)) {
+
+      UnionListWriter writer = vector.getWriter();
+      writer.allocate();
+      writeListVector(writer, new int[]{10, 20});
+      writer.setValueCount(1);
+
+      UnionListWriter dictWriter = dictionaryVector.getWriter();
+      dictWriter.allocate();
+      writeListVector(dictWriter, new int[]{10});
+      dictionaryVector.setValueCount(1);
+
+      Dictionary dictionary = new Dictionary(dictionaryVector, new DictionaryEncoding(1L, false, null));
+      ListSubfieldEncoder encoder = new ListSubfieldEncoder(dictionary, allocator);
+
+      try (final ListVector encoded = (ListVector) encoder.encodeListSubField(vector)) {
+        fail("There should be an exception when encoding");
+      } catch (Exception e) {
+        assertEquals("Dictionary encoding not defined for value:20", e.getMessage());
+      }
+    }
+    assertEquals("list encode memory leak", 0, allocator.getAllocatedMemory());
+
+    try (final ListVector indices = ListVector.empty("indices", allocator);
+         final ListVector dictionaryVector = ListVector.empty("dict", allocator)) {
+
+      UnionListWriter writer = indices.getWriter();
+      writer.allocate();
+      writeListVector(writer, new int[]{3});
+      writer.setValueCount(1);
+
+      UnionListWriter dictWriter = dictionaryVector.getWriter();
+      dictWriter.allocate();
+      writeListVector(dictWriter, new int[]{10, 20});
+      dictionaryVector.setValueCount(1);
+
+      Dictionary dictionary =
+              new Dictionary(dictionaryVector, new DictionaryEncoding(1L, false, null));
+
+      try (final ValueVector decoded = ListSubfieldEncoder.decodeListSubField(indices, dictionary, allocator)) {
+        fail("There should be an exception when decoding");
+      } catch (Exception e) {
+        assertEquals("Provided dictionary does not contain value for index 3", e.getMessage());
+      }
+    }
+    assertEquals("list decode memory leak", 0, allocator.getAllocatedMemory());
+  }
+
+  @Test
+  public void testStructNoMemoryLeak() {
+    try (final StructVector vector = StructVector.empty("vector", allocator);
+         final VarCharVector dictVector1 = new VarCharVector("f0", allocator);
+         final VarCharVector dictVector2 = new VarCharVector("f1", allocator)) {
+
+      vector.addOrGet("f0", FieldType.nullable(ArrowType.Utf8.INSTANCE), VarCharVector.class);
+      vector.addOrGet("f1", FieldType.nullable(ArrowType.Utf8.INSTANCE), VarCharVector.class);
+
+      NullableStructWriter writer = vector.getWriter();
+      writer.allocate();
+      writeStructVector(writer, "aa", "baz");
+      writer.setValueCount(1);
+
+      DictionaryProvider.MapDictionaryProvider provider = new DictionaryProvider.MapDictionaryProvider();
+      setVector(dictVector1,
+              "aa".getBytes(StandardCharsets.UTF_8));
+      setVector(dictVector2,
+              "foo".getBytes(StandardCharsets.UTF_8));
+
+      provider.put(new Dictionary(dictVector1, new DictionaryEncoding(1L, false, null)));
+      provider.put(new Dictionary(dictVector2, new DictionaryEncoding(2L, false, null)));
+
+      StructSubfieldEncoder encoder = new StructSubfieldEncoder(allocator, provider);
+      Map<Integer, Long> columnToDictionaryId = new HashMap<>();
+      columnToDictionaryId.put(0, 1L);
+      columnToDictionaryId.put(1, 2L);
+
+      try (final StructVector encoded = (StructVector) encoder.encode(vector, columnToDictionaryId)) {
+        fail("There should be an exception when encoding");
+      } catch (Exception e) {
+        assertEquals("Dictionary encoding not defined for value:baz", e.getMessage());
+      }
+    }
+    assertEquals("struct encode memory leak", 0, allocator.getAllocatedMemory());
+
+    try (final StructVector indices = StructVector.empty("indices", allocator);
+         final VarCharVector dictVector1 = new VarCharVector("f0", allocator);
+         final VarCharVector dictVector2 = new VarCharVector("f1", allocator)) {
+
+      DictionaryProvider.MapDictionaryProvider provider = new DictionaryProvider.MapDictionaryProvider();
+      setVector(dictVector1,
+              "aa".getBytes(StandardCharsets.UTF_8));
+      setVector(dictVector2,
+              "foo".getBytes(StandardCharsets.UTF_8));
+
+      provider.put(new Dictionary(dictVector1, new DictionaryEncoding(1L, false, null)));
+      provider.put(new Dictionary(dictVector2, new DictionaryEncoding(2L, false, null)));
+
+      ArrowType int32 = new ArrowType.Int(32, true);
+      indices.addOrGet("f0",
+              new FieldType(true, int32, provider.lookup(1L).getEncoding()),
+              IntVector.class);
+      indices.addOrGet("f1",
+              new FieldType(true, int32, provider.lookup(2L).getEncoding()),
+              IntVector.class);
+
+      NullableStructWriter writer = indices.getWriter();
+      writer.allocate();
+      writer.start();
+      writer.integer("f0").writeInt(1);
+      writer.integer("f1").writeInt(3);
+      writer.end();
+      writer.setValueCount(1);
+
+      try (final StructVector decode = StructSubfieldEncoder.decode(indices, provider, allocator)) {
+        fail("There should be an exception when decoding");
+      } catch (Exception e) {
+        assertEquals("Provided dictionary does not contain value for index 3", e.getMessage());
+      }
+    }
+    assertEquals("struct decode memory leak", 0, allocator.getAllocatedMemory());
+  }
+
   private void testDictionary(Dictionary dictionary, ToIntBiFunction<ValueVector, Integer> valGetter) {
     try (VarCharVector vector = new VarCharVector("vector", allocator)) {
       setVector(vector, "1", "3", "5", "7", "9");
diff --git a/java/vector/src/test/java/org/apache/arrow/vector/TestStructVector.java b/java/vector/src/test/java/org/apache/arrow/vector/TestStructVector.java
index 734ff463115..b4c30480000 100644
--- a/java/vector/src/test/java/org/apache/arrow/vector/TestStructVector.java
+++ b/java/vector/src/test/java/org/apache/arrow/vector/TestStructVector.java
@@ -19,17 +19,20 @@
 
 import static org.junit.Assert.*;
 
+import java.util.ArrayList;
 import java.util.HashMap;
 import java.util.List;
 import java.util.Map;
 
 import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.vector.complex.AbstractStructVector;
 import org.apache.arrow.vector.complex.ListVector;
 import org.apache.arrow.vector.complex.StructVector;
 import org.apache.arrow.vector.complex.UnionVector;
 import org.apache.arrow.vector.holders.ComplexHolder;
 import org.apache.arrow.vector.types.Types.MinorType;
 import org.apache.arrow.vector.types.pojo.ArrowType.Struct;
+import org.apache.arrow.vector.types.pojo.Field;
 import org.apache.arrow.vector.types.pojo.FieldType;
 import org.junit.After;
 import org.junit.Assert;
@@ -171,13 +174,112 @@ public void testAddOrGetComplexChildVectors() {
       vector.addOrGetStruct("struct");
       vector.addOrGetMap("map", true);
 
-      List<FieldVector> childrens = vector.getChildrenFromFields();
-      assertEquals(5, childrens.size());
-      assertEquals(MinorType.LIST, childrens.get(0).getMinorType());
-      assertEquals(MinorType.FIXED_SIZE_LIST, childrens.get(1).getMinorType());
-      assertEquals(MinorType.UNION, childrens.get(2).getMinorType());
-      assertEquals(MinorType.STRUCT, childrens.get(3).getMinorType());
-      assertEquals(MinorType.MAP, childrens.get(4).getMinorType());
+      List<FieldVector> children = vector.getChildrenFromFields();
+      assertEquals(5, children.size());
+      assertEquals(MinorType.LIST, children.get(0).getMinorType());
+      assertEquals(MinorType.FIXED_SIZE_LIST, children.get(1).getMinorType());
+      assertEquals(MinorType.UNION, children.get(2).getMinorType());
+      assertEquals(MinorType.STRUCT, children.get(3).getMinorType());
+      assertEquals(MinorType.MAP, children.get(4).getMinorType());
     }
   }
+
+  @Test
+  public void testAddChildVectorsWithDuplicatedFieldNamesForConflictPolicyAppend() {
+    final FieldType type = new FieldType(true, Struct.INSTANCE, null, null);
+    try (StructVector vector = new StructVector("struct", allocator, type, null,
+        AbstractStructVector.ConflictPolicy.CONFLICT_APPEND, true)) {
+      final List<Field> initFields = new ArrayList<>();
+
+      // Add a bit more fields to test against stability of the internal field
+      // ordering mechanism of StructVector
+      initFields.add(Field.nullable("varchar1", MinorType.VARCHAR.getType()));
+      initFields.add(Field.nullable("int1", MinorType.INT.getType()));
+      initFields.add(Field.nullable("varchar2", MinorType.VARCHAR.getType()));
+      initFields.add(Field.nullable("int2", MinorType.INT.getType()));
+      initFields.add(Field.nullable("varchar3", MinorType.VARCHAR.getType()));
+      initFields.add(Field.nullable("int3", MinorType.INT.getType()));
+      initFields.add(Field.nullable("uncertain-type", MinorType.INT.getType()));
+
+      // To ensure duplicated field names don't mess up the original field order
+      // in the struct vector
+      initFields.add(Field.nullable("varchar1", MinorType.VARCHAR.getType()));
+      initFields.add(Field.nullable("varchar2", MinorType.VARCHAR.getType()));
+      initFields.add(Field.nullable("varchar3", MinorType.VARCHAR.getType()));
+      initFields.add(Field.nullable("uncertain-type", MinorType.VARCHAR.getType()));
+
+      vector.initializeChildrenFromFields(initFields);
+
+      List<FieldVector> children = vector.getChildrenFromFields();
+      assertEquals(11, children.size());
+      assertEquals("varchar1", children.get(0).getName());
+      assertEquals("int1", children.get(1).getName());
+      assertEquals("varchar2", children.get(2).getName());
+      assertEquals("int2", children.get(3).getName());
+      assertEquals("varchar3", children.get(4).getName());
+      assertEquals("int3", children.get(5).getName());
+      assertEquals("uncertain-type", children.get(6).getName());
+      assertEquals("varchar1", children.get(7).getName());
+      assertEquals("varchar2", children.get(8).getName());
+      assertEquals("varchar3", children.get(9).getName());
+      assertEquals("uncertain-type", children.get(10).getName());
+      assertEquals(MinorType.VARCHAR, children.get(0).getMinorType());
+      assertEquals(MinorType.INT, children.get(1).getMinorType());
+      assertEquals(MinorType.VARCHAR, children.get(2).getMinorType());
+      assertEquals(MinorType.INT, children.get(3).getMinorType());
+      assertEquals(MinorType.VARCHAR, children.get(4).getMinorType());
+      assertEquals(MinorType.INT, children.get(5).getMinorType());
+      assertEquals(MinorType.INT, children.get(6).getMinorType());
+      assertEquals(MinorType.VARCHAR, children.get(7).getMinorType());
+      assertEquals(MinorType.VARCHAR, children.get(8).getMinorType());
+      assertEquals(MinorType.VARCHAR, children.get(9).getMinorType());
+      assertEquals(MinorType.VARCHAR, children.get(10).getMinorType());
+    }
+  }
+
+  @Test
+  public void testAddChildVectorsWithDuplicatedFieldNamesForConflictPolicyReplace() {
+    final FieldType type = new FieldType(true, Struct.INSTANCE, null, null);
+    try (StructVector vector = new StructVector("struct", allocator, type, null,
+        AbstractStructVector.ConflictPolicy.CONFLICT_REPLACE, true)) {
+      final List<Field> initFields = new ArrayList<>();
+
+      // Add a bit more fields to test against stability of the internal field
+      // ordering mechanism of StructVector
+      initFields.add(Field.nullable("varchar1", MinorType.VARCHAR.getType()));
+      initFields.add(Field.nullable("int1", MinorType.INT.getType()));
+      initFields.add(Field.nullable("varchar2", MinorType.VARCHAR.getType()));
+      initFields.add(Field.nullable("int2", MinorType.INT.getType()));
+      initFields.add(Field.nullable("varchar3", MinorType.VARCHAR.getType()));
+      initFields.add(Field.nullable("int3", MinorType.INT.getType()));
+      initFields.add(Field.nullable("uncertain-type", MinorType.INT.getType()));
+
+      // To ensure duplicated field names don't mess up the original field order
+      // in the struct vector
+      initFields.add(Field.nullable("varchar1", MinorType.VARCHAR.getType()));
+      initFields.add(Field.nullable("varchar2", MinorType.VARCHAR.getType()));
+      initFields.add(Field.nullable("varchar3", MinorType.VARCHAR.getType()));
+      initFields.add(Field.nullable("uncertain-type", MinorType.VARCHAR.getType()));
+
+      vector.initializeChildrenFromFields(initFields);
+
+      List<FieldVector> children = vector.getChildrenFromFields();
+      assertEquals(7, children.size());
+      assertEquals("varchar1", children.get(0).getName());
+      assertEquals("int1", children.get(1).getName());
+      assertEquals("varchar2", children.get(2).getName());
+      assertEquals("int2", children.get(3).getName());
+      assertEquals("varchar3", children.get(4).getName());
+      assertEquals("int3", children.get(5).getName());
+      assertEquals("uncertain-type", children.get(6).getName());
+      assertEquals(MinorType.VARCHAR, children.get(0).getMinorType());
+      assertEquals(MinorType.INT, children.get(1).getMinorType());
+      assertEquals(MinorType.VARCHAR, children.get(2).getMinorType());
+      assertEquals(MinorType.INT, children.get(3).getMinorType());
+      assertEquals(MinorType.VARCHAR, children.get(4).getMinorType());
+      assertEquals(MinorType.INT, children.get(5).getMinorType());
+      assertEquals(MinorType.VARCHAR, children.get(6).getMinorType());
+    }
+  }
+
 }
diff --git a/java/vector/src/test/java/org/apache/arrow/vector/TestValueVector.java b/java/vector/src/test/java/org/apache/arrow/vector/TestValueVector.java
index 516daa23622..0928d3eb030 100644
--- a/java/vector/src/test/java/org/apache/arrow/vector/TestValueVector.java
+++ b/java/vector/src/test/java/org/apache/arrow/vector/TestValueVector.java
@@ -1137,6 +1137,25 @@ public void testNullableVarType2() {
     }
   }
 
+  @Test(expected = OversizedAllocationException.class)
+  public void testReallocateCheckSuccess() {
+
+    // Create a new value vector for 1024 integers.
+    try (final VarBinaryVector vector = newVarBinaryVector(EMPTY_SCHEMA_PATH, allocator)) {
+      vector.allocateNew(1024 * 10, 1024);
+
+      vector.set(0, STR1);
+      // Check the sample strings.
+      assertArrayEquals(STR1, vector.get(0));
+
+      // update the index offset to a larger one
+      ArrowBuf offsetBuf = vector.getOffsetBuffer();
+      offsetBuf.setInt(VarBinaryVector.OFFSET_WIDTH, Integer.MAX_VALUE - 5);
+
+      vector.setValueLengthSafe(1, 6);
+    }
+  }
+
 
   /*
    * generic tests
diff --git a/java/vector/src/test/java/org/apache/arrow/vector/table/BaseTableTest.java b/java/vector/src/test/java/org/apache/arrow/vector/table/BaseTableTest.java
new file mode 100644
index 00000000000..78f2ee51b89
--- /dev/null
+++ b/java/vector/src/test/java/org/apache/arrow/vector/table/BaseTableTest.java
@@ -0,0 +1,330 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.vector.table;
+
+import static org.apache.arrow.vector.table.TestUtils.INT_VECTOR_NAME;
+import static org.apache.arrow.vector.table.TestUtils.INT_VECTOR_NAME_1;
+import static org.apache.arrow.vector.table.TestUtils.INT_VECTOR_NAME_2;
+import static org.apache.arrow.vector.table.TestUtils.intPlusVarcharColumns;
+import static org.apache.arrow.vector.table.TestUtils.twoIntColumns;
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertFalse;
+import static org.junit.jupiter.api.Assertions.assertNotNull;
+import static org.junit.jupiter.api.Assertions.assertThrows;
+import static org.junit.jupiter.api.Assertions.assertTrue;
+
+import java.util.ArrayList;
+import java.util.List;
+
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.dictionary.Dictionary;
+import org.apache.arrow.vector.dictionary.DictionaryEncoder;
+import org.apache.arrow.vector.dictionary.DictionaryProvider;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.DictionaryEncoding;
+import org.apache.arrow.vector.types.pojo.FieldType;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+class BaseTableTest {
+
+  private BufferAllocator allocator;
+
+  @BeforeEach
+  public void init() {
+    allocator = new RootAllocator(Long.MAX_VALUE);
+  }
+
+  @Test
+  void getReaderByName() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      assertNotNull(t.getReader(INT_VECTOR_NAME_1));
+    }
+  }
+
+  @Test
+  void getReaderByIndex() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      assertNotNull(t.getReader(0));
+    }
+  }
+
+  @Test
+  void getReaderByField() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      assertNotNull(t.getReader(t.getField(INT_VECTOR_NAME_1)));
+    }
+  }
+
+  @Test
+  void getSchema() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      assertNotNull(t.getSchema());
+      assertEquals(2, t.getSchema().getFields().size());
+    }
+  }
+
+  @Test
+  void insertVector() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      ArrowType intArrowType = new ArrowType.Int(32, true);
+      FieldType intFieldType = new FieldType(true, intArrowType, null);
+      IntVector v3 = new IntVector("3", intFieldType, allocator);
+      List<FieldVector> revisedVectors = t.insertVector(2, v3);
+      assertEquals(3, revisedVectors.size());
+      assertEquals(v3, revisedVectors.get(2));
+    }
+  }
+
+  @Test
+  void insertVectorFirstPosition() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      ArrowType intArrowType = new ArrowType.Int(32, true);
+      FieldType intFieldType = new FieldType(true, intArrowType, null);
+      IntVector v3 = new IntVector("3", intFieldType, allocator);
+      List<FieldVector> revisedVectors = t.insertVector(0, v3);
+      assertEquals(3, revisedVectors.size());
+      assertEquals(v3, revisedVectors.get(0));
+    }
+  }
+
+  @Test
+  void extractVector() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      List<FieldVector> revisedVectors = t.extractVector(0);
+      assertEquals(2, t.getVectorCount()); // vector not removed from table yet
+      assertEquals(1, revisedVectors.size());
+    }
+  }
+
+  @Test
+  void close() {
+    IntVector v = new IntVector(INT_VECTOR_NAME, allocator);
+    v.setSafe(0, 132);
+    List<FieldVector> vectors = new ArrayList<>();
+    vectors.add(v);
+    v.setValueCount(1);
+    try (Table t = new Table(vectors)) {
+      t.close();
+      for (FieldVector fieldVector : t.fieldVectors) {
+        assertEquals(0, fieldVector.getValueCount());
+      }
+    }
+  }
+
+  @Test
+  void getRowCount() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      assertEquals(2, t.getRowCount());
+    }
+  }
+
+  @Test
+  void toVectorSchemaRoot() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      assertNotNull(t.getVector(INT_VECTOR_NAME_1));
+      assertNotNull(t.getVector(INT_VECTOR_NAME_2));
+      VectorSchemaRoot vsr = t.toVectorSchemaRoot();
+      assertNotNull(vsr.getVector(INT_VECTOR_NAME_1));
+      assertNotNull(vsr.getVector(INT_VECTOR_NAME_2));
+      assertEquals(
+          t.getSchema().findField(INT_VECTOR_NAME_1), vsr.getSchema().findField(INT_VECTOR_NAME_1));
+    }
+  }
+
+  @Test
+  void getVector() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      assertNotNull(t.getVector(0));
+    }
+  }
+
+  @Test
+  void testGetVector() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      assertNotNull(t.getVector(INT_VECTOR_NAME_1));
+      assertThrows(IllegalArgumentException.class,
+          () -> t.getVector("wrong name"));
+    }
+  }
+
+  @Test
+  void getVectorCopyByIndex() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    List<FieldVector> vectorList2 = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      // compare value by value
+      for (int vIdx = 0; vIdx < vectorList.size(); vIdx++) {
+        IntVector original = (IntVector) vectorList2.get(vIdx);
+        IntVector copy = (IntVector) t.getVectorCopy(vIdx);
+        assertNotNull(copy);
+        assertEquals(2, copy.getValueCount());
+        assertEquals(0, copy.getNullCount());
+        for (int i = 0; i < t.getRowCount(); i++) {
+          assertEquals(original.getObject(i), copy.getObject(i));
+        }
+      }
+      assertThrows(IllegalArgumentException.class,
+          () -> t.getVector("wrong name"));
+    }
+  }
+
+  @Test
+  void getVectorCopyByName() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    List<FieldVector> vectorList2 = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      assertNotNull(t.getVectorCopy(INT_VECTOR_NAME_1));
+      for (int vIdx = 0; vIdx < vectorList.size(); vIdx++) {
+        IntVector original = (IntVector) vectorList2.get(vIdx);
+        IntVector copy = (IntVector) t.getVectorCopy(original.getName());
+        assertEquals(2, copy.getValueCount());
+        assertEquals(0, copy.getNullCount());
+        for (int i = 0; i < t.getRowCount(); i++) {
+          assertEquals(original.getObject(i), copy.getObject(i));
+        }
+      }
+      assertThrows(IllegalArgumentException.class,
+          () -> t.getVector("wrong name"));
+    }
+  }
+
+  @Test
+  void immutableCursor() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      assertNotNull(t.immutableRow());
+    }
+  }
+
+  @Test
+  void contentToTsvString() {
+    IntVector v = new IntVector(INT_VECTOR_NAME, allocator);
+    v.setSafe(0, 1);
+    v.setSafe(1, 2);
+    v.setSafe(2, 3);
+    v.setValueCount(3);
+
+    try (Table t = Table.of(v)) {
+      assertEquals(3, t.rowCount);
+      List<Integer> values = new ArrayList<>();
+      for (Row r : t) {
+        values.add(r.getInt(INT_VECTOR_NAME));
+      }
+      assertEquals(3, values.size());
+      List<Integer> intList = new ArrayList<>();
+      intList.add(1);
+      intList.add(2);
+      intList.add(3);
+      assertTrue(values.containsAll(intList));
+      String printed = "intCol\n" + "1\n" + "2\n" + "3\n";
+      assertEquals(printed, t.contentToTSVString());
+    }
+  }
+
+  @Test
+  void isDeletedRow() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      assertFalse(t.isRowDeleted(0));
+      assertFalse(t.isRowDeleted(1));
+    }
+  }
+
+  @Test
+  void testEncode() {
+    List<FieldVector> vectorList = intPlusVarcharColumns(allocator);
+    VarCharVector original = (VarCharVector) vectorList.get(1);
+    DictionaryProvider provider = getDictionary();
+    try (Table t = new Table(vectorList, vectorList.get(0).getValueCount(), provider)) {
+      IntVector v = (IntVector) t.encode(original.getName(), 1L);
+      assertNotNull(v);
+      assertEquals(0, v.get(0));
+      assertEquals(1, v.get(1));
+    }
+  }
+
+  @Test
+  void testDecode() {
+    List<FieldVector> vectorList = intPlusVarcharColumns(allocator);
+    VarCharVector original = (VarCharVector) vectorList.get(1);
+
+    VarCharVector dictionaryVector = new VarCharVector("dictionary", allocator);
+    dictionaryVector.allocateNew(2);
+    dictionaryVector.set(0, "one".getBytes());
+    dictionaryVector.set(1, "two".getBytes());
+    dictionaryVector.setValueCount(2);
+    Dictionary dictionary =
+        new Dictionary(dictionaryVector, new DictionaryEncoding(1L, false, null));
+
+    DictionaryEncoder encoder = new DictionaryEncoder(dictionary, allocator);
+    IntVector encoded = (IntVector) encoder.encode(original);
+    vectorList.remove(original);
+    vectorList.add(encoded);
+    DictionaryProvider provider = getDictionary();
+
+    try (Table t = new Table(vectorList, vectorList.get(0).getValueCount(), provider)) {
+      VarCharVector v = (VarCharVector) t.decode(encoded.getName(), 1L);
+      assertNotNull(v);
+      assertEquals("one", new String(v.get(0)));
+      assertEquals("two", new String(v.get(1)));
+    }
+  }
+
+  @Test
+  void getProvider() {
+    List<FieldVector> vectorList = intPlusVarcharColumns(allocator);
+    DictionaryProvider provider = getDictionary();
+    try (Table t = new Table(vectorList, vectorList.get(0).getValueCount(), provider)) {
+      assertEquals(provider, t.getDictionaryProvider());
+    }
+  }
+
+  private DictionaryProvider getDictionary() {
+
+    DictionaryProvider.MapDictionaryProvider provider =
+        new DictionaryProvider.MapDictionaryProvider();
+    DictionaryEncoding encoding = new DictionaryEncoding(1L, false, null);
+
+    VarCharVector dictionaryVector = new VarCharVector("dictionary", allocator);
+    dictionaryVector.allocateNew(2);
+    dictionaryVector.set(0, "one".getBytes());
+    dictionaryVector.set(1, "two".getBytes());
+    dictionaryVector.setValueCount(2);
+
+    Dictionary dictionary = new Dictionary(dictionaryVector, encoding);
+    provider.put(dictionary);
+    return provider;
+  }
+}
diff --git a/java/vector/src/test/java/org/apache/arrow/vector/table/RowTest.java b/java/vector/src/test/java/org/apache/arrow/vector/table/RowTest.java
new file mode 100644
index 00000000000..eb50e866b19
--- /dev/null
+++ b/java/vector/src/test/java/org/apache/arrow/vector/table/RowTest.java
@@ -0,0 +1,856 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.vector.table;
+
+import static org.apache.arrow.vector.table.TestUtils.BIGINT_INT_MAP_VECTOR_NAME;
+import static org.apache.arrow.vector.table.TestUtils.FIXEDBINARY_VECTOR_NAME_1;
+import static org.apache.arrow.vector.table.TestUtils.INT_LIST_VECTOR_NAME;
+import static org.apache.arrow.vector.table.TestUtils.INT_VECTOR_NAME_1;
+import static org.apache.arrow.vector.table.TestUtils.STRUCT_VECTOR_NAME;
+import static org.apache.arrow.vector.table.TestUtils.UNION_VECTOR_NAME;
+import static org.apache.arrow.vector.table.TestUtils.VARBINARY_VECTOR_NAME_1;
+import static org.apache.arrow.vector.table.TestUtils.VARCHAR_VECTOR_NAME_1;
+import static org.apache.arrow.vector.table.TestUtils.fixedWidthVectors;
+import static org.apache.arrow.vector.table.TestUtils.intPlusFixedBinaryColumns;
+import static org.apache.arrow.vector.table.TestUtils.intPlusLargeVarBinaryColumns;
+import static org.apache.arrow.vector.table.TestUtils.intPlusLargeVarcharColumns;
+import static org.apache.arrow.vector.table.TestUtils.intPlusVarBinaryColumns;
+import static org.apache.arrow.vector.table.TestUtils.intPlusVarcharColumns;
+import static org.apache.arrow.vector.table.TestUtils.simpleDenseUnionVector;
+import static org.apache.arrow.vector.table.TestUtils.simpleListVector;
+import static org.apache.arrow.vector.table.TestUtils.simpleMapVector;
+import static org.apache.arrow.vector.table.TestUtils.simpleStructVector;
+import static org.apache.arrow.vector.table.TestUtils.simpleUnionVector;
+import static org.apache.arrow.vector.table.TestUtils.timezoneTemporalVectors;
+import static org.apache.arrow.vector.table.TestUtils.twoIntColumns;
+import static org.junit.jupiter.api.Assertions.assertArrayEquals;
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertFalse;
+import static org.junit.jupiter.api.Assertions.assertNotNull;
+import static org.junit.jupiter.api.Assertions.assertNull;
+import static org.junit.jupiter.api.Assertions.assertThrows;
+import static org.junit.jupiter.api.Assertions.assertTrue;
+
+import java.math.BigDecimal;
+import java.nio.charset.StandardCharsets;
+import java.time.Duration;
+import java.time.LocalDateTime;
+import java.time.Period;
+import java.util.ArrayList;
+import java.util.List;
+
+import org.apache.arrow.memory.ArrowBuf;
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.vector.BitVector;
+import org.apache.arrow.vector.DecimalVector;
+import org.apache.arrow.vector.DurationVector;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.IntervalDayVector;
+import org.apache.arrow.vector.IntervalMonthDayNanoVector;
+import org.apache.arrow.vector.IntervalYearVector;
+import org.apache.arrow.vector.PeriodDuration;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.complex.DenseUnionVector;
+import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.MapVector;
+import org.apache.arrow.vector.complex.StructVector;
+import org.apache.arrow.vector.complex.UnionVector;
+import org.apache.arrow.vector.holders.NullableBigIntHolder;
+import org.apache.arrow.vector.holders.NullableBitHolder;
+import org.apache.arrow.vector.holders.NullableDecimalHolder;
+import org.apache.arrow.vector.holders.NullableDurationHolder;
+import org.apache.arrow.vector.holders.NullableFloat4Holder;
+import org.apache.arrow.vector.holders.NullableFloat8Holder;
+import org.apache.arrow.vector.holders.NullableIntHolder;
+import org.apache.arrow.vector.holders.NullableIntervalDayHolder;
+import org.apache.arrow.vector.holders.NullableIntervalMonthDayNanoHolder;
+import org.apache.arrow.vector.holders.NullableIntervalYearHolder;
+import org.apache.arrow.vector.holders.NullableSmallIntHolder;
+import org.apache.arrow.vector.holders.NullableTimeMicroHolder;
+import org.apache.arrow.vector.holders.NullableTimeMilliHolder;
+import org.apache.arrow.vector.holders.NullableTimeNanoHolder;
+import org.apache.arrow.vector.holders.NullableTimeSecHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampMicroHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampMicroTZHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampMilliHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampMilliTZHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampNanoHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampNanoTZHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampSecHolder;
+import org.apache.arrow.vector.holders.NullableTimeStampSecTZHolder;
+import org.apache.arrow.vector.holders.NullableTinyIntHolder;
+import org.apache.arrow.vector.holders.NullableUInt1Holder;
+import org.apache.arrow.vector.holders.NullableUInt2Holder;
+import org.apache.arrow.vector.holders.NullableUInt4Holder;
+import org.apache.arrow.vector.holders.NullableUInt8Holder;
+import org.apache.arrow.vector.types.IntervalUnit;
+import org.apache.arrow.vector.types.TimeUnit;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.FieldType;
+import org.apache.arrow.vector.types.pojo.TestExtensionType;
+import org.apache.arrow.vector.util.JsonStringHashMap;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+class RowTest {
+
+  private BufferAllocator allocator;
+
+  @BeforeEach
+  public void init() {
+    allocator = new RootAllocator(Long.MAX_VALUE);
+  }
+
+  @AfterEach
+  public void terminate() {
+    allocator.close();
+  }
+
+  @Test
+  void constructor() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      assertEquals(StandardCharsets.UTF_8, c.getDefaultCharacterSet());
+    }
+  }
+
+  @Test
+  void at() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      assertEquals(c.getRowNumber(), -1);
+      c.setPosition(1);
+      assertEquals(c.getRowNumber(), 1);
+    }
+  }
+
+  @Test
+  void getIntByVectorIndex() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertEquals(2, c.getInt(0));
+    }
+  }
+
+  @Test
+  void getIntByVectorName() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertEquals(2, c.getInt(INT_VECTOR_NAME_1));
+    }
+  }
+
+  @Test
+  void testNameNotFound() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertThrows(IllegalArgumentException.class,
+          () -> c.getVarCharObj("wrong name"));
+    }
+  }
+
+  @Test
+  void testWrongType() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertThrows(ClassCastException.class,
+          () -> c.getVarCharObj(INT_VECTOR_NAME_1));
+    }
+  }
+
+  @Test
+  void getDecimal() {
+    List<FieldVector> vectors = new ArrayList<>();
+    DecimalVector decimalVector = new DecimalVector("decimal_vector", allocator, 55, 10);
+    vectors.add(decimalVector);
+    decimalVector.setSafe(0, new BigDecimal("0.0543278923"));
+    decimalVector.setSafe(1, new BigDecimal("2.0543278923"));
+    decimalVector.setValueCount(2);
+    BigDecimal one = decimalVector.getObject(1);
+
+    NullableDecimalHolder holder1 = new NullableDecimalHolder();
+    NullableDecimalHolder holder2 = new NullableDecimalHolder();
+    try (Table t = new Table(vectors)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertEquals(one, c.getDecimalObj("decimal_vector"));
+      assertEquals(one, c.getDecimalObj(0));
+      c.getDecimal(0, holder1);
+      c.getDecimal("decimal_vector", holder2);
+      assertEquals(holder1.buffer, holder2.buffer);
+      assertEquals(c.getDecimal(0).memoryAddress(), c.getDecimal("decimal_vector").memoryAddress());
+    }
+  }
+
+  @Test
+  void getDuration() {
+    List<FieldVector> vectors = new ArrayList<>();
+    TimeUnit unit = TimeUnit.SECOND;
+    final FieldType fieldType = FieldType.nullable(new ArrowType.Duration(unit));
+
+    DurationVector durationVector = new DurationVector("duration_vector", fieldType, allocator);
+    NullableDurationHolder holder1 = new NullableDurationHolder();
+    NullableDurationHolder holder2 = new NullableDurationHolder();
+
+    holder1.value = 100;
+    holder1.unit = TimeUnit.SECOND;
+    holder1.isSet = 1;
+    holder2.value = 200;
+    holder2.unit = TimeUnit.SECOND;
+    holder2.isSet = 1;
+
+    vectors.add(durationVector);
+    durationVector.setSafe(0, holder1);
+    durationVector.setSafe(1, holder2);
+    durationVector.setValueCount(2);
+
+    Duration one = durationVector.getObject(1);
+    try (Table t = new Table(vectors)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertEquals(one, c.getDurationObj("duration_vector"));
+      assertEquals(one, c.getDurationObj(0));
+      c.getDuration(0, holder1);
+      c.getDuration("duration_vector", holder2);
+      assertEquals(holder1.value, holder2.value);
+      ArrowBuf durationBuf1 = c.getDuration(0);
+      ArrowBuf durationBuf2 = c.getDuration("duration_vector");
+      assertEquals(durationBuf1.memoryAddress(), durationBuf2.memoryAddress());
+    }
+  }
+
+  @Test
+  void getIntervalDay() {
+    List<FieldVector> vectors = new ArrayList<>();
+    IntervalUnit unit = IntervalUnit.DAY_TIME;
+    final FieldType fieldType = FieldType.nullable(new ArrowType.Interval(unit));
+
+    IntervalDayVector intervalDayVector = new IntervalDayVector("intervalDay_vector", fieldType, allocator);
+    NullableIntervalDayHolder holder1 = new NullableIntervalDayHolder();
+    NullableIntervalDayHolder holder2 = new NullableIntervalDayHolder();
+
+    holder1.days = 100;
+    holder1.milliseconds = 1000;
+    holder1.isSet = 1;
+    holder2.days = 200;
+    holder2.milliseconds = 2000;
+    holder2.isSet = 1;
+
+    vectors.add(intervalDayVector);
+    intervalDayVector.setSafe(0, holder1);
+    intervalDayVector.setSafe(1, holder2);
+    intervalDayVector.setValueCount(2);
+
+    Duration one = intervalDayVector.getObject(1);
+    try (Table t = new Table(vectors)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertEquals(one, c.getIntervalDayObj("intervalDay_vector"));
+      assertEquals(one, c.getIntervalDayObj(0));
+      c.getIntervalDay(0, holder1);
+      c.getIntervalDay("intervalDay_vector", holder2);
+      assertEquals(holder1.days, holder2.days);
+      assertEquals(holder1.milliseconds, holder2.milliseconds);
+      ArrowBuf intDayBuf1 = c.getIntervalDay(0);
+      ArrowBuf intDayBuf2 = c.getIntervalDay("intervalDay_vector");
+      assertEquals(intDayBuf1.memoryAddress(), intDayBuf2.memoryAddress());
+    }
+  }
+
+  @Test
+  void getIntervalMonth() {
+    List<FieldVector> vectors = new ArrayList<>();
+    IntervalUnit unit = IntervalUnit.MONTH_DAY_NANO;
+    final FieldType fieldType = FieldType.nullable(new ArrowType.Interval(unit));
+
+    IntervalMonthDayNanoVector intervalMonthVector =
+        new IntervalMonthDayNanoVector("intervalMonth_vector", fieldType, allocator);
+    NullableIntervalMonthDayNanoHolder holder1 = new NullableIntervalMonthDayNanoHolder();
+    NullableIntervalMonthDayNanoHolder holder2 = new NullableIntervalMonthDayNanoHolder();
+
+    holder1.days = 1;
+    holder1.months = 10;
+    holder1.isSet = 1;
+    holder2.days = 2;
+    holder2.months = 20;
+    holder2.isSet = 1;
+
+    vectors.add(intervalMonthVector);
+    intervalMonthVector.setSafe(0, holder1);
+    intervalMonthVector.setSafe(1, holder2);
+    intervalMonthVector.setValueCount(2);
+
+    PeriodDuration one = intervalMonthVector.getObject(1);
+    try (Table t = new Table(vectors)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertEquals(one, c.getIntervalMonthDayNanoObj("intervalMonth_vector"));
+      assertEquals(one, c.getIntervalMonthDayNanoObj(0));
+      c.getIntervalMonthDayNano(0, holder1);
+      c.getIntervalMonthDayNano("intervalMonth_vector", holder2);
+      assertEquals(holder1.days, holder2.days);
+      assertEquals(holder1.months, holder2.months);
+      ArrowBuf intMonthBuf1 = c.getIntervalMonthDayNano(0);
+      ArrowBuf intMonthBuf2 = c.getIntervalMonthDayNano("intervalMonth_vector");
+      assertEquals(intMonthBuf1.memoryAddress(), intMonthBuf2.memoryAddress());
+    }
+  }
+
+  @Test
+  void getIntervalYear() {
+    List<FieldVector> vectors = new ArrayList<>();
+    IntervalUnit unit = IntervalUnit.YEAR_MONTH;
+    final FieldType fieldType = FieldType.nullable(new ArrowType.Interval(unit));
+
+    IntervalYearVector intervalYearVector = new IntervalYearVector("intervalYear_vector", fieldType, allocator);
+    NullableIntervalYearHolder holder1 = new NullableIntervalYearHolder();
+    NullableIntervalYearHolder holder2 = new NullableIntervalYearHolder();
+
+    holder1.value = 1;
+    holder1.isSet = 1;
+    holder2.value = 2;
+    holder2.isSet = 1;
+
+    vectors.add(intervalYearVector);
+    intervalYearVector.setSafe(0, holder1);
+    intervalYearVector.setSafe(1, holder2);
+    intervalYearVector.setValueCount(2);
+
+    Period one = intervalYearVector.getObject(1);
+    try (Table t = new Table(vectors)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertEquals(one, c.getIntervalYearObj("intervalYear_vector"));
+      assertEquals(one, c.getIntervalYearObj(0));
+      c.getIntervalYear(0, holder1);
+      c.getIntervalYear("intervalYear_vector", holder2);
+      assertEquals(holder1.value, holder2.value);
+      int intYear1 = c.getIntervalYear(0);
+      int intYear2 = c.getIntervalYear("intervalYear_vector");
+      assertEquals(2, intYear1);
+      assertEquals(intYear1, intYear2);
+    }
+  }
+
+  @Test
+  void getBit() {
+    List<FieldVector> vectors = new ArrayList<>();
+
+    BitVector bitVector = new BitVector("bit_vector", allocator);
+    NullableBitHolder holder1 = new NullableBitHolder();
+    NullableBitHolder holder2 = new NullableBitHolder();
+
+    vectors.add(bitVector);
+    bitVector.setSafe(0, 0);
+    bitVector.setSafe(1, 1);
+    bitVector.setValueCount(2);
+
+    int one = bitVector.get(1);
+    try (Table t = new Table(vectors)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertEquals(one, c.getBit("bit_vector"));
+      assertEquals(one, c.getBit(0));
+      c.getBit(0, holder1);
+      c.getBit("bit_vector", holder2);
+      assertEquals(holder1.value, holder2.value);
+    }
+  }
+
+  @Test
+  void hasNext() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      assertTrue(c.hasNext());
+      c.setPosition(1);
+      assertFalse(c.hasNext());
+    }
+  }
+
+  @Test
+  void next() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(0);
+      c.next();
+      assertEquals(1, c.getRowNumber());
+    }
+  }
+
+  @Test
+  void isNull() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertFalse(c.isNull(0));
+    }
+  }
+
+  @Test
+  void isNullByFieldName() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertFalse(c.isNull(INT_VECTOR_NAME_1));
+    }
+  }
+
+  @Test
+  void fixedWidthVectorTest() {
+    List<FieldVector> vectorList = fixedWidthVectors(allocator, 2);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      // integer tests using vector name and index
+      assertFalse(c.isNull("bigInt_vector"));
+      assertEquals(c.getInt("int_vector"), c.getInt(0));
+      assertEquals(c.getBigInt("bigInt_vector"), c.getBigInt(1));
+      assertEquals(c.getSmallInt("smallInt_vector"), c.getSmallInt(2));
+      assertEquals(c.getTinyInt("tinyInt_vector"), c.getTinyInt(3));
+
+      // integer tests using Nullable Holders
+      NullableIntHolder int4Holder = new NullableIntHolder();
+      NullableTinyIntHolder int1Holder = new NullableTinyIntHolder();
+      NullableSmallIntHolder int2Holder = new NullableSmallIntHolder();
+      NullableBigIntHolder int8Holder = new NullableBigIntHolder();
+      c.getInt(0, int4Holder);
+      c.getBigInt(1, int8Holder);
+      c.getSmallInt(2, int2Holder);
+      c.getTinyInt(3, int1Holder);
+      assertEquals(c.getInt("int_vector"), int4Holder.value);
+      assertEquals(c.getBigInt("bigInt_vector"), int8Holder.value);
+      assertEquals(c.getSmallInt("smallInt_vector"), int2Holder.value);
+      assertEquals(c.getTinyInt("tinyInt_vector"), int1Holder.value);
+
+      c.getInt("int_vector", int4Holder);
+      c.getBigInt("bigInt_vector", int8Holder);
+      c.getSmallInt("smallInt_vector", int2Holder);
+      c.getTinyInt("tinyInt_vector", int1Holder);
+      assertEquals(c.getInt("int_vector"), int4Holder.value);
+      assertEquals(c.getBigInt("bigInt_vector"), int8Holder.value);
+      assertEquals(c.getSmallInt("smallInt_vector"), int2Holder.value);
+      assertEquals(c.getTinyInt("tinyInt_vector"), int1Holder.value);
+
+      // uint tests using vector name and index
+      assertEquals(c.getUInt1("uInt1_vector"), c.getUInt1(4));
+      assertEquals(c.getUInt2("uInt2_vector"), c.getUInt2(5));
+      assertEquals(c.getUInt4("uInt4_vector"), c.getUInt4(6));
+      assertEquals(c.getUInt8("uInt8_vector"), c.getUInt8(7));
+
+      // UInt tests using Nullable Holders
+      NullableUInt4Holder uInt4Holder = new NullableUInt4Holder();
+      NullableUInt1Holder uInt1Holder = new NullableUInt1Holder();
+      NullableUInt2Holder uInt2Holder = new NullableUInt2Holder();
+      NullableUInt8Holder uInt8Holder = new NullableUInt8Holder();
+      // fill the holders using vector index and test
+      c.getUInt1(4, uInt1Holder);
+      c.getUInt2(5, uInt2Holder);
+      c.getUInt4(6, uInt4Holder);
+      c.getUInt8(7, uInt8Holder);
+      assertEquals(c.getUInt1("uInt1_vector"), uInt1Holder.value);
+      assertEquals(c.getUInt2("uInt2_vector"), uInt2Holder.value);
+      assertEquals(c.getUInt4("uInt4_vector"), uInt4Holder.value);
+      assertEquals(c.getUInt8("uInt8_vector"), uInt8Holder.value);
+
+      // refill the holders using vector name and retest
+      c.getUInt1("uInt1_vector", uInt1Holder);
+      c.getUInt2("uInt2_vector", uInt2Holder);
+      c.getUInt4("uInt4_vector", uInt4Holder);
+      c.getUInt8("uInt8_vector", uInt8Holder);
+      assertEquals(c.getUInt1("uInt1_vector"), uInt1Holder.value);
+      assertEquals(c.getUInt2("uInt2_vector"), uInt2Holder.value);
+      assertEquals(c.getUInt4("uInt4_vector"), uInt4Holder.value);
+      assertEquals(c.getUInt8("uInt8_vector"), uInt8Holder.value);
+
+      // tests floating point
+      assertEquals(c.getFloat4("float4_vector"), c.getFloat4(8));
+      assertEquals(c.getFloat8("float8_vector"), c.getFloat8(9));
+
+      // floating point tests using Nullable Holders
+      NullableFloat4Holder float4Holder = new NullableFloat4Holder();
+      NullableFloat8Holder float8Holder = new NullableFloat8Holder();
+      // fill the holders using vector index and test
+      c.getFloat4(8, float4Holder);
+      c.getFloat8(9, float8Holder);
+      assertEquals(c.getFloat4("float4_vector"), float4Holder.value);
+      assertEquals(c.getFloat8("float8_vector"), float8Holder.value);
+
+      // refill the holders using vector name and retest
+      c.getFloat4("float4_vector", float4Holder);
+      c.getFloat8("float8_vector", float8Holder);
+      assertEquals(c.getFloat4("float4_vector"), float4Holder.value);
+      assertEquals(c.getFloat8("float8_vector"), float8Holder.value);
+
+      // test time values using vector name versus vector index
+      assertEquals(c.getTimeSec("timeSec_vector"), c.getTimeSec(10));
+      assertEquals(c.getTimeMilli("timeMilli_vector"), c.getTimeMilli(11));
+      assertEquals(c.getTimeMicro("timeMicro_vector"), c.getTimeMicro(12));
+      assertEquals(c.getTimeNano("timeNano_vector"), c.getTimeNano(13));
+
+      // time tests using Nullable Holders
+      NullableTimeSecHolder timeSecHolder = new NullableTimeSecHolder();
+      NullableTimeMilliHolder timeMilliHolder = new NullableTimeMilliHolder();
+      NullableTimeMicroHolder timeMicroHolder = new NullableTimeMicroHolder();
+      NullableTimeNanoHolder timeNanoHolder = new NullableTimeNanoHolder();
+      // fill the holders using vector index and test
+      c.getTimeSec(10, timeSecHolder);
+      c.getTimeMilli(11, timeMilliHolder);
+      c.getTimeMicro(12, timeMicroHolder);
+      c.getTimeNano(13, timeNanoHolder);
+      assertEquals(c.getTimeSec("timeSec_vector"), timeSecHolder.value);
+      assertEquals(c.getTimeMilli("timeMilli_vector"), timeMilliHolder.value);
+      assertEquals(c.getTimeMicro("timeMicro_vector"), timeMicroHolder.value);
+      assertEquals(c.getTimeNano("timeNano_vector"), timeNanoHolder.value);
+
+      LocalDateTime milliDT = c.getTimeMilliObj(11);
+      assertNotNull(milliDT);
+      assertEquals(milliDT, c.getTimeMilliObj("timeMilli_vector"));
+
+      // refill the holders using vector name and retest
+      c.getTimeSec("timeSec_vector", timeSecHolder);
+      c.getTimeMilli("timeMilli_vector", timeMilliHolder);
+      c.getTimeMicro("timeMicro_vector", timeMicroHolder);
+      c.getTimeNano("timeNano_vector", timeNanoHolder);
+      assertEquals(c.getTimeSec("timeSec_vector"), timeSecHolder.value);
+      assertEquals(c.getTimeMilli("timeMilli_vector"), timeMilliHolder.value);
+      assertEquals(c.getTimeMicro("timeMicro_vector"), timeMicroHolder.value);
+      assertEquals(c.getTimeNano("timeNano_vector"), timeNanoHolder.value);
+
+      assertEquals(c.getTimeStampSec("timeStampSec_vector"), c.getTimeStampSec(14));
+      assertEquals(c.getTimeStampMilli("timeStampMilli_vector"), c.getTimeStampMilli(15));
+      assertEquals(c.getTimeStampMicro("timeStampMicro_vector"), c.getTimeStampMicro(16));
+      assertEquals(c.getTimeStampNano("timeStampNano_vector"), c.getTimeStampNano(17));
+
+      // time stamp tests using Nullable Holders
+      NullableTimeStampSecHolder timeStampSecHolder = new NullableTimeStampSecHolder();
+      NullableTimeStampMilliHolder timeStampMilliHolder = new NullableTimeStampMilliHolder();
+      NullableTimeStampMicroHolder timeStampMicroHolder = new NullableTimeStampMicroHolder();
+      NullableTimeStampNanoHolder timeStampNanoHolder = new NullableTimeStampNanoHolder();
+      // fill the holders using vector index and test
+      c.getTimeStampSec(14, timeStampSecHolder);
+      c.getTimeStampMilli(15, timeStampMilliHolder);
+      c.getTimeStampMicro(16, timeStampMicroHolder);
+      c.getTimeStampNano(17, timeStampNanoHolder);
+      assertEquals(c.getTimeStampSec("timeStampSec_vector"), timeStampSecHolder.value);
+      assertEquals(c.getTimeStampMilli("timeStampMilli_vector"), timeStampMilliHolder.value);
+      assertEquals(c.getTimeStampMicro("timeStampMicro_vector"), timeStampMicroHolder.value);
+      assertEquals(c.getTimeStampNano("timeStampNano_vector"), timeStampNanoHolder.value);
+
+      LocalDateTime secDT = c.getTimeStampSecObj(14);
+      assertNotNull(secDT);
+      assertEquals(secDT, c.getTimeStampSecObj("timeStampSec_vector"));
+
+      LocalDateTime milliDT1 = c.getTimeStampMilliObj(15);
+      assertNotNull(milliDT1);
+      assertEquals(milliDT1, c.getTimeStampMilliObj("timeStampMilli_vector"));
+
+      LocalDateTime microDT = c.getTimeStampMicroObj(16);
+      assertNotNull(microDT);
+      assertEquals(microDT, c.getTimeStampMicroObj("timeStampMicro_vector"));
+
+      LocalDateTime nanoDT = c.getTimeStampNanoObj(17);
+      assertNotNull(nanoDT);
+      assertEquals(nanoDT, c.getTimeStampNanoObj("timeStampNano_vector"));
+
+      // refill the holders using vector name and retest
+      c.getTimeStampSec("timeStampSec_vector", timeStampSecHolder);
+      c.getTimeStampMilli("timeStampMilli_vector", timeStampMilliHolder);
+      c.getTimeStampMicro("timeStampMicro_vector", timeStampMicroHolder);
+      c.getTimeStampNano("timeStampNano_vector", timeStampNanoHolder);
+      assertEquals(c.getTimeStampSec("timeStampSec_vector"), timeStampSecHolder.value);
+      assertEquals(c.getTimeStampMilli("timeStampMilli_vector"), timeStampMilliHolder.value);
+      assertEquals(c.getTimeStampMicro("timeStampMicro_vector"), timeStampMicroHolder.value);
+      assertEquals(c.getTimeStampNano("timeStampNano_vector"), timeStampNanoHolder.value);
+    }
+  }
+
+  @Test
+  void timestampsWithTimezones() {
+    List<FieldVector> vectorList = timezoneTemporalVectors(allocator, 2);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+
+      assertEquals(c.getTimeStampSecTZ("timeStampSecTZ_vector"), c.getTimeStampSecTZ(0));
+      assertEquals(c.getTimeStampMilliTZ("timeStampMilliTZ_vector"), c.getTimeStampMilliTZ(1));
+      assertEquals(c.getTimeStampMicroTZ("timeStampMicroTZ_vector"), c.getTimeStampMicroTZ(2));
+      assertEquals(c.getTimeStampNanoTZ("timeStampNanoTZ_vector"), c.getTimeStampNanoTZ(3));
+
+      // time stamp tests using Nullable Holders
+      NullableTimeStampSecTZHolder timeStampSecHolder = new NullableTimeStampSecTZHolder();
+      NullableTimeStampMilliTZHolder timeStampMilliHolder = new NullableTimeStampMilliTZHolder();
+      NullableTimeStampMicroTZHolder timeStampMicroHolder = new NullableTimeStampMicroTZHolder();
+      NullableTimeStampNanoTZHolder timeStampNanoHolder = new NullableTimeStampNanoTZHolder();
+
+      // fill the holders using vector index and test
+      c.getTimeStampSecTZ(0, timeStampSecHolder);
+      c.getTimeStampMilliTZ(1, timeStampMilliHolder);
+      c.getTimeStampMicroTZ(2, timeStampMicroHolder);
+      c.getTimeStampNanoTZ(3, timeStampNanoHolder);
+
+      long tsSec = timeStampSecHolder.value;
+      long tsMil = timeStampMilliHolder.value;
+      long tsMic = timeStampMicroHolder.value;
+      long tsNan = timeStampNanoHolder.value;
+
+      assertEquals(c.getTimeStampSecTZ("timeStampSecTZ_vector"), timeStampSecHolder.value);
+      assertEquals(c.getTimeStampMilliTZ("timeStampMilliTZ_vector"), timeStampMilliHolder.value);
+      assertEquals(c.getTimeStampMicroTZ("timeStampMicroTZ_vector"), timeStampMicroHolder.value);
+      assertEquals(c.getTimeStampNanoTZ("timeStampNanoTZ_vector"), timeStampNanoHolder.value);
+
+      // fill the holders using vector index and test
+      c.getTimeStampSecTZ("timeStampSecTZ_vector", timeStampSecHolder);
+      c.getTimeStampMilliTZ("timeStampMilliTZ_vector", timeStampMilliHolder);
+      c.getTimeStampMicroTZ("timeStampMicroTZ_vector", timeStampMicroHolder);
+      c.getTimeStampNanoTZ("timeStampNanoTZ_vector", timeStampNanoHolder);
+
+      assertEquals(tsSec, timeStampSecHolder.value);
+      assertEquals(tsMil, timeStampMilliHolder.value);
+      assertEquals(tsMic, timeStampMicroHolder.value);
+      assertEquals(tsNan, timeStampNanoHolder.value);
+    }
+  }
+
+  @Test
+  void getVarChar() {
+    List<FieldVector> vectorList = intPlusVarcharColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertEquals(c.getVarCharObj(1), "two");
+      assertEquals(c.getVarCharObj(1), c.getVarCharObj(VARCHAR_VECTOR_NAME_1));
+      assertArrayEquals("two".getBytes(), c.getVarChar(VARCHAR_VECTOR_NAME_1));
+      assertArrayEquals("two".getBytes(), c.getVarChar(1));
+    }
+  }
+
+  @Test
+  void getVarBinary() {
+    List<FieldVector> vectorList = intPlusVarBinaryColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertArrayEquals(c.getVarBinary(1), "two".getBytes());
+      assertArrayEquals(c.getVarBinary(1), c.getVarBinary(VARBINARY_VECTOR_NAME_1));
+    }
+  }
+
+  @Test
+  void getLargeVarBinary() {
+    List<FieldVector> vectorList = intPlusLargeVarBinaryColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertArrayEquals(c.getLargeVarBinary(1), "two".getBytes());
+      assertArrayEquals(c.getLargeVarBinary(1), c.getLargeVarBinary(VARBINARY_VECTOR_NAME_1));
+    }
+  }
+
+  @Test
+  void getLargeVarChar() {
+    List<FieldVector> vectorList = intPlusLargeVarcharColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertEquals(c.getLargeVarCharObj(1), "two");
+      assertEquals(c.getLargeVarCharObj(1), c.getLargeVarCharObj(VARCHAR_VECTOR_NAME_1));
+      assertArrayEquals("two".getBytes(), c.getLargeVarChar(VARCHAR_VECTOR_NAME_1));
+      assertArrayEquals("two".getBytes(), c.getLargeVarChar(1));
+    }
+  }
+
+  @Test
+  void getFixedBinary() {
+    List<FieldVector> vectorList = intPlusFixedBinaryColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Row c = t.immutableRow();
+      c.setPosition(1);
+      assertArrayEquals(c.getFixedSizeBinary(1), "two".getBytes());
+      assertArrayEquals(c.getFixedSizeBinary(1), c.getFixedSizeBinary(FIXEDBINARY_VECTOR_NAME_1));
+    }
+  }
+
+  @Test
+  void testSimpleListVector1() {
+    try (ListVector listVector = simpleListVector(allocator);
+        VectorSchemaRoot vectorSchemaRoot = VectorSchemaRoot.of(listVector);
+        Table table = new Table(vectorSchemaRoot)) {
+      for (Row c : table) {
+        @SuppressWarnings("unchecked")
+        List<Integer> list = (List<Integer>) c.getList(INT_LIST_VECTOR_NAME);
+        assertEquals(10, list.size());
+      }
+    }
+  }
+
+  @Test
+  void testSimpleListVector2() {
+    try (ListVector listVector = simpleListVector(allocator);
+        VectorSchemaRoot vectorSchemaRoot = VectorSchemaRoot.of(listVector);
+        Table table = new Table(vectorSchemaRoot)) {
+      for (Row c : table) {
+        @SuppressWarnings("unchecked")
+        List<Integer> list = (List<Integer>) c.getList(0);
+        assertEquals(10, list.size());
+      }
+    }
+  }
+
+  @Test
+  void testSimpleStructVector1() {
+    try (StructVector structVector = simpleStructVector(allocator);
+        VectorSchemaRoot vectorSchemaRoot = VectorSchemaRoot.of(structVector);
+        Table table = new Table(vectorSchemaRoot)) {
+      for (Row c : table) {
+        @SuppressWarnings("unchecked")
+        JsonStringHashMap<String, ?> struct =
+            (JsonStringHashMap<String, ?>) c.getStruct(STRUCT_VECTOR_NAME);
+        @SuppressWarnings("unchecked")
+        JsonStringHashMap<String, ?> struct1 =
+            (JsonStringHashMap<String, ?>) c.getStruct(0);
+        int a = (int) struct.get("struct_int_child");
+        double b = (double) struct.get("struct_flt_child");
+        int a1 = (int) struct1.get("struct_int_child");
+        double b1 = (double) struct1.get("struct_flt_child");
+        assertNotNull(struct);
+        assertEquals(a, a1);
+        assertEquals(b, b1);
+        assertTrue(a >= 0);
+        assertTrue(b <= a, String.format("a = %s and b = %s", a, b));
+      }
+    }
+  }
+
+  @Test
+  void testSimpleUnionVector() {
+    try (UnionVector unionVector = simpleUnionVector(allocator);
+        VectorSchemaRoot vsr = VectorSchemaRoot.of(unionVector);
+        Table table = new Table(vsr)) {
+      Row c = table.immutableRow();
+      c.setPosition(0);
+      Object object0 = c.getUnion(UNION_VECTOR_NAME);
+      Object object1 = c.getUnion(0);
+      assertEquals(object0, object1);
+      c.setPosition(1);
+      assertNull(c.getUnion(UNION_VECTOR_NAME));
+      c.setPosition(2);
+      Object object2 = c.getUnion(UNION_VECTOR_NAME);
+      assertEquals(100, object0);
+      assertEquals(100, object2);
+    }
+  }
+
+  @Test
+  void testSimpleDenseUnionVector() {
+    try (DenseUnionVector unionVector = simpleDenseUnionVector(allocator);
+        VectorSchemaRoot vsr = VectorSchemaRoot.of(unionVector);
+        Table table = new Table(vsr)) {
+      Row c = table.immutableRow();
+      c.setPosition(0);
+      Object object0 = c.getDenseUnion(UNION_VECTOR_NAME);
+      Object object1 = c.getDenseUnion(0);
+      assertEquals(object0, object1);
+      c.setPosition(1);
+      assertNull(c.getDenseUnion(UNION_VECTOR_NAME));
+      c.setPosition(2);
+      Object object2 = c.getDenseUnion(UNION_VECTOR_NAME);
+      assertEquals(100, object0);
+      assertEquals(100, object2);
+    }
+  }
+
+  @Test
+  void testExtensionTypeVector() {
+    TestExtensionType.LocationVector vector = new TestExtensionType.LocationVector("location", allocator);
+    vector.allocateNew();
+    vector.set(0, 34.073814f, -118.240784f);
+    vector.setValueCount(1);
+
+    try (VectorSchemaRoot vsr = VectorSchemaRoot.of(vector);
+         Table table = new Table(vsr)) {
+      Row c = table.immutableRow();
+      c.setPosition(0);
+      Object object0 = c.getExtensionType("location");
+      Object object1 = c.getExtensionType(0);
+      assertEquals(object0, object1);
+      @SuppressWarnings("unchecked")
+     JsonStringHashMap<String, ?> struct0 =
+          (JsonStringHashMap<String, ?>) object0;
+      assertEquals(34.073814f, struct0.get("Latitude"));
+    }
+  }
+
+  @Test
+  void testSimpleMapVector1() {
+    try (MapVector mapVector = simpleMapVector(allocator);
+        Table table = Table.of(mapVector)) {
+
+      int i = 1;
+      for (Row c : table) {
+        @SuppressWarnings("unchecked")
+        List<JsonStringHashMap<String, ?>> list =
+            (List<JsonStringHashMap<String, ?>>) c.getMap(BIGINT_INT_MAP_VECTOR_NAME);
+        @SuppressWarnings("unchecked")
+        List<JsonStringHashMap<String, ?>> list1 =
+            (List<JsonStringHashMap<String, ?>>) c.getMap(0);
+        for (int j = 0; j < list1.size(); j++) {
+          assertEquals(list.get(j), list1.get(j));
+        }
+        if (list != null && !list.isEmpty()) {
+          assertEquals(i, list.size());
+          for (JsonStringHashMap<String, ?> sv : list) {
+            assertEquals(2, sv.size());
+            Long o1 = (Long) sv.get("key");
+            Integer o2 = (Integer) sv.get("value");
+            assertEquals(o1, o2.longValue());
+          }
+        }
+        i++;
+      }
+    }
+  }
+
+  @Test
+  void resetPosition() {
+    try (ListVector listVector = simpleListVector(allocator);
+        VectorSchemaRoot vectorSchemaRoot = VectorSchemaRoot.of(listVector);
+        Table table = new Table(vectorSchemaRoot)) {
+      Row row = table.immutableRow();
+      row.next();
+      assertEquals(0, row.rowNumber);
+      row.resetPosition();
+      assertEquals(-1, row.rowNumber);
+    }
+  }
+}
diff --git a/java/vector/src/test/java/org/apache/arrow/vector/table/TableTest.java b/java/vector/src/test/java/org/apache/arrow/vector/table/TableTest.java
new file mode 100644
index 00000000000..539482e510a
--- /dev/null
+++ b/java/vector/src/test/java/org/apache/arrow/vector/table/TableTest.java
@@ -0,0 +1,277 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.vector.table;
+
+import static org.apache.arrow.vector.table.TestUtils.INT_VECTOR_NAME_1;
+import static org.apache.arrow.vector.table.TestUtils.twoIntColumns;
+import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertNotNull;
+import static org.junit.jupiter.api.Assertions.assertTrue;
+
+import java.util.HashSet;
+import java.util.Iterator;
+import java.util.List;
+
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.memory.RootAllocator;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.VectorSchemaRoot;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.FieldType;
+import org.apache.arrow.vector.types.pojo.Schema;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+
+class TableTest {
+
+  private final ArrowType intArrowType = new ArrowType.Int(32, true);
+  private final FieldType intFieldType = new FieldType(true, intArrowType, null);
+
+  private BufferAllocator allocator;
+
+  @BeforeEach
+  public void init() {
+    allocator = new RootAllocator(Long.MAX_VALUE);
+  }
+
+  @Test
+  void of() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = Table.of(vectorList.toArray(new FieldVector[2]))) {
+      Row c = t.immutableRow();
+      assertEquals(2, t.getRowCount());
+      assertEquals(2, t.getVectorCount());
+      IntVector intVector1 = (IntVector) vectorList.get(0);
+      assertEquals(INT_VECTOR_NAME_1, intVector1.getName());
+      c.setPosition(0);
+
+      // Now test changes to the first vector
+      // first Table value is 1
+      assertEquals(1, c.getInt(INT_VECTOR_NAME_1));
+
+      // original vector is updated to set first value to 44
+      intVector1.setSafe(0, 44);
+      assertEquals(44, intVector1.get(0));
+
+      // first Table value is still 1 for the zeroth vector
+      assertEquals(1, c.getInt(0));
+    }
+  }
+
+  @Test
+  void constructor() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList, 2)) {
+      assertEquals(2, t.getRowCount());
+      assertEquals(2, t.getVectorCount());
+      Row c = t.immutableRow();
+      IntVector intVector1 = (IntVector) vectorList.get(0);
+      c.setPosition(0);
+
+      // Now test changes to the first vector
+      // first Table value is 1
+      assertEquals(1, c.getInt(INT_VECTOR_NAME_1));
+
+      // original vector is updated to set first value to 44
+      intVector1.setSafe(0, 44);
+      assertEquals(44, intVector1.get(0));
+      assertEquals(44, ((IntVector) vectorList.get(0)).get(0));
+
+      // first Table value is still 1 for the zeroth vector
+      assertEquals(1, c.getInt(INT_VECTOR_NAME_1));
+    }
+  }
+
+  /**
+   * Tests construction with an iterable that's not a list (there is a specialty constructor for Lists).
+   */
+  @Test
+  void constructor2() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    Iterable<FieldVector> iterable = new HashSet<>(vectorList);
+    try (Table t = new Table(iterable)) {
+      assertEquals(2, t.getRowCount());
+      assertEquals(2, t.getVectorCount());
+      Row c = t.immutableRow();
+      IntVector intVector1 = (IntVector) vectorList.get(0);
+      c.setPosition(0);
+
+      // Now test changes to the first vector
+      // first Table value is 1
+      assertEquals(1, c.getInt(INT_VECTOR_NAME_1));
+
+      // original vector is updated to set first value to 44
+      intVector1.setSafe(0, 44);
+      assertEquals(44, intVector1.get(0));
+      assertEquals(44, ((IntVector) vectorList.get(0)).get(0));
+
+      // first Table value is still 1 for the zeroth vector
+      assertEquals(1, c.getInt(INT_VECTOR_NAME_1));
+    }
+  }
+
+  @Test
+  void copy() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      assertEquals(2, t.getVectorCount());
+      try (Table copy = t.copy()) {
+        for (FieldVector v: t.fieldVectors) {
+          FieldVector vCopy = copy.getVector(v.getName());
+          assertNotNull(vCopy);
+          assertEquals(v.getValueCount(), vCopy.getValueCount());
+          for (int i = 0; i < v.getValueCount(); i++) {
+            Integer vValue = ((IntVector) v).getObject(i);
+            Integer vCopyValue = ((IntVector) vCopy).getObject(i);
+            assertEquals(vValue, vCopyValue);
+          }
+        }
+      }
+    }
+  }
+
+  @Test
+  void addVector() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      IntVector v3 = new IntVector("3", intFieldType, allocator);
+      Table t2 = t.addVector(2, v3);
+      assertEquals(3, t2.fieldVectors.size());
+      assertTrue(t2.getVector("3").isNull(0));
+      assertTrue(t2.getVector("3").isNull(1));
+      t2.close();
+    }
+  }
+
+  @Test
+  void removeVector() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    IntVector v2 = (IntVector) vectorList.get(1);
+    int val1 = v2.get(0);
+    int val2 = v2.get(1);
+    try (Table t = new Table(vectorList)) {
+
+      Table t2 = t.removeVector(0);
+      assertEquals(1, t2.fieldVectors.size());
+      assertEquals(val1, ((IntVector) t2.getVector(0)).get(0));
+      assertEquals(val2, ((IntVector) t2.getVector(0)).get(1));
+    }
+  }
+
+  /** Tests table iterator in enhanced for loop. */
+  @Test
+  void iterator1() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Iterator<Row> iterator = t.iterator();
+      assertNotNull(iterator);
+      assertTrue(iterator.hasNext());
+      int sum = 0;
+      for (Row row : t) {
+        sum += row.getInt(0);
+      }
+      assertEquals(3, sum);
+    }
+  }
+
+  /** Tests explicit iterator. */
+  @SuppressWarnings("WhileLoopReplaceableByForEach")
+  @Test
+  void iterator2() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Iterator<Row> iterator = t.iterator();
+      assertNotNull(iterator);
+      assertTrue(iterator.hasNext());
+      int sum = 0;
+      Iterator<Row> it = t.iterator();
+      while (it.hasNext()) {
+        Row row = it.next();
+        sum += row.getInt(0);
+      }
+      assertEquals(3, sum);
+    }
+  }
+
+  /**
+   * Tests a slice operation where no length is provided, so the range extends to the end of the
+   * table.
+   */
+  @Test
+  void sliceToEnd() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Table slice = t.slice(1);
+      assertEquals(1, slice.rowCount);
+      assertEquals(2, t.rowCount); // memory is copied for slice, not transferred
+      slice.close();
+    }
+  }
+
+  /** Tests a slice operation with a given length parameter. */
+  @Test
+  void sliceRange() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (Table t = new Table(vectorList)) {
+      Table slice = t.slice(1, 1);
+      assertEquals(1, slice.rowCount);
+      assertEquals(2, t.rowCount); // memory is copied for slice, not transferred
+      slice.close();
+    }
+  }
+
+  /**
+   * Tests creation of a table from a VectorSchemaRoot.
+   *
+   * <p>Also tests that updates to the source Vectors do not impact the values in the Table
+   */
+  @Test
+  void constructFromVsr() {
+    List<FieldVector> vectorList = twoIntColumns(allocator);
+    try (VectorSchemaRoot vsr = new VectorSchemaRoot(vectorList)) {
+      Table t = new Table(vsr);
+      Row c = t.immutableRow();
+      assertEquals(2, t.rowCount);
+      assertEquals(0, vsr.getRowCount()); // memory is copied for slice, not transferred
+      IntVector intVector1 = (IntVector) vectorList.get(0);
+      c.setPosition(0);
+
+      // Now test changes to the first vector
+      // first Table value is 1
+      assertEquals(1, c.getInt(INT_VECTOR_NAME_1));
+
+      // original vector is updated to set first value to 44
+      intVector1.setSafe(0, 44);
+      assertEquals(44, intVector1.get(0));
+      assertEquals(44, ((IntVector) vsr.getVector(0)).get(0));
+
+      // first Table value is still 1 for the zeroth vector
+      assertEquals(1, c.getInt(INT_VECTOR_NAME_1));
+
+      // TEST FIELDS //
+      Schema schema = t.schema;
+      Field f1 = t.getField(INT_VECTOR_NAME_1);
+      FieldVector fv1 = vectorList.get(0);
+      assertEquals(f1, fv1.getField());
+      assertEquals(f1, schema.findField(INT_VECTOR_NAME_1));
+      t.close();
+    }
+  }
+}
diff --git a/java/vector/src/test/java/org/apache/arrow/vector/table/TestUtils.java b/java/vector/src/test/java/org/apache/arrow/vector/table/TestUtils.java
new file mode 100644
index 00000000000..cb0b7b8eb6b
--- /dev/null
+++ b/java/vector/src/test/java/org/apache/arrow/vector/table/TestUtils.java
@@ -0,0 +1,437 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.arrow.vector.table;
+
+import static org.apache.arrow.vector.complex.BaseRepeatedValueVector.OFFSET_WIDTH;
+
+import java.math.BigDecimal;
+import java.util.ArrayList;
+import java.util.List;
+
+import org.apache.arrow.memory.BufferAllocator;
+import org.apache.arrow.vector.BigIntVector;
+import org.apache.arrow.vector.BitVector;
+import org.apache.arrow.vector.BitVectorHelper;
+import org.apache.arrow.vector.DateDayVector;
+import org.apache.arrow.vector.DateMilliVector;
+import org.apache.arrow.vector.DecimalVector;
+import org.apache.arrow.vector.DurationVector;
+import org.apache.arrow.vector.FieldVector;
+import org.apache.arrow.vector.FixedSizeBinaryVector;
+import org.apache.arrow.vector.Float4Vector;
+import org.apache.arrow.vector.Float8Vector;
+import org.apache.arrow.vector.GenerateSampleData;
+import org.apache.arrow.vector.IntVector;
+import org.apache.arrow.vector.IntervalDayVector;
+import org.apache.arrow.vector.IntervalMonthDayNanoVector;
+import org.apache.arrow.vector.IntervalYearVector;
+import org.apache.arrow.vector.LargeVarBinaryVector;
+import org.apache.arrow.vector.LargeVarCharVector;
+import org.apache.arrow.vector.SmallIntVector;
+import org.apache.arrow.vector.TimeMicroVector;
+import org.apache.arrow.vector.TimeMilliVector;
+import org.apache.arrow.vector.TimeNanoVector;
+import org.apache.arrow.vector.TimeSecVector;
+import org.apache.arrow.vector.TimeStampMicroTZVector;
+import org.apache.arrow.vector.TimeStampMicroVector;
+import org.apache.arrow.vector.TimeStampMilliTZVector;
+import org.apache.arrow.vector.TimeStampMilliVector;
+import org.apache.arrow.vector.TimeStampNanoTZVector;
+import org.apache.arrow.vector.TimeStampNanoVector;
+import org.apache.arrow.vector.TimeStampSecTZVector;
+import org.apache.arrow.vector.TimeStampSecVector;
+import org.apache.arrow.vector.TinyIntVector;
+import org.apache.arrow.vector.UInt1Vector;
+import org.apache.arrow.vector.UInt2Vector;
+import org.apache.arrow.vector.UInt4Vector;
+import org.apache.arrow.vector.UInt8Vector;
+import org.apache.arrow.vector.VarBinaryVector;
+import org.apache.arrow.vector.VarCharVector;
+import org.apache.arrow.vector.complex.DenseUnionVector;
+import org.apache.arrow.vector.complex.ListVector;
+import org.apache.arrow.vector.complex.MapVector;
+import org.apache.arrow.vector.complex.StructVector;
+import org.apache.arrow.vector.complex.UnionVector;
+import org.apache.arrow.vector.complex.impl.NullableStructWriter;
+import org.apache.arrow.vector.complex.impl.UnionMapWriter;
+import org.apache.arrow.vector.complex.writer.Float8Writer;
+import org.apache.arrow.vector.complex.writer.IntWriter;
+import org.apache.arrow.vector.holders.NullableUInt4Holder;
+import org.apache.arrow.vector.types.TimeUnit;
+import org.apache.arrow.vector.types.Types;
+import org.apache.arrow.vector.types.pojo.ArrowType;
+import org.apache.arrow.vector.types.pojo.Field;
+import org.apache.arrow.vector.types.pojo.FieldType;
+
+public class TestUtils {
+
+  public static final String INT_VECTOR_NAME = "intCol";
+  public static final String INT_VECTOR_NAME_1 = "intCol1";
+  public static final String VARCHAR_VECTOR_NAME_1 = "varcharCol1";
+  public static final String VARBINARY_VECTOR_NAME_1 = "varbinaryCol1";
+  public static final String FIXEDBINARY_VECTOR_NAME_1 = "varbinaryCol1";
+  public static final String INT_VECTOR_NAME_2 = "intCol2";
+  public static final String INT_LIST_VECTOR_NAME = "int list vector";
+  public static final String BIGINT_INT_MAP_VECTOR_NAME = "bigint-int map vector";
+  public static final String STRUCT_VECTOR_NAME = "struct_vector";
+  public static final String UNION_VECTOR_NAME = "union_vector";
+
+  /**
+   * Returns a list of two IntVectors to be used to instantiate Tables for testing. Each IntVector
+   * has two values set.
+   */
+  static List<FieldVector> twoIntColumns(BufferAllocator allocator) {
+    List<FieldVector> vectorList = new ArrayList<>();
+    IntVector v1 = getSimpleIntVector(allocator);
+    IntVector v2 = new IntVector(INT_VECTOR_NAME_2, allocator);
+    v2.allocateNew(2);
+    v2.set(0, 3);
+    v2.set(1, 4);
+    v2.setValueCount(2);
+    vectorList.add(v1);
+    vectorList.add(v2);
+    return vectorList;
+  }
+
+  /**
+   * Returns a list of two FieldVectors to be used to instantiate Tables for testing. The first
+   * vector is an IntVector and the second is a VarCharVector. Each vector has two values set.
+   */
+  static List<FieldVector> intPlusVarcharColumns(BufferAllocator allocator) {
+    List<FieldVector> vectorList = new ArrayList<>();
+    IntVector v1 = getSimpleIntVector(allocator);
+    VarCharVector v2 = new VarCharVector(VARCHAR_VECTOR_NAME_1, allocator);
+    v2.allocateNew(2);
+    v2.set(0, "one".getBytes());
+    v2.set(1, "two".getBytes());
+    v2.setValueCount(2);
+    vectorList.add(v1);
+    vectorList.add(v2);
+    return vectorList;
+  }
+
+  /**
+   * Returns a list of two FieldVectors to be used to instantiate Tables for testing. The first
+   * vector is an IntVector and the second is a LargeVarCharVector. Each vector has two values set.
+   */
+  static List<FieldVector> intPlusLargeVarcharColumns(BufferAllocator allocator) {
+    List<FieldVector> vectorList = new ArrayList<>();
+    IntVector v1 = getSimpleIntVector(allocator);
+    LargeVarCharVector v2 = new LargeVarCharVector(VARCHAR_VECTOR_NAME_1, allocator);
+    v2.allocateNew(2);
+    v2.set(0, "one".getBytes());
+    v2.set(1, "two".getBytes());
+    v2.setValueCount(2);
+    vectorList.add(v1);
+    vectorList.add(v2);
+    return vectorList;
+  }
+
+  /**
+   * Returns a list of two FieldVectors to be used to instantiate Tables for testing. The first
+   * vector is an IntVector and the second is a VarBinaryVector. Each vector has two values set.
+   * The large binary vectors values are "one" and "two" encoded with UTF-8
+   */
+  static List<FieldVector> intPlusVarBinaryColumns(BufferAllocator allocator) {
+    List<FieldVector> vectorList = new ArrayList<>();
+    IntVector v1 = getSimpleIntVector(allocator);
+    VarBinaryVector v2 = new VarBinaryVector(VARBINARY_VECTOR_NAME_1, allocator);
+    v2.allocateNew(2);
+    v2.set(0, "one".getBytes());
+    v2.set(1, "two".getBytes());
+    v2.setValueCount(2);
+    vectorList.add(v1);
+    vectorList.add(v2);
+    return vectorList;
+  }
+
+  /**
+   * Returns a list of two FieldVectors to be used to instantiate Tables for testing. The first
+   * vector is an IntVector and the second is a VarBinaryVector. Each vector has two values set.
+   * The large binary vectors values are "one" and "two" encoded with UTF-8
+   */
+  static List<FieldVector> intPlusLargeVarBinaryColumns(BufferAllocator allocator) {
+    List<FieldVector> vectorList = new ArrayList<>();
+    IntVector v1 = getSimpleIntVector(allocator);
+    LargeVarBinaryVector v2 = new LargeVarBinaryVector(VARBINARY_VECTOR_NAME_1, allocator);
+    v2.allocateNew(2);
+    v2.set(0, "one".getBytes());
+    v2.set(1, "two".getBytes());
+    v2.setValueCount(2);
+    vectorList.add(v1);
+    vectorList.add(v2);
+    return vectorList;
+  }
+
+  /**
+   * Returns a list of two FieldVectors to be used to instantiate Tables for testing. The first
+   * vector is an IntVector and the second is a FixedSizeBinary vector. Each vector has two values set.
+   * The large binary vectors values are "one" and "two" encoded with UTF-8
+   */
+  static List<FieldVector> intPlusFixedBinaryColumns(BufferAllocator allocator) {
+    List<FieldVector> vectorList = new ArrayList<>();
+    IntVector v1 = getSimpleIntVector(allocator);
+    FixedSizeBinaryVector v2 = new FixedSizeBinaryVector(FIXEDBINARY_VECTOR_NAME_1, allocator, 3);
+    v2.allocateNew(2);
+    v2.set(0, "one".getBytes());
+    v2.set(1, "two".getBytes());
+    v2.setValueCount(2);
+    vectorList.add(v1);
+    vectorList.add(v2);
+    return vectorList;
+  }
+
+  private static IntVector getSimpleIntVector(BufferAllocator allocator) {
+    IntVector v1 = new IntVector(INT_VECTOR_NAME_1, allocator);
+    v1.allocateNew(2);
+    v1.set(0, 1);
+    v1.set(1, 2);
+    v1.setValueCount(2);
+    return v1;
+  }
+
+  /**
+   * Returns a list of fixed-width vectors for testing. It includes
+   * <ol>
+   *   <li>all integral and floating point types</li>
+   *   <li>all basic times and timestamps (second, milli, micro, nano</li>
+   * </ol>
+   *
+   * The vector names are based on their type name (e.g. BigIntVector is called "bigInt_vector"
+   */
+  static List<FieldVector> fixedWidthVectors(BufferAllocator allocator, int rowCount) {
+    List<FieldVector> vectors = new ArrayList<>();
+    numericVectors(vectors, allocator, rowCount);
+    simpleTemporalVectors(vectors, allocator, rowCount);
+    return vectors;
+  }
+
+  /**
+   * Returns a list of all integral and floating point vectors.
+   * The vector names are based on their type name (e.g. BigIntVector is called "bigInt_vector"
+   */
+  static List<FieldVector> numericVectors(
+      List<FieldVector> vectors, BufferAllocator allocator, int rowCount) {
+    vectors.add(new IntVector("int_vector", allocator));
+    vectors.add(new BigIntVector("bigInt_vector", allocator));
+    vectors.add(new SmallIntVector("smallInt_vector", allocator));
+    vectors.add(new TinyIntVector("tinyInt_vector", allocator));
+    vectors.add(new UInt1Vector("uInt1_vector", allocator));
+    vectors.add(new UInt2Vector("uInt2_vector", allocator));
+    vectors.add(new UInt4Vector("uInt4_vector", allocator));
+    vectors.add(new UInt8Vector("uInt8_vector", allocator));
+    vectors.add(new Float4Vector("float4_vector", allocator));
+    vectors.add(new Float8Vector("float8_vector", allocator));
+    vectors.forEach(vec -> GenerateSampleData.generateTestData(vec, rowCount));
+    return vectors;
+  }
+
+  static List<FieldVector> numericVectors(BufferAllocator allocator, int rowCount) {
+    List<FieldVector> vectors = new ArrayList<>();
+    return numericVectors(vectors, allocator, rowCount);
+  }
+
+  static List<FieldVector> simpleTemporalVectors(
+      List<FieldVector> vectors, BufferAllocator allocator, int rowCount) {
+    vectors.add(new TimeSecVector("timeSec_vector", allocator));
+    vectors.add(new TimeMilliVector("timeMilli_vector", allocator));
+    vectors.add(new TimeMicroVector("timeMicro_vector", allocator));
+    vectors.add(new TimeNanoVector("timeNano_vector", allocator));
+
+    vectors.add(new TimeStampSecVector("timeStampSec_vector", allocator));
+    vectors.add(new TimeStampMilliVector("timeStampMilli_vector", allocator));
+    vectors.add(new TimeStampMicroVector("timeStampMicro_vector", allocator));
+    vectors.add(new TimeStampNanoVector("timeStampNano_vector", allocator));
+
+    vectors.add(new DateMilliVector("dateMilli_vector", allocator));
+    vectors.add(new DateDayVector("dateDay_vector", allocator));
+
+    vectors.forEach(vec -> GenerateSampleData.generateTestData(vec, rowCount));
+    return vectors;
+  }
+
+  static List<FieldVector> simpleTemporalVectors(BufferAllocator allocator, int rowCount) {
+    List<FieldVector> vectors = new ArrayList<>();
+    return simpleTemporalVectors(vectors, allocator, rowCount);
+  }
+
+  static List<FieldVector> timezoneTemporalVectors(BufferAllocator allocator, int rowCount) {
+    List<FieldVector> vectors = new ArrayList<>();
+    vectors.add(new TimeStampSecTZVector("timeStampSecTZ_vector", allocator, "UTC"));
+    vectors.add(new TimeStampMilliTZVector("timeStampMilliTZ_vector", allocator, "UTC"));
+    vectors.add(new TimeStampMicroTZVector("timeStampMicroTZ_vector", allocator, "UTC"));
+    vectors.add(new TimeStampNanoTZVector("timeStampNanoTZ_vector", allocator, "UTC"));
+    vectors.forEach(vec -> GenerateSampleData.generateTestData(vec, rowCount));
+    return vectors;
+  }
+
+  static List<FieldVector> intervalVectors(BufferAllocator allocator, int rowCount) {
+    List<FieldVector> vectors = new ArrayList<>();
+    vectors.add(new IntervalDayVector("intervalDay_vector", allocator));
+    vectors.add(new IntervalYearVector("intervalYear_vector", allocator));
+    vectors.add(new IntervalMonthDayNanoVector("intervalMonthDayNano_vector", allocator));
+    vectors.add(new DurationVector("duration_vector",
+        new FieldType(true, new ArrowType.Duration(TimeUnit.SECOND), null), allocator));
+    vectors.forEach(vec -> GenerateSampleData.generateTestData(vec, rowCount));
+    return vectors;
+  }
+
+  /** Returns a list vector of ints. */
+  static ListVector simpleListVector(BufferAllocator allocator) {
+    ListVector listVector = ListVector.empty(INT_LIST_VECTOR_NAME, allocator);
+    final int innerCount = 80; // total number of values
+    final int outerCount = 8; // total number of values in the list vector itself
+    final int listLength = innerCount / outerCount; // length of an individual list
+
+    Types.MinorType type = Types.MinorType.INT;
+    listVector.addOrGetVector(FieldType.nullable(type.getType()));
+
+    listVector.allocateNew();
+    IntVector dataVector = (IntVector) listVector.getDataVector();
+
+    for (int i = 0; i < innerCount; i++) {
+      dataVector.set(i, i);
+    }
+    dataVector.setValueCount(innerCount);
+
+    for (int i = 0; i < outerCount; i++) {
+      BitVectorHelper.setBit(listVector.getValidityBuffer(), i);
+      listVector.getOffsetBuffer().setInt(i * OFFSET_WIDTH, i * listLength);
+      listVector.getOffsetBuffer().setInt((i + 1) * OFFSET_WIDTH, (i + 1) * listLength);
+    }
+    listVector.setLastSet(outerCount - 1);
+    listVector.setValueCount(outerCount);
+    return listVector;
+  }
+
+  static StructVector simpleStructVector(BufferAllocator allocator) {
+    final String INT_COL = "struct_int_child";
+    final String FLT_COL = "struct_flt_child";
+    StructVector structVector = StructVector.empty(STRUCT_VECTOR_NAME, allocator);
+    final int size = 6; // number of structs
+
+    NullableStructWriter structWriter = structVector.getWriter();
+    structVector.addOrGet(
+        INT_COL, FieldType.nullable(Types.MinorType.INT.getType()), IntVector.class);
+    structVector.addOrGet(
+        FLT_COL, FieldType.nullable(Types.MinorType.INT.getType()), IntVector.class);
+    structVector.allocateNew();
+    IntWriter intWriter = structWriter.integer(INT_COL);
+    Float8Writer float8Writer = structWriter.float8(FLT_COL);
+
+    for (int i = 0; i < size; i++) {
+      structWriter.setPosition(i);
+      structWriter.start();
+      intWriter.writeInt(i);
+      float8Writer.writeFloat8(i * .1);
+      structWriter.end();
+    }
+
+    structWriter.setValueCount(size);
+
+    return structVector;
+  }
+
+  /** Returns a MapVector of longs to doubles. */
+  static MapVector simpleMapVector(BufferAllocator allocator) {
+    MapVector mapVector = MapVector.empty(BIGINT_INT_MAP_VECTOR_NAME, allocator, false);
+    mapVector.allocateNew();
+    int count = 5;
+    UnionMapWriter mapWriter = mapVector.getWriter();
+    for (int i = 0; i < count; i++) {
+      mapWriter.startMap();
+      for (int j = 0; j < i + 1; j++) {
+        mapWriter.startEntry();
+        mapWriter.key().bigInt().writeBigInt(j);
+        mapWriter.value().integer().writeInt(j);
+        mapWriter.endEntry();
+      }
+      mapWriter.endMap();
+    }
+    mapWriter.setValueCount(count);
+    return mapVector;
+  }
+
+  static List<FieldVector> decimalVector(BufferAllocator allocator, int rowCount) {
+    List<FieldVector> vectors = new ArrayList<>();
+    vectors.add(new DecimalVector("decimal_vector",
+        new FieldType(true, new ArrowType.Decimal(38, 10, 128), null),
+        allocator));
+    vectors.forEach(vec -> generateDecimalData((DecimalVector) vec, rowCount));
+    return vectors;
+  }
+
+  static List<FieldVector> bitVector(BufferAllocator allocator, int rowCount) {
+    List<FieldVector> vectors = new ArrayList<>();
+    vectors.add(new BitVector("bit_vector", allocator));
+    vectors.forEach(vec -> GenerateSampleData.generateTestData(vec, rowCount));
+    return vectors;
+  }
+
+  /** Returns a UnionVector. */
+  static UnionVector simpleUnionVector(BufferAllocator allocator) {
+    final NullableUInt4Holder uInt4Holder = new NullableUInt4Holder();
+    uInt4Holder.value = 100;
+    uInt4Holder.isSet = 1;
+
+    UnionVector unionVector = new UnionVector(UNION_VECTOR_NAME, allocator, null, null);
+    unionVector.allocateNew();
+
+    // write some data
+    unionVector.setType(0, Types.MinorType.UINT4);
+    unionVector.setSafe(0, uInt4Holder);
+    unionVector.setType(2, Types.MinorType.UINT4);
+    unionVector.setSafe(2, uInt4Holder);
+    unionVector.setValueCount(4);
+    return unionVector;
+  }
+
+  /** Returns a DenseUnionVector. */
+  static DenseUnionVector simpleDenseUnionVector(BufferAllocator allocator) {
+    final NullableUInt4Holder uInt4Holder = new NullableUInt4Holder();
+    uInt4Holder.value = 100;
+    uInt4Holder.isSet = 1;
+
+    DenseUnionVector unionVector = new DenseUnionVector(UNION_VECTOR_NAME, allocator, null, null);
+    unionVector.allocateNew();
+
+    // write some data
+    byte uint4TypeId =
+        unionVector.registerNewTypeId(Field.nullable("", Types.MinorType.UINT4.getType()));
+    unionVector.setTypeId(0, uint4TypeId);
+    unionVector.setSafe(0, uInt4Holder);
+    unionVector.setTypeId(2, uint4TypeId);
+    unionVector.setSafe(2, uInt4Holder);
+    unionVector.setValueCount(4);
+    return unionVector;
+  }
+
+  private static void generateDecimalData(DecimalVector vector, int valueCount) {
+    final BigDecimal even = new BigDecimal("0.0543278923");
+    final BigDecimal odd = new BigDecimal("2.0543278923");
+    for (int i = 0; i < valueCount; i++) {
+      if (i % 2 == 0) {
+        vector.setSafe(i, even);
+      } else {
+        vector.setSafe(i, odd);
+      }
+    }
+    vector.setValueCount(valueCount);
+  }
+
+}
diff --git a/java/vector/src/test/java/org/apache/arrow/vector/types/pojo/TestExtensionType.java b/java/vector/src/test/java/org/apache/arrow/vector/types/pojo/TestExtensionType.java
index 8b2743210de..1b3d5eee35f 100644
--- a/java/vector/src/test/java/org/apache/arrow/vector/types/pojo/TestExtensionType.java
+++ b/java/vector/src/test/java/org/apache/arrow/vector/types/pojo/TestExtensionType.java
@@ -380,7 +380,7 @@ public FieldVector getNewVector(String name, FieldType fieldType, BufferAllocato
     }
   }
 
-  static class LocationVector extends ExtensionTypeVector<StructVector> {
+  public static class LocationVector extends ExtensionTypeVector<StructVector> {
 
     private static StructVector buildUnderlyingVector(String name, BufferAllocator allocator) {
       final StructVector underlyingVector =
diff --git a/js/DEVELOP.md b/js/DEVELOP.md
index 06699830b93..d58f666a1e5 100644
--- a/js/DEVELOP.md
+++ b/js/DEVELOP.md
@@ -23,21 +23,21 @@ Even if you do not plan to contribute to Apache Arrow itself or Arrow
 integrations in other projects, we'd be happy to have you involved:
 
 * Join the mailing list: send an email to [dev-subscribe@arrow.apache.org][1].
-  Share your ideas and use cases for the project.
-* [Follow our activity on JIRA][3]
+  Share your ideas and use cases for the project
+* Follow our activity on [GitHub issues][3]
 * [Learn the format][2]
 * Contribute code to one of the reference implementations
 
 We prefer to receive contributions in the form of GitHub pull requests.
 Please send pull requests against the [github.com/apache/arrow][4] repository.
 
-If you are looking for some ideas on what to contribute, check out the [JIRA
+If you are looking for some ideas on what to contribute, check out the [GitHub
 issues][3] for the Apache Arrow project. Comment on the issue and/or contact
 [dev@arrow.apache.org](http://mail-archives.apache.org/mod_mbox/arrow-dev/)
 with your questions and ideas.
 
 If you’d like to report a bug but don’t have time to fix it, you can still post
-it on JIRA, or email the mailing list
+it on GitHub issues, or email the mailing list
 [dev@arrow.apache.org](http://mail-archives.apache.org/mod_mbox/arrow-dev/)
 
 # The package.json scripts
@@ -116,5 +116,5 @@ Run `yarn gulp bundle:webpack:analyze` to open [Webpack Bundle Analyzer](https:/
 
 [1]: mailto:dev-subscribe@arrow.apache.org
 [2]: https://github.com/apache/arrow/tree/master/format
-[3]: https://issues.apache.org/jira/browse/ARROW
+[3]: https://github.com/apache/arrow/issues
 [4]: https://github.com/apache/arrow
diff --git a/js/README.md b/js/README.md
index cbf40867e39..ae52535a22a 100644
--- a/js/README.md
+++ b/js/README.md
@@ -173,20 +173,21 @@ integrations in other projects, we'd be happy to have you involved:
 
 * Join the mailing list: send an email to
   [dev-subscribe@arrow.apache.org][1]. Share your ideas and use cases for the
-  project.
-* [Follow our activity on JIRA][3]
+  project
+* Follow our activity on [GitHub issues][3]
 * [Learn the format][2]
 * Contribute code to one of the reference implementations
 
-We prefer to receive contributions in the form of GitHub pull requests. Please send pull requests against the [github.com/apache/arrow][4] repository.
+We prefer to receive contributions in the form of GitHub pull requests.
+Please send pull requests against the [github.com/apache/arrow][4] repository.
 
-If you are looking for some ideas on what to contribute, check out the [JIRA
+If you are looking for some ideas on what to contribute, check out the [GitHub
 issues][3] for the Apache Arrow project. Comment on the issue and/or contact
 [dev@arrow.apache.org](https://mail-archives.apache.org/mod_mbox/arrow-dev/)
 with your questions and ideas.
 
 If you’d like to report a bug but don’t have time to fix it, you can still post
-it on JIRA, or email the mailing list
+it on GitHub issues, or email the mailing list
 [dev@arrow.apache.org](https://mail-archives.apache.org/mod_mbox/arrow-dev/)
 
 ## Packaging
@@ -250,6 +251,6 @@ Full list of broader Apache Arrow [projects & organizations](https://arrow.apach
 
 [1]: mailto:dev-subscribe@arrow.apache.org
 [2]: https://github.com/apache/arrow/tree/master/format
-[3]: https://issues.apache.org/jira/browse/ARROW
+[3]: https://github.com/apache/arrow/issues
 [4]: https://github.com/apache/arrow
 [5]: https://arrow.apache.org/docs/js/
diff --git a/js/bin/print-buffer-alignment.js b/js/bin/print-buffer-alignment.js
index 639c0af5d80..5df83eb83f0 100755
--- a/js/bin/print-buffer-alignment.js
+++ b/js/bin/print-buffer-alignment.js
@@ -22,50 +22,74 @@
 const fs = require('fs');
 const path = require('path');
 const extension = process.env.ARROW_JS_DEBUG === 'src' ? '.ts' : '.cjs';
-const { RecordBatch, AsyncMessageReader } = require(`../index${extension}`);
 const { VectorLoader } = require(`../targets/apache-arrow/visitor/vectorloader`);
+const { RecordBatch, AsyncMessageReader, makeData, Struct, Schema, Field } = require(`../index${extension}`);
 
 (async () => {
 
     const readable = process.argv.length < 3 ? process.stdin : fs.createReadStream(path.resolve(process.argv[2]));
     const reader = new AsyncMessageReader(readable);
 
-    let schema, recordBatchIndex = 0, dictionaryBatchIndex = 0;
+    let schema, metadataLength, message;
+    let byteOffset = 0;
+    let recordBatchCount = 0;
+    let dictionaryBatchCount = 0;
 
-    for await (const message of reader) {
-
-        let bufferRegions = [];
+    while (1) {
+        if ((metadataLength = (await reader.readMetadataLength())).done) { break; }
+        if (metadataLength.value === -1) {
+            if ((metadataLength = (await reader.readMetadataLength())).done) { break; }
+        }
+        if ((message = (await reader.readMetadata(metadataLength.value))).done) { break; }
 
-        if (message.isSchema()) {
-            schema = message.header();
-            continue;
-        } else if (message.isRecordBatch()) {
-            const header = message.header();
-            bufferRegions = header.buffers;
-            const body = await reader.readMessageBody(message.bodyLength);
+        if (message.value.isSchema()) {
+            console.log(
+                `Schema:`,
+                {
+                    byteOffset,
+                    metadataLength: metadataLength.value,
+                });
+            schema = message.value.header();
+            byteOffset += metadataLength.value;
+        } else if (message.value.isRecordBatch()) {
+            const header = message.value.header();
+            const bufferRegions = header.buffers;
+            const body = await reader.readMessageBody(message.value.bodyLength);
             const recordBatch = loadRecordBatch(schema, header, body);
-            console.log(`record batch ${++recordBatchIndex}: ${JSON.stringify({
-                offset: body.byteOffset,
-                length: body.byteLength,
-                numRows: recordBatch.length,
-            })}`);
-        } else if (message.isDictionaryBatch()) {
-            const header = message.header();
-            bufferRegions = header.data.buffers;
+            console.log(
+                `RecordBatch ${++recordBatchCount}:`,
+                {
+                    numRows: recordBatch.numRows,
+                    byteOffset,
+                    metadataLength: metadataLength.value,
+                    bodyByteLength: body.byteLength,
+                });
+            byteOffset += metadataLength.value;
+            bufferRegions.forEach(({ offset, length: byteLength }, i) => {
+                console.log(`\tbuffer ${i + 1}:`, { byteOffset: byteOffset + offset, byteLength });
+            });
+            byteOffset += body.byteLength;
+        } else if (message.value.isDictionaryBatch()) {
+            const header = message.value.header();
+            const bufferRegions = header.data.buffers;
             const type = schema.dictionaries.get(header.id);
-            const body = await reader.readMessageBody(message.bodyLength);
+            const body = await reader.readMessageBody(message.value.bodyLength);
             const recordBatch = loadDictionaryBatch(header.data, body, type);
-            console.log(`dictionary batch ${++dictionaryBatchIndex}: ${JSON.stringify({
-                offset: body.byteOffset,
-                length: body.byteLength,
-                numRows: recordBatch.length,
-                dictionaryId: header.id,
-            })}`);
+            console.log(
+                `DictionaryBatch ${++dictionaryBatchCount}:`,
+                {
+                    id: header.id,
+                    numRows: recordBatch.numRows,
+                    byteOffset,
+                    metadataLength: metadataLength.value,
+                    bodyByteLength: body.byteLength,
+                });
+            byteOffset += metadataLength.value;
+            bufferRegions.forEach(({ offset, length: byteLength }, i) => {
+                console.log(`\tbuffer ${i + 1}:`, { byteOffset: byteOffset + offset, byteLength });
+            });
+            byteOffset += body.byteLength;
         }
-
-        bufferRegions.forEach(({ offset, length }, i) => {
-            console.log(`\tbuffer ${i + 1}: { offset: ${offset},  length: ${length} }`);
-        });
     }
 
     await reader.return();
@@ -73,9 +97,26 @@ const { VectorLoader } = require(`../targets/apache-arrow/visitor/vectorloader`)
 })().catch((e) => { console.error(e); process.exit(1); });
 
 function loadRecordBatch(schema, header, body) {
-    return new RecordBatch(schema, header.length, new VectorLoader(body, header.nodes, header.buffers, new Map()).visitMany(schema.fields));
+    const children = new VectorLoader(body, header.nodes, header.buffers, new Map()).visitMany(schema.fields);
+    return new RecordBatch(
+        schema,
+        makeData({
+            type: new Struct(schema.fields),
+            length: header.length,
+            children: children
+        })
+    );
 }
 
 function loadDictionaryBatch(header, body, dictionaryType) {
-    return RecordBatch.new(new VectorLoader(body, header.nodes, header.buffers, new Map()).visitMany([dictionaryType]));
+    const schema = new Schema([new Field('', dictionaryType)]);
+    const children = new VectorLoader(body, header.nodes, header.buffers, new Map()).visitMany([dictionaryType]);
+    return new RecordBatch(
+        schema,
+        makeData({
+            type: new Struct(schema.fields),
+            length: header.length,
+            children: children
+        })
+    );
 }
diff --git a/js/jest.config.js b/js/jest.config.js
index d30090a00ee..8aaf60a0ff4 100644
--- a/js/jest.config.js
+++ b/js/jest.config.js
@@ -16,38 +16,46 @@
 // under the License.
 
 export default {
-  verbose: false,
-  testEnvironment: "node",
-  globals: {
-    "ts-jest": {
-      diagnostics: false,
-      tsconfig: "test/tsconfig.json",
-      useESM: true,
+    verbose: false,
+    testEnvironment: "node",
+    rootDir: ".",
+    roots: [
+        "<rootDir>/test/",
+    ],
+    extensionsToTreatAsEsm: [".ts"],
+    moduleFileExtensions: ["js", "mjs", "ts"],
+    coverageReporters: ["lcov", "json",],
+    coveragePathIgnorePatterns: [
+        "fb\\/.*\\.(js|ts)$",
+        "test\\/.*\\.(ts|js)$",
+        "/node_modules/",
+    ],
+    moduleNameMapper: {
+        "^apache-arrow$": "<rootDir>/src/Arrow.node",
+        "^apache-arrow(.*)": "<rootDir>/src$1",
+        "^(\\.{1,2}/.*)\\.js$": "$1",
     },
-  },
-  rootDir: ".",
-  roots: ["<rootDir>/test/"],
-  preset: "ts-jest/presets/default-esm",
-  moduleFileExtensions: ["mjs", "js", "ts"],
-  coverageReporters: ["lcov", "json"],
-  coveragePathIgnorePatterns: [
-    "fb\\/.*\\.(js|ts)$",
-    "test\\/.*\\.(ts|js)$",
-    "/node_modules/",
-  ],
-  transform: {
-    "^.+\\.js$": "ts-jest",
-    "^.+\\.ts$": "ts-jest",
-  },
-  transformIgnorePatterns: [
-    "/targets/(es5|es2015|esnext|apache-arrow)/",
-    "/node_modules/(?!@openpgp/web-stream-tools)/",
-  ],
-  testRegex: "(.*(-|\\.)(test|spec)s?)\\.(ts|js)$",
-  testMatch: null,
-  moduleNameMapper: {
-    "^apache-arrow$": "<rootDir>/src/Arrow.node",
-    "^apache-arrow(.*)": "<rootDir>/src$1",
-    "^(\\.{1,2}/.*)\\.js$": "$1",
-  },
+    testRegex: "(.*(-|\\.)(test|spec)s?)\\.(ts|js)$",
+    transform: {
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "test/tsconfig.json",
+                useESM: true,
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "test/tsconfig.json",
+                useESM: true,
+            },
+        ],
+    },
+    transformIgnorePatterns: [
+        "/targets/(es5|es2015|esnext|apache-arrow)/",
+        "/node_modules/(?!@openpgp/web-stream-tools)/",
+    ],
 };
diff --git a/js/jestconfigs/jest.apache-arrow.config.js b/js/jestconfigs/jest.apache-arrow.config.js
index e945d944e2b..8fc4118f502 100644
--- a/js/jestconfigs/jest.apache-arrow.config.js
+++ b/js/jestconfigs/jest.apache-arrow.config.js
@@ -20,16 +20,28 @@ import config from "../jest.config.js";
 export default {
     ...config,
     rootDir: "../",
-    preset: "ts-jest",
     moduleFileExtensions: ["js", "ts"],
-    globals: {
-        "ts-jest": {
-            diagnostics: false,
-            tsconfig: "<rootDir>/test/tsconfig/tsconfig.apache-arrow.json",
-        },
-    },
     moduleNameMapper: {
         "^apache-arrow(.*)": "<rootDir>/targets/apache-arrow$1",
         "^(\\.{1,2}/.*)\\.js$": "$1",
     },
+    transform: {
+        ...config.transform,
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.apache-arrow.json",
+                useESM: true,
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.apache-arrow.json",
+                useESM: true,
+            },
+        ],
+    },
 };
diff --git a/js/jestconfigs/jest.coverage.config.js b/js/jestconfigs/jest.coverage.config.js
index 3e7444b736a..3b53d109cdb 100644
--- a/js/jestconfigs/jest.coverage.config.js
+++ b/js/jestconfigs/jest.coverage.config.js
@@ -22,11 +22,23 @@ export default {
     rootDir: "../",
     collectCoverage: true,
     reporters: undefined,
-    globals: {
-        "ts-jest": {
-            diagnostics: false,
-            tsconfig: "<rootDir>/test/tsconfig/tsconfig.coverage.json",
-            useESM: true,
-        },
+    transform: {
+        ...config.transform,
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.coverage.json",
+                useESM: true,
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.coverage.json",
+                useESM: true,
+            },
+        ],
     },
 };
diff --git a/js/jestconfigs/jest.es2015.cjs.config.js b/js/jestconfigs/jest.es2015.cjs.config.js
index 260aa39b9ae..ec80b543665 100644
--- a/js/jestconfigs/jest.es2015.cjs.config.js
+++ b/js/jestconfigs/jest.es2015.cjs.config.js
@@ -20,16 +20,26 @@ import config from "../jest.config.js";
 export default {
     ...config,
     rootDir: "../",
-    preset: "ts-jest",
     moduleFileExtensions: ["js", "ts"],
-    globals: {
-        "ts-jest": {
-            diagnostics: false,
-            tsconfig: "<rootDir>/test/tsconfig/tsconfig.es2015.cjs.json",
-        },
-    },
     moduleNameMapper: {
         "^apache-arrow(.*)": "<rootDir>/targets/es2015/cjs$1",
         "^(\\.{1,2}/.*)\\.js$": "$1",
     },
+    transform: {
+        ...config.transform,
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.es2015.cjs.json",
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.es2015.cjs.json",
+            },
+        ],
+    },
 };
diff --git a/js/jestconfigs/jest.es2015.esm.config.js b/js/jestconfigs/jest.es2015.esm.config.js
index b5978f6a1d3..7e69123d72a 100644
--- a/js/jestconfigs/jest.es2015.esm.config.js
+++ b/js/jestconfigs/jest.es2015.esm.config.js
@@ -20,16 +20,28 @@ import config from "../jest.config.js";
 export default {
     ...config,
     rootDir: "../",
-    globals: {
-        "ts-jest": {
-            diagnostics: false,
-            tsconfig: "<rootDir>/test/tsconfig/tsconfig.es2015.esm.json",
-            useESM: true,
-        },
-    },
     moduleNameMapper: {
         "^apache-arrow(.*)": "<rootDir>/targets/es2015/esm$1",
         tslib: "tslib/tslib.es6.js",
         "^(\\.{1,2}/.*)\\.js$": "$1",
     },
+    transform: {
+        ...config.transform,
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.es2015.esm.json",
+                useESM: true,
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.es2015.esm.json",
+                useESM: true,
+            },
+        ],
+    },
 };
diff --git a/js/jestconfigs/jest.es2015.umd.config.js b/js/jestconfigs/jest.es2015.umd.config.js
index 5c67846e0ef..fb0c9c51040 100644
--- a/js/jestconfigs/jest.es2015.umd.config.js
+++ b/js/jestconfigs/jest.es2015.umd.config.js
@@ -20,16 +20,26 @@ import config from "../jest.config.js";
 export default {
     ...config,
     rootDir: "../",
-    preset: "ts-jest",
     moduleFileExtensions: ["js", "ts"],
-    globals: {
-        "ts-jest": {
-            diagnostics: false,
-            tsconfig: "<rootDir>/test/tsconfig/tsconfig.es2015.umd.json",
-        },
-    },
     moduleNameMapper: {
         "^apache-arrow": "<rootDir>/targets/es2015/umd/Arrow.js",
         "^(\\.{1,2}/.*)\\.js$": "$1",
     },
+    transform: {
+        ...config.transform,
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.es2015.umd.json",
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.es2015.umd.json",
+            },
+        ],
+    },
 };
diff --git a/js/jestconfigs/jest.es5.cjs.config.js b/js/jestconfigs/jest.es5.cjs.config.js
index 61ff88f3d9a..bfc6bce0ea9 100644
--- a/js/jestconfigs/jest.es5.cjs.config.js
+++ b/js/jestconfigs/jest.es5.cjs.config.js
@@ -20,16 +20,26 @@ import config from "../jest.config.js";
 export default {
     ...config,
     rootDir: "../",
-    preset: "ts-jest",
     moduleFileExtensions: ["js", "ts"],
-    globals: {
-        "ts-jest": {
-            diagnostics: false,
-            tsconfig: "<rootDir>/test/tsconfig/tsconfig.es5.cjs.json",
-        },
-    },
     moduleNameMapper: {
         "^apache-arrow(.*)": "<rootDir>/targets/es5/cjs$1",
         "^(\\.{1,2}/.*)\\.js$": "$1",
     },
+    transform: {
+        ...config.transform,
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.es5.cjs.json",
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.es5.cjs.json",
+            },
+        ],
+    },
 };
diff --git a/js/jestconfigs/jest.es5.esm.config.js b/js/jestconfigs/jest.es5.esm.config.js
index aaa73b21271..55aaffa3ebd 100644
--- a/js/jestconfigs/jest.es5.esm.config.js
+++ b/js/jestconfigs/jest.es5.esm.config.js
@@ -20,16 +20,28 @@ import config from "../jest.config.js";
 export default {
     ...config,
     rootDir: "../",
-    globals: {
-        "ts-jest": {
-            diagnostics: false,
-            tsconfig: "<rootDir>/test/tsconfig/tsconfig.es5.esm.json",
-            useESM: true,
-        },
-    },
     moduleNameMapper: {
         "^apache-arrow(.*)": "<rootDir>/targets/es5/esm$1",
         tslib: "tslib/tslib.es6.js",
         "^(\\.{1,2}/.*)\\.js$": "$1",
     },
+    transform: {
+        ...config.transform,
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.es5.esm.json",
+                useESM: true,
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.es5.esm.json",
+                useESM: true,
+            },
+        ],
+    },
 };
diff --git a/js/jestconfigs/jest.es5.umd.config.js b/js/jestconfigs/jest.es5.umd.config.js
index 280575eac1c..d125b0b7800 100644
--- a/js/jestconfigs/jest.es5.umd.config.js
+++ b/js/jestconfigs/jest.es5.umd.config.js
@@ -20,16 +20,26 @@ import config from "../jest.config.js";
 export default {
     ...config,
     rootDir: "../",
-    preset: "ts-jest",
     moduleFileExtensions: ["js", "ts"],
-    globals: {
-        "ts-jest": {
-            diagnostics: false,
-            tsconfig: "<rootDir>/test/tsconfig/tsconfig.es5.umd.json",
-        },
-    },
     moduleNameMapper: {
         "^apache-arrow": "<rootDir>/targets/es5/umd/Arrow.js",
         "^(\\.{1,2}/.*)\\.js$": "$1",
     },
+    transform: {
+        ...config.transform,
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.es5.umd.json",
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.es5.umd.json",
+            },
+        ],
+    },
 };
diff --git a/js/jestconfigs/jest.esnext.cjs.config.js b/js/jestconfigs/jest.esnext.cjs.config.js
index febfe6de963..8eddd96e0e7 100644
--- a/js/jestconfigs/jest.esnext.cjs.config.js
+++ b/js/jestconfigs/jest.esnext.cjs.config.js
@@ -20,16 +20,26 @@ import config from "../jest.config.js";
 export default {
     ...config,
     rootDir: "../",
-    preset: "ts-jest",
     moduleFileExtensions: ["js", "ts"],
-    globals: {
-        "ts-jest": {
-            diagnostics: false,
-            tsconfig: "<rootDir>/test/tsconfig/tsconfig.esnext.cjs.json",
-        },
-    },
     moduleNameMapper: {
         "^apache-arrow(.*)": "<rootDir>/targets/esnext/cjs$1",
         "^(\\.{1,2}/.*)\\.js$": "$1",
     },
+    transform: {
+        ...config.transform,
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.esnext.cjs.json",
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.esnext.cjs.json",
+            },
+        ],
+    },
 };
diff --git a/js/jestconfigs/jest.esnext.esm.config.js b/js/jestconfigs/jest.esnext.esm.config.js
index 6513637881b..4a344813df7 100644
--- a/js/jestconfigs/jest.esnext.esm.config.js
+++ b/js/jestconfigs/jest.esnext.esm.config.js
@@ -20,16 +20,28 @@ import config from "../jest.config.js";
 export default {
     ...config,
     rootDir: "../",
-    globals: {
-        "ts-jest": {
-            diagnostics: false,
-            tsconfig: "<rootDir>/test/tsconfig/tsconfig.esnext.esm.json",
-            useESM: true,
-        },
-    },
     moduleNameMapper: {
         "^apache-arrow(.*)": "<rootDir>/targets/esnext/esm$1",
         tslib: "tslib/tslib.es6.js",
         "^(\\.{1,2}/.*)\\.js$": "$1",
     },
+    transform: {
+        ...config.transform,
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.esnext.esm.json",
+                useESM: true,
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.esnext.esm.json",
+                useESM: true,
+            },
+        ],
+    },
 };
diff --git a/js/jestconfigs/jest.esnext.umd.config.js b/js/jestconfigs/jest.esnext.umd.config.js
index a0f4f13335d..fd520104a61 100644
--- a/js/jestconfigs/jest.esnext.umd.config.js
+++ b/js/jestconfigs/jest.esnext.umd.config.js
@@ -20,16 +20,26 @@ import config from "../jest.config.js";
 export default {
     ...config,
     rootDir: "../",
-    preset: "ts-jest",
     moduleFileExtensions: ["js", "ts"],
-    globals: {
-        "ts-jest": {
-            diagnostics: false,
-            tsconfig: "<rootDir>/test/tsconfig/tsconfig.esnext.umd.json",
-        },
-    },
     moduleNameMapper: {
         "^apache-arrow": "<rootDir>/targets/esnext/umd/Arrow.js",
         "^(\\.{1,2}/.*)\\.js$": "$1",
     },
+    transform: {
+        ...config.transform,
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.esnext.umd.json",
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.esnext.umd.json",
+            },
+        ],
+    },
 };
diff --git a/js/jestconfigs/jest.src.config.js b/js/jestconfigs/jest.src.config.js
index 18766713e38..c30155b8c6f 100644
--- a/js/jestconfigs/jest.src.config.js
+++ b/js/jestconfigs/jest.src.config.js
@@ -20,11 +20,23 @@ import config from "../jest.config.js";
 export default {
     ...config,
     rootDir: "../",
-    globals: {
-        "ts-jest": {
-            diagnostics: false,
-            tsconfig: "<rootDir>/test/tsconfig/tsconfig.src.json",
-            useESM: true,
-        },
+    transform: {
+        ...config.transform,
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.src.json",
+                useESM: true,
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.src.json",
+                useESM: true,
+            },
+        ],
     },
 };
diff --git a/js/jestconfigs/jest.ts.config.js b/js/jestconfigs/jest.ts.config.js
index 3d4eccd9ee7..08f5514f3b7 100644
--- a/js/jestconfigs/jest.ts.config.js
+++ b/js/jestconfigs/jest.ts.config.js
@@ -20,16 +20,28 @@ import config from "../jest.config.js";
 export default {
     ...config,
     rootDir: "../",
-    globals: {
-        "ts-jest": {
-            diagnostics: false,
-            tsconfig: "<rootDir>/test/tsconfig/tsconfig.ts.json",
-            useESM: true,
-        },
-    },
     moduleNameMapper: {
         "^apache-arrow$": "<rootDir>/targets/ts/Arrow.node",
         "^apache-arrow(.*)": "<rootDir>/targets/ts$1",
         "^(\\.{1,2}/.*)\\.js$": "$1",
     },
+    transform: {
+        ...config.transform,
+        "^.+\\.js$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.ts.json",
+                useESM: true,
+            },
+        ],
+        "^.+\\.ts$": [
+            "ts-jest",
+            {
+                diagnostics: false,
+                tsconfig: "<rootDir>/test/tsconfig/tsconfig.ts.json",
+                useESM: true,
+            },
+        ],
+    },
 };
diff --git a/js/package.json b/js/package.json
index 1fb8c4db610..b8a2c30eeca 100644
--- a/js/package.json
+++ b/js/package.json
@@ -54,7 +54,7 @@
   "dependencies": {
     "@types/command-line-args": "5.2.0",
     "@types/command-line-usage": "5.0.2",
-    "@types/node": "^18.6.4",
+    "@types/node": "18.7.23",
     "@types/pad-left": "2.1.1",
     "command-line-args": "5.2.1",
     "command-line-usage": "6.1.3",
@@ -64,30 +64,30 @@
     "tslib": "^2.4.0"
   },
   "devDependencies": {
-    "@openpgp/web-stream-tools": "0.0.11",
+    "@openpgp/web-stream-tools": "0.0.12",
     "@rollup/plugin-alias": "3.1.9",
-    "@rollup/plugin-node-resolve": "13.3.0",
+    "@rollup/plugin-node-resolve": "14.1.0",
     "@rollup/stream": "2.0.0",
-    "@types/benchmark": "2.1.1",
-    "@types/glob": "7.2.0",
-    "@types/jest": "28.1.6",
+    "@types/benchmark": "2.1.2",
+    "@types/glob": "8.0.0",
+    "@types/jest": "29.1.1",
     "@types/randomatic": "3.1.3",
-    "@typescript-eslint/eslint-plugin": "5.32.0",
-    "@typescript-eslint/parser": "5.32.0",
+    "@typescript-eslint/eslint-plugin": "5.38.1",
+    "@typescript-eslint/parser": "5.38.1",
     "async-done": "2.0.0",
     "benny": "3.7.1",
     "cross-env": "7.0.3",
     "del-cli": "5.0.0",
-    "esbuild": "0.14.53",
+    "esbuild": "0.15.10",
     "esbuild-plugin-alias": "0.2.1",
-    "eslint": "8.21.0",
-    "eslint-plugin-jest": "26.7.0",
+    "eslint": "8.24.0",
+    "eslint-plugin-jest": "27.0.4",
     "eslint-plugin-unicorn": "43.0.2",
     "esm": "https://github.com/jsg2021/esm/releases/download/v3.x.x-pr883/esm-3.x.x-pr883.tgz",
     "glob": "8.0.3",
-    "google-closure-compiler": "20220719.0.0",
+    "google-closure-compiler": "20220905.0.0",
     "gulp": "4.0.2",
-    "gulp-esbuild": "0.10.4",
+    "gulp-esbuild": "0.10.5",
     "gulp-json-transform": "0.4.8",
     "gulp-rename": "2.0.0",
     "gulp-replace": "1.1.3",
@@ -96,30 +96,30 @@
     "gulp-typescript": "5.0.1",
     "gulp-vinyl-size": "1.1.3",
     "ix": "5.0.0",
-    "jest": "28.1.3",
+    "jest": "29.1.2",
     "jest-silent-reporter": "0.5.0",
-    "lerna": "5.3.0",
+    "lerna": "5.5.4",
     "memfs": "3.4.7",
     "mkdirp": "1.0.4",
     "multistream": "4.1.0",
     "randomatic": "3.1.1",
-    "rollup": "2.77.2",
-    "rxjs": "7.5.6",
-    "ts-jest": "28.0.7",
+    "rollup": "2.79.1",
+    "rxjs": "7.5.7",
+    "ts-jest": "29.0.3",
     "ts-node": "10.9.1",
-    "typedoc": "0.23.10",
-    "typescript": "4.7.4",
+    "typedoc": "0.23.15",
+    "typescript": "4.8.4",
     "vinyl-buffer": "1.0.1",
     "vinyl-named": "1.1.0",
     "vinyl-source-stream": "2.0.0",
     "web-streams-polyfill": "3.2.1",
     "webpack": "5.74.0",
-    "webpack-bundle-analyzer": "4.5.0",
+    "webpack-bundle-analyzer": "4.6.1",
     "webpack-stream": "7.0.0",
     "xml2js": "0.4.23"
   },
   "engines": {
     "node": ">=12.0"
   },
-  "version": "10.0.0-SNAPSHOT"
+  "version": "11.0.0"
 }
diff --git a/js/src/bin/arrow2csv.ts b/js/src/bin/arrow2csv.ts
index 41b928fc4d7..eae7f5805c4 100644
--- a/js/src/bin/arrow2csv.ts
+++ b/js/src/bin/arrow2csv.ts
@@ -178,10 +178,10 @@ function batchesToString(state: ToStringState, schema: Schema) {
                 maxColWidths = state.maxColWidths;
                 for (const row of batch) {
                     if (state.closed) { break; } else if (!row) { continue; }
-                    if (rowId++ % 350 === 0) {
+                    if (rowId % 350 === 0) {
                         this.push(`${formatRow(header, maxColWidths, sep)}\n`);
                     }
-                    this.push(`${formatRow([rowId, ...row.toArray()].map(v => valueToString(v)), maxColWidths, sep)}\n`);
+                    this.push(`${formatRow([rowId++, ...row.toArray()].map(v => valueToString(v)), maxColWidths, sep)}\n`);
                 }
             }
             cb();
diff --git a/js/src/builder/buffer.ts b/js/src/builder/buffer.ts
index e65cdc430e8..03d4f33349a 100644
--- a/js/src/builder/buffer.ts
+++ b/js/src/builder/buffer.ts
@@ -29,7 +29,7 @@ import {
     any;
 
 /** @ignore */
-const roundLengthUpToNearest64Bytes = (len: number, BPE: number) => ((((len * BPE) + 63) & ~63) || 64) / BPE;
+const roundLengthUpToNearest64Bytes = (len: number, BPE: number) => ((((Math.ceil(len) * BPE) + 63) & ~63) || 64) / BPE;
 /** @ignore */
 const sliceOrExtendArray = <T extends TypedArray | BigIntArray>(arr: T, len = 0) => (
     arr.length >= len ? arr.subarray(0, len) : memcpy(new (arr.constructor as any)(len), arr, 0)
@@ -48,7 +48,7 @@ export class BufferBuilder<T extends TypedArray | BigIntArray = any, TValue = Da
         this.stride = stride;
         this.BYTES_PER_ELEMENT = buffer.BYTES_PER_ELEMENT;
         this.ArrayType = buffer.constructor as ArrayCtor<T>;
-        this._resize(this.length = Math.trunc(buffer.length / stride));
+        this._resize(this.length = Math.ceil(buffer.length / stride));
     }
 
     public buffer: T;
@@ -57,7 +57,9 @@ export class BufferBuilder<T extends TypedArray | BigIntArray = any, TValue = Da
     public readonly ArrayType: ArrayCtor<T>;
     public readonly BYTES_PER_ELEMENT: number;
 
-    public get byteLength() { return Math.trunc(this.length * this.stride * this.BYTES_PER_ELEMENT); }
+    public get byteLength() {
+        return Math.ceil(this.length * this.stride) * this.BYTES_PER_ELEMENT;
+    }
     public get reservedLength() { return this.buffer.length / this.stride; }
     public get reservedByteLength() { return this.buffer.byteLength; }
 
@@ -153,29 +155,3 @@ export class OffsetsBufferBuilder extends DataBufferBuilder<Int32Array> {
         return super.flush(length + 1);
     }
 }
-
-// /** @ignore */
-// export class WideBufferBuilder<T extends TypedArray, R extends BigIntArray> extends BufferBuilder<T, DataValue<T>> {
-//     public buffer64!: R;
-//     protected _ArrayType64!: BigIntArrayConstructor<R>;
-//     public get ArrayType64() {
-//         return this._ArrayType64 || (this._ArrayType64 = <BigIntArrayConstructor<R>> (this.buffer instanceof Int32Array ? BigInt64Array : BigUint64Array));
-//     }
-//     public set(index: number, value: DataValue<T>) {
-//         this.reserve(index - this.length + 1);
-//         switch (typeof value) {
-//             case 'bigint': this.buffer64[index] = value; break;
-//             case 'number': this.buffer[index * this.stride] = value; break;
-//             default: this.buffer.set(value as TypedArray, index * this.stride);
-//         }
-//         return this;
-//     }
-//     protected _resize(newLength: number) {
-//         const data = super._resize(newLength);
-//         const length = data.byteLength / (this.BYTES_PER_ELEMENT * this.stride);
-//         if (BigIntAvailable) {
-//             this.buffer64 = new this.ArrayType64(data.buffer, data.byteOffset, length);
-//         }
-//         return data;
-//     }
-// }
diff --git a/js/src/builder/list.ts b/js/src/builder/list.ts
index e0ff0df0528..0c188e625b8 100644
--- a/js/src/builder/list.ts
+++ b/js/src/builder/list.ts
@@ -39,7 +39,7 @@ export class ListBuilder<T extends DataType = any, TNull = any> extends Variable
         const offsets = this._offsets;
         const [child] = this.children;
         for (const [index, value] of pending) {
-            if (value === undefined) {
+            if (typeof value === 'undefined') {
                 offsets.set(index, 0);
             } else {
                 const n = value.length;
diff --git a/js/src/io/adapters.ts b/js/src/io/adapters.ts
index 69c63aaabae..d0c8f7a5a99 100644
--- a/js/src/io/adapters.ts
+++ b/js/src/io/adapters.ts
@@ -231,11 +231,11 @@ class AdaptiveByteReader<T extends ArrayBufferViewInput> {
         source && (source['locked'] && this.releaseLock());
     }
 
-    async read(size?: number): Promise<ReadableStreamDefaultReadValueResult<Uint8Array>> {
+    async read(size?: number): Promise<ReadableStreamReadValueResult<Uint8Array>> {
         if (size === 0) {
-            return { done: this.reader == null, value: new Uint8Array(0) } as ReadableStreamDefaultReadValueResult<Uint8Array>;
+            return { done: this.reader == null, value: new Uint8Array(0) } as ReadableStreamReadValueResult<Uint8Array>;
         }
-        const result = await this.reader!.read() as ReadableStreamDefaultReadValueResult<any>;
+        const result = await this.reader!.read() as ReadableStreamReadValueResult<any>;
         !result.done && (result.value = toUint8Array(result));
         return result;
     }
diff --git a/js/src/type.ts b/js/src/type.ts
index 4d0fbbfc609..7674705dad1 100644
--- a/js/src/type.ts
+++ b/js/src/type.ts
@@ -21,6 +21,7 @@ import { MapRow } from './row/map.js';
 import { StructRow, StructRowProxy } from './row/struct.js';
 import { Long } from 'flatbuffers';
 import { TypedArrayConstructor } from './interfaces.js';
+import { BigInt64Array, BigUint64Array } from './util/compat.js';
 
 import {
     Type,
diff --git a/js/src/util/buffer.ts b/js/src/util/buffer.ts
index 8822d794cfe..33adc4a3923 100644
--- a/js/src/util/buffer.ts
+++ b/js/src/util/buffer.ts
@@ -85,7 +85,7 @@ export function joinUint8Arrays(chunks: Uint8Array[], size?: number | null): [Ui
 /** @ignore */
 export type ArrayBufferViewInput = ArrayBufferView | ArrayBufferLike | ArrayBufferView | Iterable<number> | ArrayLike<number> | ByteBuffer | string | null | undefined |
     IteratorResult<ArrayBufferView | ArrayBufferLike | ArrayBufferView | Iterable<number> | ArrayLike<number> | ByteBuffer | string | null | undefined> |
-    ReadableStreamDefaultReadResult<ArrayBufferView | ArrayBufferLike | ArrayBufferView | Iterable<number> | ArrayLike<number> | ByteBuffer | string | null | undefined>;
+    ReadableStreamReadResult<ArrayBufferView | ArrayBufferLike | ArrayBufferView | Iterable<number> | ArrayLike<number> | ByteBuffer | string | null | undefined>;
 
 /** @ignore */
 export function toArrayBufferView<
diff --git a/js/src/util/pretty.ts b/js/src/util/pretty.ts
index de8fec3f5cb..de1b77c09a6 100644
--- a/js/src/util/pretty.ts
+++ b/js/src/util/pretty.ts
@@ -15,6 +15,8 @@
 // specific language governing permissions and limitations
 // under the License.
 
+import { BigInt64Array, BigUint64Array } from './compat.js';
+
 /** @ignore */ const undf = void (0);
 
 /** @ignore */
diff --git a/js/src/vector.ts b/js/src/vector.ts
index 362a1413899..a2baf83c95d 100644
--- a/js/src/vector.ts
+++ b/js/src/vector.ts
@@ -30,6 +30,7 @@ import {
     wrapChunkedCall2,
     wrapChunkedIndexOf,
 } from './util/chunk.js';
+import { BigInt64Array, BigUint64Array } from './util/compat.js';
 
 import { instance as getVisitor } from './visitor/get.js';
 import { instance as setVisitor } from './visitor/set.js';
@@ -255,9 +256,9 @@ export class Vector<T extends DataType = any> {
                 switch (data.length) {
                     case 0: return new ArrayType();
                     case 1: return data[0].values.subarray(0, length * stride);
-                    default: return data.reduce((memo, { values }) => {
-                        memo.array.set(values, memo.offset);
-                        memo.offset += values.length;
+                    default: return data.reduce((memo, { values, length: chunk_length }) => {
+                        memo.array.set(values.subarray(0, chunk_length * stride), memo.offset);
+                        memo.offset += chunk_length * stride;
                         return memo;
                     }, { array: new ArrayType(length * stride), offset: 0 }).array;
                 }
diff --git a/js/test/generate-test-data.ts b/js/test/generate-test-data.ts
index 8174a3d0046..a84344e1a03 100644
--- a/js/test/generate-test-data.ts
+++ b/js/test/generate-test-data.ts
@@ -638,7 +638,7 @@ function iterateBitmap(length: number, bitmap: Uint8Array, fn: (index: number, v
 
 function createBitmap(length: number, nullCount: number) {
     const nulls = Object.create(null) as { [key: number]: boolean };
-    const bytes = new Uint8Array((((length >> 3) + 7) & ~7) || 8).fill(255);
+    const bytes = new Uint8Array((Math.ceil(length / 8) + 63) & ~63).fill(255);
     for (let i, j = -1; ++j < nullCount;) {
         // eslint-disable-next-line unicorn/prefer-math-trunc
         while (nulls[i = (rand() * length) | 0]);
@@ -655,7 +655,7 @@ function createVariableWidthOffsets(length: number, nullBitmap: Uint8Array, max
             offsets[i + 1] = offsets[i];
         } else {
             do {
-                offsets[i + 1] = Math.min(max, offsets[i] + (Math.trunc(rand() * stride)));
+                offsets[i + 1] = Math.min(max, offsets[i] + Math.max(10, Math.trunc(rand() * stride)));
             } while (!allowEmpty && offsets[i + 1] === offsets[i]);
         }
     });
diff --git a/js/test/unit/builders/builder-tests.ts b/js/test/unit/builders/builder-tests.ts
index 46b2d71b970..a73183a7a5d 100644
--- a/js/test/unit/builders/builder-tests.ts
+++ b/js/test/unit/builders/builder-tests.ts
@@ -75,6 +75,7 @@ function validateBuilder(generate: (length?: number, nullCount?: number, ...args
     for (let i = -1; ++i < 1;) {
         validateBuilderWithNullValues(`no nulls`, [], generate(100, 0));
         validateBuilderWithNullValues(`with nulls`, [null], generate(100));
+        validateBuilderWithNullValues(`with nulls (length=518)`, [null], generate(518));
         if (DataType.isUtf8(type)) {
             validateBuilderWithNullValues(`with \\0`, ['\0'], generate(100));
             validateBuilderWithNullValues(`with n/a`, ['n/a'], generate(100));
diff --git a/js/test/unit/vector/vector-tests.ts b/js/test/unit/vector/vector-tests.ts
index 9ad3ca85b01..a259cbef877 100644
--- a/js/test/unit/vector/vector-tests.ts
+++ b/js/test/unit/vector/vector-tests.ts
@@ -16,7 +16,7 @@
 // under the License.
 
 import {
-    Bool, DateDay, DateMillisecond, Dictionary, Float64, Int32, List, makeVector, Struct, Utf8, util, Vector, vectorFromArray
+    Bool, DateDay, DateMillisecond, Dictionary, Float64, Int32, List, makeVector, Struct, Timestamp, TimeUnit, Utf8, util, Vector, vectorFromArray
 } from 'apache-arrow';
 
 describe(`makeVectorFromArray`, () => {
@@ -211,6 +211,34 @@ describe(`ListVector`, () => {
     });
 });
 
+describe(`toArray()`, () => {
+    test(`when some data blobs have been padded`, () => {
+        const d1 = vectorFromArray([...new Array(16).keys()]);
+        const d2 = vectorFromArray([...new Array(10).keys()]);
+
+        // Padding has been added
+        expect(d2.length).toBeLessThan(d2.data[0].buffers[1].length);
+
+        const vector = new Vector([d1, d2]);
+
+        // This used to crash with "RangeError: offset is out of bounds"
+        // https://issues.apache.org/jira/browse/ARROW-18247
+        const array = vector.toArray();
+        expect(array).toHaveLength(26);
+    });
+
+    test(`when stride is 2`, () => {
+        let d1 = vectorFromArray([0, 1, 2], new Timestamp(TimeUnit.MILLISECOND)).data[0];
+        let d2 = vectorFromArray([3, 4, 5], new Timestamp(TimeUnit.MILLISECOND)).data[0];
+
+        const vector = new Vector([d1, d2]);
+
+        let array = Array.from(vector.toArray());
+        expect(array).toHaveLength(6 * 2);
+        expect(Array.from(array)).toMatchObject([0, 0, 1, 0, 2, 0, 3, 0, 4, 0, 5, 0]);
+    });
+});
+
 // Creates some basic tests for the given vector.
 // Verifies that:
 // - `get` and the native iterator return the same data as `values`
diff --git a/js/yarn.lock b/js/yarn.lock
index 87e46f24831..8cc95e6d9a7 100644
--- a/js/yarn.lock
+++ b/js/yarn.lock
@@ -229,6 +229,13 @@
   dependencies:
     "@babel/helper-plugin-utils" "^7.8.0"
 
+"@babel/plugin-syntax-jsx@^7.7.2":
+  version "7.18.6"
+  resolved "https://registry.yarnpkg.com/@babel/plugin-syntax-jsx/-/plugin-syntax-jsx-7.18.6.tgz#a8feef63b010150abd97f1649ec296e849943ca0"
+  integrity sha512-6mmljtAedFGTWu2p/8WIORGwy+61PLgOMPOdazc7YoJ9ZCWUyFy3A6CpPkRKLKD1ToAesxX8KGEViAiLo9N+7Q==
+  dependencies:
+    "@babel/helper-plugin-utils" "^7.18.6"
+
 "@babel/plugin-syntax-logical-assignment-operators@^7.8.3":
   version "7.10.4"
   resolved "https://registry.yarnpkg.com/@babel/plugin-syntax-logical-assignment-operators/-/plugin-syntax-logical-assignment-operators-7.10.4.tgz#ca91ef46303530448b906652bac2e9fe9941f699"
@@ -331,19 +338,24 @@
   dependencies:
     "@jridgewell/trace-mapping" "0.3.9"
 
-"@esbuild/linux-loong64@0.14.53":
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/@esbuild/linux-loong64/-/linux-loong64-0.14.53.tgz#251b4cd6760fadb4d68a05815e6dc5e432d69cd6"
-  integrity sha512-W2dAL6Bnyn4xa/QRSU3ilIK4EzD5wgYXKXJiS1HDF5vU3675qc2bvFyLwbUcdmssDveyndy7FbitrCoiV/eMLg==
+"@esbuild/android-arm@0.15.10":
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/@esbuild/android-arm/-/android-arm-0.15.10.tgz#a5f9432eb221afc243c321058ef25fe899886892"
+  integrity sha512-FNONeQPy/ox+5NBkcSbYJxoXj9GWu8gVGJTVmUyoOCKQFDTrHVKgNSzChdNt0I8Aj/iKcsDf2r9BFwv+FSNUXg==
 
-"@eslint/eslintrc@^1.3.0":
-  version "1.3.0"
-  resolved "https://registry.yarnpkg.com/@eslint/eslintrc/-/eslintrc-1.3.0.tgz#29f92c30bb3e771e4a2048c95fa6855392dfac4f"
-  integrity sha512-UWW0TMTmk2d7hLcWD1/e2g5HDM/HQ3csaLSqXCfqwh4uNDuNqlaKWXmEsL4Cs41Z0KnILNvwbHAah3C2yt06kw==
+"@esbuild/linux-loong64@0.15.10":
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/@esbuild/linux-loong64/-/linux-loong64-0.15.10.tgz#78a42897c2cf8db9fd5f1811f7590393b77774c7"
+  integrity sha512-w0Ou3Z83LOYEkwaui2M8VwIp+nLi/NA60lBLMvaJ+vXVMcsARYdEzLNE7RSm4+lSg4zq4d7fAVuzk7PNQ5JFgg==
+
+"@eslint/eslintrc@^1.3.2":
+  version "1.3.2"
+  resolved "https://registry.yarnpkg.com/@eslint/eslintrc/-/eslintrc-1.3.2.tgz#58b69582f3b7271d8fa67fe5251767a5b38ea356"
+  integrity sha512-AXYd23w1S/bv3fTs3Lz0vjiYemS08jWkI3hYyS9I1ry+0f+Yjs1wm+sU0BS8qDOPrBIkp4qHYC16I8uVtpLajQ==
   dependencies:
     ajv "^6.12.4"
     debug "^4.3.2"
-    espree "^9.3.2"
+    espree "^9.4.0"
     globals "^13.15.0"
     ignore "^5.2.0"
     import-fresh "^3.2.1"
@@ -375,10 +387,10 @@
     normalize-path "^2.0.1"
     through2 "^2.0.3"
 
-"@humanwhocodes/config-array@^0.10.4":
-  version "0.10.4"
-  resolved "https://registry.yarnpkg.com/@humanwhocodes/config-array/-/config-array-0.10.4.tgz#01e7366e57d2ad104feea63e72248f22015c520c"
-  integrity sha512-mXAIHxZT3Vcpg83opl1wGlVZ9xydbfZO3r5YfRSH6Gpp2J/PfdBP0wbDa2sO6/qRbcalpoevVyW6A/fI6LfeMw==
+"@humanwhocodes/config-array@^0.10.5":
+  version "0.10.7"
+  resolved "https://registry.yarnpkg.com/@humanwhocodes/config-array/-/config-array-0.10.7.tgz#6d53769fd0c222767e6452e8ebda825c22e9f0dc"
+  integrity sha512-MDl6D6sBsaV452/QSdX+4CXIjZhIcI0PELsxUjk4U828yd58vk3bTIvk/6w5FY+4hIy9sLW0sfrV7K7Kc++j/w==
   dependencies:
     "@humanwhocodes/object-schema" "^1.2.1"
     debug "^4.1.1"
@@ -389,6 +401,11 @@
   resolved "https://registry.yarnpkg.com/@humanwhocodes/gitignore-to-minimatch/-/gitignore-to-minimatch-1.0.2.tgz#316b0a63b91c10e53f242efb4ace5c3b34e8728d"
   integrity sha512-rSqmMJDdLFUsyxR6FMtD00nfQKKLFb1kv+qBbOVKqErvloEIJLo5bDTJTQNTYgeyp78JsA7u/NPi5jT1GR/MuA==
 
+"@humanwhocodes/module-importer@^1.0.1":
+  version "1.0.1"
+  resolved "https://registry.yarnpkg.com/@humanwhocodes/module-importer/-/module-importer-1.0.1.tgz#af5b2691a22b44be847b0ca81641c5fb6ad0172c"
+  integrity sha512-bxveV4V8v5Yb4ncFTT3rPSgZBOpCkjfK0y4oVVVJwIuDVBRMDXrPyXRL988i5ap9m9bnyEEjWfm5WkBmtffLfA==
+
 "@humanwhocodes/object-schema@^1.2.1":
   version "1.2.1"
   resolved "https://registry.yarnpkg.com/@humanwhocodes/object-schema/-/object-schema-1.2.1.tgz#b520529ec21d8e5945a1851dfd1c32e94e39ff45"
@@ -420,110 +437,110 @@
   resolved "https://registry.yarnpkg.com/@istanbuljs/schema/-/schema-0.1.3.tgz#e45e384e4b8ec16bce2fd903af78450f6bf7ec98"
   integrity sha512-ZXRY4jNvVgSVQ8DL3LTcakaAtXwTVUxE81hslsyD2AtoXW/wVob10HkOJ1X/pAlcI7D+2YoZKg5do8G/w6RYgA==
 
-"@jest/console@^28.1.3":
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/@jest/console/-/console-28.1.3.tgz#2030606ec03a18c31803b8a36382762e447655df"
-  integrity sha512-QPAkP5EwKdK/bxIr6C1I4Vs0rm2nHiANzj/Z5X2JQkrZo6IqvC4ldZ9K95tF0HdidhA8Bo6egxSzUFPYKcEXLw==
+"@jest/console@^29.1.2":
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/@jest/console/-/console-29.1.2.tgz#0ae975a70004696f8320490fcaa1a4152f7b62e4"
+  integrity sha512-ujEBCcYs82BTmRxqfHMQggSlkUZP63AE5YEaTPj7eFyJOzukkTorstOUC7L6nE3w5SYadGVAnTsQ/ZjTGL0qYQ==
   dependencies:
-    "@jest/types" "^28.1.3"
+    "@jest/types" "^29.1.2"
     "@types/node" "*"
     chalk "^4.0.0"
-    jest-message-util "^28.1.3"
-    jest-util "^28.1.3"
+    jest-message-util "^29.1.2"
+    jest-util "^29.1.2"
     slash "^3.0.0"
 
-"@jest/core@^28.1.3":
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/@jest/core/-/core-28.1.3.tgz#0ebf2bd39840f1233cd5f2d1e6fc8b71bd5a1ac7"
-  integrity sha512-CIKBrlaKOzA7YG19BEqCw3SLIsEwjZkeJzf5bdooVnW4bH5cktqe3JX+G2YV1aK5vP8N9na1IGWFzYaTp6k6NA==
+"@jest/core@^29.1.2":
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/@jest/core/-/core-29.1.2.tgz#e5ce7a71e7da45156a96fb5eeed11d18b67bd112"
+  integrity sha512-sCO2Va1gikvQU2ynDN8V4+6wB7iVrD2CvT0zaRst4rglf56yLly0NQ9nuRRAWFeimRf+tCdFsb1Vk1N9LrrMPA==
   dependencies:
-    "@jest/console" "^28.1.3"
-    "@jest/reporters" "^28.1.3"
-    "@jest/test-result" "^28.1.3"
-    "@jest/transform" "^28.1.3"
-    "@jest/types" "^28.1.3"
+    "@jest/console" "^29.1.2"
+    "@jest/reporters" "^29.1.2"
+    "@jest/test-result" "^29.1.2"
+    "@jest/transform" "^29.1.2"
+    "@jest/types" "^29.1.2"
     "@types/node" "*"
     ansi-escapes "^4.2.1"
     chalk "^4.0.0"
     ci-info "^3.2.0"
     exit "^0.1.2"
     graceful-fs "^4.2.9"
-    jest-changed-files "^28.1.3"
-    jest-config "^28.1.3"
-    jest-haste-map "^28.1.3"
-    jest-message-util "^28.1.3"
-    jest-regex-util "^28.0.2"
-    jest-resolve "^28.1.3"
-    jest-resolve-dependencies "^28.1.3"
-    jest-runner "^28.1.3"
-    jest-runtime "^28.1.3"
-    jest-snapshot "^28.1.3"
-    jest-util "^28.1.3"
-    jest-validate "^28.1.3"
-    jest-watcher "^28.1.3"
+    jest-changed-files "^29.0.0"
+    jest-config "^29.1.2"
+    jest-haste-map "^29.1.2"
+    jest-message-util "^29.1.2"
+    jest-regex-util "^29.0.0"
+    jest-resolve "^29.1.2"
+    jest-resolve-dependencies "^29.1.2"
+    jest-runner "^29.1.2"
+    jest-runtime "^29.1.2"
+    jest-snapshot "^29.1.2"
+    jest-util "^29.1.2"
+    jest-validate "^29.1.2"
+    jest-watcher "^29.1.2"
     micromatch "^4.0.4"
-    pretty-format "^28.1.3"
-    rimraf "^3.0.0"
+    pretty-format "^29.1.2"
     slash "^3.0.0"
     strip-ansi "^6.0.0"
 
-"@jest/environment@^28.1.3":
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/@jest/environment/-/environment-28.1.3.tgz#abed43a6b040a4c24fdcb69eab1f97589b2d663e"
-  integrity sha512-1bf40cMFTEkKyEf585R9Iz1WayDjHoHqvts0XFYEqyKM3cFWDpeMoqKKTAF9LSYQModPUlh8FKptoM2YcMWAXA==
+"@jest/environment@^29.1.2":
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/@jest/environment/-/environment-29.1.2.tgz#bb51a43fce9f960ba9a48f0b5b556f30618ebc0a"
+  integrity sha512-rG7xZ2UeOfvOVzoLIJ0ZmvPl4tBEQ2n73CZJSlzUjPw4or1oSWC0s0Rk0ZX+pIBJ04aVr6hLWFn1DFtrnf8MhQ==
   dependencies:
-    "@jest/fake-timers" "^28.1.3"
-    "@jest/types" "^28.1.3"
+    "@jest/fake-timers" "^29.1.2"
+    "@jest/types" "^29.1.2"
     "@types/node" "*"
-    jest-mock "^28.1.3"
+    jest-mock "^29.1.2"
 
-"@jest/expect-utils@^28.1.3":
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/@jest/expect-utils/-/expect-utils-28.1.3.tgz#58561ce5db7cd253a7edddbc051fb39dda50f525"
-  integrity sha512-wvbi9LUrHJLn3NlDW6wF2hvIMtd4JUl2QNVrjq+IBSHirgfrR3o9RnVtxzdEGO2n9JyIWwHnLfby5KzqBGg2YA==
+"@jest/expect-utils@^29.1.2":
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/@jest/expect-utils/-/expect-utils-29.1.2.tgz#66dbb514d38f7d21456bc774419c9ae5cca3f88d"
+  integrity sha512-4a48bhKfGj/KAH39u0ppzNTABXQ8QPccWAFUFobWBaEMSMp+sB31Z2fK/l47c4a/Mu1po2ffmfAIPxXbVTXdtg==
   dependencies:
-    jest-get-type "^28.0.2"
+    jest-get-type "^29.0.0"
 
-"@jest/expect@^28.1.3":
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/@jest/expect/-/expect-28.1.3.tgz#9ac57e1d4491baca550f6bdbd232487177ad6a72"
-  integrity sha512-lzc8CpUbSoE4dqT0U+g1qODQjBRHPpCPXissXD4mS9+sWQdmmpeJ9zSH1rS1HEkrsMN0fb7nKrJ9giAR1d3wBw==
+"@jest/expect@^29.1.2":
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/@jest/expect/-/expect-29.1.2.tgz#334a86395f621f1ab63ad95b06a588b9114d7b7a"
+  integrity sha512-FXw/UmaZsyfRyvZw3M6POgSNqwmuOXJuzdNiMWW9LCYo0GRoRDhg+R5iq5higmRTHQY7hx32+j7WHwinRmoILQ==
   dependencies:
-    expect "^28.1.3"
-    jest-snapshot "^28.1.3"
+    expect "^29.1.2"
+    jest-snapshot "^29.1.2"
 
-"@jest/fake-timers@^28.1.3":
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/@jest/fake-timers/-/fake-timers-28.1.3.tgz#230255b3ad0a3d4978f1d06f70685baea91c640e"
-  integrity sha512-D/wOkL2POHv52h+ok5Oj/1gOG9HSywdoPtFsRCUmlCILXNn5eIWmcnd3DIiWlJnpGvQtmajqBP95Ei0EimxfLw==
+"@jest/fake-timers@^29.1.2":
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/@jest/fake-timers/-/fake-timers-29.1.2.tgz#f157cdf23b4da48ce46cb00fea28ed1b57fc271a"
+  integrity sha512-GppaEqS+QQYegedxVMpCe2xCXxxeYwQ7RsNx55zc8f+1q1qevkZGKequfTASI7ejmg9WwI+SJCrHe9X11bLL9Q==
   dependencies:
-    "@jest/types" "^28.1.3"
+    "@jest/types" "^29.1.2"
     "@sinonjs/fake-timers" "^9.1.2"
     "@types/node" "*"
-    jest-message-util "^28.1.3"
-    jest-mock "^28.1.3"
-    jest-util "^28.1.3"
+    jest-message-util "^29.1.2"
+    jest-mock "^29.1.2"
+    jest-util "^29.1.2"
 
-"@jest/globals@^28.1.3":
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/@jest/globals/-/globals-28.1.3.tgz#a601d78ddc5fdef542728309894895b4a42dc333"
-  integrity sha512-XFU4P4phyryCXu1pbcqMO0GSQcYe1IsalYCDzRNyhetyeyxMcIxa11qPNDpVNLeretItNqEmYYQn1UYz/5x1NA==
+"@jest/globals@^29.1.2":
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/@jest/globals/-/globals-29.1.2.tgz#826ede84bc280ae7f789cb72d325c48cd048b9d3"
+  integrity sha512-uMgfERpJYoQmykAd0ffyMq8wignN4SvLUG6orJQRe9WAlTRc9cdpCaE/29qurXixYJVZWUqIBXhSk8v5xN1V9g==
   dependencies:
-    "@jest/environment" "^28.1.3"
-    "@jest/expect" "^28.1.3"
-    "@jest/types" "^28.1.3"
+    "@jest/environment" "^29.1.2"
+    "@jest/expect" "^29.1.2"
+    "@jest/types" "^29.1.2"
+    jest-mock "^29.1.2"
 
-"@jest/reporters@^28.1.3":
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/@jest/reporters/-/reporters-28.1.3.tgz#9adf6d265edafc5fc4a434cfb31e2df5a67a369a"
-  integrity sha512-JuAy7wkxQZVNU/V6g9xKzCGC5LVXx9FDcABKsSXp5MiKPEE2144a/vXTEDoyzjUpZKfVwp08Wqg5A4WfTMAzjg==
+"@jest/reporters@^29.1.2":
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/@jest/reporters/-/reporters-29.1.2.tgz#5520898ed0a4ecf69d8b671e1dc8465d0acdfa6e"
+  integrity sha512-X4fiwwyxy9mnfpxL0g9DD0KcTmEIqP0jUdnc2cfa9riHy+I6Gwwp5vOZiwyg0vZxfSDxrOlK9S4+340W4d+DAA==
   dependencies:
     "@bcoe/v8-coverage" "^0.2.3"
-    "@jest/console" "^28.1.3"
-    "@jest/test-result" "^28.1.3"
-    "@jest/transform" "^28.1.3"
-    "@jest/types" "^28.1.3"
-    "@jridgewell/trace-mapping" "^0.3.13"
+    "@jest/console" "^29.1.2"
+    "@jest/test-result" "^29.1.2"
+    "@jest/transform" "^29.1.2"
+    "@jest/types" "^29.1.2"
+    "@jridgewell/trace-mapping" "^0.3.15"
     "@types/node" "*"
     chalk "^4.0.0"
     collect-v8-coverage "^1.0.0"
@@ -535,67 +552,67 @@
     istanbul-lib-report "^3.0.0"
     istanbul-lib-source-maps "^4.0.0"
     istanbul-reports "^3.1.3"
-    jest-message-util "^28.1.3"
-    jest-util "^28.1.3"
-    jest-worker "^28.1.3"
+    jest-message-util "^29.1.2"
+    jest-util "^29.1.2"
+    jest-worker "^29.1.2"
     slash "^3.0.0"
     string-length "^4.0.1"
     strip-ansi "^6.0.0"
     terminal-link "^2.0.0"
     v8-to-istanbul "^9.0.1"
 
-"@jest/schemas@^28.1.3":
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/@jest/schemas/-/schemas-28.1.3.tgz#ad8b86a66f11f33619e3d7e1dcddd7f2d40ff905"
-  integrity sha512-/l/VWsdt/aBXgjshLWOFyFt3IVdYypu5y2Wn2rOO1un6nkqIn8SLXzgIMYXFyYsRWDyF5EthmKJMIdJvk08grg==
+"@jest/schemas@^29.0.0":
+  version "29.0.0"
+  resolved "https://registry.yarnpkg.com/@jest/schemas/-/schemas-29.0.0.tgz#5f47f5994dd4ef067fb7b4188ceac45f77fe952a"
+  integrity sha512-3Ab5HgYIIAnS0HjqJHQYZS+zXc4tUmTmBH3z83ajI6afXp8X3ZtdLX+nXx+I7LNkJD7uN9LAVhgnjDgZa2z0kA==
   dependencies:
     "@sinclair/typebox" "^0.24.1"
 
-"@jest/source-map@^28.1.2":
-  version "28.1.2"
-  resolved "https://registry.yarnpkg.com/@jest/source-map/-/source-map-28.1.2.tgz#7fe832b172b497d6663cdff6c13b0a920e139e24"
-  integrity sha512-cV8Lx3BeStJb8ipPHnqVw/IM2VCMWO3crWZzYodSIkxXnRcXJipCdx1JCK0K5MsJJouZQTH73mzf4vgxRaH9ww==
+"@jest/source-map@^29.0.0":
+  version "29.0.0"
+  resolved "https://registry.yarnpkg.com/@jest/source-map/-/source-map-29.0.0.tgz#f8d1518298089f8ae624e442bbb6eb870ee7783c"
+  integrity sha512-nOr+0EM8GiHf34mq2GcJyz/gYFyLQ2INDhAylrZJ9mMWoW21mLBfZa0BUVPPMxVYrLjeiRe2Z7kWXOGnS0TFhQ==
   dependencies:
-    "@jridgewell/trace-mapping" "^0.3.13"
+    "@jridgewell/trace-mapping" "^0.3.15"
     callsites "^3.0.0"
     graceful-fs "^4.2.9"
 
-"@jest/test-result@^28.1.3":
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/@jest/test-result/-/test-result-28.1.3.tgz#5eae945fd9f4b8fcfce74d239e6f725b6bf076c5"
-  integrity sha512-kZAkxnSE+FqE8YjW8gNuoVkkC9I7S1qmenl8sGcDOLropASP+BkcGKwhXoyqQuGOGeYY0y/ixjrd/iERpEXHNg==
+"@jest/test-result@^29.1.2":
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/@jest/test-result/-/test-result-29.1.2.tgz#6a8d006eb2b31ce0287d1fc10d12b8ff8504f3c8"
+  integrity sha512-jjYYjjumCJjH9hHCoMhA8PCl1OxNeGgAoZ7yuGYILRJX9NjgzTN0pCT5qAoYR4jfOP8htIByvAlz9vfNSSBoVg==
   dependencies:
-    "@jest/console" "^28.1.3"
-    "@jest/types" "^28.1.3"
+    "@jest/console" "^29.1.2"
+    "@jest/types" "^29.1.2"
     "@types/istanbul-lib-coverage" "^2.0.0"
     collect-v8-coverage "^1.0.0"
 
-"@jest/test-sequencer@^28.1.3":
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/@jest/test-sequencer/-/test-sequencer-28.1.3.tgz#9d0c283d906ac599c74bde464bc0d7e6a82886c3"
-  integrity sha512-NIMPEqqa59MWnDi1kvXXpYbqsfQmSJsIbnd85mdVGkiDfQ9WQQTXOLsvISUfonmnBT+w85WEgneCigEEdHDFxw==
+"@jest/test-sequencer@^29.1.2":
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/@jest/test-sequencer/-/test-sequencer-29.1.2.tgz#10bfd89c08bfdba382eb05cc79c1d23a01238a93"
+  integrity sha512-fU6dsUqqm8sA+cd85BmeF7Gu9DsXVWFdGn9taxM6xN1cKdcP/ivSgXh5QucFRFz1oZxKv3/9DYYbq0ULly3P/Q==
   dependencies:
-    "@jest/test-result" "^28.1.3"
+    "@jest/test-result" "^29.1.2"
     graceful-fs "^4.2.9"
-    jest-haste-map "^28.1.3"
+    jest-haste-map "^29.1.2"
     slash "^3.0.0"
 
-"@jest/transform@^28.1.3":
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/@jest/transform/-/transform-28.1.3.tgz#59d8098e50ab07950e0f2fc0fc7ec462371281b0"
-  integrity sha512-u5dT5di+oFI6hfcLOHGTAfmUxFRrjK+vnaP0kkVow9Md/M7V/MxqQMOz/VV25UZO8pzeA9PjfTpOu6BDuwSPQA==
+"@jest/transform@^29.1.2":
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/@jest/transform/-/transform-29.1.2.tgz#20f814696e04f090421f6d505c14bbfe0157062a"
+  integrity sha512-2uaUuVHTitmkx1tHF+eBjb4p7UuzBG7SXIaA/hNIkaMP6K+gXYGxP38ZcrofzqN0HeZ7A90oqsOa97WU7WZkSw==
   dependencies:
     "@babel/core" "^7.11.6"
-    "@jest/types" "^28.1.3"
-    "@jridgewell/trace-mapping" "^0.3.13"
+    "@jest/types" "^29.1.2"
+    "@jridgewell/trace-mapping" "^0.3.15"
     babel-plugin-istanbul "^6.1.1"
     chalk "^4.0.0"
     convert-source-map "^1.4.0"
-    fast-json-stable-stringify "^2.0.0"
+    fast-json-stable-stringify "^2.1.0"
     graceful-fs "^4.2.9"
-    jest-haste-map "^28.1.3"
-    jest-regex-util "^28.0.2"
-    jest-util "^28.1.3"
+    jest-haste-map "^29.1.2"
+    jest-regex-util "^29.0.0"
+    jest-util "^29.1.2"
     micromatch "^4.0.4"
     pirates "^4.0.4"
     slash "^3.0.0"
@@ -612,12 +629,12 @@
     "@types/yargs" "^15.0.0"
     chalk "^4.0.0"
 
-"@jest/types@^28.1.3":
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/@jest/types/-/types-28.1.3.tgz#b05de80996ff12512bc5ceb1d208285a7d11748b"
-  integrity sha512-RyjiyMUZrKz/c+zlMFO1pm70DcIlST8AeWTkoUdZevew44wcNZQHsEVOiCVtgVnlFFD82FPaXycys58cf2muVQ==
+"@jest/types@^29.1.2":
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/@jest/types/-/types-29.1.2.tgz#7442d32b16bcd7592d9614173078b8c334ec730a"
+  integrity sha512-DcXGtoTykQB5jiwCmVr8H4vdg2OJhQex3qPkG+ISyDO7xQXbt/4R6dowcRyPemRnkH7JoHvZuxPBdlq+9JxFCg==
   dependencies:
-    "@jest/schemas" "^28.1.3"
+    "@jest/schemas" "^29.0.0"
     "@types/istanbul-lib-coverage" "^2.0.0"
     "@types/istanbul-reports" "^3.0.0"
     "@types/node" "*"
@@ -672,7 +689,7 @@
     "@jridgewell/resolve-uri" "^3.0.3"
     "@jridgewell/sourcemap-codec" "^1.4.10"
 
-"@jridgewell/trace-mapping@^0.3.12", "@jridgewell/trace-mapping@^0.3.13", "@jridgewell/trace-mapping@^0.3.7", "@jridgewell/trace-mapping@^0.3.9":
+"@jridgewell/trace-mapping@^0.3.12", "@jridgewell/trace-mapping@^0.3.7", "@jridgewell/trace-mapping@^0.3.9":
   version "0.3.14"
   resolved "https://registry.yarnpkg.com/@jridgewell/trace-mapping/-/trace-mapping-0.3.14.tgz#b231a081d8f66796e475ad588a1ef473112701ed"
   integrity sha512-bJWEfQ9lPTvm3SneWwRFVLzrh6nhjwqw7TUFFBEMzwvg7t7PCDenf2lDwqo4NQXzdpgBXyFgDWnQA+2vkruksQ==
@@ -680,39 +697,47 @@
     "@jridgewell/resolve-uri" "^3.0.3"
     "@jridgewell/sourcemap-codec" "^1.4.10"
 
-"@lerna/add@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/add/-/add-5.3.0.tgz#2e6cd5ff3d8bad2b0b36cdeaa300fc39fbae215e"
-  integrity sha512-MxwTO2UBxZwwuquKbBqdYa56YTqg6Lfz1MZsRQxO7F2cb2NN8NEYTcGOli/71Ee/2AoX4R4xIFTh3TnaflQ25A==
-  dependencies:
-    "@lerna/bootstrap" "5.3.0"
-    "@lerna/command" "5.3.0"
-    "@lerna/filter-options" "5.3.0"
-    "@lerna/npm-conf" "5.3.0"
-    "@lerna/validation-error" "5.3.0"
+"@jridgewell/trace-mapping@^0.3.15":
+  version "0.3.15"
+  resolved "https://registry.yarnpkg.com/@jridgewell/trace-mapping/-/trace-mapping-0.3.15.tgz#aba35c48a38d3fd84b37e66c9c0423f9744f9774"
+  integrity sha512-oWZNOULl+UbhsgB51uuZzglikfIKSUBO/M9W2OfEjn7cmqoAiCgmv9lyACTUacZwBz0ITnJ2NqjU8Tx0DHL88g==
+  dependencies:
+    "@jridgewell/resolve-uri" "^3.0.3"
+    "@jridgewell/sourcemap-codec" "^1.4.10"
+
+"@lerna/add@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/add/-/add-5.5.4.tgz#2c925ced1cb42779a440f046c37aa0151a560b87"
+  integrity sha512-eMEWdyH2ijjDuOCZ5qI7nZlWtVmOx/aABGyNmNEG1ChNDQSmxgEmmqxagQCtW7+T63e9AaHsjrxYahBWYBnuhw==
+  dependencies:
+    "@lerna/bootstrap" "5.5.4"
+    "@lerna/command" "5.5.4"
+    "@lerna/filter-options" "5.5.4"
+    "@lerna/npm-conf" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
     dedent "^0.7.0"
     npm-package-arg "8.1.1"
     p-map "^4.0.0"
     pacote "^13.6.1"
     semver "^7.3.4"
 
-"@lerna/bootstrap@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/bootstrap/-/bootstrap-5.3.0.tgz#3e0e06757ec139b4742f2bb9bc55c10fd8ddf8da"
-  integrity sha512-iHVjt6YOQKLY0j+ex13a6ZxjIQ1TSSXqbl6z1hVjBFaDyCh7pra/tgj0LohZDVCaouLwRKucceQfTGrb+cfo7A==
-  dependencies:
-    "@lerna/command" "5.3.0"
-    "@lerna/filter-options" "5.3.0"
-    "@lerna/has-npm-version" "5.3.0"
-    "@lerna/npm-install" "5.3.0"
-    "@lerna/package-graph" "5.3.0"
-    "@lerna/pulse-till-done" "5.3.0"
-    "@lerna/rimraf-dir" "5.3.0"
-    "@lerna/run-lifecycle" "5.3.0"
-    "@lerna/run-topologically" "5.3.0"
-    "@lerna/symlink-binary" "5.3.0"
-    "@lerna/symlink-dependencies" "5.3.0"
-    "@lerna/validation-error" "5.3.0"
+"@lerna/bootstrap@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/bootstrap/-/bootstrap-5.5.4.tgz#919fdccf9447ce1b6901fb30ca69860f6563c958"
+  integrity sha512-MGC6naM0DrFNYTZPEW477uqWCqXmI4MRBKjtGNMiJhczYcFdD6x30u688zoAuO5HUoyqL6Uw7Ea28GVEyDm93Q==
+  dependencies:
+    "@lerna/command" "5.5.4"
+    "@lerna/filter-options" "5.5.4"
+    "@lerna/has-npm-version" "5.5.4"
+    "@lerna/npm-install" "5.5.4"
+    "@lerna/package-graph" "5.5.4"
+    "@lerna/pulse-till-done" "5.5.4"
+    "@lerna/rimraf-dir" "5.5.4"
+    "@lerna/run-lifecycle" "5.5.4"
+    "@lerna/run-topologically" "5.5.4"
+    "@lerna/symlink-binary" "5.5.4"
+    "@lerna/symlink-dependencies" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
     "@npmcli/arborist" "5.3.0"
     dedent "^0.7.0"
     get-port "^5.1.1"
@@ -724,100 +749,100 @@
     p-waterfall "^2.1.1"
     semver "^7.3.4"
 
-"@lerna/changed@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/changed/-/changed-5.3.0.tgz#631dd147f2c86f292106fe6d891b0a2bcc5ad43b"
-  integrity sha512-i6ZfBDBZCpnPaSWTuNGTrnExkHNMC+/cSUuS9njaqe+tXgqE95Ja3cMxWZth9Q1uasjcEBHPU2jG0VKrU37rpA==
+"@lerna/changed@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/changed/-/changed-5.5.4.tgz#61742e6d92e7f0aaec6b787f6b0a6203ef444c99"
+  integrity sha512-/tns9PA5m9XCKJk13RRJotCOFR/bZ+7zfxz20zpIELT9GehZLTaEPsItxVnlqQ4dMHMe0fl6XG6dFqeBqLOW4g==
   dependencies:
-    "@lerna/collect-updates" "5.3.0"
-    "@lerna/command" "5.3.0"
-    "@lerna/listable" "5.3.0"
-    "@lerna/output" "5.3.0"
+    "@lerna/collect-updates" "5.5.4"
+    "@lerna/command" "5.5.4"
+    "@lerna/listable" "5.5.4"
+    "@lerna/output" "5.5.4"
 
-"@lerna/check-working-tree@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/check-working-tree/-/check-working-tree-5.3.0.tgz#fd10158bcb62a840e343d1a4b12a0eedbc2e0146"
-  integrity sha512-qo6jUGWXKLVL1nU8aEECqwrGRjs9o1l1hXdD2juA4Fvzsam1cFVHJwsmw3hAXGhEPD0oalg/XR62H9rZSCLOvQ==
+"@lerna/check-working-tree@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/check-working-tree/-/check-working-tree-5.5.4.tgz#f19bddb23543010a848a3f44e66fc63929f6d4c9"
+  integrity sha512-uIHlEb/JSX9P230UNH69W21fWM4oKu8ulRdXuYCBckpbJkDz9nT1yS2y4wUHx+3GfXWqGKygTh8Z06vSdYg+2A==
   dependencies:
-    "@lerna/collect-uncommitted" "5.3.0"
-    "@lerna/describe-ref" "5.3.0"
-    "@lerna/validation-error" "5.3.0"
+    "@lerna/collect-uncommitted" "5.5.4"
+    "@lerna/describe-ref" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
 
-"@lerna/child-process@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/child-process/-/child-process-5.3.0.tgz#ec27b96afbb02f4c0cd2cf09db41be5312182799"
-  integrity sha512-4uXPNIptrgQQQVHVVAXBD8F7IqSvZL3Og0G0DHiWKH+dsSyMIUtaIGJt7sifVoL7nzex4AqEiPq/AubpmG5g4Q==
+"@lerna/child-process@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/child-process/-/child-process-5.5.4.tgz#97a7d2c994895e56ef8a0c49716a0a692867b5aa"
+  integrity sha512-1QlxFASrKlV3cG7XPFolOdrS4W784zv4DgipmTxaP++VlVAwbrHhqUdIEytDV6d0rlRksf6LPYzJhXdwlBkCEQ==
   dependencies:
     chalk "^4.1.0"
     execa "^5.0.0"
     strong-log-transformer "^2.1.0"
 
-"@lerna/clean@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/clean/-/clean-5.3.0.tgz#2a98de89c365c711040acbfaa96a52e3ca88af79"
-  integrity sha512-Jn+Dr7A69dch8m1dLe7l/SDVQVQT2j7zdy2gaZVEmJIgEEaXmEbfJ2t2n06vRXtckI9B85M5mubT1U3Y7KuNuA==
-  dependencies:
-    "@lerna/command" "5.3.0"
-    "@lerna/filter-options" "5.3.0"
-    "@lerna/prompt" "5.3.0"
-    "@lerna/pulse-till-done" "5.3.0"
-    "@lerna/rimraf-dir" "5.3.0"
+"@lerna/clean@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/clean/-/clean-5.5.4.tgz#329ecf24c5c66056f0ba96fdff1d1bc2b9bed5fe"
+  integrity sha512-q1fXRm6ZXo3HrFfsgyY9C83haotPT/Xa5K8fQX6GADuNLk0Xo3+ycouHeidblRLmQtCa3WNPEmCthTuaWrSUoQ==
+  dependencies:
+    "@lerna/command" "5.5.4"
+    "@lerna/filter-options" "5.5.4"
+    "@lerna/prompt" "5.5.4"
+    "@lerna/pulse-till-done" "5.5.4"
+    "@lerna/rimraf-dir" "5.5.4"
     p-map "^4.0.0"
     p-map-series "^2.1.0"
     p-waterfall "^2.1.1"
 
-"@lerna/cli@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/cli/-/cli-5.3.0.tgz#b42808b747a6b3136028e5cdc775f72805112b95"
-  integrity sha512-P7F3Xs98pXMEGZX+mnFfsd6gU03x8UrwQ3mElvQBICl4Ew9z6rS8NGUd3JOPFzm4/vSTjYTnPyPdWBjj6/f6sw==
+"@lerna/cli@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/cli/-/cli-5.5.4.tgz#f1c31d59d9be2aaafab6b856c7858a3da98d7b82"
+  integrity sha512-4uJEFEN0QNnQgghbpdY5wLmBPOeUeBeCKGh9s2pc1fkn0I1wKDhG0QByOfcf+jGuid2bA7DXzvJRXRgq0fWw0A==
   dependencies:
-    "@lerna/global-options" "5.3.0"
+    "@lerna/global-options" "5.5.4"
     dedent "^0.7.0"
     npmlog "^6.0.2"
     yargs "^16.2.0"
 
-"@lerna/collect-uncommitted@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/collect-uncommitted/-/collect-uncommitted-5.3.0.tgz#fa031bff12ca8c7c78f8fb4584bd6289ccbba40e"
-  integrity sha512-Ll/mU9Nes0NQoa0pSv2TR2PTCkIomBGuDWH48OF2sKKu69NuLjrD2L0udS5nJYig9HxFewtm4QTiUdYPxfJXkQ==
+"@lerna/collect-uncommitted@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/collect-uncommitted/-/collect-uncommitted-5.5.4.tgz#cdfb5f0c1651742f72147189e38822b815e45892"
+  integrity sha512-xLCsp8Qx5z/BWCxqUt8W8Se2XJcCQE6YUAti9TSWD5Ar+M5Etkgz2YJiUjZfZrsWZPBCqNfGfxx9Sjs7a/r+8A==
   dependencies:
-    "@lerna/child-process" "5.3.0"
+    "@lerna/child-process" "5.5.4"
     chalk "^4.1.0"
     npmlog "^6.0.2"
 
-"@lerna/collect-updates@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/collect-updates/-/collect-updates-5.3.0.tgz#21ec4fa7f7e836937ebc9ec7ab4d2053ad9f7bd7"
-  integrity sha512-fzJo/rmdXKWKYt+9IXjtenIZtSr3blMH8GEqoVKpSZ7TJGpxcFNmMe6foa60BgaTnDmmg1y7Qu6JbQJ3Ra5c5w==
+"@lerna/collect-updates@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/collect-updates/-/collect-updates-5.5.4.tgz#424fbcb4a717eb2ed7c6a2015857d85d7e2e131f"
+  integrity sha512-m34bVoMO5QOd5K5uyAtQtkTiXBIEJHydXMwNXs+YTIAgy82JXNHfZE9vV63Fd5ZWOGY6ORthuXuC2Jn0Vx9tQA==
   dependencies:
-    "@lerna/child-process" "5.3.0"
-    "@lerna/describe-ref" "5.3.0"
+    "@lerna/child-process" "5.5.4"
+    "@lerna/describe-ref" "5.5.4"
     minimatch "^3.0.4"
     npmlog "^6.0.2"
     slash "^3.0.0"
 
-"@lerna/command@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/command/-/command-5.3.0.tgz#0ef7a09ca5b03ff08f164500df560959893c6775"
-  integrity sha512-UNQQ4EGTumqLhOuDPcRA4LpdS9pcTYKSdh/8MdKPeyIRN70vCTwdeTrxqaaKsn3Jo7ycvyUQT5yfrUFmCClfoA==
-  dependencies:
-    "@lerna/child-process" "5.3.0"
-    "@lerna/package-graph" "5.3.0"
-    "@lerna/project" "5.3.0"
-    "@lerna/validation-error" "5.3.0"
-    "@lerna/write-log-file" "5.3.0"
+"@lerna/command@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/command/-/command-5.5.4.tgz#f06f6dad4b5eed05fb4b98165d054af21be79715"
+  integrity sha512-/7drNy2DjVjDjm2knsDfEQIFEdRgPE2/lQ3yfEjVbXqs319o6KWbQVeoNy5GjGnLvc3v3eObA0cSJXHzEV11Bg==
+  dependencies:
+    "@lerna/child-process" "5.5.4"
+    "@lerna/package-graph" "5.5.4"
+    "@lerna/project" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
+    "@lerna/write-log-file" "5.5.4"
     clone-deep "^4.0.1"
     dedent "^0.7.0"
     execa "^5.0.0"
     is-ci "^2.0.0"
     npmlog "^6.0.2"
 
-"@lerna/conventional-commits@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/conventional-commits/-/conventional-commits-5.3.0.tgz#64d2035648186146d6c331fd6dcbf146813b3600"
-  integrity sha512-9uoQ2E1J7pL0fml5PNO7FydnBNeqrNOQa53Ca1Klf5t/x4vIn51ocOZNm/YbRAc/affnrxxp+gR2/SWlN0yKqQ==
+"@lerna/conventional-commits@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/conventional-commits/-/conventional-commits-5.5.4.tgz#d4fbc9240ec95bc73395b87b2e778cb95ac57b36"
+  integrity sha512-zLcaveLXnIDYo3e9ChKsHSxiG7vOJeKdcoC5Fj8WH4DjAq/aqy15TE5SJr6aO8hOU/ph0EonPwyQBf4X2Lg5fg==
   dependencies:
-    "@lerna/validation-error" "5.3.0"
+    "@lerna/validation-error" "5.5.4"
     conventional-changelog-angular "^5.0.12"
     conventional-changelog-core "^4.2.4"
     conventional-recommended-bump "^6.1.0"
@@ -828,24 +853,24 @@
     pify "^5.0.0"
     semver "^7.3.4"
 
-"@lerna/create-symlink@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/create-symlink/-/create-symlink-5.3.0.tgz#8398ca1c099606510505ad65601b15bc4c6f0000"
-  integrity sha512-xIoC9m4J/u4NV/8ms4P2fiimaYgialqJvNamvMDRmgE1c3BLDSGk2nE4nVI2W5LxjgJdMTiIH9v1QpTUC9Fv+Q==
+"@lerna/create-symlink@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/create-symlink/-/create-symlink-5.5.4.tgz#91314744a715ad0ef4d330d0b4cf30cadd052025"
+  integrity sha512-TOfkeEQGhE90mvtky0Vpfl+6hwBz0tSXV0+gjRBmla/sYU/9+QoSH36TauHrmu/O3C8/CWtoGruxiWq8jP6Gyw==
   dependencies:
     cmd-shim "^5.0.0"
     fs-extra "^9.1.0"
     npmlog "^6.0.2"
 
-"@lerna/create@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/create/-/create-5.3.0.tgz#af0bd2f1da91976a91b5b8ce621b921ea3d155d0"
-  integrity sha512-DotTReCc3+Q9rpMA8RKAGemUK7JXT7skbxHvpqpPj7ryNkIv/dNAFC2EHglcpt9Rmyo6YbSP2zk0gfDbdiIcVA==
+"@lerna/create@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/create/-/create-5.5.4.tgz#defb6bc3ab263bf8acbbfc34407a4de23cd2594f"
+  integrity sha512-mmZKy5U4OKBr/r8Tm6C8gubYHubQaHdPJ+aYuA/l4uCfK0p/Jly84Fy7M3kclcqm8FKDPKDhlp0Y2jnc32jBbA==
   dependencies:
-    "@lerna/child-process" "5.3.0"
-    "@lerna/command" "5.3.0"
-    "@lerna/npm-conf" "5.3.0"
-    "@lerna/validation-error" "5.3.0"
+    "@lerna/child-process" "5.5.4"
+    "@lerna/command" "5.5.4"
+    "@lerna/npm-conf" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
     dedent "^0.7.0"
     fs-extra "^9.1.0"
     globby "^11.0.2"
@@ -858,221 +883,220 @@
     slash "^3.0.0"
     validate-npm-package-license "^3.0.4"
     validate-npm-package-name "^4.0.0"
-    whatwg-url "^8.4.0"
     yargs-parser "20.2.4"
 
-"@lerna/describe-ref@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/describe-ref/-/describe-ref-5.3.0.tgz#5edd1d5ce314e6b51b8e2902f40dd0a7132c9daa"
-  integrity sha512-R+CtJcOuAF3kJ6GNQnGC3STEi+5OtpNVz2n17sAs/xqJnq79tPdzEhT+pMxB2eSEkQYlSr+cCKMpF0m/mtIPQA==
+"@lerna/describe-ref@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/describe-ref/-/describe-ref-5.5.4.tgz#8b5dc90b5570e6646ca813fe4006e06408acfb05"
+  integrity sha512-2LDEsuSbZTta7SuwKVo9ofeKvxqy4YFNOjEt7+JceZIfh4si3MjIPBX7l8AsCaUmwJnpOEYba0aau72AUAOtoA==
   dependencies:
-    "@lerna/child-process" "5.3.0"
+    "@lerna/child-process" "5.5.4"
     npmlog "^6.0.2"
 
-"@lerna/diff@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/diff/-/diff-5.3.0.tgz#51204c112d6154becd6ffcf9320ee415a95c58bd"
-  integrity sha512-i6f99dtO90u1QIJEfVtKE831m4gnMHBwY+4D84GY2SJMno8uI7ZyxMRZQh1nAFtvlNozO2MgzLr1OHtNMZOIgQ==
+"@lerna/diff@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/diff/-/diff-5.5.4.tgz#21344bd0fb5d2578b7873b16959ceee6eee4e512"
+  integrity sha512-OTieqJA4zKAV0KeG0nXwPnCkwg3LH+ucXlelnj1w+gaP2ndHbJVwgUWXGpqCHk8tn935KKOULhP7BGmAwvTYlQ==
   dependencies:
-    "@lerna/child-process" "5.3.0"
-    "@lerna/command" "5.3.0"
-    "@lerna/validation-error" "5.3.0"
+    "@lerna/child-process" "5.5.4"
+    "@lerna/command" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
     npmlog "^6.0.2"
 
-"@lerna/exec@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/exec/-/exec-5.3.0.tgz#c680261e484c9b3072e3c56368523d3a8cab32f5"
-  integrity sha512-kI/IuF1hbT+pEMZc3v4+w8BLckUIi45ipzOP0bWvXNgSKKuADAU3HLv+ifRXEjob5906C+Zc7K2IVoVS6r1TDg==
-  dependencies:
-    "@lerna/child-process" "5.3.0"
-    "@lerna/command" "5.3.0"
-    "@lerna/filter-options" "5.3.0"
-    "@lerna/profiler" "5.3.0"
-    "@lerna/run-topologically" "5.3.0"
-    "@lerna/validation-error" "5.3.0"
+"@lerna/exec@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/exec/-/exec-5.5.4.tgz#7ff09f9c786bf66ade7bf4823f60a4feab3b267c"
+  integrity sha512-o1SQ+6/U6L8hih6+wAgjyOhqo2CKzMcW6YWLs5erRY9E6VCEc2kX7SW3223ehsAhUIPfG7n+KYPmuZbWvTpbGQ==
+  dependencies:
+    "@lerna/child-process" "5.5.4"
+    "@lerna/command" "5.5.4"
+    "@lerna/filter-options" "5.5.4"
+    "@lerna/profiler" "5.5.4"
+    "@lerna/run-topologically" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
     p-map "^4.0.0"
 
-"@lerna/filter-options@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/filter-options/-/filter-options-5.3.0.tgz#08ba418787db5ee809aecebfa4e7a4461a6a5bbb"
-  integrity sha512-ddgy0oDisTKIhCJ4WY5CeEhTsyrbW+zeBvZ7rVaG0oQXjSSYBried4TXRvgy67fampfHoPX+eQq5l1SYTRFPlw==
+"@lerna/filter-options@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/filter-options/-/filter-options-5.5.4.tgz#c25ee6abb2eb2610d1da390911eafbfddecedf68"
+  integrity sha512-t1amUypgloaKN8d3VN7GiJQd4ommDplxSisAMS8hztb6ail3EbxasRQ03GXz4+6yQ98sam+D03soqSWAJcinrw==
   dependencies:
-    "@lerna/collect-updates" "5.3.0"
-    "@lerna/filter-packages" "5.3.0"
+    "@lerna/collect-updates" "5.5.4"
+    "@lerna/filter-packages" "5.5.4"
     dedent "^0.7.0"
     npmlog "^6.0.2"
 
-"@lerna/filter-packages@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/filter-packages/-/filter-packages-5.3.0.tgz#3a5c73e01233921c50018d02809a9da9d82186db"
-  integrity sha512-5/2V50sQB2+JNwuCHP/UPm3y8PN2JWVY9CbNLtF3K5bymNsCkQh2KHEL9wlWZ4yfr/2ufpy4XFPaFUHNoUOGnQ==
+"@lerna/filter-packages@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/filter-packages/-/filter-packages-5.5.4.tgz#7f07fe9afb4eacc43fec67c82c9e4acb33b393a7"
+  integrity sha512-mwpiF+L0np003AUp3ntKEFkNOXWBONwm9q8rW9TOR8OeqMXbxYWGLg2IR+Wc8EClmen79tahn076nUD85OLqew==
   dependencies:
-    "@lerna/validation-error" "5.3.0"
+    "@lerna/validation-error" "5.5.4"
     multimatch "^5.0.0"
     npmlog "^6.0.2"
 
-"@lerna/get-npm-exec-opts@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/get-npm-exec-opts/-/get-npm-exec-opts-5.3.0.tgz#60d4fb6d1786b051d532a2c9dc91fcac722edcfb"
-  integrity sha512-cYBypDo8C7f4MvVvap2nYgtk8MXAADrYU1VdECSJ3Stbe4p2vBGt8bM9xkS2uPfQFMK3YSy3YPkSZcSjVXyoGw==
+"@lerna/get-npm-exec-opts@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/get-npm-exec-opts/-/get-npm-exec-opts-5.5.4.tgz#8c1b19a364071350a305f9da50a6b851ced1fc6f"
+  integrity sha512-PLvSdt0woeOz3TZDHRshYVR9TSOUNunxZ4mE8f0tg9FPQ5R1uuwd2BF4HmEL7AlWFtFS+sOwuL9bI1btV1ELew==
   dependencies:
     npmlog "^6.0.2"
 
-"@lerna/get-packed@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/get-packed/-/get-packed-5.3.0.tgz#e1798e1be914f5f2b5671eba4c6a7c57e983fe46"
-  integrity sha512-kD12w7Ko5TThuOuPF2HBLyuPsHK3oyyWyzleGBqR4DqxMtbMRgimyTQnr5o58XBOwUPCFsv1EZiqeGk+3HTGEA==
+"@lerna/get-packed@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/get-packed/-/get-packed-5.5.4.tgz#2aa2772a6c90bdb1335b79d6c9058fca73a74505"
+  integrity sha512-BXQcQ5rfdIa8hkDd4UdETWs9mDiFvmBRpSNxpgaRiuL1w7AXEaMREQgKOFiv8fv/e+z/F0SXD048Fptj8d5pjA==
   dependencies:
     fs-extra "^9.1.0"
     ssri "^9.0.1"
     tar "^6.1.0"
 
-"@lerna/github-client@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/github-client/-/github-client-5.3.0.tgz#45b97c0daa80ea03d8cacac841ea9474c57c2b71"
-  integrity sha512-UqAclsWDMthmbv3Z8QE1K7D/4e93ytg31mc+nEj+UdU+xJQ0L1ypl8zWAmGNs1sFkQntIiTIB4W5zgHet5mmZw==
+"@lerna/github-client@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/github-client/-/github-client-5.5.4.tgz#9ff47636e57514fb8d44678ad64664c932868d79"
+  integrity sha512-m5vTRsHyfzh16T3fX3ipdjZyQwl4Gnwav4RmEaVUFp2uMqsr0TrML7LJ/eqOqjGvj/+JWa52rIQsUCQe9BJYag==
   dependencies:
-    "@lerna/child-process" "5.3.0"
+    "@lerna/child-process" "5.5.4"
     "@octokit/plugin-enterprise-rest" "^6.0.1"
     "@octokit/rest" "^19.0.3"
-    git-url-parse "^12.0.0"
+    git-url-parse "^13.1.0"
     npmlog "^6.0.2"
 
-"@lerna/gitlab-client@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/gitlab-client/-/gitlab-client-5.3.0.tgz#d24935717cd6fc2921f7fe73eac3dd70819bc4ce"
-  integrity sha512-otwbiaGDgvn5MGF1ypsCO48inMpdcxuiDlbxrKD6glPUwNHiGV+PU8LLCCDKimwjjQhl88ySLpL1oTm4jnZ1Aw==
+"@lerna/gitlab-client@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/gitlab-client/-/gitlab-client-5.5.4.tgz#e18a479e8f2f3ce0ecfa1e0d4f0a16d646809bba"
+  integrity sha512-vPSr6xFxtOigFY/fE8oYF+360WsV+g2ZkoJB34FA6UucjWBBPu2W13ydUYfqvJYODJYFzhTjB9b8zf0MJ0KMrQ==
   dependencies:
     node-fetch "^2.6.1"
     npmlog "^6.0.2"
-    whatwg-url "^8.4.0"
 
-"@lerna/global-options@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/global-options/-/global-options-5.3.0.tgz#d244c6ad7d117433370818e1bbfd60cbafffd243"
-  integrity sha512-iEoFrDSU+KtfcB+lHW5grjg3VkEqzZNTUnWnE1FCBBwj9tSLOHjgKGtWWjIQtBUJ+qcLBbusap9Stqzr7UPYpQ==
+"@lerna/global-options@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/global-options/-/global-options-5.5.4.tgz#ed2daee879205255b4667921d6c91a4e2c04dda8"
+  integrity sha512-J2K4CsnYuKrW7bDR2gRABUFFrLaJ5z4GaaDpaKtQi6sHFKcVBfYz0B51Fe3NGFOvrct4YS9N7SgKDxPd5Nznig==
 
-"@lerna/has-npm-version@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/has-npm-version/-/has-npm-version-5.3.0.tgz#0834cc58f1e7b9515227d79f8ebaa5af52b71bcf"
-  integrity sha512-A/bK8e+QP/VMqZkq1wZbyOzMz/AY92tAVsBOQ5Yw2zqshdMVj99st3YHLOqJf/HTEzQo27GGI/ajmcltHS2l6A==
+"@lerna/has-npm-version@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/has-npm-version/-/has-npm-version-5.5.4.tgz#32655bdf0d7deeb7de78ebc4e978ecc02b18bf91"
+  integrity sha512-l+nDc/QYvfA5f0tFxzd9mZ/SP0nfxbqpZ9csGyqU8NV/40fHRRouO+fcLtxjcG/mruMjiAB/P216BBbRmGb2VA==
   dependencies:
-    "@lerna/child-process" "5.3.0"
+    "@lerna/child-process" "5.5.4"
     semver "^7.3.4"
 
-"@lerna/import@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/import/-/import-5.3.0.tgz#9f020c3a8f486afc3ef839e6a59079411178e98c"
-  integrity sha512-KjVT9oFNSp1JLdrS1LSXjDcLiu2TMSfy6tpmhF9Zxo7oKB21SgWmXVV9rcWDueW2RIxNXDeVUG0NVNj2BRGeEQ==
-  dependencies:
-    "@lerna/child-process" "5.3.0"
-    "@lerna/command" "5.3.0"
-    "@lerna/prompt" "5.3.0"
-    "@lerna/pulse-till-done" "5.3.0"
-    "@lerna/validation-error" "5.3.0"
+"@lerna/import@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/import/-/import-5.5.4.tgz#b0e07b54c13c786eac4a7639cc0db80ff1f952c6"
+  integrity sha512-1edy4e+0w4/awahc3uPvRQngIHbri5BGZZbjvsX8aKlPUd9pFg5U9/5w3lVE5jnZFRnqwhpJyyvJjL2M5F6IgQ==
+  dependencies:
+    "@lerna/child-process" "5.5.4"
+    "@lerna/command" "5.5.4"
+    "@lerna/prompt" "5.5.4"
+    "@lerna/pulse-till-done" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
     dedent "^0.7.0"
     fs-extra "^9.1.0"
     p-map-series "^2.1.0"
 
-"@lerna/info@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/info/-/info-5.3.0.tgz#7e3fe690df5bf6b6f01414561b3b31cb01528ece"
-  integrity sha512-pyeZSM/PIpBHCXdHPrbh6sPZlngXUxhTVFb0VaIjQ5Ms585xi15s1UQDO3FvzqdyMyalx0QGzCJbNx5XeoCejg==
+"@lerna/info@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/info/-/info-5.5.4.tgz#c0bb38a5d97f60019278a49ee324a3be804b9baa"
+  integrity sha512-JgYRP2WZUCuiYyf3CQjqEMGoqWpM7t/bammKW/sC3P0/xGSykh45vdRwVojcu4fGRZ/YS7sfFt28Dbw4QFp0iQ==
   dependencies:
-    "@lerna/command" "5.3.0"
-    "@lerna/output" "5.3.0"
+    "@lerna/command" "5.5.4"
+    "@lerna/output" "5.5.4"
     envinfo "^7.7.4"
 
-"@lerna/init@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/init/-/init-5.3.0.tgz#e1953858db749a48f7b7ebb66bf334b69db89888"
-  integrity sha512-y46lzEtgMdEseTJGQQqYZOjqqd7iN+e14vFh/9q5h62V4Y8nlUJRzovVo8JSeaGwKLB0B3dq3BuUn0PNywMhpA==
+"@lerna/init@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/init/-/init-5.5.4.tgz#78142ec262e5d54c0ced716239c39acd2c2cf821"
+  integrity sha512-BteH3O8ywUN8eBhwzOey3gTXxxKRxGz1JJ6tP1mA0KZoJgiBsSFoZbx7SJeGrR8gY7kmEyvXTY1geaxmb7V+vQ==
   dependencies:
-    "@lerna/child-process" "5.3.0"
-    "@lerna/command" "5.3.0"
-    "@lerna/project" "5.3.0"
+    "@lerna/child-process" "5.5.4"
+    "@lerna/command" "5.5.4"
+    "@lerna/project" "5.5.4"
     fs-extra "^9.1.0"
     p-map "^4.0.0"
     write-json-file "^4.3.0"
 
-"@lerna/link@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/link/-/link-5.3.0.tgz#3ff49118d91c0322c47e0eb7c3fc25fc16407212"
-  integrity sha512-+QBwnGg3S8Zk8M8G5CA4kmGq92rkEMbmWJXaxie3jQayp+GXgSlLs6R4jwSOZlztY6xR3WawMI9sHJ0Vdu+g7w==
+"@lerna/link@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/link/-/link-5.5.4.tgz#5bd2097ab123f6034b470626d220bd5ce03cbc77"
+  integrity sha512-/kFST918MLhvWbs3szbUw3/6pPa0/vS77WnHk8n3S3v/PuzUEjm9CncYrZ0xB1ZiGk6oa4YTPWMlqyYMY1k0hQ==
   dependencies:
-    "@lerna/command" "5.3.0"
-    "@lerna/package-graph" "5.3.0"
-    "@lerna/symlink-dependencies" "5.3.0"
+    "@lerna/command" "5.5.4"
+    "@lerna/package-graph" "5.5.4"
+    "@lerna/symlink-dependencies" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
     p-map "^4.0.0"
     slash "^3.0.0"
 
-"@lerna/list@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/list/-/list-5.3.0.tgz#c61d451ffe6054ddf5cbe5c13aba2f4b152e80c2"
-  integrity sha512-5RJvle3m4l2H0UmKNlwS8h2OIlNGsNTKPC4DYrJYt0+fhgzf5SEV1QKw+fuUqe3F8MziIkSGQB52HsjwPE6AWQ==
+"@lerna/list@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/list/-/list-5.5.4.tgz#fd27a69118e6ed515149fd77690ce6ecc3058456"
+  integrity sha512-ppLy99mQYoDkO+SxqnknPYqOnO+iJskb0G2h2fLF4ZK98oy2duJWkkehagwCVtmPax/DqWDDc/IAj+KWpcC0bQ==
   dependencies:
-    "@lerna/command" "5.3.0"
-    "@lerna/filter-options" "5.3.0"
-    "@lerna/listable" "5.3.0"
-    "@lerna/output" "5.3.0"
+    "@lerna/command" "5.5.4"
+    "@lerna/filter-options" "5.5.4"
+    "@lerna/listable" "5.5.4"
+    "@lerna/output" "5.5.4"
 
-"@lerna/listable@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/listable/-/listable-5.3.0.tgz#8817193159d46fe92ff28656791b04399812c67f"
-  integrity sha512-RdmeV9mDeuBOgVOlF/KNH/qttyiYwHbeqHiMAw9s9AfMo/Fz3iDZaTGZuruMm84TZSkKxI7m5mjTlC0djsyKog==
+"@lerna/listable@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/listable/-/listable-5.5.4.tgz#eff0720d5c01f734933b95dd8b2161d3126dc487"
+  integrity sha512-c6acWwSDQE5zeBcnH3m+mwfDr3zr515LsC30tXRenkqp4lbXeyrUPw0Mckw1ksw2nyb5LZl8gQnrFbAKC8gBSA==
   dependencies:
-    "@lerna/query-graph" "5.3.0"
+    "@lerna/query-graph" "5.5.4"
     chalk "^4.1.0"
     columnify "^1.6.0"
 
-"@lerna/log-packed@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/log-packed/-/log-packed-5.3.0.tgz#93ee09897f147da67beaa41ba2d86a642c53be4e"
-  integrity sha512-tDuOot3vSOUSP7fNNej8UM0fah5oy8mKXe026grt4J0OP4L3rhSWxhfrDBQ3Ylh2dAjgHzscUf/vpnNC9HnhOQ==
+"@lerna/log-packed@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/log-packed/-/log-packed-5.5.4.tgz#0f0285445aadf3289148af7949f2cd61a21ff553"
+  integrity sha512-g3lW5yIIe66aVTOYn78+h21GR9gr/WdU3/z8jm0VzGC+VR7KqCKU+49JOCOh7LlNf7sY4ZE6ZbaZptp5wUjrgQ==
   dependencies:
     byte-size "^7.0.0"
     columnify "^1.6.0"
     has-unicode "^2.0.1"
     npmlog "^6.0.2"
 
-"@lerna/npm-conf@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/npm-conf/-/npm-conf-5.3.0.tgz#41b87554fba6343aeb16012d87080b85065a7073"
-  integrity sha512-ejlypb90tvIsKUCb0fcOKt7wcPEjLdVK2zfbNs0M+UlRDLyRVOHUVdelJ15cRDNjQHzhBo2HBUKn5Fmm/2pcmg==
+"@lerna/npm-conf@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/npm-conf/-/npm-conf-5.5.4.tgz#642438b68dbd98af1189fb85646d3e0ca24b3741"
+  integrity sha512-BwnP0ezR84nQ5Sh0CdH77Q8evDcqP9bFUdjX6eZT4Rxl0432ocB1YpweNnUDQO4Boxj/FiOu/OaE0Kej+I+5ew==
   dependencies:
     config-chain "^1.1.12"
     pify "^5.0.0"
 
-"@lerna/npm-dist-tag@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/npm-dist-tag/-/npm-dist-tag-5.3.0.tgz#70c15da5d1f001e6785cf0f89b25eba4cceb2694"
-  integrity sha512-OPahPk9QLXQXFgtrWm22NNxajVYKavCyTh8ijMwXTGXXbMJAw+PVjokfrUuEtg7FQi+kfJSrYAcJAxxfQq2eiA==
+"@lerna/npm-dist-tag@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/npm-dist-tag/-/npm-dist-tag-5.5.4.tgz#2ed3ad80af572bfdcf631f8271e59240d72e011b"
+  integrity sha512-aAisCh5b2+6cjLxZh03/MGGcBjL7KNBWi5qW6OCdQQpcxH5r0aUJ5F1rmXJE0qxgsLWaGRLzngWk+v6VJHqYJQ==
   dependencies:
-    "@lerna/otplease" "5.3.0"
+    "@lerna/otplease" "5.5.4"
     npm-package-arg "8.1.1"
     npm-registry-fetch "^13.3.0"
     npmlog "^6.0.2"
 
-"@lerna/npm-install@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/npm-install/-/npm-install-5.3.0.tgz#41d76cb4b74679bd41015b460573331e2976632c"
-  integrity sha512-scbWo8nW+P9KfitWG3y7Ep97dOs64ECfz9xfqtjagEXKYBPxG3skvwwljkfNnuxrCNs71JVD+imvcewHzih28g==
+"@lerna/npm-install@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/npm-install/-/npm-install-5.5.4.tgz#0b801d16d04cf2c9c6c114ec0b188ad190c63775"
+  integrity sha512-lglf2KRxg30dCvNWwxQRJmCfXC51byNqYQt9/dFrnWcotHwpNRIFnVM3tWMdVxlwJMiozU/PjUFBateaxmukXw==
   dependencies:
-    "@lerna/child-process" "5.3.0"
-    "@lerna/get-npm-exec-opts" "5.3.0"
+    "@lerna/child-process" "5.5.4"
+    "@lerna/get-npm-exec-opts" "5.5.4"
     fs-extra "^9.1.0"
     npm-package-arg "8.1.1"
     npmlog "^6.0.2"
     signal-exit "^3.0.3"
     write-pkg "^4.0.0"
 
-"@lerna/npm-publish@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/npm-publish/-/npm-publish-5.3.0.tgz#b53f47d441a2f776ded6af045a02f42cf06f1f26"
-  integrity sha512-n+ocN1Dxrs6AmrSNqZl57cwhP4/VjQXdEI+QYauNnErNjMQW8Wt+tNaTlVAhZ1DnorwAo86o2uzFF/BgdUqh9A==
+"@lerna/npm-publish@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/npm-publish/-/npm-publish-5.5.4.tgz#fbdcadf5bedf91bbd33ddca79e742262f8b72465"
+  integrity sha512-Z3GQqby0FR7HW82/t7j7nOF9pfSwNVmgms0zTq7a8YaEe8uDlAxGMW4sVN8uT89mZfBfS6R1WMlBbC5Ea+jy/A==
   dependencies:
-    "@lerna/otplease" "5.3.0"
-    "@lerna/run-lifecycle" "5.3.0"
+    "@lerna/otplease" "5.5.4"
+    "@lerna/run-lifecycle" "5.5.4"
     fs-extra "^9.1.0"
     libnpmpublish "^6.0.4"
     npm-package-arg "8.1.1"
@@ -1080,128 +1104,129 @@
     pify "^5.0.0"
     read-package-json "^5.0.1"
 
-"@lerna/npm-run-script@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/npm-run-script/-/npm-run-script-5.3.0.tgz#28745ec962398ab864837155e9b0732aa119071f"
-  integrity sha512-2cLR1YdzeMjaMKgDuwHE+iZgVPt+Ttzb3/wFtp7Mw9TlKmNIdbHdrnfl12ABz5knPC+62CCNjB/gznfLndPp2w==
+"@lerna/npm-run-script@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/npm-run-script/-/npm-run-script-5.5.4.tgz#88dc25d81b5263d85443b570d06f1c87df38c58a"
+  integrity sha512-fwHZRTGUldN9D2Rugg0HdwE8A8OZ7CF7g63y7OjzIoxASqtZBDyHZgrVbY/xZcrhqCF0+VJ1vR0c/uFwtWFrtA==
   dependencies:
-    "@lerna/child-process" "5.3.0"
-    "@lerna/get-npm-exec-opts" "5.3.0"
+    "@lerna/child-process" "5.5.4"
+    "@lerna/get-npm-exec-opts" "5.5.4"
     npmlog "^6.0.2"
 
-"@lerna/otplease@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/otplease/-/otplease-5.3.0.tgz#96b4bd0c31387811684fdedc33465a548927fddf"
-  integrity sha512-Xpju2VC5TiycmBP/mdp9hRstkH2MLm8/7o2NotVTCJwASWdKphRMqezhh5BX0E9i6VyrjzmTqSYEh9FNZZ9MwQ==
+"@lerna/otplease@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/otplease/-/otplease-5.5.4.tgz#8b1f5af43e3e99131ca6077ac6f9c274733a6a77"
+  integrity sha512-c/tSjuMGw0esoxqtW0Qs2gCcvFDCrOlFnd4EgTJQKUSbNwVrabMkDJRMP0zu7UiSYJCCWKlBnjpBCiBXNG2H4A==
   dependencies:
-    "@lerna/prompt" "5.3.0"
+    "@lerna/prompt" "5.5.4"
 
-"@lerna/output@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/output/-/output-5.3.0.tgz#bfcf7d6ada32d3b94655c39441f6aba36fc60012"
-  integrity sha512-fISmHDu/9PKInFmT5NXsbh8cR6aE6SUXWrteXJ6PBYK30s0f/pVcfswb9VccX0Yea8HmqMQgCHWUWifkZeXiRA==
+"@lerna/output@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/output/-/output-5.5.4.tgz#22c9d78a39b7062c90fd1a1e0050a4129dc9c239"
+  integrity sha512-qiYtDQ4k9sXzXRlbSuLUFDNLk42sJY3n7x7fWKt6v5I9s2uh5d3cBctBuvV8+YX82H1inQ9hpyFafzOBO8tbCA==
   dependencies:
     npmlog "^6.0.2"
 
-"@lerna/pack-directory@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/pack-directory/-/pack-directory-5.3.0.tgz#043c45b5e825dc002c3de21f00be3b192bd12b0d"
-  integrity sha512-dTGMUB6/GjExhmLZ8yeFaRKJuSm6M/IsfxSJdL4gFPLigUIAS4XhzXS3KnL0+Ef1ue1yaTlAE9c/czfkE0pc/w==
+"@lerna/pack-directory@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/pack-directory/-/pack-directory-5.5.4.tgz#987dba5049a57fd822412e9a1770dab9f4da314c"
+  integrity sha512-yUhu8ADzUZOZPfimMwlxxuxIweXitMKTVAmhz9eruiNHxsc0GpKb89yemep03iXqtrjC1Pt/QsS+dhJNNKdZ4A==
   dependencies:
-    "@lerna/get-packed" "5.3.0"
-    "@lerna/package" "5.3.0"
-    "@lerna/run-lifecycle" "5.3.0"
-    "@lerna/temp-write" "5.3.0"
+    "@lerna/get-packed" "5.5.4"
+    "@lerna/package" "5.5.4"
+    "@lerna/run-lifecycle" "5.5.4"
+    "@lerna/temp-write" "5.5.4"
     npm-packlist "^5.1.1"
     npmlog "^6.0.2"
     tar "^6.1.0"
 
-"@lerna/package-graph@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/package-graph/-/package-graph-5.3.0.tgz#6a8e87ce55628d2daef31f317d7916fc05274210"
-  integrity sha512-UEHY7l/yknwFvQgo0RifyY+B5QdzuFutLZYSN1BMmyWttOZD9rkM263qnLNGTZ2BUE4dXDwwwOHuhLvi+xDRsA==
+"@lerna/package-graph@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/package-graph/-/package-graph-5.5.4.tgz#32abce3e23e09017f5323f2704d9544ffcb1ccbf"
+  integrity sha512-1g0c08mooZBtrIG8gMOdpbZ3rn5VM+e47pLFAXZcfGUaNUfc0OM58Z50ONiJq23XlJmS4vQ2e4X3cs7Hc7+Dxw==
   dependencies:
-    "@lerna/prerelease-id-from-version" "5.3.0"
-    "@lerna/validation-error" "5.3.0"
+    "@lerna/prerelease-id-from-version" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
     npm-package-arg "8.1.1"
     npmlog "^6.0.2"
     semver "^7.3.4"
 
-"@lerna/package@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/package/-/package-5.3.0.tgz#8985035bfdaa91b99b855b9d1abb86aa9cc2cc74"
-  integrity sha512-hsB03miiaNdvZ/UGzl0sVqxVat5x33EG9JiYgIoFqzroQPrG+WShmX3ctuO06TY1pxb4iNuHLPIbQomHEzzj8w==
+"@lerna/package@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/package/-/package-5.5.4.tgz#815c35a8f5a12a6f91f3a0314178f198ffcbc1c5"
+  integrity sha512-wpBcq4zVFVQOJI9QT0TJItRjl6jGSGFp93n4D8KHXXiyeKmN9CW4EnwFY9bnT3r5OteZN+eorD6r2TnRe8VPDg==
   dependencies:
     load-json-file "^6.2.0"
     npm-package-arg "8.1.1"
     write-pkg "^4.0.0"
 
-"@lerna/prerelease-id-from-version@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/prerelease-id-from-version/-/prerelease-id-from-version-5.3.0.tgz#dc806da65600458c5567728e18a1b29053d9fd10"
-  integrity sha512-o1wsLns6hFTsmk4iqTRJNWLnFzlBBwgu17hp8T2iU4U7LUlDT2ZSKV3smGAU6GfrwX3MAp4LZ5syxgjFjrUOnw==
+"@lerna/prerelease-id-from-version@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/prerelease-id-from-version/-/prerelease-id-from-version-5.5.4.tgz#ba17e53051b15cfe7ba9c98e75abd5644559f8a7"
+  integrity sha512-IHNQxbILrRGhw9CCdqy0ncSjDpNvdJCcaGFh3+TJRx6Bjhl5ifbUjI0gBUxd7i5Aict5dguWlhAWHQpef48AqA==
   dependencies:
     semver "^7.3.4"
 
-"@lerna/profiler@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/profiler/-/profiler-5.3.0.tgz#42db1b4e62de7a030db3af86175ebf16f7d92533"
-  integrity sha512-LEZYca29EPgZR0q5E+7CJkn25Cw3OxNMQJU/CVn/HGeoWYWOpoDxujrZBl8is2bw06LHXvRbVXEUATLc+ACbqQ==
+"@lerna/profiler@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/profiler/-/profiler-5.5.4.tgz#2082a05c4aecee0bd567a5069efb09511212f4c6"
+  integrity sha512-LPnO8mXhXSBT8PD5pEWkgd+2d8lJqQ0fnwcIPG0B8o6tnQrSc2gXLNxStYOFedzcZXRhAYiFVrf5VjOKHV6Ghw==
   dependencies:
     fs-extra "^9.1.0"
     npmlog "^6.0.2"
     upath "^2.0.1"
 
-"@lerna/project@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/project/-/project-5.3.0.tgz#1727a81f4b945b491dfed5d1a0ed2ea3dc3329cc"
-  integrity sha512-InhIo9uwT1yod72ai5SKseJSUk8KkqG6COmwp1/45vibbawb7ZLbokpns7n46A0NdGNlmwJolamybYOuyumejw==
+"@lerna/project@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/project/-/project-5.5.4.tgz#184d13b0b47187bed5fa6a6227c2a0abf6060fda"
+  integrity sha512-iLdyc+jPU0cR6BQO3V3Sf51WP3Oac+I/+518dIGdWS7ot9nEbjuZripHJjIkyZKSfnKPTEtz2aUta0ndoewwuQ==
   dependencies:
-    "@lerna/package" "5.3.0"
-    "@lerna/validation-error" "5.3.0"
+    "@lerna/package" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
     cosmiconfig "^7.0.0"
     dedent "^0.7.0"
     dot-prop "^6.0.1"
     glob-parent "^5.1.1"
     globby "^11.0.2"
+    js-yaml "^4.1.0"
     load-json-file "^6.2.0"
     npmlog "^6.0.2"
     p-map "^4.0.0"
     resolve-from "^5.0.0"
     write-json-file "^4.3.0"
 
-"@lerna/prompt@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/prompt/-/prompt-5.3.0.tgz#0565cdbb092e71d8e2ce4a18a8c44db3c5ff7c17"
-  integrity sha512-4bIusBdjpw665CJtFsVsaB55hLHnmKnrcOaRjna6N/MdJDl8Th6X4EM4rrfXTX/uUNR3XcV91lYqcLuLmrpm5w==
+"@lerna/prompt@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/prompt/-/prompt-5.5.4.tgz#3b61a9ba3996c0cf3926671e8f9a15189b9b9ef4"
+  integrity sha512-X8H2V4dDkFLYzZkMTillvuGAphU5fTDR66HgZlhgKtbJjm7OrjxhoRdk/YlMpI+HdYwXhdUzhEe9YJEhqhfe6w==
   dependencies:
     inquirer "^8.2.4"
     npmlog "^6.0.2"
 
-"@lerna/publish@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/publish/-/publish-5.3.0.tgz#136af3be2c0779a9994aa6fbc0d24fb15438c68e"
-  integrity sha512-T8T1BQdI+NnlVARKwIXzILknEuiQlZToBsDpuX06M7+45t/pp9Z+u6pVt3rrqwiUPZ/dpoZzYKI31YdNJtGMcQ==
-  dependencies:
-    "@lerna/check-working-tree" "5.3.0"
-    "@lerna/child-process" "5.3.0"
-    "@lerna/collect-updates" "5.3.0"
-    "@lerna/command" "5.3.0"
-    "@lerna/describe-ref" "5.3.0"
-    "@lerna/log-packed" "5.3.0"
-    "@lerna/npm-conf" "5.3.0"
-    "@lerna/npm-dist-tag" "5.3.0"
-    "@lerna/npm-publish" "5.3.0"
-    "@lerna/otplease" "5.3.0"
-    "@lerna/output" "5.3.0"
-    "@lerna/pack-directory" "5.3.0"
-    "@lerna/prerelease-id-from-version" "5.3.0"
-    "@lerna/prompt" "5.3.0"
-    "@lerna/pulse-till-done" "5.3.0"
-    "@lerna/run-lifecycle" "5.3.0"
-    "@lerna/run-topologically" "5.3.0"
-    "@lerna/validation-error" "5.3.0"
-    "@lerna/version" "5.3.0"
+"@lerna/publish@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/publish/-/publish-5.5.4.tgz#73dceae590815e096d3410c98f07ba01a7bccbc1"
+  integrity sha512-zBlZsk+NBUfg4o7ycKH8/hc4NRJWd4RmxB6Kn7xo7MOJMW3x+K4aABcqY2GGxEMUxx3rBBVPIdziVWbyS7UIxA==
+  dependencies:
+    "@lerna/check-working-tree" "5.5.4"
+    "@lerna/child-process" "5.5.4"
+    "@lerna/collect-updates" "5.5.4"
+    "@lerna/command" "5.5.4"
+    "@lerna/describe-ref" "5.5.4"
+    "@lerna/log-packed" "5.5.4"
+    "@lerna/npm-conf" "5.5.4"
+    "@lerna/npm-dist-tag" "5.5.4"
+    "@lerna/npm-publish" "5.5.4"
+    "@lerna/otplease" "5.5.4"
+    "@lerna/output" "5.5.4"
+    "@lerna/pack-directory" "5.5.4"
+    "@lerna/prerelease-id-from-version" "5.5.4"
+    "@lerna/prompt" "5.5.4"
+    "@lerna/pulse-till-done" "5.5.4"
+    "@lerna/run-lifecycle" "5.5.4"
+    "@lerna/run-topologically" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
+    "@lerna/version" "5.5.4"
     fs-extra "^9.1.0"
     libnpmaccess "^6.0.3"
     npm-package-arg "8.1.1"
@@ -1212,98 +1237,99 @@
     pacote "^13.6.1"
     semver "^7.3.4"
 
-"@lerna/pulse-till-done@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/pulse-till-done/-/pulse-till-done-5.3.0.tgz#6342a2ceb915597e909fea30769d0afc55e70524"
-  integrity sha512-yNvSuPLT1ZTtD2LMVOmiDhw4+9qkyf6xCpfxiUp4cGEN+qIuazWB5JicKLE49o27DBdaG8Ao4lAlb16x/gNrwQ==
+"@lerna/pulse-till-done@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/pulse-till-done/-/pulse-till-done-5.5.4.tgz#c7fe3349a1da86534fb42bb7f858a6245e6d67e0"
+  integrity sha512-xC4/QPnIQfrE1aA8W5w6AfaT0gTm8SeVmrsQzMMlUTJ2JAnflsHv1oG69M89xq2DrlXsEVaah56Xbjavy+woQg==
   dependencies:
     npmlog "^6.0.2"
 
-"@lerna/query-graph@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/query-graph/-/query-graph-5.3.0.tgz#596f7827b7d0ac9d1217ac5ab6d9e62ba5388a2c"
-  integrity sha512-t99lNj97/Vilp5Js1Be7MoyaZ5U0fbOFh0E7lnTfSLvZhTkPMK6xLvAx2M3NQqhwYCQjTFDuf9ozQ3HQtYZAmA==
+"@lerna/query-graph@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/query-graph/-/query-graph-5.5.4.tgz#64079526a6e483a28c0b9cda12f8444ced6016b3"
+  integrity sha512-TJsmJ++3NpEs+LxF0B02hAv2HigJ9ffa9e+paK27oE8sTiH3YataMHaNu5ZkeotJTw7u0IiRLm0zi4z4xoRlLg==
   dependencies:
-    "@lerna/package-graph" "5.3.0"
+    "@lerna/package-graph" "5.5.4"
 
-"@lerna/resolve-symlink@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/resolve-symlink/-/resolve-symlink-5.3.0.tgz#6150b65905910fc34fce6c781516b89c853c394e"
-  integrity sha512-zKI7rV5FzzlMBfi6kjDS0ulzcdDTORvdOJ/+CHU5C2h+v+P64Nk2VhZZNCCBDoO/l4GRhgehZOB70GIamO1TSw==
+"@lerna/resolve-symlink@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/resolve-symlink/-/resolve-symlink-5.5.4.tgz#3711dc911193d8f1843616bf4a77e4fbf14daedf"
+  integrity sha512-cAIXELf04dHx/XF/2njCM0bpiyup6Nedpmm1XNJzrJuWrGmwK2qW5F2wQ/RHXWXsLIe/BsOl/hfEONm7o7k8sA==
   dependencies:
     fs-extra "^9.1.0"
     npmlog "^6.0.2"
     read-cmd-shim "^3.0.0"
 
-"@lerna/rimraf-dir@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/rimraf-dir/-/rimraf-dir-5.3.0.tgz#765855a30d68f62b1af993e644e4d5f4224bfdb4"
-  integrity sha512-/QJebh0tSY3LjgEyOo+6NH/b7ZNw9IpjqiDtvnLixjtdfkgli1OKOoZTa4KrO0mJoqMRq4yAa98cjpIzyKqCqw==
+"@lerna/rimraf-dir@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/rimraf-dir/-/rimraf-dir-5.5.4.tgz#35b1ee9cf3bca12748df4e53f7e5cef5ef845d6a"
+  integrity sha512-++I7ToqICE4KSqi4T8enfcou8XPZV3gmrpARVD9VW4Tz3w8BP/JijB6AJwgZKojdqQenXU7u3lLTzfepKN1iOA==
   dependencies:
-    "@lerna/child-process" "5.3.0"
+    "@lerna/child-process" "5.5.4"
     npmlog "^6.0.2"
     path-exists "^4.0.0"
     rimraf "^3.0.2"
 
-"@lerna/run-lifecycle@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/run-lifecycle/-/run-lifecycle-5.3.0.tgz#e884e4c5503bc7431ddec2bb457d74f0817312ad"
-  integrity sha512-EuBCGwm2PLgkebfyqo3yNkwfSb1EzHeo3lA8t4yld6LXWkgUPBFhc7RwRc6TsQOpjpfFvDSGoI282R01o0jPVQ==
+"@lerna/run-lifecycle@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/run-lifecycle/-/run-lifecycle-5.5.4.tgz#e9d61d5c290402f936818ca775168a677d965ad7"
+  integrity sha512-MIE8HJml8gWkH5jt/5omiPr69VUMUPwvhkf6Irpg5yxIE5K4oeViVZMay2v6cPA9jAeTDCshHb7gt2EPBSsYQA==
   dependencies:
-    "@lerna/npm-conf" "5.3.0"
+    "@lerna/npm-conf" "5.5.4"
     "@npmcli/run-script" "^4.1.7"
     npmlog "^6.0.2"
     p-queue "^6.6.2"
 
-"@lerna/run-topologically@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/run-topologically/-/run-topologically-5.3.0.tgz#4080a499d73c0e592331e55b219ea46a4485958f"
-  integrity sha512-WiFF2EiwLjAguKs0lEmcukTL7WhuWFwxNprrGWFxEkBhlGdMFk18n8BaZN8FO26xqzztzuPzSx1re/f/dEEAPg==
+"@lerna/run-topologically@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/run-topologically/-/run-topologically-5.5.4.tgz#14fdd4d40882445b9346d0e814c61eb8237687a9"
+  integrity sha512-p1UNHgR8sOaS40nVD0HyqwmawDXBOikIibjbJLcY2QuvWwzAGKjfWm/sAXagYjgzaPYQAhaHyOxTdGe8T+a7uQ==
   dependencies:
-    "@lerna/query-graph" "5.3.0"
+    "@lerna/query-graph" "5.5.4"
     p-queue "^6.6.2"
 
-"@lerna/run@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/run/-/run-5.3.0.tgz#628395f0aaf28714d002cceeb96d4a3903965043"
-  integrity sha512-KwoKTj1w71OmUHONNYhZME+tr5lk9Q4f+3LUr2WtWZRuOAGO5ZCRrcZc+N4Ib7zno89Ub6Ovz51fcjwltLh72w==
-  dependencies:
-    "@lerna/command" "5.3.0"
-    "@lerna/filter-options" "5.3.0"
-    "@lerna/npm-run-script" "5.3.0"
-    "@lerna/output" "5.3.0"
-    "@lerna/profiler" "5.3.0"
-    "@lerna/run-topologically" "5.3.0"
-    "@lerna/timer" "5.3.0"
-    "@lerna/validation-error" "5.3.0"
+"@lerna/run@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/run/-/run-5.5.4.tgz#b7cff31b3240c7326119a9a675af2bbc16af6d2a"
+  integrity sha512-R9g+4nfIDgK+I4RleAJpXrStzLlUCEHR/rxH2t5LJ6DLaoKUG6oeRZsf2w/It/r2IMV1dq2xG6chs+H1o1J+Ow==
+  dependencies:
+    "@lerna/command" "5.5.4"
+    "@lerna/filter-options" "5.5.4"
+    "@lerna/npm-run-script" "5.5.4"
+    "@lerna/output" "5.5.4"
+    "@lerna/profiler" "5.5.4"
+    "@lerna/run-topologically" "5.5.4"
+    "@lerna/timer" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
+    fs-extra "^9.1.0"
     p-map "^4.0.0"
 
-"@lerna/symlink-binary@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/symlink-binary/-/symlink-binary-5.3.0.tgz#21aeeff1ed8c8b611d1c722292c31d8344f34262"
-  integrity sha512-dIATASuGS6y512AGjacOoTpkFDPsKlhggjzL3KLdSNmxV3288nUqaFBuA7rTnnMNnBQ7jVuE1JKJupZnzPN0cA==
+"@lerna/symlink-binary@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/symlink-binary/-/symlink-binary-5.5.4.tgz#cb7e8194e7b860196aff306aa35e0db67f1b5c3a"
+  integrity sha512-FVhkL8KIgk0gPJV136Sl0/t3LD3qDngIRqJVNPIbATVHagkLVsuJM6+BcdWLxoMUCtwHIyWqgcXn1Oa/DVSUEA==
   dependencies:
-    "@lerna/create-symlink" "5.3.0"
-    "@lerna/package" "5.3.0"
+    "@lerna/create-symlink" "5.5.4"
+    "@lerna/package" "5.5.4"
     fs-extra "^9.1.0"
     p-map "^4.0.0"
 
-"@lerna/symlink-dependencies@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/symlink-dependencies/-/symlink-dependencies-5.3.0.tgz#ece40a7767d946c5438563fe60579418acd01768"
-  integrity sha512-qkq4YT/Bdrb3W22ve+d2Gy3hRTrtT/zBhjKTCukEpYsFJLwSjZ4z5vbv6J15/j6PN1Km9oTRp6vBYmdjAuARQQ==
+"@lerna/symlink-dependencies@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/symlink-dependencies/-/symlink-dependencies-5.5.4.tgz#99607534e239b1479209d3025988e3b2c5ccc073"
+  integrity sha512-BfOcATr0TreXRfIhIRvgGCT2o8uEqrwVLo8edCQICeqgju19fFn22Qmyb8LW+LMJjBUuSkpJDqqamQ6nj3Ch2A==
   dependencies:
-    "@lerna/create-symlink" "5.3.0"
-    "@lerna/resolve-symlink" "5.3.0"
-    "@lerna/symlink-binary" "5.3.0"
+    "@lerna/create-symlink" "5.5.4"
+    "@lerna/resolve-symlink" "5.5.4"
+    "@lerna/symlink-binary" "5.5.4"
     fs-extra "^9.1.0"
     p-map "^4.0.0"
     p-map-series "^2.1.0"
 
-"@lerna/temp-write@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/temp-write/-/temp-write-5.3.0.tgz#6c926ad21c6b1932ead202e735d3cc8a5322e4e6"
-  integrity sha512-AhC5Q+tV0yebEc1P2jsB4apQzztW8dgdLLc1G1Pkt46l5vezRGhZmsj+iUyCsVjpdUSO/UcAq1DbI2Xzhf5arg==
+"@lerna/temp-write@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/temp-write/-/temp-write-5.5.4.tgz#02c07da23944a765d3f319f247c71e0b99b9416f"
+  integrity sha512-cJy9f9uSvnPxfc2a1ARapGLJXllQlJKKb0idi8aA3ylvgDA7grfKIDPdkf6cBcpPAq8aixDq9GdCZ6oLKdISeA==
   dependencies:
     graceful-fs "^4.1.15"
     is-stream "^2.0.0"
@@ -1311,37 +1337,37 @@
     temp-dir "^1.0.0"
     uuid "^8.3.2"
 
-"@lerna/timer@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/timer/-/timer-5.3.0.tgz#b3da6c71bb37eb313cf30d333eb7f0d841976e55"
-  integrity sha512-IeDjj1gJtbUPKl2ebpiml9u4k2kRqYF1Dbs6JuWpeC7lGxAx3JcUmkNH2RQ1BYTxk5xc9FKlgNMrZQwhq2K1Ow==
+"@lerna/timer@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/timer/-/timer-5.5.4.tgz#815f054f3825a58af58518309d32e29e36fd2c8b"
+  integrity sha512-B3eesmrNaw64Svo2pkmCtBVIJbomegiOMrdxFkZrf8ugTKwobn3KSZZkdbN+hjq8SKpRz3XgtjAuSFUzdg8c3A==
 
-"@lerna/validation-error@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/validation-error/-/validation-error-5.3.0.tgz#21c2054079ab997cd9ec8fa6fde5685d5fda68a9"
-  integrity sha512-GVvnTxx+CNFjXCiJahAu2c/pP2R3DhGuQp4CJUyKegnzGaWK0h5PhlwRL7/LbDMPLh2zLobPOVr9kTOjwv76Nw==
+"@lerna/validation-error@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/validation-error/-/validation-error-5.5.4.tgz#935018275d0005cc5e7540854815ec7404a5b129"
+  integrity sha512-FUC3x40zBAu0ny1AWXT38LOVRaSJkjdAv9GiYLu9sx+7T7X18q38zPFyVPIIhrrTJsNNWkro/NTA7r4/BcdvoQ==
   dependencies:
     npmlog "^6.0.2"
 
-"@lerna/version@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/version/-/version-5.3.0.tgz#011d7e1fd6f286186c6c216737249fccedd8b2df"
-  integrity sha512-QOQSAdpeP66oQQ20nNZ4NhJS5NtZZDGyz36kP/4BeqjGK6QgtrEmto4+vmWj49w3VJUIXnrqAKHiPkhFUmJm5Q==
-  dependencies:
-    "@lerna/check-working-tree" "5.3.0"
-    "@lerna/child-process" "5.3.0"
-    "@lerna/collect-updates" "5.3.0"
-    "@lerna/command" "5.3.0"
-    "@lerna/conventional-commits" "5.3.0"
-    "@lerna/github-client" "5.3.0"
-    "@lerna/gitlab-client" "5.3.0"
-    "@lerna/output" "5.3.0"
-    "@lerna/prerelease-id-from-version" "5.3.0"
-    "@lerna/prompt" "5.3.0"
-    "@lerna/run-lifecycle" "5.3.0"
-    "@lerna/run-topologically" "5.3.0"
-    "@lerna/temp-write" "5.3.0"
-    "@lerna/validation-error" "5.3.0"
+"@lerna/version@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/version/-/version-5.5.4.tgz#4bfe1ec09a508f5a14c325599c88a92d3bede8a4"
+  integrity sha512-J39m2KfhkkDzfCUjnC2+UbBrWBRs1TkrvFlHFbb8wHUOY5bs+dj5RLyUchF/VJOYFSJXr8LLQFdMPeptF2wItg==
+  dependencies:
+    "@lerna/check-working-tree" "5.5.4"
+    "@lerna/child-process" "5.5.4"
+    "@lerna/collect-updates" "5.5.4"
+    "@lerna/command" "5.5.4"
+    "@lerna/conventional-commits" "5.5.4"
+    "@lerna/github-client" "5.5.4"
+    "@lerna/gitlab-client" "5.5.4"
+    "@lerna/output" "5.5.4"
+    "@lerna/prerelease-id-from-version" "5.5.4"
+    "@lerna/prompt" "5.5.4"
+    "@lerna/run-lifecycle" "5.5.4"
+    "@lerna/run-topologically" "5.5.4"
+    "@lerna/temp-write" "5.5.4"
+    "@lerna/validation-error" "5.5.4"
     chalk "^4.1.0"
     dedent "^0.7.0"
     load-json-file "^6.2.0"
@@ -1355,19 +1381,14 @@
     slash "^3.0.0"
     write-json-file "^4.3.0"
 
-"@lerna/write-log-file@5.3.0":
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/@lerna/write-log-file/-/write-log-file-5.3.0.tgz#3aa6621c56f020e642c5c3965a33771111d14f52"
-  integrity sha512-cmrNAI5+9auUJSuTVrUzt2nb/KX6htgjdw7gGPMI1Tm6cdBIbs67R6LedZ8yvYOLGsXB2Se93vxv5fTgEHWfCw==
+"@lerna/write-log-file@5.5.4":
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/@lerna/write-log-file/-/write-log-file-5.5.4.tgz#28d04afa813457a58c6d32d8a4b4581cbaf34d02"
+  integrity sha512-PDdVuWHLkMw6ygP1hKTciphmYKRDTmNJASxVlxxOv9UkZe7QQvfke0i/OXNPRZHJK7eKCtv2Zu91amE8qCjVNw==
   dependencies:
     npmlog "^6.0.2"
     write-file-atomic "^4.0.1"
 
-"@mattiasbuelens/web-streams-adapter@~0.1.0":
-  version "0.1.0"
-  resolved "https://registry.yarnpkg.com/@mattiasbuelens/web-streams-adapter/-/web-streams-adapter-0.1.0.tgz#607b5a25682f4ae2741da7ba6df39302505336b3"
-  integrity sha512-oV4PyZfwJNtmFWhvlJLqYIX1Nn22ML8FZpS16ZUKv0hg7414xV1fjsGqxQzLT2dyK92TKxsJSwMOd7VNHAtPmA==
-
 "@nodelib/fs.scandir@2.1.5":
   version "2.1.5"
   resolved "https://registry.yarnpkg.com/@nodelib/fs.scandir/-/fs.scandir-2.1.5.tgz#7619c2eb21b25483f6d167548b4cfd5a7488c3d5"
@@ -1523,19 +1544,19 @@
     read-package-json-fast "^2.0.3"
     which "^2.0.2"
 
-"@nrwl/cli@14.5.4":
-  version "14.5.4"
-  resolved "https://registry.yarnpkg.com/@nrwl/cli/-/cli-14.5.4.tgz#86ac4fbcd1bf079b67c420376cf696b68fcc1200"
-  integrity sha512-UYr14hxeYV8p/zt6D6z33hljZJQROJAVxSC+mm72fyVvy88Gt0sQNLfMmOARXur0p/73PSLM0jJ2Sr7Ftsuu+A==
+"@nrwl/cli@14.8.2":
+  version "14.8.2"
+  resolved "https://registry.yarnpkg.com/@nrwl/cli/-/cli-14.8.2.tgz#ec521f30d16771f50b87e3d9d0383465bedf5d4d"
+  integrity sha512-I+oblryFkZJYk9TMsBWNdN0SV7OjsiD80gD1WjA1KXEQiFVfopYgwErBrxoenodncXrMFRCk/QR9U5F+23+Vow==
   dependencies:
-    nx "14.5.4"
+    nx "14.8.2"
 
-"@nrwl/tao@14.5.4":
-  version "14.5.4"
-  resolved "https://registry.yarnpkg.com/@nrwl/tao/-/tao-14.5.4.tgz#a67097d424bcbf7073a1944ea1a0209c4f4f859c"
-  integrity sha512-a2GCuSE8WghjehuU3GVO63KZEnZXXQiqEg137yN/Na+PxwSu68XeaX53SLyzRskTV120YwBBy1YCTNzAZxxsjg==
+"@nrwl/tao@14.8.2":
+  version "14.8.2"
+  resolved "https://registry.yarnpkg.com/@nrwl/tao/-/tao-14.8.2.tgz#edf90da3af4f317e26498882a25dba3cce34cbba"
+  integrity sha512-a4+O307YZJf1H6CDQFGs4DoUvl7xUFSJo2rNHoR9jDlWU+Ug3n0iivX7Fih6Ui0gX4ocEpRwzNMmJhEmEq1BYw==
   dependencies:
-    nx "14.5.4"
+    nx "14.8.2"
 
 "@octokit/auth-token@^3.0.0":
   version "3.0.0"
@@ -1643,13 +1664,10 @@
   dependencies:
     "@octokit/openapi-types" "^12.11.0"
 
-"@openpgp/web-stream-tools@0.0.11":
-  version "0.0.11"
-  resolved "https://registry.yarnpkg.com/@openpgp/web-stream-tools/-/web-stream-tools-0.0.11.tgz#71bc9c493024506b1e5b0a587b85984435bbff8e"
-  integrity sha512-52NMPRmlXIVajd5dhpDNsG7WJRCdlcS1wXY03OGH1rxm7p6i3QzJvTVyKEAcW0T9KojvLKakV2uTICceELqSMw==
-  dependencies:
-    "@mattiasbuelens/web-streams-adapter" "~0.1.0"
-    web-streams-polyfill "~3.0.3"
+"@openpgp/web-stream-tools@0.0.12":
+  version "0.0.12"
+  resolved "https://registry.yarnpkg.com/@openpgp/web-stream-tools/-/web-stream-tools-0.0.12.tgz#8a80170c7590ecee2af4220c5cb1efe1a02946eb"
+  integrity sha512-OGQ7a7UlALBOPxTWqLjPoa6YjHtLYF5ETb3zwx2A2Qq3YsstJX4q/OvYx60v2MavmBBJELsBQNugdJu0uMBhSw==
 
 "@parcel/watcher@2.0.4":
   version "2.0.4"
@@ -1671,10 +1689,10 @@
   dependencies:
     slash "^3.0.0"
 
-"@rollup/plugin-node-resolve@13.3.0":
-  version "13.3.0"
-  resolved "https://registry.yarnpkg.com/@rollup/plugin-node-resolve/-/plugin-node-resolve-13.3.0.tgz#da1c5c5ce8316cef96a2f823d111c1e4e498801c"
-  integrity sha512-Lus8rbUo1eEcnS4yTFKLZrVumLPY+YayBdWXgFSHYhTT2iJbMhoaaBL3xl5NCdeRytErGr8tZ0L71BMRmnlwSw==
+"@rollup/plugin-node-resolve@14.1.0":
+  version "14.1.0"
+  resolved "https://registry.yarnpkg.com/@rollup/plugin-node-resolve/-/plugin-node-resolve-14.1.0.tgz#f2fa475405cd7fed6420bf438fe393f988a9bc96"
+  integrity sha512-5G2niJroNCz/1zqwXtk0t9+twOSDlG00k1Wfd7bkbbXmwg8H8dvgHdIWAun53Ps/rckfvOC7scDBjuGFg5OaWw==
   dependencies:
     "@rollup/pluginutils" "^3.1.0"
     "@types/resolve" "1.17.1"
@@ -1774,10 +1792,10 @@
   dependencies:
     "@babel/types" "^7.3.0"
 
-"@types/benchmark@2.1.1":
-  version "2.1.1"
-  resolved "https://registry.yarnpkg.com/@types/benchmark/-/benchmark-2.1.1.tgz#d763df29717d93aa333eb11f421ef383a5df5673"
-  integrity sha512-XmdNOarpSSxnb3DE2rRFOFsEyoqXLUL+7H8nSGS25vs+JS0018bd+cW5Ma9vdlkPmoTHSQ6e8EUFMFMxeE4l+g==
+"@types/benchmark@2.1.2":
+  version "2.1.2"
+  resolved "https://registry.yarnpkg.com/@types/benchmark/-/benchmark-2.1.2.tgz#b7838408c93dc08ceb4e6e13147dbfbe6a151f82"
+  integrity sha512-EDKtLYNMKrig22jEvhXq8TBFyFgVNSPmDF2b9UzJ7+eylPqdZVo17PCUMkn1jP6/1A/0u78VqYC6VrX6b8pDWA==
 
 "@types/command-line-args@5.2.0":
   version "5.2.0"
@@ -1825,10 +1843,10 @@
   resolved "https://registry.yarnpkg.com/@types/expect/-/expect-1.20.4.tgz#8288e51737bf7e3ab5d7c77bfa695883745264e5"
   integrity sha512-Q5Vn3yjTDyCMV50TB6VRIbQNxSE4OmZR86VSbGaNpfUolm0iePBB4KdEEHmxoY5sT2+2DIvXW0rvMDP2nHZ4Mg==
 
-"@types/glob@7.2.0":
-  version "7.2.0"
-  resolved "https://registry.yarnpkg.com/@types/glob/-/glob-7.2.0.tgz#bc1b5bf3aa92f25bd5dd39f35c57361bdce5b2eb"
-  integrity sha512-ZUxbzKl0IfJILTS6t7ip5fQQM/J3TJYubDm3nMbgubNNYS62eXeUpoLUC8/7fJNiFYHTrGPQn7hspDUzIHX3UA==
+"@types/glob@8.0.0":
+  version "8.0.0"
+  resolved "https://registry.yarnpkg.com/@types/glob/-/glob-8.0.0.tgz#321607e9cbaec54f687a0792b2d1d370739455d2"
+  integrity sha512-l6NQsDDyQUVeoTynNpC9uRvCUint/gSUXQA2euwmTuWGvPY5LSDUu6tkCtJB2SvGQlJQzLaKqcGZP4//7EDveA==
   dependencies:
     "@types/minimatch" "*"
     "@types/node" "*"
@@ -1859,13 +1877,13 @@
   dependencies:
     "@types/istanbul-lib-report" "*"
 
-"@types/jest@28.1.6":
-  version "28.1.6"
-  resolved "https://registry.yarnpkg.com/@types/jest/-/jest-28.1.6.tgz#d6a9cdd38967d2d746861fb5be6b120e38284dd4"
-  integrity sha512-0RbGAFMfcBJKOmqRazM8L98uokwuwD5F8rHrv/ZMbrZBwVOWZUyPG6VFNscjYr/vjM3Vu4fRrCPbOs42AfemaQ==
+"@types/jest@29.1.1":
+  version "29.1.1"
+  resolved "https://registry.yarnpkg.com/@types/jest/-/jest-29.1.1.tgz#cf21a0835a1ba9a30ea1966019f1261c6a114c92"
+  integrity sha512-U9Ey07dGWl6fUFaIaUQUKWG5NoKi/zizeVQCGV8s4nSU0jPgqphVZvS64+8BtWYvrc3ZGw6wo943NSYPxkrp/g==
   dependencies:
-    jest-matcher-utils "^28.0.0"
-    pretty-format "^28.0.0"
+    expect "^29.0.0"
+    pretty-format "^29.0.0"
 
 "@types/json-schema@*", "@types/json-schema@^7.0.8", "@types/json-schema@^7.0.9":
   version "7.0.11"
@@ -1887,11 +1905,16 @@
   resolved "https://registry.yarnpkg.com/@types/minimist/-/minimist-1.2.2.tgz#ee771e2ba4b3dc5b372935d549fd9617bf345b8c"
   integrity sha512-jhuKLIRrhvCPLqwPcx6INqmKeiA5EWrsCOPhrlFSrbrmU4ZMPjj5Ul/oLCMDO98XRUIwVm78xICz4EPCektzeQ==
 
-"@types/node@*", "@types/node@^18.6.4":
+"@types/node@*":
   version "18.6.4"
   resolved "https://registry.yarnpkg.com/@types/node/-/node-18.6.4.tgz#fd26723a8a3f8f46729812a7f9b4fc2d1608ed39"
   integrity sha512-I4BD3L+6AWiUobfxZ49DlU43gtI+FTHSv9pE2Zekg6KjMpre4ByusaljW3vYSLJrvQ1ck1hUaeVu8HVlY3vzHg==
 
+"@types/node@18.7.23":
+  version "18.7.23"
+  resolved "https://registry.yarnpkg.com/@types/node/-/node-18.7.23.tgz#75c580983846181ebe5f4abc40fe9dfb2d65665f"
+  integrity sha512-DWNcCHolDq0ZKGizjx2DZjR/PqsYwAcYUJmfMWqtVU2MBMG5Mo+xFZrhGId5r/O5HOuMPyQEcM6KUBp5lBZZBg==
+
 "@types/node@^13.7.4":
   version "13.13.52"
   resolved "https://registry.yarnpkg.com/@types/node/-/node-13.13.52.tgz#03c13be70b9031baaed79481c0c0cfb0045e53f7"
@@ -1966,29 +1989,28 @@
   dependencies:
     "@types/yargs-parser" "*"
 
-"@typescript-eslint/eslint-plugin@5.32.0":
-  version "5.32.0"
-  resolved "https://registry.yarnpkg.com/@typescript-eslint/eslint-plugin/-/eslint-plugin-5.32.0.tgz#e27e38cffa4a61226327c874a7be965e9a861624"
-  integrity sha512-CHLuz5Uz7bHP2WgVlvoZGhf0BvFakBJKAD/43Ty0emn4wXWv5k01ND0C0fHcl/Im8Td2y/7h44E9pca9qAu2ew==
+"@typescript-eslint/eslint-plugin@5.38.1":
+  version "5.38.1"
+  resolved "https://registry.yarnpkg.com/@typescript-eslint/eslint-plugin/-/eslint-plugin-5.38.1.tgz#9f05d42fa8fb9f62304cc2f5c2805e03c01c2620"
+  integrity sha512-ky7EFzPhqz3XlhS7vPOoMDaQnQMn+9o5ICR9CPr/6bw8HrFkzhMSxuA3gRfiJVvs7geYrSeawGJjZoZQKCOglQ==
   dependencies:
-    "@typescript-eslint/scope-manager" "5.32.0"
-    "@typescript-eslint/type-utils" "5.32.0"
-    "@typescript-eslint/utils" "5.32.0"
+    "@typescript-eslint/scope-manager" "5.38.1"
+    "@typescript-eslint/type-utils" "5.38.1"
+    "@typescript-eslint/utils" "5.38.1"
     debug "^4.3.4"
-    functional-red-black-tree "^1.0.1"
     ignore "^5.2.0"
     regexpp "^3.2.0"
     semver "^7.3.7"
     tsutils "^3.21.0"
 
-"@typescript-eslint/parser@5.32.0":
-  version "5.32.0"
-  resolved "https://registry.yarnpkg.com/@typescript-eslint/parser/-/parser-5.32.0.tgz#1de243443bc6186fb153b9e395b842e46877ca5d"
-  integrity sha512-IxRtsehdGV9GFQ35IGm5oKKR2OGcazUoiNBxhRV160iF9FoyuXxjY+rIqs1gfnd+4eL98OjeGnMpE7RF/NBb3A==
+"@typescript-eslint/parser@5.38.1":
+  version "5.38.1"
+  resolved "https://registry.yarnpkg.com/@typescript-eslint/parser/-/parser-5.38.1.tgz#c577f429f2c32071b92dff4af4f5fbbbd2414bd0"
+  integrity sha512-LDqxZBVFFQnQRz9rUZJhLmox+Ep5kdUmLatLQnCRR6523YV+XhRjfYzStQ4MheFA8kMAfUlclHSbu+RKdRwQKw==
   dependencies:
-    "@typescript-eslint/scope-manager" "5.32.0"
-    "@typescript-eslint/types" "5.32.0"
-    "@typescript-eslint/typescript-estree" "5.32.0"
+    "@typescript-eslint/scope-manager" "5.38.1"
+    "@typescript-eslint/types" "5.38.1"
+    "@typescript-eslint/typescript-estree" "5.38.1"
     debug "^4.3.4"
 
 "@typescript-eslint/scope-manager@5.32.0":
@@ -1999,12 +2021,21 @@
     "@typescript-eslint/types" "5.32.0"
     "@typescript-eslint/visitor-keys" "5.32.0"
 
-"@typescript-eslint/type-utils@5.32.0":
-  version "5.32.0"
-  resolved "https://registry.yarnpkg.com/@typescript-eslint/type-utils/-/type-utils-5.32.0.tgz#45a14506fe3fb908600b4cef2f70778f7b5cdc79"
-  integrity sha512-0gSsIhFDduBz3QcHJIp3qRCvVYbqzHg8D6bHFsDMrm0rURYDj+skBK2zmYebdCp+4nrd9VWd13egvhYFJj/wZg==
+"@typescript-eslint/scope-manager@5.38.1":
+  version "5.38.1"
+  resolved "https://registry.yarnpkg.com/@typescript-eslint/scope-manager/-/scope-manager-5.38.1.tgz#f87b289ef8819b47189351814ad183e8801d5764"
+  integrity sha512-BfRDq5RidVU3RbqApKmS7RFMtkyWMM50qWnDAkKgQiezRtLKsoyRKIvz1Ok5ilRWeD9IuHvaidaLxvGx/2eqTQ==
+  dependencies:
+    "@typescript-eslint/types" "5.38.1"
+    "@typescript-eslint/visitor-keys" "5.38.1"
+
+"@typescript-eslint/type-utils@5.38.1":
+  version "5.38.1"
+  resolved "https://registry.yarnpkg.com/@typescript-eslint/type-utils/-/type-utils-5.38.1.tgz#7f038fcfcc4ade4ea76c7c69b2aa25e6b261f4c1"
+  integrity sha512-UU3j43TM66gYtzo15ivK2ZFoDFKKP0k03MItzLdq0zV92CeGCXRfXlfQX5ILdd4/DSpHkSjIgLLLh1NtkOJOAw==
   dependencies:
-    "@typescript-eslint/utils" "5.32.0"
+    "@typescript-eslint/typescript-estree" "5.38.1"
+    "@typescript-eslint/utils" "5.38.1"
     debug "^4.3.4"
     tsutils "^3.21.0"
 
@@ -2013,6 +2044,11 @@
   resolved "https://registry.yarnpkg.com/@typescript-eslint/types/-/types-5.32.0.tgz#484273021eeeae87ddb288f39586ef5efeb6dcd8"
   integrity sha512-EBUKs68DOcT/EjGfzywp+f8wG9Zw6gj6BjWu7KV/IYllqKJFPlZlLSYw/PTvVyiRw50t6wVbgv4p9uE2h6sZrQ==
 
+"@typescript-eslint/types@5.38.1":
+  version "5.38.1"
+  resolved "https://registry.yarnpkg.com/@typescript-eslint/types/-/types-5.38.1.tgz#74f9d6dcb8dc7c58c51e9fbc6653ded39e2e225c"
+  integrity sha512-QTW1iHq1Tffp9lNfbfPm4WJabbvpyaehQ0SrvVK2yfV79SytD9XDVxqiPvdrv2LK7DGSFo91TB2FgWanbJAZXg==
+
 "@typescript-eslint/typescript-estree@5.32.0":
   version "5.32.0"
   resolved "https://registry.yarnpkg.com/@typescript-eslint/typescript-estree/-/typescript-estree-5.32.0.tgz#282943f34babf07a4afa7b0ff347a8e7b6030d12"
@@ -2026,7 +2062,32 @@
     semver "^7.3.7"
     tsutils "^3.21.0"
 
-"@typescript-eslint/utils@5.32.0", "@typescript-eslint/utils@^5.10.0":
+"@typescript-eslint/typescript-estree@5.38.1":
+  version "5.38.1"
+  resolved "https://registry.yarnpkg.com/@typescript-eslint/typescript-estree/-/typescript-estree-5.38.1.tgz#657d858d5d6087f96b638ee383ee1cff52605a1e"
+  integrity sha512-99b5e/Enoe8fKMLdSuwrfH/C0EIbpUWmeEKHmQlGZb8msY33qn1KlkFww0z26o5Omx7EVjzVDCWEfrfCDHfE7g==
+  dependencies:
+    "@typescript-eslint/types" "5.38.1"
+    "@typescript-eslint/visitor-keys" "5.38.1"
+    debug "^4.3.4"
+    globby "^11.1.0"
+    is-glob "^4.0.3"
+    semver "^7.3.7"
+    tsutils "^3.21.0"
+
+"@typescript-eslint/utils@5.38.1":
+  version "5.38.1"
+  resolved "https://registry.yarnpkg.com/@typescript-eslint/utils/-/utils-5.38.1.tgz#e3ac37d7b33d1362bb5adf4acdbe00372fb813ef"
+  integrity sha512-oIuUiVxPBsndrN81oP8tXnFa/+EcZ03qLqPDfSZ5xIJVm7A9V0rlkQwwBOAGtrdN70ZKDlKv+l1BeT4eSFxwXA==
+  dependencies:
+    "@types/json-schema" "^7.0.9"
+    "@typescript-eslint/scope-manager" "5.38.1"
+    "@typescript-eslint/types" "5.38.1"
+    "@typescript-eslint/typescript-estree" "5.38.1"
+    eslint-scope "^5.1.1"
+    eslint-utils "^3.0.0"
+
+"@typescript-eslint/utils@^5.10.0":
   version "5.32.0"
   resolved "https://registry.yarnpkg.com/@typescript-eslint/utils/-/utils-5.32.0.tgz#eccb6b672b94516f1afc6508d05173c45924840c"
   integrity sha512-W7lYIAI5Zlc5K082dGR27Fczjb3Q57ECcXefKU/f0ajM5ToM0P+N9NmJWip8GmGu/g6QISNT+K6KYB+iSHjXCQ==
@@ -2046,6 +2107,14 @@
     "@typescript-eslint/types" "5.32.0"
     eslint-visitor-keys "^3.3.0"
 
+"@typescript-eslint/visitor-keys@5.38.1":
+  version "5.38.1"
+  resolved "https://registry.yarnpkg.com/@typescript-eslint/visitor-keys/-/visitor-keys-5.38.1.tgz#508071bfc6b96d194c0afe6a65ad47029059edbc"
+  integrity sha512-bSHr1rRxXt54+j2n4k54p4fj8AHJ49VDWtjpImOpzQj4qjAiOpPni+V1Tyajh19Api1i844F757cur8wH3YvOA==
+  dependencies:
+    "@typescript-eslint/types" "5.38.1"
+    eslint-visitor-keys "^3.3.0"
+
 "@webassemblyjs/ast@1.11.1":
   version "1.11.1"
   resolved "https://registry.yarnpkg.com/@webassemblyjs/ast/-/ast-1.11.1.tgz#2bfd767eae1a6996f432ff7e8d7fc75679c0b6a7"
@@ -2177,6 +2246,26 @@
   resolved "https://registry.yarnpkg.com/@xtuc/long/-/long-4.2.2.tgz#d291c6a4e97989b5c61d9acf396ae4fe133a718d"
   integrity sha512-NuHqBY1PB/D8xU6s/thBgOAiAP7HOYDQ32+BFZILJ8ivkUkAHQnWfn6WhL79Owj1qmUnoN/YPhktdIoucipkAQ==
 
+"@yarnpkg/lockfile@^1.1.0":
+  version "1.1.0"
+  resolved "https://registry.yarnpkg.com/@yarnpkg/lockfile/-/lockfile-1.1.0.tgz#e77a97fbd345b76d83245edcd17d393b1b41fb31"
+  integrity sha512-GpSwvyXOcOOlV70vbnzjj4fW5xW/FdUF6nQEt1ENy7m4ZCczi1+/buVUPAqmGfqznsORNFzUMjctTIp8a9tuCQ==
+
+"@yarnpkg/parsers@^3.0.0-rc.18":
+  version "3.0.0-rc.22"
+  resolved "https://registry.yarnpkg.com/@yarnpkg/parsers/-/parsers-3.0.0-rc.22.tgz#a78e10e1919ba706beb6a514ddcb09515607ada9"
+  integrity sha512-GAWDjXduYBUVmOzlj3X0OwTQ1BV4ZeDdgw8yXST3K0lB95drWEGxa1at0v7BmHDyK2y1F1IJufc8N4yrcuXjWg==
+  dependencies:
+    js-yaml "^3.10.0"
+    tslib "^2.4.0"
+
+"@zkochan/js-yaml@0.0.6":
+  version "0.0.6"
+  resolved "https://registry.yarnpkg.com/@zkochan/js-yaml/-/js-yaml-0.0.6.tgz#975f0b306e705e28b8068a07737fa46d3fc04826"
+  integrity sha512-nzvgl3VfhcELQ8LyVrYOru+UtAy1nrygk2+AGbTm8a5YcO6o8lSjAT+pfg3vJWxIoZKOUhrK6UU7xW/+00kQrg==
+  dependencies:
+    argparse "^2.0.1"
+
 JSONStream@^1.0.4:
   version "1.3.5"
   resolved "https://registry.yarnpkg.com/JSONStream/-/JSONStream-1.3.5.tgz#3208c1f08d3a4d99261ab64f92302bc15e111ca0"
@@ -2549,15 +2638,15 @@ atob@^2.1.2:
   resolved "https://registry.yarnpkg.com/atob/-/atob-2.1.2.tgz#6d9517eb9e030d2436666651e86bd9f6f13533c9"
   integrity sha512-Wm6ukoaOGJi/73p/cl2GvLjTI5JM1k/O14isD73YML8StrH/7/lRFgmg8nICZgD3bZZvjwCGxtMOD3wWNAu8cg==
 
-babel-jest@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/babel-jest/-/babel-jest-28.1.3.tgz#c1187258197c099072156a0a121c11ee1e3917d5"
-  integrity sha512-epUaPOEWMk3cWX0M/sPvCHHCe9fMFAa/9hXEgKP8nFfNl/jlGkE9ucq9NqkZGXLDduCJYS0UvSlPUwC0S+rH6Q==
+babel-jest@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/babel-jest/-/babel-jest-29.1.2.tgz#540d3241925c55240fb0c742e3ffc5f33a501978"
+  integrity sha512-IuG+F3HTHryJb7gacC7SQ59A9kO56BctUsT67uJHp1mMCHUOMXpDwOHWGifWqdWVknN2WNkCVQELPjXx0aLJ9Q==
   dependencies:
-    "@jest/transform" "^28.1.3"
+    "@jest/transform" "^29.1.2"
     "@types/babel__core" "^7.1.14"
     babel-plugin-istanbul "^6.1.1"
-    babel-preset-jest "^28.1.3"
+    babel-preset-jest "^29.0.2"
     chalk "^4.0.0"
     graceful-fs "^4.2.9"
     slash "^3.0.0"
@@ -2573,10 +2662,10 @@ babel-plugin-istanbul@^6.1.1:
     istanbul-lib-instrument "^5.0.4"
     test-exclude "^6.0.0"
 
-babel-plugin-jest-hoist@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/babel-plugin-jest-hoist/-/babel-plugin-jest-hoist-28.1.3.tgz#1952c4d0ea50f2d6d794353762278d1d8cca3fbe"
-  integrity sha512-Ys3tUKAmfnkRUpPdpa98eYrAR0nV+sSFUZZEGuQ2EbFd1y4SOLtD5QDNHAq+bb9a+bbXvYQC4b+ID/THIMcU6Q==
+babel-plugin-jest-hoist@^29.0.2:
+  version "29.0.2"
+  resolved "https://registry.yarnpkg.com/babel-plugin-jest-hoist/-/babel-plugin-jest-hoist-29.0.2.tgz#ae61483a829a021b146c016c6ad39b8bcc37c2c8"
+  integrity sha512-eBr2ynAEFjcebVvu8Ktx580BD1QKCrBG1XwEUTXJe285p9HA/4hOhfWCFRQhTKSyBV0VzjhG7H91Eifz9s29hg==
   dependencies:
     "@babel/template" "^7.3.3"
     "@babel/types" "^7.3.3"
@@ -2601,12 +2690,12 @@ babel-preset-current-node-syntax@^1.0.0:
     "@babel/plugin-syntax-optional-chaining" "^7.8.3"
     "@babel/plugin-syntax-top-level-await" "^7.8.3"
 
-babel-preset-jest@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/babel-preset-jest/-/babel-preset-jest-28.1.3.tgz#5dfc20b99abed5db994406c2b9ab94c73aaa419d"
-  integrity sha512-L+fupJvlWAHbQfn74coNX3zf60LXMJsezNvvx8eIh7iOR1luJ1poxYgQk1F8PYtNq/6QODDHCqsSnTFSWC491A==
+babel-preset-jest@^29.0.2:
+  version "29.0.2"
+  resolved "https://registry.yarnpkg.com/babel-preset-jest/-/babel-preset-jest-29.0.2.tgz#e14a7124e22b161551818d89e5bdcfb3b2b0eac7"
+  integrity sha512-BeVXp7rH5TK96ofyEnHjznjLMQ2nAeDJ+QzxKnHAAMs0RgrQsCywjAN8m4mOm5Di0pxU//3AoEeJJrerMH5UeA==
   dependencies:
-    babel-plugin-jest-hoist "^28.1.3"
+    babel-plugin-jest-hoist "^29.0.2"
     babel-preset-current-node-syntax "^1.0.0"
 
 bach@^1.0.0:
@@ -2919,15 +3008,6 @@ caniuse-lite@^1.0.30001370:
   resolved "https://registry.yarnpkg.com/caniuse-lite/-/caniuse-lite-1.0.30001374.tgz#3dab138e3f5485ba2e74bd13eca7fe1037ce6f57"
   integrity sha512-mWvzatRx3w+j5wx/mpFN5v5twlPrabG8NqX2c6e45LCpymdoGqNvRkRutFUqpRTXKFQFNQJasvK0YT7suW6/Hw==
 
-chalk@2.x, chalk@^2.0.0, chalk@^2.4.2:
-  version "2.4.2"
-  resolved "https://registry.yarnpkg.com/chalk/-/chalk-2.4.2.tgz#cd42541677a54333cf541a49108c1432b44c9424"
-  integrity sha512-Mti+f9lpJNcwF4tWV8/OrTTtF1gZi+f8FqlyAdouralcFWFQWF2+NgCHShjkCb+IFBLq9buZwE1xckQU4peSuQ==
-  dependencies:
-    ansi-styles "^3.2.1"
-    escape-string-regexp "^1.0.5"
-    supports-color "^5.3.0"
-
 chalk@4.1.0:
   version "4.1.0"
   resolved "https://registry.yarnpkg.com/chalk/-/chalk-4.1.0.tgz#4e14870a618d9e2edd97dd8345fd9d9dc315646a"
@@ -2936,7 +3016,7 @@ chalk@4.1.0:
     ansi-styles "^4.1.0"
     supports-color "^7.1.0"
 
-chalk@^4.0.0, chalk@^4.1.0, chalk@^4.1.1:
+chalk@4.x, chalk@^4.0.0, chalk@^4.1.0, chalk@^4.1.1:
   version "4.1.2"
   resolved "https://registry.yarnpkg.com/chalk/-/chalk-4.1.2.tgz#aac4e2b7734a740867aeb16bf02aad556a1e7a01"
   integrity sha512-oKnbhFyRIXpUuez8iBMmyEa4nbj4IOQyuhc/wy9kY7/WVPcwIO9VA668Pu8RkO7+0G76SLROeyw9CpQ061i4mA==
@@ -2944,6 +3024,15 @@ chalk@^4.0.0, chalk@^4.1.0, chalk@^4.1.1:
     ansi-styles "^4.1.0"
     supports-color "^7.1.0"
 
+chalk@^2.0.0, chalk@^2.4.2:
+  version "2.4.2"
+  resolved "https://registry.yarnpkg.com/chalk/-/chalk-2.4.2.tgz#cd42541677a54333cf541a49108c1432b44c9424"
+  integrity sha512-Mti+f9lpJNcwF4tWV8/OrTTtF1gZi+f8FqlyAdouralcFWFQWF2+NgCHShjkCb+IFBLq9buZwE1xckQU4peSuQ==
+  dependencies:
+    ansi-styles "^3.2.1"
+    escape-string-regexp "^1.0.5"
+    supports-color "^5.3.0"
+
 char-regex@^1.0.2:
   version "1.0.2"
   resolved "https://registry.yarnpkg.com/char-regex/-/char-regex-1.0.2.tgz#d744358226217f981ed58f479b1d6bcc29545dcf"
@@ -3660,10 +3749,10 @@ dezalgo@^1.0.0:
     asap "^2.0.0"
     wrappy "1"
 
-diff-sequences@^28.1.1:
-  version "28.1.1"
-  resolved "https://registry.yarnpkg.com/diff-sequences/-/diff-sequences-28.1.1.tgz#9989dc731266dc2903457a70e996f3a041913ac6"
-  integrity sha512-FU0iFaH/E23a+a718l8Qa/19bF9p06kgE0KipMOMadwa3SjnaElKzPaUC0vnibs6/B/9ni97s61mcejk8W1fQw==
+diff-sequences@^29.0.0:
+  version "29.0.0"
+  resolved "https://registry.yarnpkg.com/diff-sequences/-/diff-sequences-29.0.0.tgz#bae49972ef3933556bcb0800b72e8579d19d9e4f"
+  integrity sha512-7Qe/zd1wxSDL4D/X/FPjOMB+ZMDt71W94KYaq05I2l0oQqgXgs7s4ftYYmV38gBSrPz2vcygxfs1xn0FT+rKNA==
 
 diff@^4.0.1:
   version "4.0.2"
@@ -3840,137 +3929,138 @@ es6-weak-map@^2.0.1, es6-weak-map@^2.0.3:
     es6-iterator "^2.0.3"
     es6-symbol "^3.1.1"
 
-esbuild-android-64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-android-64/-/esbuild-android-64-0.14.53.tgz#259bc3ef1399a3cad8f4f67c40ee20779c4de675"
-  integrity sha512-fIL93sOTnEU+NrTAVMIKiAw0YH22HWCAgg4N4Z6zov2t0kY9RAJ50zY9ZMCQ+RT6bnOfDt8gCTnt/RaSNA2yRA==
-
-esbuild-android-arm64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-android-arm64/-/esbuild-android-arm64-0.14.53.tgz#2158253d4e8f9fdd2a081bbb4f73b8806178841e"
-  integrity sha512-PC7KaF1v0h/nWpvlU1UMN7dzB54cBH8qSsm7S9mkwFA1BXpaEOufCg8hdoEI1jep0KeO/rjZVWrsH8+q28T77A==
-
-esbuild-darwin-64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-darwin-64/-/esbuild-darwin-64-0.14.53.tgz#b4681831fd8f8d06feb5048acbe90d742074cc2a"
-  integrity sha512-gE7P5wlnkX4d4PKvLBUgmhZXvL7lzGRLri17/+CmmCzfncIgq8lOBvxGMiQ4xazplhxq+72TEohyFMZLFxuWvg==
-
-esbuild-darwin-arm64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-darwin-arm64/-/esbuild-darwin-arm64-0.14.53.tgz#d267d957852d121b261b3f76ead86e5b5463acc9"
-  integrity sha512-otJwDU3hnI15Q98PX4MJbknSZ/WSR1I45il7gcxcECXzfN4Mrpft5hBDHXNRnCh+5858uPXBXA1Vaz2jVWLaIA==
-
-esbuild-freebsd-64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-freebsd-64/-/esbuild-freebsd-64-0.14.53.tgz#aca2af6d72b537fe66a38eb8f374fb66d4c98ca0"
-  integrity sha512-WkdJa8iyrGHyKiPF4lk0MiOF87Q2SkE+i+8D4Cazq3/iqmGPJ6u49je300MFi5I2eUsQCkaOWhpCVQMTKGww2w==
-
-esbuild-freebsd-arm64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-freebsd-arm64/-/esbuild-freebsd-arm64-0.14.53.tgz#76282e19312d914c34343c8a7da6cc5f051580b9"
-  integrity sha512-9T7WwCuV30NAx0SyQpw8edbKvbKELnnm1FHg7gbSYaatH+c8WJW10g/OdM7JYnv7qkimw2ZTtSA+NokOLd2ydQ==
-
-esbuild-linux-32@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-linux-32/-/esbuild-linux-32-0.14.53.tgz#1045d34cf7c5faaf2af3b29cc1573b06580c37e5"
-  integrity sha512-VGanLBg5en2LfGDgLEUxQko2lqsOS7MTEWUi8x91YmsHNyzJVT/WApbFFx3MQGhkf+XdimVhpyo5/G0PBY91zg==
-
-esbuild-linux-64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-linux-64/-/esbuild-linux-64-0.14.53.tgz#ab3f2ee2ebb5a6930c72d9539cb34b428808cbe4"
-  integrity sha512-pP/FA55j/fzAV7N9DF31meAyjOH6Bjuo3aSKPh26+RW85ZEtbJv9nhoxmGTd9FOqjx59Tc1ZbrJabuiXlMwuZQ==
-
-esbuild-linux-arm64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-linux-arm64/-/esbuild-linux-arm64-0.14.53.tgz#1f5530412f6690949e78297122350488d3266cfe"
-  integrity sha512-GDmWITT+PMsjCA6/lByYk7NyFssW4Q6in32iPkpjZ/ytSyH+xeEx8q7HG3AhWH6heemEYEWpTll/eui3jwlSnw==
-
-esbuild-linux-arm@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-linux-arm/-/esbuild-linux-arm-0.14.53.tgz#a44ec9b5b42007ab6c0d65a224ccc6bbd97c54cf"
-  integrity sha512-/u81NGAVZMopbmzd21Nu/wvnKQK3pT4CrvQ8BTje1STXcQAGnfyKgQlj3m0j2BzYbvQxSy+TMck4TNV2onvoPA==
-
-esbuild-linux-mips64le@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-linux-mips64le/-/esbuild-linux-mips64le-0.14.53.tgz#a4d0b6b17cfdeea4e41b0b085a5f73d99311be9f"
-  integrity sha512-d6/XHIQW714gSSp6tOOX2UscedVobELvQlPMkInhx1NPz4ThZI9uNLQ4qQJHGBGKGfu+rtJsxM4NVHLhnNRdWQ==
-
-esbuild-linux-ppc64le@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-linux-ppc64le/-/esbuild-linux-ppc64le-0.14.53.tgz#8c331822c85465434e086e3e6065863770c38139"
-  integrity sha512-ndnJmniKPCB52m+r6BtHHLAOXw+xBCWIxNnedbIpuREOcbSU/AlyM/2dA3BmUQhsHdb4w3amD5U2s91TJ3MzzA==
-
-esbuild-linux-riscv64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-linux-riscv64/-/esbuild-linux-riscv64-0.14.53.tgz#36fd75543401304bea8a2d63bf8ea18aaa508e00"
-  integrity sha512-yG2sVH+QSix6ct4lIzJj329iJF3MhloLE6/vKMQAAd26UVPVkhMFqFopY+9kCgYsdeWvXdPgmyOuKa48Y7+/EQ==
-
-esbuild-linux-s390x@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-linux-s390x/-/esbuild-linux-s390x-0.14.53.tgz#1622677ab6824123f48f75d3afc031cd41936129"
-  integrity sha512-OCJlgdkB+XPYndHmw6uZT7jcYgzmx9K+28PVdOa/eLjdoYkeAFvH5hTwX4AXGLZLH09tpl4bVsEtvuyUldaNCg==
-
-esbuild-netbsd-64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-netbsd-64/-/esbuild-netbsd-64-0.14.53.tgz#e86d0efd0116658be335492ed12e66b26b4baf52"
-  integrity sha512-gp2SB+Efc7MhMdWV2+pmIs/Ja/Mi5rjw+wlDmmbIn68VGXBleNgiEZG+eV2SRS0kJEUyHNedDtwRIMzaohWedQ==
-
-esbuild-openbsd-64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-openbsd-64/-/esbuild-openbsd-64-0.14.53.tgz#9bcbbe6f86304872c6e91f64c8eb73fc29c3588b"
-  integrity sha512-eKQ30ZWe+WTZmteDYg8S+YjHV5s4iTxeSGhJKJajFfQx9TLZJvsJX0/paqwP51GicOUruFpSUAs2NCc0a4ivQQ==
+esbuild-android-64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-android-64/-/esbuild-android-64-0.15.10.tgz#8a59a84acbf2eca96996cadc35642cf055c494f0"
+  integrity sha512-UI7krF8OYO1N7JYTgLT9ML5j4+45ra3amLZKx7LO3lmLt1Ibn8t3aZbX5Pu4BjWiqDuJ3m/hsvhPhK/5Y/YpnA==
+
+esbuild-android-arm64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-android-arm64/-/esbuild-android-arm64-0.15.10.tgz#f453851dc1d8c5409a38cf7613a33852faf4915d"
+  integrity sha512-EOt55D6xBk5O05AK8brXUbZmoFj4chM8u3riGflLa6ziEoVvNjRdD7Cnp82NHQGfSHgYR06XsPI8/sMuA/cUwg==
+
+esbuild-darwin-64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-darwin-64/-/esbuild-darwin-64-0.15.10.tgz#778bd29c8186ff47b176c8af58c08cf0fb8e6b86"
+  integrity sha512-hbDJugTicqIm+WKZgp208d7FcXcaK8j2c0l+fqSJ3d2AzQAfjEYDRM3Z2oMeqSJ9uFxyj/muSACLdix7oTstRA==
+
+esbuild-darwin-arm64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-darwin-arm64/-/esbuild-darwin-arm64-0.15.10.tgz#b30bbefb46dc3c5d4708b0435e52f6456578d6df"
+  integrity sha512-M1t5+Kj4IgSbYmunf2BB6EKLkWUq+XlqaFRiGOk8bmBapu9bCDrxjf4kUnWn59Dka3I27EiuHBKd1rSO4osLFQ==
+
+esbuild-freebsd-64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-freebsd-64/-/esbuild-freebsd-64-0.15.10.tgz#ab301c5f6ded5110dbdd611140bef1a7c2e99236"
+  integrity sha512-KMBFMa7C8oc97nqDdoZwtDBX7gfpolkk6Bcmj6YFMrtCMVgoU/x2DI1p74DmYl7CSS6Ppa3xgemrLrr5IjIn0w==
+
+esbuild-freebsd-arm64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-freebsd-arm64/-/esbuild-freebsd-arm64-0.15.10.tgz#a5b09b867a6ff49110f52343b6f12265db63d43f"
+  integrity sha512-m2KNbuCX13yQqLlbSojFMHpewbn8wW5uDS6DxRpmaZKzyq8Dbsku6hHvh2U+BcLwWY4mpgXzFUoENEf7IcioGg==
+
+esbuild-linux-32@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-linux-32/-/esbuild-linux-32-0.15.10.tgz#5282fe9915641caf9c8070e4ba2c3e16d358f837"
+  integrity sha512-guXrwSYFAvNkuQ39FNeV4sNkNms1bLlA5vF1H0cazZBOLdLFIny6BhT+TUbK/hdByMQhtWQ5jI9VAmPKbVPu1w==
+
+esbuild-linux-64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-linux-64/-/esbuild-linux-64-0.15.10.tgz#f3726e85a00149580cb19f8abfabcbb96f5d52bb"
+  integrity sha512-jd8XfaSJeucMpD63YNMO1JCrdJhckHWcMv6O233bL4l6ogQKQOxBYSRP/XLWP+6kVTu0obXovuckJDcA0DKtQA==
+
+esbuild-linux-arm64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-linux-arm64/-/esbuild-linux-arm64-0.15.10.tgz#2f0056e9d5286edb0185b56655caa8c574d8dbe7"
+  integrity sha512-GByBi4fgkvZFTHFDYNftu1DQ1GzR23jws0oWyCfhnI7eMOe+wgwWrc78dbNk709Ivdr/evefm2PJiUBMiusS1A==
+
+esbuild-linux-arm@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-linux-arm/-/esbuild-linux-arm-0.15.10.tgz#40a9270da3c8ffa32cf72e24a79883e323dff08d"
+  integrity sha512-6N8vThLL/Lysy9y4Ex8XoLQAlbZKUyExCWyayGi2KgTBelKpPgj6RZnUaKri0dHNPGgReJriKVU6+KDGQwn10A==
+
+esbuild-linux-mips64le@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-linux-mips64le/-/esbuild-linux-mips64le-0.15.10.tgz#90ce1c4ee0202edb4ac69807dea77f7e5804abc4"
+  integrity sha512-BxP+LbaGVGIdQNJUNF7qpYjEGWb0YyHVSKqYKrn+pTwH/SiHUxFyJYSP3pqkku61olQiSBnSmWZ+YUpj78Tw7Q==
+
+esbuild-linux-ppc64le@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-linux-ppc64le/-/esbuild-linux-ppc64le-0.15.10.tgz#782837ae7bd5b279178106c9dd801755a21fabdf"
+  integrity sha512-LoSQCd6498PmninNgqd/BR7z3Bsk/mabImBWuQ4wQgmQEeanzWd5BQU2aNi9mBURCLgyheuZS6Xhrw5luw3OkQ==
+
+esbuild-linux-riscv64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-linux-riscv64/-/esbuild-linux-riscv64-0.15.10.tgz#d7420d806ece5174f24f4634303146f915ab4207"
+  integrity sha512-Lrl9Cr2YROvPV4wmZ1/g48httE8z/5SCiXIyebiB5N8VT7pX3t6meI7TQVHw/wQpqP/AF4SksDuFImPTM7Z32Q==
+
+esbuild-linux-s390x@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-linux-s390x/-/esbuild-linux-s390x-0.15.10.tgz#21fdf0cb3494a7fb520a71934e4dffce67fe47be"
+  integrity sha512-ReP+6q3eLVVP2lpRrvl5EodKX7EZ1bS1/z5j6hsluAlZP5aHhk6ghT6Cq3IANvvDdscMMCB4QEbI+AjtvoOFpA==
+
+esbuild-netbsd-64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-netbsd-64/-/esbuild-netbsd-64-0.15.10.tgz#6c06b3107e3df53de381e6299184d4597db0440f"
+  integrity sha512-iGDYtJCMCqldMskQ4eIV+QSS/CuT7xyy9i2/FjpKvxAuCzrESZXiA1L64YNj6/afuzfBe9i8m/uDkFHy257hTw==
+
+esbuild-openbsd-64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-openbsd-64/-/esbuild-openbsd-64-0.15.10.tgz#4daef5f5d8e74bbda53b65160029445d582570cf"
+  integrity sha512-ftMMIwHWrnrYnvuJQRJs/Smlcb28F9ICGde/P3FUTCgDDM0N7WA0o9uOR38f5Xe2/OhNCgkjNeb7QeaE3cyWkQ==
 
 esbuild-plugin-alias@0.2.1:
   version "0.2.1"
   resolved "https://registry.yarnpkg.com/esbuild-plugin-alias/-/esbuild-plugin-alias-0.2.1.tgz#45a86cb941e20e7c2bc68a2bea53562172494fcb"
   integrity sha512-jyfL/pwPqaFXyKnj8lP8iLk6Z0m099uXR45aSN8Av1XD4vhvQutxxPzgA2bTcAwQpa1zCXDcWOlhFgyP3GKqhQ==
 
-esbuild-sunos-64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-sunos-64/-/esbuild-sunos-64-0.14.53.tgz#f7a872f7460bfb7b131f7188a95fbce3d1c577e8"
-  integrity sha512-OWLpS7a2FrIRukQqcgQqR1XKn0jSJoOdT+RlhAxUoEQM/IpytS3FXzCJM6xjUYtpO5GMY0EdZJp+ur2pYdm39g==
-
-esbuild-windows-32@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-windows-32/-/esbuild-windows-32-0.14.53.tgz#c5e3ca50e2d1439cc2c9fe4defa63bcd474ce709"
-  integrity sha512-m14XyWQP5rwGW0tbEfp95U6A0wY0DYPInWBB7D69FAXUpBpBObRoGTKRv36lf2RWOdE4YO3TNvj37zhXjVL5xg==
-
-esbuild-windows-64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-windows-64/-/esbuild-windows-64-0.14.53.tgz#ec2ab4a60c5215f092ffe1eab6d01319e88238af"
-  integrity sha512-s9skQFF0I7zqnQ2K8S1xdLSfZFsPLuOGmSx57h2btSEswv0N0YodYvqLcJMrNMXh6EynOmWD7rz+0rWWbFpIHQ==
-
-esbuild-windows-arm64@0.14.53:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild-windows-arm64/-/esbuild-windows-arm64-0.14.53.tgz#f71d403806bdf9f4a1f9d097db9aec949bd675c8"
-  integrity sha512-E+5Gvb+ZWts+00T9II6wp2L3KG2r3iGxByqd/a1RmLmYWVsSVUjkvIxZuJ3hYTIbhLkH5PRwpldGTKYqVz0nzQ==
-
-esbuild@0.14.53, esbuild@^0.14.47:
-  version "0.14.53"
-  resolved "https://registry.yarnpkg.com/esbuild/-/esbuild-0.14.53.tgz#20b1007f686e8584f2a01a1bec5a37aac9498ce4"
-  integrity sha512-ohO33pUBQ64q6mmheX1mZ8mIXj8ivQY/L4oVuAshr+aJI+zLl+amrp3EodrUNDNYVrKJXGPfIHFGhO8slGRjuw==
+esbuild-sunos-64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-sunos-64/-/esbuild-sunos-64-0.15.10.tgz#5fe7bef267a02f322fd249a8214d0274937388a7"
+  integrity sha512-mf7hBL9Uo2gcy2r3rUFMjVpTaGpFJJE5QTDDqUFf1632FxteYANffDZmKbqX0PfeQ2XjUDE604IcE7OJeoHiyg==
+
+esbuild-windows-32@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-windows-32/-/esbuild-windows-32-0.15.10.tgz#48e3dde25ab0135579a288b30ab6ddef6d1f0b28"
+  integrity sha512-ttFVo+Cg8b5+qHmZHbEc8Vl17kCleHhLzgT8X04y8zudEApo0PxPg9Mz8Z2cKH1bCYlve1XL8LkyXGFjtUYeGg==
+
+esbuild-windows-64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-windows-64/-/esbuild-windows-64-0.15.10.tgz#387a9515bef3fee502d277a5d0a2db49a4ecda05"
+  integrity sha512-2H0gdsyHi5x+8lbng3hLbxDWR7mKHWh5BXZGKVG830KUmXOOWFE2YKJ4tHRkejRduOGDrBvHBriYsGtmTv3ntA==
+
+esbuild-windows-arm64@0.15.10:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild-windows-arm64/-/esbuild-windows-arm64-0.15.10.tgz#5a6fcf2fa49e895949bf5495cf088ab1b43ae879"
+  integrity sha512-S+th4F+F8VLsHLR0zrUcG+Et4hx0RKgK1eyHc08kztmLOES8BWwMiaGdoW9hiXuzznXQ0I/Fg904MNbr11Nktw==
+
+esbuild@0.15.10, esbuild@^0.15.3:
+  version "0.15.10"
+  resolved "https://registry.yarnpkg.com/esbuild/-/esbuild-0.15.10.tgz#85c2f8446e9b1fe04fae68daceacba033eedbd42"
+  integrity sha512-N7wBhfJ/E5fzn/SpNgX+oW2RLRjwaL8Y0ezqNqhjD6w0H2p0rDuEz2FKZqpqLnO8DCaWumKe8dsC/ljvVSSxng==
   optionalDependencies:
-    "@esbuild/linux-loong64" "0.14.53"
-    esbuild-android-64 "0.14.53"
-    esbuild-android-arm64 "0.14.53"
-    esbuild-darwin-64 "0.14.53"
-    esbuild-darwin-arm64 "0.14.53"
-    esbuild-freebsd-64 "0.14.53"
-    esbuild-freebsd-arm64 "0.14.53"
-    esbuild-linux-32 "0.14.53"
-    esbuild-linux-64 "0.14.53"
-    esbuild-linux-arm "0.14.53"
-    esbuild-linux-arm64 "0.14.53"
-    esbuild-linux-mips64le "0.14.53"
-    esbuild-linux-ppc64le "0.14.53"
-    esbuild-linux-riscv64 "0.14.53"
-    esbuild-linux-s390x "0.14.53"
-    esbuild-netbsd-64 "0.14.53"
-    esbuild-openbsd-64 "0.14.53"
-    esbuild-sunos-64 "0.14.53"
-    esbuild-windows-32 "0.14.53"
-    esbuild-windows-64 "0.14.53"
-    esbuild-windows-arm64 "0.14.53"
+    "@esbuild/android-arm" "0.15.10"
+    "@esbuild/linux-loong64" "0.15.10"
+    esbuild-android-64 "0.15.10"
+    esbuild-android-arm64 "0.15.10"
+    esbuild-darwin-64 "0.15.10"
+    esbuild-darwin-arm64 "0.15.10"
+    esbuild-freebsd-64 "0.15.10"
+    esbuild-freebsd-arm64 "0.15.10"
+    esbuild-linux-32 "0.15.10"
+    esbuild-linux-64 "0.15.10"
+    esbuild-linux-arm "0.15.10"
+    esbuild-linux-arm64 "0.15.10"
+    esbuild-linux-mips64le "0.15.10"
+    esbuild-linux-ppc64le "0.15.10"
+    esbuild-linux-riscv64 "0.15.10"
+    esbuild-linux-s390x "0.15.10"
+    esbuild-netbsd-64 "0.15.10"
+    esbuild-openbsd-64 "0.15.10"
+    esbuild-sunos-64 "0.15.10"
+    esbuild-windows-32 "0.15.10"
+    esbuild-windows-64 "0.15.10"
+    esbuild-windows-arm64 "0.15.10"
 
 escalade@^3.1.1:
   version "3.1.1"
@@ -3997,10 +4087,10 @@ escape-string-regexp@^4.0.0:
   resolved "https://registry.yarnpkg.com/escape-string-regexp/-/escape-string-regexp-4.0.0.tgz#14ba83a5d373e3d311e5afca29cf5bfad965bf34"
   integrity sha512-TtpcNJ3XAzx3Gq8sWRzJaVajRs0uVxA2YAkdb1jm2YkPz4G6egUFAyA3n5vtEIZefPk5Wa4UXbKuS5fKkJWdgA==
 
-eslint-plugin-jest@26.7.0:
-  version "26.7.0"
-  resolved "https://registry.yarnpkg.com/eslint-plugin-jest/-/eslint-plugin-jest-26.7.0.tgz#41d405ac9143e1284a3401282db47ed459436778"
-  integrity sha512-/YNitdfG3o3cC6juZziAdkk6nfJt01jXVfj4AgaYVLs7bupHzRDL5K+eipdzhDXtQsiqaX1TzfwSuRlEgeln1A==
+eslint-plugin-jest@27.0.4:
+  version "27.0.4"
+  resolved "https://registry.yarnpkg.com/eslint-plugin-jest/-/eslint-plugin-jest-27.0.4.tgz#ab9c7b3f48bfade4762c24c415a5d9bbc0174a61"
+  integrity sha512-BuvY78pHMpMJ6Cio7sKg6jrqEcnRYPUc4Nlihku4vKx3FjlmMINSX4vcYokZIe+8TKcyr1aI5Kq7vYwgJNdQSA==
   dependencies:
     "@typescript-eslint/utils" "^5.10.0"
 
@@ -4057,14 +4147,15 @@ eslint-visitor-keys@^3.3.0:
   resolved "https://registry.yarnpkg.com/eslint-visitor-keys/-/eslint-visitor-keys-3.3.0.tgz#f6480fa6b1f30efe2d1968aa8ac745b862469826"
   integrity sha512-mQ+suqKJVyeuwGYHAdjMFqjCyfl8+Ldnxuyp3ldiMBFKkvytrXUZWaiPCEav8qDHKty44bD+qV1IP4T+w+xXRA==
 
-eslint@8.21.0:
-  version "8.21.0"
-  resolved "https://registry.yarnpkg.com/eslint/-/eslint-8.21.0.tgz#1940a68d7e0573cef6f50037addee295ff9be9ef"
-  integrity sha512-/XJ1+Qurf1T9G2M5IHrsjp+xrGT73RZf23xA1z5wB1ZzzEAWSZKvRwhWxTFp1rvkvCfwcvAUNAP31bhKTTGfDA==
+eslint@8.24.0:
+  version "8.24.0"
+  resolved "https://registry.yarnpkg.com/eslint/-/eslint-8.24.0.tgz#489516c927a5da11b3979dbfb2679394523383c8"
+  integrity sha512-dWFaPhGhTAiPcCgm3f6LI2MBWbogMnTJzFBbhXVRQDJPkr9pGZvVjlVfXd+vyDcWPA2Ic9L2AXPIQM0+vk/cSQ==
   dependencies:
-    "@eslint/eslintrc" "^1.3.0"
-    "@humanwhocodes/config-array" "^0.10.4"
+    "@eslint/eslintrc" "^1.3.2"
+    "@humanwhocodes/config-array" "^0.10.5"
     "@humanwhocodes/gitignore-to-minimatch" "^1.0.2"
+    "@humanwhocodes/module-importer" "^1.0.1"
     ajv "^6.10.0"
     chalk "^4.0.0"
     cross-spawn "^7.0.2"
@@ -4074,13 +4165,12 @@ eslint@8.21.0:
     eslint-scope "^7.1.1"
     eslint-utils "^3.0.0"
     eslint-visitor-keys "^3.3.0"
-    espree "^9.3.3"
+    espree "^9.4.0"
     esquery "^1.4.0"
     esutils "^2.0.2"
     fast-deep-equal "^3.1.3"
     file-entry-cache "^6.0.1"
     find-up "^5.0.0"
-    functional-red-black-tree "^1.0.1"
     glob-parent "^6.0.1"
     globals "^13.15.0"
     globby "^11.1.0"
@@ -4089,6 +4179,7 @@ eslint@8.21.0:
     import-fresh "^3.0.0"
     imurmurhash "^0.1.4"
     is-glob "^4.0.0"
+    js-sdsl "^4.1.4"
     js-yaml "^4.1.0"
     json-stable-stringify-without-jsonify "^1.0.1"
     levn "^0.4.1"
@@ -4100,16 +4191,15 @@ eslint@8.21.0:
     strip-ansi "^6.0.1"
     strip-json-comments "^3.1.0"
     text-table "^0.2.0"
-    v8-compile-cache "^2.0.3"
 
 "esm@https://github.com/jsg2021/esm/releases/download/v3.x.x-pr883/esm-3.x.x-pr883.tgz":
   version "3.2.25"
   resolved "https://github.com/jsg2021/esm/releases/download/v3.x.x-pr883/esm-3.x.x-pr883.tgz#c463cfa4e14aceea6b7cd7e669ef90de072ea60a"
 
-espree@^9.3.2, espree@^9.3.3:
-  version "9.3.3"
-  resolved "https://registry.yarnpkg.com/espree/-/espree-9.3.3.tgz#2dd37c4162bb05f433ad3c1a52ddf8a49dc08e9d"
-  integrity sha512-ORs1Rt/uQTqUKjDdGCyrtYxbazf5umATSf/K4qxjmZHORR6HJk+2s/2Pqe+Kk49HHINC/xNIrGfgh8sZcll0ng==
+espree@^9.4.0:
+  version "9.4.0"
+  resolved "https://registry.yarnpkg.com/espree/-/espree-9.4.0.tgz#cd4bc3d6e9336c433265fc0aa016fc1aaf182f8a"
+  integrity sha512-DQmnRpLj7f6TgN/NYb0MTzJXL+vJF9h3pHy4JhCIs3zwcgez8xmGg3sXHcEO97BrmO2OSvCwMdfdlyl+E9KjOw==
   dependencies:
     acorn "^8.8.0"
     acorn-jsx "^5.3.2"
@@ -4212,16 +4302,16 @@ expand-tilde@^2.0.0, expand-tilde@^2.0.2:
   dependencies:
     homedir-polyfill "^1.0.1"
 
-expect@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/expect/-/expect-28.1.3.tgz#90a7c1a124f1824133dd4533cce2d2bdcb6603ec"
-  integrity sha512-eEh0xn8HlsuOBxFgIss+2mX85VAS4Qy3OSkjV7rlBWljtA4oWH37glVGyOZSZvErDT/yBywZdPGwCXuTvSG85g==
+expect@^29.0.0, expect@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/expect/-/expect-29.1.2.tgz#82f8f28d7d408c7c68da3a386a490ee683e1eced"
+  integrity sha512-AuAGn1uxva5YBbBlXb+2JPxJRuemZsmlGcapPXWNSBNsQtAULfjioREGBWuI0EOvYUKjDnrCy8PW5Zlr1md5mw==
   dependencies:
-    "@jest/expect-utils" "^28.1.3"
-    jest-get-type "^28.0.2"
-    jest-matcher-utils "^28.1.3"
-    jest-message-util "^28.1.3"
-    jest-util "^28.1.3"
+    "@jest/expect-utils" "^29.1.2"
+    jest-get-type "^29.0.0"
+    jest-matcher-utils "^29.1.2"
+    jest-message-util "^29.1.2"
+    jest-util "^29.1.2"
 
 ext@^1.1.2:
   version "1.6.0"
@@ -4310,7 +4400,7 @@ fast-glob@^3.2.11, fast-glob@^3.2.9:
     merge2 "^1.3.0"
     micromatch "^4.0.4"
 
-fast-json-stable-stringify@2.x, fast-json-stable-stringify@^2.0.0:
+fast-json-stable-stringify@2.x, fast-json-stable-stringify@^2.0.0, fast-json-stable-stringify@^2.1.0:
   version "2.1.0"
   resolved "https://registry.yarnpkg.com/fast-json-stable-stringify/-/fast-json-stable-stringify-2.1.0.tgz#874bf69c6f404c2b5d99c481341399fd55892633"
   integrity sha512-lhd/wF+Lk98HZoTCtlVraHtfh5XYijIjalXck7saUtuanSDyLMxnHhSXEDJqHxD7msR8D0uCmqlkwjCV8xvwHw==
@@ -4571,11 +4661,6 @@ function-bind@^1.1.1:
   resolved "https://registry.yarnpkg.com/function-bind/-/function-bind-1.1.1.tgz#a56899d3ea3c9bab874bb9773b7c5ede92f4895d"
   integrity sha512-yIovAzMX49sF8Yl58fSCWJ5svSLuaibPxXQJFLmBObTuCr0Mf1KiPopGM9NiFjiYBCbfaa2Fh6breQ6ANVTI0A==
 
-functional-red-black-tree@^1.0.1:
-  version "1.0.1"
-  resolved "https://registry.yarnpkg.com/functional-red-black-tree/-/functional-red-black-tree-1.0.1.tgz#1b0ab3bd553b2a0d6399d29c0e3ea0b252078327"
-  integrity sha512-dsKNQNdj6xA3T+QlADDA7mOSlX0qiMINjn0cgr+eGHGsbSHzTabcIogz2+p/iqP1Xs6EP/sS2SbqH+brGTbq0g==
-
 gauge@^4.0.3:
   version "4.0.4"
   resolved "https://registry.yarnpkg.com/gauge/-/gauge-4.0.4.tgz#52ff0652f2bbf607a989793d53b751bef2328dce"
@@ -4671,20 +4756,20 @@ git-semver-tags@^4.1.1:
     meow "^8.0.0"
     semver "^6.0.0"
 
-git-up@^6.0.0:
-  version "6.0.0"
-  resolved "https://registry.yarnpkg.com/git-up/-/git-up-6.0.0.tgz#dbd6e4eee270338be847a0601e6d0763c90b74db"
-  integrity sha512-6RUFSNd1c/D0xtGnyWN2sxza2bZtZ/EmI9448n6rCZruFwV/ezeEn2fJP7XnUQGwf0RAtd/mmUCbtH6JPYA2SA==
+git-up@^7.0.0:
+  version "7.0.0"
+  resolved "https://registry.yarnpkg.com/git-up/-/git-up-7.0.0.tgz#bace30786e36f56ea341b6f69adfd83286337467"
+  integrity sha512-ONdIrbBCFusq1Oy0sC71F5azx8bVkvtZtMJAsv+a6lz5YAmbNnLD6HAB4gptHZVLPR8S2/kVN6Gab7lryq5+lQ==
   dependencies:
     is-ssh "^1.4.0"
-    parse-url "^7.0.2"
+    parse-url "^8.1.0"
 
-git-url-parse@^12.0.0:
-  version "12.0.0"
-  resolved "https://registry.yarnpkg.com/git-url-parse/-/git-url-parse-12.0.0.tgz#4ba70bc1e99138321c57e3765aaf7428e5abb793"
-  integrity sha512-I6LMWsxV87vysX1WfsoglXsXg6GjQRKq7+Dgiseo+h0skmp5Hp2rzmcEIRQot9CPA+uzU7x1x7jZdqvTFGnB+Q==
+git-url-parse@^13.1.0:
+  version "13.1.0"
+  resolved "https://registry.yarnpkg.com/git-url-parse/-/git-url-parse-13.1.0.tgz#07e136b5baa08d59fabdf0e33170de425adf07b4"
+  integrity sha512-5FvPJP/70WkIprlUZ33bm4UAaFdjcLkJLpWft1BeZKqwR0uhhNGoKwlUaPtVb4LxCSQ++erHapRak9kWGj+FCA==
   dependencies:
-    git-up "^6.0.0"
+    git-up "^7.0.0"
 
 gitconfiglocal@^1.0.0:
   version "1.0.0"
@@ -4846,40 +4931,40 @@ glogg@^1.0.0:
   dependencies:
     sparkles "^1.0.0"
 
-google-closure-compiler-java@^20220719.0.0:
-  version "20220719.0.0"
-  resolved "https://registry.yarnpkg.com/google-closure-compiler-java/-/google-closure-compiler-java-20220719.0.0.tgz#a6dc7c7a7e58670d17467c64a77b2fd94418e38e"
-  integrity sha512-tjWdQSkFqxaFCgzUBaiJj2CxrWUYV0Ij2txp9Um+GyvrzMeX9rqHSUeW4I9cGpOrXkamvWCyAig4Yi0NZXApdg==
-
-google-closure-compiler-linux@^20220719.0.0:
-  version "20220719.0.0"
-  resolved "https://registry.yarnpkg.com/google-closure-compiler-linux/-/google-closure-compiler-linux-20220719.0.0.tgz#85ebdf3da6aaeee094295d6fc2be23324cf386c9"
-  integrity sha512-Em8QEAH7RC8T41QgTZC2keO0gsNdQgburXuXoF6gv2ySD/kJvNqrlZCCqLZMZUF6iuCpu3PgnMahdd3IrLpprA==
-
-google-closure-compiler-osx@^20220719.0.0:
-  version "20220719.0.0"
-  resolved "https://registry.yarnpkg.com/google-closure-compiler-osx/-/google-closure-compiler-osx-20220719.0.0.tgz#e97246adffc109a64bd79bcfdf964c78664c66da"
-  integrity sha512-NwOLgq0ftq0kY1jum6vrafwUMQrCJEpJu6wv5fW/TnYUprPJb1J0T7c4Su8wSm9rdvpqkkqWWMGpfb9RJBuM0g==
-
-google-closure-compiler-windows@^20220719.0.0:
-  version "20220719.0.0"
-  resolved "https://registry.yarnpkg.com/google-closure-compiler-windows/-/google-closure-compiler-windows-20220719.0.0.tgz#1177d2d27515d7d0867cdc4e258b32b499a6c005"
-  integrity sha512-Qi88lkU7a45SzCwdd9CV1D6paiiF7cEpBefkJIaNKi9MBfOZueHZH7Y8/56rdMhJLRjv5VMCGoJY4xH6FcXkvg==
-
-google-closure-compiler@20220719.0.0:
-  version "20220719.0.0"
-  resolved "https://registry.yarnpkg.com/google-closure-compiler/-/google-closure-compiler-20220719.0.0.tgz#234a53e0a09ea04ae04df6bab877e9c833afbd8f"
-  integrity sha512-0KTxUoX8WBZGeprvZfzp+czdi6wJ5wfJnG4RsIMEPFLR67fW4f+ghh04WSBLBt8kgT64NxaZGESjq23v0dbYNg==
-  dependencies:
-    chalk "2.x"
-    google-closure-compiler-java "^20220719.0.0"
+google-closure-compiler-java@^20220905.0.0:
+  version "20220905.0.0"
+  resolved "https://registry.yarnpkg.com/google-closure-compiler-java/-/google-closure-compiler-java-20220905.0.0.tgz#53d4b081c63fac09b6589729f5f359c8ec3ce27e"
+  integrity sha512-wxGxNla/0UDS1Lm0cRxEy85KhVRd0vNlsTclnIJ9f1gRWzvvTsJ4lwz+PdT60R6y2hKAOBvydIJHh+B8XJastA==
+
+google-closure-compiler-linux@^20220905.0.0:
+  version "20220905.0.0"
+  resolved "https://registry.yarnpkg.com/google-closure-compiler-linux/-/google-closure-compiler-linux-20220905.0.0.tgz#4cefd19938b522c1ac9b8254a44ecfffcb3354d8"
+  integrity sha512-kH09S66sz9+6wZmYM22VX8vG8KhCKJwFwXCfHx/ZOU6DBEzni6KfWrP+87CzTmZFEivclBhWAndm5HgNhSOEXQ==
+
+google-closure-compiler-osx@^20220905.0.0:
+  version "20220905.0.0"
+  resolved "https://registry.yarnpkg.com/google-closure-compiler-osx/-/google-closure-compiler-osx-20220905.0.0.tgz#0e685fb886db298af88b96ba683a04601f8c168b"
+  integrity sha512-4uo2GAz77gI8nDt4OA8VUYh/FNdjmTLOIRDazl7si+BOjgp9bC6C3E/88o+YHETsVtrPmZk57/W7vH0lftyTAw==
+
+google-closure-compiler-windows@^20220905.0.0:
+  version "20220905.0.0"
+  resolved "https://registry.yarnpkg.com/google-closure-compiler-windows/-/google-closure-compiler-windows-20220905.0.0.tgz#89b8767c4b6d95b4e8d13cc01bc6e4acdc5700dd"
+  integrity sha512-TZKHu6RHnrmgV90Gyen8+TGc0vgjgds80ErR+al5CqmfP9p+AskBbOe5CWZJht0bANrUhaeBMCrbs+7loFv06Q==
+
+google-closure-compiler@20220905.0.0:
+  version "20220905.0.0"
+  resolved "https://registry.yarnpkg.com/google-closure-compiler/-/google-closure-compiler-20220905.0.0.tgz#3e31cc164cea63789c04fca67f89661efec749de"
+  integrity sha512-idZavy2vn91HCmqEepjmLFjfOdYoRsh9PggUbazUpjAOrBQz0HOm3WjOICMiywre+EnY1QGss0srEBtFtukM6w==
+  dependencies:
+    chalk "4.x"
+    google-closure-compiler-java "^20220905.0.0"
     minimist "1.x"
     vinyl "2.x"
     vinyl-sourcemaps-apply "^0.2.0"
   optionalDependencies:
-    google-closure-compiler-linux "^20220719.0.0"
-    google-closure-compiler-osx "^20220719.0.0"
-    google-closure-compiler-windows "^20220719.0.0"
+    google-closure-compiler-linux "^20220905.0.0"
+    google-closure-compiler-osx "^20220905.0.0"
+    google-closure-compiler-windows "^20220905.0.0"
 
 graceful-fs@^4.0.0, graceful-fs@^4.1.11, graceful-fs@^4.1.15, graceful-fs@^4.1.2, graceful-fs@^4.1.6, graceful-fs@^4.2.0, graceful-fs@^4.2.10, graceful-fs@^4.2.4, graceful-fs@^4.2.6, graceful-fs@^4.2.9:
   version "4.2.10"
@@ -4915,13 +5000,13 @@ gulp-cli@^2.2.0:
     v8flags "^3.2.0"
     yargs "^7.1.0"
 
-gulp-esbuild@0.10.4:
-  version "0.10.4"
-  resolved "https://registry.yarnpkg.com/gulp-esbuild/-/gulp-esbuild-0.10.4.tgz#c2a68ef1b38a219bc44ac3479889d1837c19c6e1"
-  integrity sha512-Jj/30Vn0Sq1g4JQC8CqLq8VZJlucO+D9N7F5SidAnVSSIGuz4sOr6c4R5IP7ILeYJn5D1kisd8DXPNRECCFXGQ==
+gulp-esbuild@0.10.5:
+  version "0.10.5"
+  resolved "https://registry.yarnpkg.com/gulp-esbuild/-/gulp-esbuild-0.10.5.tgz#d426965f149639faa72e02f668fa87363d6acbe6"
+  integrity sha512-lQjWLJLPqslSQN+xSMsjDCfoLcpzm0GTF02EUmAJDUIcQi8JcUMRjoOUEIj+vafaaFhYdhqynSvSMhP69PLoHA==
   dependencies:
-    esbuild "^0.14.47"
-    plugin-error "^1.0.1"
+    esbuild "^0.15.3"
+    plugin-error "^2.0.0"
     vinyl "^2.2.1"
 
 gulp-json-transform@0.4.8:
@@ -5688,275 +5773,276 @@ ix@5.0.0:
     "@types/node" "^13.7.4"
     tslib "^2.3.0"
 
-jest-changed-files@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-changed-files/-/jest-changed-files-28.1.3.tgz#d9aeee6792be3686c47cb988a8eaf82ff4238831"
-  integrity sha512-esaOfUWJXk2nfZt9SPyC8gA1kNfdKLkQWyzsMlqq8msYSlNKfmZxfRgZn4Cd4MGVUF+7v6dBs0d5TOAKa7iIiA==
+jest-changed-files@^29.0.0:
+  version "29.0.0"
+  resolved "https://registry.yarnpkg.com/jest-changed-files/-/jest-changed-files-29.0.0.tgz#aa238eae42d9372a413dd9a8dadc91ca1806dce0"
+  integrity sha512-28/iDMDrUpGoCitTURuDqUzWQoWmOmOKOFST1mi2lwh62X4BFf6khgH3uSuo1e49X/UDjuApAj3w0wLOex4VPQ==
   dependencies:
     execa "^5.0.0"
     p-limit "^3.1.0"
 
-jest-circus@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-circus/-/jest-circus-28.1.3.tgz#d14bd11cf8ee1a03d69902dc47b6bd4634ee00e4"
-  integrity sha512-cZ+eS5zc79MBwt+IhQhiEp0OeBddpc1n8MBo1nMB8A7oPMKEO+Sre+wHaLJexQUj9Ya/8NOBY0RESUgYjB6fow==
+jest-circus@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-circus/-/jest-circus-29.1.2.tgz#4551068e432f169a53167fe1aef420cf51c8a735"
+  integrity sha512-ajQOdxY6mT9GtnfJRZBRYS7toNIJayiiyjDyoZcnvPRUPwJ58JX0ci0PKAKUo2C1RyzlHw0jabjLGKksO42JGA==
   dependencies:
-    "@jest/environment" "^28.1.3"
-    "@jest/expect" "^28.1.3"
-    "@jest/test-result" "^28.1.3"
-    "@jest/types" "^28.1.3"
+    "@jest/environment" "^29.1.2"
+    "@jest/expect" "^29.1.2"
+    "@jest/test-result" "^29.1.2"
+    "@jest/types" "^29.1.2"
     "@types/node" "*"
     chalk "^4.0.0"
     co "^4.6.0"
     dedent "^0.7.0"
     is-generator-fn "^2.0.0"
-    jest-each "^28.1.3"
-    jest-matcher-utils "^28.1.3"
-    jest-message-util "^28.1.3"
-    jest-runtime "^28.1.3"
-    jest-snapshot "^28.1.3"
-    jest-util "^28.1.3"
+    jest-each "^29.1.2"
+    jest-matcher-utils "^29.1.2"
+    jest-message-util "^29.1.2"
+    jest-runtime "^29.1.2"
+    jest-snapshot "^29.1.2"
+    jest-util "^29.1.2"
     p-limit "^3.1.0"
-    pretty-format "^28.1.3"
+    pretty-format "^29.1.2"
     slash "^3.0.0"
     stack-utils "^2.0.3"
 
-jest-cli@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-cli/-/jest-cli-28.1.3.tgz#558b33c577d06de55087b8448d373b9f654e46b2"
-  integrity sha512-roY3kvrv57Azn1yPgdTebPAXvdR2xfezaKKYzVxZ6It/5NCxzJym6tUI5P1zkdWhfUYkxEI9uZWcQdaFLo8mJQ==
+jest-cli@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-cli/-/jest-cli-29.1.2.tgz#423b9c5d3ea20a50b1354b8bf3f2a20e72110e89"
+  integrity sha512-vsvBfQ7oS2o4MJdAH+4u9z76Vw5Q8WBQF5MchDbkylNknZdrPTX1Ix7YRJyTlOWqRaS7ue/cEAn+E4V1MWyMzw==
   dependencies:
-    "@jest/core" "^28.1.3"
-    "@jest/test-result" "^28.1.3"
-    "@jest/types" "^28.1.3"
+    "@jest/core" "^29.1.2"
+    "@jest/test-result" "^29.1.2"
+    "@jest/types" "^29.1.2"
     chalk "^4.0.0"
     exit "^0.1.2"
     graceful-fs "^4.2.9"
     import-local "^3.0.2"
-    jest-config "^28.1.3"
-    jest-util "^28.1.3"
-    jest-validate "^28.1.3"
+    jest-config "^29.1.2"
+    jest-util "^29.1.2"
+    jest-validate "^29.1.2"
     prompts "^2.0.1"
     yargs "^17.3.1"
 
-jest-config@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-config/-/jest-config-28.1.3.tgz#e315e1f73df3cac31447eed8b8740a477392ec60"
-  integrity sha512-MG3INjByJ0J4AsNBm7T3hsuxKQqFIiRo/AUqb1q9LRKI5UU6Aar9JHbr9Ivn1TVwfUD9KirRoM/T6u8XlcQPHQ==
+jest-config@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-config/-/jest-config-29.1.2.tgz#7d004345ca4c09f5d8f802355f54494e90842f4d"
+  integrity sha512-EC3Zi86HJUOz+2YWQcJYQXlf0zuBhJoeyxLM6vb6qJsVmpP7KcCP1JnyF0iaqTaXdBP8Rlwsvs7hnKWQWWLwwA==
   dependencies:
     "@babel/core" "^7.11.6"
-    "@jest/test-sequencer" "^28.1.3"
-    "@jest/types" "^28.1.3"
-    babel-jest "^28.1.3"
+    "@jest/test-sequencer" "^29.1.2"
+    "@jest/types" "^29.1.2"
+    babel-jest "^29.1.2"
     chalk "^4.0.0"
     ci-info "^3.2.0"
     deepmerge "^4.2.2"
     glob "^7.1.3"
     graceful-fs "^4.2.9"
-    jest-circus "^28.1.3"
-    jest-environment-node "^28.1.3"
-    jest-get-type "^28.0.2"
-    jest-regex-util "^28.0.2"
-    jest-resolve "^28.1.3"
-    jest-runner "^28.1.3"
-    jest-util "^28.1.3"
-    jest-validate "^28.1.3"
+    jest-circus "^29.1.2"
+    jest-environment-node "^29.1.2"
+    jest-get-type "^29.0.0"
+    jest-regex-util "^29.0.0"
+    jest-resolve "^29.1.2"
+    jest-runner "^29.1.2"
+    jest-util "^29.1.2"
+    jest-validate "^29.1.2"
     micromatch "^4.0.4"
     parse-json "^5.2.0"
-    pretty-format "^28.1.3"
+    pretty-format "^29.1.2"
     slash "^3.0.0"
     strip-json-comments "^3.1.1"
 
-jest-diff@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-diff/-/jest-diff-28.1.3.tgz#948a192d86f4e7a64c5264ad4da4877133d8792f"
-  integrity sha512-8RqP1B/OXzjjTWkqMX67iqgwBVJRgCyKD3L9nq+6ZqJMdvjE8RgHktqZ6jNrkdMT+dJuYNI3rhQpxaz7drJHfw==
+jest-diff@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-diff/-/jest-diff-29.1.2.tgz#bb7aaf5353227d6f4f96c5e7e8713ce576a607dc"
+  integrity sha512-4GQts0aUopVvecIT4IwD/7xsBaMhKTYoM4/njE/aVw9wpw+pIUVp8Vab/KnSzSilr84GnLBkaP3JLDnQYCKqVQ==
   dependencies:
     chalk "^4.0.0"
-    diff-sequences "^28.1.1"
-    jest-get-type "^28.0.2"
-    pretty-format "^28.1.3"
+    diff-sequences "^29.0.0"
+    jest-get-type "^29.0.0"
+    pretty-format "^29.1.2"
 
-jest-docblock@^28.1.1:
-  version "28.1.1"
-  resolved "https://registry.yarnpkg.com/jest-docblock/-/jest-docblock-28.1.1.tgz#6f515c3bf841516d82ecd57a62eed9204c2f42a8"
-  integrity sha512-3wayBVNiOYx0cwAbl9rwm5kKFP8yHH3d/fkEaL02NPTkDojPtheGB7HZSFY4wzX+DxyrvhXz0KSCVksmCknCuA==
+jest-docblock@^29.0.0:
+  version "29.0.0"
+  resolved "https://registry.yarnpkg.com/jest-docblock/-/jest-docblock-29.0.0.tgz#3151bcc45ed7f5a8af4884dcc049aee699b4ceae"
+  integrity sha512-s5Kpra/kLzbqu9dEjov30kj1n4tfu3e7Pl8v+f8jOkeWNqM6Ds8jRaJfZow3ducoQUrf2Z4rs2N5S3zXnb83gw==
   dependencies:
     detect-newline "^3.0.0"
 
-jest-each@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-each/-/jest-each-28.1.3.tgz#bdd1516edbe2b1f3569cfdad9acd543040028f81"
-  integrity sha512-arT1z4sg2yABU5uogObVPvSlSMQlDA48owx07BDPAiasW0yYpYHYOo4HHLz9q0BVzDVU4hILFjzJw0So9aCL/g==
+jest-each@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-each/-/jest-each-29.1.2.tgz#d4c8532c07a846e79f194f7007ce7cb1987d1cd0"
+  integrity sha512-AmTQp9b2etNeEwMyr4jc0Ql/LIX/dhbgP21gHAizya2X6rUspHn2gysMXaj6iwWuOJ2sYRgP8c1P4cXswgvS1A==
   dependencies:
-    "@jest/types" "^28.1.3"
+    "@jest/types" "^29.1.2"
     chalk "^4.0.0"
-    jest-get-type "^28.0.2"
-    jest-util "^28.1.3"
-    pretty-format "^28.1.3"
-
-jest-environment-node@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-environment-node/-/jest-environment-node-28.1.3.tgz#7e74fe40eb645b9d56c0c4b70ca4357faa349be5"
-  integrity sha512-ugP6XOhEpjAEhGYvp5Xj989ns5cB1K6ZdjBYuS30umT4CQEETaxSiPcZ/E1kFktX4GkrcM4qu07IIlDYX1gp+A==
-  dependencies:
-    "@jest/environment" "^28.1.3"
-    "@jest/fake-timers" "^28.1.3"
-    "@jest/types" "^28.1.3"
+    jest-get-type "^29.0.0"
+    jest-util "^29.1.2"
+    pretty-format "^29.1.2"
+
+jest-environment-node@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-environment-node/-/jest-environment-node-29.1.2.tgz#005e05cc6ea4b9b5ba55906ab1ce53c82f6907a7"
+  integrity sha512-C59yVbdpY8682u6k/lh8SUMDJPbOyCHOTgLVVi1USWFxtNV+J8fyIwzkg+RJIVI30EKhKiAGNxYaFr3z6eyNhQ==
+  dependencies:
+    "@jest/environment" "^29.1.2"
+    "@jest/fake-timers" "^29.1.2"
+    "@jest/types" "^29.1.2"
     "@types/node" "*"
-    jest-mock "^28.1.3"
-    jest-util "^28.1.3"
+    jest-mock "^29.1.2"
+    jest-util "^29.1.2"
 
-jest-get-type@^28.0.2:
-  version "28.0.2"
-  resolved "https://registry.yarnpkg.com/jest-get-type/-/jest-get-type-28.0.2.tgz#34622e628e4fdcd793d46db8a242227901fcf203"
-  integrity sha512-ioj2w9/DxSYHfOm5lJKCdcAmPJzQXmbM/Url3rhlghrPvT3tt+7a/+oXc9azkKmLvoiXjtV83bEWqi+vs5nlPA==
+jest-get-type@^29.0.0:
+  version "29.0.0"
+  resolved "https://registry.yarnpkg.com/jest-get-type/-/jest-get-type-29.0.0.tgz#843f6c50a1b778f7325df1129a0fd7aa713aef80"
+  integrity sha512-83X19z/HuLKYXYHskZlBAShO7UfLFXu/vWajw9ZNJASN32li8yHMaVGAQqxFW1RCFOkB7cubaL6FaJVQqqJLSw==
 
-jest-haste-map@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-haste-map/-/jest-haste-map-28.1.3.tgz#abd5451129a38d9841049644f34b034308944e2b"
-  integrity sha512-3S+RQWDXccXDKSWnkHa/dPwt+2qwA8CJzR61w3FoYCvoo3Pn8tvGcysmMF0Bj0EX5RYvAI2EIvC57OmotfdtKA==
+jest-haste-map@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-haste-map/-/jest-haste-map-29.1.2.tgz#93f3634aa921b6b654e7c94137b24e02e7ca6ac9"
+  integrity sha512-xSjbY8/BF11Jh3hGSPfYTa/qBFrm3TPM7WU8pU93m2gqzORVLkHFWvuZmFsTEBPRKndfewXhMOuzJNHyJIZGsw==
   dependencies:
-    "@jest/types" "^28.1.3"
+    "@jest/types" "^29.1.2"
     "@types/graceful-fs" "^4.1.3"
     "@types/node" "*"
     anymatch "^3.0.3"
     fb-watchman "^2.0.0"
     graceful-fs "^4.2.9"
-    jest-regex-util "^28.0.2"
-    jest-util "^28.1.3"
-    jest-worker "^28.1.3"
+    jest-regex-util "^29.0.0"
+    jest-util "^29.1.2"
+    jest-worker "^29.1.2"
     micromatch "^4.0.4"
     walker "^1.0.8"
   optionalDependencies:
     fsevents "^2.3.2"
 
-jest-leak-detector@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-leak-detector/-/jest-leak-detector-28.1.3.tgz#a6685d9b074be99e3adee816ce84fd30795e654d"
-  integrity sha512-WFVJhnQsiKtDEo5lG2mM0v40QWnBM+zMdHHyJs8AWZ7J0QZJS59MsyKeJHWhpBZBH32S48FOVvGyOFT1h0DlqA==
+jest-leak-detector@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-leak-detector/-/jest-leak-detector-29.1.2.tgz#4c846db14c58219430ccbc4f01a1ec52ebee4fc2"
+  integrity sha512-TG5gAZJpgmZtjb6oWxBLf2N6CfQ73iwCe6cofu/Uqv9iiAm6g502CAnGtxQaTfpHECBdVEMRBhomSXeLnoKjiQ==
   dependencies:
-    jest-get-type "^28.0.2"
-    pretty-format "^28.1.3"
+    jest-get-type "^29.0.0"
+    pretty-format "^29.1.2"
 
-jest-matcher-utils@^28.0.0, jest-matcher-utils@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-matcher-utils/-/jest-matcher-utils-28.1.3.tgz#5a77f1c129dd5ba3b4d7fc20728806c78893146e"
-  integrity sha512-kQeJ7qHemKfbzKoGjHHrRKH6atgxMk8Enkk2iPQ3XwO6oE/KYD8lMYOziCkeSB9G4adPM4nR1DE8Tf5JeWH6Bw==
+jest-matcher-utils@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-matcher-utils/-/jest-matcher-utils-29.1.2.tgz#e68c4bcc0266e70aa1a5c13fb7b8cd4695e318a1"
+  integrity sha512-MV5XrD3qYSW2zZSHRRceFzqJ39B2z11Qv0KPyZYxnzDHFeYZGJlgGi0SW+IXSJfOewgJp/Km/7lpcFT+cgZypw==
   dependencies:
     chalk "^4.0.0"
-    jest-diff "^28.1.3"
-    jest-get-type "^28.0.2"
-    pretty-format "^28.1.3"
+    jest-diff "^29.1.2"
+    jest-get-type "^29.0.0"
+    pretty-format "^29.1.2"
 
-jest-message-util@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-message-util/-/jest-message-util-28.1.3.tgz#232def7f2e333f1eecc90649b5b94b0055e7c43d"
-  integrity sha512-PFdn9Iewbt575zKPf1286Ht9EPoJmYT7P0kY+RibeYZ2XtOr53pDLEFoTWXbd1h4JiGiWpTBC84fc8xMXQMb7g==
+jest-message-util@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-message-util/-/jest-message-util-29.1.2.tgz#c21a33c25f9dc1ebfcd0f921d89438847a09a501"
+  integrity sha512-9oJ2Os+Qh6IlxLpmvshVbGUiSkZVc2FK+uGOm6tghafnB2RyjKAxMZhtxThRMxfX1J1SOMhTn9oK3/MutRWQJQ==
   dependencies:
     "@babel/code-frame" "^7.12.13"
-    "@jest/types" "^28.1.3"
+    "@jest/types" "^29.1.2"
     "@types/stack-utils" "^2.0.0"
     chalk "^4.0.0"
     graceful-fs "^4.2.9"
     micromatch "^4.0.4"
-    pretty-format "^28.1.3"
+    pretty-format "^29.1.2"
     slash "^3.0.0"
     stack-utils "^2.0.3"
 
-jest-mock@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-mock/-/jest-mock-28.1.3.tgz#d4e9b1fc838bea595c77ab73672ebf513ab249da"
-  integrity sha512-o3J2jr6dMMWYVH4Lh/NKmDXdosrsJgi4AviS8oXLujcjpCMBb1FMsblDnOXKZKfSiHLxYub1eS0IHuRXsio9eA==
+jest-mock@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-mock/-/jest-mock-29.1.2.tgz#de47807edbb9d4abf8423f1d8d308d670105678c"
+  integrity sha512-PFDAdjjWbjPUtQPkQufvniXIS3N9Tv7tbibePEjIIprzjgo0qQlyUiVMrT4vL8FaSJo1QXifQUOuPH3HQC/aMA==
   dependencies:
-    "@jest/types" "^28.1.3"
+    "@jest/types" "^29.1.2"
     "@types/node" "*"
+    jest-util "^29.1.2"
 
 jest-pnp-resolver@^1.2.2:
   version "1.2.2"
   resolved "https://registry.yarnpkg.com/jest-pnp-resolver/-/jest-pnp-resolver-1.2.2.tgz#b704ac0ae028a89108a4d040b3f919dfddc8e33c"
   integrity sha512-olV41bKSMm8BdnuMsewT4jqlZ8+3TCARAXjZGT9jcoSnrfUnRCqnMoF9XEeoWjbzObpqF9dRhHQj0Xb9QdF6/w==
 
-jest-regex-util@^28.0.2:
-  version "28.0.2"
-  resolved "https://registry.yarnpkg.com/jest-regex-util/-/jest-regex-util-28.0.2.tgz#afdc377a3b25fb6e80825adcf76c854e5bf47ead"
-  integrity sha512-4s0IgyNIy0y9FK+cjoVYoxamT7Zeo7MhzqRGx7YDYmaQn1wucY9rotiGkBzzcMXTtjrCAP/f7f+E0F7+fxPNdw==
+jest-regex-util@^29.0.0:
+  version "29.0.0"
+  resolved "https://registry.yarnpkg.com/jest-regex-util/-/jest-regex-util-29.0.0.tgz#b442987f688289df8eb6c16fa8df488b4cd007de"
+  integrity sha512-BV7VW7Sy0fInHWN93MMPtlClweYv2qrSCwfeFWmpribGZtQPWNvRSq9XOVgOEjU1iBGRKXUZil0o2AH7Iy9Lug==
 
-jest-resolve-dependencies@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-resolve-dependencies/-/jest-resolve-dependencies-28.1.3.tgz#8c65d7583460df7275c6ea2791901fa975c1fe66"
-  integrity sha512-qa0QO2Q0XzQoNPouMbCc7Bvtsem8eQgVPNkwn9LnS+R2n8DaVDPL/U1gngC0LTl1RYXJU0uJa2BMC2DbTfFrHA==
+jest-resolve-dependencies@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-resolve-dependencies/-/jest-resolve-dependencies-29.1.2.tgz#a6919e58a0c7465582cb8ec2d745b4e64ae8647f"
+  integrity sha512-44yYi+yHqNmH3OoWZvPgmeeiwKxhKV/0CfrzaKLSkZG9gT973PX8i+m8j6pDrTYhhHoiKfF3YUFg/6AeuHw4HQ==
   dependencies:
-    jest-regex-util "^28.0.2"
-    jest-snapshot "^28.1.3"
+    jest-regex-util "^29.0.0"
+    jest-snapshot "^29.1.2"
 
-jest-resolve@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-resolve/-/jest-resolve-28.1.3.tgz#cfb36100341ddbb061ec781426b3c31eb51aa0a8"
-  integrity sha512-Z1W3tTjE6QaNI90qo/BJpfnvpxtaFTFw5CDgwpyE/Kz8U/06N1Hjf4ia9quUhCh39qIGWF1ZuxFiBiJQwSEYKQ==
+jest-resolve@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-resolve/-/jest-resolve-29.1.2.tgz#9dd8c2fc83e59ee7d676b14bd45a5f89e877741d"
+  integrity sha512-7fcOr+k7UYSVRJYhSmJHIid3AnDBcLQX3VmT9OSbPWsWz1MfT7bcoerMhADKGvKCoMpOHUQaDHtQoNp/P9JMGg==
   dependencies:
     chalk "^4.0.0"
     graceful-fs "^4.2.9"
-    jest-haste-map "^28.1.3"
+    jest-haste-map "^29.1.2"
     jest-pnp-resolver "^1.2.2"
-    jest-util "^28.1.3"
-    jest-validate "^28.1.3"
+    jest-util "^29.1.2"
+    jest-validate "^29.1.2"
     resolve "^1.20.0"
     resolve.exports "^1.1.0"
     slash "^3.0.0"
 
-jest-runner@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-runner/-/jest-runner-28.1.3.tgz#5eee25febd730b4713a2cdfd76bdd5557840f9a1"
-  integrity sha512-GkMw4D/0USd62OVO0oEgjn23TM+YJa2U2Wu5zz9xsQB1MxWKDOlrnykPxnMsN0tnJllfLPinHTka61u0QhaxBA==
+jest-runner@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-runner/-/jest-runner-29.1.2.tgz#f18b2b86101341e047de8c2f51a5fdc4e97d053a"
+  integrity sha512-yy3LEWw8KuBCmg7sCGDIqKwJlULBuNIQa2eFSVgVASWdXbMYZ9H/X0tnXt70XFoGf92W2sOQDOIFAA6f2BG04Q==
   dependencies:
-    "@jest/console" "^28.1.3"
-    "@jest/environment" "^28.1.3"
-    "@jest/test-result" "^28.1.3"
-    "@jest/transform" "^28.1.3"
-    "@jest/types" "^28.1.3"
+    "@jest/console" "^29.1.2"
+    "@jest/environment" "^29.1.2"
+    "@jest/test-result" "^29.1.2"
+    "@jest/transform" "^29.1.2"
+    "@jest/types" "^29.1.2"
     "@types/node" "*"
     chalk "^4.0.0"
     emittery "^0.10.2"
     graceful-fs "^4.2.9"
-    jest-docblock "^28.1.1"
-    jest-environment-node "^28.1.3"
-    jest-haste-map "^28.1.3"
-    jest-leak-detector "^28.1.3"
-    jest-message-util "^28.1.3"
-    jest-resolve "^28.1.3"
-    jest-runtime "^28.1.3"
-    jest-util "^28.1.3"
-    jest-watcher "^28.1.3"
-    jest-worker "^28.1.3"
+    jest-docblock "^29.0.0"
+    jest-environment-node "^29.1.2"
+    jest-haste-map "^29.1.2"
+    jest-leak-detector "^29.1.2"
+    jest-message-util "^29.1.2"
+    jest-resolve "^29.1.2"
+    jest-runtime "^29.1.2"
+    jest-util "^29.1.2"
+    jest-watcher "^29.1.2"
+    jest-worker "^29.1.2"
     p-limit "^3.1.0"
     source-map-support "0.5.13"
 
-jest-runtime@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-runtime/-/jest-runtime-28.1.3.tgz#a57643458235aa53e8ec7821949e728960d0605f"
-  integrity sha512-NU+881ScBQQLc1JHG5eJGU7Ui3kLKrmwCPPtYsJtBykixrM2OhVQlpMmFWJjMyDfdkGgBMNjXCGB/ebzsgNGQw==
-  dependencies:
-    "@jest/environment" "^28.1.3"
-    "@jest/fake-timers" "^28.1.3"
-    "@jest/globals" "^28.1.3"
-    "@jest/source-map" "^28.1.2"
-    "@jest/test-result" "^28.1.3"
-    "@jest/transform" "^28.1.3"
-    "@jest/types" "^28.1.3"
+jest-runtime@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-runtime/-/jest-runtime-29.1.2.tgz#dbcd57103d61115479108d5864bdcd661d9c6783"
+  integrity sha512-jr8VJLIf+cYc+8hbrpt412n5jX3tiXmpPSYTGnwcvNemY+EOuLNiYnHJ3Kp25rkaAcTWOEI4ZdOIQcwYcXIAZw==
+  dependencies:
+    "@jest/environment" "^29.1.2"
+    "@jest/fake-timers" "^29.1.2"
+    "@jest/globals" "^29.1.2"
+    "@jest/source-map" "^29.0.0"
+    "@jest/test-result" "^29.1.2"
+    "@jest/transform" "^29.1.2"
+    "@jest/types" "^29.1.2"
+    "@types/node" "*"
     chalk "^4.0.0"
     cjs-module-lexer "^1.0.0"
     collect-v8-coverage "^1.0.0"
-    execa "^5.0.0"
     glob "^7.1.3"
     graceful-fs "^4.2.9"
-    jest-haste-map "^28.1.3"
-    jest-message-util "^28.1.3"
-    jest-mock "^28.1.3"
-    jest-regex-util "^28.0.2"
-    jest-resolve "^28.1.3"
-    jest-snapshot "^28.1.3"
-    jest-util "^28.1.3"
+    jest-haste-map "^29.1.2"
+    jest-message-util "^29.1.2"
+    jest-mock "^29.1.2"
+    jest-regex-util "^29.0.0"
+    jest-resolve "^29.1.2"
+    jest-snapshot "^29.1.2"
+    jest-util "^29.1.2"
     slash "^3.0.0"
     strip-bom "^4.0.0"
 
@@ -5968,33 +6054,34 @@ jest-silent-reporter@0.5.0:
     chalk "^4.0.0"
     jest-util "^26.0.0"
 
-jest-snapshot@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-snapshot/-/jest-snapshot-28.1.3.tgz#17467b3ab8ddb81e2f605db05583d69388fc0668"
-  integrity sha512-4lzMgtiNlc3DU/8lZfmqxN3AYD6GGLbl+72rdBpXvcV+whX7mDrREzkPdp2RnmfIiWBg1YbuFSkXduF2JcafJg==
+jest-snapshot@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-snapshot/-/jest-snapshot-29.1.2.tgz#7dd277e88c45f2d2ff5888de1612e63c7ceb575b"
+  integrity sha512-rYFomGpVMdBlfwTYxkUp3sjD6usptvZcONFYNqVlaz4EpHPnDvlWjvmOQ9OCSNKqYZqLM2aS3wq01tWujLg7gg==
   dependencies:
     "@babel/core" "^7.11.6"
     "@babel/generator" "^7.7.2"
+    "@babel/plugin-syntax-jsx" "^7.7.2"
     "@babel/plugin-syntax-typescript" "^7.7.2"
     "@babel/traverse" "^7.7.2"
     "@babel/types" "^7.3.3"
-    "@jest/expect-utils" "^28.1.3"
-    "@jest/transform" "^28.1.3"
-    "@jest/types" "^28.1.3"
+    "@jest/expect-utils" "^29.1.2"
+    "@jest/transform" "^29.1.2"
+    "@jest/types" "^29.1.2"
     "@types/babel__traverse" "^7.0.6"
     "@types/prettier" "^2.1.5"
     babel-preset-current-node-syntax "^1.0.0"
     chalk "^4.0.0"
-    expect "^28.1.3"
+    expect "^29.1.2"
     graceful-fs "^4.2.9"
-    jest-diff "^28.1.3"
-    jest-get-type "^28.0.2"
-    jest-haste-map "^28.1.3"
-    jest-matcher-utils "^28.1.3"
-    jest-message-util "^28.1.3"
-    jest-util "^28.1.3"
+    jest-diff "^29.1.2"
+    jest-get-type "^29.0.0"
+    jest-haste-map "^29.1.2"
+    jest-matcher-utils "^29.1.2"
+    jest-message-util "^29.1.2"
+    jest-util "^29.1.2"
     natural-compare "^1.4.0"
-    pretty-format "^28.1.3"
+    pretty-format "^29.1.2"
     semver "^7.3.5"
 
 jest-util@^26.0.0:
@@ -6009,42 +6096,42 @@ jest-util@^26.0.0:
     is-ci "^2.0.0"
     micromatch "^4.0.2"
 
-jest-util@^28.0.0, jest-util@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-util/-/jest-util-28.1.3.tgz#f4f932aa0074f0679943220ff9cbba7e497028b0"
-  integrity sha512-XdqfpHwpcSRko/C35uLYFM2emRAltIIKZiJ9eAmhjsj0CqZMa0p1ib0R5fWIqGhn1a103DebTbpqIaP1qCQ6tQ==
+jest-util@^29.0.0, jest-util@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-util/-/jest-util-29.1.2.tgz#ac5798e93cb6a6703084e194cfa0898d66126df1"
+  integrity sha512-vPCk9F353i0Ymx3WQq3+a4lZ07NXu9Ca8wya6o4Fe4/aO1e1awMMprZ3woPFpKwghEOW+UXgd15vVotuNN9ONQ==
   dependencies:
-    "@jest/types" "^28.1.3"
+    "@jest/types" "^29.1.2"
     "@types/node" "*"
     chalk "^4.0.0"
     ci-info "^3.2.0"
     graceful-fs "^4.2.9"
     picomatch "^2.2.3"
 
-jest-validate@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-validate/-/jest-validate-28.1.3.tgz#e322267fd5e7c64cea4629612c357bbda96229df"
-  integrity sha512-SZbOGBWEsaTxBGCOpsRWlXlvNkvTkY0XxRfh7zYmvd8uL5Qzyg0CHAXiXKROflh801quA6+/DsT4ODDthOC/OA==
+jest-validate@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-validate/-/jest-validate-29.1.2.tgz#83a728b8f6354da2e52346878c8bc7383516ca51"
+  integrity sha512-k71pOslNlV8fVyI+mEySy2pq9KdXdgZtm7NHrBX8LghJayc3wWZH0Yr0mtYNGaCU4F1OLPXRkwZR0dBm/ClshA==
   dependencies:
-    "@jest/types" "^28.1.3"
+    "@jest/types" "^29.1.2"
     camelcase "^6.2.0"
     chalk "^4.0.0"
-    jest-get-type "^28.0.2"
+    jest-get-type "^29.0.0"
     leven "^3.1.0"
-    pretty-format "^28.1.3"
+    pretty-format "^29.1.2"
 
-jest-watcher@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-watcher/-/jest-watcher-28.1.3.tgz#c6023a59ba2255e3b4c57179fc94164b3e73abd4"
-  integrity sha512-t4qcqj9hze+jviFPUN3YAtAEeFnr/azITXQEMARf5cMwKY2SMBRnCQTXLixTl20OR6mLh9KLMrgVJgJISym+1g==
+jest-watcher@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-watcher/-/jest-watcher-29.1.2.tgz#de21439b7d889e2fcf62cc2a4779ef1a3f1f3c62"
+  integrity sha512-6JUIUKVdAvcxC6bM8/dMgqY2N4lbT+jZVsxh0hCJRbwkIEnbr/aPjMQ28fNDI5lB51Klh00MWZZeVf27KBUj5w==
   dependencies:
-    "@jest/test-result" "^28.1.3"
-    "@jest/types" "^28.1.3"
+    "@jest/test-result" "^29.1.2"
+    "@jest/types" "^29.1.2"
     "@types/node" "*"
     ansi-escapes "^4.2.1"
     chalk "^4.0.0"
     emittery "^0.10.2"
-    jest-util "^28.1.3"
+    jest-util "^29.1.2"
     string-length "^4.0.1"
 
 jest-worker@^27.4.5:
@@ -6056,24 +6143,30 @@ jest-worker@^27.4.5:
     merge-stream "^2.0.0"
     supports-color "^8.0.0"
 
-jest-worker@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest-worker/-/jest-worker-28.1.3.tgz#7e3c4ce3fa23d1bb6accb169e7f396f98ed4bb98"
-  integrity sha512-CqRA220YV/6jCo8VWvAt1KKx6eek1VIHMPeLEbpcfSfkEeWyBNppynM/o6q+Wmw+sOhos2ml34wZbSX3G13//g==
+jest-worker@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest-worker/-/jest-worker-29.1.2.tgz#a68302af61bce82b42a9a57285ca7499d29b2afc"
+  integrity sha512-AdTZJxKjTSPHbXT/AIOjQVmoFx0LHFcVabWu0sxI7PAy7rFf8c0upyvgBKgguVXdM4vY74JdwkyD4hSmpTW8jA==
   dependencies:
     "@types/node" "*"
+    jest-util "^29.1.2"
     merge-stream "^2.0.0"
     supports-color "^8.0.0"
 
-jest@28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/jest/-/jest-28.1.3.tgz#e9c6a7eecdebe3548ca2b18894a50f45b36dfc6b"
-  integrity sha512-N4GT5on8UkZgH0O5LUavMRV1EDEhNTL0KEfRmDIeZHSV7p2XgLoY9t9VDUgL6o+yfdgYHVxuz81G8oB9VG5uyA==
+jest@29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/jest/-/jest-29.1.2.tgz#f821a1695ffd6cd0efc3b59d2dfcc70a98582499"
+  integrity sha512-5wEIPpCezgORnqf+rCaYD1SK+mNN7NsstWzIsuvsnrhR/hSxXWd82oI7DkrbJ+XTD28/eG8SmxdGvukrGGK6Tw==
   dependencies:
-    "@jest/core" "^28.1.3"
-    "@jest/types" "^28.1.3"
+    "@jest/core" "^29.1.2"
+    "@jest/types" "^29.1.2"
     import-local "^3.0.2"
-    jest-cli "^28.1.3"
+    jest-cli "^29.1.2"
+
+js-sdsl@^4.1.4:
+  version "4.1.4"
+  resolved "https://registry.yarnpkg.com/js-sdsl/-/js-sdsl-4.1.4.tgz#78793c90f80e8430b7d8dc94515b6c77d98a26a6"
+  integrity sha512-Y2/yD55y5jteOAmY50JbUZYwk3CP3wnLPEZnlR1w9oKhITrBEtAxwuWKebFf8hMrPMgbYwFoWK/lH2sBkErELw==
 
 js-tokens@^4.0.0:
   version "4.0.0"
@@ -6087,7 +6180,7 @@ js-yaml@4.1.0, js-yaml@^4.1.0:
   dependencies:
     argparse "^2.0.1"
 
-js-yaml@^3.13.1:
+js-yaml@^3.10.0, js-yaml@^3.13.1:
   version "3.14.1"
   resolved "https://registry.yarnpkg.com/js-yaml/-/js-yaml-3.14.1.tgz#dae812fdb3825fa306609a8717383c50c36a0537"
   integrity sha512-okMH7OXXJ7YrN9Ok3/SXrnu4iX9yOk+25nqX4imS2npuvTYDmo/QEZoqwZkYaIDk3jVvBOTOIEgEhaLOynBS9g==
@@ -6156,10 +6249,10 @@ json5@^2.2.1:
   resolved "https://registry.yarnpkg.com/json5/-/json5-2.2.1.tgz#655d50ed1e6f95ad1a3caababd2b0efda10b395c"
   integrity sha512-1hqLFMSrGHRHxav9q9gNjJ5EXznIxGVO09xQRrwplcS8qs28pZ8s8hupZAmqDwZUmVZ2Qb2jnyPOWcDH8m8dlA==
 
-jsonc-parser@3.0.0:
-  version "3.0.0"
-  resolved "https://registry.yarnpkg.com/jsonc-parser/-/jsonc-parser-3.0.0.tgz#abdd785701c7e7eaca8a9ec8cf070ca51a745a22"
-  integrity sha512-fQzRfAbIBnR0IQvftw9FJveWiHp72Fg20giDrHz6TdfB12UH/uue0D3hm57UB5KgAVuniLMCaS8P1IMj9NR7cA==
+jsonc-parser@3.2.0:
+  version "3.2.0"
+  resolved "https://registry.yarnpkg.com/jsonc-parser/-/jsonc-parser-3.2.0.tgz#31ff3f4c2b9793f89c67212627c51c6394f88e76"
+  integrity sha512-gfFQZrcTc8CnKXp6Y4/CBT3fTc0OVuDofpre4aEeEpSBPV5X5v4+Vmx+8snU7RLPrNHPKSgLxGo9YuQzz20o+w==
 
 jsonc-parser@^3.0.0:
   version "3.1.0"
@@ -6258,30 +6351,31 @@ lead@^1.0.0:
   dependencies:
     flush-write-stream "^1.0.2"
 
-lerna@5.3.0:
-  version "5.3.0"
-  resolved "https://registry.yarnpkg.com/lerna/-/lerna-5.3.0.tgz#6e529b2cbe3d103c5b0a2f4152888b8d84501b67"
-  integrity sha512-0Y9xJqleVu0ExGmsw2WM/GkVmxOwtA7OLQFS5ERPKJfnsxH9roTX3a7NPaGQRI2E+tSJLJJGgNSf3WYEqinOqA==
-  dependencies:
-    "@lerna/add" "5.3.0"
-    "@lerna/bootstrap" "5.3.0"
-    "@lerna/changed" "5.3.0"
-    "@lerna/clean" "5.3.0"
-    "@lerna/cli" "5.3.0"
-    "@lerna/create" "5.3.0"
-    "@lerna/diff" "5.3.0"
-    "@lerna/exec" "5.3.0"
-    "@lerna/import" "5.3.0"
-    "@lerna/info" "5.3.0"
-    "@lerna/init" "5.3.0"
-    "@lerna/link" "5.3.0"
-    "@lerna/list" "5.3.0"
-    "@lerna/publish" "5.3.0"
-    "@lerna/run" "5.3.0"
-    "@lerna/version" "5.3.0"
+lerna@5.5.4:
+  version "5.5.4"
+  resolved "https://registry.yarnpkg.com/lerna/-/lerna-5.5.4.tgz#34d95dd3e26c725ce4ba981b887aaf59ce899519"
+  integrity sha512-LAFQ/U6SL7/EM0sedtFaFS4b0RbTqsYYOJ6LV9Y7l/zWFlqLcg41vLblkNRuxsNB5FZBNpfiWvXmd1KiWkQ/yQ==
+  dependencies:
+    "@lerna/add" "5.5.4"
+    "@lerna/bootstrap" "5.5.4"
+    "@lerna/changed" "5.5.4"
+    "@lerna/clean" "5.5.4"
+    "@lerna/cli" "5.5.4"
+    "@lerna/create" "5.5.4"
+    "@lerna/diff" "5.5.4"
+    "@lerna/exec" "5.5.4"
+    "@lerna/import" "5.5.4"
+    "@lerna/info" "5.5.4"
+    "@lerna/init" "5.5.4"
+    "@lerna/link" "5.5.4"
+    "@lerna/list" "5.5.4"
+    "@lerna/publish" "5.5.4"
+    "@lerna/run" "5.5.4"
+    "@lerna/version" "5.5.4"
     import-local "^3.0.2"
     npmlog "^6.0.2"
-    nx ">=14.4.3 < 16"
+    nx ">=14.6.1 < 16"
+    typescript "^3 || ^4"
 
 leven@^3.1.0:
   version "3.1.0"
@@ -6429,7 +6523,7 @@ lodash.some@^4.2.2:
   resolved "https://registry.yarnpkg.com/lodash.some/-/lodash.some-4.6.0.tgz#1bb9f314ef6b8baded13b549169b2a945eb68e4d"
   integrity sha512-j7MJE+TuT51q9ggt4fSgVqro163BEFjAt3u97IqU+JA2DkWl80nFTrowzLpZ/BnpN7rrl0JA/593NAdd8p/scQ==
 
-lodash@^4.17.15, lodash@^4.17.20, lodash@^4.17.21, lodash@^4.17.4, lodash@^4.7.0:
+lodash@^4.17.15, lodash@^4.17.20, lodash@^4.17.21, lodash@^4.17.4:
   version "4.17.21"
   resolved "https://registry.yarnpkg.com/lodash/-/lodash-4.17.21.tgz#679591c564c3bffaae8454cf0b3df370c3d6911c"
   integrity sha512-v2kDEe57lecTulaDIuNTPy3Ry4gLGJ6Z1O3vE1krgXZNrsQ+LFTGHVxVjcXPs17LhbZVGedAJv8XZ1tvj5FvSg==
@@ -6554,10 +6648,10 @@ map-visit@^1.0.0:
   dependencies:
     object-visit "^1.0.0"
 
-marked@^4.0.18:
-  version "4.0.18"
-  resolved "https://registry.yarnpkg.com/marked/-/marked-4.0.18.tgz#cd0ac54b2e5610cfb90e8fd46ccaa8292c9ed569"
-  integrity sha512-wbLDJ7Zh0sqA0Vdg6aqlbT+yPxqLblpAZh1mK2+AO2twQkPywvvqQNfEPVwSSRjZ7dZcdeVBIAgiO7MMp3Dszw==
+marked@^4.0.19:
+  version "4.1.0"
+  resolved "https://registry.yarnpkg.com/marked/-/marked-4.1.0.tgz#3fc6e7485f21c1ca5d6ec4a39de820e146954796"
+  integrity sha512-+Z6KDjSPa6/723PQYyc1axYZpYYpDnECDaU6hkaf5gqBieBkMKYReL5hteF2QizhlMbgbo8umXl/clZ67+GlsA==
 
 matchdep@^2.0.0:
   version "2.0.0"
@@ -7004,11 +7098,6 @@ normalize-path@^3.0.0, normalize-path@~3.0.0:
   resolved "https://registry.yarnpkg.com/normalize-path/-/normalize-path-3.0.0.tgz#0dcd69ff23a1c9b11fd0978316644a0388216a65"
   integrity sha512-6eZs5Ls3WtCisHWp9S2GUy8dqkpGi4BVSz3GaqiE6ezub0512ESztXUwUB6C6IKbQkY2Pnb/mD4WYojCRwcwLA==
 
-normalize-url@^6.1.0:
-  version "6.1.0"
-  resolved "https://registry.yarnpkg.com/normalize-url/-/normalize-url-6.1.0.tgz#40d0885b535deffe3f3147bec877d05fe4c5668a"
-  integrity sha512-DlL+XwOy3NxAQ8xuC0okPgK46iuVNAK01YN7RueYBqqFeGsBjV9XmCAzAdgt+667bCl5kPh9EqKKDwnaPG1I7A==
-
 now-and-later@^2.0.0:
   version "2.0.1"
   resolved "https://registry.yarnpkg.com/now-and-later/-/now-and-later-2.0.1.tgz#8e579c8685764a7cc02cb680380e94f43ccb1f7c"
@@ -7109,14 +7198,17 @@ number-is-nan@^1.0.0:
   resolved "https://registry.yarnpkg.com/number-is-nan/-/number-is-nan-1.0.1.tgz#097b602b53422a522c1afb8790318336941a011d"
   integrity sha512-4jbtZXNAsfZbAHiiqjLPBiCl16dES1zI4Hpzzxw61Tk+loF+sBDBKx1ICKKKwIqQ7M0mFn1TmkN7euSncWgHiQ==
 
-nx@14.5.4, "nx@>=14.4.3 < 16":
-  version "14.5.4"
-  resolved "https://registry.yarnpkg.com/nx/-/nx-14.5.4.tgz#58b6e8ee798733a6ab9aff2a19180c371482fa10"
-  integrity sha512-xv1nTaQP6kqVDE4PXcB1tLlgzNAPUHE/2vlqSLgxjNb6colKf0vrEZhVTjhnbqBeJiTb33gUx50bBXkurCkN5w==
+nx@14.8.2, "nx@>=14.6.1 < 16":
+  version "14.8.2"
+  resolved "https://registry.yarnpkg.com/nx/-/nx-14.8.2.tgz#b285a09368418c4c0fa55c2d5ee411fe1fd3706b"
+  integrity sha512-pPijBoeybsIlCD8FMH8WTns+pcIL+0ZOh/+otUX2LfVsi+ppH33GUxO9QVLPrLcyGaoHhwil4hYBxPIQ7Z1r2g==
   dependencies:
-    "@nrwl/cli" "14.5.4"
-    "@nrwl/tao" "14.5.4"
+    "@nrwl/cli" "14.8.2"
+    "@nrwl/tao" "14.8.2"
     "@parcel/watcher" "2.0.4"
+    "@yarnpkg/lockfile" "^1.1.0"
+    "@yarnpkg/parsers" "^3.0.0-rc.18"
+    "@zkochan/js-yaml" "0.0.6"
     chalk "4.1.0"
     chokidar "^3.5.1"
     cli-cursor "3.1.0"
@@ -7131,12 +7223,13 @@ nx@14.5.4, "nx@>=14.4.3 < 16":
     glob "7.1.4"
     ignore "^5.0.4"
     js-yaml "4.1.0"
-    jsonc-parser "3.0.0"
+    jsonc-parser "3.2.0"
     minimatch "3.0.5"
     npm-run-path "^4.0.1"
     open "^8.4.0"
     semver "7.3.4"
     string-width "^4.2.3"
+    strong-log-transformer "^2.1.0"
     tar-stream "~2.2.0"
     tmp "~0.2.1"
     tsconfig-paths "^3.9.0"
@@ -7490,22 +7583,19 @@ parse-passwd@^1.0.0:
   resolved "https://registry.yarnpkg.com/parse-passwd/-/parse-passwd-1.0.0.tgz#6d5b934a456993b23d37f40a382d6f1666a8e5c6"
   integrity sha512-1Y1A//QUXEZK7YKz+rD9WydcE1+EuPr6ZBgKecAB8tmoW6UFv0NREVJe1p+jRxtThkcbbKkfwIbWJe/IeE6m2Q==
 
-parse-path@^5.0.0:
-  version "5.0.0"
-  resolved "https://registry.yarnpkg.com/parse-path/-/parse-path-5.0.0.tgz#f933152f3c6d34f4cf36cfc3d07b138ac113649d"
-  integrity sha512-qOpH55/+ZJ4jUu/oLO+ifUKjFPNZGfnPJtzvGzKN/4oLMil5m9OH4VpOj6++9/ytJcfks4kzH2hhi87GL/OU9A==
+parse-path@^7.0.0:
+  version "7.0.0"
+  resolved "https://registry.yarnpkg.com/parse-path/-/parse-path-7.0.0.tgz#605a2d58d0a749c8594405d8cc3a2bf76d16099b"
+  integrity sha512-Euf9GG8WT9CdqwuWJGdf3RkUcTBArppHABkO7Lm8IzRQp0e2r/kkFnmhu4TSK30Wcu5rVAZLmfPKSBBi9tWFog==
   dependencies:
     protocols "^2.0.0"
 
-parse-url@^7.0.2:
-  version "7.0.2"
-  resolved "https://registry.yarnpkg.com/parse-url/-/parse-url-7.0.2.tgz#d21232417199b8d371c6aec0cedf1406fd6393f0"
-  integrity sha512-PqO4Z0eCiQ08Wj6QQmrmp5YTTxpYfONdOEamrtvK63AmzXpcavIVQubGHxOEwiIoDZFb8uDOoQFS0NCcjqIYQg==
+parse-url@^8.1.0:
+  version "8.1.0"
+  resolved "https://registry.yarnpkg.com/parse-url/-/parse-url-8.1.0.tgz#972e0827ed4b57fc85f0ea6b0d839f0d8a57a57d"
+  integrity sha512-xDvOoLU5XRrcOZvnI6b8zA6n9O9ejNk/GExuz1yBuWUGn9KA97GI6HTs6u02wKara1CeVmZhH+0TZFdWScR89w==
   dependencies:
-    is-ssh "^1.4.0"
-    normalize-url "^6.1.0"
-    parse-path "^5.0.0"
-    protocols "^2.0.1"
+    parse-path "^7.0.0"
 
 pascalcase@^0.1.1:
   version "0.1.1"
@@ -7656,6 +7746,13 @@ plugin-error@^1.0.1:
     arr-union "^3.1.0"
     extend-shallow "^3.0.2"
 
+plugin-error@^2.0.0:
+  version "2.0.0"
+  resolved "https://registry.yarnpkg.com/plugin-error/-/plugin-error-2.0.0.tgz#d05da1ab0737220ae06ea04e1683d177b55f5ca4"
+  integrity sha512-o4bwIOmuFwUg2MU6xt7plGEQY3YyENx6kvwaFZBrUpamA91FdS9w3U+pU0y4OuDoBQe+jf3RLGSfQebSRBEVsQ==
+  dependencies:
+    ansi-colors "^1.0.1"
+
 pluralize@^8.0.0:
   version "8.0.0"
   resolved "https://registry.yarnpkg.com/pluralize/-/pluralize-8.0.0.tgz#1a6fa16a38d12a1901e0320fa017051c539ce3b1"
@@ -7679,13 +7776,12 @@ prelude-ls@^1.2.1:
   resolved "https://registry.yarnpkg.com/prelude-ls/-/prelude-ls-1.2.1.tgz#debc6489d7a6e6b0e7611888cec880337d316396"
   integrity sha512-vkcDPrRZo1QZLbn5RLGPpg/WmIQ65qoWWhcGKf/b5eplkkarX0m9z8ppCat4mlOqUsWpyNuYgO3VRyrYHSzX5g==
 
-pretty-format@^28.0.0, pretty-format@^28.1.3:
-  version "28.1.3"
-  resolved "https://registry.yarnpkg.com/pretty-format/-/pretty-format-28.1.3.tgz#c9fba8cedf99ce50963a11b27d982a9ae90970d5"
-  integrity sha512-8gFb/To0OmxHR9+ZTb14Df2vNxdGCX8g1xWGUTqUw5TiZvcQf5sHKObd5UcPyLLyowNwDAMTF3XWOG1B6mxl1Q==
+pretty-format@^29.0.0, pretty-format@^29.1.2:
+  version "29.1.2"
+  resolved "https://registry.yarnpkg.com/pretty-format/-/pretty-format-29.1.2.tgz#b1f6b75be7d699be1a051f5da36e8ae9e76a8e6a"
+  integrity sha512-CGJ6VVGXVRP2o2Dorl4mAwwvDWT25luIsYhkyVQW32E4nL+TgW939J7LlKT/npq5Cpq6j3s+sy+13yk7xYpBmg==
   dependencies:
-    "@jest/schemas" "^28.1.3"
-    ansi-regex "^5.0.1"
+    "@jest/schemas" "^29.0.0"
     ansi-styles "^5.0.0"
     react-is "^18.0.0"
 
@@ -7781,7 +7877,7 @@ pumpify@^1.3.5:
     inherits "^2.0.3"
     pump "^2.0.0"
 
-punycode@^2.1.0, punycode@^2.1.1:
+punycode@^2.1.0:
   version "2.1.1"
   resolved "https://registry.yarnpkg.com/punycode/-/punycode-2.1.1.tgz#b58b010ac40c22c5657616c8d2c2c02c7bf479ec"
   integrity sha512-XRsRjdf+j5ml+y/6GKHPZbrF/8p2Yga0JPtdqTIY2Xe5ohJPD9saDJJLPvp9+NSBprVvevdXZybnj2cv8OEd0A==
@@ -8169,10 +8265,10 @@ rimraf@^3.0.0, rimraf@^3.0.2:
   dependencies:
     glob "^7.1.3"
 
-rollup@2.77.2:
-  version "2.77.2"
-  resolved "https://registry.yarnpkg.com/rollup/-/rollup-2.77.2.tgz#6b6075c55f9cc2040a5912e6e062151e42e2c4e3"
-  integrity sha512-m/4YzYgLcpMQbxX3NmAqDvwLATZzxt8bIegO78FZLl+lAgKJBd1DRAOeEiZcKOIOPjxE6ewHWHNgGEalFXuz1g==
+rollup@2.79.1:
+  version "2.79.1"
+  resolved "https://registry.yarnpkg.com/rollup/-/rollup-2.79.1.tgz#bedee8faef7c9f93a2647ac0108748f497f081c7"
+  integrity sha512-uKxbd0IhMZOhjAiD5oAFp7BqvkA4Dv47qpOCtaNvng4HBwdbWtdOh8f5nZNuk2rp51PMGk3bzfWu5oayNEuYnw==
   optionalDependencies:
     fsevents "~2.3.2"
 
@@ -8188,7 +8284,14 @@ run-parallel@^1.1.9:
   dependencies:
     queue-microtask "^1.2.2"
 
-rxjs@7.5.6, rxjs@^7.5.5:
+rxjs@7.5.7:
+  version "7.5.7"
+  resolved "https://registry.yarnpkg.com/rxjs/-/rxjs-7.5.7.tgz#2ec0d57fdc89ece220d2e702730ae8f1e49def39"
+  integrity sha512-z9MzKh/UcOqB3i20H6rtrlaE/CgjLOvheWK/9ILrbhROGTweAi1BaFsTT9FbwZi5Trr1qNRs+MXkhmR06awzQA==
+  dependencies:
+    tslib "^2.1.0"
+
+rxjs@^7.5.5:
   version "7.5.6"
   resolved "https://registry.yarnpkg.com/rxjs/-/rxjs-7.5.6.tgz#0446577557862afd6903517ce7cae79ecb9662bc"
   integrity sha512-dnyv2/YsXhnm461G+R/Pe5bWP41Nm6LBXEYWI6eiFP4fiwx6WRI/CD0zbdVAudd9xwLEF2IDcKXLHit0FYjUzw==
@@ -8310,14 +8413,14 @@ shebang-regex@^3.0.0:
   resolved "https://registry.yarnpkg.com/shebang-regex/-/shebang-regex-3.0.0.tgz#ae16f1644d873ecad843b0307b143362d4c42172"
   integrity sha512-7++dFhtcx3353uBaq8DDR4NuxBetBzC7ZQOhmTQInHEd6bSrXdiEyzCvG07Z44UYdLShWUyXt5M/yhz8ekcb1A==
 
-shiki@^0.10.1:
-  version "0.10.1"
-  resolved "https://registry.yarnpkg.com/shiki/-/shiki-0.10.1.tgz#6f9a16205a823b56c072d0f1a0bcd0f2646bef14"
-  integrity sha512-VsY7QJVzU51j5o1+DguUd+6vmCmZ5v/6gYu4vyYAhzjuNQU6P/vmSy4uQaOhvje031qQMiW0d2BwgMH52vqMng==
+shiki@^0.11.1:
+  version "0.11.1"
+  resolved "https://registry.yarnpkg.com/shiki/-/shiki-0.11.1.tgz#df0f719e7ab592c484d8b73ec10e215a503ab8cc"
+  integrity sha512-EugY9VASFuDqOexOgXR18ZV+TbFrQHeCpEYaXamO+SZlsnT/2LxuLBX25GGtIrwaEVFXUAbUQ601SWE2rMwWHA==
   dependencies:
     jsonc-parser "^3.0.0"
     vscode-oniguruma "^1.6.1"
-    vscode-textmate "5.2.0"
+    vscode-textmate "^6.0.0"
 
 signal-exit@^3.0.2, signal-exit@^3.0.3, signal-exit@^3.0.7:
   version "3.0.7"
@@ -8944,13 +9047,6 @@ totalist@^1.0.0:
   resolved "https://registry.yarnpkg.com/totalist/-/totalist-1.1.0.tgz#a4d65a3e546517701e3e5c37a47a70ac97fe56df"
   integrity sha512-gduQwd1rOdDMGxFG1gEvhV88Oirdo2p+KjoYFU7k2g+i7n6AFFbDQ5kMPUsW0pNbfQsB/cwXvT1i4Bue0s9g5g==
 
-tr46@^2.1.0:
-  version "2.1.0"
-  resolved "https://registry.yarnpkg.com/tr46/-/tr46-2.1.0.tgz#fa87aa81ca5d5941da8cbf1f9b749dc969a4e240"
-  integrity sha512-15Ih7phfcdP5YxqiB+iDtLoaTz4Nd35+IiAv0kQ5FNKHzXgdWqPoTIqEDDJmXceQt4JZk6lVPT8lnDlPpGDppw==
-  dependencies:
-    punycode "^2.1.1"
-
 tr46@~0.0.3:
   version "0.0.3"
   resolved "https://registry.yarnpkg.com/tr46/-/tr46-0.0.3.tgz#8184fd347dac9cdc185992f3a6622e14b9d9ab6a"
@@ -8971,14 +9067,14 @@ trim-newlines@^4.0.2:
   resolved "https://registry.yarnpkg.com/trim-newlines/-/trim-newlines-4.0.2.tgz#d6aaaf6a0df1b4b536d183879a6b939489808c7c"
   integrity sha512-GJtWyq9InR/2HRiLZgpIKv+ufIKrVrvjQWEj7PxAXNc5dwbNJkqhAUoAGgzRmULAnoOM5EIpveYd3J2VeSAIew==
 
-ts-jest@28.0.7:
-  version "28.0.7"
-  resolved "https://registry.yarnpkg.com/ts-jest/-/ts-jest-28.0.7.tgz#e18757a9e44693da9980a79127e5df5a98b37ac6"
-  integrity sha512-wWXCSmTwBVmdvWrOpYhal79bDpioDy4rTT+0vyUnE3ZzM7LOAAGG9NXwzkEL/a516rQEgnMmS/WKP9jBPCVJyA==
+ts-jest@29.0.3:
+  version "29.0.3"
+  resolved "https://registry.yarnpkg.com/ts-jest/-/ts-jest-29.0.3.tgz#63ea93c5401ab73595440733cefdba31fcf9cb77"
+  integrity sha512-Ibygvmuyq1qp/z3yTh9QTwVVAbFdDy/+4BtIQR2sp6baF2SJU/8CKK/hhnGIDY2L90Az2jIqTwZPnN2p+BweiQ==
   dependencies:
     bs-logger "0.x"
     fast-json-stable-stringify "2.x"
-    jest-util "^28.0.0"
+    jest-util "^29.0.0"
     json5 "^2.2.1"
     lodash.memoize "4.x"
     make-error "1.x"
@@ -9100,20 +9196,20 @@ typedarray@^0.0.6:
   resolved "https://registry.yarnpkg.com/typedarray/-/typedarray-0.0.6.tgz#867ac74e3864187b1d3d47d996a78ec5c8830777"
   integrity sha512-/aCDEGatGvZ2BIk+HmLf4ifCJFwvKFNb9/JeZPMulfgFracn9QFcAf5GO8B/mweUjSoblS5In0cWhqpfs/5PQA==
 
-typedoc@0.23.10:
-  version "0.23.10"
-  resolved "https://registry.yarnpkg.com/typedoc/-/typedoc-0.23.10.tgz#285d595a5f2e35ccdf6f38eba4dfe951d5bff461"
-  integrity sha512-03EUiu/ZuScUBMnY6p0lY+HTH8SwhzvRE3gImoemdPDWXPXlks83UGTx++lyquWeB1MTwm9D9Ca8RIjkK3AFfQ==
+typedoc@0.23.15:
+  version "0.23.15"
+  resolved "https://registry.yarnpkg.com/typedoc/-/typedoc-0.23.15.tgz#6d995c47d34e5785dadffe0ebc28372bd019e5e5"
+  integrity sha512-x9Zu+tTnwxb9YdVr+zvX7LYzyBl1nieOr6lrSHbHsA22/RJK2m4Y525WIg5Mj4jWCmfL47v6f4hUzY7EIuwS5w==
   dependencies:
     lunr "^2.3.9"
-    marked "^4.0.18"
+    marked "^4.0.19"
     minimatch "^5.1.0"
-    shiki "^0.10.1"
+    shiki "^0.11.1"
 
-typescript@4.7.4:
-  version "4.7.4"
-  resolved "https://registry.yarnpkg.com/typescript/-/typescript-4.7.4.tgz#1a88596d1cf47d59507a1bcdfb5b9dfe4d488235"
-  integrity sha512-C0WQT0gezHuw6AdY1M2jxUO83Rjf0HP7Sk1DtXj6j1EwkQNZrHAg2XPWlq62oqEhYvONq5pkC2Y9oPljWToLmQ==
+typescript@4.8.4, "typescript@^3 || ^4":
+  version "4.8.4"
+  resolved "https://registry.yarnpkg.com/typescript/-/typescript-4.8.4.tgz#c464abca159669597be5f96b8943500b238e60e6"
+  integrity sha512-QCh+85mCy+h0IGff8r5XWzOVSbBO+KfeYrMQh7NJ58QujwcE22u+NUSmUxqF+un70P9GXKxa2HCNiTTMJknyjQ==
 
 typical@^4.0.0:
   version "4.0.0"
@@ -9256,7 +9352,7 @@ v8-compile-cache-lib@^3.0.1:
   resolved "https://registry.yarnpkg.com/v8-compile-cache-lib/-/v8-compile-cache-lib-3.0.1.tgz#6336e8d71965cb3d35a1bbb7868445a7c05264bf"
   integrity sha512-wa7YjyUGfNZngI/vtK0UHAN+lgDCxBPCylVXGp0zu59Fz5aiGtNXaq3DhIov063MorB+VfufLh3JlF2KdTK3xg==
 
-v8-compile-cache@2.3.0, v8-compile-cache@^2.0.3:
+v8-compile-cache@2.3.0:
   version "2.3.0"
   resolved "https://registry.yarnpkg.com/v8-compile-cache/-/v8-compile-cache-2.3.0.tgz#2de19618c66dc247dcfb6f99338035d8245a2cee"
   integrity sha512-l8lCEmLcLYZh4nbunNZvQCJc5pv7+RCwa8q/LdUx8u7lsWvPDKmpodJAJNwkAhJC//dFY48KuIEmjtd4RViDrA==
@@ -9387,10 +9483,10 @@ vscode-oniguruma@^1.6.1:
   resolved "https://registry.yarnpkg.com/vscode-oniguruma/-/vscode-oniguruma-1.6.2.tgz#aeb9771a2f1dbfc9083c8a7fdd9cccaa3f386607"
   integrity sha512-KH8+KKov5eS/9WhofZR8M8dMHWN2gTxjMsG4jd04YhpbPR91fUj7rYQ2/XjeHCJWbg7X++ApRIU9NUwM2vTvLA==
 
-vscode-textmate@5.2.0:
-  version "5.2.0"
-  resolved "https://registry.yarnpkg.com/vscode-textmate/-/vscode-textmate-5.2.0.tgz#01f01760a391e8222fe4f33fbccbd1ad71aed74e"
-  integrity sha512-Uw5ooOQxRASHgu6C7GVvUxisKXfSgW4oFlO+aa+PAkgmH89O3CXxEEzNRNtHSqtXFTl0nAC1uYj0GMSH27uwtQ==
+vscode-textmate@^6.0.0:
+  version "6.0.0"
+  resolved "https://registry.yarnpkg.com/vscode-textmate/-/vscode-textmate-6.0.0.tgz#a3777197235036814ac9a92451492f2748589210"
+  integrity sha512-gu73tuZfJgu+mvCSy4UZwd2JXykjK9zAZsfmDeut5dx/1a7FeTk0XwJsSuqQn+cuMCGVbIBfl+s53X4T19DnzQ==
 
 walk-up-path@^1.0.0:
   version "1.0.0"
@@ -9424,25 +9520,15 @@ web-streams-polyfill@3.2.1:
   resolved "https://registry.yarnpkg.com/web-streams-polyfill/-/web-streams-polyfill-3.2.1.tgz#71c2718c52b45fd49dbeee88634b3a60ceab42a6"
   integrity sha512-e0MO3wdXWKrLbL0DgGnUV7WHVuw9OUvL4hjgnPkIeEvESk74gAITi5G606JtZPp39cd8HA9VQzCIvA49LpPN5Q==
 
-web-streams-polyfill@~3.0.3:
-  version "3.0.3"
-  resolved "https://registry.yarnpkg.com/web-streams-polyfill/-/web-streams-polyfill-3.0.3.tgz#f49e487eedeca47a207c1aee41ee5578f884b42f"
-  integrity sha512-d2H/t0eqRNM4w2WvmTdoeIvzAUSpK7JmATB8Nr2lb7nQ9BTIJVjbQ/TRFVEh2gUH1HwclPdoPtfMoFfetXaZnA==
-
 webidl-conversions@^3.0.0:
   version "3.0.1"
   resolved "https://registry.yarnpkg.com/webidl-conversions/-/webidl-conversions-3.0.1.tgz#24534275e2a7bc6be7bc86611cc16ae0a5654871"
   integrity sha512-2JAn3z8AR6rjK8Sm8orRC0h/bcl/DqL7tRPdGZ4I1CjdF+EaMLmYxBHyXuKL849eucPFhvBoxMsflfOb8kxaeQ==
 
-webidl-conversions@^6.1.0:
-  version "6.1.0"
-  resolved "https://registry.yarnpkg.com/webidl-conversions/-/webidl-conversions-6.1.0.tgz#9111b4d7ea80acd40f5270d666621afa78b69514"
-  integrity sha512-qBIvFLGiBpLjfwmYAaHPXsn+ho5xZnGvyGvsarywGNc8VyQJUMHJ8OBKGGrPER0okBeMDaan4mNBlgBROxuI8w==
-
-webpack-bundle-analyzer@4.5.0:
-  version "4.5.0"
-  resolved "https://registry.yarnpkg.com/webpack-bundle-analyzer/-/webpack-bundle-analyzer-4.5.0.tgz#1b0eea2947e73528754a6f9af3e91b2b6e0f79d5"
-  integrity sha512-GUMZlM3SKwS8Z+CKeIFx7CVoHn3dXFcUAjT/dcZQQmfSZGvitPfMob2ipjai7ovFFqPvTqkEZ/leL4O0YOdAYQ==
+webpack-bundle-analyzer@4.6.1:
+  version "4.6.1"
+  resolved "https://registry.yarnpkg.com/webpack-bundle-analyzer/-/webpack-bundle-analyzer-4.6.1.tgz#bee2ee05f4ba4ed430e4831a319126bb4ed9f5a6"
+  integrity sha512-oKz9Oz9j3rUciLNfpGFjOb49/jEpXNmWdVH8Ls//zNcnLlQdTGXQQMsBbb/gR7Zl8WNLxVCq+0Hqbx3zv6twBw==
   dependencies:
     acorn "^8.0.4"
     acorn-walk "^8.0.0"
@@ -9511,15 +9597,6 @@ whatwg-url@^5.0.0:
     tr46 "~0.0.3"
     webidl-conversions "^3.0.0"
 
-whatwg-url@^8.4.0:
-  version "8.7.0"
-  resolved "https://registry.yarnpkg.com/whatwg-url/-/whatwg-url-8.7.0.tgz#656a78e510ff8f3937bc0bcbe9f5c0ac35941b77"
-  integrity sha512-gAojqb/m9Q8a5IV96E3fHJM70AzCkgt4uXYX2O7EmuyOnLrViCQlsEBmF9UQIu3/aeAIp2U17rtbpZWNntQqdg==
-  dependencies:
-    lodash "^4.7.0"
-    tr46 "^2.1.0"
-    webidl-conversions "^6.1.0"
-
 which-module@^1.0.0:
   version "1.0.0"
   resolved "https://registry.yarnpkg.com/which-module/-/which-module-1.0.0.tgz#bba63ca861948994ff307736089e3b96026c2a4f"
diff --git a/matlab/CMakeLists.txt b/matlab/CMakeLists.txt
index 79bc809a21f..085532b46f8 100644
--- a/matlab/CMakeLists.txt
+++ b/matlab/CMakeLists.txt
@@ -187,9 +187,9 @@ macro(build_gtest)
   add_dependencies(GTest::gtest_main arrow_ep)
 endmacro()
 
-set(CMAKE_CXX_STANDARD 11)
+set(CMAKE_CXX_STANDARD 17)
 
-set(MLARROW_VERSION "10.0.0-SNAPSHOT")
+set(MLARROW_VERSION "11.0.0")
 string(REGEX MATCH "^[0-9]+\\.[0-9]+\\.[0-9]+" MLARROW_BASE_VERSION "${MLARROW_VERSION}")
 
 project(mlarrow VERSION "${MLARROW_BASE_VERSION}")
diff --git a/matlab/README.md b/matlab/README.md
index 6f99fc4f5f9..3c183f7b164 100644
--- a/matlab/README.md
+++ b/matlab/README.md
@@ -31,7 +31,7 @@ To build the MATLAB Interface to Apache Arrow from source, the following softwar
 
 1. [MATLAB](https://www.mathworks.com/products/get-matlab.html)
 2. [CMake](https://cmake.org/cmake/help/latest/)
-3. C++ compiler which supports C++11 (e.g. [`gcc`](https://gcc.gnu.org/) on Linux, [`Xcode`](https://developer.apple.com/xcode/) on macOS, or [`Visual Studio`](https://visualstudio.microsoft.com/) on Windows)
+3. C++ compiler which supports C++17 (e.g. [`gcc`](https://gcc.gnu.org/) on Linux, [`Xcode`](https://developer.apple.com/xcode/) on macOS, or [`Visual Studio`](https://visualstudio.microsoft.com/) on Windows)
 4. [Git](https://git-scm.com/)
 
 ## Setup
diff --git a/python/.gitignore b/python/.gitignore
index 45a4ffdb184..48d3f2451a5 100644
--- a/python/.gitignore
+++ b/python/.gitignore
@@ -15,6 +15,7 @@ Testing/
 # Generated sources
 *.c
 *.cpp
+pyarrow/lib.h
 pyarrow/*_api.h
 pyarrow/_generated_version.py
 cython_debug
diff --git a/python/CMakeLists.txt b/python/CMakeLists.txt
index a657f56bb2d..c6ef8ec07ec 100644
--- a/python/CMakeLists.txt
+++ b/python/CMakeLists.txt
@@ -18,9 +18,12 @@
 # Includes code assembled from BSD/MIT/Apache-licensed code from some 3rd-party
 # projects, including Kudu, Impala, and libdynd. See python/LICENSE.txt
 
-cmake_minimum_required(VERSION 3.2)
+cmake_minimum_required(VERSION 3.5)
 project(pyarrow)
 
+set(PYARROW_VERSION "11.0.0")
+string(REGEX MATCH "^[0-9]+\\.[0-9]+\\.[0-9]+" PYARROW_BASE_VERSION "${PYARROW_VERSION}")
+
 # Running from a Python sdist tarball
 set(LOCAL_CMAKE_MODULES "${CMAKE_SOURCE_DIR}/cmake_modules")
 if(EXISTS "${LOCAL_CMAKE_MODULES}")
@@ -33,12 +36,38 @@ if(EXISTS "${CPP_CMAKE_MODULES}")
   set(CMAKE_MODULE_PATH ${CMAKE_MODULE_PATH} ${CPP_CMAKE_MODULES})
 endif()
 
+if(PYARROW_CPP_HOME)
+  list(INSERT CMAKE_PREFIX_PATH 0 "${PYARROW_CPP_HOME}")
+endif()
+
 include(CMakeParseArguments)
 
+# MACOSX_RPATH is enabled by default.
+# https://www.cmake.org/cmake/help/latest/policy/CMP0042.html
+cmake_policy(SET CMP0042 NEW)
+
 # Only interpret if() arguments as variables or keywords when unquoted.
 # https://www.cmake.org/cmake/help/latest/policy/CMP0054.html
 cmake_policy(SET CMP0054 NEW)
 
+# RPATH settings on macOS do not affect install_name.
+# https://cmake.org/cmake/help/latest/policy/CMP0068.html
+if(POLICY CMP0068)
+  cmake_policy(SET CMP0068 NEW)
+endif()
+
+# find_package() uses <PackageName>_ROOT variables.
+# https://cmake.org/cmake/help/latest/policy/CMP0074.html
+if(POLICY CMP0074)
+  cmake_policy(SET CMP0074 NEW)
+endif()
+
+# RPATH entries are properly escaped in the intermediary CMake install script.
+# https://cmake.org/cmake/help/latest/policy/CMP0095.html
+if(POLICY CMP0095)
+  cmake_policy(SET CMP0095 NEW)
+endif()
+
 # Use the first Python installation on PATH, not the newest one
 set(Python3_FIND_STRATEGY "LOCATION")
 # On Windows, use registry last, not first
@@ -55,7 +84,7 @@ set(CMAKE_MACOSX_RPATH 1)
 if(DEFINED ENV{MACOSX_DEPLOYMENT_TARGET})
   set(CMAKE_OSX_DEPLOYMENT_TARGET $ENV{MACOSX_DEPLOYMENT_TARGET})
 else()
-  set(CMAKE_OSX_DEPLOYMENT_TARGET 10.9)
+  set(CMAKE_OSX_DEPLOYMENT_TARGET 10.14)
 endif()
 
 # Generate a Clang compile_commands.json "compilation database" file for use
@@ -65,6 +94,20 @@ if("$ENV{CMAKE_EXPORT_COMPILE_COMMANDS}" STREQUAL "1")
   set(CMAKE_EXPORT_COMPILE_COMMANDS 1)
 endif()
 
+if(UNIX)
+  set(CMAKE_BUILD_WITH_INSTALL_RPATH TRUE)
+  # In the event that we are bundling the shared libraries (e.g. in a
+  # manylinux1 wheel), we need to set the RPATH of the extensions to the
+  # root of the pyarrow/ package so that libarrow is able to be
+  # loaded properly
+  if(APPLE)
+    set(CMAKE_INSTALL_NAME_DIR "@rpath")
+    set(CMAKE_INSTALL_RPATH "@loader_path/")
+  else()
+    set(CMAKE_INSTALL_RPATH "\$ORIGIN")
+  endif()
+endif()
+
 # Top level cmake dir
 if("${CMAKE_SOURCE_DIR}" STREQUAL "${CMAKE_CURRENT_SOURCE_DIR}")
   option(PYARROW_BUILD_CUDA "Build the PyArrow CUDA support" OFF)
@@ -77,12 +120,14 @@ if("${CMAKE_SOURCE_DIR}" STREQUAL "${CMAKE_CURRENT_SOURCE_DIR}")
   option(PYARROW_BUILD_PARQUET_ENCRYPTION
          "Build the PyArrow Parquet encryption integration" OFF)
   option(PYARROW_BOOST_USE_SHARED
-         "Rely on boost shared libraries on linking static parquet" ON)
+         "Rely on Boost shared libraries on linking static parquet" ON)
   option(PYARROW_BUILD_PLASMA "Build the PyArrow Plasma integration" OFF)
   option(PYARROW_USE_TENSORFLOW "Build PyArrow with TensorFlow support" OFF)
   option(PYARROW_BUILD_ORC "Build the PyArrow ORC integration" OFF)
   option(PYARROW_BUNDLE_ARROW_CPP "Bundle the Arrow C++ libraries" OFF)
   option(PYARROW_BUNDLE_BOOST "Bundle the Boost libraries when we bundle Arrow C++" OFF)
+  option(PYARROW_BUNDLE_CYTHON_CPP "Bundle the C++ files generated by Cython" OFF)
+  option(PYARROW_BUNDLE_PLASMA_EXECUTABLE "Bundle the plasma-store-server" ON)
   option(PYARROW_GENERATE_COVERAGE "Build with Cython code coverage enabled" OFF)
   set(PYARROW_CXXFLAGS
       ""
@@ -90,10 +135,16 @@ if("${CMAKE_SOURCE_DIR}" STREQUAL "${CMAKE_CURRENT_SOURCE_DIR}")
 endif()
 
 find_program(CCACHE_FOUND ccache)
-if(CCACHE_FOUND)
-  set_property(GLOBAL PROPERTY RULE_LAUNCH_COMPILE ccache)
-  set_property(GLOBAL PROPERTY RULE_LAUNCH_LINK ccache)
-endif(CCACHE_FOUND)
+if(CCACHE_FOUND
+   AND NOT CMAKE_C_COMPILER_LAUNCHER
+   AND NOT CMAKE_CXX_COMPILER_LAUNCHER)
+  message(STATUS "Using ccache: ${CCACHE_FOUND}")
+  set(CMAKE_C_COMPILER_LAUNCHER ${CCACHE_FOUND})
+  set(CMAKE_CXX_COMPILER_LAUNCHER ${CCACHE_FOUND})
+  # ARROW-3985: let ccache preserve C++ comments, because some of them may be
+  # meaningful to the compiler
+  set(ENV{CCACHE_COMMENTS} "1")
+endif()
 
 #
 # Compiler flags
@@ -116,11 +167,6 @@ if(NOT DEFINED ARROW_RUNTIME_SIMD_LEVEL)
       "MAX"
       CACHE STRING "Max runtime SIMD optimization level")
 endif()
-if(NOT DEFINED ARROW_ARMV8_ARCH)
-  set(ARROW_ARMV8_ARCH
-      "armv8-a"
-      CACHE STRING "Arm64 arch and extensions: armv8-a, armv8-a or armv8-a+crc+crypto")
-endif()
 include(SetupCxxFlags)
 
 # Add common flags
@@ -166,9 +212,12 @@ endif()
 # For any C code, use the same flags.
 set(CMAKE_C_FLAGS "${CMAKE_CXX_FLAGS}")
 
-# Add C++-only flags, like -std=c++11
+# Add C++-only flags, like -std=c++17
 set(CMAKE_CXX_FLAGS "${CXX_ONLY_FLAGS} ${CMAKE_CXX_FLAGS}")
 
+message(STATUS "CMAKE_C_FLAGS: ${CMAKE_C_FLAGS}")
+message(STATUS "CMAKE_CXX_FLAGS: ${CMAKE_CXX_FLAGS}")
+
 if(MSVC)
   # MSVC makes its own output directories based on the build configuration
   set(BUILD_SUBDIR_NAME "")
@@ -209,32 +258,161 @@ set(LIBRARY_OUTPUT_DIRECTORY "${BUILD_OUTPUT_ROOT_DIRECTORY}")
 # where to put generated binaries
 set(EXECUTABLE_OUTPUT_PATH "${BUILD_OUTPUT_ROOT_DIRECTORY}")
 
-if(PYARROW_USE_TENSORFLOW)
-  # TensorFlow uses the old GLIBCXX ABI, so we have to use it too
-  set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -D_GLIBCXX_USE_CXX11_ABI=0")
-endif()
-
 # Python and Numpy libraries
 find_package(Python3Alt REQUIRED)
 include(UseCython)
 
-include_directories(SYSTEM ${NUMPY_INCLUDE_DIRS} ${PYTHON_INCLUDE_DIRS} src)
+# PyArrow C++
+include(GNUInstallDirs)
+
+find_package(Arrow REQUIRED)
+
+set(PYARROW_CPP_ROOT_DIR pyarrow/src)
+set(PYARROW_CPP_SOURCE_DIR ${PYARROW_CPP_ROOT_DIR}/arrow/python)
+set(PYARROW_CPP_SRCS
+    ${PYARROW_CPP_SOURCE_DIR}/arrow_to_pandas.cc
+    ${PYARROW_CPP_SOURCE_DIR}/benchmark.cc
+    ${PYARROW_CPP_SOURCE_DIR}/common.cc
+    ${PYARROW_CPP_SOURCE_DIR}/datetime.cc
+    ${PYARROW_CPP_SOURCE_DIR}/decimal.cc
+    ${PYARROW_CPP_SOURCE_DIR}/deserialize.cc
+    ${PYARROW_CPP_SOURCE_DIR}/extension_type.cc
+    ${PYARROW_CPP_SOURCE_DIR}/gdb.cc
+    ${PYARROW_CPP_SOURCE_DIR}/helpers.cc
+    ${PYARROW_CPP_SOURCE_DIR}/inference.cc
+    ${PYARROW_CPP_SOURCE_DIR}/init.cc
+    ${PYARROW_CPP_SOURCE_DIR}/io.cc
+    ${PYARROW_CPP_SOURCE_DIR}/ipc.cc
+    ${PYARROW_CPP_SOURCE_DIR}/numpy_convert.cc
+    ${PYARROW_CPP_SOURCE_DIR}/numpy_to_arrow.cc
+    ${PYARROW_CPP_SOURCE_DIR}/python_test.cc
+    ${PYARROW_CPP_SOURCE_DIR}/python_to_arrow.cc
+    ${PYARROW_CPP_SOURCE_DIR}/pyarrow.cc
+    ${PYARROW_CPP_SOURCE_DIR}/serialize.cc
+    ${PYARROW_CPP_SOURCE_DIR}/udf.cc)
+set_source_files_properties(${PYARROW_CPP_SOURCE_DIR}/init.cc
+                            PROPERTIES SKIP_PRECOMPILE_HEADERS ON
+                                       SKIP_UNITY_BUILD_INCLUSION ON)
+
+set(PYARROW_CPP_LINK_LIBS "")
 
 #
-# Dependencies
+# Arrow vs PyArrow C++ options
 #
 
+# Check all the options from Arrow and PyArrow C++ to be in line
+if(PYARROW_BUILD_DATASET)
+  if(NOT ARROW_DATASET)
+    message(FATAL_ERROR "You must build Arrow C++ with ARROW_DATASET=ON")
+  endif()
+  find_package(ArrowDataset REQUIRED)
+  if(ARROW_BUILD_SHARED)
+    list(APPEND PYARROW_CPP_LINK_LIBS ArrowDataset::arrow_dataset_shared)
+  else()
+    list(APPEND PYARROW_CPP_LINK_LIBS ArrowDataset::arrow_dataset_static)
+  endif()
+endif()
+
+if(PYARROW_BUILD_PARQUET OR PYARROW_BUILD_PARQUET_ENCRYPTION)
+  if(NOT ARROW_PARQUET)
+    message(FATAL_ERROR "You must build Arrow C++ with ARROW_PARQUET=ON")
+  endif()
+  find_package(Parquet REQUIRED)
+endif()
+
+if(PYARROW_BUILD_PARQUET_ENCRYPTION)
+  if(PARQUET_REQUIRE_ENCRYPTION)
+    list(APPEND PYARROW_CPP_SRCS ${PYARROW_CPP_SOURCE_DIR}/parquet_encryption.cc)
+    if(ARROW_BUILD_SHARED)
+      list(APPEND PYARROW_CPP_LINK_LIBS Parquet::parquet_shared)
+    else()
+      list(APPEND PYARROW_CPP_LINK_LIBS Parquet::parquet_static)
+    endif()
+  else()
+    message(FATAL_ERROR "You must build Arrow C++ with PARQUET_REQUIRE_ENCRYPTION=ON")
+  endif()
+endif()
+
+if(PYARROW_BUILD_HDFS)
+  if(NOT ARROW_HDFS)
+    message(FATAL_ERROR "You must build Arrow C++ with ARROW_HDFS=ON")
+  endif()
+endif()
+
+# Check for only Arrow C++ options
+if(ARROW_CSV)
+  list(APPEND PYARROW_CPP_SRCS ${PYARROW_CPP_SOURCE_DIR}/csv.cc)
+endif()
+
+if(ARROW_FILESYSTEM)
+  list(APPEND PYARROW_CPP_SRCS ${PYARROW_CPP_SOURCE_DIR}/filesystem.cc)
+endif()
+
+if(CMAKE_CXX_COMPILER_ID STREQUAL "AppleClang" OR CMAKE_CXX_COMPILER_ID STREQUAL "Clang")
+  set_property(SOURCE ${PYARROW_CPP_SOURCE_DIR}/pyarrow.cc
+               APPEND_STRING
+               PROPERTY COMPILE_FLAGS " -Wno-cast-qual ")
+endif()
+
+if(NOT PYARROW_CPP_LINK_LIBS)
+  if(ARROW_BUILD_SHARED)
+    list(APPEND PYARROW_CPP_LINK_LIBS Arrow::arrow_shared)
+  else()
+    list(APPEND PYARROW_CPP_LINK_LIBS Arrow::arrow_static)
+  endif()
+endif()
+
+add_library(arrow_python SHARED ${PYARROW_CPP_SRCS})
+target_include_directories(arrow_python PUBLIC ${PYARROW_CPP_ROOT_DIR}
+                                               ${CMAKE_CURRENT_BINARY_DIR}/pyarrow/src)
+if(NOT CMAKE_VERSION VERSION_LESS 3.16)
+  target_precompile_headers(arrow_python PUBLIC
+                            "$<$<COMPILE_LANGUAGE:CXX>:arrow/python/pch.h>")
+endif()
+target_link_libraries(arrow_python PUBLIC ${PYARROW_CPP_LINK_LIBS} Python3::NumPy)
+target_compile_definitions(arrow_python PRIVATE ARROW_PYTHON_EXPORTING)
+install(TARGETS arrow_python
+        ARCHIVE DESTINATION .
+        LIBRARY DESTINATION .
+        RUNTIME DESTINATION .)
+
+set(PYARROW_CPP_FLIGHT_SRCS ${PYARROW_CPP_SOURCE_DIR}/flight.cc)
 if(PYARROW_BUILD_FLIGHT)
-  set(ARROW_FLIGHT TRUE)
+  if(NOT ARROW_FLIGHT)
+    message(FATAL_ERROR "You must build Arrow C++ with ARROW_FLIGHT=ON")
+  endif()
+  # Must link to shared libarrow_flight: we don't want to link more than one
+  # copy of gRPC into the eventual Cython shared object, otherwise gRPC calls
+  # fail with weird errors due to multiple copies of global static state (The
+  # other solution is to link gRPC shared everywhere instead of statically only
+  # in Flight)
+  if(NOT ARROW_BUILD_SHARED)
+    message(FATAL_ERROR "You must build Arrow C++ with ARROW_BUILD_SHARED=ON")
+  endif()
+  find_package(ArrowFlight REQUIRED)
+
+  add_library(arrow_python_flight SHARED ${PYARROW_CPP_FLIGHT_SRCS})
+  target_link_libraries(arrow_python_flight PUBLIC arrow_python
+                                                   ArrowFlight::arrow_flight_shared)
+  target_compile_definitions(arrow_python_flight PRIVATE ARROW_PYFLIGHT_EXPORTING)
+  install(TARGETS arrow_python_flight
+          ARCHIVE DESTINATION .
+          LIBRARY DESTINATION .
+          RUNTIME DESTINATION .)
 endif()
 
-if(PYARROW_BUILD_SUBSTRAIT)
-  set(ARROW_SUBSTRAIT TRUE)
+if(CMAKE_CXX_COMPILER_ID STREQUAL "AppleClang" OR CMAKE_CXX_COMPILER_ID STREQUAL "Clang")
+  # Clang, be quiet. Python C API has lots of macros
+  set_property(SOURCE ${PYARROW_CPP_SRCS} ${PYARROW_CPP_FLIGHT_SRCS}
+               APPEND_STRING
+               PROPERTY COMPILE_FLAGS -Wno-parentheses-equality)
 endif()
 
-# Arrow
-find_package(ArrowPython REQUIRED)
-include_directories(SYSTEM ${ARROW_INCLUDE_DIR})
+install(DIRECTORY ${PYARROW_CPP_SOURCE_DIR}/
+        DESTINATION ${CMAKE_INSTALL_INCLUDEDIR}/arrow/python
+        FILES_MATCHING
+        PATTERN "*internal.h" EXCLUDE
+        PATTERN "*.h")
 
 function(bundle_arrow_lib library_path)
   set(options)
@@ -249,50 +427,31 @@ function(bundle_arrow_lib library_path)
     message(SEND_ERROR "Error: unrecognized arguments: ${ARG_UNPARSED_ARGUMENTS}")
   endif()
 
-  get_filename_component(LIBRARY_DIR ${${library_path}} DIRECTORY)
-  get_filename_component(LIBRARY_NAME ${${library_path}} NAME_WE)
+  get_filename_component(LIBRARY_PATH_REAL ${library_path} REALPATH)
+  get_filename_component(LIBRARY_NAME ${library_path} NAME_WE)
 
   # Only copy the shared library with ABI version on Linux and macOS
 
   if(MSVC)
-    configure_file(${${library_path}}
-                   ${BUILD_OUTPUT_ROOT_DIRECTORY}/${LIBRARY_NAME}${CMAKE_SHARED_LIBRARY_SUFFIX}
-                   COPYONLY)
+    install(FILES ${LIBRARY_PATH_REAL}
+            DESTINATION "."
+            RENAME ${LIBRARY_NAME}${CMAKE_SHARED_LIBRARY_SUFFIX})
   elseif(APPLE)
-    configure_file(${LIBRARY_DIR}/${LIBRARY_NAME}.${ARG_SO_VERSION}${CMAKE_SHARED_LIBRARY_SUFFIX}
-                   ${BUILD_OUTPUT_ROOT_DIRECTORY}/${LIBRARY_NAME}.${ARG_SO_VERSION}${CMAKE_SHARED_LIBRARY_SUFFIX}
-                   COPYONLY)
+    install(FILES ${LIBRARY_PATH_REAL}
+            DESTINATION "."
+            RENAME ${LIBRARY_NAME}.${ARG_SO_VERSION}${CMAKE_SHARED_LIBRARY_SUFFIX})
   else()
-    configure_file(${${library_path}}.${ARG_SO_VERSION}
-                   ${BUILD_OUTPUT_ROOT_DIRECTORY}/${LIBRARY_NAME}${CMAKE_SHARED_LIBRARY_SUFFIX}.${ARG_SO_VERSION}
-                   COPYONLY)
+    install(FILES ${LIBRARY_PATH_REAL}
+            DESTINATION "."
+            RENAME ${LIBRARY_NAME}${CMAKE_SHARED_LIBRARY_SUFFIX}.${ARG_SO_VERSION})
   endif()
-
-endfunction(bundle_arrow_lib)
+endfunction()
 
 function(bundle_arrow_import_lib library_path)
-  get_filename_component(LIBRARY_DIR ${${library_path}} DIRECTORY)
-  get_filename_component(LIBRARY_NAME ${${library_path}} NAME_WE)
-  configure_file(${${library_path}} ${BUILD_OUTPUT_ROOT_DIRECTORY}/${LIBRARY_NAME}.lib
-                 COPYONLY)
-endfunction(bundle_arrow_import_lib)
-
-function(bundle_boost_lib library_path)
-  get_filename_component(LIBRARY_NAME ${${library_path}} NAME)
-  get_filename_component(LIBRARY_NAME_WE ${${library_path}} NAME_WE)
-  configure_file(${${library_path}} ${BUILD_OUTPUT_ROOT_DIRECTORY}/${LIBRARY_NAME}
-                 COPYONLY)
-  set(Boost_SO_VERSION
-      "${Boost_MAJOR_VERSION}.${Boost_MINOR_VERSION}.${Boost_SUBMINOR_VERSION}")
-  if(APPLE)
-    configure_file(${${library_path}}
-                   ${BUILD_OUTPUT_ROOT_DIRECTORY}/${LIBRARY_NAME_WE}${CMAKE_SHARED_LIBRARY_SUFFIX}
-                   COPYONLY)
-  else()
-    configure_file(${${library_path}}
-                   ${BUILD_OUTPUT_ROOT_DIRECTORY}/${LIBRARY_NAME_WE}${CMAKE_SHARED_LIBRARY_SUFFIX}.${Boost_SO_VERSION}
-                   COPYONLY)
-  endif()
+  get_filename_component(LIBRARY_NAME ${library_path} NAME_WE)
+  install(FILES ${library_path}
+          DESTINATION "."
+          RENAME ${LIBRARY_NAME}.lib)
 endfunction()
 
 function(bundle_arrow_dependency library_name)
@@ -335,71 +494,32 @@ function(bundle_arrow_dependency library_name)
     get_filename_component(SHARED_LIB_NAME ${SHARED_LIB_PATH} NAME)
     message(STATUS "Bundle dependency ${library_name}: ${SHARED_LIB_REALPATH} as ${SHARED_LIB_NAME}"
     )
-    configure_file(${SHARED_LIB_REALPATH}
-                   ${BUILD_OUTPUT_ROOT_DIRECTORY}/${SHARED_LIB_NAME} COPYONLY)
+    install(FILES ${SHARED_LIB_REALPATH}
+            DESTINATION "."
+            RENAME ${SHARED_LIB_NAME})
   else()
     message(FATAL_ERROR "Unable to bundle dependency: ${library_name}")
   endif()
 endfunction()
 
 # Always bundle includes
-get_filename_component(ARROW_INCLUDE_REALPATH "${ARROW_INCLUDE_DIR}/arrow" REALPATH)
-file(COPY ${ARROW_INCLUDE_REALPATH} DESTINATION ${BUILD_OUTPUT_ROOT_DIRECTORY}/include)
+get_filename_component(ARROW_INCLUDE_DIR_REAL ${ARROW_INCLUDE_DIR} REALPATH)
+install(DIRECTORY ${ARROW_INCLUDE_DIR_REAL}/arrow DESTINATION ${CMAKE_INSTALL_INCLUDEDIR})
 
 if(PYARROW_BUNDLE_ARROW_CPP)
-  # arrow
-  bundle_arrow_lib(ARROW_SHARED_LIB SO_VERSION ${ARROW_SO_VERSION})
-  bundle_arrow_lib(ARROW_PYTHON_SHARED_LIB SO_VERSION ${ARROW_SO_VERSION})
-
-  # boost
-  if(PYARROW_BOOST_USE_SHARED AND PYARROW_BUNDLE_BOOST)
-    set(Boost_USE_STATIC_LIBS OFF)
-    set(Boost_USE_MULTITHREADED ON)
-    if(MSVC AND ARROW_USE_STATIC_CRT)
-      set(Boost_USE_STATIC_RUNTIME ON)
-    endif()
-    set(Boost_ADDITIONAL_VERSIONS
-        "1.66.0"
-        "1.66"
-        "1.65.0"
-        "1.65"
-        "1.64.0"
-        "1.64"
-        "1.63.0"
-        "1.63"
-        "1.62.0"
-        "1.61"
-        "1.61.0"
-        "1.62"
-        "1.60.0"
-        "1.60")
-    list(GET Boost_ADDITIONAL_VERSIONS 0 BOOST_LATEST_VERSION)
-    string(REPLACE "." "_" BOOST_LATEST_VERSION_IN_PATH ${BOOST_LATEST_VERSION})
-    if(MSVC)
-      # disable autolinking in boost
-      add_definitions(-DBOOST_ALL_NO_LIB)
-    endif()
-    find_package(Boost
-                 COMPONENTS regex
-                 REQUIRED)
-    bundle_boost_lib(Boost_REGEX_LIBRARY)
-  endif()
+  # Arrow
+  bundle_arrow_lib(${ARROW_SHARED_LIB} SO_VERSION ${ARROW_SO_VERSION})
 
   if(MSVC)
     # TODO(kszucs): locate msvcp140.dll in a portable fashion and bundle it
-    bundle_arrow_import_lib(ARROW_IMPORT_LIB)
-    bundle_arrow_import_lib(ARROW_PYTHON_IMPORT_LIB)
+    bundle_arrow_import_lib(${ARROW_IMPORT_LIB})
   endif()
 endif()
 
 #
-# Subdirectories
+# Cython modules
 #
 
-if(UNIX)
-  set(CMAKE_BUILD_WITH_INSTALL_RPATH TRUE)
-endif()
-
 set(CYTHON_EXTENSIONS
     lib
     _compute
@@ -408,130 +528,121 @@ set(CYTHON_EXTENSIONS
     _feather
     _fs
     _hdfsio
-    _json)
+    _json
+    _pyarrow_cpp_tests)
+set_source_files_properties(pyarrow/lib.pyx PROPERTIES CYTHON_API TRUE)
 
-set(LINK_LIBS arrow_shared arrow_python_shared)
+set(LINK_LIBS arrow_python)
 
 if(PYARROW_BUILD_GCS)
-  set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} _gcsfs)
+  list(APPEND CYTHON_EXTENSIONS _gcsfs)
 endif()
 
 if(PYARROW_BUILD_S3)
-  set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} _s3fs)
+  list(APPEND CYTHON_EXTENSIONS _s3fs)
 endif()
 
 if(PYARROW_BUILD_HDFS)
-  set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} _hdfs)
+  list(APPEND CYTHON_EXTENSIONS _hdfs)
 endif()
 
 if(PYARROW_BUILD_CUDA)
   # Arrow CUDA
+  if(NOT ARROW_CUDA)
+    message(FATAL_ERROR "You must build Arrow C++ with ARROW_CUDA=ON")
+  endif()
   find_package(ArrowCUDA REQUIRED)
 
   if(PYARROW_BUNDLE_ARROW_CPP)
-    bundle_arrow_lib(ARROW_CUDA_SHARED_LIB SO_VERSION ${ARROW_SO_VERSION})
+    bundle_arrow_lib(${ARROW_CUDA_SHARED_LIB} SO_VERSION ${ARROW_SO_VERSION})
     if(MSVC)
-      bundle_arrow_import_lib(ARROW_CUDA_IMPORT_LIB)
+      bundle_arrow_import_lib(${ARROW_CUDA_IMPORT_LIB})
     endif()
   endif()
-  set(CUDA_LINK_LIBS arrow_cuda_shared)
-  set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} _cuda)
+  set(CUDA_LINK_LIBS ArrowCUDA::arrow_cuda_shared)
+  list(APPEND CYTHON_EXTENSIONS _cuda)
+  set_source_files_properties(pyarrow/_cuda.pyx PROPERTIES CYTHON_API TRUE)
 endif()
 
 # Dataset
 if(PYARROW_BUILD_DATASET)
-  # Arrow Dataset
-  find_package(ArrowDataset REQUIRED)
-
   if(PYARROW_BUNDLE_ARROW_CPP)
-    bundle_arrow_lib(ARROW_DATASET_SHARED_LIB SO_VERSION ${ARROW_SO_VERSION})
+    bundle_arrow_lib(${ARROW_DATASET_SHARED_LIB} SO_VERSION ${ARROW_SO_VERSION})
     if(MSVC)
-      bundle_arrow_import_lib(ARROW_DATASET_IMPORT_LIB)
+      bundle_arrow_import_lib(${ARROW_DATASET_IMPORT_LIB})
     endif()
   endif()
 
-  set(DATASET_LINK_LIBS arrow_dataset_shared)
-  set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} _dataset)
+  set(DATASET_LINK_LIBS ArrowDataset::arrow_dataset_shared)
+  list(APPEND CYTHON_EXTENSIONS _dataset)
 endif()
 
+# Parquet
 if(PYARROW_BUILD_PARQUET)
-  # Parquet
-  find_package(Parquet REQUIRED)
-
-  include_directories(SYSTEM ${PARQUET_INCLUDE_DIR})
-
   if(PYARROW_BUNDLE_ARROW_CPP)
-    file(COPY ${PARQUET_INCLUDE_DIR}/parquet
-         DESTINATION ${BUILD_OUTPUT_ROOT_DIRECTORY}/include)
+    get_filename_component(PARQUET_INCLUDE_DIR_REAL ${PARQUET_INCLUDE_DIR} REALPATH)
+    install(DIRECTORY ${PARQUET_INCLUDE_DIR_REAL}/parquet
+            DESTINATION ${CMAKE_INSTALL_INCLUDEDIR})
   endif()
 
   if(PYARROW_PARQUET_USE_SHARED)
     if(PYARROW_BUNDLE_ARROW_CPP)
-      bundle_arrow_lib(PARQUET_SHARED_LIB SO_VERSION ${PARQUET_SO_VERSION})
+      bundle_arrow_lib(${PARQUET_SHARED_LIB} SO_VERSION ${PARQUET_SO_VERSION})
       if(MSVC)
-        bundle_arrow_import_lib(PARQUET_IMPORT_LIB)
+        bundle_arrow_import_lib(${PARQUET_IMPORT_LIB})
       endif()
     endif()
-    set(PARQUET_LINK_LIBS parquet_shared)
+    set(PARQUET_LINK_LIBS Parquet::parquet_shared)
   else()
-    find_package(Thrift)
-    if(PYARROW_BOOST_USE_SHARED)
-      set(Boost_USE_STATIC_LIBS OFF)
-    else()
-      set(Boost_USE_STATIC_LIBS ON)
-    endif()
-    find_package(Boost
-                 COMPONENTS regex
-                 REQUIRED)
-    add_thirdparty_lib(boost_regex STATIC_LIB ${Boost_REGEX_LIBRARY_RELEASE})
-    add_thirdparty_lib(thrift STATIC_LIB ${THRIFT_STATIC_LIB})
-    set(PARQUET_LINK_LIBS parquet_static thrift_static boost_regex_static)
-  endif()
-  set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} _parquet)
+    set(PARQUET_LINK_LIBS Parquet::parquet_static)
+  endif()
+  list(APPEND CYTHON_EXTENSIONS _parquet)
   if(PYARROW_BUILD_PARQUET_ENCRYPTION)
-    set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} _parquet_encryption)
+    list(APPEND CYTHON_EXTENSIONS _parquet_encryption)
   endif()
   if(PYARROW_BUILD_DATASET)
-    set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} _dataset_parquet)
+    list(APPEND CYTHON_EXTENSIONS _dataset_parquet)
   endif()
 endif()
 
 # Plasma
 if(PYARROW_BUILD_PLASMA)
+  if(NOT ARROW_PLASMA)
+    message(FATAL_ERROR "You must build Arrow C++ with ARROW_PLASMA=ON")
+  endif()
   find_package(Plasma REQUIRED)
 
-  include_directories(SYSTEM ${PLASMA_INCLUDE_DIR})
-
-  file(COPY ${ARROW_INCLUDE_DIR}/plasma
-       DESTINATION ${BUILD_OUTPUT_ROOT_DIRECTORY}/include)
+  get_filename_component(PLASMA_INCLUDE_DIR_REAL ${PLASMA_INCLUDE_DIR} REALPATH)
+  install(DIRECTORY ${PLASMA_INCLUDE_DIR_REAL}/plasma
+          DESTINATION ${CMAKE_INSTALL_INCLUDEDIR})
 
   if(PYARROW_BUNDLE_ARROW_CPP)
-    bundle_arrow_lib(PLASMA_SHARED_LIB SO_VERSION ${PLASMA_SO_VERSION})
+    bundle_arrow_lib(${PLASMA_SHARED_LIB} SO_VERSION ${PLASMA_SO_VERSION})
+  endif()
+  set(PLASMA_LINK_LIBS Plasma::plasma_shared)
+  list(APPEND CYTHON_EXTENSIONS _plasma)
+  if(PYARROW_BUNDLE_PLASMA_EXECUTABLE)
+    install(PROGRAMS ${PLASMA_STORE_SERVER} DESTINATION ".")
   endif()
-  set(PLASMA_LINK_LIBS plasma_shared)
-  set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} _plasma)
-  file(COPY ${PLASMA_STORE_SERVER} DESTINATION ${BUILD_OUTPUT_ROOT_DIRECTORY})
 endif()
 
 if(PYARROW_BUILD_ORC)
   # ORC
-  set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} _orc)
+  if(NOT ARROW_ORC)
+    message(FATAL_ERROR "You must build Arrow C++ with ARROW_ORC=ON")
+  endif()
+  list(APPEND CYTHON_EXTENSIONS _orc)
   if(PYARROW_BUILD_DATASET)
-    set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} _dataset_orc)
+    list(APPEND CYTHON_EXTENSIONS _dataset_orc)
   endif()
 endif()
 
 # Flight
 if(PYARROW_BUILD_FLIGHT)
-  # Arrow Flight
-  find_package(ArrowPythonFlight REQUIRED)
-
   if(PYARROW_BUNDLE_ARROW_CPP)
-    bundle_arrow_lib(ARROW_FLIGHT_SHARED_LIB SO_VERSION ${ARROW_SO_VERSION})
-    bundle_arrow_lib(ARROW_PYTHON_FLIGHT_SHARED_LIB SO_VERSION ${ARROW_SO_VERSION})
+    bundle_arrow_lib(${ARROW_FLIGHT_SHARED_LIB} SO_VERSION ${ARROW_SO_VERSION})
     if(MSVC)
-      bundle_arrow_import_lib(ARROW_FLIGHT_IMPORT_LIB)
-      bundle_arrow_import_lib(ARROW_PYTHON_FLIGHT_IMPORT_LIB)
+      bundle_arrow_import_lib(${ARROW_FLIGHT_IMPORT_LIB})
       # XXX Hardcoded library names because CMake is too stupid to give us
       # the shared library paths.
       # https://gitlab.kitware.com/cmake/cmake/issues/16210
@@ -540,43 +651,50 @@ if(PYARROW_BUILD_FLIGHT)
     endif()
   endif()
 
-  set(FLIGHT_LINK_LIBS arrow_flight_shared arrow_python_flight_shared)
-  set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} _flight)
+  set(FLIGHT_LINK_LIBS arrow_python_flight)
+  list(APPEND CYTHON_EXTENSIONS _flight)
+else()
+  set(FLIGHT_LINK_LIBS "")
 endif()
 
-# Engine
+# Substrait
 if(PYARROW_BUILD_SUBSTRAIT)
+  if(NOT ARROW_SUBSTRAIT)
+    message(FATAL_ERROR "You must build Arrow C++ with ARROW_SUBSTRAIT=ON")
+  endif()
   find_package(ArrowSubstrait REQUIRED)
   if(PYARROW_BUNDLE_ARROW_CPP)
-    bundle_arrow_lib(ARROW_SUBSTRAIT_SHARED_LIB SO_VERSION ${ARROW_SO_VERSION})
+    bundle_arrow_lib(${ARROW_SUBSTRAIT_SHARED_LIB} SO_VERSION ${ARROW_SO_VERSION})
     if(MSVC)
-      bundle_arrow_import_lib(ARROW_SUBSTRAIT_IMPORT_LIB)
+      bundle_arrow_import_lib(${ARROW_SUBSTRAIT_IMPORT_LIB})
     endif()
   endif()
 
-  set(SUBSTRAIT_LINK_LIBS arrow_substrait_shared)
-  set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} _substrait)
+  set(SUBSTRAIT_LINK_LIBS ArrowSubstrait::arrow_substrait_shared)
+  list(APPEND CYTHON_EXTENSIONS _substrait)
 endif()
 
 # Gandiva
 if(PYARROW_BUILD_GANDIVA)
+  if(NOT ARROW_GANDIVA)
+    message(FATAL_ERROR "You must build Arrow C++ with ARROW_GANDIVA=ON")
+  endif()
   find_package(Gandiva REQUIRED)
 
-  include_directories(SYSTEM ${GANDIVA_INCLUDE_DIR})
-
   if(PYARROW_BUNDLE_ARROW_CPP)
-    file(COPY ${GANDIVA_INCLUDE_DIR}/gandiva
-         DESTINATION ${BUILD_OUTPUT_ROOT_DIRECTORY}/include)
+    get_filename_component(GANDIVA_INCLUDE_DIR_REAL ${GANDIVA_INCLUDE_DIR} REALPATH)
+    install(DIRECTORY ${GANDIVA_INCLUDE_DIR_REAL}/gandiva
+            DESTINATION ${CMAKE_INSTALL_INCLUDEDIR})
 
-    bundle_arrow_lib(GANDIVA_SHARED_LIB SO_VERSION ${ARROW_SO_VERSION})
+    bundle_arrow_lib(${GANDIVA_SHARED_LIB} SO_VERSION ${ARROW_SO_VERSION})
 
     if(MSVC)
-      bundle_arrow_import_lib(GANDIVA_IMPORT_LIB)
+      bundle_arrow_import_lib(${GANDIVA_IMPORT_LIB})
     endif()
   endif()
 
-  set(GANDIVA_LINK_LIBS gandiva_shared)
-  set(CYTHON_EXTENSIONS ${CYTHON_EXTENSIONS} gandiva)
+  set(GANDIVA_LINK_LIBS Gandiva::gandiva_shared)
+  list(APPEND CYTHON_EXTENSIONS gandiva)
 endif()
 
 #
@@ -587,6 +705,9 @@ if(PYARROW_GENERATE_COVERAGE)
   set(CYTHON_FLAGS "${CYTHON_FLAGS}" "-Xlinetrace=True")
 endif()
 
+# Error on any warnings not already explicitly ignored.
+set(CYTHON_FLAGS "${CYTHON_FLAGS}" "--warning-errors")
+
 foreach(module ${CYTHON_EXTENSIONS})
   string(REPLACE "." ";" directories ${module})
   list(GET directories -1 module_name)
@@ -594,7 +715,7 @@ foreach(module ${CYTHON_EXTENSIONS})
 
   string(REPLACE "." "/" module_root "${module}")
   set(module_SRC pyarrow/${module_root}.pyx)
-  set_source_files_properties(${module_SRC} PROPERTIES CYTHON_IS_CXX 1)
+  set_source_files_properties(${module_SRC} PROPERTIES CYTHON_IS_CXX TRUE)
 
   cython_add_module(${module_name} ${module_name}_pyx ${module_name}_output ${module_SRC})
 
@@ -604,29 +725,15 @@ foreach(module ${CYTHON_EXTENSIONS})
                                                     ${module_output_directory})
   endif()
 
-  if(PYARROW_BUNDLE_ARROW_CPP)
-    # In the event that we are bundling the shared libraries (e.g. in a
-    # manylinux1 wheel), we need to set the RPATH of the extensions to the
-    # root of the pyarrow/ package so that libarrow/libarrow_python are able
-    # to be loaded properly
-    if(APPLE)
-      set(module_install_rpath "@loader_path/")
-    else()
-      set(module_install_rpath "\$ORIGIN")
-    endif()
-
-    # XXX(wesm): ARROW-2326 this logic is only needed when we have Cython
-    # modules in interior directories. Since all of our C extensions and
-    # bundled libraries are in the same place, we can skip this part
-
-    # list(LENGTH directories i)
-    # while(${i} GREATER 0)
-    #   set(module_install_rpath "${module_install_rpath}/..")
-    #   math(EXPR i "${i} - 1" )
-    # endwhile(${i} GREATER 0)
+  # XXX(wesm): ARROW-2326 this logic is only needed when we have Cython
+  # modules in interior directories. Since all of our C extensions and
+  # bundled libraries are in the same place, we can skip this part
 
-    set_target_properties(${module_name} PROPERTIES INSTALL_RPATH ${module_install_rpath})
-  endif()
+  # list(LENGTH directories i)
+  # while(${i} GREATER 0)
+  #   set(module_install_rpath "${module_install_rpath}/..")
+  #   math(EXPR i "${i} - 1" )
+  # endwhile(${i} GREATER 0)
 
   if(PYARROW_GENERATE_COVERAGE)
     set_target_properties(${module_name} PROPERTIES COMPILE_DEFINITIONS
@@ -635,8 +742,31 @@ foreach(module ${CYTHON_EXTENSIONS})
 
   target_link_libraries(${module_name} PRIVATE ${LINK_LIBS})
 
-  # Generated files will be moved to the right directory by setup.py.
-endforeach(module)
+  install(TARGETS ${module_name} LIBRARY DESTINATION ".")
+  foreach(output ${${module_name}_output})
+    if(output MATCHES "\\.${CYTHON_CXX_EXTENSION}$")
+      if(NOT PYARROW_BUNDLE_CYTHON_CPP)
+        continue()
+      endif()
+    endif()
+    install(FILES ${CMAKE_CURRENT_BINARY_DIR}/${output} DESTINATION ".")
+  endforeach()
+endforeach()
+
+set(ARROW_PYTHON_BINARY_DIR "${CMAKE_CURRENT_BINARY_DIR}/pyarrow/src/arrow/python")
+file(MAKE_DIRECTORY ${ARROW_PYTHON_BINARY_DIR})
+add_custom_command(OUTPUT "${ARROW_PYTHON_BINARY_DIR}/lib_api.h"
+                          "${ARROW_PYTHON_BINARY_DIR}/lib.h"
+                   COMMAND ${CMAKE_COMMAND} -E copy
+                           "${CMAKE_CURRENT_BINARY_DIR}/lib_api.h"
+                           "${CMAKE_CURRENT_BINARY_DIR}/lib.h"
+                           "${ARROW_PYTHON_BINARY_DIR}/"
+                   DEPENDS lib_pyx)
+add_custom_target(cython_api_headers DEPENDS "${ARROW_PYTHON_BINARY_DIR}/lib_api.h"
+                                             "${ARROW_PYTHON_BINARY_DIR}/lib.h")
+add_dependencies(arrow_python cython_api_headers)
+install(FILES "${ARROW_PYTHON_BINARY_DIR}/lib_api.h" "${ARROW_PYTHON_BINARY_DIR}/lib.h"
+        DESTINATION ${CMAKE_INSTALL_INCLUDEDIR}/arrow/python)
 
 # Additional link libraries
 
diff --git a/python/examples/minimal_build/build_conda.sh b/python/examples/minimal_build/build_conda.sh
index 61378b9feca..5e62f30b156 100755
--- a/python/examples/minimal_build/build_conda.sh
+++ b/python/examples/minimal_build/build_conda.sh
@@ -34,7 +34,7 @@ git config --global --add safe.directory $ARROW_ROOT
 # Run these only once
 
 function setup_miniconda() {
-  MINICONDA_URL="https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh"
+  MINICONDA_URL="https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh"
   wget -O miniconda.sh $MINICONDA_URL
   bash miniconda.sh -b -p $MINICONDA
   rm -f miniconda.sh
@@ -46,7 +46,7 @@ function setup_miniconda() {
   conda info -a
 
   conda config --set show_channel_urls True
-  conda config --add channels https://repo.continuum.io/pkgs/free
+  conda config --add channels https://repo.anaconda.com/pkgs/free
   conda config --add channels conda-forge
 
   conda create -y -n pyarrow-$PYTHON -c conda-forge \
@@ -99,6 +99,7 @@ pushd $ARROW_ROOT/python
 
 rm -rf build/  # remove any pesky pre-existing build directory
 
+export CMAKE_PREFIX_PATH=${ARROW_HOME}${CMAKE_PREFIX_PATH:+:${CMAKE_PREFIX_PATH}}
 export PYARROW_BUILD_TYPE=Debug
 export PYARROW_CMAKE_GENERATOR=Ninja
 
diff --git a/python/examples/minimal_build/build_venv.sh b/python/examples/minimal_build/build_venv.sh
index 56dd54abbae..2f1bc4ed304 100755
--- a/python/examples/minimal_build/build_venv.sh
+++ b/python/examples/minimal_build/build_venv.sh
@@ -66,6 +66,7 @@ pushd $ARROW_ROOT/python
 
 rm -rf build/  # remove any pesky pre-existing build directory
 
+export CMAKE_PREFIX_PATH=${ARROW_HOME}${CMAKE_PREFIX_PATH:+:${CMAKE_PREFIX_PATH}}
 export PYARROW_BUILD_TYPE=Debug
 export PYARROW_CMAKE_GENERATOR=Ninja
 
diff --git a/python/pyarrow/__init__.py b/python/pyarrow/__init__.py
index a030a53e37c..9fd5c290d1c 100644
--- a/python/pyarrow/__init__.py
+++ b/python/pyarrow/__init__.py
@@ -51,7 +51,7 @@ def parse_git(root, **kwargs):
             """
             from setuptools_scm.git import parse
             kwargs['describe_command'] = \
-                "git describe --dirty --tags --long --match 'apache-arrow-[0-9].*'"
+                "git describe --dirty --tags --long --match 'apache-arrow-[0-9]*.*'"
             return parse(root, **kwargs)
         __version__ = setuptools_scm.get_version('../',
                                                  parse=parse_git)
@@ -341,13 +341,21 @@ def __getattr__(name):
 
 
 def _plasma_store_entry_point():
-    """Entry point for starting the plasma store.
+    """
+    DEPRECATED: Entry point for starting the plasma store.
 
     This can be used by invoking e.g.
     ``plasma_store -s /tmp/plasma -m 1000000000``
     from the command line and will start the plasma_store executable with the
     given arguments.
+
+    .. deprecated:: 10.0.0
+       Plasma is deprecated since Arrow 10.0.0. It will be removed in 12.0.0 or so.
     """
+    _warnings.warn(
+        "Plasma is deprecated since Arrow 10.0.0. It will be removed in 12.0.0 or so.",
+        DeprecationWarning)
+
     import pyarrow
     plasma_store_executable = _os.path.join(pyarrow.__path__[0],
                                             "plasma-store-server")
@@ -407,7 +415,7 @@ def get_libraries():
     Return list of library names to include in the `libraries` argument for C
     or Cython extensions using pyarrow
     """
-    return ['arrow', 'arrow_python']
+    return ['arrow_python', 'arrow']
 
 
 def create_library_symlinks():
diff --git a/python/pyarrow/_compute.pxd b/python/pyarrow/_compute.pxd
index 8b09cbd445e..ee348e98169 100644
--- a/python/pyarrow/_compute.pxd
+++ b/python/pyarrow/_compute.pxd
@@ -27,6 +27,7 @@ cdef class ScalarUdfContext(_Weakrefable):
 
     cdef void init(self, const CScalarUdfContext& c_context)
 
+
 cdef class FunctionOptions(_Weakrefable):
     cdef:
         shared_ptr[CFunctionOptions] wrapped
@@ -37,6 +38,10 @@ cdef class FunctionOptions(_Weakrefable):
     cdef inline shared_ptr[CFunctionOptions] unwrap(self)
 
 
+cdef class _SortOptions(FunctionOptions):
+    pass
+
+
 cdef CExpression _bind(Expression filter, Schema schema) except *
 
 
diff --git a/python/pyarrow/_compute.pyx b/python/pyarrow/_compute.pyx
index b9594d90e85..c75c5bf189b 100644
--- a/python/pyarrow/_compute.pyx
+++ b/python/pyarrow/_compute.pyx
@@ -24,7 +24,7 @@ from cython.operator cimport dereference as deref
 
 from collections import namedtuple
 
-from pyarrow.lib import frombytes, tobytes, ordered_dict
+from pyarrow.lib import frombytes, tobytes, ordered_dict, ArrowInvalid
 from pyarrow.lib cimport *
 from pyarrow.includes.common cimport *
 from pyarrow.includes.libarrow cimport *
@@ -1168,6 +1168,45 @@ class SliceOptions(_SliceOptions):
         self._set_options(start, stop, step)
 
 
+cdef class _ListSliceOptions(FunctionOptions):
+    cpdef _set_options(self, start, stop=None, step=1, return_fixed_size_list=None):
+        cdef:
+            CListSliceOptions* opts
+        opts = new CListSliceOptions(
+            start,
+            <optional[int64_t]>nullopt if stop is None
+            else <optional[int64_t]>(<int64_t>stop),
+            step,
+            <optional[c_bool]>nullopt if return_fixed_size_list is None
+            else <optional[c_bool]>(<c_bool>return_fixed_size_list)
+        )
+        self.wrapped.reset(opts)
+
+
+class ListSliceOptions(_ListSliceOptions):
+    """
+    Options for list array slicing.
+
+    Parameters
+    ----------
+    start : int
+        Index to start slicing inner list elements (inclusive).
+    stop : Optional[int], default None
+        If given, index to stop slicing at (exclusive).
+        If not given, slicing will stop at the end. (NotImplemented)
+    step : int, default 1
+        Slice step.
+    return_fixed_size_list : Optional[bool], default None
+        Whether to return a FixedSizeListArray. If true _and_ stop is after
+        a list element's length, nulls will be appended to create the
+        requested slice size. The default of `None` will return the same
+        type which was passed in.
+    """
+
+    def __init__(self, start, stop=None, step=1, return_fixed_size_list=None):
+        self._set_options(start, stop, step, return_fixed_size_list)
+
+
 cdef class _ReplaceSliceOptions(FunctionOptions):
     def _set_options(self, start, stop, replacement):
         self.wrapped.reset(
@@ -1322,7 +1361,37 @@ class MakeStructOptions(_MakeStructOptions):
 
 cdef class _StructFieldOptions(FunctionOptions):
     def _set_options(self, indices):
-        self.wrapped.reset(new CStructFieldOptions(indices))
+        cdef:
+            CFieldRef field_ref
+            const CFieldRef* field_ref_ptr
+
+        if isinstance(indices, (list, tuple)):
+            if len(indices):
+                indices = Expression._nested_field(tuple(indices))
+            else:
+                # Allow empty indices; effecitively return same array
+                self.wrapped.reset(
+                    new CStructFieldOptions(<vector[int]>indices))
+                return
+
+        if isinstance(indices, Expression):
+            field_ref_ptr = (<Expression>indices).unwrap().field_ref()
+            if field_ref_ptr is NULL:
+                raise ValueError("Unable to get CFieldRef from Expression")
+            field_ref = <CFieldRef>deref(field_ref_ptr)
+        elif isinstance(indices, (bytes, str)):
+            if indices.startswith(b'.' if isinstance(indices, bytes) else '.'):
+                field_ref = GetResultValue(
+                    CFieldRef.FromDotPath(<c_string>tobytes(indices)))
+            else:
+                field_ref = CFieldRef(<c_string>tobytes(indices))
+        elif isinstance(indices, int):
+            field_ref = CFieldRef(<int> indices)
+        else:
+            raise TypeError("Expected List[str], List[int], List[bytes], "
+                            "Expression, bytes, str, or int. "
+                            f"Got: {type(indices)}")
+        self.wrapped.reset(new CStructFieldOptions(field_ref))
 
 
 class StructFieldOptions(_StructFieldOptions):
@@ -1331,7 +1400,7 @@ class StructFieldOptions(_StructFieldOptions):
 
     Parameters
     ----------
-    indices : sequence of int
+    indices : List[str], List[bytes], List[int], Expression, bytes, str, or int
         List of indices for chained field lookup, for example `[4, 1]`
         will look up the second nested field in the fifth outer field.
     """
@@ -2234,7 +2303,12 @@ cdef class Expression(_Weakrefable):
 
         for argument in arguments:
             if not isinstance(argument, Expression):
-                raise TypeError("only other expressions allowed as arguments")
+                # Attempt to help convert this to an expression
+                try:
+                    argument = Expression._scalar(argument)
+                except ArrowInvalid:
+                    raise TypeError(
+                        "only other expressions allowed as arguments")
             c_arguments.push_back((<Expression> argument).expr)
 
         if options is not None:
@@ -2398,7 +2472,10 @@ cdef class Expression(_Weakrefable):
             raise ValueError("nested field reference should be non-empty")
         nested.reserve(len(names))
         for name in names:
-            nested.push_back(CFieldRef(<c_string> tobytes(name)))
+            if isinstance(name, int):
+                nested.push_back(CFieldRef(<int>name))
+            else:
+                nested.push_back(CFieldRef(<c_string> tobytes(name)))
         return Expression.wrap(CMakeFieldExpression(CFieldRef(move(nested))))
 
     @staticmethod
@@ -2613,7 +2690,7 @@ def register_scalar_function(func, function_name, function_doc, in_types,
         raise TypeError(
             "in_types must be a dictionary of DataType")
 
-    c_arity = CArity(num_args, func_spec.varargs)
+    c_arity = CArity(<int> num_args, func_spec.varargs)
 
     if "summary" not in function_doc:
         raise ValueError("Function doc must contain a summary")
diff --git a/python/pyarrow/_csv.pyx b/python/pyarrow/_csv.pyx
index d1db03c75f1..0ac32f1bbf2 100644
--- a/python/pyarrow/_csv.pyx
+++ b/python/pyarrow/_csv.pyx
@@ -189,22 +189,22 @@ cdef class ReadOptions(_Weakrefable):
         self.options.reset(new CCSVReadOptions(CCSVReadOptions.Defaults()))
 
     def __init__(self, *, use_threads=None, block_size=None, skip_rows=None,
-                 column_names=None, autogenerate_column_names=None,
-                 encoding='utf8', skip_rows_after_names=None):
+                 skip_rows_after_names=None, column_names=None,
+                 autogenerate_column_names=None, encoding='utf8'):
         if use_threads is not None:
             self.use_threads = use_threads
         if block_size is not None:
             self.block_size = block_size
         if skip_rows is not None:
             self.skip_rows = skip_rows
+        if skip_rows_after_names is not None:
+            self.skip_rows_after_names = skip_rows_after_names
         if column_names is not None:
             self.column_names = column_names
         if autogenerate_column_names is not None:
             self.autogenerate_column_names= autogenerate_column_names
         # Python-specific option
         self.encoding = encoding
-        if skip_rows_after_names is not None:
-            self.skip_rows_after_names = skip_rows_after_names
 
     @property
     def use_threads(self):
@@ -243,6 +243,23 @@ cdef class ReadOptions(_Weakrefable):
     def skip_rows(self, value):
         deref(self.options).skip_rows = value
 
+    @property
+    def skip_rows_after_names(self):
+        """
+        The number of rows to skip after the column names.
+        This number can be larger than the number of rows in one
+        block, and empty rows are counted.
+        The order of application is as follows:
+        - `skip_rows` is applied (if non-zero);
+        - column names aread (unless `column_names` is set);
+        - `skip_rows_after_names` is applied (if non-zero).
+        """
+        return deref(self.options).skip_rows_after_names
+
+    @skip_rows_after_names.setter
+    def skip_rows_after_names(self, value):
+        deref(self.options).skip_rows_after_names = value
+
     @property
     def column_names(self):
         """
@@ -271,23 +288,6 @@ cdef class ReadOptions(_Weakrefable):
     def autogenerate_column_names(self, value):
         deref(self.options).autogenerate_column_names = value
 
-    @property
-    def skip_rows_after_names(self):
-        """
-        The number of rows to skip after the column names.
-        This number can be larger than the number of rows in one
-        block, and empty rows are counted.
-        The order of application is as follows:
-        - `skip_rows` is applied (if non-zero);
-        - column names aread (unless `column_names` is set);
-        - `skip_rows_after_names` is applied (if non-zero).
-        """
-        return deref(self.options).skip_rows_after_names
-
-    @skip_rows_after_names.setter
-    def skip_rows_after_names(self, value):
-        deref(self.options).skip_rows_after_names = value
-
     def validate(self):
         check_status(deref(self.options).Validate())
 
@@ -296,11 +296,11 @@ cdef class ReadOptions(_Weakrefable):
             self.use_threads == other.use_threads and
             self.block_size == other.block_size and
             self.skip_rows == other.skip_rows and
+            self.skip_rows_after_names == other.skip_rows_after_names and
             self.column_names == other.column_names and
             self.autogenerate_column_names ==
             other.autogenerate_column_names and
-            self.encoding == other.encoding and
-            self.skip_rows_after_names == other.skip_rows_after_names
+            self.encoding == other.encoding
         )
 
     @staticmethod
@@ -550,12 +550,12 @@ cdef class ParseOptions(_Weakrefable):
     def __getstate__(self):
         return (self.delimiter, self.quote_char, self.double_quote,
                 self.escape_char, self.newlines_in_values,
-                self.ignore_empty_lines, self._invalid_row_handler)
+                self.ignore_empty_lines, self.invalid_row_handler)
 
     def __setstate__(self, state):
         (self.delimiter, self.quote_char, self.double_quote,
          self.escape_char, self.newlines_in_values,
-         self.ignore_empty_lines, self._invalid_row_handler) = state
+         self.ignore_empty_lines, self.invalid_row_handler) = state
 
     def __eq__(self, other):
         try:
@@ -605,11 +605,6 @@ cdef class ConvertOptions(_Weakrefable):
     decimal_point : 1-character string, optional (default '.')
         The character used as decimal point in floating-point and decimal
         data.
-    timestamp_parsers : list, optional
-        A sequence of strptime()-compatible format strings, tried in order
-        when attempting to infer or convert timestamp values (the special
-        value ISO8601() can also be given).  By default, a fast built-in
-        ISO-8601 parser is used.
     strings_can_be_null : bool, optional (default False)
         Whether string / binary columns can have null values.
         If true, then strings in null_values are considered null for
@@ -620,16 +615,6 @@ cdef class ConvertOptions(_Weakrefable):
         If true, then strings in "null_values" are also considered null
         when they appear quoted in the CSV file. Otherwise, quoted values
         are never considered null.
-    auto_dict_encode : bool, optional (default False)
-        Whether to try to automatically dict-encode string / binary data.
-        If true, then when type inference detects a string or binary column,
-        it it dict-encoded up to `auto_dict_max_cardinality` distinct values
-        (per chunk), after which it switches to regular encoding.
-        This setting is ignored for non-inferred columns (those in
-        `column_types`).
-    auto_dict_max_cardinality : int, optional
-        The maximum dictionary cardinality for `auto_dict_encode`.
-        This value is per chunk.
     include_columns : list, optional
         The names of columns to include in the Table.
         If empty, the Table will include all columns from the CSV file.
@@ -641,6 +626,21 @@ cdef class ConvertOptions(_Weakrefable):
         produce a column of nulls (whose type is selected using
         `column_types`, or null by default).
         This option is ignored if `include_columns` is empty.
+    auto_dict_encode : bool, optional (default False)
+        Whether to try to automatically dict-encode string / binary data.
+        If true, then when type inference detects a string or binary column,
+        it it dict-encoded up to `auto_dict_max_cardinality` distinct values
+        (per chunk), after which it switches to regular encoding.
+        This setting is ignored for non-inferred columns (those in
+        `column_types`).
+    auto_dict_max_cardinality : int, optional
+        The maximum dictionary cardinality for `auto_dict_encode`.
+        This value is per chunk.
+    timestamp_parsers : list, optional
+        A sequence of strptime()-compatible format strings, tried in order
+        when attempting to infer or convert timestamp values (the special
+        value ISO8601() can also be given).  By default, a fast built-in
+        ISO-8601 parser is used.
 
     Examples
     --------
@@ -1275,6 +1275,30 @@ def open_csv(input_file, read_options=None, parse_options=None,
     return reader
 
 
+def _raise_invalid_function_option(value, description, *,
+                                   exception_class=ValueError):
+    raise exception_class(f"\"{value}\" is not a valid {description}")
+
+
+cdef CQuotingStyle unwrap_quoting_style(quoting_style) except *:
+    if quoting_style == "needed":
+        return CQuotingStyle_Needed
+    elif quoting_style == "all_valid":
+        return CQuotingStyle_AllValid
+    elif quoting_style == "none":
+        return CQuotingStyle_None
+    _raise_invalid_function_option(quoting_style, "quoting style")
+
+
+cdef wrap_quoting_style(quoting_style):
+    if quoting_style == CQuotingStyle_Needed:
+        return 'needed'
+    elif quoting_style == CQuotingStyle_AllValid:
+        return 'all_valid'
+    elif quoting_style == CQuotingStyle_None:
+        return 'none'
+
+
 cdef class WriteOptions(_Weakrefable):
     """
     Options for writing CSV files.
@@ -1288,13 +1312,22 @@ cdef class WriteOptions(_Weakrefable):
         CSV data
     delimiter : 1-character string, optional (default ",")
         The character delimiting individual cells in the CSV data.
+    quoting_style : str, optional (default "needed")
+        Whether to quote values, and if so, which quoting style to use.
+        The following values are accepted:
+
+        - "needed" (default): only enclose values in quotes when needed.
+        - "all_valid": enclose all valid values in quotes; nulls are not quoted.
+        - "none": do not enclose any values in quotes; values containing
+          special characters (such as quotes, cell delimiters or line endings)
+          will raise an error.
     """
 
     # Avoid mistakingly creating attributes
     __slots__ = ()
 
     def __init__(self, *, include_header=None, batch_size=None,
-                 delimiter=None):
+                 delimiter=None, quoting_style=None):
         self.options.reset(new CCSVWriteOptions(CCSVWriteOptions.Defaults()))
         if include_header is not None:
             self.include_header = include_header
@@ -1302,6 +1335,8 @@ cdef class WriteOptions(_Weakrefable):
             self.batch_size = batch_size
         if delimiter is not None:
             self.delimiter = delimiter
+        if quoting_style is not None:
+            self.quoting_style = quoting_style
 
     @property
     def include_header(self):
@@ -1337,6 +1372,24 @@ cdef class WriteOptions(_Weakrefable):
     def delimiter(self, value):
         deref(self.options).delimiter = _single_char(value)
 
+    @property
+    def quoting_style(self):
+        """
+        Whether to quote values, and if so, which quoting style to use.
+        The following values are accepted:
+
+        - "needed" (default): only enclose values in quotes when needed.
+        - "all_valid": enclose all valid values in quotes; nulls are not quoted.
+        - "none": do not enclose any values in quotes; values containing
+          special characters (such as quotes, cell delimiters or line endings)
+          will raise an error.
+        """
+        return wrap_quoting_style(deref(self.options).quoting_style)
+
+    @quoting_style.setter
+    def quoting_style(self, value):
+        deref(self.options).quoting_style = unwrap_quoting_style(value)
+
     @staticmethod
     cdef WriteOptions wrap(CCSVWriteOptions options):
         out = WriteOptions()
diff --git a/python/pyarrow/_dataset.pxd b/python/pyarrow/_dataset.pxd
index 8e5501fa16f..d626b42e238 100644
--- a/python/pyarrow/_dataset.pxd
+++ b/python/pyarrow/_dataset.pxd
@@ -47,6 +47,7 @@ cdef class Dataset(_Weakrefable):
     cdef:
         shared_ptr[CDataset] wrapped
         CDataset* dataset
+        public dict _scan_options
 
     cdef void init(self, const shared_ptr[CDataset]& sp)
 
@@ -56,6 +57,22 @@ cdef class Dataset(_Weakrefable):
     cdef shared_ptr[CDataset] unwrap(self) nogil
 
 
+cdef class Scanner(_Weakrefable):
+    cdef:
+        shared_ptr[CScanner] wrapped
+        CScanner* scanner
+
+    cdef void init(self, const shared_ptr[CScanner]& sp)
+
+    @staticmethod
+    cdef wrap(const shared_ptr[CScanner]& sp)
+
+    cdef shared_ptr[CScanner] unwrap(self)
+
+    @staticmethod
+    cdef shared_ptr[CScanOptions] _make_scan_options(Dataset dataset, dict py_scanoptions) except *
+
+
 cdef class FragmentScanOptions(_Weakrefable):
 
     cdef:
@@ -161,4 +178,4 @@ cdef class WrittenFile(_Weakrefable):
     # the written file.
     cdef public object metadata
     # The size of the file in bytes
-    cdef public int size
+    cdef public int64_t size
diff --git a/python/pyarrow/_dataset.pyx b/python/pyarrow/_dataset.pyx
index 68833a5350e..5f1610c384f 100644
--- a/python/pyarrow/_dataset.pyx
+++ b/python/pyarrow/_dataset.pyx
@@ -21,6 +21,7 @@
 
 from cython.operator cimport dereference as deref
 
+import codecs
 import collections
 import os
 import warnings
@@ -155,6 +156,7 @@ cdef class Dataset(_Weakrefable):
     cdef void init(self, const shared_ptr[CDataset]& sp):
         self.wrapped = sp
         self.dataset = sp.get()
+        self._scan_options = dict()
 
     @staticmethod
     cdef wrap(const shared_ptr[CDataset]& sp):
@@ -199,8 +201,14 @@ cdef class Dataset(_Weakrefable):
             The new dataset schema.
         """
         cdef shared_ptr[CDataset] copy = GetResultValue(
-            self.dataset.ReplaceSchema(pyarrow_unwrap_schema(schema)))
-        return Dataset.wrap(move(copy))
+            self.dataset.ReplaceSchema(pyarrow_unwrap_schema(schema))
+        )
+
+        d = Dataset.wrap(move(copy))
+        if self._scan_options:
+            # Preserve scan options if set.
+            d._scan_options = self._scan_options.copy()
+        return d
 
     def get_fragments(self, Expression filter=None):
         """Returns an iterator over the fragments in this dataset.
@@ -216,6 +224,18 @@ cdef class Dataset(_Weakrefable):
         -------
         fragments : iterator of Fragment
         """
+        if self._scan_options.get("filter") is not None:
+            # Accessing fragments of a filtered dataset is not supported.
+            # It would be unclear if you wanted to filter the fragments
+            # or the rows in those fragments.
+            raise ValueError(
+                "Retrieving fragments of a filtered or projected "
+                "dataset is not allowed. Remove the filtering."
+            )
+
+        return self._get_fragments(filter)
+
+    def _get_fragments(self, Expression filter):
         cdef:
             CExpression c_filter
             CFragmentIterator c_iterator
@@ -230,6 +250,24 @@ cdef class Dataset(_Weakrefable):
         for maybe_fragment in c_fragments:
             yield Fragment.wrap(GetResultValue(move(maybe_fragment)))
 
+    def _scanner_options(self, options):
+        """Returns the default options to create a new Scanner.
+
+        This is automatically invoked by :meth:`Dataset.scanner`
+        and there is no need to use it.
+        """
+        new_options = options.copy()
+
+        # at the moment only support filter
+        requested_filter = options.get("filter")
+        current_filter = self._scan_options.get("filter")
+        if requested_filter is not None and current_filter is not None:
+            new_options["filter"] = current_filter & requested_filter
+        elif current_filter is not None:
+            new_options["filter"] = current_filter
+
+        return new_options
+
     def scanner(self, **kwargs):
         """
         Build a scan operation against the dataset.
@@ -238,7 +276,7 @@ cdef class Dataset(_Weakrefable):
         which exposes further operations (e.g. loading all data as a
         table, counting rows).
 
-        See the `Scanner.from_dataset` method for further information.
+        See the :meth:`Scanner.from_dataset` method for further information.
 
         Parameters
         ----------
@@ -256,7 +294,7 @@ cdef class Dataset(_Weakrefable):
         ...                   'n_legs': [2, 2, 4, 4, 5, 100],
         ...                   'animal': ["Flamingo", "Parrot", "Dog", "Horse",
         ...                              "Brittle stars", "Centipede"]})
-        >>> 
+        >>>
         >>> import pyarrow.parquet as pq
         >>> pq.write_table(table, "dataset_scanner.parquet")
 
@@ -384,6 +422,61 @@ cdef class Dataset(_Weakrefable):
         """The common schema of the full Dataset"""
         return pyarrow_wrap_schema(self.dataset.schema())
 
+    def filter(self, expression not None):
+        """
+        Apply a row filter to the dataset.
+
+        Parameters
+        ----------
+        expression : Expression
+            The filter that should be applied to the dataset.
+
+        Returns
+        -------
+        Dataset
+        """
+        cdef:
+            Dataset filtered_dataset
+
+        new_filter = expression
+        current_filter = self._scan_options.get("filter")
+        if current_filter is not None and new_filter is not None:
+            new_filter = current_filter & new_filter
+
+        filtered_dataset = self.__class__.__new__(self.__class__)
+        filtered_dataset.init(self.wrapped)
+        filtered_dataset._scan_options = dict(filter=new_filter)
+        return filtered_dataset
+
+    def sort_by(self, sorting, **kwargs):
+        """
+        Sort the Dataset by one or multiple columns.
+
+        Parameters
+        ----------
+        sorting : str or list[tuple(name, order)]
+            Name of the column to use to sort (ascending), or
+            a list of multiple sorting conditions where
+            each entry is a tuple with column name
+            and sorting order ("ascending" or "descending")
+        **kwargs : dict, optional
+            Additional sorting options.
+            As allowed by :class:`SortOptions`
+
+        Returns
+        -------
+        InMemoryDataset
+            A new dataset sorted according to the sort keys.
+        """
+        if isinstance(sorting, str):
+            sorting = [(sorting, "ascending")]
+
+        res = _pc()._exec_plan._sort_source(self, output_type=InMemoryDataset,
+                                            sort_options=_pc().SortOptions(
+                                                sort_keys=sorting, **kwargs
+                                            ))
+        return res
+
     def join(self, right_dataset, keys, right_keys=None, join_type="left outer",
              left_suffix=None, right_suffix=None, coalesce_keys=True,
              use_threads=True):
@@ -439,12 +532,12 @@ cdef class InMemoryDataset(Dataset):
 
     Parameters
     ----------
-    source : The data for this dataset.
-        Can be a RecordBatch, Table, list of
-        RecordBatch/Table, iterable of RecordBatch, or a RecordBatchReader.
+    source : RecordBatch, Table, list, tuple
+        The data for this dataset. Can be a RecordBatch, Table, list of
+        RecordBatch/Table, iterable of RecordBatch, or a RecordBatchReader
         If an iterable is provided, the schema must also be provided.
     schema : Schema, optional
-        Only required if passing an iterable as the source.
+        Only required if passing an iterable as the source
     """
 
     cdef:
@@ -823,7 +916,14 @@ cdef class FileFormat(_Weakrefable):
         return Fragment.wrap(move(c_fragment))
 
     def make_write_options(self):
-        return FileWriteOptions.wrap(self.format.DefaultWriteOptions())
+        sp_write_options = self.format.DefaultWriteOptions()
+        if sp_write_options.get() == nullptr:
+            # DefaultWriteOptions() may return `nullptr` which means that
+            # the format does not yet support writing datasets.
+            raise NotImplementedError(
+                "Writing datasets not yet implemented for this file format."
+            )
+        return FileWriteOptions.wrap(sp_write_options)
 
     @property
     def default_extname(self):
@@ -831,8 +931,14 @@ cdef class FileFormat(_Weakrefable):
 
     @property
     def default_fragment_scan_options(self):
-        return FragmentScanOptions.wrap(
+        dfso = FragmentScanOptions.wrap(
             self.wrapped.get().default_fragment_scan_options)
+        # CsvFileFormat stores a Python-specific encoding field that needs
+        # to be restored because it does not exist in the C++ struct
+        if isinstance(self, CsvFileFormat):
+            if self._read_options_py is not None:
+                dfso.read_options = self._read_options_py
+        return dfso
 
     @default_fragment_scan_options.setter
     def default_fragment_scan_options(self, FragmentScanOptions options):
@@ -1046,6 +1152,28 @@ cdef class FileFragment(Fragment):
             self.partition_expression
         )
 
+    def open(self):
+        """
+        Open a NativeFile of the buffer or file viewed by this fragment.
+        """
+        cdef:
+            shared_ptr[CFileSystem] c_filesystem
+            shared_ptr[CRandomAccessFile] opened
+            c_string c_path
+            NativeFile out = NativeFile()
+
+        if self.buffer is not None:
+            return pa.BufferReader(self.buffer)
+
+        c_path = tobytes(self.file_fragment.source().path())
+        with nogil:
+            c_filesystem = self.file_fragment.source().filesystem()
+            opened = GetResultValue(c_filesystem.get().OpenInputFile(c_path))
+
+        out.set_random_access_file(opened)
+        out.is_readable = True
+        return out
+
     @property
     def path(self):
         """
@@ -1133,10 +1261,27 @@ cdef class FragmentScanOptions(_Weakrefable):
 
 
 cdef class IpcFileWriteOptions(FileWriteOptions):
+    cdef:
+        CIpcFileWriteOptions* ipc_options
 
     def __init__(self):
         _forbid_instantiation(self.__class__)
 
+    @property
+    def write_options(self):
+        out = IpcWriteOptions()
+        out.c_options = CIpcWriteOptions(deref(self.ipc_options.options))
+        return out
+
+    @write_options.setter
+    def write_options(self, IpcWriteOptions write_options not None):
+        self.ipc_options.options.reset(
+            new CIpcWriteOptions(write_options.c_options))
+
+    cdef void init(self, const shared_ptr[CFileWriteOptions]& sp):
+        FileWriteOptions.init(self, sp)
+        self.ipc_options = <CIpcFileWriteOptions*> sp.get()
+
 
 cdef class IpcFileFormat(FileFormat):
 
@@ -1146,14 +1291,27 @@ cdef class IpcFileFormat(FileFormat):
     def equals(self, IpcFileFormat other):
         return True
 
+    def make_write_options(self, **kwargs):
+        cdef IpcFileWriteOptions opts = \
+            <IpcFileWriteOptions> FileFormat.make_write_options(self)
+        opts.write_options = IpcWriteOptions(**kwargs)
+        return opts
+
     @property
     def default_extname(self):
-        return "feather"
+        return "arrow"
 
     def __reduce__(self):
         return IpcFileFormat, tuple()
 
 
+cdef class FeatherFileFormat(IpcFileFormat):
+
+    @property
+    def default_extname(self):
+        return "feather"
+
+
 cdef class CsvFileFormat(FileFormat):
     """
     FileFormat for CSV files.
@@ -1162,15 +1320,19 @@ cdef class CsvFileFormat(FileFormat):
     ----------
     parse_options : pyarrow.csv.ParseOptions
         Options regarding CSV parsing.
+    default_fragment_scan_options : CsvFragmentScanOptions
+        Default options for fragments scan.
     convert_options : pyarrow.csv.ConvertOptions
         Options regarding value conversion.
     read_options : pyarrow.csv.ReadOptions
         General read options.
-    default_fragment_scan_options : CsvFragmentScanOptions
-        Default options for fragments scan.
     """
     cdef:
         CCsvFileFormat* csv_format
+        # The encoding field in ReadOptions does not exist in the C++ struct.
+        # We need to store it here and override it when reading
+        # default_fragment_scan_options.read_options
+        public ReadOptions _read_options_py
 
     # Avoid mistakingly creating attributes
     __slots__ = ()
@@ -1198,6 +1360,8 @@ cdef class CsvFileFormat(FileFormat):
             raise TypeError('`default_fragment_scan_options` must be either '
                             'a dictionary or an instance of '
                             'CsvFragmentScanOptions')
+        if read_options is not None:
+            self._read_options_py = read_options
 
     cdef void init(self, const shared_ptr[CFileFormat]& sp):
         FileFormat.init(self, sp)
@@ -1220,6 +1384,8 @@ cdef class CsvFileFormat(FileFormat):
     cdef _set_default_fragment_scan_options(self, FragmentScanOptions options):
         if options.type_name == 'csv':
             self.csv_format.default_fragment_scan_options = options.wrapped
+            self.default_fragment_scan_options.read_options = options.read_options
+            self._read_options_py = options.read_options
         else:
             super()._set_default_fragment_scan_options(options)
 
@@ -1251,6 +1417,9 @@ cdef class CsvFragmentScanOptions(FragmentScanOptions):
 
     cdef:
         CCsvFragmentScanOptions* csv_options
+        # The encoding field in ReadOptions does not exist in the C++ struct.
+        # We need to store it here and override it when reading read_options
+        ReadOptions _read_options_py
 
     # Avoid mistakingly creating attributes
     __slots__ = ()
@@ -1263,6 +1432,7 @@ cdef class CsvFragmentScanOptions(FragmentScanOptions):
             self.convert_options = convert_options
         if read_options is not None:
             self.read_options = read_options
+            self._read_options_py = read_options
 
     cdef void init(self, const shared_ptr[CFragmentScanOptions]& sp):
         FragmentScanOptions.init(self, sp)
@@ -1278,11 +1448,18 @@ cdef class CsvFragmentScanOptions(FragmentScanOptions):
 
     @property
     def read_options(self):
-        return ReadOptions.wrap(self.csv_options.read_options)
+        read_options = ReadOptions.wrap(self.csv_options.read_options)
+        if self._read_options_py is not None:
+            read_options.encoding = self._read_options_py.encoding
+        return read_options
 
     @read_options.setter
     def read_options(self, ReadOptions read_options not None):
         self.csv_options.read_options = deref(read_options.options)
+        self._read_options_py = read_options
+        if codecs.lookup(read_options.encoding).name != 'utf-8':
+            self.csv_options.stream_transform_func = deref(
+                make_streamwrap_func(read_options.encoding, 'utf-8'))
 
     def equals(self, CsvFragmentScanOptions other):
         return (
@@ -2109,6 +2286,9 @@ cdef class RecordBatchIterator(_Weakrefable):
         self.iterator = make_shared[CRecordBatchIterator](move(iterator))
         return self
 
+    cdef inline shared_ptr[CRecordBatchIterator] unwrap(self) nogil:
+        return self.iterator
+
     def __iter__(self):
         return self
 
@@ -2168,11 +2348,14 @@ cdef class TaggedRecordBatchIterator(_Weakrefable):
 
 
 _DEFAULT_BATCH_SIZE = 2**17
-
+_DEFAULT_BATCH_READAHEAD = 16
+_DEFAULT_FRAGMENT_READAHEAD = 4
 
 cdef void _populate_builder(const shared_ptr[CScannerBuilder]& ptr,
                             object columns=None, Expression filter=None,
                             int batch_size=_DEFAULT_BATCH_SIZE,
+                            int batch_readahead=_DEFAULT_BATCH_READAHEAD,
+                            int fragment_readahead=_DEFAULT_FRAGMENT_READAHEAD,
                             bint use_threads=True, MemoryPool memory_pool=None,
                             FragmentScanOptions fragment_scan_options=None)\
         except *:
@@ -2207,9 +2390,10 @@ cdef void _populate_builder(const shared_ptr[CScannerBuilder]& ptr,
             )
 
     check_status(builder.BatchSize(batch_size))
+    check_status(builder.BatchReadahead(batch_readahead))
+    check_status(builder.FragmentReadahead(fragment_readahead))
     check_status(builder.UseThreads(use_threads))
-    if memory_pool:
-        check_status(builder.Pool(maybe_unbox_memory_pool(memory_pool)))
+    check_status(builder.Pool(maybe_unbox_memory_pool(memory_pool)))
     if fragment_scan_options:
         check_status(
             builder.FragmentScanOptions(fragment_scan_options.wrapped))
@@ -2232,17 +2416,17 @@ cdef class Scanner(_Weakrefable):
         projections.
 
         The list of columns or expressions may use the special fields
-        `__batch_index` (the index of the batch within the fragment), 
-        `__fragment_index` (the index of the fragment within the dataset), 
+        `__batch_index` (the index of the batch within the fragment),
+        `__fragment_index` (the index of the fragment within the dataset),
         `__last_in_fragment` (whether the batch is last in fragment), and
-        `__filename` (the name of the source file or a description of the 
+        `__filename` (the name of the source file or a description of the
         source fragment).
 
         The columns will be passed down to Datasets and corresponding data
         fragments to avoid loading, copying, and deserializing columns
         that will not be required further down the compute chain.
-        By default all of the available columns are projected. 
-        Raises an exception if any of the referenced column names does 
+        By default all of the available columns are projected.
+        Raises an exception if any of the referenced column names does
         not exist in the dataset's Schema.
     filter : Expression, default None
         Scan will return only the rows matching the filter.
@@ -2254,6 +2438,13 @@ cdef class Scanner(_Weakrefable):
         The maximum row count for scanned record batches. If scanned
         record batches are overflowing memory then this method can be
         called to reduce their size.
+    batch_readahead : int, default 16
+        The number of batches to read ahead in a file. This might not work
+        for all file formats. Increasing this number will increase
+        RAM usage but could also improve IO utilization.
+    fragment_readahead : int, default 4
+        The number of files to read ahead. Increasing this number will increase
+        RAM usage but could also improve IO utilization.
     use_threads : bool, default True
         If enabled, then maximum parallelism will be used determined by
         the number of available CPU cores.
@@ -2265,10 +2456,6 @@ cdef class Scanner(_Weakrefable):
         default pool.
     """
 
-    cdef:
-        shared_ptr[CScanner] wrapped
-        CScanner* scanner
-
     def __init__(self):
         _forbid_instantiation(self.__class__)
 
@@ -2286,12 +2473,39 @@ cdef class Scanner(_Weakrefable):
         return self.wrapped
 
     @staticmethod
-    def from_dataset(Dataset dataset not None,
-                     bint use_threads=True, object use_async=None,
-                     MemoryPool memory_pool=None,
-                     object columns=None, Expression filter=None,
+    cdef shared_ptr[CScanOptions] _make_scan_options(Dataset dataset, dict py_scanoptions) except *:
+        cdef:
+            shared_ptr[CScannerBuilder] builder = make_shared[CScannerBuilder](dataset.unwrap())
+
+        py_scanoptions = dataset._scanner_options(py_scanoptions)
+
+        # Need to explicitly expand the arguments as Cython doesn't support
+        # keyword expansion in cdef functions.
+        _populate_builder(
+            builder,
+            columns=py_scanoptions.get("columns"),
+            filter=py_scanoptions.get("filter"),
+            batch_size=py_scanoptions.get("batch_size", _DEFAULT_BATCH_SIZE),
+            batch_readahead=py_scanoptions.get(
+                "batch_readahead", _DEFAULT_BATCH_READAHEAD),
+            fragment_readahead=py_scanoptions.get(
+                "fragment_readahead", _DEFAULT_FRAGMENT_READAHEAD),
+            use_threads=py_scanoptions.get("use_threads", True),
+            memory_pool=py_scanoptions.get("memory_pool"),
+            fragment_scan_options=py_scanoptions.get("fragment_scan_options"))
+
+        return GetResultValue(deref(builder).GetScanOptions())
+
+    @staticmethod
+    def from_dataset(Dataset dataset not None, *,
+                     object columns=None,
+                     Expression filter=None,
                      int batch_size=_DEFAULT_BATCH_SIZE,
-                     FragmentScanOptions fragment_scan_options=None):
+                     int batch_readahead=_DEFAULT_BATCH_READAHEAD,
+                     int fragment_readahead=_DEFAULT_FRAGMENT_READAHEAD,
+                     FragmentScanOptions fragment_scan_options=None,
+                     bint use_threads=True, object use_async=None,
+                     MemoryPool memory_pool=None):
         """
         Create Scanner from Dataset,
 
@@ -2306,10 +2520,10 @@ cdef class Scanner(_Weakrefable):
             projections.
 
             The list of columns or expressions may use the special fields
-            `__batch_index` (the index of the batch within the fragment), 
-            `__fragment_index` (the index of the fragment within the dataset), 
+            `__batch_index` (the index of the batch within the fragment),
+            `__fragment_index` (the index of the fragment within the dataset),
             `__last_in_fragment` (whether the batch is last in fragment), and
-            `__filename` (the name of the source file or a description of the 
+            `__filename` (the name of the source file or a description of the
             source fragment).
 
             The columns will be passed down to Datasets and corresponding data
@@ -2328,6 +2542,16 @@ cdef class Scanner(_Weakrefable):
             The maximum row count for scanned record batches. If scanned
             record batches are overflowing memory then this method can be
             called to reduce their size.
+        batch_readahead : int, default 16
+            The number of batches to read ahead in a file. This might not work
+            for all file formats. Increasing this number will increase
+            RAM usage but could also improve IO utilization.
+        fragment_readahead : int, default 4
+            The number of files to read ahead. Increasing this number will increase
+            RAM usage but could also improve IO utilization.
+        fragment_scan_options : FragmentScanOptions, default None
+            Options specific to a particular scan and fragment type, which
+            can change between different scans of the same dataset.
         use_threads : bool, default True
             If enabled, then maximum parallelism will be used determined by
             the number of available CPU cores.
@@ -2338,12 +2562,9 @@ cdef class Scanner(_Weakrefable):
         memory_pool : MemoryPool, default None
             For memory allocations, if required. If not specified, uses the
             default pool.
-        fragment_scan_options : FragmentScanOptions, default None
-            Options specific to a particular scan and fragment type, which
-            can change between different scans of the same dataset.
         """
         cdef:
-            shared_ptr[CScanOptions] options = make_shared[CScanOptions]()
+            shared_ptr[CScanOptions] options
             shared_ptr[CScannerBuilder] builder
             shared_ptr[CScanner] scanner
 
@@ -2352,22 +2573,25 @@ cdef class Scanner(_Weakrefable):
                           'effect.  It will be removed in the next release.',
                           FutureWarning)
 
+        options = Scanner._make_scan_options(
+            dataset,
+            dict(columns=columns, filter=filter, batch_size=batch_size,
+                 batch_readahead=batch_readahead,
+                 fragment_readahead=fragment_readahead, use_threads=use_threads,
+                 memory_pool=memory_pool, fragment_scan_options=fragment_scan_options)
+        )
         builder = make_shared[CScannerBuilder](dataset.unwrap(), options)
-        _populate_builder(builder, columns=columns, filter=filter,
-                          batch_size=batch_size, use_threads=use_threads,
-                          memory_pool=memory_pool,
-                          fragment_scan_options=fragment_scan_options)
-
         scanner = GetResultValue(builder.get().Finish())
         return Scanner.wrap(scanner)
 
     @staticmethod
-    def from_fragment(Fragment fragment not None, Schema schema=None,
-                      bint use_threads=True, object use_async=None,
-                      MemoryPool memory_pool=None,
+    def from_fragment(Fragment fragment not None, *, Schema schema=None,
                       object columns=None, Expression filter=None,
                       int batch_size=_DEFAULT_BATCH_SIZE,
-                      FragmentScanOptions fragment_scan_options=None):
+                      int batch_readahead=_DEFAULT_BATCH_READAHEAD,
+                      FragmentScanOptions fragment_scan_options=None,
+                      bint use_threads=True, object use_async=None,
+                      MemoryPool memory_pool=None,):
         """
         Create Scanner from Fragment,
 
@@ -2384,10 +2608,10 @@ cdef class Scanner(_Weakrefable):
             projections.
 
             The list of columns or expressions may use the special fields
-            `__batch_index` (the index of the batch within the fragment), 
-            `__fragment_index` (the index of the fragment within the dataset), 
+            `__batch_index` (the index of the batch within the fragment),
+            `__fragment_index` (the index of the fragment within the dataset),
             `__last_in_fragment` (whether the batch is last in fragment), and
-            `__filename` (the name of the source file or a description of the 
+            `__filename` (the name of the source file or a description of the
             source fragment).
 
             The columns will be passed down to Datasets and corresponding data
@@ -2406,6 +2630,23 @@ cdef class Scanner(_Weakrefable):
             The maximum row count for scanned record batches. If scanned
             record batches are overflowing memory then this method can be
             called to reduce their size.
+        batch_readahead : int, default 16
+            The number of batches to read ahead in a file. This might not work
+            for all file formats. Increasing this number will increase
+            RAM usage but could also improve IO utilization.
+        fragment_scan_options : FragmentScanOptions, default None
+            Options specific to a particular scan and fragment type, which
+            can change between different scans of the same dataset.
+        use_threads : bool, default True
+            If enabled, then maximum parallelism will be used determined by
+            the number of available CPU cores.
+        use_async : bool, default True
+            This flag is deprecated and is being kept for this release for
+            backwards compatibility.  It will be removed in the next
+            release.
+        memory_pool : MemoryPool, default None
+            For memory allocations, if required. If not specified, uses the
+            default pool.
         use_threads : bool, default True
             If enabled, then maximum parallelism will be used determined by
             the number of available CPU cores.
@@ -2416,9 +2657,6 @@ cdef class Scanner(_Weakrefable):
         memory_pool : MemoryPool, default None
             For memory allocations, if required. If not specified, uses the
             default pool.
-        fragment_scan_options : FragmentScanOptions, default None
-            Options specific to a particular scan and fragment type, which
-            can change between different scans of the same dataset.
         """
         cdef:
             shared_ptr[CScanOptions] options = make_shared[CScanOptions]()
@@ -2435,7 +2673,9 @@ cdef class Scanner(_Weakrefable):
         builder = make_shared[CScannerBuilder](pyarrow_unwrap_schema(schema),
                                                fragment.unwrap(), options)
         _populate_builder(builder, columns=columns, filter=filter,
-                          batch_size=batch_size, use_threads=use_threads,
+                          batch_size=batch_size, batch_readahead=batch_readahead,
+                          fragment_readahead=_DEFAULT_FRAGMENT_READAHEAD,
+                          use_threads=use_threads,
                           memory_pool=memory_pool,
                           fragment_scan_options=fragment_scan_options)
 
@@ -2443,11 +2683,11 @@ cdef class Scanner(_Weakrefable):
         return Scanner.wrap(scanner)
 
     @staticmethod
-    def from_batches(source, Schema schema=None, bint use_threads=True,
-                     object use_async=None, MemoryPool memory_pool=None,
-                     object columns=None, Expression filter=None,
-                     int batch_size=_DEFAULT_BATCH_SIZE,
-                     FragmentScanOptions fragment_scan_options=None):
+    def from_batches(source, *, Schema schema=None, object columns=None,
+                     Expression filter=None, int batch_size=_DEFAULT_BATCH_SIZE,
+                     FragmentScanOptions fragment_scan_options=None,
+                     bint use_threads=True, object use_async=None,
+                     MemoryPool memory_pool=None):
         """
         Create a Scanner from an iterator of batches.
 
@@ -2468,6 +2708,8 @@ cdef class Scanner(_Weakrefable):
             Scan will return only the rows matching the filter.
         batch_size : int, default 128Ki
             The maximum row count for scanned record batches.
+        fragment_scan_options : FragmentScanOptions
+            The fragment scan options.
         use_threads : bool, default True
             If enabled, then maximum parallelism will be used determined by
             the number of available CPU cores.
@@ -2478,8 +2720,6 @@ cdef class Scanner(_Weakrefable):
         memory_pool : MemoryPool, default None
             For memory allocations, if required. If not specified, uses the
             default pool.
-        fragment_scan_options : FragmentScanOptions
-            The fragment scan options.
         """
         cdef:
             shared_ptr[CScanOptions] options = make_shared[CScanOptions]()
@@ -2508,7 +2748,8 @@ cdef class Scanner(_Weakrefable):
                           FutureWarning)
 
         _populate_builder(builder, columns=columns, filter=filter,
-                          batch_size=batch_size, use_threads=use_threads,
+                          batch_size=batch_size, batch_readahead=_DEFAULT_BATCH_READAHEAD,
+                          fragment_readahead=_DEFAULT_FRAGMENT_READAHEAD, use_threads=use_threads,
                           memory_pool=memory_pool,
                           fragment_scan_options=fragment_scan_options)
         scanner = GetResultValue(builder.get().Finish())
diff --git a/python/pyarrow/_dataset_parquet.pyx b/python/pyarrow/_dataset_parquet.pyx
index 744bfac6bfb..01a3b30da5c 100644
--- a/python/pyarrow/_dataset_parquet.pyx
+++ b/python/pyarrow/_dataset_parquet.pyx
@@ -71,7 +71,7 @@ cdef class ParquetFileFormat(FileFormat):
     default_fragment_scan_options : ParquetFragmentScanOptions
         Scan Options for the file.
     **kwargs : dict
-        Additional options for read option or scan option.
+        Additional options for read option or scan option
     """
 
     cdef:
@@ -236,9 +236,12 @@ class RowGroupInfo:
 
     Parameters
     ----------
-    id : the group id.
-    metadata : the rowgroup metadata.
-    schema : schema of the rows.
+    id : integer
+        The group ID.
+    metadata : FileMetaData
+        The rowgroup metadata.
+    schema : Schema
+        Schema of the rows.
     """
 
     def __init__(self, id, metadata, schema):
@@ -449,12 +452,12 @@ cdef class ParquetReadOptions(_Weakrefable):
     ----------
     dictionary_columns : list of string, default None
         Names of columns which should be dictionary encoded as
-        they are read.
-    coerce_int96_timestamp_unit : str, default None.
+        they are read
+    coerce_int96_timestamp_unit : str, default None
         Cast timestamps that are stored in INT96 format to a particular
         resolution (e.g. 'ms'). Setting to None is equivalent to 'ns'
         and therefore INT96 timestamps will be inferred as timestamps
-        in nanoseconds.
+        in nanoseconds
     """
 
     cdef public:
diff --git a/python/pyarrow/_exec_plan.pyx b/python/pyarrow/_exec_plan.pyx
index 89e474f4390..c01e6cba6a1 100644
--- a/python/pyarrow/_exec_plan.pyx
+++ b/python/pyarrow/_exec_plan.pyx
@@ -27,16 +27,18 @@ from cython.operator cimport dereference as deref, preincrement as inc
 from pyarrow.includes.common cimport *
 from pyarrow.includes.libarrow cimport *
 from pyarrow.includes.libarrow_dataset cimport *
-from pyarrow.lib cimport (Table, check_status, pyarrow_unwrap_table, pyarrow_wrap_table)
+from pyarrow.lib cimport (Table, check_status, pyarrow_unwrap_table, pyarrow_wrap_table,
+                          RecordBatchReader)
 from pyarrow.lib import tobytes
-from pyarrow._compute cimport Expression, _true
-from pyarrow._dataset cimport Dataset
+from pyarrow._compute cimport Expression, _true, _SortOptions
+from pyarrow._dataset cimport Dataset, Scanner
 from pyarrow._dataset import InMemoryDataset
 
 Initialize()  # Initialise support for Datasets in ExecPlan
 
 
-cdef execplan(inputs, output_type, vector[CDeclaration] plan, c_bool use_threads=True):
+cdef execplan(inputs, output_type, vector[CDeclaration] plan, c_bool use_threads=True,
+              _SortOptions sort_options=None):
     """
     Internal Function to create an ExecPlan and run it.
 
@@ -52,12 +54,13 @@ cdef execplan(inputs, output_type, vector[CDeclaration] plan, c_bool use_threads
         The nodes of the plan that should be applied to the sources
         to produce the output.
     use_threads : bool, default True
-        Whenever to use multithreading or not.
+        Whether to use multithreading or not.
     """
     cdef:
         CExecutor *c_executor
         shared_ptr[CExecContext] c_exec_context
         shared_ptr[CExecPlan] c_exec_plan
+        CDeclaration current_decl
         vector[CDeclaration] c_decls
         vector[CExecNode*] _empty
         vector[CExecNode*] c_final_node_vec
@@ -66,11 +69,14 @@ cdef execplan(inputs, output_type, vector[CDeclaration] plan, c_bool use_threads
         shared_ptr[CTable] c_in_table
         shared_ptr[CTable] c_out_table
         shared_ptr[CTableSourceNodeOptions] c_tablesourceopts
+        shared_ptr[CScanner] c_dataset_scanner
         shared_ptr[CScanNodeOptions] c_scanopts
         shared_ptr[CExecNodeOptions] c_input_node_opts
         shared_ptr[CSinkNodeOptions] c_sinkopts
+        shared_ptr[COrderBySinkNodeOptions] c_orderbysinkopts
         shared_ptr[CAsyncExecBatchGenerator] c_async_exec_batch_gen
         shared_ptr[CRecordBatchReader] c_recordbatchreader
+        shared_ptr[CRecordBatchReader] c_recordbatchreader_in
         vector[CDeclaration].iterator plan_iter
         vector[CDeclaration.Input] no_c_inputs
         CStatus c_plan_status
@@ -80,6 +86,9 @@ cdef execplan(inputs, output_type, vector[CDeclaration] plan, c_bool use_threads
     else:
         c_executor = NULL
 
+    # TODO(weston): This is deprecated.  Once ordering is better supported
+    # in the exec plan we can remove all references to ExecPlan and use the
+    # DeclarationToXyz methods
     c_exec_context = make_shared[CExecContext](
         c_default_memory_pool(), c_executor)
     c_exec_plan = GetResultValue(CExecPlan.Make(c_exec_context.get()))
@@ -89,35 +98,45 @@ cdef execplan(inputs, output_type, vector[CDeclaration] plan, c_bool use_threads
     # Create source nodes for each input
     for ipt in inputs:
         if isinstance(ipt, Table):
-            node_factory = "table_source"
             c_in_table = pyarrow_unwrap_table(ipt)
             c_tablesourceopts = make_shared[CTableSourceNodeOptions](
-                c_in_table, 1 << 20)
+                c_in_table)
             c_input_node_opts = static_pointer_cast[CExecNodeOptions, CTableSourceNodeOptions](
                 c_tablesourceopts)
+
+            current_decl = CDeclaration(
+                tobytes("table_source"), no_c_inputs, c_input_node_opts)
         elif isinstance(ipt, Dataset):
-            node_factory = "scan"
             c_in_dataset = (<Dataset>ipt).unwrap()
             c_scanopts = make_shared[CScanNodeOptions](
-                c_in_dataset, make_shared[CScanOptions]())
-            deref(deref(c_scanopts).scan_options).use_threads = use_threads
+                c_in_dataset, Scanner._make_scan_options(ipt, {"use_threads": use_threads}))
             c_input_node_opts = static_pointer_cast[CExecNodeOptions, CScanNodeOptions](
                 c_scanopts)
+
+            # Filters applied in CScanNodeOptions are "best effort" for the scan node itself,
+            # so we always need to inject an additional Filter node to apply them for real.
+            current_decl = CDeclaration(
+                tobytes("filter"),
+                no_c_inputs,
+                static_pointer_cast[CExecNodeOptions, CFilterNodeOptions](
+                    make_shared[CFilterNodeOptions](
+                        deref(deref(c_scanopts).scan_options).filter
+                    )
+                )
+            )
+            current_decl.inputs.push_back(
+                CDeclaration.Input(
+                    CDeclaration(tobytes("scan"), no_c_inputs, c_input_node_opts))
+            )
         else:
             raise TypeError("Unsupported type")
 
         if plan_iter != plan.end():
             # Flag the source as the input of the first plan node.
-            deref(plan_iter).inputs.push_back(CDeclaration.Input(
-                CDeclaration(tobytes(node_factory),
-                             no_c_inputs, c_input_node_opts)
-            ))
+            deref(plan_iter).inputs.push_back(CDeclaration.Input(current_decl))
         else:
             # Empty plan, make the source the first plan node.
-            c_decls.push_back(
-                CDeclaration(tobytes(node_factory),
-                             no_c_inputs, c_input_node_opts)
-            )
+            c_decls.push_back(current_decl)
 
     # Add Here additional nodes
     while plan_iter != plan.end():
@@ -132,11 +151,23 @@ cdef execplan(inputs, output_type, vector[CDeclaration] plan, c_bool use_threads
 
     # Create the output node
     c_async_exec_batch_gen = make_shared[CAsyncExecBatchGenerator]()
-    c_sinkopts = make_shared[CSinkNodeOptions](c_async_exec_batch_gen.get())
-    GetResultValue(
-        MakeExecNode(tobytes("sink"), &deref(c_exec_plan),
-                     c_final_node_vec, deref(c_sinkopts))
-    )
+
+    if sort_options is None:
+        c_sinkopts = make_shared[CSinkNodeOptions](
+            c_async_exec_batch_gen.get())
+        GetResultValue(
+            MakeExecNode(tobytes("sink"), &deref(c_exec_plan),
+                         c_final_node_vec, deref(c_sinkopts))
+        )
+    else:
+        c_orderbysinkopts = make_shared[COrderBySinkNodeOptions](
+            deref(<CSortOptions*>(sort_options.unwrap().get())),
+            c_async_exec_batch_gen.get()
+        )
+        GetResultValue(
+            MakeExecNode(tobytes("order_by_sink"), &deref(c_exec_plan),
+                         c_final_node_vec, deref(c_orderbysinkopts))
+        )
 
     # Convert the asyncgenerator to a sync batch reader
     c_recordbatchreader = MakeGeneratorReader(c_node.output_schema(),
@@ -187,13 +218,13 @@ def _perform_join(join_type, left_operand not None, left_keys,
     right_keys : str or list[str]
         The right key (or keys) on which the join operation should be performed.
     left_suffix : str, default None
-        Which suffix to add to right column names. This prevents confusion
+        Which suffix to add to left column names. This prevents confusion
         when the columns in left and right operands have colliding names.
     right_suffix : str, default None
-        Which suffic to add to the left column names. This prevents confusion
+        Which suffix to add to the right column names. This prevents confusion
         when the columns in left and right operands have colliding names.
     use_threads : bool, default True
-        Whenever to use multithreading or not.
+        Whether to use multithreading or not.
     coalesce_keys : bool, default False
         If the duplicated keys should be omitted from one of the sides
         in the join result.
@@ -384,7 +415,7 @@ def _filter_table(table, expression, output_type=Table):
 
     c_decl_plan.push_back(
         CDeclaration(tobytes("filter"), CFilterNodeOptions(
-            <CExpression>expr.unwrap(), True
+            <CExpression>expr.unwrap()
         ))
     )
 
@@ -399,3 +430,23 @@ def _filter_table(table, expression, output_type=Table):
         return InMemoryDataset(r.select(table.schema.names))
     else:
         raise TypeError("Unsupported output type")
+
+
+def _sort_source(table_or_dataset, sort_options, output_type=Table):
+    cdef:
+        vector[CDeclaration] c_empty_decl_plan
+
+    r = execplan([table_or_dataset],
+                 plan=c_empty_decl_plan,
+                 output_type=Table,
+                 use_threads=True,
+                 sort_options=sort_options)
+
+    if output_type == Table:
+        return r
+    elif output_type == InMemoryDataset:
+        # Get rid of special dataset columns
+        # "__fragment_index", "__batch_index", "__last_in_fragment", "__filename"
+        return InMemoryDataset(r.select(table_or_dataset.schema.names))
+    else:
+        raise TypeError("Unsupported output type")
diff --git a/python/pyarrow/_flight.pyx b/python/pyarrow/_flight.pyx
index 2ad3f7128c4..7feee8cf7b4 100644
--- a/python/pyarrow/_flight.pyx
+++ b/python/pyarrow/_flight.pyx
@@ -289,6 +289,31 @@ cdef class Action(_Weakrefable):
                 type(action)))
         return (<Action> action).action
 
+    def serialize(self):
+        """Get the wire-format representation of this type.
+
+        Useful when interoperating with non-Flight systems (e.g. REST
+        services) that may want to return Flight types.
+
+        """
+        return GetResultValue(self.action.SerializeToString())
+
+    @classmethod
+    def deserialize(cls, serialized):
+        """Parse the wire-format representation of this type.
+
+        Useful when interoperating with non-Flight systems (e.g. REST
+        services) that may want to return Flight types.
+
+        """
+        cdef Action action = Action.__new__(Action)
+        action.action = GetResultValue(
+            CAction.Deserialize(tobytes(serialized)))
+        return action
+
+    def __eq__(self, Action other):
+        return self.action == other.action
+
 
 _ActionType = collections.namedtuple('_ActionType', ['type', 'description'])
 
@@ -327,6 +352,31 @@ cdef class Result(_Weakrefable):
         """Get the Buffer containing the result."""
         return pyarrow_wrap_buffer(self.result.get().body)
 
+    def serialize(self):
+        """Get the wire-format representation of this type.
+
+        Useful when interoperating with non-Flight systems (e.g. REST
+        services) that may want to return Flight types.
+
+        """
+        return GetResultValue(self.result.get().SerializeToString())
+
+    @classmethod
+    def deserialize(cls, serialized):
+        """Parse the wire-format representation of this type.
+
+        Useful when interoperating with non-Flight systems (e.g. REST
+        services) that may want to return Flight types.
+
+        """
+        cdef Result result = Result.__new__(Result)
+        result.result.reset(new CFlightResult(GetResultValue(
+            CFlightResult.Deserialize(tobytes(serialized)))))
+        return result
+
+    def __eq__(self, Result other):
+        return deref(self.result.get()) == deref(other.result.get())
+
 
 cdef class BasicAuth(_Weakrefable):
     """A container for basic auth."""
@@ -360,13 +410,16 @@ cdef class BasicAuth(_Weakrefable):
     @staticmethod
     def deserialize(serialized):
         auth = BasicAuth()
-        check_flight_status(
-            CBasicAuth.Deserialize(serialized).Value(auth.basic_auth.get()))
+        auth.basic_auth.reset(new CBasicAuth(GetResultValue(
+            CBasicAuth.Deserialize(tobytes(serialized)))))
         return auth
 
     def serialize(self):
         return GetResultValue(self.basic_auth.get().SerializeToString())
 
+    def __eq__(self, BasicAuth other):
+        return deref(self.basic_auth.get()) == deref(other.basic_auth.get())
+
 
 class DescriptorType(enum.Enum):
     """
@@ -686,6 +739,28 @@ cdef class FlightEndpoint(_Weakrefable):
         return [Location.wrap(location)
                 for location in self.endpoint.locations]
 
+    def serialize(self):
+        """Get the wire-format representation of this type.
+
+        Useful when interoperating with non-Flight systems (e.g. REST
+        services) that may want to return Flight types.
+
+        """
+        return GetResultValue(self.endpoint.SerializeToString())
+
+    @classmethod
+    def deserialize(cls, serialized):
+        """Parse the wire-format representation of this type.
+
+        Useful when interoperating with non-Flight systems (e.g. REST
+        services) that may want to return Flight types.
+
+        """
+        cdef FlightEndpoint endpoint = FlightEndpoint.__new__(FlightEndpoint)
+        endpoint.endpoint = GetResultValue(
+            CFlightEndpoint.Deserialize(tobytes(serialized)))
+        return endpoint
+
     def __repr__(self):
         return "<FlightEndpoint ticket: {!r} locations: {!r}>".format(
             self.ticket, self.locations)
@@ -721,6 +796,31 @@ cdef class SchemaResult(_Weakrefable):
         check_flight_status(self.result.get().GetSchema(&dummy_memo).Value(&schema))
         return pyarrow_wrap_schema(schema)
 
+    def serialize(self):
+        """Get the wire-format representation of this type.
+
+        Useful when interoperating with non-Flight systems (e.g. REST
+        services) that may want to return Flight types.
+
+        """
+        return GetResultValue(self.result.get().SerializeToString())
+
+    @classmethod
+    def deserialize(cls, serialized):
+        """Parse the wire-format representation of this type.
+
+        Useful when interoperating with non-Flight systems (e.g. REST
+        services) that may want to return Flight types.
+
+        """
+        cdef SchemaResult result = SchemaResult.__new__(SchemaResult)
+        result.result.reset(new CSchemaResult(GetResultValue(
+            CSchemaResult.Deserialize(tobytes(serialized)))))
+        return result
+
+    def __eq__(self, SchemaResult other):
+        return deref(self.result.get()) == deref(other.result.get())
+
 
 cdef class FlightInfo(_Weakrefable):
     """A description of a Flight stream."""
@@ -986,14 +1086,18 @@ cdef class MetadataRecordBatchWriter(_CRecordBatchWriter):
         ----------
         batch : RecordBatch
         """
+        cdef:
+            shared_ptr[const CKeyValueMetadata] custom_metadata
+
         # Override superclass method to use check_flight_status so we
         # can generate FlightWriteSizeExceededError. We don't do this
         # for write_table as callers who intend to handle the error
         # and retry with a smaller batch should be working with
         # individual batches to have control.
+
         with nogil:
             check_flight_status(
-                self._writer().WriteRecordBatch(deref(batch.batch)))
+                self._writer().WriteRecordBatch(deref(batch.batch), custom_metadata))
 
     def write_table(self, Table table, max_chunksize=None, **kwargs):
         """
@@ -1439,7 +1543,7 @@ cdef class FlightClient(_Weakrefable):
         result.reader.reset(reader.release())
         return result
 
-    def do_put(self, descriptor: FlightDescriptor, schema: Schema,
+    def do_put(self, descriptor: FlightDescriptor, Schema schema not None,
                options: FlightCallOptions = None):
         """Upload data to a flight.
 
@@ -1641,13 +1745,22 @@ cdef class ServerCallContext(_Weakrefable):
             CServerMiddleware* c_middleware = \
                 self.context.GetMiddleware(CPyServerMiddlewareName)
             CPyServerMiddleware* middleware
+            vector[CTracingServerMiddlewareTraceKey] c_trace_context
+        if c_middleware == NULL:
+            c_middleware = self.context.GetMiddleware(tobytes(key))
+
         if c_middleware == NULL:
             return None
-        if c_middleware.name() != CPyServerMiddlewareName:
-            return None
-        middleware = <CPyServerMiddleware*> c_middleware
-        py_middleware = <_ServerMiddlewareWrapper> middleware.py_object()
-        return py_middleware.middleware.get(key)
+        elif c_middleware.name() == CPyServerMiddlewareName:
+            middleware = <CPyServerMiddleware*> c_middleware
+            py_middleware = <_ServerMiddlewareWrapper> middleware.py_object()
+            return py_middleware.middleware.get(key)
+        elif c_middleware.name() == CTracingServerMiddlewareName:
+            c_trace_context = (<CTracingServerMiddleware*> c_middleware
+                               ).GetTraceContext()
+            trace_context = {pair.key: pair.value for pair in c_trace_context}
+            return TracingServerMiddleware(trace_context)
+        return None
 
     @staticmethod
     cdef ServerCallContext wrap(const CServerCallContext& context):
@@ -2428,6 +2541,22 @@ cdef class ServerMiddlewareFactory(_Weakrefable):
         """
 
 
+cdef class TracingServerMiddlewareFactory(ServerMiddlewareFactory):
+    """A factory for tracing middleware instances.
+
+    This enables OpenTelemetry support in Arrow (if Arrow was compiled
+    with OpenTelemetry support enabled). A new span will be started on
+    each RPC call. The TracingServerMiddleware instance can then be
+    retrieved within an RPC handler to get the propagated context,
+    which can be used to start a new span on the Python side.
+
+    Because the Python/C++ OpenTelemetry libraries do not
+    interoperate, spans on the C++ side are not directly visible to
+    the Python side and vice versa.
+
+    """
+
+
 cdef class ServerMiddleware(_Weakrefable):
     """Server-side middleware for a call, instantiated per RPC.
 
@@ -2474,6 +2603,13 @@ cdef class ServerMiddleware(_Weakrefable):
         c_instance[0].reset(new CPyServerMiddleware(py_middleware, vtable))
 
 
+class TracingServerMiddleware(ServerMiddleware):
+    __slots__ = ["trace_context"]
+
+    def __init__(self, trace_context):
+        self.trace_context = trace_context
+
+
 cdef class _ServerMiddlewareFactoryWrapper(ServerMiddlewareFactory):
     """Wrapper to bundle server middleware into a single C++ one."""
 
@@ -2639,7 +2775,27 @@ cdef class FlightServerBase(_Weakrefable):
                 c_options.get().tls_certificates.push_back(c_cert)
 
         if middleware:
-            py_middleware = _ServerMiddlewareFactoryWrapper(middleware)
+            non_tracing_middleware = {}
+            enable_tracing = None
+            for key, factory in middleware.items():
+                if isinstance(factory, TracingServerMiddlewareFactory):
+                    if enable_tracing is not None:
+                        raise ValueError(
+                            "Can only provide "
+                            "TracingServerMiddlewareFactory once")
+                    if tobytes(key) == CPyServerMiddlewareName:
+                        raise ValueError(f"Middleware key cannot be {key}")
+                    enable_tracing = key
+                else:
+                    non_tracing_middleware[key] = factory
+
+            if enable_tracing:
+                c_middleware.first = tobytes(enable_tracing)
+                c_middleware.second = MakeTracingServerMiddlewareFactory()
+                c_options.get().middleware.push_back(c_middleware)
+
+            py_middleware = _ServerMiddlewareFactoryWrapper(
+                non_tracing_middleware)
             c_middleware.first = CPyServerMiddlewareName
             c_middleware.second.reset(new CPyServerMiddlewareFactory(
                 py_middleware,
diff --git a/python/pyarrow/_fs.pyx b/python/pyarrow/_fs.pyx
index e7b028a07d9..f5d97c7c1d8 100644
--- a/python/pyarrow/_fs.pyx
+++ b/python/pyarrow/_fs.pyx
@@ -78,6 +78,12 @@ cdef CFileType _unwrap_file_type(FileType ty) except *:
     assert 0
 
 
+def _file_type_to_string(ty):
+    # Python 3.11 changed str(IntEnum) to return the string representation
+    # of the integer value: https://github.com/python/cpython/issues/94763
+    return f"{ty.__class__.__name__}.{ty._name_}"
+
+
 cdef class FileInfo(_Weakrefable):
     """
     FileSystem entry info.
@@ -185,9 +191,10 @@ cdef class FileInfo(_Weakrefable):
             except ValueError:
                 return ''
 
-        s = '<FileInfo for {!r}: type={}'.format(self.path, str(self.type))
+        s = (f'<FileInfo for {self.path!r}: '
+             f'type={_file_type_to_string(self.type)}')
         if self.is_file:
-            s += ', size={}'.format(self.size)
+            s += f', size={self.size}'
         s += '>'
         return s
 
@@ -418,7 +425,7 @@ cdef class FileSystem(_Weakrefable):
         """
         Create a new FileSystem from URI or Path.
 
-        Recognized URI schemes are "file", "mock", "s3fs", "hdfs" and "viewfs".
+        Recognized URI schemes are "file", "mock", "s3fs", "gs", "gcs", "hdfs" and "viewfs".
         In addition, the argument can be a pathlib.Path object, or a string
         describing an absolute local path.
 
@@ -788,7 +795,7 @@ cdef class FileSystem(_Weakrefable):
         -------
         stream : NativeFile
 
-        Examples        
+        Examples
         --------
         Print the data from the file with `open_input_stream()`:
 
@@ -905,7 +912,7 @@ cdef class FileSystem(_Weakrefable):
         -------
         stream : NativeFile
 
-        Examples        
+        Examples
         --------
         Append new data to a FileSystem subclass with nonempty file:
 
@@ -1127,7 +1134,7 @@ cdef class SubTreeFileSystem(FileSystem):
     >>> from pyarrow import fs
     >>> local = fs.LocalFileSystem()
     >>> with local.open_output_stream('/tmp/local_fs.dat') as stream:
-    ...     stream.write(b'data') 
+    ...     stream.write(b'data')
     4
 
     Create a directory and a SubTreeFileSystem instance:
@@ -1228,17 +1235,17 @@ cdef class PyFileSystem(FileSystem):
     Create an fsspec-based filesystem object for GitHub:
 
     >>> from fsspec.implementations import github
-    >>> gfs = github.GithubFileSystem('apache', 'arrow', sha='ec51aec4d15035f4d9d6a1c4346d0a2b9a37fb75')
+    >>> gfs = github.GithubFileSystem('apache', 'arrow') # doctest: +SKIP
 
     Get a PyArrow FileSystem object:
 
     >>> from pyarrow.fs import PyFileSystem, FSSpecHandler
-    >>> pa_fs = PyFileSystem(FSSpecHandler(gfs))
+    >>> pa_fs = PyFileSystem(FSSpecHandler(gfs)) # doctest: +SKIP
 
     Use :func:`~pyarrow.fs.FileSystem` functionality ``get_file_info()``:
 
-    >>> pa_fs.get_file_info('README.md')
-    <FileInfo for 'README.md': type=FileType.File, size=5302>
+    >>> pa_fs.get_file_info('README.md') # doctest: +SKIP
+    <FileInfo for 'README.md': type=FileType.File, size=...>
     """
 
     def __init__(self, handler):
diff --git a/python/pyarrow/_parquet.pxd b/python/pyarrow/_parquet.pxd
index 29b625df50f..3996b5ec237 100644
--- a/python/pyarrow/_parquet.pxd
+++ b/python/pyarrow/_parquet.pxd
@@ -523,11 +523,10 @@ cdef extern from "parquet/arrow/writer.h" namespace "parquet::arrow" nogil:
     cdef cppclass FileWriter:
 
         @staticmethod
-        CStatus Open(const CSchema& schema, CMemoryPool* pool,
-                     const shared_ptr[COutputStream]& sink,
-                     const shared_ptr[WriterProperties]& properties,
-                     const shared_ptr[ArrowWriterProperties]& arrow_properties,
-                     unique_ptr[FileWriter]* writer)
+        CResult[unique_ptr[FileWriter]] Open(const CSchema& schema, CMemoryPool* pool,
+                                             const shared_ptr[COutputStream]& sink,
+                                             const shared_ptr[WriterProperties]& properties,
+                                             const shared_ptr[ArrowWriterProperties]& arrow_properties)
 
         CStatus WriteTable(const CTable& table, int64_t chunk_size)
         CStatus NewRowGroup(int64_t chunk_size)
@@ -575,7 +574,8 @@ cdef shared_ptr[ArrowWriterProperties] _create_arrow_writer_properties(
     coerce_timestamps=*,
     allow_truncated_timestamps=*,
     writer_engine_version=*,
-    use_compliant_nested_type=*) except *
+    use_compliant_nested_type=*,
+    store_schema=*) except *
 
 cdef class ParquetSchema(_Weakrefable):
     cdef:
diff --git a/python/pyarrow/_parquet.pyx b/python/pyarrow/_parquet.pyx
index 66ed7db9973..061acafd12a 100644
--- a/python/pyarrow/_parquet.pyx
+++ b/python/pyarrow/_parquet.pyx
@@ -1159,6 +1159,7 @@ cdef class ParquetReader(_Weakrefable):
         CMemoryPool* pool
         unique_ptr[FileReader] reader
         FileMetaData _metadata
+        shared_ptr[CRandomAccessFile] rd_handle
 
     cdef public:
         _column_idx_map
@@ -1175,7 +1176,6 @@ cdef class ParquetReader(_Weakrefable):
              thrift_string_size_limit=None,
              thrift_container_size_limit=None):
         cdef:
-            shared_ptr[CRandomAccessFile] rd_handle
             shared_ptr[CFileMetaData] c_metadata
             CReaderProperties properties = default_reader_properties()
             ArrowReaderProperties arrow_props = (
@@ -1221,10 +1221,10 @@ cdef class ParquetReader(_Weakrefable):
                 string_to_timeunit(coerce_int96_timestamp_unit))
 
         self.source = source
+        get_reader(source, use_memory_map, &self.rd_handle)
 
-        get_reader(source, use_memory_map, &rd_handle)
         with nogil:
-            check_status(builder.Open(rd_handle, properties, c_metadata))
+            check_status(builder.Open(self.rd_handle, properties, c_metadata))
 
         # Set up metadata
         with nogil:
@@ -1435,6 +1435,19 @@ cdef class ParquetReader(_Weakrefable):
                          .ReadColumn(column_index, &out))
         return pyarrow_wrap_chunked_array(out)
 
+    def close(self):
+        if not self.closed:
+            with nogil:
+                check_status(self.rd_handle.get().Close())
+
+    @property
+    def closed(self):
+        if self.rd_handle == NULL:
+            return True
+        with nogil:
+            closed = self.rd_handle.get().closed()
+        return closed
+
 
 cdef shared_ptr[WriterProperties] _create_writer_properties(
         use_dictionary=None,
@@ -1593,7 +1606,8 @@ cdef shared_ptr[ArrowWriterProperties] _create_arrow_writer_properties(
         coerce_timestamps=None,
         allow_truncated_timestamps=False,
         writer_engine_version=None,
-        use_compliant_nested_type=False) except *:
+        use_compliant_nested_type=False,
+        store_schema=True) except *:
     """Arrow writer properties"""
     cdef:
         shared_ptr[ArrowWriterProperties] arrow_properties
@@ -1601,7 +1615,8 @@ cdef shared_ptr[ArrowWriterProperties] _create_arrow_writer_properties(
 
     # Store the original Arrow schema so things like dictionary types can
     # be automatically reconstructed
-    arrow_props.store_schema()
+    if store_schema:
+        arrow_props.store_schema()
 
     # int96 support
 
@@ -1673,6 +1688,7 @@ cdef class ParquetWriter(_Weakrefable):
         FileEncryptionProperties encryption_properties
         int64_t write_batch_size
         int64_t dictionary_pagesize_limit
+        object store_schema
 
     def __cinit__(self, where, Schema schema, use_dictionary=None,
                   compression=None, version=None,
@@ -1690,7 +1706,8 @@ cdef class ParquetWriter(_Weakrefable):
                   use_compliant_nested_type=False,
                   encryption_properties=None,
                   write_batch_size=None,
-                  dictionary_pagesize_limit=None):
+                  dictionary_pagesize_limit=None,
+                  store_schema=True):
         cdef:
             shared_ptr[WriterProperties] properties
             shared_ptr[ArrowWriterProperties] arrow_properties
@@ -1727,15 +1744,15 @@ cdef class ParquetWriter(_Weakrefable):
             coerce_timestamps=coerce_timestamps,
             allow_truncated_timestamps=allow_truncated_timestamps,
             writer_engine_version=writer_engine_version,
-            use_compliant_nested_type=use_compliant_nested_type
+            use_compliant_nested_type=use_compliant_nested_type,
+            store_schema=store_schema,
         )
 
         pool = maybe_unbox_memory_pool(memory_pool)
         with nogil:
-            check_status(
+            self.writer = move(GetResultValue(
                 FileWriter.Open(deref(schema.schema), pool,
-                                self.sink, properties, arrow_properties,
-                                &self.writer))
+                                self.sink, properties, arrow_properties)))
 
     def close(self):
         with nogil:
diff --git a/python/pyarrow/_plasma.pyx b/python/pyarrow/_plasma.pyx
index 35d39073634..61a4ac14651 100644
--- a/python/pyarrow/_plasma.pyx
+++ b/python/pyarrow/_plasma.pyx
@@ -156,7 +156,10 @@ def make_object_id(object_id):
 
 cdef class ObjectID(_Weakrefable):
     """
-    An ObjectID represents a string of bytes used to identify Plasma objects.
+    DEPRECATED: An ObjectID represents a string of bytes used to identify Plasma objects.
+
+    .. deprecated:: 10.0.0
+       Plasma is deprecated since Arrow 10.0.0. It will be removed in 12.0.0 or so.
     """
 
     cdef:
@@ -169,6 +172,10 @@ cdef class ObjectID(_Weakrefable):
                              " is " + str(object_id))
         self.data = CUniqueID.from_binary(object_id)
 
+        warnings.warn(
+            "Plasma is deprecated since Arrow 10.0.0. It will be removed in 12.0.0 or so.",
+            DeprecationWarning, stacklevel=2)
+
     def __eq__(self, other):
         try:
             return self.data == (<ObjectID?>other).data
@@ -219,13 +226,16 @@ cdef class ObjectNotAvailable(_Weakrefable):
 
 cdef class PlasmaBuffer(Buffer):
     """
-    This is the type returned by calls to get with a PlasmaClient.
+    DEPRECATED: This is the type returned by calls to get with a PlasmaClient.
 
     We define our own class instead of directly returning a buffer object so
     that we can add a custom destructor which notifies Plasma that the object
     is no longer being used, so the memory in the Plasma store backing the
     object can potentially be freed.
 
+    .. deprecated:: 10.0.0
+       Plasma is deprecated since Arrow 10.0.0. It will be removed in 12.0.0 or so.
+
     Attributes
     ----------
     object_id : ObjectID
@@ -295,11 +305,14 @@ def get_socket_from_fd(fileno, family, type):
 
 cdef class PlasmaClient(_Weakrefable):
     """
-    The PlasmaClient is used to interface with a plasma store and manager.
+    DEPRECATED: The PlasmaClient is used to interface with a plasma store and manager.
 
     The PlasmaClient can ask the PlasmaStore to allocate a new buffer, seal a
     buffer, and get a buffer. Buffers are referred to by object IDs, which are
     strings.
+
+    .. deprecated:: 10.0.0
+       Plasma is deprecated since Arrow 10.0.0. It will be removed in 12.0.0 or so.
     """
 
     cdef:
@@ -312,6 +325,10 @@ cdef class PlasmaClient(_Weakrefable):
         self.notification_fd = -1
         self.store_socket_name = b""
 
+        warnings.warn(
+            "Plasma is deprecated since Arrow 10.0.0. It will be removed in 12.0.0 or so.",
+            DeprecationWarning, stacklevel=3)
+
     cdef _get_object_buffers(self, object_ids, int64_t timeout_ms,
                              c_vector[CObjectBuffer]* result):
         cdef:
@@ -854,9 +871,12 @@ cdef class PlasmaClient(_Weakrefable):
 
 def connect(store_socket_name, int num_retries=-1):
     """
-    Return a new PlasmaClient that is connected a plasma store and
+    DEPRECATED: Return a new PlasmaClient that is connected a plasma store and
     optionally a manager.
 
+    .. deprecated:: 10.0.0
+       Plasma is deprecated since Arrow 10.0.0. It will be removed in 12.0.0 or so.
+
     Parameters
     ----------
     store_socket_name : str
diff --git a/python/pyarrow/_pyarrow_cpp_tests.pxd b/python/pyarrow/_pyarrow_cpp_tests.pxd
new file mode 100644
index 00000000000..91c0220d731
--- /dev/null
+++ b/python/pyarrow/_pyarrow_cpp_tests.pxd
@@ -0,0 +1,33 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+# distutils: language = c++
+# cython: language_level = 3
+
+from pyarrow.includes.common cimport *
+from pyarrow.includes.libarrow cimport CStatus
+
+
+ctypedef CStatus cb_test_func()
+
+cdef extern from "arrow/python/python_test.h" namespace "arrow::py::testing" nogil:
+
+    cdef cppclass CTestCase "arrow::py::testing::TestCase":
+        c_string name
+        cb_test_func func
+
+    vector[CTestCase] GetCppTestCases()
diff --git a/python/pyarrow/_pyarrow_cpp_tests.pyx b/python/pyarrow/_pyarrow_cpp_tests.pyx
new file mode 100644
index 00000000000..adb14835130
--- /dev/null
+++ b/python/pyarrow/_pyarrow_cpp_tests.pyx
@@ -0,0 +1,62 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+# cython: profile=False, binding=True
+# distutils: language = c++
+
+from pyarrow.includes.common cimport *
+from pyarrow.includes.libarrow cimport *
+from pyarrow.lib cimport check_status
+
+from pyarrow.lib import frombytes
+
+
+cdef class CppTestCase:
+    """
+    A simple wrapper for a C++ test case.
+    """
+    cdef:
+        CTestCase c_case
+
+    @staticmethod
+    cdef wrap(CTestCase c_case):
+        cdef:
+            CppTestCase obj
+        obj = CppTestCase.__new__(CppTestCase)
+        obj.c_case = c_case
+        return obj
+
+    @property
+    def name(self):
+        return frombytes(self.c_case.name)
+
+    def __repr__(self):
+        return f"<{self.__class__.__name__} {self.name!r}>"
+
+    def __call__(self):
+        check_status(self.c_case.func())
+
+
+def get_cpp_tests():
+    """
+    Get a list of C++ test cases.
+    """
+    cases = []
+    c_cases = GetCppTestCases()
+    for c_case in c_cases:
+        cases.append(CppTestCase.wrap(c_case))
+    return cases
diff --git a/python/pyarrow/_s3fs.pyx b/python/pyarrow/_s3fs.pyx
index 47cb87c23d2..c07e78858d3 100644
--- a/python/pyarrow/_s3fs.pyx
+++ b/python/pyarrow/_s3fs.pyx
@@ -88,6 +88,44 @@ def resolve_s3_region(bucket):
     return frombytes(c_region)
 
 
+class S3RetryStrategy:
+    """
+    Base class for AWS retry strategies for use with S3.
+
+    Parameters
+    ----------
+    max_attempts : int, default 3
+        The maximum number of retry attempts to attempt before failing.
+    """
+
+    def __init__(self, max_attempts=3):
+        self.max_attempts = max_attempts
+
+
+class AwsStandardS3RetryStrategy(S3RetryStrategy):
+    """
+    Represents an AWS Standard retry strategy for use with S3.
+
+    Parameters
+    ----------
+    max_attempts : int, default 3
+        The maximum number of retry attempts to attempt before failing.
+    """
+    pass
+
+
+class AwsDefaultS3RetryStrategy(S3RetryStrategy):
+    """
+    Represents an AWS Default retry strategy for use with S3.
+
+    Parameters
+    ----------
+    max_attempts : int, default 3
+        The maximum number of retry attempts to attempt before failing.
+    """
+    pass
+
+
 cdef class S3FileSystem(FileSystem):
     """
     S3-backed FileSystem implementation
@@ -135,8 +173,12 @@ cdef class S3FileSystem(FileSystem):
     load_frequency : int, default 900
         The frequency (in seconds) with which temporary credentials from an
         assumed role session will be refreshed.
-    region : str, default 'us-east-1'
-        AWS region to connect to.
+    region : str, default None
+        AWS region to connect to. If not set, the AWS SDK will attempt to
+        determine the region using heuristics such as environment variables,
+        configuration profile, EC2 metadata, or default to 'us-east-1' when SDK
+        version <1.8. One can also use :func:`pyarrow.fs.resolve_s3_region` to
+        automatically resolve the region from a bucket name.
     request_timeout : double, default None
         Socket read timeouts on Windows and macOS, in seconds.
         If omitted, the AWS SDK default value is used (typically 3 seconds).
@@ -173,6 +215,9 @@ cdef class S3FileSystem(FileSystem):
     allow_bucket_deletion : bool, default False
         Whether to allow DeleteDir at the bucket-level. This option may also be 
         passed in a URI query parameter.
+    retry_strategy : S3RetryStrategy, default AwsStandardS3RetryStrategy(max_attempts=3)
+        The retry strategy to use with S3; fail after max_attempts. Available
+        strategies are AwsStandardS3RetryStrategy, AwsDefaultS3RetryStrategy.
 
     Examples
     --------
@@ -195,7 +240,8 @@ cdef class S3FileSystem(FileSystem):
                  bint background_writes=True, default_metadata=None,
                  role_arn=None, session_name=None, external_id=None,
                  load_frequency=900, proxy_options=None,
-                 allow_bucket_creation=False, allow_bucket_deletion=False):
+                 allow_bucket_creation=False, allow_bucket_deletion=False,
+                 retry_strategy: S3RetryStrategy = AwsStandardS3RetryStrategy(max_attempts=3)):
         cdef:
             CS3Options options
             shared_ptr[CS3FileSystem] wrapped
@@ -300,6 +346,15 @@ cdef class S3FileSystem(FileSystem):
         options.allow_bucket_creation = allow_bucket_creation
         options.allow_bucket_deletion = allow_bucket_deletion
 
+        if isinstance(retry_strategy, AwsStandardS3RetryStrategy):
+            options.retry_strategy = CS3RetryStrategy.GetAwsStandardRetryStrategy(
+                retry_strategy.max_attempts)
+        elif isinstance(retry_strategy, AwsDefaultS3RetryStrategy):
+            options.retry_strategy = CS3RetryStrategy.GetAwsDefaultRetryStrategy(
+                retry_strategy.max_attempts)
+        else:
+            raise ValueError(f'Invalid retry_strategy {retry_strategy!r}')
+
         with nogil:
             wrapped = GetResultValue(CS3FileSystem.Make(options))
 
diff --git a/python/pyarrow/_substrait.pyx b/python/pyarrow/_substrait.pyx
index 7f079fb717b..da061d8cd32 100644
--- a/python/pyarrow/_substrait.pyx
+++ b/python/pyarrow/_substrait.pyx
@@ -17,21 +17,105 @@
 
 # cython: language_level = 3
 from cython.operator cimport dereference as deref
+from libcpp.vector cimport vector as std_vector
 
-from pyarrow import Buffer
+from pyarrow import Buffer, py_buffer
+from pyarrow.lib import frombytes, tobytes
 from pyarrow.lib cimport *
 from pyarrow.includes.libarrow cimport *
 from pyarrow.includes.libarrow_substrait cimport *
 
 
-def run_query(plan):
+cdef CDeclaration _create_named_table_provider(dict named_args, const std_vector[c_string]& names):
+    cdef:
+        c_string c_name
+        shared_ptr[CTable] c_in_table
+        shared_ptr[CTableSourceNodeOptions] c_tablesourceopts
+        shared_ptr[CExecNodeOptions] c_input_node_opts
+        vector[CDeclaration.Input] no_c_inputs
+
+    py_names = []
+    for i in range(names.size()):
+        c_name = names[i]
+        py_names.append(frombytes(c_name))
+
+    py_table = named_args["provider"](py_names)
+    c_in_table = pyarrow_unwrap_table(py_table)
+    c_tablesourceopts = make_shared[CTableSourceNodeOptions](c_in_table)
+    c_input_node_opts = static_pointer_cast[CExecNodeOptions, CTableSourceNodeOptions](
+        c_tablesourceopts)
+    return CDeclaration(tobytes("table_source"),
+                        no_c_inputs, c_input_node_opts)
+
+
+def run_query(plan, *, table_provider=None, use_threads=True):
     """
     Execute a Substrait plan and read the results as a RecordBatchReader.
 
     Parameters
     ----------
-    plan : Buffer
+    plan : Union[Buffer, bytes]
         The serialized Substrait plan to execute.
+    table_provider : object (optional)
+        A function to resolve any NamedTable relation to a table.
+        The function will receive a single argument which will be a list
+        of strings representing the table name and should return a pyarrow.Table.
+    use_threads : bool, default True
+        If True then multiple threads will be used to run the query.  If False then
+        all CPU intensive work will be done on the calling thread.
+
+    Returns
+    -------
+    RecordBatchReader
+        A reader containing the result of the executed query
+
+    Examples
+    --------
+    >>> import pyarrow as pa
+    >>> from pyarrow.lib import tobytes
+    >>> import pyarrow.substrait as substrait
+    >>> test_table_1 = pa.Table.from_pydict({"x": [1, 2, 3]})
+    >>> test_table_2 = pa.Table.from_pydict({"x": [4, 5, 6]})
+    >>> def table_provider(names):
+    ...     if not names:
+    ...        raise Exception("No names provided")
+    ...     elif names[0] == "t1":
+    ...        return test_table_1
+    ...     elif names[1] == "t2":
+    ...        return test_table_2
+    ...     else:
+    ...        raise Exception("Unrecognized table name")
+    ... 
+    >>> substrait_query = '''
+    ...         {
+    ...             "relations": [
+    ...             {"rel": {
+    ...                 "read": {
+    ...                 "base_schema": {
+    ...                     "struct": {
+    ...                     "types": [
+    ...                                 {"i64": {}}
+    ...                             ]
+    ...                     },
+    ...                     "names": [
+    ...                             "x"
+    ...                             ]
+    ...                 },
+    ...                 "namedTable": {
+    ...                         "names": ["t1"]
+    ...                 }
+    ...                 }
+    ...             }}
+    ...             ]
+    ...         }
+    ... '''
+    >>> buf = pa._substrait._parse_json_plan(tobytes(substrait_query))
+    >>> reader = pa.substrait.run_query(buf, table_provider)
+    >>> reader.read_all()
+    pyarrow.Table
+    x: int64
+    ----
+    x: [[1,2,3]]
     """
 
     cdef:
@@ -40,10 +124,30 @@ def run_query(plan):
         RecordBatchReader reader
         c_string c_str_plan
         shared_ptr[CBuffer] c_buf_plan
+        function[CNamedTableProvider] c_named_table_provider
+        CConversionOptions c_conversion_options
+        c_bool c_use_threads
+
+    c_use_threads = use_threads
+    if isinstance(plan, bytes):
+        c_buf_plan = pyarrow_unwrap_buffer(py_buffer(plan))
+    elif isinstance(plan, Buffer):
+        c_buf_plan = pyarrow_unwrap_buffer(plan)
+    else:
+        raise TypeError(
+            f"Expected 'pyarrow.Buffer' or bytes, got '{type(plan)}'")
+
+    if table_provider is not None:
+        named_table_args = {
+            "provider": table_provider
+        }
+        c_conversion_options.named_table_provider = BindFunction[CNamedTableProvider](
+            &_create_named_table_provider, named_table_args)
 
-    c_buf_plan = pyarrow_unwrap_buffer(plan)
     with nogil:
-        c_res_reader = ExecuteSerializedPlan(deref(c_buf_plan))
+        c_res_reader = ExecuteSerializedPlan(
+            deref(c_buf_plan), default_extension_id_registry(),
+            GetFunctionRegistry(), c_conversion_options, c_use_threads)
 
     c_reader = GetResultValue(c_res_reader)
 
@@ -77,3 +181,27 @@ def _parse_json_plan(plan):
     with nogil:
         c_buf_plan = GetResultValue(c_res_buffer)
     return pyarrow_wrap_buffer(c_buf_plan)
+
+
+def get_supported_functions():
+    """
+    Get a list of Substrait functions that the underlying
+    engine currently supports.
+
+    Returns
+    -------
+    list[str]
+        A list of function ids encoded as '{uri}#{name}'
+    """
+
+    cdef:
+        ExtensionIdRegistry* c_id_registry
+        std_vector[c_string] c_ids
+
+    c_id_registry = default_extension_id_registry()
+    c_ids = c_id_registry.GetSupportedSubstraitFunctions()
+
+    functions_list = []
+    for c_id in c_ids:
+        functions_list.append(frombytes(c_id))
+    return functions_list
diff --git a/python/pyarrow/array.pxi b/python/pyarrow/array.pxi
index 7a4f0400616..b2dff656773 100644
--- a/python/pyarrow/array.pxi
+++ b/python/pyarrow/array.pxi
@@ -222,6 +222,11 @@ def array(object obj, type=None, mask=None, size=None, from_pandas=None,
 
     type = ensure_type(type, allow_none=True)
 
+    extension_type = None
+    if type is not None and type.id == _Type_EXTENSION:
+        extension_type = type
+        type = type.storage_type
+
     if from_pandas is None:
         c_from_pandas = False
     else:
@@ -261,21 +266,19 @@ def array(object obj, type=None, mask=None, size=None, from_pandas=None,
 
         if hasattr(values, '__arrow_array__'):
             return _handle_arrow_array_protocol(values, type, mask, size)
+        elif (pandas_api.is_categorical(values) and
+              type is not None and type.id != Type_DICTIONARY):
+            result = _ndarray_to_array(
+                np.asarray(values), mask, type, c_from_pandas, safe, pool
+            )
         elif pandas_api.is_categorical(values):
             if type is not None:
-                if type.id != Type_DICTIONARY:
-                    return _ndarray_to_array(
-                        np.asarray(values), mask, type, c_from_pandas, safe,
-                        pool)
                 index_type = type.index_type
                 value_type = type.value_type
                 if values.ordered != type.ordered:
-                    warnings.warn(
+                    raise ValueError(
                         "The 'ordered' flag of the passed categorical values "
-                        "does not match the 'ordered' of the specified type. "
-                        "Using the flag of the values, but in the future this "
-                        "mismatch will raise a ValueError.",
-                        FutureWarning, stacklevel=2)
+                        "does not match the 'ordered' of the specified type. ")
             else:
                 index_type = None
                 value_type = None
@@ -310,11 +313,15 @@ def array(object obj, type=None, mask=None, size=None, from_pandas=None,
             if pandas_api.have_pandas:
                 values, type = pandas_api.compat.get_datetimetz_type(
                     values, obj.dtype, type)
-            return _ndarray_to_array(values, mask, type, c_from_pandas, safe,
-                                     pool)
+            result = _ndarray_to_array(values, mask, type, c_from_pandas, safe,
+                                       pool)
     else:
         # ConvertPySequence does strict conversion if type is explicitly passed
-        return _sequence_to_array(obj, mask, size, type, pool, c_from_pandas)
+        result = _sequence_to_array(obj, mask, size, type, pool, c_from_pandas)
+
+    if extension_type is not None:
+        result = ExtensionArray.from_storage(extension_type, result)
+    return result
 
 
 def asarray(values, type=None):
@@ -695,11 +702,11 @@ cdef class _PandasConvertible(_Weakrefable):
         memory_pool : MemoryPool, default None
             Arrow MemoryPool to use for allocations. Uses the default memory
             pool is not passed.
-        strings_to_categorical : bool, default False
-            Encode string (UTF8) and binary types to pandas.Categorical.
         categories : list, default empty
             List of fields that should be returned as pandas.Categorical. Only
             applies to table-like data structures.
+        strings_to_categorical : bool, default False
+            Encode string (UTF8) and binary types to pandas.Categorical.
         zero_copy_only : bool, default False
             Raise an ArrowException if this function call would require copying
             the underlying data.
@@ -977,7 +984,7 @@ cdef class Array(_PandasConvertible):
 
         Parameters
         ----------
-        null_encoding
+        null_encoding : str, default "mask"
             How to handle null entries.
 
         Returns
@@ -1258,7 +1265,7 @@ cdef class Array(_PandasConvertible):
 
         Parameters
         ----------
-        fill_value
+        fill_value : any
             The replacement value for null entries.
 
         Returns
@@ -1356,7 +1363,7 @@ cdef class Array(_PandasConvertible):
         ----------
         mask : Array or array-like
             The boolean mask to filter the array with.
-        null_selection_behavior
+        null_selection_behavior : str, default "drop"
             How nulls in the mask should be handled.
 
         Returns
@@ -1392,6 +1399,29 @@ cdef class Array(_PandasConvertible):
         """
         return _pc().index(self, value, start, end, memory_pool=memory_pool)
 
+    def sort(self, order="ascending", **kwargs):
+        """
+        Sort the Array
+
+        Parameters
+        ----------
+        order : str, default "ascending"
+            Which order to sort values in.
+            Accepted values are "ascending", "descending".
+        **kwargs : dict, optional
+            Additional sorting options.
+            As allowed by :class:`SortOptions`
+
+        Returns
+        -------
+        result : Array
+        """
+        indices = _pc().sort_indices(
+            self,
+            options=_pc().SortOptions(sort_keys=[("", order)], **kwargs)
+        )
+        return self.take(indices)
+
     def _to_pandas(self, options, types_mapper=None, **kwargs):
         return _array_like_to_pandas(self, options, types_mapper=types_mapper)
 
@@ -1890,7 +1920,7 @@ cdef class ListArray(BaseListArray):
     """
 
     @staticmethod
-    def from_arrays(offsets, values, DataType type=None, MemoryPool pool=None):
+    def from_arrays(offsets, values, DataType type=None, MemoryPool pool=None, mask=None):
         """
         Construct ListArray from arrays of int32 offsets and values.
 
@@ -1901,7 +1931,9 @@ cdef class ListArray(BaseListArray):
         type : DataType, optional
             If not specified, a default ListType with the values' type is
             used.
-        pool : MemoryPool
+        pool : MemoryPool, optional
+        mask : Array (boolean type), optional
+            Indicate which values are null (True) or not null (False).
 
         Returns
         -------
@@ -1943,21 +1975,24 @@ cdef class ListArray(BaseListArray):
         cdef:
             Array _offsets, _values
             shared_ptr[CArray] out
+            shared_ptr[CBuffer] c_mask
         cdef CMemoryPool* cpool = maybe_unbox_memory_pool(pool)
 
         _offsets = asarray(offsets, type='int32')
         _values = asarray(values)
 
+        c_mask = c_mask_inverted_from_obj(mask, pool)
+
         if type is not None:
             with nogil:
                 out = GetResultValue(
                     CListArray.FromArraysAndType(
-                        type.sp_type, _offsets.ap[0], _values.ap[0], cpool))
+                        type.sp_type, _offsets.ap[0], _values.ap[0], cpool, c_mask))
         else:
             with nogil:
                 out = GetResultValue(
                     CListArray.FromArrays(
-                        _offsets.ap[0], _values.ap[0], cpool))
+                        _offsets.ap[0], _values.ap[0], cpool, c_mask))
         cdef Array result = pyarrow_wrap_array(out)
         result.validate()
         return result
@@ -2004,7 +2039,7 @@ cdef class LargeListArray(BaseListArray):
     """
 
     @staticmethod
-    def from_arrays(offsets, values, DataType type=None, MemoryPool pool=None):
+    def from_arrays(offsets, values, DataType type=None, MemoryPool pool=None, mask=None):
         """
         Construct LargeListArray from arrays of int64 offsets and values.
 
@@ -2015,7 +2050,9 @@ cdef class LargeListArray(BaseListArray):
         type : DataType, optional
             If not specified, a default ListType with the values' type is
             used.
-        pool : MemoryPool
+        pool : MemoryPool, optional
+        mask : Array (boolean type), optional
+            Indicate which values are null (True) or not null (False).
 
         Returns
         -------
@@ -2024,21 +2061,25 @@ cdef class LargeListArray(BaseListArray):
         cdef:
             Array _offsets, _values
             shared_ptr[CArray] out
+            shared_ptr[CBuffer] c_mask
+
         cdef CMemoryPool* cpool = maybe_unbox_memory_pool(pool)
 
         _offsets = asarray(offsets, type='int64')
         _values = asarray(values)
 
+        c_mask = c_mask_inverted_from_obj(mask, pool)
+
         if type is not None:
             with nogil:
                 out = GetResultValue(
                     CLargeListArray.FromArraysAndType(
-                        type.sp_type, _offsets.ap[0], _values.ap[0], cpool))
+                        type.sp_type, _offsets.ap[0], _values.ap[0], cpool, c_mask))
         else:
             with nogil:
                 out = GetResultValue(
                     CLargeListArray.FromArrays(
-                        _offsets.ap[0], _values.ap[0], cpool))
+                        _offsets.ap[0], _values.ap[0], cpool, c_mask))
         cdef Array result = pyarrow_wrap_array(out)
         result.validate()
         return result
@@ -2114,7 +2155,7 @@ cdef class MapArray(ListArray):
         return pyarrow_wrap_array((<CMapArray*> self.ap).items())
 
 
-cdef class FixedSizeListArray(Array):
+cdef class FixedSizeListArray(BaseListArray):
     """
     Concrete class for Arrow arrays of a fixed size list data type.
     """
@@ -2201,16 +2242,6 @@ cdef class FixedSizeListArray(Array):
 
     @property
     def values(self):
-        return self.flatten()
-
-    def flatten(self):
-        """
-        Unnest this FixedSizeListArray by one level.
-
-        Returns
-        -------
-        result : Array
-        """
         cdef CFixedSizeListArray* arr = <CFixedSizeListArray*> self.ap
         return pyarrow_wrap_array(arr.values())
 
@@ -2478,6 +2509,53 @@ cdef class DictionaryArray(Array):
 
         return self._indices
 
+    @staticmethod
+    def from_buffers(DataType type, int64_t length, buffers, Array dictionary,
+                     int64_t null_count=-1, int64_t offset=0):
+        """
+        Construct a DictionaryArray from buffers.
+
+        Parameters
+        ----------
+        type : pyarrow.DataType
+        length : int
+            The number of values in the array.
+        buffers : List[Buffer]
+            The buffers backing the indices array.
+        dictionary : pyarrow.Array, ndarray or pandas.Series
+            The array of values referenced by the indices.
+        null_count : int, default -1
+            The number of null entries in the indices array. Negative value means that
+            the null count is not known.
+        offset : int, default 0
+            The array's logical offset (in values, not in bytes) from the
+            start of each buffer.
+
+        Returns
+        -------
+        dict_array : DictionaryArray
+        """
+        cdef:
+            vector[shared_ptr[CBuffer]] c_buffers
+            shared_ptr[CDataType] c_type
+            shared_ptr[CArrayData] c_data
+            shared_ptr[CArray] c_result
+
+        for buf in buffers:
+            c_buffers.push_back(pyarrow_unwrap_buffer(buf))
+
+        c_type = pyarrow_unwrap_data_type(type)
+
+        with nogil:
+            c_data = CArrayData.Make(
+                c_type, length, c_buffers, null_count, offset)
+            c_data.get().dictionary = dictionary.sp_array.get().data()
+            c_result.reset(new CDictionaryArray(c_data))
+
+        cdef Array result = pyarrow_wrap_array(c_result)
+        result.validate()
+        return result
+
     @staticmethod
     def from_arrays(indices, dictionary, mask=None, bint ordered=False,
                     bint from_pandas=False, bint safe=True,
@@ -2494,11 +2572,11 @@ cdef class DictionaryArray(Array):
             The array of values referenced by the indices.
         mask : ndarray or pandas.Series, bool type
             True values indicate that indices are actually null.
+        ordered : bool, default False
+            Set to True if the category values are ordered.
         from_pandas : bool, default False
             If True, the indices should be treated as though they originated in
             a pandas.Categorical (null encoded as -1).
-        ordered : bool, default False
-            Set to True if the category values are ordered.
         safe : bool, default True
             If True, check that the dictionary indices are in range.
         memory_pool : MemoryPool, default None
@@ -2586,6 +2664,39 @@ cdef class StructArray(Array):
 
         return pyarrow_wrap_array(child)
 
+    def _flattened_field(self, index, MemoryPool memory_pool=None):
+        """
+        Retrieves the child array belonging to field,
+        accounting for the parent array null bitmap.
+
+        Parameters
+        ----------
+        index : Union[int, str]
+            Index / position or name of the field.
+        memory_pool : MemoryPool, default None
+            For memory allocations, if required, otherwise use default pool.
+
+        Returns
+        -------
+        result : Array
+        """
+        cdef:
+            CStructArray* arr = <CStructArray*> self.ap
+            shared_ptr[CArray] child
+            CMemoryPool* pool = maybe_unbox_memory_pool(memory_pool)
+
+        if isinstance(index, (bytes, str)):
+            int_index = self.type.get_field_index(index)
+            if int_index < 0:
+                raise KeyError(index)
+        elif isinstance(index, int):
+            int_index = _normalize_index(index, self.ap.num_fields())
+        else:
+            raise TypeError('Expected integer or string index')
+
+        child = GetResultValue(arr.GetFlattenedField(int_index, pool))
+        return pyarrow_wrap_array(child)
+
     def flatten(self, MemoryPool memory_pool=None):
         """
         Return one individual array for each field in the struct.
@@ -2652,17 +2763,7 @@ cdef class StructArray(Array):
         if names is not None and fields is not None:
             raise ValueError('Must pass either names or fields, not both')
 
-        if mask is None:
-            c_mask = shared_ptr[CBuffer]()
-        elif isinstance(mask, Array):
-            if mask.type.id != Type_BOOL:
-                raise ValueError('Mask must be a pyarrow.Array of type bool')
-            if mask.null_count != 0:
-                raise ValueError('Mask must not contain nulls')
-            inverted_mask = _pc().invert(mask, memory_pool=memory_pool)
-            c_mask = pyarrow_unwrap_buffer(inverted_mask.buffers()[1])
-        else:
-            raise ValueError('Mask must be a pyarrow.Array of type bool')
+        c_mask = c_mask_inverted_from_obj(mask, memory_pool)
 
         arrays = [asarray(x) for x in arrays]
         for arr in arrays:
@@ -2698,6 +2799,36 @@ cdef class StructArray(Array):
         result.validate()
         return result
 
+    def sort(self, order="ascending", by=None, **kwargs):
+        """
+        Sort the StructArray
+
+        Parameters
+        ----------
+        order : str, default "ascending"
+            Which order to sort values in.
+            Accepted values are "ascending", "descending".
+        by : str or None, default None
+            If to sort the array by one of its fields
+            or by the whole array.
+        **kwargs : dict, optional
+            Additional sorting options.
+            As allowed by :class:`SortOptions`
+
+        Returns
+        -------
+        result : StructArray
+        """
+        if by is not None:
+            tosort = self._flattened_field(by)
+        else:
+            tosort = self
+        indices = _pc().sort_indices(
+            tosort,
+            options=_pc().SortOptions(sort_keys=[("", order)], **kwargs)
+        )
+        return self.take(indices)
+
 
 cdef class ExtensionArray(Array):
     """
@@ -2812,6 +2943,25 @@ cdef dict _array_classes = {
 }
 
 
+cdef inline shared_ptr[CBuffer] c_mask_inverted_from_obj(object mask, MemoryPool pool) except *:
+    """
+    Convert mask array obj to c_mask while also inverting to signify 1 for valid and 0 for null
+    """
+    cdef shared_ptr[CBuffer] c_mask
+    if mask is None:
+        c_mask = shared_ptr[CBuffer]()
+    elif isinstance(mask, Array):
+        if mask.type.id != Type_BOOL:
+            raise TypeError('Mask must be a pyarrow.Array of type boolean')
+        if mask.null_count != 0:
+            raise ValueError('Mask must not contain nulls')
+        inverted_mask = _pc().invert(mask, memory_pool=pool)
+        c_mask = pyarrow_unwrap_buffer(inverted_mask.buffers()[1])
+    else:
+        raise TypeError('Mask must be a pyarrow.Array of type boolean')
+    return c_mask
+
+
 cdef object get_array_class_from_type(
         const shared_ptr[CDataType]& sp_data_type):
     cdef CDataType* data_type = sp_data_type.get()
diff --git a/python/pyarrow/compute.py b/python/pyarrow/compute.py
index 5873571c5a0..1ee6c40f423 100644
--- a/python/pyarrow/compute.py
+++ b/python/pyarrow/compute.py
@@ -41,6 +41,7 @@
     FilterOptions,
     IndexOptions,
     JoinOptions,
+    ListSliceOptions,
     MakeStructOptions,
     MapLookupOptions,
     MatchSubstringOptions,
@@ -373,6 +374,7 @@ def cast(arr, target_type=None, safe=None, options=None):
     Returns
     -------
     casted : Array
+        The cast result as a new Array
     """
     safe_vars_passed = (safe is not None) or (target_type is not None)
 
@@ -451,6 +453,7 @@ def take(data, indices, *, boundscheck=True, memory_pool=None):
     Returns
     -------
     result : depends on inputs
+        Selected values for the given indices
 
     Examples
     --------
@@ -489,6 +492,7 @@ def fill_null(values, fill_value):
     Returns
     -------
     result : depends on inputs
+        Values with all null elements replaced
 
     Examples
     --------
@@ -533,7 +537,8 @@ def top_k_unstable(values, k, sort_keys=None, *, memory_pool=None):
 
     Returns
     -------
-    result : Array of indices
+    result : Array
+        Indices of the top-k ordered elements
 
     Examples
     --------
@@ -580,6 +585,7 @@ def bottom_k_unstable(values, k, sort_keys=None, *, memory_pool=None):
     Returns
     -------
     result : Array of indices
+        Indices of the bottom-k ordered elements
 
     Examples
     --------
@@ -649,6 +655,7 @@ def field(*name_or_index):
     Returns
     -------
     field_expr : Expression
+        Reference to the given field
 
     Examples
     --------
@@ -690,5 +697,6 @@ def scalar(value):
     Returns
     -------
     scalar_expr : Expression
+        An Expression representing the scalar value
     """
     return Expression._scalar(value)
diff --git a/python/pyarrow/dataset.py b/python/pyarrow/dataset.py
index 326b37ec6e1..de9469de445 100644
--- a/python/pyarrow/dataset.py
+++ b/python/pyarrow/dataset.py
@@ -26,6 +26,7 @@
     Dataset,
     DatasetFactory,
     DirectoryPartitioning,
+    FeatherFileFormat,
     FilenamePartitioning,
     FileFormat,
     FileFragment,
@@ -150,6 +151,7 @@ def partitioning(schema=None, field_names=None, flavor=None,
     Returns
     -------
     Partitioning or PartitioningFactory
+        The partioning scheme
 
     Examples
     --------
@@ -284,8 +286,10 @@ def _ensure_format(obj):
         if not _parquet_available:
             raise ValueError(_parquet_msg)
         return ParquetFileFormat()
-    elif obj in {"ipc", "arrow", "feather"}:
+    elif obj in {"ipc", "arrow"}:
         return IpcFileFormat()
+    elif obj == "feather":
+        return FeatherFileFormat()
     elif obj == "csv":
         return CsvFileFormat()
     elif obj == "orc":
@@ -469,6 +473,14 @@ def _union_dataset(children, schema=None, **kwargs):
         # unify the children datasets' schemas
         schema = pa.unify_schemas([child.schema for child in children])
 
+    for child in children:
+        if getattr(child, "_scan_options", None):
+            raise ValueError(
+                "Creating an UnionDataset from filtered or projected Datasets "
+                "is currently not supported. Union the unfiltered datasets "
+                "and apply the filter to the resulting union."
+            )
+
     # create datasets with the requested schema
     children = [child.replace_schema(schema) for child in children]
 
@@ -513,6 +525,7 @@ def parquet_dataset(metadata_path, schema=None, filesystem=None, format=None,
     Returns
     -------
     FileSystemDataset
+        The dataset corresponding to the given metadata
     """
     from pyarrow.fs import LocalFileSystem, _ensure_filesystem
 
diff --git a/python/pyarrow/error.pxi b/python/pyarrow/error.pxi
index e1110b676c7..01d2b5f4eac 100644
--- a/python/pyarrow/error.pxi
+++ b/python/pyarrow/error.pxi
@@ -193,10 +193,18 @@ cdef class SignalStopHandler:
             _break_traceback_cycle_from_frame(sys._getframe(0))
 
         self._stop_token = StopToken()
+
         if not self._signals.empty():
-            self._stop_token.init(GetResultValue(
-                SetSignalStopSource()).token())
-            self._enabled = True
+            maybe_source = SetSignalStopSource()
+            if not maybe_source.ok():
+                # See ARROW-11841 / ARROW-17173: in complex interaction
+                # scenarios (such as R calling into Python), SetSignalStopSource()
+                # may have already activated a signal-receiving StopSource.
+                # Just warn instead of erroring out.
+                maybe_source.status().Warn()
+            else:
+                self._stop_token.init(deref(maybe_source).token())
+                self._enabled = True
 
     def _init_signals(self):
         if (signal_handlers_enabled and
diff --git a/python/pyarrow/feather.py b/python/pyarrow/feather.py
index 8fe0126ee23..fbd06025970 100644
--- a/python/pyarrow/feather.py
+++ b/python/pyarrow/feather.py
@@ -24,12 +24,6 @@
 import pyarrow.lib as ext
 from pyarrow import _feather
 from pyarrow._feather import FeatherError  # noqa: F401
-from pyarrow.vendored.version import Version
-
-
-def _check_pandas_version():
-    if _pandas_api.loose_version < Version('0.17.0'):
-        raise ImportError("feather requires pandas >= 0.17.0")
 
 
 class FeatherDataset:
@@ -96,7 +90,6 @@ def read_pandas(self, columns=None, use_threads=True):
         pandas.DataFrame
             Content of the file as a pandas DataFrame (of columns)
         """
-        _check_pandas_version()
         return self.read_table(columns=columns).to_pandas(
             use_threads=use_threads)
 
@@ -145,7 +138,6 @@ def write_feather(df, dest, compression=None, compression_level=None,
         limited legacy format
     """
     if _pandas_api.have_pandas:
-        _check_pandas_version()
         if (_pandas_api.has_sparse and
                 isinstance(df, _pandas_api.pd.SparseDataFrame)):
             df = df.to_dense()
@@ -204,7 +196,8 @@ def write_feather(df, dest, compression=None, compression_level=None,
         raise
 
 
-def read_feather(source, columns=None, use_threads=True, memory_map=False):
+def read_feather(source, columns=None, use_threads=True,
+                 memory_map=False, **kwargs):
     """
     Read a pandas.DataFrame from Feather format. To read as pyarrow.Table use
     feather.read_table.
@@ -222,15 +215,17 @@ def read_feather(source, columns=None, use_threads=True, memory_map=False):
         reading from Feather format.
     memory_map : boolean, default False
         Use memory mapping when opening file on disk, when source is a str.
+    **kwargs
+        Additional keyword arguments passed on to `pyarrow.Table.to_pandas`.
 
     Returns
     -------
     df : pandas.DataFrame
+        The contents of the Feather file as a pandas.DataFrame
     """
-    _check_pandas_version()
     return (read_table(
         source, columns=columns, memory_map=memory_map,
-        use_threads=use_threads).to_pandas(use_threads=use_threads))
+        use_threads=use_threads).to_pandas(use_threads=use_threads, **kwargs))
 
 
 def read_table(source, columns=None, memory_map=False, use_threads=True):
@@ -252,6 +247,7 @@ def read_table(source, columns=None, memory_map=False, use_threads=True):
     Returns
     -------
     table : pyarrow.Table
+        The contents of the Feather file as a pyarrow.Table
     """
     reader = _feather.FeatherReader(
         source, use_memory_map=memory_map, use_threads=use_threads)
diff --git a/python/pyarrow/flight.py b/python/pyarrow/flight.py
index 0664ff2c992..8f9fa6fa7c9 100644
--- a/python/pyarrow/flight.py
+++ b/python/pyarrow/flight.py
@@ -60,4 +60,5 @@
     ServerMiddleware,
     ServerMiddlewareFactory,
     Ticket,
+    TracingServerMiddlewareFactory,
 )
diff --git a/python/pyarrow/fs.py b/python/pyarrow/fs.py
index b2db818a9ab..21db243528c 100644
--- a/python/pyarrow/fs.py
+++ b/python/pyarrow/fs.py
@@ -52,8 +52,9 @@
 
 try:
     from pyarrow._s3fs import (  # noqa
-        S3FileSystem, S3LogLevel, initialize_s3, finalize_s3,
-        resolve_s3_region)
+        AwsDefaultS3RetryStrategy, AwsStandardS3RetryStrategy,
+        S3FileSystem, S3LogLevel, S3RetryStrategy, finalize_s3,
+        initialize_s3, resolve_s3_region)
 except ImportError:
     _not_imported.append("S3FileSystem")
 else:
@@ -134,7 +135,7 @@ def _ensure_filesystem(
 
 
 def _resolve_filesystem_and_path(
-    path, filesystem=None, allow_legacy_filesystem=False
+    path, filesystem=None, allow_legacy_filesystem=False, memory_map=False
 ):
     """
     Return filesystem/path from path which could be an URI or a plain
@@ -150,7 +151,8 @@ def _resolve_filesystem_and_path(
 
     if filesystem is not None:
         filesystem = _ensure_filesystem(
-            filesystem, allow_legacy_filesystem=allow_legacy_filesystem
+            filesystem, use_mmap=memory_map,
+            allow_legacy_filesystem=allow_legacy_filesystem
         )
         if isinstance(filesystem, LocalFileSystem):
             path = _stringify_path(path)
@@ -168,7 +170,8 @@ def _resolve_filesystem_and_path(
     # if filesystem is not given, try to automatically determine one
     # first check if the file exists as a local (relative) file path
     # if not then try to parse the path as an URI
-    filesystem = LocalFileSystem()
+    filesystem = LocalFileSystem(use_mmap=memory_map)
+
     try:
         file_info = filesystem.get_file_info(path)
     except ValueError:  # ValueError means path is likely an URI
@@ -186,7 +189,8 @@ def _resolve_filesystem_and_path(
             # neither an URI nor a locally existing path, so assume that
             # local path was given and propagate a nicer file not found error
             # instead of a more confusing scheme parsing error
-            if "empty scheme" not in str(e):
+            if "empty scheme" not in str(e) \
+                    and "Cannot parse URI" not in str(e):
                 raise
     else:
         path = filesystem.normalize_path(path)
@@ -277,7 +281,7 @@ class FSSpecHandler(FileSystemHandler):
 
     Parameters
     ----------
-    fs : FSSpec-compliant filesystem instance.
+    fs : FSSpec-compliant filesystem instance
 
     Examples
     --------
diff --git a/python/pyarrow/includes/common.pxd b/python/pyarrow/includes/common.pxd
index 07a75d4a081..1c7dd448bc9 100644
--- a/python/pyarrow/includes/common.pxd
+++ b/python/pyarrow/includes/common.pxd
@@ -35,6 +35,15 @@ cimport cpython
 cdef extern from * namespace "std" nogil:
     cdef shared_ptr[T] static_pointer_cast[T, U](shared_ptr[U])
 
+
+cdef extern from "<optional>" namespace "std" nogil:
+    cdef cppclass optional[T]:
+        c_bool has_value()
+        T value()
+        optional(T&)
+        optional& operator=[U](U&)
+
+
 # vendored from the cymove project https://github.com/ozars/cymove
 cdef extern from * namespace "cymove" nogil:
     """
@@ -112,6 +121,8 @@ cdef extern from "arrow/api.h" namespace "arrow" nogil:
         c_bool IsSerializationError()
         c_bool IsCancelled()
 
+        void Warn()
+
     cdef cppclass CStatusDetail "arrow::StatusDetail":
         c_string ToString()
 
diff --git a/python/pyarrow/includes/libarrow.pxd b/python/pyarrow/includes/libarrow.pxd
index a9b0a4bc71a..df6a883afe9 100644
--- a/python/pyarrow/includes/libarrow.pxd
+++ b/python/pyarrow/includes/libarrow.pxd
@@ -54,13 +54,6 @@ cdef extern from "arrow/util/decimal.h" namespace "arrow" nogil:
     cdef cppclass CDecimal256" arrow::Decimal256":
         c_string ToString(int32_t scale) const
 
-cdef extern from "arrow/util/optional.h" namespace "arrow::util" nogil:
-    cdef cppclass c_optional"arrow::util::optional"[T]:
-        c_bool has_value()
-        T value()
-        c_optional(T&)
-        c_optional& operator=[U](U&)
-
 
 cdef extern from "arrow/config.h" namespace "arrow" nogil:
     cdef cppclass CBuildInfo" arrow::BuildInfo":
@@ -160,8 +153,8 @@ cdef extern from "arrow/api.h" namespace "arrow" nogil:
     cdef cppclass CDataType" arrow::DataType":
         Type id()
 
-        c_bool Equals(const CDataType& other)
-        c_bool Equals(const shared_ptr[CDataType]& other)
+        c_bool Equals(const CDataType& other, c_bool check_metadata)
+        c_bool Equals(const shared_ptr[CDataType]& other, c_bool check_metadata)
 
         shared_ptr[CField] field(int i)
         const vector[shared_ptr[CField]] fields()
@@ -250,6 +243,7 @@ cdef extern from "arrow/api.h" namespace "arrow" nogil:
         CDictionaryArray(const shared_ptr[CDataType]& type,
                          const shared_ptr[CArray]& indices,
                          const shared_ptr[CArray]& dictionary)
+        CDictionaryArray(const shared_ptr[CArrayData]& data)
 
         @staticmethod
         CResult[shared_ptr[CArray]] FromArrays(
@@ -440,6 +434,9 @@ cdef extern from "arrow/api.h" namespace "arrow" nogil:
         CFieldRef(c_string name)
         CFieldRef(int index)
         CFieldRef(vector[CFieldRef])
+
+        @staticmethod
+        CResult[CFieldRef] FromDotPath(c_string& dot_path)
         const c_string* name() const
 
     cdef cppclass CFieldRefHash" arrow::FieldRef::Hash":
@@ -605,12 +602,20 @@ cdef extern from "arrow/api.h" namespace "arrow" nogil:
     cdef cppclass CListArray" arrow::ListArray"(CArray):
         @staticmethod
         CResult[shared_ptr[CArray]] FromArrays(
-            const CArray& offsets, const CArray& values, CMemoryPool* pool)
+            const CArray& offsets,
+            const CArray& values,
+            CMemoryPool* pool,
+            shared_ptr[CBuffer] null_bitmap,
+        )
 
         @staticmethod
         CResult[shared_ptr[CArray]] FromArraysAndType" FromArrays"(
-            shared_ptr[CDataType], const CArray& offsets, const CArray& values,
-            CMemoryPool* pool)
+            shared_ptr[CDataType],
+            const CArray& offsets,
+            const CArray& values,
+            CMemoryPool* pool,
+            shared_ptr[CBuffer] null_bitmap,
+        )
 
         const int32_t* raw_value_offsets()
         int32_t value_offset(int i)
@@ -622,12 +627,20 @@ cdef extern from "arrow/api.h" namespace "arrow" nogil:
     cdef cppclass CLargeListArray" arrow::LargeListArray"(CArray):
         @staticmethod
         CResult[shared_ptr[CArray]] FromArrays(
-            const CArray& offsets, const CArray& values, CMemoryPool* pool)
+            const CArray& offsets,
+            const CArray& values,
+            CMemoryPool* pool,
+            shared_ptr[CBuffer] null_bitmap
+        )
 
         @staticmethod
         CResult[shared_ptr[CArray]] FromArraysAndType" FromArrays"(
-            shared_ptr[CDataType], const CArray& offsets, const CArray& values,
-            CMemoryPool* pool)
+            shared_ptr[CDataType],
+            const CArray& offsets,
+            const CArray& values,
+            CMemoryPool* pool,
+            shared_ptr[CBuffer] null_bitmap
+        )
 
         int64_t value_offset(int i)
         int64_t value_length(int i)
@@ -753,6 +766,7 @@ cdef extern from "arrow/api.h" namespace "arrow" nogil:
 
         shared_ptr[CArray] field(int pos)
         shared_ptr[CArray] GetFieldByName(const c_string& name) const
+        CResult[shared_ptr[CArray]] GetFlattenedField(int index, CMemoryPool* pool) const
 
         CResult[vector[shared_ptr[CArray]]] Flatten(CMemoryPool* pool)
 
@@ -760,6 +774,10 @@ cdef extern from "arrow/api.h" namespace "arrow" nogil:
         CChunkedArray(const vector[shared_ptr[CArray]]& arrays)
         CChunkedArray(const vector[shared_ptr[CArray]]& arrays,
                       const shared_ptr[CDataType]& type)
+
+        @staticmethod
+        CResult[shared_ptr[CChunkedArray]] Make(vector[shared_ptr[CArray]] chunks,
+                                                shared_ptr[CDataType] type)
         int64_t length()
         int64_t null_count()
         int num_chunks()
@@ -806,6 +824,11 @@ cdef extern from "arrow/api.h" namespace "arrow" nogil:
         shared_ptr[CRecordBatch] Slice(int64_t offset)
         shared_ptr[CRecordBatch] Slice(int64_t offset, int64_t length)
 
+    cdef cppclass CRecordBatchWithMetadata" arrow::RecordBatchWithMetadata":
+        shared_ptr[CRecordBatch] batch
+        # The struct in C++ does not actually have these two `const` qualifiers, but adding `const` gets Cython to not complain
+        const shared_ptr[const CKeyValueMetadata] custom_metadata
+
     cdef cppclass CTable" arrow::Table":
         CTable(const shared_ptr[CSchema]& schema,
                const vector[shared_ptr[CChunkedArray]]& columns)
@@ -870,6 +893,7 @@ cdef extern from "arrow/api.h" namespace "arrow" nogil:
     cdef cppclass CRecordBatchReader" arrow::RecordBatchReader":
         shared_ptr[CSchema] schema()
         CStatus Close()
+        CResult[CRecordBatchWithMetadata] ReadNext()
         CStatus ReadNext(shared_ptr[CRecordBatch]* batch)
         CResult[shared_ptr[CTable]] ToTable()
 
@@ -1208,6 +1232,9 @@ cdef extern from "arrow/builder.h" namespace "arrow" nogil:
 ctypedef void CallbackTransform(object, const shared_ptr[CBuffer]& src,
                                 shared_ptr[CBuffer]* dest)
 
+ctypedef CResult[shared_ptr[CInputStream]] StreamWrapFunc(
+    shared_ptr[CInputStream])
+
 
 cdef extern from "arrow/util/cancel.h" namespace "arrow" nogil:
     cdef cppclass CStopToken "arrow::StopToken":
@@ -1375,6 +1402,11 @@ cdef extern from "arrow/io/api.h" namespace "arrow::io" nogil:
         shared_ptr[CInputStream] wrapped, CTransformInputStreamVTable vtable,
         object method_arg)
 
+    shared_ptr[function[StreamWrapFunc]] MakeStreamTransformFunc \
+        "arrow::py::MakeStreamTransformFunc"(
+        CTransformInputStreamVTable vtable,
+        object method_arg)
+
     # ----------------------------------------------------------------------
     # HDFS
 
@@ -1499,6 +1531,9 @@ cdef extern from "arrow/ipc/api.h" namespace "arrow::ipc" nogil:
         c_bool emit_dictionary_deltas
         c_bool unify_dictionaries
 
+        CIpcWriteOptions()
+        CIpcWriteOptions(CIpcWriteOptions&&)
+
         @staticmethod
         CIpcWriteOptions Defaults()
 
@@ -1562,6 +1597,9 @@ cdef extern from "arrow/ipc/api.h" namespace "arrow::ipc" nogil:
     cdef cppclass CRecordBatchWriter" arrow::ipc::RecordBatchWriter":
         CStatus Close()
         CStatus WriteRecordBatch(const CRecordBatch& batch)
+        CStatus WriteRecordBatch(
+            const CRecordBatch& batch,
+            const shared_ptr[const CKeyValueMetadata]& metadata)
         CStatus WriteTable(const CTable& table, int64_t max_chunksize)
 
         CIpcWriteStats stats()
@@ -1597,6 +1635,8 @@ cdef extern from "arrow/ipc/api.h" namespace "arrow::ipc" nogil:
 
         CResult[shared_ptr[CRecordBatch]] ReadRecordBatch(int i)
 
+        CResult[CRecordBatchWithMetadata] ReadRecordBatchWithCustomMetadata(int i)
+
         CIpcReadStats stats()
 
     CResult[shared_ptr[CRecordBatchWriter]] MakeStreamWriter(
@@ -1630,6 +1670,9 @@ cdef extern from "arrow/ipc/api.h" namespace "arrow::ipc" nogil:
     CResult[shared_ptr[CBuffer]] SerializeRecordBatch(
         const CRecordBatch& schema, const CIpcWriteOptions& options)
 
+    CResult[shared_ptr[CSchema]] ReadSchema(const CMessage& message,
+                                            CDictionaryMemo* dictionary_memo)
+
     CResult[shared_ptr[CSchema]] ReadSchema(CInputStream* stream,
                                             CDictionaryMemo* dictionary_memo)
 
@@ -1678,6 +1721,11 @@ cdef extern from "arrow/csv/api.h" namespace "arrow::csv" nogil:
 
 cdef extern from "arrow/csv/api.h" namespace "arrow::csv" nogil:
 
+    ctypedef enum CQuotingStyle "arrow::csv::QuotingStyle":
+        CQuotingStyle_Needed "arrow::csv::QuotingStyle::Needed"
+        CQuotingStyle_AllValid "arrow::csv::QuotingStyle::AllValid"
+        CQuotingStyle_None "arrow::csv::QuotingStyle::None"
+
     cdef cppclass CCSVParseOptions" arrow::csv::ParseOptions":
         unsigned char delimiter
         c_bool quoting
@@ -1742,6 +1790,7 @@ cdef extern from "arrow/csv/api.h" namespace "arrow::csv" nogil:
         c_bool include_header
         int32_t batch_size
         unsigned char delimiter
+        CQuotingStyle quoting_style
         CIOContext io_context
 
         CCSVWriteOptions()
@@ -2053,6 +2102,16 @@ cdef extern from "arrow/compute/api.h" namespace "arrow::compute" nogil:
         int64_t stop
         int64_t step
 
+    cdef cppclass CListSliceOptions \
+            "arrow::compute::ListSliceOptions"(CFunctionOptions):
+        CListSliceOptions(int64_t start, optional[int64_t] stop,
+                          int64_t step,
+                          optional[c_bool] return_fixed_size_list)
+        int64_t start
+        optional[int64_t] stop
+        int64_t step
+        optional[c_bool] return_fixed_size_list
+
     cdef cppclass CSplitOptions \
             "arrow::compute::SplitOptions"(CFunctionOptions):
         CSplitOptions(int64_t max_splits, c_bool reverse)
@@ -2256,7 +2315,9 @@ cdef extern from "arrow/compute/api.h" namespace "arrow::compute" nogil:
     cdef cppclass CStructFieldOptions \
             "arrow::compute::StructFieldOptions"(CFunctionOptions):
         CStructFieldOptions(vector[int] indices)
+        CStructFieldOptions(CFieldRef field_ref)
         vector[int] indices
+        CFieldRef field_ref
 
     ctypedef enum CSortOrder" arrow::compute::SortOrder":
         CSortOrder_Ascending \
@@ -2461,6 +2522,7 @@ cdef extern from "arrow/compute/exec/expression.h" \
         c_bool Equals(const CExpression& other) const
         c_string ToString() const
         CResult[CExpression] Bind(const CSchema&)
+        const CFieldRef* field_ref() const
 
     cdef CExpression CMakeScalarExpression \
         "arrow::compute::literal"(shared_ptr[CScalar] value)
@@ -2504,6 +2566,9 @@ cdef extern from "arrow/compute/exec/options.h" namespace "arrow::compute" nogil
     cdef cppclass CExecNodeOptions "arrow::compute::ExecNodeOptions":
         pass
 
+    cdef cppclass CSourceNodeOptions "arrow::compute::SourceNodeOptions"(CExecNodeOptions):
+        pass
+
     cdef cppclass CTableSourceNodeOptions "arrow::compute::TableSourceNodeOptions"(CExecNodeOptions):
         CTableSourceNodeOptions(shared_ptr[CTable] table, int64_t max_batch_size)
 
@@ -2511,13 +2576,17 @@ cdef extern from "arrow/compute/exec/options.h" namespace "arrow::compute" nogil
         pass
 
     cdef cppclass CFilterNodeOptions "arrow::compute::FilterNodeOptions"(CExecNodeOptions):
-        CFilterNodeOptions(CExpression, c_bool async_mode)
+        CFilterNodeOptions(CExpression)
 
     cdef cppclass CProjectNodeOptions "arrow::compute::ProjectNodeOptions"(CExecNodeOptions):
         CProjectNodeOptions(vector[CExpression] expressions)
         CProjectNodeOptions(vector[CExpression] expressions,
                             vector[c_string] names)
 
+    cdef cppclass COrderBySinkNodeOptions "arrow::compute::OrderBySinkNodeOptions"(CExecNodeOptions):
+        COrderBySinkNodeOptions(vector[CSortOptions] options,
+                                CAsyncExecBatchGenerator generator)
+
     cdef cppclass CHashJoinNodeOptions "arrow::compute::HashJoinNodeOptions"(CExecNodeOptions):
         CHashJoinNodeOptions(CJoinType, vector[CFieldRef] in_left_keys,
                              vector[CFieldRef] in_right_keys)
@@ -2545,6 +2614,7 @@ cdef extern from "arrow/compute/exec/exec_plan.h" namespace "arrow::compute" nog
         c_string label
         vector[Input] inputs
 
+        CDeclaration()
         CDeclaration(c_string factory_name, CExecNodeOptions options)
         CDeclaration(c_string factory_name, vector[Input] inputs, shared_ptr[CExecNodeOptions] options)
 
diff --git a/python/pyarrow/includes/libarrow_dataset.pxd b/python/pyarrow/includes/libarrow_dataset.pxd
index bd8fbd1b56a..b75eafcdeea 100644
--- a/python/pyarrow/includes/libarrow_dataset.pxd
+++ b/python/pyarrow/includes/libarrow_dataset.pxd
@@ -54,6 +54,7 @@ cdef extern from "arrow/dataset/api.h" namespace "arrow::dataset" nogil:
         shared_ptr[CSchema] dataset_schema
         shared_ptr[CSchema] projected_schema
         c_bool use_threads
+        CExpression filter
 
     cdef cppclass CScanNodeOptions "arrow::dataset::ScanNodeOptions"(CExecNodeOptions):
         CScanNodeOptions(shared_ptr[CDataset] dataset, shared_ptr[CScanOptions] scan_options)
@@ -122,8 +123,11 @@ cdef extern from "arrow/dataset/api.h" namespace "arrow::dataset" nogil:
         CStatus UseThreads(c_bool use_threads)
         CStatus Pool(CMemoryPool* pool)
         CStatus BatchSize(int64_t batch_size)
+        CStatus BatchReadahead(int32_t batch_readahead)
+        CStatus FragmentReadahead(int32_t fragment_readahead)
         CStatus FragmentScanOptions(
             shared_ptr[CFragmentScanOptions] fragment_scan_options)
+        CResult[shared_ptr[CScanOptions]] GetScanOptions()
         CResult[shared_ptr[CScanner]] Finish()
         shared_ptr[CSchema] schema() const
 
@@ -254,7 +258,7 @@ cdef extern from "arrow/dataset/api.h" namespace "arrow::dataset" nogil:
 
     cdef cppclass CIpcFileWriteOptions \
             "arrow::dataset::IpcFileWriteOptions"(CFileWriteOptions):
-        pass
+        shared_ptr[CIpcWriteOptions] options
 
     cdef cppclass CIpcFileFormat "arrow::dataset::IpcFileFormat"(
             CFileFormat):
@@ -277,6 +281,7 @@ cdef extern from "arrow/dataset/api.h" namespace "arrow::dataset" nogil:
             "arrow::dataset::CsvFragmentScanOptions"(CFragmentScanOptions):
         CCSVConvertOptions convert_options
         CCSVReadOptions read_options
+        function[StreamWrapFunc] stream_transform_func
 
     cdef cppclass CPartitioning "arrow::dataset::Partitioning":
         c_string type_name() const
diff --git a/python/pyarrow/includes/libarrow_flight.pxd b/python/pyarrow/includes/libarrow_flight.pxd
index 3698292b5a0..3301c1b6360 100644
--- a/python/pyarrow/includes/libarrow_flight.pxd
+++ b/python/pyarrow/includes/libarrow_flight.pxd
@@ -22,21 +22,36 @@ from pyarrow.includes.libarrow cimport *
 
 
 cdef extern from "arrow/flight/api.h" namespace "arrow" nogil:
-    cdef char* CPyServerMiddlewareName\
-        " arrow::py::flight::kPyServerMiddlewareName"
+    cdef char* CTracingServerMiddlewareName\
+        " arrow::flight::TracingServerMiddleware::kMiddlewareName"
 
     cdef cppclass CActionType" arrow::flight::ActionType":
         c_string type
         c_string description
+        bint operator==(CActionType)
+        CResult[c_string] SerializeToString()
+
+        @staticmethod
+        CResult[CActionType] Deserialize(const c_string& serialized)
 
     cdef cppclass CAction" arrow::flight::Action":
         c_string type
         shared_ptr[CBuffer] body
+        bint operator==(CAction)
+        CResult[c_string] SerializeToString()
+
+        @staticmethod
+        CResult[CAction] Deserialize(const c_string& serialized)
 
     cdef cppclass CFlightResult" arrow::flight::Result":
         CFlightResult()
         CFlightResult(CFlightResult)
         shared_ptr[CBuffer] body
+        bint operator==(CFlightResult)
+        CResult[c_string] SerializeToString()
+
+        @staticmethod
+        CResult[CFlightResult] Deserialize(const c_string& serialized)
 
     cdef cppclass CBasicAuth" arrow::flight::BasicAuth":
         CBasicAuth()
@@ -44,7 +59,7 @@ cdef extern from "arrow/flight/api.h" namespace "arrow" nogil:
         CBasicAuth(CBasicAuth)
         c_string username
         c_string password
-
+        bint operator==(CBasicAuth)
         CResult[c_string] SerializeToString()
 
         @staticmethod
@@ -68,11 +83,11 @@ cdef extern from "arrow/flight/api.h" namespace "arrow" nogil:
         CDescriptorType type
         c_string cmd
         vector[c_string] path
+        bint operator==(CFlightDescriptor)
         CResult[c_string] SerializeToString()
 
         @staticmethod
         CResult[CFlightDescriptor] Deserialize(const c_string& serialized)
-        bint operator==(CFlightDescriptor)
 
     cdef cppclass CTicket" arrow::flight::Ticket":
         CTicket()
@@ -86,6 +101,11 @@ cdef extern from "arrow/flight/api.h" namespace "arrow" nogil:
     cdef cppclass CCriteria" arrow::flight::Criteria":
         CCriteria()
         c_string expression
+        bint operator==(CCriteria)
+        CResult[c_string] SerializeToString()
+
+        @staticmethod
+        CResult[CCriteria] Deserialize(const c_string& serialized)
 
     cdef cppclass CLocation" arrow::flight::Location":
         CLocation()
@@ -111,6 +131,10 @@ cdef extern from "arrow/flight/api.h" namespace "arrow" nogil:
         vector[CLocation] locations
 
         bint operator==(CFlightEndpoint)
+        CResult[c_string] SerializeToString()
+
+        @staticmethod
+        CResult[CFlightEndpoint] Deserialize(const c_string& serialized)
 
     cdef cppclass CFlightInfo" arrow::flight::FlightInfo":
         CFlightInfo(CFlightInfo info)
@@ -126,8 +150,14 @@ cdef extern from "arrow/flight/api.h" namespace "arrow" nogil:
             const c_string& serialized)
 
     cdef cppclass CSchemaResult" arrow::flight::SchemaResult":
+        CSchemaResult()
         CSchemaResult(CSchemaResult result)
         CResult[shared_ptr[CSchema]] GetSchema(CDictionaryMemo* memo)
+        bint operator==(CSchemaResult)
+        CResult[c_string] SerializeToString()
+
+        @staticmethod
+        CResult[CSchemaResult] Deserialize(const c_string& serialized)
 
     cdef cppclass CFlightListing" arrow::flight::FlightListing":
         CResult[unique_ptr[CFlightInfo]] Next()
@@ -292,6 +322,20 @@ cdef extern from "arrow/flight/api.h" namespace "arrow" nogil:
             " arrow::flight::ClientMiddlewareFactory":
         pass
 
+    cpdef cppclass CTracingServerMiddlewareTraceKey\
+            " arrow::flight::TracingServerMiddleware::TraceKey":
+        CTracingServerMiddlewareTraceKey()
+        c_string key
+        c_string value
+
+    cdef cppclass CTracingServerMiddleware\
+            " arrow::flight::TracingServerMiddleware"(CServerMiddleware):
+        vector[CTracingServerMiddlewareTraceKey] GetTraceContext()
+
+    cdef shared_ptr[CServerMiddlewareFactory] \
+        MakeTracingServerMiddlewareFactory\
+        " arrow::flight::MakeTracingServerMiddlewareFactory"()
+
     cdef cppclass CFlightServerOptions" arrow::flight::FlightServerOptions":
         CFlightServerOptions(const CLocation& location)
         CLocation location
@@ -442,6 +486,9 @@ ctypedef CStatus cb_client_middleware_start_call(
     unique_ptr[CClientMiddleware]*)
 
 cdef extern from "arrow/python/flight.h" namespace "arrow::py::flight" nogil:
+    cdef char* CPyServerMiddlewareName\
+        " arrow::py::flight::kPyServerMiddlewareName"
+
     cdef cppclass PyFlightServerVtable:
         PyFlightServerVtable()
         function[cb_list_flights] list_flights
@@ -547,8 +594,8 @@ cdef extern from "arrow/python/flight.h" namespace "arrow::py::flight" nogil:
         unique_ptr[CSchemaResult]* out)
 
 
-cdef extern from "arrow/util/variant.h" namespace "arrow" nogil:
-    cdef cppclass CIntStringVariant" arrow::util::Variant<int, std::string>":
+cdef extern from "<variant>" namespace "std" nogil:
+    cdef cppclass CIntStringVariant" std::variant<int, std::string>":
         CIntStringVariant()
         CIntStringVariant(int)
         CIntStringVariant(c_string)
diff --git a/python/pyarrow/includes/libarrow_fs.pxd b/python/pyarrow/includes/libarrow_fs.pxd
index 69d5dc0ebe5..bf22ead83ec 100644
--- a/python/pyarrow/includes/libarrow_fs.pxd
+++ b/python/pyarrow/includes/libarrow_fs.pxd
@@ -150,6 +150,13 @@ cdef extern from "arrow/filesystem/api.h" namespace "arrow::fs" nogil:
         CS3CredentialsKind_WebIdentity \
             "arrow::fs::S3CredentialsKind::WebIdentity"
 
+    cdef cppclass CS3RetryStrategy "arrow::fs::S3RetryStrategy":
+        @staticmethod
+        shared_ptr[CS3RetryStrategy] GetAwsDefaultRetryStrategy(int64_t max_attempts)
+
+        @staticmethod
+        shared_ptr[CS3RetryStrategy] GetAwsStandardRetryStrategy(int64_t max_attempts)
+
     cdef cppclass CS3Options "arrow::fs::S3Options":
         c_string region
         double connect_timeout
@@ -166,6 +173,7 @@ cdef extern from "arrow/filesystem/api.h" namespace "arrow::fs" nogil:
         int load_frequency
         CS3ProxyOptions proxy_options
         CS3CredentialsKind credentials_kind
+        shared_ptr[CS3RetryStrategy] retry_strategy
         void ConfigureDefaultCredentials()
         void ConfigureAccessKey(const c_string& access_key,
                                 const c_string& secret_key,
@@ -215,7 +223,7 @@ cdef extern from "arrow/filesystem/api.h" namespace "arrow::fs" nogil:
         c_string endpoint_override
         c_string scheme
         c_string default_bucket_location
-        c_optional[double] retry_limit_seconds
+        optional[double] retry_limit_seconds
         shared_ptr[const CKeyValueMetadata] default_metadata
         c_bool Equals(const CS3Options& other)
 
diff --git a/python/pyarrow/includes/libarrow_substrait.pxd b/python/pyarrow/includes/libarrow_substrait.pxd
index 2e1a17b06bd..b3ad00516d8 100644
--- a/python/pyarrow/includes/libarrow_substrait.pxd
+++ b/python/pyarrow/includes/libarrow_substrait.pxd
@@ -17,10 +17,41 @@
 
 # distutils: language = c++
 
+from libcpp.vector cimport vector as std_vector
+
 from pyarrow.includes.common cimport *
 from pyarrow.includes.libarrow cimport *
 
+ctypedef CResult[CDeclaration] CNamedTableProvider(const std_vector[c_string]&)
+
+cdef extern from "arrow/engine/substrait/options.h" namespace "arrow::engine" nogil:
+    cdef enum ConversionStrictness \
+            "arrow::engine::ConversionStrictness":
+        EXACT_ROUNDTRIP \
+            "arrow::engine::ConversionStrictness::EXACT_ROUNDTRIP"
+        PRESERVE_STRUCTURE \
+            "arrow::engine::ConversionStrictness::PRESERVE_STRUCTURE"
+        BEST_EFFORT \
+            "arrow::engine::ConversionStrictness::BEST_EFFORT"
+
+    cdef cppclass CConversionOptions \
+            "arrow::engine::ConversionOptions":
+        ConversionStrictness conversion_strictness
+        function[CNamedTableProvider] named_table_provider
+
+cdef extern from "arrow/engine/substrait/extension_set.h" \
+        namespace "arrow::engine" nogil:
+
+    cdef cppclass ExtensionIdRegistry:
+        std_vector[c_string] GetSupportedSubstraitFunctions()
+
+    ExtensionIdRegistry* default_extension_id_registry()
+
+
+cdef extern from "arrow/engine/substrait/util.h" namespace "arrow::engine" nogil:
+    CResult[shared_ptr[CRecordBatchReader]] ExecuteSerializedPlan(
+        const CBuffer& substrait_buffer, const ExtensionIdRegistry* registry,
+        CFunctionRegistry* func_registry, const CConversionOptions& conversion_options,
+        c_bool use_threads)
 
-cdef extern from "arrow/engine/substrait/util.h" namespace "arrow::engine::substrait" nogil:
-    CResult[shared_ptr[CRecordBatchReader]] ExecuteSerializedPlan(const CBuffer& substrait_buffer)
     CResult[shared_ptr[CBuffer]] SerializeJsonPlan(const c_string& substrait_json)
diff --git a/python/pyarrow/interchange/__init__.py b/python/pyarrow/interchange/__init__.py
new file mode 100644
index 00000000000..7ebe59b499c
--- /dev/null
+++ b/python/pyarrow/interchange/__init__.py
@@ -0,0 +1,20 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+# flake8: noqa
+
+from .from_dataframe import from_dataframe
diff --git a/python/pyarrow/interchange/buffer.py b/python/pyarrow/interchange/buffer.py
new file mode 100644
index 00000000000..1f537798130
--- /dev/null
+++ b/python/pyarrow/interchange/buffer.py
@@ -0,0 +1,107 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+from __future__ import annotations
+import enum
+
+import pyarrow as pa
+
+
+class DlpackDeviceType(enum.IntEnum):
+    """Integer enum for device type codes matching DLPack."""
+
+    CPU = 1
+    CUDA = 2
+    CPU_PINNED = 3
+    OPENCL = 4
+    VULKAN = 7
+    METAL = 8
+    VPI = 9
+    ROCM = 10
+
+
+class _PyArrowBuffer:
+    """
+    Data in the buffer is guaranteed to be contiguous in memory.
+
+    Note that there is no dtype attribute present, a buffer can be thought of
+    as simply a block of memory. However, if the column that the buffer is
+    attached to has a dtype that's supported by DLPack and ``__dlpack__`` is
+    implemented, then that dtype information will be contained in the return
+    value from ``__dlpack__``.
+
+    This distinction is useful to support both data exchange via DLPack on a
+    buffer and (b) dtypes like variable-length strings which do not have a
+    fixed number of bytes per element.
+    """
+
+    def __init__(self, x: pa.Buffer, allow_copy: bool = True) -> None:
+        """
+        Handle PyArrow Buffers.
+        """
+        self._x = x
+
+    @property
+    def bufsize(self) -> int:
+        """
+        Buffer size in bytes.
+        """
+        return self._x.size
+
+    @property
+    def ptr(self) -> int:
+        """
+        Pointer to start of the buffer as an integer.
+        """
+        return self._x.address
+
+    def __dlpack__(self):
+        """
+        Produce DLPack capsule (see array API standard).
+
+        Raises:
+            - TypeError : if the buffer contains unsupported dtypes.
+            - NotImplementedError : if DLPack support is not implemented
+
+        Useful to have to connect to array libraries. Support optional because
+        it's not completely trivial to implement for a Python-only library.
+        """
+        raise NotImplementedError("__dlpack__")
+
+    def __dlpack_device__(self) -> tuple[DlpackDeviceType, int | None]:
+        """
+        Device type and device ID for where the data in the buffer resides.
+        Uses device type codes matching DLPack.
+        Note: must be implemented even if ``__dlpack__`` is not.
+        """
+        if self._x.is_cpu:
+            return (DlpackDeviceType.CPU, None)
+        else:
+            raise NotImplementedError("__dlpack_device__")
+
+    def __repr__(self) -> str:
+        return (
+            "PyArrowBuffer(" +
+            str(
+                {
+                    "bufsize": self.bufsize,
+                    "ptr": self.ptr,
+                    "device": self.__dlpack_device__()[0].name,
+                }
+            ) +
+            ")"
+        )
diff --git a/python/pyarrow/interchange/column.py b/python/pyarrow/interchange/column.py
new file mode 100644
index 00000000000..a9b89586165
--- /dev/null
+++ b/python/pyarrow/interchange/column.py
@@ -0,0 +1,527 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+from __future__ import annotations
+
+import enum
+from typing import (
+    Any,
+    Dict,
+    Iterable,
+    Optional,
+    Tuple,
+)
+
+import sys
+if sys.version_info >= (3, 8):
+    from typing import TypedDict
+else:
+    from typing_extensions import TypedDict
+
+import pyarrow as pa
+import pyarrow.compute as pc
+from pyarrow.interchange.buffer import _PyArrowBuffer
+
+
+class DtypeKind(enum.IntEnum):
+    """
+    Integer enum for data types.
+
+    Attributes
+    ----------
+    INT : int
+        Matches to signed integer data type.
+    UINT : int
+        Matches to unsigned integer data type.
+    FLOAT : int
+        Matches to floating point data type.
+    BOOL : int
+        Matches to boolean data type.
+    STRING : int
+        Matches to string data type (UTF-8 encoded).
+    DATETIME : int
+        Matches to datetime data type.
+    CATEGORICAL : int
+        Matches to categorical data type.
+    """
+
+    INT = 0
+    UINT = 1
+    FLOAT = 2
+    BOOL = 20
+    STRING = 21  # UTF-8
+    DATETIME = 22
+    CATEGORICAL = 23
+
+
+Dtype = Tuple[DtypeKind, int, str, str]  # see Column.dtype
+
+
+_PYARROW_KINDS = {
+    pa.int8(): (DtypeKind.INT, "c"),
+    pa.int16(): (DtypeKind.INT, "s"),
+    pa.int32(): (DtypeKind.INT, "i"),
+    pa.int64(): (DtypeKind.INT, "l"),
+    pa.uint8(): (DtypeKind.UINT, "C"),
+    pa.uint16(): (DtypeKind.UINT, "S"),
+    pa.uint32(): (DtypeKind.UINT, "I"),
+    pa.uint64(): (DtypeKind.UINT, "L"),
+    pa.float16(): (DtypeKind.FLOAT, "e"),
+    pa.float32(): (DtypeKind.FLOAT, "f"),
+    pa.float64(): (DtypeKind.FLOAT, "g"),
+    pa.bool_(): (DtypeKind.BOOL, "b"),
+    pa.string(): (DtypeKind.STRING, "u"),
+    pa.large_string(): (DtypeKind.STRING, "U"),
+}
+
+
+class ColumnNullType(enum.IntEnum):
+    """
+    Integer enum for null type representation.
+
+    Attributes
+    ----------
+    NON_NULLABLE : int
+        Non-nullable column.
+    USE_NAN : int
+        Use explicit float NaN value.
+    USE_SENTINEL : int
+        Sentinel value besides NaN.
+    USE_BITMASK : int
+        The bit is set/unset representing a null on a certain position.
+    USE_BYTEMASK : int
+        The byte is set/unset representing a null on a certain position.
+    """
+
+    NON_NULLABLE = 0
+    USE_NAN = 1
+    USE_SENTINEL = 2
+    USE_BITMASK = 3
+    USE_BYTEMASK = 4
+
+
+class ColumnBuffers(TypedDict):
+    # first element is a buffer containing the column data;
+    # second element is the data buffer's associated dtype
+    data: Tuple[_PyArrowBuffer, Dtype]
+
+    # first element is a buffer containing mask values indicating missing data;
+    # second element is the mask value buffer's associated dtype.
+    # None if the null representation is not a bit or byte mask
+    validity: Optional[Tuple[_PyArrowBuffer, Dtype]]
+
+    # first element is a buffer containing the offset values for
+    # variable-size binary data (e.g., variable-length strings);
+    # second element is the offsets buffer's associated dtype.
+    # None if the data buffer does not have an associated offsets buffer
+    offsets: Optional[Tuple[_PyArrowBuffer, Dtype]]
+
+
+class CategoricalDescription(TypedDict):
+    # whether the ordering of dictionary indices is semantically meaningful
+    is_ordered: bool
+    # whether a dictionary-style mapping of categorical values to other objects
+    # exists
+    is_dictionary: bool
+    # Python-level only (e.g. ``{int: str}``).
+    # None if not a dictionary-style categorical.
+    categories: Optional[_PyArrowColumn]
+
+
+class Endianness:
+    """Enum indicating the byte-order of a data-type."""
+
+    LITTLE = "<"
+    BIG = ">"
+    NATIVE = "="
+    NA = "|"
+
+
+class NoBufferPresent(Exception):
+    """Exception to signal that there is no requested buffer."""
+
+
+class _PyArrowColumn:
+    """
+    A column object, with only the methods and properties required by the
+    interchange protocol defined.
+
+    A column can contain one or more chunks. Each chunk can contain up to three
+    buffers - a data buffer, a mask buffer (depending on null representation),
+    and an offsets buffer (if variable-size binary; e.g., variable-length
+    strings).
+
+    TBD: Arrow has a separate "null" dtype, and has no separate mask concept.
+         Instead, it seems to use "children" for both columns with a bit mask,
+         and for nested dtypes. Unclear whether this is elegant or confusing.
+         This design requires checking the null representation explicitly.
+
+         The Arrow design requires checking:
+         1. the ARROW_FLAG_NULLABLE (for sentinel values)
+         2. if a column has two children, combined with one of those children
+            having a null dtype.
+
+         Making the mask concept explicit seems useful. One null dtype would
+         not be enough to cover both bit and byte masks, so that would mean
+         even more checking if we did it the Arrow way.
+
+    TBD: there's also the "chunk" concept here, which is implicit in Arrow as
+         multiple buffers per array (= column here). Semantically it may make
+         sense to have both: chunks were meant for example for lazy evaluation
+         of data which doesn't fit in memory, while multiple buffers per column
+         could also come from doing a selection operation on a single
+         contiguous buffer.
+
+         Given these concepts, one would expect chunks to be all of the same
+         size (say a 10,000 row dataframe could have 10 chunks of 1,000 rows),
+         while multiple buffers could have data-dependent lengths. Not an issue
+         in pandas if one column is backed by a single NumPy array, but in
+         Arrow it seems possible.
+         Are multiple chunks *and* multiple buffers per column necessary for
+         the purposes of this interchange protocol, or must producers either
+         reuse the chunk concept for this or copy the data?
+
+    Note: this Column object can only be produced by ``__dataframe__``, so
+          doesn't need its own version or ``__column__`` protocol.
+    """
+
+    def __init__(
+        self, column: pa.Array | pa.ChunkedArray, allow_copy: bool = True
+    ) -> None:
+        """
+        Handles PyArrow Arrays and ChunkedArrays.
+        """
+        # Store the column as a private attribute
+        if isinstance(column, pa.ChunkedArray):
+            if column.num_chunks == 1:
+                column = column.chunk(0)
+            else:
+                if not allow_copy:
+                    raise RuntimeError(
+                        "Chunks will be combined and a copy is required which "
+                        "is forbidden by allow_copy=False"
+                    )
+                column = column.combine_chunks()
+
+        self._allow_copy = allow_copy
+
+        if pa.types.is_boolean(column.type):
+            if not allow_copy:
+                raise RuntimeError(
+                    "Boolean column will be casted to uint8 and a copy "
+                    "is required which is forbidden by allow_copy=False"
+                )
+            self._dtype = self._dtype_from_arrowdtype(column.type, 8)
+            self._col = pc.cast(column, pa.uint8())
+        else:
+            self._col = column
+            dtype = self._col.type
+            try:
+                bit_width = dtype.bit_width
+            except ValueError:
+                # in case of a variable-length strings, considered as array
+                # of bytes (8 bits)
+                bit_width = 8
+            self._dtype = self._dtype_from_arrowdtype(dtype, bit_width)
+
+    def size(self) -> int:
+        """
+        Size of the column, in elements.
+
+        Corresponds to DataFrame.num_rows() if column is a single chunk;
+        equal to size of this current chunk otherwise.
+
+        Is a method rather than a property because it may cause a (potentially
+        expensive) computation for some dataframe implementations.
+        """
+        return len(self._col)
+
+    @property
+    def offset(self) -> int:
+        """
+        Offset of first element.
+
+        May be > 0 if using chunks; for example for a column with N chunks of
+        equal size M (only the last chunk may be shorter),
+        ``offset = n * M``, ``n = 0 .. N-1``.
+        """
+        return self._col.offset
+
+    @property
+    def dtype(self) -> Tuple[DtypeKind, int, str, str]:
+        """
+        Dtype description as a tuple ``(kind, bit-width, format string,
+        endianness)``.
+
+        Bit-width : the number of bits as an integer
+        Format string : data type description format string in Apache Arrow C
+                        Data Interface format.
+        Endianness : current only native endianness (``=``) is supported
+
+        Notes:
+            - Kind specifiers are aligned with DLPack where possible (hence the
+              jump to 20, leave enough room for future extension)
+            - Masks must be specified as boolean with either bit width 1 (for
+              bit masks) or 8 (for byte masks).
+            - Dtype width in bits was preferred over bytes
+            - Endianness isn't too useful, but included now in case in the
+              future we need to support non-native endianness
+            - Went with Apache Arrow format strings over NumPy format strings
+              because they're more complete from a dataframe perspective
+            - Format strings are mostly useful for datetime specification, and
+              for categoricals.
+            - For categoricals, the format string describes the type of the
+              categorical in the data buffer. In case of a separate encoding of
+              the categorical (e.g. an integer to string mapping), this can
+              be derived from ``self.describe_categorical``.
+            - Data types not included: complex, Arrow-style null, binary,
+              decimal, and nested (list, struct, map, union) dtypes.
+        """
+        return self._dtype
+
+    def _dtype_from_arrowdtype(
+        self, dtype: pa.DataType, bit_width: int
+    ) -> Tuple[DtypeKind, int, str, str]:
+        """
+        See `self.dtype` for details.
+        """
+        # Note: 'c' (complex) not handled yet (not in array spec v1).
+        #       'b', 'B' (bytes), 'S', 'a', (old-style string) 'V' (void)
+        #       not handled datetime and timedelta both map to datetime
+        #       (is timedelta handled?)
+
+        if pa.types.is_timestamp(dtype):
+            kind = DtypeKind.DATETIME
+            ts = dtype.unit[0]
+            tz = dtype.tz if dtype.tz else ""
+            f_string = "ts{ts}:{tz}".format(ts=ts, tz=tz)
+            return kind, bit_width, f_string, Endianness.NATIVE
+        elif pa.types.is_dictionary(dtype):
+            kind = DtypeKind.CATEGORICAL
+            f_string = "L"
+            return kind, bit_width, f_string, Endianness.NATIVE
+        else:
+            kind, f_string = _PYARROW_KINDS.get(dtype, (None, None))
+            if kind is None:
+                raise ValueError(
+                    f"Data type {dtype} not supported by interchange protocol")
+
+            return kind, bit_width, f_string, Endianness.NATIVE
+
+    @property
+    def describe_categorical(self) -> CategoricalDescription:
+        """
+        If the dtype is categorical, there are two options:
+        - There are only values in the data buffer.
+        - There is a separate non-categorical Column encoding categorical
+          values.
+
+        Raises TypeError if the dtype is not categorical
+
+        Returns the dictionary with description on how to interpret the
+        data buffer:
+            - "is_ordered" : bool, whether the ordering of dictionary indices
+                             is semantically meaningful.
+            - "is_dictionary" : bool, whether a mapping of
+                                categorical values to other objects exists
+            - "categories" : Column representing the (implicit) mapping of
+                             indices to category values (e.g. an array of
+                             cat1, cat2, ...). None if not a dictionary-style
+                             categorical.
+
+        TBD: are there any other in-memory representations that are needed?
+        """
+        arr = self._col
+        if not pa.types.is_dictionary(arr.type):
+            raise TypeError(
+                "describe_categorical only works on a column with "
+                "categorical dtype!"
+            )
+
+        return {
+            "is_ordered": self._col.type.ordered,
+            "is_dictionary": True,
+            "categories": _PyArrowColumn(arr.dictionary),
+        }
+
+    @property
+    def describe_null(self) -> Tuple[ColumnNullType, Any]:
+        """
+        Return the missing value (or "null") representation the column dtype
+        uses, as a tuple ``(kind, value)``.
+
+        Value : if kind is "sentinel value", the actual value. If kind is a bit
+        mask or a byte mask, the value (0 or 1) indicating a missing value.
+        None otherwise.
+        """
+        # In case of no missing values, we need to set ColumnNullType to
+        # non nullable as in the current __dataframe__ protocol bit/byte masks
+        # can not be None
+        if self.null_count == 0:
+            return ColumnNullType.NON_NULLABLE, None
+        else:
+            return ColumnNullType.USE_BITMASK, 0
+
+    @property
+    def null_count(self) -> int:
+        """
+        Number of null elements, if known.
+
+        Note: Arrow uses -1 to indicate "unknown", but None seems cleaner.
+        """
+        arrow_null_count = self._col.null_count
+        n = arrow_null_count if arrow_null_count != -1 else None
+        return n
+
+    @property
+    def metadata(self) -> Dict[str, Any]:
+        """
+        The metadata for the column. See `DataFrame.metadata` for more details.
+        """
+        pass
+
+    def num_chunks(self) -> int:
+        """
+        Return the number of chunks the column consists of.
+        """
+        return 1
+
+    def get_chunks(
+        self, n_chunks: Optional[int] = None
+    ) -> Iterable[_PyArrowColumn]:
+        """
+        Return an iterator yielding the chunks.
+
+        See `DataFrame.get_chunks` for details on ``n_chunks``.
+        """
+        if n_chunks and n_chunks > 1:
+            chunk_size = self.size() // n_chunks
+            if self.size() % n_chunks != 0:
+                chunk_size += 1
+
+            array = self._col
+            i = 0
+            for start in range(0, chunk_size * n_chunks, chunk_size):
+                yield _PyArrowColumn(
+                    array.slice(start, chunk_size), self._allow_copy
+                )
+                i += 1
+        else:
+            yield self
+
+    def get_buffers(self) -> ColumnBuffers:
+        """
+        Return a dictionary containing the underlying buffers.
+
+        The returned dictionary has the following contents:
+
+            - "data": a two-element tuple whose first element is a buffer
+                      containing the data and whose second element is the data
+                      buffer's associated dtype.
+            - "validity": a two-element tuple whose first element is a buffer
+                          containing mask values indicating missing data and
+                          whose second element is the mask value buffer's
+                          associated dtype. None if the null representation is
+                          not a bit or byte mask.
+            - "offsets": a two-element tuple whose first element is a buffer
+                         containing the offset values for variable-size binary
+                         data (e.g., variable-length strings) and whose second
+                         element is the offsets buffer's associated dtype. None
+                         if the data buffer does not have an associated offsets
+                         buffer.
+        """
+        buffers: ColumnBuffers = {
+            "data": self._get_data_buffer(),
+            "validity": None,
+            "offsets": None,
+        }
+
+        try:
+            buffers["validity"] = self._get_validity_buffer()
+        except NoBufferPresent:
+            pass
+
+        try:
+            buffers["offsets"] = self._get_offsets_buffer()
+        except NoBufferPresent:
+            pass
+
+        return buffers
+
+    def _get_data_buffer(
+        self,
+    ) -> Tuple[_PyArrowBuffer, Any]:  # Any is for self.dtype tuple
+        """
+        Return the buffer containing the data and the buffer's
+        associated dtype.
+        """
+        array = self._col
+        dtype = self.dtype
+
+        # In case of dictionary arrays, use indices
+        # to define a buffer, codes are transferred through
+        # describe_categorical()
+        if pa.types.is_dictionary(array.type):
+            array = array.indices
+            dtype = _PyArrowColumn(array).dtype
+
+        n = len(array.buffers())
+        if n == 2:
+            return _PyArrowBuffer(array.buffers()[1]), dtype
+        elif n == 3:
+            return _PyArrowBuffer(array.buffers()[2]), dtype
+
+    def _get_validity_buffer(self) -> Tuple[_PyArrowBuffer, Any]:
+        """
+        Return the buffer containing the mask values indicating missing data
+        and the buffer's associated dtype.
+        Raises NoBufferPresent if null representation is not a bit or byte
+        mask.
+        """
+        # Define the dtype of the returned buffer
+        dtype = (DtypeKind.BOOL, 1, "b", Endianness.NATIVE)
+        array = self._col
+        buff = array.buffers()[0]
+        if buff:
+            return _PyArrowBuffer(buff), dtype
+        else:
+            raise NoBufferPresent(
+                "There are no missing values so "
+                "does not have a separate mask")
+
+    def _get_offsets_buffer(self) -> Tuple[_PyArrowBuffer, Any]:
+        """
+        Return the buffer containing the offset values for variable-size binary
+        data (e.g., variable-length strings) and the buffer's associated dtype.
+        Raises NoBufferPresent if the data buffer does not have an associated
+        offsets buffer.
+        """
+        array = self._col
+        n = len(array.buffers())
+        if n == 2:
+            raise NoBufferPresent(
+                "This column has a fixed-length dtype so "
+                "it does not have an offsets buffer"
+            )
+        elif n == 3:
+            # Define the dtype of the returned buffer
+            dtype = self._col.type
+            if pa.types.is_large_string(dtype):
+                dtype = (DtypeKind.INT, 64, "l", Endianness.NATIVE)
+            else:
+                dtype = (DtypeKind.INT, 32, "i", Endianness.NATIVE)
+            return _PyArrowBuffer(array.buffers()[1]), dtype
diff --git a/python/pyarrow/interchange/dataframe.py b/python/pyarrow/interchange/dataframe.py
new file mode 100644
index 00000000000..d0717e02e88
--- /dev/null
+++ b/python/pyarrow/interchange/dataframe.py
@@ -0,0 +1,202 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+from __future__ import annotations
+from typing import (
+    Any,
+    Iterable,
+    Optional,
+    Sequence,
+)
+
+import pyarrow as pa
+
+from pyarrow.interchange.column import _PyArrowColumn
+
+
+class _PyArrowDataFrame:
+    """
+    A data frame class, with only the methods required by the interchange
+    protocol defined.
+
+    A "data frame" represents an ordered collection of named columns.
+    A column's "name" must be a unique string.
+    Columns may be accessed by name or by position.
+
+    This could be a public data frame class, or an object with the methods and
+    attributes defined on this DataFrame class could be returned from the
+    ``__dataframe__`` method of a public data frame class in a library adhering
+    to the dataframe interchange protocol specification.
+    """
+
+    def __init__(
+        self, df: pa.Table, nan_as_null: bool = False, allow_copy: bool = True
+    ) -> None:
+        """
+        Constructor - an instance of this (private) class is returned from
+        `pa.Table.__dataframe__`.
+        """
+        self._df = df
+        # ``nan_as_null`` is a keyword intended for the consumer to tell the
+        # producer to overwrite null values in the data with ``NaN`` (or
+        # ``NaT``).
+        if nan_as_null is True:
+            raise RuntimeError(
+                "nan_as_null=True currently has no effect, "
+                "use the default nan_as_null=False"
+            )
+        self._nan_as_null = nan_as_null
+        self._allow_copy = allow_copy
+
+    def __dataframe__(
+        self, nan_as_null: bool = False, allow_copy: bool = True
+    ) -> _PyArrowDataFrame:
+        """
+        Construct a new exchange object, potentially changing the parameters.
+        ``nan_as_null`` is a keyword intended for the consumer to tell the
+        producer to overwrite null values in the data with ``NaN``.
+        It is intended for cases where the consumer does not support the bit
+        mask or byte mask that is the producer's native representation.
+        ``allow_copy`` is a keyword that defines whether or not the library is
+        allowed to make a copy of the data. For example, copying data would be
+        necessary if a library supports strided buffers, given that this
+        protocol specifies contiguous buffers.
+        """
+        return _PyArrowDataFrame(self._df, nan_as_null, allow_copy)
+
+    @property
+    def metadata(self) -> dict[str, Any]:
+        """
+        The metadata for the data frame, as a dictionary with string keys. The
+        contents of `metadata` may be anything, they are meant for a library
+        to store information that it needs to, e.g., roundtrip losslessly or
+        for two implementations to share data that is not (yet) part of the
+        interchange protocol specification. For avoiding collisions with other
+        entries, please add name the keys with the name of the library
+        followed by a period and the desired name, e.g, ``pandas.indexcol``.
+        """
+        # The metadata for the data frame, as a dictionary with string keys.
+        # Add schema metadata here (pandas metadata or custom metadata)
+        if self._df.schema.metadata:
+            schema_metadata = {"pyarrow." + k.decode('utf8'): v.decode('utf8')
+                               for k, v in self._df.schema.metadata.items()}
+            return schema_metadata
+        else:
+            return {}
+
+    def num_columns(self) -> int:
+        """
+        Return the number of columns in the DataFrame.
+        """
+        return self._df.num_columns
+
+    def num_rows(self) -> int:
+        """
+        Return the number of rows in the DataFrame, if available.
+        """
+        return self._df.num_rows
+
+    def num_chunks(self) -> int:
+        """
+        Return the number of chunks the DataFrame consists of.
+        """
+        # pyarrow.Table can have columns with different number
+        # of chunks so we take the number of chunks that
+        # .to_batches() returns as it takes the min chunk size
+        # of all the columns (to_batches is a zero copy method)
+        batches = self._df.to_batches()
+        return len(batches)
+
+    def column_names(self) -> Iterable[str]:
+        """
+        Return an iterator yielding the column names.
+        """
+        return self._df.column_names
+
+    def get_column(self, i: int) -> _PyArrowColumn:
+        """
+        Return the column at the indicated position.
+        """
+        return _PyArrowColumn(self._df.column(i),
+                              allow_copy=self._allow_copy)
+
+    def get_column_by_name(self, name: str) -> _PyArrowColumn:
+        """
+        Return the column whose name is the indicated name.
+        """
+        return _PyArrowColumn(self._df.column(name),
+                              allow_copy=self._allow_copy)
+
+    def get_columns(self) -> Iterable[_PyArrowColumn]:
+        """
+        Return an iterator yielding the columns.
+        """
+        return [
+            _PyArrowColumn(col, allow_copy=self._allow_copy)
+            for col in self._df.columns
+        ]
+
+    def select_columns(self, indices: Sequence[int]) -> _PyArrowDataFrame:
+        """
+        Create a new DataFrame by selecting a subset of columns by index.
+        """
+        return _PyArrowDataFrame(
+            self._df.select(list(indices)), self._nan_as_null, self._allow_copy
+        )
+
+    def select_columns_by_name(
+        self, names: Sequence[str]
+    ) -> _PyArrowDataFrame:
+        """
+        Create a new DataFrame by selecting a subset of columns by name.
+        """
+        return _PyArrowDataFrame(
+            self._df.select(list(names)), self._nan_as_null, self._allow_copy
+        )
+
+    def get_chunks(
+        self, n_chunks: Optional[int] = None
+    ) -> Iterable[_PyArrowDataFrame]:
+        """
+        Return an iterator yielding the chunks.
+
+        By default (None), yields the chunks that the data is stored as by the
+        producer. If given, ``n_chunks`` must be a multiple of
+        ``self.num_chunks()``, meaning the producer must subdivide each chunk
+        before yielding it.
+
+        Note that the producer must ensure that all columns are chunked the
+        same way.
+        """
+        if n_chunks and n_chunks > 1:
+            chunk_size = self.num_rows() // n_chunks
+            if self.num_rows() % n_chunks != 0:
+                chunk_size += 1
+            batches = self._df.to_batches(max_chunksize=chunk_size)
+            # In case when the size of the chunk is such that the resulting
+            # list is one less chunk then n_chunks -> append an empty chunk
+            if len(batches) == n_chunks - 1:
+                batches.append(pa.record_batch([[]], schema=self._df.schema))
+        else:
+            batches = self._df.to_batches()
+
+        iterator_tables = [_PyArrowDataFrame(
+            pa.Table.from_batches([batch]), self._nan_as_null, self._allow_copy
+        )
+            for batch in batches
+        ]
+        return iterator_tables
diff --git a/python/pyarrow/interchange/from_dataframe.py b/python/pyarrow/interchange/from_dataframe.py
new file mode 100644
index 00000000000..204530a3354
--- /dev/null
+++ b/python/pyarrow/interchange/from_dataframe.py
@@ -0,0 +1,567 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+from __future__ import annotations
+
+from typing import (
+    Any,
+)
+
+from pyarrow.interchange.column import (
+    DtypeKind,
+    ColumnBuffers,
+    ColumnNullType,
+)
+
+import pyarrow as pa
+import re
+
+import pyarrow.compute as pc
+from pyarrow.interchange.column import Dtype
+
+
+# A typing protocol could be added later to let Mypy validate code using
+# `from_dataframe` better.
+DataFrameObject = Any
+ColumnObject = Any
+BufferObject = Any
+
+
+_PYARROW_DTYPES: dict[DtypeKind, dict[int, Any]] = {
+    DtypeKind.INT: {8: pa.int8(),
+                    16: pa.int16(),
+                    32: pa.int32(),
+                    64: pa.int64()},
+    DtypeKind.UINT: {8: pa.uint8(),
+                     16: pa.uint16(),
+                     32: pa.uint32(),
+                     64: pa.uint64()},
+    DtypeKind.FLOAT: {16: pa.float16(),
+                      32: pa.float32(),
+                      64: pa.float64()},
+    DtypeKind.BOOL: {8: pa.uint8()},
+    DtypeKind.STRING: {8: pa.string()},
+}
+
+
+def from_dataframe(df: DataFrameObject, allow_copy=True) -> pa.Table:
+    """
+    Build a ``pa.Table`` from any DataFrame supporting the interchange
+    protocol.
+
+    Parameters
+    ----------
+    df : DataFrameObject
+        Object supporting the interchange protocol, i.e. `__dataframe__`
+        method.
+    allow_copy : bool, default: True
+        Whether to allow copying the memory to perform the conversion
+        (if false then zero-copy approach is requested).
+
+    Returns
+    -------
+    pa.Table
+    """
+    if isinstance(df, pa.Table):
+        return df
+
+    if not hasattr(df, "__dataframe__"):
+        raise ValueError("`df` does not support __dataframe__")
+
+    return _from_dataframe(df.__dataframe__(allow_copy=allow_copy),
+                           allow_copy=allow_copy)
+
+
+def _from_dataframe(df: DataFrameObject, allow_copy=True):
+    """
+    Build a ``pa.Table`` from the DataFrame interchange object.
+
+    Parameters
+    ----------
+    df : DataFrameObject
+        Object supporting the interchange protocol, i.e. `__dataframe__`
+        method.
+    allow_copy : bool, default: True
+        Whether to allow copying the memory to perform the conversion
+        (if false then zero-copy approach is requested).
+
+    Returns
+    -------
+    pa.Table
+    """
+    batches = []
+    for chunk in df.get_chunks():
+        batch = protocol_df_chunk_to_pyarrow(chunk, allow_copy)
+        batches.append(batch)
+
+    table = pa.Table.from_batches(batches)
+    return table
+
+
+def protocol_df_chunk_to_pyarrow(
+    df: DataFrameObject,
+    allow_copy: bool = True
+) -> pa.RecordBatch:
+    """
+    Convert interchange protocol chunk to ``pa.RecordBatch``.
+
+    Parameters
+    ----------
+    df : DataFrameObject
+        Object supporting the interchange protocol, i.e. `__dataframe__`
+        method.
+    allow_copy : bool, default: True
+        Whether to allow copying the memory to perform the conversion
+        (if false then zero-copy approach is requested).
+
+    Returns
+    -------
+    pa.RecordBatch
+    """
+    # We need a dict of columns here, with each column being a pa.Array
+    columns: dict[str, pa.Array] = {}
+    for name in df.column_names():
+        if not isinstance(name, str):
+            raise ValueError(f"Column {name} is not a string")
+        if name in columns:
+            raise ValueError(f"Column {name} is not unique")
+        col = df.get_column_by_name(name)
+        dtype = col.dtype[0]
+        if dtype in (
+            DtypeKind.INT,
+            DtypeKind.UINT,
+            DtypeKind.FLOAT,
+            DtypeKind.STRING,
+            DtypeKind.DATETIME,
+        ):
+            columns[name] = column_to_array(col, allow_copy)
+        elif dtype == DtypeKind.BOOL:
+            columns[name] = bool_column_to_array(col, allow_copy)
+        elif dtype == DtypeKind.CATEGORICAL:
+            columns[name] = categorical_column_to_dictionary(col, allow_copy)
+        else:
+            raise NotImplementedError(f"Data type {dtype} not handled yet")
+
+    return pa.RecordBatch.from_pydict(columns)
+
+
+def column_to_array(
+    col: ColumnObject,
+    allow_copy: bool = True,
+) -> pa.Array:
+    """
+    Convert a column holding one of the primitive dtypes to a PyArrow array.
+    A primitive type is one of: int, uint, float, bool (1 bit).
+
+    Parameters
+    ----------
+    col : ColumnObject
+    allow_copy : bool, default: True
+        Whether to allow copying the memory to perform the conversion
+        (if false then zero-copy approach is requested).
+
+    Returns
+    -------
+    pa.Array
+    """
+    buffers = col.get_buffers()
+    data = buffers_to_array(buffers, col.size(),
+                            col.describe_null,
+                            col.offset,
+                            allow_copy)
+    return data
+
+
+def bool_column_to_array(
+    col: ColumnObject,
+    allow_copy: bool = True,
+) -> pa.Array:
+    """
+    Convert a column holding boolean dtype to a PyArrow array.
+
+    Parameters
+    ----------
+    col : ColumnObject
+    allow_copy : bool, default: True
+        Whether to allow copying the memory to perform the conversion
+        (if false then zero-copy approach is requested).
+
+    Returns
+    -------
+    pa.Array
+    """
+    if not allow_copy:
+        raise RuntimeError(
+            "Boolean column will be casted from uint8 and a copy "
+            "is required which is forbidden by allow_copy=False"
+        )
+
+    buffers = col.get_buffers()
+    data = buffers_to_array(buffers, col.size(),
+                            col.describe_null,
+                            col.offset)
+    data = pc.cast(data, pa.bool_())
+
+    return data
+
+
+def categorical_column_to_dictionary(
+    col: ColumnObject,
+    allow_copy: bool = True,
+) -> pa.DictionaryArray:
+    """
+    Convert a column holding categorical data to a pa.DictionaryArray.
+
+    Parameters
+    ----------
+    col : ColumnObject
+    allow_copy : bool, default: True
+        Whether to allow copying the memory to perform the conversion
+        (if false then zero-copy approach is requested).
+
+    Returns
+    -------
+    pa.DictionaryArray
+    """
+    if not allow_copy:
+        raise RuntimeError(
+            "Categorical column will be casted from uint8 and a copy "
+            "is required which is forbidden by allow_copy=False"
+        )
+
+    categorical = col.describe_categorical
+
+    if not categorical["is_dictionary"]:
+        raise NotImplementedError(
+            "Non-dictionary categoricals not supported yet")
+
+    cat_column = categorical["categories"]
+    dictionary = column_to_array(cat_column)
+
+    buffers = col.get_buffers()
+    indices = buffers_to_array(buffers, col.size(),
+                               col.describe_null,
+                               col.offset)
+
+    # Constructing a pa.DictionaryArray
+    dict_array = pa.DictionaryArray.from_arrays(indices, dictionary)
+
+    return dict_array
+
+
+def parse_datetime_format_str(format_str):
+    """Parse datetime `format_str` to interpret the `data`."""
+
+    # timestamp 'ts{unit}:tz'
+    timestamp_meta = re.match(r"ts([smun]):(.*)", format_str)
+    if timestamp_meta:
+        unit, tz = timestamp_meta.group(1), timestamp_meta.group(2)
+        if unit != "s":
+            # the format string describes only a first letter of the unit, so
+            # add one extra letter to convert the unit to numpy-style:
+            # 'm' -> 'ms', 'u' -> 'us', 'n' -> 'ns'
+            unit += "s"
+
+        return unit, tz
+
+    raise NotImplementedError(f"DateTime kind is not supported: {format_str}")
+
+
+def map_date_type(data_type):
+    """Map column date type to pyarrow date type. """
+    kind, bit_width, f_string, _ = data_type
+
+    if kind == DtypeKind.DATETIME:
+        unit, tz = parse_datetime_format_str(f_string)
+        return pa.timestamp(unit, tz=tz)
+    else:
+        pa_dtype = _PYARROW_DTYPES.get(kind, {}).get(bit_width, None)
+
+        # Error if dtype is not supported
+        if pa_dtype:
+            return pa_dtype
+        else:
+            raise NotImplementedError(
+                f"Conversion for {data_type} is not yet supported.")
+
+
+def buffers_to_array(
+    buffers: ColumnBuffers,
+    length: int,
+    describe_null: ColumnNullType,
+    offset: int = 0,
+    allow_copy: bool = True,
+) -> pa.Array:
+    """
+    Build a PyArrow array from the passed buffer.
+
+    Parameters
+    ----------
+    buffer : ColumnBuffers
+        Dictionary containing tuples of underlying buffers and
+        their associated dtype.
+    length : int
+        The number of values in the array.
+    describe_null: ColumnNullType
+        Null representation the column dtype uses,
+        as a tuple ``(kind, value)``
+    offset : int, default: 0
+        Number of elements to offset from the start of the buffer.
+    allow_copy : bool, default: True
+        Whether to allow copying the memory to perform the conversion
+        (if false then zero-copy approach is requested).
+
+    Returns
+    -------
+    pa.Array
+
+    Notes
+    -----
+    The returned array doesn't own the memory. The caller of this function
+    is responsible for keeping the memory owner object alive as long as
+    the returned PyArrow array is being used.
+    """
+    data_buff, data_type = buffers["data"]
+    try:
+        validity_buff, validity_dtype = buffers["validity"]
+    except TypeError:
+        validity_buff = None
+    try:
+        offset_buff, offset_dtype = buffers["offsets"]
+    except TypeError:
+        offset_buff = None
+
+    # Construct a pyarrow Buffer
+    data_pa_buffer = pa.foreign_buffer(data_buff.ptr, data_buff.bufsize,
+                                       base=data_buff)
+
+    # Construct a validity pyarrow Buffer, if applicable
+    if validity_buff:
+        validity_pa_buff = validity_buffer_from_mask(validity_buff,
+                                                     validity_dtype,
+                                                     describe_null,
+                                                     length,
+                                                     offset,
+                                                     allow_copy)
+    else:
+        validity_pa_buff = validity_buffer_nan_sentinel(data_pa_buffer,
+                                                        data_type,
+                                                        describe_null,
+                                                        length,
+                                                        offset,
+                                                        allow_copy)
+
+    # Construct a pyarrow Array from buffers
+    data_dtype = map_date_type(data_type)
+
+    if offset_buff:
+        _, offset_bit_width, _, _ = offset_dtype
+        # If an offset buffer exists, construct an offset pyarrow Buffer
+        # and add it to the construction of an array
+        offset_pa_buffer = pa.foreign_buffer(offset_buff.ptr,
+                                             offset_buff.bufsize,
+                                             base=offset_buff)
+
+        if data_type[2] == 'U':
+            string_type = pa.large_string()
+        else:
+            if offset_bit_width == 64:
+                string_type = pa.large_string()
+            else:
+                string_type = pa.string()
+        array = pa.Array.from_buffers(
+            string_type,
+            length,
+            [validity_pa_buff, offset_pa_buffer, data_pa_buffer],
+            offset=offset,
+        )
+    else:
+        array = pa.Array.from_buffers(
+            data_dtype,
+            length,
+            [validity_pa_buff, data_pa_buffer],
+            offset=offset,
+        )
+
+    return array
+
+
+def validity_buffer_from_mask(
+    validity_buff: BufferObject,
+    validity_dtype: Dtype,
+    describe_null: ColumnNullType,
+    length: int,
+    offset: int = 0,
+    allow_copy: bool = True,
+) -> pa.Buffer:
+    """
+    Build a PyArrow buffer from the passed mask buffer.
+
+    Parameters
+    ----------
+    validity_buff : BufferObject
+        Tuple of underlying validity buffer and associated dtype.
+    validity_dtype : Dtype
+        Dtype description as a tuple ``(kind, bit-width, format string,
+        endianness)``.
+    describe_null : ColumnNullType
+        Null representation the column dtype uses,
+        as a tuple ``(kind, value)``
+    length : int
+        The number of values in the array.
+    offset : int, default: 0
+        Number of elements to offset from the start of the buffer.
+    allow_copy : bool, default: True
+        Whether to allow copying the memory to perform the conversion
+        (if false then zero-copy approach is requested).
+
+    Returns
+    -------
+    pa.Buffer
+    """
+    null_kind, sentinel_val = describe_null
+    validity_kind, _, _, _ = validity_dtype
+    assert validity_kind == DtypeKind.BOOL
+
+    if null_kind == ColumnNullType.NON_NULLABLE:
+        # Sliced array can have a NON_NULLABLE ColumnNullType due
+        # to no missing values in that slice of an array though the bitmask
+        # exists and validity_buff must be set to None in this case
+        return None
+
+    elif null_kind == ColumnNullType.USE_BYTEMASK or (
+        null_kind == ColumnNullType.USE_BITMASK and sentinel_val == 1
+    ):
+        buff = pa.foreign_buffer(validity_buff.ptr,
+                                 validity_buff.bufsize,
+                                 base=validity_buff)
+
+        if null_kind == ColumnNullType.USE_BYTEMASK:
+            if not allow_copy:
+                raise RuntimeError(
+                    "To create a bitmask a copy of the data is "
+                    "required which is forbidden by allow_copy=False"
+                )
+            mask = pa.Array.from_buffers(pa.int8(), length,
+                                         [None, buff],
+                                         offset=offset)
+            mask_bool = pc.cast(mask, pa.bool_())
+        else:
+            mask_bool = pa.Array.from_buffers(pa.bool_(), length,
+                                              [None, buff],
+                                              offset=offset)
+
+        if sentinel_val == 1:
+            mask_bool = pc.invert(mask_bool)
+
+        return mask_bool.buffers()[1]
+
+    elif null_kind == ColumnNullType.USE_BITMASK and sentinel_val == 0:
+        return pa.foreign_buffer(validity_buff.ptr,
+                                 validity_buff.bufsize,
+                                 base=validity_buff)
+    else:
+        raise NotImplementedError(
+            f"{describe_null} null representation is not yet supported.")
+
+
+def validity_buffer_nan_sentinel(
+    data_pa_buffer: BufferObject,
+    data_type: Dtype,
+    describe_null: ColumnNullType,
+    length: int,
+    offset: int = 0,
+    allow_copy: bool = True,
+) -> pa.Buffer:
+    """
+    Build a PyArrow buffer from NaN or sentinel values.
+
+    Parameters
+    ----------
+    data_pa_buffer : pa.Buffer
+        PyArrow buffer for the column data.
+    data_type : Dtype
+        Dtype description as a tuple ``(kind, bit-width, format string,
+        endianness)``.
+    describe_null : ColumnNullType
+        Null representation the column dtype uses,
+        as a tuple ``(kind, value)``
+    length : int
+        The number of values in the array.
+    offset : int, default: 0
+        Number of elements to offset from the start of the buffer.
+    allow_copy : bool, default: True
+        Whether to allow copying the memory to perform the conversion
+        (if false then zero-copy approach is requested).
+
+    Returns
+    -------
+    pa.Buffer
+    """
+    kind, bit_width, _, _ = data_type
+    data_dtype = map_date_type(data_type)
+    null_kind, sentinel_val = describe_null
+
+    # Check for float NaN values
+    if null_kind == ColumnNullType.USE_NAN:
+        if not allow_copy:
+            raise RuntimeError(
+                "To create a bitmask a copy of the data is "
+                "required which is forbidden by allow_copy=False"
+            )
+
+        if kind == DtypeKind.FLOAT and bit_width == 16:
+            # 'pyarrow.compute.is_nan' kernel not yet implemented
+            # for float16
+            raise NotImplementedError(
+                f"{data_type} with {null_kind} is not yet supported.")
+        else:
+            pyarrow_data = pa.Array.from_buffers(
+                data_dtype,
+                length,
+                [None, data_pa_buffer],
+                offset=offset,
+            )
+            mask = pc.is_nan(pyarrow_data)
+            mask = pc.invert(mask)
+            return mask.buffers()[1]
+
+    # Check for sentinel values
+    elif null_kind == ColumnNullType.USE_SENTINEL:
+        if not allow_copy:
+            raise RuntimeError(
+                "To create a bitmask a copy of the data is "
+                "required which is forbidden by allow_copy=False"
+            )
+
+        if kind == DtypeKind.DATETIME:
+            sentinel_dtype = pa.int64()
+        else:
+            sentinel_dtype = data_dtype
+        pyarrow_data = pa.Array.from_buffers(sentinel_dtype,
+                                             length,
+                                             [None, data_pa_buffer],
+                                             offset=offset)
+        sentinel_arr = pc.equal(pyarrow_data, sentinel_val)
+        mask_bool = pc.invert(sentinel_arr)
+        return mask_bool.buffers()[1]
+
+    elif null_kind == ColumnNullType.NON_NULLABLE:
+        pass
+    else:
+        raise NotImplementedError(
+            f"{describe_null} null representation is not yet supported.")
diff --git a/python/pyarrow/io.pxi b/python/pyarrow/io.pxi
index d1d3feb3c17..21c17b4d36d 100644
--- a/python/pyarrow/io.pxi
+++ b/python/pyarrow/io.pxi
@@ -121,6 +121,15 @@ cdef class NativeFile(_Weakrefable):
     def __exit__(self, exc_type, exc_value, tb):
         self.close()
 
+    def __repr__(self):
+        name = f"pyarrow.{self.__class__.__name__}"
+        return (f"<{name} "
+                f"closed={self.closed} "
+                f"own_file={self.own_file} "
+                f"is_seekable={self.is_seekable} "
+                f"is_writable={self.is_writable} "
+                f"is_readable={self.is_readable}>")
+
     @property
     def mode(self):
         """
@@ -766,6 +775,13 @@ cdef class PythonFile(NativeFile):
     As a downside, there is a non-zero redirection cost in translating
     Arrow stream calls to Python method calls.  Furthermore, Python's
     Global Interpreter Lock may limit parallelism in some situations.
+
+    Examples
+    --------
+    >>> import io
+    >>> import pyarrow as pa
+    >>> pa.PythonFile(io.BytesIO())
+    <pyarrow.PythonFile closed=False own_file=False is_seekable=False is_writable=True is_readable=False>
     """
     cdef:
         object handle
@@ -1053,6 +1069,14 @@ cdef class Buffer(_Weakrefable):
     def __len__(self):
         return self.size
 
+    def __repr__(self):
+        name = f"pyarrow.{self.__class__.__name__}"
+        return (f"<{name} "
+                f"address={hex(self.address)} "
+                f"size={self.size} "
+                f"is_cpu={self.is_cpu} "
+                f"is_mutable={self.is_mutable}>")
+
     @property
     def size(self):
         """
@@ -1583,6 +1607,33 @@ class Transcoder:
         return self._encoder.encode(self._decoder.decode(buf, final), final)
 
 
+cdef shared_ptr[function[StreamWrapFunc]] make_streamwrap_func(
+        src_encoding, dest_encoding) except *:
+    """
+    Create a function that will add a transcoding transformation to a stream.
+    Data from that stream will be decoded according to ``src_encoding`` and
+    then re-encoded according to ``dest_encoding``.
+    The created function can be used to wrap streams.
+
+    Parameters
+    ----------
+    src_encoding : str
+        The codec to use when reading data.
+    dest_encoding : str
+        The codec to use for emitted data.
+    """
+    cdef:
+        shared_ptr[function[StreamWrapFunc]] empty_func
+        CTransformInputStreamVTable vtable
+
+    vtable.transform = _cb_transform
+    src_codec = codecs.lookup(src_encoding)
+    dest_codec = codecs.lookup(dest_encoding)
+    return MakeStreamTransformFunc(move(vtable),
+                                   Transcoder(src_codec.incrementaldecoder(),
+                                   dest_codec.incrementalencoder()))
+
+
 def transcoding_input_stream(stream, src_encoding, dest_encoding):
     """
     Add a transcoding transformation to the stream.
@@ -1594,7 +1645,7 @@ def transcoding_input_stream(stream, src_encoding, dest_encoding):
     stream : NativeFile
         The stream to which the transformation should be applied.
     src_encoding : str
-        The codec to use when reading data data.
+        The codec to use when reading data.
     dest_encoding : str
         The codec to use for emitted data.
     """
@@ -1843,6 +1894,17 @@ cdef class Codec(_Weakrefable):
     ------
     ValueError
         If invalid compression value is passed.
+
+    Examples
+    --------
+    >>> import pyarrow as pa
+    >>> pa.Codec.is_available('gzip')
+    True
+    >>> codec = pa.Codec('gzip')
+    >>> codec.name
+    'gzip'
+    >>> codec.compression_level
+    9
     """
 
     def __init__(self, str compression not None, compression_level=None):
@@ -1964,7 +2026,9 @@ cdef class Codec(_Weakrefable):
     @property
     def compression_level(self):
         """Returns the compression level parameter of the codec"""
-        return frombytes(self.unwrap().compression_level())
+        if self.name == 'snappy':
+            return None
+        return self.unwrap().compression_level()
 
     def compress(self, object buf, asbytes=False, memory_pool=None):
         """
@@ -2033,8 +2097,7 @@ cdef class Codec(_Weakrefable):
         ----------
         buf : pyarrow.Buffer, bytes, or memoryview-compatible object
         decompressed_size : int, default None
-            If not specified, will be computed if the codec is able to
-            determine the uncompressed buffer size.
+            Size of the decompressed result
         asbytes : boolean, default False
             Return result as Python bytes object, otherwise Buffer
         memory_pool : MemoryPool, default None
@@ -2056,7 +2119,7 @@ cdef class Codec(_Weakrefable):
 
         if decompressed_size is None:
             raise ValueError(
-                "Must pass decompressed_size for {} codec".format(self)
+                "Must pass decompressed_size"
             )
 
         output_size = decompressed_size
@@ -2080,6 +2143,12 @@ cdef class Codec(_Weakrefable):
 
         return pybuf if asbytes else out_buf
 
+    def __repr__(self):
+        name = f"pyarrow.{self.__class__.__name__}"
+        return (f"<{name} "
+                f"name={self.name} "
+                f"compression_level={self.compression_level}>")
+
 
 def compress(object buf, codec='lz4', asbytes=False, memory_pool=None):
     """
@@ -2114,8 +2183,7 @@ def decompress(object buf, decompressed_size=None, codec='lz4',
     buf : pyarrow.Buffer, bytes, or memoryview-compatible object
         Input object to decompress data from.
     decompressed_size : int, default None
-        If not specified, will be computed if the codec is able to determine
-        the uncompressed buffer size.
+        Size of the decompressed result
     codec : str, default 'lz4'
         Compression codec.
         Supported types: {'brotli, 'gzip', 'lz4', 'lz4_raw', 'snappy', 'zstd'}
@@ -2139,7 +2207,7 @@ def input_stream(source, compression='detect', buffer_size=None):
 
     Parameters
     ----------
-    source : str, Path, buffer, file-like object, ...
+    source : str, Path, buffer, or file-like object
         The source to open for reading.
     compression : str optional, default 'detect'
         The compression algorithm to use for on-the-fly decompression.
@@ -2191,7 +2259,7 @@ def output_stream(source, compression='detect', buffer_size=None):
 
     Parameters
     ----------
-    source : str, Path, buffer, file-like object, ...
+    source : str, Path, buffer, file-like object
         The source to open for writing.
     compression : str optional, default 'detect'
         The compression algorithm to use for on-the-fly compression.
diff --git a/python/pyarrow/ipc.pxi b/python/pyarrow/ipc.pxi
index b5cbbfb62cf..6e60b8b9a05 100644
--- a/python/pyarrow/ipc.pxi
+++ b/python/pyarrow/ipc.pxi
@@ -57,11 +57,16 @@ class WriteStats(_WriteStats):
 
     Parameters
     ----------
-    num_messages : number of messages.
-    num_record_batches : number of record batches.
-    num_dictionary_batches : number of dictionary batches.
-    num_dictionary_deltas : delta of dictionaries.
-    num_replaced_dictionaries : number of replaced dictionaries.
+    num_messages : int
+        Number of messages.
+    num_record_batches : int
+        Number of record batches.
+    num_dictionary_batches : int
+        Number of dictionary batches.
+    num_dictionary_deltas : int
+        Delta of dictionaries.
+    num_replaced_dictionaries : int
+        Number of replaced dictionaries.
     """
     __slots__ = ()
 
@@ -84,11 +89,16 @@ class ReadStats(_ReadStats):
 
     Parameters
     ----------
-    num_messages : number of messages.
-    num_record_batches : number of record batches.
-    num_dictionary_batches : number of dictionary batches.
-    num_dictionary_deltas : delta of dictionaries.
-    num_replaced_dictionaries : number of replaced dictionaries.
+    num_messages : int
+        Number of messages.
+    num_record_batches : int
+        Number of record batches.
+    num_dictionary_batches : int
+        Number of dictionary batches.
+    num_dictionary_deltas : int
+        Delta of dictionaries.
+    num_replaced_dictionaries : int
+        Number of replaced dictionaries.
     """
     __slots__ = ()
 
@@ -106,16 +116,15 @@ cdef class IpcReadOptions(_Weakrefable):
 
     Parameters
     ----------
+    ensure_native_endian : bool, default True
+        Whether to convert incoming data to platform-native endianness.
     use_threads : bool
         Whether to use the global CPU thread pool to parallelize any
-        computational tasks like decompression.
-    ensure_native_endian : bool
-        Whether to convert incoming data to platform-native endianness.
-        Default is true.
+        computational tasks like decompression
     included_fields : list
         If empty (the default), return all deserialized fields.
         If non-empty, the values are the indices of fields to read on
-        the top-level schema.
+        the top-level schema
     """
     __slots__ = ()
 
@@ -243,9 +252,14 @@ cdef class IpcWriteOptions(_Weakrefable):
         if value is None:
             self.c_options.codec.reset()
         elif isinstance(value, str):
+            codec_type = _ensure_compression(value)
+            if codec_type != CCompressionType_ZSTD and codec_type != CCompressionType_LZ4_FRAME:
+                raise ValueError("Compression type must be lz4, zstd or None")
             self.c_options.codec = shared_ptr[CCodec](GetResultValue(
-                CCodec.Create(_ensure_compression(value))).release())
+                CCodec.Create(codec_type)).release())
         elif isinstance(value, Codec):
+            if value.name != "lz4" and value.name != "zstd":
+                raise ValueError("Compression type must be lz4, zstd or None")
             self.c_options.codec = (<Codec>value).wrapped
         else:
             raise TypeError(
@@ -406,7 +420,7 @@ cdef class MessageReader(_Weakrefable):
 
         Parameters
         ----------
-        source
+        source : bytes/buffer-like, pyarrow.NativeFile, or file-like Python object
             A readable source, like an InputStream
         """
         cdef:
@@ -472,17 +486,22 @@ cdef class _CRecordBatchWriter(_Weakrefable):
         else:
             raise ValueError(type(table_or_batch))
 
-    def write_batch(self, RecordBatch batch):
+    def write_batch(self, RecordBatch batch, custom_metadata=None):
         """
         Write RecordBatch to stream.
 
         Parameters
         ----------
         batch : RecordBatch
+        custom_metadata : mapping or KeyValueMetadata
+            Keys and values must be string-like / coercible to bytes
         """
+        metadata = ensure_metadata(custom_metadata, allow_none=True)
+        c_meta = pyarrow_unwrap_metadata(metadata)
+
         with nogil:
             check_status(self.writer.get()
-                         .WriteRecordBatch(deref(batch.batch)))
+                         .WriteRecordBatch(deref(batch.batch), c_meta))
 
     def write_table(self, Table table, max_chunksize=None):
         """
@@ -655,15 +674,6 @@ cdef class RecordBatchReader(_Weakrefable):
 
         return pyarrow_wrap_schema(c_schema)
 
-    def get_next_batch(self):
-        """DEPRECATED: return the next record batch.
-
-        Use read_next_batch instead."""
-        import warnings
-        warnings.warn('Please use read_next_batch instead of '
-                      'get_next_batch', FutureWarning)
-        return self.read_next_batch()
-
     def read_next_batch(self):
         """
         Read next RecordBatch from the stream.
@@ -687,6 +697,46 @@ cdef class RecordBatchReader(_Weakrefable):
 
         return pyarrow_wrap_batch(batch)
 
+    def read_next_batch_with_custom_metadata(self):
+        """
+        Read next RecordBatch from the stream along with its custom metadata.
+
+        Raises
+        ------
+        StopIteration:
+            At end of stream.
+
+        Returns
+        -------
+        batch : RecordBatch
+        custom_metadata : KeyValueMetadata
+        """
+        cdef:
+            CRecordBatchWithMetadata batch_with_metadata
+
+        with nogil:
+            batch_with_metadata = GetResultValue(self.reader.get().ReadNext())
+
+        if batch_with_metadata.batch.get() == NULL:
+            raise StopIteration
+
+        return _wrap_record_batch_with_metadata(batch_with_metadata)
+
+    def iter_batches_with_custom_metadata(self):
+        """
+        Iterate over record batches from the stream along with their custom
+        metadata.
+
+        Yields
+        ------
+        RecordBatchWithMetadata
+        """
+        while True:
+            try:
+                yield self.read_next_batch_with_custom_metadata()
+            except StopIteration:
+                return
+
     def read_all(self):
         """
         Read all record batches as a pyarrow.Table.
@@ -761,7 +811,7 @@ cdef class RecordBatchReader(_Weakrefable):
         return self
 
     @staticmethod
-    def from_batches(schema, batches):
+    def from_batches(Schema schema not None, batches):
         """
         Create RecordBatchReader from an iterable of batches.
 
@@ -832,6 +882,27 @@ cdef class _RecordBatchFileWriter(_RecordBatchStreamWriter):
             self.writer = GetResultValue(
                 MakeFileWriter(c_sink, schema.sp_schema, self.options))
 
+_RecordBatchWithMetadata = namedtuple(
+    'RecordBatchWithMetadata',
+    ('batch', 'custom_metadata'))
+
+
+class RecordBatchWithMetadata(_RecordBatchWithMetadata):
+    """RecordBatch with its custom metadata
+
+    Parameters
+    ----------
+    batch : RecordBatch
+    custom_metadata : KeyValueMetadata
+    """
+    __slots__ = ()
+
+
+@staticmethod
+cdef _wrap_record_batch_with_metadata(CRecordBatchWithMetadata c):
+    return RecordBatchWithMetadata(pyarrow_wrap_batch(c.batch),
+                                   pyarrow_wrap_metadata(c.custom_metadata))
+
 
 cdef class _RecordBatchFileReader(_Weakrefable):
     cdef:
@@ -908,6 +979,33 @@ cdef class _RecordBatchFileReader(_Weakrefable):
     # time has passed
     get_record_batch = get_batch
 
+    def get_batch_with_custom_metadata(self, int i):
+        """
+        Read the record batch with the given index along with 
+        its custom metadata
+
+        Parameters
+        ----------
+        i : int
+            The index of the record batch in the IPC file.
+
+        Returns
+        -------
+        batch : RecordBatch
+        custom_metadata : KeyValueMetadata
+        """
+        cdef:
+            CRecordBatchWithMetadata batch_with_metadata
+
+        if i < 0 or i >= self.num_record_batches:
+            raise ValueError('Batch number {0} out of range'.format(i))
+
+        with nogil:
+            batch_with_metadata = GetResultValue(
+                self.reader.get().ReadRecordBatchWithCustomMetadata(i))
+
+        return _wrap_record_batch_with_metadata(batch_with_metadata)
+
     def read_all(self):
         """
         Read all record batches as a pyarrow.Table
@@ -1091,21 +1189,24 @@ def read_schema(obj, DictionaryMemo dictionary_memo=None):
     cdef:
         shared_ptr[CSchema] result
         shared_ptr[CRandomAccessFile] cpp_file
+        Message message
         CDictionaryMemo temp_memo
         CDictionaryMemo* arg_dict_memo
 
-    if isinstance(obj, Message):
-        raise NotImplementedError(type(obj))
-
-    get_reader(obj, False, &cpp_file)
-
     if dictionary_memo is not None:
         arg_dict_memo = dictionary_memo.memo
     else:
         arg_dict_memo = &temp_memo
 
-    with nogil:
-        result = GetResultValue(ReadSchema(cpp_file.get(), arg_dict_memo))
+    if isinstance(obj, Message):
+        message = obj
+        with nogil:
+            result = GetResultValue(ReadSchema(
+                deref(message.message.get()), arg_dict_memo))
+    else:
+        get_reader(obj, False, &cpp_file)
+        with nogil:
+            result = GetResultValue(ReadSchema(cpp_file.get(), arg_dict_memo))
 
     return pyarrow_wrap_schema(result)
 
diff --git a/python/pyarrow/ipc.py b/python/pyarrow/ipc.py
index d63c323b335..523196e1e33 100644
--- a/python/pyarrow/ipc.py
+++ b/python/pyarrow/ipc.py
@@ -59,6 +59,12 @@ def __init__(self, source, *, options=None, memory_pool=None):
     Either a file path, or a writable file object.
 schema : pyarrow.Schema
     The Arrow schema for data to be written to the file.
+use_legacy_format : bool, default None
+    Deprecated in favor of setting options. Cannot be provided with
+    options.
+
+    If None, False will be used unless this default is overridden by
+    setting the environment variable ARROW_PRE_0_15_IPC_FORMAT=1
 options : pyarrow.ipc.IpcWriteOptions
     Options for IPC serialization.
 
@@ -66,13 +72,7 @@ def __init__(self, source, *, options=None, memory_pool=None):
     be used unless overridden by setting the environment variable
     ARROW_PRE_0_15_IPC_FORMAT=1, and the V5 metadata version will be
     used unless overridden by setting the environment variable
-    ARROW_PRE_1_0_METADATA_VERSION=1.
-use_legacy_format : bool, default None
-    Deprecated in favor of setting options. Cannot be provided with
-    options.
-
-    If None, False will be used unless this default is overridden by
-    setting the environment variable ARROW_PRE_0_15_IPC_FORMAT=1"""
+    ARROW_PRE_1_0_METADATA_VERSION=1."""
 
 
 class RecordBatchStreamWriter(lib._RecordBatchStreamWriter):
@@ -164,6 +164,7 @@ def new_stream(sink, schema, *, use_legacy_format=None, options=None):
 Returns
 -------
 writer : RecordBatchStreamWriter
+    A writer for the given sink
 """.format(_ipc_writer_class_doc)
 
 
@@ -180,9 +181,11 @@ def open_stream(source, *, options=None, memory_pool=None):
         If None, default values will be used.
     memory_pool : MemoryPool, default None
         If None, default memory pool is used.
+
     Returns
     -------
     reader : RecordBatchStreamReader
+        A reader for the given source
     """
     return RecordBatchStreamReader(source, options=options,
                                    memory_pool=memory_pool)
@@ -202,6 +205,7 @@ def new_file(sink, schema, *, use_legacy_format=None, options=None):
 Returns
 -------
 writer : RecordBatchFileWriter
+    A writer for the given sink
 """.format(_ipc_writer_class_doc)
 
 
@@ -221,9 +225,11 @@ def open_file(source, footer_offset=None, *, options=None, memory_pool=None):
         If None, default values will be used.
     memory_pool : MemoryPool, default None
         If None, default memory pool is used.
+
     Returns
     -------
     reader : RecordBatchFileReader
+        A reader for the given source
     """
     return RecordBatchFileReader(
         source, footer_offset=footer_offset,
@@ -271,6 +277,7 @@ def deserialize_pandas(buf, *, use_threads=True):
     Returns
     -------
     df : pandas.DataFrame
+        The buffer deserialized as pandas DataFrame
     """
     buffer_reader = pa.BufferReader(buf)
     with pa.RecordBatchStreamReader(buffer_reader) as reader:
diff --git a/python/pyarrow/lib.pxd b/python/pyarrow/lib.pxd
index 953b0e7b518..faa98d150f6 100644
--- a/python/pyarrow/lib.pxd
+++ b/python/pyarrow/lib.pxd
@@ -18,13 +18,47 @@
 # cython: language_level = 3
 
 from cpython cimport PyObject
-from libcpp cimport nullptr
+from libcpp cimport nullptr, bool as c_bool
 from libcpp.cast cimport dynamic_cast
 from libcpp.memory cimport dynamic_pointer_cast
 from pyarrow.includes.common cimport *
 from pyarrow.includes.libarrow cimport *
 from pyarrow.includes.libarrow_python cimport *
 
+# Will be available in Cython 3, not backported
+# ref: https://github.com/cython/cython/issues/3293#issuecomment-1223058101
+cdef extern from "<optional>" namespace "std" nogil:
+    cdef cppclass nullopt_t:
+        nullopt_t()
+
+    cdef nullopt_t nullopt
+
+    cdef cppclass optional[T]:
+        ctypedef T value_type
+        optional()
+        optional(nullopt_t)
+        optional(optional&) except +
+        optional(T&) except +
+        c_bool has_value()
+        T& value()
+        T& value_or[U](U& default_value)
+        void swap(optional&)
+        void reset()
+        T& emplace(...)
+        T& operator*()
+        # T* operator->() # Not Supported
+        optional& operator=(optional&)
+        optional& operator=[U](U&)
+        c_bool operator bool()
+        c_bool operator!()
+        c_bool operator==[U](optional&, U&)
+        c_bool operator!=[U](optional&, U&)
+        c_bool operator<[U](optional&, U&)
+        c_bool operator>[U](optional&, U&)
+        c_bool operator<=[U](optional&, U&)
+        c_bool operator>=[U](optional&, U&)
+
+    optional[T] make_optional[T](...) except +
 
 cdef extern from "Python.h":
     int PySlice_Check(object)
@@ -41,6 +75,7 @@ cdef class IpcWriteOptions(_Weakrefable):
     cdef:
         CIpcWriteOptions c_options
 
+
 cdef class IpcReadOptions(_Weakrefable):
     cdef:
         CIpcReadOptions c_options
@@ -71,7 +106,7 @@ cdef class DataType(_Weakrefable):
         bytes pep3118_format
 
     cdef void init(self, const shared_ptr[CDataType]& type) except *
-    cdef Field field(self, int i)
+    cpdef Field field(self, i)
 
 
 cdef class ListType(DataType):
@@ -383,7 +418,7 @@ cdef class MapArray(ListArray):
     pass
 
 
-cdef class FixedSizeListArray(Array):
+cdef class FixedSizeListArray(BaseListArray):
     pass
 
 
@@ -536,6 +571,9 @@ cdef shared_ptr[CInputStream] native_transcoding_input_stream(
     shared_ptr[CInputStream] stream, src_encoding,
     dest_encoding) except *
 
+cdef shared_ptr[function[StreamWrapFunc]] make_streamwrap_func(
+    src_encoding, dest_encoding) except *
+
 # Default is allow_none=False
 cpdef DataType ensure_type(object type, bint allow_none=*)
 
diff --git a/python/pyarrow/memory.pxi b/python/pyarrow/memory.pxi
index 2258be78d54..1ddcb01ccb6 100644
--- a/python/pyarrow/memory.pxi
+++ b/python/pyarrow/memory.pxi
@@ -76,6 +76,12 @@ cdef class MemoryPool(_Weakrefable):
         """
         return frombytes(self.pool.backend_name())
 
+    def __repr__(self):
+        name = f"pyarrow.{self.__class__.__name__}"
+        return (f"<{name} "
+                f"backend_name={self.backend_name} "
+                f"bytes_allocated={self.bytes_allocated()} "
+                f"max_memory={self.max_memory()}>")
 
 cdef CMemoryPool* maybe_unbox_memory_pool(MemoryPool memory_pool):
     if memory_pool is None:
@@ -118,6 +124,11 @@ cdef class ProxyMemoryPool(MemoryPool):
 def default_memory_pool():
     """
     Return the process-global memory pool.
+
+    Examples
+    --------
+    >>> default_memory_pool()
+    <pyarrow.MemoryPool backend_name=... bytes_allocated=0 max_memory=...>
     """
     cdef:
         MemoryPool pool = MemoryPool.__new__(MemoryPool)
diff --git a/python/pyarrow/orc.py b/python/pyarrow/orc.py
index f5198fcb87e..6f5feafb336 100644
--- a/python/pyarrow/orc.py
+++ b/python/pyarrow/orc.py
@@ -175,7 +175,8 @@ def read(self, columns=None):
         columns : list
             If not None, only these columns will be read from the file. A
             column name may be a prefix of a nested field, e.g. 'a' will select
-            'a.b', 'a.c', and 'a.d.e'
+            'a.b', 'a.c', and 'a.d.e'. Output always follows the
+            ordering of the file and not the `columns` list.
 
         Returns
         -------
@@ -321,7 +322,8 @@ def read_table(source, columns=None, filesystem=None):
 columns : list
     If not None, only these columns will be read from the file. A column
     name may be a prefix of a nested field, e.g. 'a' will select 'a.b',
-    'a.c', and 'a.d.e'. If empty, no columns will be read. Note
+    'a.c', and 'a.d.e'. Output always follows the ordering of the file and
+    not the `columns` list. If empty, no columns will be read. Note
     that the table will still have the correct num_rows set despite having
     no columns.
 filesystem : FileSystem, default None
diff --git a/python/pyarrow/pandas-shim.pxi b/python/pyarrow/pandas-shim.pxi
index 0e7cfe93742..4f96943e1b9 100644
--- a/python/pyarrow/pandas-shim.pxi
+++ b/python/pyarrow/pandas-shim.pxi
@@ -59,16 +59,16 @@ cdef class _PandasAPIShim(object):
         self._version = pd.__version__
         self._loose_version = Version(pd.__version__)
 
-        if self._loose_version < Version('0.23.0'):
+        if self._loose_version < Version('1.0.0'):
             self._have_pandas = False
             if raise_:
                 raise ImportError(
-                    "pyarrow requires pandas 0.23.0 or above, pandas {} is "
+                    "pyarrow requires pandas 1.0.0 or above, pandas {} is "
                     "installed".format(self._version)
                 )
             else:
                 warnings.warn(
-                    "pyarrow requires pandas 0.23.0 or above, pandas {} is "
+                    "pyarrow requires pandas 1.0.0 or above, pandas {} is "
                     "installed. Therefore, pandas-specific integration is not "
                     "used.".format(self._version), stacklevel=2)
                 return
@@ -83,22 +83,12 @@ cdef class _PandasAPIShim(object):
             self._series, self._index, self._categorical_type,
             self._extension_array)
         self._extension_dtype = pd.api.extensions.ExtensionDtype
-        if self._loose_version >= Version('0.24.0'):
-            self._is_extension_array_dtype = \
-                pd.api.types.is_extension_array_dtype
-        else:
-            self._is_extension_array_dtype = None
-
+        self._is_extension_array_dtype = (
+            pd.api.types.is_extension_array_dtype)
         self._types_api = pd.api.types
         self._datetimetz_type = pd.api.types.DatetimeTZDtype
         self._have_pandas = True
-
-        if self._loose_version > Version('0.25'):
-            self.has_sparse = False
-        else:
-            self.has_sparse = True
-
-        self._pd024 = self._loose_version >= Version('0.24')
+        self.has_sparse = False
 
     cdef inline _check_import(self, bint raise_=True):
         if self._tried_importing_pandas:
@@ -232,10 +222,7 @@ cdef class _PandasAPIShim(object):
         self._check_import()
         if isinstance(obj.dtype, (self.pd.api.types.IntervalDtype,
                                   self.pd.api.types.PeriodDtype)):
-            if self._pd024:
-                # only since pandas 0.24, interval and period are stored as
-                # such in Series
-                return obj.array
+            return obj.array
         return obj.values
 
     def assert_frame_equal(self, *args, **kwargs):
diff --git a/python/pyarrow/pandas_compat.py b/python/pyarrow/pandas_compat.py
index 689cbca6b71..d624459ca42 100644
--- a/python/pyarrow/pandas_compat.py
+++ b/python/pyarrow/pandas_compat.py
@@ -541,7 +541,9 @@ def dataframe_to_types(df, preserve_index, columns=None):
         if _pandas_api.is_categorical(values):
             type_ = pa.array(c, from_pandas=True).type
         elif _pandas_api.is_extension_array_dtype(values):
-            type_ = pa.array(c.head(0), from_pandas=True).type
+            empty = c.head(0) if isinstance(
+                c, _pandas_api.pd.Series) else c[:0]
+            type_ = pa.array(empty, from_pandas=True).type
         else:
             values, type_ = get_datetimetz_type(values, c.dtype, None)
             type_ = pa.lib._ndarray_to_arrow_type(values, type_)
@@ -1087,9 +1089,8 @@ def _pandas_type_to_numpy_type(pandas_type):
 
 
 def _get_multiindex_codes(mi):
-    # compat for pandas < 0.24 (MI labels renamed to codes).
     if isinstance(mi, _pandas_api.pd.MultiIndex):
-        return mi.codes if hasattr(mi, 'codes') else mi.labels
+        return mi.codes
     else:
         return None
 
diff --git a/python/pyarrow/parquet/core.py b/python/pyarrow/parquet/core.py
index 4e2c2739532..8692bf4d368 100644
--- a/python/pyarrow/parquet/core.py
+++ b/python/pyarrow/parquet/core.py
@@ -18,9 +18,10 @@
 
 from collections import defaultdict
 from concurrent import futures
+from contextlib import nullcontext
 from functools import partial, reduce
 
-import sys
+import inspect
 import json
 from collections.abc import Collection
 import numpy as np
@@ -41,10 +42,10 @@
                               ParquetLogicalType,
                               FileEncryptionProperties,
                               FileDecryptionProperties)
-from pyarrow.fs import (LocalFileSystem, FileSystem,
+from pyarrow.fs import (LocalFileSystem, FileSystem, FileType,
                         _resolve_filesystem_and_path, _ensure_filesystem)
 from pyarrow import filesystem as legacyfs
-from pyarrow.util import guid, _is_path_like, _stringify_path
+from pyarrow.util import guid, _is_path_like, _stringify_path, _deprecate_api
 
 _URI_STRIP_SCHEMES = ('hdfs',)
 
@@ -140,11 +141,28 @@ def _check_filters(filters, check_null_strings=True):
     """
 
 
-def _filters_to_expression(filters):
+def filters_to_expression(filters):
     """
-    Check if filters are well-formed.
+    Check if filters are well-formed and convert to an ``Expression``.
+
+    Parameters
+    ----------
+    filters : List[Tuple] or List[List[Tuple]]
+
+    Notes
+    -----
+    See internal ``pyarrow._DNF_filter_doc`` attribute for more details.
+
+    Examples
+    --------
+
+    >>> filters_to_expression([('foo', '==', 'bar')])
+    <pyarrow.compute.Expression (foo == "bar")>
 
-    See _DNF_filter_doc above for more details.
+    Returns
+    -------
+    pyarrow.compute.Expression
+        An Expression representing the filters
     """
     import pyarrow.dataset as ds
 
@@ -190,6 +208,11 @@ def convert_single_predicate(col, op, val):
     return reduce(operator.or_, disjunction_members)
 
 
+_filters_to_expression = _deprecate_api(
+    "_filters_to_expression", "filters_to_expression",
+    filters_to_expression, "10.0.0", DeprecationWarning)
+
+
 # ----------------------------------------------------------------------
 # Reading a single Parquet file
 
@@ -208,6 +231,8 @@ class ParquetFile:
     common_metadata : FileMetaData, default None
         Will be used in reads for pandas schema metadata if not found in the
         main file's metadata, no other uses at the moment.
+    read_dictionary : list
+        List of column names to read directly as DictionaryArray.
     memory_map : bool, default False
         If the source is a file path, use a memory map to read file, which can
         improve performance in some environments.
@@ -218,9 +243,7 @@ class ParquetFile:
         Coalesce and issue file reads in parallel to improve performance on
         high-latency filesystems (e.g. S3). If True, Arrow will use a
         background I/O thread pool.
-    read_dictionary : list
-        List of column names to read directly as DictionaryArray.
-    coerce_int96_timestamp_unit : str, default None.
+    coerce_int96_timestamp_unit : str, default None
         Cast timestamps that are stored in INT96 format to a particular
         resolution (e.g. 'ms'). Setting to None is equivalent to 'ns'
         and therefore INT96 timestamps will be inferred as timestamps
@@ -235,6 +258,10 @@ class ParquetFile:
         If not None, override the maximum total size of containers allocated
         when decoding Thrift structures. The default limit should be
         sufficient for most Parquet files.
+    filesystem : FileSystem, default None
+        If nothing passed, will be inferred based on path.
+        Path will try to be found in the local on-disk filesystem otherwise
+        it will be parsed as an URI to determine the filesystem.
 
     Examples
     --------
@@ -282,7 +309,16 @@ def __init__(self, source, *, metadata=None, common_metadata=None,
                  read_dictionary=None, memory_map=False, buffer_size=0,
                  pre_buffer=False, coerce_int96_timestamp_unit=None,
                  decryption_properties=None, thrift_string_size_limit=None,
-                 thrift_container_size_limit=None):
+                 thrift_container_size_limit=None, filesystem=None):
+
+        self._close_source = getattr(source, 'closed', True)
+
+        filesystem, source = _resolve_filesystem_and_path(
+            source, filesystem, memory_map)
+        if filesystem is not None:
+            source = filesystem.open_input_file(source)
+            self._close_source = True  # We opened it here, ensure we close it.
+
         self.reader = ParquetReader()
         self.reader.open(
             source, use_memory_map=memory_map,
@@ -296,6 +332,12 @@ def __init__(self, source, *, metadata=None, common_metadata=None,
         self.common_metadata = common_metadata
         self._nested_paths_by_prefix = self._build_nested_paths()
 
+    def __enter__(self):
+        return self
+
+    def __exit__(self, *args, **kwargs):
+        self.close()
+
     def _build_nested_paths(self):
         paths = self.reader.column_paths
 
@@ -375,6 +417,14 @@ def num_row_groups(self):
         """
         return self.reader.num_row_groups
 
+    def close(self, force: bool = False):
+        if self._close_source or force:
+            self.reader.close()
+
+    @property
+    def closed(self) -> bool:
+        return self.reader.closed
+
     def read_row_group(self, i, columns=None, use_threads=True,
                        use_pandas_metadata=False):
         """
@@ -492,9 +542,9 @@ def iter_batches(self, batch_size=65536, row_groups=None, columns=None,
             If True and file has custom pandas schema metadata, ensure that
             index columns are also loaded.
 
-        Returns
-        -------
-        iterator of pyarrow.RecordBatch
+        Yields
+        ------
+        pyarrow.RecordBatch
             Contents of each batch as a record batch
 
         Examples
@@ -596,7 +646,8 @@ def scan_contents(self, columns=None, batch_size=65536):
 
         Returns
         -------
-        num_rows : number of rows in file
+        num_rows : int
+            Number of rows in file
 
         Examples
         --------
@@ -701,6 +752,12 @@ def _sanitize_table(table, new_schema, flavor):
 use_dictionary : bool or list
     Specify if we should use dictionary encoding in general or only for
     some columns.
+compression : str or dict
+    Specify the compression codec, either on a general basis or per-column.
+    Valid values: {'NONE', 'SNAPPY', 'GZIP', 'BROTLI', 'LZ4', 'ZSTD'}.
+write_statistics : bool or list
+    Specify if we should write statistics in general (default is True) or only
+    for some columns.
 use_deprecated_int96_timestamps : bool, default None
     Write timestamps to INT96 Parquet format. Defaults to False unless enabled
     by flavor argument. This take priority over the coerce_timestamps option.
@@ -714,22 +771,16 @@ def _sanitize_table(table, new_schema, flavor):
     If the casting results in loss of data, it will raise an exception
     unless ``allow_truncated_timestamps=True`` is given.
     Valid values: {None, 'ms', 'us'}
-data_page_size : int, default None
-    Set a target threshold for the approximate encoded size of data
-    pages within a column chunk (in bytes). If None, use the default data page
-    size of 1MByte.
 allow_truncated_timestamps : bool, default False
     Allow loss of data when coercing timestamps to a particular
     resolution. E.g. if microsecond or nanosecond data is lost when coercing to
     'ms', do not raise an exception. Passing ``allow_truncated_timestamp=True``
     will NOT result in the truncation exception being ignored unless
     ``coerce_timestamps`` is not None.
-compression : str or dict
-    Specify the compression codec, either on a general basis or per-column.
-    Valid values: {'NONE', 'SNAPPY', 'GZIP', 'BROTLI', 'LZ4', 'ZSTD'}.
-write_statistics : bool or list
-    Specify if we should write statistics in general (default is True) or only
-    for some columns.
+data_page_size : int, default None
+    Set a target threshold for the approximate encoded size of data
+    pages within a column chunk (in bytes). If None, use the default data page
+    size of 1MByte.
 flavor : {'spark'}, default None
     Sanitize schema or set other compatibility options to work with
     various target systems.
@@ -797,6 +848,14 @@ def _sanitize_table(table, new_schema, flavor):
 dictionary_pagesize_limit : int, default None
     Specify the dictionary page size limit per row group. If None, use the
     default 1MB.
+store_schema : bool, default True
+    By default, the Arrow schema is serialized and stored in the Parquet
+    file metadata (in the "ARROW:schema" key). When reading the file,
+    if this key is available, it will be used to more faithfully recreate
+    the original Arrow data. For example, for tz-aware timestamp columns
+    it will restore the timezone (Parquet only stores the UTC values without
+    timezone), or columns with duration type will be restored from the int64
+    Parquet column.
 """
 
 _parquet_writer_example_doc = """\
@@ -888,6 +947,7 @@ def __init__(self, where, schema, filesystem=None,
                  encryption_properties=None,
                  write_batch_size=None,
                  dictionary_pagesize_limit=None,
+                 store_schema=True,
                  **options):
         if use_deprecated_int96_timestamps is None:
             # Use int96 timestamps for Spark
@@ -943,6 +1003,7 @@ def __init__(self, where, schema, filesystem=None,
             encryption_properties=encryption_properties,
             write_batch_size=write_batch_size,
             dictionary_pagesize_limit=dictionary_pagesize_limit,
+            store_schema=store_schema,
             **options)
         self.is_open = True
 
@@ -1059,12 +1120,12 @@ class ParquetDatasetPiece:
         Path to file in the file system where this piece is located.
     open_file_func : callable
         Function to use for obtaining file handle to dataset piece.
-    partition_keys : list of tuples
-        Two-element tuples of ``(column name, ordinal index)``.
-    row_group : int, default None
-        Row group to load. By default, reads all row groups.
     file_options : dict
         Options
+    row_group : int, default None
+        Row group to load. By default, reads all row groups.
+    partition_keys : list of tuples
+        Two-element tuples of ``(column name, ordinal index)``.
     """
 
     def __init__(self, path, open_file_func=partial(open, mode='rb'),
@@ -1127,9 +1188,10 @@ def get_metadata(self):
         Returns
         -------
         metadata : FileMetaData
+            The file's metadata
         """
-        f = self.open()
-        return f.metadata
+        with self.open() as parquet:
+            return parquet.metadata
 
     def open(self):
         """
@@ -1138,6 +1200,10 @@ def open(self):
         reader = self.open_file_func(self.path)
         if not isinstance(reader, ParquetFile):
             reader = ParquetFile(reader, **self.file_options)
+
+        # ensure reader knows it's responsible for closing source
+        # since we opened the source here internally.
+        reader._close_source = True
         return reader
 
     def read(self, columns=None, use_threads=True, partitions=None,
@@ -1159,6 +1225,7 @@ def read(self, columns=None, use_threads=True, partitions=None,
         Returns
         -------
         table : pyarrow.Table
+            The piece as a pyarrow.Table.
         """
         if self.open_file_func is not None:
             reader = self.open()
@@ -1203,6 +1270,9 @@ def read(self, columns=None, use_threads=True, partitions=None,
                 arr = pa.DictionaryArray.from_arrays(indices, dictionary)
                 table = table.append_column(name, arr)
 
+        # To ParquetFile the source looked like it was already open, so won't
+        # actually close it without overriding.
+        reader.close(force=True)
         return table
 
 
@@ -1243,7 +1313,8 @@ def get_index(self, key):
 
         Parameters
         ----------
-        key : The value for which we want to known the index.
+        key : str or int
+            The value for which we want to known the index.
         """
         if key in self.key_indices:
             return self.key_indices[key]
@@ -1611,11 +1682,11 @@ class ParquetDataset:
     If nothing passed, will be inferred based on path.
     Path will try to be found in the local on-disk filesystem otherwise
     it will be parsed as an URI to determine the filesystem.
-metadata : pyarrow.parquet.FileMetaData
-    Use metadata obtained elsewhere to validate file schemas.
 schema : pyarrow.parquet.Schema
     Use schema obtained elsewhere to validate file schemas. Alternative to
     metadata parameter.
+metadata : pyarrow.parquet.FileMetaData
+    Use metadata obtained elsewhere to validate file schemas.
 split_row_groups : bool, default False
     Divide files into pieces for each row group in the file.
 validate_schema : bool, default True
@@ -1635,7 +1706,7 @@ class ParquetDataset:
     dataset metadata. Increasing this is helpful to read partitioned
     datasets.
 {0}
-use_legacy_dataset : bool, default True
+use_legacy_dataset : bool, default False
     Set to False to enable the new code path (using the
     new Arrow Dataset API). Among other things, this allows to pass
     `filters` for all columns and not only the partition keys, enables
@@ -1647,7 +1718,7 @@ class ParquetDataset:
     use_legacy_dataset=False. If using a filesystem layer that itself
     performs readahead (e.g. fsspec's S3FS), disable readahead for best
     results.
-coerce_int96_timestamp_unit : str, default None.
+coerce_int96_timestamp_unit : str, default None
     Cast timestamps that are stored in INT96 format to a particular resolution
     (e.g. 'ms'). Setting to None is equivalent to 'ns' and therefore INT96
     timestamps will be inferred as timestamps in nanoseconds.
@@ -1673,13 +1744,20 @@ def __new__(cls, path_or_paths=None, filesystem=None, schema=None,
                 coerce_int96_timestamp_unit=None,
                 thrift_string_size_limit=None,
                 thrift_container_size_limit=None):
+
+        extra_msg = ""
         if use_legacy_dataset is None:
-            # if a new filesystem is passed -> default to new implementation
-            if isinstance(filesystem, FileSystem):
-                use_legacy_dataset = False
-            # otherwise the default is still True
-            else:
+            # if an old filesystem is passed -> still use to old implementation
+            if isinstance(filesystem, legacyfs.FileSystem):
                 use_legacy_dataset = True
+                extra_msg = (
+                    " The legacy behaviour was still chosen because a "
+                    "deprecated 'pyarrow.filesystem' filesystem was specified "
+                    "(use the filesystems from pyarrow.fs instead)."
+                )
+            # otherwise the default is already False
+            else:
+                use_legacy_dataset = False
 
         if not use_legacy_dataset:
             return _ParquetDatasetV2(
@@ -1699,6 +1777,11 @@ def __new__(cls, path_or_paths=None, filesystem=None, schema=None,
                 thrift_string_size_limit=thrift_string_size_limit,
                 thrift_container_size_limit=thrift_container_size_limit,
             )
+        warnings.warn(
+            "Passing 'use_legacy_dataset=True' to get the legacy behaviour is "
+            "deprecated as of pyarrow 11.0.0, and the legacy implementation "
+            "will be removed in a future version." + extra_msg,
+            FutureWarning, stacklevel=2)
         self = object.__new__(cls)
         return self
 
@@ -1706,7 +1789,7 @@ def __init__(self, path_or_paths, filesystem=None, schema=None,
                  metadata=None, split_row_groups=False, validate_schema=True,
                  filters=None, metadata_nthreads=None, read_dictionary=None,
                  memory_map=False, buffer_size=0, partitioning="hive",
-                 use_legacy_dataset=True, pre_buffer=True,
+                 use_legacy_dataset=None, pre_buffer=True,
                  coerce_int96_timestamp_unit=None,
                  thrift_string_size_limit=None,
                  thrift_container_size_limit=None):
@@ -1784,12 +1867,21 @@ def __init__(self, path_or_paths, filesystem=None, schema=None,
             raise NotImplementedError("split_row_groups not yet implemented")
 
         if filters is not None:
+            if hasattr(filters, "cast"):
+                raise TypeError(
+                    "Expressions as filter not supported for legacy dataset")
             filters = _check_filters(filters)
             self._filter(filters)
 
         if validate_schema:
             self.validate_schemas()
 
+    def __getnewargs_ex__(self):
+        # when creating a new instance while unpickling, force to use the
+        # legacy code path to create a ParquetDataset instance
+        # instead of a _ParquetDatasetV2 instance
+        return ((), dict(use_legacy_dataset=True))
+
     def equals(self, other):
         if not isinstance(other, ParquetDataset):
             raise TypeError('`other` must be an instance of ParquetDataset')
@@ -1889,7 +1981,8 @@ def read(self, columns=None, use_threads=True, use_pandas_metadata=False):
         """
         tables = []
         for piece in self._pieces:
-            table = piece.read(columns=columns, use_threads=use_threads,
+            table = piece.read(columns=columns,
+                               use_threads=use_threads,
                                partitions=self._partitions,
                                use_pandas_metadata=use_pandas_metadata)
             tables.append(table)
@@ -2318,9 +2411,9 @@ def __init__(self, path_or_paths, filesystem=None, *, filters=None,
         if decryption_properties is not None:
             read_options.update(decryption_properties=decryption_properties)
 
-        # map filters to Expressions
-        self._filters = filters
-        self._filter_expression = filters and _filters_to_expression(filters)
+        self._filter_expression = None
+        if filters is not None:
+            self._filter_expression = filters_to_expression(filters)
 
         # map old filesystems to new one
         if filesystem is not None:
@@ -2345,6 +2438,7 @@ def __init__(self, path_or_paths, filesystem=None, *, filters=None,
 
         # check for single fragment dataset
         single_file = None
+        self._base_dir = None
         if not isinstance(path_or_paths, list):
             if _is_path_like(path_or_paths):
                 path_or_paths = _stringify_path(path_or_paths)
@@ -2355,8 +2449,11 @@ def __init__(self, path_or_paths, filesystem=None, *, filters=None,
                             path_or_paths)
                     except ValueError:
                         filesystem = LocalFileSystem(use_mmap=memory_map)
-                if filesystem.get_file_info(path_or_paths).is_file:
+                finfo = filesystem.get_file_info(path_or_paths)
+                if finfo.is_file:
                     single_file = path_or_paths
+                if finfo.type == FileType.Directory:
+                    self._base_dir = path_or_paths
             else:
                 single_file = path_or_paths
 
@@ -2382,6 +2479,27 @@ def __init__(self, path_or_paths, filesystem=None, *, filters=None,
                                    partitioning=partitioning,
                                    ignore_prefixes=ignore_prefixes)
 
+    def equals(self, other):
+        if isinstance(other, ParquetDataset):
+            raise TypeError(
+                "`other` must be an instance of ParquetDataset constructed "
+                "with `use_legacy_dataset=False`"
+            )
+        if not isinstance(other, _ParquetDatasetV2):
+            raise TypeError('`other` must be an instance of ParquetDataset')
+
+        return (self.schema == other.schema and
+                self._dataset.format == other._dataset.format and
+                self.filesystem == other.filesystem and
+                # self.fragments == other.fragments and
+                self.files == other.files)
+
+    def __eq__(self, other):
+        try:
+            return self.equals(other)
+        except TypeError:
+            return NotImplemented
+
     @property
     def schema(self):
         """
@@ -2459,7 +2577,16 @@ def read(self, columns=None, use_threads=True, use_pandas_metadata=False):
         """
         # if use_pandas_metadata, we need to include index columns in the
         # column selection, to be able to restore those in the pandas DataFrame
-        metadata = self.schema.metadata
+        metadata = self.schema.metadata or {}
+
+        if use_pandas_metadata:
+            # if the dataset schema metadata itself doesn't have pandas
+            # then try to get this from common file (for backwards compat)
+            if b"pandas" not in metadata:
+                common_metadata = self._get_common_pandas_metadata()
+                if common_metadata:
+                    metadata = common_metadata
+
         if columns is not None and use_pandas_metadata:
             if metadata and b'pandas' in metadata:
                 # RangeIndex can be represented as dict instead of column name
@@ -2486,6 +2613,24 @@ def read(self, columns=None, use_threads=True, use_pandas_metadata=False):
 
         return table
 
+    def _get_common_pandas_metadata(self):
+
+        if not self._base_dir:
+            return None
+
+        metadata = None
+        for name in ["_common_metadata", "_metadata"]:
+            metadata_path = os.path.join(str(self._base_dir), name)
+            finfo = self.filesystem.get_file_info(metadata_path)
+            if finfo.is_file:
+                pq_meta = read_metadata(
+                    metadata_path, filesystem=self.filesystem)
+                metadata = pq_meta.metadata
+                if metadata and b'pandas' in metadata:
+                    break
+
+        return metadata
+
     def read_pandas(self, **kwargs):
         """
         Read dataset including pandas metadata, if any. Other arguments passed
@@ -2623,19 +2768,6 @@ def partitioning(self):
     Optionally provide the Schema for the parquet dataset, in which case it
     will not be inferred from the source.
 {1}
-use_legacy_dataset : bool, default False
-    By default, `read_table` uses the new Arrow Datasets API since
-    pyarrow 1.0.0. Among other things, this allows to pass `filters`
-    for all columns and not only the partition keys, enables
-    different partitioning schemes, etc.
-    Set to True to use the legacy behaviour (this option is deprecated,
-    and the legacy implementation will be removed in a future version).
-ignore_prefixes : list, optional
-    Files matching any of these prefixes will be ignored by the
-    discovery process if use_legacy_dataset=False.
-    This is matched to the basename of a path.
-    By default this is ['.', '_'].
-    Note that discovery happens only if a directory is passed as source.
 filesystem : FileSystem, default None
     If nothing passed, will be inferred based on path.
     Path will try to be found in the local on-disk filesystem otherwise
@@ -2650,6 +2782,19 @@ def partitioning(self):
     and different partitioning schemes are supported.
 
     {3}
+use_legacy_dataset : bool, default False
+    By default, `read_table` uses the new Arrow Datasets API since
+    pyarrow 1.0.0. Among other things, this allows to pass `filters`
+    for all columns and not only the partition keys, enables
+    different partitioning schemes, etc.
+    Set to True to use the legacy behaviour (this option is deprecated,
+    and the legacy implementation will be removed in a future version).
+ignore_prefixes : list, optional
+    Files matching any of these prefixes will be ignored by the
+    discovery process if use_legacy_dataset=False.
+    This is matched to the basename of a path.
+    By default this is ['.', '_'].
+    Note that discovery happens only if a directory is passed as source.
 pre_buffer : bool, default True
     Coalesce and issue file reads in parallel to improve performance on
     high-latency filesystems (e.g. S3). If True, Arrow will use a
@@ -2657,7 +2802,7 @@ def partitioning(self):
     use_legacy_dataset=False. If using a filesystem layer that itself
     performs readahead (e.g. fsspec's S3FS), disable readahead for best
     results.
-coerce_int96_timestamp_unit : str, default None.
+coerce_int96_timestamp_unit : str, default None
     Cast timestamps that are stored in INT96 format to a particular
     resolution (e.g. 'ms'). Setting to None is equivalent to 'ns'
     and therefore INT96 timestamps will be inferred as timestamps
@@ -2762,9 +2907,9 @@ def partitioning(self):
 
 
 def read_table(source, *, columns=None, use_threads=True, metadata=None,
-               schema=None, use_pandas_metadata=False, memory_map=False,
-               read_dictionary=None, filesystem=None, filters=None,
-               buffer_size=0, partitioning="hive", use_legacy_dataset=False,
+               schema=None, use_pandas_metadata=False, read_dictionary=None,
+               memory_map=False, buffer_size=0, partitioning="hive",
+               filesystem=None, filters=None, use_legacy_dataset=False,
                ignore_prefixes=None, pre_buffer=True,
                coerce_int96_timestamp_unit=None,
                decryption_properties=None, thrift_string_size_limit=None,
@@ -2845,14 +2990,19 @@ def read_table(source, *, columns=None, use_threads=True, metadata=None,
             "use_legacy_dataset=False")
 
     if _is_path_like(source):
-        pf = ParquetDataset(
-            source, metadata=metadata, memory_map=memory_map,
-            read_dictionary=read_dictionary,
-            buffer_size=buffer_size,
-            filesystem=filesystem, filters=filters,
-            partitioning=partitioning,
-            coerce_int96_timestamp_unit=coerce_int96_timestamp_unit
-        )
+        with warnings.catch_warnings():
+            # Suppress second warning from ParquetDataset constructor
+            warnings.filterwarnings(
+                "ignore", "Passing 'use_legacy_dataset", FutureWarning)
+            pf = ParquetDataset(
+                source, metadata=metadata, memory_map=memory_map,
+                read_dictionary=read_dictionary,
+                buffer_size=buffer_size,
+                filesystem=filesystem, filters=filters,
+                partitioning=partitioning,
+                coerce_int96_timestamp_unit=coerce_int96_timestamp_unit,
+                use_legacy_dataset=True,
+            )
     else:
         pf = ParquetFile(
             source, metadata=metadata,
@@ -2871,10 +3021,9 @@ def read_table(source, *, columns=None, use_threads=True, metadata=None,
 
 Note: starting with pyarrow 1.0, the default for `use_legacy_dataset` is
 switched to False.""",
-    "\n".join((_read_docstring_common,
-               """use_pandas_metadata : bool, default False
+    "\n".join(("""use_pandas_metadata : bool, default False
     If True and file has custom pandas schema metadata, ensure that
-    index columns are also loaded.""")),
+    index columns are also loaded.""", _read_docstring_common)),
     """pyarrow.Table
     Content of the file as a table (of columns)""",
     _DNF_filter_doc, _read_table_example)
@@ -2914,6 +3063,7 @@ def write_table(table, where, row_group_size=None, version='2.4',
                 encryption_properties=None,
                 write_batch_size=None,
                 dictionary_pagesize_limit=None,
+                store_schema=True,
                 **kwargs):
     row_group_size = kwargs.pop('chunk_size', row_group_size)
     use_int96 = use_deprecated_int96_timestamps
@@ -2938,6 +3088,7 @@ def write_table(table, where, row_group_size=None, version='2.4',
                 encryption_properties=encryption_properties,
                 write_batch_size=write_batch_size,
                 dictionary_pagesize_limit=dictionary_pagesize_limit,
+                store_schema=store_schema,
                 **kwargs) as writer:
             writer.write_table(table, row_group_size=row_group_size)
     except Exception:
@@ -3043,10 +3194,6 @@ def write_to_dataset(table, root_path, partition_cols=None,
     table : pyarrow.Table
     root_path : str, pathlib.Path
         The root directory of the dataset
-    filesystem : FileSystem, default None
-        If nothing passed, will be inferred based on path.
-        Path will try to be found in the local on-disk filesystem otherwise
-        it will be parsed as an URI to determine the filesystem.
     partition_cols : list,
         Column names by which to partition the dataset.
         Columns are partitioned in the order they are given
@@ -3057,16 +3204,16 @@ def write_to_dataset(table, root_path, partition_cols=None,
         This option is only supported for use_legacy_dataset=True.
         When use_legacy_dataset=None and this option is specified,
         use_legacy_datase will be set to True.
+    filesystem : FileSystem, default None
+        If nothing passed, will be inferred based on path.
+        Path will try to be found in the local on-disk filesystem otherwise
+        it will be parsed as an URI to determine the filesystem.
     use_legacy_dataset : bool
         Default is False. Set to True to use the the legacy behaviour
         (this option is deprecated, and the legacy implementation will be
         removed in a future version). The legacy implementation still
         supports the `partition_filename_cb` keyword but is less efficient
         when using partition columns.
-    use_threads : bool, default True
-        Write files in parallel. If enabled, then maximum parallelism will be
-        used determined by the number of available CPU cores.
-        This option is only supported for use_legacy_dataset=False.
     schema : Schema, optional
         This option is only supported for use_legacy_dataset=False.
     partitioning : Partitioning or list[str], optional
@@ -3081,6 +3228,10 @@ def write_to_dataset(table, root_path, partition_cols=None,
         The token '{i}' will be replaced with an automatically incremented
         integer. If not specified, it defaults to "guid-{i}.parquet".
         This option is only supported for use_legacy_dataset=False.
+    use_threads : bool, default True
+        Write files in parallel. If enabled, then maximum parallelism will be
+        used determined by the number of available CPU cores.
+        This option is only supported for use_legacy_dataset=False.
     file_visitor : function
         If set, this function will be called with a WrittenFile instance
         for each file created during the call.  This object will have both
@@ -3100,6 +3251,7 @@ def write_to_dataset(table, root_path, partition_cols=None,
 
             def file_visitor(written_file):
                 visited_paths.append(written_file.path)
+
         This option is only supported for use_legacy_dataset=False.
     existing_data_behavior : 'overwrite_or_ignore' | 'error' | \
 'delete_matching'
@@ -3121,9 +3273,9 @@ def file_visitor(written_file):
         This option is only supported for use_legacy_dataset=False.
     **kwargs : dict,
         When use_legacy_dataset=False, used as additional kwargs for
-        `dataset.write_dataset` function (passed to
-        `ParquetFileFormat.make_write_options`). See the docstring
-        of `write_table` for the available options.
+        `dataset.write_dataset` function for matching kwargs, and remainder to
+        `ParquetFileFormat.make_write_options`. See the docstring
+        of `write_table` and `dataset.write_dataset` for the available options.
         When use_legacy_dataset=True, used as additional kwargs for
         `parquet.write_table` function (See docstring for `write_table`
         or `ParquetWriter` for more information).
@@ -3195,22 +3347,20 @@ def file_visitor(written_file):
     if not use_legacy_dataset:
         import pyarrow.dataset as ds
 
-        # extract non-file format options
-        schema = kwargs.pop("schema", None)
-        use_threads = kwargs.pop("use_threads", True)
-        chunk_size = kwargs.pop("chunk_size", None)
-        row_group_size = kwargs.pop("row_group_size", None)
-
-        row_group_size = (
-            row_group_size if row_group_size is not None else chunk_size
+        # extract write_dataset specific options
+        # reset assumed to go to make_write_options
+        write_dataset_kwargs = dict()
+        for key in inspect.signature(ds.write_dataset).parameters:
+            if key in kwargs:
+                write_dataset_kwargs[key] = kwargs.pop(key)
+        write_dataset_kwargs['max_rows_per_group'] = kwargs.pop(
+            'row_group_size', kwargs.pop("chunk_size", None)
         )
-
         # raise for unsupported keywords
         msg = (
             "The '{}' argument is not supported with the new dataset "
             "implementation."
         )
-
         if metadata_collector is not None:
             def file_visitor(written_file):
                 metadata_collector.append(written_file.metadata)
@@ -3242,7 +3392,7 @@ def file_visitor(written_file):
             file_visitor=file_visitor,
             basename_template=basename_template,
             existing_data_behavior=existing_data_behavior,
-            max_rows_per_group=row_group_size)
+            **write_dataset_kwargs)
         return
 
     # warnings and errors when using legacy implementation
@@ -3300,6 +3450,11 @@ def file_visitor(written_file):
             if col in partition_cols:
                 subschema = subschema.remove(subschema.get_field_index(col))
 
+        # ARROW-17829: avoid deprecation warnings for df.groupby
+        # https://github.com/pandas-dev/pandas/issues/42795
+        if len(partition_keys) == 1:
+            partition_keys = partition_keys[0]
+
         for keys, subgroup in data_df.groupby(partition_keys):
             if not isinstance(keys, tuple):
                 keys = (keys,)
@@ -3333,7 +3488,8 @@ def file_visitor(written_file):
             metadata_collector[-1].set_file_path(outfile)
 
 
-def write_metadata(schema, where, metadata_collector=None, **kwargs):
+def write_metadata(schema, where, metadata_collector=None, filesystem=None,
+                   **kwargs):
     """
     Write metadata-only Parquet file from schema. This can be used with
     `write_to_dataset` to generate `_common_metadata` and `_metadata` sidecar
@@ -3345,6 +3501,9 @@ def write_metadata(schema, where, metadata_collector=None, **kwargs):
     where : string or pyarrow.NativeFile
     metadata_collector : list
         where to collect metadata information.
+    filesystem : FileSystem, default None
+        If nothing passed, will be inferred from `where` if path-like, else
+        `where` is already a file-like object so no filesystem is needed.
     **kwargs : dict,
         Additional kwargs for ParquetWriter class. See docstring for
         `ParquetWriter` for more information.
@@ -3377,19 +3536,32 @@ def write_metadata(schema, where, metadata_collector=None, **kwargs):
     ...     table.schema, 'dataset_metadata/_metadata',
     ...     metadata_collector=metadata_collector)
     """
-    writer = ParquetWriter(where, schema, **kwargs)
+    filesystem, where = _resolve_filesystem_and_path(where, filesystem)
+
+    if hasattr(where, "seek"):  # file-like
+        cursor_position = where.tell()
+
+    writer = ParquetWriter(where, schema, filesystem, **kwargs)
     writer.close()
 
     if metadata_collector is not None:
         # ParquetWriter doesn't expose the metadata until it's written. Write
         # it and read it again.
-        metadata = read_metadata(where)
+        metadata = read_metadata(where, filesystem=filesystem)
+        if hasattr(where, "seek"):
+            where.seek(cursor_position)  # file-like, set cursor back.
+
         for m in metadata_collector:
             metadata.append_row_groups(m)
-        metadata.write_metadata_file(where)
+        if filesystem is not None:
+            with filesystem.open_output_stream(where) as f:
+                metadata.write_metadata_file(f)
+        else:
+            metadata.write_metadata_file(where)
 
 
-def read_metadata(where, memory_map=False, decryption_properties=None):
+def read_metadata(where, memory_map=False, decryption_properties=None,
+                  filesystem=None):
     """
     Read FileMetaData from footer of a single Parquet file.
 
@@ -3400,10 +3572,15 @@ def read_metadata(where, memory_map=False, decryption_properties=None):
         Create memory map when the source is a file path.
     decryption_properties : FileDecryptionProperties, default None
         Decryption properties for reading encrypted Parquet files.
+    filesystem : FileSystem, default None
+        If nothing passed, will be inferred based on path.
+        Path will try to be found in the local on-disk filesystem otherwise
+        it will be parsed as an URI to determine the filesystem.
 
     Returns
     -------
     metadata : FileMetaData
+        The metadata of the Parquet file
 
     Examples
     --------
@@ -3422,11 +3599,19 @@ def read_metadata(where, memory_map=False, decryption_properties=None):
       format_version: 2.6
       serialized_size: ...
     """
-    return ParquetFile(where, memory_map=memory_map,
-                       decryption_properties=decryption_properties).metadata
+    filesystem, where = _resolve_filesystem_and_path(where, filesystem)
+    file_ctx = nullcontext()
+    if filesystem is not None:
+        file_ctx = where = filesystem.open_input_file(where)
+
+    with file_ctx:
+        file = ParquetFile(where, memory_map=memory_map,
+                           decryption_properties=decryption_properties)
+        return file.metadata
 
 
-def read_schema(where, memory_map=False, decryption_properties=None):
+def read_schema(where, memory_map=False, decryption_properties=None,
+                filesystem=None):
     """
     Read effective Arrow schema from Parquet file metadata.
 
@@ -3437,10 +3622,15 @@ def read_schema(where, memory_map=False, decryption_properties=None):
         Create memory map when the source is a file path.
     decryption_properties : FileDecryptionProperties, default None
         Decryption properties for reading encrypted Parquet files.
+    filesystem : FileSystem, default None
+        If nothing passed, will be inferred based on path.
+        Path will try to be found in the local on-disk filesystem otherwise
+        it will be parsed as an URI to determine the filesystem.
 
     Returns
     -------
     schema : pyarrow.Schema
+        The schema of the Parquet file
 
     Examples
     --------
@@ -3454,11 +3644,43 @@ def read_schema(where, memory_map=False, decryption_properties=None):
     n_legs: int64
     animal: string
     """
-    return ParquetFile(
-        where, memory_map=memory_map,
-        decryption_properties=decryption_properties).schema.to_arrow_schema()
-
-
-# re-export everything
-# std `from . import *` ignores symbols with leading `_`
-__all__ = list(sys.modules[__name__].__dict__)
+    filesystem, where = _resolve_filesystem_and_path(where, filesystem)
+    file_ctx = nullcontext()
+    if filesystem is not None:
+        file_ctx = where = filesystem.open_input_file(where)
+
+    with file_ctx:
+        file = ParquetFile(
+            where, memory_map=memory_map,
+            decryption_properties=decryption_properties)
+        return file.schema.to_arrow_schema()
+
+
+__all__ = (
+    "ColumnChunkMetaData",
+    "ColumnSchema",
+    "FileDecryptionProperties",
+    "FileEncryptionProperties",
+    "FileMetaData",
+    "ParquetDataset",
+    "ParquetDatasetPiece",
+    "ParquetFile",
+    "ParquetLogicalType",
+    "ParquetManifest",
+    "ParquetPartitions",
+    "ParquetReader",
+    "ParquetSchema",
+    "ParquetWriter",
+    "PartitionSet",
+    "RowGroupMetaData",
+    "Statistics",
+    "read_metadata",
+    "read_pandas",
+    "read_schema",
+    "read_table",
+    "write_metadata",
+    "write_table",
+    "write_to_dataset",
+    "_filters_to_expression",
+    "filters_to_expression",
+)
diff --git a/python/pyarrow/plasma.py b/python/pyarrow/plasma.py
index 052c69975d3..00342765557 100644
--- a/python/pyarrow/plasma.py
+++ b/python/pyarrow/plasma.py
@@ -24,6 +24,7 @@
 import sys
 import tempfile
 import time
+import warnings
 
 from pyarrow._plasma import (ObjectID, ObjectNotAvailable,  # noqa
                              PlasmaBuffer, PlasmaClient, connect,
@@ -64,7 +65,7 @@ def build_plasma_tensorflow_op():
         tf_cflags = tf.sysconfig.get_compile_flags()
         if sys.platform == 'darwin':
             tf_cflags = ["-undefined", "dynamic_lookup"] + tf_cflags
-        cmd = ["g++", "-std=c++11", "-g", "-shared", cc_path,
+        cmd = ["g++", "-std=c++17", "-g", "-shared", cc_path,
                "-o", so_path, "-DNDEBUG", "-I" + pa.get_include()]
         cmd += ["-L" + dir for dir in pa.get_library_dirs()]
         cmd += ["-lplasma", "-larrow_python", "-larrow", "-fPIC"]
@@ -84,7 +85,11 @@ def start_plasma_store(plasma_store_memory,
                        plasma_directory=None, use_hugepages=False,
                        external_store=None):
     """
-    Start a plasma store process.
+    DEPRECATED: Start a plasma store process.
+
+    .. deprecated:: 10.0.0
+       Plasma is deprecated since Arrow 10.0.0. It will be removed
+       in 12.0.0 or so.
 
     Parameters
     ----------
@@ -103,12 +108,18 @@ def start_plasma_store(plasma_store_memory,
     external_store : str
         External store to use for evicted objects.
 
-    Returns
+    Yields
     -------
-    result : (str, subprocess.Popen)
-        A tuple of the name of the plasma store socket and the process ID of
-        the plasma store process.
+    plasma_store_name : str
+        Name of the plasma store socket
+    proc : subprocess.Popen
+        Process ID of the plasma store process
     """
+    warnings.warn(
+        "Plasma is deprecated since Arrow 10.0.0. It will be removed in "
+        "12.0.0 or so.",
+        DeprecationWarning)
+
     if use_valgrind and use_profiler:
         raise Exception("Cannot use valgrind and profiler at the same time.")
 
diff --git a/python/pyarrow/public-api.pxi b/python/pyarrow/public-api.pxi
index 6e9edd55b40..1849ecab096 100644
--- a/python/pyarrow/public-api.pxi
+++ b/python/pyarrow/public-api.pxi
@@ -97,6 +97,10 @@ cdef api object pyarrow_wrap_data_type(
         out = SparseUnionType.__new__(SparseUnionType)
     elif type.get().id() == _Type_DENSE_UNION:
         out = DenseUnionType.__new__(DenseUnionType)
+    elif type.get().id() == _Type_TIME32:
+        out = Time32Type.__new__(Time32Type)
+    elif type.get().id() == _Type_TIME64:
+        out = Time64Type.__new__(Time64Type)
     elif type.get().id() == _Type_TIMESTAMP:
         out = TimestampType.__new__(TimestampType)
     elif type.get().id() == _Type_DURATION:
diff --git a/python/pyarrow/scalar.pxi b/python/pyarrow/scalar.pxi
index c802caa15f3..5099811ecd1 100644
--- a/python/pyarrow/scalar.pxi
+++ b/python/pyarrow/scalar.pxi
@@ -89,6 +89,29 @@ cdef class Scalar(_Weakrefable):
 
         return Scalar.wrap(result)
 
+    def validate(self, *, full=False):
+        """
+        Perform validation checks.  An exception is raised if validation fails.
+
+        By default only cheap validation checks are run.  Pass `full=True`
+        for thorough validation checks (potentially O(n)).
+
+        Parameters
+        ----------
+        full : bool, default False
+            If True, run expensive checks, otherwise cheap checks only.
+
+        Raises
+        ------
+        ArrowInvalid
+        """
+        if full:
+            with nogil:
+                check_status(self.wrapped.get().ValidateFull())
+        else:
+            with nogil:
+                check_status(self.wrapped.get().Validate())
+
     def __repr__(self):
         return '<pyarrow.{}: {!r}>'.format(
             self.__class__.__name__, self.as_py()
@@ -345,6 +368,11 @@ cdef class Date32Scalar(Scalar):
     Concrete class for date32 scalars.
     """
 
+    @property
+    def value(self):
+        cdef CDate32Scalar* sp = <CDate32Scalar*> self.wrapped.get()
+        return sp.value if sp.is_valid else None
+
     def as_py(self):
         """
         Return this value as a Python datetime.datetime instance.
@@ -365,6 +393,11 @@ cdef class Date64Scalar(Scalar):
     Concrete class for date64 scalars.
     """
 
+    @property
+    def value(self):
+        cdef CDate64Scalar* sp = <CDate64Scalar*> self.wrapped.get()
+        return sp.value if sp.is_valid else None
+
     def as_py(self):
         """
         Return this value as a Python datetime.datetime instance.
@@ -414,6 +447,11 @@ cdef class Time32Scalar(Scalar):
     Concrete class for time32 scalars.
     """
 
+    @property
+    def value(self):
+        cdef CTime32Scalar* sp = <CTime32Scalar*> self.wrapped.get()
+        return sp.value if sp.is_valid else None
+
     def as_py(self):
         """
         Return this value as a Python datetime.timedelta instance.
@@ -433,6 +471,11 @@ cdef class Time64Scalar(Scalar):
     Concrete class for time64 scalars.
     """
 
+    @property
+    def value(self):
+        cdef CTime64Scalar* sp = <CTime64Scalar*> self.wrapped.get()
+        return sp.value if sp.is_valid else None
+
     def as_py(self):
         """
         Return this value as a Python datetime.timedelta instance.
@@ -836,19 +879,6 @@ cdef class DictionaryScalar(Scalar):
         """
         return self.value.as_py() if self.is_valid else None
 
-    @property
-    def index_value(self):
-        warnings.warn("`index_value` property is deprecated as of 1.0.0"
-                      "please use the `index` property instead",
-                      FutureWarning)
-        return self.index
-
-    @property
-    def dictionary_value(self):
-        warnings.warn("`dictionary_value` property is deprecated as of 1.0.0, "
-                      "please use the `value` property instead", FutureWarning)
-        return self.value
-
 
 cdef class UnionScalar(Scalar):
     """
diff --git a/python/pyarrow/src/arrow/python/CMakeLists.txt b/python/pyarrow/src/arrow/python/CMakeLists.txt
new file mode 100644
index 00000000000..ff355e46a4b
--- /dev/null
+++ b/python/pyarrow/src/arrow/python/CMakeLists.txt
@@ -0,0 +1,18 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+arrow_install_all_headers("arrow/python")
diff --git a/cpp/src/arrow/python/api.h b/python/pyarrow/src/arrow/python/api.h
similarity index 100%
rename from cpp/src/arrow/python/api.h
rename to python/pyarrow/src/arrow/python/api.h
diff --git a/cpp/src/arrow/python/arrow_to_pandas.cc b/python/pyarrow/src/arrow/python/arrow_to_pandas.cc
similarity index 97%
rename from cpp/src/arrow/python/arrow_to_pandas.cc
rename to python/pyarrow/src/arrow/python/arrow_to_pandas.cc
index 8f9d1cb45b9..2faf7d381a9 100644
--- a/cpp/src/arrow/python/arrow_to_pandas.cc
+++ b/python/pyarrow/src/arrow/python/arrow_to_pandas.cc
@@ -26,6 +26,7 @@
 #include <memory>
 #include <mutex>
 #include <string>
+#include <string_view>
 #include <unordered_map>
 #include <utility>
 #include <vector>
@@ -43,7 +44,6 @@
 #include "arrow/util/logging.h"
 #include "arrow/util/macros.h"
 #include "arrow/util/parallel.h"
-#include "arrow/util/string_view.h"
 #include "arrow/visit_type_inline.h"
 
 #include "arrow/compute/api.h"
@@ -191,6 +191,10 @@ static inline bool ListTypeSupported(const DataType& type) {
       const auto& list_type = checked_cast<const BaseListType&>(type);
       return ListTypeSupported(*list_type.value_type());
     }
+    case Type::EXTENSION: {
+      const auto& ext = checked_cast<const ExtensionType&>(*type.GetSharedPtr());
+      return ListTypeSupported(*(ext.storage_type()));
+    }
     default:
       break;
   }
@@ -488,7 +492,7 @@ class PandasWriter {
   Status AllocateNDArray(int npy_type, int ndim = 2) {
     PyAcquireGIL lock;
 
-    PyObject* block_arr;
+    PyObject* block_arr = nullptr;
     npy_intp block_dims[2] = {0, 0};
 
     if (ndim == 2) {
@@ -586,7 +590,7 @@ template <typename T>
 struct MemoizationTraits<T, enable_if_has_string_view<T>> {
   // For binary, we memoize string_view as a scalar value to avoid having to
   // unnecessarily copy the memory into the memo table data structure
-  using Scalar = util::string_view;
+  using Scalar = std::string_view;
 };
 
 // Generic Array -> PyObject** converter that handles object deduplication, if
@@ -734,11 +738,26 @@ Status ConvertListsLike(PandasOptions options, const ChunkedArray& data,
   ArrayVector value_arrays;
   for (int c = 0; c < data.num_chunks(); c++) {
     const auto& arr = checked_cast<const ListArrayT&>(*data.chunk(c));
-    value_arrays.emplace_back(arr.values());
+    // values() does not account for offsets, so we need to slice into it.
+    // We can't use Flatten(), because it removes the values behind a null list
+    // value, and that makes the offsets into original list values and our
+    // flattened_values array different.
+    std::shared_ptr<Array> flattened_values = arr.values()->Slice(
+        arr.value_offset(0), arr.value_offset(arr.length()) - arr.value_offset(0));
+    if (arr.value_type()->id() == Type::EXTENSION) {
+      const auto& arr_ext = checked_cast<const ExtensionArray&>(*flattened_values);
+      value_arrays.emplace_back(arr_ext.storage());
+    } else {
+      value_arrays.emplace_back(flattened_values);
+    }
   }
+
   using ListArrayType = typename ListArrayT::TypeClass;
   const auto& list_type = checked_cast<const ListArrayType&>(*data.type());
   auto value_type = list_type.value_type();
+  if (value_type->id() == Type::EXTENSION) {
+    value_type = checked_cast<const ExtensionType&>(*value_type).storage_type();
+  }
 
   auto flat_column = std::make_shared<ChunkedArray>(value_arrays, value_type);
 
@@ -747,22 +766,24 @@ Status ConvertListsLike(PandasOptions options, const ChunkedArray& data,
   OwnedRefNoGIL owned_numpy_array;
   RETURN_NOT_OK(ConvertChunkedArrayToPandas(options, flat_column, nullptr,
                                             owned_numpy_array.ref()));
-
   PyObject* numpy_array = owned_numpy_array.obj();
   DCHECK(PyArray_Check(numpy_array));
 
   int64_t chunk_offset = 0;
   for (int c = 0; c < data.num_chunks(); c++) {
     const auto& arr = checked_cast<const ListArrayT&>(*data.chunk(c));
-
     const bool has_nulls = data.null_count() > 0;
     for (int64_t i = 0; i < arr.length(); ++i) {
       if (has_nulls && arr.IsNull(i)) {
         Py_INCREF(Py_None);
         *out_values = Py_None;
       } else {
-        OwnedRef start(PyLong_FromLongLong(arr.value_offset(i) + chunk_offset));
-        OwnedRef end(PyLong_FromLongLong(arr.value_offset(i + 1) + chunk_offset));
+        // Need to subtract value_offset(0) since the original chunk might be a slice
+        // into another array.
+        OwnedRef start(PyLong_FromLongLong(arr.value_offset(i) + chunk_offset -
+                                           arr.value_offset(0)));
+        OwnedRef end(PyLong_FromLongLong(arr.value_offset(i + 1) + chunk_offset -
+                                         arr.value_offset(0)));
         OwnedRef slice(PySlice_New(start.obj(), end.obj(), nullptr));
 
         if (ARROW_PREDICT_FALSE(slice.obj() == nullptr)) {
@@ -780,7 +801,7 @@ Status ConvertListsLike(PandasOptions options, const ChunkedArray& data,
     }
     RETURN_IF_PYERROR();
 
-    chunk_offset += arr.values()->length();
+    chunk_offset += arr.value_offset(arr.length()) - arr.value_offset(0);
   }
 
   return Status::OK();
@@ -1018,7 +1039,7 @@ struct ObjectWriterVisitor {
   enable_if_t<is_base_binary_type<Type>::value || is_fixed_size_binary_type<Type>::value,
               Status>
   Visit(const Type& type) {
-    auto WrapValue = [](const util::string_view& view, PyObject** out) {
+    auto WrapValue = [](const std::string_view& view, PyObject** out) {
       *out = WrapBytes<Type>::Wrap(view.data(), view.length());
       if (*out == nullptr) {
         PyErr_Clear();
@@ -1063,11 +1084,24 @@ struct ObjectWriterVisitor {
     auto ConvertTimezoneAware = [&](typename Type::c_type value, PyObject** out) {
       PyObject* naive_datetime;
       RETURN_NOT_OK(ConvertTimezoneNaive(value, &naive_datetime));
+
       // convert the timezone naive datetime object to timezone aware
-      *out = PyObject_CallMethod(tzinfo.obj(), "fromutc", "O", naive_datetime);
+      // two step conversion of the datetime mimics Python's code:
+      // dt.replace(tzinfo=datetime.timezone.utc).astimezone(tzinfo)
+      // first step: replacing timezone with timezone.utc (replace method)
+      OwnedRef args(PyTuple_New(0));
+      OwnedRef keywords(PyDict_New());
+      PyDict_SetItemString(keywords.obj(), "tzinfo", PyDateTime_TimeZone_UTC);
+      OwnedRef naive_datetime_replace(PyObject_GetAttrString(naive_datetime, "replace"));
+      OwnedRef datetime_utc(
+          PyObject_Call(naive_datetime_replace.obj(), args.obj(), keywords.obj()));
+      // second step: adjust the datetime to tzinfo timezone (astimezone method)
+      *out = PyObject_CallMethod(datetime_utc.obj(), "astimezone", "O", tzinfo.obj());
+
       // the timezone naive object is no longer required
       Py_DECREF(naive_datetime);
       RETURN_IF_PYERROR();
+
       return Status::OK();
     };
 
diff --git a/cpp/src/arrow/python/arrow_to_pandas.h b/python/pyarrow/src/arrow/python/arrow_to_pandas.h
similarity index 100%
rename from cpp/src/arrow/python/arrow_to_pandas.h
rename to python/pyarrow/src/arrow/python/arrow_to_pandas.h
diff --git a/cpp/src/arrow/python/arrow_to_python_internal.h b/python/pyarrow/src/arrow/python/arrow_to_python_internal.h
similarity index 100%
rename from cpp/src/arrow/python/arrow_to_python_internal.h
rename to python/pyarrow/src/arrow/python/arrow_to_python_internal.h
diff --git a/cpp/src/arrow/python/benchmark.cc b/python/pyarrow/src/arrow/python/benchmark.cc
similarity index 94%
rename from cpp/src/arrow/python/benchmark.cc
rename to python/pyarrow/src/arrow/python/benchmark.cc
index 2d29f69d25b..6dcc959ed22 100644
--- a/cpp/src/arrow/python/benchmark.cc
+++ b/python/pyarrow/src/arrow/python/benchmark.cc
@@ -15,8 +15,8 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include <arrow/python/benchmark.h>
-#include <arrow/python/helpers.h>
+#include "arrow/python/benchmark.h"
+#include "arrow/python/helpers.h"
 
 namespace arrow {
 namespace py {
diff --git a/cpp/src/arrow/python/benchmark.h b/python/pyarrow/src/arrow/python/benchmark.h
similarity index 100%
rename from cpp/src/arrow/python/benchmark.h
rename to python/pyarrow/src/arrow/python/benchmark.h
diff --git a/cpp/src/arrow/python/common.cc b/python/pyarrow/src/arrow/python/common.cc
similarity index 100%
rename from cpp/src/arrow/python/common.cc
rename to python/pyarrow/src/arrow/python/common.cc
diff --git a/cpp/src/arrow/python/common.h b/python/pyarrow/src/arrow/python/common.h
similarity index 99%
rename from cpp/src/arrow/python/common.h
rename to python/pyarrow/src/arrow/python/common.h
index 5c16106730b..8c70e19e316 100644
--- a/cpp/src/arrow/python/common.h
+++ b/python/pyarrow/src/arrow/python/common.h
@@ -18,13 +18,14 @@
 #pragma once
 
 #include <memory>
+#include <functional>
 #include <utility>
 
 #include "arrow/buffer.h"
-#include "arrow/python/pyarrow.h"
-#include "arrow/python/visibility.h"
 #include "arrow/result.h"
 #include "arrow/util/macros.h"
+#include "arrow/python/pyarrow.h"
+#include "arrow/python/visibility.h"
 
 namespace arrow {
 
diff --git a/cpp/src/arrow/python/csv.cc b/python/pyarrow/src/arrow/python/csv.cc
similarity index 98%
rename from cpp/src/arrow/python/csv.cc
rename to python/pyarrow/src/arrow/python/csv.cc
index d96c9400e2b..1df3a94cef2 100644
--- a/cpp/src/arrow/python/csv.cc
+++ b/python/pyarrow/src/arrow/python/csv.cc
@@ -15,7 +15,7 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include "arrow/python/csv.h"
+#include "csv.h"
 
 #include <memory>
 
diff --git a/cpp/src/arrow/python/csv.h b/python/pyarrow/src/arrow/python/csv.h
similarity index 100%
rename from cpp/src/arrow/python/csv.h
rename to python/pyarrow/src/arrow/python/csv.h
index 34302e93667..2295c49461b 100644
--- a/cpp/src/arrow/python/csv.h
+++ b/python/pyarrow/src/arrow/python/csv.h
@@ -23,8 +23,8 @@
 #include <vector>
 
 #include "arrow/csv/options.h"
-#include "arrow/python/common.h"
 #include "arrow/util/macros.h"
+#include "arrow/python/common.h"
 
 namespace arrow {
 namespace py {
diff --git a/cpp/src/arrow/python/datetime.cc b/python/pyarrow/src/arrow/python/datetime.cc
similarity index 95%
rename from cpp/src/arrow/python/datetime.cc
rename to python/pyarrow/src/arrow/python/datetime.cc
index 848b0a6bf10..babbe7233c9 100644
--- a/cpp/src/arrow/python/datetime.cc
+++ b/python/pyarrow/src/arrow/python/datetime.cc
@@ -14,74 +14,52 @@
 // KIND, either express or implied.  See the License for the
 // specific language governing permissions and limitations
 // under the License.
-#include "arrow/python/datetime.h"
+#include "datetime.h"
 
 #include <algorithm>
 #include <chrono>
 #include <iomanip>
+#include <regex>
+#include <string_view>
 
 #include "arrow/array.h"
-#include "arrow/python/arrow_to_python_internal.h"
-#include "arrow/python/common.h"
-#include "arrow/python/helpers.h"
-#include "arrow/python/platform.h"
 #include "arrow/scalar.h"
 #include "arrow/status.h"
 #include "arrow/type.h"
 #include "arrow/util/logging.h"
+#include "arrow/util/regex.h"
 #include "arrow/util/value_parsing.h"
+#include "arrow/python/arrow_to_python_internal.h"
+#include "arrow/python/common.h"
+#include "arrow/python/helpers.h"
+#include "arrow/python/platform.h"
 
 namespace arrow {
+
+using internal::RegexMatch;
+
 namespace py {
 namespace internal {
 
 namespace {
 
-// Same as Regex '([+-])(0[0-9]|1[0-9]|2[0-3]):([0-5][0-9])$'.
-// GCC 4.9 doesn't support regex, so handcode until support for it
-// is dropped.
-bool MatchFixedOffset(const std::string& tz, util::string_view* sign,
-                      util::string_view* hour, util::string_view* minute) {
+bool MatchFixedOffset(const std::string& tz, std::string_view* sign,
+                      std::string_view* hour, std::string_view* minute) {
+  static const std::regex regex("^([+-])(0[0-9]|1[0-9]|2[0-3]):([0-5][0-9])$");
   if (tz.size() < 5) {
     return false;
   }
-  const char* iter = tz.data();
-  if (*iter == '+' || *iter == '-') {
-    *sign = util::string_view(iter, 1);
-    iter++;
-    if (tz.size() < 6) {
-      return false;
-    }
-  }
-  if ((((*iter == '0' || *iter == '1') && *(iter + 1) >= '0' && *(iter + 1) <= '9') ||
-       (*iter == '2' && *(iter + 1) >= '0' && *(iter + 1) <= '3'))) {
-    *hour = util::string_view(iter, 2);
-    iter += 2;
-  } else {
-    return false;
-  }
-  if (*iter != ':') {
-    return false;
-  }
-  iter++;
-
-  if (*iter >= '0' && *iter <= '5' && *(iter + 1) >= '0' && *(iter + 1) <= '9') {
-    *minute = util::string_view(iter, 2);
-    iter += 2;
-  } else {
-    return false;
-  }
-  return iter == (tz.data() + tz.size());
+  return RegexMatch(regex, tz, {sign, hour, minute});
 }
 
-static PyTypeObject MonthDayNanoTupleType = {};
-
 constexpr char* NonConst(const char* st) {
   // Hack for python versions < 3.7 where members of PyStruct members
   // where non-const (C++ doesn't like assigning string literals to these types)
   return const_cast<char*>(st);
 }
 
+static PyTypeObject MonthDayNanoTupleType = {};
+
 static PyStructSequence_Field MonthDayNanoField[] = {
     {NonConst("months"), NonConst("The number of months in the interval")},
     {NonConst("days"), NonConst("The number days in the interval")},
@@ -96,6 +74,7 @@ static PyStructSequence_Desc MonthDayNanoTupleDesc = {
 
 }  // namespace
 
+#ifndef PYPY_VERSION
 PyDateTime_CAPI* datetime_api = nullptr;
 
 void InitDatetime() {
@@ -106,6 +85,7 @@ void InitDatetime() {
     Py_FatalError("Could not import datetime C API");
   }
 }
+#endif
 
 // The following code is adapted from
 // https://github.com/numpy/numpy/blob/master/numpy/core/src/multiarray/datetime.c
@@ -389,7 +369,7 @@ Result<std::string> PyTZInfo_utcoffset_hhmm(PyObject* pytzinfo) {
 // Converted from python.  See https://github.com/apache/arrow/pull/7604
 // for details.
 Result<PyObject*> StringToTzinfo(const std::string& tz) {
-  util::string_view sign_str, hour_str, minute_str;
+  std::string_view sign_str, hour_str, minute_str;
   OwnedRef pytz;
   OwnedRef zoneinfo;
   OwnedRef datetime;
diff --git a/cpp/src/arrow/python/datetime.h b/python/pyarrow/src/arrow/python/datetime.h
similarity index 87%
rename from cpp/src/arrow/python/datetime.h
rename to python/pyarrow/src/arrow/python/datetime.h
index dd07710aaf6..a5cca55dc8f 100644
--- a/cpp/src/arrow/python/datetime.h
+++ b/python/pyarrow/src/arrow/python/datetime.h
@@ -20,28 +20,38 @@
 #include <algorithm>
 #include <chrono>
 
-#include "arrow/python/platform.h"
-#include "arrow/python/visibility.h"
+#include "arrow/result.h"
 #include "arrow/status.h"
 #include "arrow/type.h"
 #include "arrow/type_fwd.h"
+#include "arrow/util/int_util_overflow.h"
 #include "arrow/util/logging.h"
+#include "arrow/python/platform.h"
+#include "arrow/python/visibility.h"
 
 // By default, PyDateTimeAPI is a *static* variable.  This forces
 // PyDateTime_IMPORT to be called in every C/C++ module using the
 // C datetime API.  This is error-prone and potentially costly.
 // Instead, we redefine PyDateTimeAPI to point to a global variable,
 // which is initialized once by calling InitDatetime().
+#ifdef PYPY_VERSION
+#include "datetime.h"
+#else
 #define PyDateTimeAPI ::arrow::py::internal::datetime_api
+#endif
 
 namespace arrow {
+using internal::AddWithOverflow;
+using internal::MultiplyWithOverflow;
 namespace py {
 namespace internal {
 
+#ifndef PYPY_VERSION
 extern PyDateTime_CAPI* datetime_api;
 
 ARROW_PYTHON_EXPORT
 void InitDatetime();
+#endif
 
 // Returns the MonthDayNano namedtuple type (increments the reference count).
 ARROW_PYTHON_EXPORT
@@ -147,14 +157,24 @@ inline int64_t PyDelta_to_ms(PyDateTime_Delta* pytimedelta) {
 }
 
 ARROW_PYTHON_EXPORT
-inline int64_t PyDelta_to_us(PyDateTime_Delta* pytimedelta) {
-  return (PyDelta_to_s(pytimedelta) * 1000000LL +
-          PyDateTime_DELTA_GET_MICROSECONDS(pytimedelta));
+inline Result<int64_t> PyDelta_to_us(PyDateTime_Delta* pytimedelta) {
+  int64_t result = PyDelta_to_s(pytimedelta);
+  if (MultiplyWithOverflow(result, 1000000LL, &result)) {
+    return Status::Invalid("Timedelta too large to fit in 64-bit integer");
+  }
+  if (AddWithOverflow(result, PyDateTime_DELTA_GET_MICROSECONDS(pytimedelta), &result)) {
+    return Status::Invalid("Timedelta too large to fit in 64-bit integer");
+  }
+  return result;
 }
 
 ARROW_PYTHON_EXPORT
-inline int64_t PyDelta_to_ns(PyDateTime_Delta* pytimedelta) {
-  return PyDelta_to_us(pytimedelta) * 1000LL;
+inline Result<int64_t> PyDelta_to_ns(PyDateTime_Delta* pytimedelta) {
+  ARROW_ASSIGN_OR_RAISE(int64_t result, PyDelta_to_us(pytimedelta));
+  if (MultiplyWithOverflow(result, 1000LL, &result)) {
+    return Status::Invalid("Timedelta too large to fit in 64-bit integer");
+  }
+  return result;
 }
 
 ARROW_PYTHON_EXPORT
diff --git a/cpp/src/arrow/python/decimal.cc b/python/pyarrow/src/arrow/python/decimal.cc
similarity index 100%
rename from cpp/src/arrow/python/decimal.cc
rename to python/pyarrow/src/arrow/python/decimal.cc
index 0c00fcfaa8e..46ad9bc70c5 100644
--- a/cpp/src/arrow/python/decimal.cc
+++ b/python/pyarrow/src/arrow/python/decimal.cc
@@ -18,12 +18,12 @@
 #include <algorithm>
 #include <limits>
 
-#include "arrow/python/common.h"
-#include "arrow/python/decimal.h"
-#include "arrow/python/helpers.h"
 #include "arrow/type_fwd.h"
 #include "arrow/util/decimal.h"
 #include "arrow/util/logging.h"
+#include "arrow/python/common.h"
+#include "arrow/python/decimal.h"
+#include "arrow/python/helpers.h"
 
 namespace arrow {
 namespace py {
diff --git a/cpp/src/arrow/python/decimal.h b/python/pyarrow/src/arrow/python/decimal.h
similarity index 100%
rename from cpp/src/arrow/python/decimal.h
rename to python/pyarrow/src/arrow/python/decimal.h
diff --git a/cpp/src/arrow/python/deserialize.cc b/python/pyarrow/src/arrow/python/deserialize.cc
similarity index 100%
rename from cpp/src/arrow/python/deserialize.cc
rename to python/pyarrow/src/arrow/python/deserialize.cc
diff --git a/cpp/src/arrow/python/deserialize.h b/python/pyarrow/src/arrow/python/deserialize.h
similarity index 100%
rename from cpp/src/arrow/python/deserialize.h
rename to python/pyarrow/src/arrow/python/deserialize.h
index 41b6a13a388..ed8294231ee 100644
--- a/cpp/src/arrow/python/deserialize.h
+++ b/python/pyarrow/src/arrow/python/deserialize.h
@@ -21,9 +21,9 @@
 #include <memory>
 #include <vector>
 
+#include "arrow/status.h"
 #include "arrow/python/serialize.h"
 #include "arrow/python/visibility.h"
-#include "arrow/status.h"
 
 namespace arrow {
 
diff --git a/cpp/src/arrow/python/extension_type.cc b/python/pyarrow/src/arrow/python/extension_type.cc
similarity index 100%
rename from cpp/src/arrow/python/extension_type.cc
rename to python/pyarrow/src/arrow/python/extension_type.cc
index 3ccc171c871..6b3cb29ac25 100644
--- a/cpp/src/arrow/python/extension_type.cc
+++ b/python/pyarrow/src/arrow/python/extension_type.cc
@@ -19,11 +19,11 @@
 #include <sstream>
 #include <utility>
 
+#include "arrow/util/checked_cast.h"
+#include "arrow/util/logging.h"
 #include "arrow/python/extension_type.h"
 #include "arrow/python/helpers.h"
 #include "arrow/python/pyarrow.h"
-#include "arrow/util/checked_cast.h"
-#include "arrow/util/logging.h"
 
 namespace arrow {
 
diff --git a/cpp/src/arrow/python/extension_type.h b/python/pyarrow/src/arrow/python/extension_type.h
similarity index 100%
rename from cpp/src/arrow/python/extension_type.h
rename to python/pyarrow/src/arrow/python/extension_type.h
index e433d9aca70..7fc86b99c96 100644
--- a/cpp/src/arrow/python/extension_type.h
+++ b/python/pyarrow/src/arrow/python/extension_type.h
@@ -21,9 +21,9 @@
 #include <string>
 
 #include "arrow/extension_type.h"
+#include "arrow/util/macros.h"
 #include "arrow/python/common.h"
 #include "arrow/python/visibility.h"
-#include "arrow/util/macros.h"
 
 namespace arrow {
 namespace py {
diff --git a/cpp/src/arrow/python/filesystem.cc b/python/pyarrow/src/arrow/python/filesystem.cc
similarity index 100%
rename from cpp/src/arrow/python/filesystem.cc
rename to python/pyarrow/src/arrow/python/filesystem.cc
index 5e9b500a4f7..2ad76341f60 100644
--- a/cpp/src/arrow/python/filesystem.cc
+++ b/python/pyarrow/src/arrow/python/filesystem.cc
@@ -15,8 +15,8 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include "arrow/python/filesystem.h"
 #include "arrow/util/logging.h"
+#include "arrow/python/filesystem.h"
 
 namespace arrow {
 
diff --git a/cpp/src/arrow/python/filesystem.h b/python/pyarrow/src/arrow/python/filesystem.h
similarity index 100%
rename from cpp/src/arrow/python/filesystem.h
rename to python/pyarrow/src/arrow/python/filesystem.h
index 003fd5cb805..2e5b2237bbe 100644
--- a/cpp/src/arrow/python/filesystem.h
+++ b/python/pyarrow/src/arrow/python/filesystem.h
@@ -22,9 +22,9 @@
 #include <vector>
 
 #include "arrow/filesystem/filesystem.h"
+#include "arrow/util/macros.h"
 #include "arrow/python/common.h"
 #include "arrow/python/visibility.h"
-#include "arrow/util/macros.h"
 
 namespace arrow {
 namespace py {
diff --git a/cpp/src/arrow/python/flight.cc b/python/pyarrow/src/arrow/python/flight.cc
similarity index 98%
rename from cpp/src/arrow/python/flight.cc
rename to python/pyarrow/src/arrow/python/flight.cc
index 9077bbe4acb..6e266b7f9d8 100644
--- a/cpp/src/arrow/python/flight.cc
+++ b/python/pyarrow/src/arrow/python/flight.cc
@@ -18,9 +18,9 @@
 #include <signal.h>
 #include <utility>
 
-#include "arrow/python/flight.h"
 #include "arrow/util/io_util.h"
 #include "arrow/util/logging.h"
+#include "arrow/python/flight.h"
 
 using arrow::flight::FlightPayload;
 
@@ -380,10 +380,7 @@ Status CreateFlightInfo(const std::shared_ptr<arrow::Schema>& schema,
 
 Status CreateSchemaResult(const std::shared_ptr<arrow::Schema>& schema,
                           std::unique_ptr<arrow::flight::SchemaResult>* out) {
-  ARROW_ASSIGN_OR_RAISE(auto result, arrow::flight::SchemaResult::Make(*schema));
-  *out = std::unique_ptr<arrow::flight::SchemaResult>(
-      new arrow::flight::SchemaResult(std::move(result)));
-  return Status::OK();
+  return arrow::flight::SchemaResult::Make(*schema).Value(out);
 }
 
 }  // namespace flight
diff --git a/cpp/src/arrow/python/flight.h b/python/pyarrow/src/arrow/python/flight.h
similarity index 99%
rename from cpp/src/arrow/python/flight.h
rename to python/pyarrow/src/arrow/python/flight.h
index 5713b2e4b70..82d93711e55 100644
--- a/cpp/src/arrow/python/flight.h
+++ b/python/pyarrow/src/arrow/python/flight.h
@@ -32,7 +32,7 @@
 #pragma GCC diagnostic ignored "-Wattributes"
 #endif
 
-#ifdef ARROW_STATIC
+#ifdef ARROW_PYTHON_STATIC
 #define ARROW_PYFLIGHT_EXPORT
 #elif defined(ARROW_PYFLIGHT_EXPORTING)
 #define ARROW_PYFLIGHT_EXPORT __declspec(dllexport)
diff --git a/cpp/src/arrow/python/gdb.cc b/python/pyarrow/src/arrow/python/gdb.cc
similarity index 96%
rename from cpp/src/arrow/python/gdb.cc
rename to python/pyarrow/src/arrow/python/gdb.cc
index 944e1e96d71..746fbdc1823 100644
--- a/cpp/src/arrow/python/gdb.cc
+++ b/python/pyarrow/src/arrow/python/gdb.cc
@@ -24,7 +24,6 @@
 #include "arrow/datum.h"
 #include "arrow/extension_type.h"
 #include "arrow/ipc/json_simple.h"
-#include "arrow/python/gdb.h"
 #include "arrow/record_batch.h"
 #include "arrow/scalar.h"
 #include "arrow/table.h"
@@ -34,9 +33,7 @@
 #include "arrow/util/key_value_metadata.h"
 #include "arrow/util/logging.h"
 #include "arrow/util/macros.h"
-#include "arrow/util/optional.h"
-#include "arrow/util/string_view.h"
-#include "arrow/util/variant.h"
+#include "arrow/python/gdb.h"
 
 namespace arrow {
 
@@ -83,7 +80,7 @@ class UuidType : public ExtensionType {
 };
 
 std::shared_ptr<Array> SliceArrayFromJSON(const std::shared_ptr<DataType>& ty,
-                                          util::string_view json, int64_t offset = 0,
+                                          std::string_view json, int64_t offset = 0,
                                           int64_t length = -1) {
   auto array = *ArrayFromJSON(ty, json);
   if (length != -1) {
@@ -122,24 +119,10 @@ void TestSession() {
   auto error_result = Result<int>(error_status);
   auto error_detail_result = Result<int>(error_detail_status);
 
-  // Optionals
-  util::optional<int> int_optional{42};
-  util::optional<int> null_int_optional{};
-
-  // Variants
-  using VariantType = util::Variant<int, bool, std::string>;
-
-  VariantType int_variant{42};
-  VariantType bool_variant{false};
-  VariantType string_variant{std::string("hello")};
-
   // String views
-  util::string_view string_view_empty{};
-  util::string_view string_view_abc{"abc"};
+  std::string_view string_view_abc{"abc"};
   std::string special_chars = std::string("foo\"bar") + '\x00' + "\r\n\t\x1f";
-  util::string_view string_view_special_chars(special_chars);
-  std::string very_long = "abc" + std::string(5000, 'K') + "xyz";
-  util::string_view string_view_very_long(very_long);
+  std::string_view string_view_special_chars(special_chars);
 
   // Buffers
   Buffer buffer_null{nullptr, 0};
diff --git a/cpp/src/arrow/python/gdb.h b/python/pyarrow/src/arrow/python/gdb.h
similarity index 100%
rename from cpp/src/arrow/python/gdb.h
rename to python/pyarrow/src/arrow/python/gdb.h
diff --git a/cpp/src/arrow/python/helpers.cc b/python/pyarrow/src/arrow/python/helpers.cc
similarity index 100%
rename from cpp/src/arrow/python/helpers.cc
rename to python/pyarrow/src/arrow/python/helpers.cc
index c266abc169d..5dd73a0d8d0 100644
--- a/cpp/src/arrow/python/helpers.cc
+++ b/python/pyarrow/src/arrow/python/helpers.cc
@@ -25,11 +25,11 @@
 #include <sstream>
 #include <type_traits>
 
-#include "arrow/python/common.h"
-#include "arrow/python/decimal.h"
 #include "arrow/type_fwd.h"
 #include "arrow/util/checked_cast.h"
 #include "arrow/util/logging.h"
+#include "arrow/python/common.h"
+#include "arrow/python/decimal.h"
 
 namespace arrow {
 
diff --git a/cpp/src/arrow/python/helpers.h b/python/pyarrow/src/arrow/python/helpers.h
similarity index 100%
rename from cpp/src/arrow/python/helpers.h
rename to python/pyarrow/src/arrow/python/helpers.h
index a8e5f80b606..84455d2fe17 100644
--- a/cpp/src/arrow/python/helpers.h
+++ b/python/pyarrow/src/arrow/python/helpers.h
@@ -28,9 +28,9 @@
 
 #include <numpy/halffloat.h>
 
-#include "arrow/python/visibility.h"
 #include "arrow/type.h"
 #include "arrow/util/macros.h"
+#include "arrow/python/visibility.h"
 
 namespace arrow {
 
diff --git a/cpp/src/arrow/python/inference.cc b/python/pyarrow/src/arrow/python/inference.cc
similarity index 100%
rename from cpp/src/arrow/python/inference.cc
rename to python/pyarrow/src/arrow/python/inference.cc
diff --git a/cpp/src/arrow/python/inference.h b/python/pyarrow/src/arrow/python/inference.h
similarity index 98%
rename from cpp/src/arrow/python/inference.h
rename to python/pyarrow/src/arrow/python/inference.h
index eff18362934..1d6516bcc72 100644
--- a/cpp/src/arrow/python/inference.h
+++ b/python/pyarrow/src/arrow/python/inference.h
@@ -24,11 +24,11 @@
 
 #include <memory>
 
-#include "arrow/python/visibility.h"
 #include "arrow/type.h"
 #include "arrow/util/macros.h"
+#include "arrow/python/visibility.h"
 
-#include "arrow/python/common.h"
+#include "common.h"
 
 namespace arrow {
 
diff --git a/cpp/src/arrow/python/init.cc b/python/pyarrow/src/arrow/python/init.cc
similarity index 100%
rename from cpp/src/arrow/python/init.cc
rename to python/pyarrow/src/arrow/python/init.cc
diff --git a/cpp/src/arrow/python/init.h b/python/pyarrow/src/arrow/python/init.h
similarity index 100%
rename from cpp/src/arrow/python/init.h
rename to python/pyarrow/src/arrow/python/init.h
diff --git a/cpp/src/arrow/python/io.cc b/python/pyarrow/src/arrow/python/io.cc
similarity index 95%
rename from cpp/src/arrow/python/io.cc
rename to python/pyarrow/src/arrow/python/io.cc
index 73525feed38..43f8297c5a7 100644
--- a/cpp/src/arrow/python/io.cc
+++ b/python/pyarrow/src/arrow/python/io.cc
@@ -15,7 +15,7 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include "arrow/python/io.h"
+#include "io.h"
 
 #include <cstdint>
 #include <cstdlib>
@@ -370,5 +370,15 @@ std::shared_ptr<::arrow::io::InputStream> MakeTransformInputStream(
   return std::make_shared<TransformInputStream>(std::move(wrapped), std::move(transform));
 }
 
+std::shared_ptr<StreamWrapFunc> MakeStreamTransformFunc(TransformInputStreamVTable vtable,
+                                                        PyObject* handler) {
+  TransformInputStream::TransformFunc transform(
+      TransformFunctionWrapper{std::move(vtable.transform), handler});
+  StreamWrapFunc func = [transform](std::shared_ptr<::arrow::io::InputStream> wrapped) {
+    return std::make_shared<TransformInputStream>(wrapped, transform);
+  };
+  return std::make_shared<StreamWrapFunc>(func);
+}
+
 }  // namespace py
 }  // namespace arrow
diff --git a/cpp/src/arrow/python/io.h b/python/pyarrow/src/arrow/python/io.h
similarity index 92%
rename from cpp/src/arrow/python/io.h
rename to python/pyarrow/src/arrow/python/io.h
index a38d0ca332c..10489c1351b 100644
--- a/cpp/src/arrow/python/io.h
+++ b/python/pyarrow/src/arrow/python/io.h
@@ -112,5 +112,10 @@ std::shared_ptr<::arrow::io::InputStream> MakeTransformInputStream(
     std::shared_ptr<::arrow::io::InputStream> wrapped, TransformInputStreamVTable vtable,
     PyObject* arg);
 
+using StreamWrapFunc = std::function<Result<std::shared_ptr<io::InputStream>>(
+    std::shared_ptr<io::InputStream>)>;
+ARROW_PYTHON_EXPORT
+std::shared_ptr<StreamWrapFunc> MakeStreamTransformFunc(TransformInputStreamVTable vtable,
+                                                        PyObject* handler);
 }  // namespace py
 }  // namespace arrow
diff --git a/cpp/src/arrow/python/ipc.cc b/python/pyarrow/src/arrow/python/ipc.cc
similarity index 98%
rename from cpp/src/arrow/python/ipc.cc
rename to python/pyarrow/src/arrow/python/ipc.cc
index 2e6c9d91275..93481822475 100644
--- a/cpp/src/arrow/python/ipc.cc
+++ b/python/pyarrow/src/arrow/python/ipc.cc
@@ -15,7 +15,7 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#include "arrow/python/ipc.h"
+#include "ipc.h"
 
 #include <memory>
 
diff --git a/cpp/src/arrow/python/ipc.h b/python/pyarrow/src/arrow/python/ipc.h
similarity index 100%
rename from cpp/src/arrow/python/ipc.h
rename to python/pyarrow/src/arrow/python/ipc.h
index 92232ed8300..57eabfed050 100644
--- a/cpp/src/arrow/python/ipc.h
+++ b/python/pyarrow/src/arrow/python/ipc.h
@@ -19,11 +19,11 @@
 
 #include <memory>
 
-#include "arrow/python/common.h"
-#include "arrow/python/visibility.h"
 #include "arrow/record_batch.h"
 #include "arrow/result.h"
 #include "arrow/util/macros.h"
+#include "arrow/python/common.h"
+#include "arrow/python/visibility.h"
 
 namespace arrow {
 namespace py {
diff --git a/cpp/src/arrow/python/iterators.h b/python/pyarrow/src/arrow/python/iterators.h
similarity index 100%
rename from cpp/src/arrow/python/iterators.h
rename to python/pyarrow/src/arrow/python/iterators.h
diff --git a/cpp/src/arrow/python/numpy_convert.cc b/python/pyarrow/src/arrow/python/numpy_convert.cc
similarity index 100%
rename from cpp/src/arrow/python/numpy_convert.cc
rename to python/pyarrow/src/arrow/python/numpy_convert.cc
diff --git a/cpp/src/arrow/python/numpy_convert.h b/python/pyarrow/src/arrow/python/numpy_convert.h
similarity index 100%
rename from cpp/src/arrow/python/numpy_convert.h
rename to python/pyarrow/src/arrow/python/numpy_convert.h
index 10451077a22..69a7dd3323b 100644
--- a/cpp/src/arrow/python/numpy_convert.h
+++ b/python/pyarrow/src/arrow/python/numpy_convert.h
@@ -27,8 +27,8 @@
 #include <vector>
 
 #include "arrow/buffer.h"
-#include "arrow/python/visibility.h"
 #include "arrow/sparse_tensor.h"
+#include "arrow/python/visibility.h"
 
 namespace arrow {
 
diff --git a/cpp/src/arrow/python/numpy_internal.h b/python/pyarrow/src/arrow/python/numpy_internal.h
similarity index 100%
rename from cpp/src/arrow/python/numpy_internal.h
rename to python/pyarrow/src/arrow/python/numpy_internal.h
diff --git a/cpp/src/arrow/python/numpy_interop.h b/python/pyarrow/src/arrow/python/numpy_interop.h
similarity index 100%
rename from cpp/src/arrow/python/numpy_interop.h
rename to python/pyarrow/src/arrow/python/numpy_interop.h
diff --git a/cpp/src/arrow/python/numpy_to_arrow.cc b/python/pyarrow/src/arrow/python/numpy_to_arrow.cc
similarity index 100%
rename from cpp/src/arrow/python/numpy_to_arrow.cc
rename to python/pyarrow/src/arrow/python/numpy_to_arrow.cc
diff --git a/cpp/src/arrow/python/numpy_to_arrow.h b/python/pyarrow/src/arrow/python/numpy_to_arrow.h
similarity index 100%
rename from cpp/src/arrow/python/numpy_to_arrow.h
rename to python/pyarrow/src/arrow/python/numpy_to_arrow.h
diff --git a/cpp/src/arrow/python/parquet_encryption.cc b/python/pyarrow/src/arrow/python/parquet_encryption.cc
similarity index 100%
rename from cpp/src/arrow/python/parquet_encryption.cc
rename to python/pyarrow/src/arrow/python/parquet_encryption.cc
diff --git a/cpp/src/arrow/python/parquet_encryption.h b/python/pyarrow/src/arrow/python/parquet_encryption.h
similarity index 100%
rename from cpp/src/arrow/python/parquet_encryption.h
rename to python/pyarrow/src/arrow/python/parquet_encryption.h
diff --git a/cpp/src/arrow/python/pch.h b/python/pyarrow/src/arrow/python/pch.h
similarity index 100%
rename from cpp/src/arrow/python/pch.h
rename to python/pyarrow/src/arrow/python/pch.h
diff --git a/cpp/src/arrow/python/platform.h b/python/pyarrow/src/arrow/python/platform.h
similarity index 100%
rename from cpp/src/arrow/python/platform.h
rename to python/pyarrow/src/arrow/python/platform.h
diff --git a/cpp/src/arrow/python/pyarrow.cc b/python/pyarrow/src/arrow/python/pyarrow.cc
similarity index 98%
rename from cpp/src/arrow/python/pyarrow.cc
rename to python/pyarrow/src/arrow/python/pyarrow.cc
index c3244b74bf5..30d1f04f123 100644
--- a/cpp/src/arrow/python/pyarrow.cc
+++ b/python/pyarrow/src/arrow/python/pyarrow.cc
@@ -40,7 +40,11 @@ static Status UnwrapError(PyObject* obj, const char* expected_type) {
 }
 
 int import_pyarrow() {
+#ifdef PYPY_VERSION
+  PyDateTime_IMPORT;
+#else
   internal::InitDatetime();
+#endif
   return ::import_pyarrow__lib();
 }
 
diff --git a/cpp/src/arrow/python/pyarrow.h b/python/pyarrow/src/arrow/python/pyarrow.h
similarity index 100%
rename from cpp/src/arrow/python/pyarrow.h
rename to python/pyarrow/src/arrow/python/pyarrow.h
diff --git a/python/pyarrow/src/arrow/python/pyarrow_api.h b/python/pyarrow/src/arrow/python/pyarrow_api.h
new file mode 100644
index 00000000000..a476e55a2a1
--- /dev/null
+++ b/python/pyarrow/src/arrow/python/pyarrow_api.h
@@ -0,0 +1,19 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+// For backward compatibility.
+#include "arrow/python/lib_api.h"
diff --git a/r/src/arrow_vctrs.h b/python/pyarrow/src/arrow/python/pyarrow_lib.h
similarity index 92%
rename from r/src/arrow_vctrs.h
rename to python/pyarrow/src/arrow/python/pyarrow_lib.h
index b91c0819909..e509593c254 100644
--- a/r/src/arrow_vctrs.h
+++ b/python/pyarrow/src/arrow/python/pyarrow_lib.h
@@ -15,8 +15,5 @@
 // specific language governing permissions and limitations
 // under the License.
 
-#pragma once
-
-namespace vctrs {
-R_len_t vec_size(SEXP);
-}
+// For backward compatibility.
+#include "arrow/python/lib.h"
diff --git a/python/pyarrow/src/arrow/python/python_test.cc b/python/pyarrow/src/arrow/python/python_test.cc
new file mode 100644
index 00000000000..9b84488eb30
--- /dev/null
+++ b/python/pyarrow/src/arrow/python/python_test.cc
@@ -0,0 +1,885 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+//   http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing,
+// software distributed under the License is distributed on an
+// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+// KIND, either express or implied.  See the License for the
+// specific language governing permissions and limitations
+// under the License.
+
+#include <memory>
+#include <optional>
+#include <sstream>
+#include <string>
+
+#include "platform.h"
+
+#include "arrow/array.h"
+#include "arrow/array/builder_binary.h"
+#include "arrow/table.h"
+#include "arrow/util/decimal.h"
+#include "arrow/util/logging.h"
+
+#include "arrow/python/arrow_to_pandas.h"
+#include "arrow/python/decimal.h"
+#include "arrow/python/helpers.h"
+#include "arrow/python/numpy_convert.h"
+#include "arrow/python/numpy_interop.h"
+#include "arrow/python/python_test.h"
+#include "arrow/python/python_to_arrow.h"
+
+#define ASSERT_EQ(x, y) { \
+  auto&& _left = (x); \
+  auto&& _right = (y); \
+  if (_left != _right) { \
+    return Status::Invalid("Expected equality between `", #x, "` and `", #y, \
+                           "`, but ", arrow::py::testing::ToString(_left), \
+                           " != ", arrow::py::testing::ToString(_right)); \
+  } \
+}
+
+#define ASSERT_NE(x, y) { \
+  auto&& _left = (x); \
+  auto&& _right = (y); \
+  if (_left == _right) { \
+    return Status::Invalid("Expected inequality between `", #x, "` and `", #y, \
+                           "`, but ", arrow::py::testing::ToString(_left), \
+                           " == ", arrow::py::testing::ToString(_right)); \
+  } \
+}
+
+#define ASSERT_FALSE(v) { \
+  auto&& _v = (v); \
+  if (!!_v) { \
+    return Status::Invalid("Expected `", #v, "` to evaluate to false, but got ", \
+                           arrow::py::testing::ToString(_v)); \
+  } \
+}
+
+#define ASSERT_TRUE(v){ \
+  auto&& _v = (v); \
+  if (!_v) { \
+    return Status::Invalid("Expected `", #v, "` to evaluate to true, but got ", \
+                           arrow::py::testing::ToString(_v)); \
+  } \
+}
+
+#define ASSERT_FALSE_MSG(v, msg) { \
+  auto&& _v = (v); \
+  if (!!_v) { \
+    return Status::Invalid("Expected `", #v, "` to evaluate to false, but got ", \
+                           arrow::py::testing::ToString(_v), ": ", msg); \
+  } \
+}
+
+#define ASSERT_TRUE_MSG(v, msg) { \
+  auto&& _v = (v); \
+  if (!_v) { \
+    return Status::Invalid("Expected `", #v, "` to evaluate to true, but got ", \
+                           arrow::py::testing::ToString(_v), ": ", msg); \
+  } \
+}
+
+#define ASSERT_OK(expr) { \
+  for (::arrow::Status _st = ::arrow::internal::GenericToStatus((expr)); !_st.ok();) \
+  return Status::Invalid("`", #expr, "` failed with ", _st.ToString()); \
+}
+
+#define ASSERT_RAISES(code, expr) { \
+  for (::arrow::Status _st_expr = ::arrow::internal::GenericToStatus((expr)); \
+       !_st_expr.Is##code();) \
+  return Status::Invalid("Expected `", #expr, "` to fail with ", \
+                         #code, ", but got ", _st_expr.ToString()); \
+}
+
+namespace arrow {
+
+using internal::checked_cast;
+
+namespace py {
+namespace testing {
+
+// ARROW-17938: Some standard libraries have ambiguous operator<<(nullptr_t),
+// work around it using a custom printer function.
+
+template <typename T>
+std::string ToString(const T& t) {
+  std::stringstream ss;
+  ss << t;
+  return ss.str();
+}
+
+template <>
+std::string ToString(const std::nullptr_t&) {
+  return "nullptr";
+}
+
+namespace {
+
+Status TestOwnedRefMoves() {
+  std::vector<OwnedRef> vec;
+  PyObject *u, *v;
+  u = PyList_New(0);
+  v = PyList_New(0);
+
+  {
+    OwnedRef ref(u);
+    vec.push_back(std::move(ref));
+    ASSERT_EQ(ref.obj(), nullptr);
+  }
+  vec.emplace_back(v);
+  ASSERT_EQ(Py_REFCNT(u), 1);
+  ASSERT_EQ(Py_REFCNT(v), 1);
+  return Status::OK();
+}
+
+Status TestOwnedRefNoGILMoves() {
+  PyAcquireGIL lock;
+  lock.release();
+
+  {
+    std::vector<OwnedRef> vec;
+    PyObject *u, *v;
+    {
+      lock.acquire();
+      u = PyList_New(0);
+      v = PyList_New(0);
+      lock.release();
+    }
+    {
+      OwnedRefNoGIL ref(u);
+      vec.push_back(std::move(ref));
+      ASSERT_EQ(ref.obj(), nullptr);
+    }
+    vec.emplace_back(v);
+    ASSERT_EQ(Py_REFCNT(u), 1);
+    ASSERT_EQ(Py_REFCNT(v), 1);
+    return Status::OK();
+  }
+}
+
+std::string FormatPythonException(const std::string& exc_class_name) {
+  std::stringstream ss;
+  ss << "Python exception: ";
+  ss << exc_class_name;
+  return ss.str();
+}
+
+Status TestCheckPyErrorStatus() {
+  Status st;
+  std::string expected_detail = "";
+
+  auto check_error = [](Status& st, const char* expected_message = "some error",
+                        std::string expected_detail = "") {
+    st = CheckPyError();
+    ASSERT_EQ(st.message(), expected_message);
+    ASSERT_FALSE(PyErr_Occurred());
+    if (expected_detail.size() > 0) {
+      auto detail = st.detail();
+      ASSERT_NE(detail, nullptr);
+      ASSERT_EQ(detail->ToString(), expected_detail);
+    }
+    return Status::OK();
+  };
+
+  for (PyObject* exc_type : {PyExc_Exception, PyExc_SyntaxError}) {
+    PyErr_SetString(exc_type, "some error");
+    ASSERT_OK(check_error(st));
+    ASSERT_TRUE(st.IsUnknownError());
+  }
+
+  PyErr_SetString(PyExc_TypeError, "some error");
+  ASSERT_OK(check_error(st, "some error", FormatPythonException("TypeError")));
+  ASSERT_TRUE(st.IsTypeError());
+
+  PyErr_SetString(PyExc_ValueError, "some error");
+  ASSERT_OK(check_error(st));
+  ASSERT_TRUE(st.IsInvalid());
+
+  PyErr_SetString(PyExc_KeyError, "some error");
+  ASSERT_OK(check_error(st, "'some error'"));
+  ASSERT_TRUE(st.IsKeyError());
+
+  for (PyObject* exc_type : {PyExc_OSError, PyExc_IOError}) {
+    PyErr_SetString(exc_type, "some error");
+    ASSERT_OK(check_error(st));
+    ASSERT_TRUE(st.IsIOError());
+  }
+
+  PyErr_SetString(PyExc_NotImplementedError, "some error");
+  ASSERT_OK(check_error(st, "some error", FormatPythonException("NotImplementedError")));
+  ASSERT_TRUE(st.IsNotImplemented());
+
+  // No override if a specific status code is given
+  PyErr_SetString(PyExc_TypeError, "some error");
+  st = CheckPyError(StatusCode::SerializationError);
+  ASSERT_TRUE(st.IsSerializationError());
+  ASSERT_EQ(st.message(), "some error");
+  ASSERT_FALSE(PyErr_Occurred());
+
+  return Status::OK();
+}
+
+Status TestCheckPyErrorStatusNoGIL() {
+  PyAcquireGIL lock;
+  {
+    Status st;
+    PyErr_SetString(PyExc_ZeroDivisionError, "zzzt");
+    st = ConvertPyError();
+    ASSERT_FALSE(PyErr_Occurred());
+    lock.release();
+    ASSERT_TRUE(st.IsUnknownError());
+    ASSERT_EQ(st.message(), "zzzt");
+    ASSERT_EQ(st.detail()->ToString(), FormatPythonException("ZeroDivisionError"));
+    return Status::OK();
+  }
+}
+
+Status TestRestorePyErrorBasics() {
+  PyErr_SetString(PyExc_ZeroDivisionError, "zzzt");
+  auto st = ConvertPyError();
+  ASSERT_FALSE(PyErr_Occurred());
+  ASSERT_TRUE(st.IsUnknownError());
+  ASSERT_EQ(st.message(), "zzzt");
+  ASSERT_EQ(st.detail()->ToString(), FormatPythonException("ZeroDivisionError"));
+
+  RestorePyError(st);
+  ASSERT_TRUE(PyErr_Occurred());
+  PyObject* exc_type;
+  PyObject* exc_value;
+  PyObject* exc_traceback;
+  PyErr_Fetch(&exc_type, &exc_value, &exc_traceback);
+  ASSERT_TRUE(PyErr_GivenExceptionMatches(exc_type, PyExc_ZeroDivisionError));
+  std::string py_message;
+  ASSERT_OK(internal::PyObject_StdStringStr(exc_value, &py_message));
+  ASSERT_EQ(py_message, "zzzt");
+
+  return Status::OK();
+}
+
+Status TestPyBufferInvalidInputObject() {
+  std::shared_ptr<Buffer> res;
+  PyObject* input = Py_None;
+  auto old_refcnt = Py_REFCNT(input);
+  {
+    Status st = PyBuffer::FromPyObject(input).status();
+    ASSERT_TRUE_MSG(IsPyError(st), st.ToString());
+    ASSERT_FALSE(PyErr_Occurred());
+  }
+  ASSERT_EQ(old_refcnt, Py_REFCNT(input));
+  return Status::OK();
+}
+
+// Because of how it is declared, the Numpy C API instance initialized
+// within libarrow_python.dll may not be visible in this test under Windows
+// ("unresolved external symbol arrow_ARRAY_API referenced").
+#ifndef _WIN32
+Status TestPyBufferNumpyArray() {
+  npy_intp dims[1] = {10};
+
+  OwnedRef arr_ref(PyArray_SimpleNew(1, dims, NPY_FLOAT));
+  PyObject* arr = arr_ref.obj();
+  ASSERT_NE(arr, nullptr);
+  auto old_refcnt = Py_REFCNT(arr);
+  auto buf = std::move(PyBuffer::FromPyObject(arr)).ValueOrDie();
+
+  ASSERT_TRUE(buf->is_cpu());
+  ASSERT_EQ(buf->data(), PyArray_DATA(reinterpret_cast<PyArrayObject*>(arr)));
+  ASSERT_TRUE(buf->is_mutable());
+  ASSERT_EQ(buf->mutable_data(), buf->data());
+  ASSERT_EQ(old_refcnt + 1, Py_REFCNT(arr));
+  buf.reset();
+  ASSERT_EQ(old_refcnt, Py_REFCNT(arr));
+
+  // Read-only
+  PyArray_CLEARFLAGS(reinterpret_cast<PyArrayObject*>(arr), NPY_ARRAY_WRITEABLE);
+  buf = std::move(PyBuffer::FromPyObject(arr)).ValueOrDie();
+  ASSERT_TRUE(buf->is_cpu());
+  ASSERT_EQ(buf->data(), PyArray_DATA(reinterpret_cast<PyArrayObject*>(arr)));
+  ASSERT_FALSE(buf->is_mutable());
+  ASSERT_EQ(old_refcnt + 1, Py_REFCNT(arr));
+  buf.reset();
+  ASSERT_EQ(old_refcnt, Py_REFCNT(arr));
+
+  return Status::OK();
+}
+
+Status TestNumPyBufferNumpyArray() {
+  npy_intp dims[1] = {10};
+
+  OwnedRef arr_ref(PyArray_SimpleNew(1, dims, NPY_FLOAT));
+  PyObject* arr = arr_ref.obj();
+  ASSERT_NE(arr, nullptr);
+  auto old_refcnt = Py_REFCNT(arr);
+
+  auto buf = std::make_shared<NumPyBuffer>(arr);
+  ASSERT_TRUE(buf->is_cpu());
+  ASSERT_EQ(buf->data(), PyArray_DATA(reinterpret_cast<PyArrayObject*>(arr)));
+  ASSERT_TRUE(buf->is_mutable());
+  ASSERT_EQ(buf->mutable_data(), buf->data());
+  ASSERT_EQ(old_refcnt + 1, Py_REFCNT(arr));
+  buf.reset();
+  ASSERT_EQ(old_refcnt, Py_REFCNT(arr));
+
+  // Read-only
+  PyArray_CLEARFLAGS(reinterpret_cast<PyArrayObject*>(arr), NPY_ARRAY_WRITEABLE);
+  buf = std::make_shared<NumPyBuffer>(arr);
+  ASSERT_TRUE(buf->is_cpu());
+  ASSERT_EQ(buf->data(), PyArray_DATA(reinterpret_cast<PyArrayObject*>(arr)));
+  ASSERT_FALSE(buf->is_mutable());
+  ASSERT_EQ(old_refcnt + 1, Py_REFCNT(arr));
+  buf.reset();
+  ASSERT_EQ(old_refcnt, Py_REFCNT(arr));
+
+  return Status::OK();
+}
+#endif
+
+Status TestPythonDecimalToString(){
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+
+  std::string decimal_string("-39402950693754869342983");
+  PyObject* python_object = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string);
+  ASSERT_NE(python_object, nullptr);
+
+  std::string string_result;
+  ASSERT_OK(internal::PythonDecimalToString(python_object, &string_result));
+
+  return Status::OK();
+}
+
+Status TestInferPrecisionAndScale(){
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+
+  std::string decimal_string("-394029506937548693.42983");
+  PyObject* python_decimal = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string);
+
+  internal::DecimalMetadata metadata;
+  ASSERT_OK(metadata.Update(python_decimal));
+
+  const auto expected_precision =
+      static_cast<int32_t>(decimal_string.size() - 2);  // 1 for -, 1 for .
+  const int32_t expected_scale = 5;
+
+  ASSERT_EQ(expected_precision, metadata.precision());
+  ASSERT_EQ(expected_scale, metadata.scale());
+
+  return Status::OK();
+}
+
+Status TestInferPrecisionAndNegativeScale(){
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+
+  std::string decimal_string("-3.94042983E+10");
+  PyObject* python_decimal = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string);
+
+  internal::DecimalMetadata metadata;
+  ASSERT_OK(metadata.Update(python_decimal));
+
+  const auto expected_precision = 11;
+  const int32_t expected_scale = 0;
+
+  ASSERT_EQ(expected_precision, metadata.precision());
+  ASSERT_EQ(expected_scale, metadata.scale());
+
+  return Status::OK();
+}
+
+Status TestInferAllLeadingZeros(){
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+
+  std::string decimal_string("0.001");
+  PyObject* python_decimal = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string);
+
+  internal::DecimalMetadata metadata;
+  ASSERT_OK(metadata.Update(python_decimal));
+  ASSERT_EQ(3, metadata.precision());
+  ASSERT_EQ(3, metadata.scale());
+
+  return Status::OK();
+}
+
+Status TestInferAllLeadingZerosExponentialNotationPositive(){
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+
+  std::string decimal_string("0.01E5");
+  PyObject* python_decimal = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string);
+
+  internal::DecimalMetadata metadata;
+  ASSERT_OK(metadata.Update(python_decimal));
+  ASSERT_EQ(4, metadata.precision());
+  ASSERT_EQ(0, metadata.scale());
+
+  return Status::OK();
+}
+
+Status TestInferAllLeadingZerosExponentialNotationNegative(){
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+
+  std::string decimal_string("0.01E3");
+  PyObject* python_decimal = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string);
+  internal::DecimalMetadata metadata;
+  ASSERT_OK(metadata.Update(python_decimal));
+  ASSERT_EQ(2, metadata.precision());
+  ASSERT_EQ(0, metadata.scale());
+
+  return Status::OK();
+}
+
+Status TestObjectBlockWriteFails(){
+  StringBuilder builder;
+  const char value[] = {'\xf1', '\0'};
+
+  for (int i = 0; i < 1000; ++i) {
+    ASSERT_OK(builder.Append(value, static_cast<int32_t>(strlen(value))));
+  }
+
+  std::shared_ptr<Array> arr;
+  ASSERT_OK(builder.Finish(&arr));
+
+  auto f1 = field("f1", utf8());
+  auto f2 = field("f2", utf8());
+  auto f3 = field("f3", utf8());
+  std::vector<std::shared_ptr<Field>> fields = {f1, f2, f3};
+  std::vector<std::shared_ptr<Array>> cols = {arr, arr, arr};
+
+  auto schema = ::arrow::schema(fields);
+  auto table = Table::Make(schema, cols);
+
+  Status st;
+  Py_BEGIN_ALLOW_THREADS;
+  PyObject* out;
+  PandasOptions options;
+  options.use_threads = true;
+  st = ConvertTableToPandas(options, table, &out);
+  Py_END_ALLOW_THREADS;
+  ASSERT_RAISES(UnknownError, st);
+
+  return Status::OK();
+}
+
+Status TestMixedTypeFails(){
+  OwnedRef list_ref(PyList_New(3));
+  PyObject* list = list_ref.obj();
+
+  ASSERT_NE(list, nullptr);
+
+  PyObject* str = PyUnicode_FromString("abc");
+  ASSERT_NE(str, nullptr);
+
+  PyObject* integer = PyLong_FromLong(1234L);
+  ASSERT_NE(integer, nullptr);
+
+  PyObject* doub = PyFloat_FromDouble(123.0234);
+  ASSERT_NE(doub, nullptr);
+
+  // This steals a reference to each object, so we don't need to decref them later
+  // just the list
+  ASSERT_EQ(PyList_SetItem(list, 0, str), 0);
+  ASSERT_EQ(PyList_SetItem(list, 1, integer), 0);
+  ASSERT_EQ(PyList_SetItem(list, 2, doub), 0);
+
+  ASSERT_RAISES(TypeError, ConvertPySequence(list, nullptr, {}));
+
+  return Status::OK();
+}
+
+template <typename DecimalValue>
+Status DecimalTestFromPythonDecimalRescale(std::shared_ptr<DataType> type,
+                                         PyObject* python_decimal,
+                                         std::optional<int> expected) {
+  DecimalValue value;
+  const auto& decimal_type = checked_cast<const DecimalType&>(*type);
+
+  if (expected.has_value()) {
+    ASSERT_OK(
+        internal::DecimalFromPythonDecimal(python_decimal, decimal_type, &value));
+    ASSERT_EQ(expected.value(), value);
+
+    ASSERT_OK(internal::DecimalFromPyObject(python_decimal, decimal_type, &value));
+    ASSERT_EQ(expected.value(), value);
+  } else {
+    ASSERT_RAISES(Invalid,
+                  internal::DecimalFromPythonDecimal(python_decimal,
+                                                     decimal_type, &value));
+    ASSERT_RAISES(Invalid,
+                  internal::DecimalFromPyObject(python_decimal,
+                                                decimal_type, &value));
+  }
+  return Status::OK();
+}
+
+Status TestFromPythonDecimalRescaleNotTruncateable(){
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+
+  std::string decimal_string("1.001");
+  PyObject* python_decimal = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string);
+  // We fail when truncating values that would lose data if cast to a decimal type with
+  // lower scale
+  ASSERT_OK(DecimalTestFromPythonDecimalRescale<Decimal128>(::arrow::decimal128(10, 2),
+                                                            python_decimal, {}));
+  ASSERT_OK(DecimalTestFromPythonDecimalRescale<Decimal256>(::arrow::decimal256(10, 2),
+                                                            python_decimal, {}));
+
+  return Status::OK();
+}
+
+Status TestFromPythonDecimalRescaleTruncateable(){
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+
+  std::string decimal_string("1.000");
+  PyObject* python_decimal = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string);
+  // We allow truncation of values that do not lose precision when dividing by 10 * the
+  // difference between the scales, e.g., 1.000 -> 1.00
+  ASSERT_OK(DecimalTestFromPythonDecimalRescale<Decimal128>(
+      ::arrow::decimal128(10, 2), python_decimal, 100));
+  ASSERT_OK(DecimalTestFromPythonDecimalRescale<Decimal256>(
+      ::arrow::decimal256(10, 2), python_decimal, 100));
+
+  return Status::OK();
+}
+
+Status TestFromPythonNegativeDecimalRescale(){
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+
+  std::string decimal_string("-1.000");
+  PyObject* python_decimal = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string);
+  ASSERT_OK(DecimalTestFromPythonDecimalRescale<Decimal128>(
+      ::arrow::decimal128(10, 9), python_decimal, -1000000000));
+  ASSERT_OK(DecimalTestFromPythonDecimalRescale<Decimal256>(
+      ::arrow::decimal256(10, 9), python_decimal, -1000000000));
+
+  return Status::OK();
+}
+
+Status TestDecimal128FromPythonInteger(){
+  Decimal128 value;
+  OwnedRef python_long(PyLong_FromLong(42));
+  auto type = ::arrow::decimal128(10, 2);
+  const auto& decimal_type = checked_cast<const DecimalType&>(*type);
+  ASSERT_OK(internal::DecimalFromPyObject(python_long.obj(), decimal_type, &value));
+  ASSERT_EQ(4200, value);
+  return Status::OK();
+}
+
+Status TestDecimal256FromPythonInteger(){
+  Decimal256 value;
+  OwnedRef python_long(PyLong_FromLong(42));
+  auto type = ::arrow::decimal256(10, 2);
+  const auto& decimal_type = checked_cast<const DecimalType&>(*type);
+  ASSERT_OK(internal::DecimalFromPyObject(python_long.obj(), decimal_type, &value));
+  ASSERT_EQ(4200, value);
+  return Status::OK();
+}
+
+Status TestDecimal128OverflowFails(){
+  Decimal128 value;
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+
+  std::string decimal_string("9999999999999999999999999999999999999.9");
+  PyObject* python_decimal = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string);
+  internal::DecimalMetadata metadata;
+  ASSERT_OK(metadata.Update(python_decimal));
+  ASSERT_EQ(38, metadata.precision());
+  ASSERT_EQ(1, metadata.scale());
+
+  auto type = ::arrow::decimal(38, 38);
+  const auto& decimal_type = checked_cast<const DecimalType&>(*type);
+  ASSERT_RAISES(Invalid,
+                internal::DecimalFromPythonDecimal(python_decimal,
+                                                   decimal_type, &value));
+  return Status::OK();
+}
+
+Status TestDecimal256OverflowFails(){
+  Decimal256 value;
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+
+  std::string decimal_string("999999999999999999999999999999999999999999999999999999999999999999999999999.9");
+  PyObject* python_decimal = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string);
+
+  internal::DecimalMetadata metadata;
+  ASSERT_OK(metadata.Update(python_decimal));
+  ASSERT_EQ(76, metadata.precision());
+  ASSERT_EQ(1, metadata.scale());
+
+  auto type = ::arrow::decimal(76, 76);
+  const auto& decimal_type = checked_cast<const DecimalType&>(*type);
+  ASSERT_RAISES(Invalid,
+                internal::DecimalFromPythonDecimal(python_decimal,
+                                                   decimal_type, &value));
+  return Status::OK();
+}
+
+Status TestNoneAndNaN(){
+  OwnedRef list_ref(PyList_New(4));
+  PyObject* list = list_ref.obj();
+
+  ASSERT_NE(list, nullptr);
+
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+  PyObject* constructor = decimal_constructor_.obj();
+  PyObject* decimal_value = internal::DecimalFromString(constructor, "1.234");
+  ASSERT_NE(decimal_value, nullptr);
+
+  Py_INCREF(Py_None);
+  PyObject* missing_value1 = Py_None;
+  ASSERT_NE(missing_value1, nullptr);
+
+  PyObject* missing_value2 = PyFloat_FromDouble(NPY_NAN);
+  ASSERT_NE(missing_value2, nullptr);
+
+  PyObject* missing_value3 = internal::DecimalFromString(constructor, "nan");
+  ASSERT_NE(missing_value3, nullptr);
+
+  // This steals a reference to each object, so we don't need to decref them later,
+  // just the list
+  ASSERT_EQ(0, PyList_SetItem(list, 0, decimal_value));
+  ASSERT_EQ(0, PyList_SetItem(list, 1, missing_value1));
+  ASSERT_EQ(0, PyList_SetItem(list, 2, missing_value2));
+  ASSERT_EQ(0, PyList_SetItem(list, 3, missing_value3));
+
+  PyConversionOptions options;
+  ASSERT_RAISES(TypeError,
+                ConvertPySequence(list, nullptr, options));
+
+  options.from_pandas = true;
+  auto chunked = std::move(ConvertPySequence(list, nullptr, options)).ValueOrDie();
+  ASSERT_EQ(chunked->num_chunks(), 1);
+
+  auto arr = chunked->chunk(0);
+  ASSERT_TRUE(arr->IsValid(0));
+  ASSERT_TRUE(arr->IsNull(1));
+  ASSERT_TRUE(arr->IsNull(2));
+  ASSERT_TRUE(arr->IsNull(3));
+
+  return Status::OK();
+}
+
+Status TestMixedPrecisionAndScale(){
+  std::vector<std::string> strings{{"0.001", "1.01E5", "1.01E5"}};
+
+  OwnedRef list_ref(PyList_New(static_cast<Py_ssize_t>(strings.size())));
+  PyObject* list = list_ref.obj();
+
+  ASSERT_NE(list, nullptr);
+
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+  // PyList_SetItem steals a reference to the item so we don't decref it later
+  PyObject* decimal_constructor = decimal_constructor_.obj();
+  for (Py_ssize_t i = 0; i < static_cast<Py_ssize_t>(strings.size()); ++i) {
+    const int result = PyList_SetItem(
+        list, i, internal::DecimalFromString(decimal_constructor, strings.at(i)));
+    ASSERT_EQ(0, result);
+  }
+
+  auto arr = std::move(ConvertPySequence(list, nullptr, {})).ValueOrDie();
+  const auto& type = checked_cast<const DecimalType&>(*arr->type());
+
+  int32_t expected_precision = 9;
+  int32_t expected_scale = 3;
+  ASSERT_EQ(expected_precision, type.precision());
+  ASSERT_EQ(expected_scale, type.scale());
+
+  return Status::OK();
+}
+
+Status TestMixedPrecisionAndScaleSequenceConvert(){
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+
+  std::string decimal_string_1("0.01");
+  PyObject* value1 = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string_1);
+  ASSERT_NE(value1, nullptr);
+
+  std::string decimal_string_2("0.001");
+  PyObject* value2 = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string_2);
+  ASSERT_NE(value2, nullptr);
+
+  OwnedRef list_ref(PyList_New(2));
+  PyObject* list = list_ref.obj();
+
+  // This steals a reference to each object, so we don't need to decref them later
+  // just the list
+  ASSERT_EQ(PyList_SetItem(list, 0, value1), 0);
+  ASSERT_EQ(PyList_SetItem(list, 1, value2), 0);
+
+  auto arr = std::move(ConvertPySequence(list, nullptr, {})).ValueOrDie();
+  const auto& type = checked_cast<const Decimal128Type&>(*arr->type());
+  ASSERT_EQ(3, type.precision());
+  ASSERT_EQ(3, type.scale());
+
+  return Status::OK();
+}
+
+Status TestSimpleInference(){
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+
+  std::string decimal_string("0.01");
+  PyObject* value = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string);
+  ASSERT_NE(value, nullptr);
+  internal::DecimalMetadata metadata;
+  ASSERT_OK(metadata.Update(value));
+  ASSERT_EQ(2, metadata.precision());
+  ASSERT_EQ(2, metadata.scale());
+
+  return Status::OK();
+}
+
+Status TestUpdateWithNaN(){
+  internal::DecimalMetadata metadata;
+  OwnedRef decimal_constructor_;
+  OwnedRef decimal_module;
+  RETURN_NOT_OK(internal::ImportModule("decimal", &decimal_module));
+  RETURN_NOT_OK(internal::ImportFromModule(decimal_module.obj(), "Decimal",
+                                           &decimal_constructor_));
+  std::string decimal_string("nan");
+  PyObject* nan_value = internal::DecimalFromString(decimal_constructor_.obj(),
+                                                        decimal_string);
+
+  ASSERT_OK(metadata.Update(nan_value));
+  ASSERT_EQ(std::numeric_limits<int32_t>::min(), metadata.precision());
+  ASSERT_EQ(std::numeric_limits<int32_t>::min(), metadata.scale());
+
+  return Status::OK();
+}
+
+}  // namespace
+
+std::vector<TestCase> GetCppTestCases() {
+  return {
+    {"test_owned_ref_moves", TestOwnedRefMoves},
+    {"test_owned_ref_nogil_moves", TestOwnedRefNoGILMoves},
+    {"test_check_pyerror_status", TestCheckPyErrorStatus},
+    {"test_check_pyerror_status_nogil", TestCheckPyErrorStatusNoGIL},
+    {"test_restore_pyerror_basics", TestRestorePyErrorBasics},
+    {"test_pybuffer_invalid_input_object", TestPyBufferInvalidInputObject},
+#ifndef _WIN32
+    {"test_pybuffer_numpy_array", TestPyBufferNumpyArray},
+    {"test_numpybuffer_numpy_array", TestNumPyBufferNumpyArray},
+#endif
+    {"test_python_decimal_to_string", TestPythonDecimalToString},
+    {"test_infer_precision_and_scale", TestInferPrecisionAndScale},
+    {"test_infer_precision_and_negative_scale", TestInferPrecisionAndNegativeScale},
+    {"test_infer_all_leading_zeros", TestInferAllLeadingZeros},
+    {"test_infer_all_leading_zeros_exponential_notation_positive",
+     TestInferAllLeadingZerosExponentialNotationPositive},
+    {"test_infer_all_leading_zeros_exponential_notation_negative",
+     TestInferAllLeadingZerosExponentialNotationNegative},
+    {"test_object_block_write_fails", TestObjectBlockWriteFails},
+    {"test_mixed_type_fails", TestMixedTypeFails},
+    {"test_from_python_decimal_rescale_not_truncateable",
+     TestFromPythonDecimalRescaleNotTruncateable},
+    {"test_from_python_decimal_rescale_truncateable",
+     TestFromPythonDecimalRescaleTruncateable},
+    {"test_from_python_negative_decimal_rescale", TestFromPythonNegativeDecimalRescale},
+    {"test_decimal128_from_python_integer", TestDecimal128FromPythonInteger},
+    {"test_decimal256_from_python_integer", TestDecimal256FromPythonInteger},
+    {"test_decimal128_overflow_fails", TestDecimal128OverflowFails},
+    {"test_decimal256_overflow_fails", TestDecimal256OverflowFails},
+    {"test_none_and_nan", TestNoneAndNaN},
+    {"test_mixed_precision_and_scale", TestMixedPrecisionAndScale},
+    {"test_mixed_precision_and_scale_sequence_convert",
+     TestMixedPrecisionAndScaleSequenceConvert},
+    {"test_simple_inference", TestSimpleInference},
+    {"test_update_with_nan", TestUpdateWithNaN},
+  };
+}
+
+}  // namespace testing
+}  // namespace py
+}  // namespace arrow
diff --git a/cpp/src/arrow/util/string_view.h b/python/pyarrow/src/arrow/python/python_test.h
similarity index 69%
rename from cpp/src/arrow/util/string_view.h
rename to python/pyarrow/src/arrow/python/python_test.h
index 4a51c2ebd9e..c2eb62fc29a 100644
--- a/cpp/src/arrow/util/string_view.h
+++ b/python/pyarrow/src/arrow/python/python_test.h
@@ -17,22 +17,26 @@
 
 #pragma once
 
-#define nssv_CONFIG_SELECT_STRING_VIEW nssv_STRING_VIEW_NONSTD
-
-#include <cstdint>
+#include <functional>
 #include <string>
+#include <vector>
 
-#include "arrow/vendored/string_view.hpp"  // IWYU pragma: export
+#include "arrow/status.h"
 
-namespace arrow {
-namespace util {
+#include "arrow/python/visibility.h"
 
-using nonstd::string_view;
+namespace arrow {
+namespace py {
+namespace testing {
 
-template <class Char, class Traits = std::char_traits<Char>>
-using basic_string_view = nonstd::basic_string_view<Char, Traits>;
+struct TestCase {
+  std::string name;
+  std::function<Status()> func;
+};
 
-using bytes_view = basic_string_view<uint8_t>;
+ARROW_PYTHON_EXPORT
+std::vector<TestCase> GetCppTestCases();
 
-}  // namespace util
+}  // namespace testing
+}  // namespace py
 }  // namespace arrow
diff --git a/cpp/src/arrow/python/python_to_arrow.cc b/python/pyarrow/src/arrow/python/python_to_arrow.cc
similarity index 98%
rename from cpp/src/arrow/python/python_to_arrow.cc
rename to python/pyarrow/src/arrow/python/python_to_arrow.cc
index 7a94407d2d9..9e7f07ef812 100644
--- a/cpp/src/arrow/python/python_to_arrow.cc
+++ b/python/pyarrow/src/arrow/python/python_to_arrow.cc
@@ -35,6 +35,7 @@
 #include "arrow/array/builder_primitive.h"
 #include "arrow/array/builder_time.h"
 #include "arrow/chunked_array.h"
+#include "arrow/result.h"
 #include "arrow/status.h"
 #include "arrow/type.h"
 #include "arrow/type_traits.h"
@@ -44,6 +45,7 @@
 #include "arrow/util/int_util_overflow.h"
 #include "arrow/util/logging.h"
 
+#include "arrow/visit_type_inline.h"
 #include "arrow/python/datetime.h"
 #include "arrow/python/decimal.h"
 #include "arrow/python/helpers.h"
@@ -51,7 +53,6 @@
 #include "arrow/python/iterators.h"
 #include "arrow/python/numpy_convert.h"
 #include "arrow/python/type_traits.h"
-#include "arrow/visit_type_inline.h"
 
 namespace arrow {
 
@@ -445,16 +446,17 @@ class PyValue {
         case TimeUnit::MILLI:
           value = internal::PyDelta_to_ms(dt);
           break;
-        case TimeUnit::MICRO:
-          value = internal::PyDelta_to_us(dt);
+        case TimeUnit::MICRO: {
+          ARROW_ASSIGN_OR_RAISE(value, internal::PyDelta_to_us(dt));
           break;
+        }
         case TimeUnit::NANO:
           if (internal::IsPandasTimedelta(obj)) {
             OwnedRef nanos(PyObject_GetAttrString(obj, "value"));
             RETURN_IF_PYERROR();
             RETURN_NOT_OK(internal::CIntFromPython(nanos.obj(), &value));
           } else {
-            value = internal::PyDelta_to_ns(dt);
+            ARROW_ASSIGN_OR_RAISE(value, internal::PyDelta_to_ns(dt));
           }
           break;
         default:
@@ -760,6 +762,11 @@ class PyListConverter : public ListConverter<T, PyConverter, PyConverterTrait> {
       RETURN_NOT_OK(AppendSequence(value));
     } else if (PySet_Check(value) || (Py_TYPE(value) == &PyDictValues_Type)) {
       RETURN_NOT_OK(AppendIterable(value));
+    } else if (PyDict_Check(value) && this->options_.type->id() == Type::MAP) {
+      // Branch to support Python Dict with `map` DataType.
+      auto items = PyDict_Items(value);
+      OwnedRef item_ref(items);
+      RETURN_NOT_OK(AppendSequence(items));
     } else {
       return internal::InvalidType(
           value, "was not a sequence or recognized null for conversion to list type");
diff --git a/cpp/src/arrow/python/python_to_arrow.h b/python/pyarrow/src/arrow/python/python_to_arrow.h
similarity index 100%
rename from cpp/src/arrow/python/python_to_arrow.h
rename to python/pyarrow/src/arrow/python/python_to_arrow.h
index d167996ba8d..d737047a00b 100644
--- a/cpp/src/arrow/python/python_to_arrow.h
+++ b/python/pyarrow/src/arrow/python/python_to_arrow.h
@@ -25,9 +25,9 @@
 #include <cstdint>
 #include <memory>
 
-#include "arrow/python/visibility.h"
 #include "arrow/type.h"
 #include "arrow/util/macros.h"
+#include "arrow/python/visibility.h"
 
 #include "arrow/python/common.h"
 
diff --git a/cpp/src/arrow/python/serialize.cc b/python/pyarrow/src/arrow/python/serialize.cc
similarity index 100%
rename from cpp/src/arrow/python/serialize.cc
rename to python/pyarrow/src/arrow/python/serialize.cc
diff --git a/cpp/src/arrow/python/serialize.h b/python/pyarrow/src/arrow/python/serialize.h
similarity index 100%
rename from cpp/src/arrow/python/serialize.h
rename to python/pyarrow/src/arrow/python/serialize.h
index fd207d3e069..e9fd8438815 100644
--- a/cpp/src/arrow/python/serialize.h
+++ b/python/pyarrow/src/arrow/python/serialize.h
@@ -21,9 +21,9 @@
 #include <vector>
 
 #include "arrow/ipc/options.h"
-#include "arrow/python/visibility.h"
 #include "arrow/sparse_tensor.h"
 #include "arrow/status.h"
+#include "arrow/python/visibility.h"
 
 // Forward declaring PyObject, see
 // https://mail.python.org/pipermail/python-dev/2003-August/037601.html
diff --git a/cpp/src/arrow/python/type_traits.h b/python/pyarrow/src/arrow/python/type_traits.h
similarity index 100%
rename from cpp/src/arrow/python/type_traits.h
rename to python/pyarrow/src/arrow/python/type_traits.h
diff --git a/cpp/src/arrow/python/udf.cc b/python/pyarrow/src/arrow/python/udf.cc
similarity index 100%
rename from cpp/src/arrow/python/udf.cc
rename to python/pyarrow/src/arrow/python/udf.cc
diff --git a/cpp/src/arrow/python/udf.h b/python/pyarrow/src/arrow/python/udf.h
similarity index 96%
rename from cpp/src/arrow/python/udf.h
rename to python/pyarrow/src/arrow/python/udf.h
index 4ab3e7cc72b..9a3666459fd 100644
--- a/cpp/src/arrow/python/udf.h
+++ b/python/pyarrow/src/arrow/python/udf.h
@@ -41,6 +41,7 @@ struct ARROW_PYTHON_EXPORT ScalarUdfOptions {
   std::shared_ptr<DataType> output_type;
 };
 
+/// \brief A context passed as the first argument of scalar UDF functions.
 struct ARROW_PYTHON_EXPORT ScalarUdfContext {
   MemoryPool* pool;
   int64_t batch_length;
diff --git a/cpp/src/arrow/python/visibility.h b/python/pyarrow/src/arrow/python/visibility.h
similarity index 97%
rename from cpp/src/arrow/python/visibility.h
rename to python/pyarrow/src/arrow/python/visibility.h
index c0b343c70e9..dd43b32fd43 100644
--- a/cpp/src/arrow/python/visibility.h
+++ b/python/pyarrow/src/arrow/python/visibility.h
@@ -24,7 +24,7 @@
 #pragma GCC diagnostic ignored "-Wattributes"
 #endif
 
-#ifdef ARROW_STATIC
+#ifdef ARROW_PYTHON_STATIC
 #define ARROW_PYTHON_EXPORT
 #elif defined(ARROW_PYTHON_EXPORTING)
 #define ARROW_PYTHON_EXPORT __declspec(dllexport)
diff --git a/python/pyarrow/substrait.py b/python/pyarrow/substrait.py
index e3ff28f4eba..590d03521fe 100644
--- a/python/pyarrow/substrait.py
+++ b/python/pyarrow/substrait.py
@@ -16,5 +16,6 @@
 # under the License.
 
 from pyarrow._substrait import (  # noqa
+    get_supported_functions,
     run_query,
 )
diff --git a/python/pyarrow/table.pxi b/python/pyarrow/table.pxi
index 5d84716fc98..35492d4f646 100644
--- a/python/pyarrow/table.pxi
+++ b/python/pyarrow/table.pxi
@@ -366,7 +366,7 @@ cdef class ChunkedArray(_PandasConvertible):
 
         Parameters
         ----------
-        fill_value
+        fill_value : any
             The replacement value for null entries.
 
         Returns
@@ -530,7 +530,7 @@ cdef class ChunkedArray(_PandasConvertible):
 
         Parameters
         ----------
-        null_encoding
+        null_encoding : str, default "mask"
             How to handle null entries.
 
         Returns
@@ -853,7 +853,7 @@ cdef class ChunkedArray(_PandasConvertible):
         ----------
         mask : Array or array-like
             The boolean mask to filter the chunked array with.
-        null_selection_behavior
+        null_selection_behavior : str, default "drop"
             How nulls in the mask should be handled.
 
         Returns
@@ -1039,6 +1039,29 @@ cdef class ChunkedArray(_PandasConvertible):
         """
         return _pc().drop_null(self)
 
+    def sort(self, order="ascending", **kwargs):
+        """
+        Sort the ChunkedArray
+
+        Parameters
+        ----------
+        order : str, default "ascending"
+            Which order to sort values in.
+            Accepted values are "ascending", "descending".
+        **kwargs : dict, optional
+            Additional sorting options.
+            As allowed by :class:`SortOptions`
+
+        Returns
+        -------
+        result : ChunkedArray
+        """
+        indices = _pc().sort_indices(
+            self,
+            options=_pc().SortOptions(sort_keys=[("", order)], **kwargs)
+        )
+        return self.take(indices)
+
     def unify_dictionaries(self, MemoryPool memory_pool=None):
         """
         Unify dictionaries across all chunks.
@@ -1303,7 +1326,8 @@ def chunked_array(arrays, type=None):
     cdef:
         Array arr
         vector[shared_ptr[CArray]] c_arrays
-        shared_ptr[CChunkedArray] sp_chunked_array
+        shared_ptr[CChunkedArray] c_result
+        shared_ptr[CDataType] c_type
 
     type = ensure_type(type, allow_none=True)
 
@@ -1318,25 +1342,13 @@ def chunked_array(arrays, type=None):
             # subsequent arrays to the firstly inferred array type
             # it also spares the inference overhead after the first chunk
             type = arr.type
-        else:
-            if arr.type != type:
-                raise TypeError(
-                    "All array chunks must have type {}".format(type)
-                )
 
         c_arrays.push_back(arr.sp_array)
 
-    if c_arrays.size() == 0 and type is None:
-        raise ValueError("When passing an empty collection of arrays "
-                         "you must also pass the data type")
-
-    sp_chunked_array.reset(
-        new CChunkedArray(c_arrays, pyarrow_unwrap_data_type(type))
-    )
+    c_type = pyarrow_unwrap_data_type(type)
     with nogil:
-        check_status(sp_chunked_array.get().Validate())
-
-    return pyarrow_wrap_chunked_array(sp_chunked_array)
+        c_result = GetResultValue(CChunkedArray.Make(c_arrays, c_type))
+    return pyarrow_wrap_chunked_array(c_result)
 
 
 cdef _schema_from_arrays(arrays, names, metadata, shared_ptr[CSchema]* schema):
@@ -2013,7 +2025,7 @@ cdef class RecordBatch(_PandasConvertible):
         >>> batch = pa.RecordBatch.from_arrays([n_legs, animals],
         ...                                     names=["n_legs", "animals"])
         >>> batch.serialize()
-        <pyarrow.lib.Buffer object at ...>
+        <pyarrow.Buffer address=0x... size=... is_cpu=True is_mutable=True>
         """
         cdef shared_ptr[CBuffer] buffer
         cdef CIpcWriteOptions options = CIpcWriteOptions.Defaults()
@@ -2091,7 +2103,7 @@ cdef class RecordBatch(_PandasConvertible):
         ----------
         mask : Array or array-like
             The boolean mask to filter the record batch with.
-        null_selection_behavior
+        null_selection_behavior : str, default "drop"
             How nulls in the mask should be handled.
 
         Returns
@@ -2242,6 +2254,35 @@ cdef class RecordBatch(_PandasConvertible):
         """
         return _pc().drop_null(self)
 
+    def sort_by(self, sorting, **kwargs):
+        """
+        Sort the RecordBatch by one or multiple columns.
+
+        Parameters
+        ----------
+        sorting : str or list[tuple(name, order)]
+            Name of the column to use to sort (ascending), or
+            a list of multiple sorting conditions where
+            each entry is a tuple with column name
+            and sorting order ("ascending" or "descending")
+        **kwargs : dict, optional
+            Additional sorting options.
+            As allowed by :class:`SortOptions`
+
+        Returns
+        -------
+        RecordBatch
+            A new record batch sorted according to the sort keys.
+        """
+        if isinstance(sorting, str):
+            sorting = [(sorting, "ascending")]
+
+        indices = _pc().sort_indices(
+            self,
+            options=_pc().SortOptions(sort_keys=sorting, **kwargs)
+        )
+        return self.take(indices)
+
     def to_pydict(self):
         """
         Convert the RecordBatch to a dict or OrderedDict.
@@ -2820,6 +2861,36 @@ cdef class Table(_PandasConvertible):
 
         return self.column(key)
 
+    # ----------------------------------------------------------------------
+    def __dataframe__(self, nan_as_null: bool = False, allow_copy: bool = True):
+        """
+        Return the dataframe interchange object implementing the interchange protocol.
+        Parameters
+        ----------
+        nan_as_null : bool, default False
+            Whether to tell the DataFrame to overwrite null values in the data
+            with ``NaN`` (or ``NaT``).
+        allow_copy : bool, default True
+            Whether to allow memory copying when exporting. If set to False
+            it would cause non-zero-copy exports to fail.
+        Returns
+        -------
+        DataFrame interchange object
+            The object which consuming library can use to ingress the dataframe.
+        Notes
+        -----
+        Details on the interchange protocol:
+        https://data-apis.org/dataframe-protocol/latest/index.html
+        `nan_as_null` currently has no effect; once support for nullable extension
+        dtypes is added, this value should be propagated to columns.
+        """
+
+        from pyarrow.interchange.dataframe import _PyArrowDataFrame
+
+        return _PyArrowDataFrame(self, nan_as_null, allow_copy)
+
+    # ----------------------------------------------------------------------
+
     def slice(self, offset=0, length=None):
         """
         Compute zero-copy slice of this Table.
@@ -2897,7 +2968,7 @@ cdef class Table(_PandasConvertible):
         ----------
         mask : Array or array-like or .Expression
             The boolean mask or the :class:`.Expression` to filter the table with.
-        null_selection_behavior
+        null_selection_behavior : str, default "drop"
             How nulls in the mask should be handled, does nothing if
             an :class:`.Expression` is used.
 
@@ -3412,6 +3483,9 @@ cdef class Table(_PandasConvertible):
                              .format(self.schema.names, target_schema.names))
 
         for column, field in zip(self.itercolumns(), target_schema):
+            if not field.nullable and column.null_count > 0:
+                raise ValueError("Casting field {!r} with null values to non-nullable"
+                                 .format(field.name))
             casted = column.cast(field.type, safe=safe, options=options)
             newcols.append(casted)
 
@@ -4672,7 +4746,7 @@ cdef class Table(_PandasConvertible):
         """
         return TableGroupBy(self, keys)
 
-    def sort_by(self, sorting):
+    def sort_by(self, sorting, **kwargs):
         """
         Sort the table by one or multiple columns.
 
@@ -4683,6 +4757,9 @@ cdef class Table(_PandasConvertible):
             a list of multiple sorting conditions where
             each entry is a tuple with column name
             and sorting order ("ascending" or "descending")
+        **kwargs : dict, optional
+            Additional sorting options.
+            As allowed by :class:`SortOptions`
 
         Returns
         -------
@@ -4713,7 +4790,7 @@ cdef class Table(_PandasConvertible):
 
         indices = _pc().sort_indices(
             self,
-            sort_keys=sorting
+            options=_pc().SortOptions(sort_keys=sorting, **kwargs)
         )
         return self.take(indices)
 
@@ -4743,16 +4820,16 @@ cdef class Table(_PandasConvertible):
             ("left semi", "right semi", "left anti", "right anti",
             "inner", "left outer", "right outer", "full outer")
         left_suffix : str, default None
-            Which suffix to add to right column names. This prevents confusion
+            Which suffix to add to left column names. This prevents confusion
             when the columns in left and right tables have colliding names.
         right_suffix : str, default None
-            Which suffic to add to the left column names. This prevents confusion
+            Which suffix to add to the right column names. This prevents confusion
             when the columns in left and right tables have colliding names.
         coalesce_keys : bool, default True
             If the duplicated keys should be omitted from one of the sides
             in the join result.
         use_threads : bool, default True
-            Whenever to use multithreading or not.
+            Whether to use multithreading or not.
 
         Returns
         -------
@@ -5290,6 +5367,7 @@ class TableGroupBy:
 list[tuple(str, str, FunctionOptions)]
             List of tuples made of aggregation column names followed
             by function names and optionally aggregation function options.
+            Pass empty list to get a single row for each group.
 
         Returns
         -------
@@ -5310,6 +5388,11 @@ list[tuple(str, str, FunctionOptions)]
         ----
         values_sum: [[3,7,5]]
         keys: [["a","b","c"]]
+        >>> t.group_by("keys").aggregate([])
+        pyarrow.Table
+        keys: string
+        ----
+        keys: [["a","b","c"]]
         """
         columns = [a[0] for a in aggregations]
         aggrfuncs = [
diff --git a/python/pyarrow/tensorflow/plasma_op.cc b/python/pyarrow/tensorflow/plasma_op.cc
index bf4eec78912..6445ba75e5e 100644
--- a/python/pyarrow/tensorflow/plasma_op.cc
+++ b/python/pyarrow/tensorflow/plasma_op.cc
@@ -36,8 +36,8 @@
 #include "arrow/util/logging.h"
 
 // These headers do not include Python.h
-#include "arrow/python/deserialize.h"
-#include "arrow/python/serialize.h"
+#include "deserialize.h"
+#include "serialize.h"
 
 #include "plasma/client.h"
 
diff --git a/python/pyarrow/tests/conftest.py b/python/pyarrow/tests/conftest.py
index a06ac92095b..e6d87217eca 100644
--- a/python/pyarrow/tests/conftest.py
+++ b/python/pyarrow/tests/conftest.py
@@ -174,6 +174,7 @@ def s3_server(s3_connection):
         finally:
             if proc is not None:
                 proc.kill()
+                proc.wait()
 
 
 @pytest.fixture(scope='session')
@@ -183,8 +184,14 @@ def gcs_server():
     args = [sys.executable, '-m', 'testbench', '--port', str(port)]
     proc = None
     try:
+        # check first if testbench module is available
+        import testbench  # noqa:F401
+        # start server
         proc = subprocess.Popen(args, env=env)
-    except OSError as e:
+        # Make sure the server is alive.
+        if proc.poll() is not None:
+            pytest.skip(f"Command {args} did not start server successfully!")
+    except (ModuleNotFoundError, OSError) as e:
         pytest.skip(f"Command {args} failed to execute: {e}")
     else:
         yield {
@@ -194,3 +201,4 @@ def gcs_server():
     finally:
         if proc is not None:
             proc.kill()
+            proc.wait()
diff --git a/python/pyarrow/tests/interchange/__init__.py b/python/pyarrow/tests/interchange/__init__.py
new file mode 100644
index 00000000000..13a83393a91
--- /dev/null
+++ b/python/pyarrow/tests/interchange/__init__.py
@@ -0,0 +1,16 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
diff --git a/python/pyarrow/tests/interchange/test_conversion.py b/python/pyarrow/tests/interchange/test_conversion.py
new file mode 100644
index 00000000000..0680d9c4ec1
--- /dev/null
+++ b/python/pyarrow/tests/interchange/test_conversion.py
@@ -0,0 +1,524 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+from datetime import datetime as dt
+import numpy as np
+import pyarrow as pa
+from pyarrow.vendored.version import Version
+import pytest
+
+import pyarrow.interchange as pi
+from pyarrow.interchange.column import (
+    _PyArrowColumn,
+    ColumnNullType,
+    DtypeKind,
+)
+from pyarrow.interchange.from_dataframe import _from_dataframe
+
+try:
+    import pandas as pd
+    # import pandas.testing as tm
+except ImportError:
+    pass
+
+
+@pytest.mark.parametrize("unit", ['s', 'ms', 'us', 'ns'])
+@pytest.mark.parametrize("tz", ['', 'America/New_York', '+07:30', '-04:30'])
+def test_datetime(unit, tz):
+    dt_arr = [dt(2007, 7, 13), dt(2007, 7, 14), None]
+    table = pa.table({"A": pa.array(dt_arr, type=pa.timestamp(unit, tz=tz))})
+    col = table.__dataframe__().get_column_by_name("A")
+
+    assert col.size() == 3
+    assert col.offset == 0
+    assert col.null_count == 1
+    assert col.dtype[0] == DtypeKind.DATETIME
+    assert col.describe_null == (ColumnNullType.USE_BITMASK, 0)
+
+
+@pytest.mark.parametrize(
+    ["test_data", "kind"],
+    [
+        (["foo", "bar"], 21),
+        ([1.5, 2.5, 3.5], 2),
+        ([1, 2, 3, 4], 0),
+    ],
+)
+def test_array_to_pyarrowcolumn(test_data, kind):
+    arr = pa.array(test_data)
+    arr_column = _PyArrowColumn(arr)
+
+    assert arr_column._col == arr
+    assert arr_column.size() == len(test_data)
+    assert arr_column.dtype[0] == kind
+    assert arr_column.num_chunks() == 1
+    assert arr_column.null_count == 0
+    assert arr_column.get_buffers()["validity"] is None
+    assert len(list(arr_column.get_chunks())) == 1
+
+    for chunk in arr_column.get_chunks():
+        assert chunk == arr_column
+
+
+def test_offset_of_sliced_array():
+    arr = pa.array([1, 2, 3, 4])
+    arr_sliced = arr.slice(2, 2)
+
+    table = pa.table([arr], names=["arr"])
+    table_sliced = pa.table([arr_sliced], names=["arr_sliced"])
+
+    col = table_sliced.__dataframe__().get_column(0)
+    assert col.offset == 2
+
+    result = _from_dataframe(table_sliced.__dataframe__())
+    assert table_sliced.equals(result)
+    assert not table.equals(result)
+
+    # pandas hardcodes offset to 0:
+    # https://github.com/pandas-dev/pandas/blob/5c66e65d7b9fef47ccb585ce2fd0b3ea18dc82ea/pandas/core/interchange/from_dataframe.py#L247
+    # so conversion to pandas can't be tested currently
+
+    # df = pandas_from_dataframe(table)
+    # df_sliced = pandas_from_dataframe(table_sliced)
+
+    # tm.assert_series_equal(df["arr"][2:4], df_sliced["arr_sliced"],
+    #                        check_index=False, check_names=False)
+
+
+# Currently errors due to string conversion
+# as col.size is called as a property not method in pandas
+# see L255-L257 in pandas/core/interchange/from_dataframe.py
+@pytest.mark.pandas
+def test_categorical_roundtrip():
+    pytest.skip("Bug in pandas implementation")
+
+    if Version(pd.__version__) < Version("1.5.0"):
+        pytest.skip("__dataframe__ added to pandas in 1.5.0")
+    arr = ["Mon", "Tue", "Mon", "Wed", "Mon", "Thu", "Fri", "Sat", "Sun"]
+    table = pa.table(
+        {"weekday": pa.array(arr).dictionary_encode()}
+    )
+
+    pandas_df = table.to_pandas()
+    result = pi.from_dataframe(pandas_df)
+
+    # Checking equality for the values
+    # As the dtype of the indices is changed from int32 in pa.Table
+    # to int64 in pandas interchange protocol implementation
+    assert result[0].chunk(0).dictionary == table[0].chunk(0).dictionary
+
+    table_protocol = table.__dataframe__()
+    result_protocol = result.__dataframe__()
+
+    assert table_protocol.num_columns() == result_protocol.num_columns()
+    assert table_protocol.num_rows() == result_protocol.num_rows()
+    assert table_protocol.num_chunks() == result_protocol.num_chunks()
+    assert table_protocol.column_names() == result_protocol.column_names()
+
+    col_table = table_protocol.get_column(0)
+    col_result = result_protocol.get_column(0)
+
+    assert col_result.dtype[0] == DtypeKind.CATEGORICAL
+    assert col_result.dtype[0] == col_table.dtype[0]
+    assert col_result.size == col_table.size
+    assert col_result.offset == col_table.offset
+
+    desc_cat_table = col_result.describe_categorical
+    desc_cat_result = col_result.describe_categorical
+
+    assert desc_cat_table["is_ordered"] == desc_cat_result["is_ordered"]
+    assert desc_cat_table["is_dictionary"] == desc_cat_result["is_dictionary"]
+    assert isinstance(desc_cat_result["categories"]._col, pa.Array)
+
+
+@pytest.mark.pandas
+@pytest.mark.parametrize(
+    "uint", [pa.uint8(), pa.uint16(), pa.uint32()]
+)
+@pytest.mark.parametrize(
+    "int", [pa.int8(), pa.int16(), pa.int32(), pa.int64()]
+)
+@pytest.mark.parametrize(
+    "float, np_float", [
+        # (pa.float16(), np.float16),   #not supported by pandas
+        (pa.float32(), np.float32),
+        (pa.float64(), np.float64)
+    ]
+)
+def test_pandas_roundtrip(uint, int, float, np_float):
+    if Version(pd.__version__) < Version("1.5.0"):
+        pytest.skip("__dataframe__ added to pandas in 1.5.0")
+
+    arr = [1, 2, 3]
+    table = pa.table(
+        {
+            "a": pa.array(arr, type=uint),
+            "b": pa.array(arr, type=int),
+            "c": pa.array(np.array(arr, dtype=np_float), type=float),
+        }
+    )
+    from pandas.api.interchange import (
+        from_dataframe as pandas_from_dataframe
+    )
+    pandas_df = pandas_from_dataframe(table)
+    result = pi.from_dataframe(pandas_df)
+    assert table.equals(result)
+
+    table_protocol = table.__dataframe__()
+    result_protocol = result.__dataframe__()
+
+    assert table_protocol.num_columns() == result_protocol.num_columns()
+    assert table_protocol.num_rows() == result_protocol.num_rows()
+    assert table_protocol.num_chunks() == result_protocol.num_chunks()
+    assert table_protocol.column_names() == result_protocol.column_names()
+
+
+@pytest.mark.pandas
+def test_roundtrip_pandas_string():
+    # See https://github.com/pandas-dev/pandas/issues/50554
+    if Version(pd.__version__) < Version("1.6"):
+        pytest.skip(" Column.size() called as a method in pandas 2.0.0")
+
+    # large string is not supported by pandas implementation
+    table = pa.table({"a": pa.array(["a", "", "c"])})
+
+    from pandas.api.interchange import (
+        from_dataframe as pandas_from_dataframe
+    )
+    pandas_df = pandas_from_dataframe(table)
+    result = pi.from_dataframe(pandas_df)
+
+    assert result[0].to_pylist() == table[0].to_pylist()
+    assert pa.types.is_string(table[0].type)
+    assert pa.types.is_large_string(result[0].type)
+
+    table_protocol = table.__dataframe__()
+    result_protocol = result.__dataframe__()
+
+    assert table_protocol.num_columns() == result_protocol.num_columns()
+    assert table_protocol.num_rows() == result_protocol.num_rows()
+    assert table_protocol.num_chunks() == result_protocol.num_chunks()
+    assert table_protocol.column_names() == result_protocol.column_names()
+
+
+@pytest.mark.pandas
+def test_roundtrip_pandas_boolean():
+    if Version(pd.__version__) < Version("1.5.0"):
+        pytest.skip("__dataframe__ added to pandas in 1.5.0")
+
+    table = pa.table({"a": [True, False, True]})
+
+    from pandas.api.interchange import (
+        from_dataframe as pandas_from_dataframe
+    )
+    pandas_df = pandas_from_dataframe(table)
+    result = pi.from_dataframe(pandas_df)
+
+    assert table.equals(result)
+
+    table_protocol = table.__dataframe__()
+    result_protocol = result.__dataframe__()
+
+    assert table_protocol.num_columns() == result_protocol.num_columns()
+    assert table_protocol.num_rows() == result_protocol.num_rows()
+    assert table_protocol.num_chunks() == result_protocol.num_chunks()
+    assert table_protocol.column_names() == result_protocol.column_names()
+
+
+@pytest.mark.pandas
+@pytest.mark.parametrize("unit", ['s', 'ms', 'us', 'ns'])
+def test_roundtrip_pandas_datetime(unit):
+    if Version(pd.__version__) < Version("1.5.0"):
+        pytest.skip("__dataframe__ added to pandas in 1.5.0")
+    from datetime import datetime as dt
+
+    # timezones not included as they are not yet supported in
+    # the pandas implementation
+    dt_arr = [dt(2007, 7, 13), dt(2007, 7, 14), dt(2007, 7, 15)]
+    table = pa.table({"a": pa.array(dt_arr, type=pa.timestamp(unit))})
+
+    if Version(pd.__version__) < Version("1.6"):
+        # pandas < 2.0 always creates datetime64 in "ns"
+        # resolution
+        expected = pa.table({"a": pa.array(dt_arr, type=pa.timestamp('ns'))})
+    else:
+        expected = table
+
+    from pandas.api.interchange import (
+        from_dataframe as pandas_from_dataframe
+    )
+    pandas_df = pandas_from_dataframe(table)
+    result = pi.from_dataframe(pandas_df)
+
+    assert expected.equals(result)
+
+    expected_protocol = expected.__dataframe__()
+    result_protocol = result.__dataframe__()
+
+    assert expected_protocol.num_columns() == result_protocol.num_columns()
+    assert expected_protocol.num_rows() == result_protocol.num_rows()
+    assert expected_protocol.num_chunks() == result_protocol.num_chunks()
+    assert expected_protocol.column_names() == result_protocol.column_names()
+
+
+@pytest.mark.large_memory
+@pytest.mark.pandas
+def test_pandas_assertion_error_large_string():
+    # Test AssertionError as pandas does not support "U" type strings
+    if Version(pd.__version__) < Version("1.5.0"):
+        pytest.skip("__dataframe__ added to pandas in 1.5.0")
+
+    data = np.array([b'x'*1024]*(3*1024**2), dtype='object')  # 3GB bytes data
+    arr = pa.array(data, type=pa.large_string())
+    table = pa.table([arr], names=["large_string"])
+
+    from pandas.api.interchange import (
+        from_dataframe as pandas_from_dataframe
+    )
+
+    with pytest.raises(AssertionError):
+        pandas_from_dataframe(table)
+
+
+@pytest.mark.pandas
+@pytest.mark.parametrize(
+    "np_float", [np.float32, np.float64]
+)
+def test_pandas_to_pyarrow_with_missing(np_float):
+    if Version(pd.__version__) < Version("1.5.0"):
+        pytest.skip("__dataframe__ added to pandas in 1.5.0")
+
+    np_array = np.array([0, np.nan, 2], dtype=np_float)
+    datetime_array = [None, dt(2007, 7, 14), dt(2007, 7, 15)]
+    df = pd.DataFrame({
+        "a": np_array,   # float, ColumnNullType.USE_NAN
+        "dt": datetime_array  # ColumnNullType.USE_SENTINEL
+    })
+    expected = pa.table({
+        "a": pa.array(np_array, from_pandas=True),
+        "dt": pa.array(datetime_array, type=pa.timestamp("ns"))
+    })
+    result = pi.from_dataframe(df)
+
+    assert result.equals(expected)
+
+
+@pytest.mark.pandas
+def test_pandas_to_pyarrow_float16_with_missing():
+    if Version(pd.__version__) < Version("1.5.0"):
+        pytest.skip("__dataframe__ added to pandas in 1.5.0")
+
+    # np.float16 errors if ps.is_nan is used
+    # pyarrow.lib.ArrowNotImplementedError: Function 'is_nan' has no kernel
+    # matching input types (halffloat)
+    np_array = np.array([0, np.nan, 2], dtype=np.float16)
+    df = pd.DataFrame({"a": np_array})
+
+    with pytest.raises(NotImplementedError):
+        pi.from_dataframe(df)
+
+
+@pytest.mark.pandas
+def test_pandas_to_pyarrow_string_with_missing():
+    if Version(pd.__version__) < Version("1.5.0"):
+        pytest.skip("__dataframe__ added to pandas in 1.5.0")
+
+    # pandas is using int64 offsets for string dtype so the constructed
+    # pyarrow string column will always be a large_string data type
+    arr = {
+        "Y": ["a", "b", None],  # bool, ColumnNullType.USE_BYTEMASK,
+    }
+    df = pd.DataFrame(arr)
+    expected = pa.table(arr)
+    result = pi.from_dataframe(df)
+
+    assert result[0].to_pylist() == expected[0].to_pylist()
+    assert pa.types.is_string(expected[0].type)
+    assert pa.types.is_large_string(result[0].type)
+
+
+@pytest.mark.pandas
+def test_pandas_to_pyarrow_categorical_with_missing():
+    if Version(pd.__version__) < Version("1.5.0"):
+        pytest.skip("__dataframe__ added to pandas in 1.5.0")
+
+    arr = ["Mon", "Tue", "Mon", "Wed", "Mon", "Thu", "Fri", "Sat", None]
+    df = pd.DataFrame(
+        {"weekday": arr}
+    )
+    df = df.astype("category")
+    result = pi.from_dataframe(df)
+
+    expected_dictionary = ["Fri", "Mon", "Sat", "Thu", "Tue", "Wed"]
+    expected_indices = pa.array([1, 4, 1, 5, 1, 3, 0, 2, None], type=pa.int8())
+
+    assert result[0].to_pylist() == arr
+    assert result[0].chunk(0).dictionary.to_pylist() == expected_dictionary
+    assert result[0].chunk(0).indices.equals(expected_indices)
+
+
+@pytest.mark.parametrize(
+    "uint", [pa.uint8(), pa.uint16(), pa.uint32()]
+)
+@pytest.mark.parametrize(
+    "int", [pa.int8(), pa.int16(), pa.int32(), pa.int64()]
+)
+@pytest.mark.parametrize(
+    "float, np_float", [
+        (pa.float16(), np.float16),
+        (pa.float32(), np.float32),
+        (pa.float64(), np.float64)
+    ]
+)
+@pytest.mark.parametrize("unit", ['s', 'ms', 'us', 'ns'])
+@pytest.mark.parametrize("tz", ['America/New_York', '+07:30', '-04:30'])
+@pytest.mark.parametrize("offset, length", [(0, 3), (0, 2), (1, 2), (2, 1)])
+def test_pyarrow_roundtrip(uint, int, float, np_float,
+                           unit, tz, offset, length):
+
+    from datetime import datetime as dt
+    arr = [1, 2, None]
+    dt_arr = [dt(2007, 7, 13), None, dt(2007, 7, 15)]
+
+    table = pa.table(
+        {
+            "a": pa.array(arr, type=uint),
+            "b": pa.array(arr, type=int),
+            "c": pa.array(np.array(arr, dtype=np_float),
+                          type=float, from_pandas=True),
+            "d": [True, False, True],
+            "e": [True, False, None],
+            "f": ["a", None, "c"],
+            "g": pa.array(dt_arr, type=pa.timestamp(unit, tz=tz))
+        }
+    )
+    table = table.slice(offset, length)
+    result = _from_dataframe(table.__dataframe__())
+
+    assert table.equals(result)
+
+    table_protocol = table.__dataframe__()
+    result_protocol = result.__dataframe__()
+
+    assert table_protocol.num_columns() == result_protocol.num_columns()
+    assert table_protocol.num_rows() == result_protocol.num_rows()
+    assert table_protocol.num_chunks() == result_protocol.num_chunks()
+    assert table_protocol.column_names() == result_protocol.column_names()
+
+
+@pytest.mark.parametrize("offset, length", [(0, 10), (0, 2), (7, 3), (2, 1)])
+def test_pyarrow_roundtrip_categorical(offset, length):
+    arr = ["Mon", "Tue", "Mon", "Wed", "Mon", "Thu", "Fri", None, "Sun"]
+    table = pa.table(
+        {"weekday": pa.array(arr).dictionary_encode()}
+    )
+    table = table.slice(offset, length)
+    result = _from_dataframe(table.__dataframe__())
+
+    assert table.equals(result)
+
+    table_protocol = table.__dataframe__()
+    result_protocol = result.__dataframe__()
+
+    assert table_protocol.num_columns() == result_protocol.num_columns()
+    assert table_protocol.num_rows() == result_protocol.num_rows()
+    assert table_protocol.num_chunks() == result_protocol.num_chunks()
+    assert table_protocol.column_names() == result_protocol.column_names()
+
+    col_table = table_protocol.get_column(0)
+    col_result = result_protocol.get_column(0)
+
+    assert col_result.dtype[0] == DtypeKind.CATEGORICAL
+    assert col_result.dtype[0] == col_table.dtype[0]
+    assert col_result.size() == col_table.size()
+    assert col_result.offset == col_table.offset
+
+    desc_cat_table = col_result.describe_categorical
+    desc_cat_result = col_result.describe_categorical
+
+    assert desc_cat_table["is_ordered"] == desc_cat_result["is_ordered"]
+    assert desc_cat_table["is_dictionary"] == desc_cat_result["is_dictionary"]
+    assert isinstance(desc_cat_result["categories"]._col, pa.Array)
+
+
+@pytest.mark.large_memory
+def test_pyarrow_roundtrip_large_string():
+
+    data = np.array([b'x'*1024]*(3*1024**2), dtype='object')  # 3GB bytes data
+    arr = pa.array(data, type=pa.large_string())
+    table = pa.table([arr], names=["large_string"])
+
+    result = _from_dataframe(table.__dataframe__())
+    col = result.__dataframe__().get_column(0)
+
+    assert col.size() == 3*1024**2
+    assert pa.types.is_large_string(table[0].type)
+    assert pa.types.is_large_string(result[0].type)
+
+    assert table.equals(result)
+
+
+def test_nan_as_null():
+    table = pa.table({"a": [1, 2, 3, 4]})
+    with pytest.raises(RuntimeError):
+        table.__dataframe__(nan_as_null=True)
+
+
+@pytest.mark.pandas
+def test_allow_copy_false():
+    if Version(pd.__version__) < Version("1.5.0"):
+        pytest.skip("__dataframe__ added to pandas in 1.5.0")
+
+    # Test that an error is raised when a copy is needed
+    # to create a bitmask
+
+    df = pd.DataFrame({"a": [0, 1.0, 2.0]})
+    with pytest.raises(RuntimeError):
+        pi.from_dataframe(df, allow_copy=False)
+
+    df = pd.DataFrame({
+        "dt": [None, dt(2007, 7, 14), dt(2007, 7, 15)]
+    })
+    with pytest.raises(RuntimeError):
+        pi.from_dataframe(df, allow_copy=False)
+
+
+@pytest.mark.pandas
+def test_allow_copy_false_bool_categorical():
+    if Version(pd.__version__) < Version("1.5.0"):
+        pytest.skip("__dataframe__ added to pandas in 1.5.0")
+
+    # Test that an error is raised for boolean
+    # and categorical dtype (copy is always made)
+
+    df = pd.DataFrame({"a": [None, False, True]})
+    with pytest.raises(RuntimeError):
+        pi.from_dataframe(df, allow_copy=False)
+
+    df = pd.DataFrame({"a": [True, False, True]})
+    with pytest.raises(RuntimeError):
+        pi.from_dataframe(df, allow_copy=False)
+
+    df = pd.DataFrame({"weekday": ["a", "b", None]})
+    df = df.astype("category")
+    with pytest.raises(RuntimeError):
+        pi.from_dataframe(df, allow_copy=False)
+
+    df = pd.DataFrame({"weekday": ["a", "b", "c"]})
+    df = df.astype("category")
+    with pytest.raises(RuntimeError):
+        pi.from_dataframe(df, allow_copy=False)
diff --git a/python/pyarrow/tests/interchange/test_interchange_spec.py b/python/pyarrow/tests/interchange/test_interchange_spec.py
new file mode 100644
index 00000000000..42ec8053599
--- /dev/null
+++ b/python/pyarrow/tests/interchange/test_interchange_spec.py
@@ -0,0 +1,243 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+import ctypes
+import hypothesis as h
+import hypothesis.strategies as st
+
+import numpy as np
+import pyarrow as pa
+import pyarrow.tests.strategies as past
+import pytest
+
+
+all_types = st.deferred(
+    lambda: (
+        past.signed_integer_types |
+        past.unsigned_integer_types |
+        past.floating_types |
+        past.bool_type |
+        past.string_type |
+        past.large_string_type
+    )
+)
+
+
+# datetime is tested in test_extra.py
+# dictionary is tested in test_categorical()
+@h.given(past.arrays(all_types, size=3))
+def test_dtypes(arr):
+    table = pa.table([arr], names=["a"])
+    df = table.__dataframe__()
+
+    null_count = df.get_column(0).null_count
+    assert null_count == arr.null_count
+    assert isinstance(null_count, int)
+    assert df.get_column(0).size() == 3
+    assert df.get_column(0).offset == 0
+
+
+@pytest.mark.parametrize(
+    "uint, uint_bw",
+    [
+        (pa.uint8(), 8),
+        (pa.uint16(), 16),
+        (pa.uint32(), 32)
+    ]
+)
+@pytest.mark.parametrize(
+    "int, int_bw", [
+        (pa.int8(), 8),
+        (pa.int16(), 16),
+        (pa.int32(), 32),
+        (pa.int64(), 64)
+    ]
+)
+@pytest.mark.parametrize(
+    "float, float_bw, np_float", [
+        (pa.float16(), 16, np.float16),
+        (pa.float32(), 32, np.float32),
+        (pa.float64(), 64, np.float64)
+    ]
+)
+@pytest.mark.parametrize("unit", ['s', 'ms', 'us', 'ns'])
+@pytest.mark.parametrize("tz", ['', 'America/New_York', '+07:30', '-04:30'])
+def test_mixed_dtypes(uint, uint_bw, int, int_bw,
+                      float, float_bw, np_float, unit, tz):
+    from datetime import datetime as dt
+    arr = [1, 2, 3]
+    dt_arr = [dt(2007, 7, 13), dt(2007, 7, 14), dt(2007, 7, 15)]
+    table = pa.table(
+        {
+            "a": pa.array(arr, type=uint),
+            "b": pa.array(arr, type=int),
+            "c": pa.array(np.array(arr, dtype=np_float), type=float),
+            "d": [True, False, True],
+            "e": ["a", "", "c"],
+            "f": pa.array(dt_arr, type=pa.timestamp(unit, tz=tz))
+        }
+    )
+    df = table.__dataframe__()
+    # 0 = DtypeKind.INT, 1 = DtypeKind.UINT, 2 = DtypeKind.FLOAT,
+    # 20 = DtypeKind.BOOL, 21 = DtypeKind.STRING, 22 = DtypeKind.DATETIME
+    # see DtypeKind class in column.py
+    columns = {"a": 1, "b": 0, "c": 2, "d": 20, "e": 21, "f": 22}
+
+    for column, kind in columns.items():
+        col = df.get_column_by_name(column)
+
+        assert col.null_count == 0
+        assert col.size() == 3
+        assert col.offset == 0
+        assert col.dtype[0] == kind
+
+    assert df.get_column_by_name("a").dtype[1] == uint_bw
+    assert df.get_column_by_name("b").dtype[1] == int_bw
+    assert df.get_column_by_name("c").dtype[1] == float_bw
+
+
+def test_na_float():
+    table = pa.table({"a": [1.0, None, 2.0]})
+    df = table.__dataframe__()
+    col = df.get_column_by_name("a")
+    assert col.null_count == 1
+    assert isinstance(col.null_count, int)
+
+
+def test_noncategorical():
+    table = pa.table({"a": [1, 2, 3]})
+    df = table.__dataframe__()
+    col = df.get_column_by_name("a")
+    with pytest.raises(TypeError, match=".*categorical.*"):
+        col.describe_categorical
+
+
+def test_categorical():
+    import pyarrow as pa
+    arr = ["Mon", "Tue", "Mon", "Wed", "Mon", "Thu", "Fri", "Sat", None]
+    table = pa.table(
+        {"weekday": pa.array(arr).dictionary_encode()}
+    )
+
+    col = table.__dataframe__().get_column_by_name("weekday")
+    categorical = col.describe_categorical
+    assert isinstance(categorical["is_ordered"], bool)
+    assert isinstance(categorical["is_dictionary"], bool)
+
+
+def test_dataframe():
+    n = pa.chunked_array([[2, 2, 4], [4, 5, 100]])
+    a = pa.chunked_array([["Flamingo", "Parrot", "Cow"],
+                         ["Horse", "Brittle stars", "Centipede"]])
+    table = pa.table([n, a], names=['n_legs', 'animals'])
+    df = table.__dataframe__()
+
+    assert df.num_columns() == 2
+    assert df.num_rows() == 6
+    assert df.num_chunks() == 2
+    assert list(df.column_names()) == ['n_legs', 'animals']
+    assert list(df.select_columns((1,)).column_names()) == list(
+        df.select_columns_by_name(("animals",)).column_names()
+    )
+
+
+@pytest.mark.parametrize(["size", "n_chunks"], [(10, 3), (12, 3), (12, 5)])
+def test_df_get_chunks(size, n_chunks):
+    table = pa.table({"x": list(range(size))})
+    df = table.__dataframe__()
+    chunks = list(df.get_chunks(n_chunks))
+    assert len(chunks) == n_chunks
+    assert sum(chunk.num_rows() for chunk in chunks) == size
+
+
+@pytest.mark.parametrize(["size", "n_chunks"], [(10, 3), (12, 3), (12, 5)])
+def test_column_get_chunks(size, n_chunks):
+    table = pa.table({"x": list(range(size))})
+    df = table.__dataframe__()
+    chunks = list(df.get_column(0).get_chunks(n_chunks))
+    assert len(chunks) == n_chunks
+    assert sum(chunk.size() for chunk in chunks) == size
+
+
+@pytest.mark.pandas
+@pytest.mark.parametrize(
+    "uint", [pa.uint8(), pa.uint16(), pa.uint32()]
+)
+@pytest.mark.parametrize(
+    "int", [pa.int8(), pa.int16(), pa.int32(), pa.int64()]
+)
+@pytest.mark.parametrize(
+    "float, np_float", [
+        (pa.float16(), np.float16),
+        (pa.float32(), np.float32),
+        (pa.float64(), np.float64)
+    ]
+)
+def test_get_columns(uint, int, float, np_float):
+    arr = [[1, 2, 3], [4, 5]]
+    arr_float = np.array([1, 2, 3, 4, 5], dtype=np_float)
+    table = pa.table(
+        {
+            "a": pa.chunked_array(arr, type=uint),
+            "b": pa.chunked_array(arr, type=int),
+            "c": pa.array(arr_float, type=float)
+        }
+    )
+    df = table.__dataframe__()
+    for col in df.get_columns():
+        assert col.size() == 5
+        assert col.num_chunks() == 1
+
+    # 0 = DtypeKind.INT, 1 = DtypeKind.UINT, 2 = DtypeKind.FLOAT,
+    # see DtypeKind class in column.py
+    assert df.get_column(0).dtype[0] == 1  # UINT
+    assert df.get_column(1).dtype[0] == 0  # INT
+    assert df.get_column(2).dtype[0] == 2  # FLOAT
+
+
+@pytest.mark.parametrize(
+    "int", [pa.int8(), pa.int16(), pa.int32(), pa.int64()]
+)
+def test_buffer(int):
+    arr = [0, 1, -1]
+    table = pa.table({"a": pa.array(arr, type=int)})
+    df = table.__dataframe__()
+    col = df.get_column(0)
+    buf = col.get_buffers()
+
+    dataBuf, dataDtype = buf["data"]
+
+    assert dataBuf.bufsize > 0
+    assert dataBuf.ptr != 0
+    device, _ = dataBuf.__dlpack_device__()
+
+    # 0 = DtypeKind.INT
+    # see DtypeKind class in column.py
+    assert dataDtype[0] == 0
+
+    if device == 1:  # CPU-only as we're going to directly read memory here
+        bitwidth = dataDtype[1]
+        ctype = {
+            8: ctypes.c_int8,
+            16: ctypes.c_int16,
+            32: ctypes.c_int32,
+            64: ctypes.c_int64,
+        }[bitwidth]
+
+        for idx, truth in enumerate(arr):
+            val = ctype.from_address(dataBuf.ptr + idx * (bitwidth // 8)).value
+            assert val == truth, f"Buffer at index {idx} mismatch"
diff --git a/python/pyarrow/tests/parquet/common.py b/python/pyarrow/tests/parquet/common.py
index cbff41c7b10..09bc1ed7b3b 100644
--- a/python/pyarrow/tests/parquet/common.py
+++ b/python/pyarrow/tests/parquet/common.py
@@ -172,8 +172,8 @@ def alltypes_sample(size=10000, seed=0, categorical=False):
         # TODO(wesm): Test other timestamp resolutions now that arrow supports
         # them
         'datetime': np.arange("2016-01-01T00:00:00.001", size,
-                              dtype='datetime64[ms]'),
-        'timedelta': np.arange(0, size, dtype="timedelta64[s]"),
+                              dtype='datetime64[ms]').astype('datetime64[ns]'),
+        'timedelta': np.arange(0, size, dtype="timedelta64[ns]"),
         'str': pd.Series([str(x) for x in range(size)]),
         'empty_str': [''] * size,
         'str_with_nulls': [None] + [str(x) for x in range(size - 2)] + [None],
diff --git a/python/pyarrow/tests/parquet/test_basic.py b/python/pyarrow/tests/parquet/test_basic.py
index 62ea19d422d..1ab392aed04 100644
--- a/python/pyarrow/tests/parquet/test_basic.py
+++ b/python/pyarrow/tests/parquet/test_basic.py
@@ -17,6 +17,7 @@
 
 from collections import OrderedDict
 import io
+import warnings
 
 import numpy as np
 import pytest
@@ -288,21 +289,28 @@ def test_fspath(tempdir, use_legacy_dataset):
 @pytest.mark.parametrize("filesystem", [
     None, fs.LocalFileSystem(), LocalFileSystem._get_instance()
 ])
-def test_relative_paths(tempdir, use_legacy_dataset, filesystem):
+@pytest.mark.parametrize("name", ("data.parquet", "例.parquet"))
+def test_relative_paths(tempdir, use_legacy_dataset, filesystem, name):
+    if use_legacy_dataset and isinstance(filesystem, fs.FileSystem):
+        pytest.skip("Passing new filesystem not supported for legacy reader")
     # reading and writing from relative paths
     table = pa.table({"a": [1, 2, 3]})
+    path = tempdir / name
 
     # reading
-    pq.write_table(table, str(tempdir / "data.parquet"))
+    pq.write_table(table, str(path))
     with util.change_cwd(tempdir):
-        result = pq.read_table("data.parquet", filesystem=filesystem,
+        result = pq.read_table(name, filesystem=filesystem,
                                use_legacy_dataset=use_legacy_dataset)
     assert result.equals(table)
 
+    path.unlink()
+    assert not path.exists()
+
     # writing
     with util.change_cwd(tempdir):
-        pq.write_table(table, "data2.parquet", filesystem=filesystem)
-    result = pq.read_table(tempdir / "data2.parquet")
+        pq.write_table(table, name, filesystem=filesystem)
+    result = pq.read_table(path)
     assert result.equals(table)
 
 
@@ -399,6 +407,13 @@ def test_column_encoding(use_legacy_dataset):
                      column_encoding="PLAIN",
                      use_legacy_dataset=use_legacy_dataset)
 
+    # Check "DELTA_BINARY_PACKED" for integer columns.
+    _check_roundtrip(mixed_table, expected=mixed_table,
+                     use_dictionary=False,
+                     column_encoding={'a': "PLAIN",
+                                      'b': "DELTA_BINARY_PACKED"},
+                     use_legacy_dataset=use_legacy_dataset)
+
     # Try to pass "BYTE_STREAM_SPLIT" column encoding for integer column 'b'.
     # This should throw an error as it is only supports FLOAT and DOUBLE.
     with pytest.raises(IOError,
@@ -409,14 +424,12 @@ def test_column_encoding(use_legacy_dataset):
                          column_encoding={'b': "BYTE_STREAM_SPLIT"},
                          use_legacy_dataset=use_legacy_dataset)
 
-    # Try to pass "DELTA_BINARY_PACKED".
-    # This should throw an error as it is only supported for reading.
-    with pytest.raises(IOError,
-                       match="Not yet implemented: Selected encoding is"
-                             " not supported."):
+    # Try to pass use "DELTA_BINARY_PACKED" encoding on float column.
+    # This should throw an error as only integers are supported.
+    with pytest.raises(OSError):
         _check_roundtrip(mixed_table, expected=mixed_table,
                          use_dictionary=False,
-                         column_encoding={'b': "DELTA_BINARY_PACKED"},
+                         column_encoding={'a': "DELTA_BINARY_PACKED"},
                          use_legacy_dataset=use_legacy_dataset)
 
     # Try to pass "RLE_DICTIONARY".
@@ -617,15 +630,16 @@ def test_read_non_existent_file(tempdir, use_legacy_dataset):
 
 @parametrize_legacy_dataset
 def test_read_table_doesnt_warn(datadir, use_legacy_dataset):
-    with pytest.warns(None) as record:
-        pq.read_table(datadir / 'v0.7.1.parquet',
-                      use_legacy_dataset=use_legacy_dataset)
-
     if use_legacy_dataset:
-        # FutureWarning: 'use_legacy_dataset=True'
-        assert len(record) == 1
+        msg = "Passing 'use_legacy_dataset=True'"
+        with pytest.warns(FutureWarning, match=msg):
+            pq.read_table(datadir / 'v0.7.1.parquet',
+                          use_legacy_dataset=use_legacy_dataset)
     else:
-        assert len(record) == 0
+        with warnings.catch_warnings():
+            warnings.simplefilter(action="error")
+            pq.read_table(datadir / 'v0.7.1.parquet',
+                          use_legacy_dataset=use_legacy_dataset)
 
 
 @pytest.mark.pandas
diff --git a/python/pyarrow/tests/parquet/test_dataset.py b/python/pyarrow/tests/parquet/test_dataset.py
index 463d282f08f..1bfde4e17e1 100644
--- a/python/pyarrow/tests/parquet/test_dataset.py
+++ b/python/pyarrow/tests/parquet/test_dataset.py
@@ -16,13 +16,16 @@
 # under the License.
 
 import datetime
+import inspect
 import os
 import pathlib
 
 import numpy as np
 import pytest
+import unittest.mock as mock
 
 import pyarrow as pa
+import pyarrow.compute as pc
 from pyarrow import fs
 from pyarrow.filesystem import LocalFileSystem
 from pyarrow.tests import util
@@ -78,6 +81,7 @@ def test_parquet_piece_open_and_get_metadata(tempdir):
 
     with pytest.warns(FutureWarning):
         piece = pq.ParquetDatasetPiece(path)
+
     table1 = piece.read()
     assert isinstance(table1, pa.Table)
     meta1 = piece.get_metadata()
@@ -160,7 +164,9 @@ def test_create_parquet_dataset_multi_threaded(tempdir):
         FutureWarning, match="Specifying the 'metadata_nthreads'"
     ):
         dataset = pq.ParquetDataset(
-            base_path, filesystem=fs, metadata_nthreads=16)
+            base_path, filesystem=fs, metadata_nthreads=16,
+            use_legacy_dataset=True
+        )
     assert len(dataset.pieces) > 0
     partitions = dataset.partitions
     assert len(partitions.partition_names) > 0
@@ -247,13 +253,11 @@ def test_filters_equivalency(tempdir, use_legacy_dataset):
     result_df = table.to_pandas().reset_index(drop=True)
 
     # Check that all rows in the DF fulfill the filter
-    # Pandas 0.23.x has problems with indexing constant memoryviews in
-    # categoricals. Thus we need to make an explicit copy here with np.array.
-    df_filter_1 = (np.array(result_df['integer']) == 1) \
-        & (np.array(result_df['string']) != 'b') \
-        & (np.array(result_df['boolean']) == 'True')
+    df_filter_1 = (result_df['integer'] == 1) \
+        & (result_df['string'] != 'b') \
+        & (result_df['boolean'] == 'True')
     df_filter_2 = (np.array(result_df['integer']) == 0) \
-        & (np.array(result_df['boolean']) == 'False')
+        & (result_df['boolean'] == 'False')
     assert df_filter_1.sum() > 0
     assert df_filter_2.sum() > 0
     assert result_df.shape[0] == (df_filter_1.sum() + df_filter_2.sum())
@@ -264,10 +268,12 @@ def test_filters_equivalency(tempdir, use_legacy_dataset):
         # results with the current code.
         with pytest.raises(NotImplementedError):
             filters = [[('string', '==', b'1\0a')]]
-            pq.ParquetDataset(base_path, filesystem=fs, filters=filters)
+            pq.ParquetDataset(base_path, filesystem=fs, filters=filters,
+                              use_legacy_dataset=True)
         with pytest.raises(NotImplementedError):
             filters = [[('string', '==', '1\0a')]]
-            pq.ParquetDataset(base_path, filesystem=fs, filters=filters)
+            pq.ParquetDataset(base_path, filesystem=fs, filters=filters,
+                              use_legacy_dataset=True)
     else:
         for filters in [[[('string', '==', b'1\0a')]],
                         [[('string', '==', '1\0a')]]]:
@@ -556,7 +562,15 @@ def test_filters_invalid_column(tempdir, use_legacy_dataset):
 
 @pytest.mark.pandas
 @parametrize_legacy_dataset
-def test_filters_read_table(tempdir, use_legacy_dataset):
+@pytest.mark.parametrize("filters",
+                         ([('integers', '<', 3)],
+                          [[('integers', '<', 3)]],
+                          pc.field('integers') < 3,
+                          pc.field('nested', 'a') < 3,
+                          pc.field('nested', 'b').cast(pa.int64()) < 3))
+@pytest.mark.parametrize("read_method", ("read_table", "read_pandas"))
+def test_filters_read_table(tempdir, use_legacy_dataset, filters, read_method):
+    read = getattr(pq, read_method)
     # test that filters keyword is passed through in read_table
     fs = LocalFileSystem._get_instance()
     base_path = tempdir
@@ -565,29 +579,27 @@ def test_filters_read_table(tempdir, use_legacy_dataset):
     partition_spec = [
         ['integers', integer_keys],
     ]
-    N = 5
+    N = len(integer_keys)
 
     df = pd.DataFrame({
         'index': np.arange(N),
         'integers': np.array(integer_keys, dtype='i4'),
-    }, columns=['index', 'integers'])
+        'nested': np.array([{'a': i, 'b': str(i)} for i in range(N)])
+    })
 
     _generate_partition_directories(fs, base_path, partition_spec, df)
 
-    table = pq.read_table(
-        base_path, filesystem=fs, filters=[('integers', '<', 3)],
-        use_legacy_dataset=use_legacy_dataset)
-    assert table.num_rows == 3
-
-    table = pq.read_table(
-        base_path, filesystem=fs, filters=[[('integers', '<', 3)]],
-        use_legacy_dataset=use_legacy_dataset)
-    assert table.num_rows == 3
+    kwargs = dict(filesystem=fs, filters=filters,
+                  use_legacy_dataset=use_legacy_dataset)
 
-    table = pq.read_pandas(
-        base_path, filters=[('integers', '<', 3)],
-        use_legacy_dataset=use_legacy_dataset)
-    assert table.num_rows == 3
+    # Using Expression in legacy dataset not supported
+    if use_legacy_dataset and isinstance(filters, pc.Expression):
+        msg = "Expressions as filter not supported for legacy dataset"
+        with pytest.raises(TypeError, match=msg):
+            read(base_path, **kwargs)
+    else:
+        table = read(base_path, **kwargs)
+        assert table.num_rows == 3
 
 
 @pytest.mark.pandas
@@ -794,7 +806,8 @@ def _test_read_common_metadata_files(fs, base_path):
     with fs.open(metadata_path, 'wb') as f:
         pq.write_metadata(table.schema, f)
 
-    dataset = pq.ParquetDataset(base_path, filesystem=fs)
+    dataset = pq.ParquetDataset(base_path, filesystem=fs,
+                                use_legacy_dataset=True)
     with pytest.warns(FutureWarning):
         assert dataset.common_metadata_path == str(metadata_path)
 
@@ -803,7 +816,8 @@ def _test_read_common_metadata_files(fs, base_path):
     assert dataset.schema.equals(common_schema)
 
     # handle list of one directory
-    dataset2 = pq.ParquetDataset([base_path], filesystem=fs)
+    dataset2 = pq.ParquetDataset([base_path], filesystem=fs,
+                                 use_legacy_dataset=True)
     assert dataset2.schema.equals(dataset.schema)
 
 
@@ -836,7 +850,8 @@ def test_read_metadata_files(tempdir):
     with fs.open(metadata_path, 'wb') as f:
         pq.write_metadata(table.schema, f)
 
-    dataset = pq.ParquetDataset(tempdir, filesystem=fs)
+    dataset = pq.ParquetDataset(tempdir, filesystem=fs,
+                                use_legacy_dataset=True)
     with pytest.warns(FutureWarning):
         assert dataset.metadata_path == str(metadata_path)
 
@@ -933,7 +948,8 @@ def read_multiple_files(paths, columns=None, use_threads=True, **kwargs):
         assert result2.equals(expected)
 
         with pytest.warns(FutureWarning, match="Specifying the 'schema'"):
-            result3 = pq.ParquetDataset(dirpath, schema=metadata.schema).read()
+            result3 = pq.ParquetDataset(dirpath, schema=metadata.schema,
+                                        use_legacy_dataset=True).read()
         assert result3.equals(expected)
     else:
         with pytest.raises(ValueError, match="no longer supported"):
@@ -1245,6 +1261,7 @@ def _test_write_to_dataset_with_partitions(base_path,
                               'nan': [np.nan] * 10,
                               'date': np.arange('2017-01-01', '2017-01-11',
                                                 dtype='datetime64[D]')})
+    output_df["date"] = output_df["date"].astype('datetime64[ns]')
     cols = output_df.columns.tolist()
     partition_by = ['group1', 'group2']
     output_table = pa.Table.from_pandas(output_df, schema=schema, safe=False,
@@ -1305,6 +1322,7 @@ def _test_write_to_dataset_no_partitions(base_path,
                               'num': list(range(10)),
                               'date': np.arange('2017-01-01', '2017-01-11',
                                                 dtype='datetime64[D]')})
+    output_df["date"] = output_df["date"].astype('datetime64[ns]')
     cols = output_df.columns.tolist()
     output_table = pa.Table.from_pandas(output_df)
 
@@ -1433,6 +1451,7 @@ def test_write_to_dataset_with_partitions_and_custom_filenames(
                               'nan': [np.nan] * 10,
                               'date': np.arange('2017-01-01', '2017-01-11',
                                                 dtype='datetime64[D]')})
+    output_df["date"] = output_df["date"].astype('datetime64[ns]')
     partition_by = ['group1', 'group2']
     output_table = pa.Table.from_pandas(output_df)
     path = str(tempdir)
@@ -1470,8 +1489,7 @@ def test_write_to_dataset_filesystem(tempdir):
     assert result.equals(table)
 
 
-# TODO(dataset) support pickling
-def _make_dataset_for_pickling(tempdir, N=100):
+def _make_dataset_for_pickling(tempdir, use_legacy_dataset=False, N=100):
     path = tempdir / 'data.parquet'
     fs = LocalFileSystem._get_instance()
 
@@ -1493,46 +1511,53 @@ def _make_dataset_for_pickling(tempdir, N=100):
     with fs.open(metadata_path, 'wb') as f:
         pq.write_metadata(table.schema, f)
 
-    dataset = pq.ParquetDataset(tempdir, filesystem=fs)
-    with pytest.warns(FutureWarning):
-        assert dataset.metadata_path == str(metadata_path)
+    dataset = pq.ParquetDataset(
+        tempdir, filesystem=fs, use_legacy_dataset=use_legacy_dataset)
+    if use_legacy_dataset:
+        with pytest.warns(FutureWarning):
+            assert dataset.metadata_path == str(metadata_path)
 
     return dataset
 
 
-def _assert_dataset_is_picklable(dataset, pickler):
+def _assert_dataset_is_picklable(dataset, pickler, use_legacy_dataset=False):
     def is_pickleable(obj):
         return obj == pickler.loads(pickler.dumps(obj))
 
     assert is_pickleable(dataset)
-    with pytest.warns(FutureWarning):
-        metadata = dataset.metadata
-    assert is_pickleable(metadata)
-    assert is_pickleable(metadata.schema)
-    assert len(metadata.schema)
-    for column in metadata.schema:
-        assert is_pickleable(column)
-
-    for piece in dataset._pieces:
-        assert is_pickleable(piece)
-        metadata = piece.get_metadata()
-        assert metadata.num_row_groups
-        for i in range(metadata.num_row_groups):
-            assert is_pickleable(metadata.row_group(i))
+    if use_legacy_dataset:
+        with pytest.warns(FutureWarning):
+            metadata = dataset.metadata
+        assert is_pickleable(metadata)
+        assert is_pickleable(metadata.schema)
+        assert len(metadata.schema)
+        for column in metadata.schema:
+            assert is_pickleable(column)
+
+        for piece in dataset._pieces:
+            assert is_pickleable(piece)
+            metadata = piece.get_metadata()
+            assert metadata.num_row_groups
+            for i in range(metadata.num_row_groups):
+                assert is_pickleable(metadata.row_group(i))
 
 
 @pytest.mark.pandas
-def test_builtin_pickle_dataset(tempdir, datadir):
+@parametrize_legacy_dataset
+def test_builtin_pickle_dataset(tempdir, datadir, use_legacy_dataset):
     import pickle
-    dataset = _make_dataset_for_pickling(tempdir)
-    _assert_dataset_is_picklable(dataset, pickler=pickle)
+    dataset = _make_dataset_for_pickling(tempdir, use_legacy_dataset)
+    _assert_dataset_is_picklable(
+        dataset, pickler=pickle, use_legacy_dataset=use_legacy_dataset)
 
 
 @pytest.mark.pandas
-def test_cloudpickle_dataset(tempdir, datadir):
+@parametrize_legacy_dataset
+def test_cloudpickle_dataset(tempdir, datadir, use_legacy_dataset):
     cp = pytest.importorskip('cloudpickle')
-    dataset = _make_dataset_for_pickling(tempdir)
-    _assert_dataset_is_picklable(dataset, pickler=cp)
+    dataset = _make_dataset_for_pickling(tempdir, use_legacy_dataset)
+    _assert_dataset_is_picklable(
+        dataset, pickler=cp, use_legacy_dataset=use_legacy_dataset)
 
 
 @pytest.mark.pandas
@@ -1688,7 +1713,10 @@ def test_parquet_dataset_new_filesystem(tempdir):
 
 
 @pytest.mark.filterwarnings("ignore:'ParquetDataset:FutureWarning")
-def test_parquet_dataset_partitions_piece_path_with_fsspec(tempdir):
+@parametrize_legacy_dataset
+def test_parquet_dataset_partitions_piece_path_with_fsspec(
+    tempdir, use_legacy_dataset
+):
     # ARROW-10462 ensure that on Windows we properly use posix-style paths
     # as used by fsspec
     fsspec = pytest.importorskip("fsspec")
@@ -1698,7 +1726,8 @@ def test_parquet_dataset_partitions_piece_path_with_fsspec(tempdir):
 
     # pass a posix-style path (using "/" also on Windows)
     path = str(tempdir).replace("\\", "/")
-    dataset = pq.ParquetDataset(path, filesystem=filesystem)
+    dataset = pq.ParquetDataset(
+        path, filesystem=filesystem, use_legacy_dataset=use_legacy_dataset)
     # ensure the piece path is also posix-style
     expected = path + "/data.parquet"
     assert dataset.pieces[0].path == expected
@@ -1709,7 +1738,7 @@ def test_parquet_dataset_deprecated_properties(tempdir):
     table = pa.table({'a': [1, 2, 3]})
     path = tempdir / 'data.parquet'
     pq.write_table(table, path)
-    dataset = pq.ParquetDataset(path)
+    dataset = pq.ParquetDataset(path, use_legacy_dataset=True)
 
     with pytest.warns(FutureWarning, match="'ParquetDataset.pieces"):
         dataset.pieces
@@ -1870,3 +1899,29 @@ def test_write_to_dataset_conflicting_keywords(tempdir):
                             use_legacy_dataset=False,
                             metadata_collector=[],
                             file_visitor=lambda x: x)
+
+
+@pytest.mark.dataset
+@pytest.mark.parametrize("write_dataset_kwarg", (
+    ("create_dir", True),
+    ("create_dir", False),
+))
+def test_write_to_dataset_kwargs_passed(tempdir, write_dataset_kwarg):
+    """Verify kwargs in pq.write_to_dataset are passed onto ds.write_dataset"""
+    import pyarrow.dataset as ds
+
+    table = pa.table({"a": [1, 2, 3]})
+    path = tempdir / 'out.parquet'
+
+    signature = inspect.signature(ds.write_dataset)
+    key, arg = write_dataset_kwarg
+
+    # kwarg not in pq.write_to_dataset, but will be passed to ds.write_dataset
+    assert key not in inspect.signature(pq.write_to_dataset).parameters
+    assert key in signature.parameters
+
+    with mock.patch.object(ds, "write_dataset", autospec=True)\
+            as mock_write_dataset:
+        pq.write_to_dataset(table, path, **{key: arg})
+        _name, _args, kwargs = mock_write_dataset.mock_calls[0]
+        assert kwargs[key] == arg
diff --git a/python/pyarrow/tests/parquet/test_datetime.py b/python/pyarrow/tests/parquet/test_datetime.py
index e10d4fd776d..52f3f5ce4a0 100644
--- a/python/pyarrow/tests/parquet/test_datetime.py
+++ b/python/pyarrow/tests/parquet/test_datetime.py
@@ -17,6 +17,7 @@
 
 import datetime
 import io
+import warnings
 
 import numpy as np
 import pytest
@@ -321,7 +322,11 @@ def get_table(pq_reader_method, filename, **kwargs):
     # with the default resolution of ns, we get wrong values for INT96
     # that are out of bounds for nanosecond range
     tab_error = get_table(pq_reader_method, filename)
-    assert tab_error["a"].to_pylist() != oob_dts
+    with warnings.catch_warnings():
+        warnings.filterwarnings("ignore",
+                                "Discarding nonzero nanoseconds in conversion",
+                                UserWarning)
+        assert tab_error["a"].to_pylist() != oob_dts
 
     # avoid this overflow by specifying the resolution to use for INT96 values
     tab_correct = get_table(
diff --git a/python/pyarrow/tests/parquet/test_metadata.py b/python/pyarrow/tests/parquet/test_metadata.py
index b36ea60658d..fef1cc564b4 100644
--- a/python/pyarrow/tests/parquet/test_metadata.py
+++ b/python/pyarrow/tests/parquet/test_metadata.py
@@ -18,12 +18,15 @@
 import datetime
 import decimal
 from collections import OrderedDict
+import io
 
 import numpy as np
 import pytest
 
 import pyarrow as pa
 from pyarrow.tests.parquet.common import _check_roundtrip, make_sample_file
+from pyarrow.fs import LocalFileSystem
+from pyarrow.tests import util
 
 try:
     import pyarrow.parquet as pq
@@ -397,6 +400,7 @@ def test_multi_dataset_metadata(tempdir):
     assert md['serialized_size'] > 0
 
 
+@pytest.mark.filterwarnings("ignore:Parquet format:FutureWarning")
 def test_write_metadata(tempdir):
     path = str(tempdir / "metadata")
     schema = pa.schema([("a", "int64"), ("b", "float64")])
@@ -431,7 +435,9 @@ def test_write_metadata(tempdir):
     assert parquet_meta_mult.num_row_groups == 2
 
     # append metadata with different schema raises an error
-    with pytest.raises(RuntimeError, match="requires equal schemas"):
+    msg = ("AppendRowGroups requires equal schemas.\n"
+           "The two columns with index 0 differ.")
+    with pytest.raises(RuntimeError, match=msg):
         pq.write_metadata(
             pa.schema([("a", "int32"), ("b", "null")]),
             path, metadata_collector=[parquet_meta, parquet_meta]
@@ -533,6 +539,41 @@ def test_metadata_exceeds_message_size():
     metadata = pq.read_metadata(pa.BufferReader(buf))
 
 
+def test_metadata_schema_filesystem(tempdir):
+    table = pa.table({"a": [1, 2, 3]})
+
+    # URI writing to local file.
+    fname = "data.parquet"
+    file_path = str(tempdir / fname)
+    file_uri = 'file:///' + file_path
+
+    pq.write_table(table, file_path)
+
+    # Get expected `metadata` from path.
+    metadata = pq.read_metadata(tempdir / fname)
+    schema = table.schema
+
+    assert pq.read_metadata(file_uri).equals(metadata)
+    assert pq.read_metadata(
+        file_path, filesystem=LocalFileSystem()).equals(metadata)
+    assert pq.read_metadata(
+        fname, filesystem=f'file:///{tempdir}').equals(metadata)
+
+    assert pq.read_schema(file_uri).equals(schema)
+    assert pq.read_schema(
+        file_path, filesystem=LocalFileSystem()).equals(schema)
+    assert pq.read_schema(
+        fname, filesystem=f'file:///{tempdir}').equals(schema)
+
+    with util.change_cwd(tempdir):
+        # Pass `filesystem` arg
+        assert pq.read_metadata(
+            fname, filesystem=LocalFileSystem()).equals(metadata)
+
+        assert pq.read_schema(
+            fname, filesystem=LocalFileSystem()).equals(schema)
+
+
 def test_metadata_equals():
     table = pa.table({"a": [1, 2, 3]})
     with pa.BufferOutputStream() as out:
@@ -543,3 +584,66 @@ def test_metadata_equals():
     match = "Argument 'other' has incorrect type"
     with pytest.raises(TypeError, match=match):
         original_metadata.equals(None)
+
+
+@pytest.mark.parametrize("t1,t2,expected_error", (
+    ({'col1': range(10)}, {'col1': range(10)}, None),
+    ({'col1': range(10)}, {'col2': range(10)},
+     "The two columns with index 0 differ."),
+    ({'col1': range(10), 'col2': range(10)}, {'col3': range(10)},
+     "This schema has 2 columns, other has 1")
+))
+def test_metadata_append_row_groups_diff(t1, t2, expected_error):
+    table1 = pa.table(t1)
+    table2 = pa.table(t2)
+
+    buf1 = io.BytesIO()
+    buf2 = io.BytesIO()
+    pq.write_table(table1, buf1)
+    pq.write_table(table2, buf2)
+    buf1.seek(0)
+    buf2.seek(0)
+
+    meta1 = pq.ParquetFile(buf1).metadata
+    meta2 = pq.ParquetFile(buf2).metadata
+
+    if expected_error:
+        # Error clearly defines it's happening at append row groups call
+        prefix = "AppendRowGroups requires equal schemas.\n"
+        with pytest.raises(RuntimeError, match=prefix + expected_error):
+            meta1.append_row_groups(meta2)
+    else:
+        meta1.append_row_groups(meta2)
+
+
+@pytest.mark.s3
+def test_write_metadata_fs_file_combinations(tempdir, s3_example_s3fs):
+    s3_fs, s3_path = s3_example_s3fs
+
+    meta1 = tempdir / "meta1"
+    meta2 = tempdir / "meta2"
+    meta3 = tempdir / "meta3"
+    meta4 = tempdir / "meta4"
+    meta5 = f"{s3_path}/meta5"
+
+    table = pa.table({"col": range(5)})
+
+    # plain local path
+    pq.write_metadata(table.schema, meta1, [])
+
+    # Used the localfilesystem to resolve opening an output stream
+    pq.write_metadata(table.schema, meta2, [], filesystem=LocalFileSystem())
+
+    # Can resolve local file URI
+    pq.write_metadata(table.schema, meta3.as_uri(), [])
+
+    # Take a file-like obj all the way thru?
+    with meta4.open('wb+') as meta4_stream:
+        pq.write_metadata(table.schema, meta4_stream, [])
+
+    # S3FileSystem
+    pq.write_metadata(table.schema, meta5, [], filesystem=s3_fs)
+
+    assert meta1.read_bytes() == meta2.read_bytes() \
+        == meta3.read_bytes() == meta4.read_bytes() \
+        == s3_fs.open(meta5).read()
diff --git a/python/pyarrow/tests/parquet/test_pandas.py b/python/pyarrow/tests/parquet/test_pandas.py
index 0d0658cc387..b6250e8fc2f 100644
--- a/python/pyarrow/tests/parquet/test_pandas.py
+++ b/python/pyarrow/tests/parquet/test_pandas.py
@@ -26,7 +26,6 @@
 from pyarrow.tests.parquet.common import (
     parametrize_legacy_dataset, parametrize_legacy_dataset_not_supported)
 from pyarrow.util import guid
-from pyarrow.vendored.version import Version
 
 try:
     import pyarrow.parquet as pq
@@ -315,6 +314,7 @@ def test_pandas_parquet_configuration_options(tempdir, use_legacy_dataset):
 
 
 @pytest.mark.pandas
+@pytest.mark.filterwarnings("ignore:Parquet format '2.0':FutureWarning")
 def test_spark_flavor_preserves_pandas_metadata():
     df = _test_dataframe(size=100)
     df.index = np.arange(0, 10 * len(df), 10)
@@ -561,10 +561,6 @@ def test_pandas_categorical_roundtrip(use_legacy_dataset):
 def test_write_to_dataset_pandas_preserve_extensiondtypes(
     tempdir, use_legacy_dataset
 ):
-    # ARROW-8251 - preserve pandas extension dtypes in roundtrip
-    if Version(pd.__version__) < Version("1.0.0"):
-        pytest.skip("__arrow_array__ added to pandas in 1.0.0")
-
     df = pd.DataFrame({'part': 'a', "col": [1, 2, 3]})
     df['col'] = df['col'].astype("Int64")
     table = pa.table(df)
@@ -629,8 +625,12 @@ def test_write_to_dataset_pandas_preserve_index(tempdir, use_legacy_dataset):
 
 
 @pytest.mark.pandas
+@parametrize_legacy_dataset
 @pytest.mark.parametrize('preserve_index', [True, False, None])
-def test_dataset_read_pandas_common_metadata(tempdir, preserve_index):
+@pytest.mark.parametrize('metadata_fname', ["_metadata", "_common_metadata"])
+def test_dataset_read_pandas_common_metadata(
+    tempdir, use_legacy_dataset, preserve_index, metadata_fname
+):
     # ARROW-1103
     nfiles = 5
     size = 5
@@ -662,9 +662,9 @@ def test_dataset_read_pandas_common_metadata(tempdir, preserve_index):
     table_for_metadata = pa.Table.from_pandas(
         df, preserve_index=preserve_index
     )
-    pq.write_metadata(table_for_metadata.schema, dirpath / '_metadata')
+    pq.write_metadata(table_for_metadata.schema, dirpath / metadata_fname)
 
-    dataset = pq.ParquetDataset(dirpath)
+    dataset = pq.ParquetDataset(dirpath, use_legacy_dataset=use_legacy_dataset)
     columns = ['uint8', 'strings']
     result = dataset.read_pandas(columns=columns).to_pandas()
     expected = pd.concat([x[columns] for x in frames])
diff --git a/python/pyarrow/tests/parquet/test_parquet_file.py b/python/pyarrow/tests/parquet/test_parquet_file.py
index 9b528b1859a..bd468949a84 100644
--- a/python/pyarrow/tests/parquet/test_parquet_file.py
+++ b/python/pyarrow/tests/parquet/test_parquet_file.py
@@ -17,6 +17,8 @@
 
 import io
 import os
+import sys
+from unittest import mock
 
 import pytest
 
@@ -176,8 +178,12 @@ def test_parquet_file_pass_directory_instead_of_file(tempdir):
     path = tempdir / 'directory'
     os.mkdir(str(path))
 
-    with pytest.raises(IOError, match="Expected file path"):
+    msg = f"Cannot open for reading: path '{str(path)}' is a directory"
+    with pytest.raises(IOError) as exc:
         pq.ParquetFile(path)
+    if exc.errisinstance(PermissionError) and sys.platform == 'win32':
+        return  # Windows CI can get a PermissionError here.
+    exc.match(msg)
 
 
 def test_read_column_invalid_index():
@@ -277,3 +283,77 @@ def test_pre_buffer(pre_buffer):
     buf.seek(0)
     pf = pq.ParquetFile(buf, pre_buffer=pre_buffer)
     assert pf.read().num_rows == N
+
+
+def test_parquet_file_explicitly_closed(tempdir):
+    """
+    Unopened files should be closed explicitly after use,
+    and previously opened files should be left open.
+    Applies to read_table, ParquetDataset, and ParquetFile
+    """
+    # create test parquet file
+    fn = tempdir.joinpath('file.parquet')
+    table = pa.table({'col1': [0, 1], 'col2': [0, 1]})
+    pq.write_table(table, fn)
+
+    # read_table (legacy) with opened file (will leave open)
+    with open(fn, 'rb') as f:
+        pq.read_table(f, use_legacy_dataset=True)
+        assert not f.closed  # Didn't close it internally after read_table
+
+    # read_table (legacy) with unopened file (will close)
+    with mock.patch.object(pq.ParquetFile, "close") as mock_close:
+        pq.read_table(fn, use_legacy_dataset=True)
+        mock_close.assert_called()
+
+    # ParquetDataset test (legacy) with unopened file (will close)
+    with mock.patch.object(pq.ParquetFile, "close") as mock_close:
+        pq.ParquetDataset(fn, use_legacy_dataset=True).read()
+        mock_close.assert_called()
+
+    # ParquetDataset test (legacy) with opened file (will leave open)
+    with open(fn, 'rb') as f:
+        # ARROW-8075: support ParquetDataset from file-like, not just path-like
+        with pytest.raises(TypeError, match='not a path-like object'):
+            pq.ParquetDataset(f, use_legacy_dataset=True).read()
+            assert not f.closed
+
+    # ParquetFile with opened file (will leave open)
+    with open(fn, 'rb') as f:
+        with pq.ParquetFile(f) as p:
+            p.read()
+            assert not f.closed
+            assert not p.closed
+        assert not f.closed  # opened input file was not closed
+        assert not p.closed  # parquet file obj reports as not closed
+    assert f.closed
+    assert p.closed  # parquet file being closed reflects underlying file
+
+    # ParquetFile with unopened file (will close)
+    with pq.ParquetFile(fn) as p:
+        p.read()
+        assert not p.closed
+    assert p.closed  # parquet file obj reports as closed
+
+
+@pytest.mark.s3
+@pytest.mark.parametrize("use_uri", (True, False))
+def test_parquet_file_with_filesystem(tempdir, s3_example_fs, use_uri):
+    s3_fs, s3_uri, s3_path = s3_example_fs
+
+    args = (s3_uri if use_uri else s3_path,)
+    kwargs = {} if use_uri else dict(filesystem=s3_fs)
+
+    table = pa.table({"a": range(10)})
+    pq.write_table(table, s3_path, filesystem=s3_fs)
+
+    parquet_file = pq.ParquetFile(*args, **kwargs)
+    assert parquet_file.read() == table
+    assert not parquet_file.closed
+    parquet_file.close()
+    assert parquet_file.closed
+
+    with pq.ParquetFile(*args, **kwargs) as f:
+        assert f.read() == table
+        assert not f.closed
+    assert f.closed
diff --git a/python/pyarrow/tests/parquet/test_parquet_writer.py b/python/pyarrow/tests/parquet/test_parquet_writer.py
index 6ee3f3b606b..83cbac5936e 100644
--- a/python/pyarrow/tests/parquet/test_parquet_writer.py
+++ b/python/pyarrow/tests/parquet/test_parquet_writer.py
@@ -325,3 +325,24 @@ def open(self, path, mode='rb'):
         expected_msg = ("filesystem passed but where is file-like, so"
                         " there is nothing to open with filesystem.")
         assert str(err_info) == expected_msg
+
+
+def test_parquet_writer_store_schema(tempdir):
+    table = pa.table({'a': [1, 2, 3]})
+
+    # default -> write schema information
+    path1 = tempdir / 'test_with_schema.parquet'
+    with pq.ParquetWriter(path1, table.schema) as writer:
+        writer.write_table(table)
+
+    meta = pq.read_metadata(path1)
+    assert b'ARROW:schema' in meta.metadata
+    assert meta.metadata[b'ARROW:schema']
+
+    # disable adding schema information
+    path2 = tempdir / 'test_without_schema.parquet'
+    with pq.ParquetWriter(path2, table.schema, store_schema=False) as writer:
+        writer.write_table(table)
+
+    meta = pq.read_metadata(path2)
+    assert meta.metadata is None
diff --git a/python/pyarrow/tests/test_array.py b/python/pyarrow/tests/test_array.py
index 814691c92d9..b00e72e1bbc 100644
--- a/python/pyarrow/tests/test_array.py
+++ b/python/pyarrow/tests/test_array.py
@@ -703,14 +703,14 @@ def test_struct_from_arrays():
     assert arr.to_pylist() == [None] + expected_list[1:]
 
     # Bad masks
-    with pytest.raises(ValueError, match='Mask must be'):
+    with pytest.raises(TypeError, match='Mask must be'):
         pa.StructArray.from_arrays(arrays, fields, mask=[True, False, False])
 
     with pytest.raises(ValueError, match='not contain nulls'):
         pa.StructArray.from_arrays(
             arrays, fields, mask=pa.array([True, False, None]))
 
-    with pytest.raises(ValueError, match='Mask must be'):
+    with pytest.raises(TypeError, match='Mask must be'):
         pa.StructArray.from_arrays(
             arrays, fields, mask=pa.chunked_array([mask]))
 
@@ -725,6 +725,15 @@ def test_struct_array_from_chunked():
         pa.StructArray.from_arrays([chunked_arr], ["foo"])
 
 
+@pytest.mark.parametrize("offset", (0, 1))
+def test_dictionary_from_buffers(offset):
+    a = pa.array(["one", "two", "three", "two", "one"]).dictionary_encode()
+    b = pa.DictionaryArray.from_buffers(a.type, len(a)-offset,
+                                        a.indices.buffers(), a.dictionary,
+                                        offset=offset)
+    assert a[offset:] == b
+
+
 def test_dictionary_from_numpy():
     indices = np.repeat([0, 1, 2], 2)
     dictionary = np.array(['foo', 'bar', 'baz'], dtype=object)
@@ -919,6 +928,60 @@ def test_list_from_arrays(list_array_type, list_type_factory):
         list_array_type.from_arrays(offsets, values, type=typ)
 
 
+@pytest.mark.parametrize(('list_array_type', 'list_type_factory'), (
+    (pa.ListArray, pa.list_),
+    (pa.LargeListArray, pa.large_list)
+))
+@pytest.mark.parametrize("arr", (
+    [None, [0]],
+    [None, [0, None], [0]],
+    [[0], [1]],
+))
+def test_list_array_types_from_arrays(
+    list_array_type, list_type_factory, arr
+):
+    arr = pa.array(arr, list_type_factory(pa.int8()))
+    reconstructed_arr = list_array_type.from_arrays(
+        arr.offsets, arr.values, mask=arr.is_null())
+    assert arr == reconstructed_arr
+
+
+@pytest.mark.parametrize(('list_array_type', 'list_type_factory'), (
+    (pa.ListArray, pa.list_),
+    (pa.LargeListArray, pa.large_list)
+))
+def test_list_array_types_from_arrays_fail(list_array_type, list_type_factory):
+    # Fail when manual offsets include nulls and mask passed
+    # ListArray.offsets doesn't report nulls.
+
+    # This test case arr.offsets == [0, 1, 1, 3, 4]
+    arr = pa.array([[0], None, [0, None], [0]], list_type_factory(pa.int8()))
+    offsets = pa.array([0, None, 1, 3, 4])
+
+    # Using array's offset has no nulls; gives empty lists on top level
+    reconstructed_arr = list_array_type.from_arrays(arr.offsets, arr.values)
+    assert reconstructed_arr.to_pylist() == [[0], [], [0, None], [0]]
+
+    # Manually specifiying offsets (with nulls) is same as mask at top level
+    reconstructed_arr = list_array_type.from_arrays(offsets, arr.values)
+    assert arr == reconstructed_arr
+    reconstructed_arr = list_array_type.from_arrays(arr.offsets,
+                                                    arr.values,
+                                                    mask=arr.is_null())
+    assert arr == reconstructed_arr
+
+    # But using both is ambiguous, in this case `offsets` has nulls
+    with pytest.raises(ValueError, match="Ambiguous to specify both "):
+        list_array_type.from_arrays(offsets, arr.values, mask=arr.is_null())
+
+    # Not supported to reconstruct from a slice.
+    arr_slice = arr[1:]
+    msg = "Null bitmap with offsets slice not supported."
+    with pytest.raises(NotImplementedError, match=msg):
+        list_array_type.from_arrays(
+            arr_slice.offsets, arr_slice.values, mask=arr_slice.is_null())
+
+
 def test_map_labelled():
     #  ARROW-13735
     t = pa.map_(pa.field("name", "string", nullable=False), "int64")
@@ -928,6 +991,16 @@ def test_map_labelled():
     assert len(arr) == 2
 
 
+def test_map_from_dict():
+    # ARROW-17832
+    tup_arr = pa.array([[('a', 1), ('b', 2)], [('c', 3)]],
+                       pa.map_(pa.string(), pa.int64()))
+    dict_arr = pa.array([{'a': 1, 'b': 2}, {'c': 3}],
+                        pa.map_(pa.string(), pa.int64()))
+
+    assert tup_arr.equals(dict_arr)
+
+
 def test_map_from_arrays():
     offsets_arr = np.array([0, 2, 5, 8], dtype='i4')
     offsets = pa.array(offsets_arr, type='int32')
@@ -2622,30 +2695,49 @@ def test_list_array_flatten(offset_type, list_type_factory):
     assert arr2.values.values.equals(arr0)
 
 
-@pytest.mark.parametrize('list_type_factory', [pa.list_, pa.large_list])
-def test_list_value_parent_indices(list_type_factory):
+@pytest.mark.parametrize('list_type', [
+    pa.list_(pa.int32()),
+    pa.list_(pa.int32(), list_size=2),
+    pa.large_list(pa.int32())])
+def test_list_value_parent_indices(list_type):
     arr = pa.array(
         [
-            [0, 1, 2],
+            [0, 1],
             None,
-            [],
+            [None, None],
             [3, 4]
-        ], type=list_type_factory(pa.int32()))
-    expected = pa.array([0, 0, 0, 3, 3], type=pa.int64())
+        ], type=list_type)
+    expected = pa.array([0, 0, 2, 2, 3, 3], type=pa.int64())
     assert arr.value_parent_indices().equals(expected)
 
 
-@pytest.mark.parametrize(('offset_type', 'list_type_factory'),
-                         [(pa.int32(), pa.list_), (pa.int64(), pa.large_list)])
-def test_list_value_lengths(offset_type, list_type_factory):
-    arr = pa.array(
-        [
-            [0, 1, 2],
-            None,
-            [],
-            [3, 4]
-        ], type=list_type_factory(pa.int32()))
-    expected = pa.array([3, None, 0, 2], type=offset_type)
+@pytest.mark.parametrize(('offset_type', 'list_type'),
+                         [(pa.int32(), pa.list_(pa.int32())),
+                          (pa.int32(), pa.list_(pa.int32(), list_size=2)),
+                          (pa.int64(), pa.large_list(pa.int32()))])
+def test_list_value_lengths(offset_type, list_type):
+
+    # FixedSizeListArray needs fixed list sizes
+    if getattr(list_type, "list_size", None):
+        arr = pa.array(
+            [
+                [0, 1],
+                None,
+                [None, None],
+                [3, 4]
+            ], type=list_type)
+        expected = pa.array([2, None, 2, 2], type=offset_type)
+
+    # Otherwise create variable list sizes
+    else:
+        arr = pa.array(
+            [
+                [0, 1, 2],
+                None,
+                [],
+                [3, 4]
+            ], type=list_type)
+        expected = pa.array([3, None, 0, 2], type=offset_type)
     assert arr.value_lengths().equals(expected)
 
 
@@ -2708,7 +2800,6 @@ def test_fixed_size_list_array_flatten():
     typ1 = pa.list_(pa.int64(), 2)
     arr1 = pa.array([
         [1, 2], [3, 4], [5, 6],
-        None, None, None,
         [7, None], None, [8, 9]
     ], type=typ1)
     assert arr1.type.equals(typ1)
@@ -2716,15 +2807,19 @@ def test_fixed_size_list_array_flatten():
 
     typ0 = pa.int64()
     arr0 = pa.array([
-        1, 2, 3, 4, 5, 6,
-        None, None, None, None, None, None,
-        7, None, None, None, 8, 9,
+        1, 2, 3, 4, 5, 6, 7, None, 8, 9,
     ], type=typ0)
     assert arr0.type.equals(typ0)
     assert arr1.flatten().equals(arr0)
     assert arr2.flatten().flatten().equals(arr0)
 
 
+def test_fixed_size_list_array_flatten_with_slice():
+    array = pa.array([[1], [2], [3]],
+                     type=pa.list_(pa.float64(), list_size=1))
+    assert array[2:].flatten() == pa.array([3], type=pa.float64())
+
+
 def test_map_array_values_offsets():
     ty = pa.map_(pa.utf8(), pa.int32())
     ty_values = pa.struct([pa.field("key", pa.utf8(), nullable=False),
@@ -2821,6 +2916,41 @@ def test_struct_array_field():
             a.field(invalid_name)
 
 
+def test_struct_array_flattened_field():
+    ty = pa.struct([pa.field('x', pa.int16()),
+                    pa.field('y', pa.float32())])
+    a = pa.array([(1, 2.5), (3, 4.5), (5, 6.5)], type=ty,
+                 mask=pa.array([False, True, False]))
+
+    x0 = a._flattened_field(0)
+    y0 = a._flattened_field(1)
+    x1 = a._flattened_field(-2)
+    y1 = a._flattened_field(-1)
+    x2 = a._flattened_field('x')
+    y2 = a._flattened_field('y')
+
+    assert isinstance(x0, pa.lib.Int16Array)
+    assert isinstance(y1, pa.lib.FloatArray)
+    assert x0.equals(pa.array([1, None, 5], type=pa.int16()))
+    assert y0.equals(pa.array([2.5, None, 6.5], type=pa.float32()))
+    assert x0.equals(x1)
+    assert x0.equals(x2)
+    assert y0.equals(y1)
+    assert y0.equals(y2)
+
+    for invalid_index in [None, pa.int16()]:
+        with pytest.raises(TypeError):
+            a._flattened_field(invalid_index)
+
+    for invalid_index in [3, -3]:
+        with pytest.raises(IndexError):
+            a._flattened_field(invalid_index)
+
+    for invalid_name in ['z', '']:
+        with pytest.raises(KeyError):
+            a._flattened_field(invalid_name)
+
+
 def test_empty_cast():
     types = [
         pa.null(),
@@ -3192,3 +3322,57 @@ def test_to_pandas_timezone():
     arr = pa.chunked_array([arr])
     s = arr.to_pandas()
     assert s.dt.tz is not None
+
+
+def test_array_sort():
+    arr = pa.array([5, 7, 35], type=pa.int64())
+    sorted_arr = arr.sort("descending")
+    assert sorted_arr.to_pylist() == [35, 7, 5]
+
+    arr = pa.chunked_array([[1, 2, 3], [4, 5, 6]])
+    sorted_arr = arr.sort("descending")
+    assert sorted_arr.to_pylist() == [6, 5, 4, 3, 2, 1]
+
+    arr = pa.array([5, 7, 35, None], type=pa.int64())
+    sorted_arr = arr.sort("descending", null_placement="at_end")
+    assert sorted_arr.to_pylist() == [35, 7, 5, None]
+    sorted_arr = arr.sort("descending", null_placement="at_start")
+    assert sorted_arr.to_pylist() == [None, 35, 7, 5]
+
+
+def test_struct_array_sort():
+    arr = pa.StructArray.from_arrays([
+        pa.array([5, 7, 7, 35], type=pa.int64()),
+        pa.array(["foo", "car", "bar", "foobar"])
+    ], names=["a", "b"])
+
+    sorted_arr = arr.sort("descending", by="a")
+    assert sorted_arr.to_pylist() == [
+        {"a": 35, "b": "foobar"},
+        {"a": 7, "b": "car"},
+        {"a": 7, "b": "bar"},
+        {"a": 5, "b": "foo"},
+    ]
+
+    arr_with_nulls = pa.StructArray.from_arrays([
+        pa.array([5, 7, 7, 35], type=pa.int64()),
+        pa.array(["foo", "car", "bar", "foobar"])
+    ], names=["a", "b"], mask=pa.array([False, False, True, False]))
+
+    sorted_arr = arr_with_nulls.sort(
+        "descending", by="a", null_placement="at_start")
+    assert sorted_arr.to_pylist() == [
+        None,
+        {"a": 35, "b": "foobar"},
+        {"a": 7, "b": "car"},
+        {"a": 5, "b": "foo"},
+    ]
+
+    sorted_arr = arr_with_nulls.sort(
+        "descending", by="a", null_placement="at_end")
+    assert sorted_arr.to_pylist() == [
+        {"a": 35, "b": "foobar"},
+        {"a": 7, "b": "car"},
+        {"a": 5, "b": "foo"},
+        None
+    ]
diff --git a/python/pyarrow/tests/test_compute.py b/python/pyarrow/tests/test_compute.py
index 2bdec412f1f..99650999920 100644
--- a/python/pyarrow/tests/test_compute.py
+++ b/python/pyarrow/tests/test_compute.py
@@ -15,9 +15,10 @@
 # specific language governing permissions and limitations
 # under the License.
 
-from datetime import datetime
+import datetime
 from functools import lru_cache, partial
 import inspect
+import itertools
 import os
 import pickle
 import pytest
@@ -137,6 +138,7 @@ def test_option_class_equality():
         pc.FilterOptions(),
         pc.IndexOptions(pa.scalar(1)),
         pc.JoinOptions(),
+        pc.ListSliceOptions(0, -1, 1, True),
         pc.MakeStructOptions(["field", "names"],
                              field_nullability=[True, True],
                              field_metadata=[pa.KeyValueMetadata({"a": "1"}),
@@ -394,6 +396,14 @@ def test_mode_chunked_array():
     assert len(pc.mode(arr)) == 0
 
 
+def test_empty_chunked_array():
+    msg = "cannot construct ChunkedArray from empty vector and omitted type"
+    with pytest.raises(pa.ArrowInvalid, match=msg):
+        pa.chunked_array([])
+
+    pa.chunked_array([], type=pa.int8())
+
+
 def test_variance():
     data = [1, 2, 3, 4, 5, 6, 7, 8]
     assert pc.variance(data).as_py() == 5.25
@@ -528,6 +538,22 @@ def test_slice_compatibility():
                                                start, stop, step) == result
 
 
+def test_binary_slice_compatibility():
+    arr = pa.array([b"", b"a", b"a\xff", b"ab\x00", b"abc\xfb", b"ab\xf2de"])
+    for start, stop, step in itertools.product(range(-6, 6),
+                                               range(-6, 6),
+                                               range(-3, 4)):
+        if step == 0:
+            continue
+        expected = pa.array([k.as_py()[start:stop:step]
+                             for k in arr])
+        result = pc.binary_slice(
+            arr, start=start, stop=stop, step=step)
+        assert expected.equals(result)
+        # Positional options
+        assert pc.binary_slice(arr, start, stop, step) == result
+
+
 def test_split_pattern():
     arr = pa.array(["-foo---bar--", "---foo---b"])
     result = pc.split_pattern(arr, pattern="---")
@@ -1713,7 +1739,8 @@ def test_cast():
     assert pc.cast(arr, options=allow_overflow_options) == pa.array(
         [-1], type='int32')
 
-    arr = pa.array([datetime(2010, 1, 1), datetime(2015, 1, 1)])
+    arr = pa.array(
+        [datetime.datetime(2010, 1, 1), datetime.datetime(2015, 1, 1)])
     expected = pa.array([1262304000000, 1420070400000], type='timestamp[ms]')
     assert pc.cast(arr, 'timestamp[ms]') == expected
 
@@ -1723,17 +1750,49 @@ def test_cast():
     assert pc.cast(arr, expected.type) == expected
 
 
+@pytest.mark.parametrize('value_type', numerical_arrow_types)
+def test_fsl_to_fsl_cast(value_type):
+    # Different field name and different type.
+    cast_type = pa.list_(pa.field("element", value_type), 2)
+
+    dtype = pa.int32()
+    type = pa.list_(pa.field("values", dtype), 2)
+
+    fsl = pa.FixedSizeListArray.from_arrays(
+        pa.array([1, 2, 3, 4, 5, 6], type=dtype), type=type)
+    assert cast_type == fsl.cast(cast_type).type
+
+    # Different field name and different type (with null values).
+    fsl = pa.FixedSizeListArray.from_arrays(
+        pa.array([1, None, None, 4, 5, 6], type=dtype), type=type)
+    assert cast_type == fsl.cast(cast_type).type
+
+    # Null FSL type.
+    dtype = pa.null()
+    type = pa.list_(pa.field("values", dtype), 2)
+    fsl = pa.FixedSizeListArray.from_arrays(
+        pa.array([None, None, None, None, None, None], type=dtype), type=type)
+    assert cast_type == fsl.cast(cast_type).type
+
+    # Different sized FSL
+    cast_type = pa.list_(pa.field("element", value_type), 3)
+    err_msg = 'Size of FixedSizeList is not the same.'
+    with pytest.raises(pa.lib.ArrowTypeError, match=err_msg):
+        fsl.cast(cast_type)
+
+
 def test_strptime():
     arr = pa.array(["5/1/2020", None, "12/13/1900"])
 
     got = pc.strptime(arr, format='%m/%d/%Y', unit='s')
-    expected = pa.array([datetime(2020, 5, 1), None, datetime(1900, 12, 13)],
-                        type=pa.timestamp('s'))
+    expected = pa.array(
+        [datetime.datetime(2020, 5, 1), None, datetime.datetime(1900, 12, 13)],
+        type=pa.timestamp('s'))
     assert got == expected
     # Positional format
     assert pc.strptime(arr, '%m/%d/%Y', unit='s') == got
 
-    expected = pa.array([datetime(2020, 1, 5), None, None],
+    expected = pa.array([datetime.datetime(2020, 1, 5), None, None],
                         type=pa.timestamp('s'))
     got = pc.strptime(arr, format='%d/%m/%Y', unit='s', error_is_null=True)
     assert got == expected
@@ -1755,14 +1814,6 @@ def test_strptime():
 @pytest.mark.skipif(sys.platform == 'win32',
                     reason="Timezone database is not available on Windows yet")
 def test_strftime():
-    from pyarrow.vendored.version import Version
-
-    def _fix_timestamp(s):
-        if Version(pd.__version__) < Version("1.0.0"):
-            return s.to_series().replace("NaT", pd.NaT)
-        else:
-            return s
-
     times = ["2018-03-10 09:00", "2038-01-31 12:23", None]
     timezones = ["CET", "UTC", "Europe/Ljubljana"]
 
@@ -1777,7 +1828,7 @@ def _fix_timestamp(s):
             for fmt in formats:
                 options = pc.StrftimeOptions(fmt)
                 result = pc.strftime(tsa, options=options)
-                expected = pa.array(_fix_timestamp(ts.strftime(fmt)))
+                expected = pa.array(ts.strftime(fmt))
                 assert result.equals(expected)
 
         fmt = "%Y-%m-%dT%H:%M:%S"
@@ -1785,34 +1836,34 @@ def _fix_timestamp(s):
         # Default format
         tsa = pa.array(ts, type=pa.timestamp("s", timezone))
         result = pc.strftime(tsa, options=pc.StrftimeOptions())
-        expected = pa.array(_fix_timestamp(ts.strftime(fmt)))
+        expected = pa.array(ts.strftime(fmt))
         assert result.equals(expected)
 
         # Default format plus timezone
         tsa = pa.array(ts, type=pa.timestamp("s", timezone))
         result = pc.strftime(tsa, options=pc.StrftimeOptions(fmt + "%Z"))
-        expected = pa.array(_fix_timestamp(ts.strftime(fmt + "%Z")))
+        expected = pa.array(ts.strftime(fmt + "%Z"))
         assert result.equals(expected)
 
         # Pandas %S is equivalent to %S in arrow for unit="s"
         tsa = pa.array(ts, type=pa.timestamp("s", timezone))
         options = pc.StrftimeOptions("%S")
         result = pc.strftime(tsa, options=options)
-        expected = pa.array(_fix_timestamp(ts.strftime("%S")))
+        expected = pa.array(ts.strftime("%S"))
         assert result.equals(expected)
 
         # Pandas %S.%f is equivalent to %S in arrow for unit="us"
         tsa = pa.array(ts, type=pa.timestamp("us", timezone))
         options = pc.StrftimeOptions("%S")
         result = pc.strftime(tsa, options=options)
-        expected = pa.array(_fix_timestamp(ts.strftime("%S.%f")))
+        expected = pa.array(ts.strftime("%S.%f"))
         assert result.equals(expected)
 
         # Test setting locale
         tsa = pa.array(ts, type=pa.timestamp("s", timezone))
         options = pc.StrftimeOptions(fmt, locale="C")
         result = pc.strftime(tsa, options=options)
-        expected = pa.array(_fix_timestamp(ts.strftime(fmt)))
+        expected = pa.array(ts.strftime(fmt))
         assert result.equals(expected)
 
     # Test timestamps without timezone
@@ -1820,7 +1871,8 @@ def _fix_timestamp(s):
     ts = pd.to_datetime(times)
     tsa = pa.array(ts, type=pa.timestamp("s"))
     result = pc.strftime(tsa, options=pc.StrftimeOptions(fmt))
-    expected = pa.array(_fix_timestamp(ts.strftime(fmt)))
+    expected = pa.array(ts.strftime(fmt))
+
     # Positional format
     assert pc.strftime(tsa, fmt) == result
 
@@ -1883,7 +1935,11 @@ def _check_datetime_components(timestamps, timezone=None):
     assert pc.subsecond(tsa).equals(pa.array(subseconds))
 
     if ts.dt.tz:
-        is_dst = ts.apply(lambda x: x.dst().seconds > 0)
+        if ts.dt.tz is datetime.timezone.utc:
+            # datetime with utc returns None for dst()
+            is_dst = [False] * len(ts)
+        else:
+            is_dst = ts.apply(lambda x: x.dst().seconds > 0)
         assert pc.is_dst(tsa).equals(pa.array(is_dst))
 
     day_of_week_options = pc.DayOfWeekOptions(
@@ -1899,8 +1955,6 @@ def _check_datetime_components(timestamps, timezone=None):
 
 @pytest.mark.pandas
 def test_extract_datetime_components():
-    from pyarrow.vendored.version import Version
-
     timestamps = ["1970-01-01T00:00:59.123456789",
                   "2000-02-29T23:23:23.999999999",
                   "2033-05-18T03:33:20.000000000",
@@ -1910,12 +1964,12 @@ def test_extract_datetime_components():
                   "2009-12-31T04:20:20.004132",
                   "2010-01-01T05:25:25.005321",
                   "2010-01-03T06:30:30.006163",
-                  "2010-01-04T07:35:35",
-                  "2006-01-01T08:40:40",
-                  "2005-12-31T09:45:45",
-                  "2008-12-28",
-                  "2008-12-29",
-                  "2012-01-01 01:02:03"]
+                  "2010-01-04T07:35:35.0",
+                  "2006-01-01T08:40:40.0",
+                  "2005-12-31T09:45:45.0",
+                  "2008-12-28T00:00:00.0",
+                  "2008-12-29T00:00:00.0",
+                  "2012-01-01T01:02:03.0"]
     timezones = ["UTC", "US/Central", "Asia/Kolkata",
                  "Etc/GMT-4", "Etc/GMT+4", "Australia/Broken_Hill"]
 
@@ -1926,8 +1980,6 @@ def test_extract_datetime_components():
     if sys.platform == 'win32':
         # TODO: We should test on windows once ARROW-13168 is resolved.
         pytest.skip('Timezone database is not available on Windows yet')
-    elif Version(pd.__version__) < Version('1.0.0'):
-        pytest.skip('Pandas < 1.0 extracts time components incorrectly.')
     else:
         for timezone in timezones:
             _check_datetime_components(timestamps, timezone)
@@ -1938,8 +1990,6 @@ def test_extract_datetime_components():
 @pytest.mark.skipif(sys.platform == 'win32',
                     reason="Timezone database is not available on Windows yet")
 def test_assume_timezone():
-    from pyarrow.vendored.version import Version
-
     ts_type = pa.timestamp("ns")
     timestamps = pd.to_datetime(["1970-01-01T00:00:59.123456789",
                                  "2000-02-29T23:23:23.999999999",
@@ -1950,12 +2000,12 @@ def test_assume_timezone():
                                  "2009-12-31T04:20:20.004132",
                                  "2010-01-01T05:25:25.005321",
                                  "2010-01-03T06:30:30.006163",
-                                 "2010-01-04T07:35:35",
-                                 "2006-01-01T08:40:40",
-                                 "2005-12-31T09:45:45",
-                                 "2008-12-28",
-                                 "2008-12-29",
-                                 "2012-01-01 01:02:03"])
+                                 "2010-01-04T07:35:35.0",
+                                 "2006-01-01T08:40:40.0",
+                                 "2005-12-31T09:45:45.0",
+                                 "2008-12-28T00:00:00.0",
+                                 "2008-12-29T00:00:00.0",
+                                 "2012-01-01T01:02:03.0"])
     nonexistent = pd.to_datetime(["2015-03-29 02:30:00",
                                   "2015-03-29 03:30:00"])
     ambiguous = pd.to_datetime(["2018-10-28 01:20:00",
@@ -1983,31 +2033,29 @@ def test_assume_timezone():
 
     timezone = "Europe/Brussels"
 
-    # nonexistent parameter was introduced in Pandas 0.24.0
-    if Version(pd.__version__) >= Version("0.24.0"):
-        options_nonexistent_raise = pc.AssumeTimezoneOptions(timezone)
-        options_nonexistent_earliest = pc.AssumeTimezoneOptions(
-            timezone, ambiguous="raise", nonexistent="earliest")
-        options_nonexistent_latest = pc.AssumeTimezoneOptions(
-            timezone, ambiguous="raise", nonexistent="latest")
-
-        with pytest.raises(ValueError,
-                           match="Timestamp doesn't exist in "
-                                 f"timezone '{timezone}'"):
-            pc.assume_timezone(nonexistent_array,
-                               options=options_nonexistent_raise)
-
-        expected = pa.array(nonexistent.tz_localize(
-            timezone, nonexistent="shift_forward"))
-        result = pc.assume_timezone(
-            nonexistent_array, options=options_nonexistent_latest)
-        expected.equals(result)
-
-        expected = pa.array(nonexistent.tz_localize(
-            timezone, nonexistent="shift_backward"))
-        result = pc.assume_timezone(
-            nonexistent_array, options=options_nonexistent_earliest)
-        expected.equals(result)
+    options_nonexistent_raise = pc.AssumeTimezoneOptions(timezone)
+    options_nonexistent_earliest = pc.AssumeTimezoneOptions(
+        timezone, ambiguous="raise", nonexistent="earliest")
+    options_nonexistent_latest = pc.AssumeTimezoneOptions(
+        timezone, ambiguous="raise", nonexistent="latest")
+
+    with pytest.raises(ValueError,
+                       match="Timestamp doesn't exist in "
+                       f"timezone '{timezone}'"):
+        pc.assume_timezone(nonexistent_array,
+                           options=options_nonexistent_raise)
+
+    expected = pa.array(nonexistent.tz_localize(
+        timezone, nonexistent="shift_forward"))
+    result = pc.assume_timezone(
+        nonexistent_array, options=options_nonexistent_latest)
+    expected.equals(result)
+
+    expected = pa.array(nonexistent.tz_localize(
+        timezone, nonexistent="shift_backward"))
+    result = pc.assume_timezone(
+        nonexistent_array, options=options_nonexistent_earliest)
+    expected.equals(result)
 
     options_ambiguous_raise = pc.AssumeTimezoneOptions(timezone)
     options_ambiguous_latest = pc.AssumeTimezoneOptions(
@@ -2142,11 +2190,6 @@ def _check_temporal_rounding(ts, values, unit):
                                   "second", "minute", "hour", "day"))
 @pytest.mark.pandas
 def test_round_temporal(unit):
-    from pyarrow.vendored.version import Version
-
-    if Version(pd.__version__) < Version('1.0.0'):
-        pytest.skip('Pandas < 1.0 rounds differently.')
-
     values = (1, 2, 3, 4, 5, 6, 7, 10, 15, 24, 60, 250, 500, 750)
     timestamps = [
         "1923-07-07 08:52:35.203790336",
@@ -2413,7 +2456,8 @@ def test_sort_indices_table():
     with pytest.raises(ValueError, match="Must specify one or more sort keys"):
         pc.sort_indices(table)
 
-    with pytest.raises(ValueError, match="Nonexistent sort key column"):
+    with pytest.raises(ValueError,
+                       match="Invalid sort key column: No match for.*unknown"):
         pc.sort_indices(table, sort_keys=[("unknown", "ascending")])
 
     with pytest.raises(ValueError, match="not a valid sort order"):
@@ -2653,14 +2697,32 @@ def test_struct_fields_options():
     c = pa.StructArray.from_arrays([a, b], ["a", "b"])
     arr = pa.StructArray.from_arrays([a, c], ["a", "c"])
 
-    assert pc.struct_field(arr,
-                           indices=[1, 1]) == pa.array(["bar", None, ""])
-    assert pc.struct_field(arr, [1, 1]) == pa.array(["bar", None, ""])
-    assert pc.struct_field(arr, [0]) == pa.array([4, 5, 6], type=pa.int64())
+    assert pc.struct_field(arr, '.c.b') == b
+    assert pc.struct_field(arr, b'.c.b') == b
+    assert pc.struct_field(arr, ['c', 'b']) == b
+    assert pc.struct_field(arr, [1, 'b']) == b
+    assert pc.struct_field(arr, (b'c', 'b')) == b
+    assert pc.struct_field(arr, pc.field(('c', 'b'))) == b
+
+    assert pc.struct_field(arr, '.a') == a
+    assert pc.struct_field(arr, ['a']) == a
+    assert pc.struct_field(arr, 'a') == a
+    assert pc.struct_field(arr, pc.field(('a',))) == a
+
+    assert pc.struct_field(arr, indices=[1, 1]) == b
+    assert pc.struct_field(arr, (1, 1)) == b
+    assert pc.struct_field(arr, [0]) == a
     assert pc.struct_field(arr, []) == arr
 
-    with pytest.raises(TypeError, match="an integer is required"):
-        pc.struct_field(arr, indices=['a'])
+    with pytest.raises(pa.ArrowInvalid, match="No match for FieldRef"):
+        pc.struct_field(arr, 'foo')
+
+    with pytest.raises(pa.ArrowInvalid, match="No match for FieldRef"):
+        pc.struct_field(arr, '.c.foo')
+
+    # drill into a non-struct array and continue to ask for a field
+    with pytest.raises(pa.ArrowInvalid, match="No match for FieldRef"):
+        pc.struct_field(arr, '.a.foo')
 
     # TODO: https://issues.apache.org/jira/browse/ARROW-14853
     # assert pc.struct_field(arr) == arr
@@ -2692,7 +2754,7 @@ def test_list_element():
 
 
 def test_count_distinct():
-    seed = datetime.now()
+    seed = datetime.datetime.now()
     samples = [seed.replace(year=y) for y in range(1992, 2092)]
     arr = pa.array(samples, pa.timestamp("ns"))
     assert pc.count_distinct(arr) == pa.scalar(len(samples), type=pa.int64())
@@ -2826,6 +2888,7 @@ def test_expression_construction():
     false = pc.scalar(False)
     string = pc.scalar("string")
     field = pc.field("field")
+    nested_mixed_types = pc.field(b"a", 1, "b")
     nested_field = pc.field(("nested", "field"))
     nested_field2 = pc.field("nested", "field")
 
@@ -2835,6 +2898,7 @@ def test_expression_construction():
         field.cast(typ) == true
 
     field.isin([1, 2])
+    nested_mixed_types.isin(["foo", "bar"])
     nested_field.isin(["foo", "bar"])
     nested_field2.isin(["foo", "bar"])
 
@@ -2875,9 +2939,121 @@ def test_expression_call_function():
     assert str(pc.round(field, ndigits=1)) == \
         "round(field, {ndigits=1, round_mode=HALF_TO_EVEN})"
 
-    # mixed types are not (yet) allowed
-    with pytest.raises(TypeError):
-        pc.add(field, 1)
-
-    with pytest.raises(TypeError):
-        pc.add(1, field)
+    # Will convert non-expression arguments if possible
+    assert str(pc.add(field, 1)) == "add(field, 1)"
+    assert str(pc.add(field, pa.scalar(1))) == "add(field, 1)"
+
+    # Invalid pc.scalar input gives original erorr message
+    msg = "only other expressions allowed as arguments"
+    with pytest.raises(TypeError, match=msg):
+        pc.add(field, object)
+
+
+def test_cast_table_raises():
+    table = pa.table({'a': [1, 2]})
+
+    with pytest.raises(pa.lib.ArrowTypeError):
+        pc.cast(table, pa.int64())
+
+
+@pytest.mark.parametrize("start,stop,expected", (
+    (0, None, [[1, 2, 3], [4, 5, None], [6, None, None], None]),
+    (0, 1, [[1], [4], [6], None]),
+    (0, 2, [[1, 2], [4, 5], [6, None], None]),
+    (1, 2, [[2], [5], [None], None]),
+    (2, 4, [[3, None], [None, None], [None, None], None])
+))
+@pytest.mark.parametrize("step", (1, 2))
+@pytest.mark.parametrize("value_type", (pa.string, pa.int16, pa.float64))
+@pytest.mark.parametrize("list_type", (pa.list_, pa.large_list, "fixed"))
+def test_list_slice_output_fixed(start, stop, step, expected, value_type,
+                                 list_type):
+    if list_type == "fixed":
+        arr = pa.array([[1, 2, 3], [4, 5, None], [6, None, None], None],
+                       pa.list_(pa.int8(), 3)).cast(pa.list_(value_type(), 3))
+    else:
+        arr = pa.array([[1, 2, 3], [4, 5], [6], None],
+                       pa.list_(pa.int8())).cast(list_type(value_type()))
+
+    args = arr, start, stop, step, True
+    if stop is None and list_type != "fixed":
+        msg = ("Unable to produce FixedSizeListArray from "
+               "non-FixedSizeListArray without `stop` being set.")
+        with pytest.raises(pa.ArrowNotImplementedError, match=msg):
+            pc.list_slice(*args)
+    else:
+        result = pc.list_slice(*args)
+        pylist = result.cast(pa.list_(pa.int8(),
+                             result.type.list_size)).to_pylist()
+        assert pylist == [e[::step] if e else e for e in expected]
+
+
+@pytest.mark.parametrize("start,stop", (
+    (0, None,),
+    (0, 1,),
+    (0, 2,),
+    (1, 2,),
+    (2, 4,)
+))
+@pytest.mark.parametrize("step", (1, 2))
+@pytest.mark.parametrize("value_type", (pa.string, pa.int16, pa.float64))
+@pytest.mark.parametrize("list_type", (pa.list_, pa.large_list, "fixed"))
+def test_list_slice_output_variable(start, stop, step, value_type, list_type):
+    if list_type == "fixed":
+        data = [[1, 2, 3], [4, 5, None], [6, None, None], None]
+        arr = pa.array(
+            data,
+            pa.list_(pa.int8(), 3)).cast(pa.list_(value_type(), 3))
+    else:
+        data = [[1, 2, 3], [4, 5], [6], None]
+        arr = pa.array(data,
+                       pa.list_(pa.int8())).cast(list_type(value_type()))
+
+    # Gets same list type (ListArray vs LargeList)
+    if list_type == "fixed":
+        list_type = pa.list_  # non fixed output type
+
+    result = pc.list_slice(arr, start, stop, step,
+                           return_fixed_size_list=False)
+    assert result.type == list_type(value_type())
+
+    pylist = result.cast(pa.list_(pa.int8())).to_pylist()
+
+    # Variable output slicing follows Python's slice semantics
+    expected = [d[start:stop:step] if d is not None else None for d in data]
+    assert pylist == expected
+
+
+@pytest.mark.parametrize("return_fixed_size", (True, False, None))
+@pytest.mark.parametrize("type", (
+    lambda: pa.list_(pa.field('col', pa.int8())),
+    lambda: pa.list_(pa.field('col', pa.int8()), 1),
+    lambda: pa.large_list(pa.field('col', pa.int8()))))
+def test_list_slice_field_names_retained(return_fixed_size, type):
+    arr = pa.array([[1]], type())
+    out = pc.list_slice(arr, 0, 1, return_fixed_size_list=return_fixed_size)
+    assert arr.type.field(0).name == out.type.field(0).name
+
+    # Verify out type matches in type if return_fixed_size_list==None
+    if return_fixed_size is None:
+        assert arr.type == out.type
+
+
+def test_list_slice_bad_parameters():
+    arr = pa.array([[1]], pa.list_(pa.int8(), 1))
+    msg = r"`start`(.*) should be greater than 0 and smaller than `stop`(.*)"
+    with pytest.raises(pa.ArrowInvalid, match=msg):
+        pc.list_slice(arr, -1, 1)  # negative start?
+    with pytest.raises(pa.ArrowInvalid, match=msg):
+        pc.list_slice(arr, 2, 1)  # start > stop?
+
+    # TODO(ARROW-18281): start==stop -> empty lists
+    with pytest.raises(pa.ArrowInvalid, match=msg):
+        pc.list_slice(arr, 0, 0)  # start == stop?
+
+    # Step not >= 1
+    msg = "`step` must be >= 1, got: "
+    with pytest.raises(pa.ArrowInvalid, match=msg + "0"):
+        pc.list_slice(arr, 0, 1, step=0)
+    with pytest.raises(pa.ArrowInvalid, match=msg + "-1"):
+        pc.list_slice(arr, 0, 1, step=-1)
diff --git a/python/pyarrow/tests/test_cpp_internals.py b/python/pyarrow/tests/test_cpp_internals.py
new file mode 100644
index 00000000000..83800b77f89
--- /dev/null
+++ b/python/pyarrow/tests/test_cpp_internals.py
@@ -0,0 +1,50 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+import os.path
+from os.path import join as pjoin
+
+from pyarrow._pyarrow_cpp_tests import get_cpp_tests
+
+
+def inject_cpp_tests(ns):
+    """
+    Inject C++ tests as Python functions into namespace `ns` (a dict).
+    """
+    for case in get_cpp_tests():
+        def wrapper(case=case):
+            case()
+        wrapper.__name__ = wrapper.__qualname__ = case.name
+        wrapper.__module__ = ns['__name__']
+        ns[case.name] = wrapper
+
+
+inject_cpp_tests(globals())
+
+
+def test_pyarrow_include():
+    # We need to make sure that pyarrow/include is always
+    # created. Either with PyArrow C++ header files or with
+    # Arrow C++ and PyArrow C++ header files together
+
+    source = os.path.dirname(os.path.abspath(__file__))
+    pyarrow_dir = pjoin(source, '..')
+    pyarrow_include = pjoin(pyarrow_dir, 'include')
+    pyarrow_cpp_include = pjoin(pyarrow_include, 'arrow', 'python')
+
+    assert os.path.exists(pyarrow_include)
+    assert os.path.exists(pyarrow_cpp_include)
diff --git a/python/pyarrow/tests/test_csv.py b/python/pyarrow/tests/test_csv.py
index 3be6f07bfec..e92afce0352 100644
--- a/python/pyarrow/tests/test_csv.py
+++ b/python/pyarrow/tests/test_csv.py
@@ -326,7 +326,8 @@ def test_write_options():
     opts = cls()
 
     check_options_class(
-        cls, include_header=[True, False], delimiter=[',', '\t', '|'])
+        cls, include_header=[True, False], delimiter=[',', '\t', '|'],
+        quoting_style=['needed', 'none', 'all_valid'])
 
     assert opts.batch_size > 0
     opts.batch_size = 12345
@@ -654,6 +655,16 @@ def row_num(x):
         expected_rows = [InvalidRow(2, 1, row_num(2), "c")]
         assert parse_opts.invalid_row_handler.rows == expected_rows
 
+        # Test ser/de
+        parse_opts.invalid_row_handler = InvalidRowHandler('skip')
+        parse_opts = pickle.loads(pickle.dumps(parse_opts))
+
+        table = self.read_bytes(rows, parse_options=parse_opts)
+        assert table.to_pydict() == {
+            'a': ["d", "i"],
+            'b': ["e", "j"],
+        }
+
 
 class BaseCSVTableRead(BaseTestCSV):
 
@@ -1898,6 +1909,39 @@ def test_write_read_round_trip():
                              parse_options=parse_options)
 
 
+def test_write_quoting_style():
+    t = pa.Table.from_arrays([[1, 2, None], ["a", None, "c"]], ["c1", "c2"])
+    buf = io.BytesIO()
+    for write_options, res in [
+        (WriteOptions(quoting_style='none'), b'"c1","c2"\n1,a\n2,\n,c\n'),
+        (WriteOptions(), b'"c1","c2"\n1,"a"\n2,\n,"c"\n'),
+        (WriteOptions(quoting_style='all_valid'),
+         b'"c1","c2"\n"1","a"\n"2",\n,"c"\n'),
+    ]:
+        with CSVWriter(buf, t.schema, write_options=write_options) as writer:
+            writer.write_table(t)
+        assert buf.getvalue() == res
+        buf.seek(0)
+
+    # Test writing special characters with different quoting styles
+    t = pa.Table.from_arrays([[",", "\""]], ["c1"])
+    buf = io.BytesIO()
+    for write_options, res in [
+        (WriteOptions(quoting_style='needed'), b'"c1"\n","\n""""\n'),
+        (WriteOptions(quoting_style='none'), pa.lib.ArrowInvalid),
+    ]:
+        with CSVWriter(buf, t.schema, write_options=write_options) as writer:
+            try:
+                writer.write_table(t)
+            except Exception as e:
+                # This will trigger when we try to write a comma (,)
+                # without quotes, which is invalid
+                assert type(e) == res
+                break
+        assert buf.getvalue() == res
+        buf.seek(0)
+
+
 def test_read_csv_reference_cycle():
     # ARROW-13187
     def inner():
@@ -1908,3 +1952,19 @@ def inner():
     with util.disabled_gc():
         wr = inner()
         assert wr() is None
+
+
+@pytest.mark.parametrize("type_factory", (
+    lambda: pa.decimal128(20, 1),
+    lambda: pa.decimal128(38, 15),
+    lambda: pa.decimal256(20, 1),
+    lambda: pa.decimal256(76, 10),
+))
+def test_write_csv_decimal(tmpdir, type_factory):
+    type = type_factory()
+    table = pa.table({"col": pa.array([1, 2]).cast(type)})
+
+    write_csv(table, tmpdir / "out.csv")
+    out = read_csv(tmpdir / "out.csv")
+
+    assert out.column('col').cast(type) == table.column('col')
diff --git a/python/pyarrow/tests/test_cython.py b/python/pyarrow/tests/test_cython.py
index 89fca4190ec..59875e7b011 100644
--- a/python/pyarrow/tests/test_cython.py
+++ b/python/pyarrow/tests/test_cython.py
@@ -29,9 +29,9 @@
 here = os.path.dirname(os.path.abspath(__file__))
 test_ld_path = os.environ.get('PYARROW_TEST_LD_PATH', '')
 if os.name == 'posix':
-    compiler_opts = ['-std=c++11']
+    compiler_opts = ['-std=c++17']
 elif os.name == 'nt':
-    compiler_opts = ['-D_ENABLE_EXTENDED_ALIGNED_STORAGE']
+    compiler_opts = ['-D_ENABLE_EXTENDED_ALIGNED_STORAGE', '/std:c++17']
 else:
     compiler_opts = []
 
@@ -123,22 +123,41 @@ def test_cython_api(tmpdir):
         # pyarrow imported first.
         code = """if 1:
             import sys
+            import os
+
+            try:
+                # Add dll directory was added on python 3.8
+                # and is required in order to find extra DLLs
+                # only for win32
+                for dir in {library_dirs}:
+                    os.add_dll_directory(dir)
+            except AttributeError:
+                pass
 
             mod = __import__({mod_name!r})
             arr = mod.make_null_array(5)
             assert mod.get_array_length(arr) == 5
             assert arr.null_count == 5
-        """.format(mod_name='pyarrow_cython_example')
+        """.format(mod_name='pyarrow_cython_example',
+                   library_dirs=pa.get_library_dirs())
 
+        path_var = None
         if sys.platform == 'win32':
-            delim, var = ';', 'PATH'
+            if not hasattr(os, 'add_dll_directory'):
+                # Python 3.8 onwards don't check extension module DLLs on path
+                # we have to use os.add_dll_directory instead.
+                delim, path_var = ';', 'PATH'
+        elif sys.platform == 'darwin':
+            delim, path_var = ':', 'DYLD_LIBRARY_PATH'
         else:
-            delim, var = ':', 'LD_LIBRARY_PATH'
-
-        subprocess_env[var] = delim.join(
-            pa.get_library_dirs() + [subprocess_env.get(var, '')]
-        )
-
+            delim, path_var = ':', 'LD_LIBRARY_PATH'
+
+        if path_var:
+            paths = sys.path
+            paths += pa.get_library_dirs()
+            paths += [subprocess_env.get(path_var, '')]
+            paths = [path for path in paths if path]
+            subprocess_env[path_var] = delim.join(paths)
         subprocess.check_call([sys.executable, '-c', code],
                               stdout=subprocess.PIPE,
                               env=subprocess_env)
diff --git a/python/pyarrow/tests/test_dataset.py b/python/pyarrow/tests/test_dataset.py
index 3dc9c3beb6e..27edc8afadd 100644
--- a/python/pyarrow/tests/test_dataset.py
+++ b/python/pyarrow/tests/test_dataset.py
@@ -27,6 +27,8 @@
 import threading
 import time
 
+from urllib.parse import quote
+
 import numpy as np
 import pytest
 
@@ -86,6 +88,17 @@ def _table_from_pandas(df):
     return table.replace_schema_metadata()
 
 
+def assert_dataset_fragment_convenience_methods(dataset):
+    # FileFragment convenience methods
+    for fragment in dataset.get_fragments():
+        with fragment.open() as nf:
+            assert isinstance(nf, pa.NativeFile)
+            assert not nf.closed
+            assert nf.seekable()
+            assert nf.readable()
+            assert not nf.writable()
+
+
 @pytest.fixture
 @pytest.mark.parquet
 def mockfs():
@@ -194,8 +207,8 @@ def multisourcefs(request):
 
     # create one with hive partitioning by color
     mockfs.create_dir('hive_color')
-    for part, chunk in df_d.groupby(["color"]):
-        folder = 'hive_color/color={}'.format(*part)
+    for part, chunk in df_d.groupby("color"):
+        folder = 'hive_color/color={}'.format(part)
         path = '{}/chunk.parquet'.format(folder)
         mockfs.create_dir(folder)
         with mockfs.open_output_stream(path) as out:
@@ -421,6 +434,14 @@ def test_dataset(dataset, dataset_reader):
                              2.0, 2.0, 3.0, 3.0, 4.0, 4.0]
     assert result['new'] == [False, False, True, True, False, False,
                              False, False, True, True]
+    assert_dataset_fragment_convenience_methods(dataset)
+
+
+@pytest.mark.parquet
+def test_scanner_options(dataset):
+    scanner = dataset.to_batches(fragment_readahead=16, batch_readahead=8)
+    batch = next(scanner)
+    assert batch.num_columns == 7
 
 
 @pytest.mark.parquet
@@ -472,6 +493,25 @@ def test_scanner(dataset, dataset_reader):
     assert sorted_table['__last_in_fragment'].to_pylist() == [True] * 10
 
 
+@pytest.mark.parquet
+def test_scanner_memory_pool(dataset):
+    # honor default pool - https://issues.apache.org/jira/browse/ARROW-18164
+    old_pool = pa.default_memory_pool()
+    # TODO(ARROW-18293) we should be able to use the proxy memory pool for
+    # for testing, but this crashes
+    # pool = pa.proxy_memory_pool(old_pool)
+    pool = pa.system_memory_pool()
+    pa.set_memory_pool(pool)
+
+    try:
+        allocated_before = pool.bytes_allocated()
+        scanner = ds.Scanner.from_dataset(dataset)
+        _ = scanner.to_table()
+        assert pool.bytes_allocated() > allocated_before
+    finally:
+        pa.set_memory_pool(old_pool)
+
+
 @pytest.mark.parquet
 def test_scanner_async_deprecated(dataset):
     with pytest.warns(FutureWarning):
@@ -944,6 +984,9 @@ def test_make_csv_fragment_from_buffer(dataset_reader):
     csv_format = ds.CsvFileFormat()
     fragment = csv_format.make_fragment(buffer)
 
+    # When buffer, fragment open returns a BufferReader, not NativeFile
+    assert isinstance(fragment.open(), pa.BufferReader)
+
     expected = pa.table([['a', 'b', 'c'],
                          [12, 11, 10],
                          ['dog', 'cat', 'rabbit']],
@@ -1213,6 +1256,8 @@ def test_fragments_parquet_ensure_metadata(tempdir, open_logging_fs):
     with assert_opens([]):
         fragment.ensure_complete_metadata()
 
+    assert isinstance(fragment.metadata, pq.FileMetaData)
+
     # recreate fragment with row group ids
     new_fragment = fragment.format.make_fragment(
         fragment.path, fragment.filesystem, row_groups=[0, 1]
@@ -2948,6 +2993,8 @@ def test_ipc_format(tempdir, dataset_reader):
     result = dataset_reader.to_table(dataset)
     assert result.equals(table)
 
+    assert_dataset_fragment_convenience_methods(dataset)
+
     for format_str in ["ipc", "arrow"]:
         dataset = ds.dataset(path, format=format_str)
         result = dataset_reader.to_table(dataset)
@@ -2970,6 +3017,8 @@ def test_orc_format(tempdir, dataset_reader):
     result.validate(full=True)
     assert result.equals(table)
 
+    assert_dataset_fragment_convenience_methods(dataset)
+
     dataset = ds.dataset(path, format="orc")
     result = dataset_reader.to_table(dataset)
     result.validate(full=True)
@@ -3025,6 +3074,24 @@ def test_orc_format_not_supported():
             ds.dataset(".", format="orc")
 
 
+@pytest.mark.orc
+def test_orc_writer_not_implemented_for_dataset():
+    with pytest.raises(
+        NotImplementedError,
+        match="Writing datasets not yet implemented for this file format"
+    ):
+        ds.write_dataset(
+            pa.table({"a": range(10)}), format='orc', base_dir='/tmp'
+        )
+
+    of = ds.OrcFileFormat()
+    with pytest.raises(
+        NotImplementedError,
+        match="Writing datasets not yet implemented for this file format"
+    ):
+        of.make_write_options()
+
+
 @pytest.mark.pandas
 def test_csv_format(tempdir, dataset_reader):
     table = pa.table({'a': pa.array([1, 2, 3], type="int64"),
@@ -3037,6 +3104,8 @@ def test_csv_format(tempdir, dataset_reader):
     result = dataset_reader.to_table(dataset)
     assert result.equals(table)
 
+    assert_dataset_fragment_convenience_methods(dataset)
+
     dataset = ds.dataset(path, format='csv')
     result = dataset_reader.to_table(dataset)
     assert result.equals(table)
@@ -3130,6 +3199,55 @@ def test_csv_fragment_options(tempdir, dataset_reader):
         pa.table({'col0': pa.array(['foo', 'spam', 'MYNULL'])}))
 
 
+def test_encoding(tempdir, dataset_reader):
+    path = str(tempdir / 'test.csv')
+
+    for encoding, input_rows in [
+        ('latin-1', b"a,b\nun,\xe9l\xe9phant"),
+        ('utf16', b'\xff\xfea\x00,\x00b\x00\n\x00u\x00n\x00,'
+         b'\x00\xe9\x00l\x00\xe9\x00p\x00h\x00a\x00n\x00t\x00'),
+    ]:
+
+        with open(path, 'wb') as sink:
+            sink.write(input_rows)
+
+        # Interpret as utf8:
+        expected_schema = pa.schema([("a", pa.string()), ("b", pa.string())])
+        expected_table = pa.table({'a': ["un"],
+                                   'b': ["éléphant"]}, schema=expected_schema)
+
+        read_options = pa.csv.ReadOptions(encoding=encoding)
+        file_format = ds.CsvFileFormat(read_options=read_options)
+        dataset_transcoded = ds.dataset(path, format=file_format)
+        assert dataset_transcoded.schema.equals(expected_schema)
+        assert dataset_transcoded.to_table().equals(expected_table)
+
+
+# Test if a dataset with non-utf8 chars in the column names is properly handled
+def test_column_names_encoding(tempdir, dataset_reader):
+    path = str(tempdir / 'test.csv')
+
+    with open(path, 'wb') as sink:
+        sink.write(b"\xe9,b\nun,\xe9l\xe9phant")
+
+    # Interpret as utf8:
+    expected_schema = pa.schema([("é", pa.string()), ("b", pa.string())])
+    expected_table = pa.table({'é': ["un"],
+                               'b': ["éléphant"]}, schema=expected_schema)
+
+    # Reading as string without specifying encoding should produce an error
+    dataset = ds.dataset(path, format='csv', schema=expected_schema)
+    with pytest.raises(pyarrow.lib.ArrowInvalid, match="invalid UTF8"):
+        dataset_reader.to_table(dataset)
+
+    # Setting the encoding in the read_options should transcode the data
+    read_options = pa.csv.ReadOptions(encoding='latin-1')
+    file_format = ds.CsvFileFormat(read_options=read_options)
+    dataset_transcoded = ds.dataset(path, format=file_format)
+    assert dataset_transcoded.schema.equals(expected_schema)
+    assert dataset_transcoded.to_table().equals(expected_table)
+
+
 def test_feather_format(tempdir, dataset_reader):
     from pyarrow.feather import write_feather
 
@@ -3144,6 +3262,8 @@ def test_feather_format(tempdir, dataset_reader):
     result = dataset_reader.to_table(dataset)
     assert result.equals(table)
 
+    assert_dataset_fragment_convenience_methods(dataset)
+
     dataset = ds.dataset(basedir, format="feather")
     result = dataset_reader.to_table(dataset)
     assert result.equals(table)
@@ -3160,6 +3280,59 @@ def test_feather_format(tempdir, dataset_reader):
         dataset_reader.to_table(ds.dataset(basedir, format="feather"))
 
 
+@pytest.mark.pandas
+@pytest.mark.parametrize("compression", [
+    "lz4",
+    "zstd",
+    "brotli"  # not supported
+])
+def test_feather_format_compressed(tempdir, compression, dataset_reader):
+    table = pa.table({'a': pa.array([0]*300, type="int8"),
+                      'b': pa.array([.1, .2, .3]*100, type="float64")})
+    if not pa.Codec.is_available(compression):
+        pytest.skip()
+
+    basedir = tempdir / "feather_dataset_compressed"
+    basedir.mkdir()
+    file_format = ds.IpcFileFormat()
+
+    uncompressed_basedir = tempdir / "feather_dataset_uncompressed"
+    uncompressed_basedir.mkdir()
+    ds.write_dataset(
+        table,
+        str(uncompressed_basedir / "data.arrow"),
+        format=file_format,
+        file_options=file_format.make_write_options(compression=None)
+    )
+
+    if compression == "brotli":
+        with pytest.raises(ValueError, match="Compression type"):
+            write_options = file_format.make_write_options(
+                compression=compression)
+        with pytest.raises(ValueError, match="Compression type"):
+            codec = pa.Codec(compression)
+            write_options = file_format.make_write_options(compression=codec)
+        return
+
+    write_options = file_format.make_write_options(compression=compression)
+    ds.write_dataset(
+        table,
+        str(basedir / "data.arrow"),
+        format=file_format,
+        file_options=write_options
+    )
+
+    dataset = ds.dataset(basedir, format=ds.IpcFileFormat())
+    result = dataset_reader.to_table(dataset)
+    assert result.equals(table)
+
+    compressed_file = basedir / "data.arrow" / "part-0.arrow"
+    compressed_size = compressed_file.stat().st_size
+    uncompressed_file = uncompressed_basedir / "data.arrow" / "part-0.arrow"
+    uncompressed_size = uncompressed_file.stat().st_size
+    assert compressed_size < uncompressed_size
+
+
 def _create_parquet_dataset_simple(root_path):
     """
     Creates a simple (flat files, no nested partitioning) Parquet dataset
@@ -3599,7 +3772,7 @@ def _check_dataset_roundtrip(dataset, base_dir, expected_files, sort_col,
                              base_dir_path=None, partitioning=None):
     base_dir_path = base_dir_path or base_dir
 
-    ds.write_dataset(dataset, base_dir, format="feather",
+    ds.write_dataset(dataset, base_dir, format="arrow",
                      partitioning=partitioning, use_threads=False)
 
     # check that all files are present
@@ -3608,7 +3781,7 @@ def _check_dataset_roundtrip(dataset, base_dir, expected_files, sort_col,
 
     # check that reading back in as dataset gives the same result
     dataset2 = ds.dataset(
-        base_dir_path, format="feather", partitioning=partitioning)
+        base_dir_path, format="arrow", partitioning=partitioning)
 
     assert _sort_table(dataset2.to_table(), sort_col).equals(
         _sort_table(dataset.to_table(), sort_col))
@@ -3624,12 +3797,12 @@ def test_write_dataset(tempdir):
 
     # full string path
     target = tempdir / 'single-file-target'
-    expected_files = [target / "part-0.feather"]
+    expected_files = [target / "part-0.arrow"]
     _check_dataset_roundtrip(dataset, str(target), expected_files, 'a', target)
 
     # pathlib path object
     target = tempdir / 'single-file-target2'
-    expected_files = [target / "part-0.feather"]
+    expected_files = [target / "part-0.arrow"]
     _check_dataset_roundtrip(dataset, target, expected_files, 'a', target)
 
     # TODO
@@ -3646,7 +3819,7 @@ def test_write_dataset(tempdir):
     dataset = ds.dataset(directory)
 
     target = tempdir / 'single-directory-target'
-    expected_files = [target / "part-0.feather"]
+    expected_files = [target / "part-0.arrow"]
     _check_dataset_roundtrip(dataset, str(target), expected_files, 'a', target)
 
 
@@ -3661,8 +3834,8 @@ def test_write_dataset_partitioned(tempdir):
     # hive partitioning
     target = tempdir / 'partitioned-hive-target'
     expected_paths = [
-        target / "part=a", target / "part=a" / "part-0.feather",
-        target / "part=b", target / "part=b" / "part-0.feather"
+        target / "part=a", target / "part=a" / "part-0.arrow",
+        target / "part=b", target / "part=b" / "part-0.arrow"
     ]
     partitioning_schema = ds.partitioning(
         pa.schema([("part", pa.string())]), flavor="hive")
@@ -3673,8 +3846,8 @@ def test_write_dataset_partitioned(tempdir):
     # directory partitioning
     target = tempdir / 'partitioned-dir-target'
     expected_paths = [
-        target / "a", target / "a" / "part-0.feather",
-        target / "b", target / "b" / "part-0.feather"
+        target / "a", target / "a" / "part-0.arrow",
+        target / "b", target / "b" / "part-0.arrow"
     ]
     partitioning_schema = ds.partitioning(
         pa.schema([("part", pa.string())]))
@@ -4081,8 +4254,8 @@ def test_write_dataset_partitioned_dict(tempdir):
         partitioning=ds.HivePartitioning.discover(infer_dictionary=True))
     target = tempdir / 'partitioned-dir-target'
     expected_paths = [
-        target / "a", target / "a" / "part-0.feather",
-        target / "b", target / "b" / "part-0.feather"
+        target / "a", target / "a" / "part-0.arrow",
+        target / "b", target / "b" / "part-0.arrow"
     ]
     partitioning = ds.partitioning(pa.schema([
         dataset.schema.field('part')]),
@@ -4692,21 +4865,149 @@ def test_dataset_join_collisions(tempdir):
     ], names=["colA", "colB", "colVals", "colB_r", "colVals_r"])
 
 
-@pytest.mark.dataset
-def test_dataset_filter(tempdir):
+@pytest.mark.parametrize('dstype', [
+    "fs", "mem"
+])
+def test_dataset_filter(tempdir, dstype):
     t1 = pa.table({
-        "colA": [1, 2, 6],
-        "col2": ["a", "b", "f"]
+        "colA": [1, 2, 6, 8],
+        "col2": ["a", "b", "f", "g"]
     })
-    ds.write_dataset(t1, tempdir / "t1", format="ipc")
-    ds1 = ds.dataset(tempdir / "t1", format="ipc")
+    if dstype == "fs":
+        ds.write_dataset(t1, tempdir / "t1", format="ipc")
+        ds1 = ds.dataset(tempdir / "t1", format="ipc")
+    elif dstype == "mem":
+        ds1 = ds.dataset(t1)
+    else:
+        raise NotImplementedError
+
+    # Ensure chained filtering works.
+    result = ds1.filter(pc.field("colA") < 3).filter(pc.field("col2") == "a")
+    assert type(result) == (ds.FileSystemDataset if dstype ==
+                            "fs" else ds.InMemoryDataset)
 
-    result = ds1.scanner(filter=pc.field("colA") < 3)
     assert result.to_table() == pa.table({
+        "colA": [1],
+        "col2": ["a"]
+    })
+
+    assert result.head(5) == pa.table({
+        "colA": [1],
+        "col2": ["a"]
+    })
+
+    # Ensure that further filtering with scanners works too
+    r2 = ds1.filter(pc.field("colA") < 8).filter(
+        pc.field("colA") > 1).scanner(filter=pc.field("colA") != 6)
+    assert r2.to_table() == pa.table({
+        "colA": [2],
+        "col2": ["b"]
+    })
+
+    # Ensure that writing back to disk works.
+    ds.write_dataset(result, tempdir / "filtered", format="ipc")
+    filtered = ds.dataset(tempdir / "filtered", format="ipc")
+    assert filtered.to_table() == pa.table({
+        "colA": [1],
+        "col2": ["a"]
+    })
+
+    # Ensure that joining to a filtered Dataset works.
+    joined = result.join(ds.dataset(pa.table({
+        "colB": [10, 20],
+        "col2": ["a", "b"]
+    })), keys="col2", join_type="right outer")
+    assert joined.to_table().sort_by("colB") == pa.table({
+        "colA": [1, None],
+        "colB": [10, 20],
+        "col2": ["a", "b"]
+    })
+
+    # Filter with None doesn't work for now
+    with pytest.raises(TypeError):
+        ds1.filter(None)
+
+    # Can't get fragments of a filtered dataset
+    with pytest.raises(ValueError):
+        result.get_fragments()
+
+    # Ensure replacing schema preserves the filter.
+    schema_without_col2 = ds1.schema.remove(1)
+    newschema = ds1.filter(
+        pc.field("colA") < 3
+    ).replace_schema(schema_without_col2)
+    assert newschema.to_table() == pa.table({
         "colA": [1, 2],
+    })
+    with pytest.raises(pa.ArrowInvalid):
+        # The schema might end up being replaced with
+        # something that makes the filter invalid.
+        # Let's make sure we error nicely.
+        result.replace_schema(schema_without_col2).to_table()
+
+
+@pytest.mark.parametrize('dstype', [
+    "fs", "mem"
+])
+def test_union_dataset_filter(tempdir, dstype):
+    t1 = pa.table({
+        "colA": [1, 2, 6, 8],
+        "col2": ["a", "b", "f", "g"]
+    })
+    t2 = pa.table({
+        "colA": [9, 10, 11],
+        "col2": ["h", "i", "l"]
+    })
+    if dstype == "fs":
+        ds.write_dataset(t1, tempdir / "t1", format="ipc")
+        ds1 = ds.dataset(tempdir / "t1", format="ipc")
+        ds.write_dataset(t2, tempdir / "t2", format="ipc")
+        ds2 = ds.dataset(tempdir / "t2", format="ipc")
+    elif dstype == "mem":
+        ds1 = ds.dataset(t1)
+        ds2 = ds.dataset(t2)
+    else:
+        raise NotImplementedError
+
+    filtered_union_ds = ds.dataset((ds1, ds2)).filter(
+        (pc.field("colA") < 3) | (pc.field("colA") == 9)
+    )
+    assert filtered_union_ds.to_table() == pa.table({
+        "colA": [1, 2, 9],
+        "col2": ["a", "b", "h"]
+    })
+
+    joined = filtered_union_ds.join(ds.dataset(pa.table({
+        "colB": [10, 20],
         "col2": ["a", "b"]
+    })), keys="col2", join_type="left outer")
+    assert joined.to_table().sort_by("colA") == pa.table({
+        "colA": [1, 2, 9],
+        "col2": ["a", "b", "h"],
+        "colB": [10, 20, None]
     })
 
+    filtered_ds1 = ds1.filter(pc.field("colA") < 3)
+    filtered_ds2 = ds2.filter(pc.field("colA") < 10)
+
+    with pytest.raises(ValueError, match="currently not supported"):
+        ds.dataset((filtered_ds1, filtered_ds2))
+
+
+def test_parquet_dataset_filter(tempdir):
+    root_path = tempdir / "test_parquet_dataset_filter"
+    metadata_path, _ = _create_parquet_dataset_simple(root_path)
+    dataset = ds.parquet_dataset(metadata_path)
+
+    result = dataset.to_table()
+    assert result.num_rows == 40
+
+    filtered_ds = dataset.filter(pc.field("f1") < 2)
+    assert filtered_ds.to_table().num_rows == 20
+
+    with pytest.raises(ValueError):
+        filtered_ds.get_fragments()
+
 
 def test_write_dataset_with_scanner_use_projected_schema(tempdir):
     """
@@ -4731,3 +5032,119 @@ def test_write_dataset_with_scanner_use_projected_schema(tempdir):
         ds.write_dataset(
             scanner, tempdir, partitioning=["original_column"], format="ipc"
         )
+
+
+@pytest.mark.parametrize("format", ("ipc", "parquet"))
+def test_read_table_nested_columns(tempdir, format):
+    if format == "parquet":
+        pytest.importorskip("pyarrow.parquet")
+
+    table = pa.table({"user_id": ["abc123", "qrs456"],
+                      "a.dotted.field": [1, 2],
+                      "interaction": [
+        {"type": None, "element": "button",
+         "values": [1, 2], "structs":[{"foo": "bar"}, None]},
+        {"type": "scroll", "element": "window",
+         "values": [None, 3, 4], "structs":[{"fizz": "buzz"}]}
+    ]})
+    ds.write_dataset(table, tempdir / "table", format=format)
+    ds1 = ds.dataset(tempdir / "table", format=format)
+
+    # Dot path to read subsets of nested data
+    table = ds1.to_table(
+        columns=["user_id", "interaction.type", "interaction.values",
+                 "interaction.structs", "a.dotted.field"])
+    assert table.to_pylist() == [
+        {'user_id': 'abc123', 'type': None, 'values': [1, 2],
+         'structs': [{'fizz': None, 'foo': 'bar'}, None], 'a.dotted.field': 1},
+        {'user_id': 'qrs456', 'type': 'scroll', 'values': [None, 3, 4],
+         'structs': [{'fizz': 'buzz', 'foo': None}], 'a.dotted.field': 2}
+    ]
+
+
+def test_dataset_partition_with_slash(tmpdir):
+    from pyarrow import dataset as ds
+
+    path = tmpdir / "slash-writer-x"
+
+    dt_table = pa.Table.from_arrays([
+        pa.array([1, 2, 3, 4, 5], pa.int32()),
+        pa.array(["experiment/A/f.csv", "experiment/B/f.csv",
+                  "experiment/A/f.csv", "experiment/C/k.csv",
+                  "experiment/M/i.csv"], pa.utf8())], ["exp_id", "exp_meta"])
+
+    ds.write_dataset(
+        data=dt_table,
+        base_dir=path,
+        format='ipc',
+        partitioning=['exp_meta'],
+        partitioning_flavor='hive',
+    )
+
+    read_table = ds.dataset(
+        source=path,
+        format='ipc',
+        partitioning='hive',
+        schema=pa.schema([pa.field("exp_id", pa.int32()),
+                          pa.field("exp_meta", pa.utf8())])
+    ).to_table().combine_chunks()
+
+    assert dt_table == read_table.sort_by("exp_id")
+
+    exp_meta = dt_table.column(1).to_pylist()
+    exp_meta = sorted(set(exp_meta))  # take unique
+    encoded_paths = ["exp_meta=" + quote(path, safe='') for path in exp_meta]
+    file_paths = sorted(os.listdir(path))
+
+    assert encoded_paths == file_paths
+
+
+@pytest.mark.parametrize('dstype', [
+    "fs", "mem"
+])
+def test_dataset_sort_by(tempdir, dstype):
+    table = pa.table([
+        pa.array([3, 1, 4, 2, 5]),
+        pa.array(["b", "a", "b", "a", "c"]),
+    ], names=["values", "keys"])
+
+    if dstype == "fs":
+        ds.write_dataset(table, tempdir / "t1", format="ipc")
+        dt = ds.dataset(tempdir / "t1", format="ipc")
+    elif dstype == "mem":
+        dt = ds.dataset(table)
+    else:
+        raise NotImplementedError
+
+    assert dt.sort_by("values").to_table().to_pydict() == {
+        "keys": ["a", "a", "b", "b", "c"],
+        "values": [1, 2, 3, 4, 5]
+    }
+
+    assert dt.sort_by([("values", "descending")]).to_table().to_pydict() == {
+        "keys": ["c", "b", "b", "a", "a"],
+        "values": [5, 4, 3, 2, 1]
+    }
+
+    assert dt.filter((pc.field("values") < 4)).sort_by(
+        "values"
+    ).to_table().to_pydict() == {
+        "keys": ["a", "a", "b"],
+        "values": [1, 2, 3]
+    }
+
+    table = pa.Table.from_arrays([
+        pa.array([5, 7, 7, 35], type=pa.int64()),
+        pa.array(["foo", "car", "bar", "foobar"])
+    ], names=["a", "b"])
+    dt = ds.dataset(table)
+
+    sorted_tab = dt.sort_by([("a", "descending")])
+    sorted_tab_dict = sorted_tab.to_table().to_pydict()
+    assert sorted_tab_dict["a"] == [35, 7, 7, 5]
+    assert sorted_tab_dict["b"] == ["foobar", "car", "bar", "foo"]
+
+    sorted_tab = dt.sort_by([("a", "ascending")])
+    sorted_tab_dict = sorted_tab.to_table().to_pydict()
+    assert sorted_tab_dict["a"] == [5, 7, 7, 35]
+    assert sorted_tab_dict["b"] == ["foo", "car", "bar", "foobar"]
diff --git a/python/pyarrow/tests/test_exec_plan.py b/python/pyarrow/tests/test_exec_plan.py
index 209eed9d258..7875dff5575 100644
--- a/python/pyarrow/tests/test_exec_plan.py
+++ b/python/pyarrow/tests/test_exec_plan.py
@@ -18,6 +18,7 @@
 import pytest
 import pyarrow as pa
 import pyarrow.compute as pc
+from .test_extension_type import IntegerType
 
 try:
     import pyarrow.dataset as ds
@@ -280,3 +281,43 @@ def test_complex_filter_table():
         "a": [2, 4, 6],  # second six must be omitted because 6*10 != 61
         "b": [20, 40, 60]
     })
+
+
+def test_join_extension_array_column():
+    storage = pa.array([1, 2, 3], type=pa.int64())
+    ty = IntegerType()
+    ext_array = pa.ExtensionArray.from_storage(ty, storage)
+    dict_array = pa.DictionaryArray.from_arrays(
+        pa.array([0, 2, 1]), pa.array(['a', 'b', 'c']))
+    t1 = pa.table({
+        "colA": [1, 2, 6],
+        "colB": ext_array,
+        "colVals": ext_array,
+    })
+
+    t2 = pa.table({
+        "colA": [99, 2, 1],
+        "colC": ext_array,
+    })
+
+    t3 = pa.table({
+        "colA": [99, 2, 1],
+        "colC": ext_array,
+        "colD": dict_array,
+    })
+
+    result = ep._perform_join(
+        "left outer", t1, ["colA"], t2, ["colA"])
+    assert result["colVals"] == pa.chunked_array(ext_array)
+
+    result = ep._perform_join(
+        "left outer", t1, ["colB"], t2, ["colC"])
+    assert result["colB"] == pa.chunked_array(ext_array)
+
+    result = ep._perform_join(
+        "left outer", t1, ["colA"], t3, ["colA"])
+    assert result["colVals"] == pa.chunked_array(ext_array)
+
+    result = ep._perform_join(
+        "left outer", t1, ["colB"], t3, ["colC"])
+    assert result["colB"] == pa.chunked_array(ext_array)
diff --git a/python/pyarrow/tests/test_extension_type.py b/python/pyarrow/tests/test_extension_type.py
index 9c5a394f895..f5723491cb4 100644
--- a/python/pyarrow/tests/test_extension_type.py
+++ b/python/pyarrow/tests/test_extension_type.py
@@ -25,6 +25,15 @@
 import pytest
 
 
+class TinyIntType(pa.PyExtensionType):
+
+    def __init__(self):
+        pa.PyExtensionType.__init__(self, pa.int8())
+
+    def __reduce__(self):
+        return TinyIntType, ()
+
+
 class IntegerType(pa.PyExtensionType):
 
     def __init__(self):
@@ -34,6 +43,15 @@ def __reduce__(self):
         return IntegerType, ()
 
 
+class IntegerEmbeddedType(pa.PyExtensionType):
+
+    def __init__(self):
+        pa.PyExtensionType.__init__(self, IntegerType())
+
+    def __reduce__(self):
+        return IntegerEmbeddedType, ()
+
+
 class UuidScalarType(pa.ExtensionScalar):
     def as_py(self):
         return None if self.value is None else UUID(bytes=self.value.as_py())
@@ -57,7 +75,16 @@ def __init__(self):
         pa.PyExtensionType.__init__(self, pa.binary(16))
 
     def __reduce__(self):
-        return UuidType, ()
+        return UuidType2, ()
+
+
+class LabelType(pa.PyExtensionType):
+
+    def __init__(self):
+        pa.PyExtensionType.__init__(self, pa.string())
+
+    def __reduce__(self):
+        return LabelType, ()
 
 
 class ParamExtType(pa.PyExtensionType):
@@ -517,10 +544,85 @@ def test_cast_kernel_on_extension_arrays():
     assert isinstance(casted, pa.ChunkedArray)
 
 
-def test_casting_to_extension_type_raises():
-    arr = pa.array([1, 2, 3, 4], pa.int64())
-    with pytest.raises(pa.ArrowNotImplementedError):
-        arr.cast(IntegerType())
+@pytest.mark.parametrize("data,ty", (
+    ([1, 2], pa.int32),
+    ([1, 2], pa.int64),
+    (["1", "2"], pa.string),
+    ([b"1", b"2"], pa.binary),
+    ([1.0, 2.0], pa.float32),
+    ([1.0, 2.0], pa.float64)
+))
+def test_casting_to_extension_type(data, ty):
+    arr = pa.array(data, ty())
+    out = arr.cast(IntegerType())
+    assert isinstance(out, pa.ExtensionArray)
+    assert out.type == IntegerType()
+    assert out.to_pylist() == [1, 2]
+
+
+def test_cast_between_extension_types():
+    array = pa.array([1, 2, 3], pa.int8())
+
+    tiny_int_arr = array.cast(TinyIntType())
+    assert tiny_int_arr.type == TinyIntType()
+
+    # Casting between extension types w/ different storage types not okay.
+    msg = ("Casting from 'extension<arrow.py_extension_type<TinyIntType>>' "
+           "to different extension type "
+           "'extension<arrow.py_extension_type<IntegerType>>' not permitted. "
+           "One can first cast to the storage type, "
+           "then to the extension type."
+           )
+    with pytest.raises(TypeError, match=msg):
+        tiny_int_arr.cast(IntegerType())
+    tiny_int_arr.cast(pa.int64()).cast(IntegerType())
+
+    # Between the same extension types is okay
+    array = pa.array([b'1' * 16, b'2' * 16], pa.binary(16)).cast(UuidType())
+    out = array.cast(UuidType())
+    assert out.type == UuidType()
+
+    # Will still fail casting between extensions who share storage type,
+    # can only cast between exactly the same extension types.
+    with pytest.raises(TypeError, match='Casting from *'):
+        array.cast(UuidType2())
+
+
+def test_cast_to_extension_with_extension_storage():
+    # Test casting directly, and IntegerType -> IntegerEmbeddedType
+    array = pa.array([1, 2, 3], pa.int64())
+    array.cast(IntegerEmbeddedType())
+    array.cast(IntegerType()).cast(IntegerEmbeddedType())
+
+
+@pytest.mark.parametrize("data,type_factory", (
+    # list<extension>
+    ([[1, 2, 3]], lambda: pa.list_(IntegerType())),
+    # struct<extension>
+    ([{"foo": 1}], lambda: pa.struct([("foo", IntegerType())])),
+    # list<struct<extension>>
+    ([[{"foo": 1}]], lambda: pa.list_(pa.struct([("foo", IntegerType())]))),
+    # struct<list<extension>>
+    ([{"foo": [1, 2, 3]}], lambda: pa.struct(
+        [("foo", pa.list_(IntegerType()))])),
+))
+def test_cast_nested_extension_types(data, type_factory):
+    ty = type_factory()
+    a = pa.array(data)
+    b = a.cast(ty)
+    assert b.type == ty  # casted to target extension
+    assert b.cast(a.type)  # and can cast back
+
+
+def test_casting_dict_array_to_extension_type():
+    storage = pa.array([b"0123456789abcdef"], type=pa.binary(16))
+    arr = pa.ExtensionArray.from_storage(UuidType(), storage)
+    dict_arr = pa.DictionaryArray.from_arrays(pa.array([0, 0], pa.int32()),
+                                              arr)
+    out = dict_arr.cast(UuidType())
+    assert isinstance(out, pa.ExtensionArray)
+    assert out.to_pylist() == [UUID('30313233-3435-3637-3839-616263646566'),
+                               UUID('30313233-3435-3637-3839-616263646566')]
 
 
 def test_null_storage_type():
@@ -925,3 +1027,55 @@ def test_empty_take():
     result = empty_arr.take(pa.array([], pa.int32()))
     assert len(result) == 0
     assert result.equals(empty_arr)
+
+
+@pytest.mark.parametrize("data,ty", (
+    ([1, 2, 3], IntegerType),
+    (["cat", "dog", "horse"], LabelType)
+))
+@pytest.mark.parametrize("into", ("to_numpy", "to_pandas"))
+def test_extension_array_to_numpy_pandas(data, ty, into):
+    storage = pa.array(data)
+    ext_arr = pa.ExtensionArray.from_storage(ty(), storage)
+    offsets = pa.array([0, 1, 2, 3])
+    list_arr = pa.ListArray.from_arrays(offsets, ext_arr)
+    result = getattr(list_arr, into)(zero_copy_only=False)
+
+    list_arr_storage_type = list_arr.cast(pa.list_(ext_arr.type.storage_type))
+    expected = getattr(list_arr_storage_type, into)(zero_copy_only=False)
+    if into == "to_pandas":
+        assert result.equals(expected)
+    else:
+        assert np.array_equal(result, expected)
+
+
+def test_array_constructor():
+    ext_type = IntegerType()
+    storage = pa.array([1, 2, 3], type=pa.int64())
+    expected = pa.ExtensionArray.from_storage(ext_type, storage)
+
+    result = pa.array([1, 2, 3], type=IntegerType())
+    assert result.equals(expected)
+
+    result = pa.array(np.array([1, 2, 3]), type=IntegerType())
+    assert result.equals(expected)
+
+    result = pa.array(np.array([1.0, 2.0, 3.0]), type=IntegerType())
+    assert result.equals(expected)
+
+
+@pytest.mark.pandas
+def test_array_constructor_from_pandas():
+    import pandas as pd
+
+    ext_type = IntegerType()
+    storage = pa.array([1, 2, 3], type=pa.int64())
+    expected = pa.ExtensionArray.from_storage(ext_type, storage)
+
+    result = pa.array(pd.Series([1, 2, 3]), type=IntegerType())
+    assert result.equals(expected)
+
+    result = pa.array(
+        pd.Series([1, 2, 3], dtype="category"), type=IntegerType()
+    )
+    assert result.equals(expected)
diff --git a/python/pyarrow/tests/test_feather.py b/python/pyarrow/tests/test_feather.py
index 97696fa6a92..fcd9628f76c 100644
--- a/python/pyarrow/tests/test_feather.py
+++ b/python/pyarrow/tests/test_feather.py
@@ -838,3 +838,25 @@ def test_preserve_index_pandas(version):
         expected = df
 
     _check_pandas_roundtrip(df, expected, version=version)
+
+
+@pytest.mark.pandas
+def test_feather_datetime_resolution_arrow_to_pandas(tempdir):
+    # ARROW-17192 - ensure timestamp_as_object=True (together with other
+    # **kwargs) can be passed in read_feather to to_pandas.
+
+    from datetime import datetime
+    df = pd.DataFrame({"date": [
+        datetime.fromisoformat("1654-01-01"),
+        datetime.fromisoformat("1920-01-01"), ],
+    })
+    write_feather(df, tempdir / "test_resolution.feather")
+
+    expected_0 = datetime.fromisoformat("1654-01-01")
+    expected_1 = datetime.fromisoformat("1920-01-01")
+
+    result = read_feather(tempdir / "test_resolution.feather",
+                          timestamp_as_object=True)
+
+    assert expected_0 == result['date'][0]
+    assert expected_1 == result['date'][1]
diff --git a/python/pyarrow/tests/test_filesystem.py b/python/pyarrow/tests/test_filesystem.py
index 33ac4b8517f..9862c5990d7 100644
--- a/python/pyarrow/tests/test_filesystem.py
+++ b/python/pyarrow/tests/test_filesystem.py
@@ -63,6 +63,7 @@ def test_resolve_local_path():
         assert path == uri
 
 
+@pytest.mark.filterwarnings("ignore:pyarrow.filesystem.LocalFileSystem")
 def test_resolve_home_directory():
     uri = '~/myfile.parquet'
     fs, path = filesystem.resolve_filesystem_and_path(uri)
diff --git a/python/pyarrow/tests/test_flight.py b/python/pyarrow/tests/test_flight.py
index 905efa564b0..28ace4f93e3 100644
--- a/python/pyarrow/tests/test_flight.py
+++ b/python/pyarrow/tests/test_flight.py
@@ -1043,6 +1043,11 @@ def do_action(self, context, action):
             return ['foo']
         elif action.type == 'arrow-exception':
             raise pa.ArrowMemoryError()
+        elif action.type == 'forever':
+            def gen():
+                while not context.is_cancelled():
+                    yield b'foo'
+            return gen()
 
 
 def test_do_action_result_convenience():
@@ -1558,11 +1563,33 @@ def block_read():
             assert raised_proper_exception.is_set()
 
 
+def test_streaming_do_action():
+    with ConvenienceServer() as server, \
+            FlightClient(('localhost', server.port)) as client:
+        results = client.do_action(flight.Action('forever', b''))
+        assert next(results).body == b'foo'
+        # Implicit cancel when destructed
+        del results
+
+
 def test_roundtrip_types():
     """Make sure serializable types round-trip."""
+    action = flight.Action("action1", b"action1-body")
+    assert action == flight.Action.deserialize(action.serialize())
+
     ticket = flight.Ticket("foo")
     assert ticket == flight.Ticket.deserialize(ticket.serialize())
 
+    result = flight.Result(b"result1")
+    assert result == flight.Result.deserialize(result.serialize())
+
+    basic_auth = flight.BasicAuth("username1", "password1")
+    assert basic_auth == flight.BasicAuth.deserialize(basic_auth.serialize())
+
+    schema_result = flight.SchemaResult(pa.schema([('a', pa.int32())]))
+    assert schema_result == flight.SchemaResult.deserialize(
+        schema_result.serialize())
+
     desc = flight.FlightDescriptor.for_command("test")
     assert desc == flight.FlightDescriptor.deserialize(desc.serialize())
 
@@ -1589,6 +1616,12 @@ def test_roundtrip_types():
     assert info.total_records == info2.total_records
     assert info.endpoints == info2.endpoints
 
+    endpoint = flight.FlightEndpoint(
+        ticket,
+        ['grpc://test', flight.Location.for_grpc_tcp('localhost', 5005)]
+    )
+    assert endpoint == flight.FlightEndpoint.deserialize(endpoint.serialize())
+
 
 def test_roundtrip_errors():
     """Ensure that Flight errors propagate from server to client."""
@@ -2177,3 +2210,43 @@ def test_interpreter_shutdown():
     See https://issues.apache.org/jira/browse/ARROW-16597.
     """
     util.invoke_script("arrow_16597.py")
+
+
+class TracingFlightServer(FlightServerBase):
+    """A server that echoes back trace context values."""
+
+    def do_action(self, context, action):
+        trace_context = context.get_middleware("tracing").trace_context
+        # Don't turn this method into a generator since then
+        # trace_context will be evaluated after we've exited the scope
+        # of the OTel span (and so the value we want won't be present)
+        return ((f"{key}: {value}").encode("utf-8")
+                for (key, value) in trace_context.items())
+
+
+def test_tracing():
+    with TracingFlightServer(middleware={
+            "tracing": flight.TracingServerMiddlewareFactory(),
+    }) as server, \
+            FlightClient(('localhost', server.port)) as client:
+        # We can't tell if Arrow was built with OpenTelemetry support,
+        # so we can't count on any particular values being there; we
+        # can only ensure things don't blow up either way.
+        options = flight.FlightCallOptions(headers=[
+            # Pretend we have an OTel implementation
+            (b"traceparent", b"00-000ff00f00f0ff000f0f00ff0f00fff0-"
+                             b"000f0000f0f00000-00"),
+            (b"tracestate", b""),
+        ])
+        for value in client.do_action((b"", b""), options=options):
+            pass
+
+
+def test_do_put_does_not_crash_when_schema_is_none():
+    client = FlightClient('grpc+tls://localhost:9643',
+                          disable_server_verification=True)
+    msg = ("Argument 'schema' has incorrect type "
+           r"\(expected pyarrow.lib.Schema, got NoneType\)")
+    with pytest.raises(TypeError, match=msg):
+        client.do_put(flight.FlightDescriptor.for_command('foo'),
+                      schema=None)
diff --git a/python/pyarrow/tests/test_fs.py b/python/pyarrow/tests/test_fs.py
index 238bcb73b6e..59bbb5a3921 100644
--- a/python/pyarrow/tests/test_fs.py
+++ b/python/pyarrow/tests/test_fs.py
@@ -207,8 +207,6 @@ def gcsfs(request, gcs_server):
 
     host, port = gcs_server['connection']
     bucket = 'pyarrow-filesystem/'
-    # Make sure the server is alive.
-    assert gcs_server['process'].poll() is None
 
     fs = GcsFileSystem(
         endpoint_override=f'{host}:{port}',
@@ -217,7 +215,10 @@ def gcsfs(request, gcs_server):
         anonymous=True,
         retry_time_limit=timedelta(seconds=45)
     )
-    fs.create_dir(bucket)
+    try:
+        fs.create_dir(bucket)
+    except OSError as e:
+        pytest.skip(f"Could not create directory in {fs}: {e}")
 
     yield dict(
         fs=fs,
@@ -1093,7 +1094,9 @@ def test_gcs_options():
 
 @pytest.mark.s3
 def test_s3_options():
-    from pyarrow.fs import S3FileSystem
+    from pyarrow.fs import (AwsDefaultS3RetryStrategy,
+                            AwsStandardS3RetryStrategy, S3FileSystem,
+                            S3RetryStrategy)
 
     fs = S3FileSystem(access_key='access', secret_key='secret',
                       session_token='token', region='us-east-2',
@@ -1107,6 +1110,15 @@ def test_s3_options():
     assert isinstance(fs, S3FileSystem)
     assert pickle.loads(pickle.dumps(fs)) == fs
 
+    # Note that the retry strategy won't survive pickling for now
+    fs = S3FileSystem(
+        retry_strategy=AwsStandardS3RetryStrategy(max_attempts=5))
+    assert isinstance(fs, S3FileSystem)
+
+    fs = S3FileSystem(
+        retry_strategy=AwsDefaultS3RetryStrategy(max_attempts=5))
+    assert isinstance(fs, S3FileSystem)
+
     fs2 = S3FileSystem(role_arn='role')
     assert isinstance(fs2, S3FileSystem)
     assert pickle.loads(pickle.dumps(fs2)) == fs2
@@ -1160,6 +1172,8 @@ def test_s3_options():
         S3FileSystem(role_arn="arn", anonymous=True)
     with pytest.raises(ValueError):
         S3FileSystem(default_metadata=["foo", "bar"])
+    with pytest.raises(ValueError):
+        S3FileSystem(retry_strategy=S3RetryStrategy())
 
 
 @pytest.mark.s3
@@ -1303,6 +1317,30 @@ def test_s3_proxy_options(monkeypatch):
                                     'port': 8999})
 
 
+@pytest.mark.s3
+def test_s3fs_wrong_region():
+    from pyarrow.fs import S3FileSystem
+
+    # wrong region for bucket
+    # anonymous=True incase CI/etc has invalid credentials
+    fs = S3FileSystem(region='eu-north-1', anonymous=True)
+
+    msg = ("When getting information for bucket 'voltrondata-labs-datasets': "
+           r"AWS Error UNKNOWN \(HTTP status 301\) during HeadBucket "
+           "operation: No response body. Looks like the configured region is "
+           "'eu-north-1' while the bucket is located in 'us-east-2'."
+           "|NETWORK_CONNECTION")
+    with pytest.raises(OSError, match=msg) as exc:
+        fs.get_file_info("voltrondata-labs-datasets")
+
+    # Sometimes fails on unrelated network error, so next call would also fail.
+    if 'NETWORK_CONNECTION' in str(exc.value):
+        return
+
+    fs = S3FileSystem(region='us-east-2', anonymous=True)
+    fs.get_file_info("voltrondata-labs-datasets")
+
+
 @pytest.mark.hdfs
 def test_hdfs_options(hdfs_connection):
     from pyarrow.fs import HadoopFileSystem
@@ -1382,12 +1420,16 @@ def test_hdfs_options(hdfs_connection):
     ('mock:foo/bar', _MockFileSystem, 'foo/bar'),
     ('mock:/foo/bar', _MockFileSystem, 'foo/bar'),
     ('mock:///foo/bar', _MockFileSystem, 'foo/bar'),
+    ('mock:///some%20path/%C3%A9', _MockFileSystem, 'some path/é'),
     ('file:/', LocalFileSystem, '/'),
     ('file:///', LocalFileSystem, '/'),
     ('file:/foo/bar', LocalFileSystem, '/foo/bar'),
     ('file:///foo/bar', LocalFileSystem, '/foo/bar'),
+    ('file:///some%20path/%C3%A9', LocalFileSystem, '/some path/é'),
+    # no %-decoding for non-URI inputs
     ('/', LocalFileSystem, '/'),
     ('/foo/bar', LocalFileSystem, '/foo/bar'),
+    ('/some path/%20é', LocalFileSystem, '/some path/%20é'),
 ])
 def test_filesystem_from_uri(uri, expected_klass, expected_path):
     fs, path = FileSystem.from_uri(uri)
diff --git a/python/pyarrow/tests/test_gdb.py b/python/pyarrow/tests/test_gdb.py
index 89c42648d24..d0d241cc564 100644
--- a/python/pyarrow/tests/test_gdb.py
+++ b/python/pyarrow/tests/test_gdb.py
@@ -154,7 +154,7 @@ def select_frame(self, func_name):
         # but it's not available on old GDB versions (such as 8.1.1),
         # so instead parse the stack trace for a matching frame number.
         out = self.run_command("info stack")
-        pat = r"(?mi)^#(\d+)\s+.* in " + re.escape(func_name) + " "
+        pat = r"(?mi)^#(\d+)\s+.* in " + re.escape(func_name) + r"\b"
         m = re.search(pat, out)
         if m is None:
             pytest.fail(f"Could not select frame for function {func_name}")
@@ -264,20 +264,6 @@ def test_status(gdb_arrow):
         'detail=[custom-detail-id] "This is a detail"))')
 
 
-def test_string_view(gdb_arrow):
-    check_stack_repr(gdb_arrow, "string_view_empty",
-                     "arrow::util::string_view of size 0")
-    check_stack_repr(gdb_arrow, "string_view_abc",
-                     'arrow::util::string_view of size 3, "abc"')
-    check_stack_repr(
-        gdb_arrow, "string_view_special_chars",
-        r'arrow::util::string_view of size 12, "foo\"bar\000\r\n\t\037"')
-    check_stack_repr(
-        gdb_arrow, "string_view_very_long",
-        'arrow::util::string_view of size 5006, '
-        '"abc", \'K\' <repeats 5000 times>...')
-
-
 def test_buffer_stack(gdb_arrow):
     check_stack_repr(gdb_arrow, "buffer_null",
                      "arrow::Buffer of size 0, read-only")
@@ -297,26 +283,6 @@ def test_buffer_heap(gdb_arrow):
                     'arrow::Buffer of size 3, mutable, "abc"')
 
 
-def test_optionals(gdb_arrow):
-    check_stack_repr(gdb_arrow, "int_optional",
-                     "arrow::util::optional<int>(42)")
-    check_stack_repr(gdb_arrow, "null_int_optional",
-                     "arrow::util::optional<int>(nullopt)")
-
-
-def test_variants(gdb_arrow):
-    check_stack_repr(
-        gdb_arrow, "int_variant",
-        "arrow::util::Variant of index 0 (actual type int), value 42")
-    check_stack_repr(
-        gdb_arrow, "bool_variant",
-        "arrow::util::Variant of index 1 (actual type bool), value false")
-    check_stack_repr(
-        gdb_arrow, "string_variant",
-        re.compile(r'^arrow::util::Variant of index 2 \(actual type '
-                   r'std::.*string.*\), value .*"hello".*'))
-
-
 def test_decimals(gdb_arrow):
     v128 = "98765432109876543210987654321098765432"
     check_stack_repr(gdb_arrow, "decimal128_zero", "arrow::Decimal128(0)")
diff --git a/python/pyarrow/tests/test_io.py b/python/pyarrow/tests/test_io.py
index ca49c5218e8..a6488d70df5 100644
--- a/python/pyarrow/tests/test_io.py
+++ b/python/pyarrow/tests/test_io.py
@@ -719,6 +719,12 @@ def test_compression_level(compression):
     if not Codec.is_available(compression):
         pytest.skip("{} support is not built".format(compression))
 
+    codec = Codec(compression)
+    if codec.name == "snappy":
+        assert codec.compression_level is None
+    else:
+        assert isinstance(codec.compression_level, int)
+
     # These codecs do not support a compression level
     no_level = ['snappy']
     if compression in no_level:
diff --git a/python/pyarrow/tests/test_ipc.py b/python/pyarrow/tests/test_ipc.py
index b7192867dcf..b15edfd4aa0 100644
--- a/python/pyarrow/tests/test_ipc.py
+++ b/python/pyarrow/tests/test_ipc.py
@@ -795,6 +795,12 @@ def test_message_read_from_compressed(example_messages):
         assert result.equals(message)
 
 
+def test_message_read_schema(example_messages):
+    batches, messages = example_messages
+    schema = pa.ipc.read_schema(messages[0])
+    assert schema.equals(batches[1].schema)
+
+
 def test_message_read_record_batch(example_messages):
     batches, messages = example_messages
 
@@ -846,6 +852,7 @@ def run(self):
                     self._batches.append(batch)
         finally:
             connection.close()
+            self._sock.close()
 
     def get_result(self):
         return (self._schema, self._table if self._do_read_all
@@ -945,6 +952,45 @@ def test_ipc_zero_copy_numpy():
     assert_frame_equal(df, rdf)
 
 
+@pytest.mark.pandas
+@pytest.mark.parametrize("ipc_type", ["stream", "file"])
+def test_batches_with_custom_metadata_roundtrip(ipc_type):
+    df = pd.DataFrame({'foo': [1.5]})
+
+    batch = pa.RecordBatch.from_pandas(df)
+    sink = pa.BufferOutputStream()
+
+    batch_count = 2
+    file_factory = {"stream": pa.ipc.new_stream,
+                    "file": pa.ipc.new_file}[ipc_type]
+
+    with file_factory(sink, batch.schema) as writer:
+        for i in range(batch_count):
+            writer.write_batch(batch, custom_metadata={"batch_id": str(i)})
+        # write a batch without custom metadata
+        writer.write_batch(batch)
+
+    buffer = sink.getvalue()
+
+    if ipc_type == "stream":
+        with pa.ipc.open_stream(buffer) as reader:
+            batch_with_metas = list(reader.iter_batches_with_custom_metadata())
+    else:
+        with pa.ipc.open_file(buffer) as reader:
+            batch_with_metas = [reader.get_batch_with_custom_metadata(i)
+                                for i in range(reader.num_record_batches)]
+
+    for i in range(batch_count):
+        assert batch_with_metas[i].batch.num_rows == 1
+        assert isinstance(
+            batch_with_metas[i].custom_metadata, pa.KeyValueMetadata)
+        assert batch_with_metas[i].custom_metadata == {"batch_id": str(i)}
+
+    # the last batch has no custom metadata
+    assert batch_with_metas[batch_count].batch.num_rows == 1
+    assert batch_with_metas[batch_count].custom_metadata is None
+
+
 def test_ipc_stream_no_batches():
     # ARROW-2307
     table = pa.Table.from_arrays([pa.array([1, 2, 3, 4]),
@@ -1142,8 +1188,8 @@ def make_batches():
     batches = UserList(make_batches())  # weakrefable
     wr = weakref.ref(batches)
 
-    with pa.ipc.RecordBatchReader.from_batches(make_schema(),
-                                               batches) as reader:
+    with pa.RecordBatchReader.from_batches(make_schema(),
+                                           batches) as reader:
         batches = None
         assert wr() is not None
         assert list(reader) == make_batches()
@@ -1153,9 +1199,21 @@ def make_batches():
     batches = iter(UserList(make_batches()))  # weakrefable
     wr = weakref.ref(batches)
 
-    with pa.ipc.RecordBatchReader.from_batches(make_schema(),
-                                               batches) as reader:
+    with pa.RecordBatchReader.from_batches(make_schema(),
+                                           batches) as reader:
         batches = None
         assert wr() is not None
         assert list(reader) == make_batches()
         assert wr() is None
+
+    # ensure we get proper error when not passing a schema
+    # (https://issues.apache.org/jira/browse/ARROW-18229)
+    batches = make_batches()
+    with pytest.raises(TypeError):
+        reader = pa.RecordBatchReader.from_batches(
+            [('field', pa.int64())], batches)
+        pass
+
+    with pytest.raises(TypeError):
+        reader = pa.RecordBatchReader.from_batches(None, batches)
+        pass
diff --git a/python/pyarrow/tests/test_json.py b/python/pyarrow/tests/test_json.py
index d2972725779..f37019ade57 100644
--- a/python/pyarrow/tests/test_json.py
+++ b/python/pyarrow/tests/test_json.py
@@ -16,6 +16,7 @@
 # under the License.
 
 from collections import OrderedDict
+from decimal import Decimal
 import io
 import itertools
 import json
@@ -243,6 +244,21 @@ def test_reconcile_accross_blocks(self):
             # Check that the issue was exercised
             assert table.column("a").num_chunks > 1
 
+    def test_explicit_schema_decimal(self):
+        rows = (b'{"a": 1}\n'
+                b'{"a": 1.45}\n'
+                b'{"a": -23.456}\n'
+                b'{}\n')
+        expected = {
+            'a': [Decimal("1"), Decimal("1.45"), Decimal("-23.456"), None],
+        }
+        for type_factory in (pa.decimal128, pa.decimal256):
+            schema = pa.schema([('a', type_factory(9, 4))])
+            opts = ParseOptions(explicit_schema=schema)
+            table = self.read_bytes(rows, parse_options=opts)
+            assert table.schema == schema
+            assert table.to_pydict() == expected
+
     def test_explicit_schema_with_unexpected_behaviour(self):
         # infer by default
         rows = (b'{"foo": "bar", "num": 0}\n'
diff --git a/python/pyarrow/tests/test_orc.py b/python/pyarrow/tests/test_orc.py
index 866cc01452b..1b467d52330 100644
--- a/python/pyarrow/tests/test_orc.py
+++ b/python/pyarrow/tests/test_orc.py
@@ -52,8 +52,10 @@ def fix_example_values(actual_cols, expected_cols):
         if (name == "map" and
                 [d.keys() == {'key', 'value'} for m in expected for d in m]):
             # convert [{'key': k, 'value': v}, ...] to [(k, v), ...]
+            col = expected_cols[name].copy()
             for i, m in enumerate(expected):
-                expected_cols[name][i] = [(d['key'], d['value']) for d in m]
+                col[i] = [(d['key'], d['value']) for d in m]
+            expected_cols[name] = col
             continue
 
         typ = actual[0].__class__
@@ -626,7 +628,6 @@ def test_wrong_usage_orc_writer(tempdir):
 
 def test_orc_writer_with_null_arrays(tempdir):
     from pyarrow import orc
-    import pyarrow as pa
 
     path = str(tempdir / 'test.orc')
     a = pa.array([1, None, 3, None])
diff --git a/python/pyarrow/tests/test_pandas.py b/python/pyarrow/tests/test_pandas.py
index ed872bc58ba..4d0ddf87547 100644
--- a/python/pyarrow/tests/test_pandas.py
+++ b/python/pyarrow/tests/test_pandas.py
@@ -20,6 +20,7 @@
 import json
 import multiprocessing as mp
 import sys
+import warnings
 
 from collections import OrderedDict
 from datetime import date, datetime, time, timedelta, timezone
@@ -69,7 +70,7 @@ def _alltypes_example(size=100):
         # TODO(wesm): Pandas only support ns resolution, Arrow supports s, ms,
         # us, ns
         'datetime': np.arange("2016-01-01T00:00:00.001", size,
-                              dtype='datetime64[ms]'),
+                              dtype='datetime64[ms]').astype("datetime64[ns]"),
         'str': [str(x) for x in range(size)],
         'str_with_nulls': [None] + [str(x) for x in range(size - 2)] + [None],
         'empty_str': [''] * size
@@ -95,9 +96,12 @@ def _check_pandas_roundtrip(df, expected=None, use_threads=False,
     if expected is None:
         expected = df
 
-    tm.assert_frame_equal(result, expected, check_dtype=check_dtype,
-                          check_index_type=('equiv' if preserve_index
-                                            else False))
+    with warnings.catch_warnings():
+        warnings.filterwarnings(
+            "ignore", "elementwise comparison failed", DeprecationWarning)
+        tm.assert_frame_equal(result, expected, check_dtype=check_dtype,
+                              check_index_type=('equiv' if preserve_index
+                                                else False))
 
 
 def _check_series_roundtrip(s, type_=None, expected_pa_type=None):
@@ -183,6 +187,10 @@ def test_column_index_names_are_preserved(self):
         _check_pandas_roundtrip(df, preserve_index=True)
 
     def test_column_index_names_with_tz(self):
+        if Version("2.0.0.dev0") <= Version(pd.__version__) < Version("2.0.0"):
+            # TODO: regression in pandas, should be fixed before final 2.0.0
+            # https://github.com/pandas-dev/pandas/issues/50140
+            pytest.skip("Regression in pandas 2.0.0.dev")
         # ARROW-13756
         # Bug if index is timezone aware DataTimeIndex
 
@@ -239,11 +247,10 @@ def test_rangeindex_doesnt_warn(self):
         # attributes -> can be removed if support < pd 0.25 is dropped
         df = pd.DataFrame(np.random.randn(4, 2), columns=['a', 'b'])
 
-        with pytest.warns(None) as record:
+        with warnings.catch_warnings():
+            warnings.simplefilter(action="error")
             _check_pandas_roundtrip(df, preserve_index=True)
 
-        assert len(record) == 0, [r.message for r in record]
-
     def test_multiindex_columns(self):
         columns = pd.MultiIndex.from_arrays([
             ['one', 'two'], ['X', 'Y']
@@ -290,11 +297,10 @@ def test_multiindex_doesnt_warn(self):
         columns = pd.MultiIndex.from_arrays([['one', 'two'], ['X', 'Y']])
         df = pd.DataFrame([(1, 'a'), (2, 'b'), (3, 'c')], columns=columns)
 
-        with pytest.warns(None) as record:
+        with warnings.catch_warnings():
+            warnings.simplefilter(action="error")
             _check_pandas_roundtrip(df, preserve_index=True)
 
-        assert len(record) == 0, [r.message for r in record]
-
     def test_integer_index_column(self):
         df = pd.DataFrame([(1, 'a'), (2, 'b'), (3, 'c')])
         _check_pandas_roundtrip(df, preserve_index=True)
@@ -447,6 +453,11 @@ def test_mixed_column_names(self):
                                         preserve_index=True)
 
     def test_binary_column_name(self):
+        if Version("2.0.0.dev0") <= Version(pd.__version__) < Version("2.0.0"):
+            # TODO: regression in pandas, should be fixed before final 2.0.0
+            # https://issues.apache.org/jira/browse/ARROW-18394
+            # https://github.com/pandas-dev/pandas/issues/50127
+            pytest.skip("Regression in pandas 2.0.0.dev")
         column_data = ['い']
         key = 'あ'.encode()
         data = {key: column_data}
@@ -1016,7 +1027,7 @@ def test_timestamps_with_timezone(self):
                 '2007-07-13T01:23:34.123',
                 '2006-01-13T12:34:56.432',
                 '2010-08-13T05:46:57.437'],
-                dtype='datetime64[ms]')
+                dtype='datetime64[ms]').astype("datetime64[ns]")
         })
         df['datetime64'] = df['datetime64'].dt.tz_localize('US/Eastern')
         _check_pandas_roundtrip(df)
@@ -1071,13 +1082,10 @@ def test_python_datetime_with_timezone_tzinfo(self):
         pytz = pytest.importorskip("pytz")
         from datetime import timezone
 
-        if Version(pd.__version__) > Version("0.25.0"):
-            # older pandas versions fail on datetime.timezone.utc (as in input)
-            # vs pytz.UTC (as in result)
-            values = [datetime(2018, 1, 1, 12, 23, 45, tzinfo=timezone.utc)]
-            # also test with index to ensure both paths roundtrip (ARROW-9962)
-            df = pd.DataFrame({'datetime': values}, index=values)
-            _check_pandas_roundtrip(df, preserve_index=True)
+        values = [datetime(2018, 1, 1, 12, 23, 45, tzinfo=timezone.utc)]
+        # also test with index to ensure both paths roundtrip (ARROW-9962)
+        df = pd.DataFrame({'datetime': values}, index=values)
+        _check_pandas_roundtrip(df, preserve_index=True)
 
         # datetime.timezone is going to be pytz.FixedOffset
         hours = 1
@@ -1497,7 +1505,11 @@ def test_fixed_offset_timezone(self):
                 pd.NaT
             ]
         })
-        _check_pandas_roundtrip(df)
+        # 'check_dtype=False' because pandas >= 2 uses datetime.timezone
+        # instead of pytz.FixedOffset, and thus the dtype is not exactly
+        # identical (pyarrow still defaults to pytz)
+        # TODO remove if https://github.com/apache/arrow/issues/15047 is fixed
+        _check_pandas_roundtrip(df, check_dtype=False)
         _check_serialize_components_roundtrip(df)
 
     def test_timedeltas_no_nulls(self):
@@ -2052,6 +2064,11 @@ def test_nested_smaller_ints(self):
         assert result3.equals(expected3)
 
     def test_infer_lists(self):
+        if ((Version(np.__version__) >= Version("1.25.0.dev0")) and
+                (Version(pd.__version__) < Version("2.0.0"))):
+            # TODO: regression in pandas with numpy 1.25dev
+            # https://github.com/pandas-dev/pandas/issues/50360
+            pytest.skip("Regression in pandas with numpy 1.25")
         data = OrderedDict([
             ('nan_ints', [[None, 1], [2, 3]]),
             ('ints', [[0, 1], [2, 3]]),
@@ -2101,6 +2118,11 @@ def test_infer_numpy_array(self):
         _check_pandas_roundtrip(df, expected_schema=expected_schema)
 
     def test_to_list_of_structs_pandas(self):
+        if ((Version(np.__version__) >= Version("1.25.0.dev0")) and
+                (Version(pd.__version__) < Version("2.0.0"))):
+            # TODO: regression in pandas with numpy 1.25dev
+            # https://github.com/pandas-dev/pandas/issues/50360
+            pytest.skip("Regression in pandas with numpy 1.25")
         ints = pa.array([1, 2, 3], pa.int32())
         strings = pa.array([['a', 'b'], ['c', 'd'], ['e', 'f']],
                            pa.list_(pa.string()))
@@ -2114,7 +2136,13 @@ def test_to_list_of_structs_pandas(self):
         ])
 
         series = pd.Series(data.to_pandas())
-        tm.assert_series_equal(series, expected)
+
+        # pandas.testing generates a
+        # DeprecationWarning: elementwise comparison failed
+        with warnings.catch_warnings():
+            warnings.filterwarnings("ignore", "elementwise comparison failed",
+                                    DeprecationWarning)
+            tm.assert_series_equal(series, expected)
 
     @pytest.mark.parametrize('t,data,expected', [
         (
@@ -2164,12 +2192,24 @@ def test_array_from_nested_arrays(self):
             assert result.equals(expected)
 
     def test_nested_large_list(self):
+        if ((Version(np.__version__) >= Version("1.25.0.dev0")) and
+                (Version(pd.__version__) < Version("2.0.0"))):
+            # TODO: regression in pandas with numpy 1.25dev
+            # https://github.com/pandas-dev/pandas/issues/50360
+            pytest.skip("Regression in pandas with numpy 1.25")
         s = (pa.array([[[1, 2, 3], [4]], None],
                       type=pa.large_list(pa.large_list(pa.int64())))
              .to_pandas())
-        tm.assert_series_equal(
-            s, pd.Series([[[1, 2, 3], [4]], None], dtype=object),
-            check_names=False)
+
+        with warnings.catch_warnings():
+            warnings.filterwarnings("ignore",
+                                    "Creating an ndarray from ragged nested",
+                                    np.VisibleDeprecationWarning)
+            warnings.filterwarnings("ignore", "elementwise comparison failed",
+                                    DeprecationWarning)
+            tm.assert_series_equal(
+                s, pd.Series([[[1, 2, 3], [4]], None], dtype=object),
+                check_names=False)
 
     def test_large_binary_list(self):
         for list_type_factory in (pa.list_, pa.large_list):
@@ -2268,6 +2308,51 @@ def test_map_array_dictionary_encoded(self):
         actual = arr.to_pandas()
         tm.assert_series_equal(actual, expected, check_names=False)
 
+    def test_list_no_duplicate_base(self):
+        # ARROW-18400
+        arr = pa.array([[1, 2], [3, 4, 5], None, [6, None], [7, 8]])
+        chunked_arr = pa.chunked_array([arr.slice(0, 3), arr.slice(3, 1)])
+
+        np_arr = chunked_arr.to_numpy()
+
+        expected = np.array([[1., 2.], [3., 4., 5.], None,
+                            [6., np.NaN]], dtype="object")
+        for left, right in zip(np_arr, expected):
+            if right is None:
+                assert left == right
+            else:
+                npt.assert_array_equal(left, right)
+
+        expected_base = np.array([[1., 2., 3., 4., 5., 6., np.NaN]])
+        npt.assert_array_equal(np_arr[0].base, expected_base)
+
+        np_arr_sliced = chunked_arr.slice(1, 3).to_numpy()
+
+        expected = np.array([[3, 4, 5], None, [6, np.NaN]], dtype="object")
+        for left, right in zip(np_arr_sliced, expected):
+            if right is None:
+                assert left == right
+            else:
+                npt.assert_array_equal(left, right)
+
+        expected_base = np.array([[3., 4., 5., 6., np.NaN]])
+        npt.assert_array_equal(np_arr_sliced[0].base, expected_base)
+
+    def test_list_values_behind_null(self):
+        arr = pa.ListArray.from_arrays(
+            offsets=pa.array([0, 2, 4, 6]),
+            values=pa.array([1, 2, 99, 99, 3, None]),
+            mask=pa.array([False, True, False])
+        )
+        np_arr = arr.to_numpy(zero_copy_only=False)
+
+        expected = np.array([[1., 2.], None, [3., np.NaN]], dtype="object")
+        for left, right in zip(np_arr, expected):
+            if right is None:
+                assert left == right
+            else:
+                npt.assert_array_equal(left, right)
+
 
 class TestConvertStructTypes:
     """
@@ -2718,7 +2803,7 @@ def test_strided_data_import(self):
         cases.append(boolean_objects)
 
         cases.append(np.arange("2016-01-01T00:00:00.001", N * K,
-                               dtype='datetime64[ms]')
+                               dtype='datetime64[ms]').astype("datetime64[ns]")
                      .reshape(N, K).copy())
 
         strided_mask = (random_numbers > 0).astype(bool)[:, 0]
@@ -2857,18 +2942,20 @@ def _fully_loaded_dataframe_example():
         6: [True, False] * 5,
         7: np.random.randn(10),
         8: np.random.randint(0, 100, size=10),
-        9: pd.period_range('2013', periods=10, freq='M')
+        9: pd.period_range('2013', periods=10, freq='M'),
+        10: pd.interval_range(start=1, freq=1, periods=10),
     }
-
-    if Version(pd.__version__) >= Version('0.21'):
-        # There is an issue with pickling IntervalIndex in pandas 0.20.x
-        data[10] = pd.interval_range(start=1, freq=1, periods=10)
-
     return pd.DataFrame(data, index=index)
 
 
 @pytest.mark.parametrize('columns', ([b'foo'], ['foo']))
 def test_roundtrip_with_bytes_unicode(columns):
+    if Version("2.0.0.dev0") <= Version(pd.__version__) < Version("2.0.0"):
+        # TODO: regression in pandas, should be fixed before final 2.0.0
+        # https://issues.apache.org/jira/browse/ARROW-18394
+        # https://github.com/pandas-dev/pandas/issues/50127
+        pytest.skip("Regression in pandas 2.0.0.dev")
+
     df = pd.DataFrame(columns=columns)
     table1 = pa.Table.from_pandas(df)
     table2 = pa.Table.from_pandas(table1.to_pandas())
@@ -2941,16 +3028,6 @@ class A:
     with pytest.raises(ValueError, match=msg):
         pa.Table.from_pandas(df)
 
-    # period unsupported for pandas <= 0.25
-    if Version(pd.__version__) <= Version('0.25'):
-        df = pd.DataFrame({
-            'a': pd.period_range('2000-01-01', periods=20),
-        })
-
-        msg = 'Conversion failed for column a with type (period|object)'
-        with pytest.raises((TypeError, ValueError), match=msg):
-            pa.Table.from_pandas(df)
-
 
 # ----------------------------------------------------------------------
 # Hypothesis tests
@@ -3813,10 +3890,11 @@ def test_dictionary_from_pandas_specified_type():
     with pytest.raises(pa.ArrowInvalid):
         result = pa.array(cat, type=typ)
 
-    # mismatching order -> raise error (for now a deprecation warning)
+    # mismatching order -> raise error
     typ = pa.dictionary(
         index_type=pa.int8(), value_type=pa.string(), ordered=True)
-    with pytest.warns(FutureWarning, match="The 'ordered' flag of the passed"):
+    msg = "The 'ordered' flag of the passed categorical values "
+    with pytest.raises(ValueError, match=msg):
         result = pa.array(cat, type=typ)
     assert result.to_pylist() == ['a', 'b']
 
@@ -3851,40 +3929,32 @@ def test_dictionary_from_pandas_specified_type():
 
 
 def test_array_protocol():
-    if Version(pd.__version__) < Version('0.24.0'):
-        pytest.skip('IntegerArray only introduced in 0.24')
-
     df = pd.DataFrame({'a': pd.Series([1, 2, None], dtype='Int64')})
 
-    if Version(pd.__version__) < Version('0.26.0.dev'):
-        # with pandas<=0.25, trying to convert nullable integer errors
-        with pytest.raises(TypeError):
-            pa.table(df)
-    else:
-        # __arrow_array__ added to pandas IntegerArray in 0.26.0.dev
+    # __arrow_array__ added to pandas IntegerArray in 0.26.0.dev
 
-        # default conversion
-        result = pa.table(df)
-        expected = pa.array([1, 2, None], pa.int64())
-        assert result[0].chunk(0).equals(expected)
+    # default conversion
+    result = pa.table(df)
+    expected = pa.array([1, 2, None], pa.int64())
+    assert result[0].chunk(0).equals(expected)
 
-        # with specifying schema
-        schema = pa.schema([('a', pa.float64())])
-        result = pa.table(df, schema=schema)
-        expected2 = pa.array([1, 2, None], pa.float64())
-        assert result[0].chunk(0).equals(expected2)
+    # with specifying schema
+    schema = pa.schema([('a', pa.float64())])
+    result = pa.table(df, schema=schema)
+    expected2 = pa.array([1, 2, None], pa.float64())
+    assert result[0].chunk(0).equals(expected2)
 
-        # pass Series to pa.array
-        result = pa.array(df['a'])
-        assert result.equals(expected)
-        result = pa.array(df['a'], type=pa.float64())
-        assert result.equals(expected2)
+    # pass Series to pa.array
+    result = pa.array(df['a'])
+    assert result.equals(expected)
+    result = pa.array(df['a'], type=pa.float64())
+    assert result.equals(expected2)
 
-        # pass actual ExtensionArray to pa.array
-        result = pa.array(df['a'].values)
-        assert result.equals(expected)
-        result = pa.array(df['a'].values, type=pa.float64())
-        assert result.equals(expected2)
+    # pass actual ExtensionArray to pa.array
+    result = pa.array(df['a'].values)
+    assert result.equals(expected)
+    result = pa.array(df['a'].values, type=pa.float64())
+    assert result.equals(expected2)
 
 
 class DummyExtensionType(pa.PyExtensionType):
@@ -3906,9 +3976,6 @@ def PandasArray__arrow_array__(self, type=None):
 def test_array_protocol_pandas_extension_types(monkeypatch):
     # ARROW-7022 - ensure protocol works for Period / Interval extension dtypes
 
-    if Version(pd.__version__) < Version('0.24.0'):
-        pytest.skip('Period/IntervalArray only introduced in 0.24')
-
     storage = pa.array([1, 2, 3], type=pa.int64())
     expected = pa.ExtensionArray.from_storage(DummyExtensionType(), storage)
 
@@ -3955,9 +4022,6 @@ def _Int64Dtype__from_arrow__(self, array):
 
 
 def test_convert_to_extension_array(monkeypatch):
-    if Version(pd.__version__) < Version("0.26.0.dev"):
-        pytest.skip("Conversion from IntegerArray to arrow not yet supported")
-
     import pandas.core.internals as _int
 
     # table converted from dataframe with extension types (so pandas_metadata
@@ -4011,19 +4075,10 @@ def test_conversion_extensiontype_to_extensionarray(monkeypatch):
     # converting extension type to linked pandas ExtensionDtype/Array
     import pandas.core.internals as _int
 
-    if Version(pd.__version__) < Version("0.24.0"):
-        pytest.skip("ExtensionDtype introduced in pandas 0.24")
-
     storage = pa.array([1, 2, 3, 4], pa.int64())
     arr = pa.ExtensionArray.from_storage(MyCustomIntegerType(), storage)
     table = pa.table({'a': arr})
 
-    if Version(pd.__version__) < Version("0.26.0.dev"):
-        # ensure pandas Int64Dtype has the protocol method (for older pandas)
-        monkeypatch.setattr(
-            pd.Int64Dtype, '__from_arrow__', _Int64Dtype__from_arrow__,
-            raising=False)
-
     # extension type points to Int64Dtype, which knows how to create a
     # pandas ExtensionArray
     result = arr.to_pandas()
@@ -4038,9 +4093,7 @@ def test_conversion_extensiontype_to_extensionarray(monkeypatch):
 
     # monkeypatch pandas Int64Dtype to *not* have the protocol method
     # (remove the version added above and the actual version for recent pandas)
-    if Version(pd.__version__) < Version("0.26.0.dev"):
-        monkeypatch.delattr(pd.Int64Dtype, "__from_arrow__")
-    elif Version(pd.__version__) < Version("1.3.0.dev"):
+    if Version(pd.__version__) < Version("1.3.0.dev"):
         monkeypatch.delattr(
             pd.core.arrays.integer._IntegerDtype, "__from_arrow__")
     else:
@@ -4057,9 +4110,6 @@ def test_conversion_extensiontype_to_extensionarray(monkeypatch):
 
 
 def test_to_pandas_extension_dtypes_mapping():
-    if Version(pd.__version__) < Version("0.26.0.dev"):
-        pytest.skip("Conversion to pandas IntegerArray not yet supported")
-
     table = pa.table({'a': pa.array([1, 2, 3], pa.int64())})
 
     # default use numpy dtype
@@ -4101,9 +4151,6 @@ def test_array_to_pandas():
 
 
 def test_roundtrip_empty_table_with_extension_dtype_index():
-    if Version(pd.__version__) < Version("1.0.0"):
-        pytest.skip("ExtensionDtype to_pandas method missing")
-
     df = pd.DataFrame(index=pd.interval_range(start=0, end=3))
     table = pa.table(df)
     table.to_pandas().index == pd.Index([{'left': 0, 'right': 1},
@@ -4115,7 +4162,7 @@ def test_roundtrip_empty_table_with_extension_dtype_index():
 def test_array_to_pandas_types_mapper():
     # https://issues.apache.org/jira/browse/ARROW-9664
     if Version(pd.__version__) < Version("1.2.0"):
-        pytest.skip("ExtensionDtype to_pandas method missing")
+        pytest.skip("Float64Dtype extension dtype missing")
 
     data = pa.array([1, 2, 3], pa.int64())
 
@@ -4139,7 +4186,7 @@ def test_array_to_pandas_types_mapper():
 def test_chunked_array_to_pandas_types_mapper():
     # https://issues.apache.org/jira/browse/ARROW-9664
     if Version(pd.__version__) < Version("1.2.0"):
-        pytest.skip("ExtensionDtype to_pandas method missing")
+        pytest.skip("Float64Dtype extension dtype missing")
 
     data = pa.chunked_array([pa.array([1, 2, 3], pa.int64())])
     assert isinstance(data, pa.ChunkedArray)
@@ -4425,6 +4472,7 @@ def make_df_with_timestamps():
 
 
 @pytest.mark.parquet
+@pytest.mark.filterwarnings("ignore:Parquet format '2.0':FutureWarning")
 def test_timestamp_as_object_parquet(tempdir):
     # Timestamps can be stored as Parquet and reloaded into Pandas with no loss
     # of information if the timestamp_as_object option is True.
@@ -4471,6 +4519,18 @@ def test_timestamp_as_object_non_nanosecond(resolution, tz, dt):
         assert result[0] == expected
 
 
+def test_timestamp_as_object_fixed_offset():
+    # ARROW-16547 to_pandas with timestamp_as_object=True and FixedOffset
+    pytz = pytest.importorskip("pytz")
+    import datetime
+    timezone = pytz.FixedOffset(120)
+    dt = timezone.localize(datetime.datetime(2022, 5, 12, 16, 57))
+
+    table = pa.table({"timestamp_col": pa.array([dt])})
+    result = table.to_pandas(timestamp_as_object=True)
+    assert pa.table(result) == table
+
+
 def test_threaded_pandas_import():
     invoke_script("pandas_threaded_import.py")
 
@@ -4485,3 +4545,16 @@ def test_does_not_mutate_timedelta_dtype():
     t.to_pandas()
 
     assert np.dtype(np.timedelta64) == expected
+
+
+def test_does_not_mutate_timedelta_nested():
+    # ARROW-17893: dataframe with timedelta and a list of dictionary
+    # also with timedelta produces wrong result with to_pandas
+
+    from datetime import timedelta
+    timedelta_1 = [{"timedelta_1": timedelta(seconds=12, microseconds=1)}]
+    timedelta_2 = [timedelta(hours=3, minutes=40, seconds=23)]
+    table = pa.table({"timedelta_1": timedelta_1, "timedelta_2": timedelta_2})
+    df = table.to_pandas()
+
+    assert df["timedelta_2"][0].to_pytimedelta() == timedelta_2[0]
diff --git a/python/pyarrow/tests/test_plasma.py b/python/pyarrow/tests/test_plasma.py
index ed08a687258..9b5862e6483 100644
--- a/python/pyarrow/tests/test_plasma.py
+++ b/python/pyarrow/tests/test_plasma.py
@@ -30,6 +30,14 @@
 import pyarrow as pa
 
 
+pytestmark = [
+    # ignore all Plasma deprecation warnings in this file, we test that the
+    # warnings are actually raised in test_plasma_deprecated.py
+    pytest.mark.filterwarnings("ignore:Plasma:DeprecationWarning"),
+    # Ignore other ResourceWarning as plasma is soon to be removed in ~12.0.0
+    pytest.mark.filterwarnings("ignore:subprocess:ResourceWarning")
+]
+
 DEFAULT_PLASMA_STORE_MEMORY = 10 ** 8
 USE_VALGRIND = os.getenv("PLASMA_VALGRIND") == "1"
 EXTERNAL_STORE = "hashtable://test"
@@ -1071,3 +1079,27 @@ def test_store_capacity():
     with plasma.start_plasma_store(plasma_store_memory=10000) as (name, p):
         plasma_client = plasma.connect(name)
         assert plasma_client.store_capacity() == 10000
+
+
+@pytest.mark.plasma
+def test_plasma_deprecated():
+    import pyarrow.plasma as plasma
+
+    plasma_store_ctx = plasma.start_plasma_store(
+        plasma_store_memory=10 ** 8,
+        use_valgrind=os.getenv("PLASMA_VALGRIND") == "1")
+
+    with pytest.warns(DeprecationWarning):
+        with plasma_store_ctx:
+            pass
+
+    plasma_store_ctx = plasma.start_plasma_store(
+        plasma_store_memory=10 ** 8,
+        use_valgrind=os.getenv("PLASMA_VALGRIND") == "1")
+
+    with plasma_store_ctx as (plasma_store_name, _):
+        with pytest.warns(DeprecationWarning):
+            plasma.connect(plasma_store_name)
+
+    with pytest.warns(DeprecationWarning):
+        plasma.ObjectID(20 * b"a")
diff --git a/python/pyarrow/tests/test_scalars.py b/python/pyarrow/tests/test_scalars.py
index 42486c11596..cb5d5df98d4 100644
--- a/python/pyarrow/tests/test_scalars.py
+++ b/python/pyarrow/tests/test_scalars.py
@@ -24,6 +24,7 @@
 import numpy as np
 
 import pyarrow as pa
+import pyarrow.compute as pc
 
 
 @pytest.mark.parametrize(['value', 'ty', 'klass'], [
@@ -67,6 +68,8 @@
 ])
 def test_basics(value, ty, klass):
     s = pa.scalar(value, type=ty)
+    s.validate()
+    s.validate(full=True)
     assert isinstance(s, klass)
     assert s.as_py() == value
     assert s == pa.scalar(value, type=ty)
@@ -92,6 +95,14 @@ def test_basics(value, ty, klass):
     assert wr() is None
 
 
+def test_invalid_scalar():
+    s = pc.cast(pa.scalar(b"\xff"), pa.string(), safe=False)
+    s.validate()
+    with pytest.raises(ValueError,
+                       match="string scalar contains invalid UTF8 data"):
+        s.validate(full=True)
+
+
 def test_null_singleton():
     with pytest.raises(RuntimeError):
         pa.NullScalar()
@@ -230,7 +241,7 @@ def test_date_cast():
         assert result.as_py() == expected
 
 
-def test_time():
+def test_time_from_datetime_time():
     t1 = datetime.time(18, 0)
     t2 = datetime.time(21, 0)
 
@@ -241,6 +252,40 @@ def test_time():
             assert s.as_py() == t
 
 
+@pytest.mark.parametrize(['value', 'time_type'], [
+    (1, pa.time32("s")),
+    (2**30, pa.time32("s")),
+    (None, pa.time32("s")),
+    (1, pa.time32("ms")),
+    (2**30, pa.time32("ms")),
+    (None, pa.time32("ms")),
+    (1, pa.time64("us")),
+    (2**62, pa.time64("us")),
+    (None, pa.time64("us")),
+    (1, pa.time64("ns")),
+    (2**62, pa.time64("ns")),
+    (None, pa.time64("ns")),
+    (1, pa.date32()),
+    (2**30, pa.date32()),
+    (None, pa.date32()),
+    (1, pa.date64()),
+    (2**62, pa.date64()),
+    (None, pa.date64()),
+    (1, pa.timestamp("ns")),
+    (2**62, pa.timestamp("ns")),
+    (None, pa.timestamp("ns")),
+    (1, pa.duration("ns")),
+    (2**62, pa.duration("ns")),
+    (None, pa.duration("ns")),
+    ((1, 2, -3), pa.month_day_nano_interval()),
+    (None, pa.month_day_nano_interval()),
+])
+def test_temporal_values(value, time_type: pa.DataType):
+    time_scalar = pa.scalar(value, type=time_type)
+    time_scalar.validate(full=True)
+    assert time_scalar.value == value
+
+
 def test_cast():
     val = pa.scalar(5, type='int8')
     assert val.cast('int64') == pa.scalar(5, type='int64')
@@ -632,11 +677,6 @@ def test_dictionary():
         assert s.index.equals(i)
         assert s.dictionary.equals(dictionary)
 
-        with pytest.warns(FutureWarning):
-            assert s.index_value.equals(i)
-        with pytest.warns(FutureWarning):
-            assert s.dictionary_value.as_py() == v
-
         restored = pickle.loads(pickle.dumps(s))
         assert restored.equals(s)
 
@@ -651,6 +691,7 @@ def test_union():
         ]
     )
     for s in arr:
+        s.validate(full=True)
         assert isinstance(s, pa.UnionScalar)
         assert s.type.equals(arr.type)
         assert s.is_valid is True
@@ -676,6 +717,7 @@ def test_union():
         ]
     )
     for s in arr:
+        s.validate(full=True)
         assert isinstance(s, pa.UnionScalar)
         assert s.type.equals(arr.type)
         assert s.is_valid is True
diff --git a/python/pyarrow/tests/test_schema.py b/python/pyarrow/tests/test_schema.py
index f26eaaf5fc1..0c4dea673b0 100644
--- a/python/pyarrow/tests/test_schema.py
+++ b/python/pyarrow/tests/test_schema.py
@@ -25,7 +25,6 @@
 import pyarrow as pa
 
 import pyarrow.tests.util as test_util
-from pyarrow.vendored.version import Version
 
 
 def test_schema_constructor_errors():
@@ -659,11 +658,10 @@ def test_schema_from_pandas():
             '2006-01-13T12:34:56.432539784',
             '2010-08-13T05:46:57.437699912'
         ], dtype='datetime64[ns]'),
+        pd.array([1, 2, None], dtype=pd.Int32Dtype()),
     ]
-    if Version(pd.__version__) >= Version('1.0.0'):
-        inputs.append(pd.array([1, 2, None], dtype=pd.Int32Dtype()))
     for data in inputs:
-        df = pd.DataFrame({'a': data})
+        df = pd.DataFrame({'a': data}, index=data)
         schema = pa.Schema.from_pandas(df)
         expected = pa.Table.from_pandas(df).schema
         assert schema == expected
@@ -718,6 +716,10 @@ def test_schema_merge():
     result = pa.unify_schemas((a, b, c))
     assert result.equals(expected)
 
+    # raise proper error when passing a non-Schema value
+    with pytest.raises(TypeError):
+        pa.unify_schemas([a, 1])
+
 
 def test_undecodable_metadata():
     # ARROW-10214: undecodable metadata shouldn't fail repr()
diff --git a/python/pyarrow/tests/test_substrait.py b/python/pyarrow/tests/test_substrait.py
index f05d68a95a1..bd32178feaa 100644
--- a/python/pyarrow/tests/test_substrait.py
+++ b/python/pyarrow/tests/test_substrait.py
@@ -16,7 +16,8 @@
 # under the License.
 
 import os
-import sys
+import pathlib
+
 import pytest
 
 import pyarrow as pa
@@ -40,12 +41,11 @@ def _write_dummy_data_to_disk(tmpdir, file_name, table):
     return path
 
 
-@pytest.mark.skipif(sys.platform == 'win32',
-                    reason="ARROW-16392: file based URI is" +
-                    " not fully supported for Windows")
-def test_run_serialized_query(tmpdir):
+@pytest.mark.parametrize("use_threads", [True, False])
+def test_run_serialized_query(tmpdir, use_threads):
     substrait_query = """
     {
+        "version": { "major": 9999 },
         "relations": [
         {"rel": {
             "read": {
@@ -62,7 +62,7 @@ def test_run_serialized_query(tmpdir):
             "local_files": {
                 "items": [
                 {
-                    "uri_file": "file://FILENAME_PLACEHOLDER",
+                    "uri_file": "FILENAME_PLACEHOLDER",
                     "arrow": {}
                 }
                 ]
@@ -76,16 +76,33 @@ def test_run_serialized_query(tmpdir):
     file_name = "read_data.arrow"
     table = pa.table([[1, 2, 3, 4, 5]], names=['foo'])
     path = _write_dummy_data_to_disk(tmpdir, file_name, table)
-    query = tobytes(substrait_query.replace("FILENAME_PLACEHOLDER", path))
+    query = tobytes(substrait_query.replace(
+        "FILENAME_PLACEHOLDER", pathlib.Path(path).as_uri()))
 
     buf = pa._substrait._parse_json_plan(query)
 
-    reader = substrait.run_query(buf)
+    reader = substrait.run_query(buf, use_threads=use_threads)
     res_tb = reader.read_all()
 
     assert table.select(["foo"]) == res_tb.select(["foo"])
 
 
+@pytest.mark.parametrize("query", (pa.py_buffer(b'buffer'), b"bytes", 1))
+def test_run_query_input_types(tmpdir, query):
+
+    # Passing unsupported type, like int, will not segfault.
+    if not isinstance(query, (pa.Buffer, bytes)):
+        msg = f"Expected 'pyarrow.Buffer' or bytes, got '{type(query)}'"
+        with pytest.raises(TypeError, match=msg):
+            substrait.run_query(query)
+        return
+
+    # Otherwise error for invalid query
+    msg = "ParseFromZeroCopyStream failed for substrait.Plan"
+    with pytest.raises(OSError, match=msg):
+        substrait.run_query(query)
+
+
 def test_invalid_plan():
     query = """
     {
@@ -94,17 +111,16 @@ def test_invalid_plan():
     }
     """
     buf = pa._substrait._parse_json_plan(tobytes(query))
-    exec_message = "Empty substrait plan is passed."
+    exec_message = "No RelRoot in plan"
     with pytest.raises(ArrowInvalid, match=exec_message):
         substrait.run_query(buf)
 
 
-@pytest.mark.skipif(sys.platform == 'win32',
-                    reason="ARROW-16392: file based URI is" +
-                    " not fully supported for Windows")
-def test_binary_conversion_with_json_options(tmpdir):
+@pytest.mark.parametrize("use_threads", [True, False])
+def test_binary_conversion_with_json_options(tmpdir, use_threads):
     substrait_query = """
     {
+        "version": { "major": 9999 },
         "relations": [
         {"rel": {
             "read": {
@@ -121,7 +137,7 @@ def test_binary_conversion_with_json_options(tmpdir):
             "local_files": {
                 "items": [
                 {
-                    "uri_file": "file://FILENAME_PLACEHOLDER",
+                    "uri_file": "FILENAME_PLACEHOLDER",
                     "arrow": {},
                     "metadata" : {
                       "created_by" : {},
@@ -138,10 +154,162 @@ def test_binary_conversion_with_json_options(tmpdir):
     file_name = "binary_json_data.arrow"
     table = pa.table([[1, 2, 3, 4, 5]], names=['bar'])
     path = _write_dummy_data_to_disk(tmpdir, file_name, table)
-    query = tobytes(substrait_query.replace("FILENAME_PLACEHOLDER", path))
+    query = tobytes(substrait_query.replace(
+        "FILENAME_PLACEHOLDER", pathlib.Path(path).as_uri()))
     buf = pa._substrait._parse_json_plan(tobytes(query))
 
-    reader = substrait.run_query(buf)
+    reader = substrait.run_query(buf, use_threads=use_threads)
     res_tb = reader.read_all()
 
     assert table.select(["bar"]) == res_tb.select(["bar"])
+
+
+# Substrait has not finalized what the URI should be for standard functions
+# In the meantime, lets just check the suffix
+def has_function(fns, ext_file, fn_name):
+    suffix = f'{ext_file}#{fn_name}'
+    for fn in fns:
+        if fn.endswith(suffix):
+            return True
+    return False
+
+
+def test_get_supported_functions():
+    supported_functions = pa._substrait.get_supported_functions()
+    # It probably doesn't make sense to exhaustively verfiy this list but
+    # we can check a sample aggregate and a sample non-aggregate entry
+    assert has_function(supported_functions,
+                        'functions_arithmetic.yaml', 'add')
+    assert has_function(supported_functions,
+                        'functions_arithmetic.yaml', 'sum')
+
+
+@pytest.mark.parametrize("use_threads", [True, False])
+def test_named_table(use_threads):
+    test_table_1 = pa.Table.from_pydict({"x": [1, 2, 3]})
+    test_table_2 = pa.Table.from_pydict({"x": [4, 5, 6]})
+
+    def table_provider(names):
+        if not names:
+            raise Exception("No names provided")
+        elif names[0] == "t1":
+            return test_table_1
+        elif names[1] == "t2":
+            return test_table_2
+        else:
+            raise Exception("Unrecognized table name")
+
+    substrait_query = """
+    {
+        "version": { "major": 9999 },
+        "relations": [
+        {"rel": {
+            "read": {
+            "base_schema": {
+                "struct": {
+                "types": [
+                            {"i64": {}}
+                        ]
+                },
+                "names": [
+                        "x"
+                        ]
+            },
+            "namedTable": {
+                    "names": ["t1"]
+            }
+            }
+        }}
+        ]
+    }
+    """
+
+    buf = pa._substrait._parse_json_plan(tobytes(substrait_query))
+    reader = pa.substrait.run_query(
+        buf, table_provider=table_provider, use_threads=use_threads)
+    res_tb = reader.read_all()
+    assert res_tb == test_table_1
+
+
+def test_named_table_invalid_table_name():
+    test_table_1 = pa.Table.from_pydict({"x": [1, 2, 3]})
+
+    def table_provider(names):
+        if not names:
+            raise Exception("No names provided")
+        elif names[0] == "t1":
+            return test_table_1
+        else:
+            raise Exception("Unrecognized table name")
+
+    substrait_query = """
+    {
+        "version": { "major": 9999 },
+        "relations": [
+        {"rel": {
+            "read": {
+            "base_schema": {
+                "struct": {
+                "types": [
+                            {"i64": {}}
+                        ]
+                },
+                "names": [
+                        "x"
+                        ]
+            },
+            "namedTable": {
+                    "names": ["t3"]
+            }
+            }
+        }}
+        ]
+    }
+    """
+
+    buf = pa._substrait._parse_json_plan(tobytes(substrait_query))
+    exec_message = "Invalid NamedTable Source"
+    with pytest.raises(ArrowInvalid, match=exec_message):
+        substrait.run_query(buf, table_provider=table_provider)
+
+
+def test_named_table_empty_names():
+    test_table_1 = pa.Table.from_pydict({"x": [1, 2, 3]})
+
+    def table_provider(names):
+        if not names:
+            raise Exception("No names provided")
+        elif names[0] == "t1":
+            return test_table_1
+        else:
+            raise Exception("Unrecognized table name")
+
+    substrait_query = """
+    {
+        "version": { "major": 9999 },
+        "relations": [
+        {"rel": {
+            "read": {
+            "base_schema": {
+                "struct": {
+                "types": [
+                            {"i64": {}}
+                        ]
+                },
+                "names": [
+                        "x"
+                        ]
+            },
+            "namedTable": {
+                    "names": []
+            }
+            }
+        }}
+        ]
+    }
+    """
+    query = tobytes(substrait_query)
+    buf = pa._substrait._parse_json_plan(tobytes(query))
+    exec_message = "names for NamedTable not provided"
+    with pytest.raises(ArrowInvalid, match=exec_message):
+        substrait.run_query(buf, table_provider=table_provider)
diff --git a/python/pyarrow/tests/test_table.py b/python/pyarrow/tests/test_table.py
index dbd90ac907b..04e2dacc481 100644
--- a/python/pyarrow/tests/test_table.py
+++ b/python/pyarrow/tests/test_table.py
@@ -97,10 +97,7 @@ def test_chunked_array_construction():
     assert len(arr) == 3
     assert len(arr.chunks) == 2
 
-    msg = (
-        "When passing an empty collection of arrays you must also pass the "
-        "data type"
-    )
+    msg = "cannot construct ChunkedArray from empty vector and omitted type"
     with pytest.raises(ValueError, match=msg):
         assert pa.chunked_array([])
 
@@ -143,14 +140,15 @@ def test_chunked_array_to_numpy():
 
 
 def test_chunked_array_mismatch_types():
-    with pytest.raises(TypeError):
+    msg = "chunks must all be same type"
+    with pytest.raises(TypeError, match=msg):
         # Given array types are different
         pa.chunked_array([
             pa.array([1, 2, 3]),
             pa.array([1., 2., 3.])
         ])
 
-    with pytest.raises(TypeError):
+    with pytest.raises(TypeError, match=msg):
         # Given array type is different from explicit type argument
         pa.chunked_array([pa.array([1, 2, 3])], type=pa.float64())
 
@@ -2027,23 +2025,6 @@ def sorted_by_keys(d):
     }
 
 
-def test_table_sort_by():
-    table = pa.table([
-        pa.array([3, 1, 4, 2, 5]),
-        pa.array(["b", "a", "b", "a", "c"]),
-    ], names=["values", "keys"])
-
-    assert table.sort_by("values").to_pydict() == {
-        "keys": ["a", "a", "b", "b", "c"],
-        "values": [1, 2, 3, 4, 5]
-    }
-
-    assert table.sort_by([("values", "descending")]).to_pydict() == {
-        "keys": ["c", "b", "b", "a", "a"],
-        "values": [5, 4, 3, 2, 1]
-    }
-
-
 def test_table_to_recordbatchreader():
     table = pa.Table.from_pydict({'x': [1, 2, 3]})
     reader = table.to_reader()
@@ -2194,3 +2175,67 @@ def test_table_join_many_columns():
         "col6": ["A", "B", None, "Z"],
         "col7": ["A", "B", None, "Z"],
     })
+
+
+def test_table_cast_invalid():
+    # Casting a nullable field to non-nullable should be invalid!
+    table = pa.table({'a': [None, 1], 'b': [None, True]})
+    new_schema = pa.schema([pa.field("a", "int64", nullable=True),
+                            pa.field("b", "bool", nullable=False)])
+    with pytest.raises(ValueError):
+        table.cast(new_schema)
+
+    table = pa.table({'a': [None, 1], 'b': [False, True]})
+    assert table.cast(new_schema).schema == new_schema
+
+
+def test_table_sort_by():
+    table = pa.table([
+        pa.array([3, 1, 4, 2, 5]),
+        pa.array(["b", "a", "b", "a", "c"]),
+    ], names=["values", "keys"])
+
+    assert table.sort_by("values").to_pydict() == {
+        "keys": ["a", "a", "b", "b", "c"],
+        "values": [1, 2, 3, 4, 5]
+    }
+
+    assert table.sort_by([("values", "descending")]).to_pydict() == {
+        "keys": ["c", "b", "b", "a", "a"],
+        "values": [5, 4, 3, 2, 1]
+    }
+
+    tab = pa.Table.from_arrays([
+        pa.array([5, 7, 7, 35], type=pa.int64()),
+        pa.array(["foo", "car", "bar", "foobar"])
+    ], names=["a", "b"])
+
+    sorted_tab = tab.sort_by([("a", "descending")])
+    sorted_tab_dict = sorted_tab.to_pydict()
+    assert sorted_tab_dict["a"] == [35, 7, 7, 5]
+    assert sorted_tab_dict["b"] == ["foobar", "car", "bar", "foo"]
+
+    sorted_tab = tab.sort_by([("a", "ascending")])
+    sorted_tab_dict = sorted_tab.to_pydict()
+    assert sorted_tab_dict["a"] == [5, 7, 7, 35]
+    assert sorted_tab_dict["b"] == ["foo", "car", "bar", "foobar"]
+
+
+def test_record_batch_sort():
+    rb = pa.RecordBatch.from_arrays([
+        pa.array([7, 35, 7, 5], type=pa.int64()),
+        pa.array([4, 1, 3, 2], type=pa.int64()),
+        pa.array(["foo", "car", "bar", "foobar"])
+    ], names=["a", "b", "c"])
+
+    sorted_rb = rb.sort_by([("a", "descending"), ("b", "descending")])
+    sorted_rb_dict = sorted_rb.to_pydict()
+    assert sorted_rb_dict["a"] == [35, 7, 7, 5]
+    assert sorted_rb_dict["b"] == [1, 4, 3, 2]
+    assert sorted_rb_dict["c"] == ["car", "foo", "bar", "foobar"]
+
+    sorted_rb = rb.sort_by([("a", "ascending"), ("b", "ascending")])
+    sorted_rb_dict = sorted_rb.to_pydict()
+    assert sorted_rb_dict["a"] == [5, 7, 7, 35]
+    assert sorted_rb_dict["b"] == [2, 3, 4, 1]
+    assert sorted_rb_dict["c"] == ["foobar", "bar", "foo", "car"]
diff --git a/python/pyarrow/tests/test_types.py b/python/pyarrow/tests/test_types.py
index 8cb7cea6842..c780cd80c79 100644
--- a/python/pyarrow/tests/test_types.py
+++ b/python/pyarrow/tests/test_types.py
@@ -518,6 +518,21 @@ def test_list_type():
     assert ty.value_type == pa.int64()
     assert ty.value_field == pa.field("item", pa.int64(), nullable=True)
 
+    # nullability matters in comparison
+    ty_non_nullable = pa.list_(pa.field("item", pa.int64(), nullable=False))
+    assert ty != ty_non_nullable
+
+    # field names don't matter by default
+    ty_named = pa.list_(pa.field("element", pa.int64()))
+    assert ty == ty_named
+    assert not ty.equals(ty_named, check_metadata=True)
+
+    # metadata doesn't matter by default
+    ty_metadata = pa.list_(
+        pa.field("item", pa.int64(), metadata={"hello": "world"}))
+    assert ty == ty_metadata
+    assert not ty.equals(ty_metadata, check_metadata=True)
+
     with pytest.raises(TypeError):
         pa.list_(None)
 
@@ -540,6 +555,23 @@ def test_map_type():
     assert ty.item_type == pa.int32()
     assert ty.item_field == pa.field("value", pa.int32(), nullable=True)
 
+    # nullability matters in comparison
+    ty_non_nullable = pa.map_(pa.utf8(), pa.field(
+        "value", pa.int32(), nullable=False))
+    assert ty != ty_non_nullable
+
+    # field names don't matter by default
+    ty_named = pa.map_(pa.field("x", pa.utf8(), nullable=False),
+                       pa.field("y", pa.int32()))
+    assert ty == ty_named
+    assert not ty.equals(ty_named, check_metadata=True)
+
+    # metadata doesn't matter by default
+    ty_metadata = pa.map_(pa.utf8(), pa.field(
+        "value", pa.int32(), metadata={"hello": "world"}))
+    assert ty == ty_metadata
+    assert not ty.equals(ty_metadata, check_metadata=True)
+
     with pytest.raises(TypeError):
         pa.map_(None)
     with pytest.raises(TypeError):
@@ -577,14 +609,24 @@ def test_struct_type():
 
     assert ty['b'] == ty[2]
 
+    assert ty['b'] == ty.field('b')
+
+    assert ty[2] == ty.field(2)
+
     # Not found
     with pytest.raises(KeyError):
         ty['c']
 
+    with pytest.raises(KeyError):
+        ty.field('c')
+
     # Neither integer nor string
     with pytest.raises(TypeError):
         ty[None]
 
+    with pytest.raises(TypeError):
+        ty.field(None)
+
     for a, b in zip(ty, fields):
         a == b
 
@@ -634,6 +676,7 @@ def test_union_type():
     def check_fields(ty, fields):
         assert ty.num_fields == len(fields)
         assert [ty[i] for i in range(ty.num_fields)] == fields
+        assert [ty.field(i) for i in range(ty.num_fields)] == fields
 
     fields = [pa.field('x', pa.list_(pa.int32())),
               pa.field('y', pa.binary())]
@@ -846,6 +889,31 @@ def test_decimal_overflow():
             pa.decimal256(i, 0)
 
 
+def test_timedelta_overflow():
+    # microsecond resolution, overflow
+    d = datetime.timedelta(days=-106751992, seconds=71945, microseconds=224192)
+    with pytest.raises(pa.ArrowInvalid):
+        pa.scalar(d)
+
+    # microsecond resolution, overflow
+    d = datetime.timedelta(days=106751991, seconds=14454, microseconds=775808)
+    with pytest.raises(pa.ArrowInvalid):
+        pa.scalar(d)
+
+    # nanosecond resolution, overflow
+    d = datetime.timedelta(days=-106752, seconds=763, microseconds=145224)
+    with pytest.raises(pa.ArrowInvalid):
+        pa.scalar(d, type=pa.duration('ns'))
+
+    # microsecond resolution, not overflow
+    pa.scalar(d, type=pa.duration('us')).as_py() == d
+
+    # second/millisecond resolution, not overflow
+    for d in [datetime.timedelta.min, datetime.timedelta.max]:
+        pa.scalar(d, type=pa.duration('ms')).as_py() == d
+        pa.scalar(d, type=pa.duration('s')).as_py() == d
+
+
 def test_type_equality_operators():
     many_types = get_many_types()
     non_pyarrow = ('foo', 16, {'s', 'e', 't'})
@@ -1120,3 +1188,10 @@ def test_hashing(items):
 
     for i, item in enumerate(items):
         assert container[item] == i
+
+
+def test_types_come_back_with_specific_type():
+    for arrow_type in get_many_types():
+        schema = pa.schema([pa.field("field_name", arrow_type)])
+        type_back = schema.field("field_name").type
+        assert type(type_back) is type(arrow_type)
diff --git a/python/pyarrow/tests/util.py b/python/pyarrow/tests/util.py
index ddeca128791..df7936371ee 100644
--- a/python/pyarrow/tests/util.py
+++ b/python/pyarrow/tests/util.py
@@ -357,18 +357,19 @@ def signal_wakeup_fd(*, warn_on_full_buffer=False):
 
 def _ensure_minio_component_version(component, minimum_year):
     full_args = [component, '--version']
-    proc = subprocess.Popen(full_args, stdout=subprocess.PIPE,
-                            stderr=subprocess.PIPE, encoding='utf-8')
-    if proc.wait(10) != 0:
-        return False
-    stdout = proc.stdout.read()
-    pattern = component + r' version RELEASE\.(\d+)-.*'
-    version_match = re.search(pattern, stdout)
-    if version_match:
-        version_year = version_match.group(1)
-        return int(version_year) >= minimum_year
-    else:
-        raise FileNotFoundError("minio component older than the minimum year")
+    with subprocess.Popen(full_args, stdout=subprocess.PIPE,
+                          stderr=subprocess.PIPE, encoding='utf-8') as proc:
+        if proc.wait(10) != 0:
+            return False
+        stdout = proc.stdout.read()
+        pattern = component + r' version RELEASE\.(\d+)-.*'
+        version_match = re.search(pattern, stdout)
+        if version_match:
+            version_year = version_match.group(1)
+            return int(version_year) >= minimum_year
+        else:
+            raise FileNotFoundError(
+                "minio component older than the minimum year")
 
 
 def _wait_for_minio_startup(mcdir, address, access_key, secret_key):
@@ -385,16 +386,16 @@ def _wait_for_minio_startup(mcdir, address, access_key, secret_key):
 
 def _run_mc_command(mcdir, *args):
     full_args = ['mc', '-C', mcdir] + list(args)
-    proc = subprocess.Popen(full_args, stdout=subprocess.PIPE,
-                            stderr=subprocess.PIPE, encoding='utf-8')
-    retval = proc.wait(10)
-    cmd_str = ' '.join(full_args)
-    print(f'Cmd: {cmd_str}')
-    print(f'  Return: {retval}')
-    print(f'  Stdout: {proc.stdout.read()}')
-    print(f'  Stderr: {proc.stderr.read()}')
-    if retval != 0:
-        raise ChildProcessError("Could not run mc")
+    with subprocess.Popen(full_args, stdout=subprocess.PIPE,
+                          stderr=subprocess.PIPE, encoding='utf-8') as proc:
+        retval = proc.wait(10)
+        cmd_str = ' '.join(full_args)
+        print(f'Cmd: {cmd_str}')
+        print(f'  Return: {retval}')
+        print(f'  Stdout: {proc.stdout.read()}')
+        print(f'  Stderr: {proc.stderr.read()}')
+        if retval != 0:
+            raise ChildProcessError("Could not run mc")
 
 
 def _configure_s3_limited_user(s3_server, policy):
diff --git a/python/pyarrow/types.pxi b/python/pyarrow/types.pxi
index 8407f95c984..dc74c121e6f 100644
--- a/python/pyarrow/types.pxi
+++ b/python/pyarrow/types.pxi
@@ -141,7 +141,9 @@ cdef class DataType(_Weakrefable):
         self.type = type.get()
         self.pep3118_format = _datatype_to_pep3118(self.type)
 
-    cdef Field field(self, int i):
+    cpdef Field field(self, i):
+        if not isinstance(i, int):
+            raise TypeError(f"Expected int index, got type '{type(i)}'")
         cdef int index = <int> _normalize_index(i, self.type.num_fields())
         return pyarrow_wrap_field(self.type.field(index))
 
@@ -157,16 +159,6 @@ cdef class DataType(_Weakrefable):
             raise ValueError("Non-fixed width type")
         return ty.bit_width()
 
-    @property
-    def num_children(self):
-        """
-        The number of child fields.
-        """
-        import warnings
-        warnings.warn("num_children is deprecated, use num_fields",
-                      FutureWarning)
-        return self.num_fields
-
     @property
     def num_fields(self):
         """
@@ -200,22 +192,27 @@ cdef class DataType(_Weakrefable):
         except (TypeError, ValueError):
             return NotImplemented
 
-    def equals(self, other):
+    def equals(self, other, *, check_metadata=False):
         """
         Return true if type is equivalent to passed value.
 
         Parameters
         ----------
         other : DataType or string convertible to DataType
+        check_metadata : bool
+            Whether nested Field metadata equality should be checked as well.
 
         Returns
         -------
         is_equal : bool
         """
-        cdef DataType other_type
+        cdef:
+            DataType other_type
+            c_bool c_check_metadata
 
         other_type = ensure_type(other)
-        return self.type.Equals(deref(other_type.type))
+        c_check_metadata = check_metadata
+        return self.type.Equals(deref(other_type.type), c_check_metadata)
 
     def to_pandas_dtype(self):
         """
@@ -429,12 +426,23 @@ cdef class StructType(DataType):
     Examples
     --------
     >>> import pyarrow as pa
+
+    Accessing fields using direct indexing:
+
     >>> struct_type = pa.struct({'x': pa.int32(), 'y': pa.string()})
     >>> struct_type[0]
     pyarrow.Field<x: int32>
     >>> struct_type['y']
     pyarrow.Field<y: string>
 
+    Accessing fields using ``field()``:
+
+    >>> struct_type.field(1)
+    pyarrow.Field<y: string>
+    >>> struct_type.field('x')
+    pyarrow.Field<x: int32>
+
+    # Creating a schema from the struct type's fields:
     >>> pa.schema(list(struct_type))
     x: int32
     y: string
@@ -494,6 +502,41 @@ cdef class StructType(DataType):
         """
         return self.struct_type.GetFieldIndex(tobytes(name))
 
+    cpdef Field field(self, i):
+        """
+        Select a field by its column name or numeric index.
+
+        Parameters
+        ----------
+        i : int or str
+
+        Returns
+        -------
+        pyarrow.Field
+
+        Examples
+        --------
+
+        >>> import pyarrow as pa
+        >>> struct_type = pa.struct({'x': pa.int32(), 'y': pa.string()})
+
+        Select the second field:
+
+        >>> struct_type.field(1)
+        pyarrow.Field<y: string>
+
+        Select the field named 'x':
+
+        >>> struct_type.field('x')
+        pyarrow.Field<x: int32>
+        """
+        if isinstance(i, (bytes, str)):
+            return self.field_by_name(i)
+        elif isinstance(i, int):
+            return DataType.field(self, i)
+        else:
+            raise TypeError('Expected integer or string index')
+
     def get_all_field_indices(self, name):
         """
         Return sorted list of indices for the fields with the given name.
@@ -525,13 +568,10 @@ cdef class StructType(DataType):
     def __getitem__(self, i):
         """
         Return the struct field with the given index or name.
+
+        Alias of ``field``.
         """
-        if isinstance(i, (bytes, str)):
-            return self.field_by_name(i)
-        elif isinstance(i, int):
-            return self.field(i)
-        else:
-            raise TypeError('Expected integer or string index')
+        return self.field(i)
 
     def __reduce__(self):
         return struct, (list(self),)
@@ -579,9 +619,28 @@ cdef class UnionType(DataType):
         for i in range(len(self)):
             yield self[i]
 
+    cpdef Field field(self, i):
+        """
+        Return a child field by its numeric index.
+
+        Parameters
+        ----------
+        i : int
+
+        Returns
+        -------
+        pyarrow.Field
+        """
+        if isinstance(i, int):
+            return DataType.field(self, i)
+        else:
+            raise TypeError('Expected integer')
+
     def __getitem__(self, i):
         """
         Return a child field by its index.
+
+        Alias of ``field``.
         """
         return self.field(i)
 
@@ -816,7 +875,7 @@ cdef class BaseExtensionType(DataType):
                 f"Expected array or chunked array, got {storage.__class__}")
 
         if not c_storage_type.get().Equals(deref(self.ext_type)
-                                           .storage_type()):
+                                           .storage_type(), False):
             raise TypeError(
                 f"Incompatible storage type for {self}: "
                 f"expected {self.storage_type}, got {storage.type}")
@@ -1253,11 +1312,6 @@ cdef class Field(_Weakrefable):
         else:
             return wrapped
 
-    def add_metadata(self, metadata):
-        warnings.warn("The 'add_metadata' method is deprecated, use "
-                      "'with_metadata' instead", FutureWarning, stacklevel=2)
-        return self.with_metadata(metadata)
-
     def with_metadata(self, metadata):
         """
         Add metadata as dict of string keys and values to Field
@@ -2065,7 +2119,7 @@ cdef class Schema(_Weakrefable):
         Write schema to Buffer:
 
         >>> schema.serialize()
-        <pyarrow.lib.Buffer object at ...>
+        <pyarrow.Buffer address=0x... size=... is_cpu=True is_mutable=True>
         """
         cdef:
             shared_ptr[CBuffer] buffer
@@ -2212,6 +2266,8 @@ def unify_schemas(schemas):
         Schema schema
         vector[shared_ptr[CSchema]] c_schemas
     for schema in schemas:
+        if not isinstance(schema, Schema):
+            raise TypeError("Expected Schema, got {}".format(type(schema)))
         c_schemas.push_back(pyarrow_unwrap_schema(schema))
     return pyarrow_wrap_schema(GetResultValue(UnifySchemas(c_schemas)))
 
@@ -3214,10 +3270,12 @@ def schema(fields, metadata=None):
     >>> import pyarrow as pa
     >>> pa.schema([
     ...     ('some_int', pa.int32()),
-    ...     ('some_string', pa.string())
+    ...     ('some_string', pa.string()),
+    ...     pa.field('some_required_string', pa.string(), nullable=False)
     ... ])
     some_int: int32
     some_string: string
+    some_required_string: string not null
     >>> pa.schema([
     ...     pa.field('some_int', pa.int32()),
     ...     pa.field('some_string', pa.string())
diff --git a/python/pyarrow/util.py b/python/pyarrow/util.py
index 32a9904b732..0e0f3e72650 100644
--- a/python/pyarrow/util.py
+++ b/python/pyarrow/util.py
@@ -39,11 +39,11 @@ def decorator(g):
     return decorator
 
 
-def _deprecate_api(old_name, new_name, api, next_version):
+def _deprecate_api(old_name, new_name, api, next_version, type=FutureWarning):
     msg = _DEPR_MSG.format(old_name, next_version, new_name)
 
     def wrapper(*args, **kwargs):
-        warnings.warn(msg, FutureWarning)
+        warnings.warn(msg, type)
         return api(*args, **kwargs)
     return wrapper
 
diff --git a/python/requirements-wheel-test.txt b/python/requirements-wheel-test.txt
index 1644b2f8bcb..dd07f0358d7 100644
--- a/python/requirements-wheel-test.txt
+++ b/python/requirements-wheel-test.txt
@@ -8,14 +8,19 @@ pytz
 tzdata; sys_platform == 'win32'
 
 numpy==1.19.5; platform_system == "Linux"   and platform_machine == "aarch64" and python_version <  "3.7"
-numpy==1.21.3; platform_system == "Linux"   and platform_machine == "aarch64" and python_version >= "3.7"
+numpy==1.21.3; platform_system == "Linux"   and platform_machine == "aarch64" and python_version >= "3.7" and python_version < "3.11"
+numpy==1.23.4; platform_system == "Linux"   and platform_machine == "aarch64" and python_version >= "3.11"
 numpy==1.19.5; platform_system == "Linux"   and platform_machine != "aarch64" and python_version <  "3.9"
-numpy==1.21.3; platform_system == "Linux"   and platform_machine != "aarch64" and python_version >= "3.9"
-numpy==1.21.3; platform_system == "Darwin"  and platform_machine == "arm64"
+numpy==1.21.3; platform_system == "Linux"   and platform_machine != "aarch64" and python_version >= "3.9" and python_version < "3.11"
+numpy==1.23.4; platform_system == "Linux"   and platform_machine != "aarch64" and python_version >= "3.11"
+numpy==1.21.3; platform_system == "Darwin"  and platform_machine == "arm64"   and python_version <  "3.11"
+numpy==1.23.4; platform_system == "Darwin"  and platform_machine == "arm64"   and python_version >= "3.11"
 numpy==1.19.5; platform_system == "Darwin"  and platform_machine != "arm64"   and python_version <  "3.9"
-numpy==1.21.3; platform_system == "Darwin"  and platform_machine != "arm64"   and python_version >= "3.9"
+numpy==1.21.3; platform_system == "Darwin"  and platform_machine != "arm64"   and python_version >= "3.9" and python_version < "3.11"
+numpy==1.23.4; platform_system == "Darwin"  and platform_machine != "arm64"   and python_version >= "3.11"
 numpy==1.19.5; platform_system == "Windows"                                   and python_version <  "3.9"
-numpy==1.21.3; platform_system == "Windows"                                   and python_version >= "3.9"
+numpy==1.21.3; platform_system == "Windows"                                   and python_version >= "3.9" and python_version < "3.11"
+numpy==1.23.4; platform_system == "Windows"                                   and python_version >= "3.11"
 
 pandas<1.1.0;  platform_system == "Linux"   and platform_machine != "aarch64" and python_version <  "3.8"
 pandas;        platform_system == "Linux"   and platform_machine != "aarch64" and python_version >= "3.8"
diff --git a/python/setup.cfg b/python/setup.cfg
index 9aaad4fa56d..9b36d54fb55 100644
--- a/python/setup.cfg
+++ b/python/setup.cfg
@@ -28,7 +28,12 @@ build-dir  = doc/_build
 addopts = --ignore=scripts
 filterwarnings =
     error:The SparseDataFrame:FutureWarning
+# Get a debug traceback when a test takes a really long time
+faulthandler_timeout = 300
 
 [pep8]
 ignore = E211,E225,E226,E227,E402,W504
-max_line_length = 79
+max_line_length = 88
+
+[flake8]
+max-line-length = 88
diff --git a/python/setup.py b/python/setup.py
index 97e0f07720b..1ba869ee50a 100755
--- a/python/setup.py
+++ b/python/setup.py
@@ -18,13 +18,11 @@
 # under the License.
 
 import contextlib
-import glob
 import os
 import os.path
 from os.path import join as pjoin
 import re
 import shlex
-import shutil
 import sys
 
 if sys.version_info >= (3, 10):
@@ -218,6 +216,7 @@ def initialize_options(self):
         '_feather',
         '_parquet',
         '_parquet_encryption',
+        '_pyarrow_cpp_tests',
         '_orc',
         '_plasma',
         '_gcsfs',
@@ -229,22 +228,29 @@ def initialize_options(self):
 
     def _run_cmake(self):
         # check if build_type is correctly passed / set
-        if self.build_type.lower() not in ('release', 'debug'):
+        if self.build_type.lower() not in ('release', 'debug',
+                                           'relwithdebinfo'):
             raise ValueError("--build-type (or PYARROW_BUILD_TYPE) needs to "
-                             "be 'release' or 'debug'")
+                             "be 'release', 'debug' or 'relwithdebinfo'")
 
         # The directory containing this setup.py
         source = os.path.dirname(os.path.abspath(__file__))
 
         # The staging directory for the module being built
         build_cmd = self.get_finalized_command('build')
-        build_temp = pjoin(os.getcwd(), build_cmd.build_temp)
-        build_lib = pjoin(os.getcwd(), build_cmd.build_lib)
         saved_cwd = os.getcwd()
+        build_temp = pjoin(saved_cwd, build_cmd.build_temp)
+        build_lib = pjoin(saved_cwd, build_cmd.build_lib)
 
         if not os.path.isdir(build_temp):
             self.mkpath(build_temp)
 
+        if self.inplace:
+            # a bit hacky
+            build_lib = saved_cwd
+
+        install_prefix = pjoin(build_lib, "pyarrow")
+
         # Change to the build directory
         with changed_dir(build_temp):
             # Detect if we built elsewhere
@@ -261,12 +267,11 @@ def _run_cmake(self):
                           f"{build_base}.")
                     return
 
-            static_lib_option = ''
-
             cmake_options = [
-                '-DPYTHON_EXECUTABLE=%s' % sys.executable,
-                '-DPython3_EXECUTABLE=%s' % sys.executable,
-                static_lib_option,
+                f'-DCMAKE_INSTALL_PREFIX={install_prefix}',
+                f'-DPYTHON_EXECUTABLE={sys.executable}',
+                f'-DPython3_EXECUTABLE={sys.executable}',
+                f'-DPYARROW_CXXFLAGS={self.cmake_cxxflags}',
             ]
 
             def append_cmake_bool(value, varname):
@@ -294,6 +299,10 @@ def append_cmake_bool(value, varname):
                               'PYARROW_BUNDLE_ARROW_CPP')
             append_cmake_bool(self.bundle_boost,
                               'PYARROW_BUNDLE_BOOST')
+            append_cmake_bool(self.bundle_cython_cpp,
+                              'PYARROW_BUNDLE_CYTHON_CPP')
+            append_cmake_bool(self.bundle_plasma_executable,
+                              'PYARROW_BUNDLE_PLASMA_EXECUTABLE')
             append_cmake_bool(self.generate_coverage,
                               'PYARROW_GENERATE_COVERAGE')
             append_cmake_bool(not self.with_static_boost,
@@ -301,12 +310,12 @@ def append_cmake_bool(value, varname):
             append_cmake_bool(not self.with_static_parquet,
                               'PYARROW_PARQUET_USE_SHARED')
 
-            cmake_options.append('-DCMAKE_BUILD_TYPE={0}'
-                                 .format(self.build_type.lower()))
+            cmake_options.append(
+                f'-DCMAKE_BUILD_TYPE={self.build_type.lower()}')
 
             if self.boost_namespace != 'boost':
-                cmake_options.append('-DBoost_NAMESPACE={}'
-                                     .format(self.boost_namespace))
+                cmake_options.append(
+                    f'-DBoost_NAMESPACE={self.boost_namespace}')
 
             extra_cmake_args = shlex.split(self.extra_cmake_args)
 
@@ -318,128 +327,38 @@ def append_cmake_bool(value, varname):
                 build_tool_args.append('--')
                 if os.environ.get('PYARROW_BUILD_VERBOSE', '0') == '1':
                     cmake_options.append('-DCMAKE_VERBOSE_MAKEFILE=ON')
-                if os.environ.get('PYARROW_PARALLEL'):
-                    build_tool_args.append(
-                        '-j{0}'.format(os.environ['PYARROW_PARALLEL']))
+                parallel = os.environ.get('PYARROW_PARALLEL')
+                if parallel:
+                    build_tool_args.append(f'-j{parallel}')
 
             # Generate the build files
-            print("-- Running cmake for pyarrow")
+            print("-- Running cmake for PyArrow")
             self.spawn(['cmake'] + extra_cmake_args + cmake_options + [source])
-            print("-- Finished cmake for pyarrow")
+            print("-- Finished cmake for PyArrow")
 
-            print("-- Running cmake --build for pyarrow")
+            print("-- Running cmake --build for PyArrow")
             self.spawn(['cmake', '--build', '.', '--config', self.build_type] +
                        build_tool_args)
-            print("-- Finished cmake --build for pyarrow")
-
-            if self.inplace:
-                # a bit hacky
-                build_lib = saved_cwd
-
-            # Move the libraries to the place expected by the Python build
-            try:
-                os.makedirs(pjoin(build_lib, 'pyarrow'))
-            except OSError:
-                pass
-
-            if sys.platform == 'win32':
-                build_prefix = ''
-            else:
-                build_prefix = self.build_type
+            print("-- Finished cmake --build for PyArrow")
 
-            if self.bundle_arrow_cpp or self.bundle_arrow_cpp_headers:
-                print('Bundling includes: ' + pjoin(build_prefix, 'include'))
-                if os.path.exists(pjoin(build_lib, 'pyarrow', 'include')):
-                    shutil.rmtree(pjoin(build_lib, 'pyarrow', 'include'))
-                shutil.move(pjoin(build_prefix, 'include'),
-                            pjoin(build_lib, 'pyarrow'))
+            print("-- Running cmake --build --target install for PyArrow")
+            self.spawn(['cmake', '--build', '.', '--config', self.build_type] +
+                       ['--target', 'install'] + build_tool_args)
+            print("-- Finished cmake --build --target install for PyArrow")
 
-            # Move the built C-extension to the place expected by the Python
-            # build
             self._found_names = []
             for name in self.CYTHON_MODULE_NAMES:
-                built_path = self.get_ext_built(name)
+                built_path = pjoin(install_prefix, name + ext_suffix)
                 if not os.path.exists(built_path):
-                    print('Did not find {0}'.format(built_path))
+                    print(f'Did not find {built_path}')
                     if self._failure_permitted(name):
-                        print('Cython module {0} failure permitted'
-                              .format(name))
+                        print(f'Cython module {name} failure permitted')
                         continue
-                    raise RuntimeError('pyarrow C-extension failed to build:',
+                    raise RuntimeError('PyArrow C-extension failed to build:',
                                        os.path.abspath(built_path))
 
-                # The destination path to move the built C extension to
-                ext_path = pjoin(build_lib, self._get_cmake_ext_path(name))
-                if os.path.exists(ext_path):
-                    os.remove(ext_path)
-                self.mkpath(os.path.dirname(ext_path))
-
-                if self.bundle_cython_cpp:
-                    self._bundle_cython_cpp(name, build_lib)
-
-                print('Moving built C-extension', built_path,
-                      'to build path', ext_path)
-                shutil.move(built_path, ext_path)
                 self._found_names.append(name)
 
-                if os.path.exists(self.get_ext_built_api_header(name)):
-                    shutil.move(self.get_ext_built_api_header(name),
-                                pjoin(os.path.dirname(ext_path),
-                                      name + '_api.h'))
-
-            if self.bundle_arrow_cpp:
-                self._bundle_arrow_cpp(build_prefix, build_lib)
-
-            if self.with_plasma and self.bundle_plasma_executable:
-                # Move the plasma store
-                source = os.path.join(self.build_type, "plasma-store-server")
-                target = os.path.join(build_lib,
-                                      self._get_build_dir(),
-                                      "plasma-store-server")
-                shutil.move(source, target)
-
-    def _bundle_arrow_cpp(self, build_prefix, build_lib):
-        print(pjoin(build_lib, 'pyarrow'))
-        move_shared_libs(build_prefix, build_lib, "arrow")
-        move_shared_libs(build_prefix, build_lib, "arrow_python")
-        if self.with_cuda:
-            move_shared_libs(build_prefix, build_lib, "arrow_cuda")
-        if self.with_substrait:
-            move_shared_libs(build_prefix, build_lib, "arrow_substrait")
-        if self.with_flight:
-            move_shared_libs(build_prefix, build_lib, "arrow_flight")
-            move_shared_libs(build_prefix, build_lib,
-                             "arrow_python_flight")
-        if self.with_dataset:
-            move_shared_libs(build_prefix, build_lib, "arrow_dataset")
-        if self.with_plasma:
-            move_shared_libs(build_prefix, build_lib, "plasma")
-        if self.with_gandiva:
-            move_shared_libs(build_prefix, build_lib, "gandiva")
-        if self.with_parquet and not self.with_static_parquet:
-            move_shared_libs(build_prefix, build_lib, "parquet")
-        if not self.with_static_boost and self.bundle_boost:
-            move_shared_libs(
-                build_prefix, build_lib,
-                "{}_regex".format(self.boost_namespace),
-                implib_required=False)
-
-    def _bundle_cython_cpp(self, name, lib_path):
-        cpp_generated_path = self.get_ext_generated_cpp_source(name)
-        if not os.path.exists(cpp_generated_path):
-            raise RuntimeError('expected to find generated C++ file '
-                               'in {0!r}'.format(cpp_generated_path))
-
-        # The destination path to move the generated C++ source to
-        # (for Cython source coverage)
-        cpp_path = pjoin(lib_path, self._get_build_dir(),
-                         os.path.basename(cpp_generated_path))
-        if os.path.exists(cpp_path):
-            os.remove(cpp_path)
-        print('Moving generated C++ source', cpp_generated_path,
-              'to build path', cpp_path)
-        shutil.move(cpp_generated_path, cpp_path)
-
     def _failure_permitted(self, name):
         if name == '_parquet' and not self.with_parquet:
             return True
@@ -499,18 +418,6 @@ def get_ext_built_api_header(self, name):
         else:
             return pjoin(name + "_api.h")
 
-    def get_ext_built(self, name):
-        if sys.platform == 'win32':
-            head, tail = os.path.split(name)
-            # Visual Studio seems to differ from other generators in
-            # where it places output files.
-            if self.cmake_generator.startswith('Visual Studio'):
-                return pjoin(head, self.build_type, tail + ext_suffix)
-            else:
-                return pjoin(head, tail + ext_suffix)
-        else:
-            return pjoin(self.build_type, name + ext_suffix)
-
     def get_names(self):
         return self._found_names
 
@@ -521,53 +428,9 @@ def get_outputs(self):
                 for name in self.get_names()]
 
 
-def move_shared_libs(build_prefix, build_lib, lib_name,
-                     implib_required=True):
-    if sys.platform == 'win32':
-        # Move all .dll and .lib files
-        libs = [lib_name + '.dll']
-        if implib_required:
-            libs.append(lib_name + '.lib')
-        for filename in libs:
-            shutil.move(pjoin(build_prefix, filename),
-                        pjoin(build_lib, 'pyarrow', filename))
-    else:
-        _move_shared_libs_unix(build_prefix, build_lib, lib_name)
-
-
-def _move_shared_libs_unix(build_prefix, build_lib, lib_name):
-    shared_library_prefix = 'lib'
-    if sys.platform == 'darwin':
-        shared_library_suffix = '.dylib'
-    else:
-        shared_library_suffix = '.so'
-
-    lib_filename = (shared_library_prefix + lib_name +
-                    shared_library_suffix)
-    # Also copy libraries with ABI/SO version suffix
-    if sys.platform == 'darwin':
-        lib_pattern = (shared_library_prefix + lib_name +
-                       ".*" + shared_library_suffix[1:])
-        libs = glob.glob(pjoin(build_prefix, lib_pattern))
-    else:
-        libs = glob.glob(pjoin(build_prefix, lib_filename) + '*')
-
-    if not libs:
-        raise Exception('Could not find library:' + lib_filename +
-                        ' in ' + build_prefix)
-
-    # Longest suffix library should be copied, all others ignored and can be
-    # symlinked later after the library has been installed
-    libs.sort(key=lambda s: -len(s))
-    print(libs, libs[0])
-    lib_filename = os.path.basename(libs[0])
-    shutil.move(pjoin(build_prefix, lib_filename),
-                pjoin(build_lib, 'pyarrow', lib_filename))
-
-
 # If the event of not running from a git clone (e.g. from a git archive
 # or a Python sdist), see if we can set the version number ourselves
-default_version = '10.0.0-SNAPSHOT'
+default_version = '11.0.0'
 if (not os.path.exists('../.git') and
         not os.environ.get('SETUPTOOLS_SCM_PRETEND_VERSION')):
     os.environ['SETUPTOOLS_SCM_PRETEND_VERSION'] = \
@@ -586,7 +449,7 @@ def parse_git(root, **kwargs):
     """
     from setuptools_scm.git import parse
     kwargs['describe_command'] =\
-        'git describe --dirty --tags --long --match "apache-arrow-[0-9].*"'
+        'git describe --dirty --tags --long --match "apache-arrow-[0-9]*.*"'
     return parse(root, **kwargs)
 
 
@@ -622,9 +485,14 @@ def has_ext_modules(foo):
 
 if strtobool(os.environ.get('PYARROW_INSTALL_TESTS', '1')):
     packages = find_namespace_packages(include=['pyarrow*'])
+    exclude_package_data = {}
 else:
     packages = find_namespace_packages(include=['pyarrow*'],
                                        exclude=["pyarrow.tests*"])
+    # setuptools adds back importable packages even when excluded.
+    # https://github.com/pypa/setuptools/issues/3260
+    # https://github.com/pypa/setuptools/issues/3340#issuecomment-1219383976
+    exclude_package_data = {"pyarrow": ["tests*"]}
 
 
 setup(
@@ -633,6 +501,7 @@ def has_ext_modules(foo):
     zip_safe=False,
     package_data={'pyarrow': ['*.pxd', '*.pyx', 'includes/*.pxd']},
     include_package_data=True,
+    exclude_package_data=exclude_package_data,
     distclass=BinaryDistribution,
     # Dummy extension to trigger build_ext
     ext_modules=[Extension('__dummy__', sources=[])],
@@ -664,6 +533,7 @@ def has_ext_modules(foo):
         'Programming Language :: Python :: 3.8',
         'Programming Language :: Python :: 3.9',
         'Programming Language :: Python :: 3.10',
+        'Programming Language :: Python :: 3.11',
     ],
     license='Apache License, Version 2.0',
     maintainer='Apache Arrow Developers',
diff --git a/r/.Rbuildignore b/r/.Rbuildignore
index 7507a85a1b0..b8f768a8372 100644
--- a/r/.Rbuildignore
+++ b/r/.Rbuildignore
@@ -28,3 +28,7 @@ STYLE.md
 ^.lintr
 ^.styler_excludes.R
 ^cheatsheet$
+^revdep$
+^vignettes$
+^PACKAGING\.md$
+^inst/__pycache__$
diff --git a/r/.lintr b/r/.lintr
index 619339afca3..1bd80aff4c6 100644
--- a/r/.lintr
+++ b/r/.lintr
@@ -27,5 +27,6 @@ linters: linters_with_defaults(
   )
 exclusions: list(
   "R/arrowExports.R",
+  "R/dplyr-funcs-doc.R",
   "data-raw/codegen.R"
   )
diff --git a/r/DESCRIPTION b/r/DESCRIPTION
index 308a7ec3faf..9aef5daca74 100644
--- a/r/DESCRIPTION
+++ b/r/DESCRIPTION
@@ -1,10 +1,10 @@
 Package: arrow
 Title: Integration to 'Apache' 'Arrow'
-Version: 9.0.0.9000
+Version: 11.0.0
 Authors@R: c(
-    person("Neal", "Richardson", email = "neal@ursalabs.org", role = c("aut", "cre")),
+    person("Neal", "Richardson", email = "neal.p.richardson@gmail.com", role = c("aut")),
     person("Ian", "Cook", email = "ianmcook@gmail.com", role = c("aut")),
-    person("Nic", "Crane", email = "thisisnic@gmail.com", role = c("aut")),
+    person("Nic", "Crane", email = "thisisnic@gmail.com", role = c("aut", "cre")),
     person("Dewey", "Dunnington", role = c("aut"), email = "dewey@fishandwhistle.net", comment = c(ORCID = "0000-0002-9415-4582")),
     person("Romain", "Fran\u00e7ois", email = "romain@rstudio.com", role = c("aut"), comment = c(ORCID = "0000-0002-2444-4226")),
     person("Jonathan", "Keane", email = "jkeane@gmail.com", role = c("aut")),
@@ -26,24 +26,25 @@ URL: https://github.com/apache/arrow/, https://arrow.apache.org/docs/r/
 BugReports: https://issues.apache.org/jira/projects/ARROW/issues
 Encoding: UTF-8
 Language: en-US
-SystemRequirements: C++11; for AWS S3 support on Linux, libcurl and openssl (optional)
+SystemRequirements: C++17; for AWS S3 support on Linux, libcurl and openssl (optional)
 Biarch: true
 Imports:
     assertthat,
     bit64 (>= 0.9-7),
+    glue,
     methods,
     purrr,
     R6,
-    rlang,
+    rlang (>= 1.0.0),
     stats,
     tidyselect (>= 1.0.0),
     utils,
     vctrs
 Roxygen: list(markdown = TRUE, r6 = FALSE, load = "source")
-RoxygenNote: 7.2.0
+RoxygenNote: 7.2.3
 Config/testthat/edition: 3
-VignetteBuilder: knitr
 Suggests:
+    blob,
     cli,
     DBI,
     dbplyr,
@@ -60,6 +61,7 @@ Suggests:
     rmarkdown,
     stringi,
     stringr,
+    sys,
     testthat (>= 3.1.0),
     tibble,
     tzdb,
@@ -91,6 +93,7 @@ Collate:
     'dataset-scan.R'
     'dataset-write.R'
     'dictionary.R'
+    'dplyr-across.R'
     'dplyr-arrange.R'
     'dplyr-collect.R'
     'dplyr-count.R'
@@ -98,9 +101,12 @@ Collate:
     'dplyr-distinct.R'
     'dplyr-eval.R'
     'dplyr-filter.R'
+    'dplyr-funcs-augmented.R'
     'dplyr-funcs-conditional.R'
     'dplyr-funcs-datetime.R'
+    'dplyr-funcs-doc.R'
     'dplyr-funcs-math.R'
+    'dplyr-funcs-simple.R'
     'dplyr-funcs-string.R'
     'dplyr-funcs-type.R'
     'expression.R'
@@ -110,6 +116,7 @@ Collate:
     'dplyr-join.R'
     'dplyr-mutate.R'
     'dplyr-select.R'
+    'dplyr-slice.R'
     'dplyr-summarize.R'
     'dplyr-union.R'
     'record-batch.R'
@@ -135,4 +142,5 @@ Collate:
     'reexports-bit64.R'
     'reexports-tidyselect.R'
     'schema.R'
+    'udf.R'
     'util.R'
diff --git a/r/Makefile b/r/Makefile
index 1ddbe595dd2..cb76b4c9775 100644
--- a/r/Makefile
+++ b/r/Makefile
@@ -26,6 +26,7 @@ style-all:
 	R -s -e 'styler::style_file(setdiff(dir(pattern = "R$$", recursive = TRUE), source(".styler_excludes.R")$$value))'
 
 doc: style
+	R -s -f data-raw/docgen.R
 	R -s -e 'roxygen2::roxygenize()'
 	-git add --all man/*.Rd
 
diff --git a/r/NAMESPACE b/r/NAMESPACE
index c4c18ba16d7..3df107a2d8f 100644
--- a/r/NAMESPACE
+++ b/r/NAMESPACE
@@ -29,7 +29,9 @@ S3method(as.character,ArrowDatum)
 S3method(as.character,FileFormat)
 S3method(as.character,FragmentScanOptions)
 S3method(as.data.frame,ArrowTabular)
+S3method(as.data.frame,Dataset)
 S3method(as.data.frame,RecordBatchReader)
+S3method(as.data.frame,Schema)
 S3method(as.data.frame,StructArray)
 S3method(as.data.frame,arrow_dplyr_query)
 S3method(as.double,ArrowDatum)
@@ -41,11 +43,15 @@ S3method(as.vector,ArrowDatum)
 S3method(as_arrow_array,Array)
 S3method(as_arrow_array,ChunkedArray)
 S3method(as_arrow_array,Scalar)
+S3method(as_arrow_array,blob)
 S3method(as_arrow_array,data.frame)
 S3method(as_arrow_array,default)
 S3method(as_arrow_array,pyarrow.lib.Array)
+S3method(as_arrow_array,vctrs_list_of)
+S3method(as_arrow_table,Dataset)
 S3method(as_arrow_table,RecordBatch)
 S3method(as_arrow_table,RecordBatchReader)
+S3method(as_arrow_table,Schema)
 S3method(as_arrow_table,Table)
 S3method(as_arrow_table,arrow_dplyr_query)
 S3method(as_arrow_table,data.frame)
@@ -95,12 +101,15 @@ S3method(dimnames,ArrowTabular)
 S3method(head,ArrowDatum)
 S3method(head,ArrowTabular)
 S3method(head,Dataset)
+S3method(head,ExecPlanReader)
 S3method(head,RecordBatchReader)
 S3method(head,Scanner)
 S3method(head,arrow_dplyr_query)
 S3method(infer_type,ArrowDatum)
 S3method(infer_type,Expression)
+S3method(infer_type,blob)
 S3method(infer_type,default)
+S3method(infer_type,vctrs_list_of)
 S3method(is.finite,ArrowDatum)
 S3method(is.infinite,ArrowDatum)
 S3method(is.na,ArrowDatum)
@@ -339,7 +348,10 @@ export(new_extension_type)
 export(null)
 export(num_range)
 export(one_of)
+export(open_csv_dataset)
 export(open_dataset)
+export(open_delim_dataset)
+export(open_tsv_dataset)
 export(read_csv_arrow)
 export(read_delim_arrow)
 export(read_feather)
@@ -390,6 +402,7 @@ importFrom(assertthat,assert_that)
 importFrom(assertthat,is.string)
 importFrom(bit64,print.integer64)
 importFrom(bit64,str.integer64)
+importFrom(glue,glue)
 importFrom(methods,as)
 importFrom(purrr,as_mapper)
 importFrom(purrr,flatten)
@@ -404,6 +417,8 @@ importFrom(purrr,map_dbl)
 importFrom(purrr,map_dfr)
 importFrom(purrr,map_int)
 importFrom(purrr,map_lgl)
+importFrom(purrr,reduce)
+importFrom(purrr,walk)
 importFrom(rlang,"%||%")
 importFrom(rlang,":=")
 importFrom(rlang,.data)
@@ -413,7 +428,10 @@ importFrom(rlang,as_function)
 importFrom(rlang,as_label)
 importFrom(rlang,as_quosure)
 importFrom(rlang,call2)
+importFrom(rlang,call_args)
 importFrom(rlang,caller_env)
+importFrom(rlang,check_dots_empty)
+importFrom(rlang,dots_list)
 importFrom(rlang,dots_n)
 importFrom(rlang,enexpr)
 importFrom(rlang,enexprs)
@@ -424,21 +442,33 @@ importFrom(rlang,env_bind)
 importFrom(rlang,eval_tidy)
 importFrom(rlang,exec)
 importFrom(rlang,expr)
+importFrom(rlang,expr_text)
+importFrom(rlang,f_env)
+importFrom(rlang,f_rhs)
 importFrom(rlang,is_bare_character)
+importFrom(rlang,is_call)
 importFrom(rlang,is_character)
 importFrom(rlang,is_empty)
 importFrom(rlang,is_false)
+importFrom(rlang,is_formula)
 importFrom(rlang,is_integerish)
 importFrom(rlang,is_interactive)
 importFrom(rlang,is_list)
 importFrom(rlang,is_quosure)
+importFrom(rlang,is_symbol)
 importFrom(rlang,list2)
 importFrom(rlang,new_data_mask)
 importFrom(rlang,new_environment)
+importFrom(rlang,new_quosure)
+importFrom(rlang,new_quosures)
+importFrom(rlang,parse_expr)
+importFrom(rlang,quo)
 importFrom(rlang,quo_get_env)
 importFrom(rlang,quo_get_expr)
+importFrom(rlang,quo_is_call)
 importFrom(rlang,quo_is_null)
 importFrom(rlang,quo_name)
+importFrom(rlang,quo_set_env)
 importFrom(rlang,quo_set_expr)
 importFrom(rlang,quos)
 importFrom(rlang,seq2)
@@ -453,9 +483,11 @@ importFrom(stats,na.fail)
 importFrom(stats,na.omit)
 importFrom(stats,na.pass)
 importFrom(stats,quantile)
+importFrom(stats,runif)
 importFrom(tidyselect,all_of)
 importFrom(tidyselect,contains)
 importFrom(tidyselect,ends_with)
+importFrom(tidyselect,eval_rename)
 importFrom(tidyselect,eval_select)
 importFrom(tidyselect,everything)
 importFrom(tidyselect,last_col)
@@ -464,8 +496,6 @@ importFrom(tidyselect,num_range)
 importFrom(tidyselect,one_of)
 importFrom(tidyselect,starts_with)
 importFrom(tidyselect,vars_pull)
-importFrom(tidyselect,vars_rename)
-importFrom(tidyselect,vars_select)
 importFrom(utils,capture.output)
 importFrom(utils,getFromNamespace)
 importFrom(utils,head)
diff --git a/r/NEWS.md b/r/NEWS.md
index c0bad9458d1..e3d9a4a8b2f 100644
--- a/r/NEWS.md
+++ b/r/NEWS.md
@@ -17,7 +17,85 @@
   under the License.
 -->
 
-# arrow 9.0.0.9000
+# arrow 11.0.0
+
+# arrow 10.0.1
+
+Minor improvements and fixes:
+
+* Fixes for failing test after lubridate 1.9 release ([ARROW-18285](https://issues.apache.org/jira/browse/ARROW-18285))
+* Update to ensure compatibility with changes in dev purrr ([ARROW-18305](https://issues.apache.org/jira/browse/ARROW-18305))
+* Fix to correctly handle `.data` pronoun in `dplyr::group_by()` ([ARROW-18131](https://issues.apache.org/jira/browse/ARROW-18131))
+
+# arrow 10.0.0
+
+## Arrow dplyr queries
+
+Several new functions can be used in queries:
+
+* `dplyr::across()` can be used to apply the same computation across multiple
+  columns, and the `where()` selection helper is supported in `across()`;
+* `add_filename()` can be used to get the filename a row came from (only
+  available when querying `?Dataset`);
+* Added five functions in the `slice_*` family: `dplyr::slice_min()`,
+  `dplyr::slice_max()`, `dplyr::slice_head()`, `dplyr::slice_tail()`, and
+  `dplyr::slice_sample()`.
+
+The package now has documentation that lists all `dplyr` methods and R function
+mappings that are supported on Arrow data, along with notes about any
+differences in functionality between queries evaluated in R versus in Acero, the
+Arrow query engine. See `?acero`.
+
+A few new features and bugfixes were implemented for joins:
+
+* Extension arrays are now supported in joins, allowing, for example, joining
+  datasets that contain [geoarrow](https://paleolimbot.github.io/geoarrow/) data.
+* The `keep` argument is now supported, allowing separate columns for the left
+  and right hand side join keys in join output. Full joins now coalesce the
+  join keys (when `keep = FALSE`), avoiding the issue where the join keys would
+  be all `NA` for rows in the right hand side without any matches on the left.
+
+Some changes to improve the consistency of the API:
+
+* In a future release, calling `dplyr::pull()` will return a `?ChunkedArray`
+  instead of an R vector by default. The current default behavior is deprecated.
+  To update to the new behavior now, specify `pull(as_vector = FALSE)` or set
+  `options(arrow.pull_as_vector = FALSE)` globally.
+* Calling `dplyr::compute()` on a query that is grouped returns a `?Table`
+  instead of a query object.
+
+Finally, long-running queries can now be cancelled and will abort their
+computation immediately.
+
+## Arrays and tables
+
+`as_arrow_array()` can now take `blob::blob` and `?vctrs::list_of`, which
+convert to binary and list arrays, respectively. Also fixed an issue where
+`as_arrow_array()` ignored type argument when passed a `StructArray`.
+
+The `unique()` function works on `?Table`, `?RecordBatch`, `?Dataset`, and
+`?RecordBatchReader`.
+
+## Reading and writing
+
+`write_feather()` can take `compression = FALSE` to choose writing uncompressed files.
+
+Also, a breaking change for IPC files in `write_dataset()`: passing
+`"ipc"` or  `"feather"` to `format` will now write files with `.arrow`
+extension instead of `.ipc` or `.feather`.
+
+## Installation
+
+As of version 10.0.0, `arrow` requires C++17 to build. This means that:
+
+* On Windows, you need `R >= 4.0`. Version 9.0.0 was the last version to support
+  R 3.6.
+* On CentOS 7, you can build the latest version of `arrow`,
+  but you first need to install a newer compiler than the default system compiler,
+  gcc 4.8. See `vignette("install", package = "arrow")` for guidance.
+  Note that you only need the newer compiler to build `arrow`:
+  installing a binary package, as from RStudio Package Manager,
+  or loading a package you've already installed works fine with the system defaults.
 
 # arrow 9.0.0
 
@@ -84,7 +162,7 @@
   - are supported on `RecordBatchReader`. This allows, for example, results from DuckDB
   to be streamed back into Arrow rather than materialized before continuing the pipeline.
   - no longer need to materialize the entire result table before writing to a dataset
-    if the query contains contains aggregations or joins.
+    if the query contains aggregations or joins.
   - supports `dplyr::rename_with()`.
   - `dplyr::count()` returns an ungrouped dataframe.
 * `write_dataset()` has more options for controlling row group and file sizes when
@@ -409,7 +487,7 @@ Over 100 functions can now be called on Arrow objects inside a `dplyr` verb:
 ## Python and Flight
 
 * Flight methods `flight_get()` and `flight_put()` (renamed from `push_data()` in this release) can handle both Tables and RecordBatches
-* `flight_put()` gains an `overwrite` argument to optionally check for the existence of a resource with the the same name
+* `flight_put()` gains an `overwrite` argument to optionally check for the existence of a resource with the same name
 * `list_flights()` and `flight_path_exists()` enable you to see available resources on a Flight server
 * `Schema` objects now have `r_to_py` and `py_to_r` methods
 * Schema metadata is correctly preserved when converting Tables to/from Python
diff --git a/r/PACKAGING.md b/r/PACKAGING.md
new file mode 100644
index 00000000000..05f2e56defa
--- /dev/null
+++ b/r/PACKAGING.md
@@ -0,0 +1,136 @@
+
+<!---
+  Licensed to the Apache Software Foundation (ASF) under one
+  or more contributor license agreements.  See the NOTICE file
+  distributed with this work for additional information
+  regarding copyright ownership.  The ASF licenses this file
+  to you under the Apache License, Version 2.0 (the
+  "License"); you may not use this file except in compliance
+  with the License.  You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+  Unless required by applicable law or agreed to in writing,
+  software distributed under the License is distributed on an
+  "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+  KIND, either express or implied.  See the License for the
+  specific language governing permissions and limitations
+  under the License.
+-->
+
+# Packaging checklist for CRAN release
+
+For a high-level overview of the release process see the
+[Apache Arrow Release Management Guide](https://arrow.apache.org/docs/developers/release.html#post-release-tasks).
+
+Before the release candidate is cut:
+
+- [ ] [Create a GitHub issue](https://github.com/apache/arrow/issues/new/)
+  entitled `[R] CRAN packaging checklist for version X.X.X`
+  and copy this checklist to the issue.
+- [ ] Evaluate the status of any failing
+  [nightly tests and nightly packaging builds](http://crossbow.voltrondata.com). These checks
+  replicate most of the checks that CRAN runs, so we need them all to be passing
+  or to understand that the failures may (though won't necessarily) result in a rejection from CRAN.
+- [ ] Check [current CRAN check results](https://cran.rstudio.org/web/checks/check_results_arrow.html)
+- [ ] Ensure the contents of the README are accurate and up to date
+- [ ] Run `urlchecker::url_check()` on the R directory at the release candidate
+  commit. Ignore any errors with badges as they will be removed in the CRAN release branch.
+- [ ] [Polish NEWS](https://style.tidyverse.org/news.html#news-release) but do **not** update version numbers (this is done automatically later).
+- [ ] For major releases, prepare tweet thread highlighting new features
+
+Wait for the release candidate to be cut:
+
+- [ ] Release candidate!
+- [ ] Create a CRAN-release branch from the release candidate commit
+
+Make pull requests into the [autobrew](https://github.com/autobrew) and
+[rtools-packages](https://github.com/r-windows/rtools-packages) repositories
+used by the configure script on MacOS and Windows. These pull requests will
+use the release candidate as the source.
+
+- [ ] Pull request to modify
+  [the apache-arrow autobrew formula]( https://github.com/autobrew/homebrew-core/blob/high-sierra/Formula/apache-arrow.rb) 
+  to update the release version, SHA256 checksum of the release source file (which can be found in the same directory as the release source file), and any changes to dependencies and build steps that have changed in the
+  [copy of the formula we have of that formula in the Arrow repo](https://github.com/apache/arrow/blob/master/dev/tasks/homebrew-formulae/autobrew/apache-arrow.rb)
+- [ ] Pull request to modify
+  [the apache-arrow-static autobrew formula]( https://github.com/autobrew/homebrew-core/blob/master/Formula/apache-arrow-static.rb)
+  to update the version, SHA, and any changes to dependencies and build steps that have changed in the
+  [copy of the formula we have of that formula in the Arrow repo](https://github.com/apache/arrow/blob/master/dev/tasks/homebrew-formulae/autobrew/apache-arrow-static.rb)
+- [ ] Pull request to modify the 
+  [autobrew script](https://github.com/autobrew/scripts/blob/master/apache-arrow)
+  to include any additions made to
+  [r/tools/autobrew](https://github.com/apache/arrow/blob/master/r/tools/autobrew).
+- [ ] Pull request to modify the
+  [RTools PKGBUILD script](https://github.com/r-windows/rtools-packages/blob/master/mingw-w64-arrow/PKGBUILD)
+  to reflect changes in
+  [ci/PKGBUILD](https://github.com/apache/arrow/blob/master/ci/scripts/PKGBUILD),
+  uncommenting the line that says "uncomment to test the rc".
+
+Prepare and check the .tar.gz that will be released to CRAN.
+
+- [ ] `git fetch upstream && git checkout release-X.X.X-rcXX && git clean -f -d`
+- [ ] Run `make build`. This copies Arrow C++ into tools/cpp, prunes some
+  unnecessary components, and runs `R CMD build` to generate the source tarball.
+  Because this will install the package, you will need to ensure that the version
+  of Arrow C++ available to the configure script is the same as the version
+  that is vendored into the R package (e.g., you may need to unset `ARROW_HOME`).
+- [ ] `devtools::check_built("arrow_X.X.X.tar.gz")` locally
+- [ ] Run reverse dependency checks. Currently this is a 
+  [manual process](https://gist.github.com/paleolimbot/630fdab1e204d70fea97633d8fa15ccb);
+  however, in the future it may be a crossbow nightly job.
+
+Wait for the official release...
+  
+- [ ] Release vote passed!
+- [ ] If the release candidate commit updated, rebase the CRAN release branch
+  on that commit.
+- [ ] Pick any commits that were made to master since the release commit that
+  were needed to fix CRAN-related submission issues identified in the above
+  steps.
+- [ ] Remove badges from README.md
+- [ ] Run `urlchecker::url_check()` on the R directory
+- [ ] Create a PR entitled `WIP: [R] Verify CRAN release-10.0.1-rc0`. Add
+  a comment `@github-actions crossbow submit --group r` to run all R crossbow
+  jobs against the CRAN-specific release branch.
+- [ ] Regenerate arrow_X.X.X.tar.gz (i.e., `make build`)
+
+Create new autobrew and r-windows PRs such that they use the *release*
+instead of the *release candidate*; ensure linux binary packages are available:
+
+- [ ] PR into autobrew/homebrew-core (apache-arrow autobrew formula)
+- [ ] PR into autobrew/homebrew-core (apache-arrow-static autobrew formula)
+- [ ] PR into autobrew/scripts
+- [ ] PR into r-windows/rtools-packages
+- [ ] Ensure linux binaries are available in the artifactory:
+  https://apache.jfrog.io/ui/repos/tree/General/arrow/r
+
+Check binary Arrow C++ distributions specific to the R package:
+
+- [ ] Upload the .tar.gz to [win-builder](https://win-builder.r-project.org/upload.aspx) (r-devel only)
+  and confirm (with Nic, who will automatically receive an email about the results) that the check is clean.
+  This step cannot be completed before Jeroen has put the binaries in the MinGW repository, i.e. [here](https://ftp.opencpu.org/rtools/ucrt64/), [here](https://ftp.opencpu.org/rtools/mingw64/), and [here](https://ftp.opencpu.org/rtools/mingw32/).
+- [ ] Upload the .tar.gz to [MacBuilder](https://mac.r-project.org/macbuilder/submit.html)
+  and confirm that the check is clean
+- [ ] Check `install.packages("arrow_X.X.X.tar.gz")` on Ubuntu and ensure that the
+  hosted binaries are used
+- [ ] `devtools::check_built("arrow_X.X.X.tar.gz")` locally one more time (for luck)
+
+Submit!
+
+- [ ] Upload arrow_X.X.X.tar.gz to the
+  [CRAN submit page](https://xmpalantir.wu.ac.at/cransubmit/)
+- [ ] Confirm the submission email
+
+Wait for CRAN...
+
+- [ ] Accepted!
+- [ ] Tag the tip of the CRAN-specific release branch
+- [ ] Add a new line to the matrix in the [backwards compatability job](https://github.com/apache/arrow/blob/master/dev/tasks/r/github.linux.arrow.version.back.compat.yml)
+- [ ] (patch releases only) Update the package version in `ci/scripts/PKGBUILD`, `dev/tasks/homebrew-formulae/autobrew/apache-arrow.rb`, `r/DESCRIPTION`, and `r/NEWS.md`
+- [ ] Update the packaging checklist template to reflect any new realities of the
+  packaging process.
+- [ ] Wait for CRAN-hosted binaries on the
+  [CRAN package page](https://cran.r-project.org/package=arrow) to reflect the
+  new version
+- [ ] Tweet!
diff --git a/r/R/array.R b/r/R/array.R
index 9ae7631e7d2..109f6daaa2b 100644
--- a/r/R/array.R
+++ b/r/R/array.R
@@ -176,6 +176,9 @@ Array$create <- function(x, type = NULL) {
   if (!is.null(type)) {
     type <- as_type(type)
   }
+  if (is.null(x) && is.null(type)) {
+    type <- null()
+  }
   if (inherits(x, "Scalar")) {
     out <- x$as_array()
     if (!is.null(type)) {
@@ -300,25 +303,34 @@ as_arrow_array.data.frame <- function(x, ..., type = NULL) {
     fields <- type$fields()
     names <- map_chr(fields, "name")
     types <- map(fields, "type")
-    arrays <- Map(as_arrow_array, x, types)
+    arrays <- Map(as_arrow_array, x, type = types)
     names(arrays) <- names
-
-    # TODO(ARROW-16266): a hack because there is no StructArray$create() yet
-    batch <- record_batch(!!!arrays)
-    array_ptr <- allocate_arrow_array()
-    schema_ptr <- allocate_arrow_schema()
-    on.exit({
-      delete_arrow_array(array_ptr)
-      delete_arrow_schema(schema_ptr)
-    })
-
-    batch$export_to_c(array_ptr, schema_ptr)
-    Array$import_from_c(array_ptr, schema_ptr)
+    StructArray$create(!!!arrays)
   } else {
     stop_cant_convert_array(x, type)
   }
 }
 
+#' @export
+as_arrow_array.vctrs_list_of <- function(x, ..., type = NULL) {
+  type <- type %||% infer_type(x)
+  if (!inherits(type, "ListType") && !inherits(type, "LargeListType")) {
+    stop_cant_convert_array(x, type)
+  }
+
+  as_arrow_array(unclass(x), type = type)
+}
+
+#' @export
+as_arrow_array.blob <- function(x, ..., type = NULL) {
+  type <- type %||% infer_type(x)
+  if (!type$Equals(binary()) && !type$Equals(large_binary())) {
+    stop_cant_convert_array(x, type)
+  }
+
+  as_arrow_array(unclass(x), type = type)
+}
+
 stop_cant_convert_array <- function(x, type) {
   if (is.null(type)) {
     abort(
@@ -326,7 +338,7 @@ stop_cant_convert_array <- function(x, type) {
         "Can't create Array from object of type %s",
         paste(class(x), collapse = " / ")
       ),
-      call = rlang::caller_env()
+      call = caller_env()
     )
   } else {
     abort(
@@ -335,7 +347,7 @@ stop_cant_convert_array <- function(x, type) {
         format(type$code()),
         paste(class(x), collapse = " / ")
       ),
-      call = rlang::caller_env()
+      call = caller_env()
     )
   }
 }
@@ -427,6 +439,11 @@ StructArray <- R6Class("StructArray",
   )
 )
 
+StructArray$create <- function(...) {
+  data <- record_batch(...)
+  StructArray__from_RecordBatch(data)
+}
+
 
 #' @export
 `[[.StructArray` <- function(x, i, ...) {
diff --git a/r/R/arrow-datum.R b/r/R/arrow-datum.R
index 33c67a52854..bfebf998a1c 100644
--- a/r/R/arrow-datum.R
+++ b/r/R/arrow-datum.R
@@ -173,7 +173,7 @@ eval_array_expression <- function(FUN,
       return(-args[[1]])
     }
   }
-  args <- lapply(args, .wrap_arrow, FUN)
+  args <- lapply(args, .wrap_arrow)
 
   # In Arrow, "divide" is one function, which does integer division on
   # integer inputs and floating-point division on floats
@@ -218,14 +218,9 @@ eval_array_expression <- function(FUN,
   )
 }
 
-.wrap_arrow <- function(arg, fun) {
+.wrap_arrow <- function(arg) {
   if (!inherits(arg, "ArrowObject")) {
-    # TODO: Array$create if lengths are equal?
-    if (fun == "%in%") {
-      arg <- Array$create(arg)
-    } else {
-      arg <- Scalar$create(arg)
-    }
+    arg <- Scalar$create(arg)
   }
   arg
 }
@@ -299,6 +294,9 @@ head.ArrowDatum <- function(x, n = 6L, ...) {
   } else {
     n <- min(len, n)
   }
+  if (!is.integer(n)) {
+    n <- floor(n)
+  }
   if (n == len) {
     return(x)
   }
@@ -310,6 +308,9 @@ head.ArrowDatum <- function(x, n = 6L, ...) {
 tail.ArrowDatum <- function(x, n = 6L, ...) {
   assert_is(n, c("numeric", "integer"))
   assert_that(length(n) == 1)
+  if (!is.integer(n)) {
+    n <- floor(n)
+  }
   len <- NROW(x)
   if (n < 0) {
     # tail(x, negative) means all but the first n rows
diff --git a/r/R/arrow-info.R b/r/R/arrow-info.R
index 55d07b77cb4..d864f3de9f5 100644
--- a/r/R/arrow-info.R
+++ b/r/R/arrow-info.R
@@ -25,9 +25,9 @@
 #' value whether or not the C++ library was built with support for them.
 #' @export
 #' @importFrom utils packageVersion
-#' @seealso If any capabilities are `FALSE`, see
-#' `vignette("install", package = "arrow")` for guidance on reinstalling the
-#' package.
+#' @seealso If any capabilities are `FALSE`, see the
+#' \href{https://arrow.apache.org/docs/r/articles/install.html}{install guide}
+#' for guidance on reinstalling the package.
 arrow_info <- function() {
   opts <- options()
   pool <- default_memory_pool()
@@ -82,12 +82,6 @@ arrow_available <- function() {
 #' @rdname arrow_info
 #' @export
 arrow_with_dataset <- function() {
-  if (on_old_windows()) {
-    # 32-bit rtools 3.5 does not properly implement the std::thread expectations
-    # but we can't just disable ARROW_DATASET in that build,
-    # so report it as "off" here.
-    return(FALSE)
-  }
   tryCatch(.Call(`_dataset_available`), error = function(e) {
     return(FALSE)
   })
diff --git a/r/R/arrow-object.R b/r/R/arrow-object.R
index ac067d4aa5f..516f407aafd 100644
--- a/r/R/arrow-object.R
+++ b/r/R/arrow-object.R
@@ -45,6 +45,19 @@ ArrowObject <- R6Class("ArrowObject",
         cat(self$ToString(), "\n", sep = "")
       }
       invisible(self)
+    },
+    .unsafe_delete = function() {
+      # The best we can do in a generic way is to set the underlying
+      # pointer to NULL. Subclasses specialize this so that we can actually
+      # call the underlying shared pointer's reset() method for the
+      # shared_ptr<SubclassType> in C++.
+      self$`.:xp:.` <- NULL
+
+      # Return NULL, because keeping this R6 object in scope is not a good idea.
+      # This syntax would allow the rare use that has to actually do this to
+      # do `object <- object$.unsafe_delete()` and reduce the chance that an
+      # IDE like RStudio will try try to call other methods which will error
+      invisible(NULL)
     }
   )
 )
diff --git a/r/R/arrow-package.R b/r/R/arrow-package.R
index f3e0b817d5f..150fe773dbf 100644
--- a/r/R/arrow-package.R
+++ b/r/R/arrow-package.R
@@ -17,37 +17,103 @@
 
 #' @importFrom stats quantile median na.omit na.exclude na.pass na.fail
 #' @importFrom R6 R6Class
-#' @importFrom purrr as_mapper map map2 map_chr map2_chr map_dbl map_dfr map_int map_lgl keep imap imap_chr flatten
+#' @importFrom purrr as_mapper map map2 map_chr map2_chr map_dbl map_dfr map_int map_lgl keep imap imap_chr
+#' @importFrom purrr flatten reduce walk
 #' @importFrom assertthat assert_that is.string
-#' @importFrom rlang list2 %||% is_false abort dots_n warn enquo quo_is_null enquos is_integerish quos
+#' @importFrom rlang list2 %||% is_false abort dots_n warn enquo quo_is_null enquos is_integerish quos quo
 #' @importFrom rlang eval_tidy new_data_mask syms env new_environment env_bind set_names exec
 #' @importFrom rlang is_bare_character quo_get_expr quo_get_env quo_set_expr .data seq2 is_interactive
 #' @importFrom rlang expr caller_env is_character quo_name is_quosure enexpr enexprs as_quosure
-#' @importFrom rlang is_list call2 is_empty as_function as_label arg_match
-#' @importFrom tidyselect vars_pull vars_rename vars_select eval_select
+#' @importFrom rlang is_list call2 is_empty as_function as_label arg_match is_symbol is_call call_args
+#' @importFrom rlang quo_set_env quo_get_env is_formula quo_is_call f_rhs parse_expr f_env new_quosure
+#' @importFrom rlang new_quosures expr_text caller_env check_dots_empty dots_list
+#' @importFrom tidyselect vars_pull eval_select eval_rename
+#' @importFrom glue glue
 #' @useDynLib arrow, .registration = TRUE
 #' @keywords internal
 "_PACKAGE"
 
+# TODO(ARROW-17666): Include notes about features not supported here.
+supported_dplyr_methods <- list(
+  select = NULL,
+  filter = NULL,
+  collect = NULL,
+  summarise = c(
+    "window functions not currently supported;",
+    'arguments `.drop = FALSE` and `.groups = "rowwise" not supported'
+  ),
+  group_by = NULL,
+  groups = NULL,
+  group_vars = NULL,
+  group_by_drop_default = NULL,
+  ungroup = NULL,
+  mutate = c(
+    "window functions (e.g. things that require aggregation within groups)",
+    "not currently supported"
+  ),
+  transmute = NULL,
+  arrange = NULL,
+  rename = NULL,
+  pull = c(
+    "the `name` argument is not supported;",
+    "returns an R vector by default but this behavior is deprecated and will",
+    "return an Arrow [ChunkedArray] in a future release. Provide",
+    "`as_vector = TRUE/FALSE` to control this behavior, or set",
+    "`options(arrow.pull_as_vector)` globally."
+  ),
+  relocate = NULL,
+  compute = NULL,
+  collapse = NULL,
+  distinct = "`.keep_all = TRUE` not supported",
+  left_join = "the `copy` and `na_matches` arguments are ignored",
+  right_join = "the `copy` and `na_matches` arguments are ignored",
+  inner_join = "the `copy` and `na_matches` arguments are ignored",
+  full_join = "the `copy` and `na_matches` arguments are ignored",
+  semi_join = "the `copy` and `na_matches` arguments are ignored",
+  anti_join = "the `copy` and `na_matches` arguments are ignored",
+  count = NULL,
+  tally = NULL,
+  rename_with = NULL,
+  union = NULL,
+  union_all = NULL,
+  slice_head = c(
+    "slicing within groups not supported;",
+    "Arrow datasets do not have row order, so head is non-deterministic;",
+    "`prop` only supported on queries where `nrow()` is knowable without evaluating"
+  ),
+  slice_tail = c(
+    "slicing within groups not supported;",
+    "Arrow datasets do not have row order, so tail is non-deterministic;",
+    "`prop` only supported on queries where `nrow()` is knowable without evaluating"
+  ),
+  slice_min = c(
+    "slicing within groups not supported;",
+    "`with_ties = TRUE` (dplyr default) is not supported;",
+    "`prop` only supported on queries where `nrow()` is knowable without evaluating"
+  ),
+  slice_max = c(
+    "slicing within groups not supported;",
+    "`with_ties = TRUE` (dplyr default) is not supported;",
+    "`prop` only supported on queries where `nrow()` is knowable without evaluating"
+  ),
+  slice_sample = c(
+    "slicing within groups not supported;",
+    "`replace = TRUE` and the `weight_by` argument not supported;",
+    "`n` only supported on queries where `nrow()` is knowable without evaluating"
+  ),
+  glimpse = NULL,
+  show_query = NULL,
+  explain = NULL
+)
+
 #' @importFrom vctrs s3_register vec_size vec_cast vec_unique
 .onLoad <- function(...) {
   # Make sure C++ knows on which thread it is safe to call the R API
   InitializeMainRThread()
 
-  dplyr_methods <- paste0(
-    "dplyr::",
-    c(
-      "select", "filter", "collect", "summarise", "group_by", "groups",
-      "group_vars", "group_by_drop_default", "ungroup", "mutate", "transmute",
-      "arrange", "rename", "pull", "relocate", "compute", "collapse",
-      "distinct", "left_join", "right_join", "inner_join", "full_join",
-      "semi_join", "anti_join", "count", "tally", "rename_with", "union",
-      "union_all", "glimpse", "show_query", "explain"
-    )
-  )
   for (cl in c("Dataset", "ArrowTabular", "RecordBatchReader", "arrow_dplyr_query")) {
-    for (m in dplyr_methods) {
-      s3_register(m, cl)
+    for (m in names(supported_dplyr_methods)) {
+      s3_register(paste0("dplyr::", m), cl)
     }
   }
   s3_register("dplyr::tbl_vars", "arrow_dplyr_query")
@@ -75,7 +141,10 @@
     configure_tzdb()
   }
 
-  # register extension types that we use internally
+  # Set interrupt handlers
+  SetEnableSignalStopSource(TRUE)
+
+  # Register extension types that we use internally
   reregister_extension_type(vctrs_extension_type(vctrs::unspecified()))
 
   invisible()
@@ -115,14 +184,19 @@ configure_tzdb <- function() {
   })
 }
 
-on_old_windows <- function() {
-  is_32bit <- .Machine$sizeof.pointer < 8
-  is_old_r <- getRversion() < "4.0.0"
-  is_windows <- tolower(Sys.info()[["sysname"]]) == "windows"
-
-  is_32bit && is_old_r && is_windows
+# Clean up the StopSource that was registered in .onLoad() so that if the
+# package is reloaded we don't get an error from C++ informing us that
+# a StopSource has already been set up.
+.onUnload <- function(...) {
+  DeinitializeMainRThread()
 }
 
+# While .onUnload should be sufficient, devtools::load_all() does not call it
+# (but it does call .onDetach()). It is safe to call DeinitializeMainRThread()
+# more than once.
+.onDetach <- function(...) {
+  DeinitializeMainRThread()
+}
 
 # True when the OS is linux + and the R version is development
 # helpful for skipping on Valgrind, and the sanitizer checks (clang + gcc) on cran
@@ -131,6 +205,11 @@ on_linux_dev <- function() {
     grepl("devel", R.version.string)
 }
 
+on_macos_10_13_or_lower <- function() {
+  identical(unname(Sys.info()["sysname"]), "Darwin") &&
+    package_version(unname(Sys.info()["release"])) < "18.0.0"
+}
+
 option_use_threads <- function() {
   !is_false(getOption("arrow.use_threads"))
 }
diff --git a/r/R/arrowExports.R b/r/R/arrowExports.R
index ab3358d6664..38f1ecfb971 100644
--- a/r/R/arrowExports.R
+++ b/r/R/arrowExports.R
@@ -1,13 +1,33 @@
 # Generated by using data-raw/codegen.R -> do not edit by hand
 
-test_SET_STRING_ELT <- function(s) {
-  invisible(.Call(`_arrow_test_SET_STRING_ELT`, s))
-}
-
 is_arrow_altrep <- function(x) {
   .Call(`_arrow_is_arrow_altrep`, x)
 }
 
+test_arrow_altrep_set_string_elt <- function(x, i, value) {
+  invisible(.Call(`_arrow_test_arrow_altrep_set_string_elt`, x, i, value))
+}
+
+test_arrow_altrep_is_materialized <- function(x) {
+  .Call(`_arrow_test_arrow_altrep_is_materialized`, x)
+}
+
+test_arrow_altrep_force_materialize <- function(x) {
+  .Call(`_arrow_test_arrow_altrep_force_materialize`, x)
+}
+
+test_arrow_altrep_copy_by_element <- function(x) {
+  .Call(`_arrow_test_arrow_altrep_copy_by_element`, x)
+}
+
+test_arrow_altrep_copy_by_region <- function(x, region_size) {
+  .Call(`_arrow_test_arrow_altrep_copy_by_region`, x, region_size)
+}
+
+test_arrow_altrep_copy_by_dataptr <- function(x) {
+  .Call(`_arrow_test_arrow_altrep_copy_by_dataptr`, x)
+}
+
 Array__Slice1 <- function(array, offset) {
   .Call(`_arrow_Array__Slice1`, array, offset)
 }
@@ -92,6 +112,10 @@ StructArray__GetFieldByName <- function(array, name) {
   .Call(`_arrow_StructArray__GetFieldByName`, array, name)
 }
 
+StructArray__from_RecordBatch <- function(batch) {
+  .Call(`_arrow_StructArray__from_RecordBatch`, batch)
+}
+
 StructArray__Flatten <- function(array) {
   .Call(`_arrow_StructArray__Flatten`, array)
 }
@@ -404,26 +428,38 @@ ExecPlan_create <- function(use_threads) {
   .Call(`_arrow_ExecPlan_create`, use_threads)
 }
 
+ExecPlanReader__batches <- function(reader) {
+  .Call(`_arrow_ExecPlanReader__batches`, reader)
+}
+
+Table__from_ExecPlanReader <- function(reader) {
+  .Call(`_arrow_Table__from_ExecPlanReader`, reader)
+}
+
+ExecPlanReader__Plan <- function(reader) {
+  .Call(`_arrow_ExecPlanReader__Plan`, reader)
+}
+
+ExecPlanReader__PlanStatus <- function(reader) {
+  .Call(`_arrow_ExecPlanReader__PlanStatus`, reader)
+}
+
 ExecPlan_run <- function(plan, final_node, sort_options, metadata, head) {
   .Call(`_arrow_ExecPlan_run`, plan, final_node, sort_options, metadata, head)
 }
 
-ExecPlan_read_table <- function(plan, final_node, sort_options, metadata, head) {
-  .Call(`_arrow_ExecPlan_read_table`, plan, final_node, sort_options, metadata, head)
+ExecPlan_ToString <- function(plan) {
+  .Call(`_arrow_ExecPlan_ToString`, plan)
 }
 
-ExecPlan_StopProducing <- function(plan) {
-  invisible(.Call(`_arrow_ExecPlan_StopProducing`, plan))
+ExecPlan_UnsafeDelete <- function(plan) {
+  invisible(.Call(`_arrow_ExecPlan_UnsafeDelete`, plan))
 }
 
 ExecNode_output_schema <- function(node) {
   .Call(`_arrow_ExecNode_output_schema`, node)
 }
 
-ExecPlan_BuildAndShow <- function(plan, final_node, sort_options, head) {
-  .Call(`_arrow_ExecPlan_BuildAndShow`, plan, final_node, sort_options, head)
-}
-
 ExecNode_Scan <- function(plan, dataset, filter, materialized_field_names) {
   .Call(`_arrow_ExecNode_Scan`, plan, dataset, filter, materialized_field_names)
 }
@@ -444,8 +480,8 @@ ExecNode_Aggregate <- function(input, options, key_names) {
   .Call(`_arrow_ExecNode_Aggregate`, input, options, key_names)
 }
 
-ExecNode_Join <- function(input, type, right_data, left_keys, right_keys, left_output, right_output, output_suffix_for_left, output_suffix_for_right) {
-  .Call(`_arrow_ExecNode_Join`, input, type, right_data, left_keys, right_keys, left_output, right_output, output_suffix_for_left, output_suffix_for_right)
+ExecNode_Join <- function(input, join_type, right_data, left_keys, right_keys, left_output, right_output, output_suffix_for_left, output_suffix_for_right) {
+  .Call(`_arrow_ExecNode_Join`, input, join_type, right_data, left_keys, right_keys, left_output, right_output, output_suffix_for_left, output_suffix_for_right)
 }
 
 ExecNode_Union <- function(input, right_data) {
@@ -908,8 +944,8 @@ DataType__name <- function(type) {
   .Call(`_arrow_DataType__name`, type)
 }
 
-DataType__Equals <- function(lhs, rhs) {
-  .Call(`_arrow_DataType__Equals`, lhs, rhs)
+DataType__Equals <- function(lhs, rhs, check_metadata) {
+  .Call(`_arrow_DataType__Equals`, lhs, rhs, check_metadata)
 }
 
 DataType__num_fields <- function(type) {
@@ -1292,8 +1328,8 @@ fs___CopyFiles <- function(source_fs, source_sel, destination_fs, destination_ba
   invisible(.Call(`_arrow_fs___CopyFiles`, source_fs, source_sel, destination_fs, destination_base_dir, chunk_size, use_threads))
 }
 
-fs___S3FileSystem__create <- function(anonymous, access_key, secret_key, session_token, role_arn, session_name, external_id, load_frequency, region, endpoint_override, scheme, proxy_options, background_writes, allow_bucket_creation, allow_bucket_deletion) {
-  .Call(`_arrow_fs___S3FileSystem__create`, anonymous, access_key, secret_key, session_token, role_arn, session_name, external_id, load_frequency, region, endpoint_override, scheme, proxy_options, background_writes, allow_bucket_creation, allow_bucket_deletion)
+fs___S3FileSystem__create <- function(anonymous, access_key, secret_key, session_token, role_arn, session_name, external_id, load_frequency, region, endpoint_override, scheme, proxy_options, background_writes, allow_bucket_creation, allow_bucket_deletion, connect_timeout, request_timeout) {
+  .Call(`_arrow_fs___S3FileSystem__create`, anonymous, access_key, secret_key, session_token, role_arn, session_name, external_id, load_frequency, region, endpoint_override, scheme, proxy_options, background_writes, allow_bucket_creation, allow_bucket_deletion, connect_timeout, request_timeout)
 }
 
 fs___S3FileSystem__region <- function(fs) {
@@ -1728,6 +1764,14 @@ RecordBatchReader__schema <- function(reader) {
   .Call(`_arrow_RecordBatchReader__schema`, reader)
 }
 
+RecordBatchReader__Close <- function(reader) {
+  invisible(.Call(`_arrow_RecordBatchReader__Close`, reader))
+}
+
+RecordBatchReader__UnsafeDelete <- function(reader) {
+  invisible(.Call(`_arrow_RecordBatchReader__UnsafeDelete`, reader))
+}
+
 RecordBatchReader__ReadNext <- function(reader) {
   .Call(`_arrow_RecordBatchReader__ReadNext`, reader)
 }
@@ -1808,6 +1852,14 @@ InitializeMainRThread <- function() {
   invisible(.Call(`_arrow_InitializeMainRThread`))
 }
 
+DeinitializeMainRThread <- function() {
+  invisible(.Call(`_arrow_DeinitializeMainRThread`))
+}
+
+SetEnableSignalStopSource <- function(enabled) {
+  .Call(`_arrow_SetEnableSignalStopSource`, enabled)
+}
+
 CanRunWithCapturedR <- function() {
   .Call(`_arrow_CanRunWithCapturedR`)
 }
@@ -1832,10 +1884,6 @@ StructScalar__GetFieldByName <- function(s, name) {
   .Call(`_arrow_StructScalar__GetFieldByName`, s, name)
 }
 
-Scalar__as_vector <- function(scalar) {
-  .Call(`_arrow_Scalar__as_vector`, scalar)
-}
-
 MakeArrayFromScalar <- function(scalar, n) {
   .Call(`_arrow_MakeArrayFromScalar`, scalar, n)
 }
@@ -1856,8 +1904,12 @@ Scalar__ApproxEquals <- function(lhs, rhs) {
   .Call(`_arrow_Scalar__ApproxEquals`, lhs, rhs)
 }
 
-schema_ <- function(fields) {
-  .Call(`_arrow_schema_`, fields)
+Schema__from_fields <- function(fields) {
+  .Call(`_arrow_Schema__from_fields`, fields)
+}
+
+Schema__from_list <- function(field_list) {
+  .Call(`_arrow_Schema__from_list`, field_list)
 }
 
 Schema__ToString <- function(s) {
@@ -2004,6 +2056,10 @@ Table__from_record_batches <- function(batches, schema_sxp) {
   .Call(`_arrow_Table__from_record_batches`, batches, schema_sxp)
 }
 
+Table__from_schema <- function(schema) {
+  .Call(`_arrow_Table__from_schema`, schema)
+}
+
 Table__ReferencedBufferSize <- function(table) {
   .Call(`_arrow_Table__ReferencedBufferSize`, table)
 }
diff --git a/r/R/compute.R b/r/R/compute.R
index 636c9146ca3..1cd12f2e29d 100644
--- a/r/R/compute.R
+++ b/r/R/compute.R
@@ -306,186 +306,3 @@ cast_options <- function(safe = TRUE, ...) {
   )
   modifyList(opts, list(...))
 }
-
-#' Register user-defined functions
-#'
-#' These functions support calling R code from query engine execution
-#' (i.e., a [dplyr::mutate()] or [dplyr::filter()] on a [Table] or [Dataset]).
-#' Use [register_scalar_function()] attach Arrow input and output types to an
-#' R function and make it available for use in the dplyr interface and/or
-#' [call_function()]. Scalar functions are currently the only type of
-#' user-defined function supported. In Arrow, scalar functions must be
-#' stateless and return output with the same shape (i.e., the same number
-#' of rows) as the input.
-#'
-#' @param name The function name to be used in the dplyr bindings
-#' @param in_type A [DataType] of the input type or a [schema()]
-#'   for functions with more than one argument. This signature will be used
-#'   to determine if this function is appropriate for a given set of arguments.
-#'   If this function is appropriate for more than one signature, pass a
-#'   `list()` of the above.
-#' @param out_type A [DataType] of the output type or a function accepting
-#'   a single argument (`types`), which is a `list()` of [DataType]s. If a
-#'   function it must return a [DataType].
-#' @param fun An R function or rlang-style lambda expression. The function
-#'   will be called with a first argument `context` which is a `list()`
-#'   with elements `batch_size` (the expected length of the output) and
-#'   `output_type` (the required [DataType] of the output) that may be used
-#'   to ensure that the output has the correct type and length. Subsequent
-#'   arguments are passed by position as specified by `in_types`. If
-#'   `auto_convert` is `TRUE`, subsequent arguments are converted to
-#'   R vectors before being passed to `fun` and the output is automatically
-#'   constructed with the expected output type via [as_arrow_array()].
-#' @param auto_convert Use `TRUE` to convert inputs before passing to `fun`
-#'   and construct an Array of the correct type from the output. Use this
-#'   option to write functions of R objects as opposed to functions of
-#'   Arrow R6 objects.
-#'
-#' @return `NULL`, invisibly
-#' @export
-#'
-#' @examplesIf arrow_with_dataset() && identical(Sys.getenv("NOT_CRAN"), "true")
-#' library(dplyr, warn.conflicts = FALSE)
-#'
-#' some_model <- lm(mpg ~ disp + cyl, data = mtcars)
-#' register_scalar_function(
-#'   "mtcars_predict_mpg",
-#'   function(context, disp, cyl) {
-#'     predict(some_model, newdata = data.frame(disp, cyl))
-#'   },
-#'   in_type = schema(disp = float64(), cyl = float64()),
-#'   out_type = float64(),
-#'   auto_convert = TRUE
-#' )
-#'
-#' as_arrow_table(mtcars) %>%
-#'   transmute(mpg, mpg_predicted = mtcars_predict_mpg(disp, cyl)) %>%
-#'   collect() %>%
-#'   head()
-#'
-register_scalar_function <- function(name, fun, in_type, out_type,
-                                     auto_convert = FALSE) {
-  assert_that(is.string(name))
-
-  scalar_function <- arrow_scalar_function(
-    fun,
-    in_type,
-    out_type,
-    auto_convert = auto_convert
-  )
-
-  # register with Arrow C++ function registry (enables its use in
-  # call_function() and Expression$create())
-  RegisterScalarUDF(name, scalar_function)
-
-  # register with dplyr binding (enables its use in mutate(), filter(), etc.)
-  register_binding(
-    name,
-    function(...) build_expr(name, ...),
-    update_cache = TRUE
-  )
-
-  # User-defined functions require some special handling
-  # in the query engine which currently require an opt-in using
-  # the R_ARROW_COLLECT_WITH_UDF environment variable while this
-  # behaviour is stabilized.
-  # TODO(ARROW-17178) remove the need for this!
-  Sys.setenv(R_ARROW_COLLECT_WITH_UDF = "true")
-
-  invisible(NULL)
-}
-
-arrow_scalar_function <- function(fun, in_type, out_type, auto_convert = FALSE) {
-  assert_that(is.function(fun))
-
-  # Create a small wrapper function that is easier to call from C++.
-  # TODO(ARROW-17148): This wrapper could be implemented in C/C++ to
-  # reduce evaluation overhead and generate prettier backtraces when
-  # errors occur (probably using a similar approach to purrr).
-  if (auto_convert) {
-    wrapper_fun <- function(context, args) {
-      args <- lapply(args, as.vector)
-      result <- do.call(fun, c(list(context), args))
-      as_arrow_array(result, type = context$output_type)
-    }
-  } else {
-    wrapper_fun <- function(context, args) {
-      do.call(fun, c(list(context), args))
-    }
-  }
-
-  # in_type can be a list() if registering multiple kernels at once
-  if (is.list(in_type)) {
-    in_type <- lapply(in_type, in_type_as_schema)
-  } else {
-    in_type <- list(in_type_as_schema(in_type))
-  }
-
-  # out_type can be a list() if registering multiple kernels at once
-  if (is.list(out_type)) {
-    out_type <- lapply(out_type, out_type_as_function)
-  } else {
-    out_type <- list(out_type_as_function(out_type))
-  }
-
-  # recycle out_type (which is frequently length 1 even if multiple kernels
-  # are being registered at once)
-  out_type <- rep_len(out_type, length(in_type))
-
-  # check n_kernels and number of args in fun
-  n_kernels <- length(in_type)
-  if (n_kernels == 0) {
-    abort("Can't register user-defined scalar function with 0 kernels")
-  }
-
-  expected_n_args <- in_type[[1]]$num_fields + 1L
-  fun_formals_have_dots <- any(names(formals(fun)) == "...")
-  if (!fun_formals_have_dots && length(formals(fun)) != expected_n_args) {
-    abort(
-      sprintf(
-        paste0(
-          "Expected `fun` to accept %d argument(s)\n",
-          "but found a function that acccepts %d argument(s)\n",
-          "Did you forget to include `context` as the first argument?"
-        ),
-        expected_n_args,
-        length(formals(fun))
-      )
-    )
-  }
-
-  structure(
-    list(
-      wrapper_fun = wrapper_fun,
-      in_type = in_type,
-      out_type = out_type
-    ),
-    class = "arrow_scalar_function"
-  )
-}
-
-# This function sanitizes the in_type argument for arrow_scalar_function(),
-# which can be a data type (e.g., int32()), a field for a unary function
-# or a schema() for functions accepting more than one argument. C++ expects
-# a schema().
-in_type_as_schema <- function(x) {
-  if (inherits(x, "Field")) {
-    schema(x)
-  } else if (inherits(x, "DataType")) {
-    schema(field("", x))
-  } else {
-    as_schema(x)
-  }
-}
-
-# This function sanitizes the out_type argument for arrow_scalar_function(),
-# which can be a data type (e.g., int32()) or a function of the input types.
-# C++ currently expects a function.
-out_type_as_function <- function(x) {
-  if (is.function(x)) {
-    x
-  } else {
-    x <- as_data_type(x)
-    function(types) x
-  }
-}
diff --git a/r/R/csv.R b/r/R/csv.R
index 6adbb40219d..135394b9677 100644
--- a/r/R/csv.R
+++ b/r/R/csv.R
@@ -54,17 +54,17 @@
 #' single string, one character per column, where the characters map to Arrow
 #' types analogously to the `readr` type mapping:
 #'
-#' * "c": `utf8()`
-#' * "i": `int32()`
-#' * "n": `float64()`
-#' * "d": `float64()`
-#' * "l": `bool()`
-#' * "f": `dictionary()`
-#' * "D": `date32()`
-#' * "T": `timestamp(unit = "ns")`
-#' * "t": `time32()` (The `unit` arg is set to the default value `"ms"`)
-#' * "_": `null()`
-#' * "-": `null()`
+#' * "c": [utf8()]
+#' * "i": [int32()]
+#' * "n": [float64()]
+#' * "d": [float64()]
+#' * "l": [bool()]
+#' * "f": [dictionary()]
+#' * "D": [date32()]
+#' * "T": [`timestamp(unit = "ns")`][timestamp()]
+#' * "t": [time32()] (The `unit` arg is set to the default value `"ms"`)
+#' * "_": [null()]
+#' * "-": [null()]
 #' * "?": infer the type from the data
 #'
 #' If you use the compact string representation for `col_types`, you must also
@@ -98,11 +98,11 @@
 #' column names and will not be included in the data frame. If `FALSE`, column
 #' names will be generated by Arrow, starting with "f0", "f1", ..., "fN".
 #' Alternatively, you can specify a character vector of column names.
-#' @param col_types A compact string representation of the column types, or
-#' `NULL` (the default) to infer types from the data.
+#' @param col_types A compact string representation of the column types,
+#' an Arrow [Schema], or `NULL` (the default) to infer types from the data.
 #' @param col_select A character vector of column names to keep, as in the
 #' "select" argument to `data.table::fread()`, or a
-#' [tidy selection specification][tidyselect::vars_select()]
+#' [tidy selection specification][tidyselect::eval_select()]
 #' of columns, as used in `dplyr::select()`.
 #' @param na A character vector of strings to interpret as missing values.
 #' @param quoted_na Should missing values inside quotes be treated as missing
@@ -143,6 +143,17 @@
 #' read_csv_arrow(tf, schema = schema(x = int32(), y = utf8()), skip = 1)
 #' read_csv_arrow(tf, col_types = schema(y = utf8()))
 #' read_csv_arrow(tf, col_types = "ic", col_names = c("x", "y"), skip = 1)
+#'
+#' # Note that if a timestamp column contains time zones,
+#' # the string "T" `col_types` specification won't work.
+#' # To parse timestamps with time zones, provide a [Schema] to `col_types`
+#' # and specify the time zone in the type object:
+#' tf <- tempfile()
+#' write.csv(data.frame(x = "1970-01-01T12:00:00+12:00"), file = tf, row.names = FALSE)
+#' read_csv_arrow(
+#'   tf,
+#'   col_types = schema(x = timestamp(unit = "us", timezone = "UTC"))
+#' )
 read_delim_arrow <- function(file,
                              delim = ",",
                              quote = '"',
@@ -196,6 +207,7 @@ read_delim_arrow <- function(file,
     }
     on.exit(file$close())
   }
+
   reader <- CsvTableReader$create(
     file,
     read_options = read_options,
@@ -206,16 +218,17 @@ read_delim_arrow <- function(file,
   tryCatch(
     tab <- reader$Read(),
     # n = 4 because we want the error to show up as being from read_delim_arrow()
-    # and not handle_csv_read_error()
+    # and not augment_io_error_msg()
     error = function(e, call = caller_env(n = 4)) {
-      handle_csv_read_error(e, schema, call)
+      augment_io_error_msg(e, call, schema = schema)
     }
   )
 
   # TODO: move this into convert_options using include_columns
   col_select <- enquo(col_select)
   if (!quo_is_null(col_select)) {
-    tab <- tab[vars_select(names(tab), !!col_select)]
+    sim_df <- as.data.frame(tab$schema)
+    tab <- tab[eval_select(col_select, sim_df)]
   }
 
   if (isTRUE(as_data_frame)) {
@@ -314,6 +327,18 @@ CsvTableReader$create <- function(file,
                                   ...) {
   assert_is(file, "InputStream")
 
+  if (is.list(read_options)) {
+    read_options <- do.call(CsvReadOptions$create, read_options)
+  }
+
+  if (is.list(parse_options)) {
+    parse_options <- do.call(CsvParseOptions$create, parse_options)
+  }
+
+  if (is.list(convert_options)) {
+    convert_options <- do.call(CsvConvertOptions$create, convert_options)
+  }
+
   if (!(tolower(read_options$encoding) %in% c("utf-8", "utf8"))) {
     file <- MakeReencodeInputStream(file, read_options$encoding)
   }
@@ -406,6 +431,8 @@ CsvTableReader$create <- function(file,
 #' The `CsvWriteOptions$create()` factory method takes the following arguments:
 #' - `include_header` Whether to write an initial header line with column names
 #' - `batch_size` Maximum number of rows processed at a time. Default is 1024.
+#' - `null_string` The string to be written for null values. Must not contain
+#'   quotation marks. Default is an empty string (`""`).
 #'
 #' @section Active bindings:
 #'
@@ -443,30 +470,37 @@ CsvReadOptions$create <- function(use_threads = option_use_threads(),
   options
 }
 
-readr_to_csv_write_options <- function(include_header,
-                                       batch_size = 1024L) {
-  assert_that(is_integerish(batch_size, n = 1, finite = TRUE), batch_size > 0)
-  assert_that(is.logical(include_header))
+readr_to_csv_write_options <- function(include_header = TRUE,
+                                       batch_size = 1024L,
+                                       na = "") {
   CsvWriteOptions$create(
     include_header = include_header,
-    batch_size = as.integer(batch_size)
+    batch_size = batch_size,
+    null_string = na
   )
 }
 
 #' @rdname CsvReadOptions
 #' @export
 CsvWriteOptions <- R6Class("CsvWriteOptions", inherit = ArrowObject)
-CsvWriteOptions$create <- function(include_header = TRUE, batch_size = 1024L) {
+CsvWriteOptions$create <- function(include_header = TRUE, batch_size = 1024L, null_string = "") {
   assert_that(is_integerish(batch_size, n = 1, finite = TRUE), batch_size > 0)
+  assert_that(is.logical(include_header))
+  assert_that(is.character(null_string))
+  assert_that(!is.na(null_string))
+  assert_that(length(null_string) == 1)
+  assert_that(!grepl('"', null_string), msg = "na argument must not contain quote characters.")
+
   csv___WriteOptions__initialize(
     list(
       include_header = include_header,
-      batch_size = as.integer(batch_size)
+      batch_size = as.integer(batch_size),
+      null_string = as.character(null_string)
     )
   )
 }
 
-readr_to_csv_read_options <- function(skip, col_names, col_types) {
+readr_to_csv_read_options <- function(skip = 0, col_names = TRUE) {
   if (isTRUE(col_names)) {
     # C++ default to parse is 0-length string array
     col_names <- character(0)
@@ -653,6 +687,8 @@ readr_to_csv_convert_options <- function(na,
 #' @param col_names identical to `include_header`. Specify this or
 #'     `include_headers`, not both.
 #' @param batch_size Maximum number of rows processed at a time. Default is 1024.
+#' @param na value to write for NA values. Must not contain quote marks. Default
+#'     is `""`.
 #' @param write_options see [file reader options][CsvWriteOptions]
 #' @param ... additional parameters
 #'
@@ -670,6 +706,7 @@ write_csv_arrow <- function(x,
                             include_header = TRUE,
                             col_names = NULL,
                             batch_size = 1024L,
+                            na = "",
                             write_options = NULL,
                             ...) {
   unsupported_passed_args <- names(list(...))
@@ -711,7 +748,8 @@ write_csv_arrow <- function(x,
   if (is.null(write_options)) {
     write_options <- readr_to_csv_write_options(
       include_header = include_header,
-      batch_size = batch_size
+      batch_size = batch_size,
+      na = na
     )
   }
 
diff --git a/r/R/dataset-format.R b/r/R/dataset-format.R
index 948abf2829e..0912941e648 100644
--- a/r/R/dataset-format.R
+++ b/r/R/dataset-format.R
@@ -53,7 +53,7 @@
 #' It returns the appropriate subclass of `FileFormat` (e.g. `ParquetFileFormat`)
 #' @rdname FileFormat
 #' @name FileFormat
-#' @examplesIf arrow_with_dataset() && tolower(Sys.info()[["sysname"]]) != "windows"
+#' @examplesIf arrow_with_dataset()
 #' ## Semi-colon delimited files
 #' # Set up directory for examples
 #' tf <- tempfile()
@@ -113,85 +113,105 @@ ParquetFileFormat$create <- function(...,
 #' @export
 IpcFileFormat <- R6Class("IpcFileFormat", inherit = FileFormat)
 
-#' @usage NULL
-#' @format NULL
-#' @rdname FileFormat
+#' CSV dataset file format
+#'
+#' @description
+#' A `CSVFileFormat` is a [FileFormat] subclass which holds information about how to
+#' read and parse the files included in a CSV `Dataset`.
+#'
+#' @section Factory:
+#' `CSVFileFormat$create()` can take options in the form of lists passed through as `parse_options`,
+#'  `read_options`, or `convert_options` parameters.  Alternatively, readr-style options can be passed
+#'  through individually.  While it is possible to pass in `CSVReadOptions`, `CSVConvertOptions`, and `CSVParseOptions`
+#'  objects, this is not recommended as options set in these objects are not validated for compatibility.
+#'
+#' @return A `CsvFileFormat` object
+#' @rdname CsvFileFormat
+#' @name CsvFileFormat
+#' @seealso [FileFormat]
+#' @examplesIf arrow_with_dataset()
+#' # Set up directory for examples
+#' tf <- tempfile()
+#' dir.create(tf)
+#' on.exit(unlink(tf))
+#' df <- data.frame(x = c("1", "2", "NULL"))
+#' write.table(df, file.path(tf, "file1.txt"), sep = ",", row.names = FALSE)
+#'
+#' # Create CsvFileFormat object with Arrow-style null_values option
+#' format <- CsvFileFormat$create(convert_options = list(null_values = c("", "NA", "NULL")))
+#' open_dataset(tf, format = format)
+#'
+#' # Use readr-style options
+#' format <- CsvFileFormat$create(na = c("", "NA", "NULL"))
+#' open_dataset(tf, format = format)
+#'
 #' @export
 CsvFileFormat <- R6Class("CsvFileFormat", inherit = FileFormat)
-CsvFileFormat$create <- function(...,
-                                 opts = csv_file_format_parse_options(...),
-                                 convert_options = csv_file_format_convert_opts(...),
-                                 read_options = csv_file_format_read_opts(...)) {
-  check_csv_file_format_args(...)
-  # Evaluate opts first to catch any unsupported arguments
-  force(opts)
-
-  options <- list(...)
-  schema <- options[["schema"]]
-
-  column_names <- read_options$column_names
-  schema_names <- names(schema)
+CsvFileFormat$create <- function(...) {
+  dots <- list(...)
+  options <- check_csv_file_format_args(dots)
+  check_schema(options[["schema"]], options[["read_options"]]$column_names)
 
-  if (!is.null(schema) && !identical(schema_names, column_names)) {
-    missing_from_schema <- setdiff(column_names, schema_names)
-    missing_from_colnames <- setdiff(schema_names, column_names)
-    message_colnames <- NULL
-    message_schema <- NULL
-    message_order <- NULL
+  dataset___CsvFileFormat__Make(options$parse_options, options$convert_options, options$read_options)
+}
 
-    if (length(missing_from_colnames) > 0) {
-      message_colnames <- paste(
-        oxford_paste(missing_from_colnames, quote_symbol = "`"),
-        "not present in `column_names`"
-      )
-    }
+# Check all arguments are valid
+check_csv_file_format_args <- function(args) {
+  options <- list(
+    parse_options = args$parse_options,
+    convert_options = args$convert_options,
+    read_options = args$read_options,
+    schema = args$schema
+  )
 
-    if (length(missing_from_schema) > 0) {
-      message_schema <- paste(
-        oxford_paste(missing_from_schema, quote_symbol = "`"),
-        "not present in `schema`"
-      )
-    }
+  check_unsupported_args(args)
+  check_unrecognised_args(args)
 
-    if (length(missing_from_schema) == 0 && length(missing_from_colnames) == 0) {
-      message_order <- "`column_names` and `schema` field names match but are not in the same order"
-    }
+  # Evaluate parse_options first to catch any unsupported arguments
+  if (is.null(args$parse_options)) {
+    options$parse_options <- do.call(csv_file_format_parse_opts, args)
+  } else if (is.list(args$parse_options)) {
+    options$parse_options <- do.call(CsvParseOptions$create, args$parse_options)
+  }
 
-    abort(
-      c(
-        "Values in `column_names` must match `schema` field names",
-        x = message_order,
-        x = message_schema,
-        x = message_colnames
-      )
-    )
+  if (is.null(args$convert_options)) {
+    options$convert_options <- do.call(csv_file_format_convert_opts, args)
+  } else if (is.list(args$convert_options)) {
+    options$convert_options <- do.call(CsvConvertOptions$create, args$convert_options)
+  }
+
+  if (is.null(args$read_options)) {
+    options$read_options <- do.call(csv_file_format_read_opts, args)
+  } else if (is.list(args$read_options)) {
+    options$read_options <- do.call(CsvReadOptions$create, args$read_options)
   }
 
-  dataset___CsvFileFormat__Make(opts, convert_options, read_options)
+  options
 }
 
-# Check all arguments are valid
-check_csv_file_format_args <- function(...) {
-  opts <- list(...)
+check_unsupported_args <- function(args) {
+  opt_names <- get_opt_names(args)
+
   # Filter out arguments meant for CsvConvertOptions/CsvReadOptions
-  convert_opts <- c(names(formals(CsvConvertOptions$create)))
+  supported_convert_opts <- c(names(formals(CsvConvertOptions$create)), "na")
 
-  read_opts <- c(names(formals(CsvReadOptions$create)), "skip")
+  supported_read_opts <- c(
+    names(formals(CsvReadOptions$create)),
+    names(formals(readr_to_csv_read_options))
+  )
 
   # We only currently support all of the readr options for parseoptions
-  parse_opts <- c(
+  supported_parse_opts <- c(
     names(formals(CsvParseOptions$create)),
     names(formals(readr_to_csv_parse_options))
   )
 
-  opt_names <- names(opts)
-
   # Catch any readr-style options specified with full option names that are
   # supported by read_delim_arrow() (and its wrappers) but are not yet
   # supported here
   unsup_readr_opts <- setdiff(
     names(formals(read_delim_arrow)),
-    c(convert_opts, read_opts, parse_opts, "schema")
+    c(supported_convert_opts, supported_read_opts, supported_parse_opts, "schema")
   )
 
   is_unsup_opt <- opt_names %in% unsup_readr_opts
@@ -206,9 +226,36 @@ check_csv_file_format_args <- function(...) {
       call. = FALSE
     )
   }
+}
 
+# unlists "parse_options", "convert_options", "read_options" and returns them along with
+# names of options passed in individually via args.  `get_opt_names()` ignores any
+# CSV*Options objects passed in as these are not validated - users must ensure they've
+# chosen reasonable values in this case.
+get_opt_names <- function(args) {
+  opt_names <- names(args)
+
+  # extract names of parse_options, read_options, and convert_options
+  if ("parse_options" %in% names(args) && is.list(args[["parse_options"]])) {
+    opt_names <- c(opt_names, names(args[["parse_options"]]))
+  }
+
+  if ("read_options" %in% names(args) && is.list(args[["read_options"]])) {
+    opt_names <- c(opt_names, names(args[["read_options"]]))
+  }
+
+  if ("convert_options" %in% names(args) && is.list(args[["convert_options"]])) {
+    opt_names <- c(opt_names, names(args[["convert_options"]]))
+  }
+
+  setdiff(opt_names, c("parse_options", "read_options", "convert_options"))
+}
+
+check_unrecognised_args <- function(opts) {
   # Catch any options with full or partial names that do not match any of the
   # recognized Arrow C++ option names or readr-style option names
+  opt_names <- get_opt_names(opts)
+
   arrow_opts <- c(
     names(formals(CsvParseOptions$create)),
     names(formals(CsvReadOptions$create)),
@@ -217,7 +264,9 @@ check_csv_file_format_args <- function(...) {
   )
 
   readr_opts <- c(
-    names(formals(readr_to_csv_parse_options))
+    names(formals(readr_to_csv_parse_options)),
+    names(formals(readr_to_csv_read_options)),
+    "na"
   )
 
   is_arrow_opt <- !is.na(pmatch(opt_names, arrow_opts))
@@ -234,37 +283,92 @@ check_csv_file_format_args <- function(...) {
   }
 }
 
+check_ambiguous_options <- function(passed_opts, opts1, opts2) {
+  is_ambig_opt <- is.na(pmatch(passed_opts, c(opts1, opts2)))
+  ambig_opts <- passed_opts[is_ambig_opt]
+  if (length(ambig_opts)) {
+    stop("Ambiguous ",
+      ngettext(length(ambig_opts), "option", "options"),
+      ": ",
+      oxford_paste(ambig_opts),
+      ". Use full argument names",
+      call. = FALSE
+    )
+  }
+}
+
+check_schema <- function(schema, column_names) {
+  if (!is.null(schema) && !inherits(schema, "Schema")) {
+    abort(paste0(
+      "`schema` must be an object of class 'Schema' not '",
+      class(schema)[1],
+      "'."
+    ))
+  }
+
+  schema_names <- names(schema)
+
+  if (!is.null(schema) && !identical(schema_names, column_names)) {
+    missing_from_schema <- setdiff(column_names, schema_names)
+    missing_from_colnames <- setdiff(schema_names, column_names)
+    message_colnames <- NULL
+    message_schema <- NULL
+    message_order <- NULL
+
+    if (length(missing_from_colnames) > 0) {
+      message_colnames <- paste(
+        oxford_paste(missing_from_colnames, quote_symbol = "`"),
+        "not present in `column_names`"
+      )
+    }
+
+    if (length(missing_from_schema) > 0) {
+      message_schema <- paste(
+        oxford_paste(missing_from_schema, quote_symbol = "`"),
+        "not present in `schema`"
+      )
+    }
+
+    if (length(missing_from_schema) == 0 && length(missing_from_colnames) == 0) {
+      message_order <- "`column_names` and `schema` field names match but are not in the same order"
+    }
+
+    abort(
+      c(
+        "Values in `column_names` must match `schema` field names",
+        x = message_order,
+        x = message_schema,
+        x = message_colnames
+      )
+    )
+  }
+}
+
 # Support both readr-style option names and Arrow C++ option names
-csv_file_format_parse_options <- function(...) {
+csv_file_format_parse_opts <- function(...) {
   opts <- list(...)
   # Filter out arguments meant for CsvConvertOptions/CsvReadOptions
-  convert_opts <- names(formals(CsvConvertOptions$create))
-  read_opts <- c(names(formals(CsvReadOptions$create)), "skip")
+  convert_opts <- c(names(formals(CsvConvertOptions$create)), "na", "convert_options")
+  read_opts <- c(
+    names(formals(CsvReadOptions$create)),
+    names(formals(readr_to_csv_read_options)),
+    "read_options"
+  )
   opts[convert_opts] <- NULL
   opts[read_opts] <- NULL
   opts[["schema"]] <- NULL
-  opt_names <- names(opts)
+  opts[["parse_options"]] <- NULL
+  opt_names <- get_opt_names(opts)
 
   arrow_opts <- c(names(formals(CsvParseOptions$create)))
   readr_opts <- c(names(formals(readr_to_csv_parse_options)))
 
   is_arrow_opt <- !is.na(pmatch(opt_names, arrow_opts))
   is_readr_opt <- !is.na(pmatch(opt_names, readr_opts))
-
   # Catch options with ambiguous partial names (such as "del") that make it
   # unclear whether the user is specifying Arrow C++ options ("delimiter") or
   # readr-style options ("delim")
-  is_ambig_opt <- is.na(pmatch(opt_names, c(arrow_opts, readr_opts)))
-  ambig_opts <- opt_names[is_ambig_opt]
-  if (length(ambig_opts)) {
-    stop("Ambiguous ",
-      ngettext(length(ambig_opts), "option", "options"),
-      ": ",
-      oxford_paste(ambig_opts),
-      ". Use full argument names",
-      call. = FALSE
-    )
-  }
+  check_ambiguous_options(opt_names, arrow_opts, readr_opts)
 
   if (any(is_readr_opt)) {
     # Catch cases when the user specifies a mix of Arrow C++ options and
@@ -283,29 +387,70 @@ csv_file_format_parse_options <- function(...) {
 csv_file_format_convert_opts <- function(...) {
   opts <- list(...)
   # Filter out arguments meant for CsvParseOptions/CsvReadOptions
-  arrow_opts <- names(formals(CsvParseOptions$create))
+  arrow_opts <- c(names(formals(CsvParseOptions$create)), "parse_options")
   readr_opts <- names(formals(readr_to_csv_parse_options))
-  read_opts <- c(names(formals(CsvReadOptions$create)), "skip")
+  read_opts <- c(
+    names(formals(CsvReadOptions$create)),
+    names(formals(readr_to_csv_read_options)),
+    "read_options"
+  )
   opts[arrow_opts] <- NULL
   opts[readr_opts] <- NULL
   opts[read_opts] <- NULL
   opts[["schema"]] <- NULL
+  opts[["convert_options"]] <- NULL
+
+  # map "na" to "null_values"
+  if ("na" %in% names(opts)) {
+    opts[["null_values"]] <- opts[["na"]]
+    opts[["na"]] <- NULL
+  }
+
   do.call(CsvConvertOptions$create, opts)
 }
 
 csv_file_format_read_opts <- function(schema = NULL, ...) {
   opts <- list(...)
   # Filter out arguments meant for CsvParseOptions/CsvConvertOptions
-  arrow_opts <- names(formals(CsvParseOptions$create))
+  arrow_opts <- c(names(formals(CsvParseOptions$create)), "parse_options")
   readr_opts <- names(formals(readr_to_csv_parse_options))
-  convert_opts <- names(formals(CsvConvertOptions$create))
+  convert_opts <- c(names(formals(CsvConvertOptions$create)), "na", "convert_options")
   opts[arrow_opts] <- NULL
   opts[readr_opts] <- NULL
   opts[convert_opts] <- NULL
-  if (!is.null(schema) && is.null(opts[["column_names"]])) {
-    opts[["column_names"]] <- names(schema)
+  opts[["read_options"]] <- NULL
+
+  opt_names <- names(opts)
+  arrow_opts <- c(names(formals(CsvReadOptions$create)))
+  readr_opts <- c(names(formals(readr_to_csv_read_options)))
+
+  is_arrow_opt <- !is.na(match(opt_names, arrow_opts))
+  is_readr_opt <- !is.na(match(opt_names, readr_opts))
+
+  check_ambiguous_options(opt_names, arrow_opts, readr_opts)
+
+  if (!is.null(schema) && is.null(opts[["column_names"]]) && is.null(opts[["col_names"]])) {
+    if (any(is_readr_opt)) {
+      opts[["col_names"]] <- names(schema)
+    } else {
+      opts[["column_names"]] <- names(schema)
+    }
+  }
+
+  if (any(is_readr_opt)) {
+    # Catch cases when the user specifies a mix of Arrow C++ options and
+    # readr-style options
+    if (!all(is_readr_opt)) {
+      abort(c(
+        "Additional CSV reading options must be Arrow-style or readr-style, but not both.",
+        i = sprintf("Arrow options used: %s.", oxford_paste(opt_names[is_arrow_opt])),
+        i = sprintf("readr options used: %s.", oxford_paste(opt_names[is_readr_opt]))
+      ))
+    }
+    do.call(readr_to_csv_read_options, opts) # all options have readr-style names
+  } else {
+    do.call(CsvReadOptions$create, opts) # all options have Arrow C++ names
   }
-  do.call(CsvReadOptions$create, opts)
 }
 
 #' Format-specific scan options
@@ -403,7 +548,10 @@ FileWriteOptions <- R6Class("FileWriteOptions",
             "null_fallback"
           )
         } else if (format == "csv") {
-          supported_args <- names(formals(CsvWriteOptions$create))
+          supported_args <- c(
+            names(formals(CsvWriteOptions$create)),
+            names(formals(readr_to_csv_write_options))
+          )
         }
 
         unsupported_passed_args <- setdiff(passed_args, supported_args)
@@ -421,7 +569,7 @@ FileWriteOptions <- R6Class("FileWriteOptions",
           err_info <- NULL
           arg_info <- paste0(
             "Supported arguments: ",
-            oxford_paste(supported_args, quote_symbol = "`"),
+            oxford_paste(unique(supported_args), quote_symbol = "`"),
             "."
           )
           if ("compression" %in% unsupported_passed_args) {
@@ -456,10 +604,27 @@ FileWriteOptions <- R6Class("FileWriteOptions",
           )
         }
       } else if (self$type == "csv") {
-        dataset___CsvFileWriteOptions__update(
-          self,
-          CsvWriteOptions$create(...)
-        )
+        arrow_opts <- names(formals(CsvWriteOptions$create))
+        readr_opts <- names(formals(readr_to_csv_write_options))
+        readr_only_opts <- setdiff(readr_opts, arrow_opts)
+
+        is_arrow_opt <- !is.na(pmatch(names(args), arrow_opts))
+        is_readr_opt <- !is.na(pmatch(names(args), readr_opts))
+        is_readr_only_opt <- !is.na(pmatch(names(args), readr_only_opts))
+
+        # These option names aren't mutually exclusive, so only use readr path
+        # if we have at least one readr-specific option.
+        if (sum(is_readr_only_opt)) {
+          dataset___CsvFileWriteOptions__update(
+            self,
+            do.call(readr_to_csv_write_options, args[is_readr_opt])
+          )
+        } else {
+          dataset___CsvFileWriteOptions__update(
+            self,
+            do.call(CsvWriteOptions$create, args[is_arrow_opt])
+          )
+        }
       }
       invisible(self)
     }
diff --git a/r/R/dataset-scan.R b/r/R/dataset-scan.R
index 53fe7078c23..b210edbf960 100644
--- a/r/R/dataset-scan.R
+++ b/r/R/dataset-scan.R
@@ -38,7 +38,7 @@
 #' `ScannerBuilder` has the following methods:
 #'
 #' - `$Project(cols)`: Indicate that the scan should only return columns given
-#' by `cols`, a character vector of column names
+#' by `cols`, a character vector of column names or a named list of [Expression].
 #' - `$Filter(expr)`: Filter rows by an [Expression].
 #' - `$UseThreads(threads)`: logical: should the scan use multithreading?
 #' The method's default input is `TRUE`, but you must call the method to enable
@@ -53,6 +53,28 @@
 #' query and returns an Arrow [Table].
 #' @rdname Scanner
 #' @name Scanner
+#' @examplesIf arrow_with_dataset() & arrow_with_parquet()
+#' # Set up directory for examples
+#' tf <- tempfile()
+#' dir.create(tf)
+#' on.exit(unlink(tf))
+#'
+#' write_dataset(mtcars, tf, partitioning="cyl")
+#'
+#' ds <- open_dataset(tf)
+#'
+#' scan_builder <- ds$NewScan()
+#' scan_builder$Filter(Expression$field_ref("hp") > 100)
+#' scan_builder$Project(list(hp_times_ten = 10 * Expression$field_ref("hp")))
+#'
+#' # Once configured, call $Finish()
+#' scanner <- scan_builder$Finish()
+#'
+#' # Can get results as a table
+#' as.data.frame(scanner$ToTable())
+#'
+#' # Or as a RecordBatchReader
+#' scanner$ToRecordBatchReader()
 #' @export
 Scanner <- R6Class("Scanner",
   inherit = ArrowObject,
@@ -135,9 +157,14 @@ names.Scanner <- function(x) names(x$schema)
 
 #' @export
 head.Scanner <- function(x, n = 6L, ...) {
+  assert_is(n, c("numeric", "integer"))
+  assert_that(length(n) == 1)
   # Negative n requires knowing nrow(x), which requires a scan itself
   assert_that(n >= 0)
-  dataset___Scanner__head(x, n)
+  if (!is.integer(n)) {
+    n <- floor(n)
+  }
+  dataset___Scanner__head(x, floor(n))
 }
 
 #' @export
@@ -146,8 +173,13 @@ tail.Scanner <- function(x, n = 6L, ...) {
 }
 
 tail_from_batches <- function(batches, n) {
+  assert_is(n, c("numeric", "integer"))
+  assert_that(length(n) == 1)
   # Negative n requires knowing nrow(x), which requires a scan itself
-  assert_that(n >= 0) # For now
+  assert_that(n >= 0)
+  if (!is.integer(n)) {
+    n <- floor(n)
+  }
   result <- list()
   batch_num <- 0
   # Given a list of batches, iterate from the back
@@ -170,10 +202,6 @@ tail_from_batches <- function(batches, n) {
 #' `map_batches()` in a dplyr pipeline and do additional dplyr methods on the
 #' stream of data in Arrow after it.
 #'
-#' Note that, unlike the core dplyr methods that are implemented in the Arrow
-#' query engine, `map_batches()` is not lazy: it starts evaluating on the data
-#' when you call it, even if you send its result to another pipeline function.
-#'
 #' This is experimental and not recommended for production use. It is also
 #' single-threaded and runs in R not C++, so it won't be as fast as core
 #' Arrow methods.
@@ -192,7 +220,7 @@ tail_from_batches <- function(batches, n) {
 #' @param .data.frame Deprecated argument, ignored
 #' @return An `arrow_dplyr_query`.
 #' @export
-map_batches <- function(X, FUN, ..., .schema = NULL, .lazy = FALSE, .data.frame = NULL) {
+map_batches <- function(X, FUN, ..., .schema = NULL, .lazy = TRUE, .data.frame = NULL) {
   if (!is.null(.data.frame)) {
     warning(
       "The .data.frame argument is deprecated. ",
@@ -202,7 +230,7 @@ map_batches <- function(X, FUN, ..., .schema = NULL, .lazy = FALSE, .data.frame
   }
   FUN <- as_mapper(FUN)
   reader <- as_record_batch_reader(X)
-  dots <- rlang::list2(...)
+  dots <- list2(...)
 
   # If no schema is supplied, we have to evaluate the first batch here
   if (is.null(.schema)) {
@@ -245,9 +273,6 @@ map_batches <- function(X, FUN, ..., .schema = NULL, .lazy = FALSE, .data.frame
   }
 
   reader_out <- as_record_batch_reader(fun, schema = .schema)
-
-  # TODO(ARROW-17178) because there are some restrictions on evaluating
-  # reader_out in some ExecPlans, the default .lazy is FALSE for now.
   if (!.lazy) {
     reader_out <- RecordBatchReader$create(
       batches = reader_out$batches(),
diff --git a/r/R/dataset-write.R b/r/R/dataset-write.R
index e0181ee74f7..e5cd76363a0 100644
--- a/r/R/dataset-write.R
+++ b/r/R/dataset-write.R
@@ -151,6 +151,8 @@ write_dataset <- function(dataset,
   }
 
   plan <- ExecPlan$create()
+  on.exit(plan$.unsafe_delete())
+
   final_node <- plan$Build(dataset)
   if (!is.null(final_node$extras$sort %||% final_node$extras$head %||% final_node$extras$tail)) {
     # Because sorting and topK are only handled in the SinkNode (or in R!),
diff --git a/r/R/dataset.R b/r/R/dataset.R
index 12765fbfc02..71247b3581e 100644
--- a/r/R/dataset.R
+++ b/r/R/dataset.R
@@ -123,7 +123,8 @@
 #' @return A [Dataset] R6 object. Use `dplyr` methods on it to query the data,
 #' or call [`$NewScan()`][Scanner] to construct a query directly.
 #' @export
-#' @seealso `vignette("dataset", package = "arrow")`
+#' @seealso \href{https://arrow.apache.org/docs/r/articles/dataset.html}{
+#' datasets article}
 #' @include arrow-object.R
 #' @examplesIf arrow_with_dataset() & arrow_with_parquet()
 #' # Set up directory for examples
@@ -131,8 +132,7 @@
 #' dir.create(tf)
 #' on.exit(unlink(tf))
 #'
-#' data <- dplyr::group_by(mtcars, cyl)
-#' write_dataset(data, tf)
+#' write_dataset(mtcars, tf, partitioning = "cyl")
 #'
 #' # You can specify a directory containing the files for your dataset and
 #' # open_dataset will scan all files in your directory.
@@ -145,7 +145,7 @@
 #' tf2 <- tempfile()
 #' dir.create(tf2)
 #' on.exit(unlink(tf2))
-#' write_dataset(data, tf2, format = "ipc")
+#' write_dataset(mtcars, tf2, format = "ipc")
 #' # This line will results in errors when you try to work with the data
 #' \dontrun{
 #' open_dataset(tf2)
@@ -221,13 +221,137 @@ open_dataset <- function(sources,
     # Default is _not_ to inspect/unify schemas
     factory$Finish(schema, isTRUE(unify_schemas)),
     # n = 4 because we want the error to show up as being from open_dataset()
-    # and not handle_parquet_io_error()
+    # and not augment_io_error_msg()
     error = function(e, call = caller_env(n = 4)) {
-      handle_parquet_io_error(e, format, call)
+      augment_io_error_msg(e, call, format = format)
     }
   )
 }
 
+#' Open a multi-file dataset of CSV or other delimiter-separated format
+#'
+#' A wrapper around [open_dataset] which explicitly includes parameters mirroring [read_csv_arrow()],
+#' [read_delim_arrow()], and [read_tsv_arrow()] to allows for easy switching between functions
+#' for opening single files and functions for opening datasets.
+#'
+#' @inheritParams open_dataset
+#' @inheritParams read_delim_arrow
+#'
+#' @section Options currently supported by [read_delim_arrow()] which are not supported here:
+#' * `file` (instead, please specify files in `sources`)
+#' * `col_select` (instead, subset columns after dataset creation)
+#' * `quoted_na`
+#' * `as_data_frame` (instead, convert to data frame after dataset creation)
+#' * `parse_options`
+#'
+#' @examplesIf arrow_with_dataset()
+#' # Set up directory for examples
+#' tf <- tempfile()
+#' dir.create(tf)
+#' df <- data.frame(x = c("1", "2", "NULL"))
+#'
+#' file_path <- file.path(tf, "file1.txt")
+#' write.table(df, file_path, sep = ",", row.names = FALSE)
+#'
+#' read_csv_arrow(file_path, na = c("", "NA", "NULL"), col_names = "y", skip = 1)
+#' open_csv_dataset(file_path, na = c("", "NA", "NULL"), col_names = "y", skip = 1)
+#'
+#' unlink(tf)
+#' @seealso [open_dataset()]
+#' @export
+open_delim_dataset <- function(sources,
+                               schema = NULL,
+                               partitioning = hive_partition(),
+                               hive_style = NA,
+                               unify_schemas = NULL,
+                               factory_options = list(),
+                               delim = ",",
+                               quote = "\"",
+                               escape_double = TRUE,
+                               escape_backslash = FALSE,
+                               col_names = TRUE,
+                               col_types = NULL,
+                               na = c("", "NA"),
+                               skip_empty_rows = TRUE,
+                               skip = 0L,
+                               convert_options = NULL,
+                               read_options = NULL,
+                               timestamp_parsers = NULL) {
+  open_dataset(
+    sources = sources,
+    schema = schema,
+    partitioning = partitioning,
+    hive_style = hive_style,
+    unify_schemas = unify_schemas,
+    factory_options = factory_options,
+    format = "text",
+    delim = delim,
+    quote = quote,
+    escape_double = escape_double,
+    escape_backslash = escape_backslash,
+    col_names = col_names,
+    col_types = col_types,
+    na = na,
+    skip_empty_rows = skip_empty_rows,
+    skip = skip,
+    convert_options = convert_options,
+    read_options = read_options,
+    timestamp_parsers = timestamp_parsers
+  )
+}
+
+#' @rdname open_delim_dataset
+#' @export
+open_csv_dataset <- function(sources,
+                             schema = NULL,
+                             partitioning = hive_partition(),
+                             hive_style = NA,
+                             unify_schemas = NULL,
+                             factory_options = list(),
+                             quote = "\"",
+                             escape_double = TRUE,
+                             escape_backslash = FALSE,
+                             col_names = TRUE,
+                             col_types = NULL,
+                             na = c("", "NA"),
+                             skip_empty_rows = TRUE,
+                             skip = 0L,
+                             convert_options = NULL,
+                             read_options = NULL,
+                             timestamp_parsers = NULL) {
+  mc <- match.call()
+  mc$delim <- ","
+  mc[[1]] <- get("open_delim_dataset", envir = asNamespace("arrow"))
+  eval.parent(mc)
+}
+
+#' @rdname open_delim_dataset
+#' @export
+open_tsv_dataset <- function(sources,
+                             schema = NULL,
+                             partitioning = hive_partition(),
+                             hive_style = NA,
+                             unify_schemas = NULL,
+                             factory_options = list(),
+                             quote = "\"",
+                             escape_double = TRUE,
+                             escape_backslash = FALSE,
+                             col_names = TRUE,
+                             col_types = NULL,
+                             na = c("", "NA"),
+                             skip_empty_rows = TRUE,
+                             skip = 0L,
+                             convert_options = NULL,
+                             read_options = NULL,
+                             timestamp_parsers = NULL) {
+  mc <- match.call()
+  mc$delim <- "\t"
+  mc[[1]] <- get("open_delim_dataset", envir = asNamespace("arrow"))
+  eval.parent(mc)
+}
+
+
+
 #' Multi-file datasets
 #'
 #' @description
@@ -398,6 +522,11 @@ dim.Dataset <- function(x) c(x$num_rows, x$num_cols)
 #' @export
 c.Dataset <- function(...) Dataset$create(list(...))
 
+#' @export
+as.data.frame.Dataset <- function(x, row.names = NULL, optional = FALSE, ...) {
+  collect.Dataset(x)
+}
+
 #' @export
 head.Dataset <- function(x, n = 6L, ...) {
   head(Scanner$create(x), n)
diff --git a/r/R/dplyr-across.R b/r/R/dplyr-across.R
new file mode 100644
index 00000000000..5b816a07199
--- /dev/null
+++ b/r/R/dplyr-across.R
@@ -0,0 +1,217 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+expand_across <- function(.data, quos_in) {
+  quos_out <- list()
+  # retrieve items using their values to preserve naming of quos other than across
+  for (quo_i in seq_along(quos_in)) {
+    quo_in <- quos_in[quo_i]
+    quo_expr <- quo_get_expr(quo_in[[1]])
+    quo_env <- quo_get_env(quo_in[[1]])
+
+    if (is_call(quo_expr, c("across", "if_any", "if_all"))) {
+      new_quos <- list()
+
+      across_call <- match.call(
+        definition = dplyr::across,
+        call = quo_expr,
+        expand.dots = FALSE,
+        envir = quo_env
+      )
+
+      if (!all(names(across_call[-1]) %in% c(".cols", ".fns", ".names"))) {
+        abort("`...` argument to `across()` is deprecated in dplyr and not supported in Arrow")
+      }
+
+      if (!is.null(across_call[[".cols"]])) {
+        cols <- across_call[[".cols"]]
+      } else {
+        cols <- quote(everything())
+      }
+
+      setup <- across_setup(
+        cols = !!as_quosure(cols, quo_env),
+        fns = across_call[[".fns"]],
+        names = across_call[[".names"]],
+        .caller_env = quo_env,
+        mask = .data,
+        inline = TRUE
+      )
+
+      new_quos <- quosures_from_setup(setup, quo_env)
+
+      quos_out <- append(quos_out, new_quos)
+    } else {
+      quos_out <- append(quos_out, quo_in)
+    }
+
+    if (is_call(quo_expr, "if_any")) {
+      quos_out <- append(list(), purrr::reduce(quos_out, combine_if, op = "|", envir = quo_get_env(quos_out[[1]])))
+    }
+
+    if (is_call(quo_expr, "if_all")) {
+      quos_out <- append(list(), purrr::reduce(quos_out, combine_if, op = "&", envir = quo_get_env(quos_out[[1]])))
+    }
+  }
+
+  new_quosures(quos_out)
+}
+
+# takes multiple expressions and combines them with & or |
+combine_if <- function(lhs, rhs, op, envir) {
+  expr_text <- paste(
+    expr_text(quo_get_expr(lhs)),
+    expr_text(quo_get_expr(rhs)),
+    sep = paste0(" ", op, " ")
+  )
+
+  expr <- parse_expr(expr_text)
+
+  new_quosure(expr, envir)
+}
+
+# given a named list of functions and column names, create a list of new quosures
+quosures_from_setup <- function(setup, quo_env) {
+  if (!is.null(setup$fns)) {
+    func_list_full <- rep(setup$fns, length(setup$vars))
+    cols_list_full <- rep(setup$vars, each = length(setup$fns))
+
+    # get new quosures
+    new_quo_list <- map2(
+      func_list_full, cols_list_full,
+      ~ as_across_fn_call(.x, .y, quo_env)
+    )
+  } else {
+    # if there's no functions, just map to variables themselves
+    new_quo_list <- map(
+      setup$vars,
+      ~ quo_set_env(quo(!!sym(.x)), quo_env)
+    )
+  }
+
+  set_names(new_quo_list, setup$names)
+}
+
+across_setup <- function(cols, fns, names, .caller_env, mask, inline = FALSE) {
+  cols <- enquo(cols)
+
+  vars <- names(dplyr::select(mask, !!cols))
+
+  if (is.null(fns)) {
+    if (!is.null(names)) {
+      glue_mask <- across_glue_mask(.caller_env, .col = vars, .fn = "1")
+      names <- vctrs::vec_as_names(glue::glue(names, .envir = glue_mask), repair = "check_unique")
+    } else {
+      names <- vars
+    }
+
+    value <- list(vars = vars, fns = fns, names = names)
+    return(value)
+  }
+
+  is_single_func <- function(fns) {
+    # function calls with package, like base::round
+    (is.call(fns) && fns[[1]] == as.name("::")) ||
+      # purrr-style formulae
+      is_formula(fns) ||
+      # single anonymous function
+      is_call(fns, "function") ||
+      # any other length 1 function calls
+      (length(fns) == 1 && (is.function(fns) || is_formula(fns) || is.name(fns)))
+  }
+
+  # apply `.names` smart default
+  if (is_single_func(fns)) {
+    names <- names %||% "{.col}"
+    fns <- list("1" = fns)
+  } else {
+    names <- names %||% "{.col}_{.fn}"
+    fns <- call_args(fns)
+  }
+
+  # ARROW-14071
+  if (all(map_lgl(fns, is_call, name = "function"))) {
+    abort("Anonymous functions are not yet supported in Arrow")
+  }
+
+  # make sure fns has names, use number to replace unnamed
+  if (is.null(names(fns))) {
+    names_fns <- seq_along(fns)
+  } else {
+    names_fns <- names(fns)
+    empties <- which(names_fns == "")
+    if (length(empties)) {
+      names_fns[empties] <- empties
+    }
+  }
+
+  glue_mask <- across_glue_mask(.caller_env,
+    .col = rep(vars, each = length(fns)),
+    .fn  = rep(names_fns, length(vars))
+  )
+  names <- vctrs::vec_as_names(glue::glue(names, .envir = glue_mask), repair = "check_unique")
+
+  if (!inline) {
+    fns <- map(fns, as_function)
+  }
+
+  # ensure .names argument has resulted in
+  if (length(names) != (length(vars) * length(fns))) {
+    abort(
+      c(
+        "`.names` specification must produce (number of columns * number of functions) names.",
+        x = paste0(
+          length(vars) * length(fns), " names required (", length(vars), " columns * ", length(fns), " functions)\n  ",
+          length(names), " name(s) produced: ", paste(names, collapse = ",")
+        )
+      )
+    )
+  }
+
+  list(vars = vars, fns = fns, names = names)
+}
+
+across_glue_mask <- function(.col, .fn, .caller_env) {
+  env(.caller_env, .col = .col, .fn = .fn, col = .col, fn = .fn)
+}
+
+# Substitutes instances of "." and ".x" with `var`
+as_across_fn_call <- function(fn, var, quo_env) {
+  if (is_formula(fn, lhs = FALSE)) {
+    expr <- f_rhs(fn)
+    expr <- expr_substitute(expr, quote(.), sym(var))
+    expr <- expr_substitute(expr, quote(.x), sym(var))
+    new_quosure(expr, quo_env)
+  } else {
+    fn_call <- call2(fn, sym(var))
+    new_quosure(fn_call, quo_env)
+  }
+}
+
+expr_substitute <- function(expr, old, new) {
+  switch(typeof(expr),
+    language = {
+      expr[] <- lapply(expr, expr_substitute, old, new)
+      return(expr)
+    },
+    symbol = if (identical(expr, old)) {
+      return(new)
+    }
+  )
+
+  expr
+}
diff --git a/r/R/dplyr-arrange.R b/r/R/dplyr-arrange.R
index 247a539f527..39388394d5b 100644
--- a/r/R/dplyr-arrange.R
+++ b/r/R/dplyr-arrange.R
@@ -20,7 +20,8 @@
 
 arrange.arrow_dplyr_query <- function(.data, ..., .by_group = FALSE) {
   call <- match.call()
-  exprs <- quos(...)
+  exprs <- expand_across(.data, quos(...))
+
   if (.by_group) {
     # when the data is is grouped and .by_group is TRUE, order the result by
     # the grouping columns first
@@ -76,7 +77,7 @@ find_and_remove_desc <- function(quosure) {
     if (identical(expr[[1]], quote(`(`))) {
       # remove enclosing parentheses
       expr <- expr[[2]]
-    } else if (identical(expr[[1]], quote(desc))) {
+    } else if (identical(expr[[1]], quote(desc)) || identical(expr[[1]], quote(dplyr::desc))) {
       # ensure desc() has only one argument (when an R expression is a function
       # call, length == 2 means it has exactly one argument)
       if (length(expr) > 2) {
diff --git a/r/R/dplyr-collect.R b/r/R/dplyr-collect.R
index 3e83475a8c8..395026ce78f 100644
--- a/r/R/dplyr-collect.R
+++ b/r/R/dplyr-collect.R
@@ -19,19 +19,8 @@
 # The following S3 methods are registered on load if dplyr is present
 
 collect.arrow_dplyr_query <- function(x, as_data_frame = TRUE, ...) {
-  tryCatch(
-    out <- as_arrow_table(x),
-    # n = 4 because we want the error to show up as being from collect()
-    # and not handle_csv_read_error()
-    error = function(e, call = caller_env(n = 4)) {
-      handle_csv_read_error(e, x$.data$schema, call)
-    }
-  )
-
-  if (as_data_frame) {
-    out <- as.data.frame(out)
-  }
-  restore_dplyr_features(out, x)
+  out <- compute.arrow_dplyr_query(x)
+  collect.ArrowTabular(out, as_data_frame)
 }
 collect.ArrowTabular <- function(x, as_data_frame = TRUE, ...) {
   if (as_data_frame) {
@@ -40,47 +29,84 @@ collect.ArrowTabular <- function(x, as_data_frame = TRUE, ...) {
     x
   }
 }
-collect.Dataset <- collect.RecordBatchReader <- function(x, ...) dplyr::collect(as_adq(x), ...)
+collect.Dataset <- function(x, as_data_frame = TRUE, ...) {
+  collect.ArrowTabular(compute.Dataset(x), as_data_frame)
+}
+collect.RecordBatchReader <- collect.Dataset
 
-compute.arrow_dplyr_query <- function(x, ...) dplyr::collect(x, as_data_frame = FALSE)
 compute.ArrowTabular <- function(x, ...) x
+compute.arrow_dplyr_query <- function(x, ...) {
+  # TODO: should this tryCatch move down into as_arrow_table()?
+  tryCatch(
+    as_arrow_table(x),
+    # n = 4 because we want the error to show up as being from compute()
+    # and not augment_io_error_msg()
+    error = function(e, call = caller_env(n = 4)) {
+      # Use a dummy schema() here because the CSV file reader handler is only
+      # valid when you read_csv_arrow() with a schema, but Dataset always has
+      # schema
+      # TODO: clean up this
+      augment_io_error_msg(e, call, schema = schema())
+    }
+  )
+}
 compute.Dataset <- compute.RecordBatchReader <- compute.arrow_dplyr_query
 
-pull.arrow_dplyr_query <- function(.data, var = -1) {
+pull.Dataset <- function(.data,
+                         var = -1,
+                         ...,
+                         as_vector = getOption("arrow.pull_as_vector")) {
   .data <- as_adq(.data)
   var <- vars_pull(names(.data), !!enquo(var))
   .data$selected_columns <- set_names(.data$selected_columns[var], var)
-  dplyr::collect(.data)[[1]]
+  out <- dplyr::compute(.data)[[1]]
+  handle_pull_as_vector(out, as_vector)
 }
-pull.Dataset <- pull.ArrowTabular <- pull.RecordBatchReader <- pull.arrow_dplyr_query
+pull.RecordBatchReader <- pull.arrow_dplyr_query <- pull.Dataset
 
-restore_dplyr_features <- function(df, query) {
-  # An arrow_dplyr_query holds some attributes that Arrow doesn't know about
-  # After calling collect(), make sure these features are carried over
+pull.ArrowTabular <- function(x,
+                              var = -1,
+                              ...,
+                              as_vector = getOption("arrow.pull_as_vector")) {
+  out <- x[[vars_pull(names(x), !!enquo(var))]]
+  handle_pull_as_vector(out, as_vector)
+}
 
-  if (length(query$group_by_vars) > 0) {
-    # Preserve groupings, if present
-    if (is.data.frame(df)) {
-      df <- dplyr::grouped_df(
-        df,
-        dplyr::group_vars(query),
-        drop = dplyr::group_by_drop_default(query)
-      )
-    } else {
-      # This is a Table, via compute() or collect(as_data_frame = FALSE)
-      df <- as_adq(df)
-      df$group_by_vars <- query$group_by_vars
-      df$drop_empty_groups <- query$drop_empty_groups
-    }
+handle_pull_as_vector <- function(out, as_vector) {
+  if (is.null(as_vector)) {
+    warn(
+      c(
+        paste(
+          "Default behavior of `pull()` on Arrow data is changing. Current",
+          "behavior of returning an R vector is deprecated, and in a future",
+          "release, it will return an Arrow `ChunkedArray`. To control this:"
+        ),
+        i = paste(
+          "Specify `as_vector = TRUE` (the current default) or",
+          "`FALSE` (what it will change to) in `pull()`"
+        ),
+        i = "Or, set `options(arrow.pull_as_vector)` globally"
+      ),
+      .frequency = "regularly",
+      .frequency_id = "arrow.pull_as_vector",
+      class = "lifecycle_warning_deprecated"
+    )
+    as_vector <- TRUE
+  }
+  if (as_vector) {
+    out <- as.vector(out)
   }
-  df
+  out
 }
 
 collapse.arrow_dplyr_query <- function(x, ...) {
   # Figure out what schema will result from the query
   x$schema <- implicit_schema(x)
   # Nest inside a new arrow_dplyr_query (and keep groups)
-  restore_dplyr_features(arrow_dplyr_query(x), x)
+  out <- arrow_dplyr_query(x)
+  out$group_by_vars <- x$group_by_vars
+  out$drop_empty_groups <- x$drop_empty_groups
+  out
 }
 collapse.Dataset <- collapse.ArrowTabular <- collapse.RecordBatchReader <- function(x, ...) {
   arrow_dplyr_query(x)
@@ -104,30 +130,56 @@ add_suffix <- function(fields, common_cols, suffix) {
 }
 
 implicit_schema <- function(.data) {
+  # Get the source data schema so that we can evaluate expressions to determine
+  # the output schema. Note that we don't use source_data() because we only
+  # want to go one level up (where we may have called implicit_schema() before)
   .data <- ensure_group_vars(.data)
   old_schm <- .data$.data$schema
 
+  if (is.null(.data$aggregations) && is.null(.data$join) && !needs_projection(.data$selected_columns, old_schm)) {
+    # Just use the schema we have
+    return(old_schm)
+  }
+
+  # Add in any augmented fields that may exist in the query but not in the
+  # real data, in case we have FieldRefs to them
+  old_schm[["__filename"]] <- string()
+
   if (is.null(.data$aggregations)) {
+    # .data$selected_columns is a named list of Expressions (FieldRefs or
+    # something more complex). Bind them in order to determine their output type
     new_fields <- map(.data$selected_columns, ~ .$type(old_schm))
     if (!is.null(.data$join) && !(.data$join$type %in% JoinType[1:4])) {
       # Add cols from right side, except for semi/anti joins
       right_cols <- .data$join$right_data$selected_columns
       left_cols <- .data$selected_columns
-      right_fields <- map(
-        right_cols[setdiff(names(right_cols), .data$join$by)],
-        ~ .$type(.data$join$right_data$.data$schema)
-      )
-      # get right table and left table column names excluding the join key
-      right_cols_ex_by <- right_cols[setdiff(names(right_cols), .data$join$by)]
-      left_cols_ex_by <- left_cols[setdiff(names(left_cols), .data$join$by)]
-      # find the common column names in left and right tables
-      common_cols <- intersect(names(right_cols_ex_by), names(left_cols_ex_by))
+
+      # If keep = TRUE, we want to keep the key columns in the RHS. Otherwise,
+      # they will be dropped. Also, if the join is a full join, then we are
+      # temporarily keeping the key columns so we can coalesce them after.
+      if (.data$join$keep || .data$join$type == JoinType$FULL_OUTER) {
+        # find the common column names in left and right tables
+        common_cols <- intersect(names(right_cols), names(left_cols))
+        right_fields <- map(right_cols, ~ .$type(.data$join$right_data$.data$schema))
+      } else {
+        right_fields <- map(
+          right_cols[setdiff(names(right_cols), .data$join$by)],
+          ~ .$type(.data$join$right_data$.data$schema)
+        )
+        # get right table and left table column projections excluding the join key(s)
+        right_cols_ex_by <- right_cols[setdiff(names(right_cols), .data$join$by)]
+        left_cols_ex_by <- left_cols[setdiff(names(left_cols), .data$join$by)]
+        # find the common column names in left and right tables
+        common_cols <- intersect(names(right_cols_ex_by), names(left_cols_ex_by))
+      }
+
       # adding suffixes to the common columns in left and right tables
       left_fields <- add_suffix(new_fields, common_cols, .data$join$suffix[[1]])
       right_fields <- add_suffix(right_fields, common_cols, .data$join$suffix[[2]])
       new_fields <- c(left_fields, right_fields)
     }
   } else {
+    # The output schema is based on the aggregations and any group_by vars
     new_fields <- map(summarize_projection(.data), ~ .$type(old_schm))
     # * Put group_by_vars first (this can't be done by summarize,
     #   they have to be last per the aggregate node signature,
diff --git a/r/R/dplyr-datetime-helpers.R b/r/R/dplyr-datetime-helpers.R
index 4c9a8d1bf05..c153f47cbaf 100644
--- a/r/R/dplyr-datetime-helpers.R
+++ b/r/R/dplyr-datetime-helpers.R
@@ -26,22 +26,9 @@ check_time_locale <- function(locale = Sys.getlocale("LC_TIME")) {
   locale
 }
 
-.helpers_function_map <- list(
-  "lubridate::dminutes" = list(60, "s"),
-  "lubridate::dhours" = list(3600, "s"),
-  "lubridate::ddays" = list(86400, "s"),
-  "lubridate::dweeks" = list(604800, "s"),
-  "lubridate::dmonths" = list(2629800, "s"),
-  "lubridate::dyears" = list(31557600, "s"),
-  "lubridate::dseconds" = list(1, "s"),
-  "lubridate::dmilliseconds" = list(1, "ms"),
-  "lubridate::dmicroseconds" = list(1, "us"),
-  "lubridate::dnanoseconds" = list(1, "ns")
-)
 make_duration <- function(x, unit) {
   # TODO(ARROW-15862): remove first cast to int64
-  x <- build_expr("cast", x, options = cast_options(to_type = int64()))
-  x$cast(duration(unit))
+  cast(x, int64())$cast(duration(unit))
 }
 
 binding_format_datetime <- function(x, format = "", tz = "", usetz = FALSE) {
@@ -56,10 +43,10 @@ binding_format_datetime <- function(x, format = "", tz = "", usetz = FALSE) {
     } else if (tz == "") {
       tz <- Sys.timezone()
     }
-    x <- build_expr("cast", x, options = cast_options(to_type = timestamp(x$type()$unit(), tz)))
+    x <- cast(x, timestamp(x$type()$unit(), tz))
   }
   opts <- list(format = format, locale = Sys.getlocale("LC_TIME"))
-  build_expr("strftime", x, options = opts)
+  Expression$create("strftime", x, options = opts)
 }
 
 # this is a helper function used for creating a difftime / duration objects from
@@ -115,7 +102,7 @@ binding_as_date <- function(x,
     x <- binding_as_date_numeric(x, origin)
   }
 
-  build_expr("cast", x, options = cast_options(to_type = date32()))
+  cast(x, date32())
 }
 
 binding_as_date_character <- function(x,
@@ -123,7 +110,7 @@ binding_as_date_character <- function(x,
                                       tryFormats = "%Y-%m-%d") {
   format <- format %||% tryFormats[[1]]
   # unit = 0L is the identifier for seconds in valid_time32_units
-  build_expr("strptime", x, options = list(format = format, unit = 0L))
+  Expression$create("strptime", x, options = list(format = format, unit = 0L))
 }
 
 binding_as_date_numeric <- function(x, origin = "1970-01-01") {
@@ -132,15 +119,18 @@ binding_as_date_numeric <- function(x, origin = "1970-01-01") {
   # integer-like values we can go via int32()
   # TODO: revisit after ARROW-15798
   if (!call_binding("is.integer", x)) {
-    x <- build_expr("cast", x, options = cast_options(to_type = int32()))
+    x <- cast(x, int32())
   }
 
   if (origin != "1970-01-01") {
     delta_in_sec <- call_binding("difftime", origin, "1970-01-01")
     # TODO: revisit after ARROW-15862
     # (casting from int32 -> duration or double -> duration)
-    delta_in_days <- (delta_in_sec$cast(int64()) / 86400L)$cast(int32())
-    x <- build_expr("+", x, delta_in_days)
+    delta_in_days <- cast(
+      cast(delta_in_sec, int64()) / 86400L,
+      int32()
+    )
+    x <- call_binding("+", x, delta_in_days)
   }
 
   x
@@ -406,7 +396,7 @@ build_strptime_exprs <- function(x, formats) {
 
   map(
     formats,
-    ~ build_expr(
+    ~ Expression$create(
       "strptime",
       x,
       options = list(format = .x, unit = 0L, error_is_null = TRUE)
@@ -442,8 +432,10 @@ parse_period_unit <- function(x) {
   str_unit <- substr(x, capture_start[[2]], capture_end[[2]])
   str_multiple <- substr(x, capture_start[[1]], capture_end[[1]])
 
-  known_units <- c("nanosecond", "microsecond", "millisecond", "second",
-                   "minute", "hour", "day", "week", "month", "quarter", "year")
+  known_units <- c(
+    "nanosecond", "microsecond", "millisecond", "second",
+    "minute", "hour", "day", "week", "month", "quarter", "year"
+  )
 
   # match the period unit
   str_unit_start <- substr(str_unit, 1, 3)
@@ -464,7 +456,7 @@ parse_period_unit <- function(x) {
   if (capture_length[[1]] == 0) {
     multiple <- 1L
 
-  # otherwise parse the multiple
+    # otherwise parse the multiple
   } else {
     multiple <- as.numeric(str_multiple)
 
@@ -525,7 +517,7 @@ shift_temporal_to_week <- function(fn, x, week_start, options) {
   # are two separate helpers, one to handle date32 input and the other to
   # handle timestamps
   options$week_starts_monday <- TRUE
-  offset <- as.integer(week_start) - 1
+  offset <- as.integer(week_start) - 1L
 
   is_date32 <- inherits(x, "Date") ||
     (inherits(x, "Expression") && x$type_id() == Type$DATE32)
@@ -541,13 +533,17 @@ shift_temporal_to_week <- function(fn, x, week_start, options) {
 
 # timestamp input should remain timestamp
 shift_timestamp_to_week <- function(fn, x, offset, options) {
-  offset_seconds <- build_expr(
-    "cast",
-    Scalar$create(offset * 86400L, int64()),
-    options = cast_options(to_type = duration(unit = "s"))
+  # Convert offset to duration(s) and make Expression once
+  offset_seconds <- Expression$scalar(
+    cast(
+      Scalar$create(offset * 86400L, int64()),
+      duration(unit = "s")
+    )
   )
-  shift_offset <- build_expr(fn, x - offset_seconds, options = options)
 
+  # Subtract offset, apply round/floor/ceil, then add the offset back
+  shifted <- x - offset_seconds
+  shift_offset <- Expression$create(fn, shifted, options = options)
   shift_offset + offset_seconds
 }
 
@@ -556,18 +552,21 @@ shift_timestamp_to_week <- function(fn, x, offset, options) {
 # use integer arithmetic: this feels inelegant, but it ensures that
 # temporal rounding functions remain type stable
 shift_date32_to_week <- function(fn, x, offset, options) {
-  # offset the date
-  offset <- Expression$scalar(Scalar$create(offset, int32()))
-  x_int <- build_expr("cast", x, options = cast_options(to_type = int32()))
-  x_int_offset <- x_int - offset
-  x_offset <- build_expr("cast", x_int_offset, options = cast_options(to_type = date32()))
+  # offset is R integer, make it an Expression once
+  offset <- Expression$scalar(offset)
 
-  # apply round/floor/ceil
-  shift_offset <- build_expr(fn, x_offset, options = options)
+  # Subtract offset as int32, then cast back to date32
+  x_offset <- cast(
+    cast(x, int32()) - offset,
+    date32()
+  )
 
-  # undo offset and return
-  shift_int_offset <- build_expr("cast", shift_offset, options = cast_options(to_type = int32()))
-  shift_int <- shift_int_offset + offset
+  # apply round/floor/ceil
+  shift_offset <- Expression$create(fn, x_offset, options = options)
 
-  build_expr("cast", shift_int, options = cast_options(to_type = date32()))
+  # undo offset (as integer) and return
+  cast(
+    cast(shift_offset, int32()) + offset,
+    date32()
+  )
 }
diff --git a/r/R/dplyr-distinct.R b/r/R/dplyr-distinct.R
index c663d84e651..49948caa011 100644
--- a/r/R/dplyr-distinct.R
+++ b/r/R/dplyr-distinct.R
@@ -28,9 +28,6 @@ distinct.arrow_dplyr_query <- function(.data, ..., .keep_all = FALSE) {
   if (length(quos(...))) {
     # group_by() calls mutate() if there are any expressions in ...
     .data <- dplyr::group_by(.data, ..., .add = TRUE)
-    # `data %>% group_by() %>% summarise()` returns cols in order supplied
-    # but distinct() returns cols in dataset order, so sort group vars
-    .data$group_by_vars <- names(.data)[names(.data) %in% .data$group_by_vars]
   } else {
     # distinct() with no vars specified means distinct across all cols
     .data <- dplyr::group_by(.data, !!!syms(names(.data)))
diff --git a/r/R/dplyr-eval.R b/r/R/dplyr-eval.R
index a8fb7c43300..08a4b62aa8f 100644
--- a/r/R/dplyr-eval.R
+++ b/r/R/dplyr-eval.R
@@ -40,7 +40,7 @@ arrow_eval <- function(expr, mask) {
     }
 
     out <- structure(msg, class = "try-error", condition = e)
-    if (grepl("not supported.*Arrow", msg) || getOption("arrow.debug", FALSE)) {
+    if (grepl("not supported.*Arrow|NotImplemented", msg) || getOption("arrow.debug", FALSE)) {
       # One of ours. Mark it so that consumers can handle it differently
       class(out) <- c("arrow-try-error", class(out))
     }
@@ -95,8 +95,9 @@ arrow_mask <- function(.data, aggregation = FALSE) {
     }
   }
 
+  schema <- .data$.data$schema
   # Assign the schema to the expressions
-  map(.data$selected_columns, ~ (.$schema <- .data$.data$schema))
+  walk(.data$selected_columns, ~ (.$schema <- schema))
 
   # Add the column references and make the mask
   out <- new_data_mask(
diff --git a/r/R/dplyr-filter.R b/r/R/dplyr-filter.R
index 7db68b43e93..1ef2b6d7e58 100644
--- a/r/R/dplyr-filter.R
+++ b/r/R/dplyr-filter.R
@@ -20,7 +20,7 @@
 
 filter.arrow_dplyr_query <- function(.data, ..., .preserve = FALSE) {
   # TODO something with the .preserve argument
-  filts <- quos(...)
+  filts <- expand_across(.data, quos(...))
   if (length(filts) == 0) {
     # Nothing to do
     return(.data)
diff --git a/r/R/dplyr-funcs-augmented.R b/r/R/dplyr-funcs-augmented.R
new file mode 100644
index 00000000000..1067f15573b
--- /dev/null
+++ b/r/R/dplyr-funcs-augmented.R
@@ -0,0 +1,35 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+#' Add the data filename as a column
+#'
+#' This function only exists inside `arrow` `dplyr` queries, and it only is
+#' valid when quering on a `FileSystemDataset`.
+#'
+#' @return A `FieldRef` `Expression` that refers to the filename augmented
+#' column.
+#' @examples
+#' \dontrun{
+#' open_dataset("nyc-taxi") %>%
+#'   mutate(file = add_filename())
+#' }
+#' @keywords internal
+add_filename <- function() Expression$field_ref("__filename")
+
+register_bindings_augmented <- function() {
+  register_binding("arrow::add_filename", add_filename)
+}
diff --git a/r/R/dplyr-funcs-conditional.R b/r/R/dplyr-funcs-conditional.R
index 74d19d85903..37411ed2616 100644
--- a/r/R/dplyr-funcs-conditional.R
+++ b/r/R/dplyr-funcs-conditional.R
@@ -16,6 +16,24 @@
 # under the License.
 
 register_bindings_conditional <- function() {
+  register_binding("%in%", function(x, table) {
+    # We use `is_in` here, unlike with Arrays, which use `is_in_meta_binary`
+    value_set <- Array$create(table)
+    # If possible, `table` should be the same type as `x`
+    # Try downcasting here; otherwise Acero may upcast x to table's type
+    try(
+      value_set <- cast_or_parse(value_set, x$type()),
+      silent = TRUE
+    )
+
+    expr <- Expression$create("is_in", x,
+      options = list(
+        value_set = value_set,
+        skip_nulls = TRUE
+      )
+    )
+  })
+
   register_binding("dplyr::coalesce", function(...) {
     args <- list2(...)
     if (length(args) < 1) {
@@ -48,23 +66,28 @@ register_bindings_conditional <- function() {
     Expression$create("coalesce", args = args)
   })
 
-  if_else_binding <- function(condition, true, false, missing = NULL) {
+  # Although base R ifelse allows `yes` and `no` to be different classes
+  register_binding("base::ifelse", function(test, yes, no) {
+    args <- list(test, yes, no)
+    # For if_else, the first arg should be a bool Expression, and we don't
+    # want to consider that when casting the other args to the same type.
+    # But ideally `yes` and `no` args should be the same type.
+    args[-1] <- cast_scalars_to_common_type(args[-1])
+
+    Expression$create("if_else", args = args)
+  })
+
+  register_binding("dplyr::if_else", function(condition, true, false, missing = NULL) {
+    out <- call_binding("base::ifelse", condition, true, false)
     if (!is.null(missing)) {
-      return(if_else_binding(
-        call_binding("is.na", (condition)),
+      out <- call_binding(
+        "base::ifelse",
+        call_binding("is.na", condition),
         missing,
-        if_else_binding(condition, true, false)
-      ))
+        out
+      )
     }
-
-    build_expr("if_else", condition, true, false)
-  }
-
-  register_binding("dplyr::if_else", if_else_binding)
-
-  # Although base R ifelse allows `yes` and `no` to be different classes
-  register_binding("base::ifelse", function(test, yes, no) {
-    if_else_binding(condition = test, true = yes, false = no)
+    out
   })
 
   register_binding("dplyr::case_when", function(...) {
@@ -90,10 +113,10 @@ register_bindings_conditional <- function() {
         abort(handle_arrow_not_supported(value[[i]], format_expr(f[[3]])))
       }
     }
-    build_expr(
+    Expression$create(
       "case_when",
       args = c(
-        build_expr(
+        Expression$create(
           "make_struct",
           args = query,
           options = list(field_names = as.character(seq_along(query)))
diff --git a/r/R/dplyr-funcs-datetime.R b/r/R/dplyr-funcs-datetime.R
index 9a010452b84..42159f4f470 100644
--- a/r/R/dplyr-funcs-datetime.R
+++ b/r/R/dplyr-funcs-datetime.R
@@ -21,6 +21,7 @@ register_bindings_datetime <- function() {
   register_bindings_datetime_utility()
   register_bindings_datetime_components()
   register_bindings_datetime_conversion()
+  register_bindings_datetime_timezone()
   register_bindings_duration()
   register_bindings_duration_constructor()
   register_bindings_duration_helpers()
@@ -29,52 +30,59 @@ register_bindings_datetime <- function() {
 }
 
 register_bindings_datetime_utility <- function() {
-  register_binding("base::strptime", function(x,
-                                              format = "%Y-%m-%d %H:%M:%S",
-                                              tz = "",
-                                              unit = "ms") {
-    # Arrow uses unit for time parsing, strptime() does not.
-    # Arrow has no default option for strptime (format, unit),
-    # we suggest following format = "%Y-%m-%d %H:%M:%S", unit = MILLI/1L/"ms",
-    # (ARROW-12809)
-
-    unit <- make_valid_time_unit(
-      unit,
-      c(valid_time64_units, valid_time32_units)
-    )
-
-    output <- build_expr(
-      "strptime",
-      x,
-      options =
-        list(
-          format = format,
-          unit = unit,
-          error_is_null = TRUE
-        )
-    )
-
-    if (tz == "") {
-      tz <- Sys.timezone()
-    }
+  register_binding(
+    "base::strptime",
+    function(x,
+             format = "%Y-%m-%d %H:%M:%S",
+             tz = "",
+             unit = "ms") {
+      # Arrow uses unit for time parsing, strptime() does not.
+      # Arrow has no default option for strptime (format, unit),
+      # we suggest following format = "%Y-%m-%d %H:%M:%S", unit = MILLI/1L/"ms",
+      # (ARROW-12809)
+
+      unit <- make_valid_time_unit(
+        unit,
+        c(valid_time64_units, valid_time32_units)
+      )
 
-    # if a timestamp does not contain timezone information (i.e. it is
-    # "timezone-naive") we can attach timezone information (i.e. convert it into
-    # a "timezone-aware" timestamp) with `assume_timezone`
-    # if we want to cast to a different timezone, we can only do it for
-    # timezone-aware timestamps, not for timezone-naive ones
-    if (!is.null(tz)) {
-      output <- build_expr(
-        "assume_timezone",
-        output,
+      output <- Expression$create(
+        "strptime",
+        x,
         options =
           list(
-            timezone = tz
+            format = format,
+            unit = unit,
+            error_is_null = TRUE
           )
       )
-    }
-    output
-  })
+
+      if (tz == "") {
+        tz <- Sys.timezone()
+      }
+
+      # if a timestamp does not contain timezone information (i.e. it is
+      # "timezone-naive") we can attach timezone information (i.e. convert it into
+      # a "timezone-aware" timestamp) with `assume_timezone`
+      # if we want to cast to a different timezone, we can only do it for
+      # timezone-aware timestamps, not for timezone-naive ones
+      if (!is.null(tz)) {
+        output <- Expression$create(
+          "assume_timezone",
+          output,
+          options =
+            list(
+              timezone = tz
+            )
+        )
+      }
+      output
+    },
+    notes = c(
+      "accepts a `unit` argument not present in the `base` function.",
+      'Valid values are "s", "ms" (default), "us", "ns".'
+    )
+  )
 
   register_binding("base::strftime", function(x,
                                               format = "",
@@ -145,7 +153,7 @@ register_bindings_datetime_utility <- function() {
   })
 
   register_binding("lubridate::date", function(x) {
-    build_expr("cast", x, options = list(to_type = date32()))
+    cast(x, date32())
   })
 }
 
@@ -195,7 +203,7 @@ register_bindings_datetime_components <- function() {
       # days from epoch (we multiply by 28 to be able to later extract the
       # month with label) - NB this builds a false date (to be used by strftime)
       # since we only know and care about the month
-      x <- build_expr("cast", x * 28L, options = cast_options(to_type = date32()))
+      x <- cast(x * 28L, date32())
     }
 
     if (label) {
@@ -204,18 +212,18 @@ register_bindings_datetime_components <- function() {
       } else {
         format <- "%B"
       }
-      return(build_expr("strftime", x, options = list(format = format, locale = check_time_locale(locale))))
+      return(Expression$create("strftime", x, options = list(format = format, locale = check_time_locale(locale))))
     }
 
-    build_expr("month", x)
+    Expression$create("month", x)
   })
 
   register_binding("lubridate::qday", function(x) {
     # We calculate day of quarter by flooring timestamp to beginning of quarter and
     # calculating days between beginning of quarter and timestamp/date in question.
     # Since we use one one-based numbering we add one.
-    floored_x <- build_expr("floor_temporal", x, options = list(unit = 9L))
-    build_expr("days_between", floored_x, x) + Expression$scalar(1L)
+    floored_x <- Expression$create("floor_temporal", x, options = list(unit = 9L))
+    Expression$create("days_between", floored_x, x) + Expression$scalar(1L)
   })
 
   register_binding("lubridate::am", function(x) {
@@ -227,11 +235,11 @@ register_bindings_datetime_components <- function() {
   })
   register_binding("lubridate::tz", function(x) {
     if (!call_binding("is.POSIXct", x)) {
-      abort(
+      arrow_not_supported(
         paste0(
           "timezone extraction for objects of class `",
           infer_type(x)$ToString(),
-          "` not supported in Arrow"
+          "`"
         )
       )
     }
@@ -240,7 +248,7 @@ register_bindings_datetime_components <- function() {
   })
   register_binding("lubridate::semester", function(x, with_year = FALSE) {
     month <- call_binding("month", x)
-    semester <- call_binding("if_else", month <= 6, 1L, 2L)
+    semester <- Expression$create("if_else", month <= 6, 1L, 2L)
     if (with_year) {
       year <- call_binding("year", x)
       return(year + semester / 10)
@@ -251,29 +259,32 @@ register_bindings_datetime_components <- function() {
 }
 
 register_bindings_datetime_conversion <- function() {
-  register_binding("lubridate::make_datetime", function(year = 1970L,
-                                                        month = 1L,
-                                                        day = 1L,
-                                                        hour = 0L,
-                                                        min = 0L,
-                                                        sec = 0,
-                                                        tz = "UTC") {
-
-    # ParseTimestampStrptime currently ignores the timezone information (ARROW-12820).
-    # Stop if tz other than 'UTC' is provided.
-    if (tz != "UTC") {
-      arrow_not_supported("Time zone other than 'UTC'")
-    }
+  register_binding(
+    "lubridate::make_datetime",
+    function(year = 1970L,
+             month = 1L,
+             day = 1L,
+             hour = 0L,
+             min = 0L,
+             sec = 0,
+             tz = "UTC") {
+      # ParseTimestampStrptime currently ignores the timezone information (ARROW-12820).
+      # Stop if tz other than 'UTC' is provided.
+      if (tz != "UTC") {
+        arrow_not_supported("Time zone other than 'UTC'")
+      }
 
-    x <- call_binding("str_c", year, month, day, hour, min, sec, sep = "-")
-    build_expr("strptime", x, options = list(format = "%Y-%m-%d-%H-%M-%S", unit = 0L))
-  })
+      x <- call_binding("str_c", year, month, day, hour, min, sec, sep = "-")
+      Expression$create("strptime", x, options = list(format = "%Y-%m-%d-%H-%M-%S", unit = 0L))
+    },
+    notes = "only supports UTC (default) timezone"
+  )
 
   register_binding("lubridate::make_date", function(year = 1970L,
                                                     month = 1L,
                                                     day = 1L) {
     x <- call_binding("make_datetime", year, month, day)
-    build_expr("cast", x, options = cast_options(to_type = date32()))
+    cast(x, date32())
   })
 
   register_binding("base::ISOdatetime", function(year,
@@ -283,7 +294,6 @@ register_bindings_datetime_conversion <- function() {
                                                  min,
                                                  sec,
                                                  tz = "UTC") {
-
     # NAs for seconds aren't propagated (but treated as 0) in the base version
     sec <- call_binding(
       "if_else",
@@ -305,37 +315,45 @@ register_bindings_datetime_conversion <- function() {
     call_binding("make_datetime", year, month, day, hour, min, sec, tz)
   })
 
-  register_binding("base::as.Date", function(x,
-                                             format = NULL,
-                                             tryFormats = "%Y-%m-%d",
-                                             origin = "1970-01-01",
-                                             tz = "UTC") {
-    if (is.null(format) && length(tryFormats) > 1) {
-      abort(
-        paste(
-          "`as.Date()` with multiple `tryFormats` is not supported in Arrow,",
-          "consider using the lubridate specialised parsing functions such as, `ymd()`, `ymd()`, etc."
+  register_binding(
+    "base::as.Date",
+    function(x,
+             format = NULL,
+             tryFormats = "%Y-%m-%d",
+             origin = "1970-01-01",
+             tz = "UTC") {
+      if (is.null(format) && length(tryFormats) > 1) {
+        abort(
+          paste(
+            "`as.Date()` with multiple `tryFormats` is not supported in Arrow.",
+            "Consider using the lubridate specialised parsing functions `ymd()`, `ymd()`, etc."
+          )
         )
-      )
-    }
+      }
 
-    # base::as.Date() and lubridate::as_date() differ in the way they use the
-    # `tz` argument. Both cast to the desired timezone, if present. The
-    # difference appears when the `tz` argument is not set: `as.Date()` uses the
-    # default value ("UTC"), while `as_date()` keeps the original attribute
-    # => we only cast when we want the behaviour of the base version or when
-    # `tz` is set (i.e. not NULL)
-    if (call_binding("is.POSIXct", x)) {
-      x <- build_expr("cast", x, options = cast_options(to_type = timestamp(timezone = tz)))
-    }
+      # base::as.Date() and lubridate::as_date() differ in the way they use the
+      # `tz` argument. Both cast to the desired timezone, if present. The
+      # difference appears when the `tz` argument is not set: `as.Date()` uses the
+      # default value ("UTC"), while `as_date()` keeps the original attribute
+      # => we only cast when we want the behaviour of the base version or when
+      # `tz` is set (i.e. not NULL)
+      if (call_binding("is.POSIXct", x)) {
+        unit <- if (inherits(x, "Expression")) x$type()$unit() else "s"
+        x <- cast(x, timestamp(unit = unit, timezone = tz))
+      }
 
-    binding_as_date(
-      x = x,
-      format = format,
-      tryFormats = tryFormats,
-      origin = origin
+      binding_as_date(
+        x = x,
+        format = format,
+        tryFormats = tryFormats,
+        origin = origin
+      )
+    },
+    notes = c(
+      "Multiple `tryFormats` not supported in Arrow.",
+      "Consider using the lubridate specialised parsing functions `ymd()`, `ymd()`, etc."
     )
-  })
+  )
 
   register_binding("lubridate::as_date", function(x,
                                                   format = NULL,
@@ -348,7 +366,8 @@ register_bindings_datetime_conversion <- function() {
     # => we only cast when we want the behaviour of the base version or when
     # `tz` is set (i.e. not NULL)
     if (call_binding("is.POSIXct", x) && !is.null(tz)) {
-      x <- build_expr("cast", x, options = cast_options(to_type = timestamp(timezone = tz)))
+      unit <- if (inherits(x, "Expression")) x$type()$unit() else "s"
+      x <- cast(x, timestamp(unit = unit, timezone = tz))
     }
     binding_as_date(
       x = x,
@@ -360,225 +379,329 @@ register_bindings_datetime_conversion <- function() {
   register_binding("lubridate::as_datetime", function(x,
                                                       origin = "1970-01-01",
                                                       tz = "UTC",
-                                                      format = NULL) {
+                                                      format = NULL,
+                                                      unit = "ns") {
+    # Arrow uses unit for time parsing, as_datetime() does not.
+    unit <- make_valid_time_unit(
+      unit,
+      c(valid_time64_units, valid_time32_units)
+    )
+
+    if (call_binding("is.integer", x)) {
+      x <- cast(x, int64())
+    }
+
     if (call_binding("is.numeric", x)) {
+      multiple <- Expression$create("power_checked", 1000L, unit)
       delta <- call_binding("difftime", origin, "1970-01-01")
-      delta <- build_expr("cast", delta, options = cast_options(to_type = int64()))
-      x <- build_expr("cast", x, options = cast_options(to_type = int64()))
-      x <- build_expr("+", x, delta)
+      delta <- cast(delta, int64())
+      delta <- Expression$create("multiply_checked", delta, multiple)
+      x <- Expression$create("multiply_checked", x, multiple)
+      x <- cast(x, int64())
+      x <- Expression$create("add_checked", x, delta)
     }
 
     if (call_binding("is.character", x) && !is.null(format)) {
-      # unit = 0L is the identifier for seconds in valid_time32_units
-      x <- build_expr(
+      x <- Expression$create(
         "strptime",
         x,
-        options = list(format = format, unit = 0L, error_is_null = TRUE)
+        options = list(format = format, unit = unit, error_is_null = TRUE)
       )
     }
-    output <- build_expr("cast", x, options = cast_options(to_type = timestamp()))
-    build_expr("assume_timezone", output, options = list(timezone = tz))
+    output <- cast(x, timestamp(unit = unit))
+    Expression$create("assume_timezone", output, options = list(timezone = tz))
   })
 
   register_binding("lubridate::decimal_date", function(date) {
-    y <- build_expr("year", date)
+    y <- Expression$create("year", date)
     start <- call_binding("make_datetime", year = y, tz = "UTC")
     sofar <- call_binding("difftime", date, start, units = "secs")
-    total <- call_binding(
+    total <- Expression$create(
       "if_else",
-      build_expr("is_leap_year", date),
+      Expression$create("is_leap_year", date),
       Expression$scalar(31622400L), # number of seconds in a leap year (366 days)
       Expression$scalar(31536000L) # number of seconds in a regular year (365 days)
     )
-    y + sofar$cast(int64()) / total
+    y + cast(sofar, int64()) / total
   })
 
   register_binding("lubridate::date_decimal", function(decimal, tz = "UTC") {
-    y <- build_expr("floor", decimal)
+    y <- Expression$create("floor", decimal)
 
     start <- call_binding("make_datetime", year = y, tz = tz)
-    seconds <- call_binding(
+    seconds <- Expression$create(
       "if_else",
-      build_expr("is_leap_year", start),
+      Expression$create("is_leap_year", start),
       Expression$scalar(31622400L), # number of seconds in a leap year (366 days)
       Expression$scalar(31536000L) # number of seconds in a regular year (365 days)
     )
 
     fraction <- decimal - y
-    delta <- build_expr("floor", seconds * fraction)
+    delta <- Expression$create("floor", seconds * fraction)
     delta <- make_duration(delta, "s")
     start + delta
   })
 }
 
-register_bindings_duration <- function() {
-  register_binding("base::difftime", function(time1,
-                                              time2,
-                                              tz,
-                                              units = "secs") {
-    if (units != "secs") {
-      abort("`difftime()` with units other than `secs` not supported in Arrow")
-    }
+register_bindings_datetime_timezone <- function() {
+  register_binding(
+    "lubridate::force_tz",
+    function(time, tzone = "", roll_dst = c("error", "post")) {
+      if (length(roll_dst) == 1L) {
+        roll_dst <- c(roll_dst, roll_dst)
+      } else if (length(roll_dst) != 2L) {
+        arrow_not_supported("`roll_dst` must be 1 or 2 items long; other lengths")
+      }
 
-    if (!missing(tz)) {
-      warn("`tz` argument is not supported in Arrow, so it will be ignored")
-    }
+      nonexistent <- switch(
+        roll_dst[1],
+        "error" = 0L,
+        "boundary" = 2L,
+        arrow_not_supported("`roll_dst` value must be 'error' or 'boundary' for non-existent times; other values")
+      )
 
-    # cast to timestamp if time1 and time2 are not dates or timestamp expressions
-    # (the subtraction of which would output a `duration`)
-    if (!call_binding("is.instant", time1)) {
-      time1 <- build_expr("cast", time1, options = cast_options(to_type = timestamp()))
-    }
+      ambiguous <- switch(
+        roll_dst[2],
+        "error" = 0L,
+        "pre" = 1L,
+        "post" = 2L,
+        arrow_not_supported("`roll_dst` value must be 'error', 'pre', or 'post' for non-existent times")
+      )
 
-    if (!call_binding("is.instant", time2)) {
-      time2 <- build_expr("cast", time2, options = cast_options(to_type = timestamp()))
-    }
+      if (identical(tzone, "")) {
+        tzone <- Sys.timezone()
+      }
 
-    # if time1 or time2 are timestamps they cannot be expressed in "s" /seconds
-    # otherwise they cannot be added subtracted with durations
-    # TODO delete the casting to "us" once
-    # https://issues.apache.org/jira/browse/ARROW-16060 is solved
-    if (inherits(time1, "Expression") &&
-      time1$type_id() %in% Type[c("TIMESTAMP")] && time1$type()$unit() != 2L) {
-      time1 <- build_expr("cast", time1, options = cast_options(to_type = timestamp("us")))
-    }
+      if (!inherits(time, "Expression")) {
+        time <- Expression$scalar(time)
+      }
 
-    if (inherits(time2, "Expression") &&
-      time2$type_id() %in% Type[c("TIMESTAMP")] && time2$type()$unit() != 2L) {
-      time2 <- build_expr("cast", time2, options = cast_options(to_type = timestamp("us")))
-    }
+      # Non-UTC timezones don't work here and getting them to do so was too
+      # hard to do in the initial PR because there is no way in Arrow to
+      # "unapply" a UTC offset (i.e., the reverse of assume_timezone).
+      if (!time$type()$timezone() %in% c("", "UTC")) {
+        arrow_not_supported("`time` with a non-UTC timezone")
+      }
 
-    # we need to go build the subtract expression instead of `time1 - time2` to
-    # prevent complaints when we try to subtract an R object from an Expression
-    subtract_output <- build_expr("-", time1, time2)
-    build_expr("cast", subtract_output, options = cast_options(to_type = duration("s")))
-  })
-  register_binding("base::as.difftime", function(x,
-                                                 format = "%X",
-                                                 units = "secs") {
-    # windows doesn't seem to like "%X"
-    if (format == "%X" & tolower(Sys.info()[["sysname"]]) == "windows") {
-      format <- "%H:%M:%S"
-    }
+      # Remove timezone if needed
+      current_unit <- time$type()$unit()
+      time <- cast(time, timestamp(current_unit, ""))
 
-    if (units != "secs") {
-      abort("`as.difftime()` with units other than 'secs' not supported in Arrow")
-    }
+      # Add timezone
+      Expression$create(
+        "assume_timezone",
+        time,
+        options = list(
+          timezone = tzone,
+          nonexistent = nonexistent,
+          ambiguous = ambiguous
+        )
+      )
+    },
+    notes = c(
+      "Timezone conversion from non-UTC timezone not supported;",
+      "`roll_dst` values of 'error' and 'boundary' are supported for nonexistent times,",
+      "`roll_dst` values of 'error', 'pre', and 'post' are supported for ambiguous times."
+    )
+  )
 
-    if (call_binding("is.character", x)) {
-      x <- build_expr("strptime", x, options = list(format = format, unit = 0L))
-      # we do a final cast to duration ("s") at the end
-      x <- make_duration(x$cast(time64("us")), unit = "us")
+  register_binding("lubridate::with_tz", function(time, tzone = "") {
+    if (tzone == "") {
+      tzone <- Sys.timezone()
     }
+    cast(time, timestamp(unit = time$type()$unit(), timezone = tzone))
+  })
+}
 
-    # numeric -> duration not supported in Arrow yet so we use int64() as an
-    # intermediate step
-    # TODO: revisit after ARROW-15862
+register_bindings_duration <- function() {
+  register_binding(
+    "base::difftime",
+    function(time1, time2, tz, units = "secs") {
+      if (units != "secs") {
+        arrow_not_supported("`difftime()` with units other than `secs`")
+      }
 
-    if (call_binding("is.numeric", x)) {
-      # coerce x to be int64(). it should work for integer-like doubles and fail
-      # for pure doubles
-      # if we abort for all doubles, we risk erroring in cases in which
-      # coercion to int64() would work
-      x <- build_expr("cast", x, options = cast_options(to_type = int64()))
-    }
+      if (!missing(tz)) {
+        warn("`tz` argument is not supported in Arrow, so it will be ignored")
+      }
 
-    build_expr("cast", x, options = cast_options(to_type = duration(unit = "s")))
-  })
+      # cast to timestamp if time1 and time2 are not dates or timestamp expressions
+      # (the subtraction of which would output a `duration`)
+      if (!call_binding("is.instant", time1)) {
+        time1 <- cast(time1, timestamp())
+      }
+
+      if (!call_binding("is.instant", time2)) {
+        time2 <- cast(time2, timestamp())
+      }
+
+      # if time1 or time2 are timestamps they cannot be expressed in "s" /seconds
+      # otherwise they cannot be added subtracted with durations
+      # TODO delete the casting to "us" once
+      # https://issues.apache.org/jira/browse/ARROW-16060 is solved
+      if (inherits(time1, "Expression") &&
+        time1$type_id() %in% Type[c("TIMESTAMP")] && time1$type()$unit() != 2L) {
+        time1 <- cast(time1, timestamp("us"))
+      }
+
+      if (inherits(time2, "Expression") &&
+        time2$type_id() %in% Type[c("TIMESTAMP")] && time2$type()$unit() != 2L) {
+        time2 <- cast(time2, timestamp("us"))
+      }
+
+      # we need to go build the subtract expression instead of `time1 - time2` to
+      # prevent complaints when we try to subtract an R object from an Expression
+      cast(call_binding("-", time1, time2), duration("s"))
+    },
+    notes = c(
+      'only supports `units = "secs"` (the default);',
+      "`tz` argument not supported"
+    )
+  )
+
+  register_binding(
+    "base::as.difftime",
+    function(x, format = "%X", units = "secs") {
+      # windows doesn't seem to like "%X"
+      if (format == "%X" & tolower(Sys.info()[["sysname"]]) == "windows") {
+        format <- "%H:%M:%S"
+      }
+
+      if (units != "secs") {
+        arrow_not_supported("`as.difftime()` with units other than 'secs'")
+      }
+
+      if (call_binding("is.character", x)) {
+        x <- Expression$create("strptime", x, options = list(format = format, unit = 0L))
+        # we do a final cast to duration ("s") at the end
+        x <- make_duration(cast(x, time64("us")), unit = "us")
+      }
+
+      # numeric -> duration not supported in Arrow yet so we use int64() as an
+      # intermediate step
+      # TODO: revisit after ARROW-15862
+
+      if (call_binding("is.numeric", x)) {
+        # coerce x to be int64(). it should work for integer-like doubles and fail
+        # for pure doubles
+        # if we abort for all doubles, we risk erroring in cases in which
+        # coercion to int64() would work
+        x <- cast(x, int64())
+      }
+
+      cast(x, duration(unit = "s"))
+    },
+    notes = 'only supports `units = "secs"` (the default)'
+  )
 }
 
 register_bindings_duration_constructor <- function() {
-  register_binding("lubridate::make_difftime", function(num = NULL,
-                                                        units = "secs",
-                                                        ...) {
-    if (units != "secs") {
-      abort("`make_difftime()` with units other than 'secs' not supported in Arrow")
-    }
+  register_binding(
+    "lubridate::make_difftime",
+    function(num = NULL, units = "secs", ...) {
+      if (units != "secs") {
+        arrow_not_supported("`make_difftime()` with units other than 'secs'")
+      }
 
-    chunks <- list(...)
+      chunks <- list(...)
 
-    # lubridate concatenates durations passed via the `num` argument with those
-    # passed via `...` resulting in a vector of length 2 - which is virtually
-    # unusable in a dplyr pipeline. Arrow errors in this situation
-    if (!is.null(num) && length(chunks) > 0) {
-      abort("`make_difftime()` with both `num` and `...` not supported in Arrow")
-    }
+      # lubridate concatenates durations passed via the `num` argument with those
+      # passed via `...` resulting in a vector of length 2 - which is virtually
+      # unusable in a dplyr pipeline. Arrow errors in this situation
+      if (!is.null(num) && length(chunks) > 0) {
+        arrow_not_supported("`make_difftime()` with both `num` and `...`")
+      }
 
-    if (!is.null(num)) {
-      # build duration from num if present
-      duration <- num
-    } else {
-      # build duration from chunks when nothing is passed via ...
-      duration <- duration_from_chunks(chunks)
-    }
+      if (!is.null(num)) {
+        # build duration from num if present
+        duration <- num
+      } else {
+        # build duration from chunks when nothing is passed via ...
+        duration <- duration_from_chunks(chunks)
+      }
 
-    make_duration(duration, "s")
-  })
+      make_duration(duration, "s")
+    },
+    notes = c(
+      'only supports `units = "secs"` (the default);',
+      "providing both `num` and `...` is not supported"
+    )
+  )
 }
 
 register_bindings_duration_helpers <- function() {
-  duration_helpers_map_factory <- function(value, unit) {
+  duration_factory <- function(value, unit) {
     force(value)
     force(unit)
     function(x = 1) make_duration(x * value, unit)
   }
 
-  for (name in names(.helpers_function_map)) {
-    register_binding(
-      name,
-      duration_helpers_map_factory(
-        .helpers_function_map[[name]][[1]],
-        .helpers_function_map[[name]][[2]]
-      )
-    )
-  }
-
-  register_binding("lubridate::dpicoseconds", function(x = 1) {
-    abort("Duration in picoseconds not supported in Arrow.")
-  })
+  register_binding("lubridate::dminutes", duration_factory(60, "s"))
+  register_binding("lubridate::dhours", duration_factory(3600, "s"))
+  register_binding("lubridate::ddays", duration_factory(86400, "s"))
+  register_binding("lubridate::dweeks", duration_factory(604800, "s"))
+  register_binding("lubridate::dmonths", duration_factory(2629800, "s"))
+  register_binding("lubridate::dyears", duration_factory(31557600, "s"))
+  register_binding("lubridate::dseconds", duration_factory(1, "s"))
+  register_binding("lubridate::dmilliseconds", duration_factory(1, "ms"))
+  register_binding("lubridate::dmicroseconds", duration_factory(1, "us"))
+  register_binding("lubridate::dnanoseconds", duration_factory(1, "ns"))
+  register_binding(
+    "lubridate::dpicoseconds",
+    function(x = 1) {
+      abort("Duration in picoseconds not supported in Arrow.")
+    },
+    notes = "not supported"
+  )
 }
 
 register_bindings_datetime_parsers <- function() {
-  register_binding("lubridate::parse_date_time", function(x,
-                                                          orders,
-                                                          tz = "UTC",
-                                                          truncated = 0,
-                                                          quiet = TRUE,
-                                                          exact = FALSE) {
-    if (!quiet) {
-      arrow_not_supported("`quiet = FALSE`")
-    }
+  register_binding(
+    "lubridate::parse_date_time",
+    function(x,
+             orders,
+             tz = "UTC",
+             truncated = 0,
+             quiet = TRUE,
+             exact = FALSE) {
+      if (!quiet) {
+        arrow_not_supported("`quiet = FALSE`")
+      }
 
-    if (truncated > 0) {
-      if (truncated > (nchar(orders) - 3)) {
-        arrow_not_supported(paste0("a value for `truncated` > ", nchar(orders) - 3))
+      if (truncated > 0) {
+        if (truncated > (nchar(orders) - 3)) {
+          arrow_not_supported(paste0("a value for `truncated` > ", nchar(orders) - 3))
+        }
+        # build several orders for truncated formats
+        orders <- map_chr(0:truncated, ~ substr(orders, start = 1, stop = nchar(orders) - .x))
       }
-      # build several orders for truncated formats
-      orders <- map_chr(0:truncated, ~ substr(orders, start = 1, stop = nchar(orders) - .x))
-    }
 
-    if (!inherits(x, "Expression")) {
-      x <- Expression$scalar(x)
-    }
+      if (!inherits(x, "Expression")) {
+        x <- Expression$scalar(x)
+      }
 
-    if (exact == TRUE) {
-      # no data processing takes place & we don't derive formats
-      parse_attempts <- build_strptime_exprs(x, orders)
-    } else {
-      parse_attempts <- attempt_parsing(x, orders = orders)
-    }
+      if (exact == TRUE) {
+        # no data processing takes place & we don't derive formats
+        parse_attempts <- build_strptime_exprs(x, orders)
+      } else {
+        parse_attempts <- attempt_parsing(x, orders = orders)
+      }
 
-    coalesce_output <- build_expr("coalesce", args = parse_attempts)
+      coalesce_output <- Expression$create("coalesce", args = parse_attempts)
 
-    # we need this binding to be able to handle a NULL `tz`, which, in turn,
-    # will be used by bindings such as `ymd()` to return a date or timestamp,
-    # based on whether tz is NULL or not
-    if (!is.null(tz)) {
-      build_expr("assume_timezone", coalesce_output, options = list(timezone = tz))
-    } else {
-      coalesce_output
-    }
-  })
+      # we need this binding to be able to handle a NULL `tz`, which, in turn,
+      # will be used by bindings such as `ymd()` to return a date or timestamp,
+      # based on whether tz is NULL or not
+      if (!is.null(tz)) {
+        Expression$create("assume_timezone", coalesce_output, options = list(timezone = tz))
+      } else {
+        coalesce_output
+      }
+    },
+    notes = c(
+      "`quiet = FALSE` is not supported"
+    )
+  )
 
   parser_vec <- c(
     "ymd", "ydm", "mdy", "myd", "dmy", "dym", "ym", "my", "yq",
@@ -601,7 +724,7 @@ register_bindings_datetime_parsers <- function() {
         # we cast so we can mimic the behaviour of the `tz` argument in lubridate
         # "If NULL (default), a Date object is returned. Otherwise a POSIXct with
         # time zone attribute set to tz."
-        parse_x <- parse_x$cast(date32())
+        parse_x <- cast(parse_x, date32())
       }
       parse_x
     }
@@ -610,94 +733,94 @@ register_bindings_datetime_parsers <- function() {
   for (order in parser_vec) {
     register_binding(
       paste0("lubridate::", tolower(order)),
-      parser_map_factory(order)
+      parser_map_factory(order),
+      notes = "`locale` argument not supported"
     )
   }
 
-  register_binding("lubridate::fast_strptime", function(x,
-                                                        format,
-                                                        tz = "UTC",
-                                                        lt = FALSE,
-                                                        cutoff_2000 = 68L) {
-    # `lt` controls the output `lt = TRUE` returns a POSIXlt (which doesn't play
-    # well with mutate, for example)
-    if (lt) {
-      arrow_not_supported("`lt = TRUE` argument")
-    }
-
-    # TODO revisit once https://issues.apache.org/jira/browse/ARROW-16596 is done
-    if (cutoff_2000 != 68L) {
-      arrow_not_supported("`cutoff_2000` != 68L argument")
-    }
+  register_binding(
+    "lubridate::fast_strptime",
+    function(x, format, tz = "UTC", lt = FALSE, cutoff_2000 = 68L) {
+      # `lt` controls the output `lt = TRUE` returns a POSIXlt (which doesn't play
+      # well with mutate, for example)
+      if (lt) {
+        arrow_not_supported("`lt = TRUE` argument")
+      }
 
-    parse_attempt_expressions <- list()
+      # TODO revisit after https://issues.apache.org/jira/browse/ARROW-16596
+      if (cutoff_2000 != 68L) {
+        arrow_not_supported("`cutoff_2000` != 68L argument")
+      }
 
-    parse_attempt_expressions <- map(
-      format,
-      ~ build_expr(
-        "strptime",
-        x,
-        options = list(
-          format = .x,
-          unit = 0L,
-          error_is_null = TRUE
+      parse_attempt_expressions <- list()
+
+      parse_attempt_expressions <- map(
+        format,
+        ~ Expression$create(
+          "strptime",
+          x,
+          options = list(
+            format = .x,
+            unit = 0L,
+            error_is_null = TRUE
+          )
         )
       )
-    )
-
-    coalesce_output <- build_expr("coalesce", args = parse_attempt_expressions)
 
-    build_expr("assume_timezone", coalesce_output, options = list(timezone = tz))
-  })
+      coalesce_output <- Expression$create("coalesce", args = parse_attempt_expressions)
 
+      Expression$create("assume_timezone", coalesce_output, options = list(timezone = tz))
+    },
+    notes = "non-default values of `lt` and `cutoff_2000` not supported"
+  )
 }
 
 register_bindings_datetime_rounding <- function() {
   register_binding(
-    "round_date",
+    "lubridate::round_date",
     function(x,
              unit = "second",
              week_start = getOption("lubridate.week.start", 7)) {
+      opts <- parse_period_unit(unit)
+      if (opts$unit == 7L) { # weeks (unit = 7L) need to accommodate week_start
+        return(shift_temporal_to_week("round_temporal", x, week_start, options = opts))
+      }
 
-    opts <- parse_period_unit(unit)
-    if (opts$unit == 7L) { # weeks (unit = 7L) need to accommodate week_start
-      return(shift_temporal_to_week("round_temporal", x, week_start, options = opts))
+      Expression$create("round_temporal", x, options = opts)
     }
-
-    Expression$create("round_temporal", x, options = opts)
-  })
+  )
 
   register_binding(
-    "floor_date",
+    "lubridate::floor_date",
     function(x,
              unit = "second",
              week_start = getOption("lubridate.week.start", 7)) {
+      opts <- parse_period_unit(unit)
+      if (opts$unit == 7L) { # weeks (unit = 7L) need to accommodate week_start
+        return(shift_temporal_to_week("floor_temporal", x, week_start, options = opts))
+      }
 
-    opts <- parse_period_unit(unit)
-    if (opts$unit == 7L) { # weeks (unit = 7L) need to accommodate week_start
-      return(shift_temporal_to_week("floor_temporal", x, week_start, options = opts))
+      Expression$create("floor_temporal", x, options = opts)
     }
-
-    Expression$create("floor_temporal", x, options = opts)
-  })
+  )
 
   register_binding(
-    "ceiling_date",
+    "lubridate::ceiling_date",
     function(x,
              unit = "second",
              change_on_boundary = NULL,
              week_start = getOption("lubridate.week.start", 7)) {
-    opts <- parse_period_unit(unit)
-    if (is.null(change_on_boundary)) {
-      change_on_boundary <- ifelse(call_binding("is.Date", x), TRUE, FALSE)
-    }
-    opts$ceil_is_strictly_greater <- change_on_boundary
-
-    if (opts$unit == 7L) { # weeks (unit = 7L) need to accommodate week_start
-      return(shift_temporal_to_week("ceil_temporal", x, week_start, options = opts))
-    }
+      opts <- parse_period_unit(unit)
+      if (is.null(change_on_boundary)) {
+        change_on_boundary <- ifelse(call_binding("is.Date", x), TRUE, FALSE)
+      }
+      opts$ceil_is_strictly_greater <- change_on_boundary
 
-    Expression$create("ceil_temporal", x, options = opts)
-  })
+      if (opts$unit == 7L) { # weeks (unit = 7L) need to accommodate week_start
+        return(shift_temporal_to_week("ceil_temporal", x, week_start, options = opts))
+      }
 
+      Expression$create("ceil_temporal", x, options = opts)
+    }
+  )
 }
diff --git a/r/R/dplyr-funcs-doc.R b/r/R/dplyr-funcs-doc.R
new file mode 100644
index 00000000000..4858f392ea0
--- /dev/null
+++ b/r/R/dplyr-funcs-doc.R
@@ -0,0 +1,353 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+# Generated by using data-raw/docgen.R -> do not edit by hand
+
+#' Functions available in Arrow dplyr queries
+#'
+#' The `arrow` package contains methods for 37 `dplyr` table functions, many of
+#' which are "verbs" that do transformations to one or more tables.
+#' The package also has mappings of 211 R functions to the corresponding
+#' functions in the Arrow compute library. These allow you to write code inside
+#' of `dplyr` methods that call R functions, including many in packages like
+#' `stringr` and `lubridate`, and they will get translated to Arrow and run
+#' on the Arrow query engine (Acero). This document lists all of the mapped
+#' functions.
+#'
+#' # `dplyr` verbs
+#'
+#' Most verb functions return an `arrow_dplyr_query` object, similar in spirit
+#' to a `dbplyr::tbl_lazy`. This means that the verbs do not eagerly evaluate
+#' the query on the data. To run the query, call either `compute()`,
+#' which returns an `arrow` [Table], or `collect()`, which pulls the resulting
+#' Table into an R `data.frame`.
+#'
+#' * [`anti_join()`][dplyr::anti_join()]: the `copy` and `na_matches` arguments are ignored
+#' * [`arrange()`][dplyr::arrange()]
+#' * [`collapse()`][dplyr::collapse()]
+#' * [`collect()`][dplyr::collect()]
+#' * [`compute()`][dplyr::compute()]
+#' * [`count()`][dplyr::count()]
+#' * [`distinct()`][dplyr::distinct()]: `.keep_all = TRUE` not supported
+#' * [`explain()`][dplyr::explain()]
+#' * [`filter()`][dplyr::filter()]
+#' * [`full_join()`][dplyr::full_join()]: the `copy` and `na_matches` arguments are ignored
+#' * [`glimpse()`][dplyr::glimpse()]
+#' * [`group_by()`][dplyr::group_by()]
+#' * [`group_by_drop_default()`][dplyr::group_by_drop_default()]
+#' * [`group_vars()`][dplyr::group_vars()]
+#' * [`groups()`][dplyr::groups()]
+#' * [`inner_join()`][dplyr::inner_join()]: the `copy` and `na_matches` arguments are ignored
+#' * [`left_join()`][dplyr::left_join()]: the `copy` and `na_matches` arguments are ignored
+#' * [`mutate()`][dplyr::mutate()]: window functions (e.g. things that require aggregation within groups) not currently supported
+#' * [`pull()`][dplyr::pull()]: the `name` argument is not supported; returns an R vector by default but this behavior is deprecated and will return an Arrow [ChunkedArray] in a future release. Provide `as_vector = TRUE/FALSE` to control this behavior, or set `options(arrow.pull_as_vector)` globally.
+#' * [`relocate()`][dplyr::relocate()]
+#' * [`rename()`][dplyr::rename()]
+#' * [`rename_with()`][dplyr::rename_with()]
+#' * [`right_join()`][dplyr::right_join()]: the `copy` and `na_matches` arguments are ignored
+#' * [`select()`][dplyr::select()]
+#' * [`semi_join()`][dplyr::semi_join()]: the `copy` and `na_matches` arguments are ignored
+#' * [`show_query()`][dplyr::show_query()]
+#' * [`slice_head()`][dplyr::slice_head()]: slicing within groups not supported; Arrow datasets do not have row order, so head is non-deterministic; `prop` only supported on queries where `nrow()` is knowable without evaluating
+#' * [`slice_max()`][dplyr::slice_max()]: slicing within groups not supported; `with_ties = TRUE` (dplyr default) is not supported; `prop` only supported on queries where `nrow()` is knowable without evaluating
+#' * [`slice_min()`][dplyr::slice_min()]: slicing within groups not supported; `with_ties = TRUE` (dplyr default) is not supported; `prop` only supported on queries where `nrow()` is knowable without evaluating
+#' * [`slice_sample()`][dplyr::slice_sample()]: slicing within groups not supported; `replace = TRUE` and the `weight_by` argument not supported; `n` only supported on queries where `nrow()` is knowable without evaluating
+#' * [`slice_tail()`][dplyr::slice_tail()]: slicing within groups not supported; Arrow datasets do not have row order, so tail is non-deterministic; `prop` only supported on queries where `nrow()` is knowable without evaluating
+#' * [`summarise()`][dplyr::summarise()]: window functions not currently supported; arguments `.drop = FALSE` and `.groups = "rowwise" not supported
+#' * [`tally()`][dplyr::tally()]
+#' * [`transmute()`][dplyr::transmute()]
+#' * [`ungroup()`][dplyr::ungroup()]
+#' * [`union()`][dplyr::union()]
+#' * [`union_all()`][dplyr::union_all()]
+#'
+#' # Function mappings
+#'
+#' In the list below, any differences in behavior or support between Acero and
+#' the R function are listed. If no notes follow the function name, then you
+#' can assume that the function works in Acero just as it does in R.
+#'
+#' Functions can be called either as `pkg::fun()` or just `fun()`, i.e. both
+#' `str_sub()` and `stringr::str_sub()` work.
+#'
+#' In addition to these functions, you can call any of Arrow's 246 compute
+#' functions directly. Arrow has many functions that don't map to an existing R
+#' function. In other cases where there is an R function mapping, you can still
+#' call the Arrow function directly if you don't want the adaptations that the R
+#' mapping has that make Acero behave like R. These functions are listed in the
+#' [C++ documentation](https://arrow.apache.org/docs/cpp/compute.html), and
+#' in the function registry in R, they are named with an `arrow_` prefix, such
+#' as `arrow_ascii_is_decimal`.
+#'
+#' ## arrow
+#'
+#' * [`add_filename()`][arrow::add_filename()]
+#' * [`cast()`][arrow::cast()]
+#'
+#' ## base
+#'
+#' * [`-`][-()]
+#' * [`!`][!()]
+#' * [`!=`][!=()]
+#' * [`*`][*()]
+#' * [`/`][/()]
+#' * [`&`][&()]
+#' * [`%/%`][%/%()]
+#' * [`%%`][%%()]
+#' * [`%in%`][%in%()]
+#' * [`^`][^()]
+#' * [`+`][+()]
+#' * [`<`][<()]
+#' * [`<=`][<=()]
+#' * [`==`][==()]
+#' * [`>`][>()]
+#' * [`>=`][>=()]
+#' * [`|`][|()]
+#' * [`abs()`][base::abs()]
+#' * [`acos()`][base::acos()]
+#' * [`all()`][base::all()]
+#' * [`any()`][base::any()]
+#' * [`as.character()`][base::as.character()]
+#' * [`as.Date()`][base::as.Date()]: Multiple `tryFormats` not supported in Arrow.
+#' Consider using the lubridate specialised parsing functions `ymd()`, `ymd()`, etc.
+#' * [`as.difftime()`][base::as.difftime()]: only supports `units = "secs"` (the default)
+#' * [`as.double()`][base::as.double()]
+#' * [`as.integer()`][base::as.integer()]
+#' * [`as.logical()`][base::as.logical()]
+#' * [`as.numeric()`][base::as.numeric()]
+#' * [`asin()`][base::asin()]
+#' * [`ceiling()`][base::ceiling()]
+#' * [`cos()`][base::cos()]
+#' * [`data.frame()`][base::data.frame()]: `row.names` and `check.rows` arguments not supported;
+#' `stringsAsFactors` must be `FALSE`
+#' * [`difftime()`][base::difftime()]: only supports `units = "secs"` (the default);
+#' `tz` argument not supported
+#' * [`endsWith()`][base::endsWith()]
+#' * [`exp()`][base::exp()]
+#' * [`floor()`][base::floor()]
+#' * [`format()`][base::format()]
+#' * [`grepl()`][base::grepl()]
+#' * [`gsub()`][base::gsub()]
+#' * [`ifelse()`][base::ifelse()]
+#' * [`is.character()`][base::is.character()]
+#' * [`is.double()`][base::is.double()]
+#' * [`is.factor()`][base::is.factor()]
+#' * [`is.finite()`][base::is.finite()]
+#' * [`is.infinite()`][base::is.infinite()]
+#' * [`is.integer()`][base::is.integer()]
+#' * [`is.list()`][base::is.list()]
+#' * [`is.logical()`][base::is.logical()]
+#' * [`is.na()`][base::is.na()]
+#' * [`is.nan()`][base::is.nan()]
+#' * [`is.numeric()`][base::is.numeric()]
+#' * [`ISOdate()`][base::ISOdate()]
+#' * [`ISOdatetime()`][base::ISOdatetime()]
+#' * [`log()`][base::log()]
+#' * [`log10()`][base::log10()]
+#' * [`log1p()`][base::log1p()]
+#' * [`log2()`][base::log2()]
+#' * [`logb()`][base::logb()]
+#' * [`max()`][base::max()]
+#' * [`mean()`][base::mean()]
+#' * [`min()`][base::min()]
+#' * [`nchar()`][base::nchar()]: `allowNA = TRUE` and `keepNA = TRUE` not supported
+#' * [`paste()`][base::paste()]: the `collapse` argument is not yet supported
+#' * [`paste0()`][base::paste0()]: the `collapse` argument is not yet supported
+#' * [`pmax()`][base::pmax()]
+#' * [`pmin()`][base::pmin()]
+#' * [`round()`][base::round()]
+#' * [`sign()`][base::sign()]
+#' * [`sin()`][base::sin()]
+#' * [`sqrt()`][base::sqrt()]
+#' * [`startsWith()`][base::startsWith()]
+#' * [`strftime()`][base::strftime()]
+#' * [`strptime()`][base::strptime()]: accepts a `unit` argument not present in the `base` function.
+#' Valid values are "s", "ms" (default), "us", "ns".
+#' * [`strrep()`][base::strrep()]
+#' * [`strsplit()`][base::strsplit()]
+#' * [`sub()`][base::sub()]
+#' * [`substr()`][base::substr()]: `start` and `stop` must be length 1
+#' * [`substring()`][base::substring()]
+#' * [`sum()`][base::sum()]
+#' * [`tan()`][base::tan()]
+#' * [`tolower()`][base::tolower()]
+#' * [`toupper()`][base::toupper()]
+#' * [`trunc()`][base::trunc()]
+#'
+#' ## bit64
+#'
+#' * [`as.integer64()`][bit64::as.integer64()]
+#' * [`is.integer64()`][bit64::is.integer64()]
+#'
+#' ## dplyr
+#'
+#' * [`across()`][dplyr::across()]
+#' * [`between()`][dplyr::between()]
+#' * [`case_when()`][dplyr::case_when()]
+#' * [`coalesce()`][dplyr::coalesce()]
+#' * [`desc()`][dplyr::desc()]
+#' * [`if_all()`][dplyr::if_all()]
+#' * [`if_any()`][dplyr::if_any()]
+#' * [`if_else()`][dplyr::if_else()]
+#' * [`n()`][dplyr::n()]
+#' * [`n_distinct()`][dplyr::n_distinct()]
+#'
+#' ## lubridate
+#'
+#' * [`am()`][lubridate::am()]
+#' * [`as_date()`][lubridate::as_date()]
+#' * [`as_datetime()`][lubridate::as_datetime()]
+#' * [`ceiling_date()`][lubridate::ceiling_date()]
+#' * [`date()`][lubridate::date()]
+#' * [`date_decimal()`][lubridate::date_decimal()]
+#' * [`day()`][lubridate::day()]
+#' * [`ddays()`][lubridate::ddays()]
+#' * [`decimal_date()`][lubridate::decimal_date()]
+#' * [`dhours()`][lubridate::dhours()]
+#' * [`dmicroseconds()`][lubridate::dmicroseconds()]
+#' * [`dmilliseconds()`][lubridate::dmilliseconds()]
+#' * [`dminutes()`][lubridate::dminutes()]
+#' * [`dmonths()`][lubridate::dmonths()]
+#' * [`dmy()`][lubridate::dmy()]: `locale` argument not supported
+#' * [`dmy_h()`][lubridate::dmy_h()]: `locale` argument not supported
+#' * [`dmy_hm()`][lubridate::dmy_hm()]: `locale` argument not supported
+#' * [`dmy_hms()`][lubridate::dmy_hms()]: `locale` argument not supported
+#' * [`dnanoseconds()`][lubridate::dnanoseconds()]
+#' * [`dpicoseconds()`][lubridate::dpicoseconds()]: not supported
+#' * [`dseconds()`][lubridate::dseconds()]
+#' * [`dst()`][lubridate::dst()]
+#' * [`dweeks()`][lubridate::dweeks()]
+#' * [`dyears()`][lubridate::dyears()]
+#' * [`dym()`][lubridate::dym()]: `locale` argument not supported
+#' * [`epiweek()`][lubridate::epiweek()]
+#' * [`epiyear()`][lubridate::epiyear()]
+#' * [`fast_strptime()`][lubridate::fast_strptime()]: non-default values of `lt` and `cutoff_2000` not supported
+#' * [`floor_date()`][lubridate::floor_date()]
+#' * [`force_tz()`][lubridate::force_tz()]: Timezone conversion from non-UTC timezone not supported;
+#' `roll_dst` values of 'error' and 'boundary' are supported for nonexistent times,
+#' `roll_dst` values of 'error', 'pre', and 'post' are supported for ambiguous times.
+#' * [`format_ISO8601()`][lubridate::format_ISO8601()]
+#' * [`hour()`][lubridate::hour()]
+#' * [`is.Date()`][lubridate::is.Date()]
+#' * [`is.instant()`][lubridate::is.instant()]
+#' * [`is.POSIXct()`][lubridate::is.POSIXct()]
+#' * [`is.timepoint()`][lubridate::is.timepoint()]
+#' * [`isoweek()`][lubridate::isoweek()]
+#' * [`isoyear()`][lubridate::isoyear()]
+#' * [`leap_year()`][lubridate::leap_year()]
+#' * [`make_date()`][lubridate::make_date()]
+#' * [`make_datetime()`][lubridate::make_datetime()]: only supports UTC (default) timezone
+#' * [`make_difftime()`][lubridate::make_difftime()]: only supports `units = "secs"` (the default);
+#' providing both `num` and `...` is not supported
+#' * [`mday()`][lubridate::mday()]
+#' * [`mdy()`][lubridate::mdy()]: `locale` argument not supported
+#' * [`mdy_h()`][lubridate::mdy_h()]: `locale` argument not supported
+#' * [`mdy_hm()`][lubridate::mdy_hm()]: `locale` argument not supported
+#' * [`mdy_hms()`][lubridate::mdy_hms()]: `locale` argument not supported
+#' * [`minute()`][lubridate::minute()]
+#' * [`month()`][lubridate::month()]
+#' * [`my()`][lubridate::my()]: `locale` argument not supported
+#' * [`myd()`][lubridate::myd()]: `locale` argument not supported
+#' * [`parse_date_time()`][lubridate::parse_date_time()]: `quiet = FALSE` is not supported
+#' * [`pm()`][lubridate::pm()]
+#' * [`qday()`][lubridate::qday()]
+#' * [`quarter()`][lubridate::quarter()]
+#' * [`round_date()`][lubridate::round_date()]
+#' * [`second()`][lubridate::second()]
+#' * [`semester()`][lubridate::semester()]
+#' * [`tz()`][lubridate::tz()]
+#' * [`wday()`][lubridate::wday()]
+#' * [`week()`][lubridate::week()]
+#' * [`with_tz()`][lubridate::with_tz()]
+#' * [`yday()`][lubridate::yday()]
+#' * [`ydm()`][lubridate::ydm()]: `locale` argument not supported
+#' * [`ydm_h()`][lubridate::ydm_h()]: `locale` argument not supported
+#' * [`ydm_hm()`][lubridate::ydm_hm()]: `locale` argument not supported
+#' * [`ydm_hms()`][lubridate::ydm_hms()]: `locale` argument not supported
+#' * [`year()`][lubridate::year()]
+#' * [`ym()`][lubridate::ym()]: `locale` argument not supported
+#' * [`ymd()`][lubridate::ymd()]: `locale` argument not supported
+#' * [`ymd_h()`][lubridate::ymd_h()]: `locale` argument not supported
+#' * [`ymd_hm()`][lubridate::ymd_hm()]: `locale` argument not supported
+#' * [`ymd_hms()`][lubridate::ymd_hms()]: `locale` argument not supported
+#' * [`yq()`][lubridate::yq()]: `locale` argument not supported
+#'
+#' ## methods
+#'
+#' * [`is()`][methods::is()]
+#'
+#' ## rlang
+#'
+#' * [`is_character()`][rlang::is_character()]
+#' * [`is_double()`][rlang::is_double()]
+#' * [`is_integer()`][rlang::is_integer()]
+#' * [`is_list()`][rlang::is_list()]
+#' * [`is_logical()`][rlang::is_logical()]
+#'
+#' ## stats
+#'
+#' * [`median()`][stats::median()]: approximate median (t-digest) is computed
+#' * [`quantile()`][stats::quantile()]: `probs` must be length 1;
+#' approximate quantile (t-digest) is computed
+#' * [`sd()`][stats::sd()]
+#' * [`var()`][stats::var()]
+#'
+#' ## stringi
+#'
+#' * [`stri_reverse()`][stringi::stri_reverse()]
+#'
+#' ## stringr
+#'
+#' Pattern modifiers `coll()` and `boundary()` are not supported in any functions.
+#'
+#' * [`str_c()`][stringr::str_c()]: the `collapse` argument is not yet supported
+#' * [`str_count()`][stringr::str_count()]: `pattern` must be a length 1 character vector
+#' * [`str_detect()`][stringr::str_detect()]
+#' * [`str_dup()`][stringr::str_dup()]
+#' * [`str_ends()`][stringr::str_ends()]
+#' * [`str_length()`][stringr::str_length()]
+#' * [`str_like()`][stringr::str_like()]
+#' * [`str_pad()`][stringr::str_pad()]
+#' * [`str_remove()`][stringr::str_remove()]
+#' * [`str_remove_all()`][stringr::str_remove_all()]
+#' * [`str_replace()`][stringr::str_replace()]
+#' * [`str_replace_all()`][stringr::str_replace_all()]
+#' * [`str_split()`][stringr::str_split()]: Case-insensitive string splitting and splitting into 0 parts not supported
+#' * [`str_starts()`][stringr::str_starts()]
+#' * [`str_sub()`][stringr::str_sub()]: `start` and `end` must be length 1
+#' * [`str_to_lower()`][stringr::str_to_lower()]
+#' * [`str_to_title()`][stringr::str_to_title()]
+#' * [`str_to_upper()`][stringr::str_to_upper()]
+#' * [`str_trim()`][stringr::str_trim()]
+#'
+#' ## tibble
+#'
+#' * [`tibble()`][tibble::tibble()]
+#'
+#' ## tidyselect
+#'
+#' * [`all_of()`][tidyselect::all_of()]
+#' * [`contains()`][tidyselect::contains()]
+#' * [`ends_with()`][tidyselect::ends_with()]
+#' * [`everything()`][tidyselect::everything()]
+#' * [`last_col()`][tidyselect::last_col()]
+#' * [`matches()`][tidyselect::matches()]
+#' * [`num_range()`][tidyselect::num_range()]
+#' * [`one_of()`][tidyselect::one_of()]
+#' * [`starts_with()`][tidyselect::starts_with()]
+#'
+#' @name acero
+NULL
diff --git a/r/R/dplyr-funcs-math.R b/r/R/dplyr-funcs-math.R
index e7667532000..8c6b3f15024 100644
--- a/r/R/dplyr-funcs-math.R
+++ b/r/R/dplyr-funcs-math.R
@@ -53,46 +53,39 @@ register_bindings_math <- function() {
   register_binding("base::logb", log_binding)
 
   register_binding("base::pmin", function(..., na.rm = FALSE) {
-    build_expr(
+    Expression$create(
       "min_element_wise",
-      ...,
+      args = cast_scalars_to_common_type(list(...)),
       options = list(skip_nulls = na.rm)
     )
   })
 
   register_binding("base::pmax", function(..., na.rm = FALSE) {
-    build_expr(
+    Expression$create(
       "max_element_wise",
-      ...,
+      args = cast_scalars_to_common_type(list(...)),
       options = list(skip_nulls = na.rm)
     )
   })
 
   register_binding("base::trunc", function(x, ...) {
     # accepts and ignores ... for consistency with base::trunc()
-    build_expr("trunc", x)
+    Expression$create("trunc", x)
   })
 
   register_binding("base::round", function(x, digits = 0) {
-    build_expr(
-      "round",
-      x,
-      options = list(ndigits = digits, round_mode = RoundMode$HALF_TO_EVEN)
+    opts <- list(
+      ndigits = digits,
+      round_mode = RoundMode$HALF_TO_EVEN
     )
+    Expression$create("round", x, options = opts)
   })
 
   register_binding("base::sqrt", function(x) {
-    build_expr(
-      "sqrt_checked",
-      x
-    )
+    Expression$create("sqrt_checked", x)
   })
 
   register_binding("base::exp", function(x) {
-    build_expr(
-      "power_checked",
-      exp(1),
-      x
-    )
+    Expression$create("power_checked", exp(1), x)
   })
 }
diff --git a/r/R/dplyr-funcs-simple.R b/r/R/dplyr-funcs-simple.R
new file mode 100644
index 00000000000..308a46601a6
--- /dev/null
+++ b/r/R/dplyr-funcs-simple.R
@@ -0,0 +1,236 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+
+.unary_function_map <- list(
+  # NOTE: Each of the R functions mapped here takes exactly *one* argument, maps
+  # *directly* to an Arrow C++ compute kernel, and does not require any
+  # non-default options to be specified. More complex R function mappings are
+  # defined in dplyr-funcs-*.R.
+
+  # functions are arranged alphabetically by name within categories
+
+  # arithmetic functions
+  "base::abs" = "abs_checked",
+  "base::ceiling" = "ceil",
+  "base::floor" = "floor",
+  "base::log10" = "log10_checked",
+  "base::log1p" = "log1p_checked",
+  "base::log2" = "log2_checked",
+  "base::sign" = "sign",
+  # trunc is defined in dplyr-functions.R
+
+  # trigonometric functions
+  "base::acos" = "acos_checked",
+  "base::asin" = "asin_checked",
+  "base::cos" = "cos_checked",
+  "base::sin" = "sin_checked",
+  "base::tan" = "tan_checked",
+
+  # logical functions
+  "!" = "invert",
+
+  # string functions
+  # nchar is defined in dplyr-functions.R
+  "stringr::str_length" = "utf8_length",
+  # str_pad is defined in dplyr-functions.R
+  # str_sub is defined in dplyr-functions.R
+  # str_to_lower is defined in dplyr-functions.R
+  # str_to_title is defined in dplyr-functions.R
+  # str_to_upper is defined in dplyr-functions.R
+  # str_trim is defined in dplyr-functions.R
+  "stringi::stri_reverse" = "utf8_reverse",
+  # substr is defined in dplyr-functions.R
+  # substring is defined in dplyr-functions.R
+  "base::tolower" = "utf8_lower",
+  "base::toupper" = "utf8_upper",
+
+  # date and time functions
+  "lubridate::day" = "day",
+  "lubridate::dst" = "is_dst",
+  "lubridate::hour" = "hour",
+  "lubridate::isoweek" = "iso_week",
+  "lubridate::epiweek" = "us_week",
+  "lubridate::isoyear" = "iso_year",
+  "lubridate::epiyear" = "us_year",
+  "lubridate::minute" = "minute",
+  "lubridate::quarter" = "quarter",
+  # second is defined in dplyr-functions.R
+  # wday is defined in dplyr-functions.R
+  "lubridate::mday" = "day",
+  "lubridate::yday" = "day_of_year",
+  "lubridate::year" = "year",
+  "lubridate::leap_year" = "is_leap_year"
+)
+
+.operator_map <- list(
+  # NOTE: Each of the R functions/operators mapped here takes exactly *two*
+  # arguments. Most map *directly* to an Arrow C++ compute kernel and require no
+  # non-default options, but some are modified in Expression$op().
+  "==" = "equal",
+  "!=" = "not_equal",
+  ">" = "greater",
+  ">=" = "greater_equal",
+  "<" = "less",
+  "<=" = "less_equal",
+  "&" = "and_kleene",
+  "|" = "or_kleene",
+  "+" = "add_checked",
+  "-" = "subtract_checked",
+  "*" = "multiply_checked",
+  "/" = "divide",
+  "%/%" = "divide_checked",
+  # we don't actually use divide_checked with `%%`, rather it is rewritten to
+  # use `%/%` in Expression$op().
+  "%%" = "divide_checked",
+  "^" = "power_checked"
+)
+
+.array_function_map <- c(.unary_function_map, .operator_map)
+
+register_bindings_array_function_map <- function() {
+  # use a function to generate the binding so that `operator` persists
+  # beyond execution time (another option would be to use quasiquotation
+  # and unquote `operator` directly into the function expression)
+  unary_factory <- function(operator) {
+    force(operator)
+    function(...) Expression$create(operator, ...)
+  }
+  for (name in names(.unary_function_map)) {
+    register_binding(name, unary_factory(.unary_function_map[[name]]))
+  }
+
+  # These go through Expression$op() to align types
+  operator_factory <- function(operator) {
+    force(operator)
+    function(...) Expression$op(operator, ...)
+  }
+
+  for (name in names(.operator_map)) {
+    register_binding(name, operator_factory(name))
+  }
+}
+
+# This function looks to see if there is a common type among any Expressions in
+# the args list, and if so, it tries to cast any Scalars to match that type.
+# This is so field<int16> + 1<float64> doesn't result in all values of the field
+# being upcast to float64 just because R natively does not have int16.
+#
+# Logical and arithmetic operators go through here, as do the yes/no cases of
+# if_else. You can use this in your dplyr function bindings if it's appropriate,
+# but be sure that it makes sense.
+cast_scalars_to_common_type <- function(args) {
+  is_expr <- map_lgl(args, ~ inherits(., "Expression"))
+  if (all(is_expr)) {
+    # No wrapping is required
+    return(args)
+  }
+
+  args[!is_expr] <- lapply(args[!is_expr], Scalar$create)
+
+  if (any(is_expr)) {
+    tryCatch(
+      {
+        # If the Expression has no Schema embedded, we cannot resolve its
+        # type here, so this will error, hence the try() wrapping it
+        # This will also error if length(args[is_expr]) == 0, or
+        # if there are multiple exprs that do not share a common type.
+        to_type <- common_type(args[is_expr])
+        # Try casting to this type, but if the cast fails,
+        # we'll just keep the original
+        args[!is_expr] <- lapply(args[!is_expr], cast_or_parse, type = to_type)
+      },
+      error = function(e) {
+        # We do want to error for some types of casting errors
+        if (inherits(e, "arrow_error_implicit_cast")) {
+          abort("Cast error", parent = e)
+        }
+
+        # Other cast errors we ignore and let Arrow handle at collect()
+      }
+    )
+  }
+
+  args[!is_expr] <- lapply(args[!is_expr], Expression$scalar)
+  args
+}
+
+common_type <- function(exprs) {
+  types <- map(exprs, ~ .$type())
+  first_type <- types[[1]]
+  if (length(types) == 1 || all(map_lgl(types, ~ .$Equals(first_type)))) {
+    # Functions (in our tests) that have multiple exprs to check:
+    # * pmin/pmax
+    return(first_type)
+  }
+  stop("There is no common type in these expressions")
+}
+
+cast_or_parse <- function(x, type) {
+  to_type_id <- type$id
+  if (to_type_id %in% c(Type[["DECIMAL128"]], Type[["DECIMAL256"]])) {
+    # TODO: determine the minimum size of decimal (or integer) required to
+    # accommodate x
+    # We would like to keep calculations on decimal if that's what the data has
+    # so that we don't lose precision. However, there are some limitations
+    # today, so it makes sense to keep x as double (which is probably is from R)
+    # and let Acero cast the decimal to double to compute.
+    # You can specify in your query that x should be decimal or integer if you
+    # know it to be safe.
+    # * ARROW-17601: multiply(decimal, decimal) can fail to make output type
+    return(x)
+  }
+
+  # For most types, just cast.
+  # For string -> date/time, we need to call a parsing function.
+  # In dplyr 1.1.0, vctrs::vec_ptype2() rules are used, which are mostly
+  # the same as Arrow rules except that implicit conversion from string to
+  # numeric is no longer supported.
+  if (x$type_id() %in% c(Type[["STRING"]], Type[["LARGE_STRING"]])) {
+    if (to_type_id %in% c(Type[["DATE32"]], Type[["DATE64"]])) {
+      x <- call_function(
+        "strptime",
+        x,
+        options = list(format = "%Y-%m-%d", unit = 0L)
+      )
+    } else if (to_type_id == Type[["TIMESTAMP"]]) {
+      x <- call_function(
+        "strptime",
+        x,
+        options = list(format = "%Y-%m-%d %H:%M:%S", unit = 1L)
+      )
+      # R assumes timestamps without timezone specified are
+      # local timezone while Arrow assumes UTC. For consistency
+      # with R behavior, specify local timezone here.
+      x <- call_function(
+        "assume_timezone",
+        x,
+        options = list(timezone = Sys.timezone())
+      )
+    } else if (to_type_id %in% unlist(TYPES_NUMERIC)) {
+      abort(
+        sprintf(
+          "Implicit cast from %s to %s is not supported",
+          x$type$ToString(),
+          type$ToString()
+        ),
+        class = "arrow_error_implicit_cast"
+      )
+    }
+  }
+  x$cast(type)
+}
diff --git a/r/R/dplyr-funcs-string.R b/r/R/dplyr-funcs-string.R
index b300d7c439e..436083d9de4 100644
--- a/r/R/dplyr-funcs-string.R
+++ b/r/R/dplyr-funcs-string.R
@@ -161,31 +161,54 @@ register_bindings_string_join <- function() {
     }
   }
 
-  register_binding("base::paste", function(..., sep = " ", collapse = NULL, recycle0 = FALSE) {
-    assert_that(
-      is.null(collapse),
-      msg = "paste() with the collapse argument is not yet supported in Arrow"
-    )
-    if (!inherits(sep, "Expression")) {
-      assert_that(!is.na(sep), msg = "Invalid separator")
-    }
-    arrow_string_join_function(NullHandlingBehavior$REPLACE, "NA")(..., sep)
+  register_binding(
+    "base::paste",
+    function(..., sep = " ", collapse = NULL, recycle0 = FALSE) {
+      assert_that(
+        is.null(collapse),
+        msg = "paste() with the collapse argument is not yet supported in Arrow"
+      )
+      if (!inherits(sep, "Expression")) {
+        assert_that(!is.na(sep), msg = "Invalid separator")
+      }
+      arrow_string_join_function(NullHandlingBehavior$REPLACE, "NA")(..., sep)
+    },
+    notes = "the `collapse` argument is not yet supported"
+  )
+
+  register_binding(
+    "base::paste0",
+    function(..., collapse = NULL, recycle0 = FALSE) {
+      assert_that(
+        is.null(collapse),
+        msg = "paste0() with the collapse argument is not yet supported in Arrow"
+      )
+      arrow_string_join_function(NullHandlingBehavior$REPLACE, "NA")(..., "")
+    },
+    notes = "the `collapse` argument is not yet supported"
+  )
+
+  register_binding(
+    "stringr::str_c",
+    function(..., sep = "", collapse = NULL) {
+      assert_that(
+        is.null(collapse),
+        msg = "str_c() with the collapse argument is not yet supported in Arrow"
+      )
+      if (!inherits(sep, "Expression")) {
+        assert_that(!is.na(sep), msg = "`sep` must be a single string, not `NA`.")
+      }
+      arrow_string_join_function(NullHandlingBehavior$EMIT_NULL)(..., sep)
+    },
+    notes = "the `collapse` argument is not yet supported"
+  )
+
+  register_binding("base::strrep", function(x, times) {
+    Expression$create("binary_repeat", x, times)
   })
 
-  register_binding("base::paste0", function(..., collapse = NULL, recycle0 = FALSE) {
-    assert_that(
-      is.null(collapse),
-      msg = "paste0() with the collapse argument is not yet supported in Arrow"
-    )
-    arrow_string_join_function(NullHandlingBehavior$REPLACE, "NA")(..., "")
-  })
-
-  register_binding("stringr::str_c", function(..., sep = "", collapse = NULL) {
-    assert_that(
-      is.null(collapse),
-      msg = "str_c() with the collapse argument is not yet supported in Arrow"
-    )
-    arrow_string_join_function(NullHandlingBehavior$EMIT_NULL)(..., sep)
+  register_binding("stringr::str_dup", function(string, times) {
+    Expression$create("binary_repeat", string, times)
   })
 }
 
@@ -227,28 +250,33 @@ register_bindings_string_regex <- function() {
     out
   })
 
-  register_binding("stringr::str_like", function(string,
-                                                 pattern,
-                                                 ignore_case = TRUE) {
-    Expression$create(
-      "match_like",
-      string,
-      options = list(pattern = pattern, ignore_case = ignore_case)
-    )
-  })
-
-  register_binding("stringr::str_count", function(string, pattern) {
-    opts <- get_stringr_pattern_options(enexpr(pattern))
-    if (!is.string(pattern)) {
-      arrow_not_supported("`pattern` must be a length 1 character vector; other values")
+  register_binding(
+    "stringr::str_like",
+    function(string, pattern, ignore_case = TRUE) {
+      Expression$create(
+        "match_like",
+        string,
+        options = list(pattern = pattern, ignore_case = ignore_case)
+      )
     }
-    arrow_fun <- ifelse(opts$fixed, "count_substring", "count_substring_regex")
-    Expression$create(
-      arrow_fun,
-      string,
-      options = list(pattern = opts$pattern, ignore_case = opts$ignore_case)
-    )
-  })
+  )
+
+  register_binding(
+    "stringr::str_count",
+    function(string, pattern) {
+      opts <- get_stringr_pattern_options(enexpr(pattern))
+      if (!is.string(pattern)) {
+        arrow_not_supported("`pattern` must be a length 1 character vector; other values")
+      }
+      arrow_fun <- ifelse(opts$fixed, "count_substring", "count_substring_regex")
+      Expression$create(
+        arrow_fun,
+        string,
+        options = list(pattern = opts$pattern, ignore_case = opts$ignore_case)
+      )
+    },
+    notes = "`pattern` must be a length 1 character vector"
+  )
 
   register_binding("base::startsWith", function(x, prefix) {
     Expression$create(
@@ -331,13 +359,29 @@ register_bindings_string_regex <- function() {
     }
   }
 
+  arrow_stringr_string_remove_function <- function(max_replacements) {
+    force(max_replacements)
+    function(string, pattern) {
+      opts <- get_stringr_pattern_options(enexpr(pattern))
+      arrow_r_string_replace_function(max_replacements)(
+        pattern = opts$pattern,
+        replacement = "",
+        x = string,
+        ignore.case = opts$ignore_case,
+        fixed = opts$fixed
+      )
+    }
+  }
+
   register_binding("base::sub", arrow_r_string_replace_function(1L))
   register_binding("base::gsub", arrow_r_string_replace_function(-1L))
   register_binding("stringr::str_replace", arrow_stringr_string_replace_function(1L))
   register_binding("stringr::str_replace_all", arrow_stringr_string_replace_function(-1L))
+  register_binding("stringr::str_remove", arrow_stringr_string_remove_function(1L))
+  register_binding("stringr::str_remove_all", arrow_stringr_string_remove_function(-1L))
 
   register_binding("base::strsplit", function(x, split, fixed = FALSE, perl = FALSE,
-                                        useBytes = FALSE) {
+                                              useBytes = FALSE) {
     assert_that(is.string(split))
 
     arrow_fun <- ifelse(fixed, "split_pattern", "split_pattern_regex")
@@ -355,58 +399,66 @@ register_bindings_string_regex <- function() {
     )
   })
 
-  register_binding("stringr::str_split", function(string,
-                                                  pattern,
-                                                  n = Inf,
-                                                  simplify = FALSE) {
-    opts <- get_stringr_pattern_options(enexpr(pattern))
-    arrow_fun <- ifelse(opts$fixed, "split_pattern", "split_pattern_regex")
-    if (opts$ignore_case) {
-      arrow_not_supported("Case-insensitive string splitting")
-    }
-    if (n == 0) {
-      arrow_not_supported("Splitting strings into zero parts")
-    }
-    if (identical(n, Inf)) {
-      n <- 0L
-    }
-    if (simplify) {
-      warning("Argument 'simplify = TRUE' will be ignored", call. = FALSE)
-    }
-    # The max_splits option in the Arrow C++ library controls the maximum number
-    # of places at which the string is split, whereas the argument n to
-    # str_split() controls the maximum number of pieces to return. So we must
-    # subtract 1 from n to get max_splits.
-    Expression$create(
-      arrow_fun,
-      string,
-      options = list(
-        pattern = opts$pattern,
-        reverse = FALSE,
-        max_splits = n - 1L
+  register_binding(
+    "stringr::str_split",
+    function(string,
+             pattern,
+             n = Inf,
+             simplify = FALSE) {
+      opts <- get_stringr_pattern_options(enexpr(pattern))
+      arrow_fun <- ifelse(opts$fixed, "split_pattern", "split_pattern_regex")
+      if (opts$ignore_case) {
+        arrow_not_supported("Case-insensitive string splitting")
+      }
+      if (n == 0) {
+        arrow_not_supported("Splitting strings into zero parts")
+      }
+      if (identical(n, Inf)) {
+        n <- 0L
+      }
+      if (simplify) {
+        warning("Argument 'simplify = TRUE' will be ignored", call. = FALSE)
+      }
+      # The max_splits option in the Arrow C++ library controls the maximum number
+      # of places at which the string is split, whereas the argument n to
+      # str_split() controls the maximum number of pieces to return. So we must
+      # subtract 1 from n to get max_splits.
+      Expression$create(
+        arrow_fun,
+        string,
+        options = list(
+          pattern = opts$pattern,
+          reverse = FALSE,
+          max_splits = n - 1L
+        )
       )
-    )
-  })
+    },
+    notes = "Case-insensitive string splitting and splitting into 0 parts not supported"
+  )
 }
 
 register_bindings_string_other <- function() {
-  register_binding("base::nchar", function(x, type = "chars", allowNA = FALSE, keepNA = NA) {
-    if (allowNA) {
-      arrow_not_supported("allowNA = TRUE")
-    }
-    if (is.na(keepNA)) {
-      keepNA <- !identical(type, "width")
-    }
-    if (!keepNA) {
-      # TODO: I think there is a fill_null kernel we could use, set null to 2
-      arrow_not_supported("keepNA = TRUE")
-    }
-    if (identical(type, "bytes")) {
-      Expression$create("binary_length", x)
-    } else {
-      Expression$create("utf8_length", x)
-    }
-  })
+  register_binding(
+    "base::nchar",
+    function(x, type = "chars", allowNA = FALSE, keepNA = NA) {
+      if (allowNA) {
+        arrow_not_supported("allowNA = TRUE")
+      }
+      if (is.na(keepNA)) {
+        keepNA <- !identical(type, "width")
+      }
+      if (!keepNA) {
+        # TODO: I think there is a fill_null kernel we could use, set null to 2
+        arrow_not_supported("keepNA = TRUE")
+      }
+      if (identical(type, "bytes")) {
+        Expression$create("binary_length", x)
+      } else {
+        Expression$create("utf8_length", x)
+      }
+    },
+    notes = "`allowNA = TRUE` and `keepNA = TRUE` not supported"
+  )
 
   register_binding("stringr::str_to_lower", function(string, locale = "en") {
     stop_if_locale_provided(locale)
@@ -433,37 +485,52 @@ register_bindings_string_other <- function() {
     Expression$create(trim_fun, string)
   })
 
-  register_binding("base::substr", function(x, start, stop) {
-    assert_that(
-      length(start) == 1,
-      msg = "`start` must be length 1 - other lengths are not supported in Arrow"
-    )
-    assert_that(
-      length(stop) == 1,
-      msg = "`stop` must be length 1 - other lengths are not supported in Arrow"
-    )
-
-    # substr treats values as if they're on a continous number line, so values
-    # 0 are effectively blank characters - set `start` to 1 here so Arrow mimics
-    # this behavior
-    if (start <= 0) {
-      start <- 1
-    }
+  register_binding(
+    "base::substr",
+    function(x, start, stop) {
+      assert_that(
+        length(start) == 1,
+        msg = "`start` must be length 1 - other lengths are not supported in Arrow"
+      )
+      assert_that(
+        length(stop) == 1,
+        msg = "`stop` must be length 1 - other lengths are not supported in Arrow"
+      )
 
-    # if `stop` is lower than `start`, this is invalid, so set `stop` to
-    # 0 so that an empty string will be returned (consistent with base::substr())
-    if (stop < start) {
-      stop <- 0
-    }
+      # substr treats values as if they're on a continous number line, so values
+      # 0 are effectively blank characters - set `start` to 1 here so Arrow mimics
+      # this behavior
+      if (start <= 0) {
+        start <- 1
+      }
+
+      # if `stop` is lower than `start`, this is invalid, so set `stop` to
+      # 0 so that an empty string will be returned (consistent with base::substr())
+      if (stop < start) {
+        stop <- 0
+      }
+
+      # if the input is a string we use "utf8_slice_codeunits"; if the
+      # input is binary we use "binary_slice". This does not consider
+      # a binary Scalar.
+      x_is_binary <- inherits(x, "ArrowObject") &&
+        x$type_id() %in% c(Type$BINARY, Type$LARGE_BINARY, Type$FIXED_SIZE_BINARY)
+      if (x_is_binary) {
+        fun <- "binary_slice"
+      } else {
+        fun <- "utf8_slice_codeunits"
+      }
 
-    Expression$create(
-      "utf8_slice_codeunits",
-      x,
-      # we don't need to subtract 1 from `stop` as C++ counts exclusively
-      # which effectively cancels out the difference in indexing between R & C++
-      options = list(start = start - 1L, stop = stop)
-    )
-  })
+      Expression$create(
+        fun,
+        x,
+        # we don't need to subtract 1 from `stop` as C++ counts exclusively
+        # which effectively cancels out the difference in indexing between R & C++
+        options = list(start = start - 1L, stop = stop)
+      )
+    },
+    notes = "`start` and `stop` must be length 1"
+  )
 
   register_binding("base::substring", function(text, first, last) {
     call_binding("substr", x = text, start = first, stop = last)
@@ -503,7 +570,9 @@ register_bindings_string_other <- function() {
       string,
       options = list(start = start, stop = end)
     )
-  })
+  },
+  notes = "`start` and `end` must be length 1"
+  )
 
 
   register_binding("stringr::str_pad", function(string,
diff --git a/r/R/dplyr-funcs-type.R b/r/R/dplyr-funcs-type.R
index 9925d0347f7..0bd340d4be2 100644
--- a/r/R/dplyr-funcs-type.R
+++ b/r/R/dplyr-funcs-type.R
@@ -23,59 +23,66 @@ register_bindings_type <- function() {
   register_bindings_type_format()
 }
 
-register_bindings_type_cast <- function() {
-  register_binding("cast", function(x, target_type, safe = TRUE, ...) {
-    opts <- cast_options(safe, ...)
-    opts$to_type <- as_type(target_type)
-    Expression$create("cast", x, options = opts)
-  })
+#' Change the type of an array or column
+#'
+#' This is a wrapper around the `$cast()` method that many Arrow objects have.
+#' It is more convenient to call inside `dplyr` pipelines than the method.
+#'
+#' @param x an `Array`, `Table`, `Expression`, or similar Arrow data object.
+#' @param to [DataType] to cast to; for [Table] and [RecordBatch],
+#' it should be a [Schema].
+#' @param safe logical: only allow the type conversion if no data is lost
+#' (truncation, overflow, etc.). Default is `TRUE`.
+#' @param ... specific `CastOptions` to set
+#' @return An [Expression]
+#'
+#' @examples
+#' \dontrun{
+#' mtcars %>%
+#'   arrow_table() %>%
+#'   mutate(cyl = cast(cyl, string()))
+#' }
+#' @keywords internal
+#' @seealso [`data-type`] for a list of [DataType] to be used with `to`.
+#' @seealso [Arrow C++ CastOptions documentation](https://arrow.apache.org/docs/cpp/api/compute.html?highlight=castoptions#arrow%3A%3Acompute%3A%3ACastOptions) # nolint
+#' for the list of supported CastOptions.
+cast <- function(x, to, safe = TRUE, ...) {
+  if (!inherits(x, "ArrowObject")) {
+    x <- Scalar$create(x)
+  }
+  x$cast(to, safe = safe, ...)
+}
 
-  register_binding("dictionary_encode", function(x,
-                                                 null_encoding_behavior = c("mask", "encode")) {
-    behavior <- toupper(match.arg(null_encoding_behavior))
-    null_encoding_behavior <- NullEncodingBehavior[[behavior]]
-    Expression$create(
-      "dictionary_encode",
-      x,
-      options = list(null_encoding_behavior = null_encoding_behavior)
-    )
-  })
+register_bindings_type_cast <- function() {
+  register_binding("arrow::cast", cast)
 
   # as.* type casting functions
-  # as.factor() is mapped in expression.R
+  # as.factor() is not supported
   register_binding("base::as.character", function(x) {
-    build_expr("cast", x, options = cast_options(to_type = string()))
+    cast(x, string())
   })
   register_binding("base::as.double", function(x) {
-    build_expr("cast", x, options = cast_options(to_type = float64()))
+    cast(x, float64())
   })
   register_binding("base::as.integer", function(x) {
-    build_expr(
-      "cast",
-      x,
-      options = cast_options(
-        to_type = int32(),
-        allow_float_truncate = TRUE,
-        allow_decimal_truncate = TRUE
-      )
+    cast(x,
+      int32(),
+      allow_float_truncate = TRUE,
+      allow_decimal_truncate = TRUE
     )
   })
   register_binding("bit64::as.integer64", function(x) {
-    build_expr(
-      "cast",
-      x,
-      options = cast_options(
-        to_type = int64(),
-        allow_float_truncate = TRUE,
-        allow_decimal_truncate = TRUE
-      )
+    cast(x,
+      int64(),
+      allow_float_truncate = TRUE,
+      allow_decimal_truncate = TRUE
     )
   })
   register_binding("base::as.logical", function(x) {
-    build_expr("cast", x, options = cast_options(to_type = boolean()))
+    cast(x, boolean())
   })
   register_binding("base::as.numeric", function(x) {
-    build_expr("cast", x, options = cast_options(to_type = float64()))
+    cast(x, float64())
   })
 
   register_binding("methods::is", function(object, class2) {
@@ -115,51 +122,58 @@ register_bindings_type_cast <- function() {
     # it is difficult to replicate the .name_repair semantics and expanding of
     # unnamed data frame arguments in the same way that the tibble() constructor
     # does.
-    args <- rlang::dots_list(..., .named = TRUE, .homonyms = "error")
+    args <- dots_list(..., .named = TRUE, .homonyms = "error")
 
-    build_expr(
+    Expression$create(
       "make_struct",
       args = unname(args),
       options = list(field_names = names(args))
     )
   })
 
-  register_binding("base::data.frame", function(...,
-                                                row.names = NULL,
-                                                check.rows = NULL,
-                                                check.names = TRUE,
-                                                fix.empty.names = TRUE,
-                                                stringsAsFactors = FALSE) {
-    # we need a specific value of stringsAsFactors because the default was
-    # TRUE in R <= 3.6
-    if (!identical(stringsAsFactors, FALSE)) {
-      arrow_not_supported("stringsAsFactors = TRUE")
-    }
+  register_binding(
+    "base::data.frame",
+    function(...,
+             row.names = NULL,
+             check.rows = NULL,
+             check.names = TRUE,
+             fix.empty.names = TRUE,
+             stringsAsFactors = FALSE) {
+      # we need a specific value of stringsAsFactors because the default was
+      # TRUE in R <= 3.6
+      if (!identical(stringsAsFactors, FALSE)) {
+        arrow_not_supported("stringsAsFactors = TRUE")
+      }
 
-    # ignore row.names and check.rows with a warning
-    if (!is.null(row.names)) arrow_not_supported("row.names")
-    if (!is.null(check.rows)) arrow_not_supported("check.rows")
+      # ignore row.names and check.rows with a warning
+      if (!is.null(row.names)) arrow_not_supported("row.names")
+      if (!is.null(check.rows)) arrow_not_supported("check.rows")
 
-    args <- rlang::dots_list(..., .named = fix.empty.names)
-    if (is.null(names(args))) {
-      names(args) <- rep("", length(args))
-    }
+      args <- dots_list(..., .named = fix.empty.names)
+      if (is.null(names(args))) {
+        names(args) <- rep("", length(args))
+      }
 
-    if (identical(check.names, TRUE)) {
-      if (identical(fix.empty.names, TRUE)) {
-        names(args) <- make.names(names(args), unique = TRUE)
-      } else {
-        name_emtpy <- names(args) == ""
-        names(args)[!name_emtpy] <- make.names(names(args)[!name_emtpy], unique = TRUE)
+      if (identical(check.names, TRUE)) {
+        if (identical(fix.empty.names, TRUE)) {
+          names(args) <- make.names(names(args), unique = TRUE)
+        } else {
+          name_emtpy <- names(args) == ""
+          names(args)[!name_emtpy] <- make.names(names(args)[!name_emtpy], unique = TRUE)
+        }
       }
-    }
 
-    build_expr(
-      "make_struct",
-      args = unname(args),
-      options = list(field_names = names(args))
+      Expression$create(
+        "make_struct",
+        args = unname(args),
+        options = list(field_names = names(args))
+      )
+    },
+    notes = c(
+      "`row.names` and `check.rows` arguments not supported;",
+      "`stringsAsFactors` must be `FALSE`"
     )
-  })
+  )
 }
 
 register_bindings_type_inspect <- function() {
@@ -224,7 +238,7 @@ register_bindings_type_inspect <- function() {
 
 register_bindings_type_elementwise <- function() {
   register_binding("base::is.na", function(x) {
-    build_expr("is_null", x, options = list(nan_is_null = TRUE))
+    Expression$create("is_null", x, options = list(nan_is_null = TRUE))
   })
 
   register_binding("base::is.nan", function(x) {
@@ -232,7 +246,7 @@ register_bindings_type_elementwise <- function() {
       x$type_id() %in% TYPES_WITH_NAN)) {
       # TODO: if an option is added to the is_nan kernel to treat NA as NaN,
       # use that to simplify the code here (ARROW-13366)
-      build_expr("is_nan", x) & build_expr("is_valid", x)
+      Expression$create("is_nan", x) & Expression$create("is_valid", x)
     } else {
       Expression$scalar(FALSE)
     }
@@ -267,7 +281,7 @@ register_bindings_type_format <- function() {
       x$type_id() %in% Type[c("TIMESTAMP", "DATE32", "DATE64")]) {
       binding_format_datetime(x, ...)
     } else {
-      build_expr("cast", x, options = cast_options(to_type = string()))
+      cast(x, string())
     }
   })
 }
diff --git a/r/R/dplyr-funcs.R b/r/R/dplyr-funcs.R
index c1dcdd17744..ce88e25bcb8 100644
--- a/r/R/dplyr-funcs.R
+++ b/r/R/dplyr-funcs.R
@@ -27,16 +27,17 @@ NULL
 #' Expressions. These are the basis for the `.data` mask inside dplyr methods.
 #'
 #' @section Writing bindings:
-#' When to use `build_expr()` vs. `Expression$create()`?
-#'
-#' Use `build_expr()` if you need to
-#' - map R function names to Arrow C++ functions
-#' - wrap R inputs (vectors) as Array/Scalar
-#'
-#' `Expression$create()` is lower level. Most of the bindings use it
-#' because they manage the preparation of the user-provided inputs
-#' and don't need or don't want to the automatic conversion of R objects
-#' to [Scalar].
+#' * `Expression$create()` will wrap any non-Expression inputs as Scalar
+#'   Expressions. If you want to try to coerce scalar inputs to match the type
+#'   of the Expression(s) in the arguments, call
+#'  `cast_scalars_to_common_type(args)` on the
+#'   args. For example, `Expression$create("add", args = list(int16_field, 1))`
+#'   would result in a `float64` type output because `1` is a `double` in R.
+#'   To prevent casting all of the data in `int16_field` to float and to
+#'   preserve it as int16, do
+#'   `Expression$create("add",
+#'   args = cast_scalars_to_common_type(list(int16_field, 1)))`
+#' * Inside your function, you can call any other binding with `call_binding()`.
 #'
 #' @param fun_name A string containing a function name in the form `"function"` or
 #'   `"package::function"`. The package name is currently not used but
@@ -59,24 +60,28 @@ NULL
 #'   summarise) because the data mask has to be a list.
 #' @param registry An environment in which the functions should be
 #'   assigned.
-#'
+#' @param notes string for the docs: note any limitations or differences in
+#'   behavior between the Arrow version and the R function.
 #' @return The previously registered binding or `NULL` if no previously
 #'   registered function existed.
 #' @keywords internal
-#'
-register_binding <- function(fun_name, fun, registry = nse_funcs,
-                             update_cache = FALSE) {
+register_binding <- function(fun_name,
+                             fun,
+                             registry = nse_funcs,
+                             update_cache = FALSE,
+                             notes = character(0)) {
   unqualified_name <- sub("^.*?:{+}", "", fun_name)
 
   previous_fun <- registry[[unqualified_name]]
 
   # if the unqualified name exists in the registry, warn
-  if (!is.null(previous_fun)) {
+  if (!is.null(previous_fun) && !identical(fun, previous_fun)) {
     warn(
       paste0(
         "A \"",
         unqualified_name,
-        "\" binding already exists in the registry and will be overwritten.")
+        "\" binding already exists in the registry and will be overwritten."
+      )
     )
   }
 
@@ -85,6 +90,8 @@ register_binding <- function(fun_name, fun, registry = nse_funcs,
   registry[[unqualified_name]] <- fun
   registry[[fun_name]] <- fun
 
+  .cache$docs[[fun_name]] <- notes
+
   if (update_cache) {
     fun_cache <- .cache$functions
     fun_cache[[unqualified_name]] <- fun
@@ -116,8 +123,11 @@ unregister_binding <- function(fun_name, registry = nse_funcs,
   invisible(previous_fun)
 }
 
-register_binding_agg <- function(fun_name, agg_fun, registry = agg_funcs) {
-  register_binding(fun_name, agg_fun, registry = registry)
+register_binding_agg <- function(fun_name,
+                                 agg_fun,
+                                 registry = agg_funcs,
+                                 notes = character(0)) {
+  register_binding(fun_name, agg_fun, registry = registry, notes = notes)
 }
 
 # Supports functions and tests that call previously-defined bindings
@@ -129,16 +139,16 @@ call_binding_agg <- function(fun_name, ...) {
   agg_funcs[[fun_name]](...)
 }
 
-# Called in .onLoad()
 create_binding_cache <- function() {
-  arrow_funcs <- list()
+  # Called in .onLoad()
+  .cache$docs <- list()
 
   # Register all available Arrow Compute functions, namespaced as arrow_fun.
   all_arrow_funs <- list_compute_functions()
   arrow_funcs <- set_names(
     lapply(all_arrow_funs, function(fun) {
       force(fun)
-      function(...) build_expr(fun, ...)
+      function(...) Expression$create(fun, ...)
     }),
     paste0("arrow_", all_arrow_funs)
   )
@@ -151,6 +161,7 @@ create_binding_cache <- function() {
   register_bindings_math()
   register_bindings_string()
   register_bindings_type()
+  register_bindings_augmented()
 
   # We only create the cache for nse_funcs and not agg_funcs
   .cache$functions <- c(as.list(nse_funcs), arrow_funcs)
diff --git a/r/R/dplyr-group-by.R b/r/R/dplyr-group-by.R
index c650799e8d0..6eddea55294 100644
--- a/r/R/dplyr-group-by.R
+++ b/r/R/dplyr-group-by.R
@@ -21,38 +21,37 @@
 group_by.arrow_dplyr_query <- function(.data,
                                        ...,
                                        .add = FALSE,
-                                       add = .add,
+                                       add = NULL,
                                        .drop = dplyr::group_by_drop_default(.data)) {
+  if (!missing(add)) {
+    .Deprecated(
+      msg = paste(
+        "The `add` argument of `group_by()` is deprecated.",
+        "Please use the `.add` argument instead."
+      )
+    )
+    .add <- add
+  }
+
   .data <- as_adq(.data)
-  new_groups <- enquos(...)
-  # ... can contain expressions (i.e. can add (or rename?) columns) and so we
-  # need to identify those and add them on to the query with mutate. Specifically,
-  # we want to mark as new:
-  #   * expressions (named or otherwise)
-  #   * variables that have new names
-  # All others (i.e. simple references to variables) should not be (re)-added
+  expression_list <- expand_across(.data, quos(...))
+  named_expression_list <- ensure_named_exprs(expression_list)
 
-  # Identify any groups with names which aren't in names of .data
-  new_group_ind <- map_lgl(new_groups, ~ !(quo_name(.x) %in% names(.data)))
-  # Identify any groups which don't have names
-  named_group_ind <- map_lgl(names(new_groups), nzchar)
-  # Retain any new groups identified above
-  new_groups <- new_groups[new_group_ind | named_group_ind]
-  if (length(new_groups)) {
-    # now either use the name that was given in ... or if that is "" then use the expr
-    names(new_groups) <- imap_chr(new_groups, ~ ifelse(.y == "", quo_name(.x), .y))
+  # Set up group names
+  gbp <- dplyr::group_by_prepare(.data, !!!expression_list, .add = .add)
 
-    # Add them to the data
-    .data <- dplyr::mutate(.data, !!!new_groups)
-  }
-  if (".add" %in% names(formals(dplyr::group_by))) {
-    # For compatibility with dplyr >= 1.0
-    gv <- dplyr::group_by_prepare(.data, ..., .add = .add)$group_names
-  } else {
-    gv <- dplyr::group_by_prepare(.data, ..., add = add)$group_names
-  }
-  .data$group_by_vars <- gv
-  .data$drop_empty_groups <- ifelse(length(gv), .drop, dplyr::group_by_drop_default(.data))
+  # Add them all (or update them) to the .data via. In theory
+  # one could calculate which variables do or do not need to be added via a
+  # complex combination of the expression names, whether they are or are not
+  # a symbol, and/or whether they currently exist in .data. Instead, we just
+  # put them all into a mutate().
+  existing_groups <- dplyr::groups(gbp$data)
+  names(existing_groups) <- dplyr::group_vars(gbp$data)
+  final_groups <- c(unclass(named_expression_list), unclass(existing_groups))[gbp$group_names]
+  .data <- dplyr::mutate(.data, !!!final_groups)
+
+  .data$group_by_vars <- gbp$group_names
+  .data$drop_empty_groups <- ifelse(length(gbp$group_names), .drop, dplyr::group_by_drop_default(.data))
   .data
 }
 group_by.Dataset <- group_by.ArrowTabular <- group_by.RecordBatchReader <- group_by.arrow_dplyr_query
@@ -69,9 +68,13 @@ group_vars.ArrowTabular <- function(x) {
 
 # the logical literal in the two functions below controls the default value of
 # the .drop argument to group_by()
-group_by_drop_default.arrow_dplyr_query <-
-  function(.tbl) .tbl$drop_empty_groups %||% TRUE
-group_by_drop_default.Dataset <- group_by_drop_default.ArrowTabular <- group_by_drop_default.RecordBatchReader <-
+group_by_drop_default.arrow_dplyr_query <- function(.tbl) {
+  .tbl$drop_empty_groups %||% TRUE
+}
+group_by_drop_default.ArrowTabular <- function(.tbl) {
+  .tbl$metadata$r$attributes$.group_by_drop %||% TRUE
+}
+group_by_drop_default.Dataset <- group_by_drop_default.RecordBatchReader <-
   function(.tbl) TRUE
 
 ungroup.arrow_dplyr_query <- function(x, ...) {
@@ -81,6 +84,22 @@ ungroup.arrow_dplyr_query <- function(x, ...) {
 }
 ungroup.Dataset <- ungroup.RecordBatchReader <- force
 ungroup.ArrowTabular <- function(x) {
-  x$metadata$r$attributes$.group_vars <- NULL
-  x
+  set_group_attributes(x, NULL, NULL)
+}
+
+# Function to call after evaluating a query (as_arrow_table()) to add back any
+# group attributes to the Schema metadata. Or to remove them, pass NULL.
+set_group_attributes <- function(tab, group_vars, .drop) {
+  # dplyr::group_vars() returns character(0)
+  # so passing NULL means unset (ungroup)
+  if (is.null(group_vars) || length(group_vars)) {
+    # Since accessing schema metadata does some work, only overwrite if needed
+    new_atts <- old_atts <- tab$metadata$r$attributes %||% list()
+    new_atts[[".group_vars"]] <- group_vars
+    new_atts[[".group_by_drop"]] <- .drop
+    if (!identical(new_atts, old_atts)) {
+      tab$metadata$r$attributes <- new_atts
+    }
+  }
+  tab
 }
diff --git a/r/R/dplyr-join.R b/r/R/dplyr-join.R
index 4a61e6331cb..2ba3c307c11 100644
--- a/r/R/dplyr-join.R
+++ b/r/R/dplyr-join.R
@@ -28,17 +28,33 @@ do_join <- function(x,
                     na_matches,
                     join_type) {
   # TODO: handle `copy` arg: ignore?
-  # TODO: handle `suffix` arg: Arrow does prefix
-  # TODO: handle `keep` arg: "Should the join keys from both ‘x’ and ‘y’ be preserved in the output?"
   # TODO: handle `na_matches` arg
   x <- as_adq(x)
   y <- as_adq(y)
   by <- handle_join_by(by, x, y)
+
+  # For outer joins, we need to output the join keys on both sides so we
+  # can coalesce them afterwards.
+  left_output <- if (!keep && join_type == "RIGHT_OUTER") {
+    setdiff(names(x), by)
+  } else {
+    names(x)
+  }
+
+  right_output <- if (keep || join_type %in% c("FULL_OUTER", "RIGHT_OUTER")) {
+    names(y)
+  } else {
+    setdiff(names(y), by)
+  }
+
   x$join <- list(
     type = JoinType[[join_type]],
     right_data = y,
     by = by,
-    suffix = suffix
+    left_output = left_output,
+    right_output = right_output,
+    suffix = suffix,
+    keep = keep
   )
   collapse.arrow_dplyr_query(x)
 }
@@ -83,7 +99,16 @@ full_join.arrow_dplyr_query <- function(x,
                                         suffix = c(".x", ".y"),
                                         ...,
                                         keep = FALSE) {
-  do_join(x, y, by, copy, suffix, ..., keep = keep, join_type = "FULL_OUTER")
+  query <- do_join(x, y, by, copy, suffix, ..., keep = keep, join_type = "FULL_OUTER")
+
+  # If we are doing a full outer join and not keeping the join keys of
+  # both sides, we need to coalesce. Otherwise, rows that exist in the
+  # RHS will have NAs for the join keys.
+  if (!keep) {
+    query$selected_columns <- post_join_projection(names(x), names(y), handle_join_by(by, x, y), suffix)
+  }
+
+  query
 }
 full_join.Dataset <- full_join.ArrowTabular <- full_join.RecordBatchReader <- full_join.arrow_dplyr_query
 
@@ -92,9 +117,8 @@ semi_join.arrow_dplyr_query <- function(x,
                                         by = NULL,
                                         copy = FALSE,
                                         suffix = c(".x", ".y"),
-                                        ...,
-                                        keep = FALSE) {
-  do_join(x, y, by, copy, suffix, ..., keep = keep, join_type = "LEFT_SEMI")
+                                        ...) {
+  do_join(x, y, by, copy, suffix, ..., join_type = "LEFT_SEMI")
 }
 semi_join.Dataset <- semi_join.ArrowTabular <- semi_join.RecordBatchReader <- semi_join.arrow_dplyr_query
 
@@ -103,9 +127,8 @@ anti_join.arrow_dplyr_query <- function(x,
                                         by = NULL,
                                         copy = FALSE,
                                         suffix = c(".x", ".y"),
-                                        ...,
-                                        keep = FALSE) {
-  do_join(x, y, by, copy, suffix, ..., keep = keep, join_type = "LEFT_ANTI")
+                                        ...) {
+  do_join(x, y, by, copy, suffix, ..., join_type = "LEFT_ANTI")
 }
 anti_join.Dataset <- anti_join.ArrowTabular <- anti_join.RecordBatchReader <- anti_join.arrow_dplyr_query
 
@@ -113,6 +136,17 @@ handle_join_by <- function(by, x, y) {
   if (is.null(by)) {
     return(set_names(intersect(names(x), names(y))))
   }
+  if (inherits(by, "dplyr_join_by")) {
+    if (!all(by$condition == "==" & by$filter == "none")) {
+      abort(
+        paste0(
+          "Inequality conditions and helper functions ",
+          "are not supported in `join_by()` expressions."
+        )
+      )
+    }
+    by <- set_names(by$y, by$x)
+  }
   stopifnot(is.character(by))
   if (is.null(names(by))) {
     by <- set_names(by)
@@ -144,3 +178,64 @@ handle_join_by <- function(by, x, y) {
 
   by
 }
+
+
+#' Create projection needed to coalesce join keys after a full outer join
+#'
+#' @examples
+#' test_join <- list(
+#'   type = JoinType$FULL_OUTER,
+#'   right_data = arrow_table(x = 1, y = 2, z = "x"),
+#'   by = c("x", "y"),
+#'   suffix = c(".x", ".y"),
+#'   keep = FALSE
+#' )
+#' post_join_projection(c("value", "x", "y", "z"), test_join)
+#'
+#' @noRd
+post_join_projection <- function(left_names, right_names, by, suffix) {
+  # Collect mapping of which columns on left need to be coalesced with which
+  # column on the right side.
+  coalesce_targets <- data.frame(
+    left_index = match(by, left_names),
+    right_index = match(by, right_names)
+  )
+  # Right names as output by the join (with suffix if name collided with LHS)
+  right_names_input <- ifelse(
+    right_names %in% left_names,
+    paste0(right_names, suffix[[2]]),
+    right_names
+  )
+
+  left_exprs <- vector("list", length(left_names))
+  for (i in seq_along(left_names)) {
+    name <- left_names[i]
+    # Name as outputted by the join (with suffix if name collided with RHS)
+    name_input <- if (name %in% right_names) {
+      paste0(name, suffix[[1]])
+    } else {
+      name
+    }
+
+    if (i %in% coalesce_targets$left_index) {
+      target_i <- match(i, coalesce_targets$left_index)
+      left_exprs[[i]] <- Expression$create(
+        "coalesce",
+        Expression$field_ref(name_input),
+        Expression$field_ref(right_names_input[coalesce_targets[target_i, 2]])
+      )
+      # We can drop the suffix that was added
+      names(left_exprs)[i] <- name
+    } else {
+      left_exprs[[i]] <- Expression$field_ref(name_input)
+      names(left_exprs)[i] <- name_input
+    }
+  }
+
+  # Exclude join keys from right side now
+  right_names_input <- right_names_input[!(right_names %in% by)]
+  right_exprs <- lapply(right_names_input, Expression$field_ref)
+  names(right_exprs) <- right_names_input
+
+  c(left_exprs, right_exprs)
+}
diff --git a/r/R/dplyr-mutate.R b/r/R/dplyr-mutate.R
index 653c1e6f25a..e777fae61f2 100644
--- a/r/R/dplyr-mutate.R
+++ b/r/R/dplyr-mutate.R
@@ -24,7 +24,9 @@ mutate.arrow_dplyr_query <- function(.data,
                                      .before = NULL,
                                      .after = NULL) {
   call <- match.call()
-  exprs <- ensure_named_exprs(quos(...))
+
+  expression_list <- expand_across(.data, quos(...))
+  exprs <- ensure_named_exprs(expression_list)
 
   .keep <- match.arg(.keep)
   .before <- enquo(.before)
@@ -115,14 +117,16 @@ mutate.Dataset <- mutate.ArrowTabular <- mutate.RecordBatchReader <- mutate.arro
 
 transmute.arrow_dplyr_query <- function(.data, ...) {
   dots <- check_transmute_args(...)
-  has_null <- map_lgl(dots, quo_is_null)
-  .data <- dplyr::mutate(.data, !!!dots, .keep = "none")
-  if (is_empty(dots) || any(has_null)) {
+  expression_list <- expand_across(.data, dots)
+
+  has_null <- map_lgl(expression_list, quo_is_null)
+  .data <- dplyr::mutate(.data, !!!expression_list, .keep = "none")
+  if (is_empty(expression_list) || any(has_null)) {
     return(.data)
   }
 
   ## keeping with: https://github.com/tidyverse/dplyr/issues/6086
-  cur_exprs <- map_chr(dots, as_label)
+  cur_exprs <- map_chr(expression_list, as_label)
   transmute_order <- names(cur_exprs)
   transmute_order[!nzchar(transmute_order)] <- cur_exprs[!nzchar(transmute_order)]
   dplyr::select(.data, all_of(transmute_order))
diff --git a/r/R/dplyr-select.R b/r/R/dplyr-select.R
index 6e7dc7a1aa2..9b6d07d375e 100644
--- a/r/R/dplyr-select.R
+++ b/r/R/dplyr-select.R
@@ -21,14 +21,12 @@
 tbl_vars.arrow_dplyr_query <- function(x) names(x$selected_columns)
 
 select.arrow_dplyr_query <- function(.data, ...) {
-  check_select_helpers(enexprs(...))
-  column_select(as_adq(.data), !!!enquos(...))
+  column_select(.data, enquos(...), op = "select")
 }
 select.Dataset <- select.ArrowTabular <- select.RecordBatchReader <- select.arrow_dplyr_query
 
 rename.arrow_dplyr_query <- function(.data, ...) {
-  check_select_helpers(enexprs(...))
-  column_select(as_adq(.data), !!!enquos(...), .FUN = vars_rename)
+  column_select(.data, enquos(...), op = "rename")
 }
 rename.Dataset <- rename.ArrowTabular <- rename.RecordBatchReader <- rename.arrow_dplyr_query
 
@@ -39,29 +37,6 @@ rename_with.arrow_dplyr_query <- function(.data, .fn, .cols = everything(), ...)
 }
 rename_with.Dataset <- rename_with.ArrowTabular <- rename_with.RecordBatchReader <- rename_with.arrow_dplyr_query
 
-column_select <- function(.data, ..., .FUN = vars_select) {
-  # .FUN is either tidyselect::vars_select or tidyselect::vars_rename
-  # It operates on the names() of selected_columns, i.e. the column names
-  # factoring in any renaming that may already have happened
-  out <- .FUN(names(.data), !!!enquos(...))
-  # Make sure that the resulting selected columns map back to the original data,
-  # as in when there are multiple renaming steps
-  .data$selected_columns <- set_names(.data$selected_columns[out], names(out))
-
-  # If we've renamed columns, we need to project that renaming into other
-  # query parameters we've collected
-  renamed <- out[names(out) != out]
-  if (length(renamed)) {
-    # Massage group_by
-    gbv <- .data$group_by_vars
-    renamed_groups <- gbv %in% renamed
-    gbv[renamed_groups] <- names(renamed)[match(gbv[renamed_groups], renamed)]
-    .data$group_by_vars <- gbv
-    # No need to massage filters because those contain references to Arrow objects
-  }
-  .data
-}
-
 relocate.arrow_dplyr_query <- function(.data, ..., .before = NULL, .after = NULL) {
   # The code in this function is adapted from the code in dplyr::relocate.data.frame
   # at https://github.com/tidyverse/dplyr/blob/master/R/relocate.R
@@ -70,7 +45,8 @@ relocate.arrow_dplyr_query <- function(.data, ..., .before = NULL, .after = NULL
   .data <- as_adq(.data)
 
   # Assign the schema to the expressions
-  map(.data$selected_columns, ~ (.$schema <- .data$.data$schema))
+  schema <- .data$.data$schema
+  walk(.data$selected_columns, ~ (.$schema <- schema))
 
   # Create a mask for evaluating expressions in tidyselect helpers
   mask <- new_environment(.cache$functions, parent = caller_env())
@@ -115,18 +91,39 @@ relocate.arrow_dplyr_query <- function(.data, ..., .before = NULL, .after = NULL
 }
 relocate.Dataset <- relocate.ArrowTabular <- relocate.RecordBatchReader <- relocate.arrow_dplyr_query
 
-check_select_helpers <- function(exprs) {
-  # Throw an error if unsupported tidyselect selection helpers in `exprs`
-  exprs <- lapply(exprs, function(x) if (is_quosure(x)) quo_get_expr(x) else x)
-  unsup_select_helpers <- "where"
-  funs_in_exprs <- unlist(lapply(exprs, all_funs))
-  unsup_funs <- funs_in_exprs[funs_in_exprs %in% unsup_select_helpers]
-  if (length(unsup_funs)) {
-    stop(
-      "Unsupported selection ",
-      ngettext(length(unsup_funs), "helper: ", "helpers: "),
-      oxford_paste(paste0(unsup_funs, "()"), quote = FALSE),
-      call. = FALSE
-    )
+column_select <- function(.data, select_expression, op = c("select", "rename")) {
+  op <- match.arg(op)
+
+  .data <- as_adq(.data)
+  sim_df <- as.data.frame(implicit_schema(.data))
+  old_names <- names(sim_df)
+
+  if (op == "select") {
+    out <- eval_select(expr(c(!!!select_expression)), sim_df)
+    # select only columns from `out`
+    subset <- out
+  } else if (op == "rename") {
+    out <- eval_rename(expr(c(!!!select_expression)), sim_df)
+    # select all columns as only renaming
+    subset <- set_names(seq_along(old_names), old_names)
+    names(subset)[out] <- names(out)
+  }
+
+  .data$selected_columns <- set_names(.data$selected_columns[subset], names(subset))
+
+  # check if names have updated
+  new_names <- old_names
+  new_names[out] <- names(out)
+  names_compared <- set_names(old_names, new_names)
+  renamed <- names_compared[old_names != new_names]
+
+  # Update names in group_by if changed in select() or rename()
+  if (length(renamed)) {
+    gbv <- .data$group_by_vars
+    renamed_groups <- gbv %in% renamed
+    gbv[renamed_groups] <- names(renamed)[match(gbv[renamed_groups], renamed)]
+    .data$group_by_vars <- gbv
   }
+
+  .data
 }
diff --git a/r/R/dplyr-slice.R b/r/R/dplyr-slice.R
new file mode 100644
index 00000000000..ba7ec5fc44a
--- /dev/null
+++ b/r/R/dplyr-slice.R
@@ -0,0 +1,170 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+
+# The following S3 methods are registered on load if dplyr is present
+
+slice_head.arrow_dplyr_query <- function(.data, ..., n, prop) {
+  if (length(dplyr::group_vars(.data)) > 0) {
+    arrow_not_supported("Slicing grouped data")
+  }
+  check_dots_empty()
+
+  if (missing(n)) {
+    n <- prop_to_n(.data, prop)
+  }
+
+  head(.data, n)
+}
+slice_head.Dataset <- slice_head.ArrowTabular <- slice_head.RecordBatchReader <- slice_head.arrow_dplyr_query
+
+slice_tail.arrow_dplyr_query <- function(.data, ..., n, prop) {
+  if (length(dplyr::group_vars(.data)) > 0) {
+    arrow_not_supported("Slicing grouped data")
+  }
+  check_dots_empty()
+
+  if (missing(n)) {
+    n <- prop_to_n(.data, prop)
+  }
+
+  tail(.data, n)
+}
+slice_tail.Dataset <- slice_tail.ArrowTabular <- slice_tail.RecordBatchReader <- slice_tail.arrow_dplyr_query
+
+slice_min.arrow_dplyr_query <- function(.data, order_by, ..., n, prop, with_ties = TRUE) {
+  if (length(dplyr::group_vars(.data)) > 0) {
+    arrow_not_supported("Slicing grouped data")
+  }
+  if (with_ties) {
+    arrow_not_supported("with_ties = TRUE")
+  }
+  check_dots_empty()
+
+  if (missing(n)) {
+    n <- prop_to_n(.data, prop)
+  }
+
+  head(dplyr::arrange(.data, {{ order_by }}), n)
+}
+slice_min.Dataset <- slice_min.ArrowTabular <- slice_min.RecordBatchReader <- slice_min.arrow_dplyr_query
+
+slice_max.arrow_dplyr_query <- function(.data, order_by, ..., n, prop, with_ties = TRUE) {
+  if (length(dplyr::group_vars(.data)) > 0) {
+    arrow_not_supported("Slicing grouped data")
+  }
+  if (with_ties) {
+    arrow_not_supported("with_ties = TRUE")
+  }
+  check_dots_empty()
+
+  if (missing(n)) {
+    n <- prop_to_n(.data, prop)
+  }
+
+  sorted <- dplyr::arrange(.data, {{ order_by }})
+  # Invert the sort order of the things in ... so they're descending
+  # TODO: handle possibility that .data was already sorted and we don't want
+  # to invert those sorts? Does that matter? Or no because there's no promise
+  # of order of which TopK elements you get if there are ties?
+  sorted$arrange_desc <- !sorted$arrange_desc
+  head(sorted, n)
+}
+slice_max.Dataset <- slice_max.ArrowTabular <- slice_max.RecordBatchReader <- slice_max.arrow_dplyr_query
+
+#' @importFrom stats runif
+slice_sample.arrow_dplyr_query <- function(.data,
+                                           ...,
+                                           n,
+                                           prop,
+                                           weight_by = NULL,
+                                           replace = FALSE) {
+  if (length(dplyr::group_vars(.data)) > 0) {
+    arrow_not_supported("Slicing grouped data")
+  }
+  if (replace) {
+    arrow_not_supported("Sampling with replacement")
+  }
+  if (!missing(weight_by)) {
+    # You could do this by multiplying the random() column * weight_by
+    # but you'd need to calculate sum(weight_by) in order to normalize
+    arrow_not_supported("weight_by")
+  }
+  check_dots_empty()
+
+  # If we want n rows sampled, we have to convert n to prop, oversample some
+  # just to make sure we get enough, then head(n)
+  sampling_n <- missing(prop)
+  if (sampling_n) {
+    prop <- min(n_to_prop(.data, n) + .05, 1)
+  }
+  validate_prop(prop)
+
+  if (prop < 1) {
+    .data <- as_adq(.data)
+    # TODO(ARROW-17974): use Expression$create("random") instead of UDF hack
+    # HACK: use a UDF to generate random. It needs an input column because
+    # nullary functions don't work, and that column has to be typed. We've
+    # chosen boolean() type because it's compact and can always be created:
+    # pick any column and do is.na, that will be boolean.
+    if (is.null(.cache$functions[["_random_along"]])) {
+      register_scalar_function(
+        "_random_along",
+        function(context, x) {
+          Array$create(runif(length(x)))
+        },
+        in_type = schema(x = boolean()),
+        out_type = float64(),
+        auto_convert = FALSE
+      )
+    }
+    # TODO: get an actual FieldRef because the first col could be derived
+    ref <- Expression$create("is_null", .data$selected_columns[[1]])
+    expr <- Expression$create("_random_along", ref) < prop
+    .data <- set_filters(.data, expr)
+  }
+  if (sampling_n) {
+    .data <- head(.data, n)
+  }
+
+  .data
+}
+slice_sample.Dataset <- slice_sample.ArrowTabular <- slice_sample.RecordBatchReader <- slice_sample.arrow_dplyr_query
+
+
+prop_to_n <- function(.data, prop) {
+  nrows <- nrow(.data)
+  if (is.na(nrows)) {
+    arrow_not_supported("Slicing with `prop` when the query has joins or aggregations")
+  }
+  validate_prop(prop)
+  nrows * prop
+}
+
+validate_prop <- function(prop) {
+  if (!is.numeric(prop) || length(prop) != 1 || is.na(prop) || prop < 0 || prop > 1) {
+    stop("`prop` must be a single numeric value between 0 and 1", call. = FALSE)
+  }
+}
+
+n_to_prop <- function(.data, n) {
+  nrows <- nrow(.data)
+  if (is.na(nrows)) {
+    arrow_not_supported("slice_sample() with `n` when the query has joins or aggregations")
+  }
+  n / nrows
+}
diff --git a/r/R/dplyr-summarize.R b/r/R/dplyr-summarize.R
index 92587f6c685..5e670538f6c 100644
--- a/r/R/dplyr-summarize.R
+++ b/r/R/dplyr-summarize.R
@@ -98,39 +98,50 @@ register_bindings_aggregate <- function() {
       options = list(skip_nulls = na.rm, min_count = 0L, ddof = ddof)
     )
   })
-  register_binding_agg("stats::quantile", function(x, probs, na.rm = FALSE) {
-    if (length(probs) != 1) {
-      arrow_not_supported("quantile() with length(probs) != 1")
-    }
-    # TODO: Bind to the Arrow function that returns an exact quantile and remove
-    # this warning (ARROW-14021)
-    warn(
-      "quantile() currently returns an approximate quantile in Arrow",
-      .frequency = "once",
-      .frequency_id = "arrow.quantile.approximate",
-      class = "arrow.quantile.approximate"
-    )
-    list(
-      fun = "tdigest",
-      data = x,
-      options = list(skip_nulls = na.rm, q = probs)
-    )
-  })
-  register_binding_agg("stats::median", function(x, na.rm = FALSE) {
-    # TODO: Bind to the Arrow function that returns an exact median and remove
-    # this warning (ARROW-14021)
-    warn(
-      "median() currently returns an approximate median in Arrow",
-      .frequency = "once",
-      .frequency_id = "arrow.median.approximate",
-      class = "arrow.median.approximate"
-    )
-    list(
-      fun = "approximate_median",
-      data = x,
-      options = list(skip_nulls = na.rm)
+  register_binding_agg(
+    "stats::quantile",
+    function(x, probs, na.rm = FALSE) {
+      if (length(probs) != 1) {
+        arrow_not_supported("quantile() with length(probs) != 1")
+      }
+      # TODO: Bind to the Arrow function that returns an exact quantile and remove
+      # this warning (ARROW-14021)
+      warn(
+        "quantile() currently returns an approximate quantile in Arrow",
+        .frequency = "once",
+        .frequency_id = "arrow.quantile.approximate",
+        class = "arrow.quantile.approximate"
+      )
+      list(
+        fun = "tdigest",
+        data = x,
+        options = list(skip_nulls = na.rm, q = probs)
+      )
+    },
+    notes = c(
+      "`probs` must be length 1;",
+      "approximate quantile (t-digest) is computed"
     )
-  })
+  )
+  register_binding_agg(
+    "stats::median",
+    function(x, na.rm = FALSE) {
+      # TODO: Bind to the Arrow function that returns an exact median and remove
+      # this warning (ARROW-14021)
+      warn(
+        "median() currently returns an approximate median in Arrow",
+        .frequency = "once",
+        .frequency_id = "arrow.median.approximate",
+        class = "arrow.median.approximate"
+      )
+      list(
+        fun = "approximate_median",
+        data = x,
+        options = list(skip_nulls = na.rm)
+      )
+    },
+    notes = "approximate median (t-digest) is computed"
+  )
   register_binding_agg("dplyr::n_distinct", function(..., na.rm = FALSE) {
     list(
       fun = "count_distinct",
@@ -179,10 +190,10 @@ agg_funcs[["::"]] <- function(lhs, rhs) {
 
 # The following S3 methods are registered on load if dplyr is present
 
-summarise.arrow_dplyr_query <- function(.data, ...) {
+summarise.arrow_dplyr_query <- function(.data, ..., .groups = NULL) {
   call <- match.call()
   .data <- as_adq(.data)
-  exprs <- quos(...)
+  exprs <- expand_across(.data, quos(...))
   # Only retain the columns we need to do our aggregations
   vars_to_keep <- unique(c(
     unlist(lapply(exprs, all.vars)), # vars referenced in summarise
@@ -198,7 +209,7 @@ summarise.arrow_dplyr_query <- function(.data, ...) {
   .data <- dplyr::select(.data, intersect(vars_to_keep, names(.data)))
 
   # Try stuff, if successful return()
-  out <- try(do_arrow_summarize(.data, ...), silent = TRUE)
+  out <- try(do_arrow_summarize(.data, !!!exprs, .groups = .groups), silent = TRUE)
   if (inherits(out, "try-error")) {
     return(abandon_ship(call, .data, format(out)))
   } else {
@@ -382,11 +393,12 @@ summarize_eval <- function(name, quosure, ctx, hash) {
   # By this point, there are no more aggregation functions in expr
   # except for possibly the outer function call:
   # they've all been pulled out to ctx$aggregations, and in their place in expr
-  # there are variable names, which will correspond to field refs in the
-  # query object after aggregation and collapse().
-  # So if we want to know if there are any aggregations inside expr,
-  # we have to look for them by their new var names
+  # there are variable names, which would correspond to field refs in the
+  # query object after aggregation and collapse() or non-field variable
+  # references. So if we want to know if there are any aggregations inside expr,
+  # we have to look for them by their new var names in ctx$aggregations.
   inner_agg_exprs <- all_vars(expr) %in% names(ctx$aggregations)
+  inner_is_fieldref <- all_vars(expr) %in% names(ctx$mask$.data)
 
   if (outer_agg) {
     # This is something like agg(fun(x, y)
@@ -398,7 +410,7 @@ summarize_eval <- function(name, quosure, ctx, hash) {
       ctx$mask
     )
     return()
-  } else if (all(inner_agg_exprs)) {
+  } else if (all(inner_agg_exprs | !inner_is_fieldref)) {
     # Something like: fun(agg(x), agg(y))
     # So based on the aggregations that have been extracted, mutate after
     agg_field_refs <- make_field_refs(names(ctx$aggregations))
diff --git a/r/R/dplyr.R b/r/R/dplyr.R
index dd6340c4f52..72e74809689 100644
--- a/r/R/dplyr.R
+++ b/r/R/dplyr.R
@@ -49,6 +49,12 @@ arrow_dplyr_query <- function(.data) {
   if (inherits(.data, "data.frame")) {
     .data <- Table$create(.data)
   }
+  # ARROW-17737: If .data is a Table, remove groups from metadata
+  # (we've already grabbed the groups above)
+  if (inherits(.data, "ArrowTabular")) {
+    .data <- ungroup.ArrowTabular(.data)
+  }
+
   # Evaluating expressions on a dataset with duplicated fieldnames will error
   dupes <- duplicated(names(.data))
   if (any(dupes)) {
@@ -110,6 +116,9 @@ make_field_refs <- function(field_names) {
 #' @export
 print.arrow_dplyr_query <- function(x, ...) {
   schm <- x$.data$schema
+  # If we are using this augmented field, it won't be in the schema
+  schm[["__filename"]] <- string()
+
   types <- map_chr(x$selected_columns, function(expr) {
     name <- expr$field_name
     if (nzchar(name)) {
@@ -179,14 +188,13 @@ dim.arrow_dplyr_query <- function(x) {
     # Query on in-memory Table, so evaluate the filter
     # Don't need any columns
     x <- select.arrow_dplyr_query(x, NULL)
-    rows <- nrow(compute.arrow_dplyr_query(x))
+    rows <- nrow(as_arrow_table(x))
   }
   c(rows, cols)
 }
 
 #' @export
 unique.arrow_dplyr_query <- function(x, incomparables = FALSE, fromLast = FALSE, ...) {
-
   if (isTRUE(incomparables)) {
     arrow_not_supported("`unique()` with `incomparables = TRUE`")
   }
@@ -213,12 +221,22 @@ as.data.frame.arrow_dplyr_query <- function(x, row.names = NULL, optional = FALS
 
 #' @export
 head.arrow_dplyr_query <- function(x, n = 6L, ...) {
+  assert_is(n, c("numeric", "integer"))
+  assert_that(length(n) == 1)
+  if (!is.integer(n)) {
+    n <- floor(n)
+  }
   x$head <- n
   collapse.arrow_dplyr_query(x)
 }
 
 #' @export
 tail.arrow_dplyr_query <- function(x, n = 6L, ...) {
+  assert_is(n, c("numeric", "integer"))
+  assert_that(length(n) == 1)
+  if (!is.integer(n)) {
+    n <- floor(n)
+  }
   x$tail <- n
   collapse.arrow_dplyr_query(x)
 }
@@ -236,7 +254,11 @@ tail.arrow_dplyr_query <- function(x, n = 6L, ...) {
 
   if (!missing(i)) {
     out <- take_dataset_rows(x, i)
-    x <- restore_dplyr_features(out, x)
+    x <- set_group_attributes(
+      out,
+      dplyr::group_vars(x),
+      dplyr::group_by_drop_default(x)
+    )
   }
   x
 }
@@ -259,11 +281,11 @@ tail.arrow_dplyr_query <- function(x, n = 6L, ...) {
 #' mtcars %>%
 #'   arrow_table() %>%
 #'   filter(mpg > 20) %>%
-#'   mutate(x = gear/carb) %>%
+#'   mutate(x = gear / carb) %>%
 #'   show_exec_plan()
 show_exec_plan <- function(x) {
   adq <- as_adq(x)
-  plan <- ExecPlan$create()
+
   # do not show the plan if we have a nested query (as this will force the
   # evaluation of the inner query/queries)
   # TODO see if we can remove after ARROW-16628
@@ -271,8 +293,16 @@ show_exec_plan <- function(x) {
     warn("The `ExecPlan` cannot be printed for a nested query.")
     return(invisible(x))
   }
-  final_node <- plan$Build(adq)
-  cat(plan$BuildAndShow(final_node))
+
+  result <- as_record_batch_reader(adq)
+  plan <- result$Plan()
+  on.exit({
+    plan$.unsafe_delete()
+    result$.unsafe_delete()
+  })
+
+  cat(plan$ToString())
+
   invisible(x)
 }
 
diff --git a/r/R/enums.R b/r/R/enums.R
index 727ca9388c3..533ebc6c1d1 100644
--- a/r/R/enums.R
+++ b/r/R/enums.R
@@ -82,6 +82,13 @@ Type <- enum("Type::type",
 )
 
 TYPES_WITH_NAN <- Type[c("HALF_FLOAT", "FLOAT", "DOUBLE")]
+TYPES_NUMERIC <- Type[
+  c(
+    "INT8", "UINT8", "INT16", "UINT16", "INT32", "UINT32",
+    "INT64", "UINT64", "HALF_FLOAT", "FLOAT", "DOUBLE",
+    "DECIMAL128", "DECIMAL256"
+    )
+  ]
 
 #' @rdname enums
 #' @export
diff --git a/r/R/expression.R b/r/R/expression.R
index 6b9eb5e89c5..a1163c12a85 100644
--- a/r/R/expression.R
+++ b/r/R/expression.R
@@ -15,115 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-#' @include arrowExports.R
-
-.unary_function_map <- list(
-  # NOTE: Each of the R functions mapped here takes exactly *one* argument, maps
-  # *directly* to an Arrow C++ compute kernel, and does not require any
-  # non-default options to be specified. More complex R function mappings are
-  # defined in dplyr-functions.R.
-
-  # functions are arranged alphabetically by name within categories
-
-  # arithmetic functions
-  "base::abs" = "abs_checked",
-  "base::ceiling" = "ceil",
-  "base::floor" = "floor",
-  "base::log10" = "log10_checked",
-  "base::log1p" = "log1p_checked",
-  "base::log2" = "log2_checked",
-  "base::sign" = "sign",
-  # trunc is defined in dplyr-functions.R
-
-  # trigonometric functions
-  "base::acos" = "acos_checked",
-  "base::asin" = "asin_checked",
-  "base::cos" = "cos_checked",
-  "base::sin" = "sin_checked",
-  "base::tan" = "tan_checked",
-
-  # logical functions
-  "!" = "invert",
-
-  # string functions
-  # nchar is defined in dplyr-functions.R
-  "stringr::str_length" = "utf8_length",
-  # str_pad is defined in dplyr-functions.R
-  # str_sub is defined in dplyr-functions.R
-  # str_to_lower is defined in dplyr-functions.R
-  # str_to_title is defined in dplyr-functions.R
-  # str_to_upper is defined in dplyr-functions.R
-  # str_trim is defined in dplyr-functions.R
-  "stringi::stri_reverse" = "utf8_reverse",
-  # substr is defined in dplyr-functions.R
-  # substring is defined in dplyr-functions.R
-  "base::tolower" = "utf8_lower",
-  "base::toupper" = "utf8_upper",
-
-  # date and time functions
-  "lubridate::day" = "day",
-  "lubridate::dst" = "is_dst",
-  "lubridate::hour" = "hour",
-  "lubridate::isoweek" = "iso_week",
-  "lubridate::epiweek" = "us_week",
-  "lubridate::isoyear" = "iso_year",
-  "lubridate::epiyear" = "us_year",
-  "lubridate::minute" = "minute",
-  "lubridate::quarter" = "quarter",
-  # second is defined in dplyr-functions.R
-  # wday is defined in dplyr-functions.R
-  "lubridate::mday" = "day",
-  "lubridate::yday" = "day_of_year",
-  "lubridate::year" = "year",
-  "lubridate::leap_year" = "is_leap_year",
-
-  # type conversion functions
-  "base::as.factor" = "dictionary_encode"
-)
-
-.binary_function_map <- list(
-  # NOTE: Each of the R functions/operators mapped here takes exactly *two*
-  # arguments. Most map *directly* to an Arrow C++ compute kernel and require no
-  # non-default options, but some are modified by build_expr(). More complex R
-  # function/operator mappings are defined in dplyr-functions.R.
-  "==" = "equal",
-  "!=" = "not_equal",
-  ">" = "greater",
-  ">=" = "greater_equal",
-  "<" = "less",
-  "<=" = "less_equal",
-  "&" = "and_kleene",
-  "|" = "or_kleene",
-  "+" = "add_checked",
-  "-" = "subtract_checked",
-  "*" = "multiply_checked",
-  "/" = "divide",
-  "%/%" = "divide_checked",
-  # we don't actually use divide_checked with `%%`, rather it is rewritten to
-  # use `%/%` above.
-  "%%" = "divide_checked",
-  "^" = "power_checked",
-  "%in%" = "is_in_meta_binary",
-  "base::strrep" = "binary_repeat",
-  "stringr::str_dup" = "binary_repeat"
-)
-
-.array_function_map <- c(.unary_function_map, .binary_function_map)
-
-register_bindings_array_function_map <- function() {
-  # use a function to generate the binding so that `operator` persists
-  # beyond execution time (another option would be to use quasiquotation
-  # and unquote `operator` directly into the function expression)
-  array_function_map_factory <- function(operator) {
-    force(operator)
-    function(...) build_expr(operator, ...)
-  }
-
-  for (name in names(.array_function_map)) {
-    register_binding(name, array_function_map_factory(name))
-  }
-}
-
 #' Arrow expressions
 #'
 #' @description
@@ -137,9 +28,16 @@ register_bindings_array_function_map <- function() {
 #' evaluates to the named column in the `Dataset` against which it is evaluated.
 #'
 #' `Expression$create(function_name, ..., options)` builds a function-call
-#' `Expression` containing one or more `Expression`s.
+#' `Expression` containing one or more `Expression`s. Anything in `...` that
+#' is not already an expression will be wrapped in `Expression$scalar()`.
+#'
+#' `Expression$op(FUN, ...)` is for logical and arithmetic operators. Scalar
+#' inputs in `...` will be attempted to be cast to the common type of the
+#' `Expression`s in the call so that the types of the columns in the `Dataset`
+#' are preserved and not unnecessarily upcast, which may be expensive.
 #' @name Expression
 #' @rdname Expression
+#' @include arrowExports.R
 #' @export
 Expression <- R6Class("Expression",
   inherit = ArrowObject,
@@ -160,13 +58,9 @@ Expression <- R6Class("Expression",
       compute___expr__type_id(self, schema)
     },
     cast = function(to_type, safe = TRUE, ...) {
-      opts <- list(
-        to_type = to_type,
-        allow_int_overflow = !safe,
-        allow_time_truncate = !safe,
-        allow_float_truncate = !safe
-      )
-      Expression$create("cast", self, options = modifyList(opts, list(...)))
+      opts <- cast_options(safe, ...)
+      opts$to_type <- as_type(to_type)
+      Expression$create("cast", self, options = opts)
     }
   ),
   active = list(
@@ -178,9 +72,20 @@ Expression$create <- function(function_name,
                               args = list(...),
                               options = empty_named_list()) {
   assert_that(is.string(function_name))
-  assert_that(is_list_of(args, "Expression"), msg = "Expression arguments must be Expression objects")
+  # Make sure all inputs are Expressions
+  args <- lapply(args, function(x) {
+    if (!inherits(x, "Expression")) {
+      x <- Expression$scalar(x)
+    }
+    x
+  })
   expr <- compute___expr__call(function_name, args, options)
-  expr$schema <- unify_schemas(schemas = lapply(args, function(x) x$schema))
+  if (length(args)) {
+    expr$schema <- unify_schemas(schemas = lapply(args, function(x) x$schema))
+  } else {
+    # TODO: this shouldn't be necessary
+    expr$schema <- schema()
+  }
   expr
 }
 
@@ -189,83 +94,83 @@ Expression$field_ref <- function(name) {
   compute___expr__field_ref(name)
 }
 Expression$scalar <- function(x) {
-  expr <- compute___expr__scalar(Scalar$create(x))
+  if (!inherits(x, "Scalar")) {
+    x <- Scalar$create(x)
+  }
+  expr <- compute___expr__scalar(x)
   expr$schema <- schema()
   expr
 }
-
 # Wrapper around Expression$create that:
-# (1) maps R function names to Arrow C++ compute ("/" --> "divide_checked")
-# (2) wraps R input args as Array or Scalar
-build_expr <- function(FUN,
-                       ...,
-                       args = list(...),
-                       options = empty_named_list()) {
+# (1) maps R operator names to Arrow C++ compute ("/" --> "divide_checked").
+#     This is convenient for Ops.Expression, despite the special handling
+#     for the division operators inside the function
+# (2) wraps R input args as Array or Scalar and attempts to cast them to
+#     match the type of the columns/fields in the expression. This is to prevent
+#     upcasting all of the data where a simple downcast of a Scalar works.
+Expression$op <- function(FUN,
+                          ...,
+                          args = list(...)) {
   if (FUN == "-" && length(args) == 1L) {
     if (inherits(args[[1]], c("ArrowObject", "Expression"))) {
-      return(build_expr("negate_checked", args[[1]]))
+      return(Expression$create("negate_checked", args[[1]]))
     } else {
       return(-args[[1]])
     }
   }
-  if (FUN == "%in%") {
-    # Special-case %in%, which is different from the Array function name
-    expr <- Expression$create("is_in", args[[1]],
-      options = list(
-        # If args[[2]] is already an Arrow object (like a scalar),
-        # this wouldn't work
-        value_set = Array$create(args[[2]]),
-        skip_nulls = TRUE
-      )
-    )
-  } else {
-    args <- lapply(args, function(x) {
-      if (!inherits(x, "Expression")) {
-        x <- Expression$scalar(x)
-      }
-      x
-    })
 
-    # In Arrow, "divide" is one function, which does integer division on
-    # integer inputs and floating-point division on floats
-    if (FUN == "/") {
-      # TODO: omg so many ways it's wrong to assume these types
-      args <- lapply(args, function(x) x$cast(float64()))
-    } else if (FUN == "%/%") {
-      # In R, integer division works like floor(float division)
-      out <- build_expr("/", args = args)
+  if (FUN != "%/%") {
+    # We switch %/% behavior based on the actual input types so don't
+    # try to cast scalars to match the columns
+    args <- cast_scalars_to_common_type(args)
+  }
 
-      # integer output only for all integer input
-      int_type_ids <- Type[toupper(INTEGER_TYPES)]
-      numerator_is_int <- args[[1]]$type_id() %in% int_type_ids
-      denominator_is_int <- args[[2]]$type_id() %in% int_type_ids
+  # In Arrow, "divide" is one function, which does integer division on
+  # integer inputs and floating-point division on floats
+  if (FUN == "/") {
+    # TODO: omg so many ways it's wrong to assume these types (right?)
+    args <- lapply(args, cast, float64())
+  } else if (FUN == "%/%") {
+    # In R, integer division works like floor(float division)
+    out <- Expression$create("floor", Expression$op("/", args = args))
+
+    # ... but if inputs are integer, make sure we return an integer
+    int_type_ids <- Type[toupper(INTEGER_TYPES)]
+    is_int <- function(x) {
+      is.integer(x) ||
+        (inherits(x, "ArrowObject") && x$type_id() %in% int_type_ids)
+    }
 
-      if (numerator_is_int && denominator_is_int) {
-        out_float <- build_expr(
-          "if_else",
-          build_expr("equal", args[[2]], 0L),
-          Scalar$create(NA_integer_),
-          build_expr("floor", out)
-        )
-        return(out_float$cast(args[[1]]$type()))
+    if (is_int(args[[1]]) && is_int(args[[2]])) {
+      if (inherits(args[[1]], "ArrowObject")) {
+        out_type <- args[[1]]$type()
       } else {
-        return(build_expr("floor", out))
+        # It's an R integer
+        out_type <- int32()
       }
-    } else if (FUN == "%%") {
-      return(args[[1]] - args[[2]] * (args[[1]] %/% args[[2]]))
+      # If args[[2]] == 0, float division returns Inf,
+      # but for integer division R returns NA, so wrap in if_else
+      out <- Expression$create(
+        "if_else",
+        Expression$op("==", args[[2]], 0L),
+        Scalar$create(NA_integer_, out_type),
+        cast(out, out_type, allow_float_truncate = TRUE)
+      )
     }
-
-    expr <- Expression$create(.array_function_map[[FUN]] %||% FUN, args = args, options = options)
+    return(out)
+  } else if (FUN == "%%") {
+    return(args[[1]] - args[[2]] * (args[[1]] %/% args[[2]]))
   }
-  expr
+
+  Expression$create(.operator_map[[FUN]], args = args)
 }
 
 #' @export
 Ops.Expression <- function(e1, e2) {
   if (.Generic == "!") {
-    build_expr(.Generic, e1)
+    Expression$create("invert", e1)
   } else {
-    build_expr(.Generic, e1, e2)
+    Expression$op(.Generic, e1, e2)
   }
 }
 
diff --git a/r/R/extension.R b/r/R/extension.R
index be492c845fa..153e243eb71 100644
--- a/r/R/extension.R
+++ b/r/R/extension.R
@@ -252,7 +252,7 @@ ExtensionType$create <- function(storage_type,
 #' that provide some customized behaviour and/or storage. A common use-case
 #' for extension types is to define a customized conversion between an
 #' an Arrow [Array] and an R object when the default conversion is slow
-#' or looses metadata important to the interpretation of values in the array.
+#' or loses metadata important to the interpretation of values in the array.
 #' For most types, the built-in
 #' [vctrs extension type][vctrs_extension_type] is probably sufficient.
 #'
diff --git a/r/R/feather.R b/r/R/feather.R
index 4e2e9947cb9..1488db29eb7 100644
--- a/r/R/feather.R
+++ b/r/R/feather.R
@@ -40,7 +40,9 @@
 #' "uncompressed". "zstd" is the other available codec and generally has better
 #' compression ratios in exchange for slower read and write performance.
 #' "lz4" is shorthand for the "lz4_frame" codec.
-#' See [codec_is_available()] for details. This option is not supported for V1.
+#' See [codec_is_available()] for details.
+#' `TRUE` and `FALSE` can also be used in place of "default" and "uncompressed".
+#' This option is not supported for V1.
 #' @param compression_level If `compression` is "zstd", you may
 #' specify an integer compression level. If omitted, the compression codec's
 #' default compression level is used.
@@ -74,6 +76,9 @@ write_feather <- function(x,
   version <- as.integer(version)
   assert_that(version %in% 1:2)
 
+  if (isTRUE(compression)) compression <- "default"
+  if (isFALSE(compression)) compression <- "uncompressed"
+
   # TODO(ARROW-17221): if (missing(compression)), we could detect_compression(sink) here
   compression <- match.arg(compression)
   chunk_size <- as.integer(chunk_size)
@@ -178,8 +183,11 @@ read_feather <- function(file, col_select = NULL, as_data_frame = TRUE, mmap = T
   reader <- FeatherReader$create(file)
 
   col_select <- enquo(col_select)
+
   columns <- if (!quo_is_null(col_select)) {
-    vars_select(names(reader), !!col_select)
+    sim_df <- as.data.frame(reader$schema)
+    indices <- eval_select(col_select, sim_df)
+    names(reader)[indices]
   }
 
   out <- tryCatch(
diff --git a/r/R/filesystem.R b/r/R/filesystem.R
index 2f0b1cfd585..74760ad1a78 100644
--- a/r/R/filesystem.R
+++ b/r/R/filesystem.R
@@ -154,6 +154,10 @@ FileSelector$create <- function(base_dir, allow_not_found = FALSE, recursive = F
 #'    buckets if `$CreateDir()` is called on the bucket level (default `FALSE`).
 #' - `allow_bucket_deletion`: logical, if TRUE, the filesystem will delete
 #'    buckets if`$DeleteDir()` is called on the bucket level (default `FALSE`).
+#' - `request_timeout`: Socket read time on Windows and MacOS in seconds. If
+#'    negative, the AWS SDK default (typically 3 seconds).
+#' - `connect_timeout`: Socket connection timeout in seconds. If negative, AWS
+#'    SDK default is used (typically 1 second).
 #'
 #' `GcsFileSystem$create()` optionally takes arguments:
 #'
@@ -431,7 +435,9 @@ default_s3_options <- list(
   proxy_options = "",
   background_writes = TRUE,
   allow_bucket_creation = FALSE,
-  allow_bucket_deletion = FALSE
+  allow_bucket_deletion = FALSE,
+  connect_timeout = -1,
+  request_timeout = -1
 )
 
 #' Connect to an AWS S3 bucket
@@ -497,7 +503,9 @@ gs_bucket <- function(bucket, ...) {
 GcsFileSystem <- R6Class("GcsFileSystem",
   inherit = FileSystem
 )
-GcsFileSystem$create <- function(anonymous = FALSE, ...) {
+GcsFileSystem$create <- function(anonymous = FALSE, retry_limit_seconds = 15, ...) {
+  # The default retry limit in C++ is 15 minutes, but that is experienced as
+  # hanging in an interactive context, so default is set here to 15 seconds.
   options <- list(...)
 
   # Validate options
@@ -525,8 +533,7 @@ GcsFileSystem$create <- function(anonymous = FALSE, ...) {
 
   valid_opts <- c(
     "access_token", "expiration", "json_credentials", "endpoint_override",
-    "scheme", "default_bucket_location", "retry_limit_seconds",
-    "default_metadata"
+    "scheme", "default_bucket_location", "default_metadata"
   )
 
   invalid_opts <- setdiff(names(options), valid_opts)
@@ -538,6 +545,8 @@ GcsFileSystem$create <- function(anonymous = FALSE, ...) {
     )
   }
 
+  options$retry_limit_seconds <- retry_limit_seconds
+
   fs___GcsFileSystem__Make(anonymous, options)
 }
 
@@ -615,7 +624,7 @@ copy_files <- function(from, to, chunk_size = 1024L * 1024L) {
 
 clean_path_abs <- function(path) {
   # Make sure we have a valid, absolute, forward-slashed path for passing to Arrow
-  normalizePath(path, winslash = "/", mustWork = FALSE)
+  enc2utf8(normalizePath(path, winslash = "/", mustWork = FALSE))
 }
 
 clean_path_rel <- function(path) {
diff --git a/r/R/flight.R b/r/R/flight.R
index f56308f9584..0bd661e58d5 100644
--- a/r/R/flight.R
+++ b/r/R/flight.R
@@ -56,9 +56,11 @@ flight_disconnect <- function(client) {
 #' @param overwrite logical: if `path` exists on `client` already, should we
 #' replace it with the contents of `data`? Default is `TRUE`; if `FALSE` and
 #' `path` exists, the function will error.
+#' @param max_chunksize integer: Maximum size for RecordBatch chunks when a `data.frame` is sent.
+#' Individual chunks may be smaller depending on the chunk layout of individual columns.
 #' @return `client`, invisibly.
 #' @export
-flight_put <- function(client, data, path, overwrite = TRUE) {
+flight_put <- function(client, data, path, overwrite = TRUE, max_chunksize = NULL) {
   assert_is(data, c("data.frame", "Table", "RecordBatch"))
 
   if (!overwrite && flight_path_exists(client, path)) {
@@ -70,8 +72,13 @@ flight_put <- function(client, data, path, overwrite = TRUE) {
 
   py_data <- reticulate::r_to_py(data)
   writer <- client$do_put(descriptor_for_path(path), py_data$schema)[[1]]
-  if (inherits(data, "RecordBatch")) {
+  if (inherits(data, "RecordBatch") && !is.null(max_chunksize)) {
+    warning("`max_chunksize` is not supported for flight_put with RecordBatch")
     writer$write_batch(py_data)
+  } else if (inherits(data, "RecordBatch")) {
+    writer$write_batch(py_data)
+  } else if (!is.null(max_chunksize)) {
+    writer$write_table(py_data, max_chunksize)
   } else {
     writer$write_table(py_data)
   }
diff --git a/r/R/install-arrow.R b/r/R/install-arrow.R
index 05a4b95b831..db3e8e9eea2 100644
--- a/r/R/install-arrow.R
+++ b/r/R/install-arrow.R
@@ -33,8 +33,9 @@
 #' Linux distribution and version and find an appropriate C++ library. `FALSE`
 #' would tell the script not to retrieve a binary and instead build Arrow C++
 #' from source. Other valid values are strings corresponding to a Linux
-#' distribution-version, to override the value that would be detected.
-#' See `vignette("install", package = "arrow")` for further details.
+#' distribution-version, to override the value that would be detected. See the
+#' \href{https://arrow.apache.org/docs/r/articles/install.html}{install guide}
+#' for further details.
 #' @param use_system logical: Should we use `pkg-config` to look for Arrow
 #' system packages? Default is `FALSE`. If `TRUE`, source installation may be
 #' faster, but there is a risk of version mismatch. This sets the
@@ -50,8 +51,9 @@
 #' @export
 #' @importFrom utils install.packages
 #' @seealso [arrow_info()] to see if the package was configured with
-#' necessary C++ dependencies. `vignette("install", package = "arrow")` for
-#' more ways to tune installation on Linux.
+#' necessary C++ dependencies.
+#' \href{https://arrow.apache.org/docs/r/articles/install.html}{install guide}
+#' for more ways to tune installation on Linux.
 install_arrow <- function(nightly = FALSE,
                           binary = Sys.getenv("LIBARROW_BINARY", TRUE),
                           use_system = Sys.getenv("ARROW_USE_PKG_CONFIG", FALSE),
diff --git a/r/R/json.R b/r/R/json.R
index 2b1f4916cb4..0860211d90c 100644
--- a/r/R/json.R
+++ b/r/R/json.R
@@ -21,7 +21,18 @@
 #' data frame or Arrow Table.
 #'
 #' If passed a path, will detect and handle compression from the file extension
-#' (e.g. `.json.gz`). Accepts explicit or implicit nulls.
+#' (e.g. `.json.gz`).
+#'
+#' If `schema` is not provided, Arrow data types are inferred from the data:
+#' - JSON null values convert to the [null()] type, but can fall back to any other type.
+#' - JSON booleans convert to [boolean()].
+#' - JSON numbers convert to [int64()], falling back to [float64()] if a non-integer is encountered.
+#' - JSON strings of the kind "YYYY-MM-DD" and "YYYY-MM-DD hh:mm:ss" convert to [`timestamp(unit = "s")`][timestamp()],
+#'   falling back to [utf8()] if a conversion error occurs.
+#' - JSON arrays convert to a [list_of()] type, and inference proceeds recursively on the JSON arrays' values.
+#' - Nested JSON objects convert to a [struct()] type, and inference proceeds recursively on the JSON objects' values.
+#'
+#' When `as_data_frame = TRUE`, Arrow types are further converted to R types.
 #'
 #' @inheritParams read_delim_arrow
 #' @param schema [Schema] that describes the table.
@@ -37,7 +48,7 @@
 #'     { "hello": 3.25, "world": null }
 #'     { "hello": 0.0, "world": true, "yo": null }
 #'   ', tf, useBytes = TRUE)
-#' df <- read_json_arrow(tf)
+#' read_json_arrow(tf)
 read_json_arrow <- function(file,
                             col_select = NULL,
                             as_data_frame = TRUE,
@@ -56,7 +67,8 @@ read_json_arrow <- function(file,
 
   col_select <- enquo(col_select)
   if (!quo_is_null(col_select)) {
-    tab <- tab[vars_select(names(tab), !!col_select)]
+    sim_df <- as.data.frame(tab$schema)
+    tab <- tab[eval_select(col_select, sim_df)]
   }
 
   if (isTRUE(as_data_frame)) {
diff --git a/r/R/metadata.R b/r/R/metadata.R
index 74080e8f482..6a54b3e3842 100644
--- a/r/R/metadata.R
+++ b/r/R/metadata.R
@@ -77,7 +77,7 @@ apply_arrow_r_metadata <- function(x, r_metadata) {
         trace <- trace_back()
         # TODO: remove `trace$calls %||% trace$call` once rlang > 0.4.11 is released
         in_dplyr_collect <- any(map_lgl(trace$calls %||% trace$call, function(x) {
-          grepl("collect.arrow_dplyr_query", x, fixed = TRUE)[[1]]
+          grepl("collect\\.([aA]rrow|Dataset)", x)[[1]]
         }))
         if (in_dplyr_collect) {
           warning(
@@ -86,9 +86,11 @@ apply_arrow_r_metadata <- function(x, r_metadata) {
             call. = FALSE
           )
         } else {
-          x <- map2(x, columns_metadata, function(.x, .y) {
-            apply_arrow_r_metadata(.x, .y)
-          })
+          if (length(x) > 0) {
+            x <- map2(x, columns_metadata, function(.x, .y) {
+              apply_arrow_r_metadata(.x, .y)
+            })
+          }
         }
         x
       }
@@ -103,8 +105,13 @@ apply_arrow_r_metadata <- function(x, r_metadata) {
           attr(x, "row.names") <- NULL
         }
         if (!is.null(attr(x, ".group_vars")) && requireNamespace("dplyr", quietly = TRUE)) {
-          x <- dplyr::group_by(x, !!!syms(attr(x, ".group_vars")))
+          x <- dplyr::group_by(
+            x,
+            !!!syms(attr(x, ".group_vars")),
+            .drop = attr(x, ".group_by_drop") %||% TRUE
+          )
           attr(x, ".group_vars") <- NULL
+          attr(x, ".group_by_drop") <- NULL
         }
       }
     },
@@ -144,9 +151,11 @@ arrow_attributes <- function(x, only_top_level = FALSE) {
     # uses, which may be large
     if (requireNamespace("dplyr", quietly = TRUE)) {
       gv <- dplyr::group_vars(x)
+      drop <- dplyr::group_by_drop_default(x)
       x <- dplyr::ungroup(x)
-      # ungroup() first, then set attribute, bc ungroup() would erase it
+      # ungroup() first, then set attributes, bc ungroup() would erase it
       att[[".group_vars"]] <- gv
+      att[[".group_by_drop"]] <- drop
       removed_attributes <- c(removed_attributes, "groups", "class")
     }
   }
diff --git a/r/R/parquet.R b/r/R/parquet.R
index 0b3f93b20e1..a6f8058f4a0 100644
--- a/r/R/parquet.R
+++ b/r/R/parquet.R
@@ -55,9 +55,8 @@ read_parquet <- function(file,
   col_select <- enquo(col_select)
   if (!quo_is_null(col_select)) {
     # infer which columns to keep from schema
-    schema <- reader$GetSchema()
-    names <- names(schema)
-    indices <- match(vars_select(names, !!col_select), names) - 1L
+    sim_df <- as.data.frame(reader$GetSchema())
+    indices <- eval_select(col_select, sim_df) - 1L
     tab <- tryCatch(
       reader$ReadTable(indices),
       error = read_compressed_error
@@ -85,7 +84,8 @@ read_parquet <- function(file,
 #' If you want to use the Parquet format but also want the ability to extend
 #' your dataset, you can write to additional Parquet files and then treat
 #' the whole directory of files as a [Dataset] you can query.
-#' See `vignette("dataset", package = "arrow")` for examples of this.
+#' See the \href{https://arrow.apache.org/docs/r/articles/dataset.html}{dataset
+#' article} for examples of this.
 #'
 #' @param x `data.frame`, [RecordBatch], or [Table]
 #' @param sink A string file path, URI, or [OutputStream], or path in a file
diff --git a/r/R/query-engine.R b/r/R/query-engine.R
index 84360490fdb..2f0b421faeb 100644
--- a/r/R/query-engine.R
+++ b/r/R/query-engine.R
@@ -83,7 +83,9 @@ ExecPlan <- R6Class("ExecPlan",
           # SinkNode, so if there are any steps done after head/tail, we need to
           # evaluate the query up to then and then do a new query for the rest.
           # as_record_batch_reader() will build and run an ExecPlan
-          node <- self$SourceNode(as_record_batch_reader(.data$.data))
+          reader <- as_record_batch_reader(.data$.data)
+          on.exit(reader$.unsafe_delete())
+          node <- self$SourceNode(reader)
         } else {
           # Recurse
           node <- self$Build(.data$.data)
@@ -142,24 +144,25 @@ ExecPlan <- R6Class("ExecPlan",
         }
       } else {
         # If any columns are derived, reordered, or renamed we need to Project
-        # If there are aggregations, the projection was already handled above
+        # If there are aggregations, the projection was already handled above.
         # We have to project at least once to eliminate some junk columns
         # that the ExecPlan adds:
         # __fragment_index, __batch_index, __last_in_fragment
-        # Presumably extraneous repeated projection of the same thing
-        # (as when we've done collapse() and not projected after) is cheap/no-op
+        #
+        # $Project() will check whether we actually need to project, so that
+        # repeated projection of the same thing
+        # (as when we've done collapse() and not projected after) is avoided
         projection <- c(.data$selected_columns, .data$temp_columns)
         node <- node$Project(projection)
         if (!is.null(.data$join)) {
           right_node <- self$Build(.data$join$right_data)
-          left_output <- names(.data)
-          right_output <- setdiff(names(.data$join$right_data), .data$join$by)
+
           node <- node$Join(
             type = .data$join$type,
             right_node = right_node,
             by = .data$join$by,
-            left_output = left_output,
-            right_output = right_output,
+            left_output = .data$join$left_output,
+            right_output = .data$join$right_output,
             left_suffix = .data$join$suffix[[1]],
             right_suffix = .data$join$suffix[[2]]
           )
@@ -192,13 +195,11 @@ ExecPlan <- R6Class("ExecPlan",
       }
       node
     },
-    Run = function(node, as_table = FALSE) {
-      # a section of this code is used by `BuildAndShow()` too - the 2 need to be in sync
-      # Start of chunk used in `BuildAndShow()`
+    Run = function(node) {
       assert_is(node, "ExecNode")
 
       # Sorting and head/tail (if sorted) are handled in the SinkNode,
-      # created in ExecPlan_run
+      # created in ExecPlan_build
       sorting <- node$extras$sort %||% list()
       select_k <- node$extras$head %||% -1L
       has_sorting <- length(sorting) > 0
@@ -212,16 +213,7 @@ ExecPlan <- R6Class("ExecPlan",
         sorting$orders <- as.integer(sorting$orders)
       }
 
-      # End of chunk used in `BuildAndShow()`
-
-      # If we are going to return a Table anyway, we do this in one step and
-      # entirely in one C++ call to ensure that we can execute user-defined
-      # functions from the worker threads spawned by the ExecPlan. If not, we
-      # use ExecPlan_run which returns a RecordBatchReader that can be
-      # manipulated in R code (but that right now won't work with
-      # user-defined functions).
-      exec_fun <- if (as_table) ExecPlan_read_table else ExecPlan_run
-      out <- exec_fun(
+      out <- ExecPlan_run(
         self,
         node,
         sorting,
@@ -238,18 +230,13 @@ ExecPlan <- R6Class("ExecPlan",
         slice_size <- node$extras$head %||% node$extras$tail
         if (!is.null(slice_size)) {
           out <- head(out, slice_size)
-          # We already have everything we need for the head, so StopProducing
-          self$Stop()
         }
       } else if (!is.null(node$extras$tail)) {
         # TODO(ARROW-16630): proper BottomK support
         # Reverse the row order to get back what we expect
         out <- as_arrow_table(out)
         out <- out[rev(seq_len(nrow(out))), , drop = FALSE]
-        # Put back into RBR
-        if (!as_table) {
-          out <- as_record_batch_reader(out)
-        }
+        out <- as_record_batch_reader(out)
       }
 
       # If arrange() created $temp_columns, make sure to omit them from the result
@@ -259,11 +246,7 @@ ExecPlan <- R6Class("ExecPlan",
       if (length(node$extras$sort$temp_columns) > 0) {
         tab <- as_arrow_table(out)
         tab <- tab[, setdiff(names(tab), node$extras$sort$temp_columns), drop = FALSE]
-        if (!as_table) {
-          out <- as_record_batch_reader(tab)
-        } else {
-          out <- tab
-        }
+        out <- as_record_batch_reader(tab)
       }
 
       out
@@ -277,40 +260,13 @@ ExecPlan <- R6Class("ExecPlan",
         ...
       )
     },
-    # SinkNodes (involved in arrange and/or head/tail operations) are created in
-    # ExecPlan_run and are not captured by the regulat print method. We take a
-    # similar approach to expose them before calling the print method.
-    BuildAndShow = function(node) {
-      # a section of this code is copied from `Run()` - the 2 need to be in sync
-      # Start of chunk copied from `Run()`
-
-      assert_is(node, "ExecNode")
-
-      # Sorting and head/tail (if sorted) are handled in the SinkNode,
-      # created in ExecPlan_run
-      sorting <- node$extras$sort %||% list()
-      select_k <- node$extras$head %||% -1L
-      has_sorting <- length(sorting) > 0
-      if (has_sorting) {
-        if (!is.null(node$extras$tail)) {
-          # Reverse the sort order and take the top K, then after we'll reverse
-          # the resulting rows so that it is ordered as expected
-          sorting$orders <- !sorting$orders
-          select_k <- node$extras$tail
-        }
-        sorting$orders <- as.integer(sorting$orders)
-      }
-
-      # End of chunk copied from `Run()`
-
-      ExecPlan_BuildAndShow(
-        self,
-        node,
-        sorting,
-        select_k
-      )
+    ToString = function() {
+      ExecPlan_ToString(self)
     },
-    Stop = function() ExecPlan_StopProducing(self)
+    .unsafe_delete = function() {
+      ExecPlan_UnsafeDelete(self)
+      super$.unsafe_delete()
+    }
   )
 )
 # nolint end.
@@ -349,7 +305,11 @@ ExecNode <- R6Class("ExecNode",
     Project = function(cols) {
       if (length(cols)) {
         assert_is_list_of(cols, "Expression")
-        self$preserve_extras(ExecNode_Project(self, cols, names(cols)))
+        if (needs_projection(cols, self$schema)) {
+          self$preserve_extras(ExecNode_Project(self, cols, names(cols)))
+        } else {
+          self
+        }
       } else {
         self$preserve_extras(ExecNode_Project(self, character(0), character(0)))
       }
@@ -390,6 +350,31 @@ ExecNode <- R6Class("ExecNode",
   )
 )
 
+ExecPlanReader <- R6Class("ExecPlanReader",
+  inherit = RecordBatchReader,
+  public = list(
+    batches = function() ExecPlanReader__batches(self),
+    read_table = function() Table__from_ExecPlanReader(self),
+    Plan = function() ExecPlanReader__Plan(self),
+    PlanStatus = function() ExecPlanReader__PlanStatus(self),
+    ToString = function() {
+      sprintf(
+        "<Status: %s>\n\n%s\n\nSee $Plan() for details.",
+        self$PlanStatus(),
+        super$ToString()
+      )
+    }
+  )
+)
+
+#' @export
+head.ExecPlanReader <- function(x, n = 6L, ...) {
+  # We need to make sure that the head() of an ExecPlanReader
+  # is also an ExecPlanReader so that the evaluation takes place
+  # in a way that supports calls into R.
+  as_record_batch_reader(as_adq(RecordBatchReader__Head(x, n)))
+}
+
 do_exec_plan_substrait <- function(substrait_plan) {
   if (is.string(substrait_plan)) {
     substrait_plan <- substrait__internal__SubstraitFromJSON(substrait_plan)
@@ -400,5 +385,17 @@ do_exec_plan_substrait <- function(substrait_plan) {
   }
 
   plan <- ExecPlan$create()
+  on.exit(plan$.unsafe_delete())
+
   ExecPlan_run_substrait(plan, substrait_plan)
 }
+
+needs_projection <- function(projection, schema) {
+  # Check whether `projection` would do anything to data with the given `schema`
+  field_names <- set_names(map_chr(projection, ~ .$field_name), NULL)
+
+  # We need to apply `projection` if:
+  !all(nzchar(field_names)) || # Any of the Expressions are not FieldRefs
+    !identical(field_names, names(projection)) || # Any fields are renamed
+    !identical(field_names, names(schema)) # The fields are reordered
+}
diff --git a/r/R/record-batch-reader.R b/r/R/record-batch-reader.R
index 3a985d8abce..f02b4e93e8a 100644
--- a/r/R/record-batch-reader.R
+++ b/r/R/record-batch-reader.R
@@ -98,8 +98,13 @@ RecordBatchReader <- R6Class("RecordBatchReader",
     read_next_batch = function() RecordBatchReader__ReadNext(self),
     batches = function() RecordBatchReader__batches(self),
     read_table = function() Table__from_RecordBatchReader(self),
+    Close = function() RecordBatchReader__Close(self),
     export_to_c = function(stream_ptr) ExportRecordBatchReader(self, stream_ptr),
-    ToString = function() self$schema$ToString()
+    ToString = function() self$schema$ToString(),
+    .unsafe_delete = function() {
+      RecordBatchReader__UnsafeDelete(self)
+      super$.unsafe_delete()
+    }
   ),
   active = list(
     schema = function() RecordBatchReader__schema(self)
@@ -129,8 +134,13 @@ as.data.frame.RecordBatchReader <- function(x, row.names = NULL, optional = FALS
 
 #' @export
 head.RecordBatchReader <- function(x, n = 6L, ...) {
+  assert_is(n, c("numeric", "integer"))
+  assert_that(length(n) == 1)
   # Negative n requires knowing nrow(x), which requires consuming the whole RBR
   assert_that(n >= 0)
+  if (!is.integer(n)) {
+    n <- floor(n)
+  }
   RecordBatchReader__Head(x, n)
 }
 
@@ -249,6 +259,8 @@ as_record_batch_reader.arrow_dplyr_query <- function(x, ...) {
   # See query-engine.R for ExecPlan/Nodes
   plan <- ExecPlan$create()
   final_node <- plan$Build(x)
+  on.exit(plan$.unsafe_delete())
+
   plan$Run(final_node)
 }
 
diff --git a/r/R/scalar.R b/r/R/scalar.R
index b37461e6ac3..aff24442089 100644
--- a/r/R/scalar.R
+++ b/r/R/scalar.R
@@ -71,9 +71,15 @@
 Scalar <- R6Class("Scalar",
   inherit = ArrowDatum,
   public = list(
-    ToString = function() Scalar__ToString(self),
+    ToString = function() {
+      if (self$type_id() == Type$EXTENSION) {
+        format(self$as_vector())
+      } else {
+        Scalar__ToString(self)
+      }
+    },
     type_id = function() Scalar__type(self)$id,
-    as_vector = function() Scalar__as_vector(self),
+    as_vector = function(length = 1L) self$as_array(length)$as_vector(),
     as_array = function(length = 1L) MakeArrayFromScalar(self, as.integer(length)),
     Equals = function(other, ...) {
       inherits(other, "Scalar") && Scalar__Equals(self, other)
diff --git a/r/R/schema.R b/r/R/schema.R
index 86a968b5003..93e826eff28 100644
--- a/r/R/schema.R
+++ b/r/R/schema.R
@@ -182,9 +182,9 @@ Schema$create <- function(...) {
   }
 
   if (all(map_lgl(.list, ~ inherits(., "Field")))) {
-    schema_(.list)
+    Schema__from_fields(.list)
   } else {
-    schema_(.fields(.list))
+    Schema__from_list(imap(.list, as_type))
   }
 }
 #' @include arrowExports.R
@@ -298,7 +298,7 @@ length.Schema <- function(x) x$num_fields
       call. = FALSE
     )
   }
-  schema_(fields)
+  Schema__from_fields(fields)
 }
 
 #' @export
@@ -383,3 +383,8 @@ as_schema.Schema <- function(x, ...) {
 as_schema.StructType <- function(x, ...) {
   schema(!!!x$fields())
 }
+
+#' @export
+as.data.frame.Schema <- function(x, row.names = NULL, optional = FALSE, ...) {
+  as.data.frame(Table__from_schema(x))
+}
diff --git a/r/R/table.R b/r/R/table.R
index d7e276415c5..aac2f914af8 100644
--- a/r/R/table.R
+++ b/r/R/table.R
@@ -134,6 +134,11 @@ Table$create <- function(..., schema = NULL) {
   if (is.null(names(dots))) {
     names(dots) <- rep_len("", length(dots))
   }
+
+  if (length(dots) == 0 && inherits(schema, "Schema")) {
+    return(Table__from_schema(schema))
+  }
+
   stopifnot(length(dots) > 0)
 
   if (all_record_batches(dots)) {
@@ -325,18 +330,29 @@ as_arrow_table.RecordBatchReader <- function(x, ...) {
   x$read_table()
 }
 
+#' @rdname as_arrow_table
+#' @export
+as_arrow_table.Dataset <- function(x, ...) {
+  Scanner$create(x)$ToTable()
+}
+
 #' @rdname as_arrow_table
 #' @export
 as_arrow_table.arrow_dplyr_query <- function(x, ...) {
-  # See query-engine.R for ExecPlan/Nodes
-  plan <- ExecPlan$create()
-  final_node <- plan$Build(x)
+  reader <- as_record_batch_reader(x)
+  on.exit(reader$.unsafe_delete())
 
-  run_with_event_loop <- identical(
-    Sys.getenv("R_ARROW_COLLECT_WITH_UDF", ""),
-    "true"
+  out <- as_arrow_table(reader)
+  # arrow_dplyr_query holds group_by information. Set it on the table metadata.
+  set_group_attributes(
+    out,
+    dplyr::group_vars(x),
+    dplyr::group_by_drop_default(x)
   )
+}
 
-  result <- plan$Run(final_node, as_table = run_with_event_loop)
-  as_arrow_table(result)
+#' @rdname as_arrow_table
+#' @export
+as_arrow_table.Schema <- function(x, ...) {
+  Table__from_schema(x)
 }
diff --git a/r/R/type.R b/r/R/type.R
index 0ec62eed83a..d1578dd822e 100644
--- a/r/R/type.R
+++ b/r/R/type.R
@@ -22,20 +22,30 @@
 #' @format NULL
 #' @docType class
 #'
-#' @section Methods:
+#' @section R6 Methods:
 #'
-#' TODO
+#' - `$ToString()`: String representation of the DataType
+#' - `$Equals(other)`: Is the DataType equal to `other`
+#' - `$fields()`: The children fields associated with this type
+#' - `$code()`: Produces an R call of the data type.
+#'
+#' There are also some active bindings:
+#' - `$id`: integer Arrow type id.
+#' - `$name`: string Arrow type name.
+#' - `$num_fields`: number of child fields.
 #'
+#' @seealso [infer_type()]
 #' @rdname DataType
 #' @name DataType
+#' @seealso [`data-type`]
 DataType <- R6Class("DataType",
   inherit = ArrowObject,
   public = list(
     ToString = function() {
       DataType__ToString(self)
     },
-    Equals = function(other, ...) {
-      inherits(other, "DataType") && DataType__Equals(self, other)
+    Equals = function(other, check_metadata = FALSE, ...) {
+      inherits(other, "DataType") && DataType__Equals(self, other, isTRUE(check_metadata))
     },
     fields = function() {
       DataType__fields(self)
@@ -58,8 +68,6 @@ FLOAT_TYPES <- c("float16", "float32", "float64", "halffloat", "float", "double"
 
 #' Infer the arrow Array type from an R object
 #'
-#' Infer the arrow Array type from an R object.
-#'
 #' [type()] is deprecated in favor of [infer_type()].
 #'
 #' @param x an R object (usually a vector) to be converted to an [Array] or
@@ -113,6 +121,20 @@ infer_type.default <- function(x, ..., from_array_infer_type = FALSE) {
   }
 }
 
+#' @export
+infer_type.vctrs_list_of <- function(x, ...) {
+  list_of(infer_type(attr(x, "ptype")))
+}
+
+#' @export
+infer_type.blob <- function(x, ...) {
+  if (sum(lengths(x)) > .Machine$integer.max) {
+    large_binary()
+  } else {
+    binary()
+  }
+}
+
 #' @export
 infer_type.ArrowDatum <- function(x, ...) x$type
 
@@ -356,7 +378,7 @@ NestedType <- R6Class("NestedType", inherit = DataType)
 #' @param ... For `struct()`, a named list of types to define the struct columns
 #'
 #' @name data-type
-#' @return An Arrow type object inheriting from DataType.
+#' @return An Arrow type object inheriting from [DataType].
 #' @export
 #' @seealso [dictionary()] for creating a dictionary (factor-like) type.
 #' @examples
diff --git a/r/R/udf.R b/r/R/udf.R
new file mode 100644
index 00000000000..fe08f02812f
--- /dev/null
+++ b/r/R/udf.R
@@ -0,0 +1,200 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+#' Register user-defined functions
+#'
+#' These functions support calling R code from query engine execution
+#' (i.e., a [dplyr::mutate()] or [dplyr::filter()] on a [Table] or [Dataset]).
+#' Use [register_scalar_function()] attach Arrow input and output types to an
+#' R function and make it available for use in the dplyr interface and/or
+#' [call_function()]. Scalar functions are currently the only type of
+#' user-defined function supported. In Arrow, scalar functions must be
+#' stateless and return output with the same shape (i.e., the same number
+#' of rows) as the input.
+#'
+#' @param name The function name to be used in the dplyr bindings
+#' @param in_type A [DataType] of the input type or a [schema()]
+#'   for functions with more than one argument. This signature will be used
+#'   to determine if this function is appropriate for a given set of arguments.
+#'   If this function is appropriate for more than one signature, pass a
+#'   `list()` of the above.
+#' @param out_type A [DataType] of the output type or a function accepting
+#'   a single argument (`types`), which is a `list()` of [DataType]s. If a
+#'   function it must return a [DataType].
+#' @param fun An R function or rlang-style lambda expression. The function
+#'   will be called with a first argument `context` which is a `list()`
+#'   with elements `batch_size` (the expected length of the output) and
+#'   `output_type` (the required [DataType] of the output) that may be used
+#'   to ensure that the output has the correct type and length. Subsequent
+#'   arguments are passed by position as specified by `in_types`. If
+#'   `auto_convert` is `TRUE`, subsequent arguments are converted to
+#'   R vectors before being passed to `fun` and the output is automatically
+#'   constructed with the expected output type via [as_arrow_array()].
+#' @param auto_convert Use `TRUE` to convert inputs before passing to `fun`
+#'   and construct an Array of the correct type from the output. Use this
+#'   option to write functions of R objects as opposed to functions of
+#'   Arrow R6 objects.
+#'
+#' @return `NULL`, invisibly
+#' @export
+#'
+#' @examplesIf arrow_with_dataset() && identical(Sys.getenv("NOT_CRAN"), "true")
+#' library(dplyr, warn.conflicts = FALSE)
+#'
+#' some_model <- lm(mpg ~ disp + cyl, data = mtcars)
+#' register_scalar_function(
+#'   "mtcars_predict_mpg",
+#'   function(context, disp, cyl) {
+#'     predict(some_model, newdata = data.frame(disp, cyl))
+#'   },
+#'   in_type = schema(disp = float64(), cyl = float64()),
+#'   out_type = float64(),
+#'   auto_convert = TRUE
+#' )
+#'
+#' as_arrow_table(mtcars) %>%
+#'   transmute(mpg, mpg_predicted = mtcars_predict_mpg(disp, cyl)) %>%
+#'   collect() %>%
+#'   head()
+#'
+register_scalar_function <- function(name, fun, in_type, out_type,
+                                     auto_convert = FALSE) {
+  assert_that(is.string(name))
+
+  scalar_function <- arrow_scalar_function(
+    fun,
+    in_type,
+    out_type,
+    auto_convert = auto_convert
+  )
+
+  # register with Arrow C++ function registry (enables its use in
+  # call_function() and Expression$create())
+  RegisterScalarUDF(name, scalar_function)
+
+  # register with dplyr binding (enables its use in mutate(), filter(), etc.)
+  binding_fun <- function(...) Expression$create(name, ...)
+
+  # inject the value of `name` into the expression to avoid saving this
+  # execution environment in the binding, which eliminates a warning when the
+  # same binding is registered twice
+  body(binding_fun) <- expr_substitute(body(binding_fun), sym("name"), name)
+  environment(binding_fun) <- asNamespace("arrow")
+
+  register_binding(
+    name,
+    binding_fun,
+    update_cache = TRUE
+  )
+
+  invisible(NULL)
+}
+
+arrow_scalar_function <- function(fun, in_type, out_type, auto_convert = FALSE) {
+  assert_that(is.function(fun))
+
+  # Create a small wrapper function that is easier to call from C++.
+  # TODO(ARROW-17148): This wrapper could be implemented in C/C++ to
+  # reduce evaluation overhead and generate prettier backtraces when
+  # errors occur (probably using a similar approach to purrr).
+  if (auto_convert) {
+    wrapper_fun <- function(context, args) {
+      args <- lapply(args, as.vector)
+      result <- do.call(fun, c(list(context), args))
+      as_arrow_array(result, type = context$output_type)
+    }
+  } else {
+    wrapper_fun <- function(context, args) {
+      do.call(fun, c(list(context), args))
+    }
+  }
+
+  # in_type can be a list() if registering multiple kernels at once
+  if (is.list(in_type)) {
+    in_type <- lapply(in_type, in_type_as_schema)
+  } else {
+    in_type <- list(in_type_as_schema(in_type))
+  }
+
+  # out_type can be a list() if registering multiple kernels at once
+  if (is.list(out_type)) {
+    out_type <- lapply(out_type, out_type_as_function)
+  } else {
+    out_type <- list(out_type_as_function(out_type))
+  }
+
+  # recycle out_type (which is frequently length 1 even if multiple kernels
+  # are being registered at once)
+  out_type <- rep_len(out_type, length(in_type))
+
+  # check n_kernels and number of args in fun
+  n_kernels <- length(in_type)
+  if (n_kernels == 0) {
+    abort("Can't register user-defined scalar function with 0 kernels")
+  }
+
+  expected_n_args <- in_type[[1]]$num_fields + 1L
+  fun_formals_have_dots <- any(names(formals(fun)) == "...")
+  if (!fun_formals_have_dots && length(formals(fun)) != expected_n_args) {
+    abort(
+      sprintf(
+        paste0(
+          "Expected `fun` to accept %d argument(s)\n",
+          "but found a function that acccepts %d argument(s)\n",
+          "Did you forget to include `context` as the first argument?"
+        ),
+        expected_n_args,
+        length(formals(fun))
+      )
+    )
+  }
+
+  structure(
+    list(
+      wrapper_fun = wrapper_fun,
+      in_type = in_type,
+      out_type = out_type
+    ),
+    class = "arrow_scalar_function"
+  )
+}
+
+# This function sanitizes the in_type argument for arrow_scalar_function(),
+# which can be a data type (e.g., int32()), a field for a unary function
+# or a schema() for functions accepting more than one argument. C++ expects
+# a schema().
+in_type_as_schema <- function(x) {
+  if (inherits(x, "Field")) {
+    schema(x)
+  } else if (inherits(x, "DataType")) {
+    schema(field("", x))
+  } else {
+    as_schema(x)
+  }
+}
+
+# This function sanitizes the out_type argument for arrow_scalar_function(),
+# which can be a data type (e.g., int32()) or a function of the input types.
+# C++ currently expects a function.
+out_type_as_function <- function(x) {
+  if (is.function(x)) {
+    x
+  } else {
+    x <- as_data_type(x)
+    function(types) x
+  }
+}
diff --git a/r/R/util.R b/r/R/util.R
index 55ff29db73a..8d319fab826 100644
--- a/r/R/util.R
+++ b/r/R/util.R
@@ -134,8 +134,7 @@ read_compressed_error <- function(e) {
   stop(e)
 }
 
-handle_parquet_io_error <- function(e, format, call) {
-  msg <- conditionMessage(e)
+handle_parquet_io_error <- function(msg, call, format) {
   if (grepl("Parquet magic bytes not found in footer", msg) && length(format) > 1 && is_character(format)) {
     # If length(format) > 1, that means it is (almost certainly) the default/not specified value
     # so let the user know that they should specify the actual (not parquet) format
@@ -143,8 +142,8 @@ handle_parquet_io_error <- function(e, format, call) {
       msg,
       i = "Did you mean to specify a 'format' other than the default (parquet)?"
     )
+    abort(msg, call = call)
   }
-  abort(msg, call = call)
 }
 
 as_writable_table <- function(x) {
@@ -154,7 +153,7 @@ as_writable_table <- function(x) {
       abort(
         "Object must be coercible to an Arrow Table using `as_arrow_table()`",
         parent = e,
-        call = rlang::caller_env(2)
+        call = caller_env(2)
       )
     }
   )
@@ -205,9 +204,7 @@ repeat_value_as_array <- function(object, n) {
   return(Scalar$create(object)$as_array(n))
 }
 
-handle_csv_read_error <- function(e, schema, call) {
-  msg <- conditionMessage(e)
-
+handle_csv_read_error <- function(msg, call, schema) {
   if (grepl("conversion error", msg) && inherits(schema, "Schema")) {
     msg <- c(
       msg,
@@ -217,10 +214,39 @@ handle_csv_read_error <- function(e, schema, call) {
         "header being read in as data."
       )
     )
+    abort(msg, call = call)
+  }
+}
+
+handle_augmented_field_misuse <- function(msg, call) {
+  if (grepl("No match for FieldRef.Name(__filename)", msg, fixed = TRUE)) {
+    msg <- c(
+      msg,
+      i = paste(
+        "`add_filename()` or use of the `__filename` augmented field can only",
+        "be used with with Dataset objects, and can only be added before doing",
+        "an aggregation or a join."
+      )
+    )
+    abort(msg, call = call)
   }
-  abort(msg, call = call)
 }
 
 is_compressed <- function(compression) {
   !identical(compression, "uncompressed")
 }
+
+# handler function which checks for a number of different read errors
+augment_io_error_msg <- function(e, call, schema = NULL, format = NULL) {
+  msg <- conditionMessage(e)
+
+  if (!is.null(schema)) {
+    handle_csv_read_error(msg, call, schema)
+  }
+  if (!is.null(format)) {
+    handle_parquet_io_error(msg, call, format)
+  }
+
+  handle_augmented_field_misuse(msg, call)
+  abort(msg, call = call)
+}
diff --git a/r/README.md b/r/README.md
index 1509ae7793f..3551e92bffb 100644
--- a/r/README.md
+++ b/r/README.md
@@ -1,337 +1,112 @@
-# arrow
+# arrow <img src="https://arrow.apache.org/img/arrow-logo_hex_black-txt_white-bg.png" align="right" alt="" width="120" />
 
 [![cran](https://www.r-pkg.org/badges/version-last-release/arrow)](https://cran.r-project.org/package=arrow)
 [![CI](https://github.com/apache/arrow/workflows/R/badge.svg?event=push)](https://github.com/apache/arrow/actions?query=workflow%3AR+branch%3Amaster+event%3Apush)
 [![conda-forge](https://img.shields.io/conda/vn/conda-forge/r-arrow.svg)](https://anaconda.org/conda-forge/r-arrow)
 
-**[Apache Arrow](https://arrow.apache.org/) is a cross-language
-development platform for in-memory data.** It specifies a standardized
+[Apache Arrow](https://arrow.apache.org/) is a cross-language
+development platform for in-memory and larger-than-memory data. It specifies a standardized
 language-independent columnar memory format for flat and hierarchical
 data, organized for efficient analytic operations on modern hardware. It
-also provides computational libraries and zero-copy streaming messaging
+also provides computational libraries and zero-copy streaming, messaging,
 and interprocess communication.
 
-**The `arrow` package exposes an interface to the Arrow C++ library,
-enabling access to many of its features in R.** It provides low-level
+The arrow R package exposes an interface to the Arrow C++ library,
+enabling access to many of its features in R. It provides low-level
 access to the Arrow C++ library API and higher-level access through a
 `{dplyr}` backend and familiar R functions.
 
-## What can the `arrow` package do?
+## What can the arrow package do?
 
--   Read and write **Parquet files** (`read_parquet()`,
-    `write_parquet()`), an efficient and widely used columnar format
--   Read and write **Feather files** (`read_feather()`,
-    `write_feather()`), a format optimized for speed and
-    interoperability
--   Analyze, process, and write **multi-file, larger-than-memory
-    datasets** (`open_dataset()`, `write_dataset()`)
--   Read **large CSV and JSON files** with excellent **speed and
-    efficiency** (`read_csv_arrow()`, `read_json_arrow()`)
--   Write CSV files (`write_csv_arrow()`)
--   Manipulate and analyze Arrow data with **`dplyr` verbs**
--   Read and write files in **Amazon S3** buckets with no additional
-    function calls
--   Exercise **fine control over column types** for seamless
-    interoperability with databases and data warehouse systems
--   Use **compression codecs** including Snappy, gzip, Brotli,
-    Zstandard, LZ4, LZO, and bzip2 for reading and writing data
--   Enable **zero-copy data sharing** between **R and Python**
--   Connect to **Arrow Flight** RPC servers to send and receive large
-    datasets over networks
--   Access and manipulate Arrow objects through **low-level bindings**
-    to the C++ library
--   Provide a **toolkit for building connectors** to other applications
-    and services that use Arrow
+The arrow package provides functionality for a wide range of data analysis
+tasks. It allows users to read and write data in a variety formats:
 
-## Installation
+-   Read and write Parquet files, an efficient and widely used columnar format
+-   Read and write Arrow (formerly known as Feather) files, a format optimized for speed and
+    interoperability
+-   Read and write CSV files with excellent speed and efficiency
+-   Read and write multi-file and larger-than-memory datasets
+-   Read JSON files
 
-### Installing the latest release version
+It provides data analysis tools for both in-memory and larger-than-memory data sets
 
-Install the latest release of `arrow` from CRAN with
+-   Analyze and process larger-than-memory datasets
+-   Manipulate and analyze Arrow data with dplyr verbs
 
-``` r
-install.packages("arrow")
-```
+It provides access to remote filesystems and servers
 
-Conda users can install `arrow` from conda-forge with
+-   Read and write files in Amazon S3 and Google Cloud Storage buckets
+-   Connect to Arrow Flight servers to transport large datasets over networks  
+    
+Additional features include:
 
-``` shell
-conda install -c conda-forge --strict-channel-priority r-arrow
-```
-
-Installing a released version of the `arrow` package requires no
-additional system dependencies. For macOS and Windows, CRAN hosts binary
-packages that contain the Arrow C++ library. On Linux, source package
-installation will also build necessary C++ dependencies. For a faster,
-more complete installation, set the environment variable
-`NOT_CRAN=true`. See `vignette("install", package = "arrow")` for
-details.
-
-For Windows users of R 3.6 and earlier, note that support for AWS S3 is not
-available, and the 32-bit version does not support Arrow Datasets.
-These features are only supported by the `rtools40` toolchain on Windows
-and thus are only available in R >= 4.0.
+-   Zero-copy data sharing between R and Python
+-   Fine control over column types to work seamlessly
+    with databases and data warehouses
+-   Support for compression codecs including Snappy, gzip, Brotli,
+    Zstandard, LZ4, LZO, and bzip2
+-   Access and manipulate Arrow objects through low-level bindings
+    to the C++ library
+-   Toolkit for building connectors to other applications
+    and services that use Arrow
 
-### Installing a development version
+## Installation
 
-Development versions of the package (binary and source) are built
-nightly and hosted at <https://nightlies.apache.org/arrow/r/>. To
-install from there:
+Most R users will probably want to install the latest release of arrow 
+from CRAN:
 
 ``` r
-install.packages("arrow", repos = c(arrow = "https://nightlies.apache.org/arrow/r", getOption("repos")))
+install.packages("arrow")
 ```
 
-Conda users can install `arrow` nightly builds with
+Alternatively, if you are using conda you can install arrow from conda-forge:
 
 ``` shell
-conda install -c arrow-nightlies -c conda-forge --strict-channel-priority r-arrow
-```
-
-If you already have a version of `arrow` installed, you can switch to
-the latest nightly development version with
-
-``` r
-arrow::install_arrow(nightly = TRUE)
-```
-
-These nightly package builds are not official Apache releases and are
-not recommended for production use. They may be useful for testing bug
-fixes and new features under active development.
-
-## Usage
-
-Among the many applications of the `arrow` package, two of the most accessible are:
-
--   High-performance reading and writing of data files with multiple
-    file formats and compression codecs, including built-in support for
-    cloud storage
--   Analyzing and manipulating bigger-than-memory data with `dplyr`
-    verbs
-
-The sections below describe these two uses and illustrate them with
-basic examples. The sections below mention two Arrow data structures:
-
--   `Table`: a tabular, column-oriented data structure capable of
-    storing and processing large amounts of data more efficiently than
-    R’s built-in `data.frame` and with SQL-like column data types that
-    afford better interoperability with databases and data warehouse
-    systems
--   `Dataset`: a data structure functionally similar to `Table` but with
-    the capability to work on larger-than-memory data partitioned across
-    multiple files
-
-### Reading and writing data files with `arrow`
-
-The `arrow` package provides functions for reading single data files in
-several common formats. By default, calling any of these functions
-returns an R `data.frame`. To return an Arrow `Table`, set argument
-`as_data_frame = FALSE`.
-
--   `read_parquet()`: read a file in Parquet format
--   `read_feather()`: read a file in Feather format (the Apache Arrow
-    IPC format)
--   `read_delim_arrow()`: read a delimited text file (default delimiter
-    is comma)
--   `read_csv_arrow()`: read a comma-separated values (CSV) file
--   `read_tsv_arrow()`: read a tab-separated values (TSV) file
--   `read_json_arrow()`: read a JSON data file
-
-For writing data to single files, the `arrow` package provides the
-functions `write_parquet()`, `write_feather()`, and `write_csv_arrow()`. 
-These can be used with R `data.frame` and Arrow `Table` objects.
-
-For example, let’s write the Star Wars characters data that’s included
-in `dplyr` to a Parquet file, then read it back in. Parquet is a popular
-choice for storing analytic data; it is optimized for reduced file sizes
-and fast read performance, especially for column-based access patterns.
-Parquet is widely supported by many tools and platforms.
-
-First load the `arrow` and `dplyr` packages:
-
-``` r
-library(arrow, warn.conflicts = FALSE)
-library(dplyr, warn.conflicts = FALSE)
-```
-
-Then write the `data.frame` named `starwars` to a Parquet file at
-`file_path`:
-
-``` r
-file_path <- tempfile()
-write_parquet(starwars, file_path)
-```
-
-Then read the Parquet file into an R `data.frame` named `sw`:
-
-``` r
-sw <- read_parquet(file_path)
-```
-
-R object attributes are preserved when writing data to Parquet or
-Feather files and when reading those files back into R. This enables
-round-trip writing and reading of `sf::sf` objects, R `data.frame`s with
-with `haven::labelled` columns, and `data.frame`s with other custom
-attributes.
-
-For reading and writing larger files or sets of multiple files, `arrow`
-defines `Dataset` objects and provides the functions `open_dataset()`
-and `write_dataset()`, which enable analysis and processing of
-bigger-than-memory data, including the ability to partition data into
-smaller chunks without loading the full data into memory. For examples
-of these functions, see `vignette("dataset", package = "arrow")`.
-
-All these functions can read and write files in the local filesystem or
-in Amazon S3 (by passing S3 URIs beginning with `s3://`). For more
-details, see `vignette("fs", package = "arrow")`
-
-### Using `dplyr` with `arrow`
-
-The `arrow` package provides a `dplyr` backend enabling manipulation of
-Arrow tabular data with `dplyr` verbs. To use it, first load both
-packages `arrow` and `dplyr`. Then load data into an Arrow `Table` or
-`Dataset` object. For example, read the Parquet file written in the
-previous example into an Arrow `Table` named `sw`:
-
-``` r
-sw <- read_parquet(file_path, as_data_frame = FALSE)
-```
-
-Next, pipe on `dplyr` verbs:
-
-``` r
-result <- sw %>%
-  filter(homeworld == "Tatooine") %>%
-  rename(height_cm = height, mass_kg = mass) %>%
-  mutate(height_in = height_cm / 2.54, mass_lbs = mass_kg * 2.2046) %>%
-  arrange(desc(birth_year)) %>%
-  select(name, height_in, mass_lbs)
-```
-
-The `arrow` package uses lazy evaluation to delay computation until the
-result is required. This speeds up processing by enabling the Arrow C++
-library to perform multiple computations in one operation. `result` is
-an object with class `arrow_dplyr_query` which represents all the
-computations to be performed:
-
-``` r
-result
-#> Table (query)
-#> name: string
-#> height_in: expr
-#> mass_lbs: expr
-#>
-#> * Filter: equal(homeworld, "Tatooine")
-#> * Sorted by birth_year [desc]
-#> See $.data for the source Arrow object
-```
-
-To perform these computations and materialize the result, call
-`compute()` or `collect()`. `compute()` returns an Arrow `Table`,
-suitable for passing to other `arrow` or `dplyr` functions:
-
-``` r
-result %>% compute()
-#> Table
-#> 10 rows x 3 columns
-#> $name <string>
-#> $height_in <double>
-#> $mass_lbs <double>
-```
-
-`collect()` returns an R `data.frame`, suitable for viewing or passing
-to other R functions for analysis or visualization:
-
-``` r
-result %>% collect()
-#> # A tibble: 10 x 3
-#>    name               height_in mass_lbs
-#>    <chr>                  <dbl>    <dbl>
-#>  1 C-3PO                   65.7    165.
-#>  2 Cliegg Lars             72.0     NA
-#>  3 Shmi Skywalker          64.2     NA
-#>  4 Owen Lars               70.1    265.
-#>  5 Beru Whitesun lars      65.0    165.
-#>  6 Darth Vader             79.5    300.
-#>  7 Anakin Skywalker        74.0    185.
-#>  8 Biggs Darklighter       72.0    185.
-#>  9 Luke Skywalker          67.7    170.
-#> 10 R5-D4                   38.2     70.5
+conda install -c conda-forge --strict-channel-priority r-arrow
 ```
 
-The `arrow` package works with most single-table `dplyr` verbs, including those
-that compute aggregates.
+In most cases installing the latest release should work without 
+requiring any additional system dependencies, especially if you are using 
+Window or a Mac. For those users, CRAN hosts binary packages that contain 
+the Arrow C++ library upon which the arrow package relies, and no 
+additional steps should be required.
 
-```r
-sw %>%
-  group_by(species) %>%
-  summarise(mean_height = mean(height, na.rm = TRUE)) %>%
-  collect()
-```
+There are some special cases to note:
 
-Additionally, equality joins (e.g. `left_join()`, `inner_join()`) are supported
-for joining multiple tables. 
+- On Linux the installation process can sometimes be more involved because 
+CRAN does not host binaries for Linux. For more information please see the [installation guide](https://arrow.apache.org/docs/r/articles/install.html).
 
-```r
-jedi <- data.frame(
-  name = c("C-3PO", "Luke Skywalker", "Obi-Wan Kenobi"),
-  jedi = c(FALSE, TRUE, TRUE)
-)
-
-sw %>%
-  select(1:11) %>%
-  right_join(jedi) %>%
-  collect()
-```
+- If you are compiling arrow from source, please note that as of version 
+10.0.0, arrow requires C++17 to build. This has implications on Windows and
+CentOS 7. For Windows users it means you need to be running an R version of 
+4.0 or later. On CentOS 7, it means you need to install a newer compiler 
+than the default system compiler gcc 4.8. See the [installation details article](https://arrow.apache.org/docs/r/articles/developers/install_details.html) for guidance. Note that 
+this does not affect users who are installing a binary version of the package.
 
-Window functions (e.g. `ntile()`) are not yet
-supported. Inside `dplyr` verbs, Arrow offers support for many functions and
-operators, with common functions mapped to their base R and tidyverse
-equivalents. The [changelog](https://arrow.apache.org/docs/r/news/index.html)
-lists many of them. If there are additional functions you would like to see
-implemented, please file an issue as described in the [Getting
-help](#getting-help) section below.
+- Development versions of arrow are released nightly. Most users will not 
+need to install nightly builds, but if you do please see the article on [installing nightly builds](https://arrow.apache.org/docs/r/articles/install_nightly.html) for more information.
 
-For `dplyr` queries on `Table` objects, if the `arrow` package detects
-an unimplemented function within a `dplyr` verb, it automatically calls
-`collect()` to return the data as an R `data.frame` before processing
-that `dplyr` verb. For queries on `Dataset` objects (which can be larger
-than memory), it raises an error if the function is unimplemented;
-you need to explicitly tell it to `collect()`.
+## Arrow resources 
 
-### Additional features
-
-Other applications of `arrow` are described in the following vignettes:
-
--   `vignette("python", package = "arrow")`: use `arrow` and
-    `reticulate` to pass data between R and Python
--   `vignette("flight", package = "arrow")`: connect to Arrow Flight RPC
-    servers to send and receive data
--   `vignette("arrow", package = "arrow")`: access and manipulate Arrow
-    objects through low-level bindings to the C++ library
-
-The Arrow for R [cheatsheet](https://github.com/apache/arrow/blob/-/r/cheatsheet/arrow-cheatsheet.pdf) and [Cookbook](https://arrow.apache.org/cookbook/r/index.html) are additional resources for getting started with `arrow`.
+In addition to the official [Arrow R package documentation](https://arrow.apache.org/docs/r/), the [Arrow for R cheatsheet](https://github.com/apache/arrow/blob/-/r/cheatsheet/arrow-cheatsheet.pdf), and the [Apache Arrow R Cookbook](https://arrow.apache.org/cookbook/r/index.html) are useful resources for getting started with arrow.
 
 ## Getting help
 
 If you encounter a bug, please file an issue with a minimal reproducible
-example on the [Apache Jira issue
-tracker](https://issues.apache.org/jira/projects/ARROW/issues). Create
-an account or log in, then click **Create** to file an issue. Select the
-project **Apache Arrow (ARROW)**, select the component **R**, and begin
-the issue summary with **`[R]`** followed by a space. For more
-information, see the **Report bugs and propose features** section of the
-[Contributing to Apache
+example on [GitHub issues](https://github.com/apache/arrow/issues).
+Log in to your GitHub account, click on **New issue** and select the type of
+issue you want to create. Add a meaningful title prefixed with **`[R]`**
+followed by a space, the issue summary and select component **R** from the
+dropdown list. For more information, see the **Report bugs and propose
+features** section of the [Contributing to Apache
 Arrow](https://arrow.apache.org/docs/developers/contributing.html) page
 in the Arrow developer documentation.
 
 We welcome questions, discussion, and contributions from users of the
-`arrow` package. For information about mailing lists and other venues
+arrow package. For information about mailing lists and other venues
 for engaging with the Arrow developer and user communities, please see
 the [Apache Arrow Community](https://arrow.apache.org/community/) page.
 
-------------------------------------------------------------------------
-
-All participation in the Apache Arrow project is governed by the Apache
-Software Foundation’s [code of
+Please note that all participation in the Apache Arrow project is 
+governed by the Apache Software Foundation's [code of
 conduct](https://www.apache.org/foundation/policies/conduct.html).
diff --git a/r/STYLE.md b/r/STYLE.md
index 760084936a4..1f5d0d42157 100644
--- a/r/STYLE.md
+++ b/r/STYLE.md
@@ -29,7 +29,7 @@ Please use the [tidyverse coding style](https://style.tidyverse.org/).
 
 When referring to external packages, include a link to the package at the first mention, and subsequently refer to it in plain text, e.g.
 
-* "The arrow R package provides a [dplyr](https://dplyr.tidyverse.org/) interface to Arrow Datasets.  This vignette introduces Datasets and shows how to use dplyr to analyze them."
+* "The arrow R package provides a [dplyr](https://dplyr.tidyverse.org/) interface to Arrow Datasets.  This article introduces Datasets and shows how to use dplyr to analyze them."
 
 ## Data frames
 
diff --git a/r/_pkgdown.yml b/r/_pkgdown.yml
index dfb0998ddff..391d3407694 100644
--- a/r/_pkgdown.yml
+++ b/r/_pkgdown.yml
@@ -20,8 +20,10 @@
 url: https://arrow.apache.org/docs/r/
 title: Arrow R Package
 template:
-  params:
-    bootswatch: cosmo
+  bootstrap: 5
+  bootswatch: cosmo
+  bslib:
+    font_scale: 1.1
   includes:
     in_header: |
       <!-- Matomo -->
@@ -49,7 +51,43 @@ template:
       creator: "@apachearrow"
       site: "@apachearrow"
       card: summary_large_image
+
+home:
+  title: Arrow R Package
+  sidebar:
+    structure:
+      - project
+      - implementations
+      - links
+      - license
+      - community
+      - citation
+      - authors
+      - dev
+    components:
+      project:
+        title: Arrow Project
+        text: >
+          [Homepage](https://arrow.apache.org/) <br>
+          [Specifications](https://arrow.apache.org/docs/format/Columnar.html)
+      implementations:
+        title: Implementations
+        text: >
+          [C GLib](https://arrow.apache.org/docs/c_glib) <br>
+          [C++](https://arrow.apache.org/docs/cpp) <br>
+          [C#](https://github.com/apache/arrow/blob/master/csharp/README.md) <br>
+          [Go](https://pkg.go.dev/github.com/apache/arrow/go) <br>
+          [Java](https://arrow.apache.org/docs/java) <br>
+          [JavaScript](https://arrow.apache.org/docs/js) <br>
+          [Julia](https://github.com/apache/arrow-julia/blob/main/README.md) <br>
+          [MATLAB](https://github.com/apache/arrow/blob/master/matlab/README.md) <br>
+          [Python](https://arrow.apache.org/docs/python) <br>
+          [R](index.html) <br>
+          [Ruby](https://github.com/apache/arrow/blob/master/ruby/README.md) <br>
+          [Rust](https://docs.rs/crate/arrow/latest)
+
 navbar:
+  bg: black
   structure:
     left:
       - home
@@ -60,62 +98,52 @@ navbar:
       - project
     right: github
   components:
-    home:
-      text: ❯❯❯
-      href: https://arrow.apache.org/
     reference:
       text: Reference
       href: reference/index.html
-    project:
-      text: Project docs
-      menu:
-        - text: Specification
-          href: https://arrow.apache.org/docs/format/Columnar.html
-        - text: C GLib
-          href: https://arrow.apache.org/docs/c_glib
-        - text: C++
-          href: https://arrow.apache.org/docs/cpp
-        - text: Java
-          href: https://arrow.apache.org/docs/java
-        - text: JavaScript
-          href: https://arrow.apache.org/docs/js
-        - text: Python
-          href: https://arrow.apache.org/docs/python
-        - text: R
-          href: index.html
-    articles:
-      text: Articles
-      menu:
-        - text: Installing the Arrow Package on Linux
-          href: articles/install.html
-        - text: Working with Arrow Datasets and dplyr
-          href: articles/dataset.html
-        - text: Working with Cloud Storage (S3, GCS)
-          href: articles/fs.html
-        - text: Apache Arrow in Python and R with reticulate
-          href: articles/python.html
-        - text: Connecting to Flight RPC Servers
-          href: articles/flight.html
-        - text: Arrow R Developer Guide
-          href: articles/developing.html
-        - text: Developers
-          menu:
-          - text: Developer Environment Setup
-            href: articles/developers/setup.html
-          - text: Common Workflow Tasks
-            href: articles/developers/workflow.html
-          - text: Debugging
-            href: articles/developers/debugging.html
-          - text: Package Installation Details
-            href: articles/developers/install_details.html
-          - text: Docker
-            href: articles/developers/docker.html
-          - text: Writing Bindings
-            href: articles/developers/bindings.html
+
+articles:
+  - title: Using the package
+    navbar: Using the package
+    contents:
+      - read_write
+      - data_wrangling
+      - dataset
+      - python
+      - fs
+      - flight
+
+  - title: Arrow concepts
+    navbar: Arrow concepts
+    contents:
+      - data_objects
+      - data_types
+      - metadata
+
+  - title: Installation
+    navbar: Installation
+    contents:
+      - install
+      - install_nightly
+
+  - title: Developer guides
+    contents:
+      - developing
+      - developers/setup
+      - developers/workflow
+      - developers/debugging
+      - developers/docker
+      - developers/writing_bindings
+      - developers/install_details
+      - developers/data_object_layout
+
 reference:
   - title: Multi-file datasets
     contents:
       - open_dataset
+      - open_delim_dataset
+      - open_csv_dataset
+      - open_tsv_dataset
       - write_dataset
       - dataset_factory
       - hive_partition
@@ -124,9 +152,11 @@ reference:
       - Expression
       - Scanner
       - FileFormat
+      - CsvFileFormat
       - FileWriteOptions
       - FragmentScanOptions
       - map_batches
+
   - title: Reading and writing files
     contents:
       - read_feather
@@ -139,6 +169,7 @@ reference:
       - write_to_raw
       - write_parquet
       - write_csv_arrow
+
   - title: C++ reader/writer interface
     contents:
       - ParquetFileReader
@@ -152,6 +183,7 @@ reference:
       - CsvReadOptions
       - CsvWriteOptions
       - as_record_batch_reader
+
   - title: Arrow data containers
     contents:
       - array
@@ -170,6 +202,7 @@ reference:
       - as_chunked_array
       - as_record_batch
       - as_arrow_table
+
   - title: Arrow data types and schema
     contents:
       - Schema
@@ -187,6 +220,7 @@ reference:
       - ExtensionType
       - as_data_type
       - as_schema
+
   - title: Flight
     contents:
       - load_flight_server
@@ -195,6 +229,7 @@ reference:
       - flight_get
       - flight_put
       - list_flights
+
   - title: File systems
     contents:
       - s3_bucket
@@ -203,6 +238,7 @@ reference:
       - FileInfo
       - FileSelector
       - copy_files
+
   - title: Input/Output
     contents:
       - InputStream
@@ -214,18 +250,22 @@ reference:
       - compression
       - Codec
       - codec_is_available
+
   - title: Computation
     contents:
+      - acero
       - call_function
       - match_arrow
       - value_counts
       - list_compute_functions
       - register_scalar_function
       - show_exec_plan
+
   - title: Connections to other systems
     contents:
       - to_arrow
       - to_duckdb
+
   - title: Configuration
     contents:
       - arrow_info
diff --git a/r/configure b/r/configure
index 68dfd5f5eee..ff6a9dacc48 100755
--- a/r/configure
+++ b/r/configure
@@ -31,7 +31,6 @@ PKG_DEB_NAME="(unsuppored)"
 PKG_RPM_NAME="(unsuppored)"
 PKG_BREW_NAME="apache-arrow"
 PKG_TEST_HEADER="<arrow/api.h>"
-PKG_LIBS="-larrow"
 
 # Make some env vars case-insensitive
 ARROW_R_DEV=`echo $ARROW_R_DEV | tr '[:upper:]' '[:lower:]'`
@@ -51,6 +50,14 @@ if [ "$ARROW_R_DEV" = "true" ] && [ -f "data-raw/codegen.R" ]; then
   ${R_HOME}/bin/Rscript data-raw/codegen.R
 fi
 
+if [ ! "`${R_HOME}/bin/R CMD config CXX17`" ]; then
+  echo "------------------------- NOTE ---------------------------"
+  echo "Cannot install arrow: a C++17 compiler is required."
+  echo "See https://arrow.apache.org/docs/r/articles/install.html"
+  echo "---------------------------------------------------------"
+  exit 1
+fi
+
 if [ -f "tools/apache-arrow.rb" ]; then
   # If you want to use a local apache-arrow.rb formula, do
   # $ cp ../dev/tasks/homebrew-formulae/autobrew/apache-arrow.rb tools/apache-arrow.rb
@@ -68,32 +75,41 @@ if [ "$FORCE_AUTOBREW" = "true" ] || [ "$FORCE_BUNDLED_BUILD" = "true" ]; then
   ARROW_USE_PKG_CONFIG="false"
 fi
 
+S3_LIBS=""
+GCS_LIBS=""
 # Note that cflags may be empty in case of success
 if [ "$ARROW_HOME" ] && [ "$FORCE_BUNDLED_BUILD" != "true" ]; then
   echo "*** Using ARROW_HOME as the source of libarrow"
   PKG_CFLAGS="-I$ARROW_HOME/include $PKG_CFLAGS"
-  PKG_DIRS="-L$ARROW_HOME/lib"
+  PKG_LIBS="-larrow"
+  LIB_DIR="$ARROW_HOME/lib"
+  PKG_DIRS="-L$LIB_DIR"
 elif [ "$INCLUDE_DIR" ] && [ "$LIB_DIR" ]; then
   echo "*** Using INCLUDE_DIR/LIB_DIR as the source of libarrow"
   PKG_CFLAGS="-I$INCLUDE_DIR $PKG_CFLAGS"
+  PKG_LIBS="-larrow"
   PKG_DIRS="-L$LIB_DIR"
 else
   # Use pkg-config to find libarrow if available and allowed
   pkg-config --version >/dev/null 2>&1
-  if [ $? -eq 0 ] && [ "$ARROW_USE_PKG_CONFIG" != "false" ]; then
+  if [ $? -eq 0 ]; then
+    PKG_CONFIG_AVAILABLE=true
+  else
+    PKG_CONFIG_AVAILABLE=false
+  fi
+  if [ "$PKG_CONFIG_AVAILABLE" = "true" ] && [ "$ARROW_USE_PKG_CONFIG" != "false" ]; then
     # Set the search paths and compile flags
     PKGCONFIG_CFLAGS=`pkg-config --cflags --silence-errors ${PKG_CONFIG_NAME}`
-    PKGCONFIG_LIBS=`pkg-config --libs-only-l --silence-errors ${PKG_CONFIG_NAME}`
-    PKGCONFIG_LIBS="${PKGCONFIG_LIBS} `pkg-config --libs-only-other --silence-errors ${PKG_CONFIG_NAME}`"
+    PKGCONFIG_LIBS=`pkg-config --libs-only-l --libs-only-other --silence-errors ${PKG_CONFIG_NAME}`
     PKGCONFIG_DIRS=`pkg-config --libs-only-L --silence-errors ${PKG_CONFIG_NAME}`
   fi
 
-  if [ "$PKGCONFIG_CFLAGS" ] && [ "$PKGCONFIG_LIBS" ]; then
-    FOUND_LIB_DIR=`echo $PKG_DIRS | sed -e 's/^-L//'`
+  if [ "$PKGCONFIG_LIBS" != "" ]; then
+    FOUND_LIB_DIR=`echo $PKGCONFIG_DIRS | sed -e 's/^-L//'`
     echo "*** Arrow C++ libraries found via pkg-config at $FOUND_LIB_DIR"
-    PKG_CFLAGS="$PKGCONFIG_CFLAGS"
-    PKG_LIBS=${PKGCONFIG_LIBS}
-    PKG_DIRS=${PKGCONFIG_DIRS}
+    PKG_CFLAGS="$PKGCONFIG_CFLAGS $PKG_CFLAGS"
+    PKG_LIBS="${PKGCONFIG_LIBS}"
+    PKG_DIRS="${PKGCONFIG_DIRS}"
 
     # Check for version mismatch
     PC_LIB_VERSION=`pkg-config --modversion arrow`
@@ -110,9 +126,9 @@ else
       if [ "$FORCE_AUTOBREW" != "true" ] && [ "`command -v brew`" ] && [ "`brew ls --versions ${PKG_BREW_NAME}`" != "" ]; then
         echo "*** Using Homebrew ${PKG_BREW_NAME}"
         BREWDIR=`brew --prefix`
-        PKG_LIBS="$PKG_LIBS -larrow_bundled_dependencies"
+        PKG_LIBS="-larrow -larrow_bundled_dependencies"
         PKG_DIRS="-L$BREWDIR/opt/$PKG_BREW_NAME/lib $PKG_DIRS"
-        PKG_CFLAGS="-I$BREWDIR/opt/$PKG_BREW_NAME/include"
+        PKG_CFLAGS="-I$BREWDIR/opt/$PKG_BREW_NAME/include $PKG_CFLAGS"
       else
         echo "*** Downloading ${PKG_BREW_NAME}"
         if [ -f "autobrew" ]; then
@@ -133,10 +149,10 @@ else
       if [ "${NOT_CRAN}" = "true" ]; then
         # Set some default values
         if [ "${LIBARROW_BINARY}" = "" ]; then
-          LIBARROW_BINARY=true; export LIBARROW_BINARY
+          export LIBARROW_BINARY=true
         fi
         if [ "${LIBARROW_MINIMAL}" = "" ]; then
-          LIBARROW_MINIMAL=false; export LIBARROW_MINIMAL
+          export LIBARROW_MINIMAL=false
         fi
       fi
 
@@ -149,52 +165,61 @@ else
       if [ "$UNAME" = "Darwin" ] && [ "${OPENSSL_ROOT_DIR}" = "" ]; then
         brew --prefix openssl >/dev/null 2>&1
         if [ $? -eq 0 ]; then
-          OPENSSL_ROOT_DIR="`brew --prefix openssl`"; export OPENSSL_ROOT_DIR
+          export OPENSSL_ROOT_DIR="`brew --prefix openssl`"
+          export PKG_CONFIG_PATH="`brew --prefix openssl`/lib/pkgconfig${PKG_CONFIG_PATH:+:${PKG_CONFIG_PATH}}"
         fi
       fi
 
       if [ "${ARROW_DEPENDENCY_SOURCE}" = "" ]; then
-        ARROW_DEPENDENCY_SOURCE=AUTO; export ARROW_DEPENDENCY_SOURCE
+        export ARROW_DEPENDENCY_SOURCE=AUTO
       fi
-      if [ "${ARROW_DEPENDENCY_SOURCE}" = "AUTO" ]; then
-        pkg-config --version >/dev/null 2>&1
-        if [ $? -ne 0 ]; then
-          export ARROW_DEPENDENCY_SOURCE=BUNDLED
-          echo "**** pkg-config not installed, setting ARROW_DEPENDENCY_SOURCE=BUNDLED"
-        fi
+      if [ "${ARROW_DEPENDENCY_SOURCE}" = "AUTO" ] && \
+           [ "${PKG_CONFIG_AVAILABLE}" = "false" ]; then
+        export ARROW_DEPENDENCY_SOURCE=BUNDLED
+        echo "**** pkg-config not installed, setting ARROW_DEPENDENCY_SOURCE=BUNDLED"
       fi
 
       ${R_HOME}/bin/Rscript tools/nixlibs.R $VERSION
-      PKG_CFLAGS="-I`pwd`/libarrow/arrow-${VERSION}/include $PKG_CFLAGS"
 
-      LIB_DIR="libarrow/arrow-${VERSION}/lib"
+      LIB_DIR="`pwd`/libarrow/arrow-${VERSION}/lib"
       if [ -d "$LIB_DIR" ]; then
-        # Enumerate the static libs, put their -l flags in BUNDLED_LIBS,
-        # and put their -L location in PKG_DIRS
-        #
-        # If tools/nixlibs.R fails to produce libs, this dir won't exist
-        # so don't try (the error message from `ls` would be misleading)
-        # Assume nixlibs.R has handled and messaged about its failure already
-        #
-        # TODO: what about non-bundled deps?
-        # Set CDPATH locally to prevent interference from global CDPATH (if set) 
-        BUNDLED_LIBS=`CDPATH=''; cd $LIB_DIR && ls *.a`
-        BUNDLED_LIBS=`echo "$BUNDLED_LIBS" | sed -e "s/\\.a lib/ -l/g" | sed -e "s/\\.a$//" | sed -e "s/^lib/-l/" | tr '\n' ' ' | sed -e "s/ $//"`
-        PKG_DIRS="-L`pwd`/$LIB_DIR"
-
-        # Use pkg-config to do static linking of libarrow's dependencies
-        if [ "$ARROW_DEPENDENCY_SOURCE" = "AUTO" ] || [ "$ARROW_DEPENDENCY_SOURCE" = "SYSTEM" ]; then
-          PKG_LIBS="`PKG_CONFIG_PATH=${LIB_DIR}/pkgconfig pkg-config --libs-only-l --static  --silence-errors ${PKG_CONFIG_NAME}`"
-          PKG_LIBS="$PKG_LIBS `PKG_CONFIG_PATH=${LIB_DIR}/pkgconfig pkg-config --libs-only-other --static  --silence-errors ${PKG_CONFIG_NAME}`"
-        fi
-
-        # When using brew's openssl it is not bundled and it is not on the system
-        # search path  and so we must add the lib path to BUNDLED_LIBS if we are
-        # using it. Note the order is important, this must be after the arrow
-        # lib path + the pkg and bundled libs above so this is why we're
-        # appending to BUNDLED_LIBS and not PKG_DIRS
-        if [ "$OPENSSL_ROOT_DIR" != "" ]; then
-          BUNDLED_LIBS="$BUNDLED_LIBS -L$OPENSSL_ROOT_DIR/lib"
+        if [ "${PKG_CONFIG_AVAILABLE}" = "true" ]; then
+          # Use pkg-config to do static linking of libarrow's dependencies
+          export PKG_CONFIG_PATH="${LIB_DIR}/pkgconfig${PKG_CONFIG_PATH:+:${PKG_CONFIG_PATH}}"
+          PKG_CONFIG="pkg-config"
+          # pkg-config on CentOS 7 doesn't have --define-prefix option.
+          if ${PKG_CONFIG} --help | grep -- --define-prefix >/dev/null 2>&1; then
+            # --define-prefix is for binary packages. Binary packages
+            # uses "/arrow/r/libarrow/dist" as prefix but it doesn't
+            # match the extracted path. --define-prefix uses a directory
+            # that arrow.pc exists as its prefix instead of
+            # "/arrow/r/libarrow/dist".
+            PKG_CONFIG="${PKG_CONFIG} --define-prefix"
+          else
+            # Rewrite prefix= in arrow.pc on CentOS 7.
+            sed \
+              -i.bak \
+              -e "s,prefix=/arrow/r/libarrow/dist,prefix=${LIB_DIR}/..,g" \
+              ${LIB_DIR}/pkgconfig/*.pc
+            rm -f ${LIB_DIR}/pkgconfig/*.pc.bak
+          fi
+          PKG_CONFIG="${PKG_CONFIG} --silence-errors"
+          PKG_CFLAGS="`${PKG_CONFIG} --cflags ${PKG_CONFIG_NAME}` $PKG_CFLAGS"
+          PKG_DIRS="`${PKG_CONFIG} --libs-only-L ${PKG_CONFIG_NAME}`"
+          PKG_LIBS="`${PKG_CONFIG} --libs-only-l --libs-only-other ${PKG_CONFIG_NAME}`"
+        else
+          # This case must be ARROW_DEPENDENCY_SOURCE=BUNDLED.
+          PKG_CFLAGS="-I${LIB_DIR}/../include $PKG_CFLAGS"
+          PKG_DIRS="-L${LIB_DIR}"
+          if [ "${OPENSSL_ROOT_DIR}" != "" ]; then
+            PKG_DIRS="${PKG_DIRS} -L${OPENSSL_ROOT_DIR}/lib"
+          fi
+          PKG_LIBS="-larrow"
+          if [ -n "$(find "$LIB_DIR" -name 'libarrow_bundled_dependencies.*')" ]; then
+            PKG_LIBS="$PKG_LIBS -larrow_bundled_dependencies"
+          fi
+          S3_LIBS="-lcurl -lssl -lcrypto"
+          GCS_LIBS="-lcurl -lssl -lcrypto"
         fi
       fi
     fi
@@ -208,28 +233,22 @@ if grep raspbian /etc/os-release >/dev/null 2>&1; then
   PKG_LIBS="-latomic $PKG_LIBS"
 fi
 
-# If libarrow uses the old GLIBCXX ABI, so we have to use it too
-if [ "$ARROW_USE_OLD_CXXABI" ]; then
-  PKG_CFLAGS="$PKG_CFLAGS -D_GLIBCXX_USE_CXX11_ABI=0"
-fi
-
 # Set any user-defined CXXFLAGS
 if [ "$ARROW_R_CXXFLAGS" ]; then
   PKG_CFLAGS="$PKG_CFLAGS $ARROW_R_CXXFLAGS"
 fi
 
 # Test that we can find libarrow
-CXX11="`${R_HOME}/bin/R CMD config CXX11` -E"
-CXX11FLAGS=`"${R_HOME}"/bin/R CMD config CXX11FLAGS`
-CXX11STD=`"${R_HOME}"/bin/R CMD config CXX11STD`
+CXX17="`${R_HOME}/bin/R CMD config CXX17` -E"
+CXX17FLAGS=`"${R_HOME}"/bin/R CMD config CXX17FLAGS`
+CXX17STD=`"${R_HOME}"/bin/R CMD config CXX17STD`
 CPPFLAGS=`"${R_HOME}"/bin/R CMD config CPPFLAGS`
-TEST_CMD="${CXX11} ${CPPFLAGS} ${PKG_CFLAGS} ${CXX11FLAGS} ${CXX11STD} -xc++ -"
+TEST_CMD="${CXX17} ${CPPFLAGS} ${PKG_CFLAGS} ${CXX17FLAGS} ${CXX17STD} -xc++ -"
 echo "#include $PKG_TEST_HEADER" | ${TEST_CMD} >/dev/null 2>&1
 
 if [ $? -eq 0 ]; then
   # Check for features
-  LIB_DIR=`echo $PKG_DIRS | sed -e 's/^-L//'`
-  ARROW_OPTS_CMAKE="$LIB_DIR/cmake/arrow/ArrowOptions.cmake"
+  ARROW_OPTS_CMAKE="$LIB_DIR/cmake/Arrow/ArrowOptions.cmake"
 
   arrow_built_with() {
     # Function to check cmake options for features
@@ -259,21 +278,15 @@ if [ $? -eq 0 ]; then
   fi
   if arrow_built_with ARROW_S3; then
     PKG_CFLAGS="$PKG_CFLAGS -DARROW_R_WITH_S3"
-    if [ "$BUNDLED_LIBS" != "" ]; then
-      # We're depending on openssl/curl from the system, so they're not in the bundled deps
-      BUNDLED_LIBS="$BUNDLED_LIBS -lssl -lcrypto -lcurl"
-    fi
+    PKG_LIBS="$PKG_LIBS $S3_LIBS"
   fi
   if arrow_built_with ARROW_GCS; then
     PKG_CFLAGS="$PKG_CFLAGS -DARROW_R_WITH_GCS"
-    if [ "$BUNDLED_LIBS" != "" ]; then
-      # GCS also requires openssl and curl
-      BUNDLED_LIBS="$BUNDLED_LIBS -lssl -lcrypto -lcurl"
-    fi
+    PKG_LIBS="$PKG_LIBS $GCS_LIBS"
   fi
 
-  # prepend PKG_DIRS and append BUNDLED_LIBS to PKG_LIBS
-  PKG_LIBS="$PKG_DIRS $PKG_LIBS $BUNDLED_LIBS"
+  # prepend PKG_DIRS to PKG_LIBS
+  PKG_LIBS="$PKG_DIRS $PKG_LIBS"
   echo "PKG_CFLAGS=$PKG_CFLAGS"
   echo "PKG_LIBS=$PKG_LIBS"
 else
diff --git a/r/configure.win b/r/configure.win
index 7aa7e47fc1d..f416e75f3c1 100755
--- a/r/configure.win
+++ b/r/configure.win
@@ -33,7 +33,7 @@ AWS_LIBS="-laws-cpp-sdk-config -laws-cpp-sdk-transfer -laws-cpp-sdk-identity-man
           -lUserenv -lversion -lws2_32 -lBcrypt -lWininet -lwinhttp"
 # pkg-config --libs libcurl
 GCS_LIBS="-lcurl -lnormaliz -lssh2 -lgdi32 -lssl -lcrypto -lcrypt32 -lwldap32 \
-          -lz -lws2_32"
+          -lz -lws2_32 -lnghttp2"
 
 function configure_release() {
   VERSION=$(grep ^Version DESCRIPTION | sed s/Version:\ //)
@@ -63,7 +63,7 @@ function configure_release() {
               -DARROW_R_WITH_JSON"
   PKG_LIBS="-L${RWINLIB}/lib"'$(subst gcc,,$(COMPILED_BY))$(R_ARCH) '
   PKG_LIBS="$PKG_LIBS -L${RWINLIB}/lib"'$(R_ARCH)$(CRT) '
-  PKG_LIBS="$PKG_LIBS -lparquet -larrow_dataset -larrow -larrow_bundled_dependencies \
+  PKG_LIBS="$PKG_LIBS -larrow_dataset -lparquet -larrow -larrow_bundled_dependencies \
             -lutf8proc -lthrift -lsnappy -lz -lzstd -llz4 -lbz2 ${BROTLI_LIBS} -lole32 \
             ${MIMALLOC_LIBS} ${OPENSSL_LIBS}"
 
@@ -80,7 +80,7 @@ function configure_release() {
 
 # Returns 1 if CMAKE options is set "ON", otherwise 0
 function cmake_option() {
-  ARROW_OPTS_CMAKE="$ARROW_HOME/lib/cmake/arrow/ArrowOptions.cmake"
+  ARROW_OPTS_CMAKE="$ARROW_HOME/lib/cmake/Arrow/ArrowOptions.cmake"
   grep -cm1 "set($1 \"ON\")" $ARROW_OPTS_CMAKE
 }
 
@@ -139,7 +139,12 @@ if [ "$ARROW_R_CXXFLAGS" ]; then
   PKG_CFLAGS="$PKG_CFLAGS $ARROW_R_CXXFLAGS"
 fi
 
-echo "*** Writing Makevars.win"
+echo "*** Writing $(pwd)/src/Makevars.win"
 sed -e "s|@cflags@|$PKG_CFLAGS|" -e "s|@libs@|$PKG_LIBS|" src/Makevars.in > src/Makevars.win
+
+echo "*** Contents of $(pwd)/src/Makevars.win"
+cat src/Makevars.win
+echo "*** /End contents"
+
 # Success
 exit 0
diff --git a/r/data-raw/docgen.R b/r/data-raw/docgen.R
new file mode 100644
index 00000000000..97578b69bd8
--- /dev/null
+++ b/r/data-raw/docgen.R
@@ -0,0 +1,198 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+# This code generates dplyr-funcs-doc.R.
+# It requires that the package be installed.
+
+file_template <- "# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# \"License\"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# \"AS IS\" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+# Generated by using data-raw/docgen.R -> do not edit by hand
+
+#' Functions available in Arrow dplyr queries
+#'
+#' The `arrow` package contains methods for %s `dplyr` table functions, many of
+#' which are \"verbs\" that do transformations to one or more tables.
+#' The package also has mappings of %s R functions to the corresponding
+#' functions in the Arrow compute library. These allow you to write code inside
+#' of `dplyr` methods that call R functions, including many in packages like
+#' `stringr` and `lubridate`, and they will get translated to Arrow and run
+#' on the Arrow query engine (Acero). This document lists all of the mapped
+#' functions.
+#'
+#' # `dplyr` verbs
+#'
+#' Most verb functions return an `arrow_dplyr_query` object, similar in spirit
+#' to a `dbplyr::tbl_lazy`. This means that the verbs do not eagerly evaluate
+#' the query on the data. To run the query, call either `compute()`,
+#' which returns an `arrow` [Table], or `collect()`, which pulls the resulting
+#' Table into an R `data.frame`.
+#'
+%s
+#'
+#' # Function mappings
+#'
+#' In the list below, any differences in behavior or support between Acero and
+#' the R function are listed. If no notes follow the function name, then you
+#' can assume that the function works in Acero just as it does in R.
+#'
+#' Functions can be called either as `pkg::fun()` or just `fun()`, i.e. both
+#' `str_sub()` and `stringr::str_sub()` work.
+#'
+#' In addition to these functions, you can call any of Arrow's %s compute
+#' functions directly. Arrow has many functions that don't map to an existing R
+#' function. In other cases where there is an R function mapping, you can still
+#' call the Arrow function directly if you don't want the adaptations that the R
+#' mapping has that make Acero behave like R. These functions are listed in the
+#' [C++ documentation](https://arrow.apache.org/docs/cpp/compute.html), and
+#' in the function registry in R, they are named with an `arrow_` prefix, such
+#' as `arrow_ascii_is_decimal`.
+#'
+%s
+#'
+#' @name acero
+NULL"
+
+library(dplyr)
+library(purrr)
+
+# Functions that for whatever reason cause xref problems, so don't hyperlink
+do_not_link <- c()
+
+package_notes <- list(
+  stringr = "Pattern modifiers `coll()` and `boundary()` are not supported in any functions."
+)
+
+# Vectorized function to make entries for each function
+render_fun <- function(fun, pkg_fun, notes) {
+  # Add () to fun if it's not an operator
+  not_operators <- grepl("^[[:alpha:]]", fun)
+  fun[not_operators] <- paste0(fun[not_operators], "()")
+  # Make it \code{} for better formatting
+  fun <- paste0("`", fun, "`")
+  # Wrap in \link{}
+  out <- ifelse(
+    pkg_fun %in% do_not_link,
+    fun,
+    paste0("[", fun, "][", pkg_fun, "()]")
+  )
+  # Add notes after :, if exist
+  has_notes <- nzchar(notes)
+  out[has_notes] <- paste0(out[has_notes], ": ", notes[has_notes])
+  # Make bullets
+  paste("*", out)
+}
+
+# This renders a bulleted list under a package heading
+render_pkg <- function(df, pkg) {
+  bullets <- df %>%
+    transmute(render_fun(fun, pkg_fun, notes)) %>%
+    pull()
+  header <- paste0("## ", pkg, "\n#'")
+  # Some packages have global notes to include
+  pkg_notes <- package_notes[[pkg]]
+  if (!is.null(pkg_notes)) {
+    pkg_notes <- paste(pkg_notes, collapse = "\n#' ")
+    header <- c(header, paste0(pkg_notes, "\n#'"))
+  }
+  paste("#'", c(header, bullets), collapse = "\n")
+}
+
+docs <- arrow:::.cache$docs
+
+# Add some functions
+
+# across() is handled by manipulating the quosures, not by nse_funcs
+docs[["dplyr::across"]] <- character(0)
+
+# if_any() and if_all() are used instead of across() in filter()
+# they are both handled by manipulating the quosures, not by nse_funcs
+docs[["dplyr::if_any"]] <- character(0)
+docs[["dplyr::if_all"]] <- character(0)
+
+# desc() is a special helper handled inside of arrange()
+docs[["dplyr::desc"]] <- character(0)
+
+# add tidyselect helpers by parsing the reexports file
+tidyselect <- grep("^tidyselect::", readLines("R/reexports-tidyselect.R"), value = TRUE)
+
+# HACK: remove the _random_along UDF we're using (fix in ARROW-17974)
+docs[["_random_along"]] <- NULL
+
+docs <- c(docs, setNames(rep(list(NULL), length(tidyselect)), tidyselect))
+
+fun_df <- tibble::tibble(
+  pkg_fun = names(docs),
+  notes = docs
+) %>%
+  mutate(
+    has_pkg = grepl("::", pkg_fun),
+    fun = sub("^.*?:{+}", "", pkg_fun),
+    pkg = sub(":{+}.*$", "", pkg_fun),
+    # We will list operators under "base" (everything else must be pkg::fun)
+    pkg = if_else(has_pkg, pkg, "base"),
+    # Flatten notes to a single string
+    notes = map_chr(notes, ~ paste(., collapse = "\n#' "))
+  ) %>%
+  arrange(pkg, fun)
+
+# Group by package name and render the lists
+fun_doclets <- imap_chr(split(fun_df, fun_df$pkg), render_pkg)
+
+dplyr_verbs <- c(
+  arrow:::supported_dplyr_methods,
+  # Because this only has a method for arrow_dplyr_query, it's not in the main list
+  tbl_vars = NULL
+)
+
+verb_bullets <- tibble::tibble(
+  fun = names(dplyr_verbs),
+  notes = dplyr_verbs
+) %>%
+  mutate(
+    pkg_fun = paste0("dplyr::", fun),
+    notes = map_chr(notes, ~ paste(., collapse = " "))
+  ) %>%
+  arrange(fun) %>%
+  transmute(render_fun(fun, pkg_fun, notes)) %>%
+  pull()
+
+writeLines(
+  sprintf(
+    file_template,
+    length(dplyr_verbs),
+    length(docs),
+    paste("#'", verb_bullets, collapse = "\n"),
+    length(arrow::list_compute_functions()),
+    paste(fun_doclets, collapse = "\n#'\n")
+  ),
+  "R/dplyr-funcs-doc.R"
+)
diff --git a/r/inst/build_arrow_static.sh b/r/inst/build_arrow_static.sh
index 3e6b0546b1c..800b9cde3f6 100755
--- a/r/inst/build_arrow_static.sh
+++ b/r/inst/build_arrow_static.sh
@@ -36,6 +36,8 @@ set -x
 SOURCE_DIR="$(cd "${SOURCE_DIR}" && pwd)"
 DEST_DIR="$(mkdir -p "${DEST_DIR}" && cd "${DEST_DIR}" && pwd)"
 
+: ${N_JOBS:="$(nproc)"}
+
 # Make some env vars case-insensitive
 if [ "$LIBARROW_MINIMAL" != "" ]; then
   LIBARROW_MINIMAL=`echo $LIBARROW_MINIMAL | tr '[:upper:]' '[:lower:]'`
@@ -75,16 +77,23 @@ ${CMAKE} -DARROW_BOOST_USE_SHARED=OFF \
     -DARROW_WITH_ZSTD=${ARROW_WITH_ZSTD:-$ARROW_DEFAULT_PARAM} \
     -DARROW_VERBOSE_THIRDPARTY_BUILD=${ARROW_VERBOSE_THIRDPARTY_BUILD:-OFF} \
     -DCMAKE_BUILD_TYPE=${CMAKE_BUILD_TYPE:-Release} \
+    -DCMAKE_FIND_DEBUG_MODE=${CMAKE_FIND_DEBUG_MODE:-OFF} \
     -DCMAKE_INSTALL_LIBDIR=lib \
     -DCMAKE_INSTALL_PREFIX=${DEST_DIR} \
     -DCMAKE_EXPORT_NO_PACKAGE_REGISTRY=ON \
     -DCMAKE_FIND_PACKAGE_NO_PACKAGE_REGISTRY=ON \
     -DCMAKE_UNITY_BUILD=${CMAKE_UNITY_BUILD:-OFF} \
     -Dxsimd_SOURCE=${xsimd_SOURCE:-} \
+    -Dzstd_SOURCE=${zstd_SOURCE:-} \
     ${EXTRA_CMAKE_FLAGS} \
-    -G ${CMAKE_GENERATOR:-"Unix Makefiles"} \
+    -G "${CMAKE_GENERATOR:-Unix Makefiles}" \
     ${SOURCE_DIR}
 
-${CMAKE} --build . --target install
+${CMAKE} --build . --target install -- -j $N_JOBS
+
+if command -v sccache &> /dev/null; then
+  echo "=== sccache stats after the build ==="
+  sccache --show-stats
+fi
 
 popd
diff --git a/r/man/CsvFileFormat.Rd b/r/man/CsvFileFormat.Rd
new file mode 100644
index 00000000000..aa368b8f29d
--- /dev/null
+++ b/r/man/CsvFileFormat.Rd
@@ -0,0 +1,41 @@
+% Generated by roxygen2: do not edit by hand
+% Please edit documentation in R/dataset-format.R
+\name{CsvFileFormat}
+\alias{CsvFileFormat}
+\title{CSV dataset file format}
+\value{
+A \code{CsvFileFormat} object
+}
+\description{
+A \code{CSVFileFormat} is a \link{FileFormat} subclass which holds information about how to
+read and parse the files included in a CSV \code{Dataset}.
+}
+\section{Factory}{
+
+\code{CSVFileFormat$create()} can take options in the form of lists passed through as \code{parse_options},
+\code{read_options}, or \code{convert_options} parameters.  Alternatively, readr-style options can be passed
+through individually.  While it is possible to pass in \code{CSVReadOptions}, \code{CSVConvertOptions}, and \code{CSVParseOptions}
+objects, this is not recommended as options set in these objects are not validated for compatibility.
+}
+
+\examples{
+\dontshow{if (arrow_with_dataset()) (if (getRversion() >= "3.4") withAutoprint else force)(\{ # examplesIf}
+# Set up directory for examples
+tf <- tempfile()
+dir.create(tf)
+on.exit(unlink(tf))
+df <- data.frame(x = c("1", "2", "NULL"))
+write.table(df, file.path(tf, "file1.txt"), sep = ",", row.names = FALSE)
+
+# Create CsvFileFormat object with Arrow-style null_values option
+format <- CsvFileFormat$create(convert_options = list(null_values = c("", "NA", "NULL")))
+open_dataset(tf, format = format)
+
+# Use readr-style options
+format <- CsvFileFormat$create(na = c("", "NA", "NULL"))
+open_dataset(tf, format = format)
+\dontshow{\}) # examplesIf}
+}
+\seealso{
+\link{FileFormat}
+}
diff --git a/r/man/CsvReadOptions.Rd b/r/man/CsvReadOptions.Rd
index a3cf2073ee3..270d522b83d 100644
--- a/r/man/CsvReadOptions.Rd
+++ b/r/man/CsvReadOptions.Rd
@@ -96,6 +96,8 @@ The \code{CsvWriteOptions$create()} factory method takes the following arguments
 \itemize{
 \item \code{include_header} Whether to write an initial header line with column names
 \item \code{batch_size} Maximum number of rows processed at a time. Default is 1024.
+\item \code{null_string} The string to be written for null values. Must not contain
+quotation marks. Default is an empty string (\code{""}).
 }
 }
 
diff --git a/r/man/DataType.Rd b/r/man/DataType.Rd
index 8c96141bede..b1539f94674 100644
--- a/r/man/DataType.Rd
+++ b/r/man/DataType.Rd
@@ -7,9 +7,25 @@
 \description{
 class arrow::DataType
 }
-\section{Methods}{
+\section{R6 Methods}{
 
+\itemize{
+\item \verb{$ToString()}: String representation of the DataType
+\item \verb{$Equals(other)}: Is the DataType equal to \code{other}
+\item \verb{$fields()}: The children fields associated with this type
+\item \verb{$code()}: Produces an R call of the data type.
+}
 
-TODO
+There are also some active bindings:
+\itemize{
+\item \verb{$id}: integer Arrow type id.
+\item \verb{$name}: string Arrow type name.
+\item \verb{$num_fields}: number of child fields.
+}
 }
 
+\seealso{
+\code{\link[=infer_type]{infer_type()}}
+
+\code{\link{data-type}}
+}
diff --git a/r/man/Expression.Rd b/r/man/Expression.Rd
index 58a6a44c0c0..e837a3eac85 100644
--- a/r/man/Expression.Rd
+++ b/r/man/Expression.Rd
@@ -14,5 +14,11 @@ the provided scalar (length-1) R value.
 evaluates to the named column in the \code{Dataset} against which it is evaluated.
 
 \code{Expression$create(function_name, ..., options)} builds a function-call
-\code{Expression} containing one or more \code{Expression}s.
+\code{Expression} containing one or more \code{Expression}s. Anything in \code{...} that
+is not already an expression will be wrapped in \code{Expression$scalar()}.
+
+\code{Expression$op(FUN, ...)} is for logical and arithmetic operators. Scalar
+inputs in \code{...} will be attempted to be cast to the common type of the
+\code{Expression}s in the call so that the types of the columns in the \code{Dataset}
+are preserved and not unnecessarily upcast, which may be expensive.
 }
diff --git a/r/man/FileFormat.Rd b/r/man/FileFormat.Rd
index 3c6fd330b01..296de02ead2 100644
--- a/r/man/FileFormat.Rd
+++ b/r/man/FileFormat.Rd
@@ -4,7 +4,6 @@
 \alias{FileFormat}
 \alias{ParquetFileFormat}
 \alias{IpcFileFormat}
-\alias{CsvFileFormat}
 \title{Dataset file formats}
 \description{
 A \code{FileFormat} holds information about how to read and parse the files
@@ -52,7 +51,7 @@ It returns the appropriate subclass of \code{FileFormat} (e.g. \code{ParquetFile
 }
 
 \examples{
-\dontshow{if (arrow_with_dataset() && tolower(Sys.info()[["sysname"]]) != "windows") (if (getRversion() >= "3.4") withAutoprint else force)(\{ # examplesIf}
+\dontshow{if (arrow_with_dataset()) (if (getRversion() >= "3.4") withAutoprint else force)(\{ # examplesIf}
 ## Semi-colon delimited files
 # Set up directory for examples
 tf <- tempfile()
diff --git a/r/man/FileSystem.Rd b/r/man/FileSystem.Rd
index f4f6cb57ffc..f0b9cea05a1 100644
--- a/r/man/FileSystem.Rd
+++ b/r/man/FileSystem.Rd
@@ -55,6 +55,10 @@ in the background, without blocking (default \code{TRUE})
 buckets if \verb{$CreateDir()} is called on the bucket level (default \code{FALSE}).
 \item \code{allow_bucket_deletion}: logical, if TRUE, the filesystem will delete
 buckets if\verb{$DeleteDir()} is called on the bucket level (default \code{FALSE}).
+\item \code{request_timeout}: Socket read time on Windows and MacOS in seconds. If
+negative, the AWS SDK default (typically 3 seconds).
+\item \code{connect_timeout}: Socket connection timeout in seconds. If negative, AWS
+SDK default is used (typically 1 second).
 }
 
 \code{GcsFileSystem$create()} optionally takes arguments:
diff --git a/r/man/Scanner.Rd b/r/man/Scanner.Rd
index 8f3d708c4ea..aec0141bc5a 100644
--- a/r/man/Scanner.Rd
+++ b/r/man/Scanner.Rd
@@ -30,7 +30,7 @@ to keep all rows.
 \code{ScannerBuilder} has the following methods:
 \itemize{
 \item \verb{$Project(cols)}: Indicate that the scan should only return columns given
-by \code{cols}, a character vector of column names
+by \code{cols}, a character vector of column names or a named list of \link{Expression}.
 \item \verb{$Filter(expr)}: Filter rows by an \link{Expression}.
 \item \verb{$UseThreads(threads)}: logical: should the scan use multithreading?
 The method's default input is \code{TRUE}, but you must call the method to enable
@@ -46,3 +46,28 @@ then this method can be called to reduce their size.
 query and returns an Arrow \link{Table}.
 }
 
+\examples{
+\dontshow{if (arrow_with_dataset() & arrow_with_parquet()) (if (getRversion() >= "3.4") withAutoprint else force)(\{ # examplesIf}
+# Set up directory for examples
+tf <- tempfile()
+dir.create(tf)
+on.exit(unlink(tf))
+
+write_dataset(mtcars, tf, partitioning="cyl")
+
+ds <- open_dataset(tf)
+
+scan_builder <- ds$NewScan()
+scan_builder$Filter(Expression$field_ref("hp") > 100)
+scan_builder$Project(list(hp_times_ten = 10 * Expression$field_ref("hp")))
+
+# Once configured, call $Finish()
+scanner <- scan_builder$Finish()
+
+# Can get results as a table
+as.data.frame(scanner$ToTable())
+
+# Or as a RecordBatchReader
+scanner$ToRecordBatchReader()
+\dontshow{\}) # examplesIf}
+}
diff --git a/r/man/acero.Rd b/r/man/acero.Rd
new file mode 100644
index 00000000000..b8aed28825f
--- /dev/null
+++ b/r/man/acero.Rd
@@ -0,0 +1,359 @@
+% Generated by roxygen2: do not edit by hand
+% Please edit documentation in R/dplyr-funcs-doc.R
+\name{acero}
+\alias{acero}
+\title{Functions available in Arrow dplyr queries}
+\description{
+The \code{arrow} package contains methods for 37 \code{dplyr} table functions, many of
+which are "verbs" that do transformations to one or more tables.
+The package also has mappings of 209 R functions to the corresponding
+functions in the Arrow compute library. These allow you to write code inside
+of \code{dplyr} methods that call R functions, including many in packages like
+\code{stringr} and \code{lubridate}, and they will get translated to Arrow and run
+on the Arrow query engine (Acero). This document lists all of the mapped
+functions.
+}
+\section{\code{dplyr} verbs}{
+Most verb functions return an \code{arrow_dplyr_query} object, similar in spirit
+to a \code{dbplyr::tbl_lazy}. This means that the verbs do not eagerly evaluate
+the query on the data. To run the query, call either \code{compute()},
+which returns an \code{arrow} \link{Table}, or \code{collect()}, which pulls the resulting
+Table into an R \code{data.frame}.
+\itemize{
+\item \code{\link[dplyr:filter-joins]{anti_join()}}: the \code{copy} and \code{na_matches} arguments are ignored
+\item \code{\link[dplyr:arrange]{arrange()}}
+\item \code{\link[dplyr:compute]{collapse()}}
+\item \code{\link[dplyr:compute]{collect()}}
+\item \code{\link[dplyr:compute]{compute()}}
+\item \code{\link[dplyr:count]{count()}}
+\item \code{\link[dplyr:distinct]{distinct()}}: \code{.keep_all = TRUE} not supported
+\item \code{\link[dplyr:explain]{explain()}}
+\item \code{\link[dplyr:filter]{filter()}}
+\item \code{\link[dplyr:mutate-joins]{full_join()}}: the \code{copy} and \code{na_matches} arguments are ignored
+\item \code{\link[dplyr:glimpse]{glimpse()}}
+\item \code{\link[dplyr:group_by]{group_by()}}
+\item \code{\link[dplyr:group_by_drop_default]{group_by_drop_default()}}
+\item \code{\link[dplyr:group_data]{group_vars()}}
+\item \code{\link[dplyr:group_data]{groups()}}
+\item \code{\link[dplyr:mutate-joins]{inner_join()}}: the \code{copy} and \code{na_matches} arguments are ignored
+\item \code{\link[dplyr:mutate-joins]{left_join()}}: the \code{copy} and \code{na_matches} arguments are ignored
+\item \code{\link[dplyr:mutate]{mutate()}}: window functions (e.g. things that require aggregation within groups) not currently supported
+\item \code{\link[dplyr:pull]{pull()}}: the \code{name} argument is not supported; returns an R vector by default but this behavior is deprecated and will return an Arrow \link{ChunkedArray} in a future release. Provide \code{as_vector = TRUE/FALSE} to control this behavior, or set \code{options(arrow.pull_as_vector)} globally.
+\item \code{\link[dplyr:relocate]{relocate()}}
+\item \code{\link[dplyr:rename]{rename()}}
+\item \code{\link[dplyr:rename]{rename_with()}}
+\item \code{\link[dplyr:mutate-joins]{right_join()}}: the \code{copy} and \code{na_matches} arguments are ignored
+\item \code{\link[dplyr:select]{select()}}
+\item \code{\link[dplyr:filter-joins]{semi_join()}}: the \code{copy} and \code{na_matches} arguments are ignored
+\item \code{\link[dplyr:explain]{show_query()}}
+\item \code{\link[dplyr:slice]{slice_head()}}: slicing within groups not supported; Arrow datasets do not have row order, so head is non-deterministic; \code{prop} only supported on queries where \code{nrow()} is knowable without evaluating
+\item \code{\link[dplyr:slice]{slice_max()}}: slicing within groups not supported; \code{with_ties = TRUE} (dplyr default) is not supported; \code{prop} only supported on queries where \code{nrow()} is knowable without evaluating
+\item \code{\link[dplyr:slice]{slice_min()}}: slicing within groups not supported; \code{with_ties = TRUE} (dplyr default) is not supported; \code{prop} only supported on queries where \code{nrow()} is knowable without evaluating
+\item \code{\link[dplyr:slice]{slice_sample()}}: slicing within groups not supported; \code{replace = TRUE} and the \code{weight_by} argument not supported; \code{n} only supported on queries where \code{nrow()} is knowable without evaluating
+\item \code{\link[dplyr:slice]{slice_tail()}}: slicing within groups not supported; Arrow datasets do not have row order, so tail is non-deterministic; \code{prop} only supported on queries where \code{nrow()} is knowable without evaluating
+\item \code{\link[dplyr:summarise]{summarise()}}: window functions not currently supported; arguments \code{.drop = FALSE} and `.groups = "rowwise" not supported
+\item \code{\link[dplyr:count]{tally()}}
+\item \code{\link[dplyr:transmute]{transmute()}}
+\item \code{\link[dplyr:group_by]{ungroup()}}
+\item \code{\link[dplyr:setops]{union()}}
+\item \code{\link[dplyr:setops]{union_all()}}
+}
+}
+
+\section{Function mappings}{
+In the list below, any differences in behavior or support between Acero and
+the R function are listed. If no notes follow the function name, then you
+can assume that the function works in Acero just as it does in R.
+
+Functions can be called either as \code{pkg::fun()} or just \code{fun()}, i.e. both
+\code{str_sub()} and \code{stringr::str_sub()} work.
+
+In addition to these functions, you can call any of Arrow's 246 compute
+functions directly. Arrow has many functions that don't map to an existing R
+function. In other cases where there is an R function mapping, you can still
+call the Arrow function directly if you don't want the adaptations that the R
+mapping has that make Acero behave like R. These functions are listed in the
+\href{https://arrow.apache.org/docs/cpp/compute.html}{C++ documentation}, and
+in the function registry in R, they are named with an \code{arrow_} prefix, such
+as \code{arrow_ascii_is_decimal}.
+\subsection{arrow}{
+\itemize{
+\item \code{\link[=add_filename]{add_filename()}}
+\item \code{\link[=cast]{cast()}}
+}
+}
+
+\subsection{base}{
+\itemize{
+\item \code{\link[=-]{-}}
+\item \code{\link[=!]{!}}
+\item \code{\link[=!=]{!=}}
+\item \code{\link[=*]{*}}
+\item \code{\link[=/]{/}}
+\item \code{\link[=&]{&}}
+\item \code{\link[=\%/\%]{\%/\%}}
+\item \code{\link[=\%\%]{\%\%}}
+\item \code{\link[=\%in\%]{\%in\%}}
+\item \code{\link[=^]{^}}
+\item \code{\link[=+]{+}}
+\item \code{\link[=<]{<}}
+\item \code{\link[=<=]{<=}}
+\item \code{\link[===]{==}}
+\item \code{\link[=>]{>}}
+\item \code{\link[=>=]{>=}}
+\item \code{\link[=|]{|}}
+\item \code{\link[base:MathFun]{abs()}}
+\item \code{\link[base:Trig]{acos()}}
+\item \code{\link[base:all]{all()}}
+\item \code{\link[base:any]{any()}}
+\item \code{\link[base:character]{as.character()}}
+\item \code{\link[base:as.Date]{as.Date()}}: Multiple \code{tryFormats} not supported in Arrow.
+Consider using the lubridate specialised parsing functions \code{ymd()}, \code{ymd()}, etc.
+\item \code{\link[base:difftime]{as.difftime()}}: only supports \code{units = "secs"} (the default)
+\item \code{\link[base:double]{as.double()}}
+\item \code{\link[base:integer]{as.integer()}}
+\item \code{\link[base:logical]{as.logical()}}
+\item \code{\link[base:numeric]{as.numeric()}}
+\item \code{\link[base:Trig]{asin()}}
+\item \code{\link[base:Round]{ceiling()}}
+\item \code{\link[base:Trig]{cos()}}
+\item \code{\link[base:data.frame]{data.frame()}}: \code{row.names} and \code{check.rows} arguments not supported;
+\code{stringsAsFactors} must be \code{FALSE}
+\item \code{\link[base:difftime]{difftime()}}: only supports \code{units = "secs"} (the default);
+\code{tz} argument not supported
+\item \code{\link[base:startsWith]{endsWith()}}
+\item \code{\link[base:Log]{exp()}}
+\item \code{\link[base:Round]{floor()}}
+\item \code{\link[base:format]{format()}}
+\item \code{\link[base:grep]{grepl()}}
+\item \code{\link[base:grep]{gsub()}}
+\item \code{\link[base:ifelse]{ifelse()}}
+\item \code{\link[base:character]{is.character()}}
+\item \code{\link[base:double]{is.double()}}
+\item \code{\link[base:factor]{is.factor()}}
+\item \code{\link[base:is.finite]{is.finite()}}
+\item \code{\link[base:is.finite]{is.infinite()}}
+\item \code{\link[base:integer]{is.integer()}}
+\item \code{\link[base:list]{is.list()}}
+\item \code{\link[base:logical]{is.logical()}}
+\item \code{\link[base:NA]{is.na()}}
+\item \code{\link[base:is.finite]{is.nan()}}
+\item \code{\link[base:numeric]{is.numeric()}}
+\item \code{\link[base:ISOdatetime]{ISOdate()}}
+\item \code{\link[base:ISOdatetime]{ISOdatetime()}}
+\item \code{\link[base:Log]{log()}}
+\item \code{\link[base:Log]{log10()}}
+\item \code{\link[base:Log]{log1p()}}
+\item \code{\link[base:Log]{log2()}}
+\item \code{\link[base:Log]{logb()}}
+\item \code{\link[base:Extremes]{max()}}
+\item \code{\link[base:mean]{mean()}}
+\item \code{\link[base:Extremes]{min()}}
+\item \code{\link[base:nchar]{nchar()}}: \code{allowNA = TRUE} and \code{keepNA = TRUE} not supported
+\item \code{\link[base:paste]{paste()}}: the \code{collapse} argument is not yet supported
+\item \code{\link[base:paste]{paste0()}}: the \code{collapse} argument is not yet supported
+\item \code{\link[base:Extremes]{pmax()}}
+\item \code{\link[base:Extremes]{pmin()}}
+\item \code{\link[base:Round]{round()}}
+\item \code{\link[base:sign]{sign()}}
+\item \code{\link[base:Trig]{sin()}}
+\item \code{\link[base:MathFun]{sqrt()}}
+\item \code{\link[base:startsWith]{startsWith()}}
+\item \code{\link[base:strptime]{strftime()}}
+\item \code{\link[base:strptime]{strptime()}}: accepts a \code{unit} argument not present in the \code{base} function.
+Valid values are "s", "ms" (default), "us", "ns".
+\item \code{\link[base:strrep]{strrep()}}
+\item \code{\link[base:strsplit]{strsplit()}}
+\item \code{\link[base:grep]{sub()}}
+\item \code{\link[base:substr]{substr()}}: \code{start} and \code{stop} must be length 1
+\item \code{\link[base:substr]{substring()}}
+\item \code{\link[base:sum]{sum()}}
+\item \code{\link[base:Trig]{tan()}}
+\item \code{\link[base:chartr]{tolower()}}
+\item \code{\link[base:chartr]{toupper()}}
+\item \code{\link[base:Round]{trunc()}}
+}
+}
+
+\subsection{bit64}{
+\itemize{
+\item \code{\link[bit64:as.integer64.character]{as.integer64()}}
+\item \code{\link[bit64:bit64-package]{is.integer64()}}
+}
+}
+
+\subsection{dplyr}{
+\itemize{
+\item \code{\link[dplyr:across]{across()}}
+\item \code{\link[dplyr:between]{between()}}
+\item \code{\link[dplyr:case_when]{case_when()}}
+\item \code{\link[dplyr:coalesce]{coalesce()}}
+\item \code{\link[dplyr:desc]{desc()}}
+\item \code{\link[dplyr:across]{if_all()}}
+\item \code{\link[dplyr:across]{if_any()}}
+\item \code{\link[dplyr:if_else]{if_else()}}
+\item \code{\link[dplyr:context]{n()}}
+\item \code{\link[dplyr:n_distinct]{n_distinct()}}
+}
+}
+
+\subsection{lubridate}{
+\itemize{
+\item \code{\link[lubridate:am]{am()}}
+\item \code{\link[lubridate:as_date]{as_date()}}
+\item \code{\link[lubridate:as_date]{as_datetime()}}
+\item \code{\link[lubridate:round_date]{ceiling_date()}}
+\item \code{\link[lubridate:date]{date()}}
+\item \code{\link[lubridate:date_decimal]{date_decimal()}}
+\item \code{\link[lubridate:day]{day()}}
+\item \code{\link[lubridate:duration]{ddays()}}
+\item \code{\link[lubridate:decimal_date]{decimal_date()}}
+\item \code{\link[lubridate:duration]{dhours()}}
+\item \code{\link[lubridate:duration]{dmicroseconds()}}
+\item \code{\link[lubridate:duration]{dmilliseconds()}}
+\item \code{\link[lubridate:duration]{dminutes()}}
+\item \code{\link[lubridate:duration]{dmonths()}}
+\item \code{\link[lubridate:ymd]{dmy()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd_hms]{dmy_h()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd_hms]{dmy_hm()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd_hms]{dmy_hms()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:duration]{dnanoseconds()}}
+\item \code{\link[lubridate:duration]{dpicoseconds()}}: not supported
+\item \code{\link[lubridate:duration]{dseconds()}}
+\item \code{\link[lubridate:dst]{dst()}}
+\item \code{\link[lubridate:duration]{dweeks()}}
+\item \code{\link[lubridate:duration]{dyears()}}
+\item \code{\link[lubridate:ymd]{dym()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:week]{epiweek()}}
+\item \code{\link[lubridate:year]{epiyear()}}
+\item \code{\link[lubridate:parse_date_time]{fast_strptime()}}: non-default values of \code{lt} and \code{cutoff_2000} not supported
+\item \code{\link[lubridate:round_date]{floor_date()}}
+\item \code{\link[lubridate:force_tz]{force_tz()}}: Timezone conversion from non-UTC timezone not supported;
+When \code{roll = FALSE} and hit a non-existent time, raise an error
+\item \code{\link[lubridate:format_ISO8601]{format_ISO8601()}}
+\item \code{\link[lubridate:hour]{hour()}}
+\item \code{\link[lubridate:date_utils]{is.Date()}}
+\item \code{\link[lubridate:is.instant]{is.instant()}}
+\item \code{\link[lubridate:posix_utils]{is.POSIXct()}}
+\item \code{\link[lubridate:is.instant]{is.timepoint()}}
+\item \code{\link[lubridate:week]{isoweek()}}
+\item \code{\link[lubridate:year]{isoyear()}}
+\item \code{\link[lubridate:leap_year]{leap_year()}}
+\item \code{\link[lubridate:make_datetime]{make_date()}}
+\item \code{\link[lubridate:make_datetime]{make_datetime()}}: only supports UTC (default) timezone
+\item \code{\link[lubridate:make_difftime]{make_difftime()}}: only supports \code{units = "secs"} (the default);
+providing both \code{num} and \code{...} is not supported
+\item \code{\link[lubridate:day]{mday()}}
+\item \code{\link[lubridate:ymd]{mdy()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd_hms]{mdy_h()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd_hms]{mdy_hm()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd_hms]{mdy_hms()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:minute]{minute()}}
+\item \code{\link[lubridate:month]{month()}}
+\item \code{\link[lubridate:ymd]{my()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd]{myd()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:parse_date_time]{parse_date_time()}}: \code{quiet = FALSE} is not supported
+\item \code{\link[lubridate:am]{pm()}}
+\item \code{\link[lubridate:day]{qday()}}
+\item \code{\link[lubridate:quarter]{quarter()}}
+\item \code{\link[lubridate:round_date]{round_date()}}
+\item \code{\link[lubridate:second]{second()}}
+\item \code{\link[lubridate:quarter]{semester()}}
+\item \code{\link[lubridate:tz]{tz()}}
+\item \code{\link[lubridate:day]{wday()}}
+\item \code{\link[lubridate:week]{week()}}
+\item \code{\link[lubridate:with_tz]{with_tz()}}
+\item \code{\link[lubridate:day]{yday()}}
+\item \code{\link[lubridate:ymd]{ydm()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd_hms]{ydm_h()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd_hms]{ydm_hm()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd_hms]{ydm_hms()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:year]{year()}}
+\item \code{\link[lubridate:ymd]{ym()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd]{ymd()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd_hms]{ymd_h()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd_hms]{ymd_hm()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd_hms]{ymd_hms()}}: \code{locale} argument not supported
+\item \code{\link[lubridate:ymd]{yq()}}: \code{locale} argument not supported
+}
+}
+
+\subsection{methods}{
+\itemize{
+\item \code{\link[methods:is]{is()}}
+}
+}
+
+\subsection{rlang}{
+\itemize{
+\item \code{\link[rlang:type-predicates]{is_character()}}
+\item \code{\link[rlang:type-predicates]{is_double()}}
+\item \code{\link[rlang:type-predicates]{is_integer()}}
+\item \code{\link[rlang:type-predicates]{is_list()}}
+\item \code{\link[rlang:type-predicates]{is_logical()}}
+}
+}
+
+\subsection{stats}{
+\itemize{
+\item \code{\link[stats:median]{median()}}: approximate median (t-digest) is computed
+\item \code{\link[stats:quantile]{quantile()}}: \code{probs} must be length 1;
+approximate quantile (t-digest) is computed
+\item \code{\link[stats:sd]{sd()}}
+\item \code{\link[stats:cor]{var()}}
+}
+}
+
+\subsection{stringi}{
+\itemize{
+\item \code{\link[stringi:stri_reverse]{stri_reverse()}}
+}
+}
+
+\subsection{stringr}{
+
+Pattern modifiers \code{coll()} and \code{boundary()} are not supported in any functions.
+\itemize{
+\item \code{\link[stringr:str_c]{str_c()}}: the \code{collapse} argument is not yet supported
+\item \code{\link[stringr:str_count]{str_count()}}: \code{pattern} must be a length 1 character vector
+\item \code{\link[stringr:str_detect]{str_detect()}}
+\item \code{\link[stringr:str_dup]{str_dup()}}
+\item \code{\link[stringr:str_starts]{str_ends()}}
+\item \code{\link[stringr:str_length]{str_length()}}
+\item \code{\link[stringr:str_like]{str_like()}}
+\item \code{\link[stringr:str_pad]{str_pad()}}
+\item \code{\link[stringr:str_remove]{str_remove()}}
+\item \code{\link[stringr:str_remove]{str_remove_all()}}
+\item \code{\link[stringr:str_replace]{str_replace()}}
+\item \code{\link[stringr:str_replace]{str_replace_all()}}
+\item \code{\link[stringr:str_split]{str_split()}}: Case-insensitive string splitting and splitting into 0 parts not supported
+\item \code{\link[stringr:str_starts]{str_starts()}}
+\item \code{\link[stringr:str_sub]{str_sub()}}: \code{start} and \code{end} must be length 1
+\item \code{\link[stringr:case]{str_to_lower()}}
+\item \code{\link[stringr:case]{str_to_title()}}
+\item \code{\link[stringr:case]{str_to_upper()}}
+\item \code{\link[stringr:str_trim]{str_trim()}}
+}
+}
+
+\subsection{tibble}{
+\itemize{
+\item \code{\link[tibble:tibble]{tibble()}}
+}
+}
+
+\subsection{tidyselect}{
+\itemize{
+\item \code{\link[tidyselect:all_of]{all_of()}}
+\item \code{\link[tidyselect:starts_with]{contains()}}
+\item \code{\link[tidyselect:starts_with]{ends_with()}}
+\item \code{\link[tidyselect:everything]{everything()}}
+\item \code{\link[tidyselect:everything]{last_col()}}
+\item \code{\link[tidyselect:starts_with]{matches()}}
+\item \code{\link[tidyselect:starts_with]{num_range()}}
+\item \code{\link[tidyselect:one_of]{one_of()}}
+\item \code{\link[tidyselect:starts_with]{starts_with()}}
+}
+}
+}
+
diff --git a/r/man/add_filename.Rd b/r/man/add_filename.Rd
new file mode 100644
index 00000000000..ca7ed0e4b17
--- /dev/null
+++ b/r/man/add_filename.Rd
@@ -0,0 +1,23 @@
+% Generated by roxygen2: do not edit by hand
+% Please edit documentation in R/dplyr-funcs-augmented.R
+\name{add_filename}
+\alias{add_filename}
+\title{Add the data filename as a column}
+\usage{
+add_filename()
+}
+\value{
+A \code{FieldRef} \code{Expression} that refers to the filename augmented
+column.
+}
+\description{
+This function only exists inside \code{arrow} \code{dplyr} queries, and it only is
+valid when quering on a \code{FileSystemDataset}.
+}
+\examples{
+\dontrun{
+open_dataset("nyc-taxi") \%>\%
+  mutate(file = add_filename())
+}
+}
+\keyword{internal}
diff --git a/r/man/arrow_info.Rd b/r/man/arrow_info.Rd
index 5c3bed4aa27..e0f16d792f4 100644
--- a/r/man/arrow_info.Rd
+++ b/r/man/arrow_info.Rd
@@ -38,7 +38,7 @@ This function summarizes a number of build-time configurations and run-time
 settings for the Arrow package. It may be useful for diagnostics.
 }
 \seealso{
-If any capabilities are \code{FALSE}, see
-\code{vignette("install", package = "arrow")} for guidance on reinstalling the
-package.
+If any capabilities are \code{FALSE}, see the
+\href{https://arrow.apache.org/docs/r/articles/install.html}{install guide}
+for guidance on reinstalling the package.
 }
diff --git a/r/man/as_arrow_table.Rd b/r/man/as_arrow_table.Rd
index aac4495e7c6..ae679974ff3 100644
--- a/r/man/as_arrow_table.Rd
+++ b/r/man/as_arrow_table.Rd
@@ -7,7 +7,9 @@
 \alias{as_arrow_table.RecordBatch}
 \alias{as_arrow_table.data.frame}
 \alias{as_arrow_table.RecordBatchReader}
+\alias{as_arrow_table.Dataset}
 \alias{as_arrow_table.arrow_dplyr_query}
+\alias{as_arrow_table.Schema}
 \title{Convert an object to an Arrow Table}
 \usage{
 as_arrow_table(x, ..., schema = NULL)
@@ -22,7 +24,11 @@ as_arrow_table(x, ..., schema = NULL)
 
 \method{as_arrow_table}{RecordBatchReader}(x, ...)
 
+\method{as_arrow_table}{Dataset}(x, ...)
+
 \method{as_arrow_table}{arrow_dplyr_query}(x, ...)
+
+\method{as_arrow_table}{Schema}(x, ...)
 }
 \arguments{
 \item{x}{An object to convert to an Arrow Table}
diff --git a/r/man/cast.Rd b/r/man/cast.Rd
new file mode 100644
index 00000000000..81e729c704f
--- /dev/null
+++ b/r/man/cast.Rd
@@ -0,0 +1,40 @@
+% Generated by roxygen2: do not edit by hand
+% Please edit documentation in R/dplyr-funcs-type.R
+\name{cast}
+\alias{cast}
+\title{Change the type of an array or column}
+\usage{
+cast(x, to, safe = TRUE, ...)
+}
+\arguments{
+\item{x}{an \code{Array}, \code{Table}, \code{Expression}, or similar Arrow data object.}
+
+\item{to}{\link{DataType} to cast to; for \link{Table} and \link{RecordBatch},
+it should be a \link{Schema}.}
+
+\item{safe}{logical: only allow the type conversion if no data is lost
+(truncation, overflow, etc.). Default is \code{TRUE}.}
+
+\item{...}{specific \code{CastOptions} to set}
+}
+\value{
+An \link{Expression}
+}
+\description{
+This is a wrapper around the \verb{$cast()} method that many Arrow objects have.
+It is more convenient to call inside \code{dplyr} pipelines than the method.
+}
+\examples{
+\dontrun{
+mtcars \%>\%
+  arrow_table() \%>\%
+  mutate(cyl = cast(cyl, string()))
+}
+}
+\seealso{
+\code{\link{data-type}} for a list of \link{DataType} to be used with \code{to}.
+
+\href{https://arrow.apache.org/docs/cpp/api/compute.html?highlight=castoptions#arrow\%3A\%3Acompute\%3A\%3ACastOptions}{Arrow C++ CastOptions documentation} # nolint
+for the list of supported CastOptions.
+}
+\keyword{internal}
diff --git a/r/man/data-type.Rd b/r/man/data-type.Rd
index cfb18aa8bcc..9a2ddf5132d 100644
--- a/r/man/data-type.Rd
+++ b/r/man/data-type.Rd
@@ -144,7 +144,7 @@ of digits after the decimal point. It can be negative.}
 sorted.}
 }
 \value{
-An Arrow type object inheriting from DataType.
+An Arrow type object inheriting from \link{DataType}.
 }
 \description{
 These functions create type objects corresponding to Arrow types. Use them
diff --git a/r/man/flight_put.Rd b/r/man/flight_put.Rd
index 13a8da16fea..c306b0f7bb9 100644
--- a/r/man/flight_put.Rd
+++ b/r/man/flight_put.Rd
@@ -4,7 +4,7 @@
 \alias{flight_put}
 \title{Send data to a Flight server}
 \usage{
-flight_put(client, data, path, overwrite = TRUE)
+flight_put(client, data, path, overwrite = TRUE, max_chunksize = NULL)
 }
 \arguments{
 \item{client}{\code{pyarrow.flight.FlightClient}, as returned by \code{\link[=flight_connect]{flight_connect()}}}
@@ -16,6 +16,9 @@ flight_put(client, data, path, overwrite = TRUE)
 \item{overwrite}{logical: if \code{path} exists on \code{client} already, should we
 replace it with the contents of \code{data}? Default is \code{TRUE}; if \code{FALSE} and
 \code{path} exists, the function will error.}
+
+\item{max_chunksize}{integer: Maximum size for RecordBatch chunks when a \code{data.frame} is sent.
+Individual chunks may be smaller depending on the chunk layout of individual columns.}
 }
 \value{
 \code{client}, invisibly.
diff --git a/r/man/infer_type.Rd b/r/man/infer_type.Rd
index e340afa9151..1bba2725567 100644
--- a/r/man/infer_type.Rd
+++ b/r/man/infer_type.Rd
@@ -19,9 +19,6 @@ type(x)
 An arrow \link[=data-type]{data type}
 }
 \description{
-Infer the arrow Array type from an R object.
-}
-\details{
 \code{\link[=type]{type()}} is deprecated in favor of \code{\link[=infer_type]{infer_type()}}.
 }
 \examples{
diff --git a/r/man/install_arrow.Rd b/r/man/install_arrow.Rd
index c0ed780dce2..05d73b819d1 100644
--- a/r/man/install_arrow.Rd
+++ b/r/man/install_arrow.Rd
@@ -24,8 +24,9 @@ The default value, \code{TRUE}, tells the installation script to detect the
 Linux distribution and version and find an appropriate C++ library. \code{FALSE}
 would tell the script not to retrieve a binary and instead build Arrow C++
 from source. Other valid values are strings corresponding to a Linux
-distribution-version, to override the value that would be detected.
-See \code{vignette("install", package = "arrow")} for further details.}
+distribution-version, to override the value that would be detected. See the
+\href{https://arrow.apache.org/docs/r/articles/install.html}{install guide}
+for further details.}
 
 \item{use_system}{logical: Should we use \code{pkg-config} to look for Arrow
 system packages? Default is \code{FALSE}. If \code{TRUE}, source installation may be
@@ -56,6 +57,7 @@ after a successful \code{arrow} installation.
 }
 \seealso{
 \code{\link[=arrow_info]{arrow_info()}} to see if the package was configured with
-necessary C++ dependencies. \code{vignette("install", package = "arrow")} for
-more ways to tune installation on Linux.
+necessary C++ dependencies.
+\href{https://arrow.apache.org/docs/r/articles/install.html}{install guide}
+for more ways to tune installation on Linux.
 }
diff --git a/r/man/map_batches.Rd b/r/man/map_batches.Rd
index 0e4d48e024d..a147e268a96 100644
--- a/r/man/map_batches.Rd
+++ b/r/man/map_batches.Rd
@@ -4,7 +4,7 @@
 \alias{map_batches}
 \title{Apply a function to a stream of RecordBatches}
 \usage{
-map_batches(X, FUN, ..., .schema = NULL, .lazy = FALSE, .data.frame = NULL)
+map_batches(X, FUN, ..., .schema = NULL, .lazy = TRUE, .data.frame = NULL)
 }
 \arguments{
 \item{X}{A \code{Dataset} or \code{arrow_dplyr_query} object, as returned by the
@@ -37,10 +37,6 @@ without having to hold the entire Dataset in memory at once. You can include
 stream of data in Arrow after it.
 }
 \details{
-Note that, unlike the core dplyr methods that are implemented in the Arrow
-query engine, \code{map_batches()} is not lazy: it starts evaluating on the data
-when you call it, even if you send its result to another pipeline function.
-
 This is experimental and not recommended for production use. It is also
 single-threaded and runs in R not C++, so it won't be as fast as core
 Arrow methods.
diff --git a/r/man/new_extension_type.Rd b/r/man/new_extension_type.Rd
index 74e13b198bc..6d0f27c3219 100644
--- a/r/man/new_extension_type.Rd
+++ b/r/man/new_extension_type.Rd
@@ -57,7 +57,7 @@ Extension arrays are wrappers around regular Arrow \link{Array} objects
 that provide some customized behaviour and/or storage. A common use-case
 for extension types is to define a customized conversion between an
 an Arrow \link{Array} and an R object when the default conversion is slow
-or looses metadata important to the interpretation of values in the array.
+or loses metadata important to the interpretation of values in the array.
 For most types, the built-in
 \link[=vctrs_extension_type]{vctrs extension type} is probably sufficient.
 }
diff --git a/r/man/open_dataset.Rd b/r/man/open_dataset.Rd
index d39f6c2023e..07a6a1020e6 100644
--- a/r/man/open_dataset.Rd
+++ b/r/man/open_dataset.Rd
@@ -167,8 +167,7 @@ tf <- tempfile()
 dir.create(tf)
 on.exit(unlink(tf))
 
-data <- dplyr::group_by(mtcars, cyl)
-write_dataset(data, tf)
+write_dataset(mtcars, tf, partitioning = "cyl")
 
 # You can specify a directory containing the files for your dataset and
 # open_dataset will scan all files in your directory.
@@ -181,7 +180,7 @@ open_dataset(c(file.path(tf, "cyl=4/part-0.parquet"), file.path(tf, "cyl=8/part-
 tf2 <- tempfile()
 dir.create(tf2)
 on.exit(unlink(tf2))
-write_dataset(data, tf2, format = "ipc")
+write_dataset(mtcars, tf2, format = "ipc")
 # This line will results in errors when you try to work with the data
 \dontrun{
 open_dataset(tf2)
@@ -212,5 +211,6 @@ open_dataset(tf3, partitioning = schema(Month = int8(), Day = int8()))
 \dontshow{\}) # examplesIf}
 }
 \seealso{
-\code{vignette("dataset", package = "arrow")}
+\href{https://arrow.apache.org/docs/r/articles/dataset.html}{
+datasets article}
 }
diff --git a/r/man/open_delim_dataset.Rd b/r/man/open_delim_dataset.Rd
new file mode 100644
index 00000000000..d127f772c63
--- /dev/null
+++ b/r/man/open_delim_dataset.Rd
@@ -0,0 +1,216 @@
+% Generated by roxygen2: do not edit by hand
+% Please edit documentation in R/dataset.R
+\name{open_delim_dataset}
+\alias{open_delim_dataset}
+\alias{open_csv_dataset}
+\alias{open_tsv_dataset}
+\title{Open a multi-file dataset of CSV or other delimiter-separated format}
+\usage{
+open_delim_dataset(
+  sources,
+  schema = NULL,
+  partitioning = hive_partition(),
+  hive_style = NA,
+  unify_schemas = NULL,
+  factory_options = list(),
+  delim = ",",
+  quote = "\\"",
+  escape_double = TRUE,
+  escape_backslash = FALSE,
+  col_names = TRUE,
+  col_types = NULL,
+  na = c("", "NA"),
+  skip_empty_rows = TRUE,
+  skip = 0L,
+  convert_options = NULL,
+  read_options = NULL,
+  timestamp_parsers = NULL
+)
+
+open_csv_dataset(
+  sources,
+  schema = NULL,
+  partitioning = hive_partition(),
+  hive_style = NA,
+  unify_schemas = NULL,
+  factory_options = list(),
+  quote = "\\"",
+  escape_double = TRUE,
+  escape_backslash = FALSE,
+  col_names = TRUE,
+  col_types = NULL,
+  na = c("", "NA"),
+  skip_empty_rows = TRUE,
+  skip = 0L,
+  convert_options = NULL,
+  read_options = NULL,
+  timestamp_parsers = NULL
+)
+
+open_tsv_dataset(
+  sources,
+  schema = NULL,
+  partitioning = hive_partition(),
+  hive_style = NA,
+  unify_schemas = NULL,
+  factory_options = list(),
+  quote = "\\"",
+  escape_double = TRUE,
+  escape_backslash = FALSE,
+  col_names = TRUE,
+  col_types = NULL,
+  na = c("", "NA"),
+  skip_empty_rows = TRUE,
+  skip = 0L,
+  convert_options = NULL,
+  read_options = NULL,
+  timestamp_parsers = NULL
+)
+}
+\arguments{
+\item{sources}{One of:
+\itemize{
+\item a string path or URI to a directory containing data files
+\item a \link{FileSystem} that references a directory containing data files
+(such as what is returned by \code{\link[=s3_bucket]{s3_bucket()}})
+\item a string path or URI to a single file
+\item a character vector of paths or URIs to individual data files
+\item a list of \code{Dataset} objects as created by this function
+\item a list of \code{DatasetFactory} objects as created by \code{\link[=dataset_factory]{dataset_factory()}}.
+}
+
+When \code{sources} is a vector of file URIs, they must all use the same protocol
+and point to files located in the same file system and having the same
+format.}
+
+\item{schema}{\link{Schema} for the \code{Dataset}. If \code{NULL} (the default), the schema
+will be inferred from the data sources.}
+
+\item{partitioning}{When \code{sources} is a directory path/URI, one of:
+\itemize{
+\item a \code{Schema}, in which case the file paths relative to \code{sources} will be
+parsed, and path segments will be matched with the schema fields.
+\item a character vector that defines the field names corresponding to those
+path segments (that is, you're providing the names that would correspond
+to a \code{Schema} but the types will be autodetected)
+\item a \code{Partitioning} or \code{PartitioningFactory}, such as returned
+by \code{\link[=hive_partition]{hive_partition()}}
+\item \code{NULL} for no partitioning
+}
+
+The default is to autodetect Hive-style partitions unless
+\code{hive_style = FALSE}. See the "Partitioning" section for details.
+When \code{sources} is not a directory path/URI, \code{partitioning} is ignored.}
+
+\item{hive_style}{Logical: should \code{partitioning} be interpreted as
+Hive-style? Default is \code{NA}, which means to inspect the file paths for
+Hive-style partitioning and behave accordingly.}
+
+\item{unify_schemas}{logical: should all data fragments (files, \code{Dataset}s)
+be scanned in order to create a unified schema from them? If \code{FALSE}, only
+the first fragment will be inspected for its schema. Use this fast path
+when you know and trust that all fragments have an identical schema.
+The default is \code{FALSE} when creating a dataset from a directory path/URI or
+vector of file paths/URIs (because there may be many files and scanning may
+be slow) but \code{TRUE} when \code{sources} is a list of \code{Dataset}s (because there
+should be few \code{Dataset}s in the list and their \code{Schema}s are already in
+memory).}
+
+\item{factory_options}{list of optional FileSystemFactoryOptions:
+\itemize{
+\item \code{partition_base_dir}: string path segment prefix to ignore when
+discovering partition information with DirectoryPartitioning. Not
+meaningful (ignored with a warning) for HivePartitioning, nor is it
+valid when providing a vector of file paths.
+\item \code{exclude_invalid_files}: logical: should files that are not valid data
+files be excluded? Default is \code{FALSE} because checking all files up
+front incurs I/O and thus will be slower, especially on remote
+filesystems. If false and there are invalid files, there will be an
+error at scan time. This is the only FileSystemFactoryOption that is
+valid for both when providing a directory path in which to discover
+files and when providing a vector of file paths.
+\item \code{selector_ignore_prefixes}: character vector of file prefixes to ignore
+when discovering files in a directory. If invalid files can be excluded
+by a common filename prefix this way, you can avoid the I/O cost of
+\code{exclude_invalid_files}. Not valid when providing a vector of file paths
+(but if you're providing the file list, you can filter invalid files
+yourself).
+}}
+
+\item{delim}{Single character used to separate fields within a record.}
+
+\item{quote}{Single character used to quote strings.}
+
+\item{escape_double}{Does the file escape quotes by doubling them?
+i.e. If this option is \code{TRUE}, the value \verb{""""} represents
+a single quote, \verb{\\"}.}
+
+\item{escape_backslash}{Does the file use backslashes to escape special
+characters? This is more general than \code{escape_double} as backslashes
+can be used to escape the delimiter character, the quote character, or
+to add special characters like \verb{\\\\n}.}
+
+\item{col_names}{If \code{TRUE}, the first row of the input will be used as the
+column names and will not be included in the data frame. If \code{FALSE}, column
+names will be generated by Arrow, starting with "f0", "f1", ..., "fN".
+Alternatively, you can specify a character vector of column names.}
+
+\item{col_types}{A compact string representation of the column types,
+an Arrow \link{Schema}, or \code{NULL} (the default) to infer types from the data.}
+
+\item{na}{A character vector of strings to interpret as missing values.}
+
+\item{skip_empty_rows}{Should blank rows be ignored altogether? If
+\code{TRUE}, blank rows will not be represented at all. If \code{FALSE}, they will be
+filled with missings.}
+
+\item{skip}{Number of lines to skip before reading data.}
+
+\item{convert_options}{see \link[=CsvReadOptions]{file reader options}}
+
+\item{read_options}{see \link[=CsvReadOptions]{file reader options}}
+
+\item{timestamp_parsers}{User-defined timestamp parsers. If more than one
+parser is specified, the CSV conversion logic will try parsing values
+starting from the beginning of this vector. Possible values are:
+\itemize{
+\item \code{NULL}: the default, which uses the ISO-8601 parser
+\item a character vector of \link[base:strptime]{strptime} parse strings
+\item a list of \link{TimestampParser} objects
+}}
+}
+\description{
+A wrapper around \link{open_dataset} which explicitly includes parameters mirroring \code{\link[=read_csv_arrow]{read_csv_arrow()}},
+\code{\link[=read_delim_arrow]{read_delim_arrow()}}, and \code{\link[=read_tsv_arrow]{read_tsv_arrow()}} to allows for easy switching between functions
+for opening single files and functions for opening datasets.
+}
+\section{Options currently supported by \code{\link[=read_delim_arrow]{read_delim_arrow()}} which are not supported here}{
+
+\itemize{
+\item \code{file} (instead, please specify files in \code{sources})
+\item \code{col_select} (instead, subset columns after dataset creation)
+\item \code{quoted_na}
+\item \code{as_data_frame} (instead, convert to data frame after dataset creation)
+\item \code{parse_options}
+}
+}
+
+\examples{
+\dontshow{if (arrow_with_dataset()) (if (getRversion() >= "3.4") withAutoprint else force)(\{ # examplesIf}
+# Set up directory for examples
+tf <- tempfile()
+dir.create(tf)
+df <- data.frame(x = c("1", "2", "NULL"))
+
+file_path <- file.path(tf, "file1.txt")
+write.table(df, file_path, sep = ",", row.names = FALSE)
+
+read_csv_arrow(file_path, na = c("", "NA", "NULL"), col_names = "y", skip = 1)
+open_csv_dataset(file_path, na = c("", "NA", "NULL"), col_names = "y", skip = 1)
+
+unlink(tf)
+\dontshow{\}) # examplesIf}
+}
+\seealso{
+\code{\link[=open_dataset]{open_dataset()}}
+}
diff --git a/r/man/read_delim_arrow.Rd b/r/man/read_delim_arrow.Rd
index 997a7f4101a..f8b85a92304 100644
--- a/r/man/read_delim_arrow.Rd
+++ b/r/man/read_delim_arrow.Rd
@@ -96,12 +96,12 @@ column names and will not be included in the data frame. If \code{FALSE}, column
 names will be generated by Arrow, starting with "f0", "f1", ..., "fN".
 Alternatively, you can specify a character vector of column names.}
 
-\item{col_types}{A compact string representation of the column types, or
-\code{NULL} (the default) to infer types from the data.}
+\item{col_types}{A compact string representation of the column types,
+an Arrow \link{Schema}, or \code{NULL} (the default) to infer types from the data.}
 
 \item{col_select}{A character vector of column names to keep, as in the
 "select" argument to \code{data.table::fread()}, or a
-\link[tidyselect:vars_select]{tidy selection specification}
+\link[tidyselect:eval_select]{tidy selection specification}
 of columns, as used in \code{dplyr::select()}.}
 
 \item{na}{A character vector of strings to interpret as missing values.}
@@ -180,17 +180,17 @@ that \code{readr} uses to the \code{col_types} argument. This means you provide
 single string, one character per column, where the characters map to Arrow
 types analogously to the \code{readr} type mapping:
 \itemize{
-\item "c": \code{utf8()}
-\item "i": \code{int32()}
-\item "n": \code{float64()}
-\item "d": \code{float64()}
-\item "l": \code{bool()}
-\item "f": \code{dictionary()}
-\item "D": \code{date32()}
-\item "T": \code{timestamp(unit = "ns")}
-\item "t": \code{time32()} (The \code{unit} arg is set to the default value \code{"ms"})
-\item "_": \code{null()}
-\item "-": \code{null()}
+\item "c": \code{\link[=utf8]{utf8()}}
+\item "i": \code{\link[=int32]{int32()}}
+\item "n": \code{\link[=float64]{float64()}}
+\item "d": \code{\link[=float64]{float64()}}
+\item "l": \code{\link[=bool]{bool()}}
+\item "f": \code{\link[=dictionary]{dictionary()}}
+\item "D": \code{\link[=date32]{date32()}}
+\item "T": \code{\link[=timestamp]{timestamp(unit = "ns")}}
+\item "t": \code{\link[=time32]{time32()}} (The \code{unit} arg is set to the default value \code{"ms"})
+\item "_": \code{\link[=null]{null()}}
+\item "-": \code{\link[=null]{null()}}
 \item "?": infer the type from the data
 }
 
@@ -219,4 +219,15 @@ write.csv(data.frame(x = c(1, 3), y = c(2, 4)), file = tf, row.names = FALSE)
 read_csv_arrow(tf, schema = schema(x = int32(), y = utf8()), skip = 1)
 read_csv_arrow(tf, col_types = schema(y = utf8()))
 read_csv_arrow(tf, col_types = "ic", col_names = c("x", "y"), skip = 1)
+
+# Note that if a timestamp column contains time zones,
+# the string "T" `col_types` specification won't work.
+# To parse timestamps with time zones, provide a [Schema] to `col_types`
+# and specify the time zone in the type object:
+tf <- tempfile()
+write.csv(data.frame(x = "1970-01-01T12:00:00+12:00"), file = tf, row.names = FALSE)
+read_csv_arrow(
+  tf,
+  col_types = schema(x = timestamp(unit = "us", timezone = "UTC"))
+)
 }
diff --git a/r/man/read_feather.Rd b/r/man/read_feather.Rd
index 218a163b990..000aa541aac 100644
--- a/r/man/read_feather.Rd
+++ b/r/man/read_feather.Rd
@@ -18,7 +18,7 @@ open.}
 
 \item{col_select}{A character vector of column names to keep, as in the
 "select" argument to \code{data.table::fread()}, or a
-\link[tidyselect:vars_select]{tidy selection specification}
+\link[tidyselect:eval_select]{tidy selection specification}
 of columns, as used in \code{dplyr::select()}.}
 
 \item{as_data_frame}{Should the function return a \code{data.frame} (default) or
diff --git a/r/man/read_json_arrow.Rd b/r/man/read_json_arrow.Rd
index 2ad600725fa..38c1a1666bc 100644
--- a/r/man/read_json_arrow.Rd
+++ b/r/man/read_json_arrow.Rd
@@ -22,7 +22,7 @@ open.}
 
 \item{col_select}{A character vector of column names to keep, as in the
 "select" argument to \code{data.table::fread()}, or a
-\link[tidyselect:vars_select]{tidy selection specification}
+\link[tidyselect:eval_select]{tidy selection specification}
 of columns, as used in \code{dplyr::select()}.}
 
 \item{as_data_frame}{Should the function return a \code{data.frame} (default) or
@@ -41,7 +41,20 @@ data frame or Arrow Table.
 }
 \details{
 If passed a path, will detect and handle compression from the file extension
-(e.g. \code{.json.gz}). Accepts explicit or implicit nulls.
+(e.g. \code{.json.gz}).
+
+If \code{schema} is not provided, Arrow data types are inferred from the data:
+\itemize{
+\item JSON null values convert to the \code{\link[=null]{null()}} type, but can fall back to any other type.
+\item JSON booleans convert to \code{\link[=boolean]{boolean()}}.
+\item JSON numbers convert to \code{\link[=int64]{int64()}}, falling back to \code{\link[=float64]{float64()}} if a non-integer is encountered.
+\item JSON strings of the kind "YYYY-MM-DD" and "YYYY-MM-DD hh:mm:ss" convert to \code{\link[=timestamp]{timestamp(unit = "s")}},
+falling back to \code{\link[=utf8]{utf8()}} if a conversion error occurs.
+\item JSON arrays convert to a \code{\link[=list_of]{list_of()}} type, and inference proceeds recursively on the JSON arrays' values.
+\item Nested JSON objects convert to a \code{\link[=struct]{struct()}} type, and inference proceeds recursively on the JSON objects' values.
+}
+
+When \code{as_data_frame = TRUE}, Arrow types are further converted to R types.
 }
 \examples{
 \dontshow{if (arrow_with_json()) (if (getRversion() >= "3.4") withAutoprint else force)(\{ # examplesIf}
@@ -52,6 +65,6 @@ writeLines('
     { "hello": 3.25, "world": null }
     { "hello": 0.0, "world": true, "yo": null }
   ', tf, useBytes = TRUE)
-df <- read_json_arrow(tf)
+read_json_arrow(tf)
 \dontshow{\}) # examplesIf}
 }
diff --git a/r/man/read_parquet.Rd b/r/man/read_parquet.Rd
index d509f8068e7..68e56903d14 100644
--- a/r/man/read_parquet.Rd
+++ b/r/man/read_parquet.Rd
@@ -21,7 +21,7 @@ open.}
 
 \item{col_select}{A character vector of column names to keep, as in the
 "select" argument to \code{data.table::fread()}, or a
-\link[tidyselect:vars_select]{tidy selection specification}
+\link[tidyselect:eval_select]{tidy selection specification}
 of columns, as used in \code{dplyr::select()}.}
 
 \item{as_data_frame}{Should the function return a \code{data.frame} (default) or
diff --git a/r/man/register_binding.Rd b/r/man/register_binding.Rd
index c53df707516..c526ee138c7 100644
--- a/r/man/register_binding.Rd
+++ b/r/man/register_binding.Rd
@@ -4,7 +4,13 @@
 \alias{register_binding}
 \title{Register compute bindings}
 \usage{
-register_binding(fun_name, fun, registry = nse_funcs, update_cache = FALSE)
+register_binding(
+  fun_name,
+  fun,
+  registry = nse_funcs,
+  update_cache = FALSE,
+  notes = character(0)
+)
 }
 \arguments{
 \item{fun_name}{A string containing a function name in the form \code{"function"} or
@@ -26,6 +32,9 @@ non-aggregate functions could be revisited...it is currently used
 as the data mask in mutate, filter, and aggregate (but not
 summarise) because the data mask has to be a list.}
 
+\item{notes}{string for the docs: note any limitations or differences in
+behavior between the Arrow version and the R function.}
+
 \item{agg_fun}{An aggregate function or \code{NULL} to un-register a previous
 aggregate function. This function must accept \code{Expression} objects as
 arguments and return a \code{list()} with components:
@@ -46,18 +55,18 @@ Expressions. These are the basis for the \code{.data} mask inside dplyr methods.
 }
 \section{Writing bindings}{
 
-When to use \code{build_expr()} vs. \code{Expression$create()}?
-
-Use \code{build_expr()} if you need to
 \itemize{
-\item map R function names to Arrow C++ functions
-\item wrap R inputs (vectors) as Array/Scalar
+\item \code{Expression$create()} will wrap any non-Expression inputs as Scalar
+Expressions. If you want to try to coerce scalar inputs to match the type
+of the Expression(s) in the arguments, call
+\code{cast_scalars_to_common_type(args)} on the
+args. For example, \code{Expression$create("add", args = list(int16_field, 1))}
+would result in a \code{float64} type output because \code{1} is a \code{double} in R.
+To prevent casting all of the data in \code{int16_field} to float and to
+preserve it as int16, do
+\code{Expression$create("add", args = cast_scalars_to_common_type(list(int16_field, 1)))}
+\item Inside your function, you can call any other binding with \code{call_binding()}.
 }
-
-\code{Expression$create()} is lower level. Most of the bindings use it
-because they manage the preparation of the user-provided inputs
-and don't need or don't want to the automatic conversion of R objects
-to \link{Scalar}.
 }
 
 \keyword{internal}
diff --git a/r/man/register_scalar_function.Rd b/r/man/register_scalar_function.Rd
index 324dd5fad1f..ea703c44348 100644
--- a/r/man/register_scalar_function.Rd
+++ b/r/man/register_scalar_function.Rd
@@ -1,5 +1,5 @@
 % Generated by roxygen2: do not edit by hand
-% Please edit documentation in R/compute.R
+% Please edit documentation in R/udf.R
 \name{register_scalar_function}
 \alias{register_scalar_function}
 \title{Register user-defined functions}
diff --git a/r/man/show_exec_plan.Rd b/r/man/show_exec_plan.Rd
index c020838b2ed..d6eb2298f22 100644
--- a/r/man/show_exec_plan.Rd
+++ b/r/man/show_exec_plan.Rd
@@ -25,7 +25,7 @@ library(dplyr)
 mtcars \%>\%
   arrow_table() \%>\%
   filter(mpg > 20) \%>\%
-  mutate(x = gear/carb) \%>\%
+  mutate(x = gear / carb) \%>\%
   show_exec_plan()
 \dontshow{\}) # examplesIf}
 }
diff --git a/r/man/write_csv_arrow.Rd b/r/man/write_csv_arrow.Rd
index c93c94fd8f5..2b0d09ba748 100644
--- a/r/man/write_csv_arrow.Rd
+++ b/r/man/write_csv_arrow.Rd
@@ -11,6 +11,7 @@ write_csv_arrow(
   include_header = TRUE,
   col_names = NULL,
   batch_size = 1024L,
+  na = "",
   write_options = NULL,
   ...
 )
@@ -30,6 +31,9 @@ system (\code{SubTreeFileSystem})}
 
 \item{batch_size}{Maximum number of rows processed at a time. Default is 1024.}
 
+\item{na}{value to write for NA values. Must not contain quote marks. Default
+is \code{""}.}
+
 \item{write_options}{see \link[=CsvWriteOptions]{file reader options}}
 
 \item{...}{additional parameters}
diff --git a/r/man/write_feather.Rd b/r/man/write_feather.Rd
index 2d8a86f969c..78cf60b6747 100644
--- a/r/man/write_feather.Rd
+++ b/r/man/write_feather.Rd
@@ -39,7 +39,9 @@ random row access. Default is 64K. This option is not supported for V1.}
 "uncompressed". "zstd" is the other available codec and generally has better
 compression ratios in exchange for slower read and write performance.
 "lz4" is shorthand for the "lz4_frame" codec.
-See \code{\link[=codec_is_available]{codec_is_available()}} for details. This option is not supported for V1.}
+See \code{\link[=codec_is_available]{codec_is_available()}} for details.
+\code{TRUE} and \code{FALSE} can also be used in place of "default" and "uncompressed".
+This option is not supported for V1.}
 
 \item{compression_level}{If \code{compression} is "zstd", you may
 specify an integer compression level. If omitted, the compression codec's
diff --git a/r/man/write_parquet.Rd b/r/man/write_parquet.Rd
index ff57e4c8e9a..af976b1aabf 100644
--- a/r/man/write_parquet.Rd
+++ b/r/man/write_parquet.Rd
@@ -71,7 +71,8 @@ Due to features of the format, Parquet files cannot be appended to.
 If you want to use the Parquet format but also want the ability to extend
 your dataset, you can write to additional Parquet files and then treat
 the whole directory of files as a \link{Dataset} you can query.
-See \code{vignette("dataset", package = "arrow")} for examples of this.
+See the \href{https://arrow.apache.org/docs/r/articles/dataset.html}{dataset
+article} for examples of this.
 
 The parameters \code{compression}, \code{compression_level}, \code{use_dictionary} and
 \code{write_statistics} support various patterns:
diff --git a/r/pkgdown/assets/versions.json b/r/pkgdown/assets/versions.json
index f1ddd85f055..05ae619584c 100644
--- a/r/pkgdown/assets/versions.json
+++ b/r/pkgdown/assets/versions.json
@@ -1,12 +1,20 @@
 [
     {
-        "name": "9.0.0.9000 (dev)",
+        "name": "11.0.0.9000 (dev)",
         "version": "dev/"
     },
     {
-        "name": "9.0.0 (release)",
+        "name": "11.0.0 (release)",
         "version": ""
     },
+    {
+        "name": "10.0.1",
+        "version": "10.0/"
+    },
+    {
+        "name": "9.0.0",
+        "version": "9.0/"
+    },
     {
         "name": "8.0.0",
         "version": "8.0/"
diff --git a/r/pkgdown/favicon/apple-touch-icon-120x120.png b/r/pkgdown/favicon/apple-touch-icon-120x120.png
new file mode 100644
index 00000000000..91b9056f308
Binary files /dev/null and b/r/pkgdown/favicon/apple-touch-icon-120x120.png differ
diff --git a/r/pkgdown/favicon/apple-touch-icon-152x152.png b/r/pkgdown/favicon/apple-touch-icon-152x152.png
new file mode 100644
index 00000000000..1f86b1f9fe8
Binary files /dev/null and b/r/pkgdown/favicon/apple-touch-icon-152x152.png differ
diff --git a/r/pkgdown/favicon/apple-touch-icon-180x180.png b/r/pkgdown/favicon/apple-touch-icon-180x180.png
new file mode 100644
index 00000000000..c2ffaf0812a
Binary files /dev/null and b/r/pkgdown/favicon/apple-touch-icon-180x180.png differ
diff --git a/r/pkgdown/favicon/apple-touch-icon-60x60.png b/r/pkgdown/favicon/apple-touch-icon-60x60.png
new file mode 100644
index 00000000000..5b0bc616bd4
Binary files /dev/null and b/r/pkgdown/favicon/apple-touch-icon-60x60.png differ
diff --git a/r/pkgdown/favicon/apple-touch-icon-76x76.png b/r/pkgdown/favicon/apple-touch-icon-76x76.png
new file mode 100644
index 00000000000..7a9c2c9c936
Binary files /dev/null and b/r/pkgdown/favicon/apple-touch-icon-76x76.png differ
diff --git a/r/pkgdown/favicon/apple-touch-icon.png b/r/pkgdown/favicon/apple-touch-icon.png
new file mode 100644
index 00000000000..57d288f22f7
Binary files /dev/null and b/r/pkgdown/favicon/apple-touch-icon.png differ
diff --git a/r/pkgdown/favicon/favicon-16x16.png b/r/pkgdown/favicon/favicon-16x16.png
new file mode 100644
index 00000000000..3a20c3ec909
Binary files /dev/null and b/r/pkgdown/favicon/favicon-16x16.png differ
diff --git a/r/pkgdown/favicon/favicon-32x32.png b/r/pkgdown/favicon/favicon-32x32.png
new file mode 100644
index 00000000000..92c32b99622
Binary files /dev/null and b/r/pkgdown/favicon/favicon-32x32.png differ
diff --git a/r/pkgdown/favicon/favicon.ico b/r/pkgdown/favicon/favicon.ico
new file mode 100644
index 00000000000..aa1bd1d3be9
Binary files /dev/null and b/r/pkgdown/favicon/favicon.ico differ
diff --git a/r/pkgdown/templates/navbar.html b/r/pkgdown/templates/navbar.html
new file mode 100644
index 00000000000..2b2e592d06a
--- /dev/null
+++ b/r/pkgdown/templates/navbar.html
@@ -0,0 +1,38 @@
+{{#navbar}}
+<nav class="navbar fixed-top navbar-{{{type}}} navbar-expand-lg bg-{{{bg}}}">
+  <div class="container">
+    {{#includes}}{{{before_title}}}{{/includes}}
+    <a class="navbar-brand me-2" href="{{#site}}{{root}}{{/site}}index.html">{{#site}}{{title}}{{/site}}</a>
+
+    <span class = "version">
+      <small class="nav-text {{#development}}text-{{version_label}}{{/development}} me-auto" data-bs-toggle="tooltip" data-bs-placement="bottom" title="{{#development}}{{version_tooltip}}{{/development}}">{{#package}}{{version}}{{/package}}</small>
+    </span>
+
+    {{#includes}}{{{before_navbar}}}{{/includes}}
+    <button class="navbar-toggler" type="button" data-bs-toggle="collapse" data-bs-target="#navbar" aria-controls="navbar" aria-expanded="false" aria-label="{{#translate}}{{toggle_nav}}{{/translate}}">
+      <span class="navbar-toggler-icon"></span>
+    </button>
+
+    <div id="navbar" class="collapse navbar-collapse ms-3">
+      {{#left}}
+      <ul class="navbar-nav me-auto">
+      {{{.}}}
+      </ul>
+      {{/left}}
+
+      <form class="form-inline my-2 my-lg-0" role="search">
+        <input type="search" class="form-control me-sm-2" aria-label="{{#translate}}{{toggle_nav}}{{/translate}}" name="search-input" data-search-index="{{#site}}{{root}}{{/site}}search.json" id="search-input" placeholder="{{#translate}}{{search_for}}{{/translate}}" autocomplete="off">
+      </form>
+
+      {{#right}}
+      <ul class="navbar-nav">
+      {{{.}}}
+      </ul>
+      {{/right}}
+    </div>
+
+    {{#includes}}{{{after_navbar}}}{{/includes}}
+  </div>
+</nav>
+{{/navbar}}
+
diff --git a/r/src/Makevars.in b/r/src/Makevars.in
index 7e20f9561ed..0516d297263 100644
--- a/r/src/Makevars.in
+++ b/r/src/Makevars.in
@@ -25,5 +25,5 @@ PKG_CPPFLAGS=@cflags@
 # https://bugs.llvm.org/show_bug.cgi?id=39191
 # https://www.mail-archive.com/gcc-bugs@gcc.gnu.org/msg534862.html
 # PKG_CXXFLAGS=$(CXX_VISIBILITY)
-CXX_STD=CXX11
+CXX_STD=CXX17
 PKG_LIBS=@libs@
diff --git a/r/src/Makevars.ucrt b/r/src/Makevars.ucrt
index 52488eb2b85..a91dedc2d55 100644
--- a/r/src/Makevars.ucrt
+++ b/r/src/Makevars.ucrt
@@ -17,3 +17,6 @@
 
 CRT=-ucrt
 include Makevars.win
+
+# XXX for some reason, this variable doesn't seem propagated from Makevars.win
+CXX_STD=CXX17
diff --git a/r/src/altrep.cpp b/r/src/altrep.cpp
index 97bb72b3df7..37a45e42bc9 100644
--- a/r/src/altrep.cpp
+++ b/r/src/altrep.cpp
@@ -18,6 +18,7 @@
 #include "./arrow_types.h"
 
 #include <arrow/array.h>
+#include <arrow/chunk_resolver.h>
 #include <arrow/chunked_array.h>
 #include <arrow/compute/api.h>
 #include <arrow/util/bitmap_reader.h>
@@ -79,35 +80,33 @@ void DeletePointer(std::shared_ptr<T>* ptr) {
 template <typename T>
 using Pointer = cpp11::external_pointer<std::shared_ptr<T>, DeletePointer<T>>;
 
-// the ChunkedArray that is being wrapped by the altrep object
-const std::shared_ptr<ChunkedArray>& GetChunkedArray(SEXP alt) {
-  return *Pointer<ChunkedArray>(R_altrep_data1(alt));
-}
+class ArrowAltrepData {
+ public:
+  explicit ArrowAltrepData(const std::shared_ptr<ChunkedArray>& chunked_array)
+      : chunked_array_(chunked_array), resolver_(chunked_array->chunks()) {}
 
-struct ArrayResolve {
-  ArrayResolve(const std::shared_ptr<ChunkedArray>& chunked_array, int64_t i) {
-    for (int idx_chunk = 0; idx_chunk < chunked_array->num_chunks(); idx_chunk++) {
-      std::shared_ptr<Array> chunk = chunked_array->chunk(idx_chunk);
-      auto chunk_size = chunk->length();
-      if (i < chunk_size) {
-        index_ = i;
-        array_ = chunk;
-        position_ = idx_chunk;
-        break;
-      }
+  const std::shared_ptr<ChunkedArray>& chunked_array() { return chunked_array_; }
 
-      i -= chunk_size;
-    }
+  arrow::internal::ChunkLocation locate(int64_t index) {
+    return resolver_.Resolve(index);
   }
 
-  std::shared_ptr<Array> array_;
-  int64_t index_ = 0;
-  int64_t position_ = 0;
+ private:
+  std::shared_ptr<ChunkedArray> chunked_array_;
+  arrow::internal::ChunkResolver resolver_;
 };
 
+// the ChunkedArray that is being wrapped by the altrep object
+const std::shared_ptr<ChunkedArray>& GetChunkedArray(SEXP alt) {
+  auto array_data =
+      reinterpret_cast<ArrowAltrepData*>(R_ExternalPtrAddr(R_altrep_data1(alt)));
+  return array_data->chunked_array();
+}
+
 // base class for all altrep vectors
 //
-// data1: the Array as an external pointer.
+// data1: the Array as an external pointer; becomes NULL when
+//        materialization is needed.
 // data2: starts as NULL, and becomes a standard R vector with the same
 //        data if necessary: if materialization is needed, e.g. if we need
 //        to access its data pointer, with DATAPTR().
@@ -117,7 +116,7 @@ struct AltrepVectorBase {
   static SEXP Make(const std::shared_ptr<ChunkedArray>& chunked_array) {
     SEXP alt = R_new_altrep(
         Impl::class_t,
-        Pointer<ChunkedArray>(new std::shared_ptr<ChunkedArray>(chunked_array)),
+        external_pointer<ArrowAltrepData>(new ArrowAltrepData(chunked_array)),
         R_NilValue);
     MARK_NOT_MUTABLE(alt);
 
@@ -128,20 +127,39 @@ struct AltrepVectorBase {
   // standard R vector with the same data as the array.
   static bool IsMaterialized(SEXP alt) { return !Rf_isNull(Impl::Representation(alt)); }
 
-  static R_xlen_t Length(SEXP alt) { return GetChunkedArray(alt)->length(); }
+  static R_xlen_t Length(SEXP alt) {
+    if (IsMaterialized(alt)) {
+      return Rf_xlength(Representation(alt));
+    } else {
+      return GetChunkedArray(alt)->length();
+    }
+  }
+
+  static int No_NA(SEXP alt) {
+    if (IsMaterialized(alt)) {
+      return false;
+    }
 
-  static int No_NA(SEXP alt) { return GetChunkedArray(alt)->null_count() == 0; }
+    return GetChunkedArray(alt)->null_count() == 0;
+  }
 
   static int Is_sorted(SEXP alt) { return UNKNOWN_SORTEDNESS; }
 
   // What gets printed on .Internal(inspect(<the altrep object>))
   static Rboolean Inspect(SEXP alt, int pre, int deep, int pvec,
                           void (*inspect_subtree)(SEXP, int, int, int)) {
-    const auto& chunked_array = GetChunkedArray(alt);
-    Rprintf("arrow::ChunkedArray<%p, %s, %d chunks, %d nulls> len=%d\n",
-            chunked_array.get(), chunked_array->type()->ToString().c_str(),
-            chunked_array->num_chunks(), chunked_array->null_count(),
-            chunked_array->length());
+    SEXP data_class_sym = CAR(ATTRIB(ALTREP_CLASS(alt)));
+    const char* class_name = CHAR(PRINTNAME(data_class_sym));
+
+    if (IsMaterialized(alt)) {
+      Rprintf("materialized %s len=%d\n", class_name, Rf_xlength(Representation(alt)));
+    } else {
+      const auto& chunked_array = GetChunkedArray(alt);
+      Rprintf("%s<%p, %s, %d chunks, %d nulls> len=%d\n", class_name, chunked_array.get(),
+              chunked_array->type()->ToString().c_str(), chunked_array->num_chunks(),
+              chunked_array->null_count(), chunked_array->length());
+    }
+
     return TRUE;
   }
 
@@ -183,16 +201,14 @@ struct AltrepVectorPrimitive : public AltrepVectorBase<AltrepVectorPrimitive<sex
 
   // Force materialization. After calling this, the data2 slot of the altrep
   // object contains a standard R vector with the same data, with
-  // R sentinels where the Array has nulls.
-  //
-  // The Array remains available so that it can be used by Length(), Min(), etc ...
+  // R sentinels where the Array has nulls. This method also releases the
+  // reference to the original ChunkedArray.
   static SEXP Materialize(SEXP alt) {
     if (!IsMaterialized(alt)) {
       auto size = Base::Length(alt);
 
-      // create an immutable standard R vector
+      // create a standard R vector
       SEXP copy = PROTECT(Rf_allocVector(sexp_type, size));
-      MARK_NOT_MUTABLE(copy);
 
       // copy the data from the array, through Get_region
       Get_region(alt, 0, size, reinterpret_cast<c_type*>(DATAPTR(copy)));
@@ -200,6 +216,11 @@ struct AltrepVectorPrimitive : public AltrepVectorBase<AltrepVectorPrimitive<sex
       // store as data2, this is now considered materialized
       SetRepresentation(alt, copy);
 
+      // we no longer need the original ChunkedArray (keeping it alive uses more
+      // memory than is required, since our methods can now use the
+      // materialized array)
+      R_set_altrep_data1(alt, R_NilValue);
+
       UNPROTECT(1);
     }
     return Representation(alt);
@@ -239,25 +260,20 @@ struct AltrepVectorPrimitive : public AltrepVectorBase<AltrepVectorPrimitive<sex
     }
 
     // Otherwise we have to materialize and hand the pointer to data2
-    //
-    // NOTE: this returns the DATAPTR() of data2 even in the case writeable = TRUE
-    //
-    // which is risky because C(++) clients of this object might
-    // modify data2, and therefore make it diverge from the data of the Array,
-    // but the object was marked as immutable on creation, so doing this is
-    // disregarding the R api.
-    //
-    // Simply stop() when `writeable = TRUE` is too strong, e.g. this fails
-    // identical() which calls DATAPTR() even though DATAPTR_RO() would
-    // be enough
     return DATAPTR(Materialize(alt));
   }
 
   // The value at position i
   static c_type Elt(SEXP alt, R_xlen_t i) {
-    ArrayResolve resolve(GetChunkedArray(alt), i);
-    auto array = resolve.array_;
-    auto j = resolve.index_;
+    if (IsMaterialized(alt)) {
+      return reinterpret_cast<c_type*>(DATAPTR(Representation(alt)))[i];
+    }
+
+    auto altrep_data =
+        reinterpret_cast<ArrowAltrepData*>(R_ExternalPtrAddr(R_altrep_data1(alt)));
+    auto resolve = altrep_data->locate(i);
+    const auto& array = altrep_data->chunked_array()->chunk(resolve.chunk_index);
+    auto j = resolve.index_in_chunk;
 
     return array->IsNull(j) ? cpp11::na<c_type>()
                             : array->data()->template GetValues<c_type>(1)[j];
@@ -279,7 +295,7 @@ struct AltrepVectorPrimitive : public AltrepVectorBase<AltrepVectorPrimitive<sex
     // do a second pass to force the R sentinels for where the
     // array has nulls
     //
-    // This only materialize the region, into buf. Not the entire vector.
+    // This only materializes the region into buf (not the entire vector).
     auto slice = GetChunkedArray(alt)->Slice(i, n);
     R_xlen_t ncopy = slice->length();
 
@@ -318,6 +334,10 @@ struct AltrepVectorPrimitive : public AltrepVectorBase<AltrepVectorPrimitive<sex
 
   template <bool Min>
   static SEXP MinMax(SEXP alt, Rboolean narm) {
+    if (IsMaterialized(alt)) {
+      return nullptr;
+    }
+
     using data_type = typename std::conditional<sexp_type == REALSXP, double, int>::type;
     using scalar_type =
         typename std::conditional<sexp_type == INTSXP, Int32Scalar, DoubleScalar>::type;
@@ -327,7 +347,13 @@ struct AltrepVectorPrimitive : public AltrepVectorBase<AltrepVectorPrimitive<sex
     auto n = chunked_array->length();
     auto null_count = chunked_array->null_count();
     if ((na_rm || n == 0) && null_count == n) {
-      return Rf_ScalarReal(Min ? R_PosInf : R_NegInf);
+      if (Min) {
+        Rf_warning("no non-missing arguments to min; returning Inf");
+        return Rf_ScalarReal(R_PosInf);
+      } else {
+        Rf_warning("no non-missing arguments to max; returning -Inf");
+        return Rf_ScalarReal(R_NegInf);
+      }
     }
     if (!na_rm && null_count > 0) {
       return cpp11::as_sexp(cpp11::na<data_type>());
@@ -350,6 +376,10 @@ struct AltrepVectorPrimitive : public AltrepVectorBase<AltrepVectorPrimitive<sex
   static SEXP Max(SEXP alt, Rboolean narm) { return MinMax<false>(alt, narm); }
 
   static SEXP Sum(SEXP alt, Rboolean narm) {
+    if (IsMaterialized(alt)) {
+      return nullptr;
+    }
+
     using data_type = typename std::conditional<sexp_type == REALSXP, double, int>::type;
 
     const auto& chunked_array = GetChunkedArray(alt);
@@ -389,6 +419,14 @@ struct AltrepFactor : public AltrepVectorBase<AltrepFactor> {
   using Base = AltrepVectorBase<AltrepFactor>;
   using Base::IsMaterialized;
 
+  static R_xlen_t Length(SEXP alt) {
+    if (IsMaterialized(alt)) {
+      return Rf_xlength(Representation(alt));
+    } else {
+      return GetChunkedArray(alt)->length();
+    }
+  }
+
   // redefining because data2 is a paired list with the representation as the
   // first node: the CAR
   static SEXP Representation(SEXP alt) { return CAR(R_altrep_data2(alt)); }
@@ -452,7 +490,7 @@ struct AltrepFactor : public AltrepVectorBase<AltrepFactor> {
 
     // the chunked array as data1
     SEXP data1 =
-        PROTECT(Pointer<ChunkedArray>(new std::shared_ptr<ChunkedArray>(chunked_array)));
+        PROTECT(external_pointer<ArrowAltrepData>(new ArrowAltrepData(chunked_array)));
 
     // a pairlist with the representation in the first node
     SEXP data2 = PROTECT(Rf_list2(R_NilValue,  // representation, empty at first
@@ -487,7 +525,9 @@ struct AltrepFactor : public AltrepVectorBase<AltrepFactor> {
 
       // store as data2, this is now considered materialized
       SetRepresentation(alt, copy);
-      MARK_NOT_MUTABLE(copy);
+
+      // remove the ChunkedArray reference
+      R_set_altrep_data1(alt, R_NilValue);
 
       UNPROTECT(1);
     }
@@ -522,9 +562,12 @@ struct AltrepFactor : public AltrepVectorBase<AltrepFactor> {
       return INTEGER_ELT(Representation(alt), i);
     }
 
-    ArrayResolve resolve(GetChunkedArray(alt), i);
-    auto array = resolve.array_;
-    auto j = resolve.index_;
+    auto altrep_data =
+        reinterpret_cast<ArrowAltrepData*>(R_ExternalPtrAddr(R_altrep_data1(alt)));
+    auto resolve = altrep_data->locate(i);
+
+    const auto& array = altrep_data->chunked_array()->chunk(resolve.chunk_index);
+    auto j = resolve.index_in_chunk;
 
     if (!array->IsNull(j)) {
       const auto& indices =
@@ -532,7 +575,7 @@ struct AltrepFactor : public AltrepVectorBase<AltrepFactor> {
 
       if (WasUnified(alt)) {
         const auto* transpose_data = reinterpret_cast<const int32_t*>(
-            GetArrayTransposed(alt, resolve.position_)->data());
+            GetArrayTransposed(alt, resolve.chunk_index)->data());
 
         switch (indices->type_id()) {
           case Type::UINT8:
@@ -693,11 +736,19 @@ struct AltrepVectorString : public AltrepVectorBase<AltrepVectorString<Type>> {
   using Base::Representation;
   using Base::SetRepresentation;
 
-  // Helper class to convert to R strings
+  static SEXP Make(const std::shared_ptr<ChunkedArray>& chunked_array) {
+    string_viewer().set_strip_out_nuls(GetBoolOption("arrow.skip_nul", false));
+    return Base::Make(chunked_array);
+  }
+
+  // Helper class to convert to R strings. We declare one of these for the
+  // class to avoid having to stack-allocate one for every STRING_ELT call.
   struct RStringViewer {
-    RStringViewer()
-        : strip_out_nuls_(GetBoolOption("arrow.skip_nul", false)),
-          nul_was_stripped_(false) {}
+    RStringViewer() : strip_out_nuls_(false), nul_was_stripped_(false) {}
+
+    void reset_null_was_stripped() { nul_was_stripped_ = false; }
+
+    void set_strip_out_nuls(bool strip_out_nuls) { strip_out_nuls_ = strip_out_nuls; }
 
     // convert the i'th string of the Array to an R string (CHARSXP)
     SEXP Convert(size_t i) {
@@ -777,20 +828,37 @@ struct AltrepVectorString : public AltrepVectorBase<AltrepVectorString<Type>> {
     std::shared_ptr<Array> array_;
     const StringArrayType* string_array_;
     std::string stripped_string_;
-    const bool strip_out_nuls_;
+    bool strip_out_nuls_;
     bool nul_was_stripped_;
-    util::string_view view_;
+    std::string_view view_;
   };
 
-  // Get a single string, as a CHARSXP SEXP from data2.
-  // Materialize if not done so yet, given that it is
-  // likely that there will be another call from R if there is a call (e.g. unique()),
-  // and getting a string from Array is much more costly than from data2.
+  // Get a single string as a CHARSXP SEXP
   static SEXP Elt(SEXP alt, R_xlen_t i) {
-    if (!Base::IsMaterialized(alt)) {
-      Materialize(alt);
+    if (Base::IsMaterialized(alt)) {
+      return STRING_ELT(Representation(alt), i);
+    }
+
+    auto altrep_data =
+        reinterpret_cast<ArrowAltrepData*>(R_ExternalPtrAddr(R_altrep_data1(alt)));
+    auto resolve = altrep_data->locate(i);
+    const auto& array = altrep_data->chunked_array()->chunk(resolve.chunk_index);
+    auto j = resolve.index_in_chunk;
+
+    SEXP s = NA_STRING;
+    RStringViewer& r_string_viewer = string_viewer();
+    r_string_viewer.SetArray(array);
+    // Note: we don't check GetBoolOption("arrow.skip_nul", false) here
+    // because it is too expensive to do so. We do set this value whenever
+    // an altrep string; however, there is a chance that this value could
+    // be out of date by the time a value in the vector is accessed.
+    r_string_viewer.reset_null_was_stripped();
+    s = r_string_viewer.Convert(j);
+    if (r_string_viewer.nul_was_stripped()) {
+      Rf_warning("Stripping '\\0' (nul) from character vector");
     }
-    return STRING_ELT(Representation(alt), i);
+
+    return s;
   }
 
   static void* Dataptr(SEXP alt, Rboolean writeable) { return DATAPTR(Materialize(alt)); }
@@ -800,41 +868,35 @@ struct AltrepVectorString : public AltrepVectorBase<AltrepVectorString<Type>> {
       return Representation(alt);
     }
 
-    BEGIN_CPP11
-
     const auto& chunked_array = GetChunkedArray(alt);
     SEXP data2 = PROTECT(Rf_allocVector(STRSXP, chunked_array->length()));
     MARK_NOT_MUTABLE(data2);
 
-    RStringViewer r_string_viewer;
-
-    // r_string_viewer.Convert() might jump so we have to
-    // wrap it in unwind_protect() to:
-    // - correctly destruct the C++ objects
-    // - resume the unwinding
-    cpp11::unwind_protect([&]() {
-      R_xlen_t i = 0;
-      for (const auto& array : chunked_array->chunks()) {
-        r_string_viewer.SetArray(array);
+    R_xlen_t i = 0;
+    RStringViewer& r_string_viewer = string_viewer();
+    r_string_viewer.reset_null_was_stripped();
+    r_string_viewer.set_strip_out_nuls(GetBoolOption("arrow.skip_nul", false));
+    for (const auto& array : chunked_array->chunks()) {
+      r_string_viewer.SetArray(array);
 
-        auto ni = array->length();
-        for (R_xlen_t j = 0; j < ni; j++, i++) {
-          SET_STRING_ELT(data2, i, r_string_viewer.Convert(j));
-        }
+      auto ni = array->length();
+      for (R_xlen_t j = 0; j < ni; j++, i++) {
+        SET_STRING_ELT(data2, i, r_string_viewer.Convert(j));
       }
+    }
 
-      if (r_string_viewer.nul_was_stripped()) {
-        cpp11::warning("Stripping '\\0' (nul) from character vector");
-      }
-    });
+    if (r_string_viewer.nul_was_stripped()) {
+      Rf_warning("Stripping '\\0' (nul) from character vector");
+    }
 
     // only set to data2 if all the values have been converted
     SetRepresentation(alt, data2);
     UNPROTECT(1);  // data2
 
-    return data2;
+    // remove reference to chunked array
+    R_set_altrep_data1(alt, R_NilValue);
 
-    END_CPP11
+    return data2;
   }
 
   static const void* Dataptr_or_null(SEXP alt) {
@@ -847,6 +909,11 @@ struct AltrepVectorString : public AltrepVectorBase<AltrepVectorString<Type>> {
   static void Set_elt(SEXP alt, R_xlen_t i, SEXP v) {
     Rf_error("ALTSTRING objects of type <arrow::array_string_vector> are immutable");
   }
+
+  static RStringViewer& string_viewer() {
+    static RStringViewer string_viewer;
+    return string_viewer;
+  }
 };
 
 template <typename Type>
@@ -986,7 +1053,7 @@ bool is_arrow_altrep(SEXP x) {
 }
 
 std::shared_ptr<ChunkedArray> vec_to_arrow_altrep_bypass(SEXP x) {
-  if (is_arrow_altrep(x)) {
+  if (is_arrow_altrep(x) && R_altrep_data1(x) != R_NilValue) {
     return GetChunkedArray(x);
   }
 
@@ -1019,7 +1086,170 @@ std::shared_ptr<ChunkedArray> vec_to_arrow_altrep_bypass(SEXP x) { return nullpt
 #endif
 
 // [[arrow::export]]
-void test_SET_STRING_ELT(SEXP s) { SET_STRING_ELT(s, 0, Rf_mkChar("forbidden")); }
+bool is_arrow_altrep(cpp11::sexp x) { return arrow::r::altrep::is_arrow_altrep(x); }
+
+// [[arrow::export]]
+void test_arrow_altrep_set_string_elt(sexp x, int i, std::string value) {
+  if (!is_arrow_altrep(x)) {
+    stop("x is not arrow ALTREP");
+  }
+
+  SET_STRING_ELT(x, i, Rf_mkChar(value.c_str()));
+}
+
+// [[arrow::export]]
+sexp test_arrow_altrep_is_materialized(sexp x) {
+  if (!is_arrow_altrep(x)) {
+    return Rf_ScalarLogical(NA_LOGICAL);
+  }
+
+  sexp data_class_sym = CAR(ATTRIB(ALTREP_CLASS(x)));
+  std::string class_name(CHAR(PRINTNAME(data_class_sym)));
+
+  int result = NA_LOGICAL;
+  if (class_name == "arrow::array_dbl_vector") {
+    result = arrow::r::altrep::AltrepVectorPrimitive<REALSXP>::IsMaterialized(x);
+  } else if (class_name == "arrow::array_int_vector") {
+    result = arrow::r::altrep::AltrepVectorPrimitive<INTSXP>::IsMaterialized(x);
+  } else if (class_name == "arrow::array_string_vector") {
+    result = arrow::r::altrep::AltrepVectorString<arrow::StringType>::IsMaterialized(x);
+  } else if (class_name == "arrow::array_large_string_vector") {
+    result =
+        arrow::r::altrep::AltrepVectorString<arrow::LargeStringType>::IsMaterialized(x);
+  } else if (class_name == "arrow::array_factor") {
+    result = arrow::r::altrep::AltrepFactor::IsMaterialized(x);
+  }
+
+  return Rf_ScalarLogical(result);
+}
+
+// [[arrow::export]]
+bool test_arrow_altrep_force_materialize(sexp x) {
+  if (!is_arrow_altrep(x)) {
+    stop("x is not arrow ALTREP");
+  }
+
+  bool already_materialized = as_cpp<bool>(test_arrow_altrep_is_materialized(x));
+  if (already_materialized) {
+    stop("x is already materialized");
+  }
+
+  sexp data_class_sym = CAR(ATTRIB(ALTREP_CLASS(x)));
+  std::string class_name(CHAR(PRINTNAME(data_class_sym)));
+
+  if (class_name == "arrow::array_dbl_vector") {
+    arrow::r::altrep::AltrepVectorPrimitive<REALSXP>::Materialize(x);
+  } else if (class_name == "arrow::array_int_vector") {
+    arrow::r::altrep::AltrepVectorPrimitive<INTSXP>::Materialize(x);
+  } else if (class_name == "arrow::array_string_vector") {
+    arrow::r::altrep::AltrepVectorString<arrow::StringType>::Materialize(x);
+  } else if (class_name == "arrow::array_large_string_vector") {
+    arrow::r::altrep::AltrepVectorString<arrow::LargeStringType>::Materialize(x);
+  } else if (class_name == "arrow::array_factor") {
+    arrow::r::altrep::AltrepFactor::Materialize(x);
+  } else {
+    return false;
+  }
+
+  return true;
+}
+
+// [[arrow::export]]
+sexp test_arrow_altrep_copy_by_element(sexp x) {
+  if (!is_arrow_altrep(x)) {
+    stop("x is not arrow ALTREP");
+  }
+
+  R_xlen_t n = Rf_xlength(x);
+
+  if (TYPEOF(x) == INTSXP) {
+    cpp11::writable::integers out(Rf_xlength(x));
+    for (R_xlen_t i = 0; i < n; i++) {
+      out[i] = INTEGER_ELT(x, i);
+    }
+    return out;
+  } else if (TYPEOF(x) == REALSXP) {
+    cpp11::writable::doubles out(Rf_xlength(x));
+    for (R_xlen_t i = 0; i < n; i++) {
+      out[i] = REAL_ELT(x, i);
+    }
+    return out;
+  } else if (TYPEOF(x) == STRSXP) {
+    cpp11::writable::strings out(Rf_xlength(x));
+    for (R_xlen_t i = 0; i < n; i++) {
+      out[i] = STRING_ELT(x, i);
+    }
+    return out;
+  } else {
+    return R_NilValue;
+  }
+}
 
 // [[arrow::export]]
-bool is_arrow_altrep(SEXP x) { return arrow::r::altrep::is_arrow_altrep(x); }
+sexp test_arrow_altrep_copy_by_region(sexp x, R_xlen_t region_size) {
+  if (!is_arrow_altrep(x)) {
+    stop("x is not arrow ALTREP");
+  }
+
+  R_xlen_t n = Rf_xlength(x);
+
+  if (TYPEOF(x) == INTSXP) {
+    cpp11::writable::integers out(Rf_xlength(x));
+    cpp11::writable::integers buf_shelter(region_size);
+    int* buf = INTEGER(buf_shelter);
+    for (R_xlen_t i = 0; i < n; i++) {
+      if ((i % region_size) == 0) {
+        INTEGER_GET_REGION(x, i, region_size, buf);
+      }
+      out[i] = buf[i % region_size];
+    }
+    return out;
+  } else if (TYPEOF(x) == REALSXP) {
+    cpp11::writable::doubles out(Rf_xlength(x));
+    cpp11::writable::doubles buf_shelter(region_size);
+    double* buf = REAL(buf_shelter);
+    for (R_xlen_t i = 0; i < n; i++) {
+      if ((i % region_size) == 0) {
+        REAL_GET_REGION(x, i, region_size, buf);
+      }
+      out[i] = buf[i % region_size];
+    }
+    return out;
+  } else {
+    return R_NilValue;
+  }
+}
+
+// [[arrow::export]]
+sexp test_arrow_altrep_copy_by_dataptr(sexp x) {
+  if (!is_arrow_altrep(x)) {
+    stop("x is not arrow ALTREP");
+  }
+
+  R_xlen_t n = Rf_xlength(x);
+
+  if (TYPEOF(x) == INTSXP) {
+    cpp11::writable::integers out(Rf_xlength(x));
+    int* ptr = reinterpret_cast<int*>(DATAPTR(x));
+    for (R_xlen_t i = 0; i < n; i++) {
+      out[i] = ptr[i];
+    }
+    return out;
+  } else if (TYPEOF(x) == REALSXP) {
+    cpp11::writable::doubles out(Rf_xlength(x));
+    double* ptr = reinterpret_cast<double*>(DATAPTR(x));
+    for (R_xlen_t i = 0; i < n; i++) {
+      out[i] = ptr[i];
+    }
+    return out;
+  } else if (TYPEOF(x) == STRSXP) {
+    cpp11::writable::strings out(Rf_xlength(x));
+    SEXP* ptr = reinterpret_cast<SEXP*>(DATAPTR(x));
+    for (R_xlen_t i = 0; i < n; i++) {
+      out[i] = ptr[i];
+    }
+    return out;
+  } else {
+    return R_NilValue;
+  }
+}
diff --git a/r/src/array.cpp b/r/src/array.cpp
index 8ba0c569ea4..c6c98d75b5f 100644
--- a/r/src/array.cpp
+++ b/r/src/array.cpp
@@ -69,7 +69,10 @@ void arrow::r::validate_slice_length(R_xlen_t length, int64_t available) {
     cpp11::stop("Slice 'length' cannot be negative");
   }
   if (length > available) {
-    cpp11::warning("Slice 'length' greater than available length");
+    // For an unknown reason, cpp11::warning() crashes here; however, this
+    // should throw an exception if Rf_warning() jumps, so we need
+    // cpp11::safe[]().
+    cpp11::safe[Rf_warning]("Slice 'length' greater than available length");
   }
 }
 
@@ -110,7 +113,9 @@ bool Array__IsValid(const std::shared_ptr<arrow::Array>& x, R_xlen_t i) {
 }
 
 // [[arrow::export]]
-int Array__length(const std::shared_ptr<arrow::Array>& x) { return x->length(); }
+r_vec_size Array__length(const std::shared_ptr<arrow::Array>& x) {
+  return r_vec_size(x->length());
+}
 
 // [[arrow::export]]
 int Array__offset(const std::shared_ptr<arrow::Array>& x) { return x->offset(); }
@@ -208,6 +213,13 @@ std::shared_ptr<arrow::Array> StructArray__GetFieldByName(
   return array->GetFieldByName(name);
 }
 
+// [[arrow::export]]
+std::shared_ptr<arrow::StructArray> StructArray__from_RecordBatch(
+    const std::shared_ptr<arrow::RecordBatch>& batch) {
+  return ValueOrStop(
+      arrow::StructArray::Make(batch->columns(), batch->schema()->field_names()));
+}
+
 // [[arrow::export]]
 cpp11::list StructArray__Flatten(const std::shared_ptr<arrow::StructArray>& array) {
   return arrow::r::to_r_list(ValueOrStop(array->Flatten()));
diff --git a/r/src/array_to_vector.cpp b/r/src/array_to_vector.cpp
index dccc29537ed..9cf539bb41e 100644
--- a/r/src/array_to_vector.cpp
+++ b/r/src/array_to_vector.cpp
@@ -365,7 +365,7 @@ struct Converter_String : public Converter {
     }
 
     if (nul_was_stripped) {
-      cpp11::warning("Stripping '\\0' (nul) from character vector");
+      cpp11::safe[Rf_warning]("Stripping '\\0' (nul) from character vector");
     }
 
     return Status::OK();
@@ -374,11 +374,11 @@ struct Converter_String : public Converter {
   bool Parallel() const { return false; }
 
  private:
-  static SEXP r_string_from_view(arrow::util::string_view view) {
+  static SEXP r_string_from_view(std::string_view view) {
     return Rf_mkCharLenCE(view.data(), view.size(), CE_UTF8);
   }
 
-  static SEXP r_string_from_view_strip_nul(arrow::util::string_view view,
+  static SEXP r_string_from_view_strip_nul(std::string_view view,
                                            bool* nul_was_stripped) {
     const char* old_string = view.data();
 
@@ -391,7 +391,7 @@ struct Converter_String : public Converter {
 
         if (nul_count == 1) {
           // first nul spotted: allocate stripped string storage
-          stripped_string = view.to_string();
+          stripped_string = std::string(view);
           stripped_len = i;
         }
 
@@ -706,7 +706,7 @@ class Converter_Dictionary : public Converter {
     // Alternative: preserve the logical type of the dictionary values
     // (e.g. if dict is timestamp, return a POSIXt R vector, not factor)
     if (dictionary_->type_id() != Type::STRING) {
-      cpp11::warning("Coercing dictionary values to R character factor levels");
+      cpp11::safe[Rf_warning]("Coercing dictionary values to R character factor levels");
     }
 
     SEXP vec = PROTECT(Converter::Convert(dictionary_));
diff --git a/r/src/arrowExports.cpp b/r/src/arrowExports.cpp
index adb6636e9ee..b7bda1870f9 100644
--- a/r/src/arrowExports.cpp
+++ b/r/src/arrowExports.cpp
@@ -5,20 +5,63 @@
 #include "./arrow_types.h"
 
 // altrep.cpp
-void test_SET_STRING_ELT(SEXP s);
-extern "C" SEXP _arrow_test_SET_STRING_ELT(SEXP s_sexp){
+bool is_arrow_altrep(cpp11::sexp x);
+extern "C" SEXP _arrow_is_arrow_altrep(SEXP x_sexp){
 BEGIN_CPP11
-	arrow::r::Input<SEXP>::type s(s_sexp);
-	test_SET_STRING_ELT(s);
+	arrow::r::Input<cpp11::sexp>::type x(x_sexp);
+	return cpp11::as_sexp(is_arrow_altrep(x));
+END_CPP11
+}
+// altrep.cpp
+void test_arrow_altrep_set_string_elt(sexp x, int i, std::string value);
+extern "C" SEXP _arrow_test_arrow_altrep_set_string_elt(SEXP x_sexp, SEXP i_sexp, SEXP value_sexp){
+BEGIN_CPP11
+	arrow::r::Input<sexp>::type x(x_sexp);
+	arrow::r::Input<int>::type i(i_sexp);
+	arrow::r::Input<std::string>::type value(value_sexp);
+	test_arrow_altrep_set_string_elt(x, i, value);
 	return R_NilValue;
 END_CPP11
 }
 // altrep.cpp
-bool is_arrow_altrep(SEXP x);
-extern "C" SEXP _arrow_is_arrow_altrep(SEXP x_sexp){
+sexp test_arrow_altrep_is_materialized(sexp x);
+extern "C" SEXP _arrow_test_arrow_altrep_is_materialized(SEXP x_sexp){
 BEGIN_CPP11
-	arrow::r::Input<SEXP>::type x(x_sexp);
-	return cpp11::as_sexp(is_arrow_altrep(x));
+	arrow::r::Input<sexp>::type x(x_sexp);
+	return cpp11::as_sexp(test_arrow_altrep_is_materialized(x));
+END_CPP11
+}
+// altrep.cpp
+bool test_arrow_altrep_force_materialize(sexp x);
+extern "C" SEXP _arrow_test_arrow_altrep_force_materialize(SEXP x_sexp){
+BEGIN_CPP11
+	arrow::r::Input<sexp>::type x(x_sexp);
+	return cpp11::as_sexp(test_arrow_altrep_force_materialize(x));
+END_CPP11
+}
+// altrep.cpp
+sexp test_arrow_altrep_copy_by_element(sexp x);
+extern "C" SEXP _arrow_test_arrow_altrep_copy_by_element(SEXP x_sexp){
+BEGIN_CPP11
+	arrow::r::Input<sexp>::type x(x_sexp);
+	return cpp11::as_sexp(test_arrow_altrep_copy_by_element(x));
+END_CPP11
+}
+// altrep.cpp
+sexp test_arrow_altrep_copy_by_region(sexp x, R_xlen_t region_size);
+extern "C" SEXP _arrow_test_arrow_altrep_copy_by_region(SEXP x_sexp, SEXP region_size_sexp){
+BEGIN_CPP11
+	arrow::r::Input<sexp>::type x(x_sexp);
+	arrow::r::Input<R_xlen_t>::type region_size(region_size_sexp);
+	return cpp11::as_sexp(test_arrow_altrep_copy_by_region(x, region_size));
+END_CPP11
+}
+// altrep.cpp
+sexp test_arrow_altrep_copy_by_dataptr(sexp x);
+extern "C" SEXP _arrow_test_arrow_altrep_copy_by_dataptr(SEXP x_sexp){
+BEGIN_CPP11
+	arrow::r::Input<sexp>::type x(x_sexp);
+	return cpp11::as_sexp(test_arrow_altrep_copy_by_dataptr(x));
 END_CPP11
 }
 // array.cpp
@@ -59,7 +102,7 @@ BEGIN_CPP11
 END_CPP11
 }
 // array.cpp
-int Array__length(const std::shared_ptr<arrow::Array>& x);
+r_vec_size Array__length(const std::shared_ptr<arrow::Array>& x);
 extern "C" SEXP _arrow_Array__length(SEXP x_sexp){
 BEGIN_CPP11
 	arrow::r::Input<const std::shared_ptr<arrow::Array>&>::type x(x_sexp);
@@ -206,6 +249,14 @@ BEGIN_CPP11
 END_CPP11
 }
 // array.cpp
+std::shared_ptr<arrow::StructArray> StructArray__from_RecordBatch(const std::shared_ptr<arrow::RecordBatch>& batch);
+extern "C" SEXP _arrow_StructArray__from_RecordBatch(SEXP batch_sexp){
+BEGIN_CPP11
+	arrow::r::Input<const std::shared_ptr<arrow::RecordBatch>&>::type batch(batch_sexp);
+	return cpp11::as_sexp(StructArray__from_RecordBatch(batch));
+END_CPP11
+}
+// array.cpp
 cpp11::list StructArray__Flatten(const std::shared_ptr<arrow::StructArray>& array);
 extern "C" SEXP _arrow_StructArray__Flatten(SEXP array_sexp){
 BEGIN_CPP11
@@ -869,7 +920,39 @@ BEGIN_CPP11
 END_CPP11
 }
 // compute-exec.cpp
-std::shared_ptr<arrow::RecordBatchReader> ExecPlan_run(const std::shared_ptr<compute::ExecPlan>& plan, const std::shared_ptr<compute::ExecNode>& final_node, cpp11::list sort_options, cpp11::strings metadata, int64_t head);
+cpp11::list ExecPlanReader__batches(const std::shared_ptr<arrow::RecordBatchReader>& reader);
+extern "C" SEXP _arrow_ExecPlanReader__batches(SEXP reader_sexp){
+BEGIN_CPP11
+	arrow::r::Input<const std::shared_ptr<arrow::RecordBatchReader>&>::type reader(reader_sexp);
+	return cpp11::as_sexp(ExecPlanReader__batches(reader));
+END_CPP11
+}
+// compute-exec.cpp
+std::shared_ptr<arrow::Table> Table__from_ExecPlanReader(const std::shared_ptr<arrow::RecordBatchReader>& reader);
+extern "C" SEXP _arrow_Table__from_ExecPlanReader(SEXP reader_sexp){
+BEGIN_CPP11
+	arrow::r::Input<const std::shared_ptr<arrow::RecordBatchReader>&>::type reader(reader_sexp);
+	return cpp11::as_sexp(Table__from_ExecPlanReader(reader));
+END_CPP11
+}
+// compute-exec.cpp
+std::shared_ptr<compute::ExecPlan> ExecPlanReader__Plan(const std::shared_ptr<ExecPlanReader>& reader);
+extern "C" SEXP _arrow_ExecPlanReader__Plan(SEXP reader_sexp){
+BEGIN_CPP11
+	arrow::r::Input<const std::shared_ptr<ExecPlanReader>&>::type reader(reader_sexp);
+	return cpp11::as_sexp(ExecPlanReader__Plan(reader));
+END_CPP11
+}
+// compute-exec.cpp
+std::string ExecPlanReader__PlanStatus(const std::shared_ptr<ExecPlanReader>& reader);
+extern "C" SEXP _arrow_ExecPlanReader__PlanStatus(SEXP reader_sexp){
+BEGIN_CPP11
+	arrow::r::Input<const std::shared_ptr<ExecPlanReader>&>::type reader(reader_sexp);
+	return cpp11::as_sexp(ExecPlanReader__PlanStatus(reader));
+END_CPP11
+}
+// compute-exec.cpp
+std::shared_ptr<ExecPlanReader> ExecPlan_run(const std::shared_ptr<compute::ExecPlan>& plan, const std::shared_ptr<compute::ExecNode>& final_node, cpp11::list sort_options, cpp11::strings metadata, int64_t head);
 extern "C" SEXP _arrow_ExecPlan_run(SEXP plan_sexp, SEXP final_node_sexp, SEXP sort_options_sexp, SEXP metadata_sexp, SEXP head_sexp){
 BEGIN_CPP11
 	arrow::r::Input<const std::shared_ptr<compute::ExecPlan>&>::type plan(plan_sexp);
@@ -881,23 +964,19 @@ BEGIN_CPP11
 END_CPP11
 }
 // compute-exec.cpp
-std::shared_ptr<arrow::Table> ExecPlan_read_table(const std::shared_ptr<compute::ExecPlan>& plan, const std::shared_ptr<compute::ExecNode>& final_node, cpp11::list sort_options, cpp11::strings metadata, int64_t head);
-extern "C" SEXP _arrow_ExecPlan_read_table(SEXP plan_sexp, SEXP final_node_sexp, SEXP sort_options_sexp, SEXP metadata_sexp, SEXP head_sexp){
+std::string ExecPlan_ToString(const std::shared_ptr<compute::ExecPlan>& plan);
+extern "C" SEXP _arrow_ExecPlan_ToString(SEXP plan_sexp){
 BEGIN_CPP11
 	arrow::r::Input<const std::shared_ptr<compute::ExecPlan>&>::type plan(plan_sexp);
-	arrow::r::Input<const std::shared_ptr<compute::ExecNode>&>::type final_node(final_node_sexp);
-	arrow::r::Input<cpp11::list>::type sort_options(sort_options_sexp);
-	arrow::r::Input<cpp11::strings>::type metadata(metadata_sexp);
-	arrow::r::Input<int64_t>::type head(head_sexp);
-	return cpp11::as_sexp(ExecPlan_read_table(plan, final_node, sort_options, metadata, head));
+	return cpp11::as_sexp(ExecPlan_ToString(plan));
 END_CPP11
 }
 // compute-exec.cpp
-void ExecPlan_StopProducing(const std::shared_ptr<compute::ExecPlan>& plan);
-extern "C" SEXP _arrow_ExecPlan_StopProducing(SEXP plan_sexp){
+void ExecPlan_UnsafeDelete(const std::shared_ptr<compute::ExecPlan>& plan);
+extern "C" SEXP _arrow_ExecPlan_UnsafeDelete(SEXP plan_sexp){
 BEGIN_CPP11
 	arrow::r::Input<const std::shared_ptr<compute::ExecPlan>&>::type plan(plan_sexp);
-	ExecPlan_StopProducing(plan);
+	ExecPlan_UnsafeDelete(plan);
 	return R_NilValue;
 END_CPP11
 }
@@ -910,17 +989,6 @@ BEGIN_CPP11
 END_CPP11
 }
 // compute-exec.cpp
-std::string ExecPlan_BuildAndShow(const std::shared_ptr<compute::ExecPlan>& plan, const std::shared_ptr<compute::ExecNode>& final_node, cpp11::list sort_options, int64_t head);
-extern "C" SEXP _arrow_ExecPlan_BuildAndShow(SEXP plan_sexp, SEXP final_node_sexp, SEXP sort_options_sexp, SEXP head_sexp){
-BEGIN_CPP11
-	arrow::r::Input<const std::shared_ptr<compute::ExecPlan>&>::type plan(plan_sexp);
-	arrow::r::Input<const std::shared_ptr<compute::ExecNode>&>::type final_node(final_node_sexp);
-	arrow::r::Input<cpp11::list>::type sort_options(sort_options_sexp);
-	arrow::r::Input<int64_t>::type head(head_sexp);
-	return cpp11::as_sexp(ExecPlan_BuildAndShow(plan, final_node, sort_options, head));
-END_CPP11
-}
-// compute-exec.cpp
 #if defined(ARROW_R_WITH_DATASET)
 std::shared_ptr<compute::ExecNode> ExecNode_Scan(const std::shared_ptr<compute::ExecPlan>& plan, const std::shared_ptr<ds::Dataset>& dataset, const std::shared_ptr<compute::Expression>& filter, std::vector<std::string> materialized_field_names);
 extern "C" SEXP _arrow_ExecNode_Scan(SEXP plan_sexp, SEXP dataset_sexp, SEXP filter_sexp, SEXP materialized_field_names_sexp){
@@ -997,11 +1065,11 @@ BEGIN_CPP11
 END_CPP11
 }
 // compute-exec.cpp
-std::shared_ptr<compute::ExecNode> ExecNode_Join(const std::shared_ptr<compute::ExecNode>& input, int type, const std::shared_ptr<compute::ExecNode>& right_data, std::vector<std::string> left_keys, std::vector<std::string> right_keys, std::vector<std::string> left_output, std::vector<std::string> right_output, std::string output_suffix_for_left, std::string output_suffix_for_right);
-extern "C" SEXP _arrow_ExecNode_Join(SEXP input_sexp, SEXP type_sexp, SEXP right_data_sexp, SEXP left_keys_sexp, SEXP right_keys_sexp, SEXP left_output_sexp, SEXP right_output_sexp, SEXP output_suffix_for_left_sexp, SEXP output_suffix_for_right_sexp){
+std::shared_ptr<compute::ExecNode> ExecNode_Join(const std::shared_ptr<compute::ExecNode>& input, compute::JoinType join_type, const std::shared_ptr<compute::ExecNode>& right_data, std::vector<std::string> left_keys, std::vector<std::string> right_keys, std::vector<std::string> left_output, std::vector<std::string> right_output, std::string output_suffix_for_left, std::string output_suffix_for_right);
+extern "C" SEXP _arrow_ExecNode_Join(SEXP input_sexp, SEXP join_type_sexp, SEXP right_data_sexp, SEXP left_keys_sexp, SEXP right_keys_sexp, SEXP left_output_sexp, SEXP right_output_sexp, SEXP output_suffix_for_left_sexp, SEXP output_suffix_for_right_sexp){
 BEGIN_CPP11
 	arrow::r::Input<const std::shared_ptr<compute::ExecNode>&>::type input(input_sexp);
-	arrow::r::Input<int>::type type(type_sexp);
+	arrow::r::Input<compute::JoinType>::type join_type(join_type_sexp);
 	arrow::r::Input<const std::shared_ptr<compute::ExecNode>&>::type right_data(right_data_sexp);
 	arrow::r::Input<std::vector<std::string>>::type left_keys(left_keys_sexp);
 	arrow::r::Input<std::vector<std::string>>::type right_keys(right_keys_sexp);
@@ -1009,7 +1077,7 @@ BEGIN_CPP11
 	arrow::r::Input<std::vector<std::string>>::type right_output(right_output_sexp);
 	arrow::r::Input<std::string>::type output_suffix_for_left(output_suffix_for_left_sexp);
 	arrow::r::Input<std::string>::type output_suffix_for_right(output_suffix_for_right_sexp);
-	return cpp11::as_sexp(ExecNode_Join(input, type, right_data, left_keys, right_keys, left_output, right_output, output_suffix_for_left, output_suffix_for_right));
+	return cpp11::as_sexp(ExecNode_Join(input, join_type, right_data, left_keys, right_keys, left_output, right_output, output_suffix_for_left, output_suffix_for_right));
 END_CPP11
 }
 // compute-exec.cpp
@@ -2375,12 +2443,13 @@ BEGIN_CPP11
 END_CPP11
 }
 // datatype.cpp
-bool DataType__Equals(const std::shared_ptr<arrow::DataType>& lhs, const std::shared_ptr<arrow::DataType>& rhs);
-extern "C" SEXP _arrow_DataType__Equals(SEXP lhs_sexp, SEXP rhs_sexp){
+bool DataType__Equals(const std::shared_ptr<arrow::DataType>& lhs, const std::shared_ptr<arrow::DataType>& rhs, bool check_metadata);
+extern "C" SEXP _arrow_DataType__Equals(SEXP lhs_sexp, SEXP rhs_sexp, SEXP check_metadata_sexp){
 BEGIN_CPP11
 	arrow::r::Input<const std::shared_ptr<arrow::DataType>&>::type lhs(lhs_sexp);
 	arrow::r::Input<const std::shared_ptr<arrow::DataType>&>::type rhs(rhs_sexp);
-	return cpp11::as_sexp(DataType__Equals(lhs, rhs));
+	arrow::r::Input<bool>::type check_metadata(check_metadata_sexp);
+	return cpp11::as_sexp(DataType__Equals(lhs, rhs, check_metadata));
 END_CPP11
 }
 // datatype.cpp
@@ -3209,8 +3278,8 @@ END_CPP11
 }
 // filesystem.cpp
 #if defined(ARROW_R_WITH_S3)
-std::shared_ptr<fs::S3FileSystem> fs___S3FileSystem__create(bool anonymous, std::string access_key, std::string secret_key, std::string session_token, std::string role_arn, std::string session_name, std::string external_id, int load_frequency, std::string region, std::string endpoint_override, std::string scheme, std::string proxy_options, bool background_writes, bool allow_bucket_creation, bool allow_bucket_deletion);
-extern "C" SEXP _arrow_fs___S3FileSystem__create(SEXP anonymous_sexp, SEXP access_key_sexp, SEXP secret_key_sexp, SEXP session_token_sexp, SEXP role_arn_sexp, SEXP session_name_sexp, SEXP external_id_sexp, SEXP load_frequency_sexp, SEXP region_sexp, SEXP endpoint_override_sexp, SEXP scheme_sexp, SEXP proxy_options_sexp, SEXP background_writes_sexp, SEXP allow_bucket_creation_sexp, SEXP allow_bucket_deletion_sexp){
+std::shared_ptr<fs::S3FileSystem> fs___S3FileSystem__create(bool anonymous, std::string access_key, std::string secret_key, std::string session_token, std::string role_arn, std::string session_name, std::string external_id, int load_frequency, std::string region, std::string endpoint_override, std::string scheme, std::string proxy_options, bool background_writes, bool allow_bucket_creation, bool allow_bucket_deletion, double connect_timeout, double request_timeout);
+extern "C" SEXP _arrow_fs___S3FileSystem__create(SEXP anonymous_sexp, SEXP access_key_sexp, SEXP secret_key_sexp, SEXP session_token_sexp, SEXP role_arn_sexp, SEXP session_name_sexp, SEXP external_id_sexp, SEXP load_frequency_sexp, SEXP region_sexp, SEXP endpoint_override_sexp, SEXP scheme_sexp, SEXP proxy_options_sexp, SEXP background_writes_sexp, SEXP allow_bucket_creation_sexp, SEXP allow_bucket_deletion_sexp, SEXP connect_timeout_sexp, SEXP request_timeout_sexp){
 BEGIN_CPP11
 	arrow::r::Input<bool>::type anonymous(anonymous_sexp);
 	arrow::r::Input<std::string>::type access_key(access_key_sexp);
@@ -3227,11 +3296,13 @@ BEGIN_CPP11
 	arrow::r::Input<bool>::type background_writes(background_writes_sexp);
 	arrow::r::Input<bool>::type allow_bucket_creation(allow_bucket_creation_sexp);
 	arrow::r::Input<bool>::type allow_bucket_deletion(allow_bucket_deletion_sexp);
-	return cpp11::as_sexp(fs___S3FileSystem__create(anonymous, access_key, secret_key, session_token, role_arn, session_name, external_id, load_frequency, region, endpoint_override, scheme, proxy_options, background_writes, allow_bucket_creation, allow_bucket_deletion));
+	arrow::r::Input<double>::type connect_timeout(connect_timeout_sexp);
+	arrow::r::Input<double>::type request_timeout(request_timeout_sexp);
+	return cpp11::as_sexp(fs___S3FileSystem__create(anonymous, access_key, secret_key, session_token, role_arn, session_name, external_id, load_frequency, region, endpoint_override, scheme, proxy_options, background_writes, allow_bucket_creation, allow_bucket_deletion, connect_timeout, request_timeout));
 END_CPP11
 }
 #else
-extern "C" SEXP _arrow_fs___S3FileSystem__create(SEXP anonymous_sexp, SEXP access_key_sexp, SEXP secret_key_sexp, SEXP session_token_sexp, SEXP role_arn_sexp, SEXP session_name_sexp, SEXP external_id_sexp, SEXP load_frequency_sexp, SEXP region_sexp, SEXP endpoint_override_sexp, SEXP scheme_sexp, SEXP proxy_options_sexp, SEXP background_writes_sexp, SEXP allow_bucket_creation_sexp, SEXP allow_bucket_deletion_sexp){
+extern "C" SEXP _arrow_fs___S3FileSystem__create(SEXP anonymous_sexp, SEXP access_key_sexp, SEXP secret_key_sexp, SEXP session_token_sexp, SEXP role_arn_sexp, SEXP session_name_sexp, SEXP external_id_sexp, SEXP load_frequency_sexp, SEXP region_sexp, SEXP endpoint_override_sexp, SEXP scheme_sexp, SEXP proxy_options_sexp, SEXP background_writes_sexp, SEXP allow_bucket_creation_sexp, SEXP allow_bucket_deletion_sexp, SEXP connect_timeout_sexp, SEXP request_timeout_sexp){
 	Rf_error("Cannot call fs___S3FileSystem__create(). See https://arrow.apache.org/docs/r/articles/install.html for help installing Arrow C++ libraries. ");
 }
 #endif
@@ -4466,6 +4537,24 @@ BEGIN_CPP11
 END_CPP11
 }
 // recordbatchreader.cpp
+void RecordBatchReader__Close(const std::shared_ptr<arrow::RecordBatchReader>& reader);
+extern "C" SEXP _arrow_RecordBatchReader__Close(SEXP reader_sexp){
+BEGIN_CPP11
+	arrow::r::Input<const std::shared_ptr<arrow::RecordBatchReader>&>::type reader(reader_sexp);
+	RecordBatchReader__Close(reader);
+	return R_NilValue;
+END_CPP11
+}
+// recordbatchreader.cpp
+void RecordBatchReader__UnsafeDelete(const std::shared_ptr<arrow::RecordBatchReader>& reader);
+extern "C" SEXP _arrow_RecordBatchReader__UnsafeDelete(SEXP reader_sexp){
+BEGIN_CPP11
+	arrow::r::Input<const std::shared_ptr<arrow::RecordBatchReader>&>::type reader(reader_sexp);
+	RecordBatchReader__UnsafeDelete(reader);
+	return R_NilValue;
+END_CPP11
+}
+// recordbatchreader.cpp
 std::shared_ptr<arrow::RecordBatch> RecordBatchReader__ReadNext(const std::shared_ptr<arrow::RecordBatchReader>& reader);
 extern "C" SEXP _arrow_RecordBatchReader__ReadNext(SEXP reader_sexp){
 BEGIN_CPP11
@@ -4641,6 +4730,22 @@ BEGIN_CPP11
 END_CPP11
 }
 // safe-call-into-r-impl.cpp
+void DeinitializeMainRThread();
+extern "C" SEXP _arrow_DeinitializeMainRThread(){
+BEGIN_CPP11
+	DeinitializeMainRThread();
+	return R_NilValue;
+END_CPP11
+}
+// safe-call-into-r-impl.cpp
+bool SetEnableSignalStopSource(bool enabled);
+extern "C" SEXP _arrow_SetEnableSignalStopSource(SEXP enabled_sexp){
+BEGIN_CPP11
+	arrow::r::Input<bool>::type enabled(enabled_sexp);
+	return cpp11::as_sexp(SetEnableSignalStopSource(enabled));
+END_CPP11
+}
+// safe-call-into-r-impl.cpp
 bool CanRunWithCapturedR();
 extern "C" SEXP _arrow_CanRunWithCapturedR(){
 BEGIN_CPP11
@@ -4692,14 +4797,6 @@ BEGIN_CPP11
 END_CPP11
 }
 // scalar.cpp
-SEXP Scalar__as_vector(const std::shared_ptr<arrow::Scalar>& scalar);
-extern "C" SEXP _arrow_Scalar__as_vector(SEXP scalar_sexp){
-BEGIN_CPP11
-	arrow::r::Input<const std::shared_ptr<arrow::Scalar>&>::type scalar(scalar_sexp);
-	return cpp11::as_sexp(Scalar__as_vector(scalar));
-END_CPP11
-}
-// scalar.cpp
 std::shared_ptr<arrow::Array> MakeArrayFromScalar(const std::shared_ptr<arrow::Scalar>& scalar, int n);
 extern "C" SEXP _arrow_MakeArrayFromScalar(SEXP scalar_sexp, SEXP n_sexp){
 BEGIN_CPP11
@@ -4743,11 +4840,19 @@ BEGIN_CPP11
 END_CPP11
 }
 // schema.cpp
-std::shared_ptr<arrow::Schema> schema_(const std::vector<std::shared_ptr<arrow::Field>>& fields);
-extern "C" SEXP _arrow_schema_(SEXP fields_sexp){
+std::shared_ptr<arrow::Schema> Schema__from_fields(const std::vector<std::shared_ptr<arrow::Field>>& fields);
+extern "C" SEXP _arrow_Schema__from_fields(SEXP fields_sexp){
 BEGIN_CPP11
 	arrow::r::Input<const std::vector<std::shared_ptr<arrow::Field>>&>::type fields(fields_sexp);
-	return cpp11::as_sexp(schema_(fields));
+	return cpp11::as_sexp(Schema__from_fields(fields));
+END_CPP11
+}
+// schema.cpp
+std::shared_ptr<arrow::Schema> Schema__from_list(cpp11::list field_list);
+extern "C" SEXP _arrow_Schema__from_list(SEXP field_list_sexp){
+BEGIN_CPP11
+	arrow::r::Input<cpp11::list>::type field_list(field_list_sexp);
+	return cpp11::as_sexp(Schema__from_list(field_list));
 END_CPP11
 }
 // schema.cpp
@@ -5068,6 +5173,14 @@ BEGIN_CPP11
 END_CPP11
 }
 // table.cpp
+std::shared_ptr<arrow::Table> Table__from_schema(const std::shared_ptr<arrow::Schema>& schema);
+extern "C" SEXP _arrow_Table__from_schema(SEXP schema_sexp){
+BEGIN_CPP11
+	arrow::r::Input<const std::shared_ptr<arrow::Schema>&>::type schema(schema_sexp);
+	return cpp11::as_sexp(Table__from_schema(schema));
+END_CPP11
+}
+// table.cpp
 r_vec_size Table__ReferencedBufferSize(const std::shared_ptr<arrow::Table>& table);
 extern "C" SEXP _arrow_Table__ReferencedBufferSize(SEXP table_sexp){
 BEGIN_CPP11
@@ -5185,8 +5298,13 @@ static const R_CallMethodDef CallEntries[] = {
 		{ "_s3_available", (DL_FUNC)& _s3_available, 0 },
 		{ "_gcs_available", (DL_FUNC)& _gcs_available, 0 },
 		{ "_json_available", (DL_FUNC)& _json_available, 0 },
-		{ "_arrow_test_SET_STRING_ELT", (DL_FUNC) &_arrow_test_SET_STRING_ELT, 1}, 
 		{ "_arrow_is_arrow_altrep", (DL_FUNC) &_arrow_is_arrow_altrep, 1}, 
+		{ "_arrow_test_arrow_altrep_set_string_elt", (DL_FUNC) &_arrow_test_arrow_altrep_set_string_elt, 3}, 
+		{ "_arrow_test_arrow_altrep_is_materialized", (DL_FUNC) &_arrow_test_arrow_altrep_is_materialized, 1}, 
+		{ "_arrow_test_arrow_altrep_force_materialize", (DL_FUNC) &_arrow_test_arrow_altrep_force_materialize, 1}, 
+		{ "_arrow_test_arrow_altrep_copy_by_element", (DL_FUNC) &_arrow_test_arrow_altrep_copy_by_element, 1}, 
+		{ "_arrow_test_arrow_altrep_copy_by_region", (DL_FUNC) &_arrow_test_arrow_altrep_copy_by_region, 2}, 
+		{ "_arrow_test_arrow_altrep_copy_by_dataptr", (DL_FUNC) &_arrow_test_arrow_altrep_copy_by_dataptr, 1}, 
 		{ "_arrow_Array__Slice1", (DL_FUNC) &_arrow_Array__Slice1, 2}, 
 		{ "_arrow_Array__Slice2", (DL_FUNC) &_arrow_Array__Slice2, 3}, 
 		{ "_arrow_Array__IsNull", (DL_FUNC) &_arrow_Array__IsNull, 2}, 
@@ -5208,6 +5326,7 @@ static const R_CallMethodDef CallEntries[] = {
 		{ "_arrow_DictionaryArray__dictionary", (DL_FUNC) &_arrow_DictionaryArray__dictionary, 1}, 
 		{ "_arrow_StructArray__field", (DL_FUNC) &_arrow_StructArray__field, 2}, 
 		{ "_arrow_StructArray__GetFieldByName", (DL_FUNC) &_arrow_StructArray__GetFieldByName, 2}, 
+		{ "_arrow_StructArray__from_RecordBatch", (DL_FUNC) &_arrow_StructArray__from_RecordBatch, 1}, 
 		{ "_arrow_StructArray__Flatten", (DL_FUNC) &_arrow_StructArray__Flatten, 1}, 
 		{ "_arrow_ListArray__value_type", (DL_FUNC) &_arrow_ListArray__value_type, 1}, 
 		{ "_arrow_LargeListArray__value_type", (DL_FUNC) &_arrow_LargeListArray__value_type, 1}, 
@@ -5286,11 +5405,14 @@ static const R_CallMethodDef CallEntries[] = {
 		{ "_arrow_io___CompressedOutputStream__Make", (DL_FUNC) &_arrow_io___CompressedOutputStream__Make, 2}, 
 		{ "_arrow_io___CompressedInputStream__Make", (DL_FUNC) &_arrow_io___CompressedInputStream__Make, 2}, 
 		{ "_arrow_ExecPlan_create", (DL_FUNC) &_arrow_ExecPlan_create, 1}, 
+		{ "_arrow_ExecPlanReader__batches", (DL_FUNC) &_arrow_ExecPlanReader__batches, 1}, 
+		{ "_arrow_Table__from_ExecPlanReader", (DL_FUNC) &_arrow_Table__from_ExecPlanReader, 1}, 
+		{ "_arrow_ExecPlanReader__Plan", (DL_FUNC) &_arrow_ExecPlanReader__Plan, 1}, 
+		{ "_arrow_ExecPlanReader__PlanStatus", (DL_FUNC) &_arrow_ExecPlanReader__PlanStatus, 1}, 
 		{ "_arrow_ExecPlan_run", (DL_FUNC) &_arrow_ExecPlan_run, 5}, 
-		{ "_arrow_ExecPlan_read_table", (DL_FUNC) &_arrow_ExecPlan_read_table, 5}, 
-		{ "_arrow_ExecPlan_StopProducing", (DL_FUNC) &_arrow_ExecPlan_StopProducing, 1}, 
+		{ "_arrow_ExecPlan_ToString", (DL_FUNC) &_arrow_ExecPlan_ToString, 1}, 
+		{ "_arrow_ExecPlan_UnsafeDelete", (DL_FUNC) &_arrow_ExecPlan_UnsafeDelete, 1}, 
 		{ "_arrow_ExecNode_output_schema", (DL_FUNC) &_arrow_ExecNode_output_schema, 1}, 
-		{ "_arrow_ExecPlan_BuildAndShow", (DL_FUNC) &_arrow_ExecPlan_BuildAndShow, 4}, 
 		{ "_arrow_ExecNode_Scan", (DL_FUNC) &_arrow_ExecNode_Scan, 4}, 
 		{ "_arrow_ExecPlan_Write", (DL_FUNC) &_arrow_ExecPlan_Write, 14}, 
 		{ "_arrow_ExecNode_Filter", (DL_FUNC) &_arrow_ExecNode_Filter, 2}, 
@@ -5412,7 +5534,7 @@ static const R_CallMethodDef CallEntries[] = {
 		{ "_arrow_struct__", (DL_FUNC) &_arrow_struct__, 1}, 
 		{ "_arrow_DataType__ToString", (DL_FUNC) &_arrow_DataType__ToString, 1}, 
 		{ "_arrow_DataType__name", (DL_FUNC) &_arrow_DataType__name, 1}, 
-		{ "_arrow_DataType__Equals", (DL_FUNC) &_arrow_DataType__Equals, 2}, 
+		{ "_arrow_DataType__Equals", (DL_FUNC) &_arrow_DataType__Equals, 3}, 
 		{ "_arrow_DataType__num_fields", (DL_FUNC) &_arrow_DataType__num_fields, 1}, 
 		{ "_arrow_DataType__fields", (DL_FUNC) &_arrow_DataType__fields, 1}, 
 		{ "_arrow_DataType__id", (DL_FUNC) &_arrow_DataType__id, 1}, 
@@ -5508,7 +5630,7 @@ static const R_CallMethodDef CallEntries[] = {
 		{ "_arrow_fs___SubTreeFileSystem__base_path", (DL_FUNC) &_arrow_fs___SubTreeFileSystem__base_path, 1}, 
 		{ "_arrow_fs___FileSystemFromUri", (DL_FUNC) &_arrow_fs___FileSystemFromUri, 1}, 
 		{ "_arrow_fs___CopyFiles", (DL_FUNC) &_arrow_fs___CopyFiles, 6}, 
-		{ "_arrow_fs___S3FileSystem__create", (DL_FUNC) &_arrow_fs___S3FileSystem__create, 15}, 
+		{ "_arrow_fs___S3FileSystem__create", (DL_FUNC) &_arrow_fs___S3FileSystem__create, 17}, 
 		{ "_arrow_fs___S3FileSystem__region", (DL_FUNC) &_arrow_fs___S3FileSystem__region, 1}, 
 		{ "_arrow_fs___GcsFileSystem__Make", (DL_FUNC) &_arrow_fs___GcsFileSystem__Make, 2}, 
 		{ "_arrow_io___Readable__Read", (DL_FUNC) &_arrow_io___Readable__Read, 2}, 
@@ -5617,6 +5739,8 @@ static const R_CallMethodDef CallEntries[] = {
 		{ "_arrow_RecordBatch__from_arrays", (DL_FUNC) &_arrow_RecordBatch__from_arrays, 2}, 
 		{ "_arrow_RecordBatch__ReferencedBufferSize", (DL_FUNC) &_arrow_RecordBatch__ReferencedBufferSize, 1}, 
 		{ "_arrow_RecordBatchReader__schema", (DL_FUNC) &_arrow_RecordBatchReader__schema, 1}, 
+		{ "_arrow_RecordBatchReader__Close", (DL_FUNC) &_arrow_RecordBatchReader__Close, 1}, 
+		{ "_arrow_RecordBatchReader__UnsafeDelete", (DL_FUNC) &_arrow_RecordBatchReader__UnsafeDelete, 1}, 
 		{ "_arrow_RecordBatchReader__ReadNext", (DL_FUNC) &_arrow_RecordBatchReader__ReadNext, 1}, 
 		{ "_arrow_RecordBatchReader__batches", (DL_FUNC) &_arrow_RecordBatchReader__batches, 1}, 
 		{ "_arrow_RecordBatchReader__from_batches", (DL_FUNC) &_arrow_RecordBatchReader__from_batches, 2}, 
@@ -5637,19 +5761,21 @@ static const R_CallMethodDef CallEntries[] = {
 		{ "_arrow_ipc___RecordBatchFileWriter__Open", (DL_FUNC) &_arrow_ipc___RecordBatchFileWriter__Open, 4}, 
 		{ "_arrow_ipc___RecordBatchStreamWriter__Open", (DL_FUNC) &_arrow_ipc___RecordBatchStreamWriter__Open, 4}, 
 		{ "_arrow_InitializeMainRThread", (DL_FUNC) &_arrow_InitializeMainRThread, 0}, 
+		{ "_arrow_DeinitializeMainRThread", (DL_FUNC) &_arrow_DeinitializeMainRThread, 0}, 
+		{ "_arrow_SetEnableSignalStopSource", (DL_FUNC) &_arrow_SetEnableSignalStopSource, 1}, 
 		{ "_arrow_CanRunWithCapturedR", (DL_FUNC) &_arrow_CanRunWithCapturedR, 0}, 
 		{ "_arrow_TestSafeCallIntoR", (DL_FUNC) &_arrow_TestSafeCallIntoR, 2}, 
 		{ "_arrow_Array__GetScalar", (DL_FUNC) &_arrow_Array__GetScalar, 2}, 
 		{ "_arrow_Scalar__ToString", (DL_FUNC) &_arrow_Scalar__ToString, 1}, 
 		{ "_arrow_StructScalar__field", (DL_FUNC) &_arrow_StructScalar__field, 2}, 
 		{ "_arrow_StructScalar__GetFieldByName", (DL_FUNC) &_arrow_StructScalar__GetFieldByName, 2}, 
-		{ "_arrow_Scalar__as_vector", (DL_FUNC) &_arrow_Scalar__as_vector, 1}, 
 		{ "_arrow_MakeArrayFromScalar", (DL_FUNC) &_arrow_MakeArrayFromScalar, 2}, 
 		{ "_arrow_Scalar__is_valid", (DL_FUNC) &_arrow_Scalar__is_valid, 1}, 
 		{ "_arrow_Scalar__type", (DL_FUNC) &_arrow_Scalar__type, 1}, 
 		{ "_arrow_Scalar__Equals", (DL_FUNC) &_arrow_Scalar__Equals, 2}, 
 		{ "_arrow_Scalar__ApproxEquals", (DL_FUNC) &_arrow_Scalar__ApproxEquals, 2}, 
-		{ "_arrow_schema_", (DL_FUNC) &_arrow_schema_, 1}, 
+		{ "_arrow_Schema__from_fields", (DL_FUNC) &_arrow_Schema__from_fields, 1}, 
+		{ "_arrow_Schema__from_list", (DL_FUNC) &_arrow_Schema__from_list, 1}, 
 		{ "_arrow_Schema__ToString", (DL_FUNC) &_arrow_Schema__ToString, 1}, 
 		{ "_arrow_Schema__num_fields", (DL_FUNC) &_arrow_Schema__num_fields, 1}, 
 		{ "_arrow_Schema__field", (DL_FUNC) &_arrow_Schema__field, 2}, 
@@ -5686,6 +5812,7 @@ static const R_CallMethodDef CallEntries[] = {
 		{ "_arrow_Table__SelectColumns", (DL_FUNC) &_arrow_Table__SelectColumns, 2}, 
 		{ "_arrow_all_record_batches", (DL_FUNC) &_arrow_all_record_batches, 1}, 
 		{ "_arrow_Table__from_record_batches", (DL_FUNC) &_arrow_Table__from_record_batches, 2}, 
+		{ "_arrow_Table__from_schema", (DL_FUNC) &_arrow_Table__from_schema, 1}, 
 		{ "_arrow_Table__ReferencedBufferSize", (DL_FUNC) &_arrow_Table__ReferencedBufferSize, 1}, 
 		{ "_arrow_Table__ConcatenateTables", (DL_FUNC) &_arrow_Table__ConcatenateTables, 2}, 
 		{ "_arrow_GetCpuThreadPoolCapacity", (DL_FUNC) &_arrow_GetCpuThreadPoolCapacity, 0}, 
diff --git a/r/src/arrow_cpp11.h b/r/src/arrow_cpp11.h
index 123875325c6..d8c4b719d1d 100644
--- a/r/src/arrow_cpp11.h
+++ b/r/src/arrow_cpp11.h
@@ -209,7 +209,13 @@ Pointer r6_to_pointer(SEXP self) {
         cpp11::decay_t<typename std::remove_pointer<Pointer>::type>>();
     cpp11::stop("Invalid R object for %s, must be an ArrowObject", type_name.c_str());
   }
-  void* p = R_ExternalPtrAddr(Rf_findVarInFrame(self, arrow::r::symbols::xp));
+
+  SEXP xp = Rf_findVarInFrame(self, arrow::r::symbols::xp);
+  if (xp == R_NilValue) {
+    cpp11::stop("Invalid: self$`.:xp:.` is NULL");
+  }
+
+  void* p = R_ExternalPtrAddr(xp);
   if (p == nullptr) {
     SEXP klass = Rf_getAttrib(self, R_ClassSymbol);
     cpp11::stop("Invalid <%s>, external pointer to null", CHAR(STRING_ELT(klass, 0)));
@@ -344,6 +350,26 @@ std::vector<T> from_r_list(cpp11::list args) {
 
 bool GetBoolOption(const std::string& name, bool default_);
 
+// A version of vctrs::vec_size() limited to the types that are
+// supported at the C++ level. We currently handle record-style
+// vectors (e.g., POSIXlt) at the R level such that by the time
+// they get to C++ they are just a data.frame. This version also
+// supports long vectors.
+static inline R_xlen_t vec_size(SEXP x) {
+  if (Rf_inherits(x, "data.frame")) {
+    if (Rf_length(x) > 0) {
+      return Rf_xlength(VECTOR_ELT(x, 0));
+    } else {
+      // This will expand the rownames if attr(x, "row.names") is ALTREP;
+      // however, this is probably not an important performance consideration
+      // since zero-column data.frames do not occur in many workflows.
+      return Rf_xlength(Rf_getAttrib(x, R_RowNamesSymbol));
+    }
+  } else {
+    return Rf_xlength(x);
+  }
+}
+
 }  // namespace r
 }  // namespace arrow
 
diff --git a/r/src/arrow_types.h b/r/src/arrow_types.h
index d9fee37e7f1..49283bd224c 100644
--- a/r/src/arrow_types.h
+++ b/r/src/arrow_types.h
@@ -38,6 +38,8 @@
 #include <arrow/dataset/type_fwd.h>
 #endif
 
+#include <arrow/compute/exec/options.h>
+
 #include <arrow/filesystem/type_fwd.h>
 #include <arrow/io/type_fwd.h>
 #include <arrow/ipc/type_fwd.h>
@@ -58,6 +60,8 @@ class ExecNode;
 }  // namespace compute
 }  // namespace arrow
 
+class ExecPlanReader;
+
 #if defined(ARROW_R_WITH_PARQUET)
 #include <parquet/type_fwd.h>
 #endif
@@ -92,8 +96,8 @@ class UnwindProtectDetail : public StatusDetail {
   virtual std::string ToString() const { return "R code execution error"; }
 };
 
-static inline Status StatusUnwindProtect(SEXP token) {
-  return Status::Invalid("R code execution error")
+static inline Status StatusUnwindProtect(SEXP token, std::string reason = "") {
+  return Status::Invalid("R code execution error (", reason, ")")
       .WithDetail(std::make_shared<UnwindProtectDetail>(token));
 }
 
@@ -105,9 +109,14 @@ static inline void StopIfNotOk(const Status& status) {
     if (unwind_detail) {
       throw cpp11::unwind_exception(unwind_detail->token);
     } else {
-      // ARROW-13039: be careful not to interpret our error message as a %-format string
+      // We need to translate this to "native" encoding for the error to be
+      // displayed properly using cpp11::stop()
       std::string s = status.ToString();
-      cpp11::stop("%s", s.c_str());
+      cpp11::strings s_utf8 = cpp11::as_sexp(s);
+      const char* s_native = cpp11::safe[Rf_translateChar](s_utf8[0]);
+
+      // ARROW-13039: be careful not to interpret our error message as a %-format string
+      cpp11::stop("%s", s_native);
     }
   }
 }
diff --git a/r/src/compute-exec.cpp b/r/src/compute-exec.cpp
index 91d646f0a3c..64ea6f5b5ef 100644
--- a/r/src/compute-exec.cpp
+++ b/r/src/compute-exec.cpp
@@ -18,17 +18,17 @@
 #include "./arrow_types.h"
 #include "./safe-call-into-r.h"
 
+#include <arrow/buffer.h>
 #include <arrow/compute/api.h>
 #include <arrow/compute/exec/exec_plan.h>
 #include <arrow/compute/exec/expression.h>
-#include <arrow/compute/exec/options.h>
 #include <arrow/table.h>
 #include <arrow/util/async_generator.h>
 #include <arrow/util/future.h>
-#include <arrow/util/optional.h>
 #include <arrow/util/thread_pool.h>
 
 #include <iostream>
+#include <optional>
 
 namespace compute = ::arrow::compute;
 
@@ -41,6 +41,9 @@ std::shared_ptr<arrow::KeyValueMetadata> strings_to_kvm(cpp11::strings metadata)
 std::shared_ptr<compute::ExecPlan> ExecPlan_create(bool use_threads) {
   static compute::ExecContext threaded_context{gc_memory_pool(),
                                                arrow::internal::GetCpuThreadPool()};
+  // TODO(weston) using gc_context() in this way is deprecated.  Once ordering has
+  // been added we can probably entirely remove all reference to ExecPlan from R
+  // in favor of DeclarationToXyz
   auto plan = ValueOrStop(
       compute::ExecPlan::Make(use_threads ? &threaded_context : gc_context()));
   return plan;
@@ -56,121 +59,171 @@ std::shared_ptr<compute::ExecNode> MakeExecNodeOrStop(
       });
 }
 
-std::pair<std::shared_ptr<compute::ExecPlan>, std::shared_ptr<arrow::RecordBatchReader>>
-ExecPlan_prepare(const std::shared_ptr<compute::ExecPlan>& plan,
-                 const std::shared_ptr<compute::ExecNode>& final_node,
-                 cpp11::list sort_options, cpp11::strings metadata, int64_t head = -1) {
-  // a section of this code is copied and used in ExecPlan_BuildAndShow - the 2 need
-  // to be in sync
-  // Start of chunk used in ExecPlan_BuildAndShow
+// This class is a special RecordBatchReader that holds a reference to the
+// underlying exec plan so that (1) it can request that the ExecPlan *stop*
+// producing when this object is deleted and (2) it can defer requesting
+// the ExecPlan to *start* producing until the first batch has been pulled.
+// This allows it to be transformed (e.g., using map_batches() or head())
+// and queried (i.e., used as input to another ExecPlan), at the R level
+// while maintaining the ability for the entire plan to be executed at once
+// (e.g., to support user-defined functions) or never executed at all (e.g.,
+// to support printing a nested ExecPlan without having to execute it).
+class ExecPlanReader : public arrow::RecordBatchReader {
+ public:
+  enum ExecPlanReaderStatus { PLAN_NOT_STARTED, PLAN_RUNNING, PLAN_FINISHED };
+
+  ExecPlanReader(const std::shared_ptr<arrow::compute::ExecPlan>& plan,
+                 const std::shared_ptr<arrow::Schema>& schema,
+                 arrow::AsyncGenerator<std::optional<compute::ExecBatch>> sink_gen)
+      : schema_(schema),
+        plan_(plan),
+        sink_gen_(sink_gen),
+        plan_status_(PLAN_NOT_STARTED),
+        stop_token_(MainRThread::GetInstance().GetStopToken()) {}
+
+  std::string PlanStatus() const {
+    switch (plan_status_) {
+      case PLAN_NOT_STARTED:
+        return "PLAN_NOT_STARTED";
+      case PLAN_RUNNING:
+        return "PLAN_RUNNING";
+      case PLAN_FINISHED:
+        return "PLAN_FINISHED";
+      default:
+        return "UNKNOWN";
+    }
+  }
 
-  // For now, don't require R to construct SinkNodes.
-  // Instead, just pass the node we should collect as an argument.
-  arrow::AsyncGenerator<arrow::util::optional<compute::ExecBatch>> sink_gen;
+  std::shared_ptr<arrow::Schema> schema() const override { return schema_; }
 
-  // Sorting uses a different sink node; there is no general sort yet
-  if (sort_options.size() > 0) {
-    if (head >= 0) {
-      // Use the SelectK node to take only what we need
-      MakeExecNodeOrStop(
-          "select_k_sink", plan.get(), {final_node.get()},
-          compute::SelectKSinkNodeOptions{
-              arrow::compute::SelectKOptions(
-                  head, std::dynamic_pointer_cast<compute::SortOptions>(
-                            make_compute_options("sort_indices", sort_options))
-                            ->sort_keys),
-              &sink_gen});
+  arrow::Status ReadNext(std::shared_ptr<arrow::RecordBatch>* batch_out) override {
+    // If this is the first batch getting pulled, tell the exec plan to
+    // start producing
+    if (plan_status_ == PLAN_NOT_STARTED) {
+      ARROW_RETURN_NOT_OK(StartProducing());
+    }
+
+    // If we've closed the reader, keep sending nullptr
+    // (consistent with what most RecordBatchReader subclasses do)
+    if (plan_status_ == PLAN_FINISHED) {
+      batch_out->reset();
+      return arrow::Status::OK();
+    }
+
+    // Check for cancellation and stop the plan if we have a request. When
+    // the ExecPlan supports passing a StopToken and handling this itself,
+    // this will be redundant.
+    if (stop_token_.IsStopRequested()) {
+      StopProducing();
+      return stop_token_.Poll();
+    }
+
+    auto out = sink_gen_().result();
+    if (!out.ok()) {
+      StopProducing();
+      return out.status();
+    }
+
+    if (out.ValueUnsafe()) {
+      auto batch_result = out.ValueUnsafe()->ToRecordBatch(schema_, gc_memory_pool());
+      if (!batch_result.ok()) {
+        StopProducing();
+        return batch_result.status();
+      }
+
+      *batch_out = batch_result.ValueUnsafe();
     } else {
-      MakeExecNodeOrStop("order_by_sink", plan.get(), {final_node.get()},
-                         compute::OrderBySinkNodeOptions{
-                             *std::dynamic_pointer_cast<compute::SortOptions>(
-                                 make_compute_options("sort_indices", sort_options)),
-                             &sink_gen});
+      batch_out->reset();
+      StopProducing();
     }
-  } else {
-    MakeExecNodeOrStop("sink", plan.get(), {final_node.get()},
-                       compute::SinkNodeOptions{&sink_gen});
-  }
 
-  // End of chunk used in ExecPlan_BuildAndShow
+    return arrow::Status::OK();
+  }
 
-  StopIfNotOk(plan->Validate());
+  arrow::Status Close() override {
+    StopProducing();
+    return arrow::Status::OK();
+  }
 
-  // If the generator is destroyed before being completely drained, inform plan
-  std::shared_ptr<void> stop_producing{nullptr, [plan](...) {
-                                         bool not_finished_yet =
-                                             plan->finished().TryAddCallback([&plan] {
-                                               return [plan](const arrow::Status&) {};
-                                             });
+  const std::shared_ptr<arrow::compute::ExecPlan>& Plan() const { return plan_; }
 
-                                         if (not_finished_yet) {
-                                           plan->StopProducing();
-                                         }
-                                       }};
+  ~ExecPlanReader() { StopProducing(); }
 
-  // Attach metadata to the schema
-  auto out_schema = final_node->output_schema();
-  if (metadata.size() > 0) {
-    auto kv = strings_to_kvm(metadata);
-    out_schema = out_schema->WithMetadata(kv);
+ private:
+  std::shared_ptr<arrow::Schema> schema_;
+  std::shared_ptr<arrow::compute::ExecPlan> plan_;
+  arrow::AsyncGenerator<std::optional<compute::ExecBatch>> sink_gen_;
+  ExecPlanReaderStatus plan_status_;
+  arrow::StopToken stop_token_;
+
+  arrow::Status StartProducing() {
+    ARROW_RETURN_NOT_OK(plan_->StartProducing());
+    plan_status_ = PLAN_RUNNING;
+    return arrow::Status::OK();
   }
 
-  std::pair<std::shared_ptr<compute::ExecPlan>, std::shared_ptr<arrow::RecordBatchReader>>
-      out;
-  out.first = plan;
-  out.second = compute::MakeGeneratorReader(
-      out_schema, [stop_producing, plan, sink_gen] { return sink_gen(); },
-      gc_memory_pool());
-  return out;
-}
+  void StopProducing() {
+    if (plan_status_ == PLAN_RUNNING) {
+      // We're done with the plan, but it may still need some time
+      // to finish and clean up after itself. To do this, we give a
+      // callable with its own copy of the shared_ptr<ExecPlan> so
+      // that it can delete itself when it is safe to do so.
+      std::shared_ptr<arrow::compute::ExecPlan> plan(plan_);
+      bool not_finished_yet = plan_->finished().TryAddCallback(
+          [&plan] { return [plan](const arrow::Status&) {}; });
+
+      if (not_finished_yet) {
+        plan_->StopProducing();
+      }
+    }
+
+    plan_status_ = PLAN_FINISHED;
+    // A previous version of this called plan_.reset() and reset
+    // sink_gen_ to an empty generator; however, this caused
+    // crashes on some platforms.
+  }
+};
 
 // [[arrow::export]]
-std::shared_ptr<arrow::RecordBatchReader> ExecPlan_run(
-    const std::shared_ptr<compute::ExecPlan>& plan,
-    const std::shared_ptr<compute::ExecNode>& final_node, cpp11::list sort_options,
-    cpp11::strings metadata, int64_t head = -1) {
-  auto prepared_plan = ExecPlan_prepare(plan, final_node, sort_options, metadata, head);
-  StopIfNotOk(prepared_plan.first->StartProducing());
-  return prepared_plan.second;
+cpp11::list ExecPlanReader__batches(
+    const std::shared_ptr<arrow::RecordBatchReader>& reader) {
+  auto result = RunWithCapturedRIfPossible<arrow::RecordBatchVector>(
+      [&]() { return reader->ToRecordBatches(); });
+  return arrow::r::to_r_list(ValueOrStop(result));
 }
 
 // [[arrow::export]]
-std::shared_ptr<arrow::Table> ExecPlan_read_table(
-    const std::shared_ptr<compute::ExecPlan>& plan,
-    const std::shared_ptr<compute::ExecNode>& final_node, cpp11::list sort_options,
-    cpp11::strings metadata, int64_t head = -1) {
-  auto prepared_plan = ExecPlan_prepare(plan, final_node, sort_options, metadata, head);
-
+std::shared_ptr<arrow::Table> Table__from_ExecPlanReader(
+    const std::shared_ptr<arrow::RecordBatchReader>& reader) {
   auto result = RunWithCapturedRIfPossible<std::shared_ptr<arrow::Table>>(
-      [&]() -> arrow::Result<std::shared_ptr<arrow::Table>> {
-        ARROW_RETURN_NOT_OK(prepared_plan.first->StartProducing());
-        return prepared_plan.second->ToTable();
-      });
+      [&]() { return reader->ToTable(); });
 
   return ValueOrStop(result);
 }
 
 // [[arrow::export]]
-void ExecPlan_StopProducing(const std::shared_ptr<compute::ExecPlan>& plan) {
-  plan->StopProducing();
+std::shared_ptr<compute::ExecPlan> ExecPlanReader__Plan(
+    const std::shared_ptr<ExecPlanReader>& reader) {
+  if (reader->PlanStatus() == "PLAN_FINISHED") {
+    cpp11::stop("Can't extract ExecPlan from a finished ExecPlanReader");
+  }
+
+  return reader->Plan();
 }
 
 // [[arrow::export]]
-std::shared_ptr<arrow::Schema> ExecNode_output_schema(
-    const std::shared_ptr<compute::ExecNode>& node) {
-  return node->output_schema();
+std::string ExecPlanReader__PlanStatus(const std::shared_ptr<ExecPlanReader>& reader) {
+  return reader->PlanStatus();
 }
 
 // [[arrow::export]]
-std::string ExecPlan_BuildAndShow(const std::shared_ptr<compute::ExecPlan>& plan,
-                                  const std::shared_ptr<compute::ExecNode>& final_node,
-                                  cpp11::list sort_options, int64_t head = -1) {
-  // a section of this code is copied from ExecPlan_prepare - the 2 need to be in sync
-  // Start of chunk copied from ExecPlan_prepare
-
+std::shared_ptr<ExecPlanReader> ExecPlan_run(
+    const std::shared_ptr<compute::ExecPlan>& plan,
+    const std::shared_ptr<compute::ExecNode>& final_node, cpp11::list sort_options,
+    cpp11::strings metadata, int64_t head = -1) {
   // For now, don't require R to construct SinkNodes.
   // Instead, just pass the node we should collect as an argument.
-  arrow::AsyncGenerator<arrow::util::optional<compute::ExecBatch>> sink_gen;
+  arrow::AsyncGenerator<std::optional<compute::ExecBatch>> sink_gen;
 
   // Sorting uses a different sink node; there is no general sort yet
   if (sort_options.size() > 0) {
@@ -196,11 +249,35 @@ std::string ExecPlan_BuildAndShow(const std::shared_ptr<compute::ExecPlan>& plan
                        compute::SinkNodeOptions{&sink_gen});
   }
 
-  // End of chunk copied from ExecPlan_prepare
+  StopIfNotOk(plan->Validate());
+
+  // Attach metadata to the schema
+  auto out_schema = final_node->output_schema();
+  if (metadata.size() > 0) {
+    auto kv = strings_to_kvm(metadata);
+    out_schema = out_schema->WithMetadata(kv);
+  }
+
+  return std::make_shared<ExecPlanReader>(plan, out_schema, sink_gen);
+}
 
+// [[arrow::export]]
+std::string ExecPlan_ToString(const std::shared_ptr<compute::ExecPlan>& plan) {
   return plan->ToString();
 }
 
+// [[arrow::export]]
+void ExecPlan_UnsafeDelete(const std::shared_ptr<compute::ExecPlan>& plan) {
+  auto& plan_unsafe = const_cast<std::shared_ptr<compute::ExecPlan>&>(plan);
+  plan_unsafe.reset();
+}
+
+// [[arrow::export]]
+std::shared_ptr<arrow::Schema> ExecNode_output_schema(
+    const std::shared_ptr<compute::ExecNode>& node) {
+  return node->output_schema();
+}
+
 #if defined(ARROW_R_WITH_DATASET)
 
 #include <arrow/dataset/file_base.h>
@@ -222,8 +299,7 @@ std::shared_ptr<compute::ExecNode> ExecNode_Scan(
 
   options->dataset_schema = dataset->schema();
 
-  // ScanNode needs the filter to do predicate pushdown and skip partitions
-  options->filter = ValueOrStop(filter->Bind(*dataset->schema()));
+  options->filter = *filter;
 
   // ScanNode needs to know which fields to materialize (and which are unnecessary)
   std::vector<compute::Expression> exprs;
@@ -232,9 +308,8 @@ std::shared_ptr<compute::ExecNode> ExecNode_Scan(
   }
 
   options->projection =
-      ValueOrStop(call("make_struct", std::move(exprs),
-                       compute::MakeStructOptions{std::move(materialized_field_names)})
-                      .Bind(*dataset->schema()));
+      call("make_struct", std::move(exprs),
+           compute::MakeStructOptions{std::move(materialized_field_names)});
 
   return MakeExecNodeOrStop("scan", plan.get(), {},
                             ds::ScanNodeOptions{dataset, options});
@@ -334,7 +409,7 @@ std::shared_ptr<compute::ExecNode> ExecNode_Aggregate(
 
 // [[arrow::export]]
 std::shared_ptr<compute::ExecNode> ExecNode_Join(
-    const std::shared_ptr<compute::ExecNode>& input, int type,
+    const std::shared_ptr<compute::ExecNode>& input, compute::JoinType join_type,
     const std::shared_ptr<compute::ExecNode>& right_data,
     std::vector<std::string> left_keys, std::vector<std::string> right_keys,
     std::vector<std::string> left_output, std::vector<std::string> right_output,
@@ -349,37 +424,16 @@ std::shared_ptr<compute::ExecNode> ExecNode_Join(
   for (auto&& name : left_output) {
     left_out_refs.emplace_back(std::move(name));
   }
-  if (type != 0 && type != 2) {
+  // dplyr::semi_join => LEFT_SEMI; dplyr::anti_join => LEFT_ANTI
+  // So ignoring RIGHT_SEMI and RIGHT_ANTI here because dplyr doesn't implement them.
+  if (join_type != compute::JoinType::LEFT_SEMI &&
+      join_type != compute::JoinType::LEFT_ANTI) {
     // Don't include out_refs in semi/anti join
     for (auto&& name : right_output) {
       right_out_refs.emplace_back(std::move(name));
     }
   }
 
-  // TODO: we should be able to use this enum directly
-  compute::JoinType join_type;
-  if (type == 0) {
-    join_type = compute::JoinType::LEFT_SEMI;
-  } else if (type == 1) {
-    // Not readily called from R bc dplyr::semi_join is LEFT_SEMI
-    join_type = compute::JoinType::RIGHT_SEMI;
-  } else if (type == 2) {
-    join_type = compute::JoinType::LEFT_ANTI;
-  } else if (type == 3) {
-    // Not readily called from R bc dplyr::semi_join is LEFT_SEMI
-    join_type = compute::JoinType::RIGHT_ANTI;
-  } else if (type == 4) {
-    join_type = compute::JoinType::INNER;
-  } else if (type == 5) {
-    join_type = compute::JoinType::LEFT_OUTER;
-  } else if (type == 6) {
-    join_type = compute::JoinType::RIGHT_OUTER;
-  } else if (type == 7) {
-    join_type = compute::JoinType::FULL_OUTER;
-  } else {
-    cpp11::stop("todo");
-  }
-
   return MakeExecNodeOrStop(
       "hashjoin", input->plan(), {input.get(), right_data.get()},
       compute::HashJoinNodeOptions{
@@ -399,12 +453,8 @@ std::shared_ptr<compute::ExecNode> ExecNode_Union(
 std::shared_ptr<compute::ExecNode> ExecNode_SourceNode(
     const std::shared_ptr<compute::ExecPlan>& plan,
     const std::shared_ptr<arrow::RecordBatchReader>& reader) {
-  arrow::compute::SourceNodeOptions options{
-      /*output_schema=*/reader->schema(),
-      /*generator=*/ValueOrStop(
-          compute::MakeReaderGenerator(reader, arrow::internal::GetCpuThreadPool()))};
-
-  return MakeExecNodeOrStop("source", plan.get(), {}, options);
+  arrow::compute::RecordBatchReaderSourceNodeOptions options{reader};
+  return MakeExecNodeOrStop("record_batch_reader_source", plan.get(), {}, options);
 }
 
 // [[arrow::export]]
@@ -429,7 +479,8 @@ class AccumulatingConsumer : public compute::SinkNodeConsumer {
   const std::vector<std::shared_ptr<arrow::RecordBatch>>& batches() { return batches_; }
 
   arrow::Status Init(const std::shared_ptr<arrow::Schema>& schema,
-                     compute::BackpressureControl* backpressure_control) override {
+                     compute::BackpressureControl* backpressure_control,
+                     compute::ExecPlan* exec_plan) override {
     schema_ = schema;
     return arrow::Status::OK();
   }
diff --git a/r/src/compute.cpp b/r/src/compute.cpp
index 1ed949e7295..b4b4c5fdc8d 100644
--- a/r/src/compute.cpp
+++ b/r/src/compute.cpp
@@ -449,7 +449,7 @@ std::shared_ptr<arrow::compute::FunctionOptions> make_compute_options(
     return std::make_shared<Options>(cpp11::as_cpp<std::string>(options["characters"]));
   }
 
-  if (func_name == "utf8_slice_codeunits") {
+  if (func_name == "utf8_slice_codeunits" || func_name == "binary_slice") {
     using Options = arrow::compute::SliceOptions;
 
     int64_t step = 1;
@@ -611,8 +611,8 @@ class RScalarUDFKernelState : public arrow::compute::KernelState {
   RScalarUDFKernelState(cpp11::sexp exec_func, cpp11::sexp resolver)
       : exec_func_(exec_func), resolver_(resolver) {}
 
-  cpp11::function exec_func_;
-  cpp11::function resolver_;
+  cpp11::sexp exec_func_;
+  cpp11::sexp resolver_;
 };
 
 arrow::Result<arrow::TypeHolder> ResolveScalarUDFOutputType(
@@ -630,7 +630,8 @@ arrow::Result<arrow::TypeHolder> ResolveScalarUDFOutputType(
               cpp11::to_r6<arrow::DataType>(input_types[i].GetSharedPtr());
         }
 
-        cpp11::sexp output_type_sexp = state->resolver_(input_types_sexp);
+        cpp11::sexp output_type_sexp =
+            cpp11::function(state->resolver_)(input_types_sexp);
         if (!Rf_inherits(output_type_sexp, "DataType")) {
           cpp11::stop(
               "Function specified as arrow_scalar_function() out_type argument must "
@@ -674,7 +675,8 @@ arrow::Status CallRScalarUDF(arrow::compute::KernelContext* context,
         cpp11::writable::list udf_context = {batch_length_sexp, output_type_sexp};
         udf_context.names() = {"batch_length", "output_type"};
 
-        cpp11::sexp func_result_sexp = state->exec_func_(udf_context, args_sexp);
+        cpp11::sexp func_result_sexp =
+            cpp11::function(state->exec_func_)(udf_context, args_sexp);
 
         if (Rf_inherits(func_result_sexp, "Array")) {
           auto array = cpp11::as_cpp<std::shared_ptr<arrow::Array>>(func_result_sexp);
diff --git a/r/src/config.cpp b/r/src/config.cpp
index 1d322205b5d..a45df73a64a 100644
--- a/r/src/config.cpp
+++ b/r/src/config.cpp
@@ -17,8 +17,9 @@
 
 #include "./arrow_types.h"
 
+#include <optional>
+
 #include <arrow/config.h>
-#include <arrow/util/optional.h>
 
 // [[arrow::export]]
 std::vector<std::string> build_info() {
@@ -41,6 +42,6 @@ void set_timezone_database(cpp11::strings path) {
   }
 
   arrow::GlobalOptions options;
-  options.timezone_db_path = arrow::util::make_optional(paths[0]);
+  options.timezone_db_path = std::make_optional(paths[0]);
   arrow::StopIfNotOk(arrow::Initialize(options));
 }
diff --git a/r/src/csv.cpp b/r/src/csv.cpp
index 7ce55feb5fe..3f880cae16e 100644
--- a/r/src/csv.cpp
+++ b/r/src/csv.cpp
@@ -31,7 +31,8 @@ std::shared_ptr<arrow::csv::WriteOptions> csv___WriteOptions__initialize(
       std::make_shared<arrow::csv::WriteOptions>(arrow::csv::WriteOptions::Defaults());
   res->include_header = cpp11::as_cpp<bool>(options["include_header"]);
   res->batch_size = cpp11::as_cpp<int>(options["batch_size"]);
-  res->io_context = arrow::io::IOContext(gc_memory_pool());
+  res->io_context = MainRThread::GetInstance().CancellableIOContext();
+  res->null_string = cpp11::as_cpp<std::string>(options["null_string"]);
   return res;
 }
 
@@ -154,9 +155,9 @@ std::shared_ptr<arrow::csv::TableReader> csv___TableReader__Make(
     const std::shared_ptr<arrow::csv::ReadOptions>& read_options,
     const std::shared_ptr<arrow::csv::ParseOptions>& parse_options,
     const std::shared_ptr<arrow::csv::ConvertOptions>& convert_options) {
-  return ValueOrStop(arrow::csv::TableReader::Make(arrow::io::IOContext(gc_memory_pool()),
-                                                   input, *read_options, *parse_options,
-                                                   *convert_options));
+  return ValueOrStop(arrow::csv::TableReader::Make(
+      MainRThread::GetInstance().CancellableIOContext(), input, *read_options,
+      *parse_options, *convert_options));
 }
 
 // [[arrow::export]]
diff --git a/r/src/datatype.cpp b/r/src/datatype.cpp
index dc8d3b18926..f19ba925271 100644
--- a/r/src/datatype.cpp
+++ b/r/src/datatype.cpp
@@ -327,8 +327,8 @@ std::string DataType__name(const std::shared_ptr<arrow::DataType>& type) {
 
 // [[arrow::export]]
 bool DataType__Equals(const std::shared_ptr<arrow::DataType>& lhs,
-                      const std::shared_ptr<arrow::DataType>& rhs) {
-  return lhs->Equals(*rhs);
+                      const std::shared_ptr<arrow::DataType>& rhs, bool check_metadata) {
+  return lhs->Equals(*rhs, check_metadata);
 }
 
 // [[arrow::export]]
diff --git a/r/src/extension-impl.cpp b/r/src/extension-impl.cpp
index e6efcf36479..a13b252b283 100644
--- a/r/src/extension-impl.cpp
+++ b/r/src/extension-impl.cpp
@@ -80,7 +80,7 @@ arrow::Result<std::shared_ptr<arrow::DataType>> RExtensionType::Deserialize(
   // an event loop from wherever this *might* be called is high and hard to
   // predict. As a compromise, just create the instance when it is safe to
   // do so.
-  if (GetMainRThread().IsMainThread()) {
+  if (MainRThread::GetInstance().IsMainThread()) {
     r6_instance();
   }
 
diff --git a/r/src/filesystem.cpp b/r/src/filesystem.cpp
index f6c5499bd3d..2875cbd429c 100644
--- a/r/src/filesystem.cpp
+++ b/r/src/filesystem.cpp
@@ -16,6 +16,7 @@
 // under the License.
 
 #include "./arrow_types.h"
+#include "./safe-call-into-r.h"
 
 #include <arrow/filesystem/filesystem.h>
 #include <arrow/filesystem/localfs.h>
@@ -239,7 +240,7 @@ std::string fs___FileSystem__type_name(
 // [[arrow::export]]
 std::shared_ptr<fs::LocalFileSystem> fs___LocalFileSystem__create() {
   // Affects OpenInputFile/OpenInputStream
-  auto io_context = arrow::io::IOContext(gc_memory_pool());
+  auto io_context = MainRThread::GetInstance().CancellableIOContext();
   return std::make_shared<fs::LocalFileSystem>(io_context);
 }
 
@@ -292,7 +293,8 @@ std::shared_ptr<fs::S3FileSystem> fs___S3FileSystem__create(
     std::string session_name = "", std::string external_id = "", int load_frequency = 900,
     std::string region = "", std::string endpoint_override = "", std::string scheme = "",
     std::string proxy_options = "", bool background_writes = true,
-    bool allow_bucket_creation = false, bool allow_bucket_deletion = false) {
+    bool allow_bucket_creation = false, bool allow_bucket_deletion = false,
+    double connect_timeout = -1, double request_timeout = -1) {
   // We need to ensure that S3 is initialized before we start messing with the
   // options
   StopIfNotOk(fs::EnsureS3Initialized());
@@ -334,7 +336,10 @@ std::shared_ptr<fs::S3FileSystem> fs___S3FileSystem__create(
   s3_opts.allow_bucket_creation = allow_bucket_creation;
   s3_opts.allow_bucket_deletion = allow_bucket_deletion;
 
-  auto io_context = arrow::io::IOContext(gc_memory_pool());
+  s3_opts.request_timeout = request_timeout;
+  s3_opts.connect_timeout = connect_timeout;
+
+  auto io_context = MainRThread::GetInstance().CancellableIOContext();
   return ValueOrStop(fs::S3FileSystem::Make(s3_opts, io_context));
 }
 
@@ -412,7 +417,7 @@ std::shared_ptr<fs::GcsFileSystem> fs___GcsFileSystem__Make(bool anonymous,
     gcs_opts.default_metadata = strings_to_kvm(options["default_metadata"]);
   }
 
-  auto io_context = arrow::io::IOContext(gc_memory_pool());
+  auto io_context = MainRThread::GetInstance().CancellableIOContext();
   // TODO(ARROW-16884): update when this returns Result
   return fs::GcsFileSystem::Make(gcs_opts, io_context);
 }
diff --git a/r/src/memorypool.cpp b/r/src/memorypool.cpp
index 2069e069e02..7c3deec98fc 100644
--- a/r/src/memorypool.cpp
+++ b/r/src/memorypool.cpp
@@ -23,15 +23,23 @@ class GcMemoryPool : public arrow::MemoryPool {
  public:
   GcMemoryPool() : pool_(arrow::default_memory_pool()) {}
 
-  arrow::Status Allocate(int64_t size, uint8_t** out) override {
-    return GcAndTryAgain([&] { return pool_->Allocate(size, out); });
+  using MemoryPool::Allocate;
+  using MemoryPool::Free;
+  using MemoryPool::Reallocate;
+
+  arrow::Status Allocate(int64_t size, int64_t alignment, uint8_t** out) override {
+    return GcAndTryAgain([&] { return pool_->Allocate(size, alignment, out); });
   }
 
-  arrow::Status Reallocate(int64_t old_size, int64_t new_size, uint8_t** ptr) override {
-    return GcAndTryAgain([&] { return pool_->Reallocate(old_size, new_size, ptr); });
+  arrow::Status Reallocate(int64_t old_size, int64_t new_size, int64_t alignment,
+                           uint8_t** ptr) override {
+    return GcAndTryAgain(
+        [&] { return pool_->Reallocate(old_size, new_size, alignment, ptr); });
   }
 
-  void Free(uint8_t* buffer, int64_t size) override { pool_->Free(buffer, size); }
+  void Free(uint8_t* buffer, int64_t size, int64_t alignment) override {
+    pool_->Free(buffer, size, alignment);
+  }
 
   int64_t bytes_allocated() const override { return pool_->bytes_allocated(); }
 
diff --git a/r/src/parquet.cpp b/r/src/parquet.cpp
index d92650252c8..3a263f6527d 100644
--- a/r/src/parquet.cpp
+++ b/r/src/parquet.cpp
@@ -300,9 +300,9 @@ std::shared_ptr<parquet::arrow::FileWriter> parquet___arrow___ParquetFileWriter_
     const std::shared_ptr<arrow::io::OutputStream>& sink,
     const std::shared_ptr<parquet::WriterProperties>& properties,
     const std::shared_ptr<parquet::ArrowWriterProperties>& arrow_properties) {
-  std::unique_ptr<parquet::arrow::FileWriter> writer;
-  PARQUET_THROW_NOT_OK(parquet::arrow::FileWriter::Open(
-      *schema, gc_memory_pool(), sink, properties, arrow_properties, &writer));
+  std::unique_ptr<parquet::arrow::FileWriter> writer =
+      ValueOrStop(parquet::arrow::FileWriter::Open(*schema, gc_memory_pool(), sink,
+                                                   properties, arrow_properties));
   return std::move(writer);
 }
 
diff --git a/r/src/r_to_arrow.cpp b/r/src/r_to_arrow.cpp
index b37ae5df78a..89b4ba2e052 100644
--- a/r/src/r_to_arrow.cpp
+++ b/r/src/r_to_arrow.cpp
@@ -16,7 +16,6 @@
 // under the License.
 
 #include "./arrow_types.h"
-#include "./arrow_vctrs.h"
 
 #include <arrow/array/builder_base.h>
 #include <arrow/array/builder_binary.h>
@@ -296,7 +295,7 @@ class AsArrowArrayConverter : public RConverter {
       arrays_.push_back(std::move(array));
       return Status::OK();
     } catch (cpp11::unwind_exception& e) {
-      return StatusUnwindProtect(e.token);
+      return StatusUnwindProtect(e.token, "calling as_arrow_array()");
     }
   }
 
@@ -728,9 +727,48 @@ class RPrimitiveConverter<T, enable_if_t<is_timestamp_type<T>::value>>
 template <typename T>
 class RPrimitiveConverter<T, enable_if_t<is_decimal_type<T>::value>>
     : public PrimitiveConverter<T, RConverter> {
+  using ValueType = typename arrow::TypeTraits<T>::CType;
+
  public:
   Status Extend(SEXP x, int64_t size, int64_t offset = 0) override {
-    return Status::NotImplemented("Extend");
+    RETURN_NOT_OK(this->Reserve(size - offset));
+    int32_t precision = this->primitive_type_->precision();
+    int32_t scale = this->primitive_type_->scale();
+
+    auto append_value = [this, precision, scale](double value) {
+      ARROW_ASSIGN_OR_RAISE(ValueType converted,
+                            ValueType::FromReal(value, precision, scale));
+      this->primitive_builder_->UnsafeAppend(converted);
+      return Status::OK();
+    };
+
+    auto append_null = [this]() {
+      this->primitive_builder_->UnsafeAppendNull();
+      return Status::OK();
+    };
+
+    switch (TYPEOF(x)) {
+      case REALSXP:
+        if (ALTREP(x)) {
+          return VisitVector(RVectorIterator_ALTREP<double>(x, offset), size, append_null,
+                             append_value);
+        } else {
+          return VisitVector(RVectorIterator<double>(x, offset), size, append_null,
+                             append_value);
+        }
+        break;
+      case INTSXP:
+        if (ALTREP(x)) {
+          return VisitVector(RVectorIterator_ALTREP<int>(x, offset), size, append_null,
+                             append_value);
+        } else {
+          return VisitVector(RVectorIterator<int>(x, offset), size, append_null,
+                             append_value);
+        }
+        break;
+      default:
+        return Status::NotImplemented("Conversion to decimal from non-integer/double");
+    }
   }
 };
 
@@ -743,7 +781,7 @@ Status check_binary(SEXP x, int64_t size) {
       // check this is a list of raw vectors
       const SEXP* p_x = VECTOR_PTR_RO(x);
       for (R_xlen_t i = 0; i < size; i++, ++p_x) {
-        if (TYPEOF(*p_x) != RAWSXP) {
+        if (TYPEOF(*p_x) != RAWSXP && (*p_x != R_NilValue)) {
           return Status::Invalid("invalid R type to convert to binary");
         }
       }
@@ -1038,7 +1076,7 @@ class RListConverter : public ListConverter<T, RConverter, RConverterTrait> {
     auto append_value = [this](SEXP value) {
       // TODO: if we decide that this can be run concurrently
       //       we'll have to do vec_size() upfront
-      int n = vctrs::vec_size(value);
+      int n = arrow::r::vec_size(value);
 
       RETURN_NOT_OK(this->list_builder_->ValidateOverflow(n));
       RETURN_NOT_OK(this->list_builder_->Append());
@@ -1139,7 +1177,7 @@ class RStructConverter : public StructConverter<RConverter, RConverterTrait> {
 
     for (R_xlen_t i = 0; i < n_columns; i++) {
       SEXP x_i = VECTOR_ELT(x, i);
-      if (vctrs::vec_size(x_i) < size) {
+      if (arrow::r::vec_size(x_i) < size) {
         return Status::RError("Degenerated data frame");
       }
     }
@@ -1263,7 +1301,7 @@ std::shared_ptr<arrow::ChunkedArray> vec_to_arrow_ChunkedArray(
   RConversionOptions options;
   options.strict = !type_inferred;
   options.type = type;
-  options.size = vctrs::vec_size(x);
+  options.size = arrow::r::vec_size(x);
 
   // If we can handle this in C++ we do so; otherwise we use the
   // AsArrowArrayConverter, which calls as_arrow_array().
@@ -1271,7 +1309,7 @@ std::shared_ptr<arrow::ChunkedArray> vec_to_arrow_ChunkedArray(
   if (can_convert_native(x) && type->id() != Type::EXTENSION) {
     // short circuit if `x` is an altrep vector that shells a chunked Array
     auto maybe = altrep::vec_to_arrow_altrep_bypass(x);
-    if (maybe.get()) {
+    if (maybe.get() && maybe->type()->Equals(type)) {
       return maybe;
     }
 
@@ -1466,7 +1504,7 @@ std::shared_ptr<arrow::Table> Table__from_dots(SEXP lst, SEXP schema_sxp,
       arrow::r::RConversionOptions options;
       options.strict = !infer_schema;
       options.type = schema->field(j)->type();
-      options.size = vctrs::vec_size(x);
+      options.size = arrow::r::vec_size(x);
 
       // If we can handle this in C++  we do so; otherwise we use the
       // AsArrowArrayConverter, which calls as_arrow_array().
diff --git a/r/src/recordbatchreader.cpp b/r/src/recordbatchreader.cpp
index c571d282da1..6294205131a 100644
--- a/r/src/recordbatchreader.cpp
+++ b/r/src/recordbatchreader.cpp
@@ -27,6 +27,18 @@ std::shared_ptr<arrow::Schema> RecordBatchReader__schema(
   return reader->schema();
 }
 
+// [[arrow::export]]
+void RecordBatchReader__Close(const std::shared_ptr<arrow::RecordBatchReader>& reader) {
+  return arrow::StopIfNotOk(reader->Close());
+}
+
+// [[arrow::export]]
+void RecordBatchReader__UnsafeDelete(
+    const std::shared_ptr<arrow::RecordBatchReader>& reader) {
+  auto& reader_unsafe = const_cast<std::shared_ptr<arrow::RecordBatchReader>&>(reader);
+  reader_unsafe.reset();
+}
+
 // [[arrow::export]]
 std::shared_ptr<arrow::RecordBatch> RecordBatchReader__ReadNext(
     const std::shared_ptr<arrow::RecordBatchReader>& reader) {
@@ -65,7 +77,7 @@ class RFunctionRecordBatchReader : public arrow::RecordBatchReader {
 
   arrow::Status ReadNext(std::shared_ptr<arrow::RecordBatch>* batch_out) {
     auto batch = SafeCallIntoR<std::shared_ptr<arrow::RecordBatch>>([&]() {
-      cpp11::sexp result_sexp = fun_();
+      cpp11::sexp result_sexp = cpp11::function(fun_)();
       if (result_sexp == R_NilValue) {
         return std::shared_ptr<arrow::RecordBatch>(nullptr);
       } else if (!Rf_inherits(result_sexp, "RecordBatch")) {
@@ -89,7 +101,7 @@ class RFunctionRecordBatchReader : public arrow::RecordBatchReader {
   }
 
  private:
-  cpp11::function fun_;
+  cpp11::sexp fun_;
   std::shared_ptr<arrow::Schema> schema_;
 };
 
@@ -111,19 +123,78 @@ std::shared_ptr<arrow::Table> Table__from_RecordBatchReader(
   return ValueOrStop(reader->ToTable());
 }
 
+// Because the head() operation can leave a RecordBatchReader whose contents
+// will never be drained, we implement a wrapper class here that takes care
+// to (1) return only the requested number of rows (or fewer) and (2) Close
+// and release the underlying reader as soon as possible. This is mostly
+// useful for the ExecPlanReader, whose Close() method also requests
+// that the ExecPlan stop producing, but may also be useful for readers
+// that point to an open file and whose Close() or delete method releases
+// the file.
+class RecordBatchReaderHead : public arrow::RecordBatchReader {
+ public:
+  RecordBatchReaderHead(std::shared_ptr<arrow::RecordBatchReader> reader,
+                        int64_t num_rows)
+      : done_(false), schema_(reader->schema()), reader_(reader), num_rows_(num_rows) {}
+
+  std::shared_ptr<arrow::Schema> schema() const override { return schema_; }
+
+  arrow::Status ReadNext(std::shared_ptr<arrow::RecordBatch>* batch_out) override {
+    if (done_) {
+      // Close() has been called
+      batch_out = nullptr;
+      return arrow::Status::OK();
+    }
+
+    ARROW_RETURN_NOT_OK(reader_->ReadNext(batch_out));
+    if (batch_out->get()) {
+      num_rows_ -= batch_out->get()->num_rows();
+      if (num_rows_ < 0) {
+        auto smaller_batch =
+            batch_out->get()->Slice(0, batch_out->get()->num_rows() + num_rows_);
+        *batch_out = smaller_batch;
+      }
+
+      if (num_rows_ <= 0) {
+        // We've run out of num_rows before batches
+        ARROW_RETURN_NOT_OK(Close());
+      }
+    } else {
+      // We've run out of batches before num_rows
+      ARROW_RETURN_NOT_OK(Close());
+    }
+
+    return arrow::Status::OK();
+  }
+
+  arrow::Status Close() override {
+    if (done_) {
+      return arrow::Status::OK();
+    } else {
+      done_ = true;
+      arrow::Status result = reader_->Close();
+      return result;
+    }
+  }
+
+ private:
+  bool done_;
+  std::shared_ptr<arrow::Schema> schema_;
+  std::shared_ptr<arrow::RecordBatchReader> reader_;
+  int64_t num_rows_;
+};
+
 // [[arrow::export]]
 std::shared_ptr<arrow::RecordBatchReader> RecordBatchReader__Head(
     const std::shared_ptr<arrow::RecordBatchReader>& reader, int64_t num_rows) {
-  std::vector<std::shared_ptr<arrow::RecordBatch>> batches;
-  std::shared_ptr<arrow::RecordBatch> this_batch;
-  while (num_rows > 0) {
-    this_batch = ValueOrStop(reader->Next());
-    if (this_batch == nullptr) break;
-    batches.push_back(this_batch->Slice(0, num_rows));
-    num_rows -= this_batch->num_rows();
+  if (num_rows <= 0) {
+    // If we are never going to pull any batches from this reader, close it
+    // immediately.
+    StopIfNotOk(reader->Close());
+    return ValueOrStop(arrow::RecordBatchReader::Make({}, reader->schema()));
+  } else {
+    return std::make_shared<RecordBatchReaderHead>(reader, num_rows);
   }
-  return ValueOrStop(
-      arrow::RecordBatchReader::Make(std::move(batches), reader->schema()));
 }
 
 // -------- RecordBatchStreamReader
diff --git a/r/src/safe-call-into-r-impl.cpp b/r/src/safe-call-into-r-impl.cpp
index 4eec3a85df8..92dce7e0ba0 100644
--- a/r/src/safe-call-into-r-impl.cpp
+++ b/r/src/safe-call-into-r-impl.cpp
@@ -21,24 +21,33 @@
 #include <functional>
 #include <thread>
 
-MainRThread& GetMainRThread() {
+MainRThread& MainRThread::GetInstance() {
   static MainRThread main_r_thread;
   return main_r_thread;
 }
 
 // [[arrow::export]]
-void InitializeMainRThread() { GetMainRThread().Initialize(); }
+void InitializeMainRThread() { MainRThread::GetInstance().Initialize(); }
 
 // [[arrow::export]]
-bool CanRunWithCapturedR() {
-#if defined(HAS_UNWIND_PROTECT)
-  static int on_old_windows = -1;
-  if (on_old_windows == -1) {
-    cpp11::function on_old_windows_fun = cpp11::package("arrow")["on_old_windows"];
-    on_old_windows = on_old_windows_fun();
+void DeinitializeMainRThread() { MainRThread::GetInstance().Deinitialize(); }
+
+// [[arrow::export]]
+bool SetEnableSignalStopSource(bool enabled) {
+  bool was_enabled = MainRThread::GetInstance().SignalStopSourceEnabled();
+  if (was_enabled && !enabled) {
+    MainRThread::GetInstance().DisableSignalStopSource();
+  } else if (!was_enabled && enabled) {
+    MainRThread::GetInstance().EnableSignalStopSource();
   }
 
-  return !on_old_windows && GetMainRThread().Executor() == nullptr;
+  return was_enabled;
+}
+
+// [[arrow::export]]
+bool CanRunWithCapturedR() {
+#if defined(HAS_UNWIND_PROTECT)
+  return MainRThread::GetInstance().Executor() == nullptr;
 #else
   return false;
 #endif
@@ -48,31 +57,28 @@ bool CanRunWithCapturedR() {
 std::string TestSafeCallIntoR(cpp11::function r_fun_that_returns_a_string,
                               std::string opt) {
   if (opt == "async_with_executor") {
-    std::thread* thread_ptr;
+    std::thread thread;
 
-    auto result =
-        RunWithCapturedR<std::string>([&thread_ptr, r_fun_that_returns_a_string]() {
-          auto fut = arrow::Future<std::string>::Make();
-          thread_ptr = new std::thread([fut, r_fun_that_returns_a_string]() mutable {
-            auto result = SafeCallIntoR<std::string>([&] {
-              return cpp11::as_cpp<std::string>(r_fun_that_returns_a_string());
-            });
+    auto result = RunWithCapturedR<std::string>([&thread, r_fun_that_returns_a_string]() {
+      auto fut = arrow::Future<std::string>::Make();
+      thread = std::thread([&fut, r_fun_that_returns_a_string]() {
+        auto result = SafeCallIntoR<std::string>(
+            [&] { return cpp11::as_cpp<std::string>(r_fun_that_returns_a_string()); });
 
-            fut.MarkFinished(result);
-          });
+        fut.MarkFinished(result);
+      });
 
-          return fut;
-        });
+      return fut;
+    });
 
-    thread_ptr->join();
-    delete thread_ptr;
+    if (thread.joinable()) {
+      thread.join();
+    }
 
     return arrow::ValueOrStop(result);
   } else if (opt == "async_without_executor") {
-    std::thread* thread_ptr;
-
     auto fut = arrow::Future<std::string>::Make();
-    thread_ptr = new std::thread([fut, r_fun_that_returns_a_string]() mutable {
+    std::thread thread([&fut, r_fun_that_returns_a_string]() {
       auto result = SafeCallIntoR<std::string>(
           [&] { return cpp11::as_cpp<std::string>(r_fun_that_returns_a_string()); });
 
@@ -83,8 +89,7 @@ std::string TestSafeCallIntoR(cpp11::function r_fun_that_returns_a_string,
       }
     });
 
-    thread_ptr->join();
-    delete thread_ptr;
+    thread.join();
 
     // We should be able to get this far, but fut will contain an error
     // because it tried to evaluate R code from another thread
diff --git a/r/src/safe-call-into-r.h b/r/src/safe-call-into-r.h
index 08e8a8c11b6..319d46d11f0 100644
--- a/r/src/safe-call-into-r.h
+++ b/r/src/safe-call-into-r.h
@@ -21,15 +21,16 @@
 #include "./arrow_types.h"
 
 #include <arrow/io/interfaces.h>
+#include <arrow/util/cancel.h>
 #include <arrow/util/future.h>
 #include <arrow/util/thread_pool.h>
 
+#include <csignal>
 #include <functional>
 #include <thread>
 
 // Unwind protection was added in R 3.5 and some calls here use it
-// and crash R in older versions (ARROW-16201). Crashes also occur
-// on 32-bit R builds on R 3.6 and lower. Implementation provided
+// and crash R in older versions (ARROW-16201). Implementation provided
 // in safe-call-into-r-impl.cpp so that we can skip some tests
 // when this feature is not provided. This also checks that there
 // is not already an event loop registered (via MainRThread::Executor()),
@@ -39,12 +40,13 @@ bool CanRunWithCapturedR();
 // The MainRThread class keeps track of the thread on which it is safe
 // to call the R API to facilitate its safe use (or erroring
 // if it is not safe). The MainRThread singleton can be accessed from
-// any thread using GetMainRThread(); the preferred way to call
+// any thread using MainRThread::GetInstance(); the preferred way to call
 // the R API where it may not be safe to do so is to use
 // SafeCallIntoR<cpp_type>([&]() { ... }).
 class MainRThread {
  public:
-  MainRThread() : initialized_(false), executor_(nullptr) {}
+  // Return a reference to the MainRThread singleton
+  static MainRThread& GetInstance();
 
   // Call this method from the R thread (e.g., on package load)
   // to save an internal copy of the thread id.
@@ -56,9 +58,51 @@ class MainRThread {
 
   bool IsInitialized() { return initialized_; }
 
+  void Deinitialize() {
+    initialized_ = false;
+    DisableSignalStopSource();
+  }
+
   // Check if the current thread is the main R thread
   bool IsMainThread() { return initialized_ && std::this_thread::get_id() == thread_id_; }
 
+  arrow::StopToken GetStopToken() {
+    if (SignalStopSourceEnabled()) {
+      return stop_source_->token();
+    } else {
+      return arrow::StopToken::Unstoppable();
+    }
+  }
+
+  bool SignalStopSourceEnabled() { return stop_source_ != nullptr; }
+
+  void EnableSignalStopSource() {
+    // Try to set up the stop source. If another library linking to
+    // the same libarrow shared object has already done this, this call
+    // will fail (which is OK, we just don't get the ability to cancel)
+    if (!SignalStopSourceEnabled()) {
+      auto maybe_stop_source = arrow::SetSignalStopSource();
+      if (maybe_stop_source.ok()) {
+        stop_source_ = maybe_stop_source.ValueUnsafe();
+      } else {
+        cpp11::warning("Failed to enable user cancellation: %s",
+                       maybe_stop_source.status().message().c_str());
+      }
+    }
+  }
+
+  void DisableSignalStopSource() {
+    if (SignalStopSourceEnabled()) {
+      arrow::ResetSignalStopSource();
+      stop_source_ = nullptr;
+    }
+  }
+
+  arrow::io::IOContext CancellableIOContext() {
+    return arrow::io::IOContext(gc_memory_pool(),
+                                MainRThread::GetInstance().GetStopToken());
+  }
+
   // Check if a SafeCallIntoR call is able to execute
   bool CanExecuteSafeCallIntoR() { return IsMainThread() || executor_ != nullptr; }
 
@@ -76,11 +120,15 @@ class MainRThread {
   // Check if there is a saved error
   bool HasError() { return !status_.ok(); }
 
-  // Throw a cpp11::unwind_exception() if
-  void ClearError() {
+  // Resets this object after a RunWithCapturedR is about to return
+  // to the R interpreter.
+  arrow::Status ReraiseErrorIfExists() {
+    if (SignalStopSourceEnabled()) {
+      stop_source_->Reset();
+    }
     arrow::Status maybe_error_status = status_;
     ResetError();
-    arrow::StopIfNotOk(maybe_error_status);
+    return maybe_error_status;
   }
 
  private:
@@ -88,10 +136,75 @@ class MainRThread {
   std::thread::id thread_id_;
   arrow::Status status_;
   arrow::internal::Executor* executor_;
+  arrow::StopSource* stop_source_;
+
+  MainRThread() : initialized_(false), executor_(nullptr), stop_source_(nullptr) {}
+};
+
+// This object is used to ensure that signal hanlders are registered when
+// RunWithCapturedR launches its background thread to call Arrow and is
+// cleaned up however this exits. Note that the lifecycle of the StopSource,
+// which is registered at package load, is not necessarily tied to the
+// lifecycle of the signal handlers. The general approach is to register
+// the signal handlers only when we are evaluating code outside the R thread
+// (when we are evaluating code *on* the R thread, R's signal handlers are
+// sufficient and will signal an interupt condition that will propagate
+// via a cpp11::unwind_excpetion).
+class WithSignalHandlerContext {
+ public:
+  WithSignalHandlerContext() : signal_handler_registered_(false) {
+    if (MainRThread::GetInstance().SignalStopSourceEnabled()) {
+      arrow::Status result = arrow::RegisterCancellingSignalHandler({SIGINT});
+
+      // If this result was not OK we don't get cancellation for the
+      // lifecycle of this object; however, we can still carry on. This
+      // can occur when forking the R process (e.g., using parallel::mclapply()).
+      if (result.ok()) {
+        signal_handler_registered_ = true;
+      } else {
+        result.Warn();
+      }
+    }
+  }
+
+  ~WithSignalHandlerContext() {
+    if (signal_handler_registered_) {
+      arrow::UnregisterCancellingSignalHandler();
+    }
+  }
+
+ private:
+  bool signal_handler_registered_;
 };
 
-// Retrieve the MainRThread singleton
-MainRThread& GetMainRThread();
+// This is an object whose scope ensures we do not register signal handlers when
+// evaluating R code when that evaluation happens via SafeCallIntoR.
+class WithoutSignalHandlerContext {
+ public:
+  WithoutSignalHandlerContext() : signal_handler_unregistered_(false) {
+    if (MainRThread::GetInstance().SignalStopSourceEnabled()) {
+      arrow::UnregisterCancellingSignalHandler();
+      signal_handler_unregistered_ = true;
+    }
+  }
+
+  ~WithoutSignalHandlerContext() {
+    if (signal_handler_unregistered_) {
+      arrow::Status result = arrow::RegisterCancellingSignalHandler({SIGINT});
+
+      // This is unlikely because the signal handlers were previously registered;
+      // however, it's better to warn here instead of error because it doesn't
+      // affect what the user tried to do (it probably just means we didn't
+      // anticipate a use case).
+      if (!result.ok()) {
+        result.Warn();
+      }
+    }
+  }
+
+ private:
+  bool signal_handler_unregistered_;
+};
 
 // Call into R and return a C++ object. Note that you can't return
 // a SEXP (use cpp11::as_cpp<T> to convert it to a C++ type inside
@@ -99,7 +212,7 @@ MainRThread& GetMainRThread();
 template <typename T>
 arrow::Future<T> SafeCallIntoRAsync(std::function<arrow::Result<T>(void)> fun,
                                     std::string reason = "unspecified") {
-  MainRThread& main_r_thread = GetMainRThread();
+  MainRThread& main_r_thread = MainRThread::GetInstance();
   if (main_r_thread.IsMainThread()) {
     // If we're on the main thread, run the task immediately and let
     // the cpp11::unwind_exception be thrown since it will be caught
@@ -109,28 +222,27 @@ arrow::Future<T> SafeCallIntoRAsync(std::function<arrow::Result<T>(void)> fun,
     // If we are not on the main thread and have an Executor,
     // use it to run the task on the main R thread. We can't throw
     // a cpp11::unwind_exception here, so we need to propagate it back
-    // to RunWithCapturedR through the MainRThread singleton.
-    return DeferNotOk(main_r_thread.Executor()->Submit([fun, reason]() {
+    // to RunWithCapturedR through the MainRThread instance.
+    return DeferNotOk(main_r_thread.Executor()->Submit([fun,
+                                                        reason]() -> arrow::Result<T> {
       // This occurs when some other R code that was previously scheduled to run
       // has errored, in which case we skip execution and let the original
       // error surface.
-      if (GetMainRThread().HasError()) {
-        return arrow::Result<T>(
-            arrow::Status::Cancelled("Previous R code execution error (", reason, ")"));
+      if (MainRThread::GetInstance().HasError()) {
+        return arrow::Status::Cancelled("Previous R code execution error (", reason, ")");
       }
 
       try {
+        WithoutSignalHandlerContext context;
         return fun();
       } catch (cpp11::unwind_exception& e) {
-        // Here we save the token and set the main R thread to an error state
-        GetMainRThread().SetError(arrow::StatusUnwindProtect(e.token));
-
-        // We also return an error although this should not surface because
-        // main_r_thread.ClearError() will get called before this value can be
-        // returned and will StopIfNotOk(). We don't save the error token here
-        // to ensure that it will only get thrown once.
-        return arrow::Result<T>(
-            arrow::Status::UnknownError("R code execution error (", reason, ")"));
+        // Set the MainRThread error so that subsequent calls to SafeCallIntoR
+        // know not to execute R code.
+        MainRThread::GetInstance().SetError(arrow::StatusUnwindProtect(e.token, reason));
+
+        // Return an error Status (which is unlikely to surface since RunWithCapturedR
+        // will preferentially return the MainRThread error).
+        return arrow::Status::Invalid("R code execution error (", reason, ")");
       }
     }));
   } else {
@@ -163,25 +275,26 @@ static inline arrow::Status SafeCallIntoRVoid(std::function<void(void)> fun,
 template <typename T>
 arrow::Result<T> RunWithCapturedR(std::function<arrow::Future<T>()> make_arrow_call) {
   if (!CanRunWithCapturedR()) {
-    return arrow::Status::NotImplemented(
-        "RunWithCapturedR() without UnwindProtect or on 32-bit Windows + R <= 3.6");
+    return arrow::Status::NotImplemented("RunWithCapturedR() without UnwindProtect");
   }
 
-  if (GetMainRThread().Executor() != nullptr) {
+  if (MainRThread::GetInstance().Executor() != nullptr) {
     return arrow::Status::AlreadyExists("Attempt to use more than one R Executor()");
   }
 
-  GetMainRThread().ResetError();
-
+  MainRThread::GetInstance().ResetError();
+  WithSignalHandlerContext context;
   arrow::Result<T> result = arrow::internal::SerialExecutor::RunInSerialExecutor<T>(
       [make_arrow_call](arrow::internal::Executor* executor) {
-        GetMainRThread().Executor() = executor;
+        MainRThread::GetInstance().Executor() = executor;
         return make_arrow_call();
       });
 
-  GetMainRThread().Executor() = nullptr;
-  GetMainRThread().ClearError();
+  MainRThread::GetInstance().Executor() = nullptr;
 
+  // A StatusUnwindProtect error, if it was thrown, lives in the MainRThread and
+  // should be returned if possible.
+  ARROW_RETURN_NOT_OK(MainRThread::GetInstance().ReraiseErrorIfExists());
   return result;
 }
 
@@ -214,8 +327,8 @@ static inline arrow::Status RunWithCapturedRIfPossibleVoid(
     ARROW_RETURN_NOT_OK(make_arrow_call());
     return true;
   });
-  ARROW_RETURN_NOT_OK(result);
-  return arrow::Status::OK();
+
+  return result.status();
 }
 
 #endif
diff --git a/r/src/scalar.cpp b/r/src/scalar.cpp
index 58cfdd41387..0fdf5bddbb6 100644
--- a/r/src/scalar.cpp
+++ b/r/src/scalar.cpp
@@ -57,19 +57,19 @@ std::shared_ptr<arrow::Scalar> StructScalar__GetFieldByName(
   return ValueOrStop(s->field(name));
 }
 
-// [[arrow::export]]
-SEXP Scalar__as_vector(const std::shared_ptr<arrow::Scalar>& scalar) {
-  auto array = ValueOrStop(arrow::MakeArrayFromScalar(*scalar, 1, gc_memory_pool()));
-
-  // defined in array_to_vector.cpp
-  SEXP Array__as_vector(const std::shared_ptr<arrow::Array>& array);
-  return Array__as_vector(array);
-}
-
 // [[arrow::export]]
 std::shared_ptr<arrow::Array> MakeArrayFromScalar(
     const std::shared_ptr<arrow::Scalar>& scalar, int n) {
-  return ValueOrStop(arrow::MakeArrayFromScalar(*scalar, n, gc_memory_pool()));
+  if (scalar->type->id() == arrow::Type::EXTENSION) {
+    auto extension_scalar = std::dynamic_pointer_cast<arrow::ExtensionScalar>(scalar);
+    auto type = std::dynamic_pointer_cast<arrow::ExtensionType>(scalar->type);
+    auto storage_type = type->storage_type();
+    auto storage = ValueOrStop(
+        arrow::MakeArrayFromScalar(*extension_scalar->value, n, gc_memory_pool()));
+    return type->WrapArray(type, storage);
+  } else {
+    return ValueOrStop(arrow::MakeArrayFromScalar(*scalar, n, gc_memory_pool()));
+  }
 }
 
 // [[arrow::export]]
diff --git a/r/src/schema.cpp b/r/src/schema.cpp
index 2bc58f0fa36..0dac188ec07 100644
--- a/r/src/schema.cpp
+++ b/r/src/schema.cpp
@@ -22,11 +22,28 @@
 #include <arrow/util/key_value_metadata.h>
 
 // [[arrow::export]]
-std::shared_ptr<arrow::Schema> schema_(
+std::shared_ptr<arrow::Schema> Schema__from_fields(
     const std::vector<std::shared_ptr<arrow::Field>>& fields) {
   return arrow::schema(fields);
 }
 
+// [[arrow::export]]
+std::shared_ptr<arrow::Schema> Schema__from_list(cpp11::list field_list) {
+  int n = field_list.size();
+
+  bool nullable = true;
+  cpp11::strings names(field_list.attr(R_NamesSymbol));
+
+  std::vector<std::shared_ptr<arrow::Field>> fields(n);
+
+  for (int i = 0; i < n; i++) {
+    fields[i] = arrow::field(
+        names[i], cpp11::as_cpp<std::shared_ptr<arrow::DataType>>(field_list[i]),
+        nullable);
+  }
+  return arrow::schema(fields);
+}
+
 // [[arrow::export]]
 std::string Schema__ToString(const std::shared_ptr<arrow::Schema>& s) {
   return s->ToString();
diff --git a/r/src/table.cpp b/r/src/table.cpp
index f31aac33eff..498141cc2f2 100644
--- a/r/src/table.cpp
+++ b/r/src/table.cpp
@@ -302,6 +302,20 @@ std::shared_ptr<arrow::Table> Table__from_record_batches(
   return tab;
 }
 
+// [[arrow::export]]
+std::shared_ptr<arrow::Table> Table__from_schema(
+    const std::shared_ptr<arrow::Schema>& schema) {
+  int64_t num_fields = schema->num_fields();
+
+  std::vector<std::shared_ptr<arrow::ChunkedArray>> columns(num_fields);
+  for (int i = 0; i < num_fields; i++) {
+    auto maybe_column = arrow::ChunkedArray::Make({}, schema->field(i)->type());
+    columns[i] = ValueOrStop(maybe_column);
+  }
+
+  return (arrow::Table::Make(schema, std::move(columns)));
+}
+
 // [[arrow::export]]
 r_vec_size Table__ReferencedBufferSize(const std::shared_ptr<arrow::Table>& table) {
   return r_vec_size(ValueOrStop(arrow::util::ReferencedBufferSize(*table)));
diff --git a/r/src/type_infer.cpp b/r/src/type_infer.cpp
index 616be0467f9..ac52ed03e89 100644
--- a/r/src/type_infer.cpp
+++ b/r/src/type_infer.cpp
@@ -18,7 +18,6 @@
 #include <memory>
 
 #include "./arrow_types.h"
-#include "./arrow_vctrs.h"
 
 #include <arrow/array/array_base.h>
 #include <arrow/chunked_array.h>
@@ -159,17 +158,29 @@ std::shared_ptr<arrow::DataType> InferArrowTypeFromVector<VECSXP>(SEXP x) {
       return arrow::large_binary();
     }
 
+    // Check attr(x, "ptype") for an appropriate R prototype
     SEXP ptype = Rf_getAttrib(x, symbols::ptype);
-    if (Rf_isNull(ptype)) {
-      if (XLENGTH(x) == 0) {
-        cpp11::stop(
-            "Requires at least one element to infer the values' type of a list vector");
+    if (!Rf_isNull(ptype)) {
+      arrow::list(InferArrowType(ptype));
+    }
+
+    // If unspecified, iterate through the vector until we get a non-null result
+    // special case raw() vectors, since we want list(raw()) to result in
+    // a binary() array
+    for (R_xlen_t i = 0; i < XLENGTH(x); i++) {
+      ptype = VECTOR_ELT(x, i);
+      if (Rf_isNull(ptype)) {
+        continue;
       }
 
-      ptype = VECTOR_ELT(x, 0);
+      if (!Rf_isObject(ptype) && TYPEOF(ptype) == RAWSXP) {
+        return arrow::binary();
+      } else {
+        return arrow::list(InferArrowType(ptype));
+      }
     }
 
-    return arrow::list(InferArrowType(ptype));
+    return arrow::list(arrow::null());
   }
 }
 
@@ -198,6 +209,8 @@ std::shared_ptr<arrow::DataType> InferArrowType(SEXP x) {
         return InferArrowTypeFromVector<STRSXP>(x);
       case VECSXP:
         return InferArrowTypeFromVector<VECSXP>(x);
+      case NILSXP:
+        return null();
       default:
         cpp11::stop("Cannot infer type from vector");
     }
diff --git a/r/tests/testthat/_snaps/Array.md b/r/tests/testthat/_snaps/Array.md
index f6ec5235104..fbcee7a15ce 100644
--- a/r/tests/testthat/_snaps/Array.md
+++ b/r/tests/testthat/_snaps/Array.md
@@ -18,6 +18,14 @@
 
     Can't create Array<float64()> from object of type class_not_supported
 
+# as_arrow_array() works for blob::blob()
+
+    Can't create Array<int32()> from object of type blob / vctrs_list_of / vctrs_vctr / list
+
+# as_arrow_array() works for vctrs::list_of()
+
+    Can't create Array<int32()> from object of type vctrs_list_of / vctrs_vctr / list
+
 # Array doesn't support c()
 
     Use `concat_arrays()` or `ChunkedArray$create()` instead.
diff --git a/r/tests/testthat/_snaps/dataset-write.md b/r/tests/testthat/_snaps/dataset-write.md
index e9ca7e09989..e302d8463d0 100644
--- a/r/tests/testthat/_snaps/dataset-write.md
+++ b/r/tests/testthat/_snaps/dataset-write.md
@@ -2,8 +2,9 @@
 
     Code
       write_dataset(df, dst_dir, format = "feather", compression = "snappy")
-    Error <rlang_error>
-      `compression` is not a valid argument for your chosen `format`.
+    Condition
+      Error in `check_additional_args()`:
+      ! `compression` is not a valid argument for your chosen `format`.
       i You could try using `codec` instead of `compression`.
       i Supported arguments: `use_legacy_format`, `metadata_version`, `codec`, and `null_fallback`.
 
@@ -11,39 +12,44 @@
 
     Code
       write_dataset(df, dst_dir, format = "feather", nonsensical_arg = "blah-blah")
-    Error <rlang_error>
-      `nonsensical_arg` is not a valid argument for your chosen `format`.
+    Condition
+      Error in `check_additional_args()`:
+      ! `nonsensical_arg` is not a valid argument for your chosen `format`.
       i Supported arguments: `use_legacy_format`, `metadata_version`, `codec`, and `null_fallback`.
 
 ---
 
     Code
       write_dataset(df, dst_dir, format = "arrow", nonsensical_arg = "blah-blah")
-    Error <rlang_error>
-      `nonsensical_arg` is not a valid argument for your chosen `format`.
+    Condition
+      Error in `check_additional_args()`:
+      ! `nonsensical_arg` is not a valid argument for your chosen `format`.
       i Supported arguments: `use_legacy_format`, `metadata_version`, `codec`, and `null_fallback`.
 
 ---
 
     Code
       write_dataset(df, dst_dir, format = "ipc", nonsensical_arg = "blah-blah")
-    Error <rlang_error>
-      `nonsensical_arg` is not a valid argument for your chosen `format`.
+    Condition
+      Error in `check_additional_args()`:
+      ! `nonsensical_arg` is not a valid argument for your chosen `format`.
       i Supported arguments: `use_legacy_format`, `metadata_version`, `codec`, and `null_fallback`.
 
 ---
 
     Code
       write_dataset(df, dst_dir, format = "csv", nonsensical_arg = "blah-blah")
-    Error <rlang_error>
-      `nonsensical_arg` is not a valid argument for your chosen `format`.
-      i Supported arguments: `include_header` and `batch_size`.
+    Condition
+      Error in `check_additional_args()`:
+      ! `nonsensical_arg` is not a valid argument for your chosen `format`.
+      i Supported arguments: `include_header`, `batch_size`, `null_string`, and `na`.
 
 ---
 
     Code
       write_dataset(df, dst_dir, format = "parquet", nonsensical_arg = "blah-blah")
-    Error <rlang_error>
-      `nonsensical_arg` is not a valid argument for your chosen `format`.
+    Condition
+      Error in `check_additional_args()`:
+      ! `nonsensical_arg` is not a valid argument for your chosen `format`.
       i Supported arguments: `chunk_size`, `version`, `compression`, `compression_level`, `use_dictionary`, `write_statistics`, `data_page_size`, `use_deprecated_int96_timestamps`, `coerce_timestamps`, and `allow_truncated_timestamps`.
 
diff --git a/r/tests/testthat/_snaps/dplyr-glimpse.md b/r/tests/testthat/_snaps/dplyr-glimpse.md
index 6daca0850de..a82f3444750 100644
--- a/r/tests/testthat/_snaps/dplyr-glimpse.md
+++ b/r/tests/testthat/_snaps/dplyr-glimpse.md
@@ -87,7 +87,7 @@
 
     Code
       example_data %>% as_record_batch_reader() %>% glimpse()
-    Message <simpleMessage>
+    Message
       Cannot glimpse() data from a RecordBatchReader because it can only be read one time; call `as_arrow_table()` to consume it first.
     Output
       RecordBatchReader
@@ -103,7 +103,7 @@
 
     Code
       example_data %>% as_record_batch_reader() %>% select(int) %>% glimpse()
-    Message <simpleMessage>
+    Message
       Cannot glimpse() data from a RecordBatchReader because it can only be read one time. Call `compute()` to evaluate the query first.
     Output
       RecordBatchReader (query)
@@ -131,7 +131,7 @@
 
     Code
       ds %>% summarize(max(int)) %>% glimpse()
-    Message <simpleMessage>
+    Message
       This query requires a full table scan, so glimpse() may be expensive. Call `compute()` to evaluate the query first.
     Output
       FileSystemDataset (query)
diff --git a/r/tests/testthat/_snaps/dplyr-join.md b/r/tests/testthat/_snaps/dplyr-join.md
index 8c0df595b7b..666dfdfaa3d 100644
--- a/r/tests/testthat/_snaps/dplyr-join.md
+++ b/r/tests/testthat/_snaps/dplyr-join.md
@@ -2,8 +2,9 @@
 
     Code
       left_join(arrow_table(example_data), arrow_table(example_data), by = "made_up_colname")
-    Error <rlang_error>
-      Join columns must be present in data.
+    Condition
+      Error in `handle_join_by()`:
+      ! Join columns must be present in data.
       x `made_up_colname` not present in x.
       x `made_up_colname` not present in y.
 
@@ -11,8 +12,9 @@
 
     Code
       left_join(arrow_table(example_data), arrow_table(example_data), by = c(int = "made_up_colname"))
-    Error <rlang_error>
-      Join columns must be present in data.
+    Condition
+      Error in `handle_join_by()`:
+      ! Join columns must be present in data.
       x `made_up_colname` not present in y.
 
 ---
@@ -20,8 +22,9 @@
     Code
       left_join(arrow_table(example_data), arrow_table(example_data), by = c(
         made_up_colname = "int"))
-    Error <rlang_error>
-      Join columns must be present in data.
+    Condition
+      Error in `handle_join_by()`:
+      ! Join columns must be present in data.
       x `made_up_colname` not present in x.
 
 ---
@@ -29,8 +32,9 @@
     Code
       left_join(arrow_table(example_data), arrow_table(example_data), by = c(
         "made_up_colname1", "made_up_colname2"))
-    Error <rlang_error>
-      Join columns must be present in data.
+    Condition
+      Error in `handle_join_by()`:
+      ! Join columns must be present in data.
       x `made_up_colname1` and `made_up_colname2` not present in x.
       x `made_up_colname1` and `made_up_colname2` not present in y.
 
@@ -39,8 +43,9 @@
     Code
       left_join(arrow_table(example_data), arrow_table(example_data), by = c(
         made_up_colname1 = "made_up_colname2"))
-    Error <rlang_error>
-      Join columns must be present in data.
+    Condition
+      Error in `handle_join_by()`:
+      ! Join columns must be present in data.
       x `made_up_colname1` not present in x.
       x `made_up_colname2` not present in y.
 
diff --git a/r/tests/testthat/_snaps/dplyr-query.md b/r/tests/testthat/_snaps/dplyr-query.md
new file mode 100644
index 00000000000..a9d4da26cca
--- /dev/null
+++ b/r/tests/testthat/_snaps/dplyr-query.md
@@ -0,0 +1,4 @@
+# Scalars in expressions match the type of the field, if possible
+
+    Expression int == "5" not supported in Arrow; pulling data into R
+
diff --git a/r/tests/testthat/_snaps/dplyr-summarize.md b/r/tests/testthat/_snaps/dplyr-summarize.md
new file mode 100644
index 00000000000..bbb8e64bfe7
--- /dev/null
+++ b/r/tests/testthat/_snaps/dplyr-summarize.md
@@ -0,0 +1,13 @@
+# Functions that take ... but we only accept a single arg
+
+    Code
+      InMemoryDataset$create(tbl) %>% summarize(distinct = n_distinct())
+    Condition
+      Error:
+      ! Error : In n_distinct(), n_distinct() with 0 arguments not supported in Arrow
+      Call collect() first to pull data into R.
+
+---
+
+    Error : In n_distinct(int, lgl), Multiple arguments to n_distinct() not supported in Arrow; pulling data into R
+
diff --git a/r/tests/testthat/_snaps/compute.md b/r/tests/testthat/_snaps/udf.md
similarity index 100%
rename from r/tests/testthat/_snaps/compute.md
rename to r/tests/testthat/_snaps/udf.md
diff --git a/r/tests/testthat/helper-arrow.R b/r/tests/testthat/helper-arrow.R
index d705a8029c5..6812a3eec0a 100644
--- a/r/tests/testthat/helper-arrow.R
+++ b/r/tests/testthat/helper-arrow.R
@@ -29,6 +29,10 @@ Sys.setlocale("LC_COLLATE", "C")
 # (R CMD check does this, but in case you're running outside of check)
 Sys.setenv(LANGUAGE = "en")
 
+# Set this option so that the deprecation warning isn't shown
+# (except when we test for it)
+options(arrow.pull_as_vector = FALSE)
+
 with_language <- function(lang, expr) {
   old <- Sys.getenv("LANGUAGE")
   # Check what this message is before changing languages; this will
diff --git a/r/tests/testthat/helper-expectation.R b/r/tests/testthat/helper-expectation.R
index eb2e6b02195..303a96ead7d 100644
--- a/r/tests/testthat/helper-expectation.R
+++ b/r/tests/testthat/helper-expectation.R
@@ -69,29 +69,18 @@ verify_output <- function(...) {
 #' Ensure that dplyr methods on Arrow objects return the same as for data frames
 #'
 #' This function compares the output of running a dplyr expression on a tibble
-#' or data.frame object against the output of the same expression run on
-#' Arrow Table and RecordBatch objects.
-#'
+#' or data.frame object against the output of the same expression run on a Table
 #'
 #' @param expr A dplyr pipeline which must have `.input` as its start
 #' @param tbl A tibble or data.frame which will be substituted for `.input`
-#' @param skip_record_batch The skip message to show (if you should skip the
-#' RecordBatch test)
-#' @param skip_table The skip message to show (if you should skip the Table test)
-#' @param warning The expected warning from the RecordBatch and Table comparison
-#'  paths, passed to `expect_warning()`. Special values:
+#' @param warning The expected warning from Arrow evaluation
+#'  path, passed to `expect_warning()`. Special values:
 #'     * `NA` (the default) for ensuring no warning message
 #'     * `TRUE` is a special case to mean to check for the
 #'      "not supported in Arrow; pulling data into R" message.
 #' @param ... additional arguments, passed to `expect_equal()`
-compare_dplyr_binding <- function(expr,
-                                  tbl,
-                                  skip_record_batch = NULL,
-                                  skip_table = NULL,
-                                  warning = NA,
-                                  ...) {
-
-  # Quote the contents of `expr` so that we can evaluate it a few different ways
+compare_dplyr_binding <- function(expr, tbl, warning = NA, ...) {
+  # Quote the contents of `expr` so that we can evaluate it twice
   expr <- rlang::enquo(expr)
   # Get the expected output by evaluating expr on the .input data.frame using regular dplyr
   expected <- rlang::eval_tidy(expr, rlang::new_data_mask(rlang::env(.input = tbl)))
@@ -101,39 +90,15 @@ compare_dplyr_binding <- function(expr,
     warning <- "not supported in Arrow; pulling data into R"
   }
 
-  skip_msg <- NULL
-
-  # Evaluate `expr` on a RecordBatch object and compare with `expected`
-  if (is.null(skip_record_batch)) {
-    expect_warning(
-      via_batch <- rlang::eval_tidy(
-        expr,
-        rlang::new_data_mask(rlang::env(.input = record_batch(tbl)))
-      ),
-      warning
-    )
-    expect_equal(via_batch, expected, ...)
-  } else {
-    skip_msg <- c(skip_msg, skip_record_batch)
-  }
-
   # Evaluate `expr` on a Table object and compare with `expected`
-  if (is.null(skip_table)) {
-    expect_warning(
-      via_table <- rlang::eval_tidy(
-        expr,
-        rlang::new_data_mask(rlang::env(.input = arrow_table(tbl)))
-      ),
-      warning
-    )
-    expect_equal(via_table, expected, ...)
-  } else {
-    skip_msg <- c(skip_msg, skip_table)
-  }
-
-  if (!is.null(skip_msg)) {
-    skip(paste(skip_msg, collapse = "\n"))
-  }
+  expect_warning(
+    via_table <- rlang::eval_tidy(
+      expr,
+      rlang::new_data_mask(rlang::env(.input = arrow_table(tbl)))
+    ),
+    warning
+  )
+  expect_equal(via_table, expected, ...)
 }
 
 #' Assert that Arrow dplyr methods error in the same way as methods on data.frame
@@ -145,9 +110,7 @@ compare_dplyr_binding <- function(expr,
 #' @param expr A dplyr pipeline which must have `.input` as its start
 #' @param tbl A tibble or data.frame which will be substituted for `.input`
 #' @param ... additional arguments, passed to `expect_error()`
-compare_dplyr_error <- function(expr,
-                                tbl,
-                                ...) {
+compare_dplyr_error <- function(expr, tbl, ...) {
   # ensure we have supplied tbl
   force(tbl)
 
@@ -321,3 +284,7 @@ split_vector_as_list <- function(vec) {
   vec2 <- vec[seq(from = min(length(vec), vec_split + 1), to = length(vec), by = 1)]
   list(vec1, vec2)
 }
+
+expect_across_equal <- function(across_expr, expected, tbl) {
+  expect_identical(expand_across(as_adq(tbl), across_expr), new_quosures(expected))
+}
diff --git a/r/tests/testthat/helper-filesystems.R b/r/tests/testthat/helper-filesystems.R
new file mode 100644
index 00000000000..2ad6d23b010
--- /dev/null
+++ b/r/tests/testthat/helper-filesystems.R
@@ -0,0 +1,190 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+#' Run standard suite of integration tests for a filesystem
+#'
+#' @param name Name of filesystem to be printed in test name
+#' @param fs A `FileSystem` instance to test with
+#' @param path_formatter A function that takes a sequence of path segments and
+#' returns a absolute path.
+#' @param uri_formatter A function that takes a sequence of path segments and
+#' returns a URI containing the filesystem scheme (e.g. 's3://', 'gs://'), the
+#' absolute path, and any necessary connection options as URL query parameters.
+test_filesystem <- function(name, fs, path_formatter, uri_formatter) {
+  # NOTE: it's important that we label these tests with name of filesystem so
+  # that we can differentiate the different calls to these test in the output.
+  test_that(sprintf("read/write Feather on %s using URIs", name), {
+    write_feather(example_data, uri_formatter("test.feather"))
+    expect_identical(read_feather(uri_formatter("test.feather")), example_data)
+  })
+
+  test_that(sprintf("read/write Feather on %s using Filesystem", name), {
+    write_feather(example_data, fs$path(path_formatter("test2.feather")))
+    expect_identical(
+      read_feather(fs$path(path_formatter("test2.feather"))),
+      example_data
+    )
+  })
+
+  if (!("package:dplyr" %in% search())) {
+    abort("library(dplyr) required for test_filesystem()")
+  }
+
+  test_that(sprintf("read/write compressed csv on %s using FileSystem", name), {
+    skip_if_not_available("gzip")
+    dat <- tibble(x = seq(1, 10, by = 0.2))
+    write_csv_arrow(dat, fs$path(path_formatter("test.csv.gz")))
+    expect_identical(
+      read_csv_arrow(fs$path(path_formatter("test.csv.gz"))),
+      dat
+    )
+  })
+
+  test_that(sprintf("read/write csv on %s using FileSystem", name), {
+    skip_if_not_available("gzip")
+    dat <- tibble(x = seq(1, 10, by = 0.2))
+    write_csv_arrow(dat, fs$path(path_formatter("test.csv")))
+    expect_identical(
+      read_csv_arrow(fs$path(path_formatter("test.csv"))),
+      dat
+    )
+  })
+
+  test_that(sprintf("read/write IPC stream on %s", name), {
+    write_ipc_stream(example_data, fs$path(path_formatter("test3.ipc")))
+    expect_identical(
+      read_ipc_stream(fs$path(path_formatter("test3.ipc"))),
+      example_data
+    )
+  })
+
+  test_that(sprintf("read/write Parquet on %s", name), {
+    skip_if_not_available("parquet")
+    write_parquet(example_data, fs$path(path_formatter("test.parquet")))
+    expect_identical(read_parquet(uri_formatter("test.parquet")), example_data)
+  })
+
+  if (arrow_with_dataset()) {
+    make_temp_dir <- function() {
+      path <- tempfile()
+      dir.create(path)
+      normalizePath(path, winslash = "/")
+    }
+
+    test_that(sprintf("open_dataset with an %s file (not directory) URI", name), {
+      skip_if_not_available("parquet")
+      expect_identical(
+        open_dataset(uri_formatter("test.parquet")) %>% collect() %>% arrange(int),
+        example_data %>% arrange(int)
+      )
+    })
+
+    test_that(sprintf("open_dataset with vector of %s file URIs", name), {
+      expect_identical(
+        open_dataset(
+          c(uri_formatter("test.feather"), uri_formatter("test2.feather")),
+          format = "feather"
+        ) %>%
+          arrange(int) %>%
+          collect(),
+        rbind(example_data, example_data) %>% arrange(int)
+      )
+    })
+
+    test_that(sprintf("open_dataset errors if passed URIs mixing %s and local fs", name), {
+      td <- make_temp_dir()
+      expect_error(
+        open_dataset(
+          c(
+            uri_formatter("test.feather"),
+            paste0("file://", file.path(td, "fake.feather"))
+          ),
+          format = "feather"
+        ),
+        "Vectors of URIs for different file systems are not supported"
+      )
+    })
+
+    # Dataset test setup, cf. test-dataset.R
+    first_date <- lubridate::ymd_hms("2015-04-29 03:12:39")
+    df1 <- tibble(
+      int = 1:10,
+      dbl = as.numeric(1:10),
+      lgl = rep(c(TRUE, FALSE, NA, TRUE, FALSE), 2),
+      chr = letters[1:10],
+      fct = factor(LETTERS[1:10]),
+      ts = first_date + lubridate::days(1:10)
+    )
+
+    second_date <- lubridate::ymd_hms("2017-03-09 07:01:02")
+    df2 <- tibble(
+      int = 101:110,
+      dbl = as.numeric(51:60),
+      lgl = rep(c(TRUE, FALSE, NA, TRUE, FALSE), 2),
+      chr = letters[10:1],
+      fct = factor(LETTERS[10:1]),
+      ts = second_date + lubridate::days(10:1)
+    )
+
+    # This is also to set up the dataset tests
+    test_that(sprintf("write_parquet with %s filesystem arg", name), {
+      skip_if_not_available("parquet")
+      fs$CreateDir(path_formatter("hive_dir", "group=1", "other=xxx"))
+      fs$CreateDir(path_formatter("hive_dir", "group=2", "other=yyy"))
+      expect_length(fs$ls(path_formatter("hive_dir")), 2)
+      write_parquet(df1, fs$path(path_formatter("hive_dir", "group=1", "other=xxx", "file1.parquet")))
+      write_parquet(df2, fs$path(path_formatter("hive_dir", "group=2", "other=yyy", "file2.parquet")))
+      expect_identical(
+        read_parquet(fs$path(path_formatter("hive_dir", "group=1", "other=xxx", "file1.parquet"))),
+        df1
+      )
+    })
+
+    test_that(sprintf("open_dataset with %s", name), {
+      ds <- open_dataset(fs$path(path_formatter("hive_dir")))
+      expect_identical(
+        ds %>% select(int, dbl, lgl) %>% collect() %>% arrange(int),
+        rbind(df1[, c("int", "dbl", "lgl")], df2[, c("int", "dbl", "lgl")]) %>% arrange(int)
+      )
+    })
+
+    test_that(sprintf("write_dataset with %s", name), {
+      ds <- open_dataset(fs$path(path_formatter("hive_dir")))
+      write_dataset(ds, fs$path(path_formatter("new_dataset_dir")))
+      expect_length(fs$ls(path_formatter("new_dataset_dir")), 1)
+    })
+
+    test_that(sprintf("copy files with %s", name), {
+      td <- make_temp_dir()
+      copy_files(uri_formatter("hive_dir"), td)
+      expect_length(dir(td), 2)
+      ds <- open_dataset(td)
+      expect_identical(
+        ds %>% select(int, dbl, lgl) %>% collect() %>% arrange(int),
+        rbind(df1[, c("int", "dbl", "lgl")], df2[, c("int", "dbl", "lgl")]) %>% arrange(int)
+      )
+
+      # Let's copy the other way and use a SubTreeFileSystem rather than URI
+      copy_files(td, fs$path(path_formatter("hive_dir2")))
+      ds2 <- open_dataset(fs$path(path_formatter("hive_dir2")))
+      expect_identical(
+        ds2 %>% select(int, dbl, lgl) %>% collect() %>% arrange(int),
+        rbind(df1[, c("int", "dbl", "lgl")], df2[, c("int", "dbl", "lgl")]) %>% arrange(int)
+      )
+    })
+  } # if(arrow_with_dataset())
+}
diff --git a/r/tests/testthat/helper-skip.R b/r/tests/testthat/helper-skip.R
index 7a6c2687ed8..3d68dac5af6 100644
--- a/r/tests/testthat/helper-skip.R
+++ b/r/tests/testthat/helper-skip.R
@@ -38,6 +38,14 @@ skip_if_not_available <- function(feature) {
     skip_on_linux_devel()
   }
 
+  # curl/ssl on MacOS is too old to support S3 filesystems without
+  # crashing when the process exits.
+  if (feature == "s3") {
+    if (on_macos_10_13_or_lower()) {
+      skip("curl/ssl runtime on MacOS 10.13 is too old")
+    }
+  }
+
   yes <- feature %in% names(build_features) && build_features[feature]
   if (!yes) {
     skip(paste("Arrow C++ not built with", feature))
@@ -102,6 +110,20 @@ skip_on_r_older_than <- function(r_version) {
   }
 }
 
+skip_on_python_older_than <- function(python_version) {
+  if (force_tests()) {
+    return()
+  }
+
+  if (!reticulate::py_available(initialize = TRUE)) {
+    skip("Python isn't available")
+  }
+
+  if (reticulate::py_version() < python_version) {
+    skip(paste("Python version:", reticulate::py_version()))
+  }
+}
+
 process_is_running <- function(x) {
   if (force_tests()) {
     # Return TRUE as this is used as a condition in an if statement
@@ -109,6 +131,17 @@ process_is_running <- function(x) {
     return(TRUE)
   }
 
-  cmd <- sprintf("ps aux | grep '%s' | grep -v grep", x)
-  tryCatch(system(cmd, ignore.stdout = TRUE) == 0, error = function(e) FALSE)
+  if (tolower(Sys.info()[["sysname"]]) == "windows") {
+    # Batch scripts (CMD.exe) doesn't provide a command that shows the original
+    # call arguments, which we need for testbench since it's launched from Python.
+    inner_cmd <- paste("WMIC path win32_process get Commandline",
+                       sprintf("| Select-String %s", x),
+                       "| Select-String powershell.exe -NotMatch")
+    cmd <- sprintf("powershell -command \"%s\"", inner_cmd)
+    tryCatch(length(system(cmd, intern = TRUE, show.output.on.console = FALSE)) > 0,
+      error = function(e) FALSE)
+  } else {
+    cmd <- sprintf("ps aux | grep '%s' | grep -v grep", x)
+    tryCatch(system(cmd, ignore.stdout = TRUE) == 0, error = function(e) FALSE)
+  }
 }
diff --git a/r/tests/testthat/test-Array.R b/r/tests/testthat/test-Array.R
index 56c7028d6a6..a5ff0a4e77b 100644
--- a/r/tests/testthat/test-Array.R
+++ b/r/tests/testthat/test-Array.R
@@ -180,6 +180,11 @@ test_that("Array support null type (ARROW-7064)", {
   expect_array_roundtrip(vctrs::unspecified(10), null())
 })
 
+test_that("Array support 0-length NULL vectors (Arrow-17543)", {
+  expect_type_equal(Array$create(c()), null())
+  expect_type_equal(Array$create(NULL), null())
+})
+
 test_that("Array supports logical vectors (ARROW-3341)", {
   # with NA
   x <- sample(c(TRUE, FALSE, NA), 1000, replace = TRUE)
@@ -207,6 +212,23 @@ test_that("Character vectors > 2GB become large_utf8", {
   expect_array_roundtrip(big, large_utf8())
 })
 
+test_that("Arrays with length > INT_MAX can be created and inspected", {
+  skip_on_cran()
+  skip_if_not_running_large_memory_tests()
+
+  big <- raw(as.double(.Machine$integer.max) + 2)
+  big[length(big)] <- as.raw(0xff)
+  big_array <- Array$create(big, type = uint8())
+  expect_identical(length(big_array), length(big))
+  expect_identical(
+    Array__GetScalar(big_array, length(big) - 1)$as_vector(),
+    255L
+  )
+
+  # Calling big_array$as_vector() will return an 8 GB integer vector
+  # which is too big to run on CI.
+})
+
 test_that("empty arrays are supported", {
   expect_array_roundtrip(character(), utf8())
   expect_array_roundtrip(character(), large_utf8(), as = large_utf8())
@@ -521,12 +543,25 @@ test_that("StructArray methods", {
   expect_identical(dim(a), c(10L, 3L))
 })
 
+test_that("StructArray creation", {
+  # from data.frame
+  a <- StructArray$create(example_data)
+  expect_identical(names(a), c("int", "dbl", "dbl2", "lgl", "false", "chr", "fct"))
+  expect_identical(dim(a), c(10L, 7L))
+  expect_r6_class(a, "StructArray")
+
+  # from Arrays
+  str_array <- StructArray$create(a = Array$create(1:2), b = Array$create(c("a", "b")))
+  expect_equal(str_array[[1]], Array$create(1:2))
+  expect_equal(str_array[[2]], Array$create(c("a", "b")))
+  expect_r6_class(str_array, "StructArray")
+})
+
 test_that("Array$create() can handle data frame with custom struct type (not inferred)", {
   df <- tibble::tibble(x = 1:10, y = 1:10)
   type <- struct(x = float64(), y = int16())
   a <- Array$create(df, type = type)
   expect_type_equal(a$type, type)
-
   type <- struct(x = float64(), y = int16(), z = int32())
   expect_error(
     Array$create(df, type = type),
@@ -765,15 +800,16 @@ test_that("Array$create() handles vector -> fixed size list arrays", {
 })
 
 test_that("Handling string data with embedded nuls", {
-  raws <- structure(list(
-    as.raw(c(0x70, 0x65, 0x72, 0x73, 0x6f, 0x6e)),
-    as.raw(c(0x77, 0x6f, 0x6d, 0x61, 0x6e)),
-    as.raw(c(0x6d, 0x61, 0x00, 0x6e)), # <-- there's your nul, 0x00
-    as.raw(c(0x66, 0x00, 0x00, 0x61, 0x00, 0x6e)), # multiple nuls
-    as.raw(c(0x63, 0x61, 0x6d, 0x65, 0x72, 0x61)),
-    as.raw(c(0x74, 0x76))
-  ),
-  class = c("arrow_binary", "vctrs_vctr", "list")
+  raws <- structure(
+    list(
+      as.raw(c(0x70, 0x65, 0x72, 0x73, 0x6f, 0x6e)),
+      as.raw(c(0x77, 0x6f, 0x6d, 0x61, 0x6e)),
+      as.raw(c(0x6d, 0x61, 0x00, 0x6e)), # <-- there's your nul, 0x00
+      as.raw(c(0x66, 0x00, 0x00, 0x61, 0x00, 0x6e)), # multiple nuls
+      as.raw(c(0x63, 0x61, 0x6d, 0x65, 0x72, 0x61)),
+      as.raw(c(0x74, 0x76))
+    ),
+    class = c("arrow_binary", "vctrs_vctr", "list")
   )
   expect_error(
     rawToChar(raws[[3]]),
@@ -845,21 +881,9 @@ test_that("Array$create() should have helpful error", {
   int <- integer(0)
   num <- numeric(0)
   char <- character(0)
-  expect_error(Array$create(list()), "Requires at least one element to infer")
   expect_error(Array$create(list(lgl, lgl, int)), "Expecting a logical vector")
   expect_error(Array$create(list(char, num, char)), "Expecting a character vector")
 
-  # hint at casting if direct fails and casting looks like it might work
-  expect_error(
-    Array$create(as.double(1:10), type = decimal(4, 2)),
-    "You might want to try casting manually"
-  )
-
-  expect_error(
-    Array$create(1:10, type = decimal(12, 2)),
-    "You might want to try casting manually"
-  )
-
   a <- expect_error(Array$create("one", int32()))
   b <- expect_error(vec_to_Array("one", int32()))
   # the captured conditions (errors) are not identical, but their messages should be
@@ -1025,6 +1049,14 @@ test_that("as_arrow_array() default method calls Array$create()", {
   )
 })
 
+test_that("as_arrow_array respects `type` argument (ARROW-17620)", {
+  df <- tibble::tibble(x = 1:10, y = 1:10)
+  type <- struct(x = float64(), y = int16())
+  a <- Array$create(df, type = type)
+
+  expect_type_equal(a, as_arrow_array(df, type = type))
+})
+
 test_that("as_arrow_array() works for Array", {
   array <- Array$create(logical(), type = null())
   expect_identical(as_arrow_array(array), array)
@@ -1110,7 +1142,7 @@ test_that("as_arrow_array() works for nested extension types", {
   nested_plain <- tibble::tibble(x = 1:5)
   extension_array <- vctrs_extension_array(nested_plain)
   expect_equal(
-    as_arrow_array(nested, type = extension_array$type),
+    as_arrow_array(nested_plain, type = extension_array$type),
     extension_array
   )
 })
@@ -1139,7 +1171,7 @@ test_that("Array$create() calls as_arrow_array() for nested extension types", {
   nested_plain <- tibble::tibble(x = 1:5)
   extension_array <- vctrs_extension_array(nested_plain)
   expect_equal(
-    Array$create(nested, type = extension_array$type),
+    Array$create(nested_plain, type = extension_array$type),
     extension_array
   )
 })
@@ -1160,6 +1192,69 @@ test_that("as_arrow_array() default method errors", {
   )
 })
 
+test_that("as_arrow_array() works for blob::blob()", {
+  skip_if_not_installed("blob")
+
+  # empty
+  expect_r6_class(as_arrow_array(blob::blob()), "Array")
+  expect_equal(
+    as_arrow_array(blob::blob()),
+    as_arrow_array(list(), type = binary())
+  )
+
+  # all null
+  expect_equal(
+    as_arrow_array(blob::blob(NULL, NULL)),
+    as_arrow_array(list(NULL, NULL), type = binary())
+  )
+
+  expect_equal(
+    as_arrow_array(blob::blob(as.raw(1:5), NULL)),
+    as_arrow_array(list(as.raw(1:5), NULL), type = binary())
+  )
+
+  expect_equal(
+    as_arrow_array(blob::blob(as.raw(1:5)), type = large_binary()),
+    as_arrow_array(list(as.raw(1:5)), type = large_binary())
+  )
+
+  expect_snapshot_error(
+    as_arrow_array(blob::blob(as.raw(1:5)), type = int32())
+  )
+})
+
+test_that("as_arrow_array() works for vctrs::list_of()", {
+  # empty
+  expect_r6_class(as_arrow_array(vctrs::list_of(.ptype = integer())), "Array")
+  expect_equal(
+    as_arrow_array(vctrs::list_of(.ptype = integer())),
+    as_arrow_array(list(), type = list_of(int32()))
+  )
+
+  # all NULL
+  expect_equal(
+    as_arrow_array(vctrs::list_of(NULL, NULL, .ptype = integer())),
+    as_arrow_array(list(NULL, NULL), type = list_of(int32()))
+  )
+
+  expect_equal(
+    as_arrow_array(vctrs::list_of(1:5, NULL, .ptype = integer())),
+    as_arrow_array(list(1:5, NULL), type = list_of(int32()))
+  )
+
+  expect_equal(
+    as_arrow_array(
+      vctrs::list_of(1:5, .ptype = integer()),
+      type = large_list_of(int32())
+    ),
+    as_arrow_array(list(1:5), type = large_list_of(int32()))
+  )
+
+  expect_snapshot_error(
+    as_arrow_array(vctrs::list_of(1:5, .ptype = integer()), type = int32())
+  )
+})
+
 test_that("concat_arrays works", {
   concat_empty <- concat_arrays()
   expect_true(concat_empty$type == null())
@@ -1230,3 +1325,53 @@ test_that("Array to C-interface", {
   delete_arrow_schema(schema_ptr)
   delete_arrow_array(array_ptr)
 })
+
+test_that("Can convert R integer/double to decimal (ARROW-11631)", {
+  # Check both decimal128 and decimal256
+  decimal128_from_dbl <- Array$create(c(1, NA_real_), type = decimal128(12, 2))
+  decimal256_from_dbl <- Array$create(c(1, NA_real_), type = decimal256(12, 2))
+  decimal128_from_int <- Array$create(c(1L, NA_integer_), type = decimal128(12, 2))
+  decimal256_from_int <- Array$create(c(1L, NA_integer_), type = decimal256(12, 2))
+
+  # Check ALTREP input
+  altrep_dbl <- as.vector(Array$create(c(1, NA_real_)))
+  altrep_int <- as.vector(Array$create(c(1L, NA_integer_)))
+  decimal_from_altrep_dbl <- Array$create(altrep_dbl, type = decimal128(12, 2))
+  decimal_from_altrep_int <- Array$create(altrep_int, type = decimal128(12, 2))
+
+  expect_equal(
+    decimal128_from_dbl,
+    Array$create(c(1, NA))$cast(decimal128(12, 2))
+  )
+
+  expect_equal(
+    decimal256_from_dbl,
+    Array$create(c(1, NA))$cast(decimal256(12, 2))
+  )
+
+  expect_equal(
+    decimal128_from_int,
+    Array$create(c(1, NA))$cast(decimal128(12, 2))
+  )
+
+  expect_equal(
+    decimal256_from_int,
+    Array$create(c(1, NA))$cast(decimal256(12, 2))
+  )
+
+  expect_equal(
+    decimal_from_altrep_dbl,
+    Array$create(c(1, NA))$cast(decimal128(12, 2))
+  )
+
+  expect_equal(
+    decimal_from_altrep_int,
+    Array$create(c(1, NA))$cast(decimal128(12, 2))
+  )
+
+  # Check that other types aren't silently but invalidly converted
+  expect_error(
+    Array$create(complex(), decimal128(12, 2)),
+    "Conversion to decimal from non-integer/double"
+  )
+})
diff --git a/r/tests/testthat/test-RecordBatch.R b/r/tests/testthat/test-RecordBatch.R
index 6b79325934e..7e7084542d3 100644
--- a/r/tests/testthat/test-RecordBatch.R
+++ b/r/tests/testthat/test-RecordBatch.R
@@ -642,14 +642,19 @@ test_that("Handling string data with embedded nuls", {
   batch_with_nul$b <- batch_with_nul$b$cast(utf8())
 
   withr::with_options(list(arrow.skip_nul = TRUE), {
-    expect_warning(
-      expect_equal(
-        as.data.frame(batch_with_nul)$b,
-        c("person", "woman", "man", "camera", "tv"),
-        ignore_attr = TRUE
-      ),
-      "Stripping '\\0' (nul) from character vector",
-      fixed = TRUE
+    # Because expect_equal() may call identical(x, y) more than once,
+    # the string with a nul may be created more than once and multiple
+    # warnings may be issued.
+    suppressWarnings(
+      expect_warning(
+        expect_equal(
+          as.data.frame(batch_with_nul)$b,
+          c("person", "woman", "man", "camera", "tv"),
+          ignore_attr = TRUE
+        ),
+        "Stripping '\\0' (nul) from character vector",
+        fixed = TRUE
+      )
     )
   })
 })
diff --git a/r/tests/testthat/test-Table.R b/r/tests/testthat/test-Table.R
index bafd183108a..634c0e9d480 100644
--- a/r/tests/testthat/test-Table.R
+++ b/r/tests/testthat/test-Table.R
@@ -692,5 +692,16 @@ test_that("num_rows method not susceptible to integer overflow", {
   expect_type(big_table$num_rows, "double")
 
   expect_identical(big_string_array$data()$buffers[[3]]$size, 2148007936)
+})
 
+test_that("can create empty table from schema", {
+  schema <- schema(
+    col1 = float64(),
+    col2 = string(),
+    col3 = vctrs_extension_type(integer())
+  )
+  out <- Table$create(schema = schema)
+  expect_r6_class(out, "Table")
+  expect_equal(nrow(out), 0)
+  expect_equal(out$schema, schema)
 })
diff --git a/r/tests/testthat/test-altrep.R b/r/tests/testthat/test-altrep.R
index cd1d841c420..4eb316d4460 100644
--- a/r/tests/testthat/test-altrep.R
+++ b/r/tests/testthat/test-altrep.R
@@ -17,8 +17,34 @@
 
 skip_on_r_older_than("3.6")
 
-test_that("is_arrow_altrep() does not include base altrep", {
+test_that("altrep test functions do not include base altrep", {
   expect_false(is_arrow_altrep(1:10))
+  expect_identical(test_arrow_altrep_is_materialized(1:10), NA)
+  expect_error(
+    test_arrow_altrep_force_materialize(1:10),
+    "is not arrow ALTREP"
+  )
+  expect_error(
+    test_arrow_altrep_copy_by_element(1:10),
+    "is not arrow ALTREP"
+  )
+  expect_error(
+    test_arrow_altrep_copy_by_region(1:10, 1024),
+    "is not arrow ALTREP"
+  )
+  expect_error(
+    test_arrow_altrep_copy_by_dataptr(1:10),
+    "is not arrow ALTREP"
+  )
+})
+
+test_that(".Internal(inspect()) prints out Arrow altrep info", {
+  withr::local_options(list(arrow.use_altrep = TRUE))
+  alt <- as.vector(Array$create(1:1000))
+
+  expect_output(.Internal(inspect(alt)), "\\] arrow::array_int_vector")
+  expect_true(test_arrow_altrep_force_materialize(alt))
+  expect_output(.Internal(inspect(alt)), "materialized arrow::array_int_vector")
 })
 
 test_that("altrep vectors from int32 and dbl arrays with no nulls", {
@@ -54,6 +80,54 @@ test_that("altrep vectors from int32 and dbl arrays with no nulls", {
   expect_false(is_arrow_altrep(as.vector(v_dbl$Slice(1))))
 })
 
+test_that("element access methods for int32 ALTREP with no nulls", {
+  withr::local_options(list(arrow.use_altrep = TRUE))
+  original <- 1:1000
+  v_int <- Array$create(original)
+  altrep <- as.vector(v_int)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # altrep-aware iterating should not materialize
+  expect_identical(test_arrow_altrep_copy_by_element(altrep), original)
+  expect_identical(test_arrow_altrep_copy_by_region(altrep, 123), original)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # because there are no nulls, DATAPTR() does not materialize
+  expect_identical(test_arrow_altrep_copy_by_dataptr(altrep), original)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # test element access after forcing materialization
+  expect_true(test_arrow_altrep_force_materialize(altrep))
+  expect_true(test_arrow_altrep_is_materialized(altrep))
+  expect_identical(test_arrow_altrep_copy_by_element(altrep), original)
+  expect_identical(test_arrow_altrep_copy_by_region(altrep, 123), original)
+  expect_identical(test_arrow_altrep_copy_by_dataptr(altrep), original)
+})
+
+test_that("element access methods for double ALTREP with no nulls", {
+  withr::local_options(list(arrow.use_altrep = TRUE))
+  original <- as.double(1:1000)
+  v_dbl <- Array$create(original)
+  altrep <- as.vector(v_dbl)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # altrep-aware iterating should not materialize
+  expect_identical(test_arrow_altrep_copy_by_element(altrep), original)
+  expect_identical(test_arrow_altrep_copy_by_region(altrep, 123), original)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # because there are no nulls, DATAPTR() does not materialize
+  expect_identical(test_arrow_altrep_copy_by_dataptr(altrep), original)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # test element access after forcing materialization
+  expect_true(test_arrow_altrep_force_materialize(altrep))
+  expect_true(test_arrow_altrep_is_materialized(altrep))
+  expect_identical(test_arrow_altrep_copy_by_element(altrep), original)
+  expect_identical(test_arrow_altrep_copy_by_region(altrep, 123), original)
+  expect_identical(test_arrow_altrep_copy_by_dataptr(altrep), original)
+})
+
 test_that("altrep vectors from int32 and dbl arrays with nulls", {
   withr::local_options(list(arrow.use_altrep = TRUE))
   v_int <- Array$create(c(1L, NA, 3L))
@@ -75,7 +149,6 @@ test_that("altrep vectors from int32 and dbl arrays with nulls", {
   expect_true(is_arrow_altrep(as.vector(c_int$Slice(2))))
   expect_true(is_arrow_altrep(as.vector(c_dbl$Slice(2))))
 
-  # chunked array with 2 chunks cannot be altrep
   c_int <- ChunkedArray$create(0L, c(1L, NA, 3L))
   c_dbl <- ChunkedArray$create(0, c(1, NA, 3))
   expect_equal(c_int$num_chunks, 2L)
@@ -87,6 +160,123 @@ test_that("altrep vectors from int32 and dbl arrays with nulls", {
   expect_true(is_arrow_altrep(as.vector(c_dbl$Slice(3))))
 })
 
+test_that("element access methods for int32 ALTREP with nulls", {
+  withr::local_options(list(arrow.use_altrep = TRUE))
+  original <- c(NA, 1:1000)
+  v_int <- Array$create(original)
+  altrep <- as.vector(v_int)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # altrep-aware iterating should not materialize
+  expect_identical(test_arrow_altrep_copy_by_element(altrep), original)
+  expect_identical(test_arrow_altrep_copy_by_region(altrep, 123), original)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # because there are no nulls, DATAPTR() does not materialize
+  expect_identical(test_arrow_altrep_copy_by_dataptr(altrep), original)
+  expect_true(test_arrow_altrep_is_materialized(altrep))
+
+  # test element access after materialization
+  expect_true(test_arrow_altrep_is_materialized(altrep))
+  expect_identical(test_arrow_altrep_copy_by_element(altrep), original)
+  expect_identical(test_arrow_altrep_copy_by_region(altrep, 123), original)
+  expect_identical(test_arrow_altrep_copy_by_dataptr(altrep), original)
+})
+
+test_that("element access methods for double ALTREP with nulls", {
+  withr::local_options(list(arrow.use_altrep = TRUE))
+  original <- as.double(c(NA, 1:1000))
+  v_dbl <- Array$create(original)
+  altrep <- as.vector(v_dbl)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # altrep-aware iterating should not materialize
+  expect_identical(test_arrow_altrep_copy_by_element(altrep), original)
+  expect_identical(test_arrow_altrep_copy_by_region(altrep, 123), original)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # because there are no nulls, DATAPTR() does not materialize
+  expect_identical(test_arrow_altrep_copy_by_dataptr(altrep), original)
+  expect_true(test_arrow_altrep_is_materialized(altrep))
+
+  # test element access after materialization
+  expect_true(test_arrow_altrep_is_materialized(altrep))
+  expect_identical(test_arrow_altrep_copy_by_element(altrep), original)
+  expect_identical(test_arrow_altrep_copy_by_region(altrep, 123), original)
+  expect_identical(test_arrow_altrep_copy_by_dataptr(altrep), original)
+})
+
+test_that("altrep vectors from string arrays", {
+  withr::local_options(list(arrow.use_altrep = TRUE))
+  v_chr <- Array$create(c("one", NA, "three"))
+  c_chr <- ChunkedArray$create(c("one", NA, "three"))
+
+  expect_true(is_arrow_altrep(as.vector(v_chr)))
+  expect_true(is_arrow_altrep(as.vector(v_chr$Slice(1))))
+  expect_true(is_arrow_altrep(as.vector(c_chr)))
+  expect_true(is_arrow_altrep(as.vector(c_chr$Slice(1))))
+
+  expect_true(is_arrow_altrep(as.vector(v_chr$Slice(2))))
+  expect_true(is_arrow_altrep(as.vector(c_chr$Slice(2))))
+
+  c_chr <- ChunkedArray$create("zero", c("one", NA, "three"))
+  expect_equal(c_chr$num_chunks, 2L)
+
+  expect_true(is_arrow_altrep(as.vector(c_chr)))
+  expect_true(is_arrow_altrep(as.vector(c_chr$Slice(3))))
+})
+
+test_that("can't SET_STRING_ELT() on character ALTREP", {
+  withr::local_options(list(arrow.use_altrep = TRUE))
+  alt <- as.vector(Array$create(c("one", "two", "three")))
+  expect_error(
+    test_arrow_altrep_set_string_elt(alt, 0, "value"),
+    "are immutable"
+  )
+})
+
+test_that("element access methods for character ALTREP", {
+  withr::local_options(list(arrow.use_altrep = TRUE))
+  original <- as.character(c(NA, 1:1000))
+  v_chr <- Array$create(original)
+  altrep <- as.vector(v_chr)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # altrep-aware iterating should not materialize
+  expect_identical(test_arrow_altrep_copy_by_element(altrep), original)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # DATAPTR() should always materialize for strings
+  expect_identical(test_arrow_altrep_copy_by_dataptr(altrep), original)
+  expect_true(test_arrow_altrep_is_materialized(altrep))
+
+  # test element access after materialization
+  expect_true(test_arrow_altrep_is_materialized(altrep))
+  expect_identical(test_arrow_altrep_copy_by_element(altrep), original)
+  expect_identical(test_arrow_altrep_copy_by_dataptr(altrep), original)
+})
+
+test_that("element access methods for character ALTREP from large_utf8()", {
+  withr::local_options(list(arrow.use_altrep = TRUE))
+  original <- as.character(c(NA, 1:1000))
+  v_chr <- Array$create(original, type = large_utf8())
+  altrep <- as.vector(v_chr)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # altrep-aware iterating should not materialize
+  expect_identical(test_arrow_altrep_copy_by_element(altrep), original)
+  expect_false(test_arrow_altrep_is_materialized(altrep))
+
+  # DATAPTR() should always materialize for strings
+  expect_identical(test_arrow_altrep_copy_by_dataptr(altrep), original)
+  expect_true(test_arrow_altrep_is_materialized(altrep))
+
+  # test element access after materialization
+  expect_true(test_arrow_altrep_is_materialized(altrep))
+  expect_identical(test_arrow_altrep_copy_by_element(altrep), original)
+  expect_identical(test_arrow_altrep_copy_by_dataptr(altrep), original)
+})
+
 test_that("empty vectors are not altrep", {
   withr::local_options(list(arrow.use_altrep = TRUE))
   v_int <- Array$create(integer())
@@ -149,20 +339,28 @@ test_that("as.data.frame(<Table>, <RecordBatch>) can create altrep vectors", {
 })
 
 expect_altrep_roundtrip <- function(x, fn, ..., .expect_warning = NA) {
+  # check altrep Array
   alt <- Array$create(x)$as_vector()
-
   expect_true(is_arrow_altrep(alt))
   expect_warning(
-    expect_identical(fn(x, ...), fn(alt, ...)), .expect_warning
+    expect_identical(fn(alt, ...), suppressWarnings(fn(x, ...))), .expect_warning
   )
-  expect_true(is_arrow_altrep(alt))
+  expect_false(test_arrow_altrep_is_materialized(alt))
 
+  # check altrep ChunkedArray
   alt2 <- ChunkedArray$create(x, x)$as_vector()
   expect_true(is_arrow_altrep(alt2))
   expect_warning(
-    expect_identical(fn(c(x, x), ...), fn(alt2, ...)), .expect_warning
+    expect_identical(fn(alt2, ...), suppressWarnings(fn(c(x, x), ...))), .expect_warning
+  )
+  expect_false(test_arrow_altrep_is_materialized(alt2))
+
+  # Check materialized altrep
+  alt3 <- Array$create(x)$as_vector()
+  expect_true(test_arrow_altrep_force_materialize(alt3))
+  expect_warning(
+    expect_identical(fn(alt3, ...), suppressWarnings(fn(x, ...))), .expect_warning
   )
-  expect_true(is_arrow_altrep(alt2))
 }
 
 test_that("altrep min/max/sum identical to R versions for double", {
@@ -231,17 +429,20 @@ test_that("altrep vectors handle serialization", {
   ints <- c(1L, 2L, NA_integer_)
   dbls <- c(1, 2, NA_real_)
   strs <- c("un", "deux", NA_character_)
+  fctrs <- as.factor(strs)
 
   expect_identical(ints, unserialize(serialize(Array$create(ints)$as_vector(), NULL)))
   expect_identical(dbls, unserialize(serialize(Array$create(dbls)$as_vector(), NULL)))
   expect_identical(strs, unserialize(serialize(Array$create(strs)$as_vector(), NULL)))
   expect_identical(strs, unserialize(serialize(Array$create(strs, large_utf8())$as_vector(), NULL)))
+  expect_identical(fctrs, unserialize(serialize(Array$create(fctrs)$as_vector(), NULL)))
 })
 
 test_that("altrep vectors handle coercion", {
   ints <- c(1L, 2L, NA_integer_)
   dbls <- c(1, 2, NA_real_)
   strs <- c("1", "2", NA_character_)
+  fctrs <- as.factor(strs)
 
   expect_identical(ints, as.integer(Array$create(dbls)$as_vector()))
   expect_identical(ints, as.integer(Array$create(strs)$as_vector()))
@@ -251,6 +452,9 @@ test_that("altrep vectors handle coercion", {
 
   expect_identical(strs, as.character(Array$create(ints)$as_vector()))
   expect_identical(strs, as.character(Array$create(dbls)$as_vector()))
+
+  expect_identical(fctrs, as.factor(Array$create(fctrs)$as_vector()))
+  expect_identical(strs, as.character(Array$create(fctrs)$as_vector()))
 })
 
 test_that("columns of struct types may be altrep", {
@@ -353,6 +557,56 @@ test_that("dictionaries chunked arrays are made altrep", {
   expect_equal(as.integer(f), c(1L, 2L, 3L, 4L, 1L, NA_integer_, 5L))
 })
 
+test_that("element access methods for ALTREP factors", {
+  index_types <- list(int8(), uint8(), int16(), uint16(), int32(), uint32())
+
+  for (index_type in index_types) {
+    # without unification
+    int_indices <- c(1L, 2L, 4L, 3L, 1L, NA_integer_, 5L)
+    x <- ChunkedArray$create(
+      factor(c("a", "b"), levels = letters[1:5]),
+      factor(c("d", "c", "a", NA, "e"), levels = letters[1:5]),
+      type = dictionary(index_type, string())
+    )
+    f <- x$as_vector()
+    expect_true(is_arrow_altrep(f))
+    # This may fail interactively because str() currently
+    # calls unclass(f), which calls our duplicate method
+    expect_false(test_arrow_altrep_is_materialized(f))
+
+    expect_identical(test_arrow_altrep_copy_by_element(f), int_indices)
+    expect_identical(test_arrow_altrep_copy_by_region(f, 3), int_indices)
+    expect_false(test_arrow_altrep_is_materialized(f))
+
+    expect_identical(test_arrow_altrep_copy_by_dataptr(f), int_indices)
+    expect_true(test_arrow_altrep_is_materialized(f))
+
+    expect_identical(test_arrow_altrep_copy_by_element(f), int_indices)
+    expect_identical(test_arrow_altrep_copy_by_region(f, 3), int_indices)
+
+    # with unification
+    int_indices <- c(1L, 2L, 3L, 4L, 1L, NA_integer_, 5L)
+    x <- ChunkedArray$create(
+      factor(c("a", "b"), levels = c("a", "b")),
+      factor(c("d", "c", "a", NA, "e"), levels = c("d", "c", "a", "e")),
+      type = dictionary(index_type, string())
+    )
+    f <- x$as_vector()
+    expect_true(is_arrow_altrep(f))
+    expect_false(test_arrow_altrep_is_materialized(f))
+
+    expect_identical(test_arrow_altrep_copy_by_element(f), int_indices)
+    expect_identical(test_arrow_altrep_copy_by_region(f, 3), int_indices)
+    expect_false(test_arrow_altrep_is_materialized(f))
+
+    expect_identical(test_arrow_altrep_copy_by_dataptr(f), int_indices)
+    expect_true(test_arrow_altrep_is_materialized(f))
+
+    expect_identical(test_arrow_altrep_copy_by_element(f), int_indices)
+    expect_identical(test_arrow_altrep_copy_by_region(f, 3), int_indices)
+  }
+})
+
 
 test_that("R checks for bounds", {
   v_int <- Array$create(c(1, 2, 3))$as_vector()
diff --git a/r/tests/testthat/test-chunked-array.R b/r/tests/testthat/test-chunked-array.R
index ce43d84274f..223f5022d3b 100644
--- a/r/tests/testthat/test-chunked-array.R
+++ b/r/tests/testthat/test-chunked-array.R
@@ -189,10 +189,10 @@ test_that("ChunkedArray handles NaN", {
 
 test_that("ChunkedArray supports logical vectors (ARROW-3341)", {
   # with NA
-  data <- purrr::rerun(3, sample(c(TRUE, FALSE, NA), 100, replace = TRUE))
+  data <- purrr::map(1:3, ~ sample(c(TRUE, FALSE, NA), 100, replace = TRUE))
   expect_chunked_roundtrip(data, bool())
   # without NA
-  data <- purrr::rerun(3, sample(c(TRUE, FALSE), 100, replace = TRUE))
+  data <- purrr::map(1:3, ~ sample(c(TRUE, FALSE), 100, replace = TRUE))
   expect_chunked_roundtrip(data, bool())
 })
 
diff --git a/r/tests/testthat/test-compute-vector.R b/r/tests/testthat/test-compute-vector.R
index 1e25c9e6a47..6d63ad26731 100644
--- a/r/tests/testthat/test-compute-vector.R
+++ b/r/tests/testthat/test-compute-vector.R
@@ -83,6 +83,27 @@ test_that("logic ops with Array", {
   )
 })
 
+test_that("binary slice kernel with Array", {
+  binary_array <- Array$create(
+    iconv(c("a", "ab", "abc", "abcd"), toRaw = TRUE),
+    type = binary()
+  )
+
+  result <- call_function(
+    "binary_slice",
+    binary_array,
+    options = list(start = 0, stop = 1)
+  )
+  expect_equal(result$cast(string()), Array$create(c("a", "a", "a", "a")))
+
+  result <- call_function(
+    "binary_slice",
+    binary_array,
+    options = list(start = -1)
+  )
+  expect_equal(result$cast(string()), Array$create(c("a", "b", "c", "d")))
+})
+
 test_that("logic ops with ChunkedArray", {
   truth <- expand.grid(left = c(TRUE, FALSE, NA), right = c(TRUE, FALSE, NA))
   a_left <- ChunkedArray$create(truth$left)
@@ -116,7 +137,7 @@ test_that("call_function validation", {
       Array$create(c(TRUE, FALSE, TRUE)),
       options = list(keep_na = TRUE)
     ),
-    "arguments must all be the same length"
+    "Arguments for execution of vector kernel function 'array_filter' must all be the same length"
   )
   expect_error(
     call_function("filter",
diff --git a/r/tests/testthat/test-csv.R b/r/tests/testthat/test-csv.R
index cd8da2625c7..e08d510b9ef 100644
--- a/r/tests/testthat/test-csv.R
+++ b/r/tests/testthat/test-csv.R
@@ -225,8 +225,11 @@ test_that("read_csv_arrow() can read timestamps", {
   # time zones are being read in as time zone-naive, hence ignore_attr = "tzone"
   expect_equal(tbl, df, ignore_attr = "tzone")
 
-  df <- read_csv_arrow(tf, col_types = "T", col_names = "time", skip = 1)
-  expect_equal(tbl, df, ignore_attr = "tzone")
+  # work with schema to specify timestamp with time zone type
+  tbl <- tibble::tibble(time = "1970-01-01T12:00:00+12:00")
+  write.csv(tbl, tf, row.names = FALSE)
+  df <- read_csv_arrow(tf, col_types = schema(time = timestamp(unit = "us", timezone = "UTC")))
+  expect_equal(df, tibble::tibble(time = as.POSIXct("1970-01-01 00:00:00", tz = "UTC")))
 })
 
 test_that("read_csv_arrow(timestamp_parsers=)", {
@@ -419,6 +422,45 @@ test_that("Write a CSV file with invalid batch size", {
   )
 })
 
+test_that("Write a CSV with custom NA value", {
+  tbl_out1 <- write_csv_arrow(tbl_no_dates, csv_file, na = "NULL_VALUE")
+  expect_true(file.exists(csv_file))
+  expect_identical(tbl_out1, tbl_no_dates)
+
+  csv_contents <- readLines(csv_file)
+  expect_true(any(grepl("NULL_VALUE", csv_contents)))
+
+  tbl_in1 <- read_csv_arrow(csv_file, na = "NULL_VALUE")
+  expect_identical(tbl_in1, tbl_no_dates)
+
+  # Also can use null_value in CsvWriteOptions
+  tbl_out1 <- write_csv_arrow(tbl_no_dates, csv_file,
+    write_options = CsvWriteOptions$create(null_string = "another_null")
+  )
+  csv_contents <- readLines(csv_file)
+  expect_true(any(grepl("another_null", csv_contents)))
+
+  tbl_in1 <- read_csv_arrow(csv_file, na = "another_null")
+  expect_identical(tbl_in1, tbl_no_dates)
+
+  # Also can use empty string
+  write_csv_arrow(tbl_no_dates, csv_file, na = "")
+  expect_true(file.exists(csv_file))
+
+  csv_contents <- readLines(csv_file)
+  expect_true(any(grepl(",,", csv_contents)))
+
+  tbl_in1 <- read_csv_arrow(csv_file)
+  expect_identical(tbl_in1, tbl_no_dates)
+})
+
+test_that("Write a CSV file with invalid null value", {
+  expect_error(
+    write_csv_arrow(tbl_no_dates, csv_file, na = "MY\"VAL"),
+    regexp = "must not contain quote characters"
+  )
+})
+
 test_that("time mapping work as expected (ARROW-13624)", {
   tbl <- tibble::tibble(
     dt = as.POSIXct(c("2020-07-20 16:20", NA), tz = "UTC"),
@@ -610,3 +652,38 @@ test_that("read_csv_arrow() can read sub-second timestamps with col_types T sett
   expected <- as.POSIXct(tbl$time, tz = "UTC")
   expect_equal(df$time, expected, ignore_attr = "tzone")
 })
+
+test_that("Shows an error message when trying to read a timestamp with time zone with col_types = T (ARROW-17429)", {
+  tbl <- tibble::tibble(time = c("1970-01-01T12:00:00+12:00"))
+  csv_file <- tempfile()
+  on.exit(unlink(csv_file))
+  write.csv(tbl, csv_file, row.names = FALSE)
+
+  expect_error(
+    read_csv_arrow(csv_file, col_types = "T", col_names = "time", skip = 1),
+    "CSV conversion error to timestamp\\[ns\\]: expected no zone offset in"
+  )
+})
+
+test_that("CSV reading/parsing/convert options can be passed in as lists", {
+  tf <- tempfile()
+  on.exit(unlink(tf))
+
+  writeLines('"x"\nNA\nNA\n"NULL"\n\n"foo"\n', tf)
+
+  tab1 <- read_csv_arrow(
+    tf,
+    convert_options = list(null_values = c("NA", "NULL"), strings_can_be_null = TRUE),
+    parse_options = list(ignore_empty_lines = FALSE),
+    read_options = list(skip_rows = 1L)
+  )
+
+  tab2 <- read_csv_arrow(
+    tf,
+    convert_options = CsvConvertOptions$create(null_values = c(NA, "NA", "NULL"), strings_can_be_null = TRUE),
+    parse_options = CsvParseOptions$create(ignore_empty_lines = FALSE),
+    read_options = CsvReadOptions$create(skip_rows = 1L)
+  )
+
+  expect_equal(tab1, tab2)
+})
diff --git a/r/tests/testthat/test-data-type.R b/r/tests/testthat/test-data-type.R
index 16fcf8e0a38..0f193f19d37 100644
--- a/r/tests/testthat/test-data-type.R
+++ b/r/tests/testthat/test-data-type.R
@@ -365,6 +365,14 @@ test_that("list type works as expected", {
   )
   expect_equal(x$value_type, int32())
   expect_equal(x$value_field, field("item", int32()))
+
+  # nullability matters in comparison
+  expect_false(x$Equals(list_of(field("item", int32(), nullable = FALSE))))
+
+  # field names don't matter by default
+  other_name <- list_of(field("other", int32()))
+  expect_equal(x, other_name, ignore_attr = TRUE)
+  expect_false(x$Equals(other_name, check_metadata = TRUE))
 })
 
 test_that("map type works as expected", {
@@ -388,6 +396,14 @@ test_that("map type works as expected", {
   # we can make this comparison:
   # expect_equal(x$value_type, struct(key = x$key_field, value = x$item_field)) # nolint
   expect_false(x$keys_sorted)
+
+  # nullability matters in comparison
+  expect_false(x$Equals(map_of(int32(), field("value", utf8(), nullable = FALSE))))
+
+  # field names don't matter by default
+  other_name <- map_of(int32(), field("other", utf8()))
+  expect_equal(x, other_name, ignore_attr = TRUE)
+  expect_false(x$Equals(other_name, check_metadata = TRUE))
 })
 
 test_that("map type validates arguments", {
diff --git a/r/tests/testthat/test-dataset-csv.R b/r/tests/testthat/test-dataset-csv.R
index b718bce2ffd..b25c57b2ba2 100644
--- a/r/tests/testthat/test-dataset-csv.R
+++ b/r/tests/testthat/test-dataset-csv.R
@@ -22,6 +22,11 @@ library(dplyr, warn.conflicts = FALSE)
 csv_dir <- make_temp_dir()
 tsv_dir <- make_temp_dir()
 
+# Data containing a header row
+tbl <- df1[, c("int", "dbl")]
+header_csv_dir <- make_temp_dir()
+headerless_csv_dir <- make_temp_dir()
+
 test_that("Setup (putting data in the dirs)", {
   dir.create(file.path(csv_dir, 5))
   dir.create(file.path(csv_dir, 6))
@@ -35,6 +40,9 @@ test_that("Setup (putting data in the dirs)", {
   write.table(df1, file.path(tsv_dir, 5, "file1.tsv"), row.names = FALSE, sep = "\t")
   write.table(df2, file.path(tsv_dir, 6, "file2.tsv"), row.names = FALSE, sep = "\t")
   expect_length(dir(tsv_dir, recursive = TRUE), 2)
+
+  write.table(tbl, file.path(header_csv_dir, "file1.csv"), sep = ",", row.names = FALSE)
+  write.table(tbl, file.path(headerless_csv_dir, "file1.csv"), sep = ",", row.names = FALSE, col.names = FALSE)
 })
 
 test_that("CSV dataset", {
@@ -42,10 +50,8 @@ test_that("CSV dataset", {
   expect_r6_class(ds$format, "CsvFileFormat")
   expect_r6_class(ds$filesystem, "LocalFileSystem")
   expect_identical(names(ds), c(names(df1), "part"))
-  if (getRversion() >= "4.0.0") {
-    # CountRows segfaults on RTools35/R 3.6, so don't test it there
-    expect_identical(dim(ds), c(20L, 7L))
-  }
+  expect_identical(dim(ds), c(20L, 7L))
+
   expect_equal(
     ds %>%
       select(string = chr, integer = int, part) %>%
@@ -212,9 +218,9 @@ test_that("readr parse options", {
     character(0)
   )
 
-  # With not yet supported readr parse options (ARROW-8631)
+  # With not yet supported readr parse options
   expect_error(
-    open_dataset(tsv_dir, partitioning = "part", delim = "\t", na = "\\N"),
+    open_dataset(tsv_dir, partitioning = "part", delim = "\t", quoted_na = TRUE),
     "supported"
   )
 
@@ -267,6 +273,28 @@ test_that("readr parse options", {
   )
 })
 
+test_that("Can set null string values", {
+  dst_dir <- make_temp_dir()
+  df <- tibble(x = c(1, NA, 3))
+  write_dataset(df, dst_dir, null_string = "NULL_VALUE", format = "csv")
+
+  csv_contents <- readLines(list.files(dst_dir, full.names = TRUE)[1])
+  expect_equal(csv_contents, c("\"x\"", "1", "NULL_VALUE", "3"))
+
+  back <- open_dataset(dst_dir, null_values = "NULL_VALUE", format = "csv") %>% collect()
+  expect_equal(df, back)
+
+  # Also works with `na` parameter
+  dst_dir <- make_temp_dir()
+  write_dataset(df, dst_dir, na = "another_null", format = "csv")
+
+  csv_contents <- readLines(list.files(dst_dir, full.names = TRUE)[1])
+  expect_equal(csv_contents, c("\"x\"", "1", "another_null", "3"))
+
+  back <- open_dataset(dst_dir, null_values = "another_null", format = "csv") %>% collect()
+  expect_equal(df, back)
+})
+
 # see https://issues.apache.org/jira/browse/ARROW-12791
 test_that("Error if no format specified and files are not parquet", {
   expect_error(
@@ -281,12 +309,6 @@ test_that("Error if no format specified and files are not parquet", {
 })
 
 test_that("Column names can be inferred from schema", {
-  tbl <- df1[, c("int", "dbl")]
-
-  # Data containing a header row
-  header_csv_dir <- make_temp_dir()
-  write.table(tbl, file.path(header_csv_dir, "file1.csv"), sep = ",", row.names = FALSE)
-
   # First row must be skipped if file has header
   ds <- open_dataset(
     header_csv_dir,
@@ -312,10 +334,6 @@ test_that("Column names can be inferred from schema", {
     )
   )
 
-  # Data with no header row
-  headerless_csv_dir <- make_temp_dir()
-  write.table(tbl, file.path(headerless_csv_dir, "file1.csv"), sep = ",", row.names = FALSE, col.names = FALSE)
-
   ds <- open_dataset(
     headerless_csv_dir,
     format = "csv",
@@ -324,6 +342,48 @@ test_that("Column names can be inferred from schema", {
   expect_equal(ds %>% collect(), tbl)
 })
 
+test_that("Can use col_names readr parameter", {
+  expected_names <- c("my_int", "my_double")
+  ds <- open_dataset(
+    headerless_csv_dir,
+    format = "csv",
+    col_names = expected_names
+  )
+  expect_equal(names(ds), expected_names)
+  expect_equal(ds %>% collect(), set_names(tbl, expected_names))
+
+  # WITHOUT header, makes up names
+  ds <- open_dataset(
+    headerless_csv_dir,
+    format = "csv",
+    col_names = FALSE
+  )
+  expect_equal(names(ds), c("f0", "f1"))
+  expect_equal(ds %>% collect(), set_names(tbl, c("f0", "f1")))
+
+  # WITH header, gets names
+  ds <- open_dataset(
+    header_csv_dir,
+    format = "csv",
+    col_names = TRUE
+  )
+  expect_equal(names(ds), c("int", "dbl"))
+  expect_equal(ds %>% collect(), tbl)
+
+  ds <- open_dataset(
+    header_csv_dir,
+    format = "csv",
+    col_names = FALSE,
+    skip = 1
+  )
+  expect_equal(names(ds), c("f0", "f1"))
+  expect_equal(ds %>% collect(), set_names(tbl, c("f0", "f1")))
+
+  expect_error(
+    open_dataset(headerless_csv_dir, format = "csv", col_names = c("my_int"))
+  )
+})
+
 test_that("open_dataset() deals with BOMs (byte-order-marks) correctly", {
   temp_dir <- make_temp_dir()
   writeLines("\xef\xbb\xbfa,b\n1,2\n", con = file.path(temp_dir, "file1.csv"))
@@ -382,3 +442,123 @@ test_that("skip argument in open_dataset", {
   )
   expect_equal(collect(ds), tbl)
 })
+
+test_that("error message if non-schema passed in as schema to open_dataset", {
+  # passing in the schema function, not an actual schema
+  expect_error(
+    open_dataset(csv_dir, format = "csv", schema = schema),
+    regexp = "`schema` must be an object of class 'Schema' not 'function'.",
+    fixed = TRUE
+  )
+})
+
+test_that("CSV reading/parsing/convert options can be passed in as lists", {
+  tf <- tempfile()
+  on.exit(unlink(tf))
+
+  writeLines('"x"\n"y"\nNA\nNA\n"NULL"\n\n"foo"\n', tf)
+
+  ds1 <- open_dataset(
+    tf,
+    format = "csv",
+    convert_options = list(null_values = c("NA", "NULL"), strings_can_be_null = TRUE),
+    read_options = list(skip_rows = 1L)
+  ) %>%
+    collect()
+
+  ds2 <- open_dataset(
+    tf,
+    format = "csv",
+    convert_options = CsvConvertOptions$create(null_values = c(NA, "NA", "NULL"), strings_can_be_null = TRUE),
+    read_options = CsvReadOptions$create(skip_rows = 1L)
+  ) %>%
+    collect()
+
+  expect_equal(ds1, ds2)
+})
+
+test_that("open_delim_dataset params passed through to open_dataset", {
+  ds <- open_delim_dataset(csv_dir, delim = ",", partitioning = "part")
+  expect_r6_class(ds$format, "CsvFileFormat")
+  expect_r6_class(ds$filesystem, "LocalFileSystem")
+  expect_identical(names(ds), c(names(df1), "part"))
+  expect_identical(dim(ds), c(20L, 7L))
+
+  # quote
+  dst_dir <- make_temp_dir()
+  dst_file <- file.path(dst_dir, "data.csv")
+
+  df <- data.frame(a = c(1, 2), b = c("'abc'", "'def'"))
+  write.csv(df, dst_file, row.names = FALSE, quote = FALSE)
+
+  ds_quote <- open_csv_dataset(dst_dir, quote = "'") %>% collect()
+  expect_equal(ds_quote$b, c("abc", "def"))
+
+  # na
+  ds <- open_csv_dataset(csv_dir, partitioning = "part", na = c("", "NA", "FALSE")) %>% collect()
+  expect_identical(ds$lgl, c(
+    TRUE, NA, NA, TRUE, NA, TRUE, NA, NA, TRUE, NA, TRUE, NA, NA,
+    TRUE, NA, TRUE, NA, NA, TRUE, NA
+  ))
+
+  # col_names and skip
+  ds <- open_csv_dataset(
+    csv_dir,
+    partitioning = "part",
+    col_names = paste0("col_", 1:6),
+    skip = 1
+  ) %>% collect()
+
+  expect_named(ds, c("col_1", "col_2", "col_3", "col_4", "col_5", "col_6", "part"))
+  expect_equal(nrow(ds), 20)
+
+  # col_types
+  dst_dir <- make_temp_dir()
+  dst_file <- file.path(dst_dir, "data.csv")
+
+  df <- data.frame(a = c(1, NA, 2), b = c("'abc'", NA, "'def'"))
+  write.csv(df, dst_file, row.names = FALSE, quote = FALSE)
+
+  data_schema <- schema(a = string(), b = string())
+  ds_strings <- open_csv_dataset(dst_dir, col_types = data_schema)
+  expect_equal(ds_strings$schema, schema(a = string(), b = string()))
+
+  # skip_empty_rows
+  tf <- tempfile()
+  writeLines('"x"\n"y"\nNA\nNA\n"NULL"\n\n\n', tf)
+
+  ds <- open_csv_dataset(tf, skip_empty_rows = FALSE) %>% collect()
+  expect_equal(nrow(ds), 7)
+
+  # convert_options
+  ds <- open_csv_dataset(
+    csv_dir,
+    convert_options = list(null_values = c("NA", "", "FALSE"), strings_can_be_null = TRUE)
+  ) %>% collect()
+
+  expect_equal(
+    ds$lgl,
+    c(TRUE, NA, NA, TRUE, NA, TRUE, NA, NA, TRUE, NA, TRUE, NA, NA, TRUE, NA, TRUE, NA, NA, TRUE, NA)
+  )
+
+  # read_options
+  ds <- open_csv_dataset(
+    csv_dir,
+    read_options = list(column_names = paste0("col_", 1:6))
+  ) %>% collect()
+
+  expect_named(ds, c("col_1", "col_2", "col_3", "col_4", "col_5", "col_6"))
+
+  # timestamp_parsers
+  skip("GH-33708: timestamp_parsers don't appear to be working properly")
+
+  dst_dir <- make_temp_dir()
+  dst_file <- file.path(dst_dir, "data.csv")
+
+  df <- data.frame(time = "2023-01-16 19:47:57")
+  write.csv(df, dst_file, row.names = FALSE, quote = FALSE)
+
+  ds <- open_csv_dataset(dst_dir, timestamp_parsers = c(TimestampParser$create(format = "%d-%m-%y"))) %>% collect()
+
+  expect_equal(ds$time, "16-01-2023")
+})
diff --git a/r/tests/testthat/test-dataset-dplyr.R b/r/tests/testthat/test-dataset-dplyr.R
index b09b549d590..c8054b0c839 100644
--- a/r/tests/testthat/test-dataset-dplyr.R
+++ b/r/tests/testthat/test-dataset-dplyr.R
@@ -143,7 +143,7 @@ test_that("mutate()", {
 chr: string
 dbl: double
 int: int32
-twice: double (multiply_checked(int, 2))
+twice: int32 (multiply_checked(int, 2))
 
 * Filter: ((multiply_checked(dbl, 2) > 14) and (subtract_checked(dbl, 50) < 3))
 See $.data for the source Arrow object",
@@ -178,7 +178,7 @@ test_that("filter scalar validation doesn't crash (ARROW-7772)", {
   ds <- open_dataset(dataset_dir, partitioning = schema(part = uint8()))
   expect_error(
     ds %>%
-      filter(int == "fff", part == 1) %>%
+      filter(int == Expression$scalar("fff"), part == 1) %>%
       collect(),
     "'equal' has no kernel matching input types .int32, string."
   )
@@ -219,7 +219,7 @@ test_that("arrange()", {
 chr: string
 dbl: double
 int: int32
-twice: double (multiply_checked(int, 2))
+twice: int32 (multiply_checked(int, 2))
 
 * Filter: ((multiply_checked(dbl, 2) > 14) and (subtract_checked(dbl, 50) < 3))
 * Sorted by chr [asc], multiply_checked(int, 2) [desc], add_checked(dbl, int) [asc]
@@ -284,13 +284,9 @@ test_that("compute()/collect(as_data_frame=FALSE)", {
     group_by(fct) %>%
     compute()
 
-  # the group_by() prevents compute() from returning a Table...
-  expect_s3_class(tab5, "arrow_dplyr_query")
-
-  # ... but $.data is a Table...
-  expect_r6_class(tab5$.data, "Table")
-  # ... and the mutate() was evaluated
-  expect_true("negint" %in% names(tab5$.data))
+  expect_r6_class(tab5, "Table")
+  # mutate() was evaluated
+  expect_true("negint" %in% names(tab5))
 })
 
 test_that("head/tail on query on dataset", {
@@ -356,9 +352,9 @@ test_that("show_exec_plan(), show_query() and explain() with datasets", {
     ds %>%
       show_exec_plan(),
     regexp = paste0(
-      "ExecPlan with .* nodes:.*",  # boiler plate for ExecPlan
-      "ProjectNode.*",              # output columns
-      "SourceNode"                  # entry point
+      "ExecPlan with .* nodes:.*", # boiler plate for ExecPlan
+      "ProjectNode.*", # output columns
+      "SourceNode" # entry point
     )
   )
 
@@ -369,11 +365,11 @@ test_that("show_exec_plan(), show_query() and explain() with datasets", {
       filter(integer > 6L & part == 1) %>%
       show_exec_plan(),
     regexp = paste0(
-      "ExecPlan with .* nodes:.*",  # boiler plate for ExecPlan
-      "ProjectNode.*",              # output columns
-      "FilterNode.*",               # filter node
-      "int > 6.*cast.*",            # filtering expressions + auto-casting of part
-      "SourceNode"                  # entry point
+      "ExecPlan with .* nodes:.*", # boiler plate for ExecPlan
+      "ProjectNode.*", # output columns
+      "FilterNode.*", # filter node
+      "int > 6.*", # filtering expressions
+      "SourceNode" # entry point
     )
   )
 
@@ -384,13 +380,13 @@ test_that("show_exec_plan(), show_query() and explain() with datasets", {
       summarise(avg = mean(int)) %>%
       show_exec_plan(),
     regexp = paste0(
-      "ExecPlan with .* nodes:.*",  # boiler plate for ExecPlan
-      "ProjectNode.*",              # output columns
-      "GroupByNode.*",              # group by node
-      "keys=.*part.*",              # key for aggregations
-      "aggregates=.*hash_mean.*",   # aggregations
-      "ProjectNode.*",              # input columns
-      "SourceNode"                  # entry point
+      "ExecPlan with .* nodes:.*", # boiler plate for ExecPlan
+      "ProjectNode.*", # output columns
+      "GroupByNode.*", # group by node
+      "keys=.*part.*", # key for aggregations
+      "aggregates=.*hash_mean.*", # aggregations
+      "ProjectNode.*", # input columns
+      "SourceNode" # entry point
     )
   )
 
@@ -401,12 +397,12 @@ test_that("show_exec_plan(), show_query() and explain() with datasets", {
       arrange(chr) %>%
       show_exec_plan(),
     regexp = paste0(
-      "ExecPlan with .* nodes:.*",   # boiler plate for ExecPlan
+      "ExecPlan with .* nodes:.*", # boiler plate for ExecPlan
       "OrderBySinkNode.*chr.*ASC.*", # arrange goes via the OrderBy sink node
-      "ProjectNode.*",               # output columns
-      "FilterNode.*",                # filter node
-      "filter=lgl.*",                # filtering expression
-      "SourceNode"                   # entry point
+      "ProjectNode.*", # output columns
+      "FilterNode.*", # filter node
+      "filter=lgl.*", # filtering expression
+      "SourceNode" # entry point
     )
   )
 
diff --git a/r/tests/testthat/test-dataset-write.R b/r/tests/testthat/test-dataset-write.R
index 7a5f861ca57..8dd66614fd0 100644
--- a/r/tests/testthat/test-dataset-write.R
+++ b/r/tests/testthat/test-dataset-write.R
@@ -708,7 +708,9 @@ test_that("Dataset write max rows per files", {
 })
 
 test_that("Dataset min_rows_per_group", {
+  skip_if_not(CanRunWithCapturedR())
   skip_if_not_available("parquet")
+
   rb1 <- record_batch(
     c1 = c(1, 2, 3, 4),
     c2 = c("a", "b", "e", "a")
@@ -739,7 +741,8 @@ test_that("Dataset min_rows_per_group", {
 
   row_group_sizes <- ds %>%
     map_batches(~ record_batch(nrows = .$num_rows)) %>%
-    pull(nrows)
+    pull(nrows) %>%
+    as.vector()
   index <- 1
 
   # We expect there to be 3 row groups since 11/5 = 2.2 and 11/4 = 2.75
@@ -756,7 +759,9 @@ test_that("Dataset min_rows_per_group", {
 })
 
 test_that("Dataset write max rows per group", {
+  skip_if_not(CanRunWithCapturedR())
   skip_if_not_available("parquet")
+
   num_of_records <- 30
   max_rows_per_group <- 18
   df <- tibble::tibble(
@@ -778,7 +783,26 @@ test_that("Dataset write max rows per group", {
   row_group_sizes <- ds %>%
     map_batches(~ record_batch(nrows = .$num_rows)) %>%
     pull(nrows) %>%
+    as.vector() %>%
     sort()
 
   expect_equal(row_group_sizes, c(12, 18))
 })
+
+test_that("Can delete filesystem dataset after write_dataset", {
+  # While this test should pass on all platforms, this is primarily
+  # a test for Windows because that platform won't allow open files
+  # to be deleted.
+  dataset_dir2 <- tempfile()
+  ds0 <- open_dataset(hive_dir)
+  write_dataset(ds0, dataset_dir2)
+
+  dataset_dir3 <- tempfile()
+  on.exit(unlink(dataset_dir3, recursive = TRUE))
+
+  ds <- open_dataset(dataset_dir2)
+  write_dataset(ds, dataset_dir3)
+
+  unlink(dataset_dir2, recursive = TRUE)
+  expect_false(dir.exists(dataset_dir2))
+})
diff --git a/r/tests/testthat/test-dataset.R b/r/tests/testthat/test-dataset.R
index d43bb492d02..91b405fc01c 100644
--- a/r/tests/testthat/test-dataset.R
+++ b/r/tests/testthat/test-dataset.R
@@ -67,7 +67,7 @@ test_that("IPC/Feather format data", {
 
   # Collecting virtual partition column works
   expect_equal(
-    ds %>% arrange(part) %>% pull(part),
+    ds %>% arrange(part) %>% pull(part) %>% as.vector(),
     c(rep(3, 10), rep(4, 10))
   )
 })
@@ -306,7 +306,7 @@ test_that("Simple interface for datasets", {
 
   # Collecting virtual partition column works
   expect_equal(
-    ds %>% arrange(part) %>% pull(part),
+    ds %>% arrange(part) %>% pull(part) %>% as.vector(),
     c(rep(1, 10), rep(2, 10))
   )
 })
@@ -324,6 +324,11 @@ test_that("Can set schema on dataset", {
   expect_equal(ds$schema, expected_schema)
 })
 
+test_that("as.data.frame.Dataset", {
+  ds <- open_dataset(dataset_dir, partitioning = schema(part = uint8()))
+  expect_identical(dim(as.data.frame(ds)), c(20L, 7L))
+})
+
 test_that("dim method returns the correct number of rows and columns", {
   ds <- open_dataset(dataset_dir, partitioning = schema(part = uint8()))
   expect_identical(dim(ds), c(20L, 7L))
@@ -581,16 +586,25 @@ test_that("UnionDataset can merge schemas", {
     collect() %>%
     arrange(x)
   expect_equal(colnames(actual), c("x", "y", "z"))
-  expect_equal(
-    actual,
-    union_all(as_tibble(sub_df1), as_tibble(sub_df2))
+
+  union_all_common <- function(...) {
+    common <- vctrs::vec_cast_common(...)
+    rlang::inject(union_all(!!!common))
+  }
+
+  expected <- union_all_common(
+    as_tibble(sub_df1),
+    as_tibble(sub_df2)
   )
+  expect_equal(actual, expected)
 
   # without unifying schemas, takes the first schema and discards any columns
   # in the second which aren't in the first
   ds <- open_dataset(list(ds1, ds2), unify_schemas = FALSE)
-  expected <- as_tibble(sub_df1) %>%
-    union_all(sub_df2 %>% as_tibble() %>% select(x))
+  expected <- union_all_common(
+    as_tibble(sub_df1),
+    as_tibble(sub_df2) %>% select(x)
+  )
   actual <- ds %>%
     collect() %>%
     arrange(x)
@@ -625,11 +639,21 @@ test_that("scalar aggregates with many batches (ARROW-16904)", {
   ds <- open_dataset(tf)
   replicate(100, ds %>% summarize(min(x)) %>% pull())
 
-  expect_true(all(replicate(100, ds %>% summarize(min(x)) %>% pull()) == 1))
-  expect_true(all(replicate(100, ds %>% summarize(max(x)) %>% pull()) == 100))
+  expect_true(
+    all(
+      replicate(100, ds %>% summarize(min(x)) %>% pull() %>% as.vector()) == 1
+    )
+  )
+  expect_true(
+    all(
+      replicate(100, ds %>% summarize(max(x)) %>% pull() %>% as.vector()) == 100
+    )
+  )
 })
 
-test_that("map_batches", {
+test_that("streaming map_batches into an ExecPlan", {
+  skip_if_not(CanRunWithCapturedR())
+
   ds <- open_dataset(dataset_dir, partitioning = "part")
 
   # summarize returns arrow_dplyr_query, which gets collected into a tibble
@@ -650,6 +674,7 @@ test_that("map_batches", {
       select(int, lgl) %>%
       map_batches(~ record_batch(nrows = .$num_rows)) %>%
       pull(nrows) %>%
+      as.vector() %>%
       sort(),
     c(5, 10)
   )
@@ -692,7 +717,7 @@ test_that("map_batches", {
 test_that("map_batches with explicit schema", {
   fun_with_dots <- function(batch, first_col, first_col_val) {
     record_batch(
-      !! first_col := first_col_val,
+      !!first_col := first_col_val,
       b = batch$a$cast(float64())
     )
   }
@@ -736,7 +761,7 @@ test_that("map_batches with explicit schema", {
 test_that("map_batches without explicit schema", {
   fun_with_dots <- function(batch, first_col, first_col_val) {
     record_batch(
-      !! first_col := first_col_val,
+      !!first_col := first_col_val,
       b = batch$a$cast(float64())
     )
   }
@@ -923,6 +948,39 @@ test_that("Dataset and query print methods", {
   )
 })
 
+test_that("Can delete filesystem dataset files after collection", {
+  # While this test should pass on all platforms, this is primarily
+  # a test for Windows because that platform won't allow open files
+  # to be deleted.
+  dataset_dir2 <- tempfile()
+  ds0 <- open_dataset(dataset_dir)
+  write_dataset(ds0, dataset_dir2)
+
+  ds <- open_dataset(dataset_dir2)
+  collected <- ds %>% arrange(int) %>% collect()
+  unlink(dataset_dir2, recursive = TRUE)
+  expect_false(dir.exists(dataset_dir2))
+
+  expect_identical(
+    collected,
+    ds0 %>% arrange(int) %>% collect()
+  )
+
+  # Also try with head(), since this creates a nested query whose interior
+  # components should also be cleaned up to allow deleting the original
+  # dataset
+  write_dataset(ds0, dataset_dir2)
+  ds <- open_dataset(dataset_dir2)
+  collected <- ds %>% arrange(int) %>% head() %>% arrange(int) %>% collect()
+  unlink(dataset_dir2, recursive = TRUE)
+  expect_false(dir.exists(dataset_dir2))
+
+  expect_identical(
+    collected,
+    ds0 %>% arrange(int) %>% head() %>% arrange(int) %>% collect()
+  )
+})
+
 test_that("Scanner$ScanBatches", {
   ds <- open_dataset(ipc_dir, format = "feather")
   batches <- ds$NewScan()$Finish()$ScanBatches()
@@ -1131,7 +1189,6 @@ test_that("dataset to C-interface to arrow_dplyr_query with proj/filter", {
   delete_arrow_array_stream(stream_ptr)
 })
 
-
 test_that("Filter parquet dataset with is.na ARROW-15312", {
   ds_path <- make_temp_dir()
 
@@ -1171,7 +1228,8 @@ test_that("FileSystemFactoryOptions with DirectoryPartitioning", {
   expect_equal(
     ds %>%
       arrange(cyl) %>%
-      pull(cyl),
+      pull(cyl) %>%
+      as.vector(),
     sort(mtcars$cyl)
   )
 
@@ -1189,7 +1247,8 @@ test_that("FileSystemFactoryOptions with DirectoryPartitioning", {
   expect_equal(
     ds %>%
       arrange(cyl) %>%
-      pull(cyl),
+      pull(cyl) %>%
+      as.vector(),
     sort(mtcars$cyl)
   )
 
@@ -1205,7 +1264,8 @@ test_that("FileSystemFactoryOptions with DirectoryPartitioning", {
   expect_equal(
     ds %>%
       arrange(cyl) %>%
-      pull(cyl),
+      pull(cyl) %>%
+      as.vector(),
     sort(mtcars$cyl)
   )
 
@@ -1223,7 +1283,8 @@ test_that("FileSystemFactoryOptions with DirectoryPartitioning", {
   expect_equal(
     ds %>%
       arrange(cyl) %>%
-      pull(cyl),
+      pull(cyl) %>%
+      as.vector(),
     sort(mtcars$cyl)
   )
 
@@ -1257,7 +1318,8 @@ test_that("FileSystemFactoryOptions with HivePartitioning", {
   expect_equal(
     ds %>%
       arrange(cyl) %>%
-      pull(cyl),
+      pull(cyl) %>%
+      as.vector(),
     sort(mtcars$cyl)
   )
 
@@ -1273,7 +1335,8 @@ test_that("FileSystemFactoryOptions with HivePartitioning", {
   expect_equal(
     ds %>%
       arrange(cyl) %>%
-      pull(cyl),
+      pull(cyl) %>%
+      as.vector(),
     sort(mtcars$cyl)
   )
 
@@ -1287,7 +1350,8 @@ test_that("FileSystemFactoryOptions with HivePartitioning", {
   expect_equal(
     ds %>%
       arrange(cyl) %>%
-      pull(cyl),
+      pull(cyl) %>%
+      as.vector(),
     sort(mtcars$cyl)
   )
 
@@ -1303,7 +1367,8 @@ test_that("FileSystemFactoryOptions with HivePartitioning", {
   expect_equal(
     ds %>%
       arrange(cyl) %>%
-      pull(cyl),
+      pull(cyl) %>%
+      as.vector(),
     sort(mtcars$cyl)
   )
 })
@@ -1349,3 +1414,99 @@ test_that("FileSystemFactoryOptions input validation", {
     fixed = TRUE
   )
 })
+
+test_that("can add in augmented fields", {
+  ds <- open_dataset(hive_dir)
+
+  observed <- ds %>%
+    mutate(file_name = add_filename()) %>%
+    collect()
+
+  expect_named(
+    observed,
+    c("int", "dbl", "lgl", "chr", "fct", "ts", "group", "other", "file_name")
+  )
+
+  expect_equal(
+    sort(unique(observed$file_name)),
+    list.files(hive_dir, full.names = TRUE, recursive = TRUE)
+  )
+
+  error_regex <- paste(
+    "`add_filename()` or use of the `__filename` augmented field can only",
+    "be used with with Dataset objects, and can only be added before doing",
+    "an aggregation or a join."
+  )
+
+  # errors appropriately with ArrowTabular objects
+  expect_error(
+    arrow_table(mtcars) %>%
+      mutate(file = add_filename()) %>%
+      collect(),
+    regexp = error_regex,
+    fixed = TRUE
+  )
+
+  # errors appropriately with aggregation
+  expect_error(
+    ds %>%
+      summarise(max_int = max(int)) %>%
+      mutate(file_name = add_filename()) %>%
+      collect(),
+    regexp = error_regex,
+    fixed = TRUE
+  )
+
+  # joins to tables
+  another_table <- select(example_data, int, dbl2)
+  expect_error(
+    ds %>%
+      left_join(another_table, by = "int") %>%
+      mutate(file = add_filename()) %>%
+      collect(),
+    regexp = error_regex,
+    fixed = TRUE
+  )
+
+  # and on joins to datasets
+  another_dataset_dir <- tempfile()
+  on.exit(unlink(another_dataset_dir, recursive = TRUE))
+  another_dataset <- write_dataset(another_table, another_dataset_dir)
+
+  expect_error(
+    ds %>%
+      left_join(open_dataset(another_dataset_dir), by = "int") %>%
+      mutate(file = add_filename()) %>%
+      collect(),
+    regexp = error_regex,
+    fixed = TRUE
+  )
+
+  # this hits the implicit_schema path by joining afterwards
+  join_after <- ds %>%
+    mutate(file = add_filename()) %>%
+    left_join(open_dataset(another_dataset_dir), by = "int") %>%
+    collect()
+
+  expect_named(
+    join_after,
+    c("int", "dbl", "lgl", "chr", "fct", "ts", "group", "other", "file", "dbl2")
+  )
+
+  expect_equal(
+    sort(unique(join_after$file)),
+    list.files(hive_dir, full.names = TRUE, recursive = TRUE)
+  )
+
+  # another test on the explicit_schema path
+  summarise_after <- ds %>%
+    mutate(file = add_filename()) %>%
+    group_by(file) %>%
+    summarise(max_int = max(int)) %>%
+    collect()
+
+  expect_equal(
+    sort(summarise_after$file),
+    list.files(hive_dir, full.names = TRUE, recursive = TRUE)
+  )
+})
diff --git a/r/tests/testthat/test-dplyr-across.R b/r/tests/testthat/test-dplyr-across.R
new file mode 100644
index 00000000000..edf74dcbdb7
--- /dev/null
+++ b/r/tests/testthat/test-dplyr-across.R
@@ -0,0 +1,317 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+library(dplyr, warn.conflicts = FALSE)
+
+test_that("expand_across correctly expands quosures", {
+
+  # single unnamed function
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), round)),
+    quos(
+      dbl = round(dbl),
+      dbl2 = round(dbl2)
+    ),
+    example_data
+  )
+
+  # multiple unnamed functions
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), list(exp, sqrt))),
+    quos(
+      dbl_1 = exp(dbl),
+      dbl_2 = sqrt(dbl),
+      dbl2_1 = exp(dbl2),
+      dbl2_2 = sqrt(dbl2)
+    ),
+    example_data
+  )
+
+  # single named function
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), list("fun1" = round))),
+    quos(
+      dbl_fun1 = round(dbl),
+      dbl2_fun1 = round(dbl2)
+    ),
+    example_data
+  )
+
+  # multiple named functions
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), list("fun1" = round, "fun2" = sqrt))),
+    quos(
+      dbl_fun1 = round(dbl),
+      dbl_fun2 = sqrt(dbl),
+      dbl2_fun1 = round(dbl2),
+      dbl2_fun2 = sqrt(dbl2)
+    ),
+    example_data
+  )
+
+  # mix of named and unnamed functions
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), list(round, "fun2" = sqrt))),
+    quos(
+      dbl_1 = round(dbl),
+      dbl_fun2 = sqrt(dbl),
+      dbl2_1 = round(dbl2),
+      dbl2_fun2 = sqrt(dbl2)
+    ),
+    example_data
+  )
+
+  # across() with no functions returns columns unchanged
+  expect_across_equal(
+    quos(across(starts_with("dbl"))),
+    quos(
+      dbl = dbl,
+      dbl2 = dbl2
+    ),
+    example_data
+  )
+
+  # across() arguments not in default order
+  expect_across_equal(
+    quos(across(.fns = round, c(dbl, dbl2))),
+    quos(
+      dbl = round(dbl),
+      dbl2 = round(dbl2)
+    ),
+    example_data
+  )
+
+  # across() with no columns named
+  expect_across_equal(
+    quos(across(.fns = round)),
+    quos(
+      int = round(int),
+      dbl = round(dbl),
+      dbl2 = round(dbl2)
+    ),
+    example_data %>% select(int, dbl, dbl2)
+  )
+
+  # column selection via dynamic variable name
+  int <- c("dbl", "dbl2")
+  expect_across_equal(
+    quos(across(all_of(int), sqrt)),
+    quos(
+      dbl = sqrt(dbl),
+      dbl2 = sqrt(dbl2)
+    ),
+    example_data
+  )
+
+  # ellipses (...) are a deprecated argument
+  expect_error(
+    expand_across(
+      example_data,
+      quos(across(c(dbl, dbl2), round, digits = -1))
+    ),
+    regexp = "`...` argument to `across()` is deprecated in dplyr and not supported in Arrow",
+    fixed = TRUE
+  )
+
+  # alternative ways of specifying .fns - as a list
+  expect_across_equal(
+    quos(across(1:dbl2, list(round))),
+    quos(
+      int_1 = round(int),
+      dbl_1 = round(dbl),
+      dbl2_1 = round(dbl2)
+    ),
+    example_data
+  )
+
+  # supply .fns as a one-item vector
+  expect_across_equal(
+    quos(across(1:dbl2, c(round))),
+    quos(
+      int_1 = round(int),
+      dbl_1 = round(dbl),
+      dbl2_1 = round(dbl2)
+    ),
+    example_data
+  )
+
+  # .names argument
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), round, .names = "{.col}.{.fn}")),
+    quos(
+      dbl.1 = round(dbl),
+      dbl2.1 = round(dbl2)
+    ),
+    example_data
+  )
+
+  # names argument with custom text
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), round, .names = "round_{.col}")),
+    quos(
+      round_dbl = round(dbl),
+      round_dbl2 = round(dbl2)
+    ),
+    example_data
+  )
+
+  # names argument supplied but no functions
+  expect_across_equal(
+    quos(across(starts_with("dbl"), .names = "new_{.col}")),
+    quos(
+      new_dbl = dbl,
+      new_dbl2 = dbl2
+    ),
+    example_data
+  )
+
+  # .names argument and functions named
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), list("my_round" = round, "my_exp" = exp), .names = "{.col}.{.fn}")),
+    quos(
+      dbl.my_round = round(dbl),
+      dbl.my_exp = exp(dbl),
+      dbl2.my_round = round(dbl2),
+      dbl2.my_exp = exp(dbl2)
+    ),
+    example_data
+  )
+
+  # .names argument and mix of named and unnamed functions
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), list(round, "my_exp" = exp), .names = "{.col}.{.fn}")),
+    quos(
+      dbl.1 = round(dbl),
+      dbl.my_exp = exp(dbl),
+      dbl2.1 = round(dbl2),
+      dbl2.my_exp = exp(dbl2)
+    ),
+    example_data
+  )
+
+  # dodgy .names specification
+  expect_error(
+    expand_across(
+      example_data,
+      quos(across(c(dbl, dbl2), list(round, "my_exp" = exp), .names = "zarg"))
+    ),
+    regexp = "`.names` specification must produce (number of columns * number of functions) names.",
+    fixed = TRUE
+  )
+
+  # Using package name prefix (ARROW-17724)
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), base::round)),
+    quos(
+      dbl = base::round(dbl),
+      dbl2 = base::round(dbl2)
+    ),
+    example_data
+  )
+
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), c(base::round, base::sqrt))),
+    quos(
+      dbl_1 = base::round(dbl),
+      dbl_2 = base::sqrt(dbl),
+      dbl2_1 = base::round(dbl2),
+      dbl2_2 = base::sqrt(dbl2)
+    ),
+    example_data
+  )
+})
+
+test_that("purrr-style lambda functions are supported", {
+
+  # using `.x` inside lambda functions
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), ~ round(.x, digits = 0))),
+    quos(
+      dbl = round(dbl, digits = 0),
+      dbl2 = round(dbl2, digits = 0)
+    ),
+    example_data
+  )
+
+  # using `.` inside lambda functions
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), ~ round(., digits = 0))),
+    quos(
+      dbl = round(dbl, digits = 0),
+      dbl2 = round(dbl2, digits = 0)
+    ),
+    example_data
+  )
+
+  # testing both `.` and `.x` in lambda functions
+  expect_across_equal(
+    quos(across(c(dbl, dbl2), c(~ round(.x, digits = 0), ~ . * 2))),
+    quos(
+      dbl_1 = round(dbl, digits = 0),
+      dbl_2 = dbl * 2,
+      dbl2_1 = round(dbl2, digits = 0),
+      dbl2_2 = dbl2 * 2
+    ),
+    example_data
+  )
+
+  # internal function for lambda functions
+  expect_identical(
+    arrow:::expr_substitute(
+      quote(~ round(.x * 2, digits = 0)),
+      sym(".x"), sym("dbl2")
+    ),
+    quote(~ round(dbl2 * 2, digits = 0))
+  )
+})
+
+test_that("ARROW-14071 - function(x)-style lambda functions are not supported", {
+  expect_error(
+    expand_across(as_adq(example_data), quos(across(.cols = c(dbl, dbl2), list(function(x) {
+      head(x, 1)
+    }, function(x) {
+      head(x, 1)
+    })))),
+    regexp = "Anonymous functions are not yet supported in Arrow"
+  )
+
+  expect_error(
+    expand_across(
+      as_adq(example_data),
+      quos(across(.cols = c(dbl, dbl2), function(x) {
+        head(x, 1)
+      }))
+    ),
+    regexp = "Anonymous functions are not yet supported in Arrow"
+  )
+})
+
+test_that("if_all() and if_any() are supported", {
+
+  expect_across_equal(
+    quos(if_any(everything(), ~is.na(.x))),
+    quos(is.na(int) | is.na(dbl) | is.na(dbl2) | is.na(lgl) | is.na(false) | is.na(chr) | is.na(fct)),
+    example_data
+  )
+
+  expect_across_equal(
+    quos(if_all(everything(), ~is.na(.x))),
+    quos(is.na(int) & is.na(dbl) & is.na(dbl2) & is.na(lgl) & is.na(false) & is.na(chr) & is.na(fct)),
+    example_data
+  )
+
+})
diff --git a/r/tests/testthat/test-dplyr-arrange.R b/r/tests/testthat/test-dplyr-arrange.R
index e6e361483a4..3444e3ace5f 100644
--- a/r/tests/testthat/test-dplyr-arrange.R
+++ b/r/tests/testthat/test-dplyr-arrange.R
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 library(dplyr, warn.conflicts = FALSE)
 
 # randomize order of rows in test data
@@ -35,12 +33,24 @@ test_that("arrange() on integer, double, and character columns", {
       collect(),
     tbl
   )
+  compare_dplyr_binding(
+    .input %>%
+      arrange(int, dplyr::desc(dbl)) %>%
+      collect(),
+    tbl
+  )
   compare_dplyr_binding(
     .input %>%
       arrange(int, desc(desc(dbl))) %>%
       collect(),
     tbl
   )
+  compare_dplyr_binding(
+    .input %>%
+      arrange(int, dplyr::desc(dplyr::desc(dbl))) %>%
+      collect(),
+    tbl
+  )
   compare_dplyr_binding(
     .input %>%
       arrange(int) %>%
@@ -48,6 +58,13 @@ test_that("arrange() on integer, double, and character columns", {
       collect(),
     tbl
   )
+  compare_dplyr_binding(
+    .input %>%
+      arrange(int) %>%
+      arrange(dplyr::desc(dbl)) %>%
+      collect(),
+    tbl
+  )
   compare_dplyr_binding(
     .input %>%
       arrange(int + dbl, chr) %>%
@@ -101,7 +118,8 @@ test_that("arrange() on integer, double, and character columns", {
     .input %>%
       group_by(grp) %>%
       arrange(.by_group = TRUE) %>%
-      pull(grp),
+      pull(grp) %>%
+      as.vector(),
     tbl
   )
   compare_dplyr_binding(
@@ -202,4 +220,26 @@ test_that("arrange() with bad inputs", {
     "expects only one argument",
     fixed = TRUE
   )
+  expect_error(
+    tbl %>%
+      Table$create() %>%
+      arrange(dplyr::desc(int, chr)),
+    "expects only one argument",
+    fixed = TRUE
+  )
+})
+
+test_that("Can use across() within arrange()", {
+  compare_dplyr_binding(
+    .input %>%
+      arrange(across(starts_with("d"))) %>%
+      collect(),
+    example_data
+  )
+  compare_dplyr_binding(
+    .input %>%
+      arrange(across(starts_with("d"), desc)) %>%
+      collect(),
+    example_data
+  )
 })
diff --git a/r/tests/testthat/test-dplyr-collapse.R b/r/tests/testthat/test-dplyr-collapse.R
index 3c121780da6..6c5f4c19911 100644
--- a/r/tests/testthat/test-dplyr-collapse.R
+++ b/r/tests/testthat/test-dplyr-collapse.R
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 withr::local_options(list(arrow.summarise.sort = TRUE))
 
 library(dplyr, warn.conflicts = FALSE)
@@ -59,7 +57,7 @@ test_that("implicit_schema with mutate", {
         words = as.character(int)
       ) %>%
       implicit_schema(),
-    schema(numbers = float64(), words = utf8())
+    schema(numbers = int32(), words = utf8())
   )
 })
 
@@ -165,7 +163,7 @@ test_that("Properties of collapsed query", {
     "Table (query)
 lgl: bool
 total: int32
-extra: double (multiply_checked(total, 5))
+extra: int32 (multiply_checked(total, 5))
 
 See $.data for the source Arrow object",
     fixed = TRUE
@@ -242,3 +240,39 @@ test_that("query_on_dataset handles collapse()", {
       select(int)
   ))
 })
+
+test_that("collapse doesn't unnecessarily add ProjectNodes", {
+  plan <- capture.output(
+    tab %>%
+      collapse() %>%
+      collapse() %>%
+      show_query()
+  )
+  # There should be no projections
+  expect_length(grep("ProjectNode", plan), 0)
+
+  plan <- capture.output(
+    tab %>%
+      select(int, chr) %>%
+      collapse() %>%
+      collapse() %>%
+      show_query()
+  )
+  # There should be just one projection
+  expect_length(grep("ProjectNode", plan), 1)
+
+  skip_if_not_available("dataset")
+  # We need one ProjectNode on dataset queries to handle augmented fields
+
+  tf <- tempfile()
+  write_dataset(tab, tf, partitioning = "lgl")
+  ds <- open_dataset(tf)
+
+  plan <- capture.output(
+    ds %>%
+      collapse() %>%
+      collapse() %>%
+      show_query()
+  )
+  expect_length(grep("ProjectNode", plan), 1)
+})
diff --git a/r/tests/testthat/test-dplyr-count.R b/r/tests/testthat/test-dplyr-count.R
index b94cc10753f..d263a7576f5 100644
--- a/r/tests/testthat/test-dplyr-count.R
+++ b/r/tests/testthat/test-dplyr-count.R
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 library(dplyr, warn.conflicts = FALSE)
 
 tbl <- example_data
diff --git a/r/tests/testthat/test-dplyr-distinct.R b/r/tests/testthat/test-dplyr-distinct.R
index 8b42614084a..09a8d5f8f55 100644
--- a/r/tests/testthat/test-dplyr-distinct.R
+++ b/r/tests/testthat/test-dplyr-distinct.R
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 library(dplyr, warn.conflicts = FALSE)
 
 tbl <- example_data
@@ -27,6 +25,9 @@ test_that("distinct()", {
     .input %>%
       distinct(some_grouping, lgl) %>%
       collect() %>%
+      # GH-14947: column output order changed in dplyr 1.1.0, so we need
+      # to make the column order explicit until dplyr 1.1.0 is on CRAN
+      select(some_grouping, lgl) %>%
       arrange(some_grouping, lgl),
     tbl
   )
@@ -58,6 +59,9 @@ test_that("distinct() can retain groups", {
       group_by(some_grouping, int) %>%
       distinct(lgl) %>%
       collect() %>%
+      # GH-14947: column output order changed in dplyr 1.1.0, so we need
+      # to make the column order explicit until dplyr 1.1.0 is on CRAN
+      select(some_grouping, int, lgl) %>%
       arrange(lgl, int),
     tbl
   )
@@ -68,6 +72,9 @@ test_that("distinct() can retain groups", {
       group_by(y = some_grouping, int) %>%
       distinct(x = lgl) %>%
       collect() %>%
+      # GH-14947: column output order changed in dplyr 1.1.0, so we need
+      # to make the column order explicit until dplyr 1.1.0 is on CRAN
+      select(y, int, x) %>%
       arrange(int),
     tbl
   )
@@ -87,11 +94,24 @@ test_that("distinct() can contain expressions", {
       group_by(lgl, int) %>%
       distinct(x = some_grouping + 1) %>%
       collect() %>%
+      # GH-14947: column output order changed in dplyr 1.1.0, so we need
+      # to make the column order explicit until dplyr 1.1.0 is on CRAN
+      select(lgl, int, x) %>%
       arrange(int),
     tbl
   )
 })
 
+test_that("across() works in distinct()", {
+  compare_dplyr_binding(
+    .input %>%
+      distinct(across(starts_with("d"))) %>%
+      collect() %>%
+      arrange(dbl, dbl2),
+    tbl
+  )
+})
+
 test_that("distinct() can return all columns", {
   skip("ARROW-14045")
   compare_dplyr_binding(
diff --git a/r/tests/testthat/test-dplyr-filter.R b/r/tests/testthat/test-dplyr-filter.R
index aed46d801ce..24754afcf84 100644
--- a/r/tests/testthat/test-dplyr-filter.R
+++ b/r/tests/testthat/test-dplyr-filter.R
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 library(dplyr, warn.conflicts = FALSE)
 library(stringr)
 
@@ -219,25 +217,11 @@ test_that("filter() with between()", {
       filter(dbl >= int, dbl <= dbl2)
   )
 
-  expect_error(
-    tbl %>%
-      record_batch() %>%
-      filter(between(dbl, 1, "2")) %>%
-      collect()
-  )
-
-  expect_error(
-    tbl %>%
-      record_batch() %>%
+  compare_dplyr_binding(
+    .input %>%
       filter(between(dbl, 1, NA)) %>%
-      collect()
-  )
-
-  expect_error(
-    tbl %>%
-      record_batch() %>%
-      filter(between(chr, 1, 2)) %>%
-      collect()
+      collect(),
+    tbl
   )
 })
 
@@ -291,7 +275,7 @@ test_that("filter environment scope", {
     tbl
   )
   isShortString <- function(x) nchar(x) < 10
-  skip("TODO: 14071")
+  skip("TODO: ARROW-14071")
   compare_dplyr_binding(
     .input %>%
       select(-fct) %>%
@@ -377,7 +361,9 @@ test_that("filter() with .data pronoun", {
   compare_dplyr_binding(
     .input %>%
       filter(.data$dbl > 4) %>%
-      select(.data$chr, .data$int, .data$lgl) %>%
+      # use "quoted" strings instead of .data pronoun where tidyselect is used
+      # .data pronoun deprecated in select in tidyselect 1.2
+      select("chr", "int", "lgl") %>%
       collect(),
     tbl
   )
@@ -385,7 +371,7 @@ test_that("filter() with .data pronoun", {
   compare_dplyr_binding(
     .input %>%
       filter(is.na(.data$lgl)) %>%
-      select(.data$chr, .data$int, .data$lgl) %>%
+      select("chr", "int", "lgl") %>%
       collect(),
     tbl
   )
@@ -395,7 +381,7 @@ test_that("filter() with .data pronoun", {
   compare_dplyr_binding(
     .input %>%
       filter(.data$dbl > .env$chr) %>%
-      select(.data$chr, .data$int, .data$lgl) %>%
+      select("chr", "int", "lgl") %>%
       collect(),
     tbl
   )
@@ -417,3 +403,23 @@ test_that("filter() with namespaced functions", {
     tbl
   )
 })
+
+test_that("filter() with across()", {
+  compare_dplyr_binding(
+    .input %>%
+      filter(if_any(ends_with("l"), ~ is.na(.))) %>%
+      collect(),
+    tbl
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      filter(
+        false == FALSE,
+        if_all(everything(), ~ !is.na(.)),
+        int > 2
+      ) %>%
+      collect(),
+    tbl
+  )
+})
diff --git a/r/tests/testthat/test-dplyr-funcs-conditional.R b/r/tests/testthat/test-dplyr-funcs-conditional.R
index 4898d1e9e3e..e1dcd7bb091 100644
--- a/r/tests/testthat/test-dplyr-funcs-conditional.R
+++ b/r/tests/testthat/test-dplyr-funcs-conditional.R
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 library(dplyr, warn.conflicts = FALSE)
 suppressPackageStartupMessages(library(bit64))
 
diff --git a/r/tests/testthat/test-dplyr-funcs-datetime.R b/r/tests/testthat/test-dplyr-funcs-datetime.R
index 25fe23a28db..059764861e9 100644
--- a/r/tests/testthat/test-dplyr-funcs-datetime.R
+++ b/r/tests/testthat/test-dplyr-funcs-datetime.R
@@ -15,7 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
 # In 3.4 the lack of tzone attribute causes spurious failures
 skip_on_r_older_than("3.5")
 
@@ -34,6 +33,30 @@ if (tolower(Sys.info()[["sysname"]]) == "windows") {
 
 test_date <- as.POSIXct("2017-01-01 00:00:11.3456789", tz = "Pacific/Marquesas")
 
+strptime_test_df <- tibble(
+  string_a = c("2023-12-30-Sat", NA),
+  string_A = c("2023-12-30-Saturday", NA),
+  string_b = c("2023-12-30-Dec", NA),
+  string_B = c("2023-12-30-December", NA),
+  string_H = c("2023-12-30-01", NA),
+  string_I = c("2023-12-30-01", NA),
+  string_j = c("2023-12-30-364", NA),
+  string_M = c("2023-12-30-45", NA),
+  string_p = c("2023-12-30-AM", NA),
+  string_q = c("2023.3", NA),
+  string_S = c("2023-12-30-56", NA),
+  string_OS = c("2023-12-30-12.345678", NA),
+  string_U = c("2023-12-30-52", NA),
+  string_w = c("2023-12-30-6", NA),
+  string_W = c("2023-12-30-52", NA),
+  string_y = c("23-12-30", NA),
+  string_Y = c("2023-12-30", NA),
+  string_m = c("2023-12-30", NA),
+  string_r = c("2023-12-30-01", NA),
+  string_R = c("2023-12-30-01:23", NA),
+  string_T = c("2023-12-30-01:23:45", NA),
+  string_z = c("2023-12-30-01:23:45z", NA)
+)
 
 test_df <- tibble::tibble(
   # test_date + 1 turns the tzone = "" to NULL, which is functionally equivalent
@@ -145,7 +168,8 @@ test_that("strptime", {
       mutate(
         x = strptime(x, format = "%m-%d-%Y")
       ) %>%
-      pull(),
+      pull() %>%
+      as.vector(),
     # R's strptime returns POSIXlt (list type)
     as.POSIXct(tstamp),
     ignore_attr = "tzone"
@@ -155,6 +179,95 @@ test_that("strptime", {
   # RE2 library (not available on Windows with R 3.6)
   skip_if_not_available("re2")
 
+  compare_dplyr_binding(
+    .input %>%
+      mutate(
+        parsed_date_ymd = parse_date_time(string_1, orders = "Y-%m-d-%T")
+      ) %>%
+      collect(),
+    tibble::tibble(string_1 = c("2022-02-11-12:23:45", NA))
+  )
+})
+
+test_that("strptime works for individual formats", {
+  # strptime format support is not consistent across platforms
+  skip_on_cran()
+
+  # these functions' internals use some string processing which requires the
+  # RE2 library (not available on Windows with R 3.6)
+  skip_if_not_available("re2")
+
+  expect_equal(
+    strptime_test_df %>%
+      arrow_table() %>%
+      mutate(
+        parsed_H = strptime(string_H, format = "%Y-%m-%d-%H"),
+        parsed_I = strptime(string_I, format = "%Y-%m-%d-%I"),
+        parsed_j = strptime(string_j, format = "%Y-%m-%d-%j"),
+        parsed_M = strptime(string_M, format = "%Y-%m-%d-%M"),
+        parsed_S = strptime(string_S, format = "%Y-%m-%d-%S"),
+        parsed_U = strptime(string_U, format = "%Y-%m-%d-%U"),
+        parsed_w = strptime(string_w, format = "%Y-%m-%d-%w"),
+        parsed_W = strptime(string_W, format = "%Y-%m-%d-%W"),
+        parsed_y = strptime(string_y, format = "%y-%m-%d"),
+        parsed_Y = strptime(string_Y, format = "%Y-%m-%d"),
+        parsed_R = strptime(string_R, format = "%Y-%m-%d-%R"),
+        parsed_T = strptime(string_T, format = "%Y-%m-%d-%T")
+      ) %>%
+      collect(),
+    strptime_test_df %>%
+      mutate(
+        parsed_H = as.POSIXct(strptime(string_H, format = "%Y-%m-%d-%H")),
+        parsed_I = as.POSIXct(strptime(string_I, format = "%Y-%m-%d-%I")),
+        parsed_j = as.POSIXct(strptime(string_j, format = "%Y-%m-%d-%j")),
+        parsed_M = as.POSIXct(strptime(string_M, format = "%Y-%m-%d-%M")),
+        parsed_S = as.POSIXct(strptime(string_S, format = "%Y-%m-%d-%S")),
+        parsed_U = as.POSIXct(strptime(string_U, format = "%Y-%m-%d-%U")),
+        parsed_w = as.POSIXct(strptime(string_w, format = "%Y-%m-%d-%w")),
+        parsed_W = as.POSIXct(strptime(string_W, format = "%Y-%m-%d-%W")),
+        parsed_y = as.POSIXct(strptime(string_y, format = "%y-%m-%d")),
+        parsed_Y = as.POSIXct(strptime(string_Y, format = "%Y-%m-%d")),
+        parsed_R = as.POSIXct(strptime(string_R, format = "%Y-%m-%d-%R")),
+        parsed_T = as.POSIXct(strptime(string_T, format = "%Y-%m-%d-%T"))
+      ) %>%
+      collect()
+  )
+
+  # Some formats are not supported on Windows
+  skip_on_os("windows")
+  expect_equal(
+    strptime_test_df %>%
+      arrow_table() %>%
+      mutate(
+        parsed_a = strptime(string_a, format = "%Y-%m-%d-%a"),
+        parsed_A = strptime(string_A, format = "%Y-%m-%d-%A"),
+        parsed_b = strptime(string_b, format = "%Y-%m-%d-%b"),
+        parsed_B = strptime(string_B, format = "%Y-%m-%d-%B"),
+        parsed_p = strptime(string_p, format = "%Y-%m-%d-%p"),
+        parsed_r = strptime(string_r, format = "%Y-%m-%d-%r")
+      ) %>%
+      collect(),
+    strptime_test_df %>%
+      mutate(
+        parsed_a = as.POSIXct(strptime(string_a, format = "%Y-%m-%d-%a")),
+        parsed_A = as.POSIXct(strptime(string_A, format = "%Y-%m-%d-%A")),
+        parsed_b = as.POSIXct(strptime(string_b, format = "%Y-%m-%d-%b")),
+        parsed_B = as.POSIXct(strptime(string_B, format = "%Y-%m-%d-%B")),
+        parsed_p = as.POSIXct(strptime(string_p, format = "%Y-%m-%d-%p")),
+        parsed_r = as.POSIXct(strptime(string_r, format = "%Y-%m-%d-%r"))
+      ) %>%
+      collect()
+  )
+})
+
+test_that("timestamp round trip correctly via strftime and strptime", {
+  # strptime format support is not consistent across platforms
+  skip_on_cran()
+
+  # these functions' internals use some string processing which requires the
+  # RE2 library (not available on Windows with R 3.6)
+  skip_if_not_available("re2")
+
   tz <- "Pacific/Marquesas"
   set.seed(42)
   times <- seq(as.POSIXct("1999-02-07", tz = tz), as.POSIXct("2000-01-01", tz = tz), by = "sec")
@@ -166,7 +279,7 @@ test_that("strptime", {
     "%S", "%q", "%M", "%U", "%w", "%W", "%y", "%Y", "%R", "%T"
   )
   formats2 <- c(
-    "a", "A", "b", "B", "d", "H", "j", "m", "Om", "T", "OS", "Ip",
+    "a", "A", "b", "B", "d", "H", "j", "m", "T", "OS", "Ip",
     "S", "q", "M", "U", "w", "W", "y", "Y", "r", "R", "Tz"
   )
   base_format <- "%Y-%m-%d"
@@ -174,7 +287,7 @@ test_that("strptime", {
 
   # Some formats are not supported on Windows
   if (!tolower(Sys.info()[["sysname"]]) == "windows") {
-    formats <- c(formats, "%a", "%A", "%b", "%B", "%Om", "%OS", "%I%p", "%r", "%T%z")
+    formats <- c(formats, "%a", "%A", "%b", "%B", "%OS", "%I%p", "%r", "%T%z")
   }
 
   for (fmt in formats) {
@@ -183,10 +296,10 @@ test_that("strptime", {
     expect_equal(
       test_df %>%
         arrow_table() %>%
-          mutate(x = strptime(x, format = fmt)) %>%
-          collect(),
+        mutate(!!fmt := strptime(x, format = fmt)) %>%
+        collect(),
       test_df %>%
-        mutate(x = as.POSIXct(strptime(x, format = fmt))) %>%
+        mutate(!!fmt := as.POSIXct(strptime(x, format = fmt))) %>%
         collect()
     )
   }
@@ -198,23 +311,13 @@ test_that("strptime", {
     expect_equal(
       test_df %>%
         arrow_table() %>%
-          mutate(x = strptime(x, format = fmt2)) %>%
-          collect(),
+        mutate(!!fmt := strptime(x, format = fmt2)) %>%
+        collect(),
       test_df %>%
-        mutate(x = as.POSIXct(strptime(x, format = fmt2))) %>%
+        mutate(!!fmt := as.POSIXct(strptime(x, format = fmt2))) %>%
         collect()
     )
   }
-
-  compare_dplyr_binding(
-    .input %>%
-      mutate(
-        parsed_date_ymd = parse_date_time(string_1, orders = "Y-%m-d-%T")
-      ) %>%
-      collect(),
-    tibble::tibble(string_1 = c("2022-02-11-12:23:45", NA))
-  )
-
 })
 
 test_that("strptime returns NA when format doesn't match the data", {
@@ -354,6 +457,12 @@ test_that("strftime", {
 test_that("format_ISO8601", {
   # https://issues.apache.org/jira/projects/ARROW/issues/ARROW-15266
   skip_if_not_available("re2")
+  # A change in R altered the behavior of lubridate::format_ISO8601:
+  # https://github.com/wch/r-source/commit/f6fd993f8a2f799a56dbecbd8238f155191fc31b
+  # Fixed in lubridate here:
+  # https://github.com/tidyverse/lubridate/pull/1068
+  skip_if_not(packageVersion("lubridate") > "1.8")
+
   times <- tibble(x = c(lubridate::ymd_hms("2018-10-07 19:04:05", tz = "Etc/GMT+6"), NA))
 
   compare_dplyr_binding(
@@ -889,8 +998,8 @@ test_that("extract qday from date", {
 
   compare_dplyr_binding(
     .input %>%
-       mutate(y = qday(as.Date("2022-06-29"))) %>%
-       collect(),
+      mutate(y = qday(as.Date("2022-06-29"))) %>%
+      collect(),
     test_df
   )
 })
@@ -1121,6 +1230,7 @@ test_that("date works in arrow", {
   # since as.Date returns the UTC date and date() doesn't
   test_df <- tibble(
     posixct_date = as.POSIXct(c("2012-03-26 23:12:13", NA), tz = "America/New_York"),
+    posixct_fractional_second = as_datetime(c("2012-03-26 23:12:13.676632", NA)),
     integer_var = c(32L, NA)
   )
 
@@ -1140,6 +1250,13 @@ test_that("date works in arrow", {
     test_df
   )
 
+  compare_dplyr_binding(
+    .input %>%
+      mutate(a_date_base = as.Date(posixct_fractional_second)) %>%
+      collect(),
+    test_df
+  )
+
   compare_dplyr_binding(
     .input %>%
       mutate(date_from_r_object = lubridate::date(r_date_object)) %>%
@@ -1171,29 +1288,16 @@ test_that("date works in arrow", {
 })
 
 test_that("date() errors with unsupported inputs", {
+  # Use InMemoryDataset here so that abandon_ship() errors instead of warns.
+  # The lubridate version errors too.
+  skip_if_not_available("dataset")
   expect_error(
     example_data %>%
-      arrow_table() %>%
-      mutate(date_char = date("2022-02-25 00:00:01")) %>%
-      collect(),
-    regexp = "Unsupported cast from string to date32 using function cast_date32"
-  )
-
-  expect_error(
-    example_data %>%
-      arrow_table() %>%
-      mutate(date_bool = date(TRUE)) %>%
+      InMemoryDataset$create() %>%
+      mutate(date_bool = lubridate::date(TRUE)) %>%
       collect(),
     regexp = "Unsupported cast from bool to date32 using function cast_date32"
   )
-
-  expect_error(
-    example_data %>%
-      arrow_table() %>%
-      mutate(date_double = date(34.56)) %>%
-      collect(),
-    regexp = "Unsupported cast from double to date32 using function cast_date32"
-  )
 })
 
 test_that("make_date & make_datetime", {
@@ -1546,12 +1650,20 @@ test_that("dminutes, dhours, ddays, dweeks, dmonths, dyears", {
   )
 
   # double -> duration not supported in Arrow.
-  # Error is generated in the C++ code
-  expect_error(
+  # With a scalar, cast to int64 error in mutate() -> abandon_ship warning
+  expect_warning(
     test_df %>%
       arrow_table() %>%
-      mutate(r_obj_dminutes = dminutes(1.12345)) %>%
-      collect()
+      mutate(r_obj_dminutes = dminutes(1.12345)),
+    "not supported in Arrow"
+  )
+
+  # When operating on a column, it doesn't happen until collect()
+  expect_error(
+    arrow_table(dbl = 1.948230) %>%
+      mutate(r_obj_dminutes = dminutes(dbl)) %>%
+      collect(),
+    "truncated converting to int64"
   )
 })
 
@@ -1617,15 +1729,6 @@ test_that("dseconds, dmilliseconds, dmicroseconds, dnanoseconds, dpicoseconds",
     call_binding("lubridate::dpicoseconds"),
     "Duration in picoseconds not supported in Arrow"
   )
-
-  # double -> duration not supported in Arrow.
-  # Error is generated in the C++ code
-  expect_error(
-    test_df %>%
-      arrow_table() %>%
-      mutate(r_obj_dseconds = dseconds(1.12345)) %>%
-      collect()
-  )
 })
 
 test_that("make_difftime()", {
@@ -1788,7 +1891,7 @@ test_that("`as.Date()` and `as_date()`", {
         )
       ) %>%
       collect(),
-    regexp = "consider using the lubridate specialised parsing functions"
+    regexp = "Consider using the lubridate specialised parsing functions"
   )
 
   # record batch test
@@ -1802,7 +1905,7 @@ test_that("`as.Date()` and `as_date()`", {
         )
       ) %>%
       collect(),
-    regexp = "consider using the lubridate specialised parsing functions"
+    regexp = "Consider using the lubridate specialised parsing functions"
   )
 
   # strptime does not support a partial format - Arrow returns NA, while
@@ -1886,6 +1989,7 @@ test_that("`as_datetime()`", {
   test_df <- tibble(
     date = as.Date(c("2022-03-22", "2021-07-30", NA)),
     char_date = c("2022-03-22", "2021-07-30 14:32:47", NA),
+    char_date_subsec = c("1970-01-01T00:00:59.123456789", "2000-02-29T23:23:23.999999999", NA),
     char_date_non_iso = c("2022-22-03 12:34:56", "2021-30-07 14:32:47", NA),
     int_date = c(10L, 25L, NA),
     integerish_date = c(10, 25, NA),
@@ -1899,24 +2003,72 @@ test_that("`as_datetime()`", {
         ddate2 = lubridate::as_datetime(date),
         dchar_date_no_tz = as_datetime(char_date),
         dchar_date_with_tz = as_datetime(char_date, tz = "Pacific/Marquesas"),
+        dchar_date_subsec_no_tz = as_datetime(char_date_subsec),
+        dchar_date_subsec_with_tz = as_datetime(char_date_subsec, tz = "Pacific/Marquesas"),
         dint_date = as_datetime(int_date, origin = "1970-01-02"),
         dintegerish_date = as_datetime(integerish_date, origin = "1970-01-02"),
-        dintegerish_date2 = as_datetime(integerish_date, origin = "1970-01-01")
+        dintegerish_date2 = as_datetime(integerish_date, origin = "1970-01-01"),
+        ddouble_date = as_datetime(double_date)
       ) %>%
       collect(),
     test_df
   )
 
-  # Arrow does not support conversion of double to date
-  # the below should error with an error message originating in the C++ code
-  expect_error(
+  expect_identical(
     test_df %>%
       arrow_table() %>%
       mutate(
-        ddouble_date = as_datetime(double_date)
+        x = cast(as_datetime(double_date, unit = "ns"), int64()),
+        y = cast(as_datetime(double_date, unit = "us"), int64()),
+        z = cast(as_datetime(double_date, unit = "ms"), int64()),
+        .keep = "none"
+      ) %>%
+      collect(),
+    tibble(
+      x = bit64::as.integer64(c(10100000000, 25200000000, NA)),
+      y = as.integer(c(10100000, 25200000, NA)),
+      z = as.integer(c(10100, 25200, NA))
+    )
+  )
+})
+
+test_that("as_datetime() works with other functions", {
+  test_df <- tibble(
+    char_date = c("2022-03-22", "2021-07-30 14:32:47", "1970-01-01 00:00:59.123456789", NA)
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      transmute(
+        ddchar_date = as_datetime(char_date),
+        ddchar_date_date32_1 = as.Date(ddchar_date),
+        ddchar_date_date32_2 = as_date(ddchar_date),
+        ddchar_date_floored = floor_date(ddchar_date, unit = "days")
       ) %>%
       collect(),
-    regexp = "Float value 10.1 was truncated converting to int64"
+    test_df
+  )
+
+  # ARROW-17428 - Arrow does not support conversion of timestamp to int32
+  expect_error(
+    test_df %>%
+      arrow_table() %>%
+      mutate(
+        dchar_date = as_datetime(char_date),
+        dchar_date_int = as.integer(dchar_date)
+      ) %>%
+      collect()
+  )
+
+  # ARROW-17428 - Arrow does not support conversion of timestamp to double
+  expect_error(
+    test_df %>%
+      arrow_table() %>%
+      mutate(
+        dchar_date = as_datetime(char_date),
+        dchar_date_num = as.numeric(dchar_date)
+      ) %>%
+      collect()
   )
 })
 
@@ -2054,12 +2206,12 @@ test_that("ym, my & yq parsers", {
     my_string = c("05-2022", "02/2022", "03.22", "12//1979", "09.88", NA),
     Ym_string = c("2022-05", "2022/02", "2022.03", "1979//12", "1988.09", NA),
     mY_string = c("05-2022", "02/2022", "03.2022", "12//1979", "09.1988", NA),
-    yq_string = c("2007.3", "1970.2", "2020.1", "2009.4", "1975.1", NA),
-    yq_numeric = c(2007.3, 1970.2, 2020.1, 2009.4, 1975.1, NA),
+    yq_string = c("2007.3", "1971.2", "2021.1", "2009.4", "1975.1", NA),
+    yq_numeric = c(2007.3, 1971.2, 2021.1, 2009.4, 1975.1, NA),
     yq_space = c("2007 3", "1970 2", "2020 1", "2009 4", "1975 1", NA),
-    qy_string = c("3.2007", "2.1970", "1.2020", "4.2009", "1.1975", NA),
-    qy_numeric = c(3.2007, 2.1970, 1.2020, 4.2009, 1.1975, NA),
-    qy_space = c("3 2007", "2 1970", "1 2020", "4 2009", "1 1975", NA)
+    qy_string = c("3.2007", "2.1971", "1.2020", "4.2009", "1.1975", NA),
+    qy_numeric = c(3.2007, 2.1971, 1.2021, 4.2009, 1.1975, NA),
+    qy_space = c("3 2007", "2 1971", "1 2021", "4 2009", "1 1975", NA)
   )
 
   # these functions' internals use some string processing which requires the
@@ -2115,29 +2267,6 @@ test_that("parse_date_time's other formats", {
   # RE2 library (not available on Windows with R 3.6)
   skip_if_not_available("re2")
 
-  # q, OS, Op, z formats are currently not supported by strptime
-  test_df <- tibble(
-    string_a = c("2023-12-30-Sat", NA),
-    string_A = c("2023-12-30-Saturday", NA),
-    string_b = c("2023-12-30-Dec", NA),
-    string_B = c("2023-12-30-December", NA),
-    string_H = c("2023-12-30-01", NA),
-    string_I = c("2023-12-30-01", NA),
-    string_j = c("2023-12-30-364", NA),
-    string_M = c("2023-12-30-00", NA),
-    string_p = c("2023-12-30-AM", NA),
-    string_S = c("2023-12-30-00", NA),
-    string_U = c("2023-12-30-52", NA),
-    string_w = c("2023-12-30-6", NA),
-    string_W = c("2023-12-30-52", NA),
-    string_y = c("23-12-30", NA),
-    string_Y = c("2023-12-30", NA),
-    string_Om = c("2023-01-30", NA),
-    string_r = c("2023-12-30-01", NA),
-    string_R = c("2023-12-30-01:00", NA),
-    string_T = c("2023-12-30-01:00:00", NA)
-  )
-
   compare_dplyr_binding(
     .input %>%
       mutate(
@@ -2155,7 +2284,7 @@ test_that("parse_date_time's other formats", {
         parsed_T = parse_date_time(string_T, orders = "%Y-%m-%d-%T")
       ) %>%
       collect(),
-    test_df
+    strptime_test_df
   )
 
   compare_dplyr_binding(
@@ -2175,7 +2304,7 @@ test_that("parse_date_time's other formats", {
         parsed_T = parse_date_time(string_T, orders = "ymdT")
       ) %>%
       collect(),
-    test_df
+    strptime_test_df
   )
 
   # Some formats are not supported on Windows
@@ -2187,12 +2316,11 @@ test_that("parse_date_time's other formats", {
           parsed_A = parse_date_time(string_A, orders = "%Y-%m-%d-%A"),
           parsed_b = parse_date_time(string_b, orders = "%Y-%m-%d-%b"),
           parsed_B = parse_date_time(string_B, orders = "%Y-%m-%d-%B"),
-          parsed_Om = parse_date_time(string_Om, orders = "%Y-%Om-%d"),
           parsed_p = parse_date_time(string_p, orders = "%Y-%m-%d-%p"),
           parsed_r = parse_date_time(string_r, orders = "%Y-%m-%d-%r")
         ) %>%
         collect(),
-      test_df
+      strptime_test_df
     )
 
     compare_dplyr_binding(
@@ -2202,12 +2330,11 @@ test_that("parse_date_time's other formats", {
           parsed_A = parse_date_time(string_A, orders = "ymdA"),
           parsed_b = parse_date_time(string_b, orders = "ymdb"),
           parsed_B = parse_date_time(string_B, orders = "ymdB"),
-          parsed_Om = parse_date_time(string_Om, orders = "yOmd"),
           parsed_p = parse_date_time(string_p, orders = "ymdp"),
           parsed_r = parse_date_time(string_r, orders = "ymdr")
         ) %>%
         collect(),
-      test_df
+      strptime_test_df
     )
 
     compare_dplyr_binding(
@@ -2219,7 +2346,6 @@ test_that("parse_date_time's other formats", {
       tibble::tibble(string_1 = c("2022-Feb-11-12:23:45", NA))
     )
   }
-
 })
 
 test_that("lubridate's fast_strptime", {
@@ -2755,7 +2881,6 @@ test_that("parse_date_time with `exact = TRUE`, and with regular R objects", {
 })
 
 test_that("build_formats() and build_format_from_order()", {
-
   ymd_formats <- c(
     "%y-%m-%d", "%Y-%m-%d", "%y-%B-%d", "%Y-%B-%d", "%y-%b-%d", "%Y-%b-%d",
     "%y%m%d", "%Y%m%d", "%y%B%d", "%Y%B%d", "%y%b%d", "%Y%b%d"
@@ -2947,7 +3072,7 @@ boundary_times <- tibble::tibble(
     "2022-03-10 00:00:01", # boundary for second, millisecond
     "2022-03-10 00:01:00", # boundary for second, millisecond, minute
     "2022-03-10 01:00:00", # boundary for second, millisecond, minute, hour
-    "2022-01-01 00:00:00"  # boundary for year
+    "2022-01-01 00:00:00" # boundary for year
   ), tz = "UTC", format = "%F %T")),
   date = as.Date(datetime)
 )
@@ -2973,14 +3098,13 @@ datestrings <- c(
 )
 tz_times <- tibble::tibble(
   utc_time = as.POSIXct(datestrings, tz = "UTC"),
-  syd_time = as.POSIXct(datestrings, tz = "Australia/Sydney"),   # UTC +10   (UTC +11 with DST)
+  syd_time = as.POSIXct(datestrings, tz = "Australia/Sydney"), # UTC +10   (UTC +11 with DST)
   adl_time = as.POSIXct(datestrings, tz = "Australia/Adelaide"), # UTC +9:30 (UTC +10:30 with DST)
-  mar_time = as.POSIXct(datestrings, tz = "Pacific/Marquesas"),  # UTC -9:30 (no DST)
-  kat_time = as.POSIXct(datestrings, tz = "Asia/Kathmandu")      # UTC +5:45 (no DST)
+  mar_time = as.POSIXct(datestrings, tz = "Pacific/Marquesas"), # UTC -9:30 (no DST)
+  kat_time = as.POSIXct(datestrings, tz = "Asia/Kathmandu") # UTC +5:45 (no DST)
 )
 
 test_that("timestamp round/floor/ceiling works for a minimal test", {
-
   compare_dplyr_binding(
     .input %>%
       mutate(
@@ -3023,7 +3147,6 @@ test_that("timestamp round/floor/ceiling accepts period unit abbreviation", {
 })
 
 test_that("temporal round/floor/ceiling accepts periods with multiple units", {
-
   check_multiple_unit_period <- function(unit, multiplier) {
     unit_string <- paste(multiplier, unit)
     compare_dplyr_binding(
@@ -3072,7 +3195,6 @@ check_date_rounding <- function(data, unit, lubridate_unit = unit, ...) {
 }
 
 check_timestamp_rounding <- function(data, unit, lubridate_unit = unit, ...) {
-
   expect_equal(
     data %>%
       arrow_table() %>%
@@ -3093,16 +3215,16 @@ check_timestamp_rounding <- function(data, unit, lubridate_unit = unit, ...) {
 }
 
 test_that("date round/floor/ceil works for units of 1 day or less", {
-
   test_df %>% check_date_rounding("1 millisecond", lubridate_unit = ".001 second")
-  test_df %>% check_date_rounding("1 day")
   test_df %>% check_date_rounding("1 second")
   test_df %>% check_date_rounding("1 hour")
 
+  skip("floor_date(as.Date(NA), '1 day') is no longer NA on latest R-devel")
+  # Possibly https://github.com/wch/r-source/commit/4f70ce0d79eeda7464cf97448e515275cbef754b
+  test_df %>% check_date_rounding("1 day")
 })
 
 test_that("timestamp round/floor/ceil works for units of 1 day or less", {
-
   test_df %>% check_timestamp_rounding("second")
   test_df %>% check_timestamp_rounding("minute")
   test_df %>% check_timestamp_rounding("hour")
@@ -3115,15 +3237,12 @@ test_that("timestamp round/floor/ceil works for units of 1 day or less", {
   test_df %>% check_timestamp_rounding("1 millisecond", lubridate_unit = ".001 second")
   test_df %>% check_timestamp_rounding("1 microsecond", lubridate_unit = ".000001 second")
   test_df %>% check_timestamp_rounding("1 nanosecond", lubridate_unit = ".000000001 second")
-
 })
 
 test_that("timestamp round/floor/ceil works for units: month/quarter/year", {
-
   year_of_dates %>% check_timestamp_rounding("month", ignore_attr = TRUE)
   year_of_dates %>% check_timestamp_rounding("quarter", ignore_attr = TRUE)
   year_of_dates %>% check_timestamp_rounding("year", ignore_attr = TRUE)
-
 })
 
 # check helper invoked when we need to avoid the lubridate rounding bug
@@ -3169,7 +3288,6 @@ test_that("date round/floor/ceil works for units: month/quarter/year", {
   check_date_rounding_1051_bypass(year_of_dates, "month", ignore_attr = TRUE)
   check_date_rounding_1051_bypass(year_of_dates, "quarter", ignore_attr = TRUE)
   check_date_rounding_1051_bypass(year_of_dates, "year", ignore_attr = TRUE)
-
 })
 
 check_date_week_rounding <- function(data, week_start, ignore_attr = TRUE, ...) {
@@ -3209,20 +3327,16 @@ check_timestamp_week_rounding <- function(data, week_start, ignore_attr = TRUE,
 }
 
 test_that("timestamp round/floor/ceil works for week units (standard week_start)", {
-
   fortnight %>% check_timestamp_week_rounding(week_start = 1) # Monday
   fortnight %>% check_timestamp_week_rounding(week_start = 7) # Sunday
-
 })
 
 test_that("timestamp round/floor/ceil works for week units (non-standard week_start)", {
-
   fortnight %>% check_timestamp_week_rounding(week_start = 2) # Tuesday
   fortnight %>% check_timestamp_week_rounding(week_start = 3) # Wednesday
   fortnight %>% check_timestamp_week_rounding(week_start = 4) # Thursday
   fortnight %>% check_timestamp_week_rounding(week_start = 5) # Friday
   fortnight %>% check_timestamp_week_rounding(week_start = 6) # Saturday
-
 })
 
 check_date_week_rounding <- function(data, week_start, ignore_attr = TRUE, ...) {
@@ -3257,20 +3371,16 @@ check_date_week_rounding <- function(data, week_start, ignore_attr = TRUE, ...)
 }
 
 test_that("date round/floor/ceil works for week units (standard week_start)", {
-
   check_date_week_rounding(fortnight, week_start = 1) # Monday
   check_date_week_rounding(fortnight, week_start = 7) # Sunday
-
 })
 
 test_that("date round/floor/ceil works for week units (non-standard week_start)", {
-
   check_date_week_rounding(fortnight, week_start = 2) # Tuesday
   check_date_week_rounding(fortnight, week_start = 3) # Wednesday
   check_date_week_rounding(fortnight, week_start = 4) # Thursday
   check_date_week_rounding(fortnight, week_start = 5) # Friday
   check_date_week_rounding(fortnight, week_start = 6) # Saturday
-
 })
 
 # Test helper used to check that the change_on_boundary argument to
@@ -3309,8 +3419,6 @@ check_boundary_with_unit <- function(unit, ...) {
       ),
     ...
   )
-
-
 }
 
 test_that("ceiling_date() applies change_on_boundary correctly", {
@@ -3325,7 +3433,6 @@ test_that("ceiling_date() applies change_on_boundary correctly", {
 # exceeded. Checks that arrow mimics this behaviour and throws an identically
 # worded error message
 test_that("temporal round/floor/ceil period unit maxima are enforced", {
-
   expect_error(
     call_binding("round_date", Expression$scalar(Sys.time()), "61 seconds"),
     "Rounding with second > 60 is not supported"
@@ -3342,7 +3449,6 @@ test_that("temporal round/floor/ceil period unit maxima are enforced", {
     call_binding("round_date", Expression$scalar(Sys.Date()), "25 hours"),
     "Rounding with hour > 24 is not supported"
   )
-
 })
 
 # one method to test that temporal rounding takes place in local time is to
@@ -3384,7 +3490,6 @@ check_timezone_rounding_vs_lubridate <- function(data, unit) {
       collect(),
     data
   )
-
 }
 
 # another method to check that temporal rounding takes place in local
@@ -3394,7 +3499,6 @@ check_timezone_rounding_vs_lubridate <- function(data, unit) {
 # for UTC test. this test isn't useful for subsecond resolution but avoids
 # dependency on lubridate
 check_timezone_rounding_for_consistency <- function(data, unit) {
-
   shifted_times <- data %>%
     arrow_table() %>%
     mutate(
@@ -3418,11 +3522,11 @@ check_timezone_rounding_for_consistency <- function(data, unit) {
 
   compare_local_times <- function(time1, time2) {
     all(year(time1) == year(time1) &
-          month(time1) == month(time2) &
-          day(time1) == day(time2) &
-          hour(time1) == hour(time2) &
-          minute(time1) == minute(time2) &
-          second(time1) == second(time1))
+      month(time1) == month(time2) &
+      day(time1) == day(time2) &
+      hour(time1) == hour(time2) &
+      minute(time1) == minute(time2) &
+      second(time1) == second(time1))
   }
 
   base <- shifted_times$utc_rounded
@@ -3445,7 +3549,6 @@ check_timezone_rounding_for_consistency <- function(data, unit) {
 }
 
 test_that("timestamp rounding takes place in local time", {
-
   tz_times %>% check_timezone_rounding_vs_lubridate(".001 second")
   tz_times %>% check_timezone_rounding_vs_lubridate("second")
   tz_times %>% check_timezone_rounding_vs_lubridate("minute")
@@ -3476,5 +3579,165 @@ test_that("timestamp rounding takes place in local time", {
   tz_times %>% check_timezone_rounding_for_consistency("13 hours")
   tz_times %>% check_timezone_rounding_for_consistency("13 months")
   tz_times %>% check_timezone_rounding_for_consistency("13 years")
+})
+
+test_that("with_tz() and force_tz() works", {
+  timestamps <- as_datetime(c(
+    "1970-01-01T00:00:59.123456789",
+    "2000-02-29T23:23:23.999999999",
+    "2033-05-18T03:33:20.000000000",
+    "2020-01-01T01:05:05.001",
+    "2019-12-31T02:10:10.002",
+    "2019-12-30T03:15:15.003",
+    "2009-12-31T04:20:20.004132",
+    "2010-01-01T05:25:25.005321",
+    "2010-01-03T06:30:30.006163",
+    "2010-01-04T07:35:35",
+    "2006-01-01T08:40:40",
+    "2005-12-31T09:45:45",
+    "2008-12-28",
+    "2008-12-29",
+    "2012-01-01 01:02:03"
+  ), tz = "UTC")
+
+  timestamps_non_utc <- force_tz(timestamps, "US/Central")
+
+  nonexistent <- as_datetime(c(
+    "2015-03-29 02:30:00",
+    "2015-03-29 03:30:00"
+  ), tz = "UTC")
+
+  ambiguous <- as_datetime(c(
+    "2015-10-25 02:30:00",
+    "2015-10-25 03:30:00"
+  ), tz = "UTC")
+
+  compare_dplyr_binding(
+    .input %>%
+      mutate(
+        timestamps_with_tz_1 = with_tz(timestamps, "UTC"),
+        timestamps_with_tz_2 = with_tz(timestamps, "US/Central"),
+        timestamps_with_tz_3 = with_tz(timestamps, "Asia/Kolkata"),
+        timestamps_force_tz_1 = force_tz(timestamps, "UTC"),
+        timestamps_force_tz_2 = force_tz(timestamps, "US/Central"),
+        timestamps_force_tz_3 = force_tz(timestamps, "Asia/Kolkata")
+      ) %>%
+      collect(),
+    tibble::tibble(timestamps = timestamps)
+  )
 
+  compare_dplyr_binding(
+    .input %>%
+      mutate(
+        timestamps_with_tz_1 = with_tz(timestamps, "UTC"),
+        timestamps_with_tz_2 = with_tz(timestamps, "US/Central"),
+        timestamps_with_tz_3 = with_tz(timestamps, "Asia/Kolkata")
+      ) %>%
+      collect(),
+    tibble::tibble(timestamps = timestamps_non_utc)
+  )
+
+  # We can match some roll_dst behaviour for nonexistent times
+  compare_dplyr_binding(
+    .input %>%
+      mutate(
+        timestamps_with_tz_1 = force_tz(
+          timestamps,
+          "Europe/Brussels",
+          roll_dst = c("boundary", "post")
+        )
+      ) %>%
+      collect(),
+    tibble::tibble(timestamps = nonexistent)
+  )
+
+  # We can match all roll_dst behaviour for ambiguous times
+  compare_dplyr_binding(
+    .input %>%
+      mutate(
+        # The difference is easier to see if we transform back to UTC
+        # because both pre and post will display as 02:30 otherwise
+        timestamps_with_tz_pre = with_tz(
+          force_tz(
+            timestamps,
+            "Europe/Brussels",
+            roll_dst = c("boundary", "pre")
+          ),
+          "UTC"
+        ),
+        timestamps_with_tz_post = with_tz(
+          force_tz(
+            timestamps,
+            "Europe/Brussels",
+            roll_dst = c("boundary", "post")
+          ),
+          "UTC"
+        )
+      ) %>%
+      collect(),
+    tibble::tibble(timestamps = ambiguous)
+  )
+
+  # non-UTC timezone to other timezone is not supported in arrow's force_tz()
+  expect_warning(
+    tibble::tibble(timestamps = timestamps_non_utc) %>%
+      arrow_table() %>%
+      mutate(timestamps = force_tz(timestamps, "UTC")) %>%
+      collect(),
+    "`time` with a non-UTC timezone not supported in Arrow"
+  )
+
+  # We only support some roll_dst values
+  expect_warning(
+    tibble::tibble(timestamps = nonexistent) %>%
+      arrow_table() %>%
+      mutate(timestamps = force_tz(
+        timestamps,
+        "Europe/Brussels",
+        roll_dst = "post")
+      ) %>%
+      collect(),
+    "roll_dst` value must be 'error' or 'boundary' for non-existent times"
+  )
+
+  expect_warning(
+    tibble::tibble(timestamps = nonexistent) %>%
+      arrow_table() %>%
+      mutate(timestamps = force_tz(
+          timestamps,
+          "Europe/Brussels",
+          roll_dst = c("boundary", "NA")
+        )
+      ) %>%
+      collect(),
+    "`roll_dst` value must be 'error', 'pre', or 'post' for non-existent times"
+  )
+
+  # Raise error when the timezone falls into the DST-break
+  expect_error(
+    record_batch(timestamps = nonexistent) %>%
+      mutate(nonexistent_roll_false = force_tz(timestamps, "Europe/Brussels")) %>%
+      collect(),
+    "Timestamp doesn't exist in timezone 'Europe/Brussels'"
+  )
+})
+
+test_that("with_tz() and force_tz() can add timezone to timestamp without timezone", {
+  timestamps <- Array$create(1L:10L, int64())$cast(timestamp("s"))
+
+  expect_equal(
+    arrow_table(timestamps = timestamps) %>%
+      mutate(timestamps = with_tz(timestamps, "US/Central")) %>%
+      compute(),
+    arrow_table(timestamps = timestamps$cast(timestamp("s", "US/Central")))
+  )
+
+  expect_equal(
+    arrow_table(timestamps = timestamps) %>%
+      mutate(timestamps = force_tz(timestamps, "US/Central")) %>%
+      compute(),
+    arrow_table(
+      timestamps = call_function("assume_timezone", timestamps, options = list(timezone = "US/Central"))
+    )
+  )
 })
diff --git a/r/tests/testthat/test-dplyr-funcs-math.R b/r/tests/testthat/test-dplyr-funcs-math.R
index 5f7da452395..66b3a510f9c 100644
--- a/r/tests/testthat/test-dplyr-funcs-math.R
+++ b/r/tests/testthat/test-dplyr-funcs-math.R
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 library(dplyr, warn.conflicts = FALSE)
 
 
@@ -27,7 +25,8 @@ test_that("abs()", {
     .input %>%
       transmute(
         abs = abs(x),
-        abs2 = base::abs(x)) %>%
+        abs2 = base::abs(x)
+      ) %>%
       collect(),
     df
   )
diff --git a/r/tests/testthat/test-dplyr-funcs-string.R b/r/tests/testthat/test-dplyr-funcs-string.R
index 423fe1ccd8e..bb60a79daa1 100644
--- a/r/tests/testthat/test-dplyr-funcs-string.R
+++ b/r/tests/testthat/test-dplyr-funcs-string.R
@@ -15,7 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
 skip_if_not_available("utf8proc")
 
 library(dplyr, warn.conflicts = FALSE)
@@ -62,7 +61,8 @@ test_that("paste, paste0, and str_c", {
     .input %>%
       transmute(
         a = paste0(v, w),
-        a2 = base::paste0(v, w)) %>%
+        a2 = base::paste0(v, w)
+      ) %>%
       collect(),
     df
   )
@@ -140,12 +140,10 @@ test_that("paste, paste0, and str_c", {
     call_binding("paste", x, y, sep = NA_character_),
     "Invalid separator"
   )
-  # emits null in str_c() (consistent with stringr::str_c())
-  compare_dplyr_binding(
-    .input %>%
-      transmute(str_c(x, y, sep = NA_character_)) %>%
-      collect(),
-    df
+  # In next release of stringr (late 2022), str_c also errors
+  expect_error(
+    call_binding("str_c", x, y, sep = NA_character_),
+    "`sep` must be a single string, not `NA`."
   )
 
   # sep passed in dots to paste0 (which doesn't take a sep argument)
@@ -848,64 +846,53 @@ test_that("stri_reverse and arrow_ascii_reverse functions", {
 test_that("str_like", {
   df <- tibble(x = c("Foo and bar", "baz and qux and quux"))
 
-  # TODO: After new version of stringr with str_like has been released, update all
-  # these tests to use compare_dplyr_binding
-
   # No match - entire string
-  expect_equal(
-    df %>%
-      Table$create() %>%
+  compare_dplyr_binding(
+    .input %>%
       mutate(x = str_like(x, "baz")) %>%
       collect(),
-    tibble(x = c(FALSE, FALSE))
+    df
   )
   # with namespacing
-  expect_equal(
-    df %>%
-      Table$create() %>%
+  compare_dplyr_binding(
+    .input %>%
       mutate(x = stringr::str_like(x, "baz")) %>%
       collect(),
-    tibble(x = c(FALSE, FALSE))
+    df
   )
 
   # Match - entire string
-  expect_equal(
-    df %>%
-      Table$create() %>%
+  compare_dplyr_binding(
+    .input %>%
       mutate(x = str_like(x, "Foo and bar")) %>%
       collect(),
-    tibble(x = c(TRUE, FALSE))
+    df
   )
 
   # Wildcard
-  expect_equal(
-    df %>%
-      Table$create() %>%
+  compare_dplyr_binding(
+    .input %>%
       mutate(x = str_like(x, "f%", ignore_case = TRUE)) %>%
       collect(),
-    tibble(x = c(TRUE, FALSE))
+    df
   )
 
   # Ignore case
-  expect_equal(
-    df %>%
-      Table$create() %>%
+  compare_dplyr_binding(
+    .input %>%
       mutate(x = str_like(x, "f%", ignore_case = FALSE)) %>%
       collect(),
-    tibble(x = c(FALSE, FALSE))
+    df
   )
 
   # Single character
-  expect_equal(
-    df %>%
-      Table$create() %>%
+  compare_dplyr_binding(
+    .input %>%
       mutate(x = str_like(x, "_a%")) %>%
       collect(),
-    tibble(x = c(FALSE, TRUE))
+    df
   )
 
-  # This will give an error until a new version of stringr with str_like has been released
-  skip_if_not(packageVersion("stringr") > "1.4.0")
   compare_dplyr_binding(
     .input %>%
       mutate(x = str_like(x, "%baz%")) %>%
@@ -956,7 +943,7 @@ test_that("str_pad", {
   )
 })
 
-test_that("substr", {
+test_that("substr with string()", {
   df <- tibble(x = "Apache Arrow")
 
   compare_dplyr_binding(
@@ -1036,6 +1023,31 @@ test_that("substr", {
   )
 })
 
+test_that("substr with binary()", {
+  batch <- record_batch(x = list(charToRaw("Apache Arrow")))
+
+  # Check a field reference input
+  expect_identical(
+    batch %>%
+      transmute(y = substr(x, 1, 3)) %>%
+      collect() %>%
+      # because of the arrow_binary class
+      mutate(y = unclass(y)),
+    tibble::tibble(y = list(charToRaw("Apa")))
+  )
+
+  # Check a Scalar input
+  scalar <- Scalar$create(batch$x)
+  expect_identical(
+    batch %>%
+      transmute(y = substr(scalar, 1, 3)) %>%
+      collect() %>%
+      # because of the arrow_binary class
+      mutate(y = unclass(y)),
+    tibble::tibble(y = list(charToRaw("Apa")))
+  )
+})
+
 test_that("substring", {
   # binding for substring just calls call_binding("substr", ...),
   # tested extensively above
@@ -1397,3 +1409,59 @@ test_that("str_trim()", {
     tbl
   )
 })
+
+test_that("str_remove and str_remove_all", {
+  df <- tibble(x = c("Foo", "bar"))
+
+  compare_dplyr_binding(
+    .input %>%
+      transmute(x = str_remove_all(x, "^F")) %>%
+      collect(),
+    df
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      transmute(x = str_remove_all(x, regex("^F"))) %>%
+      collect(),
+    df
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      mutate(x = str_remove(x, "^F[a-z]{2}")) %>%
+      collect(),
+    df
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      transmute(x = str_remove(x, regex("^f[A-Z]{2}", ignore_case = TRUE))) %>%
+      collect(),
+    df
+  )
+  compare_dplyr_binding(
+    .input %>%
+      transmute(
+        x = str_remove_all(x, fixed("o")),
+        x2 = stringr::str_remove_all(x, fixed("o"))
+      ) %>%
+      collect(),
+    df
+  )
+  compare_dplyr_binding(
+    .input %>%
+      transmute(
+        x = str_remove(x, fixed("O")),
+        x2 = stringr::str_remove(x, fixed("O"))
+      ) %>%
+      collect(),
+    df
+  )
+  compare_dplyr_binding(
+    .input %>%
+      transmute(x = str_remove(x, fixed("O", ignore_case = TRUE))) %>%
+      collect(),
+    df
+  )
+})
diff --git a/r/tests/testthat/test-dplyr-funcs-type.R b/r/tests/testthat/test-dplyr-funcs-type.R
index 3f274b97f7f..ccf16dd4db4 100644
--- a/r/tests/testthat/test-dplyr-funcs-type.R
+++ b/r/tests/testthat/test-dplyr-funcs-type.R
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 library(dplyr, warn.conflicts = FALSE)
 suppressPackageStartupMessages(library(bit64))
 suppressPackageStartupMessages(library(lubridate))
@@ -291,7 +289,7 @@ test_that("type checks with is() giving Arrow types", {
         str_is_dec256 = is(str, decimal256(3, 2)),
         str_is_i64 = is(str, float64()),
         str_is_str = is(str, string())
-    ) %>%
+      ) %>%
       collect() %>%
       t() %>%
       as.vector(),
@@ -422,12 +420,12 @@ test_that("type checks with is() giving R types", {
         i64_is_chr = is(i64, "character"),
         i64_is_fct = is(i64, "factor"),
         # we want Arrow to return TRUE, but bit64 returns FALSE
-        # i64_is_int = is(i64, "integer"),
+        # i64_is_int = is(i64, "integer"), # nolint
         i64_is_i64 = is(i64, "integer64"),
         i64_is_lst = is(i64, "list"),
         i64_is_lgl = is(i64, "logical"),
         # we want Arrow to return TRUE, but bit64 returns FALSE
-        # i64_is_num = is(i64, "numeric"),
+        # i64_is_num = is(i64, "numeric"), # nolint
         lst_is_chr = is(lst, "character"),
         lst_is_fct = is(lst, "factor"),
         lst_is_int = is(lst, "integer"),
@@ -506,10 +504,10 @@ test_that("type checks with is.*()", {
       transmute(
         i64_is_chr = is.character(i64),
         # TODO: investigate why this is not matching when testthat runs it
-        # i64_is_dbl = is.double(i64),
+        # i64_is_dbl = is.double(i64), # nolint
         i64_is_fct = is.factor(i64),
         # we want Arrow to return TRUE, but bit64 returns FALSE
-        # i64_is_int = is.integer(i64),
+        # i64_is_int = is.integer(i64), # nolint
         i64_is_i64 = is.integer64(i64),
         i64_is_lst = is.list(i64),
         i64_is_lgl = is.logical(i64),
diff --git a/r/tests/testthat/test-dplyr-funcs.R b/r/tests/testthat/test-dplyr-funcs.R
index 86f984dd32c..48b74c9af43 100644
--- a/r/tests/testthat/test-dplyr-funcs.R
+++ b/r/tests/testthat/test-dplyr-funcs.R
@@ -35,6 +35,9 @@ test_that("register_binding()/unregister_binding() works", {
     register_binding("some.pkg2::some_fun", fun2, fake_registry),
     "A \"some_fun\" binding already exists in the registry and will be overwritten."
   )
+
+  # No warning when an identical function is re-registered
+  expect_silent(register_binding("some.pkg2::some_fun", fun2, fake_registry))
 })
 
 test_that("register_binding_agg() works", {
diff --git a/r/tests/testthat/test-dplyr-group-by.R b/r/tests/testthat/test-dplyr-group-by.R
index 08d6a77d3d1..3c5d174b0c7 100644
--- a/r/tests/testthat/test-dplyr-group-by.R
+++ b/r/tests/testthat/test-dplyr-group-by.R
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 library(dplyr, warn.conflicts = FALSE)
 library(stringr)
 
@@ -54,6 +52,24 @@ test_that("group_by supports creating/renaming", {
   )
 })
 
+test_that("group_by supports re-grouping by overlapping groups", {
+  compare_dplyr_binding(
+    .input %>%
+      group_by(chr, int) %>%
+      group_by(int, dbl) %>%
+      collect(),
+    tbl
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      group_by(chr, int) %>%
+      group_by(int, chr = "some new value") %>%
+      collect(),
+    tbl
+  )
+})
+
 test_that("ungroup", {
   compare_dplyr_binding(
     .input %>%
@@ -81,6 +97,25 @@ test_that("ungroup", {
   )
 })
 
+test_that("Groups before conversion to a Table must not be restored after collect() (ARROW-17737)", {
+  compare_dplyr_binding(
+    .input %>%
+      group_by(chr, .add = FALSE) %>%
+      ungroup() %>%
+      collect(),
+    tbl %>%
+      group_by(int)
+  )
+  compare_dplyr_binding(
+    .input %>%
+      group_by(chr, .add = TRUE) %>%
+      ungroup() %>%
+      collect(),
+    tbl %>%
+      group_by(int)
+  )
+})
+
 test_that("group_by then rename", {
   compare_dplyr_binding(
     .input %>%
@@ -168,3 +203,132 @@ test_that("group_by() with namespaced functions", {
     tbl
   )
 })
+
+test_that("group_by() with .add", {
+  compare_dplyr_binding(
+    .input %>%
+      group_by(dbl2) %>%
+      group_by(.add = FALSE) %>%
+      collect(),
+    tbl
+  )
+  compare_dplyr_binding(
+    .input %>%
+      group_by(dbl2) %>%
+      group_by(.add = TRUE) %>%
+      collect(),
+    tbl
+  )
+  compare_dplyr_binding(
+    .input %>%
+      group_by(dbl2) %>%
+      group_by(chr, .add = FALSE) %>%
+      collect(),
+    tbl
+  )
+  compare_dplyr_binding(
+    .input %>%
+      group_by(dbl2) %>%
+      group_by(chr, .add = TRUE) %>%
+      collect(),
+    tbl
+  )
+  compare_dplyr_binding(
+    .input %>%
+      group_by(.add = FALSE) %>%
+      collect(),
+    tbl %>%
+      group_by(dbl2)
+  )
+  compare_dplyr_binding(
+    .input %>%
+      group_by(.add = TRUE) %>%
+      collect(),
+    tbl %>%
+      group_by(dbl2)
+  )
+  compare_dplyr_binding(
+    .input %>%
+      group_by(chr, .add = FALSE) %>%
+      collect(),
+    tbl %>%
+      group_by(dbl2)
+  )
+  compare_dplyr_binding(
+    .input %>%
+      group_by(chr, .add = TRUE) %>%
+      collect(),
+    tbl %>%
+      group_by(dbl2)
+  )
+  suppressWarnings(compare_dplyr_binding(
+    .input %>%
+      group_by(dbl2) %>%
+      group_by(add = FALSE) %>%
+      collect(),
+    tbl,
+    warning = "deprecated"
+  ))
+  suppressWarnings(compare_dplyr_binding(
+    .input %>%
+      group_by(dbl2) %>%
+      group_by(add = TRUE) %>%
+      collect(),
+    tbl,
+    warning = "deprecated"
+  ))
+  expect_warning(
+    tbl %>%
+      arrow_table() %>%
+      group_by(add = TRUE) %>%
+      collect(),
+    "The `add` argument of `group_by\\(\\)` is deprecated"
+  )
+  expect_error(
+    suppressWarnings(
+      tbl %>%
+        arrow_table() %>%
+        group_by(add = dbl2) %>%
+        collect()
+    ),
+    "object 'dbl2' not found"
+  )
+})
+
+test_that("Can use across() within group_by()", {
+  test_groups <- c("dbl", "int", "chr")
+  compare_dplyr_binding(
+    .input %>%
+      group_by(across(everything())) %>%
+      collect(),
+    tbl
+  )
+  compare_dplyr_binding(
+    .input %>%
+      group_by(across(starts_with("d"))) %>%
+      collect(),
+    tbl
+  )
+  compare_dplyr_binding(
+    .input %>%
+      group_by(across({{ test_groups }})) %>%
+      collect(),
+    tbl
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      group_by(across(where(is.numeric))) %>%
+      collect(),
+    tbl
+  )
+})
+
+test_that("ARROW-18131 - correctly handles .data pronoun in group_by()", {
+  compare_dplyr_binding(
+    .input %>%
+      group_by(.data$lgl) %>%
+      collect(),
+    tbl
+  )
+})
diff --git a/r/tests/testthat/test-dplyr-join.R b/r/tests/testthat/test-dplyr-join.R
index 9d8e22596a6..2520d561cfd 100644
--- a/r/tests/testthat/test-dplyr-join.R
+++ b/r/tests/testthat/test-dplyr-join.R
@@ -15,28 +15,25 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 library(dplyr, warn.conflicts = FALSE)
 
 left <- example_data
 left$some_grouping <- rep(c(1, 2), 5)
 
 to_join <- tibble::tibble(
-  some_grouping = c(1, 2),
-  capital_letters = c("A", "B"),
+  some_grouping = c(1, 2, 3),
+  capital_letters = c("A", "B", "C"),
   another_column = TRUE
 )
 
-test_that("left_join", {
-  expect_message(
-    compare_dplyr_binding(
-      .input %>%
-        left_join(to_join) %>%
-        collect(),
-      left
-    ),
-    'Joining, by = "some_grouping"'
+test_that("left_join with automatic grouping", {
+  expect_identical(
+    as_record_batch(left) %>%
+      left_join(to_join) %>%
+      collect(),
+    left %>%
+      left_join(to_join, by = "some_grouping") %>%
+      collect()
   )
 })
 
@@ -70,6 +67,39 @@ test_that("left_join `by` args", {
   )
 })
 
+test_that("left_join with join_by", {
+  # only run this test in newer versions of dplyr that include `join_by()`
+  skip_if_not(packageVersion("dplyr") >= "1.0.99.9000")
+
+  compare_dplyr_binding(
+    .input %>%
+      left_join(to_join, join_by(some_grouping)) %>%
+      collect(),
+    left
+  )
+  compare_dplyr_binding(
+    .input %>%
+      left_join(
+        to_join %>%
+          rename(the_grouping = some_grouping),
+        join_by(some_grouping == the_grouping)
+      ) %>%
+      collect(),
+    left
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      rename(the_grouping = some_grouping) %>%
+      left_join(
+        to_join,
+        join_by(the_grouping == some_grouping)
+      ) %>%
+      collect(),
+    left
+  )
+})
+
 test_that("join two tables", {
   expect_identical(
     arrow_table(left) %>%
@@ -139,13 +169,37 @@ test_that("Error handling", {
   )
 })
 
+test_that("Error handling for unsupported expressions in join_by", {
+  # only run this test in newer versions of dplyr that include `join_by()`
+  skip_if_not(packageVersion("dplyr") >= "1.0.99.9000")
+
+  expect_error(
+    arrow_table(left) %>%
+      left_join(to_join, join_by(some_grouping >= some_grouping)),
+    "not supported"
+  )
+
+  expect_error(
+    arrow_table(left) %>%
+      left_join(to_join, join_by(closest(some_grouping >= some_grouping))),
+    "not supported"
+  )
+})
+
 # TODO: test duplicate col names
 # TODO: casting: int and float columns?
 
 test_that("right_join", {
   compare_dplyr_binding(
     .input %>%
-      right_join(to_join, by = "some_grouping") %>%
+      right_join(to_join, by = "some_grouping", keep = TRUE) %>%
+      collect(),
+    left
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      right_join(to_join, by = "some_grouping", keep = FALSE) %>%
       collect(),
     left
   )
@@ -154,7 +208,14 @@ test_that("right_join", {
 test_that("inner_join", {
   compare_dplyr_binding(
     .input %>%
-      inner_join(to_join, by = "some_grouping") %>%
+      inner_join(to_join, by = "some_grouping", keep = TRUE) %>%
+      collect(),
+    left
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      inner_join(to_join, by = "some_grouping", keep = FALSE) %>%
       collect(),
     left
   )
@@ -163,7 +224,14 @@ test_that("inner_join", {
 test_that("full_join", {
   compare_dplyr_binding(
     .input %>%
-      full_join(to_join, by = "some_grouping") %>%
+      full_join(to_join, by = "some_grouping", keep = TRUE) %>%
+      collect(),
+    left
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      full_join(to_join, by = "some_grouping", keep = FALSE) %>%
       collect(),
     left
   )
@@ -340,3 +408,34 @@ test_that("arrow dplyr query can join two datasets", {
     }
   )
 })
+
+test_that("full joins handle keep", {
+  full_data_df <- tibble::tibble(
+    x = rep(c("a", "b"), each = 5),
+    y = rep(1:5, 2),
+    z = rep("zzz", 10),
+    index = 1:10
+  )
+  small_dataset_df <- tibble::tibble(
+    value = c(0.1, 0.2, 0.3, 0.4, 0.5),
+    x = c(rep("a", 3), rep("b", 2)),
+    y = 1:5,
+    z = 6:10
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      full_join(full_data_df, by = c("y", "x"), keep = TRUE) %>%
+      arrange(index) %>%
+      collect(),
+    small_dataset_df
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      full_join(full_data_df, by = c("y", "x"), keep = FALSE) %>%
+      arrange(index) %>%
+      collect(),
+    small_dataset_df
+  )
+})
diff --git a/r/tests/testthat/test-dplyr-mutate.R b/r/tests/testthat/test-dplyr-mutate.R
index 66e3b4edf0d..5d431089ce7 100644
--- a/r/tests/testthat/test-dplyr-mutate.R
+++ b/r/tests/testthat/test-dplyr-mutate.R
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 library(dplyr, warn.conflicts = FALSE)
 library(stringr)
 
@@ -279,14 +277,13 @@ test_that("dplyr::mutate's examples", {
   # Examples we don't support should succeed
   # but warn that they're pulling data into R to do so
 
-  # across and autosplicing: ARROW-11699
+  # test modified from version in dplyr::mutate due to ARROW-12632
   compare_dplyr_binding(
     .input %>%
-      select(name, homeworld, species) %>%
-      mutate(across(!name, as.factor)) %>%
+      select(name, height, mass) %>%
+      mutate(across(!name, as.character)) %>%
       collect(),
     starwars,
-    warning = "Expression across.*not supported in Arrow"
   )
 
   # group_by then mutate
@@ -461,7 +458,7 @@ test_that("print a mutated table", {
       print(),
     "Table (query)
 int: int32
-twice: double (multiply_checked(int, 2))
+twice: int32 (multiply_checked(int, 2))
 
 See $.data for the source Arrow object",
     fixed = TRUE
@@ -589,3 +586,67 @@ test_that("mutate() and transmute() with namespaced functions", {
     tbl
   )
 })
+
+test_that("Can use across() within mutate()", {
+
+  # expressions work in the right order
+  compare_dplyr_binding(
+    .input %>%
+      mutate(
+        dbl2 = dbl * 2,
+        across(c(dbl, dbl2), round),
+        int2 = int * 2,
+        dbl = dbl + 3
+      ) %>%
+      collect(),
+    example_data
+  )
+
+  # this is valid is neither R nor Arrow
+  expect_error(
+    expect_warning(
+      compare_dplyr_binding(
+        .input %>%
+          arrow_table() %>%
+          mutate(across(c(dbl, dbl2), list("fun1" = round(sqrt(dbl))))) %>%
+          collect(),
+        example_data,
+        warning = TRUE
+      )
+    )
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      mutate(across(where(is.double))) %>%
+      collect(),
+    example_data
+  )
+
+  # gives the right error with window functions
+  expect_warning(
+    arrow_table(example_data) %>%
+      mutate(
+        x = int + 2,
+        across(c("int", "dbl"), list(mean = mean, sd = sd, round)),
+        exp(dbl2)
+      ) %>%
+      collect(),
+    "window functions not currently supported in Arrow; pulling data into R",
+    fixed = TRUE
+  )
+})
+
+test_that("Can use across() within transmute()", {
+  compare_dplyr_binding(
+    .input %>%
+      transmute(
+        dbl2 = dbl * 2,
+        across(c(dbl, dbl2), round),
+        int2 = int * 2,
+        dbl = dbl + 3
+      ) %>%
+      collect(),
+    example_data
+  )
+})
diff --git a/r/tests/testthat/test-dplyr-query.R b/r/tests/testthat/test-dplyr-query.R
index 37ab178cbb4..ee11cd6678b 100644
--- a/r/tests/testthat/test-dplyr-query.R
+++ b/r/tests/testthat/test-dplyr-query.R
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 library(dplyr, warn.conflicts = FALSE)
 library(stringr)
 
@@ -72,26 +70,38 @@ See $.data for the source Arrow object',
 
 test_that("pull", {
   compare_dplyr_binding(
-    .input %>% pull(),
+    .input %>% pull() %>% as.vector(),
     tbl
   )
   compare_dplyr_binding(
-    .input %>% pull(1),
+    .input %>% pull(1) %>% as.vector(),
     tbl
   )
   compare_dplyr_binding(
-    .input %>% pull(chr),
+    .input %>% pull(chr) %>% as.vector(),
     tbl
   )
   compare_dplyr_binding(
     .input %>%
       filter(int > 4) %>%
       rename(strng = chr) %>%
-      pull(strng),
+      pull(strng) %>%
+      as.vector(),
     tbl
   )
 })
 
+test_that("pull() shows a deprecation warning if the option isn't set", {
+  expect_warning(
+    vec <- tbl %>%
+      arrow_table() %>%
+      pull(as_vector = NULL),
+    "Current behavior of returning an R vector is deprecated"
+  )
+  # And the default is the old behavior, an R vector
+  expect_identical(vec, pull(tbl))
+})
+
 test_that("collect(as_data_frame=FALSE)", {
   batch <- record_batch(tbl)
 
@@ -121,7 +131,7 @@ test_that("collect(as_data_frame=FALSE)", {
     filter(int > 5) %>%
     group_by(int) %>%
     collect(as_data_frame = FALSE)
-  expect_s3_class(b4, "arrow_dplyr_query")
+  expect_r6_class(b4, "Table")
   expect_equal(
     as.data.frame(b4),
     expected %>%
@@ -158,7 +168,7 @@ test_that("compute()", {
     filter(int > 5) %>%
     group_by(int) %>%
     compute()
-  expect_s3_class(b4, "arrow_dplyr_query")
+  expect_r6_class(b4, "Table")
   expect_equal(
     as.data.frame(b4),
     expected %>%
@@ -448,9 +458,9 @@ test_that("show_exec_plan(), show_query() and explain()", {
       arrow_table() %>%
       show_exec_plan(),
     regexp = paste0(
-      "ExecPlan with .* nodes:.*", # boiler plate for ExecPlan
-      "ProjectNode.*",             # output columns
-      "TableSourceNode"            # entry point
+      "ExecPlan with 2 nodes:.*", # boiler plate for ExecPlan
+      "SinkNode.*", # output
+      "TableSourceNode" # entry point
     )
   )
 
@@ -463,12 +473,12 @@ test_that("show_exec_plan(), show_query() and explain()", {
       mutate(int_plus_ten = int + 10) %>%
       show_exec_plan(),
     regexp = paste0(
-      "ExecPlan with .* nodes:.*",           # boiler plate for ExecPlan
-      "chr, int, lgl, \"int_plus_ten\".*",   # selected columns
-      "FilterNode.*",                        # filter node
-      "(dbl > 2).*",                         # filter expressions
+      "ExecPlan with .* nodes:.*", # boiler plate for ExecPlan
+      "chr, int, lgl, \"int_plus_ten\".*", # selected columns
+      "FilterNode.*", # filter node
+      "(dbl > 2).*", # filter expressions
       "chr != \"e\".*",
-      "TableSourceNode"                      # entry point
+      "TableSourceNode" # entry point
     )
   )
 
@@ -481,11 +491,11 @@ test_that("show_exec_plan(), show_query() and explain()", {
       mutate(int_plus_ten = int + 10) %>%
       show_exec_plan(),
     regexp = paste0(
-      "ExecPlan with .* nodes:.*",           # boiler plate for ExecPlan
-      "chr, int, lgl, \"int_plus_ten\".*",   # selected columns
-      "(dbl > 2).*",                         # the filter expressions
+      "ExecPlan with .* nodes:.*", # boiler plate for ExecPlan
+      "chr, int, lgl, \"int_plus_ten\".*", # selected columns
+      "(dbl > 2).*", # the filter expressions
       "chr != \"e\".*",
-      "TableSourceNode"                      # the entry point"
+      "TableSourceNode" # the entry point"
     )
   )
 
@@ -497,13 +507,13 @@ test_that("show_exec_plan(), show_query() and explain()", {
       summarise(avg = mean(dbl, na.rm = TRUE)) %>%
       show_exec_plan(),
     regexp = paste0(
-      "ExecPlan with .* nodes:.*",            # boiler plate for ExecPlan
-      "ProjectNode.*",                        # output columns
-      "GroupByNode.*",                        # the group_by statement
-      "keys=.*lgl.*",                         # the key for the aggregations
-      "aggregates=.*hash_mean.*avg.*",        # the aggregations
-      "ProjectNode.*",                        # the input columns
-      "TableSourceNode"                       # the entry point
+      "ExecPlan with .* nodes:.*", # boiler plate for ExecPlan
+      "ProjectNode.*", # output columns
+      "GroupByNode.*", # the group_by statement
+      "keys=.*lgl.*", # the key for the aggregations
+      "aggregates=.*hash_mean.*avg.*", # the aggregations
+      "ProjectNode.*", # the input columns
+      "TableSourceNode" # the entry point
     )
   )
 
@@ -521,14 +531,13 @@ test_that("show_exec_plan(), show_query() and explain()", {
       select(int, verses, doubled_dbl) %>%
       show_exec_plan(),
     regexp = paste0(
-      "ExecPlan with .* nodes:.*",              # boiler plate for ExecPlan
-      "ProjectNode.*",                          # output columns
-      "HashJoinNode.*",                         # the join
-      "ProjectNode.*",                          # input columns for the second table
+      "ExecPlan with .* nodes:.*", # boiler plate for ExecPlan
+      "ProjectNode.*", # output columns
+      "HashJoinNode.*", # the join
+      "ProjectNode.*", # input columns for the second table
       "\"doubled_dbl\"\\: multiply_checked\\(dbl, 2\\).*", # mutate
-      "TableSourceNode.*",                      # second table
-      "ProjectNode.*",                          # input columns for the first table
-      "TableSourceNode"                         # first table
+      "TableSourceNode.*", # second table
+      "TableSourceNode" # first table
     )
   )
 
@@ -539,11 +548,10 @@ test_that("show_exec_plan(), show_query() and explain()", {
       arrange(desc(wt)) %>%
       show_exec_plan(),
     regexp = paste0(
-      "ExecPlan with .* nodes:.*",   # boiler plate for ExecPlan
+      "ExecPlan with .* nodes:.*", # boiler plate for ExecPlan
       "OrderBySinkNode.*wt.*DESC.*", # arrange goes via the OrderBy sink node
-      "ProjectNode.*",               # output columns
-      "FilterNode.*",                # filter node
-      "TableSourceNode.*"            # entry point
+      "FilterNode.*", # filter node
+      "TableSourceNode.*" # entry point
     )
   )
 
@@ -559,3 +567,150 @@ test_that("show_exec_plan(), show_query() and explain()", {
     "The `ExecPlan` cannot be printed for a nested query."
   )
 })
+
+test_that("needs_projection unit tests", {
+  tab <- Table$create(tbl)
+  # Wrapper to simplify tests
+  query_needs_projection <- function(query) {
+    needs_projection(query$selected_columns, tab$schema)
+  }
+  expect_false(query_needs_projection(as_adq(tab)))
+  expect_false(query_needs_projection(
+    tab %>% collapse() %>% collapse()
+  ))
+  expect_true(query_needs_projection(
+    tab %>% mutate(int = int + 2)
+  ))
+  expect_true(query_needs_projection(
+    tab %>% select(int, chr)
+  ))
+  expect_true(query_needs_projection(
+    tab %>% rename(int2 = int)
+  ))
+  expect_true(query_needs_projection(
+    tab %>% relocate(lgl)
+  ))
+})
+
+test_that("compute() on a grouped query returns a Table with groups in metadata", {
+  tab1 <- tbl %>%
+    arrow_table() %>%
+    group_by(int) %>%
+    compute()
+  expect_r6_class(tab1, "Table")
+  expect_equal(
+    as.data.frame(tab1),
+    tbl %>%
+      group_by(int)
+  )
+  expect_equal(
+    collect(tab1),
+    tbl %>%
+      group_by(int)
+  )
+})
+
+test_that("collect() is identical to compute() %>% collect()", {
+  tab1 <- tbl %>%
+    arrow_table()
+  adq1 <- tab1 %>%
+    group_by(int)
+
+  expect_equal(
+    tab1 %>%
+      compute() %>%
+      collect(),
+    tab1 %>%
+      collect()
+  )
+  expect_equal(
+    adq1 %>%
+      compute() %>%
+      collect(),
+    adq1 %>%
+      collect()
+  )
+})
+
+test_that("Scalars in expressions match the type of the field, if possible", {
+  tbl_with_datetime <- tbl
+  tbl_with_datetime$dates <- as.Date("2022-08-28") + 1:10
+  tbl_with_datetime$times <- lubridate::ymd_hms("2018-10-07 19:04:05") + 1:10
+  tab <- Table$create(tbl_with_datetime)
+
+  # 5 is double in R but is properly interpreted as int, no cast is added
+  expect_output(
+    tab %>%
+      filter(int == 5) %>%
+      show_exec_plan(),
+    "int == 5"
+  )
+
+  # Because 5.2 can't cast to int32 without truncation, we pass as is
+  # and Acero will cast int to float64
+  expect_output(
+    tab %>%
+      filter(int == 5.2) %>%
+      show_exec_plan(),
+    "filter=(cast(int, {to_type=double",
+    fixed = TRUE
+  )
+  expect_equal(
+    tab %>%
+      filter(int == 5.2) %>%
+      nrow(),
+    0
+  )
+
+  # int == string, errors starting in dplyr 1.1.0
+  expect_snapshot_warning(
+    tab %>% filter(int == "5")
+  )
+
+  # Strings automatically parsed to date/timestamp
+  expect_output(
+    tab %>%
+      filter(dates > "2022-09-01") %>%
+      show_exec_plan(),
+    "dates > 2022-09-01"
+  )
+  compare_dplyr_binding(
+    .input %>%
+      filter(dates > "2022-09-01") %>%
+      collect(),
+    tbl_with_datetime
+  )
+
+  # ARROW-18401: These will error if the system timezone is not valid. A PR was
+  # submitted to fix this docker image upstream; this skip can be removed after
+  # it merges.
+  # https://github.com/r-hub/rhub-linux-builders/pull/65
+  skip_if(identical(Sys.timezone(), "/UTC"))
+
+  expect_output(
+    tab %>%
+      filter(times > "2018-10-07 19:04:05") %>%
+      show_exec_plan(),
+    "times > 2018-10-0. ..:..:05"
+  )
+  compare_dplyr_binding(
+    .input %>%
+      filter(times > "2018-10-07 19:04:05") %>%
+      collect(),
+    tbl_with_datetime
+  )
+
+  tab_with_decimal <- tab %>%
+    mutate(dec = cast(dbl, decimal(15, 2))) %>%
+    compute()
+
+  # This reproduces the issue on ARROW-17601, found in the TPC-H query 1
+  # In ARROW-17462, we chose not to auto-cast to decimal to avoid that issue
+  result <- tab_with_decimal %>%
+    summarize(
+      tpc_h_1 = sum(dec * (1 - dec) * (1 + dec), na.rm = TRUE),
+      as_dbl = sum(dbl * (1 - dbl) * (1 + dbl), na.rm = TRUE)
+    ) %>%
+    collect()
+  expect_equal(result$tpc_h_1, result$as_dbl)
+})
diff --git a/r/tests/testthat/test-dplyr-select.R b/r/tests/testthat/test-dplyr-select.R
index fa5af734cb1..f71c4000442 100644
--- a/r/tests/testthat/test-dplyr-select.R
+++ b/r/tests/testthat/test-dplyr-select.R
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 library(dplyr, warn.conflicts = FALSE)
 library(stringr)
 
@@ -89,15 +87,14 @@ test_that("select/rename/rename_with using selection helpers", {
       collect(),
     tbl
   )
-  expect_error(
-    compare_dplyr_binding(
-      .input %>%
-        select(where(is.numeric)) %>%
-        collect(),
-      tbl
-    ),
-    "Unsupported selection helper"
+
+  compare_dplyr_binding(
+    .input %>%
+      select(where(is.numeric)) %>%
+      collect(),
+    tbl
   )
+
   compare_dplyr_binding(
     .input %>%
       rename_with(toupper) %>%
@@ -189,3 +186,32 @@ test_that("relocate with selection helpers", {
     df
   )
 })
+
+test_that("multiple select/rename and group_by", {
+  compare_dplyr_binding(
+    .input %>%
+      group_by(chr) %>%
+      rename(string = chr, dub = dbl2) %>%
+      rename(chr_actually = string) %>%
+      collect(),
+    tbl
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      group_by(chr) %>%
+      select(string = chr, dub = dbl2) %>%
+      rename(chr_actually = string) %>%
+      collect(),
+    tbl
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      group_by(chr) %>%
+      rename(string = chr, dub = dbl2) %>%
+      select(chr_actually = string) %>%
+      collect(),
+    tbl
+  )
+})
diff --git a/r/tests/testthat/test-dplyr-slice.R b/r/tests/testthat/test-dplyr-slice.R
new file mode 100644
index 00000000000..9cef51d4f7a
--- /dev/null
+++ b/r/tests/testthat/test-dplyr-slice.R
@@ -0,0 +1,197 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+library(dplyr, warn.conflicts = FALSE)
+
+tbl <- example_data
+
+test_that("slice_head/tail, ungrouped", {
+  # head/tail are not deterministic in Arrow because data is unordered
+  # so we can't assert identical to dplyr, just assert right number of rows
+  tab <- arrow_table(tbl)
+  expect_equal(
+    tab %>%
+      slice_head(n = 5) %>%
+      nrow(),
+    5
+  )
+  expect_equal(
+    tab %>%
+      slice_tail(n = 5) %>%
+      nrow(),
+    5
+  )
+
+  expect_equal(
+    tab %>%
+      slice_head(prop = .25) %>%
+      nrow(),
+    2
+  )
+  expect_equal(
+    tab %>%
+      slice_tail(prop = .25) %>%
+      nrow(),
+    2
+  )
+})
+
+test_that("slice_min/max, ungrouped", {
+  # with_ties must be FALSE
+  tab <- arrow_table(tbl)
+  expect_error(
+    tab %>% slice_max(int, n = 5),
+    "with_ties = TRUE"
+  )
+  expect_error(
+    tab %>% slice_min(int, n = 5),
+    "with_ties = TRUE"
+  )
+  compare_dplyr_binding(
+    .input %>%
+      slice_max(int, n = 4, with_ties = FALSE) %>%
+      collect(),
+    tbl
+  )
+  compare_dplyr_binding(
+    .input %>%
+      slice_min(int, n = 4, with_ties = FALSE) %>%
+      collect(),
+    tbl
+  )
+
+  compare_dplyr_binding(
+    .input %>%
+      slice_max(int, prop = .25, with_ties = FALSE) %>%
+      collect(),
+    tbl
+  )
+  compare_dplyr_binding(
+    .input %>%
+      slice_min(int, prop = .25, with_ties = FALSE) %>%
+      collect(),
+    tbl
+  )
+})
+
+test_that("slice_sample, ungrouped", {
+  skip_if_not(CanRunWithCapturedR())
+
+  tab <- arrow_table(tbl)
+  expect_error(
+    tab %>% slice_sample(replace = TRUE),
+    "Sampling with replacement"
+  )
+  expect_error(
+    tab %>% slice_sample(weight_by = dbl),
+    "weight_by"
+  )
+
+  # Let's not take any chances on random failures
+  skip_on_cran()
+  # Because this is random (and we only have 10 rows), try several times
+  for (i in 1:50) {
+    sampled_prop <- tab %>%
+      slice_sample(prop = .2) %>%
+      collect() %>%
+      nrow()
+    if (sampled_prop == 2) break
+  }
+  expect_equal(sampled_prop, 2)
+
+  # Test that slice_sample(n) returns n rows
+  # With a larger dataset, we would be more confident to get exactly n
+  # but with this dataset, we should at least not get >n rows
+  sampled_n <- tab %>%
+    slice_sample(n = 2) %>%
+    collect() %>%
+    nrow()
+  expect_lte(sampled_n, 2)
+
+  # Test with dataset, which matters for the UDF HACK
+  skip_if_not_available("dataset")
+  sampled_n <- tab %>%
+    InMemoryDataset$create() %>%
+    slice_sample(n = 2) %>%
+    collect() %>%
+    nrow()
+  expect_lte(sampled_n, 2)
+})
+
+test_that("slice_* not supported with groups", {
+  grouped <- tbl %>%
+    arrow_table() %>%
+    group_by(lgl)
+  expect_error(
+    slice_head(grouped, n = 5),
+    "Slicing grouped data not supported in Arrow"
+  )
+  expect_error(
+    slice_tail(grouped, n = 5),
+    "Slicing grouped data not supported in Arrow"
+  )
+  expect_error(
+    slice_min(grouped, int, n = 5),
+    "Slicing grouped data not supported in Arrow"
+  )
+  expect_error(
+    slice_max(grouped, int, n = 5),
+    "Slicing grouped data not supported in Arrow"
+  )
+  expect_error(
+    slice_sample(grouped, n = 5),
+    "Slicing grouped data not supported in Arrow"
+  )
+})
+
+test_that("input validation", {
+  tab <- arrow_table(tbl)
+  for (p in list("a", -1, 2, c(.01, .02), NA_real_)) {
+    expect_error(
+      slice_head(tab, prop = !!p),
+      "`prop` must be a single numeric value between 0 and 1",
+      fixed = TRUE
+    )
+  }
+
+  expect_error(
+    tab %>% slice_tail(n = 3, with_ties = FALSE),
+    "`...` must be empty"
+  )
+})
+
+test_that("n <-> prop conversion when nrow is not known", {
+  joined <- tbl %>%
+    arrow_table() %>%
+    full_join(tbl, by = "int")
+  expect_true(is.na(nrow(joined)))
+
+  expect_error(
+    joined %>%
+      slice_min(int, prop = .25, with_ties = FALSE),
+    "Slicing with `prop` when"
+  )
+
+  expect_error(
+    joined %>%
+      slice_sample(n = 5),
+    "slice_sample() with `n` when",
+    fixed = TRUE
+  )
+})
+
+# TODO: handle edge case where prop = 1, do nothing?
diff --git a/r/tests/testthat/test-dplyr-summarize.R b/r/tests/testthat/test-dplyr-summarize.R
index f799fcbf384..e54e57c8369 100644
--- a/r/tests/testthat/test-dplyr-summarize.R
+++ b/r/tests/testthat/test-dplyr-summarize.R
@@ -15,8 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-skip_if(on_old_windows())
-
 withr::local_options(list(
   arrow.summarise.sort = TRUE,
   rlib_warning_verbosity = "verbose",
@@ -243,8 +241,10 @@ test_that("n_distinct() with many batches", {
   write_parquet(dplyr::starwars, tf, chunk_size = 20)
 
   ds <- open_dataset(tf)
-  expect_equal(ds %>% summarise(n_distinct(sex, na.rm = FALSE)) %>% collect(),
-               ds %>% collect() %>% summarise(n_distinct(sex, na.rm = FALSE)))
+  expect_equal(
+    ds %>% summarise(n_distinct(sex, na.rm = FALSE)) %>% collect(),
+    ds %>% collect() %>% summarise(n_distinct(sex, na.rm = FALSE))
+  )
 })
 
 test_that("n_distinct() on dataset", {
@@ -298,20 +298,21 @@ test_that("n_distinct() on dataset", {
 })
 
 test_that("Functions that take ... but we only accept a single arg", {
-  compare_dplyr_binding(
-    .input %>%
-      summarize(distinct = n_distinct()) %>%
-      collect(),
-    tbl,
-    warning = "0 arguments"
+  # With zero arguments, n_distinct() will error in dplyr 1.1.0 too,
+  # so use a Dataset to avoid the "pulling data into R" step that would
+  # trigger a dplyr error
+  skip_if_not_available("dataset")
+  expect_snapshot(
+    InMemoryDataset$create(tbl) %>%
+      summarize(distinct = n_distinct()),
+    error = TRUE
   )
-  compare_dplyr_binding(
-    .input %>%
-      summarize(distinct = n_distinct(int, lgl)) %>%
-      collect(),
-    tbl,
-    warning = "Multiple arguments"
+
+  expect_snapshot_warning(
+    as_record_batch(tbl) %>%
+      summarize(distinct = n_distinct(int, lgl))
   )
+
   # Now that we've demonstrated that the whole machinery works, let's test
   # the agg_funcs directly
   expect_error(call_binding_agg("n_distinct"), "n_distinct() with 0 arguments", fixed = TRUE)
@@ -738,6 +739,19 @@ test_that("Do things after summarize", {
   )
 })
 
+test_that("Non-field variable references in aggregations", {
+  tab <- arrow_table(x = 1:5)
+  scale_factor <- 10
+  expect_identical(
+    tab %>%
+      summarize(value = sum(x) / scale_factor) %>%
+      collect(),
+    tab %>%
+      summarize(value = sum(x) / 10) %>%
+      collect()
+  )
+})
+
 test_that("Expressions on aggregations", {
   # This is what it effectively is
   compare_dplyr_binding(
@@ -1089,3 +1103,59 @@ test_that("summarise() supports namespacing", {
     tbl
   )
 })
+
+test_that("We don't add unnecessary ProjectNodes when aggregating", {
+  tab <- Table$create(tbl)
+
+  # Wrapper to simplify the tests
+  expect_project_nodes <- function(query, n) {
+    plan <- capture.output(query %>% show_query())
+    expect_length(grep("ProjectNode", plan), n)
+  }
+
+  # 1 Projection: select int as `mean(int)` before aggregation
+  expect_project_nodes(
+    tab %>% summarize(mean(int)),
+    1
+  )
+
+  # 0 Projections only if
+  # (a) input only contains the col you're aggregating, and
+  # (b) the output col name is the same as the input name, and
+  # (c) no grouping
+  expect_project_nodes(
+    tab[, "int"] %>% summarize(int = mean(int, na.rm = TRUE)),
+    0
+  )
+
+  # 2 projections: one before, and one after in order to put grouping cols first
+  expect_project_nodes(
+    tab %>% group_by(lgl) %>% summarize(mean(int)),
+    2
+  )
+  expect_project_nodes(
+    tab %>% count(lgl),
+    2
+  )
+})
+
+test_that("Can use across() within summarise()", {
+  compare_dplyr_binding(
+    .input %>%
+      group_by(lgl) %>%
+      summarise(across(starts_with("dbl"), sum, .names = "sum_{.col}")) %>%
+      arrange(lgl) %>%
+      collect(),
+    example_data
+  )
+
+  # across() doesn't work in summarise when input expressions evaluate to bare field references
+  expect_warning(
+    example_data %>%
+      arrow_table() %>%
+      group_by(lgl) %>%
+      summarise(across(everything())) %>%
+      collect(),
+    regexp = "Expression int is not an aggregate expression or is not supported in Arrow; pulling data into R"
+  )
+})
diff --git a/r/tests/testthat/test-dplyr-union.R b/r/tests/testthat/test-dplyr-union.R
index 5cc6f8eea57..1bf8610c560 100644
--- a/r/tests/testthat/test-dplyr-union.R
+++ b/r/tests/testthat/test-dplyr-union.R
@@ -13,9 +13,6 @@
 # "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 # KIND, either express or implied.  See the License for the
 # specific language governing permissions and limitations
-# under the License.
-
-skip_if(on_old_windows())
 
 library(dplyr, warn.conflicts = FALSE)
 
diff --git a/r/tests/testthat/test-duckdb.R b/r/tests/testthat/test-duckdb.R
index 088d7a4bbd7..dd3026855cc 100644
--- a/r/tests/testthat/test-duckdb.R
+++ b/r/tests/testthat/test-duckdb.R
@@ -202,6 +202,10 @@ dbExecute(con, "PRAGMA threads=2")
 on.exit(dbDisconnect(con, shutdown = TRUE), add = TRUE)
 
 test_that("Joining, auto-cleanup enabled", {
+  # ARROW-17643, ARROW-17818: A change in duckdb 0.5.0 caused this test to fail
+  # TODO: ARROW-17809 Follow up with the latest duckdb release to solve the issue
+  skip("ARROW-17818: Latest DuckDB causes this test to fail")
+
   ds <- InMemoryDataset$create(example_data)
 
   table_one_name <- "my_arrow_table_1"
diff --git a/r/tests/testthat/test-expression.R b/r/tests/testthat/test-expression.R
index c4aab718d90..2b6039b04ce 100644
--- a/r/tests/testthat/test-expression.R
+++ b/r/tests/testthat/test-expression.R
@@ -58,9 +58,10 @@ test_that("C++ expressions", {
   # Interprets that as a list type
   expect_r6_class(f == c(1L, 2L), "Expression")
 
-  expect_error(
+  # Non-Expression inputs are wrapped in Expression$scalar()
+  expect_equal(
     Expression$create("add", 1, 2),
-    "Expression arguments must be Expression objects"
+    Expression$create("add", Expression$scalar(1), Expression$scalar(2))
   )
 })
 
diff --git a/r/tests/testthat/test-feather.R b/r/tests/testthat/test-feather.R
index 8d7a43ad063..9f42a00d85b 100644
--- a/r/tests/testthat/test-feather.R
+++ b/r/tests/testthat/test-feather.R
@@ -73,7 +73,13 @@ expect_feather_roundtrip <- function(write_fun) {
 test_that("feather read/write round trip", {
   expect_feather_roundtrip(function(x, f) write_feather(x, f, version = 1))
   expect_feather_roundtrip(function(x, f) write_feather(x, f, version = 2))
+  expect_feather_roundtrip(function(x, f) write_feather(x, f, version = 2, compression = TRUE))
+  expect_feather_roundtrip(function(x, f) write_feather(x, f, version = 2, compression = "uncompressed"))
+  expect_feather_roundtrip(function(x, f) write_feather(x, f, version = 2, compression = FALSE))
   expect_feather_roundtrip(function(x, f) write_ipc_file(x, f))
+  expect_feather_roundtrip(function(x, f) write_ipc_file(x, f, compression = TRUE))
+  expect_feather_roundtrip(function(x, f) write_ipc_file(x, f, compression = "uncompressed"))
+  expect_feather_roundtrip(function(x, f) write_ipc_file(x, f, compression = FALSE))
   expect_feather_roundtrip(function(x, f) write_feather(x, f, chunk_size = 32))
   expect_feather_roundtrip(function(x, f) write_ipc_file(x, f, chunk_size = 32))
   if (codec_is_available("lz4")) {
diff --git a/r/tests/testthat/test-filesystem.R b/r/tests/testthat/test-filesystem.R
index 7957743a2aa..34095acc253 100644
--- a/r/tests/testthat/test-filesystem.R
+++ b/r/tests/testthat/test-filesystem.R
@@ -15,7 +15,6 @@
 # specific language governing permissions and limitations
 # under the License.
 
-
 test_that("LocalFilesystem", {
   fs <- LocalFileSystem$create()
   expect_identical(fs$type_name, "local")
diff --git a/r/tests/testthat/test-gcs.R b/r/tests/testthat/test-gcs.R
index a823442f30b..c0a02193c55 100644
--- a/r/tests/testthat/test-gcs.R
+++ b/r/tests/testthat/test-gcs.R
@@ -58,3 +58,51 @@ test_that("GcsFileSystem$create() input validation", {
     'Invalid options for GcsFileSystem: "role_arn"'
   )
 })
+
+skip_on_cran()
+skip_if_not(system('python -c "import testbench"') == 0, message = "googleapis-storage-testbench is not installed.")
+library(dplyr)
+
+testbench_port <- Sys.getenv("TESTBENCH_PORT", "9001")
+
+pid_minio <- sys::exec_background("python", c("-m", "testbench", "--port", testbench_port),
+  std_out = FALSE,
+  std_err = FALSE # TODO: is there a good place to send output?
+)
+withr::defer(tools::pskill(pid_minio))
+Sys.sleep(1) # Wait for startup
+
+fs <- GcsFileSystem$create(
+  endpoint_override = sprintf("localhost:%s", testbench_port),
+  retry_limit_seconds = 1,
+  scheme = "http",
+  anonymous = TRUE # Will fail to resolve host name if anonymous isn't TRUE
+)
+
+now <- as.character(as.numeric(Sys.time()))
+tryCatch(fs$CreateDir(now), error = function(cond) {
+  if (grepl("Couldn't connect to server", cond, fixed = TRUE)) {
+    abort(
+      c(sprintf("Unable to connect to testbench on port %s.", testbench_port),
+        i = "You can set a custom port with TESTBENCH_PORT environment variable."
+      ),
+      parent = cond
+    )
+  } else {
+    stop(cond)
+  }
+})
+# Clean up when we're all done
+withr::defer(fs$DeleteDir(now))
+
+gcs_path <- function(...) {
+  paste(now, ..., sep = "/")
+}
+gcs_uri <- function(...) {
+  template <- "gs://anonymous@%s?scheme=http&endpoint_override=localhost%s%s&retry_limit_seconds=1"
+  sprintf(template, gcs_path(...), "%3A", testbench_port)
+}
+
+test_filesystem("gcs", fs, gcs_path, gcs_uri)
+
+withr::deferred_run()
diff --git a/r/tests/testthat/test-metadata.R b/r/tests/testthat/test-metadata.R
index 21b7ebe11a1..4cf8e49af1b 100644
--- a/r/tests/testthat/test-metadata.R
+++ b/r/tests/testthat/test-metadata.R
@@ -254,8 +254,6 @@ test_that("Row-level metadata (does not) roundtrip in datasets", {
   skip_if_not_available("dataset")
   skip_if_not_available("parquet")
 
-  library(dplyr, warn.conflicts = FALSE)
-
   df <- tibble::tibble(
     metadata = list(
       structure(1, my_value_as_attr = 1),
@@ -269,39 +267,36 @@ test_that("Row-level metadata (does not) roundtrip in datasets", {
 
   dst_dir <- make_temp_dir()
 
-  withr::with_options(
-    list("arrow.preserve_row_level_metadata" = TRUE),
-    {
-      expect_warning(
-        write_dataset(df, dst_dir, partitioning = "part"),
-        "Row-level metadata is not compatible with datasets and will be discarded"
-      )
-
-      # Reset directory as previous write will have created some files and the default
-      # behavior is to error on existing
-      dst_dir <- make_temp_dir()
-      # but we need to write a dataset with row-level metadata to make sure when
-      # reading ones that have been written with them we warn appropriately
-      fake_func_name <- write_dataset
-      fake_func_name(df, dst_dir, partitioning = "part")
-
-      ds <- open_dataset(dst_dir)
-      expect_warning(
-        df_from_ds <- collect(ds),
-        "Row-level metadata is not compatible with this operation and has been ignored"
-      )
-      expect_equal(
-        arrange(df_from_ds, int),
-        arrange(df, int),
-        ignore_attr = TRUE
-      )
-
-      # however there is *no* warning if we don't select the metadata column
-      expect_warning(
-        df_from_ds <- ds %>% select(int) %>% collect(),
-        NA
-      )
-    }
+  withr::local_options("arrow.preserve_row_level_metadata" = TRUE)
+
+  expect_warning(
+    write_dataset(df, dst_dir, partitioning = "part"),
+    "Row-level metadata is not compatible with datasets and will be discarded"
+  )
+
+  # Reset directory as previous write will have created some files and the default
+  # behavior is to error on existing
+  dst_dir <- make_temp_dir()
+  # but we need to write a dataset with row-level metadata to make sure when
+  # reading ones that have been written with them we warn appropriately
+  fake_func_name <- write_dataset
+  fake_func_name(df, dst_dir, partitioning = "part")
+
+  ds <- open_dataset(dst_dir)
+  expect_warning(
+    df_from_ds <- collect(ds),
+    "Row-level metadata is not compatible with this operation and has been ignored"
+  )
+  expect_equal(
+    dplyr::arrange(df_from_ds, int),
+    dplyr::arrange(df, int),
+    ignore_attr = TRUE
+  )
+
+  # however there is *no* warning if we don't select the metadata column
+  expect_warning(
+    df_from_ds <- ds %>% dplyr::select(int) %>% dplyr::collect(),
+    NA
   )
 })
 
diff --git a/r/tests/testthat/test-parquet.R b/r/tests/testthat/test-parquet.R
index 32170534a47..e1e54a5139e 100644
--- a/r/tests/testthat/test-parquet.R
+++ b/r/tests/testthat/test-parquet.R
@@ -453,13 +453,22 @@ test_that("deprecated int96 timestamp unit can be specified when reading Parquet
 })
 
 test_that("Can read parquet with nested lists and maps", {
-  parquet_test_data <- test_path("../../../cpp/submodules/parquet-testing/data")
-  skip_if_not(dir.exists(parquet_test_data), "Parquet test data missing")
+  # Construct the path to the parquet-testing submodule. This will search:
+  # * $ARROW_SOURCE_HOME/cpp/submodules/parquet-testing/data
+  # * ../cpp/submodules/parquet-testing/data
+  # ARROW_SOURCE_HOME is set in many of our CI setups, so that will find the files
+  # the .. version should catch some (thought not all) ways of running tests locally
+  base_path <- Sys.getenv("ARROW_SOURCE_HOME", "..")
+  # make this a full path, at the root of the filesystem if we're using ARROW_SOURCE_HOME
+  if (base_path != "..") {
+    base_path <- file.path("", base_path)
+  }
+  parquet_test_data <- file.path(base_path, "cpp", "submodules", "parquet-testing", "data")
+  skip_if_not(dir.exists(parquet_test_data) | force_tests(), "Parquet test data missing")
 
   pq <- read_parquet(paste0(parquet_test_data, "/nested_lists.snappy.parquet"), as_data_frame = FALSE)
-  # value name is "element" from parquet reader, but type default is "item"
-  expect_equal(pq$a$type, list_of(field("element", list_of(field("element", list_of(field("element", utf8())))))))
+  expect_type_equal(pq$a, list_of(field("element", list_of(field("element", list_of(field("element", utf8())))))))
 
   pq <- read_parquet(paste0(parquet_test_data, "/nested_maps.snappy.parquet"), as_data_frame = FALSE)
-  expect_equal(pq$a$type, map_of(utf8(), map_of(int32(), boolean())))
+  expect_true(pq$a$type == map_of(utf8(), map_of(int32(), field("value", boolean(), nullable = FALSE))))
 })
diff --git a/r/tests/testthat/test-python-flight.R b/r/tests/testthat/test-python-flight.R
index 6fdf38f815b..d2b6fd491e1 100644
--- a/r/tests/testthat/test-python-flight.R
+++ b/r/tests/testthat/test-python-flight.R
@@ -38,6 +38,20 @@ if (process_is_running("demo_flight_server")) {
     )
   })
 
+  test_that("flight_put with max_chunksize", {
+    flight_put(client, example_data, path = flight_obj, max_chunksize = 1)
+    expect_true(flight_path_exists(client, flight_obj))
+    expect_true(flight_obj %in% list_flights(client))
+    expect_warning(
+      flight_put(client, record_batch(example_data), path = flight_obj, max_chunksize = 123),
+      regexp = "`max_chunksize` is not supported for flight_put with RecordBatch"
+    )
+    expect_error(
+      flight_put(client, Array$create(c(1:3)), path = flight_obj),
+      regexp = 'data must be a "data.frame", "Table", or "RecordBatch"'
+    )
+  })
+
   test_that("flight_get", {
     expect_identical(as.data.frame(flight_get(client, flight_obj)), example_data)
   })
diff --git a/r/tests/testthat/test-python.R b/r/tests/testthat/test-python.R
index 1a83ebd85f6..968d72119c5 100644
--- a/r/tests/testthat/test-python.R
+++ b/r/tests/testthat/test-python.R
@@ -22,6 +22,10 @@ test_that("install_pyarrow", {
   # Windows CI machine doesn't pick up the right python or something
   skip_on_os("windows")
   skip_if_not_installed("reticulate")
+  # PyArrow doesn't support Python 3.6 or earlier
+  skip_on_python_older_than("3.7")
+  # no pyarrow wheels for macos 10.13
+  skip_if(on_macos_10_13_or_lower())
 
   venv <- try(reticulate::virtualenv_create("arrow-test"))
   # Bail out if virtualenv isn't available
diff --git a/r/tests/testthat/test-query-engine.R b/r/tests/testthat/test-query-engine.R
index dd87335f876..1d8d876bf53 100644
--- a/r/tests/testthat/test-query-engine.R
+++ b/r/tests/testthat/test-query-engine.R
@@ -17,6 +17,79 @@
 
 library(dplyr, warn.conflicts = FALSE)
 
+test_that("ExecPlanReader does not start evaluating a query", {
+  skip_if_not(CanRunWithCapturedR())
+
+  rbr <- as_record_batch_reader(
+    function(x) stop("This query will error if started"),
+    schema = schema(a = int32())
+  )
+
+  reader <- as_record_batch_reader(as_adq(rbr))
+  expect_identical(reader$PlanStatus(), "PLAN_NOT_STARTED")
+  expect_error(reader$read_table(), "This query will error if started")
+  expect_identical(reader$PlanStatus(), "PLAN_FINISHED")
+})
+
+test_that("ExecPlanReader evaluates nested exec plans lazily", {
+  reader <- as_record_batch_reader(as_adq(arrow_table(a = 1:10)))
+  expect_identical(reader$PlanStatus(), "PLAN_NOT_STARTED")
+
+  head_reader <- head(reader, 4)
+  expect_identical(reader$PlanStatus(), "PLAN_NOT_STARTED")
+
+  expect_equal(
+    head_reader$read_table(),
+    arrow_table(a = 1:4)
+  )
+
+  expect_identical(reader$PlanStatus(), "PLAN_FINISHED")
+})
+
+test_that("ExecPlanReader evaluates head() lazily", {
+  reader <- as_record_batch_reader(as_adq(arrow_table(a = 1:10)))
+  expect_identical(reader$PlanStatus(), "PLAN_NOT_STARTED")
+
+  head_reader <- head(reader, 4)
+  expect_identical(reader$PlanStatus(), "PLAN_NOT_STARTED")
+
+  expect_equal(
+    head_reader$read_table(),
+    arrow_table(a = 1:4)
+  )
+
+  expect_identical(reader$PlanStatus(), "PLAN_FINISHED")
+})
+
+test_that("ExecPlanReader evaluates head() lazily", {
+  # Make a rather long RecordBatchReader
+  reader <- RecordBatchReader$create(
+    batches = rep(
+      list(record_batch(line = letters)),
+      100L
+    )
+  )
+
+  # ...But only get 10 rows from it
+  query <- head(as_adq(reader), 10)
+  expect_identical(as_arrow_table(query)$num_rows, 10L)
+
+  # Depending on exactly how quickly background threads respond to the
+  # request to cancel, reader$read_table()$num_rows > 0 may or may not
+  # evaluate to TRUE (i.e., the reader may or may not be completely drained).
+})
+
+test_that("head() of an ExecPlanReader is an ExecPlanReader", {
+  reader <- as_record_batch_reader(as_adq(arrow_table(x = 1:10)))
+  expect_r6_class(reader, "ExecPlanReader")
+  reader_head <- head(reader, 6)
+  expect_r6_class(reader_head, "ExecPlanReader")
+  expect_equal(
+    as_arrow_table(reader_head),
+    arrow_table(x = 1:6)
+  )
+})
+
 test_that("do_exec_plan_substrait can evaluate a simple plan", {
   skip_if_not_available("substrait")
 
diff --git a/r/tests/testthat/test-s3-minio.R b/r/tests/testthat/test-s3-minio.R
index ad11d04d5e9..2e72cc15018 100644
--- a/r/tests/testthat/test-s3-minio.R
+++ b/r/tests/testthat/test-s3-minio.R
@@ -15,247 +15,96 @@
 # specific language governing permissions and limitations
 # under the License.
 
-
-if (arrow_with_s3() && process_is_running("minio server")) {
-  # Get minio config, with expected defaults
-  minio_key <- Sys.getenv("MINIO_ACCESS_KEY", "minioadmin")
-  minio_secret <- Sys.getenv("MINIO_SECRET_KEY", "minioadmin")
-  minio_port <- Sys.getenv("MINIO_PORT", "9000")
-
-  # Helper function for minio URIs
-  minio_uri <- function(...) {
-    template <- "s3://%s:%s@%s?scheme=http&endpoint_override=localhost%s%s"
-    sprintf(template, minio_key, minio_secret, minio_path(...), "%3A", minio_port)
-  }
-  minio_path <- function(...) paste(now, ..., sep = "/")
-
-  # Create a "bucket" on minio for this test run, which we'll delete when done.
-  fs <- S3FileSystem$create(
-    access_key = minio_key,
-    secret_key = minio_secret,
-    scheme = "http",
-    endpoint_override = paste0("localhost:", minio_port),
-    allow_bucket_creation = TRUE,
-    allow_bucket_deletion = TRUE
+skip_if_not_available("s3")
+skip_if_not(nzchar(Sys.which("minio")), message = "minio is not installed.")
+
+library(dplyr)
+
+minio_dir <- Sys.getenv("MINIO_DATA_DIR", tempfile())
+minio_key <- "minioadmin"
+minio_secret <- "minioadmin"
+minio_port <- Sys.getenv("MINIO_PORT", "9000")
+
+# Start minio server
+dir.create(minio_dir, showWarnings = FALSE)
+pid_minio <- sys::exec_background("minio", c("server", minio_dir, "--address", sprintf(":%s", minio_port)),
+  std_out = FALSE
+)
+withr::defer(tools::pskill(pid_minio))
+
+# Helper function for minio URIs
+minio_uri <- function(...) {
+  template <- "s3://%s:%s@%s?scheme=http&endpoint_override=localhost%s%s"
+  sprintf(template, minio_key, minio_secret, minio_path(...), "%3A", minio_port)
+}
+minio_path <- function(...) paste(now, ..., sep = "/")
+
+# Create a "bucket" on minio for this test run, which we'll delete when done.
+fs <- S3FileSystem$create(
+  access_key = minio_key,
+  secret_key = minio_secret,
+  scheme = "http",
+  endpoint_override = paste0("localhost:", minio_port),
+  allow_bucket_creation = TRUE,
+  allow_bucket_deletion = TRUE
+)
+limited_fs <- S3FileSystem$create(
+  access_key = minio_key,
+  secret_key = minio_secret,
+  scheme = "http",
+  endpoint_override = paste0("localhost:", minio_port),
+  allow_bucket_creation = FALSE,
+  allow_bucket_deletion = FALSE
+)
+now <- as.character(as.numeric(Sys.time()))
+fs$CreateDir(now)
+# Clean up when we're all done
+withr::defer(fs$DeleteDir(now))
+
+test_filesystem("s3", fs, minio_path, minio_uri)
+
+test_that("CreateDir fails on bucket if allow_bucket_creation=False", {
+  now_tmp <- paste0(now, "-test-fail-delete")
+  fs$CreateDir(now_tmp)
+
+  expect_error(limited_fs$CreateDir("should-fail"))
+  expect_error(limited_fs$DeleteDir(now_tmp))
+})
+
+test_that("S3FileSystem input validation", {
+  expect_error(
+    S3FileSystem$create(access_key = "foo"),
+    "Key authentication requires both access_key and secret_key"
   )
-  limited_fs <- S3FileSystem$create(
-    access_key = minio_key,
-    secret_key = minio_secret,
-    scheme = "http",
-    endpoint_override = paste0("localhost:", minio_port),
-    allow_bucket_creation = FALSE,
-    allow_bucket_deletion = FALSE
+  expect_error(
+    S3FileSystem$create(secret_key = "foo"),
+    "Key authentication requires both access_key and secret_key"
   )
-  now <- as.character(as.numeric(Sys.time()))
-  fs$CreateDir(now)
-  # Clean up when we're all done
-  on.exit(fs$DeleteDir(now))
-
-  test_that("read/write Feather on minio", {
-    write_feather(example_data, minio_uri("test.feather"))
-    expect_identical(read_feather(minio_uri("test.feather")), example_data)
-  })
-
-  test_that("read/write Feather by filesystem, not URI", {
-    write_feather(example_data, fs$path(minio_path("test2.feather")))
-    expect_identical(
-      read_feather(fs$path(minio_path("test2.feather"))),
-      example_data
-    )
-  })
-
-  test_that("read/write compressed csv by filesystem", {
-    skip_if_not_available("gzip")
-    dat <- tibble(x = seq(1, 10, by = 0.2))
-    write_csv_arrow(dat, fs$path(minio_path("test.csv.gz")))
-    expect_identical(
-      read_csv_arrow(fs$path(minio_path("test.csv.gz"))),
-      dat
-    )
-  })
-
-  test_that("read/write csv by filesystem", {
-    skip_if_not_available("gzip")
-    dat <- tibble(x = seq(1, 10, by = 0.2))
-    write_csv_arrow(dat, fs$path(minio_path("test.csv")))
-    expect_identical(
-      read_csv_arrow(fs$path(minio_path("test.csv"))),
-      dat
-    )
-  })
-
-  test_that("read/write stream", {
-    write_ipc_stream(example_data, fs$path(minio_path("test3.ipc")))
-    expect_identical(
-      read_ipc_stream(fs$path(minio_path("test3.ipc"))),
-      example_data
-    )
-  })
-
-  test_that("read/write Parquet on minio", {
-    skip_if_not_available("parquet")
-    write_parquet(example_data, fs$path(minio_uri("test.parquet")))
-    expect_identical(read_parquet(minio_uri("test.parquet")), example_data)
-  })
-
-  if (arrow_with_dataset()) {
-    library(dplyr)
-
-    make_temp_dir <- function() {
-      path <- tempfile()
-      dir.create(path)
-      normalizePath(path, winslash = "/")
-    }
-
-    test_that("open_dataset with an S3 file (not directory) URI", {
-      skip_if_not_available("parquet")
-      expect_identical(
-        open_dataset(minio_uri("test.parquet")) %>% collect() %>% arrange(int),
-        example_data %>% arrange(int)
-      )
-    })
-
-    test_that("open_dataset with vector of S3 file URIs", {
-      expect_identical(
-        open_dataset(
-          c(minio_uri("test.feather"), minio_uri("test2.feather")),
-          format = "feather"
-        ) %>%
-          arrange(int) %>%
-          collect(),
-        rbind(example_data, example_data) %>% arrange(int)
-      )
-    })
-
-    test_that("open_dataset errors on URIs for different file systems", {
-      td <- make_temp_dir()
-      expect_error(
-        open_dataset(
-          c(
-            minio_uri("test.feather"),
-            paste0("file://", file.path(td, "fake.feather"))
-          ),
-          format = "feather"
-        ),
-        "Vectors of URIs for different file systems are not supported"
-      )
-    })
-
-    # Dataset test setup, cf. test-dataset.R
-    first_date <- lubridate::ymd_hms("2015-04-29 03:12:39")
-    df1 <- tibble(
-      int = 1:10,
-      dbl = as.numeric(1:10),
-      lgl = rep(c(TRUE, FALSE, NA, TRUE, FALSE), 2),
-      chr = letters[1:10],
-      fct = factor(LETTERS[1:10]),
-      ts = first_date + lubridate::days(1:10)
-    )
-
-    second_date <- lubridate::ymd_hms("2017-03-09 07:01:02")
-    df2 <- tibble(
-      int = 101:110,
-      dbl = as.numeric(51:60),
-      lgl = rep(c(TRUE, FALSE, NA, TRUE, FALSE), 2),
-      chr = letters[10:1],
-      fct = factor(LETTERS[10:1]),
-      ts = second_date + lubridate::days(10:1)
+  expect_error(
+    S3FileSystem$create(session_token = "foo"),
+    paste0(
+      "In order to initialize a session with temporary credentials, ",
+      "both secret_key and access_key must be provided ",
+      "in addition to session_token."
     )
+  )
+  expect_error(
+    S3FileSystem$create(access_key = "foo", secret_key = "asdf", anonymous = TRUE),
+    'Cannot specify "access_key" and "secret_key" when anonymous = TRUE'
+  )
+  expect_error(
+    S3FileSystem$create(access_key = "foo", secret_key = "asdf", role_arn = "qwer"),
+    "Cannot provide both key authentication and role_arn"
+  )
+  expect_error(
+    S3FileSystem$create(access_key = "foo", secret_key = "asdf", external_id = "qwer"),
+    'Cannot specify "external_id" without providing a role_arn string'
+  )
+  expect_error(
+    S3FileSystem$create(external_id = "foo"),
+    'Cannot specify "external_id" without providing a role_arn string'
+  )
+})
 
-    # This is also to set up the dataset tests
-    test_that("write_parquet with filesystem arg", {
-      skip_if_not_available("parquet")
-      fs$CreateDir(minio_path("hive_dir", "group=1", "other=xxx"))
-      fs$CreateDir(minio_path("hive_dir", "group=2", "other=yyy"))
-      expect_length(fs$ls(minio_path("hive_dir")), 2)
-      write_parquet(df1, fs$path(minio_path("hive_dir", "group=1", "other=xxx", "file1.parquet")))
-      write_parquet(df2, fs$path(minio_path("hive_dir", "group=2", "other=yyy", "file2.parquet")))
-      expect_identical(
-        read_parquet(fs$path(minio_path("hive_dir", "group=1", "other=xxx", "file1.parquet"))),
-        df1
-      )
-    })
-
-    test_that("open_dataset with fs", {
-      ds <- open_dataset(fs$path(minio_path("hive_dir")))
-      expect_identical(
-        ds %>% select(int, dbl, lgl) %>% collect() %>% arrange(int),
-        rbind(df1[, c("int", "dbl", "lgl")], df2[, c("int", "dbl", "lgl")]) %>% arrange(int)
-      )
-    })
-
-    test_that("write_dataset with fs", {
-      ds <- open_dataset(fs$path(minio_path("hive_dir")))
-      write_dataset(ds, fs$path(minio_path("new_dataset_dir")))
-      expect_length(fs$ls(minio_path("new_dataset_dir")), 1)
-    })
-
-    test_that("CreateDir fails on bucket if allow_bucket_creation=False", {
-      now_tmp <- paste0(now, "-test-fail-delete")
-      fs$CreateDir(now_tmp)
-
-      expect_error(limited_fs$CreateDir("should-fail"))
-      expect_error(limited_fs$DeleteDir(now_tmp))
-    })
-
-    test_that("Let's test copy_files too", {
-      td <- make_temp_dir()
-      copy_files(minio_uri("hive_dir"), td)
-      expect_length(dir(td), 2)
-      ds <- open_dataset(td)
-      expect_identical(
-        ds %>% select(int, dbl, lgl) %>% collect() %>% arrange(int),
-        rbind(df1[, c("int", "dbl", "lgl")], df2[, c("int", "dbl", "lgl")]) %>% arrange(int)
-      )
-
-      # Let's copy the other way and use a SubTreeFileSystem rather than URI
-      copy_files(td, fs$path(minio_path("hive_dir2")))
-      ds2 <- open_dataset(fs$path(minio_path("hive_dir2")))
-      expect_identical(
-        ds2 %>% select(int, dbl, lgl) %>% collect() %>% arrange(int),
-        rbind(df1[, c("int", "dbl", "lgl")], df2[, c("int", "dbl", "lgl")]) %>% arrange(int)
-      )
-    })
-  }
-
-  test_that("S3FileSystem input validation", {
-    expect_error(
-      S3FileSystem$create(access_key = "foo"),
-      "Key authentication requires both access_key and secret_key"
-    )
-    expect_error(
-      S3FileSystem$create(secret_key = "foo"),
-      "Key authentication requires both access_key and secret_key"
-    )
-    expect_error(
-      S3FileSystem$create(session_token = "foo"),
-      paste0(
-        "In order to initialize a session with temporary credentials, ",
-        "both secret_key and access_key must be provided ",
-        "in addition to session_token."
-      )
-    )
-    expect_error(
-      S3FileSystem$create(access_key = "foo", secret_key = "asdf", anonymous = TRUE),
-      'Cannot specify "access_key" and "secret_key" when anonymous = TRUE'
-    )
-    expect_error(
-      S3FileSystem$create(access_key = "foo", secret_key = "asdf", role_arn = "qwer"),
-      "Cannot provide both key authentication and role_arn"
-    )
-    expect_error(
-      S3FileSystem$create(access_key = "foo", secret_key = "asdf", external_id = "qwer"),
-      'Cannot specify "external_id" without providing a role_arn string'
-    )
-    expect_error(
-      S3FileSystem$create(external_id = "foo"),
-      'Cannot specify "external_id" without providing a role_arn string'
-    )
-  })
-} else {
-  # Kinda hacky, let's put a skipped test here, just so we note that the tests
-  # didn't run
-  test_that("S3FileSystem tests with Minio", {
-    skip("Minio is not running")
-  })
-}
+# Cleanup
+withr::deferred_run()
diff --git a/r/tests/testthat/test-s3.R b/r/tests/testthat/test-s3.R
index 5bc94c5d26c..e9371995e8d 100644
--- a/r/tests/testthat/test-s3.R
+++ b/r/tests/testthat/test-s3.R
@@ -15,6 +15,7 @@
 # specific language governing permissions and limitations
 # under the License.
 
+skip_if_not_available("s3")
 
 run_these <- tryCatch(
   expr = {
diff --git a/r/tests/testthat/test-scalar.R b/r/tests/testthat/test-scalar.R
index c2271c866ef..f6b0c4c14a7 100644
--- a/r/tests/testthat/test-scalar.R
+++ b/r/tests/testthat/test-scalar.R
@@ -43,6 +43,15 @@ test_that("Scalar print", {
   expect_output(print(Scalar$create(4)), "Scalar\n4")
 })
 
+test_that("ExtensionType scalar behaviour", {
+  ext_array <- vctrs_extension_array(4)
+  ext_scalar <- Scalar$create(ext_array)
+  expect_equal(ext_scalar$as_array(), ext_array)
+  expect_identical(ext_scalar$as_vector(), 4)
+  expect_identical(ext_scalar$as_vector(10), rep(4, 10))
+  expect_output(print(ext_scalar), "Scalar\n4")
+})
+
 test_that("Creating Scalars of a different type and casting them", {
   expect_equal(Scalar$create(4L, int8())$type, int8())
   expect_equal(Scalar$create(4L)$cast(float32())$type, float32())
diff --git a/r/tests/testthat/test-type.R b/r/tests/testthat/test-type.R
index d7c6da0792c..0fbeec0a491 100644
--- a/r/tests/testthat/test-type.R
+++ b/r/tests/testthat/test-type.R
@@ -85,6 +85,20 @@ test_that("infer_type() can infer nested extension types", {
   )
 })
 
+test_that("infer_type() can infer vctrs::list_of() types", {
+  expect_equal(infer_type(vctrs::list_of(.ptype = integer())), list_of(int32()))
+})
+
+test_that("infer_type() can infer blob type", {
+  skip_if_not_installed("blob")
+
+  expect_equal(infer_type(blob::blob()), binary())
+
+  big_ish_raw <- raw(2 ^ 20)
+  big_ish_blob <- blob::new_blob(rep(list(big_ish_raw), 2049))
+  expect_equal(infer_type(big_ish_blob), large_binary())
+})
+
 test_that("DataType$Equals", {
   a <- int32()
   b <- int32()
@@ -293,3 +307,37 @@ test_that("type() is deprecated", {
   )
   expect_equal(a_type, a$type)
 })
+
+test_that("infer_type() infers type for lists of raw() as binary()", {
+  expect_equal(
+    infer_type(list(raw())),
+    binary()
+  )
+
+  expect_equal(
+    infer_type(list(NULL, raw(), raw())),
+    binary()
+  )
+})
+
+test_that("infer_type() infers type for lists starting with NULL - ARROW-17639", {
+  null_start_list <- list(NULL, c(2, 3), c(4, 5))
+
+  expect_equal(
+    infer_type(null_start_list),
+    list_of(float64())
+  )
+
+  totally_null_list <- list(NULL, NULL, NULL)
+
+  expect_equal(
+    infer_type(totally_null_list),
+    list_of(null())
+  )
+
+  empty_list <- list()
+  expect_equal(
+    infer_type(empty_list),
+    list_of(null())
+  )
+})
diff --git a/r/tests/testthat/test-compute.R b/r/tests/testthat/test-udf.R
similarity index 80%
rename from r/tests/testthat/test-compute.R
rename to r/tests/testthat/test-udf.R
index 5821c0fa2df..7836255e863 100644
--- a/r/tests/testthat/test-compute.R
+++ b/r/tests/testthat/test-udf.R
@@ -91,11 +91,7 @@ test_that("register_scalar_function() adds a compute function to the registry",
     int32(), float64(),
     auto_convert = TRUE
   )
-  on.exit({
-    unregister_binding("times_32", update_cache = TRUE)
-    # TODO(ARROW-17178) remove the need for this!
-    Sys.unsetenv("R_ARROW_COLLECT_WITH_UDF")
-  })
+  on.exit(unregister_binding("times_32", update_cache = TRUE))
 
   expect_true("times_32" %in% names(asNamespace("arrow")$.cache$functions))
   expect_true("times_32" %in% list_compute_functions())
@@ -127,11 +123,7 @@ test_that("arrow_scalar_function() with bad return type errors", {
     int32(),
     float64()
   )
-  on.exit({
-    unregister_binding("times_32_bad_return_type_array", update_cache = TRUE)
-    # TODO(ARROW-17178) remove the need for this!
-    Sys.unsetenv("R_ARROW_COLLECT_WITH_UDF")
-  })
+  on.exit(unregister_binding("times_32_bad_return_type_array", update_cache = TRUE))
 
   expect_error(
     call_function("times_32_bad_return_type_array", Array$create(1L)),
@@ -144,11 +136,7 @@ test_that("arrow_scalar_function() with bad return type errors", {
     int32(),
     float64()
   )
-  on.exit({
-    unregister_binding("times_32_bad_return_type_scalar", update_cache = TRUE)
-    # TODO(ARROW-17178) remove the need for this!
-    Sys.unsetenv("R_ARROW_COLLECT_WITH_UDF")
-  })
+  on.exit(unregister_binding("times_32_bad_return_type_scalar", update_cache = TRUE))
 
   expect_error(
     call_function("times_32_bad_return_type_scalar", Array$create(1L)),
@@ -166,11 +154,7 @@ test_that("register_scalar_function() can register multiple kernels", {
     out_type = function(in_types) in_types[[1]],
     auto_convert = TRUE
   )
-  on.exit({
-    unregister_binding("times_32", update_cache = TRUE)
-    # TODO(ARROW-17178) remove the need for this!
-    Sys.unsetenv("R_ARROW_COLLECT_WITH_UDF")
-  })
+  on.exit(unregister_binding("times_32", update_cache = TRUE))
 
   expect_equal(
     call_function("times_32", Scalar$create(1L, int32())),
@@ -189,9 +173,6 @@ test_that("register_scalar_function() can register multiple kernels", {
 })
 
 test_that("register_scalar_function() errors for unsupported specifications", {
-  # TODO(ARROW-17178) remove the need for this!
-  on.exit(Sys.unsetenv("R_ARROW_COLLECT_WITH_UDF"))
-
   expect_error(
     register_scalar_function(
       "no_kernels",
@@ -256,11 +237,7 @@ test_that("user-defined functions work during multi-threaded execution", {
     float64(),
     auto_convert = TRUE
   )
-  on.exit({
-    unregister_binding("times_32", update_cache = TRUE)
-    # TODO(ARROW-17178) remove the need for this!
-    Sys.unsetenv("R_ARROW_COLLECT_WITH_UDF")
-  })
+  on.exit(unregister_binding("times_32", update_cache = TRUE))
 
   # check a regular collect()
   result <- open_dataset(tf_dataset) %>%
@@ -282,7 +259,7 @@ test_that("user-defined functions work during multi-threaded execution", {
   expect_identical(result2$fun_result, example_df$value * 32)
 })
 
-test_that("user-defined error when called from an unsupported context", {
+test_that("nested exec plans can contain user-defined functions", {
   skip_if_not_available("dataset")
   skip_if_not(CanRunWithCapturedR())
 
@@ -293,14 +270,10 @@ test_that("user-defined error when called from an unsupported context", {
     float64(),
     auto_convert = TRUE
   )
-  on.exit({
-    unregister_binding("times_32", update_cache = TRUE)
-    # TODO(ARROW-17178) remove the need for this!
-    Sys.unsetenv("R_ARROW_COLLECT_WITH_UDF")
-  })
+  on.exit(unregister_binding("times_32", update_cache = TRUE))
 
   stream_plan_with_udf <- function() {
-   record_batch(a = 1:1000) %>%
+    record_batch(a = 1:1000) %>%
       dplyr::mutate(b = times_32(a)) %>%
       as_record_batch_reader() %>%
       as_arrow_table()
@@ -313,24 +286,36 @@ test_that("user-defined error when called from an unsupported context", {
       dplyr::collect()
   }
 
-  if (identical(tolower(Sys.info()[["sysname"]]), "windows")) {
-    expect_equal(
-      stream_plan_with_udf(),
-      record_batch(a = 1:1000) %>%
-        dplyr::mutate(b = times_32(a)) %>%
-        dplyr::collect(as_data_frame = FALSE)
-    )
-
-    result <- collect_plan_with_head()
-    expect_equal(nrow(result), 11)
-  } else {
-    expect_error(
-      stream_plan_with_udf(),
-      "Call to R \\(.*?\\) from a non-R thread from an unsupported context"
-    )
-    expect_error(
-      collect_plan_with_head(),
-      "Call to R \\(.*?\\) from a non-R thread from an unsupported context"
-    )
-  }
+  expect_equal(
+    stream_plan_with_udf(),
+    record_batch(a = 1:1000) %>%
+      dplyr::mutate(b = times_32(a)) %>%
+      dplyr::collect(as_data_frame = FALSE)
+  )
+
+  result <- collect_plan_with_head()
+  expect_equal(nrow(result), 11)
+})
+
+test_that("head() on exec plan containing user-defined functions", {
+  skip("ARROW-18101")
+  skip_if_not_available("dataset")
+  skip_if_not(CanRunWithCapturedR())
+
+  register_scalar_function(
+    "times_32",
+    function(context, x) x * 32.0,
+    int32(),
+    float64(),
+    auto_convert = TRUE
+  )
+  on.exit(unregister_binding("times_32", update_cache = TRUE))
+
+  result <- record_batch(a = 1:1000) %>%
+    dplyr::mutate(b = times_32(a)) %>%
+    as_record_batch_reader() %>%
+    head(11) %>%
+    dplyr::collect()
+
+  expect_equal(nrow(result), 11)
 })
diff --git a/r/tools/autobrew b/r/tools/autobrew
index ea46be2c0d1..73e6e11a161 100644
--- a/r/tools/autobrew
+++ b/r/tools/autobrew
@@ -19,8 +19,15 @@
 export HOMEBREW_NO_ANALYTICS=1
 export HOMEBREW_NO_AUTO_UPDATE=1
 
-# Official Homebrew no longer supports El-Capitan
-UPSTREAM_ORG="autobrew"
+if [[ ${OSTYPE:6} -ge 20 ]]; then
+  # We are on a modern enough macOS, we can use the real brew
+  UPSTREAM_ORG="homebrew"
+  PKG_BREW_NAME="$PKG_BREW_NAME-static"
+else
+  # Official Homebrew no longer supports El-Capitan
+  # so we need to use the forked autobrew version of brew that supports old macOSes
+  UPSTREAM_ORG="autobrew"
+fi
 
 if [ "$DISABLE_AUTOBREW" ]; then return 0; fi
 AUTOBREW=${TMPDIR-/tmp}
@@ -36,6 +43,13 @@ curl -fsSL https://github.com/$UPSTREAM_ORG/brew/tarball/master | tar xz --strip
 export HOMEBREW_CACHE="$AUTOBREW"
 LOCAL_FORMULA="tools/${PKG_BREW_NAME}.rb"
 if [ -f "$LOCAL_FORMULA" ]; then
+  if [[ ${OSTYPE:6} -ge 20 ]]; then
+    $BREW tap
+
+    # Tap https://github.com/autobrew/homebrew-cran so that we can get dependencies from there
+    $BREW tap autobrew/cran
+  fi
+
   # Use the local brew formula and install --HEAD
   $BREW deps -n "$LOCAL_FORMULA" 2>/dev/null
   BREW_DEPS=$($BREW deps -n "$LOCAL_FORMULA" 2>/dev/null)
@@ -48,7 +62,7 @@ fi
 # Hardcode this for my custom autobrew build
 rm -f $BREWDIR/lib/*.dylib
 AWS_LIBS="-laws-cpp-sdk-config -laws-cpp-sdk-transfer -laws-cpp-sdk-identity-management -laws-cpp-sdk-cognito-identity -laws-cpp-sdk-sts -laws-cpp-sdk-s3 -laws-cpp-sdk-core -laws-c-event-stream -laws-checksums -laws-c-common -laws-crt-cpp -laws-c-io -laws-c-s3 -laws-c-auth -laws-c-http -laws-c-cal -laws-c-compression -laws-c-mqtt -lpthread -lcurl"
-PKG_LIBS="-lparquet -larrow_dataset -larrow -larrow_bundled_dependencies -lthrift -lbrotlienc -lbrotlidec -lbrotlicommon -llz4 -lsnappy -lzstd $AWS_LIBS"
+PKG_LIBS="-lparquet -larrow_dataset -larrow -larrow_bundled_dependencies -lthrift -lbrotlienc-static -lbrotlidec-static -lbrotlicommon-static -llz4 -lsnappy -lzstd $AWS_LIBS"
 PKG_DIRS="-L$BREWDIR/lib"
 
 # Prevent CRAN builder from linking against old libs in /usr/local/lib
@@ -60,7 +74,7 @@ for FILE in $BREWDIR/Cellar/*/*/lib/*.a; do
   PKG_LIBS=`echo $PKG_LIBS | sed "s/-l$LIBNAME/-lbrew$LIBNAME/g"`
 done
 
-PKG_CFLAGS="-I$BREWDIR/opt/$PKG_BREW_NAME/include -DARROW_R_WITH_PARQUET -DARROW_R_WITH_DATASET -DARROW_R_WITH_JSON -DARROW_R_WITH_S3 -DARROW_R_WITH_GCS"
+PKG_CFLAGS="-I$BREWDIR/opt/$PKG_BREW_NAME/include -DARROW_R_WITH_PARQUET -DARROW_R_WITH_DATASET -DARROW_R_WITH_JSON -DARROW_R_WITH_S3 -DARROW_R_WITH_GCS -D_LIBCPP_DISABLE_AVAILABILITY"
 
 unset HOMEBREW_NO_ANALYTICS
 unset HOMEBREW_NO_AUTO_UPDATE
diff --git a/r/tools/nixlibs.R b/r/tools/nixlibs.R
index b76af09ec53..e8af2386c61 100644
--- a/r/tools/nixlibs.R
+++ b/r/tools/nixlibs.R
@@ -32,7 +32,7 @@ dev_version <- package_version(VERSION)[1, 4]
 # Small dev versions are added for R-only changes during CRAN submission.
 if (is.na(dev_version) || dev_version < 100) {
   VERSION <- package_version(VERSION)[1, 1:3]
-  arrow_repo <- sprintf("https://apache.jfrog.io/artifactory/arrow/r/%s/libarrow/", VERSION)
+  arrow_repo <- paste0(getOption("arrow.repo", sprintf("https://apache.jfrog.io/artifactory/arrow/r/%s", VERSION)), "/libarrow/")
 } else {
   arrow_repo <- paste0(getOption("arrow.dev_repo", "https://nightlies.apache.org/arrow/r"), "/libarrow/")
 }
@@ -61,10 +61,10 @@ quietly <- !env_is("ARROW_R_DEV", "true")
 # and don't fall back to a full source build
 build_ok <- !env_is("LIBARROW_BUILD", "false")
 
-# Check if we're doing an offline build.
+# Check if we're authorized to download (not asked an offline build).
 # (Note that cmake will still be downloaded if necessary
 #  https://arrow.apache.org/docs/developers/cpp/building.html#offline-builds)
-download_ok <- !test_mode && !env_is("TEST_OFFLINE_BUILD", "true") && try_download("https://raw.githubusercontent.com/apache/arrow/master/r/DESCRIPTION", tempfile(), hush = TRUE)
+download_ok <- !test_mode && !env_is("TEST_OFFLINE_BUILD", "true")
 
 # This "tools/thirdparty_dependencies" path, within the tar file, might exist if
 # create_package_with_all_dependencies() was run, or if someone has created it
@@ -83,7 +83,8 @@ download_binary <- function(lib) {
     }
   } else {
     if (!quietly) {
-      cat(sprintf("*** No libarrow binary found for version %s (%s)\n", VERSION, lib))
+      cat(sprintf("*** Downloading libarrow binary failed for version %s (%s)\n    at %s\n",
+                  VERSION, lib, binary_url))
     }
     libfile <- NULL
   }
@@ -98,8 +99,8 @@ download_binary <- function(lib) {
 # * Some other string: a "distro-version" that corresponds to a binary that is
 #   available, to override what this function may discover by default.
 #   Possible values are:
-#    * "centos-7" (gcc 4.8, no AWS/GCS support)
-#    * "ubuntu-18.04" (gcc 8, openssl 1)
+#    * "centos-7" (gcc 8 (devtoolset), openssl 1, glib 2.17)
+#    * "ubuntu-18.04" (gcc 8, openssl 1, glib 2.27)
 #    * "ubuntu-22.04" (openssl 3)
 #   These string values, along with `NULL`, are the potential return values of
 #   this function.
@@ -137,28 +138,21 @@ check_allowlist <- function(os, allowed = "https://raw.githubusercontent.com/apa
 
 select_binary <- function(os = tolower(Sys.info()[["sysname"]]),
                           arch = tolower(Sys.info()[["machine"]]),
-                          compiler_version = compiler_version_string(),
                           test_program = test_for_curl_and_openssl) {
   if (identical(os, "linux") && identical(arch, "x86_64")) {
     # We only host x86 linux binaries today
-    is_gcc4 <- any(grepl("^g\\+\\+.*[^\\d.]4(\\.\\d){2}", compiler_version))
-    if (is_gcc4) {
-      cat("*** Some features are not available with gcc 4\n")
-      return("centos-7")
-    } else {
-      tryCatch(
-        # Somehow the test program system2 call errors on the sanitizer builds
-        # so globally handle the possibility that this could fail
-        {
-          errs <- compile_test_program(test_program)
-          determine_binary_from_stderr(errs)
-        },
-        error = function(e) {
-          cat("*** Unable to find libcurl and openssl\n")
-          NULL
-        }
-      )
-    }
+    tryCatch(
+      # Somehow the test program system2 call errors on the sanitizer builds
+      # so globally handle the possibility that this could fail
+      {
+        errs <- compile_test_program(test_program)
+        determine_binary_from_stderr(errs)
+      },
+      error = function(e) {
+        cat("*** Unable to find libcurl and openssl\n")
+        NULL
+      }
+    )
   } else {
     # No binary available for arch
     cat(sprintf("*** Building on %s %s\n", os, arch))
@@ -192,34 +186,24 @@ compile_test_program <- function(code) {
   # Note: if we wanted to check for openssl on macOS, we'd have to set the brew
   # path as a -I directory. But since we (currently) only run this code to
   # determine whether we can download a Linux binary, it's not relevant.
-  runner <- "`R CMD config CXX11` `R CMD config CPPFLAGS` `R CMD config CXX11FLAGS` `R CMD config CXX11STD` -E -xc++"
+  runner <- "`R CMD config CXX17` `R CMD config CPPFLAGS` `R CMD config CXX17FLAGS` `R CMD config CXX17STD` -E -xc++"
   suppressWarnings(system2("echo", sprintf('"%s" | %s -', code, runner), stdout = FALSE, stderr = TRUE))
 }
 
-# TODO(ARROW-16976): build "ubuntu-18.04" on centos7 with newer devtoolset (but glibc is 2.17) for broader compatibility (like manylinux2014)?
+# TODO(ARROW-16976): drop "ubuntu-18.04" and just use "centos-7"
+# (built with newer devtoolset but older glibc (2.17) for broader compatibility,# like manylinux2014)
 determine_binary_from_stderr <- function(errs) {
   if (is.null(attr(errs, "status"))) {
     # There was no error in compiling: so we found libcurl and openssl > 1.0.2,
     # openssl is < 3.0, glibc is >= 2.27, and we're not using a strict libc++
     cat("*** Found libcurl and openssl >= 1.0.2\n")
     return("ubuntu-18.04")
+    # Else, check for dealbreakers:
   } else if (any(grepl("Using libc++", errs, fixed = TRUE))) {
     # Our binaries are all built with GNU stdlib so they fail with libc++
     cat("*** Found libc++\n")
     return(NULL)
-  } else if (any(grepl("glibc version too old", errs))) {
-    # ubuntu-18.04 has glibc 2.27, so even if you install newer compilers
-    # (e.g. devtoolset on centos) and have curl/openssl, you run into problems
-    # TODO(ARROW-16976): build binaries with older glibc
-    cat("*** Checking glibc version\n")
-    # If we're here, we're on an older OS but with a newer compiler than gcc 4.8
-    # (we already checked), so it is possible to build with more features on.
-    # We just can't use our binaries because they were built with newer glibc.
-    return(NULL)
   } else if (header_not_found("curl/curl", errs)) {
-    # TODO(ARROW-16985): should these next 3 NULL cases return centos-7? A source build
-    # won't be able to include more features.
-    # Could check if build_ok (also for glibc?)
     cat("*** libcurl not found\n")
     return(NULL)
   } else if (header_not_found("openssl/opensslv", errs)) {
@@ -228,6 +212,15 @@ determine_binary_from_stderr <- function(errs) {
   } else if (any(grepl("OpenSSL version too old", errs))) {
     cat("*** openssl found but version >= 1.0.2 is required for some features\n")
     return(NULL)
+    # Else, determine which other binary will work
+  } else if (any(grepl("glibc version too old", errs))) {
+    # ubuntu-18.04 has glibc 2.27, so even if you install newer compilers
+    # (e.g. devtoolset on centos) and have curl/openssl, you run into problems
+    # TODO(ARROW-16976): build binaries with older glibc
+    cat("*** Checking glibc version\n")
+    # If we're here, we're on an older OS but with a new enough compiler
+    # (e.g. CentOS 7 with devtoolset-8)
+    return("centos-7")
   } else if (any(grepl("Using OpenSSL version 3", errs))) {
     cat("*** Found libcurl and openssl >= 3.0.0\n")
     return("ubuntu-22.04")
@@ -240,10 +233,6 @@ header_not_found <- function(header, errs) {
   any(grepl(regex, errs))
 }
 
-compiler_version_string <- function(compiler = R_CMD_config("CXX11")) {
-  system(paste(compiler, "--version"), intern = TRUE)
-}
-
 #### start distro ####
 
 distro <- function() {
@@ -431,15 +420,14 @@ build_libarrow <- function(src_dir, dst_dir) {
     # is found, it will be used by the libarrow build, and this does
     # not affect how R compiles the arrow bindings.
     CC = sub("^.*ccache", "", R_CMD_config("CC")),
-    CXX = paste(sub("^.*ccache", "", R_CMD_config("CXX11")), R_CMD_config("CXX11STD")),
-    # CXXFLAGS = R_CMD_config("CXX11FLAGS"), # We don't want the same debug symbols
+    CXX = paste(sub("^.*ccache", "", R_CMD_config("CXX17")), R_CMD_config("CXX17STD")),
+    # CXXFLAGS = R_CMD_config("CXX17FLAGS"), # We don't want the same debug symbols
     LDFLAGS = R_CMD_config("LDFLAGS")
   )
   env_var_list <- with_cloud_support(env_var_list)
-  env_var_list <- with_mimalloc(env_var_list)
 
-  # turn_off_all_optional_features() needs to happen after with_mimalloc() and
-  # with_cloud_support(), since those might turn features ON.
+  # turn_off_all_optional_features() needs to happen after
+  # with_cloud_support(), since it might turn features ON.
   thirdparty_deps_unavailable <- !download_ok &&
     !dir.exists(thirdparty_dependency_dir) &&
     !env_is("ARROW_DEPENDENCY_SOURCE", "system")
@@ -451,8 +439,8 @@ build_libarrow <- function(src_dir, dst_dir) {
     cat(paste0(
       "*** Building C++ library from source, but downloading thirdparty dependencies\n",
       "    is not possible, so this build will turn off all thirdparty features.\n",
-      "    See install vignette for details:\n",
-      "    https://cran.r-project.org/web/packages/arrow/vignettes/install.html\n"
+      "    See installation guide for details:\n",
+      "    https://arrow.apache.org/docs/r/articles/install.html\n"
     ))
     env_var_list <- turn_off_all_optional_features(env_var_list)
   } else if (dir.exists(thirdparty_dependency_dir)) {
@@ -654,26 +642,12 @@ is_feature_requested <- function(env_varname, default = env_is("LIBARROW_MINIMAL
   requested
 }
 
-with_mimalloc <- function(env_var_list) {
-  arrow_mimalloc <- is_feature_requested("ARROW_MIMALLOC")
-  if (arrow_mimalloc) {
-    # User wants mimalloc. If they're using gcc, let's make sure the version is >= 4.9
-    if (isTRUE(cmake_gcc_version(env_var_list) < "4.9")) {
-      cat("**** mimalloc support not available for gcc < 4.9; building with ARROW_MIMALLOC=OFF\n")
-      arrow_mimalloc <- FALSE
-    }
-  }
-  replace(env_var_list, "ARROW_MIMALLOC", ifelse(arrow_mimalloc, "ON", "OFF"))
-}
-
 with_cloud_support <- function(env_var_list) {
   arrow_s3 <- is_feature_requested("ARROW_S3")
   arrow_gcs <- is_feature_requested("ARROW_GCS")
   if (arrow_s3 || arrow_gcs) {
     # User wants S3 or GCS support.
-    # If they're using gcc, let's make sure the version is >= 4.9
-    # (aws-sdk-cpp requires that; google-cloud-cpp only tests with >= 6.3)
-    # and make sure that we have curl and openssl system libs
+    # Make sure that we have curl and openssl system libs
     feats <- c(
       if (arrow_s3) "S3",
       if (arrow_gcs) "GCS"
@@ -690,11 +664,7 @@ with_cloud_support <- function(env_var_list) {
     # capabilities for using binaries. We could consider consolidating this
     # logic, though these use cmake in order to match exactly what we do in the
     # libarrow build, and maybe that increases the fidelity.
-    if (isTRUE(cmake_gcc_version(env_var_list) < "4.9")) {
-      print_warning("not available for gcc < 4.9")
-      arrow_s3 <- FALSE
-      arrow_gcs <- FALSE
-    } else if (!cmake_find_package("CURL", NULL, env_var_list)) {
+    if (!cmake_find_package("CURL", NULL, env_var_list)) {
       # curl on macos should be installed, so no need to alter this for macos
       # TODO: check for apt/yum/etc. and message the right thing?
       print_warning("requires libcurl-devel (rpm) or libcurl4-openssl-dev (deb)")
@@ -712,25 +682,6 @@ with_cloud_support <- function(env_var_list) {
   replace(env_var_list, "ARROW_GCS", ifelse(arrow_gcs, "ON", "OFF"))
 }
 
-cmake_gcc_version <- function(env_var_list) {
-  # This function returns NA if using a non-gcc compiler
-  # Always enclose calls to it in isTRUE() or isFALSE()
-  vals <- cmake_cxx_compiler_vars(env_var_list)
-  if (!identical(vals[["CMAKE_CXX_COMPILER_ID"]], "GNU")) {
-    return(NA)
-  }
-  package_version(vals[["CMAKE_CXX_COMPILER_VERSION"]])
-}
-
-cmake_cxx_compiler_vars <- function(env_var_list) {
-  env_vars <- env_vars_as_string(env_var_list)
-  info <- system(paste("export", env_vars, "&& $CMAKE --system-information"), intern = TRUE)
-  info <- grep("^[A-Z_]* .*$", info, value = TRUE)
-  vals <- as.list(sub('^.*? "?(.*?)"?$', "\\1", info))
-  names(vals) <- sub("^(.*?) .*$", "\\1", info)
-  vals[grepl("^CMAKE_CXX_COMPILER_?", names(vals))]
-}
-
 cmake_find_package <- function(pkg, version = NULL, env_var_list) {
   td <- tempfile()
   dir.create(td)
@@ -756,13 +707,25 @@ if (!test_mode && !file.exists(paste0(dst_dir, "/include/arrow/api.h"))) {
   # don't need to do anything. Otherwise,
   # (1) Look for a prebuilt binary for this version
   bin_file <- src_dir <- NULL
-  if (download_ok) {
+
+  if (!identical(Sys.getenv("ARROW_DOWNLOADED_BINARIES"), "")) {
+    bin_zip <- Sys.getenv("ARROW_DOWNLOADED_BINARIES")
+    cat(sprintf("*** Using pre-downloaded zip for libarrow binaries: %s\n", bin_zip))
+    if (file.exists(bin_zip)) {
+      bin_file <- tempfile()
+      file.copy(bin_zip, bin_file)
+    } else {
+      cat(sprintf("*** File not found: %s ($ARROW_DOWNLOADED_BINARIES)\n", bin_zip))
+      bin_file <- NULL
+    }
+  } else if (download_ok) {
     binary_flavor <- identify_binary()
     if (!is.null(binary_flavor)) {
       # The env vars say we can, and we've determined a lib that should work
       bin_file <- download_binary(binary_flavor)
     }
   }
+
   if (!is.null(bin_file)) {
     # Extract them
     dir.create(dst_dir, showWarnings = !quietly, recursive = TRUE)
@@ -774,14 +737,14 @@ if (!test_mode && !file.exists(paste0(dst_dir, "/include/arrow/api.h"))) {
     if (!is.null(src_dir)) {
       cat(paste0(
         "*** Building libarrow from source\n",
-        "    For build options and troubleshooting, see the install vignette:\n",
-        "    https://cran.r-project.org/web/packages/arrow/vignettes/install.html\n"
+        "    For build options and troubleshooting, see the install guide:\n",
+        "    https://arrow.apache.org/docs/r/articles/install.html\n"
       ))
       build_libarrow(src_dir, dst_dir)
     } else {
-      cat("*** Proceeding without libarrow\n")
+      cat("*** Proceeding without libarrow (no local source)\n")
     }
   } else {
-    cat("*** Proceeding without libarrow\n")
+    cat("*** Proceeding without libarrow (build not authorized)\n")
   }
 }
diff --git a/r/tools/test-nixlibs.R b/r/tools/test-nixlibs.R
index d5e83b13058..631ff7a3e35 100644
--- a/r/tools/test-nixlibs.R
+++ b/r/tools/test-nixlibs.R
@@ -39,19 +39,6 @@ test_that("select_binary() based on system", {
     expect_null(select_binary("linux", arch = "aarch64")), # Not built today
     "Building on linux aarch64"
   )
-  gcc48 <- c(
-    "g++-4.8 (Ubuntu 4.8.4-2ubuntu1~14.04.3) 4.8.4",
-    "Copyright (C) 2013 Free Software Foundation, Inc.",
-    "This is free software; see the source for copying conditions.  There is NO",
-    "warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE."
-  )
-  expect_output(
-    expect_identical(
-      select_binary("linux", "x86_64", compiler_version = gcc48),
-      "centos-7"
-    ),
-    "Some features are not available with gcc 4"
-  )
 })
 
 test_that("compile_test_program()", {
@@ -87,14 +74,14 @@ test_that("determine_binary_from_stderr", {
 test_that("select_binary() with test program", {
   expect_output(
     expect_identical(
-      select_binary("linux", "x86_64", "clang", "int a;"),
+      select_binary("linux", "x86_64", "int a;"),
       "ubuntu-18.04"
     ),
     "Found libcurl and openssl >= 1.0.2"
   )
   expect_output(
     expect_identical(
-      select_binary("linux", "x86_64", "clang", "#error Using OpenSSL version 3"),
+      select_binary("linux", "x86_64", "#error Using OpenSSL version 3"),
       "ubuntu-22.04"
     ),
     "Found libcurl and openssl >= 3.0.0"
diff --git a/r/tools/winlibs.R b/r/tools/winlibs.R
index 5aeea2e417e..d941da4baa6 100644
--- a/r/tools/winlibs.R
+++ b/r/tools/winlibs.R
@@ -44,11 +44,14 @@ if (!file.exists(sprintf("windows/arrow-%s/include/arrow/api.h", VERSION))) {
       "/libarrow/bin/windows/arrow-%s.zip"
     )
     # %1$s uses the first variable for both substitutions
-    artifactory <- "https://apache.jfrog.io/artifactory/arrow/r/%1$s/libarrow/bin/windows/arrow-%1$s.zip"
+    artifactory <- paste0(
+      getOption("arrow.repo", "https://apache.jfrog.io/artifactory/arrow/r/%1$s"),
+      "/libarrow/bin/windows/arrow-%1$s.zip"
+    )
     rwinlib <- "https://github.com/rwinlib/arrow/archive/v%s.zip"
 
     dev_version <- package_version(VERSION)[1, 4]
-    
+
     # Small dev versions are added for R-only changes during CRAN submission.
     if (is.na(dev_version) || dev_version < 100) {
       VERSION <- package_version(VERSION)[1, 1:3]
diff --git a/r/vignettes/.gitignore b/r/vignettes/.gitignore
new file mode 100644
index 00000000000..81a8fcd719c
--- /dev/null
+++ b/r/vignettes/.gitignore
@@ -0,0 +1 @@
+mini-dataset
diff --git a/r/vignettes/array_indexing.png b/r/vignettes/array_indexing.png
new file mode 100644
index 00000000000..892bab794ed
Binary files /dev/null and b/r/vignettes/array_indexing.png differ
diff --git a/r/vignettes/arrow.Rmd b/r/vignettes/arrow.Rmd
index bda717ecc40..c218b08ede7 100644
--- a/r/vignettes/arrow.Rmd
+++ b/r/vignettes/arrow.Rmd
@@ -1,227 +1,221 @@
 ---
-title: "Using the Arrow C++ Library in R"
-description: "This document describes the low-level interface to the Apache Arrow C++ library in R and reviews the patterns and conventions of the R package."
+title: "Get started with Arrow"
+description: >
+  An overview of the Apache Arrow project and the arrow R package
 output: rmarkdown::html_vignette
-vignette: >
-  %\VignetteIndexEntry{Using the Arrow C++ Library in R}
-  %\VignetteEngine{knitr::rmarkdown}
-  %\VignetteEncoding{UTF-8}
 ---
 
-The Apache Arrow C++ library provides rich, powerful features for working with columnar data. The `arrow` R package provides both a low-level interface to the C++ library and some higher-level, R-flavored tools for working with it. This vignette provides an overview of how the pieces fit together, and it describes the conventions that the classes and methods follow in R.
+Apache Arrow is a software development platform for building high performance applications that process and transport large data sets. It is designed to improve the performance of data analysis methods, and to increase the efficiency of moving data from one system or programming language to another.
 
-# Features
+The arrow package provides a standard way to use Apache Arrow in R. It provides a low-level interface to the [Arrow C++ library](https://arrow.apache.org/docs/cpp), and some higher-level tools for working with it in a way designed to feel natural to R users. This article provides an overview of how the pieces fit together, and it describes the conventions that the classes and methods follow in R.
 
-## Multi-file datasets
+## Package conventions
 
-The `arrow` package lets you work efficiently with large, multi-file datasets
-using `dplyr` methods. See `vignette("dataset", package = "arrow")` for an overview.
+The arrow R package builds on top of the Arrow C++ library, and C++ is an object oriented language. As a consequence, the core logic of the Arrow C++ library is encapsulated in classes and methods. In the arrow R package these are implemented as [`R6`](https://r6.r-lib.org) classes that all adopt "TitleCase" naming conventions. Some examples of these include:
 
-## Reading and writing files
+- Two-dimensional, tabular data structures such as `Table`, `RecordBatch`, and `Dataset`
+- One-dimensional, vector-like data structures such as `Array` and `ChunkedArray`
+- Classes for reading, writing, and streaming data such as `ParquetFileReader` and `CsvTableReader`
 
-`arrow` provides some simple functions for using the Arrow C++ library to read and write files.
-These functions are designed to drop into your normal R workflow
-without requiring any knowledge of the Arrow C++ library
-and use naming conventions and arguments that follow popular R packages, particularly `readr`.
-The readers return `data.frame`s
-(or if you use the `tibble` package, they will act like `tbl_df`s),
-and the writers take `data.frame`s.
+This low-level interface allows you to interact with the Arrow C++ library in a very flexible way, but in many common situations you may never need to use it at all, because arrow also supplies a high-level interface using functions that follow a "snake_case" naming convention. Some examples of this include:
 
-Importantly, `arrow` provides basic read and write support for the [Apache
-Parquet](https://parquet.apache.org/) columnar data file format.
+- `arrow_table()` allows you to create Arrow tables without directly using the `Table` object
+- `read_parquet()` allows you to open Parquet files without directly using the `ParquetFileReader` object
 
-```r
-library(arrow)
-df <- read_parquet("path/to/file.parquet")
+All the examples used in this article rely on this high-level interface.
+
+For developers interested in learning more about the package structure, see the [developer guide](./developing.html).
+
+
+## Tabular data in Arrow 
+
+A critical component of Apache Arrow is its in-memory columnar format, a standardized, language-agnostic specification for representing structured, table-like datasets in-memory. In the arrow R package, the `Table` class is used to store these objects. Tables are roughly analogous to data frames and have similar behavior. The `arrow_table()` function allows you to generate new Arrow Tables in much the same way that `data.frame()` is used to create new data frames:
+
+```{r}
+library(arrow, warn.conflicts = FALSE)
+
+dat <- arrow_table(x = 1:3, y = c("a", "b", "c"))
+dat
 ```
 
-Just as you can read, you can write Parquet files:
+You can use `[` to specify subsets of Arrow Table in the same way you would for a data frame:
 
-```r
-write_parquet(df, "path/to/different_file.parquet")
+```{r}
+dat[1:2, 1:2]
 ```
 
-The `arrow` package also includes a faster and more robust implementation of the
-[Feather](https://github.com/wesm/feather) file format, providing `read_feather()` and
-`write_feather()`. This implementation depends
-on the same underlying C++ library as the Python version does,
-resulting in more reliable and consistent behavior across the two languages, as
-well as [improved performance](https://wesmckinney.com/blog/feather-arrow-future/).
-`arrow` also by default writes the Feather V2 format
-([the Arrow IPC file format](https://arrow.apache.org/docs/format/Columnar.html#ipc-file-format)),
-which supports a wider range of data types, as well as compression.
-
-For CSV and line-delimited JSON, there are `read_csv_arrow()` and `read_json_arrow()`, respectively.
-While `read_csv_arrow()` currently has fewer parsing options for dealing with
-every CSV format variation in the wild, for the files it can read, it is
-often significantly faster than other R CSV readers, such as
-`base::read.csv`, `readr::read_csv`, and `data.table::fread`.
-
-## Working with Arrow data in Python
-
-Using [`reticulate`](https://rstudio.github.io/reticulate/), `arrow` lets you
-share data between R and Python (`pyarrow`) efficiently, enabling you to take
-advantage of the vibrant ecosystem of Python packages that build on top of
-Apache Arrow. See `vignette("python", package = "arrow")` for details.
+Along the same lines, the `$` operator can be used to extract named columns:
 
-## Access to Arrow messages, buffers, and streams
+```{r}
+dat$y
+```
 
-The `arrow` package also provides many lower-level bindings to the C++ library, which enable you
-to access and manipulate Arrow objects. You can use these to build connectors
-to other applications and services that use Arrow. One example is Spark: the
-[`sparklyr`](https://spark.rstudio.com/) package has support for using Arrow to
-move data to and from Spark, yielding [significant performance
-gains](https://arrow.apache.org/blog/2019/01/25/r-spark-improvements/).
+Note the output: individual columns in an Arrow Table are represented as Chunked Arrays, which are one-dimensional data structures in Arrow that are roughly analogous to vectors in R. 
+
+Tables are the primary way to represent rectangular data in-memory using Arrow, but they are not the only rectangular data structure used by the Arrow C++ library: there are also Datasets which are used for data stored on-disk rather than in-memory, and Record Batches which are fundamental building blocks but not typically used in data analysis. 
+
+To learn more about the different data object classes in arrow, see the article on [data objects](./data_objects.html).
+
+## Converting Tables to data frames
+
+Tables are a data structure used to represent rectangular data within memory allocated by the Arrow C++ library, but they can be coerced to native R data frames (or tibbles) using `as.data.frame()`
 
-# Object hierarchy
-
-## Metadata objects
-
-Arrow defines the following classes for representing metadata:
-
-| Class      | Description                                        | How to create an instance        |
-| ---------- | -------------------------------------------------- | -------------------------------- |
-| `DataType` | attribute controlling how values are represented   | functions in `help("data-type")` |
-| `Field`    | a character string name and a `DataType`           | `field(name, type)`              |
-| `Schema`   | list of `Field`s                                   | `schema(...)`                    |
-
-## Data objects
-
-Arrow defines the following classes for representing zero-dimensional (scalar),
-one-dimensional (array/vector-like), and two-dimensional (tabular/data
-frame-like) data:
-
-| Dim | Class          | Description                               | How to create an instance                                                                             |
-| --- | -------------- | ----------------------------------------- | ------------------------------------------------------------------------------------------------------|
-| 0   | `Scalar`       | single value and its `DataType`           | `Scalar$create(value, type)`                                                                          |
-| 1   | `Array`        | vector of values and its `DataType`       | `Array$create(vector, type)`                                                                          | 
-| 1   | `ChunkedArray` | vectors of values and their `DataType`    | `ChunkedArray$create(..., type)` or alias `chunked_array(..., type)`                                  |
-| 2   | `RecordBatch`  | list of `Array`s with a `Schema`          | `RecordBatch$create(...)` or alias `record_batch(...)`                                                |
-| 2   | `Table`        | list of `ChunkedArray` with a `Schema`    | `Table$create(...)`, alias `arrow_table(...)`, or `arrow::read_*(file, as_data_frame = FALSE)`        |
-| 2   | `Dataset`      | list of `Table`s  with the same `Schema`  | `Dataset$create(sources, schema)` or alias `open_dataset(sources, schema)`                            |
-
-Each of these is defined as an `R6` class in the `arrow` R package and
-corresponds to a class of the same name in the Arrow C++ library. The `arrow`
-package provides a variety of `R6` and S3 methods for interacting with instances
-of these classes.
-
-For convenience, the `arrow` package also defines several synthetic classes that
-do not exist in the C++ library, including:
-
-* `ArrowDatum`: inherited by `Scalar`, `Array`, and `ChunkedArray`
-* `ArrowTabular`: inherited by `RecordBatch` and `Table`
-* `ArrowObject`: inherited by all Arrow objects
-
-# Internals
-
-## Mapping of R <--> Arrow types
-
-Arrow has a rich data type system that includes direct parallels with R's data types and much more.
+```{r}
+as.data.frame(dat)
+```
+
+When this coercion takes place, each of the columns in the original Arrow Table must be converted to native R data objects. In the `dat` Table, for instance, `dat$x` is stored as the Arrow data type int32 inherited from C++, which becomes an R integer type when `as.data.frame()` is called. 
 
-In the tables, entries with a `-` are not currently implemented.
+It is possible to exercise fine grained control over this conversion process. To learn more about the different types and how they are converted, see the [data types](./data_types.html) article. 
 
-### R to Arrow
 
-| R type                   | Arrow type |
-|--------------------------|------------|
-| logical                  | boolean    |
-| integer                  | int32      |
-| double ("numeric")       | float64^1^ |
-| character                | utf8^2^    |
-| factor                   | dictionary |
-| raw                      | uint8      |
-| Date                     | date32     |
-| POSIXct                  | timestamp  |
-| POSIXlt                  | struct     |
-| data.frame               | struct     |
-| list^3^                  | list       |
-| bit64::integer64         | int64      |
-| hms::hms                 | time32     |
-| difftime                 | duration   |
-| vctrs::vctrs_unspecified | null       |
+## Reading and writing data
 
+One of the main ways to use arrow is to read and write data files in
+several common formats. The arrow package supplies extremely fast CSV reading and writing capabilities, but in addition supports data formats like Parquet and Arrow (also called Feather) that are not widely supported in other packages. In addition, the arrow package supports multi-file data sets in which a single rectangular data set is stored across multiple files. 
 
+### Individual files
 
-^1^: `float64` and `double` are the same concept and data type in Arrow C++; 
-however, only `float64()` is used in arrow as the function `double()` already 
-exists in base R
+When the goal is to read a single data file into memory, there are several functions you can use:
 
-^2^: If the character vector exceeds 2GB of strings, it will be converted to a 
-`large_utf8` Arrow type
+-   `read_parquet()`: read a file in Parquet format
+-   `read_feather()`: read a file in Arrow/Feather format
+-   `read_delim_arrow()`: read a delimited text file 
+-   `read_csv_arrow()`: read a comma-separated values (CSV) file
+-   `read_tsv_arrow()`: read a tab-separated values (TSV) file
+-   `read_json_arrow()`: read a JSON data file
 
-^3^: Only lists where all elements are the same type are able to be translated 
-to Arrow list type (which is a "list of" some type).
+In every case except JSON, there is a corresponding `write_*()` function 
+that allows you to write data files in the appropriate format. 
 
+By default, the `read_*()` functions will return a data frame or tibble, but you can also use them to read data into an Arrow Table. To do this, you need to set the `as_data_frame` argument to `FALSE`. 
 
-### Arrow to R
+In the example below, we take the `starwars` data provided by the dplyr package and write it to a Parquet file using `write_parquet()`
 
-| Arrow type        | R type                       |
-|-------------------|------------------------------|
-| boolean           | logical                      |
-| int8              | integer                      |
-| int16             | integer                      |
-| int32             | integer                      |
-| int64             | integer^1^                   |
-| uint8             | integer                      |
-| uint16            | integer                      |
-| uint32            | integer^1^                   |
-| uint64            | integer^1^                   |
-| float16           | -^2^                         |
-| float32           | double                       |
-| float64           | double                       |
-| utf8              | character                    |
-| large_utf8        | character                    |
-| binary            | arrow_binary ^3^             |
-| large_binary      | arrow_large_binary ^3^       |
-| fixed_size_binary | arrow_fixed_size_binary ^3^  |
-| date32            | Date                         |
-| date64            | POSIXct                      |
-| time32            | hms::hms                     |
-| time64            | hms::hms                     |
-| timestamp         | POSIXct                      |
-| duration          | difftime                     |
-| decimal           | double                       |
-| dictionary        | factor^4^                    |
-| list              | arrow_list ^5^               |
-| large_list        | arrow_large_list ^5^         |
-| fixed_size_list   | arrow_fixed_size_list ^5^    |
-| struct            | data.frame                   |
-| null              | vctrs::vctrs_unspecified     |
-| map               | arrow_list ^5^               |
-| union             | -^2^                         |
-
-^1^: These integer types may contain values that exceed the range of R's 
-`integer` type (32-bit signed integer). When they do, `uint32` and `uint64` are 
-converted to `double` ("numeric") and `int64` is converted to 
-`bit64::integer64`. This conversion can be disabled (so that `int64` always
-yields a `bit64::integer64` vector) by setting `options(arrow.int64_downcast = FALSE)`.
+```{r}
+library(dplyr, warn.conflicts = FALSE)
 
-^2^: Some Arrow data types do not currently have an R equivalent and will raise an error
-if cast to or mapped to via a schema.
+file_path <- tempfile(fileext = ".parquet")
+write_parquet(starwars, file_path)
+```
 
-^3^: `arrow*_binary` classes are implemented as lists of raw vectors. 
+We can then use `read_parquet()` to load the data from this file. As shown below, the default behavior is to return a data frame (`sw_frame`) but when we set `as_data_frame = FALSE` the data are read as an Arrow Table (`sw_table`):
+
+```{r}
+sw_frame <- read_parquet(file_path)
+sw_table <- read_parquet(file_path, as_data_frame = FALSE)
+sw_table
+```
 
-^4^: Due to the limitation of R factors, Arrow `dictionary` values are coerced
-to string when translated to R if they are not already strings.
+To learn more about reading and writing individual data files, see the [read/write article](./read_write.html).
 
-^5^: `arrow*_list` classes are implemented as subclasses of `vctrs_list_of` 
-with a `ptype` attribute set to what an empty Array of the value type converts to. 
+### Multi-file data sets
+
+When a tabular data set becomes large, it is often good practice to partition the data into meaningful subsets and store each one in a separate file. Among other things, this means that if only one subset of the data are relevant to an analysis, only one (smaller) file needs to be read. The arrow package provides the Dataset interface, a convenient way to read, write, and analyze a single data file that is larger-than-memory and multi-file data sets. 
+
+To illustrate the concepts, we'll create a nonsense data set with 100000 rows that can be split into 10 subsets:
+
+```{r}
+set.seed(1234)
+nrows <- 100000
+random_data <- data.frame(
+  x = rnorm(nrows),
+  y = rnorm(nrows),
+  subset = sample(10, nrows, replace = TRUE)
+)
+```
 
+What we might like to do is partition this data and then write it to 10 separate Parquet files, one corresponding to each value of the `subset` column. To do this we first specify the path to a folder into which we will write the data files:
+
+```{r}
+dataset_path <- file.path(tempdir(), "random_data")
+```
+
+We can then use `group_by()` function from dplyr to specify that the data will be partitioned using the `subset` column, and then pass the grouped data to `write_dataset()`:
+
+```{r}
+random_data %>%
+  group_by(subset) %>%
+  write_dataset(dataset_path)
+```
+
+This creates a set of 10 files, one for each subset. These files are named according to the "hive partitioning" format as shown below:
+
+```{r}
+list.files(dataset_path, recursive = TRUE)
+```
 
-### R object attributes
+Each of these Parquet files can be opened individually using `read_parquet()` but is often more convenient -- especially for very large data sets -- to scan the folder and "connect" to the data set without loading it into memory. We can do this using `open_dataset()`:
+
+```{r}
+dset <- open_dataset(dataset_path)
+dset
+```
+
+This `dset` object does not store the data in-memory, only some metadata. However, as discussed in the next section, it is possible to analyze the data referred to be `dset` as if it had been loaded.
+
+To learn more about Arrow Datasets, see the [dataset article](./dataset.html).
+
+## Analyzing Arrow data with dplyr
+
+Arrow Tables and Datasets can be analyzed using dplyr syntax. This is possible because the arrow R package supplies a backend that translates dplyr verbs into commands that are understood by the Arrow C++ library, and will similarly translate R expressions that appear within a call to a dplyr verb. For example, although the `dset` Dataset is not a data frame (and does not store the data values in memory), you can still pass it to a dplyr pipeline like the one shown below:
+
+```{r}
+dset %>%
+  group_by(subset) %>%
+  summarize(mean_x = mean(x), min_y = min(y)) %>%
+  filter(mean_x > 0) %>%
+  arrange(subset) %>%
+  collect()
+```
+
+Notice that we call `collect()` at the end of the pipeline. No actual computations are performed until `collect()` (or the related `compute()` function) is called. This "lazy evaluation" makes it possible for the Arrow C++ compute engine to optimize how the computations are performed. 
+
+To learn more about analyzing Arrow data, see the [data wrangling article](./data_wrangling.html). The [list of functions available in dplyr queries](https://arrow.apache.org/docs/r/reference/acero.html) page may also be useful.
+
+## Connecting to cloud storage
+
+Another use for the arrow R package is to read, write, and analyze data sets stored remotely on cloud services. The package currently supports both Amazon Simple Storage Service (S3) and Google Cloud Storage (GCS). The example below illustrates how you can use `s3_bucket()` to refer to a an S3 bucket, and use `open_dataset()` to connect to the data set stored there:
+
+```{r, eval=FALSE}
+bucket <- s3_bucket("voltrondata-labs-datasets/nyc-taxi")
+nyc_taxi <- open_dataset(bucket)
+```
+
+To learn more about the support for cloud services in arrow, see the [cloud storage](./fs.html) article.
+
+## Efficient data interchange between R and Python
+
+The [reticulate](https://rstudio.github.io/reticulate/) package provides an interface that allows you to call Python code from R. The arrow package is designed to be interoperable with reticulate. If the Python environment has the pyarrow library installed (the Python equivalent to the arrow package), you can pass an Arrow Table from R to Python using the `r_to_py()` function in reticulate as shown below:
+
+```{r}
+library(reticulate)
+
+sw_table_python <- r_to_py(sw_table)
+```
+
+The `sw_table_python` object is now stored as a pyarrow Table: the Python equivalent of the Table class. You can see this when you print the object:
+
+```{r}
+sw_table_python
+```
+
+It is important to recognize that when this transfer takes place, only the C++ pointer (i.e., metadata referring to the underlying data object stored by the Arrow C++ library) is copied. The data values themselves in the same place within memory. The consequence of this is that it is much faster to pass an Arrow Table from R to Python than to copy a data frame in R to a Pandas DataFrame in Python. 
+
+To learn more about passing Arrow data between R and Python, see the article on [python integrations](./python.html).
+
+## Access to Arrow messages, buffers, and streams
+
+The arrow package also provides many lower-level bindings to the C++ library, which enable you
+to access and manipulate Arrow objects. You can use these to build connectors
+to other applications and services that use Arrow. One example is Spark: the
+[`sparklyr`](https://spark.rstudio.com/) package has support for using Arrow to
+move data to and from Spark, yielding [significant performance
+gains](https://arrow.apache.org/blog/2019/01/25/r-spark-improvements/).
 
-Arrow supports custom key-value metadata attached to Schemas. When we convert a `data.frame` to an Arrow Table or RecordBatch, the package stores any `attributes()` attached to the columns of the `data.frame` in the Arrow object's Schema. These attributes are stored under the "r" key; you can assign additional string metadata under any other key you wish, like `x$metadata$new_key <- "new value"`.
+## Contributing to arrow
 
-This metadata is preserved when writing the table to Feather or Parquet, and when reading those files into R, or when calling `as.data.frame()` on a Table/RecordBatch, the column attributes are restored to the columns of the resulting `data.frame`. This means that custom data types, including `haven::labelled`, `vctrs` annotations, and others, are preserved when doing a round-trip through Arrow.
+Apache Arrow is an extensive project spanning multiple languages, and the arrow R package is only one part of this large project. Because of this there are a number of special considerations for developers who would like to contribute to the package. To help make this process easier, there are several articles in the arrow documentation that discuss topics that are relevant to arrow developers, but are very unlikely to be needed by users.
 
-Note that the `attributes()` stored in `$metadata$r` are only understood by R. If you write a `data.frame` with `haven` columns to a Feather file and read that in Pandas, the `haven` metadata won't be recognized there. (Similarly, Pandas writes its own custom metadata, which the R package does not consume.) You are free, however, to define custom metadata conventions for your application and assign any (string) values you want to other metadata keys. For more details, see the documentation for `schema()`.
+For an overview of the development process and a list of related articles for developers, see the [developer guide](./developing.html).
 
-## Class structure and package conventions
-
-C++ is an object-oriented language, so the core logic of the Arrow library is encapsulated in classes and methods. In the R package, these classes are implemented as [`R6`](https://r6.r-lib.org) classes, most of which are exported from the namespace.
-
-In order to match the C++ naming conventions, the `R6` classes are in TitleCase, e.g. `RecordBatch`. This makes it easy to look up the relevant C++ implementations in the [code](https://github.com/apache/arrow/tree/master/cpp) or [documentation](https://arrow.apache.org/docs/cpp/). To simplify things in R, the C++ library namespaces are generally dropped or flattened; that is, where the C++ library has `arrow::io::FileOutputStream`, it is just `FileOutputStream` in the R package. One exception is for the file readers, where the namespace is necessary to disambiguate. So `arrow::csv::TableReader` becomes `CsvTableReader`, and `arrow::json::TableReader` becomes `JsonTableReader`.
-
-Some of these classes are not meant to be instantiated directly; they may be base classes or other kinds of helpers. For those that you should be able to create, use the `$create()` method to instantiate an object. For example, `rb <- RecordBatch$create(int = 1:10, dbl = as.numeric(1:10))` will create a `RecordBatch`. Many of these factory methods that an R user might most often encounter also have a `snake_case` alias, in order to be more familiar for contemporary R users. So `record_batch(int = 1:10, dbl = as.numeric(1:10))` would do the same as `RecordBatch$create()` above.
-
-The typical user of the `arrow` R package may never deal directly with the `R6` objects. We provide more R-friendly wrapper functions as a higher-level interface to the C++ library. An R user can call `read_parquet()` without knowing or caring that they're instantiating a `ParquetFileReader` object and calling the `$ReadFile()` method on it. The classes are there and available to the advanced programmer who wants fine-grained control over how the C++ library is used.
diff --git a/r/vignettes/data_objects.Rmd b/r/vignettes/data_objects.Rmd
new file mode 100644
index 00000000000..7fcef8e6e78
--- /dev/null
+++ b/r/vignettes/data_objects.Rmd
@@ -0,0 +1,380 @@
+---
+title: "Data objects"
+description: > 
+  Learn about Scalar, Array, Table, and Dataset objects in arrow 
+  (among others), how they relate to each other, as well as their 
+  relationships to familiar R objects like data frames and vectors 
+output: rmarkdown::html_vignette
+---
+
+This article describes the various data object types supplied by arrow, and documents how these objects are structured. 
+
+```{r include=FALSE}
+library(arrow, warn.conflicts = FALSE)
+library(dplyr, warn.conflicts = FALSE)
+```
+
+The arrow package supplies several object classes that are used to represent data. `RecordBatch`, `Table`, and `Dataset` objects are two-dimensional rectangular data structures used to store tabular data. For columnar, one-dimensional data, the `Array` and `ChunkedArray` classes are provided. Finally, `Scalar` objects represent individual values. The table below summarizes these objects and shows how you can create new instances using the [`R6`](https://r6.r-lib.org/) class object, as well as convenience functions that provide the same functionality in a more traditional R-like fashion:
+
+| Dim | Class          | How to create an instance                     | Convenience function                          |
+| --- | -------------- | ----------------------------------------------| --------------------------------------------- |
+| 0   | `Scalar`       | `Scalar$create(value, type)`                  |                                               |
+| 1   | `Array`        | `Array$create(vector, type)`                  | `as_arrow_array(x)`                           |
+| 1   | `ChunkedArray` | `ChunkedArray$create(..., type)`              | `chunked_array(..., type)`                    |
+| 2   | `RecordBatch`  | `RecordBatch$create(...)`                     | `record_batch(...)`                           |
+| 2   | `Table`        | `Table$create(...)`                           | `arrow_table(...)`                            |
+| 2   | `Dataset`      | `Dataset$create(sources, schema)`             | `open_dataset(sources, schema)`               |
+  
+Later in the article we'll look at each of these in more detail. For now we note that each of these object classes corresponds to a class of the same name in the underlying Arrow C++ library. 
+
+In addition to these data objects, arrow defines the following classes for representing metadata:
+
+- A `Schema` is a list of `Field` objects used to describe the structure of a tabular data object; where
+- A `Field` specifies a character string name and a `DataType`; and
+- A `DataType` is an attribute controlling how values are represented
+
+These metadata objects play an important role in making sure data are represented correctly, and all three of the tabular data object types (Record Batch, Table, and Dataset) include explicit Schema objects used to represent metadata. To learn more about these metadata classes, see the [metadata article](./metadata.html).
+
+## Scalars
+
+A Scalar object is simply a single value that can be of any type. It might be an integer, a string, a timestamp, or any of the different `DataType` objects that Arrow supports. Most users of the arrow R package are unlikely to create Scalars directly, but should there be a need you can do this by calling the `Scalar$create()` method:
+
+```{r}
+Scalar$create("hello")
+```
+
+
+## Arrays
+
+Array objects are ordered sets of Scalar values. As with Scalars most users will not need to create Arrays directly, but if the need arises there is an `Array$create()` method that allows you to create new Arrays:
+
+```{r}
+integer_array <- Array$create(c(1L, NA, 2L, 4L, 8L))
+integer_array
+```
+
+```{r}
+string_array <- Array$create(c("hello", "amazing", "and", "cruel", "world"))
+string_array
+```
+
+An Array can be subset using square brackets as shown below:
+
+```{r}
+string_array[4:5]
+```
+
+Arrays are immutable objects: once an Array has been created it cannot be modified or extended. 
+
+## Chunked Arrays
+
+In practice, most users of the arrow R package are likely to use Chunked Arrays rather than simple Arrays. Under the hood, a Chunked Array is a collection of one or more Arrays that can be indexed _as if_ they were a single Array. The reasons that Arrow provides this functionality are described in the [data object layout article](./developers/data_object_layout.html) but for the present purposes it is sufficient to notice that Chunked Arrays behave like Arrays in regular data analysis.
+
+To illustrate, let's use the `chunked_array()` function:
+
+```{r}
+chunked_string_array <- chunked_array(
+  string_array,
+  c("I", "love", "you")
+)
+```
+
+The `chunked_array()` function is just a wrapper around the functionality that `ChunkedArray$create()` provides. Let's print the object:
+
+```{r}
+chunked_string_array
+```
+
+The double bracketing in this output is intended to highlight the fact that Chunked Arrays are wrappers around one or more Arrays. However, although comprised of multiple distinct Arrays, a Chunked Array can be indexed as if they were laid end-to-end in a single "vector-like" object. This is illustrated below:
+
+```{r, echo=FALSE, out.width="100%"}
+knitr::include_graphics("./array_indexing.png")
+```
+
+We can use `chunked_string_array` to illustrate this: 
+
+```{r}
+chunked_string_array[4:7]
+```
+
+An important thing to note is that "chunking" is not semantically meaningful. It is an implementation detail only: users should never treat the chunk as a meaningful unit. Writing the data to disk, for example, often results in the data being organized into different chunks. Similarly, two Chunked Arrays that contain the same values assigned to different chunks are deemed equivalent. To illustrate this we can create a Chunked Array that contains the same four same four values as `chunked_string_array[4:7]`, but organized into one chunk rather than split into two:
+
+```{r}
+cruel_world <- chunked_array(c("cruel", "world", "I", "love"))
+cruel_world
+```
+
+Testing for equality using `==` produces an element-wise comparison, and the result is a new Chunked Array of four (boolean type) `true` values:
+
+```{r}
+cruel_world == chunked_string_array[4:7]
+```
+
+In short, the intention is that users interact with Chunked Arrays as if they are ordinary one-dimensional data structures without ever having to think much about the underlying chunking arrangement. 
+
+Chunked Arrays are mutable, in a specific sense: Arrays can be added and removed from a Chunked Array.
+
+## Record Batches
+
+A Record Batch is tabular data structure comprised of named Arrays, and an accompanying Schema that specifies the name and data type associated with each Array. Record Batches are a fundamental unit for data interchange in Arrow, but are not typically used for data analysis. Tables and Datasets are usually more convenient in analytic contexts.
+
+These Arrays can be of different types but must all be the same length. Each Array is referred to as one of the "fields" or "columns" of the Record Batch. You can create a Record Batch using the `record_batch()` function or by using the `RecordBatch$create()` method. These functions are flexible and can accept inputs in several formats: you can pass a data frame, one or more named vectors, an input stream, or even a raw vector containing appropriate binary data. For example:
+
+```{r}
+rb <- record_batch(
+  strs = string_array,
+  ints = integer_array,
+  dbls = c(1.1, 3.2, 0.2, NA, 11)
+)
+rb
+```
+
+This is a Record Batch containing 5 rows and 3 columns, and its conceptual structure is shown below:
+
+```{r, echo=FALSE, out.width="100%"}
+knitr::include_graphics("./record_batch.png")
+```
+
+The arrow package supplies a `$` method for Record Batch objects, used to extract a single column by name:
+
+```{r}
+rb$strs
+```
+
+You can use double brackets `[[` to refer to columns by position. The `rb$ints` array is the second column in our Record Batch so we can extract it with this:
+
+```{r}
+rb[[2]]
+```
+
+There is also `[` method that allows you to extract subsets of a record batch in the same way you would for a data frame. The command `rb[1:3, 1:2]` extracts the first three rows and the first two columns:
+
+```{r}
+rb[1:3, 1:2]
+```
+
+Record Batches cannot be concatenated: because they are comprised of Arrays, and Arrays are immutable objects, new rows cannot be added to Record Batch once created.
+
+## Tables
+
+A Table is comprised of named Chunked Arrays, in the same way that a Record Batch is comprised of named Arrays. Like Record Batches, Tables include an explicit Schema specifying the name and data type for each Chunked Array.
+
+You can subset Tables with `$`, `[[`, and `[` the same way you can for Record Batches. Unlike Record Batches, Tables can be concatenated (because they are comprised of Chunked Arrays). Suppose a second Record Batch arrives:
+
+```{r}
+new_rb <- record_batch(
+  strs = c("I", "love", "you"),
+  ints = c(5L, 0L, 0L),
+  dbls = c(7.1, -0.1, 2)
+)
+```
+
+It is not possible to create a Record Batch that appends the data from `new_rb` to the data in `rb`, not without creating entirely new objects in memory. With Tables, however, we can:
+
+```{r}
+df <- arrow_table(rb)
+new_df <- arrow_table(new_rb)
+```
+
+We now have the two fragments of the data set represented as Tables. The difference between the Table and the Record Batch is that the columns are all represented as Chunked Arrays. Each Array from the original Record Batch is one chunk in the corresponding Chunked Array in the Table:
+
+```{r}
+rb$strs
+df$strs
+```
+
+It's the same underlying data -- and indeed the same immutable Array is referenced by both -- just enclosed by a new, flexible Chunked Array wrapper. However, it is this wrapper that allows us to concatenate Tables:
+
+```{r}
+concat_tables(df, new_df)
+```
+
+The resulting object is shown schematically below:
+
+```{r, echo=FALSE, out.width="100%"}
+knitr::include_graphics("./table.png")
+```
+
+Notice that the Chunked Arrays within the new Table retain this chunking structure, because none of the original Arrays have been moved:
+
+```{r}
+df_both <- concat_tables(df, new_df)
+df_both$strs
+```
+
+
+## Datasets
+
+Like Record Batch and Table objects, a Dataset is used to represent tabular data. At an abstract level, a Dataset can be viewed as an object comprised of rows and columns, and just like Record Batches and Tables, it contains an explicit Schema that specifies the name and data type associated with each column.
+
+However, where Tables and Record Batches are data explicitly represented in-memory, a Dataset is not. Instead, a Dataset is an abstraction that refers to data stored on-disk in one or more files. Values stored in the data files are loaded into memory as a batched process. Loading takes place only as needed, and only when a query is executed against the data. In this respect Arrow Datasets are a very different kind of object to Arrow Tables, but the dplyr commands used to analyze them are essentially identical. In this section we'll talk about how Datasets are structured. If you want to learn more about the practical details of analyzing Datasets, see the article on [analyzing multi-file datasets](./dataset.html).
+
+### The on-disk data files
+
+Reduced to its simplest form, the on-disk structure of a Dataset is simply a collection of data files, each storing one subset of the data. These subsets are sometimes referred to as "fragments", and the partitioning process is sometimes referred to as "sharding". By convention, these files are organized into a folder structure called a Hive-style partition: see `hive_partition()` for details. 
+
+To illustrate how this works, let's write a multi-file dataset to disk manually, without using any of the Arrow Dataset functionality to do the work. We'll start with three small data frames, each of which contains one subset of the data we want to store: 
+
+```{r}
+df_a <- data.frame(id = 1:5, value = rnorm(5), subset = "a")
+df_b <- data.frame(id = 6:10, value = rnorm(5), subset = "b")
+df_c <- data.frame(id = 11:15, value = rnorm(5), subset = "c")
+```
+
+Our intention is that each of the data frames should be stored in a separate data file. As you can see, this is a quite structured partitioning: all data where `subset = "a"` belong to one file, all data where `subset = "b"` belong to another file, and all data where `subset = "c"` belong to the third file. 
+
+The first step is to define and create a folder that will hold all the files:
+
+```{r, include=FALSE}
+ds_dir <- "mini-dataset"
+if (dir.exists(ds_dir)) {
+  unlink(ds_dir, recursive = TRUE)
+}
+```
+
+```{r}
+ds_dir <- "mini-dataset"
+dir.create(ds_dir)
+```
+
+The next step is to manually create the Hive-style folder structure:
+
+```{r}
+ds_dir_a <- file.path(ds_dir, "subset=a")
+ds_dir_b <- file.path(ds_dir, "subset=b")
+ds_dir_c <- file.path(ds_dir, "subset=c")
+
+dir.create(ds_dir_a)
+dir.create(ds_dir_b)
+dir.create(ds_dir_c)
+```
+
+Notice that we have named each folder in a "key=value" format that exactly describes the subset of data that will be written into that folder. This naming structure is the essence of Hive-style partitions. 
+
+Now that we have the folders, we'll use `write_parquet()` to create a single parquet file for each of the three subsets:
+
+```{r}
+write_parquet(df_a, file.path(ds_dir_a, "part-0.parquet"))
+write_parquet(df_b, file.path(ds_dir_b, "part-0.parquet"))
+write_parquet(df_c, file.path(ds_dir_c, "part-0.parquet"))
+```
+
+If we had wanted to, we could have further subdivided the dataset. A folder could contain multiple files (`part-0.parquet`, `part-1.parquet`, etc) if we wanted it to. Similarly, there is no particular reason to name the files `part-0.parquet` this way at all: it would have been fine to call these files `subset-a.parquet`, `subset-b.parquet`, and `subset-c.parquet` if we had wished. We could have written other file formats if we wanted, and we don't necessarily have to use Hive-style folders. You can learn more about the supported formats by reading the help documentation for `open_dataset()`, and learn about how to exercise fine grained control with `help("Dataset", package = "arrow")`. 
+
+In any case, we have created an on-disk parquet Dataset using Hive-style partitioning. Our Dataset is defined by these files:
+
+```{r}
+list.files(ds_dir, recursive = TRUE)
+```
+
+To verify that everything has worked, let's open the data with `open_dataset()` and call `glimpse()` to inspect its contents:
+
+```{r}
+ds <- open_dataset(ds_dir)
+glimpse(ds)
+```
+
+As you can see, the `ds` Dataset object aggregates the three separate data files. In fact, in this particular case the Dataset is so small that values from all three files appear in the output of `glimpse()`.
+
+It should be noted that in everyday data analysis work, you wouldn't need to do write the data files manually in this fashion. The example above is entirely for illustrative purposes. The exact same dataset could be created with the following command:
+
+```{r, eval=FALSE}
+ds |>
+  group_by(subset) |>
+  write_dataset("mini-dataset")
+```
+
+In fact, even if `ds` happens to refer to a data source that is larger than memory, this command should still work because the Dataset functionality is written to ensure that during a pipeline such as this the data is loaded piecewise in order to avoid exhausting memory. 
+
+### The Dataset object
+
+In the previous section we examined the on-disk structure of a Dataset. We now turn to the in-memory structure of the Dataset object itself (i.e., `ds` in the previous example). When the Dataset object is created, arrow searches the dataset folder looking for appropriate files, but does not load the contents of those files. Paths to these files are stored in an active binding `ds$files`:
+
+```{r}
+ds$files
+```
+
+The other thing that happens when `open_dataset()` is called is that an explicit Schema for the Dataset is constructed and stored as `ds$schema`:
+
+```{r}
+ds$schema
+```
+
+By default this Schema is inferred by inspecting the first file only, though it is possible to construct a unified schema after inspecting all files. To do this, set `unify_schemas = TRUE` when calling `open_dataset()`. It is also possible to use the `schema` argument to `open_dataset()` to specify the Schema explicitly (see the `schema()` function for details). 
+
+The act of reading the data is performed by a Scanner object. When analyzing a Dataset using the dplyr interface you never need to construct a Scanner manually, but for explanatory purposes we'll do it here:
+
+```{r}
+scan <- Scanner$create(dataset = ds)
+```
+
+Calling the `ToTable()` method will materialize the Dataset (on-disk) as a Table (in-memory):
+
+```{r}
+scan$ToTable()
+```
+
+This scanning process is multi-threaded by default, but if necessary threading can be disabled by setting `use_threads = FALSE` when calling `Scanner$create()`.
+
+### Querying a Dataset
+
+When a query is executed against a Dataset a new scan is initiated and the results pulled back into R. As an example, consider the following dplyr expression:
+
+```{r}
+ds |>
+  filter(value > 0) |>
+  mutate(new_value = round(100 * value)) |>
+  select(id, subset, new_value) |>
+  collect()
+```
+
+We can replicate this using the low-level Dataset interface by creating a new scan by specifying the `filter` and `projection` arguments to `Scanner$create()`. To use these arguments you need to know a little about Arrow Expressions, for which you may find it helpful to read the help documentation in `help("Expression", package = "arrow")`. 
+
+The scanner defined below mimics the dplyr pipeline shown above,
+
+```{r}
+scan <- Scanner$create(
+  dataset = ds,
+  filter = Expression$field_ref("value") > 0,
+  projection = list(
+    id = Expression$field_ref("id"),
+    subset = Expression$field_ref("subset"),
+    new_value = Expression$create("round", 100 * Expression$field_ref("value"))
+  )
+)
+```
+
+and if we were to call `as.data.frame(scan$ToTable())` it would produce the same result as the dplyr version, though the rows may not appear in the same order. 
+
+To get a better sense of what happens when the query executes, what we'll do here is call `scan$ScanBatches()`. Much like the `ToTable()` method, the `ScanBatches()` method executes the query separately against each of the files, but it returns a list of Record Batches, one for each file. In addition, we'll convert these Record Batches to data frames individually:
+
+```{r}
+lapply(scan$ScanBatches(), as.data.frame)
+```
+
+If we return to the dplyr query we made earlier, and use `compute()` to return a Table rather use `collect()` to return a data frame, we can see the evidence of this process at work. The Table object is created by concatenating the three Record Batches produced when the query executes against three data files, and as a consequence of this the Chunked Array that defines a column of the Table mirrors the partitioning structure present in the data files:
+
+```{r}
+tbl <- ds |>
+  filter(value > 0) |>
+  mutate(new_value = round(100 * value)) |>
+  select(id, subset, new_value) |>
+  compute()
+
+tbl$subset
+```
+
+### Additional notes
+
+- A distinction ignored in the previous discussion is between `FileSystemDataset` and `InMemoryDataset` objects. In the usual case, the data that comprise a Dataset are stored in files on-disk. That is, after all, the primary advantage of Datasets over Tables. However, there are cases where it may be useful to make a Dataset from data that are already stored in-memory. In such cases the object created will have type `InMemoryDataset`. 
+
+- The previous discussion assumes that all files stored in the Dataset have the same Schema. In the usual case this will be true, because each file is conceptually a subset of a single rectangular table. But this is not strictly required.
+
+For more information about these topics, see `help("Dataset", package = "arrow")`.
+
+## Further reading 
+
+- To learn more about the internal structure of Arrays, see the article on [data object layout](./developers/data_object_layout.html).
+- To learn more about the different data types used by Arrow, see the article on [data types](./data_types.html).
+- To learn more about how Arrow objects are implemented, see the [Arrow specification](https://arrow.apache.org/docs/format/Columnar.html) page.
+
diff --git a/r/vignettes/data_types.Rmd b/r/vignettes/data_types.Rmd
new file mode 100644
index 00000000000..6cbe7c72e68
--- /dev/null
+++ b/r/vignettes/data_types.Rmd
@@ -0,0 +1,342 @@
+---
+title: "Data types"
+description: >
+  Learn about fundamental data types in Apache Arrow and how those 
+  types are mapped onto corresponding data types in R 
+output: rmarkdown::html_vignette
+---
+
+Arrow has a rich data type system that includes direct analogs of many R data types, and many data types that do not have a counterpart in R. This article describes the Arrow type system, compares it to R data types, and outlines the default mappings used when data are transferred from Arrow to R. At the end of the article there are two lookup tables: one describing the default "R to Arrow" type mappings and the other describing the "Arrow to R" mappings.
+
+## Motivating example
+
+To illustrate the conversion that needs to take place, consider the differences between the output when obtain we use `dplyr::glimpse()` to inspect the `starwars` data in its original format -- as a data frame in R -- and the output we obtain when we convert it to an Arrow Table first by calling `arrow_table()`:
+
+```{r}
+library(dplyr, warn.conflicts = FALSE)
+library(arrow, warn.conflicts = FALSE)
+
+glimpse(starwars)
+glimpse(arrow_table(starwars))
+```
+
+The data represented are essentially the same, but the descriptions of the data types for the columns have changed. For example:
+
+- `name` is labelled `<chr>` (character vector) in the data frame; it is labelled `<string>` (a string type, also referred to as utf8 type) in the Arrow Table 
+- `height` is labelled `<int>` (integer vector) in the data frame; it is labelled `<int32>` (32 bit signed integer) in the Arrow Table
+- `mass` is labelled `<dbl>` (numeric vector) in the data frame; it is labelled `<double>` (64 bit floating point number) in the Arrow Table
+
+Some of these differences are purely cosmetic: integers in R are in fact 32 bit signed integers, so the underlying data types in Arrow and R are direct analogs of one another. In other cases the differences are purely about the implementation: Arrow and R have different ways to store a vector of strings, but at a high level of abstraction the R character type and the Arrow string type can be viewed as direct analogs. In some cases, however, there are no clear analogs: while Arrow has an analog of POSIXct (the timestamp type) it does not have an analog of POSIXlt; conversely, while R can represent 32 bit signed integers, it does not have an equivalent of a 64 bit unsigned integer.
+
+When the arrow package converts between R data and Arrow data, it will first check to see if a Schema has been provided -- see `schema()` for more information -- and if none is available it will attempt to guess the appropriate type by following the default mappings. A complete listing of these mappings is provided at the end of the article, but the most common cases are depicted in the illustration below:
+
+```{r, echo=FALSE, out.width="100%"}
+knitr::include_graphics("./data_types.png")
+```
+
+In this image, black boxes refer to R data types and light blue boxes refer to Arrow data types. Directional arrows specify conversions (e.g., the bidirectional arrow between the logical R type and the boolean Arrow type means that R logicals convert to Arrow booleans and vice versa). Solid lines indicate that the this conversion rule is always the default; dashed lines mean that it only sometimes applies (the rules and special cases are described below). 
+
+## Logical/boolean types
+
+Arrow and R both use three-valued logic. In R, logical values can be `TRUE` or `FALSE`, with `NA` used to represent missing data. In Arrow, the corresponding boolean type can take values `true`, `false`, or `null`, as shown below:
+
+```{r}
+chunked_array(c(TRUE, FALSE, NA), type = boolean()) # default
+```
+
+It is not strictly necessary to set `type = boolean()` in this example because the default behavior in arrow is to translate R logical vectors to Arrow booleans and vice versa. However, for the sake of clarity we will specify the data types explicitly throughout this article. We will likewise use `chunked_array()` to create Arrow data from R objects and `as.vector()` to create R data from Arrow objects, but similar results are obtained if we use other methods. 
+
+## Integer types
+
+Base R natively supports only one type of integer, using 32 bits to represent signed numbers between -2147483648 and 2147483647, though R can also support 64 bit integers via the [`bit64`](https://cran.r-project.org/package=bit64) package. Arrow inherits signed and unsigned integer types from C++ in 8 bit, 16 bit, 32 bit, and 64 bit versions:
+
+| Description     | Data Type Function | Smallest Value       |        Largest Value |
+| --------------- | -----------------: | -------------------: | -------------------: |
+| 8 bit unsigned  | `uint8()`          | 0                    |                  255 |
+| 16 bit unsigned | `uint16()`         | 0                    |                65535 |
+| 32 bit unsigned | `uint32()`         | 0                    |           4294967295 |
+| 64 bit unsigned | `uint64()`         | 0                    | 18446744073709551615 |
+| 8 bit signed    | `int8()`           | -128                 |                  127 |
+| 16 bit signed   | `int16()`          | -32768               |                32767 |
+| 32 bit signed   | `int32()`          | -2147483648          |           2147483647 |
+| 64 bit signed   | `int64()`          | -9223372036854775808 |  9223372036854775807 |
+
+By default, arrow translates R integers to the int32 type in Arrow, but you can override this by explicitly specifying another integer type:
+
+```{r}
+chunked_array(c(10L, 3L, 200L), type = int32()) # default
+chunked_array(c(10L, 3L, 200L), type = int64())
+```
+
+If the value in R does not fall within the permissible range for the corresponding Arrow type, arrow throws an error:
+
+```{r, error=TRUE}
+chunked_array(c(10L, 3L, 200L), type = int8())
+```
+
+When translating from Arrow to R, integer types alway translate to R integers unless one of the following exceptions applies:
+
+- If the value of an Arrow uint32 or uint64 falls outside the range allowed for R integers, the result will be a numeric vector in R 
+- If the value of an Arrow int64 variable falls outside the range allowed for R integers, the result will be a `bit64::integer64` vector in R
+- If the user sets `options(arrow.int64_downcast = FALSE)`, the Arrow int64 type always yields a `bit64::integer64` vector in R regardless of the value
+
+## Floating point numeric types
+
+R has one double-precision (64 bit) numeric type, which translates to the Arrow 64 bit floating point type by default. Arrow supports both single-precision (32 bit) and double-precision (64 bit) floating point numbers, specified using the `float32()` and `float64()` data type functions. Both of these are translated to doubles in R. Examples are shown below:
+
+```{r}
+chunked_array(c(0.1, 0.2, 0.3), type = float64()) # default
+chunked_array(c(0.1, 0.2, 0.3), type = float32())
+
+arrow_double <- chunked_array(c(0.1, 0.2, 0.3), type = float64())
+as.vector(arrow_double)
+```
+
+Note that the Arrow specification also permits half-precision (16 bit) floating point numbers, but these have not yet been implemented. 
+
+## Fixed point decimal types
+
+Arrow also contains `decimal()` data types, in which numeric values are specified in decimal format rather than binary. Decimals in Arrow come in two varieties, a 128 bit version and a 256 bit version, but in most cases users should be able to use the more general `decimal()` data type function rather than the specific `decimal128()` and `decimal256()` functions. 
+
+The decimal types in Arrow are fixed-precision numbers (rather than floating-point), which means it is necessary to explicitly specify the `precision` and `scale` arguments:
+
+- `precision` specifies the number of significant digits to store.
+- `scale` specifies the number of digits that should be stored after the decimal point. If you set `scale = 2`, exactly two digits will be stored after the decimal point. If you set `scale = 0`, values will be rounded to the nearest whole number. Negative scales are also permitted (handy when dealing with extremely large numbers), so `scale = -2` stores the value to the nearest 100.
+
+Because R does not have any way to create decimal types natively, the example below is a little circuitous. First we create some floating point numbers as Chunked Arrays, and then explicitly cast these to decimal types within Arrow. This is possible because Chunked Array objects possess a `cast()` method:
+
+```{r}
+arrow_floating <- chunked_array(c(.01, .1, 1, 10, 100))
+arrow_decimals <- arrow_floating$cast(decimal(precision = 5, scale = 2))
+arrow_decimals
+```
+
+Though not natively used in R, decimal types can be useful in situations where it is especially important to avoid problems that arise in floating point arithmetic.
+
+## String/character types
+
+R uses a single character type to represent strings whereas Arrow has two types. In the Arrow C++ library these types are referred to as strings and large_strings, but to avoid ambiguity in the arrow R package they are defined using the `utf8()` and `large_utf8()` data type functions. The distinction between these two Arrow types is unlikely to be important for R users, though the difference is discussed in the article on [data object layout](./developers/data_object_layout.html). 
+
+The default behavior is to translate R character vectors to the utf8/string type, and to translate both Arrow types to R character vectors:
+
+```{r}
+strings <- chunked_array(c("oh", "well", "whatever"))
+strings
+as.vector(strings)
+```
+
+## Factor/dictionary types
+
+The analog of R factors in Arrow is the dictionary type. Factors translate to dictionaries and vice versa. To illustrate this, let's create a small factor object in R:
+
+```{r}
+fct <- factor(c("cat", "dog", "pig", "dog"))
+fct
+```
+
+When translated to Arrow, this is the dictionary that results:
+
+```{r}
+dict <- chunked_array(fct, type = dictionary())
+dict
+```
+
+When translated back to R, we recover the original factor:
+
+```{r}
+as.vector(dict)
+```
+
+Arrow dictionaries are slightly more flexible than R factors: values in a dictionary do not necessarily have to be strings, but labels in a factor do. As a consequence, non-string values in an Arrow dictionary are coerced to strings when translated to R.
+
+## Date types
+
+In R, dates are typically represented using the Date class. Internally a Date object is a numeric type whose value counts the number of days since the beginning of the Unix epoch (1 January 1970). Arrow supplies two data types that can be used to represent dates: the date32 type and the date64 type. The date32 type is similar to the Date class in R: internally it stores a 32 bit integer that counts the number of days since 1 January 1970. The default in arrow is to translate R Date objects to Arrow date32 types:
+
+```{r}
+nirvana_album_dates <- as.Date(c("1989-06-15", "1991-09-24", "1993-09-13"))
+nirvana_album_dates
+nirvana_32 <- chunked_array(nirvana_album_dates, type = date32()) # default
+nirvana_32
+```
+
+Arrow also supplies a higher-precision date64 type, in which the date is represented as a 64 bit integer that encodes the number of *milliseconds* since 1970-01-01 00:00 UTC:
+
+```{r}
+nirvana_64 <- chunked_array(nirvana_album_dates, type = date64())
+nirvana_64
+```
+
+The translation from Arrow to R differs. Internally the date32 type is very similar to an R Date, so these objects are translated to R as Dates:
+
+```{r}
+class(as.vector(nirvana_32))
+```
+
+However, because date64 types are specified to millisecond-level precision, they are translated to R as POSIXct times to avoid the possibility of losing relevant information:
+
+```{r}
+class(as.vector(nirvana_64))
+```
+
+## Temporal/timestamp types
+
+In R there are two classes used to represent date and time information, POSIXct and POSIXlt. Arrow only has one: the timestamp type. Arrow timestamps are loosely analogous to the POSIXct class. Internally, a POSIXct object represents the date with as a numeric variable that stores the number of seconds since 1970-01-01 00:00 UTC. Internally, an Arrow timestamp is a 64 bit integer counting the number of milliseconds since 1970-01-01 00:00 UTC.
+
+Arrow and R both support timezone information, but display it differently in the printed object. In R, local time is printed with the timezone name adjacent to it:
+
+```{r}
+sydney_newyear <- as.POSIXct("2000-01-01 00:01", tz = "Australia/Sydney")
+sydney_newyear
+```
+
+When translated to Arrow, this POSIXct object becomes an Arrow timestamp object. When printed, however, the temporal instant is always displayed in UTC rather than local time:
+
+```{r}
+sydney_newyear_arrow <- chunked_array(sydney_newyear, type = timestamp())
+sydney_newyear_arrow
+```
+
+The timezone information is not lost, however, which we can easily see by translating the `sydney_newyear_arrow` object back to an R POSIXct object:
+
+```{r}
+as.vector(sydney_newyear_arrow)
+```
+
+For POSIXlt objects the behaviour is different. Internally a POSIXlt object is a list specifying the "local time" in terms of a variety of human-relevant fields. There is no analogous class to this in Arrow, so the default behaviour is to translate it to an Arrow list.
+
+## Time of day types
+
+Base R does not have a class to represent the time of day independent of the date (i.e., it is not possible to specify "3pm" without referring to a specific day), but it can be done with the help of the [`hms`](https://hms.tidyverse.org/) package. Internally, hms objects are always stored as the number of seconds since 00:00:00. 
+
+Arrow has two data types for this purposes. For time32 types, data are stored as a 32 bit integer that is interpreted either as the number of seconds or the number of milliseconds since 00:00:00. Note the difference between the following:
+
+```{r}
+time_of_day <- hms::hms(56, 34, 12)
+chunked_array(time_of_day, type = time32(unit = "s"))
+chunked_array(time_of_day, type = time32(unit = "ms"))
+```
+
+A time64 object is similar, but stores the time of day using a 64 bit integer and can represent the time at higher precision. It is possible to choose microseconds (`unit = "us"`) or nanoseconds (`unit = "ns"`), as shown below:
+
+```{r}
+chunked_array(time_of_day, type = time64(unit = "us"))
+chunked_array(time_of_day, type = time64(unit = "ns"))
+```
+
+All versions of time32 and time64 objects in Arrow translate to hms times in R. 
+
+## Duration types
+
+Lengths of time are represented as difftime objects in R. The analogous data type in Arrow is the duration type. A duration type is stored as a 64 bit integer, which can represent the number of seconds (the default, `unit = "s"`), milliseconds (`unit = "ms"`), microseconds (`unit = "us"`), or nanoseconds (`unit = "ns"`). To illustrate this we'll create a difftime in R corresponding to 278 seconds:
+
+```{r}
+len <- as.difftime(278, unit = "secs")
+len
+```
+
+The translation to Arrow looks like this:
+
+```{r}
+chunked_array(len, type = duration(unit = "s")) # default
+chunked_array(len, type = duration(unit = "ns"))
+```
+
+Regardless of the underlying unit, duration objects in Arrow translate to difftime objects in R. 
+
+
+## List of default translations
+
+The discussion above covers the most common cases. The two tables in this section provide a more complete list of how arrow translates between R data types and Arrow data types. In these table, entries with a `-` are not currently implemented.
+
+### Translations from R to Arrow
+
+| Original R type          | Arrow type after translation |
+|--------------------------|------------------------------|
+| logical                  | boolean                      |
+| integer                  | int32                        |
+| double ("numeric")       | float64 ^1^                  |
+| character                | utf8 ^2^                     |
+| factor                   | dictionary                   |
+| raw                      | uint8                        |
+| Date                     | date32                       |
+| POSIXct                  | timestamp                    |
+| POSIXlt                  | struct                       |
+| data.frame               | struct                       |
+| list ^3^                 | list                         |
+| bit64::integer64         | int64                        |
+| hms::hms                 | time32                       |
+| difftime                 | duration                     |
+| vctrs::vctrs_unspecified | null                         |
+
+
+^1^: `float64` and `double` are the same concept and data type in Arrow C++; 
+however, only `float64()` is used in arrow as the function `double()` already 
+exists in base R
+
+^2^: If the character vector exceeds 2GB of strings, it will be converted to a 
+`large_utf8` Arrow type
+
+^3^: Only lists where all elements are the same type are able to be translated 
+to Arrow list type (which is a "list of" some type).
+
+### Translations from Arrow to R
+
+| Original Arrow type | R type after translation     |
+|---------------------|------------------------------|
+| boolean             | logical                      |
+| int8                | integer                      |
+| int16               | integer                      |
+| int32               | integer                      |
+| int64               | integer ^1^                  |
+| uint8               | integer                      |
+| uint16              | integer                      |
+| uint32              | integer ^1^                  |
+| uint64              | integer ^1^                  |
+| float16             | - ^2^                        |
+| float32             | double                       |
+| float64             | double                       |
+| utf8                | character                    |
+| large_utf8          | character                    |
+| binary              | arrow_binary ^3^             |
+| large_binary        | arrow_large_binary ^3^       |
+| fixed_size_binary   | arrow_fixed_size_binary ^3^  |
+| date32              | Date                         |
+| date64              | POSIXct                      |
+| time32              | hms::hms                     |
+| time64              | hms::hms                     |
+| timestamp           | POSIXct                      |
+| duration            | difftime                     |
+| decimal             | double                       |
+| dictionary          | factor ^4^                   |
+| list                | arrow_list ^5^               |
+| large_list          | arrow_large_list ^5^         |
+| fixed_size_list     | arrow_fixed_size_list ^5^    |
+| struct              | data.frame                   |
+| null                | vctrs::vctrs_unspecified     |
+| map                 | arrow_list ^5^               |
+| union               | - ^2^                       |
+
+^1^: These integer types may contain values that exceed the range of R's 
+`integer` type (32 bit signed integer). When they do, `uint32` and `uint64` are 
+converted to `double` ("numeric") and `int64` is converted to 
+`bit64::integer64`. This conversion can be disabled (so that `int64` always
+yields a `bit64::integer64` vector) by setting `options(arrow.int64_downcast = FALSE)`.
+
+^2^: Some Arrow data types do not currently have an R equivalent and will raise an error
+if cast to or mapped to via a schema.
+
+^3^: `arrow*_binary` classes are implemented as lists of raw vectors. 
+
+^4^: Due to the limitation of R factors, Arrow `dictionary` values are coerced
+to string when translated to R if they are not already strings.
+
+^5^: `arrow*_list` classes are implemented as subclasses of `vctrs_list_of` 
+with a `ptype` attribute set to what an empty Array of the value type converts to. 
+
+
+
+## Further reading 
+
+- To learn more how data types are specified through `schema()` metadata, see the [metadata article](./metadata.html).
+- For additional details on data types, see the [data types article](./data_types.html).
diff --git a/r/vignettes/data_types.png b/r/vignettes/data_types.png
new file mode 100644
index 00000000000..9ef50b7a068
Binary files /dev/null and b/r/vignettes/data_types.png differ
diff --git a/r/vignettes/data_wrangling.Rmd b/r/vignettes/data_wrangling.Rmd
new file mode 100644
index 00000000000..129f462eced
--- /dev/null
+++ b/r/vignettes/data_wrangling.Rmd
@@ -0,0 +1,172 @@
+---
+title: "Data analysis with dplyr syntax"
+description: >
+  Learn how to use the dplyr backend supplied by arrow 
+output: rmarkdown::html_vignette
+---
+
+The arrow package provides functionality allowing users to manipulate tabular Arrow data (`Table` and `Dataset` objects) with familiar `{dplyr}` syntax. To enable this functionality, ensure that the arrow and dplyr packages are both loaded. In this article we will take the `starwars` data set included in dplyr, convert it to an Arrow Table, and then analyze this data. Note that, although these examples all use an in-memory `Table` object, the same functionality works for an on-disk `Dataset` object with only minor differences in behavior (documented later in the article).
+
+To get started let's load the packages and create the data:
+
+```{r}
+library(dplyr, warn.conflicts = FALSE)
+library(arrow, warn.conflicts = FALSE)
+
+sw <- arrow_table(starwars, as_data_frame = FALSE)
+```
+
+## One-table dplyr verbs
+
+The arrow package provides support for the dplyr one-table verbs, allowing users to construct data analysis pipelines in a familiar way. The example below shows the use of `filter()`, `rename()`, `mutate()`, `arrange()` and `select()`:
+
+```{r}
+result <- sw %>%
+  filter(homeworld == "Tatooine") %>%
+  rename(height_cm = height, mass_kg = mass) %>%
+  mutate(height_in = height_cm / 2.54, mass_lbs = mass_kg * 2.2046) %>%
+  arrange(desc(birth_year)) %>%
+  select(name, height_in, mass_lbs)
+```
+
+It is important to note that arrow uses lazy evaluation to delay computation until the result is explicitly requested. This speeds up processing by enabling the Arrow C++ library to perform multiple computations in one operation. As a consequence of this design choice, we have not yet performed computations on the `sw` data. The `result` variable is an object with class `arrow_dplyr_query` that represents all the computations to be performed:
+
+```{r}
+result
+```
+
+To perform these computations and materialize the result, we call
+`compute()` or `collect()`. The difference between the two determines what kind of object will be returned. Calling `compute()` returns an Arrow Table, suitable for passing to other arrow or dplyr functions:
+
+```{r}
+compute(result)
+```
+
+In contrast, `collect()` returns an R data frame, suitable for viewing or passing to other R functions for analysis or visualization:
+
+```{r}
+collect(result)
+```
+
+The arrow package has broad support for single-table dplyr verbs, including those that compute aggregates. For example, it supports `group_by()` and `summarize()`, as well as commonly-used convenience functions such as `count()`:
+
+```{r}
+sw %>%
+  group_by(species) %>%
+  summarize(mean_height = mean(height, na.rm = TRUE)) %>%
+  collect()
+
+sw %>%
+  count(gender) %>%
+  collect()
+```
+
+Note, however, that window functions such as `ntile()` are not yet supported. 
+
+## Two-table dplyr verbs
+
+Equality joins (e.g. `left_join()`, `inner_join()`) are supported for joining multiple tables. This is illustrated below:
+
+```{r}
+jedi <- data.frame(
+  name = c("C-3PO", "Luke Skywalker", "Obi-Wan Kenobi"),
+  jedi = c(FALSE, TRUE, TRUE)
+)
+
+sw %>%
+  select(1:3) %>%
+  right_join(jedi) %>%
+  collect()
+```
+
+## Expressions within dplyr verbs
+
+Inside dplyr verbs, Arrow offers support for many functions and operators, with common functions mapped to their base R and tidyverse equivalents: you can find a [list of supported functions within dplyr queries](../reference/acero.html) in the function documentation. If there are additional functions you would like to see implemented, please file an issue as described in the [Getting help](https://arrow.apache.org/docs/r/#getting-help) guidelines.
+
+## Registering custom bindings
+
+The arrow package makes it possible for users to supply bindings for custom functions in some situations using `register_scalar_function()`. To operate correctly, the to-be-registered function must have `context` as its first argument, as required by the query engine. For example, suppose we wanted to implement a function that converts a string to snake case (a greatly simplified version of `janitor::make_clean_names()`). The function could be written as follows:
+
+```{r}
+to_snake_name <- function(context, string) {
+  replace <- c(`'` = "", `"` = "", `-` = "", `\\.` = "_", ` ` = "_")
+  string %>%
+    stringr::str_replace_all(replace) %>%
+    stringr::str_to_lower() %>%
+    stringi::stri_trans_general(id = "Latin-ASCII")
+}
+```
+
+To call this within an arrow/dplyr pipeline, it needs to be registered:
+
+```{r}
+register_scalar_function(
+  name = "to_snake_name",
+  fun = to_snake_name,
+  in_type = utf8(),
+  out_type = utf8(),
+  auto_convert = TRUE
+)
+```
+
+In this expression, the `name` argument specifies the name by which it will be recognized in the context of the arrow/dplyr pipeline and `fun` is the function itself. The `in_type` and `out_type` arguments are used to specify the expected data type for the input and output, and `auto_convert` specifies whether arrow should automatically convert any R inputs to their Arrow equivalents. 
+
+Once registered, the following works:
+
+```{r}
+sw %>%
+  mutate(name, snake_name = to_snake_name(name), .keep = "none") %>%
+  collect()
+```
+
+To learn more, see `help("register_scalar_function", package = "arrow")`. 
+
+## Handling unsupported expressions
+
+For dplyr queries on Table objects, which are held in memory and should
+usually be representable as data frames, if the arrow package detects
+an unimplemented function within a dplyr verb, it automatically calls
+`collect()` to return the data as an R data frame before processing
+that dplyr verb. As an example, neither `lm()` nor `residuals()` are 
+implemented, so if we write code that computes the residuals for a
+linear regression model, this automatic collection takes place:
+
+```{r}
+sw %>%
+  filter(!is.na(height), !is.na(mass)) %>%
+  transmute(name, height, mass, res = residuals(lm(mass ~ height)))
+```
+
+For queries on `Dataset` objects -- which can be larger
+than memory -- arrow is more conservative and always raises an
+error if it detects an unsupported expression. To illustrate this 
+behavior, we can write the `starwars` data to disk and then open
+it as a Dataset. When we use the same pipeline on the Dataset, 
+we obtain an error:
+
+```{r, error=TRUE}
+# write and open starwars dataset
+dataset_path <- tempfile()
+write_dataset(starwars, dataset_path)
+sw2 <- open_dataset(dataset_path)
+
+# dplyr pipeline with unsupported expressions
+sw2 %>%
+  filter(!is.na(height), !is.na(mass)) %>%
+  transmute(name, height, mass, res = residuals(lm(mass ~ height)))
+```
+
+Calling `collect()` in the middle of the pipeline fixes the issue:
+
+```{r}
+sw2 %>%
+  filter(!is.na(height), !is.na(mass)) %>%
+  collect() %>%
+  transmute(name, height, mass, res = residuals(lm(mass ~ height)))
+```
+
+## Further reading
+
+- To learn more about multi-file datasets, see the [dataset article](./dataset.html).
+- To learn more about user-registered functions, see `help("register_scalar_function", package = "arrow")`.
+- To learn more about writing dplyr bindings as an arrow developer, see the [article on writing bindings](./developers/writing_bindings.html). 
diff --git a/r/vignettes/dataset.Rmd b/r/vignettes/dataset.Rmd
index 1a969f979c6..57e28fc71e5 100644
--- a/r/vignettes/dataset.Rmd
+++ b/r/vignettes/dataset.Rmd
@@ -1,120 +1,66 @@
 ---
-title: "Working with Arrow Datasets and dplyr"
+title: "Working with multi-file data sets"
+description: >
+  Learn how to use Datasets to read, write, and analyze 
+  multi-file larger-than-memory data
 output: rmarkdown::html_vignette
-vignette: >
-  %\VignetteIndexEntry{Working with Arrow Datasets and dplyr}
-  %\VignetteEngine{knitr::rmarkdown}
-  %\VignetteEncoding{UTF-8}
 ---
 
-Apache Arrow lets you work efficiently with large, multi-file datasets.
-The arrow R package provides a [dplyr](https://dplyr.tidyverse.org/) interface to Arrow Datasets,
-and other tools for interactive exploration of Arrow data.
+Apache Arrow lets you work efficiently with single and multi-file data sets even when that data set is too large to be loaded into memory. With the help of Arrow Dataset objects you can analyze this kind of data using familiar  [dplyr](https://dplyr.tidyverse.org/) syntax. This article introduces Datasets and shows you how to analyze them with dplyr and arrow: we'll start by ensuring both packages are loaded
 
-This vignette introduces Datasets and shows how to use dplyr to analyze them.
+```{r}
+library(arrow, warn.conflicts = FALSE)
+library(dplyr, warn.conflicts = FALSE)
+```
 
 ## Example: NYC taxi data
 
-The [New York City taxi trip record data](https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page)
-is widely used in big data exercises and competitions.
-For demonstration purposes, we have hosted a Parquet-formatted version
-of about ten years of the trip data in a public Amazon S3 bucket.
+The primary motivation for Arrow's Datasets object is to allow users to analyze extremely large datasets. As an example, consider the [New York City taxi trip record data](https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page) that is widely used in big data exercises and competitions. To demonstrate the capabilities of Apache Arrow we host a Parquet-formatted version this data in a public Amazon S3 bucket: in its full form, our version of the data set is one very large table with about 1.7 billion rows and 24 columns, where each row corresponds to a single taxi ride sometime between 2009 and 2022. A [data dictionary](https://arrow-user2022.netlify.app/packages-and-data.html#data) for this version of the NYC taxi data is also available. 
 
-The total file size is around 37 gigabytes, even in the efficient Parquet file
-format. That's bigger than memory on most people's computers, so you can't just
-read it all in and stack it into a single data frame.
+This multi-file data set is comprised of 158 distinct Parquet files, each corresponding to a month of data. A single file is typically around 400-500MB in size, and the full data set is about 70GB in size. It is not a small data set -- it is slow to download and does not fit in memory on a typical machine 🙂  -- so we also host a "tiny" version of the NYC taxi data that is formatted in exactly the same way but includes only one out of every thousand entries in the original data set (i.e., individual files are <1MB in size, and the "tiny" data set is only 70MB) 
 
-In Windows (for R > 3.6) and macOS binary packages, S3 support is included.
-On Linux, when installing from source, S3 support is not enabled by default,
-and it has additional system requirements.
-See `vignette("install", package = "arrow")` for details.
-To see if your arrow installation has S3 support, run:
+If you have Amazon S3 support enabled in arrow (true for most users; see links at the end of this article if you need to troubleshoot this), you can connect to a copy of the "tiny taxi data" stored on S3 with this command:
 
-```{r}
-arrow::arrow_with_s3()
+```r
+bucket <- s3_bucket("voltrondata-labs-datasets/nyc-taxi-tiny")
 ```
 
-Even with S3 support enabled, network speed will be a bottleneck unless your
-machine is located in the same AWS region as the data. So, for this vignette,
-we assume that the NYC taxi dataset has been downloaded locally in an "nyc-taxi"
-directory.
-
-### Retrieving data from a public Amazon S3 bucket
-
-If your arrow build has S3 support, you can sync the data locally with:
-
-```{r, eval = FALSE}
-arrow::copy_files("s3://voltrondata-labs-datasets/nyc-taxi", "nyc-taxi")
-# Alternatively, with GCS:
-arrow::copy_files("gs://voltrondata-labs-datasets/nyc-taxi", "nyc-taxi")
-```
+Alternatively you could connect to a copy of the data on Google Cloud Storage (GCS) using the following command:
 
-If your arrow build doesn't have S3 support, you can download the files
-with the additional code shown below.  Since these are large files, 
-you may need to increase R's download timeout from the default of 60 seconds, e.g.
-`options(timeout = 300)`.
-
-```{r, eval = FALSE}
-bucket <- "https://voltrondata-labs-datasets.s3.us-east-2.amazonaws.com"
-for (year in 2009:2019) {
-  if (year == 2019) {
-    # We only have through June 2019 there
-    months <- 1:6
-  } else {
-    months <- 1:12
-  }
-  for (month in sprintf("%02d", months)) {
-    dir.create(file.path("nyc-taxi", year, month), recursive = TRUE)
-    try(download.file(
-      paste(bucket, "nyc-taxi", paste0("year=", year), paste0("month=", month), "data.parquet", sep = "/"),
-      file.path("nyc-taxi", paste0("year=", year), paste0("month=", month), "data.parquet"),
-      mode = "wb"
-    ), silent = TRUE)
-  }
-}
+```r
+bucket <- gs_bucket("voltrondata-labs-datasets/nyc-taxi-tiny", anonymous = TRUE)
 ```
 
-Note that these download steps in the vignette are not executed: if you want to run
-with live data, you'll have to do it yourself separately.
-Given the size, if you're running this locally and don't have a fast connection,
-feel free to grab only a year or two of data.
+If you want to use the full data set, replace `nyc-taxi-tiny` with `nyc-taxi` in the code above. Apart from size -- and with it the cost in time, bandwidth usage, and CPU cycles -- there is no difference in the two versions of the data: you can test your code using the tiny taxi data and then check how it scales using the full data set.
 
-If you don't have the taxi data downloaded, the vignette will still run and will
-yield previously cached output for reference. To be explicit about which version
-is running, let's check whether you're running with live data:
+To make a local copy of the data set stored in the `bucket` to a folder called `"nyc-taxi"`, use the `copy_files()` function:
 
-```{r}
-dir.exists("nyc-taxi")
+```r
+copy_files(from = bucket, to = "nyc-taxi")
 ```
 
-## Opening the dataset
+For the purposes of this article, we assume that the NYC taxi dataset (either the full data or the tiny version) has been downloaded locally and exists in an `"nyc-taxi"` directory. 
 
-Because dplyr is not necessary for many Arrow workflows,
-it is an optional (`Suggests`) dependency. So, to work with Datasets,
-you need to load both arrow and dplyr.
+## Opening Datasets
 
-```{r}
-library(arrow, warn.conflicts = FALSE)
-library(dplyr, warn.conflicts = FALSE)
-```
-
-The first step is to create a Dataset object, pointing at the directory of data.
+The first step in the process is to create a Dataset object that points at the data directory:
 
 ```{r, eval = file.exists("nyc-taxi")}
 ds <- open_dataset("nyc-taxi")
 ```
 
-The file format for `open_dataset()` is controlled by the `format` parameter, 
-which has a default value of `"parquet"`.  If you had a directory
-of Arrow format files, you could instead specify `format = "arrow"` in the call.
+It is important to note that when we do this, the data values are not loaded into memory. Instead, Arrow scans the data directory to find relevant files, parses the file paths looking for a "Hive-style partitioning" (see below), and reads headers of the data files to construct a Schema that contains metadata describing the structure of the data. For more information about Schemas see the [metadata article](./metadata.html).
+
+Two questions naturally follow from this: what kind of files does `open_dataset()` look for, and what structure does it expect to find in the file paths? Let's start by looking at the file types.
 
-Other supported formats include: 
+By default `open_dataset()` looks for Parquet files but you can override this using the `format` argument. For example if the data were encoded as CSV files we could set `format = "csv"` to connect to the data. The Arrow Dataset interface supports several file formats including: 
 
-* `"feather"` or `"ipc"` (aliases for `"arrow"`, as Feather v2 is the Arrow file format)
+* `"parquet"` (the default)
+* `"feather"` or `"ipc"` (aliases for `"arrow"`; as Feather version 2 is the Arrow file format)
 * `"csv"` (comma-delimited files) and `"tsv"` (tab-delimited files)
 * `"text"` (generic text-delimited files - use the `delimiter` argument to specify which to use)
 
-For text files, you can pass the following parsing options to `open_dataset()`:
+In the case of text files, you can pass the following parsing options to `open_dataset()` to ensure that files are read correctly:
 
 * `delim`
 * `quote`
@@ -122,35 +68,33 @@ For text files, you can pass the following parsing options to `open_dataset()`:
 * `escape_backslash`
 * `skip_empty_rows`
 
-For more information on the usage of these parameters, see `?read_delim_arrow()`.
+For more information on these arguments and on parsing delimited text files generally, see the help documentation for `read_delim_arrow()`.
 
-`open_dataset()` was able to automatically infer column values for `year` and `month`
---which are not present in the data files--based on the directory structure. The 
-Hive-style partitioning structure is self-describing, with file paths like
+Next, what information does `open_dataset()` expect to find in the file paths? By default, the Dataset interface looks for  [Hive](https://hive.apache.org/)-style partitioning structure in which folders are named using a "key=value" convention, and data files in a folder contain the subset of the data for which the key has the relevant value. For example, in the NYC taxi data file paths look like this:
 
 ```
-year=2009/month=1/data.parquet
-year=2009/month=2/data.parquet
+year=2009/month=1/part-0.parquet
+year=2009/month=2/part-0.parquet
 ...
 ```
 
-But sometimes the directory partitioning isn't self describing; that is, it doesn't
-contain field names. For example, if instead we had file paths like
+From this, `open_dataset()` infers that the first listed Parquet file contains the data for January 2009. In that sense, a hive-style partitioning is self-describing: the folder names state explicitly how the Dataset has been split across files.
+
+Sometimes the directory partitioning isn't self describing; that is, it doesn't contain field names. For example, suppose the NYC taxi data used file paths like these:
 
 ```
-2009/01/data.parquet
-2009/02/data.parquet
+2009/01/part-0.parquet
+2009/02/part-0.parquet
 ...
 ```
 
-then `open_dataset()` would need some hints as to how to use the file paths. In this
-case, you could provide `c("year", "month")` to the `partitioning` argument, 
-saying that the first path segment gives the value for `year`, and the second 
-segment is `month`. Every row in `2009/01/data.parquet` has a value of 2009 for `year`
-and 1 for `month`, even though those columns may not be present in the file.
+In that case, `open_dataset()` would need some hints as to how to use the file paths. In this case, you could provide `c("year", "month")` to the `partitioning` argument, saying that the first path segment gives the value for `year`, and the second segment is `month`. Every row in `2009/01/part-0.parquet` has a value of 2009 for `year` and 1 for `month`, even though those columns may not be present in the file. In other words, we would open the data like this:
 
-In either case, when you look at the dataset, you can see that in addition to the columns present
-in every file, there are also columns `year` and `month` even though they are not present in the files themselves.
+```r
+ds <- open_dataset("nyc-taxi", partitioning = c("year", "month"))
+```
+
+Either way, when you look at the Dataset, you can see that in addition to the columns present in every file, there are also columns `year` and `month`. These columns are not present in the files themselves: they are inferred from the partitioning structure.
 
 ```{r, eval = file.exists("nyc-taxi")}
 ds
@@ -185,48 +129,9 @@ month: int32
 ")
 ```
 
-The other form of partitioning currently supported is [Hive](https://hive.apache.org/)-style,
-in which the partition variable names are included in the path segments.
-If you had saved your files in paths like:
-
-```
-year=2009/month=01/data.parquet
-year=2009/month=02/data.parquet
-...
-```
-
-you would not have had to provide the names in `partitioning`;
-you could have just called `ds <- open_dataset("nyc-taxi")` and the partitions
-would have been detected automatically.
+## Querying Datasets
 
-## Querying the dataset
-
-Up to this point, you haven't loaded any data. You've walked directories to find
-files, you've parsed file paths to identify partitions, and you've read the
-headers of the Parquet files to inspect their schemas so that you can make sure
-they all are as expected.
-
-In the current release, arrow supports the dplyr verbs:
-
- * `mutate()` and `transmute()`,
- * `select()`, `rename()`, and `relocate()`,
- * `filter()`,
- * `arrange()`,
- * `union()` and `union_all()`,
- * `left_join()`, `right_join()`, `full_join()`, `inner_join()`, and `anti_join()`,
- * `group_by()` and `summarise()`.
-
-At any point in a chain, you can use `collect()` to pull the selected subset of
-the data into an in-memory R data frame. 
-
-Suppose you attempt to call unsupported dplyr verbs or unimplemented functions
-in your query on an Arrow Dataset. In that case, the arrow package raises an error. However,
-for dplyr queries on Arrow Table objects (which are already in memory), the
-package automatically calls `collect()` before processing that dplyr verb.
-
-Here's an example: suppose that you are curious about tipping behavior among the
-longest taxi rides. Let's find the median tip percentage for rides with
-fares greater than $100 in 2015, broken down by the number of passengers:
+Now that we have a Dataset object that refers to our data, we can construct dplyr-style queries. This is possible because arrow supplies a back end that allows users to manipulate tabular Arrow data using dplyr verbs. Here's an example: suppose you are curious about tipping behavior in the longest taxi rides. Let's find the median tip percentage for rides with fares greater than $100 in 2015, broken down by the number of passengers:
 
 ```{r, eval = file.exists("nyc-taxi")}
 system.time(ds %>%
@@ -263,12 +168,11 @@ cat("
 ")
 ```
 
-You've just selected a subset out of a dataset with around 2 billion rows, computed
-a new column, and aggregated it in a few seconds on a modern laptop. How does
-this work?
+You've just selected a subset from a Dataset that contains around 2 billion rows, computed a new column, and aggregated it. All within a few seconds on a modern laptop. How does this work? 
+
+There are three reasons arrow can accomplish this task so quickly:
 
-First, the dplyr verbs on the dataset record their actions but don't evaluate on
-the data until you run `collect()`.
+First, arrow adopts a lazy evaluation approach to queries: when dplyr verbs are called on the Dataset, they record their actions but do not evaluate those actions on the data until you run `collect()`. We can see this by taking the same code as before and leaving off the final step:
 
 ```{r, eval = file.exists("nyc-taxi")}
 ds %>%
@@ -293,33 +197,23 @@ See $.data for the source Arrow object
 ")
 ```
 
-This code returns an output instantly and shows the manipulations you've made, without
-loading data from the files. Because the evaluation of these queries is deferred,
-you can build up a query that selects down to a small subset without generating
-intermediate datasets that would potentially be large.
+This version of the code returns an output instantly and shows the manipulations you've made, without loading data from the files. Because the evaluation of these queries is deferred, you can build up a query that selects down to a small subset without generating intermediate data sets that could potentially be large. 
 
-Second, all work is pushed down to the individual data files,
-and depending on the file format, chunks of data within the files. As a result,
-you can select a subset of data from a much larger dataset by collecting the
-smaller slices from each file—you don't have to load the whole dataset in 
-memory to slice from it.
+Second, all work is pushed down to the individual data files, and depending on the file format, chunks of data within files. As a result, you can select a subset of data from a much larger data set by collecting the smaller slices from each file: you don't have to load the whole data set in memory to slice from it.
 
-Third, because of partitioning, you can ignore some files entirely.
-In this example, by filtering `year == 2015`, all files corresponding to other years
-are immediately excluded: you don't have to load them in order to find that no
-rows match the filter. Relatedly, since Parquet files contain row groups with
-statistics on the data within, there may be entire chunks of data you can
-avoid scanning because they have no rows where `total_amount > 100`.
+Third, because of partitioning, you can ignore some files entirely. In this example, by filtering `year == 2015`, all files corresponding to other years are immediately excluded: you don't have to load them in order to find that no rows match the filter. For Parquet files -- which contain row groups with statistics on the data contained within groups -- there may be entire chunks of data you can avoid scanning because they have no rows where `total_amount > 100`.
 
-### Processing data in batches
+One final thing to note about querying Datasets. Suppose you attempt to call unsupported dplyr verbs or unimplemented functions in your query on an Arrow Dataset. In that case, the arrow package raises an error. However, for dplyr queries on Arrow Table objects (which are already in-memory), the package automatically calls `collect()` before processing that dplyr verb. To learn more about the dplyr back end, see the [data wrangling article](./data_wrangling.html).
 
-Sometimes you want to run R code on the entire dataset, but that dataset is much
-larger than memory. You can use `map_batches` on a dataset query to process
+## Batch processing (experimental)
+
+Sometimes you want to run R code on the entire Dataset, but that Dataset is much
+larger than memory. You can use `map_batches` on a Dataset query to process
 it batch-by-batch.
 
 **Note**: `map_batches` is experimental and not recommended for production use.
 
-As an example, to randomly sample a dataset, use `map_batches` to sample a 
+As an example, to randomly sample a Dataset, use `map_batches` to sample a 
 percentage of rows from each batch:
 
 ```{r, eval = file.exists("nyc-taxi")}
@@ -343,10 +237,10 @@ tibble [10,918 × 4] (S3: tbl_df/tbl/data.frame)
 ")
 ```
 
-This function can also be used to aggregate summary statistics over a dataset by
+This function can also be used to aggregate summary statistics over a Dataset by
 computing partial results for each batch and then aggregating those partial
 results. Extending the example above, you could fit a model to the sample data
-and then use `map_batches` to compute the MSE on the full dataset.
+and then use `map_batches` to compute the MSE on the full Dataset.
 
 ```{r, eval = file.exists("nyc-taxi")}
 model <- lm(tip_pct ~ total_amount + passenger_count, data = sampled_data)
@@ -373,7 +267,7 @@ cat("
 ")
 ```
 
-## More dataset options
+## Dataset options
 
 There are a few ways you can control the Dataset creation to adapt to special use cases.
 
@@ -403,7 +297,7 @@ result to be.
 
 Similarly, you can provide a Schema in the `partitioning` argument of `open_dataset()`
 in order to declare the types of the virtual columns that define the partitions.
-This would be useful, in the taxi dataset example, if you wanted to keep
+This would be useful, in the NYC taxi data example, if you wanted to keep
 `month` as a string instead of an integer.
 
 ### Work with multiple data sources
@@ -412,13 +306,14 @@ Another feature of Datasets is that they can be composed of multiple data source
 That is, you may have a directory of partitioned Parquet files in one location,
 and in another directory, files that haven't been partitioned.
 Or, you could point to an S3 bucket of Parquet data and a directory
-of CSVs on the local file system and query them together as a single dataset.
-To create a multi-source dataset, provide a list of datasets to `open_dataset()`
-instead of a file path, or simply concatenate them like `big_dataset <- c(ds1, ds2)`.
+of CSVs on the local file system and query them together as a single Dataset.
+To create a multi-source Dataset, provide a list of Datasets to `open_dataset()`
+instead of a file path, or concatenate them with a command like 
+`big_dataset <- c(ds1, ds2)`.
 
-## Writing datasets
+## Writing Datasets
 
-As you can see, querying a large dataset can be made quite fast by storage in an
+As you can see, querying a large Dataset can be made quite fast by storage in an
 efficient binary columnar format like Parquet or Feather and partitioning based on
 columns commonly used for filtering. However, data isn't always stored that way.
 Sometimes you might start with one giant CSV. The first step in analyzing data 
@@ -464,12 +359,12 @@ system("tree nyc-taxi/feather")
 ```
 ## feather
 ## ├── payment_type=1
-## │   └── part-18.feather
+## │   └── part-18.arrow
 ## ├── payment_type=2
-## │   └── part-19.feather
+## │   └── part-19.arrow
 ## ...
 ## └── payment_type=UNK
-##     └── part-17.feather
+##     └── part-17.arrow
 ##
 ## 18 directories, 23 files
 ```
@@ -491,7 +386,7 @@ ds %>%
   write_dataset("nyc-taxi/feather", format = "feather")
 ```
 
-The other thing you can do when writing datasets is select a subset of columns 
+The other thing you can do when writing Datasets is select a subset of columns 
 or reorder them. Suppose you never care about `vendor_id`, and being a string column,
 it can take up a lot of space when you read it in, so let's drop it:
 
@@ -503,27 +398,27 @@ ds %>%
 ```
 
 Note that while you can select a subset of columns,
-you cannot currently rename columns when writing a dataset.
+you cannot currently rename columns when writing a Dataset.
 
 ## Partitioning performance considerations
 
-Partitioning datasets has two aspects that affect performance: it increases the number of
+Partitioning Datasets has two aspects that affect performance: it increases the number of
 files and it creates a directory structure around the files. Both of these have benefits
-as well as costs. Depending on the configuration and the size of your dataset, the costs 
+as well as costs. Depending on the configuration and the size of your Dataset, the costs 
 can outweigh the benefits. 
 
-Because partitions split up the dataset into multiple files, partitioned datasets can be 
-read and written with parallelism. However, each additional file adds a little overhead in 
-processing for filesystem interaction. It also increases the overall dataset size since 
+Because partitions split up the Dataset into multiple files, partitioned Datasets can be 
+read and written with parallelism. However, each additional file adds a little overhead in
+processing for filesystem interaction. It also increases the overall Dataset size since 
 each file has some shared metadata. For example, each parquet file contains the schema and
 group-level statistics. The number of partitions is a floor for the number of files. If 
-you partition a dataset by date with a year of data, you will have at least 365 files. If 
+you partition a Dataset by date with a year of data, you will have at least 365 files. If 
 you further partition by another dimension with 1,000 unique values, you will have up to 
 365,000 files. This fine of partitioning often leads to small files that mostly consist of
 metadata.
 
-Partitioned datasets create nested folder structures, and those allow us to prune which 
-files are loaded in a scan. However, this adds overhead to discovering files in the dataset,
+Partitioned Datasets create nested folder structures, and those allow us to prune which 
+files are loaded in a scan. However, this adds overhead to discovering files in the Dataset,
 as we'll need to recursively "list directory" to find the data files. Too fine
 partitions can cause problems here: Partitioning a dataset by date for a years worth
 of data will require 365 list calls to find all the files; adding another column with 
@@ -544,7 +439,7 @@ of file size. Arrow's file writer provides sensible defaults for group sizing in
 
 ## Transactions / ACID guarantees
 
-The dataset API offers no transaction support or any ACID guarantees.  This affects
+The Dataset API offers no transaction support or any ACID guarantees.  This affects
 both reading and writing.  Concurrent reads are fine.  Concurrent writes or writes
 concurring with reads may have unexpected behavior.  Various approaches can be used
 to avoid operating on the same files such as using a unique basename template for
@@ -561,4 +456,12 @@ Most file formats have magic numbers which are written at the end.  This means a
 partial file write can safely be detected and discarded.  The CSV file format does
 not have any such concept and a partially written CSV file may be detected as valid.
 
+## Further reading
+
+- To learn about cloud storage, see the [cloud storage article](./fs.html).
+- To learn about dplyr with arrow, see the [data wrangling article](./data_wrangling.html).
+- To learn about reading and writing data, see the [read/write article](./read_write.html).
+- For specific recipes on reading and writing multi-file Datasets, see this [Arrow R cookbook chapter](https://arrow.apache.org/cookbook/r/reading-and-writing-data---multiple-files.html).
+- To manually enable cloud support on Linux, see the article on [installation on Linux](./install.html).
+- To learn about schemas and metadata, see the [metadata article](./metadata.html).
 
diff --git a/r/vignettes/developers/array_layout_integer.png b/r/vignettes/developers/array_layout_integer.png
new file mode 100644
index 00000000000..99475abfcb2
Binary files /dev/null and b/r/vignettes/developers/array_layout_integer.png differ
diff --git a/r/vignettes/developers/array_layout_string.png b/r/vignettes/developers/array_layout_string.png
new file mode 100644
index 00000000000..8026d7043a0
Binary files /dev/null and b/r/vignettes/developers/array_layout_string.png differ
diff --git a/r/vignettes/developers/chunked_array_layout.png b/r/vignettes/developers/chunked_array_layout.png
new file mode 100644
index 00000000000..d36c43dca17
Binary files /dev/null and b/r/vignettes/developers/chunked_array_layout.png differ
diff --git a/r/vignettes/developers/data_object_layout.Rmd b/r/vignettes/developers/data_object_layout.Rmd
new file mode 100644
index 00000000000..127c6edc034
--- /dev/null
+++ b/r/vignettes/developers/data_object_layout.Rmd
@@ -0,0 +1,179 @@
+---
+title: "Internal structure of Arrow objects"
+description: > 
+  Learn about the internal structure of Arrow data objects. 
+output: rmarkdown::html_vignette
+---
+
+This article describes the internal structure of Arrow data objects. Users of the arrow R package will not generally need to understand the internal structure of Arrow data objects. We include it here to help orient those R users and Arrow developers who wish to understand the [Arrow specification](https://arrow.apache.org/docs/format/Columnar.html). This article provides a deeper dive into some of the topics described in the [data objects article](../data_objects.html), and is intended mostly for developers. It is not necessary knowledge for using the arrow package. 
+
+
+```{r include=FALSE}
+library(arrow, warn.conflicts = FALSE)
+```
+
+
+We begin by describing two key concepts:
+
+- Values in an array are stored in one or more **buffers**. A buffer is a sequential virtual address space (i.e., block of memory) with a given length. Given a pointer specifying the memory address where the buffer starts, you can reach any byte in the buffer with an "offset" value that specifies a location relative to the start of the buffer. 
+- The **physical layout** of an array is a term used to describe how data in an array is laid out in memory, without taking into account how that information is interpreted. As an example: a 32-bit signed integer and 32-bit floating point number have the same layout: they are both 32 bits, represented as 4 contiguous bytes in memory. The meaning is different, but the layout is the same.
+
+We can unpack these ideas using a simple array of integer values:
+
+```{r}
+integer_array <- Array$create(c(1L, NA, 2L, 4L, 8L))
+integer_array
+```
+
+We can inspect the `integer_array$type` attribute to see that the values in the Array are stored as signed 32 bit integers. When laid out in memory by the Arrow C++ library, an integer array consists of two pieces of metadata and two buffers that store the data. The metadata specify the length of the array and a count of the number of null values, both stored as 64-bit integers. These metadata can be viewed from R using `integer_array$length()` and `integer_array$null_count` respectively. The number of buffers associated with an array depends on the exact type of data being stored. For an integer array there are two: a "validity bitmap buffer" and a "data value buffer". Schematically we could depict the array as follows:
+
+```{r, echo=FALSE, out.width="100%"}
+knitr::include_graphics("./array_layout_integer.png")
+```
+
+This image shows the array as a rectangle subdivided into two parts, one for the metadata and the other for the buffers. Underneath the rectangle we've unpacked the contents of the buffers for you, showing the contents of the two buffers in the area enclosed in a dotted line. At the very bottom of the figure, you can see the contents of specific bytes.
+
+## Validity bitmap buffer
+
+The validity bitmap is binary-valued, and contains a 1 whenever the corresponding slot in the array contains a valid, non-null value. At an abstract level we can assume this contains the following five bits: 
+
+```
+10111
+```
+
+However this is a slight over-simplification for three reasons. First, because memory is allocated in byte-size units there are three trailing bits at the end (assumed to be zero), giving us the bitmap `10111000`. Second, while we have written this from left-to-right, this written format is typically presumed to represent [big endian format](https://en.wikipedia.org/wiki/Endianness) where the most-significant bit is written first (i.e., to the lowest-valued memory address). Arrow adopts a little-endian convention, which would more naturally correspond toa right-to-left ordering when written in English. To reflect this we write the bits in right-to-left order: `00011101`. Finally, Arrow encourages [naturally aligned data structures](https://en.wikipedia.org/wiki/Data_structure_alignment) in which allocated memory addresses are a multiple of the data block sizes. Arrow uses *64 byte alignment*, so each data structure must be a multiple of 64 bytes in size. This design feature exists to allow efficient use of modern hardware, as discussed in the [Arrow specification](https://arrow.apache.org/docs/format/Columnar.html#buffer-alignment-and-padding). This is what the buffer looks like this in memory:
+
+::: {.grid}
+::: {.g-col-6}
+|Byte 0 (validity bitmap) | Bytes 1-63            |
+|-------------------------|-----------------------|
+| `00011101`              | `0` (padding)         |
+:::
+:::
+
+## Data buffer
+
+The data buffer, like the validity bitmap, is padded out to a length of 64 bytes to preserve natural alignment. Here's the diagram showing the physical layout:
+
+::: {.grid}
+::: {.g-col-12}
+| Bytes 0-3 | Bytes 4-7   | Bytes 8-11 | Bytes 12-15 | Bytes 16-19 | Bytes 20-63 |
+|-----------|-------------|------------|-------------|-------------|-------------|
+| `1`       | unspecified | `2`        | `4`         | `8`         | unspecified |
+:::
+:::
+
+Each integer occupies 4 bytes, as per the requirements of a 32-bit signed integer. Notice that the bytes associated with the missing value are left unspecified: space is allocated for the value but those bytes are not filled. 
+
+## Offset buffer
+
+Some types of Arrow array include a third buffer known as the offset buffer. This is most frequently encountered in the context of string arrays, such as this one:
+
+```{r}
+string_array <- Array$create(c("hello", "amazing", "and", "cruel", "world"))
+string_array
+```
+
+Using the same schematic notation as before, this is the structure of the object. It has the same metadata as before but as shown below, there are now three buffers:
+
+```{r, echo=FALSE, out.width="100%"}
+knitr::include_graphics("./array_layout_string.png")
+```
+
+To understand the role of the offset buffer, it helps to note the format of the data buffer for a string array: it concatenates all strings end to end in one contiguous section of memory. For the `string_array` object, the contents of the data buffer would look like one long utf8-encoded string:
+
+```
+helloamazingandcruelworld
+```
+
+Because individual strings can be of variable length, the role of the offset buffer is to specify where the boundaries between the slots are. The second slot in our array is the string `"amazing"`. If the positions in the data array are indexed like this
+
+|  h |  e |  l |  l |  o |  a |  m |  a |  z |  i |  n |  g |  a |  n |  d | ... |
+| -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | --- |
+|  0 |  1 |  2 |  3 |  4 |  5 |  6 |  7 |  8 |  9 | 10 | 11 | 12 | 13 | 14 | ... |
+
+then we can see that the string of interest begins at position 5 and ends at position 11. The offset buffer consists integers that store these break point locations. For `string_array` it might look like this:
+
+```
+0 5 12 15 20 25
+```
+
+The difference between the `utf8()` data type and the `large_utf8()` data type is that these the `utf8()` data type stores these as 32-bit integers whereas the `large_utf8()` type stores them as 64-bit integers.
+
+## Chunked arrays
+
+Arrays are immutable objects: once an Array has been initialized the values it stores cannot be altered. This ensures that multiple entities can safely refer to an Array via pointers, and not run the risk that the values will change. Using immutable Arrays makes it possible for Arrow to avoid unnecessary copies of data objects. 
+
+There are limitations to immutable Arrays, most notably when new batches of data arrive. Because an array is immutable, you can't add the new information to an existing array. The only thing you can do if you don't want to disturb or copy your existing array is create a new array that contains the new data. Doing that preserves the immutability of arrays and doesn't lead to any unnecessary copying but now we have a new problem: the data are split across two arrays. Each array contains only one "chunk" of the data. What would be ideal is an abstraction layer that allows us to treat these two Arrays as though they were a single "Array-like" object.
+
+This is the problem that chunked arrays solve. A chunked array is a wrapper around a list of arrays, and allows you to index their contents "as if" they were a single array. Physically, the data are still stored in separate places -- each array is one chunk, and these chunks don't have to be adjacent to each other in memory -- but the chunked array provides us will a layer of abstraction that allows us to pretend that they are all one thing. 
+
+To illustrate, let's use the `chunked_array()` function:
+
+```{r}
+chunked_string_array <- chunked_array(
+  c("hello", "amazing", "and", "cruel", "world"),
+  c("I", "love", "you")
+)
+```
+
+The `chunked_array()` function is just a wrapper around the functionality that `ChunkedArray$create()` provides. Let's take a look at the object:
+
+```{r}
+chunked_string_array
+```
+
+The double bracketing in this output is intended to highlight the "list-like" nature of chunked arrays. There are three separate arrays, wrapped in a container object that is secretly a list of arrays, but allows that list to behave just like a regular one-dimensional data structure. Schematically it looks like this:
+
+```{r, echo=FALSE, out.width="100%"}
+knitr::include_graphics("./chunked_array_layout.png")
+```
+
+As this figure illustrates, there really are three arrays here, each with its own validity bitmap, offset buffer, and data buffer. 
+
+## Record batches
+
+A record batch is table-like data structure comprised of a sequence of arrays. The arrays can be of different types but they must all be the same length. Each array is referred to as one of the "fields" or "columns" of the record batch. Each field must have a (UTF8-encoded) name, and these names form part of the metadata for the record batch. When stored in memory, the record batch does not include physical storage for the values stored in each field: instead it contains pointers to the relevant array objects. It does, however, contain its own validity bitmap. 
+
+Here is a record batch containing 5 rows and 3 columns:
+
+```{r}
+rb <- record_batch(
+  strs = c("hello", "amazing", "and", "cruel", "world"),
+  ints = c(1L, NA, 2L, 4L, 8L),
+  dbls = c(1.1, 3.2, 0.2, NA, 11)
+)
+rb
+```
+
+At an abstract level the `rb` object behaves like a two dimensional structure with rows and columns, but in terms of how it is represented in memory it is fundamentally a list of arrays as shown below:
+
+```{r, echo=FALSE, out.width="100%"}
+knitr::include_graphics("./record_batch_layout.png")
+```
+
+## Tables 
+
+To deal with situations where a rectangular data set can grow over time (as more data are added), we need a tabular data structure that is similar to a record batch with one exception: instead of storing each column as an array, we now want to store it as a chunked array. This is what the `Table` class in **arrow** does. 
+
+To illustrate, suppose we have a second set of data that arrives as a record batch: 
+```{r}
+new_rb <- record_batch(
+  strs = c("I", "love", "you"),
+  ints = c(5L, 0L, 0L),
+  dbls = c(7.1, -0.1, 2)
+)
+
+df <- concat_tables(arrow_table(rb), arrow_table(new_rb))
+df
+```
+
+Here is the underlying structure of this Table: 
+
+```{r, echo=FALSE, out.width="100%"}
+knitr::include_graphics("./table_layout.png")
+```
+
+
+
+
diff --git a/r/vignettes/developers/debugging.Rmd b/r/vignettes/developers/debugging.Rmd
index b9aa8bb75a5..ac006ad035e 100644
--- a/r/vignettes/developers/debugging.Rmd
+++ b/r/vignettes/developers/debugging.Rmd
@@ -1,4 +1,9 @@
-# Debugging Arrow
+---
+title: "Debugging strategies"
+description: >
+  Tools and strategies to help arrow developers with debugging
+output: rmarkdown::html_vignette
+---
 
 If you are a developer working with Arrow code, the package's use of tidy eval 
 and C++ necessitates a solid debugging strategy.  In this article, we recommend
@@ -100,7 +105,7 @@ thread apply all bt
 This will generate a large amount of output, but this information is useful when
 identifying the cause of the issue.
 
-## Resources
+## Further reading
 
 The following resources provide detailed guides to debugging R code:
 
diff --git a/r/vignettes/developers/docker.Rmd b/r/vignettes/developers/docker.Rmd
index e7f5fc4a315..de2795cfa6b 100644
--- a/r/vignettes/developers/docker.Rmd
+++ b/r/vignettes/developers/docker.Rmd
@@ -1,4 +1,9 @@
-# Using docker with Arrow
+---
+title: "Using docker containers"
+description: >
+  A guide for arrow developers wanting to use docker
+output: rmarkdown::html_vignette
+---
 
 Arrow is compatible with a huge number of combinations of OSs, OS versions, 
 compilers, R versions, and other variables.  Sometimes these combinations of 
diff --git a/r/vignettes/developers/install_details.Rmd b/r/vignettes/developers/install_details.Rmd
index 688c8632fac..549a5889ded 100644
--- a/r/vignettes/developers/install_details.Rmd
+++ b/r/vignettes/developers/install_details.Rmd
@@ -1,5 +1,8 @@
 ---
-title: "How the R package is installed - advanced"
+title: "Installation details"
+description: >
+  A low-level description of arrow installation intended for developers
+output: rmarkdown::html_vignette
 ---
 
 This document is intended specifically for arrow _developers_ who wish to know 
@@ -45,7 +48,7 @@ installation, and if it can't find one downloads an appropriate libarrow binary.
 
 * `inst/build_arrow_static.sh` - called by `tools/nixlibs.R` when libarrow  
 needs to be built.  It builds libarrow for a bundled, static build, and
-mirrors the steps described in the ["Arrow R Developer Guide" vignette](./setup.html)
+mirrors the steps described in the [Arrow R developer guide](./setup.html)
 This build script is also what is used to generate our prebuilt binaries.
 
 The actions taken by these scripts to resolve dependencies and install the 
@@ -118,7 +121,7 @@ If you are authorized to install system packages and you're installing a CRAN re
 you may want to use the official Apache Arrow release packages corresponding to 
 the R package version via software distribution tools such as `apt` or `yum` 
 (though there are some drawbacks: see the 
-["Troubleshooting" section in the main installation docs]("../install.html)).
+["Troubleshooting" section in the main installation docs](../install.html#troubleshooting)).
 See the [Arrow project installation page](https://arrow.apache.org/install/)
 to find pre-compiled binary packages for some common Linux distributions,
 including Debian, Ubuntu, and CentOS.
diff --git a/r/vignettes/developers/record_batch_layout.png b/r/vignettes/developers/record_batch_layout.png
new file mode 100644
index 00000000000..2a2b7e5a575
Binary files /dev/null and b/r/vignettes/developers/record_batch_layout.png differ
diff --git a/r/vignettes/developers/setup.Rmd b/r/vignettes/developers/setup.Rmd
index 54575d14cf8..88f14a18973 100644
--- a/r/vignettes/developers/setup.Rmd
+++ b/r/vignettes/developers/setup.Rmd
@@ -1,4 +1,10 @@
-# Developer environment setup
+---
+title: "Configuring a developer environment"
+description: >
+  Learn how to configure your environment to allow you to contribute
+  to the arrow package
+output: rmarkdown::html_vignette
+---
 
 ```{r setup-options, include=FALSE}
 knitr::opts_chunk$set(error = TRUE, eval = FALSE)
@@ -47,9 +53,9 @@ recent version of the library without building from source.
 On Linux, you can download a .zip file containing libarrow from the
 [nightly repository](https://nightlies.apache.org/arrow/r/libarrow/bin/).
 
-The directory names correspond to the OS the binaries where built on: 
-- "centos-7" (gcc 4.8, no AWS/GCS support)
-- "ubuntu-18.04" (gcc 8, openssl 1)
+The directory names correspond to the OS the binaries where built on:
+- "centos-7" (gcc 8 via devtoolset, openssl 1, glib 2.17)
+- "ubuntu-18.04" (gcc 8, openssl 1, glib 2.27)
 - "ubuntu-22.04" (openssl 3)
 
 Version numbers in that repository correspond to dates.
@@ -68,7 +74,7 @@ brew install apache-arrow --HEAD
 
 ### Windows
 
-On Windows, you can download a .zip file containing libarrow from the 
+On Windows, you can download a .zip file containing libarrow from the
 [nightly repository](https://nightlies.apache.org/arrow/r/libarrow/bin/windows/).
 
 Version numbers in that repository correspond to dates.
@@ -138,7 +144,7 @@ pacman --sync --refresh --noconfirm \
 
 We recommend that you configure libarrow to be built to a user-level directory rather than a system directory for your development work.  This is so that the development version you are using doesn't overwrite a released version of libarrow you may already have installed, and so that you are also able work with more than one version of libarrow (by using different `ARROW_HOME` directories for the different versions).
 
-In the example below, libarrow is installed to a directory called `dist` that has the same parent directory as the `arrow` checkout.  Your installation of the Arrow R package can point to any directory with any name, though we recommend *not* placing it inside of the `arrow` git checkout directory as unwanted changes could stop it working properly.
+In the example below, libarrow is installed to a directory called `dist` that has the same parent directory as the arrow checkout.  Your installation of the Arrow R package can point to any directory with any name, though we recommend *not* placing it inside of the arrow git checkout directory as unwanted changes could stop it working properly.
 
 ```{bash, save=run & !sys_install}
 export ARROW_HOME=$(pwd)/dist
@@ -159,7 +165,7 @@ export PATH=$ARROW_HOME/bin:$PATH
 echo "export PATH=\"$ARROW_HOME/bin:$PATH\"" >> ~/.bash_profile
 ```
 
-Start by navigating in a terminal to the `arrow` repository. You will need to create a directory into which the C++ build will put its contents. We recommend that you make a `build` directory inside of the `cpp` directory of the Arrow git repository (it is git-ignored, so you won't accidentally check it in). Next, change directories to be inside `cpp/build`:
+Start by navigating in a terminal to the arrow repository. You will need to create a directory into which the C++ build will put its contents. We recommend that you make a `build` directory inside of the `cpp` directory of the Arrow git repository (it is git-ignored, so you won't accidentally check it in). Next, change directories to be inside `cpp/build`:
 
 ```{bash, save=run & !sys_install}
 pushd arrow
@@ -355,7 +361,7 @@ withr::with_makevars(list(CPPFLAGS = "", LDFLAGS = ""), remotes::install_github(
 
 # Summary of environment variables
 
-* See the user-facing [Install vignette](install.html) for a large number of
+* See the user-facing [article on installation](../install.html) for a large number of
   environment variables that determine how the build works and what features
   get built.
 * `TEST_OFFLINE_BUILD`: When set to `true`, the build script will not download
@@ -462,4 +468,5 @@ guide](https://arrow.apache.org/docs/developers/cpp/building.html).
 
 ## Other installation issues
 
-There are a number of scripts that are triggered when the arrow R package is installed. For package users who are not interacting with the underlying code, these should all just work without configuration and pull in the most complete pieces (e.g. official binaries that we host). However, knowing about these scripts can help package developers troubleshoot if things go wrong in them or things go wrong in an install.  See [the installation vignette](./install.html#how-dependencies-are-resolved) for more information.
+There are a number of scripts that are triggered when the arrow R package is installed. For package users who are not interacting with the underlying code, these should all just work without configuration and pull in the most complete pieces (e.g. official binaries that we host). However, knowing about these scripts can help package developers troubleshoot if things go wrong in them or things go wrong in an install.  See [the article on R package installation](./install_details.html) for more information.
+
diff --git a/r/vignettes/developers/table_layout.png b/r/vignettes/developers/table_layout.png
new file mode 100644
index 00000000000..c6541164ec1
Binary files /dev/null and b/r/vignettes/developers/table_layout.png differ
diff --git a/r/vignettes/developers/workflow.Rmd b/r/vignettes/developers/workflow.Rmd
index cb88a6af6c0..06da30b167c 100644
--- a/r/vignettes/developers/workflow.Rmd
+++ b/r/vignettes/developers/workflow.Rmd
@@ -1,4 +1,10 @@
-# Common developer workflow tasks
+---
+title: "Developer workflows"
+description: >
+  Learn about the workflows and conventions followed by arrow developers
+output: rmarkdown::html_vignette
+---
+
 
 ```{r setup-options, include=FALSE}
 knitr::opts_chunk$set(error = TRUE, eval = FALSE)
diff --git a/r/vignettes/developers/bindings.Rmd b/r/vignettes/developers/writing_bindings.Rmd
similarity index 97%
rename from r/vignettes/developers/bindings.Rmd
rename to r/vignettes/developers/writing_bindings.Rmd
index efe729c5f5c..2b137c3d098 100644
--- a/r/vignettes/developers/bindings.Rmd
+++ b/r/vignettes/developers/writing_bindings.Rmd
@@ -1,4 +1,10 @@
-# Writing Bindings
+---
+title: "Writing dplyr bindings"
+description: > 
+  Learn how to write bindings that allow arrow to mirror the behavior
+  of native R functions within dplyr pipelines
+output: rmarkdown::html_vignette
+---
 
 ```{r, include=FALSE}
 library(arrow, warn.conflicts = FALSE)
@@ -6,7 +12,7 @@ library(dplyr, warn.conflicts = FALSE)
 ```
 
 When writing bindings between C++ compute functions and R functions, the aim is 
-to expose the C++ functionality via the same interface as existing R functions. The syntax and 
+to expose the C++ functionality via the same interface as existing R functions. The syntax and
 functionality should match that of the existing R functions 
 (though there are some exceptions) so that users are able to use existing tidyverse 
 or base R syntax, whilst taking advantage of the speed and functionality of the 
diff --git a/r/vignettes/developing.Rmd b/r/vignettes/developing.Rmd
index 4aca2911a79..567094da172 100644
--- a/r/vignettes/developing.Rmd
+++ b/r/vignettes/developing.Rmd
@@ -1,41 +1,57 @@
 ---
-title: "Arrow R Developer Guide"
+title: "Introduction for developers"
+description: >
+  Learn how to contribute to the arrow package
 output: rmarkdown::html_vignette
-vignette: >
-  %\VignetteIndexEntry{Arrow R Developer Guide}
-  %\VignetteEngine{knitr::rmarkdown}
-  %\VignetteEncoding{UTF-8}
 ---
 
-If you're interested in contributing to arrow, this vignette explains our approach, 
-at a high-level.  If you're looking for more detailed content, you may want to 
-look at one of the following links:
 
-* [in-depth guide to contributing to Arrow, including step-by-step examples](https://arrow.apache.org/docs/developers/guide/index.html)
-* [setting up a development environment and building the components that make up the Arrow project and R package](https://arrow.apache.org/docs/r/articles/developers/setup.html)
-* [common Arrow dev workflow tasks](https://arrow.apache.org/docs/r/articles/developers/workflow.html)
-* [running R with the C++ debugger attached](https://arrow.apache.org/docs/r/articles/developers/debugging.html)
-* [in-depth guide to how the package installation works](https://arrow.apache.org/docs/r/articles/developers/install_details.html)
-* [using Docker to diagnose a bug or test a feature on a specific OS](https://arrow.apache.org/docs/r/articles/developers/docker.html)
-* [writing bindings between R functions and Arrow Acero functions](https://arrow.apache.org/docs/r/articles/developers/bindings.html)
+If you're interested in contributing to arrow, this article explains our approach at a high-level. At the end of the article there we have included links to articles that expand on this in various ways.
 
-# Approach to implementing functionality
+## Package structure and conventions 
 
-Our general philosophy when implementing functionality is to match to existing 
-R function signatures which may be familiar to users, whilst exposing any 
-additional functionality available via Arrow.  The intention is to allow users 
-to be able to use their existing code with minimal changes, or new code or 
-approaches to learn.
+It helps to first outline the structure of the package. 
+
+C++ is an object-oriented language, so the core logic of the Arrow C++ library is encapsulated in classes and methods. In the arrow R package, these classes are implemented as [R6](https://r6.r-lib.org) classes, most of which are exported from the namespace.
+
+In order to match the C++ naming conventions, the R6 classes are named in "TitleCase", e.g. `RecordBatch`. This makes it easy to look up the relevant C++ implementations in the [code](https://github.com/apache/arrow/tree/master/cpp) or [documentation](https://arrow.apache.org/docs/cpp/). To simplify things in R, the C++ library namespaces are generally dropped or flattened; that is, where the C++ library has `arrow::io::FileOutputStream`, it is just `FileOutputStream` in the R package. One exception is for the file readers, where the namespace is necessary to disambiguate. So `arrow::csv::TableReader` becomes `CsvTableReader`, and `arrow::json::TableReader` becomes `JsonTableReader`.
+
+Some of these classes are not meant to be instantiated directly; they may be base classes or other kinds of helpers. For those that you should be able to create, use the `$create()` method to instantiate an object. For example, `rb <- RecordBatch$create(int = 1:10, dbl = as.numeric(1:10))` will create a `RecordBatch`. Many of these factory methods that an R user might most often encounter also have a "snake_case" alias, in order to be more familiar for contemporary R users. So `record_batch(int = 1:10, dbl = as.numeric(1:10))` would do the same as `RecordBatch$create()` above.
+
+The typical user of the arrow R package may never deal directly with the R6 objects. We provide more R-friendly wrapper functions as a higher-level interface to the C++ library. An R user can call `read_parquet()` without knowing or caring that they're instantiating a `ParquetFileReader` object and calling the `$ReadFile()` method on it. The classes are there and available to the advanced programmer who wants fine-grained control over how the C++ library is used.
+
+<!-- 
+[Temporarily hiding this in a comment until I have a plan]
+
+It is also worth mentioning that the arrow package also defines classes that do not exist in the C++ library including:
+
+* `ArrowDatum`: inherited by `Scalar`, `Array`, and `ChunkedArray`
+* `ArrowTabular`: inherited by `RecordBatch` and `Table`
+* `ArrowObject`: inherited by all Arrow objects
+-->
+
+
+## Approach to implementing functionality
+
+Our general philosophy when implementing functionality is to match to existing R function signatures which may be familiar to users, whilst exposing any additional functionality available via Arrow.  The intention is to allow users to be able to use their existing code with minimal changes, or new code or approaches to learn.
 
 There are a number of ways in which we do this:
 
-* when implementing a function with an R equivalent, support the arguments 
-available in R version as much as possible - use the original parameter names 
-and translate to the arrow parameter name inside the function
+* When implementing a function with an R equivalent, support the arguments  available in R version as much as possible - use the original parameter names and translate to the arrow parameter name inside the function
+
+* If there are arrow parameters which do not exist in the R function, allow the user to pass in those options through too
+
+* Where necessary add extra arguments to the function signature for a feature that doesn't exist in R but does in Arrow (e.g., passing in a schema when reading a CSV dataset)
+
+## Further Reading
+
+* [In-depth guide to contributing to Arrow, including step-by-step examples](https://arrow.apache.org/docs/developers/guide/index.html)
+* [R package architectural overview](https://arrow.apache.org/docs/developers/guide/architectural_overview.html#r-package-architectural-overview)
+* [Setting up a development environment, and building the R package and components](https://arrow.apache.org/docs/r/articles/developers/setup.html)
+* [Common Arrow developer workflow tasks](https://arrow.apache.org/docs/r/articles/developers/workflow.html)
+* [Running R with the C++ debugger attached](https://arrow.apache.org/docs/r/articles/developers/debugging.html)
+* [In-depth guide to how the package installation works](https://arrow.apache.org/docs/r/articles/developers/install_details.html)
+* [Using Docker to diagnose a bug or test a feature on a specific OS](https://arrow.apache.org/docs/r/articles/developers/docker.html)
+* [Writing bindings between R functions and Arrow Acero functions](https://arrow.apache.org/docs/r/articles/developers/bindings.html)
 
-* if there are arrow parameters which do not exist in the R function, allow the
-user to pass in those options through too
 
-* where necessary add extra arguments to the function signature for features 
-that don't exist in R but do in Arrow (e.g. passing in a schema when reading a
-CSV dataset)
diff --git a/r/vignettes/flight.Rmd b/r/vignettes/flight.Rmd
index e8af5cad6f7..19b328d05c2 100644
--- a/r/vignettes/flight.Rmd
+++ b/r/vignettes/flight.Rmd
@@ -1,48 +1,34 @@
 ---
-title: "Connecting to Flight RPC Servers"
+title: "Connecting to a Flight server"
+description: >
+  Learn how to efficiently stream Apache Arrow data objects across a 
+  network using Arrow Flight 
 output: rmarkdown::html_vignette
-vignette: >
-  %\VignetteIndexEntry{Connecting to Flight RPC Servers}
-  %\VignetteEngine{knitr::rmarkdown}
-  %\VignetteEncoding{UTF-8}
 ---
 
-[**Flight**](https://arrow.apache.org/blog/2019/10/13/introducing-arrow-flight/)
-is a general-purpose client-server framework for high performance
-transport of large datasets over network interfaces, built as part of the
-[Apache Arrow](https://arrow.apache.org) project.
+[Arrow Flight](https://arrow.apache.org/blog/2019/10/13/introducing-arrow-flight/) is a general-purpose client-server framework for high performance transport of large datasets over network interfaces, built as part of the Apache Arrow project. It allows for highly efficient data transfer by several means:
 
-Flight allows for highly efficient data transfer as it:
+* Flight removes the need for deserialization during data transfer.
+* Flight allows for parallel data streaming.
+* Flight employs optimizations designed to take advantage of Arrow's columnar format.
 
-* removes the need for deserialization during data transfer
-* allows for parallel data streaming
-* is highly optimized to take advantage of Arrow's columnar format.
+The arrow package provides methods for connecting to Flight servers to send and receive data.
 
-The arrow package provides methods for connecting to Flight RPC servers
-to send and receive data.
+## Prerequisites
 
-## Getting Started
-
-The `flight` functions in the package use [reticulate](https://rstudio.github.io/reticulate/) to call methods in the
-[pyarrow](https://arrow.apache.org/docs/python/api/flight.html) Python package.
-
-Before using them for the first time,
-you'll need to be sure you have reticulate and pyarrow installed:
+At present the arrow package in R does not supply an independent implementation of Arrow Flight: it works by calling [Flight methods supplied by PyArrow](https://arrow.apache.org/docs/python/api/flight.html) Python, and requires both the [reticulate](https://rstudio.github.io/reticulate/) package and the Python PyArrow library to be installed. If you are using them for the first time you can install them like this:
 
 ```r
 install.packages("reticulate")
 arrow::install_pyarrow()
 ```
 
-See `vignette("python", package = "arrow")` for more details on setting up
-`pyarrow`.
+See the [python integrations article](./python.html) for more details on setting up pyarrow.
 
 ## Example
 
 The package includes methods for starting a Python-based Flight server, as well
-as methods for connecting to a Flight server running elsewhere.
-
-To illustrate both sides, in one process let's start a demo server:
+as methods for connecting to a Flight server running elsewhere. To illustrate both sides, in one R process we'll start a demo server:
 
 ```r
 library(arrow)
@@ -58,11 +44,10 @@ In a different R process, let's connect to it and put some data in it.
 ```r
 library(arrow)
 client <- flight_connect(port = 8089)
-# Upload some data to our server so there's something to demo
 flight_put(client, iris, path = "test_data/iris")
 ```
 
-Now, in a new R process, let's connect to the server and pull the data we
+Now, in yet another R process, we can connect to the server and pull the data we
 put there:
 
 ```r
@@ -84,4 +69,13 @@ client %>%
 
 Because `flight_get()` returns an Arrow data structure, you can directly pipe
 its result into a [dplyr](https://dplyr.tidyverse.org/) workflow.
-See `vignette("dataset", package = "arrow")` for more information on working with Arrow objects via a dplyr interface.
+See the article on [data wrangling](./data_wrangling.html) for more information on working with Arrow objects via a dplyr interface.
+
+## Further reading
+
+- The specification of the [Flight remote procedure call protocol](https://arrow.apache.org/docs/format/Flight.html) is listed on the Arrow project homepage
+- The Arrow C++ documentation contains a list of [best practices](https://arrow.apache.org/docs/cpp/flight.html#best-practices) for Arrow Flight.
+- A detailed worked example of an Arrow Flight server in Python is provided in the [Apache Arrow Python Cookbook](https://arrow.apache.org/cookbook/py/flight.html).
+
+
+
diff --git a/r/vignettes/fs.Rmd b/r/vignettes/fs.Rmd
index 6fb7e2d1af9..a21a7864f7d 100644
--- a/r/vignettes/fs.Rmd
+++ b/r/vignettes/fs.Rmd
@@ -1,25 +1,31 @@
 ---
-title: "Working with Cloud Storage (S3, GCS)"
+title: "Using cloud storage (S3, GCS)"
+description: >
+  Learn how to work with data sets stored in an 
+  Amazon S3 bucket or on Google Cloud Storage 
 output: rmarkdown::html_vignette
-vignette: >
-  %\VignetteIndexEntry{Working with Cloud Storage (S3, GCS)}
-  %\VignetteEngine{knitr::rmarkdown}
-  %\VignetteEncoding{UTF-8}
 ---
 
-The Arrow C++ library includes a generic filesystem interface and specific
-implementations for some cloud storage systems. This setup allows various
-parts of the project to be able to read and write data with different storage
-backends. In the `arrow` R package, support has been enabled for AWS S3 and
-Google Cloud Storage (GCS). This vignette provides an overview of working with 
-S3 and GCS data using Arrow.
+Working with data stored in cloud storage systems like [Amazon Simple Storage Service](https://docs.aws.amazon.com/s3/) (S3) and [Google Cloud Storage](https://cloud.google.com/storage/docs) (GCS) is a very common task. Because of this, the Arrow C++ library provides a toolkit aimed to make it as simple to work with cloud storage as it is to work with the local filesystem.
 
-> In Windows and macOS binary packages, S3 and GCS support are included. On Linux when 
-installing from source, S3 and GCS support is not always enabled by default, and it has 
-additional system requirements. See `vignette("install", package = "arrow")` 
-for details.
+To make this work, the Arrow C++ library contains a general-purpose interface for file systems, and the arrow package exposes this interface to R users. For instance, if you want to you can create a `LocalFileSystem` object that allows you to interact with the local file system in the usual ways: copying, moving, and deleting files, obtaining information about files and folders, and so on (see `help("FileSystem", package = "arrow")` for details). In general you probably don't need this functionality because you already have tools for working with your local file system, but this interface becomes much more useful in the context of remote file systems. Currently there is a specific implementation for Amazon S3 provided by the `S3FileSystem` class, and another one for Google Cloud Storage provided by `GcsFileSystem`.
 
-## Creating a FileSystem object
+This article provides an overview of working with both S3 and GCS data using the Arrow toolkit. 
+
+## S3 and GCS support on Linux
+
+Before you start, make sure that your arrow install has support for S3 and/or GCS enabled. For most users this will be true by default, because the Windows and MacOS binary packages hosted on CRAN include S3 and GCS support. You can check whether support is enabled via helper functions:
+
+```r
+arrow_with_s3()
+arrow_with_gcs()
+```
+
+If these return `TRUE` then the relevant support is enabled.
+
+In some cases you may find that your system does not have support enabled. The most common case for this occurs on Linux when installing arrow from source. In this situation S3 and GCS support is not always enabled by default, and there are additional system requirements involved. See the [installation article](./install.html) for details on how to resolve this.
+
+## Connecting to cloud storage
 
 One way of working with filesystems is to create `?FileSystem` objects. 
 `?S3FileSystem` objects can be created with the `s3_bucket()` function, which
@@ -30,34 +36,79 @@ you don't need to prefix the bucket path when listing a directory).
 
 With a `FileSystem` object, you can point to specific files in it with the `$path()` method
 and pass the result to file readers and writers (`read_parquet()`, `write_feather()`, et al.).
-For example, to read a parquet file from the example NYC taxi data
-(used in `vignette("dataset", package = "arrow")`):
+
+Often the reason users work with cloud storage in real world analysis is to access large data sets. An example of this is discussed in the [datasets article](./dataset.html), but new users may prefer to work with a much smaller data set while learning how the arrow cloud storage interface works. To that end, the examples in this article rely on a multi-file Parquet dataset that stores a copy of the `diamonds` data made available through the [`ggplot2`](https://ggplot2.tidyverse.org/) package, documented in `help("diamonds", package = "ggplot2")`. The cloud storage version of this data set consists of 5 Parquet files totaling less than 1MB in size.
+
+The diamonds data set is hosted on both S3 and GCS, in a bucket named `voltrondata-labs-datasets`. To create an S3FileSystem object that refers to that bucket, use the following command:
 
 ```r
 bucket <- s3_bucket("voltrondata-labs-datasets")
-# Or in GCS (anonymous = TRUE is required if credentials are not configured):
-bucket <- gs_bucket("voltrondata-labs-datasets", anonymous = TRUE)
-df <- read_parquet(bucket$path("nyc-taxi/year=2019/month=6/data.parquet"))
 ```
 
-Note that this will be slower to read than if the file were local,
-though if you're running on a machine in the same AWS region as the file in S3,
-the cost of reading the data over the network should be much lower.
-
-You can list the files and/or directories in a bucket or subdirectory using
-the `$ls()` method:
+To do this for the GCS version of the data, the command is as follows:
 
 ```r
-bucket$ls("nyc-taxi")
-# Or recursive:
-bucket$ls("nyc-taxi", recursive = TRUE)
+bucket <- gs_bucket("voltrondata-labs-datasets", anonymous = TRUE)
 ```
 
-**NOTE**: in GCS, you *should always* use `recursive = TRUE` as directories often don't appear in 
-`$ls()` results.
+Note that `anonymous = TRUE` is required for GCS if credentials have not been configured. 
 
 <!-- TODO: update GCS note above if ARROW-17097 is addressed -->
 
+Within this bucket there is a folder called `diamonds`. We can call `bucket$ls("diamonds")` to list the files stored in this folder, or `bucket$ls("diamonds", recursive = TRUE)` to recursively search subfolders. Note that on GCS, you should always set `recursive = TRUE` because directories often don't appear in the results.
+
+Here's what we get when we list the files stored in the GCS bucket:
+
+``` r
+bucket$ls("diamonds", recursive = TRUE)
+```
+
+``` r
+## [1] "diamonds/cut=Fair/part-0.parquet"     
+## [2] "diamonds/cut=Good/part-0.parquet"     
+## [3] "diamonds/cut=Ideal/part-0.parquet"    
+## [4] "diamonds/cut=Premium/part-0.parquet"  
+## [5] "diamonds/cut=Very Good/part-0.parquet"
+```
+
+There are 5 Parquet files here, one corresponding to each of the "cut" categories in the `diamonds` data set. We can specify the path to a specific file by calling `bucket$path()`:
+
+``` r
+parquet_good <- bucket$path("diamonds/cut=Good/part-0.parquet")
+```
+
+We can use `read_parquet()` to read from this path directly into R:
+
+``` r
+diamonds_good <- read_parquet(parquet_good)
+diamonds_good
+```
+
+``` r
+## # A tibble: 4,906 × 9
+##    carat color clarity depth table price     x     y     z
+##    <dbl> <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
+##  1  0.23 E     VS1      56.9    65   327  4.05  4.07  2.31
+##  2  0.31 J     SI2      63.3    58   335  4.34  4.35  2.75
+##  3  0.3  J     SI1      64      55   339  4.25  4.28  2.73
+##  4  0.3  J     SI1      63.4    54   351  4.23  4.29  2.7 
+##  5  0.3  J     SI1      63.8    56   351  4.23  4.26  2.71
+##  6  0.3  I     SI2      63.3    56   351  4.26  4.3   2.71
+##  7  0.23 F     VS1      58.2    59   402  4.06  4.08  2.37
+##  8  0.23 E     VS1      64.1    59   402  3.83  3.85  2.46
+##  9  0.31 H     SI1      64      54   402  4.29  4.31  2.75
+## 10  0.26 D     VS2      65.2    56   403  3.99  4.02  2.61
+## # … with 4,896 more rows
+## # ℹ Use `print(n = ...)` to see more rows
+```
+
+Note that this will be slower to read than if the file were local.
+
+<!-- though if you're running on a machine in the same AWS region as the file in S3,
+the cost of reading the data over the network should be much lower. -->
+
+
+<!--
 See `help(FileSystem)` for a list of options that `s3_bucket()`/`S3FileSystem$create()`
 and `gs_bucket()`/`GcsFileSystem$create()` can take.
 
@@ -68,51 +119,47 @@ useful for holding a reference to a subdirectory somewhere (on S3, GCS, or elsew
 One way to get a subtree is to call the `$cd()` method on a `FileSystem`
 
 ```r
-june2019 <- bucket$cd("2019/06")
-df <- read_parquet(june2019$path("data.parquet"))
+june2019 <- bucket$cd("nyc-taxi/year=2019/month=6")
+df <- read_parquet(june2019$path("part-0.parquet"))
 ```
 
 `SubTreeFileSystem` can also be made from a URI:
 
 ```r
-june2019 <- SubTreeFileSystem$create("s3://voltrondata-labs-datasets/nyc-taxi/2019/06")
+june2019 <- SubTreeFileSystem$create("s3://voltrondata-labs-datasets/nyc-taxi/year=2019/month=6")
 ```
+-->
+
 
-## URIs
 
-File readers and writers (`read_parquet()`, `write_feather()`, et al.) also
-accept a URI as the source or destination file, as do `open_dataset()` and `write_dataset()`.
-An S3 URI looks like:
+## Connecting directly with a URI
+
+In most use cases, the easiest and most natural way to connect to cloud storage in arrow is to use the FileSystem objects returned by `s3_bucket()` and `gs_bucket()`, especially when multiple file operations are required. However, in some cases you may want to download a file directly by specifying the URI. This is permitted by arrow, and functions like `read_parquet()`, `write_feather()`, `open_dataset()` etc will all accept URIs to cloud resources hosted on S3 or GCS. The format of an S3 URI is as follows:
 
 ```
 s3://[access_key:secret_key@]bucket/path[?region=]
 ```
 
-A GCS URI looks like:
+For GCS, the URI format looks like this:
 
 ```
 gs://[access_key:secret_key@]bucket/path
 gs://anonymous@bucket/path
 ```
 
-For example, one of the NYC taxi data files used in `vignette("dataset", package = "arrow")` is found at
+For example, the Parquet file storing the "good cut" diamonds that we downloaded earlier in the article is available on both S3 and CGS. The relevant URIs are as follows:
 
-```
-s3://voltrondata-labs-datasets/nyc-taxi/year=2019/month=6/data.parquet
-# Or in GCS (anonymous required on public buckets):
-gs://anonymous@voltrondata-labs-datasets/nyc-taxi/year=2019/month=6/data.parquet
+```r
+uri <- "s3://voltrondata-labs-datasets/diamonds/cut=Good/part-0.parquet"
+uri <- "gs://anonymous@voltrondata-labs-datasets/diamonds/cut=Good/part-0.parquet"
 ```
 
-Given this URI, you can pass it to `read_parquet()` just as if it were a local file path:
+Note that "anonymous" is required on GCS for public buckets. Regardless of which version you use, you can pass this URI to `read_parquet()` as if the file were stored locally:
 
 ```r
-df <- read_parquet("s3://voltrondata-labs-datasets/nyc-taxi/year=2019/month=6/data.parquet")
-# Or in GCS:
-df <- read_parquet("gs://anonymous@voltrondata-labs-datasets/nyc-taxi/year=2019/month=6/data.parquet")
+df <- read_parquet(uri)
 ```
 
-### URI options
-
 URIs accept additional options in the query parameters (the part after the `?`)
 that are passed down to configure the underlying file system. They are separated 
 by `&`. For example,
@@ -121,21 +168,23 @@ by `&`. For example,
 s3://voltrondata-labs-datasets/?endpoint_override=https%3A%2F%2Fstorage.googleapis.com&allow_bucket_creation=true
 ```
 
-is equivlant to:
+is equivalent to:
 
 ```r
-fs <- S3FileSystem$create(
+bucket <- S3FileSystem$create(
   endpoint_override="https://storage.googleapis.com",
   allow_bucket_creation=TRUE
 )
-fs$path("voltrondata-labs-datasets/")
+bucket$path("voltrondata-labs-datasets/")
 ```
 
-Both tell the `S3FileSystem` that it should allow the creation of new buckets and to 
-talk to Google Storage instead of S3. The latter works because GCS implements an 
-S3-compatible API--see [File systems that emulate S3](#file-systems-that-emulate-s3) 
-below--but for better support for GCS use the GCSFileSystem with `gs://`. Also note
-that parameters in the URI need to be 
+Both tell the `S3FileSystem` object that it should allow the creation of new buckets 
+and to talk to Google Storage instead of S3. The latter works because GCS implements an 
+S3-compatible API -- see [File systems that emulate S3](#file-systems-that-emulate-s3) 
+below -- but if you want better support for GCS you should refer to a `GcsFileSystem` 
+but using a URI that starts with `gs://`. 
+
+Also note that parameters in the URI need to be 
 [percent encoded](https://en.wikipedia.org/wiki/Percent-encoding), which is why 
 `://` is written as `%3A%2F%2F`.
 
@@ -149,7 +198,7 @@ a request may spend retrying before returning an error. The current default is
 15 minutes, so in many interactive contexts it's nice to set a lower value:
 
 ```
-gs://anonymous@voltrondata-labs-datasets/nyc-taxi/?retry_limit_seconds=10
+gs://anonymous@voltrondata-labs-datasets/diamonds/?retry_limit_seconds=10
 ```
 
 ## Authentication
@@ -190,7 +239,7 @@ must pass `anonymous = TRUE` or `anonymous` as the user in a URI:
 ```r
 bucket <- gs_bucket("voltrondata-labs-datasets", anonymous = TRUE)
 fs <- GcsFileSystem$create(anonymous = TRUE)
-df <- read_parquet("gs://anonymous@voltrondata-labs-datasets/nyc-taxi/year=2019/month=6/data.parquet")
+df <- read_parquet("gs://anonymous@voltrondata-labs-datasets/diamonds/cut=Good/part-0.parquet")
 ```
 
 <!-- TODO(ARROW-16880): Describe what credentials to use for particular use cases
@@ -203,16 +252,20 @@ a URI in the form `http://user:password@host:port` to `proxy_options`. For
 example, a local proxy server running on port 1316 can be used like this:
 
 ```r
-bucket <- s3_bucket("voltrondata-labs-datasets", proxy_options = "http://localhost:1316")
+bucket <- s3_bucket(
+  bucket = "voltrondata-labs-datasets", 
+  proxy_options = "http://localhost:1316"
+)
 ```
 
+
 ## File systems that emulate S3
 
 The `S3FileSystem` machinery enables you to work with any file system that
 provides an S3-compatible interface. For example, [MinIO](https://min.io/) is
 and object-storage server that emulates the S3 API. If you were to
 run `minio server` locally with its default settings, you could connect to
-it with `arrow` using `S3FileSystem` like this:
+it with arrow using `S3FileSystem` like this:
 
 ```r
 minio <- S3FileSystem$create(
@@ -229,12 +282,12 @@ or, as a URI, it would be
 s3://minioadmin:minioadmin@?scheme=http&endpoint_override=localhost%3A9000
 ```
 
-(note the URL escaping of the `:` in `endpoint_override`).
+(Note the URL escaping of the `:` in `endpoint_override`).
 
 Among other applications, this can be useful for testing out code locally before
 running on a remote S3 bucket.
 
-## Disabling the use of environment variables
+## Disabling environment variables
 
 As mentioned above, it is possible to make use of environment variables to 
 configure access.  However, if you wish to pass in connection details via a URI
@@ -262,3 +315,11 @@ variables, you can set environment variable `AWS_EC2_METADATA_DISABLED` to
 ```{r, eval = FALSE}
 Sys.setenv(AWS_EC2_METADATA_DISABLED = TRUE)
 ```
+
+
+## Further reading
+
+- To learn more about `FileSystem` classes, including `S3FileSystem` and `GcsFileSystem`, see `help("FileSystem", package = "arrow")`.
+- To see a data analysis example that relies on data hosted on cloud storage, see the [dataset article](./dataset.html).
+
+
diff --git a/r/vignettes/install.Rmd b/r/vignettes/install.Rmd
index 36c973289b2..e778d9a83d9 100644
--- a/r/vignettes/install.Rmd
+++ b/r/vignettes/install.Rmd
@@ -1,39 +1,77 @@
 ---
-title: "Installing the Arrow Package on Linux"
+title: "Installing on Linux"
+description: >
+  Installing arrow on linux usually just works, but occasionally poses
+  problems. Learn how to handle installation problems if and when they arise
 output: rmarkdown::html_vignette
-vignette: >
-  %\VignetteIndexEntry{Installing the Arrow Package on Linux}
-  %\VignetteEngine{knitr::rmarkdown}
-  %\VignetteEncoding{UTF-8}
 ---
 
-TL;DR
+In most cases, `install.packages("arrow")` should just work. There are things you can do to make the installation faster, documented in this article. If for some reason installation does not work, set the environment variable `ARROW_R_DEV=true`, retry, and share the logs with us.
 
-In most cases, `install.packages("arrow")` should just work. There are things you can do to make the installation faster (see below). If, for any reason, it doesn't work, set the environment variable `ARROW_R_DEV=true`, retry, and share the logs with us.
+## Background
 
-----
+The Apache Arrow project is implemented in multiple languages, and the R package depends on the Arrow C++ library (referred to from here on as libarrow). This means that when you install arrow, you need both the R and C++ versions.  If you install arrow from CRAN on a machine running Windows or MacOS, when you call `install.packages("arrow")`, a precompiled binary containing both the R package and libarrow will be downloaded.  However, CRAN does not host R package binaries for Linux, and so you must choose from one of the alternative approaches.
 
-The Apache Arrow project is implemented in multiple languages, and the R package depends on the Arrow C++ library (referred to from here on as libarrow).  This means that when you install arrow, you need both the R and C++ versions.  If you install arrow from CRAN on a machine running Windows or MacOS, when you call `install.packages("arrow")`, a precompiled binary containing both the R package and libarrow will be downloaded.  However, CRAN does not host R package binaries for Linux, and so you must choose from one of the alternative approaches.
+This article outlines the recommend approaches to installing arrow on Linux, starting from the simplest and least customizable to the most complex but with more flexbility to customize your installation.
 
-This vignette outlines the recommend approaches to installing arrow on Linux, starting from the simplest and least customisable to the most complex but with more flexbility to customise your installation.
+The primary audience for this document is arrow R package _users_ on Linux, and not Arrow _developers_. Additional resources for developers are listed at the end of this article.
 
-The intended audience for this document is arrow R package _users_ on Linux, and not Arrow _developers_.
-If you're contributing to the Arrow project, see `vignette("developing", package = "arrow")` for
-resources to help you on set up your development environment.  You can also find
-a more detailed discussion of the code run during the installation process in the
-[developers' installation docs](https://arrow.apache.org/docs/r/articles/developers/install_details.html)
+## System dependencies
 
-> Having trouble installing arrow? See the "Troubleshooting" section below.
+The arrow package is designed to work with very minimal system requirements,
+but there are a few things to note.
 
-# Installing a release version (the easy way)
+### Compilers
 
-## Method 1 - Installation with a precompiled libarrow binary
+As of version 10.0.0, arrow requires a C++17 compiler to build.
+For `gcc`, this generally means version 7 or newer. Most contemporary Linux
+distributions have a new enough compiler; however, CentOS 7 is a notable
+exception, as it ships with gcc 4.8.
 
-As mentioned above, on macOS and Windows, when you run `install.packages("arrow")`, and install arrow from CRAN, you get an R binary package that contains a precompiled version of libarrow, though CRAN does not host binary packages for Linux.  This means that the default behaviour when you run `install.packages()` on Linux is to retrieve the source version of the R package that has to be compiled locally, including building libarrow from source. See method 2 below for details of this.
+If you are on CentOS 7, to build arrow you will need to install a newer `devtoolset`, and you'll need to update R's Makevars to define the `CXX17` variables. This script installs `devtoolset-8` and configures R to be able to use C++17:
 
-For a faster installation, we recommend that you instead use one of the methods below for installing arrow with a precompiled libarrow binary.
+```
+#!/usr/bin/env bash
+
+yum install -y centos-release-scl
+yum install -y devtoolset-8
+# Optional: also install cloud storage dependencies, as described below
+yum install -y libcurl-devel openssl-devel
+
+source /opt/rh/devtoolset-8/enable
+
+if [ ! `R CMD config CXX17` ]; then
+  mkdir -p ~/.R
+  echo "CC = $(which gcc) -fPIC" >> ~/.R/Makevars
+  echo "CXX17 = $(which g++) -fPIC" >> ~/.R/Makevars
+  echo "CXX17STD = -std=c++17" >> ~/.R/Makevars
+  echo "CXX17FLAGS = ${CXX11FLAGS}" >> ~/.R/Makevars
+fi
+```
+
+Note that the C++17 compiler is only required at *build* time. You don't need
+to enable the devtoolset every time you load the package. What's more, if you
+install a binary package from RStudio Package Manager (see method 1a below), you
+do not need to set up any of this. Likewise, if you `R CMD INSTALL --build`
+arrow on a CentOS machine with the newer compilers, you can take the binary
+package it produces and install it on any other CentOS machine without those
+compilers.
+
+### Libraries
+
+Optional support for reading from cloud storage--AWS S3 and
+Google Cloud Storage (GCS)--requires additional system dependencies:
+
+* CURL: install `libcurl-devel` (rpm) or `libcurl4-openssl-dev` (deb)
+* OpenSSL >= 1.0.2: install `openssl-devel` (rpm) or `libssl-dev` (deb)
 
-### Method 1a - Binary R package containing libarrow binary via RSPM/conda
+The prebuilt binaries come with S3 and GCS support enabled, so you will need to meet these system requirements in order to use them. If you're building everything from source, the install script will check for the presence of these dependencies and turn off S3 and GCS support in the build if the prerequisites are not met--installation will succeed but without S3 or GCS functionality. If afterwards you install the missing system requirements, you'll need to reinstall the package in order to enable S3 and GCS support.
+
+## Install release version (easy way)
+
+On macOS and Windows, when you run `install.packages("arrow")` and install arrow from CRAN, you get an R binary package that contains a precompiled version of libarrow. Installing binaries is much easier that installing from source, but CRAN does not host binaries for Linux. This means that the default behaviour when you run `install.packages()` on Linux is to retrieve the source version of the R package and compile both the R package _and_ libarrow from source. We'll talk about this scenario in the next section (the "less easy" way), but first we'll suggest two faster alternatives that are usually much easier. 
+
+### Binary R package with libarrow binary via RSPM/conda
 
 ```{r, echo=FALSE, out.width="30%", fig.alt = "Graphic showing R and C++ logo inside the package icon"}
 knitr::include_graphics("./r_binary_libarrow_binary.png")
@@ -57,7 +95,7 @@ install.packages("arrow", repos = "https://packagemanager.rstudio.com/all/__linu
 ```
 
 Note that the User Agent header must be specified as in the example above.
-Please check [the RStudio Package Manager: Admin Guide](https://docs.rstudio.com/rspm/admin/serving-binaries/#using-linux-binary-packages) for more details.
+Please check [the RStudio Package Manager: Admin Guide](https://docs.posit.co/rspm/admin/serving-binaries/#using-linux-binary-packages) for more details.
 
 For other Linux distributions, to get the relevant URL, you can visit
 [the RSPM site](https://packagemanager.rstudio.com/client/#/repos/1/overview),
@@ -70,7 +108,7 @@ latest official release of the R package including libarrow via:
 conda install -c conda-forge --strict-channel-priority r-arrow
 ```
 
-### Method 1b - R source package with libarrow binary
+### R source package with libarrow binary
 
 ```{r, echo=FALSE, out.width="50%", fig.alt = "Graphic showing R logo in folder icon, then a plus sign, then C++ logo inside the package icon"}
 knitr::include_graphics("./r_source_libarrow_binary.png")
@@ -79,32 +117,52 @@ knitr::include_graphics("./r_source_libarrow_binary.png")
 Another way of achieving faster installation with all key features enabled is to use static libarrow binaries we host. These are used automatically on many Linux distributions (x86_64 architecture only), according to the [allowlist](https://github.com/apache/arrow/blob/master/r/tools/nixlibs-allowlist.txt). If your distribution isn't in the list, you can opt-in by setting the `NOT_CRAN` environment variable before you call `install.packages()`:
 
 ```{r, eval = FALSE}
-Sys.setenv("NOT_CRAN" = TRUE)
+Sys.setenv("NOT_CRAN" = "true")
 install.packages("arrow")
 ```
 
 This installs the source version of the R package, but during the installation process will check for compatible libarrow binaries that we host and use those if available. If no binary is available or can't be found, then this option falls back onto method 2 below (full source build), but setting the environment variable results in a more fully-featured build than default.
 
-Except for the those built for gcc 4.8 (default on CentOS 7), the binaries include support for AWS S3 and Google Cloud Storage (GCS). These features require libcurl and openssl libraries installed separately; see below on how to install them. If you don't have these installed, the libarrow binary won't be used, and you will fall back to the full source build.
+The libarrow binaries include support for AWS S3 and GCS, so they require the
+libcurl and openssl libraries installed separately, as noted above.
+If you don't have these installed, the libarrow binary won't be used, and you will fall back to the full source build (with S3 and GCS support disabled).
+
+If the internet access of your computer doesn't allow downloading the libarrow binaries (e.g. if access is limited to CRAN), you can first identify the right source and version by trying to install on the offline computer:
+
+```{r, eval = FALSE}
+Sys.setenv("NOT_CRAN" = "true", "LIBARROW_BUILD" = FALSE, "ARROW_R_DEV" = TRUE)
+install.packages("arrow")
+# This will fail if no internet access, but will print the binaries URL
+```
+
+Then you can obtain the libarrow binaries (using a computer with internet access) and transfer the zip file to the target computer. Now you just have to tell the installer to use that pre-downloaded file:
+
+```{r, eval = FALSE}
+# Watchout: release numbers of the pre-downloaded libarrow must match CRAN!
+Sys.setenv("ARROW_DOWNLOADED_BINARIES" = "/path/to/downloaded/libarrow.zip")
+install.packages("arrow")
+```
 
-# Installing a release version (the less easy way)
 
-## Method 2 - Installing an R source package and building libarrow from source
+## Install release version (less easy)
 
 ```{r, echo=FALSE, out.width="50%", fig.alt = "Graphic showing R inside a folder icon, then a plus sign, then C++ logo inside a folder icon"}
 knitr::include_graphics("./r_source_libarrow_source.png")
 ```
 
-Generally, compiling and installing R packages with C++ dependencies requires
-either installing system packages, which you may not have privileges to do, or
-building the C++ dependencies separately, which introduces all sorts of
-additional ways for things to go wrong.
+The "less easy" way to install arrow is to install both the R package and the underlying Arrow C++ library (libarrow) from source. This method is somewhat more
+difficult because compiling and installing R packages with C++ dependencies 
+generally requires installing system packages, which you may not have privileges 
+to do, and/or building the C++ dependencies separately, which introduces all sorts 
+of additional ways for things to go wrong.
 
-The full source build of arrow, compiling both C++ and R bindings, does handle most of the dependency management for you, but it is much slower.
-However, if using binaries isn't an option for you, or you wish to fine-tune or customize your Linux installation, the
-instructions in this section explain how to do that.
+Installing from the full source build of arrow, compiling both C++ and R 
+bindings, will handle most of the dependency management for you, but it is 
+much slower than using binaries. However, if  using binaries isn't an option 
+for you,or you wish to customize your Linux installation, the instructions in 
+this section explain how to do that.
 
-### Basic configuration for building from source with fully featured installation
+### Basic configuration
 
 If you wish to install libarrow from source instead of looking for pre-compiled
 binaries, you can set the  `LIBARROW_BINARY` variable.
@@ -152,7 +210,7 @@ install.packages("arrow")
 The section below discusses environment variables you can set before calling
 `install.packages("arrow")` to build from source and customise your configuration.
 
-### Handling libarrow dependencies
+#### Handling libarrow dependencies
 
 When you build libarrow from source, its dependencies will be automatically downloaded.
 The environment variable `ARROW_DEPENDENCY_SOURCE` controls whether the libarrow
@@ -172,22 +230,19 @@ If downloading dependencies at build time is not an option, as when building on
 
 #### Dependencies for S3 and GCS support
 
-The arrow package allows you to work with data in AWS S3 or in other cloud
-storage system that emulate S3, as well as Google Cloud Storage.
-However, support for working with S3 and GCS is not
-enabled in the default source build, and it has additional system requirements. To
+Support for working with data in S3 and GCS is not enabled in the default
+source build, and it has additional system requirements as described above. To
 enable it, set the environment variable `LIBARROW_MINIMAL=false` or
 `NOT_CRAN=true` to choose the full-featured build, or more selectively set
 `ARROW_S3=ON` and/or `ARROW_GCS=ON`.
-You also need the following system dependencies:
 
-* `gcc` >= 4.9 or `clang` >= 3.3; note that the default compiler on CentOS 7 is gcc 4.8.5, which is not sufficient
-* CURL: install `libcurl-devel` (rpm) or `libcurl4-openssl-dev` (deb)
-* OpenSSL >= 1.0.2: install `openssl-devel` (rpm) or `libssl-dev` (deb)
+When either feature is enabled, the install script will check for the presence
+of the required dependencies, and if the prerequisites are met, it will turn
+off S3 and GCS support--installation will succeed but without S3 or GCS
+functionality. If afterwards you install the missing system requirements,
+you'll need to reinstall the package in order to enable S3 and GCS support.
 
-The prebuilt libarrow binaries come with S3 and GCS support enabled, so you will need to meet these system requirements in order to use them. If you're building everything from source, the install script will check for the presence of these dependencies and turn off S3 and GCS support in the build if the prerequisites are not met--installation will succeed but without S3 or GCS functionality. If afterwards you install the missing system requirements, you'll need to reinstall the package in order to enable S3 and GCS support.
-
-### Advanced configuration for building from source
+### Advanced configuration
 
 In this section, we describe how to fine-tune your installation at a more granular level.
 
@@ -239,8 +294,8 @@ See below for more in-depth explanations of these environment variables.
   will work with your system. You can set it to `false` to skip this option
   altogether, or you can specify a string "distro-version" that corresponds to
   a binary that is available, to override what this function may discover by
-  default. Possible values are: "centos-7" (gcc 4.8, no AWS/GCS support);
-  "ubuntu-18.04" (gcc 8, openssl 1); "ubuntu-22.04" (openssl 3).
+  default. Possible values are: "centos-7",
+  "ubuntu-18.04" (both with gcc 8, and openssl 1), "ubuntu-22.04" (openssl 3).
 * `LIBARROW_BUILD` : If set to `false`, the build script
   will not attempt to build the C++ from source. This means you will only get
   a working arrow R package if a prebuilt binary is found.
@@ -262,7 +317,7 @@ See below for more in-depth explanations of these environment variables.
 * `ARROW_R_DEV` : If set to `true`, more verbose messaging will be printed
   in the build script. `arrow::install_arrow(verbose = TRUE)` sets this.
   This variable also is needed if you're modifying C++
-  code in the package: see the developer guide vignette.
+  code in the package: see the developer guide article.
 * `ARROW_USE_PKG_CONFIG`: If set to `false`, the configure script won't look for
 Arrow libraries on your system and instead will look to download/build them.
   Use this if you have a version mismatch between installed system libraries and
@@ -277,132 +332,115 @@ Arrow libraries on your system and instead will look to download/build them.
 * `CMAKE` : When building the C++ library from source, you can specify a
   `/path/to/cmake` to use a different version than whatever is found on the `$PATH`.
 
-# Install the nightly build
 
-Daily development builds, which are not official releases, can be installed
-from the Ursa Labs repository:
+## Using install_arrow()
+
+The previous instructions are useful for a fresh arrow installation, but arrow
+provides the function `install_arrow()`. There are three common use cases for this function:
+
+- You have arrow installed and want to upgrade to a different version
+- You want to try to reinstall and fix issues with Linux C++ binaries
+- You want to install a development build
+
+Examples of using `install_arrow()` are shown below:
 
 ```r
-Sys.setenv(NOT_CRAN = TRUE)
-install.packages("arrow", repos = c(arrow = "https://nightlies.apache.org/arrow/r", getOption("repos")))
+install_arrow()               # latest release
+install_arrow(nightly = TRUE) # install development version
+install_arrow(verbose = TRUE) # verbose output to debug install errors
 ```
 
-or for conda users via:
+Although this function is part of the arrow package, it is also available as
+a standalone script, so you can access it without first installing the package:
 
-```
-conda install -c arrow-nightlies -c conda-forge --strict-channel-priority r-arrow
+```r
+source("https://raw.githubusercontent.com/apache/arrow/master/r/R/install-arrow.R")
 ```
 
-# Install from git repo
+Notes:
 
-You can also install the R package from a git checkout:
+- `install_arrow()` does not require environment variables to be set in order to
+satisfy C++ dependencies.
+- unlike packages like `tensorflow`, `blogdown`, and others that require external dependencies, you do not need to run `install_arrow()` after a successful arrow installation.
 
-```shell
-git clone https://github.com/apache/arrow
-cd arrow/r
-R CMD INSTALL .
-```
+## Offline installation
 
-If you don't already have libarrow on your system,
-when installing the R package from source, it will also download and build
-libarrow for you. See the section above on build environment
-variables for options for configuring the build source and enabled features.
+The `install-arrow.R` file mentioned in the previous section includes a 
+function called `create_package_with_all_dependencies()`. Normally, when 
+installing on a computer with internet access, the build process will 
+download third-party dependencies as needed. This function provides a 
+way to download them in advance, which can be useful when installing Arrow
+on a computer without internet access. The process is as follows:
 
-# Installation using install_arrow()
 
-The previous instructions are useful for a fresh arrow installation, but arrow
-provides the function `install_arrow()`, which you can use if you:
+**Step 1.** Using a computer with internet access, download dependencies:
 
-* already have arrow installed and want to upgrade to a different version
-* want to install a development build
-* want to try to reinstall and fix issues with Linux C++ binaries
+* Install the arrow package **or** source the script directly using the following command:
+  
+  ```r
+  source("https://raw.githubusercontent.com/apache/arrow/master/r/R/install-arrow.R")
+  ```
+  
+* Use the `create_package_with_all_dependencies()` function to create the installation bundle:
 
-`install_arrow()` provides some convenience wrappers around the various
-environment variables described below.
+  ```r
+  create_package_with_all_dependencies("my_arrow_pkg.tar.gz")
+  ```
 
-Although this function is part of the arrow package, it is also available as
-a standalone script, so you can access it for convenience without first installing the package:
+* Copy the newly created `my_arrow_pkg.tar.gz` file to the computer without internet access
 
-```r
-source("https://raw.githubusercontent.com/apache/arrow/master/r/R/install-arrow.R")
-```
+**Step 2.** On the computer without internet access, install the prepared package:
 
-## Install the latest release
+* Install the arrow package from the copied file:
 
-```r
-install_arrow()
-```
+  ```r
+  install.packages(
+    "my_arrow_pkg.tar.gz", 
+    dependencies = c("Depends", "Imports", "LinkingTo")
+   )
+  ```
 
-## Install the nightly build
-
-```r
-install_arrow(nightly = TRUE)
-```
+  This installation will build from source, so `cmake` must be available
+  
+* Run `arrow_info()` to check installed capabilities
 
-## Install with more verbose output for debugging errors
 
+Notes:
 
-```r
-install_arrow(verbose = TRUE)
-```
+- arrow _can_ be installed on a computer without internet access 
+without using this function, but many useful features will be disabled, 
+as they depend on third-party components. More precisely,
+`arrow::arrow_info()$capabilities()` will be `FALSE` for every
+capability.
 
-`install_arrow()` does not require environment variables to be set in order to
-satisfy C++ dependencies.
+- If you are using binary packages you shouldn't need to this function. You
+can download the appropriate binary from your package repository, transfer
+that to the offline computer, and install that. 
 
-> Note that, unlike packages like `tensorflow`, `blogdown`, and others that require external dependencies, you do not need to run `install_arrow()` after a successful arrow installation.
+- If you're using RStudio Package Manager on Linux (RSPM), and you want to
+make a source bundle with this function, make sure to set the first repository
+in `options("repos")` to be a mirror that contains source packages. That is, the
+repository needs to be something other than the RSPM binary mirror URLs.
 
-# Offline installation
 
-The `install-arrow.R` file also includes the `create_package_with_all_dependencies()`
-function. Normally, when installing on a computer with internet access, the
-build process will download third-party dependencies as needed.
-This function provides a way to download them in advance.
+## Offline installation (alternative)
 
-Doing so may be useful when installing Arrow on a computer without internet access.
-Note that Arrow _can_ be installed on a computer without internet access without doing this, but
-many useful features will be disabled, as they depend on third-party components.
-More precisely, `arrow::arrow_info()$capabilities()` will be `FALSE` for every
-capability.
-One approach to add more capabilities in an offline install is to prepare a
-package with pre-downloaded dependencies. The
-`create_package_with_all_dependencies()` function does this preparation.
-
-If you're using binary packages you shouldn't need to follow these steps. You
-should download the appropriate binary from your package repository, transfer
-that to the offline computer, and install that. Any OS can create the source
-bundle, but it cannot be installed on Windows. (Instead, use a standard
-Windows binary package.)
-
-Note if you're using RStudio Package Manager on Linux: If you still want to
-make a source bundle with this function, make sure to set the first repo in
-`options("repos")` to be a mirror that contains source packages (that is:
-something other than the RSPM binary mirror URLs).
-
-### Step 1 - Using a computer with internet access, pre-download the dependencies:
-* Install the arrow package _or_ run
-  `source("https://raw.githubusercontent.com/apache/arrow/master/r/R/install-arrow.R")`
-* Run `create_package_with_all_dependencies("my_arrow_pkg.tar.gz")`
-* Copy the newly created `my_arrow_pkg.tar.gz` to the computer without internet access
-
-### Step 2 - On the computer without internet access, install the prepared package:
-* Install the arrow package from the copied file
-  * `install.packages("my_arrow_pkg.tar.gz", dependencies = c("Depends", "Imports", "LinkingTo"))`
-  * This installation will build from source, so `cmake` must be available
-* Run `arrow_info()` to check installed capabilities
+A second method for offline installation is a little more hands-on. Follow these steps if you wish to try it:
 
-#### Alternative, hands-on approach
 * Download the dependency files (`cpp/thirdparty/download_dependencies.sh` may be helpful)
 * Copy the directory of dependencies to the offline computer
 * Create the environment variable `ARROW_THIRDPARTY_DEPENDENCY_DIR` on the offline computer, pointing to the copied directory.
 * Install the arrow package as usual.
 
-# Troubleshooting
+For offline installation using libarrow binaries, see Method 1b above.
+
+## Troubleshooting
 
 The intent is that `install.packages("arrow")` will just work and handle all C++
 dependencies, but depending on your system, you may have better results if you
 tune one of several parameters. Here are some known complications and ways to address them.
 
-## Package failed to build C++ dependencies
+### Package failed to build C++ dependencies
 
 If you see a message like
 
@@ -423,7 +461,7 @@ output and try installing again. Then,
 please [report an issue](https://issues.apache.org/jira/projects/ARROW/issues)
 and include the full installation output.
 
-## Using system libraries
+### Using system libraries
 
 If a system library or other installed Arrow is found but it doesn't match the R package version
 (for example, you have libarrow 1.0.0 on your system and are installing R package 2.0.0),
@@ -448,7 +486,7 @@ Similarly, if you're using libarrow system libraries, running `update.packages()
 after a new release of the arrow package will likely fail unless you first
 update the libarrow system packages.
 
-## Using prebuilt binaries
+### Using prebuilt binaries
 
 If the R package finds and downloads a prebuilt binary of libarrow,
 but then the arrow package can't be loaded, perhaps with "undefined symbols" errors,
@@ -466,7 +504,7 @@ please [report an issue](https://issues.apache.org/jira/projects/ARROW/issues) a
 You may also set the environment variable `ARROW_R_DEV=TRUE` for additional
 debug messages.
 
-## Building libarrow from source
+### Building libarrow from source
 
 If building libarrow from source fails, check the error message.
 (If you don't see an error message, only the `----- NOTE -----`,
@@ -475,21 +513,9 @@ The install script should work everywhere, so if libarrow fails to compile,
 please [report an issue](https://issues.apache.org/jira/projects/ARROW/issues)
 so that we can improve the script.
 
-## Known installation issues
-
-* On CentOS, if you are using a more modern `devtoolset`, you may need to set
-the environment variables `CC` and `CXX` either in the shell or in R's `Makeconf`.
-For CentOS 7 and above, both the Arrow system packages and the C++ binaries
-for R are built with the default system compilers. If you want to use either of these
-and you have a `devtoolset` installed, set `CC=/usr/bin/gcc CXX=/usr/bin/g++`
-to use the system compilers instead of the `devtoolset`.
-Alternatively, if you want to build arrow with the newer `devtoolset` compilers,
-set both `ARROW_USE_PKG_CONFIG` and `LIBARROW_BINARY` to `false` so that
-you build the Arrow C++ from source using those compilers.
-Compiler mismatch between the arrow system libraries and the R
-package may cause R to segfault when arrow package functions are used.
-See discussions [here](https://issues.apache.org/jira/browse/ARROW-8586)
-and [here](https://issues.apache.org/jira/browse/ARROW-10780).
+### Known installation issues
+
+* On CentOS, building the package requires a more modern `devtoolset` than the default system compilers. See "System dependencies" above.
 
 * If you have multiple versions of `zstd` installed on your system,
 installation by building libarrow from source may fail with an "undefined symbols"
@@ -498,15 +524,17 @@ setting `ARROW_WITH_ZSTD=OFF` to build without `zstd`; or (3) uninstalling
 the conflicting `zstd`.
 See discussion [here](https://issues.apache.org/jira/browse/ARROW-8556).
 
-# Contributing
+## Contributing
 
-As mentioned above, please [report an issue](https://issues.apache.org/jira/projects/ARROW/issues)
-if you encounter ways to improve this. If you find that your Linux distribution
-or version is not supported, we welcome the contribution of Docker images
-(hosted on Docker Hub) that we can use in our continuous integration. These
-Docker images should be minimal, containing only R and the dependencies it
-requires. (For reference, see the images that
-[R-hub](https://github.com/r-hub/rhub-linux-builders) uses.)
+We are constantly working to make the installation process as painless as 
+possible. If you find ways to improve the process, please [report an issue](https://issues.apache.org/jira/projects/ARROW/issues) so that we can
+document it. Similarly, if you find that your Linux distribution
+or version is not supported, we would welcome the contribution of Docker 
+images (hosted on Docker Hub) that we can use in our continuous integration 
+and hopefully improve our coverage. If you do contribute a Docker image,
+it should be as minimal as possible, containing only R and the dependencies it
+requires. For reference, see the images that
+[R-hub](https://github.com/r-hub/rhub-linux-builders) uses.
 
 You can test the arrow R package installation using the `docker-compose`
 setup included in the `apache/arrow` git repository. For example,
@@ -519,3 +547,12 @@ R_ORG=rhub R_IMAGE=ubuntu-gcc-release R_TAG=latest docker-compose run r
 installs the arrow R package, including libarrow, on the
 [rhub/ubuntu-gcc-release](https://hub.docker.com/r/rhub/ubuntu-gcc-release)
 image.
+
+## Further reading
+
+- To learn about installing development versions, see the article on [installing nightly builds](./install_nightly.html).
+- If you're contributing to the Arrow project, see the [Arrow R developers guide](./developing.html) for resources to help you on set up your development environment.  
+- Arrow developers may also wish to read a more detailed discussion of the code run during the installation process, described in the [install details article](./developers/install_details.html).
+
+
+
diff --git a/r/vignettes/install_nightly.Rmd b/r/vignettes/install_nightly.Rmd
new file mode 100644
index 00000000000..2562cdf6e8b
--- /dev/null
+++ b/r/vignettes/install_nightly.Rmd
@@ -0,0 +1,55 @@
+---
+title: "Installing development versions"
+description: >
+  Learn how to install nightly builds of arrow 
+output: rmarkdown::html_vignette
+---
+
+Users of the arrow package will typically want to use the latest release version of the package, but may occasionally require a development build. Arrow developers are more likely to need the current development version. In this article we describe the process for installing the development version.
+
+## Install nightly builds
+
+Development versions of the package (binary and source) are built
+nightly and hosted at <https://nightlies.apache.org/arrow/r/>. 
+These nightly package builds are not official Apache releases and are
+not recommended for production use. They may be useful for testing bug
+fixes and new features under active development.
+
+To install arrow from there, use the following command:
+
+``` r
+install.packages("arrow", repos = c(arrow = "https://nightlies.apache.org/arrow/r", getOption("repos")))
+```
+
+Conda users can install arrow nightly builds with:
+
+``` shell
+conda install -c arrow-nightlies -c conda-forge --strict-channel-priority r-arrow
+```
+
+If you already have a version of arrow installed, you can switch to
+the latest nightly development version as follows:
+
+``` r
+arrow::install_arrow(nightly = TRUE)
+```
+
+## Install from git repository
+
+An alternative way to obtain a development versions is to install the R package from a git checkout. To do so, type the following at the terminal:
+
+```shell
+git clone https://github.com/apache/arrow
+cd arrow/r
+R CMD INSTALL .
+```
+
+If you don't already have libarrow on your system,
+when installing the R package from source, it will also download and build
+libarrow for you. See the section above on build environment
+variables for options for configuring the build source and enabled features.
+
+## Further reading
+
+- For users looking for information about installing on Linux, see the [Linux installation article](./install.html).
+- For developers looking to understand the installation scripts, see the [instalation details article](./developers/install_details.html). 
diff --git a/r/vignettes/metadata.Rmd b/r/vignettes/metadata.Rmd
new file mode 100644
index 00000000000..813b1075f2a
--- /dev/null
+++ b/r/vignettes/metadata.Rmd
@@ -0,0 +1,82 @@
+---
+title: "Metadata"
+description: > 
+  Learn how Arrow uses Schemas to document structure of data objects, 
+  and how R metadata are supported in Arrow
+output: rmarkdown::html_vignette
+---
+
+This article describes the various data and metadata object types supplied by arrow, and documents how these objects are structured. 
+
+```{r include=FALSE}
+library(arrow, warn.conflicts = FALSE)
+```
+
+## Arrow metadata classes
+
+The arrow package defines the following classes for representing metadata:
+
+- A `Schema` is a list of `Field` objects used to describe the structure of a tabular data object; where
+- A `Field` specifies a character string name and a `DataType`; and
+- A `DataType` is an attribute controlling how values are represented
+
+Consider this:
+
+```{r}
+df <- data.frame(x = 1:3, y = c("a", "b", "c"))
+tb <- arrow_table(df)
+tb$schema
+```
+
+The schema that has been automatically inferred could also be manually created:
+
+```{r}
+schema(
+  field(name = "x", type = int32()),
+  field(name = "y", type = utf8())
+)
+```
+
+The `schema()` function allows the following shorthand to define fields:
+
+```{r}
+schema(x = int32(), y = utf8())
+```
+
+Sometimes it is important to specify the schema manually, particularly if you want fine-grained control over the Arrow data types:
+
+```{r}
+arrow_table(df, schema = schema(x = int64(), y = utf8()))
+arrow_table(df, schema = schema(x = float64(), y = utf8()))
+```
+
+
+## R object attributes
+
+Arrow supports custom key-value metadata attached to Schemas. When we convert a `data.frame` to an Arrow Table or RecordBatch, the package stores any `attributes()` attached to the columns of the `data.frame` in the Arrow object Schema. Attributes added to objects in this fashion are stored under the `r` key, as shown below:
+
+```{r}
+# data frame with custom metadata
+df <- data.frame(x = 1:3, y = c("a", "b", "c"))
+attr(df, "df_meta") <- "custom data frame metadata"
+attr(df$y, "col_meta") <- "custom column metadata"
+
+# when converted to a Table, the metadata is preserved
+tb <- arrow_table(df)
+tb$metadata
+```
+
+It is also possible to assign additional string metadata under any other key you wish, using a command like this:
+
+```{r}
+tb$metadata$new_key <- "new value"
+```
+
+Metadata attached to a Schema is preserved when writing the Table to Arrow/Feather or Parquet formats. When reading those files into R, or when calling `as.data.frame()` on a Table or RecordBatch, the column attributes are restored to the columns of the resulting `data.frame`. This means that custom data types, including `haven::labelled`, `vctrs` annotations, and others, are preserved when doing a round-trip through Arrow.
+
+Note that the attributes stored in `$metadata$r` are only understood by R. If you write a `data.frame` with `haven` columns to a Feather file and read that in Pandas, the `haven` metadata won't be recognized there. Similarly, Pandas writes its own custom metadata, which the R package does not consume. You are free, however, to define custom metadata conventions for your application and assign any (string) values you want to other metadata keys. 
+
+## Further reading
+
+- To learn more about arrow metadata, see the documentation for `schema()`.
+- To learn more about data types, see the [data types article](./data_types.html). 
diff --git a/r/vignettes/python.Rmd b/r/vignettes/python.Rmd
index 9600cdf5ffd..d0d3f419262 100644
--- a/r/vignettes/python.Rmd
+++ b/r/vignettes/python.Rmd
@@ -1,68 +1,142 @@
 ---
-title: "Apache Arrow in Python and R with reticulate"
+title: "Integrating Arrow, Python, and R"
+description: > 
+  Learn how to use arrow and reticulate to efficiently transfer data 
+  between R and Python without making unnecessary copies
 output: rmarkdown::html_vignette
-vignette: >
-  %\VignetteIndexEntry{Apache Arrow in Python and R with reticulate}
-  %\VignetteEngine{knitr::rmarkdown}
-  %\VignetteEncoding{UTF-8}
 ---
 
-The arrow package provides [reticulate](https://rstudio.github.io/reticulate/) methods for passing data between
-R and Python in the same process. This document provides a brief overview.
+The arrow package provides [reticulate](https://rstudio.github.io/reticulate/) methods for passing data between R and Python within the same process. This article provides a brief overview.
 
-Why you might want to use `pyarrow`?
+Code in this article assumes arrow and reticulate are both loaded:
 
-* To use some Python functionality that is not yet implemented in R, for example, the `concat_arrays` function.
-* To transfer Python objects into R, for example, a Pandas dataframe into an R Arrow Array. 
+```r
+library(arrow, warn.conflicts = FALSE)
+library(reticulate, warn.conflicts = FALSE)
+```
+
+## Motivation
+
+One reason you might want to use PyArrow in R is to take advantage of functionality that is better supported in Python than in R at the current state of development. For example, at one point in time the R arrow package didn't support `concat_arrays()` but PyArrow did, so this would have been a good use case at that time. At the time of current writing PyArrow has more comprehensive support for [Arrow Flight](https://arrow.apache.org/docs/format/Flight.html) than the R package -- but see [the article on Flight support in arrow](./flight.html) -- so that would be another instance in which PyArrow would be of benefit to R users.
+
+A second reason that R users may want to use PyArrow is to efficiently pass data objects between R and Python. With large data sets, it can be quite costly -- in terms of time and CPU cycles -- to perform the copy and covert operations required to translate a native data structure in R (e.g., a data frame) to an analogous structure in Python (e.g., a Pandas DataFrame) and vice versa. Because Arrow data objects such as Tables have the same in-memory format in R and Python, it is possible to perform "zero-copy" data transfers, in which only the metadata needs to be passed between languages. As illustrated later, this drastically improves performance. 
 
-## Installing
+## Installing PyArrow
+
+To use Arrow in Python, the `pyarrow` library needs to be installed. For example, you may wish to create a Python [virtual environment](https://docs.python.org/3/library/venv.html) containing the `pyarrow` library. A virtual environment is a specific Python installation created for one project or purpose. It is a good practice to use specific environments in Python so that updating a package doesn't impact packages in other projects.
+
+You can perform the set up from within R. Let's suppose you want to call your virtual environment something like `my-pyarrow-env`. Your setup code would look like this: 
+
+```r
+virtualenv_create("my-pyarrow-env")
+install_pyarrow("my-pyarrow-env")
+```
 
-To use `arrow` in Python, at a minimum you'll need the `pyarrow` library.
-To install it in a virtualenv,
+If you want to install a development version of `pyarrow` to the virtual environment, add `nightly = TRUE` to the `install_pyarrow()` command:
 
 ```r
-library(reticulate)
-virtualenv_create("arrow-env")
-install_pyarrow("arrow-env")
+install_pyarrow("my-pyarrow-env", nightly = TRUE)
 ```
 
-If you want to install a development version of `pyarrow`,
-add `nightly = TRUE`:
+Note that you don't have to use virtual environments. If you prefer [conda environments](https://docs.conda.io/projects/conda/en/latest/user-guide/concepts/environments.html), you can use this setup code:
 
 ```r
-install_pyarrow("arrow-env", nightly = TRUE)
+conda_create("my-pyarrow-env")
+install_pyarrow("my-pyarrow-env")
 ```
 
-A virtualenv or a virtual environment is a specific Python installation
-created for one project or purpose. It is a good practice to use
-specific environments in Python so that updating a package doesn't
-impact packages in other projects.
+To learn more about installing and configuring Python from R,
+see the [reticulate documentation](https://rstudio.github.io/reticulate/articles/python_packages.html), which discusses the topic in more detail.
 
-`install_pyarrow()` also works with `conda` environments
-(`conda_create()` instead of `virtualenv_create()`).
+## Importing PyArrow
 
-For more on installing and configuring Python,
-see the [reticulate docs](https://rstudio.github.io/reticulate/articles/python_packages.html).
+Assuming that arrow and reticulate are both loaded in R, your first step is to make sure that the correct Python environment is being used. To do that with a virtual environment, use a command like this:
 
-## Using
+```r
+use_virtualenv("my-pyarrow-env")
+```
 
-To start, load `arrow` and `reticulate`, and then import `pyarrow`.
+For a conda environment use the following:
+
+```r
+use_condaenv("my-pyarrow-env")
+```
+
+Once you have done this, the next step is to import `pyarrow` into the Python session as shown below:
 
 ```r
-library(arrow)
-library(reticulate)
-use_virtualenv("arrow-env")
 pa <- import("pyarrow")
 ```
 
-The arrow R package include support for sharing Arrow `Array` and `RecordBatch`
-objects in-process between R and Python. For example, let's create an `Array`
-in pyarrow.
+Executing this command in R is the equivalent of the following import in Python:
+
+```python
+import pyarrow as pa
+```
+
+It may be a good idea to check your `pyarrow` version too, as shown below:
+
+```r
+pa$`__version__`
+```
+
+```
+## [1] "8.0.0"
+```
+
+Support for passing data to and from R is included in `pyarrow` versions 0.17 and greater.
+
+## Using PyArrow
+
+You can use the reticulate function `r_to_py()` to pass objects from R to Python, and similarly you can use `py_to_r()` to pull objects from the Python session into R. To illustrate this, let's create two objects in R: `df_random` is an R data frame containing 100 million rows of random data, and `tb_random` is the same data stored as an Arrow Table: 
+
+```r
+set.seed(1234)
+nrows <- 10^8
+df_random <- data.frame(
+  x = rnorm(nrows), 
+  y = rnorm(nrows),
+  subset = sample(10, nrows, replace = TRUE)
+)
+tb_random <- arrow_table(df_random)
+```
+
+Transferring the data from R to Python without Arrow is a time-consuming process because the underlying object has to be copied and converted to a Python data structure:
+
+```r
+system.time({
+  df_py <- r_to_py(df_random)
+})
+```
+
+```
+##   user  system elapsed 
+##  0.307   5.172   5.529 
+```
+
+In contrast, sending the Arrow Table across happens almost instantaneously:
+
+```r
+system.time({
+  tb_py <- r_to_py(tb_random)
+})
+```
+
+```
+##   user  system elapsed 
+##  0.004   0.000   0.003 
+```
+
+"Send", however, isn't really the correct word. Internally, we're passing pointers to the data between the R and Python interpreters running together in the same process, without copying anything. Nothing is being sent: we're sharing and accessing the same internal Arrow memory buffers.
+
+It's possible to send data the other direction also. For example let's create  an `Array` in pyarrow.
 
 ```r
 a <- pa$array(c(1, 2, 3))
 a
+```
 
+```
 ## Array
 ## <double>
 ## [
@@ -72,12 +146,13 @@ a
 ## ]
 ```
 
-`a` is now an `Array` object in your R session, even though you created it in Python.
-You can apply R methods on it:
+Notice that `a` is now an `Array` object in your R session -- even though you created it in Python -- and you can apply R methods on it:
 
 ```r
 a[a > 1]
+```
 
+```
 ## Array
 ## <double>
 ## [
@@ -86,17 +161,15 @@ a[a > 1]
 ## ]
 ```
 
-You can send data both ways. One reason you might want to use pyarrow in R is
-to take advantage of functionality that is better supported in Python than in R.
-For example, pyarrow has a `concat_arrays()` function, but as of 0.17, this
-function is not implemented in the arrow R package. You can use reticulate
-to use it efficiently.
+Similarly, you can combine this object with Arrow objects created in R, and you can use PyArrow methods like `pa$concat_arrays()` to do so:
 
 ```r
 b <- Array$create(c(5, 6, 7, 8, 9))
 a_and_b <- pa$concat_arrays(list(a, b))
 a_and_b
+```
 
+```
 ## Array
 ## <double>
 ## [
@@ -113,40 +186,12 @@ a_and_b
 
 Now you have a single Array in R.
 
-## How this works
-
-"Send", however, isn't the correct word. Internally, we're passing pointers to
-the data between the R and Python interpreters running together in the same
-process, without copying anything. Nothing is being sent: we're sharing and
-accessing the same internal Arrow memory buffers.
-
-## Arrow object types
-
-For more information about Arrow object types see the "Internals" section of
-the "arrow" vignette:
-
-```r
-vignette("arrow", package = "arrow")
-```
-
-## Troubleshooting
-
-If you get an error like
+## Further reading
 
-```
-Error in py_get_attr_impl(x, name, silent) :
-  AttributeError: 'pyarrow.lib.DoubleArray' object has no attribute '_export_to_c'
-```
-
-it means that the version of `pyarrow` you're using is too old.
-Support for passing data to and from R is included in versions 0.17 and greater.
-Check your pyarrow version like this:
-
-```r
-pa$`__version__`
-
-## [1] "0.16.0"
-```
+- To learn more about installing and configuring Python from R,
+see the [reticulate documentation](https://rstudio.github.io/reticulate/articles/python_packages.html).
+- To learn PyArrow, see the official [PyArrow Documentation](https://arrow.apache.org/docs/python/) and [Apache Arrow Python Cookbook](https://arrow.apache.org/cookbook/py/).
+- R/Python integration in Arrow is also discussed in the [PyArrow Integrations Documentation](https://arrow.apache.org/docs/python/integration/python_r.html), in this [blog post about reticulate integration in Arrow](https://voltrondata.com/blog/passing-arrow-data-between-r-and-python-with-reticulate/), and in this [blog post about rpy2 integration in Arrow](https://voltrondata.com/blog/data-transfer-between-python-and-r-with-rpy2-and-apache-arrow/).
+- The integration between R Arrow and PyArrow is supported through the [Arrow C data interface](https://arrow.apache.org/docs/format/CDataInterface.html#c-data-interface).
+- To learn more about Arrow data objects, see the [data objects article](./data_objects.html).
 
-Note that your `pyarrow` and `arrow` versions don't need themselves to match:
-they just need to be 0.17 or greater.
diff --git a/r/vignettes/read_write.Rmd b/r/vignettes/read_write.Rmd
new file mode 100644
index 00000000000..15b2392b8ee
--- /dev/null
+++ b/r/vignettes/read_write.Rmd
@@ -0,0 +1,163 @@
+---
+title: "Reading and writing data files"
+description: >
+  Learn how to read and write CSV, Parquet, and Feather files with arrow 
+output: rmarkdown::html_vignette
+---
+
+The arrow package provides functions for reading single data files into memory, in
+several common formats. By default, calling any of these functions
+returns an R data frame. To return an Arrow Table, set argument
+`as_data_frame = FALSE`.
+
+- `read_parquet()`: read a file in Parquet format
+- `read_feather()`: read a file in the Apache Arrow IPC format (formerly called the Feather format)
+- `read_delim_arrow()`: read a delimited text file (default delimiter is comma)
+- `read_csv_arrow()`: read a comma-separated values (CSV) file
+- `read_tsv_arrow()`: read a tab-separated values (TSV) file
+- `read_json_arrow()`: read a JSON data file
+
+For writing data to single files, the arrow package provides the
+following functions, which can be used with both R data frames and 
+Arrow Tables:
+
+- `write_parquet()`: write a file in Parquet format
+- `write_feather()`: write a file in Arrow IPC format
+- `write_csv_arrow()`: write a file in CSV format
+
+All these functions can read and write files in the local filesystem or
+to cloud storage. For more on cloud storage support in arrow, see the [cloud storage article](./fs.html).
+
+The arrow package also supports reading larger-than-memory single data files, and reading and writing multi-file data sets.
+This enables analysis and processing of larger-than-memory data, and provides 
+the ability to partition data into smaller chunks without loading the full 
+data into memory. For more information on this topic, see the [dataset article](./dataset.html).
+
+## Parquet format
+
+[Apache Parquet](https://parquet.apache.org/) is a popular
+choice for storing analytics data; it is a binary format that is 
+optimized for reduced file sizes and fast read performance, especially 
+for column-based access patterns. The simplest way to read and write
+Parquet data using arrow is with the `read_parquet()` and 
+`write_parquet()` functions. To illustrate this, we'll write the 
+`starwars` data included in dplyr to a Parquet file, then read it 
+back in. First load the arrow and dplyr packages:
+
+```{r}
+library(arrow, warn.conflicts = FALSE)
+library(dplyr, warn.conflicts = FALSE)
+```
+
+Next we'll write the data frame to a Parquet file located at `file_path`:
+
+```{r}
+file_path <- tempfile()
+write_parquet(starwars, file_path)
+```
+
+The size of a Parquet file is typically much smaller than the corresponding CSV 
+file would have been. This is in part due to the use of file compression: by default, 
+Parquet files written with the arrow package use [Snappy compression](https://google.github.io/snappy/) but other options such as gzip 
+are also supported. See `help("write_parquet", package = "arrow")` for more
+information.
+
+Having written the Parquet file, we now can read it with `read_parquet()`:
+
+```{r}
+read_parquet(file_path)
+```
+
+The default is to return a data frame or tibble. If we want an Arrow Table instead, we would set `as_data_frame = FALSE`:
+
+```{r}
+read_parquet(file_path, as_data_frame = FALSE)
+```
+
+One useful feature of Parquet files is that they store data column-wise, and contain metadata that allow file readers to skip to the relevant sections of the file. That means it is possible to load only a subset of the columns without reading the complete file. The `col_select` argument to `read_parquet()` supports this functionality:
+
+```{r}
+read_parquet(file_path, col_select = c("name", "height", "mass"))
+```
+
+Fine-grained control over the Parquet reader is possible with the `props` argument. See `help("ParquetArrowReaderProperties", package = "arrow")` for details.
+
+R object attributes are preserved when writing data to Parquet or
+Arrow/Feather files and when reading those files back into R. This enables
+round-trip writing and reading of `sf::sf` objects, R data frames with
+with `haven::labelled` columns, and data frame with other custom
+attributes. To learn more about how metadata are handled in arrow, the [metadata article](./metadata.html).
+
+## Arrow/Feather format
+
+The Arrow file format was developed to provide binary columnar 
+serialization for data frames, to make reading and writing data frames 
+efficient, and to make sharing data across data analysis languages easy.
+This file format is sometimes referred to as Feather because it is an
+outgrowth of the original [Feather](https://github.com/wesm/feather) project 
+that has now been moved into the Arrow project itself. You can find the 
+detailed specification of version 2 of the Arrow format -- officially 
+referred to as [the Arrow IPC file format](https://arrow.apache.org/docs/format/Columnar.html#ipc-file-format) --
+on the Arrow specification page. 
+
+The `write_feather()` function writes version 2 Arrow/Feather files by default, and supports multiple kinds of file compression. Basic use is shown below:
+
+```{r}
+file_path <- tempfile()
+write_feather(starwars, file_path)
+```
+
+The `read_feather()` function provides a familiar interface for reading feather files:
+
+```{r}
+read_feather(file_path)
+```
+
+Like the Parquet reader, this reader supports reading a only subset of columns, and can produce Arrow Table output:
+
+```{r}
+read_feather(
+  file = file_path,
+  col_select = c("name", "height", "mass"),
+  as_data_frame = FALSE
+)
+```
+
+## CSV format
+
+The read/write capabilities of the arrow package also include support for 
+CSV and other text-delimited files. The `read_csv_arrow()`, `read_tsv_arrow()`, 
+and `read_delim_arrow()` functions all use the Arrow C++ CSV reader to read 
+data files, where the Arrow C++ options have been mapped to arguments in a 
+way that mirrors the conventions used in `readr::read_delim()`, with a 
+`col_select` argument inspired by `vroom::vroom()`. 
+
+A simple example of writing and reading a CSV file with arrow is shown below:
+
+```{r}
+file_path <- tempfile()
+write_csv_arrow(mtcars, file_path)
+read_csv_arrow(file_path, col_select = starts_with("d"))
+```
+
+In addition to the options provided by the readr-style arguments (`delim`, `quote`, `escape_doubple`, `escape_backslash`, etc), you can use the `schema` argument to specify column types: see `schema()` help for details. There is also the option of using `parse_options`, `convert_options`, and `read_options` to exercise fine-grained control over the arrow csv reader: see `help("CsvReadOptions", package = "arrow")` for details. 
+
+## JSON format
+
+The arrow package supports reading (but not writing) of tabular data from line-delimited JSON, using the `read_json_arrow()` function. A minimal example is shown below:
+
+```{r}
+file_path <- tempfile()
+writeLines('
+    { "hello": 3.5, "world": false, "yo": "thing" }
+    { "hello": 3.25, "world": null }
+    { "hello": 0.0, "world": true, "yo": null }
+  ', file_path, useBytes = TRUE)
+read_json_arrow(file_path)
+```
+
+## Further reading
+
+- To learn more about cloud storage, see the [cloud storage article](./fs.html).
+- To learn more about multi-file datasets, see the [datasets article](./dataset.html).
+- The Apache Arrow R cookbook has chapters on [reading and writing single files](https://arrow.apache.org/cookbook/r/reading-and-writing-data---single-files.html) into memory and working with [multi-file datasets](https://arrow.apache.org/cookbook/r/reading-and-writing-data---multiple-files.html) stored on-disk.
diff --git a/r/vignettes/record_batch.png b/r/vignettes/record_batch.png
new file mode 100644
index 00000000000..44ac92bf387
Binary files /dev/null and b/r/vignettes/record_batch.png differ
diff --git a/r/vignettes/table.png b/r/vignettes/table.png
new file mode 100644
index 00000000000..90b18e4b576
Binary files /dev/null and b/r/vignettes/table.png differ
diff --git a/ruby/README.md b/ruby/README.md
index abcee71cbd2..02020468c52 100644
--- a/ruby/README.md
+++ b/ruby/README.md
@@ -19,7 +19,7 @@
 
 # Apache Arrow Ruby
 
-There are the official Ruby bindings for Apache Arrow.
+Here are the official Ruby bindings for Apache Arrow.
 
 [Red Arrow](https://github.com/apache/arrow/tree/master/ruby/red-arrow) is the base Apache Arrow bindings.
 
@@ -29,7 +29,7 @@ There are the official Ruby bindings for Apache Arrow.
 
 [Red Gandiva](https://github.com/apache/arrow/tree/master/ruby/red-gandiva) is the Gandiva bindings.
 
-[Red Plasma](https://github.com/apache/arrow/tree/master/ruby/red-plasma) is the Plasma bindings.
+[Red Plasma](https://github.com/apache/arrow/tree/master/ruby/red-plasma) is the Plasma bindings. (This is deprecated since 10.0.0. This will be removed from 12.0.0 or so.)
 
 [Red Parquet](https://github.com/apache/arrow/tree/master/ruby/red-parquet) is the Parquet bindings.
 
@@ -65,12 +65,12 @@ Suppose you have your data available via HTTP. Let's connect to demo ClickHouse
 require 'net/http'
 
 params = {
-  query: "SELECT WatchID as watch FROM hits_v1 LIMIT 10 FORMAT Arrow",
-  user: "playground",
-  password: "clickhouse",
-  database: "datasets"
+  query: "SELECT WatchID as watch FROM hits LIMIT 10 FORMAT Arrow",
+  user: "play",
+  password: "",
+  database: "default"
 }
-uri = URI('https://play-api.clickhouse.com:8443')
+uri = URI('https://play.clickhouse.com:443/')
 uri.query = URI.encode_www_form(params)
 resp = Net::HTTP.get(uri)
 table = Arrow::Table.load(Arrow::Buffer.new(resp))
diff --git a/ruby/red-arrow-cuda/lib/arrow-cuda/version.rb b/ruby/red-arrow-cuda/lib/arrow-cuda/version.rb
index 080f08d608f..4a4ec6a9ab7 100644
--- a/ruby/red-arrow-cuda/lib/arrow-cuda/version.rb
+++ b/ruby/red-arrow-cuda/lib/arrow-cuda/version.rb
@@ -16,7 +16,7 @@
 # under the License.
 
 module ArrowCUDA
-  VERSION = "10.0.0-SNAPSHOT"
+  VERSION = "11.0.0"
 
   module Version
     numbers, TAG = VERSION.split("-")
diff --git a/ruby/red-arrow-dataset/lib/arrow-dataset/arrow-table-loadable.rb b/ruby/red-arrow-dataset/lib/arrow-dataset/arrow-table-loadable.rb
index 14c8dce6f5a..38bcc86f3fb 100644
--- a/ruby/red-arrow-dataset/lib/arrow-dataset/arrow-table-loadable.rb
+++ b/ruby/red-arrow-dataset/lib/arrow-dataset/arrow-table-loadable.rb
@@ -36,13 +36,21 @@ def load_from_uri
     end
 
     def internal_load_from_uri(uri)
-      format = FileFormat.resolve(@options[:format])
+      options = @options.dup
+      format = FileFormat.resolve(options.delete(:format))
       dataset = FileSystemDataset.build(format) do |factory|
         factory.file_system_uri = uri
+        finish_options = FinishOptions.new
+        FinishOptions.instance_methods(false).each do |method|
+          next unless method.to_s.end_with?("=")
+          value = options.delete(method[0..-2].to_sym)
+          next if value.nil?
+          finish_options.public_send(method, value)
+        end
+        finish_options
       end
       scanner_builder = dataset.begin_scan
-      @options.each do |key, value|
-        next if key == :format
+      options.each do |key, value|
         next if value.nil?
         setter = "#{key}="
         next unless scanner_builder.respond_to?(setter)
diff --git a/ruby/red-arrow-dataset/lib/arrow-dataset/dataset.rb b/ruby/red-arrow-dataset/lib/arrow-dataset/dataset.rb
index a658fc3f2e0..00d05462578 100644
--- a/ruby/red-arrow-dataset/lib/arrow-dataset/dataset.rb
+++ b/ruby/red-arrow-dataset/lib/arrow-dataset/dataset.rb
@@ -21,8 +21,11 @@ class << self
       def build(*args)
         factory_class = ArrowDataset.const_get("#{name}Factory")
         factory = factory_class.new(*args)
-        yield(factory)
-        factory.finish
+        options = yield(factory)
+        unless options.is_a?(FinishOptions)
+          options = FinishOptions.try_convert(options)
+        end
+        factory.finish(options)
       end
     end
   end
diff --git a/ruby/red-arrow-dataset/lib/arrow-dataset/finish-options.rb b/ruby/red-arrow-dataset/lib/arrow-dataset/finish-options.rb
new file mode 100644
index 00000000000..d26e4ba8ccd
--- /dev/null
+++ b/ruby/red-arrow-dataset/lib/arrow-dataset/finish-options.rb
@@ -0,0 +1,38 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module ArrowDataset
+  class FinishOptions
+    class << self
+      # @api private
+      def try_convert(value)
+        case value
+        when Hash
+          options = new
+          value.each do |k, v|
+            setter = "#{k}="
+            next unless options.respond_to?(setter)
+            options.public_send(setter, v)
+          end
+          options
+        else
+          nil
+        end
+      end
+    end
+  end
+end
diff --git a/ruby/red-arrow-dataset/lib/arrow-dataset/loader.rb b/ruby/red-arrow-dataset/lib/arrow-dataset/loader.rb
index b1be000f7c3..40748dcb49a 100644
--- a/ruby/red-arrow-dataset/lib/arrow-dataset/loader.rb
+++ b/ruby/red-arrow-dataset/lib/arrow-dataset/loader.rb
@@ -34,6 +34,7 @@ def require_libraries
       require "arrow-dataset/dataset"
       require "arrow-dataset/file-format"
       require "arrow-dataset/file-system-dataset-factory"
+      require "arrow-dataset/finish-options"
     end
   end
 end
diff --git a/ruby/red-arrow-dataset/lib/arrow-dataset/version.rb b/ruby/red-arrow-dataset/lib/arrow-dataset/version.rb
index ce942c0150f..555dec791c8 100644
--- a/ruby/red-arrow-dataset/lib/arrow-dataset/version.rb
+++ b/ruby/red-arrow-dataset/lib/arrow-dataset/version.rb
@@ -16,7 +16,7 @@
 # under the License.
 
 module ArrowDataset
-  VERSION = "10.0.0-SNAPSHOT"
+  VERSION = "11.0.0"
 
   module Version
     numbers, TAG = VERSION.split("-")
diff --git a/ruby/red-arrow-dataset/test/test-arrow-table.rb b/ruby/red-arrow-dataset/test/test-arrow-table.rb
index 19130637410..e875399b698 100644
--- a/ruby/red-arrow-dataset/test/test-arrow-table.rb
+++ b/ruby/red-arrow-dataset/test/test-arrow-table.rb
@@ -76,5 +76,18 @@ def test_filter
                    Arrow::Table.load(@dir,
                                      filter: ["equal", :visible, true]))
     end
+
+    def test_schema
+      uri = build_file_uri(@path1)
+      @table1.save(uri)
+      schema = Arrow::Schema.new(visible: :boolean,
+                                 point: :int64)
+      assert_equal(Arrow::Table.new(schema,
+                                    [
+                                      @table1[:visible].data,
+                                      @table1[:point].cast(:int64),
+                                    ]),
+                   Arrow::Table.load(uri, schema: schema))
+    end
   end
 end
diff --git a/ruby/red-arrow-flight-sql/lib/arrow-flight-sql/version.rb b/ruby/red-arrow-flight-sql/lib/arrow-flight-sql/version.rb
index 7cd5dc287f9..db75fcbfebd 100644
--- a/ruby/red-arrow-flight-sql/lib/arrow-flight-sql/version.rb
+++ b/ruby/red-arrow-flight-sql/lib/arrow-flight-sql/version.rb
@@ -16,7 +16,7 @@
 # under the License.
 
 module ArrowFlightSQL
-  VERSION = "10.0.0-SNAPSHOT"
+  VERSION = "11.0.0"
 
   module Version
     numbers, TAG = VERSION.split("-")
diff --git a/ruby/red-arrow-flight/lib/arrow-flight/version.rb b/ruby/red-arrow-flight/lib/arrow-flight/version.rb
index ebc39547b5f..06b409f0acb 100644
--- a/ruby/red-arrow-flight/lib/arrow-flight/version.rb
+++ b/ruby/red-arrow-flight/lib/arrow-flight/version.rb
@@ -16,7 +16,7 @@
 # under the License.
 
 module ArrowFlight
-  VERSION = "10.0.0-SNAPSHOT"
+  VERSION = "11.0.0"
 
   module Version
     numbers, TAG = VERSION.split("-")
diff --git a/ruby/red-arrow/ext/arrow/converters.hpp b/ruby/red-arrow/ext/arrow/converters.hpp
index 5a500574de3..28955432a76 100644
--- a/ruby/red-arrow/ext/arrow/converters.hpp
+++ b/ruby/red-arrow/ext/arrow/converters.hpp
@@ -106,10 +106,34 @@ namespace red_arrow {
       return ULL2NUM(array.Value(i));
     }
 
-    // TODO
-    // inline VALUE convert(const arrow::HalfFloatArray& array,
-    //                      const int64_t i) {
-    // }
+    inline VALUE convert(const arrow::HalfFloatArray& array,
+                         const int64_t i) {
+      const auto value = array.Value(i);
+      // | sign (1 bit) | exponent (5 bit) | fraction (10 bit) |
+      constexpr auto exponent_n_bits = 5;
+      static const auto exponent_mask =
+        static_cast<uint32_t>(std::pow(2.0, exponent_n_bits) - 1);
+      constexpr auto exponent_bias = 15;
+      constexpr auto fraction_n_bits = 10;
+      static const auto fraction_mask =
+        static_cast<uint32_t>(std::pow(2.0, fraction_n_bits)) - 1;
+      static const auto fraction_denominator = std::pow(2.0, fraction_n_bits);
+      const auto sign = value >> (exponent_n_bits + fraction_n_bits);
+      const auto exponent = (value >> fraction_n_bits) & exponent_mask;
+      const auto fraction = value & fraction_mask;
+      if (exponent == exponent_mask) {
+        if (sign == 0) {
+          return DBL2NUM(HUGE_VAL);
+        } else {
+          return DBL2NUM(-HUGE_VAL);
+        }
+      } else {
+        const auto implicit_fraction = (exponent == 0) ? 0 : 1;
+        return DBL2NUM(((sign == 0) ? 1 : -1) *
+                       std::pow(2.0, exponent - exponent_bias) *
+                       (implicit_fraction + fraction / fraction_denominator));
+      }
+    }
 
     inline VALUE convert(const arrow::FloatArray& array,
                          const int64_t i) {
@@ -320,8 +344,7 @@ namespace red_arrow {
     VISIT(UInt16)
     VISIT(UInt32)
     VISIT(UInt64)
-    // TODO
-    // VISIT(HalfFloat)
+    VISIT(HalfFloat)
     VISIT(Float)
     VISIT(Double)
     VISIT(Binary)
@@ -427,8 +450,7 @@ namespace red_arrow {
     VISIT(UInt16)
     VISIT(UInt32)
     VISIT(UInt64)
-    // TODO
-    // VISIT(HalfFloat)
+    VISIT(HalfFloat)
     VISIT(Float)
     VISIT(Double)
     VISIT(Binary)
@@ -530,8 +552,7 @@ namespace red_arrow {
     VISIT(UInt16)
     VISIT(UInt32)
     VISIT(UInt64)
-    // TODO
-    // VISIT(HalfFloat)
+    VISIT(HalfFloat)
     VISIT(Float)
     VISIT(Double)
     VISIT(Binary)
@@ -634,8 +655,7 @@ namespace red_arrow {
     VISIT(UInt16)
     VISIT(UInt32)
     VISIT(UInt64)
-    // TODO
-    // VISIT(HalfFloat)
+    VISIT(HalfFloat)
     VISIT(Float)
     VISIT(Double)
     VISIT(Binary)
@@ -761,8 +781,7 @@ namespace red_arrow {
     VISIT(UInt16)
     VISIT(UInt32)
     VISIT(UInt64)
-    // TODO
-    // VISIT(HalfFloat)
+    VISIT(HalfFloat)
     VISIT(Float)
     VISIT(Double)
     VISIT(Binary)
diff --git a/ruby/red-arrow/ext/arrow/extconf.rb b/ruby/red-arrow/ext/arrow/extconf.rb
index 1341d5cbdc3..0905da354d0 100644
--- a/ruby/red-arrow/ext/arrow/extconf.rb
+++ b/ruby/red-arrow/ext/arrow/extconf.rb
@@ -75,4 +75,18 @@
   add_depend_package_path(name, source_dir, build_dir)
 end
 
+case RUBY_PLATFORM
+when /darwin/
+  symbols_in_external_bundles = [
+    "_rbgerr_gerror2exception",
+    "_rbgobj_instance_from_ruby_object",
+  ]
+  symbols_in_external_bundles.each do |symbol|
+    $DLDFLAGS << " -Wl,-U,#{symbol}"
+  end
+  mmacosx_version_min = "-mmacosx-version-min=10.14"
+  $CFLAGS << " #{mmacosx_version_min}"
+  $CXXFLAGS << " #{mmacosx_version_min}"
+end
+
 create_makefile("arrow")
diff --git a/ruby/red-arrow/ext/arrow/raw-records.cpp b/ruby/red-arrow/ext/arrow/raw-records.cpp
index e34ea2d3c83..e0326f9d2fd 100644
--- a/ruby/red-arrow/ext/arrow/raw-records.cpp
+++ b/ruby/red-arrow/ext/arrow/raw-records.cpp
@@ -84,8 +84,7 @@ namespace red_arrow {
       VISIT(UInt16)
       VISIT(UInt32)
       VISIT(UInt64)
-      // TODO
-      // VISIT(HalfFloat)
+      VISIT(HalfFloat)
       VISIT(Float)
       VISIT(Double)
       VISIT(Binary)
diff --git a/ruby/red-arrow/ext/arrow/values.cpp b/ruby/red-arrow/ext/arrow/values.cpp
index 0fcb46e1bb6..e412ce2273a 100644
--- a/ruby/red-arrow/ext/arrow/values.cpp
+++ b/ruby/red-arrow/ext/arrow/values.cpp
@@ -65,8 +65,7 @@ namespace red_arrow {
       VISIT(UInt16)
       VISIT(UInt32)
       VISIT(UInt64)
-      // TODO
-      // VISIT(HalfFloat)
+      VISIT(HalfFloat)
       VISIT(Float)
       VISIT(Double)
       VISIT(Binary)
diff --git a/ruby/red-arrow/lib/arrow/array.rb b/ruby/red-arrow/lib/arrow/array.rb
index d7ce4458b06..e7ca5606761 100644
--- a/ruby/red-arrow/lib/arrow/array.rb
+++ b/ruby/red-arrow/lib/arrow/array.rb
@@ -22,6 +22,7 @@ class Array
     include ArrayComputable
     include GenericFilterable
     include GenericTakeable
+    include InputReferable
 
     class << self
       def new(*args)
@@ -47,7 +48,15 @@ def try_convert(value)
             nil
           end
         else
-          nil
+          if value.respond_to?(:to_arrow_array)
+            begin
+              value.to_arrow_array
+            rescue RangeError
+              nil
+            end
+          else
+            nil
+          end
         end
       end
     end
@@ -103,6 +112,14 @@ def to_arrow
       self
     end
 
+    def to_arrow_array
+      self
+    end
+
+    def to_arrow_chunked_array
+      ChunkedArray.new([self])
+    end
+
     alias_method :value_data_type_raw, :value_data_type
     def value_data_type
       @value_data_type ||= value_data_type_raw
diff --git a/ruby/red-arrow/lib/arrow/chunked-array.rb b/ruby/red-arrow/lib/arrow/chunked-array.rb
index fb18a1baffd..dd0fb3bfbfd 100644
--- a/ruby/red-arrow/lib/arrow/chunked-array.rb
+++ b/ruby/red-arrow/lib/arrow/chunked-array.rb
@@ -22,6 +22,19 @@ class ChunkedArray
     include ArrayComputable
     include GenericFilterable
     include GenericTakeable
+    include InputReferable
+
+    def to_arrow
+      self
+    end
+
+    def to_arrow_array
+      combine
+    end
+
+    def to_arrow_chunked_array
+      self
+    end
 
     alias_method :size, :n_rows
     unless method_defined?(:length)
@@ -30,7 +43,16 @@ class ChunkedArray
 
     alias_method :chunks_raw, :chunks
     def chunks
-      @chunks ||= chunks_raw
+      @chunks ||= chunks_raw.tap do |_chunks|
+        _chunks.each do |chunk|
+          share_input(chunk)
+        end
+      end
+    end
+
+    alias_method :get_chunk_raw, :get_chunk
+    def get_chunk(i)
+      chunks[i]
     end
 
     def null?(i)
diff --git a/ruby/red-arrow/lib/arrow/column-containable.rb b/ruby/red-arrow/lib/arrow/column-containable.rb
index 7d7de66bda0..32cdb7b372f 100644
--- a/ruby/red-arrow/lib/arrow/column-containable.rb
+++ b/ruby/red-arrow/lib/arrow/column-containable.rb
@@ -143,5 +143,14 @@ def [](selector)
         find_column(selector)
       end
     end
+
+    # Return column names in this object.
+    #
+    # @return [::Array<String>] column names.
+    #
+    # @since 11.0.0
+    def column_names
+      @column_names ||= columns.collect(&:name)
+    end
   end
 end
diff --git a/ruby/red-arrow/lib/arrow/column.rb b/ruby/red-arrow/lib/arrow/column.rb
index 2e54bfc5967..ba575381eef 100644
--- a/ruby/red-arrow/lib/arrow/column.rb
+++ b/ruby/red-arrow/lib/arrow/column.rb
@@ -27,6 +27,7 @@ def initialize(container, index)
       @index = index
       @field = @container.schema[@index]
       @data = @container.get_column_data(@index)
+      @container.share_input(@data)
     end
 
     def name
diff --git a/ruby/red-arrow/lib/arrow/data-type.rb b/ruby/red-arrow/lib/arrow/data-type.rb
index 1c3653120a8..a95212780e3 100644
--- a/ruby/red-arrow/lib/arrow/data-type.rb
+++ b/ruby/red-arrow/lib/arrow/data-type.rb
@@ -188,9 +188,13 @@ def resolve_class(data_type)
       end
     end
 
-    def build_array(values)
+    def array_class
       base_name = self.class.name.gsub(/DataType\z/, "")
-      builder_class = self.class.const_get("#{base_name}ArrayBuilder")
+      ::Arrow.const_get("#{base_name}Array")
+    end
+
+    def build_array(values)
+      builder_class = array_class.builder_class
       args = [values]
       args.unshift(self) unless builder_class.buildable?(args)
       builder_class.build(*args)
diff --git a/ruby/red-arrow/lib/arrow/half-float-array-builder.rb b/ruby/red-arrow/lib/arrow/half-float-array-builder.rb
new file mode 100644
index 00000000000..2b171e57a9d
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/half-float-array-builder.rb
@@ -0,0 +1,32 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class HalfFloatArrayBuilder
+    private
+    def convert_to_arrow_value(value)
+      case value
+      when Float
+        HalfFloat.new(value).to_uint16
+      when HalfFloat
+        value.to_uint16
+      else
+        value
+      end
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/half-float-array.rb b/ruby/red-arrow/lib/arrow/half-float-array.rb
new file mode 100644
index 00000000000..94b8ebd51a3
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/half-float-array.rb
@@ -0,0 +1,24 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class HalfFloatArray
+    def get_value(i)
+      HalfFloat.new(get_raw_value(i)).to_f
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/half-float.rb b/ruby/red-arrow/lib/arrow/half-float.rb
new file mode 100644
index 00000000000..e6fe976a295
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/half-float.rb
@@ -0,0 +1,118 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class HalfFloat
+    MAX = 65504
+    MIN = -65504
+    EXPONENT_N_BITS = 5
+    EXPONENT_MASK = (2 ** EXPONENT_N_BITS) - 1
+    EXPONENT_BIAS = 15
+    FRACTION_N_BITS = 10
+    FRACTION_MASK = (2 ** FRACTION_N_BITS) - 1
+    FRACTION_DENOMINATOR = 2.0 ** FRACTION_N_BITS
+
+    attr_reader :sign
+    attr_reader :exponent
+    attr_reader :fraction
+    def initialize(*args)
+      n_args = args.size
+      case n_args
+      when 1
+        if args[0].is_a?(Float)
+          @sign, @exponent, @fraction = deconstruct_float(args[0])
+        else
+          @sign, @exponent, @fraction = deconstruct_uint16(args[0])
+        end
+      when 3
+        @sign, @exponent, @fraction = *args
+      else
+        message = "wrong number of arguments (given #{n_args}, expected 1 or 3)"
+        raise ArgumentError, message
+      end
+    end
+
+    def to_f
+      if @exponent == EXPONENT_MASK
+        if @sign.zero?
+          Float::INFINITY
+        else
+          -Float::INFINITY
+        end
+      else
+        if @exponent.zero?
+          implicit_fraction = 0
+        else
+          implicit_fraction = 1
+        end
+        ((-1) ** @sign) *
+          (2 ** (@exponent - EXPONENT_BIAS)) *
+          (implicit_fraction + @fraction / FRACTION_DENOMINATOR)
+      end
+    end
+
+    def to_uint16
+      (@sign << (EXPONENT_N_BITS + FRACTION_N_BITS)) ^
+        (@exponent << FRACTION_N_BITS) ^
+        @fraction
+    end
+
+    def pack
+      [to_uint16].pack("S")
+    end
+
+    private
+    def deconstruct_float(float)
+      if float > MAX
+        float = Float::INFINITY
+      elsif float < MIN
+        float = -Float::INFINITY
+      end
+      is_infinite = float.infinite?
+      if is_infinite
+        sign = (is_infinite == 1) ? 0 : 1
+        exponent = EXPONENT_MASK
+        fraction = 0
+      elsif float.zero?
+        sign = 0
+        exponent = 0
+        fraction = 0
+      else
+        sign = (float.positive? ? 0 : 1)
+        float_abs = float.abs
+        1.upto(EXPONENT_MASK) do |e|
+          next_exponent_value = 2 ** (e + 1 - EXPONENT_BIAS)
+          next if float_abs > next_exponent_value
+          exponent = e
+          exponent_value = 2 ** (e - EXPONENT_BIAS)
+          fraction =
+            ((float_abs / exponent_value - 1) * FRACTION_DENOMINATOR).round
+          break
+        end
+      end
+      [sign, exponent, fraction]
+    end
+
+    def deconstruct_uint16(uint16)
+      # | sign (1 bit) | exponent (5 bit) | fraction (10 bit) |
+      sign = (uint16 >> (EXPONENT_N_BITS + FRACTION_N_BITS))
+      exponent = ((uint16 >> FRACTION_N_BITS) & EXPONENT_MASK)
+      fraction = (uint16 & FRACTION_MASK)
+      [sign, exponent, fraction]
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/input-referable.rb b/ruby/red-arrow/lib/arrow/input-referable.rb
new file mode 100644
index 00000000000..7c2105e0b11
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/input-referable.rb
@@ -0,0 +1,29 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  module InputReferable
+    def refer_input(input)
+      @input = input
+    end
+
+    def share_input(other)
+      return unless defined?(@input)
+      other.refer_input(@input)
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/loader.rb b/ruby/red-arrow/lib/arrow/loader.rb
index 58b11e567f3..71fbd9e57ee 100644
--- a/ruby/red-arrow/lib/arrow/loader.rb
+++ b/ruby/red-arrow/lib/arrow/loader.rb
@@ -39,6 +39,7 @@ def require_libraries
       require "arrow/field-containable"
       require "arrow/generic-filterable"
       require "arrow/generic-takeable"
+      require "arrow/input-referable"
       require "arrow/record-containable"
       require "arrow/symbol-values-appendable"
 
@@ -81,6 +82,9 @@ def require_libraries
       require "arrow/fixed-size-binary-array-builder"
       require "arrow/function"
       require "arrow/group"
+      require "arrow/half-float"
+      require "arrow/half-float-array"
+      require "arrow/half-float-array-builder"
       require "arrow/list-array-builder"
       require "arrow/list-data-type"
       require "arrow/map-array"
@@ -196,6 +200,7 @@ def load_method_info(info, klass, method_name)
            "Arrow::Date64Array",
            "Arrow::Decimal128Array",
            "Arrow::Decimal256Array",
+           "Arrow::HalfFloatArray",
            "Arrow::Time32Array",
            "Arrow::Time64Array",
            "Arrow::TimestampArray"
diff --git a/ruby/red-arrow/lib/arrow/raw-table-converter.rb b/ruby/red-arrow/lib/arrow/raw-table-converter.rb
index 41d331fb34e..e189dcde847 100644
--- a/ruby/red-arrow/lib/arrow/raw-table-converter.rb
+++ b/ruby/red-arrow/lib/arrow/raw-table-converter.rb
@@ -35,9 +35,16 @@ def convert
         fields = []
         @values = []
         @raw_table.each do |name, array|
-          array = ArrayBuilder.build(array) if array.is_a?(::Array)
-          fields << Field.new(name.to_s, array.value_data_type)
-          @values << array
+          if array.respond_to?(:to_arrow_chunked_array)
+            chunked_array = array.to_arrow_chunked_array
+          elsif array.respond_to?(:to_arrow_array)
+            chunked_array = ChunkedArray.new([array.to_arrow_array])
+          else
+            array = array.to_ary if array.respond_to?(:to_ary)
+            chunked_array = ChunkedArray.new([ArrayBuilder.build(array)])
+          end
+          fields << Field.new(name.to_s, chunked_array.value_data_type)
+          @values << chunked_array
         end
         @schema = Schema.new(fields)
       end
diff --git a/ruby/red-arrow/lib/arrow/raw-tensor-converter.rb b/ruby/red-arrow/lib/arrow/raw-tensor-converter.rb
new file mode 100644
index 00000000000..9900b75d812
--- /dev/null
+++ b/ruby/red-arrow/lib/arrow/raw-tensor-converter.rb
@@ -0,0 +1,89 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+module Arrow
+  class RawTensorConverter
+    attr_reader :data_type
+    attr_reader :data
+    attr_reader :shape
+    attr_reader :strides
+    attr_reader :dimension_names
+    def initialize(raw_tensor,
+                   data_type: nil,
+                   shape: nil,
+                   strides: nil,
+                   dimension_names: nil)
+      @raw_tensor = raw_tensor
+      @data_type = data_type
+      @data = nil
+      @shape = shape
+      @strides = strides
+      @dimension_names = dimension_names
+      convert
+    end
+
+    private
+    def convert
+      case @raw_tensor
+      when Buffer
+        @data = @raw_tensor
+      when String
+        unless @raw_tensor.encoding == Encoding::ASCII_8BIT
+          message = "raw tensor String must be an ASCII-8BIT encoded string: " +
+                    "#{@raw_tensor.encoding.inspect}"
+          raise ArgumentError, message
+        end
+        @data = Arrow::Buffer.new(@raw_tensor)
+      else
+        @shape ||= guess_shape
+        build_buffer
+        unless @strides.nil?
+          message = "strides: is only accepted with " +
+                    "an Arrow::Buffer or String raw tensor: #{@strides.inspect}"
+          raise ArgumentError, message
+        end
+      end
+      if @shape.nil?
+        raise ArgumentError, "shape: is missing: #{@raw_tensor.inspect}"
+      end
+      if @data_type.nil?
+        raise ArgumentError, "data_type: is missing: #{@raw_tensor.inspect}"
+      end
+    end
+
+    def guess_shape
+      shape = [@raw_tensor.size]
+      target = @raw_tensor[0]
+      while target.is_a?(::Array)
+        shape << target.size
+        target = target[0]
+      end
+      shape
+    end
+
+    def build_buffer
+      if @data_type
+        @data_type = DataType.resolve(@data_type)
+        array = @data_type.build_array(@raw_tensor.flatten)
+      else
+        array = Array.new(@raw_tensor.flatten)
+        @data_type = array.value_data_type
+      end
+      @data = array.data_buffer
+    end
+  end
+end
diff --git a/ruby/red-arrow/lib/arrow/record-batch.rb b/ruby/red-arrow/lib/arrow/record-batch.rb
index c5aaf876b07..7a9ea296eab 100644
--- a/ruby/red-arrow/lib/arrow/record-batch.rb
+++ b/ruby/red-arrow/lib/arrow/record-batch.rb
@@ -19,9 +19,11 @@
 
 module Arrow
   class RecordBatch
+    include Enumerable
+
     include ColumnContainable
+    include InputReferable
     include RecordContainable
-    include Enumerable
 
     class << self
       def new(*args)
@@ -56,7 +58,9 @@ def new(*args)
     #
     # @since 0.12.0
     def to_table
-      Table.new(schema, [self])
+      table = Table.new(schema, [self])
+      share_input(table)
+      table
     end
 
     def respond_to_missing?(name, include_private)
diff --git a/ruby/red-arrow/lib/arrow/table-loader.rb b/ruby/red-arrow/lib/arrow/table-loader.rb
index b4d68d1d502..308eb16a37a 100644
--- a/ruby/red-arrow/lib/arrow/table-loader.rb
+++ b/ruby/red-arrow/lib/arrow/table-loader.rb
@@ -161,7 +161,7 @@ def load_raw(input, reader)
         record_batches << record_batch
       end
       table = Table.new(schema, record_batches)
-      table.instance_variable_set(:@input, input)
+      table.refer_input(input)
       table
     end
 
@@ -211,7 +211,7 @@ def load_as_orc
           field_indexes = @options[:field_indexes]
           reader.set_field_indexes(field_indexes) if field_indexes
           table = reader.read_stripes
-          table.instance_variable_set(:@input, input)
+          table.refer_input(input)
           table
         end
       end
@@ -245,7 +245,7 @@ def load_as_feather
       open_input_stream do |input|
         reader = FeatherFileReader.new(input)
         table = reader.read
-        table.instance_variable_set(:@input, input)
+        table.refer_input(input)
         table
       end
     end
@@ -254,7 +254,7 @@ def load_as_json
       open_input_stream do |input|
         reader = JSONReader.new(input)
         table = reader.read
-        table.instance_variable_set(:@input, input)
+        table.refer_input(input)
         table
       end
     end
diff --git a/ruby/red-arrow/lib/arrow/table-saver.rb b/ruby/red-arrow/lib/arrow/table-saver.rb
index f19261cced0..c33e6414387 100644
--- a/ruby/red-arrow/lib/arrow/table-saver.rb
+++ b/ruby/red-arrow/lib/arrow/table-saver.rb
@@ -51,6 +51,7 @@ def save
         raise ArgumentError, message
       end
       __send__(custom_save_method)
+      @table
     end
 
     private
diff --git a/ruby/red-arrow/lib/arrow/table.rb b/ruby/red-arrow/lib/arrow/table.rb
index 6373393a445..4f016207016 100644
--- a/ruby/red-arrow/lib/arrow/table.rb
+++ b/ruby/red-arrow/lib/arrow/table.rb
@@ -22,6 +22,7 @@ class Table
     include ColumnContainable
     include GenericFilterable
     include GenericTakeable
+    include InputReferable
     include RecordContainable
 
     class << self
@@ -188,6 +189,7 @@ def each_record_batch
 
       reader = TableBatchReader.new(self)
       while record_batch = reader.read_next
+        share_input(record_batch)
         yield(record_batch)
       end
     end
@@ -346,10 +348,12 @@ def slice(*args)
         end
       end
       if sliced_tables.size > 1
-        sliced_tables[0].concatenate(sliced_tables[1..-1])
+        sliced_table = sliced_tables[0].concatenate(sliced_tables[1..-1])
       else
-        sliced_tables[0]
+        sliced_table = sliced_tables[0]
       end
+      share_input(sliced_table)
+      sliced_table
     end
 
     # TODO
@@ -401,7 +405,9 @@ def merge(other)
         new_fields << new_column[:field]
         new_arrays << new_column[:data]
       end
-      self.class.new(new_fields, new_arrays)
+      table = self.class.new(new_fields, new_arrays)
+      share_input(table)
+      table
     end
 
     alias_method :remove_column_raw, :remove_column
@@ -423,7 +429,9 @@ def remove_column(name_or_index)
           raise IndexError.new(message)
         end
       end
-      remove_column_raw(index)
+      table = remove_column_raw(index)
+      share_input(table)
+      table
     end
 
     # Experimental
@@ -445,43 +453,59 @@ def pack
       packed_arrays = columns.collect do |column|
         column.data.pack
       end
-      self.class.new(schema, packed_arrays)
+      table = self.class.new(schema, packed_arrays)
+      share_input(table)
+      table
     end
 
-    # @overload join(right, key, type: :inner, left_outputs: nil, right_outputs: nil)
-    #   @!macro join_common_before
-    #     @param right [Arrow::Table] The right table.
+    # Join another Table by matching with keys.
+    #
+    # @!macro join_common_before
+    #   @param right [Arrow::Table] The right table.
+    #
+    #   Join columns with `right` on join key columns.
+    #
+    # @!macro join_common_after
+    #   @param type [Arrow::JoinType] How to join.
+    #   @param left_outputs [::Array<String, Symbol>] Output columns in
+    #     `self`.
+    #
+    #     If both of `left_outputs` and `right_outputs` aren't
+    #     specified, all columns in `self` and `right` are
+    #     outputted.
+    #   @param right_outputs [::Array<String, Symbol>] Output columns in
+    #     `right`.
     #
-    #     Join columns with `right` on join key columns.
+    #     If both of `left_outputs` and `right_outputs` aren't
+    #     specified, all columns in `self` and `right` are
+    #     outputted.
+    #   @return [Arrow::Table]
+    #     The joined `Arrow::Table`.
     #
-    #   @!macro join_common_after
-    #     @param type [Arrow::JoinType] How to join.
-    #     @param left_outputs [::Array<String, Symbol>] Output columns in
-    #       `self`.
+    # @overload join(right, type: :inner, left_outputs: nil, right_outputs: nil)
+    #   If key(s) are not supplied, common keys in self and right are used.
     #
-    #       If both of `left_outputs` and `right_outputs` aren't
-    #       specified, all columns in `self` and `right` are
-    #       outputted.
-    #     @param right_outputs [::Array<String, Symbol>] Output columns in
-    #       `right`.
+    #   @macro join_common_before
+    #   @macro join_common_after
     #
-    #       If both of `left_outputs` and `right_outputs` aren't
-    #       specified, all columns in `self` and `right` are
-    #       outputted.
-    #     @return [Arrow::Table]
-    #       The joined `Arrow::Table`.
+    # @since 11.0.0
+    #
+    # @overload join(right, key, type: :inner, left_outputs: nil, right_outputs: nil)
+    #   Join right by a key.
     #
     #   @macro join_common_before
     #   @param key [String, Symbol] A join key.
     #   @macro join_common_after
     #
     # @overload join(right, keys, type: :inner, left_outputs: nil, right_outputs: nil)
+    #   Join right by keys.
     #
     #   @macro join_common_before
     #   @param keys [::Array<String, Symbol>] Join keys.
     #   @macro join_common_after
     #
     # @overload join(right, keys, type: :inner, left_outputs: nil, right_outputs: nil)
+    #   Join right by a key or keys mapped by a hash.
     #
     #   @macro join_common_before
     #   @param keys [Hash] Specify join keys in `self` and `right` separately.
@@ -492,7 +516,8 @@ def pack
     #   @macro join_common_after
     #
     # @since 7.0.0
-    def join(right, keys, type: :inner, left_outputs: nil, right_outputs: nil)
+    def join(right, keys=nil, type: :inner, left_outputs: nil, right_outputs: nil)
+      keys ||= (column_names & right.column_names)
       plan = ExecutePlan.new
       left_node = plan.build_source_node(self)
       right_node = plan.build_source_node(right)
@@ -523,7 +548,9 @@ def join(right, keys, type: :inner, left_outputs: nil, right_outputs: nil)
       plan.start
       plan.wait
       reader = sink_node_options.get_reader(hash_join_node.output_schema)
-      reader.read_all
+      table = reader.read_all
+      share_input(table)
+      table
     end
 
     alias_method :to_s_raw, :to_s
diff --git a/ruby/red-arrow/lib/arrow/tensor.rb b/ruby/red-arrow/lib/arrow/tensor.rb
index fdcc6c1aefe..54ea7294006 100644
--- a/ruby/red-arrow/lib/arrow/tensor.rb
+++ b/ruby/red-arrow/lib/arrow/tensor.rb
@@ -15,10 +15,154 @@
 # specific language governing permissions and limitations
 # under the License.
 
+require_relative "raw-tensor-converter"
+
 module Arrow
   class Tensor
+    alias_method :initialize_raw, :initialize
+    # Creates a new {Arrow::Tensor}.
+    #
+    # @overload initialize(raw_tensor, data_type: nil, shape: nil, dimension_names: nil)
+    #
+    #   @param raw_tensor [::Array<Numeric>] The tensor represented as a
+    #     raw `Array` (not `Arrow::Array`) and `Numeric`s. You can
+    #     pass a nested `Array` for a multi-dimensional tensor.
+    #
+    #   @param data_type [Arrow::DataType, String, Symbol, ::Array<String>,
+    #     ::Array<Symbol>, Hash, nil] The element data type of the tensor.
+    #
+    #     If you specify `nil`, data type is guessed from `raw_tensor`.
+    #
+    #     See {Arrow::DataType.resolve} for how to specify data type.
+    #
+    #   @param shape [::Array<Integer>, nil] The array of dimension sizes.
+    #
+    #     If you specify `nil`, shape is guessed from `raw_tensor`.
+    #
+    #   @param dimension_names [::Array<String>, ::Array<Symbol>, nil]
+    #     The array of the dimension names.
+    #
+    #     If you specify `nil`, all dimensions have empty names.
+    #
+    #   @example Create a tensor from Ruby's Array
+    #     raw_tensor = [
+    #       [
+    #         [1, 2, 3, 4],
+    #         [5, 6, 7, 8],
+    #       ],
+    #       [
+    #         [9, 10, 11, 12],
+    #         [13, 14, 15, 16],
+    #       ],
+    #       [
+    #         [17, 18, 19, 20],
+    #         [21, 22, 23, 24],
+    #       ],
+    #     ]
+    #     Arrow::Tensor.new(raw_tensor)
+    #
+    #   @since 10.0.0
+    #
+    # @overload initialize(data_type, data, shape, strides, dimension_names)
+    #
+    #   @param data_type [Arrow::DataType, String, Symbol, ::Array<String>,
+    #     ::Array<Symbol>, Hash] The element data type of the tensor.
+    #
+    #     See {Arrow::DataType.resolve} how to specify data type.
+    #
+    #   @param data [Arrow::Buffer, String] The data of the tensor.
+    #
+    #   @param shape [::Array<Integer>] The array of dimension sizes.
+    #
+    #   @param strides [::Array<Integer>, nil] The array of strides which
+    #     is the number of bytes between two adjacent elements in each
+    #     dimension.
+    #
+    #     If you specify `nil` or an empty `Array`, strides are
+    #     guessed from `data_type` and `data`.
+    #
+    #   @param dimension_names [::Array<String>, ::Array<Symbol>, nil]
+    #     The array of the dimension names.
+    #
+    #     If you specify `nil`, all dimensions doesn't have their names.
+    #
+    #   @example Create a table from Arrow::Buffer
+    #     raw_data = [
+    #       1, 2,
+    #       3, 4,
+    #
+    #       5, 6,
+    #       7, 8,
+    #
+    #       9, 10,
+    #       11, 12,
+    #     ]
+    #     data = Arrow::Buffer.new(raw_data.pack("c*").freeze)
+    #     shape = [3, 2, 2]
+    #     strides = []
+    #     names = ["a", "b", "c"]
+    #     Arrow::Tensor.new(:int8, data, shape, strides, names)
+    def initialize(*args,
+                   data_type: nil,
+                   data: nil,
+                   shape: nil,
+                   strides: nil,
+                   dimension_names: nil)
+      n_args = args.size
+      case n_args
+      when 1
+        converter = RawTensorConverter.new(args[0],
+                                           data_type: data_type,
+                                           shape: shape,
+                                           strides: strides,
+                                           dimension_names: dimension_names)
+        data_type = converter.data_type
+        data = converter.data
+        shape = converter.shape
+        strides = converter.strides
+        dimension_names = converter.dimension_names
+      when 0, 2..5
+        data_type = args[0] || data_type
+        data = args[1] || data
+        shape = args[2] || shape
+        strides = args[3] || strides
+        dimension_names = args[4] || dimension_names
+        if data_type.nil?
+          raise ArgumentError, "data_type: is missing: #{data.inspect}"
+        end
+      else
+        message = "wrong number of arguments (given #{n_args}, expected 0..5)"
+        raise ArgumentError, message
+      end
+      initialize_raw(DataType.resolve(data_type),
+                     data,
+                     shape,
+                     strides,
+                     dimension_names)
+    end
+
+    def dimension_names
+      n_dimensions.times.collect do |i|
+        get_dimension_name(i)
+      end
+    end
+
     def to_arrow
       self
     end
+
+    def to_arrow_array
+      if n_dimensions != 1
+        raise RangeError, "must be 1 dimensional tensor: #{shape.inspect}"
+      end
+      value_data_type.array_class.new(size,
+                                      buffer,
+                                      nil,
+                                      0)
+    end
+
+    def to_arrow_chunked_array
+      ChunkedArray.new([to_arrow_array])
+    end
   end
 end
diff --git a/ruby/red-arrow/lib/arrow/version.rb b/ruby/red-arrow/lib/arrow/version.rb
index 8ec135984dd..5c64dfb883b 100644
--- a/ruby/red-arrow/lib/arrow/version.rb
+++ b/ruby/red-arrow/lib/arrow/version.rb
@@ -16,7 +16,7 @@
 # under the License.
 
 module Arrow
-  VERSION = "10.0.0-SNAPSHOT"
+  VERSION = "11.0.0"
 
   module Version
     numbers, TAG = VERSION.split("-")
diff --git a/ruby/red-arrow/red-arrow.gemspec b/ruby/red-arrow/red-arrow.gemspec
index 6be1f0b626e..c92d3f57509 100644
--- a/ruby/red-arrow/red-arrow.gemspec
+++ b/ruby/red-arrow/red-arrow.gemspec
@@ -47,7 +47,7 @@ Gem::Specification.new do |spec|
   spec.extensions = ["ext/arrow/extconf.rb"]
 
   spec.add_runtime_dependency("bigdecimal", ">= 3.1.0")
-  spec.add_runtime_dependency("extpp", ">= 0.0.7")
+  spec.add_runtime_dependency("extpp", ">= 0.1.1")
   spec.add_runtime_dependency("gio2", ">= 3.5.0")
   spec.add_runtime_dependency("native-package-installer")
   spec.add_runtime_dependency("pkg-config")
diff --git a/ruby/red-arrow/test/raw-records/test-basic-arrays.rb b/ruby/red-arrow/test/raw-records/test-basic-arrays.rb
index 0180cb92b42..15cdee68209 100644
--- a/ruby/red-arrow/test/raw-records/test-basic-arrays.rb
+++ b/ruby/red-arrow/test/raw-records/test-basic-arrays.rb
@@ -117,6 +117,16 @@ def test_uint64
     assert_equal(records, target.raw_records)
   end
 
+  def test_half_float
+    records = [
+      [-1.5],
+      [nil],
+      [1.5],
+    ]
+    target = build({column: :half_float}, records)
+    assert_equal(records, target.raw_records)
+  end
+
   def test_float
     records = [
       [-1.0],
diff --git a/ruby/red-arrow/test/test-data-type.rb b/ruby/red-arrow/test/test-data-type.rb
index f5483178000..deb66dd9b72 100644
--- a/ruby/red-arrow/test/test-data-type.rb
+++ b/ruby/red-arrow/test/test-data-type.rb
@@ -54,7 +54,8 @@ class DataTypeTest < Test::Unit::TestCase
         "abstract type: <:floating_point>: " +
         "use one of not abstract type: [" +
         "Arrow::DoubleDataType, " +
-        "Arrow::FloatDataType]"
+        "Arrow::FloatDataType, " +
+        "Arrow::HalfFloatDataType]"
       assert_raise(ArgumentError.new(message)) do
         Arrow::DataType.resolve(:floating_point)
       end
diff --git a/ci/scripts/integration_kartothek.sh b/ruby/red-arrow/test/test-half-float-array.rb
old mode 100755
new mode 100644
similarity index 52%
rename from ci/scripts/integration_kartothek.sh
rename to ruby/red-arrow/test/test-half-float-array.rb
index 111f117017e..a13dcea2f9f
--- a/ci/scripts/integration_kartothek.sh
+++ b/ruby/red-arrow/test/test-half-float-array.rb
@@ -1,5 +1,3 @@
-#!/usr/bin/env bash
-#
 # Licensed to the Apache Software Foundation (ASF) under one
 # or more contributor license agreements.  See the NOTICE file
 # distributed with this work for additional information
@@ -17,18 +15,29 @@
 # specific language governing permissions and limitations
 # under the License.
 
-set -e
+class HalfFloatArrayTest < Test::Unit::TestCase
+  sub_test_case(".new") do
+    test("Float") do
+      array = Arrow::HalfFloatArray.new([1.5])
+      assert_equal([1.5], array.to_a)
+    end
 
-# check that optional pyarrow modules are available
-# because pytest would just skip the pyarrow tests
-python -c "import pyarrow.parquet"
+    test("Integer") do
+      one_half = Arrow::HalfFloat.new(1.5)
+      array = Arrow::HalfFloatArray.new([one_half.to_uint16])
+      assert_equal([one_half.to_f], array.to_a)
+    end
 
-# check that kartothek is correctly installed
-python -c "import kartothek"
+    test("HalfFloat") do
+      one_half = Arrow::HalfFloat.new(1.5)
+      array = Arrow::HalfFloatArray.new([one_half])
+      assert_equal([one_half.to_f], array.to_a)
+    end
+  end
 
-pushd /kartothek
-# See ARROW-12314, test_load_dataframes_columns_raises_missing skipped because of changed error message
-# See ARROW-16262 and https://github.com/JDASoftwareGroup/kartothek/issues/515
-pytest -n0 --ignore tests/cli/test_query.py -k "not test_load_dataframes_columns_raises_missing \
-              and not dates_as_object and not test_date_as_object \
-              and not test_predicate_pushdown and not test_predicate_evaluation_date"
+  test("#[]") do
+    one_half = Arrow::HalfFloat.new(1.5)
+    array = Arrow::HalfFloatArray.new([one_half.to_uint16])
+    assert_equal(one_half.to_f, array[0])
+  end
+end
diff --git a/ruby/red-arrow/test/test-half-float.rb b/ruby/red-arrow/test/test-half-float.rb
new file mode 100644
index 00000000000..1b551a0333d
--- /dev/null
+++ b/ruby/red-arrow/test/test-half-float.rb
@@ -0,0 +1,130 @@
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+
+class HalfFloatTest < Test::Unit::TestCase
+  sub_test_case(".new") do
+    test("Array") do
+      positive_infinity = Arrow::HalfFloat.new(0b1, 0b11111, 0b0000000000)
+      assert_equal([0b1, 0b11111, 0b0000000000],
+                   [
+                     positive_infinity.sign,
+                     positive_infinity.exponent,
+                     positive_infinity.fraction,
+                   ])
+    end
+
+    test("Integer - 0") do
+      zero = Arrow::HalfFloat.new(0)
+      assert_equal([0b0, 0b00000, 0b0000000000],
+                   [
+                     zero.sign,
+                     zero.exponent,
+                     zero.fraction,
+                   ])
+    end
+
+    test("Integer - +infinity") do
+      positive_infinity = Arrow::HalfFloat.new(0x7c00)
+      assert_equal([0b0, 0b11111, 0b0000000000],
+                   [
+                     positive_infinity.sign,
+                     positive_infinity.exponent,
+                     positive_infinity.fraction,
+                   ])
+    end
+
+    test("Integer - -infinity") do
+      negative_infinity = Arrow::HalfFloat.new(0xfc00)
+      assert_equal([0b1, 0b11111, 0b0000000000],
+                   [
+                     negative_infinity.sign,
+                     negative_infinity.exponent,
+                     negative_infinity.fraction,
+                   ])
+    end
+
+    test("Integer - 1/3") do
+      one_thirds = Arrow::HalfFloat.new(0x3555)
+      assert_equal([0b0, 0b01101, 0b0101010101],
+                   [
+                     one_thirds.sign,
+                     one_thirds.exponent,
+                     one_thirds.fraction,
+                   ])
+    end
+
+    test("Float - 0") do
+      zero = Arrow::HalfFloat.new(0.0)
+      assert_equal([0b0, 0b00000, 0b0000000000],
+                   [
+                     zero.sign,
+                     zero.exponent,
+                     zero.fraction,
+                   ])
+    end
+
+    test("Float - too large") do
+      positive_infinity = Arrow::HalfFloat.new(65504.1)
+      assert_equal([0b0, 0b11111, 0b0000000000],
+                   [
+                     positive_infinity.sign,
+                     positive_infinity.exponent,
+                     positive_infinity.fraction,
+                   ])
+    end
+
+    test("Float - +infinity") do
+      positive_infinity = Arrow::HalfFloat.new(Float::INFINITY)
+      assert_equal([0b0, 0b11111, 0b0000000000],
+                   [
+                     positive_infinity.sign,
+                     positive_infinity.exponent,
+                     positive_infinity.fraction,
+                   ])
+    end
+
+    test("Float - too small") do
+      negative_infinity = Arrow::HalfFloat.new(-65504.1)
+      assert_equal([0b1, 0b11111, 0b0000000000],
+                   [
+                     negative_infinity.sign,
+                     negative_infinity.exponent,
+                     negative_infinity.fraction,
+                   ])
+    end
+
+    test("Float - -infinity") do
+      negative_infinity = Arrow::HalfFloat.new(-Float::INFINITY)
+      assert_equal([0b1, 0b11111, 0b0000000000],
+                   [
+                     negative_infinity.sign,
+                     negative_infinity.exponent,
+                     negative_infinity.fraction,
+                   ])
+    end
+
+    test("Float - 1/3") do
+      one_thirds = Arrow::HalfFloat.new((2 ** -2) * (1 + 341 / 1024.0))
+      assert_equal([0b0, 0b01101, 0b0101010101],
+                   [
+                     one_thirds.sign,
+                     one_thirds.exponent,
+                     one_thirds.fraction,
+                   ])
+    end
+  end
+end
diff --git a/ruby/red-arrow/test/test-orc.rb b/ruby/red-arrow/test/test-orc.rb
index b882da0a1b5..4670350a09d 100644
--- a/ruby/red-arrow/test/test-orc.rb
+++ b/ruby/red-arrow/test/test-orc.rb
@@ -164,8 +164,8 @@ def pp_values(values)
         ]
       end
       assert_equal([
-                     ["boolean1: bool", [pp_values([false, true])]],
-                     ["short1: int16", [pp_values([1024, 2048])]],
+                     ["byte1: int8", [pp_values([1, 100])]],
+                     ["int1: int32", [pp_values([65536, 65536])]],
                    ],
                    dump)
     end
diff --git a/ruby/red-arrow/test/test-table.rb b/ruby/red-arrow/test/test-table.rb
index 2cdccb95fdf..bd09c3536a2 100644
--- a/ruby/red-arrow/test/test-table.rb
+++ b/ruby/red-arrow/test/test-table.rb
@@ -40,6 +40,40 @@ def setup
     @table = Arrow::Table.new(schema, [@count_array, @visible_array])
   end
 
+  sub_test_case(".new") do
+    test("{Symbol: Arrow::Array}") do
+      schema = Arrow::Schema.new(numbers: :int64)
+      assert_equal(Arrow::Table.new(schema,
+                                    [Arrow::Int64Array.new([1, 2, 3])]),
+                   Arrow::Table.new(numbers: Arrow::Int64Array.new([1, 2, 3])))
+    end
+
+    test("{Symbol: Arrow::ChunkedArray}") do
+      chunked_array = Arrow::ChunkedArray.new([Arrow::Int64Array.new([1, 2, 3])])
+      schema = Arrow::Schema.new(numbers: :int64)
+      assert_equal(Arrow::Table.new(schema,
+                                    [Arrow::Int64Array.new([1, 2, 3])]),
+                   Arrow::Table.new(numbers: chunked_array))
+    end
+
+    test("{Symbol: Arrow::Tensor}") do
+      schema = Arrow::Schema.new(numbers: :uint8)
+      assert_equal(Arrow::Table.new(schema,
+                                    [Arrow::UInt8Array.new([1, 2, 3])]),
+                   Arrow::Table.new(numbers: Arrow::Tensor.new([1, 2, 3])))
+    end
+
+    test("{Symbol: #to_ary}") do
+      array_like = Object.new
+      def array_like.to_ary
+        [1, 2, 3]
+      end
+      schema = Arrow::Schema.new(numbers: :uint8)
+      assert_equal(Arrow::Table.new(schema, [Arrow::UInt8Array.new([1, 2, 3])]),
+                   Arrow::Table.new(numbers: array_like))
+    end
+  end
+
   test("#columns") do
     assert_equal([
                    Arrow::Column.new(@table, 0),
@@ -568,6 +602,18 @@ def setup
     end
   end
 
+  sub_test_case("#column_names") do
+    test("unique") do
+      table = Arrow::Table.new(a: [1], b: [2], c: [3])
+      assert_equal(%w[a b c], table.column_names)
+    end
+
+    test("duplicated") do
+      table = Arrow::Table.new([["a", [1, 2, 3]], ["a", [4, 5, 6]]])
+      assert_equal(%w[a a], table.column_names)
+    end
+  end
+
   sub_test_case("#save and .load") do
     module SaveLoadFormatTests
       def test_default
@@ -674,6 +720,11 @@ def create_output(extension)
                                            schema: @table.schema))
           end
 
+          test("csv, return value") do
+            output = create_output(".csv")
+            assert_equal(@table, @table.save(output))
+          end
+
           test("csv.gz") do
             output = create_output(".csv.gz")
             @table.save(output)
@@ -814,6 +865,76 @@ def test_http(data)
         end
       end
     end
+
+    sub_test_case("GC") do
+      def setup
+        table = Arrow::Table.new(integer: [1, 2, 3],
+                                 string: ["a", "b", "c"])
+        @buffer = Arrow::ResizableBuffer.new(1024)
+        table.save(@buffer, format: :arrow)
+        @loaded_table = Arrow::Table.load(@buffer)
+      end
+
+      def test_chunked_array
+        chunked_array = @loaded_table[0].data
+        assert_equal(@buffer,
+                     chunked_array.instance_variable_get(:@input).buffer)
+      end
+
+      def test_array
+        array = @loaded_table[0].data.chunks[0]
+        assert_equal(@buffer,
+                     array.instance_variable_get(:@input).buffer)
+      end
+
+      def test_record_batch
+        record_batch = @loaded_table.each_record_batch.first
+        assert_equal(@buffer,
+                     record_batch.instance_variable_get(:@input).buffer)
+      end
+
+      def test_record_batch_array
+        array = @loaded_table.each_record_batch.first[0].data
+        assert_equal(@buffer,
+                     array.instance_variable_get(:@input).buffer)
+      end
+
+      def test_record_batch_table
+        table = @loaded_table.each_record_batch.first.to_table
+        assert_equal(@buffer,
+                     table.instance_variable_get(:@input).buffer)
+      end
+
+      def test_slice
+        table = @loaded_table.slice(0..-1)
+        assert_equal(@buffer,
+                     table.instance_variable_get(:@input).buffer)
+      end
+
+      def test_merge
+        table = @loaded_table.merge({})
+        assert_equal(@buffer,
+                     table.instance_variable_get(:@input).buffer)
+      end
+
+      def test_remove_column
+        table = @loaded_table.remove_column(0)
+        assert_equal(@buffer,
+                     table.instance_variable_get(:@input).buffer)
+      end
+
+      def test_pack
+        table = @loaded_table.pack
+        assert_equal(@buffer,
+                     table.instance_variable_get(:@input).buffer)
+      end
+
+      def test_join
+        table = @loaded_table.join(@loaded_table, :integer)
+        assert_equal(@buffer,
+                     table.instance_variable_get(:@input).buffer)
+      end
+    end
   end
 
   test("#pack") do
@@ -1010,6 +1131,20 @@ def setup
   end
 
   sub_test_case("#join") do
+    test("no keys") do
+      table1 = Arrow::Table.new(key: [1, 2, 3],
+                                number: [10, 20, 30])
+      table2 = Arrow::Table.new(key: [3, 1],
+                                string: ["three", "one"])
+      assert_equal(Arrow::Table.new([
+                                      ["key", [1, 3]],
+                                      ["number", [10, 30]],
+                                      ["key", [1, 3]],
+                                      ["string", ["one", "three"]],
+                                    ]),
+                   table1.join(table2))
+    end
+
     test("keys: String") do
       table1 = Arrow::Table.new(key: [1, 2, 3],
                                 number: [10, 20, 30])
@@ -1067,7 +1202,9 @@ def setup
                                       ["right_key", [1, 3]],
                                       ["string", ["one", "three"]],
                                     ]),
-                   table1.join(table2, {left: "left_key", right: :right_key}))
+                   table1.join(table2,
+                               {left: "left_key", right: :right_key},
+                               type: :inner))
     end
 
     test("keys: {left: [String, Symbol], right: [Symbol, String]}") do
@@ -1089,7 +1226,8 @@ def setup
                                {
                                  left: ["left_key1", :left_key2],
                                  right: [:right_key1, "right_key2"],
-                               }))
+                               },
+                               type: :inner))
     end
 
     test("type:") do
diff --git a/ruby/red-arrow/test/test-tensor.rb b/ruby/red-arrow/test/test-tensor.rb
index ffa1e324156..e62f8746763 100644
--- a/ruby/red-arrow/test/test-tensor.rb
+++ b/ruby/red-arrow/test/test-tensor.rb
@@ -16,6 +16,233 @@
 # under the License.
 
 class TensorTest < Test::Unit::TestCase
+  sub_test_case("class methods") do
+    sub_test_case(".new") do
+      def setup
+        @raw_tensor = [
+          [
+            [1, 2, 3, 4],
+            [5, 6, 7, 8],
+          ],
+          [
+            [9, 10, 11, 12],
+            [13, 14, 15, 16],
+          ],
+          [
+            [17, 18, 19, 20],
+            [21, 22, 23, 24],
+          ],
+        ]
+        @shape = [3, 2, 4]
+        @strides = [8, 4, 1]
+      end
+
+      test("Array") do
+        tensor = Arrow::Tensor.new(@raw_tensor)
+        assert_equal({
+                       value_data_type: Arrow::UInt8DataType.new,
+                       buffer: @raw_tensor.flatten.pack("C*"),
+                       shape: @shape,
+                       strides: @strides,
+                       dimension_names: ["", "", ""],
+                     },
+                     {
+                       value_data_type: tensor.value_data_type,
+                       buffer: tensor.buffer.data.to_s,
+                       shape: tensor.shape,
+                       strides: tensor.strides,
+                       dimension_names: tensor.dimension_names,
+                     })
+      end
+
+      test("Array, data_type: Symbol") do
+        tensor = Arrow::Tensor.new(@raw_tensor, data_type: :int32)
+        assert_equal({
+                       value_data_type: Arrow::Int32DataType.new,
+                       buffer: @raw_tensor.flatten.pack("l*"),
+                       shape: @shape,
+                       strides: @strides.collect {|x| x * 4},
+                       dimension_names: ["", "", ""],
+                     },
+                     {
+                       value_data_type: tensor.value_data_type,
+                       buffer: tensor.buffer.data.to_s,
+                       shape: tensor.shape,
+                       strides: tensor.strides,
+                       dimension_names: tensor.dimension_names,
+                     })
+      end
+
+      test("Array, dimension_names: Array<String>") do
+        tensor = Arrow::Tensor.new(@raw_tensor,
+                                   dimension_names: ["a", "b", "c"])
+        assert_equal({
+                       value_data_type: Arrow::UInt8DataType.new,
+                       buffer: @raw_tensor.flatten.pack("C*"),
+                       shape: @shape,
+                       strides: @strides,
+                       dimension_names: ["a", "b", "c"],
+                     },
+                     {
+                       value_data_type: tensor.value_data_type,
+                       buffer: tensor.buffer.data.to_s,
+                       shape: tensor.shape,
+                       strides: tensor.strides,
+                       dimension_names: tensor.dimension_names,
+                     })
+      end
+
+      test("Array, dimension_names: Array<Symbol>") do
+        tensor = Arrow::Tensor.new(@raw_tensor,
+                                   dimension_names: [:a, :b, :c])
+        assert_equal({
+                       value_data_type: Arrow::UInt8DataType.new,
+                       buffer: @raw_tensor.flatten.pack("C*"),
+                       shape: @shape,
+                       strides: @strides,
+                       dimension_names: ["a", "b", "c"],
+                     },
+                     {
+                       value_data_type: tensor.value_data_type,
+                       buffer: tensor.buffer.data.to_s,
+                       shape: tensor.shape,
+                       strides: tensor.strides,
+                       dimension_names: tensor.dimension_names,
+                     })
+      end
+
+      test("Array, strides:") do
+        message = "strides: is only accepted with " +
+                  "an Arrow::Buffer or String raw tensor: #{@strides.inspect}"
+        assert_raise(ArgumentError.new(message)) do
+          Arrow::Tensor.new(@raw_tensor, strides: @strides)
+        end
+      end
+
+      test("Arrow::Buffer, data_type:, shape:") do
+        data_type = :uint8
+        data = Arrow::Buffer.new(@raw_tensor.flatten.pack("C*").freeze)
+        tensor = Arrow::Tensor.new(data,
+                                   data_type: data_type,
+                                   shape: @shape)
+        assert_equal({
+                       value_data_type: Arrow::UInt8DataType.new,
+                       buffer: @raw_tensor.flatten.pack("C*"),
+                       shape: @shape,
+                       strides: @strides,
+                       dimension_names: ["", "", ""],
+                     },
+                     {
+                       value_data_type: tensor.value_data_type,
+                       buffer: tensor.buffer.data.to_s,
+                       shape: tensor.shape,
+                       strides: tensor.strides,
+                       dimension_names: tensor.dimension_names,
+                     })
+      end
+
+      test("String, data_type:, shape:") do
+        data_type = :uint8
+        data = @raw_tensor.flatten.pack("C*").freeze
+        tensor = Arrow::Tensor.new(data,
+                                   data_type: data_type,
+                                   shape: @shape)
+        assert_equal({
+                       value_data_type: Arrow::UInt8DataType.new,
+                       buffer: @raw_tensor.flatten.pack("C*"),
+                       shape: @shape,
+                       strides: @strides,
+                       dimension_names: ["", "", ""],
+                     },
+                     {
+                       value_data_type: tensor.value_data_type,
+                       buffer: tensor.buffer.data.to_s,
+                       shape: tensor.shape,
+                       strides: tensor.strides,
+                       dimension_names: tensor.dimension_names,
+                     })
+      end
+
+      test("String, data_type:") do
+        data_type = :uint8
+        data = @raw_tensor.flatten.pack("C*").freeze
+        message = "shape: is missing: #{data.inspect}"
+        assert_raise(ArgumentError.new(message)) do
+          Arrow::Tensor.new(data, data_type: data_type)
+        end
+      end
+
+      test("String, shape:") do
+        data = @raw_tensor.flatten.pack("C*").freeze
+        message = "data_type: is missing: #{data.inspect}"
+        assert_raise(ArgumentError.new(message)) do
+          Arrow::Tensor.new(data, shape: @shape)
+        end
+      end
+
+      test("String - not ASCII-8BIT") do
+        data = "XXX"
+        message = "raw tensor String must be " +
+                  "an ASCII-8BIT encoded string: #{data.encoding.inspect}"
+        assert_raise(ArgumentError.new(message)) do
+          Arrow::Tensor.new("XXX")
+        end
+      end
+
+      test("Symbol, Arrow::Buffer, shape:") do
+        data_type = :uint8
+        data = Arrow::Buffer.new(@raw_tensor.flatten.pack("C*").freeze)
+        tensor = Arrow::Tensor.new(data_type,
+                                   data,
+                                   shape: @shape)
+        assert_equal({
+                       value_data_type: Arrow::UInt8DataType.new,
+                       buffer: @raw_tensor.flatten.pack("C*"),
+                       shape: @shape,
+                       strides: @strides,
+                       dimension_names: ["", "", ""],
+                     },
+                     {
+                       value_data_type: tensor.value_data_type,
+                       buffer: tensor.buffer.data.to_s,
+                       shape: tensor.shape,
+                       strides: tensor.strides,
+                       dimension_names: tensor.dimension_names,
+                     })
+      end
+
+      test("Symbol, String, shape:, strides: - !contiguous and column major") do
+        data_type = :uint8
+        @shape[-1] -= 1 # Ignore the last element in @raw_tensor
+        @strides.reverse
+        tensor = Arrow::Tensor.new(data_type,
+                                   @raw_tensor.flatten.pack("C*"),
+                                   shape: @shape,
+                                   strides: @strides)
+        assert_equal({
+                       value_data_type: Arrow::UInt8DataType.new,
+                       buffer: @raw_tensor.flatten.pack("C*"),
+                       shape: @shape,
+                       strides: @strides,
+                       dimension_names: ["", "", ""],
+                       contiguous: false,
+                       row_major: false,
+                       column_major: false,
+                     },
+                     {
+                       value_data_type: tensor.value_data_type,
+                       buffer: tensor.buffer.data.to_s,
+                       shape: tensor.shape,
+                       strides: tensor.strides,
+                       dimension_names: tensor.dimension_names,
+                       contiguous: tensor.contiguous?,
+                       row_major: tensor.row_major?,
+                       column_major: tensor.column_major?,
+                     })
+      end
+    end
+  end
+
   sub_test_case("instance methods") do
     def setup
       raw_data = [
@@ -28,11 +255,11 @@ def setup
         9, 10,
         11, 12,
       ]
-      data = Arrow::Buffer.new(raw_data.pack("c*"))
+      data = Arrow::Buffer.new(raw_data.pack("c*").freeze)
       shape = [3, 2, 2]
       strides = []
       names = ["a", "b", "c"]
-      @tensor = Arrow::Tensor.new(Arrow::Int8DataType.new,
+      @tensor = Arrow::Tensor.new(:int8,
                                   data,
                                   shape,
                                   strides,
@@ -52,5 +279,19 @@ def setup
         end
       end
     end
+
+    sub_test_case("#to_arrow_array") do
+      test("1 dimension") do
+        assert_equal(Arrow::UInt8Array.new([1, 2, 3]),
+                     Arrow::Tensor.new([1, 2, 3]).to_arrow_array)
+      end
+
+      test("2 dimensions") do
+        message = "must be 1 dimensional tensor: [3, 1]"
+        assert_raise(RangeError.new(message)) do
+          Arrow::Tensor.new([[1], [2], [3]]).to_arrow_array
+        end
+      end
+    end
   end
 end
diff --git a/ruby/red-arrow/test/values/test-basic-arrays.rb b/ruby/red-arrow/test/values/test-basic-arrays.rb
index 237385fa7b7..ae469d1bf0e 100644
--- a/ruby/red-arrow/test/values/test-basic-arrays.rb
+++ b/ruby/red-arrow/test/values/test-basic-arrays.rb
@@ -107,6 +107,16 @@ def test_uint64
     assert_equal(values, target.values)
   end
 
+  def test_half_float
+    values = [
+      -1.5,
+      nil,
+      1.5,
+    ]
+    target = build(Arrow::HalfFloatArray.new(values))
+    assert_equal(values, target.values)
+  end
+
   def test_float
     values = [
       -1.0,
diff --git a/ruby/red-gandiva/lib/gandiva/version.rb b/ruby/red-gandiva/lib/gandiva/version.rb
index 1c7a7e9592f..a1a8421a092 100644
--- a/ruby/red-gandiva/lib/gandiva/version.rb
+++ b/ruby/red-gandiva/lib/gandiva/version.rb
@@ -16,7 +16,7 @@
 # under the License.
 
 module Gandiva
-  VERSION = "10.0.0-SNAPSHOT"
+  VERSION = "11.0.0"
 
   module Version
     numbers, TAG = VERSION.split("-")
diff --git a/ruby/red-parquet/lib/parquet/version.rb b/ruby/red-parquet/lib/parquet/version.rb
index 2ae31fd435b..b3f281a0d9f 100644
--- a/ruby/red-parquet/lib/parquet/version.rb
+++ b/ruby/red-parquet/lib/parquet/version.rb
@@ -16,7 +16,7 @@
 # under the License.
 
 module Parquet
-  VERSION = "10.0.0-SNAPSHOT"
+  VERSION = "11.0.0"
 
   module Version
     numbers, TAG = VERSION.split("-")
diff --git a/ruby/red-plasma/README.md b/ruby/red-plasma/README.md
index 9fb8fe794b9..ad717685ece 100644
--- a/ruby/red-plasma/README.md
+++ b/ruby/red-plasma/README.md
@@ -19,6 +19,8 @@
 
 # Red Plasma - Plasma Ruby
 
+This is deprecated since 10.0.0. This will be removed from 12.0.0 or so.
+
 Red Plasma is the Ruby bindings of Plasma. Red Plasma is based on GObject Introspection.
 
 Plasma is an in-memory object store and cache for big data.
diff --git a/ruby/red-plasma/lib/plasma/version.rb b/ruby/red-plasma/lib/plasma/version.rb
index 596e3a87f75..ad251e014e4 100644
--- a/ruby/red-plasma/lib/plasma/version.rb
+++ b/ruby/red-plasma/lib/plasma/version.rb
@@ -16,7 +16,7 @@
 # under the License.
 
 module Plasma
-  VERSION = "10.0.0-SNAPSHOT"
+  VERSION = "11.0.0"
 
   module Version
     numbers, TAG = VERSION.split("-")
diff --git a/ruby/red-plasma/red-plasma.gemspec b/ruby/red-plasma/red-plasma.gemspec
index 67e189a3cc8..9d1bcae71f7 100644
--- a/ruby/red-plasma/red-plasma.gemspec
+++ b/ruby/red-plasma/red-plasma.gemspec
@@ -33,7 +33,12 @@ Gem::Specification.new do |spec|
   spec.email = ["dev@arrow.apache.org"]
 
   spec.summary = "Red Plasma is the Ruby bindings of Plasma"
-  spec.description = "Plasma is an in-memory object store and cache for big data."
+  deprecated_message =
+    "red-plasma is deprecated since 10.0.0. " +
+    "red-plasma will not be released from Apache Arrow 12.0.0 or so."
+  spec.description =
+    "Plasma is an in-memory object store and cache for big data. " +
+    deprecated_message
   spec.license = "Apache-2.0"
   spec.files = ["README.md", "Rakefile", "Gemfile", "#{spec.name}.gemspec"]
   spec.files += ["LICENSE.txt", "NOTICE.txt"]
@@ -46,4 +51,6 @@ Gem::Specification.new do |spec|
   spec.add_development_dependency("bundler")
   spec.add_development_dependency("rake")
   spec.add_development_dependency("test-unit")
+
+  spec.post_install_message = deprecated_message
 end
diff --git a/testing b/testing
index 5bab2f264a2..ecab1162cbe 160000
--- a/testing
+++ b/testing
@@ -1 +1 @@
-Subproject commit 5bab2f264a23f5af68f69ea93d24ef1e8e77fc88
+Subproject commit ecab1162cbec872e17d949ecc86181670aee045c